mbpp|编程教育数据集|代码生成数据集

huggingface2024-12-08 更新2024-12-12 收录

编程教育

代码生成

下载链接：

https://huggingface.co/datasets/commit0/mbpp

下载链接

链接失效反馈

资源简介：

该数据集包含四个特征：instance_id（整数类型）、prompt（字符串类型）、canonical_solution（字符串类型）和test（字符串类型）。数据集分为四个部分：训练集（train）、测试集（test）、验证集（validation）和提示集（prompt）。每个部分都有相应的文件路径和示例数量。数据集的总下载大小为228122字节，总数据集大小为500198字节。

开放时间：

2024-12-04

创建时间：

2024-12-04

原始信息汇总

MBPP 数据集概述

数据集信息

特征

instance_id: 数据类型为 int32
prompt: 数据类型为 string
canonical_solution: 数据类型为 string
test: 数据类型为 string

数据分割

train: 包含 374 个样本，占用 189426 字节
test: 包含 500 个样本，占用 260317 字节
validation: 包含 90 个样本，占用 45555 字节
prompt: 包含 10 个样本，占用 4900 字节

数据集大小

下载大小: 228122 字节
数据集总大小: 500198 字节

配置

config_name: default
- data_files:
  - train: data/train-*
  - test: data/test-*
  - validation: data/validation-*
  - prompt: data/prompt-*

AI搜集汇总

数据集介绍

构建方式

mbpp数据集的构建基于编程任务的实例化，每个实例包含一个唯一的instance_id、一个编程任务的prompt、一个标准的canonical_solution以及用于验证的test代码。数据集通过精心设计的编程问题，确保了训练、测试和验证集的合理划分，从而为模型提供了全面的评估环境。

特点

mbpp数据集的显著特点在于其结构化的编程任务设计，每个任务都配备了详细的prompt和canonical_solution，这为模型学习提供了明确的指导。此外，数据集包含了丰富的测试用例，确保了模型在不同情境下的鲁棒性和准确性。

使用方法

使用mbpp数据集时，用户可以通过加载train、test和validation三个主要部分来训练和评估模型。每个部分的实例都包含了编程任务的prompt和相应的解决方案，用户可以根据需要调整模型的训练策略，以提高其在编程任务上的表现。

背景与挑战

背景概述

MBPP数据集，全称为'Many-Bug Python Programs'，由研究人员精心构建，旨在为程序修复领域提供一个标准化的测试平台。该数据集的核心研究问题聚焦于自动化程序修复技术，特别是针对Python代码中的错误进行检测与修正。通过提供一系列包含已知错误的Python程序及其对应的正确解决方案，MBPP数据集为研究人员和开发者提供了一个评估和改进自动化修复工具的基准。其创建时间可追溯至近年，主要由专注于软件工程和自动化技术的研究机构或个人推动，对提升代码质量和开发效率具有深远影响。

当前挑战

MBPP数据集在构建和应用过程中面临多项挑战。首先，如何准确识别和生成具有代表性的程序错误，确保这些错误在实际编程环境中具有普遍性，是数据集构建的关键难题。其次，为每个错误提供高质量的修复方案，既要求技术上的精确性，也需考虑解决方案的可读性和实用性。此外，数据集的规模和多样性也是一大挑战，如何在有限的资源下覆盖尽可能多的编程场景和错误类型，以确保数据集的广泛适用性。最后，评估自动化修复工具的性能时，如何设计公平且全面的测试方法，也是一个亟待解决的问题。

常用场景

经典使用场景

MBPP数据集在代码生成与自动编程领域中具有广泛的应用。其经典使用场景包括训练和评估代码生成模型，特别是在生成符合特定编程任务要求的代码片段方面。通过提供详细的编程提示（prompt）、标准解决方案（canonical_solution）以及测试用例（test），该数据集能够有效支持模型在生成代码时保持高度的准确性和可靠性。

衍生相关工作

基于MBPP数据集，研究者们开发了多种先进的代码生成模型和评估方法。例如，一些研究工作利用该数据集进行模型微调，以提高特定编程语言或任务的生成能力；另一些工作则通过分析数据集中的测试用例，提出了新的代码生成评估指标。这些衍生工作进一步推动了代码生成领域的技术进步。

数据集最近研究