DINER|自然语言处理数据集|机器学习数据集

arXiv2024-06-07 更新2024-06-21 收录

自然语言处理

机器学习

223,581条

下载链接：

https://github.com/Jumpy-pku/DiNeR

下载链接

链接失效反馈

资源简介：

DINER是一个大规模的真实中文数据集，由北京大学王选计算机技术研究所创建，旨在通过识别菜名中的食物、动作和口味组合来评估组合泛化能力。该数据集包含3,803种菜名和223,581条对应的食谱，涉及丰富的语言现象如指代、省略和歧义。创建过程中，数据集通过最大复合分布差异(TMCD)方法进行分割，以确保训练和测试集的分布差异最大化。DINER数据集的应用领域主要集中在自然语言处理和机器学习，特别是在菜名识别和组合泛化能力的评估上，为模型提供了挑战性的任务和丰富的语言现象分析。

提供机构：

北京大学王选计算机技术研究所

开放时间：

2024-06-07

创建时间：

2024-06-07

AI搜集汇总

数据集介绍

构建方式

DINER数据集基于大规模的中文食谱语料库XIACHUFANG构建，通过收集和清洗食谱中的(指令, 菜名)对，确保数据的真实性和多样性。数据集包含3,811道菜和228,114条食谱，涵盖丰富的语言现象如指代、省略和歧义。通过最大化复合分布差异的TMCD方法进行数据分割，确保训练和测试集在复合分布上具有显著差异，从而提升数据集在组合泛化任务中的挑战性。

特点

DINER数据集的显著特点在于其大规模的真实性和多样性，涵盖了多种语言现象和组合形式。数据集不仅包含丰富的食材、动作和口味组合，还通过TMCD分割方法确保了训练和测试集在复合分布上的显著差异，从而提升了组合泛化任务的难度。此外，数据集还提供了基于T5和大型语言模型的强基线方法，为研究组合泛化提供了有力的工具。

使用方法

DINER数据集适用于评估模型在组合泛化任务中的表现，特别是菜名识别任务。研究者可以使用数据集中的食谱指令来训练模型，并通过预测菜名来评估模型的组合泛化能力。数据集提供了基于T5的序列到序列模型和大型语言模型的基线方法，研究者可以在此基础上进行进一步的模型优化和实验。此外，数据集的TMCD分割方法也为研究者提供了不同分布偏移水平下的评估能力，有助于深入理解模型的泛化性能。

背景与挑战

背景概述

在自然语言处理领域，组合泛化能力是评估模型理解和生成新组合结构的重要指标。现有的组合泛化数据集多为人工合成，缺乏自然语言的多样性。为了更好地研究组合泛化，特别是语言现象和组合多样性，北京大学王选计算机研究所的Chengang Hu、Xiao Liu和Yansong Feng等人提出了DIsh NamE Recognition (DINER)任务，并创建了一个大规模的真实中文数据集。该数据集包含3,811种菜品和228,114条食谱，涉及丰富的语言现象如指代、省略和歧义。DINER数据集的提出不仅为组合泛化研究提供了新的挑战，也为相关领域的研究提供了宝贵的资源。

当前挑战

DINER数据集在构建过程中面临多项挑战。首先，如何从大规模的食谱数据中准确提取菜品名称是一个复杂的问题，因为食谱标题可能包含不相关的描述和表情符号。其次，中文菜品名称通常由食材、动作和口味组合而成，现有的中文分词模型难以准确解析这些多成分词汇。此外，数据集的分割需要考虑组合泛化的多样性，确保训练集和测试集在组合分布上具有足够的差异。这些挑战不仅考验了数据处理的技术，也对模型的组合泛化能力提出了更高的要求。

常用场景

经典使用场景

DINER数据集的经典使用场景在于评估模型在组合泛化任务中的表现，特别是在处理自然语言变异和多样化的组合形式时。通过提供大量的真实中文菜谱数据，模型需要根据菜谱指令预测出菜名，这些菜名通常由食物、动作和口味三种成分组合而成。这种任务不仅要求模型具备总结和抽象的能力，还需要处理如指代、省略和歧义等语言现象。

解决学术问题

DINER数据集解决了现有组合泛化数据集在自然语言变异和数据规模上的不足。通过提供大规模、多样化的真实中文菜谱数据，该数据集为研究组合泛化提供了新的挑战和基准。这不仅有助于推动自然语言处理领域的发展，还为理解人类语言的组合能力提供了宝贵的资源。

衍生相关工作

基于DINER数据集，研究者们开发了多种基线方法，如使用T5模型进行微调和持续预训练，以及利用GPT-3.5进行上下文学习。这些方法不仅提升了模型在组合泛化任务中的表现，还为后续研究提供了新的思路和方法。未来，这些工作有望进一步推动自然语言处理技术在实际应用中的发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能 - 构建机器生命的训练基石

数据集 93个

机构 8个

大模型

数据集 439个

机构 10个

自动驾驶

数据集 34个

机构 7个

医学影像

数据集 123个

机构 7个

空间智能

数据集 21个

机构 5个

蛋白质结构

数据集 50个

机构 8个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code2024-05-15 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv2024-09-20 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com2024-10-25 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心2024-03-04 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face2024-03-04 收录