P-MMEVAL|多语言评估数据集|自然语言处理数据集

arXiv2024-11-14 更新2024-11-16 收录

多语言评估

自然语言处理

下载链接：

https://huggingface.co/datasets/Qwen/P-MMEval

下载链接

链接失效反馈

资源简介：

P-MMEVAL是由阿里巴巴集团通义实验室创建的一个大规模多语言多任务基准数据集，旨在全面评估大型语言模型（LLMs）的多语言能力。该数据集包含三个基础自然语言处理（NLP）数据集和五个高级能力专项数据集，涵盖了代码生成、知识理解、数学推理、逻辑推理和指令跟随等任务。数据集通过专家翻译审查，确保了10种语言的一致覆盖，提供了跨语言的平行样本。P-MMEVAL的应用领域主要集中在LLMs的多语言能力评估和跨语言迁移能力的研究，旨在解决现有评估方法在多语言覆盖和任务多样性上的不足。

提供机构：

阿里巴巴集团通义实验室

创建时间：

2024-11-14

AI搜集汇总

数据集介绍

构建方式

P-MMEVAL数据集的构建过程分为三个主要阶段。首先，通过精心筛选和评估大量现有基准，选择出具有代表性和挑战性的数据集，以确保这些基准能够有效区分不同模型的性能。其次，从当前研究中精选出最具影响力的能力专项任务，包括代码生成、知识理解、数学推理、逻辑推理和指令遵循。最后，整合这些数据集，形成一个包含三个基础NLP数据集和五个能力专项数据集的综合基准，确保所有选定数据集在语言覆盖上的一致性，并提供多语言平行样本。

特点

P-MMEVAL数据集的主要特点在于其全面性和多语言一致性。该基准不仅涵盖了基础的自然语言理解和生成任务，还包含了高级的能力专项任务，确保了对大型语言模型（LLMs）多语言能力的全面评估。此外，P-MMEVAL通过提供多语言平行样本，确保了跨语言评估的公平性和一致性，从而能够更准确地衡量和比较不同模型在多语言环境中的表现。

使用方法

P-MMEVAL数据集的使用方法主要包括模型评估和性能分析。研究者可以通过该数据集对不同的大型语言模型进行多语言多任务评估，分析模型在基础NLP任务和能力专项任务上的表现。此外，数据集还提供了多语言平行样本，便于研究者进行跨语言性能比较和分析。通过详细的实验和分析，P-MMEVAL为未来研究提供了宝贵的指导，特别是在平衡和全面的训练数据、有效的提示工程以及特定语言能力的改进方面。

背景与挑战

背景概述

P-MMEVAL数据集由阿里巴巴集团旗下的Tongyi Lab开发，旨在为大规模语言模型（LLMs）提供一个综合的多语言多任务基准。该数据集的创建旨在解决现有评估方法在多语言能力评估上的局限性，特别是那些仅限于基本自然语言处理任务或特定能力任务的评估。P-MMEVAL通过整合基础NLP任务和能力专业化任务，确保了跨不同数据集的语言一致性，并提供了多语言样本，从而促进了多语言能力的全面评估。

当前挑战

P-MMEVAL数据集面临的挑战包括构建一个既包含广泛任务覆盖又具有强大语言并行性的基准。具体挑战包括：1) 在开发和迭代LLMs时，提供准确和并行的评估结果以识别其多语言能力；2) 在测量特定LLM的多语言能力或比较不同LLM生成的多语言响应质量时，确保评估的系统性和一致性。此外，数据集的构建过程中还面临选择有效基准的挑战，以确保这些基准能够有效区分被评估模型之间的性能差异。

常用场景

经典使用场景

P-MMEVAL数据集在评估大型语言模型（LLMs）的多语言和多任务能力方面具有经典应用。它通过涵盖翻译、代码生成和推理等多种任务，提供了一个全面的基准，以系统地评估LLMs在不同语言和任务中的表现。该数据集的经典使用场景包括在学术研究中比较不同LLMs的多语言能力，以及在工业应用中验证模型在多语言环境下的性能。

实际应用

在实际应用中，P-MMEVAL数据集被广泛用于多语言环境下的模型性能验证和优化。例如，在跨国公司中，该数据集可以帮助评估和提升聊天机器人或自动翻译系统在不同语言中的表现。此外，它还可以用于教育领域，帮助开发多语言学习工具和评估系统，以支持全球化的教育需求。

衍生相关工作

P-MMEVAL数据集的推出激发了一系列相关研究和工作。例如，基于该数据集的研究已经产生了多个改进的多语言模型和评估方法。此外，还有研究致力于开发更高效的数据集选择和评估流程，以进一步提升LLMs的多语言能力评估的准确性和效率。这些衍生工作不仅丰富了多语言NLP领域的研究内容，也为实际应用提供了更多可能性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

YOLO-dataset

该数据集用于训练YOLO模型，包括分类、检测和姿态识别模型。目前支持v8版本，未来计划支持更多版本。

github 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录