nlp-waseda/JMMLU|语言模型评估数据集|日语理解数据集

hugging_face2024-02-27 更新2024-03-04 收录

语言模型评估

日语理解

下载链接：

https://hf-mirror.com/datasets/nlp-waseda/JMMLU

下载链接

链接失效反馈

资源简介：

JMMLU（Japanese Massive Multitask Language Understanding Benchmark）是一个用于评估大型语言模型在日语环境下表现的多选题数据集。它包含从MMLU（Massive Multitask Language Understanding）翻译的日语问题以及基于日本文化背景的原创问题。数据集由7536个问题组成，涵盖56个不同的学科领域，如专业医学、哲学、日本历史、日本地理等。翻译问题经过机器翻译和人工校对，确保其流畅性和文化适应性；原创问题则由日本教师手动创建。数据集的格式与MMLU相同，每个问题包含四个选项和一个正确答案。JMMLU的版权归属于多个机构，商业使用仅限于语言模型的研究和评估。

提供机构：

nlp-waseda

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建，包含11,727个交通事故视频，总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口，还提供了详细的文本描述，包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息，提高交通事故预测的准确性和解释性，从而支持更安全的驾驶决策系统。

arXiv 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。