indonlp/NusaX-MT|机器翻译数据集|多语言语料库数据集
收藏数据集概述
数据集基本信息
- 名称: NusaX-MT
- 标注创建者: 专家生成
- 语言创建者: 专家生成
- 许可证: CC-BY-SA-4.0
- 多语言性: 多语言
- 语言:
- ace (亚齐语)
- ban (巴厘语)
- bjn (班查尔语)
- bug (布吉语)
- en (英语)
- id (印尼语)
- jv (爪哇语)
- mad (马都拉语)
- min (米南卡保语)
- nij (恩加朱语)
- su (巽他语)
- bbc (托巴语)
- 数据集大小: 10K<n<100K
- 源数据集: 原始数据
- 任务类别: 翻译
数据集特征
- id: 字符串
- text_1: 字符串
- text_2: 字符串
- text_1_lang: 字符串
- text_2_lang: 字符串
数据集摘要
NusaX-MT 是一个高质量的多语言平行语料库,涵盖12种语言,包括印尼语、英语和10种印尼地方语言,即亚齐语、巴厘语、班查尔语、布吉语、马都拉语、米南卡保语、爪哇语、恩加朱语、巽他语和托巴语。该数据集以csv格式呈现,每种语言对应一列。
支持的任务和排行榜
- 印尼语言的机器翻译
数据集创建
策划理由
由于印尼有超过700种语言,但针对印尼语言的自然语言处理研究和资源相对匮乏。因此,我们创建了这个数据集,以支持未来对印尼未被充分代表的语言的研究。
源数据
初始数据收集和规范化
NusaX-MT 是一个由母语者专家翻译的印尼语言机器翻译数据集。
源语言生产者
数据由人类(母语者)生产。
标注
标注过程
NusaX-MT 源自 SmSA,这是印尼情感分析最大的公开可用数据集。它包含来自多个在线平台的评论和评论。为了确保数据集的质量,我们通过手动审查所有句子来过滤掉任何辱骂性语言和个人身份信息。为了确保标签分布的平衡,我们通过分层抽样随机选择了1,000个样本,然后将它们翻译成相应的语言。
标注者
印尼语和相应语言的母语者。标注者根据翻译样本的数量获得报酬。
个人和敏感信息
个人身份信息已被移除。
使用数据的注意事项
数据集的社会影响
偏见讨论
NusaX 是从评论文本中创建的。这些数据源可能包含一些偏见。
其他已知限制
无其他已知限制
附加信息
许可信息
CC-BY-SA 4.0。
- 署名 — 您必须给出适当的署名,提供指向许可证的链接,并指出是否进行了更改。您可以用任何合理的方式这样做,但不以任何方式暗示许可人认可您或您的使用。
- 相同方式共享 — 如果您 remix、变换或构建此材料,您必须基于与原始材料相同的许可证分发您的贡献。
- 无附加限制 — 您不得应用法律条款或技术措施,这些法律条款或技术措施在法律上限制他人进行许可证允许的任何事情。
引用信息
@misc{winata2022nusax, title={NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages}, author={Winata, Genta Indra and Aji, Alham Fikri and Cahyawijaya, Samuel and Mahendra, Rahmad and Koto, Fajri and Romadhony, Ade and Kurniawan, Kemal and Moeljadi, David and Prasojo, Radityo Eko and Fung, Pascale and Baldwin, Timothy and Lau, Jey Han and Sennrich, Rico and Ruder, Sebastian}, year={2022}, eprint={2205.15960}, archivePrefix={arXiv}, primaryClass={cs.CL} }
贡献
感谢 @afaji 添加此数据集。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国区域地面气象要素驱动数据集 v2.0(1951-2020)
中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。
国家青藏高原科学数据中心 收录