MT-PREF|机器翻译数据集|偏好分析数据集
收藏MT-Pref 数据集概述
数据集简介
MT-Pref 数据集是一个用于机器翻译(MT)的偏好数据集,旨在通过自动评估指标来模拟用户偏好。该数据集包含 18,000 个实例,涵盖 18 种语言方向,文本来源包括多个领域,时间范围为 2022 年之后。
数据集内容
- 数据来源: 数据集包含多个高质量机器翻译系统生成的翻译结果,并由专业语言学家进行句子级别的质量评估。
- 自动评估指标: 数据集提供了多种自动评估指标的评分,用于分析这些指标在恢复人类偏好方面的能力。
- 附加数据: 数据集还包括在 WMT23 和 FLORES 基准测试上训练模型的所有评估结果,以确保可重复性。
数据集链接
MT-Pref 数据集可通过以下链接获取:sardinelab/MT-pref
数据集用途
该数据集主要用于训练和评估机器翻译模型,特别是那些旨在更好地处理语言细微差别和上下文特定变化的模型。通过使用 MT-Pref 数据集进行训练,模型在 WMT23 和 FLORES 基准测试上的翻译质量显著提升。

- 1Modeling User Preferences with Automatic Metrics: Creating a High-Quality Preference Dataset for Machine Translation电信研究所, 高等技术学院, 里斯本大学, Unbabel, ELLIS里斯本单位, 卡内基梅隆大学, MICS, 中央理工-高等电力学院, 巴黎-萨克雷大学 · 2024年
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
Hang Seng Index
恒生指数(Hang Seng Index)是香港股市的主要股票市场指数,由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司,反映了香港股市的整体表现。
www.hsi.com.hk 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录