five

TransWeb-Edu|多语言处理数据集|教育数据数据集

收藏
arXiv2024-11-06 更新2024-11-08 收录
多语言处理
教育数据
54,000,000条
下载链接:
hf.co/britllm/CuatroLLM
下载链接
链接失效反馈
资源简介:
TransWeb-Edu是由伦敦大学学院人工智能中心创建的多语言预训练数据集,通过将高质量的英语网络数据集FineWeb-Edu翻译成法语、德语和西班牙语而生成。该数据集包含约3000亿个Tokens,覆盖了教育领域的内容。创建过程中使用了Mistral-7B-Instruct翻译模型,确保了翻译质量。TransWeb-Edu主要用于训练多语言大型语言模型(LLMs),旨在提升非英语语言的模型性能,特别是在推理任务中的表现。
提供机构:
伦敦大学学院人工智能中心
开放时间:
2024-10-31
创建时间:
2024-10-31
AI搜集汇总
数据集介绍
构建方式
TransWeb-Edu数据集的构建基于高质量的英语网络数据集FineWeb-Edu,通过使用Mistral-7B-Instruct模型将其翻译成法语、德语和西班牙语。这一过程确保了翻译数据的高质量和多样性,最终形成了包含约3000亿个标记的多语言数据集。翻译过程中,源文档被分割成不超过300个标记的片段,逐个翻译后再重新组合,以确保翻译的完整性和准确性。
特点
TransWeb-Edu数据集的主要特点在于其多语言平衡性和高质量。通过单一高质量源语言的机器翻译,该数据集在多语言预训练中表现出显著优势,尤其在非英语语言上的表现超越了现有模型。此外,数据集的开放性和大规模性也为多语言自然语言处理研究提供了宝贵的资源。
使用方法
TransWeb-Edu数据集适用于从零开始的多语言语言模型预训练。研究者可以使用该数据集训练1.3亿参数的CuatroLLM模型,该模型在多个非英语推理任务中表现出色。数据集的开放性使得研究者可以自由访问和使用,促进了多语言NLP研究的 reproducibility 和创新。
背景与挑战
背景概述
TransWeb-Edu数据集由伦敦大学学院人工智能中心、Together AI和滑铁卢大学等机构的研究人员共同创建。该数据集的核心研究问题在于通过机器翻译技术,将高质量的英语网络数据集FineWeb-Edu翻译成法语、德语和西班牙语,从而构建一个包含3000亿标记的多语言预训练语料库。这一研究旨在解决当前多语言预训练语料库质量与多样性不足的问题,特别是在非英语语言上的表现。TransWeb-Edu的创建不仅推动了多语言自然语言处理模型的发展,还为跨语言知识传递提供了新的可能性。
当前挑战
TransWeb-Edu数据集在构建过程中面临多重挑战。首先,如何确保机器翻译的高质量,特别是在处理长篇文档时,避免信息丢失是一个关键问题。其次,多语言数据集的平衡性问题,即如何确保各语言数据在预训练中的权重均衡,避免模型对某一语言的偏重。此外,数据集的构建还需要解决计算资源的高效利用问题,以处理大规模的翻译任务。最后,如何在保持数据多样性的同时,确保数据的质量和一致性,也是该数据集面临的重要挑战。
常用场景
经典使用场景
TransWeb-Edu数据集的经典应用场景在于其为多语言预训练语言模型(LLMs)提供了高质量的多语言文本资源。通过将高质量的英语网络数据集FineWeb-Edu翻译成法语、德语和西班牙语,TransWeb-Edu为模型训练提供了丰富的多语言语料库。这种多语言数据的混合使用,使得预训练模型如CuatroLLM在非英语推理任务中表现出色,甚至超越了使用封闭数据训练的现有最先进的多语言模型。
衍生相关工作
TransWeb-Edu数据集的发布催生了一系列相关研究工作,特别是在多语言预训练和跨语言迁移学习领域。例如,研究者们利用TransWeb-Edu进行进一步的模型微调和优化,开发出更高效的多语言模型。此外,该数据集还激发了对低资源语言处理的研究兴趣,推动了多语言数据集构建和评估方法的创新。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言预训练模型的研究一直是前沿热点。TransWeb-Edu数据集通过将高质量的英文网络数据集FineWeb-Edu机器翻译成法语、德语和西班牙语,构建了一个包含300亿标记的多语言数据集。这一创新方法显著提升了多语言大语言模型(LLMs)的性能,尤其是在非英语语言上的表现。研究表明,使用TransWeb-Edu数据集预训练的1.3亿参数模型CuatroLLM,在五个非英语推理任务中,与使用封闭数据训练的领先多语言模型如Llama3.2和Gemma2相比,表现出相当甚至更优的性能,尽管使用的数据量仅为后者的6%。此外,通过额外的领域特定预训练,CuatroLLM在多语言推理任务中的表现超越了现有技术水平。这一研究不仅推动了多语言NLP的发展,还为构建更加平衡和高效的多语言预训练数据集提供了新的思路。
相关研究论文
  • 1
    Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language伦敦大学学院人工智能中心 · 2024年
以上内容由AI搜集并总结生成