five

TransWeb-Edu|多语言处理数据集|自然语言处理数据集

收藏
arXiv2024-10-31 更新2024-11-05 收录
多语言处理
自然语言处理
54,000,000条
下载链接:
https://huggingface.co/britllm/CuatroLLM
下载链接
链接失效反馈
资源简介:
TransWeb-Edu是由伦敦大学学院人工智能中心创建的多语言预训练数据集,通过将高质量的英语教育网络数据集FineWeb-Edu翻译成法语、德语和西班牙语而得。该数据集包含约300亿个token,涵盖了约5400万条文档。创建过程中使用了Mistral-7B-Instruct翻译模型,并采用了高效的翻译和重组策略。TransWeb-Edu主要用于训练多语言大型语言模型,旨在提升非英语语言的模型性能,特别是在多语言推理任务中。
提供机构:
伦敦大学学院, 人工智能中心
开放时间:
2024-10-31
创建时间:
2024-10-31
AI搜集汇总
数据集介绍
main_image_url
构建方式
TransWeb-Edu数据集的构建基于高质量的英语网络数据集FineWeb-Edu,通过使用Mistral-7B-Instruct模型将其内容翻译成法语、德语和西班牙语,从而形成一个包含约3000亿个标记的多语言数据集。这一过程确保了翻译数据的文档级别结构,通过将源文档分割成不超过300个标记的片段,逐段翻译后再重新组合,以保持翻译的完整性和一致性。
特点
TransWeb-Edu数据集的主要特点在于其多语言平衡性,通过单一高质量源语言的机器翻译,确保了各目标语言数据的质量和多样性。此外,该数据集的构建方法避免了直接使用平行语料库,而是通过翻译单语数据集来实现多语言模型的预训练,这在当前的多语言预训练模型中是一个创新的方法。
使用方法
TransWeb-Edu数据集适用于从零开始训练多语言语言模型,如CuatroLLM,该模型在多个非英语推理任务中表现出色,甚至超越了使用封闭数据训练的现有最先进的多语言模型。数据集的开放性也促进了可重复性研究,研究人员可以通过访问hf.co/britllm/CuatroLLM获取数据集、模型和训练管道,进一步推动多语言自然语言处理的研究和应用。
背景与挑战
背景概述
TransWeb-Edu数据集由伦敦大学学院(UCL)、Together AI和滑铁卢大学(University of Waterloo)的研究人员共同创建,旨在解决多语言预训练数据集的质量和多样性问题。该数据集通过将高质量的英语网络数据集FineWeb-Edu机器翻译成法语、德语和西班牙语,构建了一个包含约3000亿个标记的多语言预训练语料库。TransWeb-Edu的创建不仅填补了非英语语言在高质量预训练数据上的空白,还显著提升了多语言大语言模型(LLMs)的性能,使其在非英语推理任务中达到或超越了现有最先进的多语言模型。
当前挑战
TransWeb-Edu数据集的构建面临多重挑战。首先,如何确保机器翻译的高质量和一致性是一个关键问题,尤其是在处理长篇文档时。其次,多语言数据集的平衡性问题,即如何确保不同语言的数据在预训练过程中得到公平处理,避免某种语言的主导地位。此外,数据集的构建和预训练过程需要大量的计算资源和时间,如何在有限的资源下高效地完成这一任务也是一个重要挑战。最后,尽管TransWeb-Edu在多语言推理任务中表现优异,但其应用范围和语言多样性仍需进一步扩展,以验证其在更多语言和任务中的有效性。
常用场景
经典使用场景
TransWeb-Edu数据集的经典使用场景在于其为多语言预训练语言模型(LLMs)提供了高质量的多语言文本数据。通过将高质量的英语网络数据集FineWeb-Edu翻译成法语、德语和西班牙语,TransWeb-Edu为多语言LLMs的预训练提供了丰富的多语言语料库。这种多语言预训练数据集的使用,使得模型能够在非英语语言的推理任务中达到或超越现有最先进的多语言模型的性能。
实际应用
TransWeb-Edu数据集在实际应用中具有广泛的前景。其高质量的多语言文本数据可以用于训练多语言聊天机器人、跨语言信息检索系统以及多语言内容生成模型。此外,该数据集还可以用于开发支持多种语言的智能助手和多语言教育工具,从而在全球范围内提升语言理解和生成的技术水平。
衍生相关工作
TransWeb-Edu数据集的发布和使用催生了一系列相关研究工作。例如,基于TransWeb-Edu预训练的CuatroLLM模型在多语言推理任务中表现优异,推动了多语言模型性能的研究。此外,该数据集还激发了对多语言数据集构建和翻译质量评估的研究,促进了多语言自然语言处理领域的技术进步和方法创新。
以上内容由AI搜集并总结生成