Multilingual TED parallel Corpus|多语言翻译数据集|语料库研究数据集
收藏数据集概述
数据集名称
Multilingual TED parallel Corpus
数据集来源
数据集来源于TED.com,通过爬取TED演讲的互动式字幕文本创建。
数据集内容
数据集包含从TED.com提取的109种世界语言的平行语料库。内容包括时间框架、翻译文本及语言代码。
数据集创建过程
-
步骤1:列出TED演讲名称
- 使用BeautifulSoup和urllib库从TED.com静态网站获取所有TED演讲的名称,并存储为字典。
-
步骤2:提取TED演讲数据的翻译
- 使用pandas DataFrame存储包含对齐文本和时间框架的词典,并将数据保存为.csv文件格式。此过程耗时超过48小时,提取了2100+ TED演讲,约800MB文本数据。
-
步骤3:将所有TED演讲的csv文件合并到单一数据框
- 将所有.csv文件中的数据合并到单一的DataFrame中,以便访问所有演讲的109种语言文本数据。
-
步骤4:从所有TED演讲数据框中提取平行语料库
- 使用查询df[[ar,en,fr]]从数据框中提取对齐文本,形成单语、双语和多语平行语料库。
数据集存储与访问
- 数据集存储在GitHub仓库中,可通过以下链接访问:
数据集创建者
- 作者:Ajinkya Kulkarni
- 联系方式:ajinkyakulkarni14@gmail.com

UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录