Multilingual TED parallel Corpus|多语言翻译数据集|语料库研究数据集
收藏数据集概述
数据集名称
Multilingual TED parallel Corpus
数据集来源
数据集来源于TED.com,通过爬取TED演讲的互动式字幕文本创建。
数据集内容
数据集包含从TED.com提取的109种世界语言的平行语料库。内容包括时间框架、翻译文本及语言代码。
数据集创建过程
-
步骤1:列出TED演讲名称
- 使用BeautifulSoup和urllib库从TED.com静态网站获取所有TED演讲的名称,并存储为字典。
-
步骤2:提取TED演讲数据的翻译
- 使用pandas DataFrame存储包含对齐文本和时间框架的词典,并将数据保存为.csv文件格式。此过程耗时超过48小时,提取了2100+ TED演讲,约800MB文本数据。
-
步骤3:将所有TED演讲的csv文件合并到单一数据框
- 将所有.csv文件中的数据合并到单一的DataFrame中,以便访问所有演讲的109种语言文本数据。
-
步骤4:从所有TED演讲数据框中提取平行语料库
- 使用查询df[[ar,en,fr]]从数据框中提取对齐文本,形成单语、双语和多语平行语料库。
数据集存储与访问
- 数据集存储在GitHub仓库中,可通过以下链接访问:
数据集创建者
- 作者:Ajinkya Kulkarni
- 联系方式:ajinkyakulkarni14@gmail.com

中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
威廉王岛—全球变化数据大百科辞条
威廉王岛(King William Island)位于北美洲,北极圈内,属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间,距离维多利亚岛85 km;北面距离威尔士亲王岛155 km;南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望,最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯(James Ross)发现,以当时在位的英国君主威廉四世的名字命名。行政区划上,威廉王岛隶属于加拿大努纳武特(Nunavut)地区。它的地理位置为:69°54′22″N - 68°27′12″N,99°32′48″W - 95°09′25″W。威廉王岛总面积13259.59 km²,海岸线总长1555.35 km。岛屿地势平坦,表面散布着无数的小湖。位于岛屿东南侧的约阿港(Gjoa Haven)是岛上最主要的居民点。在约阿港东北,有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆(岛)岸线数据集(2015),结合加拿大相关地图完成。数据集由24个数据文件组成,以.kmz和.shp数据格式存储,数据量2.98 MB(压缩成3个数据文件,数据量2.06 MB)。
国家对地观测科学数据中心 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
中国1km分辨率逐月NDVI数据集(2001-2023年)
中国1km分辨率逐月NDVI数据集(2001-2023年)根据MODIS MOD13A2数据进行月度最大值合成、镶嵌和裁剪后制作而成,包含多个TIF文件,每个TIF文件对应该月最大值NDVI数据,文件以时间命名。数据值域改为-0.2~1,不再需要除以一万,另外范围扩大到中国及周边地区,可以自行裁剪。数据分为两个文件夹,MVC文件夹中为MOD13A2 NDVI逐月最大值合成结果,mod1k_SGfilter为MVC中数据S-G滤波后的结果。
国家地球系统科学数据中心 收录