Word2Vec: Google News Corpus|自然语言处理数据集|词嵌入数据集
收藏
- Google首次发布Word2Vec模型,并公开了基于Google News数据集的预训练词向量,该数据集包含约1000亿个单词。
- Word2Vec模型及其预训练词向量在自然语言处理领域引起广泛关注,成为词嵌入技术的代表性成果之一。
- 研究者们开始广泛应用Word2Vec模型及其预训练词向量于各种自然语言处理任务,如文本分类、情感分析和机器翻译等。
- 随着深度学习技术的发展,Word2Vec模型的改进版本和变体不断涌现,进一步推动了词嵌入技术的发展。
- Word2Vec模型及其预训练词向量被集成到多个自然语言处理工具包和框架中,成为研究和应用的标准工具之一。
- 随着BERT等更先进的预训练语言模型出现,Word2Vec的影响力逐渐被新一代模型所超越,但其基础性和开创性地位依然受到认可。
- 1Efficient Estimation of Word Representations in Vector SpaceGoogle · 2013年
- 2Distributed Representations of Words and Phrases and their CompositionalityGoogle · 2013年
- 3Word Embeddings: A SurveyUniversity of Cambridge · 2019年
- 4Contextual Word Representations: A Contextual IntroductionUniversity of Washington · 2019年
- 5Evaluating Word Embedding Models: Methods and Experimental ResultsStanford University · 2020年
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录