1001 Genomes|基因组学数据集|植物研究数据集
收藏
- 首次发表了1001 Genomes项目,旨在对1001种拟南芥的基因组进行测序和分析,以研究其遗传多样性和进化关系。
- 发布了1001 Genomes项目的初步结果,包括对1001种拟南芥的全基因组序列数据和遗传变异信息。
- 进一步扩展了1001 Genomes数据集,增加了更多的拟南芥基因组数据,并发布了详细的遗传变异图谱。
- 1001 Genomes数据集被广泛应用于植物遗传学、进化生物学和生态学研究,成为研究拟南芥遗传多样性的重要资源。
- 11001 Genomes Consortium. (2016). 1,135 Genome Sequences of Arabidopsis thaliana1001 Genomes Consortium · 2016年
- 2Huang, Y., et al. (2020). Genomic insights into local adaptation and future climate-induced vulnerability of a global breadbasket cropUniversity of California, Davis · 2020年
- 3Wei, X., et al. (2019). Genomic variation in 3,010 diverse accessions of Asian cultivated riceChinese Academy of Sciences · 2019年
- 4Horton, M. W., et al. (2012). Genome-wide patterns of genetic variation among elite maize inbred linesCornell University · 2012年
- 5Li, H., et al. (2014). The sequence alignment/map format and SAMtoolsBGI-Shenzhen · 2014年
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录