MOOCs Dataset|在线教育数据集|学习行为分析数据集
收藏
- MOOCs Dataset首次发表,标志着大规模开放在线课程数据集的诞生,为教育研究提供了新的数据资源。
- MOOCs Dataset首次应用于教育研究,揭示了在线学习行为与学业成绩之间的关系,推动了在线教育领域的研究进展。
- MOOCs Dataset被广泛应用于多个国际研究项目,促进了全球范围内在线教育数据分析的标准化和共享。
- MOOCs Dataset更新至第二版,增加了更多元化的学习行为数据,提升了数据集的丰富性和研究价值。
- MOOCs Dataset在COVID-19疫情期间发挥了重要作用,支持了全球在线教育应急响应和教学策略的优化。
ChinaTravel
ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。
arXiv 收录
D4LA-版面分析数据集
# D4LA 文档版面分析数据集 (the most Diverse and Detailed Dataset ever for Document Layout Analysis) ## 数据集概述 D4LA是面向文档版面分析的数据集。 ### 数据集简介 包含12类文档工27类文档版面类型,详细如下:  ### 标注格式 ``` D4LA ├── train_images │ ├── 1.jpg ├── test_images │ ├── 2.jpg ├── VGT_D4LA_grid_pkl │ ├── 1.pkl │ └── 2.pkl ├── json │ ├── train.json │ └── test.json ``` ### 引用方式 If you find this repository useful, please consider citing our work: ``` @inproceedings{da2023vgt, title={Vision Grid Transformer for Document Layout Analysis}, author={Cheng Da and Chuwei Luo and Qi Zheng and Cong Yao}, year={2023}, booktitle = {ICCV}, } ``` ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/damo/D4LA.git ```
魔搭社区 收录
WMT
WMT(Workshop on Machine Translation)数据集主要用于机器翻译任务,包含了多种语言对的翻译文本,如英语-德语、英语-法语等。数据集包括了平行语料库,即源语言和目标语言的句子对,以及单语语料库。
www.statmt.org 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
RML24
RML24是首个专门为卫星信号识别和解调的深度学习应用设计的数据集。它整合了遥测和通信信号在遥测、跟踪和指挥(TT&C)系统中,并模拟了真实卫星信道中的信号损伤效应。该数据集利用软件定义无线电(SDR)平台和射频(RF)收发器进行严格的空中测量,并验证收集的数据。RML24为研究人员提供了基本的数据和建模基准,以促进智能和自适应卫星通信系统的算法验证和发展,推动数据驱动卫星通信技术的发展。
github 收录