five

CJEval|教育评估数据集|大型语言模型数据集

收藏
arXiv2024-09-25 更新2024-09-26 收录
教育评估
大型语言模型
下载链接:
https://github.com/SmileWHC/CJEval
下载链接
链接失效反馈
资源简介:
CJEval是一个基于中国初中考试数据的新型评估基准,由腾讯优图实验室和北京大学联合开发。该数据集包含26,136个样本,涵盖四个应用级别的教学任务和十个学科。数据集不仅包括问题和答案,还详细标注了问题类型、难度级别、知识概念和答案解释。创建过程中,数据集通过真实考试题目收集,并由教育专家手动标注。CJEval旨在全面评估大型语言模型在教育领域的应用潜力,解决现有基准在教育应用中的局限性。
提供机构:
腾讯优图实验室, 北京大学
创建时间:
2024-09-25
AI搜集汇总
数据集介绍
main_image_url
构建方式
CJEval数据集的构建基于中国初中考试的真实题目,涵盖了四个应用级别的教学任务,跨越十个学科。该数据集包含了26,136个样本,不仅包括问题和答案,还详细标注了问题类型、难度级别、知识概念及答案解释。通过整合多样化的任务和数据注释,CJEval旨在创建一个更全面和稳健的教育大语言模型评估参考数据集。
使用方法
CJEval数据集可用于多种教育任务的评估和模型微调。用户可以通过该数据集进行知识概念标注、问题难度预测、问题回答和问题生成等任务的训练和测试。具体使用方法包括:首先,根据任务需求选择相应的数据子集;其次,利用数据集中的详细注释信息进行模型训练;最后,通过对比模型在测试集上的表现,评估其在教育领域的应用潜力。
背景与挑战
背景概述
随着在线教育平台的兴起,教育资源的传播方式发生了显著变化,大型语言模型(LLMs)如ChatGPT和Llama的出现进一步提升了这些平台的智能化水平。然而,现有的学术基准在实际行业应用中提供的指导有限,特别是在教育应用中,不仅需要简单的测试问题回答。为了填补这一空白,我们引入了CJEval,这是一个基于中国初中考试评估的基准。CJEval包含26,136个样本,涵盖四个应用级别的教学任务,涉及十个科目。这些样本不仅包括问题和答案,还包括问题类型、难度级别、知识概念和答案解释等详细注释。通过利用这一基准,我们评估了LLMs在教育领域的潜在应用,并对它们在各种教学任务上的表现进行了全面分析。
当前挑战
CJEval面临的挑战主要集中在两个方面:一是解决教育领域中复杂问题的能力,包括理解学生的具体问题并应用专业教学知识提供有效解决方案;二是数据集构建过程中遇到的挑战,如确保数据集的多样性和全面性,以及在注释过程中保持高质量和一致性。此外,现有的基准主要集中在多选题上,这可能限制了模型在更复杂教育评估中的全面能力。CJEval通过整合多样化的任务和多维度的注释信息,旨在创建一个更全面和强大的教育LLMs评估参考数据集。
常用场景
经典使用场景
CJEval数据集的经典使用场景主要集中在评估大型语言模型(LLMs)在教育领域的应用能力。通过提供详细的考试题目、答案及其相关注释,如题目类型、难度级别、知识概念和答案解释,CJEval使研究者能够对LLMs在教育任务中的表现进行全面分析。具体任务包括知识概念标记、题目难度预测、问答和题目生成,这些任务覆盖了初中教育的多个学科,为LLMs在教育评估中的应用提供了坚实的基础。
解决学术问题
CJEval数据集解决了当前学术研究中对LLMs在教育领域应用评估的不足问题。传统基准测试主要集中在单一类型的选择题上,无法全面反映模型在教育评估中的综合能力。CJEval通过整合多种任务和多维度的注释信息,提供了一个更全面和稳健的评估框架,有助于识别LLMs在教育应用中的潜力和局限性,推动教育技术的发展。
实际应用
CJEval数据集在实际应用中主要用于开发和优化智能教育系统。通过利用数据集中的详细注释,教育技术开发者可以训练和微调LLMs,以提高其在知识概念标记、题目难度预测、问答和题目生成等任务中的表现。这些应用不仅能够提升在线教育平台的智能化水平,还能为学生提供个性化的学习体验和精准的学习评估,从而提高教育质量和效率。
数据集最近研究
最新研究方向
在教育领域,CJEval数据集的最新研究方向主要集中在利用大型语言模型(LLMs)进行教育评估和个性化学习系统的开发。通过整合中国初中考试数据,CJEval不仅提供了丰富的题型和难度级别,还包含了详细的知识概念和答案解释,从而为LLMs在教育应用中的性能评估提供了全面的基准。研究者们通过微调LLMs,探索其在知识概念标记、问题难度预测、问题回答和问题生成等任务中的表现,旨在提升教育平台的智能化水平,实现更精准的学习评估和个性化教学。
相关研究论文
  • 1
    CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data腾讯优图实验室, 北京大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

安星云平台

安星平台是一个功能强大的工具,用于管理消防技术服务公司或个人的日常工作流程,提高工作效率。该平台支持多种任务类型,包括消防维保、消防检测和消防评估等,能够满足不同用户的需求。在安星平台上,用户可以快速创建任务、分配任务、跟踪任务进展并生成报告,从而使得整个工作流程更加高效和透明。此外,安星还集成了多种智能功能,如自动提醒、智能报表和数据分析等,帮助用户更好地掌握工作进展和趋势,从而做出更明智的决策。

苏州大数据交易所 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

PlantVillage Dataset

该数据集包含约54,305张植物叶子的图像,这些图像在受控环境下收集,涵盖14种不同的植物种类。数据集包含38种植物疾病类别和1种背景图像。

github 收录