five

DAHL|生物医学数据集|模型评估数据集

收藏
arXiv2024-11-14 更新2024-11-16 收录
生物医学
模型评估
下载链接:
https://github.com/seemdog/DAHL
下载链接
链接失效反馈
资源简介:
DAHL是由首尔国立大学精心策划的生物医学领域长篇文本生成幻觉评估基准数据集。该数据集包含8,573个问题,涵盖29个类别,来源于PubMed Central的生物医学研究论文。数据集的创建过程包括自动生成问题和人工筛选,确保问题的高质量和独立可答性。DAHL旨在评估大型语言模型在生物医学领域的幻觉问题,通过将模型响应分解为原子单位来计算事实准确性,从而提供比传统多选任务更深入的评估。该数据集的应用领域主要集中在生物医学和临床应用,旨在解决模型生成文本中的事实冲突问题。
提供机构:
首尔国立大学
创建时间:
2024-11-14
原始信息汇总

DAHL 数据集概述

数据集构建

  • 来源:基于从PMC爬取的研究论文生成可能的考试问题。
  • 生成方式:使用gpt-4-1106-preview生成问题,并手动筛选出高质量问题。

评估流程

  • 自动化评估流程:包括两个阶段:
    1. 将响应分割成原子单位。
    2. 检查每个原子单位的事实性。

安装与使用

  • 安装: bash git clone https://github.com/seemdog/DAHL.git cd DAHL

  • 响应生成

    • Huggingface模型: bash python generate_response_hf.py --model meta-llama/Meta-Llama-3-8B-Instruct --temperature 0.6 --max_new_tokens 256

    • OpenAI模型: bash python generate_response_gpt.py --model gpt-4o --api_key YOUR_API_KEY --temperature 0.6

  • 评估: bash cd evaluate sh run.sh model_to_evaluate openAI_API_key perplexityAI_API_key model_to_use_perplexityAI

结果保存

  • 最终DAHL评分:将保存在一个.txt文件中。

引用

  • 引用信息:待定(TBD)。
AI搜集汇总
数据集介绍
main_image_url
构建方式
DAHL数据集的构建过程严谨而系统,源自PubMed Central(PMC)的2,519篇生物医学研究论文。通过gpt-4-1106-preview生成可能的考试问题,并经过过滤过程,确保问题能够独立回答,无需额外信息。最终,数据集包含8,573个问题,分布在29个不同的类别中,涵盖了广泛的生物医学文献。
使用方法
DAHL数据集的使用方法包括首先对模型生成的响应进行预处理,去除提示和重复句子,然后使用gpt-4o模型将响应分割成原子单位。接着,通过pplx-API检查每个原子单位的事实准确性,并计算每个响应的事实准确性比例,最终得出DAHL评分。该评分可用于评估模型在生物医学领域长篇文本生成中的幻觉倾向,并可作为偏好数据集用于对齐调优。
背景与挑战
背景概述
DAHL数据集由首尔国立大学的Jean Seo、Jongwon Lim、Dongjun Jang和Hyopil Shin团队于2024年创建,专注于评估长篇文本生成中的幻觉现象,特别是在生物医学领域。该数据集精心从生物医学研究论文中筛选出8,573个问题,涵盖29个类别,旨在通过分解模型生成的响应为原子单位来评估事实冲突幻觉。DAHL不仅提供了一种更深入的幻觉评估方法,还通过DAHL评分系统为模型提供了更细致的评估,从而填补了现有评估方法在生物医学领域中的空白。
当前挑战
DAHL数据集面临的挑战主要包括两个方面:一是解决领域特定问题,即在生物医学领域中,长篇文本生成任务的幻觉评估需要更为细致和精确,而现有的多选题或依赖人工注释的方法难以满足这一需求;二是数据集构建过程中的挑战,如从PubMed Central中筛选高质量问题、确保问题分类的准确性以及自动化评估系统的可靠性。此外,如何在不依赖人工注释的情况下,实现对长篇文本生成任务的准确评估,也是DAHL需要克服的重要难题。
常用场景
经典使用场景
DAHL数据集在生物医学领域中被广泛用于评估大型语言模型(LLMs)在长文本生成中的幻觉现象。通过将生成的文本分解为原子单位,DAHL能够精确计算每个单位的事实准确性,从而提供一个全面的幻觉评估框架。这种细粒度的评估方法使得DAHL在检测和量化生物医学文本中的事实冲突幻觉方面具有显著优势。
解决学术问题
DAHL数据集解决了在生物医学领域中评估LLMs幻觉现象的学术难题。传统方法主要依赖于多选题或人工注释,这些方法在评估长文本生成时存在局限性。DAHL通过自动化的原子单位分解和事实准确性计算,提供了一种高效且准确的评估手段,填补了现有评估资源的空白,为LLMs在生物医学文本生成中的可靠性研究提供了重要工具。
实际应用
DAHL数据集在实际应用中主要用于生物医学领域的文本生成质量控制。例如,在临床报告生成、医学语言翻译和医疗支持系统中,DAHL可以帮助检测和纠正生成的文本中的幻觉现象,确保信息的准确性和可靠性。此外,DAHL的自动化评估系统可以显著减少人工注释的成本和时间,提高评估效率,适用于大规模的文本生成任务。
数据集最近研究
最新研究方向
在生物医学领域,长文本生成中的幻觉评估成为一个备受关注的前沿课题。DAHL数据集的最新研究聚焦于通过自动化系统评估大型语言模型(LLMs)在长文本生成中的事实冲突幻觉。该研究不仅构建了一个包含8,573个问题、涵盖29个类别的基准数据集,还提出了一种新颖的评估方法——DAHL评分,通过将模型生成的响应分解为原子单位来计算事实准确性。这种方法相较于依赖多选任务或人工注释的传统评估方式,提供了更为细致和全面的幻觉评估。此外,研究还探讨了模型规模对幻觉率的影响,发现模型规模在达到7至8亿参数后,进一步扩大规模对事实准确性的提升效果有限。这一发现为未来在生物医学等高风险领域中优化和部署LLMs提供了重要参考。
相关研究论文
  • 1
    DAHL: Domain-specific Automated Hallucination Evaluation of Long-Form Text through a Benchmark Dataset in Biomedicine首尔国立大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

emotions-dataset

情绪数据集是一个精心策划的文本数据集,包含131,306个文本条目,标注了13种不同的情绪,如快乐、悲伤、中性、愤怒等。该数据集旨在提升情感分类、情感分析和自然语言处理的能力,适用于构建富有同情心的聊天机器人、心理健康工具、社交媒体分析器等。数据集文件大小为7.41MB,便于在边缘设备和大型项目中使用。

huggingface 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录