five

DAHL|生物医学数据集|模型评估数据集

收藏
arXiv2024-11-14 更新2024-11-16 收录
生物医学
模型评估
下载链接:
https://github.com/seemdog/DAHL
下载链接
链接失效反馈
资源简介:
DAHL是由首尔国立大学精心策划的生物医学领域长篇文本生成幻觉评估基准数据集。该数据集包含8,573个问题,涵盖29个类别,来源于PubMed Central的生物医学研究论文。数据集的创建过程包括自动生成问题和人工筛选,确保问题的高质量和独立可答性。DAHL旨在评估大型语言模型在生物医学领域的幻觉问题,通过将模型响应分解为原子单位来计算事实准确性,从而提供比传统多选任务更深入的评估。该数据集的应用领域主要集中在生物医学和临床应用,旨在解决模型生成文本中的事实冲突问题。
提供机构:
首尔国立大学
创建时间:
2024-11-14
原始信息汇总

DAHL 数据集概述

数据集构建

  • 来源:基于从PMC爬取的研究论文生成可能的考试问题。
  • 生成方式:使用gpt-4-1106-preview生成问题,并手动筛选出高质量问题。

评估流程

  • 自动化评估流程:包括两个阶段:
    1. 将响应分割成原子单位。
    2. 检查每个原子单位的事实性。

安装与使用

  • 安装: bash git clone https://github.com/seemdog/DAHL.git cd DAHL

  • 响应生成

    • Huggingface模型: bash python generate_response_hf.py --model meta-llama/Meta-Llama-3-8B-Instruct --temperature 0.6 --max_new_tokens 256

    • OpenAI模型: bash python generate_response_gpt.py --model gpt-4o --api_key YOUR_API_KEY --temperature 0.6

  • 评估: bash cd evaluate sh run.sh model_to_evaluate openAI_API_key perplexityAI_API_key model_to_use_perplexityAI

结果保存

  • 最终DAHL评分:将保存在一个.txt文件中。

引用

  • 引用信息:待定(TBD)。
AI搜集汇总
数据集介绍
main_image_url
构建方式
DAHL数据集的构建过程严谨而系统,源自PubMed Central(PMC)的2,519篇生物医学研究论文。通过gpt-4-1106-preview生成可能的考试问题,并经过过滤过程,确保问题能够独立回答,无需额外信息。最终,数据集包含8,573个问题,分布在29个不同的类别中,涵盖了广泛的生物医学文献。
使用方法
DAHL数据集的使用方法包括首先对模型生成的响应进行预处理,去除提示和重复句子,然后使用gpt-4o模型将响应分割成原子单位。接着,通过pplx-API检查每个原子单位的事实准确性,并计算每个响应的事实准确性比例,最终得出DAHL评分。该评分可用于评估模型在生物医学领域长篇文本生成中的幻觉倾向,并可作为偏好数据集用于对齐调优。
背景与挑战
背景概述
DAHL数据集由首尔国立大学的Jean Seo、Jongwon Lim、Dongjun Jang和Hyopil Shin团队于2024年创建,专注于评估长篇文本生成中的幻觉现象,特别是在生物医学领域。该数据集精心从生物医学研究论文中筛选出8,573个问题,涵盖29个类别,旨在通过分解模型生成的响应为原子单位来评估事实冲突幻觉。DAHL不仅提供了一种更深入的幻觉评估方法,还通过DAHL评分系统为模型提供了更细致的评估,从而填补了现有评估方法在生物医学领域中的空白。
当前挑战
DAHL数据集面临的挑战主要包括两个方面:一是解决领域特定问题,即在生物医学领域中,长篇文本生成任务的幻觉评估需要更为细致和精确,而现有的多选题或依赖人工注释的方法难以满足这一需求;二是数据集构建过程中的挑战,如从PubMed Central中筛选高质量问题、确保问题分类的准确性以及自动化评估系统的可靠性。此外,如何在不依赖人工注释的情况下,实现对长篇文本生成任务的准确评估,也是DAHL需要克服的重要难题。
常用场景
经典使用场景
DAHL数据集在生物医学领域中被广泛用于评估大型语言模型(LLMs)在长文本生成中的幻觉现象。通过将生成的文本分解为原子单位,DAHL能够精确计算每个单位的事实准确性,从而提供一个全面的幻觉评估框架。这种细粒度的评估方法使得DAHL在检测和量化生物医学文本中的事实冲突幻觉方面具有显著优势。
解决学术问题
DAHL数据集解决了在生物医学领域中评估LLMs幻觉现象的学术难题。传统方法主要依赖于多选题或人工注释,这些方法在评估长文本生成时存在局限性。DAHL通过自动化的原子单位分解和事实准确性计算,提供了一种高效且准确的评估手段,填补了现有评估资源的空白,为LLMs在生物医学文本生成中的可靠性研究提供了重要工具。
实际应用
DAHL数据集在实际应用中主要用于生物医学领域的文本生成质量控制。例如,在临床报告生成、医学语言翻译和医疗支持系统中,DAHL可以帮助检测和纠正生成的文本中的幻觉现象,确保信息的准确性和可靠性。此外,DAHL的自动化评估系统可以显著减少人工注释的成本和时间,提高评估效率,适用于大规模的文本生成任务。
数据集最近研究
最新研究方向
在生物医学领域,长文本生成中的幻觉评估成为一个备受关注的前沿课题。DAHL数据集的最新研究聚焦于通过自动化系统评估大型语言模型(LLMs)在长文本生成中的事实冲突幻觉。该研究不仅构建了一个包含8,573个问题、涵盖29个类别的基准数据集,还提出了一种新颖的评估方法——DAHL评分,通过将模型生成的响应分解为原子单位来计算事实准确性。这种方法相较于依赖多选任务或人工注释的传统评估方式,提供了更为细致和全面的幻觉评估。此外,研究还探讨了模型规模对幻觉率的影响,发现模型规模在达到7至8亿参数后,进一步扩大规模对事实准确性的提升效果有限。这一发现为未来在生物医学等高风险领域中优化和部署LLMs提供了重要参考。
相关研究论文
  • 1
    DAHL: Domain-specific Automated Hallucination Evaluation of Long-Form Text through a Benchmark Dataset in Biomedicine首尔国立大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。

魔搭社区 收录

QM9

该数据集名为QM9,包含了134,000个分子的信息,可用于生成点云的建模工作,同时也可应用于分子动力学的研究以及点云生成任务中。

arXiv 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录