five

DAHL|生物医学数据集|模型评估数据集

收藏
arXiv2024-11-14 更新2024-11-16 收录
生物医学
模型评估
下载链接:
https://github.com/seemdog/DAHL
下载链接
链接失效反馈
资源简介:
DAHL是由首尔国立大学精心策划的生物医学领域长篇文本生成幻觉评估基准数据集。该数据集包含8,573个问题,涵盖29个类别,来源于PubMed Central的生物医学研究论文。数据集的创建过程包括自动生成问题和人工筛选,确保问题的高质量和独立可答性。DAHL旨在评估大型语言模型在生物医学领域的幻觉问题,通过将模型响应分解为原子单位来计算事实准确性,从而提供比传统多选任务更深入的评估。该数据集的应用领域主要集中在生物医学和临床应用,旨在解决模型生成文本中的事实冲突问题。
提供机构:
首尔国立大学
创建时间:
2024-11-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
DAHL数据集的构建过程严谨而系统,源自PubMed Central(PMC)的2,519篇生物医学研究论文。通过gpt-4-1106-preview生成可能的考试问题,并经过过滤过程,确保问题能够独立回答,无需额外信息。最终,数据集包含8,573个问题,分布在29个不同的类别中,涵盖了广泛的生物医学文献。
使用方法
DAHL数据集的使用方法包括首先对模型生成的响应进行预处理,去除提示和重复句子,然后使用gpt-4o模型将响应分割成原子单位。接着,通过pplx-API检查每个原子单位的事实准确性,并计算每个响应的事实准确性比例,最终得出DAHL评分。该评分可用于评估模型在生物医学领域长篇文本生成中的幻觉倾向,并可作为偏好数据集用于对齐调优。
背景与挑战
背景概述
DAHL数据集由首尔国立大学的Jean Seo、Jongwon Lim、Dongjun Jang和Hyopil Shin团队于2024年创建,专注于评估长篇文本生成中的幻觉现象,特别是在生物医学领域。该数据集精心从生物医学研究论文中筛选出8,573个问题,涵盖29个类别,旨在通过分解模型生成的响应为原子单位来评估事实冲突幻觉。DAHL不仅提供了一种更深入的幻觉评估方法,还通过DAHL评分系统为模型提供了更细致的评估,从而填补了现有评估方法在生物医学领域中的空白。
当前挑战
DAHL数据集面临的挑战主要包括两个方面:一是解决领域特定问题,即在生物医学领域中,长篇文本生成任务的幻觉评估需要更为细致和精确,而现有的多选题或依赖人工注释的方法难以满足这一需求;二是数据集构建过程中的挑战,如从PubMed Central中筛选高质量问题、确保问题分类的准确性以及自动化评估系统的可靠性。此外,如何在不依赖人工注释的情况下,实现对长篇文本生成任务的准确评估,也是DAHL需要克服的重要难题。
常用场景
经典使用场景
DAHL数据集在生物医学领域中被广泛用于评估大型语言模型(LLMs)在长文本生成中的幻觉现象。通过将生成的文本分解为原子单位,DAHL能够精确计算每个单位的事实准确性,从而提供一个全面的幻觉评估框架。这种细粒度的评估方法使得DAHL在检测和量化生物医学文本中的事实冲突幻觉方面具有显著优势。
解决学术问题
DAHL数据集解决了在生物医学领域中评估LLMs幻觉现象的学术难题。传统方法主要依赖于多选题或人工注释,这些方法在评估长文本生成时存在局限性。DAHL通过自动化的原子单位分解和事实准确性计算,提供了一种高效且准确的评估手段,填补了现有评估资源的空白,为LLMs在生物医学文本生成中的可靠性研究提供了重要工具。
实际应用
DAHL数据集在实际应用中主要用于生物医学领域的文本生成质量控制。例如,在临床报告生成、医学语言翻译和医疗支持系统中,DAHL可以帮助检测和纠正生成的文本中的幻觉现象,确保信息的准确性和可靠性。此外,DAHL的自动化评估系统可以显著减少人工注释的成本和时间,提高评估效率,适用于大规模的文本生成任务。
数据集最近研究
最新研究方向
在生物医学领域,长文本生成中的幻觉评估成为一个备受关注的前沿课题。DAHL数据集的最新研究聚焦于通过自动化系统评估大型语言模型(LLMs)在长文本生成中的事实冲突幻觉。该研究不仅构建了一个包含8,573个问题、涵盖29个类别的基准数据集,还提出了一种新颖的评估方法——DAHL评分,通过将模型生成的响应分解为原子单位来计算事实准确性。这种方法相较于依赖多选任务或人工注释的传统评估方式,提供了更为细致和全面的幻觉评估。此外,研究还探讨了模型规模对幻觉率的影响,发现模型规模在达到7至8亿参数后,进一步扩大规模对事实准确性的提升效果有限。这一发现为未来在生物医学等高风险领域中优化和部署LLMs提供了重要参考。
相关研究论文
  • 1
    DAHL: Domain-specific Automated Hallucination Evaluation of Long-Form Text through a Benchmark Dataset in Biomedicine首尔国立大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录