DAHL|生物医学数据集|模型评估数据集
收藏DAHL 数据集概述
数据集构建
- 来源:基于从PMC爬取的研究论文生成可能的考试问题。
- 生成方式:使用gpt-4-1106-preview生成问题,并手动筛选出高质量问题。
评估流程
- 自动化评估流程:包括两个阶段:
- 将响应分割成原子单位。
- 检查每个原子单位的事实性。
安装与使用
-
安装: bash git clone https://github.com/seemdog/DAHL.git cd DAHL
-
响应生成:
-
Huggingface模型: bash python generate_response_hf.py --model meta-llama/Meta-Llama-3-8B-Instruct --temperature 0.6 --max_new_tokens 256
-
OpenAI模型: bash python generate_response_gpt.py --model gpt-4o --api_key YOUR_API_KEY --temperature 0.6
-
-
评估: bash cd evaluate sh run.sh model_to_evaluate openAI_API_key perplexityAI_API_key model_to_use_perplexityAI
结果保存
- 最终DAHL评分:将保存在一个
.txt文件中。
引用
- 引用信息:待定(TBD)。

- 1DAHL: Domain-specific Automated Hallucination Evaluation of Long-Form Text through a Benchmark Dataset in Biomedicine首尔国立大学 · 2024年
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
中国综合社会调查(2023)
中国综合社会调查(Chinese General Social Survey,CGSS)始于2003年,是我国最早的全国性、综合性、连续性学术调查项目。CGSS系统、全面的收集社会、社区、家庭、个人多个层次的数据,总结社会变迁的趋势,探讨具有重大科学和现实意义的议题,推动国内科学研究的开放与共享,为国际比较研究提供数据资料,充当多学科的经济与社会数据采集平台。
中国学术调查数据资料库 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
中国区域基础设施建设数据集
该数据集包含了中国各地区的基础设施建设相关数据,涵盖交通、能源、水利等多个领域。数据包括项目名称、投资金额、建设进度、地理位置等信息。
data.stats.gov.cn 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
