five

DDI corpus|药物相互作用数据集|信息提取数据集

收藏
github2023-01-05 更新2024-05-31 收录
药物相互作用
信息提取
下载链接:
https://github.com/StevenZhaoo/R-BERT-DDI
下载链接
链接失效反馈
资源简介:
DDI corpus是一个语义标注的文档集合,专门描述来自DrugBank数据库和MedLine摘要中的药物-药物相互作用。该数据集用于训练信息提取系统,以从生物医学文献中提取相互作用信息。

The DDI corpus is a semantically annotated collection of documents specifically detailing drug-drug interactions sourced from the DrugBank database and MedLine abstracts. This dataset is utilized to train information extraction systems for the purpose of extracting interaction information from biomedical literature.
创建时间:
2021-09-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
DDI corpus的构建基于DrugBank数据库和MedLine文摘,专注于药物-药物相互作用(DDI)的语义标注。该数据集通过从生物医学文献中提取相关文档和句子,进行详细的实体识别和相互作用标注。具体而言,数据集包括572个文档和5675个句子,涵盖了多种药物类型及其相互作用类型,如药物、品牌、组别等。每个句子通过XML格式进行标注,包含实体和相互作用的详细信息,如实体的文本、类型及其在句子中的位置。
特点
DDI corpus的主要特点在于其高度结构化和详细的语义标注,适用于信息提取系统的训练。数据集不仅标注了药物实体,还详细记录了药物之间的相互作用类型,如建议、效果、机制等。此外,数据集通过数据增强和标记机制,解决了长尾关系问题,确保了各类标签的均衡分布,从而提高了模型的泛化能力。
使用方法
使用DDI corpus进行模型训练和评估时,用户需遵循特定的数据处理流程。首先,通过Python脚本解析XML格式的数据,提取句子、实体及其相互作用信息。随后,利用BERT模型进行特征提取,并通过全连接层进行分类。数据增强和标记机制的应用进一步优化了模型的性能。最终,通过执行`python main.py --do_train --do_eval`命令,可以进行模型的训练和评估,获取精确度、召回率和F1分数等关键性能指标。
背景与挑战
背景概述
药物-药物相互作用(DDI)语料库是由StevenChaoo创建的一个语义注释的文档集合,主要来源于DrugBank数据库和MedLine关于药物-药物相互作用的摘要。该语料库旨在训练信息提取系统,以从生物医学文献中提取药物相互作用。DDI语料库包含572个文档和5675个句子,涵盖了多种药物类型及其相互作用类型,如药物、品牌、组别等。该语料库的创建为药物相互作用研究提供了宝贵的资源,推动了相关领域的发展。
当前挑战
DDI语料库在构建过程中面临的主要挑战包括数据的不平衡分布,尤其是长尾关系问题,导致某些类型的相互作用数据较少。此外,语料库的注释过程复杂,需要精确识别和标记药物实体及其相互作用,这对注释的准确性和一致性提出了高要求。在应用方面,如何有效地利用该语料库进行模型训练,以提高药物相互作用预测的准确性和覆盖率,也是一个重要的研究方向。
常用场景
经典使用场景
在药物相互作用研究领域,DDI corpus数据集被广泛应用于训练信息提取系统,特别是用于从生物医学文献中识别和分类药物-药物相互作用(DDI)。该数据集通过提供详细的语义标注,帮助研究人员开发和验证能够自动识别药物相互作用的算法,从而提高药物安全性和有效性评估的准确性。
实际应用
在实际应用中,DDI corpus数据集被制药公司和医疗研究机构广泛用于开发和验证药物相互作用检测系统。这些系统能够自动分析和识别潜在的药物相互作用,帮助医生和药剂师在临床实践中做出更安全的药物选择和剂量调整,从而提高患者的治疗效果和安全性。
衍生相关工作
基于DDI corpus数据集,许多相关研究工作得以开展,包括改进的药物相互作用检测算法和模型。例如,研究人员通过引入R-BERT模型,结合实体信息丰富预训练语言模型,显著提高了药物相互作用分类的准确性。此外,数据增强和标记机制的引入也为解决数据不平衡问题提供了新的思路,进一步推动了该领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录