five

MedNorm corpus|医学术语规范化数据集|语料库数据集

收藏
github2022-08-27 更新2024-05-31 收录
医学术语规范化
语料库
下载链接:
https://github.com/mbelousov/MedNorm-corpus
下载链接
链接失效反馈
资源简介:
MedNorm语料库是一个用于跨术语医学概念规范化的语料库和嵌入,它结合了来自多个数据集的实例,并提供了对MedDRA和SNOMED-CT术语的一致同时映射。

The MedNorm corpus is a resource designed for the normalization of cross-terminology medical concepts, integrating instances from multiple datasets and providing consistent simultaneous mappings to both MedDRA and SNOMED-CT terminologies.
创建时间:
2019-06-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
MedNorm corpus的构建过程经过精心设计,首先通过整合来自CADEC、TwADR-L、TwiMed-PubMed等多个数据集的实例,生成一个初步的原始数据文件。随后,利用这些数据构建初始的语料库图表示,并通过深度学习方法生成跨术语概念嵌入模型。在识别并纠正潜在的注释错误后,进一步构建最终的语料库图表示,并通过一系列步骤如去重、过滤和标签简化,最终形成一个高质量的、跨术语的医学概念标准化数据集。
使用方法
使用MedNorm corpus时,用户可以通过提供的Python脚本进行数据集的整合、图构建、嵌入模型生成等操作。具体步骤包括数据集的合并、图表示的构建、嵌入模型的训练、错误识别与纠正、最终数据集的生成等。每个步骤都有详细的命令行接口,用户可以根据需要调整参数,生成符合自己研究需求的数据集。
背景与挑战
背景概述
MedNorm corpus是由Belousov、Dixon和Nenadic等研究人员于2019年创建的,旨在解决跨术语医学概念标准化的问题。该数据集通过整合多个来源的数据,提供了对MedDRA和SNOMED-CT术语的一致性映射,并生成了跨术语概念嵌入和语料库图。这一研究在医学信息学领域具有重要意义,特别是在处理多源异构数据时,能够有效提升医学概念的标准化和一致性,为后续的医学文本分析和知识图谱构建提供了坚实的基础。
当前挑战
MedNorm corpus在构建过程中面临多项挑战。首先,整合来自不同数据集的数据需要解决数据格式和内容的不一致性,确保数据质量。其次,构建语料库图和概念嵌入模型时,需处理复杂的术语映射和语义关系,确保模型的准确性和鲁棒性。此外,识别和纠正潜在的注释错误也是一个重要挑战,这直接影响到数据集的可靠性和应用效果。最后,解决短语重复和减少标签数量的问题,进一步提升了数据集的实用性和效率。
常用场景
经典使用场景
在医学领域,MedNorm corpus 数据集的经典使用场景主要体现在跨术语医学概念的标准化过程中。该数据集通过整合多个来源的数据,提供了对MedDRA和SNOMED-CT术语的一致性映射,从而支持医学文本的自动标注和术语标准化。这种标准化对于提高医学信息系统的互操作性和数据质量至关重要。
解决学术问题
MedNorm corpus 数据集解决了医学领域中跨术语概念标准化这一关键学术问题。通过提供一致的术语映射和生成跨术语概念嵌入,该数据集显著提升了医学文本处理和信息提取的准确性。这对于推动医学信息学的发展,特别是在术语标准化和数据整合方面,具有重要的学术意义和实际应用价值。
实际应用
在实际应用中,MedNorm corpus 数据集被广泛用于医学信息系统的开发和优化。例如,在电子健康记录(EHR)系统中,该数据集可以帮助实现不同医疗术语之间的自动转换,从而提高数据的可读性和一致性。此外,它还支持药物不良反应监测和临床试验数据分析等应用,显著提升了医疗数据处理的效率和准确性。
数据集最近研究
最新研究方向
在医学信息学领域,MedNorm corpus数据集的研究方向主要集中在跨术语医学概念的标准化与映射。该数据集通过整合多个来源的数据,提供了对MedDRA和SNOMED-CT术语的一致性映射,并生成了跨术语概念的嵌入模型。这一研究不仅推动了医学术语标准化的发展,还为医学文本分析、药物不良反应监测等前沿应用提供了重要支持。通过构建语料库图和概念嵌入,研究者能够更精确地识别和纠正标注错误,提升数据质量,从而在临床决策支持系统和医学知识图谱构建中发挥关键作用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

WeChat Social Network Dataset

该数据集包含了微信社交网络的用户关系数据,包括用户之间的关注关系、互动行为等。数据集旨在帮助研究社交网络的结构和动态变化。

www.aminer.cn 收录