CMDAG|中文隐喻数据集|自然语言处理数据集

arXiv2024-02-21 更新2024-06-21 收录

中文隐喻

自然语言处理

下载链接：

https://github.com/JasonShao55/Chinese_Metaphor_Explanation

下载链接

链接失效反馈

资源简介：

CMDAG是一个由香港科技大学等机构合作创建的大型中文隐喻数据集，包含约28,000条从多种中文文学来源（如诗歌、散文、歌词等）提取的句子。该数据集特别之处在于每条隐喻句子都附带有其对应的‘喻意’（GROUNDS）。创建过程中，研究团队利用了专业的标注者进行精细标注，确保了数据的质量和一致性。CMDAG数据集主要用于支持中文隐喻生成的研究，特别是在机器学习和自然语言处理领域，旨在提高模型生成隐喻句子的创造性和流畅性。

提供机构：

香港科技大学

创建时间：

2024-02-21

AI搜集汇总

数据集介绍

构建方式

CMDAG数据集的构建过程始于从广泛的汉语文学资源中收集约153,000条可能包含隐喻的句子，涵盖散文、诗歌、歌词等多种文体。通过应用一系列启发式规则，如检测句子中是否包含特定的比喻词汇或通过依赖解析识别主语和宾语之间的低相关性，筛选出潜在的隐喻句子。随后，数据集经过两轮标注：初步标注由20名中国大学生完成，识别出真正的隐喻并标注出潜在的本体和喻体；精细标注则由具有汉语文学背景的母语者完成，进一步精确定位隐喻的喻意。为确保标注的一致性和准确性，每个数据样本至少由三名标注者评估。

特点

CMDAG数据集的一个显著特点是其包含了约28,000条来自汉语文学的隐喻句子，每条句子都详细标注了本体、喻体和喻意。这种三元组标注方式不仅增强了数据集的实用性，还为隐喻生成任务提供了丰富的上下文信息。此外，CMDAG特别强调了喻意（GROUND）的作用，将其作为隐喻生成的核心要素，突破了传统隐喻生成仅依赖本体和喻体的局限。这种设计使得CMDAG在推动汉语隐喻研究方面具有独特的价值，尤其是在提升隐喻生成的流畅性和创造性方面。

使用方法

CMDAG数据集的使用方法主要围绕隐喻生成任务展开，特别是在结合Chain-of-Thought（CoT）提示技术的应用中。用户可以通过两种主要任务来利用该数据集：一是给定本体和喻体，生成相应的喻意；二是给定本体和喻意，生成合适的喻体。通过多提示提示技术，用户可以利用数据集中的标注示例进行少样本学习，进而生成符合语境的隐喻句子。此外，CMDAG还支持对生成隐喻的评估，用户可以通过专家级的人工评估来衡量生成隐喻的清晰度、创造性和表达的真实性。

背景与挑战

背景概述

CMDAG（Chinese Metaphor Dataset with Annotated Grounds as CoT）是一个专注于中文隐喻生成的大规模高质量标注语料库，由来自香港科技大学、加州大学圣地亚哥分校、麻省理工学院等多家知名机构的研究人员共同开发。该数据集于2024年发布，收录了约28,000条来自诗歌、散文、歌词等多种中文文学形式的隐喻句子。CMDAG的核心创新在于引入了“喻意”（GROUND）作为隐喻生成的关键要素，突破了传统隐喻研究中仅关注“本体”（TENOR）和“喻体”（VEHICLE）的局限。通过将“喻意”作为链式思维（Chain of Thought, CoT）的输入，CMDAG显著提升了隐喻生成的流畅性和创造性，为中文隐喻研究提供了重要的数据支持。

当前挑战

CMDAG在构建和应用过程中面临多重挑战。首先，隐喻作为一种复杂的语言现象，其生成和理解依赖于深层次的概念映射，这对模型的语义理解和推理能力提出了极高要求。其次，数据标注的复杂性也是一个重要挑战，CMDAG要求对每个隐喻句子进行精确的“本体”、“喻体”和“喻意”三元组标注，这需要标注者具备深厚的语言学知识和文学素养。此外，隐喻生成的多样性和创造性难以通过传统的自动评估指标衡量，CMDAG依赖于专家级的人工评估，这增加了评估的成本和复杂性。最后，尽管CMDAG在隐喻生成任务中展现了潜力，但如何进一步提升模型在生成新颖且符合语境的隐喻方面的表现，仍是一个亟待解决的问题。

常用场景

经典使用场景

CMDAG数据集在自然语言处理领域中被广泛用于中文隐喻生成任务。通过提供丰富的隐喻句子及其对应的本体、喻体和喻意，该数据集为研究人员提供了一个高质量的资源，用于训练和评估生成模型。特别是在生成具有创造性和流畅性的隐喻句子时，CMDAG通过引入喻意作为Chain-of-Thought（CoT）输入，显著提升了生成模型的表达能力。

实际应用

CMDAG数据集在实际应用中具有广泛的前景，尤其是在智能写作助手、聊天机器人等自然语言生成系统中。通过利用CMDAG中的隐喻数据，这些系统能够生成更加生动、富有表现力的文本，从而提升用户体验。例如，在文学创作、广告文案撰写等领域，CMDAG可以帮助生成更具感染力的隐喻表达，增强文本的吸引力和说服力。此外，该数据集还可用于教育领域，帮助学生更好地理解和运用隐喻这一修辞手法。

衍生相关工作

CMDAG数据集的发布催生了一系列相关研究工作，特别是在中文隐喻生成和隐喻理解领域。基于CMDAG，研究人员开发了多种生成模型，如Belle、Baichuan和Chinese-alpaca-33B，这些模型在生成隐喻句子时表现出色。此外，CMDAG还推动了Chain-of-Thought（CoT）技术在隐喻生成中的应用，相关研究进一步探索了如何通过喻意引导模型生成更具创造性和流畅性的隐喻表达。这些工作不仅丰富了中文隐喻研究的理论框架，还为实际应用提供了新的技术手段。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据，涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标，适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息，涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。