five

LongBench-v2|大型语言模型数据集|长上下文处理数据集

收藏
huggingface2024-12-20 更新2024-12-21 收录
大型语言模型
长上下文处理
下载链接:
https://huggingface.co/datasets/THUDM/LongBench-v2
下载链接
链接失效反馈
资源简介:
LongBench v2 是一个用于评估大型语言模型(LLMs)处理长上下文问题的能力的数据集。该数据集设计用于测试模型在需要深度理解和推理的真实多任务场景中的表现。其特点包括:1)上下文长度从8k到2M字不等,大部分在128k以下;2)难度较高,即使是使用搜索工具的人类专家在短时间内也无法正确回答;3)覆盖多种现实场景;4)采用多选题格式以确保评估的可靠性。数据集包含503个具有挑战性的多选题,涉及六个主要任务类别:单文档问答、多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解。数据集的质量和难度通过自动化和手动审查流程来保证,结果显示人类专家在15分钟内只能达到53.7%的准确率,而最佳模型直接回答问题时准确率为50.1%,包含更长推理的模型则达到57.7%。
提供机构:
Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University
创建时间:
2024-12-18
AI搜集汇总
数据集介绍
main_image_url
构建方式
LongBench-v2数据集的构建旨在评估大型语言模型(LLMs)在处理需要深度理解和推理的长上下文多任务问题上的能力。该数据集包含503个具有挑战性的多项选择题,上下文长度从8千字到2百万字不等,涵盖了单文档问答、多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解等六大任务类别。数据集的构建过程中,收集了来自近100名具有多样化专业背景的高学历个体的数据,并通过自动化和人工审查流程确保数据的高质量和难度,最终使得在15分钟时间限制下,人类专家的准确率仅为53.7%。
使用方法
使用LongBench-v2数据集可以通过Hugging Face的datasets库进行加载,代码示例如下: python from datasets import load_dataset dataset = load_dataset('THUDM/LongBench-v2', split='train') 此外,也可以通过提供的链接下载数据文件进行加载。数据集的标准化格式包括唯一标识符、数据的主要和次要领域分类、任务难度和长度分类、问题、选项、正确答案以及任务所需的长上下文。对于自动化评估,可以参考数据集的GitHub仓库获取更多信息。
背景与挑战
背景概述
LongBench-v2数据集由清华大学(THUDM)的研究团队开发,旨在评估大型语言模型(LLMs)在处理长上下文问题时的深度理解和推理能力。该数据集创建于2024年,涵盖了从8千到2百万字的上下文长度,主要任务包括单文档和多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解等。通过从近100名具有多样化专业背景的高学历个体收集数据,并结合自动化和人工审查流程,确保了数据的高质量和挑战性。LongBench-v2不仅为研究者提供了一个评估模型在复杂长上下文任务中表现的基准,还揭示了现有模型在处理此类任务时的局限性,推动了相关领域的技术进步。
当前挑战
LongBench-v2数据集面临的挑战主要集中在以下几个方面:首先,处理长上下文所需的计算资源和推理能力要求极高,现有模型在直接回答问题时仅能达到50.1%的准确率,远低于人类专家的表现。其次,数据集的构建过程中,如何确保从多样化背景中收集的数据具有一致的高难度和实用性,是一个复杂的问题。此外,长上下文任务的多样性和复杂性要求模型具备跨领域的理解和推理能力,这对模型的泛化能力和计算效率提出了更高的要求。最后,如何在有限的计算资源下,提升模型的推理能力和准确性,是该数据集未来研究的重点。
常用场景
经典使用场景
LongBench-v2数据集的经典使用场景主要集中在评估大型语言模型(LLMs)在处理长上下文任务时的深度理解和推理能力。该数据集通过包含从8k到2M字的长文本上下文,涵盖了单文档问答、多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解等多种任务,为研究者提供了一个全面的评估平台。
解决学术问题
LongBench-v2数据集解决了在长上下文环境下,模型如何进行深度理解和复杂推理的学术研究问题。通过提供具有挑战性的多选题格式,该数据集不仅揭示了现有模型在处理长文本时的局限性,还为研究者提供了一个基准,以探索和改进模型在长上下文任务中的表现,从而推动了自然语言处理领域的发展。
实际应用
在实际应用中,LongBench-v2数据集可用于开发和优化能够处理长文本的智能系统,如法律文档分析、医学文献解读、技术文档理解等。这些应用场景需要模型具备在长篇文档中进行深度推理和准确回答问题的能力,从而提高信息检索和知识管理的效率。
数据集最近研究
最新研究方向
在自然语言处理领域,LongBench-v2数据集的最新研究方向聚焦于长上下文场景下的深度理解和推理能力评估。该数据集通过涵盖从8k到2M字的长文本上下文,挑战了现有大型语言模型(LLMs)在多任务处理中的极限。研究者们正致力于探索如何通过扩展推理时计算资源,提升模型在复杂长文本环境中的表现。这一研究不仅推动了LLMs在实际应用中的性能提升,也为未来模型设计提供了新的思路,特别是在需要深入理解和复杂推理的场景中,如多文档问答、长对话历史理解和代码库理解等领域。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

ROBEL

ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

weibo-comments-v1

该数据集包含多个特征,如id、文本内容、标记的id、用户昵称、评论和标签。数据集被分为训练集和测试集,分别有2325和582个样本。数据集的下载大小为810622字节,数据集大小为1266259.0字节。

huggingface 收录