five

public_long_form_thought_data_5k|慢思考推理数据集|认知科学数据集

收藏
github2024-12-22 更新2024-12-23 收录
慢思考推理
认知科学
下载链接:
https://github.com/RUCAIBox/Slow_Thinking_with_LLMs
下载链接
链接失效反馈
资源简介:
公开的长形式思维数据集,包含5000条数据,用于训练和研究慢思考推理系统。
创建时间:
2024-12-12
原始信息汇总

STILL: Slow Thinking with LLMs

数据集

  • 训练数据: 部分训练数据已开源,文件名为 public_long_form_thought_data_5k.jsonl,位于 data/ 目录下。

模型

  • 模型: 已开源模型 STILL-2,可在 Hugging Face 上获取。

技术报告

  • Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems:

    • 报告地址: arXiv:2412.09413
    • 内容概述: 介绍了实现类似 o1 的慢思考推理系统的复现报告,采用模仿、探索和自我改进的框架进行模型训练。
  • Enhancing LLM Reasoning with Reward-guided Tree Search:

    • 报告地址: arXiv:2411.11694
    • 内容概述: 探讨了通过奖励引导的树搜索算法增强 LLM 推理能力的方法。

未来工作

  • 计划研究如何扩展训练方法的容量,以应对更复杂的任务。

引用

  • 如果技术报告对研究有帮助,请引用以下文献:

    @article{Slow_Thinking_with_LLMs_1, title={Enhancing LLM Reasoning with Reward-guided Tree Search}, author={Jiang, Jinhao and Chen, Zhipeng and Min, Yingqian and Chen, Jie and Cheng, Xiaoxue and Wang, Jiapeng and Tang, Yiru and Sun, Haoxiang and Deng, Jia and Zhao, Wayne Xin and Liu, Zheng and Yan, Dong and Xie, Jian and Wang, Zhongyuan and Wen, Ji-Rong}, journal={arXiv preprint arXiv:2411.11694}, year={2024} }

    @article{Slow_Thinking_with_LLMs_2, title={Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems}, author={Min, Yingqian and Chen, Zhipeng and Jiang, Jinhao and Chen, Jie and Deng, Jia and Hu, Yiwen and Tang, Yiru and Wang, Jiapeng and Cheng, Xiaoxue and Song, Huatong and Zhao, Wayne Xin and Liu, Zheng and Wang, Zhongyuan and Wen, Ji-Rong}, journal={arXiv preprint arXiv:2412.09413}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建public_long_form_thought_data_5k数据集时,研究团队采用了模仿、探索与自我改进的框架。首先,通过蒸馏的长篇思维数据对推理模型进行微调,使其能够进入慢思考模式。随后,模型通过生成多个展开路径来探索复杂问题,从而产生更高质量的解题轨迹。最后,模型通过迭代优化训练数据集,实现自我提升。
使用方法
public_long_form_thought_data_5k数据集可用于微调推理模型,帮助模型进入慢思考模式,并通过多路径探索机制提升其解决复杂问题的能力。研究者可以通过Hugging Face平台获取该数据集,并结合提供的模型进行进一步的研究与实验。数据集的使用应遵循开源许可,确保研究成果的透明与共享。
背景与挑战
背景概述
在大型语言模型(LLMs)领域,慢思考推理系统(如o1)因其卓越的复杂推理能力而备受瞩目。public_long_form_thought_data_5k数据集由中国人民大学(RUC)AIBOX实验室于2024年发布,旨在推动慢思考推理系统的研究。该数据集的核心研究问题是如何通过模仿、探索和自我改进的框架,实现类似o1的推理能力。数据集的发布不仅为学术界提供了宝贵的资源,还为行业级推理系统的复现和改进提供了新的思路,对推动LLMs在复杂任务中的应用具有重要意义。
当前挑战
尽管public_long_form_thought_data_5k数据集在慢思考推理系统的研究中取得了初步成果,但仍面临诸多挑战。首先,构建类似o1的推理系统需要解决复杂推理任务中的多步推理和不确定性问题,这对模型的推理能力和数据质量提出了极高要求。其次,数据集的构建过程中,如何从海量数据中提取高质量的长篇思维数据,并确保其多样性和代表性,是另一大挑战。此外,模型的自我改进机制如何在有限的计算资源下实现高效迭代,也是未来研究的重点。
常用场景
经典使用场景
public_long_form_thought_data_5k数据集在慢思考推理系统中扮演着核心角色,尤其是在复杂推理任务的训练与优化过程中。该数据集通过提供高质量的长篇思维数据,使得模型能够在慢思考模式下进行微调,从而增强其在多步推理和深度分析任务中的表现。具体而言,模型通过这些数据进行初步训练后,能够生成多个推理路径,并通过奖励机制引导模型探索更高质量的解决方案,最终实现自我改进。
解决学术问题
该数据集解决了大语言模型(LLMs)在复杂推理任务中表现不足的学术问题。传统LLMs在面对需要深度思考和多步推理的任务时,往往表现出推理能力不足。通过使用public_long_form_thought_data_5k数据集,研究者能够训练出具备慢思考能力的模型,显著提升了模型在复杂推理任务中的准确性和稳定性,为推理系统的研究开辟了新的方向。
实际应用
在实际应用中,public_long_form_thought_data_5k数据集支持的慢思考推理系统可以广泛应用于需要深度推理的领域,如法律分析、医疗诊断和科学研究。在这些领域,模型能够通过慢思考模式处理复杂问题,生成详细的推理路径,并最终提供高质量的决策支持。此外,该数据集还为开发更智能的对话系统和自动化助手提供了基础,使得这些系统能够更好地理解和解决复杂用户需求。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)领域,public_long_form_thought_data_5k数据集的最新研究方向聚焦于慢思考推理系统的实现与优化。研究者们通过模仿、探索和自我改进的框架,利用长篇思维数据对模型进行微调,使其能够进入慢思考模式,并通过多轮展开生成高质量的推理路径。此外,奖励引导的树搜索算法也被引入,以增强模型在复杂推理任务中的表现。这些研究不仅推动了LLMs在复杂问题解决中的应用,还为未来在更广泛任务中的扩展提供了技术基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录

MIT Indoor Scenes

室内场景识别是高水平视觉中一个具有挑战性的开放性问题。大多数适用于室外场景的场景识别模型在室内领域的表现都较差。该数据库包含67个室内类别,共15620张图像。图像的数量因类别而异,但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。

阿里云天池 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录