北京文本交通数据集（BjTT）|交通预测数据集|多模态数据数据集

arXiv2024-03-14 更新2024-06-21 收录

交通预测

多模态数据

下载链接：

https://github.com/ChyaZhang/BjTT

下载链接

链接失效反馈

资源简介：

北京文本交通数据集（BjTT）是由北京人工智能研究院创建的一个大规模多模态数据集，旨在提高交通预测的准确性。该数据集包含超过32,000条时间序列交通记录，涵盖北京五环区域内超过1,200条道路的速度和拥堵水平。每条交通数据都附有一段文本描述，包括时间、地点和事件详情，如交通事故、道路施工等。数据集的创建过程涉及从地图服务和社交媒体平台收集数据，并通过去重和标准化处理。BjTT数据集的应用领域主要集中在交通预测，特别是在处理异常事件和提高长期预测准确性方面。

提供机构：

北京人工智能研究院

创建时间：

2024-03-08

AI搜集汇总

数据集介绍

构建方式

北京文本交通数据集（BjTT）的构建过程主要分为数据收集与数据处理两个阶段。数据收集阶段，研究者从地图服务提供商（如高德地图和百度地图）获取了北京五环内1200多条道路的历史交通数据，涵盖速度与拥堵水平信息，时间跨度为三个月。同时，通过社交媒体平台（如微博和小红书）以及地图应用，收集了与交通相关的事件文本数据，包括交通事故、道路施工、天气异常等30多种事件类型。数据处理阶段，研究者将道路划分为小于1公里的路段，并对每个路段的交通数据进行平均处理，最终形成32,000多条时间序列交通数据。每条交通数据与描述交通事件的文本数据一一对应，形成多模态数据集。

特点

BjTT数据集具有三大显著特点。首先，数据规模庞大，包含32,000多条时间序列交通数据，覆盖北京五环内1200多条道路，时间跨度为三个月。其次，数据类型多样，每条交通数据不仅包含速度和拥堵水平信息，还配有描述交通事件的文本数据，涵盖交通事故、天气异常、社会活动等多种事件类型。最后，BjTT首次将交通数据与事件文本数据结合，提供了多模态数据支持，为交通预测研究提供了更全面的信息基础。

使用方法

BjTT数据集的使用方法主要分为两类。第一类是基于时间序列的交通预测方法，研究者可以利用数据集中的速度和拥堵水平数据，训练和评估现有的交通预测模型，如STGCN、GWN等。第二类是基于文本的生成模型，研究者可以利用事件文本数据，训练文本引导的生成模型（如LDM），直接生成未来交通状况。此外，BjTT数据集还可用于研究异常事件对交通的影响，以及长期交通预测的优化。通过结合多模态数据，研究者能够更全面地分析交通系统的动态变化，提升预测精度。

背景与挑战

背景概述

北京文本交通数据集（BjTT）是由北京工业大学的多位研究人员于2021年提出的一个大规模多模态交通预测数据集。该数据集旨在解决智能交通系统（ITS）中的交通预测问题，特别是在城市交通系统中，交通状况受到多种因素（如异常天气、交通事故等）的影响。BjTT数据集包含了超过32,000条时间序列交通记录，覆盖了北京五环内1,200多条道路的速度和拥堵水平数据，并且每条交通数据都配有描述交通系统的文本信息。该数据集的发布为交通预测研究提供了更为全面的数据支持，推动了多模态数据在交通预测中的应用。

当前挑战

BjTT数据集在构建和应用过程中面临多重挑战。首先，交通预测领域的主要挑战在于如何准确捕捉异常事件（如交通事故、恶劣天气等）对交通流的影响。传统方法仅依赖历史交通数据，难以有效应对这些突发情况。其次，长期交通预测的准确性仍然是一个难题，现有方法在长时间跨度内的预测性能较差。在数据集构建过程中，研究人员需要整合来自不同来源的交通和事件数据，确保数据的准确性和一致性。此外，文本数据的采集和处理也面临挑战，包括如何从社交媒体和地图应用中提取有效的事件描述，并将其与交通数据进行精确匹配。这些挑战使得BjTT数据集的构建和应用具有较高的复杂性。

常用场景

经典使用场景

北京文本交通数据集（BjTT）在交通预测领域具有广泛的应用场景，尤其是在智能交通系统（ITS）中。该数据集通过结合时间序列交通数据和文本描述，能够捕捉到城市交通系统中的多种影响因素，如异常天气、交通事故等。经典使用场景包括短期和长期交通流量预测、交通拥堵分析以及突发事件对交通系统的影响评估。通过多模态数据的融合，BjTT为研究者提供了更全面的交通状态分析工具，显著提升了预测的准确性和实用性。

实际应用

在实际应用中，BjTT数据集为城市交通管理部门提供了强大的决策支持工具。例如，通过分析数据集中的交通流量和事件信息，交通管理部门可以提前预测并应对交通拥堵、交通事故等突发情况，优化交通信号灯控制和路线规划。此外，该数据集还可用于智能导航系统的开发，帮助驾驶员避开拥堵路段，提升出行效率。BjTT的多模态特性使其在智慧城市建设中具有广泛的应用前景，为交通系统的智能化管理提供了数据基础。

衍生相关工作

BjTT数据集的发布催生了一系列相关研究工作，尤其是在多模态交通预测领域。基于BjTT，研究者开发了多种先进的交通预测模型，如基于图神经网络（GNN）和长短期记忆网络（LSTM）的混合模型，这些模型在捕捉时空依赖性和事件影响方面表现出色。此外，BjTT还推动了文本引导生成模型在交通预测中的应用，例如通过文本描述生成未来交通状况的潜在扩散模型（LDM）。这些衍生工作不仅扩展了交通预测的研究边界，还为多模态数据融合提供了新的思路和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台，专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发，包含两个机器人：D'Claw，一个三指手机器人，用于促进精细操作任务的学习；D'Kitty，一个四足机器人，用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固，能够承受从零开始的硬件强化学习，目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务，这些任务具有密集和稀疏的任务目标，并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问，旨在解决强化学习在真实机器人上的应用问题，特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集，时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB，数据格式为excel。

国家地球系统科学数据中心收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录