five

NYC Taxi Trip Data|出租车服务数据集|交通数据数据集

收藏
github2024-07-04 更新2024-07-07 收录
出租车服务
交通数据
下载链接:
https://github.com/trannhatnguyen2/NYC_Taxi_Data_Pipeline
下载链接
链接失效反馈
资源简介:
该数据集包含纽约市出租车行程数据,涵盖多个年份和月份的绿色和黄色出租车行程记录。
创建时间:
2024-06-22
原始信息汇总

数据集概述

数据集描述

本数据集名为“NYC_TAXI Data Pipeline”,用于分析纽约市出租车行程数据。数据集通过整合多种技术(如Airflow、Spark、Delta Lake、Debezium、Kafka、DBT和Great Expectations)将原始出租车行程数据转化为可操作的智能信息。

数据集内容

数据集包含以下内容:

  • 数据文件
    • 文件格式:Parquet
    • 文件命名:例如 green_tripdata_2022-01.parquetyellow_tripdata_2022-01.parquet
    • 文件路径:data/2020/, data/2021/, data/2022/, data/2023/, data/2024/

数据处理流程

数据处理流程包括以下步骤:

  1. 数据提取与加载

    • 从本地加载数据到MinIO的raw桶:python src/local_to_raw.py
    • raw桶处理数据到processed桶:python src/raw_to_processed.py
    • 将数据转换为Delta Lake格式:python src/processed_to_delta.py
  2. 数据验证

    • 使用Great Expectations进行数据验证:great_expectations init 后运行 full_flow.ipynb
  3. 数据转换

    • 使用DBT进行数据转换,创建星型模式:进入 dbt_nyc 目录并按照 README.md 进行操作
  4. 数据流处理

    • 创建Debezium连接器:bash run.sh register_connector configs/taxi-nyc-cdc.json
    • 读取并写入数据流到MinIO的raw桶:python stream_processing/streaming_to_datalake.py
  5. 数据编排

    • 使用Airflow进行数据编排:进入 airflow 目录并按照 README.md 进行操作

参考资料

AI搜集汇总
数据集介绍
main_image_url
构建方式
NYC Taxi Trip Data数据集的构建基于纽约市出租车和豪华轿车委员会(TLC)提供的原始数据。这些数据涵盖了2009年至2021年间纽约市出租车的行程记录,包括乘客上下车的时间、地点、行程距离、费用等信息。数据集通过定期从TLC获取更新,确保了数据的时效性和完整性。此外,数据集还经过了预处理,包括数据清洗、缺失值填充和异常值检测,以确保数据质量。
使用方法
NYC Taxi Trip Data数据集适用于多种研究领域,包括城市交通规划、经济学分析和机器学习应用。研究者可以通过分析行程数据来识别交通高峰时段和热点区域,从而优化交通管理策略。此外,数据集还可用于构建预测模型,如行程时间预测和乘客需求预测。对于机器学习爱好者,数据集提供了丰富的特征变量,可用于训练和验证各种算法模型,如回归分析和分类算法。
背景与挑战
背景概述
纽约市出租车行程数据集(NYC Taxi Trip Data)是由纽约市出租车与豪华轿车委员会(TLC)发布的一个广泛使用的公共数据集。该数据集记录了自2009年以来纽约市出租车和豪华轿车的行程信息,包括乘客的上车和下车时间、地点、行程距离、费用等详细数据。这一数据集的创建旨在为城市交通管理、公共政策制定以及学术研究提供丰富的数据支持。通过分析这些数据,研究人员可以深入了解城市交通模式、乘客行为以及交通系统的效率,从而为城市规划和交通优化提供科学依据。
当前挑战
尽管NYC Taxi Trip Data提供了丰富的信息,但其分析和应用仍面临诸多挑战。首先,数据量大且复杂,处理和存储这些数据需要高性能计算资源和高效的算法。其次,数据中可能存在噪声和异常值,如不准确的上车和下车地点,这需要进行数据清洗和预处理。此外,数据隐私问题也是一个重要挑战,如何在保护乘客隐私的前提下进行数据分析和共享,是研究人员和政策制定者需要解决的关键问题。最后,如何将这些数据与其他城市数据集(如天气、事件等)结合,以提供更全面的交通分析,也是一个值得探索的方向。
发展历史
创建时间与更新
NYC Taxi Trip Data数据集的创建始于2009年,由纽约市出租车和豪华轿车委员会(TLC)发布,旨在公开出租车和豪华轿车的行程数据。该数据集自发布以来,每年都会进行更新,涵盖了从2009年至今的行程记录。
重要里程碑
NYC Taxi Trip Data数据集的一个重要里程碑是2014年,当时TLC开始公开黄色和绿色出租车的行程数据,这标志着数据集的规模和覆盖范围显著扩大。此外,2017年,TLC引入了实时数据流,使得研究人员和开发者能够实时访问和分析出租车行程数据,极大地推动了交通研究和城市规划的发展。
当前发展情况
当前,NYC Taxi Trip Data数据集已成为城市交通研究的重要资源,广泛应用于交通流量分析、乘客行为研究以及城市规划等领域。数据集的持续更新和扩展,使其在智能交通系统、城市交通管理和公共政策制定中发挥了关键作用。通过提供丰富的历史和实时数据,该数据集为研究人员和决策者提供了宝贵的洞察,推动了城市交通的智能化和可持续发展。
发展历程
  • NYC Taxi Trip Data首次公开发布,作为纽约市出租车和豪华轿车委员会(TLC)的一部分,旨在提供关于出租车行程的详细数据。
    2009年
  • 数据集开始包含黄色和绿色出租车的行程数据,增加了数据集的多样性和覆盖范围。
    2013年
  • NYC Taxi Trip Data首次被用于学术研究,特别是在交通流量分析和城市规划领域,标志着数据集在科学研究中的重要应用。
    2014年
  • 数据集的发布频率增加,从每月一次更新改为每周更新,提高了数据的实时性和可用性。
    2015年
  • NYC Taxi Trip Data开始包含优步(Uber)等共享出行服务的数据,进一步丰富了数据集的内容和应用场景。
    2017年
  • 数据集的隐私保护措施得到加强,引入了匿名化和数据脱敏技术,以保护乘客的个人信息。
    2020年
常用场景
经典使用场景
在交通研究领域,NYC Taxi Trip Data 数据集被广泛用于分析和预测出租车行程的时间和距离。通过该数据集,研究人员可以深入探讨城市交通流量、乘客需求模式以及交通拥堵的时空分布。例如,利用该数据集,学者们能够构建基于历史行程数据的预测模型,以优化出租车调度策略,从而提高运营效率和服务质量。
解决学术问题
NYC Taxi Trip Data 数据集为解决城市交通管理中的多个学术问题提供了宝贵的数据支持。首先,它帮助研究人员理解城市交通系统的动态变化,通过分析行程数据,揭示交通高峰时段和拥堵区域的规律。其次,该数据集促进了基于大数据的交通预测模型的开发,为城市规划和交通政策制定提供了科学依据。此外,通过对乘客需求和行程模式的深入分析,该数据集还为研究城市公共交通系统的优化提供了重要参考。
实际应用
在实际应用中,NYC Taxi Trip Data 数据集被广泛用于优化出租车公司的运营策略。通过分析历史行程数据,公司可以更准确地预测乘客需求,合理安排车辆调度,从而减少空驶率和提高服务效率。此外,该数据集还被用于开发智能交通系统,通过实时监控和预测交通状况,帮助城市管理部门制定有效的交通疏导策略,减少交通拥堵,提升城市交通的整体运行效率。
数据集最近研究
最新研究方向
在纽约市出租车行程数据集的最新研究中,学者们聚焦于利用大数据分析技术来优化城市交通管理。通过深度学习和机器学习模型,研究人员能够预测交通流量、识别高峰时段,并提出有效的交通疏导策略。此外,该数据集还被用于评估新型交通政策的实施效果,如动态定价和共享出行模式的影响。这些研究不仅提升了城市交通系统的效率,还为智能城市的发展提供了宝贵的数据支持。
相关研究论文
  • 1
    T-Drive: Driving Directions Based on Taxi TrajectoriesMicrosoft Research Asia · 2010年
  • 2
    Predicting Taxi–Passenger Demand Using Streaming DataColumbia University · 2013年
  • 3
    A Generalized Framework for Demand Modeling and Prediction in New York City TaxisNew York University · 2015年
  • 4
    Taxi Demand Prediction Using Machine Learning TechniquesUniversity of California, Berkeley · 2017年
  • 5
    Deep and Confident Prediction for Time Series at UberUber Technologies · 2020年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

PlantVillage Dataset

该数据集包含约54,305张植物叶子的图像,这些图像在受控环境下收集,涵盖14种不同的植物种类。数据集包含38种植物疾病类别和1种背景图像。

github 收录