NYC Taxi Trip Data|出租车服务数据集|交通数据数据集
收藏数据集概述
数据集描述
本数据集名为“NYC_TAXI Data Pipeline”,用于分析纽约市出租车行程数据。数据集通过整合多种技术(如Airflow、Spark、Delta Lake、Debezium、Kafka、DBT和Great Expectations)将原始出租车行程数据转化为可操作的智能信息。
数据集内容
数据集包含以下内容:
- 数据文件:
- 文件格式:Parquet
- 文件命名:例如
green_tripdata_2022-01.parquet
和yellow_tripdata_2022-01.parquet
- 文件路径:
data/2020/
,data/2021/
,data/2022/
,data/2023/
,data/2024/
数据处理流程
数据处理流程包括以下步骤:
-
数据提取与加载:
- 从本地加载数据到MinIO的
raw
桶:python src/local_to_raw.py
- 从
raw
桶处理数据到processed
桶:python src/raw_to_processed.py
- 将数据转换为Delta Lake格式:
python src/processed_to_delta.py
- 从本地加载数据到MinIO的
-
数据验证:
- 使用Great Expectations进行数据验证:
great_expectations init
后运行full_flow.ipynb
- 使用Great Expectations进行数据验证:
-
数据转换:
- 使用DBT进行数据转换,创建星型模式:进入
dbt_nyc
目录并按照README.md
进行操作
- 使用DBT进行数据转换,创建星型模式:进入
-
数据流处理:
- 创建Debezium连接器:
bash run.sh register_connector configs/taxi-nyc-cdc.json
- 读取并写入数据流到MinIO的
raw
桶:python stream_processing/streaming_to_datalake.py
- 创建Debezium连接器:
-
数据编排:
- 使用Airflow进行数据编排:进入
airflow
目录并按照README.md
进行操作
- 使用Airflow进行数据编排:进入
参考资料

- NYC Taxi Trip Data首次公开发布,作为纽约市出租车和豪华轿车委员会(TLC)的一部分,旨在提供关于出租车行程的详细数据。
- 数据集开始包含黄色和绿色出租车的行程数据,增加了数据集的多样性和覆盖范围。
- NYC Taxi Trip Data首次被用于学术研究,特别是在交通流量分析和城市规划领域,标志着数据集在科学研究中的重要应用。
- 数据集的发布频率增加,从每月一次更新改为每周更新,提高了数据的实时性和可用性。
- NYC Taxi Trip Data开始包含优步(Uber)等共享出行服务的数据,进一步丰富了数据集的内容和应用场景。
- 数据集的隐私保护措施得到加强,引入了匿名化和数据脱敏技术,以保护乘客的个人信息。
- 1T-Drive: Driving Directions Based on Taxi TrajectoriesMicrosoft Research Asia · 2010年
- 2Predicting Taxi–Passenger Demand Using Streaming DataColumbia University · 2013年
- 3A Generalized Framework for Demand Modeling and Prediction in New York City TaxisNew York University · 2015年
- 4Taxi Demand Prediction Using Machine Learning TechniquesUniversity of California, Berkeley · 2017年
- 5Deep and Confident Prediction for Time Series at UberUber Technologies · 2020年
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
中国知识产权局专利数据库
该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。
www.cnipa.gov.cn 收录
PlantVillage Dataset
该数据集包含约54,305张植物叶子的图像,这些图像在受控环境下收集,涵盖14种不同的植物种类。数据集包含38种植物疾病类别和1种背景图像。
github 收录