scikit-learn/auto-mpg|汽车燃油效率数据集|机器学习数据集

hugging_face2023-12-05 更新2024-03-04 收录

汽车燃油效率

机器学习

下载链接：

https://hf-mirror.com/datasets/scikit-learn/auto-mpg

下载链接

链接失效反馈

资源简介：

Auto MPG数据集是一个用于预测城市循环燃料消耗（每加仑英里数）的表格数据集，包含3个多值离散属性和5个连续属性。数据集来源于StatLib库，用于1983年美国统计协会博览会，并被Ross Quinlan在1993年用于预测mpg属性。

提供机构：

scikit-learn

原始信息汇总

数据集概述

数据集名称

名称: Auto Miles per Gallon (MPG) Dataset

数据集来源

来源: 该数据集源自StatLib图书馆，由卡内基梅隆大学维护，并在1983年美国统计协会博览会上使用。

数据集信息

描述: 此数据集是StatLib库提供的原始数据集的稍微修改版本。为了与Ross Quinlan（1993）在预测属性“mpg”时的使用保持一致，移除了8个具有“mpg”属性未知值的原始实例。
目的: 数据涉及城市循环燃料消耗的英里每加仑（mpg），旨在通过3个多值离散属性和5个连续属性进行预测。

属性信息

mpg: 连续
cylinders: 多值离散
displacement: 连续
horsepower: 连续
weight: 连续
acceleration: 连续
model year: 多值离散
origin: 多值离散
car name: 字符串（每个实例唯一）

许可

许可: Apache-2.0

任务类别

任务类别:
- 表格分类
- 表格回归

语言

语言: 英语

该数据集源自卡内基梅隆大学的StatLib库，最初用于1983年美国统计协会博览会。为适应特定预测任务，数据集经过轻微调整，移除了8条因缺失'mpg'属性值而无法使用的原始实例。这一调整确保了数据集在预测城市循环燃料消耗方面的实用性和完整性。

使用方法

该数据集适用于表格分类和回归任务，特别适合用于预测汽车的燃油效率。用户可通过加载数据集，利用其包含的连续和离散属性进行模型训练，以实现对'mpg'属性的精准预测。数据集的结构清晰，属性定义明确，便于直接应用于各类机器学习算法中。

背景与挑战

背景概述

Auto Miles per Gallon (MPG) 数据集，源自卡内基梅隆大学的StatLib库，最初用于1983年美国统计协会博览会。该数据集的核心研究问题围绕城市循环燃料消耗的预测，具体是通过3个多值离散属性和5个连续属性来预测每加仑行驶的英里数（MPG）。数据集经过Ross Quinlan（1993年）的修改，移除了8条因MPG属性值缺失的原始实例，从而形成了当前版本。此数据集在机器学习领域，特别是在表格分类和回归任务中，具有重要的应用价值，为研究者提供了一个标准化的基准数据集，用以评估和比较不同算法的性能。

当前挑战

Auto MPG数据集在构建和应用过程中面临多项挑战。首先，数据集的原始版本包含缺失值，这要求在预处理阶段进行数据清洗和插补，以确保数据的完整性和准确性。其次，数据集涉及多个属性的混合类型，包括连续变量和离散变量，这增加了模型选择的复杂性，需要考虑不同类型变量的处理方法。此外，数据集的规模相对较小，可能限制了某些复杂模型的训练效果，尤其是在需要大量数据进行参数估计的深度学习模型中。最后，数据集的应用场景主要集中在燃料效率的预测，这要求模型不仅要具有高预测精度，还需具备良好的解释性，以便于理解影响燃料效率的关键因素。

常用场景

经典使用场景

在汽车工程与数据科学交叉领域，scikit-learn/auto-mpg数据集常用于预测汽车的燃油效率，即每加仑汽油可行驶的英里数（MPG）。通过分析汽车的多个属性，如气缸数、排量、马力、重量和加速度等，研究者可以构建回归模型，从而精准预测不同车型的燃油经济性。这一经典应用场景不仅为汽车制造商提供了优化设计的可能性，也为消费者在购车决策时提供了数据支持。

解决学术问题

该数据集有效解决了在汽车燃油效率预测中的关键学术问题，特别是在多变量回归分析领域。通过整合多种离散和连续属性，研究者能够探索各属性对燃油效率的独立与交互影响，进而提升模型的预测精度。这一研究不仅推动了回归分析技术的发展，还为相关领域的学者提供了标准化的数据集，促进了学术研究的深入与广泛应用。

实际应用

在实际应用中，scikit-learn/auto-mpg数据集被广泛用于汽车行业的燃油效率优化与消费者决策支持系统。汽车制造商利用该数据集进行车型设计优化，以提高燃油经济性，降低运营成本。同时，消费者可通过基于该数据集的预测模型，比较不同车型的燃油效率，从而做出更为理性的购车选择。此外，该数据集还被用于政府和环保组织的政策制定，以推动节能减排目标的实现。

数据集最近研究

最新研究方向

在汽车工程与数据科学的交叉领域，scikit-learn/auto-mpg数据集因其对城市循环燃油效率的详细记录而备受关注。最新研究方向主要集中在利用机器学习技术，如回归分析和分类模型，来精准预测汽车的燃油消耗。这些研究不仅有助于优化车辆设计，提升燃油经济性，还为政策制定者提供了科学依据，以推动更环保的交通解决方案。此外，随着可持续发展和绿色技术的日益重要，该数据集的应用前景愈发广阔，尤其是在智能交通系统和自动驾驶技术的研发中，其潜在价值不容忽视。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台，专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发，包含两个机器人：D'Claw，一个三指手机器人，用于促进精细操作任务的学习；D'Kitty，一个四足机器人，用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固，能够承受从零开始的硬件强化学习，目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务，这些任务具有密集和稀疏的任务目标，并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问，旨在解决强化学习在真实机器人上的应用问题，特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

scikit-learn/auto-mpg|汽车燃油效率数据集|机器学习数据集

数据集概述

数据集名称

数据集来源

数据集信息

属性信息

许可

任务类别

语言

标签