five

USDA FoodData Central Dataset|食品信息数据集|营养分析数据集

收藏
github2024-11-07 更新2024-11-08 收录
食品信息
营养分析
下载链接:
https://github.com/jack-tol/usda-food-data-pipeline
下载链接
链接失效反馈
资源简介:
USDA FoodData Central数据集是一个公开可访问且全面的资源,提供美国消费者货架上食品的信息。该数据集包含34个CSV文件,涵盖了食品的各种信息,包括成分、营养成分和份量。
创建时间:
2024-10-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建USDA FoodData Central数据集的过程中,采用了自动化数据处理管道,该管道整合并清洗了来自USDA FoodData Central的34个CSV文件,最终生成一个结构化的单一数据集。此过程包括数据的自动下载、清洗、合并和标准化,确保数据集适用于机器学习和分析。
特点
USDA FoodData Central数据集的特点在于其自动化数据处理管道和交互式助手的结合。数据集不仅经过精细的清洗和转换,还支持语义搜索,利用Pinecone索引和`multilingual-e5-large`嵌入模型进行相似性检索。此外,该数据集已准备好用于各种机器学习应用,为研究人员和开发者提供了丰富的营养和食品信息。
使用方法
使用USDA FoodData Central数据集时,用户可以通过交互式助手进行查询,获取详细的食品信息和营养相关问题的答案。该助手结合了语义搜索和语言生成技术,能够提供上下文相关的回答。此外,数据集可以直接用于机器学习模型的训练和分析,支持多种应用场景,如食品推荐系统、营养分析工具等。
背景与挑战
背景概述
USDA FoodData Central Dataset是由美国农业部(USDA)创建的一个全面且公开可访问的数据资源,旨在提供美国市场上消费者可获得的各种食品信息。该数据集的构建始于对34个CSV文件的数据整合与清洗,通过自动化流程将这些数据转化为一个结构化的数据集,便于机器学习和分析。主要研究人员或机构为美国农业部,其核心研究问题在于如何高效地整理和利用食品数据,以支持营养学研究、食品行业分析以及公众健康信息的传播。该数据集对相关领域的影响力在于其为食品数据的处理和应用提供了一个标准化的框架,促进了数据驱动的决策和研究。
当前挑战
USDA FoodData Central Dataset在构建过程中面临多项挑战。首先,数据来源的多样性和复杂性要求高效的自动化数据处理和清洗技术,以确保数据的准确性和一致性。其次,如何将庞大的食品数据转化为机器学习友好的格式,以便于各种应用的开发,是一个技术难题。此外,该数据集在实际应用中还需解决用户查询的效率和准确性问题,特别是在构建交互式工具如USDA Food Assistant时,如何实现语义搜索和语言生成的高效结合,以提供用户友好的食品信息查询体验,是一个重要的挑战。
常用场景
经典使用场景
在食品科学和营养学领域,USDA FoodData Central Dataset 被广泛用于分析和研究美国市场上各类食品的营养成分。通过该数据集,研究人员可以深入探讨不同食品的营养价值,从而为公众提供更为科学的饮食建议。此外,数据集的结构化特性使其成为机器学习模型的理想输入,用于预测食品成分或评估特定饮食方案的效果。
衍生相关工作
基于 USDA FoodData Central Dataset,许多研究者和开发者开展了相关工作,推动了食品科学和营养学领域的发展。例如,有研究利用该数据集开发了食品成分预测模型,通过机器学习算法预测未知食品的营养成分。此外,还有工作聚焦于数据集的语义搜索和信息检索,提升了用户查询食品信息的效率和准确性。这些衍生工作不仅丰富了数据集的应用场景,也促进了相关技术的创新和进步。
数据集最近研究
最新研究方向
在食品科学与营养学领域,USDA FoodData Central Dataset的最新研究方向主要集中在数据整合与智能交互工具的开发。通过自动化数据处理管道,研究者们致力于将分散的食品数据转化为结构化、机器学习友好的格式,从而为营养分析和食品推荐系统提供坚实基础。此外,基于语义搜索和自然语言生成技术的交互式食品助手,正成为研究热点,旨在为用户提供个性化的营养信息查询服务,推动食品数据在日常生活中的应用与普及。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)

CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。

国家青藏高原科学数据中心 收录

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录