five

product-database|食品数据数据集|营养分析数据集

收藏
huggingface2024-10-29 更新2024-12-12 收录
食品数据
营养分析
下载链接:
https://huggingface.co/datasets/openfoodfacts/product-database
下载链接
链接失效反馈
资源简介:
Open Food Facts 产品数据库是一个包含食品产品详细信息的数据库,包括成分、过敏原和营养成分。该数据库由来自世界各地的志愿者贡献,数据以开放数据的形式提供给公众使用。该数据集以 Parquet 格式提供,是 Open Food Facts 组织每日提供的 JSONL 转储的更清洁版本。
创建时间:
2024-10-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
Open Food Facts数据库是一个由全球志愿者共同构建的食品产品数据库,涵盖了来自150个国家的170多万种产品。数据采集主要通过Android或iPhone应用程序完成,用户通过扫描产品条形码并上传产品及其标签的图片来贡献数据。原始数据以JSONL格式每日发布,随后被转换为Parquet格式以便于使用。在数据处理过程中,移除了调试标签和层次结构标签,保留了包含主要信息的标签,并将每种语言的成分文本单独保存为列。
特点
该数据集涵盖了多种语言的食品产品信息,包括成分、过敏原、营养成分等标签上的详细信息。其多语言特性使得该数据集在全球范围内具有广泛的应用价值。数据以Parquet格式存储,便于高效处理和分析。此外,数据集遵循开放数据许可,允许任何人自由使用和重新发布,进一步增强了其可用性和可访问性。
使用方法
用户可以通过HuggingFace平台直接访问该数据集,下载Parquet格式的文件进行本地分析。数据集适用于食品科学研究、营养分析、市场趋势预测等多个领域。在使用数据时,用户需遵守开放数据库许可和数据库内容许可的规定,并注意产品图片的版权问题。用户还可以通过填写表单向Open Food Facts社区分享其数据应用案例,以促进数据的进一步利用和推广。
背景与挑战
背景概述
Open Food Facts数据库是一个全球性的食品产品数据库,由非营利组织Open Food Facts协会于2012年创建。该数据库汇集了来自150个国家的超过170万种食品产品的详细信息,包括成分、过敏原、营养成分等。数据库的构建依赖于全球超过25,000名志愿者的贡献,他们通过手机应用扫描产品条形码并上传产品标签信息。Open Food Facts的使命是提供公开、透明的食品信息,推动公众健康与食品安全研究。该数据库的开放数据特性使其广泛应用于食品科学、营养学、消费者行为研究等多个领域,成为相关研究的重要数据来源。
当前挑战
Open Food Facts数据库在构建与应用过程中面临多重挑战。首先,食品标签信息的多样性与复杂性使得数据标准化与清洗成为一项艰巨任务,尤其是在多语言环境下,如何准确解析与翻译成分信息尤为关键。其次,数据更新与维护依赖于志愿者贡献,数据的完整性与时效性难以保证,尤其是在偏远地区或小众产品领域。此外,数据库的开放性与隐私保护之间的平衡也是一个重要问题,如何在公开数据的同时保护消费者隐私与品牌权益,需要制定严格的数据使用规范与法律框架。
常用场景
经典使用场景
Open Food Facts数据库广泛应用于食品科学、营养学及公共卫生领域,研究人员通过该数据集分析食品成分、营养标签及过敏原信息,以评估食品的健康影响。该数据集的多语言特性使其在全球范围内具有广泛的应用价值,特别是在跨国食品比较研究中。
实际应用
在实际应用中,Open Food Facts数据库被用于开发食品推荐系统、营养分析工具及过敏原检测应用。消费者可以通过这些工具快速获取食品的详细信息,做出更健康的饮食选择。此外,该数据集还被用于食品供应链管理,帮助企业优化产品配方及标签设计。
衍生相关工作
基于Open Food Facts数据库,衍生出多项经典研究工作,如食品成分的机器学习分类模型、营养标签的自动生成系统及跨国食品标准的比较研究。这些工作不仅推动了食品科学领域的技术进步,也为全球食品安全与健康政策的制定提供了数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录