five

CalData|食材识别数据集|饮食管理数据集

收藏
arXiv2024-12-13 更新2024-12-17 收录
食材识别
饮食管理
下载链接:
https://github.com/KennyYao2001/16824-CaLORAify
下载链接
链接失效反馈
资源简介:
CalData是一个专门为食材识别和卡路里估算任务设计的数据集,由卡内基梅隆大学的研究团队创建。该数据集包含33万张图像-文本对,来源于Recipe1M+数据集并补充了详细的营养信息。数据集的创建过程结合了大规模食谱数据和营养指导,确保了视觉语言模型的稳健训练。CalData主要应用于个性化饮食管理领域,旨在通过图像识别技术简化卡路里估算流程,提升用户的饮食健康管理体验。
提供机构:
卡内基梅隆大学
创建时间:
2024-12-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
CalData数据集通过结合大规模食谱数据集Recipe1M+与详细的营养信息,构建了一个包含330K图像-文本对的专用数据集。该数据集的构建采用了层次化的组织方式,每个样本与最多五张代表性图像配对,并结合五组手动构建的指令集,形成图像-文本对。数据集被划分为训练集、验证集和测试集,确保了在视觉语言任务中的高效管理和训练。
特点
CalData数据集的主要特点在于其大规模的图像-文本对,涵盖了丰富的食谱和营养信息,适用于细粒度的食材识别和卡路里预测任务。数据集的多样性和详细性使其成为视觉语言模型在食品领域进行微调的理想选择。此外,数据集的层次化结构和平衡采样策略确保了训练和评估的稳健性。
使用方法
CalData数据集主要用于视觉语言模型的微调,特别是在食材识别和卡路里估算任务中。用户可以通过该数据集训练模型,使其能够从单一的食物图像中识别食材并估算卡路里。数据集的图像-文本对结构支持模型的多模态学习,使其能够在实际应用中提供准确的卡路里估算和食材分析。
背景与挑战
背景概述
随着肥胖问题在全球范围内日益严重,传统的卡路里估算工具往往依赖于特定的数据格式或复杂的流程,限制了其在实际应用中的实用性。为此,卡内基梅隆大学的研究人员Dongyu Yao、Keling Yao、Junhong Zhou和Yinghao Zhang等人提出了CalData数据集,该数据集包含330K图像-文本对,专门用于食材识别和卡路里估算。CalData数据集的构建基于大规模的Recipe1M+数据集,并结合了详细的营养信息,旨在为视觉语言模型(VLMs)的训练提供支持。通过该数据集,研究人员开发了CaLoRAify框架,该框架利用视觉-文本配对进行训练,能够在用户仅提供单一食物图像的情况下进行卡路里估算,显著提升了系统的实用性和灵活性。
当前挑战
CalData数据集的构建面临多重挑战。首先,传统的卡路里估算方法依赖于多步骤的流程,如食物分类、份量估算和卡路里计算,这些方法在实际应用中存在误差传播和硬件依赖的问题。其次,构建CalData数据集时,研究人员需要从Recipe1M+数据集中提取并整合详细的食材和营养信息,确保数据的准确性和多样性。此外,视觉语言模型在处理垂直领域的任务时,如食材识别和卡路里估算,需要克服模型在特定领域知识上的不足,确保其在实际应用中的准确性和可靠性。
常用场景
经典使用场景
CalData数据集的经典使用场景主要集中在食品成分识别和卡路里估算领域。该数据集通过结合大规模食谱数据集与详细的营养信息,为视觉语言模型(VLM)的训练提供了丰富的图像-文本对。在实际应用中,用户仅需提供一张食物的单目图像,系统便能通过视觉-文本对齐技术,自动识别食物成分并估算其卡路里含量,极大地简化了传统多步骤的卡路里估算流程。
实际应用
CalData数据集在实际应用中展现了广泛的前景,特别是在移动健康应用和智能饮食管理系统中。例如,用户可以通过手机摄像头拍摄食物图像,系统即刻返回该食物的成分和卡路里信息,帮助用户实时监控饮食摄入。此外,该数据集还可应用于餐饮行业,帮助餐厅或食品制造商快速估算菜品或产品的营养成分,从而优化菜单设计和产品开发,满足消费者的健康需求。
衍生相关工作
基于CalData数据集,研究者们开发了CaLoRAify框架,该框架通过结合低秩适应(LoRA)和检索增强生成(RAG)技术,显著提升了视觉语言模型在卡路里估算任务中的表现。此外,该数据集还激发了其他相关研究,如基于多模态输入的食谱生成和个性化饮食推荐系统。这些工作不仅扩展了CalData的应用范围,还推动了视觉语言模型在食品分析领域的进一步发展,为未来的智能饮食管理提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录