Stanford Dogs|图像分类数据集|机器学习数据集
收藏
- Stanford Dogs数据集首次发表,由斯坦福大学的研究人员创建,包含20,580张图像,涵盖120个不同品种的狗。
- 该数据集首次应用于计算机视觉领域的研究,特别是在图像分类和目标检测任务中,展示了其在狗品种识别方面的潜力。
- 随着深度学习技术的兴起,Stanford Dogs数据集被广泛用于训练和评估卷积神经网络(CNN)模型,显著提升了狗品种分类的准确率。
- 该数据集成为多个国际计算机视觉竞赛的标准基准数据集之一,进一步推动了相关算法的发展和优化。
- 研究人员开始探索如何利用Stanford Dogs数据集进行跨域学习,以提高模型在不同数据分布下的泛化能力。
- 1The Stanford Dogs Dataset: A Comprehensive Dataset for Fine-Grained Dog Breed ClassificationStanford University · 2011年
- 2Fine-Grained Visual Classification of AircraftUniversity of Bonn · 2013年
- 3Deep Residual Learning for Image RecognitionMicrosoft Research · 2015年
- 4Rethinking the Inception Architecture for Computer VisionGoogle Inc. · 2016年
- 5Attention is All You NeedGoogle Brain · 2017年
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
PsyDTCorpus
PsyDTCorpus是由华南理工大学团队创建的一个高质量多轮心理健康对话数据集,旨在模拟特定心理咨询师的个性化咨询风格。该数据集包含5000条单轮长文本对话,通过GPT-4进行动态一次性学习,模拟了客户的五大人格特质,并合成了多轮对话。数据集的创建过程结合了真实世界的心理咨询案例,确保了对话的复杂性和多样性。PsyDTCorpus主要应用于心理咨询领域,旨在通过个性化的心理咨询风格提升心理健康LLM的性能,解决现有模型在个性化需求上的不足。
arXiv 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录