five

CIFAR10, CIFAR100, TinyImageNet|图像分类数据集|知识蒸馏数据集

收藏
arXiv2024-10-03 更新2024-10-09 收录
图像分类
知识蒸馏
下载链接:
https://arxiv.org/pdf/2410.02116v1
下载链接
链接失效反馈
资源简介:
本文研究了通过知识蒸馏进行数据集蒸馏的方法,特别关注自监督预训练深度网络的效率。数据集包括CIFAR10、CIFAR100和TinyImageNet,这些数据集用于生成小型合成数据集,以模拟在大规模图像数据集上的训练。数据集的创建过程涉及匹配学生模型和教师模型的训练轨迹,通过知识蒸馏降低自监督学习梯度的高方差。该数据集的应用领域主要是在有限标记数据的情况下,提高下游任务的准确性。
提供机构:
加州大学洛杉矶分校计算机科学系
创建时间:
2024-10-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式基于知识蒸馏(Knowledge Distillation, KD)技术,通过训练一个较小的学生模型来匹配一个较大的教师模型在自监督学习(Self-Supervised Learning, SSL)中的表示。具体而言,首先训练一个教师编码器使用SSL,然后训练多个学生编码器以最小化其表示与教师编码器表示之间的均方误差(MSE)。接着,通过匹配学生模型的训练轨迹来生成合成数据集。这种方法通过降低SSL梯度的高方差,显著提高了数据集蒸馏的效果。
使用方法
使用该数据集时,首先需要在蒸馏数据集上预训练编码器,通过最小化合成数据表示与教师编码器表示之间的MSE损失来实现。预训练完成后,可以在下游任务中使用这些预训练的编码器,通过训练线性分类器来评估其泛化误差。实验表明,该方法在多种下游任务中表现优异,尤其是在标签数据有限的情况下,显著提升了模型的性能。
背景与挑战
背景概述
数据集蒸馏(Dataset Distillation, DD)旨在生成一个极小的合成图像集,能够在极有限的内存和计算资源下模拟大规模图像数据集的训练过程。这一技术在边缘设备上的模型训练、持续学习以及提供强大的隐私保护方面具有显著优势。近年来,针对神经网络的监督学习方式的DD方法得到了广泛关注。然而,在许多应用中,标记样本非常有限,监督模型往往难以很好地泛化。在这种情况下,模型通常使用自监督学习(Self-Supervised Learning, SSL)在大量未标记数据上进行预训练,然后通过使用每个下游任务的有限标记数据训练线性分类器来适应下游任务(线性探针)。SSL预训练的益处在现代机器学习生态系统中尤为重要,因为未标记数据丰富,且需要有效地泛化到各种下游任务。
当前挑战
SSL的DD面临诸多挑战。首先,需要确保从无标签数据中蒸馏出的合成数据集进行预训练后,能够为各种下游任务生成高质量的表示。现有的监督学习DD方法通过匹配梯度或训练轨迹生成合成数据,这些方法严重依赖标签,否则会导致表示崩溃。因此,它们不适用于SSL的DD。最近的研究尝试将元模型匹配应用于SSL预训练,但结果表明,SSL预训练在这些蒸馏集上的表现并不优于在随机真实样本上的预训练。此外,SSL损失的高方差梯度问题使得直接应用轨迹匹配方法失败,这需要通过知识蒸馏(Knowledge Distillation, KD)来显著降低方差,从而实现有效的数据集蒸馏。
常用场景
经典使用场景
CIFAR10、CIFAR100和TinyImageNet数据集在自监督学习(SSL)预训练中发挥了经典作用。这些数据集通过生成小型合成数据集,能够在有限的内存和计算资源下高效训练深度网络。其经典使用场景包括在边缘设备上训练模型、加速持续学习以及提供强大的隐私保护。
解决学术问题
这些数据集解决了在监督学习中标签数据稀缺时模型泛化能力不足的问题。通过自监督预训练,模型可以在大量未标记数据上进行预训练,然后在下游任务中使用有限的标记数据进行微调。这种方法在仅使用1%标签的情况下,在ImageNet上比监督学习提高了近30%的准确率,显著提升了数据效率和模型性能。
实际应用
在实际应用中,这些数据集被广泛用于图像分类、目标检测和语义分割等任务。通过自监督预训练,模型可以在资源受限的环境中高效运行,适用于移动设备、嵌入式系统和物联网设备。此外,这些数据集还支持在隐私保护要求高的场景中进行数据处理和模型训练。
数据集最近研究
最新研究方向
在图像识别领域,CIFAR10、CIFAR100和TinyImageNet数据集的最新研究方向聚焦于通过知识蒸馏进行数据集蒸馏,以实现高效的自我监督预训练。研究者们提出了一种新的方法,通过匹配训练轨迹来生成小型合成数据集,从而在有限的内存和计算资源下高效训练深度网络。这一方法不仅解决了监督学习中数据集蒸馏的问题,还扩展到了自我监督学习预训练,显著提升了在下游任务中的表现,尤其是在标签数据有限的情况下。该研究展示了数据集蒸馏在现代机器学习生态系统中的巨大潜力,特别是在无标签数据丰富且需要高效泛化到多种下游任务的场景中。
相关研究论文
  • 1
    Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks加州大学洛杉矶分校计算机科学系 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

大学生运动和体质健康数据集(2014-2023)

《大学生运动与体质健康数据集(2014-2023)》涵盖了大学生群体在运动能力、基础身体形态、身体机能及身体素质等多个方面的关键基础数据。该数据集的采集时间跨度为2014年至2023年,样本采集自全国34个省级行政区域,共计123281名大学生参与,平均年龄为20.53岁。建立大学生运动和体质健康数据集可以准确把握学生体质健康的整体水平和变化趋势,了解大学生运动和体质健康状况,对指导个性化健康干预、优化体育教育资源配置、支持促进科学研究以及提高公众健康意识等均具有重要意义。

国家人口健康科学数据中心 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录