CC3M|图像处理数据集|自然语言处理数据集
收藏
- CC3M数据集首次发表,由Karpathy等人提出,旨在为图像字幕生成任务提供大规模的训练数据。
- CC3M数据集首次应用于图像字幕生成模型训练,显著提升了模型的性能和生成质量。
- CC3M数据集被广泛应用于多个图像字幕生成相关的研究项目中,成为该领域的重要基准数据集之一。
- CC3M数据集的扩展版本发布,增加了更多的图像和字幕对,进一步丰富了数据集的内容和多样性。
- CC3M数据集在多个国际会议和期刊上被引用,成为图像字幕生成领域不可或缺的研究资源。
- 1Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image CaptioningGoogle AI Language · 2018年
- 2Unified Vision-Language Pre-Training for Image Captioning and VQAUniversity of Adelaide · 2019年
- 3Oscar: Object-Semantics Aligned Pre-training for Vision-Language TasksMicrosoft Research · 2020年
- 4Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded SupervisionUniversity of California, Berkeley · 2020年
- 5CLIP: Connecting Text and ImagesOpenAI · 2021年
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
China Air Quality Historical Data
该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。
www.cnemc.cn 收录
GVJahnavi/Crops_set
该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。
hugging_face 收录