Stanford Cars|汽车识别数据集|图像分类数据集
收藏
- Stanford Cars数据集首次发表,由斯坦福大学的研究人员创建,旨在用于车辆识别任务。
- 该数据集首次应用于计算机视觉领域的研究,特别是在深度学习模型中用于车辆分类和识别。
- 随着深度学习技术的进步,Stanford Cars数据集被广泛用于各种车辆识别和分类算法的基准测试。
- 数据集的扩展版本发布,增加了更多的车辆图像和类别,以提高模型的泛化能力和准确性。
- Stanford Cars数据集被用于自动驾驶技术的研究,特别是在车辆检测和识别模块中。
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
The Sol Genomics Network (SGN)
The Sol Genomics Network (SGN) 是一个专注于茄科植物基因组学研究的在线数据库和资源平台。该数据集包含了大量关于番茄、马铃薯、辣椒等茄科植物的基因组、遗传图谱、分子标记、QTL(数量性状位点)分析、表达数据以及相关文献等信息。SGN 旨在促进茄科植物的遗传学和基因组学研究,支持全球科研人员进行数据共享和合作。
solgenomics.net 收录
ElecBench
ElecBench是一个专为电力系统操作中的大型语言模型(LLM)评估而设计的数据集。该数据集旨在通过覆盖特定行业的场景和深化专业知识的测试,提高决策的精确性。数据集包括六个核心性能指标和24个子指标,用于评估LLM在电力系统操作中的应用能力。ElecBench的创建旨在解决现有评估基准的不足,特别是在处理电力系统操作中的复杂专业问题和高级技术知识方面。该数据集的应用领域主要集中在电力系统的优化、稳定性和经济效率的提升。
arXiv 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录