five

GalaxiesML|天体物理学数据集|机器学习数据集

收藏
arXiv2024-10-01 更新2024-10-09 收录
天体物理学
机器学习
下载链接:
https://arxiv.org/pdf/2410.00271v1
下载链接
链接失效反馈
资源简介:
GalaxiesML是由加州大学洛杉矶分校物理与天文学系创建的一个用于机器学习应用的星系数据集。该数据集包含286,401个星系图像、光度测量、红移和结构参数,主要来源于Hyper-Suprime-Cam巡天项目的PDR2数据。数据集经过精心处理,去除了异常值和重复数据,确保了数据的一致性和准确性。创建过程中,研究人员通过多阶段的数据筛选和处理,最终生成了适合机器学习模型使用的格式。GalaxiesML主要用于天体物理学中的红移估计,同时也适用于其他机器学习应用,旨在为下一代大型巡天项目如Euclid和LSST提供高质量的训练数据。
提供机构:
加州大学洛杉矶分校物理与天文学系
创建时间:
2024-10-01
AI搜集汇总
数据集介绍
main_image_url
构建方式
GalaxiesML数据集的构建基于Hyper-Suprime-Cam Survey PDR2的286,401个星系图像和光度数据,涵盖五个成像滤波器(g, r, i, z, y),并附有光谱红移作为地面真值。构建过程包括六个主要阶段:从HSC PDR2和光谱红移数据库中查询和下载数据、应用额外的数据质量过滤器并去除重复和异常值、下载图像并生成裁剪图像、拟合图像以确定形态信息、将数据集保存为机器学习兼容格式。这些步骤确保了数据集的统一性、一致性和最小异常值,同时包含了现实的信噪比范围。
使用方法
GalaxiesML数据集可用于多种机器学习应用,特别是光度红移估计。数据集的图像和光度数据可以作为输入,光谱红移作为标签进行模型训练。数据集提供了两种图像尺寸(127x127像素和64x64像素),便于测试不同图像尺寸对模型性能的影响。数据集分为训练集(60%)、验证集(20%)和测试集(20%),便于模型性能的比较。此外,数据集的公开性和兼容性使其易于集成到流行的数据加载器API中,促进机器学习工作流的便捷使用。
背景与挑战
背景概述
GalaxiesML数据集由加州大学洛杉矶分校(UCLA)物理与天文学系的Tuan Do、Evan Jones、Yun Qi Li和Kevin Alfaro等人创建,旨在为机器学习应用提供包含星系图像、光度、红移和结构参数的综合数据集。该数据集基于Hyper-Suprime-Cam Survey PDR2的286,401个星系图像和光度数据,涵盖五个成像滤波器(g, r, i, z, y),并附有光谱确认的红移作为地面真值。GalaxiesML的发布旨在推动下一代如Euclid和LSST等大型巡天项目的机器学习方法的发展,其重要性在于数据的统一性、一致性和最小化的异常值,同时包含现实信号噪声比的广泛范围。
当前挑战
GalaxiesML数据集在构建过程中面临多项挑战,包括异常值的剔除、数据重复的检测、地面真值的建立以及样本选择等。此外,该数据集旨在解决星系红移估计的复杂问题,特别是在仅依赖图像信息时,红移的确定尤为困难。尽管光谱红移提供了可靠的地面真值,但其获取成本高且耗时,因此机器学习方法在此领域的应用显得尤为重要。GalaxiesML的发布不仅为天体物理学研究提供了强有力的工具,也为机器学习领域提供了一个具有科学目标的高质量数据集,但其在大规模数据处理和模型训练方面的挑战仍需进一步克服。
常用场景
经典使用场景
GalaxiesML数据集的经典应用场景主要集中在利用机器学习技术进行星系红移估计。通过结合星系图像和光度数据,研究人员能够训练卷积神经网络(CNN)以提高红移估计的准确性。例如,数据集中的图像和光度信息被用于开发混合CNN模型,该模型在红移估计中表现出比仅使用光度数据的神经网络模型更高的精度。
解决学术问题
GalaxiesML数据集解决了天体物理学中一个关键的学术问题,即如何从星系图像中准确估计红移。传统的光谱测量方法耗时且成本高昂,而机器学习方法提供了一种高效且可扩展的替代方案。通过提供大量具有光谱红移作为基准的星系图像,该数据集促进了红移估计模型的开发和验证,这对于理解宇宙的大尺度结构和暗物质、暗能量的性质具有重要意义。
实际应用
在实际应用中,GalaxiesML数据集被广泛用于训练和验证用于大型天文巡天项目的红移估计模型。例如,该数据集为即将到来的欧几里得卫星和LSST巡天项目提供了宝贵的训练数据,这些项目旨在观测数十亿个星系以绘制宇宙的大尺度结构。通过使用GalaxiesML数据集训练的模型,天文学家能够更快速、更准确地估计星系的红移,从而推进宇宙学和天体物理学的研究。
数据集最近研究
最新研究方向
在宇宙学和天体物理学领域,GalaxiesML数据集的最新研究方向主要集中在利用机器学习技术进行星系图像的分析和红移估计。随着下一代天文观测设备如Euclid和LSST的即将上线,研究人员正致力于开发更高效、更精确的机器学习模型,以处理这些设备将产生的大规模数据。GalaxiesML数据集因其包含的星系图像、光度测量、红移和结构参数的丰富信息,成为这一研究方向的重要资源。通过结合图像和光度数据,研究人员能够构建卷积神经网络(CNN)模型,显著提高红移估计的准确性,这对于理解宇宙的大尺度结构和暗物质、暗能量的性质具有重要意义。
相关研究论文
  • 1
    GalaxiesML: a dataset of galaxy images, photometry, redshifts, and structural parameters for machine learning加州大学洛杉矶分校物理与天文学系 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中文《诗歌总集》

这是一个收录所有中文诗词的数据集,旨在提供一个系统、完善、高质量的诗词数据集合。数据集包括诗词的收录、校正、鉴赏和评分,并标准化为统一的JSON格式。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录