five

IFC, Uniclass|建筑信息管理数据集|数据对齐数据集

收藏
arXiv2024-11-19 更新2024-11-21 收录
建筑信息管理
数据对齐
下载链接:
https://github.com/mehrzadshm/built-bench-paper
下载链接
链接失效反馈
资源简介:
本研究使用的数据集包括IFC和Uniclass,这两个数据集分别由buildingSMART International和国家建筑规范(NBS)维护。IFC数据集提供了建筑和基础设施项目的全面数字描述,而Uniclass则是一个统一的建筑环境分类系统,涵盖了超过8000种产品类型。数据集的创建过程包括从原始数据源中提取产品名称、描述和标签,并通过生成语言模型进行数据增强和校对。这些数据集主要用于评估预训练文本嵌入模型在建筑资产信息管理中的对齐效果,旨在解决建筑资产数据的多源性和多学科性带来的对齐挑战。
提供机构:
高等技术学院
创建时间:
2024-11-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于两个著名的建筑资产数据分类词典:Industry Foundation Classes (IFC) 和 Uniclass。IFC由buildingSMART International发布和维护,提供建筑和基础设施项目的全面数字描述,旨在促进不同软件应用和利益相关者之间的互操作性和信息交换。Uniclass由National Building Specification (NBS)开发和维护,是一个统一的建筑环境分类系统,涵盖超过8,000种产品类型。数据提取过程包括从Uniclass的公开CSV格式产品表中直接提取产品名称和类别,以及通过脚本自动合成产品描述。对于IFC,通过解析官方模式内容并利用开源Python库进行程序化访问,提取感兴趣的实体及其类型枚举和定义。最终,通过数据增强和校对步骤,确保产品名称和描述的准确性和一致性。
特点
该数据集的特点在于其广泛的多学科覆盖和详细的粒度。它涵盖了建筑环境中的多个子领域,包括建筑、结构、机械和电气系统,确保了数据集的多样性和全面性。此外,数据集通过合成和校对步骤,提供了高质量的产品描述,增强了文本的语义丰富性和自然性。这些特点使得该数据集在评估和训练文本嵌入模型时,能够更好地捕捉建筑资产技术术语的复杂语义。
使用方法
该数据集主要用于评估和比较最先进的文本嵌入模型在建筑资产信息管理中的表现。通过在三个主要任务(聚类、检索和重排序)上的测试,研究人员可以评估模型在不同任务和输入长度下的性能。数据集的公开发布和开源库的维护,鼓励了未来在该领域的研究和模型改进。此外,该数据集还可作为丰富的文本语料库,支持训练特定任务的语言模型,如信息提取等下游任务。
背景与挑战
背景概述
IFC, Uniclass数据集由Mehrzad Shahinmoghadam和Ali Motamedi在École de technologie supérieure创建,旨在评估预训练文本嵌入模型在建筑资产信息对齐中的性能。该数据集的核心研究问题是如何自动化地将建筑资产信息映射到既定的数据分类系统和分类法中,以支持有效的资产管理。通过比较最先进的文本嵌入模型,研究团队希望识别这些模型在捕捉建筑资产技术术语复杂语义方面的有效性。该研究不仅填补了领域内的空白,还为未来的研究提供了基准,推动了建筑信息管理领域的技术进步。
当前挑战
IFC, Uniclass数据集面临的挑战主要集中在两个方面:一是建筑资产数据的多样性和多学科性,导致不同项目和利益相关者使用不同的格式和术语,增加了数据对齐的复杂性;二是构建过程中需要处理大量技术文本元素,这些元素的复杂性使得自动化对齐过程依赖于领域专家的输入。此外,预训练语言模型在处理建筑资产特定术语时的表现尚未得到全面评估,这为未来的研究提出了新的方向,特别是在领域适应技术方面的探索。
常用场景
经典使用场景
IFC和Uniclass数据集的经典使用场景主要集中在建筑资产信息的自动化映射与分类。通过利用预训练的文本嵌入模型,这些数据集能够有效处理建筑资产数据的复杂性,实现从多源数据到标准化分类系统的自动对齐。具体任务包括聚类、检索和重排序,这些任务旨在评估模型在捕捉和表示建筑资产技术术语语义方面的能力,从而提升数据对齐的准确性和效率。
衍生相关工作
IFC和Uniclass数据集的发布催生了大量相关研究工作,特别是在建筑信息模型(BIM)和自然语言处理(NLP)的交叉领域。例如,研究者们利用这些数据集开发了新的文本嵌入模型,以提高建筑资产信息的自动化处理能力。此外,这些数据集还被用于评估和改进现有的NLP技术,如BERT和GPT系列模型,在建筑环境中的应用效果。这些衍生工作不仅推动了技术的发展,也为建筑行业的数字化转型提供了重要的技术支持。
数据集最近研究
最新研究方向
在建筑资产信息管理领域,最新的研究方向集中在利用预训练文本嵌入模型来实现建筑资产信息的自动化映射。这一研究方向的兴起源于建筑资产数据的复杂性和多样性,传统的映射方法依赖于领域专家的手动操作,效率低下且成本高昂。预训练大型语言模型通过生成动态、上下文敏感的嵌入,能够捕捉建筑资产技术术语的复杂语义,从而显著提升自动化数据映射的准确性和效率。当前的研究不仅关注模型在聚类、检索和重排序任务中的表现,还强调了领域适应技术的重要性,以确保模型在特定建筑资产数据环境中的有效性。此外,公开发布基准测试资源,以支持未来在该领域的评估和研究,也是当前研究的一个重要趋势。
相关研究论文
  • 1
    Benchmarking pre-trained text embedding models in aligning built asset information高等技术学院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录