RETQA|房地产数据集|问答系统数据集
收藏RETQA: A Large-Scale Open-Domain Tabular Question Answering Dataset for the Real Estate Sector
数据集概述
RETQA 是一个大规模开放域中文表格问答(Tabular Question Answering, TQA)数据集,专注于房地产领域。该数据集包含 4,932 个表格和 20,762 个问答对,涵盖了三个主要领域中的 16 个子领域:房产信息、房地产公司财务信息和土地拍卖信息。
数据集特点
- 大规模:包含 4,932 个表格和 20,762 个问答对。
- 开放域:适用于开放域的表格问答任务。
- 多领域:涵盖房产信息、房地产公司财务信息和土地拍卖信息三个主要领域。
- 长表格结构:数据集中的表格具有长表格结构,增加了问答任务的复杂性。
- 多领域查询:支持跨多个领域的查询。
数据集挑战
- 长表格结构:表格结构复杂,增加了问答任务的难度。
- 开放域检索需求:需要进行开放域的检索。
- 多领域查询:支持跨多个领域的查询。
数据集内容
- RETQA 数据集:以 JSON 格式提供。
- SLUTQA 框架:集成大型语言模型与口语理解任务,以提高检索和回答的准确性。
数据集支持
- 数据集的获取得到了 Elmleaf Ltd.(Shanghai) 的支持。
引用
如果该数据集对您的研究有用,请考虑引用以下内容:
@inproceedings{ aaai2025retqa, title={{RETQA}: A Large-Scale Open-Domain Tabular Question Answering Dataset for Real Estate Sector}, author={Zhensheng Wang and Wenmian Yang and Kun Zhou and Yiquan Zhang and Weijia Jia}, booktitle={The 39th Annual AAAI Conference on Artificial Intelligence}, year={2024}, url={https://arxiv.org/abs/2412.10104} }

CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Global Forest Watch (GFW)
Global Forest Watch (GFW) 是一个全球森林监测平台,提供关于森林覆盖变化、火灾、森林砍伐、土地利用变化等实时和历史数据。数据集包括全球森林覆盖地图、森林砍伐警报、火灾热点、土地覆盖变化等信息。
globalforestwatch.org 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录