cogsci13/Amazon-Reviews-2023-Books-Meta|图书评论数据集|推荐系统数据集
收藏数据集概述:Amazon Reviews 2023 (Books Only)
数据集基本信息
- 名称: Amazon Reviews 2023 (Books Only)
- 语言: 英语
- 标签: 推荐系统, 评论
- 大小: 100M<n<1B
数据集内容
- 来源: 由McAuley Lab在2023年收集
- 包含内容:
- 用户评论: 包括评分、文本、有用投票等;
- 商品元数据: 包括描述、价格、原始图像等。
数据集更新
- 首次发布: 2024年4月18日
- 更新内容:
- 数据集大小: 收集了571.54M条评论,比上一版本大245.2%;
- 交互时间范围: 从1996年5月到2023年9月;
- 元数据丰富度: 增加了商品元数据的描述性特征;
- 时间戳精度: 交互时间戳精度达到秒级或更细;
- 数据处理: 商品元数据比之前版本更清洁;
- 标准分割: 提供标准的数据分割,以促进推荐系统基准测试。
数据集统计
- 分类统计:
数据集字段
用户评论
字段 | 类型 | 说明 |
---|---|---|
rating | float | 产品评分(1.0到5.0) |
title | str | 用户评论标题 |
text | str | 用户评论文本 |
images | list | 用户上传的产品图像 |
asin | str | 产品ID |
parent_asin | str | 产品父ID |
user_id | str | 评论者ID |
timestamp | int | 评论时间(Unix时间) |
verified_purchase | bool | 用户购买验证 |
helpful_vote | int | 评论的有用投票 |
商品元数据
字段 | 类型 | 说明 |
---|---|---|
main_category | str | 产品主类别 |
title | str | 产品名称 |
average_rating | float | 产品页面显示的评分 |
rating_number | int | 产品评分数量 |
features | list | 产品特征(点格式) |
description | list | 产品描述 |
price | float | 产品价格(爬取时) |
images | list | 产品图像 |
videos | list | 产品视频 |
store | str | 产品商店名称 |
categories | list | 产品类别层次 |
details | dict | 产品详细信息 |
parent_asin | str | 产品父ID |
bought_together | list | 网站推荐的捆绑销售 |
数据集引用
bibtex @article{hou2024bridging, title={Bridging Language and Items for Retrieval and Recommendation}, author={Hou, Yupeng and Li, Jiacheng and He, Zhankui and Yan, An and Chen, Xiusi and McAuley, Julian}, journal={arXiv preprint arXiv:2403.03952}, year={2024} }

AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
HIT-UAV
HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。
github 收录
Population and Housing Census of 2007 - Ethiopia
Geographic coverage --------------------------- National coverage Analysis unit --------------------------- Household Person Housing unit Universe --------------------------- The census has counted people on dejure and defacto basis. The dejure population comprises all the persons who belong to a given area at a given time by virtue of usual residence, while under defacto approach people were counted as the residents of the place where they found. In the census, a person is said to be a usual resident of a household (and hence an area) if he/she has been residing in the household continuously for at least six months before the census day or intends to reside in the household for six months or longer. Thus, visitors are not included with the usual (dejure) population. Homeless persons were enumerated in the place where they spent the night on the enumeration day. The 2007 census counted foreign nationals who were residing in the city administration. On the other hand all Ethiopians living abroad were not counted. Kind of data --------------------------- Census/enumeration data [cen] Mode of data collection --------------------------- Face-to-face [f2f] Research instrument --------------------------- Two type sof questionnaires were used to collect census data: i) Short questionnaire ii) Long questionnaire Unlike the previous censuses, the contents of the short and long questionnaires were similar both for the urban and rural areas as well as for the entire city. But the short and the long questionnaires differ by the number of variables they contained. That is, the short questionnaire was used to collect basic data on population characteristics, such as population size, sex, age, language, ethnic group, religion, orphanhood and disability. Whereas the long questionnaire includes information on marital status, education, economic activity, migration, fertility, mortality, as well as housing stocks and conditions in addition to those questions contained in a short questionnaire.
catalog.ihsn.org 收录
专精特新“小巨人”合肥企业名单(第一批~第四批)
根据工信部的定义,专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。 截止第四批,目前,全市“小巨人”企业总数达140户,占全国的1.6%,在全国城市及省会城市排名各进一位,位居全国城市第十四,省会城市第五。 2022 年 6 月,合肥市发布《专精特新中小企业倍增培育行动计划》,到2025年,合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家,推动50家专精特新中小企业上市挂牌。接下来,合肥还将支持地方国有金融机构设立专精特新专项融资产品,力争每条产业链培育一批国家级专精特新“小巨人”企业。
合肥数据要素流通平台 收录