cogsci13/Amazon-Reviews-2023-Books-Meta|图书评论数据集|推荐系统数据集
收藏数据集概述:Amazon Reviews 2023 (Books Only)
数据集基本信息
- 名称: Amazon Reviews 2023 (Books Only)
- 语言: 英语
- 标签: 推荐系统, 评论
- 大小: 100M<n<1B
数据集内容
- 来源: 由McAuley Lab在2023年收集
- 包含内容:
- 用户评论: 包括评分、文本、有用投票等;
- 商品元数据: 包括描述、价格、原始图像等。
数据集更新
- 首次发布: 2024年4月18日
- 更新内容:
- 数据集大小: 收集了571.54M条评论,比上一版本大245.2%;
- 交互时间范围: 从1996年5月到2023年9月;
- 元数据丰富度: 增加了商品元数据的描述性特征;
- 时间戳精度: 交互时间戳精度达到秒级或更细;
- 数据处理: 商品元数据比之前版本更清洁;
- 标准分割: 提供标准的数据分割,以促进推荐系统基准测试。
数据集统计
- 分类统计:
数据集字段
用户评论
字段 | 类型 | 说明 |
---|---|---|
rating | float | 产品评分(1.0到5.0) |
title | str | 用户评论标题 |
text | str | 用户评论文本 |
images | list | 用户上传的产品图像 |
asin | str | 产品ID |
parent_asin | str | 产品父ID |
user_id | str | 评论者ID |
timestamp | int | 评论时间(Unix时间) |
verified_purchase | bool | 用户购买验证 |
helpful_vote | int | 评论的有用投票 |
商品元数据
字段 | 类型 | 说明 |
---|---|---|
main_category | str | 产品主类别 |
title | str | 产品名称 |
average_rating | float | 产品页面显示的评分 |
rating_number | int | 产品评分数量 |
features | list | 产品特征(点格式) |
description | list | 产品描述 |
price | float | 产品价格(爬取时) |
images | list | 产品图像 |
videos | list | 产品视频 |
store | str | 产品商店名称 |
categories | list | 产品类别层次 |
details | dict | 产品详细信息 |
parent_asin | str | 产品父ID |
bought_together | list | 网站推荐的捆绑销售 |
数据集引用
bibtex @article{hou2024bridging, title={Bridging Language and Items for Retrieval and Recommendation}, author={Hou, Yupeng and Li, Jiacheng and He, Zhankui and Yan, An and Chen, Xiusi and McAuley, Julian}, journal={arXiv preprint arXiv:2403.03952}, year={2024} }

China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
UAVDT Dataset
The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.
datasetninja.com 收录
DAGM 2007
DAGM 2007数据集是一个用于工业图像分类的基准数据集,主要用于研究表面缺陷检测。该数据集包含6个不同类别的图像,每个类别有1000张正常图像和150张带有缺陷的图像。数据集的目的是评估和比较不同算法在工业图像中的缺陷检测能力。
www.ais.uni-bonn.de 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录