cogsci13/Amazon-Reviews-2023-Books-Meta|图书评论数据集|推荐系统数据集
收藏数据集概述:Amazon Reviews 2023 (Books Only)
数据集基本信息
- 名称: Amazon Reviews 2023 (Books Only)
- 语言: 英语
- 标签: 推荐系统, 评论
- 大小: 100M<n<1B
数据集内容
- 来源: 由McAuley Lab在2023年收集
- 包含内容:
- 用户评论: 包括评分、文本、有用投票等;
- 商品元数据: 包括描述、价格、原始图像等。
数据集更新
- 首次发布: 2024年4月18日
- 更新内容:
- 数据集大小: 收集了571.54M条评论,比上一版本大245.2%;
- 交互时间范围: 从1996年5月到2023年9月;
- 元数据丰富度: 增加了商品元数据的描述性特征;
- 时间戳精度: 交互时间戳精度达到秒级或更细;
- 数据处理: 商品元数据比之前版本更清洁;
- 标准分割: 提供标准的数据分割,以促进推荐系统基准测试。
数据集统计
- 分类统计:
数据集字段
用户评论
| 字段 | 类型 | 说明 |
|---|---|---|
| rating | float | 产品评分(1.0到5.0) |
| title | str | 用户评论标题 |
| text | str | 用户评论文本 |
| images | list | 用户上传的产品图像 |
| asin | str | 产品ID |
| parent_asin | str | 产品父ID |
| user_id | str | 评论者ID |
| timestamp | int | 评论时间(Unix时间) |
| verified_purchase | bool | 用户购买验证 |
| helpful_vote | int | 评论的有用投票 |
商品元数据
| 字段 | 类型 | 说明 |
|---|---|---|
| main_category | str | 产品主类别 |
| title | str | 产品名称 |
| average_rating | float | 产品页面显示的评分 |
| rating_number | int | 产品评分数量 |
| features | list | 产品特征(点格式) |
| description | list | 产品描述 |
| price | float | 产品价格(爬取时) |
| images | list | 产品图像 |
| videos | list | 产品视频 |
| store | str | 产品商店名称 |
| categories | list | 产品类别层次 |
| details | dict | 产品详细信息 |
| parent_asin | str | 产品父ID |
| bought_together | list | 网站推荐的捆绑销售 |
数据集引用
bibtex @article{hou2024bridging, title={Bridging Language and Items for Retrieval and Recommendation}, author={Hou, Yupeng and Li, Jiacheng and He, Zhankui and Yan, An and Chen, Xiusi and McAuley, Julian}, journal={arXiv preprint arXiv:2403.03952}, year={2024} }

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
TCM-Tongue
TCM-Tongue是一个专门用于人工智能辅助中医舌诊的标准化舌像数据集,包含6719张在标准化条件下捕获的高质量图像,并标注了20种病理症状类别(平均每张图像有2.54个经过临床验证的标签,所有标签均由持有执照的中医执业医师验证)。数据集支持多种标注格式(COCO、TXT、XML),以方便广泛使用,并使用九种深度学习模型进行了基准测试,以展示其在人工智能开发中的实用性。该资源为推进可靠的中医计算工具提供了关键基础,填补了该领域的数据短缺,并通过标准化、高质量的诊断数据促进了人工智能在研究和临床实践中的整合。
arXiv 收录
UAVDT Dataset
The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.
datasetninja.com 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
VCTK (Voice Cloning Toolkit)
VCTK数据集包含来自109位不同说话者的44小时语音数据,每位说话者提供约400个句子。该数据集主要用于语音合成和语音克隆的研究。
datashare.ed.ac.uk 收录
