cogsci13/Amazon-Reviews-2023-Books-Meta|图书评论数据集|推荐系统数据集
收藏数据集概述:Amazon Reviews 2023 (Books Only)
数据集基本信息
- 名称: Amazon Reviews 2023 (Books Only)
- 语言: 英语
- 标签: 推荐系统, 评论
- 大小: 100M<n<1B
数据集内容
- 来源: 由McAuley Lab在2023年收集
- 包含内容:
- 用户评论: 包括评分、文本、有用投票等;
- 商品元数据: 包括描述、价格、原始图像等。
数据集更新
- 首次发布: 2024年4月18日
- 更新内容:
- 数据集大小: 收集了571.54M条评论,比上一版本大245.2%;
- 交互时间范围: 从1996年5月到2023年9月;
- 元数据丰富度: 增加了商品元数据的描述性特征;
- 时间戳精度: 交互时间戳精度达到秒级或更细;
- 数据处理: 商品元数据比之前版本更清洁;
- 标准分割: 提供标准的数据分割,以促进推荐系统基准测试。
数据集统计
- 分类统计:
数据集字段
用户评论
字段 | 类型 | 说明 |
---|---|---|
rating | float | 产品评分(1.0到5.0) |
title | str | 用户评论标题 |
text | str | 用户评论文本 |
images | list | 用户上传的产品图像 |
asin | str | 产品ID |
parent_asin | str | 产品父ID |
user_id | str | 评论者ID |
timestamp | int | 评论时间(Unix时间) |
verified_purchase | bool | 用户购买验证 |
helpful_vote | int | 评论的有用投票 |
商品元数据
字段 | 类型 | 说明 |
---|---|---|
main_category | str | 产品主类别 |
title | str | 产品名称 |
average_rating | float | 产品页面显示的评分 |
rating_number | int | 产品评分数量 |
features | list | 产品特征(点格式) |
description | list | 产品描述 |
price | float | 产品价格(爬取时) |
images | list | 产品图像 |
videos | list | 产品视频 |
store | str | 产品商店名称 |
categories | list | 产品类别层次 |
details | dict | 产品详细信息 |
parent_asin | str | 产品父ID |
bought_together | list | 网站推荐的捆绑销售 |
数据集引用
bibtex @article{hou2024bridging, title={Bridging Language and Items for Retrieval and Recommendation}, author={Hou, Yupeng and Li, Jiacheng and He, Zhankui and Yan, An and Chen, Xiusi and McAuley, Julian}, journal={arXiv preprint arXiv:2403.03952}, year={2024} }

GAOKAO-Bench
GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集,涵盖了2010至2022年间中国高考的所有科目题目,共计2811题。该数据集包含1781道客观题和1030道主观题,题型多样,包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件,数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准,特别是在解决中国高考相关问题上的表现。
arXiv 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
Med-MAT
Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。
huggingface 收录
中国农村教育发展报告
该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。
www.moe.gov.cn 收录
China Air Quality Historical Data
该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。
www.cnemc.cn 收录