five

cogsci13/Amazon-Reviews-2023-Books-Meta|图书评论数据集|推荐系统数据集

收藏
hugging_face2024-04-18 更新2024-06-12 收录
图书评论
推荐系统
下载链接:
https://hf-mirror.com/datasets/cogsci13/Amazon-Reviews-2023-Books-Meta
下载链接
链接失效反馈
资源简介:
Amazon Reviews 2023 (Books Only) 是一个大规模的书籍评论数据集,由McAuley Lab在2023年收集。该数据集包含571.54M条评论,比上一版本大245.2%。数据集提供了丰富的用户评论特征,如评分、文本、有用投票等,以及书籍的详细元数据,如描述、价格、原始图像等。此外,数据集还包括了从1996年5月到2023年9月的最新交互数据,以及细粒度的时间戳和清洁的元数据处理。数据集还提供了标准的数据分割,以鼓励推荐系统的基准测试。
提供机构:
cogsci13
原始信息汇总

数据集概述:Amazon Reviews 2023 (Books Only)

数据集基本信息

  • 名称: Amazon Reviews 2023 (Books Only)
  • 语言: 英语
  • 标签: 推荐系统, 评论
  • 大小: 100M<n<1B

数据集内容

  • 来源: 由McAuley Lab在2023年收集
  • 包含内容:
    1. 用户评论: 包括评分、文本、有用投票等;
    2. 商品元数据: 包括描述、价格、原始图像等。

数据集更新

  • 首次发布: 2024年4月18日
  • 更新内容:
    1. 数据集大小: 收集了571.54M条评论,比上一版本大245.2%;
    2. 交互时间范围: 从1996年5月到2023年9月;
    3. 元数据丰富度: 增加了商品元数据的描述性特征;
    4. 时间戳精度: 交互时间戳精度达到秒级或更细;
    5. 数据处理: 商品元数据比之前版本更清洁;
    6. 标准分割: 提供标准的数据分割,以促进推荐系统基准测试。

数据集统计

  • 分类统计:
    类别 用户数 商品数 评分数 R_Token数 M_Token数 下载链接
    书籍 10.3M 4.4M 29.5M 2.9B 3.7B 评论, 元数据

数据集字段

用户评论

字段 类型 说明
rating float 产品评分(1.0到5.0)
title str 用户评论标题
text str 用户评论文本
images list 用户上传的产品图像
asin str 产品ID
parent_asin str 产品父ID
user_id str 评论者ID
timestamp int 评论时间(Unix时间)
verified_purchase bool 用户购买验证
helpful_vote int 评论的有用投票

商品元数据

字段 类型 说明
main_category str 产品主类别
title str 产品名称
average_rating float 产品页面显示的评分
rating_number int 产品评分数量
features list 产品特征(点格式)
description list 产品描述
price float 产品价格(爬取时)
images list 产品图像
videos list 产品视频
store str 产品商店名称
categories list 产品类别层次
details dict 产品详细信息
parent_asin str 产品父ID
bought_together list 网站推荐的捆绑销售

数据集引用

bibtex @article{hou2024bridging, title={Bridging Language and Items for Retrieval and Recommendation}, author={Hou, Yupeng and Li, Jiacheng and He, Zhankui and Yan, An and Chen, Xiusi and McAuley, Julian}, journal={arXiv preprint arXiv:2403.03952}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由McAuley Lab在2023年精心构建,专注于亚马逊书籍评论的收集与整理。数据集不仅涵盖了用户评论的详细信息,如评分、文本、有用性投票等,还包含了书籍的丰富元数据,如描述、价格、原始图像等。通过从1996年5月至2023年9月的广泛交互数据中筛选,确保了数据的新鲜性和全面性。此外,数据集还进行了精细的时间戳处理,提供了秒级的交互时间记录,并采用了标准的数据分割策略,以支持推荐系统的基准测试。
特点
该数据集的显著特点在于其大规模和多样性。数据集包含了571.54M条评论,比之前的版本增加了245.2%,且提供了更丰富的元数据描述。此外,数据集还包含了细粒度的时间戳信息,使得研究者可以进行更精确的时间序列分析。数据集的清洗处理也更为严格,确保了元数据的准确性和一致性。标准化的数据分割策略进一步增强了其在推荐系统研究中的应用价值。
使用方法
使用该数据集时,用户可以通过HuggingFace的datasets库轻松加载数据。对于用户评论,可以使用`load_dataset`函数加载`raw_review_Books`数据集,并访问其中的详细字段,如评分、评论文本、图片等。对于书籍的元数据,可以使用`raw_meta_Books`数据集,获取书籍的标题、价格、分类等信息。数据集的详细字段说明和加载示例可在官方文档中找到,确保用户能够高效地利用这些数据进行研究和开发。
背景与挑战
背景概述
Amazon Reviews 2023 (Books Only)数据集由McAuley Lab于2023年创建,旨在为推荐系统和自然语言处理领域提供丰富的用户评论和商品元数据。该数据集包含了从1996年5月至2023年9月的用户交互数据,涵盖了书籍类别的详细评论信息,如评分、文本、有用性投票等,以及商品的描述、价格、图像等元数据。该数据集的发布不仅为研究人员提供了大规模的基准数据,还通过标准化的数据分割策略,促进了推荐系统领域的基准测试和算法比较。
当前挑战
该数据集在构建过程中面临多项挑战。首先,数据规模庞大,处理和存储571.54M条评论和相关元数据需要高效的计算资源和存储解决方案。其次,数据的时间跨度长,涵盖了从1996年至今的交互数据,这要求数据清洗和处理过程中需考虑不同时期的数据格式和内容变化。此外,数据集中包含了丰富的元数据,如图像和视频,这些多媒体数据的处理和分析增加了数据集的复杂性。最后,如何确保数据的质量和一致性,特别是在处理缺失或不完整的元数据时,也是一个重要的挑战。
常用场景
经典使用场景
在推荐系统领域,cogsci13/Amazon-Reviews-2023-Books-Meta数据集的经典使用场景主要集中在用户评论分析与商品推荐算法的优化上。通过分析用户对书籍的评分、评论文本、帮助性投票等数据,研究者可以构建更为精准的用户画像和商品特征模型,从而提升推荐系统的个性化和准确性。此外,该数据集的丰富元数据(如商品描述、价格、图片等)为多模态推荐系统提供了宝贵的资源,使得推荐算法能够综合考虑文本、图像等多种信息源,进一步增强推荐效果。
实际应用
在实际应用中,cogsci13/Amazon-Reviews-2023-Books-Meta数据集被广泛应用于电子商务平台的推荐系统优化。通过分析用户评论和商品元数据,电商平台能够为用户提供更为精准的书籍推荐,提升用户体验和购买转化率。此外,该数据集还可用于市场分析,帮助出版商和书商了解用户对不同书籍的反馈,从而优化出版策略和库存管理。在教育领域,该数据集也可用于构建个性化学习资源推荐系统,帮助学生和教师更高效地选择合适的教材和参考书籍。
衍生相关工作
基于cogsci13/Amazon-Reviews-2023-Books-Meta数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集进行用户评论情感分析,探索情感因素对推荐系统的影响;还有研究通过多模态信息融合技术,构建了更为精准的书籍推荐模型。此外,该数据集还被用于开发和评估新型推荐算法,如基于图神经网络的推荐系统,以及结合时间序列分析的动态推荐模型。这些衍生工作不仅丰富了推荐系统的理论研究,也为实际应用提供了新的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GAOKAO-Bench

GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集,涵盖了2010至2022年间中国高考的所有科目题目,共计2811题。该数据集包含1781道客观题和1030道主观题,题型多样,包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件,数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准,特别是在解决中国高考相关问题上的表现。

arXiv 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。

huggingface 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录