cogsci13/Amazon-Reviews-2023-Books-Meta|图书评论数据集|推荐系统数据集
hugging_face2024-04-18 更新2024-06-12 收录510
资源简介:
Amazon Reviews 2023 (Books Only) 是一个大规模的书籍评论数据集,由McAuley Lab在2023年收集。该数据集包含571.54M条评论,比上一版本大245.2%。数据集提供了丰富的用户评论特征,如评分、文本、有用投票等,以及书籍的详细元数据,如描述、价格、原始图像等。此外,数据集还包括了从1996年5月到2023年9月的最新交互数据,以及细粒度的时间戳和清洁的元数据处理。数据集还提供了标准的数据分割,以鼓励推荐系统的基准测试。
原始地址:
https://hf-mirror.com/datasets/cogsci13/Amazon-Reviews-2023-Books-Meta
提供机构:
cogsci13
数据集概述:Amazon Reviews 2023 (Books Only)
数据集基本信息
- 名称: Amazon Reviews 2023 (Books Only)
- 语言: 英语
- 标签: 推荐系统, 评论
- 大小: 100M<n<1B
数据集内容
- 来源: 由McAuley Lab在2023年收集
- 包含内容:
- 用户评论: 包括评分、文本、有用投票等;
- 商品元数据: 包括描述、价格、原始图像等。
数据集更新
- 首次发布: 2024年4月18日
- 更新内容:
- 数据集大小: 收集了571.54M条评论,比上一版本大245.2%;
- 交互时间范围: 从1996年5月到2023年9月;
- 元数据丰富度: 增加了商品元数据的描述性特征;
- 时间戳精度: 交互时间戳精度达到秒级或更细;
- 数据处理: 商品元数据比之前版本更清洁;
- 标准分割: 提供标准的数据分割,以促进推荐系统基准测试。
数据集统计
- 分类统计:
数据集字段
用户评论
字段 | 类型 | 说明 |
---|---|---|
rating | float | 产品评分(1.0到5.0) |
title | str | 用户评论标题 |
text | str | 用户评论文本 |
images | list | 用户上传的产品图像 |
asin | str | 产品ID |
parent_asin | str | 产品父ID |
user_id | str | 评论者ID |
timestamp | int | 评论时间(Unix时间) |
verified_purchase | bool | 用户购买验证 |
helpful_vote | int | 评论的有用投票 |
商品元数据
字段 | 类型 | 说明 |
---|---|---|
main_category | str | 产品主类别 |
title | str | 产品名称 |
average_rating | float | 产品页面显示的评分 |
rating_number | int | 产品评分数量 |
features | list | 产品特征(点格式) |
description | list | 产品描述 |
price | float | 产品价格(爬取时) |
images | list | 产品图像 |
videos | list | 产品视频 |
store | str | 产品商店名称 |
categories | list | 产品类别层次 |
details | dict | 产品详细信息 |
parent_asin | str | 产品父ID |
bought_together | list | 网站推荐的捆绑销售 |
数据集引用
bibtex @article{hou2024bridging, title={Bridging Language and Items for Retrieval and Recommendation}, author={Hou, Yupeng and Li, Jiacheng and He, Zhankui and Yan, An and Chen, Xiusi and McAuley, Julian}, journal={arXiv preprint arXiv:2403.03952}, year={2024} }
数据集介绍
构建方式
该数据集由McAuley Lab在2023年精心构建,专注于亚马逊书籍评论的收集与整理。数据集不仅涵盖了用户评论的详细信息,如评分、文本、有用性投票等,还包含了书籍的丰富元数据,如描述、价格、原始图像等。通过从1996年5月至2023年9月的广泛交互数据中筛选,确保了数据的新鲜性和全面性。此外,数据集还进行了精细的时间戳处理,提供了秒级的交互时间记录,并采用了标准的数据分割策略,以支持推荐系统的基准测试。
特点
该数据集的显著特点在于其大规模和多样性。数据集包含了571.54M条评论,比之前的版本增加了245.2%,且提供了更丰富的元数据描述。此外,数据集还包含了细粒度的时间戳信息,使得研究者可以进行更精确的时间序列分析。数据集的清洗处理也更为严格,确保了元数据的准确性和一致性。标准化的数据分割策略进一步增强了其在推荐系统研究中的应用价值。
使用方法
使用该数据集时,用户可以通过HuggingFace的datasets库轻松加载数据。对于用户评论,可以使用`load_dataset`函数加载`raw_review_Books`数据集,并访问其中的详细字段,如评分、评论文本、图片等。对于书籍的元数据,可以使用`raw_meta_Books`数据集,获取书籍的标题、价格、分类等信息。数据集的详细字段说明和加载示例可在官方文档中找到,确保用户能够高效地利用这些数据进行研究和开发。
背景与挑战
背景概述
Amazon Reviews 2023 (Books Only)数据集由McAuley Lab于2023年创建,旨在为推荐系统和自然语言处理领域提供丰富的用户评论和商品元数据。该数据集包含了从1996年5月至2023年9月的用户交互数据,涵盖了书籍类别的详细评论信息,如评分、文本、有用性投票等,以及商品的描述、价格、图像等元数据。该数据集的发布不仅为研究人员提供了大规模的基准数据,还通过标准化的数据分割策略,促进了推荐系统领域的基准测试和算法比较。
当前挑战
该数据集在构建过程中面临多项挑战。首先,数据规模庞大,处理和存储571.54M条评论和相关元数据需要高效的计算资源和存储解决方案。其次,数据的时间跨度长,涵盖了从1996年至今的交互数据,这要求数据清洗和处理过程中需考虑不同时期的数据格式和内容变化。此外,数据集中包含了丰富的元数据,如图像和视频,这些多媒体数据的处理和分析增加了数据集的复杂性。最后,如何确保数据的质量和一致性,特别是在处理缺失或不完整的元数据时,也是一个重要的挑战。
常用场景
经典使用场景
在推荐系统领域,cogsci13/Amazon-Reviews-2023-Books-Meta数据集的经典使用场景主要集中在用户评论分析与商品推荐算法的优化上。通过分析用户对书籍的评分、评论文本、帮助性投票等数据,研究者可以构建更为精准的用户画像和商品特征模型,从而提升推荐系统的个性化和准确性。此外,该数据集的丰富元数据(如商品描述、价格、图片等)为多模态推荐系统提供了宝贵的资源,使得推荐算法能够综合考虑文本、图像等多种信息源,进一步增强推荐效果。
实际应用
在实际应用中,cogsci13/Amazon-Reviews-2023-Books-Meta数据集被广泛应用于电子商务平台的推荐系统优化。通过分析用户评论和商品元数据,电商平台能够为用户提供更为精准的书籍推荐,提升用户体验和购买转化率。此外,该数据集还可用于市场分析,帮助出版商和书商了解用户对不同书籍的反馈,从而优化出版策略和库存管理。在教育领域,该数据集也可用于构建个性化学习资源推荐系统,帮助学生和教师更高效地选择合适的教材和参考书籍。
衍生相关工作
基于cogsci13/Amazon-Reviews-2023-Books-Meta数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集进行用户评论情感分析,探索情感因素对推荐系统的影响;还有研究通过多模态信息融合技术,构建了更为精准的书籍推荐模型。此外,该数据集还被用于开发和评估新型推荐算法,如基于图神经网络的推荐系统,以及结合时间序列分析的动态推荐模型。这些衍生工作不仅丰富了推荐系统的理论研究,也为实际应用提供了新的技术支持。
以上内容由AI搜集并总结生成