five

cogsci13/Amazon-Reviews-2023-Books-Meta|图书评论数据集|推荐系统数据集

收藏
hugging_face2024-04-18 更新2024-06-12 收录
图书评论
推荐系统
下载链接:
https://hf-mirror.com/datasets/cogsci13/Amazon-Reviews-2023-Books-Meta
下载链接
链接失效反馈
资源简介:
Amazon Reviews 2023 (Books Only) 是一个大规模的书籍评论数据集,由McAuley Lab在2023年收集。该数据集包含571.54M条评论,比上一版本大245.2%。数据集提供了丰富的用户评论特征,如评分、文本、有用投票等,以及书籍的详细元数据,如描述、价格、原始图像等。此外,数据集还包括了从1996年5月到2023年9月的最新交互数据,以及细粒度的时间戳和清洁的元数据处理。数据集还提供了标准的数据分割,以鼓励推荐系统的基准测试。
提供机构:
cogsci13
原始信息汇总

数据集概述:Amazon Reviews 2023 (Books Only)

数据集基本信息

  • 名称: Amazon Reviews 2023 (Books Only)
  • 语言: 英语
  • 标签: 推荐系统, 评论
  • 大小: 100M<n<1B

数据集内容

  • 来源: 由McAuley Lab在2023年收集
  • 包含内容:
    1. 用户评论: 包括评分、文本、有用投票等;
    2. 商品元数据: 包括描述、价格、原始图像等。

数据集更新

  • 首次发布: 2024年4月18日
  • 更新内容:
    1. 数据集大小: 收集了571.54M条评论,比上一版本大245.2%;
    2. 交互时间范围: 从1996年5月到2023年9月;
    3. 元数据丰富度: 增加了商品元数据的描述性特征;
    4. 时间戳精度: 交互时间戳精度达到秒级或更细;
    5. 数据处理: 商品元数据比之前版本更清洁;
    6. 标准分割: 提供标准的数据分割,以促进推荐系统基准测试。

数据集统计

  • 分类统计:
    类别 用户数 商品数 评分数 R_Token数 M_Token数 下载链接
    书籍 10.3M 4.4M 29.5M 2.9B 3.7B 评论, 元数据

数据集字段

用户评论

字段 类型 说明
rating float 产品评分(1.0到5.0)
title str 用户评论标题
text str 用户评论文本
images list 用户上传的产品图像
asin str 产品ID
parent_asin str 产品父ID
user_id str 评论者ID
timestamp int 评论时间(Unix时间)
verified_purchase bool 用户购买验证
helpful_vote int 评论的有用投票

商品元数据

字段 类型 说明
main_category str 产品主类别
title str 产品名称
average_rating float 产品页面显示的评分
rating_number int 产品评分数量
features list 产品特征(点格式)
description list 产品描述
price float 产品价格(爬取时)
images list 产品图像
videos list 产品视频
store str 产品商店名称
categories list 产品类别层次
details dict 产品详细信息
parent_asin str 产品父ID
bought_together list 网站推荐的捆绑销售

数据集引用

bibtex @article{hou2024bridging, title={Bridging Language and Items for Retrieval and Recommendation}, author={Hou, Yupeng and Li, Jiacheng and He, Zhankui and Yan, An and Chen, Xiusi and McAuley, Julian}, journal={arXiv preprint arXiv:2403.03952}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由McAuley Lab在2023年精心构建,专注于亚马逊书籍评论的收集与整理。数据集不仅涵盖了用户评论的详细信息,如评分、文本、有用性投票等,还包含了书籍的丰富元数据,如描述、价格、原始图像等。通过从1996年5月至2023年9月的广泛交互数据中筛选,确保了数据的新鲜性和全面性。此外,数据集还进行了精细的时间戳处理,提供了秒级的交互时间记录,并采用了标准的数据分割策略,以支持推荐系统的基准测试。
特点
该数据集的显著特点在于其大规模和多样性。数据集包含了571.54M条评论,比之前的版本增加了245.2%,且提供了更丰富的元数据描述。此外,数据集还包含了细粒度的时间戳信息,使得研究者可以进行更精确的时间序列分析。数据集的清洗处理也更为严格,确保了元数据的准确性和一致性。标准化的数据分割策略进一步增强了其在推荐系统研究中的应用价值。
使用方法
使用该数据集时,用户可以通过HuggingFace的datasets库轻松加载数据。对于用户评论,可以使用`load_dataset`函数加载`raw_review_Books`数据集,并访问其中的详细字段,如评分、评论文本、图片等。对于书籍的元数据,可以使用`raw_meta_Books`数据集,获取书籍的标题、价格、分类等信息。数据集的详细字段说明和加载示例可在官方文档中找到,确保用户能够高效地利用这些数据进行研究和开发。
背景与挑战
背景概述
Amazon Reviews 2023 (Books Only)数据集由McAuley Lab于2023年创建,旨在为推荐系统和自然语言处理领域提供丰富的用户评论和商品元数据。该数据集包含了从1996年5月至2023年9月的用户交互数据,涵盖了书籍类别的详细评论信息,如评分、文本、有用性投票等,以及商品的描述、价格、图像等元数据。该数据集的发布不仅为研究人员提供了大规模的基准数据,还通过标准化的数据分割策略,促进了推荐系统领域的基准测试和算法比较。
当前挑战
该数据集在构建过程中面临多项挑战。首先,数据规模庞大,处理和存储571.54M条评论和相关元数据需要高效的计算资源和存储解决方案。其次,数据的时间跨度长,涵盖了从1996年至今的交互数据,这要求数据清洗和处理过程中需考虑不同时期的数据格式和内容变化。此外,数据集中包含了丰富的元数据,如图像和视频,这些多媒体数据的处理和分析增加了数据集的复杂性。最后,如何确保数据的质量和一致性,特别是在处理缺失或不完整的元数据时,也是一个重要的挑战。
常用场景
经典使用场景
在推荐系统领域,cogsci13/Amazon-Reviews-2023-Books-Meta数据集的经典使用场景主要集中在用户评论分析与商品推荐算法的优化上。通过分析用户对书籍的评分、评论文本、帮助性投票等数据,研究者可以构建更为精准的用户画像和商品特征模型,从而提升推荐系统的个性化和准确性。此外,该数据集的丰富元数据(如商品描述、价格、图片等)为多模态推荐系统提供了宝贵的资源,使得推荐算法能够综合考虑文本、图像等多种信息源,进一步增强推荐效果。
实际应用
在实际应用中,cogsci13/Amazon-Reviews-2023-Books-Meta数据集被广泛应用于电子商务平台的推荐系统优化。通过分析用户评论和商品元数据,电商平台能够为用户提供更为精准的书籍推荐,提升用户体验和购买转化率。此外,该数据集还可用于市场分析,帮助出版商和书商了解用户对不同书籍的反馈,从而优化出版策略和库存管理。在教育领域,该数据集也可用于构建个性化学习资源推荐系统,帮助学生和教师更高效地选择合适的教材和参考书籍。
衍生相关工作
基于cogsci13/Amazon-Reviews-2023-Books-Meta数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集进行用户评论情感分析,探索情感因素对推荐系统的影响;还有研究通过多模态信息融合技术,构建了更为精准的书籍推荐模型。此外,该数据集还被用于开发和评估新型推荐算法,如基于图神经网络的推荐系统,以及结合时间序列分析的动态推荐模型。这些衍生工作不仅丰富了推荐系统的理论研究,也为实际应用提供了新的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录