five

cogsci13/Amazon-Reviews-2023-Books-Meta|图书评论数据集|推荐系统数据集

收藏
hugging_face2024-04-18 更新2024-06-12 收录
图书评论
推荐系统
下载链接:
https://hf-mirror.com/datasets/cogsci13/Amazon-Reviews-2023-Books-Meta
下载链接
链接失效反馈
资源简介:
Amazon Reviews 2023 (Books Only) 是一个大规模的书籍评论数据集,由McAuley Lab在2023年收集。该数据集包含571.54M条评论,比上一版本大245.2%。数据集提供了丰富的用户评论特征,如评分、文本、有用投票等,以及书籍的详细元数据,如描述、价格、原始图像等。此外,数据集还包括了从1996年5月到2023年9月的最新交互数据,以及细粒度的时间戳和清洁的元数据处理。数据集还提供了标准的数据分割,以鼓励推荐系统的基准测试。
提供机构:
cogsci13
原始信息汇总

数据集概述:Amazon Reviews 2023 (Books Only)

数据集基本信息

  • 名称: Amazon Reviews 2023 (Books Only)
  • 语言: 英语
  • 标签: 推荐系统, 评论
  • 大小: 100M<n<1B

数据集内容

  • 来源: 由McAuley Lab在2023年收集
  • 包含内容:
    1. 用户评论: 包括评分、文本、有用投票等;
    2. 商品元数据: 包括描述、价格、原始图像等。

数据集更新

  • 首次发布: 2024年4月18日
  • 更新内容:
    1. 数据集大小: 收集了571.54M条评论,比上一版本大245.2%;
    2. 交互时间范围: 从1996年5月到2023年9月;
    3. 元数据丰富度: 增加了商品元数据的描述性特征;
    4. 时间戳精度: 交互时间戳精度达到秒级或更细;
    5. 数据处理: 商品元数据比之前版本更清洁;
    6. 标准分割: 提供标准的数据分割,以促进推荐系统基准测试。

数据集统计

  • 分类统计:
    类别 用户数 商品数 评分数 R_Token数 M_Token数 下载链接
    书籍 10.3M 4.4M 29.5M 2.9B 3.7B 评论, 元数据

数据集字段

用户评论

字段 类型 说明
rating float 产品评分(1.0到5.0)
title str 用户评论标题
text str 用户评论文本
images list 用户上传的产品图像
asin str 产品ID
parent_asin str 产品父ID
user_id str 评论者ID
timestamp int 评论时间(Unix时间)
verified_purchase bool 用户购买验证
helpful_vote int 评论的有用投票

商品元数据

字段 类型 说明
main_category str 产品主类别
title str 产品名称
average_rating float 产品页面显示的评分
rating_number int 产品评分数量
features list 产品特征(点格式)
description list 产品描述
price float 产品价格(爬取时)
images list 产品图像
videos list 产品视频
store str 产品商店名称
categories list 产品类别层次
details dict 产品详细信息
parent_asin str 产品父ID
bought_together list 网站推荐的捆绑销售

数据集引用

bibtex @article{hou2024bridging, title={Bridging Language and Items for Retrieval and Recommendation}, author={Hou, Yupeng and Li, Jiacheng and He, Zhankui and Yan, An and Chen, Xiusi and McAuley, Julian}, journal={arXiv preprint arXiv:2403.03952}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由McAuley Lab在2023年精心构建,专注于亚马逊书籍评论的收集与整理。数据集不仅涵盖了用户评论的详细信息,如评分、文本、有用性投票等,还包含了书籍的丰富元数据,如描述、价格、原始图像等。通过从1996年5月至2023年9月的广泛交互数据中筛选,确保了数据的新鲜性和全面性。此外,数据集还进行了精细的时间戳处理,提供了秒级的交互时间记录,并采用了标准的数据分割策略,以支持推荐系统的基准测试。
特点
该数据集的显著特点在于其大规模和多样性。数据集包含了571.54M条评论,比之前的版本增加了245.2%,且提供了更丰富的元数据描述。此外,数据集还包含了细粒度的时间戳信息,使得研究者可以进行更精确的时间序列分析。数据集的清洗处理也更为严格,确保了元数据的准确性和一致性。标准化的数据分割策略进一步增强了其在推荐系统研究中的应用价值。
使用方法
使用该数据集时,用户可以通过HuggingFace的datasets库轻松加载数据。对于用户评论,可以使用`load_dataset`函数加载`raw_review_Books`数据集,并访问其中的详细字段,如评分、评论文本、图片等。对于书籍的元数据,可以使用`raw_meta_Books`数据集,获取书籍的标题、价格、分类等信息。数据集的详细字段说明和加载示例可在官方文档中找到,确保用户能够高效地利用这些数据进行研究和开发。
背景与挑战
背景概述
Amazon Reviews 2023 (Books Only)数据集由McAuley Lab于2023年创建,旨在为推荐系统和自然语言处理领域提供丰富的用户评论和商品元数据。该数据集包含了从1996年5月至2023年9月的用户交互数据,涵盖了书籍类别的详细评论信息,如评分、文本、有用性投票等,以及商品的描述、价格、图像等元数据。该数据集的发布不仅为研究人员提供了大规模的基准数据,还通过标准化的数据分割策略,促进了推荐系统领域的基准测试和算法比较。
当前挑战
该数据集在构建过程中面临多项挑战。首先,数据规模庞大,处理和存储571.54M条评论和相关元数据需要高效的计算资源和存储解决方案。其次,数据的时间跨度长,涵盖了从1996年至今的交互数据,这要求数据清洗和处理过程中需考虑不同时期的数据格式和内容变化。此外,数据集中包含了丰富的元数据,如图像和视频,这些多媒体数据的处理和分析增加了数据集的复杂性。最后,如何确保数据的质量和一致性,特别是在处理缺失或不完整的元数据时,也是一个重要的挑战。
常用场景
经典使用场景
在推荐系统领域,cogsci13/Amazon-Reviews-2023-Books-Meta数据集的经典使用场景主要集中在用户评论分析与商品推荐算法的优化上。通过分析用户对书籍的评分、评论文本、帮助性投票等数据,研究者可以构建更为精准的用户画像和商品特征模型,从而提升推荐系统的个性化和准确性。此外,该数据集的丰富元数据(如商品描述、价格、图片等)为多模态推荐系统提供了宝贵的资源,使得推荐算法能够综合考虑文本、图像等多种信息源,进一步增强推荐效果。
实际应用
在实际应用中,cogsci13/Amazon-Reviews-2023-Books-Meta数据集被广泛应用于电子商务平台的推荐系统优化。通过分析用户评论和商品元数据,电商平台能够为用户提供更为精准的书籍推荐,提升用户体验和购买转化率。此外,该数据集还可用于市场分析,帮助出版商和书商了解用户对不同书籍的反馈,从而优化出版策略和库存管理。在教育领域,该数据集也可用于构建个性化学习资源推荐系统,帮助学生和教师更高效地选择合适的教材和参考书籍。
衍生相关工作
基于cogsci13/Amazon-Reviews-2023-Books-Meta数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集进行用户评论情感分析,探索情感因素对推荐系统的影响;还有研究通过多模态信息融合技术,构建了更为精准的书籍推荐模型。此外,该数据集还被用于开发和评估新型推荐算法,如基于图神经网络的推荐系统,以及结合时间序列分析的动态推荐模型。这些衍生工作不仅丰富了推荐系统的理论研究,也为实际应用提供了新的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

PulseBat Dataset

PulseBat数据集是由清华大学深圳国际研究生院与厦门立景新能源科技有限公司合作创建的,包含464个退役锂电池的多维度脉冲测试数据。该数据集覆盖了3种正极材料类型、6种使用历史、3种物理形态和6种容量设计。通过10种脉冲宽度和幅值,以及多个荷电状态和健康状况条件下进行脉冲测试,记录了测试条件和电压响应以及温度信号。该数据集可应用于电池的健康状态评估、荷电状态估计、正极材料类型识别、开路电压重构、热管理等关键诊断任务。

arXiv 收录