five

cogsci13/Amazon-Reviews-2023-Books-Meta|图书评论数据集|推荐系统数据集

收藏
hugging_face2024-04-18 更新2024-06-12 收录
图书评论
推荐系统
下载链接:
https://hf-mirror.com/datasets/cogsci13/Amazon-Reviews-2023-Books-Meta
下载链接
链接失效反馈
资源简介:
Amazon Reviews 2023 (Books Only) 是一个大规模的书籍评论数据集,由McAuley Lab在2023年收集。该数据集包含571.54M条评论,比上一版本大245.2%。数据集提供了丰富的用户评论特征,如评分、文本、有用投票等,以及书籍的详细元数据,如描述、价格、原始图像等。此外,数据集还包括了从1996年5月到2023年9月的最新交互数据,以及细粒度的时间戳和清洁的元数据处理。数据集还提供了标准的数据分割,以鼓励推荐系统的基准测试。
提供机构:
cogsci13
原始信息汇总

数据集概述:Amazon Reviews 2023 (Books Only)

数据集基本信息

  • 名称: Amazon Reviews 2023 (Books Only)
  • 语言: 英语
  • 标签: 推荐系统, 评论
  • 大小: 100M<n<1B

数据集内容

  • 来源: 由McAuley Lab在2023年收集
  • 包含内容:
    1. 用户评论: 包括评分、文本、有用投票等;
    2. 商品元数据: 包括描述、价格、原始图像等。

数据集更新

  • 首次发布: 2024年4月18日
  • 更新内容:
    1. 数据集大小: 收集了571.54M条评论,比上一版本大245.2%;
    2. 交互时间范围: 从1996年5月到2023年9月;
    3. 元数据丰富度: 增加了商品元数据的描述性特征;
    4. 时间戳精度: 交互时间戳精度达到秒级或更细;
    5. 数据处理: 商品元数据比之前版本更清洁;
    6. 标准分割: 提供标准的数据分割,以促进推荐系统基准测试。

数据集统计

  • 分类统计:
    类别 用户数 商品数 评分数 R_Token数 M_Token数 下载链接
    书籍 10.3M 4.4M 29.5M 2.9B 3.7B 评论, 元数据

数据集字段

用户评论

字段 类型 说明
rating float 产品评分(1.0到5.0)
title str 用户评论标题
text str 用户评论文本
images list 用户上传的产品图像
asin str 产品ID
parent_asin str 产品父ID
user_id str 评论者ID
timestamp int 评论时间(Unix时间)
verified_purchase bool 用户购买验证
helpful_vote int 评论的有用投票

商品元数据

字段 类型 说明
main_category str 产品主类别
title str 产品名称
average_rating float 产品页面显示的评分
rating_number int 产品评分数量
features list 产品特征(点格式)
description list 产品描述
price float 产品价格(爬取时)
images list 产品图像
videos list 产品视频
store str 产品商店名称
categories list 产品类别层次
details dict 产品详细信息
parent_asin str 产品父ID
bought_together list 网站推荐的捆绑销售

数据集引用

bibtex @article{hou2024bridging, title={Bridging Language and Items for Retrieval and Recommendation}, author={Hou, Yupeng and Li, Jiacheng and He, Zhankui and Yan, An and Chen, Xiusi and McAuley, Julian}, journal={arXiv preprint arXiv:2403.03952}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由McAuley Lab在2023年精心构建,专注于亚马逊书籍评论的收集与整理。数据集不仅涵盖了用户评论的详细信息,如评分、文本、有用性投票等,还包含了书籍的丰富元数据,如描述、价格、原始图像等。通过从1996年5月至2023年9月的广泛交互数据中筛选,确保了数据的新鲜性和全面性。此外,数据集还进行了精细的时间戳处理,提供了秒级的交互时间记录,并采用了标准的数据分割策略,以支持推荐系统的基准测试。
特点
该数据集的显著特点在于其大规模和多样性。数据集包含了571.54M条评论,比之前的版本增加了245.2%,且提供了更丰富的元数据描述。此外,数据集还包含了细粒度的时间戳信息,使得研究者可以进行更精确的时间序列分析。数据集的清洗处理也更为严格,确保了元数据的准确性和一致性。标准化的数据分割策略进一步增强了其在推荐系统研究中的应用价值。
使用方法
使用该数据集时,用户可以通过HuggingFace的datasets库轻松加载数据。对于用户评论,可以使用`load_dataset`函数加载`raw_review_Books`数据集,并访问其中的详细字段,如评分、评论文本、图片等。对于书籍的元数据,可以使用`raw_meta_Books`数据集,获取书籍的标题、价格、分类等信息。数据集的详细字段说明和加载示例可在官方文档中找到,确保用户能够高效地利用这些数据进行研究和开发。
背景与挑战
背景概述
Amazon Reviews 2023 (Books Only)数据集由McAuley Lab于2023年创建,旨在为推荐系统和自然语言处理领域提供丰富的用户评论和商品元数据。该数据集包含了从1996年5月至2023年9月的用户交互数据,涵盖了书籍类别的详细评论信息,如评分、文本、有用性投票等,以及商品的描述、价格、图像等元数据。该数据集的发布不仅为研究人员提供了大规模的基准数据,还通过标准化的数据分割策略,促进了推荐系统领域的基准测试和算法比较。
当前挑战
该数据集在构建过程中面临多项挑战。首先,数据规模庞大,处理和存储571.54M条评论和相关元数据需要高效的计算资源和存储解决方案。其次,数据的时间跨度长,涵盖了从1996年至今的交互数据,这要求数据清洗和处理过程中需考虑不同时期的数据格式和内容变化。此外,数据集中包含了丰富的元数据,如图像和视频,这些多媒体数据的处理和分析增加了数据集的复杂性。最后,如何确保数据的质量和一致性,特别是在处理缺失或不完整的元数据时,也是一个重要的挑战。
常用场景
经典使用场景
在推荐系统领域,cogsci13/Amazon-Reviews-2023-Books-Meta数据集的经典使用场景主要集中在用户评论分析与商品推荐算法的优化上。通过分析用户对书籍的评分、评论文本、帮助性投票等数据,研究者可以构建更为精准的用户画像和商品特征模型,从而提升推荐系统的个性化和准确性。此外,该数据集的丰富元数据(如商品描述、价格、图片等)为多模态推荐系统提供了宝贵的资源,使得推荐算法能够综合考虑文本、图像等多种信息源,进一步增强推荐效果。
实际应用
在实际应用中,cogsci13/Amazon-Reviews-2023-Books-Meta数据集被广泛应用于电子商务平台的推荐系统优化。通过分析用户评论和商品元数据,电商平台能够为用户提供更为精准的书籍推荐,提升用户体验和购买转化率。此外,该数据集还可用于市场分析,帮助出版商和书商了解用户对不同书籍的反馈,从而优化出版策略和库存管理。在教育领域,该数据集也可用于构建个性化学习资源推荐系统,帮助学生和教师更高效地选择合适的教材和参考书籍。
衍生相关工作
基于cogsci13/Amazon-Reviews-2023-Books-Meta数据集,研究者们开展了多项经典工作。例如,有研究利用该数据集进行用户评论情感分析,探索情感因素对推荐系统的影响;还有研究通过多模态信息融合技术,构建了更为精准的书籍推荐模型。此外,该数据集还被用于开发和评估新型推荐算法,如基于图神经网络的推荐系统,以及结合时间序列分析的动态推荐模型。这些衍生工作不仅丰富了推荐系统的理论研究,也为实际应用提供了新的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。

github 收录

Population and Housing Census of 2007 - Ethiopia

Geographic coverage --------------------------- National coverage Analysis unit --------------------------- Household Person Housing unit Universe --------------------------- The census has counted people on dejure and defacto basis. The dejure population comprises all the persons who belong to a given area at a given time by virtue of usual residence, while under defacto approach people were counted as the residents of the place where they found. In the census, a person is said to be a usual resident of a household (and hence an area) if he/she has been residing in the household continuously for at least six months before the census day or intends to reside in the household for six months or longer. Thus, visitors are not included with the usual (dejure) population. Homeless persons were enumerated in the place where they spent the night on the enumeration day. The 2007 census counted foreign nationals who were residing in the city administration. On the other hand all Ethiopians living abroad were not counted. Kind of data --------------------------- Census/enumeration data [cen] Mode of data collection --------------------------- Face-to-face [f2f] Research instrument --------------------------- Two type sof questionnaires were used to collect census data: i) Short questionnaire ii) Long questionnaire Unlike the previous censuses, the contents of the short and long questionnaires were similar both for the urban and rural areas as well as for the entire city. But the short and the long questionnaires differ by the number of variables they contained. That is, the short questionnaire was used to collect basic data on population characteristics, such as population size, sex, age, language, ethnic group, religion, orphanhood and disability. Whereas the long questionnaire includes information on marital status, education, economic activity, migration, fertility, mortality, as well as housing stocks and conditions in addition to those questions contained in a short questionnaire.

catalog.ihsn.org 收录

专精特新“小巨人”合肥企业名单(第一批~第四批)

根据工信部的定义,专精特新“小巨人”企业是“专精特新”中小企业中的佼佼者,是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的排头兵企业。 截止第四批,目前,全市“小巨人”企业总数达140户,占全国的1.6%,在全国城市及省会城市排名各进一位,位居全国城市第十四,省会城市第五。 2022 年 6 月,合肥市发布《专精特新中小企业倍增培育行动计划》,到2025年,合肥计划培育省级专精特新冠军企业和国家级专精特新“小巨人”企业300家,推动50家专精特新中小企业上市挂牌。接下来,合肥还将支持地方国有金融机构设立专精特新专项融资产品,力争每条产业链培育一批国家级专精特新“小巨人”企业。

合肥数据要素流通平台 收录