ZhihuRec|推荐系统数据集|用户行为分析数据集

arXiv2021-06-11 更新2024-06-21 收录

推荐系统

用户行为分析

下载链接：

https://github.com/THUIR/ZhihuRec-Dataset

下载链接

链接失效反馈

资源简介：

ZhihuRec是由清华大学信息科学与技术国家研究中心人工智能研究所和知乎合作创建的大型数据集，包含约1亿条用户互动数据，涵盖79.8万用户、16.5万个问题、55.4万个答案等。数据集通过收集知乎平台上的用户行为和内容信息构建，支持多种推荐算法的研究。此外，ZhihuRec还记录了用户的搜索查询行为，有助于研究搜索与推荐系统的整合。数据集的应用领域包括个性化推荐、用户行为分析和内容质量评估等。

提供机构：

清华大学信息科学与技术国家研究中心人工智能研究所

创建时间：

2021-06-11

AI搜集汇总

数据集介绍

构建方式

ZhihuRec数据集的构建始于2018年5月3日至13日，从知乎这一在线知识分享平台收集了约130万用户的原始数据。数据采集过程中，研究人员移除了点击次数少于10次用户的记录，并保留了每位用户最多160条最新的交互日志（包括点击和曝光）。为了确保数据集的规模，研究人员随机抽取了约798,000名用户，使得用户-答案交互总数达到约1亿次。数据集中包含了用户、答案、问题、作者和话题的完整交互信息、时间戳和内容信息。此外，每位用户的最多20条查询日志也被记录在数据集中。

特点

ZhihuRec数据集的特点主要体现在其规模之大、信息之丰富以及应用之广泛。它是目前最大的公开推荐数据集，包含从知乎在线知识分享社区收集的各种用户交互。数据集提供了丰富的内容信息，包括问题、答案、用户简介、话题等。特别是，它揭示了用户查询日志，这在之前的公开数据集中是未曾包含的。ZhihuRec数据集不仅适用于推荐研究，如Top-N推荐、上下文感知推荐，还可以用于用户建模（如性别预测、用户兴趣预测）、搜索与推荐系统的整合以及其他有趣的研究领域。

使用方法

ZhihuRec数据集的使用方法多样，可根据研究需求进行选择。例如，可以利用用户的交互日志和内容信息进行协同过滤推荐，也可以使用序列模型捕捉用户动态偏好。数据集中的查询日志使得跨平台研究和整合搜索与推荐成为可能。此外，数据集的负面反馈记录为推荐模型提供了更全面的信息，有助于提升推荐质量。用户简介和物品属性等信息可用于用户建模和物品属性建模。在使用数据集时，应遵循数据集的使用条款，并确保在研究和应用过程中尊重用户隐私。

背景与挑战

背景概述

在信息过载的互联网时代，如何帮助用户找到满足他们需求的信息成为了一个关键问题。个性化推荐系统被认为是解决这一问题的有效途径。近年来，个性化推荐技术在购物、视频、阅读、社交网络等场景中发挥着越来越重要的作用。然而，研究人员很难获得开放的大型真实场景数据集，这些数据集通常被大公司持有和保护。为了填补这一空白，Bin Hao等人提出了一种名为ZhihuRec的新数据集，该数据集收集自知乎，一个社交化的知识共享社区。ZhihuRec是一个大型数据集，具有详细的特征信息，保留完整的用户交互（如点击、跳过、查询等）、时间信息和内容信息，允许研究人员验证不同类型推荐算法的性能。此外，由于ZhihuRec中信息丰富，它不仅可以应用于推荐研究，还可以应用于用户建模、搜索与推荐系统的结合以及其他有趣的主题。ZhihuRec数据集由大约100M个交互组成，包括798K个用户、165K个问题、554K个答案、240K个作者、70K个主题和超过501K个用户查询关键词。数据集还包括用户、答案、问题、作者和主题的描述，这些描述都被匿名化。值得一提的是，每个用户的最新查询关键词在前面的开放数据集中并没有被包括，这些关键词揭示了用户的显式信息需求。该数据集的提出对推荐研究领域产生了重要影响，为研究者提供了大规模、丰富的真实场景数据集，有助于推动个性化推荐技术的发展。

当前挑战

ZhihuRec数据集面临的挑战包括：1)如何有效地利用用户查询日志来提高推荐算法的性能；2)如何处理用户交互数据中的噪声和异常值；3)如何结合用户建模和推荐系统，以提供更精准的个性化推荐；4)如何保护用户隐私，确保数据集的安全性；5)如何进一步扩大数据集的规模和多样性，以适应更多研究领域的需求。

常用场景

经典使用场景

ZhihuRec数据集主要应用于在线知识分享平台上的个性化推荐研究。该数据集包含了丰富的用户行为信息，包括点击、跳过、查询等，以及用户、问题、答案、作者和话题的详细特征信息。这使得研究人员能够验证不同类型推荐算法的性能，如协同过滤、基于内容的推荐、基于序列的推荐、知识增强推荐和混合推荐等。此外，由于ZhihuRec数据集中丰富的信息，它还可以应用于用户建模（如性别预测、用户兴趣预测）、搜索与推荐系统的结合以及其他有趣的话题。

实际应用

ZhihuRec数据集的实际应用场景包括但不限于：1. 个性化推荐系统，通过分析用户行为和内容信息，为用户提供个性化的知识推荐；2. 用户建模，通过用户交互和查询日志，构建用户画像，用于用户行为分析和兴趣预测；3. 搜索与推荐系统的结合，通过用户查询日志，理解用户的信息需求，提供更准确的搜索结果和推荐内容；4. 评估和改进推荐算法，通过对比不同算法在ZhihuRec数据集上的性能，选择最优的算法，提高推荐系统的效果。

衍生相关工作

ZhihuRec数据集衍生了大量的相关工作，包括但不限于：1. 基于内容的推荐算法研究，利用用户查询日志和问题、答案的文本信息，构建用户兴趣模型，实现更准确的推荐；2. 基于序列的推荐算法研究，利用用户交互序列，分析用户行为模式，预测用户未来的行为；3. 上下文感知推荐算法研究，结合用户行为、内容和上下文信息，提高推荐系统的准确性和个性化程度；4. 跨平台推荐研究，利用用户查询日志，实现跨平台的个性化推荐。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建，包含11,727个交通事故视频，总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口，还提供了详细的文本描述，包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息，提高交通事故预测的准确性和解释性，从而支持更安全的驾驶决策系统。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录