five

DBLP|学术研究数据集|引文网络数据集

收藏
魔搭社区2025-04-22 更新2024-08-31 收录
学术研究
引文网络
下载链接:
https://modelscope.cn/datasets/OmniData/DBLP
下载链接
链接失效反馈
资源简介:
displayName: DBLP (Citation Network Dataset) license: - DBLP Custom mediaTypes: - Text paperUrl: http://keg.cs.tsinghua.edu.cn/jietang/publications/KDD08-Tang-et-al-ArnetMiner.pdf publishDate: "2008" publishUrl: https://www.aminer.org/citation publisher: - Tsinghua University - IBM tags: - Thesis taskTypes: - Graph Classification --- # 数据集介绍 ## 简介 该数据集仅用于研究目的。引文数据从 DBLP、ACM、MAG(Microsoft Academic Graph)和其他来源中提取。第一版包含 629,814 篇论文和 632,752 次引用。每篇论文都与摘要、作者、年份、地点和标题相关联。 该数据集可用于网络和边信息的聚类、研究引文网络中的影响力、寻找最有影响力的论文、主题建模分析等。 ## 引文 ``` @inproceedings{tang2008arnetminer, title={Arnetminer: extraction and mining of academic social networks}, author={Tang, Jie and Zhang, Jing and Yao, Limin and Li, Juanzi and Zhang, Li and Su, Zhong}, booktitle={Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining}, pages={990--998}, year={2008} } ``` ## Download dataset :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
DBLP数据集的构建基于计算机科学领域的学术文献,涵盖了广泛的研究主题。该数据集通过自动抓取和人工校对相结合的方式,从DBLP网站上收集了大量的学术论文信息。这些信息包括论文标题、作者、出版年份、期刊或会议名称等关键元数据。此外,DBLP还通过与外部数据库的链接,进一步丰富了数据集的内容,确保了数据的全面性和准确性。
特点
DBLP数据集以其庞大的规模和多样性著称,包含了超过300万篇学术论文,涉及计算机科学领域的各个子学科。该数据集的特点之一是其高度结构化的数据格式,便于研究人员进行数据分析和挖掘。此外,DBLP数据集还具有良好的更新机制,能够及时反映学术界的最新动态,为研究者提供了宝贵的资源。
使用方法
研究人员可以通过访问DBLP的官方网站或使用其API接口,获取所需的数据。数据集的使用方法多样,既可以用于文献计量分析,也可以用于构建学术网络和进行知识图谱研究。此外,DBLP数据集还支持多种数据导出格式,如XML和JSON,方便用户进行进一步的数据处理和分析。通过这些方法,研究人员可以充分利用DBLP数据集,推动计算机科学领域的研究进展。
背景与挑战
背景概述
DBLP(Digital Bibliography & Library Project)数据集,由德国萨尔兰大学的Michael Ley教授于1995年创建,旨在为计算机科学领域的研究提供一个全面的文献索引。该数据集收录了大量学术论文、会议记录、技术报告等,涵盖了计算机科学及其相关领域的广泛主题。DBLP的建立极大地促进了学术信息的共享与传播,成为全球计算机科学研究者不可或缺的资源。其影响力不仅体现在学术界,还对工业界的技术创新和教育领域的知识传播产生了深远影响。
当前挑战
DBLP数据集在构建过程中面临诸多挑战。首先,数据来源的多样性和复杂性使得数据整合与标准化成为一个难题。其次,随着计算机科学领域的快速发展,DBLP需要不断更新和扩展,以保持其时效性和全面性。此外,数据集的规模庞大,如何高效地存储、检索和管理这些数据也是一个重要的技术挑战。最后,随着开放获取和数据共享的趋势,DBLP还需应对数据隐私和版权保护的问题,确保数据使用的合法性和道德性。
发展历史
创建时间与更新
DBLP数据集创建于1993年,由德国凯泽斯劳滕大学的Michael Ley教授发起。自创建以来,DBLP持续更新,目前已成为计算机科学领域最全面和权威的文献数据库之一。
重要里程碑
DBLP的重要里程碑包括:1995年,DBLP开始提供在线访问服务,极大地促进了学术交流;2002年,DBLP与美国计算机学会(ACM)合作,进一步扩展了其收录范围;2010年,DBLP引入了自动更新机制,确保数据的实时性和准确性。这些里程碑不仅提升了DBLP的影响力,也推动了计算机科学领域的知识传播和技术进步。
当前发展情况
当前,DBLP数据集已发展成为全球最大的计算机科学文献数据库,收录了超过400万篇论文和2000多个期刊、会议记录。DBLP不仅为研究人员提供了丰富的学术资源,还通过其强大的搜索和推荐功能,极大地提高了科研效率。此外,DBLP的开源性质和持续的技术创新,使其在学术界和工业界都具有广泛的应用和深远的影响。
发展历程
  • DBLP首次发表,作为德国凯泽斯劳滕大学计算机科学系的一个项目,旨在收集和索引计算机科学文献。
    1993年
  • DBLP开始提供在线访问,成为学术界广泛使用的文献检索工具。
    1995年
  • DBLP数据集被整合到DBLP合作项目中,进一步扩展了其覆盖范围和功能。
    2002年
  • DBLP开始提供XML格式的数据下载,方便研究人员进行更深入的分析和研究。
    2007年
  • DBLP推出新的用户界面,增强了用户体验和数据检索效率。
    2012年
  • DBLP数据集的规模突破了300万条记录,成为全球最大的计算机科学文献数据库之一。
    2017年
常用场景
经典使用场景
在计算机科学领域,DBLP数据集被广泛用于学术文献的索引和检索。该数据集收录了大量计算机科学领域的会议论文、期刊文章和书籍,为研究人员提供了一个全面且易于访问的文献资源库。通过DBLP,研究者可以快速查找特定领域的最新研究成果,进行文献综述,以及追踪学术趋势。
解决学术问题
DBLP数据集解决了学术界在文献管理和知识发现方面的多个关键问题。首先,它通过自动化索引和分类,极大地提高了文献检索的效率和准确性。其次,DBLP为研究者提供了一个统一的接口,使得跨领域的文献比较和分析成为可能。此外,该数据集还支持学术社区的协作和知识共享,促进了跨学科的研究合作。
衍生相关工作
DBLP数据集的广泛应用催生了众多相关的经典工作。例如,基于DBLP的文献推荐系统研究,推动了个性化推荐技术的发展。同时,DBLP数据集也被用于研究学术网络的结构和演化,产生了大量关于学术合作和知识传播的学术论文。此外,DBLP还为自然语言处理和信息检索领域的研究提供了丰富的数据资源,促进了这些领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录