Alibaba Click Prediction|广告点击预测数据集|在线广告数据集
收藏
- Alibaba Click Prediction数据集首次公开发布,旨在为研究者提供一个大规模的点击预测数据集,以推动在线广告推荐系统的发展。
- 该数据集在多个国际数据挖掘和机器学习竞赛中被广泛使用,成为评估点击预测算法性能的重要基准。
- 随着深度学习技术的兴起,Alibaba Click Prediction数据集开始被用于训练和验证深度神经网络模型,特别是在推荐系统和广告技术领域。
- 该数据集的相关研究成果在多个顶级学术会议上发表,进一步提升了其在学术界的影响力。
- Alibaba Click Prediction数据集被纳入多个开源机器学习平台,使得更多研究者和开发者能够方便地使用和研究该数据集。
- 随着数据隐私和安全问题的日益重要,该数据集的研究开始关注如何在保护用户隐私的前提下进行有效的点击预测。
- Alibaba Click Prediction数据集继续在最新的机器学习和数据挖掘研究中发挥重要作用,特别是在处理大规模数据和复杂推荐任务方面。
- 1Deep Interest Network for Click-Through Rate PredictionAlibaba Group · 2018年
- 2Deep Learning for Click-Through Rate Prediction: A Survey and OutlookTsinghua University · 2021年
- 3A Dual-Stage Attention-Based Recurrent Neural Network for Time Series PredictionTsinghua University · 2017年
- 4DeepFM: A Factorization-Machine based Neural Network for CTR PredictionUniversity of Science and Technology of China · 2017年
- 5xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender SystemsMicrosoft Research · 2018年
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
GVJahnavi/Crops_set
该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。
hugging_face 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录