Bank-Marketing-Dataset-UCI|银行营销数据集|预测模型数据集

github2018-07-08 更新2024-05-31 收录

银行营销

预测模型

下载链接：

https://github.com/hmehta92/Bank-Marketing-Dataset-UCI-

下载链接

链接失效反馈

资源简介：

该数据集与葡萄牙一家银行机构的直接营销活动相关，主要基于电话营销。数据集的分类目标是预测客户是否会订阅定期存款。数据集包含了客户的个人信息、营销活动相关信息以及社会经济背景信息。

This dataset pertains to a direct marketing campaign conducted by a Portuguese banking institution, primarily through telemarketing. The classification objective of the dataset is to predict whether a client will subscribe to a term deposit. The dataset encompasses personal information of clients, details related to the marketing campaign, as well as socio-economic background information.

创建时间：

2018-06-19

AI搜集汇总

数据集介绍

构建方式

Bank-Marketing-Dataset-UCI数据集的构建是基于葡萄牙一家银行的直销活动记录。该数据集涵盖了通过电话进行的营销活动，其中涉及对同一客户进行多次接触，以判断客户是否会订阅银行定期存款产品。数据集的构建包括了客户的个人信息、最后一次接触的相关信息以及其他社会和经济背景信息，旨在预测客户是否会订阅定期存款产品。

特点

该数据集的特点在于，它提供了详尽的客户个人信息和社会经济背景，包含了客户的职业、婚姻状况、教育水平、信用状况、住房贷款情况以及个人贷款情况等。此外，数据集还记录了最后一次营销活动的通信类型、月份、星期几以及通话时长等。这些特点使得该数据集在预测银行产品订阅行为上具有很高的实用价值。

使用方法

使用Bank-Marketing-Dataset-UCI数据集时，首先需要对数据进行预处理，包括处理缺失值、编码分类变量等。接着，可以利用数据集的特征进行模型训练，如决策树、随机森林、支持向量机等，以预测客户是否会订阅定期存款产品。需要注意的是，通话时长这一特征在现实预测模型中可能需要被排除，因为它在实际电话营销前是未知的。

背景与挑战

背景概述

Bank-Marketing-Dataset-UCI数据集源于葡萄牙某银行机构的直销活动记录。该数据集收集了通过电话进行的营销活动信息，其中经常需要对同一客户进行多次联系，以判断客户是否会订阅银行定期存款产品。此数据集的创建旨在为银行营销策略提供数据支撑，其分类目标是预测客户是否会订阅定期存款产品。该数据集自发布以来，在银行营销、客户关系管理等领域产生了广泛的研究影响。

当前挑战

数据集在研究领域中面临的挑战主要包括：如何准确预测客户订阅行为，考虑到客户数据的多样性和复杂性。构建过程中遇到的挑战涉及如何处理缺失值、分类特征的高基数问题以及如何合理利用时间序列特征，如'contact'、'month'和'day_of_week'等。此外，'duration'特征对输出目标的影响较大，但在实际预测模型中往往需要被排除，以保持模型的现实预测性。

常用场景

经典使用场景

在金融领域，Bank-Marketing-Dataset-UCI数据集被广泛用于研究直接营销活动的效果。该数据集记录了一家葡萄牙银行机构基于电话呼叫的直接营销活动，旨在预测客户是否会订阅定期存款产品。其经典使用场景在于构建分类模型，预测客户对银行产品的订阅意向，即是否将选择订阅定期存款。

衍生相关工作

基于该数据集，研究者们衍生出了一系列相关工作，包括但不限于改进的预测模型、营销策略评估方法以及客户行为分析框架。这些工作进一步扩展了数据集的应用范围，加深了对金融产品营销效果影响因素的理解。

数据集最近研究

最新研究方向

Bank-Marketing-Dataset-UCI数据集关联的直接营销策略分析，近期研究集中于深入挖掘客户特征与营销成功之间的关系。学者们探索了利用机器学习模型预测客户是否会订阅银行定期存款产品，研究方向聚焦于特征选择、模型优化以及社会经济指标对预测结果的影响。这些研究为银行提供了精准营销的理论基础，有助于提升营销效率和客户满意度，同时为金融科技的发展提供了新的视角和数据支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

中国陆域及周边逐日1km全天候地表温度数据集（TRIMS LST；2000-2023）

地表温度（Land surface temperature, LST）是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现，又对于地气过程具有复杂的反馈作用。因此，地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提，还是众多模型的直接输入参数，在许多领域有广泛的应用，如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化，学术界对卫星遥感的全天候地表温度（All-weather LST）具有迫切的需求。本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据，辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性，最终重建得到较高质量的全天候地表温度数据集。评价结果表明，本数据集具有良好的图像质量和精度，不仅在空间上无缝，还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时，该数据集在白天和夜间的平均偏差（MBE）为0.09K和-0.03K，偏差标准差（STD）为1.45K和1.17K。基于19个站点实测数据的检验结果表明，其MBE为-2.26K至1.73K，RMSE为0.80K至3.68K，且在晴空与非晴空条件下无显著区别。本数据集的时间分辨率为逐日4次，空间分辨率为1km，时间跨度为2000年-2023年；空间范围包括我国陆域的主要区域（包含港澳台地区，暂不包含我国南海诸岛）及周边区域（72°E-135°E，19°N-55°N）。本数据集的缩写名为TRIMS LST（Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST），以便用户使用。需要说明的是，TRIMS LST的空间子集TRIMS LST-TP（中国西部逐日1 km全天候地表温度数据集（TRIMS LST-TP；2000-2023）V2）同步在国家青藏高原科学数据中心发布，以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心（CSLT）发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下，由王东完成的。清华大学计算机科学系智能与系统，原名“TCMSD”，意思是“清华连续普通话语音数据库”，时隔13年出版，由王东博士发起，并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此，该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

TongueDx Dataset

TongueDx数据集是一个专为远程舌诊研究设计的综合性舌象图像数据集，由香港理工大学和新加坡管理大学的研究团队创建。该数据集包含5109张图像，涵盖了多种环境条件下的舌象，图像通过智能手机和笔记本电脑摄像头采集，具有较高的多样性和代表性。数据集不仅包含舌象图像，还提供了详细的舌面属性标注，如舌色、舌苔厚度等，并附有受试者的年龄、性别等人口统计信息。数据集的创建过程包括图像采集、舌象分割、标准化处理和多标签标注，旨在解决远程医疗中舌诊图像质量不一致的问题。该数据集的应用领域主要集中在远程医疗和中医诊断，旨在通过自动化技术提高舌诊的准确性和可靠性。

arXiv 收录