本文是一篇计算机论文,本论文的研究重点主要在处理不平衡数据问题及集成学习模型的优化。通过广泛的分析工作以及一系列的实验验证,证明了文章提出的方法在解决信贷数据的不平衡问题和提升集成学习在分类预测方面的有效性。
1 绪论
1.1 研究背景及意义
随着互联网技术的快速发展和数字化的加速转型,互联网金融行业迎来了前所未有的发展机遇。信贷市场作为现代经济体系的核心组成部分,对于推动经济发展、维护金融稳定具有不可替代的作用[1]。信贷作为金融机构的主要业务之一,其健康运行对于经济的稳健增长至关重要。然而,随着个人信贷市场的迅速扩张,信贷违约风险逐渐显现,成为金融亟须解决的关键问题。如表1-1所示,近几年我国商业银行不良贷款余额在持续增长,根据《中国金融不良资产市场调查报告》显示,截至2023年底,邮储银行的不良贷款为674.6亿元,不良率为0.83%。详细分析其不良贷款结构发现,在不良贷款中个人贷款约占74%,个人不良贷款额高达498.75亿元,其中个人小额贷款的不良贷款规模2023年增加了47.46亿元,为银行带来巨大经济损失。个人信贷违约不仅对金融机构造成经济损失,还可能引发金融市场的不稳定[2]。因此,研究有效的个人信贷违约风险预测模型,对于金融机构来说具有重要的意义。
1.2 国内外现状研究
1.2.1 信贷违约预测研究现状
目前,对于信贷违约预测的研究,大多数使用机器学习和深度学习技术来建立一套准确的违约风险预测模型。美国许多领先的银行正在采用神经网络技术来应对信用卡欺诈问题。与此同时,加拿大的Trust银行则运用专家系统作为防范信用卡欺诈的利器。这种方法成功地预防多起信用卡欺诈行为,并且让银行减少超过120万美元的损失。Chen等人[5]提出一种基于K-Means SMOTE和BP神经网络的信用卡违约预测模型。采用K-Means SMOTE算法改进了传统的随机过采样技术,不仅增加了少数类样本,还通过K-means方法筛选了含有更多少数类的簇,进而在这些簇内进行SMOTE过采样,有效减少了类别内外的不平衡问题。
陈等人[6]利用XGBoost算法来构建信用卡交易欺诈预测模型,并使用网格搜索技术对模型参数进行调优,同时以AUPRC作为评估标准,结果具有较高的准确率。Florentin Butaru等人[7]对决策树、随机森林和逻辑回归方法进行比较,设计信用卡风险管理机制。结果显示,在不同的银行中适用于不同的模型,并没有一种模型适用于所有银行[8]。刘等人[9]提出了一个两阶段的混合模式旨在提高信用风险模型的预测性能,首先利用XGBoost对原始特征进行线性化,同时将其转化成高维稀疏特征矩阵。其次,采用一种基于图的神经网络模型对信用风险进行预测,表明模型对不同经济周期具有较强的鲁棒性。
2 相关理论
2.1 不平衡数据采样方法
不平衡数据指在数据集中各类别样本数量存在显著差异的数据,在现实世界中的很多应用场景中都很常见,比如信用卡欺诈检测、疾病诊断、文本分类等。处理不平衡数据的关键挑战在于,少数类样本太少,导致学习模型很难学习到足够的信息来对少数类进行准确预测。为了解决这个问题,研究人员提出了多种数据采样技术,主要分为两大类:过采样和欠采样。
2.1.1 过采样技术
过采样旨在通过扩增少数类样本的数量来实现数据集的平衡。其中最基本的策略是简单地复制这些少数类样本,尽管这种做法直接且容易实现,但它有可能引发过拟合的问题。因此,更高级的过采样技术被提出,如SMOTE算法。SMOTE的核心思想是通过在少数类样本之间插入新的合成样本来增加少数类的样本数量。其算法流程如下:
(1)对于少数类中的每个样本𝑥𝑖,计算其到其他少数类样本的欧氏距离; (2)选择𝑘个最近邻的少数类样本; (3)根据样本不平衡比例设置采样比例𝑁;
2.2 生成式对抗网络
生成式对抗网络(GAN)作为一种无监督学习的生成模型,包括两个部分:生成器网络(Generator)和判别器网络(Discriminator),其网络结构如图2-1所示。
生成式对抗网络(GAN)构建了一个生成器与判别器的对抗框架,其中两者在学习过程中相互竞争。生成器从先验噪声分布中捕捉并再现数据的底层概率分布,而判别器则专注于区分输入是否来源于真实数据集或生成器产生的伪造数据,并以概率值(介于0至1之间)给出其判断。在这一过程中,生成器接受噪声样本z,并将其转换为近似于真实数据分布的样本。在GAN的研究与应用中,KL散度和JS散度是两种核心的度量标准,用于评估分布之间的距离。
3 基于改进ACGAN的过采样方法 ........................... 17
3.1 引言 ..................................... 17
3.2 算法描述 .............................. 18
4 基于集成学习的个人信贷违约预测方法 .......................................... 43
4.1 引言 ..................................... 43
4.2 算法描述 ....................................... 43
5 个人信贷违约管理系统设计与实现 .................................................. 57
5.1 系统需求性分析 .................................. 57
5.1.1 功能性需求 .................................. 57
5.1.2 非功能性需求 ............................. 58
5 个人信贷违约管理系统设计与实现
5.1 系统需求性分析
针对当前金融领域及各金融机构的海量客户数据,构建一个精准、高效的信贷违约管理系统,提供给金融机构来评估风险,有效减少甚至避免不良贷款所带来的巨大资金流失。然而,系统需求分析是一个关键的阶段,旨在明确系统需要满足的具体需求和条件。本节在系统开发前进行必要的系统功能需求分析,包括两方面,功能性需求和非功能性需求。功能性需求专注于系统应具备的操作和功能,而非功能性需求则涉及系统的性能和质量标准,确保软件在各种条件下均能有效运行。
5.1.1 功能性需求
功能性需求描述了系统必须执行的功能,即系统对某些输入所应提供的响应。它们定义了系统应该“做什么”,包括系统的行为、操作和任务。功能性需求通常是用户的直接请求,反映了用户与系统交互的各种场景。综合评估该系统的功能,本系统针对两个角色进行开发,分别为管理员(包含超级管理员和普通管理员)平台端和金融机构平台端(用户端)。
(1)管理员端功能需求分析
对于管理员端,主要包含四个模块,包括管理用户信息、系统菜单管理、用户权限管理和客户信息管理。其中用户信息管理模块包括增加、删除、编辑、查询四个核心功能。(a)管理员输入用户的基本信息,如姓名、职位、联系方式等,并为其创建账户;(b)管理员可以更新用户的个人信息或账户设置,包括重置密码、更改联系信息等;(c)在用户离职或不再需要访问系统时,管理员可以从系统中彻底移除该用户的记录;(d)管理员能够根据不同条件(如姓名、部门)快速找到特定用户的信息。系统菜单管理模块包括定义和调整系统菜单的层级结构,包括添加、删除或修改菜单项;将特定的功能分配给相应的菜单项,确保用户易于访问需要的功能;根据用户的角色和权限,设定哪些用户可以访问特定的菜单项。用户权限管理模块允许管理员设置和调整用户的权限,确保用户只能访问对其工作必要的信息和功能。客户信息管理模块管理所有与客户相关的信息,包括客户信息的增加、删除、编辑、查询四个核心功能。
6 总结与展望
6.1 全文总结
随着互联网金融的迅猛发展,信贷业务量大幅增加,个人信贷违约风险也随之增长,不仅对金融机构造成经济损失,还可能引发金融市场的不稳定。因此,研究有效的个人信贷违约风险预测模型,对于金融机构来说具有重要的意义。当前对于个人信贷违约风险预测领域的研究中主要面临两大挑战,即个人信贷违约数据的极度不平衡和预测分类算法的选择不当问题。论文提出了一种基于集成学习的个人信贷违约预测方法,通过解决数据不平衡问题和提高预测准确性,包括基于KNN和K-Means的噪声和边界识别方法,基于改进ACGAN的过采样方法以及基于集成学习的违约预测方法。此外,设计并实现了一个信贷违约管理系统,专注于风险评估和信贷审批决策。具体的工作如下:
(1)提出一种基于改进ACGAN的过采样方法(ACGAN-K2):该方法分为两个阶段,包括基于KNN及K-Means的边界和噪声样本识别方法和基于WACGAN-GP的数据过采样方法。第一阶段,使用KNN算法处理边界区域的样本,再结合K-Means算法识别总体样本中的噪声数据,为下游数据过采样阶段提供较为优质的样本。第二阶段,通过引入Wasserstein距离和梯度惩罚,有效减少训练过程中的模式崩溃问题,并高质量地生成少数类样本。最后,对公开的个人信贷数据集进行探索性分析以及数据预处理工作后,在十个公开不平衡数据集上采用五种过采样方法进行实验,结果表明所提方法在多项指标上具有较好的表现,同时在信贷数据集样本上的性能指标也表现出色。
(2)提出一种基于集成学习的个人信贷违约预测方法:在该方法中我们对随机森林模型中基决策树的组合方式及多数投票机制进行改进,首先,以AUC值为基准来筛选出具有较强区分能力的决策树,以构建一个高效的集成模型。接着,通过引入AUC值加权平均投票的方式替代传统的多数投票法,提高了模型的整体预测性能。选用传统随机森林(RF)、Logistics Regression(LR)和LightGBM三个集成模型作为对比实验,并对比是否采用ACGAN-K2方法平衡数据集。实验结果表明,改进的随机森林集成模型在Recall、F1和AUC指标上有较好地表现。最后,采用十折交叉验证的方式进一步验证了该方法的有效性和稳健性。
参考文献(略)