基于机器学习的信贷风控探求

发布时间:2021-06-10 22:18:47 论文编辑:vicky
本文针对信贷风控中存在的两个问题进行了解决,但是仍然具有一定的局限性,今后需要更多的努力来完善研究工作,可以考虑从以下几个方面入手:(1)基于 DPMM 和 IForest 的冷启动方法所适用的数据特征是连续的,在真实场景中存在离散特征,因此需要对 DPMM 进行改进,引入适用于离散特征的概率分布;(2)基于Bagging的XGBoost-LR模型融合方法中的Bagging机制对模型预测效果提升有限,可以考虑采用更多其他的模型进行融合,或者采用 Stacking 或者 Blending 等集成算法;

第一章 绪论

1.1课题背景
1.1.1 课题研究背景
随着“互联网+”的概念在国内迅速普及,以及中国经济的快速发展,互联网金融已经成为金融业中的重要组成部分。互联网金融作为一种新型金融业务模式,它本质上是相关机构利用互联网技术和信息通信技术实现资金融通、支付、投资和信息中介服务等业务[1]。互联网金融逐渐发展出四个方向,分别是网上支付、网上理财、网上融资和移动金融。
互联网金融具有以下特点:
(1)覆盖范围广:互联网带来的方便之处是让人们能够随时随地实现互相沟通和交流。互联网金融的出现依据互联网的优势弥补了传统金融在覆盖范围上不足的缺点,为资金融通提供了更多的渠道,让人们感受到方便快捷多样的金融服务。
(2)业务效率高:互联网金融在不断打通各种数据孤岛,实现了转账、支付、在线交易在同一天完成,既大幅度缩短了等待时间,也改善了用户体验。电商平台也让网购变得非常方便,提供了从下单到收货的一站式服务,进而促进了用户的消费行为。
(3)交易成本低:互联网金融模式不仅让用户降低了中介费用和交易成本,而且让金融机构节省了人工成本,进而有效解决了传统金融中信息不对称的问题,促进交易高效完成,也更加透明。
互联网金融的特点也让基于互联网平台的融资方式迅速发展,催生出了多种融资模式,包括网络小额贷款公司、P2P 融资、众筹融资和银行网络信贷。其中,最广为人知的即为 P2P(PeertoPeer)点对点信贷,P2P 为个人或企业提供平台来匹配借贷,并给与交易双方较大的自由度。P2P 网络借贷让资金融通更加便利,也尽可能提高投资者收益,最终实现双赢。互联网融资平台拥有较高的自由度和更多的信息,但是带来的风险也会更大。网上融资在成本、效率和风险分散上有一定的优势,如果能够健康发展,未来网上信贷业务极有可能代替传统信贷。然而,近几年网上融资中的 P2P 平台接连出现暴雷,政府出手管制,肃清了一大批不合规机构,整个行业经历了大洗牌,这也变向清除了违规平台,促使平台更加自律,整个行业趋于良性发展。
......................

1.2国内外研究现状
信贷风控本质上是对借款人信用的一种评估方式,通过科学严谨的方法,综合分析客户的各种信息,进而对客户是否能够按时还款做出有效评估。国外对于信用评估的研究起步较早,已经建立了较为完善的评估体系,相比较而言,国内则起步较晚,但是国内互联网的普及程度远比国外高,国内拥有着海量的用户数据,对用户的数据描述非常丰富,因此合理运用大数据、机器学习等技术,国内发展出一套符合自己国情的信用评估体系是非常有意义的。
国外研究起步非常早,1936 年,Fisher 以分组问题为基础提出了信用判别分析方法,对后续基于统计方法的信用评估方法具有非常重要的启发意义;1943 年,David[2]等人将信用评估的目标事物分为“坏客户”和“好客户”,根据判别方法,将信用评估的定性研究转变为定量研究;随后 BillFair 等人通过判别分析,构建了著名的 FICO 评分体系,将客户信息划分为五个维度,并对这些维度设置不同的权重,根据这些维度计算出客户的信用评分。1970 年以来,伴随着统计学习方法的发展,各类统计学习方法先后被应用在了信用评估领域,Orgler[3]等人将线性引入信用评估,Barcun[4]等人使用 KNN 构建信用评估模型,Wiginton[5]等人则针对线性回归中的缺点,首次将逻辑回归引入到信用评估领域,逻辑回归具有稳定、高效、可解释性强的优点,得到了大量应用,并且随着计算机技术的发展,相关的研究也越来越多。1990年,Odom[6]等人首次将神经网络这种非统计学习方法应用在了信用评估领域中,神经网络是对神经元在大脑中的工作原理进行模拟,对非线性数据具有较好的拟合能力,分类准确度较高,但是需要非常大的数据量,限于当时信息化程度不够高,不能够获取足够多的数据,因此直到 2010 年以后,随着互联网的普及以及计算能力的增强,积累了海量数据,基于神经网络的深度学习才被广泛应用。而且随着开发工具的高度开源,各种混合模型也相继被提出。Gonzalez[7]等人采用自主采样法讲逻辑回归、神经网络等多种算法进行组合,取得不了不错的预测效果;Wenyu[8]等人为了解决高维数据中特征划分的问题,提出了一种可变领域搜索方法(VNS),该方法基于马尔可夫毯和贪心策略对特征进行分组;Milad[9]等人提出了一种基于随机森林的信贷风控模型,利用 Lending Club 平台的数据进行验证,研究结果表明基于随机森林的方法在预测借款人违约方面优于 FICO 信用评分;Duong[10]等人将逻辑回归模型和 PCA主成分分析结合,首先使用 PCA 将原始数据进行转换为新的数据,然后在新数据的基础上使用逻辑回归进行建模;Tsang[11]等人将深度学习与遗传算法结合,并将混合模型在德国信用数据集上进行验证,得到了最优精度。
..............................

第二章 基础知识和相关理论

2.1信贷风控体系介绍
(1)数据采集
数据采集是风控流程的基础,主要包括两个方面,分别是内部数据和外部数据。内部数据主要包括了客户个人信息、交易信息、交易日志等;外部数据来自人民银行、公安部、第三方数据机构等,包括刑事犯罪信息、欺诈黑名单等。随着信息化程度越来越高,各个数据孤岛被打通,数据来源广泛,这也让数据的种类和规模急剧增加,各个机构除了采用成熟的数据库外,还应用了大数据分析技术。
(2)反欺诈
反欺诈的主要目的是将带有欺诈意图的客户拒绝掉,包括两部分,分别是反欺诈规则和反欺诈引擎。反欺诈模型很少使用传统监督模型,是因为欺诈标签不容易得到,而且欺诈用户往往将自己伪装成信用良好的用户,进行借款后失联或者拒不还款,进而欺诈特征不明显。因此,反欺诈模型常使用无监督算法、社交网络算法等,还有反欺诈规则也被主要使用。近几年随着深度学习的流行,带来了意想不到的效果,其基本思想是,简单评分卡可解释性强,其缺点就是容易被逆向破解,深度学习的黑箱操作虽然可解释性差,但安全性有所提升,反向破解成本极高。
(3)策略
策略是指通过对客户的特征行为进行分析,把客户分开,分成不同的组,进而采取不同的措施。例如信用度高的客户,能够以较低的利息来获得较大额度的贷款,相反,信用度低的客户,则需要以较高的利息来获得较低额度的贷款。同时策略也需要对模型的关键指标进行监控,例如 PSI、AUC、KS 等。
.....................

2.2信贷风控冷启动方法
风控模型是风控流程中的关键部分。本文关注的风控模型为贷前风控模型,即行为评分卡模型,A 卡,该模型用于对借款客户是否会违约的概率进行预测。根据《新巴塞尔协议》,风控模型建立需要一定量的历史数据作为训练样本,其中坏账样本至少要有 800-1000 个。在新的产品投放初期缺少甚至没有历史标记样本,因此数据驱动下的有监督模型没有足够的训练样本,需要特定的信贷风控冷启动方法实现模型搭建。
传统方法实现信贷风控冷启动需要建模人员对业务有深入理解且经验丰富。传统方法的主要思想是建模人员根据其他相似业务场景中的经验积累,制定相应的业务规则来满足风控系统的基本需求,然后经过业务量的积累,满足了建模的最低样本需求,第一个版本的模型才能被正式开发。传统方法面临着两个问题,一个是建模人员的认为主观因素影响太大,二是获得坏账样本的代价太高。因此需要新的方法实现冷启动。
信贷风控冷启动方法分为两种,主要的根据是有无样本数据。第一种,在新的信贷产品投放之前,没有任何样本,即无样本可依的信贷风控冷启动方法;第二种,是有一定量的样本积累,但大都是少量标记样本或者大量无标记样本,即无标记样本下的信贷风控冷启动方法。
图 2.3 中国餐馆示意图
图 2.3 中国餐馆示意图
..................

第三章 基于 DPMM 和 IForest 的信贷风控冷启动方法............................... 16
3.1问题分析..................... 16
3.2方法设计........................ 16
第四章 基于 Bagging 的 XGBoost-LR 信贷风控模型融合方法..................... 27
4.1问题分析............................. 27
4.2方法设计...................... 28
第五章 信贷风控系统.............................. 39
5.1系统框架........................ 39
5.2数据分析模块............................. 40

第五章 信贷风控系统

5.1系统框架
该系统分为四个模块,分别是数据分析模块、数据清洗模块、特征工程模块和评分模块,具体流程图如下图 5.1 所示。在数据分析模块中首先对模型的目标变量进行选择,定义坏账,然后对原始数据中的特征进行概括性地统计分析,从而对数据类型有一个大致地认识;在数据清洗模块中,删除存在较多缺失值的特征,并对缺失值进行填充,同时剔除不相关的特征;在特征工程模块中,对类别型特征进行独热编码转换,对数值型特征进行标准化处理,并使用多种特征重要性度量方法来对特征进行选择。
图 5.1 流程框架图
图 5.1 流程框架图
.........................

第六章 总结与展望

6.1总结
随着互联网的快速普及,人们的日常生活方式也发生了巨大变化,传统的上街购物、饭店点餐、路边打车、学校上课等,都转变为网上购物、网上点餐、网上打车、网上学习等等,互联网让人们的生活变得非常便利,提升了人们的消费需求,使人们的消费观念逐渐升级。消费端的旺盛也让互联网金融中的信贷业务火爆,各种各样的信贷产品开始推出,这也给信贷风控带来了更多的挑战。
本文采用机器学习算法对信贷风控中的两个问题进行解决,一个是新的信贷产品投放初期,存在大量无标记样本和少量标记样本,不能建立数据驱动的监督模型的问题;另一个是信贷产品上线一段时间后,积累了一定量的样本,LR 模型对非线性特征不能充分学习的问题。基于此本文提出了以下两种解决方法:
(1)针对第一个问题,设计出了基于 DPMM 和 IsoalationForest 的信贷风控冷启动方法。该方法分为四个步骤,第一步是基于 DPMM 计算无标记样本的违约相似度,该步骤中首先对有标记数据中的正常样本和违约样本分别进行聚类,为了避免人工指定聚类个数带来的影响,故采用能够自动确定聚类数目的 DPMM 聚类算法,然后根据聚类中心计算出无标记样本的违约相似度;第二步考虑到该场景中存在大量无标记样本,其无标记样本中违约用户占比较少且违约用户种类较多,故采用无监督异常检测算法 IForest,使用该算法计算出无标记样本的违约异常度;第三步对违约相似度和违约异常度进行综合,筛选出可靠正常样本和可靠违约样本,并设置权重;第四步使用监督模型对筛选出的样本进行训练。对设计的方法进行仿真实验,验证了设计方法的有效性。
(2)针对第二个问题,设计出了基于 Bagging 的 XGBoost-LR 信贷风控模型融合方法。考虑到 LR 模型对非线性特征不能较好拟合,故采用 XGBoost 进行特征转换,利用其在叶子结点的输出作为 LR 的输入,为了进一步提高模型的预测效果,引入 Bagging 机制,对 XGBoost的行采样参数和列采样参数进行随机扰动,获得多个 XGBoost-LR 模型,对模型的输出结果进行融合处理。对设计的方法进行仿真实验,验证了设计方法的有效性,但是 Bagging 机制对模型的提升效果较小。
参考文献(略)