基于Stacking的P2P贷款违约预测模型构建及应用

基于Stacking的P2P贷款违约预测模型构建及应用

论文摘要

近年来互联网金融与大数据技术的发展使得传统金融机构的中介作用下降,互联网金融理财观念日渐深入人心,大众逐渐把P2P网络借贷作为金融消费理财的重要途径。国内P2P网贷行业因此迅速发展,但是在快速发展的背后伴随的问题与风险也在逐步提高,2018年我国P2P网贷平台出现集中爆雷潮,发生了大面积的客户违约现象,高坏账率导致大量平台出现资金提现困难、倒闭等现象,因此如何准确识别潜在违约客户,降低信用违约风险变成迫在眉睫的问题,只有将借款客户的信用违约问题处理好,才能够更好的促进我国P2P网络贷款行业平稳健康发展。本文旨在通过建立贷款违约预测模型,对P2P网贷平台潜在违约客户进行准确识别,以期能够降低平台经营风险,优化我国互联网金融环境,降低互联网金融风险。针对目前我国P2P平台风险量化研究较少,运用机器学习算法较单一且缺乏运用多模型融合策略的实际情况,本文利用Python爬取人人贷借贷数据,借助Python、R等分析软件,首先进行了数据预处理和Cox生存分析等探索性统计分析,在对非平衡数据使用Border-line Smot算法处理后,通过IV信息价值与Gini指数相结合的特征筛选方法,构建Logistic、支持向量机、Adaboost、Xgboost、随机森林、朴素贝叶斯6组经典分类模型,通过网格搜索法对各模型进行参数调优后,使用F2值作为模型性能评价指标,择优选出Logistic、支持向量机、Adaboost、Xgboost模型,最后通过Stacking算法融合4组模型建立最终的贷款违约预测模型,并得出以下结论:1)通过贷款生存时间分析发现,小额贷款相较大额贷款更容易违约,P2P网络借贷平台应加强小额贷款申请的监督审核工作;其次借款人在贷款期限临近时期更容易出现违约的情况,平台在还款日临近之前,需要特别注意借款人近期的还款表现,加强借款催收与监督工作。2)基于不同平衡比例的数据训练会影响模型性能,且训练数据越接近1:1平衡状态,模型性能越差,训练数据平衡比为1:3时是更利于模型性能的处理。3)不基于Stacking融合算法时,Xgboost模型在各单组模型中表现最好,优于其余经典分类模型建立个人贷款违约预测模型。4)基于Logistic、支持向量机、Adaboost、Xgboost四组模型建立的Stacking融合模型在所有模型中表现最好,证明了本文建立的Stacking融合模型是表现更优的个人贷款违约预测模型,以及Stacking模型融合算法在个人贷款违约预测领域的优越性,对于将模型融合算法应用到我国个人贷款违约预测领域有一定的参考价值。5)从模型应用角度出发,通过控制变量法研究了单个借款客户在不同利率水平下,模型的预测违约概率的变化情况,通过调整借款利率来改变其相应的违约概率,使之降至平台可接受的违约概率范围,对于协助平台实现不良客户转化具有一定的积极意义。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  •   1.1 研究背景与意义
  •     1.1.1 研究背景
  •     1.1.2 研究意义
  •   1.2 国内外P2P网贷违约风险相关研究综述
  •     1.2.1 国外相关研究综述
  •     1.2.2 国内相关研究综述
  •   1.3 Stacking模型融合算法研究综述
  •   1.4 论文主要内容与技术路线
  •   1.5 论文创新点
  •   1.6 论文结构
  • 第2章 P2P网贷相关理论及发展现状
  •   2.1 P2P网贷相关概念
  •     2.1.1 P2P网贷概述
  •     2.1.2 P2P网贷角色关系
  •     2.1.3 P2P网贷业务流程
  •   2.2 P2P网络借贷风险
  •   2.3 P2P网络借贷发展现状
  •     2.3.1 P2P平台规模特征
  •     2.3.2 P2P平台信用风险问题日益严重
  •   2.4 本章小节
  • 第3章 机器学习分类算法理论
  •   3.1 机器学习概述
  •   3.2 机器学习分类算法
  •     3.2.1 单分类算法
  •     3.2.2 集成学习算法
  •   3.3 Stacking模型融合算法
  •   3.4 本章小节
  • 第4章 模型数据获取与预处理
  •   4.1 数据获取
  •   4.2 数据预处理
  •     4.2.1 数据清洗
  •     4.2.2 数据缺失值处理
  •     4.2.3 数据离群点处理
  •     4.2.4 数据特征抽象
  •     4.2.5 数据特征缩放
  •   4.3 非平衡数据处理
  •   4.4 本章小节
  • 第5章 贷款数据探索与统计分析
  •   5.1 贷款生存时间分析
  •   5.2 贷款违约影响因素分析
  •     5.2.1 贷款违约与借款特征关系分析
  •     5.2.2 贷款违约与借款人特征关系分析
  •     5.2.3 贷款违约与地理位置特征关系分析
  •   5.3 本章小节
  • 第6章 基于Stacking算法的模型构建与应用
  •   6.1 特征工程
  •     6.1.1 特征衍生
  •     6.1.2 特征筛选
  •   6.2 模型构建
  •     6.2.1 模型评价指标
  •     6.2.2 模型的有效性评估方式
  •     6.2.3 模型优化与比较
  •     6.2.4 稳定性检验
  •     6.2.5 构建Stacking融合模型与结果分析
  •   6.3 模型应用分析
  •     6.3.1 客户区分能力检验
  •     6.3.2 样本外数据检验
  •     6.3.3 不良客户转化
  •     6.3.4 模型应用建议
  •   6.4 本章小节
  • 结论
  • 致谢
  • 参考文献
  • 攻读学位期间取得学术成果
  • 文章来源

    类型: 硕士论文

    作者: 王竟羽

    导师: 范安东,王华

    关键词: 网贷,机器学习,生存分析,违约预测,融合

    来源: 成都理工大学

    年度: 2019

    分类: 基础科学,经济与管理科学

    专业: 数学,宏观经济管理与可持续发展,贸易经济,金融,投资

    单位: 成都理工大学

    分类号: F832.4;F724.6;F224

    DOI: 10.26986/d.cnki.gcdlc.2019.000333

    总页数: 78

    文件大小: 6082K

    下载量: 190

    相关论文文献

    • [1].改进灰色预测模型在热电厂热负荷预测中的应用[J]. 电力学报 2019(06)
    • [2].西安地区卒中患者1年卒中复发预测模型的构建[J]. 中国卒中杂志 2020(01)
    • [3].常用统计预测模型及其在结核病疫情预测中的应用[J]. 热带病与寄生虫学 2020(01)
    • [4].预测模型法在油田二次开发中的应用[J]. 云南化工 2020(04)
    • [5].基于灰色预测模型的舰船动力系统故障检测算法[J]. 舰船科学技术 2020(08)
    • [6].社区老年人居家不出危险因素分析及风险预测模型构建[J]. 护理学报 2020(08)
    • [7].高炉煤气流分布过程的多算法融合预测模型[J]. 控制理论与应用 2020(06)
    • [8].压力性损伤风险预测模型的研究进展[J]. 中华护理杂志 2020(04)
    • [9].无诱因复发性静脉血栓预测模型的研究进展[J]. 同济大学学报(医学版) 2020(03)
    • [10].一种可预测弥漫大B细胞淋巴瘤患者生存的新型6基因预测模型[J]. 中国癌症防治杂志 2020(03)
    • [11].基于序列特征的点击率预测模型[J]. 华东师范大学学报(自然科学版) 2020(04)
    • [12].基于灰色理论的生态经济警度预测模型及其应用[J]. 统计与决策 2020(13)
    • [13].临床预测模型:新预测因子的预测增量值[J]. 中国循证心血管医学杂志 2020(06)
    • [14].基于在校数据挖掘的大学生心理抑郁预测模型以及分析[J]. 中国新通信 2020(17)
    • [15].灰色预测模型在公共卫生事件胜利日预测中的应用——以新型冠状病毒疫情为例[J]. 卫生软科学 2020(11)
    • [16].临床预测模型:模型的建立[J]. 中国循证心血管医学杂志 2019(01)
    • [17].零转弯半径割草机连续翻滚特性参数化预测模型[J]. 农机化研究 2018(01)
    • [18].基于情景数据的火灾预测模型设计与实现[J]. 科技创新与应用 2018(26)
    • [19].灰色预测模型在预测话音网关故障中的研究与应用[J]. 计算机测量与控制 2016(11)
    • [20].应用预测模型对云南省2020年生产总值的预测[J]. 科技创新导报 2016(32)
    • [21].灰色预测模型在山东省保费预测中的应用[J]. 保险职业学院学报 2017(01)
    • [22].基于灰色预测模型的山西省批发零售业人员需求分析[J]. 数学的实践与认识 2017(04)
    • [23].烧结过程SO_2排放预测模型研究[J]. 资源节约与环保 2017(08)
    • [24].多项式预测模型在沉降变形监测当中的应用[J]. 矿山测量 2015(02)
    • [25].疾病发病风险预测模型的应用与建立[J]. 中国卫生统计 2015(04)
    • [26].基于大数据背景下出版产业人才需求综合预测分析[J]. 明日风尚 2017(19)
    • [27].一类优化的预测模型[J]. 山西青年 2013(24)
    • [28].一种基于大数据的脱贫预测模型构建研究[J]. 无线互联科技 2019(21)
    • [29].资产评估中城商行存款预测模型的选择与效果分析[J]. 皖西学院学报 2019(06)
    • [30].基于凸递增序列的灰色预测模型及其应用[J]. 兰州理工大学学报 2019(06)

    标签:;  ;  ;  ;  ;  

    基于Stacking的P2P贷款违约预测模型构建及应用
    下载Doc文档

    猜你喜欢