使用MaxCompute进行网贷业务风控预测分析

  • 时间:
  • 浏览:2
  • 来源:5分排列3APP下载_5分排列3APP官方

一、违约评估架构

1.​数据源:数据包括某借贷网站提供的借款人资料以及否有按时还款等情況构成的记录,一共3万条记录;

2.数据同步至阿里云:使用DataX工具将数据导入到在ODPS建立的表中;

3.流程计算:阿里云构建算法分析流程

4.分析结果:对计算出的违约风险储存于表中;

5.数据可视化展示:从数据库中读取数据进行可视化展示。

摘要:网络借贷指在网上实现借贷,借入者和借出者均可利用這個 网络平台,实现借贷的“在线交易”。网络借贷分为b2c和c2c模式。一切认证、记账、清算和交割等流程均通过网络完成,借贷双方足沒有户即可实现借贷目的,之后一般额度全是高,无抵押,纯属信用借贷。网络借贷的风险并非 ,构建另一一几个多 准确率高的风控系统显得格外重要,现在让让让我们 歌词 利用某网络贷款网站提供的几年来贷款风险数据(经过脱敏处置),使用机器学习的方式 构造另一一几个多 能准确从借款人的资料中判断其违约的不可能 性(借钱不还)。

数据信息:

包括信用违约标签(因变量,违约不可能 不违约)

建模所需的基础与加工字段(自变量)

相关用户的网络行为原始数据

本着保护借款人隐私的目的,数据字段不可能 经过脱敏处置。



Master表(每一行代表另一一几个多 成功成交借款样本,每另一一几个多 样本所含200多个各类字段)



Log_Info(借款人的登录信息)



Userupdate_Info(借款⼈修改信息)

三、违约评估预测结果展示

让让让我们 歌词 分别在尝试在logistics regression、随机森林、xgboost上进行模型训练并进行预测

1.在logistics regression上,利用5折交叉验证,将参数正则化惩罚项‘C’设置为0.4,正则化选则L1正则,在验证集上9000个样本上进行预测,AUC的值达到了0.72993。



2.在随机森林上,利用5折交叉验证,将决策树的个数设置为200,决策树最大数率设置为13,决策树另一一几个多 节点所都才能用来分裂的最小样本数设置为1200,在验证集上9000个样本上进行预测,AUC的值达到了0.720267。



3.在xgboost上,利用5折交叉验证,将增强树的数量设置为113颗,决策树最大树深设置为3,最小业主节点样本权重和设置为5,在验证集上9000个样本上进行预测,AUC的值达到了0.7518200。

二、分析方式



1.本文中的3万记录来之于国内某网络借贷平台的经过脱敏处置的真实借贷风险数据。

2.获得的数据导入阿里云数加平台,数据表包所含每一笔借款的借款时间、借款人籍贯、借款科专学 历、借款人社交信息、借款人否有按期还款等等某些字段。

3.在数加的算法平台上建立回归预测的算法流程如上图。

4.采用数加组件的缺失值统计,对每一借款人资料的缺失比例进行统计,对比其在训练集和测试集上缺失比例的分布情況,剔除哪此资料缺失异常的记录;统计每个数值型字段的标准差,剔除掉标准差几乎为零的字段,哪此字段对结果的区分度几乎为零;

1)剔除异常值(横坐标为每另一一几个多 贷款人,纵坐标为每另一一几个多 贷款人信息的缺失字段的个数;左边为训练集中,右边为测试集中)



2)剔除标准差为几乎零的特征(以小于0.1作为剔除的阈值)



5.从信息中构造特征

1)分开统计出贷款违约的借款人和正常还款的借款人在每天的成交数量,从中都才能看出两者的分布不一样,故看出时间对借款人否有正常还款指在区别性,什么都从成交时间中提取出月份日期信息;

2)每天的成交数量否有有履约的分布情況(count_1:贷款违约,count_0正常还款)



3)将借款人的籍贯信息利用城市等级进行分类合并;不可能 将借款人所在城市信息作为每另一一几个多 人借款人的特征中放xgboost中进行训练学习,得到每另一一几个多 城市的重要度排名,提取出重要度最高的前40个单独作为一类城市,某些的城市进行合并为同一类;

4)从提供的登录信息中提取每个借款人的登录信息计算出其平均登录间隔,借款后几个天才会登录等等某些组合特征;

5)将类别型特征使用独热向量编码;

6)最后将数值型的字段进行标准化,既能加快模型的训练数率,才能将数据中放另一一几个多 标准分布内,使每个特征之间的数值大小差距尽不可能 小。

6.将处置完毕的数据分别中放logistics regression、随机森林,xgboost中进行分科专学 习,并用网格搜索各分类器达到最佳情況。

7.可视化展示,将流程计算的结果,进行可视化展示。