Credit Risk Modeling

Credit Risk Modeling

《Python金融大数据风控建模实战》思维导图

第一篇：智能风控背景 (Intelligent Risk Control Background)

第1章：金融科技介绍

金融科技发展历程

1.0 (模拟到数字) -> 2.0 (数字化) -> 3.0 (智能化/Fintech) -> 3.5 (新兴市场)

核心技术

大数据分析、人工智能、云计算、区块链

智能风控与评分卡

评分卡类型：申请评分卡 (A卡)、行为评分卡 (B卡)、催收评分卡 (C卡)
开发流程：需求分析 -> 数据收集 -> 清洗预处理 -> 特征工程 -> 模型训练 -> 评估 -> 上线监控

第2章：机器学习介绍

基本概念

定义：从数据中学习模式，用于预测

分类

有监督学习 (分类/回归)
无监督学习 (聚类/降维)
强化学习 (奖励/惩罚)

深度学习关系

DNN/CNN/RNN/LSTM在处理时序和非结构化数据中的应用

第3章：评分卡模型介绍

申请评分卡 (A卡)

核心逻辑：拒绝违约客户
好坏样本定义：滚动率分析 (Rolling Rate Analysis)
观察期与表现期 (Observation & Performance Window)

行为评分卡 (B卡)

核心逻辑：贷后管理，动态评估风险
特征工程：时间切片特征 (Time-slice features)

催收评分卡 (C卡)

分类：轻度违约、重度违约、核销

反欺诈模型

区别：欺诈风险 vs 信用风险 (还款意愿 vs 还款能力)

第二篇：评分卡理论与实战基础 (Foundation of Scorecard Theory)

(核心部分：构建基于逻辑回归的标准评分卡)

第4章：数据清洗与预处理

数据集成：多数据源合并、数据一致性
数据清洗：特殊字符清洗、格式转换
缺失值处理：不仅是填充，缺失值本身可作为特征 (不推荐直接插补，建议作为特殊编码)
异常值处理：箱线图分析、盖帽法,

第5章：变量编码方法

无监督编码

One-hot编码 (独热)
Dummy variable (哑变量)
Label编码

有监督编码

WOE编码 (Weight of Evidence)

计算公式：$ln(\frac{Bad_i/Bad_{total}}{Good_i/Good_{total}})$
优势：线性化非线性关系、处理缺失值、增强解释性

第6章：变量分箱方法

分箱目的：增加稳定性、处理缺失值、增加非线性
分箱方法

Chi-merge (卡方分箱 - 自底向上)
Best-KS分箱 (自顶向下)
最优IV分箱
基于树的分箱 (信息增益)

第7章：变量选择

过滤法 (Filter)

IV值 (Information Value)：衡量变量预测能力，通常IV>0.02才有效
相关性分析：去除共线性高的变量

包装法 (Wrapper)：逐步回归 (Stepwise)
嵌入法 (Embedded)：L1正则化 (Lasso)、随机森林特征重要性

第8章：Logistic回归模型

原理：Sigmoid函数将线性回归结果映射到概率
损失函数：对数似然函数 -> 梯度下降求解
过拟合与欠拟合：正则化 (L1/L2) 防止过拟合

第9章：模型的评估指标

混淆矩阵衍生：准确率、精确率 (Precision)、召回率 (Recall)
ROC与AUC：衡量模型排序能力，AUC越接近1越好
KS值 (K-S Statistics)：衡量好坏样本区分度最大差值，风控常用
PSI (Population Stability Index)：衡量模型稳定性,

第10章：评分卡分数转化

PDO (Points to Double the Odds)：违约概率翻倍时分数的变动值
公式：$Score = A - B \times log(Odds)$
变量分值计算：将WOE值转化为具体分数

第11章：模型在线监控

稳定性监控：主要看 PSI 指标
单调性监控：Kendall's Tau 指标
性能监控：KS值、通过率、坏账率的变化

第三篇：评分卡理论与实战进阶 (Advanced Topics)

(解决复杂问题与提升模型性能)

第12章：样本不均衡处理

欠采样 (Undersampling)：随机欠采样、NearMiss算法
过采样 (Oversampling)：SMOTE算法
集成方法：EasyEnsemble, BalanceCascade,

第13章：特征工程进阶

特征交叉、FM特征交叉

第14-16章：其他机器学习模型

决策树 (原理与剪枝)
神经网络 (Neural Networks)
支持向量机 (SVM)

第17章：集成学习 (Ensemble Learning)

Bagging：随机森林 (Random Forest)
Boosting：Adaboost, GBDT, XGBoost

第18章：模型融合

Blending
Stacking

第四篇：实战案例 (Practical Case)

第19章：Lending Club数据集实战

完整复现整个流程：

数据获取与探索

数据清洗与预处理

特征工程 (分箱、WOE)

模型构建 (Logistic Regression)

模型评估 (KS, AUC)

生成评分卡 (Scorecard Scaling)

申请评分卡

行为评分卡

银行级PD模型开发

Made with Bullet