《Python金融大数据风控建模实战》思维导图
第一篇:智能风控背景 (Intelligent Risk Control Background)
- 第1章:金融科技介绍
- 金融科技发展历程
- 1.0 (模拟到数字) -> 2.0 (数字化) -> 3.0 (智能化/Fintech) -> 3.5 (新兴市场)
- 核心技术
- 大数据分析、人工智能、云计算、区块链
- 智能风控与评分卡
- 评分卡类型:申请评分卡 (A卡)、行为评分卡 (B卡)、催收评分卡 (C卡)
- 开发流程:需求分析 -> 数据收集 -> 清洗预处理 -> 特征工程 -> 模型训练 -> 评估 -> 上线监控
- 第2章:机器学习介绍
- 基本概念
- 定义:从数据中学习模式,用于预测
- 分类
- 有监督学习 (分类/回归)
- 无监督学习 (聚类/降维)
- 强化学习 (奖励/惩罚)
- 深度学习关系
- DNN/CNN/RNN/LSTM在处理时序和非结构化数据中的应用
- 第3章:评分卡模型介绍
- 申请评分卡 (A卡)
- 核心逻辑:拒绝违约客户
- 好坏样本定义:滚动率分析 (Rolling Rate Analysis)
- 观察期与表现期 (Observation & Performance Window)
- 行为评分卡 (B卡)
- 核心逻辑:贷后管理,动态评估风险
- 特征工程:时间切片特征 (Time-slice features)
- 催收评分卡 (C卡)
- 分类:轻度违约、重度违约、核销
- 反欺诈模型
- 区别:欺诈风险 vs 信用风险 (还款意愿 vs 还款能力)
- 第4章:数据清洗与预处理
- 数据集成:多数据源合并、数据一致性
- 数据清洗:特殊字符清洗、格式转换
- 缺失值处理:不仅是填充,缺失值本身可作为特征 (不推荐直接插补,建议作为特殊编码)
- 异常值处理:箱线图分析、盖帽法,
- 第5章:变量编码方法
- 无监督编码
- One-hot编码 (独热)
- Dummy variable (哑变量)
- Label编码
- 有监督编码
- WOE编码 (Weight of Evidence)
- 计算公式:$ln(\frac{Bad_i/Bad_{total}}{Good_i/Good_{total}})$
- 优势:线性化非线性关系、处理缺失值、增强解释性
- 第6章:变量分箱方法
- 分箱目的:增加稳定性、处理缺失值、增加非线性
- 分箱方法
- Chi-merge (卡方分箱 - 自底向上)
- Best-KS分箱 (自顶向下)
- 最优IV分箱
- 基于树的分箱 (信息增益)
- 第7章:变量选择
- 过滤法 (Filter)
- IV值 (Information Value):衡量变量预测能力,通常IV>0.02才有效
- 相关性分析:去除共线性高的变量
- 包装法 (Wrapper):逐步回归 (Stepwise)
- 嵌入法 (Embedded):L1正则化 (Lasso)、随机森林特征重要性
- 第8章:Logistic回归模型
- 原理:Sigmoid函数将线性回归结果映射到概率
- 损失函数:对数似然函数 -> 梯度下降求解
- 过拟合与欠拟合:正则化 (L1/L2) 防止过拟合
- 第9章:模型的评估指标
- 混淆矩阵衍生:准确率、精确率 (Precision)、召回率 (Recall)
- ROC与AUC:衡量模型排序能力,AUC越接近1越好
- KS值 (K-S Statistics):衡量好坏样本区分度最大差值,风控常用
- PSI (Population Stability Index):衡量模型稳定性,
- 第10章:评分卡分数转化
- PDO (Points to Double the Odds):违约概率翻倍时分数的变动值
- 公式:$Score = A - B \times log(Odds)$
- 变量分值计算:将WOE值转化为具体分数
- 第11章:模型在线监控
- 稳定性监控:主要看 PSI 指标
- 单调性监控:Kendall's Tau 指标
- 性能监控:KS值、通过率、坏账率的变化
- 第12章:样本不均衡处理
- 欠采样 (Undersampling):随机欠采样、NearMiss算法
- 过采样 (Oversampling):SMOTE算法
- 集成方法:EasyEnsemble, BalanceCascade,
- 第13章:特征工程进阶
- 特征交叉、FM特征交叉
- 第14-16章:其他机器学习模型
- 决策树 (原理与剪枝)
- 神经网络 (Neural Networks)
- 支持向量机 (SVM)
- 第17章:集成学习 (Ensemble Learning)
- Bagging:随机森林 (Random Forest)
- Boosting:Adaboost, GBDT, XGBoost
- 第18章:模型融合
- Blending
- Stacking
- 第19章:Lending Club数据集实战
- 完整复现整个流程:
- 数据获取与探索
- 数据清洗与预处理
- 特征工程 (分箱、WOE)
- 模型构建 (Logistic Regression)
- 模型评估 (KS, AUC)
- 生成评分卡 (Scorecard Scaling)
第二篇:评分卡理论与实战基础 (Foundation of Scorecard Theory)
(核心部分:构建基于逻辑回归的标准评分卡)
第三篇:评分卡理论与实战进阶 (Advanced Topics)
(解决复杂问题与提升模型性能)
