金融风控之特征选择学习

发布时间：2026/7/3 18:03:46

写在前面今天看到谷爱玲说她没有一分钟是浪费的。反观自己初入职场不顺然后转行去了自己不熟悉也不喜欢的行业一直过着“临时”生活。这种生活快两年了两年间自己并没有得到太大提升闲着的时间都被浪费了。现在自己希望能重回之前的行业在这里记录下学习过程也是监督自己不要半途而废希望能在今年下半年顺利收获理想offer。一、去掉取值变化小的特征原理假设某特征的特征值只有0和1并且在所有输入样本中95%的实例的该特征值取值都是1那可以认为该特征作用不大。二、单变量特征选择原理对每一个特征进行测试衡量该特征和响应变量之间的关系根据得分扔掉不好的特征。对于回归和分类问题以卡方检验等方式对特征进行测试。2.1 person相关系数注意该方法衡量的是变量之间的线性相关性其有效前提是两个变量的变化关系是单调的。2.2互信息和最大信息系数MIC2.2.1 互信息互信息时信息论中的基础概念度量两个随机变量之间共享的信息量即一个变量能在多大程度上降低对另一个变量的不确定性。核心公式如下I(X;Y)∑x∈X∑y∈Yp(x,y)log⁡p(x,y)p(x)p(y) I(X;Y) \sum_{x \in X} \sum_{y \in Y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}I(X;Y)x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)对于连续变量则为积分形式。2.2.2 最大信息系数旨在解决传统互信息在有限样本下难以公平比较不同关系强度的问题。2.3 距离相关系数距离相关系数可以克服person相关系数的弱点不仅关注线性相关性还关注非线性相关性。如果person相关系数为0只能说明无线性相关性但如果距离相关系数为0则可以说明这两个变量是独立的。2.4 基于学习模型的特征排序这里重点说明随机森林筛选特征的原理。首先明确随机森林的基础知识。随机森林的核心思想是1对特征进行无放回随机抽样得到特征子集对样本进行有放回抽样2bagging思想回归问题对各树取平均分类问题对各树结果进行投票。了解完随机森林的基础知识后接下来介绍用随机森林做特征值筛选的核心思想即计算每个特征在构建好的森林中对预测的“贡献”大小并以此作为其重要性的度量。贡献值越大的特征就被认为越重要。这一思想主要有两种经典方法分别是基于不纯度减少和基于精度降低。2.4.1 基于不纯度减少这是随机森林最常用的特征重要性评估方法。核心原理是在随机森林构建每颗决策树的过程中算法会不断选择特征对节点进行分裂以降低子节点的“不纯度”如分类问题中的基尼不纯度或信息增益。一个特征如果在越多的节点上用于被分裂并且能显著降低不纯度那么该特征对模型的贡献越大。计算步骤·对于森林里每一颗树计算每个特征在每次用于节点分裂时所降低的不纯度数值·将该特征在所有树上的不纯度累加并做平均·比较该平均值数值越大特征越重要不纯度的计算分以下两种情况对于分类任务来说其不纯度用gini系数或信息熵来计算对于回归任务来说其不纯度用MSE均方误差来计算

金融风控之特征选择学习

相关新闻

AI-Native潮玩品牌ZuzuZoos获数千万元Pre-A轮融资，差异化打造AI陪伴机器人！

Three.js 随机粒子效果教程

【AI 办公智能助手】 OpenClaw 安装教学 适配双操作系统（包含安装包）

最新新闻

LED矩阵驱动与PIC32MZ微控制器实战指南

2026视频怎么在线去水印？安全免费工具及风险合规全攻略

3步搞定重复图片清理：AntiDupl.NET 专业级图片去重终极解决方案

为什么遇到分式可以“颠倒”过来算？

2026Word文件压缩全解：文档体积缩小、图片轻量化与打包操作完整指南

【嵌入式C语言】04.一维数组+二维数组

日新闻

iOS自动化测试：基于facebook-wda与weditor的稳定元素定位实战

MTKClient实战指南：深度解析联发科芯片调试与设备修复方案

基于Bootstrap 5的开源后台模板，带深色主题、完整功能页与本地构建支持

周新闻

管理者的六个层次

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

月新闻

Dify 本地部署与 AI 应用开发实战：从零构建智能工作流

社区贡献指南：如何向Kiran图标主题项目提交图标与改进

抖音下载器：一键保存无水印视频，轻松构建个人数字内容库

【AI 办公智能助手】 OpenClaw 安装教学适配双操作系统（包含安装包）