
写在前面今天看到谷爱玲说她没有一分钟是浪费的。反观自己初入职场不顺然后转行去了自己不熟悉也不喜欢的行业一直过着“临时”生活。这种生活快两年了两年间自己并没有得到太大提升闲着的时间都被浪费了。现在自己希望能重回之前的行业在这里记录下学习过程也是监督自己不要半途而废希望能在今年下半年顺利收获理想offer。一、去掉取值变化小的特征原理假设某特征的特征值只有0和1并且在所有输入样本中95%的实例的该特征值取值都是1那可以认为该特征作用不大。二、单变量特征选择原理对每一个特征进行测试衡量该特征和响应变量之间的关系根据得分扔掉不好的特征。对于回归和分类问题以卡方检验等方式对特征进行测试。2.1 person相关系数注意该方法衡量的是变量之间的线性相关性其有效前提是两个变量的变化关系是单调的。2.2互信息和最大信息系数MIC2.2.1 互信息互信息时信息论中的基础概念度量两个随机变量之间共享的信息量即一个变量能在多大程度上降低对另一个变量的不确定性。核心公式如下I(X;Y)∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y) I(X;Y) \sum_{x \in X} \sum_{y \in Y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}I(X;Y)x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y)对于连续变量则为积分形式。2.2.2 最大信息系数旨在解决传统互信息在有限样本下难以公平比较不同关系强度的问题。2.3 距离相关系数距离相关系数可以克服person相关系数的弱点不仅关注线性相关性还关注非线性相关性。如果person相关系数为0只能说明无线性相关性但如果距离相关系数为0则可以说明这两个变量是独立的。2.4 基于学习模型的特征排序这里重点说明随机森林筛选特征的原理。首先明确随机森林的基础知识。随机森林的核心思想是1对特征进行无放回随机抽样得到特征子集对样本进行有放回抽样2bagging思想回归问题对各树取平均分类问题对各树结果进行投票。了解完随机森林的基础知识后接下来介绍用随机森林做特征值筛选的核心思想即计算每个特征在构建好的森林中对预测的“贡献”大小并以此作为其重要性的度量。贡献值越大的特征就被认为越重要。这一思想主要有两种经典方法分别是基于不纯度减少和基于精度降低。2.4.1 基于不纯度减少这是随机森林最常用的特征重要性评估方法。核心原理是在随机森林构建每颗决策树的过程中算法会不断选择特征对节点进行分裂以降低子节点的“不纯度”如分类问题中的基尼不纯度或信息增益。一个特征如果在越多的节点上用于被分裂并且能显著降低不纯度那么该特征对模型的贡献越大。计算步骤·对于森林里每一颗树计算每个特征在每次用于节点分裂时所降低的不纯度数值·将该特征在所有树上的不纯度累加并做平均·比较该平均值数值越大特征越重要不纯度的计算分以下两种情况对于分类任务来说其不纯度用gini系数或信息熵来计算对于回归任务来说其不纯度用MSE均方误差来计算