特征选择方法

时间：2023-02-04 13:50:04 来源：网友投稿

特征选择方法1　　一直以来，笔者在实际工作中，对于特征变量的选取，往往是基于业务经验，根据一定的指标口径加工出一个个指标后，即投入到建模过程。而这些指标的好坏、计算口径是否恰当，较少有进行科学地分析下面是小编为大家整理的特征选择方法,供大家参考。

特征选择方法

特征选择方法1

　　一直以来，笔者在实际工作中，对于特征变量的选取，往往是基于业务经验，根据一定的指标口径加工出一个个指标后，即投入到建模过程。而这些指标的好坏、计算口径是否恰当，较少有进行科学地分析与深入思考。与此同时，不少数据挖掘的教科书也对特征选择方法谈及甚少，笔者认为这不是个好现象，间接导致很多人看完了各种分类、聚类算法后，以为自己已经通晓数据挖掘了，但一遇到实际问题，又不知从何处下手了。今日打算学习一下该领域相关的理论及方法，记录下学习笔记，并分享之。

　　特征选择之所以要引起重视的原因，那就是随着科技发展，很多领域能采集到的特征变量数以万计，而能作为训练集的样本量却往往远小于特征数量(如基因测序、文本分类)。特征选择的好处包括：便于理解和可视化数据，降低计算及存储压力，对抗维度灾难以提高模型预测准确率等等。特征选择的三类主流方法为：过滤式、包裹式、嵌入式。

　　一、过滤式

　　变量排序就是一种典型的过滤式方法，该方法独立于后续要使用的模型。这种方法的关键就是找到一种能度量特征重要性的方法，比如pearson相关系数，信息论理论中的互信息等。《机器学习》(Peter Flach)中还提到了卡方统计量，但未作详细介绍。变量排序方法的主要问题在于忽略了特征之间可能存在的相互依赖关系。一方面，即便排序靠前的特征，如果相关性较强，则引入了冗余的特征;另一方面，排序靠后的特征，虽然独立来看作用不明显，但可能与其它特征组合起来，就有很好的预测作用，如此就损失了有价值的特征。

　　二、包裹式

　　这类方法的核心思想在于，给定了某种模型，及预测效果评价的方法，然后针对特征空间中的不同子集，计算每个子集的预测效果，效果最好的，即作为最终被挑选出来的特征子集。注意集合的子集是一个指数的量级，故此类方法计算量较大。故而针对如何高效搜索特征空间子集，就产生了不同的算法。其中有一种简单有效的方法叫贪婪搜索策略，包括前向选择与后向删除。在前向选择方法中，初始化一个空的"特征集合，逐步向其中添加新的特征，如果该特征能提高预测效果，即得以保留，否则就扔掉。后向删除即是说从所有特征构成的集合开始，逐步删除特征，只要删除后模型预测效果提升，即说明删除动作有效，否则就还是保留原特征。要注意到，包裹式方法要求针对每一个特征子集重新训练模型，因此计算量还是较大的。

　　三、嵌入式

　　嵌入式方法将特征选择融合在模型训练的过程中，比如决策树在分枝的过程中，就是使用的嵌入式特征选择方法，其内在还是根据某个度量指标对特征进行排序。

　　除了直接从原始特征中进行选择，我们还可以对特征进行变换、组合，这种思路称为特征构造。其中主要的方法总结如下。

　　一、聚类

　　可以使用kmeas、层次聚类后的聚类中心点来代替相应簇中的一组特征。

　　二、线性组合

　　SVD(singular value decomposition) 、PCA均可视为此类方法，核心思想就是对原有特征进行线性组合，使用组合后的特征作为新的特征输入到训练模型中。这类方法的好处是，考虑到了变量之间可能存在的互补作用，进行组合后，有可能生成了一个更有效的新特征。

　　总体上，笔者今日所阅读的文章或书本仍偏于理论，较少介绍在某个实践项目中具体是如何开展的。希望市面上再多一些工程师写的书，少一些大学教授的书。