探讨机器学习中特征选择的4种方法-电子发烧友网

作者：Sugandha Lahoti，翻译：李洁，转自：数据派（ID：datapi）

注：本文节选自Ankit Dixit所著的《集成机器学习》(Ensemble Machine Learning)一书。这本书组合强大的机器学习算法来建立优化模型，可以作为初学者的指南。

在本文中，我们将研究从数据集中选择特征的不同方法;同时通过使用Python中Scikit-learn (sklearn)库实现讨论了特征选择算法的类型:

单变量选择
递归特征消除(RFE)
主成分分析(PCA)
选择重要特征(特征重要度)

我们简要介绍了前三种算法及其实现。然后我们将详细讨论在数据科学社区中广泛使用的选择重要特征(特性重要度)部分的内容。

单变量选择

统计测试可用于选择那些与输出变量关系最强的特征。

scikit-learn库提供了SelectKBest类，它可以与一组不同的统计测试一起使用，以选择特定数量的特征。

下面的例子使用chi²非负性特征的统计测试，从皮马印第安人糖尿病发病数据集中选择了四个最好的特征:
#Feature Extraction with Univariate Statistical Tests (Chi-squared for classification)

#Import the required packages

#Import pandas to read csv import pandas

#Import numpy for array related operations import numpy

#Import sklearn's feature selection algorithm

from sklearn.feature_selection import SelectKBest

#Import chi2 for performing chi square test from sklearn.feature_selection import chi2

#URL for loading the dataset

url ="https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians diabetes/pima-indians-diabetes.data"

#Define the attribute names

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

#Create pandas data frame by loading the data from URL

dataframe = pandas.read_csv(url, names=names)

#Create array from data values

array = dataframe.values

#Split the data into input and target

X = array[:,0:8]

Y = array[:,8]

#We will select the features using chi square

test = SelectKBest(score_func=chi2, k=4)

#Fit the function for ranking the features by score

fit = test.fit(X, Y)

#Summarize scores numpy.set_printoptions(precision=3) print(fit.scores_)

#Apply the transformation on to dataset

features = fit.transform(X)

#Summarize selected features print(features[0:5,:])

你可以看到每个参数的得分，以及所选择的四个参数(得分最高的):plas、test、mass和age。

每个特征的分数为：
[111.52 1411.887 17.605 53.108 2175.565 127.669 5.393

181.304]

被选出的特征是：
[[148. 0. 33.6 50. ]

[85. 0. 26.6 31. ]

[183. 0. 23.3 32. ]

[89. 94. 28.1 21. ]

[137. 168. 43.1 33. ]]

递归特征消除(RFE)

RFE的工作方式是递归地删除参数并在保留的参数上构建模型。它使用模型精度来判断哪些属性(以及属性的组合)对预测目标参数贡献最大。你可以在scikit-learn的文档中了解更多关于RFE类的信息。

下面的示例使用RFE和logistic回归算法来选出前三个特征。算法的选择并不重要，只需要熟练并且一致:
#Import the required packages

#Import pandas to read csv import pandas

#Import numpy for array related operations import numpy

#Import sklearn's feature selection algorithm from sklearn.feature_selection import RFE

#Import LogisticRegression for performing chi square test from sklearn.linear_model import LogisticRegression

#URL for loading the dataset

url =

"https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-dia betes/pima-indians-diabetes.data"

#Define the attribute names

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

#Create pandas data frame by loading the data from URL

dataframe = pandas.read_csv(url, names=names)

#Create array from data values

array = dataframe.values

#Split the data into input and target

X = array[:,0:8]

Y = array[:,8]

#Feature extraction

model = LogisticRegression() rfe = RFE(model, 3)

fit = rfe.fit(X, Y)

print("Num Features: %d"% fit.n_features_) print("Selected Features: %s"% fit.support_) print("Feature Ranking: %s"% fit.ranking_)

执行完上述代码后，我们可以得到:
Num Features: 3

Selected Features: [ True False False False False True True False]

Feature Ranking: [1 2 3 5 6 1 1 4]

你可以看到RFE选择了前三个特性，即preg、mass和pedi。这些在support_数组中被标记为True，在ranking_数组中被标记为首选（标记为1）。

主成分分析

PCA使用线性代数将数据集转换为压缩格式。通常，它被认为是一种数据约简技术。PCA的一个属性是，你可以选择转换结果中的维数或主成分的数量。

在接下来的例子中，我们使用PCA并选择了三个主成分:
#Import the required packages

#Import pandas to read csv import pandas

#Import numpy for array related operations import numpy

#Import sklearn's PCA algorithm

from sklearn.decomposition import PCA

#URL for loading the dataset

url =

"https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians diabetes/pima-indians-diabetes.data"

#Define the attribute names

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

dataframe = pandas.read_csv(url, names=names)

#Create array from data values

array = dataframe.values

#Split the data into input and target

X = array[:,0:8]

Y = array[:,8]

#Feature extraction

pca = PCA(n_components=3) fit = pca.fit(X)

#Summarize components

print("Explained Variance: %s") % fit.explained_variance_ratio_

print(fit.components_)

你可以看到，转换后的数据集(三个主成分)与源数据几乎没有相似之处:

Explained Variance: [ 0.88854663 0.06159078 0.02579012]

[[ -2.02176587e-03 9.78115765e-02 1.60930503e-02 6.07566861e-02

9.93110844e-01 1.40108085e-02 5.37167919e-04 -3.56474430e-03]

[ -2.26488861e-02 -9.72210040e-01 -1.41909330e-01 5.78614699e-02 9.46266913e-02 -4.69729766e-02 -8.16804621e-04 -1.40168181e-01

[ -2.24649003e-02 1.43428710e-01 -9.22467192e-01 -3.07013055e-01 2.09773019e-02 -1.32444542e-01 -6.39983017e-04 -1.25454310e-01]]

选择重要特征(特性重要度)

特征重要度是一种利用训练好的有监督分类器来选择特征的技术。当我们训练分类器(如决策树)时，我们计算每个参数以创建分割;我们可以使用这个度量作为特征选择器。让我们来详细了解一下。

随机森林由于其相对较好的准确性、鲁棒性和易用性而成为最受欢迎的机器学习方法之一。它们还提供了两种简单易行的特征选择方法——均值降低杂质和均值降低准确度。

随机森林由许多决策树组成。决策树中的每个节点都是一个基于单个特征的条件，其设计目的是将数据集分割成两个，以便相似的响应值最终出现在相同的集合中。选择(局部)最优条件的度量叫做杂质。对于分类问题，它通常是基尼杂质或信息增益/熵，而对于回归树，它是方差。因此，当训练一棵树时，可以通过每个特征减少的树中加权杂质的多少来计算。对于森林，可以对每个特征的杂质减少量进行平均，并根据该方法对特征进行排序。

让我们看一下如何使用随机森林分类器来进行特征选择，并评估特征选择前后分类器的准确性。我们将使用Otto数据集。该数据集可从kaggle免费获得（你需要注册kaggle才能下载该数据集)。你可以从https://www.kaggle.com/c/otto-group-product- classifics-challenge/data下载训练集train.csv.zip，然后将解压缩的train.csv文件放在你的工作目录中。

这个数据集描述了超过61,000个产品的93个模糊细节，这些产品被分成10个产品类别(例如，时尚类、电子产品类等)。输入参数是某种类型的不同事件的计数。

训练目标是对新产品作为10个类别中每一个类别的概率数组做出预测，并使用多级对数损失（也称为交叉熵）对模型进行评估。

我们将从导入所有库开始:

#Import the supporting libraries

#Import pandas to load the dataset from csv file

from pandas import read_csv

#Import numpy for array based operations and calculations

import numpy as np

#Import Random Forest classifier class from sklearn

from sklearn.ensemble import RandomForestClassifier

#Import feature selector class select model of sklearn

from sklearn.feature_selection

import SelectF romModel

np.random.seed(1)

定义一个方法用于将我们的数据集分为训练数据和测试数据；我们将在训练数据部分对数据集进行训练，测试数据部分将用于训练模型的评估:

#Function to create Train and Test set from the original dataset def getTrainTestData(dataset,split):

np.random.seed(0) training = [] testing = []

np.random.shuffle(dataset) shape = np.shape(dataset)

trainlength = np.uint16(np.floor(split*shape[0]))

for i in range(trainlength): training.append(dataset[i])

for i in range(trainlength,shape[0]): testing.append(dataset[i])

training = np.array(training) testing = np.array(testing)

return training,testing

还需要添加一个函数来评估模型的准确性；以预测输出和实际输出为输入，计算准确率百分比：

#Function to evaluate model performance

def getAccuracy(pre,ytest): count = 0

for i in range(len(ytest)):

if ytest[i]==pre[i]: count+=1

acc = float(count)/len(ytest)

return acc

现在要导入数据集。我们将导入train.csv文件；该文件包含61,000多个训练实例。我们的示例将使用50000个实例，其中使用35,000个实例来训练分类器，并使用15,000个实例来测试分类器的性能:
#Load dataset as pandas data frame

data = read_csv('train.csv')

#Extract attribute names from the data frame

feat = data.keys()

feat_labels = feat.get_values()

#Extract data values from the data frame

dataset = data.values

#Shuffle the dataset

np.random.shuffle(dataset)

#We will select 50000 instances to train the classifier

inst = 50000

#Extract 50000 instances from the dataset

dataset = dataset[0:inst,:]

#Create Training and Testing data for performance evaluation

train,test = getTrainTestData(dataset, 0.7)

#Split data into input and output variable with selected features

Xtrain = train[:,0:94] ytrain = train[:,94] shape = np.shape(Xtrain)

print("Shape of the dataset ",shape)

#Print the size of Data in MBs

print("Size of Data set before feature selection: %.2f MB"%(Xtrain.nbytes/1e6))

注意下这里的数据大小；由于我们的数据集包含约35000个训练实例，带有94个参数；我们的数据集非常大。让我们来看一下：

Shape of the dataset (35000, 94)

Size of Data set before feature selection: 26.32 MB

如你所见，我们的数据集中有35000行和94列，数据大小超过26MB。

在下一个代码块中，我们将配置我们的随机森林分类器；我们会使用250棵树，最大深度为30，随机特征的数量为7。其他超参数将是sklearn的默认值:
#Lets select the test data for model evaluation purpose

Xtest = test[:,0:94] ytest = test[:,94]

#Create a random forest classifier with the following Parameters

trees = 250

max_feat = 7

max_depth = 30

min_sample = 2

clf = RandomForestClassifier(n_estimators=trees,

max_features=max_feat,

max_depth=max_depth,

min_samples_split= min_sample, random_state=0,

n_jobs=-1)

#Train the classifier and calculate the training time

import time

start = time.time() clf.fit(Xtrain, ytrain) end = time.time()

#Lets Note down the model training time

print("Execution time for building the Tree is: %f"%(float(end)- float(start)))

pre = clf.predict(Xtest)

Let's see how much time is required to train the model on the training dataset:

Execution time for building the Tree is: 2.913641

#Evaluate the model performance for the test data

acc = getAccuracy(pre, ytest)

print("Accuracy of model before feature selection is %.2f"%(100*acc))

模型的精确度是：

Accuracy of model before feature selection is 98.82

正如所看到的，我们获得了非常好的精确度，因为我们将几乎99%的测试数据分类为正确的类别。这意味着我们在15,000个实例中对大概14,823个实例进行了正确的分类。

所以，现在问题是：我们应该进一步改进吗？好吧，为什么不呢？如果可能的话，我们一定需要进行更多的改进；在这里，我们将使用特征重要度来选择特征。如你所知，在树的建造过程中，我们使用杂质度量来选择节点。选择杂质最少的参数值作为树中的节点。我们可以使用类似的标准来选择特征。我们可以给杂质更少的特征更多的重要度，这可以使用sklearn库的feature_importances_函数来实现。让我们来看一下每个特征的重要度:

print(feature)

('id', 0.33346650420175183)

('feat_1', 0.0036186958628801214)

('feat_2', 0.0037243050888530957)

('feat_3', 0.011579217472062748)

('feat_4', 0.010297382675187445)

('feat_5', 0.0010359139416194116)

('feat_6', 0.00038171336038056165)

('feat_7', 0.0024867672489765021)

('feat_8', 0.0096689721610546085)

('feat_9', 0.007906150362995093)

('feat_10', 0.0022342480802130366)

正如你看到的，每个特征都有不同的重要度，这取决于它对最终预测的贡献值。

我们将使用这些重要度评分来对我们的特征进行排序;在接下来的部分中，我们将选取特征重要度大于0.01的特征进行模型训练：
#Select features which have higher contribution in the final prediction

sfm = SelectFromModel(clf, threshold=0.01) sfm.fit(Xtrain,ytrain)

这里，我们将根据所选的特征参数转换输入的数据集。在下一个代码块中，我们会转换数据集。然后，我们将检查新数据集的大小和形状:
#Transform input dataset

Xtrain_1 = sfm.transform(Xtrain) Xtest_1 = sfm.transform(Xtest)

#Let's see the size and shape of new dataset print("Size of Data set before feature selection: %.2f MB"%(Xtrain_1.nbytes/1e6))

shape = np.shape(Xtrain_1)

print("Shape of the dataset ",shape)

Size of Data set before feature selection: 5.60 MB Shape of the dataset (35000, 20)

看到数据集的形状了吗？经过特征选择后，我们只剩下20个特征，这使得数据库的大小从26MB减少到了5.60 MB，比原来的数据集减少了80%左右。

在下一个代码块中，我们将使用与前面相同的超参数训练一个新的随机森林分类器，并在测试集上进行了测试。我们来看看修改训练集后得到的精确度是多少：

#Model training time

start = time.time() clf.fit(Xtrain_1, ytrain) end = time.time()

print("Execution time for building the Tree is: %f"%(float(end)- float(start)))

#Let's evaluate the model on test data

pre = clf.predict(Xtest_1) count = 0

acc2 = getAccuracy(pre, ytest)

print("Accuracy after feature selection %.2f"%(100*acc2))

Execution time for building the Tree is: 1.711518 Accuracy after feature selection 99.97

看到了吗！使用修改后的数据集，我们获得了99.97%的准确率，这意味着我们把14,996个实例分到了正确的类别，而之前我们只正确地分类了14,823个实例。

这是我们在特征选择过程中取得的巨大进步；我们可以将所有的结果总结如下表：

评估标准	特征选择前	特征选择后
特征数量	94	20
数据集大小	26.32MB	5.60MB
训练时间	2.91s	1.71s
精确度	98.82%	99.97%

上表显示了特征选择的实际优势。可以看到我们显著地减少了特征的数量，这减少了模型的复杂性和数据集的维度。在减小维度后，我们需要更少的训练时间，最终我们克服了过拟合的问题，获得了比以前更高的精确度。

本文我们共探讨了机器学习中特征选择的4种方法。

编辑：hfy

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8458

浏览量
133232

五种先进的SSD故障预测特征选择方法盘点

本文比较了没有特征选择（即使用所有学习特征）和五种最先进的特征

发表于 07-12 09:09 •1799次阅读

五<b class='flag-5'>种</b>先进的SSD故障预测<b class='flag-5'>特征</b><b class='flag-5'>选择</b><b class='flag-5'>方法</b>盘点

如何选择机器学习的各种方法

的这篇博客，讲述了如何选择机器学习的各种方法。另外，Scikit-learn 也提供了一幅清晰的路线图给大家选择：其实机器

发表于 03-07 20:18

软体机器人学习问题探讨

以软体机器人为背景和主题，深入讲解：(1) 软体机器人的关节设计方法；(2) 有限元分析技巧；(3) 力学模型的建立方法； (4) 基于MA

发表于 08-12 15:09

初学机器学习的四种方法介绍

学习机器学习有很多方法，大多数人选择从理论开始。如果你是个程序员，那么你已经掌握了把问题拆分成相应组成部分及设计小项目原型的能力，这些能力能帮助你

发表于 07-05 08:34 •2890次阅读

机器学习特征选择常用算法

) ，是指从全部特征中选取一个特征子集，使构造出来的模型更好。在机器学习的实际应用中，特征数量

发表于 11-16 01:28 •8577次阅读

机器学习中的特征选择的5点详细资料概述

特征选择是一个重要的“数据预处理” (data preprocessing) 过程，在现实机器学习任务中，获得数据之后通常先进行

发表于 06-18 17:24 •7123次阅读

小猿圈python学习之Python列表list合并的4种方法

Python作为目前市面上最常用的编程语言之一，赢得了我们很多技术人员的喜爱，同时越来越多的人纷纷开始学习python，今天小猿圈就给大家分享在python3中合并列表的4种方法下面是

发表于 05-16 21:37 •1638次阅读

机器学习特征选择的三种方法

在一定程度上降低特征后，从直观上来看，很多时候可以一目了然看到特征与特征值之间的关联，这个场景，需要实际业务的支撑，生产上的业务数据更加明显，有兴趣的同学可以私信我加群，一起研究。

发表于 04-15 15:56 •1.5w次阅读

机器学习如何进行特征选择

想要找一个最好的特征子集，最简单最笨的方法就是把所有的特征排列组合，遍历每一个子集从中选择里面最好的一个，这种方法必然不可取。对这

发表于 05-20 08:00 •0次下载

机器学习之特征提取 VS 特征选择

机器学习中特征选择和特征提取区别 demi 在周四, 06/11/2020 - 16:08 提

发表于 09-14 16:23 •4211次阅读

基于最大信息系数与冗余分摊策略的特征选择方法

特征选择是机器学习的关键环节，通常采用最小冗余最大相关法进行特征选择，但该

发表于 03-26 15:27 •13次下载

特征选择和机器学习的软件缺陷跟踪系统对比

软件缺陷报告严重程度。通过对4种特征选择算法及4种机器

发表于 06-10 10:50 •12次下载

通过强化学习策略进行特征选择

来源：DeepHubIMBA特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择

发表于 06-05 08:27 •460次阅读

人脸检测的五种方法各有什么特征和优缺点

人脸检测是计算机视觉领域的一个重要研究方向，主要用于识别和定位图像中的人脸。以下是五种常见的人脸检测方法及其特征和优缺点的介绍：基于肤色的方法

发表于 07-03 14:47 •1043次阅读

机器学习中的数据预处理与特征工程

在机器学习的整个流程中，数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量，进而影响模型的训练效果和泛化能力。本文将从数据预处理和

发表于 07-09 15:57 •654次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

探讨机器学习中特征选择的4种方法

评论

五种先进的SSD故障预测特征选择方法盘点

如何选择机器学习的各种方法

软体机器人学习问题探讨

初学机器学习的四种方法介绍

机器学习特征选择常用算法

机器学习中的特征选择的5点详细资料概述

小猿圈python学习之Python列表list合并的4种方法

机器学习特征选择的三种方法

机器学习如何进行特征选择

机器学习之特征提取 VS 特征选择

基于最大信息系数与冗余分摊策略的特征选择方法

特征选择和机器学习的软件缺陷跟踪系统对比

通过强化学习策略进行特征选择

人脸检测的五种方法各有什么特征和优缺点

机器学习中的数据预处理与特征工程