带你入门常见的机器学习分类算法——逻辑回归、朴素贝叶斯、KNN、SVM、决策树-电子发烧友网

【导读】众所周知，Scikit-learn（以前称为scikits.learn）是一个用于Python 编程语言的免费软件机器学习库。它具有各种分类，回归和聚类算法，包括支持向量机，随机森林，梯度增强，k-means和DBSCAN，旨在与Python数值和科学库NumPy和SciPy互操作。本文将带你入门常见的机器学习分类算法——逻辑回归、朴素贝叶斯、KNN、SVM、决策树。

逻辑回归 (Logistic regression)

逻辑回归，尽管他的名字包含"回归"，却是一个分类而不是回归的线性模型。逻辑回归在文献中也称为logit回归，最大熵分类或者对数线性分类器。下面将先介绍一下sklearn中逻辑回归的接口：

class sklearn.linear_model.LogisticRegression(penalty='l2', dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='warn', max_iter=100, multi_class='warn', verbose=0, warm_start=False, n_jobs=None)

常用参数讲解：

penalty：惩罚项。一般都是"l1"或者"l2"。

dual：这个参数仅适用于使用liblinear求解器的"l2"惩罚项。一般当样本数大于特征数时，这个参数置为False。

C：正则化强度(较小的值表示更强的正则化)，必须是正的浮点数。

solver：参数求解器。一般的有{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’}。

multi_class：多分类问题转化，如果使用"ovr"，则是将多分类问题转换成多个二分类为题看待；如果使用"multinomial"，损失函数则会是整个概率分布的多项式拟合损失。

不常用的参数这里就不再介绍，想要了解细节介绍，可以sklearn的官网查看。

案例：

这里我使用sklearn内置的数据集——iris数据集，这是一个三分类的问题，下面我就使用逻辑回归来对其分类：

from sklearn.datasets import load_irisfrom sklearn.linear_model import LogisticRegressionX, y = load_iris(return_X_y=True)clf = LogisticRegression(random_state=0, solver='lbfgs', multi_class='multinomial').fit(X, y)

上面我就训练好了一个完整的逻辑回归模型，我们可以用predict这个函数对测试集进行预测。

clf.predict(X[:2, :])

如果想知道预测的概率，可以通过predict_proba这个函数来进行预测。

clf.predict_proba(X[:2, :])

如果想知道我们预测的准确性，可以通过score这个函数来判断我们的模型好坏。

clf.score(X, y)

朴素贝叶斯

朴素贝叶斯方法是一组基于贝叶斯定理的监督学习算法，在给定类变量值的情况下，朴素假设每对特征之间存在条件独立性。下面我将介绍几种朴素贝叶斯的方法。

1、高斯朴素贝叶斯 (GaussianNB)

高斯朴素贝叶斯的原理可以看这篇文章：

http://i.stanford.edu/pub/cstr/reports/cs/tr/79/773/CS-TR-79-773.pdf

这里，我将介绍如何使用sklearn来实现GaussianNB。

from sklearn import datasetsiris = datasets.load_iris()from sklearn.naive_bayes import GaussianNBgnb = GaussianNB()y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)print("Number of mislabeled points out of a total %d points : %d" % (iris.data.shape[0],(iris.target != y_pred).sum()))

2、多项式朴素贝叶斯 (MultinomialNB/MNB)

这里我随机生成一组数据，然后使用MultinomialNB算法来学习。

import numpy as npX = np.random.randint(50, size=(1000, 100))y = np.random.randint(6, size=(1000))from sklearn.naive_bayes import MultinomialNBclf = MultinomialNB()clf.fit(X, y)print(clf.predict(X[2:3]))

3、互补朴素贝叶斯 (ComplementNB/CMB)

ComplementNB是标准多项式朴素贝叶斯(MNB)算法的一种改进，特别适用于不平衡数据集。具体来说，ComplementNB使用来自每个类的补充的统计信息来计算模型的权重。CNB的发明者通过实验结果表明，CNB的参数估计比MNB的参数估计更稳定。此外，在文本分类任务上，CNB通常比MNB表现得更好(通常是相当大的优势)。

CNB的sklearn接口：

class sklearn.naive_bayes.ComplementNB(alpha=1.0, fit_prior=True, class_prior=None, norm=False)

常用参数讲解：

alpha：加性(拉普拉斯/Lidstone)平滑参数(无平滑为0)。

fit_prior：是否学习类先验概率。若为假，则使用统一先验。

class_prior：类的先验概率。如果指定，则不根据数据调整先验。

norm：是否执行权重的第二次标准化。

案例:

import numpy as npX = np.random.randint(50, size=(1000, 100))y = np.random.randint(6, size=(1000))from sklearn.naive_bayes import ComplementNBclf = ComplementNB()clf.fit(X, y)print(clf.predict(X[2:3]))

4、伯努利朴素贝叶斯 (BernoulliNB)

BernoulliNB实现了基于多元伯努利分布的数据的朴素贝叶斯训练和分类算法。BernoulliNB可能在某些数据集上表现得更好，特别是那些文档较短的数据集。BernoulliNB的sklearn与上面介绍的算法接口相似。

案例:

import numpy as npX = np.random.randint(50, size=(1000, 100))y = np.random.randint(6, size=(1000))from sklearn.naive_bayes import BernoulliNBclf = BernoulliNB()clf.fit(X, Y)print(clf.predict(X[2:3]))

K-Nearest Neighbors(KNN)

KNN基于每个查询点的最近邻居来实现学习，其中k是用户指定的一个整数值。是最经典的机器学习算法之一。

KNN的skearn的接口如下：

class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None, **kwargs)

常用参数讲解：

n_neighbors：邻居数，是KNN中最重要的参数。

algorithm：计算最近邻的算法，常用算法有{‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}。

案例:

from sklearn import datasetsiris = datasets.load_iris()from sklearn.neighbors import KNeighborsClassifierneigh = KNeighborsClassifier(n_neighbors=3)neigh.fit(iris.data, iris.target) print(neigh.predict((iris.data))print(neigh.predict_proba((iris.data))

支持向量机 (SVM)

支持向量机(SVMs)是一套用于分类、回归和异常值检测的监督学习方法。这里我将只介绍分类方法。支持向量机的优点是:在高维空间中有效；在维数大于样本数的情况下仍然有效，因此对于小数据集，SVM可以表现出良好的性能。

SVM在sklearn上有三个接口，分别是 LinearSVC， SVC, 和 NuSVC。最常用的一般是SVC接口。

SVC的sklearn接口：

class sklearn.svm.SVC(C=1.0, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=’ovr’, random_state=None)

常用参数讲解：

C:错误项的惩罚参数C

kernel：核函数的选择。常用的核函数有：‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’。

probability：预测时是否使用概率估计。

案例:

import numpy as npX = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])y = np.array([1, 1, 2, 2])from sklearn.svm import SVCclf = SVC(C=1,kernel='rbf',gamma='auto')clf.fit(X, y) print(clf.predict([[-0.8, -1]]))

拓展：SVM解决二分类问题具有得天独厚的优势，然而对于解决多分类问题却很困难。常见的解决方案是“一对一”的方法解决多分类问题。具体地，假设这个是一个 n_class的分类问题，则会构建 n_class*(n_class-1)/2个二分类，来解决这个多分类问题。

X = [[0], [1], [2], [3]]Y = [0, 1, 2, 3]clf = svm.SVC(gamma='scale', decision_function_shape='ovo')clf.fit(X, Y) dec = clf.decision_function([[1]])dec.shape[1] # 4 classes: 4*3/2 = 6clf.decision_function_shape = "ovr"dec = clf.decision_function([[1]])dec.shape[1] # 4 classes

决策树

决策树作为十大经典算法之一，能够很好的处理多分类问题。

决策树的sklearn接口：

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

常用参数讲解：

criterion：该函数用于衡量分割的依据。常见的有"gini"用来计算基尼系数和"entropy"用来计算信息增益。

max_depth：树的最大深度。

min_samples_split：分割内部节点所需的最小样本数。

min_samples_leaf：叶节点上所需的最小样本数。

案例:

from sklearn.datasets import load_irisfrom sklearn.model_selection import cross_val_scorefrom sklearn.tree import DecisionTreeClassifierclf = DecisionTreeClassifier(random_state=0)iris = load_iris()clf.fit(iris.data, iris.target)clf.predict(iris.data)clf.predict_proba(iris.data)

总结

本文介绍了几种常见的机器学习分类算法，如逻辑回归，朴素贝叶斯，KNN，SVM，以及决策树算法。同时，也用sklearn的python接口展示了各个算法使用案例。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8457

浏览量
133203
决策树

决策树

+关注

关注
3

文章
96

浏览量
13603
朴素贝叶斯

朴素贝叶斯

+关注

关注
0

文章
12

浏览量
3398

原文标题：15分钟带你入门sklearn与机器学习——分类算法篇

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

机器学习中常用的决策树算法技术解析

决策树是最重要的机器学习算法之一，其可被用于分类和回归问题。本文中，我们将介绍

发表于 10-12 16:39 •1364次阅读

<b class='flag-5'>机器</b><b class='flag-5'>学习</b>中常用的<b class='flag-5'>决策树</b><b class='flag-5'>算法</b>技术解析

常见算法优缺点比较

，并从优中择优。但是每次都进行这一操作不免过于繁琐，下面小编来分析下各个算法的优缺点，以助大家有针对性地进行选择，解决问题。1.朴素贝叶斯

发表于 12-02 15:40

机器学习的朴素贝叶斯讲解

秦刚刚的机器学习成长之路之朴素贝叶斯法

发表于 05-15 14:41

机器学习的分类器

各种机器学习的应用场景分别是什么？例如，k近邻,贝叶斯，决策树，

发表于 09-10 10:53

介绍支持向量机与决策树集成等模型的应用

本文主要介绍支持向量机、k近邻、朴素贝叶斯分类、决策树、决

发表于 09-01 06:57

人工智能算法有哪些？

很像一棵树的枝干，故称决策树。随机森林在机器学习中，随机森林是一个包含多个决策树的分类器，并且

发表于 03-05 14:15

朴素贝叶斯等常见机器学习算法的介绍及其优缺点比较

偏差和方差与模型复杂度的关系使用下图更加明了：当模型复杂度上升的时候，偏差会逐渐变小，而方差会逐渐变大。常见算法优缺点 1.朴素贝叶

发表于 09-29 16:18 •7次下载

机器学习之朴素贝叶斯应用教程

今天介绍机器学习中一种基于概率的常见的分类方法，朴素贝叶

发表于 11-25 12:49 •1399次阅读

朴素贝叶斯算法的后延概率最大化的认识与理解

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是

发表于 11-30 17:11 •3350次阅读

基于概率的常见的分类方法--朴素贝叶斯

本文介绍机器学习中一种基于概率的常见的分类方法，朴素贝叶

发表于 02-03 14:37 •5317次阅读

机器学习之朴素贝叶斯

学习过概率的人一定知道贝叶斯定理，在信息领域内有着无与伦比的地位。贝叶斯算法是基于贝叶斯定理的一类算法

发表于 05-29 09:01 •928次阅读

数据挖掘常用算法

本视频主要详细介绍了数据挖掘常用算法，分别是朴素贝叶斯、逻辑

发表于 04-10 16:32 •1.3w次阅读

决策树的结构/优缺点/生成

决策树（DecisionTree）是机器学习中一种常见的算法，它的思想非常朴素，就像我们平时利用

发表于 03-04 10:11 •8404次阅读

朴素贝叶斯分类朴素贝叶斯算法的优点

朴素贝叶斯方法是在贝叶斯

发表于 10-02 17:14 •9428次阅读

对朴素贝叶斯算法原理做展开介绍

在众多机器学习分类算法中，本篇我们提到的朴素贝叶

发表于 01-16 10:11 •1803次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

带你入门常见的机器学习分类算法——逻辑回归、朴素贝叶斯、KNN、SVM、决策树

评论

机器学习中常用的决策树算法技术解析

常见算法优缺点比较

机器学习的朴素贝叶斯讲解

机器学习的分类器

介绍支持向量机与决策树集成等模型的应用

人工智能算法有哪些？

朴素贝叶斯等常见机器学习算法的介绍及其优缺点比较

机器学习之朴素贝叶斯应用教程

朴素贝叶斯算法的后延概率最大化的认识与理解

基于概率的常见的分类方法--朴素贝叶斯

机器学习之朴素贝叶斯

数据挖掘常用算法

决策树的结构/优缺点/生成

朴素贝叶斯分类朴素贝叶斯算法的优点

对朴素贝叶斯算法原理做展开介绍