Python机器学习库谈Scikit-learn技术-电子发烧友网

Scikit-learn是使用最广泛的Python 机器学习库之一。它有标准化和简单的接口，用于数据预处理和模型训练、优化以及评估。

这个项目最初是由David Cournapeau 开发的Google Summer of Code 项目，并于2010年首次公开发布。自创建以来，该库已经发展成为一个丰富的生态系统，用于开发机器学习模型。随着时间的推移，该项目开发了许多方便的功能，以增强其易用性。在本文中，我将介绍你可能不知道的10个关于Scikit-learn最有用的特性。

1. 内置数据集

Scikit-learn API内置了各种toy和real-world数据集[1]。这些可以便捷地通过一行代码访问，如果你正在学习或只是想快速尝试新功能，这会非常有用。

你还可以使用make_regression()、make_blobs()和make_classification()生成合成数据集。所有加载实用程序都提供了返回已拆分为X（特征）和y（目标）的数据选项，以便它们可以直接用于训练模型。

2. 获取公开数据集

如果你想直接通过Scikit-learn访问更多的公共可用数据集，请了解，有一个方便的函数datasets.fetch_openml，可以让您直接从openml.org网站[2]获取数据。这个网站包含超过21000个不同的数据集，可以用于机器学习项目。

3. 内置分类器来训练baseline

在为项目开发机器学习模型时，首先创建一个baseline模型是非常有必要的。这个模型在本质上应该是一个“dummy”模型，比如一个总是预测最频繁出现的类的模型。这就提供了一个基准，用来对你的“智能”模型进行基准测试，这样你就可以确保它的性能比随机结果更好。

Scikit learn包括用于分类任务的DummyClassifier() 和用于基于回归问题的 DummyRegressor()。

4. 内置绘图api

Scikit learn有一个内置的绘图API，允许你在不导入任何其他库的情况下可视化模型性能。包括以下绘图：部分相关图、混淆矩阵、精确召回曲线和ROC曲线。

5. 内置特征选择方法

提高模型性能的一种技术是只使用最好的特征集或通过删除冗余特征来训练模型。这个过程称为特征选择。

Scikit learn有许多函数来执行特征选择。一个示例为 SelectPercentile()，该方法根据所选的统计方法选择性能最好的X百分位特征进行评分。

6. 机器学习pipeline

除了为机器学习提供广泛的算法外，Scikit learn还具有一系列用于「预处理」和「转换数据」的功能。为了促进机器学习工作流程的再现性和简单性，Scikit learn创建了管道（pipeline），允许将大量预处理步骤与模型训练阶段链接在一起。

管道将工作流中的所有步骤存储为单个实体，可以通过「fit」和「predict」方法调用该实体。在管道对象上调用fit方法时，预处理步骤和模型训练将自动执行。

7. ColumnTransformer

在许多数据集中，你将拥有不同类型的特征，需要应用不同的预处理步骤。例如，可能有分类数据和连续数据的混合，你可能希望通过one-hot编码将分类数据转换为数字，并缩放数字变量。

Scikit-learn管道有一个名为ColumnTransformer的函数，它允许你通过索引或指定列名来轻松指定要对哪些列应用最适当的预处理。

8. 管道的HTML形式

管道通常会变得非常复杂，尤其是在处理真实世界的数据时。因此，scikit-learn提供了一种方法来输出管道中步骤的HTML图表[3]，非常方便。

9. 可视化树模型

plot_tree() 函数允许你创建决策树模型中的步骤图。

10. 丰富的第三方扩展

许多第三方库可以更好地扩展scikit-learn的特性。举个栗子，category-encoders库，它为分类特性提供了更大范围的预处理方法，以及ELI5包以实现更大的模型可解释性。这两个包也可以直接在Scikit-learn管道中使用。

本文参考资料

[1]toy和real-world数据集: https://scikit-learn.org/stable/datasets/index.html

[2]openml.org网站: https://www.openml.org/home

[3]HTML图表: https://scikit-learn.org/stable/modules/compose.html#visualizing-composite-estimators

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8460

浏览量
133402
python

python

+关注

关注
56

文章
4813

浏览量
85291

原文标题：关于Scikit-Learn你（也许）不知道的10件事

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

基于瑞芯微米尔RK3576开发板创建机器学习环境

及开发板】具有6TpsNPU以及GPU，因此是学习机器学习的好环境，为此结合《深度学习的数学——使用Python语言》 1、使用vscode 连接远程开发板 2、使用conda新建虚

发表于 02-08 14:44

如何使用Python构建LSTM神经网络模型

： NumPy：用于数学运算。 TensorFlow：一个开源机器学习库，Keras是其高级API。 Keras：用于构建和训练深度学习模型。你可以使用pip来安装这些

发表于 11-13 10:10 •795次阅读

RISC-V如何支持不同的AI和机器学习框架和库？

RISC-V如何支持不同的AI和机器学习框架和库？还请坛友们多多指教一下。

发表于 10-10 22:24

【「时间序列与机器学习」阅读体验】时间序列的信息提取

个重要环节，目标是从给定的时间序列数据中提取出有用的信息和特征，以支持后续的分析和预测任务。特征工程(Feature Engineering)是将数据转换为更好地表示潜在问题的特征，从而提高机器学习

发表于 08-17 21:12

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

之前对《时间序列与机器学习》一书进行了整体浏览，并且非常轻松愉快的完成了第一章的学习，今天开始学习第二章“时间序列的信息提取”。先粗略的翻阅第二章，内容复杂，充斥了大量的定义、推导计

发表于 08-14 18:00

pytorch和python的关系是什么

在当今的人工智能领域，Python已经成为了最受欢迎的编程语言之一。Python的易学易用、丰富的库和框架以及强大的社区支持，使其成为了数据科学、机器

发表于 08-01 15:27 •2679次阅读

Python在AI中的应用实例

Python在人工智能（AI）领域的应用极为广泛且深入，从基础的数据处理、模型训练到高级的应用部署，Python都扮演着至关重要的角色。以下将详细探讨Python在AI中的几个关键应用实例，包括

发表于 07-19 17:16 •1713次阅读

Python自动训练人工神经网络

人工神经网络（ANN）是机器学习中一种重要的模型，它模仿了人脑神经元的工作方式，通过多层节点（神经元）之间的连接和权重调整来学习和解决问题。Python由于其强大的

发表于 07-19 11:54 •480次阅读

AI训练的基本步骤

AI（人工智能）训练是一个复杂且系统的过程，它涵盖了从数据收集到模型部署的多个关键步骤。以下是对AI训练过程的详细阐述，包括每个步骤的具体内容，并附有相关代码示例（以Python和scikit-learn库为例）。

发表于 07-17 16:57 •3814次阅读

opencv-python和opencv一样吗

不一样。OpenCV（Open Source Computer Vision Library）是一个开源的计算机视觉和机器学习软件库，它提供了大量的图像和视频处理功能。OpenCV-Pytho

发表于 07-16 10:38 •1588次阅读

基于Python的深度学习人脸识别方法

基于Python的深度学习人脸识别方法是一个涉及多个技术领域的复杂话题，包括计算机视觉、深度学习、以及图像处理等。在这里，我将概述一个基本的流程，包括数据准备、模型选择、训练过程、以及

发表于 07-14 11:52 •1369次阅读

DongshanPI-AICT全志V853开发板搭建YOLOV5-V6.0环境

# onnx-simplifier>=0.3.6# ONNX simplifier # scikit-learn==0.19.2# CoreML quantization

发表于 07-12 09:59

深度学习常用的Python库

深度学习作为人工智能的一个重要分支，通过模拟人类大脑中的神经网络来解决复杂问题。Python作为一种流行的编程语言，凭借其简洁的语法和丰富的库支持，成为了深度学习研究和应用的首选工具。

发表于 07-03 16:04 •805次阅读

如何使用Python进行神经网络编程

神经网络简介神经网络是一种受人脑启发的机器学习模型，由大量的节点（或称为“神经元”）组成，这些节点在网络中相互连接。每个节点可以接收输入，对输入进行加权求和，然后通过一个激活函数产生输出

发表于 07-02 09:58 •523次阅读

ESP32下如何加自定义Python库？

我看官方有提供Micropython的bin文件，但我想根据自己外设扩充一下Python库，这个应该从哪里入手？之前做过RTT系统的python库扩充，RTT有提供Micropyth

发表于 06-18 06:27

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

Python机器学习库谈Scikit-learn技术

评论

基于瑞芯微米尔RK3576开发板创建机器学习环境

如何使用Python构建LSTM神经网络模型

RISC-V如何支持不同的AI和机器学习框架和库？

【「时间序列与机器学习」阅读体验】时间序列的信息提取

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

pytorch和python的关系是什么

Python在AI中的应用实例

Python自动训练人工神经网络

AI训练的基本步骤

opencv-python和opencv一样吗

基于Python的深度学习人脸识别方法

DongshanPI-AICT全志V853开发板搭建YOLOV5-V6.0环境

深度学习常用的Python库

如何使用Python进行神经网络编程

ESP32下如何加自定义Python库？