机器学习中的正则化的相关知识点-电子发烧友网

正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。当我们用较为复杂的模型拟合数据时，容易出现过拟合现象，导致模型的泛化能力下降，这时我们就需要使用正则化，降低模型的复杂度。本文总结阐释了正则化的相关知识点，帮助大家更好的理解正则化这一概念。

LP范数

L1范数

L2范数

L1范数和L2范数的区别

Dropout

Batch Normalization

归一化、标准化 & 正则化

Reference

在总结正则化（Regularization）之前，我们先谈一谈正则化是什么，为什么要正则化。

个人认为正则化这个字眼有点太过抽象和宽泛，其实正则化的本质很简单，就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。一提到正则化，很多同学可能马上会想到常用的L1范数和L2范数，在汇总之前，我们先看下LP范数是什么鬼。

LP范数

范数简单可以理解为用来表征向量空间中的距离，而距离的定义很抽象，只要满足非负、自反、三角不等式就可以称之为距离。

LP范数不是一个范数，而是一组范数，其定义如下：

pp的范围是[1,∞)[1,∞)。pp在(0,1)(0,1)范围内定义的并不是范数，因为违反了三角不等式。

根据pp的变化，范数也有着不同的变化，借用一个经典的有关P范数的变化图如下：

上图表示了pp从0到正无穷变化时，单位球（unit ball）的变化情况。在P范数下定义的单位球都是凸集，但是当0

那问题来了，L0范数是啥玩意？

L0范数表示向量中非零元素的个数，用公式表示如下：

我们可以通过最小化L0范数，来寻找最少最优的稀疏特征项。但不幸的是，L0范数的最优化问题是一个NP hard问题（L0范数同样是非凸的）。因此，在实际应用中我们经常对L0进行凸松弛，理论上有证明，L1范数是L0范数的最优凸近似，因此通常使用L1范数来代替直接优化L0范数。

L1范数

根据LP范数的定义我们可以很轻松的得到L1范数的数学形式：

通过上式可以看到，L1范数就是向量各元素的绝对值之和，也被称为是"稀疏规则算子"（Lasso regularization）。那么问题来了，为什么我们希望稀疏化？稀疏化有很多好处，最直接的两个：

特征选择

可解释性

L2范数

L2范数是最熟悉的，它就是欧几里得距离，公式如下：

L2范数有很多名称，有人把它的回归叫“岭回归”（Ridge Regression），也有人叫它“权值衰减”（Weight Decay）。以L2范数作为正则项可以得到稠密解，即每个特征对应的参数ww都很小，接近于0但是不为0；此外，L2范数作为正则化项，可以防止模型为了迎合训练集而过于复杂造成过拟合的情况，从而提高模型的泛化能力。

L1范数和L2范数的区别

引入PRML一个经典的图来说明下L1和L2范数的区别，如下图所示：

如上图所示，蓝色的圆圈表示问题可能的解范围，橘色的表示正则项可能的解范围。而整个目标函数（原问题+正则项）有解当且仅当两个解范围相切。从上图可以很容易地看出，由于L2范数解范围是圆，所以相切的点有很大可能不在坐标轴上，而由于L1范数是菱形（顶点是凸出来的），其相切的点更可能在坐标轴上，而坐标轴上的点有一个特点，其只有一个坐标分量不为零，其他坐标分量为零，即是稀疏的。所以有如下结论，L1范数可以导致稀疏解，L2范数导致稠密解。

从贝叶斯先验的角度看，当训练一个模型时，仅依靠当前的训练数据集是不够的，为了实现更好的泛化能力，往往需要加入先验项，而加入正则项相当于加入了一种先验。

L1范数相当于加入了一个Laplacean先验；

L2范数相当于加入了一个Gaussian先验。

如下图所示：

Dropout

Dropout是深度学习中经常采用的一种正则化方法。它的做法可以简单的理解为在DNNs训练的过程中以概率pp丢弃部分神经元，即使得被丢弃的神经元输出为0。Dropout可以实例化的表示为下图：

我们可以从两个方面去直观地理解Dropout的正则化效果：

在Dropout每一轮训练过程中随机丢失神经元的操作相当于多个DNNs进行取平均，因此用于预测时具有vote的效果。

减少神经元之间复杂的共适应性。当隐藏层神经元被随机删除之后，使得全连接网络具有了一定的稀疏化，从而有效地减轻了不同特征的协同效应。也就是说，有些特征可能会依赖于固定关系的隐含节点的共同作用，而通过Dropout的话，就有效地组织了某些特征在其他特征存在下才有效果的情况，增加了神经网络的鲁棒性。

Batch Normalization

批规范化（Batch Normalization）严格意义上讲属于归一化手段，主要用于加速网络的收敛，但也具有一定程度的正则化效果。

这里借鉴下魏秀参博士的知乎回答中对covariate shift的解释（https://www.zhihu.com/question/38102762）。

注：以下内容引自魏秀参博士的知乎回答

大家都知道在统计机器学习中的一个经典假设是“源空间（source domain）和目标空间（target domain）的数据分布（distribution）是一致的”。如果不一致，那么就出现了新的机器学习问题，如transfer learning/domain adaptation等。而covariate shift就是分布不一致假设之下的一个分支问题，它是指源空间和目标空间的条件概率是一致的，但是其边缘概率不同。大家细想便会发现，的确，对于神经网络的各层输出，由于它们经过了层内操作作用，其分布显然与各层对应的输入信号分布不同，而且差异会随着网络深度增大而增大，可是它们所能“指示”的样本标记（label）仍然是不变的，这便符合了covariate shift的定义。

BN的基本思想其实相当直观，因为神经网络在做非线性变换前的激活输入值（X=WU+BX=WU+B，UU是输入）随着网络深度加深，其分布逐渐发生偏移或者变动（即上述的covariate shift）。之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近（对于Sigmoid函数来说，意味着激活输入值X=WU+BX=WU+B是大的负值或正值），所以这导致后向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因。而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，避免因为激活函数导致的梯度弥散问题。所以与其说BN的作用是缓解covariate shift，倒不如说BN可缓解梯度弥散问题。

归一化、标准化 & 正则化

正则化我们以及提到过了，这里简单提一下归一化和标准化。

归一化（Normalization）：归一化的目标是找到某种映射关系，将原数据映射到[a,b]区间上。一般a,b会取[−1,1],[0,1]这些组合。

一般有两种应用场景：

把数变为(0, 1)之间的小数

把有量纲的数转化为无量纲的数

常用min-max normalization：

标准化（Standardization）：用大数定理将数据转化为一个标准正态分布，标准化公式为：

归一化和标准化的区别：

我们可以这样简单地解释：

归一化的缩放是“拍扁”统一到区间（仅由极值决定），而标准化的缩放是更加“弹性”和“动态”的，和整体样本的分布有很大的关系。

值得注意：

归一化：缩放仅仅跟最大、最小值的差别有关。

标准化：缩放和每个点都有关系，通过方差（variance）体现出来。与归一化对比，标准化中所有数据点都有贡献（通过均值和标准差造成影响）。

为什么要标准化和归一化？

提升模型精度：归一化后，不同维度之间的特征在数值上有一定比较性，可以大大提高分类器的准确性。

加速模型收敛：标准化后，最优解的寻优过程明显会变得平缓，更容易正确的收敛到最优解。如下图所示：

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

函数

函数

+关注

关注
3

文章
4350

浏览量
63167
神经元

神经元

+关注

关注
1

文章
368

浏览量
18536
机器学习

机器学习

+关注

关注
66

文章
8458

浏览量
133269

原文标题：一文读懂机器学习中的正则化

文章出处：【微信号：cas-ciomp，微信公众号：中科院长春光机所】欢迎添加关注！文章转载请注明出处。

华邦电子安全闪存关键知识点

黑客攻击？高温考验？驾驶安全？通通没在怕的！1月15日，华邦电子举办了“安全闪存强化车用电子安全性”为主题的线上研讨会。为了让没能参加这场线上研讨会的邦友们也可以清晰 Get 安全闪存关键知识点，邦

发表于 02-12 18:15 •393次阅读

Kaggle知识点：7种超参数搜索方法

数据科学超参数搜索确实是机器学习生命周期中不可或缺的一步，特别是在模型性能方面。正确的超参数选择可以显著提高模型的准确性、对未见数据的泛化能力以及收敛速度。不当的超参数选择可能导致过拟合或欠拟合等

发表于 02-08 14:28 •367次阅读

Kaggle<b class='flag-5'>知识点</b>：7种超参数搜索方法

Aigtek功率放大器应用：电感线圈的知识点分享

电磁驱动是功率放大器的一大基础应用领域，其中我们最常见的就是用功放来驱动电感线圈，那么关于电感线圈的这10大知识点你都知道吗？今天Aigtek安泰电子来给大家介绍一下电感线圈的基础知识。

发表于 01-07 15:43 •215次阅读

Aigtek功率放大器应用：电感线圈的<b class='flag-5'>知识点</b>分享

后悔没有早点看到：天线设计中的知识点！

Cat.1 bis R13架构，天线架构精简为单天线架构，去掉了分集接收天线，因此只需要一根天线。 知识点： Cat.1 bis相对于Cat.1的区别是，后者为两根天线(一根主天线，一根分集天线

发表于 12-24 17:11 •586次阅读

后悔没有早点看到：天线设计<b class='flag-5'>中</b>的<b class='flag-5'>知识点</b>！

接口测试理论、疑问收录与扩展相关知识点

本文章使用王者荣耀游戏接口、企业微信接口的展示结合理论知识，讲解什么是接口测试、接口测试理论、疑问收录与扩展相关知识点的知识学院，快来一起看看吧~

发表于 11-15 09:12 •422次阅读

接口测试理论、疑问收录与扩展<b class='flag-5'>相关</b><b class='flag-5'>知识点</b>

【「时间序列与机器学习」阅读体验】+ 简单建议

这本书以其系统性的框架和深入浅出的讲解，为读者绘制了一幅时间序列分析与机器学习融合应用的宏伟蓝图。作者不仅扎实地构建了时间序列分析的基础知识，更巧妙地展示了机器

发表于 08-12 11:21

MySQL知识点汇总

大家好，这部分被称为DQL部分，是每个学习MySQL必须要学会的部分，下面就让我来介绍MySQL中的其他部分。

发表于 08-05 15:27 •481次阅读

【《大语言模型应用指南》阅读体验】+ 基础篇

今天开始学习《大语言模型应用指南》第一篇——基础篇，对于人工智能相关专业技术人员应该可以轻松加愉快的完成此篇阅读，但对于我还是有许多的知识点、专业术语比较陌生，需要网上搜索学习更多的资

发表于 07-25 14:33

机器学习中的数据分割方法

在机器学习中，数据分割是一项至关重要的任务，它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器

发表于 07-10 16:10 •2307次阅读

如何理解机器学习中的训练集、验证集和测试集

理解机器学习中的训练集、验证集和测试集，是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了模型学习

发表于 07-10 15:45 •4896次阅读

深度学习模型中的过拟合与正则化

测试数据或新数据上表现不佳的现象。为了解决这个问题，正则化（Regularization）技术应运而生，成为深度学习中不可或缺的一部分。本文将从过拟合的原因、表现、

发表于 07-09 15:56 •1195次阅读

模拟电子技术知识点问题总结概览

给大家分享模拟电子技术知识点问题总结。

发表于 05-08 15:16 •1273次阅读

深入探讨机器学习的可视化技术

机器学习可视化（简称ML可视化）一般是指通过图形或交互方式表示机器学习模型、数据及其关系的过程。

发表于 04-25 11:17 •507次阅读

一篇搞定DCS系统相关知识点

目标。DCS系统广泛应用于各个行业，如化工、电力、制药等。在这些行业中，DCS系统可以实现对生产过程的集中监控和分散控制，提高生产效率和产品质量，降低能耗和减少环境污染，从而保证产品质量，并确保生产过程的安全可靠。二.DCS系统知识点

发表于 03-26 18:40 •1092次阅读

【量子计算机重构未来 | 阅读体验】第二章关键知识点

本帖最后由 oxlm_1 于 2024-3-6 23:20 编辑之所以将第二章单独拿出来，是因为在阅读过程中，发现第二章知识点较多，理解起来比较耗时间。第二章的主要知识点：量子

发表于 03-06 23:17

搜索历史

机器学习中的正则化的相关知识点

评论

华邦电子安全闪存关键知识点

Kaggle知识点：7种超参数搜索方法

Aigtek功率放大器应用：电感线圈的知识点分享

后悔没有早点看到：天线设计中的知识点！

接口测试理论、疑问收录与扩展相关知识点

【「时间序列与机器学习」阅读体验】+ 简单建议

MySQL知识点汇总

【《大语言模型应用指南》阅读体验】+ 基础篇

机器学习中的数据分割方法

如何理解机器学习中的训练集、验证集和测试集

深度学习模型中的过拟合与正则化

模拟电子技术知识点问题总结概览

深入探讨机器学习的可视化技术

一篇搞定DCS系统相关知识点

【量子计算机重构未来 | 阅读体验】第二章关键知识点