0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一篇文章讲清楚交叉熵和KL散度

深度学习自然语言处理 来源:PaperWeekly 作者:康斯坦丁 2022-11-16 15:35 次阅读

看了很多讲交叉熵的文章,感觉都是拾人牙慧,又不得要领。还是分享一下自己的理解,如果看完这篇文章你还不懂这俩概念就来掐死我吧。

1

『先翻译翻译,什么叫惊喜』

我们用 表示事件 发生的概率。这里我们先不讨论概率的内涵, 只需要遵循直觉: 可以衡量事件 发生时会造成的惊喜(行文需要,请按照中性理解)程度: 概率越低的事件发生所造成的惊喜程度高;概率越高的事件发生所造成的惊喜程度低。 但是概率倒数这一运算的性质不是很好,所以在不改变单调性的情况下,可以将惊喜度(surprisal)定义为:

10ee981e-64f1-11ed-8abf-dac502259ad0.png

这样定义后产生了另外两个好处: 1. 确定性事件的惊喜度 = 0; 2. 如果有多个独立事件同时发生,他们产生的惊喜度可以直接相加。是的,一个事件发生概率的倒数再取对数就是惊喜。

2

信息熵,不过只是惊喜的期望』

惊喜度,在大部分文章里,都叫做信息量,但这个命名只是香农根据他研究对象的需要而做的,对于很多其它的场景,要生搬硬套就会变得非常不好理解了。 信息量 = 惊喜度,那么信息熵呢?看看公式不言自明:

11065166-64f1-11ed-8abf-dac502259ad0.png

或是连续形式:

111e3ccc-64f1-11ed-8abf-dac502259ad0.png

这不就是惊喜度的期望吗? 换句话说,信息熵描述的是整个事件空间会产生的平均惊喜。 什么情况下,平均惊喜最低呢?确定事件。以某个离散随机分布为例,整个分布在特定值 为 1,其它处均为 0,此时的信息熵/平均惊喜也为 0。 什么情况下产生的平均惊喜最高呢?自然是不确定越高平均惊喜越高。对于给定均值和方差的连续分布,正态分布(高斯分布)具有最大的信息熵(也就是平均惊喜)。所以再想想为什么大量生活中会看到的随机事件分布都服从正态分布呢?说明大自然有着创造最大惊喜的倾向,或者说,就是要让你猜不透。这也是理解热力学中的熵增定律的另一个角度。

3

『交叉熵,交叉的是古典和贝叶斯学派』

对于概率,比较经典的理解是看做是重复试验无限次后事件频率会逼近的值,是一个客观存在的值;但是贝叶斯学派提出了另一种理解方式:即将概率理解为我们主观上对事件发生的确信程度。针对同一个随机变量空间有两个分布,分别记作和; 是我们主观认为会发生的概率,下标代表 subjective; 是客观上会发生的概率,下标 ○ 代表 objective。 这种情况下,客观上这个随机事件会给我们造成惊喜的期望应该是:

1132fa68-64f1-11ed-8abf-dac502259ad0.png

这个量 is a.k.a 交叉熵。 再翻译一下,交叉熵是什么?可以理解为:我们带着某个主观认知去接触某个客观随机现象的时候,会产生的平均惊喜度。 那什么时候交叉熵(也就是我们会获得的平均惊喜度)会大?就是当我们主观上认为一个事情发生的概率很低很大),但是客观上发生概率很高很大) 的时候,也就是主观认知和客观现实非常不匹配的时候。机器学习当中为啥用交叉熵来当作损失函数应该也就不言自明了。

4

『相对熵,K-L散度』

交叉熵可以衡量我们基于某种主观认识去感受客观世界时,会产生的平均惊喜。但是根据上面的分析,即使主观和客观完全匹配,这时交叉熵等于信息熵,只要事件仍然随机而非确定,就一定会给我们造成一定程度的惊喜。那我们要怎么度量主观认识和客观之间差异呢?可以用应该用以当前对“世界观”产生的惊喜期望和完全正确认识事件时产生的惊喜期望的差值来衡量,这个就是相对熵(常称作 KL-散度),通常写作:

11443508-64f1-11ed-8abf-dac502259ad0.png

当我们的主观认知完全匹配客观现实的时候,KL-散度应该等于 0,其它任何时候都会大于 0。由于存在恒为正这一性质,KL-散度经常用于描述两个分布是否接近,也就是作为两个分布之间“距离”的度量;不过由于运算不满足交换律,所以又不能完全等同于“距离”来理解。 机器学习中通常用交叉熵作为损失函数的原因在与,客观分布并不随参数变化,所以即使是优化 KL-散度,对参数求导的时候也只有交叉熵的导数了。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8367

    浏览量

    132351
  • 交叉熵
    +关注

    关注

    0

    文章

    4

    浏览量

    2349

原文标题:一篇文章讲清楚交叉熵和KL散度

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    有什么影响?杂从哪里来?

    说到射频的难点不得不提杂,杂也是射频被称为“玄学”的来源。杂也是学习射频必经的个难点。本篇文章就来讲下杂
    的头像 发表于 11-05 09:59 382次阅读
    杂<b class='flag-5'>散</b>有什么影响?杂<b class='flag-5'>散</b>从哪里来?

    电容的“通交流、阻直流”,终于有人讲清楚了!

    “通交阻直”是电容重要的特性之,即电容可以交流电导通,但直流电阻断。 这是为什么呢? 从理论上来讲,电荷是根本不能在电容中流动的。 因为在平行板电容上电后,块板带正电,另块板带负电,在两快板
    发表于 10-09 11:43

    交叉滚子导轨-规格型号VR系列

    VR系列交叉滚子导轨的工作原理:东莞兆松交叉滚子使用呈90交叉布置的成排滚柱作为两个V型导轨条之间的滚动体。滚柱在两条导轨之间,沿导轨的两个呈90
    的头像 发表于 09-03 08:30 360次阅读
    <b class='flag-5'>交叉</b>滚子导轨-规格型号VR系列

    可控硅驱动光电耦合器KL306X 产品规格书

    KL306XDIP6零交叉双向可控硅驱动光电耦合器1.产品特点Productfeatures•峰值击穿电压600V•输入与输出间高隔离电压(Viso=5000Vrms)•零电压交叉
    发表于 08-20 15:27 0次下载

    高速光耦KL2601&KL2611 产品规格书

    KL2601,KL2611DIP8高速10MBit/s逻辑门光耦1.产品特点Productfeatures•高速10MBit/sHighspeed10Mbit/s•最小10kV/μs共模瞬变抗扰
    发表于 08-20 15:00 0次下载

    高速光耦KL220X 产品规格书

    KL2200,KL2201,KL2202DIP8高速低输入电流逻辑门光耦1.产品特点Productfeatures•最小共模瞬态抗扰1kV/μs•可保证在-40至85℃温度范围内运行
    发表于 08-20 14:57 0次下载

    KL4N29~33 达林顿光耦 产品规格书

    KL4N29~33DIP6达林顿光耦1.产品特点Productfeatures•KL4NXX系列:KL4N29、KL4N30、KL4N31、
    发表于 08-20 14:51 0次下载

    阿里云设备的物模型数据里面始终没有值是为什么?

    如上图,不知道讲清楚没有。 IG502自定义TOPIC 上发到阿里云没问题。采用阿里云物模型的格式来上发就不行。请大佬指教!
    发表于 07-24 07:49

    M8连接器对使用环境有什么要求,文章讲清楚!

    M8连接器对使用环境有什么要求?德索精密工业,专业生产M8连接器十八年,欢迎前来采购M8相关产品。任何产品在使用中,或多或少对使用环境都有定的要求,由于统物体在不同环境中的技术机能也会发生改变
    的头像 发表于 03-18 16:39 345次阅读
    M8连接器对使用环境有什么要求,<b class='flag-5'>一</b><b class='flag-5'>篇</b>文章<b class='flag-5'>讲清楚</b>!

    干货!收藏!讲清楚数据治理到底是什么?

    数据治理的两个目标:个是提质量,个是控安全。通过业务流程优化,规范数据从产生、处理、使用到销毁的整个生命周期,使得数据在各阶段、各流程环节安全可控,合规使用。 数据治理治的是“数据”吗? 数据
    的头像 发表于 02-01 10:40 404次阅读
    干货!收藏!<b class='flag-5'>一</b>文<b class='flag-5'>讲清楚</b>数据治理到底是什么?

    工业级连接器如何做到高抗冲击性?选款定要了解这几点

    连接器知识分享工业级连接器多用在工厂、车载、户外等复杂场景下,因而面临冲击等应力影响的概率极高。工业级连接器如何做到高抗冲击性,确保高可靠连接呢?这篇文章讲清楚。工业级连接器如何做到高抗冲击性?LP
    的头像 发表于 01-06 08:13 322次阅读
    工业级连接器如何做到高抗冲击性?选款<b class='flag-5'>一</b>定要了解这几点

    如何确定DDS输出信号频谱中的杂

    直接数据频率合成器(DDS)因能产生频率捷变且残留相位噪声性能卓越而著称。另外,多数用户都很清楚DDS输出频谱中存在的杂噪声,比如相位截断杂以及与相位-幅度转换过程相关的杂等。此
    发表于 12-15 07:38

    什么是激光斑 激光斑产生原因和原理

    斑的存在往往影响到光学仪器的分辨率。激光器用于全息照明 之后,也发现了激光斑对全息照相分辨率的影响。
    的头像 发表于 12-04 09:35 2462次阅读
    什么是激光<b class='flag-5'>散</b>斑 激光<b class='flag-5'>散</b>斑产生原因和原理

    Scaling Law大模型设计实操案例

    纵轴是"Bits for words", 这也是交叉个单位。在计算交叉时,如果使用以 2 为底的对数,
    的头像 发表于 11-22 16:08 725次阅读
    Scaling Law大模型设计实操案例

    文认识压敏电阻

    今天这篇文章用5000字的篇幅讲清楚压敏电阻。
    的头像 发表于 11-20 17:34 4429次阅读
    <b class='flag-5'>一</b>文认识压敏电阻