0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于条件概率分类的两种模型算法:logistic回归模型与最大熵模型。

lviY_AI_shequ 来源:lp 2019-04-13 10:45 次阅读

条件概率是机器学习模型的一种表现形式,应用这一模型,对于给定的输入X,得到各输出类的概率,选择最大概率的类为输出类,如下图:

本文介绍基于条件概率分类的两种模型算法:逻辑斯蒂(logistic)回归与最大熵模型,其中,logistic回归模型和最大熵模型分别是基于最大似然函数和熵来估计模型P(y|x)。公众号已有logistic回归模型的文章介绍,本文重点分析最大熵模型算法。

目录

1. 最大熵模型算法

2. 最大熵模型例子

3. 最大熵模型在信号检测的应用

4. logsitic回归模型算法

5. 总结

1.最大熵模型算法

熵是衡量随机变量不确定性的指标,熵越大,随机变量的不确定性亦越大。假设X是一个离散型随机变量,其概率分布为:

随机变量X的熵定义为:

熵满足下列不等式:

式中,|X|是x的取值个数,当且仅当X的分布是均匀分布时,右边的等号成立,也就是说,当X服从均匀分布时,熵最大。

1.1 最大熵模型的定义

最大熵原理是概率模型学习的一个准则,最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。条件概率是机器学习模型的一种表现形式,学习该模型的一种方法是最大化该条件概率的熵,即最大化下式:

其中表示变量X的经验分布:

其中v(X=x)表示训练数据中输入x出现的频数,N表示样本容量。

(1)式的未知变量就是需要学习的模型。

我们在构建分类模型的过程中假设训练数据集的联合概率分布与真实模型的联合概率分布相等,这一假设用特征函数f(x,y)的期望来描述,特征函数的定义:

特征函数f(x,y)关于训练数据集的联合概率分布的期望值,用表示:

其中,

,v(X=x,Y=y)表示训练数据中样本(x,y)出现的频数。

特征函数f(x,y)关于模型与经验分布的期望值,用表示:

假设两者期望相等,即:

结合(1)(4)式,得到最大熵模型:

约束条件:

1.2 最大熵模型的学习

我们求解(5)式在约束条件下的最大值,其对应的模型P(Y|X)就是所学习的最优模型。

对于给定的训练数据集以及特征函数,i=1,2,...,n,最大熵模型的学习等价于约束最优化问题:

将最大值问题转化为等价的求最小值问题:

引入拉格朗日乘子将约束的最优化问题转换为无约束最优化的对偶问题,通过求解对偶问题求解原始问题。

定义拉格朗日函数L(P,w):

最优化的原始问题:

对偶问题:

得:

由于,对上式进行归一化得:

其中,

易知对偶问题外部的极大化问题:

根据上式求解的代入(2.4)式,得到最终的学习模型P(y|x)。

2. 最大熵模型例子

假设随机变量Y有5个取值,假设随机变量Y的条件概率分布满足如下条件:

求最大熵模型对应的概率分布P(Y)。

最大熵模型的目标函数:

引进拉格朗日乘子,定义拉格朗日函数:

,得:

将上式代入函数L(P,w)得,令,得:

于是最大熵模型对应的概率分布:

3. 熵模型在信号检测的应用

由第一节我们知道,熵是描述事物不确定性的指标。我们将熵的这一性质应用在信号检测领域,当信号包含了较强的随机噪声时或被噪声完全掩盖时,信号的随机性大大的增加了,其对应的熵也较大,根据这一原理对信号的质量进行检测,下图是用熵检测心电信号质量的效果图:

黑色表示较好的心电信号质量,红色表示较差的心电信号质量。

4. logistic回归算法

logistic回归是一种概率分类模型,对于二分类任务来说,其条件概率分布:

我们用最小化损失函数去估计上式的模型参数。对于给定的训练数据集,其中,

设:

似然函数为:

对数似然函数为:

损失函数为:

用梯度下降法求解w的估计值

代入(2.1)(2.2)式,得到逻辑斯蒂回归模型P(y|x),其中向量包含了b值。

5. 小结

本文介绍基于条件概率分类的两种模型算法:logistic回归模型与最大熵模型,其中,logistic回归模型是基于最大似然函数估计模型P(y|x),最大熵模型是基于熵这一指标估计模型P(y|x)。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3238

    浏览量

    48824
  • 机器学习
    +关注

    关注

    66

    文章

    8414

    浏览量

    132606
  • Logistic
    +关注

    关注

    0

    文章

    11

    浏览量

    8852

原文标题:最大熵模型算法总结

文章出处:【微信号:AI_shequ,微信公众号:人工智能爱好者社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用机器学习和大数据何建立信用评分的模型

    利用Logistic回归拟合信用评分卡模型
    发表于 04-19 16:27

    机器学习之偏差、方差,生成模型,判别模型,先验概率,后验概率

    机器学习:偏差、方差,生成模型,判别模型,先验概率,后验概率
    发表于 05-14 15:23

    回归算法有哪些,常用回归算法(3)详解

    随机梯度下降来估计系数。损失函数通常被定义为交叉项: 逻辑回归用于分类问题,例如,对于给定的医疗数据,可以使用逻辑回归判断一个人是否患有癌症。如果输出类别变量具有
    发表于 07-28 14:36

    Edge Impulse的回归模型

    Edge Impulse的回归模型可以从数据中学习模式,并将其应用于新数据。 非常适合预测数字连续值。
    发表于 12-20 06:21

    使用KNN进行分类回归

    一般情况下k-Nearest Neighbor (KNN)都是用来解决分类的问题,其实KNN是一可以应用于数据分类和预测的简单算法,本文中我们将它与简单的线性
    发表于 10-28 14:44

    基于概率粗糙集模型的信息检索

    针对经典粗糙集模型难以分类标引空间以及体现类间关联的缺陷,将条件概率关系结合粗糙集理论引入信息检索,提出一基于
    发表于 04-10 08:47 10次下载

    LTL概率模型检验工具的实现与优化

    概率模型检验建立在非概率模型检验技术的基础上,不仅能够对系统进行定性的验证,还能够定量判断系统满足相关性质的概率,具有广泛的适用性。LTL
    发表于 11-21 15:09 6次下载
    LTL<b class='flag-5'>概率</b><b class='flag-5'>模型</b>检验工具的实现与优化

    基于Wasserstein距离概率分布模型的非线性降维算法

    降维是大数据分析和可视化领域中的核心问题,其中基于概率分布模型的降维算法通过最优化高维数据模型和低维数据模型之间的代价函数来实现降维。这种策
    发表于 11-24 17:13 3次下载

    基于概率主题模型的景点主题模型

    针对旅游文本噪声多、景点多且展示不直观的问题,提出一基于概率主题模型的景点一主题模型模型假设同一篇文档涉及多个具有相关关系的景点,引入全
    发表于 12-13 14:07 3次下载

    掌握logistic regression模型,有必要先了解线性回归模型和梯度下降法

    先回想一下线性回归,线性回归模型帮助我们用最简单的线性方程实现了对数据的拟合,然而,这只能完成回归任务,无法完成分类任务,那么 logist
    的头像 发表于 06-04 11:31 7595次阅读
    掌握<b class='flag-5'>logistic</b> regression<b class='flag-5'>模型</b>,有必要先了解线性<b class='flag-5'>回归</b><b class='flag-5'>模型</b>和梯度下降法

    如何使用概率模型进行非均匀数据聚类算法的设计介绍

    针对传统K-means型算法的“均匀效应”问题,提出一基于概率模型的聚类算法。首先,提出一个描述非均匀数据簇的高斯混合分布
    发表于 12-13 10:57 10次下载

    基于交叉算法的跟驰模型标定

    的确定性标定方法会导致大量局部最优值的出现。在此基础上,本文提出了基于交叉算法的跟驰模型标定的框架,基于蒙地卡罗与重要样本策略逐步逼近参数的最优概率密度函数。实例分别采用合成数据与实
    发表于 01-11 16:23 8次下载
    基于交叉<b class='flag-5'>熵</b><b class='flag-5'>算法</b>的跟驰<b class='flag-5'>模型</b>标定

    广义线性模型介绍

    从线性回归logistic回归,softmax回归最大
    的头像 发表于 11-22 15:10 4305次阅读

    基于直方图条件的水声数据分类算法

    水声数据中目标的不确定性以及各种物质的声纳数据值的杂合程度,使基于直方图最大值和直方图算法都不能很好地解决水声数据分类的问题。为此,提出一
    发表于 04-21 10:12 9次下载

    机器学习常用的十大算法

    二项logistic回归模型是一分类模型,由条件
    发表于 10-16 10:10 2039次阅读