0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

可视化数据科学中的概率分布可帮你更好地理解各种分布

电子设计 来源:电子设计 作者:电子设计 2020-12-14 23:07 次阅读

在某些分布假设下,某些机器学习模型被设计为最佳工作。因此,了解我们正在使用哪个发行版可以帮助我们确定最适合使用哪些模型。

介绍

拥有良好的统计背景可能对数据科学家的日常生活大有裨益。每次我们开始探索新的数据集时,我们首先需要进行探索性数据分析(EDA),以了解某些功能的主要特征是什么。如果我们能够了解数据分布中是否存在任何模式,则可以量身定制最适合我们的案例研究的机器学习模型。这样,我们将能够在更短的时间内获得更好的结果(减少优化步骤)。实际上,某些机器学习模型被设计为在某些分布假设下效果最佳。因此,了解我们正在使用哪些发行版可以帮助我们确定最适合使用哪些模型。

同类型的数据

我们正在与一个数据集工作,每次,我们的数据代表一个样本人口。然后,使用此样本,我们可以尝试了解其主要模式,以便我们可以使用它对整个人口进行预测(即使我们从未有机会检查整个人口)。

假设我们要根据一组特定功能来预测房屋的价格。我们也许可以在线找到一个包含旧金山所有房价的数据集(我们的样本),并且进行一些统计分析之后,我们也许可以对美国任何其他城市的房价做出相当准确的预测(我们的人口)。

数据集由两种主要类型的数据组成:数字(例如整数,浮点数)和分类(例如名称,笔记本电脑品牌)。

数值数据还可以分为其他两类:离散继续。离散数据只能采用某些值(例如学校中的学生人数),而连续数据可以采用任何实数或分数值(例如身高和体重的概念)。

从离散随机变量中,可以计算出概率质量函数,而从连续随机变量中,可以得出概率密度函数

概率质量函数给出了一个变量可以等于某个值的概率,相反,概率密度函数的值本身并不是概率,因为它们首先需要在给定范围内进行积分。

自然界中存在许多不同的概率分布(概率分布流程图),在本文中,我将向您介绍数据科学中最常用的概率分布。

首先,让我们导入所有必需的库:

伯努利分布

伯努利分布是最容易理解的分布之一,可用作导出更复杂分布的起点。

这种分布只有两个可能的结果和一个试验。

一个简单的例子可以是抛掷偏斜/无偏硬币。在此示例中,可以认为结果可能是正面的概率等于p,而对于反面则是(1-p)(包含所有可能结果的互斥事件的概率总和为1)。

在下图中,我提供了一个偏向硬币情况下伯努利分布的例子。

均匀分布

均匀分布可以很容易地从伯努利分布中得出。在这种情况下,结果的数量可能不受限制,并且所有事件的发生概率均相同。

例如,想象一下一个骰子的掷骰。在这种情况下,存在多个可能的事件,每个事件都有相同的发生概率。

二项分布

二项分布可以被认为是遵循伯努利分布的事件结果的总和。因此,二项分布用于二元结果事件,成功和失败的可能性在所有后续试验中均相同。此分布采用两个参数作为输入:事件发生的次数和分配给两个类别之一的概率。

一个实际的二项式分布的简单示例可以是重复一定次数的有偏/无偏硬币的抛掷。

改变偏差量将改变分布的外观(如下图所示)。

二项分布的主要特征是:

  • 给定多个试验,每个试验彼此独立(一项试验的结果不会影响另一项试验)。
  • 每个试验只能导致两个可能的结果(例如,获胜或失败),其概率分别为p(1- p)

如果给出成功的概率(p)和试验次数(n),则可以使用以下公式计算这n次试验中的成功概率(x)(下图)。

正态(高斯)分布

正态分布是数据科学中最常用的分布之一。我们日常生活中发生的许多常见现象都遵循正态分布,例如:经济中的收入分布,学生的平均报告,人口的平均身高等。此外,小的随机变量的总和还导致:通常遵循正态分布(中心极限定理)。

“在概率论中,中心极限定理CLT)确定,在某些情况下,当添加独立随机变量时,即使原始变量本身未呈正态分布,其适当归一化的和也趋于正态分布。”

—维基百科

可以帮助我们识别正态分布的一些特征是:

  • 曲线在中心对称。因此,均值,众数和中位数都等于相同的值,从而使所有值围绕均值对称分布。
  • 分布曲线下的面积等于1(所有概率之和必须等于1)。

可以使用以下公式得出正态分布(下图)。

使用正态分布时,分布平均值和标准偏差起着非常重要的作用。如果我们知道它们的值,则只需检查概率分布即可轻松找出预测精确值的概率(下图)。实际上,由于分布特性,68%的数据位于平均值的一个标准偏差范围内,95%的数据位于平均值的两个标准偏差范围内,99.7%的数据位于平均值的三个标准偏差范围内。

许多机器学习模型被设计为遵循正态分布的最佳使用数据。一些例子是:

  • 高斯朴素贝叶斯分类器
  • 线性判别分析
  • 二次判别分析
  • 基于最小二乘的回归模型

此外,在某些情况下,还可以通过应用对数和平方根之类的转换将非正常数据转换为正常形式。

泊松分布

泊松分布通常用于查找事件可能发生或不知道事件通常发生的频率。此外,泊松分布还可用于预测事件在给定时间段内可能发生多少次。

例如,保险公司经常使用泊松分布来进行风险分析(例如,在预定时间范围内预测车祸事故的数量),以决定汽车保险的价格。

当使用Poisson Distributions时,我们可以确信发生不同事件之间的平均时间,但是事件发生的确切时刻在时间上是随机间隔的。

泊松分布可以使用以下公式建模(下图),其中λ表示一个时期内可能发生的预期事件数。

描述泊松过程的主要特征是:

  1. 事件彼此独立(如果事件发生,则不会改变另一个事件发生的可能性)。
  2. 一个事件可以发生任何次数(在定义的时间段内)。
  3. 两个事件不能同时发生。
  4. 事件发生之间的平均速率是恒定的。

在下图中,显示了改变周期(λ)中可能发生的事件的预期数目如何改变泊松分布。

指数分布

最后,指数分布用于对不同事件发生之间的时间进行建模。

举例来说,假设我们在一家餐厅工作,并且希望预测到到不同顾客进入餐厅之间的时间间隔。针对此类问题使用指数分布,可能是一个理想的起点。

指数分布的另一个常见应用是生存分析(例如,设备/机器的预期寿命)。

指数分布由参数λ调节。λ值越大,指数曲线到十年的速度就越快(下图)。

指数分布使用以下公式建模(下图)。

如果你喜欢本文的话,欢迎点赞转发!谢谢。

看完别走还有惊喜!

我精心整理了计算机/Python/机器学习/深度学习相关的2TB视频课与书籍,价值1W元。关注微信公众号“计算机与AI”,点击下方菜单即可获取网盘链接。

审核编辑:符乾江

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24362
  • 机器学习
    +关注

    关注

    66

    文章

    8454

    浏览量

    133170
收藏 人收藏

    评论

    相关推荐

    七款经久不衰的数据可视化工具!

    量的激增,单纯通过数字和文本来分析数据已不再高效。数据可视化则提供了一种直观、互动性强的方式,帮助人们通过视觉元素,如柱状图、折线图、饼图、热力图等图表形式,理解复杂的
    发表于 01-19 15:24

    “一键寻阀”拓扑数据可视化,管网分布监控 #拓扑 #数据可视化 #管网分布

    数据可视化
    阿梨是苹果
    发布于 :2024年12月31日 14:44:36

    什么是大屏数据可视化?特点有哪些?

    大屏数据可视化是指通过大屏幕展示大量数据和信息,以直观、可视化的方式帮助用户理解和分析数据。这种
    的头像 发表于 12-16 16:59 316次阅读

    如何找到适合的大屏数据可视化系统

    选择合适的大屏数据可视化系统是企业或组织在数字转型过程至关重要的一步。一个优秀的大屏数据可视化
    的头像 发表于 12-13 15:47 187次阅读

    Minitab 数据可视化技巧

    数据分析领域,数据可视化是一种将数据以图形或图像的形式展示出来的技术,它可以帮助我们更直观地理解数据,发现
    的头像 发表于 12-02 15:40 473次阅读

    智慧园区数据可视化优势体现在哪些地方

    、地图、仪表盘等形式呈现数据,使复杂的数据变得直观易懂,帮助用户更快速、准确地理解数据。 2.实时监控与反馈:数据可视化工具可以实时监测园区
    的头像 发表于 11-15 10:30 270次阅读
    智慧园区<b class='flag-5'>数据</b><b class='flag-5'>可视化</b>优势体现在哪些地方

    三维可视化运用的主要技术

    三维可视化技术是一种强大的工具,可用于呈现复杂的数据和概念,使人们能够更直观地理解信息。在当今数字化时代,三维可视化已经成为许多领域中不可或缺的技术,包括工程、医学、
    的头像 发表于 07-19 13:56 375次阅读

    物联网云平台地图数据可视化

    可视化技术以其直观、高效、易于理解的特点,成为了一个不可或缺的组成部分。 物联网云平台地图数据可视化功能,是指将物联网设备采集的各类数据,通
    的头像 发表于 07-01 17:10 412次阅读

    大屏数据可视化 开源

    在当今信息爆炸的时代,数据已经成为各个行业决策制定和业务发展的关键。为了更直观、准确地理解和利用海量数据, 大屏数据可视化 成为一种强大的工
    的头像 发表于 06-27 16:06 491次阅读
    大屏<b class='flag-5'>数据</b><b class='flag-5'>可视化</b> 开源

    态势数据可视化技术有哪些

    智慧华盛恒辉态势数据可视化技术是一种将数据以图形、图像、动画等视觉形式展现出来的技术,特别是在处理和分析态势数据时,该技术能够将复杂的数据
    的头像 发表于 06-11 15:47 436次阅读

    大屏数据可视化的作用和意义

    大屏数据可视化是指利用大屏幕设备展示数据信息,通过图表、图像、动画等视觉手段将数据呈现出来,以便用户能够直观、清晰
    的头像 发表于 06-03 17:56 804次阅读

    三维可视化的优势有哪些?

    观的数据表达:三维可视化使数据以更接近真实世界的方式呈现,帮助人们更直观地理解数据之间的关系、模式和趋势。通过在三维空间中查看数据,人们可以
    的头像 发表于 05-28 17:03 781次阅读
    三维<b class='flag-5'>可视化</b>的优势有哪些?

    大屏数据可视化是什么?运用了什么技术

    大屏数据可视化 是一种利用大屏幕设备展示数据可视化结果的技术,旨在以更生动、直观的方式呈现数据信息。这种
    的头像 发表于 05-24 15:35 943次阅读

    智慧城市-可视化,进一步提高信息建设水平

    智能城市可视化是指整合各种城市信息资源,以地图、虚拟现实等形式展示各种城市数据,更直观地了解和管理城市的运行和发展。智能城市可视化主要通过
    的头像 发表于 05-22 16:49 513次阅读

    态势数据可视化技术有哪些

    智慧华盛恒辉态势数据可视化技术是一种将复杂、动态的态势数据以直观、易于理解的方式展现出来的技术手段。以下是几种主要的态势数据
    的头像 发表于 04-22 15:17 482次阅读