0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在Tableau中盒须图帮你6步筛除异常值

Tableau社区 来源:未知 作者:工程师曾玲 2018-10-02 11:29 次阅读

如果您熟悉盒须图,那么您也知道这是一个非常好的图表来检查数据的分布并突出显示异常值。但有时仅仅显示异常值是不够的,我们可能也想筛选掉异常值,因为这些异常值可能是由于数据问题或某些我们不希望在分析中包含的特定情况所引起的。那我们该如何在 Tableau 中根据盒须图的逻辑筛选出异常值?

如果您不确定盒须图的样子,下图是一个简单的示意图。

图表中的每个圆圈代表 Sample Superstore Sales Excel 文件中美国各个州的总利润。盒子展示了各个州利润的中位数以及上四分位数(百分位 75)和下四分位数(百分位 25)之间的范围。另外两条须分别代表仍在 1.5 IQR 范围内的最低和最高线。IQR 是四分位数的范围 - 上四分位数和下四分位数之间的差值。也就是说,每条须都显示了该范围之间的数据点。

因此,如果我们想要筛除或突出异常值,我们需要计算 IQR 和所有在 IQR+/- 1.5 倍之内的数据。那么我们该怎么做?

第 1 步计算百分位 25 和百分位 75

首先,我们要计算百分位 25(Q1)和百分位 75(Q3)之间的所有数据。也就是盒子内的所有数据。为此,我们将使用度量(利润)的百分位数创建计算字段,并使用布尔运算让该范围之间的所有数据点返回 TRUE 值。

在 P25 和 P75 之间:

RANK_PERCENTILE(SUM([Profit]))<=0.75 and 

RANK_PERCENTILE(SUM([Profit]))>=0.25

此计算将让 Q1 和 Q3 之间的所有数据点返回 True 值。在我们的示例中,我们必须确保计算按州进行。因此我们可以将它放置在颜色架上来确保计算是按照我们希望的方式进行的。

第 2 步计算盒子的限制 – 下限与上限

我们已经在步骤 1 中突出显示了 Q1 和 Q3 之间的所有数据点。现在我们需要计算 Q1 的下限和 Q3 的上限,这样我们就可以计算出 IQR,这就是百分位 25 和百分 75 之间的差值。通常我们可以使用 LOD 来计算这些数字,但是由于我们不能在 LOD 中使用表计算,所以我们需要寻找另一个解决方案。为此,我们将在 WINDOW_MAX 中使用 IF 语句,而我们只能获得百分位 25 和百分位 75 之间的数据最大值 – 也就是上限。

Q1 和 Q3 之间的最大值

WINDOW_MAX(IF [Between P25 and P75] THEN SUM([Profit] ELSE NULL END)

我们将用同样的方法来计算最小值以获得 Q1 和 Q3 之间的下限。

Q1 和 Q3 之间的最小值

WINDOW_MIN(IF [Between P25 and P75] THEN SUM([Profit] ELSE NULL END)

就像我们在步骤 1 中进行计算一样,在我们的例子中,我们必须确保两个计算都是按州进行。我们还可以将两个计算放到到详细信息中,并将它们添加为参考线,以检查数字是否正确,如下图所示。

这看起来非常像步骤 1 之后的图像,但是如果您仔细看图,您可以发现使用刚刚建立的计算所制作的两条参考线,与上下限相互重合了。这表明我们离成功越来越近了!

第 3 步计算 IQR

我们之前也提到过 IQR 是 Q3 和 Q1 之间的差值,也是百分位 25 和百分位 75 之间的数据上下限之间的差值。换句话说,也就是我们在步骤 2 中所构建的两个计算之间的差异。可能是这篇文章中最简单的一步:

IQR:

[Max between Q1 and Q3] – [Min between Q1 and Q3]

第 4 步计算上下须

第 3 步很简单,而第 4 步也不困难。在上文中,我们已将须扩大到了 IQR 1.5 倍以内的数据。因此,我们只需要使用步骤 2 中构建的 Q1 和 Q3 之间的数据上下限以及步骤 3 中计算的 IQR 来计算上下须之间的数据范围,如下所示:

下须:

[Min between Q1 and Q3] – (1.5 * [IQR])

上须:

[Max between Q1 and Q3] + (1.5 * [IQR])

请小心并特别注意差值。对于较低的须而言,我们必须减去 1.5 倍的 IQR,并为上须增加 1.5 倍的 IQR。与上文一样,在我们的例子中,我们必须确保使用州来进行此计算。

第 5 步标记异常值

我们离成功很近了。现在我们有了来识别异常值的所有值。基本上来说,异常值将是低于我们下须极限或高于我们上须极限的所有数据点。我们可以用与步骤 1 非常相似的方式来创建一个计算,让这些异常值返回 TRUE 值。

异常值:

SUM([Profit]) < [Lower Whisker Limit] OR SUM([Profit])  > [Upper Whisker Limit]

同样的,请确保使用州(如果您按我们的例子)或代表您标记(圆圈)的维度进行计算。我们可以将这最后的计算放到颜色架中来突出显示异常值。

让异常值变大或变小。

甚至用改变形状的方式来突出异常值。

第 6 步筛除异常值

按照这篇文章的主要目的,我们现在可以做的是筛除异常值。但请记住,盒子和须将会使用新的数据重新计算。例如,如果现在我们将子类别添加到行,我们将获得这样的视图,使用颜色突出显示异常值,证如我们在步骤 5 中提到的那样。

但是我不想将我的异常值放在颜色中,我希望删除盒子和须线,并将异常值计算放到筛选器中,并排除 TRUE 值。然后我可能会添加一个参考线来显示按子类别划分的每个州的平均利润,但不考虑每个子类别的异常值。

完成了!现在我们可以在没有异常值的情况下查看并分析数据,我们也可以看到每个州的利润现在已经比以前更好地分布在子类别中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据分析
    +关注

    关注

    2

    文章

    1449

    浏览量

    34060

原文标题:教你 6 步筛除异常值,快来 Pick 盒须图!

文章出处:【微信号:TableauChina,微信公众号:Tableau社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用AD7656过程采样值每间隔一段时间会有异常值出现是什么原因?

    使用AD7656过程中发现采样值每间隔一段时间(10分钟不等)会有异常值出现(0x4000或0xBFFF),不知什么原因。求分析。
    发表于 12-21 06:20

    Stm32H7 spi会带来更大的adc噪声,导致小信号异常值的原因?

    [Stm32H7]spi会带来更大的adc噪声,导致小信号异常值
    发表于 03-25 06:10

    异常值概述及检验处理

    异常值的处理
    发表于 04-26 13:13

    如何将智能家居系统与Tableau仪表板集成在一起

    首先她下载并安装了 Phue 到 Tableau - Python - Server(又称为 TabPy)。这样就可以通过 Tableau 的 Python 脚本调用库。安装过程
    的头像 发表于 03-30 10:55 5465次阅读

    基于Python在数据流查找异常值的方法

    在上一篇文章,我解释了流算法的概念,并给出了许多如何应用流算法的示例。 其中之一是不保存数据流元素的情况下计算数据流的滚动平均值。 现在,我想扩展这个示例,并在异常值检测的背景下向您展示另一种流算法的用例。
    的头像 发表于 05-03 18:17 3084次阅读
    基于Python在数据流<b class='flag-5'>中</b>查找<b class='flag-5'>异常值</b>的方法

    Tableau与Einstein Analytics 合作推动数据分析

    Tableau CRM,并继续 Salesforce CRM 工作流中提供极致的分析和 AI 体验。 Tableau 可提供强大的数据探索和可视化分析能力,支持客户随时随地从任何数据
    的头像 发表于 10-21 16:35 2583次阅读
    <b class='flag-5'>Tableau</b>与Einstein Analytics 合作推动数据分析

    11月6Tableau 仪表盘设计简化与技巧分析

    道路上和日常工作受到启发,少走弯路,深刻了解 Tableau 的有效使用方法和巨大价值。 Tableau 仪表盘设计简化与技巧分析 日期:11 月 6 日 时间:10:00- 11:
    的头像 发表于 11-02 11:15 3105次阅读

    Tableau 2020.4亮点功能集锦

    集锦 ● 使用浏览器Tableau Prep Builder同一个基于 Web 的集成平台上准备所有数据; ● 借助多项增强功能将您的地理空间分析提升
    的头像 发表于 12-24 17:46 2906次阅读

    如何借助浏览器Tableau Prep Builder准备数据

      随着 Tableau 2020.4 的发布,我们自助数据准备方面取得了令人兴奋的进步。现在,您可以浏览器创建新的 Tableau
    的头像 发表于 12-24 18:01 2608次阅读

    Tableau Catalog能更快地找到正确的表和数据库

    Tableau 2019.3 发布以来,数据发现和信任一直是 Tableau Catalog (Tableau Data Management 的组件)的核心原则。每一个版本
    的头像 发表于 06-13 14:43 1630次阅读

    基于异常检测的模型表现对比

    但这种分类方式常因为上下文定义边界模糊,导致集体异常值和上下文异常值的定义边界也模糊。上下文异常值的上下文不同文献通常非常不同。
    的头像 发表于 10-18 16:47 1835次阅读

    使用MATLAB进行异常检测(下)

    使用 MATLAB 进行异常检测(上),我们探讨了什么是异常值,简单的一维数据异常检测问题,针对高维数据的有监督
    的头像 发表于 11-24 10:46 2215次阅读

    基于神经网络的异常值检测库介绍

    学习节点的嵌入 (见图 1)。大多数 GNN 都持有同源性假设,即相连的节点是相似的;因此,聚合邻居的信息将有助于学习信息量更大的中心节点表示。中心节点表示可用于节点分类、链接预测和异常值检测 (OD) 等下游任务。
    的头像 发表于 12-08 10:34 2113次阅读

    数据清洗、缺失值填充和异常值处理

    综上所述,数据清洗、缺失值填充和异常值处理对数据分析非常重要,并且 MATLAB 提供了许多工具来实现这些步骤。可以根据具体情况选择合适的函数和方法来处理数据。
    的头像 发表于 06-21 15:30 2955次阅读

    eda机器学习的应用

    机器学习项目中,数据预处理和理解是成功构建模型的关键。探索性数据分析(EDA)是这一过程不可或缺的一部分。 1. 数据清洗 数据清洗 是机器学习的首要任务之一。EDA可以帮助识别缺失值、
    的头像 发表于 11-13 10:42 303次阅读