P99是如何计算的-电子发烧友网

Latency（延迟）是我们在监控线上的组件运行情况的一个非常重要的指标，它可以告诉我们请求在多少时间内完成。监控 Latency 是一个很微妙的事情，比如，假如一分钟有 1亿次请求，你就有了 1亿个数字。如何从这些数字中反映出用户的真实体验呢？

之前的公司用平均值来反应所有有关延迟的数据，这样的好处是计算量小，实施简单。只需要记录所有请求的一个时间总和，以及请求次数，两个数字，就可以计算出平均耗时。

但问题是，平均耗时非常容易掩盖真实的问题。比如现在有 1% 的请求非常慢，但是其余的请求很快，那么这 1% 的请求耗时会被其他的 99% 给拉平，将真正的问题掩盖。

所以更加科学的一种监控方式是观察 P99/P95/P90 等，叫做 Quantile。简单的理解，P99 就是第 99% 个请求所用的耗时。假如 P99 现在是 10ms，那么我们可以说 “99% 的请求都在 10ms 内完成”。虽然在一些请求量较小的情况下，P99 可能受长尾请求的影响。但是由于 SRE 一般不会给在量小的业务上花费太多精力，所以这个问题并不是很大。

但是计算就成了一个问题。P99 是计算时间的分布，所以我们是否要保存下来 1 亿个请求的时间，才能知道第 99% 的请求所用的时间呢？

这样耗费的资源太大了。考虑到监控所需要的数据对准确性的要求并不高。比如说 P99 实际上是 15.7ms 但是计算得到数据是 15.5ms，甚至是 14ms，我认为都是可以接受的。

我们关注更多的是它的变化。“P99 耗时从 10.7ms 上涨到了 14ms” 和 “P99耗时从 11ms 上涨到了 15.5ms” 这个信息对于我们来说区别并不是很大。（当然了，如果是用于衡量服务是否达到了服务等级协议 SLO 的话，还是很大的。这样需要合理地规划 Bucket 来提高准确性）。

所以基于这个，Prometheus 采用了一种非常巧妙的数据结构来计算 Quantile: Histogram。

Histogram 本质上是一些桶。举例子说，我们为了计算 P99，可以将所有的请求分成 10 个桶，第一个存放 0-1ms 完成的请求的数量，后面 9 个桶存放的请求耗时上区间分别是 5ms、10ms、50ms、100ms、200ms、300ms、500ms、1s、2s，这样只要保存 10 个数字就可以了。

要计算 P99 的话，只需要知道第 99% 个数字落在了哪一个桶，比如说落在了 300ms-500ms 的桶，那我们就可以说现在的 99% 的请求都在 500ms 之内完成（这样说不太准确，如果准确的说，应该是第 99% 个请求在 300ms – 500ms 之间完成）。这些数据也可以用来计算 P90、P95 等等。

由于我们的监控一般是绘制一条曲线，而不是一个区间。所以 P99 在 300-500 之间是不行的，需要计算出一个数字来。

Prometheus 是假设每一个桶内的数据都是线性分布的，比如说现在 300-500 的桶里面一共有 100 个请求，小于300个桶里面一共有 9850 个请求。所有的桶一共有 1万个请求。

那么我们要找的 P99 其实是第 10000 * 0.99 = 9900 个请求。第 9900 个请求在 300-500 的桶里面是第 9900 – 9850 = 50 个请求。根据桶里面都是线性分布的假设，第 50 个请求在这个桶里面的耗时是 (500 – 300) * (50/100) = 400ms，即 P99 就是 400ms。

可以注意到因为是基于线性分布的假设，不是准确的数据。比如假设 300-500 的桶中耗时最高的请求也只有 310ms，得到的计算结果也会是 400ms。桶的区间越大，越不准确，桶的区间越小，越准确。

写这篇文章，是因为昨天同事跑来问我，“为啥我的日志显示最慢的请求也才 1s 多，但是这个 P999 latency 显示是 3s？”

我查了一下确实如他所说，但是这个结果确实预期的。因为我们设置的桶的分布是：10ms、50ms、100ms、500ms、1s、5s、10s、60s。

如上所说，Prometheus 只能保证 P999 latency 落在了 1s – 5s 之间，但不能保证误差。

如果要计算准确的 Quantile，可以使用 Summary 计算。简单来说，这个算法没有分桶，是直接在机器上计算准确的 P99 的值，然后保存 P99 这个数字。但问题一个是在机器本地计算，而不是在 Prometheus 机器上计算，会占用业务机器的资源；另一个是无法聚合，如果我们有很多实例，知道每一个实例的 P99 是没有什么意义的，我们更想知道所有请求的 P99。显然，原始的信息已经丢失，这个 P99 per instance 是无法支持继续计算的。

另外一个设计巧妙的地方是，300-500 这个桶保存的并不是 300-500 耗时的请求数，而是 <500ms 的请求数。也就是说，后面的桶的请求数总是包含了它前面的所有的桶。这样的好处是，虽然我们保存的数据没有增加（还是10个数字），但是保存的信息增加了。假如说中间丢弃一个桶，依然能够计算出来 P99，在某些情况下非常有用，比如监控资源不够了，我们可以临时不收集前5个桶，依然可以计算 P99。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

监控

监控

+关注

关注
6

文章
2216

浏览量
55255

原文标题：P99 是如何计算的？

文章出处：【微信号：芋道源码，微信公众号：芋道源码】欢迎添加关注！文章转载请注明出处。

将信号引入DS99R104 ，DS99R104没有输出反应，为什么？

第一次使用这个转换芯片，103端时钟信号都输进去了，DOUT端也可以测量到信号输出，但是怎么判断信号输出的正确呢？我将信号引入DS99R104 ，DS99R104没有输出反应，求专家或用过的这类芯片的大神解答！！

发表于 12-20 08:31

CBM99D57BQ

CBM99D57 可在多种高端通信系统中实现I/Q 调制器和上变频器功能。CBM99D57 内部集成了高速直接数字频率合成器(DDS)、高速 14 位数模转换器(DAC)、时钟倍频电路、数字滤波器

发表于 12-13 15:05 •0次下载

刀片计算机设计方案：192-6U VPX i7 刀片计算机

6U ＶＰＸ , 6U VPX , KU5P计算板 , VPX刀片式计算机 , 刀片计算机 , 无线电通信

发表于 11-29 15:13 •203次阅读

刀片<b class='flag-5'>计算</b>机设计方案：192-6U VPX i7 刀片<b class='flag-5'>计算</b>机

如何计算感性负载的功率因数？

的方法：首先，我们需要了解功率因数的定义。功率因数（PF）是一个无单位的数值，表示电压和电流之间的相位差。它是有功功率（P）与视在功率（S）之比，即PF = P/S。计算有功功率（P

发表于 11-13 16:39

14位,3.3V CMOS直接数字合成器-CBM99D10

CBM99D10BQ：1G高精度DDS，助力北斗信号接收CBM99D10BQ是一款内置14位DAC的直接数字频率合成器（DDS），支持高达1GSPS采样速率，可生成400MHz正弦波形。用户可通过

发表于 11-11 11:42 •1091次阅读

数控车床m99指令的用法

X20 F100　　N40 M99　　在这个例子中，M20指令用于设置循环次数为10，P参数表示循环次数的值。当程序执行到M99指令时，数控系统会自动检查M20指令设置的循环次数，并根据循环次数进行

发表于 10-23 15:52 •793次阅读

XCVU9P 板卡设计原理图：616-基于6U VPX XCVU9P+XCZU7EV的双FMC信号处理板卡高性能数字计算卡

光纤加速计算 , 基带信号处理 , 高性能数字计算卡 , 高速图像处理卡 , XCVU9P卡

发表于 10-21 15:46 •416次阅读

CBM24AD99Q数据手册-中文版

CBM24AD99Q芯片是低噪声24 位同步采样Δ-Σ模数转换器(ADC)，具有内置可编程增益放大器(PGA)、内部电压基准和内部振荡器。CBM24AD99Q包含颅外脑电图(EEG)和心电图(ECG

发表于 10-16 13:39 •0次下载

智能加速计算卡设计原理图：628-基于VU3P的双路100G光纤加速计算卡 XCVU3P板卡

DA 信号处理板卡 , PCIe 光纤加速计算卡 , XCVU3P板卡 , 高速视频采集卡 , 信号输出验证， PCIe 光纤加速计算卡 , XCVU3P板卡 , 光纤加速

发表于 08-01 11:03 •345次阅读

DS99R101/DS99R102 3-40MHz DC平衡24位LVDS串行器和解串器数据表

电子发烧友网站提供《DS99R101/DS99R102 3-40MHz DC平衡24位LVDS串行器和解串器数据表.pdf》资料免费下载

发表于 07-09 09:39 •0次下载

数控车床m99指令的用法

数控车床是一种高度自动化的机床，广泛应用于机械加工领域。在数控车床的编程中，M代码（辅助功能代码）起着非常重要的作用。M99指令是数控车床编程中的一种辅助功能代码，用于实现程序的循环调用。下面我们将

发表于 06-14 15:52 •4903次阅读

cnc怎么编程m99循环次数

CNC（计算机数控）编程是一种用于控制机床自动加工零件的技术。M99是一个在数控程序中用于结束循环的指令。引言 CNC编程是一种广泛应用于制造业的技术，它允许机床按照预设的程序自动加工零件。CNC

发表于 06-14 15:49 •2484次阅读

乐鑫ESP32-P4芯片应用，WT99P4C6-S1开发板应用方案

的ESP32-P4芯片，为智能设备开发带来了新的突破。ESP32-P4：性能飞跃，功能全面ESP32-P4芯片继承了ESP32系列的优良传统，并在此基础上实现了性能的飞跃

发表于 06-01 08:04 •1729次阅读

电能的计算公式电能的计算公式中时间的单位

电能是电力消耗的度量，它表示单位时间内消耗的电功率。电能的计算公式为：电能（E）= 电功率（P）× 时间（t）其中，电功率可以通过以下公式计算：电功率（P）= 电压（U）× 电流

发表于 02-22 10:00 •1.4w次阅读

双串联高速开关二极管BAV99QB数据手册

电子发烧友网站提供《双串联高速开关二极管BAV99QB数据手册.pdf》资料免费下载

发表于 02-21 09:59 •0次下载