0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度揭秘!观测云产品核心理念

AI机械姬 来源:AI机械姬 作者:AI机械姬 2024-07-23 10:15 次阅读

引言

我是蒋烁淼,观测云的首席技术架构师兼产品把控者。今天,我有幸与大家分享我们团队在设计和实现产品过程中所坚持的核心理念。这些理念不仅是我们工作的指导灯塔,更是推动我们技术不断进步的动力源泉。

在观测云,我们坚信,一个产品的强大生命力和竞争力,源自于其内在的哲学和理念。作为团队的领航者,我带领着每一位成员,坚守着这些核心理念。它们是我们设计和实现产品的基石,是我们在技术发展道路上的指南针。

以工程师们为中心

观测云是一款面向企业级市场的监控观测产品,旨在满足最终用户的需求。我们认识到,产品要想拥有持久的竞争力,就必须得到工程师们的认可,使用便捷,并能为他们创造价值。通过提升工程师的工作效率,我们相信最终客户也将从中受益。

在传统监控产品中,设计往往以运维人员的需求为主,涵盖仪表盘、告警、数据接入等多个方面。然而,观测云的设计理念有所不同。举几个例子:

观测云的 Agent 模型采用了类似 OpenTelemetry 的架构,将 Instrumentor(探针)和 Collector(Agent)分离,完全不同于传统的 APM 厂商

该架构设计具有多项优势,在此仅列举一个关键好处。我们认识到,无论是使用 eBPF 探针还是传统字节码探针,都可能对应用程序产生一定影响。同时,为了不断增强监控能力,探针和 Agent 可能需要定期升级。这种架构允许研发团队独立验证探针的稳定性和数据字段的扩展性,而运维团队则负责 Agent 的升级和配置调整。通过分离探针和 Agent,Agent 的升级不会干扰应用程序的正常运行,最多只会导致数据暂时不可用。在应用程序升级过程中,我们确保其与探针的兼容性已在测试环境中得到验证,从而避免了因探针升级不当而导致的整个业务系统的故障风险。

此外,这种架构还提高了系统的兼容性,能够支持多种 Instrumentor,包括但不限于探针、日志采集器以及 Prometheus 生态系统的集成。

使用观测云的用户将深刻体会到其赋予的广泛自由度,这不仅仅体现在随心所欲地设计个性化仪表盘、灵活配置数据结构、自定义查询模板,以及独创性地设计告警策略上。我们深刻理解研发工程师的微妙心理需求,因此在多处功能设计中巧妙地融入了“仅我可见”的选项,旨在为工程师们提供一个私密的空间,让他们能够安心地进行自我调试、仪表盘分析,而无需担心被他人窥探。这种贴心的设计,正是出于对研发者心理的深刻洞察与尊重,它鼓励了更自由、更无拘束的创新实践,从而真正释放了可观测性能力的潜力,为项目带来实质性的价值提升。

前面的模型示例不仅简化了研发流程,还赋予了他们在探针中自由扩展字段、深化业务洞察的能力,从而助力构建更为精准和全面的分析体系。众多观测云用户反馈,相较于某些标榜为AIOps的产品,我们的解决方案在功能强大性、AI 分析能力上更胜一筹,却谦逊未以此为核心卖点。原因在于,我们坚信算法的真正价值远不止于运维(Ops),它应广泛渗透于离群分析、异常检测等各个环节,赋能研发团队。这不仅仅意味着监控 CPU 行为异常,更关乎于深入理解代码调用在不同场景下的异常表现。

过分渲染 AIOps 概念的产品,往往陷入夸大其词的误区,而真正出色的产品则是将这些高级能力无缝融入日常研发运维流程中,成为他们工具箱中不可或缺的一部分。我们致力于让技术回归本质,为用户提供实实在在的价值,而非空泛的概念炒作。

我们对观测云的细致打磨体现在诸多方面,例如时间控件的灵活性。我们支持直接输入unixtime,简化了工程师在时间转换上的繁琐操作,避免了使用 Linux 命令或在不直观的日历控件中进行选择。这种对细节的关注是许多同类产品所忽视的。

观测云的更新频率为每两周一次,这不仅是为了引入新功能,更重要的是,我们致力于根据用户的真实反馈来优化产品。这些更新可能涉及大量的细节改进,虽然无法一一列举,但它们共同构成了我们对产品不断改进的承诺。我们相信,真正使用观测云的用户能够从这些细节中感受到我们的专注和诚意。

做一个开放的产品

我对开源的态度是明确的:我支持真正的开源精神,即开放代码并与全球开发者进行交流。然而,我反对那些以开源为名,实则追求商业利益而忽视社区和技术发展的“伪开源”行为。观测云在这一点上采取了开放的姿态,我们公开了所有端侧代码,并在 Github 上维护着数十个开源项目。我们鼓励团队成员积极参与开源社区,发现问题时提交 Pull Request(PR),以促进相关项目的进步。

同时,我们也持续为开源项目如 Victoriametrics 贡献代码。尽管观测云是一个商业产品,我们依然坚持开放的原则,但这种开放是有选择性的。我们的目标是提供一个既开放又可控的环境,确保产品的稳定性和安全性。

我们致力于整合开源技术,以增强观测云的功能。我们全面支持现有的观测技术框架,例如与 Prometheus 生态系统的深度集成。我们的系统不仅能够收集 Prometheus 的各种数据类型,包括 Exporter 和 Push 数据,而且在 Push 数据支持方面,我们在稳定性和性能上均超越了 Prometheus 官方的 Push Gateway。此外,我们还加强了对 Prometheus 自发现功能的支持。

在日志采集方面,我们兼容多种日志生成方式,例如支持 Log4J 通过 Socket 直接发送日志,避免了日志写入磁盘的需要。这种支持使得在性能要求极高的场景下,开发者也能够高效地收集大量日志数据。

对于分布式追踪(Tracing),我们同样提供了广泛的支持,兼容了包括 ddtrace、OpenTelemetry、Zipkin、SkyWalking 以及 Jaeger 等多种追踪协议。这些开源方案在不同应用中可能采用不同的实现,导致分析上的分散。观测云通过统一的集成方式,使得这些不同来源的数据在使用上保持一致性,仿佛它们是专为观测云设计的一样,尽管它们采集的数据内容可能各有差异。

同样,我们对开源技术的承诺不仅体现在支持 eBPF tracing 上,更在于我们将其开源,以促进统一标准的形成。与国内其他开源厂商不同,我们致力于生成符合 OpenTelemetry 标准的 span 和 trace。这意味着使用观测云采集的 eBPF 数据能够与其他技术方式接入的数据一同分析,无需额外的后台系统或专用数据库存储集群。

在技术文档方面,我们致力于开放和透明的分享。观测云在技术文档的公开程度上,自信地处于行业领先地位。我们公开了大量的技术实现细节,以便于业界同仁学习和参考。

用认知驱动取代需求驱动

对于熟悉观测云的老朋友或初次接触的新朋友而言,或许已知晓或未曾留意到这样一个事实:观测云不仅提供云端服务,实现全球无缝接入,同时也支持灵活的私有化部署方案,以满足不同用户的特定需求。然而,鲜为人知的是,观测云在产品开发上坚守着一个重要原则——我们从未为任何单一客户定制产品。从中国的本土版本到海外的国际市场,再到那些部署于客户私有环境中的定制化方案,尽管部分版本因市场策略或技术迭代进度略有差异,但观测云始终如一,坚持为所有用户提供统一、标准的产品体验。

这是我们的坚持。为什么呢?

首先,观测云坚守为客户负责的原则。在快速迭代的产品环境中,我们深知保持产品主线的重要性。定制化产品虽看似能即时满足特定需求,但长远来看,它们往往与主线版本分离,形成分叉,这不仅损害了客户的长期利益,也增加了我们维护产品体验的难度。因此,我们坚决避免任何形式的版本分叉,确保每位客户都能享受到持续、稳定且高效的产品服务。

其次,我们注重有价值需求的快速响应与标准化。在快速迭代的过程中,我们深知客户需求的多样性与复杂性。然而,并非所有需求都能直接转化为产品功能,特别是当这些需求存在逻辑悖论或表述不清时。作为产品专家,我们倾听客户声音,结合产品架构与行业洞察,将特定需求转化为标准化的产品功能。这种负责任的做法不仅提升了产品价值,也加深了我们对产品行业的认知,而这些认知又反过来推动我们不断优化产品,形成良性循环。我们的更新速度远超客户自行探索开源方案的效率,确保研发运维工程师们能够轻松、高效地使用我们的平台。

最后,我们致力于产品的开放性与灵活性。为了满足用户多样化的个性化需求,我们努力实现各种技术栈的标准化集成,而非依赖定制化。通过构建丰富的灵活性机制,我们完整打造了一整套架构体系,以应对更广泛的业务场景和需求。这种高度定制化的灵活性要求我们不能简单地采用开源产品拼凑而成,而是需要自主设计数据引擎、数据库及UI框架等核心组件,从而确保产品的整体性能和用户体验。这种从底层到上层的全面掌控,使得我们的产品能够灵活应对各种挑战,为用户创造更大的价值。

观测云是我们团队精心打造的产品,它不仅承载着我们的技术追求,更融入了我们的价值观。我们致力于持续优化和完善产品,以确保它能够为用户带来实际的价值。我们的目标是让观测云在企业中发挥关键作用,特别是对于工程师团队。我们相信,通过不断的努力和创新,观测云能够提升工程师的工作效率,增强企业的运营能力。我们的目标不仅是满足用户当前的需求,更是预见并引领未来的技术趋势,从而为企业带来长远的价值。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 探针
    +关注

    关注

    4

    文章

    202

    浏览量

    20257
  • 开源
    +关注

    关注

    3

    文章

    3123

    浏览量

    42053
  • 分布式
    +关注

    关注

    1

    文章

    821

    浏览量

    74388
收藏 人收藏

    评论

    相关推荐

    软通动力智算总部落地广州黄埔

    首届H•I³ AI探索峰会(AI Discovery Summit 2024)在广州黄埔区盛大召开,由软通动力、知识城集团及全球计算联盟GCC携手主办。峰会以“共建未来智能世界”为核心理念,汇聚了行业精英与前沿科技力量,共同展望智能科技的无限可能。
    的头像 发表于 08-29 16:46 461次阅读

    NPU和GPU有什么区别

    NPU(Neural Processing Unit,神经网络处理器) 是一种专门设计用于加速神经网络运算的硬件加速器。它的核心理念是模拟人脑神经网络的工作原理,通过大规模并行处理单元(类似于神经元
    的头像 发表于 08-13 09:32 1079次阅读

    新手小白怎么学GPU服务器跑深度学习?

    新手小白想用GPU服务器跑深度学习应该怎么做? 用个人主机通常pytorch可以跑但是LexNet,AlexNet可能就直接就跑不动,如何实现更经济便捷的实现GPU服务器深度学习?
    发表于 06-11 17:09

    DataDog和Dynatrace缺席,观测成为中国峰会的明星

    在亚马逊科技中国峰会的圆满落幕之际,国内监控观测服务的佼佼者——观测,以其在中国可观测性领域的杰出表现,荣获了中国峰会独家荣誉。尽管全球
    的头像 发表于 06-04 17:13 303次阅读

    小米团队参观蔚来为乐道L60打call,李斌称其外观颜值高

    早前报道显示,5月15日,蔚来旗下全新品牌乐道汽车正式发布。乐道品牌名称寓意“阖家欢乐,持家有道”,这也是乐道汽车产品研发的核心理念。乐道汽车品牌发布会上,首款车型乐道L60正式亮相并启动预售,预售价为21.99万元起。
    的头像 发表于 05-20 16:24 682次阅读

    深度践行“IaaS on DPU”理念,中科驭数正式发布“驭”高性能异构算力解决方案!

    ®高性能异构算力解决方案,为企业提供更快部署、更强性能和更高吞吐的算力解决方案。 在发布环节,张宇表示:“驭®高性能异构算力解决方案是中科驭数
    的头像 发表于 05-14 17:04 341次阅读
    <b class='flag-5'>深度</b>践行“IaaS on DPU”<b class='flag-5'>理念</b>,中科驭数正式发布“驭<b class='flag-5'>云</b>”高性能<b class='flag-5'>云</b>异构算力解决方案!

    西安紫光国芯推出全新国潮存储品牌“彣UniWhen”

    西安紫光国芯UniIC正式揭晓其国潮存储品牌——彣®(UniWhen®)。彣以“科技融合传统,点亮幸福生活”为核心理念,旨在将中华文化的精髓与现代科技相结合。品牌以品质卓越、性能出众为定位,力求成为玩家心中的首选国潮“芯”品
    的头像 发表于 05-06 16:22 684次阅读

    英伟达首席执行官黄仁勋解析公司战略及人工智能未来

    对于英伟达的成功秘诀,黄仁勋毫不掩饰地指出其30余载的历史是围绕科技创新与市场打造而展开。追逐科技进步的同时,也激发了市场需求,这便是英伟达的核心理念——首先关注技术,而后反作用于市场。
    的头像 发表于 03-11 09:17 460次阅读

    现在常说的边缘计算与计算有什么不同?

    )的模型,它允许用户根据实际需求按需使用这些资源。计算的核心理念是将计算任务交由服务提供商来处理,用户无需担心硬件资源的管理和维护,只需要关注数据和应用的管理。计算的优势体现在灵
    的头像 发表于 02-06 14:38 532次阅读

    鸿蒙生态应用开发白皮书2.0 pdf 免费下载

    《鸿蒙生态应用开发白皮书》全面阐释了鸿蒙生态下应用开发核心理念、关键能力以及创新体验,旨在帮助开发者快速、准确、全面的了解鸿蒙开发套件给开发者提供的能力全景和未来的愿景。​
    发表于 01-25 16:42

    AioT物联平台介绍

    系统介绍: AIoT智慧物联平台是一个致力于打造物联网大数据采集与分析、环境与状态跟踪监控、全方位资产管理等综合物联网数据服务平台。 新导AIoT智慧物联平台以数据服务为核心理念,平台具有强大
    的头像 发表于 01-11 13:09 738次阅读
    AioT物联<b class='flag-5'>云</b>平台介绍

    深度揭秘信号孔旁边到底需要几个地过孔

    深度揭秘信号孔旁边到底需要几个地过孔
    的头像 发表于 12-15 09:37 468次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>揭秘</b>信号孔旁边到底需要几个地过孔

    数字化转型发展的企业意义、核心理念与内涵外延

    随着智能化社会(相对于农业社会,工业社会,信息社会)的快速到来,数字化转型对大多数企业来说,不再仅仅是一个战略选项,而是组织生存和发展的必然趋势。在企业完成信息化建设之后,企业上,用数,注智的局部
    的头像 发表于 12-14 10:39 354次阅读

    GPU在深度学习中的应用与优势

    学习中究竟担当了什么样的角色?又有哪些优势呢?一、GPU加速深度学习训练并行处理GPU的核心理念在于并行处理。在深度学习训练过程中,需要处理大量的数据。GPU通过
    的头像 发表于 12-06 08:27 1084次阅读
    GPU在<b class='flag-5'>深度</b>学习中的应用与优势

    华为耀服务器 L 实例:为你揭开轻量应用服务器的神秘面纱

     实例是一款专为中小企业和开发者量身打造的轻量应用服务器产品,它的核心理念是“三步建站、两倍性能,简单上第一步”,旨在帮助用户轻松应对各种业务挑战,实现化转型。 下面,就让我们一起
    的头像 发表于 09-27 11:14 269次阅读
    华为<b class='flag-5'>云</b>耀<b class='flag-5'>云</b>服务器 L 实例:为你揭开轻量应用服务器的神秘面纱