0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA UFM Cyber-AI为InfiniBand数据中心带来变革

GLeX_murata_eet 来源:NVIDIA英伟达中国 作者:NVIDIA英伟达中国 2021-08-02 14:54 次阅读

如今的数据中心承载着许多用户和各种应用,它们甚至已经成为科研、技术和全球产业竞争优势的关键因素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了要防止运营安全隐患的干扰外,保持数据中心的完整和平滑运行也至关重要。

更重要的是,恶意用户可能会利用数据中心的访问权限,运行被禁止的应用,滥用计算资源,进而导致意外停机以及更高的运营成本。对于今天的 IT 经理和支持开发者而言,能够快速识别问题并提高效率的数据中心管理工具比以往任何时候都更加重要。

NVIDIA 以图形处理能力和出色 GPU 计算性能而闻名,广泛应用于各个研究领域。同时, NVIDIA 也是安全和可扩展数据中心技术的领导者,提供了各种灵活的库和工具,来最大程度地优化业界一流的基础设施。

要为当今研究和商业领域最关键的组成部分提供全栈式解决方案,其中不仅包括提供一流的服务器平台、GPU 以及部署在整个数据中心的丰富软件组合,而且还需要关注到安全和可管理性是建立数据中心基础设施的关键支柱。

NVIDIA UFM Cyber-AI

为 InfiniBand 数据中心带来变革

NVIDIA Unified Fabric Manager(UFM)Cyber-AI 平台提供增强的实时网络遥测功能,并结合了 AI 智能和先进的分析技术,让 IT 经理能够发现运营异常,甚至预测网络故障。这既提高了安全性和数据中心的正常运行时间,又降低了整体运营费用。

UFM Cyber-AI 的独特优势在于它能够捕获丰富的遥测信息并采用 AI 技术来识别事件之间的隐形关联,从而检测到异常的系统和应用行为,而且在引发组件或系统故障之前就能识别到性能的下降。UFM Cyber-AI 甚至可以实时采取修正措施。该平台能够学习数据中心的典型运行模式,并根据网络遥测数据(包括流量模式、温度等)检测异常使用情况。

UFM Cyber-AI 基本原理

如UFM Cyber-AI 包含三个不同的层级。

输入遥测:以多种方式从网络中采集信息并学习:

网络中各种元素的遥测信息

网络拓扑结构(租户或应用的连接与资源分配)

网络设备特性和功能

处理模型:包含若干模型,如:用于数据准备的提取、转换和加载(ETL)处理引擎。它还包含用于对比的聚合、数据存储和分析模型。UFM Cyber-AI 使用用于异常检测和预测的机器学习(ML)技术和AI模型来学习数据中心网络组件(线缆、交换机端口、InfiniBand 网卡)的生命周期模式。

输出 dashboard:一个显示中央 dashboard 的可视化层,让网络管理员和云编排人员可以查看警报和建议,以提高网络利用率和效率并解决网络健康问题。dashboard 分为两个主要类别:可疑行为和链接分析,每个类别都包含警报和预测部分。

UFM Cyber-AI

功能丰富、简洁直观的自定义网络管理器

UFM Cyber-AI 还支持自定义网络警报,或查看随时间变化的异常情况,以及不同时间维度情况。通过使用基于小时或星期参数的聚合网络统计数据,可基于可能偏离正常操作使用的测量结果来设置阈值和配置通知。例如可以使用预定义阈值来识别有问题的线缆。

内置分析功能将当前的遥测信息与基于时间的汇总信息进行比较,以检测系统使用或流量模式中任何可疑的增加或减少并立即通知系统管理员。UFM Cyber-AI 还通过链路或端口遥测信息提供数据中心租户或应用警报,并识别与底层 PKEY 相关的统计数据及其相关节点。

目前只有 UFM Cyber-AI 提供支持预测性维护的链路故障预测等功能。通过在早期阶段监测性能下降情况,UFM Cyber-AI 可以预测潜在的链路或端口故障,使管理员能够进行及时维护进而规避数据中心的故障停机。

NVIDIA Morpheus 赋能未来

要为 InfiniBand 带来最强大的网络管理解决方案,就必须通过不断创新来应对当今数据中心管理的复杂性。NVIDIA 计划将 NVIDIA Morpheus 与 UFM Cyber-AI(图 3)进行集成,以从其他数据中心元件中获取更多遥测信息,例如基于服务器或机架的组件遥测或 DPU、GPU 和应用计数器。

我们甚至可以提供一个可以直接与 Kafka(一个用于高性能数据流水线、流分析和数据整合的开源分布式事件流平台)等其他 API 对接的附加层。用户可以使用该集成对开发者定义的操作系统异常进行特定检测,例如在一个专门用于生命科学研究的系统上进行加密挖掘检测。

Morpheus 是一个为网络安全开发者提供高度优化 AI 流水线和预训练 AI 功能的开放 AI 应用框架。这些功能能够即时检查整个数据中心架构中的所有网络流量。Morpheus 通过提供以下功能将数据中心的安全提升到全新的水平:

动态保护

实时遥测

自适应策略

用于检测和处理网络安全威胁的网络防御措施

随着 Morpheus 与 UFM Cyber-AI 设备的集成,NVIDIA 可以提供出色、完整的解决方案,为关键数据中心提高灵活性和可扩展性,并为开发者提供支持。通过自定义异常检测和与其他标准化 API 的对接,UFM Cyber-AI 可以成为任何多租户数据中心或云原生基础设施的一项灵活资产。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5024

    浏览量

    103265

原文标题:使用 NVIDIA UFM Cyber-AI 安全、智能地管理数据中心

文章出处:【微信号:murata-eetrend,微信公众号:murata-eetrend】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA SuperNIC推进现代AI基础设施发展

    在生成式 AI 时代,加速网络对于大规模分布式 AI 工作负载构建高性能计算平台至关重要。NVIDIA 在加速网络领域继续保持领先地位,提供先进的以太网和
    的头像 发表于 11-06 13:59 256次阅读

    NVIDIA助力印度打造AI基础设施

    在孟买举办的 NVIDIA AI Summit 上,黄仁勋和穆克什·安巴尼(Mukesh Ambani)探讨了关于 AI 基础设施的投资,这些投资有望各行各业
    的头像 发表于 10-27 09:44 287次阅读

    英特尔至强6能效核处理器助力数据中心变革

    数据中心的持续变革。当下,数据中心不仅要满足包括AI、Web和微服务、数据分析等多样化工作负载对算力的需求,还需要应对架构设计、供电、机架
    的头像 发表于 10-12 10:17 405次阅读

    NVIDIA 在 Hot Chips 大会展示提升数据中心性能和能效的创新技术

    NVIDIA Blackwell 平台提供动力的最新技术进展,以及新的数据中心液冷研究成果和用于芯片设计的 AI 代理。 他们
    的头像 发表于 08-28 16:38 389次阅读
    <b class='flag-5'>NVIDIA</b> 在 Hot Chips 大会展示提升<b class='flag-5'>数据中心</b>性能和能效的创新技术

    SK电讯将与Lambda合作打造AI数据中心

    韩国领先的电信巨头SK电讯(SK Telecom)宣布了一项重要合作计划,将与美国知名的云GPU服务提供商Lambda携手,于2024年12月在首尔共同推出一个先进的人工智能(AI数据中心。该中心将依托英伟达最新一代的H100
    的头像 发表于 08-23 17:29 1308次阅读

    AI时代,我们需要怎样的数据中心AI重新定义数据中心

    超过60%的中国企业计划在未来12至24个月内部署生成式人工智能。AI、模型的构建,将颠覆数据中心基础设施的建设、运维和运营。一个全新的数据中心智能化时代已经拉开序幕。
    发表于 07-16 11:33 731次阅读
    <b class='flag-5'>AI</b>时代,我们需要怎样的<b class='flag-5'>数据中心</b>?<b class='flag-5'>AI</b>重新定义<b class='flag-5'>数据中心</b>

    NVIDIA新工业革命打造 AI 工厂和数据中心

    搭载 Grace CPU 以及 NVIDIA 网络和基础设施,助力于企业建立 AI 工厂和数据中心,推动新一轮生成式 AI 突破。 NVIDIA
    的头像 发表于 06-03 18:14 1008次阅读

    计算机行业携手 NVIDIA 新工业革命打造 AI 工厂和数据中心

    NVIDIA Blackwell 架构的系统,这些系统搭载 Grace CPU 以及 NVIDIA 网络和基础设施,助力于企业建立 AI 工厂和数据中心,推动新一轮生成式
    发表于 06-03 09:14 243次阅读
    计算机行业携手 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>为</b>新工业革命打造 <b class='flag-5'>AI</b> 工厂和<b class='flag-5'>数据中心</b>

    HNS 2024:星河AI数据中心网络,赋AI时代新动能

    华为数据通信创新峰会2024在巴库隆重举办,在“星河AI数据中心网络,赋AI时代新动能”主题论坛中,华为面向中东中亚地区发布星河AI
    的头像 发表于 05-15 09:15 674次阅读
    HNS 2024:星河<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>网络,赋<b class='flag-5'>AI</b>时代新动能

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    NVIDIA InfiniBandUFM平台赋能高性能AI计算

    数据驱动的时代,AI网络解决方案需要在保障数据安全的前提下,实现对庞大数据流的快速处理和对复杂AI模型的高效训练与推理。
    的头像 发表于 03-27 13:49 1082次阅读

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施

    NVIDIA Quantum-X800 InfiniBand 网络,打造性能最强大的 AI 专用基础设施 NVIDIA Spectrum-X800 以太网络,
    发表于 03-19 10:05 363次阅读
    <b class='flag-5'>NVIDIA</b> 发布全新交换机,全面优化万亿参数级 GPU 计算和 <b class='flag-5'>AI</b> 基础设施

    介绍一种高性能计算和数据中心网络架构:InfiniBand(IB)

    InfiniBand(IB)是一种高性能计算和数据中心网络架构,其设计目标是通过提供低延迟、高带宽以及可扩展性来满足大规模计算和数据传输的需求。让我们深入了解InfiniBand的基本
    的头像 发表于 03-13 17:14 1596次阅读

    华为发布2024数据中心能源十大趋势,引领未来变革

    2024年1月15日,华为举办2024数据中心能源十大趋势发布会并发布《白皮书》。JAEALOT2024年1月15日中国深圳2024年1月15日,华为举办2024数据中心能源十大趋势发布会并发
    的头像 发表于 01-17 08:25 580次阅读
    华为发布2024<b class='flag-5'>数据中心</b>能源十大趋势,引领未<b class='flag-5'>来变革</b>

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26