0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA UFM Cyber AI实现数据中心的安全性和可管理性

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-15 15:02 次阅读

今天的数据中心承载着许多用户和各种各样的应用程序。它们甚至已经成为研究、技术和全球产业竞争优势的关键要素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了安全威胁造成的运营中断之外,保持数据中心完好无损并平稳运行也至关重要。

如今的数据中心承载着许多用户和各种应用,它们甚至已经成为科研、技术和全球产业竞争优势的关键因素。随着科学计算复杂性的增加,数据中心的运营成本也在不断上升。除了要防止运营安全隐患的干扰外,保持数据中心的完整和平滑运行也至关重要。

更重要的是,恶意用户可能会利用数据中心的访问权限,运行被禁止的应用,滥用计算资源,进而导致意外停机以及更高的运营成本。对于今天的IT经理和支持开发者而言,能够快速识别问题并提高效率的数据中心管理工具比以往任何时候都更加重要。

NVIDIA以惊人图形处理能力和出色GPU计算性能而闻名,广泛应用于各个研究领域。同时,多年来NVIDIA也一直是安全和可扩展数据中心技术的领导者,提供了各种灵活的库和工具,来最大程度地优化业界一流的基础设施。

NVIDIA认识到,要为当今研究和商业领域最关键的组成部分提供全栈式解决方案,其中不仅包括提供一流的服务器平台、GPU以及部署在整个数据中心的丰富软件组合,而且还需要关注到安全和可管理性是建立数据中心基础设施的关键支柱。

此外,恶意用户可能会利用数据中心访问权限,通过运行被禁止的应用程序来滥用计算资源,从而导致意外的停机时间和更高的操作成本。 数据中心管理工具比以往任何时候都更能快速发现问题,同时提高效率,是当今 IT 经理和支持它们的开发人员的首要任务。

NVIDIA 最著名的可能是惊人的图形功能和无与伦比的 GPU 计算性能,几乎应用于所有研究领域。然而,多年来,它还是安全和可扩展数据中心技术的领导者,包括灵活的库和工具,以最大限度地利用世界一流的基础设施。

NVIDIA 认识到,为 MIG 这一当今研究和业务中最关键的组成部分提供全套解决方案,不仅包括世界一流的服务器平台,而部署在整个数据中心的最广泛的软件组合。 NVIDIA 也知道,安全性和可管理性是构建数据中心基础设施的关键支柱。

NVIDIA UFM 网络 AI 彻底改变了 InfiniBand 数据中心

NVIDIA Unified Fabric Manager ( UFM )网络 AI 平台提供增强的实时网络遥测,结合 AI 提供的智能和高级分析。它使 It 经理能够发现操作异常,甚至预测网络故障。这提高了安全性和数据中心正常运行时间,同时降低了总体运营开支。

UFM 网络人工智能的独特优势在于它能够捕获丰富的遥测信息,并利用人工智能技术来识别事件之间隐藏的相关性。这使它能够检测异常的系统和应用程序行为,甚至在性能下降导致组件或系统故障之前识别它们。 UFM 网络 AI 甚至可以实时采取纠正措施。该平台学习数据中心的典型操作模式,并基于网络遥测数据检测异常使用,包括流量模式、温度等。

UFM 网络人工智能基础

UFM 网络 AI 包含三个不同的层,如图 1 所示。

pYYBAGJZGMqARYwYAAAs5xkFy4I261.png

图 1 。 UFM 网络 AI 层

输入遥测: 通过各种方式收集信息并从网络中学习:

网络中所有元件的遥测

网络拓扑(租户或应用程序的连接和资源分配)

网络设备的特点和能力

处理模型: 包含几个模型,例如用于数据准备的提取、转换和加载( ETL )处理引擎。它还包含聚合、数据存储和用于比较的分析模型。 UFM 网络人工智能使用机器学习( ML )技术和人工智能模型进行异常检测和预测,以学习数据中心网络组件(电缆、交换机端口、 InfiniBand 适配器)的生命周期模式。

输出仪表板: 一个可视化层,它为网络管理员和云编排器提供一个中央仪表板,以查看有关提高网络利用率和效率以及解决网络健康问题的警报和建议。仪表板提供了两个主要类别: 可疑行为 和 链接分析 ,每个类别都包括警报和预测部分(图 2 )。

poYBAGJZGM-AGP_sAADwh44qLhA142.png

图 2 。 UFM 网络人工智能预测仪表盘

功能丰富、直观且可定制的 fabric manager

UFM 网络人工智能还支持定制的网络警报或查看触发的异常随着时间的推移和在不同的时间维度。通过使用基于小时或星期几参数的聚合网络统计信息,您可以根据 MIG ht 偏离典型操作用途的测量值设置阈值和配置通知。例如,可以使用预定义的阈值来识别有问题的电缆。

内置分析将当前遥测信息与基于时间的聚合信息进行比较,以检测使用或流量模式中的任何可疑增加或减少,并立即通知系统管理员。 UFM-cyberai 还通过链路或端口遥测信息提供数据中心租户或应用程序警报,以识别与低级别分区密钥( PKEY )相关的统计信息及其相关节点。

只有 UFM 网络人工智能提供了链接故障预测等功能,支持预测性维护。通过在早期阶段检测性能下降情况, UFM 网络人工智能可以预测潜在的链路或端口故障。这使管理员能够执行维护并消除数据中心停机时间。

NVIDIA Morpheus 的未来增强功能

为 InfiniBand 带来最强大的结构管理解决方案需要不断创新,以跟上管理当今复杂数据中心的复杂性。我们计划将 NVIDIA Morpheus 与 UFM Cyber AI 集成(图 3 ),从其他数据中心元素(如服务器或基于机架的组件遥测或 DPU 、 GPU 和应用程序计数器)带来更多遥测信息。

我们甚至可以提供一个额外的层,它可以直接与其他 api 接口,比如 Kafka ,一个用于高性能数据管道、流分析和数据集成的开源分布式事件流平台。您可以使用该集成对开发人员定义的操作系统异常进行特定的检测,例如对生命科学研究专用系统的加密挖掘检测。

pYYBAGJZGNaAJnotAACaVH7q6Cs709.png

图 3 。 UFM 网络人工智能与 Morpheus 框架的集成示例

Morpheus 是一个开放的人工智能应用框架,为网络安全开发者提供高度优化的人工智能管道和预训练的人工智能能力。这些功能使您能够通过数据中心结构即时检查所有网络流量。 Morpheus 通过提供以下功能为数据中心带来了新的安全级别:

动态保护

实时遥测

适应性策略

用于检测和修复网络安全威胁的网络防御

poYBAGJZGNyACbDHAACF9cYB950783.png

图 4 。 UFM 网络人工智能作为灵活和可扩展平台的示例

随着 Morpheus 集成到 UFM Cyber AI 设备中,我们可以为关键任务数据中心和支持开发人员提供最佳和最完整的解决方案,该解决方案也具有灵活性和可扩展性。通过可定制的异常检测和与其他标准化 API 的接口, UFM Cyber AI 是任何支持多租户的数据中心或云本地基础设施的灵活资产。

关于作者

David Slama 担任 NVIDIA 网络营销高级总监,专注于高性能计算、人工智能、云解决方案和 InfiniBand 技术。 Slama 于 2005 年加入 Mellanox ,担任软件工程师,并在 Mellanox 担任多个软件管理职位,直到 2020 年。他领导云解决方案、以太网和 InfiniBand 软件管理、存储、自动化解决方案以及上游活动,如 Ansible 、 Kubernetes 、 OpenStack 、 puppet 、 chef 等。 Slama 拥有 ML 和 AI 领域的网络专利。他拥有政府学硕士学位和管理学和计算机科学学士学位。

Scot Schultz 是 HPC 技术专家,专注于人工智能和机器学习系统。 Scot 在分布式计算、操作系统、人工智能框架、高速互连和处理器技术方面拥有广泛的知识。在他的整个职业生涯中,拥有超过 25 年的高性能计算系统经验,他的职责包括各种工程和领导角色,包括战略 HPC 技术生态系统支持。 Scot 在众多行业标准组织的成长和发展中发挥了重要作用。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5021

    浏览量

    103261
  • 数据中心
    +关注

    关注

    16

    文章

    4810

    浏览量

    72212
  • 人工智能
    +关注

    关注

    1792

    文章

    47425

    浏览量

    238964
收藏 人收藏

    评论

    相关推荐

    如何实现 HTTP 协议的安全性

    协议的安全性,可以采取以下几种方法: 1. 使用HTTPS HTTPS(安全超文本传输协议)是HTTP的安全版本,它在HTTP的基础上通过SSL/TLS协议提供了数据加密、
    的头像 发表于 12-30 09:22 247次阅读

    NVIDIA DOCA 2.9版本的亮点解析

    NVIDIA DOCA通过为开发者提供全面的软件框架以利用硬件加速来增强 NVIDIA 网络平台的功能,从而提高性能、安全性和效率。其 API、库和工具生态系统简化了数据中心基础设施的
    的头像 发表于 11-27 11:15 345次阅读
    <b class='flag-5'>NVIDIA</b> DOCA 2.9版本的亮点解析

    使用NVIDIA AI平台确保医疗数据安全

    三井物产株式会社子公司借助 NVIDIA AI 平台实现数据集的安全共享并使用在这些数据集上建立
    的头像 发表于 11-20 09:37 196次阅读

    如何选择数据中心服务

    在选择数据中心服务时,需要考虑多个关键因素以确保选择的服务能够满足业务需求并确保数据安全、可靠和性能。以下是一些关键步骤和考虑因素: 一、明确业务需求 首先,需要明确自己的业务需求
    的头像 发表于 10-24 16:14 221次阅读

    怎样保障数据中心不间断电源不断电 提供可靠安全的供配电#数据中心

    数据中心配电系统
    安科瑞王金晶
    发布于 :2024年08月29日 14:51:36

    NVIDIA 在 Hot Chips 大会展示提升数据中心性能和能效的创新技术

    NVIDIA Blackwell 平台提供动力的最新技术进展,以及新的数据中心液冷研究成果和用于芯片设计的 AI 代理。 他们
    的头像 发表于 08-28 16:38 389次阅读
    <b class='flag-5'>NVIDIA</b> 在 Hot Chips 大会展示提升<b class='flag-5'>数据中心</b>性能和能效的创新技术

    半导体存储器在数据中心中的应用

    半导体存储器在数据中心中的应用是极其重要且广泛的,它们不仅是数据中心存储系统的核心组件,还直接关系到数据处理的效率、可靠安全性。以下将详
    的头像 发表于 08-20 10:17 688次阅读

    AI时代,我们需要怎样的数据中心AI重新定义数据中心

    超过60%的中国企业计划在未来12至24个月内部署生成式人工智能。AI、模型的构建,将颠覆数据中心基础设施的建设、运维和运营。一个全新的数据中心智能化时代已经拉开序幕。
    发表于 07-16 11:33 728次阅读
    <b class='flag-5'>AI</b>时代,我们需要怎样的<b class='flag-5'>数据中心</b>?<b class='flag-5'>AI</b>重新定义<b class='flag-5'>数据中心</b>

    NVIDIA为新工业革命打造 AI 工厂和数据中心

    搭载 Grace CPU 以及 NVIDIA 网络和基础设施,助力于企业建立 AI 工厂和数据中心,推动新一轮生成式 AI 突破。 NVIDIA
    的头像 发表于 06-03 18:14 1007次阅读

    讯维分布式KVM坐席管理系统在数据中心管理中的应用与案例分析

    讯维分布式KVM坐席管理系统在数据中心管理中的应用,极大地提高了数据中心的运维效率和安全性。该系统通过其独特的分布式架构和智能化
    的头像 发表于 05-16 16:27 540次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    冷却技术,提高计算密度,减少占地面积,并通过高带宽、低延迟的GPU通信,有效减少数据中心的碳足迹和能源消耗。相较于传统的NVIDIA H100风冷基础设施,GB200在相同功耗下实现25倍的性能提升
    发表于 05-13 17:16

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    基于NVIDIA DOCA 2.6实现高性能和安全AI云设计

    作为专为 NVIDIA® BlueField® 网络平台而设计的数据中心基础设施软件框架,NVIDIA® DOCA™ 使广大开发者能够利用其行业标准 API 在 NVIDIA Blue
    的头像 发表于 02-23 10:02 486次阅读

    KVM矩阵的智能化管理:提升运维效率与安全性

    随着信息技术的飞速发展,KVM矩阵作为数据中心运维的重要工具,正逐渐融入智能化管理的理念。智能化管理不仅提升了KVM矩阵的运维效率,更在保障系统安全性方面发挥了重要作用。本文将探讨KV
    的头像 发表于 02-18 14:51 561次阅读

    KVM矩阵:打造无缝的数据中心管理体验

    在信息技术日新月异的时代,数据中心管理效率与安全性已成为企业竞争力的重要组成部分。KVM矩阵,作为一种创新的远程管理解决方案,正在逐渐崭露头角,它以其独特的功能和优势,为打造无缝的
    的头像 发表于 02-18 14:36 443次阅读
    KVM矩阵:打造无缝的<b class='flag-5'>数据中心</b><b class='flag-5'>管理</b>体验