0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从GPU资源的虚拟化实现路径看

SSDFans 来源:ssdfans 作者:ssdfans 2020-12-14 16:27 次阅读

GPU小常识:

GPU(Graphics Processing Unit),中文名:图形处理器,曾用名:显卡。

1999年,Nvidia(英伟达公司“ZAO”了GPU,这玩意除了极大的推动了基于PC的游戏市场发展,还彻底改变了并行计算。

没想到二十年后,Nvidia摇身一变成了高大上的AI计算公司,还用GPU绑架了整个人工智能圈子。

我有个客户,几年前新建了一个数据中心,通过P2V技术淘汰了大量X86物理服务器,直接在IT基础设施上成功完成了服务器虚拟化转型,之后就马不停蹄的向云计算转型,而当下,又开始了人工智能转型。

随着智能商业时代的到来,一些大公司对于AI技术的关注和使用也快速增加,这些企业都非常注重自身科技能力的构建。其中,搭建自有AI平台,赋能业务成了这些有实力企业的首选。我这个客户自然也不能免俗,采购了大量的GPU服务器进行部署。

在落地AI场景的同时,客户也希望对建立GPU资源池做一个评估。针对客户需求,做了一些功课。对于AI,我依然只是知道一点皮毛,要说什么算法和模型,我是没戏的,但是可以把交流的学习心得分享一下。

GPU当前主要应用于计算、图形和人工智能领域。从GPU资源的虚拟化实现路径看,主要有三种技术方案。

VSGA(Virtual Shared Graphics Acceleration),把物理GPU分享给多个桌面用户,每个VDI通过SVGA驱动调用虚拟化的GPU驱动程序,再来调用GPU的运算能力,这个属于典型的桌面虚拟化场景。

VDGA(Virtual Dedicated Graphics Acceleration),把物理GPU分配给一个指定的VM,资源专用,这种模式也称为直通(PassThrough)模式,该方案具有比较高的性能优势,但成本相对较高。

vGPU(Virtualized GPU),把一块物理GPU虚拟成多块vGPU卡,每个VM都独占一块vGPU,每个vGPU直接跟物理GPU对接。

现实世界的应用状况又是怎样的呢?通过技术交流,发现传统行业大多数的GPU资源池案例都是VDI的桌面虚拟化应用场景,针对后台服务器虚拟化的案例几乎没有。在互联网行业,像百度这样在AI领域比较强的,用的都是自研的GPU服务器和资源调度平台。真正的商业案例中,大量客户使用的还是基于X86物理服务器搭配GPU卡的方式来部署AI应用。

之后,对这个客户也有做了相应的调研。客户现状:针对AI技术部署了独立的语音分析、OCR和人脸识别等多个平台,支撑整个公司对于AI场景的需求。(目前有GPU服务器:50台+,GPU卡:180+,后续还有200+的GPU卡扩容计划)。针对调研情况,也做个简要分析。

应用场景:

目前AI技术主要为两种场景,训练(Training)和推理(Inference),从我这个客户的使用情况看,几乎都是推理场景,相对训练而言,对于GPU的算力的要求不是很高,这一点从用户的性能数据上也有体现。客户模型训练都是在供应商端进行的。

技术方案:

GPU资源池只是一种概念,对于资源的形态来说,GPU是物理的还是虚拟的不是最重要的。从资源管理角度看,主要是考虑利用效率、访问性能、安全隔离等因素。

如果是物理服务器方案,上层最佳的部署形式的直接基于容器,但是现实情况是大多数用户的应用部署还是基于PM和VM的。另外,也可以考虑基于服务器虚拟化+多GPU卡的方案,一个VM对应一个GPU卡的直通模式,但是应用密度显然受制于GPU卡的数量,如果这时再追加使用vGPU技术,似乎方案在VM技术平台上就更完美了,当然容器嵌套VM的方案也是一种好的形式。

商务成本:

成熟的商业虚拟化软件是有软件许可费的,而Nvidia的vGPU技术也需要支付相应的软件许可费,这样每个GPU卡可以根据显存的不同配置,被切分为固定数量的vGPU,在相同数据物理GPU卡配置情况下,提升VM的部署密度。

其他因素:

当然,目前的“AI芯片”也不是只有Nvidia一家,国内的寒武纪和华为也都用相应的产品支撑AI应用,对于主流的TensorFlow,Cafee框架可能还可以,但对于其他框架和模型在支持上略显不足,还需要加强生态建设。毕竟连英伟达都声称自己是一家软件研发公司。在这个Software Define Anything的时代,软实力才是真正贴近用户的硬实力。

关于建立后台支撑AI算力的GPU资源池这件事,技术本身并不存在限制,是个具有规模效应的事情。如果规模大了,也许百度的“孔明”平台就是一个需要达到的高度。至于其他公有云服务商,现在也都提供了相应的GPU服务,等有机会再去调研一下。

啥叫Deep Learning?就是这种不断学习更新,还要用输出倒逼输入的方式!

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4709

    浏览量

    128781
  • 服务器
    +关注

    关注

    12

    文章

    9046

    浏览量

    85239
  • 虚拟化
    +关注

    关注

    1

    文章

    368

    浏览量

    29778

原文标题:GPU虚拟化,看这一篇就够了!

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    《算力芯片 高性能 CPUGPUNPU 微架构分析》第3篇阅读心得:GPU革命:图形引擎到AI加速器的蜕变

    标量、向量、矩阵的表示;硬件实现,不同厂商各显神通。谷歌TPU采用脉动阵列计算单元,通过数据流向的精心编排提升计算密度;NVIDIA张量核心支持多精度计算,Hopper架构更是引入了稀疏性加速。华为
    发表于 11-24 17:12

    GPU虚拟现实中的表现 低功耗GPU的优缺点

    数据,以实现沉浸式的体验。以下是GPU虚拟现实中的几个关键表现: 图像渲染能力 :GPU需要快速渲染复杂的三维场景,以保持高帧率,这对于减少运动模糊和晕动症至关重要。 实时光线追踪
    的头像 发表于 11-19 10:58 248次阅读

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片GPU

    本篇阅读学习第七、八章,了解GPU架构演进及CPGPU存储体系与线程管理 █图形到计算的GPU架构演进 GPU图像计算发展 ●三角形开始
    发表于 11-03 12:55

    emc虚拟技术的应用场景

    实现资源的动态分配和优化,从而帮助企业提高运营效率和降低成本。 1. 数据中心虚拟 数据中心虚拟
    的头像 发表于 11-01 15:26 278次阅读

    GPU与VR技术结合应用

    同时处理大量数据,从而实现高速的图形渲染。 VR技术的基本概念 虚拟现实(VR)技术是一种通过计算机生成的三维环境,让用户能够沉浸在虚拟世界中的技术。VR技术通过头戴式显示器、手柄等设备,实现
    的头像 发表于 10-27 11:23 307次阅读

    数据中心虚拟应用案例

    数据中心虚拟应用案例展示了虚拟技术在提高资源利用率、降低成本、增强系统灵活性和快速响应等方面的显著优势。以下是一些具体的数据中心
    的头像 发表于 10-24 15:18 380次阅读

    云计算中的虚拟技术应用

    : 一、虚拟技术的核心原理 虚拟技术通过引入一个虚拟层(
    的头像 发表于 10-24 09:22 433次阅读

    基于DPU的轻量虚拟化解决方案

    1.  背景、挑战与业界进展 1.1. 虚拟技术背景 在云计算的浪潮中,虚拟技术扮演着举足轻重的角色。它通过将物理机集群的资源进行抽象整
    的头像 发表于 10-14 14:57 799次阅读
    基于DPU的轻量<b class='flag-5'>虚拟</b>化解决方案

    华纳云:OpenStack是虚拟管理平台吗?其工作原理是什么?

    OpenStack 就是一个虚拟管理平台吗?这样说并不准确。它们存在很多相似性,但并非完全相同。的确,OpenStack 和虚拟管理平台都位于
    的头像 发表于 09-23 14:20 252次阅读

    存储虚拟有哪些常见类型?有什么优点?

    存储虚拟是一种将多个存储设备的物理存储资源抽象出来、将它们集中在一起并将它们呈现为单个逻辑存储单元的技术。此过程简化了存储管理,提高了资源利用率,并
    的头像 发表于 03-07 16:47 1120次阅读

    虚拟软件栈有哪些防御措施

    虚拟软件栈是一种在物理服务器上运行多个虚拟机的技术,可以提高服务器资源的利用率和灵活性。然而,虚拟
    的头像 发表于 01-25 11:27 735次阅读

    RDMA RNIC虚拟方案

    主要包括Inifiband、RoCE以及iWARP。实现RDMA协议的I/O设备被称为RNIC。主流云服务提供商已经开始广泛部署RNIC,例如亚马逊云推出的弹性网络适配器(Elastic Network Adapter,ENA)[1]。同时,云服务提供商通过硬件虚拟
    的头像 发表于 01-23 17:23 1857次阅读
    RDMA RNIC<b class='flag-5'>虚拟</b><b class='flag-5'>化</b>方案

    美格智能LXC容器化解决方案,轻松玩转多系统虚拟

    虚拟技术是云计算的基石,促进了云时代的蓬勃发展。当前,物联网走向全面智能,终端设备各类感知、交互功能的实现,均有着更为复杂的控制逻辑。在此背景下,
    的头像 发表于 01-17 17:03 379次阅读
    美格智能LXC容器化解决方案,轻松玩转多系统<b class='flag-5'>虚拟</b><b class='flag-5'>化</b>

    超融合和虚拟的区别

    超融合和虚拟是当今IT领域非常热门的两个概念,它们都是为了提高数据中心的效能和灵活性,但在实现方式和功能上存在一些区别。本文将详细讨论超融合和虚拟
    的头像 发表于 01-15 10:36 4148次阅读

    如何选择NVIDIA GPU虚拟软件的组合方案呢?

    NVIDIA vGPU 解决方案能够将 NVIDIA GPU 的强大功能带入虚拟桌面、应用程序和工作站,加速图形和计算,使在家办公或在任何地方工作的创意和技术专业人员能够访问虚拟化工作空间。
    的头像 发表于 01-12 09:26 1030次阅读
    如何选择NVIDIA <b class='flag-5'>GPU</b>和<b class='flag-5'>虚拟</b><b class='flag-5'>化</b>软件的组合方案呢?