存储与GPU性能皆已成倍增长，IO表现为何迟迟不见好转？-电子发烧友网

存储与GPU性能皆已成倍增长，IO表现为何迟迟不见好转？

伴随着HPC、自动驾驶、深度学习和VR/AR需求的不断增加，IO性能也在逐步凸显瓶颈，尤其是GPU与存储之间的读写。处理器速度已经从KHz进化至了GHz，VRAM从KB进化至了GB，IO速度也从KB/s进化至了GB/s，然而GB/s的大幅度改善从直观角度来看依然像是MB/s。

比如在有线连接的VR应用中，图形需要经过电脑进行处理，再经有线传输显示在VR屏幕上，这就引发了高延迟和长读取时间等问题。这不禁让人开始遐想，在CPU、GPU和存储都已经革新换代的情况下，我们是否真正有效地应用了硬件性能？为此微软和英伟达都提出了直接存储的概念来改善IO的现状。

微软：Windows上的DirectStorage

微软在不久前的Windows 11发布会上重点提到了DirectStorage技术，这是一个最初为主机设计的DirectX API，如今微软也将把这一技术带到PC上。

在当前NVMe SSD和PCIe技术的演进下，存储带宽远超旧式的硬盘存储技术，过去10MB每秒的速度已经达到数GB每秒。但PC上的图形工作量也在逐步进化，数据量的增加对于读取提出了更高的要求。过去大量数据的读取只需要少量的IO请求，但如今的图形渲染会将材质等资源分成小块，只有在场景提出要求时载入所需的部分，如此一来虽然提高了效率，却引入了更多IO请求。

当前的GPU资源读取流程 / 微软

而目前的存储API并没有对大量IO请求作出优化，因此拖累了NVMe，使得读写瓶颈愈发明显。即便采用高端的PC硬件，也无法饱和利用存储带宽优势。除此之外，这些数据往往需要经过压缩传输下一个环节，传入内存后，还要CPU进行一部分解压工作，最后再传入GPU显存里，这样一来每个节点都存在效率损失。

而DirectStorage采用了全新的路径，从存储读取的数据传给内存后，直接传给GPU显存。而GPU对于这些数据的解压速度远快于CPU，所以极大地优化了IO性能。

英伟达：RTX IO和Magnum IO GPUDirect Storage

英伟达在RTX 30系列显卡上引入了RTX IO，面向消费市场，提升游戏场景下的读取速度。英伟达称RTX IO将与微软的DirectStorage结合，与传统硬盘下的存储API相比，可将IO性能提高百倍。过去需要数十个CPU内核的工作全部交由RTX GPU来处理。

值得一提的是，英伟达的RTX IO虽然也用到了微软的DirectStorage，但该技术并没有将数据传输到内存，而是直接由SSD转向GPU。微软一名图形开发者在GSL 2021大会上表示，未来DirectStorage的目标也是绕过系统内存。

GDS技术 / 英伟达

除了消费市场外，英伟达在HPC市场也推出了对应的直接存储技术，Magnum IO GPUDirect Storage（GDS）。GDS技术同样是一个绕过CPU的技术，与消费级GPU不同，HPC场景下往往要用到多块GPU，如此一来受IO延迟和CPU的影响更大。GDS在本地存储与GPU显存之间建立直接的数据通道，消除了CPU引入的延迟和读写瓶颈。

GDS与CPU传输至GPU读取性能对比 / 英伟达

在运用GDS后，带宽提升达到1.5倍，与传统CPU回弹缓冲的数据路径相比，CPU利用率也有2.8倍的提升。

目前英伟达已经将这一技术加入到其HGX AI超算中，DDN、VAST和WEKA三家公司已经开始了相关产品的量产，而IBM、美光等五家厂商也在积极引入这一技术。三星、铠侠、西数和戴尔等厂商也开始了GDS的早期集成与认证计划。

小结

直接存储技术进一步放大了GPU厂商与存储厂商的优势，目前HPC市场前景巨大，英伟达在相关业务上的盈利已经让其看到了商机。不仅是GPU，英伟达采用Arm架构的Grace CPU同样引入了NVLink这样的数据传输改善方案。在这样的性能改善下，即便存储方案不同，英伟达的GPU也很可能成为HPC应用的首选。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉