AI 创新的阻碍是对现有计算利用不足和成本增加-电子发烧友网

虽然人工智能融合到商业具有很高的商业价值，但通常这个价值还不能抵消把模型应用到商业中所需的计算成本。机器学习和深度学习是计算密集型的学习，有人认为，除非云计算或本地计算成本降低，否则尽管具有空前的商业价值，也不值得付出这笔成本。

麻省理工学院的研究科学家兼《深度学习的计算极限》一书的作者尼尔·汤普森（Neil Thompson）在《连线》杂志上发表的文章中提到，Google、Facebook等众多组织已经建立了影响力广又能节约成本的模型，但由于计算成本高而导致这些模型无法盈利。

汤普森表示在最近的一些演讲和论文中表示，从事大型和前沿人工智能项目的研究人员开始抱怨，因为成本太高，他们无法测试多个算法设计，或者重新进行实验。

商业机构需要极大地完善计算效率的方法，以促进创新并提高人工智能工作的投资回报率。但是，高昂的计算成本以及人们对高效计算的关注并不应该就此背黑锅。

实际上，GPU加速基础架构和其他云供应商已经取得了重大的进步，极大提高了训练复杂人工智能网络的能力，这种速度是前所未有的。

2020年5月，DeepCube发布了基于软件的推理加速器，大大提高了所有现有硬件上的深度学习性能。换句话说，人们正在开发计算解决方案以满足机器学习和深度学习日益增长的需求。人工智能创新潜在的阻碍就是对现有计算利用不足，以及“计算债务”的成本不断增加。

什么是“计算债务”？

人工智能的领头羊或许会惊讶地发现，阻碍机器学习投资回报的主要因素之一是GPU，CPU和内存资源利用不足。

公司在计算上投资了数百万美元，这些计算有可能极大地加速人工智能工作的负载量并提高性能，但最终只利用其中的一小部分，有时只利用了20%的资源。计算分配和实际利用率之间的差距令人震惊，可能需要公司付出比想象中更高的成本。

计算、分配和利用率之间的差距可称为“计算债务”。指的是分配和能力之间的“浪费”。下图直观地对比了绿色所代表的平均利用率和黄色所代表的（当时的）分配。

当工作负载正在运行时，通常仅利用GPU的一部分，而另一部分则被其他潜在的工作负载所阻挡。灰色区域表示容量即GPU，CPU或内存可用的现有计算量，是所有闲置且未充分利用的计算区域。

资料来源：cnvrg.io

是什么导致了“计算债务”？

机器学习和深度学习是计算密集型的学习，管理起来很复杂，降低这种计算负担会更难。人工智能基础设施团队面临的最大挑战之一是知道如何提高利用率，并以最大化消耗的方式管理资源，提高机器学习项目的投资回报率。导致“计算债务”的主要原因包括：

（1）基础设施团队缺乏人工智能项目可见性

机器学习项目的基础设施成本每年以两倍的速度增长，但是IT团队却缺乏正确管理、优化和预算机器学习资源的工具。大多数IT/DevOps领导者无法在给定时间了解GPU/CPU和内存的利用率、分配和容量。这导致无法控制消耗，无法提高效率。

（2） “计算债务”增长

随着人工智能计算需求变得越来越复杂，计算分配和实际利用率之间的差距也越来越大。通常来说，公司可能只消耗了全部资源的30%。这导致将近70%的计算资源闲置，浪费了公司几千甚至数百万美元。

（3）无法识别效率低下的工作

基础架构团队无法轻松识别未充分利用GPU/CPU的工作负载。如果没有收集有关历史工作负载的数据，就无法分析和识别运行效率低下的工作负载。缺乏可见性导致难以提高利用率，也难以控制工作负载的优先级。

（4）生产力中断

未充分利用的GPU被打断为其他工作让路，增加了数据科学家的等待时间。这导致在等待GPU上浪费了很多时间和资源。同时还包括资源处于闲置状态的问题，这些资源本来可以用于做其他工作的。

（5）缺乏标准化和统一性

团队经常无法将一项工作与利用率指标关联起来。没有标准的可视化工具来查看特定时间点的工作分配、利用率和容量。这使得识别效率低下的工作变得十分困难，而且难以确定浪费的工作量。机器学习已经达到了成熟的阶段，为了成长，必须对人工智能基础架构进行战略化发展。

（6）无法控制优化策略

有些团队能识别低效率并计划好优化的基础架构策略，却缺乏执行这些策略上的工具。IT / DevOps团队需要控制人工智能工作负载，以优化资源管理。如果没有办法确定工作的优先级、配置计算模板以及监视工作负载的分配和利用率，就无法做出重大改进。

减少“计算债务”的策略

这一问题没有明确的解决方法，但是有一些方法可以提高资源管理的效率。

（1）投资最先进的具有GPU加速技术的人工智能基础设施

GPU加速技术已经取得了一些成就。硬件和软件深度学习加速解决方案已经出现，可提供前所未有的计算性能。研究最新的GPU加速解决方案，采用真正的现代人工智能基础架构。

（2）采用混合的云基础架构

结合公共云、私有云和本地资源可在运行人工智能工作负载方面更加敏捷和灵活。由于人工智能工作负载之间的负载类型差异很大，因此公司搭建了混合云基础架构后，能够更灵活地分配资源和自定义大小。可以使用公共云降低资本支出，并提供高计算需求期间所需的可伸缩性。

如果一些公司有着严格的安全性要求，则必须添加私有云，随着时间的推移可降低运营支出。混合云可实现必要的控制和灵活性，以改善资源预算。

（3）利用估算工具估算GPU / CPU内存消耗

根据Microsoft Research对Microsoft的4960个失败的深度学习任务的研究，8.8%的失败是由GPU内存耗尽导致的，这是所有深度学习故障中最主要的问题。当前已经开发出许多估算工具用以预估GPU内存消耗以减少这些故障。此外，如果能够收集利用率数据，则可以使用此历史数据更好地预测每个季度的GPU / CPU和内存需求。

（4）规模化MLOps

引入可以简化机器学习工作流程，并标准化科学和工程角色之间转换的方法。由于IT和DevOps负责部署和管理工作负载，因此在执行不同的工作时拥有清晰的沟通渠道非常重要。适当的调度工具和对资源模板进行策略化可以改善人工智能工作负载的资源管理。

（5）最大限度地提高利用率，减少“计算债务”

为了提高利用率，有必要将计算债务作为基础架构团队和数据科学团队的KPI。如果公司能减少计算债务并提高利用率，就可以在向人工智能的竞争中脱颖而出。

要想让基础架构团队最大限度地提高GPU/CPU的可见性和内存消耗从而提高利用率，基本上是没有万全之策。尽管业界正在迅速构建更高效的硬件和软件来解决计算债务的威胁，但仍然任重而道远。很多公司花费了几百万美元在计算上，而这些计算并未被充分利用。

通过使用现有资源并完善资源管理，公司可以使人工智能基础架构具有巨大的可扩展性。根据文章中的策略，你可以完全利用好计算资源。公司若专注于优化基础架构，将会看到辛苦付出得到更高的投资回报率，从而在竞争中获得优势。
责编AJX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算

计算

+关注

关注
2

文章
450

浏览量
38799
AI

AI

+关注

关注
87

文章
30887

浏览量
269057
人工智能

人工智能

+关注

关注
1791

文章
47274

浏览量
238459
机器学习

机器学习

+关注

关注
66

文章
8418

浏览量
132626

深度评测：云计算平台的优势和不足

云计算平台具有成本效益、灵活性和可扩展性、简化维护和升级、全球访问性以及灾难恢复等优势，但也面临安全性问题、依赖性问题、合规性和隐私问题、性能限制以及迁移复杂性等挑战。企业在采用云计算之前需要仔细权衡这些优势和

发表于 11-22 10:48 •164次阅读

PCB层数增加对成本有哪些影响

PCB层数增加的成本影响层数与成本的关系：通常情况下，PCB的层数越多，其价格也越贵。这是因为层数的增加会导致生产步骤（如层压过程）的数量增加

发表于 11-07 09:12 •296次阅读

阻碍云计算采用5种原因

尽管云计算在企业和普通用户未来的计算需求里占据重要位置，但云计算存在的一切缺点和瑕疵还是在阻碍着企业和组织采用云计算。在云服务交付中扮演重要

发表于 10-23 10:57 •165次阅读

中国AI企业创新降低成本打造竞争力模型

在中国，面对美国实施的芯片限制以及相较于西方企业更为有限的预算，人工智能（AI）公司正积极寻求降低成本的方法，以开发出具有市场竞争力的模型。初创公司如01.ai（零一万物）和DeepSeek（深度求索）等，通过聚焦小数据集进行

发表于 10-22 14:56 •420次阅读

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

幸得一好书，特此来分享。感谢平台，感谢作者。受益匪浅。在阅读《AI for Science：人工智能驱动科学创新》的第6章后，我深刻感受到人工智能在能源科学领域中的巨大潜力和广泛应用。这一章详细

发表于 10-14 09:27

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

很幸运社区给我一个阅读此书的机会，感谢平台。《AI for Science：人工智能驱动科学创新》第4章关于AI与生命科学的部分，为我们揭示了人工智能技术在生命科学领域中的广泛应用和深远影响。在

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

非常高兴本周末收到一本新书，也非常感谢平台提供阅读机会。这是一本挺好的书，包装精美，内容详实，干活满满。关于《AI for Science：人工智能驱动科学创新》第二章“AI

发表于 10-14 09:16

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

，还促进了新理论、新技术的诞生。 3. 挑战与机遇并存尽管人工智能为科学创新带来了巨大潜力，但第一章也诚实地讨论了伴随而来的挑战。数据隐私、算法偏见、伦理道德等问题不容忽视。如何在利用AI提升科研效率

发表于 10-14 09:12

利用AI构建实用量子计算应用

在实践中构建实用量子计算机的难度极高，这需要大幅提高量子计算机的规模、保真度、速度、可靠性和可编程性，才能充分发挥其优势。另外，还需要功能强大的工具以解决许多阻碍实现实用量子计算的复杂

发表于 09-09 10:24 •353次阅读

NVIDIA在加速计算和生成式AI领域的创新

在最新发布的公司 2024 财年可持续发展报告开篇的一封信中，NVIDIA 创始人兼首席执行官黄仁勋介绍了 NVIDIA 在加速计算和生成式 AI 领域的创新，以及 AI 技术在提高生

发表于 09-09 09:18 •560次阅读

如何利用AI进行提升自我呢？

利用AI进行学习是一个高效且富有创新性的过程。以下是一些建议，帮助你充分利用AI进行学习：选择适合的A

发表于 07-19 10:46 •545次阅读

平衡创新与伦理：AI时代的隐私保护和算法公平

，如果医生和患者都能了解AI推荐治疗方案的原因，将大大增加对技术的接受度和信任。算法公平性的保障同样不可或缺。AI系统在设计时就需要考虑到多样性和包容性，避免因为训练数据的偏差而导致结果的不公平

发表于 07-16 15:07

广和通端侧AI解决方案荣膺MWCS 2024边缘AI计算最佳创新奖

在近日举行的2024世界移动通信大会·上海（MWCS 2024）上，广和通凭借其卓越的端侧AI解决方案荣获2024信息通信业“新质推荐”——边缘AI计算最佳创新方案奖。这一荣誉不仅彰显

发表于 06-28 15:44 •760次阅读

Imagination 引领边缘计算和AI创新，拥抱AI未来发展

6月25日，2024“N+”AI互动创新论坛在南京举办，Imagination中国资深副总裁张晓波受邀出席。在主题演讲中，张晓波表示，Imagination作为图形、计算和边缘人工智能领域的领导者

发表于 06-28 08:28 •537次阅读

云计算与企业IT成本治理

时至今日，云计算已逐步替代传统IT中服务器、存储、虚拟化等单体软硬件的IT架构，成为企业IT能力中最重要的组成部分。企业在利用云计算带来的便利、敏捷的同时，也越来越多依靠云计算提供的持

发表于 06-19 09:40 •550次阅读

搜索历史

AI 创新的阻碍是对现有计算利用不足和成本增加

评论

深度评测：云计算平台的优势和不足

PCB层数增加对成本有哪些影响

阻碍云计算采用5种原因

中国AI企业创新降低成本打造竞争力模型

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

利用AI构建实用量子计算应用

NVIDIA在加速计算和生成式AI领域的创新

如何利用AI进行提升自我呢？

平衡创新与伦理：AI时代的隐私保护和算法公平

广和通端侧AI解决方案荣膺MWCS 2024边缘AI计算最佳创新奖

Imagination 引领边缘计算和AI创新，拥抱AI未来发展

云计算与企业IT成本治理