0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI训练算力需求昂贵,机器学习成本成问题

如意 来源:澎湃新闻 作者:澎湃新闻 2020-07-03 12:54 次阅读

对于计算工业,其最基本的一个假设是:数字处理会变得越来越便宜。并且根据著名的摩尔定律,可以预测在给定尺寸的芯片其上面能集成的电路个数(差不多相当于算力)通常每两年会翻一番。

斯坦福人工智能研究所副所长克里斯托弗·曼宁表示,对于许多相对简单的AI应用来言,上述假设意味着训练成本的降低。但对于有些应用现在却不是这样的,特别是因为不断增加的研究复杂性和竞争性,使得最前沿模型的训练成本还在不断上升。

曼宁用BERT模型来举例,BERT是谷歌在18年提出的AI语言模型,已被用在谷歌搜索中。该模型有超过3.5亿个内部参数,而且要大量数据来进行训练,大概用了33亿个大部分来自维基百科的单词来训练。接着曼宁说,现在看来维基百科都不是个多大的数据集了。“如果能用300亿个单词训练一个系统,那它的性能肯定比用30亿个单词训练的系统要好。”但更多的数据也意味着要用更多算力进行支持。

总部位于加州的OpenAI表示,随着对机器学习兴趣的不断增加,对算力的需求从12年开始也急剧增加了。到18年,用于训练大型模型的计算机算力相比之前已增长了30万倍,并且还每三个半月翻一番(见图)。比如,为训练能在DOTA 2中击败人类的“OpenAI Five”系统,就几乎将机器学习训练扩展到了“前所未有的水平”,差不多用数千块芯片训练了十多个月。

关于所有这些训练成本的确切数字,马萨诸塞州阿默斯特大学的研究人员在19年发表的一篇论文中进行了估计,例如训练某个版本的Transformer模型可能就要花费300万美金。同时Facebook的AI负责人杰罗姆·佩森蒂表示,针对当前最大的模型进行一轮训练光是电费可能就好几百万美金。

云计算辅助

然而,对于Facebook这样19年利润就达185亿美元的公司,这点钱不算什么。但对于那些现金并不充足的公司就有点压力山大了。著名风险投资公司Andreessen Horowitz (a16z)指出,许多AI初创公司都是从云计算公司(如亚马逊和微软)来租用训练所需的算力。而因此带来的费用(有时占收入的25%或更多)也是AI初创公司投资吸引力低于老式软件公司的原因之一。3月,曼宁博士在斯坦福大学的同事们,包括著名的李飞飞,一起呼吁创建美国国家研究云计算计划,旨在帮助美国AI研究人员应对不断增长的训练费用。

对算力日益增长的需求同时也推动了芯片设计和AI专用计算设备的蓬勃发展。专用芯片的第一波浪潮是GPU的出现,其在90年代设计出来就是为了用于增强视频游戏图形处理。而非常巧的是,GPU也非常适合现在AI应用中的数学计算。

相比起GPU现在还有更专业的芯片,各个公司也正在致力于研究这些芯片。去年12月,英特尔就以20亿美元的价格收购了以色列公司Habana Labs;而成立于16年的英国公司Graphcore在2019年的估值为20亿美元;最大的GPU制造商Nvidia等公司已对其芯片进行了重新设计来适应AI的计算需求;Google内部设计了自己的“张量处理单元”(TPU)芯片;而中国科技巨头百度也已用上了自己的“昆仑”芯片。毕马威的阿方索·马龙认为,专用AI芯片的市场价值已达约100亿美元的规模,而到2025年预估能达到800亿美元。

Graphcore的创始人之一奈杰尔·图恩表示:“计算机体系结构需要适应现在训练处理数据的方式。” 对于AI运算其最基础的特征可以说就是“并行”,即将运算切分为很多小块同时进行运算。例如,Graphcore的芯片有1,200多个单独的数字运算核,能连接在一起提供更多的算力。而加州的创业公司Cerebras采取了更极端的方法,每个芯片占用了整张硅片,每张硅片上能放置40万左右个核。

除了并行,其他优化也很重要。Cerebras的创始人之一安德鲁·费尔德曼指出,AI模型花费了大量时间来进行乘零操作。而因为这些计算结果总时零,所以其实很多都是不必要的,所以Cerebras的芯片就尽量避免执行这些运算。同时,Graphcore的Toon先生说,与许多任务不同,现在AI并不需要超精确的计算。这也意味着芯片设计人员能通过减少运算所需的精度来节省能耗。(而计算精度到底能降到什么程度仍是个开放性问题。)

之后所有这些因素都能综合起来获得更大提升。Toon就认为Graphcore当前的芯片效率是GPU的10到50倍。

现在类似的创新变得越来越重要,因为对算力需求激增正赶上摩尔定律逐渐失效的时候。现在缩小芯片变得越来越困难,而且带来的收益也越来越小。去年,Nvidia的创始人黄仁勋直言不讳地说:“摩尔定律失效了”。

量子解决方案和神经形态方案

因此,现在研究人员还在寻找更多的解决方法。其中一种是量子计算,利用量子力学的反直觉特性为某些类型的计算进行大幅提速。关于机器学习的一种思考角度是将它看作是一个优化问题,而计算机试图在数百万个变量中进行权衡从而求出尽可能最小值。微软量子系统部门负责人Krysta Svore说,一种称为格罗弗算法的量子计算技术具有巨大的提速潜力。

另一种想法是从生物学中获得启发,认为当前的蛮力方法并不是唯一的方法。当Cerebras的芯片运行起来,功耗大约为15kw,足以为数十座房屋供电(相同数量GPU能耗更多)。而相比起来,人脑消耗能量就只有大概20w,只有前者的千分之一,而人脑在许多方面都比硅芯片更聪明。因此,英特尔和IBM等公司正在研究“神经形态”芯片,希望设计出更能模仿生物大脑神经元电行为的组件。

但到目前为止,这两条路都还很遥远。量子计算机在理论上相对容易理解些,但尽管有谷歌,微软和IBM等技术巨头投入数十亿美元,实际搭建却仍是个巨大挑战。而神经形态芯片虽然是用现有技术构建的,但让设计人员很气馁的是,就连神经科学家都还不怎么了解大脑究竟在做什么以及怎么做到的。

这意味着,在可预见的未来,AI研究人员将不得不继续尽可能地压榨现有计算技术性能。而Toon先生对此还是很乐观的,他认为通过更专业硬件以及调整现有软件让训练更快,也还是能带来很大收益。为了说明这个新领域的发展,他用电子游戏打了个比方:“现在我们已超越了乓(Pong),可能到了吃豆人。”

没有钱来进行训练的穷炼丹师们理所当然地希望他说的是对的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30643

    浏览量

    268824
  • 机器学习
    +关注

    关注

    66

    文章

    8401

    浏览量

    132534
  • 算力
    +关注

    关注

    1

    文章

    960

    浏览量

    14784
收藏 人收藏

    评论

    相关推荐

    企业AI租赁是什么

    企业AI租赁是指企业通过互联网向专业的提供商租用所需的计算资源,以满足其AI应用的
    的头像 发表于 11-14 09:30 400次阅读

    AI时代的重要性及现状:平衡发展与优化配置的挑战

    AI时代,扮演着至关重要的角色。如果说数据是AI大模型的“燃料”,那么则是其强大的“动
    的头像 发表于 11-04 11:45 401次阅读

    GPU开发平台是什么

    随着AI技术的广泛应用,需求呈现出爆发式增长。AI
    的头像 发表于 10-31 10:31 159次阅读

    AI大模型与传统机器学习的区别

    多个神经网络层组成,每个层都包含大量的神经元和权重参数。 传统机器学习 :模型规模相对较小,参数数量通常只有几千到几百万个,模型结构相对简单。 二、训练数据需求
    的头像 发表于 10-23 15:01 528次阅读

    青云科技强化AI架构,升级产品与服务体系

    10月9日,青云科技正式揭晓了其升级版的产品与服务阵容、行业及场景定制化解决方案,以及全新的生态战略。该公司旨在通过AI平台、AI
    的头像 发表于 10-10 16:42 458次阅读

    大模型时代的需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型的,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问题,我需要在此书中找到答案。
    发表于 08-20 09:04

    摩尔线程张建中:以国产助力数智世界,满足大模型需求

    摩尔线程创始人兼CEO张建中在会上透露,为了满足国内对AI的迫切需求,他们正在积极寻求与国内顶尖科研机构的深度合作,共同推动更大规模的AI
    的头像 发表于 05-10 16:36 942次阅读

    risc-v多核芯片在AI方面的应用

    得RISC-V多核芯片能够更好地适应AI算法的不同需求,包括深度学习、神经网络等,从而提高芯片的性能和效率,降低成本,使AI边缘计算晶片更具
    发表于 04-28 09:20

    AI训练,为什么需要GPU?

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的底座。为什么GPU能力压CPU,成为炙手可热的主角呢?要回答这个问题,首先需要了解当前人
    的头像 发表于 04-24 08:05 1075次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>训练</b>,为什么需要GPU?

    为什么租赁能省钱?如何正确、快速抓住“人工智能+”新机遇

    ABSTRACT摘要通过租赁模式,企业可以根据实际需求灵活调整租用资源规模,无需承担昂贵
    的头像 发表于 03-13 08:24 613次阅读
    为什么<b class='flag-5'>算</b><b class='flag-5'>力</b>租赁能省钱?如何正确、快速抓住“人工智能+”新机遇

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    立足,聚焦AI!顺网科技全面走进AI时代

    “立足,聚焦AI”,顺网科技进军AI时代的号角已被吹响。 1月18日,顺网科技(300113.SZ)以“跃迁·向未来”为主题的战略升
    的头像 发表于 01-19 10:57 455次阅读
    立足<b class='flag-5'>算</b><b class='flag-5'>力</b>,聚焦<b class='flag-5'>AI</b>!顺网科技全面走进<b class='flag-5'>AI</b>智<b class='flag-5'>算</b>时代

    卫星通信序幕拉开,AI浪潮澎湃

    AI浪潮催生要求,基础设施需求持续提升。AIGC带来的超大
    发表于 01-03 10:22 383次阅读
    卫星通信序幕拉开,<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>浪潮澎湃

    AI应用中的光模块产品

    以ChatGPT为代表的AI大模型应用普及将推动需求快速增长,服务器产业链是其中重要的受益环节之一,AI计算的普及将推动服务器产业链光模
    的头像 发表于 01-02 15:32 530次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>应用中的光模块产品

    AGI时代的奠基石:Agent++大模型是构建AI未来的三驾马车吗?

    AI Agent的训练离不开,服务器作为一个强大的计算中心,为AI Agent提供
    的头像 发表于 12-21 13:34 1173次阅读
    AGI时代的奠基石:Agent+<b class='flag-5'>算</b><b class='flag-5'>力</b>+大模型是构建<b class='flag-5'>AI</b>未来的三驾马车吗?