电子发烧友网报道(文/李弯弯、吴子鹏)从OpenAI去年底推出ChatGPT以来,人工智能领域持续火热。近日,高潮更是一波接着一波,首先是OpenAI继ChatGPT之后又推出了更强大的大型多模态模型GPT-4,接着是国内百度终于正式发布了其大型语言模型文心一言。昨日,微软宣布将GPT-4全面接入所有办公软件,更是炸翻全场。
种种迹象表明,大模型的应用即将走进千家万户,人工智能产业发展迎来高潮。大家知道,无论是ChatGPT、文心一言,还是其他生成式AI模型的训练和部署,对算力都有很高的要求。那么目前国内在这方面具备怎样的条件?大模型的发展将带来怎样的机会和挑战?带着这些问题,电子发烧友最近对多家大算力芯片、接口IP、服务器企业做了深度调研。
大算力芯片的机会和挑战
目前,全球大模型的训练基本都是采用英伟达的GPU。OpenAI之前推出的ChatGPT,以及最近发布的GPT-4,都是在大量英伟达A100的基础上训练而成。据说微软的Azure云服务为ChatGPT构建了超过1万枚英伟达A100GPU芯片的AI计算集群。
国内大模型的训练也基本倚赖英伟达的GPU,业内人士认为,想要做好AI大模型,1万枚英伟达A100芯片是门槛。然而国内拥有1万枚英伟达A100芯片的企业少之又少。从这个层面来看,国内企业想要布局类似ChatGPT这样大规模的模型短期来看还很难。
从长远来看,未来大模型的研发和部署是必然趋势,而每个大模型训练和部署的背后,都有几万个GPU在支持。可想而知,未来随着这方面的研发和应用的普及,通用GPU市场需求将会迎来爆发式增长。这对GPU企业来说将会是巨大的机会。
登临科技联合创始人王平在接受电子发烧友采访的时候表示:“以电力为例,可以很清楚的看到这个市场未来的变化。几十年前,电力只是用在一些小用量的场景,随着电力的供给越来越多,电器也越来越多的时候,最后电力就成了一个基本设施。可以说,算力也是朝着基础设施的方向在发展。而现在通用GPU还远没有到爆炸式需求的阶段。”
然而从目前的情况来看,国内的GPU还难以在大模型的训练中承担起重要责任,不过可以看到有不少企业在该领域持续耕耘。对于国内的GPU企业可以怎么做,才能在抓住ChatGPT带来的这波机会,如何为国内大模型的发展提供算力支持?
在接受电子发烧友采访的时候,燧原科技创始人兼COO张亚林谈到了几点:首先,企业需要能够提供更高性价比的算力,从ChatGPT训练就能看到算力的成本有多高,从这个角度来看,并不是所有人都能玩得起这场游戏。
其次,大算力芯片企业需要能够站到系统的角度思考问题,最终算力的呈现是一个集群系统,这里面包含几千张加速卡,几千颗芯片,大量的互联和存储,很多服务器。整个系统的设计、调动能力、是否易用跟芯片的设计会不太一样。这样更能够提供满足用户需求的产品。
在人工智能算力领域,燧原科技已经有很深的积累。目前已经迭代两代训练和推理产品,第三代在研发中。此外,燧原科技已经在科研领域和智慧城市的应用中落地了训练和推理的超千卡算力集群。张亚林表示,类似ChatGPT这样的AIGC生成式模型,对于燧原科技而言是个机遇,公司可以把已经积累的系统集群的经验推广到更多的客户赛道上,帮助客户使能更多大模型的生成。
面对与国际巨头的差距,天数智芯对电子发烧友表示,坚持通用GPU发展的路线,全面覆盖训练和推理两条产品发展主线。结合行业解决方案为各行业、各产业发展提供完整成熟的软硬件一体化方案。在未来的产品发展上,逐步缩小和国际先进产品的差距,为国内人工智能发展提供强有力的支持。
天数智芯自2021年3月推出云端训练通用GPU产品--天垓100,并于2022年12月推出云端推理通用GPU产品--智铠100,截止目前,天数智芯订单规模就已经突破5亿元。目前,基于天垓100训练的模型种类超过了两百种。天数智芯表示,公司在训练芯片上坚持通用GPU架构、主流生态兼容等发展路线,对于通用性、兼容性、安全性等方面都进行了支持,可以为ChatGPT的发展提供有效安全的算力底座。
对于以ChatGPT为代表的大模型训练和部署,对通用GPU或者算力的高要求,登临科技联合创始人王平谈到,从ChatGPT用户数超1亿,日访问量几千万的数据来看,它的运营成本相当高,每天的电费达到几十万人民币量级。他认为,这时候计算效率很重要,如果计算架构相比于传统的GPGPU更有优势的话,它在计算效率上也就会更有优势。
就比如登临科技的一些计算密度更大的产品。登临科技是一家专注于高性能通用计算平台的芯片研发与技术创新的公司,登临自主研发的GPU+架构正式采用了软件定义的片内异构体系,目前首款基于GPU+的系列产品—Goldwasser已在云至边缘的各个应用场景实现规模化落地。据王平介绍,登临科技希望通过异构,从由点及面在一些足够大的市场领域,把产品做到比英伟达同系列产品更具性价比优势,甚至超过英伟达。
高速接口IP的机会和挑战
就如上文所言,大模型的训练需要大量的GPU,ChatGPT的训练就使用了1万张英伟达的高端GPU。然而从训练的角度来看,计算性能再好的GPU芯片如A100如果无法集群在一起去训练,那么训练一个类ChatGPT的大模型可能需要上百年。因此,AI大模型的训练对高速接口IP是一个巨大的挑战,也是一个巨大的机遇。
在以ChatGPT为代表的生成式AI大模型产业中,接口IP能够发挥哪些作用呢?奎芯科技市场及战略副总裁唐睿在接受电子发烧友网采访时谈到了几点:
首先是芯片上的互联接口,也就是Die to Die类型的互联接口IP,包括UCIe等,用以扩充单芯片的计算能力;其次是Chip to Chip类型的互联接口IP,包括SerDes/PCIe/CXL等,能够加快芯片之间的互联和数据交换,满足更高带宽的需求;此外还有内存接口IP,包括SATA、DDR、HBM等,能够用于打造更高性能的存储产品,帮助类ChatGPT存储和交换大规模的数据;再上一层就是数据通讯接口的接口IP。因此,从训练的角度来看,类ChatGPT应用的爆发,能够带来非常大的接口IP需求。
奎芯科技成立于2021年,目前已经推出的高速接口IP组合包括USB、PCIe、SATA、SerDes、MIPI、DDR、HDMI、DP、HBM等丰富的类型。唐睿指出,从技术上来看,国产接口IP厂商确实还处于追赶的位置,不过这种差距已经越来越小。2023年,奎芯科技将会推出一系列性能达到国际领先水平的接口IP产品,包括HBM3以及其他领先的D2D类型的互联接口IP。
当前,AI大模型训练所用到的算力集群基本上都是基于英伟达通用算力芯片来打造,在这方面国产通用算力芯片还存在一定的性能差距。唐睿表示,国产高性能计算芯片还是有机会的,AI大模型并不是一个近期出现的新鲜事物,近些年国内AI产业已经在跟进这一趋势,只是类ChatGPT类型应用背后的大模型参数规模更大。
针对这方面的需求,国内芯片产业也早就启动了这方面的布局,包括奎芯科技所在的接口IP赛道,都在向这个方向努力。不过,从IP研发到芯片设计,再到应用落地,这中间会有一个时间差。实际上,国外的公司也是在用之前的芯片通过互联在做这方面的硬件支持。
服务器厂商的机会和挑战
大模型的训练和部署离不开服务器的支持。微软Azure AI基础设施总经理尼迪·卡佩尔表示,他们构建了一个系统架构,可以在非常大的范围内运行且十分可靠,这是ChatGPT成功的重要原因。云服务依赖于数千个不同的部件,包括服务器、管道、不同的金属和矿物等。
近年来,在全球数字化、智能化的浪潮下,智能手机、自动驾驶、数据中心、图像识别等应用推动AI服务器市场迅速成长。根据IDC数据,2021年全球AI服务器市场规模已达到 145亿美元,并预计2025年将超过260亿美元。
近段时间ChatGPT概念的火热,更是对算力基础设施的需求起到了带动作用。宁畅副总裁兼CTO赵雷此前在接受媒体采访的时候表示,ChatGPT的训练和部署,都需要大量智能计算数据存储以及传输资源,计算机基础设施、算力等上游技术将因此受益。
宁畅是一家集研发、生产、部署、运维一体的服务器厂商,及IT系统解决方案提供商。该公司很早就开始着重发力于人工智能服务器和液冷服务器。赵雷表示,公司目前在用的、在研的人工智能和液冷服务器,包括今年推出的浸没液冷服务器,刚好跟上算力高速增长的市场需求。公司随时准备着为客户提供合适的高算力产品和解决方案。
在人工智能服务器方面,宁畅已经推出多款产品,包括X620 G50、X660 G45、X640 G40、X620 G40。日前,百度正式发布大型语言模型文心一言,随后宁畅联合百度宣布宁畅AI服务器支持百度文心一言,宁畅凭借AI服务器产品及定制化服务,为百度文心一言提供算力保障。
目前国内有不少优秀的服务器厂商,除了上述提到的宁畅,还有浪潮信息、中科曙光等。不过整体来看,国内在算力的提供商仍然存在瓶颈,比如总体算力不够,算力分布不均。也就是说存在部分客户算力过剩,部分客户算力不足,或者A时间算力过剩,B时间算力不足的情况。短期来看,这个问题要靠云技术解决,长期来看是要提供过剩的算力。也就是说,需要云技术去平衡协调算力不均匀的问题,还需要提高算力、算力效率等。
另外还有算力成本的问题,虽然目前每单位算力单价已经下降,但是过去几年服务器的平均售价一直上涨。赵雷认为,可能算力类型单一,不太能够有效地支撑高速增长的模式,可能要有各种各样不同类型的算力。比如ChatGPT,是不是可以做针对GPT模型专门的ASIC。算力的应用类型越窄,它的效率就会越高,越通用效率就越低。
总结
显然,随着ChatGPT、GPT-4及文心一言等大型语言模型的发布,以及未来大模型在各个领域中实现部署应用,人们离期待已久的通用人工智能也就越来越近。而大模型的研发和应用部署,也将给算力芯片、接口IP、服务器等产业带来前所未有的机会。同时国内在这些领域具备自己的独特优势,也面临着诸多挑战。这将会是一场持久战。
种种迹象表明,大模型的应用即将走进千家万户,人工智能产业发展迎来高潮。大家知道,无论是ChatGPT、文心一言,还是其他生成式AI模型的训练和部署,对算力都有很高的要求。那么目前国内在这方面具备怎样的条件?大模型的发展将带来怎样的机会和挑战?带着这些问题,电子发烧友最近对多家大算力芯片、接口IP、服务器企业做了深度调研。
大算力芯片的机会和挑战
目前,全球大模型的训练基本都是采用英伟达的GPU。OpenAI之前推出的ChatGPT,以及最近发布的GPT-4,都是在大量英伟达A100的基础上训练而成。据说微软的Azure云服务为ChatGPT构建了超过1万枚英伟达A100GPU芯片的AI计算集群。
国内大模型的训练也基本倚赖英伟达的GPU,业内人士认为,想要做好AI大模型,1万枚英伟达A100芯片是门槛。然而国内拥有1万枚英伟达A100芯片的企业少之又少。从这个层面来看,国内企业想要布局类似ChatGPT这样大规模的模型短期来看还很难。
从长远来看,未来大模型的研发和部署是必然趋势,而每个大模型训练和部署的背后,都有几万个GPU在支持。可想而知,未来随着这方面的研发和应用的普及,通用GPU市场需求将会迎来爆发式增长。这对GPU企业来说将会是巨大的机会。
登临科技联合创始人王平在接受电子发烧友采访的时候表示:“以电力为例,可以很清楚的看到这个市场未来的变化。几十年前,电力只是用在一些小用量的场景,随着电力的供给越来越多,电器也越来越多的时候,最后电力就成了一个基本设施。可以说,算力也是朝着基础设施的方向在发展。而现在通用GPU还远没有到爆炸式需求的阶段。”
然而从目前的情况来看,国内的GPU还难以在大模型的训练中承担起重要责任,不过可以看到有不少企业在该领域持续耕耘。对于国内的GPU企业可以怎么做,才能在抓住ChatGPT带来的这波机会,如何为国内大模型的发展提供算力支持?
在接受电子发烧友采访的时候,燧原科技创始人兼COO张亚林谈到了几点:首先,企业需要能够提供更高性价比的算力,从ChatGPT训练就能看到算力的成本有多高,从这个角度来看,并不是所有人都能玩得起这场游戏。
其次,大算力芯片企业需要能够站到系统的角度思考问题,最终算力的呈现是一个集群系统,这里面包含几千张加速卡,几千颗芯片,大量的互联和存储,很多服务器。整个系统的设计、调动能力、是否易用跟芯片的设计会不太一样。这样更能够提供满足用户需求的产品。
在人工智能算力领域,燧原科技已经有很深的积累。目前已经迭代两代训练和推理产品,第三代在研发中。此外,燧原科技已经在科研领域和智慧城市的应用中落地了训练和推理的超千卡算力集群。张亚林表示,类似ChatGPT这样的AIGC生成式模型,对于燧原科技而言是个机遇,公司可以把已经积累的系统集群的经验推广到更多的客户赛道上,帮助客户使能更多大模型的生成。
面对与国际巨头的差距,天数智芯对电子发烧友表示,坚持通用GPU发展的路线,全面覆盖训练和推理两条产品发展主线。结合行业解决方案为各行业、各产业发展提供完整成熟的软硬件一体化方案。在未来的产品发展上,逐步缩小和国际先进产品的差距,为国内人工智能发展提供强有力的支持。
天数智芯自2021年3月推出云端训练通用GPU产品--天垓100,并于2022年12月推出云端推理通用GPU产品--智铠100,截止目前,天数智芯订单规模就已经突破5亿元。目前,基于天垓100训练的模型种类超过了两百种。天数智芯表示,公司在训练芯片上坚持通用GPU架构、主流生态兼容等发展路线,对于通用性、兼容性、安全性等方面都进行了支持,可以为ChatGPT的发展提供有效安全的算力底座。
对于以ChatGPT为代表的大模型训练和部署,对通用GPU或者算力的高要求,登临科技联合创始人王平谈到,从ChatGPT用户数超1亿,日访问量几千万的数据来看,它的运营成本相当高,每天的电费达到几十万人民币量级。他认为,这时候计算效率很重要,如果计算架构相比于传统的GPGPU更有优势的话,它在计算效率上也就会更有优势。
就比如登临科技的一些计算密度更大的产品。登临科技是一家专注于高性能通用计算平台的芯片研发与技术创新的公司,登临自主研发的GPU+架构正式采用了软件定义的片内异构体系,目前首款基于GPU+的系列产品—Goldwasser已在云至边缘的各个应用场景实现规模化落地。据王平介绍,登临科技希望通过异构,从由点及面在一些足够大的市场领域,把产品做到比英伟达同系列产品更具性价比优势,甚至超过英伟达。
高速接口IP的机会和挑战
就如上文所言,大模型的训练需要大量的GPU,ChatGPT的训练就使用了1万张英伟达的高端GPU。然而从训练的角度来看,计算性能再好的GPU芯片如A100如果无法集群在一起去训练,那么训练一个类ChatGPT的大模型可能需要上百年。因此,AI大模型的训练对高速接口IP是一个巨大的挑战,也是一个巨大的机遇。
在以ChatGPT为代表的生成式AI大模型产业中,接口IP能够发挥哪些作用呢?奎芯科技市场及战略副总裁唐睿在接受电子发烧友网采访时谈到了几点:
首先是芯片上的互联接口,也就是Die to Die类型的互联接口IP,包括UCIe等,用以扩充单芯片的计算能力;其次是Chip to Chip类型的互联接口IP,包括SerDes/PCIe/CXL等,能够加快芯片之间的互联和数据交换,满足更高带宽的需求;此外还有内存接口IP,包括SATA、DDR、HBM等,能够用于打造更高性能的存储产品,帮助类ChatGPT存储和交换大规模的数据;再上一层就是数据通讯接口的接口IP。因此,从训练的角度来看,类ChatGPT应用的爆发,能够带来非常大的接口IP需求。
奎芯科技成立于2021年,目前已经推出的高速接口IP组合包括USB、PCIe、SATA、SerDes、MIPI、DDR、HDMI、DP、HBM等丰富的类型。唐睿指出,从技术上来看,国产接口IP厂商确实还处于追赶的位置,不过这种差距已经越来越小。2023年,奎芯科技将会推出一系列性能达到国际领先水平的接口IP产品,包括HBM3以及其他领先的D2D类型的互联接口IP。
当前,AI大模型训练所用到的算力集群基本上都是基于英伟达通用算力芯片来打造,在这方面国产通用算力芯片还存在一定的性能差距。唐睿表示,国产高性能计算芯片还是有机会的,AI大模型并不是一个近期出现的新鲜事物,近些年国内AI产业已经在跟进这一趋势,只是类ChatGPT类型应用背后的大模型参数规模更大。
针对这方面的需求,国内芯片产业也早就启动了这方面的布局,包括奎芯科技所在的接口IP赛道,都在向这个方向努力。不过,从IP研发到芯片设计,再到应用落地,这中间会有一个时间差。实际上,国外的公司也是在用之前的芯片通过互联在做这方面的硬件支持。
服务器厂商的机会和挑战
大模型的训练和部署离不开服务器的支持。微软Azure AI基础设施总经理尼迪·卡佩尔表示,他们构建了一个系统架构,可以在非常大的范围内运行且十分可靠,这是ChatGPT成功的重要原因。云服务依赖于数千个不同的部件,包括服务器、管道、不同的金属和矿物等。
近年来,在全球数字化、智能化的浪潮下,智能手机、自动驾驶、数据中心、图像识别等应用推动AI服务器市场迅速成长。根据IDC数据,2021年全球AI服务器市场规模已达到 145亿美元,并预计2025年将超过260亿美元。
近段时间ChatGPT概念的火热,更是对算力基础设施的需求起到了带动作用。宁畅副总裁兼CTO赵雷此前在接受媒体采访的时候表示,ChatGPT的训练和部署,都需要大量智能计算数据存储以及传输资源,计算机基础设施、算力等上游技术将因此受益。
宁畅是一家集研发、生产、部署、运维一体的服务器厂商,及IT系统解决方案提供商。该公司很早就开始着重发力于人工智能服务器和液冷服务器。赵雷表示,公司目前在用的、在研的人工智能和液冷服务器,包括今年推出的浸没液冷服务器,刚好跟上算力高速增长的市场需求。公司随时准备着为客户提供合适的高算力产品和解决方案。
在人工智能服务器方面,宁畅已经推出多款产品,包括X620 G50、X660 G45、X640 G40、X620 G40。日前,百度正式发布大型语言模型文心一言,随后宁畅联合百度宣布宁畅AI服务器支持百度文心一言,宁畅凭借AI服务器产品及定制化服务,为百度文心一言提供算力保障。
目前国内有不少优秀的服务器厂商,除了上述提到的宁畅,还有浪潮信息、中科曙光等。不过整体来看,国内在算力的提供商仍然存在瓶颈,比如总体算力不够,算力分布不均。也就是说存在部分客户算力过剩,部分客户算力不足,或者A时间算力过剩,B时间算力不足的情况。短期来看,这个问题要靠云技术解决,长期来看是要提供过剩的算力。也就是说,需要云技术去平衡协调算力不均匀的问题,还需要提高算力、算力效率等。
另外还有算力成本的问题,虽然目前每单位算力单价已经下降,但是过去几年服务器的平均售价一直上涨。赵雷认为,可能算力类型单一,不太能够有效地支撑高速增长的模式,可能要有各种各样不同类型的算力。比如ChatGPT,是不是可以做针对GPT模型专门的ASIC。算力的应用类型越窄,它的效率就会越高,越通用效率就越低。
总结
显然,随着ChatGPT、GPT-4及文心一言等大型语言模型的发布,以及未来大模型在各个领域中实现部署应用,人们离期待已久的通用人工智能也就越来越近。而大模型的研发和应用部署,也将给算力芯片、接口IP、服务器等产业带来前所未有的机会。同时国内在这些领域具备自己的独特优势,也面临着诸多挑战。这将会是一场持久战。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
人工智能
+关注
关注
1791文章
46813浏览量
237448
发布评论请先 登录
相关推荐
AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感
很幸运社区给我一个阅读此书的机会,感谢平台。
《AI for Science:人工智能驱动科学创新》第4章关于AI与生命科学的部分,为我们揭示了人工智能技术在生命科学领域中的广泛应用和
发表于 10-14 09:21
《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得
的同时,确保其公正性、透明度和可持续性,是当前和未来科学研究必须面对的重要课题。此外,培养具备AI技能的科研人才,也是推动这一领域发展的关键。
4. 激发创新思维
阅读这一章,我被深深启发的是人工智能
发表于 10-14 09:12
什么是AI服务器?AI服务器的优势是什么?
AI服务器是一种专门为人工智能应用设计的服务器,它采用异构形式的硬件架构,通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片
算力:人工智能发展的新引擎
的算力支持。 但,算力的提升往往伴随着高昂的成本,维护以及电力消耗都是不小的开支、高性能计算硬件的购置。此外,AI模型的规模和复杂性不断增加,所需的
OpenAI推出新模型CriticGPT,用GPT-4自我纠错
在人工智能领域,每一次技术的革新都标志着向更高级别智能迈进的一步。OpenAI,作为这一领域的佼佼者,近日再次引领了行业的新潮流。周四,该公司发布了一则令人振奋的新闻稿,宣布新推出了一款
OpenAI API Key获取:开发人员申请GPT-4 API Key教程
OpenAI的GPT-4模型因其卓越的自然语言理解和生成能力,成为了许多开发者的首选工具。获取GPT-4 API Key并将其应用于项目,如开发一个ChatGPT聊天应用,不仅是实践人工智能
ChatGPT plus有什么功能?OpenAI 发布 GPT-4 Turbo 目前我们所知道的功能
的改进。在这里,我们全面了解GPT-4 Turbo是什么、它的主要功能以及它如何使开发人员和用户受益。 了解 OpenAI 的最新更新、具有视觉功能的 GPT-4 Turbo 及其主要功能,包括改进的知识
OpenAI发布的GPT-4 Turbo版本ChatGPT plus有什么功能?
GPT-4的最新版本。OpenAI凭借承诺增强功能和成本效率的模型实现了巨大飞跃,为人工智能行业树立了新标准。 我们来看看OpenAI带来了什么: 文本和图像理解 GPT-4 Turbo凭借两个独特的版本脱颖而出:以文本为中心的
评论