华为盘古大模型部署已久,其负责人是华为云ai首席科学家田奇。
田奇于2008年至2009年从大学转到微软亚洲研究所多媒体计算组进行研究。2018年,天奇加入华为,作为首席科学家负责华为云计算相关业务。
2020年,在田奇的带领下,华为将启动半球模型研发,2021年4月正式发布,2022年将聚焦行业应用落实。今年7月7日,华为开发者大会(cloud)期间,版口3.0模型正式发布。
盘古大模型 3.0是由“5+ n + x”构成的完整的产业指向型大规模模型系列。
其中,L0层是指基础大模型,包括NLP(自然语言处理)大模型、CV(计算机视觉)大模型、多模态大模型、科学计算大模型和预测大模型五个基础大模型。
在这五个发展方向上,华为的成熟度是不同的。与chatgpt在nlp领域表现强势不同,盘古大模型原本是指向b领域顾客的服务,因此将焦点放在了更加成熟的cv领域。
l1层是指n个行业的大模型,华为云可以提供业界通用的大模型,包括政府业务、金融、制造、矿山、气象等大模型。并且根据客户的个人数据,在l0和l1层为客户训练自己的专用大型模型。
l2提供更为细化的剧本作为模型,l1为基础产业细分剧本结合在一起,就有可能获得推论作为模型、政府直拨电话,地点助手、药品遴选、异物探测台风路径预测等特定产业应用程序“,”立即可用的模式提供服务。
从整体上看,盘古大模型分为3个训练阶段。一是事前培训,利用庞大数据进行事前培训,获得通用基础模型;二是针对微调,下游行业的具体任务,结合行业数据进行微调。三是将大型模型反复产生的新数据与以前训练使用的数据相结合,实现大型模型的终身学习。
因此,盘古大模型3.0具有自身风筝和自动化两种特征。
华为首席执行官张平安此前表示:“华为自主开发的AI根基技术在最底层构建了以鲲鹏、昇腾为基础的AI昇腾云计算基础设施。还有一个计算框架,cann。升级云的效率反而领先于业界主流gpu。盘古大型模型训练效率比行业主流gpu平均提高1.1倍。
解耦是“盘古大模型3.0”的另一个关键词。在设计方面,半古代模型采用了完整的分层解耦设计。合作伙伴可以在此基础上为自己的模型加载额外的数据集,并独立升级基本模型和功能集。
与此同时,华为云以l0和l1模型为基础,为客户提供大型模型产业开发工具,通过对客户个人数据的二次培训,客户可以拥有自己的专业产业大型模型。并且,根据客户不同的数据安全及规程要求,vango大型模型提供公共云、大型模型云领域、混合云的多种配置形态。
-
数据集
+关注
关注
4文章
1205浏览量
24640 -
大数据
+关注
关注
64文章
8863浏览量
137285 -
盘古大模型
+关注
关注
1文章
109浏览量
240
发布评论请先 登录
相关推荐
评论