0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型时代的AI之变与开发之根

脑极体 来源:脑极体 作者:脑极体 2021-09-29 08:54 次阅读

自2018年谷歌发布Bert以来,预训练大模型以强大的算法效果,席卷了NLP为代表的各大AI榜单与测试数据集。随着产学研各界的深入研究,大模型在AI产学研各界的地位得到不断加强。到2021年,我们可以看到各大学术机构、科技企业都在打造自己的大模型,并且将其能力边界、技术路径进行了极大拓展。

有人认为,AI大模型的到来让这项技术完成了从实验室到工业化集成的转变。如果说过去的AI开发需要手工作坊模式的调参、调优、数据积累,那么大模型则预先集成了海量数据的训练效果,企业与科研用户拿到手中就是一个“智力”强大、效果客观的完成品。于是极大程度节省了重复开发成本,降低了开发门槛。

大模型的价值涌现出来,下一个问题随之诞生:打造大模型需要人工智能算力、网络、框架等一系列条件形成有效支撑,才能让大模型真正“大”起来。大模型能够持续发展的前提,是必须打造强壮的AI根技术,在框架、算力等层面满足大模型的“建造”需求。

不久之前,中科院自动化所发布了全球首个三模态大模型——紫东.太初。

而这项技术成果的背后,是中科院自动化所与华为携手,利用全场景AI框架MindSpore对大模型开发进行了一系列支撑。9月25日, 在华为全联接2021上,MindSpore中文名“昇思”发布,同时推出昇思1.5版本。这一版本强化全场景能力、原生支持大模型,并新增AI科学计算新范式,发布电磁仿真套件和分子模拟套件,促进AI应用于科学计算领域。

ec8d5bc6dd014e8fbc2a29c104c8137c~tplv-tt-shrink:640:0.image

我们就借此机会,聊聊大模型如何从昇思1.5中汲取营养;持续打造大模型,需要开发框架带来怎样的根技术支持。

时代的召唤:大模型推动AI之变

预训练大模型发展到今天,已经经历了三年多的时间。期间最具“出圈”效应的大模型,可能就要属2020年OpenAI发布的NLP大模型GPT-3。

GPT-3首次实现了千亿级数据参数,除了传统的NLP能力之外,还可以算术、编程、写小说、写论文摘要,一时之间成为舆论热点。GPT-3的出现,让各界看到了大模型的潜力, 也让中国开发自己的大模型成为了“时代的召唤”。

从产业价值上看,预训练大模型带来了一系列可能性,让产学研各界看到了由弱人工智能走向强人工智能;由重复开发、手工作坊式人工智能,走向工业化、集成化智能的全新路径。可以说,大模型是近两年AI持续变革的核心动力,也是AI走入千行百业、各学科领域的关键支柱。

于是我们可以看到,中国的科技企业、学术科研机构纷纷开始加码大模型,并且在不同路径上进行探索和尝试。比如说,Bert和GPT都是NLP领域的大模型,缺乏对图形图像数据与多模态数据的处理能力。因此,多模态大模型成为了重要的研究方向。集成语音、文本、图像、视频等各个模态信息的处理模式,也更加贴近人类感知,具有更高的社会价值。

对于产学各界来说,数据量大、训练效果好、网络拓扑结构紧凑,同时又容易获取的预训练大模型,都是未来学术研究、AI开发、产业升级的基础和关键。大模型将很有可能改变AI的研究范式,成为不同领域的共性基础平台。

中科院自动化所就瞄准这一方向,成功构建了视觉-文本-语音三模态预训练模型——紫东.太初。而在其背后,华为提供的昇思1.5框架的能力,成为了打造大模型的利剑。

驶向多模态:紫东.太初的独特价值

破混沌,开新局,紫东.太初这个极具魄力与东方文化质感的名字属于全球首个三模态大模型(OPT-Omni-Perception pre Trainer)。它能够实现图文音语义的统一表达,将视觉、文本、语音三种模态统一起来,实现以文搜图,以图生音等跨模特理解与生成能力,这标志着预训练模型工作获得突破性进展。

目前阶段,产学研界最多的大模型就是NLP大模型,其次是CV大模型。而多模态大模型作为新生事物,基本也考虑的是两个模态之间的协同转化。比如图像与文本、视频与文本,并且能力更多是集中在生成或理解中的一项,很少能够兼顾。

紫东.太初为了解决这些问题,提出了视觉-文本-语音三模态预训练模型。通过将视觉、文本、语音不同模态数据各自编码器,映射到统一语义空间,然后通过多头自注意力机制(Multi-head Self-attention)学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示,再利用编码后的多模态特征,最终通过解码器分别生成文本、图像和语音。经过这样的对齐与转化,大模型可以更加关注图-文-音三模态数据之间的关联特性以及跨模态转换问题,对更广泛、更多样的下游任务提供模型基础支撑。最终,多模态大模型不仅可以实现跨模态理解,还能完成跨模态生成,极大程度提升了学习框架的灵活性,有效降低了多模态数据的收集与清洗成本。

由于三模态大模型非常接近人类的信息处理方式,其对信息数据有非常好的协同掌握能力,因此可以非常广泛地应用于产学各领域,孵化出更多新应用。紫东.太初目前已经具备全球领先的图文音跨模态理解与生成能力,可轻松完成智能问答、图片生成、视频理解与等任务,这些能力将在工业质检、影视创作、互联网推荐、智能驾驶等领域广泛应用。

而面向产业上游看,我们会发现紫东.太初的打造,得益于昇腾AI的产业底座。尤其是昇思对大模型的原生支持,让大模型具备了快速开发、精准训练的“开发之根”。

根强则AI强:昇思支持大模型时代到来

在MindSpore 全新升级的1.5版本中,我们不仅见到了全新的中文名——昇思,更重要的是见到了昇思新版本对科学研究、AI基础开发的全新适配能力,展现了昇腾AI产业对新锐产学动向的洞察和满足。

在科研工作中,AI开发经常是一件成本巨大、容错率极低的工作。算力、数据、基础模型和开发套件都会成为科研工作中的AI开发难题。面对这些问题,昇思1.5不仅极大提升了对大模型的适配能力,还强化升级了科学计算引擎,全面加强了对学术界、工业界的AI开发支持。

在大模型支持方面,昇思1.5版本实现了原生支持大模型,能够在业界率先支持全自动并行AI处理。在大模型训练中,可以同时使用数据并行、算子级模型并行、Pipeline 模型并行、优化器模型并行、异构并行、重计算、高效内存复用多维度、全种类的分布式并行策略;并且原创集群拓扑感知的多维度自动混合并行,实现超大模型自动切分,显著提升集群加速能力;新的 DNN分布式并行编程范式,可以实现低代码算法切换,大幅节省开发时间。

面对结构复杂、训练开销巨大、训练时间漫长的多模态大模型,新的昇思特性可以极大提升训练加速能力,同时减少系统性能优化代价,降低代码开发工作力,从而综合性地减少调试与训练周期。

在这样的框架能力升级中,会有更多创新性强、训练数据规模大的预训练大模型在昇思的支撑下发展起来。昇思自然也就名副其实成为了大模型的“根技术”。

目前,基于昇思训练的大模型除了已经发布的全球首个中文预训练大模型鹏程.盘古、全球首个三模型预训练大模型紫东.太初,还有即将发布的智能遥感大模型、语音大模型等等,可以说昇思框架对大模型支持的能力是业界首屈一指的。

6aa0ef0f6c7a40188761646619ef7091~tplv-tt-shrink:640:0.image

与此同时,昇思1.5还新增了对外开放机制等诸多新特性,尤其注重在科研创新和应用领域的支持。通过多尺度混合计算和高阶混合微分两大关键创新,将原有的 AI 计算引擎升级为 AI 与科学计算的统一引擎,实现融合的统一加速。在此基础上,未来昇思将面向 8 大科学计算场景推出 MindScience 系列套件。科学计算套件包含业界领先的数据集、基础模型、预置高精度模型和前后处理工具,可以加速科学行业应用开发。

昇思将持续加强对科研领域AI开发的支持,尤其是为大模型这种“国之重器”的训练底座。同时,昇腾社区和昇思MindSpore社区也会加强对大模型开源开放的支持。目前,昇思社区下载量已经突破60万,社区贡献者超过3500人。昇思正在与产学研各界一同推进开源开放,让大模型真正成为科学之基、产业之本。

预训练大模型正在推动一场AI新变革。而在关注这场变革之前,我们更应该关注根技术、根平台的打造与建设。

坚实的产业基础之上,才能产学各界万花盛放。AI大模型之变,应该有强壮的根。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4608

    浏览量

    92847
  • AI
    AI
    +关注

    关注

    87

    文章

    30774

    浏览量

    268919
  • 模型
    +关注

    关注

    1

    文章

    3230

    浏览量

    48813
  • 大数据
    +关注

    关注

    64

    文章

    8884

    浏览量

    137413
收藏 人收藏

    评论

    相关推荐

    AI大语言模型开发步骤

    开发一个高效、准确的大语言模型是一个复杂且多阶段的过程,涉及数据收集与预处理、模型架构设计、训练与优化、评估与调试等多个环节。接下来,AI部落小编为大家详细阐述
    的头像 发表于 12-19 11:29 66次阅读

    大语言模型开发框架是什么

    大语言模型开发框架是指用于训练、推理和部署大型语言模型的软件工具和库。下面,AI部落小编为您介绍大语言模型
    的头像 发表于 12-06 10:28 116次阅读

    名单公布!【书籍评测活动NO.49】大模型启示录:一本AI应用百科全书

    一次大模型变革中,完全不缺态度,只缺认知与落地的经验。 在过去的两年中,我们看到了全球太多的巨头和普通中小企业,进入All in AI的投资周期。有的已经开始落地到具体的生产流程,例如企业内部客服、优化
    发表于 10-28 15:34

    常见AI模型的比较与选择指南

    :由月暗面科技有限公司开发,擅长中英文对话,能处理多种文件格式(TXT、PDF、Word、PPT、Excel等),还能阅读和理解用户上传的文件,并结合互联网搜索结果来回答问题。 智普清言(智谱清言) :基于智谱AI自主研发的
    的头像 发表于 10-23 15:36 730次阅读

    【「大模型时代的基础架构」阅读体验】+ 未知领域的感受

    国庆前就收到《大模型时代的基础架构》一书,感谢电子发烧友论坛。欢度国庆之余,今天才静下心来体验此书,书不厚,200余页,彩色图例,印刷精美! 当初申请此书,主要是看到副标题“大模型算力中心建设指南
    发表于 10-08 10:40

    模型时代的算力需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型的算力,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问
    发表于 08-20 09:04

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    本帖最后由 jf_40317719 于 2024-6-18 17:39 编辑 视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能
    发表于 06-18 17:33

    2024 TUYA全球开发者大会盛大启幕,Cube AI模型重磅首发!

    AI浪潮席卷全球的当下,把握时代脉搏,全面拥抱生成式AI已成为共识。面对AI带来的无限可能,开发者们纷纷投身其中,积极探寻
    的头像 发表于 05-31 08:15 355次阅读
    2024 TUYA全球<b class='flag-5'>开发</b>者大会盛大启幕,Cube <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>重磅首发!

    2024 TUYA全球开发者大会盛大启幕,Cube AI模型重磅首发!

    AI浪潮席卷全球的当下,把握时代脉搏,全面拥抱生成式AI已成为共识。面对AI带来的无限可能,开发者们纷纷投身其中,积极探寻
    发表于 05-30 09:13 225次阅读
    2024 TUYA全球<b class='flag-5'>开发</b>者大会盛大启幕,Cube <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>重磅首发!

    STM CUBE AI错误导入onnx模型报错的原因?

    使用cube-AI分析模型时报错,该模型是pytorch的cnn转化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    发表于 05-27 07:15

    AI时代怎么样不被淘汰?讯飞AI鼠标助力你在AI时代成长

    功能的智能鼠标,将成为你跻身AI时代的利器。 下面来聊聊讯飞AI鼠标都有哪些令人惊艳的AI功能吧 1.星火认知大模型
    的头像 发表于 03-23 11:41 693次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>时代</b>怎么样不被淘汰?讯飞<b class='flag-5'>AI</b>鼠标助力你在<b class='flag-5'>AI</b><b class='flag-5'>时代</b>成长

    防止AI模型被黑客病毒入侵控制(原创)聆思大模型AI开发套件评测4

    在设计防止AI模型被黑客病毒入侵时,需要考虑到复杂的加密和解密算法以及模型的实现细节,首先需要了解模型的结构和实现细节。 以下是我使用Python和TensorFlow 2.x实现
    发表于 03-19 11:18

    使用cube-AI分析模型时报错的原因有哪些?

    使用cube-AI分析模型时报错,该模型是pytorch的cnn转化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    发表于 03-14 07:09

    AI模型怎么解决芯片过剩?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:42:05

    AI模型可以设计电路吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:09:29