一、大模型发展情况
1、行业发展历程
语言是人类表达和交流的突出能力,其在儿童早期发展并在一生中不断演变。然而,除非配备强大的人工 智能(AI)算法,机器不会自然地掌握理解和使用人类语言的能力。要让机器像人类一样阅读、写作和交流一 直是一个长期的研究挑战。从技术上讲,语言建模(Language Model, LM)是提高机器语言智能的主要方法之 一。一般来说,LM 旨在对单词序列的生成概率进行建模,以便预测未来(或缺失)单词的概率。LM 的研究在 学界中得到了广泛的关注,可以分为四个主要发展阶段: 统计语言模型(SLM):SLM 是基于 20 世纪 90 年代兴起的统计学习方法开发的。其基本思想是基于马尔 可夫假设构建单词预测模型,例如根据最近的上下文预测下一个单词。具有固定上下文长度 n 的 SLM 也被称为 n-gram 语言模型,例如二元和三元语言模型。SLM 已经被广泛应用于提高信息检索(IR)和自然语言处理(NLP) 任务的性能。然而,它们经常受到维度灾难的影响:由于需要估计指数级的转移概率,因此很难准确估计高阶 语言模型。因此,专门设计的平滑策略,例如后退估计和 Good-Turing 估计已经被引入为缓解数据稀疏问题。
神经语言模型(NLM):NLM 通过神经网络,例如递归神经网络(RNNs),来描述单词序列的概率。作为 一个显着的贡献,Y. Bengio 和 R. Ducharme 等人引入了单词的分布式表示的概念,并构建了基于聚合上下文特 征(即分布式单词向量)的单词预测函数。通过扩展学习词或句子有效特征的想法,已有研究开发了一种通用 神经网络方法来为各种自然语言处理任务构建统一解决方案。此外,word2vec 提出了构建一个简化的浅层神经 网络,用于学习分布式单词表示,这在各种 NLP 任务中被证明非常有效。这些研究开创了语言模型用于表示学 习(超越了词序列建模)的应用,对 NLP 领域产生了重要影响。 预训练语言模型(PLM):作为早期尝试,ELMo 被提出来通过预训练一个双向 LSTM(biLSTM)网络(而 不是学习固定的词表示)来捕捉上下文感知的词表示,然后根据特定的下游任务微调 biLSTM 网络。此外,基 于高度可并行化的 Transformer 架构和自注意力机制,BERT 提出了通过在大规模无标注语料库上设计特定的预 训练任务来预训练双向语言模型。这些预训练的上下文感知的单词表示非常有效,可作为通用语义特征,大大 提高了 NLP 任务的性能。这项研究启发了大量的后续工作,建立了“预训练和微调”学习范式。在此范式下, 开发了大量关于 PLM 的研究,引入了不同的架构(例如 GPT-2 和 BAR)或改进的预训练策略。在这个范式中, 通常需要微调 PLM 以适应不同的下游任务。
大型语言模型(LLM):研究人员发现,扩展 PLM(例如扩展模型大小或数据大小)通常会导致模型在下 游任务上具有更强的能力(即遵循缩放定律)。一些研究探索了通过训练更大的 PLM(例如 175B 参数的 GPT-3 和 540B 参数的 PaLM)来达到性能极限。尽管缩放主要是在模型大小(具有类似的架构和预训练任务)方面进 行的,但这些大型 PLM 显示出与较小 PLM(例如 330M 参数的 BERT 和 1.5B 参数的 GPT-2)不同的行为,并 展现出令人惊讶的能力(称为涌现能力)以解决一系列复杂任务。例如,GPT-3 可以通过上下文学习来解决少 样本任务,而 GPT-2 做不好。因此,研究界为这些大型 PLM 创造了“大型语言模型(LLM)”的术语。LLM 的 一个显著应用是 ChatGPT,它利用 GPT 系列的 LLM 适应对话,具有惊人的与人类对话的能力。大语言模型相 较于以往的语言模型具备显著优势,其具备优秀的上下文学习能力、可观的知识容量、优秀的泛化性和复杂推 理能力。
大型语言模型研究的发展有三条技术路线:Bert 模式、GPT 模式、混合模式。其中国内大多采用混合模式, 多数主流大型语言模型走的是 GPT 技术路线,直到 2022 年底在 GPT-3.5 的基础上产生了 ChatGPT。到 2019 年 后,Bert 路线基本没有标志性的新模型更新,而 GPT 技术路线则趋于繁荣。从 Bert 往 GPT 演化的过程中,模 型越来越大,所实现的性能也越来越通用。各类大语言模型路线各有侧重,GPT 模式在生成类任务表现最优。 大型语言模型按照从数据到知识来划分,数据可分为通用数据和领域数据,知识分为语言知识和世界知识。从 任务类型来划分,大型语言模型可以分为单一任务和多任务、理解类和生成类;Bert 模式有两阶段(双向语言 模型预训练+任务 Fine-tuning),适用于理解类以及某个场景的具体任务,表现得“专而轻”。GPT 模式是由两阶 段到一阶段(单向语言模型预训练+zero-shot prompt),比较适合生成类任务、多任务,表现得“重而通”。T5 模式则将两者的方法结合,包含有两阶段(单向语言模型预训练+Fine-tuning)。根据当前研究结论,如果模型 规模不特别大,面向单一领域的理解类任务,适合用 T5 模式,而 GPT 模式在做生成类任务时的效果最好。综 合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取 GPT 模式。
如今,LLM 正在对人工智能社区产生重大影响,ChatGPT 和 GPT-4 的出现引发了重新思考人工智能通用智 能(AGI)的可能性。OpenAI 已经发表了一篇名为“Planning for AGI and beyond”的技术文章,讨论了实现 AGI 的短期和长期计划,而最近的一篇论文则认为 GPT-4 可能被视为一个早期版本的 AGI 系统。LLM 的快速进步 正在彻底改变人工智能的研究领域。在自然语言处理领域,LLM 可以在某种程度上充当通用语言任务求解器, 研究范式已经转向使用 LLM。在信息检索领域,传统的搜索引擎正在被 AI 聊天机器人(即 ChatGPT)挑战, 而 New Bing 则是基于 LLM 增强搜索结果的初始尝试。在计算机视觉领域,研究人员试图开发类似于 ChatGPT 的视觉语言模型,以更好地服务于多模态对话,而 GPT-4 通过集成视觉信息已经支持多模态输入。这股新的技 术浪潮有可能会导致基于 LLM 的真实世界。例如,Microsoft 365 正在被 LLM(如 Copilot)赋能以自动化办公 工作,而 OpenAI 支持在 ChatGPT 中使用插件来实现特殊功能。
起源于 Transformer 模型,ChatGPT 经过 5 年迭代成功出世。ChatGPT 的诞生经历了从 Transformer -> GPT -> GPT2 -> GPT3 -> ChatGPT 的逐步迭代过程,其具体发展历程如下:(1)2017 年 6 月,Google 发布论文《Attention is all you need》,首次提出 Transformer 模型,成为 GPT 发展的基础;(2)2018 年 6 月, OpenAI 发布论文《Improving Language Understanding by Generative Pre-Training》,首次提出 GPT 模型,即 GPT-1,模型参数量达 1.17 亿;(3)2019 年 2 月,OpenAI 发布论文《Language Models are Unsupervised Multitask Learners》,提出 GPT-2 模型, 大模 型共计 48 层,参数量达 15 亿;(4)2020 年 5 月,OpenAI 发布论文《Language Models are Few-Shot Learners》, 提出 GPT-3 模型, 参数量达 1750 亿;(5)2022 年 2 月底,OpenAI 发布论文《Training language models to follow instructions with human feedback》,公布 Instruction GPT 模型,参数量达 13 亿;(6)2022 年 11 月 30 日,OpenAI 推出 ChatGPT 模型,并提供试用。
2、大语言模型概览
通常,大型语言模型(LLMs)是指包含数千亿(或更多)参数的语言模型,它们是在海量文本数据上进行 训练的,例如 GPT-3,PaLM,Galactica 和 LLaMA。具体来说,LLMs 建立在 Transformer 架构之上,其中多头 注意力层在一个非常深的神经网络中堆叠。现有的 LLMs 主要采用类似的模型架构(即 Transformer)和预训练 目标(即语言建模)作为小型语言模型。作为主要区别,LLMs 大量扩展了模型大小、预训练数据和总计算量 (数量级)。它们可以更好地理解自然语言,并基于给定的上下文(即提示)生成高质量的文本。这种能力提升 可以部分地由缩放法则描述,即性能大致随着模型大小的增加而显著增加。然而,一些能力(例如上下文学习) 是不可预测的,只有当模型大小超过一定水平时才能观察到。
百亿参数量级别的模型:这类模型的参数规模除了 LLaMA(最大版本 65B 参数)和 NLLB(最大版本 54.5B 参数),大多在 10B 至 20B 之间。这一参数范围内的模型包括 mT5、PanGu-α、T0、GPT-NeoX-20B、CodeGen、 UL2、Flan-T5 和 mT0 等。其中,Flan-T5(11B 版本)可以作为研究指令微调的首选模型,因为它从三个方面 探索了指令微调:增加任务数量、扩大模型规模和使用思维链提示数据进行微调。CodeGen(11B)是一个为生 成代码设计的自回归语言模型,可用作探索代码生成能力的候选模型,其提出了一个新的基准测试 MTPB,专 门用于多轮程序合成,由 115 个专家生成的问题组成,为了解决这些问题,需要大语言模型获得足够的编程知 识(例如数学、数组操作和算法)。对于多语言任务,mT0(13B)可能是一个比较好的候选模型,因为它在多 语言任务中使用多语言提示进行微调。此外,对于中文的下游任务,PanGu-α具有较好的表现,特别是在零样 本或小样本的设置下,该模型基于深度学习框架 MindSpore 开发,拥有多个参数版本(最大版本 200B 参数), 而最大的公开版本只有 13B 参数。此外,作为最近发布的模型,LLaMA(65B)在与指令遵循相关的任务中展现了卓越的性能。由于其开放性和有效性,LLaMA 引起了研究界的广泛关注,许多工作致力于微调或继续训练 其不同的模型版本以实现新模型或工具的开发。百亿参数量级别的模型通常需要数百甚至上千个 GPU 或 TPU。 例如,GPT-NeoX-20B 使用了 12 个微服务器,每个服务器配备了 8 个 NVIDIA A100-SXM4-40GBGPU,LLaMA 使用了 2048 个 A100-80GGPU。为了准确估计所需的计算资源,我们还是建议使用衡量涉及计算量的指标,例 如计算 FLOPS(每秒浮点数运算次数)。
据中移智库统计,截止到 2023 年 4 月 18 日,国内至少有 19 家企业及科研院所涉足人工智能大模型训练, 主要分为大型科技公司、科研院校和初创科技团队三类。具体来看:百度、阿里等 12 家大型科技公司和中国科 学院、清华大学等 3 家科研院校已经提供开放测试,或有明确的推出时间计划;字节跳动、搜狗创始人王小川、 美团创始人王慧文、创新工场创始人李开复等则是最近对外宣布组建团队,进军大模型研发领域。其中,字节 跳动旗下火山引擎于 4 月 18 日发布自研 DPU(数据处理器)等系列云产品,推出新版机器学习平台,可以支 持万卡级大模型训练、微秒级延迟网络,为预训练模型提供强大的算力支持。
从大模型参数量看,科技大厂的参数量远大于科研院所。科技大厂的大模型参数量较大:阿里通义千问大 模型参数在 10 万亿级以上、腾讯混元大模型和华为盘古大模型参数量均在万亿级以上、百度文心一言大模型参 数量在 2 千亿级以上、京东言犀大模型的参数量为千亿级;垂直行业科技企业已经上线的参数量普遍在千亿级 以上;而科研院校大模型的参数量在千亿级及以下。 从大模型应用方向看,大部分企业前期以内部应用为主,后续主要向 B 端企业拓展服务,预计少数企业将 在 C 端市场形成规模。目前,百度文心大模型、华为盘古大模型、中国科学院紫东太初大模型均在 B 端垂类市 场积累了标杆应用案例,腾讯混元大模型、阿里通义大模型则更多聚焦公司自身业务。而在 C 端市场应用方面, 百度文心一言、阿里通义千问、腾讯混元助手三类大模型最有可能向此方向拓展,但目前只有百度文心一言大 模型正在进行友好客户测试,阿里通义千问大模型则计划在今年 9 月份进行公测,腾讯混元助手大模型则处于 计划开发状态。
3、产业发展趋势
大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开 源或开放 API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低 成本的开发部署方案。大模型的核心作用是突破数据标注的困境,通过学习海量无标注的数据来做预训练,拓 展整体模型前期学习的广度和深度,以此提升大模型的知识水平,从而低成本、高适应性地赋能大模型在后续 下游任务中的应用。在实践中,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助 “预训练+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高 水平完成任务。
大模型增强了 AI 技术的通用性,让开发者以更低成本、更低门槛,面向场景研发更好的 AI 模型,助力普 惠 AI 的实现。但目前,基础大模型距离大规模产业应用并成为产业基座还有很长的一段路要走,不仅需要有与 场景深度融合的大模型体系,也需要有支持全流程应用落地的专业工具和平台,还需要开放的生态来激发创新; 三层之间交互赋能,才能形成良性循环的产业智能化生态共同体。我们看到 OpenAI 在开发 GPT 大模型的过程 中具有相似的思路,在不断加强大模型本身性能的同时,将 GPT 打包成产品,对外提供 API 服务,相关开发者、 企业、学术机构以及高校都可以申请使用。开放后,大量开发者利用 API 开发出了各种各样的功能,例如翻译 机、网站生成器等;OpenAI 则通过用户获取了更多的行为数据,形成了对 GPT 的反哺。由此可见,“模型+工 具平台+生态”三层共建有助于业务的良性循环,也更容易借助长期积累形成竞争壁垒。
生态层是基于大模型能力打造共创、共享社区。大模型“预训练+精调”的新研发范式,让 AI 在识别、理 解、生成等方面的能力实现突破,带来深度语义理解、智能交互、内容生成的技术与产品变革动能。打造基于 大模型能力的生态,提供能力、工具、服务,连接供需,吸引更多的开发者和企业共创、共享,是释放大模型 潜力的重要路径。“模型+工具平台+生态”的模式需要协同优化,拓宽人工智能技术落地的场景覆盖广度,加深 产业实际应用的深度,共同加速产业智能化,推动人工智能技术赋能千行百业,惠及千家万户。 “模型+工具平台+生态”的模式需要协同优化,才能拓宽人工智能技术落地的场景覆盖广度,加深产业实 际应用的深度,共同加速产业智能化,推动人工智能技术赋能千行百业,惠及千家万户。
二、互联网大厂模型
1、阿里
阿里以“通义大模型+飞天智算平台+魔塔社区+行业应用”成为大模型全部环节的重要参与者。2019 年, 阿里达摩院开启大模型研究。2022 年 9 月,阿里正式发布通义大模型,包括通义 M6 多模态模型、通义 AliceMind 自然语言处理模型、通义视觉计算机视觉模型。2022 年 11 月,阿里推出 AI 开源社区“魔搭”(ModelScope), 旨在打造下一代“模型即服务”的共享平台,整合业界多方模型提供者,为开发者提供预训练基础模型和 API 接口。目前该平台已有超过 300 个开源模型,包括阿里自有的通义大模型系列以及澜舟科技孟子系列模型等外 部资源和能力。2023 年 4 月,阿里正式发布了“通义千问”产品,该产品基于 10 万亿级参数的大模型底座 M6-OFA, 未来将具有多轮交互及复杂指令理解、可多模态融合、支持外部增强 API 等多种能力。另外,阿里不仅拥有最 多的英伟达 A100 芯片,还拥有自研芯片含光 800、倚天 710 芯片,共同为人工智能大模型提供算力。
1.1 模型
阿里推出“通义”系列大模型,由统一底座层、通用模型层、行业模型层组成,不仅通用多种任务,又容 易落地应用,其中,应用在 B 端更有优势。2022 年 9 月 2 日,阿里推出“通义”系列大模型,核心模型通过“魔 搭”社区向全球开发者开源开放,推出“飞天智算平台”提升 AI 训练效率。通义大模型通过打造业界首个 AI 统一底座并构建大小模型协同的层次化人工智能体系,解决了大模型通用性与易用性仍欠缺的难题。通义大模 型由统一底座层、通用模型层、行业模型层组成。其中,统一底座是基于 transformer 框架,由统一学习范式和 模块化设计理念构成;通用模型层主要包括通义-M6、通义-AliceMind 和通义-CV 三大模型体系。由于低训练能 耗优势,通义大模型运行速度加快,例如,M6 在相同参数规模下的训练能耗仅是 GPT-3 的 1%。目前,阿里通 义大模型已广泛用于电商、设计、医疗、法律、金融等领域,助力其降本增效。而在落地应用方面,阿里原有 的产品资源导致其在 B 端更有优势。阿里巴巴于 2023 年 4 月 7 日推出通义千问大语言模型内测。在 4 月 11 日 的 2023 阿里云峰会上,阿里巴巴 CEO 张勇表示阿里巴巴所有产品未来将接入通义千问大模型,进行全面改造, 包括天猫、钉钉、高德地图、淘宝、优酷、盒马等。阿里将结合 200 多万的企业用户和辐射的 2-3 亿真实活跃 用户资源,把文本作为核心场景镶嵌到钉钉的三大入口,预计 2023Q3 推送给部分 B 端客户的企业钉。
通义-M6 属于多模态模型,覆盖文本和语音模态,在短时间内高速发展,并实现架构、模态和任务统一。 通义-M6(英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer,6 个 M,简称 M6)包括图 文生成,图文理解,多模态对话,运动预测,运动生成,语音理解,语音生成,多模态检测和分割。通义-M6 已经从 2020 年 6 月的 3 亿参数基础模型逐渐发展到 2021 年 10 月的 10 万亿参数全球最大预训练模型再到 2022 年 1 月的业界首个通用统一大模型 M6-OFA。2020 年 1 月,阿里巴巴达摩院启动中文多模态预训练模型 M6 项 目,同年 6 月推出 3 亿参数的基础模型。2021 年 1 月,模型参数规模到达百亿,已经成为世界上最大的中文多 模态模型。2021 年 3 月,千亿参数模型 KDD2021 发布,与 10B 模型相比:①训练损失减少 37%,在许多下游 任务实现 SOTA 结果;②混合精度提亮 90%的效率;③仅需 32 张 v100GPU 即可完成训练。 2021 年 5 月,具 有万亿参数规模的模型正式投入使用,追上了谷歌的发展脚步。2021 年 10 月,M6 的参数规模扩展到 10 万亿, 成为当时全球最大的 AI 预训练模型。 2022 年 1 月,业界首个通用的统一大模型 M6-OFA 发布。
AliceMind 是 NLP 的深度语言模型体系,以通用预训练语言模型 StructBERT 为基础,拓展到超大的领域模 型、多语言、多领域、多模态方向,可用于结构化、生成式、知识驱动等应用。AliceMind, 取名来自 Alibaba's Collection of Encoder-decoders from MinD (Machine Intelligence of Damo),是阿里达摩院机器智能技术实验室倾 力打造的具有领先性和系统化的深度语言模型体系。AliceMind 的核心应用场景有:文本标签分类、序列标注、 智能中文生成(如商品描述写作推荐、小说续写、古诗生成、菜谱生成等)、多模态问答(如 VQA,图片问答)、 问答对自动生成等。Alicemind 已经服务阿里内部和外部客户几百个场景。
通义-视觉属于 CV 模型,覆盖图像,视频模态。通义-视觉大模型自下往上分为底层统一算法架构、中层通 用算法和上层产业应用,由两个基础模型构成,能够实现视频处理、视觉问答、视觉算数等多种算法,在电商、 交通、自动驾驶等领域发挥作用。
1.2 算力
2022 年,阿里云推出全栈智能计算解决方案“飞天智算平台”,并启动两座超大规模智算中心,为科研、 公共服务和企业机构提供强大的智能计算服务,可将计算资源利用率提高 3 倍以上,AI 训练效率提升 11 倍, 推理效率提升 6 倍。 飞天智算平台源于阿里巴巴内部广泛实践,也源于广泛的产业智能实践。目前,该平台正在支撑建设两座 超大规模智算中心。张北智算中心建设规模为 12 EFLOPS(每秒 1200 亿亿次浮点运算)AI 算力。在云端,张 北智算中心支撑 AI 预训练大模型、AI Earth、数字人等前沿 AI 应用,将成为全球最大的智算中心。乌兰察布智 算中心建设规模为 3 EFLOPS(每秒 300 亿亿次浮点运算)AI 算力,位于“东数西算”内蒙古枢纽节点,采用 自然风冷、AI 调温等绿色技术,实现绿色低碳。
智能计算不同于通用型计算,需要海量数据对 AI 模式进行训练,算力被损耗在数据迁移、同步等环节,千 卡以上规模的算力输出最低往往仅有 40%左右。这导致了智能算力成本高昂,制约了产业发展。阿里云通过体 系化的技术创新,改变了智能计算的损耗难题,将千卡并行计算效率提升至 90%以上。在网络技术上:阿里云 采用高性能 RDMA 网络,实现端对端最低 2 微秒延迟。在通信技术上:阿里云自研的无阻塞通信技术,让计算 过程中的数据交换速度提升了 5 倍以上。在存储技术上:自研的 IO 加速器让数据存取实现最高 10 倍性能提升。 在大数据 AI 开发层:阿里云提供分布式训练框架,并通过 API 对分布式策略进行自动组合和调优,将训练效率 提升了 11 倍以上。一站式 AI 计算开发服务:阿里云为用户提供了一站式的通用推理优化工具,对算法模型进 行量化、剪枝、稀疏化、蒸馏等操作,将推理效率提升 6 倍以上。
阿里研发出高质量的大模型压缩技术,快速匹配客户计算资源。达摩院推出了大模型落地技术 S4(Sound、 Sparse、Scarce、Scale)框架,就包含了各种微调算法和模型压缩算法,将稀疏化等技术应用到百亿量级的大模 型中。基于这一技术,阿里的 270 亿参数语言大模型 PLUG 在压缩率达 99%的情况下,多项任务的精度损失 在 1%以内。这意味着百亿参数大模型也可能在几乎不损失精度的情况下进行稀疏化,最终实现单卡运行。
另一方面,基于“通用大模型+行业 knowhow”的方式迭代模型。通用大模型基于“大一统”技术,预训 练时就已经具备了很强的理解和生成能力,只需再针对特定任务进行简单微调。即先打造一个基础大模型,再 继续训练得到领域模型,最后通过微调构建具体行业任务模型。通义大模型的架构设计将这一过程做得更快且 更高效。 目前,通过部署超大模型的轻量化及专业模型版本,通义大模型已在超过 200 个场景中提供服务,实现了 2%-10%的应用效果提升。比如,通义大模型在淘宝服饰类搜索场景中实现了以文搜图的跨模态搜索、在 AI 辅 助审判中司法卷宗的事件抽取、文书分类等场景任务中实现 3~5%的应用效果提升、在开放域人机对话领域通 过建立初步具备“知识、情感以及个性、记忆”的中文开放域对话大模型实现了主动对话、广泛话题、紧跟热 点等对话体验。
1.3 平台
2022 年 11 月,阿里巴巴达摩院与中国计算机学会开源发展委员会共同推出人工智能模型开源社区“魔搭” (Model Scope),首批合作方还包括澜舟科技、智谱 AI、深势科技、中国科学技术大学等多家科研机构,旨在 打造下一代开源的模型即服务共享平台,致力降低 AI 应用门槛。 ModelScope Library 为模型贡献者提供了必要的分层 API,以便将来自 CV、NLP、语音、多模态以及科学 计算的模型集成到 ModelScope 生态系统中。所有这些不同模型的实现都以一种简单统一访问的方式进行封装, 用户只需几行代码即可完成模型推理、微调和评估。同时,灵活的模块化设计使得在必要时也可以自定义模型 训练推理过程中的不同组件。除了包含各种模型的实现之外,ModelScope Library 还支持与 ModelScope 后端服 务进行必要的交互,特别是与 Model-Hub 和 Dataset-Hub 的交互。这种交互促进了模型和数据集的管理在后台 无缝执行,包括模型数据集查询、版本控制、缓存管理等。当前,魔搭社区收录模型共 775 个,其中中文模型 约 300 个,主要通过大模型帮助开发者提取、抽象知识,通过下游调优,将下游目标精确化,从而快速形成针 对行业的解决模型,解决实际应用问题。
1.4 应用
通义千问将陆续接入阿里巴巴生态的所有商业应用中,如企业通讯、智能语音助手、电子商务、搜索、导 航、娱乐等,从而进一步提升用户体验。凭借其中英双语能力,通义千问将首先部署于阿里巴巴的数码协同办 公和应用开发平台钉钉,以及物联网智能家居终端机天猫精灵上。 通义千问赋能钉钉:让职场沟通更高效。例如,钉钉将能够总结会议纪要、将会议对话生成文字会议记录、 撰写电子邮件,以及仅用简单输入就可创建业务策划或推广方案初稿。用户还可以透过上传一张构思草图的图 像,转瞬间就能在钉钉上生成小程序。通义千问赋能天猫精灵:与中国用户更活泼生动地对话。例如,天猫精 灵将能够为儿童创作和讲故事、提供健康食谱和旅行建议,或推荐健身背景音乐等。 从应用的角度,在传统 APP 中,因为各业务逻辑上的不同,比如淘宝与饿了么,飞猪与高德打车,APP 间 很难整合,强行整合反而会带来产品使用复杂度大幅增加,用户体 验下降。但如果统一接入到通义千问中,参 考智能座舱的语音助手,其更强的理解能力将 使得交互逻辑变得非常简单,用户可以像询问生活助手一样询问 通义千问来完成业务交互,不再需要学习操作逻辑,阿里生态中的家庭终端入口将实现统一。
图像理解和“文生图(text-to-image)”等多模态能力也将很快添加到通义千问模型中,为用户提供更具吸 引力的 AI 功能。阿里云智能首席技术官周靖人表示:“语言大模型支持下的生成式 AI 正迎来全新的发展阶段。 在新 AI 时代,我们凭借可靠的公有云基础设施和久经验证的 AI 能力,为客户和广大社会创造价值。我们正见 证 AI 发展的新范式,云和 AI 模型在其中发挥至关重要的作用。我们致力于让这种范式更普惠,希望以此促进 各行各业的数智化转型,助力提高企业生产力,扩展专业知识和能力,并通过创新释放更大的机遇。”通义千问 基于阿里巴巴自研的“通义”预训练模型框架,其统一底座包括“文生图”、“文生短视频”等 AI 模型。去年, 阿里云推出开源“模型即服务”(Model-as-a-Service)平台“魔搭”(ModelScope),开放了数以百计 AI 模型, 包括面向全球开发者和研究人员的通义“文生图”模型。目前“魔搭”小区拥有超过 100 万活跃用户,提供 800 多个模型,模型总下载量超 1600 万次。
2、百度
百度是国内领先布局 AI 领域的科技大厂,也是我国最早发布知识增强大语言模型产品的企业,其在 AI 领 域累计投入研发总额超过千亿元,专利数量连续五年居全国第一。2010 年,百度成立了人工智能自然语言处理 部,是中国最早布局 AI 的企业之一。2012 年,百度的 AI 战略已经初步成型,陆续成立了深度学习研究院 IDL、人 工智能实验室。2014 年,百度开始涉足智能驾驶领域,先后推出了深度语音系统、百度大脑、度秘、 Apollo 自 动驾驶平台等技术体系,涉及自然语言处理、机器翻译、语音、视觉、机器学习、深度学习、知识图谱等核心技 术。2016 年 9 月,百度在百度世界大会上正式对外开放集视觉、语音、自然语言处理、知识图谱、深度学习等 技术于一体的百度大脑,并且每隔一段时间就会进行迭代,合作伙伴可以直接调用百度 AI 的核心能力。同年,百 度主导的深度学习框架 PaddlePaddle(飞桨)上线,涵盖了深度学习核心训练和推理框架、基础模型库、端到端开发 套件和丰富的工具组件,填补了中国开源深度学习框架的空白。2017 年开始,百度就开始整合人工智能体系,在 2019 年下半的一次架构调整后,王海峰开始统管 AIG、ACG 和 TG 三块业务,百度 AI 的打法也进一步清晰,云计 算被定义为智能基础设施的底座,同时将人工智能和底层技术能力灌输到底座中,进而成为赋能各行各业的“动力 工厂”。2020 年,百度智能云确立了“以云计算为基础,以人工智能为抓手,聚焦重要赛道”的新战略,选择智慧城 市、智慧金融、智慧医疗、智能制造、智慧能源等为重要赛道,并屡屡签下数亿级别的订单。2021 年初,百度再 次夯实了自身的人工智能战略,从“AI+云”的整合过渡到云智一体的新阶段。2022 年底,百度智能云推出了全 栈自研的 AI 基础设施“百度 AI 大底座”,其包括“芯片–框架–模型”三层技术栈,在各个层面都拥有关键自 研技术和领先产品,分别对应昆仑芯、飞桨(PaddlePaddle)、文心大模型。百度 AI 大底座对各层的技术栈进行 了全栈融合、系统优化,完成了云和智的技术一体化建设,可以实现对大模型训练的端到端优化和加速。
2.1 模型
文心大模型架构分为“基础+任务+行业”三级模型。基础大模型聚焦技术方向的技术挑战、通用性、泛化 性探索;任务大模型深入理解任务特性,构建预训练算法、训练数据集,打造紧贴任务的模型能力;行业大模 型深度融合行业数据与知识特性,构建更适配行业的模型底座。基础大模型支撑任务与行业大模型的建设,任 务和行业大模型结合真实场景与数据反哺基础大模型优化。目前,文心大模型已经建设了 36 个大模型,其中基 础大模型包含:NLP(自然语言处理)大模型、CV(计算机视觉)大模型、跨模态大模型,任务大模型包含对 话、搜索、信息抽取、生物计算等多个典型任务,行业大模型包含与来自 8 个行业的头部企业或机构共建的 11 个行业大模型。
2.1.1 文心 NLP 大模型
文心 NLP 大模型发展历程有三条主线,1)是文心 ERNIE,百度发布了文心 ERNIE 3.0 以及文心·ERNIE 3.0 Titan 模型,并且在 SuperGLUE 和 GLUE 都超过了人类排名第一的水平,以及基于层次化多任务学习的文心 ERNIE 3.0 Zeus。同时为了进一步降低落地门槛,出现了效率高、泛化能力强的轻量级大模型,比如文心 ERNIE 3.0 Tiny。2)对话生成大模型文心 PLATO 的发布,对话的流畅性得到了很大提升。3)文心 ERNIE 在跨模态、 跨语言以及长文档、图模型等方面获得了非常好的发展,在各种榜单尤其是视觉语言相关的榜单上获得第一百, 比如文心 ERNIE-ViLG 2.0,该模型可以生成语义更相关、质量更高的图片。 文心一言整合了过往关键技术,在文心知识增强大模型 ERNIE 及对话大模型 PLATO 的基础上研发,基于 飞桨深度学习平台训练和部署,其关键技术包括,有监督精调、人类反馈的强化学习、提示、知识增强、检索 增强和对话增强。前三项是这类大语言模型都会采用的技术,在 ERNIE 和 PLATO 模型中已经有应用和积累, 文心一言中又进行了进一步强化和打磨,做到了更懂中文、更懂中国文化、更懂中国的使用场景;后三项则是 百度已有技术优势的再创新。
ERNIE 3.0 系列模型(ERNIE 3.0、ERNIE 3.0 Titan、ERNIE 3.0 Zeus)有四大特点: 从大规模知识图谱和海量无结构数据中学习,突破异构数据统一表达的瓶颈问题。同时输入大规模图谱和 相应无标注、无结构化的文本,通过文本的 Mask,能够推理这个知识图谱里的关系,从而使这个模型具有知识 推理能力。
融合了自编码和自回归的结构,使模型既可以做语言理解,也可以做语言生成。在做语言理解时,模型拥 有上下文相关的信息,从而做语言理解。在生成的时候,由于模型只看到了上文,所以只能基于自回归的方式 学习。因此,在一个框架中同时能够拥有语言理解和语言生成两种能力非常重要。
基于持续学习框架,从不同任务中持续学习。不断从不同的数据和知识上学习,而不断地构建新任务,比 如文本分类任务、问答任务、完形填空任务等。大模型从不同任务中持续学习,使能力得到持续提升,拥有更 多知识。 为了进一步学习特定任务的相关知识,ERNIE 3.0 Zeus 提出了层次化提示(Prompt)学习技术。在数据构 造时通过层次化的 Text Prompt 库将百余种不同的任务统一组织成自然语言的形式,和海量无监督文本以及百 度知识图谱联合学习。此外训练过程引入了层次化的 Soft Prompt 建模了不同任务之间的共性与特性,进一步 提升了模型对于不同下游任务的建模能力。此外,通过持续学习对百余种不同形式的任务数据,实现了任务知 识增强,显著提升了模型的零样本/小样本学习能力。
PLATO (Towards Building an Open-Domain Chatbot via Curriculum Learning) 是文心一言的另一项关键 技术,主要作用是多轮对话,其发展经历了三个阶段。1)2019 年 10 月,百度首次发布了 PLATO 对话模型, 其是全球首个大规模变量对话模型,刷新开放领域对话效果。2)2020 年 7 月,发布 PLATO-2,其是基于课程 学习的对话生成模型,进一步刷新了开放领域对话效果。2020 年 10 月,PLATO-2 斩获全球对话技术竞赛 DSTC-9 五项冠军。3)2021 年 9 月,发布 PLATO-XL,其是首个百亿参数中英对话预训练生成模型。 PLATO 在预训练模型之上,对对话能力进行增强,让对话具有人格属性,包括人设稳定性、知识增强、跨 模态对话、情感抚慰、主动对话、长期记忆等。同时,PLATO 也已应用到百度的各个产品线,比如:小度聊天, 百度推出的虚拟人对话,领域对话。同时,百度也通过 UNIT 平台,对外输出对话技术。
2019 年,百度首次发布了 PLATO 对话模型,首次创新性的提出了“隐变量”的概念。开放型对话具有一 对多的特点,用户输入 query 后,系统可以有多种多样的回复。每个回复有不同的性质,比如,输入“我得健 身了,不能放纵了”。可以给用户建议、询问、质询、质疑等类型的回复。除了这种关系外,还会有对话背后的 场景信息,这会导致开放型对话一对多的关系,这会导致模型学习很困难。如果针对一个输入,有特定的输出, 模型的学习会相对简单。但当模型的输出不确定,甚至有多种多样的输出,这就会导致模型学习复杂。针对这 一问题,我们提出隐变量建模输入和输出的映射信息。它不是一个显式的建模,而是一个隐式建模输入和每一 个输出的对应关系。这就会让原来的输入和输出一对多的关系,转化为一对一的关系。通过在输入增加 soft token 的方式,让 transformer 建立输入和输出之间的关系。Transformer 不是独立的编码器和解码器的方式,我们选择 了使用编码器和解码器共享参数的方式来实现即 unified transformer。预训练分为两个阶段,先根据输入和输出 预测隐变量的分布,然后从分布中采样隐变量,将其加入输入中再去学习根据隐变量和输入预测回答的能力。
2021 年,百度推出 PLATO-XL,将模型的规模推进至 110 亿,模型有 72 层。同时引入了 role embedding 的特征来感知角色信息。在对话上文中,既有用户的输入,也有系统的输入,使用 role embedding 来区分用户 和系统的角色。在原有 transformer 模型三个特征,token、sentence type、position 的基础上,模型新增了 role embedding 的信息,能让模型更好的掌控角色。
2.1.2 文心 CV 大模型
文心 CV 大模型基于领先的视觉技术,利用海量的图像、视频等数据,为企业和开发者提供强大的视觉基 础模型,以及一整套视觉任务定制与应用能力。百度文心发布了 VIMER 系列的 CV 大模型,视觉自监督预训练 大模型 VIMER-CAE 创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架,在图像分类、 目标检测、语义分割等经典下游任务上刷新 SOTA 结果。在此之上,多任务学习模型 VIMER-UFO 2.0 可抽取轻 量级小模型,兼顾大模型效果和小模型推理性能,单模型覆盖 20 多个 CV 基础任务,在 28 个公开测试集上效 果刷新 SOTA。端到端文档 OCR 表征学习预训练模型 VIMER-StrucTexT 2.0 解决了训练数据匮乏和传统 OCR+NLP 链路过长导致的模型表达能力不足、优化效率偏低等问题,能够广泛应用于各行各业行的文档、卡 证、票据等图像文字识别和结构化理解。 VIMER-CAE 基于自监督图像掩码建模原理,创新性地提出“在隐含的编码表征空间完成掩码预测任务” 的预训练框架,对编码模块和解码模块进行分离,通过编码模块对输入的图像块进行特征表达,并利用隐式上 下文回归和解码模块对输入图像的掩码块进行特征表达恢复,在图像掩码建模问题上提高了预训练模型的图像 表征能力。基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升,其中在目标检测、 实例分割、语义分割等任务的指标上达到最优水平。
VIMER-UFO 2.0 技术方案的主要内容包括:1)All in One——行业最大 170 亿参数视觉多任务模型,覆 盖人脸、人体、车辆、商品、食物细粒度分类等 20+ CV 基础任务,单模型 28 个公开测试集效果 SOTA;2) One for All——首创针对视觉多任务的超网络与训练方案,支持各类任务、各类硬件的灵活部署,解决大模型参 数量大,推理性能差的问题。 针对大模型的开发和部署问题,VIMER-UFO 给出了 One for All 的解决方案,通过引入超网络的概念,超网络由众多稀疏的子网络构成,每个子网络是超网络中的一条路径,将不同参数量、不同任务功能和不同精度 的模型训练过程变为训练一个超网络模型。训练完成的 VIMER-UFO One for All 超网络大模型即可针对不同的 任务和设备低成本生成相应的可即插即用的小模型,实现 One for All Tasks 和 One for All Chips 的能力。
VIMER-UFO 2.0 单个模型一套参数,在不进行下游 fine-tuning 的情况下,在 28 个主流的 CV 公开数据 集上取得了 SOTA 的结果。同时,尽管 VIMER-UFO 2.0 大模型参数量达到了 170 亿,得益于 Task-MoE 稀 疏结构,每个任务推理时只需激活部分参数,计算量相当于 6 亿参数模型规模,加速比接近 30 倍。
VIMER-StrucTexT 2.0 是端到端文档 OCR 表征学习预训练模型,首次创新性地提出“单模态图像输入、 多模态表征学习”预训练框架,仅通过单一文档图像的输入,就能让模型充分捕获语义和结构信息。经过大规 模文档图像数据充分学习后的预训练模型,显著提高文档理解全景应用任务效果,包括文档图像分类、文档版 式分析、表格结构解析、文档 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同时解决了训练数据匮乏和传 统 OCR + NLP 链路过长导致的模型表达能力不足、优化效率偏低等问题,能够广泛应用于各行各业行文档、 卡证、票据等图像文字识别和结构化理解。
VIMER-UMS (Unified Multi-Source Pre-training for Product),是百度基于海量的互联网商品图文信息提 出的多源信息统一建模的商品图文表征预训练模型,也是行业首个统一视觉单模态与多源图文模态表征的商品 多模态预训练模型。针对图文多模态建模中模态信息残缺问题,通过构建视觉特征与多源图文对比的多任务学 习框架,实现统一图文表征预训练同时覆盖商品视觉单模态、多模态识别与检索任务,可以显著改善商品视觉 检索和商品多模态检索体验。
VIMER-UMS 基于端到端 Transformer 训练方式,通过视觉编码、文本编码、融合编码、搜索查询编码, 提供多源商品信息的统一表达结构。由于现有主流多模态预训练方法依靠语言作为弱监督关联信号,视觉表征 能力存在退化现象。为了解决该问题,VIMER-UMS 通过建立视觉与多源图文对比多任务预训练,实现视觉特 征、图文特征的统一增强表征。
2.1.3 文心跨模态大模型
文心·跨模态大模型基于知识增强的跨模态语义理解关键技术,可实现跨模态检索、图文生成、图片文档 的信息抽取等应用的快速搭建,落实产业智能化转型的 AI 助力。 ERNIE-ViL 是业界首个融合场景图知识的多模态预训练模型。ERNIE-ViL 将场景图知识融入到视觉-语言 模型的预训练过程,学习场景语义的联合表示,显著增强了跨模态的语义理解能力。ERNIE-ViL 还在包括视觉 常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等 5 项典型多模态任务中刷新了世 界最好效果。并在多模态领域权威榜单视觉常识推理任务(VCR)上登顶榜首。 基于文本中解析出的场景图,ERNIE-ViL 提出了三个多模态场景图预测任务:物体预测,随机选取图中的 一部分物体,然后对其在句子中对应的词进行掩码和预测;属性预测,对于场景图中的属性-物体组合,随机选 取一部分词对其中属性词进行掩码和预测;关系预测,对于场景图中的物体-关系-物体三元组,对其中的关系词 进行掩码和预测。
ERNIE-ViL 在场景图里加入知识,通过它的文字信息去构建场景图,使得模型能够理解图中细粒度的语义。 举例而言,下图中有 6 个人,但只有 5 个人运动员,因为其中一个是裁判,模型要能依据运动场景进行判断, 才能给出正确答案。
文心 ERNIE-ViLG 2.0 采用基于知识增强算法的混合降噪专家建模,是全球首个知识增强的 AI 作画大模 型,也是目前全球参数规模最大的 AI 作画大模型,在文本生成图像公开权威评测集 MS-COCO 和人工盲评上 均超越了 Stable Diffusion、DALL-E 2 等模型,取得了当前该领域的世界最好效果,并在语义可控性、图像清 晰度、中国文化理解等方面展现出了显著优势。 文心 ERNIE-ViLG 2.0 通过视觉、语言等多源知识指引扩散模型学习,强化文图生成扩散模型对于语义的 精确理解,以提升生成图像的可控性和语义一致性。同时,ERNIE-ViLG 2.0 首次引入基于时间步的混合降噪专家模型来提升模型建模能力,让模型在不同的生成阶段选择不同的“降噪专家”网络,从而实现更加细致的降 噪任务建模,提升生成图像的质量。
2.2 算力
百度早在 2011 年就开始布局 AI 芯片领域,并逐步建立 AI 技术的全栈布局,拓展了全面的 AI 应用场景。 同时,拥有数亿用户规模的产品百度搜索,以及服务各个行业的百度智能云等。同时,百度依托昆仑芯科技前 身为百度智能芯片及架构部,昆仑芯是百度自主研发的云端通用 AI 芯片,目前,昆仑芯 1、2 代已实现量产, 并达到数万片规模部署。昆仑芯 3 代将于 2024 年初量产。依托深厚技术沉淀,昆仑芯科技核心团队于 2017 年 发布 100%自研、面向通用 AI 计算的芯片核心架构昆仑芯 XPU,并从 AI 落地的实际需求出发,按照复杂前沿的人工智能场景需求来迭代架构。2018 年至今,昆仑芯云端 AI 芯片已经迭代两代,并实现数万片的规模落地。 其中,昆仑芯 1 代已经在百度搜索引擎、小度等业务中部署超过两万片,昆仑芯 2 代也于 2021 年 8 月实现量产, 并已在互联网、智慧工业、智慧城市、智算中心、智慧交通、科研等领域实现规模化部署,服务来自千行百业 的不同客户。
针对大模型,昆仑芯持续打磨部署优化方案,领跑产业落地。昆仑芯已将大模型的 Transformer 相关优化 技术沉淀为重要基建,优化后的性能比原有方案提升 5 倍以上,压缩显存 30% 以上。以文生图大模型为例, 昆仑芯已跑通一条端到端优化、规模落地之路。AI 绘画模型的推理算力及显存需求随图像分辨率增大而指数级 增加,同时,图像生成需要循环采样数十次,产业落地动辄需要高昂成本的部署集群,严重阻碍了 AIGC 模型 大规模商业化落地。2022 年第四季度,昆仑芯联合客户,基于飞桨 PaddlePaddle 发起了端到端联合优化项目。 在 2-3 周内,项目组快速完成端到端优化,最终实现输入文本后 2 秒出图的优化效果,性能提升近 8 倍。 目前,昆仑芯 AI 加速卡 R200 已在该客户的大模型场景完成规模部署,性能数据全面超越同系列主流推 理卡,基于昆仑芯 AI 加速卡 R200 高效运算与推理能力,综合优化方案,在 dpm-25steps 算法下,利用昆仑 芯 AI 加速卡 R200,生成 1024*1024 图像时的推理速度为 10.89 iters/s,相比同能力的主流推理卡快 20%; 昆仑芯 AI 加速卡 R200 拥有 32G GDDR6 显存,为大规模参数提供更大的存储容量、更高带宽的内存访问、更稳定的性能,生成更高分辨率的图片,为用户提供高性价比服务。
2.3 平台
百度飞桨是我国首个自主研发的产业级深度学习开源开放平台,飞桨在平台功能上具备丰富的产业级模型 库、端到端开发套件、工具组件,以及零门槛 AI 开发平台 EasyDL 和全功能 AI 开发平台 BML、学习与实 训社区 AI Studio,高效支持深度学习模型开发、训练、部署等全流程,降低 AI 技术应用门槛;在生态上,飞 桨推动构建了全方位的生态体系,包括开发者生态、教育生态、企业生态、硬件生态,通过生态共享共创加速 产学研用协同创新发展。
飞桨官方精选产业算法新增 100 多个,累计超过 600 个,覆盖计算机视觉(PaddleCV)、自然语言处理 (PaddleNLP)、推荐(PaddleRec)、语音(PaddleSpeech)四大应用领域,超过 95%的用户使用模型库。包含经过产业 实践长期打磨的主流模型,42 个精度与性能平衡的产业级 PP 系列特色模型,以及文心系列大模型。
飞桨硬件生态持续繁荣,包括 Intel、NVIDIA、Arm 等诸多芯片厂商纷纷开展对飞桨的支持,并主动在开 源社区为飞桨贡献代码。飞桨还与飞腾、海光、鲲鹏、龙芯、申威等 CPU 进行深入融合适配,并结合麒麟、统 信、普华操作系统,以及昆仑芯、海光、寒武纪、瑞芯微、算能、高通、Graphcore、Ambarella 等 AI 芯片深度 融合,与浪潮、中科曙光等服务器厂商合作形成软硬一体的全栈 AI 基础设施。当前已经适配飞桨的芯片或 IP 厂商超过 40 家,处于业界领先地位。2022 年 5 月,飞桨联合硬件生态伙伴发布“硬件生态共创计划”,在联合 研发、资源共享、联合授权、培训赋能等多个维度全面合作。2022 年 11 月,飞桨“硬件生态共创计划”成员 已经从 13 家增加至 28 家。
飞桨平台服务规模快速渗透,技术能力创新卓著。截至 2022 年 11 月,飞桨已凝聚国内规模最大的开发者 群体(535 万)、服务 20 万企事业单位,基于飞桨平台创造出 67 万个 AI 模型,超越 TensorFlow 和 PyTorch 成 为国内服务规模最为广泛的框架工具,不断夯实 AI 工业大生产的基础,有力推动了我国实体经济的高质量发展。 百度飞桨从 2016 年经历多年积累、沉淀、探索后,创新成果已经逐步涌现。飞桨 PaddleClas、PaddleDetection、 PaddleGAN、PaddleOCR、PaddleSpeech 等开发套件发布后多次登顶 Papers with Code 和 Github 趋势榜单,引起 业界高度关注。此外,针对国内市场需求特点,飞桨提供了大量经过真实应用场景有效验证的高精度、便捷部 署的官方模型库,相关算法及 API 更加强调对中文情境的支持优化,能够广泛支持国产硬件平台,技术能力优 势逐步凸显,相较于 TensorFlow 和 PyTorch 成为更满足国内技术应用需求的开发框架。
2.4 应用
百度文心大模型积极拓展内外部应用,目前面向公众和企业用户同时进行开放测试。 内部应用层面,文心大模型已经率先应用于百度搜索、信息流、智能驾驶、百度地图、小度智能屏等内部 重要产品上。百度在 5 月 25 日的移动生态大会上展示了全新的 AI 搜索体系。1)极致满足:搜索结果不再是简 单的文本段落,而是多模态的,包括相关的图片和视频,省去了用户的浏览和总结时间。对于那些相对简单但 没有现成答案的问题,AI 可以展示逻辑推理和计算能力,直接给出可用的结果。对于开放的多答案问题,百度 AI 搜索可以整合多个符合要求的答案,并列出引用和选择依据,满足用户需求。此外,搜索引擎还能自动定位 到视频中相关内容的位置,方便用户查看。根据介绍,现在百度搜索每天有 70%的问答需求能在首条搜索结果 中得到满足,这一比例在半年前只有 40%,这种改进进一步提升了需求,现在每天有超过 3000 万次的新增问答 需求。2)AI 伙伴:除了提供丰富准确的搜索结果,百度还提出了全能的"AI 伙伴",使人们能够以最直接的方 式获取人工智能的能力。通过 AI 伙伴,人们可以使用自然语言或语音作为输入,获得准确详细的搜索结果。 AI 伙伴不仅会在生成答案时标出重点并列出引用链接,还能调用其他工具和服务完成任务,并接受进一步追问 或指正。AI 伙伴还可以根据用户意图生成图片、进行文案写作,在不同任务中扮演具体的角色,如旅行时可以充当导游,写作业时可以充当老师。3)AIBOT:以往人们对搜索引擎结果的准确性有所顾虑,因为无论 AI 算 法有多准确,始终只是概率统计的结果,并不能代表专家意见。为解决这个问题,百度推出了全新的 AIBOT。 类似于 ChatGPT 的插件,AIBOT 通过与第三方技术提供商的合作,使搜索可以自动接入特定能力。目前亮相的 AIBOT 覆盖了创作、商业、机构、服务和品牌等多个领域,它们可以利用专业领域知识直接回答用户的问题。
百度文心围绕大模型产业应用的不同研发环节,面向各阶段不同技术、业务背景的开发者或用户,打造系 列工具平台与场景化产品。 大模型套件:百度文心推出新一代预训练范式的 NLP 算法定制开发工具集 ERNIEKit,面向 NLP 工程师, 提供全流程大模型开发与部署工具集,端到端、全方位发挥大模型效能。包括数据标注与处理、大模型精调、 大模型压缩、高性能部署、场景化工具五大模块能力; AI 开发平台:百度 AI 开发以双平台模式驱动,面向应用开发者或业务专家提供零门槛 AI 开放平台 EasyDL, 面向 AI 算法开发者提供全功能 AI 开发平台 BML。EasyDL 使用百度文心 NLP、CV、跨模态大模型作为训练基 座,利用少量数据即可获得理想的模型效果,具有零门槛、高精度、低成本数据、超灵活部署四大核心优势。 BML 深度融合文心大模型,提供 Notebook 建模、预置模型调参、可视化建模、模型产线建模、Pipeline 建模、 实验管理等功能,兼具性能和性价比;
3、腾讯
腾讯构建了“太极机器学习平台+混元大模型”,同时腾讯启动了“混元助手”知识增强大语言模型项目。 2016 年,腾讯成立了 AI Lab 实验室。2022 年 4 月,腾讯对外披露了混元大模型,涉及自然语言处理、计算机 视觉、多模态等多个领域。腾讯自研的太极机器学习平台为混元大模型提供算力,可支持 10TB 级模型训练、 TB 级模型推理计算能力等。 腾讯 AI Lab 是腾讯的企业级 AI 实验室,于 2016 年 4 月在深圳成立,目前有 100 多位顶尖研究科学家及 300 多位应用工程师。2017 年公司提出了“Make AI Everywhere” 的战略愿景,和“基础研究—场景共建—能力开 放”的三层 AI 战略架构。作为衡量机构研究实力的重要标准,成立四年多来,腾讯 AI Lab 的基础研究成果已 覆盖 CVPR、ACL、ICML、NIPS 及 Nature Communications 等国际顶级 AI 学术会议或期刊,发表论文超过 460 篇,位居国内企业前列。截止 2020 年 3 月,腾讯拥有 AI 全球专利超过 6500 个,中国专利超过 5000 个。
3.1 模型
2022 年 4 月,腾讯首次披露了混元 AI 大模型研发进展,先后在 MSR-VTT、MSVD、LSMDC、DiDeMo 和 ActivityNet 五大最具权威的跨模态视频检索数据集榜单中取得第一名,实现跨模态检索领域的大满贯。当 月,腾讯混元 AI 大模型又在中文语言理解评测基准 CLUE 分类榜中取得第一名,分数突破了 80.000 分,接 近人类语言理解能力,刷新该榜单历史记录。这是混元 AI 大模型在斩获跨模态检索榜单大满贯后,取得的又 一突破性进展,展现了该模型在自然语言处理上的实力。 2022 年 5 月,腾讯混元 AI 大模型在 CLUE 总排行榜、阅读理解、大规模知识图谱三个榜单同时登顶, 一举打破三项纪录。据了解,CLUE 总榜由分类任务和阅读理解任务构成。腾讯混元 AI 大模型在一个月内先后实现分类任务、阅读理解双佳绩,最终以 84.730 的成绩取得总榜第一。之后混元 AI 大模型又在多模态理 解领域国际权威榜单 VCR(Visual Commonsense Reasoning,视觉常识推理)中登顶,两个单项成绩和总成绩 均位列第一。这是继在跨模态检索领域实现大满贯、CLUE 自然语言理解分类榜及 CLUE 总榜登顶后,混元 AI 大模型的又一重大突破,展现了其在多模态理解领域的强大实力。
3.2 算力
腾讯发布大模型算力集群 HCC 大幅提速模型训练。大模型进入万亿参数时代,单体服务器提供的算力有限, 需要将大量服务器相连,协同优化单机算力、网络架构和存储性能,打造大规模、分布式的高性能计算集群。 以新一代集群为标志,基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,腾讯云正通过软硬一体的 方式,打造面向 AIGC 的高性能智算网络,持续加速全社会云上创新。 2023 年 4 月 14 日,腾讯云发布新一代 HCC 高性能计算集群,其采用最新一代星星海自研服务器,搭载 NVIDIA H800 Tensor Core GPU,并基于自研网络、存储架构,带来 3.2T 超高互联带宽 TB 级吞吐能力和千万 级 IOPS。实测结果显示新一代集群算力性能较前代提升 3 倍。2022 年 10 月,腾讯完成首个万亿参数的 AI 大 模型——混元 NLP 大模型训练。在同等数据集下,将训练时间由 50 天缩短到 11 天。如果基于新一代集群,训 练时间将进一步缩短至 4 天。 服务器单机性能是集群算力的基础,新一代集群的单 GPU 卡在不同精度下,支持输出最高 1979 TFlops 的 算力。针对大模型场景,星星海自研服务器采用 6U 超高密度设计,相较行业可支持的上架密度提高 30%;利 用并行计算理念,通过 CPU 和 GPU 节点的一体化设计,将单点算力性能提升至更高。
此外,新一代集群集成了腾讯云自研的 TACO 训练加速引擎,对网络协议、通信策略、AI 框架、模型编译 进行大量系统级优化,大幅节约训练调优和算力成本。腾讯太极机器学习平台自研的训练框架 AngelPTM,也 已通过腾讯云 TACO 提供服务,帮助企业加速大模型落地。依托分布式云原生的治理能力,腾讯云智算平台提 供 16 EFLOPS 的浮点算力,规模业界领先。通过腾讯云的大模型能力和工具箱,企业可结合产业场景数据进行 精调训练,提升生产效率、快速创建和部署 AI 应用。
3.3 平台
腾讯自研搭建了业界一流的太极机器学习平台,致力于让用户更加聚焦业务 AI 问题解决和应用,一站式的 解决算法工程师在 AI 应用过程中特征处理,模型训练,模型服务等工程问题。结合对用户的习惯理解和功能沉 淀,太极在产品层提供数据/特征工程,模型训练,模型服务三块。闭环了用户离线训练到在线服务的应用,包 含了不同场景下的数据访问诉求,不同训练模型的诉求,在线服务可靠性的诉求。算法框架&组件层提供了机 器学习、深度学习核心组件。可支持 10TB 级模型训练、TB 级模型推理和分钟级模型发布上线,扩展集群规模 则可支持更大的模型训练和推理,为实际业务提供大模型的情况下,同时具有很高的性能,达到行业领先水平。 太极机器学习平台采用了分布式参数服务器架构,其是业界第一梯队企业们公认的最佳选择。这种架构的 特点是,存储模型参数和执行模型计算,这两种任务在分别的服务器上运行,增加更多服务器就可以支持更大、 计算需求更高的模型。太极机器学习平台中的参数服务器系统 AngelPS 也是腾讯自研的成果,现在不仅可以承 载 10TB 级模型的训练,对多维特征融合、复杂模型结构等更高级、更前瞻性的功能也有优秀支持。同时太极 机器学习平台还具备超大模型在线推理服务的能力。推理计算方面,不仅支持常规的 CPU 计算,还支持复杂模 型的 GPU 计算加速;存储上,根据在线推理模型大小,自适应选择小模型本地内存加载和大模型 AngelPS 远程 查询的部署策略;在线服务运营上,平台具备多级容灾能力,脏模型秒级回滚能力,以及完备的系统和业务运 行实时指标监控和报警系统。
太极 AngelPTM 的设计目标是依托太极机器学习平台,为 NLP、CV 和多模态、AICG 等多类预训练任 务提供一站式服务。其主要由高性能训练框架、通用加速组件和基础模型仓库组成。太极 AngelPTM 主要有三 大部分:1)高性能训练框架:包含大模型训练框架 ZeRO-Cache,高性能 MOE 组件,以及 3D 并行和自动 流水并行策略;2)通用加速组件:包含可减少显存并提高精度的异构 Adafactor 优化器,可稳定 MOE 半精 度训练 loss 的 Z_loss 组件,选择性重计算组件和降低通信代价的 PowerSGD 组件;3)基础模型仓库:包含 T5、BERT、GPT 以及 Transformer 等基础模型。
3.4 应用
腾讯 AI Lab 的 AI 技术也广泛应用在微信、QQ 和腾讯觅影等上百款产品。行业应用上,实验室研发出的 围棋 AI「绝艺」屡获国际赛事冠军,是科技赋能国粹文化的代表;与王者荣耀研发的策略协作型 AI「绝悟」达 到职业水平,代表国际水准的研究能力。布局前沿多模态数字人技术,探索数字内容生成的新可能。实验室支 持的国家级 AI+医疗标杆产品「腾讯觅影」与「腾讯医典」也不断取得技术突破,「腾讯觅影」从医疗影像延伸 到辅助诊疗等功能,截止 2018 年 10 月,项目已落地 100 多家全国三甲医院,服务患者近 40 万人。2020 年, 实验室发布自研智能显微镜及 AI 药物发现平台「云深智药」,并初步探索 AI+农业智慧温室项目。
AI + 生命健康:在医疗领域,腾讯 AI Lab 与北京协和医院共同发布了具有完全自主知识产权的便携式智 能化手术导航系统,实现高精度、便携式、低成本等特点,就像给临床医生的手术配上了 GPS,辅助医生精准 定位隐藏在脑组织中的病变。该系统在协和神经外科已成功开展了 50 余例临床试验,涉及脑出血、垂体腺瘤、 胶质瘤、脑膜瘤、颅咽管瘤等多种疾病,临床初步应用取得成功。腾讯 AI Lab 还与迈瑞共同研发了全自动外 周血细胞形态学分析仪,并完成了创新医疗器械特别审查申请公示,正式进入国家药品监督管理局创新通道, 成为国内体外诊断行业首个进入该程序的 AI 类产品。该分析仪通过创新性的形态学检测方案,以优异的指标 及效率,实现白血病等高发恶性肿瘤的早期筛查辅助临床诊断。
AI+内容:腾讯 AI Lab 持续探索 AI 与人协同合作的内容生成技术,此前相继发布了文本理解系统 TexSmart、交互翻译系统 TranSmart 等,并且创新性地探索了 AI 在游戏电竞、直播等领域的应用。 智能写作方面,22 年 4 月,发布智能写作助手「文涌(Effidit)」,用技术助力文思泉涌。初版本融合了知 识抽取、文本理解、文本生成、大规模预训练模型、经典语言模型、搜索等多项技术积累,提供多维度文本补 全,多样化文本润色等核心功能,及例句推荐、文本纠错、云输入法、学术专业版等完整的辅助写作能力。22 年 12 月,文涌 2.0 版本发布,新版本增加了风格化文本续写等众多功能,共包含「文本补全」、「智能纠错」、 「文本润色」、「超级网典」四个模块,其中「文本补全」和「超级网典」旨在帮助写作者在创作时开阔思路、 提供弹药,而「智能纠错」和「文本润色」则是重在提升创作后的文本水平和质量。部分功能目前已接入搜狗 输入法 PC 端(「智能汪仔」)和 QQ 浏览器移动端。
4、字节
相对于阿里、百度、腾讯均已经推出大模型及布局,字节目前仍未公布内部架构、产品体系及大模型的最 新进展。字节的 AI 布局可以追溯到 2016 年成立的字节 AI LAB 的成立,AI Lab 对自身的定位是作为公司内部 的研究所和技术服务商,为平台输出海量内容提供 AI 技术支持。AI Lab 最初成立的时候聚集了马维英、李航、 李磊等大牛,此后马维英离开团队回到学界,目前阿里 M6 大模型的前带头人杨红霞已加入字节 AI Lab(人工 智能实验室),参与语言生成大模型的研发。 字节目前大模型仍处于发展阶段,现以旗下云平台火山引擎在算力、平台和生态端布局为主。大模型团队 由字节搜索部门牵头,搜索业务部门、AI Lab 和 AML(应用机器学习)团队均调任部分人马支援,目前团队规 模在 40 人左右,图片大模型团队由产品研发与工程架构部下属的智能创作团队牵头;团队负责人间接和直接汇 报对象,则均为 TikTok 产品技术负责人朱文佳。根据调研情况,字节目前在仍在做模型调优,计划 23 年 6-9 月达到 3.5 模型相当的水平,9 月之后语言模型可以同步做发布和多模态模型训练,语言模型发布至少要到 9 月 之后。后面会基于当前的语言模型,做多模态的模型,多模态相对来说难度会更大,至少要等到 24 年 3-4 月。
4.1 模型
字节在 AI 方面的积累主要集中在机器翻译、智能语音、视频图像和多模态四个领领域。字节跳动的研究成 果包括非自回归模型 DA-Transformer、端到端语音到文本翻译模型 ConST、多颗粒度的视觉语言模型 X-VLM、 图片和文本统一生成模型 DaVinci 等。 在机器翻译方面,字节旗下火山翻译团队 2022 年在 SC22、ACL2022、ICML2022 等顶会发表学术成果 10 余篇,受邀参加了英伟达 GTC 2022 全球 AI 开发者大会等知名技术论坛,申报翻译技术专利 15 项,荣获中国 专利优秀奖在 WMT2022 的非洲语向任务上夺得桂冠。目前,火山翻译提供 9 大领域翻译,其中包括但不限于 人工智能、互联网行业生物医疗、科学技术、金融财经,支持共 114 个语向的翻译,其中包括伊博语、亚美尼 亚语等小语种。其中,字节和清华联合发布了 DA-Transformer,DA-Transformer 在机器翻译上首次达到了 Transformer 同样的精度,而处理的速度提高了 7~14 倍。DA-Transformer 不仅可以用于机器翻译,而且可以用 于任意的序列到序列任务。
在多模态方面,2022 年 3 月,字节发布的 text2image 模型实现了文生图能力,实验数据显示,其效果比 VQGAN-CLIP 要真实,尤其是泛化能力还比不少用大量文本-图像数据对训练出来的模型要好很多。2022 年 5 月,字节跳动 AI Lab Research 团队提出了 X-VLM,首次提出学习多粒度的视觉和语言对齐。实验证明,这种 预训练方法十分高效,模型规模无需很大,预训练数据无需很多,仅 216M 参数量的 X-VLM 就能在广泛的多模 态任务上获得了十分优秀的表现,例如:图像文本检索、基于图片的问答或推理、视觉定位、图片描述生成。 目前,X-VLM 在字节跳动的真实应用场景上超过了业界常用的多个模型,完成了上线,服务于如今日头条等 业务。相关论文已被 ICML 2022 接收。
4.2 算力
2023 年 4 月 18 日,火山引擎在春季火山引擎 FORCE 原动力大会上正式发布自研 DPU 等系列云产品,并 正式推出智能推荐-高速训练引擎,支持 100GB 至 10TB 以上超大模型的高效训练,采取软硬一体优化设计等, 让面向推荐场景的高速训练更快,成本更低。 火山引擎智能推荐-高速训练引擎具备软硬一体、细粒度算子优化、分布式训练和推理三大特点,1)软硬 一体化:针对关键场景的超大模型,火山引擎智能推荐-高速训练引擎提供了全 GPU 方案,可以支持 100GB-10TB 的超大模型的高速训练,综合 ROI 是 CPU 的 5 倍;覆盖更多场景的模型,提供了 GPU+CPU 混训方案,综合 ROI 是 CPU 的 2 倍;2)细粒度算子优化:针对搜索、推荐和营销场景,优化细粒度算子,使得在模型推理的 过程中有更好的性能表现。在训练时,通过算子融合并精细调优,性能提升 20%;在推理时,通过算子优化, 性能提升 40%;3)分布式训练和推理:智能推荐-高速训练引擎为了保障系统的稳定性,支持训练和推理的全 方位容错,当某一个节点故障时,可以快速恢复;支持分布式推理,包括多分片、多副本,从而保证线上服务 的高可用。
4.3 平台
2022 年 7 月,火山引擎正式发布机器学习平台,达到 0 碎片的极致性能和优秀的开发体验,火山引擎机器 学习平台解决方案已在金融、零售、能源、教育等行业落地,帮助更多企业不断缩短智能业务研发周期,提高 模型上线效率和 GPU 使用率,并依靠定制化的智能模型实现业务增长。 火山引擎在数据管理、资源管理、流程和模型三大领域具备核心优势。1)在数据管理场景下,火山引擎机 器学习平台可通过结构化、非结构化数据库、数据协同标注与版本化管理、多租户安全等,保护企业数据资产, 为机器学习、深度学习开发助力;2)在资源管理场景下,机器学习平台可通过 GPU、CPU 调度,模型分布式 训练,资源动态分配,弹性线上推理服务等,提供机器学习模型开发所需要的算力。无论是在字节跳动内部还 是在外部客户,该平台都已实现万级 GPU 算力资源的池化管理、调度和共享;3)对于流程和模型管理,机器 学习平台提供 DevOps 能力。不同于一般业务,机器学习应用的发布包含了所有规则和处理逻辑,在应用上线 后,由于需要周期性地进行更新、优化迭代,模型本身对外部数据有强依赖,这使得整个 DevOps 更复杂。火 山引擎机器学习平台构建了 DevOps 流水线,实现从数据处理、模型训练、模型评估、模型发布的持续集成, 提升端对端业务上线效率。平台也支持通过超参数自动搜索、多模型自动比对与评估、模型版本化管理、线上 模型运维等,降低模型开发和维护门槛。
4.4 应用
火山引擎的 AI 场景产品主要包括智能创作、智能体验以及智能营销,目前已服务数百家客户,分别在视频 创作、互动创作、直播短视频构建中推动客户业务增长。在内容视频化和互动趣味化的大趋势下,火山引擎创 作与体验场景提供了从算法到平台的全域解决方案,在 AI 底层算法的支持下,通过全品类的正版素材和特色化 的创作工具,快速完成视频、特效、虚拟形象、XR 等创新内容。不管是企业用户还是个人用户,人人都可拥有 创作比较专业的短视频的能力。 智能创作云是火山引擎发布的面向企业的创作 AI 产品,智能创作云包括众多 AI 创作工具,比如图文转视 频能力,用户只需输入文字即可生成视频,AI 通过理解文字内容,搭配适合的图片、音乐和转场等,快速生成 一支专业的视频;比如视频模板,剪同款功能就是把优质视频内容抽象成脚本,用户只要会打开摄像头拍摄, 就有了专业拍、剪视频的能力,极大降低了创作门槛,保障了内容生产的质量。
字节旗下云服务平台云服务平台火山引擎提供有关音视频的智能美化特效。智能美化特效基于自主研发的 特效 SDK,提供多项图像渲染和算法,提供贴纸特效/美化滤镜/人像智能/计算机视觉基础检测识别等功能,用 于拍照工具、直播、短视频、在线教育、体感游戏等场景。目前,智能美化特效拥有超过 200 个自研算法、具 备小于 2ms 的人脸检测速度,提供超过 90 万个抖音同款特效贴纸和滤镜。 此外,字节在内部的相关产品持续引入 AI。2022 年 5 月,字节推出海绵乐队 App,海绵乐队是一款手机端 的便携式音频创作工具,在实现传统的录音、效果器同时,引入大量 AI 智能来协助创作,降低使用难度,提高 创作趣味和效率。2023 年 4 月 12 日,飞书宣布将推出智能 AI 助手“My AI”, My AI 包括自动汇总会议纪要、 创建报告、优化和续写文字内容等。在飞书 App 中,My AI 也可以通过对话形式,帮助用户自动创建日程、搜 索公司内部知识库等功能。飞书还表示,My AI 能做的远不止于此。未来,更强大的智能助手,也会让工作中 的人们更强大。
三、商业模式
当前全球大模型产业落地仍处于早期探索阶段。一方面,研发机构在大模型方面的技术研发已较为成熟, 如算法架构、预训练和微调策略、计算并行加速等,但对落地场景不够熟悉,没有形成完善的商业化模式,需 要与下游场景企业合作建立大模型商业模式;另一方面,绝大多数下游场景的企业对大模型没有形成基本的概 念和认知,同时也没有能够支撑模型微调的算力,以及定制、二次开发模型的人力资源和技术实力。 此轮基于 ChatGPT 的大模型浪潮兴起伊始,结合我国 AI 产业链与竞争格局现状,一种判断是:基于大模 型的通用和泛化性提高,未来手握通用基础大模型的巨头企业会逐渐侵蚀垂直领域厂商业务。这种压力长期来 看的确存在,但大模型与产品结合,尤其在非检索或开放域交互等场景中,需要依赖垂直领域数据和行业 know-how、应用场景和用户数据反哺、一站式端到端工程化能力等。在此窗口期,垂直领域与应用层厂商应积 极将大模型能力整合入自己的技术栈,服务于产品功能优化,建立“数据飞轮”壁垒。在下游丰富的基于大语 言模型、AIGC 应用开发需求的影响下,还将分化出一类工具型或平台型厂商,主要提供基于各类大模型的开 发平台服务,帮助客户实现便捷的 AIGC 应用开发与落地。
1、API 模式
API 模式指的是由大模型的研发主体(如科研机构)对完成的模型文件进行封装,将模型在各类任务上的 推理能力封装成统一的应用程序接口,对外提供服务的模式。下游企业可以获得这些接口,并按照自身的业务 需求,将接口作为可以调用的代码库、程序包等,植入已有的应用和服务中,让大模型的 API 为整个程序进行 赋能。API 模式的主要优势在于降低了企业应用大模型的成本。API 将大模型内部的所有技术细节进行封闭, 企业不需要过多了解模型的技术细节,也不需要投入额外的开发人力和算力资源进行大模型调优。
2、PaaS 模式
大模型作为一种技术,将其集成在 AI 平台上,对外提供能力和服务,成为一些技术实力雄厚企业的选择。 这种模式中,企业的主要落地产品的 PaaS 平台、开发工具、AI 服务等组合而成的套件,大模型是套件中的一 个重要的组成部分,但不是全部。用户购买或使用平台的过程中,可以利用平台提供的工具,对大模型进行开 发和应用,集成于自有的体系中,为自身业务提供服务。需要注意的是,和 API 模式不同,PaaS 服务模式提供 的是包括模型在内的一系列工具和平台,用户不能单独获得模型的能力。同时,用户虽然可以通过 PaaS 模式, 获得对模型更高的开发和控制权,但往往需要为此付费,这为 PaaS 服务的供应商带来了一定的利润。
以微调对话领域模型为例,英伟达提供了具体的部署流程。用户首先可以从云上下载已预训练好的模型, 并结合场景数据集,利用 TLT 工具,对数据进行处理、增强,并对预训练模型进行微调,微调后利用平台进行 测评。待测评结果符合实际应用要求后,可导出模型,进行下一步的使用(如后续用 RIVA 进行模型的应用).。 目前 TLT 平台已经支持 BERT、Megatron 等预训练语言模型,以及计算机视觉领域多种任务的模型。英伟达称, 在 TLT 平台的支持下,相比非迁移学习,用户只需要使用十分之一的数据进行训练,模型部署效率提升 10 倍。 TLT 平台本身是免费的,支持英伟达旗下的 A100、V100GPU 等硬件。 国内也有大型科技企业推动 PaaS 模式的发展。例如,2020 年 7 月,百度发布了 NLP 开发与服务平台文心, 其依托 ERNIE 预训练技术,为开发者提供 NLP 定制与应用能力。文心平台可通过公有云(如 EasyDL-NLP、 BML 等)和私有化两种方式为产业提供服务。用户不需要关注计算开发环境的搭建和算法实现的底层实现细节。 对于对场景要求更高的用户,百度提供全流程、可深度定制、可私有化部署的文心开发套件。用户可以获得模 型技术选型、本地化训练、离线部署等深度解决方案。截至目前,文心平台已累计支持 4 万开发者,及涵盖各 行各业的 200 多家企业客户。
3、MaaS 模式
MaaS 商业模式是以算力平台、模型仓库及数据集仓库为基础的,倡导零门槛的模型体验,提供简单快速的 模型使用、完整的模型定制链路及模型云端部署服务,主要提供给 AI 的爱好者、开发者、研究员以及部分中小 型转型企业的商业化模型使用。 “模型→单点工具→应用场景”是 MaaS 产业结构的核心。大模型是 MaaS 的最重要基座,例如 OpenAI 提供的访问执行各种自然语言任务的 GPT-3、将自然语言翻译成代码的 Codex、创建和编辑原始图像的 DALL• E;单点工具是大模型应用的补充,例如 ChatGPT 是在 GPT-3.5 模型的基础上,产生出的能“对话”的 AI 系统; 内容写作工具 Jasper 它基于开源的 GPT-3 模型,它使用人工智能为用户编写内容等;各种应用场景是大模型应 用的变现,例如商汤科技的书生(INTERN)大模型可以让 AI 模型处理多样化的视觉任务;又如 GPT 模型系列 作为基于互联网可用数据训练的文本生成深度学习模型,应用场景持续扩展。
而除了模型本身进行订阅收费以外,嵌入其他产品获得引流式收入也是模式之一,例如,微软宣布推出高 级付费版 Microsoft Teams Premium,这项高级服务将在 6 月份每月收费 7 美元,然后在 7 月份恢复到正常的 10 美元,订阅者可享用由 OpenAI GPT-3.5 提供支持的“智能回顾(Intelligent Recap)”这一重要功能,该功能将 提供自动生成的会议记录、推荐任务和个性化标亮;微软旗下 Dynamics 365 产品线宣布旗下客户关系管理软件 Viva Sales 也将集成 OpenAI 的技术,通过人工智能帮助销售人员完成许多繁杂且重复的文字工作。虽然,GPT-3.5 并未在 Viva Sales 中作为单独的收费项目存在,但是 Viva Sales 作为 CRM 产品本身每月就收费 40 美元,假设 有 1000 万客户是因为 GPT-3.5 而选购 Viva Sales,则代表 GPT-3.5 每年能够为微软带来 48 亿美元的收入。
其它的收费模式还包括不同的 Model 应对不同的客户需求和客户定价,如 OpenAI 在推出 ChatGPT 以前, 其主要收入来源于对外部客户开源自身大模型,通过提供 API 接口调用来收费。例如用于创建和编辑原始图像 的 DALL·E 模型,Mixtiles 利用 DALL·E API 来创建和构建能引起情感共鸣的艺术品(图片);数字平台 CALA 同样调用了 DALL·E 模型,使得 CALA 的智能工具允许用户从自然文本描述或上传的参考图像中生成新的设计 理念图。可以看出,相较于 Mixtiles,CALA 对于 DALL·E 模型的应用更偏商业,对于细节的要求也更高,那在 这种情况下,CALA 和 Mixtiles 两者调用 DALL·E 模型的收费肯定是有所不同的。 总结来说,不同的 Model 应对不同的客户需求和客户定价肯定也会有所不同,客户的要求越高,使用的模 型越好,那么大模型的收费也将会更高。
编辑:黄飞
评论
查看更多