文心一言 | 机器学习 | ChatGPT
随着科技的不断发展,人工智能技术已经成为了当今社会的热门话题。人工智能技术的应用范围越来越广泛,不仅在工业、医疗、金融等领域得到了广泛应用,而且在人们的日常生活中也越来越常见。在这个人工智能时代,人们对于人工智能技术的发展和应用也越来越关注。而在这个时代,AIGC成为了人工智能时代的新引擎。
AIGC即AI Generated Content,是指利用人工智能技术来生成内容,AIGC也被认为是继UGC、PGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的分支。AIGC的投资领域主要包括人工智能、机器学习、自然语言处理、计算机视觉等领域。这些领域都是人工智能技术的核心领域,也是未来人工智能技术发展的重要方向。在这些领域,AIGC已经投资了多家创新企业,并且取得了不俗的成绩。这些企业涉及的领域包括智能制造、智能医疗、智能金融、智能交通等,都是人工智能技术应用的典型案例。
AIGC的投资理念是“投资未来,引领变革”。这个理念体现了AIGC对于人工智能技术的信心和追求。在AIGC看来,人工智能技术是未来的引擎,可以推动社会的进步和发展。而AIGC作为人工智能领域的投资机构,希望通过投资和支持创新企业,引领人工智能技术的变革和发展。
在人工智能时代,AIGC成为了人工智能技术的新引擎。通过投资和支持创新企业,AIGC推动了人工智能技术的发展和应用,为人工智能时代的到来做出了贡献。未来,AIGC将继续坚持“投资未来,引领变革”的理念,为人工智能技术的发展和应用不断注入新的动力。本文将从AIGC的角度,探讨人工智能时代的新引擎。
从上网到上算
由网络世界至虚拟现实
随着服务器和网络的发展,人人都可以“上网”,而算力和算法的进步将开启人人“上算”的时代。人工智能将以场景、应用和内容来创造用户的新需求,而元宇宙则将包含现实物理世界,成就真正的虚拟现实。在这个背景下,我们建立了一个研究框架,其中包含四层嵌套关系。首先,人工智能和虚拟现实都属于技术层面。其次,人形机器人/脑机接口和元宇宙分别代表了智能最终实现的两种技术路径——混合平台和重构时空。人形机器人和脑机接口是混合平台这一路径上的不同工程方案,以机器和人为载体去构建混合平台。第三,相较于人形机器人和脑机接口,元宇宙是智能真正实现的内在部分。最后,元宇宙的建设过程是上半场,而囊括现实物理世界的过程则是下半场,最终实现虚拟现实。
AIGC将成为Web3.0/元宇宙时代的内容供给范式之一。目前ChatGPT、AI绘画均为AIGC的应用范畴。随着Web3.0/元宇宙时代内容的快速增长,依靠PGC/UGC的供给有限,低成本高效率的AIGC将成为重要的内容供给方式之一。当前ChatGPT、AI绘画的突出表现打开了人们对于AI生成式内容的想象空间,我们推演,AIGC的终极是以内核为AI,依场景需求借助一定的硬件形态呈现出来的垂类硬件,如特斯拉推出的人形机器人等。AIGC或将掀起新一轮产业浪潮,冲击原有竞争格局与商业模式。
AIGC具有广泛的应用场景,以ChatGPT为代表,其在代码生成、纠正语法生成文本等方面表现出极强的能力,并凭借“对话式”搜索的强交互模式对现有的搜索引擎造成了较强的冲击,并影响了现有战略布局。谷歌内部拉响了红色警报,微软将ChatGPT整合入Bing搜索,拟重塑现有业务体系。在此基础上,ChatGPT试点订阅制付费模式,将打破原有竞价搜索广告的商业模式,具有巨大的商业化潜力,同时也为AI行业的商业化路径做出了更多模式的探索。
生成式 AI 商业化应用新篇章
一、AIGC 成本大幅下降,人工智能商业化进程拐点已现
我们认为以 ChatGPT 为代表的 AIGC 兴起,在内容创作成本、创作效率、模型计算消耗、用户流量基础等维度实现了重大突破,有望推动 AI 商业化进程的大幅加速。
1、AI 内容创作成本大幅降低且耗时更短,相较传统方式优势显著
目前 OpenAI 定价最高的文字模型达芬奇(基于 GPT-3)为每 750 词约 0.02 美元(折合约 0.14 元人民币),相较传统方式优势显著。在图像生成领域,Open AI 透露其 DALL-E2 模型的图片智能编辑及生成服务的价格,超过免费额度数量的图片收费为每 460 张图片 15 美元,折合每张图片约 0.22 元人民币。AIGC 绘画创作平均耗时已达到分秒级,创作效率较人工优势明显。
2、AIGC 模型算力消耗快速下降,落地门槛降低有望驱动消费级应用出现
借助最新的 Colossal-AI 通用深度学习系统,AIGC 领域的 Stable Diffusion 模型训练过程中可最高节省约 5.6 倍的显存需求(从 64.5GB 大幅降低到 11.6GB),未来有望采用消费级 GTX 3060 显卡实现模型运算功能,大幅降低 AI 商业化应用的落地门槛。
3、爆款应用快速积累用户流量,商业化条件已基本具备
ChatGPT 发布后日活用户数量快速突破千万,使用者数量的爆炸式成长即反应出用户的尝试使用意愿强烈,未来嵌入到微软的业务生态中也有望提升用户的工作效率,优化使用体验,创造更大的商业价值。
4、国内外公司持续探索商业化路径,AIGC 生态有望加速形成
近日,OpenAI 推出 ChatGPT 付费订阅版 ChatGPT Plus,每月收费 20 美元,而包含 Synthesia、Jasper、runway 等 AIGC 初创公司相继推出细分领域的收费服务,未来 AIGC 产业生态有望加速构建,并形成更加清晰的 AI 商业化应用路径。
Jasper 文本写作功能收费模式
二、应用场景丰富,AI 商业化空间前景广阔,建议关注三条投资主线
AIGC正在推动人工智能商业化进程的加速,这有望打开千亿市场。根据德勤的数据显示,到2021年,中国的人工智能市场规模已经达到了2058亿元,预计到2025年,这个市场规模将会达到5460亿元,年复合增长率约为27.63%。
中国人工智能市场规模及增速(单位:亿元)
根据德勤的预测,全球人工智能产业规模预计将从2017年的6900亿美元增长至2025年的6.4万亿美元,复合增长率达到32.10%。这一预测得益于移动互联网时代带来的海量数据、模型和算力的不断迭代,以及各类应用场景中的商业化尝试,这些因素为人工智能的商业化奠定了坚实的基础。未来,人工智能产业动能有望加速释放,从而推动人工智能产业的快速发展。
全球人工智能产业规模发展趋势(单位:亿美元)
根据《20220-2023 中国人工智能计算力发展评估报告》,人工智能商业化进程有望加速,未来随着自然语言处理、计算机视觉、AIGC 等细分技术的持续迭代,AI 应用将呈现场景应用深度和广度并行发展态势。特别是以 AIGC 为代表的生成式 AI 将在创作型工作(文本、图像视频创作)和预测、决策型工作中扮演更加重要角色。
人工智能应用场景发展
三、AIGC 应用有望从 B 端延伸至 C 端市场,空间广阔规模超两千亿
根据Gartner《2021年预测:人工智能对人类和社会的影响》,到2025年AIGC产生的数据将占所有数据的10%。因此,我们对标海外AIGC厂商,如Jasper.AI、Stability.AI等公司的商业模式,测算国内2023年、2025年和2030年AIGC市场空间,发现市场空间超过两千亿。预计到2025年国内AIGC市场空间可达403.52亿元,到2030年市场空间可达2175.58亿元,未来几年市场有望迎来爆发式成长。
在AIGC领域,文字、图片渗透率有望快速提升,但视频、直播等受限于技术迭代渗透率较慢。目前AI在文本和图像生成领域技术已相对成熟,同时微软、百度等科技大厂有望将AI技术应用到业务生态中,有望推动在线办公、搜索引擎等应用场景的渗透率提升。然而,在直播、影视以及音视频等领域,由于AI生成技术处于初级阶段,且下游用户对内容要求较高,我们认为短期内渗透率提升幅度较低。
AIGC 国内理论市场空间测算
四、ChatGPT 面世即成顶流,性能持续提升商业化价值不断放大
OpenAI 在 2022 年 11 月 30 日发布了 ChatGPT,这是一款对话式 AI 新模型,能够进行人机交互的问题回答、文本写作以及代码编写等功能。该模型使用了 Transformer 神经网络架构,并通过维基百科以及大量真实语料库的数据训练,实现了接近人类的交流水平。ChatGPT 的出现标志着生成式 AI 领域的突破性进展,也让 ChatGPT 成为了一个备受关注的话题。
ChatGPT 实现交互问答
ChatGPT是一种具备自我学习能力的人工智能模型,自面世以来,其性能不断得到提升。在2023年1月30日,OpenAI官方宣布,ChatGPT通过新一轮的更新,其准确性和真实性得到了显著提升,并且已经具备了比较基础的数学计算能力。经过使用者的测试,目前ChatGPT的数学计算能力接近小学生水平,虽然相较其代码和文本写作相比差距甚远,但进步非常明显。ChatGPT在数学领域的计算能力逐渐形成,反映出模型的自我学习能力以及模型迁移能力出色。
ChatGPT 日活用户数爆发式增长
微软计划推出一系列基于人工智能技术的应用服务,其中ChatGPT有望在实际应用中持续成长。据悉,OpenAI公司于2023年2月2日宣布推出付费试点订阅计划ChatGPT Plus,每月定价为20美元。该付费版功能包括高峰时段免排队、快速响应以及优先获得新功能和改进等。同时,OpenAI方面仍将提供对ChatGPT的免费访问权限。
此外,微软还推出了集成ChatGPT的全新Bing搜索服务和集成AI辅助的Edge浏览器。新版Bing带有一个扩展的聊天框,它现在不仅可以回答事实问题和为用户提供各种链接,还可以在ChatGPT的帮助下为用户即时生成各种个性化的规划、建议、分析等,解决更复杂的搜索问题。
微软新版搜索引擎可根据问题内容提供完整解答及方案建议
五、ChatGPT 以 GPT+RLHF 模型为核心支撑,为 AIGC 发展指明方向
ChatGPT结合海量训练数据和Transformer框架,通过RLHF模型提升交互聊天能力,实现了对自然语言的深度建模。Transformer架构为自然语言理解领域带来颠覆性变革,应用到NLP、CV、生物、化学等多领域。谷歌在2017年提出了完全基于Self-Attention机制的Transformer架构,取得了机器翻译任务上的颠覆性进步。Transformer由编码器和解码器组成,各自由若干个编码/解码模块堆叠而成,每个模块包含Multi-Head Attention层、全连接层等功能不同的工作层。相比于之前的框架,Transformer架构除了在计算的时间复杂度更优外,还有3大优势:
1、可直接计算点乘结果,并行度高:对于数据序列 x1,x2……xn ,self-attention 可 以直接计算任意两节点的点乘结果,而 RNN 必须按照顺序从 x1 计算到 xn。
2、一步计算,解决长时依赖问题:处理序列信息使,通常用要经过的路径长度衡量 性能,CNN 需要增加卷积层数来扩大视野,RNN 只能逐个进行计算,而 self-attention 只需 要一步矩阵计算就可以,更好地解决长时依赖问题。
3、模型更可解释:self-attention 模型更可解释,attention 结果的分布可反映该模型 学习到了一些语法和语义信息。
Transformer 核心框架
RHFL模型是一种预训练语言模型,通过人类反馈进一步微调以符合人类偏好,从而直接优化模型。Open AI采用了RHFL作为ChatGPT的核心训练方式,称其为“能有效提升通用人工智能系统与人类意图对齐的技术”。RHFL的训练包括三个核心步骤:首先进行预训练语言模型,然后对模型根据提示生成的文本进行质量标注,由人工标注者按偏好从最佳到最差进行排名,利用标注文本训练奖励模型,从而学习到了人类对于模型根据给定提示生成的文本序列的偏好性。最后,使用强化学习进行微调,确保模型输出合理连贯的文本片段,并且基于奖励模型对模型输出的评估分数提升文本的生成质量。
RHFL 模型核心框架
推理-知识-学习-创造
AIGC重塑人工智能未来
一、复盘三次人工智能浪潮,AI 从科研向细分产业生态加速渗透
人工智能技术的发展可以被分为三次浪潮,每次浪潮都有其独特的特点和发展趋势。随着AIGC的崛起,我们有望迎来第四次人工智能浪潮。
第一次浪潮主要集中在20世纪50年代至70年代,其核心是推理能力的形成。在这个时期,人工智能技术主要依靠符号逻辑和规则系统来实现推理和决策。然而,这种方法的局限性在于它需要大量的手动编程和规则制定,难以应对复杂的现实问题。
第二次浪潮主要发生在20世纪80年代至90年代,其核心是知识储备的建立。在这个时期,人工智能技术开始利用专家系统和知识图谱等方法来构建知识库,以便更好地处理复杂的问题。然而,这种方法的局限性在于它需要大量的人工干预和知识输入,难以应对大规模的数据和变化。
第三次浪潮主要发生在21世纪初至今,其核心是自我学习能力的提升。在这个时期,人工智能技术开始利用机器学习和深度学习等方法来实现自我学习和优化,以便更好地处理大规模的数据和复杂的问题。然而,这种方法的局限性在于它需要大量的数据和计算资源,难以应对数据隐私和安全等问题。
未来,我们有望进入到自我创造的阶段,即第四次人工智能浪潮。在这个阶段,人工智能技术将能够自主地生成新的知识和创造性的解决方案,从而实现真正的智能化。AIGC作为一家领先的人工智能公司,有望引领这一浪潮的发展,并为人类带来更多的创新和进步。
历次人工智能浪潮及代表性成就梳理
1、第一次 AI 浪潮,对人类神经元机制的模拟实现机器推理能力
计算机的诞生催生了学术界对人工智能的大规模探索,第一次 AI 浪潮来袭。1946 年第一代电子计算机诞生,这一阶段冯·诺依曼结构为现代计算机的体系架构奠定了基础,而图灵机的思想则论证了现代计算机的计算模式和计算能力,开启了人类在现代人工智能领域不断探索的旅程。冯·诺依曼模拟了人类大脑记忆存储与提取的工作机制,为计算机和人工智能奠定了坚实基础。
上世纪 40 年代,冯·诺依曼提出了计算机的逻辑结构,其主要特点包括程序以二进制代码存放在存储器中、所有指令由操作码和地址码组成、指令在存储过程中按照执行顺序进行存储等。冯·诺依曼结构将人类的神经系统与计算机结合在一起,大幅提升了计算机的运算效率,为人工智能的发展提供了保障。
冯·诺依曼结构模拟人类记忆存储的模式
Rosenblatts受生物神经网络启发,提出了一种人工神经网络结构,这成为了现代神经网络和深度学习的重要基础。感知机的工作原理可以理解为生物神经网络中的信号作用。信号经过树突传递到细胞核的过程中,信号会发生变化。感知机模型在模型的“输入”位置添加神经元节点,构成“输入单元”。它会为每一个属性指定一个权重w,对属性值和权重的乘积求和,将结果值与阈值比较,从而判定正负样本结果。然而,由于感知机模型只能解决线性问题,面对异或问题时无能为力。这也导致了第一次人工智能研究在上世纪70年代进入低潮期。
Rosenblatt 感知机模型
2、第二次 AI 浪潮,人工智能拥有知识储备,专家系统为代表性产物
在20世纪80年代,第二次人工智能浪潮到来,其核心发展为让计算机学习大量专业知识。研究人员将专家的知识、言论以及经验等数据输入到计算机,使其成为专家系统。专家系统可以预测在一定条件下某种解的概率。由于当时计算机已有巨大容量,专家系统有可能从数据中得出规律。
在这一阶段,多层感知机、反向传播算法、神经网络的出现极大程度地提升了计算机的计算及逻辑推理能力,为深度学习和强化学习模型奠定了重要基础。同时,专家系统的出现赋予了人工智能知识属性,并进行了一系列的商用尝试。多层感知机强调模拟人类脑神经的复杂连接,使人工智能实现解决非线性问题的处理能力。多层感知机可至少分成输入层、隐藏层和输出层这三层,隐藏层可根据需要建多层且每层都可以有多个节点,相邻层的各个节点都互相连接。隐藏层和输出层具备计算加权和激活函数处理的功能,实现数据信息的向前传递和分析。
多层感知机(MLP)模型
多层感知机的突破在于使用激活函数,它可以在隐藏层中使用不同的激活函数来对数据进行非线性化处理,从而使得计算机具备拟合任何连续函数的能力,大幅提升了计算机的计算能力。1986年,Geoffrey Hinton等人提出了多层感知机(MLP)与反向传播(BP)训练相结合的理念,将人类基于结果误差反馈反哺逻辑推理的思想融入AI。BP算法的基本思想是用误差的导数(梯度)调整,并通过误差的梯度做反向传播,更新模型权重,以降低学习误差并拟合学习目标。
反向传播(BP)模型
第二次 AI 浪潮中,专家系统模拟人类专家的知识和经验解决特定领域的问题,实现 了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突 破。并且机器学习(特别是神经网络)探索不同的学习策略和各种学习方法,在大量的实 际应用中也开始慢慢复苏。
专家系统作为人工智能的重要分支,在这一时期逐步渗透到细分行业的实际场景解决 特定任务。第二次 AI 浪潮期间,专家系统应用到数学、物理、化学、医学、地质等细分 行业,能够辅助科研人员解决化学分子结构、疾病诊断、地质分析等特定任务。这一时期 专家系统的特点包含:(1)单学科的专业性;(2)系统结构完整,移植性好;(3)具有一 定的推理解释功能,透明性好;(4)采用启发式推理和不精确推理;(5)用产生式规则、 框架和语义网络表达知识;
专家系统商业价值显现,在企业生产决策过程中发挥重大作用。1980 年,美国卡耐基 梅隆大学与 DEC 公司合作研发的 XCON 专家系统,运用计算机系统配置的知识,依据用 户的定货,选出最合适的系统部件(如 CPU 型号、操作系统种类及相应型号,存储器和外 部设备等),并且能够给出优化意见以构成一个完整的系统。XCON 可以给出一个系统配 置的清单和这些部件装配关系的图,以便技术人员进行装配。在这一时期,除 DEC 公司 外,美国杜邦、通用汽车和波音等公司在也在生产决策中借助专家系统的辅助,1986 年美 国 AI 相关软硬件销售额达到 4.25 亿美元,人工智能技术逐渐走出科研院所,进入到企业 的实际业务场景中。
XCON 专家系统核心架构
在AI模型算法研究领域,对人类脑神经的信号处理和思考机制的模拟进一步加深,代表性产物包含了CNN、RNN等神经网络模型。其中,1982年,John Hopfield提出了一种结合存储系统和二元系统的神经网络,即Hopfield网络。这种模型保证了向局部极小的收敛,由于每个神经元的输出均连接到其它神经元的输入,模型能够通过训练从某一残缺的信息联想到所属的完整信息。因此,Hopfield模型在模拟人类记忆储存和联想方面做出了重大贡献,同时也勾勒了未来RNN模型的雏形。
Hopfield Network 模型
Yann LeCun提出了CNN模型,并成功验证了其商业可行性。1989年,LeCun结合反向传播算法和权值共享的卷积神经层发明了卷积神经网络(Convolutional Neural Network,CNN)。CNN通常由输入层、卷积层、池化(Pooling)层和全连接层组成。卷积层负责提取图像中的局部特征,池化层用来大幅降低参数量级,全连接层则类似传统神经网络部分输出想要的结果。CNN成功应用到美国邮局的手写字符识别系统中,在此基础上于1998年诞生了稳定可商业应用的CNN模型LeNet-5。
卷积神经网络(CNN)模型
三、第三次 AI 浪潮,数据爆炸背景下,AI 进入学习时代
随着人类进入互联网时代,数据量呈现爆炸式成长,同时大数据技术的成熟为人工智能的发展注入了新动能。PC互联网和移动互联网的到来推动了人类活动数据量的快速增长,为AI模型的训练提供了有价值的原料。同时,围绕大数据、云计算等领域的技术迭代使得人工智能模型的计算效率、成本等方面都得到了大幅优化,为商业化应用打开了空间。
根据海外学者论文《Modeling and Simulation Strategies for Performance Evaluation of Cloud Computing Systems》,自2000年以来,全球产生的数据量呈现爆炸式增长,到2007年已接近300EB。在针对大规模数据计算领域,2003年,Google公布了3篇大数据奠基性论文,为大数据存储及分布式处理的核心问题提供了思路:非结构化文件分布式存储(GFS)、分布式计算(MapReduce)及结构化数据存储(BigTable),并奠定了现代大数据技术的理论基础。
1986-2007 年全球数据量变化趋势(单位:EB)
Geoffrey Hinton等人提出了深度学习的概念,这掀起了第三次人工智能热潮。深度学习的本质是使用多个隐藏层网络结构,通过大量的向量计算,学习数据内在信息的高阶表示。相较于传统的神经网络,深度学习模型具有更优异的特征学习能力,学习得到的特征对数据有更本质的刻画,有利于可视化或分类。其次,深度神经网络在训练上的难度可以通过“逐层初始化”(layer-wise pre-training)来有效克服,因此模型精调的效率得以大大提升。
AlexNet 神经网络模型
深度学习的出现标志着计算机实现了基于数据的学习和挖掘分析能力,AI能够挖掘复杂信息中包含的关联关系。2012年,AlexNet神经网络获得ImageNet大赛冠军,标志着AI在图像识别领域的突破性成就。在计算机视觉领域的竞赛ImageNet中,AlexNet以提升10%的错误率的进步力压第二名以SIFT+FV、LBP+FV、GIST+FV、CSIFT+FV等组合特征的算法。AlexNet基于卷积神经网络CNN模型,在数据、算法及算力层面均有较大改进,创新地应用了Data Augmentation、ReLU、Dropout和LRN等方法,并使用GPU加速网络训练。之后图像识别领域AI模型均在此基础上进行优化,并且识别准确度超越了人类水平。
AlexNet 实现深度学习在图像识别领域的重大突破
AlphaGo是一种具备深度学习能力的人工智能,它可以结合人类专家比赛中学到的棋谱,以及在自我对弈中进行强化学习。在2016年,AlphaGo在围棋竞技中击败了李世石,这标志着人工智能具备了自我迭代和学习强化的能力。AlphaGo的深度学习模型可以分为策略网络和价值网络,分别解决了围棋中的“下一步最佳策略”和“下一步后的胜率”两个问题。通过学习人类棋谱和自我对弈,AlphaGo不断调整策略以提升棋力。AlphaGo较好地模拟了人类棋手对于围棋落子的直觉判断。由于围棋存在的广度和深度,计算机无法模拟计算所有的可能性。AlphaGo通过策略网络减少搜索广度,即每一步搜索少量节点,而通过价值网络减少搜索深度,无需将棋局下到底即可得出当前局势的判断。
在AlphaGo的基础上,谷歌公司推出了迭代版本AlphaGo Zero,增强了人工智能在面对人类棋谱中未出现过的局势时的自我推理和学习能力,标志着人工智能的自我学习具备了一定的迁移能力。
AlphaGo 包含价值网络和策略网络两个深度神经网络模型
Transformer 架构横空出世,Open AI 发布的 GPT 模型,AI 进入“大模型”时代。GPT 模型利用更大规模的文本数据以及更深层的神经网络模型学习更丰富的文本语义表示,打破了自然语言处理各个任务之间的壁垒,使得搭建一个面向特定任务的自然语言模型不再需要非常多的任务北京,只需要根据任务的输入和输出形式应用预训练模型便可达到满意效果。
NLP 模型的搭建只需要“无监督预训练+有监督的精调”两阶段:(1)生成式预训练:在大规模文本数据上训练一个高容量的语言模型,以学习更丰富的上下文信息;(2)判别式任务精调:将预训练好的模型适配到下游任务中,并使用有标注数据学习判别式任务。
从 GPT 到 GPT-2 和 GPT-3,参数提升和训练数据积累提升模型工作性能。到了 GPT-2 阶段,Open AI 将自然语言模型定义为要完成零样本无监督多任务学习的目标,即预训练好的模型可以直接用于下游任务。GPT-2 模型在学习更广泛的数据信息,增加了模型的维度参数后,不需要针对特定的任务修改模型,将任务也作为提示词,和文本一起输入预训练好的模型。
承接 GPT-2 的核心思想,到了 GPT-3,模型参数量达到了 1750 亿,在不进行微调的情况下可以在多个 NLP 基准上达到最先进的性能。GPT 模型的演进为国内外 AI 大厂提供了重要的借鉴意义,即通过优质训练数据输入和模型复杂度的增加来提升模型性能,而未来 AI 以少样本乃至无样本学习为核心目标。
GPT,GPT-2,GPT-3 模型对比
AI大模型在任务准确度和场景泛化性方面有显著提升。基于此,可以提炼出针对不同实际场景的AI小模型,以完成特定任务,从而降低AI商业化部署的成本,提高训练速度。其中,Transformer架构和GAN模型为现在的语言文本生成和图像生成奠定了基础。
GAN模型参考博弈学习理论,通过内部两个模型的互相博弈,实现图像视频的AI自动生成。生成式对抗网络(GAN)是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中两个模块:生成模型和判别模型的互相博弈学习产生输出。判别模型负责判断一个实例是真实的还是模型生成;而生成模型负责生成实例来骗过判别模型。两个模型对抗中最达到平衡,即生成模型生成的实例与真实的没有区别,判别模型无法区分输入数据是生成的还是原始真实的数据。
生成式对抗网络(GAN)模型原理
GAN 模型是一种应用广泛的人工智能底层框架,可用于逼真图片生成、图片翻译、3D 建模等领域。然而,早期的 GAN 模型存在一些问题,如收敛不稳定、容易受到部分图片样本欺骗等,导致初期生成的图像可能存在失真问题,适用范围相对局限。尽管如此,随着技术的不断发展和改进,GAN 模型已经成为了 AIGC 重要的底层框架之一。
四、第四次 AI 浪潮,AIGC 从文本拓展至图像及音视频领域,商业化空间打开
AIGC 在图片、音视频领域的模型在大模型基础上持续优化,性能趋向商用化需求,空间有望打开。我们认为以 ChatGPT 为代表,AI 将进入创造(创作)时代,引领第四次人工智能浪潮。AIGC 以自动化生产和高效为两大特点,目前已经可以自动生成文字、图片、音频、视频,甚至 3D 模型和代码。未来大量数字原生内容有望由 AI 协助完成创作。底层技术的突破使 AIGC 商业落地成为可能,模型迭代推动 AI 生成文字和图片质量实现质的提升。在图像生成领域,AIGC 的模型已经实现了质的飞跃,为AI生成高质量图像提供了更多可能性。
AI 图像生成模型发展梳理
Diffusion模型参考了热力学原理,大幅提高了生成图像的稳定性、准确性以及计算效率。该模型的灵感来自于非平衡热力学,训练过程中缓慢地将随机噪声添加到数据中,然后通过反转这个噪声过程来学习恢复数据。与GAN模型不同,扩散模型不依赖于生成与对抗两个模型的博弈,因此学习结果更加稳定,并且模型的并行性和扩展性更好。之后推出的Stable Diffusion模型在计算效率上显著提升,满足企业级和消费级的使用需求。
CLIP模型打破了传统分类器的界限,可以在不需要额外训练集的情况下,以良好的性能完成各种计算机视觉任务。该模型对问题进行了重新定义,不再预测文本标签,取而代之的是预测图像与文本相匹配的可能性大小。在大规模数据集上完成的训练后,该模型能够学习到图像的各方面信息。在图像生成领域,这两个模型的结合可以帮助我们生成更加稳定、准确的图像。
几种图像生成模型特点对比
Make-A-Video 模型是一种基于文本和图像智能生成视频的人工智能技术。该技术继承了图像生成模型的核心技术,通过对文本语义和图像对应关系的学习,结合视频帧序列的训练,实现了连贯运动且高分辨率的高质量视频生成。然而,由于模型训练量要求过大,目前该技术只能实现几秒钟的短视频生成。未来,随着模型的迭代和优化,有望实现更长时间和更高质量的视频生成。
Make-A-Video 实现 AI 自动生成短视频
赋能千行百业
引领数字化未来
AIGC产业链已初步形成,其最上层为算力层,为算法层提供算力支持;第二层为算法基础层,通过数据收集、标注、注释为算法中间层提供原材料;第三层为算法中间层,通过AI模型开发、训练生成垂直化、场景化、个性化的模型;最后层级为应用层,利用人工智能生成内容,包括文字、图片、音视频等服务内容。
预计AIGC将朝着标准化SAAS服务模式发展,随着兼具大模型和多模态的AIGC模型加速生成新的技术平台,SAAS有望加速落地,相关应用层可通过链接平台相关算法从而打开海量应用市场。此外,目前OPEN商业模式即API接口收费,公司通过提供相关AIGC代码,提供自动图形模型或语言模型生成等产品,用户通过其API接口接入,并支付平台费用获取相关图像、语言、代码调整服务,OpenAI可获得付费订阅式的SAAS费用,该商业模式用户粘性极强。
AIGC产业雏形
一、搜索引擎
Microsoft Bing是由微软推出的搜索引擎,于2009年5月28日正式上线。截至2013年5月,Bing已成为北美地区第二大搜索引擎,市场份额达到29.3%。Bing集成了网页、图片、视频、词典、翻译、资讯、地图等全球信息搜索服务,并引入了AIGC的搜索引擎,使搜索更便捷、沟通更高效、功能更多元,且AI答案的可靠性得到提升。
最近,Bing推出了一款新版,加入了AI辅助功能。用户可以通过点击搜索栏的“聊天”选项,通过与AI聊天的方式获得答案或建议,还可以通过和搜索框对话来调整答案,从而达到更精准的搜索效果。不同于ChatGPT,新版Bing同时提供引用来源,提高答案可靠度。此外,新版必应不仅具有传统搜索引擎功能,也可以像智能语音助手一样根据用户需求生成出行计划,及完成如写诗、创作短篇小说等ChatGPT的传统艺能。
新版Microsoft Edge功能于2月8日发布,将加入AI聊天和相关写作功能。除聊天功能外,这些写作功能可以有效帮助用户对长文章归纳总结提炼重点、对比筛选文章内容以及创造新内容。此外,新版Bing可以协助用户生成内容,包括电子邮件、规划旅行等。
引入ChatGPT功能的BING主页界面 用户可以和新版BING搜索引擎交流
二、新闻媒体
BuzzFeed是一家致力于从数百个新闻博客那里获取订阅源,为用户提供方便浏览当天网上最热门事件的新闻聚合网站。该网站被誉为媒体行业的颠覆者。
现在,BuzzFeed计划利用AIGC技术来有效代替人类对已有信息进行语言整合和文字输出,与资讯平台类的数字媒体高度适配。据澎湃新闻报道,BuzzFeed于1月底宣布将使用OpenAI开放的API协助创作内容,并计划在2023年将把由AI创造的内容从研发阶段转变为核心业务的一部分。具体来说,BuzzFeed将利用人工智能技术创建面向用户的个性测验,并根据用户反应生成个性化的文本内容。人工智能将协助创作过程,加强部分内容创作,而人类则扮演提供想法、“文化货币”和“灵感提示”的角色。
BuzzFeed页面
三、客户管理
LivePerson是一家网络交易业务的领先供应商,提供一种云技术平台,帮助企业通过多种渠道(包括网站、社交媒体和移动设备)主动与消费者联系。该平台提供交谈、语音和内容交付等多种联系方式,是客户参与解决方案的全球领导者。公司的交易业务通过各种消费者和商业数据(包括历史、行为、业务驱动和第三方数据)的信息来源提炼,每一笔交易的背后都有着专业的分析和对于消费者需求和商业目标之间的实时信息支持。
此外,LivePerson在2022年9月与人工智能企业Afiniti合作,提高服务质量降本增效。根据美国商业资讯,LivePerson在引入AI技术后,品牌方可以在几毫秒内根据历史数据模式将个人与客服人员匹配,考虑因素包括客户的产品使用情况、使用年限,以及过去与该公司联系的原因。该过程还考虑了客服人员信息,例如他们如何处理类似的信息互动,以尽可能达成积极的客户-客服人员体验,获得有效结果。
LivePerson主页截图
四、数字人
2020年,百度推出了国内首个可交互虚拟偶像“度晓晓”,具备视觉识别能力和最自然的交流方式,让搜索过程和结果反馈更接近人类真实的沟通体验。度晓晓可以轻松知道人类已有记录的所有知识,为用户提供权威且精准的知识服务。在与用户的交互中,度晓晓能够默默学习人类的思维实现自我进化。2021年,百度与荣耀联合打造了国内首个虚拟偶像AIGC单曲《每分 每秒 每天》,由度晓晓与龚俊数字人联合演唱。数字人在电商直播、新闻播报、接待指引和展览展示等领域均有已落地的应用,越来越多的企业使用和打造AI虚拟数字人,市场前景十分广阔。
五、游戏
AIGC(Artificial Intelligence Game Character)是一种基于人工智能技术的游戏角色,它可以在游戏中自主地行动、思考和决策,从而提高游戏的趣味性和挑战性。以下是AIGC在游戏领域的应用:
1、智能对战
AIGC可以作为游戏中的对手,通过学习和适应玩家的行为,提高游戏的难度和挑战性。
2、智能伙伴
AIGC可以作为游戏中的队友或伙伴,与玩家合作完成任务,提供更加真实的游戏体验。
3、智能敌人
AIGC可以作为游戏中的敌人,通过学习和适应玩家的行为,提高游戏的难度和挑战性。
4、智能NPC
AIGC可以作为游戏中的非玩家角色,与玩家进行互动,提供更加真实的游戏体验。
5、智能剧情
AIGC可以通过学习和适应玩家的行为,自主地生成游戏剧情,提高游戏的趣味性和可玩性。
AIGC:助力厂商实现
数字化转型的利器
我们认为AIGC的出世将会产生革命性的影响,并有望赋能千行百业。为此,我们梳理了三条路径图,积极地推荐以下三条投资主线:
第一条主线是具备算力基础的厂商,受益标的为寒武纪、商汤、海光信息、浪潮信息、中科曙光、景嘉微、蓝海大脑等。这些公司都具备强大的算力基础,能够为AIGC的发展提供有力的支撑。
第二条主线是具备AI算法商业落地的厂商,重点推荐科大讯飞、拓尔思等。此外,汉王科技、海天瑞声、云从科技等公司也将受益于AIGC的发展。
第三条主线是AIGC相关技术储备的应用厂商,受益标的为百度、同花顺、三六零、金山办公等。这些公司都拥有丰富的AIGC技术储备,能够在应用领域中发挥重要作用。
一、科大讯飞:自然语言处理的全球龙头厂商
科大讯飞于2022年初发布了“讯飞超脑 2030 计划”,旨在成为“全球人工智能产业领导者”。该计划是公司的核心战略,旨在构建基于认知的人机协作、自我进化的复杂系统,让机器人感官超越人类,具备自主进化的能力,打造可持续自主进化的复杂智能系统,助力机器人走进千家万户。
该计划分为三个阶段性里程碑:第一阶段(2022-2023)推出可养成的宠物玩具、仿生动物等软硬件一体机器人,同期推出专业数字虚拟人家族,担当老师、医生等角色;第二阶段(2023-2025)推出自适应行走的外骨骼机器人和陪伴数字虚拟人家族,老人通过外骨骼机器人能够实现正常行走和运动,同期推出面向青少年的抑郁症筛查平台;第三阶段(2025-2030)最终推出懂知识、会学习的陪伴机器人和自主学习虚拟人家族,全面进入家庭。
“讯飞超脑”计划和里程表
二、汉王科技:人工智能领域领先者
汉王科技是一家成立于1998年的人工智能领域领先者,专注于人脸识别、大数据、智能交互技术、产品及服务的提供。公司以核心技术为基础,面向市场需求,已形成了以识别技术为核心的、针对不同细分市场的软硬件产品系列,既有通用产品,如e典笔、汉王电纸书、汉王笔、文本王、名片通、绘图板等。公司主营业务分为四类:
笔智能交互业务、文本大数据业务、人脸及生物试别与相关AI终端。其中,笔智能交互业务是公司的核心业务之一,公司在该领域的技术主要分为电磁触控及电容触控两大类,是全球仅有的两家拥有无线无源电磁触控自主知识产权的企业之一。此项业务包括数字绘画、电容笔、无纸化签章等。
文本大数据业务则依托 AI 文本图像识别技术、NLP 技术、RPA技术平台,在各行业赛道中寻找数字化、智能化的落地场景,包括智慧司法、智慧档案、智慧人文、智慧教育、智慧金融等。
人脸及生物试别与相关AI终端则是公司的另一重要业务,涉及人脸识别、指纹识别、虹膜识别等技术,为各行业提供安全、便捷的身份认证解决方案。
汉王科技相关大数据产品及解决方案
三、拓尔思: 全文检索技术的始创者
拓尔思成立于1993年,是一家领先的大数据、人工智能和数据安全产品及服务提供商。公司主要核心业务包括软件平台产品研发、行业应用系统解决方案和大数据SaaS/DaaS云服务三大板块,涵盖大数据、人工智能、互联网内容管理、网络信息安全和互联网营销等领域方向。
公司技术实力雄厚,人工智能领域方面,公司是国内最早从事自然语言处理(NLP)研发的企业之一,在NLP、知识图谱、OCR、图像视频结构化领域都具备自主可控的底层技术。在大数据方面,数据采集、挖掘、分析等底层技术均实现技术可控。
公司行业领域覆盖广,由于公司人工智能和大数据核心技术具有跨行业/领域的通用普适性,因此公司技术产品和服务所支持的业务应用落地场景众多,涵盖多个行业/领域,大型或头部企业级客户超过8000家,广泛覆盖于金融、制造、能源、互联网、传媒、政府、公共安全等领域。
拓尔思数据应用相关产品
四、云从科技: 人机协同生态体系赋能商
云从科技是一家专注于提高人机操作系统和行业解决方案的人工智能企业。公司致力于推进人工智能产业化进程和各行业的转型升级。为此,公司通过业务、硬件设备、软件应用,为客户提供数字化、智能化的人工智能服务。同时,公司基于人机协同操作系统,赋能金融、出行、商业等场景。为了实现这一目标,公司自主研发了融合人工智能技术的人机协同操作系统和部分AIoT设备。
公司的人机操作系统是一款自主研发的人工智能应用操作系统,包含AIoT设备、人工智能算法和引擎、AI模型和训练等核心模块。该系统实现了AI能力的自动部署、监控和边端感知。通过底层AI业务流程引擎和决策支持系统,该系统优化了人机交互体验,提升了业务流程执行效率,让人机具有决策功能。该系统包含人机协同和整体操作系统、“轻舟平台”的服务平台及配套AI应用的SaaS服务。
2、人工智能解决方案
云从科技提供面向智慧金融、智慧治理、智慧出行、智慧商业四个领域的综合解决方案,基于自主研发的人机操作系统及其应用产品和AIoT硬件设备。同时,我们还提供该领域的定制化软件开发服务,以满足客户的个性化需求。我们致力于为客户提供高效、智能、安全的解决方案,帮助客户实现数字化转型和业务升级。
云从科技产品服务体系
五、海天瑞声: AI训练数据服务领军者
海天瑞声是中国领先的训练数据专业提供商,专注于为人工智能产业链上的各类机构提供算法模型开发训练所需的专业数据集。公司的训练数据涵盖智能语音、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智慧城市等多种创新应用场景。
公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、微软、亚马逊、三星等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、搜索服务、智能驾驶、机器翻译等多种人工智能产品相关算法模型的训练过程中。
公司具备多重技术领先性,包括算法与数据处理技术并用、工具和平台共建、在语音语言学基础研究方面有深厚积累等,公司可提供数据的一站式解决方案,广泛支持复杂的算法数据标注需求。
云从科技产品服务体系
AIGC未来发展方向
一、AI 发展带动基础数据市场成长,高质量标注数据决定模型训练效果
随着AI模型的发展,训练数据的需求不断增加,而数据标注和结构化处理则成为将数据转化为商业价值的关键步骤。随着AI与各个产业的结合越来越紧密,AI商业化程度进入新阶段,企业对AI在商业化落地中的表现要求越来越高。为了保证AI算法的识别精度,数据标注的质量也变得至关重要。
AIGC向图像、语音、文字等多维数据延伸,AI基础数据服务与治理赛道有望受益加速成长。数据服务利用数据采集与标注工具处理非结构化数据,数据治理则使用数据治理的各模块管理多源异构数据,提高数据质量并形成数据资产。高质量的数据可供各行业AI厂商训练模型,并支撑各场景商业化产品的落地。
目前,数据标注仍以人工为主,但行业正向智能化和去人工化方向发展,标注数据生产效率与AI模型进步协同共振。不同于计算机视觉领域AI模型训练所用的图像数据,NLP模型训练的数据往往来自于半结构化或非结构化的信息,目前无法实现AI算法模型的自动化标注。目前主流的实现路径是人工标注与智能标注协同方案,即人工完成一小部分的数据标注,再借助算法模型对剩余数据进行标注,通过人工对部分难例数据样本的二次标注后,最终形成高质量的标注数据。
AI 训练数据智能标注服务实现路径
二、场景模型持续简化以提升训练速度,控制成本满足商业化应用需求
大型模型的微调和维护成本过高,这是目前大型模型厂商在面对用户需求时所面临的问题。如果仅提供推理服务,成本可以大幅降低,但是模型精度会受到较大的牺牲,从而降低大型模型的竞争力。此外,AI项目通常需要将模型部署到终端,对算力的要求非常高,因此国内外大厂及研究院所均致力于对预训练模型进行“瘦身”。
模型蒸馏和迁移学习成为AI领域的研究新方向,可以大幅优化终端模型计算的时效性并节约算力成本。知识蒸馏是一种新的概念,类似于学校中的教学行为,可以有效地压缩预训练模型的大小。知识蒸馏包含已训练的Teacher Model和待训练的Student Model,通过知识蒸馏和迁移学习,学生网络可以拥有与教师网络相似和相近的计算性能。知识蒸馏可以在基于高度复杂的大型模型训练基础上,提升细分任务小模型的计算精度,同时也可以有效降低模型延迟,并且压缩网络参数。
基于知识蒸馏思想改进BERT预训练模型,实现模型的简化和速度的提升。Distilled BERT模型直接将BERT的部分参数作为初始化,模型参数只有BERT的约40%,但速度快提升60%,同时保留了97%的语言理解能力。我们认为,在人工智能通往商业化应用的道路上,早期专注于增加数据量、计算能力或者训练过程的优化方式可能不再适用,未来各大厂商需要计算与预测性能之间做出权衡,探索如何利用更少的数据与计算资源,帮助模型实现性能提升。
三、AI 应用落地拉动算力需求,AI 基础设施市场规模有望加速成长
高算力支持是训练AI大规模商业化的基础,AI基础设施市场有望迎来爆发。微软入资OpenAI后双方达成多年的合作协议,OpenAI接入微软的Azure云平台开发AI技术。高算力的底层基础设施是完成对海量数据处理、训练的基础。我们认为AI技术发展逐渐成熟,数字化基础设施不断建设完善,将拉升AI芯片、AI服务器的市场需求。AI商业化应用的加速落地,将推动我国AI基础设施市场规模的加速成长。
我国 AI 芯片市场规模趋势
根据《2022-2023中国人工智能计算力发展评估报告》,全球AI服务器市场规模预计将在2026年达到347.1亿美元,五年复合增长率为17.3%。这一市场规模的加速成长,将有望为国内细分赛道的龙头厂商带来更多的机遇和收益。中商产业研究院的数据预计,到2023年,我国的AI芯片市场规模将达到1206亿元,云计算市场规模将达到6975亿元,同比分别增长41.9%和47.0%。AI基础设施市场规模也将快速成长。
我国云计算市场规模趋势
总结
随着人工智能技术的不断发展,智能化时代已经到来。在这个时代,人工智能技术已经成为了各行各业的重要工具,为企业和个人带来了许多新的机遇。其中,AIGC(Artificial Intelligence and Global Citizenship)作为一种新型的人工智能技术,更是为智能化时代的发展带来了新的机遇。
AIGC是一种基于人工智能技术的全球公民意识,它通过智能化的方式来推动全球公民意识的发展。在AIGC的帮助下,人们可以更好地理解全球公民意识的重要性,并且更好地参与到全球公民意识的建设中来。同时,AIGC也可以通过智能化的方式来帮助企业和个人更好地适应智能化时代的发展。
在智能化时代,AIGC为企业和个人带来了许多新的机遇。首先,AIGC可以帮助企业更好地适应智能化时代的发展。通过AIGC的帮助,企业可以更好地了解全球公民意识的重要性,并且更好地参与到全球公民意识的建设中来。这样,企业就可以更好地适应智能化时代的发展,并且更好地满足消费者的需求。
其次,AIGC也为个人带来了许多新的机遇。在智能化时代,个人需要具备更多的技能和知识,才能更好地适应智能化时代的发展。通过AIGC的帮助,个人可以更好地了解全球公民意识的重要性,并且更好地参与到全球公民意识的建设中来。这样,个人就可以更好地适应智能化时代的发展,并且更好地实现自己的梦想。
除此之外,AIGC还可以为智能化时代的发展带来许多新的机遇。首先,AIGC可以帮助人们更好地了解全球公民意识的重要性,并且更好地参与到全球公民意识的建设中来。这样,人们就可以更好地理解全球公民意识的重要性,并且更好地推动全球公民意识的发展。其次,AIGC还可以通过智能化的方式来帮助人们更好地适应智能化时代的发展。这样,人们就可以更好地适应智能化时代的发展,并且更好地实现自己的梦想。
总之,AIGC与人工智能技术一起,为智能化时代的发展带来了许多新的机遇。通过AIGC的帮助,企业和个人可以更好地适应智能化时代的发展,并且更好地实现自己的梦想。同时,AIGC也可以通过智能化的方式来推动全球公民意识的发展,为全球公民意识的建设带来新的机遇。因此,我们应该更加重视AIGC与人工智能技术的发展,为智能化时代的发展做出更大的贡献。
审核编辑黄宇
-
人工智能
+关注
关注
1791文章
46734浏览量
237270 -
深度学习
+关注
关注
73文章
5485浏览量
120926 -
ChatGPT
+关注
关注
29文章
1547浏览量
7406 -
AIGC
+关注
关注
1文章
353浏览量
1493
发布评论请先 登录
相关推荐
评论