AIGC(人工智能内容自动生成技术)代表着AI技术从感知、理解世界到生成、创造世界的跃迁,正推动人工智能迎来下一个时代。经过了2022年的预热,2023年AIGC领域将迎来更大发展。AIGC生成内容的类型不断丰富、质量不断提升,也将有更多的企业积极拥抱AIGC。在这个背景下,腾讯研究院正式发布《AIGC发展趋势报告2023:迎接人工智能的下一个时代》。报告从技术发展和产业生态、应用趋势、治理挑战等维度,对AIGC的发展趋势进行了深入思考。报告指出,AIGC将作为生产力工具,不断推动聊天机器人、数字人、元宇宙等领域发展。AIGC技术让聊天机器人接近人类水平日益成为现实,AIGC也在大大提升数字人的制作效能,并且使其更神似人。在元宇宙领域,AIGC在构建沉浸式空间环境、提供个性化内容体验、打造智能用户交互等方面发挥重要作用。
AIGC发展趋势报告(2023)简介
2022年是 AIGC(AI-Generated Content,人工智能生成内容)爆火出圈的一年,不仅被消费者追捧,而且备受投资界关注,更是被技术和产业界竞相追逐。
2022年9月23日,红杉中国发表文章《生成式AI:一个创造性的新世界》,认为AIGC会代表新一轮范式转移的开始。2022年10月,Stability AI 获得约1个亿美元融资,估值高达10亿美元,跻身独角兽行列。Stability AI发布的开源模式 Stability Diffusion ,可以根据用户输入的文字描述(称为提示词,prompts)自动生成图像,即文生图(Text-to-Image,T2I)。Stability Diffusion、DALL-E 2、Midjourney 等可以生成图片的 AIGC 模型引爆了 AI 作画领域,AI 作画风行一时,标志人工智能向艺术领域渗透。
2022年12月,Open AI 的大型语言生成模型 ChatGPT 刷爆网络,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度,让网友不禁怀疑 ChatGPT 是否已经具备人类智能。全球各大科技企业都在积极拥抱 AIGC,不断推出相关技术、平台和应用。
01 AIGC技术和产业生态迎来发展快车道
1、生成算法、预训练模式、多模态等AI技术累计融合,催生了AIGC的大爆发
一是基础的生成算法模型不断突破创新;二是预训练模型引发了AIGC技术能力的质变;三是多模态技术推动了AIGC的内容多边形,让AIGC具有了更通用的能力。
总的来看,AIGC在2022年的爆发,主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了AIGC技术变革,拥有通用性、基础性、多模态、参数多、预练数据量大、生成内容高质稳定等特征的AIGC模型成为了自动化内容生产的“工厂”和“流水线”。
2、AIGC产业生态加速形成和发展,走向模型及服务(MaaS)的未来
目前,AIGC产业生态体系的雏形已现,呈现为上中下三层架构:
第一层为上游基础层,也就是由预训练模型为基础搭建的AIGC技术基础设施层。由于预训练模型的高成本和技术投入,因此具有较高的进入门槛。
第二层为中间层,即垂直化、场景化、个性化的模型和应用工具。预训练的大模型是基础设施,在此基础上可以快速抽取生成场景化、定制化、个性化的小模型,实现在不同行业、垂直领域、功能场景的工业流水线式部署,同时兼具按需使用、高效经济的优势。
第三层为应用层,即面向C端用户的文字、图片、音视频等内容生成服务。在应用侧,侧重满足用户的需求,将AIGC模型和用户的需求无缝衔接起来实现产业落地。
随着数字技术与实体经济融合程度不断加深,以及互联网平台的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。AIGC作为当前新型的内容生产方式,已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展,市场潜力逐渐显现。与此同时,在推进数实融合、加快产业升级的进程中,金融、医疗、工业等各行各业的AIGC应用也都在快速发展。
02 消费端:AIGC牵引数字内容领域全新变革
1、AIGC有望塑造数字内容生产与交互新范式,成为互联网的内容生产基础设施
数字内容迈入强需求、视频化、拼创意的螺旋式升级周期,AIGC在这阶段的发展迎合了这一需要。AIGC正在成为越来越多地参与数字内容的创意性生成工作,以人机协同的方式释放价值,成为未来互联网的内容生产基础设施。
2、AIGC的应用生态和内容消费市场逐渐繁荣
而今在内容消费领域,AIGC已经重构了整个应用生态。作为当前新型的内容生产方式,AIGC已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展,市场潜力逐渐显现。2022年,AIGC发展速度惊人,迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局,也有Stability AI、Jasper AI等独角兽创业公司问世。根据6pen预测,未来五年10%-30%的图片内容由AI参与生成,有望创造超过600亿以上市场空间,若考虑到下一代互联网对内容需求的迅速提升,国外商业咨询机构Acumen Research and Consulting预测,2030年AIGC市场规模将达到1100亿美元。
3、AIGC将日益成为未来3D互联网的基础支撑
互联网向下一代技术升级和演进的重要方向是从“在线”走向“在场”,迈向3D互联网时代,AIGC将成为打造虚实集成世界的基石。AIGC为3D互联网带来的价值,既包括3D模型、场景、角色制作能效的提升,也能像AI作画那样,为创作者激发新的灵感。
4、聊天机器人和数字人成为新的、更包容性的用户交互界面,不断拓展应用领域
(1)聊天机器人:2022年12月1日,美国人工智能研究公司Open AI研发的聊天机器人产品ChatGPT正式对外开放,一经推出便火遍全网,截止12月12日已拥有超过100万名用户,而ChatGPT正是典型的文本生成式AIGC。
(2)数字人:首先AIGC大大提升了数字人的制作效能。用户可以上传图片/视频,通过AIGC生成写实类型的数字人,具有生成过程较短、成本低、可定制等特点。其次,AIGC支撑了AI驱动数字人多模态交互中的识别感知和分析决策功能,使其更神似人。
5、AIGC将作为生产力工具来推动元宇宙发展
近期,Linkedln做了一个调查,向Linkedln用户征集他们最希望了解哪个元宇宙相关的技术主题,76%的受访者选择了AIGC。只有通过AIGC,元宇宙才可能以低成本、高效率的方式满足海量用户的不同内容需求。首先,AIGC为构建沉浸式的元宇宙空间环境提供了核心基础设施技术,将成为元宇宙的生产力工具。其次,AIGC将作为生产力工具为元宇宙用户提供个性化内容体验。同时,AIGC将赋予用户更多的创作权力和自由,促进创新并提升元宇宙的用户体验。最后,AIGC也将作为用户交互界面的一部分在元宇宙中发挥作用。
03 产业端:合成数据牵引人工智能的未来
1、合成数据为AI模型训练开发提供强大助推器,推动实现AI2.0
人工智能的发展应用离不开数据,但真实世界数据面临着难以获取、质量差、标准不统一等诸多问题。为此,计算机模型技术或算法生成的合成数据,作为真实数据的廉价替代品,日益被用于创造精准的AI模型。
2、合成数据助力破解AI“深水区”的数据难题,持续拓展产业互联网应用空间
合成数据背后的生成式AI被Gartner评为2022年银行和投资服务领域越来越受欢迎的三项技术之一。原因是能够通过合成数据以成本更低、易规模化、隐私保护合规的方式提供接近真实世界的数据。
3、合成数据产业加快成为数据要素市场新赛道,科技大厂和创新企业抢先布局
合成数据对人工智能未来发展的巨大价值使其加速成为AI领域的一个新产业赛道。一方面,国外的主流科技公司纷纷瞄准合成数据领域加大投入与布局。
另一方面,合成数据作为AI领域的新型产业,相关创新创业方兴未艾,合成数据创业公司不断涌现,合成数据领域的投资并购持续升温,开始涌现了合成数据即服务(synthetic data as serve,SDaaS )这一发展前景十分广阔的全新商业模式。
4、合成数据加速构建AI赋能、数实融合的大型虚拟世界
展望未来,可以从三个方面来理解大型虚拟世界为什么成为AI数实融合的关键场景。
第一,大型虚拟世界可以提供人工智能开发所需的数据和场景,为AI应用开发提供“加速度”。第二,大型虚拟世界为各行各业训练开发AI提供了试验田。第三,在大型虚拟世界中通过AI连通虚拟与现实,实现AI数实融合。
ChatGPT商业化意义
(报告出品方:中信证券)
1. ChatGPT通过大模型突破AI瓶颈,GPT-4多模态应用带动商业化加速
概述:ChatGPT为NLP下的AI大模型,性能和使用体验超预期
ChatGPT是自然语言处理(NLP)下的AI大模型,通过大算力、大规模训练数据突破AI瓶颈。2022年11月,OpenAI推 出ChatGPT,ChatGPT基于GPT-3.5,使用人类反馈强化学习技术,将人类偏好作为奖励信号并微调模型,实现有逻辑 的对话能力。
ChatGPT本质上是通过超大的统计语言模型,对词语序列的概率分布进行建模,利用上下文信息预测后续词语出现的概 率分布,其表现的超预期反映了在算力水平提升的情况下大语言模型技术路线的成功,通过对大规模的未标注的文本数据 进行训练,突破了AI发展的技术瓶颈。根据《瞭望》新闻周刊报道,OpenAI为了让ChatGPT的语言合成结果更自然流 畅,使用了45TB的数据、近1万亿个单词来训练模型,训练一次的成本高达千万美元,一个月的运营成本需要数百万美元。
概述:OpenAI倾力打造ChatGPT,获得微软有力加持
ChatGPT出自美国AI创业公司OpenAI,是AI大模型领域的领军者。OpenAI在2015年由Sam Altman、Peter Thiel、Reid Hoffman、Elon Musk等人创办。公司成立之初,即确定了包括制造“通用”机器人和使用自然语言的聊天机器人的发展 目标。2019年,OpenAI获得来自微软的10亿美元投资,为Azure云端平台服务开发AI技术。2018年起,OpenAI开始发布 GPT(Generative Pre-trained Transformer)模型,2020年发布GPT-3,可以完成答题、写论文、代码生成等任务,被视 为人工智能竞赛的里程碑事件,并直至ChatGPT的推出引起AI的热潮。
除了NLP领域,OpenAI还在多模态领域取得成就,包括发布了AI图像生成器DALL-E2,对音频转录编辑器Descript、AI笔 记应用Mem等进行投资。
演变:GPT-1—无监督预训练+有监督微调
GPT-1发布于2018年6月,参数量达1.17亿,预训练数据量约5GB。GPT-1包含预训练和微调两个阶段,考虑到自然语言 处理任务中有标签的语料少,GPT-1先在大量的无标签数据上训练语言模型,然后在下游具体任务(如分类、常识推理、 自然语言推理等)的有标签数据集上进行微调。1)在无监督训练中,GPT-1采用Transformer的架构,即标准的语言模型 的目标函数,通过前面的词预测后面的词;2)在有监督训练中,采用标准的分类目标函数,仅需对第一阶段预训练的语 言模型做出很小的结构改变,即可应用于各种下游任务。
GPT-1使用了BooksCorpus数据集来训练语言模型,其中有7000余本未出版的书籍。具体表现上,在有监督学习的12项 任务中,GPT-1在其中9项上的表现优于专门训练的受监督模型。
演变:GPT-2—无监督预训练+多任务学习
GPT-2发布于2019年2月,参数量达15亿,预训练数据量约40GB。GPT-1使用的概率条件模型为p(output|input),GPT-2 使用相同的无监督模型学习多个任务,将概率条件模型修改为p(output|input, task) ,期望模型对不同任务的相同输入产 生不同的输出。此外,GPT-2采取Zero-shot设定,不需要下游任务的标注信息,而是根据给定的指令理解任务。因此 GPT-2的核心思想在于多任务学习。
GPT-2训练的数据集来自社交新闻平台Reddit,共有约800万篇文章,体积超40GB。具体表现上,在8个语言模型任务 中,仅通过Zero-Shot学习,GPT-2在其中7个上领先。GPT-2表明,随着模型容量和数据量增大,GPT模型的潜力仍有望 进一步显现。
展望:GPT-4—此前外界预期参数量变化不大、使用门槛有望降低
GPT-4备受业界期待,训练成本控制有望带动商业潜力的极大增强。ChatGPT的突出表现使得外界对GPT-4十分期待, 自2021年以来便有报道称GPT-4“即将推出” ,OpenAI公司CEO Sam Altman今年受StrictlyVC采访时表示GPT-4将在 “有信心可以安全且负责任地运行时”推出。外界此前也曾预期,GPT-4的推出或分阶段进行,例如GPT-3也是先开放给 合作伙伴、付费用户和学术机构,才在2022年底开放给公众。
在参数量上,针对有传言称GPT-4参数量将达到百万亿,OpenAI公司CEO Sam Altman予以否定。此外,AI专家Alberto Romero预测,GPT-4的重点在数据处理优化上,因此其使用门槛有望降低,我们预计训练成本的控制将带动其商业潜力 的增强。
展望:GPT-4—最新消息称推出在即、支持多模态
最新消息称GPT-4将于下周推出,支持多模态应用,开启通往人工通用智能之路。根据德国科技媒体“heise在线”报 道,当地时间3月9日,微软德国公司首席技术官Andreas Braun在名为“AI in Focus - Digital Kickoff”的活动中透露称 “将在下周推出GPT-4,它将是一个多模态模型,会提供完全不同的可能性——例如视频”。这意味着GPT-4可以管理不 同语言数据的输入和输出,也能够做到输出图像甚至视频。在活动上,微软AI技术专家对多模态AI的应用案例进行了介 绍,例如能够将电话呼叫的语音直接记录成文本,这为微软位于荷兰的一家大型客户节省500个工作小时/天。
GPT-4对多模态的支持使得外界对模型潜力的预期进一步强化,原因在于多模态感知是建立人工通用智能(AGI)的重要 一步,基于此能够执行人类水平的一般任务。
ChatGPT迅速走红,以订阅制服务B端、C端客户,成本控制下将有效加速商业化落地。ChatGPT自年初以来,持续出 圈,截至2023年1月末月活突破1亿,成为史上增长最快的消费者应用。考虑到计算资源所牵涉的庞大训练成本、运行成 本,ChatGPT的商业化路径已正在探索、明确中。
商业模式—1)C端:OpenAI发布ChatGPT Plus订阅计划,每月收费20美元,相较于免费版本,即便在高峰时段用户也 能正常访问ChatGPT,响应时间更快,可以优先使用新功能,有望引领AI技术变现新模式;2)B端:OpenAI发布 ChatGPT API,开发者可以将ChatGPT集成到产品中,价格为$0.002/1k token,相较于GPT-3.5降低90%,我们预计成 本控制后有望快速带动GPT相关应用爆发。根据微信公众号“智东西” ,生鲜电商Instacart、跨境电商Shopify、照片分 享应用Snap、单词背诵应用Quizlet等已率先接入ChatGPT API。
2.Transformer架构支撑GPT走向多模态,构筑AIGC领域核心基石
GPT采用的Transformer架构在NLP领域已跻身主流
GPT沿用主流Transformer模型,该模型采用自注意力机制,在NLP上表现优于RNN(循环神经网络)。2017年,谷歌 在《Attention is All You Need》中提出Transformer模型,可用于文本摘要、机器翻译等NLP任务。在NLP方面, Transformer模型的自注意力(self-attention)机制可以为输入序列中的任意位置提供上下文,进而模型能够一次性处理 所有输入数据,而非RNN一次只处理一个单词的情况,由此模型可以减少训练时间,能够在更大的数据集上进行训练。目前,基于Transformer的预训练语言模型已成为NLP领域的主流。
Transformer也可用于CV领域,相较于CNN实现性能巨大提升
Transformer也可用于CV(计算机视觉)领域,表现出巨大的性能提升。CV领域此前更多由CNN(卷积神经网络)主 导,而Transformer凭借着自注意力机制,表现出了巨大的性能提升。根据微软亚洲研究院,Transformer在图像分类、物 体检测等任务中刷新了测评记录,例如2020年Transformer被首次应用于图像分类任务,结合海量的预训练数据,ViT在 ImageNet-1K的validation评测集上取得88.55%的准确率。Transformer也在视频动作识别、视觉自监督学习、图像复原、 图像分割等视觉任务中取得优异成绩。谷歌提出的ViT-MoE模型目前在参数量上领先,达到了150亿。
Transformer支撑下GPT有望走向多模态,构筑AIGC领域核心基石
GPT有望基于Transformer延伸至多模态,构筑AIGC核心基石,GPT-4或实现领跑。当前,基于Transformer的多模态学 习成为AI领域的研究热点,研究者们提出了大量的Transformer变体。鉴于Transformer具有较少的特定于模态的架构假 设,以及生成式预训练、大模型&大数据路线的成功,Transformer能够联动CV与NLP,通过联合建模完成,打破CV与 NLP领域之间的壁垒。微软亚洲研究院2022年推出BEiT-3预训练模型,在目标检测、实例分割、语义分割、视觉推理、 图片描述生成等任务上取得了SOTA的迁移性能。我们认为,基于Transformer架构,GPT未来有望延伸至多模态,助力 内容创作由UGC、PGC全面走向AIGC,赋能通用领域以及金融、教育、医疗、传媒等垂直行业。
3.通用与垂直场景多点开花,GPT变革内容生成与交互方式
通用场景:搜索引擎—GPT+文本&图像&视频重塑搜索结果呈现方式
搜索引擎接入GPT后结果呈现方式大为变化,或影响行业盈利模式与竞争格局。用户使用传统的搜索引擎时,需要手动 翻阅搜索结果,判断是否为所需要的信息;而当搜索引擎接入GPT后,用户可直接获得答案集合。尽管受制于训练语料、 成本等因素,答案准确性有待商榷,但在结果呈现方式上实现了变革,未来或与传统的搜索引擎相结合。如进一步实现多 模态,搜索结果将更加丰富。微软在Bing中上线ChatGPT能力并开启测试,以聊天方式展示搜索结果,并可在对话中推 荐广告。微软必应官方博客宣布,目前Bing日活突破1亿,集成搜索+聊天功能的Bing预览版自推出以来总聊天次数已超 过4500万次。鉴于微软可能掀起搜索行业的第二次变革并颠覆此前的盈利模式,谷歌在2月初展示由大型语言模型LaMDA 驱动的类ChatGPT应用——Bard,并计划大范围推广。
通用场景:办公软件—GPT+文本&图像打造效率型生产力工具
GPT有望融入办公流程,率先推动办公软件转型为智能办公平台。微软将于3月16日召开名为“Future of Work with AI” 的发布会,预计将展示ChatGPT类技术在Teams、Word、Outlook等生产力套件中的应用。我们认为,在GPT的赋能之 下,办公软件作为效率型生产力工具的属性将更加突出,功能上将更加智能化,用户有望享受到智能办公平台所带来的便 利性与效率大幅提升。例如,在Word中,GPT将能够帮助用户生成文本,或将文档集汇总为关键点,使得用户快速理解 和分析信息;在Outlook中,GPT可以处理收件箱文本,帮助用户更快捷地撰写或回复电子邮件;在Excel中,能够根据提 示提取数据,如要求“按照利润列出世界前五大公司”后,生成Excel公式或制作可视化图表。
垂直场景:教育—GPT+文本&对话&翻译催化启发式、个性化教学
GPT有望催化“启发式”教学模式,加快教育领域的个性化、多样化变革探索。ChatGPT可以理解为一名“全能教 师” ,即便是小众、冷门的领域,也能够给出相对有逻辑的回答。我们认为,GPT技术将催化“启发式”教学模式,引导 学生更加积极主动地进行思考、发问,并与“全能教师”进行对话探讨,这有别于传统的应试教学模式。
垂直场景:金融—GPT+文本&对话赋能客户服务、投研支持
GPT有望对金融行业的经营、管理、产品营销及客户服务等方面产生巨大影响。近年来,金融机构在合规趋严、人力成 本上升等因素的影响下,对于数字化建设的意愿强烈。考虑到ChatGPT在内容生成等方面的突出表现,我们认为,GPT 有望率先落地对外的客户服务与对内的投研支持。以银行业为例,电子客服仍处于AB判断阶段,引入GPT将更好地服务 于客户需求;在证券、基金业,个人投资者存在的大量疑惑将可通过GPT解决,机构投资者在投研中也将获得来自GPT 的协作。GPT有望重构金融行业客户服务端,也有望进一步增强机构内部的投研能力,助力经营效率提升与成本优化。
垂直场景:医疗—医疗信息化厂商卡位核心系统,助力构建GPT能力
医疗信息化公司作为医疗机构信息化底座提供者,有望助力构建GPT能力。根据复旦大学附属华山医院信息中心主任黄 虹在接受第一财经采访时透露的情况,医院内部落地GPT的场景包括:就医导诊,以提升医疗效率;构建内部知识库,以 提升临床研究效率;汇集历史病历,辅助医生提升电子病历书写效率。考虑到医院本身在信息化能力上的相对薄弱,我们 认为以创业慧康、卫宁健康、医渡等为代表的医疗信息化公司作为医院内部系统的供应商,有望帮助医院构建GPT能力。
互联网医疗平台卡位线上问诊,GPT有望助力问诊效率大幅提升。2020年疫情爆发以来,互联网医院凭借着突破时空限 制、免接触等优势,迎来快速发展。平安好医生、阿里健康、京东健康等平台搭建了轻问诊模式,主要通过自有医生、外 部签约医生提供问诊服务。我们认为,GPT可以用于在线问诊支持,为用户提供基本的、常规化的问诊服务。这将助力互 联网医疗平台实现问诊效率的大幅提升,问诊服务的供给能力将不再受制于链接的医生数量。
垂直场景:图像视频—GPT+图像&视频强化内容智能化生产与处理
GPT有望改变图像视频领域内容生产模式,多模态提高信息输出丰富度。图像视频行业新老业态交织,构成相对多元, 以生产和传播文字、图像、艺术、影像、声音等形式存在,包括报纸、图书、广播、电影、电视、动漫等诸多细分领域。从产业链条来看,图像视频行业主要涉及信息采集、制作、分发、传播等,我们认为GPT将主要影响产业链前端的采集、 制作。结合中国信通院《AIGC白皮书》,我们预计在GPT赋能之下,特别是对多模态的延伸,图像视频行业有望进一步 提高写稿机器人、采访助手、视频智能剪辑、合成主播等新兴应用的供给能力,既改变内容生产模式,也满足信息接收者 对丰富内容的需求。
ChatGPT在传媒行业的应用场景示例
(报告出品方/作者:浙商证券,姚天航)
ChatGPT火爆的背后 算法革新+算力支持+数据共振
ChatGPT火爆全球,成为现象级互联网产品
ChatGPT是一个由OpenAI开发的大型语言模型,它使用自然语言处理和深度学习技术,可以理解语言内容和语境,能够承认错 误、挑战不正确的前提、拒绝不适当的请求,通过生成自然语言文本的形式与用户交互,从而能够应用于各种语言任务和应用。
从AlphaGo到ChatGPT,AI技术发展叩响AGI之门
AlphaGo唤起AGI畅想。AlphaGo的成功使市场对AI 技术产生空前期待,预想AI将由专用人工智能(ANI)走 向通用人工智能(AGI),实现人类同等能力的任务执行。AGI遇技术难关,发展相对停滞。随后几年间面向AGI 的应用和底层技术的发展不尽如人意,遇数据、能耗、 语义理解、可解释性等瓶颈,技术未出现明显突破。
ChatGPT文本交互能力更上一个台阶。ChatGPT在文字 创作与语言交互等方面的能力令人惊喜,一定程度上实 现了人类同等能力,提升读写效率,逐渐向AIGC靠近。或为AGI实现带来曙光。虽然在大量用户体验下 ChatGPT仍暴露出部分反馈偏差问题,但验证了基于大 型语言模型(LLM)实现AGI具有可能性,重塑AI发展前景。
OpenAI商业化探索,B端流量收费与C端订阅收费并行
B端:提供API接口实施流量收费。OpenAI向用户提供语言、图像、音频等不同类型模型的API 接口,通过用户使用模型的流量收费。其中ChatGPT对应API 由其背后的AI模型gpt-3.5-turbo提供支持。此外,OpenAI还向用户提供嵌入模型和微调模型,支持用户 根据自定义需求进行模型定制。
C端:提供产品订阅服务收取费用。OpenAI于2023年2月新推出ChatGPT Plus版本,对该版本的 使用者收取20美元/月的订阅费用。ChatGPT Plus版本较免费 公开使用的ChatGPT模型具有更快的响应速度,在应用高峰期 能更顺畅的使用模型,且订阅者能够优先使用新功能,以向 ChatGPT模型的深度用户提供更快捷的服务。
数字内容生产新方式 AIGC
AIGC:产业链逐步形成,玩家百花齐放,商业模式持续探索
以ChatGPT为代表的AIGC行业,上游主要包括数据供给方、算法/模型机构、创作者生态以及底层配合工具等, 中游主要包括文字、图像、音频、视频等数字内容的处理加工方,下游主要是各类数字内容分发平台、消费方及相关服务机构等。
文本生成:NLP重要任务标之一,神经网络生成法为主流趋势
文本生成(Text Generation)是自然语言处理(NLP)的重要任务之一,从非语言的表示生成人类可以理解的文本,文本→文本、 数据→文本都是文本生成任务关注的。
文本生成:Transformer架构实现并行处理,提升模型训练效率
RNN架构局限在于无法并行运算。RNN计算是有时序依赖的,需要用到前一个时间步或者后一个时间步的信息,这导致它难 以并行计算,只能串行计算。GPU的并行化能够大大加速计算过程,如果模型不能够并行计算,会导致运算速度很低。
Transformer架构引入Self-attention自注意力机制可取代RNN。2017年,Google发布《Attention is All You Need》Transformer模型通过采用Self-Attention 自注意力机制,完全抛弃了传统RNN在水平方向的传播,只在垂直方向上传播,只需要不断 叠加Self-Attention层即可。这样,每一层的计算都可以并行进行,可以使用GPU进行加速。
音频生成:TTS应用发展成熟,AI乐曲创作未来可期
音频生成主要应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,目前在众多场景已获 初步发展,在部分场景已广泛应用、趋于成熟。常见音频生成中,TTS文字转语音是最普遍使用的落地应用,而创意性音频 生成有助于激发创作者灵感,促进乐曲二创、辅助编曲。
图像生成:从GAN到Diffusion,技术持续迭代,能力更进一竿
生成式对抗网络(GAN)的提出标志着AIGC图像生成可实现,进入快速发展阶段。GAN由生成器和判别器两部分组成,生成器 将抓取数据、产生新的生成数据,并将其混入原始数据中送交判别器区分。这一过程将反复进行,直到判别器无法以超50%的 准确度分辨出真实样本。
扩散模型(Diffusion Model)成为图像生成领域的重要发现,有望超越GAN,成为新一代图像生成主流模型。Diffusion Model在 2015年被提出,于2020年在Denoising Diffusion Probabilistic Models研究中名声大噪,目前Google的Imagine与OpenAI的 DALL·E 2等热门图像生成软件都基于此模型。
Diffusion Model简化模型训练过程中数据处理的难度,解决了GAN稳定性问题,提高生成图片的质量。Diffusion模型的工作 原理是通过逐渐添加高斯噪声来破坏训练数据。通过一张神经网络“生成器”来进行逆转破坏过程(去噪),从纯噪声中合成数据, 直到产生干净的样本。GAN模型在训练过程中需要两张神经网络“生成器”与“判别器”,稳定性很难平衡,而Diffusion Model只有 一张神经网络,解决了稳定性问题,同时简化了数据处理过程,且更加灵活。
图像生成:图像属性编辑普遍应用,创意图像生成应用落地较少
图像生成可简要划分为图像属性编辑、图像局部生成及更改、以及端到端的图像生成。其中,前两者的落地场景为图像编辑工 具,而端到端的图像生成则对应创意图像及功能性图像生成两大落地场景。图像属性编辑大量应用落地,图像局部生成及更高 目前有部分应用落地,端到端图像生成底层原理明确,未来有望规模化应用。
由于图像的生成复杂度远高于文字,在整体生成上,目前仍然难以达到稳定可靠的生成高质量图像。但随着GAN、Diffusion Model等模型的不断迭代,图像生成发展将非常快速。
视频生成:分帧生成图像连接成视频,视频属性编辑已普遍应用
视频生成强调将视频切割成帧,再对每一帧的图像进行处理,与图像生成原理类似。视频生成难度远高于图像生成,生成视频 的质量与流畅度取决于很多因素,包括数据集规模、训练模型复杂度、特征提取准确性以及合成视频算法有效性;由于模型训 练量要求过大,目前模型只能实现几秒钟的短视频生成,未来有望随着模型的迭代实现中视频和长视频的生成。视频生成应用场景主要包括视频属性编辑、视频自动剪辑、视频部分编辑,前者已大量应用,后两者还处于技术尝试阶段。
跨模态生成:目前未大规模落地,文字生成图像取得突破
跨模态生成是指将一种模态转换成另一种模态,同时保持模态间语义一致性。主要集中在文字生成图片、文字生成视频及图片 /视频生成文字。文字生成图片:2022年被称为“AI绘画“之年,多款模型软件证明基于文字提示得到效果良好的图画的可行性,Diffusion Model受到广泛关注。文字生成视频:普遍以Token为中介,关联文本和图像生成,逐帧生成所需图片,最后逐帧生成完整视频。但由于视频生成会面临不同帧之间连 续性的问题,对生成图像间的长序列建模问题要求更高,以确保视频整体连贯流程。按技术生成难度和生成内容,可区分为拼凑式生成和完全从 头生成。图片/视频生成文字:具体应用包括视觉问答系统、配字幕、标题生成等,这一技术还将有助于文本—图像之间的跨模态搜索。代表模型包括 METER、ALIGN等。
策略生成:主要应用展望在游戏行业,其余场景发展较缓
策略生成是指生成一个可以在给定环境下执行任务的算法。普遍采用深度强化学习技术(早期曾采用决策树及监督学习),其本 质原理是让AI感知环境、自身状态并基于特定目标决定当下需要执行的动作,然后基于下一个状态给到系统的反馈进行奖励或 惩罚,最终使系统在不断的“强化”过程中优化“策略”。策略生成可应用于游戏智能(Game AI)、虚拟人交互、机器人控制、智慧交通等领域。游戏智能是决策生成目前应用最为广泛和明确的场景。由于游戏本身存在于计算机虚拟环境,并产生大量数据,因此游戏本身 为AI提供了极佳的研发场景;而在其他业务场景中,还需先搭建能够充分还原现实因素的虚拟环境,并合理设置Reward等关 键因素,目前距离现实应用较远。国内多家AI企业已在尝试这一方向,但如何精准完成环境学习仍然具有关键意义。
新时代生产力工具, AIGC赋能内容生产
AIGC+游戏:高效辅助游戏测试,保证质量并降低成本
游戏测试通常是游戏开发周期中的一大关键 环节,其目的是保证游戏质量,减少发布后 的风险,并为玩家提供更好的游戏体验。在 游戏测试中,测试人员将会对不同的测试目 标使用不同的测试技术,就游戏玩法、游戏 流程内容、游戏系统、机型适配等进行测试, 记录游戏中发现的问题,并通过管理工具报 告Bug,向开发人员反馈问题。
伴随游戏生产量的增长以及游戏复杂度的提 高,游戏测试的需求爆发,而AI可以在游戏 测试中执行一些自动化任务,如执行基本的 功能测试、性能测试、兼容性测试等,以实 现更高效地测试。但AI目前还无法像人类测 试人员那样进行用户体验、情感反馈等测试。
AIGC+广告营销:加快案头工作效率,提供广告营销思路
AI技术支持能快速缩短耗时,较大提升前期准备效率。前期准备过程中时间占比70%的资料收集整理等案头工作可通过ChatGPT等模型抓取大数据缩短耗时;占比20%的调研访谈、头 脑风暴产生灵感等创意工作可以通过AI运算快速实现。
AIGC+互联网:AIGC激活内容平台,互为供给加速发展
互联网内容平台将作为重要数据来源。图文 内容社区的内容库可以作为大语言模型的语 料库,提高模型自主学习和深度挖掘能力。这样,无论是知乎用户10年前的回答,还是 小红书用户的冷门笔记,抑或是豆瓣上的海 量书评、影评,都可以被AI有效地检索、利 用和生成,展现出新的价值。
AIGC将成为平台重要的内容形式。AI技术 将显著降低内容制作门槛,提高内容制作效 率,增加内容供给,如今已有不少内容创作 者利用AI辅助生成图文,视频及音频内容, 同时也有AI直接生成的内容,未来AIGC有望 成为内容平台供给的重要形式。
AIGC+娱乐:开启元宇宙之匙,基础设施拔地而起
AIGC在元宇宙内容生产方面发挥了重要作用:元宇宙旨在构建用户的第二空间,为了让用户获得沉 浸式的体验,内容生产者需要提供各种类型的虚拟内容。与第一空间不同的是,元宇宙内的内容是 原生的,能够刺激用户的全感官。在这样的背景下,仅靠PGC和UGC产生的内容数量远远不足以支 撑一个完整的第二空间。因此,AI协助内容生产成为必然趋势。大量个性化、多元化的数字内容将 显著提升用户体验。
数字人是元宇宙的关键要素:数字人是元宇宙中最早落地的应用场景之一,也是连接用户情感与VR、 AR等硬件设备的交互中介。如果AR/VR看作是元宇宙的入口,在元宇宙中占据核心位置,那么数字 人可被看作是元宇宙的关键要素。
AIGC是元宇宙中用户交互界面的重要组成部分:在元宇宙中,智能NPC可以由AIGC生成并驱动,而 ChatGPT则可以作为语言模型集成到智能体中,使它们成为元宇宙中逼真的虚拟助手或伙伴,能够执 行“智能”动作和复杂任务。
AI基础数据服务
(报告出品方:国金证券)
1. AI 基础数据服务脱胎于专业数据标注需求,2025 年国内百亿规模可期
1.1 产业图谱:AI 基础数据服务脱胎于专业数据采标分工需求
国内 AI 基础数据服务产业主要包括上游数据产生及产能资源、中游训练数据生产、下游 AI 算法研发三大产业环节。其中,部分产业环节重合度较高,AI 基础数据服务商主要脱 胎于专业数据采标分工需求。
上游主要包括数据生产者和数据生产组织者,主要提供原料数据的采集服务。
中游主要由基础数据服务商构成,通过数据处理能力和项目管理能力完成训练数据集 结构设计、数据加工和质量检测等工作,为下游客户提供训练数据产品和相关服务。AI 基础数据服务整体可分为两大类,一种是具备自有的标注基地或全职标注团队, 这类企业也参与产业上游部分直接提供产能资源,另一种是依靠众包或外包模式,专 注于数据产品的开发与项目执行。
下游包括科技公司、行业企业、AI 公司和科研单位等,主要负责算法研发。部分下 游 AI 公司拥有自主的标注工具,也可通过 AI 中台获取一些通用标注工具,少数数据 需求大的企业还孵化了自主的数据服务团队。
1.2 发展历程:站在人工标注市场出清与机器标注迭代的十字路口
理论层面:数据工程系 AI 工程基础环节,核心在于高效的数据标注。AI 工程=数据工程+ 模型工程。其中,数据工程主要包括数据采集与数据标注,约占 AI 工程时长的 80%;模 型工程主要包括模型训练与模型部署,约占 AI 工程时长的 20%。数据工程是 AI 工程的 前置且基础环节,直接影响到模型的质量与精度。数据工程的核心在于高效的数据标注, Garbage in garbage out 效应显著。
实践层面:AI 模型训练数据需求规模大,训练数据质量不佳、效率低下情况普遍。据Dimensional Research 全球调研报告,72%的受访者认为至少使用超过 10 万条训练数据 进行模型训练,才能保证模型有效性和可靠性,96%的受访者在训练模型的过程中遇到训 练数据质量不佳、数量不足、数据标注人员不足等难题。为应对训练数据所带来的多方面 挑战,AI 企业开始从第三方购买原料数据收集、训练数据生产和数据专家咨询等服务。
AI 数据工程发轫于 AI 产业落地元年,系 AI 下游应用的基础且必备环节。目前行业处于市 场格局渐趋清晰,新老技术面临迭代,下游需求加速释放的关键节点。
产业初生期(2010~2016):2010 年语音识别和计算机视觉领域产生重大突破,国 内开始萌生 AI 概念。后续数年,早期的 AI 基础数据服务门槛较低,质量参差不齐。
产生成长期(2016~2022):近五年来,供给侧高烈度的业内竞争加速市场出清,需 求侧对产业落地以及垂直场景的定制化数据采标需求逐渐凸显。最终引致行业头部企 业浮出水面,行业格局逐渐清晰。
产业成熟期(2022~至今):2022 年以来,AIGC 产品集中爆发,高 level 自动驾驶 需求加速释放。传统人工标注的效率已不能完全满足算法需求,行业护城河转向自动 化机器标注技术,预计产业将进入向技术要市场的新阶段。
1.3 市场规模:AI 快速落地叠加数据量指数级跃升,2025 年国内百亿规模可期
国内 AI 市场规模超百亿美金,约占全球市场 10%份额。目前,AI 已在金融、医疗、交通、 安防等多个垂直场景深度落地,且应用场景拓展势能强劲,商业化进程加速。从全球市场 看,据 IDC,2021 年全球 AI 产业规模达 885.7 亿美元,预计 2025 年将达到 2,218.7 亿 美元,CAGR 高达 25.8%。从国内市场看,据 IDC,2022 年我国 AI 产业规模或达 116 亿美元,预计未来数年仍保持两位数增长。以 2021 年计,国内 AI市场规模约占全球 10%, 国内市场成长潜力巨大,国内企业出海空间广阔。
全球数据量呈指数式增长,中国数据量增速跑赢全球。据 IDC,全球每年生产的数据量将 从2018年的33ZB猛增至2025年的175ZB,其中结构化数据仅占到全部数据量的20%, 其余 80%都是以文件形式存在的非结构化和半结构化数据,日志文件、机器数据等占非 结构化数据的 90%,产生了源源不断的数据清洗与标注需求。相比之下,中国的数据量 增速领跑全球,平均每年增速比全球快 3%。2018 年,中国的数据量为 7.6ZB,占全球总 量的 23.4%,预计到 2025 年将增至 48.6ZB,占全球总量的 27.8%,CAGR 高达 30.4%。
中国 AI 基础数据服务行业市场规模 2025 年有望突破百亿。一方面,随着算法模型、技 术理论和应用场景的优化和创新,AI 产业对训练数据的拓展性需求和前瞻性需求均快速 增长;另一方面,随着业内对训练数据需求类型的增加以及对服务标准要求的提高,产业 链的专业化分工将愈加清晰,专业化的训练数据服务提供商将扮演更加重要的角色。据艾瑞咨询,2019 年中国 AI 基础数据服务行业市场规模达 30.9 亿元,其中图像类、语 音类、NLP 类数据需求规模占比分别为 49.7%、39.1%和 11.2%。预计 2025 年国内 AI 基础数据服务行业市场规模将突破 100 亿元,年复合增长率高达 21.8%。
1.4 政策支持:近五年国家政策加持国内 AI 产业发展
近五年国家系列政策推动国内 AI 产业蓬勃发展。《“十四五”规划》指出要加快数字化发 展,建设数字中国,同时打造数字经济新优势,充分发挥海量数据和丰富应用场景优势, 促进数字技术与实体经济深度融合,赋能传统产业转型升,催生新产业新业态新模式,壮 大经济发展新引擎。在国家顶层设计的支持下,我国 AI 基础数据服务行业稳步发展,行 业训练资源库等细分应用领域的产业价值逐步凸显。
2. AI 大模型催生高要求新需求,专业化数据集及 AI 训练师需求利好优质专业数据提供厂商
2.1 场景特质:AI 大模型时代无监督/半监督训练成为主流,RLHF 催生新兴需求
大模型时代无监督/半监督训练成为主流。AI 模型的训练方法主要包括监督学习和无监督 学习两种典型方式,后随模型训练数据量的增加衍生出半监督学习方法。AI 训练方法的 发展历经“监督-无监督-监督-无监督/半监督”4 个阶段,在目前的大模型阶段,无监督/ 半监督训练再次成为主流。监督学习与无监督学习的主要区别在于是否使用带有人工标注 的数据集训练数据,半监督学习则是使用大量未标注数据+少量标注数据进行训练。
大模型时代“基础模型+微调”成为 AI 开发新范式,RLHF 微调技术催生更高要求的数据 标注需求。AI 大模型由海量数据通过无监督学习训练得到,本身并不能直接应用于具体 任务,必须经过微调才可投入应用。微调是指基于大规模基础模型,在现有训练得到的模 型参数之上,针对特定任务类型、应用特定场景的数据对模型进行二次训练。通俗来说, 大规模基础模型为AI提供了基础知识,而微调则是让AI获特定领域知识,并赋予其组织、 应用知识的能力。以近日备受关注的 ChatGPT 为例,在其微调技术 RLHF(强人工反馈) 系统当中:
第一步,预训练阶段。模型首先需要在标注完备的大数据集上进行预训练,得到监督 学习模型。
第二步,交互奖励阶段。模型与专业的人工智能训练师进行交互,专业标注人员会对 ChatGPT 生成的回答进行标注、评估和反馈,给出一个针对回答的分数或者标签。这些标注数据可以作为强化学习过程中的“奖励函数”来指导 ChatGPT 的参数调整, 得到奖励模型。
第三步,迭代优化阶段。基于奖励模型的奖励函数以 PPO(一种使用两个神经网络 的强化学习算法)的方式微调监督学习训练出来的生成模型,基于强化学习 loss 持 续迭代生成模型,最终帮助模型进行强化学习和不断优化。
2.2 场景需求:预训练阶段高质量专业数据集+交互奖励阶段人工智能训练师
伴随业界大模型市场竞争的白热化,RLHF 系统也将得到进一步的推广及迭代使用,从而 带来两大类新兴数据标注需求。一是预训练阶段催生 AI 厂商对于标注完善、清洗完备的 各类专业化场景数据集的需求;二是交互奖励阶段催生 AI 厂商对于具备专业的事实判断 与规范的价值判断的人工智能训练师的需求。目前,上述两类新兴需求尚未得到充分有效的市场供给,利好海天瑞声这类优质专业数据 解决方案提供商。针对 RLHF 预训练阶段需求,由于传统数据采标厂商的主流商业模式 以销售工具系统和标注服务为主,所以普遍缺少自有数据,较少经营出售精准数据集的服 务。针对 RLHF 交互奖励阶段需求,聚焦专业垂类的模型训练师则更为稀缺,市场蓝海 亟待业务开拓。
2.3 场景价值:超大规模预训练模型推动训练数据数级跃升,市场需求持续延展
超大规模预训练模型推动训练数据指数级跃升。自 OpenAI 于 2020 年推出 GPT-3 以来, 谷歌、华为、智源研究院、中科院、阿里巴巴等企业和研究机构相继推出超大规模预训练 模型,包括 Switch Transformer、DALL·EMT-NLG、盘古、悟道 2.0、紫东太初和 M6 等。目前,预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长,继续通过增大模 型和增加训练数据仍是短期内主流演进方向,RLHF 技术的推广使用或将推动训练数据市 场需求持续延展。
3. 自动驾驶领域训练数据需求方兴未艾,海天瑞声发力布局
3.1 场景特质:自动驾驶客户需求全栈式闭环数据解决方案
自动驾驶场景对于 AI 数据服务需求较为刚性。自动驾驶基础数据主要是道路交通图像、 障碍物图像、车辆行驶环境图像等,需求方以科技公司、汽车厂商和高精地图厂商为主。L3 级别以上的自动驾驶系统需对雷达、摄像头等传感器采集的点云和图像数据进行抽取、 处理和融合,构建车辆行驶环境,为预测和决策做依据。目前自动驾驶的视觉技术主要应用有监督的深度学习,是基于已知变量和因变量推导函数关系的算法模型,需要大量的标 注数据对模型进行训练和调优。近几年,汽车厂商在 ADAS 和自动驾驶方向的投入明显, 对于数据的采集和标注需求也逐年增加,汽车厂商有望成为需求主力。
自动驾驶领域对于基础数据服务商提出更高要求,业内客户需要全栈式闭环数据解决方案。数据获取和处理能力是自动驾驶企业的核心竞争要素之一,自动驾驶能力取决于高效的数 据闭环和数据的利用效率,并能利用大量有效数据训练智能驾驶算法。因此,自动驾驶客 户要求数据服务商能够提供闭环数据解决方案,以满足智能驾驶业务数据处理量大、数据 处理需求迭代频次高等特点,专业知识、服务经验及准入资质将成为衡量的重要标准。
3.2 场景需求:自动驾驶领域数据标注分为 2D 图像标注与 3D 点云标注
自动驾驶领域的数据可分为车载摄像头采集的 2D 图像数据和激光雷达采集的 3D 点云数 据。一般而言,低 level 的自动驾驶技术以 2D 图像数据为主,3D 点云标注数据是中高 level 自动驾驶技术的基础训练数据,在自动驾驶领域中发挥着愈发重要的作用。3D 点云标注 数据在自动驾驶领域的应用可以分为两个方面,一是基于场景理解和目标检测的实时环境 感和处理,二是 SLAM(即时定位与地图构建)加强定位。
2D 标注:通过精确理解来自可见光摄像头的信息,寻找能够创建用于目标物体的可 扩展边界框。
3D 点云标注:通过识别和跟踪场景中的对象,了解汽车前方和周围的场景。将点云 数据和视频流合并到要标注的场景中。
视频对象和事件跟踪 3D 点云标注:锁定随时间移动的对象,并标注时间事件。在多 帧视频和 LiDar 场景中跟踪进入和离开本体中的关注区域的对象(如其他汽车和行 人)。在整个视频中,无论对象进入和离开视线的频率如何,都会保持对其特性的一 致理解。
3.3 场景价值:自动驾驶训练数据市场方兴未艾,2025 年国内市场规模或达 25 亿元
自动驾驶约占我国 AI 基础数据服务市场规模的 35%,2025 年市场规模或达 25 亿元。自 动驾驶的视觉技术主要应用于有监督的深度学习,需要大量的标注数据对模型进行训练和 调优。目前该领域的数据采集和标注需求已成为AI基础数据服务的主要下游之一。据IDC, 2020 年我国自动驾驶领域占 AI 基础数据服务市场规模的 35%,系第一大下游场景。另 据艾瑞咨询,2025 年我国自动驾驶 AI 基础数据服务市场规模或达 24.9 亿元,预计 18~25 年 CAGR 高达 23.2%,跑赢 AI 基础数据服务整体增速 21.8%。
4. 国内市场集中度趋势性收敛,海天瑞声具备领先优势
4.1 发展趋势:品牌商价值效应凸显,国内市场集中度持续收敛
品牌数据服务商未来将替代中小型供应商成为市场主要供应力量。我国 AI 基础数据服务 行业主要市场主体包括需求方自建基础数据团队与基础数据服务商(品牌数据服务商、中 小数据服务商)。截至 2019 年,中小数据供应商是主要供应力量,占比高达 47%。其中 百度众包、海天瑞声分居 top2,占比分别为 11.0%、8.0%,2019 年行业 CR5 仅为 26.2%。结合本文 1.2 部分分析可知,近年间需求端垂直场景及专业化需求凸显,业务门槛提高;供给端竞争加剧挤压中低端业务利润空间,加速市场出清。预计当前我国 AI 基础数据服 务行业市场主要以品牌数据供应商与需求方自建团队为主,行业龙头逐渐浮出水面,中小 供应商份额显著下降。
业内品牌数据商包括海外巨头 Appen、国内领军厂商海天瑞声、慧听数据、标贝科技等:
Appen:1996 年成立于澳大利亚,面向机器学习和人工智能开发的高质量人工标注 数据集,于 2015 年 1 月于澳大利亚证券交易所上市。Appen 在采集并丰富语音、文 字、图像和视频等各种数据类型上积累多年经验,与全球技术、汽车和电子商务公司, 以及政府部门建立了合作。
海天瑞声:成立于 2005 年,是国内领先的训练数据提供商。主要从事训练数据的研 发设计、生产及销售业务。目前已成为同时具备核心技术、产品资源、优质客户为一体的本土训练数据提供企业。核心收入来源为数据资源定制服务。
慧听科技:成立于 2011 年,业务包括语音识别、语音合成、语音评测、语言文本类、 多媒体类等多领域数据制作,以及语音合成、语音识别、输入法系统的研发等。公司 提供服务涵盖语音训练数据制作、音乐数据制作标注、语音质量评测等,经营模式包 括定制开发和自有训练数据产品销售。
标贝科技:成立于 2016 年,主要提供智能语音交互相关服务,包括语音合成整体解 决方案,以及语音合成、语音识别、图像识别等数据服务,经营模式包括定制开发和 自有训练数据产品销售。
4.2 竞争格局:业内主要玩家发展各有侧重,Appen 及海天瑞声具备领先优势
据 IDC,2021 年海天瑞声在国内 AI 基础数据服务行业市占率高达 12.9%,位居第一。其 技术实力、语种/方言覆盖能力、专利及软著数量、成品训练集数量均位居行业前列。相 比之下,Appen 在覆盖区域、语种/方言覆盖能力等方面更具优势。慧听科技与标贝科技 则在音乐领域具备差异化业务覆盖能力。
在语音类数据产品中,海天瑞声在结构方面的差异主要体现在覆盖的噪声类型、录音通道 数量、录音文本内容类型等方面。相比之下,海天瑞声的训练数据产品结构整体而言可覆 盖更丰富的录音文本内容类型、噪音环境类型、录音通道数量,Appen 则在稀有语言覆 盖数量上更胜一筹。
在自然语言训练数据产品中,不同自然语言训练数据产品的结构差异主要体现在文本来源、 内容、标注属性等方面。Appen 具备更为丰富的产品数量与更为全面的语言覆盖能力, 海天瑞声在上述指标上紧随其后。
在计算机视觉训练数据产品中,海天瑞声在结构方面的差异主要体现在人像识别检测相关 数据产品领域。主要玩家均可覆盖不同类型的人脸、姿势、场景等,因计算机视觉数据产 品个性化特征较强,各类训练数据产品在具体的人脸类型、姿势范围、场景等方面具备一 定差异。与 Appen 相比,海天瑞声的 OCR 训练数据产品可覆盖更多语种的光学字符识 别需要,具备广泛性、强适用性特征。
4.3 他山之石:Appen 发展复盘,全球 AI 基础数据服务巨头的崛起之路
Appen 系 AI 基础数据服务行业全球巨头,经历爆发式成长后收入利润短期双双回落。Appen 成立于 1996 年,面向机器学习和人工智能开发的高质量人工标注数据集,于 2015 年于澳大利亚证券交易所上市。2015~2019 年,公司经历了爆发式成长期,营收增速一 度冲高至 100%以上,同期净利率接近 10%。2020~2022 年,受到全球疫情及公司内生 发展阶段调整影响,2022 年公司营收规模相较 2021 年回落 13.1%,净利率由 9.1%回落 至 5.9%。
Appen 业务类型齐全,客户质量较高。Appen 主要业务类型包括数据采集、数据预处理 与模型评价三大类。其中,数据采集环节基于公司预先标记完备的海量数据集为下游客户 提供大量其所需的高质量数据,数据集语种覆盖范围领先优势较大。数据预处理环节,公 司具备全类型数据标注能力。模型评价环节,公司通过用户测试及针对客户竞争对手的性 能基准测试,诊断模型潜在问题,并为此提供能够优化模型的训练数据。公司主要客户质 量较高,包括 Google、Amazon、Microsoft 等知名 IT 巨头。
Appen 位居同业员工量能及数据标注技术前列。全球范围来看,Appen 位居全球 AI 基础 数据服务行业收入体量首位。其员工量能(数量及质量)与数据标注技术领先程度均位居 行业头部,紧随之后的是 Telus 和 Lionbrigde。以数据堂、海天瑞声为代表的国内头部厂 商距离 Appen 等海外大厂仍存在一定差距。
编辑:黄飞
评论
查看更多