垂直大模型竞争，能突破数据“卡点”吗？-电子发烧友网

科技云报道原创。

AI大模型火遍全球，中国产业也激发了对人工智能应用的新热情。

随着各大厂商参与竞逐，市场正在分化为通用与垂直两大路径，两者在参数级别、应用场景、商业模式等方面差异已逐步显现。

企业涌入垂直大模型赛道

通用AI大模型像ChatGPT，能够处理各种领域和场景的自然语言，但由于需要巨大的计算资源和数据量，已经成为国内外大厂的重点项目。

这类企业往往有着强大的技术团队和资金支持，且有着自己的场景和流量优势。比如百度、阿里、腾讯、字节、华为等，在搜索、社交、电商、办公等领域都有着自己的通用AI大模型。

相较之下，创业公司、细分领域企业很难在这样的竞争中获得先发优势或者差异化优势。

而垂直AI大模型只关注某个特定的领域或者场景，它能够利用行业的数据和知识，提供更精准和高效的解决方案，更好地满足用户在某个领域或者场景下的需求和期待，如：医疗、金融、教育等。

同时，它可以利用一些开源或者闭源的通用AI大模型作为基础，然后在其上进行指令微调（instruction tuning），来适应自己的目标领域或者场景。

因此，它的参数规模比通用大模型低一个量级，如果让数据飞轮和模型训练能够很好结合，在某些特定领域甚至比通用大模型的效果更好、成本更低。

在这样的背景下，越来越多的企业加入了垂直大模型的赛道。

5月18日，深信服发布国内首个自研安全大模型，成为安全领域GPT技术应用首秀；

5月5日，学而思宣布正在进行自研数学大模型的研发，命名为MathGPT，面向全球数学爱好者和科研机构；

3月，达观数据公布正在开发曹植系统，专注于金融、政务、制造等垂直领域的大语言模型。

明确的商业化落地场景和更低的算力成本，为各类企业打开了进军垂直大模型的大门。

垂直大模型的考验

垂直大模型的优势在于不够大：算力不够大、算法难度低，但并不代表垂直大模型谁都能做。

众所周知，AI大模型三要素：算力、算法、数据，都是喂养AI的“饲料”。

先说算力。

大模型之所以“大”，就是因为参数众多和数据量庞大。AI大模型所需要的计算量，大致上相当于参数量与数据量的乘积。

过去5年，AI大模型的参数量几乎每年提升一个数量级，例如GPT-4参数量是GPT-3的16倍，达到1.6万亿个。

随着图像、音视频等多模态数据的引入，大模型的数据量也在飞速膨胀。这意味着想要玩转大模型，必须拥有大算力。

而一套垂直大模型的训练和推理成本，做个参考，在数字人垂类技术场景中，可以做到比Open AI同参数规模的模型低一个量级，像启元世界的战略总监王思捷就曾提到：先构建更小的垂类模型（比如百亿参数、十亿参数），让数据飞轮和模型训练能够很好结合，垂类模型在某些领域可能比Open AI的效果更好成本更低。

即便垂直大模型在算力要求上已远远低于通用大模型，但对算力基础设施的投入依然会阻挡部分小公司的入局。

再说算法。

在三要素中，算法的研发难度相对较低，每家公司都有自己实现大模型的路径算法，且有众多开源项目可作为参考，中国公司最容易缩短甚至抹平差距。

最后说数据。

高质量的数据是助力AI训练与调优的关键，足够多、足够丰富的数据，是AI大模型的根基。

OpenAI此前披露，为了AI像人类那样流畅交谈，研发人员给GPT-3.5提供多达45TB的文本语料，相当于472万套中国“四大名著”。这些语料的来源包括维基百科、网络文章、书籍期刊等，甚至还将代码开源平台Github纳入其中。

但是聚焦到细分行业，数据的获取就没那么容易了。

兴业证券公开表示，要训练专业的行业大模型，优质的行业数据、公共数据至关重要。

就国内数据市场而言，据发改委官方批露，我国政府数据资源占全国数据资源的比重超过3/4，但开放规模不足美国的10%，个人和企业可以利用的规模更是不及美国的7%。

而行业数据更是非常核心的私域数据，私域数据量越大，质量越高，就越有价值。

比如，一个医疗公司拥有大量医疗数据、病例数据，那么它就能开发出医疗垂直大模型类的产品。同理，建筑行业的项目数据、金融行业的用户画像数据、海运行业的船位数据等，都是赋能垂直大模型的关键。

但是这些私域数据都攥在企业自己手中，而且为了数据安全和合规，绝大部分机构是要本地化部署才会尝试大模型训练，很难想象企业会把自己的核心数据拿给别人去训练。

此外，如何合理地给数据打上分级标签、做好标注也非常重要。数据分级分类能够帮助产品提效，而高精度的标注数据能够进一步提升大模型的专业表现。

但现阶段垂直行业想要获取高精度标注数据的成本较高，而在公开数据库中，行业专业数据也较少，因此对垂直大模型的建构提出了很高的要求。

总体而言，想要做好垂直大模型，数据的重要性，远超过算力和算法。

数据，已成为企业突破垂直大模型的“卡点”。

手握行业数据领先一步

垂类大模型讲求应用与场景先行的逻辑，而在国内更是强调产业侧的价值。

一方面，在当前中国的智能化浪潮下，产业侧数字化革新本就有广阔的市场需求；另一方面，在toB生态下，基于垂直应用的实践也有利于形成数据飞轮与场景飞轮。

而这一切的前提，是推出垂类大模型的公司在该行业已建立技术壁垒与护城河，即“人无我有”的竞争优势。

如此看来，在垂直行业深耕多年的企业或将有更大的赢面。

这类企业在数据层面、大模型以及知识图谱方面都有较为深厚的积累，对于大模型的优化更具优势。同时，它们对于to B客户需求和落地场景有很深的理解，能够更好地保证垂直大模型产品的可信和可靠，满足企业级对于安全可控合规的需求。

目前，已有一些垂类大模型在金融、教育、医药、营销等场景中得到试炼。

例如，彭博社利用自身丰富的金融数据源，基于开源的GPT-3框架再训练，开发出了金融专属大模型BloombergGPT；

网易有道则面向教育场景，推出自研的类ChatGPT模型“子曰”；

在ChatGPT发布后仅几周，谷歌公布了一个专门用于回答医疗保健相关问题的大型医用语言模型Med-PaLM......

相信随着越来越多企业入局，垂直大模型在各个行业和细分领域中将大量涌现。而那些能将一个垂直领域做专、做透，用高质量的数据持续优化模型，跑通商业闭环，构建起产业生态的企业，最终将把价值链做到足够长。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年，是前沿企业级IT领域Top10媒体。获工信部权威认可，可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7081

浏览量
89199
AI

AI

+关注

关注
87

文章
31138

浏览量
269473
ChatGPT

ChatGPT

+关注

关注
29

文章
1564

浏览量
7815
大模型

大模型

+关注

关注
2

文章
2489

浏览量
2862

科普知识丨热变形维卡软化点测试仪是什么？

软化点。热变形温度是指材料在一定负荷下，产生规定变形量时的温度；维卡软化点则是在规定的升温速率下，标准压针在试样上压入规定深度时的温度。通过对这些参数的精确测量，能

发表于 01-08 10:40 •67次阅读

科普知识丨热变形维<b class='flag-5'>卡</b>软化<b class='flag-5'>点</b>测试仪是什么？

【「大模型启示录」阅读体验】+开启智能时代的新钥匙

，NVDIA与微软的竞争。计算能力的飞速提升是大模型得以兴起的重要基石。GPU/TPU 等高性能计算设备的迅猛发展，宛如为大模型的训练打造了一台强大的引擎。它们能够以极高的速度处理海量的数据

发表于 12-24 13:10

【「大模型启示录」阅读体验】营销领域大模型的应用

使企业能够提前洞察市场动向，制定前瞻性的市场策略，从而在竞争中占据有利地位。通过分析广告投放的效果数据，大模型可以帮助企业优化广告内容和投放策略。这包括确定最佳的广告渠道、投放时间和目标受众，以及

发表于 12-24 12:48

【「大模型启示录」阅读体验】对大模型更深入的认知

的平衡，解释得清清楚楚，让我这个非专业人士也能明白大模型在实际应用中面临的挑战和限制，也对这些模型的复杂性和挑战有了更深的理解。而且，书中还提到了OpenAI的成功案例和CUDA技术壁垒的形成，这些

发表于 12-20 15:46

Kaggle知识点：使用大模型进行特征筛选

方法依赖于数据集中的样本点进行统计推断，而基于文本的方法需要描述性的上下文以更好地在特征和目标变量之间建立语义关联。这种方法利用了大型语言模型（LLMs）中丰富的语

发表于 12-03 01:06 •1272次阅读

中国电信人工智能研究院完成首个全国产化万卡万参大模型训练

近日，中国电信人工智能研究院宣布了一项重大技术突破：成功完成国内首个基于全国产化万卡集群训练的万亿参数大模型。

发表于 09-30 16:41 •1712次阅读

下载的TPS54360模型未发现操作点

从TI官网下载的TPS54360模型。导入到TINA-TI中，各个电路连接好，ERC无错误，无警告。运行显示未发现操作点

发表于 08-19 14:02

万卡集群解决大模型训算力需求，建设面临哪些挑战

电子发烧友网报道（文/李弯弯）万卡集群是指由一万张及以上的加速卡（包括GPU、TPU及其他专用AI加速芯片）组成的高性能计算系统，主要用于加速人工智能模型的训练和推理过程。这种集群的构建旨在

发表于 06-02 06:18 •4779次阅读

澳鹏入选亿欧大模型基础层图谱，以优质数据赋能AGI智能涌现

近日发布《2024中国"百模大战"竞争格局分析报告》，全方位呈现大模型产业现状。作为产业链上的重要一环，澳鹏Appen凭借高质量的大模型数据能力入选大

发表于 05-27 17:01 •376次阅读

NAND Flash（贴片式TF卡）存储新突破，基础示例

需求也在日益增长。在这个信息爆炸的时代，一款高效、稳定、便携的存储设备显得尤为重要。新品SD卡——SD NAND，应运而生，为我们的数据存储带来了新的革命。　　SD卡的发展　　SD卡

发表于 05-21 17:13

【大语言模型：原理与工程实践】揭开大语言模型的面纱

，生成能力则使其能生成新的、连贯的文本，而涌现性则让模型能生成未曾出现但逻辑上合理的内容。从早期的统计模型到如今的大语言模型，AI领域不断

发表于 05-04 23:55

泰来三维|三维扫描点云数据怎么处理如何建模

faro premium 350三维激光扫描仪最终采集的数据以点云和图像的形式储存在扫描仪设备里，运用专门进行一定处理后，能获取建筑物的相对位置信息、尺寸、纹理和形状，进而建立真实的物体数据

发表于 04-23 13:53 •360次阅读

安筱鹏：AI大模型重构产业竞争力的五种模式

今天讨论AI大模型，最重要的一个议题是，AI对一个产品、服务、产业意味着什么？对于一个个体、企业、区域、国家的竞争力意味着什么？未来3-5年，哪些产业的竞争力会被AI大模型重新定义，以

发表于 04-08 09:29 •1457次阅读

数势联动百川，发布首批大模型联合解决方案，推动中国大模型价值落地

近日，行业领先的数据智能产品提供商北京数势云创科技有限公司（以下简称“数势科技”）和国内通用大模型厂商北京百川智能科技有限公司（以下简称“百川”）联合发布大模型数据分析

发表于 02-28 11:40 •493次阅读

探针卡设计之MLO介绍

作为芯片晶圆测试阶段的重要工具之一，探针卡在不断更新迭代。为满足更高需求的晶圆测试，针卡类型也逐渐从悬臂针卡向垂直针卡升级。

发表于 01-25 10:29 •7922次阅读