AI大模型终于走到了数据争夺战-电子发烧友网

科技云报道原创。

当前，大模型正处在产业落地前期，高质量的数据，是大模型实现产业化的关键要素。

最近，一项来自Epoch AI Research团队的研究抛出了一个残酷的事实：模型还要继续做大，数据却不够用了。

研究人员预测了2022年至2100年间可用的图像和语言数据总量，并据此估计了未来大模型训练数据集规模的增长趋势。

结果表明：高质量的语言数据存量将在2026年耗尽，低质量的语言数据和图像数据的存量将分别在2030年至2050年、2030年至2060年枯竭。

这意味着，如果数据效率没有显著提高或有新的数据源可用，那么到2040年，模型的规模增长将放缓。

对数据端的建设该重视起来了。

高质量数据成“抢手货”

随着全球新一轮AI热潮来临，大量训练数据已成为AI算法模型发展和演进的“燃料”。

从GPT的实验发现，随着模型参数量的增加，模型性能均得到不同程度的提高。

但值得注意的是，通过来自人类反馈的强化学习（RLHF）生成的InstructGPT模型，比100倍参数规模无监督的GPT-3模型效果更好，也说明了有监督的标注数据是大模型应用成功的关键之一。

如果以上预测是正确的，那么毫无疑问数据将成为做模型继续做大的主要制约因素，AI的进展也会随着数据量的耗尽而放缓。

阿里巴巴达摩院基础视觉团队负责人赵德丽博士曾在采访中表示，数据侧的建设将会成为每一个做大模型工作的机构必须要考虑的问题，大模型有多少能力，往往取决于有什么样的数据。

据赵德丽博士介绍，与文生图大模型相比，做文生视频大模型要难得多，原因就在于视频数据的数量远比不上文本和图像，更不要谈数据的质量了。相应地，目前已有的文生视频模型的效果都不尽如人意。

结合上述研究结果，如果当下的趋势继续下去，人类现有的数据库存一定会耗尽，而且高质量的数据会更少。

正因如此，一场数据争夺战正在拉开序幕。

目前，Adobe利用其数以亿计的库存照片数据库构建了自己的人工智能工具套件，名为Firefly。自3月份发布以来，Firefly已被用于创建超过10亿张图像，而Adobe股价已因此上涨了36%。

一些初创公司也正在蜂拥至这个新领域。今年4月，专注于人工智能的数据库公司Weaviate融资5000万美元，估值达到2亿美元。

仅仅一周后，其竞争对手PineCone就以7.5亿美元的估值筹集了1亿美元资金。

本月早些时候，另一家数据库初创公司Neon也获得了4600万美元的融资。

在国内，百度智能云近期也升级了大模型数据服务能力，建设了国内首个专业大模型数据标注基地。百度智能云方面表示，目前已经在全国与各地政府合作，共建了10多个数据标注基地。

显然，对数据的争夺才刚刚开始。

数据标注再次迎来爆发

AI大模型带来了大量需求，与之相伴的是中国数据标注行业的迅速发展。

招商证券认为，一方面，进入大数据时代后，人们各种行为的电子化、网络化带来海量数据，但产生的数据只有1%能被收集和保存，并且收集的数据中90%是非结构化的数据；另一方面，人工智能的兴起带来模型训练所用结构化数据的巨大需求，数据标注的重要性逐渐突显。

有业内人士认为，预计今年10月国内会迎来一波大的类chatGPT大模型的数据需求，而且这是一个海量的需求，以目前国内几家头部数据标注公司来看，目前产能还不足以满足需求。

艾瑞咨询数据显示，包括数据采集、数据处理（标注）、数据存储、数据挖掘等模块在内的AI基础数据服务市场，将在未来数年内持续增长。

到2025年，国内AI基础数据服务市场的整体规模预计将达到101.1亿元，整体市场增速将达到31.8%（2024-2025年）。

据iResearch数据，2019年我国数据标注市场规模为30.9亿元，预计2025年市场规模突破100亿元，年复合增长率达到14.6%。

随着数据量的不断增长和数据结构的不断变化，数据标注行业涉及的领域也越来越广泛，特别是在自动驾驶、AIGC等领域内，数据标注需求量极大。

作为AI大语言模型高质量回答的基础，数据标注的生产过程主要包括四个环节：设计（训练数据集结构设计）、采集（获取原料数据）、加工（数据标注）及质检（各环节数据质量、加工质量检测）。

其中，数据标注需要识别图像、文本、视频等原始数据，并添加一个或多个标签为机器学习模型指定上下文，帮助其做出准确的预测。

当前，大部分数据标注任务仍然需要人工完成，而且各种数据类型和应用领域都需要相应领域的专业标注员来完成标注任务。

随着技术的发展，数据标准行业正在成为半人工智能、半人工化的行业。

面对大语言模型动辄上百亿参数的数据质量控制，需要通过标注平台将一个个复杂RLHF需求拆成很多个简单的工作流，让机器去做预处理，人去做深层的基于理解的反馈，以减少人在简单问题上的精力消耗，专注在专业问题上的标注。

业内一般采用主动质检加被动质检的方式，前者靠人为去做质检，后者是靠算法去做一些预识别。

但目前数据标注工具的准确率部分仅百分之几，部分准确率则可以达到80%、90%。机器标注的识别率越高，人工需求就会越少，成本、利润、速度、质量都能更加可控。

随着技术不断发展，未来数据标注行业可能会实现更高的自动化程度，不过应用领域不同，仍然需要一定数量的标注人员来进行标注任务。

传统数据标注亟待升级

值得注意的是，在如今火爆的大模型训练浪潮中，传统的数据标注需求，很可能是下降的。

让ChatGPT更具有“人味”的关键——强人工反馈RLHF，带来的是另一种更高要求的数据标注需求。

相关分析显示，在RLHF环节，模型首先在大数据集上进行预训练，再与专业的人工智能训练师进行交互，专业的标注人员会对ChatGPT生成的回答进行标注、评估和反馈，给出一个针对回答的分数或者标签。

这些标注数据可以作为强化学习过程中的“奖励函数”来指导ChatGPT的参数调整，最终帮助模型进行强化学习和不断优化。

也就是说，让ChatGPT“更具人味儿”的精妙之处很可能就在于——它可以利用人工标注的反馈结果不断优化自身模型，实现更合乎人类思维逻辑的表达。

但传统数据标注模式很难满足RLHF的需求。

在过去，数据标注公司的主流商业模式以销售工具系统和标注服务为主。一方面，缺少自有数据很少有出售精准数据集的服务。另一方面，人才升级作为一个系统工程，对数据标注公司的考验更高。

在完成这一步后，RLHF训练还涉及到不少事实判断和价值判断。其中，价值判断涉及到公认的"公序良俗"，理论上是更容易拉齐AI认知的部分，事实判断则涉及各行业Know-How。

这往往需要行业专业人士出手，不是传统数据标注员，简单针对词性、图片细节进行标注就能实现的。

也就是说，要跟上新一代AI浪潮，数据标注公司不仅需要在数据层面进行升级，人才的更新换代同样重要。

目前的确已有标注公司开始在内部撰写《人员提升教程》，他们将在接下来重点培训标注人员对“升级后”的标注需求理解，以及回答方式的合规性等。

但是，在专业壁垒非常高的医疗等领域，数据标注仍面临着人才困境。

某数据标注公司运营负责人曾表示，“特别是医疗，有些是普通人经过培训可以标的，有的必须要医疗从业者，这背后的人才招聘难度可想而知。”

但即便困难重重，也不意味着数据标注公司会立马进行一波洗牌——至少，在大模型训练的几个阶段内，初始阶段的半监督学习同样对传统数据标注存在需求。

面对大模型和RLHF的机遇，重现大规模投入似乎在所难免。

有业内人士认为，如果数据标注公司期望在垂直领域做更高层级的数据服务，可能要成立一个全新的产品线。甚至，具备AI研发背景的创始人会是更合适的数据标注创业者。

面对新一代AI浪潮，没有人可以躺着挣钱——这是每一次技术迭代冲击背后，暗中标注好的“价格”。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年，是前沿企业级IT领域Top10媒体。获工信部权威认可，可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30763

浏览量
268913
数据库

数据库

+关注

关注
7

文章
3795

浏览量
64366
GPT

GPT

+关注

关注
0

文章
354

浏览量
15347
大模型

大模型

+关注

关注
2

文章
2427

浏览量
2650
AI大模型

AI大模型

+关注

关注
0

文章
315

浏览量
306

中国晶圆厂今年将是人才争夺战关键年

多数新建厂的投片计划集中在 2018 年下半年，预估 2017 年人才挖角将更趋白热化，是人才争夺战的关键年。

发表于 03-23 07:17 •1474次阅读

x86和ARM的嵌入式市场争夺

赵艳秋英特尔正携凌动进军嵌入式市场，与在该市场获得广泛应用的ARM及相关DSP平台展开激烈的市场争夺战。虽然两大嵌入式平台在技术上各有优劣，它们正相互学习，弥补自身的不足。但可以肯定的是，未来，谁赢得更广泛的软件支持，谁将有可能在市场上胜出。　　　　

发表于 07-19 07:22

亚马逊智能物流放大招打响跨境电商争夺战

为了保证物品能够顺利运达，同时既要避免过多物流问题导致卖家受伤，也要减少因此可能引发的买家不满。为实现这一目的，亚马逊可谓是煞费苦心。亚马逊智能物流放大招打响跨境电商争夺战 目前，亚马逊在全球拥有125个运营中心，能将货物送往全球180多个国家和地区。

发表于 11-11 14:47 •598次阅读

谷歌在亚洲的首个AI中心的成立将加剧AI人才争夺战

上月初，IDG资本发布的“2017年中国互联网准独角兽薪酬报告”显示，人工智能行业高级岗位薪酬高出整体水平55%，中级岗位高出90%，而初级岗位更是高达110%，一场由人工智能引发的人才争夺大战一触即发，现有市场人才争夺已呈现白热化。而谷歌在亚洲的首个

发表于 12-22 14:02 •2761次阅读

开启AI人才争夺战 AI千万年薪或成泡沫

如今人工智能已经进入了技术红利期，失衡的人才供求成为了束缚他发展的最大阻碍。AI人才频频告急，许多互联网企业已经开始进行AI人才争夺战中，汹涌的浪潮，有人不经想问支撑AI人才千万年薪的

发表于 12-28 17:30 •969次阅读

《自然》：中国打响AI人才争夺战

）发表综述文章《中国打响AI人才争夺战》，对中国AI人才短缺问题予以关注。文章援引微软研究院驻北京首席研究员戴维·威夫的观点：“AI的未来将是数据

发表于 01-23 20:10 •364次阅读

戴姆勒入股北汽新能源豪赌中国市场新能源市场争夺战戴姆勒无优势

国外汽车巨头纷纷布局新能源汽车市场，而中国市场更是成为了争夺的焦点，前不久戴姆勒入股北汽新能源豪赌中国市场，然而新能源市场争夺战戴姆勒无优势。

发表于 06-20 11:24 •2030次阅读

中美AI人才争夺，日本只能旁观

日媒称，世界范围内人工智能（AI）专家的争夺战愈演愈烈，包括无人驾驶汽车、消费者数据分析、语音识别和人脸识别系统等领域。据《日本经济新闻》6月24日报道，随着经济数字化的发展，很多商务场合需要精通人工智能的技术人员。

发表于 08-12 09:29 •438次阅读

自动驾驶产业争夺战正在全国城市间打响

在汽车智能化时代，一场自动驾驶产业争夺战正在全国城市间打响，20座城市在自动驾驶政策、基础设施建设、自动驾驶会议及赛事、企业资金扶持等层面纷纷出台利好政策。

发表于 10-31 16:08 •2808次阅读

国产手机市场的争夺还在继续华为小米手机业务走到了分水岭

2018年对小米和华为来说是一个转折点。国产手机市场的争夺还在继续，但是两家的业务布局在悄然变化，手机业务对集团的战略支撑，走到了分水岭。

发表于 12-19 14:10 •1205次阅读

五巨头打响人才争夺战 AI领域人才稀缺

科技领域的AI人才争夺战早已拉开。就拿今年来说，Pinterest的首席技术官Vanja Josifovski跳槽到了Airbnb，而Pinterest聘请了沃尔玛的首席技术官Jeremy King

发表于 01-03 14:39 •650次阅读

台湾5G频谱争夺战使运营商陷入了绝境

据台湾媒体报道，在台湾5G频谱争夺战进入第25天、竞标总金额突破1300亿新台币后，终于有运营商承受不住，大声疾呼台湾地方政府、通讯监管机构NCC考虑国际案例、市场现状，宣布中止竞标，否则非产业和用户之福。

发表于 01-17 10:21 •599次阅读

外企对国内动力电池争夺战升级，铝塑膜或将迎来热潮

当前，全球新能源汽车产业发展方兴未艾，猛烈的电动化浪潮席卷之下，各大整车企业对动力电池的争夺战也是暗流涌动。近段时间，欧洲三大豪门车企大众、戴姆勒、宝马纷纷掀起了争相绑定中国电池生产企业的狂潮。

发表于 07-31 09:33 •723次阅读

新火种AI|大模型时代，AI人才也是各家争夺的焦点

AI人才争夺战，正式打响

发表于 04-11 20:57 •408次阅读

芯片巨头人才战：英伟达与三星的AI芯片人才争夺

在全球AI芯片市场的激烈竞争中，各大芯片企业纷纷加入了一场以英伟达为中心的人才争夺战。这场战争不仅关乎技术的领先，更决定了谁能在未来AI芯片市场上占据主导地位。

发表于 06-22 14:11 •786次阅读

搜索历史

AI大模型终于走到了数据争夺战

评论

中国晶圆厂今年将是人才争夺战关键年

x86和ARM的嵌入式市场争夺

亚马逊智能物流放大招打响跨境电商争夺战

谷歌在亚洲的首个AI中心的成立将加剧AI人才争夺战

开启AI人才争夺战 AI千万年薪或成泡沫

《自然》：中国打响AI人才争夺战

戴姆勒入股北汽新能源豪赌中国市场新能源市场争夺战戴姆勒无优势

中美AI人才争夺，日本只能旁观

自动驾驶产业争夺战正在全国城市间打响

国产手机市场的争夺还在继续华为小米手机业务走到了分水岭

五巨头打响人才争夺战 AI领域人才稀缺

台湾5G频谱争夺战使运营商陷入了绝境

外企对国内动力电池争夺战升级，铝塑膜或将迎来热潮

新火种AI|大模型时代，AI人才也是各家争夺的焦点

芯片巨头人才战：英伟达与三星的AI芯片人才争夺