0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型的未来在哪?究竟什么是好的大模型?

脑极体 来源:脑极体 作者:脑极体 2021-10-27 08:46 次阅读

自2018年谷歌发布BERT以来,预训练大模型经过三年的发展,以强大的算法效果,席卷了NLP为代表的各大AI榜单与测试数据集。2020年OpenAI发布的NLP大模型GPT-3,实现了千亿级数据参数。GPT-3除了具备传统的NLP能力之外,还可以算术、编程、写小说、写论文摘要,一时之间成为科技圈中的爆点。到2021年,我们可以看到各大学术机构、科技企业都在打造自己的大模型,并且对其能力边界、技术路径进行了极大拓展。

身在科技圈中会有明显的感受,今年大模型的会议与讨论越来越多,预训练大模型本身的优势我们在很多新闻中都感受到了。打造大模型并不是一件轻松容易的事情,需要耗费大量的数据、算力资源等,大模型的意义是为了让算法模型集中化,但是市场中有条件的企业和机构都开始耗费大量资源自研大模型。大模型算法模型的集中化优势,经过这些机构对集中资源的分化,又有种烟囱式的割裂。

其实现实可能只需要一个发展到极致化的大模型就足够大家使用了,没有必要人手一个。而且预训练大模型的发展在这样的模式下也会受到一些影响,而在这个态势下也有一些趋势与变化值得讨论与关注。

大模型发展模式的卡点

BERT、GPT 等大规模预训练模型(PTM)近年来取得了巨大成功,成为AI领域的里程碑。因为预训练大模型的显著优势,现在AI社区的共识是采用它作为下游任务的开始,而不是从头开始训练数据、建立模型。

随着产学研各界的深入研究,大模型在AI各界的地位得到不断加强。一些机构和产业界对大模型的参与到角逐,使得其呈现出一种宣传炫技般的画面感受。这样的发展模式很可能会给行业带来一些不好的影响:

1.大模型成为一些机构和企业秀肌肉的军备竞赛,大家开始比拼各自参数集数量级。你百亿级,我就千亿级。数据集本身就有限,标榜自己的数据集越大,也意味着水分比较多,而在真实落地使用的情况方面,也并不不一定理想。算力资源和训练时间消耗过大,并且也只限于部分行业的部分问题,普适性差。

2.国内预训练模型的玩家们可用的中文数据集有限,就是我们知道的几种主流常用数据来源。在有限的数据集里,大家使用的数据未免重复,而因此研究出来的大模型能力就比较接近。走相同的路径做类似的事情,有点浪费资源与算力。

3.大模型是否优秀,不仅依赖数据的精度与网络结构,也是对其与行业结合软硬件协同能力的比拼。单纯只强调低头研发高参数集、强算力模型等的方向,轻视一些与行业的协同二次调试等问题,就会陷入闭门造车的局面,限制了落地的路,走不远。

4.一些预训练大模型经过极致化(数据、模型、算力)的发展后,也有可能面临小众、泛用性差的情形,比如一些高校研发的预训练大模型只能在小众的学术圈子里使用,无法工程化使用,最终沦为一次性的模型,浪费大量的资源。

虽然我们看到各种大模型在集中式爆发发展,但其实目前大模型行业还处于初始阶段,面临一些问题与卡点无可避免。行业内人士应该会更加敏感地体察到这些现象,谁也不会想要让这些荆棘以常态的模式横亘在发展前路上。大家花费精力激荡脑力,想要发展的共识是打造出行业内唯一的模型。那么,对于行业来说,究竟什么样的大模型才是最好的呢?

究竟什么是好的大模型?

在这场battle里,大模型向着规模极致化的方向发展。那么如何衡量大模型的能力,是一个绕不开的话题。衡量大模型能力的关键要素是,参数的规模和与细分行业结合对接的软硬件协同能力。我们在各种新闻中经常可以看到,机构或者是企业用数据集或者是参数规模,以及跑分来彰显自己的模型水平。

参数的规模决定了预训练模型有多大。参数越大一般来说意味着大模型具备更多的能力,泛化性、通用性也更加强。成功的大模型背后,还需要大规模分布式训练、并行计算、软硬件协同优化等能力。

脑极体曾在GPT-3最火的时候,参与过一次试验:用GPT-3写个文章出来。我们给第三方提供了一些写作的思路,想要看一下机器写出来的效果怎么样(其实是想看看自己离失业还有多久)。结果得到的反馈是GPT-3在理解能力方面很牛很强,但是让它去生产一篇稿件,对于它来说还是比较复杂而且困难的一件事情。

另外,排队等待使用的企业过多,间次使用等待的时间过长,,并且稿件本身也需要好几天才能完成。看似一个简单的写稿需求,对无所不能的GPT-3来说应该是小case,结果无疾而终。存在类似小需求的企业应该还是有很多,而这些需求都需要排队等待调用大量的算力,并且磨几天才能产出,而花时间花钱结果还存疑。当时行业里最好的大模型落地都如此艰难,大模型的落地还是有点不理想。

好的大模型不仅仅需要模型、算力等本身性能方面强劲,关键也需要看与某垂直行业结合时产品化落地的能力是否实用。落地的大模型需要解决一些行业具体的问题,与行业结合时二次开发、对接的成本尽可能地小,否则它强势的性能也只是空中楼阁,中看不中用。大模型需要工程落地的能力,从而打开更多的边界,让更多领域和企业来使用。

大模型的未来趋势

从产业价值的角度来看,预训练大模型带来了一系列可能性,让产学研各界看到了由弱人工智能走向强人工智能,走向工业化、集成化智能化的路径。在这样的驱动背景下,大模型也会有一些可预见的趋势与发展。

1.我们知道事物的发展规律是优胜劣汏,在竞争的角逐中,一些标榜独特性的小众模型的泛化能力差,越独特可能也就意味着越小众,使用的范围十分有限,可能会逐渐走向消亡。

2.崛起的大模型不仅仅是泛化性、落地能力强,创新性强、训练数据规模大,也需要具备不断生长革新的能力,也就是自我进化、智能化的能力。大模型的未来需要创新,也需要自我生长,向可持续、可进化的方向发展,架构上的革新会让模型更加高效。

3.大模型能力的端侧化,“芯片化”。将模型的一些运算存储等能力像芯片一样固化在一些端侧硬件设备中,在使用的过程中不用在重装的模型中耗时调用算力与数据,可以实现随时调用随时使用。现下的模型多是重装大模型,使用的话需要调用庞大的算力和运行时间,未来的大模型会逐渐改变这种模式。

4.大模型的标准化与模块化发展。大模型的评估未来会有标准化成熟的体系来衡量,这个体系也会是行业内公认的标准,用这个标准来衡量大模型的优劣而不是现下自卖自夸式的标榜。

目前我们在各大榜单上看到的分数来自于大型的数据集和算力模型,让开发更加容易,调试与训练的周期越来越短。但我们也知道大量的数据喂养出来的模型回报并不是百分百地正确。喂养的数据知识的极大扩展也无法保证结果的确定性,这也是大模型最大的弱点,而这也意味着对于大模型的探索需要持续的迭代发展。

预训练大模型是面向通用智能最高阶的探索,也是AI持续变革的核心发展方向与动力,随着AI不断深入产业与各学科领域的过程中,大模型在军备battle和百家争鸣,算力、数据、规模都会朝着极致化的方向发展。未来新的预训练大模型将会与那些计算量巨大的科学领域,比如制药、脑科学、医疗、生物计算等领域相互结合,带来巨大的价值。

我们的那些悬而未解的难题,在未来都会有答案,无论最终这个结论正确与否,都能够为前沿的发展、探索带来很多灵感与角度,世界的多面体将会被打开。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30095

    浏览量

    268361
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24636
  • nlp
    nlp
    +关注

    关注

    1

    文章

    487

    浏览量

    22007
  • 训练模型
    +关注

    关注

    1

    文章

    35

    浏览量

    3801
  • 算力
    +关注

    关注

    1

    文章

    925

    浏览量

    14733
收藏 人收藏

    评论

    相关推荐

    模型动态测试工具TPT的软件集成与测试支持#Siumlink模型测试 #TPT

    模型
    北汇信息POLELINK
    发布于 :2024年11月07日 11:20:29

    未来AI大模型的发展趋势

    未来AI大模型的发展趋势将呈现多元化和深入化的特点,以下是对其发展趋势的分析: 一、技术驱动与创新 算法与架构优化 : 随着Transformer架构的广泛应用,AI大模型在特征提取和并行计算效率
    的头像 发表于 10-23 15:06 426次阅读

    ai大模型和传统ai的区别在哪

    AI大模型和传统AI的区别主要体现在以下几个方面: 数据量和训练规模 AI大模型通常需要大量的数据进行训练,以获得更好的性能。相比之下,传统AI模型往往使用较小的数据集进行训练。例如,Google
    的头像 发表于 07-16 10:06 1170次阅读

    MATLAB预测模型哪个

    在MATLAB中,预测模型的选择取决于数据类型、问题复杂度和预测目标。以下是一些常见的预测模型及其适用场景的介绍: 线性回归(Linear Regression): 线性回归是最基本的预测模型之一
    的头像 发表于 07-11 14:31 379次阅读

    基于MATLAB 的质量守恒空化模型(JFO 模型

    可有大佬会基于MATLAB 的质量守恒空化模型(JFO 模型
    发表于 07-05 23:32

    【大语言模型:原理与工程实践】大语言模型的应用

    的错误。这是因为自然语言书写指令缺乏严格的语法约束,与传统的编程语言相比,更容易出现错误。 展望未来,大语言模型和提示工程有着广阔的应用前景。首先,随着技术的不断进步,大语言模型将进一步渗透到医疗
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的评测

    大语言模型的评测是确保模型性能和应用适应性的关键环节。从基座模型到微调模型,再到行业模型和整体能力,每个阶段都需要精确的评测来指导
    发表于 05-07 17:12

    【大语言模型:原理与工程实践】大语言模型的预训练

    大语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着学习容量的增加,对预训练数据的需求也相应
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础技术

    全面剖析大语言模型的核心技术与基础知识。首先,概述自然语言的基本表示,这是理解大语言模型技术的前提。接着,详细介绍自然语言处理预训练的经典结构Transformer,以及其工作原理,为构建大语言
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    ,生成能力则使其能生成新的、连贯的文本,而涌现性则让模型能生成未曾出现但逻辑上合理的内容。从早期的统计模型到如今的大语言模型,AI领域不断突破,大语言模型已成为多种应用场景的强力助推器
    发表于 05-04 23:55

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》

    未来发展方向进行了展望,包括跨领域、跨模态和自动提示生成能力方向,为读者提供了对未来技术发展的深刻见解。《大语言模型原理与工程实践》是一本内容丰富、深入浅出的技术书籍。它不仅为读者提供了大语言
    发表于 04-30 15:35

    谷歌模型合成工具在哪找到

    谷歌模型合成工具可以在谷歌的官方网站或相关的开发者平台上找到。具体地,您可以尝试访问谷歌的AI平台或开发者社区,以获取有关模型合成工具的最新信息和资源。
    的头像 发表于 03-01 18:13 1535次阅读

    大信号模型和小信号模型的区别

    大信号模型和小信号模型是电子工程和通信领域中常用的两种模型,它们在描述和分析电子电路或系统时具有不同的特点和应用范围。以下是关于大信号模型和小信号
    的头像 发表于 12-19 11:35 9443次阅读

    模型数据集:突破边界,探索未来

    随着人工智能技术的快速发展,大型预训练模型如GPT-4、BERT等在自然语言处理领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据集,为模型提供了丰富的知识和信息。本文将探讨大模型
    的头像 发表于 12-06 16:10 605次阅读

    模型数据集:构建、挑战与未来趋势

    随着深度学习技术的快速发展,大型预训练模型如GPT-4、BERT等在各个领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据集,为模型提供了丰富的知识和信息。本文将探讨大模型数据
    的头像 发表于 12-06 15:28 1550次阅读