谷歌推出1.6万亿参数的人工智能语言模型，打破GPT-3记录-电子发烧友网

古谚道：“熟读唐诗三百首，不会作诗也会吟。” 这句话放在目前的人工智能语言模型中也非常适用。

此前，OpenAI 的研究人员开发出 “GPT-3”，这是一个由 1750 亿个参数组成的 AI 语言模型，堪称有史以来训练过的最大的语言模型，可以进行原始类比、生成配方、甚至完成基本代码编写。

如今，这一记录被打破了。近日，谷歌研究人员开发出一个新的语言模型，它包含了超过 1.6 万亿个参数，这是迄今为止最大规模的人工智能语言模型，比之前谷歌开发的语言模型 T5-XXL 的规模大了 4 倍。

参数是机器学习算法的关键所在，它们是从历史训练数据中学习到的模型的一部分。一般而言，在语言领域中参数的数量和复杂度之间的相关性非常好。这一点类似于 GPU 中晶体管的数量，在同样的制程工艺下，晶体管越多其算力便越强，而语言模型包含的参数愈多就愈接近人类自然语言。

正如研究人员在一篇论文中指出的那样，大规模的训练是通向强大模型的有效途径，在大数据集和参数计数的支持下，简单的体系结构远远超过了更复杂的算法。但是，有效的大规模培训在计算上非常密集。这就是为什么研究人员热衷于他们所说的 “开关变压器”，这是一种 “稀疏激活” 技术，它只使用模型权重的一个子集或者在模型中转换输入数据的参数。

“开关变压器” 是早在 90 年代初首次提出的一种人工智能模型范例，大体意思是将多个专家或专门处理不同任务的模型放在一个更大的模型中，并有一个 “门控网络” 来选择为任何给定数据咨询哪些专家。

在一项实验中，研究人员使用 32 个 TPU 内核对几个不同的 “开关变压器” 模型进行了预训练，这些 TPU 内核位于一个从 Reddit、Wikipedia 和其他网络资源中搜集的 750GB 大小的文本数据语料库中，任务则是让这些模型预测段落中 15% 的单词被遮住的缺失单词，以及其他挑战，比如检索文本来回答一系列越来越难的问题。

研究人员称，包含了 1.6 万亿参数和 2048 名专家的模型 Switch-C 显示 “完全没有训练不稳定性”。然而，在桑福德问答数据集的基准测试中，Switch-C 的得分居然比仅包含 3950 亿个参数和 64 名专家的模型 Switch-XXL 还要低一点，对此，研究人员认为是因为微调质量、计算要求和参数数量之间的不透明关系所致。

在这种情况下，“开关变压器” 导致了一些下游任务的收益。例如，研究人员称在使用相同数量的计算资源的情况下，它可以使训练前的加速速度提高 7 倍以上。他们还证明 “稀疏激活” 技术可以用来创建更小、更密集的模型，这些模型可以对任务进行微调，其质量增益为大型模型的 30%。

对此他们表示：虽然这项工作主要集中在超大模型上，但我们也发现只有两名专家的模型可以提高性能，同时很容易适应通用 GPU 或 TPU 的内存限制。另外，通过将稀疏模型提取为稠密模型，可以实现 10 到 100 倍的压缩率，同时获得专家模型约 30% 的质量增益。

在另一个测试中，“开关变压器” 模型被训练在 100 多种不同语言之间进行翻译，研究人员观察到 101 种语言的 “普遍改善”，91% 的语言受益于比基线模型快 4 倍以上的速度。未来，研究人员还计划将 “开关变压器” 应用于新的领域，比如图像和文本。他们认为，模型稀疏性可以赋予优势，在一系列不同的媒体以及多模态模型。

美中不足的是，研究人员的工作没有考虑到这些语言模型在现实世界中的影响，比如模型通常会放大一些公开数据中的偏见。对此，OpenAI 公司指出，这可能导致在女性代词附近放置 “淘气”；而在 “恐怖主义” 等词附近放置 “伊斯兰” 等。根据米德尔伯里国际研究所的说法，这种偏见可能被恶意行为者利用，通过散布错误信息、造谣和谎言来煽动不和。

而路透社也曾报道称，谷歌的研究人员现在被要求在研究人脸和情绪分析以及种族分类等话题之前，先咨询法律、政策和公关团队，性别或政治派别。

综上所述，尽管谷歌训练的 1.6 万亿参数的人工智能语言模型还没办法做到真正意义上的人工智能，存在一些不足之处需要完善和优化，但随着在摩尔定律下电子设备算力的不断提升，近些年 AI 语言模型参数量级呈指数倍发展，相信在不久的将来，或许真的会出现一个无限接近熟读人类历史所有文明记录的超级模型，能够和人类完全实现自然语言交流，不妨让我们好好期待一下吧！

原文标题：GPT-3记录被打破！谷歌推出1.6万亿参数的人工智能语言模型

文章出处：【微信公众号：DeepTech深科技】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6207

浏览量
106172
人工智能

人工智能

+关注

关注
1797

文章
47867

浏览量
240888

原文标题：GPT-3记录被打破！谷歌推出1.6万亿参数的人工智能语言模型

文章出处：【微信号：deeptechchina，微信公众号：deeptechchina】欢迎添加关注！文章转载请注明出处。

英伟达预测机器人领域或迎“GPT-3时刻”

未来2-3年内，机器人基础模型的研究将迎来重大突破，这一时刻被形象地比喻为机器人领域的“GPT-3时刻”。

发表于 09-20 17:05 •870次阅读

Jim Fan展望:机器人领域即将迎来GPT-3式突破

英伟达科学家9月19日，科技媒体The Decoder发布了一则引人关注的报道，英伟达高级科学家Jim Fan在近期预测，机器人技术将在未来两到三年内迎来类似GPT-3在语言处理领域的革命性突破，他称之为机器人领域的“GPT-3

发表于 09-19 15:13 •673次阅读

OpenAI发布最新人工智能模型——GPT-4o mini

据国际媒体报道，OpenAI 在周四震撼发布了其最新的人工智能模型——GPT-4o mini，此举标志着这家领先的AI初创公司在拓宽其广受欢迎的聊天机器人应用领域方面迈出了重要一步。

发表于 07-19 15:24 •808次阅读

中国电信发布全球首个单体稠密万亿参数语义模型

近日，中国电信人工智能研究院（TeleAI）携手北京智源人工智能研究院，共同推出了全球首个单体稠密万亿参数语义

发表于 06-20 10:50 •719次阅读

OpenAI推出更快更便宜的大语言模型GPT-4o

美国人工智能公司OpenAI于14日凌晨正式推出了一个更快、更便宜的人工智能模型来支持其聊天机器人ChatGPT。

发表于 05-15 15:12 •680次阅读

OpenAI推出面向所有用户的AI模型GPT-4o

在周一的直播盛会上，OpenAI揭开了其最新的人工智能模型GPT-4o的神秘面纱。这款新模型旨在为其著名的聊天机器人ChatGPT提供更强大、更经济的支持。

发表于 05-15 09:23 •456次阅读

OpenAI推出新款人工智能模型GPT-4o

人工智能领域的领军者OpenAI在最近的春季更新活动中，重磅推出了全新升级的ChatGPT版本，它支持了GPT-4o这一强大的人工智能模型。

发表于 05-14 10:52 •608次阅读

微软准备推出全新人工智能语言模型

微软近期传出消息，正在秘密研发一款全新的人工智能语言模型，这款模型在规模上预计将具备与谷歌和OpenAI等业界巨头相抗衡的实力。据悉，这款新

发表于 05-08 09:30 •467次阅读

【大语言模型：原理与工程实践】揭开大语言模型的面纱

大语言模型（LLM）是人工智能领域的尖端技术，凭借庞大的参数量和卓越的语言理解能力赢得了广泛关注。它基于深度学习，利用神经网络框架来理解和生

发表于 05-04 23:55

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》

《大语言模型》是一本深入探讨人工智能领域中语言模型的著作。作者通过对语言

发表于 04-30 15:35

OpenAI有望在年中推出全新GPT-5模型

近日，人工智能领域的领军企业OpenAI传来了令人振奋的消息。据悉，他们有望在今年的年中，大约是夏季时分，推出全新的GPT-5模型。这一消息引发了业界的广泛关注与期待。

发表于 03-22 11:29 •853次阅读

谷歌宣布在医疗保健领域推出人工智能计划

谷歌最近公布了一系列激动人心的计划，将先进的人工智能模型引入医疗保健领域。据谷歌透露，其研究团队正联手旗下Fitbit公司，共同研发一项创新的人工智

发表于 03-21 10:54 •719次阅读

谷歌模型软件有哪些功能

谷歌模型软件通常指的是谷歌推出的一系列人工智能模型和软件工具，其中最具代表性的是Google G

发表于 03-01 16:20 •780次阅读

嵌入式人工智能的就业方向有哪些?

。国内外科技巨头纷纷争先入局，在微软、谷歌、苹果、脸书等积极布局人工智能的同时，国内的BAT、华为、小米等科技公司也相继切入到嵌入式人工智能的赛道。那么嵌入式AI可就业的方向有哪些呢？嵌入式AI开发

发表于 02-26 10:17

谷歌发布轻量级开源人工智能模型Gemma

谷歌近日宣布推出开源人工智能（AI）模型系列Gemma，旨在为开发人员和研究人员提供一个负责任的AI构建平台。这一举措标志着自2022年OpenAI的ChatGPT引领AI聊天机器人热

发表于 02-23 11:38 •960次阅读

搜索历史

谷歌推出1.6万亿参数的人工智能语言模型，打破GPT-3记录

评论