谷歌训练开发一个万亿参数的AI语言模型-电子发烧友网

参数是机器学习算法的关键。它们是从历史训练数据中学到的模型的一部分。一般来说，在语言领域，参数的数量和复杂性之间的相关性非常好。例如，OpenAI的GPT-3是有史以来训练了1750亿个参数的最大语言模型之一，它可以进行原始类比、生成配方，甚至完成基本代码。

近日，谷歌的研究人员开发了一种技术，并对其进行基准测试，他们声称这种技术能够训练包含超过一万亿参数的语言模型。他们表示，他们的1.6万亿参数模型是迄今为止最大的，比之前最大的谷歌开发的语言模型（T5-XXL）快了4倍。

研究人员指出，大规模训练是建立强大模型的有效途径。简单的架构，大数据集和参数计数的支持，超越了更复杂的算法。但是，大规模的训练虽然有效，但计算强度极高。这就是为什么研究人员追求他们所谓的Switch Transformer，一种“稀疏激活”技术，它只使用模型权重的子集，或转换模型内输入数据的参数。

Switch Transformer的新颖之处在于它有效地利用了为密集矩阵乘法（广泛应用于语言模型的数学运算）设计的硬件，如GPU和TPU。在研究人员的分布式训练设置中，他们的模型将不同的权重分配到不同的设备上，这样权重就会随着设备数量的增加而增加，但在每个设备上都保持可管理的内存和计算空间。

在一项实验中，研究人员使用32个TPU内核预先训练了几种不同的Switch Transformer模型，这个语料是一个750GB大小的数据集，包含从Reddit、Wikipedia和其他网络资源上获取的文本。他们让这些模型预测有15%的单词被掩盖的段落中遗漏的单词，以及其他挑战，比如检索文本回答一系列越来越难的问题。

研究人员声称，与包含3950亿个参数和64名专家的更小的模型（Switch-XXL）相比，他们发明的拥有2048名专家的1.6万亿参数模型（Switch-C）则“完全没有训练不稳定性”。

然而，在SQuAD的基准测试上，Switch-C的得分却更低（87.7），而Switch-XXL的得分为89.6，研究人员将此归因于微调质量、计算要求和参数数量之间的不明确关系。

在这种情况下，Switch Transformer还是在许多下游任务上的效果有了提升。例如，在使用相同数量的计算资源的情况下，它可以使预训练的速度提高了7倍以上。

同时研究人员证明，大型稀疏模型可以用来创建更小、更稠密的模型，这些模型可以对任务进行微调，其质量增益只有大型模型的30% 。

在一个测试中，一个 Switch Transformer 模型被训练在100多种不同的语言之间进行翻译，研究人员观察到其中101种语言都得到了普遍的改善。

在未来的工作中，研究人员计划将Switch Transformer应用于新的和不同的形态中去，包括图像和文本。他们认为，模型稀疏性在一系列不同的媒体和多模态模型中都具有优势。
责任编辑:pj

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6126

浏览量
104875
机器学习

机器学习

+关注

关注
66

文章
8337

浏览量
132255
大数据

大数据

+关注

关注
64

文章
8849

浏览量
137164

AI大模型的训练数据来源分析

学术机构、政府组织或企业公开发布，涵盖了各种类型的数据，如图像、文本、音频、视频等。例如： ImageNet ：一个广泛用于图像识别任务的大规模图像数据集。 Common Crawl ：提供了大量的网页抓取数据以供自然

发表于 10-23 15:32 •275次阅读

如何训练自己的AI大模型

训练自己的AI大模型是一个复杂且耗时的过程，涉及多个关键步骤。以下是一

发表于 10-23 15:07 •258次阅读

英伟达Blackwell可支持10万亿参数模型AI训练，实时大语言模型推理

、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机。英伟达称，Blackwell拥有6项革命性技术，可支持多达10万亿参数的模型进行AI

发表于 09-04 09:10 •2760次阅读

苹果承认使用谷歌芯片来训练AI

苹果公司最近在一篇技术论文中披露，其先进的人工智能系统Apple Intelligence背后的两个关键AI模型，是在谷歌设计的云端芯片上完

发表于 07-30 17:03 •659次阅读

ai大模型和ai框架的关系是什么

AI大模型和AI框架是人工智能领域中两个重要的概念，它们之间的关系密切且复杂。 AI大模型的定义

发表于 07-16 10:07 •3.7w次阅读

大语言模型的预训练

随着人工智能技术的飞速发展，自然语言处理（NLP）作为人工智能领域的一个重要分支，取得了显著的进步。其中，大语言模型（Large Langu

发表于 07-11 10:11 •349次阅读

【大语言模型：原理与工程实践】大语言模型的应用

类任务上表现出色，甚至在零样本条件下也能取得良好效果。另一类则需要逐步推理才能完成的任务，类似于人类的系统2，如数字推理等。然而，随着参数量的增加，大语言模型在这类任务上并未出现质的飞

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的预训练

具有以下三个非常显著的特点，一个就是模型参数规模更大，训练数据更多。当然，对计算资源的要求也会更

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

特定任务对模型进行微调。这种方法的成功不仅是自然语言处理发展的一个转折点，还为许多现实世界的应用场带来了前所未有的性能提升。从广为人知的GPT到BERT,预

发表于 05-05 12:17

【大语言模型：原理与工程实践】揭开大语言模型的面纱

维基百科、网页内容和书籍等，不仅掌握了语言的语法、语义和上下文信息，还能生成结构连贯、语义合理的句子和段落。大语言模型的一个显著特点是其庞大

发表于 05-04 23:55

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

一阶段训练的奖励模型，对有监督微调模型对用户提示词补全结果的质量进行评估，与语言模型建模目标综合

发表于 03-11 15:16

谷歌模型框架是什么软件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架，其中最著名的是TensorFlow。TensorFlow是一

发表于 03-01 16:25 •753次阅读

谷歌模型训练软件有哪些？谷歌模型训练软件哪个好？

谷歌在模型训练方面提供了一些强大的软件工具和平台。以下是几个常用的谷歌模型

发表于 03-01 16:24 •779次阅读

谷歌模型训练软件有哪些功能和作用

谷歌模型训练软件主要是指ELECTRA，这是一种新的预训练方法，源自谷歌

发表于 02-29 17:37 •709次阅读

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

训练是MetaAI研究人员认为的一种降低模型使用成本的方式。为了更好的效果，即便是LLaMA最小的70亿参数的版本，其训练使用的tokens

发表于 12-22 10:18

搜索历史

谷歌训练开发一个万亿参数的AI语言模型

评论

AI大模型的训练数据来源分析

如何训练自己的AI大模型

英伟达Blackwell可支持10万亿参数模型AI训练，实时大语言模型推理

苹果承认使用谷歌芯片来训练AI

ai大模型和ai框架的关系是什么

大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的应用

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】揭开大语言模型的面纱

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

谷歌模型框架是什么软件？谷歌模型框架怎么用？

谷歌模型训练软件有哪些？谷歌模型训练软件哪个好？

谷歌模型训练软件有哪些功能和作用

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B