ChatGPT语言模型核心技术之Transformer

Transformer：ChatGPT语言模型背后的核心技术

Transformer是一种用于序列到序列（Sequence-to-Sequence）任务的神经网络模型，例如机器翻译，语音识别和生成对话等。它使用了注意力机制来计算输入序列和输出序列之间的关系。

Transformer的主要优点是它可以并行地处理输入序列中的所有位置，因此在训练和推理时都有着很好的效率。此外，Transformer没有使用循环结构，因此它不会受长序列的影响，并且在处理长序列时不会出现梯度消失或爆炸的问题。

相比之下，基于循环的模型（例如基于LSTM的模型）可能在处理长序列时会出现问题，因为它们必须逐个处理序列中的位置，这会使它们的训练速度变慢。另一方面，Transformer在处理短序列时可能不如基于循环的模型那么准确，因为它没有循环结构可以保留先前位置的信息。

总的来说，Transformer是一种很有效的模型，特别是在处理较长的序列和并行化计算时。它已经成为了NLP（自然语言处理）领域中许多序列到序列任务的首选模型。

Transformer模型最初是由Vaswani等人在2017年提出的，并且在自然语言处理（NLP）领域得到了广泛应用。

其中著名的模型包括：

· BERT（Bidirectional Encoder Representations from Transformers）：这是一种语言模型，它能够在许多NLP任务中取得最先进的性能。

· GPT（Generative Pre-training Transformer）：这是一种自然语言生成模型，能够生成各种文本，包括新闻文章，小说和代码等。

· Transformer-XL：这是一种扩展的Transformer模型，能够处理更长的序列，并且在很多NLP任务中取得了最先进的性能。

除了NLP领域，Transformer也被用于其他领域，包括计算机视觉，音频信号处理和强化学习等。

Transformer是一种非常强大的神经网络模型，但是它也有一些局限性。

其中一个局限性是它依赖于输入序列的长度。由于Transformer使用注意力机制来计算输入序列和输出序列之间的关系，因此它可能难以处理较长的序列。虽然有一些变体，例如Transformer-XL，可以更好地处理长序列，但是它们仍然存在这个问题。

另一个局限性是Transformer模型对于处理序列中的时间依赖性不太友好。由于Transformer没有使用循环结构，因此它无法保留序列中先前位置的信息。这意味着Transformer在处理序列中的时间依赖性时可能不太准确，例如在处理语音信号时。

总的来说，Transformer是一种很有效的模型，但是它并不是万能的。在选择模型时，应该考虑序列的长度和时间依赖性等因素，并确定Transformer是否是合适的选择。

Transformer基本介绍

transformer 最早使用于NLP模型中，使用了 Self-Attention 机制。相较于RNN结构可以进行并行化训练，能够拥有全局信息。

scale dot-product attention

self-attention 过程图

query q 对 key k做attention：

softmax归一化：

权重乘value v 输出转化值：

合并之前的三个图中操作：

image-20210517170611977.png

Transformer架构

Feed-Forward组件：

应用方向

自然语言处理使用场景：机器翻译

Transformer:[2017] attention is all you need

Bert[2018]: Elmo, GPT

参数文件大小：
BERT（BASE） (L=12, H=768, A=12, Total Parameters=110M)

BERT（LARGE） (L=24, H=1024,A=16, Total Parameters=340M)

机器视觉中技术的演进

IGPT：
借鉴bert思想，OpenAI尝试对测试数据随机mask 5 个token，最终ImageNet结果果然上升了一些（红色）。由于马赛克操作过于严重（整张图片都mask了），尽管事实证明还是有效果的，但从输入上看，降低了模型的拟合能力。

VIT：

尝试过三种预训练方法，首先mask掉50%的patch，然后：

只预测patch的mean color

只预测一个马赛克版的patch

用L2损失预测所有pixel。

第三种方式已经非常接近了，但是由于研究的重点不在于此便浅尝辄止了

DEIT：
在预训练阶段，最多会mask 40%的patch。
另外，作者们其实也试过复原pixel，但效果会有1.8%的下降。对于这个现象，BEiT给出的猜想是，就像多层CNN一样，编码器最终得到的应该是一个更全局、高维的表示，而复现pixel会让后几层太关注局部细节。

MAE：
轻量级架构的两大核心：

encoder输入只包含没有mask的像素。并且使用的是VIT的encoder block。
2.vit-huge 模型mask 的比例很高时（75%）效果依旧表现很好（accuracy 87.8%），同时可以加速预训练过程。预训练时仅仅只使用了imagenet-1k data。

一些值得注意的细节，比如：

1.输入侧直接丢掉mask token，效果+0.7，效率x3.3

预测normalize之后的pixel，效果+0.5

3.选取数据增强策略，效果+0.2

思考：导致视觉和语言的masked autoencoder 不一样的三大原因

结构：CNN天然适用于图像，但是应用transformer缺显得很不自然。不过这个问题被vit解了，后续又有IGPT的马赛克、dVAE的离散化，patch形态相对来说信息损失最少且高效。

信息密度：语言的含义比较多，一个单词可能有很多解释。而图片直观易表示。所以预测的时候图片patch比预测单词更容易。预测patch稍微有点周边信息就够了，可以放心大胆的mask。这点ViT、BEiT其实也都有，但主要就是最后一点没有深究。

需要一个Decoder：因为图片信息密度有限，复原pixel这种细粒度信息会让模型强上加强。那怎么优雅地复原呢？BEiT已经说过了，在预训练图像encoder的时候，太关注细节就损失了高维抽象能力。所以凯明大神加了一个decoder。到这里分工就很明确了，encoder负责抽取高维表示，decoder则负责细粒度还原。

规模大的简单算法是深度学习的核心。在NLP中，简单的自我监督学习方法能够从模型的规模中获益。在计算机视觉中，实用的预训练范例主要是监督式的。在这项研究中，自我监督学习已经取得了进展。我们在ImageNet和迁移学习中观察到自动编码器（一种类似于NLP技术的简单的自我监督方法）与NLP中的技术类似，提供了可扩展的好处。视觉中的自我监督学习现在可能会走上一条与NLP类似的轨迹。另一方面，我们注意到，图像和语言是不同性质的信号，这种差异必须仔细处理。图像仅仅是记录的光，没有语义分解为视觉类似物的语义分解。我们不是试图去除物体，而是去除很可能不构成语义段的随机斑块。同样地，我们的MAE重建了像素，而这些像素并不是语义实体。从测试的结果上看，MAE能推断出了复杂的、整体的重建，这表明它已经学会了许多视觉概念（语义）。我们假设，这种行为的发生通过MAE内部丰富的隐藏表征。我们希望这个观点能给未来的工作带来启发。更广泛的影响。建议的方法预测内容基于训练数据集的学习统计，因此将反映这些数据中的偏差，包括具有负面社会影响的偏差。该模型可能产生不存在的内容。这些问题值得在这项工作的基础上进一步研究和考虑，以生成图像。

未来展望：

有可能取代所有组件。

每个领域都可尝试，遍地开花。

一文读懂Transformer 主流的序列到序列模型是基于编码器-解码器的循环或卷积神经网络，注意力机制的提出，优化了编解码器的性能，从而使得网络性能达到最优。利用注意力机制构建出新的网络架构Transformer, 完胜了循环或卷积神经网络。Transformer 是第一个完全依赖于自注意力机制来计算其输入和输出的表示的转换模型。Transformer可以并行训练，训练时间更短。 1 Transformer的模型架构序列到序列模型采用的是编码器-解码器结构，编码器将输入序列（,,……,映射成符号表示z=（,,……,,根据给定的Z ，解码器生成输出序列（,,……,,在每一个步长里，模型利用前一个步长中生成的向量和该步长的输入，生成输出符号。 Transformer模型架构如图1-1所示，编码器-解码器结构采用堆叠的多头注意力机制加全连接层，图中左边的是编码器结构，右边的是解码器结构：

图 1-1 堆叠的编码器-解码器结构

编码器：编码器由6个相同的块结构堆叠而成 N=6，每个块结构进一步分成两个子层：即一个多头的自注意力机制和一个前馈网络全连接层，在块中的每一个子层之后，增加一个归一化层（Add&Norm）,每个子层的输出均为归一化的LayerNorm(x + Sublayer(x))，包括词嵌入层，模块中所有子层的输出的维数均为512，即 = 512。解码器：同理，解码器也由6个相同的块结构堆叠而成 N=6，每个块结构在编码器两个子层的基础之上，增加了第三个子层，即增加了一个多头自注意力子层。与编码器类似，在块中的每一个子层之后，增加一个归一化层（Add&Norm）。在解码器端，对解码器堆栈中的自注意力子层进行了修改，以防止位置编码和后续位置编码相关，通过这种掩蔽，确保了对位置i的预测只能依赖于小于i的位置的已知输出。 2 Self-attention 自注意力机制 Attention 函数将三元组Q(Query)、K(Key)、V(Value) 映射成输出，其中三元组Q(Query)、K(Key)、V(Value)和输出均为向量，输出是V(Value)的加权和，其中的权重是Q(Query)和K(Key)对应的组合计算出来的数值。 1)带缩放的点积注意力机制Scaled dot-product attention 带缩放的点积注意力机制(Scaled dot-product attention )的公式如下：

在上面公式中Q和K中的向量维度都是，V的向量维度是，计算所有K向量和Q向量的点积，分别除以，并应用一个Softmax函数来获得这些值的权重。实际上在self-Attention中，，为了方便将Attention的计算转化为矩阵运算，论文中采用了点积的形式求相似度。常见的计算方法除了点积还有MLP网络，但是点积能转化为矩阵运算，计算速度更快。两个最常用的注意力函数是：加注意力函数（Additive Attention）和点积注意力函数（Dot-product Attention）。除了的缩放因子外，带缩放的点积注意力机制采用的是点积注意力函数，加注意力函数使用具有单个隐含层的前馈网络来计算兼容性函数。虽然这两者在理论复杂度上相似，但点积注意力函数更快，更节省空间，因为它可以使用高度优化的矩阵乘法码来实现。而对于较小的值，这两种机制的性能相似，但在不加大更大的值的情况下，加注意力函数优于点积注意力函数。对于较大的值，点积相应变大，将Softmax函数推到梯度极小的区域。为了抵消这种影响，我们通过来缩放点积。 Transformer模型在三处采用了多头注意力机制:

在编码器-解码器注意力层，Q值来自上一个解码器层，K值和V值来自编码器的输出,从而使得解码器的每一个位置信息均和输入序列的位置信息相关，这种架构模仿了序列到序列模型编解码器注意力机制。

编码器中包括自注意力层，在自注意力层中，Q 值、K值和V值均来自编码器上一层的输出，编码器中的位置信息参与到前一层的位置编码中去。

同理，解码器中的自注意力机制使得解码器中的位置信息均参与到所有位置信息的解码中去。

2)全连接前馈网络在Transfomer编码器-解码器架构的每一块中，除了包含多头注意力机制外，还包含一个全连接前馈网络，全连接前馈网络层包含两次ReLU激活函数的线性变换。

不同层之间的全连接前馈网络的参数各不相同，模型输入输出的维度是512 = 512, 层内部的维度是2048 ，即= 2048。 3)嵌入和Softmax 和其它序列到序列的模型相类似，Transformer模型利用词嵌入技术将输入标记和输出标记转化为维度为的向量，采用可训练的线性变换和Softmax函数，将解码器的输出变换成待预测的下一个标记的概率。在Transformer模型中，两个嵌入层和Softmax层之间共享权重矩阵。 3 位置编码Positional Encoding 由于Transformer模型中既没有递归，也没有卷积，需要获得输入序列精准的位置信息的话，必须插入位置编码。位置编码精准地描述了输入序列中各个单词的绝对和相对位置信息，即在编码器-解码器的底部输入嵌入中注入“位置编码”，位置编码和输入嵌入有相同的维度，所以二者可以实现相加运算，位置编码方式可以有多种，在Transformer模型中采用的是频率不同的三角函数：

其中pos 是位置，i是维数，也就是说，位置编码的每个维数都对应于一个正弦曲线。波长从2π到10000·2π的几何变化。之所以选择这个函数是因为假设它使得模型很容易地学习相对位置，对于任何固定偏移量k，可以表示为的线性函数。首先，将自注意力机制和循环卷积网络（RNN ）和卷积神经网络（CNN）进行对比,比较它们在变长序列从三个因素来考量采用自注意力机制：首先是每一层计算的复杂程度；其次，是可以并行计算的计算量，用对序列操作的最小数目表示；第三，是网络中最长相关路径的长度。在序列学习任务中，对长序列相关性的学习是关键性的难点问题，前向和后向信号路径的长度往往是影响学习效率的关键因素，输入和输出序列之间的位置越短，前向和后向信号路径则越短，更容易学习到长序列的依赖关系，通过对比网络中输入输出序列位置的最长通路路径，来回答为什么采用自注意力机制来搭建Transformer模型。

表 3-1 不同层序列操作的的最大路径长度、每层的复杂性和最小操作数如表3-1所示：不同层序列操作的的最大路径长度、每层的复杂性和最小操作数。n是序列长度，d是表示维数，k是卷积的核大小，r是受限自注意力中的邻域的大小。在表3-1中，自注意力机制通过操作将序列的位置信息关联起来，而RNN则需要对序列进行次操作。从计算的复杂程度来看，当序列长度n小于表示向量的维度d 时，在机器翻译任务中性能能达到最优。为了提高超长输入序列的计算性能，限制自注意力中的邻域r的大小,从而会使得最长相关路径的长度变为。卷积核维度为k 的单卷积层无法实现所有输入和输出位置信息的连接，所以要求有层卷积层堆叠，使得最长相关路径的长度变长。通常，CNN的训练成本比RNN的训练成本要高。从表3-1中的对比还可以看出，自注意力机制在复杂程度、并行计算的计算量和网络中最长相关路径的长度三方面均占有优势。 4 Transformer 模型的训练

4.1训练数据和批次大小

在标准的WMT2014英语-德语数据集上进行训练，这个数据集包括大约450万个句子数据对。句子采用字节对编码进行编码，源-目标词汇表中共享大约37000个标记。对于英语-法语，使用了更大的WMT2014英语-法语数据集，由3600万个句子组成，并将标记分割为32000词汇。句子对按近似的序列长度排列在一起。每个训练批都包含一组句子对，其中包含大约25000个源标记和25000个目标标记。

4.2 硬件配置

使用8 NVIDIAP100 GPU上训练了Transfomer模型，使用超参数的基本模型，每个训练步长大约需要花费0.4秒的时间，对基本模型总共训练了10万步或12个小时。对于大模型，步长时间为1.0秒，大模型训练了30万步（3.5天）。

4.3 优化器

采用Adam 优化器，参数设置为h β1 = 0.9, β2 = 0.98，并依据下述公式调整学习率：

对应于第一个warmup_steps训练步长，学习率线性增加，在后续步长中，学习率随着步长的平方根成正比例下降，其中，warmup_steps =4000。

4.4 正则化

在训练过程中采用了三种正则化方法：残差Dropout：在添加子层的输入和归一化之前，将Dropout机制应用于每个子层的输出，同时在编码器-解码器堆叠的嵌入过程和位置编码过程中加入Dropout机制，= 0.1。

4.5 训练结果

机器翻译在WMT2014英德翻译任务中，Transformer (big)比之前报告的最佳模型（包括集成）高出2.0多个BLEU，获得BLEU分数为28.4。该模型的配置列于表5-2的底部。在8个P100 GPU 上进行训练需要3.5天。甚至基本模型也超过了所有之前发布的模型和集合，训练成本也大幅度缩减。在WMT2014年英法翻译任务中Transformer (big)获得了BLEU分值为 41.0分，优于之前发布的所有其它模型，训练成本降低 1/4。

表4.5-1 在英德和英法翻译任务中Transformer模型的BLUE 分值和其它模型BLUE 分值的对比（来源：网络）表4.5-1同时将翻译质量和训练成本与其他模型架构的翻译质量和训练成本进行了比较。通过比较训练时间、所使用的GPU的数量以及对每个GPU5的持续单精度浮点容量的估计来估计用于训练模型的浮点操作的数量。为了评估Transformer模型是否可以推广到其他任务，在英语选区解析上进行了实验。这个任务提出了具体的挑战：输出受到强大的结构约束，且长度远远长于输入。此外，RNN序列对序列模型还无法在小数据体系中获得最为先进的结果。通过在宾夕法尼亚州《华尔街日报》的数据集上训练了大约40K句子，数据模型为的4层Transformer。此外，还在半监督设置下训练它，使用更大的高置信度和伯克利解析器语料库，大约1700万语句。对《华尔街日报》的设置使用了16K标记词汇，对半监督的设置使用了32K标记词汇。结论：Transformer是采用自注意力机制的序列到序列模型，在编码器-解码器架构的神经网络中，用多头自注意力机制取代了RNN 层。对于翻译任务，Transformer的训练速度可以比基于循环层或卷积层的体系架构要快得多。关于2014WMT英德语和WMT2014英法翻译任务，实现了不错的性能。在前一项任务中，Transformer模型的性能甚至优于之前报告的所有其它模型。

作者简介

陈之炎，北京交通大学通信与控制工程专业毕业，获得工学硕士学位，历任长城计算机软件与系统公司工程师，大唐微电子公司工程师。目前从事智能化翻译教学系统的运营和维护，在人工智能深度学习和自然语言处理（NLP）方面积累有一定的经验。

Transformer也不是万能的

Transformer 最初出现在 2017 年的一篇论文中：《Attention Is All You Need》。在其他人工智能方法中，系统会首先关注输入数据的局部 patch，然后构建整体。例如，在语言模型中，邻近的单词首先会被组合在一起。相比之下，Transformer 运行程序以便输入数据中的每个元素都连接或关注其他元素。研究人员将此称为「自注意力」。这意味着一旦开始训练，Transformer 就可以看到整个数据集的迹。

在 Transformer 出现之前，人工智能在语言任务上的进展一直落后于其他领域的发展。「在过去 10 年发生的这场深度学习革命中，自然语言处理在某种程度上是后来者，」马萨诸塞大学洛厄尔分校的计算机科学家 Anna Rumshisky 说，「从某种意义上说，NLP 曾落后于计算机视觉，而 Transformer 改变了这一点。」

Transformer 很快成为专注于分析和预测文本的单词识别等应用程序的引领者。它引发了一波工具浪潮，比如 OpenAI 的 GPT-3 可以在数千亿个单词上进行训练并生成连贯的新文本。

Transformer 的成功促使人工智能领域的研究者思考：这个模型还能做些什么？

答卷正在徐徐展开——Transformer 被证明具有惊人的丰富功能。在某些视觉任务中，例如图像分类，使用 Transformer 的神经网络比不使用 Transformer 的神经网络更快、更准确。对于其他人工智能领域的新兴研究，例如一次处理多种输入或完成规划任务，Transformer 也可以处理得更多、更好。

「Transformer 似乎在机器学习领域的许多问题上具有相当大的变革性，包括计算机视觉，」在慕尼黑宝马公司从事与自动驾驶汽车计算机视觉工作的 Vladimir Haltakov 说。

就在十年前，AI 的不同子领域之间还几乎是互不相通的，但 Transformer 的到来表明了融合的可能性。「我认为 Transformer 之所以如此受欢迎，是因为它展示出了通用的潜力，」德克萨斯大学奥斯汀分校的计算机科学家 Atlas Wang 说：「我们有充分的理由尝试在整个 AI 任务范围内尝试使用 Transformer。」

从「语言」到「视觉」

在《Attention Is All You Need》发布几个月后，扩展 Transformer 应用范围的最有希望的动作就开始了。Alexey Dosovitskiy 当时在谷歌大脑柏林办公室工作，正在研究计算机视觉，这是一个专注于教授计算机如何处理和分类图像的 AI 子领域。

Alexey Dosovitskiy。

与该领域的几乎所有其他人一样，他一直使用卷积神经网络 (CNN) 。多年来，正是 CNN 推动了深度学习，尤其是计算机视觉领域的所有重大飞跃。CNN 通过对图像中的像素重复应用滤波器来进行特征识别。基于 CNN，照片应用程序可以按人脸给你的照片分门别类，或是将牛油果与云区分开来。因此，CNN 被认为是视觉任务必不可少的。

当时，Dosovitskiy 正在研究该领域最大的挑战之一，即在不增加处理时间的前提下，将 CNN 放大：在更大的数据集上训练，表示更高分辨率的图像。但随后他看到，Transformer 已经取代了以前几乎所有与语言相关的 AI 任务的首选工具。「我们显然从正在发生的事情中受到了启发，」他说，「我们想知道，是否可以在视觉上做类似的事情？」这个想法某种程度上说得通——毕竟，如果 Transformer 可以处理大数据集的单词，为什么不能处理图片呢？

最终的结果是：在 2021 年 5 月的一次会议上，一个名为 Vision Transformer（ViT）的网络出现了。该模型的架构与 2017 年提出的第一个 Transformer 的架构几乎相同，只有微小的变化，这让它能够做到分析图像，而不只是文字。「语言往往是离散的，」Rumshisky 说：「所以必须使图像离散化。」

ViT 团队知道，语言的方法无法完全模仿，因为每个像素的自注意力在计算时间上会非常昂贵。所以，他们将较大的图像划分为正方形单元或 token。大小是任意的，因为 token 可以根据原始图像的分辨率变大或变小（默认为一条边 16 像素），但通过分组处理像素，并对每个像素应用自注意力，ViT 可以快速处理大型训练数据集，从而产生越来越准确的分类。

Transformer 能够以超过 90% 的准确率对图像进行分类，这比 Dosovitskiy 预期的结果要好得多，并在 ImageNet 图像数据集上实现了新的 SOTA Top-1 准确率。ViT 的成功表明，卷积可能不像研究人员认为的那样对计算机视觉至关重要。

与 Dosovitskiy 合作开发 ViT 的谷歌大脑苏黎世办公室的 Neil Houlsby 说：「我认为 CNN 很可能在中期被视觉 Transformer 或其衍生品所取代。」他认为，未来的模型可能是纯粹的 Transformer，或者是为现有模型增加自注意力的方法。

一些其他结果验证了这些预测。研究人员定期在 ImageNet 数据库上测试他们的图像分类模型，在 2022 年初，ViT 的更新版本仅次于将 CNN 与 Transformer 相结合的新方法。而此前长期的冠军——没有 Transformer 的 CNN，目前只能勉强进入前 10 名。

Transformer 的工作原理

ImageNet 结果表明，Transformer 可以与领先的 CNN 竞争。但谷歌大脑加州山景城办公室的计算机科学家 Maithra Raghu 想知道，它们是否和 CNN 一样「看到」图像。神经网络是一个难以破译的「黑盒子」，但有一些方法可以窥探其内部——例如通过逐层检查网络的输入和输出了解训练数据如何流动。Raghu 的团队基本上就是这样做的——他们将 ViT 拆开了。

Maithra Raghu

她的团队确定了自注意力在算法中导致不同感知的方式。归根结底，Transformer 的力量来自于它处理图像编码数据的方式。「在 CNN 中，你是从非常局部的地方开始，然后慢慢获得全局视野，」Raghu 说。CNN 逐个像素地识别图像，通过从局部到全局的方式来识别角或线等特征。但是在带有自注意力的 Transformer 中，即使是信息处理的第一层也会在相距很远的图像位置之间建立联系（就像语言一样）。如果说 CNN 的方法就像从单个像素开始并用变焦镜头缩小远处物体的像的放大倍数，那么 Transformer 就是慢慢地将整个模糊图像聚焦。

这种差异在 Transformer 最初专注的语言领域更容易理解，思考一下这些句子：「猫头鹰发现了一只松鼠。它试图用爪子抓住它，但只抓住了尾巴的末端。」第二句的结构令人困惑：「它」指的是什么？只关注「它」邻近的单词的 CNN 会遇到困难，但是将每个单词与其他单词连接起来的 Transformer 可以识别出猫头鹰在抓松鼠，而松鼠失去了部分尾巴。

显然，Transformer 处理图像的方式与卷积网络有着本质上的不同，研究人员变得更加兴奋。Transformer 在将数据从一维字符串（如句子）转换为二维数组（如图像）方面的多功能性表明，这样的模型可以处理许多其他类型的数据。例如，Wang 认为，Transformer 可能是朝着实现神经网络架构的融合迈出的一大步，从而产生了一种通用的计算机视觉方法——也许也适用于其他 AI 任务。「当然，要让它真正发生是有局限性的，但如果有一种可以通用的模型，让你可以将各种数据放在一台机器上，那肯定是非常棒的。」

关于 ViT 的展望

现在研究人员希望将 Transformer 应用于一项更艰巨的任务：创造新图像。GPT-3 等语言工具可以根据其训练数据生成新文本。在去年发表的一篇论文《TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up》中，Wang 组合了两个 Transformer 模型，试图对图像做同样的事情，但这是一个困难得多的问题。当双 Transformer 网络在超过 200000 个名人的人脸上进行训练时，它以中等分辨率合成了新的人脸图像。根据初始分数（一种评估神经网络生成的图像的标准方法），生成的名人面孔令人印象深刻，并且至少与 CNN 创建的名人一样令人信以为真。

Wang 认为，Transformer 在生成图像方面的成功比 ViT 在图像分类方面的能力更令人惊讶。「生成模型需要综合能力，需要能够添加信息以使其看起来合理，」他说。与分类领域一样，Transformer 方法正在生成领域取代卷积网络。

Raghu 和 Wang 还看到了 Transformer 在多模态处理中的新用途。「以前做起来比较棘手，」Raghu 说，因为每种类型的数据都有自己的专门模型，方法之间是孤立的。但是 Transformer 提出了一种组合多个输入源的方法。

「有很多有趣的应用程序可以结合其中一些不同类型的数据和图像。」例如，多模态网络可能会为一个系统提供支持，让系统除了听一个人的声音外，还可以读取一个人的唇语。「你可以拥有丰富的语言和图像信息表征，」Raghu 说，「而且比以前更深入。」

这些面孔是在对超过 200000 张名人面孔的数据集进行训练后，由基于 Transformer 的网络创建的。

新的一系列研究表明了 Transformer 在其他人工智能领域的一系列新用途，包括教机器人识别人体运动、训练机器识别语音中的情绪以及检测心电图中的压力水平。另一个带有 Transformer 组件的程序是 AlphaFold，它以快速预测蛋白质结构的能力，解决了五十年来蛋白质分子折叠问题，成为了名噪一时的头条新闻。

Transformer isn't all you need

即使 Transformer 有助于整合和改进 AI 工具，但和其他新兴技术一样，Transformer 也存在代价高昂的特点。一个 Transformer 模型需要在预训练阶段消耗大量的计算能力，才能击败之前的竞争对手。

这可能是个问题。「人们对高分辨率的图像越来越感兴趣，」Wang 表示。训练费用可能是阻碍 Transformer 推广开来的一个不利因素。然而，Raghu 认为，训练障碍可以借助复杂的滤波器和其他工具来克服。

Wang 还指出，尽管视觉 transformer 已经在推动 AI 领域的进步，但许多新模型仍然包含了卷积的最佳部分。他说，这意味着未来的模型更有可能同时使用这两种模式，而不是完全放弃 CNN。

同时，这也表明，一些混合架构拥有诱人的前景，它们以一种当前研究者无法预测的方式利用 transformer 的优势。「也许我们不应该急于得出结论，认为 transformer 就是最完美的那个模型，」Wang 说。但越来越明显的是，transformer 至少会是 AI shop 里所有新型超级工具的一部分。

编辑：黄飞

阅读全文

Transformer(5892) Transformer(5892)
nlp(21784) nlp(21784)
ChatGPT(3870) ChatGPT(3870)

如何计算transformer模型的参数量

1. 前言最近，OpenAI推出的ChatGPT展现出了卓越的性能，引发了大规模语言模型(Large Language Model,LLM)的研究热潮。大规模语言模型的“大”体现在两个方面：模型

2023-07-10 09:13:57

5737

使用Huggingface创建大语言模型RLHF训练流程

ChatGPT已经成为家喻户晓的名字，而大语言模型在ChatGPT刺激下也得到了快速发展，这使得我们可以基于这些技术来改进我们的业务。

2023-12-06 17:02:27

719

大语言模型背后的Transformer，与CNN和RNN有何不同

电子发烧友网报道（文/李弯弯）近年来，随着大语言模型的不断出圈，Transformer这一概念也走进了大众视野。Transformer是一种非常流行的深度学习模型，最早于2017年由谷歌

2023-12-25 08:36:00

1282

31岁无核心技术，迷茫

再有3个月31整，再有9月就到2019了。回首发现，无核心技术，身价也越来越编制，职位上升无望，改怎么办？同龄的你，有什么高见！！！期待您的回复。

2018-03-27 11:39:56

ChatGPT系统开发AI人功智能方案

。ChatGPT是一个由OpenAI开发的人工智能语言模型，可以实现自然语言处理、对话生成等功能。要开发一个类似ChatGPT的人工智能系统软件，可以遵循以下步骤：确定应用场景：确定人工智能系统软件要

2023-05-18 10:16:50

chatGPT一种生产力的变革

，这种形式的AIGC无须经过调整或只经过少量微调就可以迁移到多种生成任务。 2014年诞生的生成对抗网络（GAN）是AIGC早期转向大模型的重要尝试，它利用生成器和判别器的相互对抗并结合其他技术模块

2023-04-25 16:04:09

ABBYY PDF Transformer+改善转换结果之识别语言

在您使用ABBYY PDF Transformer+ 进行转换文档时必须选择正确的语言，否则，您的文档中的文本层将与文档图像中的文本不同，导致搜索和复制功能失效。本文小编将给大家讲讲如何更改

2017-10-18 10:09:50

ARM9 E-S核心技术参考手册

ARM9E-S核心技术参考手册

2023-08-02 12:00:18

Arm Cortex-A65核心技术参考手册

2023-08-02 07:38:58

Arm Cortex-A7 8C核心技术参考手册

Arm Cortex-A78C核心技术参考手册

2023-08-02 13:44:07

ENC+ANC TWS耳机核心技术包括哪些？

ENC+ANC TWS耳机核心技术包括哪些？

2021-07-12 06:10:08

H.264/AVC是什么？ H.264/AVC有哪些核心技术？

H.264/AVC是什么？H.264/AVC有哪些核心技术？

2021-06-02 07:15:28

H.264与AVS视频标准核心技术有什么不同？

H.264与AVS视频标准核心技术有什么不同？

2021-06-03 06:57:50

MIMO之新一代移动通信核心技术

MIMO：新一代移动通信核心技术

2020-07-17 16:38:06

MLCC的主要材料和核心技术及LCC的优点

什么是MLCCMLCC的主要材料和核心技术及LCC的优点

2021-02-05 06:59:47

MP6517有哪些核心技术优势及应用实例？

MP6517有哪些核心技术优势？MP6517有哪些应用实例？

2021-06-15 09:03:32

MPQ4488GU-AEC1是什么？有哪些核心技术优势？

MPQ4488GU-AEC1是什么？MPQ4488GU-AEC1有哪些核心技术优势？MPQ4488GU-AEC1的方案规格是什么？

2021-07-04 07:18:36

QCC3020是什么？QCC3020有哪些核心技术优势？

QCC3020是什么？其重要功能是什么？QCC3020有哪些核心技术优势？

2021-07-12 06:12:15

SOC设计领域的核心技术-软/硬件协同设计

SOC设计领域的核心技术-软/硬件协同设计摘要：基于IP库的SOC必将是今天与未来微电子设计领域的核心。它既是一种设计技术，也是一种设计方法学。一块SOC上一定会集成各种纯硬件IP、和作为软件载体

2009-11-19 11:19:30

Small Cell是什么？Small Cell的核心技术包括哪些？

Small Cell是什么？Small Cell的核心技术包括哪些？

2021-05-24 06:11:54

【书籍评测活动NO.30】大规模语言模型：从理论到实践

2022年11月，ChatGPT的问世展示了大模型的强大潜能，对人工智能领域有重大意义，并对自然语言处理研究产生了深远影响，引发了大模型研究的热潮。距ChatGPT问世不到一年，截至2023年10

2024-03-11 15:16:39

【书籍评测活动NO.31】大语言模型：原理与工程实践

的视角，以揭示大语言模型的精妙之处。本书的一大特色体现在其知识体系的系统性。我们从数据处理的基础工作（如数据清洗与去重）讲起，逐步深入，探讨预训练、微调技术和强化对齐技术等核心技术环节。同时，书中

2024-03-18 15:49:46

【原创】Android视频直播核心技术

【原创】Android视频直播核心技术回复即可获取下载链接[hide=d15]链接:http://pan.baidu.com/s/1cC6wbW 密码:smj8 学习群：150923287 [/hide]

2016-07-26 17:43:59

不到1分钟开发一个GPT应用！各路大神疯狂整活，网友：ChatGPT就是新iPhone

的能力仍然是不可替代的。此外，ChatGPT等语言模型的应用也需要大量的数据和算力支持，以及专业的技术人员进行开发和维护。因此，虽然ChatGPT等语言模型在某些方面具有一定的优势，但它们并不能完全取代

2023-11-19 12:06:10

云计算的五大核心技术

云计算的核心技术有哪些？大数据云计算学习路线

2019-06-28 09:41:47

五大核心技术如何实现物联网

以下是实现物联网的五大核心技术：核心技术之感知层：传感器技术、射频识别技术、二维码技术、微机电系统1.传感器技术传感技术同计算机技术与通信技术一起被称为信息技术的三大技术。从仿生学观点，如果把计算机

2019-07-25 06:38:59

你了解在单GPU上就可以运行的Transformer模型吗

最近，谷歌推出了Reformer架构，Transformer模型旨在有效地处理处理很长的时间序列的数据(例如，在语言处理多达100万个单词)。Reformer的执行只需要更少的内存消耗，并且即使在

2022-11-02 15:19:41

佳灵变频器故障与维修核心技术

佳灵变频器故障与维修核心技术

2012-08-05 20:55:08

光伏核心技术：太阳能LED照明之高效驱动技术研究

光伏核心技术：太阳能LED照明之高效驱动技术研究  [/hide]

2009-10-19 15:21:41

单片机应用的核心技术是什么？

单片机应用的核心技术是什么？单片机神奇的工作原理是什么？汇编语言很难学怎么办？

2021-11-02 06:17:40

如何更改ABBYY PDF Transformer+界面语言

在安装ABBYY PDF Transformer+时会让您选择界面语言。此语言将用于所有消息、对话框、按钮和菜单项。在特殊情况下，您可能需要在安装完成后更改界面语言以适应需求，方法其实很简单，本文

2017-10-11 16:13:38

嵌入式系统设计的核心技术有哪些？

嵌入式系统设计的核心技术有哪些？

2021-04-27 06:14:10

无线远程监控系统主要包括哪些核心技术？

无线远程监控系统主要包括哪些核心技术？

2021-05-25 06:45:17

机器翻译三大核心技术原理 | AI知识科普

。2014年谷歌和蒙特利尔大学提出的第三代机器翻译技术，也就是基于端到端的神经机器翻译，标志着第三代机器翻译技术的到来。看完了机器翻译技术的迭代发展，我们来了解下三代机器翻译的核心技术：规则机器翻译、统计

2018-07-06 10:30:22

汽车防眩目自适应远光灯系统有哪些核心技术优势？

基于NXP S32K144和TI TPS***-Q1的汽车防眩目自适应远光灯系统（ADB）解决方案有哪些核心技术优势？

2021-07-09 07:39:54

科技大厂竞逐AIGC，中国的ChatGPT在哪？

信通院云计算与大数据研究所人工智能部副主任董晓飞说。算法、算力及数据是人工智能行业发展的三大核心要素。在算法层面，ChatGPT的基础是世界上最强大的LLM（大语言模型）之一——GPT-3，同时

2023-03-03 14:28:48

蓝牙核心技术概述

蓝牙核心技术概述（一）：蓝牙概述蓝牙核心技术概述（二）：蓝牙使用场景蓝牙核心技术概述（三）：蓝牙协议规范（射频、基带链路控制、链路管理）蓝牙核心技术概述（四）：蓝牙协议规范（HCI、L2CAP

2014-11-24 16:06:30

视频标准核心技术对比分析哪个好

视频标准核心技术对比分析哪个好

2021-06-07 06:12:34

请问一下S32V234的核心技术优势有哪些？

请问一下S32V234的核心技术优势有哪些？

2021-07-12 07:32:25

CPU核心技术

CPU核心技术核心（Die）又称为内核，是CPU最重要的组

2009-12-18 09:54:16

1229

网络核心技术原理是什么?

网络核心技术原理是什么? 核心网络是其他网络汇入的中心网络。它的带宽必须能支持所有汇入。传统上,核心网络是面向电路的电话系统。最近,

2010-03-20 14:47:33

745

蓝牙核心技术

蓝牙核心技术(供通信行业研究开发人员）有需要的可以参考下

2015-12-29 17:28:10

什么是传感网_传感网的核心技术有哪些

本文主要从六个方面详细的介绍了传感网的核心技术，其次介绍了传感网的特点是什么。

2018-04-13 15:00:40

22450

关键核心技术是国之重器

建设科技强国是一场新的长征，补上关键核心技术短板需要持之以恒，久久为功！要发挥我国社会主义制度能够集中力量办大事的优势，优化配置优势资源，推动重要领域关键核心技术攻关。习近平总书记在科学家座谈会

2020-09-29 15:14:04

3961

区块链的核心技术是什么

区块链的核心技术是什么？区块链的核心技术能带来什么改变，区块链是一项全新技术，去中心化，不可篡改，个人主权掌控（账号，资产，数据），这是区别于传统互联网技术的特点。区块链是全新的革命技术，有着全新

2020-12-28 13:56:59

16095

超大Transformer语言模型的分布式训练框架

NVIDIA Megatron 是一个基于 PyTorch 的框架，用于训练基于 Transformer 架构的巨型语言模型。本系列文章将详细介绍Megatron的设计和实践，探索这一框架如何助力

2021-10-11 16:46:05

2226

ChatGPT在电磁领域的作用分析

ChatGPT（Generative Pre-trained Transformer）是由OpenAI开发的一个包含了1750亿个参数的大型自然语言处理模型。

2023-02-02 11:18:53

386

ChatGPT背后的核心技术

和计算性能开始广泛地使用在AI各个领域，成为最近几年最流行的AI算法模型，无论是这篇论文还是transformer模型，都是当今AI科技发展的一个缩影。以此为前提，本文分析了这篇论文的核心要点和主要创新初衷。

2023-02-09 16:18:57

42825

ChatGPT入门指南

是基于聊天的生成预训练transformer模型的缩写，是一个强大的工具，可以以各种方式使用，以提高您在许多领域的生产力。 ChatGPT是一种人工智能（AI）技术，被称为自然语言处理（NLP）模型　　由人工智能研发公司OpenAI创建。它使用机器学习算法来分析和理解书面或口头语言，然后根据该输

2023-02-10 11:19:06

看海泰方圆类ChatGPT技术模型！

撰写邮件、视频脚本、文案、翻译、代码等任务，有望成为提高办公、学习效率的工具，应用场景广阔。 ChatGPT：“杀手级”AI应用的出圈 ChatGPT是一个“万事通”：基于GPT 3.5架构的大型语言模型（LLM），通过与用户的自然互动对话完成各种复杂的任务，如求解数学方程式、写

2023-02-10 10:38:20

482

chatgpt怎么用

使用了一种叫做Transformer的神经网络架构，这是一种用于处理序列数据的模型，能够在输入序列中捕捉长期依赖性。它还使用了大量的语料库来训练模型，这些语料库包含了真实世界中的对话，以便模型能够更好地理解人类语言。 chatgpt怎么用？ 1、注册或登录OpenAI账户 OpenAI有一个专门的

2023-02-10 14:22:27

57024

ChatGPT研究框架(2023)

引发的科技浪潮，积极布局生成式AI ，国内厂商(百度、腾讯等)也高度关注ChatGPT ，积极探索前沿技术，相关深度应用也即将推出。 ChatGPT所能实现的人类意图，来自于机器学习、神经网络以及Transformer模型的多种技术模型积累。 Transformer建模方法成熟以后，使用一套统一的

2023-02-13 17:03:58

ChatGPT可能取代哪些岗位？

ChatGPT是一种基于深度学习的自然语言处理技术，它可以用来生成自然语言文本，以及进行自然语言理解和对话管理。它使用了一种叫做Transformer的模型，它可以自动学习文本之间的关系，从而生成新的文本。

2023-02-13 16:51:25

2698

ChatGPT实现原理

）是由OpenAI发明的一种自然语言处理技术。它是一种预训练的深度学习模型，可以用来生成文本，识别语义，做文本分类等任务。 ChatGPT实现原理火爆的ChatGPT，得益于AIGC 背后的关键技术NLP

2023-02-13 17:32:36

74276

ChatGPT介绍和代码智能

一. ChatGPT 1. ChatGPT的自我介绍 2. ChatGPT的前世 2.1GPT-3是啥？General Pre-Training(GPT)，即通用预训练语言模型，是一种利用

2023-02-14 09:33:23

ChatGPT的核心要点

ChatGPT的计算逻辑来自于一个名为transformer的算法，它来源于2017年的一篇科研论文《Attention is all your need》。原本这篇论文是聚焦在自然语言处理领域

2023-02-21 09:33:09

745

ChatGPT/GPT的原理 ChatGPT的技术架构

ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架构开发的对话AI模型，是InstructGPT 的兄弟模型。 ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演练，或用于收集大量对话数据。

2023-02-24 10:05:13

1421

ChatGPT的潜在军事应用分析

ChatGPT与以往公开提供服务的对话机器人相比，性能有了显著提高，这得益于Transformer和GPT等相关技术的发展，Transformer是一种用于序列到序列任务的神经网络模型，使用了注意力

2023-02-28 11:34:38

1013

关于Transformer的核心结构及原理

Thinking Like Transformers 这篇论文中提出了 transformer 类的计算框架，这个框架直接计算和模仿 Transformer 计算。使用 RASP 编程语言，使每个程序编译成一个特殊的 Transformer。

2023-03-08 09:39:00

488

ChatGPT核心技术：transformer的核心算法结构

由于transformer是更高级的神经网络深度学习算法，对数据量有很高要求，这也催生了从小数据如何快速产生大数据的算法，比如GAN对抗网络等。

2023-03-08 10:00:00

789

ChatGPT和OPEN AI的现有困局和可预见的未来

如ChatGPT 是由 OpenAI 研发的一种语言 AI 模型，使用海量语料库来生成与人类相似的反应。ChatGPT 是基于 GPT（generativef pretrained’ transformer）架构搭建的，主要用深度学习来生成连贯且具有意义的文字。

2023-03-10 11:44:13

1045

ChatGPT的核心算法为何如此强大？

结构正是Transformer模型。 Transformer是一种能够同时处理所有输入数据的深度学习模型，最初是为翻译和自动问答等自然语言处理应用开发的。计算机视觉应用领域过去主要采用卷积神经网络（CNN），现在Transformer模型则更为流行，但它不会取代CNN，而是与之配合来提高视

2023-03-17 18:10:01

723

解析ChatGPT背后的技术演进

　　Attention注意力机制与Transformer是大语言模型的基石。　　1）Attention机制在并行计算（效率更高）以及解决长距离信息依赖的能力（效果更好）上优于过去的神经网络模型

2023-03-29 16:57:06

AI大语言模型的原理、演进及算力测算专题报告

GPT是基于Transformer架构的大语言模型，近年迭代演进迅速。构建语言模型是自然语言处理中最基本和最重要的任务之一。GPT是基于Transformer架构衍生出的生成式预训练的单向语言模型，通过对大量语料数据进行无监督学习

2023-04-28 10:01:59

585

大模型及ChatGPT核心技术论文

从Transformer提出到“大规模预训练模型”GPT（Generative Pre-Training）的诞生，再到GPT2的迭代标志Open AI成为营利性公司，以及GPT3和ChatGPT的“出圈”；再看产业界

2023-05-16 09:56:00

523

不翻墙，怎么免费和直接使用ChatGPT？

ChatGPT（Chat Generative Pre-trained Transformer）是一种基于Transformer架构的预训练语言模型，其目标是生成自然流畅的对话文本。它由OpenAI

2023-05-29 09:41:13

14485

ChatGPT背后的大模型技术

中模型普适性增强，一个模型可以适合多种任务和场景。在 AI2.0 中基础的大模型（foundation model）是核心技术。

2023-05-29 11:16:05

858

ChatGPT浪潮下，看中国大语言模型产业发展

ChatGPT的横空出世拉开了大语言模型产业和生成式AI产业蓬勃发展的序幕。本报告将着重分析“OpenAI ChatGPT的成功之路”、“中国类ChatGPT产业发展趋势”、“ChatGPT应用场景与生态建设”、“ChatGPT浪潮下的‘危’与‘机’”四个问题。

2023-06-01 16:49:42

777

ChatGPT是什么？ChatGPT写代码的原理你知道吗

"(Generative Pre-trained Transformer)，这是一种广泛用于自然语言处理的深度学习模型。ChatGPT是基于这种模型的聊天机器人，它可以通过大量的数据训练来不断优化

2023-06-04 17:01:57

2330

ChatGPT的工作原理、特点及应用

的第3代。 chatGPT的核心技术是 GPT-3 架构。它通过使用大量的训练数据来模拟人类的语言行为，并通过语法和语义分析，生成人类可以理解的文本。它可以根据上下文和语境，提供准确和恰当的回答，并模拟多种情绪和语气。这样，就可以让用户在与机器交互时，感受到更加真实和自然的对

2023-06-06 17:41:21

基于Transformer的大型语言模型（LLM）的内部机制

本文旨在更好地理解基于 Transformer 的大型语言模型（LLM）的内部机制，以提高它们的可靠性和可解释性。随着大型语言模型（LLM）在使用和部署方面的不断增加，打开黑箱并了解它们的内部

2023-06-25 15:08:49

991

ChatGPT 是什么

ChatGPT 是什么？ ChatGPT 是一种大型语言模型（LLM），由OpenAI开发。它使用深度学习技术来模拟人类的语言生成和理解能力，可以用于自然语言处理、对话系统等多种

2023-06-27 13:55:15

1684

2D Transformer 可以帮助3D表示学习吗？

预训练的2D图像或语言Transformer：作为基础Transformer模型，具有丰富的特征表示能力。作者选择了先进的2D Transformer模型作为基础模型，例如Vision Transformers (ViTs) 或者语言模型（如BERT）。

2023-07-03 10:59:43

387

谷歌Transformer八子全部“出逃”，他们创作了ChatGPT中的“T”

。Transformer 现在是大型语言模型的关键构建块，该技术是 OpenAI 的 ChatGPT 等流行人工智能产品的基础。

2023-07-16 15:03:57

467

transformer模型详解：Transformer 模型的压缩方法

动机&背景 Transformer 模型在各种自然语言任务中取得了显著的成果，但内存和计算资源的瓶颈阻碍了其实用化部署。低秩近似和结构化剪枝是缓解这一瓶颈的主流方法。然而，作者通过分析发现，结构化

2023-07-17 10:50:43

1172

chatgpt是什么意思 ChatGPT背后的技术原理

　　今天我们为大家带来的文章，深入浅出地阐释了ChatGPT背后的技术原理，没有NLP或算法经验的小伙伴，也可以轻松理解ChatGPT是如何工作的。　　ChatGPT是一种机器学习自然语言处理模型

2023-07-18 17:12:30

chatgpt是什么意思 chatgpt有什么用

有不少教程，搜索观看即可。　　ChatGPT 是一款由 OpenAI 开发的大型语言模型，主要功能是回答用户的问题和完成各种语言任务，如对话生成、文本摘要、翻译、生成文本等。它使用了先进的深度学习技术和海量的语言数据进行训练，可以在各种语言领域提供高质量的语言处理服务

2023-07-19 14:21:00

ChatGPT等大型语言模型的出现会带来哪些风险

近日，美智库兰德公司高级工程师克里斯托弗·莫顿(Christopher Mouton)在C4ISRNET网站撰文，分析ChatGPT等大型语言模型的出现给国家安全带来的新风险。主要观点如下：

2023-08-04 11:44:53

304

ChatGPT原理 ChatGPT模型训练 chatgpt注册流程相关简介

的影响，其注册相对繁琐。那么国内如何注册ChatGPT账号？本文跟大家详细分享GPT账户注册教程，手把手教你成功注册ChatGPT。 ChatGPT是一种自然语言处理模型，ChatGPT全称Chat

2023-12-06 16:28:00

315

盘古大模型和ChatGPT4的区别

盘古大模型和ChatGPT4的区别对于大家尤其是人工智能领域的从业者而言，盘古大模型（PanGu-α）和ChatGPT-4是两个大家的比较关注的模型，这是因为它们都是在当前最先进的自然语言处理领域

2023-08-30 18:27:44

3558

盘古大模型和ChatGPT4

盘古大模型和ChatGPT4 盘古大模型和ChatGPT4：人工智能领域重要的两大进展随着人工智能技术的不断发展，越来越多的模型和算法被开发出来，相继出现了众多重要的技术突破。其中，盘古大模型

2023-08-31 10:15:42

3484

盘古大模型与ChatGPT的模型基础架构

华为盘古大模型以Transformer模型架构为基础，利用深层学习技术进行训练。模型的每个数量达到2.6亿个，是目前世界上最大的汉语预备训练模型之一。这些模型包含许多小模型，其中最大的模型包含1亿4千万个参数。

2023-09-05 09:55:56

1229

揭秘编码器与解码器语言模型

Transformer 架构的问世标志着现代语言大模型时代的开启。自 2018 年以来，各类语言大模型层出不穷。

2023-10-24 11:42:05

337

美国国防部采办中的ChatGPT：高级语言模型的机遇和风险

ChatGPT 是一种人工智能语言模型，是一种根据用户输入生成文本的计算机程序。虽然有许多语言模型，但 ChatGPT 因其能够准确生成类似人类的文本而在最近受到最多关注。

2023-12-05 15:10:48

448

基于Transformer模型的压缩方法

基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用，特别是在自然语言处理（NLP）和计算机视觉（CV）领域。

2024-02-22 16:27:19

211

已全部加载完成

搜索历史

ChatGPT语言模型核心技术之Transformer

评论