OpenAI新模型Sparse Transformer，预测长度超过去30倍-电子发烧友网

OpenAI提出新的神经网络模型“稀疏Transformer”，能够预测文本、图像和声音等序列的后续内容，该模型是对注意力机制的一个改进，预测长度达到之前最佳水平的30倍。

目前人工智能研究的一大挑战是对复杂数据（如图像，视频或声音）中的大范围微妙的相互依赖性进行建模。稀疏Transformer降低了传统注意力机制模型的计算复杂度，将其直接应用于不同的数据类型中。以前，在这些数据上使用的模型是针对某个专门领域设计的，难以扩展到超过几千个元素的序列规模上应用。

此次OpenAI提出的模型可以使用数百个层对数万个元素的序列进行建模，在多个域中实现最先进的性能。稀疏Transformer能够帮助我们构建具有更强的理解世界能力的AI系统。

深度注意力机制

在稀疏Transformer中，每个输出元素都与每个输入元素相连，它们之间的权重是根据环境动态计算的，这个过程称为注意力。虽然这样会让模型比固定连接模式的模型更加灵活，但在实践中需要为每个层和注意力头N×N注意力矩阵，面对元素数量众多的数据类型时会消耗大量的内存，比如图像或原始音频数据。

当矩阵存储在内存中或在后向传递期间重新计算时，深度Transformer的内存消耗情况（64层、4个注意力头）。作为参考，用于深度学习的标准GPU通常配备12-32GB的内存

减少内存消耗一种方法是在反向传播期间从检查点重新计算注意力矩阵，这是深度学习中的一种成熟技术，以增加计算量为代价来减少内存使用。在计算Transformer的注意力矩阵时，意味着最大的内存成本与层数无关，这使我们能够以比以前更大的深度训练神经网络。

实际上，我们发现深度达128层的Transformer在常用数据集基准任务（如CIFAR-10）上的表现优于较浅层的网络。

为了更深入地训练这些模型，我们对Transformer中的操作顺序进行了几次调整，并修改了初始方案。

稀疏注意力机制：显著降低计算复杂度

然而，即使是计算单个注意力矩阵，对于非常大的输入也是不切实际。因此我们使用稀疏注意力模式，即每个输出位置仅计算来自输入位置子集的权重。当子集相对于整个输入集较小时，即使对于非常长的序列，所得到的注意力计算也是容易处理的，算法复杂度为O（N *sqrt {N}），而不是O（N^2）。

为了评估该方法的可行性，我们首先将深度Transformer在图像上的学习注意模式进行可视化，发现许多模型表现出可解释和结构化的稀疏模式。下面的每个图像显示给定的注意头处理哪些输入像素（以白色突出显示）以便预测图像中的下一个值。

当输入部分聚焦在小的子集上并显示出高度的规则性时，该层就是易于稀疏化的。下图为CIFAR-10图像上的128层模型示例。

左图为19层，右图为20层

学习后的128层CIFAR-10网络的多个层的注意力模式（白色高亮部分）。这些层学会将注意力分散在两个维度上。其中第19层总结了每一行的信息，第20层则按列聚合这些信息，从而能够对全面注意力操作进行有效分解。

左图为第6层，右图为第36层

一些层学会了访问位置存储器，无论输入数据或时间步长如何，通常都会访问类似的位置（第6层）。还有的层学习了高度依赖数据的访问模式（第36层）。

虽然许多图层显示出了稀疏结构，某些层还清晰地显示出在整个图像上延伸的动态注意力。为了让网络保持学习这些模式的能力，我们进行了注意力矩阵的二维分解，网络可以通过两个稀疏注意力步骤来关注所有位置。

（左）普通transformer，（中）范围注意力，（右）固定注意力

第一个版本，大范围注意力，大致相当于参与其行和列的每个位置，并且类似于上面的网络学习的注意力模式。（注意，列注意力可以等效地表示成转置矩阵的行注意力）。第二个版本是固定注意力，注意固定列和最新列元素之后的元素，我们发现这种模式在数据不适合二维结构（如文本）时很有用。

实验结果：创造多个数据集上的新纪录

稀疏Transformer在CIFAR-10，Enwik8和Imagenet 64上创造了密度估计的最新记录。如下表所示：

CIFAR-10	BITS PER DIM
PixelCNN++ (Oord et al, 2016)	2.92
Image Transformer (Parmar et. al, 2018)	2.90
PixelSNAIL (Chen et al., 2017)	2.85
Sparse Transformer 59M (256W, 128L, 2H)	2.80

ENWIK8	BITS PER BYTE
Deeper Self-Attention (Al-Rfou et al, 2018)	1.06
Transformer-XL 88M (Dai et al., 2018)	1.03
Transformer-XL 277M (Dai et al., 2018)	0.99
Sparse Transformer 95M (512W, 30L, 8H)	0.99

IMAGENET 64X64	BITS PER DIM
PixelCNN++ (Oord et al, 2016)	3.57
Parallel Multiscale (Reed et al, 2017)	3.7
SPN 150M (Menick & Kalchbrenner, 2018)	3.52
Sparse Transformer 152M (512W, 48L, 16H)	3.44

在一系列数据集上的密度建模表现，M为网络中使用的参数数量（百万），W为网络宽度，L为层数，H为注意力头数量。

我们还发现，除了速度明显更快之外，稀疏注意力模型的损失也要低于完全注意力模型。这可能表明我们的稀疏模式存在有用的归纳偏差，或是密集关注的潜在优化问题。

使用稀疏注意力的Transformer似乎有一个全局结构的概念，可以通过查看图像完成来定性评估。我们对64×64 ImageNet上训练的模型进行了可视化，如下图所示：

Prompt

Completions

Ground truth

我们还利用未调整的softmax temperature 1.0下生成了完全无条件的样图。这些模型使用最大似然目标进行训练，众所周知，这类训练的目标是覆盖所有数据模式（包括可能不存在的数据），而不是增加小部分数据的保真度。从这些具有未调整温度的模型中生成样图，可以让我们看到模型认为存在于真实世界中图像的完整分布。结果，一些样本看起来很奇怪。

模型采样

真实数据

生成原始音频波形

稀疏Transformer也可以通过简单地改变位置嵌入，自适应地生成原始音频。随着深度学习扩展到新型数据类型，可以使用这类网络作为确定归纳偏差的有用工具。

该模型在原始古典音乐剪辑上进行训练，并使用稀疏注意力生成长度为65000的序列，相当于大约5秒的原始音频，我们在每个片段中将几个样本连接在了一起。

关于代码发布和开源

通常，实现稀疏注意力将涉及在数据块中将查询和关键矩阵单独“切片”，因此为了简化实验，我们实现了一组块稀疏内核，这些内核可以在GPU上高效执行这些操作。我们开源了这些内核，并在Github上提供示例稀疏注意函数。

未来方向和局限

我们提出的稀疏注意力模式只是长序列高效建模方向的初步模式。我们认为，探索稀疏性的不同模式和组合的用途不仅于此，学习稀疏模式对于下一代神经网络体系结构来说是一个很有前途的方向。

即使经过改进，自回归序列生成对于非常高分辨率的图像或视频来说仍然是不切实际的。不过，我们提出的优化注意力操作可能是一次有益的探索，可以和其他（如多尺度方法）方法相结合来对高维数据进行建模。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4787

浏览量
101444
图像

图像

+关注

关注
2

文章
1091

浏览量
40647
模型

模型

+关注

关注
1

文章
3400

浏览量
49430

原文标题：OpenAI提出Sparse Transformer，文本、图像、声音都能预测，序列长度提高30倍

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

如何计算transformer模型的参数量

1. 前言最近，OpenAI推出的ChatGPT展现出了卓越的性能，引发了大规模语言模型(Large Language Model,LLM)的研究热潮。大规模语言模型的“大”体现在两个方面：

发表于 07-10 09:13 •1.3w次阅读

【大语言模型：原理与工程实践】大语言模型的基础技术

全面剖析大语言模型的核心技术与基础知识。首先，概述自然语言的基本表示，这是理解大语言模型技术的前提。接着，详细介绍自然语言处理预训练的经典结构Transformer，以及其工作原理，为构建大语言

发表于 05-05 12:17

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

当地时间5月13日OpenAI推出ChatGPT-4o，代表了人工智能向前迈出的一大步。在GPT-4turbo的强大基础上，这种迭代拥有显著的改进。在发布会的演示中，OpenAI展示该模型的高级

发表于 05-27 15:43

经济预测模型

该资料是由几篇论文和一个讲义组成，具体讲解了回归分析预测、时间序列预测、宏观计量经济模型

发表于 08-15 10:47

PaddlePaddle使用预测模型预测图片报错及解决方法

PaddlePaddle使用预测模型预测图片时出现输出数据维度错误

发表于 05-31 09:39

模型预测控制介绍

这篇主要讲一下模型预测控制，如果对PID控制了解的同学，那效果更好。如果不了解PID控制，还是熟悉下比较好。模型预测控制，顾名思义，基于模型

发表于 08-18 06:21

你了解在单GPU上就可以运行的Transformer模型吗

—— 具有超过32个预训练的语言模型，支持超过100种语言，并在TensorFlow和PyTorch进行了相互的转换，这在构建先进的NLP系统上是非常了不起的工作。Transformer

发表于 11-02 15:19

基于RBF网络预测模型优化压缩视频长度王晓东

基于RBF网络预测模型优化压缩视频长度_王晓东

发表于 03-17 08:00 •0次下载

超大Transformer语言模型的分布式训练框架

NVIDIA Megatron 是一个基于 PyTorch 的框架，用于训练基于 Transformer 架构的巨型语言模型。本系列文章将详细介绍Megatron的设计和实践，探索这一框架如何助力

发表于 10-11 16:46 •2842次阅读

transformer模型详解：Transformer 模型的压缩方法

动机&背景 Transformer 模型在各种自然语言任务中取得了显著的成果，但内存和计算资源的瓶颈阻碍了其实用化部署。低秩近似和结构化剪枝是缓解这一瓶颈的主流方法。然而，作者通过分析发现，结构化

发表于 07-17 10:50 •2323次阅读

OpenAI发布文生视频大模型Sora、英伟达市值超谷歌

最新的Sora大模型发布，可以让用户仅通过输入一个句子，就可生成与好莱坞画面相媲美的视频，且长度最多可达1分钟。这震惊了科技界，OpenAI的估值正大幅飙升。市场预计，在最新一轮由风投公司Thrive

发表于 03-28 18:13 •908次阅读

7万张H100打造的OpenAI文生视频Sora功能原理详解|Sora注册全攻略

近日，OpenAI发布的基于Transformer架构的文生视频Sora，可谓是在AI圈掀起新的热潮。该模型具有强大的视频生成能力，可产生高达一分钟的高清视频，并且用户可以自由指定视频时间长度

发表于 02-29 11:48 •1159次阅读

微软准备推出新的AI模型与谷歌及OpenAI竞争

据报道，微软在向OpenAI投资超过100亿美元后，首次成功训练了一个名为“MAI-1”的内部人工智能模型。这一模型规模庞大，足以与谷歌、Anthropic和

发表于 05-08 10:45 •619次阅读

使用PyTorch搭建Transformer模型

Transformer模型自其问世以来，在自然语言处理（NLP）领域取得了巨大的成功，并成为了许多先进模型（如BERT、GPT等）的基础。本文将深入解读如何使用PyTorch框架搭建Trans

发表于 07-02 11:41 •1994次阅读

Transformer语言模型简介与实现过程

在自然语言处理（NLP）领域，Transformer模型以其卓越的性能和广泛的应用前景，成为了近年来最引人注目的技术之一。Transformer模型由谷歌在2017年提出，并首次应用于

发表于 07-10 11:48 •2326次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

OpenAI新模型Sparse Transformer，预测长度超过去30倍

评论

如何计算transformer模型的参数量

【大语言模型：原理与工程实践】大语言模型的基础技术

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

经济预测模型

PaddlePaddle使用预测模型预测图片报错及解决方法

模型预测控制介绍

你了解在单GPU上就可以运行的Transformer模型吗

基于RBF网络预测模型优化压缩视频长度王晓东

超大Transformer语言模型的分布式训练框架

transformer模型详解：Transformer 模型的压缩方法

OpenAI发布文生视频大模型Sora、英伟达市值超谷歌

7万张H100打造的OpenAI文生视频Sora功能原理详解|Sora注册全攻略

微软准备推出新的AI模型与谷歌及OpenAI竞争

使用PyTorch搭建Transformer模型

Transformer语言模型简介与实现过程