探索Transformer Block精简的方式

前言

标准的Transformer Block并不简介，每个block由attention, MLP, skip connection, normalization各子模块构成。一些看似微小的修改可能导致模型训练速度下降，甚至导致模型无法收敛。

在本篇工作中，我们探索了Transformer Block精简的方式。结合了信号传播理论以及一些经验性的观察，我们在不损失训练速度的前提下，移除了skip connection, out project, value project, normalization操作以及串行组织block的形式。在Decoder-only和Encoder-only两类模型上，我们减少了15%可训练参数，并提高了15%的训练速度。

官方仓库：

bobby-he/simplified_transformers

论文：Simplifying Transformer Blocks.

一些标记注解：

每个transformer block如上述公式组成，每个子模块都配备了一个系数，这个后续会使用到

Removing Skip Connection

作者先前的一项工作Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation 删除了残差连接，提出的操作Value-SkipInit，将自注意力相关操作修改为：

其中I代表的是一个Identity操作，A(X)表示原始注意力操作。这两个操作各自有一个可训练标量和，初始化为 , 。

这个设计的insight是每个token在训练前期更多的是关注自身相关性，类似的如Pre-LN操作，在Batch Normalization Biases Residual Blocks Towards the Identity Function in Deep Networks这项工作发现，Pre-LN相当于把 skip-branch 权重提高，降低residual-branch权重，以在较深的神经网络里仍然有良好的信号传播。

而The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit 该工作里提出了Shape Attention，也是收到信号传播理论的启发，将注意力公式更改为：

相比之下多了一个C矩阵，这是个常量矩阵（论文称其为centering matrix)，不参与训练。他的值被设置为当 querykey dot 为0时候，A(x)的值，那么我们回去看A(x)公式，就剩一个mask值，因此代码里是这么写的：

# Centered attention, from https://arxiv.org/abs/2306.17759
        uniform_causal_attn_mat = torch.ones(
            (max_positions, max_positions), dtype=torch.float32
        ) / torch.arange(1, max_positions + 1).view(-1, 1)
        self.register_buffer(
            "uniform_causal_attn_mat",
            torch.tril(
                uniform_causal_attn_mat,
            ).view(1, 1, max_positions, max_positions),
            persistent=False,
        )

对于CausalLM来说，MASK是个下三角矩阵，形状为(S, S)的矩阵，第i行，只有前i个位置有值，经过softmax后，1.0概率被平分到有值的位置，这就是为什么它要做一个 ones / arange 的操作，一段示例代码为：

import torch

max_positions = 32
mask = torch.tril(torch.ones(max_positions, max_positions)) + torch.triu(torch.ones(max_positions, max_positions), 1) * -65536

print(torch.softmax(mask, -1))

tensor([[1.0000, 0.0000, 0.0000,  ..., 0.0000, 0.0000, 0.0000],
        [0.5000, 0.5000, 0.0000,  ..., 0.0000, 0.0000, 0.0000],
        [0.3333, 0.3333, 0.3333,  ..., 0.0000, 0.0000, 0.0000],
        ...,
        [0.0333, 0.0333, 0.0333,  ..., 0.0333, 0.0000, 0.0000],
        [0.0323, 0.0323, 0.0323,  ..., 0.0323, 0.0323, 0.0000],
        [0.0312, 0.0312, 0.0312,  ..., 0.0312, 0.0312, 0.0312]])

而新的可训练标量 = ，以保证初始化时，

其中这些可训练标量如果改成headwise，即每个注意力头独立，则性能有部分提升。当然作者还是强调其中的一个重要的点是，显式的将MLP Block的系数降低：

论文里针对18层Transformer，设置为0.1

Recovering Training Speed

在引入shape attention并移除残差连接后，训是没问题了，但是会导致收敛变慢：

经过前面的修改，那么对于Attention模块里，在训练初期其实就简化成X和Vproject矩阵和OutProject矩阵做矩阵乘操作。

众所周知，这种没有残差连接的网络训练是要比带残差结构的网络要慢的。我们从别的工作也可以得知，Pre-LN操作，是会降低残差分支的占比系数，相当于降低了学习率，也缩减了线性层里参数更新的scale

X matmul W，那么计算X的梯度公式有一项就是W嘛

这促使我们开始引入重参数化操作思考V矩阵和OutProject矩阵

作者针对Vproject和Outproject两个矩阵乘操作，给残差分支和跳跃分支各引入一个可训练参数 , ，通过实验发现，大部分层最终系数比值收敛到了0

这意味着和两个矩阵是一个Identity矩阵，因此作者将这两个参数移除掉，并称为Simplified Attention Sub-block (SAS)，使用SAS比原始Pre-LN block收敛更快了：

REMOVING THE MLP SUB-BLOCK SKIP CONNECTION

在这部分实验里，作者把目光投向了GPT-J里提出的Parallel Block，其移除了MLP的残差分支，保留了另外一个残差分支：

对应公式为：

作者直接将SAS Block进行替换，得到Parallel形式的 SAS-P Block。我们比较下和原始串行的实现：

在训练初期，Attention部分是Identity输出，因此两种形式的SAS Block在训练初期是等价的。

REMOVING NORMALISATION LAYERS

最后作者尝试将Norm层给移除，得到

作者的idea来自于，先前PreLN的作用（如把 skip-branch 权重提高，降低residual-branch权重）已经通过前面的一系列修改实现了，因此可以直接删除Norm层

当然还是得看实验效果，回到这张图，可以看到移除了Norm对收敛还是有一定影响的。作者猜测在信号传播理论范围之外，Norm层能加速训练收敛，如Scaling Vision Transformers to 22 Billion Parameters

引入了更多LayerNorm层，将ViT缩放至22B参数量上

因此作者还是主张保留PreLN结构：

最后实验

作者也补充了一些训练速度benchmark，模型准确率，以及收敛趋势的实验：

总结

作者对Transformer Block移除了各种参数，减少了15%参数量，提高了15%的训练速度，各个环节都有做充分的实验，但一些经验性得到的结论也并没有直接回答一些问题（如LN为什么影响收敛速度）。

实验规模并不大，而标准的TransformerBlock还是在各个Scale里得到广泛验证的，期待有人进一步试验

你说的对，但我还是套LLAMA结构

审核编辑：黄飞

阅读全文

神经网络(98386) 神经网络(98386)
MLP(4058) MLP(4058)

为什么transformer性能这么好？Transformer的上下文学习能力是哪来的？

为什么 transformer 性能这么好？它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来？在人工智能领域里，transformer 已成为深度学习

2023-09-25 12:05:37

736

语音应用中Transformer和循环神经网络的比较

在Transformer中，注意力图的某些头部并不总是像Tacotron 2中那样是对角线的。因此，我们需要选择在哪些位置应用引导性注意力损失[24]。-使用Transformer进行解码的速度也比使用RNN慢（每帧6.5毫秒 vs 单线程CPU上每帧78.5毫秒）。

2023-07-24 11:30:31

356

关于深度学习模型Transformer模型的具体实现方案

Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分：编码组件和解码组件。

2023-11-17 10:34:52

216

BLOCK,(A) C2U

I/O BLOCK FOR C2U SERIES

2024-03-14 22:58:11

block schematic如何使用？

block schematic这个如何使用，有使用指南吗？auido input 没东西可选啊。

2023-11-29 07:11:20

探索一种降低ViT模型训练成本的方法

，Transformer架构已成为大量计算机视觉模型的关键组成部分。然而，训练大型变压器模型通常需要付出巨大的成本。例如，在4个GPU上训练像DeiT-S这样的小型ViT大约需要3天时间。为了降低成本，作者建议探索以下

2022-11-24 14:56:31

探索者STM32F407

探索者STM32F407 DEVB_121X160MM 6~24V

2023-03-28 13:06:24

ABBYY FineReader 和 ABBYY PDF Transformer+功能比对

ABBYY FineReader 12是市场领先的文字识别（OCR），可快速方便地将扫描纸质文档、PDF文件和数码相机的图像转换成可编辑、可搜索信息。ABBYY PDF Transformer

2017-09-01 10:45:12

ABBYY PDF Transformer+两步骤使用复杂文字语言

ABBYY PDF Transformer+让您可创建或转换希伯来语、意第绪语、日语、中文、泰语、韩语和阿拉伯语的文档。那么如何顺利使用这些复杂语言文字呢？小编教你两步骤轻松快速处理包含以下复杂语言

2017-10-16 10:17:05

ABBYY PDF Transformer+创建PDF文档的几种方式

Transformer+创建PDF文档的多种方式。ABBYY PDF Transformer+软件下载：wm.makeding.com/iclk/?zoneid=17866通过ABBYY PDF

2017-09-18 15:44:28

ABBYY PDF Transformer+快捷键教程

ABBYY PDF Transformer+提供了一系列的操作快捷键，恰当的运用快捷键能够很好的帮助你节约时间，提高效率。文本下面介绍了ABBYY PDF Transformer+快捷键的具体指令

2017-10-26 11:33:20

ABBYY PDF Transformer+改善转换结果之识别语言

在您使用ABBYY PDF Transformer+ 进行转换文档时必须选择正确的语言，否则，您的文档中的文本层将与文档图像中的文本不同，导致搜索和复制功能失效。本文小编将给大家讲讲如何更改

2017-10-18 10:09:50

AD 10精简如何安装

AD 10精简如何安装，哪有安装方法？

2015-02-15 09:23:34

AD精简版下载

AD10精简版http://cache.ourdev.cn/bbs_upload214653/files_39/ourdev_636049ZQUIC9.rarAD09精简版http

2011-07-13 11:57:35

ALtium designer 09精简

机子配置不高，谁能教我精简ALtium designer 09啊！

2013-04-06 08:59:02

Altium_Designer_10_22184_精简版

`发一个Altium_Designer_10_22184_精简版，试用了还不错就是关闭的时候会弹出这个，不过一会就没有了！Altium Designer 10 22184（超级精简）百度网盘下载

2013-09-26 18:40:58

PDF Transformer+“调整亮度”警告消息解决办法

在扫描期间，如果亮度设置不正确，ABBYY PDF Transformer+将显示警告消息。用黑白模式扫描时，也可能需要调整亮度设置。下面小编给大家讲讲ABBYY PDF Transformer

2017-10-13 14:20:44

PDF Transformer+“调整图像分辨率”警告消息解决办法

一些小伙伴在使用ABBYY PDF Transformer+扫描识别文档时，会发出“调整图像分辨率”警告消息。扫描分辨率设置的过高或过低，都会对文本识别的质量产生不好的影响，那么，该怎么解决呢？别急

2017-10-13 14:17:44

PDF Transformer+转换的原始图像字体太小怎么办？

ABBYY PDF Transformer+转换的原始图像字体太小怎么办？为了获得最佳文本识别效果，请用较高的分辨率扫描用极小字体打印的文档，否则很容易在转换识别时出错。下面小编就给大家讲讲该

2017-10-10 17:05:47

Quartus 18.1精简版仿真问题

在官网下的Quartus 18.1精简版，仿真的时候出现这样的问题，求解答！Error (20268): Functional simulation is off but it is the only supported netlist type for this device.

2019-10-12 15:07:44

RAW block 篇

Raw block memory 管理的优点是没有内存碎片，速度很快，缺点是只能分配固定长度的块大小。支持分配不到内存睡眠的机制。非常适合时间要求高的实时

2013-02-27 14:07:37

UART串口最精简的连线方法

传输数据，最精简的连线方法只有三根电线：TxD 用于发送数据，RxD 用于接收数据，Gnd 用于给双方提供参考电平。连接方式：1. 2440...

2021-12-16 07:32:12

[求助]请教DC BLOCK的作用

请教DC Block的作用！请大虾们不吝赐教！

2009-12-19 19:44:06

for always可以在block中合成的吗？

（genvar）块”和一个“always @ block”，我在两者中都有“for loops”。我的问题是这些“for loops”可以合成FPGA实现吗？我知道Genvar块是硬件，没关系。我关注

2018-10-30 11:11:06

pads9.3精简版问题

我用PADS9.3 的精简版，因原来的破解版不能用了，不知道什么原因，提示过期。后来就直接装了个精简版，昨天使用的时候发现原理图中一个parttype对应2个或者以上的封装时，给指定编号的元件指定

2012-10-12 10:21:46

什么是探索性测试ET

的测试方法、技术和工具，但是却是所有测试人员都应该掌握的一种测试思维方式。探索性强调测试人员的主观能动性，抛弃繁杂的测试计划和测试用例设计过程，强调在碰到问题时及时改变测试策略。

2019-07-05 06:38:55

介绍在ARM系列MCU中使用精简的TCP/IP协议的几种方式

MCU中使用精简的TCP/IP协议的几种方式，主要的实现方式如下：第一种：MCU芯片+MAC芯片+PHY芯片

2021-08-05 06:52:42

你了解在单GPU上就可以运行的Transformer模型吗

最近，谷歌推出了Reformer架构，Transformer模型旨在有效地处理处理很长的时间序列的数据(例如，在语言处理多达100万个单词)。Reformer的执行只需要更少的内存消耗，并且即使在

2022-11-02 15:19:41

全面拥抱Transformer：NLP三大特征抽取器（CNNRNNTF）比较

放弃幻想，全面拥抱Transformer：NLP三大特征抽取器（CNNRNNTF）比较

2020-05-29 10:43:00

关于thumb指令中的IT block描述

IT block是thumb指令集中引出来的东西，用来解决thumb指令不能条件执行的缺点。可以通过IT指令，给后续的1到4条指令，决定其执行条件。IT block的信息，存放在PSTATE中，在

2022-04-02 17:20:11

利用卷积调制构建一种新的ConvNet架构Conv2Former

1、利用卷积探索一种更高效的编码空域特征的方式　　本文旨在通过充分利用卷积探索一种更高效的编码空域特征的方式：通过组合ConvNet与ViT的设计理念，本文利用卷积调制操作对自注意力进行了简化，进而

2022-12-19 17:37:34

如何使用Vivado IP Block Design？

对你所有的人来说，我已经阅读了有关IP Block Designs的手册和培训材料，并成功地生成了AXI LITE BRAM IP设计，以及之前在USER社区中为您提供的一些帮助。我所坚持

2020-03-20 08:52:30

如何更改ABBYY PDF Transformer+旋转页面

为了实现最佳识别效果，页面应有标准方向，即，水平线条和字母应向上。所以有时不得不对文档页面进行旋转，以优化ABBYY PDF Transformer+转换结果。下面小编给大家讲讲如何更改ABBYY

2017-10-16 10:19:26

如何更改ABBYY PDF Transformer+界面语言

在安装ABBYY PDF Transformer+时会让您选择界面语言。此语言将用于所有消息、对话框、按钮和菜单项。在特殊情况下，您可能需要在安装完成后更改界面语言以适应需求，方法其实很简单，本文

2017-10-11 16:13:38

求助软件啊 PI Transformer Designer或者PIXls Designer

哪位大虾有PI Transformer Designer或者PIXls Designer安装软件，麻烦发到我邮箱一下 89483168@qq.com 先谢谢啦。都找不到软件。

2012-04-12 00:58:45

求助，AD8132谐波测试电路中的transformer有没有推荐型号？

AD8132谐波测试电路中的transformer有没有推荐型号？

2023-11-16 06:15:02

解析ABBYY PDF Transformer+三种类型PDF文档

ABBYY PDF Transformer+有三种不同类型的 PDF 文档。仅包含页面图像的文档不可搜索，其包含的文本也不可编辑。包含文本层的文档可以搜索，包含在这些文档中的文本也可进行复制。本文

2017-11-13 18:11:34

详解ABBYY PDF Transformer+中的Bates编号

ABBYY PDF Transformer+ 可让您将 Bates 编号添加到 PDF 文档。Bates 编号可方便文档搜索和检索，并更加有利于电子归档。下面小编给小伙伴们讲讲ABBYY PDF

2017-11-14 10:28:31

详解ABBYY PDF Transformer+从多个文件创建PDF文档

ABBYY PDF Transformer+可以从多个文件创建PDF文档。您可以合并多种受支持格式的文件以及图像和纯图像PDF文档，还可从列表中的每个文件创建一个单独的PDF文档。下面小编就给大家讲

2017-10-18 10:14:10

详解ABBYY PDF Transformer+从文件创建PDF文档

可使用ABBYY PDF Transformer+从Microsoft Word、Microsoft Excel、Microsoft PowerPoint、HTML、RTF、Microsoft

2017-10-17 14:13:42

详解ABBYY PDF Transformer+文档保护之密码安全

本帖最后由 DW小朋友于 2017-10-23 13:47 编辑之前一讲教你通过ABBYY PDF Transformer+保护PDF文档（详细复制链接abbyychina.com

2017-10-23 13:45:53

详解ABBYY PDF Transformer+添加注释

很多人喜欢在书本文章关键位置加上自己的想法、理解等文字注释，普通的PDF软件不能满足你这样的要求，而ABBYY PDF Transformer+可让您在PDF页面的任何地方添加注释，使之更有

2017-09-22 16:42:48

请问9K Block RAM设计中那些2 9K Block RAM在哪里？

嗨，我想为我的设计使用比特流加密，我遇到了一个关于9K Block RAM的问题，在答案记录39999中描述了r然后我决定在我的设计中删除所有9k Block RAM并将它们更改为16k Block

2019-06-06 07:23:18

请问block schematic如何使用

block schematic这个如何使用，有使用指南吗？auido input 没东西可选啊。

2019-01-23 10:16:02

请问matlab中变压器与电机如何相连啊

: 'A_stator: Asynchronous Machine SI Units'Block 2: 'transfo_1_winding_2: Three-Phase Transformer (Two ...

2021-09-06 07:10:25

PowerPCB教程精简版

PowerPCB教程精简版非常详细的介绍了其对应功能，是份不错的资料

2006-03-12 01:20:30

《电脑报》2004年电子版精简版

《电脑报》2004年电子版精简版《电脑报》2004年电子版精简版下载介绍:这个是从《电脑报》2004年合定本配套光盘中的电子版提取出来精简的，CHM格式大小为23M，去除了大部

2006-03-15 10:33:39

VC++ 6.0 汉化精简纯绿版

VC++ 6.0 汉化精简纯绿版这个 VC++ 6.0 汉化精简纯绿版是专门用来汉化软件和修改资源用的，所以功能肯定有所缩减

2006-04-08 02:18:12

EasyGo FPGA Coder Block

概述EasyGo FPGA Coder Block是嵌入Matlab/Simulink里面的FPGA 仿真工具包软件。提供了一些基础的函数库以及常用的控制函数模块，配合

2022-05-19 09:16:05

文泰雕刻精简版

文泰雕刻精简版:绿色版本进入下面目录直接执行即可文泰雕刻精简版artcut6artgrave文泰雕刻精简版.exe

2009-06-30 10:01:27

High Frequency Transformer for

High Frequency Transformer for Switching Mode Power Supplies:The material in this thesis has

2009-10-14 09:43:00

MABA-000001-50KIT1是Transformer 设计师套件

MABA-000001-50KIT1Transformer 设计师套件提供设计人员的工具包……从 1 到 3000 MHz 的变压器 Transformer 设计师套件提供设计人员的工具包

2023-01-30 17:12:11

高频变压器设计软件PI Transformer Design

摘要：PI Transformer Designer 6．5是PI Expert 6．5软件包中专门设计高频变压器的工具软件。简要介绍PI Transformer Designer 6．5(汉化菜单)的主要特点、主菜单及导航工具，重点阐述高频变压

2010-06-26 11:09:50

1651

驱动精灵_去广告精简版

电子发烧友网站提供《驱动精灵_去广告精简版.exe》资料免费下载

2015-10-27 15:00:15

高频变压器设计软件PI_Transformer_Designer6.5及其应用

高频变压器设计软件PI_Transformer_Designer_6[1].5及其应用

2015-12-11 10:59:54

VB精简版

VB精简版，汉化，易操作简单易懂，考二级的必备品

2015-12-14 15:23:14

文泰-CNC精简版

文泰-CNC精简版，WIN7打不开说明，感兴趣的可以看看。

2016-03-23 17:07:28

AVR精简学习板

AVR精简学习板.SchDoc，感兴趣的可以看看。

2016-09-27 17:47:13

block是如何持有对象的

这篇文章主要会介绍 block 是如何持有并且释放对象的。文章中的代码都出自 Facebook 开源的用于检测循环引用的框架 FBRetainCycleDetector。为什么会谈到 block

2017-09-26 09:43:45

Linux的那些事儿之我是Block层

Linux的那些事儿之我是Block层

2017-10-29 09:43:14

教你如何使用Python搭一个Transformer

与基于RNN的方法相比，Transformer 不需要循环，主要是由Attention 机制组成，因而可以充分利用python的高效线性代数函数库，大量节省训练时间。

2019-04-24 15:00:01

7017

谷歌将AutoML应用于Transformer架构,翻译结果飙升!

为了探索AutoML在序列域中的应用是否能够取得的成功，谷歌的研究团队在进行基于进化的神经架构搜索（NAS）之后，使用了翻译作为一般的序列任务的代理，并找到了Evolved Transformer这一新的Transformer架构。

2019-06-16 11:29:22

2842

带以太网口的西门子一代精简面板和二代精简面板均支持以太网下载

带以太网口的西门子一代精简面板和二代精简面板均支持以太网下载，本章使用TKP600Basic color PN（一代精简面板）和KTP700 Basic PN（二代精简面板）为例进行说明。 4.2

2020-10-14 16:25:45

3737

视觉新范式Transformer之ViT的成功

这是一篇来自谷歌大脑的paper。这篇paper的主要成果是用Transformer[1]取代CNN，并证明了CNN不是必需的，甚至在大规模数据集预训练的基础上在一些benchmarks做到

2021-02-24 09:31:23

6455

删掉Transformer中的这几层性能变好了？

基于Transformer结构的各类语言模型（Bert基于其encoder,Gpt-2基于其decoder）早已经在各类NLP任务上大放异彩，面对让人眼花缭乱的transformer堆叠方式，你是否

2021-03-08 10:27:06

3036

Transformer模型的多模态学习应用

随着Transformer在视觉中的崛起，Transformer在多模态中应用也是合情合理的事情，甚至以后可能会有更多的类似的paper。

2021-03-25 09:29:59

9836

解析Transformer中的位置编码 -- ICLR 2021

引言 Transformer是近年来非常流行的处理序列到序列问题的架构，其self-attention机制允许了长距离的词直接联系，可以使模型更容易学习序列的长距离依赖。由于其优良的可并行性以及可观

2021-04-01 16:07:28

11918

详解一种简单而有效的Transformer提升技术

近些年，Transformer［1］逐渐成为了自然语言处理中的主流结构。为了进一步提升Transformer的性能，一些工作通过引入额外的结构或知识来提升Transformer在特定任务上的表现。

2021-04-09 09:50:57

5973

关于一项改进Transformer的工作

NAACL2021中，复旦大学大学数据智能与社会计算实验室（Fudan DISC）和微软亚洲研究院合作进行了一项改进Transformer的工作，论文的题目为：Mask Attention

2021-04-22 10:46:37

3001

我们可以使用transformer来干什么？

技术细节问题。解读以上所有问题不再本文范畴内，但笔者也将在后续文章中继续探索以上问题。本文重点关注：我们用transformer干啥？我们用transformer干啥？笔者突

2021-04-22 10:49:38

11518

如何使用Transformer来做物体检测？

导读本文为一个Facebook的目标检测Transformer （DETR）的完整指南，详细介绍了DETR架构的内部工作方式以及代码。介绍 DEtection TRansformer （DETR

2021-04-25 10:45:49

2296

使用跨界模型Transformer来做物体检测！

用了Transformer 架构开发的一个目标检测模型。在这篇文章中，我将通过分析DETR架构的内部工作方式来帮助提供一些关于它的直觉。下面，我将解释一些结构，但是如果你只是想了解如何使用模型，可以直接跳到代码部分

2021-06-10 16:04:39

1913

变压器(Transformer)基础知识详解

变压器(Transformer)基础知识点免费下载。

2021-06-23 11:47:31

Inductor and Flyback Transformer Design .pdf

Inductor and Flyback Transformer Design .pdf(继电保护必须加电源开关吗)-Inductor and Flyback Transformer Design .pdf

2021-07-26 14:50:20

Transformer的复杂度和高效设计及Transformer的应用

有帮助。本文涉及25篇Transformer相关的文章，对原文感兴趣的读者可以关注公众号回复： ACL2021Transformers，下载本文所涉及的所有文章～本文主要内容：前言 ACL 2021

2021-09-01 09:27:43

5635

Vivado BDC (Block Design Container)怎么用

谈到BDC（Block DesignContainer）就不得不提IPI（IP Integrator）。IPI常被翻译为“IP集成器”，也是有道理的。它提供了一种“图形化+模块化”的设计方式。若用过

2021-11-09 09:43:17

3258

用于语言和视觉处理的高效 Transformer能在多种语言和视觉任务中带来优异效果

白皮书《Transformer-LS：用于语言和视觉处理的高效 Transformer》中提出了“长-短 Transformer” （Transformer-LS），这是一种高效的 Transformer 架构，用于为语言和视觉任务模拟中具有线性复杂度的长序列。

2021-12-28 10:42:18

1309

基于视觉transformer的高效时空特征学习算法

Transformer block中，包含Self-Attention和FFN，通过堆叠Transformer block的方式达到学习图像特征的目的。

2022-12-12 15:01:56

996

BEV+Transformer对智能驾驶硬件系统有着什么样的影响？

BEV+Transformer是目前智能驾驶领域最火热的话题，没有之一，这也是无人驾驶低迷期唯一的亮点，BEV+Transformer彻底终结了2D直视图+CNN时代

2023-02-16 17:14:26

2097

如何让Transformer在征程5上跑得既快又好？以SwinT部署为例的优化探索

摘要：SwinT是目前视觉transformer模型中的典型代表，在常见视觉任务，如分类、检测、分割都有非常出色的表现。虽然在相同计算量的模型指标上，SwinT已经可以和传统CNN为基础的视觉模型

2023-03-03 09:34:36

680

关于Transformer的核心结构及原理

Thinking Like Transformers 这篇论文中提出了 transformer 类的计算框架，这个框架直接计算和模仿 Transformer 计算。使用 RASP 编程语言，使每个程序编译成一个特殊的 Transformer。

2023-03-08 09:39:00

488

备份西门子精简面板到U盘的具体方法

对精简面板进行备份有两种方式，一种是在用U盘连接面板，将数据备份至U盘（只有二代精简面板支持该方式备份）；另一种是用计算机连接面板，通过ProSave软件将数据备份至计算机，计算机和面板的连接可以通过PN口也可以通过DP口。

2023-05-12 17:34:16

2314

爱芯元智AX650N成端侧、边缘侧Transformer最佳落地平台

Transformer是当前各种大模型所采用的主要结构，而ChatGPT的火爆让人们逐渐意识到人工智能有着更高的上限，并可以在计算机视觉领域发挥出巨大潜能。相比于在云端用GPU部署Transformer大模型，在边缘侧、端侧部署Transformer最大的挑战则来自功耗

2023-05-30 11:04:02

615

Transformer结构及其应用详解

本文首先详细介绍Transformer的基本结构，然后再通过GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接，看看Transformer是如何在各个著名的模型中大显神威的。

2023-06-08 09:56:22

1352

Transformer在下一个token预测任务上的SGD训练动态

高效的表征？最近田渊栋博士公布了团队的最新研究成果，以数学严格方式，分析了1层Transformer（一个自注意力层加

2023-06-12 10:11:33

466

2D Transformer 可以帮助3D表示学习吗？

预训练的2D图像或语言Transformer：作为基础Transformer模型，具有丰富的特征表示能力。作者选择了先进的2D Transformer模型作为基础模型，例如Vision Transformers (ViTs) 或者语言模型（如BERT）。

2023-07-03 10:59:43

387

基于 Transformer 的分割与检测方法

，并能做出属于自己的 SAM 模型，那么接下这篇 Transformer-Based 的 Segmentation Survey 是不容错过！近期，南洋理工大学和上海人工智能实验室几位研究人员写了

2023-07-05 10:18:39

463

平衡变压器的接线方式

平衡变压器（Balanced Transformer）是一种用于实现信号传输中的电气平衡的变压器。它通常有多种接线方式，常见的接线方式包括以下几种。

2023-07-14 09:23:31

602

transformer模型详解：Transformer 模型的压缩方法

动机&背景 Transformer 模型在各种自然语言任务中取得了显著的成果，但内存和计算资源的瓶颈阻碍了其实用化部署。低秩近似和结构化剪枝是缓解这一瓶颈的主流方法。然而，作者通过分析发现，结构化

2023-07-17 10:50:43

1172

基于Transformer的目标检测算法

掌握基于Transformer的目标检测算法的思路和创新点，一些Transformer论文涉及的新概念比较多，话术没有那么通俗易懂，读完论文仍然不理解算法的细节部分。

2023-08-16 10:51:26

363

BEV人工智能transformer

BEV人工智能transformer 人工智能Transformer技术是一种自然语言处理领域的重要技术，广泛应用于自然语言理解、机器翻译、文本分类等任务中。它通过深度学习算法从大规模语料库中自动

2023-08-22 15:59:28

549

LLM的Transformer是否可以直接处理视觉Token？

多种LLM Transformer都可以提升Visual Encoding。例如用LLaMA和OPT的不同Transformer层都会有提升，而且不同层之间也会体现不同的规律。

2023-11-03 14:10:15

181

降低Transformer复杂度O(N^2)的方法汇总

首先来详细说明为什么Transformer的计算复杂度是。将Transformer中标准的Attention称为Softmax Attention。令为长度为的序列, 其维度为 , 。可看作Softmax Attention的输入。

2023-12-04 15:31:22

343

更深层的理解视觉Transformer，对视觉Transformer的剖析

最后是在ADE20K val上的LeaderBoard，通过榜单也可以看出，在榜单的前几名中，Transformer结构依旧占据是当前的主力军。

2023-12-07 09:39:15

357

基于Transformer的多模态BEV融合方案

由于大量的相机和激光雷达特征以及注意力的二次性质，将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。

2024-01-23 11:39:39

137

已全部加载完成

搜索历史

探索Transformer Block精简的方式

评论