为什么 transformer 性能这么好?它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来?在人工智能领域里,transformer 已成为深度学习中
2023-09-25 12:05:37
2223 
在之前的内容中,我们已经介绍过流水线并行、数据并行(DP,DDP和ZeRO)。 今天我们将要介绍最重要,也是目前基于Transformer做大模型预训练最基本的并行范式:来自NVIDIA的张量模型
2023-05-31 14:38:23
4295 
基于transformer模型的,模型结构主要有两大类:encoder-decoder(代表模型是T5)和decoder-only,具体的,decoder-only结
2023-07-10 09:13:57
14746 
Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分:编码组件和解码组件。
2023-11-17 10:34:52
1022 
Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中,通过试错来学习最优的行为策略。
2024-02-20 09:55:35
24823 
Transformer 模型在 2017 年由 Vaswani 等人在论文《Attentionis All You Need》中首次提出。其设计初衷是为了解决自然语言处理(Nature
2025-02-06 10:21:45
6017 
[首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
2025-08-13 09:15:59
4010 
for Language Understanding》,BERT模型横空出世,并横扫NLP领域11项任务的最佳成绩。而在BERT中发挥重要作用的结构就是Transformer,之后又相继出现XLNET、roBERT等模型击
2023-12-25 08:36:00
6285 
ABBYY PDF Transformer+有三种不同类型的 PDF 文档。仅包含页面图像的文档不可搜索,其包含的文本也不可编辑。包含文本层的文档可以搜索,包含在这些文档中的文本也可进行复制。本文
2017-11-13 18:11:34
类似于C语言中的结构体,结构体中又包含数组,如何快速解析出来呢
2013-09-11 15:15:38
体系结构标准定义了网络互联的七层框架(物理层、数据链路层、网络层、传输层、会话层、表示层和应用层),即OSI开放系统互连参考模型。这里根据笔者的理解以及相关资料的查询,觉得这个OSI通信与笔者...
2021-07-30 06:08:26
PROFIBUS协议模型与ISO/OSI协议模型的关系 PROFIBUS协议结构
2009-11-17 10:33:24
深入探讨关于RF放大器模型结构,看完秒懂!
2021-02-22 06:14:52
模型(逐字节),我也得到了信息传递字符串。这意味着我可以总是使用模型(逐字节)代替文件I/O类型的读/写传输模型?或者最后一个模型比字节模型有更多的应用程序?此外,缓冲队列传输模型是最复杂的理解模型。有人能帮助我理解这个模型的实际应用吗?非常感谢你。
2020-04-23 13:56:48
1、YOLOv5 网络结构解析 YOLOv5针对不同大小(n, s, m, l, x)的网络整体架构都是一样的,只不过会在每个子模块中采用不同的深度和宽度, 分别应对yaml文件中
2022-10-31 16:30:17
在画路时,需要用到电流互感器,需要选择哪个模型呢?一下这些transformer 分别是什么意思?那些在我们设计电路时候比较常用?一些变压器的表述中“Transformer (Coupled Inductor Model)”的耦合电感模型是什么意思?
2014-12-01 16:32:10
收集海量的文本数据作为训练材料。这些数据集不仅包括语法结构的学习,还包括对语言的深层次理解,如文化背景、语境含义和情感色彩等。
自监督学习:模型采用自监督学习策略,在大量无标签文本数据上学
2024-08-02 11:03:41
地选择适合的模型。不同的模型具有不同的特点和优势。在客服领域,常用的模型包括循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)、Transformer等,以及基于这些架构的预
2024-12-17 16:53:12
全面剖析大语言模型的核心技术与基础知识。首先,概述自然语言的基本表示,这是理解大语言模型技术的前提。接着,详细介绍自然语言处理预训练的经典结构Transformer,以及其工作原理,为构建大语言
2024-05-05 12:17:03
Transformer架构,利用自注意力机制对文本进行编码,通过预训练、有监督微调和强化学习等阶段,不断提升性能,展现出强大的语言理解和生成能力。
大语言模型的涌现能力,是指随着模型规模的增长,展现出
2024-05-04 23:55:44
通过超越语言应用(如音乐、语音、图像和视频生成)对该领域产生重大影响。在这篇文章中,我们将努力深入Reformer模型并试着去理解一些可视化方面的指南。准备好了吗?为什么是Transformer?在
2022-11-02 15:19:41
树模型的一些理解
2020-05-22 09:40:45
解锁
我理解的是基于深度学习,需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。
对于常说的RNN是处理短序列的数据时表现出色,耳真正厉害的是Transformer,此框架被推出后直接
2024-05-12 23:57:34
在模型预测控制中,把状态空间模型转换成MPC状态空间模型,结果得到一个矩阵,如何去理解这个矩阵代表的意义?
2019-03-20 16:09:03
何为变量?变量一般可以细分为如下图:本节重点为了让大家理解内存模型的“栈”,暂时不考虑“静态变量” 的情况,并约定如下:“全局变量”仅仅默认为“普通全局变量”;“局部变量”仅仅默认为“普...
2021-12-22 07:30:05
怎样去搭建一种电力电子仿真模型?如何对双母线结构模型进行仿真?
2021-09-24 10:28:46
在安装ABBYY PDF Transformer+时会让您选择界面语言。此语言将用于所有消息、对话框、按钮和菜单项。在特殊情况下,您可能需要在安装完成后更改界面语言以适应需求,方法其实很简单,本文
2017-10-11 16:13:38
【追踪嫌犯的利器】定位技术原理解析(4)
2020-05-04 12:20:20
`手机通信原理解析:第 1 章 无线通信原理第2 章 移动通信系统第3 章 移动通信系统的多址接入技术第4 章 移动通信系统的语音编码第5 章 GSM移动通信系统的数字
2011-12-14 14:31:20
做题之前要先理解一下按键的内部结构。矩阵键盘中有两个I/O端口,一个作为输入,一个作为输出。当按键按下时,两个端口相连导通(我是这样认为的),当作为输入的I/O端口输入高电平时,输出就是高电平,反之就是低电平。矩阵键盘扫描原理...
2022-01-12 06:25:28
【理解】线结构光成像模型
2020-06-09 16:48:46
【锂知道】锂电池基本原理解析:充电及放电机制电池充电最重要的就是这三步:第一步:判断电压
2021-09-15 06:47:08
单片机的结构原理解析
一、单片机的外部结构拿到一块芯片,想要使用它,首先必须要知道怎样连线,我们用的一块称之为 89C51 的芯片,下面我们就看一
2010-04-09 14:53:11
41 MPOA的模型结构,MPOA的模型结构是什么?
(1)基本组成
MPOA采用了LANE、NHRP、交换路由器(Switched Router)三种互补的
2010-04-07 13:27:02
678 高速缓冲存储器部件结构及原理解析
高速缓存 CACHE用途 设置在 CPU 和 主存储器之间,完成高速与 CPU交换信息,尽量避免 CPU不必要地多次直
2010-04-15 11:18:50
5036 组合逻辑控制器组成结构及工作原理解析
按照控制信号产生的方式不同,控制器分为微程序控制器和组合逻辑控制器两类
微程序控制器是
2010-04-15 11:20:51
13270 虚拟存储器部件原理解析
2010-04-15 14:25:20
3561 触摸屏的应用与工作原理解析
2017-02-08 02:13:17
38 爪极发电机因其特殊的转子结构导致磁场空间分布复杂,通常需要建立三维有限元模型对其进行计算分析。而三维有限元方法计算费时,且不便于分析发电机结构及电磁参数对磁场和电磁力的影响,因此提出一种气隙磁场
2018-02-10 10:02:16
2 我们已经了解了模型的主要部分,接下来我们看一下各种向量或张量(译注:张量概念是矢量概念的推广,可以简单理解矢量是一阶张量、矩阵是二阶张量。)是怎样在模型的不同部分中,将输入转化为输出的。
2019-01-10 15:15:10
6878 
刚刚,Google Brain 高级研究科学家 Barret Zoph 发帖表示,他们设计了一个名叫「Switch Transformer」的简化稀疏架构,可以将语言模型的参数量扩展至 1.6 万亿
2021-01-13 16:50:49
4200 基于Transformer结构的各类语言模型(Bert基于其encoder,Gpt-2基于其decoder)早已经在各类NLP任务上大放异彩,面对让人眼花缭乱的transformer堆叠方式,你是否
2021-03-08 10:27:06
4948 
机器阅读理解是一项针对给定文本和特定问题自动生成或抽取相应答案的问答任务,该任务是评估计机系统对自然语言理解程度的重要任务之一。相比于传统的阅读理解任务,多文档阅读理解需要计算模型具备更高的推理
2021-03-16 11:41:38
10 问句理解是模型将自然语言冋句转换成SαL的重要基础。目前多数利用深度学习的模型仅是通过数据库结构,未结合数据库内容充分理解问句生成SQL查询。在 SQLOVA模型的基础上,提出一种基于表结构和内容
2021-03-22 11:09:29
14 随着Transformer在视觉中的崛起,Transformer在多模态中应用也是合情合理的事情,甚至以后可能会有更多的类似的paper。
2021-03-25 09:29:59
11785 
引言 Transformer是近年来非常流行的处理序列到序列问题的架构,其self-attention机制允许了长距离的词直接联系,可以使模型更容易学习序列的长距离依赖。由于其优良的可并行性以及可观
2021-04-01 16:07:28
13603 
)是Facebook研究团队巧妙地利用了Transformer 架构开发的一个目标检测模型。在这篇文章中,我将通过分析DETR架构的内部工作方式来帮助提供一些关于它的含义。下面,我将解释一些结构,但是
2021-04-25 10:45:49
3198 
用了Transformer 架构开发的一个目标检测模型。在这篇文章中,我将通过分析DETR架构的内部工作方式来帮助提供一些关于它的直觉。 下面,我将解释一些结构,但是如果你只是想了解如何使用模型,可以直接跳到代码部分
2021-06-10 16:04:39
2863 
【导读】GMP 模型是让 go 语言轻量快速高效的重要调度模型,本文从 GMP 源码出发直观地解析了这一模型。 这篇文章就来看看 golang 的调度模型-GPM 模型的源码结构。 Go 版本
2021-07-06 11:55:04
2843 的25个Transformers模型 总结 ACL 2021中的25个Transformers模型 NLP中的层次结构Hi-Transformer: Hierarchical Interactive Transformer for Efficient and Effective Long Docume
2021-09-01 09:27:43
7482 
NVIDIA Megatron 是一个基于 PyTorch 的框架,用于训练基于 Transformer 架构的巨型语言模型。本系列文章将详细介绍Megatron的设计和实践,探索这一框架如何助力
2021-10-11 16:46:05
4364 
NVIDIA Megatron 是一个基于 PyTorch 的框架,用于训练基于 Transformer 架构的巨型语言模型。本系列文章将详细介绍Megatron的设计和实践,探索这一框架如何助力
2021-10-20 09:25:43
3517 Microsoft 的目标是,通过结合使用 Azure 与 NVIDIA GPU 和 Triton 推理软件,率先将一系列强大的 AI Transformer 模型投入生产用途。
2022-03-28 09:43:38
1848 Microsoft 的目标是,通过结合使用 Azure 与 NVIDIA GPU 和 Triton 推理软件,率先将一系列强大的 AI Transformer 模型投入生产用途。
2022-04-02 13:04:21
2347 所以我们为此文章写了篇注解文档,并给出了一行行实现的Transformer的代码。本文档删除了原文的一些章节并进行了重新排序,并在整个文章中加入了相应的注解。此外,本文档以Jupyter
2022-06-20 14:26:50
4694 史密斯圆图和阻抗匹配原理解析
2022-11-02 20:16:23
2717 什么是晶振 晶振工作原理解析
2022-12-30 17:13:57
5336 
Transformer的主要优点是它可以并行地处理输入序列中的所有位置,因此在训练和推理时都有着很好的效率。此外,Transformer没有使用循环结构,因此它不会受长序列的影响,并且在处理长序列时不会出现梯度消失或爆炸的问题。
2023-03-08 15:36:00
1568 Thinking Like Transformers 这篇论文中提出了 transformer 类的计算框架,这个框架直接计算和模仿 Transformer 计算。使用 RASP 编程语言,使每个程序编译成一个特殊的 Transformer。
2023-03-08 09:39:00
1510 结构化剪枝是一种重要的模型压缩算法,它通过移除神经网络中冗余的结构来减少参数量,从而降低模型推理的时间、空间代价。在过去几年中,结构化剪枝技术已经被广泛应用于各种神经网络的加速,覆盖了ResNet、VGG、Transformer等流行架构。
2023-03-29 11:23:52
6189 。 2)Transformer模型没有使用传统的CNN和RNN结构,其完全是由Attention机制组成,其中Self-Attention(自注意力)是Transformer的核心。 3)OpenAI的GPT模型和Google的BERT模型虽然都是基于Transformer所构建,但GPT模型仅使用了解
2023-03-29 16:57:06
1 Transformer是当前各种大模型所采用的主要结构,而ChatGPT的火爆让人们逐渐意识到人工智能有着更高的上限,并可以在计算机视觉领域发挥出巨大潜能。相比于在云端用GPU部署Transformer大模型,在边缘侧、端侧部署Transformer最大的挑战则来自功耗
2023-05-30 11:04:02
1794 
本文首先详细介绍Transformer的基本结构,然后再通过GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接,看看Transformer是如何在各个著名的模型中大显神威的。
2023-06-08 09:56:22
3188 
与基于 RNN 的编码器-解码器模型类似,基于 transformer 的编码器-解码器模型由一个编码器和一个解码器组成,且其编码器和解码器均由 残差注意力模块 (residual attention blocks) 堆叠而成。
2023-06-11 14:17:34
3129 
本文旨在更好地理解基于 Transformer 的大型语言模型(LLM)的内部机制,以提高它们的可靠性和可解释性。 随着大型语言模型(LLM)在使用和部署方面的不断增加,打开黑箱并了解它们的内部
2023-06-25 15:08:49
2367 
预训练的2D图像或语言Transformer:作为基础Transformer模型,具有丰富的特征表示能力。作者选择了先进的2D Transformer模型作为基础模型,例如Vision Transformers (ViTs) 或者语言模型(如BERT)。
2023-07-03 10:59:43
1592 
,并能做出属于自己的 SAM 模型,那么接下这篇 Transformer-Based 的 Segmentation Survey 是不容错过!近期,南洋理工大学和上海人工智能实验室几位研究人员写了一篇
2023-07-05 10:18:39
1996 
理解Transformer背后的理论基础,比如自注意力机制(self-attention), 位置编码(positional embedding),目标查询(object query)等等,网上的资料比较杂乱,不够系统,难以通过自学做到深入理解并融会贯通。
2023-07-09 14:35:39
936 
动机&背景 Transformer 模型在各种自然语言任务中取得了显著的成果,但内存和计算资源的瓶颈阻碍了其实用化部署。低秩近似和结构化剪枝是缓解这一瓶颈的主流方法。然而,作者通过分析发现,结构
2023-07-17 10:50:43
3517 
理解Transformer背后的理论基础,比如自注意力机制(self-attention), 位置编码(positional embedding),目标查询(object query)等等,网上的资料比较杂乱,不够系统,难以通过自学做到深入理解并融会贯通。
2023-07-18 12:54:13
1036 
接着 大模型部署框架 FastLLM 简要解析 这篇文章首先梳理了一下FastLLM的调用链和关键的数据结构,然后解析了 FastLLM 的一些实现细节和CPU/GPU后端实现采用的优化技巧。
2023-07-27 10:48:27
4523 
掌握基于Transformer的目标检测算法的思路和创新点,一些Transformer论文涉及的新概念比较多,话术没有那么通俗易懂,读完论文仍然不理解算法的细节部分。
2023-08-16 10:51:26
1016 
BEV人工智能transformer 人工智能Transformer技术是一种自然语言处理领域的重要技术,广泛应用于自然语言理解、机器翻译、文本分类等任务中。它通过深度学习算法从大规模语料库中自动
2023-08-22 15:59:28
1461 理解Transformer背后的理论基础,比如自注意力机制(self-attention), 位置编码(positional embedding),目标查询(object query)等等,网上的资料比较杂乱,不够系统,难以通过自学做到深入理解并融会贯通。
2023-08-24 11:19:41
635 
这些embedding可以使用谷歌Word2vec (单词的矢量表示) 找到。在我们的数值示例中,我们将假设每个单词的embedding向量填充有 (0和1) 之间的随机值。
2023-09-06 14:44:17
2172 
写在前面:本文将对 Nvidia BERT 推理解决方案 Faster Transformer 源码进行深度剖析,详细分析作者的优化意图,并对源码中的加速技巧进行介绍,希望对读者有所帮助。本文源码
2023-09-08 10:20:33
1956 
集成电路(IC),一种将数以千计的晶体管、电阻和电容等微小元件,集成在一小块半导体材料(通常是硅)上的微型结构,它的出现彻底改变了电子行业的发展。为了更深入理解集成电路,让我们从它的基本结构与分类入手进行解析。
2023-09-27 09:11:09
5173 
最后是在ADE20K val上的LeaderBoard,通过榜单也可以看出,在榜单的前几名中,Transformer结构依旧占据是当前的主力军。
2023-12-07 09:39:15
1450 
基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用,特别是在自然语言处理(NLP)和计算机视觉(CV)领域。
2024-02-22 16:27:19
1415 
近期,Hochreiter在arXiv平台发表论文,推出了一款新型的XLSTM(扩展LSTM)架构,有效克服了传统LSTM互联网结构“仅能按时间顺序处理信息”的局限性,有望挑战当前热门的Transformer架构。
2024-05-13 10:31:44
1458 自2022年,ChatGPT发布之后,大语言模型(LargeLanguageModel),简称LLM掀起了一波狂潮。作为学习理解LLM的开始,先来整体理解一下大语言模型。一、发展历史大语言模型的发展
2024-06-04 08:27:47
2712 
Transformer模型自其问世以来,在自然语言处理(NLP)领域取得了巨大的成功,并成为了许多先进模型(如BERT、GPT等)的基础。本文将深入解读如何使用PyTorch框架搭建Transformer模型,包括模型的结构、训练过程、关键组件以及实现细节。
2024-07-02 11:41:45
3272 随着人工智能技术的飞速发展,语音识别和语音生成作为人机交互的重要组成部分,正逐渐渗透到我们生活的各个方面。而Transformer模型,自其诞生以来,凭借其独特的自注意力机制和并行计算能力,在
2024-07-03 18:24:42
2618 基于Transformer架构的预训练语言模型,它可以生成连贯、自然的文本。ChatGPT使用GPT模型作为基础,通过微调和训练来实现对话生成和理解。 以下是一
2024-07-09 09:55:49
2494 任务,随后迅速扩展到其他NLP任务中,如文本生成、语言理解、问答系统等。本文将详细介绍Transformer语言模型的原理、特点、优势以及实现过程。
2024-07-10 11:48:45
3835 近日,国内领先的GPU创新企业摩尔线程宣布了一项重大技术突破——正式开源其自主研发的音频理解大模型MooER(摩耳)。这一举动标志着我国在音频处理与理解领域迈出了坚实的一步,特别是在基于国产硬件的AI模型研发上取得了显著成就。
2024-08-27 15:24:59
1247 感知、理解和预测方面表现得更为强大,彻底终结了2D直视图+CNN时代。BEV+Transformer通过鸟瞰视角与Transformer模型的结合,显著提升了自动驾驶
2024-11-07 11:19:20
2276 
尽管名为 Transformer,但它们不是电视银幕上的变形金刚,也不是电线杆上垃圾桶大小的变压器。
2024-11-20 09:27:16
1540 
如果想在 AI 领域引领一轮新浪潮,就需要使用到 Transformer。
2024-11-20 09:28:24
2504 
原子是物质的基本单位,由原子核和电子组成。原子结构模型的发展经历了几个阶段,每个阶段都有其特点和局限性。 一、原子结构模型的演变 道尔顿模型(1803年) 英国化学家约翰·道尔顿提出了原子论,认为
2024-12-17 15:22:28
7243 的旧图像模型,也不能运行CNN、RNN或LSTM。 但对于transformer来说,Sohu是有史以来最快的芯片。 借助Llama 70B每秒超过50万个token的吞吐量,Sohu可以让您构建在GPU上无法实现的产品
2025-01-06 09:13:10
1756 
的详细解析: 1. 核心组成与工作原理 视觉编码器 :提取图像特征,常用CNN(如ResNet)或视觉Transformer(ViT)。 语言模型 :处理文本输入/输出,如GPT、BERT等,部分模型
2025-03-17 15:32:40
7974 
编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
2025-06-10 14:27:47
922 
状态的主观理解。随后,该模型再将理解结果交由行为规划子模块去执行,使得端到端过程具有一定结构化逻辑,从而兼顾可解释性与泛化能力。
2025-08-03 11:03:00
1197 和使用AI。 大模型 Transformer vs. Mixture of Experts 混合专家 (MoE) 是一种流行的架构,它使用不同的“专家”来改进 Transformer 模型。 下图解释了
2025-10-21 09:48:13
516 
评论