基于DINO知识蒸馏架构的分层级联Transformer网络

来自复旦大学、上海市智能信息处理重点实验室和香港大学的研究者提出了一种基于 DINO 知识蒸馏架构的分层级联 Transformer (HCTransformer) 网络。

小样本学习是指从非常少量的标记数据中进行学习的问题，它有望降低标记成本，实现低成本、快速的模型部署，缩小人类智能与机器模型之间的差距。小样本学习的关键问题是如何高效地利用隐藏在标注数据中的丰富信息中进行学习。近年来，视觉 Transformer (ViT [1]) 作为计算机视觉领域的新兴架构，因其在很多主流任务中都取得了反超 CNN 的表现而受到广泛关注。我们注意到 ViT 在训练时易于陷入过拟合的状态而表现出较差的性能，现有的研究大部分关注其在大、中型数据集上的表现，而几乎没有将其应用于针对更加敏感于过拟合的小样本任务上的相关研究。

为了缓解这一问题，提高小数据集下数据的利用效率，来自复旦大学、上海市智能信息处理重点实验室和香港大学的研究者提出了一种基于 DINO [2] 知识蒸馏架构的分层级联 Transformer (HCTransformer) 网络，通过谱聚类 tokens 池化以利用图像的内在结构来减少前景内容和背景噪声的模糊性，同时也提供了对不同数据集对于 patch token 切分大小的不同需求的适用性选择；并利用一种非传统的监督方式，通过标签的潜在属性在图像标签中找到更丰富的视觉信息，而非简单地学习由标签分类的视觉概念。实验表明，本文的方法在各个流行的 Few-Shot Classification 数据集上均取得了 SOTA 性能。

论文链接：https://arxiv.org/abs/2203.09064

代码链接：https://github.com/StomachCold/HCTransformers

目前，这项研究已被 CVPR2022 接收，完整训练代码及模型已经开源。方法

图 1：方法整体架构。包括三个级联的 Transformer 网络，每一阶段都是一个 te acher-student 的知识蒸馏结构。 DINO 自监督架构 DINO 是一种基于知识蒸馏架构的自监督网络，和 BYOL [3] 类似，但 DINO 使用 Transformer 代替了 BYOL 中的 CNN。其中 Student 模型和 Teacher 模型的结构是完全一样的。在训练过程中，Teacher 模型并不通过输入来更新参数，它的权重更新是通过对 Student 模型权重的 EMA（exponential moving average ）来更新的。此外，Teacher 和 Student 都有独立的数据增强方式。在这种设定下，整个网络会把 Teacher 网络的输出当作是 Student 网络的标签，从而指导全局更新。因为网络没有直接使用图片的类别标签，所以可以支持使用较高维度的特征（如 65536）而不必局限于图像的类别数量，使得网络可以学习到更加细腻的特征表示。但在自监督的架构下，由于小样本学习的数据集较小，直接应用 DINO 进行训练很难取得较好的效果。

属性代理监督

基于这一前提，本文设法将 DINO 改成有监督模型，但 Transformer 在小数据集上直接使用 one-hot 向量作为标签，不仅需要将网络输出维度改成图片类别数导致学习相对粗糙，而且会产生较严重的过拟合现象。因此，本文针对小样本任务，为 Transformer 设计了一种属性代理监督的传播方案，以避免传统监督带来的局限性。具体来说，对于标签空间中的每个视觉概念 y，我们的目标是为其学习一个语义属性的代理向量，进而使同一个标签的输出均向这个代理向量在向量空间中靠拢，也同时影响到该代理向量的更新。其中，y 是输入数据的标签，D' 是整个网络的输出维度。

在 Transformer 中，输入图片在通过 Encoder 后会得到一个 class token 和 N 个 patch tokens。一般来说在分类任务中，只会单一使用某一种token作为最终输出结果进行监督，而丢弃另一种token。相较于传统设计，本文将 class token 和 patch tokens 同时都用于监督，以更大限度提高数据利用率。

Class Token 监督

图片输入到 DINO 网络中，会经过 encoder 后生成一个 class token 和 N 个的 patch tokens，之后 class token 再通过一个 MLP 得到最终的输出。不同于传统监督方式，由于 DINO 本身的自监督设计，导致最终的输出并不是一个 one-hot 向量，而是一个更高维度的向量。因此我们为每一个标签设计了一个维度的可学习向量作为该类别的代理属性，通过 KL 散度将同一标签的输出聚拢。

在公式 1 中，是 student 网络中的 class token 经过 MLP 的最终输出，是该标签对应的语义属性代理向量。为 KL 散度计算。 Patch Tokens 监督 在 Transformer 中，由于缺少 patch 级别的标签信息，patch tokens 一般很难与 class token 同时用来监督网络。为了对 patch tokens 进行监督，我们把 N 个 patch tokens 用经过 softmax 操作后的注意力矩阵进行加权合并计算，得到一个全局 token，然后采用和 class token 相同的监督方式对该全局 token 进行监督。

其中，为 class token 对其他 patch tokens 的注意力矩阵，是 encoder 后输出的 patch tokens，为加权合并后的全局 token。

公式 3 与公式 1 采用相同的策略。 谱聚类 tokens 池化 许多工作, 如 GroupFPN [4] 和 GLOM [5] 都证明了多尺度层次结构对 CNN 和 Transformer 都有效。本文的设计目的是为了将层次结构嵌入到 Transformer 中来提高网络对特征的判别能力。与 Swin Transformer [4] 使用固定的网格池化方案不同，本文利用不规则网格池化方法来更灵活地匹配图像结构。由于 Transformer 将在 tokens 之间生成自注意力矩阵，因此它为谱聚类算法 [5] 提供了强大的先验经验，以根据语义相似性和空间布局对 tokens 进行分割合并。因此我们提出了一种基于谱聚类的池化方法，称为谱聚类 tokens 池化。为了保持各 patch 之间原有的位置关系信息，本文对于 ViT 中的 N 个 patch tokens 之间的注意力矩阵加上了邻接限制，使每个 patch 只和相邻的 8 个 patch 有相似性。

其中，A_p 是 patch tokens 的注意力矩阵，H 是包含位置信息的邻接矩阵。然后我们对 S 矩阵做一个 softmax 操作得到我们最终需要的 S' 矩阵作为谱聚类 tokens 池化的输入。

如上算法所示，每一次池化后我们将得到同类聚类数量减半的新 tokens。在本文的网络设计中，训练阶段首先会训练第一阶段的 Transformer 网络来得到一个有较好表征能力的特征生成器，随后再引入池化操作，加上二三阶段 Transformer 共同训练。最终在三阶段中通过验证集挑选出最优结果作为最终输出。

图 2：谱聚类池化的可视化图

实验结果

我们分别在四个流行的 Few-Shot Classification 数据集：mini-Imagenet, tiered-Imagenet, CIFAR-FS 和 FC100 上做了详尽的实验。

最终结果如表 1,2,3 所示：相比于现有的 SOTA 模型，HCTransformers 在 1-shot 和 5-shot 的结果上都显示出明显的性能优势。例如，如表 1 所示，在 miniImagnet 上，HCTransformers 比最优 SOTA 结果分别高出 5.37%(1-shot) 和 4.03%(5-shot)。在 tieredImagenet 上，我们的方法在 1-shot 和 5-shot 上的表现分别比最好的 DC [6] 方法高出 1.48% 和 1.81%。与 DC 相比，我们不需要从 base 训练集中借用类某类图像的统计信息，并且使用更轻量级的分类器。此外，我们的方法和第三好的方法之间的差距是 5.09%，这也进一步验证了我们的贡献。这样令人印象深刻的结果要归功于我们的网络结构，它能学习到数据中固有的内在信息，并具有良好的泛化能力。表 2 和表 3 分别显示了在小分辨率数据集 CIFAR-FS 和 FC100 上的结果。HCTransformers 在这些低分辨率设置中显示出和 SOTA 类似或更好的结果: 在 CIFAR-FS 上提高了 1.02%(1-shot) 和 0.76%(5-shot); 在 FC100 上提高了 0.51%(1-shot) 和 1.12%(5-shot)。在小分辨率数据集上，我们并没有超越以前的 SOTA 方法很多，我们将其归因于 ViT 的 patch 机制：当图像分辨率较小时，如 32*32，每一个 patch 所包含的实际像素过少，很难提取出有用的特征表示。DeepEMD [7] 的实验也佐证了 patch cropping 会对小分辨率图像产生负面影响。即便如此，我们的方法仍然在这两个基准上都取得了新的 SOTA 结果。
参考文献
[1]. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An imageis worth 16x16 words: Transformers for image recognition at scale. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021.OpenReview.net,2021. 1, 2, 3, 7, 8
[2]. Mathilde Caron, Hugo Touvron, Ishan Misra, Herv´e J´egou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. arXiv preprint arXiv:2104.14294, 2021. 3, 5
[3]. Jean-Bastien Grill, Florian Strub, Florent Altch´e, Corentin Tallec, Pierre H.Richemond, Elena Buchatskaya, Carl Doersch, Bernardo ´Avila Pires, Zhaohan Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, R´emi Munos, and Michal Valko. Bootstrap your own latent-A new approach to self-supervised learning. In Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, Maria- Florina Balcan, and Hsuan-Tien Lin, editors, Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual, 2020. 3
[4]. Gangming Zhao, Weifeng Ge, and Yizhou Yu. Graphfpn:Graph feature pyramid network for object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 2763–2772, 2021. 1
[5]. Geoffrey Hinton. How to represent part-whole hierarchies in a neural network. arXiv preprint arXiv:2102.12627, 2021. 1
[6]. Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. International Conference on Computer Vision (ICCV), 2021. 2, 4
[7]. Andrew Y Ng, Michael I Jordan, and Yair Weiss. On spectral clustering: Analysis and an algorithm. In Advances in neural information processing systems, pages 849–856, 2002. 1, 5
[8]. Shuo Yang, Lu Liu, and Min Xu. Free lunch for few-shot learning: Distribution calibration. In International Conference on Learning Representations (ICLR), 2021. 6
[9]. Chi Zhang, Yujun Cai, Guosheng Lin, and Chunhua Shen. Deepemd: Few-shot image classification with differentiable earth mover’s distance and structured classifiers. In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 6, 7, 8

阅读全文

计算机视觉(45543) 计算机视觉(45543)
cnn(21235) cnn(21235)

语音应用中Transformer和循环神经网络的比较

在Transformer中，注意力图的某些头部并不总是像Tacotron 2中那样是对角线的。因此，我们需要选择在哪些位置应用引导性注意力损失[24]。-使用Transformer进行解码的速度也比使用RNN慢（每帧6.5毫秒 vs 单线程CPU上每帧78.5毫秒）。

2023-07-24 11:30:31

356

网络安全体系基础架构建设

网络安全体系基础架构建设知识

2023-09-11 09:36:01

1210

关于深度学习模型Transformer模型的具体实现方案

Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分：编码组件和解码组件。

2023-11-17 10:34:52

213

分层隔离知识概述

分层隔离

2019-06-21 08:51:58

分层隔离基础知识浅谈

isoPower®器件集成电源的问世，通过分层隔离器建立高压隔离栅现在已经成为一种可行解决方案。由于新型电池和发电产业的快速扩张，我们需要具有很高工作电压的接口，还要求提供加强绝缘。例如，太阳能逆变器

2018-11-01 10:48:36

网络协议osi的分层

网络协议osi的分层，路由器在哪一层应用层，表示层，会话层，传输层，网络层，数据链路层，物理层路由器在网络层 jnijava本地接口在android系统...

2021-08-06 08:20:57

网络协议基础知识推荐

目录一、基础协议1、网络分层模型2、协议划分3、重点解析1）TCP/IP和UDP协议2）HTTP和HTTPS协议3）WS和WSS协议4）SSL、TLS和SSH协议5）SOAP协议二、应用知识一

2021-07-02 06:56:27

AD8367级联使用时需要加匹配网络吗？

将两个AD8367级联使用时，第一级的输出与第二级的输入之间是否还需要加匹配网络呢？根据手册上的描述，输出RL时200欧姆，而AD8367的输入也是200欧，那么是否可以不用匹配而直接将第一级的输出

2019-03-08 14:15:39

ARM架构基础知识小结

从单片机转到ARM ―― ARM架构基础知识小结

2020-12-29 06:16:15

AUTOSAR分层架构

2016-09-26 11:12:22

Laravel路由的分层

Laravel 路由分层架构

2020-04-10 14:09:56

labview BP神经网络的实现

是classes（层级吗？），希望有前辈能够详细的帮我讲解下这个范例！！！谢谢！！！！（本人已对BP神经网络的理论知识有了了解）

2017-02-22 16:08:08

你了解在单GPU上就可以运行的Transformer模型吗

最近，谷歌推出了Reformer架构，Transformer模型旨在有效地处理处理很长的时间序列的数据(例如，在语言处理多达100万个单词)。Reformer的执行只需要更少的内存消耗，并且即使在

2022-11-02 15:19:41

关于网络分层结构的介绍

第1章概述一.单选题（共8题）1关于网络分层结构，下面的叙述正确的是_________。A、某一层可以使用其上层提供的服务而不需知道服务是如何实现的（应该是下层） B、当某一层发生变化时，只要接口

2021-07-28 09:46:18

关于AUTOSAR架构的知识点看完你就懂了

2021-10-18 07:41:04

卷积神经网络的层级结构和常用框架

　　卷积神经网络的层级结构　　卷积神经网络的常用框架

2020-12-29 06:16:44

在哪里设置鸿蒙WebView的层级？

不管WebView在布局中哪个层级，都会最外层显示出来，这个有啥处理办法吗？

2022-03-25 09:51:41

基于MEC的网络架构介绍

MEC与运营商的网络重构基于MEC的网络架构介绍MEC目前进展及面临的挑战

2020-12-25 06:52:30

基于SDN的OTN网络架构怎么样？

2021-05-24 06:43:01

基于mcu的一种分层软件架构的相关资料分享

基于mcu的一种分层软件架构（一）1、写在前面先来个图：经过了一段时间的琢磨与思考。借鉴操作系统的分层原理，也搞出来了一种mcu的层状软件结构。好了，不说虚的啦。所有的一些方法和思想，都是对经历痛点

2021-11-03 06:46:07

如何更改ABBYY PDF Transformer+界面语言

在安装ABBYY PDF Transformer+时会让您选择界面语言。此语言将用于所有消息、对话框、按钮和菜单项。在特殊情况下，您可能需要在安装完成后更改界面语言以适应需求，方法其实很简单，本文

2017-10-11 16:13:38

如何用Python创建自己的Dino Run?

　今天，将向大家展示如何构建离线状态下几乎每个人都可以玩的最受欢迎的游戏之一。如果您猜测哪个游戏，就是在谈论浏览器的Dino游戏。但是，我们的Dino游戏是彩色版本的浏览器版本的修改形式。现在

2020-07-21 18:11:34

嵌入式分层架构的相关资料分享

最近重新进入嵌入式领域，有必要对嵌入式分层架构有一个清晰的理解。经过多方查阅以及个人的理解，本人对嵌入式分层架构概括总结如下：比较细的层次由下到上可分为：（硬件层）硬件底层->硬件驱动层

2021-10-28 08:42:11

嵌入式软件基础的四层架构分别是哪些

嵌入式软件分层架构基本原则有哪些？嵌入式软件基础的四层架构分别是哪些？

2021-12-24 07:57:52

巧妙解决路由器网络分层问题

介绍了对于路由器网络分层出现问题，如何进行诊断和故障的排除，相信大家看过此文会对你有所帮助。网络诊断是管好、用好网络，使网络发挥最大作用的重要技术工作。本文简述分层诊断技术，结合讨论路由器各种接口

2018-12-10 10:17:11

有没有办法增加ZIGBEE网络拓扑层级数？

小弟在使用ZIGBEE时遇到这个问题，ZIGBEE网络拓扑层数最多为15层，请教下各位老师，有没有办法使层数增加呢，因为我们的使用环境可能会有几十尽百个拓扑层级存在。使用CC2530.非常感谢！

2020-04-30 06:55:26

浅谈ARM处理器架构

来说，ARM的授权分为三个层级：使用层级授权、内核层级授权架构、指令集层级授权这三个层级的权限是依次上升的。对芯片设计公司的要求也是从低到高，而发挥的空间也是从低到高：指令集层级授权（也成软核）发挥

2020-08-18 12:04:06

系统层级静电放电与芯片层级静电放电有什么差异

军方所制定的人体静电放电模型最具代表性，又称之为芯片层级静电放电测试。而针对终端消费者所使用的电子产品，则以IEC 61000-4-2所制定的人体静电放电模型为测试主流，这就是一般认知的系统层级静电放电

2019-07-25 06:45:53

该如何去计算整个级联网络的噪声系数？

一个级联网络，由三级构成，第一级NF为4dB，增益为14dB，第二级是一个插入损耗3dB的滤波器，第三级的NF为8dB，增益为16.9dB。问整个级联网络的噪声系数是多少？我看了级联网络的计算公式

2021-06-24 07:17:00

请问网络改变颜色之后该怎么区分层？

网络改变颜色之后怎么区分层？

2019-06-18 23:53:55

请问labview tree如何固定层级关系

如图所示：自己做的Labview传感器配置界面，当使用添加/删除，功能后，层级关系会自动打开所有层级，非常不方便，请教在进行添加/删除或者别的操作的时候，操作结束以后可以调用上一次的层级关系，不会默认全部打开。

2019-03-26 20:22:08

谈谈MC9S12G128模块的软件分层架构

内容修改历史.. 2内容.. 31 overview. 41.1 目的.. 42 软件分层架构.. 52.1 driver层.. 52.2 中间件层.. 63 port资源.. 73.1 数据方向

2021-12-10 06:09:43

级联LDPC码和CCK的编码调制性能分析

在加性白高斯信道下，比较了补码键控最优译码和大数逻辑软判决译码的性能，分析了补码键控在衰落信道的性能，并提出了补码键控外层级联低密度极性校验码的结构，提供了

2009-02-28 16:41:38

分层审核管理-LPA

为了帮助企业验证生产过程的标准性，保障制造过程的稳定性，形成逐级审核的流程制度，提高管理水平。北汇信息为此打造了“分层审核系统--PAVELINK.lpa”。由管理层组织各级人员按照预先计划

2022-07-25 11:52:40

级联码,什么是级联码

级联码,什么是级联码级联码：要想进一步提高编码的性能，必须加长编码。对于线性分组码就是加长n，对卷积码就是加长K。但很快

2010-04-03 12:11:52

2928

路由器网络分层问题分析

介绍了对于路由器网络分层出现问题，如何进行诊断和故障的排除，相信大家看过此文会对你有所帮助。　　网络诊断是管好、用好网络，使网络发挥最大作用的重要技术工作。

2010-09-01 17:54:36

1944

软件架构设计之常用架构模式

分层架构：分层架构是使用最多的架构模式，通过分层使各个层的职责更加明确，通过定义的接口使各层之间通讯,上层使用下层提供的服务。分层分为：严格意义上的分层，一般意义的

2011-06-22 18:35:41

4335

级联Blumlein型脉冲网络充电电源设计

各级Blumlein型脉冲形成网络充电电压的不一致是影响级联脉冲形成网络电压传输效率的因素之一，为了使级联网络的充电电压一致，设计了一种多路充电电源。每路电源由脉冲变压器，

2013-03-12 16:24:16

级联Blumlein型脉冲网络电感设计

为了利用级联Blumlein型脉冲形成网络在高阻抗负载产生理想的高压平顶脉冲输出，开展了构成该脉冲功率源关键单元的始端电感和终端电感设计。从充电电压一致性，输出脉冲不发生严

2013-04-27 16:14:36

内容中心网络的分层缓存策略研究

内容中心网络的分层缓存策略研究_夏磊

2017-01-03 18:00:37

软件定义内容网络中基于分层的缓存管理

软件定义内容网络中基于分层的缓存管理_刘静

2017-01-07 20:49:27

迈向分层网络架构 5G通讯系统引发量测技术变革

作者：Hongwei Kong 是德科技中国北京实验室 5G无线通信系统将运用极密集网络布建方式达成更高带宽与传输速率，因而须以分层式网络架构进行管理，以提高网络效率与服务质量；而此一架构的转变

2017-02-09 05:02:00

352

软件架构设计之常用架构模式介绍

1.分层架构：分层架构是使用最多的架构模式，通过分层使各个层的职责更加明确，通过定义的接口使各层之间通讯,上层使用下层提供的服务。分层分为：严格意义上的分层，一般意义的分层。严格意义的分层是n+1

2017-12-01 11:59:48

297

无线传感器网络分层路由协议HRPNC

针对大规模无线传感器网络（WSN）中由于簇首节点分布不合理而导致节点消耗能量过快的问题，设计了一种基于非均匀分簇的无线传感器网络分层路由协议（ HRPNC）。HRPNC结合低功耗自适应集簇分层型协议

2017-12-25 09:50:24

加权无标度网络的级联失效模型

在加权的无标度网络中，为了抵抗网络的级联失效，增强网络的鲁棒性，提出了一种参数可调的级联失效模型．该模型从全局和局域的角度，将节点介数、节点度、节点权重和邻居节点权重相结合构建节点的初始负载，并建立

2017-12-26 10:47:47

直接序列扩频通信的分层级联随机共振接收算法

为提高现有直接序列扩频通信的接收信号的解调增益，提出分层级联随机共振接收算法。通过在接收信号的载波下变频和基带信号解扩过程中分别设计级联双稳态随机共振系统，一方面实现了正弦载波信号的宽带化解调接收

2018-01-12 13:56:58

长安汽车新能源板块“分层级”发展与与蔚来合作不是代工模式

新能源产业还在不断地崛起，中国宣布将在2025年实现全面停售传统意义燃油车的日期也在渐渐的逼近。但是对于长安汽车来说，已经是新能源的模式了。近日关于新能源板块的“分层级”发展，长安朱华荣表示与蔚来汽车之间的合作绝对不是代工模式。

2018-01-26 16:28:48

1261

基于分层PE技术的MPLS-VPN架构优化

针对传统MPLS-VPN组网架构存在的扩展性不足、安全性不高与传输质量差等问题，提出一种使用层次化运营商边缘设备技术优化网络架构的方法。采用设备层级化的方式对网络拓扑结构进行优化改造，使设备的路由

2018-02-02 16:26:11

什么是分层架构的依据与原则？本文告诉你答案！

分层架构是运用最为广泛的架构模式，几乎每个软件系统都需要通过层（Layer）来隔离不同的关注点（Concern Point），以此应对不同需求的变化，使得这种变化可以独立进行；此外，分层架构模式还是隔离业务复杂度与技术复杂度的利器，《领域驱动设计模式、原理与实践》写道：

2018-07-27 14:16:28

7097

谷歌将AutoML应用于Transformer架构,翻译结果飙升!

为了探索AutoML在序列域中的应用是否能够取得的成功，谷歌的研究团队在进行基于进化的神经架构搜索（NAS）之后，使用了翻译作为一般的序列任务的代理，并找到了Evolved Transformer这一新的Transformer架构。

2019-06-16 11:29:22

2842

电信网分层汇聚的网络架构面临着很大的挑战

进入互联网时代后，用户对网络消费的模式发生了巨大变化，电信网分层汇聚的网络架构面临着很大的挑战。对于互联网用户，除了原有的人与人之间的通信外，更大量的是人与物（机器及数据中心）之间的通信，而且通信的时间长度和带宽需求也变得更大和更不确定。

2019-11-07 10:52:10

3290

3D目标检测是否可以用层级图网络来完成

电子发烧友网站提供《3D目标检测是否可以用层级图网络来完成.pdf》资料免费下载

2020-11-26 16:55:29

深度学习：知识蒸馏的全过程

。 0. 写在前面有人说过：“神经网络用剩的logits不要扔，沾上鸡蛋液，裹上面包糠...” 这两天对知识蒸馏(Knowledge Distillation)萌生了一点兴趣，正好写一篇文章分享一下。这篇文章姑且算是一篇小科普。 1. 从模型压缩开始各种模型算法，最终目的

2021-01-07 14:36:07

5543

知乎搜索中文本相关性和知识蒸馏的工作实践

导读：大家好，我是申站，知乎搜索团队的算法工程师。今天给大家分享下知乎搜索中文本相关性和知识蒸馏的工作实践，主要内容包括：知乎搜索文本相关性的演进 BERT在知乎搜索的应用和问题知识蒸馏及常见

2021-01-18 17:20:59

2480

一种多层级特征融合就的深度卷积网络

采用卷积神经网络对单目图像的深度进行估计时，存在深度信息不精确、边缘模糊以及细节缺失等问题。为此，提出一种多层级特征融合结构的深度卷积网络。该网络采用端到端的编-解码器结构，编码器

2021-03-16 09:21:20

图神经网络的知识蒸馏框架介绍

随着深度学习的成功，基于图神经网络（GNN）的方法［8，12，30］已经证明了它们在分类节点标签方面的有效性。大多数GNN模型采用消息传递策略［7］：每个节点从其邻域聚合特征，然后将具有非线性激活

2021-04-04 16:48:00

4787

一种上下文感知与层级注意力网络的文档分类方法

集中于当前所编码的句子，并没有有效地将文档结构知识整合到体系结构中。针对此问题，提出种上下文感知与层级注意力网络的文档分类方法（ CAHAN）。该方法采用分层结构来表示文档的层次结构，使用注意力机制考虑文档中重要的句

2021-04-02 14:02:29

详解一种简单而有效的Transformer提升技术

近些年，Transformer［1］逐渐成为了自然语言处理中的主流结构。为了进一步提升Transformer的性能，一些工作通过引入额外的结构或知识来提升Transformer在特定任务上的表现。

2021-04-09 09:50:57

5973

基于知识蒸馏的恶意代码家族检测方法研究综述

近年来，恶意代码变种层出不穷，恶意软件更具隐蔽性和持久性，亟需快速有效的检测方法来识别恶意样本。针对现文中提出了一种基于知识蒸馏的恶意代码家族检测方法，该模型通过逆向反编译恶意样本，利用恶意代码

2021-04-20 14:49:30

如何使用Transformer来做物体检测？

导读本文为一个Facebook的目标检测Transformer （DETR）的完整指南，详细介绍了DETR架构的内部工作方式以及代码。介绍 DEtection TRansformer （DETR

2021-04-25 10:45:49

2296

异构网络下解耦ULDL级联DLA联合方案

针对异构网中上行链路（UL）和下行链路（DL）负载不平衡的问题，提岀一种解耦ULDL级联（DUA）联合方案。通过双连接简化级联条件推导主、从UL接入距离的概率密度函数，利用随机几何工具推导 DUDA

2021-05-11 11:45:22

基于深度级联孪生网络的通信信号调制识别算法

为解决传统基于深度学习的调制识别算法在小样本条件下识别准确率较低的问题，提出一种基于深度级联孪生网络的通信信号小样本调制识别算法。根据通信信号时序图的时空特性，设计由卷积神经网络和长短时记忆网络级联

2021-05-14 10:25:00

基于分层注意力的社交网络信息级联预测

信息级联预测（ Information Cascade prediction）是社交网络分析领域的一个研究热点，其通过信息级联的扩散序列与拓扑图来学习在线社交媒体中信息的传播模式。当前的信息级联预测

2021-05-29 14:52:26

使用跨界模型Transformer来做物体检测！

用了Transformer 架构开发的一个目标检测模型。在这篇文章中，我将通过分析DETR架构的内部工作方式来帮助提供一些关于它的直觉。下面，我将解释一些结构，但是如果你只是想了解如何使用模型，可以直接跳到代码部分

2021-06-10 16:04:39

1912

变压器(Transformer)基础知识详解

变压器(Transformer)基础知识点免费下载。

2021-06-23 11:47:31

基于层级循环神经网络的X线线图像腰椎识别

2021-06-27 11:24:46

军用Ad Hoc网络分层体系架构及安全协议综述

2021-06-27 14:27:28

基于mcu的一种分层软件架构

基于mcu的一种分层软件架构（一）1、写在前面先来个图：经过了一段时间的琢磨与思考。借鉴操作系统的分层原理，也搞出来了一种mcu的层状软件结构。好了，不说虚的啦。所有的一些方法和思想，都是对经历

2021-10-28 09:51:01

MC9S12G128模块化分层化软件架构之七_外部中断

2021-12-05 09:06:09

嵌入式硬件通信接口协议-SPI（二）分层架构设计模拟接口

2021-12-09 12:36:07

AUTOSAR分层架构介绍及SmartSAR studio使用总结

AUTOSAR分层架构

2022-03-28 16:44:22

若干蒸馏方法之间的细节以及差异

以往的知识蒸馏虽然可以有效的压缩模型尺寸，但很难将teacher模型的能力蒸馏到一个更小词表的student模型中，而DualTrain+SharedProj解决了这个难题。

2022-05-12 11:39:50

1092

关于快速知识蒸馏的视觉框架

知识蒸馏框架包含了一个预训练好的 teacher 模型（蒸馏过程权重固定），和一个待学习的 student 模型, teacher 用来产生 soft 的 label 用于监督 student 的学习。

2022-08-31 10:13:11

612

常见的软件架构分层

系统架构思想是软件开发工程师的工作必备知识。大到大型互联网应用系统的设计，小到一个软件功能函数的设计，都需要拥有架构设计思想。

2022-10-13 11:56:46

8294

使用Arduino的自动Chrome Dino游戏

电子发烧友网站提供《使用Arduino的自动Chrome Dino游戏.zip》资料免费下载

2022-10-28 16:39:44

基于Arduino的两足机器人Baby Dino

电子发烧友网站提供《基于Arduino的两足机器人Baby Dino.zip》资料免费下载

2022-11-04 10:20:27

用于NAT的选择性知识蒸馏框架

尽管NAT在拥有许多潜在的优势，目前的工作中这类模型仍然在很大程度上依赖于句子级别的知识蒸馏（sequence-level knowledge distillation, KD）[2]。由于需要并行预测所有token，NAT对单词间依赖关系的建模能力较弱。

2022-12-06 14:44:10

451

无残差连接或归一化层，也能成功训练深度transformer

残差架构是最流行和成功的，最初是在卷积神经网络（CNN）的背景下开发的，后来自注意力网络中产生了无处不在的 transformer 架构。残差架构之所以取得成功，一种原因是与普通 DNN 相比具有更好的信号传播能力，其中信号传播指的是几何信息通过 DNN 层的传输，并由内核函数表示。

2022-12-12 11:23:09

382

基于动态层级通信的多无人机协同策略方案

本文针对通信受限环境中的多无人机协同决策问题，提出一种基于动态层级网络通信架构的通信强化学习协同策略。

2022-12-13 11:47:09

810

Baby Dino是基于Arduino的两足机器人

Baby Dino 是一个基于 Arduino 的两足机器人。它基本上使用五个伺服电机，每条腿两个，头部一个。它还使用超声波传感器来检测障碍物并避开它们。现在，让我们看看如何制作吧！第 1 步：简介

2022-12-19 16:30:04

分层单体架构系统的风格及其本质

分层单体架构风格是分层思想在单体架构中的应用，其关注于技术视角的职责分层。

2023-01-16 15:31:54

766

如何度量知识蒸馏中不同数据增强方法的好坏？

知识蒸馏（knowledge distillation，KD）是一种通用神经网络训练方法，它使用大的teacher模型来 “教” student模型，在各种AI任务上有着广泛应用。

2023-02-25 15:41:33

484

DepGraph：任意架构的结构化剪枝，CNN、Transformer、GNN等都适用！

结构化剪枝是一种重要的模型压缩算法，它通过移除神经网络中冗余的结构来减少参数量，从而降低模型推理的时间、空间代价。在过去几年中，结构化剪枝技术已经被广泛应用于各种神经网络的加速，覆盖了ResNet、VGG、Transformer等流行架构。

2023-03-29 11:23:52

2932

从分层架构到微服务架构介绍（一）

们看到一个架构模式的名字时，也要马上想到对应的架构图及其基本特点。比如，当谈到**分层架构**时，我们就应该想起它的架构图是怎样的、有哪些出色的架构特征（architecture characteristics）、系统是如何部署的、数据存储的策略是哪种、等等。

2023-05-10 16:55:29

756

使用arduino和python改造的Chrome Dino游戏

电子发烧友网站提供《使用arduino和python改造的Chrome Dino游戏.zip》资料免费下载

2023-07-05 14:43:45

基于鲁棒神经架构的设计

导读继卷积神经网络之后，Transformer又推进了图像识别的发展，成为视觉领域的又一主导。最近有人提出Transformer的这种优越性应归功于Self-Attention的架构本身，本文带着

2023-07-17 14:35:53

269

Linux网络栈总体架构

网络栈总体架构总体结构网络栈指的是为了进行网络数据包的收发，由内核实现的一套函数集合。网络栈安装预先设置的一套规则对用户数据进行封装从而达到网络上主机之间数据交换的目的。最初按照这种分层

2023-07-24 10:59:21

311

RetNet架构和Transformer架构对比分析

微软研究院最近提出了一个新的 LLM 自回归基础架构 Retentive Networks （RetNet）[1,4]，该架构相对于 Transformer 架构的优势是同时具备:训练可并行、推理成本低和良好的性能，不可能三角。

2023-07-26 10:44:47

933

卷积神经网络层级结构卷积神经网络的卷积层讲解

卷积神经网络层级结构卷积神经网络的卷积层讲解卷积神经网络（Convolutional Neural Network，CNN）是一种基于深度学习的神经网络模型，在许多视觉相关的任务中表现出色，如图

2023-08-21 16:49:42

3757

TPAMI 2023 | 用于视觉识别的相互对比学习在线知识蒸馏

本次文章介绍我们于 TPAMI-2023 发表的一项用于视觉识别的相互对比学习在线知识蒸馏（Online Knowledge Distillation via Mutual Contrastive

2023-09-19 10:00:04

326

任意模型都能蒸馏！华为诺亚提出异构模型的知识蒸馏方法

相比于仅使用logits的蒸馏方法，同步使用模型中间层特征进行蒸馏的方法通常能取得更好的性能。然而在异构模型的情况下，由于不同架构模型对特征的不同学习偏好，它们的中间层特征往往具有较大的差异，直接将针对同架构模型涉及的蒸馏方法迁移到异构模型会导致性能下降。

2023-11-01 16:18:18

391

浅谈网络变压器（Network Transformer）

网络变压器（Network Transformer）是一种用于信号转换和传输的电子设备，广泛应用于网络设备中，如路由器、交换机、网卡等。网络变压器的主要作用有以下几点。

2023-11-24 09:31:36

450

基于Transformer的多模态BEV融合方案

由于大量的相机和激光雷达特征以及注意力的二次性质，将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。

2024-01-23 11:39:39

137

已全部加载完成

搜索历史

基于DINO知识蒸馏架构的分层级联Transformer网络

评论