如何提高深度神经网络的表现性能-电子发烧友网

机器学习是一门专门研究计算机如何模拟或实现人类的学习行为、以获取新的知识或技能、重新组织已有的知识结构使之不断改善自身性能的学科，广泛应用于数据挖掘、计算机视觉、自然语言处理等领域。深度学习是机器学习的子集，主要由人工神经网络组成。与传统算法及中小型神经网络相比，大规模的神经网络及海量的数据支撑将有效提高深度神经网络的表现性能。

Transformer模型是一种非串行的神经网络架构，最初被用于执行基于上下文的机器翻译任务。Transformer模型以Encoder-Decoder架构为基础，能够并行处理整个文本序列，同时引入“注意机制”（Attention），使其能够在文本序列中正向和反向地跟踪单词之间的关系，适合在大规模分布式集群中进行训练，因此具有能够并行运算、关注上下文信息、表达能力强等优势。Transformer模型以词嵌入向量叠加位置编码作为输入，使得输入序列具有位置上的关联信息。

编码器（Encoder）由Self-Attention（自注意力层）和 Feed Forward Network（前馈网络）两个子层组成，Attention使得模型不仅关注当前位置的词语，同时能够关注上下文的词语。

解码器（Decoder）通过Encoder-DecoderAttention层，用于解码时对于输入端编码信息的关注；利用掩码（Mask）机制，对序列中每一位置根据之前位置的输出结果循环解码得到当前位置的输出结果。

以GPT-3为例，GPT-3参数量达1750亿个，训练样本token数达3000亿个。考虑采用精度为32位的单精度浮点数数据来训练模型及进行谷歌级访问量推理，假设GPT-3模型每次训练时间要求在30天完成，对应GPT-3所需运算次数为3.15*10^23FLOPs，所需算力为121.528PFLOPS，以A100PCle芯片为例，训练阶段需要新增A100 GPU芯片1558颗，对应DGX A100服务器195台。

假设推理阶段按谷歌每日搜索量35亿次进行估计，则每日GPT-3需推理token数达7.9万亿个，所需运算次数为4.76*10^24FLOPs，所需算力为55EFLOPs，则推理阶段需要新增A100 GPU芯片70.6万颗，对应DGX A100服务器8.8万台。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4785

浏览量
101290
计算机

计算机

+关注

关注
19

文章
7559

浏览量
88822
机器学习

机器学习

+关注

关注
66

文章
8455

浏览量
133186

原文标题：AI大语言模型原理、演进及算力测算

文章出处：【微信号：AI_Architect，微信公众号：智能计算芯世界】欢迎添加关注！文章转载请注明出处。

详解深度学习、神经网络与卷积神经网络的应用

在如今的网络时代，错综复杂的大数据和网络环境，让传统信息处理理论、人工智能与人工神经网络都面临巨大的挑战。近些年，深度学习逐渐走进人们的视线，通过深

发表于 01-11 10:51 •2326次阅读

从AlexNet到MobileNet，带你入门深度神经网络

取得了良好的性能。可以说，DNN其实是一种架构，是指深度超过几个相似层的神经网络结构，一般能够达到几十层，或者由一些复杂的模块组成。ILSVRC(ImageNet大规模视觉识别挑战赛)每年都不断被

发表于 05-08 15:57

神经网络资料

基于深度学习的神经网络算法

发表于 05-16 17:25

解析深度学习：卷积神经网络原理与视觉实践

解析深度学习：卷积神经网络原理与视觉实践

发表于 06-14 22:21

深度神经网络是什么

多层感知机深度神经网络in collaboration with Hsu Chung Chuan, Lin Min Htoo, and Quah Jia Yong. 与许忠传，林敏涛和华佳勇合作

发表于 07-12 06:35

如何构建神经网络？

原文链接：http://tecdat.cn/?p=5725 神经网络是一种基于现有数据创建预测的计算系统。如何构建神经网络？神经网络包括：输入层：根据现有数据获取输入的层隐藏层：使用反向传播优化输入变量权重的层，以

发表于 07-12 08:02

基于深度神经网络的激光雷达物体识别系统

的激光雷达物体识别技术一直难以在嵌入式平台上实时运行。经纬恒润经过潜心研发，攻克了深度神经网络在嵌入式平台部署所面临的算子定制与加速、量化策略、模型压缩等难题，率先实现了高性能激光检测神经网络

发表于 12-21 07:59

卷积神经网络模型发展及应用

十余年来快速发展的崭新领域，越来越受到研究者的关注。卷积神经网络（CNN）模型是深度学习模型中最重要的一种经典结构，其性能在近年来深度学习任务上逐步

发表于 08-02 10:39

【人工神经网络基础】为什么神经网络选择了“深度”？

由 Demi 于星期四, 2018-09-06 09:33 发表现在提到“神经网络”和“深度神经网络”，会觉得两者没有什么区别，神经网络还能不是“

发表于 09-06 20:48 •724次阅读

深度学习：神经网络和函数

深度学习是机器学习的一个子集，它使用神经网络来执行学习和预测。深度学习在各种任务中都表现出了惊人的表现，无论是文本、时间序列还是计算机视觉。

发表于 04-07 10:17 •1715次阅读

什么是神经网络？什么是卷积神经网络？

在介绍卷积神经网络之前，我们先回顾一下神经网络的基本知识。就目前而言，神经网络是深度学习算法的核心，我们所熟知的很多深度学习算法的背后其实都

发表于 02-23 09:14 •3748次阅读

浅析三种主流深度神经网络

来源：青榴实验室 1、引子深度神经网络(DNNs)最近在图像分类或语音识别等复杂机器学习任务中表现出的优异性能令人印象深刻。在本文中，我们将了解

发表于 05-15 14:20 •1054次阅读

浅析三种主流深度神经网络

来源：青榴实验室1、引子深度神经网络(DNNs)最近在图像分类或语音识别等复杂机器学习任务中表现出的优异性能令人印象深刻。在本文中，我们将了解深度

发表于 05-17 09:59 •3058次阅读

卷积神经网络和深度神经网络的优缺点卷积神经网络和深度神经网络的区别

深度神经网络是一种基于神经网络的机器学习算法，其主要特点是由多层神经元构成，可以根据数据自动调整神经元之间的权重，从而实现对大规模数据进行预

发表于 08-21 17:07 •4280次阅读

深度神经网络与基本神经网络的区别

在探讨深度神经网络（Deep Neural Networks, DNNs）与基本神经网络（通常指传统神经网络或前向神经网络）的区别时，我们需

发表于 07-04 13:20 •1113次阅读

搜索历史

如何提高深度神经网络的表现性能

评论

详解深度学习、神经网络与卷积神经网络的应用

从AlexNet到MobileNet，带你入门深度神经网络

神经网络资料

解析深度学习：卷积神经网络原理与视觉实践

深度神经网络是什么

如何构建神经网络？

基于深度神经网络的激光雷达物体识别系统

卷积神经网络模型发展及应用

【人工神经网络基础】为什么神经网络选择了“深度”？

深度学习：神经网络和函数

什么是神经网络？什么是卷积神经网络？

浅析三种主流深度神经网络

浅析三种主流深度神经网络

卷积神经网络和深度神经网络的优缺点卷积神经网络和深度神经网络的区别

深度神经网络与基本神经网络的区别