0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何提高深度神经网络的表现性能

智能计算芯世界 来源:智能计算芯世界 2023-05-15 14:15 次阅读

机器学习是一门专门研究计算机如何模拟或实现人类的学习行为、以获取新的知识或技能、重新组织已有的知识结构使之不断改善自身性能的学科,广泛应用于数据挖掘、计算机视觉、自然语言处理等领域。深度学习是机器学习的子集,主要由人工神经网络组成。与传统算法及中小型神经网络相比,大规模的神经网络及海量的数据支撑将有效提高深度神经网络的表现性能。

Transformer模型是一种非串行的神经网络架构,最初被用于执行基于上下文的机器翻译任务。Transformer模型以Encoder-Decoder架构为基础,能够并行处理整个文本序列,同时引入“注意机制”(Attention),使其能够在文本序列中正向和反向地跟踪单词之间的关系,适合在大规模分布式集群中进行训练,因此具有能够并行运算、关注上下文信息、表达能力强等优势。Transformer模型以词嵌入向量叠加位置编码作为输入,使得输入序列具有位置上的关联信息。

编码器(Encoder)由Self-Attention(自注意力层)和 Feed Forward Network(前馈网络)两个子层组成,Attention使得模型不仅关注当前位置的词语,同时能够关注上下文的词语。

解码器(Decoder)通过Encoder-DecoderAttention层,用于解码时对于输入端编码信息的关注;利用掩码(Mask)机制,对序列中每一位置根据之前位置的输出结果循环解码得到当前位置的输出结果。

以GPT-3为例,GPT-3参数量达1750亿个,训练样本token数达3000亿个。考虑采用精度为32位的单精度浮点数数据来训练模型及进行谷歌级访问量推理,假设GPT-3模型每次训练时间要求在30天完成,对应GPT-3所需运算次数为3.15*10^23FLOPs,所需算力为121.528PFLOPS,以A100PCle芯片为例,训练阶段需要新增A100 GPU芯片1558颗,对应DGX A100服务器195台。

假设推理阶段按谷歌每日搜索量35亿次进行估计,则每日GPT-3需推理token数达7.9万亿个,所需运算次数为4.76*10^24FLOPs,所需算力为55EFLOPs,则推理阶段需要新增A100 GPU芯片70.6万颗,对应DGX A100服务器8.8万台。

af6cde3a-f1f8-11ed-90ce-dac502259ad0.png

af7d6ec6-f1f8-11ed-90ce-dac502259ad0.png

afa4cb6a-f1f8-11ed-90ce-dac502259ad0.png

affe36a0-f1f8-11ed-90ce-dac502259ad0.png

b020439e-f1f8-11ed-90ce-dac502259ad0.png

b085971c-f1f8-11ed-90ce-dac502259ad0.png

b09fc9f2-f1f8-11ed-90ce-dac502259ad0.png

b0c8cc4e-f1f8-11ed-90ce-dac502259ad0.png

b0ea5f08-f1f8-11ed-90ce-dac502259ad0.png

b1311c4a-f1f8-11ed-90ce-dac502259ad0.png

b15bcc60-f1f8-11ed-90ce-dac502259ad0.png

b1a0aef2-f1f8-11ed-90ce-dac502259ad0.png

b1c0ec26-f1f8-11ed-90ce-dac502259ad0.png

b1dfe342-f1f8-11ed-90ce-dac502259ad0.png

b22e1b34-f1f8-11ed-90ce-dac502259ad0.png

b2961856-f1f8-11ed-90ce-dac502259ad0.png

b2b57fe8-f1f8-11ed-90ce-dac502259ad0.png

b2dae1a2-f1f8-11ed-90ce-dac502259ad0.png

b30d3026-f1f8-11ed-90ce-dac502259ad0.png

b3305678-f1f8-11ed-90ce-dac502259ad0.png

b35e9678-f1f8-11ed-90ce-dac502259ad0.png

b39407f4-f1f8-11ed-90ce-dac502259ad0.png

b3f86ef6-f1f8-11ed-90ce-dac502259ad0.png

b40a14c6-f1f8-11ed-90ce-dac502259ad0.png

b42b3d54-f1f8-11ed-90ce-dac502259ad0.png

b44a0770-f1f8-11ed-90ce-dac502259ad0.png

b46ae422-f1f8-11ed-90ce-dac502259ad0.png

b4acdc88-f1f8-11ed-90ce-dac502259ad0.png

b4dd8270-f1f8-11ed-90ce-dac502259ad0.png

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4762

    浏览量

    100523
  • 计算机
    +关注

    关注

    19

    文章

    7413

    浏览量

    87696
  • 机器学习
    +关注

    关注

    66

    文章

    8375

    浏览量

    132397

原文标题:AI大语言模型原理、演进及算力测算

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    详解深度学习、神经网络与卷积神经网络的应用

    在如今的网络时代,错综复杂的大数据和网络环境,让传统信息处理理论、人工智能与人工神经网络都面临巨大的挑战。近些年,深度学习逐渐走进人们的视线,通过
    的头像 发表于 01-11 10:51 1897次阅读
    详解<b class='flag-5'>深度</b>学习、<b class='flag-5'>神经网络</b>与卷积<b class='flag-5'>神经网络</b>的应用

    从AlexNet到MobileNet,带你入门深度神经网络

    取得了良好的性能。可以说,DNN其实是一种架构,是指深度超过几个相似层的神经网络结构,一般能够达到几十层,或者由一些复杂的模块组成。ILSVRC(ImageNet大规模视觉识别挑战赛)每年都不断被
    发表于 05-08 15:57

    神经网络资料

    基于深度学习的神经网络算法
    发表于 05-16 17:25

    解析深度学习:卷积神经网络原理与视觉实践

    解析深度学习:卷积神经网络原理与视觉实践
    发表于 06-14 22:21

    深度神经网络是什么

    多层感知机 深度神经网络in collaboration with Hsu Chung Chuan, Lin Min Htoo, and Quah Jia Yong. 与许忠传,林敏涛和华佳勇合作
    发表于 07-12 06:35

    如何构建神经网络

    原文链接:http://tecdat.cn/?p=5725 神经网络是一种基于现有数据创建预测的计算系统。如何构建神经网络神经网络包括:输入层:根据现有数据获取输入的层隐藏层:使用反向传播优化输入变量权重的层,以
    发表于 07-12 08:02

    基于深度神经网络的激光雷达物体识别系统

    的激光雷达物体识别技术一直难以在嵌入式平台上实时运行。经纬恒润经过潜心研发,攻克了深度神经网络在嵌入式平台部署所面临的算子定制与加速、量化策略、模型压缩等难题,率先实现了高性能激光检测神经网络
    发表于 12-21 07:59

    卷积神经网络模型发展及应用

    十余年来快速发展的崭新领域,越来越受到研究者的关注。卷积神经网络(CNN)模型是深度学习模型中最重要的一种经典结构,其性能在近年来深度学习任务上逐步
    发表于 08-02 10:39

    【人工神经网络基础】为什么神经网络选择了“深度”?

    由 Demi 于 星期四, 2018-09-06 09:33 发表 现在提到“神经网络”和“深度神经网络”,会觉得两者没有什么区别,神经网络还能不是“
    发表于 09-06 20:48 678次阅读

    深度学习:神经网络和函数

    深度学习是机器学习的一个子集,它使用神经网络来执行学习和预测。深度学习在各种任务中都表现出了惊人的表现,无论是文本、时间序列还是计算机视觉。
    的头像 发表于 04-07 10:17 1622次阅读

    什么是神经网络?什么是卷积神经网络

    在介绍卷积神经网络之前,我们先回顾一下神经网络的基本知识。就目前而言,神经网络深度学习算法的核心,我们所熟知的很多深度学习算法的背后其实都
    的头像 发表于 02-23 09:14 3344次阅读

    浅析三种主流深度神经网络

    来源:青榴实验室 1、引子 深度神经网络(DNNs)最近在图像分类或语音识别等复杂机器学习任务中表现出的优异性能令人印象深刻。 在本文中,我们将了解
    的头像 发表于 05-15 14:20 938次阅读
    浅析三种主流<b class='flag-5'>深度</b><b class='flag-5'>神经网络</b>

    浅析三种主流深度神经网络

    来源:青榴实验室1、引子深度神经网络(DNNs)最近在图像分类或语音识别等复杂机器学习任务中表现出的优异性能令人印象深刻。在本文中,我们将了解深度
    的头像 发表于 05-17 09:59 2493次阅读
    浅析三种主流<b class='flag-5'>深度</b><b class='flag-5'>神经网络</b>

    卷积神经网络深度神经网络的优缺点 卷积神经网络深度神经网络的区别

    深度神经网络是一种基于神经网络的机器学习算法,其主要特点是由多层神经元构成,可以根据数据自动调整神经元之间的权重,从而实现对大规模数据进行预
    发表于 08-21 17:07 3919次阅读

    深度神经网络与基本神经网络的区别

    在探讨深度神经网络(Deep Neural Networks, DNNs)与基本神经网络(通常指传统神经网络或前向神经网络)的区别时,我们需
    的头像 发表于 07-04 13:20 665次阅读