0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

深度学习自然语言处理 来源:机器之心 2024-01-04 16:18 次阅读
前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相似,很多人将其形容为 GPT-4 的「缩小版」。

我们都知道,OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7B 的放出,无疑给广大开发者提供了一种「非常接近 GPT-4」的开源选项。

在基准测试中,Mistral 8x7B 的表现优于 Llama 2 70B,在大多数标准基准测试上与 GPT-3.5 不相上下,甚至略胜一筹。

5e8e9c7c-aa00-11ee-8b88-92fbcf53809c.png5e9b6678-aa00-11ee-8b88-92fbcf53809c.png▲图源 https://mistral.ai/news/mixtral-of-experts/

随着这项研究的出现,很多人表示:「闭源大模型已经走到了结局。」 5e9fa184-aa00-11ee-8b88-92fbcf53809c.png

短短几周的时间,机器学习爱好者 Vaibhav (VB) Srivastav 表示:随着 AutoAWQ(支持 Mixtral、LLaVa 等模型的量化)最新版本的发布,现在用户可以将 Mixtral 8x7B Instruct 与 Flash Attention 2 结合使用,达到快速推理的目的,实现这一功能大约只需 24GB GPU VRAM、不到十行代码。 5ea3abda-aa00-11ee-8b88-92fbcf53809c.png▲图源 https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ地址:

https://github.com/casper-hansen/AutoAWQ 操作过程是这样的: 首先是安装 AutoAWQ 以及 transformers

pipinstallautoawqgit+https://github.com/huggingface/transformers.git
第二步是初始化 tokenizer 和模型: 5eaa2c8a-aa00-11ee-8b88-92fbcf53809c.png  第三步是初始化 TextStreamer: 5eae1264-aa00-11ee-8b88-92fbcf53809c.png  第四步对输入进行 Token 化: 5eb31566-aa00-11ee-8b88-92fbcf53809c.png  第五步生成: 5eb7ddda-aa00-11ee-8b88-92fbcf53809c.png  当你配置好项目后,就可以与 Mixtral 进行对话,例如对于用户要求「如何做出最好的美式咖啡?通过简单的步骤完成」,Mixtral 会按照 1、2、3 等步骤进行回答。

5ec0113a-aa00-11ee-8b88-92fbcf53809c.png

项目中使用的代码:

5ec86e84-aa00-11ee-8b88-92fbcf53809c.png

Srivastav 表示上述实现也意味着用户可以使用 AWQ 运行所有的 Mixtral 微调,并使用 Flash Attention 2 来提升它们。 看到这项研究后,网友不禁表示:真的很酷。

5ecdb254-aa00-11ee-8b88-92fbcf53809c.png  5ed1689a-aa00-11ee-8b88-92fbcf53809c.png


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 代码
    +关注

    关注

    30

    文章

    4721

    浏览量

    68216
  • GPT
    GPT
    +关注

    关注

    0

    文章

    351

    浏览量

    15278
  • OpenAI
    +关注

    关注

    9

    文章

    1033

    浏览量

    6378

原文标题:8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    阿里Qwen2-Math系列震撼发布,数学推理能力领跑全球

    阿里巴巴近期震撼发布了Qwen2-Math系列模型,这一系列模型基于其强大的Qwen2 LLM构建,专为数学解题而生,展现了前所未有的数学推理能力。Qwen2-Math家族包括1.5
    的头像 发表于 08-12 15:19 667次阅读

    PerfXCloud顺利接入MOE大模型DeepSeek-V2

    今日,在 PerfXCloud 重磅更新支持 llama 3.1 之后,其平台再度实现重大升级!目前,已顺利接入被誉为全球最强的 MOE 大模型 DeepSeek-V2 ,已在 PerfXCloud(澎峰云)官网的体验中心对平台
    的头像 发表于 07-27 10:08 548次阅读
    PerfXCloud顺利接入<b class='flag-5'>MOE</b>大模型DeepSeek-V<b class='flag-5'>2</b>

    Verilog:【8】基于FPGA实现SD NAND FLASH的SPI协议读写

    校验 2Bytes **  6 模块代码**   本代码实现的功能,是基于黑金AX301B实现
    发表于 06-21 17:58

    ESP32-S2能否支持8位串RGB?

    看ESP32-S2手册上写的是支持8位串口RGB的。但是在编译esp-idf master代码时出错。 我有一片LCD是8位串RGB接口(
    发表于 06-17 06:17

    多线程操作flash导致lld_adv.c 3023断言失败怎么解决?

    : 0x00060b20A7: 0x00000001A8: 0x00000001A9: 0x3fcef9e4 A10: 0
    发表于 06-11 06:12

    昆仑万维开源2千亿稀疏大模型Skywork-MoE

    近日,昆仑万维公司宣布开源一款名为Skywork-MoE的稀疏大模型,该模型拥有高达2千亿参数,不仅性能强劲,而且推理成本更低,为人工智能领域带来了新的突破。
    的头像 发表于 06-04 14:44 523次阅读

    STM32G0B1无法操作FLASH,解锁FLASH失败的原因?

    使用STM32G0B1写内部的Flash时出现问题,代码: #pragma arm section code = \"RAMCODE\" uint32_t
    发表于 04-02 07:45

    8b10b编码verilog实现

    8b/10b编码是一种用于减少数据线上的低效能时钟信号传输的技术,通过在数据流中插入特殊的控制字符,来同步数据和时钟。在Verilog中实现8b/1
    发表于 03-26 07:55

    基于NVIDIA Megatron Core的MOE LLM实现和训练优化

    本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型(LLM)实现与训练优化上的创新工作。
    的头像 发表于 03-22 09:50 681次阅读
    基于NVIDIA Megatron Core的<b class='flag-5'>MOE</b> LLM<b class='flag-5'>实现</b>和训练优化

    基于OpenCV DNN实现YOLOv8的模型部署与推理演示

    基于OpenCV DNN实现YOLOv8推理的好处就是一套代码就可以部署在Windows10系统、乌班图系统、Jetson的Jetpack系
    的头像 发表于 03-01 15:52 1328次阅读
    基于OpenCV DNN<b class='flag-5'>实现</b>YOLOv<b class='flag-5'>8</b>的模型部署与<b class='flag-5'>推理</b>演示

    大模型系列:Flash Attention V2整体运作流程

    基于1.1中的思想,我们在V2中将原本的内外循环置换了位置(示意图就不画了,基本可以对比V1示意图想象出来)。我们直接来看V2的伪代码(如果对以下伪代码符号表示或解读有疑惑的朋友,最好
    的头像 发表于 02-21 11:38 1706次阅读
    大模型系列:<b class='flag-5'>Flash</b> <b class='flag-5'>Attention</b> V<b class='flag-5'>2</b>整体运作流程

    最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

    Mixtral 8x7B模型开源后,AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B,在主流基准测试中击败了Mixtral In
    的头像 发表于 01-30 15:29 876次阅读
    最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

    CYT2B7 flash分区的疑问求解

    在看看 CYT2B7 的手册时,对于 flash 分区有疑问。 为什么 Dual Bank 的分区中码 flash和data flashdapping A和Mapping B?使用时单
    发表于 01-22 07:30

    混合专家模型 (MoE)核心组件和训练方法介绍

    随着 Mixtral 8x7B (announcement, model card) 的推出,一种称为混合专家模型 (Mixed Expert Models,简称 MoEs
    的头像 发表于 01-13 09:37 1143次阅读
    混合专家模型 (<b class='flag-5'>MoE</b>)核心组件和训练方法介绍

    深入浅出理解PagedAttention CUDA实现

    vLLM 中,LLM 推理的 prefill 阶段 attention 计算使用第三方库 xformers 的优化实现,decoding 阶段 attention 计算则使用项目编译
    的头像 发表于 01-09 11:43 1666次阅读
    深入浅出理解PagedAttention CUDA<b class='flag-5'>实现</b>