0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

深度学习自然语言处理 来源:机器之心 2024-01-04 16:18 次阅读
前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相似,很多人将其形容为 GPT-4 的「缩小版」。

我们都知道,OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7B 的放出,无疑给广大开发者提供了一种「非常接近 GPT-4」的开源选项。

在基准测试中,Mistral 8x7B 的表现优于 Llama 2 70B,在大多数标准基准测试上与 GPT-3.5 不相上下,甚至略胜一筹。

5e8e9c7c-aa00-11ee-8b88-92fbcf53809c.png5e9b6678-aa00-11ee-8b88-92fbcf53809c.png▲图源 https://mistral.ai/news/mixtral-of-experts/

随着这项研究的出现,很多人表示:「闭源大模型已经走到了结局。」 5e9fa184-aa00-11ee-8b88-92fbcf53809c.png

短短几周的时间,机器学习爱好者 Vaibhav (VB) Srivastav 表示:随着 AutoAWQ(支持 Mixtral、LLaVa 等模型的量化)最新版本的发布,现在用户可以将 Mixtral 8x7B Instruct 与 Flash Attention 2 结合使用,达到快速推理的目的,实现这一功能大约只需 24GB GPU VRAM、不到十行代码。 5ea3abda-aa00-11ee-8b88-92fbcf53809c.png▲图源 https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ地址:

https://github.com/casper-hansen/AutoAWQ 操作过程是这样的: 首先是安装 AutoAWQ 以及 transformers

pipinstallautoawqgit+https://github.com/huggingface/transformers.git
第二步是初始化 tokenizer 和模型: 5eaa2c8a-aa00-11ee-8b88-92fbcf53809c.png  第三步是初始化 TextStreamer: 5eae1264-aa00-11ee-8b88-92fbcf53809c.png  第四步对输入进行 Token 化: 5eb31566-aa00-11ee-8b88-92fbcf53809c.png  第五步生成: 5eb7ddda-aa00-11ee-8b88-92fbcf53809c.png  当你配置好项目后,就可以与 Mixtral 进行对话,例如对于用户要求「如何做出最好的美式咖啡?通过简单的步骤完成」,Mixtral 会按照 1、2、3 等步骤进行回答。

5ec0113a-aa00-11ee-8b88-92fbcf53809c.png

项目中使用的代码:

5ec86e84-aa00-11ee-8b88-92fbcf53809c.png

Srivastav 表示上述实现也意味着用户可以使用 AWQ 运行所有的 Mixtral 微调,并使用 Flash Attention 2 来提升它们。 看到这项研究后,网友不禁表示:真的很酷。

5ecdb254-aa00-11ee-8b88-92fbcf53809c.png  5ed1689a-aa00-11ee-8b88-92fbcf53809c.png


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 代码
    +关注

    关注

    30

    文章

    4603

    浏览量

    67385
  • GPT
    GPT
    +关注

    关注

    0

    文章

    338

    浏览量

    15101
  • OpenAI
    +关注

    关注

    9

    文章

    930

    浏览量

    6088

原文标题:8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ESP32-S2能否支持8位串RGB?

    看ESP32-S2手册上写的是支持8位串口RGB的。但是在编译esp-idf master代码时出错。 我有一片LCD是8位串RGB接口(
    发表于 06-17 06:17

    昆仑万维开源2千亿稀疏大模型Skywork-MoE

    近日,昆仑万维公司宣布开源一款名为Skywork-MoE的稀疏大模型,该模型拥有高达2千亿参数,不仅性能强劲,而且推理成本更低,为人工智能领域带来了新的突破。
    的头像 发表于 06-04 14:44 366次阅读

    STM32G0B1无法操作FLASH,解锁FLASH失败的原因?

    使用STM32G0B1写内部的Flash时出现问题,代码: #pragma arm section code = \"RAMCODE\" uint32_t
    发表于 04-02 07:45

    8b10b编码verilog实现

    8b/10b编码是一种用于减少数据线上的低效能时钟信号传输的技术,通过在数据流中插入特殊的控制字符,来同步数据和时钟。在Verilog中实现8b/1
    发表于 03-26 07:55

    基于NVIDIA Megatron Core的MOE LLM实现和训练优化

    本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型(LLM)实现与训练优化上的创新工作。
    的头像 发表于 03-22 09:50 366次阅读
    基于NVIDIA Megatron Core的<b class='flag-5'>MOE</b> LLM<b class='flag-5'>实现</b>和训练优化

    基于OpenCV DNN实现YOLOv8的模型部署与推理演示

    基于OpenCV DNN实现YOLOv8推理的好处就是一套代码就可以部署在Windows10系统、乌班图系统、Jetson的Jetpack系
    的头像 发表于 03-01 15:52 757次阅读
    基于OpenCV DNN<b class='flag-5'>实现</b>YOLOv<b class='flag-5'>8</b>的模型部署与<b class='flag-5'>推理</b>演示

    最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

    Mixtral 8x7B模型开源后,AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B,在主流基准测试中击败了Mixtral In
    的头像 发表于 01-30 15:29 644次阅读
    最佳开源模型刷新多项SOTA,首次超越Mixtral Instruct!「开源版GPT-4」家族迎来大爆发

    CYT2B7 flash分区的疑问求解

    在看看 CYT2B7 的手册时,对于 flash 分区有疑问。 为什么 Dual Bank 的分区中码 flash和data flashdapping A和Mapping B?使用时单
    发表于 01-22 07:30

    混合专家模型 (MoE)核心组件和训练方法介绍

    随着 Mixtral 8x7B (announcement, model card) 的推出,一种称为混合专家模型 (Mixed Expert Models,简称 MoEs
    的头像 发表于 01-13 09:37 803次阅读
    混合专家模型 (<b class='flag-5'>MoE</b>)核心组件和训练方法介绍

    深入浅出理解PagedAttention CUDA实现

    vLLM 中,LLM 推理的 prefill 阶段 attention 计算使用第三方库 xformers 的优化实现,decoding 阶段 attention 计算则使用项目编译
    的头像 发表于 01-09 11:43 1091次阅读
    深入浅出理解PagedAttention CUDA<b class='flag-5'>实现</b>

    FlashAttenion-V3: Flash Decoding详解

    因此,本文提出了Flash-Decoding,可以推理过程中显著加速attention操作(例如长序列生成速度提高8倍)。其主要思想是最大化并行加载keys和values的效率,通过重
    的头像 发表于 10-31 16:18 764次阅读
    FlashAttenion-V3: <b class='flag-5'>Flash</b> Decoding详解

    SymPy:四代码秒解微积分

    +y)** 10 ).expand() print (d) # 结果:x**10 + 10*x**9*y + 45*
    的头像 发表于 10-21 16:31 401次阅读
    SymPy:四<b class='flag-5'>行</b><b class='flag-5'>代码</b>秒解微积分

    主流大模型推理框架盘点解析

    vLLM是一个开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。
    发表于 10-10 15:09 3020次阅读
    主流大模型<b class='flag-5'>推理</b>框架盘点解析

    AscendCL快速入门——模型推理篇(上)

    三步。 把经过ATC转化过的模型.om文件加载到内存。 为模型准备输入输出。 让模型在设备端执行推理。 二、模型推理的接口调用和代码示例1. 将模型加载到内存AscendCL推理
    发表于 08-24 11:04

    XC16x、C16x和ST10开发工具介绍

    Keil C166使用领先的编译器技术为C16x、XC16x和ST10微控制器生成最高效的代码。 C166完全集成到µVision3 IDE/调试器中,在一个强大的环境中
    发表于 08-24 07:58