0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenVINO™ 赋能千元级『哪吒』AI开发套件大语言模型 | 开发者实战

研扬科技AAEON 2024-01-06 08:05 次阅读

以下文章来源于英特尔物联网 ,作者武卓

作者:英特尔AI软件布道师 武卓 博士

人工智能的飞速发展中,大语言模型,如Stable-Zephyr-3b,已成为研究和应用的热点。这些模型以其强大的文本理解和生成能力在多个领域大放异彩。然而,大多数高性能模型通常需要昂贵的计算资源,使得它们的应用受限于有限的环境。本文将探讨在OpenVINO的赋能下,如何在不足千元的AI开发板上部署Stable-Zephyr-3b模型,构建聊天机器人,成为实现AI无处不在愿景的重要组成部分之一。

Stable Zephyr 3B是一个先进的大语言模型,拥有30亿参数,它在多个语言处理任务上显示出了优异的性能。这个模型特别是在大小相对较小的情况下,比许多流行模型都要出色,这表明了它高效的参数使用和强大的学习能力。该模型的训练灵感来自于HugginFaceH4的Zephyr 7B训练管道,这是一个专注于高效训练和性能优化的系统。Stable Zephyr 3B是在混合的数据集上进行训练的,包括了公开可用的数据集和通过直接偏好优化(DPO)技术生成的合成数据集。DPO是一种优化技术,它直接在模型的偏好上施加约束,以产生更高质量的数据供模型学习。

该模型的性能评估是基于MT Bench和Alpaca Benchmark,这两个基准都是在业界公认的,用以衡量语言模型在多种任务上的效能。通过这些严格的评估,Stable Zephyr 3B展现了其在理解和生成语言方面的卓越能力。更多关于模型的架构、训练过程、使用的数据集以及在各项评估中的表现的信息可以在模型卡片中找到。

此文使用了研扬科技针对边缘AI行业开发者推出了哪吒(Nezha)开发套件以信用卡大小(85 x 56mm)的开发板-哪吒(Nezha)为核心,哪吒采用Intel N97处理器(Alder Lake-N),最大睿频3.6GHz,IntelUHD Graphics内核GPU,可实现高分辨率显示;板载LPDDR5内存、eMMC存储及TPM 2.0,配备GPIO接口,支持Windows和Linux操作系统,这些功能和无风扇散热方式相结合,为各种应用程序构建高效的解决方案,适用于如自动化、物联网网关、数字标牌和机器人等应用。

要在这些资源有限的设备上运行如Stable-Zephyr-3b这样的大型模型,模型的压缩和优化是关键。借助OpenVINO提供的模型优化工具NNCF,可以将模型量化压缩为INT4精度的模型,从而可以大幅度减少模型的大小和计算需求,而保持相对较高的性能。接下来,就让我们通过我们常用的OpenVINO Notebooks仓库中关于Stable Zephyr 3B模型的Jupyter Notebook代码和拆解,来进一步了解具体步骤吧。(Jupyter notebook代码地址:

https://github.com/openvinotoolkit/openvino_notebooks/tree/main/notebooks/273-stable-zephyr-3b-chatbot )

第一步:安装相应工具包

为了方便模型转换步骤和模型性能评估,我们将使用llm_bench(https://github.com/openvinotoolkit/openvino.genai/tree/master/llm_bench/python )工具,该工具提供了一种统一的方法来估计大语言模型(LLM)的性能。它基于由Optimum-Intel提供的管道,并允许使用几乎相同的代码来估计Pytorch和OpenVINO模型的性能。

首先git clone llm_bench所在的代码仓库:

from pathlibimport Path

import sys

genai_llm_bench = Path("openvino.genai/llm_bench/python")

ifnot genai_llm_bench.exists():

!git clone https://github.com/openvinotoolkit/openvino.genai.git


sys.path.append(str(genai_llm_bench))

并进行相关Python包的安装:

%pip uninstall -q -y optimum-intel optimum

%pip install -q --extra-index-url https://download.pytorch.org/whl/cpu -r ./openvino.genai/llm_bench/python/requirements.txt

%pip uninstall -q -y openvino openvino-dev openvino-nightly

%pip install -q openvino-nightly


第二步:将模型转换为OpenVINO IR格式,并利用NNCF将模型权重压缩为INT4精度
llm_bench提供了一个转换脚本,用于将大语言模型转换为与Optimum-Intel兼容的OpenVINO IR格式。它还允许使用NNCF将模型权重压缩为INT8或INT4精度。要启用INT4的权重压缩,我们应该使用--compress_weights 4BIT_DEFAULT 参数。权重压缩算法旨在压缩模型的权重,并可用于优化大模型的占用空间和性能。与INT8压缩相比,INT4压缩进一步提高了性能,但会引入轻微的预测质量下降。

model_path = Path("stable-zephyr-3b/pytorch/dldt/compressed_weights/OV_FP16-4BIT_DEFAULT")


convert_script = genai_llm_bench / "convert.py"


!python $convert_script --model_id stabilityai/stable-zephyr-3b --precision FP16 --compress_weights 4BIT_DEFAULT --output stable-ze

第三步:评估模型性能

openvino.genai / llm_bench / python / benchmark.py脚本允许在特定输入提示上估计文本生成管道的推理,给定最大生成分词的数量。模型性能评估以时延为主。

benchmark_script = genai_llm_bench /"benchmark.py"


!python $benchmark_script -m $model_path -ic512 -p"Tell me story about cats"

运行结果如下:

wKgaomWyIQ6AGxQ-AAS7PdK1uEA461.png

第四步:应用状态变换来自动处理模型状态

Stable Zephyr是一种自回归的解码器变换器模型,它通过缓存先前计算的隐藏状态来优化生成过程和内存使用,避免每次生成新令牌时重复计算。随着模型和注意力块的增大,处理长序列的缓存策略可能对内存系统构成挑战。因此,OpenVINO提出了一种转换策略,将缓存逻辑内置于模型中以降低内存消耗并优化性能。您可以通过在转换步骤中使用--stateful标志添加有状态转换来估计模型性能。

stateful_model_path = Path("stable-zephyr-3b-stateful/pytorch/dldt/compressed_weights/OV_FP16-4BIT_DEFAULT")
!python $convert_script --model_id stabilityai/stable-zephyr-3b --precision FP16 --compress_weights 4BIT_DEFAULT --output stable-zephyr-3b-stateful --force_convert --stateful

第五步:利用Optimum-Intel加载模型并在基于Gradio搭建的用户界面上运行模型
同样地,这个模型也可以用Optimum-Intel工具包里定义的OVModelForCausalLM 流水线来加载模型和运行推理,代码如下:

from utils.ov_model_classesimport register_normalized_configs

from optimum.intel.openvinoimport OVModelForCausalLM

from transformers import AutoConfig


# Load model into Optimum Interface

register_normalized_configs()


ov_model = OVModelForCausalLM.from_pretrained(model_path, compile=False, config=AutoConfig.from_pretrained(stateful_model_path, trust_remote_code=True), stateful=True)

和我们的很多大预言模型和生成式AI的Notebook示例代码一样,在这个Notebook中,我们也提供了基于Gradio编写的用户友好的使用界面。最终在我们的哪吒开发板上运行该模型的推理。

整个的步骤就是这样!现在就开始跟着我们提供的代码和步骤,动手试试用OpenVINO在哪吒开发板上运行基于大语言模型的聊天机器人吧。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30105

    浏览量

    268389
  • 人工智能
    +关注

    关注

    1791

    文章

    46845

    浏览量

    237526
  • OpenVINO
    +关注

    关注

    0

    文章

    87

    浏览量

    181
收藏 人收藏

    评论

    相关推荐

    基于哪吒开发板部署YOLOv8模型

    2024英特尔 “走近开发者”互动活动-哪吒开发套件免费试 用 AI 创新计划:哪吒开发板是专为
    的头像 发表于 11-15 14:13 150次阅读
    基于<b class='flag-5'>哪吒</b><b class='flag-5'>开发</b>板部署YOLOv8<b class='flag-5'>模型</b>

    OpenVINO™ C++ 在哪吒开发板上推理 Transformer 模型开发者实战

    使用OpenVINO定制你的AI助手丨开发者实战作者:王国强苏州嘉树医疗科技有限公司算法工程师指导:颜国进英特尔边缘计算创新大使研扬科技针对边缘AI
    的头像 发表于 09-28 08:01 269次阅读
    <b class='flag-5'>OpenVINO</b>™ C++ 在<b class='flag-5'>哪吒</b><b class='flag-5'>开发</b>板上推理 Transformer <b class='flag-5'>模型</b>|<b class='flag-5'>开发者</b><b class='flag-5'>实战</b>

    NVIDIA RTX AI套件简化AI驱动的应用开发

    NVIDIA 于近日发布 NVIDIA RTX AI套件,这一工具和 SDK 集合能够帮助 Windows 应用开发者定制、优化和部署适用于 Windows 应用的 AI
    的头像 发表于 09-06 14:45 398次阅读

    【xG24 Matter开发套件试用体验】初识xG24 Matter开发套件

    今天带刚收到xG24 Matter开发套件的快递,为大家做个xG24 Matter开发套件的视频介绍,带大家认识一下这款xG24 Matter开发套件。 EFR32xG24 Explorer
    发表于 07-11 23:31

    2024 TUYA全球开发者大会盛大启幕,Cube AI模型重磅首发!

    2024TUYA全球开发者大会上,重磅推出AI模型AI开发工具、AI小程序
    的头像 发表于 05-31 08:15 325次阅读
    2024 TUYA全球<b class='flag-5'>开发者</b>大会盛大启幕,Cube <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>重磅首发!

    2024 TUYA全球开发者大会盛大启幕,Cube AI模型重磅首发!

    2024 TUYA全球开发者大会上,重磅推出AI模型AI开发工具、AI小程序
    发表于 05-30 09:13 213次阅读
    2024 TUYA全球<b class='flag-5'>开发者</b>大会盛大启幕,Cube <b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>重磅首发!

    联发科发布天玑AI开发套件终端生成式AI应用

    联发科近日推出了全新的天玑AI开发套件,旨在为合作伙伴打造一站式解决方案,以加速终端生成式AI应用的开发。这款套件集合了四大核心模块,为
    的头像 发表于 05-10 11:19 553次阅读

    英特尔开发套件哪吒』在Java环境实现ADAS道路识别演示 | 开发者实战

    本文使用来自OpenModelZoo的预训练的road-segmentation-adas-0001模型。ADAS代表高级驾驶辅助服务。该模型识别四个类别:背景、道路、路缘和标记。硬件环境此文使用了英特尔开发套件家族里的『
    的头像 发表于 04-29 08:07 498次阅读
    英特尔<b class='flag-5'>开发套件</b>『<b class='flag-5'>哪吒</b>』在Java环境实现ADAS道路识别演示 | <b class='flag-5'>开发者</b><b class='flag-5'>实战</b>

    传智教育联合科大讯飞举办“AI开发者TALK”活动

    3月23日,由传智教育与科大讯飞联合组织的大模型实战应用之“AI开发者 TALK·北京站”在海淀举办。本次活动围绕“大模型应用”展开探讨,旨
    的头像 发表于 03-26 16:12 415次阅读
    传智教育联合科大讯飞举办“<b class='flag-5'>AI</b><b class='flag-5'>开发者</b>TALK”活动

    香橙派全球开发者峰会发布多款AI新品及全新AI战略

    2024年3月24日14:00,香橙派全球开发者峰会2024·春季在深圳举行。大会以“AI使,万物新生”为主题,5000多名开发者、合作伙伴、技术领袖、行业专家、政府代表等通过线上线
    的头像 发表于 03-26 14:27 1650次阅读
    香橙派全球<b class='flag-5'>开发者</b>峰会发布多款<b class='flag-5'>AI</b><b class='flag-5'>赋</b><b class='flag-5'>能</b>新品及全新<b class='flag-5'>AI</b>战略

    【转载】英特尔开发套件哪吒”快速部署YoloV8 on Java | 开发者实战

    部署到生产系统中。通过简化的开发工作流程,OpenVINO开发者在现实世界中部署高性能应用程序和算法。 今天我们将基于哪吒
    的头像 发表于 03-23 08:05 478次阅读
    【转载】英特尔<b class='flag-5'>开发套件</b>“<b class='flag-5'>哪吒</b>”快速部署YoloV8 on Java | <b class='flag-5'>开发者</b><b class='flag-5'>实战</b>

    基于英特尔哪吒开发者套件平台来快速部署OpenVINO Java实战

    OpenVINO 工具套件基于OneAPI开发,可以加快高性能计算机视觉和深度学习应用开发速度的工具套件,适用于从边缘到云的各种英特尔计算平
    的头像 发表于 03-21 18:24 1416次阅读
    基于英特尔<b class='flag-5'>哪吒</b><b class='flag-5'>开发者</b><b class='flag-5'>套件</b>平台来快速部署<b class='flag-5'>OpenVINO</b> Java<b class='flag-5'>实战</b>

    英飞凌推出CYUSBS236 USB转串行通信(双通道)开发套件

    英飞凌科技(Infineon Technologies)近日宣布推出全新的CYUSBS236 USB 转串行通信(双通道)开发套件。该开发套件基于英飞凌的CY7C65215 USB 串行桥控制器,为开发者提供了快速、简便地实现U
    的头像 发表于 01-24 17:12 847次阅读

    如何快速下载OpenVINO Notebooks中的AI模型

    OpenVINO Notebooks是Jupyter Notebook形式的OpenVINO范例程序大集合,方便开发者快速学习并掌握OpenVINO推理程序,并通过Copy&Paste
    的头像 发表于 12-12 14:40 1073次阅读
    如何快速下载<b class='flag-5'>OpenVINO</b> Notebooks中的<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>

    鸿蒙原生应用/服务开发-开发者如何进行真机测试

    前提条件:已经完成鸿蒙原生应用/服务开发,已经相对熟练使用DevEco Studio,开发者自己有鸿蒙4.0及以上的真机设备。 真机测试具体流程如下 1.手机打开
    发表于 11-30 09:46