如何将Llama3.1模型部署在英特尔酷睿Ultra处理器-电子发烧友网

作者：虞晓琼博士

东莞职业技术学院

本文从搭建环境开始，一步一步帮助读者实现只用五行代码便可将Llama3.1模型部署在英特尔酷睿Ultra 处理器上。请把文中范例代码下载到本地：

 git clone https://gitee.com/Pauntech/llama3.1-model.git

1.1Meta Llama3.1简介

7月24日，Meta宣布推出迄今为止最强大的开源模型——Llama 3.1 405B，同时发布了全新升级的Llama 3.1 70B和8B模型。

Llama 3.1 405B支持上下文长度为128K Tokens，在基于15万亿个Tokens、超1.6万个H100 GPU上进行训练，研究人员基于超150个基准测试集的评测结果显示，Llama 3.1 405B可与GPT-4o、Claude 3.5 Sonnet和Gemini Ultra等业界头部模型媲美。

引用自：https://ai.meta.com/research/publications/the-llama-3-herd-of-models

魔搭社区已提供Llama3.1模型的预训练权重下载，实测下载速度平均35MB/s。

请读者用下面的命令把Meta-Llama-3.1-8B-Instruct模型的预训练权重下载到本地待用。

 git clone --depth=1 https://www.modelscope.cn/LLM-Research/Meta-Llama-3.1-8B-Instruct.git

1.2英特尔酷睿Ultra处理器简介

英特尔酷睿Ultra处理器内置CPU+GPU+NPU 的三大 AI 引擎，赋能AI大模型在不联网的终端设备上进行推理计算。

1.3Llama3.1模型的INT4量化和本地部署

把Meta-Llama-3.1-8B-Instruct模型的预训练权重下载到本地后，接下来本文将依次介绍使用optimum-cli工具将Llama3.1模型进行INT4量化，并调用optimum-intel完成Llama3.1模型在英特尔酷睿 Ultra 处理器上的部署。

Optimum Intel作为Transformers和Diffusers库与Intel提供的各种优化工具之间的接口层，它给开发者提供了一种简便的使用方式，让这两个库能够利用Intel针对硬件优化的技术，例如：OpenVINO、IPEX等，加速基于Transformer或Diffusion构架的AI大模型在英特尔硬件上的推理计算性能。

Optimum Intel代码仓链接：https://github.com/huggingface/optimum-intel

1.3.1搭建开发环境

请下载并安装Anaconda，然后用下面的命令创建并激活名为llama31的虚拟环境，然后安装Optimum Intel和其依赖项openvino与nncf。

conda create -n llama31 python=3.11  #创建虚拟环境
conda activate llama31     #激活虚拟环境
python -m pip install --upgrade pip  #升级pip到最新版本
pip install optimum-intel[openvino,nncf] #安装Optimum Intel和其依赖项openvino与nncf
pip install -U transformers    #升级transformers库到最新版本

1.3.2用optimum-cli

对Llama3.1模型进行INT4量化

optimum-cli是Optimum Intel自带的跨平台命令行工具，可以不用编写量化代码，用命令实现对Llama3.1模型的量化并转化为OpenVINO格式模型：

optimum-cli export openvino --model D:Meta-Llama-3.1-8B-Instruct --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 --sym llama31_int4

optimum-cli命令的参数意义如下：

--model指定了被量化的模型路径；

--task指定了任务类型；

--weight-format指定了模型参数精度；

--group-size定义了量化过程中的组大小；

--ratio决定了量化过程中保留的权重比例；

--sym表示量化采用的对称性模式。

1.3.3编写推理程序llama31_ov_infer.py

基于Optimum Intel工具包的API函数编写Llama3的推理程序，非常简单，只需五行代码：

1. 调用OVModelForCausalLM.from_pretrained()载入使用optimum-cli优化过的模型

2. 调用AutoTokenizer.from_pretrained()载入模型的分词器

3. 创建一个用于文本生成的pipeline(流水线)

4. 使用pipeline进行推理计算

5. 输出生成的文本结果

Llama3.1模型的推理计算程序如下所示：

# 导入所需的库和模块
from transformers import AutoConfig, AutoTokenizer, pipeline
from optimum.intel.openvino import OVModelForCausalLM
# 设置OpenVINO编译模型的配置参数，这里优先考虑低延迟
config = {
  "PERFORMANCE_HINT": "LATENCY",       # 性能提示选择延迟优先
  "CACHE_DIR": ""               # 模型缓存目录为空，使用默认位置
}
# 指定llama3.1 INT4模型的本地路径
model_dir = r"D:llama31_int4"


# 设定推理设备为GPU，可根据实际情况改为"CPU"或"AUTO"
DEVICE = "GPU"
# 输入的问题示例，可以更改
question = "In a tree, there are 7 birds. If 1 bird is shot, how many birds are left?"
# 载入使用optimum-cli优化过的模型，配置包括设备、性能提示及模型配置
ov_model = OVModelForCausalLM.from_pretrained(
  model_dir,
  device=DEVICE,
  ov_config=config,
  config=AutoConfig.from_pretrained(model_dir, trust_remote_code=True), # 加载模型配置，并信任远程代码
  trust_remote_code=True,
)
# 根据模型目录加载tokenizer，并信任远程代码
tok = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
# 创建一个用于文本生成的pipeline，指定模型、分词器以及最多生成的新token数
pipe = pipeline("text-generation", model=ov_model, tokenizer=tok, max_new_tokens=100)
# 使用pipeline对问题进行推理
results = pipe(question)
# 打印生成的文本结果
print(results[0]['generated_text'])

运行llama31_ov_infer.py，结果如下所示：

1.4构建基于Llama3.1模型的聊天机器人

请先安装依赖软件包：

pip install gradio mdtex2html streamlit -i https://mirrors.aliyun.com/pypi/simple/

然后运行：python llama31_chatbot.py，结果如下所示：

1.5总结

基于OpenVINO的Optimum Intel工具包简单易用，仅需一个命令即可实现LLama3.1模型INT4量化，五行代码即可完成推理程序开发并本地化运行在英特尔酷睿 Ultra 处理器上。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

处理器

处理器

+关注

关注
68

文章
19447

浏览量
231346
英特尔

英特尔

+关注

关注
61

文章
10019

浏览量
172441
模型

模型

+关注

关注
1

文章
3358

浏览量
49282
Meta

Meta

+关注

关注
0

文章
293

浏览量
11441

原文标题：五行代码实现Llama3.1在英特尔® 酷睿™ Ultra处理器上的部署

文章出处：【微信号：英特尔物联网，微信公众号：英特尔物联网】欢迎添加关注！文章转载请注明出处。

英特尔的十款嵌入式智能处理器

英特尔公司今日宣布，英特尔将面向嵌入式市场为全新2010英特尔® 酷睿™

发表于 07-29 06:13

凌华科技发布两款基于最新的英特尔® 酷睿™处理器的模块化电脑

多任务以及卓越的每瓦性能摘要：●基于第13代英特尔® 酷睿™处理器，具有先进的混合架构，提供性能核心和能效核心，并优化了功耗oExpress-RLP: COM.0 R

发表于 02-15 10:30

英特尔发布9代酷睿处理器，树立游戏标杆

英特尔针对游戏和内容创作推出台式机全线产品，包括全新第九代英特尔®酷睿™和英特尔®酷

发表于 10-17 17:00 •5390次阅读

<b class='flag-5'>英特尔</b>发布9代<b class='flag-5'>酷</b><b class='flag-5'>睿</b><b class='flag-5'>处理器</b>，树立游戏标杆

英特尔12代酷睿处理器规格曝光

按照计划，英特尔最早将在今年年底推出12代英特尔酷睿处理器，这代处理器采用全新Alder Lak

发表于 01-20 10:59 •7785次阅读

<b class='flag-5'>英特尔</b>12代<b class='flag-5'>酷</b><b class='flag-5'>睿</b><b class='flag-5'>处理器</b>规格曝光

英特尔发布新一代移动端处理器——酷睿Ultra系列

　在12月7日的联想集团“AI PC 产业创新论坛”上，英特尔中国区技术总经理高宇透露，新一代酷睿 Ultra

发表于 12-14 17:14 •1935次阅读

英特尔Arrow Lake处理器更名酷睿Ultra

@金猪升级包强调Arrow Lake处理器不太可能被称为15代酷睿，更有可能会被冠名为“酷睿Ultra

发表于 03-04 16:45 •1550次阅读

英特尔推出面向边缘市场的酷睿 / 酷睿 Ultra 处理器PS系列

其中，酷睿Ultra处理器PS系列即为Meteor Lake PS，提供45瓦 and 15瓦两个功率选项。主打款为英特尔

发表于 04-09 16:45 •1102次阅读

英特尔二季度对酷睿Ultra处理器供应受限

英特尔首席执行官帕特·基辛格在最新的财报电话会议上透露，受晶圆级封装产能限制，二季度酷睿Ultra处理器

发表于 05-06 11:04 •727次阅读

英特尔酷睿Ultra处理器突破500个AI模型优化

英特尔在最新推出的英特尔® 酷睿™ Ultra处理器

发表于 05-09 11:18 •846次阅读

已有超过500款AI模型在英特尔酷睿Ultra处理器上得以优化运行

近日，英特尔宣布在全新英特尔 酷睿 Ultra处理器

发表于 05-11 09:31 •830次阅读

在英特尔酷睿Ultra处理器上优化和部署YOLOv8模型

英特尔 酷睿 Ultra处理器是英特尔公司推出的一个高端处理

发表于 05-30 17:16 •2131次阅读

英特尔酷睿Ultra处理器出货量预计飙升

英特尔中国区董事长王锐近日透露，英特尔酷睿Ultra处理器自问世以来，已经

发表于 06-20 09:23 •835次阅读

英特尔酷睿Ultra 200V系列处理器发布

英特尔近日隆重推出了其革命性的酷睿Ultra 200V系列处理器，这一全新x86处理器家族以超高

发表于 09-10 16:44 •646次阅读

英特尔发布酷睿Ultra 200S系列台式机处理器

近日，英特尔正式推出了酷睿Ultra 200S系列处理器家族，为台式机平台带来了全新的AI PC功能。此次发布的

发表于 10-11 17:36 •573次阅读

英特尔CES 2025发布全新酷睿Ultra处理器

近日，在万众瞩目的国际消费电子展(CES 2025)上，英特尔再次展现了其在科技领域的领导地位，发布了全新的英特尔® 酷

发表于 01-10 13:57 •351次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

如何将Llama3.1模型部署在英特尔酷睿Ultra处理器

评论

英特尔的十款嵌入式智能处理器

凌华科技发布两款基于最新的英特尔® 酷睿™处理器的模块化电脑

英特尔发布9代酷睿处理器，树立游戏标杆

英特尔12代酷睿处理器规格曝光

英特尔发布新一代移动端处理器——酷睿Ultra系列

英特尔Arrow Lake处理器更名酷睿Ultra

英特尔推出面向边缘市场的酷睿 / 酷睿 Ultra 处理器PS系列

英特尔二季度对酷睿Ultra处理器供应受限

英特尔酷睿Ultra处理器突破500个AI模型优化

已有超过500款AI模型在英特尔酷睿Ultra处理器上得以优化运行

在英特尔酷睿Ultra处理器上优化和部署YOLOv8模型

英特尔酷睿Ultra处理器出货量预计飙升

英特尔酷睿Ultra 200V系列处理器发布

英特尔发布酷睿Ultra 200S系列台式机处理器

英特尔CES 2025发布全新酷睿Ultra处理器