三步完成在英特尔独立显卡上量化和部署ChatGLM3-6B模型-电子发烧友网

ChatGLM3-6B 简介

ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，在填写问卷进行登记后亦允许免费商业使用。

问卷：

引用自：https://github.com/THUDM/ChatGLM3

请使用命令，将 ChatGLM3-6B 模型下载到本地 (例如，保存到 D 盘) ：

git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git

左滑查看更多

BigDL-LLM 简介

BigDL-LLM 是开源，遵循 Apache 2.0许可证，专门用于在英特尔的硬件平台上加速大语言模型（Large Language Model, LLM）推理计算的软件工具包。它是在原有的 BigDL 框架基础上，为了应对大语言模型在推理过程中对性能和资源的高要求而设计的。BigDL-LLM 旨在通过优化和硬件加速技术来提高大语言模型的运行效率，减少推理延迟，并降低资源消耗。

本文将详细介绍基于 BigDL-LLM 在英特尔独立显卡上量化和部署 ChatGLM3-6B 模型。

部署平台简介：

算力魔方是一款可以 DIY 的迷你主机，采用了抽屉式设计，后续组装、升级、维护只需要拔插模块。

通过选择计算模块的版本，再搭配不同额 IO 模块可以组成丰富的配置，适应不同场景。性能不够时，可以升级计算模块提升算力， IO 接口不匹配时，可以更换 IO 模块调整功能，而无需重构整个系统。本文在带有 A380独立显卡的算力模方上完成验证。

在英特尔独立显卡上部署 ChatGLM3-6B

4.1

搭建开发环境

第一步：请下载并安装 Visual Studio 2022 Community Edition。安装时务必选择“使用 C++的桌面开发”。注意：不要修改默认安装路径！

下载链接：

第二步：请下载并安装英特尔独立显卡驱动程序。

下载链接：

https://www.intel.cn/content/www/cn/zh/download/785597/intel-arc-iris-xe-graphics-windows.html

第三步：请下载并安装 Intel oneAPI Base Toolkit。

下载链接：

https://www.intel.com/content/www/us/en/developer/tools/oneapi/base-toolkit-download.html

第四步：请下载并安装 Anaconda，然后用下面的命令创建名为“bigdl”的虚拟环境。

conda create -n bigdl python=3.9 libuv
conda activate bigdl

4.2

安装 BigDL-LLM[xpu]

第一步：用下载器 (例如：迅雷) 下载*.whl 安装包到本地。

下载链接：

https://intel-extension-for-pytorch.s3.amazonaws.com/ipex_stable/xpu/torch-2.1.0a0%2Bcxx11.abi-cp39-cp39-win_amd64.whl

https://intel-extension-for-pytorch.s3.amazonaws.com/ipex_stable/xpu/torchvision-0.16.0a0%2Bcxx11.abi-cp39-cp39-win_amd64.whl

https://intel-extension-for-pytorch.s3.amazonaws.com/ipex_stable/xpu/intel_extension_for_pytorch-2.1.10%2Bxpu-cp39-cp39-win_amd64.whl

第二步：执行命令：

# 从本地安装已下载的.whl安装包
pip install torch-2.1.0a0+cxx11.abi-cp39-cp39-win_amd64.whl
pip install torchvision-0.16.0a0+cxx11.abi-cp39-cp39-win_amd64.whl
pip install intel_extension_for_pytorch-2.1.10+xpu-cp39-cp39-win_amd64.whl


# 安装支持英特尔显卡的bigdl-llm
pip install --pre --upgrade bigdl-llm[xpu] -i https://mirrors.aliyun.com/pypi/simple/

左滑查看更多

详情参考：

https://bigdl.readthedocs.io/en/latest/doc/LLM/Overview/install_gpu.html

4.3

第三步：运行范例程序

首先：执行命令，配置环境变量：

conda activate bigdl
call "C:Program Files (x86)InteloneAPIsetvars.bat"
set SYCL_CACHE_PERSISTENT=1
set BIGDL_LLM_XMX_DISABLED=1

左滑查看更多

若系统中有集成显卡，请执行下面的命令，保证英特尔独立显卡是“xpu”指代的计算设备，

详情参考：

https://github.com/intel-analytics/BigDL/issues/9768

set ONEAPI_DEVICE_SELECTOR=level_zero:1

左滑查看更多

然后，请下载范例程序并运行：

https://gitee.com/Pauntech/chat-glm3/blob/master/chatglm3_infer_gpu.py

import time
from bigdl.llm.transformers import AutoModel
from transformers import AutoTokenizer
import intel_extension_for_pytorch as ipex
import torch
CHATGLM_V3_PROMPT_FORMAT = "<|user|>
{prompt}
<|assistant|>"
# 请指定chatglm3-6b的本地路径
model_path = "d:/chatglm3-6b"
# 载入ChatGLM3-6B模型并实现INT4量化
model = AutoModel.from_pretrained(model_path,
                 load_in_4bit=True,
                 trust_remote_code=True)
# run the optimized model on Intel GPU
model = model.to('xpu')
# 载入tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path,
                     trust_remote_code=True)
# 制作ChatGLM3格式提示词  
prompt = CHATGLM_V3_PROMPT_FORMAT.format(prompt="What is Intel?")
# 对提示词编码
input_ids = tokenizer.encode(prompt, return_tensors="pt")
input_ids = input_ids.to('xpu')
st = time.time()
# 执行推理计算，生成Tokens
output = model.generate(input_ids,max_new_tokens=32)
end = time.time()
# 对生成Tokens解码并显示
output_str = tokenizer.decode(output[0], skip_special_tokens=True)
print(f'Inference time: {end-st} s')
print('-'*20, 'Prompt', '-'*20)
print(prompt)
print('-'*20, 'Output', '-'*20)
print(output_str)

运行结果，如下所示：

4.4

运行 ChatGLM3-6B WebUI demo

首先，请先安装依赖软件包：

pip install gradio mdtex2html streamlit -i https://mirrors.aliyun.com/pypi/simple/

然后，运行命令，配置环境变量：

conda activate bigdl
call "C:Program Files (x86)InteloneAPIsetvars.bat"
set SYCL_CACHE_PERSISTENT=1
set BIGDL_LLM_XMX_DISABLED=1

若系统中有集成显卡，请执行下面的命令，保证英特尔独立显卡是“xpu”指代的计算设备。

详情参考：

https://github.com/intel-analytics/BigDL/issues/9768

set ONEAPI_DEVICE_SELECTOR=level_zero:1

最后，请下载范例程序：

https://gitee.com/Pauntech/chat-glm3/blob/master/chatglm3_web_demo_gpu.py

并运行：

streamlit run chatglm3_web_demo_gpu.py

左滑查看更多

运行结果如下：

总结

BigDL-LLM 工具包简单易用，仅需三步即可完成开发环境搭建、bigdl-llm[xpu]安装以及 ChatGLM3-6B 模型的 INT4量化以及在英特尔独立显卡上的部署。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英特尔

英特尔

+关注

关注
61

文章
9959

浏览量
171721
语言模型

语言模型

+关注

关注
0

文章
523

浏览量
10273
LLM

LLM

+关注

关注
0

文章
287

浏览量
327

原文标题：三步完成在英特尔独立显卡上量化和部署 ChatGLM3-6B 模型 | 开发者实战

文章出处：【微信号：英特尔物联网，微信公众号：英特尔物联网】欢迎添加关注！文章转载请注明出处。

英特尔推出全新英特尔锐炫B系列显卡

英特尔锐炫B580和B570 GPU以卓越价值为时新游戏带来超凡表现。 > 今日，英特尔发布全新英特尔锐炫

发表于 12-07 10:16 •713次阅读

<b class='flag-5'>英特尔</b>推出全新<b class='flag-5'>英特尔</b>锐炫<b class='flag-5'>B</b>系列<b class='flag-5'>显卡</b>

使用PyTorch在英特尔独立显卡上训练模型

《PyTorch 2.5重磅更新：性能优化+新特性》中的一个新特性就是：正式支持在英特尔独立显卡上训练模

发表于 11-01 14:21 •409次阅读

英特尔聚焦AI座舱

英特尔推出首款锐炫车载独立显卡（dGPU）和第一代英特尔软件定义车载SoC系列，满足当前消费者对汽车内部配备更多屏幕、获得更高清晰度等AI座舱体验需求。

发表于 10-30 16:26 •205次阅读

使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

前面我们分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日，Meta

发表于 10-12 09:39 •582次阅读

chatglm2-6b在P40上做LORA微调

背景：目前，大模型的技术应用已经遍地开花。最快的应用方式无非是利用自有垂直领域的数据进行模型微调。chatglm2-6b在国内开源的大模型

发表于 08-13 17:12 •486次阅读

支持140亿参数AI模型，229TOPS！英特尔重磅发布第一代车载独立显卡

英特尔院士、英特尔公司副总裁、汽车事业部总经理Jack Weast指出，在今年的CES上，英特尔发布了第一代AI增强型软件定义车载SoC。8

发表于 08-12 09:07 •9589次阅读

英特尔发布第一代车载锐炫独立显卡

英特尔震撼发布其第一代车载英特尔锐炫独立显卡，标志着智能座舱技术迈入全新阶段。这款显卡平台算力高达229TOPS，不仅支持多达8块

发表于 08-09 14:54 •520次阅读

如何将Llama3.1模型部署在英特尔酷睿Ultra处理器

本文从搭建环境开始，一步一步帮助读者实现只用五行代码便可将Llama3.1模型部署在英特尔 酷睿

发表于 07-26 09:51 •2131次阅读

【AIBOX】装在小盒子的AI足够强吗？

Firefly推出大语言模型本地部署的产品：AIBOX-1684X，目前已适配主流的大语言模型，包括ChatGLM3-6B，以下是ChatGLM3

发表于 05-15 08:02 •436次阅读

网友成功在Arm架构平台运行英特尔锐炫A750显卡

值得注意的是，英特尔独立显卡源于核心显卡，因此在长期使用的“i915”Linux系统内核驱动中，积累了许多与x86架构紧密相关的特性。

发表于 05-13 15:54 •638次阅读

简单三步使用OpenVINO™搞定ChatGLM3的本地部署

英特尔 OpenVINO™ 工具套件是一款开源 AI 推理优化部署的工具套件，可帮助开发人员和企业加速生成式人工智能 (AIGC)、大语言模型、计算机视觉和自然语言处理等 AI 工作负载，简化深度学习推理的开发和

发表于 04-03 18:18 •2065次阅读

浪潮信息"源2.0"大模型YuanChat支持英特尔最新商用AI PC

% 。企业可以在全新的英特尔商用客户端AI PC上，使用AI PC大模型效率工具"YuanChat"快速本地化部署和运行"源2.0"大

发表于 03-27 22:52 •499次阅读

m3芯片相当于英特尔几代cpu m3芯片相当于英特尔什么显卡

m3芯片相当于英特尔几代cpu 关于m3芯片相当于英特尔几代cpu的问题，实际上并没有一个准确的答案，因为不同的芯片制造商与

发表于 03-11 18:13 •1.4w次阅读

英特尔CPU部署Qwen 1.8B模型的过程

本文介绍了在英特尔 13 代酷睿 CPU i5 - 13490F 设备上部署 Qwen 1.8B 模型的过程，你需要至少 16GB 内存的机

发表于 01-12 10:28 •2624次阅读

ChatGLM3-6B在CPU上的INT4量化和部署

ChatGLM3 是智谱 AI 和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源

发表于 01-05 09:36 •916次阅读