产品应用 | 小盒子跑大模型！英码科技基于算能BM1684X平台实现大模型私有化部署-电子发烧友网

当前，在人工智能领域，大模型在丰富人工智能应用场景中扮演着重要的角色，经过不断的探索，大模型进入到落地的阶段。而大模型在落地过程中面临两大关键难题：对庞大计算资源的需求和对数据隐私与安全的考量。为应对这些挑战，在边缘侧私有化部署大模型成为了一个有效的解决方案。

将大模型部署到边缘侧，不仅能够减少延迟和带宽消耗，使得大模型能够在边缘节点快速进行推理和应用；还能增强数据隐私保护，这对于维护企业的数据安全至关重要。

为响应市场需求，英码科技推出了基于算能BM1684X平台的大模型私有化部署产品方案，包括：边缘计算盒子IVP03X-V2、云边加速卡AIV02X和AIV03X，助力企业实现垂直大模型应用落地！

▎边缘计算盒子IVP03X-V2

IVP03X-V2是英码科技基于BM1684X推出的高性能边缘计算盒子，INT8算力高达32Tops，配置了16GB大内存，支持适配Llama2-7B/ChatGLM3-6B/Qwen-7B和SAM/StableDiffusion等大模型，是业内少数能同时兼容国内外深度学习框架，并且能够流畅运行大语言模型推理的边缘计算设备之一。

▎大模型推理加速卡AIV02X & AIV03X

AIV02X和AIV03X算力可达64 TOPS@INT8和72 TOPS@INT8，显存配置32GB和48GB，支持多芯分布式推理及支持大语言/提示型/图像生成模型等大模型推理；这两款云边大模型推理加速卡均可应用于边缘大语言、文生图等通用大模型、垂直行业私有模型的推理应用。

接下来，以英码科技IVP03X边缘计算盒子为例，为大家介绍实测大语言模型、文生图大模型的部署流程和效果演示：

英码科技IVP03X-V2实测大语言模型

一、前期准备工作

demo下载地址：

https://github.com/sophgo/sophon-demo

二、大模型内存配置

1、建一个存放工具的文件夹：

mkdir memedit && cd memedit

2、下载内存配置工具：

wget -nd https://sophon-file.sophon.cn/sophon-prod-s3/drive/23/09/11/13/DeviceMemoryModificationKit.tgz tar xvf DeviceMemoryModificationKit.tgz cd DeviceMemoryModificationKit tar xvf memory_edit_{vx.x}.tar.xz #vx.x是版本号 cd memory_edit

3、重配内存：

./memory_edit.sh -p #这个命令会打印当前的内存布局信息 ./memory_edit.sh -c -npu 7615 -vpu 3072 -vpp 3072 #npu也可以访问vpu和vpp的内存替换emmbboot.itb: sudo cp /data/memedit/DeviceMemoryModificationKit/memory_edit/emmcboot.itb /boot/emmcboot.itb && sync

4、重启生效：

reboot 重启后，检查配置： free -h cat /sys/kernel/debug/ion/bm_npu_heap_dump/summary | head -2 cat /sys/kernel/debug/ion/bm_vpu_heap_dump/summary | head -2 cat /sys/kernel/debug/ion/bm_vpp_heap_dump/summary | head -2

三、实测Chat-GLM3大模型（英文模式）

1、demo下载（Chat-GLM3）

进到Chat-GLM2案例目录下：sophon-demo-release/sample/Chat-GLM2/

安装pip3，安装dfss

sudo apt install python3-pip pip3 install dfss -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip3 install dfss --upgrade

下载模型：

sudo apt install unzip chmod -R +x scripts/ ./scripts/download.sh

2、安装依赖

安装python依赖：

pip3 install -r python/requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ Sail安装包，下载安装： python3 -m dfss --url=open@sophgo.com:sophon-demo/ChatGLM3/sail/soc/sophon_arm-3.7.0-py3-none-any.whl pip3 install sophon_arm-3.7.0-py3-none-any.whl

3、大模型运行测试：

python3 python/chatglm3.py --bmodel models/BM1684X/chatglm3-6b_int4.bmodel --token python/token_config --dev_id 0 python3 python/chatglm3.py --bmodel models/BM1684X/chatglm3-6b_int8.bmodel --token python/token_config --dev_id 0 python3 python/chatglm3.py --bmodel models/BM1684X/chatglm3-6b_fp16.bmodel --token python/token_config --dev_id 0

四、实测Qwen大模型（中文模式）

1、demo下载（Qwen）

进到Chat-GLM2案例目录下：sophon-demo-release/sample/Qwen/

安装pip3，安装dfss

sudo apt install python3-pip pip3 install dfss -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip3 install dfss --upgrade

下载模型：

sudo apt install unzip chmod -R +x scripts/ ./scripts/download.sh

2、安装依赖

安装python依赖：

3、大运行测试：

python3 python/qwen.py --bmodel models/BM1684X/qwen-7b_int4_1dev.bmodel --token python/token_config --dev_id 0 python3 python/qwen.py --bmodel models/BM1684X/qwen-7b_int8_1dev.bmodel --token python/token_config --dev_id 0

英码科技IVP03X-V2实测文生图大模型

1、demo下载（StableDiffusionV1_5）

进到Chat-GLM2案例目录下：sophon-demo-release/sample/Qwen/

安装pip3，安装dfss

sudo apt install python3-pip pip3 install dfss -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip3 install dfss --upgrade

下载模型：

sudo apt install unzip chmod -R +x scripts/ ./scripts/download_controlnets_bmodel.sh ./scripts/download_multilize_bmodel.sh ./scripts/download_singlize_bmodel.sh

2、安装依赖

安装python依赖：

pip3 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ 安装sail包 python3 -m dfss --url=open@sophgo.com:sophon-demo/ChatGLM3/sail/soc/sophon_arm-3.7.0-py3-none-any.whl

3、大模型运行测试：

①文本生成图像

迭代20次

python3run.py--model_path../models/BM1684X--stagesinglize--prompt"Aparrotrestingonabranch"--neg_prompt"worstquality"--num_inference_steps20--dev_id0

迭代500次

python3 run.py --model_path ../models/BM1684X --stage singlize --pr ompt "A parrot resting on a branch" --neg_prompt "worst quality" --num_inference_steps 500 --dev_id 0

② Controlnet插件辅助控制生成图像

一只小兔子晚上在酒吧喝酒：迭代次数，20次

python3 run.py --model_path ../models/BM1684X --stage multilize --controlnet_name scribble_controlnet_fp16.bmodel --processor_name scribble_processor_fp16.bmodel --controlnet_img ../pics/generated_img.jpg --prompt "a rabbit drinking at the bar at night" --neg_prompt "worst quality" --num_inference_steps 100 --dev_id 0

一只小兔子晚上在酒吧喝酒：迭代次数，200次

结语

随着大模型技术的不断落地和应用，大模型涌现的强大能力不再局限于云端，模型的算法正逐渐向边缘端延伸；未来，英码科技将结合自身在软硬件方面的技术优势和丰富的经验，以AI赋能更多企业低门槛、高效落地边缘侧大模型应用，从而推动各行业智能化转型的进程。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
29611

浏览量
267911
人工智能

人工智能

+关注

关注
1789

文章
46545

浏览量
236830
大模型

大模型

+关注

关注
2

文章
2252

浏览量
2317

大模型时代的算力需求

现在AI已进入大模型时代，各企业都争相部署大模型，但如何保证大模型的算力，以及相关的稳定性和性能，是一个极为重要的问题，带着这个极为重要的问

发表于 08-20 09:04

AIBOX青春版上线！1399把AI带回家

BM1688，算力高达16TOPS，支持主流大模型的私有化部署，把AI的能力私有化，满足个性

发表于 08-08 08:02 •542次阅读

【算能RADXA微服务器试用体验】+ GPT语音与视觉交互：2，图像识别

图像识别也属于是AI的一个非常基本的经典应用。在主打AI功能的BM1684X上自然也是得到了广泛的支持。算能官方提供了一个叫做Radxa-Model-Zoo的仓库，这个仓库里包含了许多AI方面

发表于 07-14 23:36

PerfXCloud大模型开发与部署平台开放注册

PerfXCloud 介绍 PerfXCloud是澎峰科技为开发者和企业量身打造的AI开发和部署平台。它专注于满足大模型的微调和推理需求，为用户提供极致便捷的一键部署体验。 PerfX

发表于 07-02 10:27 •333次阅读

PerfXCloud大<b class='flag-5'>模型</b>开发与<b class='flag-5'>部署</b><b class='flag-5'>平台</b>开放注册

用yolov5的best.pt导出成onnx转化成fp32 bmodel后在Airbox上跑，报维度不匹配怎么处理？

bm1684x --test_input best_pt_in_f32.npz --test_reference best_pt_top_outputs.npz --model bestf32.bmodel跑模型是利用文件中的

发表于 05-31 08:10

bm1684运行demo报错怎么解决？

../models/BM1684X/yolov5s_v6.1_3output_fp32_1b.bmodel[BMRT][bmcpu_setup:406] INFO:cpu_lib \'libcpuop.so

发表于 05-20 07:24

搭载TPU处理器BM1688&CV186AH的英码科技边缘计算盒子，功耗更低、接口更丰富

了基于BM1684的边缘计算盒子IVP03A、IVP03C、IVP03D，以及基于BM1684X的IVP03X边缘计算盒子，在智慧交通、智慧

发表于 05-18 08:39 •215次阅读

搭载TPU处理器<b class='flag-5'>BM</b>1688&CV186AH的<b class='flag-5'>英</b><b class='flag-5'>码</b>科技边缘计算<b class='flag-5'>盒子</b>，功耗更低、接口更丰富

【AIBOX】装在小盒子的AI足够强吗？

Firefly推出大语言模型本地部署的产品：AIBOX-1684X，目前已适配主流的大语言模型，包括ChatGLM3-6B，以下是ChatG

发表于 05-15 08:02 •371次阅读

【AIBOX】装在<b class='flag-5'>小盒子</b>的AI足够强吗？

把大模型装进小盒子：这个小魔盒直击端侧AIGC的痛点！

私有本地化部署：智能硬件的未来随着当下数字化的高速发展，今年将会迎来“大模型应用爆发元年”。市面上不少大

发表于 05-10 08:33 •309次阅读

AIBOX-1684X：把大语言模型“装”进小盒子

AIBOX-1684X支持主流大模型私有化部署，算力高达32TOPS，同时也支持CNN、RNN、LSTM等传统网络架构，支持TensorFN

发表于 04-20 08:02 •1055次阅读

256Tops算力！CSA1-N8S1684X算力服务器

（基于BM1684X的高算力服务器）高算力AI处理器BM1684X搭载了BM1684AI算力So

发表于 03-23 08:02 •1333次阅读

源2.0适配FastChat框架，企业快速本地化部署大模型对话平台

，且有数据隐私保护需求的本地化部署场景。全面开放的对话模板功能，用户可基于FastChat平台，快速对不同参数规模的Yuan2.0基础模型进行训练、评估和应用，将Yuan2.0系列基础

发表于 02-29 09:57 •749次阅读

【算能RADXA微服务器试用体验】Radxa Fogwise 1684X Mini 规格

通过网络可以了解到，算能RADXA微服务器的具体规格：处理器：BM1684X 算力：高达32Tops INT8峰值算力内存：16GB L

发表于 02-28 11:21

NVIDIA AI Enterprise助力九州未来构建MaaS平台

本案例中，九州未来的团队基于NVIDIA AI Enterprise的全栈软件套件，构建其 MaaS 大模型一体化开发及部署平台，该平台同时支持云端

发表于 01-10 17:24 •1091次阅读

PODsys：大模型AI算力平台部署的开源“神器”

大模型是通用人工智能的底座，但大模型训练对算力平台的依赖非常大。大模型算力

发表于 11-08 09:17 •822次阅读

搜索历史

产品应用 | 小盒子跑大模型！英码科技基于算能BM1684X平台实现大模型私有化部署

评论

大模型时代的算力需求

AIBOX青春版上线！1399把AI带回家

【算能RADXA微服务器试用体验】+ GPT语音与视觉交互：2，图像识别

PerfXCloud大模型开发与部署平台开放注册

用yolov5的best.pt导出成onnx转化成fp32 bmodel后在Airbox上跑，报维度不匹配怎么处理？

bm1684运行demo报错怎么解决？

搭载TPU处理器BM1688&CV186AH的英码科技边缘计算盒子，功耗更低、接口更丰富

【AIBOX】装在小盒子的AI足够强吗？

把大模型装进小盒子：这个小魔盒直击端侧AIGC的痛点！

AIBOX-1684X：把大语言模型“装”进小盒子

256Tops算力！CSA1-N8S1684X算力服务器

源2.0适配FastChat框架，企业快速本地化部署大模型对话平台

【算能RADXA微服务器试用体验】Radxa Fogwise 1684X Mini 规格

NVIDIA AI Enterprise助力九州未来构建MaaS平台

PODsys：大模型AI算力平台部署的开源“神器”