0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

产品应用 | 小盒子跑大模型!英码科技基于算能BM1684X平台实现大模型私有化部署

英码科技 来源:英码科技 作者:英码科技 2024-06-14 16:29 次阅读

当前,在人工智能领域,大模型在丰富人工智能应用场景中扮演着重要的角色,经过不断的探索,大模型进入到落地的阶段。而大模型在落地过程中面临两大关键难题:对庞大计算资源的需求和对数据隐私与安全的考量。为应对这些挑战,在边缘侧私有化部署大模型成为了一个有效的解决方案。

将大模型部署到边缘侧,不仅能够减少延迟和带宽消耗,使得大模型能够在边缘节点快速进行推理和应用;还能增强数据隐私保护,这对于维护企业的数据安全至关重要。

为响应市场需求,英码科技推出了基于算能BM1684X平台的大模型私有化部署产品方案,包括:边缘计算盒子IVP03X-V2、云边加速卡AIV02X和AIV03X,助力企业实现垂直大模型应用落地!

wKgaomZr_fqAdrBeAAbmBEryjaQ258.png

▎边缘计算盒子IVP03X-V2

IVP03X-V2是英码科技基于BM1684X推出的高性能边缘计算盒子,INT8算力高达32Tops,配置了16GB大内存,支持适配Llama2-7B/ChatGLM3-6B/Qwen-7B和SAM/StableDiffusion等大模型,是业内少数能同时兼容国内外深度学习框架,并且能够流畅运行大语言模型推理的边缘计算设备之一。

▎大模型推理加速卡AIV02X & AIV03X

AIV02X和AIV03X算力可达64 TOPS@INT8和72 TOPS@INT8,显存配置32GB和48GB,支持多芯分布式推理及支持大语言/提示型/图像生成模型等大模型推理;这两款云边大模型推理加速卡均可应用于边缘大语言、文生图等通用大模型、垂直行业私有模型的推理应用。

接下来,以英码科技IVP03X边缘计算盒子为例,为大家介绍实测大语言模型、文生图大模型的部署流程和效果演示:

英码科技IVP03X-V2实测大语言模型

一、前期准备工作

demo下载地址:

https://github.com/sophgo/sophon-demo

二、大模型内存配置

1、建一个存放工具的文件夹:

mkdir memedit && cd memedit


2、下载内存配置工具:

wget -nd https://sophon-file.sophon.cn/sophon-prod-s3/drive/23/09/11/13/DeviceMemoryModificationKit.tgz tar xvf DeviceMemoryModificationKit.tgz cd DeviceMemoryModificationKit tar xvf memory_edit_{vx.x}.tar.xz #vx.x是版本号 cd memory_edit

3、重配内存:

./memory_edit.sh -p #这个命令会打印当前的内存布局信息 ./memory_edit.sh -c -npu 7615 -vpu 3072 -vpp 3072 #npu也可以访问vpu和vpp的内存 替换emmbboot.itb: sudo cp /data/memedit/DeviceMemoryModificationKit/memory_edit/emmcboot.itb /boot/emmcboot.itb && sync

4、重启生效:

reboot 重启后,检查配置: free -h cat /sys/kernel/debug/ion/bm_npu_heap_dump/summary | head -2 cat /sys/kernel/debug/ion/bm_vpu_heap_dump/summary | head -2 cat /sys/kernel/debug/ion/bm_vpp_heap_dump/summary | head -2

三、实测Chat-GLM3大模型(英文模式)

1、demo下载(Chat-GLM3)

进到Chat-GLM2案例目录下:sophon-demo-release/sample/Chat-GLM2/

安装pip3,安装dfss

sudo apt install python3-pip pip3 install dfss -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip3 install dfss --upgrade

下载模型:

sudo apt install unzip chmod -R +x scripts/ ./scripts/download.sh

2、安装依赖

安装python依赖:

pip3 install -r python/requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ Sail安装包,下载安装: python3 -m dfss --url=open@sophgo.com:sophon-demo/ChatGLM3/sail/soc/sophon_arm-3.7.0-py3-none-any.whl pip3 install sophon_arm-3.7.0-py3-none-any.whl

3、大模型运行测试:

python3 python/chatglm3.py --bmodel models/BM1684X/chatglm3-6b_int4.bmodel --token python/token_config --dev_id 0 python3 python/chatglm3.py --bmodel models/BM1684X/chatglm3-6b_int8.bmodel --token python/token_config --dev_id 0 python3 python/chatglm3.py --bmodel models/BM1684X/chatglm3-6b_fp16.bmodel --token python/token_config --dev_id 0

9

四、实测Qwen大模型(中文模式)

1、demo下载(Qwen)

进到Chat-GLM2案例目录下:sophon-demo-release/sample/Qwen/

安装pip3,安装dfss

sudo apt install python3-pip pip3 install dfss -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip3 install dfss --upgrade

下载模型:

sudo apt install unzip chmod -R +x scripts/ ./scripts/download.sh

2、安装依赖

安装python依赖:

pip3 install -r python/requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ Sail安装包,下载安装: python3 -m dfss --url=open@sophgo.com:sophon-demo/ChatGLM3/sail/soc/sophon_arm-3.7.0-py3-none-any.whl pip3 install sophon_arm-3.7.0-py3-none-any.whl

3、大运行测试:

python3 python/qwen.py --bmodel models/BM1684X/qwen-7b_int4_1dev.bmodel --token python/token_config --dev_id 0 python3 python/qwen.py --bmodel models/BM1684X/qwen-7b_int8_1dev.bmodel --token python/token_config --dev_id 0

英码科技IVP03X-V2实测文生图大模型

1、demo下载(StableDiffusionV1_5)

进到Chat-GLM2案例目录下:sophon-demo-release/sample/Qwen/

安装pip3,安装dfss

sudo apt install python3-pip pip3 install dfss -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip3 install dfss --upgrade

下载模型:

sudo apt install unzip chmod -R +x scripts/ ./scripts/download_controlnets_bmodel.sh ./scripts/download_multilize_bmodel.sh ./scripts/download_singlize_bmodel.sh

2、安装依赖

安装python依赖:

pip3 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ 安装sail包 python3 -m dfss --url=open@sophgo.com:sophon-demo/ChatGLM3/sail/soc/sophon_arm-3.7.0-py3-none-any.whl

3、大模型运行测试:

①文本生成图像

迭代20次

python3run.py--model_path../models/BM1684X--stagesinglize--prompt"Aparrotrestingonabranch"--neg_prompt"worstquality"--num_inference_steps20--dev_id0

迭代500次

python3 run.py --model_path ../models/BM1684X --stage singlize --pr ompt "A parrot resting on a branch" --neg_prompt "worst quality" --num_inference_steps 500 --dev_id 0

wKgZomZr_zWAOsD4AA-bPEXwDNo060.png

② Controlnet插件辅助控制 生成图像

一只小兔子晚上在酒吧喝酒 :迭代次数,20次

python3 run.py --model_path ../models/BM1684X --stage multilize --controlnet_name scribble_controlnet_fp16.bmodel --processor_name scribble_processor_fp16.bmodel --controlnet_img ../pics/generated_img.jpg --prompt "a rabbit drinking at the bar at night" --neg_prompt "worst quality" --num_inference_steps 100 --dev_id 0

一只小兔子晚上在酒吧喝酒 :迭代次数,200次

python3 run.py --model_path ../models/BM1684X --stage multilize --controlnet_name scribble_controlnet_fp16.bmodel --processor_name scribble_processor_fp16.bmodel --controlnet_img ../pics/generated_img.jpg --prompt "a rabbit drinking at the bar at night" --neg_prompt "worst quality" --num_inference_steps 200 --dev_id 0

wKgaomZr_0iAARqMABC_rCt6XA0763.png

结语

随着大模型技术的不断落地和应用,大模型涌现的强大能力不再局限于云端,模型的算法正逐渐向边缘端延伸;未来,英码科技将结合自身在软硬件方面的技术优势和丰富的经验,以AI赋能更多企业低门槛、高效落地边缘侧大模型应用,从而推动各行业智能化转型的进程。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    27470

    浏览量

    265147
  • 人工智能
    +关注

    关注

    1781

    文章

    44981

    浏览量

    232392
  • 大模型
    +关注

    关注

    2

    文章

    1871

    浏览量

    1497
收藏 人收藏

    评论

    相关推荐

    用yolov5的best.pt导出成onnx转化成fp32 bmodel后在Airbox上,报维度不匹配怎么处理?

    bm1684x --test_input best_pt_in_f32.npz --test_reference best_pt_top_outputs.npz --model bestf32.bmodel模型是利用文件中的
    发表于 05-31 08:10

    bm1684运行demo报错怎么解决?

    ../models/BM1684X/yolov5s_v6.1_3output_fp32_1b.bmodel[BMRT][bmcpu_setup:406] INFO:cpu_lib \'libcpuop.so
    发表于 05-20 07:24

    【AIBOX】装在小盒子的AI足够强吗?

    Firefly推出大语言模型本地部署产品:AIBOX-1684X,目前已适配主流的大语言模型,包括ChatGLM3-6B,以下是ChatG
    的头像 发表于 05-15 08:02 203次阅读
    【AIBOX】装在<b class='flag-5'>小盒子</b>的AI足够强吗?

    把大模型装进小盒子:这个小魔盒直击端侧AIGC的痛点!

    私有本地化部署:智能硬件的未来随着当下数字化的高速发展,今年将会迎来“大模型应用爆发元年”。市面上不少大模型产品应运而生,在大
    的头像 发表于 05-10 08:33 172次阅读
    把大<b class='flag-5'>模型</b>装进<b class='flag-5'>小盒子</b>:这个小魔盒直击端侧AIGC的痛点!

    AIBOX-1684X:把大语言模型“装”进小盒子

    AIBOX-1684X支持主流大模型私有化部署,算力高达32TOPS,同时也支持CNN、RNN、LSTM等传统网络架构,支持TensorFNNX和Darknet等深度学习架构,并支持自
    的头像 发表于 04-20 08:02 461次阅读
    AIBOX-<b class='flag-5'>1684</b>X:把大语言<b class='flag-5'>模型</b>“装”进<b class='flag-5'>小盒子</b>

    256Tops算力!CSA1-N8S1684X算力服务器

    (基于BM1684X的高算力服务器)高算力AI处理器BM1684X搭载了BM1684AI算力SoC芯片的计算模块,主频2.3GHz,拥有17.6Tops的AI算力,可配置12GBLPDDR4
    的头像 发表于 03-23 08:02 630次阅读
    256Tops算力!CSA1-N8S<b class='flag-5'>1684</b>X算力服务器

    RADXA微服务器试用体验】Radxa Fogwise 1684X Mini 规格

    通过网络可以了解到,RADXA微服务器的具体规格: 处理器:BM1684X 力:高达32Tops INT8峰值力 内存:16GB L
    发表于 02-28 11:21

    探索ChatGLM2在算能BM1684X上INT8量化部署,加速大模型商业落地

    1.背景介绍在2023年7月时我们已通过静态设计方案完成了ChatGLM2-6B在单颗BM1684X上的部署工作,量化模式F16,模型大小12GB,平均速度约为3token/s,详见《算丰技术揭秘
    的头像 发表于 10-10 10:18 2764次阅读
    探索ChatGLM2在算能<b class='flag-5'>BM1684X</b>上INT8量化<b class='flag-5'>部署</b>,加速大<b class='flag-5'>模型</b>商业落地

    科技精彩亮相火爆的IOTE 2023,多面赋AIoT产业发展!

    。 在科技展位上,现场的伙伴们集中了解到了基于多家国产主流平台产品的特点和对应的落地案例,同时深入了解
    发表于 09-25 10:03

    BM1684中各种内存的概念

    A53专用 + 4GB TPU专用 + 4GB VPP/VPU专用。 设备内存(Device Memory)和系统内存(Host Memory): 根据BM168x产品类型或工作模式的不同,设备内存
    发表于 09-19 07:47

    BM1684芯片的编解码性能数据是怎样的?

    BM1684有4个VPU硬核和4个JPU硬核,具体视频和图片的编解码的速度与实际情况有关,要以实测为准。 视频解码的速度与输入视频流的格式有很大关系,不同复杂度的流的解码速度有比较大的波动,比如
    发表于 09-19 07:18

    bmneto转换模型时报错误split_conv_float: Assertion \"valid\" failed是什么原因?

    ;[[1,3,1080,1920],[1,3,1080,1920]]" --target BM1684X --outdir bmodel/fp32 --output_names "pha,fgr,err,hid" --cmp False 报错截图:
    发表于 09-18 09:15

    本地化ChatGPT?Firefly推出基于BM1684X的大语言模型本地部署方案

    API的方式来应用,很难本地化部署。随着大模型适用领域的扩展,大模型登陆边缘设备的需求凸显,越来越多的行业需要把大语言模型应用在专业的领域上。在这个背景下,Firef
    的头像 发表于 09-09 08:02 1277次阅读
    本地化ChatGPT?Firefly推出基于<b class='flag-5'>BM1684X</b>的大语言<b class='flag-5'>模型</b>本地<b class='flag-5'>部署</b>方案

    智能语音开放平台选哪家,启泰伦提供硬件、软件一体化开发服务

    、开发工具及手册等资料,还有详细的开发流程指引,让开发不迷茫。 在方案开发类型上,AI平台可开发离线语音方案、离在线语音方案、AIoT方案,覆盖智能家居家电、AI教育、医疗、汽车等领域,赋产品
    发表于 08-17 14:00

    基于算能第四代AI处理器BM1684X的边缘计算盒子

    英码IVP03X智能工作站搭载算能全新一代AI处理器BM1684X,八核ARM Cortex-A53,主频2.3GHz;INT8算力高达32Tops,FP16算力达16 TFLOPS,FP32算力 2 TFLOPS,边缘端少有的大算力。
    发表于 08-10 09:46 942次阅读
    基于算能第四代AI处理器<b class='flag-5'>BM1684X</b>的边缘计算<b class='flag-5'>盒子</b>