0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于AX650N/AX630C部署多模态大模型InternVL2-1B

爱芯元智AXERA 来源:爱芯元智AXERA 2024-11-18 17:32 次阅读

背景

InternVL2是由上海人工智能实验室OpenGVLab发布的一款多模态大模型,中文名称为“书生·万象”。该模型在多学科问答(MMMU)等任务上表现出色,并且具备处理多种模态数据的能力。

本文将通过走马观花的方式,基于InternVL2家族中最小的InternVL2-1B模型来介绍其技术特点。同时也将分享基于爱芯元智的AX650N、AX630C两款端侧AI芯片适配InternVL2-1B的基本操作方法,向业界对端侧多模态大模型部署的开发者提供一种新的思路,促进社区对端侧多模态大模型的探索。

技术特性

c838006a-a274-11ef-93f3-92fbcf53809c.jpg

多模态处理能力:与更大规模的版本一样,InternVL2-1B支持图像和文本数据的联合处理,旨在理解和生成跨模态的内容。

轻量化设计:1B参数规模意味着相对较小的模型尺寸,这使得InternVL2-1B更适合部署在资源受限的环境中,如移动设备或边缘计算场景中。尽管参数较少,通过精心设计,它仍能保持良好的性能。

渐进式对齐训练策略:采用从小到大、从粗到精的方式进行训练,这样可以利用更少的计算资源达到较高的效果,同时也促进了模型的知识迁移能力。

高效的架构设计:为了在有限的参数下实现最佳性能,InternVL2-1B可能采用了特别优化的网络结构或注意力机制,确保即使在较低参数量的情况下也能有效地捕捉复杂的视觉语言关联性。

支持多种下游任务:尽管是较小型号,InternVL2-1B应该仍然能够执行一系列基本的视觉-语言任务,比如图像描述生成、视觉问答等,为用户提供了一定程度的功能多样性。

开放源代码与模型权重:如果遵循OpenGVLab的一贯做法,那么InternVL2-1B的代码及预训练模型应该也是开源提供的,方便研究者和开发者使用。

性能指标

c84aa152-a274-11ef-93f3-92fbcf53809c.jpgc86329fc-a274-11ef-93f3-92fbcf53809c.png

AX650N

爱芯元智第三代高能效比智能视觉芯片AX650N。集成了八核Cortex-A55 CPU,高能效比NPU,支持8K@30fps的ISP,以及H.264、H.265编解码的 VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI输入,千兆EthernetUSB、以及HDMI 2.0b输出,并支持32路1080p@30fps解码内置高算力和超强编解码能力,满足行业对高性能边缘智能计算的需求。通过内置多种深度学习算法,实现视觉结构化、行为分析、状态检测等应用,高效率支持基于 Transformer结构的视觉大模型和语言类大模型。提供丰富的开发文档,方便用户进行二次开发。

AX630C

爱芯元智第四代智能视觉芯片AX630C,该芯片集成新一代智眸4.0AI-ISP,最高支持4K@30fps实时真黑光,同时集成新一代通元4.0高性能、高能效比NPU引擎,使得产品在低功耗、高画质、智能处理和分析等方面行业领先。提供稳定易用的SDK软件开发包,方便用户低成本评估、二次开发和快速量产。帮助用户在智能家居应用和其他AIoT项目中发挥更大的价值。

AX630C应该是目前能效比&性价比&能跑LLM/VLM的最佳的端侧AI芯片了,因此有客户基于AX630C出品了LLM Module,欢迎关注/试用。

模型转换

经常在AI芯片上部署AI算法模型的同学都知道,想要把模型部署到芯片上的NPU中运行,都需要使用芯片原厂提供的NPU工具链,这里我们使用的是Pulsar2。

Pulsar2是爱芯元智的新一代NPU工具链,包含模型转换、离线量化、模型编译、异构调度四合一超强功能,进一步强化了网络模型高效部署的需求。在针对第三代、第四代NPU架构进行了深度定制优化的同时,也扩展了算子&模型支持的能力及范围,对Transformer结构的网络也有较好的支持。

从Pulsar2 3.2版本开始,已经增加了大语言模型编译的功能,隐藏在pulsar2 llm_build的子命令中。

模型获取

git clone https://github.com/AXERA-TECH/ax-llm-build.git
cd ax-llm-build
pip install -U huggingface_hub
huggingface-cli download --resume-download OpenGVLab/InternVL2-1B/ --local-dir OpenGVLab/InternVL2-1B/

ax-llm-build:用于暂存编译LLM、VLM时所依赖的各种辅助小工具、脚本文件(持续更新)。

一键编译

qtang@gpux2:~/huggingface$ pulsar2 llm_build --input_path OpenGVLab/InternVL2-1B/ --output_path OpenGVLab/InternVL2-1B-ax650 --kv_cache_len 1023 --hidden_state_type bf16 --prefill_len 128 --chip AX650
Config(
  model_name='InternVL2-1B',
  model_type='qwen2',
  num_hidden_layers=24,
  num_attention_heads=14,
  num_key_value_heads=2,
  hidden_size=896,
  intermediate_size=4864,
  vocab_size=151655,
  rope_theta=1000000.0,
  max_position_embeddings=32768,
  rope_partial_factor=1.0,
  rms_norm_eps=1e-06,
  norm_type='rms_norm',
  hidden_act='silu',
  hidden_act_param=0.03,
  scale_depth=1.4,
  scale_emb=1,
  dim_model_base=256,
  origin_model_type='internvl_chat'
)
2024-10-31 0030.400 | SUCCESS | yamain.command.llm_build109 - prepare llm model done!
building vision model  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1/1 024
building llm decode layers  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 24/24 013
building llm post layer  ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1/1 027
2024-10-31 0036.175 | SUCCESS | yamain.command.llm_build185 - build llm model done!
2024-10-31 0051.955 | SUCCESS | yamain.command.llm_build364 - check llm model done!

embed提取和优化

chmod +x ./tools/fp32_to_bf16
chmod +x ./tools/embed_process.sh
./tools/embed_process.sh OpenGVLab/InternVL2-1B/ OpenGVLab/InternVL2-1B-ax650

最终InternVL2-1B-ax650目录下包含以下内容:

qtang@gpux2:~/huggingface$ tree -lh OpenGVLab/InternVL2-1B-ax650/
[1.6K] OpenGVLab/InternVL2-1B-ax650/
├── [325M] intervl_vision_part_224.axmodel     // vit-l model
├── [259M] model.embed_tokens.weight.bfloat16.bin // embed file
├── [ 16M] qwen2_p128_l0_together.axmodel     // llm layer
├── [ 16M] qwen2_p128_l10_together.axmodel
├── [ 16M] qwen2_p128_l11_together.axmodel
├── [ 16M] qwen2_p128_l12_together.axmodel
......
├── [ 16M] qwen2_p128_l5_together.axmodel
├── [ 16M] qwen2_p128_l6_together.axmodel
├── [ 16M] qwen2_p128_l7_together.axmodel
├── [ 16M] qwen2_p128_l8_together.axmodel
├── [ 16M] qwen2_p128_l9_together.axmodel
└── [141M] qwen2_post.axmodel

上板示例

相关材料

为了方便大家快速试用,我们在网盘中已经提供好了预编译模型和基于AX650N、AX630C两种芯片平台的预编译示例:

c91413c0-a274-11ef-93f3-92fbcf53809c.png

大尺寸

基于AX650N,展示输入图片尺寸为448*448的示例,图片信息量大,解读更详细,甚至展示了其OCR、中英翻译的能力。

c95c23e0-a274-11ef-93f3-92fbcf53809c.jpg

小尺寸

基于AX630C,展示输入图片尺寸为224*224的示例:

c96b8768-a274-11ef-93f3-92fbcf53809c.jpg

目前我们暂时未对Vision Part模块的ViT-L模型进行量化加速,所以图片编码的速度稍微有点慢。但是本身AX650N、AX630C计算ViT模型的效率是非常高的,后续我们会持续优化推理耗时。

部署优化探讨

输入图片越大,Vision Part(Image Encoder)生成的特征向量越多,计算量越大,即使是InternVL2 Family中最小的1B版本,其Vision Part也是采用的基于ViT-Large规模的图像编码模型。

图片生成的特征向量越多,输入LLM的prompt就越长,input tokens越多,TTFT耗时越大。

c97d02ea-a274-11ef-93f3-92fbcf53809c.jpg

我们顺便统计了224与448两种输入尺寸采用U8、U16量化后的推理耗时,提升还是很明显。

c9999b9e-a274-11ef-93f3-92fbcf53809c.png

结束语

虽然我们只尝试了最小的InternVL2-1B部署,但能在原本定位于低成本家用摄像头芯片(AX630C)上本地流畅运行VLM已经是一个重大突破,例如无需联网(包括蓝牙)的智能眼镜、智能的“拍立得”、以及各种有趣的穿戴设备。

随着大语言模型小型化的快速发展,越来越多有趣的多模态AI应用已经从云端服务迁移到端侧设备。我们会紧跟行业最新动态,适配更多的端侧大模型,欢迎大家持续关注。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47229

    浏览量

    238333
  • AI芯片
    +关注

    关注

    17

    文章

    1883

    浏览量

    35000
  • 爱芯元智
    +关注

    关注

    1

    文章

    79

    浏览量

    4831
  • 大模型
    +关注

    关注

    2

    文章

    2436

    浏览量

    2664

原文标题:爱芯分享 | 基于AX650N/AX630C部署多模态大模型InternVL2-1B

文章出处:【微信号:爱芯元智AXERA,微信公众号:爱芯元智AXERA】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于AX650N/AX630C部署端侧大语言模型Qwen2

    本文将分享如何将最新的端侧大语言模型部署到超高性价比SoC上,向业界对端侧大模型部署的开发者提供一种新的思路。
    的头像 发表于 07-06 17:43 3530次阅读
    基于<b class='flag-5'>AX650N</b>/<b class='flag-5'>AX630C</b><b class='flag-5'>部署</b>端侧大语言<b class='flag-5'>模型</b>Qwen<b class='flag-5'>2</b>

    爱芯元智发布第三代智能视觉芯片AX650N,为智慧生活赋能

    中国 上海 2023 年 3 月 6 日 ——人工智能视觉感知芯片研发及基础算力平台公司爱芯元智宣布推出第三代高算力、高能效比的SoC芯片——AX650N。这是继AX620、AX630系列后,爱芯元
    发表于 03-07 10:57 1609次阅读
    爱芯元智发布第三代智能视觉芯片<b class='flag-5'>AX650N</b>,为智慧生活赋能

    【爱芯派 Pro 开发板试用体验】篇一:开箱篇

    ,超高算力的的SoC芯片,这是继AX620、AX630系列后,第三代高算力、高能效比的SoC芯片——AX650N。支持8K@30fps的ISP,以及H.264、H.265编解码的VPU。接口方面
    发表于 11-15 11:32

    【爱芯派 Pro 开发板试用体验】爱芯元智AX650N部署yolov5s 自定义模型

    爱芯元智AX650N部署yolov5s 自定义模型 本博客将向你展示零基础一步步的部署好自己的yolov5s模型(博主展示的是安全帽
    发表于 11-16 19:34

    【爱芯派 Pro 开发板试用体验】爱芯元智AX650N部署yolov8s 自定义模型

    爱芯元智AX650N部署yolov8s 自定义模型 本博客将向你展示零基础一步步的部署好自己的yolov8s模型(博主展示的是自己训练的手
    发表于 11-24 20:40

    【爱芯派 Pro 开发板试用体验】ax650使用ax-pipeline进行推理

    /AXERA-TECH/ax-pipeline.git 下载sdk cd ax-pipeline ./download_ax_bsp.sh ax650 cd
    发表于 12-19 17:36

    CAT-AX41-C8422B CRADLE N 继电器 V23162

    电子发烧友网为你提供TE(ti)CAT-AX41-C8422B相关产品参数、数据手册,更有CAT-AX41-C8422B的引脚图、接线图、封装手册、中文资料、英文资料,CAT-AX41-C8422B真值表,CAT-
    发表于 07-03 10:00

    CAT-AX41-D1B AXICOM D2N 灵敏型

    电子发烧友网为你提供TE(ti)CAT-AX41-D1B相关产品参数、数据手册,更有CAT-AX41-D1B的引脚图、接线图、封装手册、中文资料、英文资料,CAT-AX41-D1B真值表,CAT-
    发表于 07-04 08:00

    AX5043-1 DVK2b 模块性能

    AX5043-1 DVK2b 模块性能
    发表于 11-15 19:28 0次下载
    <b class='flag-5'>AX5043-1</b> DVK<b class='flag-5'>2b</b> 模块性能

    爱芯元智第三代智能视觉芯片AX650N高能效比SoC芯片

    爱芯元智正式推出第三代高算力、高能效比的SoC芯片——AX650N。这是继AX620、AX630系列后,爱芯元智推出的又一款高性能智能视觉芯片。 AX650N是一款兼具高算力与高能效比
    的头像 发表于 03-10 17:13 4086次阅读

    基于AX650N部署EfficientViT

    的速度。为了实现对ViT模型的实时部署,微软和港中文共同在CVPR2023提出论文《EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention》。
    的头像 发表于 05-26 10:30 1036次阅读

    基于AX650N部署视觉大模型DINOv2

    最近一段时间,基于Transformer网络结构的视觉大模型呈现出爆发式增长,继Segment Anything(SAM)之后,Meta AI再次发布重量级开源项目——DINOv2。DINOv2可以抽取到强大的图像特征,且在下游
    的头像 发表于 06-30 10:07 2996次阅读

    爱芯元智发布新一代IPC SoC芯片AX630CAX620Q

    中国 深圳 2023 年 10 月 27 日 ——AI视觉芯片研发及基础算力平台公司爱芯元智宣布,发布新一代IPC SoC芯片产品AX630CAX620Q,以领先行业水平的高画质、智能处理和分析等
    发表于 10-27 16:26 1627次阅读
    爱芯元智发布新一代IPC SoC芯片<b class='flag-5'>AX630C</b>和<b class='flag-5'>AX</b>620Q

    爱芯元智AX620E和AX650系列芯片正式通过PSA Certified安全认证

    万物互联的时代,安全性已成为物联网产品设计及部署的基本要求。近日,爱芯元智AX620E和AX650系列芯片(包含AX630C/AX620Q/
    的头像 发表于 04-23 15:45 811次阅读
    爱芯元智<b class='flag-5'>AX</b>620E和<b class='flag-5'>AX650</b>系列芯片正式通过PSA Certified安全认证

    基于AX650N芯片部署MiniCPM-V 2.0高效端侧模态模型

    今年4月份,面壁智能&清华大学自然语言处理实验室推出MiniCPM系列的最新模态版本MiniCPM-V 2.0。该模型基于MiniCPM 2.4B和SigLip-400M构建,共拥有
    的头像 发表于 07-15 09:34 888次阅读
    基于<b class='flag-5'>AX650N</b>芯片<b class='flag-5'>部署</b>MiniCPM-V 2.0高效端侧<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>