Hugging Face推出最小AI视觉语言模型-电子发烧友网

Hugging Face平台于1月23日发布博文，推出了两款令人瞩目的轻量级AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。

其中，SmolVLM-256M-Instruct仅有2.56亿参数，是有史以来发布的最小视觉语言模型，可在内存低于1GB的PC上运行并提供卓越性能。SmolVLM-500M-Instruct有5亿参数，主要针对硬件资源限制，帮助开发者应对大规模数据分析挑战。

这两款模型具备先进的多模态能力，可执行图像描述、短视频分析以及回答关于PDF或科学图表的问题等任务。其开发依赖于The Cauldron和Docmatix两个专有数据集。The Cauldron包含50个高质量图像和文本数据集，侧重于多模态学习；Docmatix专为文档理解定制，将扫描文件与详细标题配对以增强理解。

此外，模型采用了更小的视觉编码器SigLIP base patch-16/512，通过优化图像标记处理方式，减少了冗余，还将图像编码速率提升至每个标记4096像素，相比早期版本的每标记1820像素有了显著改进。

Hugging Face此次推出的最小AI视觉语言模型，为AI在低资源设备上的应用开辟了新的道路。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1796

文章
47643

浏览量
240107
语言模型

语言模型

+关注

关注
0

文章
538

浏览量
10339
AI视觉

AI视觉

+关注

关注
0

文章
66

浏览量
4506

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

Hugging Face推出最小AI视觉语言模型

评论

广和通推出AI玩具大模型解决方案

AI大语言模型开发步骤

NaVILA：加州大学与英伟达联合发布新型视觉语言模型

大语言模型开发语言是什么

谷歌全新推出开放式视觉语言模型PaliGemma

谷歌推出效率与性能跃阶的全新开放模型标准

借助Arm Neoverse加速Hugging Face模型

Hugging Face科技公司推出SmolLM系列语言模型

亚马逊云携手AI新创企业Hugging Face，提升AI模型在定制芯片计算性能

Hugging Face提供1000万美元免费共享GPU

Hugging Face推出开源机器人代码库LeRobot

Snowflake推出面向企业AI的大语言模型

【大语言模型：原理与工程实践】大语言模型的基础技术

Stability AI发布Stable Code Instruct 3B大语言模型，可编译多种编程语言

ServiceNow、Hugging Face 和 NVIDIA 发布全新开放获取 LLM，助力开发者运用生成式 AI 构建企业应用