0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Hugging Face推出最小AI视觉语言模型

麦辣鸡腿堡 来源:网络整理 2025-01-24 14:15 次阅读

Hugging Face平台于1月23日发布博文,推出了两款令人瞩目的轻量级AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。

其中,SmolVLM-256M-Instruct仅有2.56亿参数,是有史以来发布的最小视觉语言模型,可在内存低于1GB的PC上运行并提供卓越性能。SmolVLM-500M-Instruct有5亿参数,主要针对硬件资源限制,帮助开发者应对大规模数据分析挑战。

这两款模型具备先进的多模态能力,可执行图像描述、短视频分析以及回答关于PDF或科学图表的问题等任务。其开发依赖于The Cauldron和Docmatix两个专有数据集。The Cauldron包含50个高质量图像和文本数据集,侧重于多模态学习;Docmatix专为文档理解定制,将扫描文件与详细标题配对以增强理解。

此外,模型采用了更小的视觉编码器SigLIP base patch-16/512,通过优化图像标记处理方式,减少了冗余,还将图像编码速率提升至每个标记4096像素,相比早期版本的每标记1820像素有了显著改进。

Hugging Face此次推出的最小AI视觉语言模型,为AI在低资源设备上的应用开辟了新的道路。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1796

    文章

    47643

    浏览量

    240020
  • 语言模型
    +关注

    关注

    0

    文章

    538

    浏览量

    10335
  • AI视觉
    +关注

    关注

    0

    文章

    66

    浏览量

    4498
收藏 人收藏

    相关推荐

    广和通推出AI玩具大模型解决方案

    广和通推出AI玩具大模型解决方案,该方案深度融合豆包等AI模型、内置广和通Cat.1模组,助力智能玩具实现
    的头像 发表于 01-21 10:27 206次阅读

    AI语言模型开发步骤

    开发一个高效、准确的大语言模型是一个复杂且多阶段的过程,涉及数据收集与预处理、模型架构设计、训练与优化、评估与调试等多个环节。接下来,AI部落小编为大家详细阐述
    的头像 发表于 12-19 11:29 250次阅读

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    日前,加州大学的研究人员携手英伟达,共同推出了一款创新的视觉语言模型——NaVILA。该模型在机器人导航领域展现出了独特的应用潜力,为智能机
    的头像 发表于 12-13 10:51 341次阅读

    语言模型开发语言是什么

    在人工智能领域,大语言模型(Large Language Models, LLMs)背后,离不开高效的开发语言和工具的支持。下面,AI部落小编为您介绍大
    的头像 发表于 12-04 11:44 220次阅读

    谷歌全新推出开放式视觉语言模型PaliGemma

    这种热烈的反响非常鼓舞人心,开发者们打造了一系列多样的项目,例如用于印度语言的多语言变体 Navarasa,以及设备端侧动作模型 Octopus v2。开发者们展示了 Gemma 在打造极具影响力且易于使用的
    的头像 发表于 10-15 17:37 444次阅读

    谷歌推出效率与性能跃阶的全新开放模型标准

    AI 有可能解决人类面临的一些最紧迫的问题,但前提是每个人都拥有构建 AI 的工具。这就是我们在今年早些时候推出 Gemma 的原因,Gemma 是一系列轻量级开放模型系列,采用了与创
    的头像 发表于 09-09 15:43 426次阅读
    谷歌<b class='flag-5'>推出</b>效率与性能跃阶的全新开放<b class='flag-5'>模型</b>标准

    借助Arm Neoverse加速Hugging Face模型

    人工智能 (AI) 有望触及并改变我们生活的方方面面。如今,包括医疗保健、金融、制造、教育、媒体和运输等在内的各行各业都在利用 AI 进行创新。它们通过运行复杂的 AI 工作负载来提高生产力,改善消费者决策,提升教育体验等,而这
    的头像 发表于 09-02 10:44 346次阅读
    借助Arm Neoverse加速<b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b><b class='flag-5'>模型</b>

    Hugging Face科技公司推出SmolLM系列语言模型

    7月22日最新资讯,Hugging Face科技公司在语言模型领域再创新高,正式推出了SmolLM系列——一款专为适应多样计算资源而设计的紧
    的头像 发表于 07-23 16:35 386次阅读

    亚马逊云携手AI新创企业Hugging Face,提升AI模型在定制芯片计算性能

    Hugging Face作为一家估值为45亿美元的公司现已成为了众多AI研究员和开发者分享Chatbot和相关软件的核心平台,受到亚马逊、谷歌、英伟达等巨头的青睐。
    的头像 发表于 05-23 14:24 442次阅读

    Hugging Face提供1000万美元免费共享GPU

    全球最大的开源AI社区Hugging Face近日宣布,将提供价值1000万美元的免费共享GPU资源,以支持开发者创造新的AI技术。这一举措旨在帮助小型开发者、研究人员和初创公司,对抗
    的头像 发表于 05-20 09:40 706次阅读

    Hugging Face推出开源机器人代码库LeRobot

    AI领域的佼佼者Hugging Face近日宣布重磅推出并全面开源其机器人工具包——LeRobot。这一创新工具包基于史上最大规模的众包机器人数据集,为开发者提供了一个前所未有的平台。
    的头像 发表于 05-09 10:32 624次阅读

    Snowflake推出面向企业AI的大语言模型

    Snowflake公司近日推出了企业级AI模型——Snowflake Arctic,这是一款大型语言模型(LLM),专为满足企业复杂工作负载
    的头像 发表于 05-07 10:03 503次阅读

    【大语言模型:原理与工程实践】大语言模型的基础技术

    下游任务提供丰富的文本表示,如谷歌公司推出的BERT。(2) Decoder-Only 预训练语言模型:这类模型一般使用单向的 Decoder 结构,通常擅长生成任务,如OpenAI
    发表于 05-05 12:17

    Stability AI发布Stable Code Instruct 3B大语言模型,可编译多种编程语言

    据报道,Stability AI公司近期推出了适配程序员使用的Stable Code Instruct 3B大语言模型,此款模型的显著特点是
    的头像 发表于 03-27 10:04 561次阅读

    ServiceNow、Hugging Face 和 NVIDIA 发布全新开放获取 LLM,助力开发者运用生成式 AI 构建企业应用

    2024 年 2 月 28 日 - ServiceNow(NYSE:NOW)、Hugging Face 和 NVIDIA 于今日发布 StarCoder2,其为一系列用于代码生成的开放获取大语言
    发表于 02-29 11:12 266次阅读
    ServiceNow、<b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 和 NVIDIA 发布全新开放获取 LLM,助力开发者运用生成式 <b class='flag-5'>AI</b> 构建企业应用