0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软发布视觉型AI新模型:Phi-3-vision

微云疏影 来源:综合整理 作者:综合整理 2024-05-27 15:56 次阅读

5 月 26 日消息,微软近期推出其小语言 AI 模型新成员“Phi-3-vision”,以卓越的“视觉”处理能力著称,能够深度解析图文信息并在移动设备上稳定运行。

据悉,Phi-3-vision 作为微软 Phi-3 家族的首款多模态模型,继承自 Phi-3-mini 的文本理解能力,兼具轻巧便携特性,适用于移动平台/嵌入式终端;模型参数规模达 42 亿,远超 Phi-3-mini(3.8B),略逊于 Phi-3-small(7B),上下文长度为 128k token,训练时间跨度为 2024 年 2 月至 4 月。

值得关注的是,Phi-3-vision 模型的核心优势在于其强大的“图文识别”功能,能够准确理解现实世界图像的内涵,迅速识别并提取图片中的文字信息。

微软强调,Phi-3-vision 尤其适用于办公场景,开发者针对图表和方块图(Block diagram)识别进行了专门优化,使其能够根据用户输入信息进行推理,并生成一系列决策建议,为企业提供战略参考,被誉为“媲美大型模型”的效果。

在模型训练环节,微软表示 Phi-3-vision 采用了“多元化图片与文字数据”进行训练,涵盖了一系列“精选的公共内容”,如“教科书级”教育素材、代码、图文标注数据、现实世界知识、图表图片、聊天记录等,以保证模型输入内容的丰富性。此外,微软承诺所用训练数据“可追溯”且不含任何个人信息,充分保障用户隐私。

在性能对比方面,微软提供了 Phi-3-vision 与字节跳动 Llama3-Llava-Next(8B)、微软研究院与威斯康星大学、哥伦比亚大学联合研发的 LlaVA-1.6(7B)以及阿里巴巴通义千问 QWEN-VL-Chat 模型等竞品的对比图表,展示了 Phi-3-vision 在多项测试中的优秀表现。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6552

    浏览量

    103879
  • AI
    AI
    +关注

    关注

    87

    文章

    29665

    浏览量

    267997
  • 模型
    +关注

    关注

    1

    文章

    3103

    浏览量

    48639
收藏 人收藏

    评论

    相关推荐

    在英特尔酷睿Ultra7处理器上优化和部署Phi-3-min模型

    2024年4月23日,微软研究院公布Phi-3系列AI模型,包含三个版本:mini(3.8B参数)、small(7B参数)以及medium(14B参数)。
    的头像 发表于 08-30 16:58 503次阅读
    在英特尔酷睿Ultra7处理器上优化和部署<b class='flag-5'>Phi-3</b>-min<b class='flag-5'>模型</b>

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    本帖最后由 jf_40317719 于 2024-6-18 17:39 编辑 视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能
    发表于 06-18 17:33

    英特尔机器视觉AI解决方案助力生产力升级

    5月21日-22日,北京机器视觉助力智能制造创新发展大会在北京国际会议中心圆满举行。本次大会以“Vision+AI引领新质生产力”为核心主题,聚焦“3D视觉与精准成像、
    的头像 发表于 05-30 17:14 456次阅读
    英特尔机器<b class='flag-5'>视觉</b>与<b class='flag-5'>AI</b>解决方案助力生产力升级

    微软发布PhI-3-Vision模型,提升视觉AI效率

    Phi-3-vision 是一种小型多模式语言模型(SLM),主要适用于本地人工智能场景。其模型参数高达 42 亿,上下文序列包含 128k 个符号,可满足各种视觉推理和其他任务需求。
    的头像 发表于 05-28 11:35 417次阅读

    英特尔联手微软,推动移动设备低功耗计算及AI解决方案

    据报道,微软于4月至5月间相继推出了多款Phi-3小型语言模型(SLM),这些模型以其“轻便易携且能在移动设备中运行”以及强大的视觉处理能力
    的头像 发表于 05-27 15:59 331次阅读

    英特尔优化AI产品组合,助力微软Phi-3家族模型

    近日,英特尔宣布针对微软Phi-3家族开放模型,成功验证并优化了其跨客户端、边缘及数据中心的AI产品组合。这一重要举措旨在提供更为灵活和高效的AI
    的头像 发表于 05-27 11:47 622次阅读

    英特尔与微软合作在其AI PC及边缘解决方案中支持多种Phi-3模型

    近日,英特尔针对微软的多个Phi-3家族的开放模型,验证并优化了其跨客户端、边缘和数据中心的AI产品组合。
    的头像 发表于 05-27 11:15 515次阅读

    微软Build 2024:宣布开放AI GPT-40及Phi-3-visio

    5 月 22 日,微软Build 2024大会在美正式开幕。萨提亚·纳德拉CEO、董事长宣布,OpenAI新款旗舰模型GPT-4o已经在Azure AI Studio上线,并开放API服务。
    的头像 发表于 05-22 11:18 460次阅读

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的 NVIDIA GPU 上运行的大语言
    的头像 发表于 04-28 10:36 455次阅读

    微软发布phi-3AI模型,性能超越GPT-3.5

    微软称,带有38亿参数的phi-3-mini经过3.3万亿token的强化学习,其基础表现已经超过Mixtral 8x7B及GPT-3.5;此外,该模型可在手机等移动设备上运行,并在phi
    的头像 发表于 04-23 14:32 496次阅读

    微软携手法国AI初创企业Mistral推动AI模型商业化

    微软近日与法国人工智能初创企业Mistral达成合作协议,旨在推动AI模型的商业化应用。据悉,微软将提供全方位支持,帮助这家成立仅10个月的公司将其先进的
    的头像 发表于 02-28 10:23 470次阅读

    图漾科技发布3D工业视觉应用开发平台Vision++

    2023年12月20日,全球领先的3D机器视觉企业图漾科技发布3D工业视觉应用开发平台Vision
    的头像 发表于 12-20 16:46 785次阅读
    图漾科技<b class='flag-5'>发布</b><b class='flag-5'>3</b>D工业<b class='flag-5'>视觉</b>应用开发平台<b class='flag-5'>Vision</b>++

    微软宣布推出一个27亿参数的语言模型Phi-2

    Phi-2 是微软 “小语言模型(SLM)” 系列中的最新版本。第一个版本是拥有 13 亿参数的 Phi-1,针对基本的 Python 编码任务进行了微调。
    发表于 12-15 09:46 241次阅读
    <b class='flag-5'>微软</b>宣布推出一个27亿参数的语言<b class='flag-5'>模型</b><b class='flag-5'>Phi</b>-2

    微软正式发布一个27亿参数的语言模型Phi-2

    先后和 OpenAI、Meta 牵手推动大模型发展的微软,也正在加快自家小模型的迭代。
    的头像 发表于 12-14 15:45 765次阅读
    <b class='flag-5'>微软</b>正式<b class='flag-5'>发布</b>一个27亿参数的语言<b class='flag-5'>模型</b>—<b class='flag-5'>Phi</b>-2

    AI Transformer模型支持机器视觉对象检测方案

    使用机器视觉进行对象检测需要 AI 模型/算法在 AI 芯片、FPGA 或模块上运行。它们通常被称为“人工智能引擎”。在首次训练后,可以部署 AI
    发表于 11-23 10:31 453次阅读
    <b class='flag-5'>AI</b> Transformer<b class='flag-5'>模型</b>支持机器<b class='flag-5'>视觉</b>对象检测方案