微软发布视觉型AI新模型：Phi-3-vision-电子发烧友网

5 月 26 日消息，微软近期推出其小语言 AI 模型新成员“Phi-3-vision”，以卓越的“视觉”处理能力著称，能够深度解析图文信息并在移动设备上稳定运行。

据悉，Phi-3-vision 作为微软 Phi-3 家族的首款多模态模型，继承自 Phi-3-mini 的文本理解能力，兼具轻巧便携特性，适用于移动平台/嵌入式终端；模型参数规模达 42 亿，远超 Phi-3-mini（3.8B），略逊于 Phi-3-small（7B），上下文长度为 128k token，训练时间跨度为 2024 年 2 月至 4 月。

值得关注的是，Phi-3-vision 模型的核心优势在于其强大的“图文识别”功能，能够准确理解现实世界图像的内涵，迅速识别并提取图片中的文字信息。

微软强调，Phi-3-vision 尤其适用于办公场景，开发者针对图表和方块图（Block diagram）识别进行了专门优化，使其能够根据用户输入信息进行推理，并生成一系列决策建议，为企业提供战略参考，被誉为“媲美大型模型”的效果。

在模型训练环节，微软表示 Phi-3-vision 采用了“多元化图片与文字数据”进行训练，涵盖了一系列“精选的公共内容”，如“教科书级”教育素材、代码、图文标注数据、现实世界知识、图表图片、聊天记录等，以保证模型输入内容的丰富性。此外，微软承诺所用训练数据“可追溯”且不含任何个人信息，充分保障用户隐私。

在性能对比方面，微软提供了 Phi-3-vision 与字节跳动 Llama3-Llava-Next（8B）、微软研究院与威斯康星大学、哥伦比亚大学联合研发的 LlaVA-1.6（7B）以及阿里巴巴通义千问 QWEN-VL-Chat 模型等竞品的对比图表，展示了 Phi-3-vision 在多项测试中的优秀表现。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6590

浏览量
104024
AI

AI

+关注

关注
87

文章
30728

浏览量
268886
模型

模型

+关注

关注
1

文章
3226

浏览量
48807

微软预览版Copilot Vision AI功能上线

微软公司近日宣布，将面向美国地区的Copilot Pro用户推出预览版的Copilot Vision AI功能。这一创新功能旨在通过人工智能技术，进一步提升用户的网页浏览体验。 Copilot

发表于 12-09 14:38 •257次阅读

用Ollama轻松搞定Llama 3.2 Vision模型本地部署

Ollama的安装。一，Llama3.2 Vision简介 Llama 3.2 Vision是一个多模态大型语言模型（LLMs）的集合，它包括预训练和指令调整的图像推理生成模型，有两

发表于 11-23 17:22 •933次阅读

用Ollama轻松搞定Llama 3.2 <b class='flag-5'>Vision</b><b class='flag-5'>模型</b>本地部署

微软发布Azure AI Foundry，推动云服务增长

。 Azure AI Foundry为用户提供了一个更为便捷的平台，使得在支持人工智能的大型语言模型之间切换变得轻松自如。这一创新工具的发布，无疑将极大地降低AI应用的开发门槛，进一步

发表于 11-21 11:32 •407次阅读

在英特尔酷睿Ultra7处理器上优化和部署Phi-3-min模型

2024年4月23日，微软研究院公布Phi-3系列AI大模型，包含三个版本：mini(3.8B参数)、small(7B参数)以及medium(14B参数)。

发表于 08-30 16:58 •581次阅读

在英特尔酷睿Ultra7处理器上优化和部署<b class='flag-5'>Phi-3</b>-min<b class='flag-5'>模型</b>

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

本帖最后由 jf_40317719 于 2024-6-18 17:39 编辑视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能

发表于 06-18 17:33

英特尔机器视觉与AI解决方案助力生产力升级

5月21日-22日，北京机器视觉助力智能制造创新发展大会在北京国际会议中心圆满举行。本次大会以“Vision+AI引领新质生产力”为核心主题，聚焦“3D视觉与精准成像、

发表于 05-30 17:14 •525次阅读

英特尔机器<b class='flag-5'>视觉</b>与<b class='flag-5'>AI</b>解决方案助力生产力升级

微软发布PhI-3-Vision模型，提升视觉AI效率

Phi-3-vision 是一种小型多模式语言模型（SLM），主要适用于本地人工智能场景。其模型参数高达 42 亿，上下文序列包含 128k 个符号，可满足各种视觉推理和其他任务需求。

发表于 05-28 11:35 •474次阅读

英特尔联手微软，推动移动设备低功耗计算及AI解决方案

据报道，微软于4月至5月间相继推出了多款Phi-3小型语言模型（SLM），这些模型以其“轻便易携且能在移动设备中运行”以及强大的视觉处理能力

发表于 05-27 15:59 •361次阅读

英特尔优化AI产品组合，助力微软Phi-3家族模型

近日，英特尔宣布针对微软的Phi-3家族开放模型，成功验证并优化了其跨客户端、边缘及数据中心的AI产品组合。这一重要举措旨在提供更为灵活和高效的AI

发表于 05-27 11:47 •661次阅读

英特尔与微软合作在其AI PC及边缘解决方案中支持多种Phi-3模型

近日，英特尔针对微软的多个Phi-3家族的开放模型，验证并优化了其跨客户端、边缘和数据中心的AI产品组合。

发表于 05-27 11:15 •573次阅读

微软Build 2024：宣布开放AI GPT-40及Phi-3-visio

5 月 22 日，微软Build 2024大会在美正式开幕。萨提亚·纳德拉CEO、董事长宣布，OpenAI新款旗舰模型GPT-4o已经在Azure AI Studio上线，并开放API服务。

发表于 05-22 11:18 •497次阅读

微软MSN天气服务引入全新AI模型

微软在天气预测领域取得了突破性的进展，为MSN天气服务引入了全新的AI预测模型。该模型由微软Start团队精心研发，并基于他们在arXiv上

发表于 05-07 09:25 •562次阅读

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的 NVIDIA GPU 上运行的大语言

发表于 04-28 10:36 •547次阅读

微软发布phi-3AI模型，性能超越GPT-3.5

微软称，带有38亿参数的phi-3-mini经过3.3万亿token的强化学习，其基础表现已经超过Mixtral 8x7B及GPT-3.5；此外，该模型可在手机等移动设备上运行，并在phi

发表于 04-23 14:32 •535次阅读

微软携手法国AI初创企业Mistral推动AI模型商业化

微软近日与法国人工智能初创企业Mistral达成合作协议，旨在推动AI模型的商业化应用。据悉，微软将提供全方位支持，帮助这家成立仅10个月的公司将其先进的

发表于 02-28 10:23 •530次阅读

搜索历史

微软发布视觉型AI新模型：Phi-3-vision

评论

微软预览版Copilot Vision AI功能上线

用Ollama轻松搞定Llama 3.2 Vision模型本地部署

微软发布Azure AI Foundry，推动云服务增长

在英特尔酷睿Ultra7处理器上优化和部署Phi-3-min模型

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

英特尔机器视觉与AI解决方案助力生产力升级

微软发布PhI-3-Vision模型，提升视觉AI效率

英特尔联手微软，推动移动设备低功耗计算及AI解决方案

英特尔优化AI产品组合，助力微软Phi-3家族模型

英特尔与微软合作在其AI PC及边缘解决方案中支持多种Phi-3模型

微软Build 2024：宣布开放AI GPT-40及Phi-3-visio

微软MSN天气服务引入全新AI模型

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

微软发布phi-3AI模型，性能超越GPT-3.5

微软携手法国AI初创企业Mistral推动AI模型商业化