NVIDIA加速微软最新的Phi-3 Mini开源语言模型-电子发烧友网

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的 NVIDIA GPU 上运行的大语言模型推理。

Phi-3 Mini 与 10 倍之于其大小的模型能力不相上下。不同于仅用于研究的 Phi-2，Phi-3 Mini 不仅可以用于研究，同时还可以用于多种商业用途。搭载 NVIDIA RTX GPU 的工作站或搭载 GeForce RTX GPU 的 PC 可以使用 Windows DirectML 或 TensorRT-LLM 在本地运行该模型。

该模型有 38 亿个参数，在 512 个 NVIDIA Tensor Core GPU 上使用 3.3 万亿个 token 训练而成，仅耗时七天时间。

Phi-3 Mini 有两个版本，一个版本支持 4K token，另一个版本支持 128K token，是同类模型中第一个支持超长上下文的模型。因此，开发者在向该模型提问时，可以使用 128,000 个 token（模型能够处理的最小语言单位），使模型能够做出更加符合现实的回答。

开发者可以在 ai.nvidia.com上试用带有 128K 上下文窗口的 Phi-3 Mini。该模型被打包成 NVIDIA NIM，这是一项带有标准应用编程接口的微服务，可以部署在任何位置。

在边缘高效运行

自主机器人和嵌入式设备开发者可以通过社区教程（如 Jetson AI Lab）学习创建和部署生成式 AI，并在 NVIDIA Jetson 上部署 Phi-3。

Phi-3 Mini 模型只有 38 亿个参数，非常小巧紧凑，可以在边缘设备上高效运行。参数就像内存中的旋钮，可在模型训练过程中进行精确的调整，使模型能够对输入的提示做出高度准确的响应。

Phi-3 可以在成本和资源受限的用例中提供帮助，尤其是较简单的任务。该模型在关键语言基准测试中的表现优于一些较大的模型，同时在满足延迟要求的情况下给出结果。

TensorRT-LLM 将支持 Phi-3 Mini 的长上下文窗口，并使用 LongRoPE、FP8/飞行批处理等众多优化措施和内核来提高推理吞吐量，减少延迟。TensorRT-LLM 的应用很快将在 GitHub 上的示例文件夹中提供。

开发者可以转换为 TensorRT-LLM 检查点格式，该格式针对推理进行了优化，可以轻松地与 NVIDIA Triton 推理服务器一起部署。

开发开放式系统

NVIDIA 是开源生态系统的积极贡献者，已经发布了 500 多个带有开源许可证的项目。

NVIDIA 为 JAX、Kubernetes、OpenUSD、PyTorch 和 Linux 内核等众多外部项目做出了贡献，还为各种开源基金会和标准机构提供支持。

此次发布建立在 NVIDIA 与微软深厚的合作基础上，双方的合作为加速 DirectML、Azure 云、生成式 AI 研究以及医疗和生命科学等领域的创新铺平了道路。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28632

浏览量
208267
NVIDIA

NVIDIA

+关注

关注
14

文章
5075

浏览量
103649
嵌入式设备

嵌入式设备

+关注

关注
0

文章
110

浏览量
17023
GPU芯片

GPU芯片

+关注

关注
1

文章
303

浏览量
5890
大模型

大模型

+关注

关注
2

文章
2543

浏览量
3111

原文标题：小巧而强大：NVIDIA 加速微软 Phi-3 开源“小语言模型”

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

NVIDIA推出开放式Llama Nemotron系列模型

作为 NVIDIA NIM 微服务，开放式 Llama Nemotron 大语言模型和 Cosmos Nemotron 视觉语言模型可在任何

发表于 01-09 11:11 •250次阅读

使用NVIDIA TensorRT提升Llama 3.2性能

Llama 3.2 模型集扩展了 Meta Llama 开源模型集的模型阵容，包含视觉语言模型（

发表于 11-20 09:59 •301次阅读

搭建开源大语言模型服务的方法

本文我们将总结5种搭建开源大语言模型服务的方法，每种都附带详细的操作步骤，以及各自的优缺点。

发表于 10-29 09:17 •258次阅读

NVIDIA NIM助力企业高效部署生成式AI模型

Canonical、Nutanix 和 Red Hat 等厂商的开源 Kubernetes 平台集成了 NVIDIA NIM，将允许用户通过 API 调用来大规模地部署大语言模型。

发表于 10-10 09:49 •443次阅读

在英特尔酷睿Ultra7处理器上优化和部署Phi-3-min模型

2024年4月23日，微软研究院公布Phi-3系列AI大模型，包含三个版本：mini(3.8B参数)、small(7B参数)以及medium(14B参数)。

发表于 08-30 16:58 •708次阅读

在英特尔酷睿Ultra7处理器上优化和部署<b class='flag-5'>Phi-3</b>-min<b class='flag-5'>模型</b>

如何加速大语言模型推理

的主要挑战。本文将从多个维度深入探讨如何加速大语言模型的推理过程，以期为相关领域的研究者和开发者提供参考。

发表于 07-04 17:32 •628次阅读

微软发布PhI-3-Vision模型，提升视觉AI效率

Phi-3-vision 是一种小型多模式语言模型（SLM），主要适用于本地人工智能场景。其模型参数高达 42 亿，上下文序列包含 128k 个符号，可满足各种视觉推理和其他任务需求。

发表于 05-28 11:35 •532次阅读

英特尔联手微软，推动移动设备低功耗计算及AI解决方案

据报道，微软于4月至5月间相继推出了多款Phi-3小型语言模型（SLM），这些模型以其“轻便易携且能在移动设备中运行”以及强大的视觉处理能力

发表于 05-27 15:59 •391次阅读

微软发布视觉型AI新模型：Phi-3-vision

　据悉，Phi-3-vision 作为微软 Phi-3 家族的首款多模态模型，继承自 Phi-3-mini 的文本理解能力，兼具轻巧便携特性

发表于 05-27 15:56 •539次阅读

英特尔优化AI产品组合，助力微软Phi-3家族模型

近日，英特尔宣布针对微软的Phi-3家族开放模型，成功验证并优化了其跨客户端、边缘及数据中心的AI产品组合。这一重要举措旨在提供更为灵活和高效的AI解决方案。

发表于 05-27 11:47 •703次阅读

英特尔与微软合作在其AI PC及边缘解决方案中支持多种Phi-3模型

近日，英特尔针对微软的多个Phi-3家族的开放模型，验证并优化了其跨客户端、边缘和数据中心的AI产品组合。

发表于 05-27 11:15 •619次阅读

NVIDIA与Google DeepMind合作推动大语言模型创新

支持 NVIDIA NIM 推理微服务的谷歌最新开源模型 PaliGemma 首次亮相。

发表于 05-16 09:44 •500次阅读

微软准备推出全新人工智能语言模型

微软近期传出消息，正在秘密研发一款全新的人工智能语言模型，这款模型在规模上预计将具备与谷歌和OpenAI等业界巨头相抗衡的实力。据悉，这款新模型

发表于 05-08 09:30 •458次阅读

微软发布phi-3AI模型，性能超越GPT-3.5

微软称，带有38亿参数的phi-3-mini经过3.3万亿token的强化学习，其基础表现已经超过Mixtral 8x7B及GPT-3.5；此外，该模型可在手机等移动设备上运行，并在phi

发表于 04-23 14:32 •583次阅读

NVIDIA全面加快Meta Llama 3的推理速度

Meta 最新开源大语言模型采用 NVIDIA 技术构建，其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。

发表于 04-23 09:52 •518次阅读

搜索历史

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

评论