0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-04-28 10:36 次阅读

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的 NVIDIA GPU 上运行的大语言模型推理。

Phi-3 Mini 与 10 倍之于其大小的模型能力不相上下。不同于仅用于研究的 Phi-2,Phi-3 Mini 不仅可以用于研究,同时还可以用于多种商业用途。搭载 NVIDIA RTX GPU 的工作站或搭载 GeForce RTX GPU 的 PC 可以使用 Windows DirectML 或 TensorRT-LLM 在本地运行该模型。

该模型有 38 亿个参数,在 512 个 NVIDIA Tensor Core GPU 上使用 3.3 万亿个 token 训练而成,仅耗时七天时间。

Phi-3 Mini 有两个版本,一个版本支持 4K token,另一个版本支持 128K token,是同类模型中第一个支持超长上下文的模型。因此,开发者在向该模型提问时,可以使用 128,000 个 token(模型能够处理的最小语言单位),使模型能够做出更加符合现实的回答。

开发者可以在 ai.nvidia.com上试用带有 128K 上下文窗口的 Phi-3 Mini。该模型被打包成 NVIDIA NIM,这是一项带有标准应用编程接口的微服务,可以部署在任何位置。

在边缘高效运行

自主机器人和嵌入式设备开发者可以通过社区教程(如 Jetson AI Lab)学习创建和部署生成式 AI,并在 NVIDIA Jetson 上部署 Phi-3。

Phi-3 Mini 模型只有 38 亿个参数,非常小巧紧凑,可以在边缘设备上高效运行。参数就像内存中的旋钮,可在模型训练过程中进行精确的调整,使模型能够对输入的提示做出高度准确的响应。

Phi-3 可以在成本和资源受限的用例中提供帮助,尤其是较简单的任务。该模型在关键语言基准测试中的表现优于一些较大的模型,同时在满足延迟要求的情况下给出结果。

TensorRT-LLM 将支持 Phi-3 Mini 的长上下文窗口,并使用 LongRoPE、FP8/飞行批处理等众多优化措施和内核来提高推理吞吐量,减少延迟。TensorRT-LLM 的应用很快将在 GitHub 上的示例文件夹中提供。

开发者可以转换为 TensorRT-LLM 检查点格式,该格式针对推理进行了优化,可以轻松地与 NVIDIA Triton 推理服务器一起部署。

开发开放式系统

NVIDIA 是开源生态系统的积极贡献者,已经发布了 500 多个带有开源许可证的项目。

NVIDIA 为 JAX、Kubernetes、OpenUSD、PyTorch 和 Linux 内核等众多外部项目做出了贡献,还为各种开源基金会和标准机构提供支持。

此次发布建立在 NVIDIA 与微软深厚的合作基础上,双方的合作为加速 DirectML、Azure 云、生成式 AI 研究以及医疗和生命科学等领域的创新铺平了道路。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    211

    文章

    28632

    浏览量

    208267
  • NVIDIA
    +关注

    关注

    14

    文章

    5075

    浏览量

    103649
  • 嵌入式设备
    +关注

    关注

    0

    文章

    110

    浏览量

    17023
  • GPU芯片
    +关注

    关注

    1

    文章

    303

    浏览量

    5890
  • 大模型
    +关注

    关注

    2

    文章

    2543

    浏览量

    3111

原文标题:小巧而强大:NVIDIA 加速微软 Phi-3 开源“小语言模型”

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA推出开放式Llama Nemotron系列模型

    作为 NVIDIA NIM 微服务,开放式 Llama Nemotron 大语言模型和 Cosmos Nemotron 视觉语言模型可在任何
    的头像 发表于 01-09 11:11 250次阅读

    使用NVIDIA TensorRT提升Llama 3.2性能

    Llama 3.2 模型集扩展了 Meta Llama 开源模型集的模型阵容,包含视觉语言模型
    的头像 发表于 11-20 09:59 301次阅读

    搭建开源语言模型服务的方法

    本文我们将总结5种搭建开源语言模型服务的方法,每种都附带详细的操作步骤,以及各自的优缺点。
    的头像 发表于 10-29 09:17 258次阅读

    NVIDIA NIM助力企业高效部署生成式AI模型

    Canonical、Nutanix 和 Red Hat 等厂商的开源 Kubernetes 平台集成了 NVIDIA NIM,将允许用户通过 API 调用来大规模地部署大语言模型
    的头像 发表于 10-10 09:49 443次阅读

    在英特尔酷睿Ultra7处理器上优化和部署Phi-3-min模型

    2024年4月23日,微软研究院公布Phi-3系列AI大模型,包含三个版本:mini(3.8B参数)、small(7B参数)以及medium(14B参数)。
    的头像 发表于 08-30 16:58 708次阅读
    在英特尔酷睿Ultra7处理器上优化和部署<b class='flag-5'>Phi-3</b>-min<b class='flag-5'>模型</b>

    如何加速语言模型推理

    的主要挑战。本文将从多个维度深入探讨如何加速语言模型的推理过程,以期为相关领域的研究者和开发者提供参考。
    的头像 发表于 07-04 17:32 628次阅读

    微软发布PhI-3-Vision模型,提升视觉AI效率

    Phi-3-vision 是一种小型多模式语言模型(SLM),主要适用于本地人工智能场景。其模型参数高达 42 亿,上下文序列包含 128k 个符号,可满足各种视觉推理和其他任务需求。
    的头像 发表于 05-28 11:35 532次阅读

    英特尔联手微软,推动移动设备低功耗计算及AI解决方案

    据报道,微软于4月至5月间相继推出了多款Phi-3小型语言模型(SLM),这些模型以其“轻便易携且能在移动设备中运行”以及强大的视觉处理能力
    的头像 发表于 05-27 15:59 391次阅读

    微软发布视觉型AI新模型Phi-3-vision

     据悉,Phi-3-vision 作为微软 Phi-3 家族的首款多模态模型,继承自 Phi-3-mini 的文本理解能力,兼具轻巧便携特性
    的头像 发表于 05-27 15:56 539次阅读

    英特尔优化AI产品组合,助力微软Phi-3家族模型

    近日,英特尔宣布针对微软Phi-3家族开放模型,成功验证并优化了其跨客户端、边缘及数据中心的AI产品组合。这一重要举措旨在提供更为灵活和高效的AI解决方案。
    的头像 发表于 05-27 11:47 703次阅读

    英特尔与微软合作在其AI PC及边缘解决方案中支持多种Phi-3模型

    近日,英特尔针对微软的多个Phi-3家族的开放模型,验证并优化了其跨客户端、边缘和数据中心的AI产品组合。
    的头像 发表于 05-27 11:15 619次阅读

    NVIDIA与Google DeepMind合作推动大语言模型创新

    支持 NVIDIA NIM 推理微服务的谷歌最新开源模型 PaliGemma 首次亮相。
    的头像 发表于 05-16 09:44 500次阅读

    微软准备推出全新人工智能语言模型

    微软近期传出消息,正在秘密研发一款全新的人工智能语言模型,这款模型在规模上预计将具备与谷歌和OpenAI等业界巨头相抗衡的实力。据悉,这款新模型
    的头像 发表于 05-08 09:30 458次阅读

    微软发布phi-3AI模型,性能超越GPT-3.5

    微软称,带有38亿参数的phi-3-mini经过3.3万亿token的强化学习,其基础表现已经超过Mixtral 8x7B及GPT-3.5;此外,该模型可在手机等移动设备上运行,并在phi
    的头像 发表于 04-23 14:32 583次阅读

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta 最新开源语言模型采用 NVIDIA 技术构建,其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。
    的头像 发表于 04-23 09:52 518次阅读