NVIDIA AI Foundation Models：使用生产就绪型 LLM 构建自定义企业聊天机器人和智能副驾-电子发烧友网

大语言模型（LLM）正在彻底变革数据科学，带来自然语言理解、AI 和机器学习的高级功能。为洞悉特定领域而定制的自定义 LLM 在企业应用中越来越受到青睐。

NVIDIA Nemotron-3 8B系列基础模型是一套功能强大的全新工具，可用于为企业构建生产就绪生成式 AI 应用，从而推动从客服 AI 聊天机器人到尖端 AI 产品的各种创新。

这些新的基础模型现已加入NVIDIA NeMo。这个端到端框架用于构建、自定义和部署专为企业定制的 LLM。企业现在可以使用这些工具快速且经济高效地大规模开发 AI 应用。这些应用可在云端、数据中心以及 Windows PC 和笔记本电脑上运行。

Nemotron-3 8B 系列现已在 Azure AI Model 目录、HuggingFace 和NVIDIA NGC 目录上的NVIDIA AI Foundation Model中心提供。该系列包含基本模型、聊天模型和问答（Q&A）模型，可解决各种下游任务。表 1 列出了该系列的所有模型。

表 1. Nemotron-3 8B 系列基础模型支持多种 LLM 用例

设计用于生产的基础模型

基础模型是强大的构建模块，它减少了构建实用的自定义应用所需的时间和资源。然而，企业机构必须确保这些模型符合其具体需求。

NVIDIA AI Foundation Models 基于来源可靠的数据集训练而成，集合了无数声音和体验。严格监控确保了数据的真实性，并符合不断变化发展的法律规定。任何出现的数据问题都会迅速得到解决，确保企业的 AI 应用既符合法律规范，又能保护用户隐私。这些模型既能吸收公开数据集，也能兼容专有数据集。

Nemotron-3-8B 基本模型

Nemotron-3-8B 基本模型是一种用于生成类人文本或代码的紧凑型高性能模型。该模型的 MMLU 5 样本平均值为 54.4。该基本模型还精通 53 种语言，包括英语、德语、俄语、西班牙语、法语、日语、中文、意大利语和荷兰语，因此能满足跨国企业对多语言能力的需求。该基本模型还经过 37 种不同编码语言的训练。

Nemotron-3-8B 聊天模型

该套件还添加了 Nemotron-3-8B 聊天模型，用于 LLM 驱动的聊天机器人交互。Nemotron-3-8B 聊天模型有三个版本，每个版本均针对特定用户的独特调整而设计：

监督微调（SFT）
人类反馈强化学习（RLHF）
NVIDIA SteerLM（https://blogs.nvidia.com/blog/2023/10/11/customize-ai-models-steerlm/）

Nemotron-3-8B-SFT 模型是指令微调的第一步，我们在此基础上建立了 RLHF 模型，该模型是 8B 类别中 MT-Bench 分数最高的模型（MT-Bench 是最常用的聊天质量指标）。用户可以从使用 8B-chat-RLHF 开始，以获得最佳的即时聊天互动效果。但对于希望与最终用户的偏好保持一致的企业，可以在使用 SFT 模型的同时，应用自己的 RLHF。

最后，最新的对齐方法 SteerLM 为训练和自定义推理 LLM 提供了新的灵活性。借助 SteerLM，用户可以定义其所需的所有属性，并将其嵌入单个模型中，然后就可以在该模型运行时为特定用例选择其所需的组合。

这种方法支持持续的改进周期。自定义模型响应可以作为未来训练的数据，从而将模型的实用性提升到新的水平。

Nemotron-3-8B 问答模型

Nemotron-3-8B-QA 模型是一个问答（QA）模型，该模型在大量数据基础上针对目标用例进行微调。

Nemotron-3-8B-QA 模型的性能一流，在 Natural Questions 数据集（https://ai.google.com/research/NaturalQuestions/）上实现了 41.99% 的零样本 F1 分数。该指标用于衡量生成的答案与问答中真实答案的相似程度。

Nemotron-3-8B-QA 模型已与其他参数规模更大的先进语言模型进行了对比测试。测试是在 NVIDIA 创建的数据集以及 Natural Questions 和 Doc2Dial 数据集上进行的。结果表明，该模型具有良好的性能。

使用 NVIDIA NeMo 框架

构建自定义 LLM

NVIDIA NeMo 通过为多种模型架构提供端到端功能和容器化方案，简化了构建自定义企业生成式 AI 模型的路径。借助 Nemotron-3-8B 系列模型，开发者就可以使用 NVIDIA 提供的预训练模型，这些模型可以轻松适应特定用例。

快速模型部署

使用 NeMo 框架时，无需收集数据或设置基础架构。NeMo 精简了这一过程。开发者可以自定义现有模型，并将其快速部署到生产中。

最佳模型性能

此外，它还与NVIDIA TensorRT-LLM开源库和NVIDIA Triton 推理服务器无缝集成，前者可优化模型性能，后者可加速推理服务流程。这种工具组合实现了最先进的准确性、低延迟和高吞吐量。

数据隐私和安全

NeMo 可实现安全、高效的大规模部署，并符合相关安全法规规定。例如，如果数据隐私是业务的关键问题，就可以使用NeMo Guardrails在不影响性能或可靠性的情况下安全存储客户数据。

总之，使用 NeMo 框架构建自定义 LLM 是在不牺牲质量或安全标准的情况下、快速创建企业 AI 应用的有效方法。它为开发者提供了自定义灵活性，同时提供了大规模快速部署所需的强大工具。

开始使用 Nemotron-3-8B

您可以使用 NeMo 框架在 Nemotron-3-8B 模型上轻松运行推理，该框架充分利用 TensorRT-LLM 开源库，可在NVIDIA GPU上为高效和轻松的 LLM 推理提供高级优化。它内置了对各种优化技术的支持，包括：

KV caching
Efficient Attention modules (including MQA, GQA, and Paged Attention)
In-flight (or continuous) batching
支持低精度（INT8/FP8）量化以及其他优化

NeMo 框架推理容器包含在 NeMo 模型（如 Nemotron-3-8B 系列）上应用 TensorRT-LLM 优化所需的所有脚本和依赖项，并将它们托管在 Triton 推理服务器上。部署完成后，它可以开放一个端点，供您发送推理查询。

在 Azure ML 上的部署步骤

Nemotron-3-8B 系列模型可在 Azure ML 模型目录中获得，以便部署到 Azure ML 管理的端点中。AzureML 提供了易于使用的“无代码部署”流程，使部署 Nemotron-3-8B 系列模型变得非常容易。该平台已集成了作为 NeMo 框架推理容器的底层管道。

图 1. 在 Azure ML 中选择实时端点

如要在 Azure ML 上部署 NVIDIA 基础模型并进行推理，请按照以下步骤操作：

登录 Azure 账户：https://portal.azure.com/#home
导航至 Azure ML 机器学习工作室
选择您的工作区，并导航至模型目录

NVIDIA AI Foundation 模型可在 Azure 上进行微调、评估和部署，还可以在 Azure ML 中使用 NeMo 训练框架对这些模型进行自定义。NeMo 框架由训练和推理容器组成，已集成在 AzureML 中。

如要微调基本模型，请选择您喜欢的模型变体，单击“微调”，填写任务类型、自定义训练数据、训练和验证分割以及计算集群等参数。

如要部署该模型，请选择您喜欢的模型变体，单击“实时端点”，选择实例、端点和其他用于自定义部署的参数。单击“部署”，将推理模型部署到端点。

Azure CLI 和 SDK 支持也可用于在 Azure ML 上运行微调作业和部署。详细信息请参见“Azure ML 中的 Foundation Models”文档。

在本地或其他云上的部署步骤

Nemotron-3-8B 系列模型具有独特的推理请求提示模板，建议将其作为最佳实践。但由于它们共享相同的基本架构，因此其部署说明很相似。

有关使用 NeMo 框架推理容器的最新部署说明，参见：https://registry.ngc.nvidia.com/orgs/ea-bignlp/teams/ga-participants/containers/nemofw-inference。

为了演示，让我们部署 Nemotron-3-8B-Base-4k。

1. 登录 NGC 目录，获取推理容器。

# log in to your NGC organization
docker login nvcr.io


# Fetch the NeMo framework inference container
docker pull nvcr.io/ea-bignlp/ga-participants/nemofw-inference:23.10

2. 下载 Nemotron-3-8B-Base-4k 模型。8B 系列模型可在 NGC 目录和 Hugging Face 上获得，您可以选择其中一个下载模型。

NVIDIA NGC

从 NGC 下载模型最简单的方法是使用 CLI。如果您没有安装 NGC CLI，请按照入门指南（https://docs.ngc.nvidia.com/cli/cmd.html#getting-started-with-the-ngc-cli）进行安装和配置。

# Downloading using CLI. The model path can be obtained from it’s page on NGC
ngc registry model download-version "dztrnjtldi02/nemotron-3-8b-base-4k:1.0"

Hugging Face Hub

以下指令使用的是 git-lfs，您也可以使用 Hugging Face 支持的任何方法下载模型。

git lfs install
git clone https://huggingface.co/nvidia/nemotron-3-8b-base-4knemotron-3-8b-base-4k_v1.0

3.在交互模式下运行 NeMo 推理容器，安装相关路径

# Create a folder to cache the built TRT engines. This is recommended so they don’t have to be built on every deployment call. 
mkdir -p trt-cache


# Run the container, mounting the checkpoint and the cache directory
docker run --rm --net=host 
                     --gpus=all 
                     -v $(pwd)/nemotron-3-8b-base-4k_v1.0:/opt/checkpoints/  
                     -v $(pwd)/trt-cache:/trt-cache  
                     -w /opt/NeMo 
                     -it nvcr.io/ea-bignlp/ga-participants/nemofw-inference:23.10 bash

4. 在 Triton 推理服务器上使用 TensorRT-LLM 后端转换并部署该模型。

python scripts/deploy/deploy_triton.py 
                     --nemo_checkpoint /opt/checkpoints/Nemotron-3-8B-Base-4k.nemo 
                     --model_type="gptnext" 
                     --triton_model_name Nemotron-3-8B-4K 
                     --triton_model_repository /trt-cache/ 
                     --max_input_len 3000 
                     --max_output_len 1000 
                     --max_batch_size 2

当该指令成功完成后，就会显示一个可以查询的端点。让我们来看看如何做到这一点。

运行推理的步骤

有几种运行推理的方法可供选择，取决于您希望如何集成该服务：

1. 使用 NeMo 框架推理容器中的 NeMo 客户端 API

2. 使用 PyTriton 在您的环境中创建一个客户端应用

3. 鉴于所部署的服务会开放一个 HTTP 端点，使用任何可以发送 HTTP 请求的程序资源库/工具。

选项 1（使用 NeMo 客户端 API）的示例如下。您可以在同一台设备上的 NeMo 框架推理容器中使用，也可以在能访问服务 IP 和端口的不同设备上使用。

from nemo.deploy import NemoQuery


# In this case, we run inference on the same machine
nq = NemoQuery(url="localhost:8000", model_name="Nemotron-3-8B-4K")


output = nq.query_llm(prompts=["The meaning of life is"], max_output_token=200, top_k=1, top_p=0.0, temperature=0.1)
print(output)

其他选项示例可以在该推理容器的 README 中找到。

8B 系列模型指令

NVIDIA Nemotron-3-8B 系列中的模型：所有 NVIDIA Nemotron-3-8B 数据集共享预训练基础，但用于调优聊天（SFT、RLHF、SteerLM）和问答模型的数据集是根据其特定目的自定义的。此外，构建上述模型还采用了不同的训练技术，因此这些模型在使用与训练模板相似的定制指令时最为有效。

这些模型的推荐指令模板位于各自的模型卡上。

例如，以下是适用于 Nemotron-3-8B-Chat-SFT 和 Nemotron-3-8B-Chat-RLHF 模型的单轮和多轮格式：

指令和回复字段与输入内容相对应。下面是一个使用单轮模板设置输入格式的示例。

PROMPT_TEMPLATE = """System
{system}
User
{prompt}
Assistant
"""
system = ""
prompt = "Write a poem on NVIDIA in the style of Shakespeare"


prompt = PROMPT_TEMPLATE.format(prompt=prompt, system=system)
print(prompt)

注意：对于 Nemotron-3-8B-Chat-SFT 和 Nemotron-3-8B-Chat-RLHF 模型，我们建议保持系统提示为空。

进一步训练和自定义

NVIDIA Nemotron-3-8B 模型系列适用于针对特定领域数据集的进一步定制。对此有几种选择，例如继续从检查点进行预训练、SFT 或高效参数微调、使用 RLHF 校准人类演示或使用 NVIDIA 全新 SteerLM 技术。

NeMo 框架训练容器提供了上述技术的易用脚本。我们还提供了各种工具，方便您进行数据整理、识别用于训练和推理的最佳超参数，以及在您选择的硬件（本地 DGX 云、支持 Kubernetes 的平台或云服务提供商）上运行 NeMo 框架的工具。

更多信息，参见 NeMo 框架用户指南（https://docs.nvidia.com/nemo-framework/user-guide/latest/index.html）或容器 README（https://registry.ngc.nvidia.com/orgs/ea-bignlp/containers/nemofw-training）。

Nemotron-3-8B 系列模型专为各种用例而设计，不仅在各种基准测试中表现出色，还支持多种语言。

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行，线上大会也将同期开放。点击“阅读原文”或扫描下方海报二维码，立即注册 GTC 大会。

原文标题：NVIDIA AI Foundation Models：使用生产就绪型 LLM 构建自定义企业聊天机器人和智能副驾

文章出处：【微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3872

浏览量
92438

原文标题：NVIDIA AI Foundation Models：使用生产就绪型 LLM 构建自定义企业聊天机器人和智能副驾

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

英伟达推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题

。Cosmos 世界基础模型（WFM）使开发者能够轻松生成大量基于物理学的逼真合成数据，以用于训练和评估其现有的模型。开发者还可以通过微调 Cosmos WFM 构建自定义模型。为加速机器人和自动驾驶

发表于 01-14 11:04 •415次阅读

英伟达推出基石世界模型Cosmos,解决智<b class='flag-5'>驾</b>与<b class='flag-5'>机器人</b>具身<b class='flag-5'>智能</b>训练数据问题

自然语言处理在聊天机器人中的应用

随着人工智能技术的飞速发展，聊天机器人已经成为我们日常生活中不可或缺的一部分。从客户服务到个人助理，聊天机器人的应用范围越来越广泛。这些机器人能够理解用户的查询，并提供及时、准确的回答

发表于 12-05 15:24 •672次阅读

NLP技术在聊天机器人中的作用

聊天机器人，也称为聊天AI，是一种通过文本或语音与人类进行交流的软件。它们广泛应用于客户服务、在线购物、个人助理等领域。NLP技术是实现聊天机器人智

发表于 11-11 10:33 •627次阅读

ChatGPT 与传统聊天机器人的比较

近年来最受瞩目的一个。一、技术基础 1.1 传统聊天机器人 传统聊天机器人通常基于规则引擎构建，这意味着它们通过预设的脚本和关键词来响应用户的输入。这些机器人在处理特定、预

发表于 10-25 16:16 •882次阅读

Meta人工智能聊天机器人进军新市场，挑战ChatGPT

Meta近日宣布，其人工智能聊天机器人将进军21个新市场，与OpenAI的ChatGPT展开激烈竞争。

发表于 10-11 16:29 •405次阅读

Snapchat聊天机器人集成谷歌Gemini技术

Snap与谷歌云的战略合作再升级，为Snapchat平台注入了新的智能活力。双方宣布，Snapchat的My AI聊天机器人将深度集成谷歌Gemini技术，这一创新举措标志着Snapchat在人工

发表于 09-25 14:51 •371次阅读

Meta将推出音频版聊天机器人

，为旗下Meta AI聊天机器人注入明星之声。这一音频版本预计本周起在美国及全球其他英语市场率先上线，为用户提供前所未有的语音交互体验。

发表于 09-24 15:18 •548次阅读

聊天机器人初创公司Character.AI裁员至少5%

聊天机器人初创企业Character.AI近期宣布了一项裁员决定，涉及员工比例至少达到5%，主要受影响的是营销和招聘团队。此次调整被视为公司在面对市场变化时做出的战略优化，旨在更加高效地配置资源，以支持其长期发展愿景。

发表于 08-30 15:37 •423次阅读

Meta关闭明星AI聊天机器人,转向用户自创AI工具

7月31日，科技新闻源The Information透露，Meta已悄然终止了其备受瞩目的明星AI聊天机器人项目。这些机器人曾因能够模拟著名人物的性格特征并与用户进行互动，在去年九月的Meta Connect大会上大放异彩。

发表于 07-31 16:16 •781次阅读

NVIDIA NeMo加速并简化自定义模型开发

如果企业希望充分发挥出 AI 的力量，就需要根据其行业需求量身定制的自定义模型。

发表于 07-26 11:17 •912次阅读

NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI 模型

Foundry 提供从数据策管、合成数据生成、微调、检索、防护到评估的全方位生成式 AI 模型服务，以便部署自定义 Llama 3.1 NVIDIA NIM 微服务和新的 NVIDIA

发表于 07-24 09:39 •776次阅读

谷歌计划推出明星网红AI聊天机器人，与Meta展开技术竞争

在科技界风起云涌的当下，谷歌再次凭借其前瞻性的战略布局和创新能力，成为了公众关注的焦点。据The Information的独家爆料，谷歌正秘密研发一款全新的AI聊天机器人，该机器人将基于明星和YouTube网红的数据

发表于 06-26 18:23 •1102次阅读

AI聊天机器人Grok向欧洲X平台Premium会员开放

社交平台X的首席执行官琳达·亚卡里诺宣布，全新研发的Grok人工智能聊天机器人正式向欧洲的X Premium会员提供服务。Grok是X平台精心打造的一款AI聊天机器人，旨在提升欧洲会员

发表于 05-17 09:38 •533次阅读

使用Ryzen ™ AI处理器构建聊天机器人

人工智能处理器和软件将个人计算的强大功能带到人工智能PC上，将工作、协作和创新的效率提升到一个全新的水平。生成式AI应用程序（如AI聊天机器人

发表于 05-11 14:22 •8468次阅读

揭秘聊天机器人的“大脑”-大语言模型

如果说 AI 正处于改变历史的“iPhone 时刻”，那么聊天机器人就是其首批热门应用之一。

发表于 04-17 10:01 •849次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

NVIDIA AI Foundation Models：使用生产就绪型 LLM 构建自定义企业聊天机器人和智能副驾

评论

英伟达推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题

自然语言处理在聊天机器人中的应用

NLP技术在聊天机器人中的作用

ChatGPT 与传统聊天机器人的比较

Meta人工智能聊天机器人进军新市场，挑战ChatGPT

Snapchat聊天机器人集成谷歌Gemini技术

Meta将推出音频版聊天机器人

聊天机器人初创公司Character.AI裁员至少5%

Meta关闭明星AI聊天机器人,转向用户自创AI工具

NVIDIA NeMo加速并简化自定义模型开发

NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI 模型

谷歌计划推出明星网红AI聊天机器人，与Meta展开技术竞争

AI聊天机器人Grok向欧洲X平台Premium会员开放

使用Ryzen ™ AI处理器构建聊天机器人

揭秘聊天机器人的“大脑”-大语言模型