0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA AI Foundation Models:使用生产就绪型 LLM 构建自定义企业聊天机器人和智能副驾

NVIDIA英伟达企业解决方案 来源:未知 2023-11-17 21:35 次阅读
wKgZomVXbTKAGJfHAAW1azkbVqE901.png

大语言模型(LLM)正在彻底变革数据科学,带来自然语言理解、AI机器学习的高级功能。为洞悉特定领域而定制的自定义 LLM 在企业应用中越来越受到青睐。

NVIDIA Nemotron-3 8B系列基础模型是一套功能强大的全新工具,可用于为企业构建生产就绪生成式 AI 应用,从而推动从客服 AI 聊天机器人到尖端 AI 产品的各种创新。

这些新的基础模型现已加入NVIDIA NeMo。这个端到端框架用于构建、自定义和部署专为企业定制的 LLM。企业现在可以使用这些工具快速且经济高效地大规模开发 AI 应用。这些应用可在云端、数据中心以及 Windows PC 和笔记本电脑上运行。

Nemotron-3 8B 系列现已在 Azure AI Model 目录、HuggingFace 和NVIDIA NGC 目录上的NVIDIA AI Foundation Model中心提供。该系列包含基本模型、聊天模型和问答(Q&A)模型,可解决各种下游任务。表 1 列出了该系列的所有模型。

wKgZomVXbTKAaCMEAAD20aBXqnc614.jpg

表 1. Nemotron-3 8B 系列基础模型支持多种 LLM 用例

设计用于生产的基础模型

基础模型是强大的构建模块,它减少了构建实用的自定义应用所需的时间和资源。然而,企业机构必须确保这些模型符合其具体需求。

NVIDIA AI Foundation Models 基于来源可靠的数据集训练而成,集合了无数声音和体验。严格监控确保了数据的真实性,并符合不断变化发展的法律规定。任何出现的数据问题都会迅速得到解决,确保企业的 AI 应用既符合法律规范,又能保护用户隐私。这些模型既能吸收公开数据集,也能兼容专有数据集。

Nemotron-3-8B 基本模型

Nemotron-3-8B 基本模型是一种用于生成类人文本或代码的紧凑型高性能模型。该模型的 MMLU 5 样本平均值为 54.4。该基本模型还精通 53 种语言,包括英语、德语、俄语、西班牙语、法语、日语、中文、意大利语和荷兰语,因此能满足跨国企业对多语言能力的需求。该基本模型还经过 37 种不同编码语言的训练。

Nemotron-3-8B 聊天模型

该套件还添加了 Nemotron-3-8B 聊天模型,用于 LLM 驱动的聊天机器人交互。Nemotron-3-8B 聊天模型有三个版本,每个版本均针对特定用户的独特调整而设计:

  • 监督微调(SFT)

  • 人类反馈强化学习(RLHF)

  • NVIDIA SteerLM(https://blogs.nvidia.com/blog/2023/10/11/customize-ai-models-steerlm/

Nemotron-3-8B-SFT 模型是指令微调的第一步,我们在此基础上建立了 RLHF 模型,该模型是 8B 类别中 MT-Bench 分数最高的模型(MT-Bench 是最常用的聊天质量指标)。用户可以从使用 8B-chat-RLHF 开始,以获得最佳的即时聊天互动效果。但对于希望与最终用户的偏好保持一致的企业,可以在使用 SFT 模型的同时,应用自己的 RLHF。

最后,最新的对齐方法 SteerLM 为训练和自定义推理 LLM 提供了新的灵活性。借助 SteerLM,用户可以定义其所需的所有属性,并将其嵌入单个模型中,然后就可以在该模型运行时为特定用例选择其所需的组合。

这种方法支持持续的改进周期。自定义模型响应可以作为未来训练的数据,从而将模型的实用性提升到新的水平。

Nemotron-3-8B 问答模型

Nemotron-3-8B-QA 模型是一个问答(QA)模型,该模型在大量数据基础上针对目标用例进行微调。

Nemotron-3-8B-QA 模型的性能一流,在 Natural Questions 数据集(https://ai.google.com/research/NaturalQuestions/)上实现了 41.99% 的零样本 F1 分数。该指标用于衡量生成的答案与问答中真实答案的相似程度。

Nemotron-3-8B-QA 模型已与其他参数规模更大的先进语言模型进行了对比测试。测试是在 NVIDIA 创建的数据集以及 Natural Questions 和 Doc2Dial 数据集上进行的。结果表明,该模型具有良好的性能。

使用 NVIDIA NeMo 框架

构建自定义 LLM

NVIDIA NeMo 通过为多种模型架构提供端到端功能和容器化方案,简化了构建自定义企业生成式 AI 模型的路径。借助 Nemotron-3-8B 系列模型,开发者就可以使用 NVIDIA 提供的预训练模型,这些模型可以轻松适应特定用例。

快速模型部署

使用 NeMo 框架时,无需收集数据或设置基础架构。NeMo 精简了这一过程。开发者可以自定义现有模型,并将其快速部署到生产中。

最佳模型性能

此外,它还与NVIDIA TensorRT-LLM开源库和NVIDIA Triton 推理服务器无缝集成,前者可优化模型性能,后者可加速推理服务流程。这种工具组合实现了最先进的准确性、低延迟和高吞吐量。

数据隐私和安全

NeMo 可实现安全、高效的大规模部署,并符合相关安全法规规定。例如,如果数据隐私是业务的关键问题,就可以使用NeMo Guardrails在不影响性能或可靠性的情况下安全存储客户数据。

总之,使用 NeMo 框架构建自定义 LLM 是在不牺牲质量或安全标准的情况下、快速创建企业 AI 应用的有效方法。它为开发者提供了自定义灵活性,同时提供了大规模快速部署所需的强大工具。

开始使用 Nemotron-3-8B

您可以使用 NeMo 框架在 Nemotron-3-8B 模型上轻松运行推理,该框架充分利用 TensorRT-LLM 开源库,可在NVIDIA GPU上为高效和轻松的 LLM 推理提供高级优化。它内置了对各种优化技术的支持,包括:

  • KV caching

  • Efficient Attention modules (including MQA, GQA, and Paged Attention)

  • In-flight (or continuous) batching

  • 支持低精度(INT8/FP8)量化以及其他优化

NeMo 框架推理容器包含在 NeMo 模型(如 Nemotron-3-8B 系列)上应用 TensorRT-LLM 优化所需的所有脚本和依赖项,并将它们托管在 Triton 推理服务器上。部署完成后,它可以开放一个端点,供您发送推理查询。

在 Azure ML 上的部署步骤

Nemotron-3-8B 系列模型可在 Azure ML 模型目录中获得,以便部署到 Azure ML 管理的端点中。AzureML 提供了易于使用的“无代码部署”流程,使部署 Nemotron-3-8B 系列模型变得非常容易。该平台已集成了作为 NeMo 框架推理容器的底层管道。

wKgZomVXbTKAFSStAACR2QTk7WA932.png

图 1. 在 Azure ML 中选择实时端点

如要在 Azure ML 上部署 NVIDIA 基础模型并进行推理,请按照以下步骤操作:

  1. 登录 Azure 账户:https://portal.azure.com/#home

  2. 导航至 Azure ML 机器学习工作室

  3. 选择您的工作区,并导航至模型目录

NVIDIA AI Foundation 模型可在 Azure 上进行微调、评估和部署,还可以在 Azure ML 中使用 NeMo 训练框架对这些模型进行自定义。NeMo 框架由训练和推理容器组成,已集成在 AzureML 中。

如要微调基本模型,请选择您喜欢的模型变体,单击“微调”,填写任务类型、自定义训练数据、训练和验证分割以及计算集群等参数。

如要部署该模型,请选择您喜欢的模型变体,单击“实时端点”,选择实例、端点和其他用于自定义部署的参数。单击“部署”,将推理模型部署到端点。

Azure CLI 和 SDK 支持也可用于在 Azure ML 上运行微调作业和部署。详细信息请参见“Azure ML 中的 Foundation Models”文档。

在本地或其他云上的部署步骤

Nemotron-3-8B 系列模型具有独特的推理请求提示模板,建议将其作为最佳实践。但由于它们共享相同的基本架构,因此其部署说明很相似。

有关使用 NeMo 框架推理容器的最新部署说明,参见:https://registry.ngc.nvidia.com/orgs/ea-bignlp/teams/ga-participants/containers/nemofw-inference

为了演示,让我们部署 Nemotron-3-8B-Base-4k。

1. 登录 NGC 目录,获取推理容器。

# log in to your NGC organization
docker login nvcr.io


# Fetch the NeMo framework inference container
docker pull nvcr.io/ea-bignlp/ga-participants/nemofw-inference:23.10

2. 下载 Nemotron-3-8B-Base-4k 模型。8B 系列模型可在 NGC 目录和 Hugging Face 上获得,您可以选择其中一个下载模型。

NVIDIA NGC

从 NGC 下载模型最简单的方法是使用 CLI。如果您没有安装 NGC CLI,请按照入门指南(https://docs.ngc.nvidia.com/cli/cmd.html#getting-started-with-the-ngc-cli)进行安装和配置。

# Downloading using CLI. The model path can be obtained from it’s page on NGC
ngc registry model download-version "dztrnjtldi02/nemotron-3-8b-base-4k:1.0"

Hugging Face Hub

以下指令使用的是 git-lfs,您也可以使用 Hugging Face 支持的任何方法下载模型。

git lfs install
git clone https://huggingface.co/nvidia/nemotron-3-8b-base-4knemotron-3-8b-base-4k_v1.0

3.在交互模式下运行 NeMo 推理容器,安装相关路径

# Create a folder to cache the built TRT engines. This is recommended so they don’t have to be built on every deployment call. 
mkdir -p trt-cache


# Run the container, mounting the checkpoint and the cache directory
docker run --rm --net=host 
                     --gpus=all 
                     -v $(pwd)/nemotron-3-8b-base-4k_v1.0:/opt/checkpoints/  
                     -v $(pwd)/trt-cache:/trt-cache  
                     -w /opt/NeMo 
                     -it nvcr.io/ea-bignlp/ga-participants/nemofw-inference:23.10 bash

4. 在 Triton 推理服务器上使用 TensorRT-LLM 后端转换并部署该模型。

python scripts/deploy/deploy_triton.py 
                     --nemo_checkpoint /opt/checkpoints/Nemotron-3-8B-Base-4k.nemo 
                     --model_type="gptnext" 
                     --triton_model_name Nemotron-3-8B-4K 
                     --triton_model_repository /trt-cache/ 
                     --max_input_len 3000 
                     --max_output_len 1000 
                     --max_batch_size 2

当该指令成功完成后,就会显示一个可以查询的端点。让我们来看看如何做到这一点。

运行推理的步骤

有几种运行推理的方法可供选择,取决于您希望如何集成该服务:

1. 使用 NeMo 框架推理容器中的 NeMo 客户端 API

2. 使用 PyTriton 在您的环境中创建一个客户端应用

3. 鉴于所部署的服务会开放一个 HTTP 端点,使用任何可以发送 HTTP 请求的程序资源库/工具。

选项 1(使用 NeMo 客户端 API)的示例如下。您可以在同一台设备上的 NeMo 框架推理容器中使用,也可以在能访问服务 IP 和端口的不同设备上使用。

from nemo.deploy import NemoQuery


# In this case, we run inference on the same machine
nq = NemoQuery(url="localhost:8000", model_name="Nemotron-3-8B-4K")


output = nq.query_llm(prompts=["The meaning of life is"], max_output_token=200, top_k=1, top_p=0.0, temperature=0.1)
print(output)

其他选项示例可以在该推理容器的 README 中找到。

8B 系列模型指令

NVIDIA Nemotron-3-8B 系列中的模型:所有 NVIDIA Nemotron-3-8B 数据集共享预训练基础,但用于调优聊天(SFT、RLHF、SteerLM)和问答模型的数据集是根据其特定目的自定义的。此外,构建上述模型还采用了不同的训练技术,因此这些模型在使用与训练模板相似的定制指令时最为有效。

这些模型的推荐指令模板位于各自的模型卡上。

例如,以下是适用于 Nemotron-3-8B-Chat-SFT 和 Nemotron-3-8B-Chat-RLHF 模型的单轮和多轮格式:

wKgZomVXbTKAd9-9AAD-epn1CLM582.jpg

指令和回复字段与输入内容相对应。下面是一个使用单轮模板设置输入格式的示例。

PROMPT_TEMPLATE = """System
{system}
User
{prompt}
Assistant
"""
system = ""
prompt = "Write a poem on NVIDIA in the style of Shakespeare"


prompt = PROMPT_TEMPLATE.format(prompt=prompt, system=system)
print(prompt)

注意对于 Nemotron-3-8B-Chat-SFT 和 Nemotron-3-8B-Chat-RLHF 模型,我们建议保持系统提示为空。

进一步训练和自定义

NVIDIA Nemotron-3-8B 模型系列适用于针对特定领域数据集的进一步定制。对此有几种选择,例如继续从检查点进行预训练、SFT 或高效参数微调、使用 RLHF 校准人类演示或使用 NVIDIA 全新 SteerLM 技术。

NeMo 框架训练容器提供了上述技术的易用脚本。我们还提供了各种工具,方便您进行数据整理、识别用于训练和推理的最佳超参数,以及在您选择的硬件(本地 DGX 云、支持 Kubernetes 的平台或云服务提供商)上运行 NeMo 框架的工具。

更多信息,参见 NeMo 框架用户指南(https://docs.nvidia.com/nemo-framework/user-guide/latest/index.html)或容器 README(https://registry.ngc.nvidia.com/orgs/ea-bignlp/containers/nemofw-training)。

Nemotron-3-8B 系列模型专为各种用例而设计,不仅在各种基准测试中表现出色,还支持多种语言。

GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。点击“阅读原文”扫描下方海报二维码,立即注册 GTC 大会


原文标题:NVIDIA AI Foundation Models:使用生产就绪型 LLM 构建自定义企业聊天机器人和智能副驾

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3770

    浏览量

    90987

原文标题:NVIDIA AI Foundation Models:使用生产就绪型 LLM 构建自定义企业聊天机器人和智能副驾

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    自然语言处理在聊天机器人中的应用

    随着人工智能技术的飞速发展,聊天机器人已经成为我们日常生活中不可或缺的一部分。从客户服务到个人助理,聊天机器人的应用范围越来越广泛。这些机器人能够理解用户的查询,并提供及时、准确的回答
    的头像 发表于 12-05 15:24 400次阅读

    NLP技术在聊天机器人中的作用

    聊天机器人,也称为聊天AI,是一种通过文本或语音与人类进行交流的软件。它们广泛应用于客户服务、在线购物、个人助理等领域。NLP技术是实现聊天机器人
    的头像 发表于 11-11 10:33 418次阅读

    ChatGPT 与传统聊天机器人的比较

    近年来最受瞩目的一个。 一、技术基础 1.1 传统聊天机器人 传统聊天机器人通常基于规则引擎构建,这意味着它们通过预设的脚本和关键词来响应用户的输入。这些机器人在处理特定、预
    的头像 发表于 10-25 16:16 526次阅读

    Meta将推出音频版聊天机器人

    ,为旗下Meta AI聊天机器人注入明星之声。这一音频版本预计本周起在美国及全球其他英语市场率先上线,为用户提供前所未有的语音交互体验。
    的头像 发表于 09-24 15:18 445次阅读

    NVIDIA NeMo加速并简化自定义模型开发

    如果企业希望充分发挥出 AI 的力量,就需要根据其行业需求量身定制的自定义模型。
    的头像 发表于 07-26 11:17 743次阅读
    <b class='flag-5'>NVIDIA</b> NeMo加速并简化<b class='flag-5'>自定义</b>模型开发

    NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI 模型

    Foundry 提供从数据策管、合成数据生成、微调、检索、防护到评估的全方位生成式 AI 模型服务,以便部署自定义 Llama 3.1 NVIDIA NIM 微服务和新的 NVIDIA
    发表于 07-24 09:39 706次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Foundry 为全球<b class='flag-5'>企业</b>打造<b class='flag-5'>自定义</b> Llama 3.1 生成式 <b class='flag-5'>AI</b> 模型

    AI聊天机器人Grok向欧洲X平台Premium会员开放

    社交平台X的首席执行官琳达·亚卡里诺宣布,全新研发的Grok人工智能聊天机器人正式向欧洲的X Premium会员提供服务。Grok是X平台精心打造的一款AI聊天机器人,旨在提升欧洲会员
    的头像 发表于 05-17 09:38 411次阅读

    使用Ryzen ™ AI处理器构建聊天机器人

    人工智能处理器和软件将个人计算的强大功能带到人工智能PC上,将工作、协作和创新的效率提升到一个全新的水平。   生成式AI应用程序(如AI聊天机器人
    的头像 发表于 05-11 14:22 8177次阅读
    使用Ryzen ™ <b class='flag-5'>AI</b>处理器<b class='flag-5'>构建</b><b class='flag-5'>聊天机器人</b>

    揭秘聊天机器人的“大脑”-大语言模型

    如果说 AI 正处于改变历史的“iPhone 时刻”,那么聊天机器人就是其首批热门应用之一。
    的头像 发表于 04-17 10:01 727次阅读
    揭秘<b class='flag-5'>聊天机器人</b>的“大脑”-大语言模型

    Mistral AI发布旗舰大模型Mistral Large及聊天机器人Le Chat

    近日,欧洲人工智能领域的领军企业Mistral AI发布了其旗舰大模型Mistral Large,并同步推出了首个聊天机器人产品Le Chat。这一重要进展标志着Mistral
    的头像 发表于 03-04 14:04 862次阅读

    英伟达引领AI新潮流,推出“Chat with RTX”聊天机器人

    随着人工智能技术的突飞猛进,英伟达(NVIDIA)再次展现了其技术领导地位,为Windows PC用户带来了一款革命性的本地聊天机器人应用程序——“Chat with RTX”。这一创新应用的推出,不仅标志着人工
    的头像 发表于 02-19 11:11 986次阅读

    英伟达推出全新AI聊天机器人

    近日,英伟达(Nvidia)宣布推出其全新的AI聊天机器人——“Chat With RTX”。这款聊天机器人被视为英伟达版的ChatGPT,为用户提供了一个全新的、本地化的
    的头像 发表于 02-19 11:09 914次阅读

    谷歌AI聊天机器人改名为Gemini

    谷歌(Google)近日宣布,旗下备受瞩目的AI聊天机器人Bard正式更名为Gemini,并推出了一款功能更加强大的付费版本——Gemini Advanced。这一战略调整旨在与微软、OpenAI等科技巨头在AI
    的头像 发表于 02-18 11:28 1093次阅读

    英伟达向聊天机器人初创公司Kore.ai注资1.5亿美元

    据报道,英伟达向聊天机器人制造商Kore.ai注资1.5亿美元。这一投资是英伟达在人工智能领域的最新布局,显示出其对人工智能技术的坚定信心和长远规划。Kore.
    的头像 发表于 01-31 11:20 785次阅读

    如何用AI聊天机器人写出万字长文

    如何用AI聊天机器人写出万字长文
    的头像 发表于 12-26 16:25 1055次阅读