检索增强生成（RAG）如何助力企业为各种企业用例创建高质量的内容？-电子发烧友网

在生成式 AI 时代，机器不仅要从数据中学习，还要生成类似人类一样的文本、图像、视频等。检索增强生成（RAG）则是可以实现的一种突破性方法。

RAG 工作流程基于大语言模型（LLM）而构建，这些 LLM 可以理解查询并生成响应。但是，LLM 存在局限性，包括训练的复杂性和缺乏当前（有时是专有）信息。此外，当未根据特定数据进行训练就回答提示词时，它们往往会产生幻觉并合成事实错误的信息。RAG 通过向 LLM 提供企业特定信息来增强查询，从而帮助克服这些限制。

数据中心作为新的计算单元，随着网络服务对 CPU 压力的增加，现代工作负载对网络基础设施提出了新的挑战。网络基础设施需要具备敏捷性、自动化和可编程性的框架，并配备加速器和卸载功能，这些是充分发挥 AI 技术潜力和推动创新的关键。

在本文中，我们讨论了 RAG 如何助力企业为各种企业用例创建高质量、相关且引人入胜的内容。我们深入探讨了通过扩展 RAG 来处理大量数据和用户所面临的技术挑战，以及如何使用由 NVIDIA GPU 计算、加速以太网网络、网络存储和 AI 软件提供支持的可扩展架构来应对这些挑战。

RAG 使企业能够充分利用数据

典型的 RAG 工作流程使用向量数据库，向量数据库是一类专为执行相似性搜索而定制的数据管理系统，用于存储和检索与查询相关的企业特定信息。

通过将 RAG 集成到其信息系统中，企业可以利用大量内部和外部数据来生成具有洞察力的全新上下文相关内容。这种融合是一次重大飞跃，使企业能够利用其数据和领域专业知识，为个性化客户互动开辟新途径，简化内容的创建，并提高知识用例的效率。

然而，在企业规模部署 RAG 也面临着一系列挑战，包括管理数百个数据集和数千名用户的复杂性。这就需要一种分布式架构，其能够满足有效应对此类大规模操作的处理和存储需求。

要扩展此架构，您必须嵌入、向量化和索引数百万个文档、图像、音频文件和视频，同时还适应每天新创建内容的嵌入。

另一个挑战是确保交互式多模态应用程序的低延迟响应。由于需要集成数据企业应用程序以及结构化和非结构化数据存储，因此需要实时处理和响应，而在大规模实现方面可能具有挑战。

生成式 AI 的数据索引和存储也构成了挑战。

虽然传统企业应用程序可以压缩数据并将其存储来进行高效检索，从而支持索引和语义搜索，但是基于 RAG 的数据库可以扩展到比原始文本文档及其相关元数据大 10 倍以上。这将导致在数据增长和存储方面的重大挑战。

为了获得最佳结果，企业必须投资加速计算、网络和存储基础设施，这对于处理训练和部署 RAG 模型所需的大量数据至关重要。

如何实现可扩展且高效的 RAG 推理

在 GTC 2024 上，NVIDIA 推出了一系列生成式 AI 微服务，为开发者提供用于创建和部署自定义 AI 应用程序的企业级构建块。

企业可以使用这些微服务作为创建 RAG 驱动的应用程序的基础。通过将其与 NVIDIA RAG 工作流程示例相结合，您可以加快生成式 AI 应用程序的构建和产品化过程。

在本文中，我们使用多节点 GPU 计算推理、加速以太网网络和网络连接存储对这些 RAG 工作流程示例进行基准测试。我们的测试结果表明，高性能网络和网络连接存储可实现高效且可扩展的生成式 AI 推理，使企业能够开发由 RAG 驱动的应用程序，在促进连续数据处理的同时，还可扩展到数千个用户。

图 1 显示了包含两个阶段和数据流水线的 RAG 工作流程。

图 1.RAG 工作流程

在第一阶段，数据提取将文档和其他数据模式转换为数字嵌入，然后在向量数据库中对其进行索引。此过程支持基于相似度分数来有效检索相关文档。

查询阶段从用户输入问题时开始，该问题也会被转换为嵌入并用于在向量数据库中搜索相关内容。检索相关内容后，会将其传递给 LLM 进行进一步处理。原始输入问题以及增强上下文会提供给 LLM，LLM 会针对用户的查询生成更精确的答案。

此工作流程可以有效地检索和生成信息，使其成为适用于各种企业应用程序的强大工具。

加速以太网网络、网络连接存储在数据提取方面表现出色

我们最初测试了基于单个 GPU 节点的数据提取流水线。图 2 显示了使用一台具有 8 个 A100 GPU 的 DGX 系统和一个专为对象存储工作负载而设计的网络连接全闪存存储平台来进行测试设置。

图 2.具有网络连接存储的单节点 NeMo Retriever 微服务

DGX 系统通过 NVIDIA ConnectX-7 网卡连接到网络，并使用了加速的 NVMe-over-Fabrics（NVMe – oF）和 Amazon S3 对象存储协议及两台 NVIDIA Spectrum SN3700 交换机。

使用 NeMo Retriever 微服务，我们比较了 PDF 文档（包括文本和图像）的嵌入和索引性能。此次比较涉及 DGX 系统中的直接附加存储（DAS）和网络连接存储。

图 3 显示了单节点上的数据提取基准测试的结果。结果表明，与使用 DAS 相比，使用 Amazon S3 的网络连接存储将数据提取速度提高了 36%，将处理时间缩短了 122 秒。这表明网络连接存储是数据提取的更好选择，同时还依赖于网络速度和延迟。

加速以太网网络对于提供稳健、高性能和安全的连接至关重要。除了增强文档嵌入外，网络连接存储还提供各种企业级数据管理功能。

图 3.单节点数据提取基准测试 (100 万个向量)

然后，我们使用多节点 RAG 设置进行测试，该设置使用通过 NVIDIA BlueField-3 DPU 连接的分布式微服务架构（图 4）。随着多个节点并行运行以上传嵌入、计算索引并插入向量数据库，性能也随之提升。

图 4.具有网络连接存储的多节点 NeMo Retriever 微服务

我们比较了每台服务器中使用直接附加 SSD 与网络连接存储的性能。对于服务器内的 SSD，MinIO 充当对象存储层。对于网络连接存储，我们绕过 MinIO，测试了存储系统自己的原生 Amazon S3 对象接口。

结果表明，多节点比使用单节点提供更快的性能，将处理时间缩短了近 102 秒。这些结果证明了多节点 GPU 加速与企业级网络连接存储相结合的性能优势。

图 5.多节点数据提取基准测试 (100 万个向量)

适用于 RAG 驱动型应用程序的网络连接存储的优势

网络连接存储可以通过网络访问块、文件和对象，而无需直接将存储介质连接到服务器。

网络连接存储不仅为基于 RAG 的应用程序提供了明显的性能优势，而且还提供了额外的企业优势，使其成为增强自然语言处理的最佳数据平台。

适用于 RAG 工作流程的网络连接存储具有以下优势：

实时流数据提取：网络连接存储支持从各种来源（例如社交媒体、Web、传感器或物联网设备）提取实时流数据。RAG 应用程序可以使用这些数据生成相关的全新内容。DAS 可能无法处理大量且快速的流数据，或者可能需要额外的处理或缓冲来存储数据。

可扩展性：在不影响性能或数据可用性的情况下，可以更容易地通过添加更多磁盘或设备来扩展网络连接存储的容量。相比之下，DAS 的可扩展性有限，可能需要停机或重新配置才能进行存储升级。

元数据标注：网络连接存储支持使用元数据（例如标签、类别、关键字或摘要）对数据进行标注。元数据可以被 RAG 应用程序使用来根据查询或上下文进行检索和排名数据源。DAS 可能不支持数据标注，或需要单独的数据库或索引来存储元数据。

利用率：网络连接存储使多个用户和应用程序能够同时访问相同的数据，从而优化存储资源的利用率，而不会产生重复或冲突。相比之下，DAS 可能会导致存储未充分使用或过度使用的问题，具体取决于特定服务器内的需求和数据分配。

可靠性：网络连接存储通过使用先进的独立磁盘冗余阵列（RAID）功能或其他方法来保护数据免受磁盘故障、网络故障或断电的影响，提高了可靠性和数据可用性。相比之下，DAS 在磁盘或服务器发生故障时，可能会丢失数据或损坏，因为 DAS 并不具备数据保护功能。

删除重复数据：网络存储通过消除文件或设备之间的重复或冗余数据来减少存储空间和网络带宽。DAS 可能会存储相同数据的多个副本，从而浪费存储空间和网络资源。

数据出处的来源引用：网络连接存储可以提供数据的来源引用，例如 URL、作者、日期或许可证。RAG 应用程序可以使用此信息来归因和验证数据源，并确保所生成内容的质量和可信度。DAS 可能不提供数据来源引用，或者可能需要手动或外部方法来跟踪数据来源。

备份：网络连接存储通过使用快照、复制或其他方法在不同位置或设备上创建数据副本来促进数据备份和恢复。DAS 可能需要手动或复杂的备份过程，这可能很耗时或容易出错。

数据保护和保留：网络连接存储通过使用加密、压缩或其他技术来保护数据免遭未经授权的访问或修改，从而确保数据保护和保留。它还使用策略、规则或法规来管理数据生命周期，例如数据的创建、删除或存档。相比之下，DAS 可能不提供数据保护和保留功能，或者可能需要额外的软件或硬件来实现数据安全和治理。

结束语

检索增强型生成通过利用生成式 AI 的强大功能以及企业特定的上下文和信息来增强数据和利用，为企业提供了巨大的潜力。

然而，大规模部署 RAG 会带来诸多挑战，例如管理大型数据集、确保交互式应用程序的低延迟以及满足生成式 AI 的存储需求。

为了克服这些挑战，企业必须扩展其基于 RAG 的生成式 AI 基础设施。为了高效运行，此基础架构必须在整个数据中心堆栈中进行适当的调整和架构设计：加速计算、快速网络、网络连接存储和企业 AI 软件。

生成式 AI 是一个快速增长的新领域。随着 RAG 的不断扩展以支持视频等新模式，数据处理需求持续快速增长。NVIDIA 生成式 AI 微服务与多节点 NVIDIA GPU 计算推理、加速以太网网络和网络连接存储相结合，展示了企业规模 RAG 推理的效率。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

以太网

以太网

+关注

关注
40

文章
5479

浏览量
173114
网络存储

网络存储

+关注

关注
1

文章
61

浏览量
25350
GPU芯片

GPU芯片

+关注

关注
1

文章
303

浏览量
5947
LLM

LLM

+关注

关注
1

文章
307

浏览量
478
生成式AI

生成式AI

+关注

关注
0

文章
521

浏览量
589

原文标题：借助加速以太网网络和网络存储扩展企业 RAG

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

【「基于大模型的RAG应用开发与优化」阅读体验】RAG基本概念

的RAG应用架构具备清晰的分层设计。知识库构建层，着重于将各类非结构化数据进行有效处理，转化为计算机能够理解的形式，通过向量化编码技术为数据赋予数字特征，并建立动态索引以便快速查询更新。检索增

发表于 02-08 00:22

【「基于大模型的RAG应用开发与优化」阅读体验】+第一章初体验

3降低幻觉风险：通过引入权威数据源（如学术论文、企业文档），RAG为生成过程提供“事实锚点”，减少模型虚构内容的可能性。 4轻量化部署：开发者无需频繁微调大模型，仅需优化

发表于 02-07 10:42

【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

今天学习大模型RAG 检索增强生成技术Embedding，即嵌入，是一种将离散数据（如文字、图像、音频等）转换为连续的密集向量表示的技术。这些向量能够反映原始数据之间的关系，使得计算机能够更好地处

发表于 01-17 19:53

借助谷歌Gemini和Imagen模型生成高质量图像

在快速发展的生成式 AI 领域，结合不同模型的优势可以带来显著的成果。通过利用谷歌的 Gemini 模型来制作详细且富有创意的提示，然后使用 Imagen 3 模型根据这些提示生成高质量的图像，您可

发表于 01-03 10:38 •480次阅读

检索增强型生成(RAG)系统详解

流畅且类似人类的文本方面表现出色，但它们有时在事实准确性上存在困难。当准确性非常重要时，这可能是一个巨大的问题。那么，这个问题的解决方案是什么呢？答案是检索增强型生成（RAG）系统。

发表于 12-24 10:44 •469次阅读

借助浪潮信息元脑企智EPAI高效创建大模型RAG

能力，提高生成质量和可靠性。但企业构建知识检索系统并非易事，通常面临开发门槛高、生成内容差等难题

发表于 12-19 14:32 •341次阅读

RAG的概念及工作原理

检索增强型生成（RAG）系统正在重塑我们处理AI驱动信息的方式。作为架构师，我们需要理解这些系统的基本原理，从而有效地发挥它们的潜力。什么是RAG

发表于 12-17 13:41 •724次阅读

Cloudera推出RAG Studio，助力企业快速部署聊天机器人

近日，数据、分析和AI混合平台厂商Cloudera宣布了一项创新举措——推出RAG(Retrieval-Augmented Generation，检索增强生成)Studio。这一平台的问世，标志着

发表于 12-12 11:06 •446次阅读

名单公布！【书籍评测活动NO.52】基于大模型的RAG应用开发与优化

（Retrieval-Augmented Agenerated，检索增强生成）与Agent（AI智能体）。本篇小枣君首先尝试用通俗易懂的语言帮助大家认识RAG这一重要应用形式。 01 了解大模型的“幻觉” 在了解为什么出现

发表于 12-04 10:50

浪潮信息发布“源”Yuan-EB助力RAG检索精度新高

智EPAI为构建企业知识库提供更高效、精准的知识向量化能力支撑，助力用户使用领先的RAG技术加速企业知识资产的价值释放。

发表于 11-26 13:54 •297次阅读

英特尔软硬件构建模块如何帮助优化RAG应用

深入研究检索增强生成 (Retrieval Augmented Generation, RAG)，该创新方法定义了企业和机构如何利用大语言模型(LLM)来发挥其数据的价值。本文将探索若

发表于 07-24 15:12 •565次阅读

英特尔以生成式AI RAG解决方案，为巴黎奥运健儿提供便捷体验

的生成式AI（GenAI）检索增强生成（RAG）解决方案。该成果深度展示了英特尔如何通过基于英特尔至强处理器和英特尔 Gaudi AI加速器的开放式AI系统及平台，帮助开发者和

发表于 07-19 19:43 •1803次阅读

英特尔携手Aible打造创新解决方案，助力企业实现低成本智能化升级

）生成式AI和增强型分析方案提供商Aible合作，为企业客户提供了创新的解决方案，助力其在不同代际的英特尔®至强® CPU上运行

发表于 07-03 19:17 •448次阅读

什么是RAG，RAG学习和实践经验

高级的RAG能很大程度优化原始RAG的问题，在索引、检索和生成上都有更多精细的优化，主要的优化点会集中在索引、向量模型优化、检索后处理等模块

发表于 04-24 09:17 •1258次阅读

环宇智行成功入选“2023年度中国车谷经济高质量发展企业”名单

近日，武汉市经开区公布“2023年度中国车谷经济高质量发展企业”名单，武汉环宇智行科技有限公司凭借自主研发优势与自动驾驶技术创新优势，成功入选“2023年度中国车谷经济高质量发展企业—

发表于 03-21 16:00 •547次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

检索增强生成（RAG）如何助力企业为各种企业用例创建高质量的内容？

评论

【「基于大模型的RAG应用开发与优化」阅读体验】RAG基本概念

【「基于大模型的RAG应用开发与优化」阅读体验】+第一章初体验

【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

借助谷歌Gemini和Imagen模型生成高质量图像

检索增强型生成(RAG)系统详解

借助浪潮信息元脑企智EPAI高效创建大模型RAG

RAG的概念及工作原理

Cloudera推出RAG Studio，助力企业快速部署聊天机器人

名单公布！【书籍评测活动NO.52】基于大模型的RAG应用开发与优化

浪潮信息发布“源”Yuan-EB助力RAG检索精度新高

英特尔软硬件构建模块如何帮助优化RAG应用

英特尔以生成式AI RAG解决方案，为巴黎奥运健儿提供便捷体验

英特尔携手Aible打造创新解决方案，助力企业实现低成本智能化升级

什么是RAG，RAG学习和实践经验

环宇智行成功入选“2023年度中国车谷经济高质量发展企业”名单