0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

检索增强生成(RAG)如何助力企业为各种企业用例创建高质量的内容?

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-03-29 15:09 次阅读

在生成式 AI 时代,机器不仅要从数据中学习,还要生成类似人类一样的文本、图像、视频等。检索增强生成(RAG)则是可以实现的一种突破性方法。

RAG 工作流程基于大语言模型(LLM)而构建,这些 LLM 可以理解查询并生成响应。但是,LLM 存在局限性,包括训练的复杂性和缺乏当前(有时是专有)信息。此外,当未根据特定数据进行训练就回答提示词时,它们往往会产生幻觉并合成事实错误的信息。RAG 通过向 LLM 提供企业特定信息来增强查询,从而帮助克服这些限制。

数据中心作为新的计算单元,随着网络服务对 CPU 压力的增加,现代工作负载对网络基础设施提出了新的挑战。网络基础设施需要具备敏捷性、自动化和可编程性的框架,并配备加速器和卸载功能,这些是充分发挥 AI 技术潜力和推动创新的关键。

在本文中,我们讨论了 RAG 如何助力企业为各种企业用例创建高质量、相关且引人入胜的内容。我们深入探讨了通过扩展 RAG 来处理大量数据和用户所面临的技术挑战,以及如何使用由 NVIDIA GPU 计算、加速以太网网络、网络存储和 AI 软件提供支持的可扩展架构来应对这些挑战。

RAG 使企业能够充分利用数据

典型的 RAG 工作流程使用向量数据库,向量数据库是一类专为执行相似性搜索而定制的数据管理系统,用于存储和检索与查询相关的企业特定信息。

通过将 RAG 集成到其信息系统中,企业可以利用大量内部和外部数据来生成具有洞察力的全新上下文相关内容。这种融合是一次重大飞跃,使企业能够利用其数据和领域专业知识,为个性化客户互动开辟新途径,简化内容的创建,并提高知识用例的效率。

然而,在企业规模部署 RAG 也面临着一系列挑战,包括管理数百个数据集和数千名用户的复杂性。这就需要一种分布式架构,其能够满足有效应对此类大规模操作的处理和存储需求。

要扩展此架构,您必须嵌入、向量化和索引数百万个文档、图像、音频文件和视频,同时还适应每天新创建内容的嵌入。

另一个挑战是确保交互式多模态应用程序的低延迟响应。由于需要集成数据企业应用程序以及结构化和非结构化数据存储,因此需要实时处理和响应,而在大规模实现方面可能具有挑战。

生成式 AI 的数据索引和存储也构成了挑战。

虽然传统企业应用程序可以压缩数据并将其存储来进行高效检索,从而支持索引和语义搜索,但是基于 RAG 的数据库可以扩展到比原始文本文档及其相关元数据大 10 倍以上。这将导致在数据增长和存储方面的重大挑战。

为了获得最佳结果,企业必须投资加速计算、网络和存储基础设施,这对于处理训练和部署 RAG 模型所需的大量数据至关重要。

如何实现可扩展且高效的 RAG 推理

在 GTC 2024 上,NVIDIA 推出了一系列生成式 AI 微服务,为开发者提供用于创建和部署自定义 AI 应用程序的企业级构建块。

企业可以使用这些微服务作为创建 RAG 驱动的应用程序的基础。通过将其与 NVIDIA RAG 工作流程示例相结合,您可以加快生成式 AI 应用程序的构建和产品化过程。

在本文中,我们使用多节点 GPU 计算推理、加速以太网网络和网络连接存储对这些 RAG 工作流程示例进行基准测试。我们的测试结果表明,高性能网络和网络连接存储可实现高效且可扩展的生成式 AI 推理,使企业能够开发由 RAG 驱动的应用程序,在促进连续数据处理的同时,还可扩展到数千个用户。

图 1 显示了包含两个阶段和数据流水线的 RAG 工作流程。

0f0e64c2-eced-11ee-a297-92fbcf53809c.png

图 1.RAG 工作流程

在第一阶段,数据提取将文档和其他数据模式转换为数字嵌入,然后在向量数据库中对其进行索引。此过程支持基于相似度分数来有效检索相关文档。

查询阶段从用户输入问题时开始,该问题也会被转换为嵌入并用于在向量数据库中搜索相关内容。检索相关内容后,会将其传递给 LLM 进行进一步处理。原始输入问题以及增强上下文会提供给 LLM,LLM 会针对用户的查询生成更精确的答案。

此工作流程可以有效地检索和生成信息,使其成为适用于各种企业应用程序的强大工具。

加速以太网网络、网络连接存储在数据提取方面表现出色

我们最初测试了基于单个 GPU 节点的数据提取流水线。图 2 显示了使用一台具有 8 个 A100 GPU 的 DGX 系统和一个专为对象存储工作负载而设计的网络连接全闪存存储平台来进行测试设置。

0f3148ac-eced-11ee-a297-92fbcf53809c.png

图 2.具有网络连接存储的单节点 NeMo Retriever 微服务

DGX 系统通过 NVIDIA ConnectX-7 网卡连接到网络,并使用了加速的 NVMe-over-Fabrics(NVMe – oF)和 Amazon S3 对象存储协议及两台 NVIDIA Spectrum SN3700 交换机

使用 NeMo Retriever 微服务,我们比较了 PDF 文档(包括文本和图像)的嵌入和索引性能。此次比较涉及 DGX 系统中的直接附加存储(DAS)和网络连接存储。

图 3 显示了单节点上的数据提取基准测试的结果。结果表明,与使用 DAS 相比,使用 Amazon S3 的网络连接存储将数据提取速度提高了 36%,将处理时间缩短了 122 秒。这表明网络连接存储是数据提取的更好选择,同时还依赖于网络速度和延迟。

加速以太网网络对于提供稳健、高性能和安全的连接至关重要。除了增强文档嵌入外,网络连接存储还提供各种企业级数据管理功能。

0f4f2426-eced-11ee-a297-92fbcf53809c.jpg

图 3.单节点数据提取基准测试 (100 万个向量)

然后,我们使用多节点 RAG 设置进行测试,该设置使用通过 NVIDIA BlueField-3 DPU 连接的分布式微服务架构(图 4)。随着多个节点并行运行以上传嵌入、计算索引并插入向量数据库,性能也随之提升。

0f5d2f1c-eced-11ee-a297-92fbcf53809c.png

图 4.具有网络连接存储的多节点 NeMo Retriever 微服务

我们比较了每台服务器中使用直接附加 SSD 与网络连接存储的性能。对于服务器内的 SSD,MinIO 充当对象存储层。对于网络连接存储,我们绕过 MinIO,测试了存储系统自己的原生 Amazon S3 对象接口

结果表明,多节点比使用单节点提供更快的性能,将处理时间缩短了近 102 秒。这些结果证明了多节点 GPU 加速与企业级网络连接存储相结合的性能优势。

0f9fd7cc-eced-11ee-a297-92fbcf53809c.jpg

图 5.多节点数据提取基准测试 (100 万个向量)

适用于 RAG 驱动型应用程序的网络连接存储的优势

网络连接存储可以通过网络访问块、文件和对象,而无需直接将存储介质连接到服务器。

网络连接存储不仅为基于 RAG 的应用程序提供了明显的性能优势,而且还提供了额外的企业优势,使其成为增强自然语言处理的最佳数据平台。

适用于 RAG 工作流程的网络连接存储具有以下优势:

实时流数据提取:网络连接存储支持从各种来源(例如社交媒体、Web、传感器物联网设备)提取实时流数据。RAG 应用程序可以使用这些数据生成相关的全新内容。DAS 可能无法处理大量且快速的流数据,或者可能需要额外的处理或缓冲来存储数据。

可扩展性:在不影响性能或数据可用性的情况下,可以更容易地通过添加更多磁盘或设备来扩展网络连接存储的容量。相比之下,DAS 的可扩展性有限,可能需要停机或重新配置才能进行存储升级。

元数据标注:网络连接存储支持使用元数据(例如标签、类别、关键字或摘要)对数据进行标注。元数据可以被 RAG 应用程序使用来根据查询或上下文进行检索和排名数据源。DAS 可能不支持数据标注,或需要单独的数据库或索引来存储元数据。

利用率:网络连接存储使多个用户和应用程序能够同时访问相同的数据,从而优化存储资源的利用率,而不会产生重复或冲突。相比之下,DAS 可能会导致存储未充分使用或过度使用的问题,具体取决于特定服务器内的需求和数据分配。

可靠性:网络连接存储通过使用先进的独立磁盘冗余阵列(RAID)功能或其他方法来保护数据免受磁盘故障、网络故障或断电的影响,提高了可靠性和数据可用性。相比之下,DAS 在磁盘或服务器发生故障时,可能会丢失数据或损坏,因为 DAS 并不具备数据保护功能。

删除重复数据:网络存储通过消除文件或设备之间的重复或冗余数据来减少存储空间和网络带宽。DAS 可能会存储相同数据的多个副本,从而浪费存储空间和网络资源。

数据出处的来源引用:网络连接存储可以提供数据的来源引用,例如 URL、作者、日期或许可证。RAG 应用程序可以使用此信息来归因和验证数据源,并确保所生成内容的质量和可信度。DAS 可能不提供数据来源引用,或者可能需要手动或外部方法来跟踪数据来源。

备份:网络连接存储通过使用快照、复制或其他方法在不同位置或设备上创建数据副本来促进数据备份和恢复。DAS 可能需要手动或复杂的备份过程,这可能很耗时或容易出错。

数据保护和保留:网络连接存储通过使用加密、压缩或其他技术来保护数据免遭未经授权的访问或修改,从而确保数据保护和保留。它还使用策略、规则或法规来管理数据生命周期,例如数据的创建、删除或存档。相比之下,DAS 可能不提供数据保护和保留功能,或者可能需要额外的软件或硬件来实现数据安全和治理。

结束语

检索增强型生成通过利用生成式 AI 的强大功能以及企业特定的上下文和信息来增强数据和利用,为企业提供了巨大的潜力。

然而,大规模部署 RAG 会带来诸多挑战,例如管理大型数据集、确保交互式应用程序的低延迟以及满足生成式 AI 的存储需求。

为了克服这些挑战,企业必须扩展其基于 RAG 的生成式 AI 基础设施。为了高效运行,此基础架构必须在整个数据中心堆栈中进行适当的调整和架构设计:加速计算、快速网络、网络连接存储和企业 AI 软件。

生成式 AI 是一个快速增长的新领域。随着 RAG 的不断扩展以支持视频等新模式,数据处理需求持续快速增长。NVIDIA 生成式 AI 微服务与多节点 NVIDIA GPU 计算推理、加速以太网网络和网络连接存储相结合,展示了企业规模 RAG 推理的效率。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    40

    文章

    5374

    浏览量

    171097
  • 网络存储
    +关注

    关注

    1

    文章

    61

    浏览量

    25257
  • GPU芯片
    +关注

    关注

    1

    文章

    303

    浏览量

    5781
  • LLM
    LLM
    +关注

    关注

    0

    文章

    272

    浏览量

    306
  • 生成式AI
    +关注

    关注

    0

    文章

    487

    浏览量

    459

原文标题:借助加速以太网网络和网络存储扩展企业 RAG

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英特尔软硬件构建模块如何帮助优化RAG应用

    深入研究检索增强生成 (Retrieval Augmented Generation, RAG),该创新方法定义了企业和机构如何利用大语言模型(LLM)来发挥其数据的价值。本文将探索若
    的头像 发表于 07-24 15:12 384次阅读
    英特尔软硬件构建模块如何帮助优化<b class='flag-5'>RAG</b>应用

    英特尔以生成式AI RAG解决方案,巴黎奥运健儿提供便捷体验

    生成式AI(GenAI)检索增强生成RAG)解决方案。该成果深度展示了英特尔如何通过基于英特尔至强处理器和英特尔 Gaudi AI加速器的开放式AI系统及平台,帮助开发者和
    的头像 发表于 07-19 19:43 1694次阅读
    英特尔以<b class='flag-5'>生成</b>式AI <b class='flag-5'>RAG</b>解决方案,<b class='flag-5'>为</b>巴黎奥运健儿提供便捷体验

    TaD+RAG-缓解大模型“幻觉”的组合新疗法

    TaD:任务感知解码技术(Task-aware Decoding,简称TaD),京东联合清华大学针对大语言模型幻觉问题提出的一项技术,成果收录于IJCAI2024。 RAG检索增强生成技术
    的头像 发表于 07-16 15:01 1957次阅读
    TaD+<b class='flag-5'>RAG</b>-缓解大模型“幻觉”的组合新疗法

    英特尔携手Aible打造创新解决方案,助力企业实现低成本智能化升级

    生成式AI和增强型分析方案提供商Aible合作,企业客户提供了创新的解决方案,助力其在不同代际的英特尔®至强® CPU上运行
    的头像 发表于 07-03 19:17 348次阅读
    英特尔携手Aible打造创新解决方案,<b class='flag-5'>助力</b><b class='flag-5'>企业</b>实现低成本智能化升级

    什么是RAGRAG学习和实践经验

    高级的RAG能很大程度优化原始RAG的问题,在索引、检索生成上都有更多精细的优化,主要的优化点会集中在索引、向量模型优化、检索后处理等模块
    的头像 发表于 04-24 09:17 768次阅读
    什么是<b class='flag-5'>RAG</b>,<b class='flag-5'>RAG</b>学习和实践经验

    中创新航荣获“2023年度江苏高质量发展标杆企业”称号

    3月30日,第二届苏商精英大会在南京举办。会上,中创新航荣获“2023年度江苏高质量发展标杆企业”称号,是动力及储能电池行业唯一获此殊荣的企业;刘静瑜董事长获评“2023年度江苏十大经济新闻人物”。
    的头像 发表于 04-03 09:45 504次阅读
    中创新航荣获“2023年度江苏<b class='flag-5'>高质量</b>发展标杆<b class='flag-5'>企业</b>”称号

    环宇智行成功入选“2023年度中国车谷经济高质量发展企业”名单

    近日,武汉市经开区公布“2023年度中国车谷经济高质量发展企业”名单,武汉环宇智行科技有限公司凭借自主研发优势与自动驾驶技术创新优势,成功入选“2023年度中国车谷经济高质量发展企业
    的头像 发表于 03-21 16:00 447次阅读
    环宇智行成功入选“2023年度中国车谷经济<b class='flag-5'>高质量</b>发展<b class='flag-5'>企业</b>”名单

    高华科技荣获“高质量发展突出贡献企业”“科技创新引领示范企业”称号

    2月24日,南京经开区召开新型工业化暨产业强区推进大会,会上宣读 了 2023年度经开区高质量发展突出贡献企业及科技创新引领示范企业的表扬决定,
    的头像 发表于 02-26 16:07 391次阅读
    高华科技荣获“<b class='flag-5'>高质量</b>发展突出贡献<b class='flag-5'>企业</b>”“科技创新引领示范<b class='flag-5'>企业</b>”称号

    稳中创新•产业升级•高质量发展 | 联诚发高质量发展工作推进会议召开

    2月21日下午,联诚发LCF以“稳中创新•产业升级•高质量发展”为主题的企业高质量发展工作推进大会在联诚发深圳总部隆重召开。擂起奋进催征的战鼓,争分夺秒抢抓宝贵春光,明确企业重点目标任
    的头像 发表于 02-22 11:33 442次阅读
    稳中创新•产业升级•<b class='flag-5'>高质量</b>发展 | 联诚发<b class='flag-5'>高质量</b>发展工作推进会议召开

    阿里云推出企业级大模型RAG系统

    在国际AI大数据峰会上,阿里云重磅推出了企业级大模型检索增强生成RAG)解决方案。这一解决方案旨在为企业提供更强大、更智能的大模型应用工具
    的头像 发表于 02-05 09:54 1116次阅读

    如何在不微调的情况下提高RAG的准确性?

    数据科学家、AI 工程师、MLOps 工程师和 IT 基础设施专业人员在设计和部署检索增强生成RAG)工作流时,必须考虑各项因素,比如大语言模型(LLM) 核心组件以及评估方法等等。
    的头像 发表于 01-05 10:26 960次阅读
    如何在不微调的情况下提高<b class='flag-5'>RAG</b>的准确性?

    高级检索增强生成技术(RAG)全面指南

    ChatGPT、Midjourney等生成式人工智能(GenAI)在文本生成、文本到图像生成等任务中表现出令人印象深刻的性能。
    的头像 发表于 12-25 15:16 4700次阅读
    高级<b class='flag-5'>检索</b><b class='flag-5'>增强生成</b>技术(<b class='flag-5'>RAG</b>)全面指南

    NVIDIA 通过企业生成式 AI 微服务聊天机器人、AI 助手和摘要工具带来商业智能

    AI 模型的框架和工具系列)的一项全新服务,通过企业检索增强生成RAG)功能,帮助组织加强其生成式 AI 应用。 作为一项语义
    的头像 发表于 11-29 21:05 592次阅读

    卓越领航!广和通获评“2023高质量发展领军企业

    广和通要闻 11月28日,以“协同新发展、引领新示范”为主题的第四届高质量发展高峰论坛暨2023高质量发展领军企业、领军人物颁奖盛典顺利举办。大会揭晓了“2023高质量发展领军
    的头像 发表于 11-29 18:00 487次阅读
    卓越领航!广和通获评“2023<b class='flag-5'>高质量</b>发展领军<b class='flag-5'>企业</b>”

    NVIDIA 通过企业生成式 AI 微服务 聊天机器人、AI 助手和摘要工具带来商业智能

    。   NVIDIA NeMo™ Retriever 是 NVIDIA NeMo(一个用于构建、自定义和部署生成式 AI 模型的框架和工具系列)的一项全新服务,通过企业检索增强生成
    发表于 11-29 14:37 267次阅读
    NVIDIA 通过<b class='flag-5'>企业</b>级<b class='flag-5'>生成</b>式 AI 微服务 <b class='flag-5'>为</b>聊天机器人、AI 助手和摘要工具带来商业智能