0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA文本嵌入模型NV-Embed的精度基准

NVIDIA英伟达 来源:NVIDIA英伟达 2024-08-23 16:54 次阅读

NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分数创下了嵌入准确率的新纪录海量文本嵌入基准测试(MTEB)涵盖 56 项嵌入任务。

NV-Embed 等高度准确有效的模型是将大量数据转化为可操作见解的关键。NVIDIA 通过 NVIDIA API 目录提供性能一流的模型。

由 LLM 提供支持的“与您的数据对话”流程严重依赖 embedding model,例如 NV-Embed,它通过将英语单词转换为文本中信息的压缩数学表示形式来创建非结构化文本的语义表示。这种表示通常存储在 vector database 中,以便日后使用。

当用户提出问题时,系统会对问题的数学表征和所有基础数据块进行比较,以检索最有用的信息来回答用户的问题。

请注意,此特定模型只能用于非商业用途。

分解基准

在讨论模型的准确率数字之前,讨论基准测试很重要。本节简要介绍有关理解基准测试的详细信息。我们的深入探讨评估适用于企业级 RAG 的 Retriever 是获取更多信息的绝佳资源。

了解嵌入模型的指标

从我们将讨论的基准测试指标开始,主要有两个注意事项:

Normalized Discounted Cumulative Gain(NDCG)是一个排名感知指标,用于衡量检索到的信息的相关性和顺序。简言之,如果我们有 1,000 个 chunks 并检索 10 (NDCG@10),那么当最相关的 chunk 排名第一、第二相关的 chunk 排名第二,以此类推,直到第十个最相关的 chunk 位于第 10 位时,才会给出理想的分数。

Recall是一个与排名无关的指标,用于测量检索到的相关结果的百分比。在这种情况下,如果我们有 1,000 个数据块并检索 10 个数据块(Recall@10),则如果选择了前 10 个最相关的数据块,则无论这些数据块的排名顺序如何,都将获得完美分数。

大多数基准测试都报告 NDCG@10,但由于大多数企业级检索增强生成(RAG)流程,我们建议使用 Recall@5。

什么是 MTEB 和 Beir?

检索流程的核心功能是将问题的语义表示与各种数据点进行比较。这自然会引导开发者提出几个后续问题:

相同的表示是否可以用于不同的任务?

如果我们缩小一项任务的范围,该模型是否擅长表示不同类型的问题或理解不同领域?

为了回答这些问题,我们研究了有关检索的文献中最常见的两个基准测试。

MTEB:此基准测试涵盖 56 项不同的任务,包括检索、分类、重新排名、聚类、总结等。根据您的目标,您可以查看代表您用例的精确任务子集。

BEIR:该基准测试专注于检索任务,并以不同类型和领域的问题(例如 fact-checking、biomedical questions 或检测重复性问题)的形式增加了复杂性。MTEB 在很大程度上是 BEIR 基准测试的超集,因此我们在大多数讨论中将专注于 MTEB。

NV-Embed 模型精度基准

现在我们已经讨论了基础基准测试和指标,我们来看看新模型 NV-Embed 的执行情况。

wKgZombITkiAawvbAADbHOD8Z6Y785.png

图 1. MTEB 基准测试中排名前 5 的模型

平均而言,NV-Embed 模型在 56 个任务中的跟踪准确度最佳,NDCG@10 分为 69.32(参见图 1)。

虽然 NV-Embed 涵盖了大多数模型架构和训练细节,准确率达到 69.32,以下总结了主要改进。

新的 latent attention layer。我们引入了 latent attention layer,该层能够简化模型将一系列词(tokens sequence)的数学表示(embeddings)的过程。通常情况下,对于基于 BERT 的模型,这是通过求平均值来完成的,对于仅解码器的模型,则是通过关注 End-of-Sequence-Token()来完成的。

两阶段学习过程。在第一阶段,使用 in-batch 负例对和 hard 负例对进行 contrastive 学习。简而言之,使用证据对和问题对。证据似乎回答了这些对中的问题,但如果您仔细观察,您会发现缺少基本信息。在第二阶段,来自非检索任务的数据混合在一起以进行 contrastive 学习,并且禁用 in-batch 负例训练。

现在自然而然的问题是,“这对我的企业检索工作负载的转换效果有多好。”

答案是,它取决于数据的性质和领域。对于每个基准测试,您必须评估单个数据集的相关性一般检索用例。

我们的关键要点是,虽然 19 个数据集构成了 BEIR 基准测试,但数据集 Quora 其中包含超出常规检索任务的问题。因此,我们建议查看更能代表工作负载的数据集子集,例如 Natural Questions 和 HotPotQA 数据集。有关上下文,请参阅以下代码段。

Quora 示例数据集的数据对专注于检索 Quora 上提出的其他类似问题。

Input:Which question should I ask on Quora?
Target:What are good questions to ask on Quora?

HotpotQA 示例问题通道对

Input-Question:Were Scott Derrickson and Ed Wood of the same nationality?

Target-Chunk:Scott Derrickson (born July 16, 1966) is an American director, screenwriter and producer. He lives in Los Angeles, California. He is best known for directing horror films such as “Sinister”, “The Exorcism of Emily Rose”, and “Deliver Us From Evil”, as well as the 2016 Marvel Cinematic Universe installment, “Doctor Strange.”

NQ 示例常规问题通道对

Input-Question: What is non-controlling interest on the balance sheet?


Target-Chunk:In accounting, minority interest (or non-controlling interest) is the portion of a subsidiary corporation’s stock that is not owned by the parent corporation. The magnitude of the minority interest in the subsidiary company is generally less than 50% of outstanding shares, or the corporation would generally cease to be a subsidiary of the parent.[1]

wKgZombITlmAJH_MAABzKAkWlTs997.png

图 2. HotPotQA 和 NQ 上来自 MTEB 的前三个嵌入模型,它们很好地代表了通用检索用例

在图 2 中,NV-Embed 模型最适合用于表示这些用例的数据集。我们鼓励您对自己的数据重复此评估。如果您没有要测试的干净数据,我们建议找到表示您用例的子集。

立即开始原型设计

通过 API 目录体验 NV-Embed 模型。

此外,使用 NVIDIA NeMo Retriever 微服务集合,该集合旨在使组织能够将自定义模型无缝连接到各种业务数据,并提供高度准确的响应。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4792

    浏览量

    102414
  • API
    API
    +关注

    关注

    2

    文章

    1460

    浏览量

    61473
  • 模型
    +关注

    关注

    1

    文章

    3028

    浏览量

    48331

原文标题:NVIDIA 文本嵌入模型位列 MTEB 排行榜榜首

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    是否有来自NVIDIA基准测试

    是否会有来自NVIDIA基准测试,以检查我是否完全正确实现了这些卡,以及我的调整是否正确?以上来自于谷歌翻译以下为原文Will there be Benchmarks from NVIDIA
    发表于 09-29 14:28

    NVIDIA 在首个AI推理基准测试中大放异彩

    Turing GPU、Xavier芯片系统在MLPerf基准测试中展现了巨大优势 加利福尼亚州圣克拉拉市 —— 2019年11月6日 ——相信很多关注AI的人都知道,NVIDIA GPU曾于去年12
    发表于 11-08 19:44

    NVIDIA Jetson的相关资料分享

    Jetson概述爆炸式增长的AI模型的复杂性专为自主机器开发人员设计的AI计算板加快AI处理的SDK“JetPack”概述NVIDIA Jetson是NVIDIA公司嵌入式单板计算机的
    发表于 11-09 08:26

    在Ubuntu上使用Nvidia GPU训练模型

    问题最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU的风扇和电源报错:解决方案自动风扇控制在nvid
    发表于 01-03 08:24

    基于微博文本的词对主题演化模型

    针对传统主题模型忽略了微博短文本文本动态演化的问题,提出了基于微博文本的词对主题演化( BToT)模型,并根据所提
    发表于 12-03 11:31 14次下载
    基于微博<b class='flag-5'>文本</b>的词对主题演化<b class='flag-5'>模型</b>

    如何使用TensorFlow Hub文本模块构建一个模型,以根据相关描述预测电影类型

    您所选择的预训练文本嵌入是您模型中的一个超参数,所以最好用不同的文本嵌入进行试验,看看哪个的准确性最高。先从用与您的
    的头像 发表于 09-07 17:13 3124次阅读
    如何使用TensorFlow Hub<b class='flag-5'>文本</b>模块构建一个<b class='flag-5'>模型</b>,以根据相关描述预测电影类型

    基于词嵌入与神经网络的文本匹配模型

    为增强文本匹配模型文本语义捕捉能力并提高语义匹配准确度,提出一种基于词嵌人与依存关系的文本匹配模型。构建融合词语义和词间依存关系的语义表示
    发表于 06-09 16:28 14次下载

    基于LSTM的表示学习-文本分类模型

    分类的关键。为了获得妤的文本表示,提高文本分类性能,构建了基于LSTM的表示学习-文本分类模型,其中表示学习模型利用语言
    发表于 06-15 16:17 18次下载

    文本挖掘之概率主题模型综述

    文本挖掘之概率主题模型综述
    发表于 06-24 14:16 16次下载

    我们该如何选择高精度基准电压源

    (电压)。测量电压需要一个衡量标准,该标准就是基准电压。那么如何选择高精度基准电压源?以下就为大家解答。 精度和稳定性。高精度
    发表于 12-28 11:37 1168次阅读

    NVIDIA Jetson Orin Nano的性能基准

    在本次 GTC 大会上,NVIDIA 发布了Jetson Orin Nano系列的系统级模组(SoM)。其 AI 性能是 NVIDIA Jetson Nano 的 80 倍,成为入门级边缘 AI 和机器人技术的新基准
    的头像 发表于 10-12 09:55 2503次阅读

    GTC 2023主题直播:NVIDIA Nemo构建定制的语言文本文本

    NVIDIA Nemo用于构建定制的语言文本文本,客户可以引入自己的模型,或从Nemo涵盖了GPT-8、GPT-43到GPT-530等数十亿参数的从创建专有
    的头像 发表于 03-22 11:22 677次阅读
    GTC 2023主题直播:<b class='flag-5'>NVIDIA</b> Nemo构建定制的语言<b class='flag-5'>文本</b>转<b class='flag-5'>文本</b>

    GTC23 | 使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程

    ,通过适应和优化,在短时间内达到最先进的精度和生产级吞吐量。 在 NVIDIA GTC23 上,NVIDIA 发布了 NVIDIA TAO 套件 5.0 ,带来了 AI
    的头像 发表于 03-29 03:40 926次阅读

    NVIDIA AI 技术助力 vivo 文本预训练大模型性能提升

    vivo AI 团队与 NVIDIA 团队合作,通过算子优化,提升 vivo 文本预训练大模型的训练速度。在实际应用中, 训练提速 60% ,满足了下游业务应用对模型训练速度的要求。通
    的头像 发表于 05-26 07:15 546次阅读
    <b class='flag-5'>NVIDIA</b> AI 技术助力 vivo <b class='flag-5'>文本</b>预训练大<b class='flag-5'>模型</b>性能提升

    基于文本到图像模型的可控文本到视频生成

    1. 论文信息 2. 引言   大规模扩散模型文本到图像合成方面取得了巨大的突破,并在创意应用方面取得了成功。一些工作试图在视频领域复制这个成功,即在野外世界建模高维复杂视频分布。然而,训练这样
    的头像 发表于 06-14 10:39 806次阅读
    基于<b class='flag-5'>文本</b>到图像<b class='flag-5'>模型</b>的可控<b class='flag-5'>文本</b>到视频生成