0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

向量数据库是如何工作的?

jf_ro2CN3Fa 来源:Sully 2023-06-18 11:06 次阅读

向量数据库和 Embedding 是当前 AI 领域的热门话题

Pinecone 是一家向量数据库公司,刚刚以约 10 亿美元的估值筹集了 1 亿美元。

Shopify、Brex、Hubspot 等公司都在他们的 AI 应用程序中使用向量数据库和 Embedding。那么,它们究竟是什么,它们是如何工作的,以及为什么它们在 AI 中如此重要呢?让我们一探究竟。

我们先看第一个问题,什么是 Embedding?你可能在 Twitter 上已经看到这个词被无数次提及。

简单来说,Embedding 就是一个多维向量数组,由系列数字组成 。它们能够代表任何东西,比如文本、音乐、视频等等。我们这里将主要关注文本。

23e30a24-0d82-11ee-962d-dac502259ad0.jpg

创建 Embedding 的过程非常简单。这主要依靠 Embedding 模型(例如:OpenAI 的 Ada)。

你将你的文本发送给模型,模型会为你生成该数据的向量结果,这可以被存储并在之后使用。

Embedding 之所以重要,是因为它们赋予我们进行语义搜索的能力 ,也就是通过相似性进行搜索,比如通过文本的含义。

因此,在这个例子中,我们可以在一个向量空间上表示“男人”、“国王”、“女人”和“王后”,你可以非常容易地看到它们在向量空间之间的关系。

23fbad0e-0d82-11ee-962d-dac502259ad0.jpg

来看一个更直观的例子:

假设你是一个有一大箱玩具的小孩。现在,你想找出一些类似的玩具,比如一个玩具汽车和一个玩具巴士。它们都是交通工具,因此它们是相似的。

这就是所谓的 “语义相似性”—— 表示*某种程度上** 事物具有*相似的含义或想法 。

现在假设你有两个相关联但并不完全相同的玩具,比如一个玩具汽车和一个玩具公路。它们并不完全相同,但因为汽车通常在公路上行驶,所以它们是相互关联的。

那么,Embedding 为何如此重要呢?主要是由于大语言模型(LLM)存在上下文限制 。在一个理想的世界中,我们可以在一个 LLM 提示中放入无限数量的词语。但是,正如许多人所知,目前我们还做不到。以 OpenAI 的 GPT 为例,它限制在大约在 4096 - 32k 个 token。

因此,由于其 “内存”(即我们可以填充到其 token 的词语的数量),我们与 LLM 的交互方式受到了严重限制。这就是为什么你不能将一个 PDF 文件复制粘贴到 ChatGPT 中并要求它进行总结的原因。(当然,现在由于有了 gpt4-32k,你可能可以做到这一点了)

那么,怎么把 Embedding 和 LLM 关联起来解决 token 长度限制的问题呢?实际上,我们可以利用 Embedding,只将相关的文本注入到 LLM 的上下文窗口中。

让我们来看一个具体的例子:

假设你有一个庞大的 PDF 文件,可能是一份国会听证会的记录(呵呵)。你有点懒,不想阅读整个文件,而且由于其页数众多,你无法复制粘贴整个内容。这就是一个 Embedding 的典型使用场景。

所以你将 PDF 的文本内容先分成块,然后借助 Embedding 将文本块变成向量数组,并将其存储在数据库中。

在存储分块的向量数组时,通常还需要把向量数组和文本块之间的关系一起存储,这样后面我们按照向量检索出相似的向量数组后,能找出对应的文本块,一个参考的数据结构类似于这样:

{

[1,2,3,34]:'文本块1',
[2,3,4,56]:'文本块2',
[4,5,8,23]:'文本块3',

……



}

现在你提出一个问题:“他们对 xyz 说了什么”。我们先把问题“他们对 xyz 说了什么?”借助 Embedding 变成向量数组,比如[1,2,3]。

现在我们有两个向量:你的问题 [1,2,3] 和 PDF [1,2,3,34],然后,我们利用相似性搜索,将问题向量与我们庞大的 PDF 向量进行比较。OpenAI 的 Embedding 推荐使用的是余弦相似度。

2416a816-0d82-11ee-962d-dac502259ad0.png

好了,现在我们有最相关的三个 Embedding 及其文本,我们现在可以利用这三个输出,并配合一些提示工程将其输入到 LLM 中。例如:

已知我们有上下文:文本块 1,文本块 2,文本块 3。

现在有用户的问题:他们对 xyz 说了什么?

请根据给定的上下文,如实回答用户的问题。

如果你不能回答,那么如实告诉用户“我无法回答这个问题”。

就这样,LLM 会从你的 PDF 中获取相关的文本部分,然后尝试如实回答你的问题。

这就简单的阐述了 Embedding 和 LLM 如何为任何形式的数据提供相当强大的类似聊天的能力。这也是所有那些“与你的网站/PDF/等等进行对话” 的功能如何工作的!

请注意 Embedding 并非 FINE-TUNING。

来源:twitter-thread.com/t/ZH/ 1655626066331938818




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ChatGPT
    +关注

    关注

    29

    文章

    1558

    浏览量

    7596

原文标题:向量数据库是如何工作的?

文章出处:【微信号:芋道源码,微信公众号:芋道源码】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    腾讯云把向量数据库“卷”到哪一步了?

    被大模型“带飞”这一年,向量数据库才刚刚写下序言
    的头像 发表于 01-15 09:49 1579次阅读
    腾讯云把<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>“卷”到哪一步了?

    大模型卷价格,向量数据库“卷”什么?

    被大模型“带飞”这一年,向量数据库才刚刚写下序言
    的头像 发表于 05-23 09:24 1768次阅读
    大模型卷价格,<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>“卷”什么?

    数据库教程之如何进行数据库设计

    本文档的主要内容详细介绍的是数据库教程之如何进行数据库设计内容包括了:1 数据库设计概述 ,2 数据库需求分析 ,3 数据库结构设计 ,4
    发表于 10-19 10:41 21次下载
    <b class='flag-5'>数据库</b>教程之如何进行<b class='flag-5'>数据库</b>设计

    索引速度提升10倍!爱可生向量数据库基于昇腾AI实现全面升级

    近日,在深圳昇腾创新中心的支持下,爱可生向量数据库(TensorDB)完成了与华为Atlas 800推理服务器和全场景AI框架昇思MindSpore的兼容性测试,实现了爱可生向量检索技术与昇腾AI
    的头像 发表于 03-14 09:28 773次阅读

    爱可生向量数据库基于昇腾AI实现全面升级

        近日,在深圳昇腾创新中心的支持下,爱可生向量数据库(TensorDB)完成了与华为Atlas 800推理服务器和全场景AI框架昇思MindSpore的兼容性测试,实现了爱可生向量检索技术与昇
    的头像 发表于 03-23 10:40 1112次阅读

    北美有的,中国也有了!Zilliz Cloud向量数据库云服务重磅登场

    Milvus自2019年正式开源以来,已经成长为全球最大、最活跃的向量数据库开源项目与开发者社区。作为Milvus背后的开发者与运营者,Zilliz一直走在向量数据库的最前沿,始终秉承
    的头像 发表于 07-12 16:30 1089次阅读
    北美有的,中国也有了!Zilliz Cloud<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>云服务重磅登场

    数据库建立|数据库创建的方法?

    数据库是一个存储关键数据的文件系统。利用数据库管理系统建立每个人的数据库可以更好地提供安全。 数据库建立|
    的头像 发表于 07-14 11:15 1247次阅读

    向量数据库:AI时代的下一个热点

    AI大模型带火了向量数据库
    的头像 发表于 08-08 22:45 441次阅读

    什么是向量数据库?关系数据库向量数据库之间的区别是什么?

    向量数据库是一种以向量嵌入(高维向量)方式存储和管理非结构化数据(如文本、图像或音频)的数据库
    的头像 发表于 08-16 10:13 2416次阅读
    什么是<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>?关系<b class='flag-5'>数据库</b>和<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>之间的区别是什么?

    python读取数据库数据 python查询数据库 python数据库连接

    python读取数据库数据 python查询数据库 python数据库连接 Python是一门高级编程语言,广泛应用于各种领域。其中,Python在
    的头像 发表于 08-28 17:09 1815次阅读

    数据库应用及其特点 数据库数据的基本特点

    和管理的一项重要应用,其优点不仅可以提高工作效率,还可以保证数据的安全性和可靠性。本文将详细介绍数据库应用及其特点,同时探讨数据库数据的基本
    的头像 发表于 08-28 17:22 2791次阅读

    ChatGPT和OpenAI都在用的Redis,是如何从传统数据库升级为向量数据库的?

    精心设计的基于人工智能的应用程序可以极快地筛选极其庞大的数据集,以产生新的见解并最终推动新的收入来源,从而为企业创造真正的价值。但是,如果没有新出现的新事物——向量数据库,任何数据增长
    的头像 发表于 09-01 16:16 848次阅读

    探寻向量数据库爆火的真相,Zilliz 技术合伙人带你解惑

    大模型时代的到来将向量数据库的热度推向了高点,在此氛围下,有人发出了哲学家般的一问:究竟是大模型选择了向量数据库还是向量
    的头像 发表于 09-28 11:40 529次阅读
    探寻<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>爆火的真相,Zilliz 技术合伙人带你解惑

    搭载英伟达GPU,全球领先的向量数据库公司Zilliz发布Milvus2.4向量数据库

    在美国硅谷圣何塞召开的 NVIDIA GTC 大会上,全球领先的向量数据库公司 Zilliz 发布了 Milvus 2.4 版本。这是一款革命性的向量数据库系统,在业界首屈一指,它首次
    的头像 发表于 04-01 14:33 468次阅读
    搭载英伟达GPU,全球领先的<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>公司Zilliz发布Milvus2.4<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>

    科技云报到:大模型时代下,向量数据库的野望

    科技云报到:大模型时代下,向量数据库的野望
    的头像 发表于 10-14 17:18 246次阅读