0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

押注向量数据库,为时过早?

科技云报到 来源:jf_60444065 作者:jf_60444065 2023-10-07 14:15 次阅读

科技云报道原创

在大模型的高调火热之下,向量数据库也获得了前所未有的关注。

近两个月内,向量数据库迎来融资潮,Qdrant、Chroma、Weaviate先后获得融资,Pinecone宣布1亿美元B轮融资,估值达到7.5亿美元。

东北证券预测,到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超600亿人民币。

但是在这蒸蒸日上的发展态势下,向量数据库依然面临着不可忽视的挑战。

有声音认为,不必专门开发一款纯粹的向量数据库,而是可以在现有数据库的基础上添加一些层,赋予其向量检索的能力。更有业内人士认为,现在入局向量数据库可能并非合适的时机。

那么,向量数据库是否算得上AI时代的标配?其热度能维持到几时,此时押注后续又要挤出多少泡沫?

向量数据库 大模型的“海马体”

与传统数据库不同,向量数据库不依赖于结构化格式,而是将数据作为数学向量存储在高维空间中并对其进行索引

这种方法被称为“向量化”,可以更有效地搜索相似性并更好地处理复杂的数据类型(图像、音视频、自然语言)。

某种程度上,向量数据库代表了数据存储和检索的范式转变。随着大模型的兴起,向量数据库的优势得以充分发挥,甚至有人将其视为AIGC成功的基石。

一种通俗的比方是,行业内将大模型称为“大脑”,向量数据库则是其“海马体”。

目前的大模型都是预训练模型,对于训练截止日之后发生的事情一无所知,第一是没有实时的数据,第二是缺乏私域数据或者企业数据。

向量数据库可以通过存储最新信息或者企业数据有效弥补了这些不足,让大模型突破在时间和空间上的限制,加速大模型落地行业场景。

同时,通过向量数据的本地存储,还能够协助解决目前企业界最担忧的大模型泄露隐私的问题。

不过值得一提的是,向量技术并不新鲜,早在ChatGPT横空出世之前,向量数据库非常小众。前文提到的两家初创公司Pinecone和Weaviate都成立于2019年,但此前无论是融资还是营收都是乏善可陈的状态。

Pinecone联合创始人兼首席执行官Edo Liberty曾坦率地提到,如果没有ChatGPT的出现,我们根本不可能获得巨额融资。

软件服务初创公司Heltar的创始人Avyukt Aggarwal也谈到,AIGC的爆火成就了向量数据库。

“每次淘金热都会有人卖铲子。对于生成式AI,铲子是什么?向量数据库。几乎每一个LLM支持的应用程序都在使用它们或即将使用它们。”

向量数据库 有必要走向专业化吗?

向量数据库系统的诞生,来源于具体业务需求——想要高效处理海量的向量数据,就需要更细分、更专业的数据基础设施,为向量构建专门的数据库处理系统。

但这种路径是必须的吗?

产品层面讲,如果传统数据库厂商不单独研发向量数据库,那么基本上会主张支持原生的向量词嵌入和向量搜索引擎。

向量数据库市场的阵营,在ChatGPT影响之前就已经在形成分化,既包括提供开源组件的Milvus、Vald、Weaviate、Qdrant、Vaspa、Vearch、AquilaDB、Marqo,到商业化服务产品Pinecone,再到大厂谷歌推出的Vertex AI匹配引擎,数据库厂商Elastic和Redis基于自身提供的向量检索功能等等。

这其实也表明了当前向量数据库市场存在的两种路线:

一个是基于分析数据库的向量化执行引擎,英文是Vectorization,这是学术界2013年提出的名词,如Clickhouse、Spark引擎,是一种新型的执行方式,用于处理传统的结构化数据如表单等,更多的是结构化数据分析数据里面做并行执行的一种方式,在新型的处理芯片上进行处理。

另一个则是推出向量数据库(Vector Database),本质上处理的是AI领域的一类新型数据类型,例如对多模数据的处理,相比其他的向量检索技术在检索速度和精准性上都有了一个很高的提升。

后者的做法也基本在几家主流云厂商如亚马逊云、阿里云上能够看到,而这些云平台应用市场也会提供给这些第三方向量数据库企业进行托管。

例如,阿里云开发的内存数据库Tair,在兼容Redis生态的同时,也具备向量检索能力,实现缓存+向量二合一,已经投入在电商等场景。

有业内人士认为,对于简单的用户和场景来说,在传统数据库上添加一个向量分层来满足技术发展需求,这种方法是可行的。

然而,考虑到 AI 场景和产业需求,情况可能有所不同。AI领域的迭代非常快,随着数据量和应用场景的增加,传统数据库可能不再适用于高要求的计算密集型场景,向量数据库可能才是最终的解决方案。

押注向量数据库 挑战颇多

作为今年以来的热门技术赛道,向量数据库已吸引了大量厂商和创业团队入场,先发者与后来者,老牌厂商与新生力量之间的竞争正在持续升温。

但值得注意的是,向量数据库真的值得厂商全力投入吗?

在《为什么你不应该投资向量数据库?》一文中,吴英骏表示,现在入局向量数据库可能并非合适的时机。其理由主要集中于以下几点:

其一,先发优势明显。目前向量化技术目前已十分成熟,并存在大量开源解决方案,在不同的领域也存在不同的向量化方案,潜在用户可以很容易地在现有市场中找到合适的选择。

其二,需求层次不同。如果一家公司已经采用了Elastic,Redis,SingleStore或Rockset等商业数据库,并且不需要高度先进的向量搜索功能,则可以充分利用这些数据库的现有功能。

尽管在向量数据处理方面的表现不如专业的向量数据库,但依然可以满足多数用户的一般要求。

其三,技术在不断前进。随着数据库领域技术的进步,越来越多的数据库会考虑纳入向量搜索功能,以满足当前用户群的需求。对于目前缺乏向量搜索功能的数据库,实现这些功能或许只是时间问题。

也有声音认为,相较于大模型的高调火热,向量数据库仍然靠近底层,并没有达到真正意义上的全民皆知,向量数据库更多时候是需要集成到其他平台或云上被销售。

而从需求端看,过去向量检索还主要聚焦于机器学习和数据挖掘领域,通过高效的数据存储和查询工具,使得相似性搜索和聚类分析成为可能。

推荐系统中,向量数据库助力个性化推荐,根据用户兴趣和商品相似性,呈现给用户最贴切的推荐结果。

简言之,“与其投资新的向量数据库项目,不如集中精力于现有数据库,并探索利用向量引擎增强这些数据库的机会,使其更加健壮和强大”。

结语

无论如何,在技术的快速迭代下,数据库市场的持续扩张是不可避免的。当前存在着大量的需求,将吸引越来越多的数据库甚至向量数据库加入竞争。

不过从长远来看,向量数据库的市场需求尚处于初期,中远期规模尚难以预估。在若干轮优胜劣汰之后,我们或许才能看清谁是真正的执棋者。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能区块链等领域。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29647

    浏览量

    267989
  • 数据库
    +关注

    关注

    7

    文章

    3750

    浏览量

    64217
收藏 人收藏

    评论

    相关推荐

    数据库数据恢复—通过拼接数据库碎片恢复SQLserver数据库

    一个运行在存储上的SQLServer数据库,有1000多个文件,大小几十TB。数据库每10天生成一个NDF文件,每个NDF几百GB大小。数据库包含两个LDF文件。 存储损坏,数据库
    的头像 发表于 10-31 13:21 72次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—通过拼接<b class='flag-5'>数据库</b>碎片恢复SQLserver<b class='flag-5'>数据库</b>

    科技云报到:大模型时代下,向量数据库的野望

    科技云报到:大模型时代下,向量数据库的野望
    的头像 发表于 10-14 17:18 182次阅读

    数据库数据恢复—SQL Server数据库出现823错误的数据恢复案例

    SQL Server数据库故障: SQL Server附加数据库出现错误823,附加数据库失败。数据库没有备份,无法通过备份恢复数据库
    的头像 发表于 09-20 11:46 250次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—SQL Server<b class='flag-5'>数据库</b>出现823错误的<b class='flag-5'>数据</b>恢复案例

    大模型卷价格,向量数据库“卷”什么?

    被大模型“带飞”这一年,向量数据库才刚刚写下序言
    的头像 发表于 05-23 09:24 1728次阅读
    大模型卷价格,<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>“卷”什么?

    搭载英伟达GPU,全球领先的向量数据库公司Zilliz发布Milvus2.4向量数据库

    在美国硅谷圣何塞召开的 NVIDIA GTC 大会上,全球领先的向量数据库公司 Zilliz 发布了 Milvus 2.4 版本。这是一款革命性的向量数据库系统,在业界首屈一指,它首次
    的头像 发表于 04-01 14:33 427次阅读
    搭载英伟达GPU,全球领先的<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>公司Zilliz发布Milvus2.4<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>

    数据库数据恢复】Oracle数据库ASM实例无法挂载的数据恢复案例

    oracle数据库ASM磁盘组掉线,ASM实例不能挂载。数据库管理员尝试修复数据库,但是没有成功。
    的头像 发表于 02-01 17:39 445次阅读
    【<b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复】Oracle<b class='flag-5'>数据库</b>ASM实例无法挂载的<b class='flag-5'>数据</b>恢复案例

    腾讯云把向量数据库“卷”到哪一步了?

    被大模型“带飞”这一年,向量数据库才刚刚写下序言
    的头像 发表于 01-15 09:49 1538次阅读
    腾讯云把<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>“卷”到哪一步了?

    诚邀报名 | AI 向量、云原生、开源,今年的数据库热点技术都在这里

    训练和推理的精准度对数据和信息的存储、检索、处理提出了更高的要求。为此,存算分离、向量数据库、图数据库、分布式数据库和开源
    的头像 发表于 12-20 20:48 317次阅读
    诚邀报名 | AI <b class='flag-5'>向量</b>、云原生、开源,今年的<b class='flag-5'>数据库</b>热点技术都在这里

    诚邀报名 | AI 向量、云原生、开源,今年的数据库热点技术都在这里

    和推理的精准度对数据和信息的存储、检索、处理提出了更高的要求。为此,存算分离、向量数据库、图数据库、分布式数据库和开源
    的头像 发表于 12-13 16:05 305次阅读

    关于JSON数据库

    如何理解JSON数据库?作为NoSQL数据库的一种类型,JSON数据库有哪些优势呢?JSON数据库如何运作,它为应用程序开发者带来了哪些价值呢?
    的头像 发表于 12-06 13:46 815次阅读
    关于JSON<b class='flag-5'>数据库</b>

    什么是JSON数据库

    如何理解JSON数据库?作为NoSQL数据库的一种类型,JSON数据库有哪些优势呢?JSON数据库如何运作,它为应用程序开发者带来了哪些价值呢?文章速览:什么是JSON什么是JSON
    的头像 发表于 12-02 08:04 798次阅读
    什么是JSON<b class='flag-5'>数据库</b>

    NoSQL 数据库如何选型

    什么是NoSQL数据库?为什么要使用NoSQL数据库?键值数据库内存键值数据库文档数据库列式数据库
    的头像 发表于 11-26 08:05 419次阅读
    NoSQL <b class='flag-5'>数据库</b>如何选型

    数据库数据恢复—SQLserver数据库被加密如何恢复数据

    一台服务器上的SQLserver数据库被勒索病毒加密,无法正常使用。该服务器上部署有多个SQLserver数据库,其中有2个数据库及备份文件被加密,文件名被篡改,数据库无法使用。
    的头像 发表于 11-23 14:42 863次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—SQLserver<b class='flag-5'>数据库</b>被加密如何恢复<b class='flag-5'>数据</b>?

    一文解析向量数据库的大模型之路

    数据在 MaaS 时代很重要,市场的火热映射到具体的企业行为上,表现为大批量垂直模型的推出、数据库企业融资数量增加、数据库使用量陡然增长等。
    发表于 11-17 11:37 474次阅读
    一文解析<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>的大模型之路

    数据库数据恢复——MongoDB数据库介绍和数据恢复案例

    MongoDB数据库是文档数据存储,将文档存储在集合之中,不是像MySQL一样的关系型数据库
    的头像 发表于 11-08 15:04 827次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复——MongoDB<b class='flag-5'>数据库</b>介绍和<b class='flag-5'>数据</b>恢复案例