向量数据库：AI时代的下一个热点-电子发烧友网

科技云报道原创。

最近，又一个概念火了——向量数据库。

随着大模型带来的应用需求提升，4月以来多家海外知名向量数据库创业企业传出融资喜讯。

4月28日，向量数据库平台Pinecone宣布获得1亿美元（约7亿元）B轮融资；

4月22日，向量数据库平台Weaviate宣布获得5000万美元（约3.5亿元）B轮融资；

4月6日Chroma获1800万美元种子轮融资；

4月19日Qdrant获750万美元种子轮融资。

国内方面，星环科技、北交所云创数据等公司的股价连续异动，其中云创数据自底部以来股价已接近翻倍。

7月4日，腾讯云正式发布向量数据库Tencent Cloud VectorDB，预计8月上线腾讯云官网。

一连串的市场动作，都展示了向量数据库的爆红。那么，什么是向量数据库，到底有啥用？

什么是向量数据库？

当你在网上看到一张壁纸，你想知道这是哪个国家的美景，却不知道如何搜索；或者，在阅读一篇文章时，你想深入了解这个话题，寻找更多的观点和资料，却不知道该如何精确描述。

这时，你需要的是一个能够理解你的意图，为你提供最相关的结果，让你轻松找到你想要的信息的工具。

这就是向量数据库（Vector Data Base），它就像一个超级大脑，帮助你解决这些问题。

所谓向量数据库，是一种专门用于存储、管理、查询、检索向量的数据库，可以把复杂的非结构化数据通过向量化，处理统一成多维空间里的坐标值。

目前，向量数据库主要应用于人工智能、机器学习、数据挖掘等领域。

具体来看，向量数据库被广泛地用于大模型训练、推理和知识库补充等场景：

●支撑训练阶段海量数据的分类、去重和清洗，给大模型的训练降本增效；

●通过新数据的带入，帮助大模型提升处理新问题的能力，突破预训练带来的知识时间限制，避免大模型出现幻觉；

●提供一种私有数据连接大模型的方式，解决私有数据注入大模型带来的安全和隐私问题，加速大模型在产业落地。

简而言之，向量数据库可以解决大模型预训练成本高、没有“长期记忆”、知识更新不足、提示词工程复杂等问题，突破大模型在时间和空间上的限制，加速大模型落地行业场景。

向量数据库的发展

在向量数据库出现之前，大家普遍使用的是关系型数据库，如MySQL、Or acle等，这些数据库以表格的形式存储数据，适合存储结构化数据。但对于非结构化数据，如文本、图像、音频等，处理起来就相对困难。

此外，关系型数据库在处理大规模数据时，性能会下降，不适合大数据处理。这就像是在一个拥挤的图书馆里找一本书，你知道它在哪个书架上，但是找到它还需要花费大量的时间。

而向量数据库和传统数据库的不同点在于，向量数据库处理的是各种AI应用产生的非结构化数据，通过近似查进行模糊匹配，输出的是概率上的提供相对最符合条件的答案，而非精确的标准答案。

举例来说，传统数据库做图片检索可能是通过关键词去搜索，向量数据库是通过语义搜索图片中相同或相近的向量并呈现结果。理论是向量之间的距离越接近，就说明语意越接近，效果也有最相似。

随着时间的推移，向量数据库开始在不同的领域和应用中不断成长和进化。从20世纪90年代末到2000年初，美国国立卫生研究院和斯坦福大学都开始使用向量数据库。

2005年到2015年间，随着基因研究的深入和加速，向量数据库也在并行中增长，像UniVec 数据库这样的工具在2017年就已经被广泛使用，它们在基因序列比对、基因组注释等领域发挥了重要作用。

2017年和2019年之间，向量数据库开始爆炸式增长，它被应用于自然语言处理、计算机视觉、推荐系统等领域。这些领域都需要处理大量和多样化的数据，并从中提取有价值的信息。

向量数据库通过使用诸如余弦相似度、欧氏距离、Jaccard 相似度等度量方法，以及诸如倒排索引、局部敏感哈希、乘积量化等索引技术，实现了高效和准确的向量检索。

目前各大厂商使用的推荐系统、以图搜图、哼唱搜歌、问答机器人等应用，其内核都是向量数据库。

在今年，向量数据库开始被用于与大语言模型结合的应用。

它为大语言模型提供了一个外部知识库，使得大语言模型可以根据用户的查询，在向量数据库中检索相关的数据，并根据数据的内容和语义来更新上下文，从而生成更相关和准确的文本。

这些大语言模型通常使用深度神经网络来学习文本数据中隐含的规律和结构，并能够生成流畅和连贯的文本。

向量数据库过使用诸如BERT、GPT等预训练模型将文本转换为向量，并使用诸如FAISS、Milvus等开源平台来构建和管理向量数据库。

总体而言，向量数据库成功地解决了很多挑战，并为人们带来了很多价值。

针对传统关系型数据库难以处理的大规模数据、低时延高并发检索、模糊匹配等领域，向量数据库通过数据的向量化来满足特定需求，尤其适用于人工智能领域。

让行业大模型具备know how能力

随着AI大模型的崛起，向量数据库的爆红也就不难理解。

一是，在现实世界里，非结构化数据是“主流”。根据Gartner的数据，非结构化数据占企业生成的新数据比例高达90％，并且增长速度比结构化数据快三倍。

而生成式AI大模型进一步带来了非结构化数据的暴增，也相应推动了对向量数据库的需求。

向量数据库的一大优势在于，能够通过机器学习方法处理和理解来自不同源的多种模态信息，如文本、图像、音频和视频等。

二是，越来越多的大模型从业者认为，所有的行业都值得被AI重新做一遍。

因此，建立在不同行业的垂直大模型，成为大家的切入点，而向量数据库是行业大模型具备“行业knowhow”能力的必经之路。

这背后是，AI大模型的产生，需要经历大量反复的训练和调试。虽然通用AI大模型能回答一般性问题，但在垂直领域服务中，其知识深度、准确度和时效性有限。

而利用向量数据库结合大模型和自有知识资产，可以构建垂直领域的AI能力。向量数据库存储和处理向量数据，提供高效的相似度搜索和检索功能。

正如东北证券观点，AI化的本质则是向量化，向量化计算成本高昂，海量的高维向量势必需要专门的数据库进行存储和处理，向量数据库应运而生。

向量数据库在拓展AI全新应用场景的同时，也将对传统数据库产品形成替代，进而成为AI时代的Killer App。

目前，向量数据库是一个亟待引爆的蓝海市场。

据公开资料显示，向量数据库市场空间巨大，尚处于从0-1阶段，预测到2030年，全球向量数据库市场规模有望达到500亿美元，国内向量数据库市场规模有望超过600亿人民币。

未来随着生成式AI大模型开发量和使用量的增长，向量数据库的应用有望快速增长。

而国内外众多玩家如传统数据库厂商、初创数据库厂商、云厂商、跨界厂商等都已跃跃欲试，提前开始布局向量数据库，做好了应对AI大模型时代的准备。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年，是前沿企业级IT领域Top10媒体。获工信部权威认可，可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31493

浏览量
270153
数据库

数据库

+关注

关注
7

文章
3845

浏览量
64638
人工智能

人工智能

+关注

关注
1796

文章
47643

浏览量
240019

英伟达发布Nemotron-CC大型AI训练数据库

，Nemotron-CC数据库总计包含了惊人的6.3万亿个Token，其中1.9万亿为精心合成的数据。这一庞大的数据量不仅为

发表于 01-14 14:14 •142次阅读

MySQL数据库的安装

MySQL是一个开源免费的关系型数据库管理系统，由瑞典MySQL AB 公司开发，目前属于 Oracle 旗下公司。 MySQL 最流行的关系型数据库管理系统，在 WEB 应用方面M

发表于 01-14 11:25 •122次阅读

云数据库是哪种数据库类型？

云数据库是一种部署在虚拟计算环境中的数据库，它融合了云计算的弹性和可扩展性，为用户提供高效、灵活的数据库服务。云数据库主要分为两大类：关系型

发表于 01-07 10:22 •130次阅读

数据库数据恢复—Mysql数据库表记录丢失的数据恢复流程

Mysql数据库故障： Mysql数据库表记录丢失。 Mysql数据库故障表现： 1、Mysql数据库表中无任何数据或只有部分

发表于 12-16 11:05 •216次阅读

<b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—Mysql<b class='flag-5'>数据库</b>表记录丢失的<b class='flag-5'>数据</b>恢复流程

AI时代的数据库技术发展论坛亮点前瞻

可以看到，数据库技术作为数字经济的基石，在全球范围内正经历着由传统架构向云原生、智能化的转型。而AI技术的融入，使得数据库系统在性能优化、自动化管理、智能决策等方面展现出前所未有的潜力。

发表于 12-12 11:31 •303次阅读

数据库数据恢复—MYSQL数据库ibdata1文件损坏的数据恢复案例

mysql数据库故障： mysql数据库文件ibdata1、MYI、MYD损坏。故障表现：1、数据库无法进行查询等操作；2、使用mysqlcheck和myisamchk无法修复数据库

发表于 12-09 11:05 •215次阅读

数据库数据恢复—通过拼接数据库碎片恢复SQLserver数据库

一个运行在存储上的SQLServer数据库，有1000多个文件，大小几十TB。数据库每10天生成一个

发表于 10-31 13:21 •315次阅读

科技云报到：大模型时代下，向量数据库的野望

科技云报到：大模型时代下，向量数据库的野望

发表于 10-14 17:18 •283次阅读

数据库数据恢复—SQL Server数据库出现823错误的数据恢复案例

SQL Server数据库故障： SQL Server附加数据库出现错误823，附加数据库失败。数据库没有备份，无法通过备份恢复数据库。

发表于 09-20 11:46 •401次阅读

数据库数据恢复—SQL Server数据库所在分区空间不足报错的数据恢复案例

Server数据库故障：存放SQL Server数据库的D盘分区容量不足，管理员在E盘中生成了一个.ndf的文件并且将数据库路径指向E

发表于 07-10 13:54 •568次阅读

数字化时代的数据管理：多样化数据库选型指南

挑战。数据库作为数据管理的核心技术，其选型对于系统至关重要。传统的关系型数据库（RDBMS）以其严格的ACID事务、优秀的一致性和安全性在企业应用中占据了长久的统治地位。然而，随着互联

发表于 07-08 19:10 •337次阅读

大模型卷价格，向量数据库“卷”什么？

被大模型“带飞”这一年，向量数据库才刚刚写下序言

发表于 05-23 09:24 •1830次阅读

数据库数据恢复—raid5阵列上层Sql Server数据库数据恢复案例

数据库数据恢复环境： 5块硬盘组建一组RAID5阵列，划分LUN供windows系统服务器使用。windows系统服务器内运行了Sql Server数据库，存储空间在操作系统层面划分

发表于 05-08 11:43 •570次阅读

搭载英伟达GPU，全球领先的向量数据库公司Zilliz发布Milvus2.4向量数据库

在美国硅谷圣何塞召开的 NVIDIA GTC 大会上，全球领先的向量数据库公司 Zilliz 发布了 Milvus 2.4 版本。这是一款革命性的向量

发表于 04-01 14:33 •520次阅读

与NVIDIA深度参与GTC，向量数据库大厂Zilliz与全球顶尖开发者共迎AI变革时刻

近日，备受关注的 NVIDIA GTC 已拉开序幕。来自世界各地的顶尖 AI 开发者齐聚美国加州圣何塞会议中心，共同探索行业未来，全球领先的向量数据库公司 Zilliz 也不例外。作为去年被

发表于 03-26 11:01 •451次阅读