0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

向量数据库:AI时代的下一个热点

科技云报到 来源:jf_60444065 作者:jf_60444065 2023-08-08 22:45 次阅读

科技云报道原创

最近,又一个概念火了——向量数据库。

随着大模型带来的应用需求提升,4月以来多家海外知名向量数据库创业企业传出融资喜讯。

4月28日,向量数据库平台Pinecone宣布获得1亿美元(约7亿元)B轮融资;

4月22日,向量数据库平台Weaviate宣布获得5000万美元(约3.5亿元)B轮融资;

4月6日Chroma获1800万美元种子轮融资;

4月19日Qdrant获750万美元种子轮融资。

国内方面,星环科技、北交所云创数据等公司的股价连续异动,其中云创数据自底部以来股价已接近翻倍。

7月4日,腾讯云正式发布向量数据库Tencent Cloud VectorDB,预计8月上线腾讯云官网。

一连串的市场动作,都展示了向量数据库的爆红。那么,什么是向量数据库,到底有啥用?

什么是向量数据库?

当你在网上看到一张壁纸,你想知道这是哪个国家的美景,却不知道如何搜索;或者,在阅读一篇文章时,你想深入了解这个话题,寻找更多的观点和资料,却不知道该如何精确描述。

这时,你需要的是一个能够理解你的意图,为你提供最相关的结果,让你轻松找到你想要的信息的工具。

这就是向量数据库(Vector Data Base),它就像一个超级大脑,帮助你解决这些问题。

所谓向量数据库,是一种专门用于存储、 管理、查询、检索向量的数据库,可以把复杂的非结构化数据通过向量化,处理统一成多维空间里的坐标值。

目前,向量数据库主要应用于人工智能机器学习、数据挖掘等领域。

具体来看,向量数据库被广泛地用于大模型训练、推理和知识库补充等场景:

●支撑训练阶段海量数据的分类、去重和清洗,给大模型的训练降本增效;

●通过新数据的带入,帮助大模型提升处理新问题的能力,突破预训练带来的知识时间限制,避免大模型出现幻觉;

●提供一种私有数据连接大模型的方式,解决私有数据注入大模型带来的安全和隐私问题,加速大模型在产业落地。

简而言之,向量数据库可以解决大模型预训练成本高、没有“长期记忆”、知识更新不足、提示词工程复杂等问题,突破大模型在时间和空间上的限制,加速大模型落地行业场景。

向量数据库的发展

在向量数据库出现之前,大家普遍使用的是关系型数据库,如MySQL、Oracle等,这些数据库以表格的形式存储数据,适合存储结构化数据。但对于非结构化数据,如文本、图像、音频等,处理起来就相对困难。

此外,关系型数据库在处理大规模数据时,性能会下降,不适合大数据处理。这就像是在一个拥挤的图书馆里找一本书,你知道它在哪个书架上,但是找到它还需要花费大量的时间。

而向量数据库和传统数据库的不同点在于,向量数据库处理的是各种AI应用产生的非结构化数据,通过近似查进行模糊匹配,输出的是概率上的提供相对最符合条件的答案,而非精确的标准答案。

举例来说,传统数据库做图片检索可能是通过关键词去搜索,向量数据库是通过语义搜索图片中相同或相近的向量并呈现结果。理论是向量之间的距离越接近,就说明语意越接近,效果也有最相似。

随着时间的推移,向量数据库开始在不同的领域和应用中不断成长和进化。从20世纪90年代末到2000年初,美国国立卫生研究院和斯坦福大学都开始使用向量数据库。

2005年到2015年间,随着基因研究的深入和加速,向量数据库也在并行中增长,像UniVec 数据库这样的工具在2017年就已经被广泛使用,它们在基因序列比对、基因组注释等领域发挥了重要作用。

2017年和2019年之间,向量数据库开始爆炸式增长,它被应用于自然语言处理、计算机视觉推荐系统等领域。这些领域都需要处理大量和多样化的数据,并从中提取有价值的信息。

向量数据库通过使用诸如余弦相似度、欧氏距离、Jaccard 相似度等度量方法,以及诸如倒排索引、局部敏感哈希、乘积量化等索引技术,实现了高效和准确的向量检索。

目前各大厂商使用的推荐系统、以图搜图、哼唱搜歌、问答机器人等应用,其内核都是向量数据库。

在今年,向量数据库开始被用于与大语言模型结合的应用。

它为大语言模型提供了一个外部知识库,使得大语言模型可以根据用户的查询,在向量数据库中检索相关的数据,并根据数据的内容和语义来更新上下文,从而生成更相关和准确的文本。

这些大语言模型通常使用深度神经网络来学习文本数据中隐含的规律和结构,并能够生成流畅和连贯的文本。

向量数据库 过使用诸如BERT、GPT等预训练模型将文本转换为向量,并使用诸如FAISS、Milvus等开源平台来构建和管理向量数据库。

总体而言,向量数据库成功地解决了很多挑战,并为人们带来了很多价值。

针对传统关系型数据库难以处理的大规模数据、低时延高并发检索、模糊匹配等领域,向量数据库通过数据的向量化来满足特定需求,尤其适用于人工智能领域。

让行业大模型具备know how能力

随着AI大模型的崛起,向量数据库的爆红也就不难理解。

一是,在现实世界里,非结构化数据是“主流”。根据Gartner的数据,非结构化数据占企业生成的新数据比例高达90%,并且增长速度比结构化数据快三倍。

而生成式AI大模型进一步带来了非结构化数据的暴增,也相应推动了对向量数据库的需求。

向量数据库的一大优势在于,能够通过机器学习方法处理和理解来自不同源的多种模态信息,如文本、图像、音频和视频等。

二是,越来越多的大模型从业者认为,所有的行业都值得被AI重新做一遍。

因此,建立在不同行业的垂直大模型,成为大家的切入点,而向量数据库是行业大模型具备“行业knowhow”能力的必经之路。

这背后是,AI大模型的产生,需要经历大量反复的训练和调试。虽然通用AI大模型能回答一般性问题,但在垂直领域服务中,其知识深度、准确度和时效性有限。

而利用向量数据库结合大模型和自有知识资产,可以构建垂直领域的AI能力。向量数据库存储和处理向量数据,提供高效的相似度搜索和检索功能。

正如东北证券观点,AI化的本质则是向量化,向量化计算成本高昂,海量的高维向量势必需要专门的数据库进行存储和处理,向量数据库应运而生。

向量数据库在拓展AI全新应用场景的同时,也将对传统数据库产品形成替代,进而成为AI时代的Killer App。

目前,向量数据库是一个亟待引爆的蓝海市场。

据公开资料显示,向量数据库市场空间巨大,尚处于从0-1阶段,预测到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超过600亿人民币。

未来随着生成式AI大模型开发量和使用量的增长,向量数据库的应用有望快速增长。

而国内外众多玩家如传统数据库厂商、初创数据库厂商、云厂商、跨界厂商等都已跃跃欲试,提前开始布局向量数据库,做好了应对AI大模型时代的准备。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29740

    浏览量

    268041
  • 数据库
    +关注

    关注

    7

    文章

    3750

    浏览量

    64219
  • 人工智能
    +关注

    关注

    1789

    文章

    46615

    浏览量

    236967
收藏 人收藏

    评论

    相关推荐

    数据库数据恢复—通过拼接数据库碎片恢复SQLserver数据库

    运行在存储上的SQLServer数据库,有1000多个文件,大小几十TB。数据库每10天生成
    的头像 发表于 10-31 13:21 84次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—通过拼接<b class='flag-5'>数据库</b>碎片恢复SQLserver<b class='flag-5'>数据库</b>

    科技云报到:大模型时代下,向量数据库的野望

    科技云报到:大模型时代下,向量数据库的野望
    的头像 发表于 10-14 17:18 184次阅读

    大模型卷价格,向量数据库“卷”什么?

    被大模型“带飞”这年,向量数据库才刚刚写下序言
    的头像 发表于 05-23 09:24 1731次阅读
    大模型卷价格,<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>“卷”什么?

    搭载英伟达GPU,全球领先的向量数据库公司Zilliz发布Milvus2.4向量数据库

    在美国硅谷圣何塞召开的 NVIDIA GTC 大会上,全球领先的向量数据库公司 Zilliz 发布了 Milvus 2.4 版本。这是款革命性的向量
    的头像 发表于 04-01 14:33 429次阅读
    搭载英伟达GPU,全球领先的<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>公司Zilliz发布Milvus2.4<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>

    与NVIDIA深度参与GTC,向量数据库大厂Zilliz与全球顶尖开发者共迎AI变革时刻

    近日,备受关注的 NVIDIA GTC 已拉开序幕。来自世界各地的顶尖 AI 开发者齐聚美国加州圣何塞会议中心,共同探索行业未来,全球领先的向量数据库公司 Zilliz 也不例外。作为去年被
    的头像 发表于 03-26 11:01 380次阅读

    腾讯云把向量数据库“卷”到哪步了?

    被大模型“带飞”这年,向量数据库才刚刚写下序言
    的头像 发表于 01-15 09:49 1539次阅读
    腾讯云把<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>“卷”到哪<b class='flag-5'>一</b>步了?

    mysql怎么新建个数据库

    mysql怎么新建个数据库 如何新建个数据库在MySQL中 创建个数据库是MySQL中的基
    的头像 发表于 12-28 10:01 832次阅读

    诚邀报名 | AI 向量、云原生、开源,今年的数据库热点技术都在这里

    开发者大会(OADC)即将召开,“AI 时代数据库存储管理新挑战”分论坛将聚集国内顶尖的数据库技术团队,为开发者们
    的头像 发表于 12-20 20:48 322次阅读
    诚邀报名 | <b class='flag-5'>AI</b> <b class='flag-5'>向量</b>、云原生、开源,今年的<b class='flag-5'>数据库</b><b class='flag-5'>热点</b>技术都在这里

    诚邀报名 | AI 向量、云原生、开源,今年的数据库热点技术都在这里

    和推理的精准度对数据和信息的存储、检索、处理提出了更高的要求。为此,存算分离、向量数据库、图数据库、分布式数据库和开源
    的头像 发表于 12-13 16:05 306次阅读

    什么是JSON数据库

    如何理解JSON数据库?作为NoSQL数据库种类型,JSON数据库有哪些优势呢?JSON数据库如何运作,它为应用程序开发者带来了哪些价值
    的头像 发表于 12-02 08:04 802次阅读
    什么是JSON<b class='flag-5'>数据库</b>

    晶体管的下一个25年

    晶体管的下一个25年
    的头像 发表于 11-27 17:08 588次阅读
    晶体管的<b class='flag-5'>下一个</b>25年

    NoSQL 数据库如何选型

    什么是NoSQL数据库?为什么要使用NoSQL数据库?键值数据库内存键值数据库文档数据库列式数据库
    的头像 发表于 11-26 08:05 422次阅读
    NoSQL <b class='flag-5'>数据库</b>如何选型

    数据库数据恢复—SQLserver数据库被加密如何恢复数据

    台服务器上的SQLserver数据库被勒索病毒加密,无法正常使用。该服务器上部署有多个SQLserver数据库,其中有2个数据库及备份文件被加密,文件名被篡改,
    的头像 发表于 11-23 14:42 863次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—SQLserver<b class='flag-5'>数据库</b>被加密如何恢复<b class='flag-5'>数据</b>?

    文解析向量数据库的大模型之路

    数据在 MaaS 时代很重要,市场的火热映射到具体的企业行为上,表现为大批量垂直模型的推出、数据库企业融资数量增加、数据库使用量陡然增长等。
    发表于 11-17 11:37 477次阅读
    <b class='flag-5'>一</b>文解析<b class='flag-5'>向量</b><b class='flag-5'>数据库</b>的大模型之路

    mysql是什么类型的数据库

    MySQL是种关系型数据库管理系统(RDBMS),用于存储和管理大量结构化数据。它被广泛用于各种应用程序和网站的后端,包括电子商务平台、社交媒体网站、金融系统等等。MySQL的特点是性能高、可靠性
    的头像 发表于 11-16 14:43 1643次阅读