0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GaussDB(for Cassandra)新特性发布:支持Lucene二级索引,让复杂查询更智能

秃头也爱科技 来源:秃头也爱科技 作者:秃头也爱科技 2022-12-02 09:18 次阅读

今天,华为云GaussDB(for Cassandra)携__Lucene引擎全新解决方案__来啦!

当前,互联网、大数据飞速发展,数据量呈爆发式增长,在高并发、高可用、高扩展性的业务需求推动下,NoSQL数据库成为了越来越多场景的刚需。但在查询方面,传统的NoSQL却有一定的局限性,严格来说,像开源MongoDB、Cassandra、Hbase等都不具备海量数据的多维查询、文本检索、统计分析等能力。多数企业仍然在寻求一套更完美的NoSQL解决方案。

华为云原生多模数据库GaussDB NoSQL拥有强大的生态体系,支持键值、宽表、文档、时序四种引擎接口。其中,宽表引擎接口GaussDB(for Cassandra)现已发布Lucene二级索引功能,既具备NoSQL的优势,又能支持多种复杂查询场景,全面提升用户在海量数据场景下的查询体验,凭实力宠粉!相信大家一定有很多疑问,GaussDB(for Cassandra)是什么?二级索引如何使用?Lucene二级索引又有哪些区别?别着急,接下来让我们一一解读。

C:\\Users\\z30027292\\AppData\\Roaming\\eSpace_Desktop\\UserData\\z30027292\\imagefiles\\originalImgfiles\\BD1D2FCB-2198-4973-A900-9DE6FFF33368.png

什么是GaussDB(for Cassandra)?

GaussDB(for Cassandra)是一款基于华为自研、采用计算存储分离架构的分布式云数据库,在高性能、高可用、高可靠、高安全、可弹性伸缩的基础上,提供了一键部署、备份恢复、监控报警等服务能力;并高度兼容开源Cassandra接口,提供高读写性能。当前已经广泛应用于IoT、气象、互联网、游戏等诸多领域。

什么是二级索引?

我们先来了解下索引的概念。索引是为了加快数据检索速度而创建的一种存储结构,是一种以空间换时间的设计思想。作用可以理解为书的目录,通过目录可快速定位到所需要的内容。

在Cassandra中,Primary Key就是索引(也被称为一级索引),在查询的时候,根据Primary Key可以直接检索到对应的记录。而二级索引又称辅助索引,是为了帮助定位到一级索引,然后再根据一级索引找到对应记录。我们平时使用CREATE INDEX语句建立的就是二级索引。

当前Cassandra二级索引的痛点有哪些?

原生Cassandra中二级索引的实现其实是创建了一张隐式的表,该表的Primary Key是创建索引的列,值为对应的Primary Key,实现相对简单,因此不可避免地带来了一些约束条件:

1.第一主键只能用“=”查询;

2.第二主键可以使用“=、>、<、>=、<=”;

3.索引列只支持“=”查询;

4.删除、更新太过频繁的列不适合建立索引;

5.High-cardinality列不适合做索引;

基于以上约束,Cassandra二级索引能提供的查询功能非常有限。

Why Lucene?

Lucene是当下最火的开源全文检索引擎工具,具有以下特点:

1.稳定、索引性能高;

2.是高效、准确、高性能的搜索算法

3.具备丰富的查询类型:支持短语查询、通配符查询、近似查询、范围查询等;

4.有强大的开源社区支持,可维护性好;

因此,用集成Lucene引擎来补充Cassandra查询能力的弱点是最佳选择,毕竟谁又会拒绝一款性能稳定、持续成长、又更新迭代的搜索引擎呢?

Lucene引擎强大的倒排索引和列式存储能力,赋予了GaussDB(for Cassandra)高效的多维查询、文本检索、统计分析等能力,在使用体验上和原生二级索引相似,但同时拥有了更为丰富的语法支持。

使用Lucene二级索引后,我的查询发生了哪些变化?

更加灵活的查询、过滤方式:

所有查询均可不带PK或者带部分PK,并且索引列支持 “>、<、in”等操作符,用户不需要再局限于只使用“=”。

强大的文本检索能力:

文本检索能力正是Lucene最擅长的,使用起来十分方便,只需要通过关键词like即可实现。

你可以这样:

SELECT \\* FROM example WHERE field LIKE 'test%';   // 前缀查询

也可以这样:

SELECT \\* FROM example WHERE field LIKE 'start\\*end';   // 正则匹配

还可以这样:

SELECT \\* FROM example WHERE field LIKE '%\\+lucene \\+index%';   // 全文搜索功能,性能高效,稳定

支持超万亿规格的大数据量统计:

SELECT count\\(\\*\\) FROM example WHERE field1>\\-1 AND EXPR\\(field2, 'count'\\);

多种删除方式:

支持single单行删除、partition分区删除、range范围删除,全方位覆盖各种删除场景。

DELETE FROM example WHERE pk1='a' AND field=1;   // single单行删除

DELETE FROM example WHERE pk1='a' AND pk2=5000;   // partition分区删除

DELETE FROM example WHERE pk1='a' AND pk2=3000 AND ck1=2 AND ck2>'a' AND ck2<'c';   // range范围删除

支持扩展json查询接口,轻松应对各种复杂查询场景:

扩展的json查询接口提供了丰富的查询语法,用法更多样化。以下是关键字列表:

filter

在查询语句中json查询的关键字

term

查询时判断某个document是否包含某个具体的值,不会对被查询的值进行分词查询

match

将被询值进行分词,进行全文检索

range

查询指定某个字段在某个特定的范围(范围查询子关键字:"eq"/"gte"/"gt"/"lte"/"lt")

bool

必须和 "must"、"should"、"must not" 一起组合出复杂的查询

must

bool类型的子查询,类型为list,封装"term"、"match"、"range" 查询

should

bool类型的子查询,类型为list,封装"term"、"match"、"range" 查询

must not

bool类型的子查询,类型为list,封装"term"、"match"、"range" 查询

举个栗子:

SELECT \\* FROM example WHERE EXPR\\(index\\_field, '\\{"filter": \\{"bool": \\{"should": \\[\\{"bool": \\{"should": \\[\\{"bool": \\{"must": \\[\\{"bool": \\{"should": \\[\\{"range": \\{"ck1": \\{"lt": 2\\}, "ck1": \\{"gte": 4\\}\\}\\}\\]\\}\\}, \\{"bool": \\{"should": \\[\\{"range": \\{"field1": \\{"lt": 2\\}, "field1": \\{"gt": 3\\}\\}\\}\\]\\}\\}\\]\\}\\}, \\{"bool": \\{"should": \\[\\{"term": \\{"pk1": "a", "pk1": "b", "pk1": "c"\\}\\}\\]\\}\\}\\]\\}\\}, \\{"bool": \\{"must": \\[\\{"range": \\{"field2": \\{"gte":5, "lte": 15\\}, "pk2": \\{"gt": 2000\\}\\}\\}\\]\\}\\}\\]\\}\\}\\}'\\)

通过条件组合加嵌套,您可以DIY符合自身业务的sql语句,并且最高支持200层json嵌套,再复杂的场景也能处理!

华为云GaussDB(for Cassandra)搭载Lucene引擎,通过Lucene二级索引将搜索能力下沉至底层,从根本上解放了应用层查询,兼具多维查询、文本检索、统计分析等多种能力,可以完美地弥补NoSql弱查询功能的短板,让企业从容应对海量数据的复杂查询场景。还等什么,速来体验吧!
审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3244

    浏览量

    42381
  • Lucene
    +关注

    关注

    0

    文章

    6

    浏览量

    7629
  • 华为云
    +关注

    关注

    3

    文章

    2423

    浏览量

    17298
收藏 人收藏

    评论

    相关推荐

    二级配电箱的作用介绍

    配电箱作为电能分配和管理的关键设备,发挥着至关重要的作用。二级配电箱位于一配电箱和三配电箱之间,起到中间分配电力的作用。本文将深入探讨二级配电箱的主要特点和功能,为电力系统的优化提
    的头像 发表于 10-04 11:46 289次阅读

    INA128两放大,第二级放大测不出来的原因?如何解决?

    放大 第一放大6倍第二级放大16倍 信号源输入2v电压示波器显示第一放大只有5.2倍第二级放大测不出来当两
    发表于 09-12 06:51

    THS3001联组成放大电路,实际接通后第二级有明显发热,为什么?

    实际接通后第二级有明显发热。单独测试第一没问题,对第二级直接输入第一的输出相关参数依然正常。可是两块一旦级联第二级就发热。
    发表于 09-06 06:08

    浪涌保护器和二级浪涌保护器怎么区分

    浪涌保护器和二级浪涌保护器是电力系统中非常重要的保护设备,它们的主要作用是保护电力系统免受雷电、操作过电压等浪涌电压的损害。在电力系统中,浪涌保护器的设置和选择对于系统的安全稳定运行
    的头像 发表于 07-13 14:44 4695次阅读

    二级浪涌保护器型号如何选择

    选择二级浪涌保护器型号时,需要综合考虑多个因素,以确保所选型号能够满足电器系统的实际需求。以下是一些关键步骤和考虑因素: 一、了解系统需求 电压等级 :首先,明确您的电器系统的电压等级,这是选择浪涌
    的头像 发表于 07-13 14:25 725次阅读

    ClickHouse内幕(3)基于索引查询优化

    ClickHouse索引采用唯一聚簇索引的方式,即Part内数据按照order by keys有序,在整个查询计划中,如果算子能够有效利用输入数据的有序性,对算子的执行性能将有巨大的提升。本文讨论
    的头像 发表于 06-11 10:46 930次阅读
    ClickHouse内幕(3)基于<b class='flag-5'>索引</b>的<b class='flag-5'>查询</b>优化

    HarmonyOS开发案例:【卡片二级联动】

    使用ArkTS语言,实现一个导航与内容二级联动的效果。
    的头像 发表于 05-06 17:08 520次阅读
    HarmonyOS开发案例:【卡片<b class='flag-5'>二级</b>联动】

    GaussDB(for Redis) 特性揭秘:多租户管理

    华为云 GaussDB(for Redis)持续完善企业增强特性,是名副其实的 "Redis Plus" ,其中很经典的企业特性是 多租
    的头像 发表于 03-28 22:06 717次阅读
    <b class='flag-5'>GaussDB</b>(for Redis) <b class='flag-5'>特性</b>揭秘:多租户管理

    GaussDB(for Redis) 特性揭秘:大 key 治理

    运行过程中悄悄产生的,人防不胜防。因此,一款可随时在线诊断,且能主动预警,防患于未然的 Redis 服务产品显得尤为重要。   作为由华为云精心打造的企业 Redis,GaussDB
    的头像 发表于 03-28 22:06 648次阅读
    <b class='flag-5'>GaussDB</b>(for Redis) <b class='flag-5'>特性</b>揭秘:大 key 治理

    Redis官方搜索引擎来了,性能炸裂!

    RediSearch 是一个 Redis 模块,为 Redis 提供查询二级索引和全文搜索功能。
    的头像 发表于 02-21 10:01 2182次阅读
    Redis官方搜<b class='flag-5'>索引</b>擎来了,性能炸裂!

    二级电源和II电源的区别

    二级电源和II电源的区别 随着电力需求的不断增长,人们对电源的要求也越来越高。二级电源和II电源是两种常见的电源等级,它们在一些关键的技术规范上存在一些区别。 首先,我们来了解一下
    的头像 发表于 01-19 13:51 1925次阅读

    浪涌保护器和二级浪涌保护器的区别是什么?

    浪涌保护器和二级浪涌保护器的区别是什么? 一浪涌保护器和二级浪涌保护器是电气设备中常用的保护装置,用于保护设备免受浪涌电压的影响。浪涌保护器通常被安装在电源线路上,以限制过电压对
    的头像 发表于 01-18 16:22 4044次阅读

    常用二级管的特性及标识

    极管的应用非常广泛,几乎绝大部分电路板上都极管的身影。今天就来讲讲常用二级特性及标识。
    的头像 发表于 01-11 09:47 1237次阅读
    常用<b class='flag-5'>二级</b>管的<b class='flag-5'>特性</b>及标识

    Mysql索引是什么东西?索引有哪些特性索引是如何工作的?

    作为开发人员,碰到了执行时间较长的 sql 时,基本上大家都会说” 加个索引吧”。但是索引是什么东西,索引有哪些特性,下面和大家简单讨论一下。
    的头像 发表于 12-24 16:20 1198次阅读
    Mysql<b class='flag-5'>索引</b>是什么东西?<b class='flag-5'>索引</b>有哪些<b class='flag-5'>特性</b>?<b class='flag-5'>索引</b>是如何工作的?

    mybatis一缓存和二级缓存的原理

    MyBatis是一种轻量级的持久化框架,它提供了一缓存和二级缓存的机制来优化数据库操作性能。一缓存是默认开启的,而二级缓存需要手动配置启用。 一、一
    的头像 发表于 12-03 11:55 1080次阅读