基于相似度过滤的大数据保序匹配与检索算法
伴随大数据时代的到来,数据快速保序匹配与检索成为众多大数据应用急需解决的关键问题,通过抽象与归约等措施,数据对象可抽象为具有若干属性的点集或序列,从而将数据匹配问题转化为字符或数字序列匹配问题。提出一种基于相似度过滤的数据保序匹配与检索算法,算法分三步:(l)数据转换,基于幅值变化趋势将原始序列转换为二进制,对序列中任何一个字符,通过判断包括其前后邻居在内的三个点的关系定义二进制序列,准确反映相邻三点之间的凸增长(降低)或凹增长(降低)关系;(2)数据归约,为方便候选序列与模式序列之间的相似度计算,运用基于幅度变化比例的数据归约方法,将候选序列与模式序列均归约到固定区间;(3)相似度计算,为区分不同趋势的凸增长(降低)或凹增长(降低)幅度,通过计算候选序列与模式序列对应点之间的差值绝对值之和作为相似度判断依据,提出基于相似度过滤的快速匹配方法,寻找与模式序列变化趋势一致的子序列集合,并按照相似度大小排序。理论分析与实验结果表明:(1)该算法具有亚线性时间复杂度;(2)该算法能有效解决Chhabra等人算法对数据震荡幅度失控的问题,同时解决数据序列与模式序列分段规律但整体不相似的闸题;(3)解决了Chhabra等人算法中对匹配序列排序造成的匹配结果疏漏问题。该方法不仅能更准确、更多地匹配出变化趋势一致的子字符串,同时将多个候选子串根据与模式之间的相似度进行排序,为进一步的数据精确检索提供判断依据。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%
下载地址
基于相似度过滤的大数据保序匹配与检索算法下载
相关电子资料下载
- 数据分析工具有哪几种模式 83
- 中交兴路入选2024北京“数据要素×”典型案例集 886
- 中国铁塔与海康威视达成战略合作 217
- 热湿交换器过滤器压降测试仪上海程斯与XX医疗达成合作上门培训 84
- spark运行的基本流程 91
- 季丰电子与孤波科技携手合作为车规量产提供大数据支持 740
- 智慧园区综合安防系统解决方案 83
- 大数据采集系统分为几类 269
- 如何在数字化时代实现精益生产的创新发展? 117
- 控制阀气开气关的选择原则 171