0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌用ML模型替代数据库组件,或彻底改变数据系统开发,机器学习将取代数据库搜索

DPVg_AI_era 2017-12-14 16:50 次阅读

本周,谷歌团队在arXiv上传了一篇论文,探讨用机器学习取代数据库索引,引发了大量的关注和讨论。作者还概述了如何使用这一思想来替换数据库系统的其他组件和操作,包括排序和连接。如果成功,数据系统的开发方式将会彻底改变。

“如果这项研究取得更多的成果,将来有一天我们很可能回过头看然后说,索引是最先倒下的,接着是其他的数据库组件(排序算法、查询优化、连接),它们都逐渐被神经网络取代。”纽约州立大学布法罗分校的计算机科学和工程教授Murat Demirbas这样说。

文章描述了一个非常有前景且十分有趣的方向,题目读来也颇有小说的感觉——“The Case for Learned Index Structures”。

这篇论文旨在证明“机器学习模型有潜力大幅超越当前最先进的数据库索引,提供好很多的性能”

斯坦福大学Chirs Manning教授发表Twitter,评论称谷歌团队这篇论文用机器学习替代传统算法,而且“一口吃掉一大块”

用神经网络学习数据分布,让索引“data-aware”

索引(Index),就是一种对数据库表中一列或多列的值进行排序的结构,使用索引可以快速访问数据库表中的特定信息。数据库的索引好比图书的目录,目录能让你在看书时不把整本书看完就快速找到需要的信息,索引也能让数据库程序迅速地找到表中的数据,而不必将整个数据库扫描完。

但是,数据库在应用索引时,对数据本身并不了解,数据相当于一个黑盒,而不了解数据的分布,造成了很大的浪费。

举例来说,如果键的范围在0到500m之间,比起用哈希,直接把键当索引速度可能更快。如果知道了数据的累积分布函数(CDF),“CDF*键*记录大小”可能约等于要查找的记录的位置,这一点也适用于其他数据分布的情况。

数据的累积分布函数(CDF)可以作为索引

作者在论文中表示,精确了解数据分布,可以大幅优化当前数据库系统使用的几乎所有索引结构。

但是,精确了解数据分布,数据库就成了“白盒”,失去了可重用性。这样一来就需要检查数据,每次都从头开始设计索引。

于是,谷歌研究人员想到了机器学习方法,并使用其中最强的一种——神经网络,去学习数据分布,并用学到的知识预测数据的分布。

这样一种折中的方法,让数据索引变得“data-aware”,由此获得性能的提升。

如果成功,数据库开发方式可能彻底改变

他们将神经网络应用于三种索引类型:B树,用于处理范围查询;哈希映射(Hash-map),用于点查找查询;以及Bloom-filter,用于设置包含检查。下面着重介绍一下作者如何用神经网络替代B树。

B树提供了一种有效的分层索引。从概念上讲,B-tree将一个键映射到一个页面。因此,我们可以用一个模型,也进行键的位置映射,而对于错误范围,我们可以做一个二进制搜索(或扩展环搜索)的变体来定位页面。

要知道min_error和max-error,就用拥有的数据来训练模型。数据是静态的,神经网络进行预测,然后从这些错误中学习。即使简单的逻辑回归也可以用于简单的分布。

在测试时,作者将机器学习索引与B树进行比较,他们使用了3个真实世界数据集,其中网络日志数据集(Weblogs)对索引而言极具挑战性,包含了200多万个日志条目,是很多年的大学网站的请求,而且每个请求都有单一的时间戳,数据中含有非常复杂的时间模式,包括课程安排、周末、假期、午餐休息、部门活动、学期休息,这些都是非常难以学习的。

从上图可见,对于网络日志数据,机器学习索引带来的速度提升最高达到了53%,对应的体积也有76%的缩小,相比之下误差范围稍有加大。

用机器学习模型替换B树的好处是:

  • 索引结构更小:更少的主内存或L1缓存

  • 查找速度更快:因为索引变小了

  • 更强的并行性(TPU),而不是B-树中的分层if语句

这里有一个关键点,那就是用计算换内存,计算越来越便宜,CPU-SIMD/GPU/TPU的功能越来越强大,作者甚至指出,“运行神经网络的高昂成本在未来可以忽略不计——谷歌TPU能够在一个周期内最高完成上万次神经网络运算。有人声称,到2025年CPU的性能将提高1000倍,基于摩尔定律的CPU在本质上将不复存在。利用神经网络取代分支重索引结构,数据库可以从这些硬件的发展趋势中受益。

论文还介绍了几个策略来提高机器学习索引的性能,包括使用递归模型索引、分层模型和混合模型。机器学习方法都带来了能效提升,具体的评估结果请参考论文。

需要指出,作者并不认为机器学习索引结构可以完全替代传统索引。“我们论述了一种建立索引的新方法,它完善了现有的研究,并且为该领域数十年的研究开辟了一个新方向。”

作者还概述了如何使用这一思想来替换数据库系统的其他组件和操作,包括排序和连接。如果成功,数据系统的开发方式将会彻底改变。

论文:The Case for Learned Index Structures

摘要

索引就是模型:B-Tree-Index可以被看作一个将键(key)映射到排序数组中记录位置的模型,哈希索引可以被看作将键映射到未分类数组中记录位置的模型,而BitMap-Index可以被看作查看数据记录是否存在的模型。

在这篇探索性研究论文中,我们从这个前提出发,假设所有现有的索引结构都可以用其他类型的模型来代替,包括深度学习模型,也即文中所谓的“机器学习索引”(learned indexes)。

本文关键思想是,一个模型可以学习排序顺序或查找键的结构,并使用这个信号来有效预测记录的位置或记录是否存在。我们从理论上分析了在哪些条件下机器学习索引的性能优于传统索引结构,描述了设计机器学习索引的主要挑战。

我们在几个真实世界的数据集上做了测试,初步结果表明,通过使用神经网络,我们在速度上能比缓存优化的B树快70%,同时内存节省了一个数量级。更重要的是,我们相信用机器学习模型取代数据管理系统核心组件的想法,对未来的系统设计有着深远的影响,这项工作仅仅展现了未来无限可能的一瞥。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6139

    浏览量

    105058
  • 数据库
    +关注

    关注

    7

    文章

    3759

    浏览量

    64265
  • 机器学习
    +关注

    关注

    66

    文章

    8373

    浏览量

    132389

原文标题:【机器学习吃掉算法】谷歌用ML模型替代数据库组件,或彻底改变数据系统开发

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    数据库数据恢复—通过拼接数据库碎片恢复SQLserver数据库

    一个运行在存储上的SQLServer数据库,有1000多个文件,大小几十TB。数据库每10天生成一个NDF文件,每个NDF几百GB大小。数据库包含两个LDF文件。 存储损坏,数据库
    的头像 发表于 10-31 13:21 130次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—通过拼接<b class='flag-5'>数据库</b>碎片恢复SQLserver<b class='flag-5'>数据库</b>

    数据库数据恢复—SQL Server数据库出现823错误的数据恢复案例

    SQL Server数据库故障: SQL Server附加数据库出现错误823,附加数据库失败。数据库没有备份,无法通过备份恢复数据库
    的头像 发表于 09-20 11:46 280次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—SQL Server<b class='flag-5'>数据库</b>出现823错误的<b class='flag-5'>数据</b>恢复案例

    恒讯科技分析:sql数据库怎么

    SQL数据库的使用通常包括以下几个基本步骤: 1、选择数据库系统: 选择适合您需求的SQL数据库系统,如MySQL、PostgreSQL、Microsoft SQL Server、SQLite等
    的头像 发表于 07-15 14:40 309次阅读

    数据库数据恢复—raid5阵列上层Sql Server数据库数据恢复案例

    数据库数据恢复环境: 5块硬盘组建一组RAID5阵列,划分LUN供windows系统服务器使用。windows系统服务器内运行了Sql Server
    的头像 发表于 05-08 11:43 474次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—raid5阵列上层Sql Server<b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复案例

    数据库数据恢复】Oracle数据库ASM实例无法挂载的数据恢复案例

    oracle数据库ASM磁盘组掉线,ASM实例不能挂载。数据库管理员尝试修复数据库,但是没有成功。
    的头像 发表于 02-01 17:39 466次阅读
    【<b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复】Oracle<b class='flag-5'>数据库</b>ASM实例无法挂载的<b class='flag-5'>数据</b>恢复案例

    诚邀报名 | AI 向量、云原生、开源,今年的数据库热点技术都在这里

    开发者大会(OADC)即将召开,“AI 时代数据库存储管理新挑战”分论坛聚集国内顶尖的数据库技术团队,为开发者们
    的头像 发表于 12-20 20:48 329次阅读
    诚邀报名 | AI 向量、云原生、开源,今年的<b class='flag-5'>数据库</b>热点技术都在这里

    诚邀报名 | AI 向量、云原生、开源,今年的数据库热点技术都在这里

    和推理的精准度对数据和信息的存储、检索、处理提出了更高的要求。为此,存算分离、向量化数据库、图数据库、分布式数据库和开源数据库等受到了前所未
    的头像 发表于 12-13 16:05 319次阅读

    数据库数据恢复—未开启binlog的Mysql数据库数据恢复案例

    mysql数据库数据恢复环境: 本地服务器,windows server操作系统 ,部署有mysql单实例,数据库引擎类型为innodb,独立表空间,无
    的头像 发表于 12-08 14:18 1081次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—未开启binlog的Mysql<b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复案例

    关于JSON数据库

    如何理解JSON数据库?作为NoSQL数据库的一种类型,JSON数据库有哪些优势呢?JSON数据库如何运作,它为应用程序开发者带来了哪些价值
    的头像 发表于 12-06 13:46 835次阅读
    关于JSON<b class='flag-5'>数据库</b>

    oracle数据库的基本操作

    Oracle数据库是一种关系数据库管理系统(RDBMS),广泛应用于企业级应用中。它具有强大的功能和灵活的配置选项,可以满足复杂的数据处理需求。本文
    的头像 发表于 12-06 10:14 653次阅读

    tcmsp数据库怎么

    TCMSP数据库是一个用于中药化学研究的在线数据库,提供了大量的中药化学信息和药理学信息。它的使用对于中药化学研究人员来说非常重要,可以帮助他们快速获取和分析中药化学信息,加快中药研究的进展。本文
    的头像 发表于 12-06 10:11 4132次阅读

    oracle数据库的使用方法

    Oracle数据库是一种关系型数据库管理系统,它由Oracle公司开发和维护。它提供了安全、可靠和高性能的数据库管理解决方案,被广泛应用于企
    的头像 发表于 12-06 10:10 1175次阅读

    oracle数据库alert日志作用

    Oracle数据库的alert日志是数据库引擎和实例的核心组件之一,它记录着数据库的运行状况和事件。该日志对于数据库的性能调优、问题排查和安
    的头像 发表于 12-06 10:08 1189次阅读

    什么是JSON数据库

    数据库的显著优势关于JSON数据库的Q&A一、什么是JSON?首先,我们得明确“JSON”的含义。开发人员在创建业务逻辑、用户界面、数据库
    的头像 发表于 12-02 08:04 822次阅读
    什么是JSON<b class='flag-5'>数据库</b>

    NoSQL 数据库如何选型

    什么是NoSQL数据库?为什么要使用NoSQL数据库?键值数据库内存键值数据库文档数据库列式数据库
    的头像 发表于 11-26 08:05 439次阅读
    NoSQL <b class='flag-5'>数据库</b>如何选型