谷歌用ML模型替代数据库组件，或彻底改变数据系统开发，机器学习将取代数据库搜索-电子发烧友网

本周，谷歌团队在arXiv上传了一篇论文，探讨用机器学习取代数据库索引，引发了大量的关注和讨论。作者还概述了如何使用这一思想来替换数据库系统的其他组件和操作，包括排序和连接。如果成功，数据系统的开发方式将会彻底改变。

“如果这项研究取得更多的成果，将来有一天我们很可能回过头看然后说，索引是最先倒下的，接着是其他的数据库组件（排序算法、查询优化、连接），它们都逐渐被神经网络取代。”纽约州立大学布法罗分校的计算机科学和工程教授Murat Demirbas这样说。

文章描述了一个非常有前景且十分有趣的方向，题目读来也颇有小说的感觉——“The Case for Learned Index Structures”。

这篇论文旨在证明“机器学习模型有潜力大幅超越当前最先进的数据库索引，提供好很多的性能”。

斯坦福大学Chirs Manning教授发表Twitter，评论称谷歌团队这篇论文用机器学习替代传统算法，而且“一口吃掉一大块”

用神经网络学习数据分布，让索引“data-aware”

索引（Index），就是一种对数据库表中一列或多列的值进行排序的结构，使用索引可以快速访问数据库表中的特定信息。数据库的索引好比图书的目录，目录能让你在看书时不把整本书看完就快速找到需要的信息，索引也能让数据库程序迅速地找到表中的数据，而不必将整个数据库扫描完。

但是，数据库在应用索引时，对数据本身并不了解，数据相当于一个黑盒，而不了解数据的分布，造成了很大的浪费。

举例来说，如果键的范围在0到500m之间，比起用哈希，直接把键当索引速度可能更快。如果知道了数据的累积分布函数（CDF），“CDF*键*记录大小”可能约等于要查找的记录的位置，这一点也适用于其他数据分布的情况。

数据的累积分布函数（CDF）可以作为索引

作者在论文中表示，精确了解数据分布，可以大幅优化当前数据库系统使用的几乎所有索引结构。

但是，精确了解数据分布，数据库就成了“白盒”，失去了可重用性。这样一来就需要检查数据，每次都从头开始设计索引。

于是，谷歌研究人员想到了机器学习方法，并使用其中最强的一种——神经网络，去学习数据分布，并用学到的知识预测数据的分布。

这样一种折中的方法，让数据索引变得“data-aware”，由此获得性能的提升。

如果成功，数据库开发方式可能彻底改变

他们将神经网络应用于三种索引类型：B树，用于处理范围查询；哈希映射（Hash-map），用于点查找查询；以及Bloom-filter，用于设置包含检查。下面着重介绍一下作者如何用神经网络替代B树。

B树提供了一种有效的分层索引。从概念上讲，B-tree将一个键映射到一个页面。因此，我们可以用一个模型，也进行键的位置映射，而对于错误范围，我们可以做一个二进制搜索（或扩展环搜索）的变体来定位页面。

要知道min_error和max-error，就用拥有的数据来训练模型。数据是静态的，神经网络进行预测，然后从这些错误中学习。即使简单的逻辑回归也可以用于简单的分布。

在测试时，作者将机器学习索引与B树进行比较，他们使用了3个真实世界数据集，其中网络日志数据集（Weblogs）对索引而言极具挑战性，包含了200多万个日志条目，是很多年的大学网站的请求，而且每个请求都有单一的时间戳，数据中含有非常复杂的时间模式，包括课程安排、周末、假期、午餐休息、部门活动、学期休息，这些都是非常难以学习的。

从上图可见，对于网络日志数据，机器学习索引带来的速度提升最高达到了53%，对应的体积也有76%的缩小，相比之下误差范围稍有加大。

用机器学习模型替换B树的好处是：

索引结构更小：更少的主内存或L1缓存
查找速度更快：因为索引变小了
更强的并行性（TPU），而不是B-树中的分层if语句

这里有一个关键点，那就是用计算换内存，计算越来越便宜，CPU-SIMD/GPU/TPU的功能越来越强大，作者甚至指出，“运行神经网络的高昂成本在未来可以忽略不计——谷歌TPU能够在一个周期内最高完成上万次神经网络运算。有人声称，到2025年CPU的性能将提高1000倍，基于摩尔定律的CPU在本质上将不复存在。利用神经网络取代分支重索引结构，数据库可以从这些硬件的发展趋势中受益。”

论文还介绍了几个策略来提高机器学习索引的性能，包括使用递归模型索引、分层模型和混合模型。机器学习方法都带来了能效提升，具体的评估结果请参考论文。

需要指出，作者并不认为机器学习索引结构可以完全替代传统索引。“我们论述了一种建立索引的新方法，它完善了现有的研究，并且为该领域数十年的研究开辟了一个新方向。”

作者还概述了如何使用这一思想来替换数据库系统的其他组件和操作，包括排序和连接。如果成功，数据系统的开发方式将会彻底改变。

论文：The Case for Learned Index Structures

摘要

索引就是模型：B-Tree-Index可以被看作一个将键（key）映射到排序数组中记录位置的模型，哈希索引可以被看作将键映射到未分类数组中记录位置的模型，而BitMap-Index可以被看作查看数据记录是否存在的模型。

在这篇探索性研究论文中，我们从这个前提出发，假设所有现有的索引结构都可以用其他类型的模型来代替，包括深度学习模型，也即文中所谓的“机器学习索引”（learned indexes）。

本文关键思想是，一个模型可以学习排序顺序或查找键的结构，并使用这个信号来有效预测记录的位置或记录是否存在。我们从理论上分析了在哪些条件下机器学习索引的性能优于传统索引结构，描述了设计机器学习索引的主要挑战。

我们在几个真实世界的数据集上做了测试，初步结果表明，通过使用神经网络，我们在速度上能比缓存优化的B树快70％，同时内存节省了一个数量级。更重要的是，我们相信用机器学习模型取代数据管理系统核心组件的想法，对未来的系统设计有着深远的影响，这项工作仅仅展现了未来无限可能的一瞥。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6211

浏览量
106490
数据库

数据库

+关注

关注
7

文章
3868

浏览量
65006
机器学习

机器学习

+关注

关注
66

文章
8460

浏览量
133412

原文标题：【机器学习吃掉算法】谷歌用ML模型替代数据库组件，或彻底改变数据系统开发

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

数据库数据恢复—SQL Server附加数据库提示“错误 823”的数据恢复案例

SQL Server数据库附加数据库过程中比较常见的报错是“错误 823”，附加数据库失败。如果数据库有备份则只需还原备份即可。但是如果没有备份，备份时间太久，或者其他原因导致备份

发表于 02-28 11:38 •150次阅读

<b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—SQL Server附加<b class='flag-5'>数据库</b>提示“错误 823”的<b class='flag-5'>数据</b>恢复案例

MySQL数据库的安装

MySQL是一个开源免费的关系型数据库管理系统，由瑞典MySQL AB 公司开发，目前属于 Oracle 旗下公司。 MySQL 最流行的关系型数据库管理

发表于 01-14 11:25 •227次阅读

云数据库是哪种数据库类型？

云数据库是一种部署在虚拟计算环境中的数据库，它融合了云计算的弹性和可扩展性，为用户提供高效、灵活的数据库服务。云数据库主要分为两大类：关系型数据库

发表于 01-07 10:22 •215次阅读

数据库加密办法

，当我们聊到数据加密的时候，可以从这些角度入手来提高数据的安全性。 TDE手段 TDE也就是透明数据加密，是一种在数据库级别进行加密的技术。它对整个

发表于 12-24 09:47 •262次阅读

数据库数据恢复—Mysql数据库表记录丢失的数据恢复流程

Mysql数据库故障： Mysql数据库表记录丢失。 Mysql数据库故障表现： 1、Mysql数据库表中无任何数据

发表于 12-16 11:05 •306次阅读

数据库数据恢复—MYSQL数据库ibdata1文件损坏的数据恢复案例

mysql数据库故障： mysql数据库文件ibdata1、MYI、MYD损坏。故障表现：1、数据库无法进行查询等操作；2、使用mysqlcheck和myisamchk无法修复数据库

发表于 12-09 11:05 •297次阅读

数据库数据恢复—通过拼接数据库碎片恢复SQLserver数据库

一个运行在存储上的SQLServer数据库，有1000多个文件，大小几十TB。数据库每10天生成一个NDF文件，每个NDF几百GB大小。数据库包含两个LDF文件。存储损坏，数据库不

发表于 10-31 13:21 •400次阅读

科技云报到：大模型时代下，向量数据库的野望

科技云报到：大模型时代下，向量数据库的野望

发表于 10-14 17:18 •354次阅读

Oracle数据恢复—异常断电后Oracle数据库启库报错的数据恢复案例

Oracle数据库故障：机房异常断电后，Oracle数据库启库报错：“system01.dbf需要更多的恢复来保持一致性，数据库无法打开”。数据

发表于 09-30 13:31 •451次阅读

数据库数据恢复—SQL Server数据库出现823错误的数据恢复案例

SQL Server数据库故障： SQL Server附加数据库出现错误823，附加数据库失败。数据库没有备份，无法通过备份恢复数据库。

发表于 09-20 11:46 •465次阅读

恒讯科技分析：sql数据库怎么用？

SQL数据库的使用通常包括以下几个基本步骤： 1、选择数据库系统：选择适合您需求的SQL数据库系统，如MySQL、PostgreSQL、Microsoft SQL Server、SQLite等

发表于 07-15 14:40 •447次阅读

数据库数据恢复—SQL Server数据库所在分区空间不足报错的数据恢复案例

SQL Server数据库数据恢复环境：某品牌服务器存储中有两组raid5磁盘阵列。操作系统层面跑着SQL Server数据库，SQL Server

发表于 07-10 13:54 •645次阅读

鸿蒙开发接口数据管理：【@ohos.data.rdb (关系型数据库)】

关系型数据库（Relational Database，RDB）是一种基于关系模型来管理数据的数据库。关系型数据库基于SQLite

发表于 06-10 18:35 •1510次阅读

HarmonyOS开发案例：【搭建关系型数据库】（4）

本节将介绍如何调用关系型数据库接口在本地搭建数据库，并读写相应的用户数据。

发表于 05-11 10:27 •1086次阅读

数据库数据恢复—raid5阵列上层Sql Server数据库数据恢复案例

数据库数据恢复环境： 5块硬盘组建一组RAID5阵列，划分LUN供windows系统服务器使用。windows系统服务器内运行了Sql Server

发表于 05-08 11:43 •628次阅读