0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据库发展史2--数据仓库

数据库小组 来源:数据库小组 作者:数据库小组 2022-09-19 15:29 次阅读

回顾数据仓库的发展历程,大致可以将其分为几个阶段:萌芽探索到全企业集成时代、企业数据集成时代、混乱时代--"数据仓库之父"间的论战、理论模型确认时代以及数据仓库产品百家争鸣时代。

数据仓库理论发展历程

上世纪70年代,IBM的E.F.Codd等人提出关系型数据库后,MIT的研究员提出单独构建分析系统的基础理论,新的理论试图将业务处理系统和分析系统分开,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则。他们认为这两种信息处理的方式具有较大差别,应使用不同的架构和设计。但受限于当时的技术能力,这个研究仅仅停留在理论层面。

到了80年代初,W.H.Inmon 开始了“记录系统”、“本原数据”、“决策支持数据库”等专题的研究。几乎同时,J. Martin在关于数据库分类的研究中,专指一种他称之为“第4类数据库”的“由用户驱动的计算环境”,为这种环境提供信息服务的是一种以“搜索和快速信息回收”为基本特征的数据库。这个定义已经和后来的数据仓库十分类似。

1988年,IBM 公司的研究员创造性地提出了一个新的概念--数据仓库(Data Warehouse)。到了1991年,数据仓库之父W.H.Inmon出版数据仓库经典作品--《构建数据库仓库》,标志着数据仓库概念的确立。书中指出,DW是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,并且是用于支持管理决策的数据集合。该书还提供了建立数据仓库的指导意见和基本原则,凭借着这本书,W.H.Inmon被称为数据仓库之父。


pYYBAGMoGlaAejzxAAJKEfoIXlA271.png?source=d16d100b

由于传统的关系型数据库已无法满足构建数据仓库的需求,在1993年Codd提出了多维数据库和多维分析的概念,即OLAP(On-Line Analysis Processing联机分析处理)。当时Codd认为OLTP(On- Line Transaction Processing 联机事务处理)已不能满足终端用户对数据库查询的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需要。因此提出了多维数据库和多维分析的概念,即OLAP。

1995年,Ralph Kimball出版了《数据仓库工具箱》,数据仓库行业进入少林和武当之争。Inmon主张建立数据仓库时采用自上而下方式,以关系型数据库的第3范式进行数据仓库模型设计,而Kimball则是主张自下而上的方式,力推数据集市(Data Market)建设。两位数据仓库领域的大咖为此吵得不可开交,他们的粉丝也纷纷站队,这种争吵直到Inmon推出新的BI架构CIF,把Kimball的数据集市包括了进来才算平息。

早期MPP时代的数仓

IBM DB2和Teradata是早期数仓理论的实践者,也是市场领导者。其中Teradata是MPP数仓最成功的商业产品,几乎是行业的天花板。诞生于1970年代末的Teradata公司,名称来源于Tera Bytes,TB数据的存储也展示了哪个年代创业者的雄心壮志。终于在1992年第一个TB 级的数据库在华尔街出现。1999年,客户拥有130TB的数据分布于176个节点。短短7年时间,Teradata客户的数据规模翻了176倍。

但进入新千年后,数据库巨头间的竞争进入白热化阶段,以Oracle Exadata为代表的一体机很快崭露头角。之后在Postgres基础上演变而来的Greenplum构建了开源的MPP架构数仓,也在市场中有很高的影响力。但真正让数仓焕然一新的是云计算时代的云原生数仓Snowflake。

一体机时代的数仓

新千年后,数仓进入一体机的快速发展时代,典型代表是Netezza、SAP HANA和Oracle Exadata。Netezza率先推出,后来被IBM收购。而Oracle Exadata为代表的一体机依然是今天Oracle公司的核心业务。2008年,Exadata V1诞生,由Oracle提供软件惠普提供硬件,这一代产品仅支持数据仓库和商务智能等OLAP工作。到了2009年9月,Exadata V2发布,采用了SUN的(此后MySQL也属于了Oracle),次年Oracle完成了SUN的收购。在V2版本中,Exadata存储节点中首次采用了Flash卡,从而可以同时支持OLAP和OLTP类型的负载。有了高性能产品的同时也有了极其昂贵的价格。

著名的Conor O'Mahony(DB2的市场经理)罗列了使用一台全机架系统(full-rack)Exdata V2所需的费用列表:

$1,150,000 硬件价格

$1,680,000 存储服务器的软件价格

$369,600 存储服务器软件支持和维护费用(以22%计)

$1,520,000 Oracle企业版软件价格($47.5k*8 servers*8 cores*0.5 Intel core factor)

$736,000 Oracle RAC软件价格($23k*8 servers*8 cores*0.5 Intel core factor)

$368,000 Oracle分区特性价格 ($11.5k*8 servers*8 cores*0.5 Intel core factor)

$368,000 Oracle高级压缩(Advanced Compression) ($11.5k*8 servers*8 cores*0.5 Intel core factor)

$160,000 Oracle企业管理器诊断包(推荐安装)

$160,000 Oracle企业管理器调优包(推荐安装)

$728,640 以上除去存储服务器软件的第一年软件维护支持价格(以22%计)

Oracle Exadata 一体机

如此昂贵的价格,对于一般企业显然无法接受。人们相信全新一代的数仓技术一定会在一个万众嘱目的情况下出现,像盖世英雄身披金甲圣衣,脚踏七彩祥云而来。

云计算时代的数仓

随着移动互联网、物联网的蓬勃发展,率先掀起数据库革命的是Google公司,他的三篇论文开启了大数据时代,之后言数仓、大数据必称Hadoop。但它的弊病也颇为明显,昂贵、不方便使用、难维护等问题始终无法很好的解决。直到计算机行业七彩祥云--云计算出现,为整个行业和人类生活带来巨大变化。而此时的数据仓库在变更的前夜显得异常安静,古语言:三年不鸣一鸣惊人,Snowflake 就是三年不飞一飞冲天的云计算时代云原生数仓产品。

2012年,在Oracle公司工作十多年的2位程序员决心在云上建立一个数据仓库,于是诞生了Snowflake公司。它诞生的第一天,就有云计算的特点:存储与计算分离、按量付费、云中立。作为第一个基于云原生的数据仓库,Snowflake 敏锐的抓住从本地到上云的时代趋势,充分利用公有云强大基础设施能力,让用户更加轻松实现跨云平台、跨区域的方式移动数据。这种基于云原生、云中立、跨多云平台的云原生数据服务,为客户提供巨大数据价值的同时,极大降低了客户使用、维护、价格成本。

Snowflake产品上的成功同时也取得资本市场的巨大成功。2020年9月16日,在纽交所成功IPO,股神巴菲特斥几亿美元入股,交易首日股价翻倍市值达到704亿美元,成为史上规模最大的软件IPO,之后市值一度最高突破1200亿美元,俨然成为资本市场的宠儿。


pYYBAGMoGleAW5YTAAKl91g7BFA139.png?source=d16d100b

数据仓库和数据库关系

广义的数据仓库并不是一项技术,也不是一个产品,而是一种数据处理过程。数据仓库的数据来源有多种,业务系统、日志、互联网、系统运行参数等等,这些数据可以在数据仓库中进行汇合,然后通过统一的建模,加工成服务与数据分析的数据模型,最终辅助企业分析决策。

那如何构建数据仓库呢?常见的是使用OLAP数据库(如近年流行Clickhouse)存储数据,通过数据建模、ETL、数据可视化等一系列操作,这一过程被称为构建数据仓库。由于数据仓库基于OLAP产品,是做在线分析处理,这是与数据库的本质区别。另外,既然是数据仓库就要加工数据,加工数据会耗时间,所以加工数据在实际的应用中又分为批处理和实时处理。而传统的数据库是为了解决事务存在的,他们的区别如下。


poYBAGMoGleAYd4LAAFB5LgC3oU291.png?source=d16d100b

总结和展望

数据仓库是80~90年代提出的概念,互联网企业为了解决更大数据量的管理问题,掀起了大数据技术新浪潮,大数据已经跳出了数仓定义领域,未来再专题阐述。随着2020年云原生数仓Snowflake上市并取得巨大的成功,大家开始趋向把数据仓库、大数据、数据湖、云存储的技术全面融合,全世界掀起了云原生数据仓库和湖仓一体的热潮,国际上Databricks、Clickhouse已经正面PK,国内有SequoiaDB、MaxCompute,AnalyticDB,GaussDB(DWS),OuShuDB、StarRocks、SelectDB、HashData等不下数十款产品,还有很多类似HTAP新品在路上,未来必将迎来百仓大战的腥风血雨。

数据仓库发展史


pYYBAGMoGliAJ75cAAYGxvkxBa8865.png?source=d16d100b


审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据库
    +关注

    关注

    7

    文章

    3845

    浏览量

    64632
收藏 人收藏

    评论

    相关推荐

    MySQL数据库的安装

    MySQL数据库的安装 【一】各种数据库的端口 MySQL :3306 Redis :6379 MongoDB :27017 Django :8000 flask :5000 【二】MySQL 介绍
    的头像 发表于 01-14 11:25 121次阅读
    MySQL<b class='flag-5'>数据库</b>的安装

    数据库是哪种数据库类型?

    数据库是一种部署在虚拟计算环境中的数据库,它融合了云计算的弹性和可扩展性,为用户提供高效、灵活的数据库服务。云数据库主要分为两大类:关系型数据库
    的头像 发表于 01-07 10:22 129次阅读

    数据库数据恢复—Mysql数据库表记录丢失的数据恢复流程

    Mysql数据库故障: Mysql数据库表记录丢失。 Mysql数据库故障表现: 1、Mysql数据库表中无任何数据或只有部分
    的头像 发表于 12-16 11:05 215次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—Mysql<b class='flag-5'>数据库</b>表记录丢失的<b class='flag-5'>数据</b>恢复流程

    数据库数据恢复—MYSQL数据库ibdata1文件损坏的数据恢复案例

    mysql数据库故障: mysql数据库文件ibdata1、MYI、MYD损坏。 故障表现:1、数据库无法进行查询等操作;2、使用mysqlcheck和myisamchk无法修复
    的头像 发表于 12-09 11:05 215次阅读

    数据库数据恢复—通过拼接数据库碎片恢复SQLserver数据库

    一个运行在存储上的SQLServer数据库,有1000多个文件,大小几十TB。数据库每10天生成一个NDF文件,每个NDF几百GB大小。数据库包含两个LDF文件。 存储损坏,数据库
    的头像 发表于 10-31 13:21 310次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—通过拼接<b class='flag-5'>数据库</b>碎片恢复SQLserver<b class='flag-5'>数据库</b>

    Oracle数据恢复—异常断电后Oracle数据库报错的数据恢复案例

    Oracle数据库故障: 机房异常断电后,Oracle数据库报错:“system01.dbf需要更多的恢复来保持一致性,数据库无法打开”。数据
    的头像 发表于 09-30 13:31 374次阅读
    Oracle<b class='flag-5'>数据</b>恢复—异常断电后Oracle<b class='flag-5'>数据库</b>启<b class='flag-5'>库</b>报错的<b class='flag-5'>数据</b>恢复案例

    架构师日记-从数据库发展历程到数据结构设计探析

    数据库发展史 起初,数据的管理方式是文件系统,数据存储在文件中,数据管理和维护都由程序员完成。后来
    的头像 发表于 09-25 11:20 858次阅读
    架构师日记-从<b class='flag-5'>数据库</b><b class='flag-5'>发展</b>历程到<b class='flag-5'>数据</b>结构设计探析

    数据库数据恢复—SQL Server数据库出现823错误的数据恢复案例

    SQL Server数据库故障: SQL Server附加数据库出现错误823,附加数据库失败。数据库没有备份,无法通过备份恢复数据库
    的头像 发表于 09-20 11:46 401次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—SQL Server<b class='flag-5'>数据库</b>出现823错误的<b class='flag-5'>数据</b>恢复案例

    Oracle数据恢复—Oracle数据库delete删除的数据恢复方法

    删除Oracle数据库数据一般有以下2种方式:delete、drop或truncate。下面针对这2种删除oracle数据库
    的头像 发表于 09-11 11:45 425次阅读

    数据库数据恢复—SQL Server数据库所在分区空间不足报错的数据恢复案例

    SQL Server数据库数据恢复环境: 某品牌服务器存储中有两组raid5磁盘阵列。操作系统层面跑着SQL Server数据库,SQL Server数据库存放在D盘分区中。
    的头像 发表于 07-10 13:54 568次阅读

    数据仓库数据库的主要区别

    数据仓库数据库是两个在信息技术领域中常见的概念,它们在数据管理和分析方面发挥着重要作用。尽管它们在某些方面有相似之处,但它们在设计、目的和功能上存在显著差异。本文将介绍数据仓库
    的头像 发表于 07-05 14:57 578次阅读

    什么是数据湖?数据湖和数据仓库有什么区别?

    从本质上说,数据湖就是一个信息资源。人们常常将数据湖与数据仓库混为一谈,但两者在架构和满足的业务需求上都不一样。尤其是,随着社交媒体数据
    的头像 发表于 05-20 12:38 665次阅读
    什么是<b class='flag-5'>数据</b>湖?<b class='flag-5'>数据</b>湖和<b class='flag-5'>数据仓库</b>有什么区别?

    数据库数据恢复—raid5阵列上层Sql Server数据库数据恢复案例

    数据库数据恢复环境: 5块硬盘组建一组RAID5阵列,划分LUN供windows系统服务器使用。windows系统服务器内运行了Sql Server数据库,存储空间在操作系统层面划分了三个逻辑分区
    的头像 发表于 05-08 11:43 569次阅读
    <b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—raid5阵列上层Sql Server<b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复案例

    电阻柜的发展史

    电阻柜发展史
    的头像 发表于 03-08 15:22 505次阅读

    数据库数据恢复】Oracle数据库ASM实例无法挂载的数据恢复案例

    oracle数据库ASM磁盘组掉线,ASM实例不能挂载。数据库管理员尝试修复数据库,但是没有成功。
    的头像 发表于 02-01 17:39 567次阅读
    【<b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复】Oracle<b class='flag-5'>数据库</b>ASM实例无法挂载的<b class='flag-5'>数据</b>恢复案例