0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据分析将成为创新起源与企业核心能力

程序人生 来源:程序人生 作者:程序人生 2022-04-28 10:06 次阅读

据 Gartner 2022 年最新趋势分析,数据分析将成为创新起源与企业核心能力,数据越来越重要了。在更早前 IDC 和数据存储公司希捷的报告表示,我国产生的数据量从 2019 年的约 9.4ZB 将猛增至 2025 年的 48.6ZB。现在,数据工程师需要面对愈加繁杂和庞大的数据、离线场景/实时场景/流式场景等众多不同的分析场景、多个数据库技术栈并存和与之对应的存储计算成本,很多公司的数据团队往往会被这些海量数据与各类底层集群、基础设施的要求所淹没。

如何降本增效,打通数据分析与存储,提高数据分析的灵活性,同时降低底层资源的运维成本,成为了令技术团队头疼的问题。

智能湖仓,数据分析的下一站已到来

这个时代,驾驭数据的能力是所有决策者“技能清单”里最重要的一项。历史告诉我们,无论哪个行业,率先在行业中掌握新工具“利器”是多么重要。

最早的传统型、老式的纯数据仓库已经不适宜半 / 非结构化数据的处理;而单纯的数据湖虽然适合存储数据,但不支持事务处理,不保证数据质量,并且缺乏一致性与隔离性。

站在数据价值出口的角度来看,只有各类数据价值平台全面落地应用,大数据的潜能才会被进一步释放。为了实现数据湖和数据仓库之间的无缝流转,打通数据存储和计算的不同的层面,兼顾数据湖的灵活性和数据仓库的成长性,促进企业更有效的工具应用,像亚马逊科技就提出了“智能湖仓”架构,帮助企业客户加快大数据价值实现进程。

以创新技术厂商亚马逊云科技为例,2020 年在亚马逊云科技 re:Invent 大会上,亚马逊云科技针对数据分析等相关服务推出了“智能湖仓”架构,不过早在 2017 年,亚马逊就发布了 Amazon Redshift Spectrum,该功能使得 Amazon Redshift 在当时就具备了打通数据湖和数据仓库的能力,实现跨数据湖、数据仓库的数据查询。此外,在 2021 年 re:Invent 大会上,亚马逊云科技更进一步,在存算分离架构基础上,推出更多数据分析服务的无服务器(Severless)版。

b3bafcc4-c689-11ec-bce3-dac502259ad0.png

现在,无服务器架构(以 2014 年推出的 Amazon Lambda 为代表)已经是云原生中最热门的技术类别。无服务器应用程序是由事件驱动的,并通过与技术无关的 API 或消息收发进行松散耦合,可以让开发者更关注于构建产品中的应用,而不需要管理和维护底层堆栈。现在,数据分析服务借助无服务器的能力,可以让用户更便捷地构建数据存储、分析、智能应用解决方案,彻底实现无服务器的数据分析服务,完成底层庞杂数据的高效处理、流转与共享。

能够达到这样的技术水平和高度,离不开时间的沉淀和技术的积累。想要深刻理解“智能湖仓”,就需要了解它的过去与现在。我们能看到,亚马逊云科技所推出的无服务器数据分析服务,经历了几个阶段:

b3cc64aa-c689-11ec-bce3-dac502259ad0.png

(1)2006 年,亚马逊云科技正式推出 Amazon S3,其作为亚马逊第一个云产品,提供了多种经济高效的存储类和易于使用的管理功能,从而满足特定的业务、组织和合规性要求。如今“智能湖仓”就是基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志分析、机器学习等数据服务。Amazon S3 数据湖的可靠性和大容量的数据存储能力,是确保整个“智能湖仓”架构有效应用的基础。对于软件开发人员来说,现在已经是无服务器架构的 Amazon S3 可以很低的成本提供可扩展、可靠且延迟低的数据存储基础设施,让开发人员利用云计算的规模优势,以极低的前期资源投入换取稳定的数据基础设施,非常适合进行快速技术创新。

b3eefb32-c689-11ec-bce3-dac502259ad0.jpg

(2)Amazon Athena 是一种无服务器的交互式查询服务,用户能够轻松使用标准 SQL 分析 Amazon S3 中的数据。无需 ETL ,具备 SQL 技能的任何人都可以轻松快速地分析数据湖中的大规模数据集,这对技术人员的生产力是一种解放!当我们想使用 SQL 直接进行数据湖上的分析且不想管理任何集群时,Athena 无疑是一个敏捷且快速开始的选择。

(3)Amazon Redshift 使用 SQL 在数据仓库、运营数据库和数据湖间分析结构化和半结构化数据,专注于在急速获取洞察,并交付业务结果,无需考虑管理数据仓库等基础设施。而现如今,无服务器版的 Amazon Redshift Serverless 使得数据仓库更加敏捷,用户无需亲自设置和管理数据仓库基础设施,即可在几秒钟内轻松运行和扩展分析,实现 PB 级数据规模的数据分析。目前来说,已经有很多企业去选择 Amazon Redshift 来缩短他们获得洞察的时间,因为它易于使用,可在任何规模提供可靠的性能分析所有数据,也可能是因为 Amazon Redshift 提供比其他云数据仓库高 3 倍的性价比。Amazon Redshift Serverless 是非常适合难以预测计算需求的情况,例如可变工作负载、具有空闲时间的周期性工作负载以及具有峰值的稳态工作负载。这种方法也非常适合需要快速入门的临时分析需求以及测试和开发环境。

b4031aae-c689-11ec-bce3-dac502259ad0.jpg

(4)Amazon EMR 也推出了 Serverless 无服务器的版本。开发者可以使用无服务器的方式运行使用开源大数据框架(如 Apache Spark、Hive 和 Presto)构建的程序,在云中运行 PB 级数据分析,而无需配置、管理、优化或保护集群。用户无需猜测集群大小,Amazon EMR Serverless 具备自动细粒度扩缩,并且提供性能优化的运行时,速度是开源版本的两倍以上。另外,Amazon EMR 在安装 Spark、Hive、Presto 或 Trino 时可以默认安装 Hudi 组件,以实现开放格式(如 Apache Parquet 和 Apache Avro)维护 Amazon S3 或 HDFS 中的数据。举个例子,使用 Amazon EMR,技术人员可以将 Parquet 数据集转化为 Hudi 数据集,而无需重写数据集,快速将现有数据集迁移至 Apache Hudi 数据集,例如 Amazon S3 上 1TB 的 Parquet 数据集,引导执行的速度已经比批量插入快了五倍!

通过了解,CSDN 看到,上述这些仅仅只是亚马逊云科技中的一小部分数据服务及其无服务器版的发展变化。发布既是无服务器架构的云原生 NoSQL—Amazon DynamoDB,两年前即实现无服务器化的云原生关系型数据库Amazon Aurora Serverless v1(本周第二代v2也已上线),也都是值得挖掘的技术创新。

正是随着这些服务的升级与发展,“智能湖仓”也在向更敏捷,更智能的方向演变。也让技术界看到,数据分析的下一站已到来。

全栈式云原生数据分析服务,让数据真正“敏捷分析”

我们能看到,“智能湖仓”更强调架构,强调数据的自由流动和集中统一治理。“智能湖仓”架构不是简单地将湖与仓打通,而是将湖、仓与专门构建等数据服务连接成为一个整体,让数据在其间移动和访问,进一步实现数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建等服务之间按需移动,从而形成统一且连续等整体,满足客户等各种需求。

亚马逊云科技的“智能湖仓”架构具有灵活扩展、专门构建、数据融合、敏捷分析、开源开放等特点。详细来说,背靠 Amazon S3 数据湖存储的高可靠和大容量,对于数据存储资源弹性伸缩扩展,在此之上,技术人员通过使用亚马逊云科技经验总结的具象产品实力,如交互式查询服务 Amazon Athena、云上大数据平台 Amazon EMR、云数据仓库 Amazon Redshift 等专门构建的数据分析服务,以及数据融合统一治理的架构之下,企业可以无需机器学习经验,使用 SQL 语句,甚至不编写代码,去进行数据分析。这种模式可以大大降低数据人员的技术门槛,让更多数据业务人员去拥抱数据,实现敏捷、快速、低成本的数据分析。

在“智能湖仓”架构下,云原生数据分析服务可以全面覆盖流数据分析、数据湖、Hadoop 等常用的分析场景,所有均无服务器化。无服务器的分析工具让客户无需配置、扩展或管理集群或服务器,也不必担心容量配置,从而可以最大程度地为客户减少无差别的繁琐工作,让数据真正实现全栈、敏捷地分析。

面对海量数据与细分环境,亚马逊云科技无服务器的“智能湖仓”架构则将易用、易扩展、高性能、专门构建、安全及智能等特性融于一体,打通数据湖和数据仓库,进一步将各种服务无缝集成,确保数据在不同服务之间顺畅流动,进而帮助客户尽可能最大程度地提高数据价值,加速创新,并成为数据驱动型组织。

从亚马逊的技术布局和发展路径,我们能看到,全栈、云原生的数据分析时代已经到来,智能化的湖仓将成为新一代数据平台架构。而借助智能湖仓,与数据相关的技术与业务人员,将可以摆脱对底层架构与数据处理技术的多个掣肘,专注于挖掘数据的创新性分析与应用,以发现并抓住任何一个创新的机遇。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据分析
    +关注

    关注

    2

    文章

    1429

    浏览量

    34019
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24647
  • 大数据
    +关注

    关注

    64

    文章

    8864

    浏览量

    137308

原文标题:全栈、云原生的数据分析时代已来,我们如何抓住机会?

文章出处:【微信号:coder_life,微信公众号:程序人生】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA助力百度提升数据分析效能

    在现代商业环境中,数据分析已然成为企业获取成功的关键所在。长期以来,百度广告数据团队始终面临着极为复杂的数据分析挑战,其需要为逾千名用户提供
    的头像 发表于 11-20 10:06 142次阅读

    LLM在数据分析中的作用

    随着大数据时代的到来,数据分析已经成为企业和组织决策的关键工具。数据科学家和分析师需要从海量
    的头像 发表于 11-19 15:35 147次阅读

    raid 在大数据分析中的应用

    RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析
    的头像 发表于 11-12 09:44 162次阅读

    智能制造中的数据分析应用

    随着工业4.0的推进,智能制造已经成为制造业转型升级的关键。数据分析作为智能制造的核心驱动力,正逐步改变传统的生产方式,为企业带来更高的效率和更大的竞争力。 一、
    的头像 发表于 11-07 09:56 170次阅读

    物联网的数据分析方法

    在数字化时代,物联网(IoT)正迅速成为企业和个人获取实时数据、提高效率和做出明智决策的关键工具。物联网设备,如智能传感器、可穿戴设备和智能家居设备,不断地生成大量数据。这些
    的头像 发表于 10-29 11:27 347次阅读

    数据分析在数字化中的作用

    在当今这个信息爆炸的时代,数据无处不在。从个人的日常活动到企业的商业决策,数据都在发挥着越来越重要的作用。数字化转型,作为企业适应这一变化的关键策略,正逐渐
    的头像 发表于 10-27 17:35 466次阅读

    云计算在大数据分析中的应用

    和处理大规模的数据集。通过云计算平台,用户可以快速构建数据仓库,将海量数据进行存储、管理和分析。这种能力使得
    的头像 发表于 10-24 09:18 323次阅读

    使用AI大模型进行数据分析的技巧

    使用AI大模型进行数据分析的技巧涉及多个方面,以下是一些关键的步骤和注意事项: 一、明确任务目标和需求 在使用AI大模型之前,首先要明确数据分析的任务目标,这将直接影响模型的选择、数据收集和处理方式
    的头像 发表于 10-23 15:14 443次阅读

    数据分析除了spss还有什么

    数据分析是当今世界中一个非常重要的领域,它涉及到从大量数据中提取有用信息、发现模式和趋势,并为决策提供支持。SPSS(Statistical Package for the Social
    的头像 发表于 07-05 15:01 547次阅读

    数据分析的工具有哪些

    数据分析是一个涉及收集、处理、分析和解释数据以得出有意义见解的过程。在这个过程中,使用正确的工具至关重要。以下是一些主要的数据分析工具,以及它们的功能和用途的介绍。 Excel Exc
    的头像 发表于 07-05 14:54 775次阅读

    数据分析有哪些分析方法

    数据分析是一种重要的技能,它可以帮助我们从大量的数据中提取有价值的信息,从而做出更明智的决策。在这篇文章中,我们将介绍数据分析的各种方法,包括描述性分析、诊断性
    的头像 发表于 07-05 14:51 533次阅读

    机器学习在数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从数据中学习规律,为企业和组织提
    的头像 发表于 07-02 11:22 546次阅读

    求助,关于AD采集到的数据分析问题

    问题描述:使用AD采集一个10Hz到2MHz的脉冲,脉冲底部可能大于零,由采集到的数据分析出该脉冲的上升时间,幅值和占空比。 备注:在分析的时候已经知道脉冲的频率,精度为2X10^-5. 在分析
    发表于 05-09 07:40

    Get职场新知识:做分析,用大数据分析工具

    数据管理的。 随着原来越多的企业加入了数字化转型的队伍,大数据分析工具也越来越多地被应用于各行各业的业务数据分析中,直至今日,大数据分析工具
    发表于 12-05 09:36

    东软获国家数据管理能力成熟度四级认证

    作为东软数字化转型的核心引擎产品,东软数据中台持续践行自主技术的创新与研究,提供一体化数据融合能力数据
    的头像 发表于 11-30 17:29 988次阅读