什么是数据湖?智能湖仓又是什么?亚马逊云科技中国峰会北京站一一为你解答!
通过将不同结构、不同类型、不同来源的相关数据汇总起来并加以分析,用户能够得出更深刻、更丰富的洞察见解。为此,用户需要从不同孤岛中获取所有数据、将其聚合至统一位置(也就是人们常说的「数据湖」),再以此为基础执行分析与机器学习。
但在其他用例中,用户也会将数据放置在其他专用存储体系之内,例如存储在数据仓库内以针对结构化数据执行复杂查询并快速获得结果;或者存储在搜索服务中以快速搜索/分析日志数据,进而监控生产系统的运行状况。无论如何,要想从这些数据中获取最佳洞见,用户必须有能力轻松在数据湖与专用存储系统之间移动数据。
但随着系统中数据规模的持续增长,数据移动也变得越来越困难。为了解决这一挑战、进而从数据中获取最大收益,亚马逊云科技提出了Lake House“智能湖仓”方案。
作为一类现代化数据架构,智能湖仓方法不仅强调将数据湖与数据仓库集成起来,同时也涉及将数据湖、数据仓库以及所有其他专用服务接入统一且连续的整体。数据湖提供对主体数据的分析环境,而专用分析服务则负责以令人满意的速度为用户提供具体用例支持(例如实时仪表板与日志分析功能)。
如图所示,为真实客户数据与常见数据迁移需求(包括数据分析服务与数据存储间的数据迁移、由内向外、由外向内、周边移动等情况)共同建立的智能湖仓方案。
这样一套分层与组件化数据分析架构,使用户可以通过正确的工具完成正确的任务,同时提供以迭代及增量方式构建架构的良好敏捷性。在添加新数据源、发现新的用例/需求以及开发新的分析方法时,亚马逊云科技可以更灵活地调整智能湖仓中的相应组件,借此满足当前及未来的各类需求。
对于亚马逊云科技的这套智能湖仓架构,用户可以把它组织成一套五层逻辑堆栈,其中各个层对应着负责满足特定需求的专用组件。
为亚马逊云科技平台上的智能湖仓参考架构
亚马逊云科技的智能湖仓参考架构提供多种专用Amazon服务,能够让不同角色类型之间的数据消费方式互连互通,包括支持交互式SQL查询、商务智能与机器学习等多种分析用例。这些服务使用统一的智能湖仓接口访问存储在Amazon S3、Amazon Redshift以及Amazon Lake Formation目录中的所有数据与元数据。此外,各项服务还可以通过开放文件格式(例如JSON、Avro、Parquet以及ORC)使用Amazon Redshift表中存储的平面关系数据以及S3对象中存储的平面或复杂结构化或非结构化数据。
基于专用服务组合建立的智能湖仓架构将帮助用户从海量数据中快速获取面向所有用户的洞察见解,同时充分预留升级空间,供用户随后续发展随时引入新的分析方法与技术成果。
fqj
-
亚马逊
+关注
关注
8文章
2669浏览量
83433
发布评论请先 登录
相关推荐
评论