50亿海量数据如何高效存储和分析？华为云数据库GaussDB (for Cassandra) 3个秘诀搞定-电子发烧友网

50亿海量数据如何高效存储和分析？

华为云数据库GaussDB (for Cassandra) 3个秘诀搞定

当下，信息社会正在从互联网时代走向物联网时代，信息交互变得更加庞杂、高效和智能。对于互联网公司和IOT企业来说，既是机遇，也是挑战。因为，企业不可避免的要面对数据量剧增带来的一系列问题：如何高效存储和扩容，如何在对原有业务改动最小的情况下做到智能化和实时分析。

针对挑战，华为云GaussDB (for Cassandra)为客户提供了强扩展、高存储、高效导入/导出和实时分析等一系列能力，并成功服务了众多互联网公司和IOT企业，获得了客户的高度认可和支持。本文将以其中一个客户业务的痛点问题举例，聊聊高效存储和实时分析的3个秘诀。

海量存储，PB级无感扩展

该用户在线下本地化部署使用数据库或者使用其他的存储为云盘的数据库时，常常需要在容量达到阈值时，提前规划和申购存储资源，可能还需要连带扩容不必要的计算资源。而使用GaussDB (for Cassandra)之后，便再无此烦恼。GaussDB (for Cassandra)采用存算分离架构，可单独扩展存储，高效扩容，业务无感，最高可扩展到PB级。

此外，客户为了做大数据分析，将数据库中的数据再写入一份到HDFS中，供MapReduce和Spark分析，同时需要维护两套资源，维护和资源成本成为了痛点。而客户使用GaussDB (for Cassandra)之后，可以仅采用GaussDB (for Cassandra)即可完成数据库存储和对接大数据分析的功能，同时GaussDB (for Cassandra)提供了更为易用的CQL接口，让用户更加专注功能开发，而不是资源管理。

数据变更捕获和实时分析

客户的一个使用场景需要将爬虫或用户输入的数据，进行在线分析和实时推荐业务，该业务中全量数据达到了50亿条，但增量数据不足5亿，分析对象主要是每日新增数据。在这个场景中，GaussDB (for Cassandra)为客户提供了streaming服务+实时分析解决方案，在损失小部分读写性能的前提下，客户端无需改造即可做到数据读写和实时分析并行，解决方案如下图，该解决方案主要有以下几个阶段：

1.客户业务用过开源驱动写入数据到GaussDB (for Cassandra)

2.GaussDB (for Cassandra)对外提供streaming接口，该接口可获取数据变更捕获

3.客户构建的流服务组件读取streaming接口数据写入到指定的Kafka队列

4.Kafka队列将streaming数据写入到Spark或者Flink中

5.客户在Spark中可对增量数据做分析，也可合并之后做全量分析

全量数据导出分析

客户的另一个业务需要周期性对全量数据进行分析和处理，但不想影响在线业务，希望在闲时处理。GaussDB (for Cassandra)提供了全量数据导出和分析解决方案，可在业务低峰期触发任务进行数据导出和冷数据分析，数据导出速率是开源的10+倍，同时做到对业务读写基本无影响。如下为互联网客户每周定期导出数据分析用户画像的解决方案，该方案有以下几个阶段：

1.客户根据需求配置ECS规格，并挂载obsfs并行文件系统

2.客户在DLF上配置导出作业，包括ECS信息，导出参数和定时任务

3.CDM下发作业任务

4.ECS上的导出任务将GaussDB (for Cassandra)中的指定表指定条件的数据导出到obsfs

5.Spark从obsfs中读取全量数据进行数据分析

通过这3个秘诀，华为云GaussDB (for Cassandra)完美解决了难扩展、高成本、变更不及时等问题，实现了海量数据的高效存储和实时分析，为互联网公司和IOT企业的数字化发展提供了更多可能。

审核编辑黄昊宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

华为云

华为云

+关注

关注
3

文章
2491

浏览量
17426

使用华为云 X 实例部署图数据库 Virtuoso 并存储 6500 万条大数据的完整过程与性能测评

前言 1. 部署Virtuoso图数据库的准备工作 1.1 选择华为云X实例的原因 1.2 Virtuoso图数据库简介 1.3 环境准备与系统配置 2. Virt

发表于 12-25 17:51 •133次阅读

使用<b class='flag-5'>华为</b><b class='flag-5'>云</b> X 实例部署图<b class='flag-5'>数据库</b> Virtuoso 并<b class='flag-5'>存储</b> 6500 万条大<b class='flag-5'>数据</b>的完整过程与性能测评

云数据库和云主机哪个好一点？

云数据库和云主机哪个好一点？云主机和云数据库各有优势，选择哪个更好取决于具体需求。

发表于 12-04 13:50 •128次阅读

数据库数据恢复—通过拼接数据库碎片恢复SQLserver数据库

一个运行在存储上的SQLServer数据库，有1000多个文件，大小几十TB。数据库每10天生成一个NDF文件，每个NDF几百GB大小。

发表于 10-31 13:21 •221次阅读

<b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—通过拼接<b class='flag-5'>数据库</b>碎片恢复SQLserver<b class='flag-5'>数据库</b>

云数据库可以租用吗？完整租用流程来了

云数据库是可以租用的，这是一种合法且便捷的数据存储和管理方式。云数据库是

发表于 10-28 09:54 •169次阅读

一文讲清什么是分布式云化数据库！

分布式云化数据库是一种先进的数据管理系统，它将传统的数据库技术与分布式计算、云计算和大数据处理技

发表于 10-14 10:06 •223次阅读

恒讯科技分析：云数据库rds和redis区别是什么如何选择？

云数据库RDS（Relational Database Service）和Redis是两种不同类型的数据库服务，它们有各自的特点和适用场景： 1、数据模型：RDS是一种关系型

发表于 08-19 15:31 •394次阅读

基于分布式存储WDS的金融信创云承载数据库类关键应用

基于分布式存储WDS的金融信创云承载数据库类关键应用

发表于 08-16 09:42 •277次阅读

基于分布式<b class='flag-5'>存储</b>WDS的金融信创<b class='flag-5'>云</b>承载<b class='flag-5'>数据库</b>类关键应用

恒讯科技分析：sql数据库怎么用？

。 2、安装数据库软件：在您的服务器或本地计算机上安装所选的数据库软件。 3、配置数据库服务器：根据需要配置数据库服务器设置，包括内存分

发表于 07-15 14:40 •361次阅读

数据库数据恢复—raid5阵列上层Sql Server数据库数据恢复案例

数据库数据恢复环境： 5块硬盘组建一组RAID5阵列，划分LUN供windows系统服务器使用。windows系统服务器内运行了Sql Server数据库，存储空间在操作系统层面划分

发表于 05-08 11:43 •512次阅读

<b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复—raid5阵列上层Sql Server<b class='flag-5'>数据库</b><b class='flag-5'>数据</b>恢复案例

华为云GaussDB数据库基础版发布：旗舰性能、价格下降超60%

高性价比：相比企业版，华为云 GaussDB 基础版价格大幅下调（降幅达 60%-70%），且支持全场景数据压缩，具有“超高压缩比”，性能影响仅为 5%-10%，

发表于 05-07 14:21 •631次阅读

时序数据库是什么？时序数据库的特点

时序数据库是一种在处理时间序列数据方面具有高效和专门化能力的数据库。它主要用于存储和处理时间序列数据

发表于 04-26 16:02 •656次阅读

华为云多模数据库 GeminiDB 架构与应用实践直播问答实录

多模数据库作为一种新兴的数据管理解决方案，正在受到越来越多的关注。而华为云多模数据库 GeminiDB 基于云原生

发表于 04-08 18:25 •1160次阅读

华为云原生多模数据库 GeminiDB 架构与应用实践

近日，2023 全球分布式云大会·深圳站顺利召开，华为云 NoSQL 数据库研发总监余汶龙在会上发表了题为《华为云原生多模

发表于 04-08 18:23 •1178次阅读

选择 KV 数据库最重要的是什么？

经常有客户提到 KV 数据库，但却偏偏“不要 Redis”。比如有个做安全威胁分析平台的客户，他们明确表示自己对可靠性要求非常高，需要的不是开源 Redis 这种内存缓存库，而是 KV

发表于 03-28 22:11 •700次阅读

2024年，国产数据库正酝酿新变局！

随着互联网、5G、AI技术的飞速发展，海量数据的持续激增，数据资产的核心价值正在凸显，大数据时代数据库行业也迎来了快速增长。作为

发表于 01-05 13:18 •454次阅读

搜索历史

50亿海量数据如何高效存储和分析？华为云数据库GaussDB (for Cassandra) 3个秘诀搞定

评论