0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云原生存储在实际场景中可以做什么

汽车玩家 来源:阿里云云栖号 作者:阿里云云栖号 2020-04-04 16:53 次阅读

引言

随着云原生应用对可迁移性、扩展性和动态特性的需求,对云原生存储也带来了相应的密度、速度、混合度的要求,所以对云存储基本能力之上又提出了在效率、弹性、自治、稳定、应用低耦合、GuestOS 优化和安全等方面的诉求。

新的企业负载/智能工作负载容器化、迁云、存储方面遇到的性能、弹性、高可用、加密、隔离、可观测性及生命周期等方面的问题,不但需要存储产品层次的改进,还需要在云原生的控制/数据平面的改进,推进云原生存储和云存储的演进。下文将分别介绍一下问题场景及问题,探讨可行的解决方案,最终可以得出云原生存储、云存储目前可以做什么和未来还需要做什么。

存储性能

1. 长时延增加

场景

高性能计算场景中,集中处理批量数据,通过容器集群,同时启动数千 Pod,弹出数百 ECS 对共享性文件系统读写。

问题

重负载终负载下时延增加,高延迟毛刺增多,读写稳定性不足。

云原生存储在实际场景中可以做什么

解决方案

分散负载到多文件系统,通过容器编排分散 IO 到多文件系统

存储产品的盘古 2.0 改造

2. 集中式高吞吐写对共享存储池冲击

场景

高性能计算场景中,集中处理批量数据,10Gbps 读写请求进入同一存储集群。

问题

同一存储集群中的带宽挤占,造成访问质量下降。

云原生存储在实际场景中可以做什么

解决方案

分散负载到多文件系统和多个存储集群/多个可用区,通过容器编排分散 IO 到多文件系统;

使用独占高性能并行文件系统。

**3. 峰值吞吐不足**

场景

大规模生物数据处理,文件数目少,峰值吞吐高 10Gbps-30Gbps,请求密集 1W/s。

问题

接近独占集群的极限带宽。

云原生存储在实际场景中可以做什么

解决方案

读写分流,分流读请求到 OSS,写请求负载分流到独占文件系统和本地/远程块存储,通过容器编排分散 IO 到多文件系统;

使用应用层分布式缓存降低网络读 IO;

存储产品的盘古 2.0 改造。

时延增加导致 GPU 等待

场景

多机多卡 GPU 训练,直接读取 OSS 数据,读密集型。

问题

时延增加导致 IOwait 和 GPU 等待。

云原生存储在实际场景中可以做什么

解决方案

应用层透明 POSIX 读访问 OSS;

使用应用层分布式缓存降低网络读 IO。

存储弹性

场景

数据库扩容, MySQL and etc;元数据管理应用在线扩容 Zookeeper/etcd;本地盘存储容量无法扩容。

解决方案

云盘在线扩容,应用控制面文件系统/逻辑卷离线,在线扩容能力;

单机云盘挂载密度;

存储产品 ESSD 的替换使用。

存储高可用

场景

应用运维,系统运维;块存储随容器迁移的稳定性和可发现性。

解决方案

控制平面声明式存储快照,备份,定时快照备份,本地快照加速备份和恢复;控制平面云盘 SerialNum 的可发现性改造。

存储的加密

场景

用户应用的全链路数据加密需求;操作系统盘加密。

解决方案

产品存储的 CMK,BYOK 支持控制平面的加密声明支持RAM 权限的最小化控制

存储的隔离性

场景

单盘多应用共享,单机日志盘块存储切分

单块本地盘/云盘吞吐能力不足

文件系统多租户环境的容量配额

集群级文件系统共享访问的权限控制

解决方案

控制面 LVM 切分,控制面块存储 blkio buffer IO 应用级限速

控制面 LVM 多盘聚合和条带

存储产品共享文件系统的目录级 Quota

控制面文件系统的目录级 ACL

存储的可观测性

场景

多租户 Zookeeper/etcd,租户/应用级的 IO 指标监控和预警。

解决方案

控制面应用级 IO Metrics 采集能力

控制面设备级 IO Metrics 采集能力

控制面挂载点级 IO Metrics 采集能力

存储的生命周期

场景

共享文件系统/缓存系统的声明式创建和删除。

解决方案

Operator: 云盘/本地盘 (TiDB)

Operator: 文件系统,CPFS

Operator: 对象存储

云原生存储 v2

针对以上在新的计算模式下,存储方面遇到的性能,弹性,高可用,加密,隔离,可观测性,生命周期等方面的问题,不但是需要存储产品层次的改进,更需要在云原生的控制/数据平面的改进,在不久的将来实现稳定,安全,自治,和效率并举的云原生存储 v2。

稳定:阿里云存储的全品类支持可观测性, Flexvolume and CSI plugins/IO metrics (CSI for 1.14);安全:全连路数据存储的可靠/可信存储支持,CSI 快照加密,系统盘加密;自治:云盘快照 /本地快照 ,离线在线的存储扩容能力, 元数据自动发现;效率:I/O 隔离 、可伸缩性/云盘再次分割提升密度/分布式存储缓存。

云原生存储在实际场景中可以做什么

需要在云原生应用层、存储云产品层、底层存储适配和存储核心层都需要做相应的改进和提升才有可能提供更加稳定,安全,自治和高效的面向应用的云原生存储。

云原生存储在实际场景中可以做什么

总结

云原生存储是云存储 UI 和效率等能力的集合;分层存储,不重新发明轮子;新的工作负载推进云原生存储和云存储的演进,云原生控制平面实现效率,自治方面能力,从数据面提升存储稳定和减小安全隐患,云存储继续夯实性能,容量,弹性,密度等基础能力,共建云原生环境下的存储生态。

在云原生存储 v2 的演进过程中,仍然需要容器团队和存储团队,通力合作,共同提升的云原生时代的存储能力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4736

    浏览量

    128925
  • 云存储
    +关注

    关注

    7

    文章

    742

    浏览量

    46046
收藏 人收藏

    评论

    相关推荐

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器学习平台种类繁多,功能各异,如何选择云原生机器学习平台呢?下面,AI部落小编带您探讨。
    的头像 发表于 12-25 11:54 77次阅读

    构建云原生机器学习平台流程

    构建云原生机器学习平台是一个复杂而系统的过程,涉及数据收集、处理、特征提取、模型训练、评估、部署和监控等多个环节。
    的头像 发表于 12-14 10:34 121次阅读

    什么是云原生MLOps平台

    云原生MLOps平台,是指利用云计算的基础设施和开发工具,来构建、部署和管理机器学习模型的全生命周期的平台。以下,是对云原生MLOps平台的介绍,由AI部落小编整理。
    的头像 发表于 12-12 13:13 101次阅读

    云原生和数据库哪个好一些?

    云原生和数据库哪个好一些?云原生和数据库各有其独特的优势,适用于不同的场景云原生强调高效资源利用、快速开发部署和高可伸缩性,适合需要高度灵活性和快速迭代的应用。而数据库则注重数据一致
    的头像 发表于 11-29 10:07 139次阅读

    k8s微服务架构就是云原生吗?两者是什么关系

    k8s微服务架构就是云原生吗?K8s微服务架构并不等同于云原生,但两者之间存在密切的联系。Kubernetes云原生架构扮演着核心组件的
    的头像 发表于 11-25 09:39 142次阅读

    云原生和非云原生哪个好?六大区别详细对比

    云原生和非云原生各有优劣,具体选择取决于应用场景云原生利用云计算的优势,通过微服务、容器化和自动化运维等技术,提高了应用的可扩展性、更新速度和成本效益。非
    的头像 发表于 09-13 09:53 388次阅读

    中科驭数分析DPU云原生网络与智算网络实际应用

    的探索与实践”专题论坛,业内DPU专家们将讨论焦点锁定在了DPU云原生网络与智算网络实际应用,深入探讨了如何利用DPU技术解决计算系统级问题,进一步推动了DPU技术与产业应用的深
    的头像 发表于 08-02 11:21 706次阅读

    京东云原生安全产品重磅发布

    “安全产品那么多,我怎么知道防住了?”“大家都说自己是云原生的,我看都是换汤不换药”与客户沟通云原生安全方案的时候,经常会遇到这样的吐槽。越来越的客户已经开始了云原生化的技术架构改造
    的头像 发表于 07-26 10:36 475次阅读
    京东<b class='flag-5'>云原生</b>安全产品重磅发布

    从积木式到装配式云原生安全

    从这两个方面分别进行分析和解决。 新技术带来新的安全风险 云原生的概念定义本身就比较抽象,从诞生到现在也经历了多次变化。2018年CNCF对云原生的概念进行了重定义:云原生技术有利于各组织
    的头像 发表于 07-26 10:35 299次阅读
    从积木式到装配式<b class='flag-5'>云原生</b>安全

    基于DPU与SmartNic的云原生SDN解决方案

    个轻量级,可移植的运行环境,逐渐成为云原生时代基础设施的事实标准。Kubernetes通过网络插件(CNI,Container Network Interface)实现灵活地配置和管理集群的容器网络,确保容器之间的有效通信和网络安全。
    的头像 发表于 07-22 11:44 695次阅读
    基于DPU与SmartNic的<b class='flag-5'>云原生</b>SDN解决方案

    基于DPU的云原生裸金属服务快速部署及存储解决方案

    云原生技术迅速发展的当下,容器技术因其轻量级、可移植性和快速部署的特性而成为应用部署的主流选择,但裸金属服务器依然有其独特的价值和应用场景,是云原生架构
    的头像 发表于 06-27 10:41 2457次阅读
    基于DPU的<b class='flag-5'>云原生</b>裸金属服务快速部署及<b class='flag-5'>存储</b>解决方案

    云原生转型从理念到实践的探索与挑战

    :运营商从理念到实践的探索与挑战”的主题演讲,分享了广东移动与华为公司云原生转型过程合作探索实践及关键成果。
    的头像 发表于 04-23 11:45 451次阅读

    云原生驱动信贷服务数字化 软国际信贷数据服务平台获业界认可

    随着云原生技术金融业的应用不断深化,金融服务的优化和创新日益加快。
    的头像 发表于 04-02 09:58 399次阅读
    <b class='flag-5'>云原生</b>驱动信贷服务数字化 <b class='flag-5'>中</b>软国际信贷数据服务平台获业界认可

    云原生是大模型“降本增效”的解药吗?

    云原生AI正当时
    的头像 发表于 02-20 09:31 387次阅读

    米哈游大数据云原生实践

    近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark 为例,
    的头像 发表于 01-09 10:41 585次阅读
    米哈游大数据<b class='flag-5'>云原生</b>实践