1990年,存储1G的数据大约需要花费9000美元(约合人民币61568元);现在,只需花费不到3分钱(约合两元人民币)。过去的十年中,存储成本几乎可以忽略不计。虽然存储对于用户来说几近免费,但是数据中心运营商每年仍需花费数十亿美元——而且成本呈上升趋势。这不仅仅是因为每年创建的数据总量在激增,而且还有越来越多的关于耐用性和可使用性的严格要求。
思科全球云指数显示,到2021年,全球数据中心存储容量将从2016年的6630亿字节(EB)增长到2021年的2.6泽字节(ZB),增长率将近400%。据互联网数据中心(IDC)全球数据领域报告,超过半数的存储空间将会用于机械硬盘,还有约四分之一的存储空间用于固态硬盘(SSD)。
事实上,“几乎免费”的存储空间在数据中心预算中却是一笔昂贵的支出。
数据的本质正在改变
过去一段时间,存储空间充斥着数据中心,支持在服务器上运行的应用程序。数据写入磁盘后通常很少被访问。
但是,有了现代应用程序,世界便变得不一样:
•以横向扩展方式部署的微服务正在取代单片应用程序。
•数据量巨大,节点之间的数据移动量正在增加。
•服务需要大规模的高吞吐量和低延迟的存储。
•总体数据温度在上升——即实时热数据量正在增加。
迫于压力,各公司正在应对这些需求,同时也求能降低成本。
减少数据:压缩算法的创新
这就是为什么我们目睹了下一代压缩解决方案的原因。对于文本或二进制数据,压缩算法,诸如Facebook的Zstandard (zstd)快速无损压缩算法,谷歌公司的Brotli无损压缩算法以及微软项目管理软件程序(Microsoft Project)中的Zipline等,均能提供标准的基于压缩算法的更高压缩率。其次,有超过半数储存到云端存储空间的数据由图片和视频组成。这些压缩算法完全不能压缩JPEG和MPEG文件。云端销售公司采取的一种方法,就是引进一种针对图像,有损耗的压缩算法,能节省20%-30%的存储空间,谷歌公司旗下的Guetzli便是采用这种方法。多宝箱(Dropbox)则采取了另一种方法,即部署Lepton,这是一种针对JPEG的无损耗压缩算法,能节省22%的存储空间,但只能拥有处理40Mbps的压缩能力。
甚至在压缩率上的一点小进步也能节约巨大的存储空间和网络宽带成本。节约下来的成本很轻易地就能被运行压缩算法所需的CPU周期和和功耗/散热造成的额外成本抵消掉。不幸的是,这些方案中的每一个都要在性能上进行权衡:压缩量越大,吞吐速度越慢。
由于吞吐量的限制,这些算法通常应用于静止数据而非动态数据。为了能同样通过压缩动态数据来最大程度上降低成本,我们必须能以线速来维持吞吐量。
数据耐用性和可用性:复制VS.擦除码
当今数据中心要求九倍的数据存储耐用性和可用性。数据镜像是获得耐用和可用存储最基本的方式之一。此方案产生相同的数据副本并存储到不同的故障域中。复制数据的计算要求相对较小,同时这种方案也可提供最快的恢复时间。但是,由于需要复制数据两次及以上的情况并不罕见,于是复制就意味着要付出更高的存储成本。
另一种常用的方案是奇偶校验编码,它能以更低的存储成本提供持久和可用的存储。奇偶校验编码方案中提出了擦除编码这个例子,其中多个数据和奇偶校验片段分布在不同的故障域中。奇偶校验碎片的数量是决定耐用性的因素。擦除编码方案所需的存储容量成本较低,但对于计算和联网有较高的要求,尤其是在无法使用存储,必须从不同位置重建数据的情况下。因此,计算处理吞吐量和低网络延迟是成功实现擦除编码的关键。
大规模的资源存储
降低存储成本的另一种方法是提高容量利用率。要实现这一点,可以将存储资源集中到动态分配的虚拟池中,同时许多客户机可以访问这些虚拟池。彼得·J·丹宁(Peter J. Denning)在他的博士论文中提到,将N个单元的资源池集中到一个单独的资源池中,这样做能提供1个而不是N个单元,具有相同的服务水平的资源池。换句话说,共享池越大,节省的存储空间就越大。
如今,尽管在超融合基础架构(HCI)中可以完成资源池化,但是CPU瓶颈仍然限制了对直接连接存储SSD的访问。CPU的延迟高,而且不可预测,形成了复杂的软件,最终限制了性能和规模。在一个分类基础架构中,将计算和存储装置放置在不同服务器里,可以更好地构建资源池。将存储与计算脱钩,可减少CPU瓶颈,缩短延迟时间,从而简化对数据放置的思考。
在Fungible公司里,我们认为,分解存储体系结构很自然地可以实现奇偶校验方案,例如擦除编码,使数据和奇偶校验代码分布在不同的故障域中,以及大规模共享存储池。
但是,到目前为止,由于CPU效率底下,性能结构,旧版软件限制等原因,分类存储尚未充分发挥其潜力。
Fungible公司的数据处理器
为了摆脱这些限制,Fungible公司开发设计了一种新型的可编程微处理器,即数据处理器。从头开始专门构建数据处理器,不仅可以控制存储成本,还可以提供当今计算中心架构所缺少的性能和可伸缩性。
数据处理器的设计遵循以下原则:
1. 不必折衷考虑压缩比和吞吐量。对于文本/二进制以及图像来说,压缩算法必须是无损的。
2. 在读写语境中,通过使用擦除代码方案得到的数据持久性,必须得到现在应用程序所需的吞吐量和延迟的支持。
3. 资源池必须靠现代应用程序所需的吞吐量和延迟的支持,并且必须可以在网络中大规模运用。
存储可能永远不会免费,但是使用Fungible公司的数据处理器(DPU)可以便宜很多。
责任编辑人:CC
-
存储
+关注
关注
13文章
4320浏览量
85912
原文标题:存储能不能实现免费?
文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论