在数字经济时代,海量的数据成为数字经济的重要生产要素。特别是受新型冠状病毒疫情影响的2020年,线下的生产和生活迅速的转移到了线上,相应的让数据再次迎来另一波快速增长。
对于像百度智能云这样的云厂商,海量的数据既是资产也是压力,在压力方面面临着包括存储能力和算力等资源方面的挑战。
“尤其是今年一季度,百度智能云很多的云服务都是在扩容,都是在加班加点来满足客户的需求,包括娱乐类、会议类、教育类等等,这对我们的挑战也比较大。过去的过去9个月,百度智能云已经用了10万盘磁带,存储900多PB数据。”百度智能云副总经理谢广军分享到。
这些海量数据的存储对于百度智能云来讲,最大问题是如何降低高昂的存储成本。一方面互联网公司数据量越来越大,数据保存成本负担太重,需要大量扩展其搜索引擎和云存储。另一方面数据的合规保存。国家对互联网行业的管理要求越来越严格,多数数据必须有归档。同时,国家对互联网日志类数据保存时长要求超过10年。
百度智能云对于海量数据需要按照读写频率和冷热数据等特性对于存储进行不同层次的布局,“我们希望提供透明化的生命周期的管理。从产生的初期的热数据到系统感知到其访问频率降低,再到没有太多的访问,可以做到从高性能的存储平台到冷存储平台低成本存储。同时,这些数据需要调用的时候,能比较快被调用出来。” 谢广军讲到。百度智能云需要一种既能降低成本,又能在其庞大的分布式文件系统中提供透明IO的解决方案。
百度智能云一方面基于新一代存储介质打造高性价比存储产品,一方面重视软硬件结合的方案,搭建分布式存储的系统。据了解,百度把高IO的数据读取放在持久内存型的存储系统,打造基于NVMe+RDMA技术,提供单盘百万级IOPS及千MBps吞吐高性能SSD云磁盘。与此同时,百度基于IBM磁带库平台,实现EB级磁带规模应用,这也是国内第一家上线磁带归档服务的云平台。
如何管理海量的数据?
可以看到,百度智能云需要一个弹性的高性价比的存储解决方案来管理其数据存储。IBM为百度智能云提供了融合Spectrum Scale、Spectrum Archive和Tape介质的存储解决方案,通过IBM的归档存储技术,百度智能云的对象存储在产品实力上有了很大的增强。在过去的一年里,百度智能云与IBM一起攻克了许多技术的瓶颈,实现了业务永续化经营,保证数据安全,帮助百度智能云进一步朝降本增效的目标迈进。
IBM存储一直聚焦在为客户提供统一的数据管理平台。当企业面对云上、云下的不同的应用的时候,IBM存储基于统一的数据平台,来确保企业数据的安全、共享和按需供应。“无论您今天是块存储、文件、对象还是磁带,IBM存储解决方案可满足客户非常广泛的应用和使用的场景。无论您今天数据放在百度云上或者其他的公有云平台上,都可以有一个非常灵活的选择。” IBM大中华区系统部存储系统总经理吴磊。
对于百度智能云来讲,磁带近线存储资源池的建成极大地提高了IT对业务的支持力度,满足了业务对低成本、低功耗、高空间数据密度,绿色数据中心的存储需求。过去9个月,百度用了10万盘磁带,存储900多PB数据,归档存储产品相较普通存储的成本降低了85%。
IBM归档存储适用于多种业务场景。“比如在视频这个领域,大家在互联网视频里面去分发的,不管是短视频还是长视频,都是转码后的视频。不管是UGC,尤其是PGC产生的内容,很大、很高清的远视大文件,这些文件转码后不再使用了,这种场景就很适合归档存储,这也是数据资产,我们需要保存起来。” 谢广军举例说明。在IBM的帮助下,百度智能云在过去一年中积累了丰富的业务应用场景。另外还有石油勘探、医疗影像、基因测序分析和物联网相关的数据等也可以放在归档存储上。
同时,基于IBM Spectrum Scale(原GPFS)存储软件方案,IBM还在数据孤岛之间建立高效、安全、稳定的数据管道,这对业务本身的数据流通和融合提供很大的帮助。对于百度智能云来讲,统一接口屏蔽介质差异,使得百度的数据在整个生命周期中流转更顺畅,业务可以0成本获得更高性价比。
使用IBM的归档存储技术之前,百度智能云的对象存储分为高性能存储、标准存储和低频存储,这些其实是基于磁盘的。相比之下,有些客户提出需要更高的性价比、保存时间更长的存储产品与服务。此时引入IBM的技术则为百度智能云打造下一个阶梯的存储产品带来了能力补充,补齐了百度智能云存储产品矩阵的最后一块“积木”。同时IBM归档存储技术还做到了磁带作为近线存储,通过整套部署,库体满配,磁带不出库就可以对磁带数据进行不定期访问。
对于百度智能云来讲无论是支撑其内部的业务,还是外部客户的业务,需要7×24小时近线存储。IBM归档存储技术可以实现在一到两分钟之内读到几十TB的一个磁带数据,过去是很多客户不可想象的。
可以说基于IBM存储分布式系统结合百度智能云自己的分布式文件系统。就能够实现百度智能云对外服务的温、热、冷,几种不同的数据通道打通,数据根据自己的生命周期自由去流动。
责任编辑:gt
-
IBM
+关注
关注
3文章
1740浏览量
74583 -
数据
+关注
关注
8文章
6792浏览量
88724 -
存储
+关注
关注
13文章
4213浏览量
85554
发布评论请先 登录
相关推荐
评论