12月11日, 在北京国际饭店举行的2018中国存储与数据峰会(DATA & STORAGE SUMMIT 2018)上,新华三集团存储产品部总经理徐润安以“闪存新纪元-- Memory-Driven的存储新常态”为题发表主题演讲。以下内容根据速记整理,未经本人审定。
新华三存储产品部总经理徐润安
徐润安:各位嘉宾大家下午好,感谢郑总和大会给新华三一个机会来分享给大家我们对于下一个存储纪元的理解。
大家记得这个图吗?一年前,也是在这个峰会上,我们就谈到了关于这一副清明上河图,一千多年前的生活常态在现在已经发生了更多的改变,有好事者在网上P了一个新的清明上河图。
岁岁年年花相似,年年岁岁人不同,存储市场也是这个样子,可能有客户的需求从来就没有变过,我们要的就是更快、更大、更可靠的存储,而实际上真正承载这样的一个技术的底层的技术,都在不断的发生变革和革新。
金光飞航是往返于港珠澳之间基本的交通工具,在之前我们往返于香港、澳门、珠海都要靠船,这个船很小,如果遇到大风浪,我们都经常会停航,船有时候也非常的颠簸,坐的非常不舒服,但是大家知道在今年,我们在港珠澳之间通行了港珠澳大桥,林总工程师设计了这样一个港珠澳大桥,把整个港珠澳之间的通行变得非常的便利,两岸的同胞们通行起来更加的便利,这成为了港珠澳三地群众的新的生活常态,一个大桥改变了所有的东西。当然这个大桥也用到了非常多先进的技术。
传统的机械盘到NANASSD、SCM,一直有一个像港珠澳的延时,非常大,用什么样的技术可以抵消这部分的延时?那就是英特尔和我们给大家带来的3DXpoint,我很自豪的和大家宣布,12月4日这款产品正式的商用,也就是大家可以在新华三的平台上享受到SCM(Storage Class Memory)带来的便利,这样的技术真的弥补了延迟之间的差距。
首先SCM的技术基于两点,一个是介质的技术,另一个是NVMe。
可以看到NVMe的v1.3最新的版本是17年发布的,未来所有基于SAS.SATA的协议都会被NVMe取代,这个趋势是不可逆的,所以很多的平台都是NVMe平台实现,另外NVMe的生态系统逐渐的完善,从操作系统、虚机等等。
我今天想强调的是NVMe的技术对SCM提供的更好的舞台,正是因为有了NVMe,才可以让其他的东西真正的发挥作用。它可以将SAS和SATA之间的瓶颈消除掉,带来更强的并行处理和输出的能力,从而改变现在的存储市场和产品。
新华三是第一个采用SCM技术、利用NVMe来实现的一个厂商。
来看看NVMe的SCM给大家带来了什么好处?图的最左侧,是传统的介质,磁盘,延迟是10毫秒,所有的控制器和软件延迟都比较高,第一步的变革,就是全闪存时代的到来,换成了SSD NAND的技术,延迟一下子降到了0.1毫秒,我们可以看到在附加SAS控制器的延迟成本,可以看到NVMe的SSD也会带来更进一步的延时的减少,一部分体现在介质上,另外一部分体现在控制器和软件上。SCM,将延时再下降了十倍,这个技术是革命性的,真正的桥接了CPU、MAND和SSD之间的延迟,所以新华三也是HPE在全球第一个推出了SCM解决的方案。
当然,全闪接下来在市场的发展和系统健壮性方面还有很多的疑问,需要各个厂家和所有工作者共同努力,就是比如NVMe对于现有的架构会有多大的影响,也是需要我们考虑的。
操作系统的支持,我们需要去考虑,以及社会的多路径管理等等,所有的这些技术我相信在今后的一两年之内会逐渐的完善起来,然后去满足客户的需要。
客户在选择所有全闪存的时候,也可以对这些问题做适当的关注,当然也欢迎给到我们更多的输入,告诉我们你们更喜欢什么样的NVMe技术,你们更喜欢什么样的全闪。
简单来看,大家最熟悉的NVMe和NANDSSD是很普遍的技术,我们带来的是NVMeon storageClassMemory,会有一个很大的性能改变。
这是我们自己的系统上做的延时的测试,可以看到整个的系统的平均延时下降了50%甚至更低,大家可以看到几乎所有的I/O都会在0.3毫秒以内,95%,这是SCM带来的真正的价值,不仅仅是峰值,而是所有的。
SCM下一步的发展会是什么样的?我们的观点是,在现有这个阶段,SCM将会被用于数据闪存,存储系统里面的闪存.
随着SCM的技术逐渐的进一步的完善以及体系架构的改变,原数据可以更多的存放在SCM上,当SCM的成本降到足够低的时候,SCM甚至可以将整个阵列的所有数据存放上去,届时这就是下一个闪存纪元。
总结我们的方向,首先是SCM,让Memory-Driven可以给大家带来更多的更快的延时,并行处理的协议包括NVMe,包括由此带来的革新性的全闪存的系统。
谈到Memory-Driven,大家也可以看一个例子, DZNE公司采用了我们Memory-Driven的技术以后整个的研究成本降低了60%,研究速度提升了一百倍,当所有的运算不再依靠磁盘介质,而变成NAND介质甚至是SCM介质的时候,带来的计算的速度会成倍的增加,从而带来成本的进一步下降,这是给大家带来的业务价值.
所以我们说,新的闪存纪元不仅仅是要求更多更大的IOPS,可能更快速的响应,更低的延时。
今天这个大会的主旨“DataIntelligence”,我们的存储能不能“Intelligence”?给大家分享一个小例子。
前一段时间去美国的时候,我用了导航软件,因为谷歌不可用,所以当地的朋友推荐了我用waze,这个工具非常好的一点,除了有我们现在百度高德所有的功能外,它提供的非常丰富的反馈功能,也就是作为用户可以实时反馈你在路上看到的情况,大家知道当一条道路显示红色的时候,往往是因为这里的平均车速比较低,但在美国很多的情况是因为有Parkingload有车停在路边,也会导致平均速度降低,驾驶者可把信息提供到软件上,我这里碰到了事故,整个系统学习了这些数据以后,会反馈给路过这条路上的所有驾驶员,这是一个拥有反馈机制的人工智能。
waze还有一个非常大的好处,因为到美国一个新的城市可能路不是很熟悉,waze就会做出推荐,他会问你出行的时间是什么,如果是中午,他会给你推荐最适合中午出行的路线,晚上会推荐你晚上出行的路线,告诉你这条路大概要花多长时间,它不仅仅是基于现在的数据,它基于历史的数据驱分析出来一个结果,反馈给有相同使用需求的人。
存储可不可以?我的答案一定是可以的,我们带来的系统就是这样的,首先根据我们所有的历史状况,发现真正跟存储相关的报错错误,其实只有46%和本身存储有关,更多的是非存储的原因,比如最佳实践和资源冲突以及兼容性的问题,过去往往没有人关注这一点。通过人工智能可以把这些问题全都分析出来。
我们InfoSight人工智能系统上线以后一定是一个闭环,从洞察这些问题,到机器学习,然后到预报,同时还可以做推荐,还有执行,所有的整个一套系统我们是闭环进行的。这套系统上线以后,85%的问题被自动诊断并且解决,5000多个案子被成功避免,所以新华三的服务部门非常开心,工作量一下子减少了,当然对于客户而言,79%的日常IT维护的工作没有了,可以投入更多精力在IT的创新,而不是复杂的运维。
现在我们已经将InfoSight智能系统运行到了我们的平台上运行到了所有HPE服务器上,也就是说整个的InfoSight系统已经被IT基础架构平台上使用,这是简单使用以后的数据。
11倍的高效非常有趣,有一个客户有多台阵列,但是多台阵列之间的负载是不均衡的,有些阵列用满了,有些没有,单用户本身是不知道的,他也没有明确的感知,也不知道是哪个应用把哪台阵列用满了。上线InfoSight以后就给了他建议,某几个应用已经遇到了瓶颈,某台设备也遇到了瓶颈,应该把一些应用和虚机迁移到另一台阵列上,所有的这些工作就可以帮助用户正确的诊断出系统里真正的问题到底在哪里。
另外我们也是全球首创一个饱和度的分析结果,这种分析以前可能是不可想象得,可能我们要咨询团队入住用户的现场待上几个月观察你所有的数据,现在就是一份报告,通过我们的InfoSight系统,绿线是OK,红线就是有问题。
不仅仅是让用户发现问题,而且知道故障是什么原因导致的,以及如何解决。
另外,InfoSight还可以推荐结果,当有客户在一个环境里碰到了问题,并且最终找到了解决方案解决以后,整个解决方案会通过这一套智能系统推送到所有有类似环境的客户里,告诉他们说有类似的潜在风险,需要做一定的升级或采取一定的措施。
当然也有这样的情况,我最近也碰到一些客户经常会问我,现在阵列的分布的版本经常有更新,那作为一个客户我怎么知道现在是不是需要升级系统?InfoSight可以告诉你,这次版本的升级,升级了哪几个补丁,主要为了修复哪些环境上的问题,再检测环境里是不是有类似的潜在风险,如果有就跟你说你需要升级,如果没有就说不用。
所以你可以看到整个有一个反馈的积极正向的反馈机制给到用户,告诉用户你的系统应该怎样的调整。
大家看一下我们的性能分析和处理的大概的流程,包括异常的检测,热点发现,压力评估,社区学习,存储的负载的性能评估,压力的预报,未来的性能走向都会通过InfoSight给到大家一个分析,这样让用户的存储更加的智能,不需要花太多的时间关心运维存储本身,而可以去关注业务。
这个是InfoSight上线以后的情况,我们可以直接升级到L3,小于一分钟的响应时间,93%的案子会被自动处理,客户满意度大大的提升,所有的这些东西智能存储,给我们和客户带来了更多的价值。
所以就像大会说的一样,DataIntelligence,包括所有的功能带给客户,我相信我们准备好了,我们一样把这个会带给大家。
这里是我们整个新华三的存储家族,都会被InfoSight覆盖,变成一个智能的IT设备,我们一直在前行。
评论
查看更多