0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

杉岩数据主要解决了机器学习对于高吞吐和低时延的需求问题

lhl545545 来源:DOIT 作者:朱 朋博 2020-09-10 14:03 次阅读

2EB最大单一存储集群

普通个人电脑硬盘一般为500GB,1TB大约等于两块电脑盘,1 PB大约等于2000块电脑硬盘,1EB大约相当于两百万块个人电脑的硬盘,1EB数据量假设用的10TB磁盘的话也需要10万块,如此规模的硬盘摞在一起相比也是非常壮观,更何况要在企业数据中心交付的话,需要非常多的硬件设备。

在杉岩数据的品牌战略暨新品发布会上,CEO陈坚介绍说,杉岩数据最大单一存储集群规模达到了2EB。按照上述粗犷的估算方法,大概需要20万块硬盘,一块3.5寸的盘大约600g,20万块大概是12吨,普通轿车的重量大约在1.5到2吨,算下来就是6到8辆轿车的重量,够形象了吧。

杉岩数据CEO

韩信点兵,多多益善,大规模军队作战难点在于如何高效地组织起有效的进攻和防守,对将领的要求非常高。而杉岩数据组织20万块硬盘的操作同样考虑组织能力,杉岩靠的是软件层次上的创新,将成千上万个硬盘组织起来构成一个集群,在技术上也是非常大的挑战。

2EB最大单一存储集群的出现,是用户用行动证明了对于杉岩数据这样一家存储公司的认可。如此大规模的部署案例,这家分布式存储公司再也不能低调了。

杉岩数据是谁?

杉岩数据是一家来自深圳的软件定义存储厂商,杉岩数据的名字音译自SandStone(砂岩),砂岩是一种沉积岩,主要组成是地壳最常见的成分,而杉岩数据做的软件定义存储依靠的是最常见的通用服务器,在此基础上加入软件存储系统。

IDC给出的市场数据来看,杉岩数据在中国对象存储市场份额排在第二位,在块存储市场也排在第五位,整体软件定义存储市场份额能达到第六位,是一家主流的软件定义存储厂商,在市场上扮演重要角色。

企业级存储市场通常需要慢工出细活儿。杉岩数据成立于2014年,仅仅六年后的2020年就有如此成绩还是非常令人羡慕的,不久前,杉岩数据还宣布获得了1.5亿人民币的B+轮融资,收获市场和资本双重认可,在品牌战略暨新品发布会上,还有有包括华为和阿里云等技术合作伙伴,以及许多行业用户站台。

杉岩数据的崛起之路

2014年,在深圳一个不到三十平的民房里,有几位码农在电脑前忙碌着,一位中年男子,一会儿负责做饭,一会儿负责扫地,灯泡坏了估计还是他负责换,这位中年男子就是陈坚,而这,就是杉岩数据创始成员最早的办公地点,团队成员除了陈坚以外,另外几位小伙伴全都负责写代码。

杉岩数据的初始创始成员包括陈坚在内,主要都来自华为的企业存储业务部门,原本做的业务就与分布式存储相关,对普通人来说从华为出走其实需要不少勇气,华为待遇其实非常好,2014年的华为存储也正处于快速成长期,眼看着业务蒸蒸日上其实想走更难,创业很累不说,还要很多不确定性,除非是对要做的事情非常有把握。

2014年,开源云的浪潮袭来,以OpenStack为代表的开源云方案收获大量拥趸,中国技术才赶上了这波浪潮,与全世界开源爱好者一道做起了开源云,软件开发者越发意识到了软件所能创造的价值,有人说软件能定义一切,对于做基础技术的人而言,软件定义存储也从概念一步步变为现实。

Ceph作为OpenStack推荐的存储方案,也很快变得家喻户晓,使用OpenStack和Ceph的企业用户也非常多,以电信运营商为主的大型企业客户在大规模使用OpenStack方案。同时,国内出现了许多基于Ceph的开源存储解决方案供应商,杉岩数据就是其中的典型代表。

基于Ceph开源项目做企业级存储方案并不容易,Ceph只是技术方案,而企业对于存储方案的稳定性和可靠性要求非常高,将技术转变为经过验证的产品方案需要经过长期的打磨过程,各种辛苦只有杉岩自己最懂。

2020年8月18日,杉岩数据六周年前夕召开的这次品牌战略暨新品发布会,是杉岩数据第一次正式的发布会,标志着杉岩数据正式走上台前,结束了低调期。

CEO陈坚将过去六年分为两个阶段,2014年到2017年期间是产品打磨期,打磨产品的可靠性、稳定性、可用性和可维护性,先是2015年发布了杉岩统一存储平台USP,随后2016年发布海量对象存储MOS,应对海量非结构化数据存储的场景。这一阶段积累了第一批行业头部客户,比如中国移动、深圳供电局、广发证券等。

第二阶段,产品趋于成熟的同时开始大规模推向市场,很快,市场取得了突飞猛进的成果,在金融、电力、能源、医疗、教育等等十多个行业和20多个应用场景收获500+客户,上线的总容量超过了3000PB,单一集群数据规模2EB达到中国最大。

此外,杉岩还是中国云计算标准单位成员之一,中国去年发布的云存储的国标中杉岩是参与标准制定的单位,行业影响力提升。

从2014年到2020年,杉岩数据在6年内总共完成了4轮融资,包括天玑数据、顺为资本、广发乾和、深圳担保集团、中远海运、襄禾资本以及无锡金投都是杉岩数据的投资方,有行业和政府方面的资金,资金方全都是以人民币的方式注资。

陈坚强调,杉岩数据是一家技术驱动型公司,200名员工中有60%都是研发人员,但企业级存储产品的研发要靠技术更要靠经 验,杉岩数据的核心研发人员,平均在存储领域研发经验在7年以上,杉岩数据有一支强大的研发队伍,为杉岩数据贡献了40多项发明和专利。

如今的杉岩数据俨然已是一家独立的存储新势力。

杉岩数据的发展要点与技术创新

作为存储行业的老兵,陈坚将存储发展总结为三个阶段,第一阶段的重点是存好数据,第二阶段是管理好各种数据,当下所处的第三阶段是用好数据,这个时代的特征是智能。陈坚认为,真正的智能存储应该具有数据感知和应用感知的能力,存储系统能够帮助上层应用做数据的处理和智能的调度,帮助应用做加速和优化。

智能是杉岩数据未来的一大发展方向,发布会现场,杉岩数据发布了新一代杉岩融合智能大数据存储解决方案,另外一个重点是国产自主可控,为此,杉岩发布了华岩安全存储一体化解决方案。

杉岩数据的对象存储是传统强项,杉岩数据CTO邱尚高介绍了对象存储的最新消息。新的对象存储V6版本在存的能力上有突破,文件规模理论上可以达到1000亿,单桶文件数支持30亿个。通常情况下,文件数的增多将影响到性能表现,但杉岩数据的整体系统性能表现非常平稳,性能仅下降10%。

与阿里云深度合作构建强化版混合云。以前许多混合云都只是能将本地存储的数据归档到公有云上,而杉岩数据与阿里云构建的混合云能进行双向数据同步,不仅如此,业务还能同时在公有云和私有云上运行,还可以进行业务的平滑迁移。

强化异构纳管能力。在异构方面,V6版本能够纳管如开源的对象存储、金融行业应用较多的Documentum、FileNet、 FastDFS等第三方的对象存储,帮助客户缩短数据迁移时间,保护用户现有投资。

智能处理引擎功能。在杉岩对象存储里面,可以用插件对各种处理组件(OCR识别,或者全文识别,或者人脸识别、车辆识别、机器学习领域等等)进行结合,将非结构化数据转化为结构化数据,提升数据的价值和使用效率,为AI、机器学习等领域的业务赋能。

MosFS主要解决了机器学习对于高吞吐和低时延的需求问题,在上层利用内存以及SSD等技术来加速数据访问。同时,结合业务感知能力,为数据做一层高速缓存来保障机器学习的性能。MosFS还可以把计算存储的本地存盘组成一个分布式的缓存层,加快训练速度。

面向大数据,杉岩对象存储通过替换传统HDFS存储来降低成本并提高性能,做法是提供兼容HDFS的接口,把HDFS的数据归集到统一的存储上,帮助客户实现非结构化数据跟半结构化数据或者结构化数据的完全统一。

华岩国产化一体机是一款统一存储产品,这款产品是基于统一存储产品软件构建的产品,底层采用国产处理器和国产服务器,对外提供标准的块存储以及标准的文件接口和对象接口,满足复合型的业务要求。目前该产品底层处理器支持华为鲲鹏,飞腾,海光,操作系统采用基于信创的麒麟和统信操作系统。

结语

2020年8月的这次品牌战略暨新品发布会是杉岩数据第一次正式发布会,高调介绍2EB最大单一存储集群的项目,高调进行产品发布,这意味着韬光养晦的日子正式告一段落了。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6715

    浏览量

    88308
  • 人脸识别
    +关注

    关注

    76

    文章

    3998

    浏览量

    81357
  • 阿里云
    +关注

    关注

    3

    文章

    922

    浏览量

    42779
收藏 人收藏

    评论

    相关推荐

    物理服务器怎么样?

    洛杉矶作为美国科技和互联网的重要中心,物理服务器的质量通常非常,可以提供卓越的性能、强大的安全性、多样的配置选项和专业的服务支持。以下是对洛物理服务器的详细介绍。
    的头像 发表于 08-16 09:58 117次阅读

    【「时间序列与机器学习」阅读体验】+ 简单建议

    这本书以其系统性的框架和深入浅出的讲解,为读者绘制一幅时间序列分析与机器学习融合应用的宏伟蓝图。作者不仅扎实地构建了时间序列分析的基础知识,更巧妙地展示
    发表于 08-12 11:21

    3GPP R16的主要特点

    移动宽带)、URLLC(可靠通信)、mMTC(大规模机器通信)三大场景的增强。 垂直行业能力增强:R16标准引入了NPN(非公用网络)、5G LAN、TSN(时间敏感网络)等
    发表于 07-24 07:51

    机器学习中的数据分割方法

    机器学习中,数据分割是一项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习
    的头像 发表于 07-10 16:10 613次阅读

    机器学习中的数据预处理与特征工程

    机器学习的整个流程中,数据预处理与特征工程是两个至关重要的步骤。它们直接决定模型的输入质量,进而影响模型的训练效果和泛化能力。本文将从数据
    的头像 发表于 07-09 15:57 192次阅读

    机器学习数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从
    的头像 发表于 07-02 11:22 302次阅读

    便携式光谱成像系统:光谱遥感

    光谱成像作为目前遥感领域最先进的技术,在地质应用中取得了巨大成功。岩石 和矿物由于电子过程和分子振动可以产生特征的光谱吸收,因此可以利用光谱技术进行 矿填图,快速且准确地获取区域内岩石和矿物的分布情况,进而圈定有潜力的找矿
    的头像 发表于 06-21 15:02 357次阅读
    便携式<b class='flag-5'>高</b>光谱成像系统:<b class='flag-5'>岩</b>矿<b class='flag-5'>高</b>光谱遥感

    请问PSoC™ Creator IDE可以支持IMAGIMOB机器学习吗?

    我的项目使用 POSC62 MCU 进行开发,由于 UDB 模块是需求的重要组成部分,所以我选择PSoC™ Creator IDE 来进行项目开发。 但现在,由于需要扩展,我不得不使用机器
    发表于 05-20 08:06

    HarmonyOS实战开发-如何实现音频录制和播放,AudioVivid音乐播放的相关功能

    介绍 本示例主要展示音频录制和播放,AudioVivid音乐播放的相关功能: 录制
    发表于 05-11 20:26

    如何提高CYBT-243053-02吞吐量?

    25KB/s,这对于我们的用例来说非常。 使用自定义固件代替 EZ-Serial 是否有助于提高吞吐量? 欢迎提出任何建议。我已经就此向英飞凌开了一张罚单,但他们回来时没有提供更多信息。 因此,为了提高
    发表于 02-27 06:56

    国产技术创新与实践分享|2024技术创新实践论坛精彩回顾来啦!

    1月19日下午,由中科驭数主办的第二届证券基金行业先进计算技术大会暨2024技术创新实践论坛(上海站)圆满落幕。本次论坛得到了中国计算机学会集成电路设计专委、中国电子工业标准化技术协会新一代
    的头像 发表于 01-20 11:40 1165次阅读

    什么是特征工程?机器学习的特征工程详解解读

    One-hot 编码对于机器学习模型能够理解的简单数字数据替换分类数据很有用。
    发表于 12-28 17:14 256次阅读
    什么是特征工程?<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的特征工程详解解读

    浅析机器学习的基本步骤

    机器学习中,机器学习的效率在很大程度上取决于它所提供的数据集,数据集的大小和丰富程度也决定
    发表于 10-30 11:13 334次阅读
    浅析<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的基本步骤

    GPMC并口如何实现“小数据-,大数据-带宽”

    并口“小数据-”的特点显得格外耀眼,能够很好地提高数据传输效率,降低传输成本。 (2)大数据-
    发表于 09-30 23:43

    机器学习数据挖掘方法和应用

    机器学习数据挖掘方法和应用(经典)
    发表于 09-26 07:56