0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

非结构化数据存储的六大挑战及解决方法

IBM中国 来源:IBM中国 作者:王伯韬 2022-06-10 09:51 次阅读

专家介绍:王伯韬

24年IT行业经验。1998年加入国际商业机器(中国)有限公司,先后在中国技术支持中心、系统和科技事业部、企业IT架构师团队、IBM中国系统中心等部门工作。获得IBM高级认证系统架构师(Senior Certified IT Architect),参与过国内多家电信企业、大型公共服务机构的IT系统架构设计项目。目前担任IBM中国科技事业部存储团队架构师。

真实经历引发的思考

2022年5月2日下午12:05 我收到了以下流调短信与电话:

[北京市疾控中心提示]您好!根据市卫健委通报的新冠疫情,经流行病学调查,您与感染者存在时空交集,有感染风险。请您及时向所在社区和单位报告....

此时,发现北京健康宝已弹窗,随后接到流调工作人员电话。

流调员:“请问您4月30日下午2点是否去过朝阳区xx商场,xx餐馆”

我:“稍等我看一下……,当时没有去过您提到的几个地点,但是去过几个街区之外的xx吃饭,不过有可能开车经过了您提到的地方”

流调员:“好的,那您去所在社区居委会报备,说明情况,持24小时核酸并签署承诺书,然后可以解除弹窗。”

疫情期间当我们的身边发现确诊病例,大家都希望看到这些人的行动轨迹,如果发生了时空关联,就会收到上面的信息和电话。目前,疫情防控已经变成了我们生活的一部分。大家都希望通过精准科学的方式找到疫情防控和正常生活的平衡点,但又谈何容易。我们可以从数据流向推测和分析事件的成因。然而极致的“精准”,需要数据量足够多,包括手机位置信息,流调人员的排查信息,现场流调信息等等。同时,数据量暴涨也是需要面对的问题。

其实,近年来各个行业的数据量都呈几何级增长。如今,随着传统业务转型,新时代业务云计算、大数据分析、人工智能等新一代应用的出现,非结构化数据并行文件存储给各行各业带来了诸多挑战。

一家人工智能芯片的企业于2017年流片量产了中国首款边缘AI芯片,2019年量产了中国首款车规级AI芯片,凭借30亿美金估值成为全球估值最高的AI芯片独角兽企业。然而,随着企业逐渐从初创企业走向成熟,其在数据存储、管理和调度等方面遇到了一些难题。

其中一个比较突出的问题是数据竖井。在发展初期,往往以项目方式组织资源和部署数据结构,很多项目各有数据集群,形成了一个个数据竖井,或说数据孤岛。对于需要“小步快跑”的初创企业而言,这种方式无可厚非,但随着企业规模扩大,这些相互独立的数据竖井就会给数据管理带来比较大的挑战。

从更大的层面看,他们也面临跨多云数据调度的难题。对于AI企业而言,提高模型训练效率是至关重要的,但训练效率的提高不仅仅依赖于计算资源,也离不开数据的及时调度。由于GPU资源分布在多个公有云上和本地,当GPU资源不断变化时,如何让数据也能快速地跟随变化随需调度,也成为企业在数据管理方面的一个核心需求。

此外,随着数据规模的快速增长,数据管理成本也与日俱增。之前是采用算存一体的方式,计算和存储在一个一体机上实现,随着数据规模增长,这种方案不仅会降低计算设备运行效率,而且成本也会高企不下,因此需要性价比更高的数据存储方案来支持企业的长远发展。

在医疗行业,信息化起步较早,在长期的发展过程中,各业务系统都针对初始单个业务模块的需求陆续建设了很多“烟囱工程“。此外,医疗行业对数据合规要求有其特殊性,门诊电子病历往往需要保留15年以上。数据量的增长使得存储成本难以控制,同时管理、扩展和维护数据在线访问的复杂性大大提高。新一代工作负载,面临数据存储、数据集成、数据可访问性、应用程序数据集成等问题,无法实现现代化应用程序;环境数据分散,存储在太多不同的地理位置,没有数据集成,没有通用的管理能力,数据孤岛使得数据查询和使用异常困难。这就需要一个企业级的、真正的全球共享数据湖基础架构,更快交付洞察,底层存储必须同时支持新时代的大数据和传统的应用,具备安全性、可靠性和高性能。

数据管理之六大挑战

为了应对云计算、大数据分析、人工智能等新一代应用,我们的企业往往在非结构化数据存储中遇到诸多挑战:

挑战1:当前架构无法应对海量数据增长,无序扩展,存在严重的性能瓶颈。传统的SAN文件系统和NAS文件系统,受限于其单个控制器的性能和元数据的处理方式,无法提供更高性能的IO访问,NAS文件系统扩展方式是按照SAN或者NAS的控制器扩展,控制器之间不能实现并行IO操作,无法避免单机头带来的性能瓶颈,并因为文件目录的名称改变而导致应用重新定义。

挑战2:数据孤岛。企业超过50%的数据存放在离散的存储系统中,企业环境的数据分散,存储在太多不同的地理位置,数据孤岛使得数据查询和使用异常困难。数据量的增长使得存储成本难以控制,同时管理、扩展和维护数据在线访问的复杂性大大提高。

挑战3:缺乏企业级的统一数据管理平台。传统的SAN文件系统和NAS文件系统本身不具备智能的、基于策略自动执行的生命周期管理,需要借助单独的软件或者硬件实现数据的分层和备份,导致数据管理困难。

挑战4:无法为未来前沿技术提供有效存储支撑。如云计算的数据需求并行存储能够支持多云架构,统一资源管理,数据安全和高可用。人工智能需求海量数据集存储,大算力。大数据分析业务需求高效分析和高可用。

挑战5:新技术带来的潜在的基础架构“割裂”,没有全局的统一命名空间,难以实现数据共享和安全共享。

挑战6:无可靠的高可用、完整性。不能统一管理和部署,提升运维复杂度。不能支持存储异构,不同NAS机头无法统一存储空间。故障数据重构开销大,对性能影响较大。

高性能ESS给出最优解

为了应对以上挑战,IBM最新发布了基于 Spectrum Scale 的ESS3500,它包括以下特点:

1. 极致的性能和可扩展性:可以从小规模开始构建,然后逐步扩展性能和容量,无任何瓶颈,能够提供极致的数据、元数据和闪存可扩展性。无瓶颈的架构提高了性能,从而实现极大的吞吐量和低延迟访问。IBM ESS 3500在每个单一节点上提供1PBe,吞吐量高达91GB/秒。

2. 统一存储,适用于集群、HDFS、文件、对象与容器环境。

3. 加速AI训练:配合 NVIDIA DGX 系统,AI训练时间缩短 140%。

4. 统一命名空间。实现全球协作:Spectrum Scale 通过主动文件管理分布式磁盘高速缓存技术,跨不同存储和位置随时随地访问数据,在数据中心或全球范围内实现应用加速。

5. 数据完整性和安全性:认证、加密、安全和复制选项,用于满足业务和法规需求。

最后,我想说的是……

各行各业的数字化难题不断涌现,IBM伴随很多客户,一步步突破最新的AI和云计算的性能极限,成就了他们的创新和发展。疫情防控也一样,不仅需要技术的支撑,也需要各方的共同努力、每个人的积极配合,希望世界早日恢复生机蓬勃。

原文标题:我们期望的 “精准”,谈何容易

文章出处:【微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IBM
    IBM
    +关注

    关注

    3

    文章

    1749

    浏览量

    74616
  • 数据管理
    +关注

    关注

    1

    文章

    290

    浏览量

    19603
  • 数据存储
    +关注

    关注

    5

    文章

    963

    浏览量

    50854

原文标题:我们期望的 “精准”,谈何容易

文章出处:【微信号:IBMGCG,微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    结构化布线在AI数据中心的关键作用

    AI 正在不断颠覆各行各业,推动从电影制作到金融行业等各个领域的创新。而在 AI 系统的背后,隐藏着这样一位无名英雄:结构化布线。
    的头像 发表于 11-21 16:51 170次阅读

    戴尔升级结构化存储数据管理,AI创新引领新变革

    在快速演进的人工智能(AI)与数据驱动的时代,企业唯有不断追逐技术创新的浪潮,方能抢占先机,引领行业前行。戴尔科技,作为AI就绪型数据平台的领航者,近期对其Dell PowerScale及数据管理产品组合进行了全面升级,旨在通过
    的头像 发表于 10-29 16:52 495次阅读

    基于分布式对象存储WDS的信托结构化数据整合平台

    基于分布式对象存储WDS的信托结构化数据整合平台
    的头像 发表于 08-28 09:56 269次阅读
    基于分布式对象<b class='flag-5'>存储</b>WDS的信托<b class='flag-5'>非</b><b class='flag-5'>结构化</b><b class='flag-5'>数据</b>整合平台

    定期维护结构化布线对于办公室得重要性

    最大限度地减少网络停机时间,确保最佳性能,并延长基础设施的使用寿命。忽视维护可能会导致连接问题、数据传输速度变慢,甚至整个系统故障。 投入时间和资源进行结构化布线维护是一种积极主动的方法,从长远来看,可以节省
    的头像 发表于 06-14 10:44 217次阅读

    电路板检查故障的六大方法有哪些

    在这篇文章中,我们将详细介绍检查电路板故障的六大方法。这些方法将帮助大家更有效地诊断和修复电路板问题。以下是电路板检查故障的六大方法: 视觉检查 测量电压和电流 电阻测试 电容测试 信号追踪
    的头像 发表于 05-29 14:54 5446次阅读

    态势数据存储方式有哪些

    数据库通过定义数据表、字段、数据类型以及表之间的关系,确保数据的完整性、一致性和安全性。这种存储方式在需要频繁查询和更新
    的头像 发表于 04-22 19:28 282次阅读

    什么是结构化网络布线?结构化网络布线有哪些好处?

    在电缆领域,结构化网络布线这个术语经常被提及。人们将其用作流行语,但它的真正含义是什么?结构化布线到底是什么? 为了了解真正的含义,让我们看它的一些相关定义。 根据光纤协会的说法,结构化布线是由
    的头像 发表于 04-11 11:54 485次阅读

    结构化布线的好处多吗

    结构化布线是网络系统中的重要组成部分,因为它为数据传输提供了强大、可扩展且可靠的基础。通过遵守全球公认的标准,结构化布线可促进高速连接、简化故障排除并确保未来的可扩展性。考虑到这些优势,企业应优先
    的头像 发表于 04-07 11:15 405次阅读

    什么是网络系统中的结构化布线?

    结构化布线在网络系统中发挥着至关重要的作用,为组织内的无缝通信和数据传输提供了坚实的基础。这种综合基础设施旨在支持广泛的应用程序和技术。本文将深入探讨它是什么、为什么它很重要以及它为组织提供的好处
    的头像 发表于 04-07 10:58 348次阅读

    华为数据存储伙伴赋能六大亮点解读

    精彩回顾 | 华为数据存储伙伴赋能六大亮点解读
    的头像 发表于 03-28 11:33 536次阅读
    华为<b class='flag-5'>数据</b><b class='flag-5'>存储</b>伙伴赋能<b class='flag-5'>六大</b>亮点解读

    华为推出数据湖解决方案及全闪存存储新品

    此次发布的新品包括OceanStor Dorado 2100,这是业界首款面向结构化数据设计的A-A架构入门级全闪存NAS,还有对应升级的SAN存储OceanStor Dorado
    的头像 发表于 02-20 14:18 525次阅读

    科通技术推出基于FPGA的应用设计结构化技术

    随着汽车技术的飞速发展,汽车功能的复杂性对处理芯片的算力及IO端口数量提出了更高的要求。作为一家正在进行IPO排队的公司,深圳市科通技术股份有限公司(以下简称:科通技术)积极应对市场挑战,针对新一代汽车辅助驾驶的需求,研发了一系列基于FPGA的应用设计结构化技术。
    的头像 发表于 02-02 09:34 502次阅读

    CFD 设计利器:结构化结构化网格的组合使用

    (曾用名Autogrid),非常适合带有几何形状叶片的涡轮机械应用。01结构化or结构化网格选择,两难境地?随着几何形状的复杂性不断增加(现在通常有超过10k个曲面
    的头像 发表于 12-23 08:12 1690次阅读
    CFD 设计利器:<b class='flag-5'>结构化</b>和<b class='flag-5'>非</b><b class='flag-5'>结构化</b>网格的组合使用

    MES需求六大常见误区

    电子发烧友网站提供《MES需求六大常见误区.docx》资料免费下载
    发表于 12-21 11:08 0次下载

    使用关系数据库中的半结构化数据

    NoSQL革命已经进入了关系世界。您可能正在使用关系数据库,但仍必须查询和理解隐藏在文本列、JSON或 XML文档中的半结构化数据
    的头像 发表于 12-20 10:46 622次阅读
    使用关系<b class='flag-5'>数据</b>库中的半<b class='flag-5'>结构化</b><b class='flag-5'>数据</b>