0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

非结构化数据存储的六大挑战及解决方法

IBM中国 来源:IBM中国 作者:王伯韬 2022-06-10 09:51 次阅读

专家介绍:王伯韬

24年IT行业经验。1998年加入国际商业机器(中国)有限公司,先后在中国技术支持中心、系统和科技事业部、企业IT架构师团队、IBM中国系统中心等部门工作。获得IBM高级认证系统架构师(Senior Certified IT Architect),参与过国内多家电信企业、大型公共服务机构的IT系统架构设计项目。目前担任IBM中国科技事业部存储团队架构师。

真实经历引发的思考

2022年5月2日下午12:05 我收到了以下流调短信与电话:

[北京市疾控中心提示]您好!根据市卫健委通报的新冠疫情,经流行病学调查,您与感染者存在时空交集,有感染风险。请您及时向所在社区和单位报告....

此时,发现北京健康宝已弹窗,随后接到流调工作人员电话。

流调员:“请问您4月30日下午2点是否去过朝阳区xx商场,xx餐馆”

我:“稍等我看一下……,当时没有去过您提到的几个地点,但是去过几个街区之外的xx吃饭,不过有可能开车经过了您提到的地方”

流调员:“好的,那您去所在社区居委会报备,说明情况,持24小时核酸并签署承诺书,然后可以解除弹窗。”

疫情期间当我们的身边发现确诊病例,大家都希望看到这些人的行动轨迹,如果发生了时空关联,就会收到上面的信息和电话。目前,疫情防控已经变成了我们生活的一部分。大家都希望通过精准科学的方式找到疫情防控和正常生活的平衡点,但又谈何容易。我们可以从数据流向推测和分析事件的成因。然而极致的“精准”,需要数据量足够多,包括手机位置信息,流调人员的排查信息,现场流调信息等等。同时,数据量暴涨也是需要面对的问题。

其实,近年来各个行业的数据量都呈几何级增长。如今,随着传统业务转型,新时代业务云计算、大数据分析、人工智能等新一代应用的出现,非结构化数据并行文件存储给各行各业带来了诸多挑战。

一家人工智能芯片的企业于2017年流片量产了中国首款边缘AI芯片,2019年量产了中国首款车规级AI芯片,凭借30亿美金估值成为全球估值最高的AI芯片独角兽企业。然而,随着企业逐渐从初创企业走向成熟,其在数据存储、管理和调度等方面遇到了一些难题。

其中一个比较突出的问题是数据竖井。在发展初期,往往以项目方式组织资源和部署数据结构,很多项目各有数据集群,形成了一个个数据竖井,或说数据孤岛。对于需要“小步快跑”的初创企业而言,这种方式无可厚非,但随着企业规模扩大,这些相互独立的数据竖井就会给数据管理带来比较大的挑战。

从更大的层面看,他们也面临跨多云数据调度的难题。对于AI企业而言,提高模型训练效率是至关重要的,但训练效率的提高不仅仅依赖于计算资源,也离不开数据的及时调度。由于GPU资源分布在多个公有云上和本地,当GPU资源不断变化时,如何让数据也能快速地跟随变化随需调度,也成为企业在数据管理方面的一个核心需求。

此外,随着数据规模的快速增长,数据管理成本也与日俱增。之前是采用算存一体的方式,计算和存储在一个一体机上实现,随着数据规模增长,这种方案不仅会降低计算设备运行效率,而且成本也会高企不下,因此需要性价比更高的数据存储方案来支持企业的长远发展。

在医疗行业,信息化起步较早,在长期的发展过程中,各业务系统都针对初始单个业务模块的需求陆续建设了很多“烟囱工程“。此外,医疗行业对数据合规要求有其特殊性,门诊电子病历往往需要保留15年以上。数据量的增长使得存储成本难以控制,同时管理、扩展和维护数据在线访问的复杂性大大提高。新一代工作负载,面临数据存储、数据集成、数据可访问性、应用程序数据集成等问题,无法实现现代化应用程序;环境数据分散,存储在太多不同的地理位置,没有数据集成,没有通用的管理能力,数据孤岛使得数据查询和使用异常困难。这就需要一个企业级的、真正的全球共享数据湖基础架构,更快交付洞察,底层存储必须同时支持新时代的大数据和传统的应用,具备安全性、可靠性和高性能。

数据管理之六大挑战

为了应对云计算、大数据分析、人工智能等新一代应用,我们的企业往往在非结构化数据存储中遇到诸多挑战:

挑战1:当前架构无法应对海量数据增长,无序扩展,存在严重的性能瓶颈。传统的SAN文件系统和NAS文件系统,受限于其单个控制器的性能和元数据的处理方式,无法提供更高性能的IO访问,NAS文件系统扩展方式是按照SAN或者NAS的控制器扩展,控制器之间不能实现并行IO操作,无法避免单机头带来的性能瓶颈,并因为文件目录的名称改变而导致应用重新定义。

挑战2:数据孤岛。企业超过50%的数据存放在离散的存储系统中,企业环境的数据分散,存储在太多不同的地理位置,数据孤岛使得数据查询和使用异常困难。数据量的增长使得存储成本难以控制,同时管理、扩展和维护数据在线访问的复杂性大大提高。

挑战3:缺乏企业级的统一数据管理平台。传统的SAN文件系统和NAS文件系统本身不具备智能的、基于策略自动执行的生命周期管理,需要借助单独的软件或者硬件实现数据的分层和备份,导致数据管理困难。

挑战4:无法为未来前沿技术提供有效存储支撑。如云计算的数据需求并行存储能够支持多云架构,统一资源管理,数据安全和高可用。人工智能需求海量数据集存储,大算力。大数据分析业务需求高效分析和高可用。

挑战5:新技术带来的潜在的基础架构“割裂”,没有全局的统一命名空间,难以实现数据共享和安全共享。

挑战6:无可靠的高可用、完整性。不能统一管理和部署,提升运维复杂度。不能支持存储异构,不同NAS机头无法统一存储空间。故障数据重构开销大,对性能影响较大。

高性能ESS给出最优解

为了应对以上挑战,IBM最新发布了基于 Spectrum Scale 的ESS3500,它包括以下特点:

1. 极致的性能和可扩展性:可以从小规模开始构建,然后逐步扩展性能和容量,无任何瓶颈,能够提供极致的数据、元数据和闪存可扩展性。无瓶颈的架构提高了性能,从而实现极大的吞吐量和低延迟访问。IBM ESS 3500在每个单一节点上提供1PBe,吞吐量高达91GB/秒。

2. 统一存储,适用于集群、HDFS、文件、对象与容器环境。

3. 加速AI训练:配合 NVIDIA DGX 系统,AI训练时间缩短 140%。

4. 统一命名空间。实现全球协作:Spectrum Scale 通过主动文件管理分布式磁盘高速缓存技术,跨不同存储和位置随时随地访问数据,在数据中心或全球范围内实现应用加速。

5. 数据完整性和安全性:认证、加密、安全和复制选项,用于满足业务和法规需求。

最后,我想说的是……

各行各业的数字化难题不断涌现,IBM伴随很多客户,一步步突破最新的AI和云计算的性能极限,成就了他们的创新和发展。疫情防控也一样,不仅需要技术的支撑,也需要各方的共同努力、每个人的积极配合,希望世界早日恢复生机蓬勃。

原文标题:我们期望的 “精准”,谈何容易

文章出处:【微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IBM
    IBM
    +关注

    关注

    3

    文章

    1756

    浏览量

    74680
  • 数据管理
    +关注

    关注

    1

    文章

    294

    浏览量

    19613
  • 数据存储
    +关注

    关注

    5

    文章

    970

    浏览量

    50902

原文标题:我们期望的 “精准”,谈何容易

文章出处:【微信号:IBMGCG,微信公众号:IBM中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    戴尔数据湖仓助力企业数字转型

    在数字转型的浪潮下,企业正面临着前所未有的数据挑战。从传统的结构化数据到如今的
    的头像 发表于 12-20 09:31 92次阅读

    AIGC与传统内容生成的区别 AIGC的优势和挑战

    、AIGC与传统内容生成的区别 数据类型与处理 : AIGC主要面向结构化数据的生成,如自然语言文本、图像、音频、视频等。这类数据规模更大
    的头像 发表于 11-22 16:04 252次阅读

    结构化布线在AI数据中心的关键作用

    AI 正在不断颠覆各行各业,推动从电影制作到金融行业等各个领域的创新。而在 AI 系统的背后,隐藏着这样一位无名英雄:结构化布线。
    的头像 发表于 11-21 16:51 317次阅读

    戴尔升级结构化存储数据管理,AI创新引领新变革

    在快速演进的人工智能(AI)与数据驱动的时代,企业唯有不断追逐技术创新的浪潮,方能抢占先机,引领行业前行。戴尔科技,作为AI就绪型数据平台的领航者,近期对其Dell PowerScale及数据管理产品组合进行了全面升级,旨在通过
    的头像 发表于 10-29 16:52 553次阅读

    基于深度学习的三维点云分类方法

    近年来,点云表示已成为计算机视觉领域的研究热点之一,并广泛应用于自动驾驶、虚拟现实、机器人等许多领域。虽然深度学习技术在处理常规结构化的二维网格图像数据方面取得了巨大成功,但在处理不规则、
    的头像 发表于 10-29 09:43 377次阅读
    基于深度学习的三维点云分类<b class='flag-5'>方法</b>

    基于分布式对象存储WDS的信托结构化数据整合平台

    基于分布式对象存储WDS的信托结构化数据整合平台
    的头像 发表于 08-28 09:56 330次阅读
    基于分布式对象<b class='flag-5'>存储</b>WDS的信托<b class='flag-5'>非</b><b class='flag-5'>结构化</b><b class='flag-5'>数据</b>整合平台

    定期维护结构化布线对于办公室得重要性

    最大限度地减少网络停机时间,确保最佳性能,并延长基础设施的使用寿命。忽视维护可能会导致连接问题、数据传输速度变慢,甚至整个系统故障。 投入时间和资源进行结构化布线维护是一种积极主动的方法,从长远来看,可以节省
    的头像 发表于 06-14 10:44 238次阅读

    电路板检查故障的六大方法有哪些

    在这篇文章中,我们将详细介绍检查电路板故障的六大方法。这些方法将帮助大家更有效地诊断和修复电路板问题。以下是电路板检查故障的六大方法: 视觉检查 测量电压和电流 电阻测试 电容测试 信号追踪
    的头像 发表于 05-29 14:54 6223次阅读

    态势数据存储方式有哪些

    数据库通过定义数据表、字段、数据类型以及表之间的关系,确保数据的完整性、一致性和安全性。这种存储方式在需要频繁查询和更新
    的头像 发表于 04-22 19:28 316次阅读

    什么是结构化网络布线?结构化网络布线有哪些好处?

    在电缆领域,结构化网络布线这个术语经常被提及。人们将其用作流行语,但它的真正含义是什么?结构化布线到底是什么? 为了了解真正的含义,让我们看它的一些相关定义。 根据光纤协会的说法,结构化布线是由
    的头像 发表于 04-11 11:54 517次阅读

    结构化布线的好处多吗

    结构化布线是网络系统中的重要组成部分,因为它为数据传输提供了强大、可扩展且可靠的基础。通过遵守全球公认的标准,结构化布线可促进高速连接、简化故障排除并确保未来的可扩展性。考虑到这些优势,企业应优先
    的头像 发表于 04-07 11:15 429次阅读

    什么是网络系统中的结构化布线?

    结构化布线在网络系统中发挥着至关重要的作用,为组织内的无缝通信和数据传输提供了坚实的基础。这种综合基础设施旨在支持广泛的应用程序和技术。本文将深入探讨它是什么、为什么它很重要以及它为组织提供的好处
    的头像 发表于 04-07 10:58 390次阅读

    华为数据存储伙伴赋能六大亮点解读

    精彩回顾 | 华为数据存储伙伴赋能六大亮点解读
    的头像 发表于 03-28 11:33 559次阅读
    华为<b class='flag-5'>数据</b><b class='flag-5'>存储</b>伙伴赋能<b class='flag-5'>六大</b>亮点解读

    华为推出数据湖解决方案及全闪存存储新品

    此次发布的新品包括OceanStor Dorado 2100,这是业界首款面向结构化数据设计的A-A架构入门级全闪存NAS,还有对应升级的SAN存储OceanStor Dorado
    的头像 发表于 02-20 14:18 552次阅读

    科通技术推出基于FPGA的应用设计结构化技术

    随着汽车技术的飞速发展,汽车功能的复杂性对处理芯片的算力及IO端口数量提出了更高的要求。作为一家正在进行IPO排队的公司,深圳市科通技术股份有限公司(以下简称:科通技术)积极应对市场挑战,针对新一代汽车辅助驾驶的需求,研发了一系列基于FPGA的应用设计结构化技术。
    的头像 发表于 02-02 09:34 543次阅读