0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

对象存储适合AI和机器学习工作负载的三个原因

如意 来源:51cto 作者:51cto 2020-07-06 09:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

各种各样的企业在加快AI机器学习项目,但要真正发挥潜力,需要克服重大的技术障碍。虽然计算基础架构常常是关注的重点,但存储同样重要。这三个主要的原因表明了为什么对象存储(而不是文件存储或块存储)特别适合AI和机器学习工作负载:

1. 可扩展性——有庞大且多样的数据源可供学习时,AI和机器学习最有效。数据科学家利用这些丰富的数据来训练领域模型。在“大数据的五个V”(容量、种类、速度、准确性和价值)中,前两个(容量和种类)最重要。简而言之,AI和机器学习依赖大量多样化的数据(图像、文本、结构化和半结构化数据),构建有用的模型、提供准确的结果并最终提供业务价值。

对象存储是最具扩展性的存储架构,特别适合支持AI和机器学习所需的大量数据。对象存储旨在通过横向扩展方法支持无限增长,使企业组织能够通过随时随地添加节点来扩大部署范围。由于对象存储使用单个全局命名空间,也可以同时跨多个地方进行这种扩展。另一方面,文件和块系统通常采用纵向扩展方法。这意味着这种平台通过为单个节点添加更多计算资源实现纵向扩展,这种方法最终受到限制。它们无法通过部署额外节点来增加计算资源以高效地横向扩展。

2. API——健壮灵活的数据API对于AI和机器学习很重要,如前所述,AI和机器学习使用多种类型的数据。存储平台需要支持API以容纳各种数据。此外,AI和机器学习方面的创新日益在公共云上完成,但是仍有相当一部分的AI和机器学习在本地或私有云中进行,这取决于使用场合的具体情况(比如说,科学研究和医疗保健等领域的容量密集型工作负载往往最适合私有云)。这意味着企业需要在公共云和本地/私有云中都支持工作负载的存储API。

文件和块存储平台在它们支持的API方面受到限制,部分原因是它们是较旧的架构。相比之下,对象存储使用云端更高级的API,这种API旨在以应用程序为中心,并支持比文件和块存储更广泛的API,包括版本控制、生命周期管理、加密、对象锁定和元数据。此外,支持AI和机器学习使用场景的新对象存储API(比如支持流数据和海量数据集的查询)也有可能。

由于对象存储API围绕Amazon S3实现了标准化,更容易整合本地和公共云中的软件。企业可以轻松地将部署的AI和机器学习从本地/私有云环境扩展到公共云,或者将云原生的AI和机器学习工作负载迁移到本地环境,功能不会减损。这种双模式方法使企业能够以合作、可互换的方式利用本地/私有云和公共云上的资源。

由于S3 API已成为对象存储事实上的标准,许多软件工具和库都可以充分利用该API。这允许共享代码、软件和工具,促进AI/机器学习社区更快速的开发。例子包括流行的机器学习平台,比如拥有内置S3 API的TensorFlow和Apache Spark。

3.元数据——与API一样,使用AI和机器学习的企业利用无限制、可自定义的元数据显得至关重要。元数据就是关于数据的数据——从最基本的层面上讲,某个数据何时在何地创建、创建者是谁。但是元数据可以描述更多信息:用户可以创建任意的元数据标签来描述他们需要的任何属性。

数据科学家需要丰富的元数据来查找特定数据以构建和使用AI和机器学习模型。随着更多信息添加到数据中,元数据注释便于逐步积累知识。

文件和块存储仅支持有限的元数据,比如上述基本属性。这在很大程度上归结为可扩展性,因为文件和块系统无力支持快速无缝的增长,如果存储系统为依赖庞大数据集的AI和机器学习应用程序支持丰富的元数据,自然会出现这种情况。然而,对象存储支持无限制的、完全可自定义的元数据,从而更容易找到用于AI和机器学习算法的数据,并从中获得更准确的信息。

以一家医院针对X射线图像使用图像识别应用程序为例:有了元数据,可以使用TensorFlow模型来分析添加到对象存储系统的每个图像,然后为每个图像分配细化的元数据标签(比如,伤病类型、基于骨骼大小或生长情况来判断患者的年龄或性别)。然后可以针对该元数据训练TensorFlow模型,并加以分析,对患者获得新的宝贵信息(比如说,二三十岁的女性比五年前更容易患骨骼疾病)。

几乎每家《财富》 500强公司都在大张旗鼓地搞AI和机器学习,可以想象这些技术在可预见的将来将是最重要的企业IT项目。然而,AI/机器学习项目要获得回报,企业就要使用合适的存储基础架构。由于可扩展性、支持各种API(尤其是S3)和丰富的元数据,对象存储可谓是AI和机器学习的最佳支柱。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4901

    浏览量

    90331
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI Ceph 分布式存储教程资料大模型学习资料2026

    开销与延迟。 、 弹性扩展与数据一致性:面向未来的存储底座 大模型的训练是一动态伸缩的过程,可能从几十张卡扩展到几千张卡。AI 分布式存储
    发表于 05-01 17:35

    黑马-Java+AI新版V16零基础就业班百度云网盘下载+Java+AI全栈开发工程师

    代码的确定性优势 大语言模型集成是 Java+AI 的重要子领域。与传统机器学习输出数值或类别不同,大语言模型的自由文本输出给 Java 程序带来了解析问题。核心对策是利用模型的结构化输出能力(JSON
    发表于 05-01 11:29

    定华雷达仪表学堂:不适合安装雷达物位计的三个位置

    物位计测量准确、运行稳定,安装位置的选择至关重要。以下是三个不适宜安装的位置及具体原因分析: 1. 远离进料口 原因:进料口附近物料流动剧烈,容易产生漩涡、气泡或粉尘,这些都会对雷达波的正常传播与反射造成干扰,导致
    的头像 发表于 02-26 13:47 229次阅读

    三个经典开关电源实际问题解析

    下面三个关于多路输出电源连续工作模式的问题,测试一下您的电源设计知识。然后核对您的答案。
    的头像 发表于 01-22 16:08 3754次阅读
    <b class='flag-5'>三个</b>经典开关电源实际问题解析

    MDD从工程故障看极管三个极的设计误区与失效案例

    一、为什么极管问题总是“看起来很随机”?在FAE现场支持中,经常遇到如下问题:-同一电路,有的板子正常,有的异常-高温下工作不稳定-更换批次后性能漂移这些问题,90%都与三个极的设计与使用方式有关
    的头像 发表于 01-19 11:48 410次阅读
    MDD从工程故障看<b class='flag-5'>三</b>极管<b class='flag-5'>三个</b>极的设计误区与失效案例

    机器学习和深度学习中需避免的 7 常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注
    的头像 发表于 01-07 15:37 371次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 <b class='flag-5'>个</b>常见错误与局限性

    探索RISC-V在机器人领域的潜力

    应用,特别是机器人操作系统领域的可行性。MUSE Pi Pro以其强大的K1 AI CPU和官方对主流开源软件栈的积极适配,成为了一非常有吸引力的选择。 二、 硬件初窥:性能小钢炮 MUSE Pi Pro
    发表于 12-03 14:40

    RK3576机器人核心:屏异显+八路摄像头,重塑机器人交互与感知

    时人脸识别、物体检测与跟踪等。同时,在高负载下,芯片温度稳定在65℃左右,证明了其优异的高能效比和低发热特性,非常适合对功耗和散热敏感的机器人产品。 为什么RK3576是机器人开发的
    发表于 10-29 16:41

    未来工业AI发展的三个必然阶段

    与优化 能力的深层革命。 未来十年,工业AI的发展将经历三个清晰的阶段:  智能辅助 → 智能决策 → 自主优化 。这次进化,构成了工业从“人控机器”到“
    的头像 发表于 10-27 15:47 627次阅读
    未来工业<b class='flag-5'>AI</b>发展的<b class='flag-5'>三个</b>必然阶段

    Solidigm 成立AI中央实验室,配备高性能、大密度存储测试集群

    新实验室汇聚AI存储专业技术,为Solidigm合作者提供研究和优化存储AI工作负载影响的平
    的头像 发表于 10-10 17:03 1006次阅读

    NVIDIA如何简化企业AI工作负载

    。无论是从持久化存储中加载模型、检索知识以支持查询,还是协调智能体对工具的调用,数据的高效流转始终是决定 AI 系统性能的核心因素。
    的头像 发表于 09-23 15:21 1305次阅读
    NVIDIA如何简化企业<b class='flag-5'>AI</b><b class='flag-5'>工作</b><b class='flag-5'>负载</b>

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    、浪费资源与破坏环境 二、用小模型代替大模型 1、强化学习 2、指令调整 3、合成数据 、终身学习与迁移学习 1、终身学习 终身
    发表于 09-14 14:04

    科技云报到:西湖大学、智元机器人都选它,存储成为AI下一风口

    科技云报到:西湖大学、智元机器人都选它,存储成为AI下一风口
    的头像 发表于 09-03 11:24 846次阅读

    AI 驱动维逆向:点云降噪算法工具与机器学习建模能力的前沿应用

    维逆向工程领域,传统方法在处理复杂数据和构建高精度模型时面临诸多挑战。随着人工智能(AI)技术的发展,点云降噪算法工具与机器学习建模能力的应用,为
    的头像 发表于 08-20 10:00 892次阅读
    <b class='flag-5'>AI</b> 驱动<b class='flag-5'>三</b>维逆向:点云降噪算法工具与<b class='flag-5'>机器</b><b class='flag-5'>学习</b>建模能力的前沿应用

    医疗AI进化的三个关键技术路径

    2025年第二十二届中国脑血管病论坛(CFCVD)上上演了一场颠覆性对决——“Deepseek”、“豆包”和“39AIAI(人工智能)模型与数位临床医生围绕脑梗死、脑出血、颅内动脉瘤
    的头像 发表于 07-17 14:19 5490次阅读