0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Hadoop真的消亡了吗 2020年最关键的方面:数据本身

西西 来源:企业网D1Net 作者:Alex Woodie 2020-02-04 14:44 次阅读

每到岁末年初,行业专家就会对未来一年的技术发展进行预测,而如今,一切始于大数据问题最关键的方面:数据本身。

不可否认,Hadoop在2019年的发展经历了艰难的一年。但是它完全消亡了吗? Alluxio公司创始人兼首席技术官Haoyuan Li为此表示,以Hadoop分布式文件系统(HDFS)形式存在的Hadoop存储已失效,但以Apache Spark形式存在的Hadoop计算仍然存在。

Haoyuan Li说:“关于Hadoop消亡的说法很多。但是Hadoop生态系统还有后起之秀。诸如Spark和Presto之类的计算框架可从数据中获取更多价值,并已被更广泛的计算生态系统所采用。Hadoop存储(HDFS)由于其复杂性和成本以及由于与HDFS保持联系,而从根本上无法弹性扩展因此导致消亡。为了获得实时见解,用户需要云中可用的即时和灵活的计算能力。HDFS中的数据将迁移到最优化和最具成本效益的系统,无论是云存储还是本地对象存储。HDFS将会消亡,但是Hadoop计算将持续存在并且越来越强大。”

Cloudian公司首席营销官(CMO)Jon Toor表示,随着HDFS数据湖部署的缓慢,Cloudian公司已经准备就绪,可以将数据捕获并将其捕获到其对象存储中。

Toor说,“在2020年,我们将看到越来越多的组织利用对象存储从非结构化数据创建结构化/标记数据,从而允许使用元数据来理解人工智能和机器工作负载生成的数据海啸。”

ThoughtSpot公司首席执行官Sudheesh Nair表示,像Hadoop这样的事情的终结将引发另一件事的开始。

Nair说:“在过去的10年中,我们看到了Hadoop的兴起、平稳发展和终结的开始。这不是因为大数据已经死亡。恰恰相反,几乎每个组织都在致力于成为大数据公司。这是在当今商业环境下运作的要求。数据已经变得如此庞大,而且对这种数据的灵活性需求如此之大,然而,很多企业或者正在构建自己的数据池或数据仓库,或者直接进入云平台。随着2020年这一趋势的加速,我们将看到Hadoop的应用继续下降。”

当数据变得足够大时,就会施加类似引力的力,使其难以移动,同时还可以吸引更多数据。Digital Realty公司首席技术官Chris Sharp说,了解数据的引力将帮助企业克服数字化转型的障碍。

Sharp说:“数据的生成速度是许多企业无法跟上的。这不仅增加了这种复杂性,企业还从难以移动和有效利用的多个位置处理有用却不实用的数据。这给企业带来了一个‘数据引力’问题,这将阻止数字化转型计划向前推进。在2020年,我们将看到企业通过将应用程序更靠近数据源而不是将资源传输到中央位置来解决数据引力问题。通过本地化数据流量、分析和管理,企业将更有效地控制其数据并扩展数字业务。”

在所有条件都相同的情况下,拥有更多数据总比拥有更少数据更好。TD Ameritrade公司的人工智能、数据科学和新兴技术总监Beaumont Vance认为,但企业可以利用现有技术来更好地利用已有数据,从而实现突破。

Vance说,“随着企业创建新的数据池,开发更好的技术来理解研究结果,我们将看到人工智能前所未有的真正价值。目前,企业使用的内部数据不到所有数据的20%,但通过新的人工智能功能,剩下的80%未开发的数据将是可用的,并且更容易理解。先前无法解决的问题将有显著的改善,有助于推动行业和社会的巨大变革。”

大数据很难管理,那么能用小数据采用人工智能技术吗?Zinier公司首席执行官Arka Dhar对此表示肯定。

Dhar说:“展望未来,我们将不再需要大量的大数据集来训练人工智能算法。在以往,数据科学家一直需要大量数据才能对人工智能模型进行准确的推断。人工智能的进步使我们能够以更少的数据获得类似的结果。”

数据的存储方式决定了应该如何处理。GridGain公司首席执行官Abe Kleinfeld说,人们可以使用存储在内存中的数据而不是硬盘上做更多的事情。到2020年,人们将看到组织在基于内存的系统上存储更多数据。

Kleinfeld说:“到2020年,随着数字转型推动企业大规模进行实时数据分析和决策,内存技术的采用将继续飙升。假设从一架飞机上的传感器收集实时数据,以监控性能,并且希望为单台发动机开发预测性维护功能。现在必须将实时数据流中的异常读数与数据池中存储的特定引擎的历史数据进行比较。目前,唯一经济有效的方法是使用内存中的数据集成中心,它基于一个内存计算平台,比如集成了Apache Spark、Apache Kafka,而像Hadoop这样的DataLake存储……随着数据集成中心在企业中的不断扩展,2020年有望成为采用内存计算的关键一年。”

Information Builders公司副总裁Eric Raab和Kabir Choudry表示,大数据可以让企业的业务梦想成真,或者也可能会变成一场噩梦。选择权在于人们自己。

Raab和Choudry说:“那些投资于管理、分析和正确操作数据的解决方案的企业,将比以往任何时候都更清楚地了解自己的业务和成功之路。那些还没有得到信息的组织和人员,将会留下大量他们无法真正理解或负责任地采取行动的信息,使他们做出错误的决定或使数据瘫痪。”

面对现实:管理大数据非常困难。SAS公司数据管理和数据隐私解决方案负责人Todd Wright表示,这一情况在2020年不会改变,这将使人们重新关注数据编排、数据发现、数据准备和模型管理。

Wright说,“根据世界经济论坛的预测,到2020年,人类产生的数据量将达到惊人的44ZB。大数据的前景绝不仅仅来自于拥有更多的数据以及更多的数据来源,而是通过开发分析模型来更好地洞察这些数据。所有的工作都是为了推进分析、人工智能和建模语言的工作,如果企业没有一个能够访问、集成、清理和管理所有这些数据的数据管理程序,这一切都是不可取的。”

企业正在尽可能快地填充NVMe驱动器,以帮助加速数据的存储和分析,尤其是涉及物联网的数据。NGD Systems公司首席执行官兼创始人Nader Salessi表示,仅凭这一点还不足以确保成功。

Salessi说,“NVMe提供了一种缓解措施,并证明可以消除现有平台的存储协议瓶颈,该平台会定期输出TB和PB规模的数据,尽管NVMe的速度要快得多,但是当需要对PB级数据进行实时分析和处理时,它本身还不够快。这就是计算存储的来源,它解决了数据管理和移动的问题。”

数据集成从未如此简单。随着持续不断的数据爆炸以及人工智能和机器学习用例的扩展,这变得更加困难。Denodo公司高级副总裁兼首席市场官Ravi Shankar表示,数据结构是一个显示前景的架构概念。

Shankar说:“通过实时访问来自结构化、半结构化和非结构化数据集的新数据,数据结构将使组织在未来一年更加关注机器学习和人工智能。随着智能技术和物联网设备的发展,动态数据结构通过逻辑数据仓库体系结构提供了对大量数据的快速、安全和可靠的访问。因此,将会推动人工智能技术和商业革命。”

Principal Data公司的Saurav Chakravorty说,通过语义人工智能和企业知识图(EKG)了解不同的数据集是如何连接的,这为解决数据仓库问题提供了其他方法。

Chakravorty说:“组织的宝贵信息和知识通常散布在多个文档和数据孤岛中,给企业造成很大的麻烦。企业知识图(EKG)将允许组织消除零散的知识格局中的语义不一致性。带有企业知识图(EKG)的语义人工智能相互补充,可以为企业在数据湖和大数据方面的投资带来整体价值。”

MemVerge公司首席执行官兼联合创始人Charles Fan认为,2020年可能是存储级内存突破的一年。

Fan说:“随着数据中心应用程序需求的增加以及处理速度的提高,将大力推动以内存为中心的数据中心。计算创新的发展日新月异,越来越多的计算技术从x86到GPU再到ARM。这将继续在CPU和内存单元之间开辟新的拓扑。尽管当前在计算层和存储层之间架构往往会更加分散,但我相信很快就会走向以内存为中心的数据中心。”

机器数据智能平台Circonus公司首席执行官Bob Moul表示,人们正在迅速向边缘部署的融合存储和处理架构迈进。

Moul说,“Gartner公司预测,到2020年全球将有大约200亿台物联网设备,随着物联网设备数量急剧增长并变得更加先进,管理它们的资源和工具也必须做到这一点。企业将需要采用可扩展的存储解决方案来适应数据的爆炸式增长,这些数据有望超越当前技术的包含、处理和提供有价值的见解的能力。”

ASG科技公司产品营销副总裁Rob Perry表示,暗数据最终将在2020年成为现实。

Perry说:“每个组织都有数据孤岛,这些数据被收集起来,但不再(或可能永远不会)用于商业目的。虽然存储数据的成本大幅下降,但存储数据的风险溢价却大幅上升。这些暗数据可能包含必须公开和保护的个人信息。它可能包括受数据主体访问请求限制的信息和可能需要删除的信息,但如果人们不知道它在哪里,则无法满足法规的要求。尽管如此,这些数据也可以提供一些洞察力,为推动业务增长开辟新的机遇。将其置于暗数据中会增加风险,可能会掩盖机会。各组织将把新的重点放在照亮其暗数据上。”

Yugabyte公司创始人兼首席技术官Karthik Ranganathan预测,开源数据库在2020年将会面临美好发展的一年。

Ranganathan说:“十年前,开源数据库在市场上的份额为零,而现在已超过7%。很明显,其市场正在发生变化,到2020年,对真正开源的承诺将会增加。这与数据库和数据基础设施公司放弃其部分或全部核心项目的开源许可证的最新趋势背道而驰。但是,随着技术的飞速发展,切换到100%开放源代码模型将是数据库提供商的最大利益,因为免费增值模型需要花费更长的时间才能使软件成熟到与真正的开放源代码相同的水平。”

但是在2019年,Confluent、Redis和MongoDB等公司从开源业务模型中退出。Rockset公司联合创始人兼首席技术官Dhruba Borthakur说,市场将对开放服务做出回应,而不是开源软件。

Borthakur说,“由于公共云已经完全改变了软件交付和货币化的方式,我预测,到2020年,开放式采购新的破坏性数据技术的时间将结束。现有的开源软件将继续运转,但是建设者或用户没有动力选择开源而不是开放服务来提供新的数据产品。具有讽刺意味的是,易用性推动了开源浪潮,并且易于采用开放服务,这将导致开放源代码的消亡,尤其是在数据管理等领域。就像过去十年是开放源代码基础设施的时代一样,未来十年属于云中的开放服务。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6566

    浏览量

    87952
  • 数据库
    +关注

    关注

    7

    文章

    3641

    浏览量

    63745
  • 人工智能
    +关注

    关注

    1781

    文章

    44997

    浏览量

    232401
收藏 人收藏

    评论

    相关推荐

    2020-2022-2024TI杯全国大学生电子设计竞赛官方推荐芯片对比分析比较

    2020-2022-2024TI杯全国大学生电子设计竞赛官方推荐芯片对比分析比较 一一度的TI杯全国大学生设计竞赛又正式拉开帷幕,器件清单一出来又忍不住对2024、2022
    发表于 06-25 10:25

    车路云协同,这次它真的了吗

    ,前些年搞得沸沸扬扬,但是最终都很难落地。想必你也发现了:短短几天时间,多地密集传来车路云一体化布局新进展。难道它真的了吗?北京5月31日,北京市公共资源交易服务平台
    的头像 发表于 06-13 08:25 213次阅读
    车路云协同,这次它<b class='flag-5'>真的</b>来<b class='flag-5'>了吗</b>?

    降价潮背后:大模型落地门槛真的了吗

    “比起价格门槛,AI大模型的应用门槛,更难跨越。”大模型争相降价下,AI应用的门槛真的降低了吗?答案还真不一定。因为除了价格门槛,AI大模型还有应用门槛。甚至,后者比前者更具挑战性。B端业务场景向来
    的头像 发表于 06-13 08:04 260次阅读
    降价潮背后:大模型落地门槛<b class='flag-5'>真的</b>降<b class='flag-5'>了吗</b>?

    Hadoop是什么?其核心由两大部分组成,分别是什么?

    Hadoop是一个开源的分布式计算框架,它可以处理大规模数据集并能够在通常由计算机集群或者计算机网络上的数千台计算机上并行运行。Hadoop的设计初衷是为了解决大规模数据处理和分析的问
    的头像 发表于 02-05 10:52 1137次阅读

    ade7753想要读取电流、电压、功率、电能,直接读寄存器就行了吗

    想要读取电流、电压、功率、电能。直接读寄存器就行了吗? 相位、增益误差方面的内容怎么进行设置?
    发表于 12-25 07:59

    电源时序控制的正确方法,你掌握了吗

    电源时序控制的正确方法,你掌握了吗
    的头像 发表于 12-15 09:27 889次阅读
    电源时序控制的正确方法,你掌握<b class='flag-5'>了吗</b>?

    IGBT和MOSFET该用谁?你选对了吗

    IGBT和MOSFET该用谁?你选对了吗
    的头像 发表于 12-08 18:25 896次阅读
    IGBT和MOSFET该用谁?你选对<b class='flag-5'>了吗</b>?

    肖特基二极管,你真的用对了吗

    肖特基二极管,你真的用对了吗
    的头像 发表于 12-07 14:27 318次阅读
    肖特基二极管,你<b class='flag-5'>真的</b>用对<b class='flag-5'>了吗</b>?

    #2023,你的 FPGA 年度关键词是什么? #

    FPGA 年度关键词,我的想法是“标准化”;今年的工作中遇到了不少同事的issues,本身都是小问题或者很细节的东西但是却反复出现问题,目前想到的最好的办法是做好设计规则的标准化才能避免,不知道大家有没有更好的建议?
    发表于 12-06 20:31

    用Verilog编写ad7768-1的引脚模式读取转换后数据代码,偶尔会读出错误数据的原因?怎么处理?

    输入。在用直流信号测试的时候还是读的比较准的,但偶尔会读出错误数据,而在用正弦信号测试的时候就会产生很多的错误。 下边是我读一次数据的时序图 请问我是时序方面哪里做错了吗 各位有没有
    发表于 12-01 06:20

    基于Hadoop云计算智能家居信息处理平台

    电子发烧友网站提供《基于Hadoop云计算智能家居信息处理平台.doc》资料免费下载
    发表于 10-30 11:06 0次下载
    基于<b class='flag-5'>Hadoop</b>云计算智能家居信息处理平台

    MOS管用作防反接的接法,理解了吗

    电路防反接,你真的会用了吗?MOS管用作防反接的接法,理解了吗?”,做过电子产品设计的工程师,都会在电源部分加入防反接电路,主要目的就是怕电源的GND和正极接反,导致电路板烧毁。
    发表于 10-08 15:26 1674次阅读
    MOS管用作防反接的接法,理解<b class='flag-5'>了吗</b>?

    什么是可信数据空间 可信数据空间关键技术解析

    数据流通已经成为释放数据价值的难点与堵点,数据要素市场化需从制度、市场、技术三个方面共同推动,其中可信数据空间是技术的坚实支点。可信
    的头像 发表于 09-20 11:12 2333次阅读
    什么是可信<b class='flag-5'>数据</b>空间 可信<b class='flag-5'>数据</b>空间<b class='flag-5'>关键</b>技术解析

    华为的芯片解决了吗 美国恢复华为5G芯片供应了吗

    华为的芯片解决了吗 美国恢复华为5G芯片供应了吗 华为作为全球领先的通信设备和技术服务供应商,在5G领域扮演着非常重要的角色。然而,由于美国政府对华为施加的制裁,华为芯片由于被列入实体清单,无法采购
    的头像 发表于 08-31 09:36 4140次阅读

    摩尔定律为什么会消亡?摩尔定律是如何消亡的?

    虽然摩尔定律的消亡是一个日益严重的问题,但每年都会有关键参与者的创新。
    的头像 发表于 08-14 11:03 1653次阅读
    摩尔定律为什么会<b class='flag-5'>消亡</b>?摩尔定律是如何<b class='flag-5'>消亡</b>的?