Hadoop真的消亡了吗 2020年最关键的方面：数据本身-电子发烧友网

每到岁末年初，行业专家就会对未来一年的技术发展进行预测，而如今，一切始于大数据问题最关键的方面：数据本身。

不可否认，Hadoop在2019年的发展经历了艰难的一年。但是它完全消亡了吗? Alluxio公司创始人兼首席技术官Haoyuan Li为此表示，以Hadoop分布式文件系统(HDFS)形式存在的Hadoop存储已失效，但以Apache Spark形式存在的Hadoop计算仍然存在。

Haoyuan Li说：“关于Hadoop消亡的说法很多。但是Hadoop生态系统还有后起之秀。诸如Spark和Presto之类的计算框架可从数据中获取更多价值，并已被更广泛的计算生态系统所采用。Hadoop存储(HDFS)由于其复杂性和成本以及由于与HDFS保持联系，而从根本上无法弹性扩展因此导致消亡。为了获得实时见解，用户需要云中可用的即时和灵活的计算能力。HDFS中的数据将迁移到最优化和最具成本效益的系统，无论是云存储还是本地对象存储。HDFS将会消亡，但是Hadoop计算将持续存在并且越来越强大。”

Cloudian公司首席营销官(CMO)Jon Toor表示，随着HDFS数据湖部署的缓慢，Cloudian公司已经准备就绪，可以将数据捕获并将其捕获到其对象存储中。

Toor说，“在2020年，我们将看到越来越多的组织利用对象存储从非结构化数据创建结构化/标记数据，从而允许使用元数据来理解人工智能和机器工作负载生成的数据海啸。”

ThoughtSpot公司首席执行官Sudheesh Nair表示，像Hadoop这样的事情的终结将引发另一件事的开始。

Nair说：“在过去的10年中，我们看到了Hadoop的兴起、平稳发展和终结的开始。这不是因为大数据已经死亡。恰恰相反，几乎每个组织都在致力于成为大数据公司。这是在当今商业环境下运作的要求。数据已经变得如此庞大，而且对这种数据的灵活性需求如此之大，然而，很多企业或者正在构建自己的数据池或数据仓库，或者直接进入云平台。随着2020年这一趋势的加速，我们将看到Hadoop的应用继续下降。”

当数据变得足够大时，就会施加类似引力的力，使其难以移动，同时还可以吸引更多数据。Digital Realty公司首席技术官Chris Sharp说，了解数据的引力将帮助企业克服数字化转型的障碍。

Sharp说：“数据的生成速度是许多企业无法跟上的。这不仅增加了这种复杂性，企业还从难以移动和有效利用的多个位置处理有用却不实用的数据。这给企业带来了一个‘数据引力’问题，这将阻止数字化转型计划向前推进。在2020年，我们将看到企业通过将应用程序更靠近数据源而不是将资源传输到中央位置来解决数据引力问题。通过本地化数据流量、分析和管理，企业将更有效地控制其数据并扩展数字业务。”

在所有条件都相同的情况下，拥有更多数据总比拥有更少数据更好。TD Ameritrade公司的人工智能、数据科学和新兴技术总监Beaumont Vance认为，但企业可以利用现有技术来更好地利用已有数据，从而实现突破。

Vance说，“随着企业创建新的数据池，开发更好的技术来理解研究结果，我们将看到人工智能前所未有的真正价值。目前，企业使用的内部数据不到所有数据的20%，但通过新的人工智能功能，剩下的80%未开发的数据将是可用的，并且更容易理解。先前无法解决的问题将有显著的改善，有助于推动行业和社会的巨大变革。”

大数据很难管理，那么能用小数据采用人工智能技术吗?Zinier公司首席执行官Arka Dhar对此表示肯定。

Dhar说：“展望未来，我们将不再需要大量的大数据集来训练人工智能算法。在以往，数据科学家一直需要大量数据才能对人工智能模型进行准确的推断。人工智能的进步使我们能够以更少的数据获得类似的结果。”

数据的存储方式决定了应该如何处理。GridGain公司首席执行官Abe Kleinfeld说，人们可以使用存储在内存中的数据而不是硬盘上做更多的事情。到2020年，人们将看到组织在基于内存的系统上存储更多数据。

Kleinfeld说：“到2020年，随着数字转型推动企业大规模进行实时数据分析和决策，内存技术的采用将继续飙升。假设从一架飞机上的传感器收集实时数据，以监控性能，并且希望为单台发动机开发预测性维护功能。现在必须将实时数据流中的异常读数与数据池中存储的特定引擎的历史数据进行比较。目前，唯一经济有效的方法是使用内存中的数据集成中心，它基于一个内存计算平台，比如集成了Apache Spark、Apache Kafka，而像Hadoop这样的DataLake存储……随着数据集成中心在企业中的不断扩展，2020年有望成为采用内存计算的关键一年。”

Information Builders公司副总裁Eric Raab和Kabir Choudry表示，大数据可以让企业的业务梦想成真，或者也可能会变成一场噩梦。选择权在于人们自己。

Raab和Choudry说：“那些投资于管理、分析和正确操作数据的解决方案的企业，将比以往任何时候都更清楚地了解自己的业务和成功之路。那些还没有得到信息的组织和人员，将会留下大量他们无法真正理解或负责任地采取行动的信息，使他们做出错误的决定或使数据瘫痪。”

面对现实：管理大数据非常困难。SAS公司数据管理和数据隐私解决方案负责人Todd Wright表示，这一情况在2020年不会改变，这将使人们重新关注数据编排、数据发现、数据准备和模型管理。

Wright说，“根据世界经济论坛的预测，到2020年，人类产生的数据量将达到惊人的44ZB。大数据的前景绝不仅仅来自于拥有更多的数据以及更多的数据来源，而是通过开发分析模型来更好地洞察这些数据。所有的工作都是为了推进分析、人工智能和建模语言的工作，如果企业没有一个能够访问、集成、清理和管理所有这些数据的数据管理程序，这一切都是不可取的。”

企业正在尽可能快地填充NVMe驱动器，以帮助加速数据的存储和分析，尤其是涉及物联网的数据。NGD Systems公司首席执行官兼创始人Nader Salessi表示，仅凭这一点还不足以确保成功。

Salessi说，“NVMe提供了一种缓解措施，并证明可以消除现有平台的存储协议瓶颈，该平台会定期输出TB和PB规模的数据，尽管NVMe的速度要快得多，但是当需要对PB级数据进行实时分析和处理时，它本身还不够快。这就是计算存储的来源，它解决了数据管理和移动的问题。”

数据集成从未如此简单。随着持续不断的数据爆炸以及人工智能和机器学习用例的扩展，这变得更加困难。Denodo公司高级副总裁兼首席市场官Ravi Shankar表示，数据结构是一个显示前景的架构概念。

Shankar说：“通过实时访问来自结构化、半结构化和非结构化数据集的新数据，数据结构将使组织在未来一年更加关注机器学习和人工智能。随着智能技术和物联网设备的发展，动态数据结构通过逻辑数据仓库体系结构提供了对大量数据的快速、安全和可靠的访问。因此，将会推动人工智能技术和商业革命。”

Principal Data公司的Saurav Chakravorty说，通过语义人工智能和企业知识图(EKG)了解不同的数据集是如何连接的，这为解决数据仓库问题提供了其他方法。

Chakravorty说：“组织的宝贵信息和知识通常散布在多个文档和数据孤岛中，给企业造成很大的麻烦。企业知识图(EKG)将允许组织消除零散的知识格局中的语义不一致性。带有企业知识图(EKG)的语义人工智能相互补充，可以为企业在数据湖和大数据方面的投资带来整体价值。”

MemVerge公司首席执行官兼联合创始人Charles Fan认为，2020年可能是存储级内存突破的一年。

Fan说：“随着数据中心应用程序需求的增加以及处理速度的提高，将大力推动以内存为中心的数据中心。计算创新的发展日新月异，越来越多的计算技术从x86到GPU再到ARM。这将继续在CPU和内存单元之间开辟新的拓扑。尽管当前在计算层和存储层之间架构往往会更加分散，但我相信很快就会走向以内存为中心的数据中心。”

机器数据智能平台Circonus公司首席执行官Bob Moul表示，人们正在迅速向边缘部署的融合存储和处理架构迈进。

Moul说，“Gartner公司预测，到2020年全球将有大约200亿台物联网设备，随着物联网设备数量急剧增长并变得更加先进，管理它们的资源和工具也必须做到这一点。企业将需要采用可扩展的存储解决方案来适应数据的爆炸式增长，这些数据有望超越当前技术的包含、处理和提供有价值的见解的能力。”

ASG科技公司产品营销副总裁Rob Perry表示，暗数据最终将在2020年成为现实。

Perry说：“每个组织都有数据孤岛，这些数据被收集起来，但不再(或可能永远不会)用于商业目的。虽然存储数据的成本大幅下降，但存储数据的风险溢价却大幅上升。这些暗数据可能包含必须公开和保护的个人信息。它可能包括受数据主体访问请求限制的信息和可能需要删除的信息，但如果人们不知道它在哪里，则无法满足法规的要求。尽管如此，这些数据也可以提供一些洞察力，为推动业务增长开辟新的机遇。将其置于暗数据中会增加风险，可能会掩盖机会。各组织将把新的重点放在照亮其暗数据上。”

Yugabyte公司创始人兼首席技术官Karthik Ranganathan预测，开源数据库在2020年将会面临美好发展的一年。

Ranganathan说：“十年前，开源数据库在市场上的份额为零，而现在已超过7%。很明显，其市场正在发生变化，到2020年，对真正开源的承诺将会增加。这与数据库和数据基础设施公司放弃其部分或全部核心项目的开源许可证的最新趋势背道而驰。但是，随着技术的飞速发展，切换到100%开放源代码模型将是数据库提供商的最大利益，因为免费增值模型需要花费更长的时间才能使软件成熟到与真正的开放源代码相同的水平。”

但是在2019年，Confluent、Redis和MongoDB等公司从开源业务模型中退出。Rockset公司联合创始人兼首席技术官Dhruba Borthakur说，市场将对开放服务做出回应，而不是开源软件。

Borthakur说，“由于公共云已经完全改变了软件交付和货币化的方式，我预测，到2020年，开放式采购新的破坏性数据技术的时间将结束。现有的开源软件将继续运转，但是建设者或用户没有动力选择开源而不是开放服务来提供新的数据产品。具有讽刺意味的是，易用性推动了开源浪潮，并且易于采用开放服务，这将导致开放源代码的消亡，尤其是在数据管理等领域。就像过去十年是开放源代码基础设施的时代一样，未来十年属于云中的开放服务。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉