0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从复杂性的角度看大数据研究和应用面临的挑战

悟空智能科技 来源:未知 作者:胡薇 2018-05-14 10:20 次阅读

中国信息化百人会学术委员、中国工程院院士李国杰认为,目前大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处理系统实现大数据应用的效率较低,成本和能耗较大,而且难以扩展,这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。李国杰认为,发展大数据不要一味追求“数据规模大”,不要“技术驱动”,要“应用为先”,不能抛弃“小数据”方法,同时要高度关注构建大数据平台的成本。

大数据技术和人类探索复杂性的努力有密切关系。20世纪70年代,新三论(耗散结构论、协同论、突变论)的兴起对几百年来贯穿科学技术研究的还原论发起了挑战。1984年盖尔曼等3位诺贝尔奖得主成立以研究复杂性为主的圣菲研究所,提出超越还原论的口号,在科技界掀起了一场复杂性科学运动。虽然雷声很大,但30年来并未取得预期的效果,其原因之一可能是当时还没有出现解决复杂性的技术。

集成电路、计算机与通信技术的发展大大增强了人类研究和处理复杂问题的能力。大数据技术将复杂性科学的新思想发扬光大,可能使复杂性科学得以落地。复杂性科学是大数据技术的科学基础,大数据方法可以看作复杂性科学的技术实现。大数据方法为还原论与整体论的辩证统一提供了技术实现途径。大数据研究要从复杂性研究中吸取营养,从事数据科学研究的学者不但要了解20世纪的“新三论”,可能还要学习与超循环、混沌、分形和元胞自动机等理论有关的知识,扩大自己的视野,加深对大数据机理的理解。

大数据技术还不成熟,面对海量、异构、动态变化的数据,传统的数据处理和分析技术难以应对,现有的数据处理系统实现大数据应用的效率较低,成本和能耗较大,而且难以扩展。这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。

1数据复杂性引起的挑战

图文检索、主题发现、语义分析、情感分析等数据分析工作十分困难,其原因是大数据涉及复杂的类型、复杂的结构和复杂的模式,数据本身具有很高的复杂性。目前,人们对大数据背后的物理意义缺乏理解,对数据之间的关联规律认识不足,对大数据的复杂性和计算复杂性的内在联系也缺乏深刻理解,领域知识的缺乏制约了人们对大数据模型的发现和高效计算方法的设计。形式化或定量化地描述大数据复杂性的本质特征及度量指标,需要深入研究数据复杂性的内在机理。人脑的复杂性主要体现在千万亿级的树突和轴突的链接,大数据的复杂性主要也体现在数据之间的相互关联。理解数据之间关联的奥秘可能是揭示微观到宏观“涌现”规律的突破口。大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理,从而简化大数据的表征,获取更好的知识抽象。为此,需要建立多模态关联关系下的数据分布理论和模型,理清数据复杂度和计算复杂度之间的内在联系,奠定大数据计算的理论基础。

2计算复杂性引起的挑战

大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算,在分析大数据时,需要重新审视和研究它的可计算性、计算复杂性和求解算法。大数据样本量巨大,内在关联密切而复杂,价值密度分布极不均衡,这些特征对建立大数据计算范式提出了挑战。对于PB级的数据,即使只有线性复杂性的计算也难以实现,而且,由于数据分布的稀疏性,可能做了许多无效计算。

传统的计算复杂度是指某个问题求解时需要的时间空间与问题规模的函数关系,所谓具有多项式复杂性的算法是指当问题的规模增大时,计算时间和空间的增长速度在可容忍的范围内。传统科学计算关注的重点是,针对给定规模的问题,如何“算得快”。而在大数据应用中,尤其是流式计算中,往往对数据处理和分析的时间、空间有明确限制,比如网络服务如果回应时间超过几秒甚至几毫秒,就会丢失许多用户。大数据应用本质上是在给定的时间、空间限制下,如何“算得多”。从“算得快”到“算得多”,考虑计算复杂性的思维逻辑有很大的转变。所谓“算得多”并不是计算的数据量越大越好,需要探索从足够多的数据,到刚刚好的数据,再到有价值的数据的按需约简方法。

基于大数据求解困难问题的一条思路是放弃通用解,针对特殊的限制条件求具体问题的解。人类的认知问题一般都是NP难问题,但只要数据充分多,在限制条件下可以找到十分满意的解,近几年自动驾驶汽车取得重大进展就是很好的案例。为了降低计算量,需要研究基于自举和采样的局部计算和近似方法,提出不依赖于全量数据的新型算法理论,研究适应大数据的非确定性算法等理论。

3系统复杂性引起的挑战

大数据对计算机系统的运行效率和能耗提出了苛刻要求,大数据处理系统的效能评价与优化问题具有挑战性,不但要求理清大数据的计算复杂性与系统效率、能耗间的关系,还要综合度量系统的吞吐率、并行处理能力、作业计算精度、作业单位能耗等多种效能因素。针对大数据的价值稀疏性和访问弱局部性的特点,需要研究大数据的分布式存储和处理架构。

大数据应用涉及几乎所有的领域,大数据的优势是能在长尾应用中发现稀疏而珍贵的价值,但一种优化的计算机系统结构很难适应各种不同的需求,碎片化的应用大大增加了信息系统的复杂性,像昆虫种类一样多(500多万种)的大数据和物联网应用如何形成手机一样的巨大市场,这就是所谓“昆虫纲悖论”。为了化解计算机系统的复杂性,需要研究异构计算系统和可塑计算技术。

大数据应用中,计算机系统的负载发生了本质性变化,计算机系统结构需要革命性的重构。信息系统需要从数据围着处理器转改变为处理能力围着数据转,关注的重点不是数据加工,而是数据的搬运;系统结构设计的出发点要从重视单任务的完成时间转变到提高系统吞吐率和并行处理能力,并发执行的规模要提高到10亿级以上。构建以数据为中心的计算系统的基本思路是从根本上消除不必要的数据流动,必要的数据搬运也应由“大象搬木头”转变为“蚂蚁搬大米”。

发展大数据应避免的误区

1不要一味追求“数据规模大”

大数据主要难点不是数据量大,而是数据类型多样、要求及时回应和原始数据真假难辨。现有数据库软件解决不了非结构化数据,要重视数据融合、数据格式的标准化和数据的互操作。采集的数据往往质量不高是大数据的特点之一,但尽可能提高原始数据的质量仍然值得重视。脑科学研究的最大问题就是采集的数据可信度差,基于可信度很差的数据难以分析出有价值的结果。

一味追求数据规模大不仅会造成浪费,而且效果未必很好。多个来源的小数据的集成融合可能挖掘出单一来源大数据得不到的大价值。应多在数据的融合技术上下功夫,重视数据的开放与共享。所谓数据规模大与应用领域有密切关系,有些领域几个PB的数据未必算大,有些领域可能几十TB已经是很大的规模。

发展大数据不能无止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大众、公正法治的良性发展道路,要像现在治理环境污染一样,及早关注大数据可能带来的“污染”和侵犯隐私等各种弊端。

2不要“技术驱动”,要“应用为先”

新的信息技术层出不穷,信息领域不断冒出新概念、新名词,估计继“大数据”以后,“认知计算”、“可穿戴设备”、“机器人”等新技术又会进入炒作高峰。我们习惯于跟随国外的热潮,往往不自觉地跟着技术潮流走,最容易走上“技术驱动”的道路。实际上发展信息技术的目的是为人服务,检验一切技术的唯一标准是应用。我国发展大数据产业一定要坚持“应用为先”的发展战略,坚持应用牵引的技术路线。技术有限,应用无限。各地发展云计算和大数据,一定要通过政策和各种措施调动应用部门和创新企业的积极性,通过跨界的组合创新开拓新的应用,从应用中找出路。

3不能抛弃“小数据”方法

流行的“大数据”定义是:无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集。这是用不能胜任的技术定义问题,可能导致认识的误区。按照这种定义,人们可能只会重视目前解决不了的问题,如同走路的人想踩着自己身前的影子。其实,目前各行各业碰到的数据处理多数还是“小数据”问题。我们应重视实际碰到的问题,不管是大数据还是小数据。

统计学家们花了200多年,总结出认知数据过程中的种种陷阱,这些陷阱不会随着数据量的增大而自动填平。大数据中有大量的小数据问题,大数据采集同样会犯小数据采集一样的统计偏差。Google公司的流感预测这两年失灵,就是由于搜索推荐等人为的干预造成统计误差。

大数据界流行一种看法:大数据不需要分析因果关系、不需要采样、不需要精确数据。这种观念不能绝对化,实际工作中要逻辑演绎和归纳相结合、白盒与黑盒研究相结合、大数据方法与小数据方法相结合。

4要高度关注构建大数据平台的成本

目前全国各地都在建设大数据中心,吕梁山下都建立了容量达2 PB以上的数据处理中心,许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。数据挖掘的价值是用成本换来的,不能不计成本,盲目建设大数据系统。什么数据需要保存,要保存多少时间,应当根据可能的价值和所需的成本来决定。大数据系统技术还在研究之中,美国的E级超级计算机系统要求能耗降低1000倍,计划到2024年才能研制出来,用现在的技术构建的巨型系统能耗极高。

我们不要攀比大数据系统的规模,而是要比实际应用效果,比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用,因地制宜发展大数据。发展大数据与实现信息化的策略一样:目标要远大、起步要精准、发展要快速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    8894

    浏览量

    137495

原文标题:发展大数据不要一味追求数据规模大,要“应用为先”

文章出处:【微信号:WUKOOAI,微信公众号:悟空智能科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    浪潮信息剖析智能时代数据存储领域面临挑战与机遇

    在当今数字化时代,算力与存力的协同增长已成为驱动各行各业发展的关键力量。特别是在人工智能(AI)这一前沿领域,随着数据量的爆炸式增长,对存储系统的需求日益复杂和多样。近期,在首届CCF中国存储大会上,浪潮信息存储首席架构师孙斌深刻剖析了智能时代
    的头像 发表于 12-30 09:43 200次阅读

    芯片的失效分析与应对方法

    在汽车、数据中心和人工智能等关键领域,半导体芯片的可靠成为系统稳定运行的核心要素。随着技术发展,芯片面临着更为复杂的使用环境与性能需求,其失效问题愈发凸显。本文将深入探讨芯片失效的根
    的头像 发表于 12-20 10:02 1355次阅读
    芯片的失效<b class='flag-5'>性</b>分析与应对方法

    一文聊聊自动驾驶测试技术的挑战与创新

    随着自动驾驶技术的飞速发展,自动驾驶测试的重要也日益凸显。自动驾驶测试不仅需要验证车辆的感知、决策、控制模块的独立性能,还需确保系统在复杂场景中运行的整体可靠。然而,自动驾驶测试面临
    的头像 发表于 12-03 15:56 204次阅读
    一文聊聊自动驾驶测试技术的<b class='flag-5'>挑战</b>与创新

    光伏连接器外壳:超越简单塑料的复杂性与重要

    将深入探讨光伏连接器外壳的设计要求及其超越简单塑料的复杂性与重要。 一、光伏连接器外壳的设计要求 材料选择 光伏连接器的外壳并非简单的塑料,而是需要经过精心选择的材料,以满足以下要求: 耐候:光伏系统通常安
    的头像 发表于 11-04 14:50 174次阅读
    光伏连接器外壳:超越简单塑料的<b class='flag-5'>复杂性</b>与重要<b class='flag-5'>性</b>

    简洁至上——探索产品与技术的优雅原则

    背景 上周开发了一个需求,发现一个历史功能,产品和技术代码的角度,将简单的事情变得复杂。这一经历再次深化了我对一个核心理念的认识: 简化复杂性
    的头像 发表于 10-25 11:12 867次阅读
    简洁至上——探索产品与技术的优雅原则

    《AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    和数量直接影响到模型的准确和可靠。因此,数据获取、处理、分析和质量控制在AI for Science中至关重要。此外,数据驱动的研究范式
    发表于 10-14 09:16

    【⌈嵌入式机电一体化系统设计与实现⌋阅读体验】+磁力输送机系统设计的创新与挑战

    ,提高了可靠面临挑战与解决方案 磁悬浮力的不稳定性 :磁悬浮力的非线性本质要求复杂的控制算法来维持稳定悬浮。通过实时反馈控制和先进的算法设计,如自适应控制和模糊逻辑,可以有效
    发表于 09-14 22:44

    设备管理:大数据赋能开启智能新篇章

    传统设备管理存在人工录入易出错、流程复杂、效率低等问题,且缺乏对设备的全面管理和预防维护。大数据应用面临数据安全问题,企业必须采取多方面措
    的头像 发表于 09-04 11:00 77次阅读
    设备管理:<b class='flag-5'>大数据</b>赋能开启智能新篇章

    英伟达Blackwell芯片延迟发货,台积电量产面临技术挑战

    近期,科技界传来消息,英伟达备受瞩目的新一代人工智能(AI)芯片Blackwell GPU因设计复杂性遭遇重大挑战,导致其发货时间预计将推迟三个月或更长时间,这一变动可能波及Meta、谷歌、微软等重量级客户。
    的头像 发表于 08-06 15:28 1614次阅读

    FPGA设计面临挑战和解决方案

    设计可靠的可编程逻辑门阵列(FPGA)对于不容故障的系统来说是一项具有挑战性的任务。本文介绍FPGA设计的复杂性,重点关注如何在提高可靠的同时管理随之带来的功耗增加、设计复杂性和潜在
    的头像 发表于 08-06 11:33 479次阅读

    当今汽车设计面临的互连挑战

    当今汽车的复杂性成倍增加,增添了许多提升乘客舒适的配置和信息娱乐系统,为确保行驶安全采用了先进驾驶辅助系统(ADAS)和自动驾驶技术。许多新增功能都需要提升与其他车辆和周围环境的通信,实质上将车辆
    发表于 07-17 16:12 234次阅读

    全光网应用面临挑战

    尽管全光网络具有诸多优势和广阔的应用前景,但在实际应用中仍然面临一些挑战,例如: 成本挑战:全光网络的建设和维护成本相对较高,包括光纤敷设、光交换设备和光传输设备等硬件设备的采购和维护成本。特别是在
    的头像 发表于 05-09 11:03 559次阅读

    硬件工程师在可靠设计中所面临挑战及解决之道

    Course硬件电路可靠设计HardwareEngineer硬件电路工程师在进行可靠设计时,常常会陷入一系列烦恼之中。这些挑战包括成本、时间压力、可靠预测的不确定性、
    的头像 发表于 03-23 08:16 1019次阅读
    硬件工程师在可靠<b class='flag-5'>性</b>设计中所<b class='flag-5'>面临</b>的<b class='flag-5'>挑战</b>及解决之道

    解决选择合适安全控制器的复杂性

    作者:Jeff Shepard 投稿人:DigiKey 北美编辑 工业系统中的安全是一个关键而复杂的主题,因此为给定应用指定最佳安全控制器具有挑战性。其中考虑因素包括与安全控制器相关的众多
    的头像 发表于 02-13 13:32 589次阅读
    解决选择合适安全控制器的<b class='flag-5'>复杂性</b>

    “精益生产”的角度数字化

    首先,精益生产是一种管理理念和方法体系,旨在消除浪费、提高生产效率和客户满意度。在数字化时代,精益生产得到了更广泛的应用和发展。用户的角度来看,数字化发展为用户带来了更多的便利和选择。用户可以通过
    的头像 发表于 01-08 09:35 366次阅读