0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据分析学习的挑战:复杂性、不确定性及涌现性

454398 来源:alpha007 作者:alpha007 2022-11-17 10:19 次阅读

来源:ST社区

科多分享的大数据分析学习与研究的新挑战:对于习惯结构化数据研究的统计学来说,大数据分析显然是一种崭新的挑战。

挑战来自何方?来自于大数据的复杂性、不确定性和涌现性三个方面,其中复杂性最为根本。

大数据的复杂性

复杂性是大数据区别于传统数据的根本所在,它主要表现为类型复杂性、结构复杂性和内在模式复杂性三个方面,从而使得大数据的存储与分析产生多方面的困难。对于大数据的类型与结构的复杂性这里不再赘述,但它们决定了数据模式的多样化,使得刻画数据特征的模式不断变化、呈几何级数增加。统计学尽管长期以来研究复杂现象的数量特征,但所涉及的数据是结构化的,模式是固定化的,比起大数据要简单得多。

因此,学习大数据,我们不仅要熟悉各种类型的数据模式,还要善于把握它们之间的相互关系与作用,善于综合利用各方面的知识(包括文本挖掘、图像处理、信息网络技术、心理学、社会学等等)加以研究。已有一些学者提出利用网络来描述异质数据间的关系,同时提出了目标数据的“元路径(Meta-Path)”概率刻画模式。同时,由于非结构化数据通常比结构化数据包含更多的无用信息和垃圾信息,因此需要运用特定的方法来去伪存真、去粗存精,例如通过搜索引擎从非结构化数据中检索出有用的信息等等。

大数据的不确定性

网络大数据通常是高维的,以往的统计学习方法往往难以产生令人满意的效果。复杂性必然带来不确定性。

大数据的不确定性表现为数据本身的不确定性、模型的不确定性和学习的不确定性,从而给大数据建模和学习造成困难。数据的不确定性既包括原始数据的不准确,也包括数据处理过程中由各种因素所造成的在不同维度、不同尺度上的不确定性。例如阿里巴巴数据官曾经介绍,区淘宝网上购物者的性别特征就可以有十几种判断。虽然传统的统计学方法主要研究不确定性数据,但传统数据的不确定性明显不同于大数据的不确定性,面对海量、高维、多类型的不确定性数据,传统的统计方法显得力不从心,无论是数据的采集、存储、建模还是查询、检索和挖掘,都需要创新方法。大数据的不确定性必然带来数据处理与分析模型的不确定性,但要解决这一点非常困难,有人提出了“可能世界模型”,认为应该在一定的结构规范下刻画出数据的每一种状态,但这同样极其困难,在实际应用中不可能存在这样一种通用的模型结构,只能采取简化的模型,例如独立性假设、同分布假设等等,尤其是概率图模型已在数据相关性建模等方面得到了广泛的应用。

模型的不确定性又必然带来大数据学习的不确定性,使得模型参数的学习很难找到最优解,找到一个局部最优解都很困难,通常只能采用近似的方法来替代。

随着多核CPU/GPU的普及以及并行计算框架的研究,碎片化方法被普遍认为是解决网络大数据问题的可行方法,但需要做的工作仍然非常多。近些年来,统计学习领域的非参数模型方法提供了一种自动学习思路,但计算过程依然复杂,如何应用到网络大数据以及大数据培训中仍然是个问题。

大数据的涌现性

涌现性是网络大数据有别于其他数据的关键特性,是大数据动态变化、扩展、演化的结果,表现为模式的涌现性、行为的涌现性和智慧的涌现性,其在度量、研判与预测上的困难使得网络数据难以被驾驭。

涌现性的背后是各种信息的交互作用,是产生新的人类行为方式、以及社会经济规律的重要基础。模式的涌现性是指网络数据由于多尺度、异质性而表现出来的、在属性和功能等方面既存在差异又相互关联的特定模式特征,这种涌现性结果对于研究社会网络模型、理解网络瓦解原因具有重要意义。行为的涌现性则与数据的时序性有关,是社会网络中个体行为基于时序分布的统计结果,表现为较大相似性个体之间容易建立社会关系,使得网络在演化过程中自发形成相互分离的连通块。这种涌现性对于研究更多的社会网络模型、理解行为涌现规律具有重要意义。例如,著名网络科学家巴拉巴斯(Barabasi)通过研究发现,人们发送邮件的数量存在着特定的时间分布特征。智慧的涌现性是指网络数据在没有全局控制和预先定义的情况下,来自大量个体的自发语义通过互相融合和连接可以形成为有特定意义的通用语义,整个过程随着数据的变化而持续演进。这种涌现性对于理解网络语义的形成与变化具有重要意义。

总体而言,尽管近些年与大数据研究密切相关的数据库、数据挖掘、机器学习智能工程等领域都取得了很大的进展,但由于大数据的复杂性、不确定性和涌现性,使得相关研究成果难以被直接应用于学习大数据的分析研究之中。传统的分析方法不能准确表示网络大数据在异构性、交互性、时效性和突发性等方面的特点,传统的“假设—模型—验证”的统计方法受到了质疑,而从“数据”到“数据”的第四研究范式还没有真正建立,因此亟需一个新的理论体系来指导,建立新的分析模型。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    8929

    浏览量

    138270
收藏 人收藏

    相关推荐

    优刻得:与DeepSeek模型适配,业绩贡献存不确定性

    全系列模型的适配工作。然而,目前相关业务的效果以及对公司未来业绩的具体贡献仍存在重大不确定性。 同时,经公司核实,截至公告披露日,优刻得并未直接或间接持有杭州深度求索人工智能基础技术研究有限公司的股权。这意味着,尽管双方已展开合作
    的头像 发表于 02-07 10:37 426次阅读

    AFE5808A串并变换之后数据错位,输出结果具有不确定性,为什么?

    AFE5808A串并变换之后数据错位,输出结果具有不确定性,求问可能的原因有哪些?
    发表于 01-01 07:23

    NVIDIA助力百度提升数据分析效能

    数据分析师、运营团队以及销售人员等。过去他们不得不编写繁杂的查询语句,由此耗费掉大量的时间与精力。百度广告业务的重要复杂性,致使相关的业务数据每月会有超过 200 个迭代更新,用
    的头像 发表于 11-20 10:06 347次阅读

    科技云报到:数字化转型,从不确定性确定性的关键路径

    科技云报到:数字化转型,从不确定性确定性的关键路径
    的头像 发表于 11-16 16:52 482次阅读
    科技云报到:数字化转型,从<b class='flag-5'>不确定性</b>到<b class='flag-5'>确定性</b>的关键路径

    raid 在大数据分析中的应用

    RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)在大数据分析中的应用主要体现在提高存储系统的性能、可靠和容量上。以下是RAID在大数据分析
    的头像 发表于 11-12 09:44 385次阅读

    鲁棒在机器学习中的重要

    金融风险评估。这些应用场景对模型的鲁棒提出了极高的要求。 鲁棒的定义 鲁棒通常被定义为系统在面对不确定性和变化时仍能保持其功能的能力。在机器
    的头像 发表于 11-11 10:19 729次阅读

    emc技术在大数据分析中的角色

    在当今这个数据驱动的世界中,大数据分析已经成为企业获取洞察力、优化业务流程和提高竞争力的关键工具。随着数据量的爆炸增长,企业面临着如何有效存储、处理和
    的头像 发表于 11-01 15:22 404次阅读

    云计算在大数据分析中的应用

    云计算在大数据分析中的应用广泛且深入,它为用户提供了存储、计算、分析和预测的强大能力。以下是对云计算在大数据分析中应用的介绍: 一、存储和处理海量数据 云计算提供了强大的存储和计算能力
    的头像 发表于 10-24 09:18 718次阅读

    IP 地址大数据分析如何进行网络优化?

    一、大数据分析在网络优化中的作用 1.流量分析 大数据分析可以对网络中的流量进行实时监测和分析,了解网络的使用情况和流量趋势。通过对流量数据
    的头像 发表于 10-09 15:32 391次阅读
    IP 地址<b class='flag-5'>大数据分析</b>如何进行网络优化?

    计及多重不确定性的规模化电动汽车接入配电网调度方法及解决方案

    摘要:规模日益增长的电动汽车和可再生能源带来的不确定性给配电网的安全运营带来了严峻挑战。为综合考虑多重不确定性、平衡运营成本与系统可靠,首先,提出一种基于分布鲁棒联合机会约束的电动汽
    的头像 发表于 09-14 15:26 521次阅读
    计及多重<b class='flag-5'>不确定性</b>的规模化电动汽车接入配电网调度方法及解决方案

    机器学习数据分析中的应用

    随着大数据时代的到来,数据量的爆炸增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从
    的头像 发表于 07-02 11:22 932次阅读

     相对于人工的不确定性,机器人码垛有何优势

     在现代工业生产中,码垛是一项至关重要的任务,它涉及到将不同形状、大小和重量的物品进行有序地堆叠,以便于后续的运输和储存。然而,传统的人工码垛方式存在着诸多不确定性,这些不确定性可能源自工人的疲劳
    的头像 发表于 06-19 14:45 338次阅读

    什么是嵌入式实时系统的确定性?简析EDMS中的确定性

    ETAS Deterministic Middleware Solution点击跳转(EDMS,前身为AOS) 确定性中间件解决方案,是一个中间件框架,旨在面向汽车领域内应用程序的独特挑战和需求
    的头像 发表于 04-15 11:22 1419次阅读
    什么是嵌入式实时系统的<b class='flag-5'>确定性</b>?简析EDMS中的<b class='flag-5'>确定性</b>

    硬件工程师在可靠设计中所面临的挑战及解决之道

    Course硬件电路可靠设计HardwareEngineer硬件电路工程师在进行可靠设计时,常常会陷入一系列烦恼之中。这些挑战包括成本、时间压力、可靠预测的
    的头像 发表于 03-23 08:16 1243次阅读
    硬件工程师在可靠<b class='flag-5'>性</b>设计中所面临的<b class='flag-5'>挑战</b>及解决之道

    FMEA与智能机器人:提升机器人可靠与安全的关键

    随着科技的飞速发展,智能机器人已经深入到我们生活的方方面面,从工业生产到家庭服务,从深海探险到太空探索,处处都有它们的身影。然而,随着应用的日益广泛,机器人系统的复杂性不确定性也在增加,如何确保
    的头像 发表于 03-22 11:07 778次阅读