0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据技术成为企业长远发展的驱动力量?

我快闭嘴 来源:精英数智科技股份有限公 作者:侯宇辉 2020-09-15 17:47 次阅读

在互联网领域,大数据应用十分广泛,尤其以企业为主,企业作为大数据应用的主体,数据采集、数据存储、数据可视化、数据特征提取、数据特征选择、数据清洗、数据分析、数据挖掘、数据仓库、数据安全等围绕大数据商业价值的利用焦点已备受关注。

一、数据采集

从数据采集层面来看,分为结构化数据、非结构化数据、半结构化数据,来源于物联网的设备采集数据由于成本低、获取方式容易,成为企业大数据采集数据的主要来源之一,实时性相对强,数据量从GB、TB、PB、ZB级扩增。然而对于中小企业或许会受困于没有数据却又想转型通过搭建大数据平台来提升竞争力,企业可以研发符合市场需求的产品,从新用户、活跃用户、粘性用户到留存用户,获取用户的行为数据之后可以进行数据分析。此外数据采集可以有网络爬虫、ETL抽取等。

二、数据存储

有了大量数据之后,对于数据存储方式也提出了要求。数据存储分为关系型数据库存储、分布式数据存储,数据级别较大时可以存储在分布式文件存储系统中。对于搭建大数据平台的企业来说,通常是对业务结果的数据存储于关系型系统,对于TB级及以上数据量存储至分布式系统中,这两种数据可以使用Sqoop等类似的工具进行数据导入导出。

三、数据可视化

在实际工业生产实践中,对于待处理的大数据,首先是数据特征探索阶段,也就是做数据可视化,对数据有个初步的了解,才会知道所拿到的数据能否解决面临的实际问题,适用于什么算法。对于无编程能力的人,只需要掌握数据分析和处理的能力,即可灵活使用可视化类工具如Tableau,通过拖拉拽形成联动,大大缩短数据分析流程。从连接数据源、建立工作表、构建各种图表、仪表板进行可视化展示,进行交叉分析。对于有编程能力的人可以使用R、Python进行数据可视化。

四、数据特征提取及清洗

数据可视化之后,需要对数据进行清洗,对数据中的噪声进行处理以支持后续数据建模。常见的比如进行降维,提取出对实际问题相关性较高的特征因子后,再回归到大数据,或者做相关性分析、主成分分析等。

五、数据分析及挖掘

数据统计及分析主要是基于存储的海量数据进行普通的分析和分类汇总,以满足大多数常见的分析需求。数据挖掘一般没有预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,实现高级别的数

据分析的需求,丰富的历史数据是数据挖掘的先决条件。比较典型的算法有回归、分类、聚类、关联分析。机器学习正是如此,分为监督式学习算法、无监督式学习算法、半监督式学习算法。

六、机器学习

监督式学习算法是从带标签(标注)的训练样本中建立的训练样本中建立模式,并依此推测新的数据标签的算法。比如回归、神经网络、决策树、支持向量机、贝叶斯、随机森林。无监督式学习算法是在学习时并不知道其分类结果,目的是去对原始资料进行分类,以便了解资料内部结构的算法。比如聚类、主成分分析、线性判别分析降维。半监督式学习算法是利用少量标注样本和大量未标注样本进行机器学习,利用数据分布上的模型假设,建立学习器对未标签样本进行标签。

机器学习正被广泛应用于计算机视觉语音识别、自然语言处理等方面。其中深度学习强调模型深度,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更容易准确,更能够刻画数据的丰富内在信息,其实际应用对象不仅包含语音、图像、视频,同样也包含文本、语言和语义信息。另外,卷积神经网络是神经网络的一种,为识别二维形状而特殊设计的多层感知器,擅长处理图像特别是大图像的相关机器学习问题,对图像平移、比例缩放、倾斜或者其他形式的变形具有高度不变性,它的布局更接近于实际的生物神经网络,被广泛应用。当前实现机器学习比较常见的两种主流方式是Spark和Tensorflow框架。机器学习作为人工智能的核心,是企业搭建大数据平台的重要节点,需要结合业务逻辑,按需选择合适的算法模型,不断调参调优,使机器学习服务于企业经营。

七、数据仓库

数据仓库是为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库。在商业智能系统的设计中,数据仓库的构建是关键,是商业智能系统的基础,承担对业务系统数据整合的任务,为商业智能系统提供数据抽取、转换和加载(ETL),并按主题对数据进行查询和访问,为联机数据分析和数据挖掘提供数据平台。海量的数据包括社交网络、移动设备和传感器等新渠道以及新技术使用所带来的半结构化或非结构化的数据。大数据技术架构可分为存储、处理、应用、展示以及整合5个部分,并可根据数据的结构化程度对相关技术进行选择和组合。每个部分包含一些技术要素,而某些要素又可根据结构化程度共同作用形成特定的功能。

从企业角度来说,无论是数据库、数据仓库还是大数据都是解决不同需求、处理不同级别数据量的技术,它们之间并无冲突。针对不同需求和现状进行技术选择,各种技术相互补充、相互协作。目前阶段对于大部分企业来说,想要开展一个全新的大数据项目似乎无从下手。从现有数据仓库建设理论和经验入手,引入部分大数据技术,特别是实现非结构化数据的收集、存储和处理是一种比较可行的方法。

基于云计算的Hadoop大数据框架,利用集群的威力高速运算和存储,实现了一个分布式运行系统,以流的形式提供高传输率来访问数据,适应了大数据的应用程序。将Hadoop技术应用于对数据的采集、ETL、存储、处理,开发提供给传统的数据仓库BI工具,其架构如图所示。利用Hadoop强大的数据处理能力,将各类数据处理成结构化数据,向上提供给传统BI工具,对数据进行分析和结果展示。

八、数据安全

大数据蕴藏着价值信息,但数据安全面临着严峻挑战。一方面,大数据本身的安全防护存在漏洞。虽然云计算对大数据提供了便利,但对大数据的安全控制力度不够,API访问权限控制以及密钥生产,存储和管理方面的不足都可能造成数据泄露。另一方面,在用数据挖掘和数据分析等大数据技术获取价值信息的同时,攻击者也在利用这些大数据技术进行攻击。

当然大数据也为数据安全的发展提供了机会,对海量数据的分析有助于更好的跟踪网络异常行为,对实时安全和应用数据结合在一起的数据进行预防性分析,可防止诈骗和黑客入侵。网络攻击行为留下的痕迹数据以数据的形式隐藏在大数据中,从大数据的存储,应用和管理方面把关,可以有针对性的应对数据安全威胁。企业需要将大数据技术和安全并行,大数据才可以真正成为企业长远发展的驱动力量。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2909

    文章

    44557

    浏览量

    372750
  • 机器学习
    +关注

    关注

    66

    文章

    8406

    浏览量

    132557
  • 大数据
    +关注

    关注

    64

    文章

    8882

    浏览量

    137392
收藏 人收藏

    评论

    相关推荐

    驱动钛丝(SMA)的可靠性设计(4) 力量设计

    结构设计第二个要点,力量设计。为了方便描述,我们先做如下定义:钛丝驱动力,钛丝通电后产生的收缩力:Fq钛丝应变力,钛丝未通电前自身的应力:F0初始载荷力,提前给钛丝配置的初始拉力:F1钛丝执行后的载荷力量
    发表于 11-27 17:49

    速程精密直线旋转执行器:工业自动化的核心驱动力

    速程精密直线旋转执行器:工业自动化的核心驱动力 在快速发展的工业4.0时代,自动化与智能化已成为推动制造业转型升级的关键力量。而在这一变革的浪潮中,速程精密直线旋转执行器以其卓越的性能
    的头像 发表于 09-13 18:04 210次阅读

    PD协议芯片:快充技术的核心驱动力

    PD协议芯片作为快充技术的核心驱动力,正以其卓越的性能和广泛的应用前景引领着行业的发展。通过不断的技术创新和应用拓展,PD芯片将继续为用户带来更加高效、安全、便捷的充电体验。随着物联网
    的头像 发表于 08-14 09:35 517次阅读

    欧姆龙自动化携手格力智能装备赋能多行业发展新契机

    当前,“智改数转”正成为众多工业制造企业实现打通生产“快车道”、促进自身产业升级发展的核心驱动力
    的头像 发表于 08-05 10:39 552次阅读

    AI时代创新潮涌,从探路到引路,萤石云引领千行百业创新

    步入AI新时代,AI、云计算、大数据技术迅速迭代,并日益融入经济社会发展各领域全过程,数字经济成为推动千行百业转型升级的重要驱动力量。今年
    的头像 发表于 07-01 15:17 413次阅读
    AI时代创新潮涌,从探路到引路,萤石云引领千行百业创新

    虹科技术 跨越距离障碍:PCAN系列网关在远程CAN网络通信的应用潜力

    在智能化技术的迅猛发展浪潮中,远程控制与数据传输的高效性变得至关重要,它们已成为现代自动化和物联网领域的关键驱动力
    的头像 发表于 06-28 13:36 302次阅读
    虹科<b class='flag-5'>技术</b> 跨越距离障碍:PCAN系列网关在远程CAN网络通信的应用潜力

    数据中台在制造业中的应用及其转型价值

    在数字化时代,制造业正面临前所未有的挑战与机遇。随着大数据、云计算、物联网等技术发展数据中台已经成为制造业
    的头像 发表于 05-17 17:20 473次阅读

    数据中台:企业数字化转型的驱动力量

    在当今数字化快速发展的时代,企业正积极寻求转型升级的新路径。在这个过程中,数据中台以其独特的功能和价值,逐渐成为企业数字化转型的关键
    的头像 发表于 05-08 17:00 296次阅读

    第二集 知语云智能科技无人机反制技术与应用--无人机的发展历程

    了一系列问题,其中最为突出的便是无人机安全问题。知语云智能科技作为一家专注于无人机反制技术企业,致力于解决这一难题,为无人机行业的健康发展贡献力量。 无人机的
    发表于 03-12 10:56

    大数据技术是干嘛的 大数据核心技术有哪些

    大数据技术是指用来处理和存储海量、多类型、高速的数据的一系列技术和工具。现如今,大数据已经渗透到各个行业和领域,对
    的头像 发表于 01-31 11:07 3382次阅读

    萨科微/金航标之所以能够保持高速发展逻辑

    ,就有钱继续投资研发新技术新产品,会带来新一轮的增长。公司内部也鼓励员工创新,营造了公平开放的氛围,还设立了专门的奖项,每周评选出一位“创新之星”,给予通报表扬和现金奖励!我们保持高速发展驱动力
    发表于 01-31 09:14

    中央控制系统:未来多媒体发展的核心驱动力

    随着科技的飞速发展,多媒体设备在各个领域中的应用越来越广泛。而中央控制系统作为其核心组成部分,正在成为未来多媒体发展的核心驱动力。本文将深入探讨中央控制系统在未来多媒体
    的头像 发表于 01-23 14:42 465次阅读

    脉冲电源技术:革新能源行业的关键驱动力

    脉冲电源技术是当今能源行业中的一项关键驱动力,它正在以前所未有的方式改变着我们对能源的生产、转换和利用方式。脉冲电源技术通过其高效能源转换和精确控制的特性,为可再生能源、电力系统和能源转换领域带来了革命性的变革。本文将深入探讨脉
    的头像 发表于 01-05 13:53 1019次阅读

    语音数据集:推动智能语音技术发展的关键驱动力

    随着人工智能技术的不断进步,智能语音技术已经成为我们日常生活中不可或缺的一部分。语音数据集作为智能语音技术的核心,对于推动其
    的头像 发表于 12-28 13:46 566次阅读

    宏集方案 | 物联网HMI的关键驱动力—SCADA级功能库和控件库

    在这个数字化时代,物联网HMI已成为连接人与设备之间的关键纽带,为用户提供直观、智能的交互体验,背后强大的关键驱动力扮演着至关重要的角色,其中SCADA级功能库和控件库的引入成为了物联网HMI设计和开发的核心要素。
    的头像 发表于 12-26 09:39 507次阅读
    宏集方案 | 物联网HMI的关键<b class='flag-5'>驱动力</b>—SCADA级功能库和控件库