0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据涉及的技术理论和资源工具

汽车玩家 来源:今日头条 作者:北方数据中心 2020-03-22 17:40 次阅读

大数据涉及的技术领域

1 研究业务的技术特性要求

大数据相关技术和资源众多,先从市场研究的业务特点来分析其对技术性的一些要求:

1. 数据规模而言,因为客户主要偏传统企业客户(非互联网类),受其业务限制,可分析的大数据规模不会超过百亿/TB级,不像互联网企业达到千亿/PB级。

2. 数据格式还是以结构化数据为主,部分非结构化文本(如互联网/社交方面为主)。

3. 处理模式上,因为分析过程是多次迭代和不断深入,不需要实时出结论,所以离线非实时、批量化/AdHoc结合的OLAP分析是主要模式。这个和很多互联网企业的实时大数据业务要求不同。

4. 分析的属性维度多样,经常变化,关注整体特性。所以对数据管理中的多字段检索和汇总统计的能力要求较高。

基于以上的技术要求,我们来讨论研究业务适合的技术理论与资源。

2主要技术理论

在整个大数据相关技术体系中,研究公司大数据业务涉及的技术领域主要如下:

分布式计算(Distributed computing)

在大数据领域,大部分数据存储和高速计算都离不开分布式计算。日常生活中,我们一台电脑可完成所有计算和数据存储,当觉得不够用时,通常是更换更快的CPU和更大硬盘来解决。但当计算速度和存储要求越来越高时(如大数据环境下对TB甚至PB级数据管理计算),这种通过提升单台服务器性能的集中模式会导致服务器(如使用该运营商话单计费、银行交易系统的小型机)成本极为昂贵,且最终可能仍然无法满足要求。另外一种思路,则是将大的计算需求分摊到多台计算机一起来完成(如同一个大卡车的载货被分到很多台小卡车来运输一样)。相应的分布式计算(包括存储)就是通过多台(成千上万甚至百万)廉价、低性能服务器来实现超高的计算存储能力。在分布式计算系统中,任何计算和存储请求,被自动分为多个小的任务,分摊到各服务器上并行完成。同时,数据分布在多个服务器节点并有备份,这样即使部分服务器损坏并不影响系统运行。

相比集中模式,分布式计算成本和门槛更低,易扩展并具高可靠性。成为近10年来IT体系架构最重要的技术,支撑起了整个互联网的数据和业务,也是云计算和大数据的支撑技术之一。

机器学习(Machine Learning)

如果说分布式计算是IT体系架构的明星,那机器学习就是智能数据分析的利器了。作为人工智能的核心研究领域之一,机器学习是为了让计算机通过经验(先验知识数据)来模仿人类的学习能力,从而获得计算机系统能力的提升。上世纪末,随着统计学习理论出现和发展,机器学习从IT技术逐步扩展为一种交叉学科,在很多非IT领域也得到广泛应用。虽然相关算法在理论上需要较多的知识背景,但不要觉得它是多么高大上,比如研究行业常用到的决策树、分类(有监督学习)和聚类(无监督学习),实际都是机器学习的算法子集(其他常用的还有Bayes网络、支持向量机和神经元网络等)。基于训练-建模-分类-优化的迭代生成模式,使得机器学习在实际的分析性能和模型适用性方面,具有较大的优势。近两年来,基于多层神经网络深度学习(Deep Learning)理论在一些领域(自然语言、音视频识别)具有突出的表现,有望进一步推动机器学习的深入分析能力。

大数据领域,机器学习由于其在数据分析方面的先天优势能力,当仁不让的成为相关数据分析的核心技术。该方面的技术水平成为当前衡量大数据分析能力的重要标志。

自然语言处理(Natural Language Process)

大数据的多种数据中,非结构化数据日趋庞杂和重要,其代表就是自然语言形式的语义内容(搜索、新闻、社交媒体、电商评论等),而对其内容的分析(如文本挖掘)离不开自然语言处理技术。相关学术学科叫计算语言学,作为计算机与语言的交叉学科,它以统计性、量化的方式来研究语言的规律。自然语言处理涉及分词、词法、句法、语法、语义分析等多个层面,相当复杂。而当前商业性应用,中文的主要集中在分词、词频统计、关键特征抽取等浅层分析、情感倾向与主题模型(如LDA/PLSA等)和机器翻译等方面。传统研究业务中,也可用于开放题/讨论文本的自动分析编码。实际上,NLP的应用领域应该可以更大。举一个有趣的例子,曹雪芹的《红楼梦》最后40章常被认为是高鹗续作,但相关观点的红学家/语言学家并不能有效证明。借助计算语言学,可对前80章和后40章的内容进行分析(包括用词习惯、句法、文法等等),可得到两部分文章在行文风格的多种量化指标,通过其差异就能判断是否为不同的作者。计算语言学的理论基础感觉近年来进展不大,但深度学习近来的表现有望帮助其在应用性能方面有所提升。

数据挖掘(Data Mining)

数据挖掘在非大数据时代(海量数据)就已经广泛使用(如CRM的用户分析、产品关联分析)。严格的说,其并不算是一种技术,而是一种分析模式:综合利用机器学习、数据库技术和自然语言处理等多种技术方法,从数据中获得相关的结果。在大数据时代,虽然数据的挖掘往往意味着数据金矿,但笔者认为,挖掘技术必须与业务分析思路紧密结合,才会发挥出较大的价值。

其他关键技术

在大数据时代,互联网社交媒体数据(尤其是用户间的关系数据)体现出了前所未有的价值。对上亿用户错综复杂的关系网络的快速分析,正是图计算理论擅长之处。图计算作为新兴的技术理论,主要聚焦节点之间关系的深度研究,其不仅在社交用户分析上价值很大,在恶意欺诈检测、生命科学等领域都有巨大应用前景。

而随着音视频数据的日益普及和传播,针对此类大数据的处理(比如语音识别/图像、视频识别分析)技术,也在大数据业务中逐步开始使用。这些其实都是模式识别(Pattern Recognition)技术的应用,核心问题是特征(维度较高)的抽取和相似/匹配性比较。

3主要技术资源与工具

在前面了解的技术理论之上,我们进一步介绍大数据业务中可使用的技术资源和工具。相关说明按业务流程顺序展开,以主流、免费的开源资源为主

(1)分布式计算框架

分布式计算框架用于完成分布式计算所需的底层任务管理和调度等核心工作,是大数据计算体系结构的基石。

(2)数据管理

数据管理主要包括存储和快速检索。大数据环境中,研究业务相关的数据更多以数据库而不是文件方式存储,所以这里主要介绍几类数据库的选择

(3)处理与计算

市场研究行业大数据业务中,分析相关的数据计算技术是最重要的技术内容,主要集中在以下几个领域:

并行机器学习(Mahout /Spark MLLib)机器学习本已是数据计算利器,而基于分布式的并行机器学习框架则将其能力又大大增强。Mahout中实现了大量的机器学习算法(包括推荐算法)的并行版本(甚至有并行SVD这种高大上),是当前大数据机器学习的主要工具包。MLib基于Spark框架,在性能上有优势,也开始受到广泛的关注。

自然语言处理在中文自然语言处理领域,当前可用的免费开放资源并不多(分词资源较多),一些开放资源主要来自学术院校(清华、中科院、复旦和哈工大等,相关内容不便列出,请自行查找),但在效果上面向工业应用尚有不足。当前常见方式是借助专业技术企业/院校合作获得深入分析能力。

图计算(GraphLab/Spark GraphX)如果有图计算相关的需求可考虑采用这些开源资源。前者是当前最主流的图计算框架,实现了图数据的存储和基础计算逻辑。后者GraphX是Spark体系下的图计算新贵。 R语言R语言作为统计性功能强大的计算语言,在传统研究行业具有较大应用前景。同时其在可视化和开源支持方面也有一定优势。如今R对Hadoop的支持也比较完善。对于熟悉R语言的研究公司,可从R语言更快切入大数据的计算领域。

(4)研究分析

在分析阶段,考虑研究员将成为重要的角色,此时资源聚焦在研究员可以使用的各种工具上。以下是相关的一些内容:

Hive/Impala/Spark Sql分布式的大数据(数据仓库)的分析工具,支持以传统关系数据库Sql语句进行大数据内容的检索,大大降低了研究分析人员的大数据分析门槛,是适合数据分析/研究人员的最佳工具。Hive最早由Facebook开源,应用最广,但性能最差。Impala在性能与稳定性的平衡较好,但限制较多。Spark Sql作为最新的工具,性能最强,但稳定性尚待完善。

TableAU 企业级大数据分析工具,多应用于世界500强企业内部业务分析,不过其是商业付费软件。其优点是大数据下的可视化和方便性,研究人员使用比较容易。就实际应用体会上,感觉更适合企业级内部数据、亿级以下的结构化大数据的场景。分析维度主要是统计性维度,可分析深度相对不足。

SPSS Modeler IBM的商用数据挖掘工具,对大数据支持能力不如TableAU(与其计算复杂度相关),其特点是提供专业的数据挖掘算法,研究中适合做深度/非统计性研究。

Gephi可视化分析如果要做一些传播关系的图形化分析,那不妨考虑Gephi。其支持多种可视化分析图生成。不过在较大数据量(比如2万节点以上)时性能下降较快,所以最好对数据预先做相关平滑和剪枝。

可视化开发框架数据可视化是大数据的一个特色,但这里放到研究分析来说明,是因为可视化技术的价值是帮助更有效的分析,不是花哨的展示。当前国内百度EChart(2.0以上版本)的易用性和功能相对不错(就是感觉样式配色不够专业),国外基于D3框架的应用更能体现可视化的价值(效果强大,但开发比较麻烦)。桌面办公软件中,微软GeoFlow支持Excel的Bing地图可视化。其他还有很多各有特色的可视化框架,不再一一介绍了。

经过以上内容,想必研究同行们对大数据相关技术已经有了基本的认识。如果要想在大数据业务服务中发挥自身价值,研究人员除了转变方法论思路外,还要注意提升自身的技术能力。 传统研究业务中,研究员太依赖DP和其他IT人员进行数据计算处理,自身没有任何技术能力。大数据业态下,技术性分析与传统研究将紧密结合,技术手段的使用程度深入影响数据洞察的深度。研究员如果熟悉相关技术手段(至少分析工具的使用),将会极大扩展自身的分析能力。既熟悉大数据处理技术,又懂得研究业务思路的复合人才—数据科学家,将是未来数据分析业务的王者。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    8897

    浏览量

    137548
收藏 人收藏

    评论

    相关推荐

    使用ads131a04过程中,实际采集得到的最大数据约为理论的1.8倍,为什么?

    长度,所以理论采集数据最大输出为32768/2.5*0.7=9175,但是实际采集得到的最大数据为16832,约为理论的1.8倍,adc时钟为16.384M,a_sys_cfg=x\"
    发表于 12-17 08:07

    大数据的3V、4V、7V,到底是什么意思?

    大数据,顾名思义,就是大量的数据。更专业来说,大数据,是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据软件工具能力范围的
    的头像 发表于 12-06 01:01 237次阅读
    <b class='flag-5'>大数据</b>的3V、4V、7V,到底是什么意思?

    人工智能云计算大数据三者关系

    人工智能、云计算与大数据之间的关系是紧密相连、相互促进的。大数据为人工智能提供了丰富的训练资源和验证环境;云计算为大数据和人工智能提供了强大的支撑平台;而人工智能则通过智能化应用推动了
    的头像 发表于 11-06 10:03 489次阅读

    emc技术大数据分析中的角色

    大数据分析通常涉及来自多个来源和格式的数据。这些数据可能包括结构化数据(如数据库中的表格
    的头像 发表于 11-01 15:22 298次阅读

    物联网和大数据的关系

    在数字化时代,数据已成为一种新的资源,它不仅驱动着经济的发展,也在改变着我们的生活方式。物联网(IoT)和大数据(Big Data)作为两个关键的技术趋势,它们之间的关系日益紧密,共同
    的头像 发表于 10-29 10:20 545次阅读

    智慧城市与大数据的关系

    的建设需要对海量的数据资源进行收集、整合、存储与分析。大数据技术的应用,如智能感知、分布式存储等,使得这些数据能够被高效地处理和利用。 决策
    的头像 发表于 10-24 15:27 770次阅读

    基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

    处理超大数据集。 Hadoop的生态系统非常丰富,包括许多相关工具技术,如Hive、Pig、HBase等,这些工具可以方便地构建复杂的大数据
    的头像 发表于 10-08 15:12 170次阅读
    基于Kepware的Hadoop<b class='flag-5'>大数据</b>应用构建-提升<b class='flag-5'>数据</b>价值利用效能

    大数据在军事方面的应用

    决策支持:大数据技术为战争决策提供了全新的思路和工具。军事机关指挥系统通过搜集和分析大量的战场数据,可以建立复杂的决策模型,快速分析敌我态势,评估作战可行性,并推荐最优的战术方案。这
    的头像 发表于 07-16 09:44 1129次阅读

    大数据采集系统分为几类

    和应用场景. 1. 概述 大数据采集系统是实现数据收集、处理和存储的关键环节。随着大数据技术的快速发展,大数据采集系统也在不断演进和创新。本
    的头像 发表于 07-01 15:44 1625次阅读

    大数据在军事方面的应用有哪些

    大数据技术为战争决策提供了全新的思路和工具。军事机关指挥系统通过搜集和分析大量的战场数据,可以建立复杂的决策模型,快速分析敌我态势,评估作战可行性,并推荐最优的战术方案。 利用
    的头像 发表于 06-23 10:34 1080次阅读

    技术数据中心的应用:如何节省资源和成本

    随着信息技术的快速发展,虚拟化技术已经成为现代数据中心设计和运维不可或缺的一部分。它不仅体现了技术的趋势,还为数据中心带来了显著的
    的头像 发表于 06-03 15:39 372次阅读
    <b class='flag-5'>技术</b>在<b class='flag-5'>数据</b>中心的应用:如何节省<b class='flag-5'>资源</b>和成本

    简析大数据技术下智能充电桩在网络系统中的应用

    简析大数据技术下智能充电桩在网络系统中的应用 张颖姣 安科瑞电气股份有限公司 上海嘉定 201801 摘要:*近几年来随着我国经济社会的飞速发展,各方面实力都有了明显的提升,尤其是步入21世纪以来
    的头像 发表于 02-26 10:57 464次阅读
    简析<b class='flag-5'>大数据</b><b class='flag-5'>技术</b>下智能充电桩在网络系统中的应用

    Linux 基于centos7 在局域网内部署的可组态大数据展示平台

    E-Control基于centos7 在局域网内部署的可组态大数据展示平台,通过浏览器操作组态工具、浏览组态画面,实现工程管理、组态编辑、工业设备采集以及组态运行三大功能。采用标准HTML5技术
    发表于 02-25 00:26

    数据挖掘的应用领域,并举例说明

    数据挖掘(Data Mining)是一种从大量数据中提取出有意义的信息和模式的技术。它结合了数据库、统计学、机器学习和人工智能等领域的理论
    的头像 发表于 02-03 14:19 3175次阅读

    大数据技术是干嘛的 大数据核心技术有哪些

    大数据技术是指用来处理和存储海量、多类型、高速的数据的一系列技术工具。现如今,大数据已经渗透到
    的头像 发表于 01-31 11:07 3602次阅读