0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深入研究数据科学家使用的常见统计和分析技术

454398 来源: 企业网D1Net 作者: Ronald Schmelzer 2021-01-14 16:09 次阅读

数据科学技术如今已在许多组织中占有一席之地,数据科学家正迅速成为以数据为中心的组织最受欢迎的角色之一。数据科学的应用程序利用机器学习等技术和大数据的力量来获取深入的见解和新的功能,其中包括预测分析、图像和对象识别、会话人工智能系统等。

事实上,那些没有在数据科学上进行充分投资的组织可能很快落后于在数据科学方面获得显著竞争优势的竞争对手。

数据科学家可以做些什么以提供这种变革性的业务收益?数据科学领域是一些关键要素的集合:准确提取可量化数据的统计和数学方法;使用先进的分析技术和方法从科学角度解决数据分析的技术和算法,有助于处理大型数据集;以及可以帮助将大量数据整理成获得高质量见解的所需格式的工具和方法。

以下将更深入地研究数据科学家使用的常见统计和分析技术。其中一些数据科学技术植根于数世纪的数学和统计工作,而另一些技术则相对较新,利用了机器学习、深度学习和其他形式的高级分析的研究成果。

数据科学如何发现数据之间的关系

当识别大量数据中的信息时,数据科学家首先需要辨别不同的数据元素如何相互关联。例如,如果在一张图上绘制了一堆数据点,那么如何知道它们是否有意义?

数据科学家最广泛使用的有三种统计和分析技术。也许数据表示两个或多个变量之间的关系,而其工作是绘制某种最能描述这种关系的曲线或多维平面。或者,它代表具有某种亲和力的集群。其他数据可能代表不同的类别。通过发现这些关系,可以使数据的其他随机性具有意义,然后可以对其进行分析和可视化,以提供组织可以用来制定决策或计划策略的信息。

以下了解可用于执行分析的各种数据科学技术和方法:

分类技术

在分类问题中,数据科学家要回答的首要问题是:“这些数据属于什么类别?”将数据分类的原因很多。也许数据是手绘的图像,人们需要知道图像代表什么字母或数字。或者代表贷款申请的数据,想知道它应该属于“已批准”还是“已拒绝”类别。其他分类可以集中在确定患者治疗方案或电子邮件是否是垃圾邮件。

数据科学家用来将数据过滤到类别中的算法和方法包括:

•决策树。这些是分支逻辑结构,使用机器生成的参数和数值树将数据分类为已定义的类别。

•贝叶斯分类器。利用概率的力量,贝叶斯分类器可以帮助将数据分为简单的类别。

•支持向量机(SVM)。支持向量机的目标是绘制一条宽边距的曲线或平面,将数据分成不同的类别。

•K-近邻算法。该技术使用一种简单的“惰性决策”方法,根据数据集中最邻近的类别来确定数据点应该属于哪个类别。

•逻辑回归。尽管使用了分类技术,但它使用将数据拟合到一条线的想法来区分每一边的不同类别。这条线的形状使数据可以移至某个类别。

神经网络。这种方法使用训练有素的人工神经网络,尤其是具有多个隐藏层的深度学习网络。神经网络已经显示出强大的分类能力,其中包含大量的训练数据。

回归技术

如果不知道数据属于哪一类,而是想知道不同数据点之间的关系该怎么办?回归的主要思想是回答以下问题:“这个数据的预测值是多少?”一个简单的概念来自“均值回归”的统计概念,它可以是一个独立变量和一个因变量之间的直接回归,也可以是一个试图找到多个变量之间关系的多维回归。

例如决策树支持向量机(SVM)和神经网络一些分类技术,也可以用来进行回归。此外,数据科学家可以使用的回归技术包括:

•线性回归。作为数据科学中应用最广泛的方法之一,这种方法试图根据两个变量之间的相关性找到最适合所分析数据的曲线。

•套索回归。Lasso(套索)是“最小绝对收缩和选择算符”的缩写,是一种通过在最终模型中使用数据子集来提高线性回归模型预测准确性的技术。

•多元回归。这涉及寻找适合可能包含多个变量的多维数据的线或平面的不同方法。

聚类和关联分析技术

另一组数据科学技术侧重于回答这样一个问题:“这些数据是如何分组的,不同的数据点属于哪些组?”数据科学家可以发现相关数据点的聚类,这些数据点具有共同的各种特征,从而在分析应用程序中产生有用的信息。

可用于聚类用途的方法包括:

•K-均值聚类。K-均值算法确定数据集中的一定数量的聚类,并找到“质心”,以标识不同聚类的位置,并将数据点分配给最接近的聚类。

•均值漂移聚类。另一种基于质心的聚类技术,它可以单独使用,也可以通过移动指定的质心来改进k-均值聚类。

•DBSCAN。DBSCAN是“基于密度的带噪空间聚类算法DBSCAN”的缩写,是另一种发现聚类的技术,它使用一种更高级的方法来识别聚类的密度。

•高斯混合模型。高斯混合模型通过使用高斯分布将数据分组在一起而不是将数据视为奇点来帮助找到聚类。

•分层聚类。与决策树类似,这种技术使用层次化的分支方法来查找聚类。

关联分析是一种相关但独立的技术。其背后的主要思想是找到描述不同数据点之间公共性的关联规则。与聚类类似,人们正在寻找数据所属的组。但是在这种情况下,试图确定何时数据点一起出现,而不是仅仅识别它们的集群。在聚类中,其目标是将大数据集划分为可识别的组,而通过关联分析,人们正在测量数据点之间的关联程度。

数据科学应用实例

数据科学工具带中的上述方法和技术需要适当地应用于特定的分析问题以及可用于解决这些问题的数据。优秀的数据科学家必须能够理解当前问题的本质——是聚类、分类还是回归?以及在给定数据特征的情况下可以产生所需答案的最佳算法。这就是数据科学实际上是一个科学过程而不是具有严格规则的过程,并允许通过编程解决问题的原因。

使用这些技术,数据科学家可以处理广泛的应用程序,其中许多应用程序通常出现在不同类型的行业和组织中。以下是一些例子:

·异常检测。如果可以找到预期或正常数据的模式,那么也可以找到那些不符合模式的数据点。金融服务、医疗保健、零售和制造业等行业组织经常采用各种数据科学方法来识别其数据中的异常情况,以用于欺诈检测、客户分析、网络安全和IT系统监控。异常检测还可以用来消除数据集中的异常值,以提高分析的准确性。

·二分类和多分类。分类技术的一个主要应用是确定某物是否属于某一特定类别。这就是所谓的二分类,因为人们可能会问诸如“图片中是否有猫?”之类的问题。实际的业务应用是使用图像识别在大量文件中识别合同或发票。在多类分类中,在数据集中有许多不同的类别,正在努力寻找最适合数据点的类别。例如,美国劳工统计局会对工伤进行自动分类。

·个性化。希望与客户进行个性化交互或向客户推荐产品和服务的组织首先需要将数据分组到具有共享特征的数据桶中。有效的数据科学工作可以使用推荐引擎和超个性化系统等技术,根据个人的具体需求和喜好量身来定制网站,推销产品及更多内容,这些技术是通过匹配人员详细资料中的数据来驱动的。

这只是数据科学应用程序的一些示例。通过采用数据分析的各种工具和方法,数据科学家可以帮助使用它们的组织获得战略和竞争优势。
编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4771

    浏览量

    100720
  • 决策树
    +关注

    关注

    3

    文章

    96

    浏览量

    13548
收藏 人收藏

    评论

    相关推荐

    西湖大学:科学家+AI,科研新范式的样本

    ,创新科研新范式。这一点在西湖大学的科研项目中已得到体现。 成立于2018年的西湖大学是由施一公院士领衔创办的、聚焦前沿科学研究研究型大学,该校鼓励科学家们探索AI与各学科交叉融合,为科研创新提速。为此,西湖大学在浪潮信息等企
    的头像 发表于 12-12 15:59 154次阅读
    西湖大学:<b class='flag-5'>科学家</b>+AI,科研新范式的样本

    三维电子背散射衍射(EBSD)技术:FIB-SEM与EBSD的结合应用案例

    就显得不够全面。为了深入研究晶粒组织、晶粒尺寸和界面等三维特征,科学家们发展了一种新的技术——三维电子背散射衍射(3D-EBSD)。从二维到三维的跨越对于大尺度区
    的头像 发表于 11-29 17:31 195次阅读
    三维电子背散射衍射(EBSD)<b class='flag-5'>技术</b>:FIB-SEM与EBSD的结合应用案例

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    了传统学科界限,使得科学家们能够从更加全面和深入的角度理解生命的奥秘。同时,AI技术的引入也催生了一种全新的科学研究范式,即数据驱动的
    发表于 10-14 09:21

    《AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    和数量直接影响到模型的准确性和可靠性。因此,数据获取、处理、分析和质量控制在AI for Science中至关重要。此外,数据驱动的研究范式也促使
    发表于 10-14 09:16

    《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    人工智能:科学研究的加速器 第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度学习等先进技术,AI能够处理和分析海量数据
    发表于 10-14 09:12

    新华社:突破性成果!祝贺我国科学家成功研发这一传感器!

    6月25日,新华社以《突破性成果!祝贺我国科学家》为标题,报道了由我国科学家研发的传感器成果。 我国科学家研发高通道神经探针实现猕猴全脑尺度神经活动监测 神经探针是一种用来记录神经活动的针状电传
    的头像 发表于 06-27 18:03 485次阅读
    新华社:突破性成果!祝贺我国<b class='flag-5'>科学家</b>成功研发这一传感器!

    前OpenAI首席科学家创办新的AI公司

    消息在业界引起了广泛关注,因为苏茨克维曾是OpenAI的联合创始人及首席科学家,并在去年在OpenAI董事会上扮演了重要角色。
    的头像 发表于 06-21 10:42 520次阅读

    助力科学发展,NVIDIA AI加速HPC研究

    科学家研究人员正在利用 NVIDIA 技术将生成式 AI 应用于代码生成、天气预报、遗传学和材料科学领域的 HPC 工作。
    的头像 发表于 05-14 09:17 409次阅读
    助力<b class='flag-5'>科学</b>发展,NVIDIA AI加速HPC<b class='flag-5'>研究</b>

    本源量子参与的国家重点研发计划青年科学家项目启动会顺利召开

    2024年4月23日,国家重点研发计划“先进计算与新兴软件”重点专项“面向复杂物理系统求解的量子科学计算算法、软件、应用与验证”青年科学家项目启动会暨实施方案论证会在合肥顺利召开。该项目由合肥综合性国家科学中心人工智能
    的头像 发表于 05-11 08:22 683次阅读
    本源量子参与的国家重点研发计划青年<b class='flag-5'>科学家</b>项目启动会顺利召开

    量子梦

    可以模拟原子和分子之间的相互作用,帮助科学家设计新材料、药物,甚至加速新材料的发现过程。这将有助于推动科学研究的进展,加快新技术的开发。 总的来说,量子计算机的梦想是通过利用量子力学的奇特性质,解决传
    发表于 03-13 18:18

    透射电镜TEM测试解剖芯片结构:深入微观世界的技术探索

    在芯片制造领域,透射电镜TEM技术发挥着至关重要的作用。通过TEM测试,科学家可以观察芯片中晶体结构的变化,分析晶体缺陷,研究材料界面结构,从而深入
    的头像 发表于 02-27 16:48 1176次阅读
    透射电镜TEM测试解剖芯片结构:<b class='flag-5'>深入</b>微观世界的<b class='flag-5'>技术</b>探索

    NVIDIA首席科学家Bill Dally:深度学习硬件趋势

    Bill Dally于2009年1月加入NVIDIA担任首席科学家,此前在斯坦福大学任职12年,担任计算机科学系主任。Dally及其斯坦福团队开发了系统架构、网络架构、信号传输、路由和同步技术,在今天的大多数大型并行计算机中都可
    的头像 发表于 02-25 16:16 1135次阅读
    NVIDIA首席<b class='flag-5'>科学家</b>Bill Dally:深度学习硬件趋势

    康奈尔大学科学家研制出5分钟快速充电锂电池

    锂离子电池如今广泛应用于电动汽车及智能手机领域。其优点包括轻巧、抗震、环保,但充电时间较长及承受大功率电涌的能力不足。随着最新研究成果发布,科学家找到了一种独特的铟阳极材料,与锂离子电池内的阴极材料实现良好配合。
    的头像 发表于 01-26 09:57 675次阅读
    康奈尔大学<b class='flag-5'>科学家</b>研制出5分钟快速充电锂电池

    谷歌DeepMind科学家欲建AI初创公司

    据知情人士透露,谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。
    的头像 发表于 01-22 14:41 486次阅读

    飞腾首席科学家窦强荣获 “国家卓越工程师” 称号

    “国家卓越工程师团队” 称号。中国电子信息产业集团首席科学家、科技委副主任,飞腾信息技术有限公司首席科学家窦强博士凭借其在飞腾系列国产自主核心芯片科研攻关方面取得的卓越成就,荣获 “国家卓越工程师” 称号。 窦强博士作为飞腾系
    的头像 发表于 01-19 19:22 1715次阅读
    飞腾首席<b class='flag-5'>科学家</b>窦强荣获 “国家卓越工程师” 称号