0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

简析特征抽取的经典算法PCA

电子设计 来源:电子设计 作者:电子设计 2020-12-25 18:25 次阅读

之前格物汇的文章给大家介绍过,随着近几年大数据技术的普及,企业可以获取海量数据,但是这些海量数据带给我们更多信息的同时,也带来了更多的噪音和异常数据,如何降维去噪成为很多企业关注的焦点。而特征抽取和特征选择都是降维的重要方法,针对于the curse of dimensionality(维数灾难),都可以达到降维的目的,但是这两种方法有所不同。

特征抽取(Feature Extraction)

Creatting a subset ofnew features by combinations of the exsiting features.也就是说,特征抽取后的新特征是原来特征的一个映射。

特征选择(Feature Selection)

choosing a subset of allthe features(the ones more informative。也就是说,特征选择后的特征是原来特征的一个子集。

特征抽取是如何对数据进行变换的呢?其两个经典的方法:主成分分析(Principle Components Analysis ,PCA)和线性评判分析(LinearDiscriminant Analysis,LDA)给出了解答,今天我们就先来看一下什么是主成分分析。

什么是主成分分析

主成分分析(principal component analysis),PCA是其缩写。此方法是一种无监督线性转换技术,其目标是找到数据中最主要的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭露出隐藏在复杂数据背后的简单结构。

主成分分析就是试图在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化。这些综合指标就称为主成分,也就是说,对高维变量空间进行降维处理,从线性代数角度来看,PCA目标是找到一组新正交基去重新描述得到的数据空间,这些新维度就是主成分。

PCA的原理

我们现在来看一下PCA算法是如何实现的,我们通过一个具体实例来理解,假设我们有这样一些标准化后的数据:[-1,-2],[-1,0],……,[2,1],[0,1]。我们写成向量的形式如下:

我们还可以在二维坐标系中画出来:

PCA主要的目的是降维简化数据,这些数据本就是二维,想要再降维则需要重新找一个方向,并把这些点映射到这个方向上(降到1维)。试想,怎么才能找到这个方向,且不损失大部分信息呢?PCA的做法是,找到新映射的方法需要满足如下两个原则:

1、在新映射的方向上每个数据的映射点方差尽可能大。因为方差大的数据所包含的信息量越大。

2、新映射的方向应彼此正交,这样映射出的坐标点选取才更有意义。

寻找新映射也可以看作基变换,我们可以不断旋转基,寻找满足上面两个原则的情况。如下图所示,中间的映射方向图里数据在新基上映射点的方差就比右边图映射点方差大的多。而方差大则表示该数据在该方向上含有的信息量多,反之另一个新基的方向上含有的信息量就少的多。如果这个方向上的信息量非常少,即使舍去也无伤大雅,我们就可以考虑将其舍去,实现降维的操作。

新基可以看成是由以前标准直角坐标系旋转而成,在线性代数中,这样的坐标轴旋转操作可以通过原本直角坐标系坐标乘转换矩阵得到:

所以我们就将问题转换成找转移矩阵W上,如何去求W呢?我们希望降维后的数据要尽可能的与原数据非常接近(不丢失信息)。我们可以计算转换后的坐标Z与转换之前的坐标X之间的距离:

因此为了让转换距离最小,我们可以将问题等价转换成:

由于中间推导过程较为复杂,故在此省略,最后求解推导的结果为:

这不正是特征值的定义公式吗?所以只需要对协方差矩阵进行特征值分解,并将求得的特征值排序,取前N(PCA所要降低的目标维度)个特征值构成的向量W,即为PCA的解。

PCA优缺点

优点

(1)它是无监督学习,只与数据相关,无参数限制。

(2)通过PCA降维,可以达到简化模型和对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。

(3)各主成分之间正交,可消除原始数据成分间的相互影响

(4)计算方法简单,易于在计算机上实现。

缺点

(1)如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高

(2)贡献率小的主成分往往可能含有对样本差异的重要信息

好了,今天格物汇的内容就到这里,近期我们还将介绍特征抽取的另一种方法LDA(线性评判分析),敬请期待。

本文作者:格创东智OT团队(转载请注明作者及来源)

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能计算
    +关注

    关注

    0

    文章

    166

    浏览量

    16448
  • 智能制造
    +关注

    关注

    48

    文章

    5428

    浏览量

    76212
  • 工业互联网
    +关注

    关注

    28

    文章

    4286

    浏览量

    94014
收藏 人收藏

    评论

    相关推荐

    机器学习的经典算法与应用

    关于数据机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。数据集内包含3类共150条记录,每类各50个数
    的头像 发表于 06-27 08:27 1528次阅读
    机器学习的<b class='flag-5'>经典</b><b class='flag-5'>算法</b>与应用

    岩土工程监测中振弦采集仪的布设方案及实施步骤

    岩土工程监测中振弦采集仪的布设方案及实施步骤 岩土工程监测中,河北稳控科技振弦采集仪是一种常用的地下水位和土层压缩性监测工具。它通过采集振弦的振动信号来确定地下水位和土层的压缩性,为岩土
    的头像 发表于 05-06 13:25 213次阅读
    岩土工程监测中振弦采集仪的布设方案及实施步骤<b class='flag-5'>简</b><b class='flag-5'>析</b>

    智慧灯杆一键告警功能的实用场景

    智慧路灯杆是一种兼具智能化和多功能的新型物联网基础设施,通过搭载一键告警对讲盒,能够大大丰富安防及报警求助资源,对提升城市的安全性和管理效能具有重要的作用。本篇就结合城市中的不同场景,智慧灯杆一键告警功能的实用功能。
    的头像 发表于 04-28 16:42 315次阅读
    <b class='flag-5'>简</b><b class='flag-5'>析</b>智慧灯杆一键告警功能的实用场景

    城市综合管廊能效管理平台在火灾防控与消防设计

    城市综合管廊能效管理平台在火灾防控与消防设计 张颖姣 安科瑞电气股份有限公司 上海嘉定 201801 摘要:城市综合管廊中布置很多管线,将其称之为地下生命线,虽然没有大量人员聚集,但是一旦这个
    的头像 发表于 04-11 16:39 242次阅读
    <b class='flag-5'>简</b><b class='flag-5'>析</b>城市综合管廊能效管理平台在火灾防控与消防设计

    仪同步水声及振动采集系统解决方案

    仪提供的解决方案是为客户开发一个基于PXIe总线的同步高速采集分析系统。这个系统采用了高速流盘技术和声音与振动分析算法,可以准确实时获取水下水声与振动信号特征
    的头像 发表于 04-10 14:24 587次阅读
    <b class='flag-5'>简</b>仪同步水声及振动采集系统解决方案

    电气火灾的原因及其对策

    电气火灾的原因及其对策 张颖姣 安科瑞电气股份有限公司 上海嘉定201801 摘要:随着人们生活水平的提高,电气已成为日常生活及生产作业中必不可少的能源。电给人们带来便利的同时,也存在着一定
    的头像 发表于 03-12 10:18 453次阅读
    <b class='flag-5'>简</b><b class='flag-5'>析</b>电气火灾的原因及其对策

    【鸿蒙】OpenHarmony 4.0蓝牙代码结构

    OpenHarmony 4.0蓝牙代码结构前言 OpenHarmony 4.0上蓝牙仓和目录结构进行一次较大整改,本文基于4.0以上版本对蓝牙代码进行分析,便于读者快速了解和学习
    的头像 发表于 02-26 16:08 1379次阅读
    【鸿蒙】OpenHarmony 4.0蓝牙代码结构<b class='flag-5'>简</b><b class='flag-5'>析</b>

    电动汽车交流充电桩系统的设计方案

    电动汽车交流充电桩系统的设计方案 张颖姣 安科瑞电气股份有限公司 上海嘉定201801 摘要:作为新能源汽车的基础动力装置,交流充电桩也是可以促使新能源汽车正常行驶的关键内容。与其他汽车
    的头像 发表于 02-26 11:00 1585次阅读
    <b class='flag-5'>简</b><b class='flag-5'>析</b>电动汽车交流充电桩系统的设计方案

    新能源电动汽车充电桩选型与安装的探讨

    新能源电动汽车充电桩选型与安装的探讨 张颖姣 安科瑞电气股份有限公司 上海嘉定201801 摘要:大力发展和推广电动汽车是国家发展新能源、清洁能源以应对日益突出的燃油供求矛盾和环境污染问题,加大
    的头像 发表于 02-26 10:56 603次阅读
    <b class='flag-5'>简</b><b class='flag-5'>析</b>新能源电动汽车充电桩选型与安装的探讨

    电动汽车充电桩检测技术应用及分析

    电动汽车充电桩检测技术应用及分析 张颖姣 安科瑞电气股份有限公司 上海嘉定 201801 摘要:直流和交流充电桩是我国当前电动汽车充电桩中投运数量多的种类,为了维持正常运行和使用,更要对检测
    的头像 发表于 02-26 10:52 1263次阅读
    <b class='flag-5'>简</b><b class='flag-5'>析</b>电动汽车充电桩检测技术应用及分析

    芯片跨时钟域设计案例(一)

    经典的2DFF 1-bit同步器如下,下图结构通常用于单bit控制信号的异步处理
    的头像 发表于 01-18 09:24 936次阅读
    芯片跨时钟域设计案例<b class='flag-5'>简</b><b class='flag-5'>析</b>(一)

    STM32控制中常见的PID算法总结

    在很多控制算法当中,PID控制算法又是最简单,最能体现反馈思想的控制算法,可谓经典中的经典经典
    发表于 12-27 14:07 1458次阅读
    STM32控制中常见的PID<b class='flag-5'>算法</b>总结

    储能的三大应用场景

    储能的三大应用场景-古瑞瓦特 随着太阳能风能发电比例的不断增长,可再生能源间歇性和不稳定性的缺陷日益突出,不稳定的光伏和风电对电网的冲击也日益严重。抽水储能,压缩空气和蓄电池储能等技术越来越被
    的头像 发表于 12-20 16:30 1232次阅读
    储能的三大应用场景<b class='flag-5'>简</b><b class='flag-5'>析</b>

    微观电流—漂移电流

    IGBT全称叫做绝缘栅双极型晶体管,实际上就是绝缘栅场效应管和双极型晶体管结合到一起,一种非常简单朴素的结构创新,却让器件性质发生了质的变化,是科技创新中1+1>2的经典案例。
    的头像 发表于 11-27 15:04 1166次阅读
    微观电流—漂移电流<b class='flag-5'>简</b><b class='flag-5'>析</b>

    178个经典c语言源代码+算法大全

    电子发烧友网站提供《178个经典c语言源代码+算法大全.rar》资料免费下载
    发表于 11-21 10:19 6次下载
    178个<b class='flag-5'>经典</b>c语言源代码+<b class='flag-5'>算法</b>大全