在之前的格物汇文章中,我们介绍了特征抽取的经典算法——主成分分析(PCA),了解了PCA算法实质上是进行了一次坐标轴旋转,尽可能让数据映射在新坐标轴方向上的方差尽可能大,并且让原数据与新映射的数据在距离的变化上尽可能小。方差较大的方向代表数据含有的信息量较大,建议保留。方差较小的方向代表数据含有的信息量较少,建议舍弃。今天我们就来看一下PCA的具体应用案例和特征映射的另一种方法:线性判别分析(LDA)。
PCA案例
在机器学习中,所使用的数据往往维数很大,我们需要使用降维的方法来突显信息含量较大的数据,PCA就是一个很好的降维方法。下面我们来看一个具体的应用案例,为了简单起见,我们使用一个较小的数据集来展示:
显而易见,我们数据有6维,维数虽然不是很多但不一定代表数据不可以降维。我们使用sklearn中的PCA算法拟合数据集得到如下的结果:
我们可以看到经过PCA降维后依然生成了新的6个维度,但是数据映射在每一个维度上的方差大小不一样。我们会对每一个维度上的方差进行归一化,每一个维度上的方差量我们称为可解释的方差量(Explained Variance)。由图可知,每一个维度上可解释方差占比为:0.4430,0.2638,0.1231,0.1012,0.0485,0.0204。根据经验来说我们期望可解释的方差量累计值在80%以上较好,因此我们可以选择降维降到3维(82.99%)或者4维(93.11%),括号中的数字为累计可解释的方差量,最后两维方差解释只有7%不到,建议舍去。图中的柱状图表示原维度在新坐标轴上的映射向量大小。在前两维度上表现如下图所示:
PCA虽然能实现很好的降维效果,但是它却是一种无监督的方法。实际上我们更加希望对于有类别标签的数据(有监督),也能实现降维,并且降维后能更好的区分每一个类。此时,特征抽取的另一种经典算法——线性判别分析(LDA)就闪亮登场了。
审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
相关推荐
1.用ADS采集数据,将时域的数据进行FFT变换,得到频谱里面看似有 Sinc Filter 抽取,不需要抽取是否可以?ADS可以不抽取看原始得数据吗?
2.这个和手册上的频谱不
发表于 11-20 06:05
我客户目前正在评估AMC1306M25,有以下疑问需要解答,可否帮忙确认一下:
图为官方的例程,两个都应该指的是抽取率OSR。但是当客户在第一个函数中填的抽取率为64,到第二张图中ratio的值
发表于 11-14 07:09
数据中提取数值表示以供无监督模型使用的方法(例如,试图从之前非结构化的数据集中提取结构)。特征工程包括这两种情况,以及更多内容。数据从业者通常依赖ML和深度学习算法
发表于 10-23 08:07
•262次阅读
AD7190可以通过模式寄存器的FS[0:9]设置输出速率, 0-1023的范围;此时设置的数据速率选择位是否就是Σ-Δ ADC抽取滤波器的抽取比?
关于抽取滤波器,此时我设置的为1023,那我是否
发表于 09-09 06:11
息壤一体化智算服务平台升级,天翼云帮助AI天命人踏上取经路
发表于 09-05 16:06
•2285次阅读
图像识别算法是计算机视觉领域的一个重要研究方向,其目标是使计算机能够像人类一样理解和识别图像中的内容。图像识别算法的核心技术包括以下几个方面: 特征提取 特征提取是图像识别
发表于 07-16 11:02
•635次阅读
在使用rtthread settings配置完i2c后,与pca9535pw的第一通讯报错,不知道为什么?代码如下:
main:
/* 初始化PCA
发表于 07-09 08:04
电子发烧友网为你提供ON Semiconductor(ON Semiconductor)PCA9655E相关产品参数、数据手册,更有PCA9655E的引脚图、接线图、封装手册、中文资料、英文资料,PCA9655E真值表,
发表于 06-28 16:28
关于数据机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。数据集内包含3类共150条记录,每类各50个数
发表于 06-27 08:27
•1653次阅读
在工业自动化领域,变频器和PLC/PCA系统是两个不可或缺的核心组成部分。变频器以其对电机转速和扭矩的精确控制,为工业自动化提供了强大的动力支持;而PLC/PCA系统则以其强大的逻辑处理能力和灵活
发表于 06-25 14:48
•719次阅读
在电气维修和检测中,万用表是一种不可或缺的工具。它能够帮助我们快速准确地判断电路中的各种问题,如短路、断路和接地等。本文将详细介绍如何使用万用表来检查线路是短路还是接地,并围绕这一主题展开详细的讨论。
发表于 05-30 14:55
•2568次阅读
energy和Bluetooth smart两者又有什么区别?我的应用应该选经典蓝牙技术还是低功耗蓝牙技术?首先,在2010年以前,当我们谈论蓝牙的时候,就是在说的经典蓝牙,因为那个时候还没有低功耗蓝牙
发表于 05-23 17:57
•1240次阅读
钳形表和万用表都是电气测量中常用的工具,它们各自具有独特的功能和优势。选择钳形表还是万用表取决于具体的测量需求、使用场景和个人偏好。
发表于 05-09 17:03
•5087次阅读
首先,问大家一个问题:你们写单片机程序【死循环】时,喜欢用for(;;)还是while(1)?快来为你喜欢用的【死循环】打call,评论区等你哦~一位工程师发现,国外工程师在给demo在做死循环时
发表于 04-29 08:10
•1349次阅读
在很多控制算法当中,PID控制算法又是最简单,最能体现反馈思想的控制算法,可谓经典中的经典。经典
发表于 12-27 14:07
•1709次阅读
评论