0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大学课程 数据分析 实战之K-means算法(1)理论讲解

通信工程师专辑 来源:未知 2023-02-10 08:45 次阅读

”物以类聚,人以群分“!这句话的核心思想就是聚类!聚类是典型的无监督学习方法。不同于分类,分类是有监督学习,样本都有标签,分类模型重点考查的是模型的泛化能力,而聚类是按要求给样本加标签,重点考查模型聚类的效果,通常无训练集与测试集的划分。什么是聚类?所谓数据聚类是指根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大。聚类分析的目的是分析数据是否属于各个独立的分组,使一组中的成员彼此相似,而与其他组中的成员不同。它对一个数据对象的集合进行分析,但与分类分析不同的是,所划分的类是未知的,因此,聚类分析也称为无指导或无监督(Unsupervised)学习。聚类分析的一般方法是将数据对象分组为多个类或簇(Cluster),在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差异较大。由于聚类分析的上述特征,在许多应用中,对数据集进行了聚类分析后,可将一个簇中的各数据对象作为一个整体对待。数据聚类 (Cluster analysis) 是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。在物联网时代,传感器的数据比牛毛还多。作为数据分析中的主要手段——聚类肯定派的上用场。那就在大学先打下坚实的基础吧!

e709775c-a8da-11ed-bfe3-dac502259ad0.gif

聚类有哪几种方法?

常用的聚类方法有:K-Means,AgglomerativeClustering,DBSCAN,MeanShift,SpectralClustering等。这里介绍其中的几个聚类分析算法

K-Means

K-均值聚类也称为快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。本系列文章将展示算法程序!

K-中心

K-均值算法对孤立点的敏感性,K-中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。

系统聚类

也称为层次聚类,分类的单位由高到低呈树形结构,且所处的位置越低,其所包含的对象就越少,但这些对象间的共同特征越多。该聚类方法只适合在小数据量的时候使用,数据量大的时候速度会非常慢。

e709775c-a8da-11ed-bfe3-dac502259ad0.gif

K-means方法!

这是本文讲解的重点!先来看这种方法的原理和步骤!

1)从数据集中随机抽取k个样本作为初始聚类的中心,由这个中心代表各个聚类。

2)计算数据集中所有的样本到这k个中心点的距离(哪几种距离),并将样本点归到离其最近的聚类里。

3)将聚类的中心点移动到各类的几何中心(即平均值)处。

4)重复第2步直到聚类的中心不再移动,此时算法收敛或者迭代的次数达到上限。

推荐一本好书!在这方面讲的非常好!照片为证!

e724c0ca-a8da-11ed-bfe3-dac502259ad0.jpge746c2ce-a8da-11ed-bfe3-dac502259ad0.jpge75c563e-a8da-11ed-bfe3-dac502259ad0.jpg

仔细看看!

e709775c-a8da-11ed-bfe3-dac502259ad0.gif

距离!

e7917daa-a8da-11ed-bfe3-dac502259ad0.png

将样本点分到距离聚类中心最近的那个簇中需要最近邻的度量策略,在欧式空间中采用的是欧式距离,在处理文档中采用的是余弦相似度函数,有时候也采用曼哈顿距离作为度量,不同的情况使用的度量公式是不同的。

原文标题:大学课程 数据分析 实战之K-means算法(1)理论讲解

文章出处:【微信公众号:通信工程师专辑】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 通信网络
    +关注

    关注

    21

    文章

    2020

    浏览量

    51914

原文标题:大学课程 数据分析 实战之K-means算法(1)理论讲解

文章出处:【微信号:gh_30373fc74387,微信公众号:通信工程师专辑】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    云计算在大数据分析中的应用

    云计算在大数据分析中的应用广泛且深入,它为用户提供了存储、计算、分析和预测的强大能力。以下是对云计算在大数据分析中应用的介绍: 一、存储和处理海量数据 云计算提供了强大的存储和计算能力
    的头像 发表于 10-24 09:18 237次阅读

    电梯按需维保——“故障预测”算法模型数据分析

    梯云物联的智能AI终端在故障预测算法模型数据分析中扮演着核心角色,其工作流程涵盖了数据采集、特征提取、模型构建、故障预测与预警等多个环节,形成了一套完整的电梯故障预测解决方案。
    的头像 发表于 10-15 14:32 190次阅读

    IP 地址大数据分析如何进行网络优化?

    一、大数据分析在网络优化中的作用 1.流量分析数据分析可以对网络中的流量进行实时监测和分析,了解网络的使用情况和流量趋势。通过对流量
    的头像 发表于 10-09 15:32 125次阅读
    IP 地址大<b class='flag-5'>数据分析</b>如何进行网络优化?

    【全新课程资料】正点原子《基于GD32 ARM32单片机项目实战入门》培训课程资料上线!

    综合部分:倒车雷达项目、感应垃圾桶项目 二、课程目的 1、化整为零,由浅入深,解决ARM32单片机项目入门难的问题; 2、综合应用基础知识,提高项目实战能力,解决眼高手低的问题; 3、通过多个项目
    发表于 09-24 18:06

    【全新课程资料】正点原子《ESP32基础及项目实战入门》培训课程资料上线!

    综合项目:智能感应垃圾桶项目 二、课程目的 1、熟练ESP-IDF开发,突破ESP32入门难题 2、熟悉ESP32外设基础知识,提升开发能力,克服眼高手低的问题 3、通过多个外设实战,掌握ESP32
    发表于 09-24 17:59

    【全新课程资料】正点原子《ESP32物联网项目实战》培训课程资料上线!

    ,解决ESP32物联网项目入门难的问题; 2、综合应用基础知识,提高项目实战能力,解决眼高手低的问题; 3、通过多个项目实战,掌握ESP32物联网项目的开发流程; 三、课程特色 1
    发表于 09-24 17:05

    加法运放电路实验报告数据分析

    加法运放电路实验报告的数据分析主要包括对实验结果的观察、与理论值的对比以及误差原因的分析。以下是一个基于常见加法运放电路实验的数据分析示例: 一、实验目的与原理 实验目的 :了解加法器
    的头像 发表于 09-03 10:03 370次阅读

    数据分析除了spss还有什么

    数据分析是当今世界中一个非常重要的领域,它涉及到从大量数据中提取有用信息、发现模式和趋势,并为决策提供支持。SPSS(Statistical Package for the Social
    的头像 发表于 07-05 15:01 489次阅读

    数据分析的工具有哪些

    数据分析是一个涉及收集、处理、分析和解释数据以得出有意义见解的过程。在这个过程中,使用正确的工具至关重要。以下是一些主要的数据分析工具,以及它们的功能和用途的介绍。 Excel Exc
    的头像 发表于 07-05 14:54 708次阅读

    数据分析有哪些分析方法

    数据分析是一种重要的技能,它可以帮助我们从大量的数据中提取有价值的信息,从而做出更明智的决策。在这篇文章中,我们将介绍数据分析的各种方法,包括描述性分析、诊断性
    的头像 发表于 07-05 14:51 442次阅读

    机器学习在数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从数据中学习规律,为企业和组织提供了更高效、更准确的
    的头像 发表于 07-02 11:22 497次阅读

    频谱仪测量功能占用带宽、时域功率、谐波分析讲解

    频谱仪测量功能占用带宽、时域功率、谐波分析讲解
    的头像 发表于 06-26 14:34 1054次阅读
    频谱仪测量功能<b class='flag-5'>之</b>占用带宽、时域功率、谐波<b class='flag-5'>分析</b><b class='flag-5'>讲解</b>

    求助,关于AD采集到的数据分析问题

    问题描述:使用AD采集一个10Hz到2MHz的脉冲,脉冲底部可能大于零,由采集到的数据分析出该脉冲的上升时间,幅值和占空比。 备注:在分析的时候已经知道脉冲的频率,精度为2X10^-5. 在分析
    发表于 05-09 07:40

    基于振弦采集仪的工程监测数据分析方法研究

    基于振弦采集仪的工程监测数据分析方法研究 基于振弦采集仪的工程监测数据分析方法研究主要涉及以下几个方面: 基于振弦采集仪的工程监测数据分析方法研究 1.
    的头像 发表于 01-02 15:12 357次阅读
    基于振弦采集仪的工程监测<b class='flag-5'>数据分析</b>方法研究

    Get职场新知识:做分析,用大数据分析工具

    工具值得推荐? 那就得是奥威BI大数据分析工具。主要原因有三: 1、奥威BI方案,开箱即用,立得百张BI报表,大量节省BI报表开发时间,一步到位完成销售、财务、库存、采购、应收、生产六大主题。 2
    发表于 12-05 09:36