0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大学课程 数据分析 实战之K-means算法(1)理论讲解

通信工程师专辑 来源:未知 2023-02-10 08:45 次阅读

”物以类聚,人以群分“!这句话的核心思想就是聚类!聚类是典型的无监督学习方法。不同于分类,分类是有监督学习,样本都有标签,分类模型重点考查的是模型的泛化能力,而聚类是按要求给样本加标签,重点考查模型聚类的效果,通常无训练集与测试集的划分。什么是聚类?所谓数据聚类是指根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大。聚类分析的目的是分析数据是否属于各个独立的分组,使一组中的成员彼此相似,而与其他组中的成员不同。它对一个数据对象的集合进行分析,但与分类分析不同的是,所划分的类是未知的,因此,聚类分析也称为无指导或无监督(Unsupervised)学习。聚类分析的一般方法是将数据对象分组为多个类或簇(Cluster),在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差异较大。由于聚类分析的上述特征,在许多应用中,对数据集进行了聚类分析后,可将一个簇中的各数据对象作为一个整体对待。数据聚类 (Cluster analysis) 是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。在物联网时代,传感器的数据比牛毛还多。作为数据分析中的主要手段——聚类肯定派的上用场。那就在大学先打下坚实的基础吧!

e709775c-a8da-11ed-bfe3-dac502259ad0.gif

聚类有哪几种方法?

常用的聚类方法有:K-Means,AgglomerativeClustering,DBSCAN,MeanShift,SpectralClustering等。这里介绍其中的几个聚类分析算法

K-Means

K-均值聚类也称为快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。本系列文章将展示算法程序!

K-中心

K-均值算法对孤立点的敏感性,K-中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。

系统聚类

也称为层次聚类,分类的单位由高到低呈树形结构,且所处的位置越低,其所包含的对象就越少,但这些对象间的共同特征越多。该聚类方法只适合在小数据量的时候使用,数据量大的时候速度会非常慢。

e709775c-a8da-11ed-bfe3-dac502259ad0.gif

K-means方法!

这是本文讲解的重点!先来看这种方法的原理和步骤!

1)从数据集中随机抽取k个样本作为初始聚类的中心,由这个中心代表各个聚类。

2)计算数据集中所有的样本到这k个中心点的距离(哪几种距离),并将样本点归到离其最近的聚类里。

3)将聚类的中心点移动到各类的几何中心(即平均值)处。

4)重复第2步直到聚类的中心不再移动,此时算法收敛或者迭代的次数达到上限。

推荐一本好书!在这方面讲的非常好!照片为证!

e724c0ca-a8da-11ed-bfe3-dac502259ad0.jpge746c2ce-a8da-11ed-bfe3-dac502259ad0.jpge75c563e-a8da-11ed-bfe3-dac502259ad0.jpg

仔细看看!

e709775c-a8da-11ed-bfe3-dac502259ad0.gif

距离!

e7917daa-a8da-11ed-bfe3-dac502259ad0.png

将样本点分到距离聚类中心最近的那个簇中需要最近邻的度量策略,在欧式空间中采用的是欧式距离,在处理文档中采用的是余弦相似度函数,有时候也采用曼哈顿距离作为度量,不同的情况使用的度量公式是不同的。

原文标题:大学课程 数据分析 实战之K-means算法(1)理论讲解

文章出处:【微信公众号:通信工程师专辑】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 通信网络
    +关注

    关注

    21

    文章

    2028

    浏览量

    51965

原文标题:大学课程 数据分析 实战之K-means算法(1)理论讲解

文章出处:【微信号:gh_30373fc74387,微信公众号:通信工程师专辑】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    LLM在数据分析中的作用

    的游戏规则。 1. 数据预处理 数据预处理是数据分析的第一步,也是至关重要的一步。LLM在这一阶段可以发挥重要作用。 文本清洗 :LLM可以帮助识别和纠正文本
    的头像 发表于 11-19 15:35 133次阅读

    eda与传统数据分析的区别

    进行初步的探索和理解,发现数据中潜在的模式、关系、异常值等,为后续的分析和建模提供线索和基础。 方法论 :EDA强调数据的真实分布和可视化,使用多种图表和可视化工具来展示数据的特征和趋
    的头像 发表于 11-13 10:52 207次阅读

    为什么选择eda进行数据分析

    数据科学领域,数据分析是一个复杂且多步骤的过程,它涉及到数据的收集、清洗、探索、建模和解释。在这些步骤中,探索性数据分析(EDA)扮演着至关重要的角色。
    的头像 发表于 11-13 10:41 144次阅读

    raid 在大数据分析中的应用

    RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析
    的头像 发表于 11-12 09:44 154次阅读

    IP 地址大数据分析如何进行网络优化?

    一、大数据分析在网络优化中的作用 1.流量分析数据分析可以对网络中的流量进行实时监测和分析,了解网络的使用情况和流量趋势。通过对流量
    的头像 发表于 10-09 15:32 181次阅读
    IP 地址大<b class='flag-5'>数据分析</b>如何进行网络优化?

    【全新课程资料】正点原子《基于GD32 ARM32单片机项目实战入门》培训课程资料上线!

    综合部分:倒车雷达项目、感应垃圾桶项目 二、课程目的 1、化整为零,由浅入深,解决ARM32单片机项目入门难的问题; 2、综合应用基础知识,提高项目实战能力,解决眼高手低的问题; 3、通过多个项目
    发表于 09-24 18:06

    【全新课程资料】正点原子《ESP32基础及项目实战入门》培训课程资料上线!

    综合项目:智能感应垃圾桶项目 二、课程目的 1、熟练ESP-IDF开发,突破ESP32入门难题 2、熟悉ESP32外设基础知识,提升开发能力,克服眼高手低的问题 3、通过多个外设实战,掌握ESP32
    发表于 09-24 17:59

    【全新课程资料】正点原子《ESP32物联网项目实战》培训课程资料上线!

    ,解决ESP32物联网项目入门难的问题; 2、综合应用基础知识,提高项目实战能力,解决眼高手低的问题; 3、通过多个项目实战,掌握ESP32物联网项目的开发流程; 三、课程特色 1
    发表于 09-24 17:05

    加法运放电路实验报告数据分析

    加法运放电路实验报告的数据分析主要包括对实验结果的观察、与理论值的对比以及误差原因的分析。以下是一个基于常见加法运放电路实验的数据分析示例: 一、实验目的与原理 实验目的 :了解加法器
    的头像 发表于 09-03 10:03 530次阅读

    数据分析除了spss还有什么

    数据分析是当今世界中一个非常重要的领域,它涉及到从大量数据中提取有用信息、发现模式和趋势,并为决策提供支持。SPSS(Statistical Package for the Social
    的头像 发表于 07-05 15:01 541次阅读

    数据分析的工具有哪些

    数据分析是一个涉及收集、处理、分析和解释数据以得出有意义见解的过程。在这个过程中,使用正确的工具至关重要。以下是一些主要的数据分析工具,以及它们的功能和用途的介绍。 Excel Exc
    的头像 发表于 07-05 14:54 759次阅读

    数据分析有哪些分析方法

    数据分析是一种重要的技能,它可以帮助我们从大量的数据中提取有价值的信息,从而做出更明智的决策。在这篇文章中,我们将介绍数据分析的各种方法,包括描述性分析、诊断性
    的头像 发表于 07-05 14:51 531次阅读

    机器学习在数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从数据中学习规律,为企业和组织提供了更高效、更准确的
    的头像 发表于 07-02 11:22 544次阅读

    求助,关于AD采集到的数据分析问题

    问题描述:使用AD采集一个10Hz到2MHz的脉冲,脉冲底部可能大于零,由采集到的数据分析出该脉冲的上升时间,幅值和占空比。 备注:在分析的时候已经知道脉冲的频率,精度为2X10^-5. 在分析
    发表于 05-09 07:40

    Get职场新知识:做分析,用大数据分析工具

    工具值得推荐? 那就得是奥威BI大数据分析工具。主要原因有三: 1、奥威BI方案,开箱即用,立得百张BI报表,大量节省BI报表开发时间,一步到位完成销售、财务、库存、采购、应收、生产六大主题。 2
    发表于 12-05 09:36