搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

大学课程数据分析实战之K-means算法（1）理论讲解

”物以类聚，人以群分“！这句话的核心思想就是聚类！聚类是典型的无监督学习方法。不同于分类，分类是有监督学习，样本都有标签，分类模型重点考查的是模型的泛化能力，而聚类是按要求给样本加标签，重点考查模型聚类的效果，通常无训练集与测试集的划分。什么是聚类？所谓数据聚类是指根据数据的内在性质将数据分成一些聚合类，每一聚合类中的元素尽可能具有相同的特性，不同聚合类之间的特性差别尽可能大。聚类分析的目的是分析数据是否属于各个独立的分组，使一组中的成员彼此相似，而与其他组中的成员不同。它对一个数据对象的集合进行分析，但与分类分析不同的是，所划分的类是未知的，因此，聚类分析也称为无指导或无监督(Unsupervised)学习。聚类分析的一般方法是将数据对象分组为多个类或簇(Cluster)，在同一簇中的对象之间具有较高的相似度，而不同簇中的对象差异较大。由于聚类分析的上述特征，在许多应用中，对数据集进行了聚类分析后，可将一个簇中的各数据对象作为一个整体对待。数据聚类 (Cluster analysis) 是对于静态数据分析的一门技术，在许多领域受到广泛应用，包括机器学习，数据挖掘，模式识别，图像分析以及生物信息。在物联网时代，传感器的数据比牛毛还多。作为数据分析中的主要手段——聚类肯定派的上用场。那就在大学先打下坚实的基础吧！

聚类有哪几种方法？

常用的聚类方法有：K-Means，AgglomerativeClustering，DBSCAN，MeanShift，SpectralClustering等。这里介绍其中的几个聚类分析算法。

K-Means

K-均值聚类也称为快速聚类法，在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。本系列文章将展示算法程序！

K-中心点

K-均值算法对孤立点的敏感性，K-中心点算法不采用簇中对象的平均值作为簇中心，而选用簇中离平均值最近的对象作为簇中心。

系统聚类

也称为层次聚类，分类的单位由高到低呈树形结构，且所处的位置越低，其所包含的对象就越少，但这些对象间的共同特征越多。该聚类方法只适合在小数据量的时候使用，数据量大的时候速度会非常慢。

K-means方法！

这是本文讲解的重点！先来看这种方法的原理和步骤！

1）从数据集中随机抽取k个样本作为初始聚类的中心，由这个中心代表各个聚类。

2）计算数据集中所有的样本到这k个中心点的距离（哪几种距离），并将样本点归到离其最近的聚类里。

3）将聚类的中心点移动到各类的几何中心（即平均值）处。

4）重复第2步直到聚类的中心不再移动，此时算法收敛或者迭代的次数达到上限。

推荐一本好书！在这方面讲的非常好！照片为证！

仔细看看！

距离！

将样本点分到距离聚类中心最近的那个簇中需要最近邻的度量策略，在欧式空间中采用的是欧式距离，在处理文档中采用的是余弦相似度函数，有时候也采用曼哈顿距离作为度量，不同的情况使用的度量公式是不同的。

原文标题：大学课程数据分析实战之K-means算法（1）理论讲解

文章出处：【微信公众号：通信工程师专辑】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

通信网络

通信网络

+关注

关注
21

文章
2041

浏览量
52056

原文标题：大学课程数据分析实战之K-means算法（1）理论讲解

文章出处：【微信号：gh_30373fc74387，微信公众号：通信工程师专辑】欢迎添加关注！文章转载请注明出处。

评论

相关推荐

Mathematica 在数据分析中的应用

，在数据分析领域发挥着重要作用。 1. 数据导入在进行数据分析之前，首先需要将数据导入到Mathematica中。Mathematica支

的头像

发表于 12-26 15:41 •94次阅读

数据可视化与数据分析的关系

在当今这个信息爆炸的时代，数据无处不在。无论是企业运营、科学研究还是个人决策，我们都需要从海量的数据中提取有价值的信息。数据分析和数据可视化作为两个关键的工具，它们帮助我们理解、解释和

的头像

发表于 12-06 17:09 •345次阅读

LLM在数据分析中的作用

的游戏规则。 1. 数据预处理数据预处理是数据分析的第一步，也是至关重要的一步。LLM在这一阶段可以发挥重要作用。文本清洗：LLM可以帮助识别和纠正文本

的头像

发表于 11-19 15:35 •301次阅读

eda与传统数据分析的区别

进行初步的探索和理解，发现数据中潜在的模式、关系、异常值等，为后续的分析和建模提供线索和基础。方法论：EDA强调数据的真实分布和可视化，使用多种图表和可视化工具来展示数据的特征和趋

的头像

发表于 11-13 10:52 •342次阅读

raid 在大数据分析中的应用

RAID（Redundant Array of Independent Disks，独立磁盘冗余阵列）在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析中

的头像

发表于 11-12 09:44 •252次阅读

IP 地址大数据分析如何进行网络优化?

一、大数据分析在网络优化中的作用 1.流量分析大数据分析可以对网络中的流量进行实时监测和分析，了解网络的使用情况和流量趋势。通过对流量

的头像

发表于 10-09 15:32 •245次阅读

IP 地址大<b class='flag-5'>数据分析</b>如何进行网络优化?

【全新课程资料】正点原子《基于GD32 ARM32单片机项目实战入门》培训课程资料上线！

综合部分：倒车雷达项目、感应垃圾桶项目二、课程目的 1、化整为零，由浅入深，解决ARM32单片机项目入门难的问题； 2、综合应用基础知识，提高项目实战能力，解决眼高手低的问题； 3、通过多个项目

发表于 09-24 18:06

【全新课程资料】正点原子《ESP32基础及项目实战入门》培训课程资料上线！

综合项目：智能感应垃圾桶项目二、课程目的 1、熟练ESP-IDF开发，突破ESP32入门难题 2、熟悉ESP32外设基础知识，提升开发能力，克服眼高手低的问题 3、通过多个外设实战，掌握ESP32

发表于 09-24 17:59

【全新课程资料】正点原子《ESP32物联网项目实战》培训课程资料上线！

，解决ESP32物联网项目入门难的问题； 2、综合应用基础知识，提高项目实战能力，解决眼高手低的问题； 3、通过多个项目实战，掌握ESP32物联网项目的开发流程；三、课程特色 1、

发表于 09-24 17:05

加法运放电路实验报告数据分析

加法运放电路实验报告的数据分析主要包括对实验结果的观察、与理论值的对比以及误差原因的分析。以下是一个基于常见加法运放电路实验的数据分析示例：一、实验目的与原理实验目的：了解加法器

的头像

发表于 09-03 10:03 •891次阅读

数据分析除了spss还有什么

数据分析是当今世界中一个非常重要的领域，它涉及到从大量数据中提取有用信息、发现模式和趋势，并为决策提供支持。SPSS（Statistical Package for the Social

的头像

发表于 07-05 15:01 •635次阅读

数据分析的工具有哪些

数据分析是一个涉及收集、处理、分析和解释数据以得出有意义见解的过程。在这个过程中，使用正确的工具至关重要。以下是一些主要的数据分析工具，以及它们的功能和用途的介绍。 Excel Exc

的头像

发表于 07-05 14:54 •877次阅读

数据分析有哪些分析方法

数据分析是一种重要的技能，它可以帮助我们从大量的数据中提取有价值的信息，从而做出更明智的决策。在这篇文章中，我们将介绍数据分析的各种方法，包括描述性分析、诊断性

的头像

发表于 07-05 14:51 •601次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从数据中学习规律，为企业和组织提供了更高效、更准确的

的头像

发表于 07-02 11:22 •640次阅读

求助，关于AD采集到的数据分析问题

问题描述：使用AD采集一个10Hz到2MHz的脉冲，脉冲底部可能大于零，由采集到的数据分析出该脉冲的上升时间，幅值和占空比。备注：在分析的时候已经知道脉冲的频率，精度为2X10^-5. 在分析

发表于 05-09 07:40