聚类是另一种无监督机器学习方法-电子发烧友网

聚类是另一种无监督机器学习方法，该方法将数据点分为相似的组，称之为“类”。一个类包含来自数据集的一个观察子集，同一类中的所有观察值都被认为是“相似的”。每个类里观测值彼此之间接近（称为内聚），两个不同的类里的观测值彼此远离或者尽可能不同（称为分离）。下图描述了类的内聚和分离。

聚类算法在许多投资问题中特别有用。例如，在对公司进行分组时，类可以发现公司之间的重要相似性和差异性，而这些相似性和差异性可能不会被标准的行业分类所捕捉。在投资组合管理中，聚类方法被用来改善投资组合的多样化。

在实践中，专家判断在聚类算法中起着一定的作用。首先，专家必须确定什么是“相似”。每个公司都可以被认为是一个具有多种特征的观察值，包含营业收入、利润、财务比率等财务数值，以及其他潜在的模型输入值。有了这些特征值，两个观测值之间的相似度或“距离”就可以被定义。距离越小，观测结果越相似；距离越大，观测结果越不相似。

一个常用的定义方法是欧几里得距离，即两点之间的直线距离。在机器学习中，经常使用的距离度量有十余种。在实践中，距离度量的选择取决于数据的性质（是否是数值）和被分析的业务类别。

一旦定义了相关的距离度量，我们就可以将类似的观测结果分在一起。我们现在介绍两种比较流行的聚类方法：K-Means和分层聚类。

K-Means

K-Means是一种相对较老的算法，它将观察值重复划分为一个固定的数字k（不重叠的类）。类的数量k是一个模型超参数，它的值由研究人员在学习开始之前设置。每个类由它的形心（centroid，即中心）定义，每个观测值都由算法分配到与该观测值最接近的形心的类中。

K-Means算法遵循迭代过程。如下表所示，k=3和一组关于变量的观察结果可以用两个特征来描述。

在表中，水平轴和垂直轴分别代表第一和第二特征。例如，投资分析师可能希望将一组公司用两个测量标准分成三类。

算法将观测数据按以下步骤进行分类：

1、首先确定k（本例为3）个初始随机形心的位置。

2、算法分析每个观测值的特征。基于使用的距离度量，K-Means将每个观测值分配给最近的形心（类由形心定义）。

3、借助每个类中的观测值，K-Means算法在计算每个类新的（k个）形心（形心是观测值的平均值）。

4、然后将观测结果重新分配到新的形心，根据观测结果对类重新定义。

5、再次进行新的（k个）形心及类的确定过程。

K-Means算法将继续迭代，直到没有观察结果被重新分配到另一个新的类（即不需要重新计算新的形心）。该算法最终收敛并得到最后的K个类及类内的观察值。在k=3的约束下，K-Means算法最小化了类内的距离（内聚最大化），最大化了类间距离（分离最大化）。

K-Means算法速度快，在拥有上亿个观测数据的数据集上运行良好。但是，类的最终分配可能取决于形心的初始位置。为了解决这个问题，可以使用不同的形心多次运行该算法，然后根据业务目的选择最有用的分类。

这种技术的一个限制是，在运行K-Means之前，必须确定类的数量（超参数k）。

因此，我们需要知道，研究问题及分析数据集，选择多少个类是合理的。或者，可以选择k的取值范围，通过运行算法找到最优的类的数量——使类内距离最小，类内的相似度最大。但是，最终结果仍可能过于主观。

以罗素3000指数为例，该指数跟踪美国市值最高的3000只股票。这3000支股票可以根据财务特征（如总资产、总收益、盈利能力、杠杆率等）和经营特征（如员工人数、研发费用等）分为10个、50个甚至更多的类。由于处于同一行业类别中的公司可能具有非常不同的财务和运营特征，因此使用K-Means派生出不同的类可以为“同类”群体的性质提供独特的理解。如前所述，k的准确选择取决于所需的精度或分割的水平。我们还可以使用聚类对投资工具或对冲基金进行分类，作为标准分类的替代方法。聚类还可以帮助实现可视化数据，并有助于检测趋势或异常值。

总而言之，K-Means算法是投资实践中最常用的算法之一，特别是在高维数据中发现特有模式及作为现有静态行业分类的替代方法等方面。

分层聚类

分层聚类是一种用于构建层次类结构的迭代过程。在K-Means聚类中，算法将数据分割成预定数目的聚类;类之间没有定义的关系。然而，在分层聚类中，算法会创建大小递增（“内聚”）或递减（“分离”）的中间类，直到达到最终的聚类。正如“分层”一词所暗示的，该过程在多层类之间创建关系。虽然与K-Means聚类相比，分层聚类的计算量更大，但它的优点是允许分析师在决定使用哪种间隔的数据之前检查不同间隔数据的分段。

更详细地说，内聚式（自下至上）分层聚类先将每个观察值作为自己的类。然后，算法根据距离（相似度）的度量找到两个最近的类，并将它们合并成一个新的更大的类。这个过程不断重复，直到所有的观察值都聚集成一个类。下表中的A表描述了一个内聚聚类的假想示例，其中的观察结果用字母表示（A到K），观察结果周围的圆圈表示类。这个过程从11个单独的类开始，然后生成分组序列。第一个序列包括6个类，有5个类各自有2个观测值，1个类有单个观测值G。接下来生成2个类，一个类有6个观测值，另一个类有5个观测值。最后的结果是一个包含所有11个观测值的大类，该大类包括两个主要的子类，每个子类包含三个较小的孙类。

相反，分离式（自上而下）分层聚类从单个类的所有观察值开始。然后根据距离（相似度）将观测结果分成两个类。然后，该算法逐步将中间类划分为更小的类，直到每个类只包含一个观察值。B表描述了分离式聚类的步骤，它以一个包含11个观察值的类开始，算法生成两个较小的类，一个有6个观测值，另一个有5个观测值;然后再分为6个类;最后生成11个类，每个类只包含一个观测值。

在这个假设的例子中，内聚式和分离式聚类产生了相同的结果：两个主要的子类，每个子类有三个更小的孙类。我们可以在6个类或2个类之间进行选择。由于计算速度快，内聚式聚类是处理数据集的常用方法。内聚式聚类算法根据局部模式进行决策，不考虑数据的全局结构。因此，内聚式聚类非常适合于对较小的类进行识别。由于分离式聚类先从整体开始，所以常被侧重于分析数据的全局结构，因此更适合于识别较大的类。

为了确定内聚式和分离式聚类的最佳结果，需要对两个类之间的距离有明确的定义。一些常用的定义包括求每个类中所有观测值之间直线距离的最小值、最大值或平均值。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

聚类算法

聚类算法

+关注

关注
2

文章
118

浏览量
12181
机器学习

机器学习

+关注

关注
66

文章
8459

浏览量
133370
K-means

K-means

+关注

关注
0

文章
28

浏览量
11364

数据降维聚类工具介绍——SpatialPCA

，NMF）等，多是基于单细胞数据进行开发的，因此不一定完全适用于空间转录组数据。例如，常用的降维聚类方法并没有运用空间转录组所特有的组织空间定位信息，而仅仅只是基于表达谱进行

发表于 02-07 11:19 •156次阅读

数据降维<b class='flag-5'>聚</b><b class='flag-5'>类</b>工具介绍——SpatialPCA

传统机器学习方法和应用指导

用于开发生物学数据的机器学习方法。尽管深度学习（一般指神经网络算法）是一个强大的工具，目前也非常流行，但它的应用领域仍然有限。与深度

发表于 12-30 09:16 •519次阅读

传统<b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>和应用指导

磁通制动是另一种基于电机损耗的处理超速负载的方法

电机

深圳崧皓电子

发布于 :2024年11月21日 07:16:32

什么是机器学习？通过机器学习方法能解决哪些问题？

计算机系统自身的性能”。事实上，由于“经验”在计算机系统中主要以数据的形式存在，因此机器学习需要设法对数据进行分析学习，这就使得它逐渐成为智能数据分析技术的创新源之一，

发表于 11-16 01:07 •602次阅读

什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>？通过<b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>能解决哪些问题？

【《时间序列与机器学习》阅读体验】+ 了解时间序列

。可以探索现象发展变化的规律，对某些社会经济现象进行预测。利用时间序列可以在不同地区或国家之间进行对比分析，这也是统计分析的重要方法之一。而《时间序列与机器学习》

发表于 08-11 17:55

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

。 ●第5章“时间序列的相似度与聚类”:介绍时间序列的相似性度量方法，如欧氏距离、动态时间规整算法等,用于衡量两个或多个时间序列在形状和模式上的相似程度;聚

发表于 08-07 23:03

【《大语言模型应用指南》阅读体验】+ 基础篇

章节最后总结了机器学习的分类：有监督学习、无监督学习、半监督学习、自

发表于 07-25 14:33

一种无透镜成像的新方法

使用OAM-HHG EUV光束对高度周期性结构进行成像的EUV聚光显微镜为了研究微电子或光子元件中的纳米级图案，一种基于无透镜成像的新方法可以实现近乎完美的高分辨率显微镜。层析成像是一种

发表于 07-19 06:20 •502次阅读

神经网络如何用无监督算法训练

神经网络作为深度学习的重要组成部分，其训练方式多样，其中无监督学习是一种重要的训练策略。无监督学习

发表于 07-09 18:06 •1017次阅读

深度学习中的无监督学习方法综述

应用中往往难以实现。因此，无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的无监督学

发表于 07-09 10:50 •1110次阅读

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

STDP 无监督学习算法，可运用于图像的无监督分类。从平台设计角度： (1)本设计搭建的基于 PYNQ 集群的通用低功耗的大规模类

发表于 06-25 18:35

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

捕捉复杂非线性模式的场景中显得力不从心。将时间序列的分析与预测用于大规模的数据生产一直存在诸多困难。在这种背景下，结合机器学习，特别是深度学习技术的时间序列分析

发表于 06-25 15:00

低烟无卤六类网线是一种什么网线

低烟无卤六类网线(LSZH Cat.6 Cable)是一种采用无卤、低烟材料制造的Cat.6标准网线。这种网线主要用于需要满足环保、安全和抗干扰等特殊要求的场合。六

发表于 05-22 10:03 •1084次阅读

谷歌提出大规模ICL方法

谷歌DeepMind团队近日取得了一项突破性的研究成果。他们提出了强化和无监督两种新型的ICL（In-Context Learning）学习方法

发表于 05-14 14:17 •439次阅读

一种利用光电容积描记（PPG）信号和深度学习模型对高血压分类的新方法

[22]。就像平均池化一样，最大池化是另一种用于减小特征图大小的常用方法。它通过仅取每个区域的最大值来获得最重要的特征。在机器学习中，池化

发表于 05-11 20:01

搜索历史

聚类是另一种无监督机器学习方法

K-Means

分层聚类

评论

数据降维聚类工具介绍——SpatialPCA

传统机器学习方法和应用指导

磁通制动是另一种基于电机损耗的处理超速负载的方法

什么是机器学习？通过机器学习方法能解决哪些问题？

【《时间序列与机器学习》阅读体验】+ 了解时间序列

【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

【《大语言模型应用指南》阅读体验】+ 基础篇

一种无透镜成像的新方法

神经网络如何用无监督算法训练

深度学习中的无监督学习方法综述

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

名单公布！【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来？

低烟无卤六类网线是一种什么网线

谷歌提出大规模ICL方法

一种利用光电容积描记（PPG）信号和深度学习模型对高血压分类的新方法