0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

K-MEANS聚类算法概述及工作原理

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-06-06 11:53 次阅读

K-means 是一种聚类算法,且对于数据科学家而言,是简单且热门的无监督式机器学习(ML)算法之一。

什么是 K-MEANS?

无监督式学习算法尝试在无标记数据集中“学习”模式,发现相似性或规律。常见的无监督式任务包括聚类和关联。K-means 等聚类算法试图通过分组对象来发现数据集中的相似性,与不同集群间的对象相似性相比,同一集群中对象之间的相似性更高。使用最小距离、数据点密度、图形或各种统计分布等标准将其分组为集群。

K-means 通过最小化几何点之间的平均距离将相似数据点分组成集群。为此,它以迭代方式将数据集分为非重叠子组(或集群)的固定数量 (K),其中每个数据点均属于集群中心均值最近的集群。

为何选择 K-MEANS?

K-means 是一种聚类算法,部署后可用于发现数据中尚未明确标记的组。目前,它已广泛应用于各种商业应用,包括:

客户分割:可以对客户进行分组,以便更好地定制产品

文本、文档或搜索结果聚类:分组以查找文本中的主题。

图像分组或图像压缩:图像或颜色相似的组。

异常检测:从集群中找出不相似的地方或异常值

半监督式学习:将集群与一组较小的已标记数据和监督式机器学习相结合,以获得更有价值的结果。

K-MEANS 的工作原理

K-means 算法能够识别数据集中一定数量的中心,而中心属于特定集群所有数据点的算术平均值。然后,算法将每个数据点分配给最近的集群,因为其尝试保持尽可能小的集群(K-means 中的“means”是指计算数据平均值或查找中心的任务)。同时,K-means 尝试保持其他集群尽可能不同。

在实践中,其工作原理如下:

K-means 算法首先将所有坐标初始化为“K”集群中心。(K 值是一个输入变量,位置也可以作为输入变量。)

每经过一次算法,每个点都会分配给其最近的集群中心。

然后,集群中心会被更新为在该经过中分配给其的所有点的“中心”。这是通过重新计算集群中心作为各自集群中点的平均值来实现的。

算法会重复执行,直到上次迭代的集群中心发生最小变化。

如果集群呈现一致的球形形状,说明 K-means 在捕获结构和进行数据推理方面非常有效。但是,如果集群呈现更复杂的几何形状,那就说明算法在数据聚类方面做得不好。K-means 的另一个缺点是,该算法不允许彼此距离较远的数据点共享同一集群,而不管它们是否属于该集群。K-means 本身不会从数据中了解到集群数量,而是必须预先定义信息。最后,当集群之间出现重叠时,K-means 无法确定如何分配重叠位置的数据点。

适用于数据科学家的 K-MEANS

由于其内在的简单性以及在无监督机器学习操作中的普及,K-means 在数据科学家中大受青睐。尽管该算法存在局限性,但其在数据挖掘操作中的适用性允许数据科学家利用该算法从业务数据中衍生出各种推理,实现更准确的数据驱动决策。它被广泛认为是数据科学家最具商业重要性的算法之一。

使用 GPU 加速聚类

聚类在各种应用程序中发挥着关键作用,但由于数据量不断增加,其正面临着计算挑战。解决计算难题的极具前景的解决方案之一,即使用 GPU 进行并行计算。

在架构方面,CPU 仅由几个具有大缓存内存的核心组成,一次只可以处理几个软件线程。相比之下,GPU 由数百个核心组成,可以同时处理数千个线程。GPU 具有大规模并行性,并且显存访问带宽优势显著,因此十分适用于加速数据密集型分析。

GPU 加速的端到端数据科学

基于 CUDA 构建的 RAPIDS 开源软件库套件使您能够完全在 GPU 上执行端到端数据科学和分析流程,同时仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。

RAPIDS cuML 的机器学习算法和数学基元遵循熟悉的类似于 scikit-learn 的 API。单块 GPU 和大型数据中心部署均支持 K-means、XGBoost 等主流算法。针对大型数据集,相较于同等功效的 CPU,这些基于 GPU 的实施方案能够以 10 到 50 倍的速度更快地完成任务。

借助 RAPIDS GPU DataFrame,数据可以通过一个类似 Pandas 的接口加载到 GPU 上,然后用于各种连接的机器学习和图形分析算法,而无需离开 GPU。这种级别的互操作性是通过 Apache Arrow 这样的库实现的。这可加速端到端流程(从数据准备到机器学习,再到深度学习)。

RAPIDS 支持在许多热门数据科学库之间共享设备内存。这样可将数据保留在 GPU 上,并省去了来回复制主机内存的高昂成本。

原文标题:NVIDIA 大讲堂 | 什么是 K-MEANS?

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10824

    浏览量

    211088
  • NVIDIA
    +关注

    关注

    14

    文章

    4929

    浏览量

    102790
  • 算法
    +关注

    关注

    23

    文章

    4599

    浏览量

    92617
  • 机器学习
    +关注

    关注

    66

    文章

    8373

    浏览量

    132393

原文标题:NVIDIA 大讲堂 | 什么是 K-MEANS?

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    交流放大器的工作原理是什么

    交流放大器的工作原理主要涉及对交流信号的放大过程,同时保持信号的波形和频率不变。以下是交流放大器工作原理的介绍: 一、概述 交流放大器是一种电子电路,用于放大交流信号的幅度,同时保持信号的波形和频率
    的头像 发表于 09-26 09:17 370次阅读

    【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

    。 ●第5章“时间序列的相似度与”:介绍时间序列的相似性度量方法,如欧氏距离、动态时间规整算法等,用于衡量两个或多个时间序列在形状和模式上的相似程度;
    发表于 08-07 23:03

    JK触发器概述及工作原理

    JK触发器,也被称为通用可编程触发器,是数字电路中的一种基本存储器件。它得名于其输入端口J(置位)和K(复位),以及一个时钟控制端。JK触发器能够模拟其他多种类型触发器的行为,具有置0、置1、翻转
    的头像 发表于 07-27 14:53 2800次阅读

    可控硅的工作原理、特性参数及型号选择

    众多,但基本结构和工作原理是相同的。 一、可控硅的工作原理 可控硅是一种四层三端半导体器件,由两个PN结组成,具有阳极(Anode,A)、阴极(Cathode,K)和门极(Gate,G)三个引脚。 可控硅的
    的头像 发表于 07-25 11:03 1541次阅读

    深度神经网络概述及其应用

    通过模仿人类大脑神经元的连接方式和处理机制,设计多层神经元结构来处理复杂的数据模式,从而在各种数据驱动的问题中展现出强大的能力。本文将从深度神经网络的基本概念、结构、工作原理、关键技术以及其在多个领域的应用等方面进行全面概述
    的头像 发表于 07-04 16:08 702次阅读

    定时开关控制器的工作原理是什么

    部件、设计方法和应用场景。 一、定时开关控制器的工作原理 工作原理概述 定时开关控制器的工作原理基于时间控制原理,通过内置的微控制器或单片机对时间进行精确控制,实现对电器设备的定时开启
    的头像 发表于 06-30 09:59 1952次阅读

    工业物联网网关是什么?工业物联网网关的工作原理

    着至关重要的作用。本文将详细阐述工业物联网网关的概述及工作原理。 一、工业物联网网关的概述 工业物联网网关是一种硬件设备或软件程序,用于连接工业场景下的本地设备(如PLC、传感器、机器人、数控机床等)与远端业务系统(如IoT物联
    的头像 发表于 06-27 14:04 920次阅读
    工业物联网网关是什么?工业物联网网关的<b class='flag-5'>工作原理</b>

    d放大器的工作原理是什么

    d放大器的工作原理是什么 D放大器,也称为数字音频放大器或开关放大器,是一种新型的音频放大器技术。与传统的A、B、AB
    的头像 发表于 06-10 15:44 742次阅读

    AB放大器的工作特性和偏置方法

    AB放大器是音频放大技术领域中的一重要设备,其工作特性和偏置方法对于实现高质量的音频输出至关重要。本文将详细阐述AB放大器的工作特性,
    的头像 发表于 05-23 16:00 973次阅读

    K折交叉验证算法与训练集

    K折交叉验证算法与训练集
    的头像 发表于 05-15 09:26 494次阅读

    频谱分析仪概述、类型及工作原理

    在电子测量和通信领域,频谱分析仪是一种至关重要的测试设备。它能够详细分析信号的频谱特性,从而帮助工程师和技术人员深入了解信号的结构和性质。本文将详细阐述频谱分析仪的概述、类型、工作原理、功能特点、应用范围以及未来发展趋势,以期为读者提供全面而深入的技术参考。
    的头像 发表于 05-10 15:08 1298次阅读

    UWB技术的内部工作原理和窄带定位方法之间的差异概述

    我们可以说UWB是当今最好、最先进的定位技术,但证据呢?要回答这个问题,我们需要透过现象看本质。本文将探讨UWB技术的内部工作原理,并概述UWB和窄带定位方法之间的差异。
    的头像 发表于 03-26 11:37 1006次阅读
    UWB技术的内部<b class='flag-5'>工作原理</b>和窄带定位方法之间的差异<b class='flag-5'>概述</b>

    光伏逆变器拓扑概述及关键技术

    光伏逆变器拓扑概述及关键技术
    的头像 发表于 02-21 09:47 721次阅读
    光伏逆变器拓扑<b class='flag-5'>概述及</b>关键技术

    “太阳能防外损地钉”推动电缆数字化运维

    深度学习的挖掘频繁项集和关联规则的Apriori算法K-Means算法对数据进行分析,有效过滤非路面破坏情况,准确判断是否需要报警。同
    的头像 发表于 02-04 15:02 397次阅读

    AI算法在燃气站的工作原理,安全帽、抽烟、打电话检测的具体应用,如何利用AI提升安全水平

    AI算法在燃气站安全管理中的应用,包括烟火检测、安全帽识别、抽烟、打电话检测等方面的工作原理。AI算法助力燃气站安全管理,烟火检测更精准!
    的头像 发表于 12-26 21:25 594次阅读