0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无监督学习的数据集变换和聚类

汽车玩家 来源:CSDN 作者:zzc_zhuyu 2020-05-04 18:28 次阅读

1、类型

主要有两种类型:数据集变换和聚类。

无监督变换:

降维:接受数据的高维表示,找到新的表示方法,以用较少的特征概括重要特性。

找到“构成”数据的各个组成部分。例如,文本的主题提取。

聚类:

将数据划分成不同的组,每组包含相似的物项

2、降维

1. 主成分分析(PCA)

一种旋转数据集的方法,旋转后的特征在统计上不相关。旋转后,通常根据新特征对数据集的重要性来选择它的一个子集。

主成分

方差最大的方向为“成分1”,这是包含包含最多信息的方向。之后找到与“成分1”正交的包含信息最多的方向,得到“成分2”……利用这一过程找到的方向成为主成分。通常,主成分的个数与原始特征相同。

在PCA找到的额旋转表示中,坐标轴之间 不相关。

应用

高维数据集可视化

特征提取:找到一种数据表示,比给定的原始表示更适合于分析。

对PCA模型的另一种理解:仅适用一些成分对原始数据进行重建。

2. 非负矩阵分解(NMF)

在NMF中,目标是分量和系数均为非负。只能应用于每个特征都是非负的数据,因为非负分量的非负求和不可能得到负值。

与PCA不同,减少分量个数不仅会删除一些方向,而且会创建一组完全不同的分量。

NMF的分量没有按任何特定方法排序,所有分量的地位平等。

NMF使用了随机初始化,根据随机种子的不同可能会产生不同的结果。

3. t-SNE与流形学习

流形学习算法 :主要用于可视化,允许进行更复杂的映射。只能变换用于训练的数据。

t-SNE:找到数据的一个二维表示,尽可能保持数据点之间的距离。试图保存那些点比较靠近的信息。

3、聚类

聚类:将数据集划分成组的任务,这些组叫做簇。

1. K均值聚类

原理

试图找到代表数据特定区域的簇中心

算法过程

① 将每个数据点分配给最近的簇中心

② 将每个簇中心设置为所分配的所有数据点的平均值,如果簇的分配不再变化,结束;反之,执行步骤1

注:聚类算法与分类算法类似,但不存在真实的标签,标签本身没有先验意义。

注意

每个簇仅由其中心决定,这意味着每个簇都是凸型的,因此,只能找到相对简单的形状。

k均值假设所有簇在某种程度上有相同的直径,它总是将簇之间的边界刚好画在簇中心的中间位置

k均值假设所有方向对每个簇同等重要

特点

优点:

容易理解和实现

运行速度相对较快

扩展到大型数据集比较容易

缺点:

依赖于随机初始化

对簇形状的假设的约束性较强

要求制定所要寻找到簇的个数

2. 凝聚聚类

算法首先声明每个点是自己的簇,然后合并两个最相似的簇,直到满足某种停止准则为止。

连接准则:规定如何度量“最相似的簇”。

① ward型:两个簇合并后,使得所有簇中方差增加最小

② average型:平均距离最小的两个簇合并

③ complete型:簇中点之间最大距离最小的两个簇合并

注:凝聚算法不能对新数据点做出预测

凝聚聚类生成了所谓的层次聚类

3. DBSCAN (具有噪声的基于密度的空间聚类应用)

原理

识别特征空间的“拥挤”区域中的点,这些区域成为密集区域。簇形成数据的密集区域,并由相对较空的区域分隔开。在密集区域中的点成为核心样本,指定参数eps和min_samples。如果在一个点eps的距离内至少有min_samples个数据点,则为核心样本。

算法过程

① 任意选取一个点,检查是否是核心样本。

② 若不是,标记为噪声。反之,标记为核心样本,并分配一个新的簇标签。然后检查邻居,若未被分配,分配簇标签;如果是核心样本,依次访问邻居。

③ 选取另一个尚未被访问过的点,重复以上过程。

最后得到三种点:核心点、边界点、噪声。

特点

优点:

不需先验设置簇的个数

可以划分具有复杂形状的簇

可以找出不属于任何簇的点

缺点:

不允许对新的测试数据进行预测

聚类评估

1. 真实值评估

调整rand指数(ARI),归一化互信息(NMI)

二者都给出了定量的度量,最佳值为1,0表示不相关的聚类。

2. 没有真实值

轮廓系数 计算一个簇的紧致度,值越大越好,最高分数为1。虽然紧致的簇很好,但不允许复杂的形状。

聚类小结

k均值

可以用簇的平均值来表示簇。

可被看做是一种分解方法,。每个数据点都由其簇中心表示

DBSCAN

可以检测噪声点

可以自动判断簇的数量

允许簇有复杂的形状

有时会生成大小差别很大的簇,可能是优点可能是缺点

凝聚聚类

可以提供数据的可能划分的整个层次结构

可以通过树状图查看

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4608

    浏览量

    92845
  • 无监督学习
    +关注

    关注

    1

    文章

    16

    浏览量

    2754
收藏 人收藏

    评论

    相关推荐

    时空引导下的时间序列自监督学习框架

    【导读】最近,香港科技大学、上海AI Lab等多个组织联合发布了一篇时间序列监督预训练的文章,相比原来的TS2Vec等时间序列表示学习工作,核心在于提出了将空间信息融入到预训练阶段,即在预训练阶段
    的头像 发表于 11-15 11:41 241次阅读
    时空引导下的时间序列自<b class='flag-5'>监督学习</b>框架

    【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

    。 ●第5章“时间序列的相似度与”:介绍时间序列的相似性度量方法,如欧氏距离、动态时间规整算法等,用于衡量两个或多个时间序列在形状和模式上的相似程度;算法,如K-Means、D
    发表于 08-07 23:03

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    收集海量的文本数据作为训练材料。这些数据不仅包括语法结构的学习,还包括对语言的深层次理解,如文化背景、语境含义和情感色彩等。 自监督学习
    发表于 08-02 11:03

    【《大语言模型应用指南》阅读体验】+ 基础篇

    章节最后总结了机器学习的分类:有监督学习监督学习、半监督学习、自监督学习和强化
    发表于 07-25 14:33

    如何理解机器学习中的训练、验证和测试

    理解机器学习中的训练、验证和测试,是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了模型学习
    的头像 发表于 07-10 15:45 3820次阅读

    神经网络如何用监督算法训练

    神经网络作为深度学习的重要组成部分,其训练方式多样,其中监督学习是一种重要的训练策略。监督学习旨在从未标记的
    的头像 发表于 07-09 18:06 784次阅读

    深度学习中的监督学习方法综述

    应用中往往难以实现。因此,监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的监督学
    的头像 发表于 07-09 10:50 691次阅读

    PyTorch如何训练自己的数据

    PyTorch是一个广泛使用的深度学习框架,它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时,数据是不可或缺的组成部分。然而,很多时候,我们可能需要使用自己的
    的头像 发表于 07-02 14:09 1658次阅读

    基于FPGA的脑计算平台 —PYNQ 集群的监督图像识别脑计算系统

    STDP 监督学习算法,可运用于图像的 监督分类。 从平台设计角度: (1)本设计搭建的基于 PYNQ 集群的通用低功耗的大规模
    发表于 06-25 18:35

    傅里叶变换基本原理及在机器学习应用

    连续傅里叶变换(CFT)和离散傅里叶变换(DFT)是两个常见的变体。CFT用于连续信号,而DFT应用于离散信号,使其与数字数据和机器学习任务更加相关。
    发表于 03-20 11:15 926次阅读
    傅里叶<b class='flag-5'>变换</b>基本原理及在机器<b class='flag-5'>学习</b>应用

    机器学习基础知识全攻略

    监督学习通常是利用带有专家标注的标签的训练数据学习一个从输入变量X到输入变量Y的函数映射。Y = f (X),训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分
    发表于 02-25 13:53 240次阅读
    机器<b class='flag-5'>学习</b>基础知识全攻略

    Meta发布新型监督视频预测模型“V-JEPA”

    Meta,这家社交媒体和科技巨头,近日宣布推出一种新型的监督视频预测模型,名为“V-JEPA”。这一模型在视频处理领域引起了广泛关注,因为它通过抽象性预测生成视频中缺失或模糊的部分来进行学习,提供了一种全新的视频处理方法。
    的头像 发表于 02-19 11:19 1009次阅读

    描绘未知:数据缺乏场景的缺陷检测方案

    Neuro-T 视觉平台 克服了数据缺乏状况的困难,通过零代码设置 GAN模型 和 监督学习模型 ,轻松实现缺陷图像的标注、绘制和导出。 工业应用中存在较多的缺陷检测需求。针对缺陷检测需求,常见的解决方案有两种: 基于目标正
    的头像 发表于 01-25 10:46 563次阅读
    描绘未知:<b class='flag-5'>数据</b>缺乏场景的缺陷检测方案

    2024年AI领域将会有哪些新突破呢?

    传统的机器学习需要大量的标记数据进行训练,但自监督学习可以通过监督的方式从大规模未标记的数据
    的头像 发表于 01-24 09:58 2008次阅读

    谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途

    另一个极端是,监督学习方法(即SupCE)会将所有这些图像视为单一(如「金毛猎犬」)。这就忽略了这些图像在语义上的细微差别,例如在一对图像中狗在骑自行车,而在另一对图像中狗坐在寿司屋内。
    的头像 发表于 01-15 15:40 539次阅读
    谷歌MIT最新研究证明:高质量<b class='flag-5'>数据</b>获取不难,大模型就是归途