0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

10个机器学习中常用的距离度量方法

颖脉Imgtec 2022-11-03 10:35 次阅读

作者:Jonte Dancker

来源:DeepHub IMBA


距离度量是有监督和无监督学习算法的基础,包括k近邻、支持向量机和k均值聚类等。

距离度量的选择影响我们的机器学习结果,因此考虑哪种度量最适合这个问题是很重要的。因此,我们在决定使用哪种测量方法时应该谨慎。但在做出决定之前,我们需要了解距离测量是如何工作的,以及我们可以从哪些测量中进行选择。

本文将简要介绍常用的距离度量方法、它们的工作原理、如何用Python计算它们以及何时使用它们。这样可以加深知识和理解,提高机器学习算法和结果。fdf794a0-5937-11ed-b116-dac502259ad0.png在更深入地研究不同的距离测量之前,我们先要有一个关于它们如何工作以及如何选择合适的测量的大致概念。距离度量用于计算给定问题空间中两个对象之间的差异,即数据集中的特征。然后可以使用该距离来确定特征之间的相似性, 距离越小特征越相似。

对于距离的度量,我们可以在几何距离测量和统计距离测量之间进行选择,应该选择哪种距离度量取决于数据的类型。特征可能有不同的数据类型(例如,真实值、布尔值、分类值),数据可能是多维的或由地理空间数据组成。


几何距离测量1、欧氏距离 Euclidean distance欧氏距离度量两个实值向量之间的最短距离。由于其直观,使用简单和对许多用例有良好结果,所以它是最常用的距离度量和许多应用程序的默认距离度量。fe14fd38-5937-11ed-b116-dac502259ad0.png欧氏距离也可称为l2范数,其计算方法为:fe38b61a-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.euclidean(vector_1, vector_2)欧氏距离有两个主要缺点。首先,距离测量不适用于比2D或3D空间更高维度的数据。第二,如果我们不将特征规范化和/或标准化,距离可能会因为单位的不同而倾斜。2、曼哈顿距离 Manhattan distance曼哈顿距离也被称为出租车或城市街区距离,因为两个实值向量之间的距离是根据一个人只能以直角移动计算的。这种距离度量通常用于离散和二元属性,这样可以获得真实的路径。fe497ab8-5937-11ed-b116-dac502259ad0.png曼哈顿距离以l1范数为基础,计算公式为:fe5b34a6-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.cityblock(vector_1, vector_2)曼哈顿的距离有两个主要的缺点。它不如高维空间中的欧氏距离直观,它也没有显示可能的最短路径。虽然这可能没有问题,但我们应该意识到这并不是最短的距离。3、切比雪夫距离 Chebyshev distance切比雪夫距离也称为棋盘距离,因为它是两个实值向量之间任意维度上的最大距离。它通常用于仓库物流中,其中最长的路径决定了从一个点到另一个点所需的时间。fe65d6d6-5937-11ed-b116-dac502259ad0.png切比雪夫距离由l -无穷范数计算:fe75cc3a-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.chebyshev(vector_1, vector_2)

切比雪夫距离只有非常特定的用例,因此很少使用。

4、闵可夫斯基距离 Minkowski distance闵可夫斯基距离是上述距离度量的广义形式。它可以用于相同的用例,同时提供高灵活性。我们可以选择 p 值来找到最合适的距离度量。fe7ee90a-5937-11ed-b116-dac502259ad0.png闵可夫斯基距离的计算方法为:fe9bec6c-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.minkowski(vector_1, vector_2, p)

由于闵可夫斯基距离表示不同的距离度量,它就有与它们相同的主要缺点,例如在高维空间的问题和对特征单位的依赖。此外,p值的灵活性也可能是一个缺点,因为它可能降低计算效率,因为找到正确的p值需要进行多次计算。

5、余弦相似度和距离 Cosine similarity余弦相似度是方向的度量,他的大小由两个向量之间的余弦决定,并且忽略了向量的大小。余弦相似度通常用于与数据大小无关紧要的高维,例如,推荐系统或文本分析。feac9fd0-5937-11ed-b116-dac502259ad0.png余弦相似度可以介于-1(相反方向)和1(相同方向)之间,计算方法为:febb1ccc-5937-11ed-b116-dac502259ad0.png余弦相似度常用于范围在0到1之间的正空间中。余弦距离就是用1减去余弦相似度,位于0(相似值)和1(不同值)之间。Python代码如下from scipy.spatial import distance distance.cosine(vector_1, vector_2)

余弦距离的主要缺点是它不考虑大小而只考虑向量的方向。因此,没有充分考虑到值的差异。

6、半正矢距离 Haversine distance半正矢距离测量的是球面上两点之间的最短距离。因此常用于导航,其中经度和纬度和曲率对计算都有影响。fecaeb8e-5937-11ed-b116-dac502259ad0.png半正矢距离的公式如下:fee112c4-5937-11ed-b116-dac502259ad0.png其中r为球面半径,φ和λ为经度和纬度。Python代码如下from sklearn.metrics.pairwise import haversine_distances haversine_distances([vector_1, vector_2])

半正矢距离的主要缺点是假设是一个球体,而这种情况很少出现。

7、汉明距离汉明距离衡量两个二进制向量或字符串之间的差异。feec7542-5937-11ed-b116-dac502259ad0.png对向量按元素进行比较,并对差异的数量进行平均。如果两个向量相同,得到的距离是0之间,如果两个向量完全不同,得到的距离是1。Python代码如下from scipy.spatial import distance distance.hamming(vector_1, vector_2)

汉明距离有两个主要缺点。距离测量只能比较相同长度的向量,它不能给出差异的大小。所以当差异的大小很重要时,不建议使用汉明距离。


统计距离测量统计距离测量可用于假设检验、拟合优度检验、分类任务或异常值检测8、杰卡德指数和距离 Jaccard IndexJaccard指数用于确定两个样本集之间的相似性。它反映了与整个数据集相比存在多少一对一匹配。Jaccard指数通常用于二进制数据比如图像识别的深度学习模型的预测与标记数据进行比较,或者根据单词的重叠来比较文档中的文本模式。fefb9f2c-5937-11ed-b116-dac502259ad0.pngJaccard距离的计算方法为:ff13c034-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.jaccard(vector_1, vector_2)

Jaccard指数和距离的主要缺点是,它受到数据规模的强烈影响,即每个项目的权重与数据集的规模成反比。

9、Sorensen-Dice指数Sörensen-Dice指数类似于Jaccard指数,它可以衡量的是样本集的相似性和多样性。该指数更直观,因为它计算重叠的百分比。Sörensen-Dice索引常用于图像分割和文本相似度分析。ff201f5a-5937-11ed-b116-dac502259ad0.png计算公式如下:ff31b65c-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.dice(vector_1, vector_2)

它的主要缺点也是受数据集大小的影响很大。

10、动态时间规整 Dynamic Time Warping动态时间规整是测量两个不同长度时间序列之间距离的一种重要方法。可以用于所有时间序列数据的用例,如语音识别或异常检测。ff444e70-5937-11ed-b116-dac502259ad0.png为什么我们需要一个为时间序列进行距离测量的度量呢?如果时间序列长度不同或失真,则上述面说到的其他距离测量无法确定良好的相似性。比如欧几里得距离计算每个时间步长的两个时间序列之间的距离。但是如果两个时间序列的形状相同但在时间上发生了偏移,那么尽管时间序列非常相似,但欧几里得距离会表现出很大的差异。动态时间规整通过使用多对一或一对多映射来最小化两个时间序列之间的总距离来避免这个问题。当搜索最佳对齐时,这会产生更直观的相似性度量。通过动态规划找到一条弯曲的路径最小化距离,该路径必须满足以下条件:边界条件:弯曲路径在两个时间序列的起始点和结束点开始和结束单调性条件:保持点的时间顺序,避免时间倒流连续条件:路径转换限制在相邻的时间点上,避免时间跳跃整经窗口条件(可选):允许的点落入给定宽度的整经窗口坡度条件(可选):限制弯曲路径坡度,避免极端运动我们可以使用 Python 中的 fastdtw 包:from scipy.spatial.distance import euclidean from fastdtw import fastdtw  distance, path = fastdtw(timeseries_1, timeseries_2, dist=euclidean)

动态时间规整的一个主要缺点是与其他距离测量方法相比,它的计算工作量相对较高。


总结在这篇文章中,简要介绍了十种常用的距离测量方法。本文中已经展示了它们是如何工作的,如何在Python中实现它们,以及经常使用它们解决什么问题。如果你认为我错过了一个重要的距离测量,请留言告诉我。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8406

    浏览量

    132562
收藏 人收藏

    评论

    相关推荐

    什么是机器学习?通过机器学习方法能解决哪些问题?

    来源:Master编程树“机器学习”最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能。因为没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的
    的头像 发表于 11-16 01:07 382次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?通过<b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>能解决哪些问题?

    华为设备中常用的RIP命令及其应用

    RIP(Routing Information Protocol,路由信息协议)是一种应用广泛的距离矢量路由协议,尤其适用于中小型网络。本文将详细介绍在华为设备中常用的RIP命令及其应用,以帮助网络管理员和工程师更好地理解和配置RIP协议。
    的头像 发表于 08-12 18:10 734次阅读

    【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

    。 ●第5章“时间序列的相似度与聚类”:介绍时间序列的相似性度量方法,如欧氏距离、动态时间规整算法等,用于衡量两或多个时间序列在形状和模式上的相似程度;聚类算法,如K-Means、D
    发表于 08-07 23:03

    机器学习中的数据分割方法

    机器学习中,数据分割是一项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习中数据分割的方法
    的头像 发表于 07-10 16:10 1695次阅读

    深度学习中的时间序列分类方法

    的发展,基于深度学习的TSC方法逐渐展现出其强大的自动特征提取和分类能力。本文将从多个角度对深度学习在时间序列分类中的应用进行综述,探讨常用的深度
    的头像 发表于 07-09 15:54 876次阅读

    机器人视觉技术中常见的图像分割方法

    机器人视觉技术中的图像分割方法是一广泛且深入的研究领域。图像分割是将图像划分为多个区域或对象的过程,这些区域或对象具有某种共同的特征,如颜色、纹理、形状等。在机器人视觉中,图像分割对
    的头像 发表于 07-09 09:31 656次阅读

    机器视觉中常用的光源类型及优点?

    中常用的光源类型及其优点。 一、LED光源 优点 (1)高亮度:LED光源具有高亮度,能够提供足够的光线,使图像更加清晰。 (2)低能耗:LED光源的能耗较低,能够降低整个系统的运行成本。 (3)长寿命:LED光源的使用寿命较长,一
    的头像 发表于 07-04 10:28 592次阅读

    深度学习与传统机器学习的对比

    在人工智能的浪潮中,机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步,为众多领域带来了革命性的变化。然而,尽管它们都属于机器
    的头像 发表于 07-01 11:40 1324次阅读

    名单公布!【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来?

    应用,将理论基础与实践案例相结合,作者凭借扎实的数学功底及其在企业界的丰富实践经验,将机器学习与时间序列分析巧妙融合在书中。 全书书共分为8章,系统介绍时间序列的基础知识、常用预测方法
    发表于 06-25 15:00

    smt贴片加工常用的检测修理方法有哪些

    一站式PCBA智造厂家今天为大家讲讲SMT贴片加工常见问题有哪些?SMT贴片加工常用的检测修理方法。随着电子产品的不断发展,SMT贴片加工成为电子制造业中常见且关键的工艺。然而,贴片加工过程中可能会
    的头像 发表于 06-13 09:32 559次阅读

    深度学习度量学习融合的综述

    如今,机器学习的应用广泛,包括人脸识别、医疗诊断等,为复杂问题和大量数据提供解决方案。机器学习算法能基于数据产生成功的分类模型,但每个数据都有其问题,需定义区别特征进行正确分类。
    发表于 04-24 09:49 420次阅读
    深度<b class='flag-5'>学习</b>与<b class='flag-5'>度量</b><b class='flag-5'>学习</b>融合的综述

    机器学习8大调参技巧

    今天给大家一篇关于机器学习调参技巧的文章。超参数调优是机器学习例程中的基本步骤之一。该方法也称为超参数优化,需要搜索超参数的最佳配置以实现最
    的头像 发表于 03-23 08:26 611次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>8大调参技巧

    工业镜头中常见的参数之工作距离、物距、法兰距及镜头接口

    工业镜头中常用的一些关于距离的参数,别再傻傻分不清了。工作距离(WD)是指镜头最下端机械面到物体的距离。物像距离(O/I)指物平面到相机芯片
    的头像 发表于 03-11 15:29 5230次阅读
    工业镜头<b class='flag-5'>中常</b>见的参数之工作<b class='flag-5'>距离</b>、物距、法兰距及镜头接口

    gis中常用的空间分析方法

    将详细介绍GIS中常用的空间分析方法,包括空间插值、缓冲区分析、空间统计、领域分析、网络分析和多标准决策等。 一、空间插值 空间插值是一种将有限数量的点数据转换为连续表面的方法。常见的空间插值
    的头像 发表于 02-25 13:44 5497次阅读

    电子电路中常用的元器件

    电容器、三极管和二极管是电子电路中常用的元器件,它们可以搭配使用以实现各种功能。下面将详细介绍它们的搭配使用方法和使用规范。 一、电容器 电容器是一种能够存储电荷的被动元件,主要用于储存
    的头像 发表于 12-29 14:47 812次阅读