0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据挖掘常用算法

工程师 来源:网络整理 作者:h1654155205.5246 2019-04-10 16:32 次阅读

数据挖掘常用算法

1、朴素贝叶斯

朴素贝叶斯(NB)属于生成式模型(即需要计算特征与类的联合概率分布),计算过程非常简单,只是做了一堆计数。NB有一个条件独立性假设,即在类已知的条件下,各个特征之间的分布是独立的。这样朴素贝叶斯分类器的收敛速度将快于判别模型,如逻辑回归,所以只需要较少的训练数据即可。即使NB条件独立假设不成立,NB分类器在实践中仍然表现的很出色。它的主要缺点是它不能学习特征间的相互作用,用mRMR中的R来讲,就是特征冗余。

2、逻辑回归(logisticregression)

逻辑回归是一个分类方法,属于判别式模型,有很多正则化模型的方法(L0,L1,L2),而且不必像在用朴素贝叶斯那样担心特征是否相关。与决策树与SVM相比,还会得到一个不错的概率解释,甚至可以轻松地利用新数据来更新模型(使用在线梯度下降算法onlinegradientdescent)。如果需要一个概率架构(比如,简单地调节分类阈值,指明不确定性,或者是要获得置信区间),或者希望以后将更多的训练数据快速整合到模型中去,那么可以使用它。

3、最近邻算法——KNN

KNN即最近邻算法,其主要过程为:计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);对上面所有的距离值进行排序;选前k个最小距离的样本;根据这k个样本的标签进行投票,得到最后的分类类别;

如何选择一个最佳的K值,这取决于数据。一般情况下,在分类时较大的K值能够减小噪声的影响。但会使类别之间的界限变得模糊。一个较好的K值可通过各种启发式技术来获取,比如,交叉验证。另外噪声和非相关性特征向量的存在会使K近邻算法的准确性减小。

近邻算法具有较强的一致性结果。随着数据趋于无限,算法保证错误率不会超过贝叶斯算法错误率的两倍。对于一些好的K值,K近邻保证错误率不会超过贝叶斯理论误差率。

4、决策树

可以处理特征间的交互关系并且是非参数化的,因此不必担心异常值或者数据是否线性可分(举个例子,决策树能轻松处理好类别A在某个特征维度x的末端,类别B在中间,然后类别A又出现在特征维度x前端的情况)。它的缺点之一就是不支持在线学习,于是在新样本到来后,决策树需要全部重建。另一个缺点就是容易出现过拟合,但这也就是诸如随机森林RF(或提升树boostedtree)之类的集成方法的切入点。另外,随机森林经常在很多分类问题上表现很好(通常比支持向量机好一些),它训练快速并且可调,同时无须担心要像支持向量机那样调一大堆参数,所以在以前一直很受欢迎。

5、Adaboosting

Adaboost是一种加和模型,每个模型都是基于上一次模型的错误率来建立的,过分关注分错的样本,而对正确分类的样本减少关注度,逐次迭代之后,可以得到一个相对较好的模型。Adaboost是一种典型的boosting算法。

6、SVM支持向量机

高准确率,为避免过拟合提供了很好的理论保证,而且就算数据在原特征空间线性不可分,只要给个合适的核函数,它就能运行得很好。在动辄超高维的文本分类问题中特别受欢迎。可惜内存消耗大,难以解释,运行和调参也有些烦人,而随机森林却刚好避开了这些缺点,比较实用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24236
收藏 人收藏

    评论

    相关推荐

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+内容简介

    。本书力求从算法、芯片设计、软件开发等多个角度解读基础算法电路的设计,涵盖了溢出保护、有符号运算、浮点运算、位宽确定等运算电路基础知识,以及除法器、信号发生器、滤波器、小数分频器等常用基本算法
    发表于 11-21 17:14

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+介绍基础硬件算法模块

    作为嵌入式开发者往往比较关注硬件和软件的协调。本书介绍了除法器,信号发生器,滤波器,分频器等基本算法的电路实现,虽然都是基础内容,但是也是最常用到的基本模块。 随着逆全球化趋势的出现,过去的研发
    发表于 11-21 17:05

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+一本介绍基础硬件算法模块实现的好书

    作为嵌入式开发者往往比较关注硬件和软件的协调。本书介绍了除法器,信号发生器,滤波器,分频器等基本算法的电路实现,虽然都是基础内容,但是也是最常用到的基本模块,本书的内容比较对本人胃口。 我们先来
    发表于 11-20 13:42

    鲁棒性算法数据处理中的应用

    一、鲁棒性算法的基本概念 鲁棒性算法是指在面对数据中的异常值、噪声和不确定性时,仍能保持稳定性能的算法。这类算法的核心思想是提高
    的头像 发表于 11-11 10:22 317次阅读

    名单公布!【书籍评测活动NO.46】从算法到电路 | 数字芯片算法的电路实现

    、浮点运算、位宽确定等运算电路基础知识,以及除法器、信号发生器、滤波器、小数分频器等常用基本算法电路的Matlab建模和RTL设计,可帮助数字IC设计者掌握常用算法设计思路、工具和流程
    发表于 10-09 13:43

    常用的ADC滤波算法有哪些

    ADC(模数转换器)滤波算法在信号处理中起着至关重要的作用,它们能够帮助我们提取出有用的信号,同时滤除噪声和干扰。以下是常用的ADC滤波算法详解,这些算法各具特色,适用于不同的应用场景
    的头像 发表于 10-08 14:35 381次阅读

    人员轨迹分析算法有哪些?

    时段等。这些信息可以对城市规划、交通管理、公共安全等方面具有重要的指导意义。而为了实现人员轨迹分析,我们需要使用一些专门的算法和技术。 下面是几种常用的人员轨迹分析算法: 1. 基于密度的聚类
    的头像 发表于 09-26 10:42 395次阅读

    中科曙光受邀参加第十届中国数据挖掘会议

    近日,国内数据挖掘领域最主要的学术活动之一—第十届中国数据挖掘会议(CCDM2024)于山东泰安举行,中科曙光参与并分享了曙光AI构建产学研用的生态实践。
    的头像 发表于 08-01 10:43 587次阅读

    bp神经网络算法的基本流程包括哪些

    BP神经网络算法,即反向传播神经网络算法,是一种常用的多层前馈神经网络训练算法。它通过反向传播误差来调整网络的权重和偏置,从而实现对输入数据
    的头像 发表于 07-04 09:47 639次阅读

    常用的电机控制算法有哪些

    在电机控制领域,选择合适的控制算法对于实现高效、精确且稳定的电机运行至关重要。以下将详细介绍几种常用的电机控制算法,并通过具体的分析和实例,探讨它们的特点、应用以及优势。
    的头像 发表于 06-05 16:31 2326次阅读

    STM32的ADC项目应用,用什么算法滤波和稳定数据抖动?

    STM32的ADC项目应用,大家都用什么算法滤波和稳定数据抖动。 ADC数据的抖动有时候应用在项目上让人很是头疼,什么度娘十大滤波算法也是要斟酌选用。 单片机项目设计中,外设ADC的
    发表于 04-17 08:20

    挖掘机生产装配线无线通讯应用

    一、应用背景 山东某挖掘机机械有限公司主要产品有装载机、挖掘机、道路机械及核心关键零部件等系列工程机械产品。为加速新旧动能转换,全新挖掘机整机装配线配合劳动组合的调整,提高装配水平和生产效率;可集中
    的头像 发表于 02-22 09:44 399次阅读
    <b class='flag-5'>挖掘</b>机生产装配线无线通讯应用

    iBeLink KS MAX 10.5T大算力领跑KAS新领域

    Kaspa是一种基于DAG(有向无环图)技术的加的密的货的币,它拥有高速、安全、可扩展的特点,是未来区的块的链领域的新星。为了挖掘Kaspa,我们需要一款专门的挖掘机,能够适应Kaspa的特殊算法
    发表于 02-20 16:11

    数据挖掘的应用领域,并举例说明

    数据挖掘(Data Mining)是一种从大量数据中提取出有意义的信息和模式的技术。它结合了数据库、统计学、机器学习和人工智能等领域的理论和方法,通过高效的
    的头像 发表于 02-03 14:19 3097次阅读

    源代码审计怎么做?有哪些常用工具

    源代码审计是一种通过检查源代码来发现潜在的安全漏洞的方法。 下面是常用的源代码审计工具: 1、Fortify:通过内置的五大主要分析引擎,对源代码进行静态分析,并与特有的软件安全漏洞规则集进行全面
    发表于 01-17 09:35