0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据挖掘常用算法

工程师 来源:网络整理 作者:h1654155205.5246 2019-04-10 16:32 次阅读

数据挖掘常用算法

1、朴素贝叶斯

朴素贝叶斯(NB)属于生成式模型(即需要计算特征与类的联合概率分布),计算过程非常简单,只是做了一堆计数。NB有一个条件独立性假设,即在类已知的条件下,各个特征之间的分布是独立的。这样朴素贝叶斯分类器的收敛速度将快于判别模型,如逻辑回归,所以只需要较少的训练数据即可。即使NB条件独立假设不成立,NB分类器在实践中仍然表现的很出色。它的主要缺点是它不能学习特征间的相互作用,用mRMR中的R来讲,就是特征冗余。

2、逻辑回归(logisticregression)

逻辑回归是一个分类方法,属于判别式模型,有很多正则化模型的方法(L0,L1,L2),而且不必像在用朴素贝叶斯那样担心特征是否相关。与决策树与SVM相比,还会得到一个不错的概率解释,甚至可以轻松地利用新数据来更新模型(使用在线梯度下降算法onlinegradientdescent)。如果需要一个概率架构(比如,简单地调节分类阈值,指明不确定性,或者是要获得置信区间),或者希望以后将更多的训练数据快速整合到模型中去,那么可以使用它。

3、最近邻算法——KNN

KNN即最近邻算法,其主要过程为:计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);对上面所有的距离值进行排序;选前k个最小距离的样本;根据这k个样本的标签进行投票,得到最后的分类类别;

如何选择一个最佳的K值,这取决于数据。一般情况下,在分类时较大的K值能够减小噪声的影响。但会使类别之间的界限变得模糊。一个较好的K值可通过各种启发式技术来获取,比如,交叉验证。另外噪声和非相关性特征向量的存在会使K近邻算法的准确性减小。

近邻算法具有较强的一致性结果。随着数据趋于无限,算法保证错误率不会超过贝叶斯算法错误率的两倍。对于一些好的K值,K近邻保证错误率不会超过贝叶斯理论误差率。

4、决策树

可以处理特征间的交互关系并且是非参数化的,因此不必担心异常值或者数据是否线性可分(举个例子,决策树能轻松处理好类别A在某个特征维度x的末端,类别B在中间,然后类别A又出现在特征维度x前端的情况)。它的缺点之一就是不支持在线学习,于是在新样本到来后,决策树需要全部重建。另一个缺点就是容易出现过拟合,但这也就是诸如随机森林RF(或提升树boostedtree)之类的集成方法的切入点。另外,随机森林经常在很多分类问题上表现很好(通常比支持向量机好一些),它训练快速并且可调,同时无须担心要像支持向量机那样调一大堆参数,所以在以前一直很受欢迎。

5、Adaboosting

Adaboost是一种加和模型,每个模型都是基于上一次模型的错误率来建立的,过分关注分错的样本,而对正确分类的样本减少关注度,逐次迭代之后,可以得到一个相对较好的模型。Adaboost是一种典型的boosting算法。

6、SVM支持向量机

高准确率,为避免过拟合提供了很好的理论保证,而且就算数据在原特征空间线性不可分,只要给个合适的核函数,它就能运行得很好。在动辄超高维的文本分类问题中特别受欢迎。可惜内存消耗大,难以解释,运行和调参也有些烦人,而随机森林却刚好避开了这些缺点,比较实用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24206
收藏 人收藏

    评论

    相关推荐

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+内容简介

    。本书力求从算法、芯片设计、软件开发等多个角度解读基础算法电路的设计,涵盖了溢出保护、有符号运算、浮点运算、位宽确定等运算电路基础知识,以及除法器、信号发生器、滤波器、小数分频器等常用基本算法
    发表于 11-21 17:14

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+介绍基础硬件算法模块

    作为嵌入式开发者往往比较关注硬件和软件的协调。本书介绍了除法器,信号发生器,滤波器,分频器等基本算法的电路实现,虽然都是基础内容,但是也是最常用到的基本模块。 随着逆全球化趋势的出现,过去的研发
    发表于 11-21 17:05

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+一本介绍基础硬件算法模块实现的好书

    作为嵌入式开发者往往比较关注硬件和软件的协调。本书介绍了除法器,信号发生器,滤波器,分频器等基本算法的电路实现,虽然都是基础内容,但是也是最常用到的基本模块,本书的内容比较对本人胃口。 我们先来
    发表于 11-20 13:42

    鲁棒性算法数据处理中的应用

    一、鲁棒性算法的基本概念 鲁棒性算法是指在面对数据中的异常值、噪声和不确定性时,仍能保持稳定性能的算法。这类算法的核心思想是提高
    的头像 发表于 11-11 10:22 176次阅读

    常用的ADC滤波算法有哪些

    ADC(模数转换器)滤波算法在信号处理中起着至关重要的作用,它们能够帮助我们提取出有用的信号,同时滤除噪声和干扰。以下是常用的ADC滤波算法详解,这些算法各具特色,适用于不同的应用场景
    的头像 发表于 10-08 14:35 269次阅读

    中科曙光受邀参加第十届中国数据挖掘会议

    近日,国内数据挖掘领域最主要的学术活动之一—第十届中国数据挖掘会议(CCDM2024)于山东泰安举行,中科曙光参与并分享了曙光AI构建产学研用的生态实践。
    的头像 发表于 08-01 10:43 553次阅读

    常用的电机控制算法有哪些

    在电机控制领域,选择合适的控制算法对于实现高效、精确且稳定的电机运行至关重要。以下将详细介绍几种常用的电机控制算法,并通过具体的分析和实例,探讨它们的特点、应用以及优势。
    的头像 发表于 06-05 16:31 2061次阅读

    STM32的ADC项目应用,用什么算法滤波和稳定数据抖动?

    STM32的ADC项目应用,大家都用什么算法滤波和稳定数据抖动。 ADC数据的抖动有时候应用在项目上让人很是头疼,什么度娘十大滤波算法也是要斟酌选用。 单片机项目设计中,外设ADC的
    发表于 04-17 08:20

    iBeLink KS MAX 10.5T大算力领跑KAS新领域

    Kaspa是一种基于DAG(有向无环图)技术的加的密的货的币,它拥有高速、安全、可扩展的特点,是未来区的块的链领域的新星。为了挖掘Kaspa,我们需要一款专门的挖掘机,能够适应Kaspa的特殊算法
    发表于 02-20 16:11

    数据挖掘的应用领域,并举例说明

    数据挖掘(Data Mining)是一种从大量数据中提取出有意义的信息和模式的技术。它结合了数据库、统计学、机器学习和人工智能等领域的理论和方法,通过高效的
    的头像 发表于 02-03 14:19 2906次阅读

    源代码审计怎么做?有哪些常用工具

    源代码审计是一种通过检查源代码来发现潜在的安全漏洞的方法。 下面是常用的源代码审计工具: 1、Fortify:通过内置的五大主要分析引擎,对源代码进行静态分析,并与特有的软件安全漏洞规则集进行全面
    发表于 01-17 09:35

    如何通过能源数据管理挖掘智慧楼宇的节能空间

    性能的同时优化能耗,对此我们需要了解建筑内各种能源的使用结构、使用时间等信息。对此,物通博联提供智慧楼宇的能源数据管理系统,实现楼宇内各种能源的数据采集与可视化监控,并建立能源全面数据视图,帮助确定可以
    的头像 发表于 12-23 15:55 725次阅读
    如何通过能源<b class='flag-5'>数据</b>管理<b class='flag-5'>挖掘</b>智慧楼宇的节能空间

    传感器数据融合算法python代码

    传感器数据融合算法是一种将多个传感器收集到的数据合并到一个一致和准确的表示中的技术。这种算法的目的是提高数据精确性和可靠性,从而增强对环境或
    的头像 发表于 12-15 10:28 1375次阅读

    充分挖掘SiC FET的性能

    充分挖掘SiC FET的性能
    的头像 发表于 12-07 09:30 354次阅读
    充分<b class='flag-5'>挖掘</b>SiC FET的性能

    数据挖掘示波器与传统示波器的区别在哪里?

    数据采集方式:传统示波器通过将模拟信号转换为数字信号进行采集和显示。而数据挖掘示波器主要用于数字信号的采集和分析,例如从数字通信系统、传感器网络等获取的数字信号进行处理和分析。
    的头像 发表于 12-04 14:28 392次阅读
    <b class='flag-5'>数据</b><b class='flag-5'>挖掘</b>示波器与传统示波器的区别在哪里?