0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

传统机器学习方法和应用指导

上海生物芯片 来源:上海生物芯片 2024-12-30 09:16 次阅读

在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。

01

传统机器学习

传统机器学习,一般指不基于神经网络的算法,适合用于开发生物学数据的机器学习方法。尽管深度学习(一般指神经网络算法)是一个强大的工具,目前也非常流行,但它的应用领域仍然有限。与深度学习相比,传统方法在给定问题上的开发和测试速度更快。开发深度神经网络的架构并进行训练是一项耗时且计算成本高昂的任务,而传统的支持向量机(SVM)和随机森林等模型则相对简单。此外,在深度神经网络中估计特征重要性(即每个特征对预测的贡献程度)或模型预测的置信度仍然不是一件容易的事。即使使用深度学习模型,通常仍应训练一个传统方法,与基于神经网络的模型进行比较。

传统方法通常期望数据集中的每个样本具有相同数量的特征,但是生物学检测数据很难满足这个需求。举例说明,当使用蛋白质、RNA的表达水平矩阵时,每个样本表达的蛋白质、RNA数量不同。为了使用传统方法处理这些数据,可以通过简单的技术(如填充和窗口化)将数据调整为相同的大小。“填充”意味着将每个样本添加额外的零值,直到它与数据集中最大的样本大小相同。相比之下,窗口化将每个样本缩短到给定的大小(例如,使用在所有样品中均表达的蛋白质、RNA)。

5ed086d2-c36d-11ef-9310-92fbcf53809c.png

表1. 传统机器学习方法比较

02

回归模型

对于回归问题,岭回归(带有正则化项的线性回归)通常是开发模型的良好起点。因为它可以为给定任务提供快速且易于理解的基准。当希望减少模型依赖的特征数时,比如筛选生物标志物研究时,其他线性回归变体如LASSO回归和弹性网络回归也是值得考虑的。数据中特征之间的关系通常是非线性的,因此在这种情况下使用如支持向量机(SVM)的模型通常是更合适的选择。SVM是一种强大的回归和分类模型,它使用核函数将不可分的问题转换为更容易解决的可分问题。根据使用的核函数,SVM可以用于线性回归和非线性回归。一个开发模型的好方法是训练一个线性SVM和一个带有径向基函数核的SVM(一种通用的非线性SVM),以量化非线性模型是否能带来任何增益。非线性方法可以提供更强大的模型,但代价是难以解释哪些特征在影响模型。

03

分类模型

许多常用的回归模型也用于分类。对于分类任务,训练一个线性SVM和一个带有径向基函数核的SVM也是一个好的默认起点。另一种可以尝试的方法是k近邻分类(KNN)。作为最简单的分类方法之一,KNN提供了与其他更复杂的模型(如SVM)进行比较的有用基线性能指标。另一类强大的非线性方法是基于集成的模型,如随机森林和XGBoost。这两种方法都是强大的非线性模型,具有提供特征重要性估计和通常需要最少超参数调优的优点。由于特征重要性值的分配和决策树结构,这些模型可分析哪些特征对预测贡献最大,这对于生物学理解至关重要。

无论是分类还是回归,许多可用的模型都有令人眼花缭乱的变体。试图预测特定方法是否适合特定问题可能会有误导性,因此采取经验性的试错方法来找到最佳模型是明智的选择。选择最佳方法的一个好策略是训练和优化上述多种方法,并选择在验证集上表现最好的模型,最后再在独立的测试集上比较它们的性能。

04

聚类模型和降维

聚类算法在生物学中广泛应用。k-means是一种强大的通用聚类方法,像许多其他聚类算法一样,需要将聚类的数量设置为超参数。DBSCAN是一种替代方法,不需要预先定义聚类的数量,但需要设置其他超参数。在聚类之前进行降维也可以提高具有大量特征的数据集的性能。

降维技术用于将具有大量属性(或维度)的数据转换为低维形式,同时尽可能保留数据点之间的不同关系。例如,相似的数据点(如两个同源蛋白序列)在低维形式中也应保持相似,而不相似的数据点(如不相关的蛋白序列)应保持不相似。通常选择两维或三维,以便在坐标轴上可视化数据,尽管在机器学习中使用更多维度也有其用途。这些技术包括数据的线性和非线性变换。生物学中常见的例子包括主成分分析(PCA)、均匀流形逼近和投影(UMAP)以及t分布随机邻域嵌入(t-SNE)。

5f95bb50-c36d-11ef-9310-92fbcf53809c.png

图1. 各种传统机器学习模型

本文详细介绍了传统机器学习方法和应用指导,下一篇文章将介绍深度神经网络算法模型,敬请期待。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4772

    浏览量

    100810
  • 机器学习
    +关注

    关注

    66

    文章

    8420

    浏览量

    132690

原文标题:生物学家的机器学习指南(三)

文章出处:【微信号:SBCNECB,微信公众号:上海生物芯片】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是机器学习?通过机器学习方法能解决哪些问题?

    来源:Master编程树“机器学习”最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能。因为没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的
    的头像 发表于 11-16 01:07 420次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?通过<b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>能解决哪些问题?

    NPU与机器学习算法的关系

    紧密。 NPU的起源与特点 NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)项目中提出,旨在为TensorFlow框架提供专用的硬件加速。NPU的设计目标是提高机器学习算法的运行效率,特别是在处理大规模数据集和复杂神经网络模型时。与
    的头像 发表于 11-15 09:19 472次阅读

    LLM和传统机器学习的区别

    在人工智能领域,LLM(Large Language Models,大型语言模型)和传统机器学习是两种不同的技术路径,它们在处理数据、模型结构、应用场景等方面有着显著的差异。 1. 模型结构
    的头像 发表于 11-08 09:25 527次阅读

    如何使用 PyTorch 进行强化学习

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互来学习如何做出决策,以最大化累积奖励。PyTorch 是一个流行的开源
    的头像 发表于 11-05 17:34 306次阅读

    麻省理工学院推出新型机器人训练模型

    近日,据TechCrunch报道,麻省理工学院的研究团队展示了一种创新的机器人训练模型,该模型突破了传统模仿学习方法的局限,不再依赖标准数据集,而是借鉴了大型语言模型(LLM)如GPT-4等所使用的大规模信息处理方式,为
    的头像 发表于 11-04 14:56 496次阅读

    AI大模型与传统机器学习的区别

    AI大模型与传统机器学习在多个方面存在显著的区别。以下是对这些区别的介绍: 一、模型规模与复杂度 AI大模型 :通常包含数十亿甚至数万亿的参数,模型大小可以达到数百GB甚至更大。这些模型结构复杂,由
    的头像 发表于 10-23 15:01 660次阅读

    【《时间序列与机器学习》阅读体验】+ 了解时间序列

    学习方法对该序列数据进行分析,可以得到结论或预测估计,因此时间序列分析的用途是非常多的,比如: 可以反映社会经济现象的发展变化过程,描述现象的发展状态和结果。 可以研究社会经济现象的发展趋势和发展速度
    发表于 08-11 17:55

    机器学习中的数据分割方法

    机器学习中,数据分割是一项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习中数据分割的方法
    的头像 发表于 07-10 16:10 1836次阅读

    机器学习中的交叉验证方法

    机器学习中,交叉验证(Cross-Validation)是一种重要的评估方法,它通过将数据集分割成多个部分来评估模型的性能,从而避免过拟合或欠拟合问题,并帮助选择最优的超参数。本文将详细探讨几种
    的头像 发表于 07-10 16:08 1171次阅读

    深度学习中的无监督学习方法综述

    应用中往往难以实现。因此,无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的无监督学习方法,包括自编码器、生成对抗网络、聚类算法等,并分析它们的原理、应用场景以及优
    的头像 发表于 07-09 10:50 764次阅读

    人工神经网络与传统机器学习模型的区别

    人工神经网络(ANN)与传统机器学习模型之间的不同,包括其原理、数据处理能力、学习方法、适用场景及未来发展趋势等方面,以期为读者提供一个全面的视角。
    的头像 发表于 07-04 14:08 1332次阅读

    深度学习的基本原理与核心算法

    随着大数据时代的到来,传统机器学习方法在处理复杂模式上的局限性日益凸显。深度学习(Deep Learning)作为一种新兴的人工智能技术,以其强大的非线性表达能力和自
    的头像 发表于 07-04 11:44 2117次阅读

    机器人视觉技术中图像分割方法有哪些

    和分析。本文将详细介绍图像分割的各种方法,包括传统的图像处理方法和基于深度学习方法。 阈值分割法 阈值分割法是一种基于像素的图像分割
    的头像 发表于 07-04 11:34 1018次阅读

    深度学习传统机器学习的对比

    在人工智能的浪潮中,机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步,为众多领域带来了革命性的变化。然而,尽管它们都属于机器
    的头像 发表于 07-01 11:40 1408次阅读

    机器学习8大调参技巧

    今天给大家一篇关于机器学习调参技巧的文章。超参数调优是机器学习例程中的基本步骤之一。该方法也称为超参数优化,需要搜索超参数的最佳配置以实现最
    的头像 发表于 03-23 08:26 632次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>8大调参技巧