0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是机器学习?通过机器学习方法能解决哪些问题?

颖脉Imgtec 2024-11-16 01:07 次阅读

来源:Master编程


机器学习”最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能。因为没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”。事实上,由于“经验”在计算机系统中主要以数据的形式存在,因此机器学习需要设法对数据进行分析学习,这就使得它逐渐成为智能数据分析技术的创新源之一,并且受到越来越多的关注。

机器学习的核心在于建模和算法,学习得到的参数只是一个结果。

成功训练一个模型需要四个要素:数据、转换数据的模型、衡量模型好坏的损失函数和一个调整模型权重以便最小化损失函数的算法。

机器学习里最重要的四类问题(按学习结果分类):

预测(Prediction)一般用回归(Regression,Arima)等模型。

聚类(Clustering)如K-means方法。

分类(Classification)如支持向量机法(Support Vector Machine,SVM),逻辑回归(Logistic Regression)。

降维(Dimensional reduction)如主成分分析法(Principal Component Analysis,PCA,即纯矩阵运算)。

如果按照学习方法,机器学习又可以分为如下几类

  • 监督学习(SupervisedLearning,如深度学习);
  • 无监督学习(Un-supervised Learning,如聚类);
  • 半监督学习(Semi-supervised Learning);
  • 增强学习(Reinforced Learning)。

几种常用的机器学习方法:

  • 文本分类
  • 特征提取
  • 标注
  • 搜索与排序
  • 推荐系统
  • 序列学习

1、文本分类

文本分类技术在NLP领域有着举足轻重的地位。文本分类是指在给定分类体系,根据文本内容自动确定文本类别的过程。20世纪90年代以来,文本分类已经出现了很多应用,比如信息检索、Web 文档自动分类、数字图书馆、自动文摘、分类新闻、文本过滤单词语义辨析、情感分析等。
分类过程主要分为两个阶段,训练阶段和预测阶段。训练阶段根据训练数据训练得到分类模型。预测阶段根据分类器推断出文本所属类别。训练阶段一般需要先分词,然后提取文本为特征,提取特征的过程称之为特征提取。

一般来说文本分类大致分为如下几个步骤:

1)定义阶段定义数据以及分类体系,具体分为哪些类别,需要哪些数据

2)数据预处理对文档做分词、去停用词等准备工作。

3)数据提取特征对文档矩阵进行降维,提取训练集中最有用的特征。

4)模型训练阶段选择具体的分类模型以及算法,训练出文本分类器。

5)评测阶段在测试集上测试并评价分类器的性能。

6)应用阶段应用性能最高的分类模型对待分类文档进行分类。


2、特征提取

在使用分类器之前,需要对文本提取特征,而一般来说,提取特征有几种经典的方法:

Bag-of-words最原始的特征集,一个单词/分词就是一个特征。往往一个数据集就会有上万个特征;有一些简单的指标可以帮助筛选掉一些对分类没帮助的词语,例如去停词、计算互信息熵等。但不管怎么训练,特征维度都很大,每个特征的信息量太小。

统计特征包括Termfrequency(TF)、Inverse document frequency(IDF),以及合并起来的TF-IDF。这种语言模型主要是用词汇的统计特征来作为特征集,每个特征都能够说得出物理意义,看起来会比bag-of-words效果好,但实际效果也差不多。

  • N-Gram一种考虑了词汇顺序的模型,就是N阶Markov链,每个样本转移成转移概率矩阵,也能取得不错的效果。

3、标注事实上,有一些看似分类的问题在实际中却难以归于分类。例如,把图所示的小女孩与狗这张图无论分类成人还是狗看上去都有些问题。

图里既有人又有狗。其实还不止这些,里面还有草啊、书包啊、树啊等。与其将上图仅仅分类为其中一类,倒不如把这张图里面我们所关心的类别都标注出来。比如,给定一张图片,我们希望知道里面是否有人、是否有狗、是否有草等。给定一个输人,输出不定量的类别,这个就叫作标注任务。


4、搜索与排序

在这个数据爆炸的时代,在大量数据的场景下,如何用算法帮助人们从这些无序的信息中找到人们需要的信息就成为一个刚需。搜索与排序关注的问题更多的是如何对一堆对象排序。例如在信息检索领域,我们常常关注如何把海量的文档按照与检索条目的相关性进行排序。在互联网时代,由于谷歌和百度等搜索引擎的流行,我们更加关注如何对网页进行排序。互联网时代早期,谷歌研发出一个著名的网页排序算法-PageRank。该算法的排序结果并不取决于特定的用户检索条目,这些排序结果可以更好地为所包含的检索条目的网页进行排序。


5、推荐系统

推荐系统和搜索排序关系紧密,并且被广泛应用于电子商务、搜索引擎、新闻门户等。推荐系统的主要目标是把用户可能感兴趣的东西推荐给用户。推荐算法用到的信息种类非常多,例如用户的自我描述、过往的购物习惯,以及对过往推荐的反馈等。


6、序列学习序列学习是一类近来备受关注的机器学习问题。在这类问题中,需要考虑顺序问题输入和输出的长度不固定(例如翻译,输入的英文和翻译出来的中文长度都是不固定的)。这类模型通常可以处理任意长度的输人序列,或者输出任意长度的序列。当输入和输出都是不定长的序列时,我们把这类模型称为seq2seq,例如QA问答系统、语言翻译模型和语音转录文本模型。

以下列举了一些常见的序列学习案例。


1. 语音识别

在语音识别的问题里,输人序列通常都是麦克风的声音,而输出是对通过麦克风所说的话的文本转录。这类问题通常有一个难点,例如声音通常都在特定的采样率下进行采样,因为声音和文本之间不存在一一对应的关系。换言之,语音识别是一类序列转换问题。这里的输出往往比输人短很多。


2. 文本转语音

这是语音识别问题的逆问题。这里的输入是一个文本序列,而输出才是声音序列。因此,这类问题的输出比输入长。


3. 机器翻译机器翻译的目标是把一段话从一种语言翻译成另一种语言,例如把中文翻译成英语。目前,机器翻译技术已经很成熟,例如国内的科大讯飞以及百度语音在中文翻译领域都有不错的成绩,不过有的时候也会出现一些尴尬的翻译结果。

机器翻译的复杂程度是非常高的,同一个词在两种不同语言下有时候是多对多的关系。另外,符合语法或者语言习惯的语序调整也令问题更加复杂。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7392

    浏览量

    87681
  • 机器学习
    +关注

    关注

    66

    文章

    8368

    浏览量

    132365
  • nlp
    nlp
    +关注

    关注

    1

    文章

    487

    浏览量

    21999
收藏 人收藏

    评论

    相关推荐

    【卡酷机器人】——基础学习方法

    `` 这里和大伙儿讲解一下卡酷机器人基础学习方法,如果有错误,欢迎大家指点哟。``
    发表于 01-09 18:01

    【下载】《机器学习》+《机器学习实战》

    读者, 本书附录给出了一些相关数学基础知识简介.目录:全书共16 章,大致分为3 个部分:第1 部分(第1~3 章)介绍机器学习的基础知识;第2 部分(第4~10 章)讨论一些经典而常用的机器
    发表于 06-01 15:49

    什么是机器学习? 机器学习基础入门

    一个复杂的字段,那么您可能会问: 为什么一个人要费心将不复杂的字段复杂化呢?为什么不坚持我们经典的算法计算方法呢?答案是,倾向于机器学习的一类问题往往不能通过纯算法的
    发表于 06-21 11:06

    深度解析机器学习三类学习方法

    机器学习(Machine learning)领域。主要有三类不同的学习方法:监督学习(Supervised learning)、非监督学习
    发表于 05-07 09:09 1.4w次阅读

    什么是机器学习机器学习能解决什么问题?(案例分析)

    随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工 业界对机器
    发表于 05-18 13:13 1.6w次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>能解</b>决什么问题?(案例分析)

    机器学习与数据挖掘:方法和应用》

    和应用》的介绍及下载地址 赞助本站 《机器学习与数据挖掘:方法和应用》分为5个部分,共18章,较为全面地介绍了机器学习的基本概念,并讨论了数
    发表于 06-27 18:38 752次阅读

    如何学好机器学习机器学习学习方法4个关键点整理概述

    。 对于想要了解或从事AI行业工作的小伙伴们来说,能够快速、深入的掌握机器学习相关知识显得尤为重要,小编给大家整理机器学习学习方法
    的头像 发表于 09-24 19:29 6264次阅读
    如何学好<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的<b class='flag-5'>学习方法</b>4个关键点整理概述

    机器学习入门宝典《统计学习方法》的介绍

    《统计学习方法》可以说是机器学习的入门宝典,许多机器学习培训班、互联网企业的面试、笔试题目,很多都参考这本书。本文根据网上资料用python
    的头像 发表于 11-25 09:24 4598次阅读

    面向人工智能的机器学习方法体系总结

    此处梳理出面向人工智能的机器学习方法体系,主要体现机器学习方法和逻辑关系,理清机器学习脉络,后续
    的头像 发表于 12-17 15:10 3364次阅读
    面向人工智能的<b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>体系总结

    区块链数据集有怎样的机器学习方法

    区块链数据集提供了一个与加密货币资产行为相关的独特的数据宇宙,因此,为机器学习方法的应用提供了独特的机会。
    发表于 11-26 09:49 884次阅读

    随着人工智能的落地 自动化机器学习方法AutoML应运而生

    随着概念的普及,科技公司对人工智能的要求越来越高,成本、准确度、效率都影响着人工智能能否落地融入日常的使用中。对人工智能应用的快速增长也进而催生了对影响人工智能水平的关键要素——机器学习方法的需求。自动化机器
    发表于 12-02 15:03 787次阅读

    机器学习方法迁移学习的发展和研究资料说明

    近年来,迁移学习已经引起了广泛的关注和研究。迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法。它放宽了传统机器
    发表于 07-17 08:00 0次下载
    <b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>迁移<b class='flag-5'>学习</b>的发展和研究资料说明

    深度讨论集成学习方法,解决AI实践难题

    集成学习方法是一类先进的机器学习方法,这类方法训练多个学习器并将它们结合起来解决一个问题,在实践中获得了巨大成功,并成为
    发表于 08-16 11:40 759次阅读
    深度讨论集成<b class='flag-5'>学习方法</b>,解决AI实践难题

    水声被动定位中的机器学习方法研究进展综述

    向量机、随机森林及以卷积网络层和全连接层为主要组成单元的深度神经网络。本文通过重点引述近几年发表在国际期刊和会议上的相关前沿研究工作,详细论述了将机器学习方法应用于水声被动定位的关键理论基础、单水听器和阵列前端信号
    发表于 12-24 11:18 651次阅读
    水声被动定位中的<b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>研究进展综述

    联合学习在传统机器学习方法中的应用

    联合学习在传统机器学习方法中的应用
    的头像 发表于 07-05 16:30 741次阅读
    联合<b class='flag-5'>学习</b>在传统<b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>中的应用