0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习入门需要掌握的八大基础概念

Dbwd_Imgtec 2018-01-30 10:45 次阅读

准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题

这些机器学习的专业术语能够简要地介绍最重要的机器学习概念—包括商业界和科技界都感兴趣的话题。在你遇到一位AI指导者之前,这是一份不详尽,但清楚易懂又方便在工作、面试前快速浏览的内容。

1 自然语言处理

自然语言处理对于许多机器学习方法来说是一个常用的概念,它使得计算机理解并使用人所读或所写的语言来执行操作成为了可能。

机器学习入门需要掌握的八大基础概念

自然语言处理最重要的最有用的实例:

① 文本分类和排序这项任务的目标是对一个文本进行预测标签(类别)或对列表中相关联的文本进行排序。它能够用于过滤垃圾邮件(预测一封电子邮件是否是垃圾邮件),或进行文本内容分类(从网络上筛选出那些与你的竞争者相关的文章)。

② 情感分析句子分析是为了确定一个人对某个主题的看法或情感反应,如正面或负面情绪,生气,讽刺等。它广泛应用于用户满意度调查(如对产品的评论进行分析)。

③ 文件摘要文件摘要是用一些方法来得到长文本(如文档,研究论文)短且达意的描述。对自然语言处理方向感兴趣吗?

④ 命名实体识别命名实体识别算法是用于处理一系列杂乱的文本并识别目标(实体)预定义的类别,如人,公司名称,日期,价格,标题等等。它能够将杂乱的文本信息转换成规则的类表的格式,来实现文本的快速分析。

语音识别语音识别技术是用于得到人所讲的一段语音信号的文本表达。你可能听说过Siri助手?这就是语音识别应用的一个最好的例子。

⑥ 自然语言的理解和生成自然语言的理解是通过计算机,将人类生成的文本转换成更正式的表达。反过来,自然语言生成技术是将一些正式又有逻辑性的表达转换成类人的生成文本。如今,自然语言理解和生成主要用于聊天机器人和报告的自动生成。

从概念上来说,它与实体命名识别任务是相反的。

⑦ 机器翻译机器翻译是将一段文本或语音自动从一种语言翻译成另一种语言的一项任务。

2 数据库

数据库是机器学习一个必要的组成部分。如果你想构建一个机器学习系统,你要么可以从公众资源中得到数据,要么需要自己收集数据。所有的用于构建和测试机器学习模型的数据集合成为数据库。基本上,数据科学家会将数据划分为三个部分:

训练数据:训练数据是用于训练模型。这意味着机器学习模型需要认识并通过学习得到数据的模式以及确定预测过程中最重要的数据特征。

验证数据:验证数据是用于微调模型参数和比较不同模型来确定最优的模型。验证数据应该不同于训练数据,且不能用于训练阶段。否则,模型将出现过拟合现象,且对新的数据泛化不佳。

测试数据:这看起来似乎有些单调,但这通常是第三个也是最后的测试集(经常也被称为对抗数据)。一旦最终的模型确定,它就用于测试模型在从未见过的数据集上的表现,如这些数据从未在构建模型或确定模型时使用过。

图像:混合使用t-SNE和Jonker-Volgenant算法得到的MNIST数据库的可视化结果。T-SNE是一种广泛使用的降维算法,通过压缩数据的表达来得到更好的可视化和进一步处理。

3 计算机视觉

计算机视觉是一个专注于分析并深层次理解图像和视频数据的人工智能领域。计算机视觉领域最常见的问题包括:

① 图像分类图像分类是教模型去识别给定的图像的一种计算机视觉任务。例如,训练一个模型去识别公共场景下的多个物体(这可以应用于自动驾驶)。

② 目标检测目标检测是教模型从一系列预定义的类别中检测出某一类别的实例,并用矩形框框注出来的一种计算机视觉任务。例如,利用目标检测来构建人脸识别系统。模型可以在图片中检测出每张脸并画出对应的矩形框(顺便说下,图像分类系统只能识别出一张图片中是否有脸的存在,而不能检测出脸的位置,而目标检测系统就可以)。

机器学习入门需要掌握的八大基础概念

③ 图像分割图像分割是训练模型去标注类的每一个像素值,并能大致确定给定像素所属的预定义类别的一种计算机视觉任务。

机器学习入门需要掌握的八大基础概念

显著性检测

显著性检测是训练模型产生最显著区域的一种计算机视觉任务。这可以用于确定视频中广告牌的位置。

4 监督学习

监督学习是用实例来教模型学习的一类机器学习模型集合。这意味着用于监督学习任务的数据需要被标注(指定正确的,真实类别)。例如,如果我们想要构建一个机器学习模型用于识别一个给定的文本是否被标记过的,我们需要给模型提供一个标记过的样本集 (文本+信息,是否该文本被标记过)。给定一个新的,未见过的例子,模型能够预测它的目标,例如,规定样本的标签,1表示标记过的而0表示未标记的。

5 无监督学习

相比于监督学习,无监督学习模型是通过观察来进行自我学习。算法所用的数据是未标记过的(即提供给算法的是没有真实标签值的数据)。无监督学习模型能够发现不同输入之间的相关关系。最重要的无监督学习技术是聚类方法。对于给定的数据,模型能够得到输入的不同聚类(对于相似的数据聚合在同一类中),并能将新的、未见过的输入归入到相似的聚类中。

机器学习入门需要掌握的八大基础概念

6 强化学习

强化学习区别于先前我们提到的那些方法。强化学习算法一种“游戏”的过程,其目标是最大化 “游戏奖励”。该算法通过反复的实验来尝试确定不同的 “走法”,并查看哪种方式能够最大化 “游戏收益”

最广为人知的强化学习例子就是教计算机来解决魔方问题或下象棋,但是强化学习能解决的问题不仅只有游戏。最近,强化学习大量地应用于实时竞价,其模型负责为一个广告竞拍价格而它的报酬是用户的转换率。

想要学习人工智能在实时竞价和程序化广告中的应用吗?

神经网络是一个非常广泛的机器学习模型集合。它的主要思想是模拟人类大脑的行为来处理数据。就像大脑中真实神经元之间相互连接形成的网络一样,人工神经网络由多层组成。每层都是一系列神经元的集合,这些神经元负责检测不同的食物。一个神经网络能够连续地处理数据,这意味着只有第一层才与输入直接相连,随着模型层数的增加,模型将学到越来越复杂的数据结构。当层数大量地增加,模型通常就是一个所谓的深度学习模型。很难给一个深度网络确定一个特定的网络层数,10年前通常3层神经网络就可谓深,而如今通常需要20层。

机器学习入门需要掌握的八大基础概念

神经网络有许许多多不同的变体,最常用的是:

• 卷积神经网络—它给计算机视觉任务带来了巨大的突破(而如今,它同样对于解决自然语言处理问题有很大帮助)。

• 循环神经网络—被设计为处理具有序列特征的数据,如文本或股票票价。这是个相对古老的神经网络,但随着过去20年现代计算机计算能力的突飞猛进,使得它的训练变得容易并在很多时候得以应用。

• 全连接神经网络—这是处理静态/表格式数据最简单的模型。

8 过拟合

当模型从不充分的数据中学习会产生偏差,这对模型会有负面的影响。这是个很常见,也很重要的问题。

当你在不同的时间进入一个面包坊,而每一次所剩下的蛋糕都没有你喜欢的,那么你可能会对这个面包坊失望,即使有很多其他的顾客可能会对剩下的蛋糕满意。如果你是个机器学习模型,可以说你对这一小数量样本产生了过拟合现象—要构建一个具有偏置量的模型,其得到的表示才不会过度拟合真实数据。

当过拟合现象发生,它通常意味着模型将随机噪声当作数据,并作为一个重要的信号去拟合它,这就是为什么模型在新数据上的表现会出现退化(噪声也有差异)。这在一些非常复杂的模型如神经网络或加速梯度模型上是很常见的。

想象构建一个模型来检测文章中出现的有关奥运的特定体育项目。由于所用的训练集与文章是由偏差的,模型可能学习到诸如 “奥运”这样词的特征,而无法检测到那些未包含该词的文章。

机器学习入门需要掌握的八大基础概念

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30277

    浏览量

    268509
  • 数据库
    +关注

    关注

    7

    文章

    3769

    浏览量

    64293
  • 机器学习
    +关注

    关注

    66

    文章

    8382

    浏览量

    132455
  • 自然语言
    +关注

    关注

    1

    文章

    287

    浏览量

    13337

原文标题:先搞懂这八大基础概念,再谈机器学习入门!

文章出处:【微信号:Imgtec,微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何轻松掌握机器学习概念和在工业自动化中的应用

    ,突破传统自动化技术发展的天花板呢?面对人工智能、机器学习、深度学习、神经网络……这些深奥的概念,如何快速了解和掌握呢? 今天,给我5分钟,
    的头像 发表于 01-16 09:45 3074次阅读

    EMC工程师必须具备的八大技能

    EMC工程师需要具备那些技能?从企业产品需要进行设计、整改认证的过程看,EMC工程师必须具备以下八大技能:1、EMC的基本测试项目以及测试过程掌握;2、产品对应EMC的标准
    发表于 05-08 15:31

    【阿里云大学免费精品课】机器学习入门概念原理及常用算法

    摘要: 阿里云大学联合蚂蚁金服高级算法专家推出了免费的机器学习入门课程:机器学习入门
    发表于 06-23 13:51

    Java入门需要学习什么?

    下,Java更具备了显著优势和广阔前景。对于Java初学者来学,想要快速入门Java需要掌握的一定的方法。作为刚接触Java的新手,先了解Java的基础。Java 基本语法、Java 平台
    发表于 03-01 15:45

    全球八大发动机结构

    全球八大发动机结构,关注、星标公众号,不错过精彩内容来源:EDN电子技术设计发动机是一种能够把其它形式的能转化为机械能的机器,包括如内燃机(汽油发动机等)、外燃机(斯特林发动机、蒸汽机等)、电动机等。下面我...
    发表于 07-07 07:20

    Python机器学习入门之pandas的使用提示

    系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参
    发表于 08-13 07:36

    什么是机器学习? 机器学习基础入门

    本文旨在为硬件和嵌入式工程师提供机器学习(ML)的背景,它是什么,它是如何工作的,它为什么重要,以及 TinyML 是如何适应的机器学习是一个始终存在并经常被误解的技术
    发表于 06-21 11:06

    学习单片机不可欠缺的八大步骤

    学习单片机不可欠缺的八大步骤
    发表于 01-12 21:52 15次下载

    磷酸铁锂电池八大缺陷及八大优势分析

    本文开始介绍了磷酸铁锂电池的概念和工作原理,其次介绍了磷酸铁锂电池八大优势和八大劣势,最后介绍了磷酸铁锂电池在通信行业中的应用及发展方向。
    发表于 04-17 08:37 7.1w次阅读
    磷酸铁锂电池<b class='flag-5'>八大</b>缺陷及<b class='flag-5'>八大</b>优势分析

    如何开始接触机器学习_机器学习入门方法盘点

    机器学习入门方法 一说到机器学习,我被问得最多的问题是:给那些开始学习机器
    的头像 发表于 05-20 07:10 4042次阅读
    如何开始接触<b class='flag-5'>机器</b><b class='flag-5'>学习</b>_<b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>入门</b>方法盘点

    详细putty串口使用教程与八大使用技巧分享

    本文首先介绍了putty的概念及优点,其次详细介绍了PuTTY安装及使用教程,最后阐述了putty八大使用技巧说明。
    的头像 发表于 05-23 10:09 7.6w次阅读
    详细putty串口使用教程与<b class='flag-5'>八大</b>使用技巧分享

    00004__2016八大MCU厂商

    00004__2016八大MCU厂商
    发表于 11-25 18:51 3次下载
    00004__2016<b class='flag-5'>八大</b>MCU厂商

    2023年工业机器人行业的八大趋势

    UR机器人通过对机器人产业的梳理,结合宏观数据和调研数据信息,本着客观的态度,深度解析2023年工业机器人行业的八大趋势:
    发表于 12-27 10:28 610次阅读

    机器学习算法入门 机器学习算法介绍 机器学习算法对比

    机器学习算法入门 机器学习算法介绍 机器学习算法对比
    的头像 发表于 08-17 16:27 932次阅读

    模电学习八大概念

    电子发烧友网站提供《模电学习八大概念.doc》资料免费下载
    发表于 11-18 10:39 0次下载
    模电<b class='flag-5'>学习</b><b class='flag-5'>八大概念</b>