在3.1 节中,我们介绍了线性回归,在3.4 节中从头开始实现 ,并在3.5 节中再次使用深度学习框架的高级 API来完成繁重的工作。
回归是我们想回答多少的时候伸手去拿的锤子? 或者有多少?问题。如果你想预测房子的售价(价格),或者一支棒球队可能获胜的次数,或者病人出院前住院的天数,那么你可能是寻找回归模型。然而,即使在回归模型中,也存在重要的区别。例如,房屋的价格永远不会是负数,并且变化可能通常与其基准价格有关。因此,对价格的对数进行回归可能更有效。同样,患者住院的天数是 离散的非负数随机变量。因此,最小均方可能也不是理想的方法。这种时间-事件建模伴随着许多其他并发症,这些并发症在称为生存建模的专门子领域中处理。
这里的重点不是要让你不知所措,而只是让你知道,除了简单地最小化平方误差之外,还有很多东西需要估计。更广泛地说,监督学习比回归要多得多。在这一节中,我们重点关注分类问题,我们搁置了多少?问题,而是关注哪个类别?问题。
-
这封电子邮件属于垃圾邮件文件夹还是收件箱?
-
该客户是否更有可能注册或不注册订阅服务?
-
这个图像描绘的是驴、狗、猫还是公鸡?
-
阿斯顿接下来最有可能看哪部电影?
-
您接下来要阅读本书的哪一部分?
通俗地说,机器学习从业者重载了单词 分类来描述两个细微不同的问题:(i)那些我们只对将示例硬分配给类别(类)感兴趣的问题;(ii) 那些我们希望进行软分配的地方,即评估每个类别适用的概率。这种区别往往会变得模糊,部分原因是,即使我们只关心硬分配,我们仍然经常使用进行软分配的模型。
更重要的是,在某些情况下,不止一个标签可能是真实的。例如,一篇新闻文章可能同时涵盖娱乐、商业和太空飞行等主题,但不会涵盖医学或体育主题。因此,将其单独归入上述类别之一并不是很有用。这个问题通常被称为多标签分类。参见Tsoumakas 和 Katakis ( 2007 )的概述和 Huang等人。( 2015 )用于标记图像时的有效算法。
4.1.1. 分类
让我们先从一个简单的图像分类问题开始。这里,每个输入包含一个2×2灰度图像。我们可以用一个标量表示每个像素值,给我们四个特征x1,x2,x3,x4. 此外,假设每个图像属于类别“猫”、“鸡”和“狗”中的一个。
接下来,我们必须选择如何表示标签。我们有两个明显的选择。也许最自然的冲动是选择 y∈{1,2,3},其中整数代表 {dog,cat,chicken}分别。这是在计算机上存储此类信息的好方法。如果类别之间有一些自然顺序,比如说我们是否试图预测 {baby,toddler,adolescent,young adult,adult,geriatric},那么将其转换为有序回归问题并以这种格式保留标签甚至可能是有意义的。参见 Moon等人。( 2010 )概述了不同类型的排名损失函数和Beutel等人。( 2014 ) 用于解决具有多个模式的响应的贝叶斯方法。
一般而言,分类问题并不伴随着类别之间的自然排序。幸运的是,统计学家很久以前就发明了一种表示分类数据的简单方法:one-hot encoding。one-hot 编码是一个向量,其分量与我们的类别一样多。对应于特定实例类别的组件设置为 1,所有其他组件设置为 0。在我们的例子中,标签y 将是一个三维向量,具有(1,0,0) 对应“猫”,(0,1,0)到“鸡”,和 (0,0,1)对“狗”:
4.1.1.1. 线性模型
为了估计与所有可能类别相关的条件概率,我们需要一个具有多个输出的模型,每个类别一个。为了解决线性模型的分类问题,我们需要与输出一样多的仿射函数。严格来说,我们只需要少一个,因为最后一类必须是 1和其他类别的总和,但出于对称的原因,我们使用了稍微冗余的参数化。每个输出对应于它自己的仿射函数。在我们的例子中,由于我们有 4 个特征和 3 个可能的输出类别,我们需要 12 个标量来表示权重(w带下标)和 3 个标量来表示偏差(b带下标)。这产生:
评论
查看更多