0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于弱监督学习创建大规模数据集

nlfO_thejiangme 来源:lp 2019-03-19 10:18 次阅读

对于现代机器学习系统来说,最大的瓶颈在于训练过程中对数据庞大的需求。创建大规模的数据集是十分昂贵的过程,需要消耗大量的人力物力来标注数据,并且随着应用的迭代已有的数据集可能不能满足实际的需要还需要重新标注甚至创建新的数据集。为了克服工业级大规模数据的瓶颈,世界各地的研究人员在这个方向上进行了深入的努力。近日,来自谷歌斯坦福和布朗大学的研究人员们提出了一种称为”Snorkel Drybell”的新方法,基于弱监督学习的方法可以再很大程度上缓解大规模工业数据集生成的问题,利用已有的知识迅速的标注出大规模的数据。

研究人员基于开源框架Snorkel开发了这套实验标注系统,并在实验中发现这套系统可以获得与手工标记成千上万个数据点相同的效果,并揭示了如何为现代机器学习系统创造训练数据和核心原理。值得一提的是,Snorkel是一套专门基于弱监督创建训练数据的框架,它能基于内部模型、本体、规则知识图谱等各种形式的知识为机器学习模型创建大规模的数据。

与传统手工标注不同,新系统创造出为数据打标的标注函数,程序化地完成数据标记工作。研究人员主要探索了这些标注函数是如何捕获工程师的经验,如何基于现有资源启发式的进行弱监督学习的。

举个例子,如果我们想识别出与名人相关的内容,一方面可以使用现有的命名实体识别(NER)模型来标注出不包含与名人无关的人的内容来实现这一任务。这就巧妙地将已有的知识资源与简单的逻辑结合起来,为新的模型创造了训练数据。更重要的是这一标注函数将在大多数情况下返回None(与名人相关的相对较少),这就意味着在整个数据集中只有少量数据需要打标,我们可以利用这些数据标签来训练对于另一任务具有泛化性的新模型。

实验中的标注函数,将现有知识与简单的逻辑代码相结合启发式的进行数据标注。

自动化的程序标注显然比人工方法要高效和灵活,但质量却无法与手工标注媲美。标注函数常常会出现标签重叠和不一致的情况。这主要是用于标注函数的精度未知、与已有数据的关联方式也存在不确定性。为了解决这一问题,研究人员利用生成模型来对标记函数的精度和相关性进行可溯源的自动估计,在无需基准训练数据的情况下将输出重新赋权并为每一个数据点合成单一概率标签。此外还可以基于协方差观察标记函数之间的一致性,并学习出标记函数精度和相关性的参数,更好的解释标注的输出情况。

基于多源知识的弱监督学习

在研究Snorkel Drybell的过程中,研究人员使用了网络内容分类、是否提及特定产品以及实时事件的检测等生产任务及数据来进行实验。基于新的框架,可以充分综合各种信息源和已有资源:

启发和规则:例如特定领域作者的规则

主题模型、标记器和分类器:例如目标或相关领域的机器学习模型

统计汇总:例如目标领域的相关指标

知识或实体图谱:例如目标领域的数据库

在Snorkel DryBell中,为了训练模型对对Web数据进行内容或事件分类。 用户无需手工标注,而是编程组织已有资源并自动加权生成新数据集。

研究人员利用MapReduce中的模板来实现资源的组织和数据标签生成,但结果却不尽如人意。得到的数据标签噪声很大,要么与其他标签冲突,要么对于目标任务粒度太大。为了解决这一问题研究人员在自动数据清洗和整合上又进行了深入的研究。

对准确度建模以结合&重用现有资源

为了处理标签中的噪声,需要将标记函数的输出基于置信度加权整合为单一的数据点标签。但最大的难点在于没有基准数据。所以研究人员引入了生成模型技术,基于无标记数据学习出每一个标记函数的精度。通过标记函数输出的一致性矩阵并综合已知的相关性结构来进行学习。在Snorkel DryBell研究人员还实现了一套快速无采样的建模方法,在tensorflow中处理web级别的数据。通过对标记函数的输出进行组合与建模,在Snorkel DryBell中实现了高质量的数据标记。事实上,在手工标记的训练数据可用于比较的两个应用中,Snorkel DryBell打标的数据分别与12,000和80,000个人工标记数据点在同一模型的训练中得到了相同的预测精度。

将非服务知识转移到可服务模型中

在很多情况下可用于生产的服务特征与非服务特征之间也存在重要区别,非服务特征在生产中使用面临着速度和成本的问题。但非服务特征中可能具有非常丰富的信号,但问题在于如何使用这些信号来进行训练或辅助服务模型在生成中进行部署呢?

用户可以自行编写标签函数,利用在生产中无法使用的特征历来组织知识资源(a)例如在生产中使用太慢或太昂贵的聚合统计,内部模型或知识图 来训练可服务的生产模型,利用如便宜,实时的网络信号来进行服务

在Snorkel DryBell中,用户可以自行编写标签函数来组织已有的知识资源,并利用输出的数据来训练具有不同的可服务特征的新模型。这种特征交叉迁移将基准数据上的表现平均提高了52%。更重要的是,这种方法将缓慢(昂贵的模型或者聚合统计)、私密(实体或知识图谱)或者其他不适合部署的特征充分利用起来,并训练了基于迅速和便捷特征的新模型。这种简单但强大的方式可以被视为一种全新的迁移学习方法,在不同特征集上的知识迁移代替了在不同数据集间的模型迁移,具有广泛的应用潜力!

展 望

研究人员将在未来的工作中将其他形式的知识应用于弱监督标签生成中,并探索Snorkel DryBell在信息复用和跨域知识共享中的应用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 分类器
    +关注

    关注

    0

    文章

    152

    浏览量

    13200
  • 机器学习
    +关注

    关注

    66

    文章

    8424

    浏览量

    132763
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24733

原文标题:谷歌等研究员提出弱监督学习新方法,突破数据瓶颈

文章出处:【微信号:thejiangmen,微信公众号:将门创投】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    大规模数据的相似度计算原理

    Spark MLlib 之 大规模数据的相似度计算原理探索
    发表于 06-04 08:19

    一个benchmark实现大规模数据上的OOD检测

    操作,感知的环境类别也更多。因此,针对大规模图像分类任务的OOD检测算法的开发和评估存在一个关键的gap。本文首先志在提出一个benchmark实现大规模数据上的OOD检测。本文指出,随着语义类别
    发表于 08-31 15:11

    TextTopicNet模型:以自监督学习方式学习区别视觉特征

    大规模带标注的数据的出现是深度学习在计算机视觉领域取得巨大成功的关键因素之一。然而,监督学习
    的头像 发表于 07-31 17:50 1w次阅读
    TextTopicNet模型:以自<b class='flag-5'>监督学习</b>方式<b class='flag-5'>学习</b>区别视觉特征

    如何用Python进行无监督学习

    监督学习是一种用于在数据中查找模式的机器学习技术。无监督算法给出的数据不带标记,只给出输入变量(X),没有相应的输出变量。在无
    的头像 发表于 01-21 17:23 4273次阅读

    机器学习算法中有监督和无监督学习的区别

    监督学习的好处之一是,它不需要监督学习必须经历的费力的数据标记过程。但是,要权衡的是,评估其性能的有效性也非常困难。相反,通过将监督学习算法的输出与测试
    的头像 发表于 07-07 10:18 5795次阅读

    最基础的半监督学习

    导读 最基础的半监督学习的概念,给大家一个感性的认识。 半监督学习(SSL)是一种机器学习技术,其中任务是从一个小的带标签的数据和相对较大
    的头像 发表于 11-02 16:08 2671次阅读

    监督学习最基础的3个概念

    有趣的方法,用来解决机器学习中缺少标签数据的问题。SSL利用未标记的数据和标记的数据学习任务
    的头像 发表于 11-02 16:14 2996次阅读
    半<b class='flag-5'>监督学习</b>最基础的3个概念

    为什么半监督学习是机器学习的未来?

    为什么半监督学习是机器学习的未来。 监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,
    的头像 发表于 11-27 10:42 3922次阅读

    监督学习:比监督学习做的更好

    监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精...
    的头像 发表于 12-08 23:32 1428次阅读

    深度学习:基于语境的文本分类监督学习

    高成本的人工标签使得监督学习备受关注。seed-driven 是监督学习中的一种常见模型。该模型要求用户提供少量的seed words,根据seed words对未标记的训练
    的头像 发表于 01-18 16:04 3005次阅读

    监督学习,无监督学习,迁移学习,表征学习以及小样本学习

    大规模标注的数据上训练深度模型不仅可以使手头的任务表现良好,还可以使模型学习对于下游任务的有用特征形式。但是,我们是否可以在不使用如此昂贵且细粒度的标注
    的头像 发表于 01-18 17:08 8297次阅读
    半<b class='flag-5'>监督学习</b>,无<b class='flag-5'>监督学习</b>,迁移<b class='flag-5'>学习</b>,表征<b class='flag-5'>学习</b>以及小样本<b class='flag-5'>学习</b>

    机器学习中的无监督学习应用在哪些领域

    监督学习|机器学习| 集成学习|进化计算| 非监督学习| 半监督学习| 自监督学习| 无
    发表于 01-20 10:52 4981次阅读
    机器<b class='flag-5'>学习</b>中的无<b class='flag-5'>监督学习</b>应用在哪些领域

    融合零样本学习和小样本学习监督学习方法综述

    融合零样本学习和小样本学习监督学习方法综述 来源:《系统工程与电子技术》,作者潘崇煜等 摘 要: 深度学习模型严重依赖于大量人工标注的
    发表于 02-09 11:22 2328次阅读
    融合零样本<b class='flag-5'>学习</b>和小样本<b class='flag-5'>学习</b>的<b class='flag-5'>弱</b><b class='flag-5'>监督学习</b>方法综述

    监督学习解锁医学影像洞察力

    数据,以及机器可以从中学习的复杂数据标签。 今天,被称为监督学习的深度
    的头像 发表于 09-30 18:04 1464次阅读
    <b class='flag-5'>弱</b><b class='flag-5'>监督学习</b>解锁医学影像洞察力

    监督学习代码库存在的问题与挑战

    ,在ImageNet这一百万量级的数据上,传统的监督学习方法可以达到超过88%的准确率。然而,获取大量有标签的数据往往费时费力。
    的头像 发表于 10-18 16:28 1320次阅读