0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

标记训练集中的数据样本是开发机器学习应用的最大瓶颈之一

jmiy_worldofai 来源:lp 2019-04-02 16:24 次阅读

数据集就是机器学习行业的石油,强大的模型需要含有大量样本的数据集作为基础。而标记训练集中的数据样本是开发机器学习应用的最大瓶颈之一。

最近,谷歌与斯坦福大学、布朗大学一起,研究如何快速标记大型数据集,将整个组织的资源用作分类任务的弱监督资源,使机器学习的开发时间和成本降低一个数量级。

谷歌在论文中表示,这种方法能让工程师能够在不到30分钟的时间内对数百万个样本执行弱监督策略。

他们使用一种Snorkel Drybell系统,让开源Snorkel框架适应各种组织知识资源,生成Web规模机器学习模型的训练数据。

Snorkel是由斯坦福大学在2017年开发的系统,它可以在弱监督条件下快速创建训练数据集,该项目已经在GitHub上开源。而Snorkel Drybell的目标是在工业规模上部署弱监督学习。

而且用这种方法开发的分类器质量与手工标记样本进行训练的分类器效果相当,把弱监督分类器的平均性能提高了52%。

什么是Snorkel

Snorkel是斯坦福大学在2016年为许多弱监督学习开发的一个通用框架,由这种方法生成的标签可用于训练任意模型。

已经有人将Snorkel用于处理图像数据、自然语言监督、处理半结构化数据、自动生成训练集等具体用途。

原理

与手工标注训练数据不同,Snorkel DryBell支持编写标记函数,以编程方式标记训练数据。

过去的方法中,标记函数只是以编程方式标记数据的脚本,它产生的标签是带有噪声的。

为了解决噪声等问题,Supert Drybell使用生成建模技术,以一种可证明一致的方式自动估计标记函数的准确性和相关性,而无需任何基本事实作为训练标签。然后用这种方法对每个数据点的输出进行重新加权,并组合成一个概率标签。

使用多种知识来源作为弱监督

Snorkel Drybell先用多种知识来源作为弱监督,在基于MapReduce模板的pipeline中编写标记函数,每个标记函数都接受一个数据点生成的概率标签,并选择返回None(无标签)或输出标签。

这一步生成的标签带有大量噪声,甚至相互冲突,还行需要进一步的清洗才能用到最终的训练集中。

结合和重新利用现有资源对准确度建模

为了处理这些噪声标签,Snorkel DryBell将标记函数的输出组合成对每个数据点的训练标签置信度加权。这一步的难点在于,必须在没有任何真实标签的情况下完成。

研究人员使用生成建模技术,仅使用未标记的数据来学习每个标记函数的准确性。通过标签函数输出之间的一致性矩阵来学习打标签是否准确。

在Snorkel DryBell中,研究人员还实现了建模方法一种更快、无采样的版本,并在TensorFlow中实现,以处理Web规模的数据。

通过在Snorkel DryBell中使用此程序组合和建模标签函数的输出,能够生成高质量的训练标签。与两个分别有1.2万和8万个手工标记训练数据集比较,由Snorkel DryBell标记的数据集训练出的模型实现了一样的预测准确度。

将不可服务的知识迁移到可服务的模型

在许多情况下,可服务特征(可用于生产)和不可服务特征(太慢或太贵而无法用于生产)之间也有重要区别。这些不可服务的特征可能具有非常丰富的信号,但是有个问题是如何使用它们来训练,或者是帮助能在生产中部署的可服务模型呢?

在Snorkel DryBell中,用户发现可以在一个不可服务的特征集上编写标签函数,然后使用Snorkel DryBell输出的训练标签来训练在不同的、可服务的特征集上定义的模型。

这种跨特征转移将基准数据集的性能平均提高了52%。

这种方法可以被看作是一种新型的迁移学习,但不是在不同的数据集之间转移模型,而是在不同的特征集之间转移领域知识。它可以使用速度太慢、私有或其他不适合部署的资源,在廉价、实时特征上训练可服务的模型。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    4338

    浏览量

    62735
  • 机器学习
    +关注

    关注

    66

    文章

    8424

    浏览量

    132763
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24733

原文标题:告别数据集资源匮乏,谷歌与斯坦福大学用弱监督学习给训练集打标签

文章出处:【微信号:worldofai,微信公众号:worldofai】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    《具身智能机器人系统》第10-13章阅读心得之具身智能机器人计算挑战

    章深入分析了DNN的安全威胁。逃逸攻击通过向输入数据添加人眼难以察觉的扰动,诱导模型做出错误判断。投毒攻击则通过污染训练数据集,在模型学习阶段植入后门。探索攻击更具隐蔽性,它利用模型决
    发表于 01-04 01:15

    传统机器学习方法和应用指导

    用于开发生物学数据机器学习方法。尽管深度学习般指神经网络算法)是
    的头像 发表于 12-30 09:16 248次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    嵌入式人工智能(EAI)将人工智能集成到机器人等物理实体中,使它们能够感知、学习环境并与之动态交互。这种能力使此类机器人能够在人类社会中有效地提供商品及服务。 数据
    发表于 12-24 00:33

    直播预约 |数据智能系列讲座第4期:预训练的基础模型下的持续学习

    鹭岛论坛数据智能系列讲座第4期「预训练的基础模型下的持续学习」10月30日(周三)20:00精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目预训练的基础模型下的持续
    的头像 发表于 10-18 08:09 239次阅读
    直播预约 |<b class='flag-5'>数据</b>智能系列讲座第4期:预<b class='flag-5'>训练</b>的基础模型下的持续<b class='flag-5'>学习</b>

    pycharm如何训练机器学习模型

    PyCharm是个流行的Python集成开发环境(IDE),它提供了丰富的功能,包括代码编辑、调试、测试等。在本文中,我们将介绍如何在PyCharm中训练机器
    的头像 发表于 07-11 10:14 847次阅读

    训练和迁移学习的区别和联系

    训练和迁移学习是深度学习机器学习领域中的两个重要概念,它们在提高模型性能、减少训练时间和降低
    的头像 发表于 07-11 10:12 1108次阅读

    pycharm怎么训练数据

    在本文中,我们将介绍如何在PyCharm中训练数据集。PyCharm是款流行的Python集成开发环境,提供了许多用于数据科学和
    的头像 发表于 07-11 10:10 662次阅读

    机器学习中的数据分割方法

    机器学习中,数据分割是项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨
    的头像 发表于 07-10 16:10 1920次阅读

    如何理解机器学习中的训练集、验证集和测试集

    理解机器学习中的训练集、验证集和测试集,是掌握机器学习核心概念和流程的重要步。这三者不仅构成了
    的头像 发表于 07-10 15:45 4321次阅读

    神经网络如何用无监督算法训练

    神经网络作为深度学习的重要组成部分,其训练方式多样,其中无监督学习种重要的训练策略。无监督学习
    的头像 发表于 07-09 18:06 838次阅读

    机器学习数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为种强大的工具,
    的头像 发表于 07-02 11:22 653次阅读

    深度学习模型训练过程详解

    深度学习模型训练个复杂且关键的过程,它涉及大量的数据、计算资源和精心设计的算法。训练个深度
    的头像 发表于 07-01 16:13 1332次阅读

    机器学习怎么进入人工智能

    ,人工智能已成为个热门领域,涉及到多个行业和领域,例如语音识别、机器翻译、图像识别等。 在编程中进行人工智能的关键是使用机器学习算法,这是
    的头像 发表于 04-04 08:41 345次阅读

    深度学习检测小目标常用方法

    深度学习的效果在某种意义上是靠大量数据喂出来的,小目标检测的性能同样也可以通过增加训练集中小目标样本的种类和数量来提升。
    发表于 03-18 09:57 742次阅读
    深度<b class='flag-5'>学习</b>检测小目标常用方法

    机器学习基础知识全攻略

    有监督学习通常是利用带有专家标注的标签的训练数据学习个从输入变量X到输入变量Y的函数映射。Y = f (X),
    发表于 02-25 13:53 260次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>基础知识全攻略