0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习教父:从未标记数据中促进机器学习能力

倩倩 来源:lq 作者:环球网 2019-09-20 11:12 次阅读

人工智能作为推动当下科技创新和生产力整体提升的重要战略性技术,受到世界范围内的普遍关注,尤其是随着云计算和大数据的迅速兴起。人工智能迎来了新的发展契机,而算法则是在幕後推动人工智能实现的“核心引擎”,过去六十多年来以大脑模拟、神经处理再以神经网络为代表的机器学习,每一次突破都推动着人工智能技术的迭代演进。

当前,人工智能已经在物联网智能家居机器人等多领域中落地应用,与实体经济深度融合,迎来了发展的大好时期。丰富的应用场景也对算法提出了新需求。自动机器学习、联邦迁移学习、可解释深度学习等,一批算法促进新产品的发展,加快社会向智能化不断跃升。

值此之际,8月30日,由世界人工智能大会组委会主办,上海交通大学、第四范式承办的“2019世界人工智能大会国际前沿算法峰会”在上海世博展览馆举行,作为此次世界人工智能大会十大主题峰会之一,国际算法峰会聚集超过1000位人工智能研究者和产业界实践者,共同向底层技术发问,求解能够推动产业变革的未来算法。

会上,美国卡内基梅隆大学CMU计算机学院院长、机器学习教父、乂学教育-松鼠AI首席AI科学家Tom Mitchell教授以“Learning from Unlabeled Data”为题,做了精彩的主题报告。

机器学习教父、乂学教育-松鼠AI首席人工智能科学家Tom Mitchell发表演讲

Tom Mitchell长期从事机器学习、认知神经学科等研究,曾编写Machine Learning (《机器学习》)一书,这是人工智能领域最经典的教材之一,他也因此被称为机器学习之父。近年,Tom Mitchell开始深度关注AI对教育的应用,2018年11月起任中国AI教育独角兽公司乂学教育-松鼠AI首席AI科学家,作为松鼠AI人工智能领域第一负责人,Mitchell 带领团队十多位AI科学家和几百位AI应用工程师以及技术团队,进行人工智能在智适应教育领域的基础研究和相关产品的研发应用等。

在此次大会上,Tom Mitchell教授指出,在我们的世界,非标记的数据要比已标记的数据庞大,机器学习非常重要的一点就是学习如何将非标记数据进行分类,来改善机器学习的能力。实现这一目标就要求学习程序必须要具备某种架构,能弄清楚不同的函数及不同的限制关系。如果能对海量未经标注的数据进行分类,不管对机器学习还是自我反思预测错误都将非常有意义。

当前,以机器学习为核心的人工智能技术正在逐步推动各行各业产业升级,机器学习作为AI的一个重要分支,为人工智能提供了新的发展机遇。尽管如此、和人类学习的方式相比,机器学习的方法依然非常狭窄。

Tom Mitchell教授着重介绍了一种被称之为永无止境的语言学习项目模型——NELL(Never-Ending Language Learner)框架。NELL像人类一样,学习很多类型的知识,已经具有自我监督的经验,能利用学到的知识改善后续学习,并通过充分的自我反思来避免学习中的平台期。

“NELL理念非常简单,相当于有一位程序员每天24小时不间断工作,每天程序都会有两个任务:第一是阅读提取来自网络的更多信息,并删除旧的错误信息,以填充不断增长的知识库,其中包含对每个信息的信心和来源,比如说水是一种饮料,或者比尔盖茨创立的微软;第二,自我进化,学习如何比昨天做得更好,如果任务跟昨天一样,可以简单挖掘更多准确的数据。”

NELL在初始阶段会有少量分类,如饮料、人、植物、城市等是本体,同时加入关系,比如说人创建了公司,或者饮料是食物产生。除此之外还会输入样本,大部分情况下输入网端的是末标注的数据,未标注数据的信息分类问题也是目前大部分机器学习过程中的问题所在。

Tom Mitchell教授称,其2010年开始NELL项目,每天24小时运作,直到去年九月,其拥有1.2亿三元数据知识库,并且每一年的逻辑推理能力、学习能力都在提升。而且基于十几个没有标注的原始样本数据,NELL可以扩展已知的关系本体,并能参加一些新型的关系。通过不断的累计,目前每个知识库中拥有数亿个三元数据库。比如说枫叶国是加拿大,多伦多是属于加拿大的一座城市等,像这样的例子均是程序从网络当中学习攫取的数据。

在教育领域也是如此,现在已经有几百万人在使用人工智能教育系统,积累了许多数据,机器学习可以利用这些数据进一步发展。

“如果机器学习应用在智适应教育当中,应该在每一领域都具备一种功能,去了解学生现在的学习状态,机器学习就是能够发现这个功能是什么,我们可以用机器学习来不断的修改它,这是机器学习在其中的核心作用。”Mitchell谈到。

新的机器学习和人工智能的工具出现后,或许一个机器就可以收集高达十万名学生的答卷,就可以去分析这些答卷当中学生出错的规律,在过去,一位老师穷其一生都不可能接触多达这么多学生。

Tom Mitchell认为,目前正在进入AI对如何教育孩子产生重大影响的十年。

因为AI的进步,研究人员和公司正在不断更迭新一代系统。例如松鼠AI智适应学习系统运用进化算法、深度神经网络、贝叶斯网络、迁移学习、图论、及其他机器学习等多种AI技术,通过对学生学习过程中多维数据的全方位评估,给与最高效的学习内容、学习路径、学习节奏的把握以及深度的效果评估,最大化学习效率的提升,进而实现在模拟优秀特级教师的基础之上,达到超越真人教学的目的。

回到NELL,其可以用扩展kb、OntExt考虑NELL当前本体中的每对类别,在三个步骤中搜索类别对成员之间经常讨论的关系的证据、提取两个类别的已知实例的句子、从提取的句子中通过上下文共生矩阵构建上下文,然后将相关的上下文聚类在一起。 每个集群对应于两个输入类别实例之间可能的新关系。

如果尝试去训练这两个函数,即通常所说的协同训练,只要这些函数有足量多的标注数据,误差就会接近于零。并且最后能使用这些未标注的数据学习这些函数。

比如,松鼠AI系统成果之中的“非关联性知识点关联概率”及“用错因重构知识地图”。

在将学科中的知识点进行超纳米级拆分的基础上,非关联性知识点关联概率基于知识地图理论中不仅对知识点建立关联性,追根溯源还对非关联性的知识点建立了关联概率,让测试效率和学习效率可以分别比同类产品的知识地图理论模型提高3-10倍。从而提高测试效率和学习效率,更加精准的检测到孩子的知识薄弱点。

用错因重构知识地图就是将每一道题标注不同种的错因。进一步重构知识地图。更加精准定位学生错因,知识薄弱点、精准的给出最适合每一个孩子的学习路径、从而提高学习效率。

“NELL理念一个非常重要的特点是能够不断的学习、不断的改善,尽管它大部分使用的是网络上未经标注的数据,但用未标记的数据来训练机器学习的逻辑,对我以及对团队其他成员来说都非常惊艳,希望更多的人能参与进来,不断优化。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2909

    文章

    44531

    浏览量

    372677
  • 人工智能
    +关注

    关注

    1791

    文章

    47162

    浏览量

    238139
  • 机器学习
    +关注

    关注

    66

    文章

    8402

    浏览量

    132540
收藏 人收藏

    评论

    相关推荐

    什么是机器学习?通过机器学习方法能解决哪些问题?

    计算机系统自身的性能”。事实上,由于“经验”在计算机系统主要以数据的形式存在,因此机器学习需要设法对数据进行分析
    的头像 发表于 11-16 01:07 358次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题?

    NPU与机器学习算法的关系

    在人工智能领域,机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升,对计算资源的需求也在不断增长。NPU作为一种专门为深度学习
    的头像 发表于 11-15 09:19 423次阅读

    eda在机器学习的应用

    机器学习项目中,数据预处理和理解是成功构建模型的关键。探索性数据分析(EDA)是这一过程不可或缺的一部分。 1.
    的头像 发表于 11-13 10:42 267次阅读

    鲁棒性在机器学习的重要性

    金融风险评估。这些应用场景对模型的鲁棒性提出了极高的要求。 鲁棒性的定义 鲁棒性通常被定义为系统在面对不确定性和变化时仍能保持其功能的能力。在机器学习,这意味着即使输入
    的头像 发表于 11-11 10:19 318次阅读

    具身智能与机器学习的关系

    (如机器人、虚拟代理等)通过与物理世界或虚拟环境的交互来获得、发展和应用智能的能力。这种智能不仅包括认知和推理能力,还包括感知、运动控制和环境适应能力。具身智能强调智能体的身体和环境在
    的头像 发表于 10-27 10:33 350次阅读

    【「时间序列与机器学习」阅读体验】+ 简单建议

    这本书以其系统性的框架和深入浅出的讲解,为读者绘制了一幅时间序列分析与机器学习融合应用的宏伟蓝图。作者不仅扎实地构建了时间序列分析的基础知识,更巧妙地展示了机器学习如何在这一领域发挥巨
    发表于 08-12 11:21

    机器学习数据分割方法

    机器学习数据分割是一项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨
    的头像 发表于 07-10 16:10 1654次阅读

    如何理解机器学习的训练集、验证集和测试集

    理解机器学习的训练集、验证集和测试集,是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了模型学习
    的头像 发表于 07-10 15:45 3724次阅读

    机器学习数据预处理与特征工程

    机器学习的整个流程数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量,进而影响模型的训练效果和泛化能力。本文将从
    的头像 发表于 07-09 15:57 388次阅读

    迁移学习的基本概念和实现方法

    迁移学习(Transfer Learning)是机器学习领域中的一个重要概念,其核心思想是利用在一个任务或领域中学到的知识来加速或改进另一个相关任务或领域的学习过程。这种方法在
    的头像 发表于 07-04 17:30 1600次阅读

    机器学习算法原理详解

    机器学习作为人工智能的一个重要分支,其目标是通过让计算机自动从数据学习并改进其性能,而无需进行明确的编程。本文将深入解读几种常见的机器
    的头像 发表于 07-02 11:25 964次阅读

    机器学习数据分析的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从
    的头像 发表于 07-02 11:22 603次阅读

    深度学习与传统机器学习的对比

    在人工智能的浪潮机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步,为众多领域带来了革命性的变化。然而,尽管它们都属于
    的头像 发表于 07-01 11:40 1311次阅读

    机器学习的经典算法与应用

    关于数据机器学习就是喂入算法和数据,让算法从数据寻找一种相应的关系。Iris鸢尾花数据集是一个
    的头像 发表于 06-27 08:27 1635次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典算法与应用

    如何使用TensorFlow构建机器学习模型

    在这篇文章,我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。
    的头像 发表于 01-08 09:25 956次阅读
    如何使用TensorFlow构建<b class='flag-5'>机器</b><b class='flag-5'>学习</b>模型