0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NIPS 2018 AutoML挑战赛公布了最终结果,清华大学计算机系朱文武团队斩获第二,高校排名雄踞第一!

DPVg_AI_era 来源:lq 2018-12-04 09:21 次阅读

近期,NIPS 2018 AutoML挑战赛公布了最终结果。本次赛事共有近三百支队伍参赛,包括了麻省理工学院、加州大学伯克利分校、德州农工大学、清华大学、北京大学等国内外顶尖高校,微软、腾讯、阿里巴巴等科技巨头。清华大学计算机系朱文武团队斩获第二,高校排名雄踞第一!

NIPS 2018 AutoML挑战赛结果出炉:印度团队autodidact.ai第一,清华计算机系朱文武实验室Meta_Learners团队斩获第二。

值得注意的是,清华Meta_Learners团队是本次参赛高校成绩第一,且仅与冠军差0.2个排名!

AutoML,全称为Automated Machine Learning,是机器学习领域的一个新兴方向。旨在自动化整个机器学习的流程,降低数据预处理、特征工程、模型选择、参数调节等环节中的人工成本。

随着机器学习系统的日益复杂化,AutoML得到了产学研各界的广泛关注,已成为人工智能领域最热门的研究方向之一。

本次赛事共有近三百支队伍参赛,包括了麻省理工学院、加州大学伯克利分校、德州农工大学、清华大学、北京大学等国内外顶尖高校,微软、腾讯、阿里巴巴等科技巨头,autodidact.ai、Rapids.ai等新兴创业公司,Auto-sklearn、Auto-keras等著名AutoML开源框架的作者团队。

根据官方公布的排名结果来看,朱文武实验室Meta_Learners团队在Set 2和Set 4上的排名均居第一,在其它3个Set上也都取得了较高名次。

全球名校、企业同台竞争:清华斩获第二,高校第一!

Meta_Learners团队成员包括计算机系博士毕业生张文鹏、在读硕士生熊铮、在读博士生蒋继研,由张文鹏担任队长,朱文武教授担任指导教师。

团队从2015年开始持续关注和布局AutoML领域,目前已经具备了较为丰富的领域知识和较为深厚的技术积累,今年首次参加AutoML比赛即摘得亚军。

今年的赛事题目聚焦于真实应用场景下存在概念迁移的大规模流式数据中的AutoML问题,对AutoML系统的自适应能力、鲁棒性都提出了较以往比赛更高的要求。

比赛分为两个阶段:Feedback阶段和AutoML阶段。

Feedback阶段是代码提交阶段。主办方会提供5个与第二阶段的数据集具有相似特性的训练数据集;参赛者在训练数据集上构建AutoML系统,并根据线上运行结果进行优化。

AutoML阶段是盲测阶段,无法进行代码提交。参赛者在Feedback阶段提交的最后一版代码会在5个全新的数据集上进行自动化的训练与测试,得到的盲测结果将作为比赛最终排名的依据。

每个数据集内部按时间顺序分为10个Batch,每个Batch代表终身(Lifelong)学习场景中的一个阶段。

参赛者提交的AutoML系统使用数据集中的第一个Batch作为训练数据生成初始模型,并在第一个测试Batch(整个数据集中的第二个Batch)上进行预测。随后,系统将得到当前测试Batch的标签,并对初始模型进行修正。系统将在后续的所有测试Batch上迭代进行预测与模型修正,直到完成对所有测试Batch的预测。

比赛制胜法宝:做好不同层次的平衡(Tradeoff)

在本次比赛中,Meta_Learners团队采用了梯度提升树(Gradient Boosting Tree),在传统的AutoML框架上,结合本次比赛数据的特性做了有针对性的设计:

特征工程方面,主要针对类别特征高基数、长尾分布的特点,采用了频数编码、中值编码等不同编码方式,以及离散化、分位数变换等处理技巧。

迁移适应方面,针对数据存在概念迁移的问题采用了自适应的流式编码技术。

资源控制方面,自动监测系统中各个组件的运算花销,并使用Bandit技术对搜索空间进行压缩和剪枝。

团队认为AutoML比赛的关键在于做好不同层次的平衡(Tradeoff)。

首先是宏观方法论层面的平衡。AutoML比赛和传统的数据挖掘比赛有很多相似之处,但也有本质的不同。相似之处在于特征工程都发挥着至关重要的作用。不同之处在于,传统数据挖掘比赛的训练集和测试集一般来自于同一场景,在第一阶段表现好的方法,在第二阶段更换新的测试集后一般仍然会好。但是在AutoML比赛中,第二阶段会更换崭新的数据集(与第一阶段的数据集有一定相似性,但并不同源)。

因此,AutoML系统如果过分适应第一阶段的数据,就会导致在第二阶段的排名出现较大波动。所以该团队的策略是并不刻意追求第一阶段的排名,而是注重提升整个系统的泛用性和自适应能力,也就是做好第一阶段和第二阶段的平衡。

其次是搜索空间和资源约束之间的平衡。搜索空间大会覆盖更多的候选配置(特征、算法和参数的组合),但太大则会超出系统资源的约束。AutoML系统需要根据不同数据集的大小和数据特性,自适应地设计和分配搜索空间,以保证在不超出资源限制的前提下,选择出更好的配置。

AutoML技术的关键在于如何理解Auto的过程

而此次比赛结果,Meta_Learners团队与第一名仅差0.2个排名,对此次的惜败,团队成员表示时间利用不够充分是主要理由。

比赛中期,由于一些临时事件的耽误,团队内部交流和讨论不够充分,导致进度停滞了一段时间。

在处理概念迁移的过程中,团队曾出现技术路线的偏离,在数周内进展缓慢。团队最初沿着序列化检测和自适应的思路进行探索,效果并不理想;经过仔细分析,团队发现Batch间的迁移并无趋同性,不符合序列化模型的场景假设。因此,团队放弃了该技术路线,但确实耽误了很多时间。

由于前面时间的耽误,比赛最后阶段,模型整合优化的时间不够充分,一些在某些数据集上效果良好的算法并没有纳入最终AutoML框架的自动选择范围内。例如,迁移学习中基于密度比估计的重要性采样(Importance sampling),在波动较大的Batch上有很好的效果,但算法本身计算成本高,需要做进一步优化。最终由于时间有限,团队并没有把该方法优化得很好,也就没有把它纳入最终的解决方案。

对于AutoML技术本身,团队认为,关键在于如何理解Auto的过程。对此,不同研究者有着不同的视角,进而衍生出了基于贝叶斯优化、强化学习、迁移学习、遗传算法、Bandit和梯度下降等不同方法的技术路线。更好的理解会有助于产生出更优化的算法。

学术界和产业界都关注如何提高AutoML算法的性能和效率。相对而言,有一些问题学术界会关注得更多一点,比如,算法的最优性保证、算法中的Auto可以做多少层等;与此相对应,产业界可能会更关注一些具体实际场景中的AutoML问题,比如,本次比赛关注存在概念迁移的大规模流式数据中的AutoML问题。当然,团队也从中提取了一些有研究价值的学术问题。

团队介绍

Meta_Learners团队由清华大学博士张文鹏、硕士研究生熊铮、博士研究生蒋继研组成,由张文鹏担任队长。

在本次比赛中,张文鹏负责技术路线的选择和比赛节奏的把控;熊铮负责基础框架、控制模块的构建和部分特征工程;蒋继研负责概念迁移的处理和部分特征工程。

该团队从2015年开始关注AutoML领域,当时谷歌还没有提出相关概念。最初,张文鹏发现神经网络的调参非常复杂,进而意识到AutoML的价值和潜力。朱文武老师也非常认同,果断组建团队开始该领域的研究。在该团队中,熊铮主要关注基于贝叶斯优化的AutoML系统,蒋继研则关注Bandit方法在AutoML中的应用。

2017年,该团队提出了利用强化学习构建决策树模型的元学习算法并发表于NIPS 2017的Meta Learning Workshop,这也是国内相关领域最早的研究成果之一。

此外,该团队目前也有布局特征工程、深度学习计算机视觉、自然语言处理等领域的AutoML研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1696

    浏览量

    45954
  • 深度学习
    +关注

    关注

    73

    文章

    5497

    浏览量

    121068
  • 自然语言处理

    关注

    1

    文章

    618

    浏览量

    13541

原文标题:清华朱文武团队斩获NIPS 2018 AutoML挑战赛亚军,高校排名第一

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    EDA精英挑战赛公布!思尔芯“战队”薪火相承斩获“麒麟杯”

    命题企业之,不仅精心设计题,还通过深入的交流和专业的指导,助力参赛队伍取得了令人瞩目的成绩,其中来自北京大学的参赛队伍成功摘得本次大赛的“麒麟杯”桂冠。作为
    的头像 发表于 12-11 01:03 151次阅读
    EDA精英<b class='flag-5'>挑战赛</b><b class='flag-5'>赛</b>果<b class='flag-5'>公布</b>!思尔芯“战队”薪火相承<b class='flag-5'>斩获</b>“麒麟杯”

    清华大学创新领军工程博士团队调研芯和半导体

    近日,清华大学2024级创新领军工程博士团队到今年国家科技进步等奖获得企业——芯和半导体上海总部参观调研。
    的头像 发表于 12-04 17:15 343次阅读

    50万奖金池!开放原子大赛——第二届OpenHarmony创新应用挑战赛正式启动

    第二届OpenHarmony创新应用挑战赛作为开放原子大赛旗下的重要项,聚焦 OpenHarmony应用开发,致力提升开发者的动手实践能力与开发创新应用的能力。 项要求开发者
    发表于 10-24 15:40

    微处理器如何控制计算机系

    微处理器,作为计算机系统的核心部件,承担着控制整个计算机系统运行的重要任务。它不仅是计算机的运算中心,还是控制中心,负责执行程序指令、处理数据以及协调计算机各部件之间的工作。以下将详细
    的头像 发表于 08-22 14:21 467次阅读

    AI4Science黑客松光子计算挑战赛成功举办

    经过数月角逐,第二届AI4Science黑客松竞赛日前落下帷幕。在曦智科技主持的光子计算挑战赛中,参赛选手何自强和来自东北大学的参赛队伍The Power of Light获得完
    的头像 发表于 08-07 09:58 484次阅读

    热烈欢迎清华大学电子工程学子来武汉六博光电交流实践!

    近日,武汉六博光电技术有限责任公司接到清华大学函件,正式成为清华大学电子工程武汉实践基地之。2024年8月1日上午,清华大学电子工程
    的头像 发表于 08-02 08:37 494次阅读
    热烈欢迎<b class='flag-5'>清华大学</b>电子工程<b class='flag-5'>系</b>学子来武汉六博光电交流实践!

    计算机系统的组成和功能

    计算机系统是个复杂而庞大的概念,它涵盖了计算机硬件、软件以及它们之间相互作用的所有元素。为了全面而深入地探讨计算机系统,本文将从定义、组成、功能、发展历程以及未来趋势等方面进行详细阐
    的头像 发表于 07-24 17:41 859次阅读

    第三届CCF“司南杯”量子计算编程挑战赛获奖名单公布

    的第三届CCF“司南杯”量子计算编程挑战赛正式落下帷幕,本次大赛的申诉与复审工作现已全部完成,经赛事组委会审议,确认获奖名单真实有效。恭喜以下获奖选手,让我们起欣赏各
    的头像 发表于 07-16 08:22 362次阅读
    第三届CCF“司南杯”量子<b class='flag-5'>计算</b>编程<b class='flag-5'>挑战赛</b>获奖名单<b class='flag-5'>公布</b>!

    计算机系统中的关键组件有哪些

    计算机系统中,关键组件的协同工作构成了其强大的数据处理和运算能力。这些组件不仅决定计算机的性能,还影响着用户的使用体验。以下是对计算机系统中关键组件的详细阐述,包括它们的定义、功能
    的头像 发表于 07-15 18:18 1410次阅读

    格灵深瞳斩获首届花样滑冰动作识别竞赛夺冠

    近日,第一届花样滑冰动作识别挑战赛公布本次竞赛的结果,格灵深瞳凭借领先的算法能力斩获
    的头像 发表于 05-13 14:04 402次阅读
    格灵深瞳<b class='flag-5'>斩获</b>首届花样滑冰动作识别竞赛夺冠

    清华大学研发成功大规模干涉-衍射异构集成芯片——太极

    4月12日公布清华大学研发出太极芯片,实现每瓦160TOPS的高性能通用智能计算,这是该校电子工程与自动化
    的头像 发表于 04-12 15:50 432次阅读

    【量子计算机重构未来 | 阅读体验】第二章关键知识点

    ,Snor算法和Grover算法。Snor算法典型的应用场景为超大数的质因数分解,普通计算机需要通过一个一个的枚举才能解析出来,但量子计算机可以同时对多个候选结果进行“研究分析”,并巧
    发表于 03-06 23:17

    全国大学生计算机系统能力大赛操作系统设计-LoongArch 赛道广东龙芯2K1000LA 平台资料分享

    LoongArch平台的参考实现。具体的实验设计参见xv6主页 的labs标签页。 uCore.实验指导书 rCore. 2022年全国大学生操作系统大赛-功能挑战赛等奖。 MaQueOS.
    发表于 02-04 15:37

    计算机系统如何应对大模型时代的挑战与机遇

    “操作系统管理着计算机的资源和进程,以及所有的硬件和软件。计算机的操作系统让用户在不需要了解计算机语言的情况下与计算机进行交互。”这是我们对计算机系
    发表于 01-23 11:06 534次阅读
    <b class='flag-5'>计算机系</b>统如何应对大模型时代的<b class='flag-5'>挑战</b>与机遇

    2024 CSRankings全球计算机科学排名发布!AI领域中国高校霸榜

    CSRankings 2024结果出炉!全世界计算机科学机构的排名进行了大更新。在AI板块,清华、北大、上交分列TOP 3,CMU和浙大并列第4。AI TOP 10中的中国高校
    的头像 发表于 01-08 09:28 1312次阅读
    2024 CSRankings全球<b class='flag-5'>计算机</b>科学排名发布!AI领域中国<b class='flag-5'>高校</b>霸榜