0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

PAKDD 2019 AutoML挑战赛结果出炉:国内团队DeepBlueAI斩获第一名

DPVg_AI_era 来源:lp 2019-04-19 08:52 次阅读

近日,数据挖掘领域顶会PAKDD的AutoML挑战赛结果出炉,DeepBlueAI、微软&北航、清华大学等团队斩获前三名。本文带来冠军团队解决方案的技术分享。

PAKDD 2019 AutoML挑战赛结果出炉:国内团队 DeepBlueAI 斩获第一名,微软亚洲研究院&北航组成的ML Intelligence团队获得第二名,清华大学Meta_Learners团队获得第三。

Feedback phase 排行榜

PAKDD 全称亚太地区知识发现与数据挖掘国际会议(Pacific Asia Knowledge Discovery and Data Mining),是亚太地区数据挖掘领域的顶级国际会议。该会议在全球数据挖掘领域享有盛誉,一直受到业内各国科学家的高度重视和广泛认可。

PAKDD 2019 第 4 届自动机器学习挑战赛(AutoML Challenge)的主题是“AutoML for Lifelong Machine Learning”,要求参赛选手创建一个自动预测模型(没有任何人为干预),并在一个终身机器学习(Lifelong Machine Learning)设置中训练和评估该模型。

AutoML,全称为Automated Machine Learning,是机器学习领域的一个新兴方向。旨在自动化整个机器学习的流程,降低数据预处理、特征工程、模型选择、参数调节等环节中的人工成本。

随着机器学习系统的日益复杂化,AutoML 得到了产学研各界的广泛关注,已成为人工智能领域最热门的研究方向之一。

据悉,本次竞赛共有 127 个队伍参加,共收到 550 多个方案,最终有 31 个队伍进入决赛。

最终获胜的队伍为:

冠军:DeepBlueAI,罗志鹏,黄坚强,陈明健

亚军:ML Intelligence,包梦蛟,Hui Xue,Yihuan Mao,Yujing Wang

季军:Meta_Learners,熊铮,蒋继研,张文鹏

接下来,本文带来冠军团队解决方案的分享。

冠军方案关键技术:自动特征工程和自动快速特征选择

如下图所示,研究团队实现了一个Lifelong AutoML 框架,包括自动特征工程和自动快速特征选择、自动模型调参、自动模型融合等步骤,在类别不平衡的处理上我们使用了自适应采样并在模型训练上有一定的创新,对概念漂移问题我们结合DNN的预训练和LightGBM的再训练以及针对性地设计特征来缓解概念漂移,并且利用了多种策略对运行时间和运行内存进行了有效的控制,以确保解决方案能在限制时间和内存下完成整个流程。

自动特征工程与快速特征选择:

与以往的AutoML框架所不同的是,我们的框架更加注重自动特征工程与特征选择,我们构建的自动特征工程不仅是基于时间特征、分类特征、数值特征、多值分类特征做特征间的高阶组合,同时我们自动提取跨时间、样本的高阶组合。

对于特征选择,我们结合特征重要性及序列后向选择算法实现了一个有效的快速特征选择,在忽略重要性低的特征上结合序列后向特征选择算法,对重要性极高的特征进行筛选,这能快速地筛选掉过拟合特征,从而大幅度提高模型性能。为了避免维度灾难,我们迭代地进行特征工程和特征选择,在低阶特征生成后,利用特征选择过滤大部分特征,在其基础上进行更高阶的特征组合,更有效地提取了高阶特征并避免了维度灾难。

缓解类别不平衡:

我们能够自动针对数据情况(数据大小,数据类型,以及正负样本比例),以及比赛时间的限制等各种因素的不同,自适应地对数据采取不同的采样方式和比例,既保证了效率的同时又保证了效果。传统的类别不平衡的数据训练方式,是通过提前对数据进行采样,缓解类别不平衡问题,然后将数据加入模型中训练。但是这样会损失大量的数据信息,所以我们在数据采样的时候,仍然保留大量的高比例样本,并且将其分批,在加入模型中训练时,让模型在梯度提升中轮流训练分批数据,这样能够尽可能保留更多的原始数据的信息,同时缓解了类别不平衡问题。

抗概念漂移处理:

针对数据大小,数据复杂度,自适应选择batch数目。同时,对于每个batch,加入了“不同batch间采样率随时间增加”机制。我们使用DNN模型对特征Embedding进行预训练,迁移到新的数据批上进行再训练,有效地缓解了概念漂移和增强了特征表达。

挑战和改进

研究团队表示,不同特征类型的处理是本次大赛最棘手的挑战。

本次大赛数据由多种不同的数据类型组成,这些都是现实世界问题需要处理的真实数据。而现有的AutoML框架往往只支持数值类型,不能简单将现有框架应用到这些现实数据中。研究人员通过以往的大量竞赛及实际项目经验,在特征工程处理上加入了大量的先验知识,使得框架能支持不同特征类型的特征工程,以及能自动对这些不同类型特征做高阶组合以及特征选择。支持更多的数据类型而不仅仅是数值类型保证了AutoML能应用到更广泛的现实问题中,大大增强了AutoML的实用性。

团队表示,该解决方案有一些可以改进的方面:

首先,比赛所使用的数据仅来自于10个不同的任务,虽然我们在10个任务的数据集上都取得了很好的效果,但并不能保证我们的AutoML框架能应用到更广泛的不同现实世界问题中。

其次,比赛所提供的都是单表数据,而现实中的问题往往是多表关联的且关系复杂的,表间的关系往往包括多对多、一对多、多对一、一对一等多种关系。

为了更好地将AutoML应用到现实问题中,我们将设计并实现并实现支持多表联结数据以及不同数据类型的AutoML框架,将该框架应用到更多现实世界问题的数据上进行测试。

终生自动化机器学习:AutoML对现实世界问题的意义

这次比赛将AutoML扩展到了多种不同的数据类型上,其目标是实现一个支持不同数据类型并能适应概念漂移的终生自动化机器学习。

首先,现实世界问题的数据往往是多种不同数据类型的,需要特定领域的专家对这些数据进行大量的预处理及特征工程,而现有的自动化机器学习框架又仅支持数值类型,对其他类型不能有很好的支持,很难应用到各种现实世界问题中。在这次比赛中,我们团队设计的AutoML将自动化机器学习扩展到了多种数据类型,引入了不同类型的特征预处理以及不同类型特征的特征工程及特征组合,这样能在不需要专家的干预下將AutoML应用到更多的现实世界问题中。

其次,许多现实世界问题数据是根据时间逐渐获取的,数据间往往带有概念漂移,并存在大量的类别不平衡问题,模型需要不停地重复训练去适应概念漂移并需要专家去处理概念漂移及类别不平衡问题。我们团队设计的框架通过融合不同时期的数据以及结合DNN和LightGBM的训练来自适应概念漂移,引入了自适应采样以及对梯度提升模型的采样率进行改进来缓解类别不平衡,实现了终生机器学习。

我们设计的终生自动化机器学习框架可以应用到各种现实世界问题中,例如在推荐系统、异常检测、在线广告、欺诈检测、运输监控、计量经济学、病人监控等诸多领域中,无需领域专家的干预,我们的框架可以训练出一个性能高、时效性强、时间可行的模型,从而降低应用门槛,缩短项目开发周期,促进机器学习的大规模落地。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6550

    浏览量

    103878
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24185
  • 机器学习
    +关注

    关注

    66

    文章

    8338

    浏览量

    132275

原文标题:PAKDD AutoML竞赛结果出炉,冠军方案关键技术解读

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    2024年ICPC与华为挑战赛冠军杯圆满落幕

    近日,2024年ICPC&华为挑战赛冠军杯在深圳圆满落幕。该活动由华为和ICPC联合举办,汇聚全球顶尖的编程人才,共同探讨和解决具有挑战性的工业界真实问题,并对未来技术发展趋势及关键挑战展开讨论。今年的
    的头像 发表于 10-27 16:00 512次阅读

    PI助力aCentauri车队在太阳能车挑战赛中大放异彩

    在2023年10月,Power Integrations (PI) 为当时举行的普利司通世界太阳能车挑战赛提供了先进的技术和支持。
    的头像 发表于 10-27 14:08 166次阅读
    PI助力aCentauri车队在太阳能车<b class='flag-5'>挑战赛</b>中大放异彩

    50万奖金池!开放原子大赛——第二届OpenHarmony创新应用挑战赛正式启动

    第二届OpenHarmony创新应用挑战赛作为开放原子大赛旗下的重要项,聚焦 OpenHarmony应用开发,致力提升开发者的动手实践能力与开发创新应用的能力。 项要求开发者
    发表于 10-24 15:40

    NVIDIA为AI城市挑战赛构建合成数据集

    一年一度的 AI 城市挑战赛中,来自世界各地的数百支参赛队伍在 NVIDIA Omniverse 生成的基于物理学的数据集上测试了他们的 AI 模型。
    的头像 发表于 09-09 10:04 409次阅读

    AI4Science黑客松光子计算挑战赛成功举办

    经过数月角逐,第二届AI4Science黑客松竞赛日前落下帷幕。在曦智科技主持的光子计算挑战赛中,参赛选手何自强和来自东北大学的参赛队伍The Power of Light获得完优胜奖。
    的头像 发表于 08-07 09:58 418次阅读

    思尔芯题正式发布,邀你共战EDA精英挑战赛

    题发布COMPETITIONRELEASE2024中国研究生创芯大赛·EDA精英挑战赛(原“集成电路EDA设计精英挑战赛”)现已正式拉开帷幕。作为核心出题企业之思尔芯(S2C),已
    的头像 发表于 08-03 08:24 450次阅读
    思尔芯<b class='flag-5'>赛</b>题正式发布,邀你共战EDA精英<b class='flag-5'>挑战赛</b>!

    评测活动第一名李工:我用Jupiter画了个原理图,然后成了段子手…

    为昕邀请了这次参与Jupiter评测活动的第一名获奖者李工@李工写下评测感想,没想到,是位工程师界的段子手——爆笑时刻到来→李工感想各位EDA界的老铁们,听我给你们吹个牛!最近我参加了为昕软件试用
    的头像 发表于 07-31 17:42 722次阅读
    评测活动<b class='flag-5'>第一名</b>李工:我用Jupiter画了个原理图,然后成了段子手…

    软通动力荣获2023年中国IT服务市场第一名

    近日,迪顾问最新发布《2023-2024年中国IT服务市场研究年度报告》。报告中,软通动力凭借在数字化转型浪潮中卓越的数字化能力和表现,持续领跑IT服务市场,位列2023年中国IT服务市场第一名
    的头像 发表于 07-31 10:18 359次阅读

    润和软件连续四年蝉联数字业务类解决方案市场第一名

    ,连续四年蝉联数字业务类解决方案市场第一名。在细分领域:数字信贷系统解决方案子市场持续保持第一名,数字银行解决方案子市场稳居第二,开放银行解决方案子市场上升至第三。   数字业务类
    的头像 发表于 07-31 10:10 453次阅读

    浪潮信息获CVPR2024自动驾驶挑战赛&quot;Occupancy&amp; Flow&quot;冠军

    北京2024年6月25日 /美通社/ -- 近日,在全球权威的CVPR 2024自动驾驶国际挑战赛(Autonomous Grand Challenge)中,浪潮信息AI团队所提交的"F-OCC
    的头像 发表于 06-25 20:29 323次阅读
    浪潮信息获CVPR2024自动驾驶<b class='flag-5'>挑战赛</b>&quot;Occupancy&amp; Flow&quot;冠军

    格灵深瞳斩获首届花样滑冰动作识别竞赛夺冠

    近日,第一届花样滑冰动作识别挑战赛公布了本次竞赛的结果,格灵深瞳凭借领先的算法能力斩获了冠军,并包揽了本次挑战赛的前两
    的头像 发表于 05-13 14:04 371次阅读
    格灵深瞳<b class='flag-5'>斩获</b>首届花样滑冰动作识别竞赛夺冠

    华润微电子以第一名的成绩荣获新吴区区长质量奖

    近日,无锡高新区(新吴区)召开2023年度高质量发展总结暨2024年工作推进会,会议隆重表彰了新吴区区长质量奖单位,华润微电子以第一名的成绩荣获新吴区区长质量奖。
    的头像 发表于 04-07 09:19 580次阅读
    华润微电子以<b class='flag-5'>第一名</b>的成绩荣获新吴区区长质量奖

    OpenHarmony人形机器人创新挑战赛来啦

    12月28日,第二十六届中国机器人及人工智能大赛人形机器人创新挑战赛在苏州正式发布,首次结合
    的头像 发表于 12-30 08:32 1014次阅读
    OpenHarmony人形机器人创新<b class='flag-5'>挑战赛</b>来啦

    思尔芯助力中国EDA创新,精英挑战赛评选揭晓

    随着本届集成电路EDA设计精英挑战赛完美收官,不仅见证了全国范围内出色团队在EDA领域的卓越表现,并且印证了国产EDA技术强大的发展势头。本场比赛并非单纯的技术较量,而是我国EDA行业发展的生动体现。
    的头像 发表于 12-27 10:14 560次阅读

    第五届EDA挑战赛果公布!思尔芯“战队”成绩斐然

    12月23-24日,“2023第五届集成电路EDA设计精英挑战赛”总决赛颁奖典礼在南京顺利举行,大赛公布了最终获奖。思尔芯作为核心命题企业之,不仅出题,还通过交流和指导,助力参赛队伍展现了他们在
    的头像 发表于 12-27 08:23 690次阅读
    第五届EDA<b class='flag-5'>挑战赛</b><b class='flag-5'>赛</b>果公布!思尔芯“战队”成绩斐然