0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Byte Cup 2018国际机器学习竞赛夺冠记

IEEE电气电子工程师 来源:lq 2019-02-14 09:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

9月份,我们两位同学一起组队,参加Byte Cup 2018国际机器学习竞赛。本次比赛由中国人工智能学会和字节跳动主办,IEEE中国代表处联合组织。比赛的任务是文章标题自动生成。最终,我们队伍获得了第一名。

1.比赛介绍

本次比赛的任务是给定文章文本内容,自动生成标题。本质上和文本摘要任务比较类似。本次比赛有100多万篇文章的训练数据。

1.1数据介绍

详细参见:https://biendata.com/competition/bytecup2018/data/。

本次竞赛使用的训练集包括了约130万篇文本的信息,验证集1000篇文章,

测试集800篇文章。

1.2数据处理

文章去重,训练数据中包含一些重复数据,清洗,去重;

清洗非英文文章。

1.3评价指标

本次比赛将使用Rouge(Recall-Oriented Understudy for Gisting Evaluation)作为模型评估度量。Rough是评估自动文摘以及机器翻译的常见指标。它通过将自动生成的文本与人工生成的文本(即参考文本)进行比较,根据相似度得出分值。

2.模型介绍

本次比赛主要尝试了seq2seq的方法。参考的模型包括Transformer模型和pointer-generator模型。

模型如下图:

(其实就是将pointer-generator的copy机制加到transformer模型上)。

同时,尝试了将ner-tagger和pos-tagger信息加入到模型中,如下图所示:

3.问题分析

最开始我们尝试了最基本的transformer模型,通过查看数据,遇到以下几类明显错误:

OOV(out of vocabulary);

数字,人名,地名预测错误;

词形预测错误。

OOV问题,主要原因是数据集词表太大,但是,模型能够实际使用的词表较小;数字,人名,地名预测错误,主要原因是低频词embedding学习不充分;词形预测错误,主要原因是模型中没有考虑词的形态问题(当然,如果训练数据足够大,是能避免这个问题的)。

为了解决这些问题,我们尝试了以下方法。

4.重要组件

4.1copy机制

对于很多低频词,通过生成式方法生成,其实是很不靠谱的。为此,我们借鉴Pointer-generator的方法,在生成标题的单词的时候,通过Attention的概率分布,从原文中拷贝词。

4.2subword

为了避免oov问题,我们采用subword的方法,处理文本。这样,可以将词表大小减小到20k,同时,subword会包含一些单词词形结构的信息。

4.3ner-tagger和pos-tagger信息

因为baseline在数字,人名,地名,词形上预测错误率较高,所以我们考虑能不能将ner-tagger和pos-tagger信息加入到模型中。如上图所示。实验证明通过加入这两个序列信息能够大大加快模型的收敛速度(训练收敛后,指标上基本没差异)。

4.4Gradient Accumulation

在实验过程中,我们发现transformer模型对batch_size非常敏感。之前,有研究者在机器翻译任务中,通过实验也证明了这一观点。然而,对于文章标题生成任务,因为每个sample的文章长度较长,所以,并不能使用超大batch_size来训练模型,所以,我们用Gradient Accumulation的方法模拟超大batch_size。

4.5ensemble

采用了两层融合。第一层,对于每一个模型,将训练最后保存的N个模型参数求平均值(在valid集上选择最好的N)。第二层,通过不同随机种子得到的两个模型,一个作为生成候选标题模型(选择不同的beam_width, length_penalty), 一个作为打分模型,将候选标题送到模型打分,选择分数最高的标题。

5.失败的方法

将copy机制加入到transformer遇到一些问题,我们直接在decoder倒数第二层加了一层Attention层作为copy机制需要的概率分布,训练模型非常不稳定,并且结果比baseline还要差很多;

我们尝试了bert,我们将bert-encoder抽出的feature拼接到我们模型的encoder的最后一层,结果并没有得到提升;

word-embedding的选择,我们使用glove和fasttext等预训练的词向量,模型收敛速度加快,但是,结果并没有random的方法好。

6.结束语

非常感谢主办方举办本次比赛,通过本次比赛,我们探索,学习到了很多算法方法和调参技巧。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50313

    浏览量

    266865
  • 机器翻译
    +关注

    关注

    0

    文章

    141

    浏览量

    15551
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261

原文标题:Byte Cup 2018国际机器学习竞赛夺冠记

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    太燃了!人形机器人1500米比赛,这家夺冠!更有机器人全程自主奔跑

    人民政府、世界机器人合作组织和亚太机器人世界杯国际理事会联合主办,吸引了来自16个国家的280支队伍,500余台人形机器人齐聚一堂,共同角逐竞技赛、表演赛、场景赛和外围赛四大类共26个
    的头像 发表于 08-17 06:21 9914次阅读
    太燃了!人形<b class='flag-5'>机器</b>人1500米比赛,这家<b class='flag-5'>夺冠</b>!更有<b class='flag-5'>机器</b>人全程自主奔跑

    荣耀“闪电”机器夺冠续航翻倍的秘密?格瑞普深度解读人形机器人电池定制

    。当荣耀齐天大圣队的自主导航机器人“闪电”以50分26秒(净用时)率先冲线,所有人都意识到:人形机器人的奔跑能力,已经超出了多数人的预期。一、荣耀“闪电”凭什么夺冠
    的头像 发表于 04-20 12:03 468次阅读
    荣耀“闪电”<b class='flag-5'>机器</b>人<b class='flag-5'>夺冠</b>续航翻倍的秘密?格瑞普深度解读人形<b class='flag-5'>机器</b>人电池定制

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习
    的头像 发表于 02-04 14:44 672次阅读

    机器学习和深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 345次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    思岚科技亮相2025日本东京国际机器人展览会

    12月6日,作为全球规模最大、历史最悠久的机器人专业展会之一的第26届日本国际机器人展(IREX 2025)在东京国际展览中心圆满收官。
    的头像 发表于 12-16 11:36 1797次阅读
    思岚科技亮相2025日本东京<b class='flag-5'>国际</b><b class='flag-5'>机器</b>人展览会

    东莞理工学院“小眼睛科技杯”第四届集成电路设计与创新应用竞赛圆满落幕

    、教务部(招生办公室)、科研部、研究生院、校学生会、校研究生会主办,集成电路学院(国际微电子学院)团委、学生会承办,深圳市小眼睛科技有限公司冠名赞助。本届竞赛自2025
    的头像 发表于 12-08 08:03 570次阅读
    东莞理工学院“小眼睛科技杯”第四届集成电路设计与创新应用<b class='flag-5'>竞赛</b>圆满落幕

    思岚科技邀您相约2025日本东京国际机器人展览会

    第26届日本东京国际机器人展览会(iREX 2025)将于12月3日-6日在东京国际展览中心(Tokyo Big Sight)盛大启幕。作为全球最具影响力、规模最大的机器人专业展会之一
    的头像 发表于 12-03 17:44 1408次阅读

    广和通斩获具身智能家务机器人黑客松竞赛二等奖

    近日,广和通受邀参加由 Hugging Face、NVIDIA 与 Seeed Studio 联合举办的“具身智能家务机器人黑客松”竞赛。在本次前沿赛事中,广和通团队成功开发、部署并演示了“双臂协作家务机器人系统”,凭借其创新的
    的头像 发表于 11-08 14:51 1810次阅读

    普渡楼宇配送机器人荣获2025年IDEA国际设计卓越奖

    近日,普渡楼宇配送机器人“闪电匣”凭借其卓越的产品设计与创新理念,成功斩获美国IDEA国际设计大奖(International Design Excellence Awards) !这是全球设计业内
    的头像 发表于 10-15 17:58 1340次阅读

    舍弗勒携手英飞凌共赴智能汽车竞赛

    此前,2025年8月18-20日,第二十届全国大学生智能汽车竞赛(以下简称“竞赛”)全国总决赛在杭州电子科技大学举办并圆满落幕,是国内最具影响力的大学生学科竞赛之一。在本届竞赛中,来自
    的头像 发表于 09-04 14:34 1061次阅读

    如何解决开发机器学习程序时Keil项目只能在调试模式下运行,但无法正常执行的问题?

    如何解决开发机器学习程序时Keil项目只能在调试模式下运行,但无法正常执行的问题
    发表于 08-28 07:28

    第六届TE Connectivity AI Cup全球竞赛圆满收官

    近日,在全球行业技术领先企业TE Connectivity(以下简称“TE”)主办的第六届TE AI Cup全球竞赛中,中国西南财经大学团队与华南理工大学团队凭借出色表现双双夺冠。作为聚焦培养高校
    的头像 发表于 08-25 14:13 0次阅读

    传音斩获WMT 2025国际机器翻译大赛四项冠军

    近日,在由国际计算语言学协会(ACL)主办的WMT 2025国际机器翻译大赛中,传音在低资源印度语言翻译任务(Low-Resource Indic Language Translation)中斩获
    的头像 发表于 08-06 18:21 1331次阅读

    中国两大高校团队斩获第六届TE Connectivity AI Cup全球竞赛桂冠

    中国上海,2025年8月4日 ——近日,在全球行业技术领先企业TE Connectivity(以下简称“TE”)主办的第六届TE AI Cup全球竞赛中,中国西南财经大学团队与华南理工大学团队凭借
    的头像 发表于 08-05 15:03 1152次阅读
    中国两大高校团队斩获第六届TE Connectivity AI <b class='flag-5'>Cup</b>全球<b class='flag-5'>竞赛</b>桂冠

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3087次阅读