千帆杯AI原生应用开发挑战赛第二期赛题“贺岁灵感模型”已于2月28日圆满结束。经过严格的自动评估和人工复审后,现已决出TOP10选手!
第二期赛题,结合新春佳节的背景以“贺岁灵感模型”为主题,鼓励开发者使用千帆ModelBuilder,基于ERNIE Speed模型打造一个春节文案创作的精调模型,在通过对模型精调使其保持原有能力的同时,还能准确理解和执行文案创作,帮助用户成为春节档“最强贺岁文案专家”。
本期赛题主要通过千帆ModelBuilder工具链中“模型评估”的部分能力以及人工评估做整体评审,全方位保证评审结果的公平、公正、公开。
第一轮:自动评估(满分1分)
以“内容分”和“字数控制分”为主要考核指标,两项标准分别占据0.6、0.4的权重,通过加权平均后,得出“选手模型”的作品分数。
内容分(占据0.6权重):官方输入包含内容及字数要求的评测数据集,以ERNIE Bot 4.0作为裁判,如果“选手模型”答案比数据集答案更好则得分,反之则不得分。如果ERNIE Bot 4.0没有明确返回评测数据集答案更好,均算作“选手模型”得分。
字数控制分(占据0.4权重):基于官方评测数据集的字数要求,根据“选手模型”的全量回答综合得出最终字数控制评分。
具体规则:根据“选手模型”答案字数与评测数据集中字数要求的diff进行分段打分,具体分段分数如下:
diff ≤ 0.05,得1分
0.05 < diff ≤ 0.1,得0.9分
0.1 < diff ≤ 0.15,得0.8分
0.15 < diff ≤ 0.2,等0.7分
0.2 < diff ≤ 0.25,得0.6分
其余则不得分
举例:如评测数据要求为300字,选手模型返回290字,则diff为:(300-290)/300=0.033,最终得分因0.033 ≤ 0.05,因此在该评测数据下字数控制得1分。
第二轮:人工评估(满分1分)
为了保证自动评估的结果,官方针对自动评估得出的TOP 12“选手模型”安排了第二轮人工评估。(由于选手比分较为接近,因此官方对TOP 12“选手模型”进行人工评估)
人工评估由三位百度专家通过人工查验的方式进行,专家通过对参赛选手所提供的模型微调方案进行投票(一位专家最多可投3票),如选手获得三票,即获得满分。
“千帆杯”第二期
「最强挑战者」出炉
第二期最强挑战者张辉,带来作品“贺岁灵感模型”,张辉使用ModelBuilder的模型SFT精调工具链,基于ERNIE Speed基座模型,精调训练出了一个能准确控制创作字数的春节贺岁文案模型。
ERNIE Speed模型作为百度在2024年最新发布的自研高性能大语言模型,凭借其轻量级、高效的自然语言处理等特点,可以快速地响应用户需求。同时,其在微调场景下优势显著,模型的训练时间更短,成本更低,特定场景下的效果可媲美ERNIE Bot 4.0。
自2月发布上线以来,目前已有超过150家企业采用了ERNIE Speed模型,它除了能做到快速响应外,作为基础通用大模型,在阅读理解、close-book问答、创作与续写等复杂任务上,也能达到甚至超越千亿大模型的效果。每一位开发者,都可以在ERNIE Speed的助力下,快速实现企业级的专属模型训练,探索AI大模型的无限可能。
更多AI的想象
值得期待
3月21日,百度智能云将在北京举行AI Cloud Day:百度智能云千帆产品发布会。作为2024年AI领域最值得期待的系列产品发布会,诚挚邀请所有技术爱好者共襄盛举。届时,百度智能云千帆ModelBuilder和AppBuilder也将公布最新产品进展,发布系列新模型以及应用开发工具组件等,分享如何助力企业、用户释放模型创新潜能,简单高效打造AI原生应用,推动中国AI原生应用的发展,共同迈入崭新的AI生产力的最新纪元。
审核编辑:刘清
-
百度智能云
+关注
关注
0文章
47浏览量
1903 -
AI大模型
+关注
关注
0文章
307浏览量
287
原文标题:“千帆杯”第二期十万大奖花落谁家?TOP10名单出炉!
文章出处:【微信号:baidu_2000,微信公众号:百度】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论