0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

闭卷开考全国一卷,AI大模型高考数学全部不及格?!

E4Life 来源:电子发烧友 作者:周凯扬 2024-06-21 00:26 次阅读

电子发烧友网报道(文/周凯扬)当下的大模型除了卷商业化变现外,又开辟出了一个新的“赛博斗蛐蛐”赛道,以各种评测标准来测试大模型在语言、数学、推理和代码方面的综合成绩。作为国内最权威的考试之一,高考则是最能代表学生综合能力的一次考验,而大模型这个特殊身份的考生,如果参加高考究竟会获得怎样的成绩,也激起了网友的好奇之心。

上海人工智能实验室的大模型评测体系OpenCompass在近日举办了这么一次测试,让6大开源模型和GPT-4o参加一次特殊的“高考”,然而这些大模型获得的成绩却让不少人大跌眼镜。

闭卷开考全国一卷

在这次大模型参加高考中,OpenCompass的首轮测试采用了全国新课标I卷的语数外试卷作为题源,该卷的覆盖省份包括江苏、浙江、河北、福建、山东、湖北、湖南、广东等。为了方便测试,除了省去其他非统一学科外,其中英语省去了30分的听力,所以其单科总分变为了120分。

为了做到“闭卷”,这些受测的模型中,包括Mistral的开源对话模型Mixtral 8x22B、零一万物的Yi-1.5-34B大模型、智谱AI的GLM-4-9B、上海人工智能实验室推出的InternLM2-20B-WQX大语言模型以及阿里巴巴的Qwen2-57B和Qwen2-72B。

以上开源模型的开源时间均早于本届高考,发布时间最新的是InternLM专门在高考前夕推出的文曲星系列大模型,InternLM2-WQX。即便如此,其发布于6月4日的时间也满足了闭卷考试的前提。唯一的例外是商用闭源模型GPT-4o,但其成绩也仅仅是作为评测参考。

在阅卷评分上,OpenCompass请到了多位有阅卷经验的高中教师对主观题答案进行评分,每份考卷都由至少3位教师评阅取平均分,甚至对分差较大的题目进行了二次审核。另外值得关注的是,为了保证阅卷老师在主客观题上产生对大模型“先入为主”的观念,OpenCompass在阅卷之后才告知阅卷老师答案由大模型生成,并对成绩做一个整体分析。

wKgZomZ0BCWAPKHmAAOALGiaXp4470.png
AI大模型高考语数外得分 / 上海人工智能实验室


从总分来看,阿里巴巴的通义千问大模型Qwen2-72B排名第一,其次是成绩相近的GPT-4o和InternLM2-20B-WQX。然而单从数学这一门科目来看,所有的大模型都没有及格,Mixtral 8x22B甚至只获得了21分的成绩。

语言能力依然是LLM的强项,但“应试”能力仍有提升空间

在这次“高考测试”中,不少大模型都在语文和英语上获得了不错的成绩,尤其是在英语试卷上,GPT-4o更是在英语上获得了111.5的高分。在语文上,还是国内的模型更具优势,尤其是在文言文阅读、古诗文阅读和名句默写上。

有趣的一点是,在语文作文上,各大模型都没有拉开较大差距。但据上海人工智能实验室的观察,大模型的作文都倾向于将“首先”“其次”和“然后”这样表达先后顺序的词放在段首。此外,目前多数大模型都没有对一些“应试”类题型做出优化,比如在语文考试中,阅读理解中的一些本体、喻体、暗喻等概念,大模型尚不能完全理解,所以在语言文字运用题型上,比如补写句子等题目就普遍得分不高。

而在英语考试中,尽管各大模型整体表现良好,但部分模型并不适应完形填空、七选五这样非传统问答式的题型,会出现答案错位的情况,因此得分率依然处于一个较低的水平。

在英语续写和作文的撰写上,大模型都存在忽略题目要求的现象,普遍出现了超出字数限制而扣分的情况,且单段文字过长。在故事续写这样的题型中,部分大模型也会展开不合实际的联想,比如InternLM2-20B-WQX的作答中,就出现了出租车内司机拨通银行内线电话的离谱情节。

数学不及格,主观问答题成为最大短板

wKgaomZ0BDKAKfhmAALzT7cr6Gc900.png
AI大模型数学各题型得分 / 上海人工智能实验室


相较语言能力测试成绩,AI大模型在数学能力测试上获得的成绩就显得不尽如人意了。最高分为InternLM2-20B-WQX取得的75分,可以说在数学这门学科上,几乎所有的大模型都败下阵来。全国新课标I卷的数学试卷中存在两道带图题,对于不支持多模态输入的大模型而言,只能选择输入题干文字从而将图片舍弃,这也是失分严重的原因之一。

wKgaomZ0BD6AA07RAAHqWlB3xsA388.png
Qwen2-72B的带图题答案 / 上海人工智能实验室


以上图中的带图题答案为例,大模型仅仅给出了一个解题框架,并没有给出具体数值的答案。GPT-4o和InternLM2-20B-WQX等大模型虽然给出了具体答案和解题过程,但最终得到的是一个错误的答案。

之所以InternLM2-20B-WQX能在数学考试上获得相对较高的成绩,也归功于其团队在数学大模型上的积累。今年年初InternLM发布了数学模型书生·浦语数学(InternLM2-Math)。书生·浦语数学也是首个同时支持形式化数学语言以及解题过程评价的开源模型,如此一来不仅可以用于数学计算解答,也可以用于数学基础研究和教学。

尽管如此,在数学考试的问答主观题上,大模型依然成绩惨淡。这是因为大模型的回答多数比较凌乱,也出现了不少常见的错误解答但答案正确的现象。所以在77分满分的问答题上,最高的InternLM2-20B-WQX也只仅仅得了26分。

AI大模型是不合格的考生吗?

根据阅卷老师的点评来看,AI大模型依然还是一个比较“死板”的考生,尤其是在主观题上。以语文的主观题为例,很多大模型在第一步审题就失败了,所以答非所问。在英语题目上,大模型的实力还是毋庸置疑的,但还是会在题型和作文中出现纰漏。

至于数学依然是所有大模型的弱项,大模型更像是记住了公式但不会运用的学生,在大部分题目上更倾向于穷举而非推理。至于带图的立体几何解答题,大模型更是缺乏空间概念,导致出现离谱的解答过程和答案。由此看来,大模型的“应试”能力依然有所欠缺,但在飞速迭代下,相信未来这种障碍会越来越少。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    27581

    浏览量

    265186
  • AI大模型
    +关注

    关注

    0

    文章

    255

    浏览量

    159
收藏 人收藏

    评论

    相关推荐

    AI护航高考!拓维海云天圆满完成2024高考评卷技术服务

    近日,2024年全国高考评卷工作在安全、平稳、有序中陆续落下帷幕。拓维海云天连续第23年为高考提供网上评卷技术服务,服务范围覆盖全国18个省(区、市),包括吉林、黑龙江、江西、贵州、甘
    的头像 发表于 06-29 08:14 116次阅读
    <b class='flag-5'>AI</b>护航<b class='flag-5'>高考</b>!拓维海云天圆满完成2024<b class='flag-5'>高考</b>评卷技术服务

    高考志愿服务,AI搜索的现实考卷

    AI搜索为高考助攻,该如何答好“志愿填报服务”这张考卷?
    的头像 发表于 06-20 09:20 1707次阅读
    <b class='flag-5'>高考</b>志愿服务,<b class='flag-5'>一</b>张<b class='flag-5'>AI</b>搜索的现实考卷

    AI应用加速 海南高考首次采用AI智能巡

    据海南省考试局公布的消息显示,海南今年为高考做足准备,海南省为确保高考公平公正,将在考场试点采用AI智能巡,运用人工智能技术及时发现和预警违规违纪行为。这项新的辅助举措在技术层面进
    的头像 发表于 06-04 11:55 567次阅读

    STM CUBE AI错误导入onnx模型报错的原因?

    使用cube-AI分析模型时报错,该模型是pytorch的cnn转化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    发表于 05-27 07:15

    三相SVPWM电压型逆变器的数学模型

    通过前面得出的dq坐标系下的数学模型,进步可以得到dq坐标系下的变压器模型。通过这种模型可以帮助我们更好的去理解dq坐标系下的数学模型
    发表于 04-06 04:27 837次阅读
    三相SVPWM电压型逆变器的<b class='flag-5'>数学模型</b>

    防止AI模型被黑客病毒入侵控制(原创)聆思大模型AI开发套件评测4

    在训练只聪明的AI小动物解决实际问题,通过构建神经网络模型并进行推理,让电脑也能像人样根据输入信息做出决策。 在上述示例中,我创建了
    发表于 03-19 11:18

    使用cube-AI分析模型时报错的原因有哪些?

    使用cube-AI分析模型时报错,该模型是pytorch的cnn转化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    发表于 03-14 07:09

    OPPO推出GPT大模型手机 搭载天玑9300地卷大模型

    OPPO推出GPT大模型手机?是的,只能说生成式 AI 实在是太爆火了,智能手机市场的竞争都只能继续。 今天OPPO推出 GPT 大模型手机 Find X7 系列。Find X7 系
    的头像 发表于 01-08 18:52 784次阅读

    AI模型可以取代大学教育吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 16:27:52

    AI模型怎么解决芯片过剩?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:42:05

    AI模型可以设计电路吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:09:29

    如何从个简单的数学表达式创建个Saber模型

    如何从个简单的数学表达式创建个Saber模型,将你的输出描述为输入的函数?例如 out=a*in*in+b (其中 a 和 b 是常数)。
    的头像 发表于 12-05 13:42 458次阅读
    如何从<b class='flag-5'>一</b>个简单的<b class='flag-5'>数学</b>表达式创建<b class='flag-5'>一</b>个Saber<b class='flag-5'>模型</b>?

    LPO是什么?LPO作用是什么

    首先LPO作为可插拔模块不符合我们对模块化产品的定义,因为LPO不具有通用产品的可插拔特性:即插即用的功效。从模块化产品的角度,LPO 是不及格的学生。
    的头像 发表于 09-20 09:57 1397次阅读

    AI模型和小模型是什么?AI模型和小模型的区别

      随着人工智能的不断发展和应用,机器学习模型的大小越来越成为个重要的问题。在机器学习中,我们通常将模型分为两类:大模型和小模型。本文将介
    发表于 08-08 16:55 7226次阅读