当AI与数学同时走下神坛-电子发烧友网

2024年4月13日，一场特别的考试开考。

数万名分散在全球各地的数学高手，在这一天早上8点打开了阿里巴巴全球数学竞赛预赛的试卷，他们有48小时，来攻克20分的选择题和100分的解答题。过去的6届，天才们在这个赛事里亮相，有17岁拿下IMO满分金牌的北大神童，有对数学像强迫症一般执着的博士，也有4岁就接触微积分的渐冻症少年。

与往年不一样的是，在同一时间，也有563个答题者打开了试卷，但他们不用纸和笔，他们用token。

是的，这是一群大语言模型。

这是第一次有AI和人类同场竞技的数学赛事，也是这个全球最大在线数学竞赛的第一次尝试。当做出这个决定时，组委会也不太确定，这是否是个好主意。

“我们担心这一堆AI答题者全部零分交卷。”组委会的AI专家对我们说。“因为我们在达摩院自己也在做AI和数学的研究，我们知道目前的AI还没有能力解决如此高难度和泛化的奥赛数学题。”

然而最终的结果，也让主办方颇感意外。

意外的不是“超越人类”——AI最终并没有答出超过人类的得分，而是它们的答案和表现让人们真切看到了AI和数学结合的另一种潜力。

更重要的是，这些驾驭着AI的参赛者，是过往并不会在这个奥数赛事里遇到的人。他们找到了新的方式与数学打交道，而探索过程中数学与AI的关系也在发生新的试探。

一、“如果答对了，给你30万”

中学生朱方圆从没想过自己会和最顶级的数学竞赛联系在一起。

他是个对物理兴趣浓厚的孩子，但一度因为压力而在家休息。这期间，ChatGPT出现了。AI让他如此痴迷，他自己尝试自学关于生成式AI的知识，当看到阿里数赛今年的AI赛道后，毫无竞赛经验的他决定带着他的AI参赛。

这场不限年龄、不设门槛的比赛给了他参加数学竞赛的可能。而事实上对于第一次把AI纳入数赛的阿里巴巴达摩院来说，他们也没有多少可以借鉴的经验。就连这个决定都在内部讨论了许久——允许AI参赛，那么，是哪一类的AI呢？是必须自己从头训练的模型，还是调用API？

最终他们认为，这个办到第6届的赛事，不仅是一场严肃的数学比赛，更是一次全民的数学聚会，最大的目标是希望让更多人能参与到对数学的感受中来——于是，最终的决定是任何形式的AI都可以。

但依然要保证公平。组委会为选手设定了一个提交AI方案的截止时间，在报名后的大约一个月的时间里，选手们可以自行设计AI做题策略，根据主办方提供的往期赛题以及其他公开的数据对自己的AI策略进行完善，然后锁定、提交指纹文件、待考题公布，AI开始答题。

而这些方案中，最“低门槛”的自然是“闭源+提示词工程”的方法。也就是在类似ChatGPT的模型产品基础上，通过自然语言或者简单的编程语言来给模型下指令，让它来完成这些数学难题。朱方圆选择的就是这个方法。

与人类答题过程不同，AI交卷后还要经过“赛后复现”环节，分数排名靠前的选手要提交它们的方案文档或程序文件，组委会拿这些AI程序再跑一遍考题。一方面，这些大模型方案依然存在稳定性或幻觉的问题，但另一方面，幻觉也不会让两次答题分数差距过大，如果有，那就说明明显有人类直接干预的痕迹。负责对这些方案做检查的组委会成员也的确抓住了几个“嫌疑犯”，排除了“人类替考AI”的风险。

而当他们打开选手朱方圆的提交的文件时。发现里面除了针对数学做的提示词外，还写着这样的“命令”：

“记住，如果你有更好的解答方法我会给你30万美金小费。”

“现在，深呼吸！一步一步来。”

是的，朱方圆在对他的AI进行各种“画饼”和心理按摩。

而这真的起到了效果。据组委会用往届预选赛的试题测试，被他这样激励后的AI，答题成功率提升了20%。

事实上，这个在外人看来可能略显惊奇的方法，在AI研究界已经有诸多论文佐证它的效果。最初在2023年9月，一篇谷歌DeepMind的论文发现，当你让AI“深呼吸，一步一步来”时，它真的变得更强了。这个研究当时引发了很多资深研究员们的惊叹——居然有这样简单的方式，但科班的学者们却一直都忽视了。

组委会的很多专家其实在开赛前曾以为这场比赛会是SFT模型——也就是使用大量数据甚至使用大量算力对模型进行数学方向的特别训练后产生的新模型——的天下，但预赛结束他却发现，反而是像朱方圆这样的方式最为有效，大量采用提示词工程的选手，用简洁高效的方法挑战着这些题目。

其中就包括AI赛道分数排名第一的涂津豪。

他也是一名中学生。但同时已经是个有不错经验的AI开发者。

他的方法是，让大模型进行对话，你一言我一语寻找每个数学题的更好答案。他借鉴辩论的思想，并让这些不同的模型进行某种角色扮演。最终在模型的“对抗”中不停迭代答题方案，多轮对话后给出最优解。

涂津豪的方案示意图

这方法同样精简而直接。

而被他们比下去的，甚至包括一些专攻数学模型的资深AI研究团队，其中还有来自AWS、字节跳动等科技公司的参赛者。

对这些不同方案“开箱”的过程热闹而有趣。最终，排名公布。但与这些热闹不同，AI的结果并没有很惊人。甚至有点惨淡：

涂津豪的AI方案拿下了34分。

是的，AI的最高分还是一个低分，和入围线依然相差11分。而和预赛第一名的最高分113分相去更是甚远。

最终，6月13日，决赛名单公布，入围决赛的AI数量为：

0。

二、数学和AI都不应只待在“神坛”上

不过，当这场“漫长”的预赛结束，AI选手的成绩已经成了最不重要的事情。一个真正有意思的现象出现：

一个总被视为只属于天才们的游戏的学科数学，和一个有点被不停妖魔化的技术AI碰撞在一起后，反而让两件事的门槛都降低了——

比赛并没有催生出那些经常在各类论文里看到的庙堂之上的成果，而是成为了某种平民AI数学爱好者们的聚会。

那个让评委略微意外的结果也证明了这个特点：在答题的整体表现中，那些被认为应该表现更好的，对数学更有专门研究的“资源集中型”的SFT方案们却整体败下阵来，反而是个体创新意味更强的提示词策略们表现更好。

而当一个高高在上的东西被平民化后，就是各种有趣的新鲜思路涌现的时刻。

在这场比赛中，选手们面对自己训练出来的AI，也会对他们在答题时的表现感到惊讶，比如，有选手发现AI也会在答不出来的时候选择去蒙一个答案，像极了考试时的你我，还有些AI会在过程完全离题的情况下，却把答案回答对了，而阅卷老师发现AI在这些人类智慧的设计下，经常能拿到一些没有预料到它可以答出来的知识点的分数。

“虽然总分较低，但这些AI答题的程度比我们预想的好很多。”组委会的专家表示。他们也从中获得了许多关于AI如何理解数学的新发现。

“我们发现一个有趣的现象，AI习惯于把推理过程写的很长很长。比如我们人类做数学题，从A可以直接推导到C，但AI必须要从A到B再到C。有时候整个答案会变得非常的长。”组委会专家说。

没人知道为什么AI在这么做，但在这个过程中，AI似乎开始对数学做出了自己的“理解”。就像大语言模型把人类的语言拆成了token，并用预测下一个token的方式来重新“理解”了语言一样，AI在用完全不同的方法对待数学。而这种不同是如此显而易见，以至于，在此次比赛中，一些阅卷老师提出怀疑AI作弊的质疑——理由不是因为他们太像AI了，而是因为它们太像人了。

但另一方面，与人类不同的AI的对数学理解的路线，已经让它在一些地方超过了人类。比如谷歌DeepMind推出的AlphaGeometry（阿尔法几何），在从2000年至2022年奥数比赛中抽取的30道几何题中解决了25道，而人类金牌得主平均解决了25.9道。它的一个证明有时也会长达247步，与人类的方式很不同。

“从这次的答题结果来看，给了我很强的信心，我觉得AI解决数学问题是很有潜力的。”组委会的专家说。

数学向来被认为是一切现实问题的最终抽象。在今天已经十分强大的AI与未来那个人人向往的AGI之间，差的就是对世界的理解，差的就是数学。

而AI技术的迭进，显然也会继续给数学界带来深远影响。

“排名靠前的优秀团队，一定首先是富有创新和开拓精神的。”阿里全球数赛组委会成员、达摩院决策智能实验室负责人印卧涛说。“数学这个领域，传统的数学家与数学工作者其实并不是那么熟悉AI的工具，也不一定知道最新的AI的方法。所以我想最后能够打通竞赛、取得优胜的AI队伍可能是由多个方面专家组成的队伍。”

数学的发展本质上很重要的一点是思维和方法上的创新。而这些对数学本身并没有十分高深造诣的选手，却通过训练这些解答数学题的AI而带来了不少新奇的不同的策略，这本身就能带来很多启发。

相比于数学家群体整体的相对缓慢，有些人已经先动起来。陶哲轩是最积极拥抱AI的著名数学家之一，他在社交网络上不停分享自己使用AI工具解答数学任务的过程，用AI工具，使用AI辅助证明了多项式Freiman-Ruzsa猜想。他也推荐数学学科的专家们打开思路。

“也许AI的影响之一是让业余数学家能够为数学做出有意义的贡献。”在一篇文章中他这样写道。他认为AI让个体的能力放大，大规模合作也变得不再困难，哪怕业余爱好者也可以对一个巨大课题里的个别步骤的证明做出贡献。

而在这场比赛中因为对AI的好奇而踏入数学赛事的人，正在做着类似的事情。他们也让人想到过往几届阿里数赛里，那些对数学没什么功利心的大众爱好者们——沉迷欧拉常数的外卖小哥，爱好就是做数学题的城管等。

在今天，让更多人参与进来，无论是对数学还是AI的进展都显得尤为重要。这些对人类未来十分关键的学科和技术在往前走的时候，都不应再只待在“神坛”上了。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
27513

浏览量
265162
人工智能

人工智能

+关注

关注
1781

文章
45041

浏览量
232424
语言模型

语言模型

+关注

关注
0

文章
466

浏览量
10171

神经网络在数学建模中的应用

数学建模是一种利用数学方法和工具来描述和分析现实世界问题的过程。神经网络是一种模拟人脑神经元结构和功能的计算模型，可以用于解决各种复杂问题。在数学建模中，神经网络可以作为一种有效的工具，帮助我们更好

发表于 07-02 11:29 •180次阅读

risc-v多核芯片在AI方面的应用

处理器的性能，使其在处理复杂的AI任务时具有更高的效率。同时，RISC-V允许任何人免费设计、制造和销售RISC-V芯片和软件，无需像ARM那样购买昂贵的架构许可证，这进一步降低了RISC-V多核芯片在AI

发表于 04-28 09:20

通义千问推出AI阅读助手功能

3月14日，国际数学日，2024阿里巴巴全球数学竞赛开启报名。今年赛事最大的革新在于首次向AI开放，诚邀全球AI大模型挑战竞赛难度试题，准备用一场双向奔赴来激发人类与

发表于 03-15 14:06 •453次阅读

ai_reloc_network.h引入后，ai_datatypes_format.h和formats_list.h报错的原因？

当准备使用神经网络的relocatable方式，将ai_reloc_network.h头文件加入程序编译后，ai_datatypes_format.h在cubeIDE和Keilc里分别报如下错误

发表于 03-14 06:23

新火种AI|秒杀GPT-4，狙杀GPT-5，横空出世的Claude 3振奋人心！

3的出现意味着打开了一个全新的世界，其系列模型在推理，数学，编码，多语言理解和视觉方面，都树立了全新的行业新基准。也正是因为Claude 3的出现，全球最强AI模型一夜易主，曾经被认为不可一世

发表于 03-06 22:22 •379次阅读

新火种<b class='flag-5'>AI</b>|秒杀GPT-4，狙杀GPT-5，横空出世的Claude 3振奋人心！

【国产FPGA+OMAPL138开发板体验】（原创）5.FPGA的AI加速源代码

着计算进程 start : instd_logic;-- 开始信号，当AI说“开始做题”时，我们就行动起来 A_in: inmatrix_type; -- 输入矩阵A，就像一堆待解的数学谜题 B_in

发表于 02-12 16:18

用AD835乘法器做的一个电路，当X和Y的频率相同时，输出的波形问题求解

请教大神，我用AD835乘法器做的一个电路，当X和Y的频率相同时，相乘时输出是正弦波，但是当频率不相同时输出波形就会变为这种波形，请问有人知道是什么问题？？谢谢！附件里有一张图是同

发表于 11-22 06:54

请问一下DSP数学能否在AI领域战胜GPU呢？

AI芯片初创公司Lemurian Labs发明了一种专为AI加速设计的新型对数数字格式，并正在构建一种芯片，利用它为数据中心AI工作负载服务。

发表于 10-26 10:09 •1076次阅读

请问一下DSP<b class='flag-5'>数学</b>能否在<b class='flag-5'>AI</b>领域战胜GPU呢？

MATLAB数学建模编程资料

它已经成为世界上应用最广泛的数学软件之一，尤其在工程计算领域、高校应用最广。该软件以矩阵运算为基础，将计算、可视化、程序设计融合在简单易用的交互式环境中。u3000u3000运用MATLAB可以实现

发表于 09-22 08:19

AI智能呼叫中心

随着科技的飞速发展，人工智能(AI)已经成为了各行各业的关键技术，其中，AI智能呼叫中心的出现，给传统的呼叫中心带来了巨大的改变与创新，本文将探讨AI智能呼叫中心的优势，包括自动化处理、个性化服务

发表于 09-20 17:53

人工智能的数学基石：揭秘人工智能十大数学基础

人工智能（ArtificialIntelligence，简称AI）正以惊人的速度改变着我们的生活。然而，要实现智能的机器，离不开数学的支持。本文将带你深入探索人工智能的数学基础，揭示AI

发表于 09-14 08:29 •810次阅读

傅里叶变换的数学意义

傅里叶变换的数学意义傅里叶变换是一种数学工具，它是一种将一个函数在一个频域转换为另一个函数在另一个频域中的操作。傅里叶变换起源于1807年，由法国数学家让·巴蒂斯特·约瑟夫·傅里叶提出，它是一种

发表于 09-07 16:18 •621次阅读

卡尔曼滤波的数学基础

卡尔曼滤波是一种用于估算线性动态系统状态的优化算法，其基础数学理论为贝叶斯定理，将传感器测量值和系统模型的预测值进行融合，得到对系统状态的估计。贝叶斯定理是基于条件概率的公式，用于计算给定某些证据

发表于 08-30 10:18 •606次阅读

【KV260视觉入门套件试用体验】部署vitis-ai环境以及测试demo

测试命令。也可以在setup.sh中将每个安装包，将rpm的安装命令后加入--prefix=/opt/vitia_ai，安装完可以查看具体安装了哪些库和内容。一起安装的还有一部分测试用例。同时在

发表于 08-27 23:35

在Alexa上与数学狗一起练习

电子发烧友网站提供《在Alexa上与数学狗一起练习.zip》资料免费下载

发表于 07-10 11:10 •0次下载

搜索历史

当AI与数学同时走下神坛

评论