0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT4做Leetcode的能力

jf_pmFSk4VX 来源:GiantPandaCV 2023-04-28 15:27 次阅读

虽然一次周赛的几个题目说明不了太多问题,比如这个周赛的Hard题目就是板子题,算不上Hard,也许把第三题和第四题的顺序换一下比较合适。但是,GPT4的表现已经严重超出了我的预期。对于这次周赛的四个题目,GPT4的表现如下:题目1: 错了一次,简单提示后修正了错误,2A了。题目2: 1A。题目3: 无法通过提示的方法让GPT4做对,WA。题目4: 1A。不得不说,GPT4在模拟,模板题方面已经具备了不错的理解和处理能力,感觉在更强大的数据和更大模型的加持下以后大语言模型的做题能力能赶上一大半人类。| 从提升算法能力的角度来说,我不建议任何读者使用GPT4来做Leetcode。

0x0. 前言

GPT4论文(https://cdn.openai.com/papers/gpt-4.pdf)的第4节展示了GPT4的各种能力,在表格的最后三行展示了GPT4做Leetcode的能力,我比较感兴趣,所以本文打算来探索一下这种能力。看一下GPT4配合一个只发出prompt的人的表现如何。

4c3d0b6c-e593-11ed-ab56-dac502259ad0.png

为了公平起见,我这里选取了LeetCode第 102 场双周赛(https://leetcode.cn/contest/biweekly-contest-102/)也就是2023年4月15日的这一场。我打算用GPT4来尝试解开这场周赛的4道题目,但是不一定能都解开,只是测试一下GPT4的写算法的能力。

我将全程只指挥GPT4写代码来解题,我自己不做任何的Coding工作。

先建立一个GPT4的新对话:

4c4b8c64-e593-11ed-ab56-dac502259ad0.png

在这里插入图片描述

0x1. 第一题

第一题是个Easy的题目,描述如下:

4c5276fa-e593-11ed-ab56-dac502259ad0.png

接下来,我们先把题面输入到GPT4。

4c5c017a-e593-11ed-ab56-dac502259ad0.png

4c653dd0-e593-11ed-ab56-dac502259ad0.png

4c6da7ae-e593-11ed-ab56-dac502259ad0.png



GPT4给了我们一个回复,感觉挺对的,但是这种格式不能让Leetcode直接通过,我们再让GPT4更新一下格式:

4c79d510-e593-11ed-ab56-dac502259ad0.png

4c82a1fe-e593-11ed-ab56-dac502259ad0.png

接下来就是紧张的时刻,我们把这个类的代码提交给Leetcode。

4c89800a-e593-11ed-ab56-dac502259ad0.png

结果错误,Leetcode返回了错误的例子。我们把这个错误的例子再返回给GPT4让它自己debug。

4c93b7d2-e593-11ed-ab56-dac502259ad0.png

我们把它修正后的代码提交给Leetcode。

4c9e6628-e593-11ed-ab56-dac502259ad0.png

现在GPT4顺利通过了第一道题目。

0x2. 第二题

4ca9fae2-e593-11ed-ab56-dac502259ad0.png

在这里插入图片描述

我们问一下GPT4

4cb18d0c-e593-11ed-ab56-dac502259ad0.png

4cbfb45e-e593-11ed-ab56-dac502259ad0.png

4cccf588-e593-11ed-ab56-dac502259ad0.png

我们提交给Leetcode试试。

4cd3e7c6-e593-11ed-ab56-dac502259ad0.png

直接通过,GPT4真有点强。

0x3. 第三题

4cde24a2-e593-11ed-ab56-dac502259ad0.png

问问GPT4:

4ce8c628-e593-11ed-ab56-dac502259ad0.png

4cefd8a0-e593-11ed-ab56-dac502259ad0.png

4cf592d6-e593-11ed-ab56-dac502259ad0.png

4cfd17d6-e593-11ed-ab56-dac502259ad0.png

这个问题感觉还是比较麻烦的,GPT4给出的方案感觉一眼假,不过我们不妨运行一下它给的代码。

4d05a6d0-e593-11ed-ab56-dac502259ad0.png

我们发现编译就报错了。我们返回这个结果给GPT4:

4d0c43e6-e593-11ed-ab56-dac502259ad0.png

4d154662-e593-11ed-ab56-dac502259ad0.png

现在确实可以编译了,但我们发现这个程序连样例都无法通过。显然,GPT4根本没有理解这道题目的意思,结果倾向于是“胡说八道”。再加强一些提示:

4d1fe52c-e593-11ed-ab56-dac502259ad0.png

4d28223c-e593-11ed-ab56-dac502259ad0.png

4d33024c-e593-11ed-ab56-dac502259ad0.png

最后GPT4输出的代码仍然无法通过样例。这道题,GPT4应该是无能为力了。

从这道题目,我们可以看到GPT4的局限性,那就是对于这种思维性的题目,GPT4很难理解这道题目暗含的意思,设计的算法也是错误的。

题解可以参考:https://leetcode.cn/problems/cousins-in-binary-tree-ii/solution/bfssuan-liang-ci-pythonjavacgo-by-endles-b72a/

0x4. 第4题

接下来我们看一下第4题,这个题是比较模板的题,我们看一下GPT4能否解开。

4d3dcc9a-e593-11ed-ab56-dac502259ad0.png

4d4be8ac-e593-11ed-ab56-dac502259ad0.png

4d5668cc-e593-11ed-ab56-dac502259ad0.png

4d624a02-e593-11ed-ab56-dac502259ad0.png

在这里插入图片描述

我们来看一下GPT4给出的答案能否通过样例。

4d6cab00-e593-11ed-ab56-dac502259ad0.png

是可以通过给出的样例的。我们提交试试。

4d77415a-e593-11ed-ab56-dac502259ad0.png

这道题GPT4的完整代码实现如下:

classGraph{
public:
Graph(intn,vector<vector<int>>&edges){
this->n=n;
for(constauto&edge:edges){
adjList[edge[0]].push_back({edge[1],edge[2]});
}
}

voidaddEdge(vector<int>edge){
adjList[edge[0]].push_back({edge[1],edge[2]});
}

intshortestPath(intnode1,intnode2){
vector<int>dist(n,INT_MAX);
dist[node1]=0;

priority_queueint,int>,vectorint,int>>,greaterint,int>>>pq;
pq.push({0,node1});

while(!pq.empty()){
intcurrNode=pq.top().second;
intcurrDist=pq.top().first;
pq.pop();

if(currNode==node2)returncurrDist;

if(currDist>dist[currNode])continue;

for(constauto&neighbor:adjList[currNode]){
intnextNode=neighbor.first;
intedgeCost=neighbor.second;

if(currDist+edgeCost< dist[nextNode]) {
                    dist[nextNode] = currDist + edgeCost;
                    pq.push({dist[nextNode], nextNode});
                }
            }
        }
        return-1;
}

private:
intn;
unordered_map<int,vectorint,int>>>adjList;
};

虽然这道题很难说是Hrad的难度,但1A真的太吓人了。。。

0x5. 总结+预测

虽然一次周赛的几个题目说明不了太多问题,比如这个周赛的Hard题目就是板子题,算不上Hard,也许把第三题和第四题的顺序换一下比较合适。但是,GPT4的表现已经严重超出了我的预期。

对于这次周赛的四个题目,GPT4的表现如下:

题目1: 错了一次,简单提示后修正了错误,2A了。题目2: 1A题目3: 无法通过提示的方法让GPT4做对,WA。题目4: 1A。

不得不说,GPT4在模拟,模板题方面已经具备了不错的理解和处理能力,感觉在更强大的数据和更大模型的加持下以后大语言模型的做题能力能赶上一大半人类。| 从提升算法能力的角度来说,我不建议任何读者使用GPT4来做Leetcode。

审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4608

    浏览量

    92845
  • 代码
    +关注

    关注

    30

    文章

    4780

    浏览量

    68539
  • GPT
    GPT
    +关注

    关注

    0

    文章

    354

    浏览量

    15347

原文标题:0x5. 总结+预测

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    GPT4再升级,更强大更便宜!不懂代码也能生成应用,享受分成

    GPT-4 Turbo以及ChatGPT的一系列升级内容。   OpenAI自去年底推出ChatGPT之后享誉全球,近一年来不断推进技术和应用创新。该公司强调,其今年3月发布的GPT-4至今仍是世界上能力
    的头像 发表于 11-14 00:23 1947次阅读

    OpenAI全新GPT-4o能力炸场!速度快/成本低,能读懂人类情绪

    ”的意思。GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍,但成本仅为GPT-4
    的头像 发表于 05-15 00:15 7817次阅读

    浅谈ChatGPT的最新“升级版本”——GPT4模型

    浏览OpenAI发布的演示视频发现,GPT4的语言理解和生成能力均超过了ChatGPT,可以解答ChatGPT无法
    的头像 发表于 03-22 22:26 3086次阅读

    GPT4搞电机?

    GPT4可以搞电机吗?
    的头像 发表于 04-06 10:08 1414次阅读
    用<b class='flag-5'>GPT4</b>搞电机?

    微软GPT-4搜索引擎重大升级 新Bing开放AI能力

    微软GPT-4搜索引擎重大升级 新Bing开放AI能力 微软和OpenAI合作将人工智能技术应用于必应搜索带来了更多不一样的搜索体验。 此前Open AI发布了新一代大型人工智能语言训练模型
    的头像 发表于 05-05 17:15 2595次阅读

    如何利用LLM多模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口并且不会透露任何模型上技术细节
    的头像 发表于 05-11 17:09 904次阅读
    如何利用LLM<b class='flag-5'>做</b>多模态任务?

    GPT-4创造力竟全面碾压人类!最新创造力测试GPT4排名前1%

    来源:新智元最近,一项有关GPT-4的创造力思维测试火了。来自蒙大拿大学和UMWestern大学的研究团队发现,GPT-4在Torrance创造性思维测试(TTCT)中的得分直接排在了前1%。不管是
    的头像 发表于 06-26 10:06 552次阅读
    <b class='flag-5'>GPT-4</b>创造力竟全面碾压人类!最新创造力测试<b class='flag-5'>GPT4</b>排名前1%

    你考虑用GPT4搞电机吗?

    最近的GPT4有多火这里不需要赘述了。微软,苹果,baidu等各巨头纷纷跟进。这个赛道最近是各种资本涌入,犹如PC互联网转型到移动互联网时的爆发。
    发表于 07-05 09:16 344次阅读
    你考虑用<b class='flag-5'>GPT4</b>搞电机吗?

    gpt-4怎么用 英特尔Gaudi2加速卡GPT-4详细参数

    介绍GPT-4 详细参数及英特尔发布 Gaudi2 加速器相关内容,对大模型及 GPU 生态进行探讨和展望。英特尔发布高性价比Gaudi2加速卡GPT4详细参数分析。
    发表于 07-21 10:50 867次阅读
    <b class='flag-5'>gpt-4</b>怎么用 英特尔Gaudi2加速卡<b class='flag-5'>GPT-4</b>详细参数

    chatGPT和GPT4有什么区别

    chatGPT和GPT4有什么区别 GPT(Generative Pre-trained Transformer)系列模型由OpenAI公司开发,是一组用于自然语言处理(NLP)任务的人工智能模型
    的头像 发表于 08-09 15:18 3094次阅读

    GPT-4没有推理能力吗?

    今年三月,OpenAI 重磅发布了 GPT-4 大模型,带来了比 ChatGPT 背后 GPT-3.5 更强的推理、计算、逻辑能力,也引发了全民使用的热潮。在各行各领域研究人员、开发者、设计师的使用过程中,「
    的头像 发表于 08-11 14:20 891次阅读
    <b class='flag-5'>GPT-4</b>没有推理<b class='flag-5'>能力</b>吗?

    ChatGPT Plus怎么支付 GPT4得订阅吗?

    自去年年底 OpenAI 转型发布 ChatGPT 以来,生成式 AI 成为许多硅谷投资者关注的焦点。该聊天机器人使用从互联网和其他地方抓取的大量数据来对人类提示产生预测响应。GPT-4 的许多方面
    的头像 发表于 10-10 12:16 1778次阅读
    ChatGPT Plus怎么支付 <b class='flag-5'>GPT4</b>得订阅吗?

    股价久违飙涨,商汤要用自己的Scaling law挑战GPT4

    前一天的“2024年商汤技术交流日”上,商汤发布了对标GPT4-Turbo的大模型日日新大模型SenseNova5.0,追赶GPT4可能是当下中国大模型行业的集体目
    的头像 发表于 05-08 08:05 276次阅读
    股价久违飙涨,商汤要用自己的Scaling law挑战<b class='flag-5'>GPT4</b>

    开发者如何调用OpenAI的GPT-4o API以及价格详情指南

    ,高达每分钟1000万字符。 速度 :GPT-4o的速度是GPT-4 Turbo的两倍。 视觉能力 :在视觉能力相关的评估中,GPT-4o表
    的头像 发表于 05-29 16:00 1.1w次阅读
    开发者如何调用OpenAI的<b class='flag-5'>GPT-4</b>o API以及价格详情指南

    科大讯飞发布讯飞星火4.0 Turbo:七大能力GPT-4 Turbo

    超过GPT-4 Turbo,数学能力和代码能力更是超过了Open AI最新一代GPT模型GPT-4o。此外,其效率相对提升50%。
    的头像 发表于 10-24 11:39 436次阅读