0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT-3通过了大部分课程的写作测试

深度学习自然语言处理 来源:机器之心 作者:机器之心 2021-03-05 15:30 次阅读

GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项测试,效果还行,及格水平。

2020 年 5 月,OpenAI 推出了具有 1750 亿参数的史上最大 AI 模型 GPT-3,该模型不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。自推出以来,该模型就开始在不同的领域大显身手,如基于问题的搜索引擎、与历史人物对话、基于文本描述生成代码以及绘图和图像补全等等。

但 GPT-3 的应用之路远未结束…

近日,教育资源网站 EduRef 进行了一项测试,他们找了一组教授创建了一个写作提示,然后让应届毕业生和本科生以及 GPT-3 同时根据该提示写作,最后教授组对匿名提交的作文打分,并对作者进行追踪调查。那么,究竟结果如何呢?GPT-3 的分数能够超过人类作者吗?未必!

GPT-3 通过了大部分课程的写作测试

常言道:「评级为 C 就可以毕业(C’s get degrees)」。AI 远远达不到完美,GPT-3 的写作水平大概相当于自由写作者(freelance writer)。

结果显示,在 COVID-19 疫苗效力的研究方法论文写作上,人类作者可以得到 B 或者 D,而 GPT-3 往往只能得到 C。在美国历史类的测试中,人类作者可以在美国例外主义论文中得到 B 或者 C+,而 GPT-3 只能得到 B-。最后,在法学课上的政策函写作中,GPT-3 得到了 B-,而 3 个学生中只有 1 个能够得到高分。

下图为人类作者与 GPT-3 在不同学科写作中的得分情况:

由此可见,GPT-3 的写作技能主要体现在技术类文档中。在创意写作课程中的地点记叙文(place narrative)写作中,GPT-3 仅得到了 F,没有通过测试。作为对比,自由写作者得到了 A、B + 和 D+。尽管在创意写作教授的眼中,GPT-3 失败了,但自然语言生成(NLG)软件依然可以用于编写各类内容,包括一部几乎获奖的小说《The Day a Computer Writes a Novel》。先前的成功也预示着以后的失败,GPT-3 或许只需要一些调整即可以成为一名合格的创意作家。总的来说,AI 几乎通过了所有的课程写作测试。

GPT-3 20 分钟完成论文

虽然每个教授打分都不一样,但该评分小组包括两名博士和一名医学硕士。他们总共有超过 55 年的高中和各种大学水平的教学经验。写作者包括应届毕业生和本科生,其中一些人在他们的研究领域写了提示。平均来说,他们需要 3 天时间完成任务。

对于绝大多数学生来说,3 天内完成大学论文似乎是很难的事情,主要原因在于时间太短,但是 GPT-3 在 20 分钟内就完成了这个任务。GPT-3 利用深度学习产生类似人类的文本,每项任务花费 3 到 20 分钟完成,并且用最长的时间来编写创造性的写作叙述。为了避免人为干扰,GPT-3 只对输出长度和重复文本进行了轻微的编辑,其生成的内容、真实信息和语法都没有受到影响。

GPT-3 生成的美国历史类作文示例如下:

GPT-3 可生成类似人类写作的内容

即使没有人为干扰,GPT-3 的任务也或多或少地收到了与人类作者相同的反馈。49.2% 的评论涉及语法和句法,26.2% 的评论涉及重点和细节,语气与行文结构等也被提及,但分别只有 12.3% 和 10.8%。这与人类作家收到的评论比例几乎相同,近 50% 的评论与语法和句法有关,25.4% 的评论与焦点和细节有关。超过 13% 的评论是关于人类专业知识,而 10.4% 的评论是关于整体风格等。

人类作者与 GPT-3 的写作结果收到的评论反馈情况:

尽管收到了同样风格的评论,GPT-3 生成的内容与人类作者并不那么相似。以排名靠前的两个单词组合为例,GPT-3 和人类作者只分享了排名靠前的组合:「of the」。「People who」、「it is」和「those who」常被 GPT-3 使用,而人类作者经常使用的是「to the」、「in the」和「on the」。总体来说,这些单词是在英语中经常使用的,组合上的差异显示出 AI 和人类在写作结构上的一些差异。

人类作者与 GPT-3 在写作用词上的差异分析:

考虑到 GPT-3 超高的论文得分,搭配统计数据的差异表明,人类作者比 AI 产生的独特内容明显更多。

尽管 GPT-3 具有出色的产出,但其生成的论文在短期内还无法独立获得大学学位。当与人类作者竞争时,GPT-3 获得了一些及格分数,但在创意写作方面有所欠缺。尽管它在众多领域的成功为 AI 的未来带来了希望,但对大学教授来说,AI 依然存在不足。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30172

    浏览量

    268430
  • 模型
    +关注

    关注

    1

    文章

    3174

    浏览量

    48718

原文标题:【GPT-3】除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    法官驳回大部分 GitHub Copilot 版权索赔要求

    在开发者对 GitHub、微软和 OpenAI 提起的版权诉讼中,法官驳回了大部分诉讼请求。
    的头像 发表于 11-13 12:13 96次阅读

    AGM32VF407的大部分IO可以随意配置,这是这么做到的?

    AGM32VF407的大部分IO可以随意配置,除了少数的专用引脚外,这是这么做到的?这里包括异构的RISC-V内核的外设哦。非常感兴趣呢。
    发表于 10-31 19:07

    英伟达预测机器人领域或迎“GPT-3时刻”

    未来2-3年内,机器人基础模型的研究将迎来重大突破,这一时刻被形象地比喻为机器人领域的“GPT-3时刻”。
    的头像 发表于 09-20 17:05 757次阅读

    Jim Fan展望:机器人领域即将迎来GPT-3式突破

    英伟达科学家9月19日,科技媒体The Decoder发布了一则引人关注的报道,英伟达高级科学家Jim Fan在近期预测,机器人技术将在未来两到三年内迎来类似GPT-3在语言处理领域的革命性突破,他称之为机器人领域的“GPT-3时刻”。
    的头像 发表于 09-19 15:13 533次阅读

    THS7001前级放大部分可以正常工作,后级PGA部分如何连接?

    我THS7001前级放大部分可以正常工作,但后级PGA部分不知道如何连接,那个CLAMP (H,L)不知道是什么意思,该如何连接? 我现在的连接方法原本是想按G2 G1 G0= 110 指令放大的。结果PGA输出为0,求解!!谢谢!!!
    发表于 09-19 06:20

    使用 GPT4V+AI Agent 做自动 UI 测试的探索

    的工具,但是这些工具的投入产出比一直被质疑,自动化率越多维护成本越高,大部分都做着就放弃了,还有一部分在做与不做间纠结。 本文结合一些开源的项目探索使用GPT 自动做 UI 测试的可能
    的头像 发表于 06-20 15:42 397次阅读
    使用 <b class='flag-5'>GPT</b>4V+AI Agent 做自动 UI <b class='flag-5'>测试</b>的探索

    微软将在法国投资40亿欧元,大部分集中在AI领域

    微软总裁布拉德·史密斯近日宣布了公司的重大投资计划。微软将在法国投资高达40亿欧元,其中绝大部分资金将注入人工智能领域的发展。作为投资的一部分,微软计划在法国东北部的米卢斯市建设一座数据中心,以加强其在该地区的技术布局。
    的头像 发表于 05-14 09:24 316次阅读

    模拟电路仿真软件包含大部分芯片吗

    领域扮演着非常重要的角色。 从功能上来讲,模拟电路仿真软件应该包含大部分芯片,也就是能够仿真电路中常用的芯片。这些芯片包括微处理器、运算放大器、模数转换器、数模转换器、时钟电路、存储器、可编程逻辑器件等等。
    的头像 发表于 04-21 10:54 1116次阅读

    小松电动化工程机械系列7种机型全部通过了GX首次认证

    日本国土交通省于2023年10月新设立了GX (Green Transformation,绿色转型) 工程机械认证制度,小松的电动化工程机械系列的7种机型全部通过了该制度的首次认证。
    的头像 发表于 03-29 11:38 794次阅读

    能用stm32h7为主做绝大部分的功能实现,用stm32f1为辅实现一个小功能吗?

    请问能用stm32h7为主做绝大部分的功能实现,用stm32f1为辅实现一个小功能吗?
    发表于 03-20 07:09

    瞻芯电子开发的3款第二代650V SiC MOSFET通过了车规级可靠性认证

    3月8日,瞻芯电子开发的3款第二代650V SiC MOSFET产品通过了严格的车规级可靠性认证(AEC-Q101 Qualified)。
    的头像 发表于 03-11 09:24 738次阅读
    瞻芯电子开发的<b class='flag-5'>3</b>款第二代650V SiC MOSFET<b class='flag-5'>通过了</b>车规级可靠性认证

    OpenAI推出ChatGPT新功能:朗读,支持37种语言,兼容GPT-4和GPT-3

    据悉,“朗读”功能支持37种语言,且能够自主识别文本类型并对应相应的发音。值得关注的是,该功能对GPT-4以及GPT-3.5版本的ChatGPT均适用。此举彰显了OpenAI致力于“多模态交互”(multimodal capabilities)的方向
    的头像 发表于 03-05 15:48 855次阅读

    plc的软件包含哪两大部分

    PLC(可编程逻辑控制器)的软件结构通常由两大部分构成:系统程序和用户程序。这两部分共同确保了PLC能够根据工业自动化的需求进行有效控制和管理。 系统程序 系统程序是PLC软件的核心部分,它负责管理
    的头像 发表于 01-24 17:45 2023次阅读

    什么原因可能导致ad7656bstz大部分时间采样都正确,偶尔有一两次采样不对的情况?

    什么原因可能导致ad7656bstz大部分时间采样都正确,偶尔有一两次采样不对的情况?
    发表于 12-14 06:09

    LLM真的能推理和规划吗?

    在研究人员选择的模型中,GPT-3 davinci(非指令微调)、GPT-3 textdavinci-001(指令微调)和GPT-3 textdavinci-003(InstructGPT)都是以前观察到过涌现能力的模型。这一选
    发表于 11-30 09:45 632次阅读
    LLM真的能推理和规划吗?