哥本哈根大学开发反“枪手”AI 识别作业代写准确率接近90%-电子发烧友网

近日，哥本哈根大学的研究人员的最新研究称，刚刚开发出一款“反枪手代写”的AI系统。这款系统意图通过智能写作分析技术，来检测论文作弊。可以根据你的写作习惯，确定论文究竟是你自己写的作业还是由他人代写。根据对13万份书面作业的分析，科学家们可以以近90%的准确率检测出学生究竟是自己写的作业，还是由代笔撰写。基本上可以达到“代写”作业一抓一个准的结果了。

高中代写成风，哥本哈根大学的神操作。这套针对学生论文作弊行为的研究，已经在哥本哈根大学计算机科学系（DIKU）进行了几年了，最初，这款研究是针对丹麦的高中生进行的。在丹麦，高中目前主要使用的作业查重平台叫做Lectio，可以用来检查学生的作业中是否有段落是直接复制先前提交的作业的。然而，随着各类线上服务平台的盛行，在丹麦高中生中，找人代写作业变得越发容易。面对这种情况，学校一直缺乏有效的检测手段。

学习轨迹项目或“SRP”（丹麦语的“Studie Retnings Projekt”）是丹麦高中毕业生的必修跨学科课程，也是一项非常重要的书面作业。在这个项目中的作弊现象尤其引人注目。由于SRP对于毕业十分重要，很多学生们在丹麦竞拍网站Den Bla Avis上发布他们的写作任务来找人代写。和中国的老师和大多数查重系统一样，Lectio只能查重，没法判断一份作业是否是找人代写的。哥本哈根大学的一些院系一直和很多高中有着SRP项目的合作，深受代写作弊行为之害，一直在探究解决之道。这所大学的计算机科学系DABAI项目组决定教教这些偷懒的高中生们“做人”。

DABAI（丹麦大数据分析驱动创新中心）是一个成立于2016年的丹麦国家研究中心。除了研究机器学习的高效算法，这个研究小组本来就对学生教育特别关注。之前，他们曾研究了“优化学生的个性化学习”、“提高教师洞察力”等教育项目。

名叫“枪手”的反枪手神器

这个防作弊程序被叫做Ghostwriter（枪手），它本质上属于一种基于机器学习和神经网络技术的一款文本分析程序。

项目组成员Stephan Lorenzen博士称，这款程序可以比较该学生最近提交和以前提交的文章来识别写作风格的差异。

“程序会关注单词长度、句子结构以及单词的使用方式等诸多特征。例如，它会察觉‘for example’被写成了‘ex’，还是‘e.g.,’。”

其数据集来自为丹麦高中提供Lectio平台的MaCom公司，该公司覆盖了丹麦90%以上的高中，他们为GhostWriter项目的研究人员提供了13万份不同高中学生书面作业。

这个研究组认为，这款产品非常具有实际效用，很多学校对于找出“论文究竟是谁写的”这个问题有着越来越高的技术需求。

但Stephan Lorenzen博士也认为，“在此之前，还需要认真讨论一下应用这项技术所面临的伦理问题。我们不能把这个程序得到的结论作为判别是否作弊的唯一标准，更应该把它看作一份辅助性的证据。”

Ghostwriter是怎么工作的？

Ghostwriter程序使用Siamese 神经网络来区分不同文本的写作风格：通过大量数据的训练，学习不同写作风格的外在表现（representation），然后进行比对。

这个项目分两步来解决作者身份验证问题。首先是解决了计算两个文本之间写作风格相似性的问题，主要通过使用Siamese网络学习相似度函数s：T×T→[0,1]。其次是再解决作者A的验证问题，通过比对未知作者文本X和已知是作者A的文本T之间的相似性。

在网络方面，他们考虑使用不同的输入通道考虑几种不同的体系结构（例如，char，word，POS-tags），最终确定了一种表现最佳的网络架构：