央广网北京7月15日消息(总台中国之声记者任梦岩)据中央广播电视总台中国之声《新闻纵横》报道,论文“AI味”渐浓,是高校共同面对的新难题。今年的高校毕业生在毕业论文阶段,除了传统的查重、盲审、答辩,毕业路上又多了一道关卡——AIGC检测,也就是人工智能生成内容检测。
不少高校引入了AI模型来“查文章AI生成内容占比”,而一些平台又推出了“降低现有文章AI生成内容占比”的大模型,但一些师生在使用过程中发现,这些所谓“降低AI率”的大模型表现实在一般,有时候越用大模型检测“AI率”越高。让AI查AI,靠谱吗?毕业论文检测,怎样更科学?
湖北的张同学在黑猫投诉上反映,自己用了一款“降AI率”软件后,不仅论文重复率上升了,AI率也没降下来。
“原本论文的查重率只有百分之三点几,但AI率就比较高了,有百分之四十多。我先是用了他们软件的AI降重,然后把AI降重之后的文章再拿去查重,结果AI率涨到了百分之五十,连查重率也涨到百分之四十多。就是说可能修改到最后,把你的论文结构,甚至有些内容表达的意思都改了。”张同学说。
云南的赵同学也认为,使用此类软件效果并不好,他的论文AI率被判定不符合要求,修改之后的表达也非常差。“充了几次钱,结果没想到AI率越来越高,至少花了四五十元,还是要自己再改,因为太口语化了。”
吉林的韩同学通过第三方平台检测自己的论文,发现AI率和重复率都很高,花钱使用软件进行所谓“降重复率、降AI率”后,得到报告称重复率和AI率已经降低,但论文提交后,直接被导师退回。
韩同学表示:“论文写完之后,我查AI率、查重率都很高,就想着用AI改一下,就在那个软件上花了128元,希望降重复率和降AI率,两个都降,之后就会出来一个报告,那个报告显示(重复率和AI率)只有百分之十几。结果我交上去之后,导师返给我说完全不合格。”
河南李同学的遭遇更为蹊跷。她的学校要求使用某“AI率检测平台”进行论文检测,第一次检测合格,第二次检测,却被告知“AI生成内容占比过高”。
李同学说:“我第一次检测的时候,它显示是一个低风险,AI率百分之十五点多,这是在论文答辩之前提交的。结果到答辩要提交终稿的那一天,内容完全没有变,可能格式稍微变了一点,相同的论文内容拿去检测,AI率变成百分之二十八了,这个是有点离谱的。”
在用完3次免费检测机会后,李同学的论文在该平台的检测结果,AI率还是超过了百分之二十,可通过其他检测平台检测,她的论文又是合格的。后来,她通宵改稿、又花钱在学校要求的检测平台上反复测试,才让自己的论文AI率降了下来。
“它每个平台都不一样,因为我在其他平台查的也是低风险,但是在这个平台查的就是高风险。第二天要封档案了,晚上8点的时候才去查,所以我特别着急,只能自己去改论文,并且又花了三次的钱去检测,大概155元。最终重新改到凌晨4点,最后才合格了。”李同学回忆道。
甚至一位老师也反映,查AI率平台给出的结果和所谓“降AI率”的软件都不太靠谱。“我在写论文的时候确实借助了AI,因为人家有一些句子确实比我写得好,我就进行了部分运用,第一遍查重检测出来的结果是百分之三十左右,投稿要求百分之二十以下才可以,我就修改降AI。大概费时一个小时,之后又进行了第二次检测,第二次查出来AI达到了百分之三十八,我就继续改,很认真地把那些内容又进行了梳理,然后融入了非常多新的内容,检测出来的结果是百分之四十五。此时此刻我分不清,到底文章是AI写的还是我写的。最后我把文章相当于全部重新写了一遍,所有的内容都更新了一遍,又融入了非常多的新思路,然后去查,终于降了,但依然是百分之三十四。明明是自己写的文章,每一个字都是我自己写的,它把我们所有人的文章吸收了,然后输出深度思考之后再发给我们,到底是我抄了它?还是它抄了我?”
那么,大模型到底是如何检测一篇文章中有多少内容是AI生成的呢?记者将这一问题抛给了多个大模型,总结相关的回答,简单来说就是通过“困惑度与突发性”等指征来判断,AI文本通常更“平滑”,人类文本波动更大。
大模型回答,困惑度指的是文本的“可预测性”,越充满人类特有的、意外的、跳出常规的表达,越像人类。突发性,就是文本节奏波动——人类写作如心电图般起伏,AI输出则如直线般平稳。如此判断,准确吗?工业和信息化部信息通信经济专家委员会委员刘兴亮告诉记者,除了困惑度、突发性等指标外,目前检测AI生成内容的方式还有很多,但准确性都做不到百分之百,误判也时有发生。
刘兴亮说:“文本生成的原理是什么?通过预测,可以理解为出现了一个张三,它预测下一个可能要说李四,通过预测下一个最有可能出现这种词的概率来逐渐生成文本,可以理解为它是一种概率统计出来的。现在还有一些更高级的检测指标,检查重复片段和常见的结构,看是否过于模板化,比如,常用词模式,标点的使用,句子的复杂度,是不是太过于规矩等。但不管是这种常规检测还是高级检测,我觉得目前都存在一些局限性,因为可以理解为它基本上还是靠一些统计特征,无法做到这种绝对的准确,而且误判的风险也比较高。”
刘兴亮告诉记者,目前大模型判断文章是否由AI生成的准确度都不高,再请AI降低所谓“AI率”则更不靠谱。
同济大学教育评估研究中心主任樊秀娣认为,AI大模型搜索内容可以作为参考,但一字不改地用就涉嫌学术不端。
樊秀娣表示:“如果你用AI大段地生成,其实从本质上来讲,这就是抄袭。学术诚信的角度来讲,它本身就是不被允许的,其实现在国内外很多高校都有明确的规定。”
樊秀娣告诉记者,使用AI来检查文章的“AI生成内容占比”结果,是否能立得住值得讨论,其实很多论文是否为AI生成,熟悉学生的老师肯定能看出来,答辩过程中,也能得到检验。
“有一点是可以肯定的,就是如果你靠AI来写论文的话,本质上是写不好的,因为老师对学生的指导更密切一点,师生经常互动的话,学生也就失去了用AI来写论文应付的必要性了。还有最重要的一点,就是在做毕业论文答辩的时候,其实要‘答’和‘辩’,评审老师就学生的某个学术问题提出问题,学生来回答。如果论文真的完全由AI生成,学生根本就不了解,那就无法完成答辩。”樊秀娣表示。