应对AI论文造假,不妨“以AI监测AI”|新京报快评

新京报评论5 2024-05-22 18:20:19

从长期来看,人工智能仍然会是创新的朋友,而不是造假的同伙。

▲电商平台上,商家引导顾客加微信沟通论文代写细节。新京报资料图。

文 | 马尔文

论文代写,一直是学术作弊黑灰产中的隐疾。而随着人工智能时代到来,AI又成了其中得力的生产工具。

近日,据新京报卧底调查,在论文代写产业链中,黑灰产团队已经开始通过AI工具来批量编造论文,并在各大平台接单生产售卖。

报道中值得注意的细节是,有代写团队成员向暗访记者表示,因为AI代写工具的出现,使得论文代写的门槛降低,甚至出现了“职高生用AI工具帮博士生代写论文”的现象。

在AIGC(人工智能生成内容)工具出现之初,行业普遍认为人工智能将能够提升内容生产效率,但或许令人意想不到的是,AI工具暂时还没有来得及在严肃的学术研究生产中得到广泛应用,但却率先成为了黑灰产业提高产量的工具。

在社交媒体搜索可发现,最早大约两年前就已经出现了一些“AI写论文”的教程以及小广告,而到最近半年来,已经陆续有媒体报道过在高校、学术期刊中发现了“AI论文”的事件,甚至有国外媒体认为,学术论文正在遭遇一场来自“AI论文”的大规模袭击。

从技术原理上看,目前AI工具对论文作弊的主要形式有两种。第一种类似于论文代写,主要是用于一部分不需要研究数据的综述性、分析性论文,由AI基于数据库和提示词进行全量文本生成。这也是报道中所主要涉及的论文造假案例。

第二种则更为隐蔽,主要涉及到利用AI工具去编造有逻辑性的伪造数据集,从而根据伪造的数据生成符合逻辑的实验结果、测试数据等。这类数据造假对于使用者的要求更高,查处发现的难度也更高,而其对于学术及社会公共利益的损害也最大。

当前,对上述两种造假情形,我们仍然没有建立更有效的技术性防范手段。国内外不少学术期刊,最近一年内都出现过论文刊发后被发现有明显“AI痕迹”的事。

过去,我们对学术论文造假的技术性查验主要是“查重”,本质上也是基于大数据对文本进行搜索比对。

这类技术查验,其实是用技术工具对个人的“抄袭”行为进行后期查核。做个不恰当的比喻来说,技术查重是用热兵器对付冷兵器、用大数据监控个体抄袭者,因此,能够相对有效地防范论文造假泛滥现象。

但人工智能的高速发展,使得相对传统的查重技术逐渐失效。到了当下,变成了“大数据检索系统”与“大模型”之间的较量,黑灰产和论文造假者借助大模型工具,掌握了技术上的优势。

因此,对这类造假论文的发现查处,又回到了早期阶段,高度依赖论文审核者的个人判断力。例如,有高校教师此前在接受媒体采访时总结过,这类文章“共同特点是比较水”“创新性不强”。

这种个体判断力能够发挥作用,是因为大模型生成内容仍然是“数据归纳”而不是“逻辑推理”,因为,如果审核者认真阅读观察文本,仍然可以准确识别出那些疑似AI造假的文章。

但面对潜在的海量造假论文、有利益驱动的灰色产业链,个体判断力无法成为长期的有效防控手段。要对抗“AI代写”的黑灰产,需要监管者更快升级技术工具,同时,建立更加严格的行业性规范。即,一方面,用“AI来检测AI”,另一方面,要对“AI工具如何使用”建立明确的标准。

当前,国内外已经开始研发专门针对“AIGC内容”的检测工具。在部分内容平台上,已经开始对疑似“AI生成内容”进行了异常标注。

从数据检测识别的逻辑看,这类AI造假内容的特征相对更加明显,通过对文本结构、用词与语言模型等进行检测,应当可以识别察觉出AI的创作痕迹。

因此,在传统的抄袭查重系统之外,至少目前,可以尽早将针对“AI内容”的检测工具也应用到学术论文的检测流程之中,并对疑似AI造假的内容进行标注,辅助审核人员进行判断。

在技术性防范手段之外,针对AI论文造假,学术界也可以迅速行动起来,为AI工具的应用设定清晰的边界。例如,可以使用AI辅助制作插图,但不得进行任何文本、数据生成,或者,AI工具的使用必须在论文的前置研究方法章节进行仔细说明,正文也应当进行明确标注,如果没有标注而被系统检测标注,写作者应当受到一定程度的处罚。

尽管短期内部分黑灰产可以利用监管时间差非法牟利,但随着AI被应用于监测预警,以及行业共同规范的建立与调整,AI造假的漏洞终将被迅速填平。从长期来看,人工智能仍然会是创新的朋友,而不是造假的同伙。

撰稿 / 马尔文(媒体人)

编辑 / 迟道华

校对 / 王心

新京报评论,欢迎读者朋友投稿。投稿邮箱:xjbpl2009@sina.com 评论选题须是机构媒体当天报道的新闻。来稿将择优发表,有稿酬。 投稿请在邮件主题栏写明文章标题,并在文末按照我们的发稿规范,附上作者署名、身份职业、身份证号码、电话号码以及银行账户(包括户名、开户行支行名称)等信息,如用笔名,则需要备注真实姓名,以便发表后支付稿酬。
0 阅读:5