(资料图片)
编程客栈() 7月11日 消息:根据《Patterns》杂志周一发表的一项研究,超过一半的时间里,AI检测器错误地将非英语母语者的写作判断为机器生成。这种错误分类可能对求职者、学生和其他经常根据写作能力评估的人造成困扰,也可能使教师、教授和招聘经理难以判断作品的真实性。
多家公司已开始开发AI检测软件,旨在区分人类写作和机器生成的内容,但大多数工具的效果不佳,而且使用场景有限。
研究人员使用七个广泛使用的GPT检测器对91篇非英语母语者的TOEFL(外语口语能力测试)文章进行评编程估。虽然这些检测器能够正确将超过90%的八年级学生的文章判断为人类写作,但在对非英语母语者的TOEFLbmNbL文章进行分类时,检测器的表现就不尽如人意了。
在所有七个GPT检测器中,非英语母语者的TOEFL文章的平均误检率为61.3%。其中一款检测器将近98%的jsTOEFL文章错误地判断为机器生成。所有检测器一致地将约20%的TOEFL文章判断为机器生成,尽管它们实际上是人类写编程的。
大多数AI检测器通过衡量文本的“困惑度”来运作。困惑度是文本中一个词在给定上下文中的预测难度的度量。由于非英语母语者在某种语言中的写作通常具有相对有限的词汇和可预测的语法范围,这可能导致更容易预测的句子和段落。研究人员发现,通过减少TOEFL样本文章中的词重复,可以显著减少AI检测软件中的误判。相反,简化八年级学生文章中的语言会导致更多文章被错误地判断为机器生成。
这项研究指出,AI检测工具经常将非英语母语者的写作错误地判断为机器生成,可能对他们在求职市场、学术环境和互联网上的存在产生重大影响。当前的AI检测工具还需要显著改进,因此在评估或教育环境中不建议使用,特别是在评估非英语母语者的作品时。然而,由于AI检测通常依赖于相似的AI模型,很难想象它们如何真正学会超越自己。这个问题的解决需要更进一步的研究和技术创新。