例如,自从OpenAI的聊天机器人ChatGPT于11月推出以来,学生们就开始用它来帮他们写论文。CNET新闻网站使用ChatGPT写文章,只是为了发布更正之间的指控抄袭。在这些系统发布之前将水印构建到这些系统中可以帮助解决这类问题。

在研究中,这些水印已被用于几乎确定地识别人工智能生成的文本。例如,马里兰大学的研究人员能够使用他们构建的检测算法检测由meta的开源语言模型OPT-6.7B生成的文本。这份工作的描述在一篇尚未经过同行评审的论文中,代码将在2月15日左右免费提供。

人工智能语言模型的工作原理是逐个预测和生成单词。在每个单词之后,水印算法将语言模型的词汇随机分为“绿表”和“红表”中的单词,然后提示模型从绿表中选择单词。

一段文字中绿色名单上的单词越多,这段文字就越有可能是机器生成的。一个人写的文章往往包含更多随机的混合词。例如,对于单词“beautiful”,水印算法可以将单词“flower”归类为绿色,将单词“orchid”归类为红色。参与这项研究的马里兰大学助理教授汤姆·戈尔茨坦(Tom Goldstein)解释说:一个带有水印算法的人工智能模型更有可能使用“花”这个词,而不是“兰花”。