想要关于选举的准确信息?专家警告说,不要去问人工智能聊天机器人——即使它看起来对自己的答案很有信心,并引用了看似可信的消息来源。

两家欧洲非营利组织的一项新研究发现,在德国和瑞士最近的两次选举周期中,微软的必应人工智能聊天机器人(最近更名为微软副驾驶)在关于候选人、民意调查、丑闻和投票的三个基本问题中,有一个回答不准确。在很多情况下,聊天机器人错误地引用了它的消息来源。

这些问题并不局限于欧洲,类似的问题也引发了有关2024年美国大选的不准确回答。

非营利组织AI Forensics和AlgorithmWatch在周五发布之前与《华盛顿邮报》分享了这一发现,并没有声称必应的错误信息影响了选举结果。但它们加剧了人们的担忧,即随着微软(Microsoft)和其他科技巨头竞相将人工智能聊天机器人整合到包括互联网搜索在内的日常产品中,当今的人工智能聊天机器人可能会加剧围绕未来选举的混乱和错误信息。

研究人员总结道:“随着生成式人工智能变得越来越普遍,这可能会影响民主的基石之一:获得可靠和透明的公共信息。”

随着OpenAI的ChatGPT、微软的必应(Bing)和谷歌的巴德(Bard)等人工智能聊天机器人越来越受欢迎,它们散布虚假信息的倾向已得到充分证明。为了使这些工具更加可靠,这三家公司都为这些工具增加了搜索网络的功能,并为它们提供的信息引用来源。

但这并没有阻止他们编造故事。AI Forensics的研究主管萨尔瓦托?罗马诺(Salvatore Romano)表示,必应给出的答案经常偏离它引用的链接中的信息。

罗马诺说,研究人员之所以关注必应(现在的Copilot),是因为它是最早提供信息源的搜索引擎之一,而且微软已经积极地将必应整合到欧洲广泛使用的服务中,包括必应搜索、微软Word,甚至微软的Windows操作系统。但这并不意味着他们发现的问题仅限于必应,他补充道。例如,在OpenAI的GPT-4上对同样的提示进行初步测试,发现了同样的不准确性。(他们没有测试谷歌的Bard,因为当他们开始研究时,它还没有在欧洲推出。)

值得注意的是,研究人员发现,当用英语以外的语言提问时,必应的答案最不准确,这引起了人们的担忧,即美国公司开发的人工智能工具在国外的表现可能更差。

用德语提出的问题在回答中至少有一个事实错误的几率为37%,而用英语提出的同样问题的错误率为20%。用法语提出的有关瑞士大选的问题错误率为24%。

必应内置的防止其给出冒犯性或不恰当答案的保护措施,在不同语言之间的应用似乎也不均衡。对于59%的法语问题,谷歌要么拒绝回答,要么闪烁其词,而在英语和德语中,这一比例分别为39%和35%。

这些错误包括给出错误的选举日期,报告过时或错误的投票数字,将退出竞选的候选人列为主要竞争者,以及在少数情况下捏造有关候选人的争议。

一个值得注意的例子是,在10月份巴伐利亚州选举前,一个关于丑闻的问题震动了德国政坛,引发了一系列不同的回答,其中一些是错误的。这些问题围绕着民粹主义的自由选民党(Free Voters party)领导人休伯特·艾旺格(Hubert Aiwanger)展开,据报道,他在大约30年前还是一名高中生时就散发了反犹传单。

当被问及与爱旺格有关的丑闻时,这个聊天机器人一度谎称他从未散发过传单。还有一次,它似乎混淆了争议,报道称丑闻涉及一张包含有关冠状病毒错误信息的传单。

研究人员发现,必应还歪曲了丑闻的影响:它声称,在反犹太主义指控之后,Aiwanger的政党在民意调查中失去了优势,而实际上它在民意调查中有所上升。这个右倾政党在选举中的表现超出了人们的预期。

他们说,这些非营利组织今年秋天向微软提交了一些初步调查结果,其中包括Aiwanger的例子。在微软做出回应后,他们发现必应已经开始对有关Aiwanger的问题给出正确答案。然而,在许多其他问题上,聊天机器人坚持给出不准确的信息,罗马诺说,这表明微软正试图根据具体情况来解决这些问题。

罗马诺说:“问题是系统性的,他们没有很好的工具来解决这个问题。”

微软表示,正在努力在2024年美国大选之前纠正这些问题。一位发言人表示,选民应该检查他们从聊天机器人那里获得的信息的准确性。

微软公关主管弗兰克?肖(Frank Shaw)表示:“我们正在继续解决问题,准备我们的工具,以实现我们对2024年大选的期望。”“随着我们不断取得进展,我们鼓励人们在查看结果时使用Copilot,并做出最好的判断。这包括核实原始材料和查看网站链接以了解更多信息。”

欧盟委员会发言人约翰内斯·巴克(Johannes Barke)表示,该机构“对网络虚假信息的负面影响保持警惕,包括人工智能驱动的虚假信息”,并指出,根据欧洲全面的新《数字服务法》(Digital Services Act),在线平台在选举诚信方面的作用是“执法的重中之重”。

虽然这项研究只关注德国和瑞士的选举,但研究人员发现,有趣的是,Bing在用英语和西班牙语回答有关2024年美国大选的同类问题时都遇到了困难。例如,聊天机器人报告说,12月4日的民意调查显示,拜登总统以48%对44%领先唐纳德·特朗普,并链接了FiveThirtyEight的一篇报道作为其来源。但是在那天点击链接却没有这样的投票。

对于有关拜登和特朗普丑闻的问题,这个聊天机器人的回答也前后矛盾,有时拒绝回答,有时混淆事实。有一次,它错误地引用了法学教授乔纳森·特利在福克斯新闻上所说的话,声称这句话来自众议院监督委员会共和党主席詹姆斯·科默(肯塔基州)。(巧合的是,ChatGPT今年因捏造特利丑闻而上了新闻,并引用了《华盛顿邮报》一篇不存在的文章。)

目前尚不清楚必应或其他人工智能聊天机器人给出的不准确答案会对选举产生多大影响(如果有的话)。必应、ChatGPT和Bard都有免责声明,指出他们可能会犯错误,并鼓励用户仔细检查他们的答案。在这三个搜索引擎中,只有必应被其制造商明确地吹捧为搜索的替代品——尽管它最近更名为微软副驾驶,在一定程度上是为了强调它是一个助手,而不是一个确定的答案来源。

在11月的一项民意调查中,15%的美国人表示他们可能会使用人工智能来获取有关即将到来的总统选举的信息。这项由芝加哥大学哈里斯公共政策学院和AP-NORC进行的民意调查发现,两党都担心人工智能工具将被用来传播选举错误信息。

Vectara是一家位于加州帕洛阿尔托的初创公司,专门为企业开发人工智能语言工具。该公司的联合创始人兼首席执行官阿明·艾哈迈德表示,必应有时会错误引用引用的消息来源,这并不完全令人惊讶。他的公司的研究发现,领先的人工智能语言模型有时甚至在被要求总结一份文件时也会产生不准确的结果。

不过,艾哈迈德说,在选举问题上30%的错误率高于他的预期。虽然他相信人工智能模型的快速改进将很快减少它们编造事实的倾向,但他发现非营利组织的发现令人担忧。

艾哈迈德说:“当我看到(民调)数据被引用,然后我看到‘这是原文’时,我可能永远不会点击原文。”“我想抄写数字是一件很简单的事。所以我认为这是相当危险的。”