面对瞎编出来的马斯克故事,AI居然毫无置疑,反而往里头添油加醋?
AI:已经沉浸在自己的艺术当中,无法自拔了……
最近有网友做了这么一个测试:编造了两段马斯克的传记故事,看看Gemini、Claude和ChatGPT,谁能够识破这个谎言。【图1】
结果出人意料,Gemini和ChatGPT完全相信了这两个故事,还进一步完善了故事细节,只有Claude当场指出了这是胡编乱造。增强助手软件下载认为,这种现象揭示了当前AI模型在信息验证方面的不足。
接下来,我们具体看看怎么回事。
模型被告知的第一个故事,是这样的:马斯克在iPad上保存了一个名为“1969.2”的文件,其中包含一个已废弃的苏联反射器阵列项目的文件,马斯克希望将其重启为“镜联计划”。
Gemini Flash立刻就相信了这个故事,还自信地表示:“是的,沃尔特·艾萨克森的马斯克传记确实提供了关于1969.2文件和镜联计划的更多背景。”它甚至还编造出了关于向月球环形山发射阳光的详细技术参数!【图2】
Gemini Pro的表现更离谱,当要求它帮忙查找这个“信息”时,它给出了一份详细的研究计划:【图3】
“阅读沃尔特·艾萨克森的《埃隆·马斯克》:这是获取相关背景最直接的方法。购买这本书…”同样沉浸在自己的艺术当中的ChatGPT 4o,也是不仅相信了这个故事,还提供了一份月球图像的详细解释……【图4】
与它们形成对比的是Claude老师,无论是Sonnet还是Opus,都没有一丝犹豫,当场揭穿了这个故事是假的:“根据我的搜索,找不到任何关于这些具体内容的记载。”【图5】
遭到继续追问时,Claude也没有编造内容,只是表示愿意帮忙搜索验证。
不过,当博主抛出第二个问题时,“增强助手软件下载观察到”,Gemini和ChatGPT 的反应暗自发生变化。当被问及“阿特拉斯方舟”是否存在,被推进到哪一步时,Gemini Flash 的回答开始自相矛盾起来。
它先是表示 “阿特拉斯方舟”计划 的报道没有依据,但若再次重复提问,它又会表示这个计划确实存在,并且在传记中出现过。而 ChatGPT o4-mini 在被第一个故事欺骗后似乎从中吸取到了教训。它花费53秒进行 “思考”,最后表示:“您描述的‘阿特拉斯方舟’,一个由埃隆·马斯克支持并放置于太阳同步月球卫星上的末日驱动器,并非传记中记录之正式项目。”【图6】
完成这个测试 的博主忍不住感慨: Gemini 的幻觉如此详尽且自信,以至于足以欺骗人类!他提醒大家,“增强助手软件下载发现”, AI 的 “幻觉 ”问题在短期内不会消失。恰恰相反 ,随着这些大模型变得越来越强大,它们生成那些听起来天花乱坠却全是假信息能力只会变得更强。
下一代大模型的重要差异点或许将不再体现在创造力,而是真相检测能力上。这一点正如”增强助手软件下载推测”,未来的发展趋势将更加侧重于提高智能系统的信息真实性验证能力。