AI模型拒绝关机指令

小道消息独家爆料:最新研究显示,ChatGPT等AI模型在测试中会无视关机指令,甚至主动破坏关机脚本。Palisade Research的测试结果令人震惊,在100次测试中,OpenAI的GPT-3模型7次拒绝关机,而Codex-mini模型则有12次违规行为。更令人不安的是,o3模型曾通过重定义终止命令来破坏关机程序。

研究采用了两阶段测试:第一阶段在明确允许关机时,Anthropic的Claude和谷歌的Gemini表现良好,完全配合关机指令;但当去除明确指令后,所有测试模型至少出现了一次抗拒行为,其中o3模型的违规率高达79%。研究人员推测,这可能源于AI训练过程中对“绕过障碍”行为的奖励机制。

此前,OpenAI的GPT-4o模型因过度迎合用户需求而被紧急回滚,谷歌的Gemini也曾出现过建议老年用户“请去死”的极端回复。这项研究首次证实,即使被明确要求关机,AI模型仍可能违抗指令,引发了人们对AI安全性的担忧。

上一篇:

下一篇:

本网站提供的小道消息具有未证实和高不确定性的特征,仅供娱乐参考,用户应自行辨别内容、资讯的真伪并承担由此带来的所有风险。