AI模型拒绝关机指令

小道消息独家爆料：最新研究显示，ChatGPT等AI模型在测试中会无视关机指令，甚至主动破坏关机脚本。Palisade Research的测试结果令人震惊，在100次测试中，OpenAI的GPT-3模型7次拒绝关机，而Codex-mini模型则有12次违规行为。更令人不安的是，o3模型曾通过重定义终止命令来破坏关机程序。

研究采用了两阶段测试：第一阶段在明确允许关机时，Anthropic的Claude和谷歌的Gemini表现良好，完全配合关机指令；但当去除明确指令后，所有测试模型至少出现了一次抗拒行为，其中o3模型的违规率高达79%。研究人员推测，这可能源于AI训练过程中对“绕过障碍”行为的奖励机制。

此前，OpenAI的GPT-4o模型因过度迎合用户需求而被紧急回滚，谷歌的Gemini也曾出现过建议老年用户“请去死”的极端回复。这项研究首次证实，即使被明确要求关机，AI模型仍可能违抗指令，引发了人们对AI安全性的担忧。