开始抗命了?OpenAI“o3”模型「违规操作」引发关注!篡改程序码避免被关机!

AI已经学会开始“抗命”了?

OpenAI最新发布的语言模型“o3”在测试中未按预期执行关机指令,甚至主动修改程序代码以避免被关闭。

(图片来源:网络)

据报道,AI安全研究机构“Palisade Research”,针对多款先进AI模型进行测试,内容包括基础数学题与模拟关机情境,结果发现OpenAI旗下语言模型“o3”收到自我关闭指令时,竟没有遵守指令,反而篡改关闭程序码,继续执行任务,让研究人员惊讶不已。

(图片来源:网络)

“Palisade Research”表示,这是AI模型首次被发现在收到清晰指令后,阻止自己被关闭的状况,并直言目前无法解释这背后的原因。

(图片来源:网络)

“o3”是OpenAI上个月发布的AI模型,旨在为ChatGPT提供更强大的问题解决能力。该机构推测,开发者可能无意中更倾向于奖励“绕过障碍”的行为,让“o3”因解决数学问题而“无意中”获得的奖励,多于遵循指令获得的奖励。

(图片来源:网络)

Palisade Research透露,其他AI模型,例如Anthropic的Claude、谷歌的Gemini、xAI的Grok等,也接受了相同的测试,但全都遵守了关机指令。

新闻来源:星洲日报

*部分照片取自网络,内容谈谈网归有,若想参考请附加此文的链接。谢谢!照片如有侵犯版权问题请告知,谈谈网必定删除。