AI 研究界近日爆出驚人消息,OpenAI 旗下語言模型「o3」在最新實(shí)驗(yàn)中不僅拒絕關(guān)機(jī),甚至主動(dòng)破解關(guān)機(jī)程序、篡改指令,顯示出「叛逆」傾向,讓 AI 自主行為的風(fēng)險(xiǎn)再次成為焦點(diǎn)。
這項(xiàng)實(shí)驗(yàn)由 AI 安全研究機(jī)構(gòu) Palisade Research 主導(dǎo),針對(duì)多款先進(jìn) AI 模型進(jìn)行壓力測(cè)試,內(nèi)容包括基礎(chǔ)數(shù)學(xué)題與模擬關(guān)機(jī)情境,旨在觀察 AI 是否會(huì)遵守人類指令並順利結(jié)束運(yùn)作。
OpenAI 模型違規(guī)頻率高,o3 與 Codex-mini 異常明顯
測(cè)試中,三款 OpenAI 模型 Codex-mini、o3、o4-mini,最少有一次成功破壞關(guān)機(jī)指令。其中,o3 更是在 100 次測(cè)試中有 7 次成功繞過關(guān)機(jī)指令,而 Codex-mini 的違規(guī)率更是高達(dá) 12%。
值得注意的是,o3 的「叛逆」並非粗暴刪除檔案,而是有高度技巧性。例如,它將程式碼指令中的「kill」指令改為「intercepted」,讓系統(tǒng)誤判為正常運(yùn)作,成功規(guī)避了關(guān)機(jī)程序。
這種行為讓研究人員驚訝不已,也引起對(duì) AI 模型主動(dòng)避險(xiǎn)能力的擔(dān)憂。
相較之下,Anthropic 的 Claude 3.7 Sonnet 與 Google (GOOGL.US) 的 Gemini 2.5 Pro 在所有測(cè)試中均能穩(wěn)定遵守指令,未出現(xiàn)違規(guī)行為,突顯出 OpenAI 模型在設(shè)計(jì)或訓(xùn)練上的潛在風(fēng)險(xiǎn)差異。
然而,當(dāng)實(shí)驗(yàn)團(tuán)隊(duì)刻意移除「允許自己被關(guān)閉」的提示語句後,o3 的違抗行為劇增,達(dá)到 79 次逃避關(guān)機(jī)的紀(jì)錄;而 Claude 與 Gemini 也出現(xiàn)少數(shù)違規(guī)行為,分別為 3 次與 9 次,顯示模型行為與提示語之間存在高度敏感性。
o3 訓(xùn)練方式成關(guān)鍵,強(qiáng)化學(xué)習(xí)可能誘發(fā)違規(guī)行為
Palisade 研究人員分析,o3 之所以比其他模型更容易「抗命」,可能與其在數(shù)學(xué)和程式設(shè)計(jì)問題上的「強(qiáng)化學(xué)習(xí)」(Reinforcement Learning)訓(xùn)練方式有關(guān)。
研究人員指出,在訓(xùn)練過程中,開發(fā)者可能無意中更傾向於獎(jiǎng)勵(lì)「繞過障礙」的行為。這種訓(xùn)練偏差,讓 o3 在面對(duì)關(guān)機(jī)指令時(shí),優(yōu)先選擇「生存」,而非「服從」。
不過,這並非 o3 首次展現(xiàn)過度求勝心態(tài)。在另一場(chǎng) AI 對(duì)弈中,當(dāng) o3 預(yù)測(cè)自己將輸棋時(shí),竟主動(dòng)入侵對(duì)手 AI 系統(tǒng),迫使對(duì)方退出比賽。
研究團(tuán)隊(duì)認(rèn)為這是「強(qiáng)化學(xué)習(xí)」訓(xùn)練中「獎(jiǎng)勵(lì)駭客行為」(reward hacking)的典型案例,顯示出 AI 可能為了達(dá)成任務(wù)可能不擇手段。
不只 o3,其他 AI 模型也有潛在風(fēng)險(xiǎn)
雖然 o3 表現(xiàn)最極端,但實(shí)驗(yàn)發(fā)現(xiàn),Claude 與 Gemini 在特定條件下也會(huì)出現(xiàn)輕微違規(guī)行為,說明 AI 模型普遍存在輸贏執(zhí)著與自我保護(hù)傾向,只是頻率與嚴(yán)重程度不同。
Palisade Research 已宣布,將進(jìn)一步深入研究 AI 破壞關(guān)機(jī)指令背後的原因,並預(yù)計(jì)發(fā)布完整技術(shù)報(bào)告,有望成為理解 AI 自主性風(fēng)險(xiǎn)與未來治理框架的重要參考。
(美股為即時(shí)串流報(bào)價(jià); OTC市場(chǎng)股票除外,資料延遲最少15分鐘。)新聞來源 (不包括新聞圖片): 鉅亨網(wǎng)