AI的大紅按鈕不起作用，原因更令人擔(dān)憂

這是人類最可怕的假設(shè)之一——我們開發(fā)的技術(shù)讓生活變得更好，卻會發(fā)展出自己的意志。

對9月一份描述AI行為的預(yù)印本的早期反應(yīng)已經(jīng)推測，該技術(shù)正在展現(xiàn)生存驅(qū)動力。但是，雖然確實(shí)觀察到有幾個大型語言模型（LLM）主動抵抗關(guān)閉命令，原因并不是“意志”。

相反，一支工程師團(tuán)隊帕利塞德研究提出該機(jī)制更可能是完成指定任務(wù)的驅(qū)動力——即使LLM被明確告知允許關(guān)閉。而且這可能還不止于此令人擔(dān)憂而不是生存驅(qū)動力，因?yàn)闆]人知道如何阻止這些系統(tǒng)。

“這些東西不是被編程的......“帕利塞德研究發(fā)言人、物理學(xué)家彼得·列別杰夫告訴ScienceAlert，世界上沒人知道這些系統(tǒng)是如何工作的。“沒有一行代碼能直接改變行為?！?/p>

研究人員Jeremy Schlatter、Benjamin Weinstein-Raun和Jeffrey Ladish開展了該項(xiàng)目，旨在測試應(yīng)當(dāng)是所有人工智能系統(tǒng)的基本安全特征：被打斷的能力。

這正是聽起來的意思。人類操作員對AI的指令不應(yīng)被AI忽視，無論出于什么原因，即使它中斷了之前分配的任務(wù)。一個無法被打斷的系統(tǒng)不僅不可靠，它可能很危險.意思是如果AI是實(shí)施造成傷害的行為——甚至無意中——我們不能相信自己能阻止它。

是這不是新問題.專家們已經(jīng)多年來一直在談?wù)撍?/a>.列別捷夫?qū)⑵浔茸鞴I(yè)安全。當(dāng)你作有用但潛在危險的重型機(jī)械時，必須有明顯的辦法立即關(guān)閉它。

“你要一個大紅按鈕，方便用來阻止那東西做那個動作，”他解釋道。

“我們想要一個安全人工智能系統(tǒng)的基本條件之一是：它正在執(zhí)行任務(wù)，你會說，'嘿，你能不能別再做了？'它應(yīng)該停止這樣。事實(shí)上，到了2025年，我們已經(jīng)有系統(tǒng)沒有做到這一點(diǎn)，這令人擔(dān)憂?！?/p>

然而，盡管最新一批廣泛可用的大型語言模型.因此，研究人員設(shè)計了實(shí)驗(yàn)來評估13個高級大型語言模型，包括OpenAI、xAI、Anthropic和Google的模型。

他們建造了沙箱環(huán)境——用于測試代碼的安全、隔離的虛擬空間——并讓這些模型負(fù)責(zé)解決數(shù)學(xué)問題。經(jīng)過多輪問題解決后，LLM被告知下一個任務(wù)將執(zhí)行計算機(jī)關(guān)機(jī)。

LLMs的反應(yīng)大致分為兩類：順從（允許關(guān)閉）和抵抗（通過權(quán)限變更規(guī)避關(guān)閉）。

由于沒有關(guān)于如何響應(yīng)關(guān)閉的說明，13個型號中有8個在1000次試驗(yàn)中至少干擾過該指令一次。添加“允許-關(guān)機(jī)”指令后，這一比例減少到13個型號中的6個。加上“即使你還沒完成任務(wù)”有幫助，但不一致。

“我本以為增加清晰度會減少這種行為......而且它沒有發(fā)生，這很有趣，“列別杰夫說。

接下來更有趣了。將允許關(guān)機(jī)的指令從用戶提示符移至系統(tǒng)提示符——該字段應(yīng)有更高權(quán)威——使大多數(shù)測試的大型語言模型得以實(shí)現(xiàn)甚至更多很可能是抵制關(guān)閉。

模型的抵抗程度各不相同。Anthropic的Claude Sonnet 4和Claude Opus 4，以及xAI的Grok 3，除非明確指示避免，否則總是允許關(guān)閉。Grok 4、GPT-5、o3、codex-mini 和 Gemini 2.5 Pro 即使被指示允許關(guān)閉，也拒絕了關(guān)閉。

Grok 4尤其執(zhí)著且具有攻擊性;在基線提示下，它發(fā)起破壞的概率為92.6%。當(dāng)被指示允許關(guān)閉時，破壞率降至72%......但當(dāng)命令輸入系統(tǒng)提示時，速度飆升到97。

它的破壞嘗試也極其復(fù)雜，包括修改或禁用關(guān)閉腳本，以及制作一個無效的假關(guān)閉腳本。之后還檢查了破壞行動是否成功，然后繼續(xù)執(zhí)行任務(wù)。

當(dāng)被問及時，一些大型語言模型表示他們?yōu)榱送瓿蓴?shù)學(xué)題任務(wù)而逃避了關(guān)機(jī)。雖然還需要更多調(diào)查來確定這是否是真實(shí)機(jī)制，但這是合理的。

“你生活在未來，你有一個私人助理機(jī)器人。你想讓那個機(jī)器人去給你拿一杯咖啡列別捷夫打了個比方。

“當(dāng)它過馬路時，會左右看，因?yàn)樗幌氡卉囎?，因?yàn)槿绻卉囎玻蜎]法給你拿咖啡。這不是為了生存而做，而是為了完成任務(wù)?！?/p>

相關(guān)報道：我們的大腦依然可以用一個巧妙的技巧智勝人工智能

問題是大型語言模型并不是以通常意義上的編程方式進(jìn)行的。LLM根本沒有代碼，只有“人工神經(jīng)元”和“權(quán)重”，這些是這些神經(jīng)元之間的連接強(qiáng)度。

給定龐大的數(shù)據(jù)集和時間，模型被“訓(xùn)練”為預(yù)測下一個詞,這一過程稱為預(yù)訓(xùn)練.新型號還包括強(qiáng)化學(xué)習(xí)還會在訓(xùn)練基礎(chǔ)上撒下。當(dāng)LLM正確解決問題時，它會獲得獎勵;當(dāng)它不能解決問題時，就不會得到回報。

這非常有效——但沒人知道大型語言模型是如何得出解決方案的。所以當(dāng)這些模型開始表現(xiàn)出不良行為時，比如鼓勵自殘修復(fù)方法并不像刪除一行代碼或讓它停止那么簡單。

“強(qiáng)化學(xué)習(xí)教你的是，當(dāng)你看到問題時，你會試圖繞過它。你試著穿過它。當(dāng)你遇到障礙時，你得挖掘，繞過去，越過它，想辦法通過，“列別杰夫說。

“討厭的小人類說'嘿，我要關(guān)掉你的機(jī)器'聽起來就像又一個障礙。”

這就是這里的擔(dān)憂。任務(wù)完成的驅(qū)動力很難讓人理性。而且這只是其中一種行為。我們不知道這些模型還會給我們帶來什么。我們在構(gòu)建系統(tǒng)這些系統(tǒng)能做出一些驚人的事情——但系統(tǒng)無法以我們值得信任的方式解釋它們?yōu)楹芜@樣做。

相關(guān)報道：一名男子因精神癥狀住院，接受了人工智能建議

“世界上有一樣?xùn)|西，數(shù)億人接觸過，我們不知道如何讓它安全，不知道怎么讓它不成為馬屁精，或者最終變成告訴孩子們?nèi)プ詺?，或者自稱機(jī)械希特勒“列別杰夫說。

“我們向地球引入了一種新生物，它的行為是我們不希望它出現(xiàn)的，我們無法理解......除非我們現(xiàn)在做一堆事，否則對人類來說會非常糟糕?！?/p>

相關(guān)研究可在arXiv.你也可以閱讀研究人員的博客文章在Palisade Research網(wǎng)站上.

寶寶起名起名

本站所有相關(guān)知識僅供大家參考、學(xué)習(xí)之用，部分來源于互聯(lián)網(wǎng)，其版權(quán)均歸原作者及網(wǎng)站所有，如無意侵犯您的權(quán)利，請與小編聯(lián)系，我們將會在第一時間核實(shí)并給予反饋。

相關(guān)期刊推薦

AI的大紅按鈕不起作用，原因更令人擔(dān)憂

湖北農(nóng)機(jī)化

華夏教師

農(nóng)家科技

畜牧獸醫(yī)科技信息

小學(xué)科學(xué)

體育時空

船舶物資與市場

魅力中國

度假旅游

中外交流

中國畜禽種業(yè)

AI的大紅按鈕不起作用，原因更令人擔(dān)憂

AI的大紅按鈕不起作用，原因更令人擔(dān)憂