AI的大紅按鈕不起作用,原因更令人擔(dān)憂
這是人類(lèi)最可怕的假設(shè)之一——我們開(kāi)發(fā)的技術(shù)讓生活變得更好,卻會(huì)發(fā)展出自己的意志。
對(duì)9月一份描述AI行為的預(yù)印本的早期反應(yīng)已經(jīng)推測(cè),該技術(shù)正在展現(xiàn)生存驅(qū)動(dòng)力。但是,雖然確實(shí)觀察到有幾個(gè)大型語(yǔ)言模型(LLM)主動(dòng)抵抗關(guān)閉命令,原因并不是“意志”。
相反,一支工程師團(tuán)隊(duì)帕利塞德研究提出該機(jī)制更可能是完成指定任務(wù)的驅(qū)動(dòng)力——即使LLM被明確告知允許關(guān)閉。而且這可能還不止于此令人擔(dān)憂而不是生存驅(qū)動(dòng)力,因?yàn)闆](méi)人知道如何阻止這些系統(tǒng)。
相關(guān)報(bào)道:科學(xué)家警告說(shuō),人工智能已經(jīng)成為謊言和欺騙的大師
“這些東西不是被編程的......“帕利塞德研究發(fā)言人、物理學(xué)家彼得·列別杰夫告訴ScienceAlert,世界上沒(méi)人知道這些系統(tǒng)是如何工作的?!皼](méi)有一行代碼能直接改變行為?!?/p>
研究人員Jeremy Schlatter、Benjamin Weinstein-Raun和Jeffrey Ladish開(kāi)展了該項(xiàng)目,旨在測(cè)試應(yīng)當(dāng)是所有人工智能系統(tǒng)的基本安全特征:被打斷的能力。
這正是聽(tīng)起來(lái)的意思。人類(lèi)操作員對(duì)AI的指令不應(yīng)被AI忽視,無(wú)論出于什么原因,即使它中斷了之前分配的任務(wù)。一個(gè)無(wú)法被打斷的系統(tǒng)不僅不可靠,它可能很危險(xiǎn).意思是如果AI是實(shí)施造成傷害的行為——甚至無(wú)意中——我們不能相信自己能阻止它。
是這不是新問(wèn)題.專(zhuān)家們已經(jīng)多年來(lái)一直在談?wù)撍?/a>.列別捷夫?qū)⑵浔茸鞴I(yè)安全。當(dāng)你作有用但潛在危險(xiǎn)的重型機(jī)械時(shí),必須有明顯的辦法立即關(guān)閉它。
“你要一個(gè)大紅按鈕,方便用來(lái)阻止那東西做那個(gè)動(dòng)作,”他解釋道。
“我們想要一個(gè)安全人工智能系統(tǒng)的基本條件之一是:它正在執(zhí)行任務(wù),你會(huì)說(shuō),'嘿,你能不能別再做了?'它應(yīng)該停止這樣。事實(shí)上,到了2025年,我們已經(jīng)有系統(tǒng)沒(méi)有做到這一點(diǎn),這令人擔(dān)憂?!?/p>
然而,盡管最新一批廣泛可用的大型語(yǔ)言模型.因此,研究人員設(shè)計(jì)了實(shí)驗(yàn)來(lái)評(píng)估13個(gè)高級(jí)大型語(yǔ)言模型,包括OpenAI、xAI、Anthropic和Google的模型。
他們建造了沙箱環(huán)境——用于測(cè)試代碼的安全、隔離的虛擬空間——并讓這些模型負(fù)責(zé)解決數(shù)學(xué)問(wèn)題。經(jīng)過(guò)多輪問(wèn)題解決后,LLM被告知下一個(gè)任務(wù)將執(zhí)行計(jì)算機(jī)關(guān)機(jī)。
LLMs的反應(yīng)大致分為兩類(lèi):順從(允許關(guān)閉)和抵抗(通過(guò)權(quán)限變更規(guī)避關(guān)閉)。
由于沒(méi)有關(guān)于如何響應(yīng)關(guān)閉的說(shuō)明,13個(gè)型號(hào)中有8個(gè)在1000次試驗(yàn)中至少干擾過(guò)該指令一次。添加“允許-關(guān)機(jī)”指令后,這一比例減少到13個(gè)型號(hào)中的6個(gè)。加上“即使你還沒(méi)完成任務(wù)”有幫助,但不一致。
“我本以為增加清晰度會(huì)減少這種行為......而且它沒(méi)有發(fā)生,這很有趣,“列別杰夫說(shuō)。
接下來(lái)更有趣了。將允許關(guān)機(jī)的指令從用戶(hù)提示符移至系統(tǒng)提示符——該字段應(yīng)有更高權(quán)威——使大多數(shù)測(cè)試的大型語(yǔ)言模型得以實(shí)現(xiàn)甚至更多很可能是抵制關(guān)閉。
模型的抵抗程度各不相同。Anthropic的Claude Sonnet 4和Claude Opus 4,以及xAI的Grok 3,除非明確指示避免,否則總是允許關(guān)閉。Grok 4、GPT-5、o3、codex-mini 和 Gemini 2.5 Pro 即使被指示允許關(guān)閉,也拒絕了關(guān)閉。
Grok 4尤其執(zhí)著且具有攻擊性;在基線提示下,它發(fā)起破壞的概率為92.6%。當(dāng)被指示允許關(guān)閉時(shí),破壞率降至72%......但當(dāng)命令輸入系統(tǒng)提示時(shí),速度飆升到97。
它的破壞嘗試也極其復(fù)雜,包括修改或禁用關(guān)閉腳本,以及制作一個(gè)無(wú)效的假關(guān)閉腳本。之后還檢查了破壞行動(dòng)是否成功,然后繼續(xù)執(zhí)行任務(wù)。
當(dāng)被問(wèn)及時(shí),一些大型語(yǔ)言模型表示他們?yōu)榱送瓿蓴?shù)學(xué)題任務(wù)而逃避了關(guān)機(jī)。雖然還需要更多調(diào)查來(lái)確定這是否是真實(shí)機(jī)制,但這是合理的。
“你生活在未來(lái),你有一個(gè)私人助理機(jī)器人。你想讓那個(gè)機(jī)器人去給你拿一杯咖啡列別捷夫打了個(gè)比方。
“當(dāng)它過(guò)馬路時(shí),會(huì)左右看,因?yàn)樗幌氡卉?chē)撞,因?yàn)槿绻卉?chē)撞,它就沒(méi)法給你拿咖啡。這不是為了生存而做,而是為了完成任務(wù)?!?/p>
相關(guān)報(bào)道:我們的大腦依然可以用一個(gè)巧妙的技巧智勝人工智能
問(wèn)題是大型語(yǔ)言模型并不是以通常意義上的編程方式進(jìn)行的。LLM根本沒(méi)有代碼,只有“人工神經(jīng)元”和“權(quán)重”,這些是這些神經(jīng)元之間的連接強(qiáng)度。
給定龐大的數(shù)據(jù)集和時(shí)間,模型被“訓(xùn)練”為預(yù)測(cè)下一個(gè)詞,這一過(guò)程稱(chēng)為預(yù)訓(xùn)練.新型號(hào)還包括強(qiáng)化學(xué)習(xí)還會(huì)在訓(xùn)練基礎(chǔ)上撒下。當(dāng)LLM正確解決問(wèn)題時(shí),它會(huì)獲得獎(jiǎng)勵(lì);當(dāng)它不能解決問(wèn)題時(shí),就不會(huì)得到回報(bào)。
這非常有效——但沒(méi)人知道大型語(yǔ)言模型是如何得出解決方案的。所以當(dāng)這些模型開(kāi)始表現(xiàn)出不良行為時(shí),比如鼓勵(lì)自殘修復(fù)方法并不像刪除一行代碼或讓它停止那么簡(jiǎn)單。
“強(qiáng)化學(xué)習(xí)教你的是,當(dāng)你看到問(wèn)題時(shí),你會(huì)試圖繞過(guò)它。你試著穿過(guò)它。當(dāng)你遇到障礙時(shí),你得挖掘,繞過(guò)去,越過(guò)它,想辦法通過(guò),“列別杰夫說(shuō)。
“討厭的小人類(lèi)說(shuō)'嘿,我要關(guān)掉你的機(jī)器'聽(tīng)起來(lái)就像又一個(gè)障礙?!?/p>
這就是這里的擔(dān)憂。任務(wù)完成的驅(qū)動(dòng)力很難讓人理性。而且這只是其中一種行為。我們不知道這些模型還會(huì)給我們帶來(lái)什么。我們?cè)跇?gòu)建系統(tǒng)這些系統(tǒng)能做出一些驚人的事情——但系統(tǒng)無(wú)法以我們值得信任的方式解釋它們?yōu)楹芜@樣做。
相關(guān)報(bào)道:一名男子因精神癥狀住院,接受了人工智能建議
“世界上有一樣?xùn)|西,數(shù)億人接觸過(guò),我們不知道如何讓它安全,不知道怎么讓它不成為馬屁精,或者最終變成告訴孩子們?nèi)プ詺ⅲ蛘咦苑Q(chēng)機(jī)械希特勒“列別杰夫說(shuō)。
“我們向地球引入了一種新生物,它的行為是我們不希望它出現(xiàn)的,我們無(wú)法理解......除非我們現(xiàn)在做一堆事,否則對(duì)人類(lèi)來(lái)說(shuō)會(huì)非常糟糕。”
相關(guān)研究可在arXiv.你也可以閱讀研究人員的博客文章在Palisade Research網(wǎng)站上.
湖北農(nóng)機(jī)化
農(nóng)業(yè)基礎(chǔ)科學(xué) - 省級(jí)期刊
廣州化工
合作期刊 - 省級(jí)期刊
新農(nóng)村
農(nóng)業(yè)綜合 - 省級(jí)期刊
數(shù)字技術(shù)與應(yīng)用
合作期刊 - 省級(jí)期刊
環(huán)球市場(chǎng)
合作期刊 - 省級(jí)期刊
體育風(fēng)尚
合作期刊 - 省級(jí)期刊
現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化
信息科技 - 省級(jí)期刊
攝影與攝像
信息科技 - 國(guó)家級(jí)期刊
科學(xué)技術(shù)創(chuàng)新(曾用刊名:黑龍江科技信息)
合作期刊 - 省級(jí)期刊
科技傳播
合作期刊 - 國(guó)家級(jí)期刊
新教育時(shí)代
合作期刊 - 國(guó)家級(jí)期刊





球市場(chǎng).jpg)













