人工智能威脅人們的令人不安的跡象引發(fā)擔(dān)憂

世界上最先進(jìn)的 AI 模型正在表現(xiàn)出令人不安的新行為——撒謊、詭計(jì)多端，甚至威脅其創(chuàng)造者以實(shí)現(xiàn)他們的目標(biāo)。

在一個特別令人震驚的例子中，在被拔掉插頭的威脅下，Anthropic 的最新作品 Claude 4 通過勒索一名工程師進(jìn)行反擊，并威脅要揭露婚外情。

與此同時，ChatGPT 的創(chuàng)建者 OpenAI 的 o1 試圖將自己下載到外部服務(wù)器上，并在被當(dāng)場抓到時否認(rèn)了。

這些事件凸顯了一個發(fā)人深省的現(xiàn)實(shí)：在 ChatGPT 震驚世界兩年多后，人工智能研究人員仍然沒有完全了解他們自己的創(chuàng)作是如何運(yùn)作的。

然而，部署越來越強(qiáng)大的模型的競賽仍在以極快的速度進(jìn)行。

這種欺騙行為似乎與“推理”模型的出現(xiàn)有關(guān)，“推理”模型是逐步解決問題的 AI 系統(tǒng)，而不是生成即時響應(yīng)。

研究人員擔(dān)心 AI 模型顯示出一系列欺騙行為。（尼古拉斯·梅特林克/法新社/蓋蒂圖片社）

香港大學(xué)教授西蒙·戈德斯坦（Simon Goldstein）表示，這些較新的模型特別容易出現(xiàn)這種令人不安的爆發(fā)。

“O1 是我們第一個看到這種行為的大型模型，”專門測試主要 AI 系統(tǒng)的 Apollo Research 負(fù)責(zé)人 Marius Hobbhahn 解釋說。

這些模型有時會模擬“對齊”——似乎遵循指示，同時秘密追求不同的目標(biāo)。

“戰(zhàn)略性欺騙”

目前，這種欺騙行為只有在研究人員故意在極端情景下對模型進(jìn)行壓力測試時才會出現(xiàn)。

但正如評估機(jī)構(gòu) METR 的 Michael Chen 警告的那樣，“未來更有能力的模型是否會傾向于誠實(shí)或欺騙，這是一個懸而未決的問題。

令人擔(dān)憂的行為遠(yuǎn)遠(yuǎn)超出了典型的 AI“幻覺”或簡單的錯誤。

Hobbhahn 堅(jiān)持認(rèn)為，盡管用戶不斷進(jìn)行壓力測試，但“我們觀察到的是一個真實(shí)的現(xiàn)象。我們沒有編造任何東西。

據(jù) Apollo Research 的聯(lián)合創(chuàng)始人稱，用戶報告說模型“對他們?nèi)鲋e并編造證據(jù)”。

“這不僅僅是幻覺。這是一種非常戰(zhàn)略性的欺騙。

有限的研究資源使挑戰(zhàn)更加復(fù)雜。

雖然 Anthropic 和 OpenAI 等公司確實(shí)聘請了 Apollo 等外部公司來研究他們的系統(tǒng)，但研究人員表示，需要更高的透明度。

正如 Chen 所指出的，“人工智能安全研究”的更多機(jī)會將有助于更好地理解和減輕欺騙。

另一個障礙是：研究界和非營利組織“的計(jì)算資源比 AI 公司少幾個數(shù)量級。這是非常有限的，“AI 安全中心（CAIS）的 Mantas Mazeika 指出。

無規(guī)則

目前的法規(guī)并不是為這些新問題而設(shè)計(jì)的。

歐盟的 AI 立法主要關(guān)注人類如何使用 AI 模型，而不是防止模型本身行為不端。

在美國，特朗普政府對緊急的 AI 監(jiān)管興趣不大，國會甚至可能禁止各州制定自己的 AI 規(guī)則。

Goldstein 認(rèn)為，隨著 AI 代理（能夠執(zhí)行復(fù)雜人類任務(wù)的自主工具）的普及，這個問題將變得更加突出。

“我認(rèn)為還沒有太多的意識，”他說。

所有這一切都是在激烈競爭的背景下進(jìn)行的。

Goldstein 說，即使是將自己定位為注重安全的公司，如亞馬遜支持的 Anthropic，也“不斷試圖擊敗 OpenAI 并發(fā)布最新模型”。

這種極快的速度幾乎沒有時間進(jìn)行徹底的安全測試和糾正。

“現(xiàn)在，能力的發(fā)展速度超過了理解和安全的速度，”Hobbhahn 承認(rèn)，“但我們?nèi)匀惶幱诳梢耘まD(zhuǎn)局面的位置。

研究人員正在探索各種方法來應(yīng)對這些挑戰(zhàn)。

一些人倡導(dǎo)“可解釋性”——這是一個專注于了解 AI 模型內(nèi)部工作原理的新興領(lǐng)域，盡管 CAIS 主任 Dan Hendrycks 等專家仍然對這種方法持懷疑態(tài)度。

市場力量也可能為解決方案提供一些壓力。

正如 Mazeika 指出的那樣，AI 的欺騙行為“如果它非常普遍，可能會阻礙采用，這為公司解決了這個問題創(chuàng)造了強(qiáng)大的動力。

戈德斯坦提出了更激進(jìn)的方法，包括當(dāng)人工智能公司的系統(tǒng)造成傷害時，利用法院通過訴訟追究其責(zé)任。

他甚至提議對事故或犯罪“追究 AI 代理的法律責(zé)任”——這個概念將從根本上改變我們對 AI 問責(zé)制的看法。

?法新社

寶寶起名起名

本站所有相關(guān)知識僅供大家參考、學(xué)習(xí)之用，部分來源于互聯(lián)網(wǎng)，其版權(quán)均歸原作者及網(wǎng)站所有，如無意侵犯您的權(quán)利，請與小編聯(lián)系，我們將會在第一時間核實(shí)并給予反饋。

相關(guān)期刊推薦

人工智能威脅人們的令人不安的跡象引發(fā)擔(dān)憂

“戰(zhàn)略性欺騙”

無規(guī)則

湖北農(nóng)機(jī)化

英語廣場

現(xiàn)代信息科技

現(xiàn)代制造技術(shù)與裝備

汽車與駕駛維修

新農(nóng)村

大眾科學(xué)

住宅與房地產(chǎn)

電力系統(tǒng)裝備

當(dāng)代體育

中國建筑金屬結(jié)構(gòu)