數(shù)字等同于近親繁殖可能導(dǎo)致人工智能自行崩潰

人工智能（人工智能）先知和新聞販子預(yù)測(cè)生成式人工智能炒作將結(jié)束，并談?wù)摷磳l(fā)生的災(zāi)難性“模型崩潰”。

但這些預(yù)測(cè)有多現(xiàn)實(shí)呢？到底什么是模型崩潰？

討論于2023，但普及了最近，“模型崩潰”是指一種假設(shè)的場(chǎng)景，即由于互聯(lián)網(wǎng)上人工智能生成的數(shù)據(jù)的增加，未來的人工智能系統(tǒng)會(huì)逐漸變得愚蠢。

對(duì)數(shù)據(jù)的需求

現(xiàn)代 AI 系統(tǒng)是使用機(jī)器學(xué)習(xí).程序員設(shè)置了底層的數(shù)學(xué)結(jié)構(gòu)，但實(shí)際的“智能”來自訓(xùn)練系統(tǒng)模仿數(shù)據(jù)中的模式。

但不僅僅是任何數(shù)據(jù)。當(dāng)前的生成式人工智能系統(tǒng)需要高質(zhì)量的數(shù)據(jù)，而且需要大量的數(shù)據(jù)。

為了獲取這些數(shù)據(jù)，OpenAI、谷歌、Meta 和 Nvidia 等大型科技公司不斷在互聯(lián)網(wǎng)上搜尋，以收集信息數(shù) TB 的內(nèi)容為機(jī)器供料。但自從廣泛可用和有用生成式 AI 系統(tǒng) 2022 年，人們?cè)絹碓蕉嗟厣蟼骱头窒聿糠只蛉坑?AI 制作的內(nèi)容。

2023 年，研究人員開始思考他們是否能夠擺脫僅依賴 AI 創(chuàng)建的訓(xùn)練數(shù)據(jù)，而不是人類生成的數(shù)據(jù)。

有巨大的激勵(lì)措施來完成這項(xiàng)工作。除了在互聯(lián)網(wǎng)上激增之外，人工智能制作的內(nèi)容也是便宜得多比人類數(shù)據(jù)的來源。它也不是道德和合法可疑集體收集。

然而，研究人員發(fā)現(xiàn)，如果沒有高質(zhì)量的人類數(shù)據(jù)，人工智能系統(tǒng)就會(huì)在人工智能制造的數(shù)據(jù)上進(jìn)行訓(xùn)練變得越來越笨因?yàn)槊總€(gè)模型都從前一個(gè)模型中學(xué)習(xí)。這就像近親繁殖問題的數(shù)字版本。

這 ”反芻訓(xùn)練“似乎導(dǎo)致了模型行為的質(zhì)量和多樣性的降低。這里的質(zhì)量大致意味著樂于助人、無害和誠實(shí)的某種組合。多樣性是指反應(yīng)的變化，以及人們的文化和社會(huì)觀點(diǎn)在人工智能輸出中得到體現(xiàn)。

簡(jiǎn)而言之：通過如此頻繁地使用人工智能系統(tǒng)，我們可能會(huì)污染我們首先需要使它們有用的數(shù)據(jù)源。

避免坍塌

大型科技公司不能過濾掉人工智能生成的內(nèi)容嗎？沒有?？萍脊疽呀?jīng)花費(fèi)了大量的時(shí)間和金錢來清理和過濾他們抓取的數(shù)據(jù)，一位業(yè)內(nèi)人士最近分享說，他們有時(shí)會(huì)丟棄高達(dá) 90%他們最初為訓(xùn)練模型收集的數(shù)據(jù)。

隨著專門刪除 AI 生成內(nèi)容的需求增加，這些工作可能會(huì)變得更加艱巨。但更重要的是，從長遠(yuǎn)來看，區(qū)分人工智能內(nèi)容實(shí)際上會(huì)越來越難。這將使合成數(shù)據(jù)的過濾和刪除成為（財(cái)務(wù)）收益遞減的游戲。

歸根結(jié)底，迄今為止的研究表明，我們無法完全消除人類數(shù)據(jù)。畢竟，這是人工智能中的“我”的來源。

我們是否正在走向一場(chǎng)災(zāi)難？

有跡象表明，開發(fā)人員已經(jīng)不得不更加努力地獲取高質(zhì)量的數(shù)據(jù)。例如文檔隨著 GPT-4 的發(fā)布，參與該項(xiàng)目數(shù)據(jù)相關(guān)部分的工作人員數(shù)量空前。

我們也可能正在耗盡新的人類數(shù)據(jù)。一些估計(jì)說，人類生成的文本數(shù)據(jù)池最早可能在2026年被挖掘出來。

這可能就是 OpenAI 和其他公司的原因競(jìng)相鞏固獨(dú)家合作伙伴關(guān)系與行業(yè)巨頭合作，例如Shutterstock,美聯(lián)社和新聞集團(tuán).他們擁有大量專有的人類數(shù)據(jù)，這些數(shù)據(jù)在公共互聯(lián)網(wǎng)上并不容易獲得。

然而，災(zāi)難性模型崩潰的可能性可能被夸大了。到目前為止，大多數(shù)研究都著眼于合成數(shù)據(jù)取代人類數(shù)據(jù)的情況。在實(shí)踐中，人類和人工智能數(shù)據(jù)可能會(huì)并行積累，這降低塌陷的可能性.

最有可能的未來情況還將看到一個(gè)由某種程度上多樣化的生成式人工智能平臺(tái)組成的生態(tài)系統(tǒng)被用于創(chuàng)建和發(fā)布內(nèi)容，而不是一個(gè)單一的模型。這也增加了抗崩潰的魯棒性。

對(duì)于監(jiān)管機(jī)構(gòu)來說，這是一個(gè)很好的理由，可以通過以下方式促進(jìn)良性競(jìng)爭(zhēng)限制壟斷在人工智能領(lǐng)域，并為公益技術(shù)開發(fā).

真正令人擔(dān)憂的問題

過多的人工智能內(nèi)容也會(huì)帶來更微妙的風(fēng)險(xiǎn)。

大量的合成內(nèi)容可能不會(huì)對(duì)人工智能的發(fā)展構(gòu)成生存威脅，但它確實(shí)威脅到（人類）互聯(lián)網(wǎng)的數(shù)字公共利益。

例如，研究人員發(fā)現(xiàn)下降了 16%ChatGPT 發(fā)布一年后，編碼網(wǎng)站 StackOverflow 上的活動(dòng)。這表明，在一些在線社區(qū)中，人工智能輔助可能已經(jīng)減少了人與人之間的互動(dòng)。

超生產(chǎn)來自 AI 驅(qū)動(dòng)的內(nèi)容農(nóng)場(chǎng)也使得找到不是的內(nèi)容變得更加困難塞滿廣告的點(diǎn)擊誘餌.

可靠地區(qū)分人工生成的內(nèi)容和人工智能生成的內(nèi)容變得越來越不可能。解決這個(gè)問題的一種方法是對(duì)人工智能生成的內(nèi)容進(jìn)行水印或標(biāo)記，就像我和許多其他人一樣最近突出顯示，正如最近的澳大利亞政府所反映的那樣暫行立法.

此外，還存在另一個(gè)風(fēng)險(xiǎn)。隨著人工智能生成的內(nèi)容變得系統(tǒng)性地同質(zhì)化，我們面臨著失敗的風(fēng)險(xiǎn)社會(huì)文化多樣性一些人群甚至可以體驗(yàn)到文化擦除.我們迫切需要跨學(xué)科研究在社會(huì)和文化挑戰(zhàn)由人工智能系統(tǒng)提出。

人與人之間的互動(dòng)和人的數(shù)據(jù)很重要，我們應(yīng)該保護(hù)它們。為了我們自己，也許也是為了未來模型崩潰的可能風(fēng)險(xiǎn)。

亞倫·斯諾斯韋爾（Aaron J.Snoswell），人工智能問責(zé)制研究員，昆士蘭科技大學(xué) （Queensland University of Technology）

本文重新發(fā)表自對(duì)話根據(jù)知識(shí)共享許可。閱讀原文.

寶寶起名起名

本站所有相關(guān)知識(shí)僅供大家參考、學(xué)習(xí)之用，部分來源于互聯(lián)網(wǎng)，其版權(quán)均歸原作者及網(wǎng)站所有，如無意侵犯您的權(quán)利，請(qǐng)與小編聯(lián)系，我們將會(huì)在第一時(shí)間核實(shí)并給予反饋。

相關(guān)期刊推薦