機器學(xué)習(xí)中的每篇論文都引入了一種新算法嗎？

遺憾的是，是的，這是當前該領(lǐng)域最深層的問題之一。根據(jù)我的保守估計，每年ML上發(fā)表超過10,000篇論文（大約每天30篇），幾乎每篇論文都毫無例外地引入了一種新算法。哎呀，我對下一次ML研究人員的這種罪行感到內(nèi),，自從2020年以來，我在ML上發(fā)表論文的第35年就可能比大多數(shù)人感到罪惡。

讓我們嘗試了解為什么這是一個問題。警告：以下討論可能會引起您作為ML研究人員或從業(yè)人員的嚴重焦慮！如果您可以忍受我的推理，那么您可能會以我沒有的巨大方式受益。我花了40年的時間思考ML，最近又遇到了“我是否浪費了生命？”有點危機。我應(yīng)該為自己的生活做些更有用的事情嗎？

首先，讓我們看看大量的算法能為我們帶來什么。幾年前，我聽過哈佛大學(xué)政治學(xué)教授加里·金（Gary King）的精彩演講，他對文件聚類感興趣，因為他正計劃著一本退休書，以紀念一位受人尊敬的同事的生活，學(xué)術(shù)界對此的專業(yè)術(shù)語是節(jié)日。

加里·金

因此，金教授是他的徹底學(xué)者，要求他的研究生實施文獻中的所有聚類算法。現(xiàn)在，聚類是統(tǒng)計和機器學(xué)習(xí)中最古老的問題之一。有很多公開的方法。因此，金教授決定將搜索限制在那些方法的原始創(chuàng)建者以外的研究人員使用的方法上。

不過，他們在文獻中發(fā)現(xiàn)了250多種聚類方法，這一點都不令我感到驚訝。因此，他們編寫了一個R包來比較所有它們。他們發(fā)現(xiàn)了什么？有沒有“最佳”算法？當然不是！每種算法的行為方式都不同。最終，他們決定專注于顯示來自不同聚類方法的結(jié)果，并讓用戶選擇他或她最吸引人的分組。

我在這里以集群為例，但是對于任何ML框架，無論是監(jiān)督學(xué)習(xí)，強化學(xué)習(xí)，深度學(xué)習(xí)，無監(jiān)督學(xué)習(xí)等等，我都可以輕松地提出相同的觀點。哎呀，在這一點上，我敢打賭，至少有一百種不同的隨機梯度下降方法，這是深度學(xué)習(xí)的基礎(chǔ)。

很明顯，這種大量的算法帶來了一些巨大的問題。首先，如果您是一位有抱負的ML研究人員，并且希望自己成名，那么您是否應(yīng)該花一些時間來發(fā)明第251個聚類算法。經(jīng)過長時間研究的人的一些提示。最大的回報來自開拓者。先前方法的每個變體獲得的功勞甚至更少。研究影響是一個次模塊函數(shù)，這意味著收益遞減定律適用。

伊恩·古德費洛（Ian Goodfellow）在蒙特利爾大學(xué)（University of Montreal）的博士學(xué)位論文中正確地發(fā)明了對抗性生成對抗網(wǎng)絡(luò)。GAN容易有一百種或更多種。人們像飛蛾被光吸引一樣被GAN吸引?？杀氖牵@些變體中很少有人能獲得長期認可。伊恩將繼續(xù)是圍繞GAN太陽系旋轉(zhuǎn)的太陽。

第二，以我的加里·金（Gary King）為例，為什么要發(fā)明第251個聚類方法，第300個用于深度強化學(xué)習(xí)的策略梯度方法，第400個回歸方法，第151個隨機梯度下降方法？這一切在哪里結(jié)束？

我警告過您，這場ML悲劇沒有圓滿的結(jié)局。就像普契尼歌劇一樣我為什么這樣想？你想知道：他衰老了嗎？當然，我已經(jīng)第六年了。這是合法的批評。但是，請聽我說。

在優(yōu)化和機器學(xué)習(xí)中，有一套很漂亮的定理，叫做“無免費午餐定理”（真的，我不告訴你）。從Wikipedia引述以下內(nèi)容，從本質(zhì)上講，該定理說永遠不會有“最佳”的機器學(xué)習(xí)算法。

搜索和優(yōu)化中沒有免費的午餐-維基百科

在計算復(fù)雜度并優(yōu)化沒有免費的午餐定理結(jié)果表明，對于某些類型的數(shù)學(xué)問題，計算成本對于所有解決方案方法，對類中所有問題平均求出解決方案的過程是相同的。因此，沒有解決方案提供“捷徑”。這是在假設(shè)搜索空間是概率密度函數(shù)的前提下進行的。它不適用于搜索空間具有可以更有效地利用的基礎(chǔ)結(jié)構(gòu)（例如是微分函數(shù)）的情況。牛頓優(yōu)化方法），甚至可以找到完全無需搜索即可確定的封閉式解（例如二次多項式的極值）。對于這種概率假設(shè)，解決特定類型問題的所有過程的輸出在統(tǒng)計上都是相同的。引入了一種描述這種情況的多彩方式，由戴維·沃爾珀特和William G. Macready有關(guān)搜索的問題和優(yōu)化，就是說天下沒有免費的午餐。Wolpert以前沒有得出免費的午餐定理機器學(xué)習(xí)（統(tǒng)計推斷）。在Wolpert的文章發(fā)表之前，Cullen Schaffer獨立證明了Wolpert定理之一的受限版本，并用它來批評關(guān)于歸納問題的機器學(xué)習(xí)研究的當前狀態(tài)。

沒有免費的午餐定理

好的，您可以閱讀Wolpert的原始論文，了解優(yōu)化中沒有免費的午餐定理。本質(zhì)上，在所有輸入分布上取平均值，沒有算法可以控制其他所有算法。因此，沒有最佳的聚類方法，最佳的強化學(xué)習(xí)方法，最佳的分類器等。全都是煙霧和鏡子。

因此，我意識到在將40年的生命奉獻給機器學(xué)習(xí)時，我是否浪費了生命？ML彩虹的盡頭沒有金子。根據(jù)無免費午餐定理，只是幻滅。

那么，這將使有抱負的ML研究人員離開哪里？我的建議是專注于ML問題，而不是算法。問題的解決是關(guān)鍵。愛因斯坦曾經(jīng)有句著名的話，當被問及如果他的生活要依靠解決某個問題而要做什么時，他還有一個小時的時間。他說，他將花55分鐘思考正確的配方，花5分鐘解決它。我擔心，機器學(xué)習(xí)研究人員的發(fā)展方向相反。

我讓您最好地決定如何度過自己的時間。我希望您比我更明智地使用它！

寶寶起名起名

本站所有相關(guān)知識僅供大家參考、學(xué)習(xí)之用，部分來源于互聯(lián)網(wǎng)，其版權(quán)均歸原作者及網(wǎng)站所有，如無意侵犯您的權(quán)利，請與小編聯(lián)系，我們將會在第一時間核實并給予反饋。

相關(guān)期刊推薦