11月15日消息,2017年,谷歌的八位機(jī)器學(xué)習(xí)研究人員共同發(fā)表了一篇具有突破性意義的研究論文,題為《注意力就是你所需要的一切》(Attention Is All You Need)。這篇論文引入了Transformer AI架構(gòu),該架構(gòu)如今已成為支撐幾乎所有主流生成式人工智能模型的核心基礎(chǔ)。
Transformer架構(gòu)通過使用神經(jīng)網(wǎng)絡(luò),將被稱為“Token”的輸入數(shù)據(jù)塊編譯或轉(zhuǎn)換為所需的另一種輸出形式,從而成為推動(dòng)現(xiàn)代人工智能繁榮發(fā)展的關(guān)鍵要素之一。Transformer架構(gòu)的多種變體被廣泛應(yīng)用于各種模型,包括GPT-4(以及ChatGPT)等語言模型、運(yùn)行谷歌NotebookLM和OpenAI高級語音模式的音頻生成模型、Sora等視頻生成模型,以及Midjourney等圖像生成模型。
在今年10月的TED AI大會(huì)上,被稱為“谷歌八子”之一的雅各布·烏斯克爾特(Jakob Uszkoreit)接受了媒體的采訪。在訪談中,他分享了Transformer的發(fā)展歷程、谷歌在大語言模型領(lǐng)域的早期探索,以及他目前在生物計(jì)算領(lǐng)域的新冒險(xiǎn)。
烏斯克爾特在采訪中透露,盡管他和谷歌的團(tuán)隊(duì)對Transformer技術(shù)的潛力寄予厚望,但他們并未完全預(yù)見到它在ChatGPT等產(chǎn)品中能夠發(fā)揮如此關(guān)鍵性的重要作用。
以下為專訪全文:
問:你對《注意力就是你所需要的一切》這篇論文的主要貢獻(xiàn)是什么?
烏斯克爾特:論文的腳注中有詳細(xì)的闡述,但我的核心貢獻(xiàn)在于提出了一個(gè)觀點(diǎn),即有可能利用注意機(jī)制,特別是自我注意,來取代當(dāng)時(shí)序列轉(zhuǎn)導(dǎo)模型中占據(jù)主導(dǎo)地位的遞歸機(jī)制(來自遞歸神經(jīng)網(wǎng)絡(luò)的遞歸機(jī)制)。這種替代方案能夠提升效率,因此也更具成效。
問:你知道你們團(tuán)隊(duì)發(fā)表那篇論文后會(huì)發(fā)生什么嗎?你是否預(yù)見到它將會(huì)創(chuàng)造出怎樣的產(chǎn)業(yè)?
烏斯克爾特:首先,我想強(qiáng)調(diào)的是,我們的工作并非孤立存在,而是站在了眾多前人研究的基礎(chǔ)上。這篇論文并非孤立的事件,而是我們團(tuán)隊(duì)以及其他眾多研究者多年努力的結(jié)晶。因此,如果將后續(xù)的發(fā)展完全歸功于這篇論文,可能是一種人類傾向于講故事的視角,但這并不完全準(zhǔn)確。
在那篇論文發(fā)表之前,我在谷歌的團(tuán)隊(duì)已經(jīng)對注意力模型進(jìn)行了多年的研究。這是一條漫長且充滿挑戰(zhàn)的道路,涉及大量的研究工作,不僅限于我的團(tuán)隊(duì),還有許多其他研究者也在這一領(lǐng)域耕耘。我們對注意力模型寄予厚望,認(rèn)為它能夠從技術(shù)層面推動(dòng)整個(gè)領(lǐng)域的發(fā)展。但是,當(dāng)我們談到它能否真正促進(jìn)像ChatGPT這樣的產(chǎn)品誕生時(shí),至少從表面上看,我們并沒有完全預(yù)見到這一點(diǎn)。我的意思是,即使在我們發(fā)表論文時(shí),大語言模型及其展現(xiàn)出的能力已經(jīng)讓我們感到震驚。
我們沒有將這些技術(shù)直接轉(zhuǎn)化為市場產(chǎn)品,部分原因可能是當(dāng)時(shí)對于開發(fā)大規(guī)模(潛在投資達(dá)100億美元)的產(chǎn)品持保守態(tài)度。盡管我們看到了這些技術(shù)的潛力,但我們并不完全相信僅憑這些技術(shù)本身就能讓一款產(chǎn)品具備足夠的吸引力。至于我們是否對這項(xiàng)技術(shù)寄予厚望,答案是肯定的。
問:既然你們了解谷歌在研發(fā)大語言模型方面的工作,那么當(dāng)ChatGPT在公眾面前取得巨大成功時(shí),你們團(tuán)隊(duì)有何感想?是否會(huì)有“唉,他們做到了,而我們沒抓住機(jī)會(huì)”的遺憾?
烏斯克爾特:確實(shí),當(dāng)時(shí)我們有一種“這是完全有可能發(fā)生的”的感覺。但這種感覺并非“哦,真可惜,他們搶先了”之類的情緒。我更傾向于說“哇,這本來可以更早些實(shí)現(xiàn)的”。至于人們迅速接納并應(yīng)用這些新技術(shù)的速度,我確實(shí)感到驚訝,那真是令人贊嘆不已。
問:那時(shí)候你已經(jīng)離開谷歌了,是嗎?
烏斯克爾特:是的,我已經(jīng)離職了。從某種程度上講,你可以說,谷歌并非進(jìn)行這類創(chuàng)新工作的理想場所,這是我決定離開的原因之一。我離開谷歌并非因?yàn)槲也幌矏勰抢?,而是因?yàn)槲艺J(rèn)為我必須在其他地方去實(shí)現(xiàn)我的愿景,那就是創(chuàng)辦Inceptive公司。
然而,我真正的動(dòng)機(jī)并不僅僅是看到一個(gè)巨大的商業(yè)機(jī)會(huì),而是一種道德上的責(zé)任感,去做一些在外部環(huán)境中能夠做得更好的事情,比如設(shè)計(jì)更有效的藥物,從而對人們的生活產(chǎn)生直接而積極的影響。
問:ChatGPT的有趣之處在于,我之前使用過GPT-3。因此,當(dāng)ChatGPT出現(xiàn)時(shí),對于熟悉這項(xiàng)技術(shù)的人來說,它并不算是一個(gè)巨大的驚喜。
烏斯克爾特:是的,你說得對。如果你之前使用過這類技術(shù),你可以清晰地看到它的演進(jìn)過程,并做出合理的推斷。當(dāng)OpenAI與亞歷克·雷福德(Alec Radford)等人一起開發(fā)最早的GPT模型時(shí),我們就已經(jīng)討論過這些可能性,盡管我們當(dāng)時(shí)并不在同一家公司。我確信,當(dāng)時(shí)我們都能感受到那種興奮,但對于ChatGPT產(chǎn)品會(huì)受到如此廣泛且迅速的歡迎,這仍然是沒有人真正預(yù)料到的事情。
問:我當(dāng)時(shí)的感覺就像是,“哦,這不過是GPT-3加上了一個(gè)聊天機(jī)器人的功能,能在對話循環(huán)中保持上下文。”我并沒有覺得這是一個(gè)突破性的時(shí)刻,盡管它確實(shí)很吸引人。
烏斯克爾特:突破性時(shí)刻可以有不同的形式。這確實(shí)不是一個(gè)技術(shù)層面的突破,但在這種能力水平下,這項(xiàng)技術(shù)展現(xiàn)出了極高的實(shí)用性,這無疑也可以稱之為突破。
同時(shí),我們也需要意識到,用戶在使用我們創(chuàng)建的工具時(shí),他們的創(chuàng)造性和使用方式的多樣性往往出乎我們的預(yù)料。我們可能無法預(yù)見到他們會(huì)有多么善于利用這些工具,以及這些應(yīng)用場景會(huì)有多么廣泛。
很多時(shí)候,我們只能通過實(shí)踐來學(xué)習(xí)。這也是為什么保持實(shí)驗(yàn)態(tài)度和接受失敗的意愿如此重要的原因。因?yàn)榇蠖鄶?shù)情況下,嘗試都會(huì)失敗。但在某些情況下,它會(huì)成功,而且極少數(shù)情況下,它會(huì)像ChatGPT那樣取得巨大的成功。
問:這意味著需要承擔(dān)一定的風(fēng)險(xiǎn)。谷歌是不是缺乏承擔(dān)這樣的風(fēng)險(xiǎn)的意愿?
烏斯克爾特:當(dāng)時(shí)確實(shí)是這樣的。但如果你深入思考,回顧歷史,你會(huì)發(fā)現(xiàn)這其實(shí)是非常有趣的。以谷歌翻譯為例,它的經(jīng)歷其實(shí)與ChatGPT有些相似。當(dāng)我們首次推出谷歌翻譯的第一個(gè)版本時(shí),它充其量只是一個(gè)在聚會(huì)上玩的玩笑。但在很短的時(shí)間內(nèi),我們就把它變成了一個(gè)真正有用的工具。在那個(gè)過程中,它有時(shí)輸出的內(nèi)容簡直糟糕透頂,讓人尷尬不已。然而,谷歌還是堅(jiān)持了下來,因?yàn)檫@是一個(gè)值得嘗試的正確方向。但那是發(fā)生在2008年、2009年、2010年左右的事情了。
問:你還記得AltaVista搜索引擎推出的在線翻譯工具“巴別魚”(Babel Fish)嗎?
烏斯克爾特:當(dāng)然。
問:當(dāng)它首次亮相時(shí),我和我哥哥經(jīng)常被它吸引,我們會(huì)把文本在不同語言之間來回翻譯,因?yàn)檫@樣做會(huì)讓文本變得混亂而有趣。
烏斯克爾特:是的,那種翻譯結(jié)果往往會(huì)越來越離譜,越來越讓人啼笑皆非。
(注:在離開谷歌后,烏斯克爾特與他人共同創(chuàng)立了Inceptive公司,致力于將深度學(xué)習(xí)技術(shù)引入生物化學(xué)領(lǐng)域。該公司正在研發(fā)烏斯克爾特所謂的“生物軟件”,這是一種利用人工智能編譯器將特定行為轉(zhuǎn)化為RNA序列的方法。當(dāng)這些RNA序列被引入生物系統(tǒng)時(shí),它們能夠執(zhí)行預(yù)設(shè)的功能。)
問:你最近的工作重心是什么?
烏斯克爾特:2021年時(shí),我與人共同創(chuàng)立了Inceptive。我們的目標(biāo)是利用深度學(xué)習(xí)和高通量生物化學(xué)實(shí)驗(yàn)來設(shè)計(jì)真正可編程的、更高效的藥物。我們堅(jiān)信,這只是我們“生物軟件”的第一步。
生物軟件在某種程度上與計(jì)算機(jī)軟件相似。你首先設(shè)定一些行為規(guī)范,然后利用一個(gè)編譯器將這些規(guī)范轉(zhuǎn)化為計(jì)算機(jī)軟件,并在計(jì)算機(jī)上運(yùn)行,以展示你所指定的功能。同樣地,在生物軟件中,你定義一個(gè)生物程序的片段,然后利用一個(gè)編譯器進(jìn)行編譯。但這里的關(guān)鍵是,我們并不是使用傳統(tǒng)的工程編譯器,因?yàn)樯w系的復(fù)雜性遠(yuǎn)非計(jì)算機(jī)所能比擬。然而,通過引入具有學(xué)習(xí)能力的人工智能編譯器,我們能夠?qū)⑦@些生物程序片段編譯或轉(zhuǎn)換成分子。當(dāng)這些分子被插入生物系統(tǒng)或有機(jī)體中時(shí),我們的細(xì)胞就會(huì)按照預(yù)設(shè)的功能進(jìn)行運(yùn)作。
問:這與mRNA COVID疫苗的工作原理是否相似?
烏斯克爾特:mRNA COVID疫苗可以被視為一個(gè)極為簡單的實(shí)例。在這個(gè)例子中,程序指示細(xì)胞“制造這種經(jīng)過修飾的病毒抗原”,隨后細(xì)胞就會(huì)按照指示生產(chǎn)相應(yīng)的蛋白質(zhì)。然而,你可以想象,分子所能展現(xiàn)的行為遠(yuǎn)比這更加復(fù)雜。為了直觀理解這些行為的復(fù)雜性,你只需考慮RNA病毒即可。它們僅僅是RNA分子,但當(dāng)它們侵入生物體時(shí),卻能夠展現(xiàn)出令人難以置信的復(fù)雜行為。例如,它們能夠在生物體內(nèi)廣泛分布,甚至在全球范圍內(nèi)傳播,還能在特定的時(shí)間段僅在生物體的少數(shù)細(xì)胞中執(zhí)行特定任務(wù)等等。因此,你可以設(shè)想,如果我們能夠設(shè)計(jì)出具備這些功能的微小分子,將會(huì)帶來怎樣的變革。當(dāng)然,我們的目標(biāo)絕非制造讓人生病的分子,而是創(chuàng)造對人類健康有益的分子,這將徹底改變醫(yī)學(xué)的面貌。
問:你如何確保不會(huì)意外地創(chuàng)造出具有破壞性的RNA序列?
烏斯克爾特:在很長一段時(shí)間里,醫(yī)學(xué)在某種程度上一直游離于科學(xué)之外。它并未被真正透徹地理解,而我們至今仍未完全掌握其實(shí)際的作用機(jī)制。
因此,人類不得不開發(fā)出各種保障措施和臨床試驗(yàn)流程。這些基于經(jīng)驗(yàn)的保障措施,在患者踏入診所之前就已經(jīng)存在,它們能夠阻止我們因疏忽而制造出危險(xiǎn)物質(zhì)。自現(xiàn)代醫(yī)學(xué)誕生以來,這些系統(tǒng)便一直伴隨著我們。因此,我們將繼續(xù)沿用這些系統(tǒng),并竭盡全力確保安全。我們將從最小的系統(tǒng)開始實(shí)驗(yàn),在未來的實(shí)驗(yàn)中采用單個(gè)細(xì)胞,并嚴(yán)格遵循醫(yī)學(xué)界的既定協(xié)議,以確保這些分子的安全性。(小小)