AI大模型領域的「環(huán)球影城」正式開業(yè)!
汽車人、霸天虎集結,這次不是為了賽博坦,而是為了瘋狂爭奪「火種源」。
現(xiàn)實世界中,AI巨頭們在也在為這一「生命之源」——大模型展開爭奪戰(zhàn),進行巔峰對決。
5300億參數(shù),燒了4480塊英偉達GPU,威震天-圖靈(MT-NLG)可以說是當前最大的語言模型。此外,GPT-3有1750億參數(shù),浪潮「源1.0」2457億參數(shù)...
自從2018年谷歌推出BERT模型以來,語言模型做的越來越大,仿佛沒有終點。短短幾年,模型參數(shù)已經(jīng)從最初的3億,擴張到萬億規(guī)模。
然而,這并不是終點,爭奪「火種源」角逐還在繼續(xù)。
那么,這些AI巨頭到底在爭什么,在探索什么?
大模型究竟是否是一條正確的道路?
從國外來看,2018年,谷歌提出3億參數(shù)BERT模型驚艷四座,將自然語言處理推向了一個前所未有的新高度。
可以說,谷歌最先開啟了大模型一股熱潮。
緊接著,OpenAI在2019年初推出GPT-2,15億參數(shù),能夠生成連貫的文本段落,做到初步的閱讀理解、機器翻譯等。
還有英偉達威震天(Megatron-LM)83億參數(shù),谷歌T5模型110億參數(shù),微軟圖靈Turing-NLG模型170億參數(shù)。
這些模型一次次不斷地刷新參數(shù)規(guī)模的數(shù)量級,而2020年卻成為這一數(shù)量級的分界線。
大火的GPT-3,1750億參數(shù),參數(shù)規(guī)模達到千億級別,直逼人類神經(jīng)元的數(shù)量。
能作詩、聊天、生成代碼等等,無所不能。
就在近日,微軟和英偉達聯(lián)手發(fā)布了Megatron-Turing自然語言生成模型(MT-NLG),5300億參數(shù)。
號稱同時奪得單體Transformer語言模型界「最大」和「最強」兩個稱號。
除了千億規(guī)模的稠密單體模型,還有萬億規(guī)模的稀疏混合模型。
如果將單體模型比作珠穆朗瑪峰,那么混合模型就是喜馬拉雅山脈其他的小山峰。
谷歌在今年年初推出了1.6萬億參數(shù)的Switch Transformer。而智源「悟道2.0」1.75萬億參數(shù)再次刷新萬億參數(shù)規(guī)模的記錄。
好一副「百家爭鳴」之勢。
為什么會這樣?一句話,大模型是大勢所趨,更是必爭的高地!
如今大模型的這種盛世,與深度學習時代極其相似。
就好比十幾年前深度學習的崛起一樣,國內(nèi)外AI巨頭看到了這個技術的未來,于是紛紛入局于此,各種各樣深度學習的模型不斷涌現(xiàn)。
現(xiàn)在,大模型更迭速度只會越來越快。
那么,為什么我們要比較這幾個模型呢?
在討論這個問題之前,需要先搞懂大模型都有哪些分類。
比如說,從模型架構角度:單體、混合;功能角度:NLP、CV、對話等等。
其中,谷歌「Switch Transformer」采用Mixture of Experts (MoE,混合專家) 模式將模型進行了切分,其結果是得到的是一個稀疏激活模型。雖然節(jié)省了計算資源,但是精度卻很難提高。
目前來說,自然語言處理領域單體大模型的頂流是:「GPT-3」、「MT-NLG」以及「源 1.0」。
https://arxiv.org/pdf/2110.04725.pdf
不過,中文和英文的模型之間區(qū)別還是很大的。
在自然語言理解方面,由于分詞方式不同、同一詞組不同歧義以及新詞匯等方面挑戰(zhàn),所以中文訓練的難度更高。
例如分詞難點:中國科學技術大學;中國\科學技術\大學;中國\科學\技術\大學。這三種不同的分詞形式,表達的意思有著天壤之別。這還僅僅是其中之一。
因此,訓練中文NPL模型的訓練難度要比同量級英文模型難度更高。
要做就做最大的
英文的高質(zhì)量文本數(shù)據(jù)集可謂是五花八門。
有包含HackerNews、Github、Stack Exchange、ArXiv甚至還有YouTube字幕的The Pile;有包含了超過50億份網(wǎng)頁元數(shù)據(jù)的數(shù)據(jù)平臺Common Crawl;甚至還可以用Reddit論壇的內(nèi)容來進行訓練。
就拿The Pile來說吧,其中包含了825GB的多樣化開源語言建模數(shù)據(jù),由22個較小的、高質(zhì)量的數(shù)據(jù)集合組成。
GPT-3采用了規(guī)模超過292TB,包含499億個token的數(shù)據(jù)集。
MT-NLG則使用了15個數(shù)據(jù)集,總共包含3390億個token。
相比起來,中文的訓練數(shù)據(jù)就匱乏得多了。
最大的開源項目CLUECorpus2020只包含了100GB的高質(zhì)量數(shù)據(jù)集。
https://github.com/CLUEbenchmark/CLUECorpus2020
為了獲得高質(zhì)量的數(shù)據(jù)集, 「源1.0」的團隊開發(fā)了一套大數(shù)據(jù)過濾系統(tǒng) Massive Data Filtering System (MDFS),其中包括數(shù)據(jù)收集、粗略過濾、精細過濾三部分。
數(shù)據(jù)預處理流程圖
數(shù)據(jù)主要來自Common Crawl、搜狗新聞(SogouN)、搜狗互聯(lián)網(wǎng)語料庫版本(SogouT,2016)、百科數(shù)據(jù)和書籍數(shù)據(jù)。
待清洗的原始數(shù)據(jù)
在對原始語料進行粗篩選之后,團隊又訓練了一個基于Bert的模型來對高質(zhì)量、低質(zhì)量和廣告內(nèi)容進行分類,并輔以人工篩查。
精細過濾之后的高質(zhì)量語料大小
最后終于得到了5TB高質(zhì)量中文數(shù)據(jù)集,其中包括近5年中文互聯(lián)網(wǎng)的全部內(nèi)容和近2000億個詞。
計算效率up!
有了數(shù)據(jù)集,也構建好了模型,現(xiàn)在就可以來談一談訓練了。
對于最新的「MT-NLG」,由560臺DGX A100服務器提供動力,其中每個DGX A100都有8個NVIDIA A100 80GB張量核心圖形處理器,也就是4480塊A100顯卡。每個GPU的算力直接飆到每秒113萬億次浮點運算。
GPT-3的訓練則是在超過28.5萬個CPU核心以及超過1萬個GPU上完成,GPU在訓練過程中達到每秒2733億次浮點運算。
而「源1.0」只用了2128張GPU,并在短短的16天就完成了訓練。
這又是如何做到?
「源1.0」的團隊創(chuàng)新性地采用了張量并行、流水線并行和數(shù)據(jù)并行的三維并行策略。
張量并行
在張量并行策略中,模型的層在節(jié)點內(nèi)的設備之間進行劃分。Transformer結構在進行前向計算和反向傳播時,注意力層和多層感知機 層的張量將會被按行或列進行拆分。輸入端的張量首先會發(fā)送給每個加速器,在加速器中各張量獨立進行前向計算。
流水線并行
流水線并行將 LM 的層序列在多個節(jié)點之間進行分割,以解決存儲空間不足的問題。每個節(jié)點都是流水線中的一個階段,它接受前一階段的輸出并將結果過發(fā)送到下一階段。如果前一個相鄰節(jié)點的輸出尚未就緒,則當前節(jié)點將處于空閑狀態(tài)。
數(shù)據(jù)并行
采用數(shù)據(jù)并行時,全局批次規(guī)模按照流水線分組進行分割。每個流水線組都包含模型的一個副本,數(shù)據(jù)在組內(nèi)按照局部批次規(guī)模送入模型副本。
從結果上看,「源1.0」的訓練共消耗約4095PD(PetaFlop/s-day),相較于「GPT-3」的3640PD,計算效率得到大幅提升。
在零樣本和小樣本學習「霸榜」
為什么一說大模型就要提這倆貨?
原因很簡單,人類可以僅通過一個或幾個示例就可以輕松地建立對新事物的認知,而機器學習算法通常需要成千上萬個有監(jiān)督樣本來保證其泛化能力。
而是否擁有從少量樣本中學習和概括的能力,是將人工智能和人類智能進行區(qū)分的明顯分界點。其中,零樣本學習更是可以判斷計算機能否具備人類的推理和知識遷移能力,無需任何訓練數(shù)據(jù)就能夠識別出一個從未見過的新事物。
簡單來說,零樣本學習,就是訓練的分類器不僅僅能夠識別出訓練集中已有的數(shù)據(jù)類別,還可以對于來自未見過的類別的數(shù)據(jù)進行區(qū)分;小樣本學習,就是使用遠小于深度學習所需要的數(shù)據(jù)樣本量,達到接近甚至超越大數(shù)據(jù)深度學習的效果。
不管是「GPT-3」還是「MT-NLG」,都在強調(diào)自己在這兩方面的學習能力。
當然,二者的區(qū)別在于,作為前任SOTA的「GPT-3」被「MT-NLG」以微弱的優(yōu)勢「干」掉了。
「GPT-3」在LAMBDA和PIQA測試集上取得的成績
「MT-NLG」在LAMBDA和PIQA測試集上取得的成績
「源1.0」雖然沒有辦法直接和二者進行對比,不過在中文最大規(guī)模的語言評估基準——CLUE上的成績還是很有說服力的。
在ZeroCLUE零樣本學習榜單中,「源1.0」以超越業(yè)界最佳成績18.3%的絕對優(yōu)勢遙遙領先。在文獻分類、新聞分類,商品分類、原生中文推理、成語閱讀理解填空、名詞代詞關系6項任務中獲得冠軍。
在FewCLUE小樣本學習榜單中,「源1.0」獲得了文獻分類、商品分類、文獻摘要識別、名詞代詞關系等4項任務的冠軍。
刷榜終究是刷榜,雖然成績很好,但實戰(zhàn)起來還是很容易被人類「一眼看穿」。
不過,其實從成績單上的分數(shù)也能看出,不管是英文還是中文的模型,和人類比起來差距還是很大的。
尤其是在情感理解和話題表達方面這類沒有特定規(guī)則的情景下,比如作詩、寫故事等等。
AI巨頭競相追逐模型規(guī)模的新高度,這自然帶來一個靈魂之問:他們在探索什么?
當前,語言模型的訓練已經(jīng)從「大煉模型」走向「煉大模型」的階段,巨量模型也成為業(yè)界關注的焦點。
近日,Percy Liang,李飛飛等一百多位學者在發(fā)表的 200 多頁的研究綜述 On the Opportunities and Risk of Foundation Models 中闡述了巨量模型的意義在于「突現(xiàn)和均質(zhì)」。
論文中,他們給這種大模型取了一個名字,叫基礎模型(foundation model),其在NLP領域表現(xiàn)出了強大的通用性和適用性。
目前AI研究的涌現(xiàn)性和同質(zhì)化特征
構建越來越大的模型,真的就會越來越好嗎?
從ELMo到Bert再到之后的GPT-3等一系列模型,預訓練模型的性能一直在提升,這是一個非常強的證據(jù)。
而現(xiàn)在威震天-圖靈的參數(shù)量是5300多億,可見,當前模型的參數(shù)規(guī)??赡芤矝]有達到通用人工智能所要求的水平。
所以說,更大的模型依舊是剛需。
那么,構建越來越大的模型,真的能夠通向通用人工智能(AGI)嗎?
OpenAI 的無監(jiān)督轉化語言模型 GPT-3,展現(xiàn)出了從海量未標記數(shù)據(jù)中學習,且不限于某一特定任務的「通用」能力。
因此讓許多人看到了基于大規(guī)模預訓練模型探索通用人工智能的可能。
坦白講,我們開始對大模型認識不太清晰的時候,認為它只是用來作首詩,對個對子,但其實這些并不是大模型的魅力所在。
大模型真正的魅力在于「不可知」,而在于對未來的一個探討。
一位清華教授曾表示,GPT-3已經(jīng)越來越接近人類水平,但它有一個「阿喀琉斯之踵」。
GPT這說明,GPT-3很聰明,但它仍有一些認知局限——沒有常識。
自然語言處理研究員、康奈爾大學數(shù)據(jù)科學家Maria Antoniak表示,「談到自然語言,更大的模型是否是正確的方法是一個懸而未決的問題。
雖然目前一些最好的基準性能得分來自大型數(shù)據(jù)集和模型,但是將大量數(shù)據(jù)傾倒到模型中的回報是不確定的。」
這足以證明,對大模型進行探索是一個持續(xù)不斷的過程。
全球AI巨頭爭的是,探索的是大模型未知領域的「處女地」,可以說是面向通用智能最高階智能的探索。
其實,不僅僅是科學探索,它必然會產(chǎn)生一種催化效應,探索的成果也會帶動CV、OCR、語音等領域的發(fā)展。
因為,最終的智能產(chǎn)生是在這基礎之上建立的。
我是誰?我在哪?我將要去向何方...
這對于人類來說是一直探索的哲學問題,那么機器會如何回答?
當我們輸入一些命題時,它能夠給出很多靈感式答案。
「源1.0」便是一個非常好的開始,但未來的路還很長。
參考資料:
https://arxiv.org/pdf/2005.14165.pdf
https://arxiv.org/pdf/2004.05986.pdf
https://arxiv.org/pdf/2110.04725.pdf
https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/
https://easyai.tech/ai-definition/tokenization/
https://lifearchitect.ai/models/#contents
本文來自微信公眾號“新智元”(ID:AI_era),作者:新智元,36氪經(jīng)授權發(fā)布。