99国内免费在线_无码 有码 日韩 人妻_国产成_人_综合_亚洲_漂亮人妻被强中文字幕久久_手机看片福利永久国产影集

“文瀾B(tài)riVL”模型設(shè)計(jì)者、人大教授盧志武:多模態(tài)大模型,我國彎道超車的可能性很大 | 36氪專訪

來源:36kr時(shí)間:2023-03-28 13:58:01

采訪 | 周鑫雨、蘇建勛、楊軒

文| 周鑫雨

編輯| 蘇建勛


【資料圖】

想過河,但連一塊石頭都摸不著。這是2020年盧志武和中國人民大學(xué)高瓴人工智能學(xué)院團(tuán)隊(duì)自研多模態(tài)大模型時(shí)遇到的困境。

彼時(shí),GPT-3已經(jīng)發(fā)布,國內(nèi)NLP(自然語言處理)領(lǐng)域的研究已逐漸形成規(guī)模。但將涉及領(lǐng)域從文字?jǐn)U展到圖像、視頻的多模態(tài)大模型,依然幾近“無人區(qū)”。

在一年多的時(shí)間里,團(tuán)隊(duì)做了許多“前無古人”的嘗試。比如在2021年初,率先采用微軟新推出的Deep Speed框架來支持幾十億參數(shù)模型的訓(xùn)練。在資源稀缺的情況下,“巧勁”也是必須的——為了減少顯存占用,團(tuán)隊(duì)嘗試性地采用了ViT(VisionTransformer)架構(gòu),還在自監(jiān)督訓(xùn)練中采取了較小的Batch(分批處理)而不降低效果。

2021年3月,團(tuán)隊(duì)的無人區(qū)探索有了初步的成果:多模態(tài)大模型“文瀾B(tài)riVL 1.0(Bridging-Vision-and-Language 1.0)”,后續(xù)還發(fā)布了 “文瀾B(tài)riVL 2.0”。兩年后,2023年3月8日,盧志武團(tuán)隊(duì)借鑒文瀾的研究經(jīng)驗(yàn),自主研發(fā)了多模態(tài)對話大模型,并落地了第一款應(yīng)用級(jí)多模態(tài)ChatGPT產(chǎn)品:“元乘象 ChatImg”。

“元乘象 ChatImg”好比是“會(huì)看圖的ChatGPT”。據(jù)盧志武介紹,基于多模態(tài)融合模塊和語言解碼器,目前Chatlmg參數(shù)規(guī)模大概為150億。用戶輸入一張圖片,Chatlmg就能對其中的內(nèi)容進(jìn)行解讀,并繼續(xù)相關(guān)的對話。

元乘象 ChatImg圖文交互演示。

從艱難穿越無人區(qū)到落地應(yīng)用,盧志武認(rèn)為,中國AI模型研究者不僅要精于技術(shù),也要敢于擁抱新技術(shù)。同時(shí),學(xué)者們也要認(rèn)識(shí)到,從研究走向落地,仍需要跨過一些鴻溝。

以下是36氪和盧志武的對話:

穿越無人區(qū)

36氪:您為什么在3月8日這個(gè)時(shí)間點(diǎn)推出多模態(tài)大模型產(chǎn)品ChatImg?

盧志武:去年11月30日ChatGPT推出后,各方測評(píng)后都發(fā)現(xiàn)了現(xiàn)有研究范式將面臨嚴(yán)峻的挑戰(zhàn)。之前的NLP研究都是針對單任務(wù)去訓(xùn)練小模型,比如翻譯、實(shí)體識(shí)別、情感分析等。但是ChatGPT出現(xiàn)后,一個(gè)大模型就可以完成所有的任務(wù)。所以,單獨(dú)對每個(gè)任務(wù)進(jìn)行研究失去了意義。

ChatGPT的發(fā)布對多模態(tài)方向的沖擊相對少一點(diǎn),畢竟ChatGPT的強(qiáng)項(xiàng)是在文本處理。但是當(dāng)時(shí)我們也聽到一些關(guān)于GPT-4想要做多模態(tài)的風(fēng)聲,因此也特別著急。所以團(tuán)隊(duì)趕緊用了大概2個(gè)月的時(shí)間去訓(xùn)練ChatImg,在3月8日這個(gè)時(shí)間點(diǎn)推出,比GPT-4和百度的文心一言更早。

36氪:按任務(wù)劃分研究方向的模式是如何誕生的?

盧志武:NLP的研究其實(shí)有很長的歷史,針對不同的細(xì)分領(lǐng)域,比如情感分析、實(shí)體識(shí)別、翻譯,大家想的都是分開每個(gè)老師自己做,沒有想過用一個(gè)方法把任務(wù)一統(tǒng)天下。

2020年GPT-3出來的時(shí)候,其實(shí)有點(diǎn)出乎大家的意料,用一個(gè)大模型就可以做多個(gè)任務(wù)。但是當(dāng)時(shí)GPT-3的效果還沒那么好,所以大家也沒有重視。

36氪:研究方向的差異會(huì)造成研究方法的不同嗎?

盧志武:差別太大了。比如說單獨(dú)做翻譯任務(wù),我們只要專門去收集翻譯數(shù)據(jù),訓(xùn)練一個(gè)小模型,絕大部分高效的研究人員都能做這件事。但是大語言模型需要很多數(shù)據(jù)和算力,一般高校的老師就做不了,基本上被大廠壟斷了。

36氪:在2020年GPT-3出來后,國內(nèi)會(huì)不會(huì)有研究人員想做大模型,但是由于您剛才說的數(shù)據(jù)和算力等資源的限制無法做?

盧志武:其實(shí)2020年的時(shí)候,國內(nèi)一些研究者已經(jīng)意識(shí)到大模型的重要性,比如我們開始做多模態(tài)大模型,以及智源研究院的唐杰和劉知遠(yuǎn)教授,是國內(nèi)最早做自然語言大模型的一批。

但國內(nèi)主要缺的是算力,當(dāng)然高質(zhì)量數(shù)據(jù)也是一個(gè)難點(diǎn)。另外,在模型商業(yè)落地的過程當(dāng)中,由于模型本身很大,推理過程消耗的算力就很多,成本太高了,可能要幾十張卡才能部署起來,根本沒法落地。所以2020年的時(shí)候大家做的基本是純學(xué)術(shù)研究。

36氪:2020年的時(shí)候,團(tuán)隊(duì)和智源研究院合作,對方主要提供的也是算力資源?

盧志武:是的。大概在2021年初,我們組做文瀾訓(xùn)練的過程中,最多的時(shí)候用了約400塊A100,最后在算力上都花了3000萬元。

36氪:在模型研發(fā)過程中團(tuán)隊(duì)還遇到過哪些困難?

盧志武:當(dāng)時(shí)我們是國內(nèi)最早一批做多模態(tài)大模型的,沒有人告訴你怎么走,連模型怎么設(shè)計(jì)都不知道。最后我們用了大概半年的時(shí)間定了一個(gè)方案,慢慢用一小部分?jǐn)?shù)據(jù)去測試,發(fā)現(xiàn)效果不錯(cuò),就拿更大體量的數(shù)據(jù)去測試,最后直接上了6億數(shù)據(jù)去訓(xùn)練,發(fā)現(xiàn)效果更好了。

設(shè)計(jì)路徑我們也和OpenAI撞車了兩次。一次在2021年1月,OpenAI發(fā)布了多模態(tài)模型CLIP,其實(shí)我們2020年也開始做了,最后是2021年3月發(fā)布了多模態(tài)大模型文瀾B(tài)riVL 1.0。

當(dāng)時(shí)學(xué)界其實(shí)會(huì)很強(qiáng)調(diào)圖文數(shù)據(jù)之間的強(qiáng)相關(guān),比如蛋糕的圖片對應(yīng)的是“蛋糕”,但人類在理解圖片的時(shí)候,其實(shí)圖文之間的相關(guān)性是比較弱的,比如蛋糕的圖片也可以是“生日快樂”。所以當(dāng)我們把圖文之間的關(guān)系強(qiáng)調(diào)為一種弱相關(guān),數(shù)據(jù)收集的成本就會(huì)大大降低。

這是一種思想上的突破,這點(diǎn)上我們和CLIP也是英雄所見略同。

另一次,就是我們在2023年3月8日發(fā)布ChatImg,早于OpenAI發(fā)布GPT-4。我們兩次與OpenAI并跑,證明我們對多模態(tài)大模型的前沿方向一直有很好的眼光。

36氪:除了思想上的突破,團(tuán)隊(duì)還用了哪些“巧勁”?

盧志武:2021年3月后,我們就開始用6億的圖文對數(shù)據(jù)和400卡的算力,但當(dāng)時(shí)其實(shí)沒有一個(gè)好用的框架支持這么大的算力。剛好微軟推出了Deep Speed框架,其實(shí)這是一個(gè)很不完善的框架,很多時(shí)候我們都是在調(diào)Bug。但是這個(gè)框架的優(yōu)勢在于能夠支持更大算力的并行,把算力的利用率提高。最后調(diào)Bug花了一個(gè)月,訓(xùn)練模型花了一個(gè)月。

我們也是國內(nèi)最早一批采用ViT(Vision Transformer)架構(gòu)的,這個(gè)架構(gòu)能夠把多模態(tài)大模型的顯存占用降下來。

產(chǎn)學(xué),要跨過鴻溝

36氪:發(fā)布文瀾后,團(tuán)隊(duì)有立刻受到企業(yè)關(guān)注嗎?

盧志武:是有的。一家企業(yè)專門成立了團(tuán)隊(duì)研究文瀾,我們也和幾家企業(yè)達(dá)成了合作,幫他們研發(fā)應(yīng)用到具體場景的大模型。

36氪:在企業(yè)做模型和在學(xué)校會(huì)有不同嗎?

盧志武:其實(shí)對于普通教授來說很難承受,比如我們訓(xùn)練文瀾模型時(shí),所有學(xué)生一整年都沒發(fā)論文,因?yàn)樗腥说木Χ纪度氲酱竽P陀?xùn)練上,全是一些工程相關(guān)的事,所以沒有時(shí)間去寫論文。

36氪:您覺得我國的AI人才儲(chǔ)備在全球范圍內(nèi)處于什么水平?

盧志武:我覺得中國人的聰明程度完全沒問題,只是說還是有一些系統(tǒng)上的難題,比如高校老師做大模型,就要在一定程度上放棄論文考核,頂住壓力。

36氪:現(xiàn)在團(tuán)隊(duì)做成果轉(zhuǎn)化是以人大高瓴學(xué)院為主要單位嗎?

盧志武:其實(shí)會(huì)考慮兩方面。一方面,模型訓(xùn)練仍然放在人大,因?yàn)樵谫Y源的爭取上能夠有更多的機(jī)會(huì)。但是從落地的角度而言,只能依靠企業(yè)形態(tài),我們的開源研究成果也在學(xué)生高一釗成立的公司“智子引擎”進(jìn)行一些商業(yè)化的落地。但光靠公司,又很難申請到相應(yīng)的研究資源。

36氪:會(huì)有企業(yè)向您拋來橄欖枝嗎?

盧志武:也會(huì)有。但我們作為學(xué)者,還是希望能夠獨(dú)立,自己去決定研究方向。

36氪:大模型的發(fā)展不是線性的,那是不是意味著我們有機(jī)會(huì)超越OpenAI?

盧志武:至少在多模態(tài)上,我覺得很有可能。目前OpenAI的GPT-4在多模態(tài)的理解和生成上還沒有給出一個(gè)完美的解決方案。OpenAI在語言上做的太好了,但也會(huì)形成路徑依賴,轉(zhuǎn)向多模態(tài)并不是那么容易。

36kr制圖

關(guān)鍵詞:

責(zé)任編輯:FD31
上一篇:GPT-4蘇醒,AI要「殺」人?Hinton、ChatGPT之父預(yù)警,LeCun怒懟:不如我家狗-全球快看點(diǎn)
下一篇:最后一頁