在2021GTC大會上,英偉達CEO黃仁勛表示Omniverse愿景是讓個人模擬制造出遵從物理規(guī)律的共享3D虛擬世界。Omniverse可完成實時3D設計協(xié)作和虛擬世界模擬,將圖形、AI、模擬和可擴展計算整合到一個平臺上。
同時,英偉達將自己定位為提供底層基礎設施服務商。英偉達技術專家表示,Omniverse為“數(shù)字人”引入了最接近“人”的表情、語言系統(tǒng)。英偉達認為,當數(shù)字人跟真人可以溝通交流,貫穿真實跟虛擬世界時,才算是完美詮釋了元宇宙的概念。
今年NVIDIA GTC大會已于3月21日展開,CEO黃仁勛在主題演講中,著重介紹了Omniverse Avatar。黃仁勛請出了基于自身形象定制的、完全實時、完全動畫化的Avatar——Toy Jensen。并借Toy Jensen之口介紹了Avatar的制作流程。
Avatar是一個基于Omniverse平臺框架構建的虛擬人,Avatar的聲音完全由Riva的文本轉語音RADTTS合成,而且可用于通過Omniverse Audio2Face驅動Avatar的面部動畫。接下來Omniverse動畫的動畫圖形用于定義并控制Avatar的動作,包括手和手臂的動作,以及細微的頭部和身體運動。
使用NVIDIA開源的跨平臺材質定義語言(MDL)可以增加觸感,而RTX渲染器能實時以高保真度呈現(xiàn)Avatar形象。最后得益于Riva中的最新對話式AI技術和Megatron 530B NLP模型,從而實現(xiàn)Avatar自由對話。
同時Omniverse Avatar可以從云、數(shù)據(jù)中心、或其它任何分解系統(tǒng)運行,而這都要歸功于Tokkio。Tokkio是一款使用Omniverse Avatar構建的應用,它將客戶服務AI引入零售店、快餐餐廳甚至網(wǎng)絡。它使用計算機視覺、Riva語言AI和NVIDIA NeMO 等NVIDIA AI模型和技術打造而成。由于Tokkio在我們的統(tǒng)一計算框架(或UCF)上運行,因此可以從云端橫向擴展。
如果說Omniverse的魅力是融合多種可能,將游戲、VR、數(shù)字會議空間、數(shù)字資產(chǎn),甚至可能是到大腦與機器的互動,乃至于人工智能被納入其中。在做到融合的愿景之前,業(yè)界普遍看好行業(yè)底層技術如游戲引擎和數(shù)字人廣泛地應用到其它領域。
2月23日晚11點,NVIDIA GTC 2022在電話會上談論數(shù)字人如何影響各行各業(yè)。對話嘉賓有Cedrus Digital 研發(fā)負責人 Sarah Bacha 、迪士尼動畫工作室研發(fā)副總裁Markus Gross, Epic Games數(shù)字人科技部門副總經(jīng)理Vladimir Mastilovic、Cine Tracer 開發(fā)者Matt Workman,NVIDIA圖形處理及AI負責人Simon Yuen, Reallusion產(chǎn)品市場副總經(jīng)理John Matin II及Microsoft首席科學家Erroll Wood。
以下是編譯內容節(jié)選,略經(jīng)編輯:
Epic Games數(shù)字人科技部門副總經(jīng)理Vladimir Mastilovic:
大家好,我的名字是弗拉基米爾,我是Epic Games數(shù)字人技術副總裁。早前,我供職于數(shù)字人技術與創(chuàng)意內容開發(fā)商3Lateral。從那時開始,我們一直專注于研發(fā)數(shù)字人技術。因此,我們整合優(yōu)化了大量動捕系統(tǒng),以便在實時環(huán)境處理大量數(shù)據(jù)。我們很多項目都圍繞開放世界游戲,比如最近的《極限競速:地平線》系列。
我們在實時數(shù)據(jù)處理方面擁有豐富的經(jīng)驗。我們研發(fā)了 Metrics Human Product,我們的使命是把它帶給每個人,幫助他們講故事,期望未來能廣泛地應用到其它領域。
Cine Tracer開發(fā)者Matt Workman :
大家好,我是馬特·沃克曼。我是一名專注數(shù)字人的開發(fā)者和內容生產(chǎn)者。幾乎每一天,我都專注于開發(fā)一款電影攝影布光產(chǎn)品Cine Tracer。Cine Tracer用虛幻引擎制作,主要被電影制作者用于預演和故事板,現(xiàn)在它在Steam上銷售。
在過去的一年里,我一直在整合數(shù)字人資產(chǎn),做了很多衣服、鞋子、帽子等等。我一直在制作有關動作捕捉的內容,而后用在Cine Tracer,并盡我所能努力提高質量。
NVIDIA圖形處理及AI負責人 Simon Yuen:
大家好,我是西蒙·尤尼恩,我是英偉達人工智能和圖形處理總監(jiān)。大約4年前,我加入了視頻行業(yè),在此之前,我花了20多年時間制作視覺特效,創(chuàng)造數(shù)字人類、生物等等。我們看到游戲娛樂、電影等領域,對數(shù)字人需求與日俱增。想問一個問題,大家在生產(chǎn)數(shù)字人時是否需要耗費大量時間?對一些領域專家來說,這是非常耗時的。因此,我們想使用人工智能來加速這一進程,希望最終能夠普及且質量不錯。
Reallusion產(chǎn)品市場副總經(jīng)理JohnMatinII:
大家好,我叫約翰·馬丁,來自3D/2D 即時動畫公司Reallusion。公司為動畫系統(tǒng)、角色、創(chuàng)造提供工具。對公司來說,優(yōu)先級最高的事情是把工具融入到行業(yè)發(fā)展大勢中,讓動畫角色流動起來。舉例來說,我們已經(jīng)Omniverse平臺成功打通,在此基礎之上大家可以聯(lián)合任意一家社區(qū)來創(chuàng)建和協(xié)作。
我們的使命是把我們的角色打造成一個可擴展的版本,無論你需要一群人還是單個高逼真度、實時的角色。大家可以輕松地接入。這些先進的數(shù)字人,對于行業(yè)發(fā)展非常重要。
Microsoft首席科學家Erroll Wood:
我是Erroll,我擔任微軟混合現(xiàn)實和人工智能實驗室的首席科學家?;旧希覀兊墓ぷ魇覈@混合現(xiàn)實、全息眼鏡及增強現(xiàn)實等硬件。你可以將設備戴在頭上,或者連接到具有景深功能的相機上。我們致力于研究人們使用混合現(xiàn)實備時,如何互動和交流才能變得更愉快。
我們有很多計算機視覺問題需要去解決。但我一直在研究,我們如何使用由數(shù)字人類驅動的合成數(shù)據(jù)來解決這些計算機視覺問題。然而,目前有很多傳統(tǒng)的機器學習問題,很難收集正確的數(shù)據(jù)。
迪士尼動畫工作室研發(fā)副總經(jīng)理Markus Gross:
我現(xiàn)在在迪士尼工作室擔任首席科學家,早前曾在瑞士聯(lián)邦理工學院(ETH)計算機符號學院工作了近30年。大約在25年前,我開始研究數(shù)字人,主要是為了基于物理模擬的醫(yī)學應用。進入迪士尼后,我們開始涉足娛樂和特效等領域。過去10年里,我們所做的美杜莎動物動作捕捉系統(tǒng),對行業(yè)意義重大。目前,它已被集成至工業(yè)光魔特效管道中。
我們小組致力于把數(shù)字人帶到日常生活中,這在電影特效領域應用尤為廣泛。十三年前,我加入迪士尼后,花了很長時間才把數(shù)字人面部動畫效果提升至真人水平。通常情況下,動畫效果由故事驅動。我們想要塑造能夠向觀眾投射真實情感深度的數(shù)字角色,他們會跟觀眾建立聯(lián)系。在這一點上,我相信我們已經(jīng)在某種程度上實現(xiàn)了這一目標。電影中基于動捕的數(shù)字角色是絕對可信和真實的。
看來,隨著元宇宙興起,以及NLP、AI等技術推動下,實時數(shù)字人有望迎來新一輪爆發(fā)。他們在行業(yè)中的重要性將變得愈發(fā)重要。
Reallusion產(chǎn)品市場副總經(jīng)理John Matin II:
現(xiàn)在,制作電影的門檻已經(jīng)相對較低,尤其是拍攝前期,無需龐大的制作團隊及設備,大家都站在同一起跑線上。如果大家目標是打造像素動畫,用現(xiàn)有工具非常容易實現(xiàn)這一目標。我認為,獨立電影人潛力巨大,他們能打破傳統(tǒng)制作流程,引入新制作思路,會對行業(yè)產(chǎn)生巨大影響。
在實際拍攝中,數(shù)字人可以幫助導演、編劇更好地詮釋畫面。像Cine Tracer工具就非常好用。
Cine Tracer 開發(fā)者Matt Workman:
我認為,如果我們把個體創(chuàng)造者看作是創(chuàng)造者經(jīng)濟,那么他們會對數(shù)字人做什么?這是我們將要考慮到的現(xiàn)實問題。聽起來,使用已有創(chuàng)作者工具,會有多種方式讓木偶變成數(shù)字人,輕輕地點擊一下就行。在制作過程中,它實際上需要調校好的算法進行分發(fā)。
現(xiàn)在看來,遠程協(xié)作將變成日常工作模式。那么,你是否能讓開發(fā)者協(xié)作變得快捷,讓電影學院學生在宿舍就能完成拍攝?我個人還蠻期待這種協(xié)作方式的。
Epic Games數(shù)字人科技部門副總經(jīng)理Vladimir Mastilovic:
20年前,當我進入數(shù)字人領域時,感覺互動媒體是一種真正的藝術形式,它還沒有被超越。現(xiàn)在,它們在商業(yè)上成果豐碩。還想提一句,最近Epic公布的虛幻5引擎開發(fā)的演示DEMO:《黑客帝國:覺醒》讓人虛實難辨,真的很有趣。
我們將不再把電影看作是線性內容。它將被轉化為同時具有交互性和線性兩種特質的產(chǎn)物。你將有機會選擇,甚至直接參與。事實上,從后期制作中的特效演變?yōu)榍捌谝曈X化、虛擬制作,這似乎是娛樂業(yè)的自然演變。
Microsoft首席科學家Erroll Wood:
Microsoft在數(shù)字人方面取得的進展,將幫助我們以新的方式解決傳統(tǒng)的計算機視覺和機器學習問題。特別是計算機視覺領域。我們正呼吁越來越多的人重視合成數(shù)據(jù)的重要性。原因在于,當你可以制作出更多樣化的數(shù)據(jù),訓練模型有望更加具有實用性。
公司不少已發(fā)布產(chǎn)品,都采用合成數(shù)據(jù)進行訓練。我們意識到,就像其它計算機視覺問題一樣,數(shù)字人可以解決這些問題。
NVIDIA圖形處理及AI負責人Simon Yuen:
我將在大家談論的內容和視頻基礎上展開討論。我們擁有相當多樣化的客戶,都是關于虛擬世界的。由于內容創(chuàng)造速度和雇傭員工數(shù)量有限,利用人工智能加速成為一個大趨勢。
更重要的是,我認為Sarah、Erroll和其他人提到的其它領域也在增長。像醫(yī)院中的殘疾患者,他們或許更喜歡與數(shù)字人交談,而不是真人。原因在于,與數(shù)字人交談讓他們感到更舒服。我將以這個例子做結束,我的一個朋友,他們的孩子大約10歲,他們使用iPhone Siri交談的方式與我們大多數(shù)人不同。他們像跟朋友一樣和他們交談。
所以,我認為無論是我們這一代還是下一代,都會跟虛擬角色建立關系。這將成為我們生活的一部分。同時,這也造成一個明顯的問題,當我們開始研究用數(shù)字人技術時,耗費時間長達數(shù)十年之巨才能擁有阿拉丁精靈、霍克教授。
特效的數(shù)字人體技術時,它需要花費整整十年的持續(xù)研究和技術改進,才能在某種程度上超越了年輕的肯尼谷?;孟氲臄?shù)字人類類型從阿拉丁精靈類型到霍克教授皆有。
所以這真的需要一段很長的時間。在不同的場景中,我們不一定非得需要一個真人,可以是擬真人類或者是抽象人物。
Cedrus Digital 研發(fā)負責人 Sarah Bacha:
在我看來,發(fā)展何種數(shù)字人類型完全取決于用途。比如你想做什么?如果你想讓他們與真人聯(lián)系起來,或許知名歷史人物會更具親和力。如果是一款教育作品,頭像越逼真越能與學生產(chǎn)生聯(lián)系。如果你不想讓它聯(lián)想到真人,我會說數(shù)字人越抽象越好。
再次強調,這一切取決于我們?yōu)槭裁葱枰@個數(shù)字人。
Reallusion產(chǎn)品市場副總經(jīng)理John Matin II:
我認為美妙之處在于實時數(shù)字人一直在進步。眼下數(shù)字人現(xiàn)在正變得更加真實,像頭發(fā)等,這主要是由于引擎不斷在進化??紤]數(shù)字人整體性,如果衣服、眼鏡等配飾有更多選擇的話,它會顯得更加真實。當然,這與不同的角色特性有關。
關鍵詞: 副總經(jīng)理 計算機視覺 人工智能