一行字實現(xiàn)3D換臉，UC伯克利提出「Chat-NeRF」，說句話完成大片級渲染

來源：36kr時間：2023-03-28 15:10:02

只需要一行字的黑科技！UC伯克利提出Instruct-NeRF2NeRF，一鍵圖像編輯進階一鍵3D場景編輯。

由于神經(jīng)3D重建技術(shù)的發(fā)展，捕獲真實世界3D場景的特征表示從未如此簡單。

(資料圖片僅供參考)

然而，在此之上的3D場景編輯卻一直未能有一個簡單有效的方案。

最近，來自UC伯克利的研究人員基于此前的工作InstructPix2Pix，提出了一種使用文本指令編輯NeRF場景的方法——Instruct-NeRF2NeRF。

論文地址：https://arxiv.org/abs/2303.12789

利用Instruct-NeRF2NeRF，我們只需一句話，就能編輯大規(guī)模的現(xiàn)實世界場景，并且比以前的工作更真實、更有針對性。

比如，想要他有胡子，臉上就會出現(xiàn)一簇胡子！

或者直接換頭，秒變成愛因斯坦。

此外，由于模型能不斷地使用新的編輯過的圖像更新數(shù)據(jù)集，所以場景的重建效果也會逐步得到改善。

NeRF + InstructPix2Pix = Instruct-NeRF2NeRF

具體來說，人類需要給定輸入圖像，以及告訴模型要做什么的書面指令，隨后模型就會遵循這些指令來編輯圖像。

實現(xiàn)步驟如下：

在訓練視角下從場景中渲染出一張圖像。使用InstructPix2Pix模型根據(jù)全局文本指令對該圖像進行編輯。用編輯后的圖像替換訓練數(shù)據(jù)集中的原始圖像。 NeRF模型按照往常繼續(xù)進行訓練。

實現(xiàn)方法

相比于傳統(tǒng)的三維編輯，NeRF2NeRF是一種新的三維場景編輯方法，其最大的亮點在于采用了「迭代數(shù)據(jù)集更新」技術(shù)。

雖然是在3D場景上進行編輯，但論文中使用2D而不是3D擴散模型來提取形式和外觀先驗，因為用于訓練3D生成模型的數(shù)據(jù)非常有限。

這個2D擴散模型，就是該研究團隊不久前開發(fā)的InstructPix2Pix——一款基于指令文本的2D圖像編輯模型，輸入圖像和文本指令，它就能輸出編輯后的圖像。

然而，這種2D模型會導致場景不同角度的變化不均勻，因此，「迭代數(shù)據(jù)集更新」應(yīng)運而生，該技術(shù)交替修改NeRF的「輸入圖片數(shù)據(jù)集」，并更新基礎(chǔ)3D表征。

這意味著文本引導擴散模型（InstructPix2Pix）將根據(jù)指令生成新的圖像變化，并將這些新圖像用作NeRF模型訓練的輸入。因此，重建的三維場景將基于新的文本引導編輯。

在初始迭代中，InstructPix2Pix通常不能在不同視角下執(zhí)行一致的編輯，然而，在NeRF重新渲染和更新的過程中，它們將會收斂于一個全局一致的場景。

總結(jié)而言，NeRF2NeRF方法通過迭代地更新圖像內(nèi)容，并將這些更新后的內(nèi)容整合到三維場景中，從而提高了3D場景的編輯效率，還保持了場景的連貫性和真實感。

可以說，UC伯克利研究團隊的此項工作是此前InstructPix2Pix的延伸版，通過將NeRF與InstructPix2Pix結(jié)合，再配合「迭代數(shù)據(jù)集更新」，一鍵編輯照樣玩轉(zhuǎn)3D場景！

仍有局限，但瑕不掩瑜

不過，由于Instruct-NeRF2NeRF是基于此前的InstructPix2Pix，因此繼承了后者的諸多局限，例如無法進行大規(guī)?？臻g操作。

此外，與DreamFusion一樣，Instruct-NeRF2NeRF一次只能在一個視圖上使用擴散模型，所以也可能會遇到類似的偽影問題。

下圖展示了兩種類型的失敗案例：

（1）Pix2Pix無法在2D中執(zhí)行編輯，因此NeRF2NeRF在3D中也失敗了；

（2）Pix2Pix在2D中可以完成編輯，但在3D中存在很大的不一致性，因此NeRF2NeRF也沒能成功。

再比如下面這只「熊貓」，不僅看起來非常兇悍（作為原型的雕像就很兇），而且毛色多少也有些詭異，眼睛在畫面移動時也有明顯的「穿?！?。

自從ChatGPT，Diffusion, NeRFs被拉進聚光燈之下，這篇文章可謂充分發(fā)揮了三者的優(yōu)勢，從「AI一句話作圖」進階到了「AI一句話編輯3D場景」。

盡管方法存在一些局限性，但仍瑕不掩瑜，為三維特征編輯給出了一個簡單可行的方案，有望成為NeRF發(fā)展的里程碑之作。

一句話編輯3D場景

最后，再看一波作者放出的效果。

不難看出，這款一鍵PS的3D場景編輯神器，不論是指令理解能力，還是圖像真實程度，都比較符合預(yù)期，未來也許會成為學術(shù)界和網(wǎng)友們把玩的「新寵」，繼ChatGPT后打造出一個Chat-NeRFs。

即便是隨意改變圖像的環(huán)境背景、四季特點、天氣，給出的新圖像也完全符合現(xiàn)實邏輯。

原圖：

秋天：

雪天：

沙漠：

暴風雨：

參考資料

https://instruct-nerf2nerf.github.io

關(guān)鍵詞：

責任編輯：FD31

上一篇：直播擺攤的年輕人：月賺近萬元，“絕不是躺平”

下一篇：最后一頁