3 月 24 日,OpenAI 又公布了重磅消息,ChatGPT 支持接入第三方插件,并且一口氣上架了 11 個(gè)插件。通過這些插件,用戶可以用 ChatGPT 購買商品,預(yù)定酒店、機(jī)票,搜索專業(yè)數(shù)據(jù)等,這大大解放了 ChatGPT 的生產(chǎn)力,也多了更多的可能性。
關(guān)于插件功能的未來發(fā)展可能性,我們看到了很多討論,出門問問創(chuàng)始人李志飛認(rèn)為這是「AI 巨大的轉(zhuǎn)折點(diǎn)」;閱覽室創(chuàng)始人王俊煜,則認(rèn)真研讀了 OpenAI 的開發(fā)文檔,試圖梳理出插件的更多可能性;懂技術(shù)又懂哲學(xué)的微博博主木遙則認(rèn)為這可能是自然語言編程的新開始。
在獲得幾位授權(quán)后,我們迅速整理了這些討論,分享這個(gè)消息紛繁日新月異的環(huán)境下,一些來自創(chuàng)業(yè)者和技術(shù)人員清晰的思考。
(資料圖)
出門問問 創(chuàng)始人 & CEO
OpenAI 插件可以連接 ChatGPT 與第三方應(yīng)用,通過接入你的應(yīng)用做什么呢?舉一些例子:
實(shí)時(shí)檢索信息,例如賽事的實(shí)時(shí)比分情況、股票價(jià)格、最新資訊等;
檢索知識(shí)庫,例如針對(duì)你個(gè)的人電腦、針對(duì)公司的文檔知識(shí)庫等,進(jìn)行更智能地檢索、調(diào)用、對(duì)話;
代替用戶執(zhí)行操作(對(duì)現(xiàn)實(shí)世界的「智能調(diào)度」):例如買機(jī)票酒旅、網(wǎng)購、訂外賣等。
總結(jié)來看,逆天的 ChatGPT Plugin 主要體現(xiàn)在以下三個(gè)方面:
獨(dú)立上網(wǎng)
現(xiàn)在的 ChatGPT 已經(jīng)能夠獨(dú)自上網(wǎng),訪問網(wǎng)頁并將其內(nèi)容傳輸至 ChatGPT,然后根據(jù)該內(nèi)容生成答案,并將相關(guān)網(wǎng)頁鏈接信息附加于答案中。這類似于 New Bing 的功能,此舉難道預(yù)示著微軟和 OpenAI 或?qū)⒚埠仙耠x?比如你可以問 ChatGPT「哪位演員、哪部電影獲得了此類別的奧斯卡?」結(jié)果可以看到,ChatGPT 在聊天界面就多出來「瀏覽」結(jié)果,直接得到了 2023 年的最新結(jié)果。
自主編寫并執(zhí)行程序
在這次重大更新中,ChatGPT 實(shí)現(xiàn)了自主編寫和執(zhí)行代碼的功能。以前,ChatGPT 僅支持生成代碼,但生成的代碼還需要復(fù)制到其他執(zhí)行器上才能運(yùn)行?,F(xiàn)在,ChatGPT 內(nèi)嵌了 Python Code Interpreter,將代碼編寫和執(zhí)行合二為一。這一改進(jìn)特別適用于處理大量計(jì)算、數(shù)據(jù)分析和文件格式轉(zhuǎn)換等任務(wù)。官方解釋指出,代碼解釋器采用 Python 處理上傳和下載的實(shí)驗(yàn)性 ChatGPT 模型。目前,主要提供以下功能:解決定量和定性的數(shù)學(xué)問題、進(jìn)行數(shù)據(jù)分析和可視化,以及實(shí)現(xiàn)不同文件格式之間的轉(zhuǎn)換。按照這個(gè)趨勢,感覺 GitHub Copilot 的打開率會(huì)下降?當(dāng) AI 擁有了自己的智能、計(jì)算、存儲(chǔ)和執(zhí)行環(huán)境,還需要我們?nèi)祟愖鍪裁矗?/p>
調(diào)用第三方程序
針對(duì)第三方程序,開發(fā)者可以按照 ChatGPT 的格式提供一個(gè) manifest 文件,即 API 使用指南,讓用戶可以用自然語言提問,ChatGPT 就可以神奇地自動(dòng)調(diào)用第三方接口,以滿足用戶的需求。
為什么這個(gè)過程可以稱為「神奇」?因?yàn)樵诖酥?,NLP 中常見的語義標(biāo)注是一個(gè)繁瑣的數(shù)據(jù)標(biāo)注過程,但通過調(diào)用第三方程序,這個(gè)過程可以直接跳過。
另外,因?yàn)?ChatGPT Plugins 是主控程序,那第三方都成為了 ChatGPT 的 CP/SP(content/service provider),之前提到的 App 內(nèi)搜索和結(jié)構(gòu)化搜索都成為可能,LLM 是否已經(jīng)作為新的入口若隱若現(xiàn)了?
最后
幾乎所有這些技術(shù)的發(fā)展都是可以預(yù)見的,只是看到 Demo 視頻時(shí),還是會(huì)被驚嘆于這突如其來的神奇感——它進(jìn)化得如此之迅猛。
前幾天,黃仁勛宣布 AI 的「iPhone 時(shí)刻」已經(jīng)到來,而現(xiàn)在又有人表示 ChatGPT 成為了新的操作系統(tǒng),并且已經(jīng)擁有自己的應(yīng)用商店。
我認(rèn)為,這個(gè)新生物種可能是一個(gè)集內(nèi)容生成、搜索和推薦于一體的「怪胎」,但對(duì)于 AI 來說,無論如何都是一個(gè)巨大的轉(zhuǎn)折點(diǎn)。在這個(gè)新物種不斷發(fā)展的過程中,我們需要懷著開放的心態(tài),不要試著用過去的眼光去理解它!它是一個(gè)全新的事物,而我們正在擁抱新的未來。
部分內(nèi)容轉(zhuǎn)載李志飛公眾號(hào)「飛哥說 AI」
閱覽室創(chuàng)始人、產(chǎn)品設(shè)計(jì)師
其實(shí)關(guān)于 ChatGPT plugins 的大部分 myth,讀 OpenAI 這個(gè)簡短的開發(fā)文檔都可以得到解答 [1]。
比如說,這是不是意味著 ChatGPT 變成了一個(gè)操作系統(tǒng)?從操作系統(tǒng)的經(jīng)典定義 [2] 來說,肯定不是。ChatGPT plugins 做的事情,是在「適當(dāng)時(shí)候」讓 ChatGPT 可以和外界打交道?,F(xiàn)在的 ChatGPT 是一個(gè)受過良好本科教育的知識(shí)工作者,不幸在 2021 年 9 月就被你抓到了一個(gè)白房子里面關(guān)著,就跟美國那個(gè) Jony Ive 一樣。你問它的很多問題它憑借自己的積累是可以解答的,只是不知有漢,無論魏晉。
現(xiàn)在,你和它說,我問你某些問題的「適當(dāng)時(shí)候」我允許你出去走走,看看外面的世界是不是有更好的答案、更好的辦法。比如,機(jī)票價(jià)格怎么樣了?Tik Tok 的聽證會(huì)怎么樣了?你不是理科不好嗎,讓人幫忙解個(gè)方程怎么樣?有些事情,干脆你也幫我辦了吧。比如,既然問了機(jī)票價(jià)格,就順便訂個(gè)機(jī)票吧![3]
它說好啊,但我怎么知道應(yīng)該去哪兒解決你的問題呢?其實(shí)世界上這些工作都已經(jīng)有不同的仆人做得很好了,讓這些仆人先來我們這兒登記一下。這樣我們就知道,機(jī)票可以去找這個(gè)叫 KAYAK 的,新聞可以去問 Bing,解方程可以找 Wolfram Alpha。它在「適當(dāng)時(shí)候」照著登記冊(cè)出去問了問題,然后回來用它的語言告訴我答案。
這里還有一個(gè)厲害的地方是,在這個(gè)世界中這些仆人是不說人話的。它們用一種叫 API 的機(jī)讀語言和其他人進(jìn)行交互。過去,我們?nèi)粘S玫氖謾C(jī) app 可以代替我們將界面上的操作轉(zhuǎn)化成這種特殊的語言,但我們這位被關(guān)了兩年的朋友,卻能自動(dòng)把我們說的人話自動(dòng)翻譯成這種語言。
這不是操作系統(tǒng),而是一種對(duì)世界上已有服務(wù)的 API 通過自然語言進(jìn)行索引和整合的方式,也給所有已有服務(wù)提供了自然語言界面。通過它你可以利用已有的服務(wù)獲取數(shù)據(jù),也進(jìn)行少量的行動(dòng)(這一點(diǎn)實(shí)際上是出于安全的限制)。
當(dāng)然,你可以說著這有點(diǎn)兒像一個(gè)操作系統(tǒng),畢竟用戶可以交付任務(wù)給它……那么它也有點(diǎn)像一個(gè)瀏覽器,有點(diǎn)像一個(gè)應(yīng)用商店,有點(diǎn)像手機(jī)桌面,有點(diǎn)像搜索引擎,雖然我覺得它最像的還是……3721 中文網(wǎng)址導(dǎo)航。
用比喻來討論問題總是不精準(zhǔn)的,取決于你關(guān)心什么方面,希望獲得什么樣的隱含暗示。就好像說現(xiàn)在到底是 AI 的 BlackBerry 時(shí)刻還是 iPhone 時(shí)刻還是 iPhone 3GS 時(shí)刻還是 iPhone 4 時(shí)刻……Depends。
至于說這個(gè) plugins 系統(tǒng)可以自己給自己寫 plugin……至少在目前是不準(zhǔn)確的。OpenAI 聯(lián)合創(chuàng)始人 Greg 在 Twitter 上說的不錯(cuò),一個(gè) plugin 的開發(fā)很簡單,你就是為一個(gè)自然語言模型來寫 API 文檔。但這個(gè)前提是你得先有 API。如果你已經(jīng)做出一個(gè) Wolfram Alpha 了,要接入的確是很簡單的。就好像給 Chrome 寫一個(gè) web app 其實(shí)也很簡單,因?yàn)楸举|(zhì)上那只是一個(gè)已有網(wǎng)站的書簽。
當(dāng)然了,既然 GPT 已經(jīng)可以幫忙寫代碼了,所以你用 GPT 從 0 開始寫出一個(gè) plugin 理論上是可能的,但這不是 plugins 系統(tǒng)的開箱體驗(yàn)。Greg 說的「為自然語言模型寫 API」,并不是大家所理解的「用自然語言模型來寫 API」。目前 plugin 的接口仍然需要寫成機(jī)讀語言——盡管理論上,如果你寫出足夠詳細(xì)的 prompt,也可以讓 GPT 來生成。
這中間的區(qū)別也許沒有那么重要,也許就是差一層窗戶紙。但總之,描述的還不是已經(jīng)實(shí)現(xiàn)的體驗(yàn)。
ChatGPT 的 plugin 系統(tǒng)的設(shè)計(jì)和之前類似系統(tǒng)比,真的新穎之處在哪里呢?前面說到「適當(dāng)時(shí)候」,在接口中,你可以用自然語言告知 ChatGPT 你這個(gè) API 能干啥,ChatGPT 用自然語言理解了這一點(diǎn)后,就可以自動(dòng)根據(jù)用戶的輸入來判斷什么時(shí)候應(yīng)該找誰來滿足用戶的需求。你只需要告訴它一次「買機(jī)票去 KAYAK」,它就知道下次你問它 UA888 的時(shí)候可以去找 KAYAK。
這是不是就是我們中國人熟悉的……流量分發(fā)?大家都很熟悉,在 PC 時(shí)代我們搶注文件擴(kuò)展名、Android 上我們搶注 Intent、iOS 上搶注 schema、搜索引擎上做競價(jià)排名……干的是同一件事情。ChatGPT 想用自然語言來解決流量分發(fā)的問題。所以,套用一句話,這是流量分發(fā)機(jī)制的自然語言界面。
雖然看起來還是流量分發(fā)的邏輯,但過去大家熟悉的 SEO、growth hacking……其實(shí)用武之地并不多。
其實(shí)這也不是 ChatGPT 首創(chuàng)。Google Assistant 接入第三方服務(wù)的方式也是類似的,只是開發(fā)者體驗(yàn)要復(fù)雜一些。說時(shí)遲那時(shí)快,寫這段的時(shí)候去查了 Google 的文檔,發(fā)現(xiàn)這個(gè)服務(wù)即將在 6 月 13 日被 Google 親手干掉。[4]
這也不是否定 plugins 的創(chuàng)新。事實(shí)上,大部分革命性的創(chuàng)新也就是在前人的基礎(chǔ)上稍作改動(dòng)而已。OpenAI 的研究和工程能力當(dāng)然是讓人驚嘆的,但我越來越覺得他們的產(chǎn)品和市場能力也是讓人驚嘆的。
MIT Tech Review 關(guān)于 ChatGPT 開發(fā)過程的訪談非常值得一讀 [5],ChatGPT 本身也許可以稱之為有史以來最成功的 hackathon 項(xiàng)目(雖然遠(yuǎn)比一般的 hackathon 要昂貴,但相比于 GPT 本身的投入相信只是個(gè)零頭)。ChatGPT 把 GPT 重新包裝成了人人都能看懂的能力,也許是其意外成功讓 OpenAI 不甘于只做基礎(chǔ)設(shè)施了,他們現(xiàn)在看起來決心直接面向消費(fèi)者,不給中間商賺差價(jià)的機(jī)會(huì)了。也許,OpenAI 就是第四次工業(yè)革命的 Google 或 Apple 了。
Plugins 這個(gè)系統(tǒng)相信是在很短時(shí)間內(nèi)拼湊出來的,卻足夠優(yōu)雅、有想象力。Go-to market 的能力、連接用戶需求和技術(shù)的能力、商業(yè)化的能力、設(shè)計(jì)生態(tài)系統(tǒng)的能力... 不就是古典產(chǎn)品經(jīng)理的核心能力么?怪不得老王也要招產(chǎn)品經(jīng)理 [6]??上?,想來想去好像不認(rèn)識(shí)什么活人有這個(gè)能力。
[1]:https://platform.openai.com/docs/plugins/introduction
[2]:https://en.wikipedia.org/wiki/Operating_system
[3]:https://openai.com/blog/chatgpt-plugins
[4]:https://developers.google.com/assistant/conversational/overview
[5]:https://www.technologyreview.com/2023/03/03/1069311/inside-story-oral-history-how-chatgpt-built-openai/
[6]:https://m.okjike.com/originalPosts/641aa79e40db2e7567d6ed98
微博博主
你可能已經(jīng)看到 ChatGPT 今天宣布推出插件功能的新聞了(這可能是近期一系列進(jìn)展中最令人驚訝和震撼的一個(gè))。插件讓 GPT 可以實(shí)時(shí)和外界交互,可以閱讀并回答各種真實(shí)信息,無論是股票價(jià)格還是調(diào)用計(jì)算器或者程序編譯器還是私有數(shù)據(jù)庫信息,也可以采取行動(dòng),比如直接從餐廳定位,或者下單購買商品。插件甚至可以控制第三方服務(wù),讓 GPT 成為一個(gè)和線下生活發(fā)生聯(lián)系的全能數(shù)碼助手(見附圖)。
我之前寫過,很多人抱怨的「ChatGPT 信息不夠真實(shí)」聽起來是個(gè)嚴(yán)重的缺陷,但其實(shí)并不是,因?yàn)榇笳Z言模型本質(zhì)上是「作為一種服務(wù)的自然語言界面」,它和底層的數(shù)據(jù)來源是可以——也應(yīng)該——解耦的。語言模型訓(xùn)練的時(shí)候從語料里學(xué)到的知識(shí)既過時(shí)又占地方,正確的做法是讓語言模型只負(fù)責(zé)推理、表達(dá)、行動(dòng),至于數(shù)據(jù)和知識(shí)可以完全實(shí)時(shí)從外部獲取。
但我說這些話的時(shí)候以為還要至少半年到一年才會(huì)看到這一天。我錯(cuò)了,今天就是這一天。
這就是說:
說小一點(diǎn),這解決了很多人詬病的 GPT 對(duì)話數(shù)據(jù)不真實(shí)不可靠的問題。
說大一點(diǎn),會(huì)有大量第三方插件和今天還無法想象的介入真實(shí)生活的新玩法被創(chuàng)造出來。
再說大一點(diǎn),這意味著插件就是今天的 APP,GPT 就是今天的 iOS 操作系統(tǒng),一個(gè)全新的生態(tài)。
但所有上面這一切甚至都不是我今天最受震動(dòng)的地方。我最受震動(dòng)的是下面這件事。因?yàn)橥铺厣弦粋€(gè)小哥總結(jié)的很好,我就直接用他的話(以及 OpenAI 聯(lián)合創(chuàng)始人 Greg 后面評(píng)論的話)來說(見附圖):
「OpenAI 設(shè)計(jì)的插件系統(tǒng)是我這輩子見過的最瘋狂的系統(tǒng)。如果你要給它寫插件,你并不是去寫這個(gè)插件的程序,你是寫一個(gè)關(guān)于插件的描述,用你的自然語言,然后 GPT 來幫你生成這個(gè)插件?!?/p>
十年前,當(dāng)一個(gè)人躍躍欲試要給新發(fā)布的 iPhone 寫 APP 的時(shí)候,ta 必須自己是個(gè)非常老練的程序員才行。今天,當(dāng)你躍躍欲試要給新發(fā)布的 GPT 平臺(tái)寫插件,你只要用自然語言描述你希望實(shí)現(xiàn)的效果就行了。OpenAI 的網(wǎng)站上有一個(gè)視頻展示了如何在幾分鐘之內(nèi)完全用自然語言跟 GPT 交互寫一個(gè)讓 AI 幫你記住私人 todo list 的插件。換句話說,這就是(至少作為膠水語言層級(jí)的)自然語言編程。
*頭圖來源:OpenAI
極客一問
你如何看待 ChatGPT 的插件功能?
關(guān)鍵詞: