談?wù)凣PT 模型背后以數(shù)據(jù)為中心的 AI

來(lái)源：36kr時(shí)間：2023-03-31 12:13:00

人工智能 (AI) 在改變我們生活、工作和與技術(shù)互動(dòng)的方式方面取得了巨大的進(jìn)步。最近，取得重大進(jìn)展的領(lǐng)域是大型語(yǔ)言模型 (LLM) 的開(kāi)發(fā)，例如GPT-3、ChatGPT和GPT-4。這些模型能夠準(zhǔn)確的執(zhí)行語(yǔ)言翻譯、文本摘要和問(wèn)答等任務(wù)。

雖然很難忽視 LLM 不斷增加的模型規(guī)模，但同樣重要的是要認(rèn)識(shí)到，他們的成功很大程度上歸功于用于訓(xùn)練他們的大量高質(zhì)量數(shù)據(jù)。

(資料圖)

在本文中，我們將從以數(shù)據(jù)為中心的 AI 角度概述 LLM 的最新進(jìn)展。我們將通過(guò)以數(shù)據(jù)為中心的 AI 視角研究 GPT 模型，這是數(shù)據(jù)科學(xué)界中一個(gè)不斷發(fā)展的概念。我們通過(guò)討論三個(gè)以數(shù)據(jù)為中心的 AI 目標(biāo)：訓(xùn)練數(shù)據(jù)開(kāi)發(fā)、推理數(shù)據(jù)開(kāi)發(fā)和數(shù)據(jù)維護(hù)，來(lái)揭示 GPT 模型背后以數(shù)據(jù)為中心的 AI 概念。

大型語(yǔ)言模型 (LLM) 和 GPT 模型

LLM 是一種自然語(yǔ)言處理模型，經(jīng)過(guò)訓(xùn)練可以在上下文中推斷單詞。例如，LLM 最基本的功能是在給定上下文的情況下預(yù)測(cè)缺失的標(biāo)記。為此，LLM 接受了訓(xùn)練，可以從海量數(shù)據(jù)中預(yù)測(cè)每個(gè)候選單詞的概率。下圖是在上下文中使用 LLM 預(yù)測(cè)丟失標(biāo)記的概率的說(shuō)明性示例。

GPT模型是指OpenAI創(chuàng)建的一系列LLM，如GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4等。與其他 LLM 一樣，GPT 模型的架構(gòu)主要基于Transformers，它使用文本和位置嵌入作為輸入，并使用注意力層來(lái)模擬令牌的關(guān)系。

GPT-1 模型架構(gòu)

后來(lái)的 GPT 模型使用與 GPT-1 類(lèi)似的架構(gòu)，除了使用更多模型參數(shù)和更多層、更大的上下文長(zhǎng)度、隱藏層大小等。

什么是以數(shù)據(jù)為中心的人工智能

以數(shù)據(jù)為中心的 AI是一種新興的思考如何構(gòu)建 AI 系統(tǒng)的新方法。以數(shù)據(jù)為中心的人工智能是系統(tǒng)地設(shè)計(jì)用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)的學(xué)科。

過(guò)去，我們主要專(zhuān)注于在數(shù)據(jù)基本不變的情況下創(chuàng)建更好的模型（以模型為中心的 AI）。然而，這種方法在現(xiàn)實(shí)世界中可能會(huì)導(dǎo)致問(wèn)題，因?yàn)樗鼪](méi)有考慮數(shù)據(jù)中可能出現(xiàn)的不同問(wèn)題，例如標(biāo)簽不準(zhǔn)確、重復(fù)和偏差。因此，“過(guò)度擬合”數(shù)據(jù)集不一定會(huì)導(dǎo)致更好的模型行為。

相比之下，以數(shù)據(jù)為中心的人工智能專(zhuān)注于提高用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)的質(zhì)量和數(shù)量。這意味著注意力在數(shù)據(jù)本身，模型相對(duì)更固定。使用以數(shù)據(jù)為中心的方法開(kāi)發(fā)人工智能系統(tǒng)在現(xiàn)實(shí)場(chǎng)景中具有更大的潛力，因?yàn)橛糜谟?xùn)練的數(shù)據(jù)最終決定了模型的最大能力。

需要注意的是，“以數(shù)據(jù)為中心”與“數(shù)據(jù)驅(qū)動(dòng)”有著根本的區(qū)別，后者只強(qiáng)調(diào)用數(shù)據(jù)來(lái)指導(dǎo)人工智能的發(fā)展，通常仍以開(kāi)發(fā)模型而不是數(shù)據(jù)為中心。

以數(shù)據(jù)為中心的人工智能與以模型為中心的人工智能之間的比較

以數(shù)據(jù)為中心的 AI 框架包含三個(gè)目標(biāo)：

訓(xùn)練數(shù)據(jù)開(kāi)發(fā)就是收集和生產(chǎn)豐富、高質(zhì)量的數(shù)據(jù)，以支持機(jī)器學(xué)習(xí)模型的訓(xùn)練。

推理數(shù)據(jù)開(kāi)發(fā)是為了創(chuàng)建新的評(píng)估集，這些評(píng)估集可以提供對(duì)模型的更細(xì)粒度的洞察力，或者通過(guò)數(shù)據(jù)輸入觸發(fā)模型的特定功能。

數(shù)據(jù)維護(hù)是為了在動(dòng)態(tài)環(huán)境下保證數(shù)據(jù)的質(zhì)量和可靠性。數(shù)據(jù)維護(hù)至關(guān)重要，因?yàn)楝F(xiàn)實(shí)世界中的數(shù)據(jù)不是一次性創(chuàng)建的，而是需要持續(xù)維護(hù)。

以數(shù)據(jù)為中心的 AI 框架

為什么以數(shù)據(jù)為中心的 AI 使 GPT 模型成功

幾個(gè)月前，Yann LeCun 在推特上表示 ChatGPT 并不是什么新鮮事。事實(shí)上，ChatGPT 和 GPT-4 中使用的所有技術(shù)（變壓器、從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)等）一點(diǎn)都不新鮮。然而，他們確實(shí)取得了以前模型無(wú)法實(shí)現(xiàn)的結(jié)果。那么，他們成功的原因什么？

訓(xùn)練數(shù)據(jù)開(kāi)發(fā)。通過(guò)更好的數(shù)據(jù)收集、數(shù)據(jù)標(biāo)記和數(shù)據(jù)準(zhǔn)備策略，用于訓(xùn)練 GPT 模型的數(shù)據(jù)的數(shù)量和質(zhì)量有了顯著提高。

GPT-1：BooksCorpus 數(shù)據(jù)集用于訓(xùn)練。該數(shù)據(jù)集包含4629.00 MB 的原始文本，涵蓋各種類(lèi)型的書(shū)籍，例如冒險(xiǎn)、幻想和浪漫。

-以數(shù)據(jù)為中心的 AI 策略：無(wú)。

-結(jié)果：在該數(shù)據(jù)集上使用 GPT-1 可以通過(guò)微調(diào)提高下游任務(wù)的性能。

GPT-2：訓(xùn)練中使用WebText 。這是 OpenAI 中的一個(gè)內(nèi)部數(shù)據(jù)集，通過(guò)從 Reddit 抓取出站鏈接創(chuàng)建。-以數(shù)據(jù)為中心的 AI 策略：(1) 僅使用來(lái)自 Reddit 的出站鏈接來(lái)整理/過(guò)濾數(shù)據(jù)，該鏈接至少獲得 3 個(gè)業(yè)力。(2) 使用工具Dragnet和Newspaper來(lái)提取干凈的內(nèi)容。(3) 采用去重和其他一些基于啟發(fā)式的清洗。-結(jié)果：過(guò)濾后得到 40 GB 的文本。GPT-2 無(wú)需微調(diào)即可獲得強(qiáng)大的零樣本結(jié)果。

GPT-3：GPT-3的訓(xùn)練主要基于Common Crawl。-以數(shù)據(jù)為中心的 AI 策略：(1) 訓(xùn)練分類(lèi)器根據(jù)每個(gè)文檔與WebText（高質(zhì)量文檔）的相似性過(guò)濾掉低質(zhì)量文檔。(2)利用Spark的MinHashLSH對(duì)文檔進(jìn)行模糊去重。(3) 使用WebText、圖書(shū)語(yǔ)料庫(kù)和維基百科擴(kuò)充數(shù)據(jù)。- 結(jié)果：45TB的明文過(guò)濾后得到570GB的文本（本次質(zhì)量過(guò)濾只選擇了1.27%的數(shù)據(jù)）。GPT-3 在零樣本設(shè)置中明顯優(yōu)于 GPT-2。

InstructGPT：讓人類(lèi)評(píng)估調(diào)整GPT-3 的答案，使其更好地符合人類(lèi)的期望。他們?yōu)闃?biāo)注者設(shè)計(jì)了測(cè)試，只有通過(guò)測(cè)試的人才有資格標(biāo)注。他們甚至設(shè)計(jì)了一項(xiàng)調(diào)查，以確保注釋者全心投入到注釋過(guò)程中。-以數(shù)據(jù)為中心的 AI 策略：(1)使用人類(lèi)提供的提示答案通過(guò)監(jiān)督訓(xùn)練調(diào)整模型。(2)收集比較數(shù)據(jù)以訓(xùn)練獎(jiǎng)勵(lì)模型，然后使用此獎(jiǎng)勵(lì)模型通過(guò)人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)調(diào)整GPT-3。- 結(jié)果：InstructGPT 表現(xiàn)出更好的真實(shí)性和更少的偏差，即更好的對(duì)齊。

ChatGPT/GPT-4：OpenAI 沒(méi)有透露細(xì)節(jié)。但眾所周知，ChatGPT/GPT-4 很大程度上沿用了之前 GPT 模型的設(shè)計(jì)，他們?nèi)匀皇褂?RLHF 來(lái)調(diào)整模型（可能有更多和更高質(zhì)量的數(shù)據(jù)/標(biāo)簽）。人們普遍認(rèn)為，隨著模型權(quán)重的增加，GPT-4 使用了更大的數(shù)據(jù)集。

推理數(shù)據(jù)開(kāi)發(fā)。由于最近的 GPT 模型已經(jīng)足夠強(qiáng)大，我們可以通過(guò)在模型固定的情況下調(diào)整提示或調(diào)整推理數(shù)據(jù)來(lái)實(shí)現(xiàn)各種目標(biāo)。例如，我們可以通過(guò)提供要總結(jié)的文本以及諸如“總結(jié)它”或“TL;DR”之類(lèi)的指令來(lái)引導(dǎo)推理過(guò)程，從而進(jìn)行文本摘要。

及時(shí)調(diào)整

設(shè)計(jì)正確的推理提示是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。它嚴(yán)重依賴啟發(fā)式方法。一個(gè)很好的調(diào)查總結(jié)了不同的促銷(xiāo)方法。有時(shí)，即使是語(yǔ)義相似的提示也會(huì)有非常不同的輸出。在這種情況下，可能需要基于軟提示的校準(zhǔn)來(lái)減少方差。

LLM推理數(shù)據(jù)開(kāi)發(fā)的研究仍處于早期階段。在不久的將來(lái)，可以在 LLM 中應(yīng)用更多已用于其他任務(wù)的推理數(shù)據(jù)開(kāi)發(fā)技術(shù)。

數(shù)據(jù)維護(hù)。ChatGPT/GPT-4作為商業(yè)產(chǎn)品，不僅訓(xùn)練一次，而且不斷更新和維護(hù)。顯然，我們無(wú)法知道在 OpenAI 之外如何進(jìn)行數(shù)據(jù)維護(hù)。因此，我們討論了一些通用的以數(shù)據(jù)為中心的 AI 策略，這些策略已經(jīng)或?qū)⒑芸赡苡糜?GPT 模型：- 連續(xù)數(shù)據(jù)收集：當(dāng)我們使用 ChatGPT/GPT-4 時(shí)，我們的提示/反饋可能反過(guò)來(lái)被 OpenAI 使用進(jìn)一步推進(jìn)他們的模型。可能已經(jīng)設(shè)計(jì)并實(shí)施了質(zhì)量指標(biāo)和保證策略，以在此過(guò)程中收集高質(zhì)量數(shù)據(jù)。- 數(shù)據(jù)理解工具：可以開(kāi)發(fā)各種工具來(lái)可視化和理解用戶數(shù)據(jù)，促進(jìn)更好地了解用戶需求并指導(dǎo)未來(lái)改進(jìn)的方向。- 高效的數(shù)據(jù)處理：隨著ChatGPT/GPT-4用戶數(shù)量的快速增長(zhǎng)，需要一個(gè)高效的數(shù)據(jù)管理系統(tǒng)來(lái)實(shí)現(xiàn)快速的數(shù)據(jù)采集。

上圖是ChatGPT/GPT-4 通過(guò)“贊”和“不贊”收集用戶反饋的示例。

數(shù)據(jù)科學(xué)界可以從這波 LLM 浪潮中學(xué)到什么

LLM的成功徹底改變了人工智能。展望未來(lái)，LLM可以進(jìn)一步徹底改變數(shù)據(jù)科學(xué)生命周期。我們做出兩個(gè)預(yù)測(cè)：

以數(shù)據(jù)為中心的人工智能變得更加重要。經(jīng)過(guò)多年研究，模型設(shè)計(jì)已經(jīng)非常成熟，尤其是在Transformer之后。數(shù)據(jù)成為未來(lái)改進(jìn) AI 系統(tǒng)的關(guān)鍵方式。另外，當(dāng)模型變得足夠強(qiáng)大時(shí)，我們就不需要在日常工作中訓(xùn)練模型了。相反，我們只需要設(shè)計(jì)適當(dāng)?shù)耐评頂?shù)據(jù)來(lái)從模型中探索知識(shí)。因此，以數(shù)據(jù)為中心的人工智能的研發(fā)將推動(dòng)未來(lái)的進(jìn)步。

LLM將實(shí)現(xiàn)更好的以數(shù)據(jù)為中心的人工智能解決方案

許多繁瑣的數(shù)據(jù)科學(xué)工作可以在LLM的幫助下更有效地進(jìn)行。例如，ChaGPT/GPT-4 已經(jīng)可以編寫(xiě)可工作的代碼來(lái)處理和清洗數(shù)據(jù)。此外，LLM 甚至可以用于創(chuàng)建訓(xùn)練數(shù)據(jù)。例如使用 LLM 生成合成數(shù)據(jù)可以提高文本挖掘中的模型性能。

關(guān)鍵詞：

責(zé)任編輯：FD31

上一篇：人均消費(fèi)75塊，Soul 賣(mài)藝不賣(mài)身的尷尬

下一篇：最后一頁(yè)