99国内免费在线_无码 有码 日韩 人妻_国产成_人_综合_亚洲_漂亮人妻被强中文字幕久久_手机看片福利永久国产影集

談?wù)凣PT 模型背后以數(shù)據(jù)為中心的 AI

來源:36kr時(shí)間:2023-03-31 12:13:00

人工智能 (AI) 在改變我們生活、工作和與技術(shù)互動(dòng)的方式方面取得了巨大的進(jìn)步。最近,取得重大進(jìn)展的領(lǐng)域是大型語言模型 (LLM) 的開發(fā),例如GPT-3、ChatGPT和GPT-4。這些模型能夠準(zhǔn)確的執(zhí)行語言翻譯、文本摘要和問答等任務(wù)。

雖然很難忽視 LLM 不斷增加的模型規(guī)模,但同樣重要的是要認(rèn)識到,他們的成功很大程度上歸功于用于訓(xùn)練他們的大量高質(zhì)量數(shù)據(jù)。


(資料圖)

在本文中,我們將從以數(shù)據(jù)為中心的 AI 角度概述 LLM 的最新進(jìn)展。我們將通過以數(shù)據(jù)為中心的 AI 視角研究 GPT 模型,這是數(shù)據(jù)科學(xué)界中一個(gè)不斷發(fā)展的概念。我們通過討論三個(gè)以數(shù)據(jù)為中心的 AI 目標(biāo):訓(xùn)練數(shù)據(jù)開發(fā)、推理數(shù)據(jù)開發(fā)和數(shù)據(jù)維護(hù),來揭示 GPT 模型背后以數(shù)據(jù)為中心的 AI 概念。

大型語言模型 (LLM) 和 GPT 模型

LLM 是一種自然語言處理模型,經(jīng)過訓(xùn)練可以在上下文中推斷單詞。例如,LLM 最基本的功能是在給定上下文的情況下預(yù)測缺失的標(biāo)記。為此,LLM 接受了訓(xùn)練,可以從海量數(shù)據(jù)中預(yù)測每個(gè)候選單詞的概率。下圖是在上下文中使用 LLM 預(yù)測丟失標(biāo)記的概率的說明性示例。

GPT模型是指OpenAI創(chuàng)建的一系列LLM,如GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4等。與其他 LLM 一樣,GPT 模型的架構(gòu)主要基于Transformers,它使用文本和位置嵌入作為輸入,并使用注意力層來模擬令牌的關(guān)系。

GPT-1 模型架構(gòu)

后來的 GPT 模型使用與 GPT-1 類似的架構(gòu),除了使用更多模型參數(shù)和更多層、更大的上下文長度、隱藏層大小等。

什么是以數(shù)據(jù)為中心的人工智能

以數(shù)據(jù)為中心的 AI是一種新興的思考如何構(gòu)建 AI 系統(tǒng)的新方法。以數(shù)據(jù)為中心的人工智能是系統(tǒng)地設(shè)計(jì)用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)的學(xué)科。

過去,我們主要專注于在數(shù)據(jù)基本不變的情況下創(chuàng)建更好的模型(以模型為中心的 AI)。然而,這種方法在現(xiàn)實(shí)世界中可能會(huì)導(dǎo)致問題,因?yàn)樗鼪]有考慮數(shù)據(jù)中可能出現(xiàn)的不同問題,例如標(biāo)簽不準(zhǔn)確、重復(fù)和偏差。因此,“過度擬合”數(shù)據(jù)集不一定會(huì)導(dǎo)致更好的模型行為。

相比之下,以數(shù)據(jù)為中心的人工智能專注于提高用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)的質(zhì)量和數(shù)量。這意味著注意力在數(shù)據(jù)本身,模型相對更固定。使用以數(shù)據(jù)為中心的方法開發(fā)人工智能系統(tǒng)在現(xiàn)實(shí)場景中具有更大的潛力,因?yàn)橛糜谟?xùn)練的數(shù)據(jù)最終決定了模型的最大能力。

需要注意的是,“以數(shù)據(jù)為中心”與“數(shù)據(jù)驅(qū)動(dòng)”有著根本的區(qū)別,后者只強(qiáng)調(diào)用數(shù)據(jù)來指導(dǎo)人工智能的發(fā)展,通常仍以開發(fā)模型而不是數(shù)據(jù)為中心。

以數(shù)據(jù)為中心的人工智能與以模型為中心的人工智能之間的比較

以數(shù)據(jù)為中心的 AI 框架包含三個(gè)目標(biāo):

訓(xùn)練數(shù)據(jù)開發(fā)就是收集和生產(chǎn)豐富、高質(zhì)量的數(shù)據(jù),以支持機(jī)器學(xué)習(xí)模型的訓(xùn)練。

推理數(shù)據(jù)開發(fā)是為了創(chuàng)建新的評估集,這些評估集可以提供對模型的更細(xì)粒度的洞察力,或者通過數(shù)據(jù)輸入觸發(fā)模型的特定功能。

數(shù)據(jù)維護(hù)是為了在動(dòng)態(tài)環(huán)境下保證數(shù)據(jù)的質(zhì)量和可靠性。數(shù)據(jù)維護(hù)至關(guān)重要,因?yàn)楝F(xiàn)實(shí)世界中的數(shù)據(jù)不是一次性創(chuàng)建的,而是需要持續(xù)維護(hù)。

以數(shù)據(jù)為中心的 AI 框架

為什么以數(shù)據(jù)為中心的 AI 使 GPT 模型成功

幾個(gè)月前,Yann LeCun 在推特上表示 ChatGPT 并不是什么新鮮事。事實(shí)上,ChatGPT 和 GPT-4 中使用的所有技術(shù)(變壓器、從人類反饋中強(qiáng)化學(xué)習(xí)等)一點(diǎn)都不新鮮。然而,他們確實(shí)取得了以前模型無法實(shí)現(xiàn)的結(jié)果。那么,他們成功的原因什么?

訓(xùn)練數(shù)據(jù)開發(fā)。通過更好的數(shù)據(jù)收集、數(shù)據(jù)標(biāo)記和數(shù)據(jù)準(zhǔn)備策略,用于訓(xùn)練 GPT 模型的數(shù)據(jù)的數(shù)量和質(zhì)量有了顯著提高。

GPT-1:BooksCorpus 數(shù)據(jù)集用于訓(xùn)練。該數(shù)據(jù)集包含4629.00 MB 的原始文本,涵蓋各種類型的書籍,例如冒險(xiǎn)、幻想和浪漫。

-以數(shù)據(jù)為中心的 AI 策略:無。

-結(jié)果:在該數(shù)據(jù)集上使用 GPT-1 可以通過微調(diào)提高下游任務(wù)的性能。

GPT-2:訓(xùn)練中使用WebText 。這是 OpenAI 中的一個(gè)內(nèi)部數(shù)據(jù)集,通過從 Reddit 抓取出站鏈接創(chuàng)建。-以數(shù)據(jù)為中心的 AI 策略:(1) 僅使用來自 Reddit 的出站鏈接來整理/過濾數(shù)據(jù),該鏈接至少獲得 3 個(gè)業(yè)力。(2) 使用工具Dragnet和Newspaper來提取干凈的內(nèi)容。(3) 采用去重和其他一些基于啟發(fā)式的清洗。-結(jié)果:過濾后得到 40 GB 的文本。GPT-2 無需微調(diào)即可獲得強(qiáng)大的零樣本結(jié)果。

GPT-3:GPT-3的訓(xùn)練主要基于Common Crawl。-以數(shù)據(jù)為中心的 AI 策略:(1) 訓(xùn)練分類器根據(jù)每個(gè)文檔與WebText(高質(zhì)量文檔)的相似性過濾掉低質(zhì)量文檔。(2)利用Spark的MinHashLSH對文檔進(jìn)行模糊去重。(3) 使用WebText、圖書語料庫和維基百科擴(kuò)充數(shù)據(jù)。- 結(jié)果:45TB的明文過濾后得到570GB的文本(本次質(zhì)量過濾只選擇了1.27%的數(shù)據(jù))。GPT-3 在零樣本設(shè)置中明顯優(yōu)于 GPT-2。

InstructGPT:讓人類評估調(diào)整GPT-3 的答案,使其更好地符合人類的期望。他們?yōu)闃?biāo)注者設(shè)計(jì)了測試,只有通過測試的人才有資格標(biāo)注。他們甚至設(shè)計(jì)了一項(xiàng)調(diào)查,以確保注釋者全心投入到注釋過程中。-以數(shù)據(jù)為中心的 AI 策略:(1)使用人類提供的提示答案通過監(jiān)督訓(xùn)練調(diào)整模型。(2)收集比較數(shù)據(jù)以訓(xùn)練獎(jiǎng)勵(lì)模型,然后使用此獎(jiǎng)勵(lì)模型通過人類反饋強(qiáng)化學(xué)習(xí)(RLHF)調(diào)整GPT-3。- 結(jié)果:InstructGPT 表現(xiàn)出更好的真實(shí)性和更少的偏差,即更好的對齊。

ChatGPT/GPT-4:OpenAI 沒有透露細(xì)節(jié)。但眾所周知,ChatGPT/GPT-4 很大程度上沿用了之前 GPT 模型的設(shè)計(jì),他們?nèi)匀皇褂?RLHF 來調(diào)整模型(可能有更多和更高質(zhì)量的數(shù)據(jù)/標(biāo)簽)。人們普遍認(rèn)為,隨著模型權(quán)重的增加,GPT-4 使用了更大的數(shù)據(jù)集。

推理數(shù)據(jù)開發(fā)。由于最近的 GPT 模型已經(jīng)足夠強(qiáng)大,我們可以通過在模型固定的情況下調(diào)整提示或調(diào)整推理數(shù)據(jù)來實(shí)現(xiàn)各種目標(biāo)。例如,我們可以通過提供要總結(jié)的文本以及諸如“總結(jié)它”或“TL;DR”之類的指令來引導(dǎo)推理過程,從而進(jìn)行文本摘要。

及時(shí)調(diào)整

設(shè)計(jì)正確的推理提示是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。它嚴(yán)重依賴啟發(fā)式方法。一個(gè)很好的調(diào)查總結(jié)了不同的促銷方法。有時(shí),即使是語義相似的提示也會(huì)有非常不同的輸出。在這種情況下,可能需要基于軟提示的校準(zhǔn)來減少方差。

LLM推理數(shù)據(jù)開發(fā)的研究仍處于早期階段。在不久的將來,可以在 LLM 中應(yīng)用更多已用于其他任務(wù)的推理數(shù)據(jù)開發(fā)技術(shù)。

數(shù)據(jù)維護(hù)。ChatGPT/GPT-4作為商業(yè)產(chǎn)品,不僅訓(xùn)練一次,而且不斷更新和維護(hù)。顯然,我們無法知道在 OpenAI 之外如何進(jìn)行數(shù)據(jù)維護(hù)。因此,我們討論了一些通用的以數(shù)據(jù)為中心的 AI 策略,這些策略已經(jīng)或?qū)⒑芸赡苡糜?GPT 模型:- 連續(xù)數(shù)據(jù)收集:當(dāng)我們使用 ChatGPT/GPT-4 時(shí),我們的提示/反饋可能反過來被 OpenAI 使用進(jìn)一步推進(jìn)他們的模型??赡芤呀?jīng)設(shè)計(jì)并實(shí)施了質(zhì)量指標(biāo)和保證策略,以在此過程中收集高質(zhì)量數(shù)據(jù)。- 數(shù)據(jù)理解工具:可以開發(fā)各種工具來可視化和理解用戶數(shù)據(jù),促進(jìn)更好地了解用戶需求并指導(dǎo)未來改進(jìn)的方向。- 高效的數(shù)據(jù)處理:隨著ChatGPT/GPT-4用戶數(shù)量的快速增長,需要一個(gè)高效的數(shù)據(jù)管理系統(tǒng)來實(shí)現(xiàn)快速的數(shù)據(jù)采集。

上圖是ChatGPT/GPT-4 通過“贊”和“不贊”收集用戶反饋的示例。

數(shù)據(jù)科學(xué)界可以從這波 LLM 浪潮中學(xué)到什么

LLM的成功徹底改變了人工智能。展望未來,LLM可以進(jìn)一步徹底改變數(shù)據(jù)科學(xué)生命周期。我們做出兩個(gè)預(yù)測:

以數(shù)據(jù)為中心的人工智能變得更加重要。經(jīng)過多年研究,模型設(shè)計(jì)已經(jīng)非常成熟,尤其是在Transformer之后。數(shù)據(jù)成為未來改進(jìn) AI 系統(tǒng)的關(guān)鍵方式。另外,當(dāng)模型變得足夠強(qiáng)大時(shí),我們就不需要在日常工作中訓(xùn)練模型了。相反,我們只需要設(shè)計(jì)適當(dāng)?shù)耐评頂?shù)據(jù)來從模型中探索知識。因此,以數(shù)據(jù)為中心的人工智能的研發(fā)將推動(dòng)未來的進(jìn)步。

LLM將實(shí)現(xiàn)更好的以數(shù)據(jù)為中心的人工智能解決方案

許多繁瑣的數(shù)據(jù)科學(xué)工作可以在LLM的幫助下更有效地進(jìn)行。例如,ChaGPT/GPT-4 已經(jīng)可以編寫可工作的代碼來處理和清洗數(shù)據(jù)。此外,LLM 甚至可以用于創(chuàng)建訓(xùn)練數(shù)據(jù)。例如使用 LLM 生成合成數(shù)據(jù)可以提高文本挖掘中的模型性能。

關(guān)鍵詞:

責(zé)任編輯:FD31
上一篇:人均消費(fèi)75塊,Soul 賣藝不賣身的尷尬
下一篇:最后一頁