AIGC正在改變世界,自從 ChatGPT 對話機器人的橫空出世后,一石激起千層浪,人工智能也正在從感知理解走向生成創(chuàng)造,這是一個關(guān)鍵里程碑。ChatGPT上線后很快風(fēng)行一時,短短4個月時間里,國內(nèi)至少30個研發(fā)機構(gòu)與企業(yè)紛紛推出自有品牌的大模型與相關(guān)產(chǎn)品。生成式AI大模型完成了從0到1的飛躍,是信息技術(shù)革命發(fā)展到特定歷史階段的產(chǎn)物,并且已成為未來發(fā)展趨勢,推動AI邁向通用人工智能。
然而,馬斯克卻公開表示ChatGPT“好得可怕”(scary good),危險的強人工智能或許已離不我們不遠(yuǎn)。今年4月,馬斯克、《人類簡史》作者Yuval Noah Harari、紐約大學(xué)教授馬庫斯等1000多名人工智能專家和行業(yè)大佬在公開信中呼吁:“ChatGPT等AI研究室需暫停研發(fā)6個月!”給出的理由是“只有當(dāng)我們確信它們的影響是積極的,并且它們的風(fēng)險是可控的時候,才能開發(fā)更強大的人工智能系統(tǒng)。”
喜憂參半,大模型飛速發(fā)展的同時也面臨著諸多風(fēng)險隱憂,數(shù)據(jù)隱私泄露、安全漏洞、數(shù)據(jù)濫用、數(shù)據(jù)壟斷、不公平性、公域數(shù)據(jù)即將耗盡等已然成為大模型的主要“隱患”。香港科技大學(xué)講座教授、加拿大工程院及加拿大皇家學(xué)院兩院院士楊強及其團隊正在嘗試通過聯(lián)邦學(xué)習(xí)和大模型結(jié)合的方式,解構(gòu)大模型下的數(shù)據(jù)生態(tài)與安全之困。
(資料圖片僅供參考)
分散的小模型協(xié)作,或?qū)⒔鈽?gòu)大模型發(fā)展之困
4月18日,OpenAI CEO Sam Altman在討論大模型發(fā)展的趨勢的時候認(rèn)為,讓模型變得更大將不會進(jìn)一步帶來新進(jìn)展。他說,“我認(rèn)為我們正處于將模型做大這一時代的盡頭。我們將以其他方式使它們變得更好?!蔽磥砟P蛥?shù)應(yīng)該向更小的方向發(fā)展,或者以多個小模型協(xié)作的方式工作。
“讓大模型變小”已經(jīng)成為眾多研究者非常感興趣的一條路,大家先后做了很多嘗試,先是 Meta 開源了 LLaMA,讓學(xué)界和小公司可以訓(xùn)練自己的模型。隨后斯坦福研究者啟動了 Lamini,為每個開發(fā)者提供了從 GPT-3 到 ChatGPT 的快速調(diào)優(yōu)方案。
今年4月,隱私計算聯(lián)邦學(xué)習(xí)開源平臺FATE(Federated AI Technology Enabler)正式發(fā)布聯(lián)邦大模型FATE-LLM功能模塊,同樣是“小模型協(xié)作”的思路,F(xiàn)ATE-LLM則是通過將聯(lián)邦學(xué)習(xí)和大模型結(jié)合,在各參與方的敏感數(shù)據(jù)不出本地域的前提下,根據(jù)各方實際數(shù)據(jù)量進(jìn)行算力投入,聯(lián)合進(jìn)行大模型訓(xùn)練。
基于此技術(shù)方案,多個機構(gòu)可以通過FATE內(nèi)置的預(yù)訓(xùn)練模型進(jìn)行橫向聯(lián)邦,利用各自隱私數(shù)據(jù)進(jìn)行聯(lián)邦大模型微調(diào),從而提升自身大模型應(yīng)用的效果。聯(lián)邦大模型不僅主要解決的是大模型訓(xùn)練階段的隱私保護問題,未來還將研究在使用大模型的過程中如何保護用戶的隱私。
這種用小模型聯(lián)動大模型的方式,也很好地詮釋了小模型協(xié)作的精髓。聯(lián)邦學(xué)習(xí)作為一種分布式機器學(xué)習(xí)新范式,其“數(shù)據(jù)不動模型動,數(shù)據(jù)可用不可見”的特點有助于各參與方在保護各自數(shù)據(jù)安全與用戶隱私的前提下,進(jìn)行AI協(xié)作,打破數(shù)據(jù)孤島。
也正是因為聯(lián)邦學(xué)習(xí)的這一屬性,為未來大模型的發(fā)展提供新的思路:聯(lián)邦學(xué)習(xí)與大模型結(jié)合,或?qū)⒂兄跇?gòu)建安全合規(guī)的數(shù)據(jù)生態(tài)大陸。
近期聯(lián)邦大模型對現(xiàn)有大模型的支持已經(jīng)在實操層面上有了很多新進(jìn)展,F(xiàn)ATE開源社區(qū)TSC Maintainer、開發(fā)專委會核心成員范濤表示:“目前的FATE-LLM可以提供對主流大模型的支持,4月發(fā)布了聯(lián)邦大模型FATE-LLM對GPT-2等大模型的支持,5月發(fā)布了對清華GLM大模型的支持。”
聯(lián)邦大模型,也需要面對“原生困境”
和大模型面臨的隱憂類似,即便是以大化小,聯(lián)邦大模型從根本地解決了大模型面臨的一些問題,但是聯(lián)邦大模型依然有著自己要解決的“原生困境”。
公平性是否能夠得到保障?數(shù)據(jù)隱私性是否能夠有效保護?規(guī)模大小不一的異構(gòu)模型集如何統(tǒng)一調(diào)配訓(xùn)練?這些也給聯(lián)邦大模型的研究者們提出了難題。從2018年開始,楊強教授和其團隊始終致力于聯(lián)邦學(xué)習(xí)的研究,如今,面對聯(lián)邦大模型可能遇到的技術(shù)難題,楊強教授認(rèn)為,想要在多個維度實現(xiàn)“既要,又要”(既要安全可信,又要高效可用),那么就必須在“平衡”上做文章。
楊強教授認(rèn)為,“未來,人工智能模型一定會成為我們貼身的人工智能助理,這就要求人工智能對個人的需求有更強的適配能力和更好的理解能力,這個時候,就會用到私域數(shù)據(jù),包括個人的生理的數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)以及一些和個人非常強相關(guān)的數(shù)據(jù)。聯(lián)邦大模型針對這個問題可以做到很好的平衡:一方面數(shù)據(jù)是分布的,另一方面,這些大大小小的模型有的是分布式的,有的是個人化的、定制化的,他們一起對聯(lián)邦大模型總體產(chǎn)生性能的提升、效率的提升以及安全隱私的保護。”
然而,即便是“為解決數(shù)據(jù)隱私問題而生”的聯(lián)邦大模型,自身依然有要面對的安全性難題,對此,微眾銀行人工智能首席科學(xué)家范力欣認(rèn)為:“針對數(shù)據(jù)竊取,我們通過加密數(shù)據(jù)來進(jìn)行防御;針對模型竊取則是通過水印機制來進(jìn)行制約。目前我們已經(jīng)有一套技術(shù)方案能夠支撐和有效地管理、追蹤整個模型的全生命周期的合法使用,這同樣對模型的知識產(chǎn)權(quán)進(jìn)行了很好的保護。另外,針對數(shù)據(jù)攻擊、數(shù)據(jù)投毒這一部分行為,我們通過進(jìn)行模型鎖定、參數(shù)鎖定和數(shù)據(jù)樣本鎖定的方式去防御數(shù)據(jù)投毒?!?/p>
但在諸多的大模型發(fā)展的隱憂中,不僅僅有私域數(shù)據(jù)的隱私保護問題,還有樣本分布不均衡導(dǎo)致模型本身的公平性問題,這該如何解決? 范力欣表示,樣本分布不均衡導(dǎo)致模型不公平性的問題在大模型之前或者聯(lián)邦學(xué)習(xí)之前已經(jīng)提出來了,這個問題的基本的解決方案是有整體思路的:在訓(xùn)練模型時我們不僅僅是提升模型性能,而是對公平性、可解釋性、魯棒性等一系列跟倫理相關(guān)的目標(biāo)都作為優(yōu)化的約束條件或者優(yōu)化的多目標(biāo)一起來參與學(xué)習(xí)訓(xùn)練。
這種思路在理論上提出了“多目標(biāo)聯(lián)邦學(xué)習(xí)優(yōu)化”的“可信聯(lián)邦學(xué)習(xí)”技術(shù)框架。在實際應(yīng)用中,需要用相應(yīng)的算法去一一衡量這些不同目標(biāo)之間的平衡。
范力欣說:“我們模型性能要好,這是一個基本要求,但同時我們要保證它的公平性、可解釋性要做到可度量的,并且跟模型性能一起來進(jìn)行優(yōu)化。比如我們聯(lián)合多家機構(gòu)承擔(dān)的國家科技部科技創(chuàng)新2030-‘新一代人工智能’重大項目里面就應(yīng)用了這樣的解決方案,效果顯著?!?/p>
聯(lián)邦大模型從誕生開始就備受矚目,未來將助力重塑金融、零售、工業(yè)等多行業(yè)的數(shù)字化形態(tài)。相關(guān)應(yīng)用場景包括在金融領(lǐng)域的智能客服、內(nèi)容風(fēng)控、金融資訊情感分析、文本意圖識別、營銷場景智能創(chuàng)意生成和優(yōu)化等。盡管機構(gòu)自身擁有的數(shù)據(jù)量和算力可能不足,卻仍然可以通過發(fā)揮大模型的優(yōu)勢,安全合規(guī)地提升客服、營銷、風(fēng)控的效果。
人工智能正在經(jīng)歷從計算、感知到認(rèn)知的發(fā)展階段。聯(lián)邦學(xué)習(xí)、可信聯(lián)邦學(xué)習(xí)以及聯(lián)邦學(xué)習(xí)大模型,在保證安全、高效的要求下,進(jìn)一步滿足了可解釋性和普惠性等人工智能倫理的核心命題,將看似為難的“既要,又要”,變成了可以將之平衡的解決方案,這也將為人工智能生態(tài)的良性可持續(xù)發(fā)展提供助力。(新華網(wǎng) 曹素妨)
關(guān)鍵詞: