99国内免费在线_无码 有码 日韩 人妻_国产成_人_综合_亚洲_漂亮人妻被强中文字幕久久_手机看片福利永久国产影集

“AI問(wèn)診就是拋硬幣”,甚至漏掉67%病患,Nature都看不下去了 環(huán)球今日訊

來(lái)源:36kr時(shí)間:2023-01-17 15:03:09

“AI的一些醫(yī)療決策,實(shí)際上就是拋硬幣?!?/strong>


(資料圖片僅供參考)

哈佛醫(yī)學(xué)院的數(shù)據(jù)科學(xué)家Kun-Hsing Yu語(yǔ)出驚人。

他還補(bǔ)充道:

即便比賽中正確率達(dá)90%的獲獎(jiǎng)模型,再用原數(shù)據(jù)集子集測(cè)試時(shí),準(zhǔn)確度最多60-70%,可謂慘敗。這讓我們很驚訝。

上述科學(xué)家的觀點(diǎn)來(lái)自Nature最近新發(fā)表的一篇文章。

內(nèi)容對(duì)AI在醫(yī)療領(lǐng)域的可重復(fù)性提出了質(zhì)疑,呈現(xiàn)諸多醫(yī)療領(lǐng)域及場(chǎng)景中,AI自帶的黑箱屬性造成的隱患。

更值得關(guān)注的是,盡管問(wèn)題存在,但AI仍在醫(yī)療領(lǐng)域大規(guī)模推廣使用。

舉例來(lái)看,數(shù)以百計(jì)的美國(guó)醫(yī)院已在使用一種AI模型標(biāo)記敗血癥早期癥狀,但在2021年,該模型被發(fā)現(xiàn)未能識(shí)別率高達(dá)67%。

所以,AI究竟帶來(lái)了哪些醫(yī)療隱患,如何解決?

繼續(xù)往下看。

人工智能的“看病難”

我們先從哈佛醫(yī)學(xué)院的數(shù)據(jù)科學(xué)家Kun-Hsing Yu發(fā)現(xiàn)AI“拋硬幣”的始末聊起。

在醫(yī)療領(lǐng)域,AI用于診斷檢測(cè)人體一直質(zhì)疑聲不斷,Kun-Hsing Yu此番研究也是希望有個(gè)直觀體感。

他選定了常見(jiàn)癌癥之一的肺癌,每年有350萬(wàn)美國(guó)人因該病癥去世,若能更早通過(guò)CT掃描篩查,很多人可以免于死亡。

該領(lǐng)域的確備受機(jī)器學(xué)習(xí)界關(guān)注,為此,2017年業(yè)內(nèi)還舉辦了面向肺癌篩查的競(jìng)賽。

該活動(dòng)歸屬于Kaggle的Data Science Bowl賽事,數(shù)據(jù)由主辦方提供,涵蓋1397位患者的胸部CT掃描數(shù)據(jù)。參賽團(tuán)隊(duì)需開(kāi)發(fā)并測(cè)試算法,最終大賽按準(zhǔn)確率給予評(píng)獎(jiǎng),在官宣中,至少五個(gè)獲獎(jiǎng)模型準(zhǔn)確度90%以上。

但Kun-Hsing Yu又重新測(cè)試了一輪,然后震驚地發(fā)現(xiàn),即便使用原比賽數(shù)據(jù)的子集,這些“獲獎(jiǎng)”模型最高準(zhǔn)確率卻下降到了60-70%。

上述狀況并非個(gè)例。

普林斯頓一位博士,Sayash Kapoor,在17個(gè)領(lǐng)域的329項(xiàng)研究中報(bào)告了可重復(fù)性失敗和陷阱,醫(yī)學(xué)名列其中。

基于研究,這位博士及自己的教授還組織了一個(gè)研討會(huì),吸引了30個(gè)國(guó)家600名科研者參與。

一位劍橋的高級(jí)研究員在現(xiàn)場(chǎng)表示,他用機(jī)器學(xué)習(xí)技術(shù)預(yù)測(cè)新冠傳播流行趨勢(shì),但因不同來(lái)源的數(shù)據(jù)偏差、訓(xùn)練方法等問(wèn)題,沒(méi)有一次模型預(yù)測(cè)準(zhǔn)確。還有一位研究者也分享了——自己用機(jī)器學(xué)習(xí)研究心理課題,但無(wú)法復(fù)現(xiàn)的問(wèn)題。

在該研討會(huì)上,還有參與者指出谷歌此前遇到的“坑”。

他們?cè)?008年就利用機(jī)器學(xué)習(xí)分析用戶(hù)搜索所產(chǎn)生數(shù)據(jù)集,進(jìn)而預(yù)測(cè)流感暴發(fā)。谷歌為此還鼓吹一波。

但事實(shí)上,它并未能預(yù)測(cè)2013年的流感暴發(fā)。一家獨(dú)立研究機(jī)構(gòu)指出,該模型將一些流感流行無(wú)關(guān)的季節(jié)性詞匯進(jìn)行了關(guān)聯(lián)和鎖定。2015年,谷歌停止了對(duì)外公開(kāi)該趨勢(shì)預(yù)測(cè)。

Kapoor認(rèn)為,就可重復(fù)性來(lái)說(shuō),AI模型背后的代碼和數(shù)據(jù)集都應(yīng)可用并不出錯(cuò)誤。那位研究新冠流行模型的劍橋ML研究者補(bǔ)充道,數(shù)據(jù)隱私問(wèn)題、倫理問(wèn)題、監(jiān)管障礙也是導(dǎo)致可重復(fù)性出問(wèn)題的病灶。

他們繼續(xù)補(bǔ)充道,數(shù)據(jù)集是問(wèn)題根源之一。目前公開(kāi)可用的數(shù)據(jù)集比較稀缺,這導(dǎo)致模型很容易產(chǎn)生帶偏見(jiàn)的判斷。比如特定數(shù)據(jù)集中,醫(yī)生給一個(gè)種族開(kāi)的藥比另一個(gè)種族多,這可能導(dǎo)致AI將病癥與種族關(guān)聯(lián),而非病癥本身。

另一個(gè)問(wèn)題是訓(xùn)練AI中的“透題”現(xiàn)象。因數(shù)據(jù)集不足,用于訓(xùn)練模型的數(shù)據(jù)集和測(cè)試集會(huì)重疊,甚至該情況一些當(dāng)事人還不知道,這也可能導(dǎo)致大家對(duì)模型的正確率過(guò)于樂(lè)觀。

盡管問(wèn)題存在,但AI模型仍已被應(yīng)用在實(shí)際診斷場(chǎng)景中,甚至直接下場(chǎng)看病。

2021年,一個(gè)名為Epic Sepsis Model的醫(yī)療診斷模型被曝出嚴(yán)重漏檢問(wèn)題。

該模型用于敗血癥篩查,通過(guò)識(shí)別病人早期患病特征檢測(cè),避免這種全身感染的發(fā)生,但密歇根大學(xué)醫(yī)學(xué)院研究者通過(guò)調(diào)查分析了27697人的就診情況,結(jié)果發(fā)現(xiàn),該模型未能識(shí)別67%敗血癥病患。

此后,該公司對(duì)模型進(jìn)行了大調(diào)整。

一位計(jì)算生物學(xué)家對(duì)此指出,該問(wèn)題之所以較難解決,也同AI模型透明度不足有關(guān)?!拔覀?cè)趯?shí)踐中部署了無(wú)法理解的算法,也并不知道它帶什么偏見(jiàn)”,他補(bǔ)充道。

可以明確的是,只要上述問(wèn)題一直未能解決,商業(yè)巨頭及相關(guān)創(chuàng)業(yè)項(xiàng)目也有些舉步維艱——

去年谷歌谷歌健康(Google Health)宣布人員拆分到各團(tuán)隊(duì),前幾天,谷歌孵化的生命健康子公司Verily又被曝裁員約15%。

有沒(méi)改進(jìn)措施?

對(duì)于這樣的現(xiàn)狀,一些研究者和業(yè)內(nèi)人士也在著手改進(jìn)醫(yī)療AI。

一方面,是構(gòu)建靠譜的超大數(shù)據(jù)集。

涵蓋機(jī)構(gòu)、國(guó)家和人口等多方面的數(shù)據(jù),并向所有人開(kāi)放。

這種數(shù)據(jù)庫(kù)其實(shí)已經(jīng)出現(xiàn)了,比如英國(guó)和日本的國(guó)家生物庫(kù),以及重癥病房遠(yuǎn)程監(jiān)護(hù)系統(tǒng)eICU合作的數(shù)據(jù)庫(kù)等。

就拿eICU合作研究數(shù)據(jù)庫(kù)來(lái)說(shuō),這里面大約有20萬(wàn)次的ICU入院相關(guān)數(shù)據(jù),由飛利浦醫(yī)療集團(tuán)和MIT的計(jì)算生理學(xué)實(shí)驗(yàn)室共同提供。

為了規(guī)范數(shù)據(jù)庫(kù)的內(nèi)容,需要建立收集數(shù)據(jù)的標(biāo)準(zhǔn)。例如一個(gè)關(guān)于醫(yī)療結(jié)果伙伴關(guān)系的可觀測(cè)數(shù)據(jù)模型,讓各醫(yī)療機(jī)構(gòu)能以相同的方式收集信息,這樣有利于加強(qiáng)醫(yī)療保健領(lǐng)域的機(jī)器學(xué)習(xí)研究。

當(dāng)然,與此同時(shí),也必須重視嚴(yán)格保護(hù)患者的隱私,而且只有當(dāng)患者本人同意時(shí),才有資格把他們的數(shù)據(jù)納入庫(kù)。

另一方面,想要提升機(jī)器學(xué)習(xí)質(zhì)量的話,消除冗余數(shù)據(jù)也很有幫助。

因?yàn)樵跈C(jī)器學(xué)習(xí)中,冗余數(shù)據(jù)不僅會(huì)延長(zhǎng)運(yùn)行時(shí)間、消耗更多資源;而且還很可能造成模型過(guò)擬合——也就是訓(xùn)練出來(lái)的模型在訓(xùn)練集上表現(xiàn)很好,但是在測(cè)試集上表現(xiàn)較差。

對(duì)于AI圈很熱門(mén)的預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),這個(gè)問(wèn)題已經(jīng)得到了有效緩解。在機(jī)器學(xué)習(xí)過(guò)程中,科學(xué)家們成功地從測(cè)試集中刪除了和訓(xùn)練集用到的過(guò)于相似的蛋白質(zhì)。

but,各病人醫(yī)療數(shù)據(jù)之間的差異,并沒(méi)有不同蛋白質(zhì)結(jié)構(gòu)差異那么明顯。在一個(gè)數(shù)據(jù)庫(kù)中,可能有許許多多病情非常相似的個(gè)體。

所以我們需要想清楚到底向算法展示什么數(shù)據(jù),才能平衡好數(shù)據(jù)的代表性和豐富性之間的關(guān)系。

哥本哈根大學(xué)的轉(zhuǎn)化性疾病系統(tǒng)生物學(xué)家S?ren Brunak如是評(píng)價(jià)。

除此之外,還可以請(qǐng)行業(yè)大佬們制定一個(gè)檢查表,規(guī)范醫(yī)療AI領(lǐng)域的研究開(kāi)發(fā)步驟。

然后,研究人員就能更方便地搞清楚先做什么、再做什么,有條不紊地操作;還能Check一些可能遺漏的問(wèn)題,比如一項(xiàng)研究是回顧性還是前瞻性的,數(shù)據(jù)與模型的預(yù)期用途是否匹配等等。

其實(shí),現(xiàn)有已有多種機(jī)器學(xué)習(xí)檢查表,其中大部分是基于“EQUATOR Network”先提出的,這是一項(xiàng)旨在提高健康研究可靠性的國(guó)際倡議。

此前,上文提到的普林斯頓的Kapoor博士,也和團(tuán)隊(duì)共同發(fā)表了一份包含21個(gè)問(wèn)題的清單。

他們建議,對(duì)于一個(gè)預(yù)測(cè)結(jié)果的模型,研究人員得確認(rèn)訓(xùn)練集中的數(shù)據(jù)要早于測(cè)試集,這樣可以確保兩個(gè)數(shù)據(jù)集是獨(dú)立的,不會(huì)有數(shù)據(jù)重疊和相互影響。

參考鏈接

[1]https://www.nature.com/articles/d41586-023-00023-2

[2]https://www.wired.com/story/machine-learning-reproducibility-crisis/

[3]https://mp.weixin.qq.com/s/TEoe3d9DYuO7DGQeEQFghA

關(guān)鍵詞: 機(jī)器學(xué)習(xí) 醫(yī)療領(lǐng)域 可重復(fù)性

責(zé)任編輯:FD31
上一篇:當(dāng)前熱文:為什么1%的億萬(wàn)富豪能賺走全球2/3的增量財(cái)富?
下一篇:最后一頁(yè)