深度學(xué)習(xí)通常都會(huì)遵循一個(gè)強(qiáng)假設(shè),即獨(dú)立同分布假設(shè)(i.i.d.)---訓(xùn)練樣本和真實(shí)應(yīng)用場(chǎng)景是同分布的,然而違反i.i.d. 原則的現(xiàn)象在臨床上普遍存在,這就成了下一步解決方案,那么深度學(xué)習(xí)的預(yù)訓(xùn)練任務(wù),要如何設(shè)計(jì)才能應(yīng)對(duì)臨床動(dòng)態(tài)環(huán)境所帶來(lái)的挑戰(zhàn)?
今天小編分享一篇來(lái)自牛津大學(xué)的Dani Kiyasseh等人在Nature Communications(IF:14.919)上發(fā)表的文章,提出了一種應(yīng)用于心臟信號(hào)的基于重放的 CL 策略,名為 CLOPS,旨在減輕在違反獨(dú)立同分布假設(shè)的實(shí)例中訓(xùn)練的深度學(xué)習(xí)算法所造成的破壞性干擾。

一、研究背景和待解決的科學(xué)問(wèn)題
心率失常診斷,即識(shí)別心臟功能異常,通常會(huì)利用心電圖(ECG) 進(jìn)行診斷。深度學(xué)習(xí)系統(tǒng)的出現(xiàn)允許對(duì)心律失常進(jìn)行大規(guī)律且具有合理準(zhǔn)確性的診斷。深度學(xué)習(xí)在訓(xùn)練數(shù)據(jù)時(shí)有一個(gè)極其重要假設(shè),即假定數(shù)據(jù)服從獨(dú)立同分布,訓(xùn)練集和測(cè)試集是獨(dú)立同分布的,訓(xùn)練樣本和真實(shí)應(yīng)用場(chǎng)景是同分布的,然而在臨床動(dòng)態(tài)環(huán)境中,這些數(shù)據(jù)會(huì)可能會(huì)隨著時(shí)間(季節(jié)性疾病)、患者(不同醫(yī)院或醫(yī)院環(huán)境)而導(dǎo)致數(shù)據(jù)分布的變化。
因此,本文要解決的問(wèn)題是,在生理信號(hào)的背景下設(shè)計(jì)和評(píng)估在多種動(dòng)態(tài)環(huán)境中執(zhí)行心律失常診斷的臨床任務(wù),而不會(huì)災(zāi)難性地忘記如何執(zhí)行以前的任務(wù)的深度學(xué)習(xí)系統(tǒng)。
基于此,作者采用雙重存儲(chǔ)和獲取策略設(shè)計(jì)并評(píng)估了一個(gè)連續(xù)的深度學(xué)習(xí)系統(tǒng),該系統(tǒng)能夠基于 ECG 數(shù)據(jù)流以順序方式診斷心律失常,通過(guò)接收單導(dǎo)聯(lián)心電圖數(shù)據(jù)的輸入并返回單個(gè)心律失常診斷。
二、研究思路
首先作者將每個(gè)數(shù)據(jù)點(diǎn)與作為損失函數(shù)系數(shù)的可學(xué)習(xí)參數(shù)相關(guān)聯(lián),以明確哪些數(shù)據(jù)點(diǎn)對(duì)存儲(chǔ)的信息量最大。
其次定期量化深度學(xué)習(xí)系統(tǒng)對(duì)每個(gè)數(shù)據(jù)點(diǎn)進(jìn)行分類的不確定性,以確定應(yīng)該從緩沖區(qū)重放哪些數(shù)據(jù)點(diǎn)。
同時(shí)作者還進(jìn)行了廣泛的消融研究,并表明所提出的緩沖區(qū)存儲(chǔ)和獲取機(jī)制對(duì)于提高性能至關(guān)重要。此外作者通過(guò)參考心電圖(ECG)領(lǐng)域的知識(shí),驗(yàn)證了可學(xué)習(xí)參數(shù)代表了難度的解釋。
研究思路解析:
1、構(gòu)建持續(xù)深度學(xué)習(xí)系統(tǒng)CLOPS。
2、評(píng)估微調(diào)策略與CLOPS策略在4個(gè)CL場(chǎng)景中的性能。
3、探究緩沖區(qū)存儲(chǔ)和獲取機(jī)制對(duì)性能的影響。
4、驗(yàn)證存儲(chǔ)參數(shù)的解釋是否能有效識(shí)別重要的 ECG 信號(hào)。
三、結(jié)果
1、構(gòu)建持續(xù)深度學(xué)習(xí)系統(tǒng)CLOPS
為了構(gòu)建持續(xù)深度學(xué)習(xí)系統(tǒng),作者采用了四個(gè)公開可用的數(shù)據(jù)集。
第一個(gè)數(shù)據(jù)集Cardiology,包括通過(guò)胸貼從 292 名患者收集的心電圖數(shù)據(jù)(ECG)以及十二個(gè)心律失常標(biāo)簽:心房纖顫(AFIB),房室傳導(dǎo)阻滯(AVB),竇性早搏二聯(lián)律(BIGEMINY),異位心房節(jié)律(EAR),室性心律失常(IVR),交界性心律(JUNCTIONAL),噪聲(NOISE),正常竇性心律(NSR),室上性心動(dòng)過(guò)速(SVT),竇性早搏三聯(lián)律(TRIGEMINY),室性心動(dòng)過(guò)速(VT),文氏型(WENCKEBACH)。
第二個(gè)數(shù)據(jù)集Chapman,包括從 10,646 名患者收集的 ECG 數(shù)據(jù)以及四個(gè)高級(jí)心律失常標(biāo)簽:心房纖顫(AFIB)、GSVT、竇性心動(dòng)過(guò)緩和竇性心律。
第三個(gè)數(shù)據(jù)集PhysioNet 2020,包括從 6876 名患者收集的 ECG 數(shù)據(jù)以及九個(gè)心律失常標(biāo)簽:心房纖顫(AFIB)、I度房室傳導(dǎo)阻滯(I-AVB)、左束支阻滯(LBBB)、正常、房性期前收縮(PAC)、室性早搏(PVC)、右束支傳導(dǎo)阻滯(RBBB)、STD 和 STE。
第四個(gè)數(shù)據(jù)集PhysioNet 2017,包括 8528 個(gè)單導(dǎo)聯(lián)心電圖記錄以及四個(gè)標(biāo)簽:正常、心房纖顫(AFIB)、其他和嘈雜。
接下來(lái),考慮到動(dòng)態(tài)變化環(huán)境,作者模擬了四種動(dòng)態(tài)變化環(huán)境,采用深度學(xué)習(xí)系統(tǒng)依次執(zhí)行心律失常分類的任務(wù)
在類增量學(xué)習(xí)(Class-IL)的場(chǎng)景中,作者將Cardiology數(shù)據(jù)集劃分為以下類對(duì) [0, 1]、[2, 3]、[4, 5]、[6, 7]、[8, 9] 和 [10, 11],深度學(xué)習(xí)系統(tǒng)針對(duì)這些來(lái)自相互排斥的心律失常類對(duì)的數(shù)據(jù)解決了一個(gè)二元分類問(wèn)題以此來(lái)評(píng)估網(wǎng)絡(luò)對(duì)新類別的敏感性。
在時(shí)間增量學(xué)習(xí)(Time-IL)的場(chǎng)景中,作者將 Chapman 數(shù)據(jù)集拆分為三個(gè)任務(wù);Term 1、Term 2、Term 3對(duì)應(yīng)于收集患者數(shù)據(jù)的年份中的互斥日期。深度學(xué)習(xí)系統(tǒng)針對(duì)不同時(shí)間收集的數(shù)據(jù)解決了一個(gè)多類分類問(wèn)題,以此來(lái)評(píng)估時(shí)間非平穩(wěn)性對(duì)系統(tǒng)性能的影響。
在域增量學(xué)習(xí)(Domain-IL)的場(chǎng)景中,作者根據(jù) ECG 的 12 個(gè)導(dǎo)聯(lián)拆分 PhysioNet 2020 數(shù)據(jù)集,來(lái)模擬各種醫(yī)療傳感器的存在。深度學(xué)習(xí)系統(tǒng)針對(duì)不同模式的輸入解決了一個(gè)多類分類問(wèn)題,以此來(lái)評(píng)估系統(tǒng)對(duì)輸入分布變化的穩(wěn)健性。
在機(jī)構(gòu)增量學(xué)習(xí)(Institute-IL)場(chǎng)景中,深度學(xué)習(xí)系統(tǒng)針對(duì)來(lái)自不同醫(yī)療機(jī)構(gòu)的輸入解決了一個(gè)多類分類問(wèn)題,不同醫(yī)療機(jī)構(gòu)的概念表現(xiàn)為不同的數(shù)據(jù)集,以此來(lái)評(píng)估系統(tǒng)對(duì)醫(yī)療機(jī)構(gòu)變化的穩(wěn)健性。
在所有數(shù)據(jù)集中,作者將患者隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,確保集之間沒(méi)有患者重疊。

2、評(píng)估微調(diào)策略與CLOPS策略在4個(gè)CL場(chǎng)景中的性能。
為了評(píng)估深度學(xué)習(xí)系統(tǒng)的性能,作者將深度學(xué)習(xí)系統(tǒng)CLOPS與以下幾種基線方法進(jìn)行了比較。
1.靜態(tài)多任務(wù)學(xué)習(xí) (MTL) 系統(tǒng),該系統(tǒng)可以訪問(wèn)來(lái)自順序任務(wù)的所有數(shù)據(jù)。
2.一個(gè)簡(jiǎn)單的微調(diào)系統(tǒng),它沒(méi)有部署明確的 CL 策略。
3.兩種最先進(jìn)的持續(xù)學(xué)習(xí)方法 GEM 和 MIR。
在 CL 設(shè)置中,深度學(xué)習(xí)系統(tǒng)的評(píng)估主要基于泛化性能和它們經(jīng)歷災(zāi)難性遺忘的程度。因此作者采用以下指標(biāo)對(duì)模型進(jìn)行評(píng)估:
1.平均 AUC,在深度學(xué)習(xí)系統(tǒng)所接觸的任務(wù)序列結(jié)束時(shí)評(píng)估其性能。
2.反向傳輸 (BWT),是一種度量標(biāo)準(zhǔn),它最終揭示了系統(tǒng)所經(jīng)歷的災(zāi)難性遺忘的程度。
3.BWTt,評(píng)估對(duì) t 個(gè)后續(xù)任務(wù)進(jìn)行訓(xùn)練后系統(tǒng)在先前看到的任務(wù)上的性能。
4.BWTλ,擴(kuò)展BWTt以考慮所有可能的時(shí)間步長(zhǎng) t,以便能夠在任務(wù)級(jí)別識(shí)別系統(tǒng)中的改進(jìn)。
最后,作者將深度學(xué)習(xí)系統(tǒng)部署在四個(gè)不同的 CL 場(chǎng)景中時(shí),并將這些結(jié)果呈現(xiàn)在表 1 中。
在Class-IL場(chǎng)景中,CLOPS 不僅在泛化性能方面優(yōu)于最先進(jìn)的 CL 方法、GEM 和 MIR,而且還表現(xiàn)出建設(shè)性干擾。而由圖2a中可以看出在Class-IL場(chǎng)景中部署的一個(gè)簡(jiǎn)單的、微調(diào)的深度學(xué)習(xí)系統(tǒng)所取得的AUC幅度從AUC ≈ 0.92 → 0.30 過(guò)渡,表明在沒(méi)有明確的CL策略的情況下,破壞性干擾非常普遍。
在 Time-IL 場(chǎng)景中,深度學(xué)習(xí)系統(tǒng) CLOPS 的性能略低于 MIR。但CLOPS(圖2d)在對(duì)任務(wù)Term 3進(jìn)行單個(gè)時(shí)期的訓(xùn)練后取得了AUC≈0.62,而微調(diào)深度學(xué)習(xí)系統(tǒng)(圖2c)在經(jīng)過(guò)20個(gè)完整的時(shí)期后才取得這一數(shù)值,這表明CLOPS有望減少訓(xùn)練深度學(xué)習(xí)系統(tǒng)所花的開銷。
在 Domain-IL 場(chǎng)景和Institute-IL 場(chǎng)景中,深度學(xué)習(xí)系統(tǒng)CLOPS在泛化性能和 BWT 方面的表現(xiàn)均優(yōu)于 MIR 和微調(diào)系統(tǒng)。這進(jìn)一步表明了CLOPS 能更好地減輕災(zāi)難性遺忘,以及CLOPS 作為一種有利的基于重放的、在生理信號(hào)背景下的持續(xù)深度學(xué)習(xí)系統(tǒng)。


3、存儲(chǔ)和獲取機(jī)制對(duì)性能的影響
作者研究了存儲(chǔ)和獲取機(jī)制對(duì)性能的邊際影響。存儲(chǔ)和獲取機(jī)制取決于存儲(chǔ)和獲取的數(shù)據(jù)量,因此,作者在進(jìn)行研究的同時(shí)改變了存儲(chǔ)到緩沖區(qū)和從緩沖區(qū)取回的數(shù)據(jù)比例,數(shù)據(jù)比例分別用b(存儲(chǔ))和a(獲取)表示。
在隨機(jī)存儲(chǔ)研究中,作者取消了存儲(chǔ)機(jī)制,而是將將心電圖信號(hào)隨機(jī)存儲(chǔ)到緩沖區(qū)。在隨機(jī)獲取研究中,作者取消了獲取機(jī)制,從緩沖區(qū)中隨機(jī)獲取心電圖信號(hào)。最后,在隨機(jī)存儲(chǔ)和獲取研究中,作者將心電圖信號(hào)隨機(jī)存儲(chǔ)到緩沖區(qū),并從緩沖區(qū)中隨機(jī)獲取心電圖信號(hào)。圖3中給出了這些實(shí)驗(yàn)的結(jié)果AUC。
結(jié)果表明,存儲(chǔ)機(jī)制和獲取機(jī)制都極大地提高了深度學(xué)習(xí)系統(tǒng)的泛化性能。另外當(dāng)作者獨(dú)立評(píng)估獲取機(jī)制時(shí),表明無(wú)論從緩沖區(qū)存儲(chǔ)和獲取的數(shù)據(jù)量如何,采集機(jī)制的結(jié)合都增加了深度學(xué)習(xí)系統(tǒng)的 AUC。

4、驗(yàn)證存儲(chǔ)參數(shù)的解釋
為了驗(yàn)證這些分布確實(shí)表示了心電圖信號(hào)診斷的難度,作者確定了與最低和最高重要性參數(shù)值相關(guān)的兩個(gè)心電圖信號(hào),探索并可視化了深度學(xué)習(xí)系統(tǒng)學(xué)習(xí)的重要性參數(shù)。
圖4為所有 ECG 信號(hào)和深度學(xué)習(xí)系統(tǒng)在 Class-IL 場(chǎng)景中順序暴露的所有任務(wù)的這些參數(shù)的分布。在作者的設(shè)置中,這兩個(gè) ECG 信號(hào)應(yīng)分別對(duì)應(yīng)于最難和最難診斷的信號(hào),與此同時(shí),基本心電圖領(lǐng)域?qū)I(yè)知識(shí)證實(shí)了這一預(yù)想。

此外,由于數(shù)據(jù)呈現(xiàn)給學(xué)習(xí)系統(tǒng)的順序會(huì)影響系統(tǒng)的泛化能力,作者利用存儲(chǔ)參數(shù)s,設(shè)計(jì)了幾個(gè)基于任務(wù)難度和相似度概念的課程。
首先作者采用高斯分布N(μk, δk2 )分別擬合圖4中的六個(gè)分布,并定義了任務(wù)k的難度為dk =1/μk,任務(wù)j 和任務(wù)k之間的相似度S(j,k),并繪制在Class-IL 場(chǎng)景中成對(duì)任務(wù)相似度矩陣(圖5),結(jié)果表明深度學(xué)習(xí)系統(tǒng)在接受課程(easy → hard)訓(xùn)練時(shí)實(shí)現(xiàn)了最高的建設(shè)性干擾,但這種改進(jìn)的建設(shè)性干擾是以泛化性能為代價(jià)的。

四、討論
在深度學(xué)習(xí)領(lǐng)域中普遍存在著一個(gè)嚴(yán)重的問(wèn)題---災(zāi)難性遺忘,即采用新的數(shù)據(jù)集去訓(xùn)練原有的模型,將會(huì)損害該模型在原有任務(wù)或環(huán)境性能大幅下降。
基于此,作者提出了一種應(yīng)用于心臟信號(hào)的基于重放的 CL 策略,名為 CLOPS,其由重要性引導(dǎo)的緩沖區(qū)存儲(chǔ)和基于不確定性的緩沖區(qū)獲取機(jī)制組成,減輕了減輕在違反獨(dú)立同分布假設(shè)的實(shí)例中訓(xùn)練的深度學(xué)習(xí)算法所造成的破壞性干擾。
參考文獻(xiàn)
[1] Kiyasseh, D., Zhu, T. & Clifton, D. A clinical deep learning framework for continually learning from cardiac signals across diseases, time, modalities, and institutions. Nat Commun 12, 4221 (2021). https://doi.org/10.1038/s41467-021-24483-0