深度學習通常都會遵循一個強假設,即獨立同分布假設(i.i.d.)---訓練樣本和真實應用場景是同分布的,然而違反i.i.d. 原則的現象在臨床上普遍存在,這就成了下一步解決方案,那么深度學習的預訓練任務,要如何設計才能應對臨床動態環境所帶來的挑戰?
今天小編分享一篇來自牛津大學的Dani Kiyasseh等人在Nature Communications(IF:14.919)上發表的文章,提出了一種應用于心臟信號的基于重放的 CL 策略,名為 CLOPS,旨在減輕在違反獨立同分布假設的實例中訓練的深度學習算法所造成的破壞性干擾。

一、研究背景和待解決的科學問題
心率失常診斷,即識別心臟功能異常,通常會利用心電圖(ECG) 進行診斷。深度學習系統的出現允許對心律失常進行大規律且具有合理準確性的診斷。深度學習在訓練數據時有一個極其重要假設,即假定數據服從獨立同分布,訓練集和測試集是獨立同分布的,訓練樣本和真實應用場景是同分布的,然而在臨床動態環境中,這些數據會可能會隨著時間(季節性疾病)、患者(不同醫院或醫院環境)而導致數據分布的變化。
因此,本文要解決的問題是,在生理信號的背景下設計和評估在多種動態環境中執行心律失常診斷的臨床任務,而不會災難性地忘記如何執行以前的任務的深度學習系統。
基于此,作者采用雙重存儲和獲取策略設計并評估了一個連續的深度學習系統,該系統能夠基于 ECG 數據流以順序方式診斷心律失常,通過接收單導聯心電圖數據的輸入并返回單個心律失常診斷。
二、研究思路
首先作者將每個數據點與作為損失函數系數的可學習參數相關聯,以明確哪些數據點對存儲的信息量最大。
其次定期量化深度學習系統對每個數據點進行分類的不確定性,以確定應該從緩沖區重放哪些數據點。
同時作者還進行了廣泛的消融研究,并表明所提出的緩沖區存儲和獲取機制對于提高性能至關重要。此外作者通過參考心電圖(ECG)領域的知識,驗證了可學習參數代表了難度的解釋。
研究思路解析:
1、構建持續深度學習系統CLOPS。
2、評估微調策略與CLOPS策略在4個CL場景中的性能。
3、探究緩沖區存儲和獲取機制對性能的影響。
4、驗證存儲參數的解釋是否能有效識別重要的 ECG 信號。
三、結果
1、構建持續深度學習系統CLOPS
為了構建持續深度學習系統,作者采用了四個公開可用的數據集。
第一個數據集Cardiology,包括通過胸貼從 292 名患者收集的心電圖數據(ECG)以及十二個心律失常標簽:心房纖顫(AFIB),房室傳導阻滯(AVB),竇性早搏二聯律(BIGEMINY),異位心房節律(EAR),室性心律失常(IVR),交界性心律(JUNCTIONAL),噪聲(NOISE),正常竇性心律(NSR),室上性心動過速(SVT),竇性早搏三聯律(TRIGEMINY),室性心動過速(VT),文氏型(WENCKEBACH)。
第二個數據集Chapman,包括從 10,646 名患者收集的 ECG 數據以及四個高級心律失常標簽:心房纖顫(AFIB)、GSVT、竇性心動過緩和竇性心律。
第三個數據集PhysioNet 2020,包括從 6876 名患者收集的 ECG 數據以及九個心律失常標簽:心房纖顫(AFIB)、I度房室傳導阻滯(I-AVB)、左束支阻滯(LBBB)、正常、房性期前收縮(PAC)、室性早搏(PVC)、右束支傳導阻滯(RBBB)、STD 和 STE。
第四個數據集PhysioNet 2017,包括 8528 個單導聯心電圖記錄以及四個標簽:正常、心房纖顫(AFIB)、其他和嘈雜。
接下來,考慮到動態變化環境,作者模擬了四種動態變化環境,采用深度學習系統依次執行心律失常分類的任務
在類增量學習(Class-IL)的場景中,作者將Cardiology數據集劃分為以下類對 [0, 1]、[2, 3]、[4, 5]、[6, 7]、[8, 9] 和 [10, 11],深度學習系統針對這些來自相互排斥的心律失常類對的數據解決了一個二元分類問題以此來評估網絡對新類別的敏感性。
在時間增量學習(Time-IL)的場景中,作者將 Chapman 數據集拆分為三個任務;Term 1、Term 2、Term 3對應于收集患者數據的年份中的互斥日期。深度學習系統針對不同時間收集的數據解決了一個多類分類問題,以此來評估時間非平穩性對系統性能的影響。
在域增量學習(Domain-IL)的場景中,作者根據 ECG 的 12 個導聯拆分 PhysioNet 2020 數據集,來模擬各種醫療傳感器的存在。深度學習系統針對不同模式的輸入解決了一個多類分類問題,以此來評估系統對輸入分布變化的穩健性。
在機構增量學習(Institute-IL)場景中,深度學習系統針對來自不同醫療機構的輸入解決了一個多類分類問題,不同醫療機構的概念表現為不同的數據集,以此來評估系統對醫療機構變化的穩健性。
在所有數據集中,作者將患者隨機分為訓練集、驗證集和測試集,確保集之間沒有患者重疊。

2、評估微調策略與CLOPS策略在4個CL場景中的性能。
為了評估深度學習系統的性能,作者將深度學習系統CLOPS與以下幾種基線方法進行了比較。
1.靜態多任務學習 (MTL) 系統,該系統可以訪問來自順序任務的所有數據。
2.一個簡單的微調系統,它沒有部署明確的 CL 策略。
3.兩種最先進的持續學習方法 GEM 和 MIR。
在 CL 設置中,深度學習系統的評估主要基于泛化性能和它們經歷災難性遺忘的程度。因此作者采用以下指標對模型進行評估:
1.平均 AUC,在深度學習系統所接觸的任務序列結束時評估其性能。
2.反向傳輸 (BWT),是一種度量標準,它最終揭示了系統所經歷的災難性遺忘的程度。
3.BWTt,評估對 t 個后續任務進行訓練后系統在先前看到的任務上的性能。
4.BWTλ,擴展BWTt以考慮所有可能的時間步長 t,以便能夠在任務級別識別系統中的改進。
最后,作者將深度學習系統部署在四個不同的 CL 場景中時,并將這些結果呈現在表 1 中。
在Class-IL場景中,CLOPS 不僅在泛化性能方面優于最先進的 CL 方法、GEM 和 MIR,而且還表現出建設性干擾。而由圖2a中可以看出在Class-IL場景中部署的一個簡單的、微調的深度學習系統所取得的AUC幅度從AUC ≈ 0.92 → 0.30 過渡,表明在沒有明確的CL策略的情況下,破壞性干擾非常普遍。
在 Time-IL 場景中,深度學習系統 CLOPS 的性能略低于 MIR。但CLOPS(圖2d)在對任務Term 3進行單個時期的訓練后取得了AUC≈0.62,而微調深度學習系統(圖2c)在經過20個完整的時期后才取得這一數值,這表明CLOPS有望減少訓練深度學習系統所花的開銷。
在 Domain-IL 場景和Institute-IL 場景中,深度學習系統CLOPS在泛化性能和 BWT 方面的表現均優于 MIR 和微調系統。這進一步表明了CLOPS 能更好地減輕災難性遺忘,以及CLOPS 作為一種有利的基于重放的、在生理信號背景下的持續深度學習系統。


3、存儲和獲取機制對性能的影響
作者研究了存儲和獲取機制對性能的邊際影響。存儲和獲取機制取決于存儲和獲取的數據量,因此,作者在進行研究的同時改變了存儲到緩沖區和從緩沖區取回的數據比例,數據比例分別用b(存儲)和a(獲取)表示。
在隨機存儲研究中,作者取消了存儲機制,而是將將心電圖信號隨機存儲到緩沖區。在隨機獲取研究中,作者取消了獲取機制,從緩沖區中隨機獲取心電圖信號。最后,在隨機存儲和獲取研究中,作者將心電圖信號隨機存儲到緩沖區,并從緩沖區中隨機獲取心電圖信號。圖3中給出了這些實驗的結果AUC。
結果表明,存儲機制和獲取機制都極大地提高了深度學習系統的泛化性能。另外當作者獨立評估獲取機制時,表明無論從緩沖區存儲和獲取的數據量如何,采集機制的結合都增加了深度學習系統的 AUC。

4、驗證存儲參數的解釋
為了驗證這些分布確實表示了心電圖信號診斷的難度,作者確定了與最低和最高重要性參數值相關的兩個心電圖信號,探索并可視化了深度學習系統學習的重要性參數。
圖4為所有 ECG 信號和深度學習系統在 Class-IL 場景中順序暴露的所有任務的這些參數的分布。在作者的設置中,這兩個 ECG 信號應分別對應于最難和最難診斷的信號,與此同時,基本心電圖領域專業知識證實了這一預想。

此外,由于數據呈現給學習系統的順序會影響系統的泛化能力,作者利用存儲參數s,設計了幾個基于任務難度和相似度概念的課程。
首先作者采用高斯分布N(μk, δk2 )分別擬合圖4中的六個分布,并定義了任務k的難度為dk =1/μk,任務j 和任務k之間的相似度S(j,k),并繪制在Class-IL 場景中成對任務相似度矩陣(圖5),結果表明深度學習系統在接受課程(easy → hard)訓練時實現了最高的建設性干擾,但這種改進的建設性干擾是以泛化性能為代價的。

四、討論
在深度學習領域中普遍存在著一個嚴重的問題---災難性遺忘,即采用新的數據集去訓練原有的模型,將會損害該模型在原有任務或環境性能大幅下降。
基于此,作者提出了一種應用于心臟信號的基于重放的 CL 策略,名為 CLOPS,其由重要性引導的緩沖區存儲和基于不確定性的緩沖區獲取機制組成,減輕了減輕在違反獨立同分布假設的實例中訓練的深度學習算法所造成的破壞性干擾。
參考文獻
[1] Kiyasseh, D., Zhu, T. & Clifton, D. A clinical deep learning framework for continually learning from cardiac signals across diseases, time, modalities, and institutions. Nat Commun 12, 4221 (2021). https://doi.org/10.1038/s41467-021-24483-0