大家好呀!今天跟大家分享的是2021年5月發表在Computers in Biology and Medicine (IF:4.589)上的一篇文章,主要是根據深度學習和XGboost使用15種癌癥的多組學數據構建預后模型。作者的研究表明基于多組學數據的模型準確的較高,其中mRNA數據的貢獻程度最高。使用乳腺癌的三個GEO獨立數據集驗證DCAP-XGB的性能,結果表明該模型可以準確區分高風險組和低風險組。根據兩個風險組的差異分析,鑒定到9個與乳腺癌高度相關的預后標志物,其中有7個基因已被文獻證實。
Integrating multi-omics data through deep learning for accurate cancer prognosis prediction
基于多組學數據的深度學習構建癌癥預后模型

研究路線:

1.數據獲取
從TCGA數據庫下載mRNA,miRNA,DNA甲基化和CNV的數據。對所有特征進行缺失值處理和標準化。最終獲得15種癌癥的16160個mRNA特征,354個miRNA特征,20123個DNA甲基化特征和23600個CNV特征。從GEO數據庫下載三個乳腺癌的驗證數據集。
表1 數據的統計信息

2.本研究分析流程(DCAP)
本研究分析流程如流程圖所示。首先,將包含多組學數據的所有特征輸入到一個降噪自編碼器網絡(DAE)中來獲得代表性特征,使用這些特征可以通過Cox模型評估患者風險(流程圖A)。由于獲得所有患者的多組學數據較為困難,作者使用mRNA數據和XGBoost模型來構建預后模型。使用驗證數據集來驗證構建模型的準確性(流程圖B)。
3.基于多組學數據評估患者風險
首先,作者對DCAP進行10倍折疊驗證和獨立檢驗,其C-index平均值為0.678和0.665(表2),表明該方法具有較強魯棒性。在這15種癌癥中,C-index在0.591到0.823之間。LGG(低級別腦膠質瘤)的C-index最高,STAD(胃腺癌)的C-index最低。LGG的C-index最高可能是因為LGG的樣本數量最大。
表2 15種癌癥DCAP的10倍折疊和獨立檢驗的C-index

隨后,作者對單一組學數據進行研究。mRNA的C-index為0.628而CNV的C-index為0.570(表3)。當排除一種組學數據構建DCAP時,排除mRNA時C-index下降幅度最大。以上結果表明,mRNA在鑒定高危患者中起到重要作用。
表3 單一組學的C-index

4.與其他方法比較
作者將DCAP與其他使用多組學數據構建預后模型的方法進行比較。DCAP的C-index最高,PCA-Cox的C-index最低。
表4 與其他方法比較

5.使用XGboost構建癌癥風險預測模型
由于DCAP是基于深度學習構建的癌癥預后預測模型,若沒有必要的基因特征則DCAP不具有解釋性。作者使用XGboost構建DCAP-XGB,其LUSC(肺鱗癌)的C-index為0.565,LGG的C-index為0.755。結果表明,盡管特征選擇導致模型預測的準確性降低,但DCAP-XGB的預測準確性與之前結果一致(圖1)。

圖1 DCAP-XGB的C-index
6.乳腺癌研究
作者使用三個乳腺癌的GEO數據集測試DCAP-XGB的性能,如圖3A所示高風險組和低風險組顯著分離。對高風險組和低風險組進行差異分析,鑒定到159個DEGs(圖2B和2C),其中有57個DEGs有文獻證明與乳腺癌有關。

圖2 乳腺癌研究
XGboost模型進行特征篩選得到223個基因,其中有9個基因是差異表達基因,這9個基因中有7個與乳腺癌相關(表5)。
表5 乳腺癌預后markers

小結:
本研究,作者整合多組學數據構建了一個深度學習框架DCAP可以進行癌癥風險評估。與其他方法相比,DCAP的性能更優。針對乳腺癌數據研究表明,DCAP-XGB可以顯著區分高風險組和低風險組。根據兩個風險組的差異分析鑒定到9個與乳腺癌顯著有關的預后標志物。本研究使用了深度學習結合XGboost方法使用多組學數據構建泛癌種的預后模型,分析思路簡單但是需要一定機器學習相關知識的基礎。文末作者提供了本研究所用的代碼(https://github.com/Hua 0113/DCAP),感興趣的小伙伴快來學習起來吧。