大家好呀!今天給大家介紹一篇2021年發表在Genome Medicine(IF:11.117)上的文章。本研究作者對多組學數據使用深度學習和機器學習方法進行分析,構建預測多種癌癥類型的患者生存情況。
DeepProg: an ensemble of deep-learning and machine-learning models for prognosis prediction using multi-omics data
DeepProg:使用深度學習和機器學習對多組學數據進行預后預測
摘要:
多組學數據是預后和生存預測的良好資源,然而很難對這些數據進行集成計算。作者使用深度學習和機器學習方法構建集成框架——DeepProg,使用多組學數據預測患者生存情況。DeepProg的預測性能較好。泛癌分析表明生存較差亞群的常見基因組特征與細胞外基質建模,免疫失調和有絲分裂過程有關。DeepProg的地址為:https://github.com/lanagarmire/DeepProg。
結果:
1.DeepProg方法概括
DeepProg使用一種或多種組學數據,如mRNA、DNA甲基化和miRNA數據構建的計算框架(圖1)。首先,DeepProg使用自定義秩和自編碼器進行降維和特征轉換。自編碼器包含輸入層,隱藏層(100個節點)和輸出層,隨后對特征進行單因素Cox-PH分析,進一步篩選與生存相關的特征子集。其次,使用無監督聚類方法確定生存亞群的最佳分類數并使用SVM學習模型,以預測新患者的生存情況。為確保模型的魯棒性,DeepProg使用boosting的方法,boosting方法使模型的p值和C指數更高且收斂更快。

2. 32種TCGA癌癥的預后預測
作者使用DeepProg分析了32種癌癥的多組學數據。幾乎所有癌癥的最佳分類數均為K=2,即有兩個生存亞組(圖2A)。生存分析表明兩個亞組的生存差異具有統計學意義(圖2B)。此外,作者研究了隱藏層中每種組學數據的特征數量與每種癌癥患者生存情況的相關性。總的來說,RNA-seq數據是與生存相關最主要的特征。盡管32種癌癥之間異質性較大,但一些有關癌癥,如結腸癌和胃癌,膀胱癌和腎癌具有相似的預后特征。
作者之前的研究表明,添加癌癥分期和種族等臨床變量并不能提高DeepProg預測HCC生存情況的準確性。本研究,作者比較了DeepProg和一個基于分期的簡單模型,DeepProg的準確性較高。隨后,作者使用Ⅲ期和Ⅳ期COAD和STAD患者數據構建DeepProg模型并進行生存分層,基于DeepProg構建生存模型性能較好。

3.DeepProg與其他方法的比較
作者將DeepProg對32種癌癥的預測結果與SNF算法的結果進行比較。如圖2B所示,使用SNF方法對32種癌癥生存進行預測只有13種癌癥存在顯著生存差異。總的來說,DeepProg的p值和C指數更好(圖2B和2C)。此外,作者使用PCA和兩種矩陣分解方法(MAUI和MOFA+)代替自編碼器步驟分析TCGA HCC和TCGA BRCA數據集,其余步驟相同。PCA和MOFA+的性能較差(圖3)。對HCC數據集來說,PCA和MOFA+的C指數分別為0.6和0.59(圖3A和3B),DeepProg的C指數為0.76(圖3C)。對BRCA數據集來說,PCA和MOFA+的C指數分別為0.58和0.62(圖3D和3E),DeepProg的C指數為0.77(圖3F)。總的來說,DeepProg對HCC和BRCA患者的生存預測性能較好。

4.使用其他數據集驗證DeepProg性能
作者將DeepProg應用于兩個肝細胞癌的數據集和四個乳腺癌數據集。兩個肝細胞癌數據集的C指數分別為0.8和0.73(圖4A和4B)。四個乳腺癌數據集的C指數在0.68-0.73之間(圖4C-4F)。

5.鑒定生存較差亞群的基因特征以揭示泛癌模式
為鑒定生存相關的基因特征,作者對生存較差亞群中顯著過表達的特征進行全面分析。作者選擇Wilcoxon rank檢驗p值小于1e-4的特征進行單因素Cox-PH分析并基于p值進行排序。RNA-seq數據表明,在生存較差亞群中存在一些過表達基因模式(圖5A)。CDC20排名第一,細胞分類周期家族的基因包括CDCA48,CDCA5,CDC25C和CDCA2,KIF家族成員包括KIF4A,KIF2C,KIF23,KIF20A,KIF18A,KIFC1,KIF18B和KIF14等也排名前100。作者對排名前100的基因進行聚類,共有兩個聚類簇,分別富集細胞周期和有絲分裂的生物學功能和細胞外基質組織通路(圖5A)。在生存較差亞群中低表達的基因,CBX7和EZH1是排名前2的基因。研究表明,下調CBX7表達在腫瘤進展中起到關鍵作用,抑制EZH1表達參與細胞增殖和癌變。此外鋅指家族的多個基因均下調表達,在腫瘤進展中具有相關性。

6.RNA-seq共表達網絡分析
為進一步研究與生存較差相關的RNA-seq基因表達情況,作者進行基因共表達分析。作者使用排名前200的基因構建共表達網絡并使用隨機游走算法檢測基因群(圖5B)。該網絡還揭示了兩組主要的與淋巴細胞和非淋巴細胞通路之間免疫調節相關基因,其聚類結果與特征基因相似(圖5A)。基因-癌癥聚類熱圖表明COAD和STAD的基因表達模式類似(圖5C)。
7.相似癌癥類型可以用做預測模型
由于一些癌癥類型見具有相似性,作者接下來研究這些模式是否適合用于遷移學習,也就是說,構建一種特定癌癥類型的模式可以用于預測另一種癌癥類型患者的生存情況。大多數癌癥的模型可以有效預測其他癌癥患者生存情況(圖6A)。有趣的是,MESO的模型可以有效預測12種癌癥的生存亞型。一般來說,生物學相關的癌癥類型可能跨腫瘤預測越準,例如STAD模型可以用于預測COAD樣本的生存情況(圖6B),COAD模型可以用于預測STAD樣本的生存情況(圖6C)。

結論:
本研究作者構建了一個通用的計算模型,DeepProg,該模型結合深度學習和機器學習算法處理多組學數據,可以用于多種癌癥患者的生存預測。DeepProg的預測精度和魯棒性比其他方法較好,且可以使用一種癌癥的模型預測另外癌癥的生存情況。本篇文章將預后模型和深度學習結合起來,做預后的小伙伴可以參考一下~