DeepProg一種新的預測模型

今天給大家介紹一個新的預測模型,DeepProg它結合了深度學習(自動編碼器)和機器學習算法來處理多種類型的組學數據集,特別是針對生存預測。本篇文章發表在期刊: Genome Medicine在最近一年的影響因子為11.117比去年上漲了 0.442。中科院大類: 生物學 1區。中科院小類: 2區 遺傳學
研究結果
DeepProg是一個通用的混合和靈活的計算框架,基于一種或多種組學數據類型(如mRNA轉錄組學、DNA甲基化和microRNA表達)來預測患者生存(圖1)。DeepProg的第一階段由使用自定義秩歸一化和自動編碼器(一種深度神經網絡)的降維和特征變換組成。在默認實現中,自動編碼器有3層,即輸入層、隱藏層(100個節點)和輸出層。然后對變換后的特征進行單變量Cox-PH擬合,以便進一步選擇與生存相關的特征子集。然后,DeepProg使用無監督聚類方法確定生存亞群的最佳類別(標簽)數,并利用這些類別構建基于支持向量機(SVM)的機器學習模型,以預測新患者的生存群體。為了提高效率,DeepProg的計算是完全分布式的,因為每個模型都可以單獨擬合。

作者應用DeepProg分析了TCGA中32種癌癥的多組數據(RNA-Seq、miRNA-Seq和DNA甲基化)。作者在卵巢癌(OV)中只使用了RNA和MIR。幾乎所有癌癥(32例中有30例)都將K = 2(最優的聚類數K)作為最優生存亞組(圖2A)。利用最優聚類數,作者計算了每種癌癥不同生存亞型之間的log-rank p值,均具有統計學意義(log-rank p值< 0.05),且c -index(0.6-1.0)均大于隨機模型的期望值0.5。其中,32種癌癥中有23種的log-rank p值小于5e?4,突出了這些模型在區分患者生存方面的價值(圖2B)。總體而言,RNA-Seq在預測生存方面具有最重要的隱藏特征。miRNA隱藏特征在所有癌癥中都有相似的模式,但總計數較少。

為了評估DeepProg方法,作者將上述32種癌癥的結果與相似網絡融合(SNF)算法得到的結果進行了比較,SNF算法是一種集成多組學數據的最先進的方法。以前,SNF被用來識別與其他人的生存相關的癌癥亞型。如圖2B所示,SNF的生存亞型僅在32例癌癥中有13例存活率有顯著差異(p值<0.05)。總而言之,DeepProg產生了更好的對數秩p值(圖2B)和C指數(圖2C)。作者還通過TCGA HCC和BRCA數據集,用簡單的PCA分解和兩種矩陣分解方法(包括MAUI和MOFA+)代替了DeepProg配置的自動編碼器步驟,在HCC中,PCA和MOFA+的c -index分別為0.60和0.59(圖3A, B),而DeepProg的c -index為0.76(圖3C)。在BRCA中,PCA和MOFA+的c指數分別為0.58和0.62(圖3D, E),而DeepProg的c指數為0.77(圖3F)。

DeepProg工作流的一個關鍵優勢是:它能夠預測任何具有常見RNA、miRNA或DNA甲基化特征的新個體樣本的生存亞型。為了驗證DeepProg模型的患者生存風險分層,作者將它們應用于外部的獨立癌癥數據集,其中兩個來自肝細胞癌(HCC)隊列(圖4A,B),四個來自乳腺癌(BRCA)隊列(圖4C,F)。作者得到的C指數為0.80,對數秩p值為1.2E?4(LIRI),C指數為0.73,對數秩p值為1.5E?5(GSE)(圖4A,B)。四個BRCA數據集的C指數為0.68-0.73,生存差異的對數秩p值均顯著(<0.05)(圖4C,F)。因此,作者通過其他的HCC和BRCA隊列驗證了DeepProg的可預測性。

為了識別與患者生存差異相關的關鍵特征,作者對生存最差患者子集中顯著過表達或過表達的各組學層特征進行了全面分析。接下來,在過表達或過表達的特征中,作者從輸入數據類型中選擇Wilcoxon秩檢驗p值小于1e?4的重要特征。對于這些特征中的每一個,作者計算了每種癌癥類型的單變量Cox-PH回歸,并基于-log10 (p值)對它們進行排名。將這些等級歸一化后,作者通過匯總所有32種癌癥類型獲得了一個泛癌癥等級。RNA-Seq分析顯示,在表現最差的生存組中出現了一些過度表達的基因模式(圖5A)。利用排序值,作者對腫瘤和基因進行聚類,檢測到兩個清晰的基因簇,分別富含細胞周期和有絲分裂的生物學功能(adv . p值= 3e?42)和細胞外基質組織通路(adv . p值= 6e?9)(圖5a)。此外,分析顯示了兩組不同的癌癥,其中GBM、HNSC、OV、STAD、COAD、LUSC和KIRC屬于一組,PRAD、PAAD和LUAD屬于另一組(圖5A)。研究表明,CBX7的下調在癌癥進展中發揮了關鍵作用。同樣,EZH1抑制被證明參與了細胞增殖和癌變。此外,鋅指家族的多個基因(ZBTB7C、ZMAT1、ZNF18、ZNF540、ZNF589、ZNF554和ZNF763)均下調。ZNF基因是一個龐大的轉錄因子家族,其中許多基因在腫瘤進展中顯示出相關性。


為了進一步鑒定與最差存活亞型相關的RNA-Seq基因表達,作者進行了全球基因共表達分析。對于每種癌癥類型,作者從生存最差的亞型(圖5A)中選擇差異表達基因,并構建泛癌共識共表達網絡。作為說明,作者使用前200個基因和最重要的相關基因(圖5B)構建了共表達的子圖,并進行基因群落檢測。很大一部分共表達基因與前面強調的生存基因重疊。此外,該網絡還分別揭示了淋巴和非淋巴細胞通路(第2組,Q值=6e?10)和平滑肌收縮(第3組,Q值為7e?12)兩組與免疫調節相關的基因。與簽名基因結果(圖5A)相似,基因-癌癥聚集圖在RNA共表達方面顯示CoAD和STAD之間非常相似的地方(圖5C)。為了解決患者體內腫瘤異質性的潛在混雜問題,作者使用XCell來分離每個患者的細胞類型。然后,作者使用Logistic回歸調整了所有細胞類型成分的基因。肝癌和癌旁組織的Kendall-Tau相關分數分別為0.5 2(p值<1.04e?2 5)和0.5 5(p值<3.5e?15 0)。高度顯著的p值否定了這兩個DE基因排名是獨立的假設。
基于觀察到的某些癌癥之間的相似性,作者探索了這些模型是否適用于轉移學習,也就是說,建立在一種特定癌癥類型上的模型可以用來預測另一種癌癥類型患者的生存。作者測試了所有32對癌癥,交替用作訓練和測試數據集。許多癌癥模型在預測其他癌癥類型方面是有效的(圖6A)。有趣的是,根據間皮瘤(MESO)數據建立的模型顯著預測了12種其他癌癥類型的亞型,p值從0.048到4.8e?6,C指數從0.58到0.82。一般來說,生物學上更相關的癌癥類型具有更高的交叉預測準確性。STAD模型顯著地預測了COAD樣本的亞型(p值=0.018,CI=0.6)(圖6B),反之亦然,對于STAD樣本的COAD模型預測(p值=5.4E?3,CI=0.66)(圖6C)。作者進一步調查了潛在的來源。Read顯示了與STAD和CoAD相似的前100名基因表達模式;然而,在miRNA和甲基化水平上的前100名功能中則有很大不同。

本文小結:DeepProg是深度學習和機器學習方法的新集成框架,它使用多組學數據有力地預測患者的生存亞型。預計DeepProg模型可以為預測癌癥等疾病的患者生存風險提供信息。