大家好呀!今天給大家介紹一篇2021年7月發(fā)表在Bioinformatics(IF:6.937)上的文章。作者使用CNN和多組學(xué)數(shù)據(jù)構(gòu)建可以預(yù)測(cè)膠質(zhì)瘤患者生存期情況的預(yù)測(cè)模型。
PathCNN: interpretable convolutional neural networks for survival prediction and pathway analysis applied to glioblastoma
PathCNN:卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)膠質(zhì)瘤的生存情況和通路分析
摘要:
卷積神經(jīng)網(wǎng)絡(luò)(CNNs)在圖像識(shí)別和計(jì)算機(jī)視覺(jué)方面取得巨大成功。然而,由于深層神經(jīng)網(wǎng)絡(luò)的主要障礙是缺乏可解釋性并且生物矩陣數(shù)據(jù)是以非網(wǎng)格結(jié)構(gòu)形式不能直接應(yīng)用CNN。為解決以上問(wèn)題,作者提出一種新的方法—PathCNN。該方法使用新定義的路徑圖像在多組學(xué)數(shù)據(jù)上構(gòu)建一個(gè)CNN模型。PathCNN可以準(zhǔn)確區(qū)分膠質(zhì)瘤(GBM)的長(zhǎng)期生存(LTS)和非長(zhǎng)期生存(non-LTS),使用可視化分析和統(tǒng)計(jì)分析可以鑒定與GBM有關(guān)的通路。總的來(lái)說(shuō),PathCNN表明CNN可以應(yīng)用于多組學(xué)數(shù)據(jù)預(yù)測(cè)膠質(zhì)瘤患者的生存情況。
方法:
1.數(shù)據(jù)
從cBioPortal數(shù)據(jù)庫(kù)下載GBM的mRNA數(shù)據(jù),CNV數(shù)據(jù)和DNA甲基化數(shù)據(jù)。分別用G,C和M∈Rn×r,n和r代表樣本數(shù)量和基因數(shù)量。長(zhǎng)期生存(LTS)定義為生存期超過(guò)2年,non-LTS定義為生存期未超過(guò)2年。
2.通路圖像
從KEGG數(shù)據(jù)庫(kù)獲取通路信息和通路相關(guān)基因,共獲得146條通路。對(duì)于通路pi,從mRNA表達(dá)矩陣G提取相關(guān)基因,生成中間矩陣B∈Rn×ri,ri是通路pi中涉及的基因數(shù)量,矩陣B的行為樣本數(shù)量,列為通路pi中涉及的基因數(shù)量。對(duì)矩陣B進(jìn)行PCA分析,生成Gpi∈Rn×q,q代表PCs數(shù)量。對(duì)CNV數(shù)據(jù)和DNA甲基化數(shù)據(jù)進(jìn)行同樣分析,分別生成矩陣Cpi∈Rn×q和Mpi∈Rn×q。由于共有通路146條,因此合并后的矩陣分別為Gp∈Rn×146q,Cp∈Rn×146q和Mpi∈Rn×146q。對(duì)每個(gè)樣本sj生成單一矩陣Gsj∈R146×q,Csj∈R146×q和Msj∈R146×q。將三個(gè)矩陣合并生成每個(gè)樣本sj的通路圖像Ksj∈R146×3q,行為146條通路,列為3×q個(gè)PCs,作為CNN模型的輸入(圖1)。

3.通路排序
使用Grad-CAM鑒定GBM中與LTS相關(guān)的重要通路。計(jì)算146條通路間的Pearson相關(guān)性,相關(guān)性最高的通路排在通路圖像的最上方。
4.CNN結(jié)構(gòu)
CNN結(jié)構(gòu)的輸入為通路圖像,共包括兩個(gè)卷積層,一個(gè)max-pooling層,一個(gè)dropout層和輸出層(圖2)。

5.使用Grad-CAM鑒定關(guān)鍵通路
使用Grad-CAM鑒定通路圖像上與GBM患者LTS有關(guān)的重要像素點(diǎn)(圖3A)。對(duì)于給定像素點(diǎn)計(jì)算LTS組和non-LTS組的統(tǒng)計(jì)學(xué)差異(圖3B)。

結(jié)果:
1.數(shù)據(jù)集的獲取和下載
本研究包含528例患者共有12042個(gè)mRNA表達(dá),24776個(gè)CNV和1807個(gè)DNA甲基化數(shù)據(jù)。共有343例患者包含三種組學(xué)數(shù)據(jù),共有8037個(gè)基因包括這三種組學(xué)數(shù)據(jù)。LTS組有55例患者,non-LTS組有232例患者。共有4989個(gè)基因涉及146條KEGG通路,每條通路有68個(gè)基因參與。對(duì)每種組學(xué)數(shù)據(jù)的通路進(jìn)行PCA分析。LTS組和non-LTS組的平均年齡分別為48和61,兩組年齡具有顯著差異。由于患者年齡對(duì)生存具有重要作用,因此CNN模型將年齡納入分析。
2.模型性能
利用通路圖像構(gòu)建的CNN模型對(duì)GBM的LTS和non-LTS進(jìn)行分類,并進(jìn)行5倍交叉折疊驗(yàn)證。通路圖像包括146行(每行代表一條通路)和3×q列(q代表PC數(shù)量)。例如,q=2代表每列代表每種組學(xué)數(shù)據(jù)排名前2位的PC,組學(xué)數(shù)據(jù)排序?yàn)閙RNA,CNV和DNA甲基化。在建模過(guò)程中,q的值選擇從1到5。如圖4所示,當(dāng)q=2時(shí)模型的性能達(dá)到飽和,AUC值為0.753。當(dāng)模型沒(méi)有納入年齡數(shù)據(jù)時(shí),q=2時(shí)AUC為0.677,結(jié)果表明年齡對(duì)建模的重要性。

隨后,作者比較mRNA,CNV和DNA甲基化數(shù)據(jù)的排序?qū)δP托阅艿谋容^。三種組學(xué)數(shù)據(jù)排序?yàn)镃NV,mRNA和DNA甲基化時(shí)AUC最差,為0.736,排序?yàn)镃NV,DNA甲基化和mRNA以及DNA甲基化,mRNA和CNV時(shí)AUC分別為0.741和0.747。其他排序方法的平均AUC為0.755,與本研究的排序方法結(jié)果相似。模型性能的差異可能是由于不同數(shù)據(jù)的相關(guān)性造成的。
為評(píng)估對(duì)模型性能影響最大的組學(xué)數(shù)據(jù)類型,作者分別使用兩種組學(xué)數(shù)據(jù)構(gòu)建模型。如圖5所示,基于mRNA和CNV構(gòu)建的模型和基于CNV和DNA甲基化構(gòu)建的模型AUC分別為0.749和0.748,mRNA和DNA甲基化構(gòu)建的模型AUC為0.740。此外使用單一組學(xué)數(shù)據(jù)mRNA,CNV和DNA甲基化構(gòu)建的模型AUC分別為0.699,0.715和0.687。

3.與其他模型的比較
作者將PathCNN和logistic回歸,SVM,全連接神經(jīng)網(wǎng)絡(luò)和MiNet的預(yù)測(cè)性能進(jìn)行比較。此外,作者還從TCGA數(shù)據(jù)庫(kù)下載了其他癌癥的mRNA,CNV和DNA甲基化數(shù)據(jù),包括腎癌,低級(jí)別膠質(zhì)瘤(LGG)和肺腺癌(LUAD)。表1為每種癌癥的基因數(shù)量,對(duì)于其他三種癌癥來(lái)說(shuō),LTS定義為生存期超過(guò)三年,non-LTS定義為生存期未超過(guò)三年。LTS組和non-LTS組分別有154和69例,156和75例,110和115例。結(jié)果如表2所示,對(duì)于大多數(shù)癌癥來(lái)說(shuō)PathCNN的性能優(yōu)于其他機(jī)器學(xué)習(xí)方法,對(duì)于LGG來(lái)說(shuō)RBF和SVM的性能較優(yōu)于PathCNN。有趣的是,PathCNN的標(biāo)準(zhǔn)差最小表明PathCNN的穩(wěn)定性最好。


4.鑒定關(guān)鍵通路
為鑒定與GBM患者生存有關(guān)且與年齡無(wú)關(guān)的生物學(xué)機(jī)制,作者將年齡從CNN模型中去除,使用通路圖像輸入訓(xùn)練模型。統(tǒng)計(jì)學(xué)檢驗(yàn)結(jié)果表明,有4個(gè)區(qū)域的p值小于0.001,共包括15個(gè)像素和10條通路(圖6和表3)。每個(gè)像素代表一個(gè)PC,mRNA的PC1和PC2。富集于細(xì)胞因子-細(xì)胞因子受體互作,趨化因子信號(hào)通路和NOD-like受體信號(hào)通路。CNV的PC1和PC2富集于α-亞麻酸代謝和亞油酸代謝通路。與亞油酸代謝和α-亞麻酸代謝有關(guān)的基因分別有29和19個(gè)基因,共有基因16個(gè)。根據(jù)PC值的中位數(shù)將患者分為不同亞組,使用KM分析研究亞組的生存情況。圖7A-7D為mRNA富集的通路細(xì)胞因子-細(xì)胞因子受體互作,趨化因子信號(hào)通路,NOD-like受體信號(hào)通路和ECM受體互作的KM分析結(jié)果,圖7E和7F為CNV富集的通路亞油酸代謝和神經(jīng)活性配體-受體互作的KM分析結(jié)果。



結(jié)論:
作者基于通路圖像的概念和多組學(xué)數(shù)據(jù)構(gòu)建CNN模型以預(yù)測(cè)膠質(zhì)瘤患者的生存情況—PathCNN。該模型可以準(zhǔn)確的預(yù)測(cè)膠質(zhì)瘤患者的長(zhǎng)期生存期和非長(zhǎng)期生存期,且性能優(yōu)于機(jī)器學(xué)習(xí)方法。