癌癥轉移是指腫瘤細胞從原發部位擴散,通過侵襲淋巴管和血管在原發部位以外的其他部位繼續生長形成腫瘤的過程。轉移是癌癥發病和死亡的主要原因,據報道轉移死亡是所有癌癥死亡的90%。許多癌癥患者在治療效果較好的情況下預后較好,但是一旦發生轉移將增加后續診斷和治療的困難。為了提高癌癥治愈率,有效的預測癌癥患者是否發生轉移十分重要。因此,今天小編給大家介紹一篇2022年發表在Briefing in Bioinformatics上的文章,這篇文章作者提出一種嵌入圖學習(GL)模塊的圖卷積網絡——glmGCN,可以準確預測癌癥的遠端轉移。下面,就讓我們來一起學習一下吧~

流程圖:

數據
作者從TCGA數據庫下載4種癌癥類型的FPKM數據集,分別為宮頸鱗狀細胞癌CESC(397例),胃癌STAD(407例),胰腺癌PAAD(182例)和膀胱癌BLCA(427例)。共包括19814個mRNAs和14851個lncRNAs。差異表達分析后,CESC數據集得到1515個DEGs,STAD得到4122個DEGs,PAAD得到116個DEGs,BLCA得到2767個DEGs。由于各個數據集中轉移樣本和未轉移樣本不平衡,因此作者使用SMOTE對數據集進行平衡,各個數據集的樣本數量如表1所示。

方法
1.圖學習模塊
作者根據STRING數據庫中的PPI網絡和各個數據集的DEGs構建每種癌癥類型的PPI網絡。根據PPI網絡構建鄰接矩陣A,其中如果兩個基因沒有互作邊的話則對應A中的位置為0,如果兩個基因存在互作邊的話則對應A中的位置為打分值。作者基于基因表達矩陣G和鄰接矩陣A構建非線性函數S。作者根據損失函數優化權重向量α和Ppj,隨后,權重矩陣使用損失函數進行優化。
2.圖卷積網絡
本研究提出方法的創新之處在于在GCN上添加了GL層,GL層學習圖表示S并將S用于圖卷積層。圖卷積模型包括一個輸入層,多個隱藏層和一個輸出層。其中隱藏層由一個GL層,兩個圖卷積層和多個全連接層組成。在GL層和卷積層之后對參數進行優化,使用變平層將特征圖轉化為一維向量。使用多個全連接層映射分布式特征,使用softmax進行最終預測。
結果
1.特征可視化
首先,作者使用T-SNE和glmGCN的最后一層全連接層提取出的特征對CESC和STAD數據集進行可視化(圖1),從圖中可以看出使用原始特征不能準確區分轉移樣本和非轉移樣本,而使用glmGCN提取的特征可以將兩類高度分離。

2.與GCN方法比較
作者將glmGCN模型的結果與GCN模型的結果進行比較,兩個模型的區別在于GCN直接使用PPI網絡表示基因的互作而glmGCN在GCN網絡上添加GL層來得到新的基因互作關系。兩個模型的結果如表2和表3所示,對于CESC數據集來說,glmGCN的準確率(ACC),特異性(SEN),F1-SCORE和AUC分別提高了0.61%,1.21%,0.62%和0.0017。對于STAD數據集來說,glmGCN的ACC,SEN,F1-SCORE和AUC分別提高了0.77%,1.64%,0.83%和0.0008。此外,圖2中glmGCN的ROC曲線略高于GLCN。



3.改進的GL層的影響
其次,作者將glmGCN與GCN添加普通GL層(GCNGLY)進行比較,結果見表4,表5和圖3。從圖中可以看出,作者的算法在CESC和STAD數據集上均取得了更好的性能。



4.與深度神經網絡(DNN)比較
第三,作者將glmGCN與DNN進行比較,結果見表6和表7。對于CESC數據集來說,幾乎所有指標都有提高。對于STAD數據集來說,ACC提高了3.88%,SEN提高了8.32%,F1 SCORE提高了4.25%,AUC提高了0.0313。ROC曲線同樣表明glmGCN模型的性能優于DNN(圖4)。



5.與non-deep方法比較
第四,作者將glmGCN模型與機器學習方法如SVM,LR和RF等方法進行比較。結果如表8,表9和圖5所示。結果表明,對于CESC和STAD數據集來說RF的ACC和AUC最高分別為98.74%,94.95%和99.09%和98.28%。對于CESC來說,glmGCN的結果有些許提高,而對于STAD來說,glmGCN的ACC提高了2.44%,AUC提高了0.01。



6.其他數據集的驗證
最后,作者在PAAD和BLCA兩個數據集進一步驗證glmGCN模型的性能。與CESC和STAD數據集的分析類似,作者使用三種方法進行了比較分別為基于GCN的方法,基于DNN的方法和non-deep方法。PAAD和BLCA數據集的比較結果如表10,表11和圖6所示。對于PAAD數據集來說,non-deep方法的準確率高于基于GCN的方法和基于DNN的方法。除了glmGCN的結果外,ACC和AUC最高分別為78.53%和0.8471,相較于glmGCN來說,glmGCN分別提高了1.03%和0.0052。對于BLCA數據集來說,基于GCN的方法由于non-deep方法和基于DNN的方法。除了glmGCN的結果外,ACC和AUC最高分別為91.39%和0.9532,相較于glmGCN來說,glmGCN分別提高了0.65%和0.013。為了保證作者提出方法的可靠性和穩定性,作者使用了10折交叉驗證且重復三次。



結論
在本研究中,作者提出glmGCN算法用于鑒定癌癥的遠端轉移樣本。作者將glmGCN應用于4種癌癥類型并與基于GCN的方法,基于DNN的方法和non-deep方法進行比較來驗證glmGCN的準確性。總的來說,根據glmGCN提取的特征可以大致區分轉移樣本和非轉移樣本。此外,對于分類性能來說,glmGCN的性能優于基于GCN的方法,基于DNN的方法和non-deep方法。這篇文章作為基于深度學習的分類算法研究來說,對小編的啟發很大,小伙伴你有多少收獲呢~