大家好呀!今天給大家介紹一篇2021年9月發(fā)表在Computational and Structural Biotechnology Journal(IF:7.271)上的文章。本研究作者首次使用DL和多組學(xué)泛癌種數(shù)據(jù)預(yù)測癌癥轉(zhuǎn)移狀態(tài)。作者使用TCGA數(shù)據(jù)庫的420例樣本的mRNA數(shù)據(jù),miRNA數(shù)據(jù)和DNA甲基化數(shù)據(jù),基于卷積變分自編碼器(CVAE)提取特征并輸入深度神經(jīng)網(wǎng)絡(luò)(DNN)模型,可用于預(yù)測腫瘤是否已經(jīng)轉(zhuǎn)移(M)或是原發(fā)性(P)
MetaCancer: A deep learning-based pan-cancer metastasis prediction model developed using multi-omics data
MetaCancer:使用多組學(xué)數(shù)據(jù)基于深度學(xué)習(xí)構(gòu)建泛癌種轉(zhuǎn)移的預(yù)后模型
研究背景:
在轉(zhuǎn)移相關(guān)研究中通常是預(yù)測癌癥是否發(fā)生轉(zhuǎn)移來將腫瘤樣本劃分為原發(fā)性(P)和轉(zhuǎn)移性(M)。目前,通常是使用不同組學(xué)數(shù)據(jù)構(gòu)建預(yù)測轉(zhuǎn)移的模型,使用的方法主要有基于網(wǎng)絡(luò)和基于排序的方法。基于網(wǎng)絡(luò)的方法是由He等人開發(fā)的,He等人首先鑒定轉(zhuǎn)移和非轉(zhuǎn)移骨肉瘤(OS)患者的差異表達基因(DEGs),并利用DEGs構(gòu)建蛋白互作網(wǎng)絡(luò)(PPI)。然后,根據(jù)He等人根據(jù)網(wǎng)絡(luò)屬性,中心性(BC)對DEGs進行排序并基于排名靠前的DEGs使用SVM構(gòu)建分類模型。基于排序的方法主要是Wu等人使用最小冗余最大相關(guān)性(mRMR)特征選擇和遺傳算法提取最相關(guān)的DNA甲基化探針構(gòu)建分類模型。大部分方法僅使用單一組學(xué)數(shù)據(jù)預(yù)測轉(zhuǎn)移。本研究作者使用mRNA,miRNA和DNA甲基化三種組學(xué)數(shù)據(jù)和深度學(xué)習(xí)方法構(gòu)建了預(yù)測轉(zhuǎn)移的模型。
摘要:
對癌癥患者預(yù)測是否發(fā)生轉(zhuǎn)移有助于臨床醫(yī)生對患者調(diào)整治療方案。目前,已開發(fā)了一些計算方法鑒定早期轉(zhuǎn)移。然而,大多數(shù)方法僅關(guān)注一種基因組水平的變化,且不是針對泛癌種開發(fā)的方法。本研究,作者基于深度學(xué)習(xí)(DL)構(gòu)建預(yù)測泛癌種轉(zhuǎn)移的模型—metaCancer,該模型基于三種測序數(shù)據(jù)預(yù)測泛癌種的轉(zhuǎn)移情況。本研究納入的數(shù)據(jù)來自TCGA數(shù)據(jù)庫的400例泛癌患者的RNA-seq數(shù)據(jù),miRNA-seq數(shù)據(jù)和DNA甲基化數(shù)據(jù)。作者使用卷積變分自編碼器(CVAE)和替代特征提取方法和神經(jīng)網(wǎng)絡(luò)構(gòu)建泛癌種轉(zhuǎn)移狀態(tài)的預(yù)測模型。作者的研究表明,結(jié)合mRNA,miRNA和DNA甲基化數(shù)據(jù)作為特征可以提高預(yù)測模型的性能,mRNA相關(guān)特征在預(yù)測轉(zhuǎn)移狀態(tài)的作用更大。作者構(gòu)建的基于DL的模型性能顯著優(yōu)于ML模型。
方法和數(shù)據(jù):
1.數(shù)據(jù)集的獲取和下載
作者從TCGA數(shù)據(jù)集下載泛癌種的mRNA-seq數(shù)據(jù),miRNA-seq數(shù)據(jù)和DNA甲基化數(shù)據(jù),有11種癌癥類型有這三類組學(xué)數(shù)據(jù)并且至少有10個樣本發(fā)生轉(zhuǎn)移。根據(jù)AJCC分類,M0定義為未發(fā)生轉(zhuǎn)移,M1定義為轉(zhuǎn)移。本研究共包含210例轉(zhuǎn)移樣本和210例未發(fā)生轉(zhuǎn)移樣本。其中M1樣本分別為10例CESC,10例THCA,10例KIRP,10例UBC,10例ESCA,11例READ,20例STAD,17例BRCA,19例LUAD,41例COAD和52例KIRC。
2.深度學(xué)習(xí)框架
作者應(yīng)用卷積變分自編碼器(CVAE)進行特征提取(圖1),CVAE包括編碼器和解碼器結(jié)構(gòu),分別包括兩個卷積層和一個稠密層。CVAE的輸入為mRNA,miRNA和DNA甲基化組學(xué)數(shù)據(jù)的矩陣。

作者使用深度神經(jīng)網(wǎng)絡(luò)(DNN)構(gòu)建分類模型,在完成CVAE訓(xùn)練后將結(jié)果輸入給DNN分類器,用于預(yù)測輸入數(shù)據(jù)是否發(fā)生轉(zhuǎn)移(M)或原發(fā)(P)(圖2)。

為比較DL模型的性能,作者應(yīng)用了兩種其他特征選擇方法,分別為PPI網(wǎng)絡(luò)構(gòu)建(network-based)和特征遞歸消除(rank-based)。作者從BioGRID,HPRD和DIP數(shù)據(jù)庫下載PPI信息并使用Cytoscape構(gòu)建DEGs的網(wǎng)絡(luò)。作者構(gòu)建DEGs的PPI 網(wǎng)絡(luò)并計算每個節(jié)點的BC,BC越大則DEGs的重要性越大。作者選擇排名前100的基因構(gòu)建分類器。此外,作者計算基因與轉(zhuǎn)移狀態(tài)的相關(guān)性并對基因進行排序,按照遞歸消除算法構(gòu)建分類器。
結(jié)果:
1.特征選擇方法比較
特征提取方法會影響模型的預(yù)測性能。因此,作者比較了使用CVAE方法和其他特征提取方法構(gòu)建模型的準(zhǔn)確性,敏感性,特異性,精確度和F1打分。作者應(yīng)用特征提取方法為PPI網(wǎng)絡(luò)構(gòu)建和遞歸特征消除的方法,這兩種方法僅使用mRNA數(shù)據(jù)。作者構(gòu)建的DL模型同樣僅使用mRNA數(shù)據(jù)。如表1所示,基于CVAE的特征選擇方法的性能較高。與其他兩種方法相比,基于CVAE方法提取的特征可以更準(zhǔn)確的區(qū)分原發(fā)性腫瘤和轉(zhuǎn)移性腫瘤。

2.評估不同組學(xué)數(shù)據(jù)的重要性
隨后,作者比較了不同組學(xué)數(shù)據(jù)對DL模型的重要性,如圖3所示,使用三種組學(xué)數(shù)據(jù)的模型性能較好,其次為mRNA模型。

隨后,作者分析每類組學(xué)數(shù)據(jù)對模型性能的貢獻,使用單一組學(xué)數(shù)據(jù)和多種組學(xué)數(shù)據(jù)的AUC作為評價指標(biāo)。使用的那一組學(xué)數(shù)據(jù)時,mRNA的表現(xiàn)最好,miRNA的表現(xiàn)最差,然而三種組學(xué)數(shù)據(jù)的性能最好(圖4A)。當(dāng)排除mRNA數(shù)據(jù)時AUC下降最大,排除miRNA數(shù)據(jù)時AUC下降最小(圖4B)。總的來說,mRNA數(shù)據(jù)可能是鑒定轉(zhuǎn)移狀態(tài)的重要特征,而miRNA的貢獻最小。

3.MetaCancer模型與其他集成模型的比較
作者將MetaCancer模型與Bhalla等人構(gòu)建的集成模型進行比較(表2)。Bhalla等人構(gòu)建集成模型包括三個獨立模型,mRNA,miRNA和DNA甲基化數(shù)據(jù)分別構(gòu)建一個模型。對于mRNA數(shù)據(jù)和miRNA數(shù)據(jù)使用SVC-L1進行特征選擇,使用SVM構(gòu)建分類模型,對于DNA甲基化數(shù)據(jù)使用WEKA-FCBR進行特征選擇,使用LR作為分類模型。對于每種組學(xué)數(shù)據(jù)的預(yù)測打分作為輸入特征,使用SVM構(gòu)建最終的分類模型。表4為MetaCancer和Bhalla的集成模型的性能,結(jié)果表明MetaCancer的性能優(yōu)于集成模型并且MetaCancer可應(yīng)用于11種癌癥類型,準(zhǔn)確率為88.85而Bhalla的集成模型僅適用于一種癌癥,準(zhǔn)確率為87.64%。

總結(jié):
盡管已有很多應(yīng)用于轉(zhuǎn)移狀態(tài)預(yù)測的研究,但大多數(shù)研究并沒有考慮基因組層面的變化對轉(zhuǎn)移狀態(tài)的影響。本研究,作者研究mRNA,miRNA和DNA甲基化對轉(zhuǎn)移狀態(tài)的貢獻,使用三種組學(xué)數(shù)據(jù)構(gòu)建DL模型預(yù)測腫瘤患者是否發(fā)生轉(zhuǎn)移。本研究有助于醫(yī)生更早的識別轉(zhuǎn)移性腫瘤,從而修改治療方案來治療轉(zhuǎn)移性腫瘤。