日韩欧美区,亚洲精品aⅴ,美腿丝袜av

DeepProg一種新的預測模型

文獻解讀 SCI ·2022年3月8日 12:16

DeepProg一種新的預測模型

今天給大家介紹一個新的預測模型，DeepProg它結合了深度學習(自動編碼器)和機器學習算法來處理多種類型的組學數據集，特別是針對生存預測。本篇文章發(fā)表在期刊: Genome Medicine在最近一年的影響因子為11.117比去年上漲了 0.442。中科院大類: 生物學 1區(qū)。中科院小類: 2區(qū) 遺傳學

研究結果

DeepProg的計算框架

DeepProg是一個通用的混合和靈活的計算框架，基于一種或多種組學數據類型(如mRNA轉錄組學、DNA甲基化和microRNA表達)來預測患者生存(圖1)。DeepProg的第一階段由使用自定義秩歸一化和自動編碼器(一種深度神經網絡)的降維和特征變換組成。在默認實現(xiàn)中，自動編碼器有3層，即輸入層、隱藏層(100個節(jié)點)和輸出層。然后對變換后的特征進行單變量Cox-PH擬合，以便進一步選擇與生存相關的特征子集。然后，DeepProg使用無監(jiān)督聚類方法確定生存亞群的最佳類別(標簽)數，并利用這些類別構建基于支持向量機(SVM)的機器學習模型，以預測新患者的生存群體。為了提高效率，DeepProg的計算是完全分布式的，因為每個模型都可以單獨擬合。

**Fig.1 The computational framework of DeepProg.**

32例TCGA腫瘤的預后預測

作者應用DeepProg分析了TCGA中32種癌癥的多組數據(RNA-Seq、miRNA-Seq和DNA甲基化)。作者在卵巢癌(OV)中只使用了RNA和MIR。幾乎所有癌癥(32例中有30例)都將K = 2（最優(yōu)的聚類數K）作為最優(yōu)生存亞組(圖2A)。利用最優(yōu)聚類數，作者計算了每種癌癥不同生存亞型之間的log-rank p值，均具有統(tǒng)計學意義(log-rank p值< 0.05)，且c -index(0.6-1.0)均大于隨機模型的期望值0.5。其中，32種癌癥中有23種的log-rank p值小于5e?4，突出了這些模型在區(qū)分患者生存方面的價值(圖2B)。總體而言，RNA-Seq在預測生存方面具有最重要的隱藏特征。miRNA隱藏特征在所有癌癥中都有相似的模式，但總計數較少。

Fig.2 DeepProg performance for the 32 TCGA cancer datasets.

DeepProg與其他方法的比較

為了評估DeepProg方法，作者將上述32種癌癥的結果與相似網絡融合(SNF)算法得到的結果進行了比較，SNF算法是一種集成多組學數據的最先進的方法。以前，SNF被用來識別與其他人的生存相關的癌癥亞型。如圖2B所示，SNF的生存亞型僅在32例癌癥中有13例存活率有顯著差異(p值<0.05)。總而言之，DeepProg產生了更好的對數秩p值(圖2B)和C指數(圖2C)。作者還通過TCGA HCC和BRCA數據集，用簡單的PCA分解和兩種矩陣分解方法(包括MAUI和MOFA+)代替了DeepProg配置的自動編碼器步驟，在HCC中，PCA和MOFA+的c -index分別為0.60和0.59(圖3A, B)，而DeepProg的c -index為0.76(圖3C)。在BRCA中，PCA和MOFA+的c指數分別為0.58和0.62(圖3D, E)，而DeepProg的c指數為0.77(圖3F)。

Fig.3 Comparing the performance of DeepProg and its variation

利用其他隊列驗證DeepProg的性能

DeepProg工作流的一個關鍵優(yōu)勢是：它能夠預測任何具有常見RNA、miRNA或DNA甲基化特征的新個體樣本的生存亞型。為了驗證DeepProg模型的患者生存風險分層，作者將它們應用于外部的獨立癌癥數據集，其中兩個來自肝細胞癌(HCC)隊列(圖4A，B)，四個來自乳腺癌(BRCA)隊列(圖4C，F(xiàn))。作者得到的C指數為0.80，對數秩p值為1.2E?4(LIRI)，C指數為0.73，對數秩p值為1.5E?5(GSE)(圖4A，B)。四個BRCA數據集的C指數為0.68-0.73，生存差異的對數秩p值均顯著(<0.05)(圖4C，F(xiàn))。因此，作者通過其他的HCC和BRCA隊列驗證了DeepProg的可預測性。

Fig.4 Validation of DeepProg subtype predictions by independent breast cancer and liver cancer cohorts. RNA-Seq Validation datasets for HCC

識別預后最差亞型的特征基因揭示了泛癌模式

為了識別與患者生存差異相關的關鍵特征，作者對生存最差患者子集中顯著過表達或過表達的各組學層特征進行了全面分析。接下來，在過表達或過表達的特征中，作者從輸入數據類型中選擇Wilcoxon秩檢驗p值小于1e?4的重要特征。對于這些特征中的每一個，作者計算了每種癌癥類型的單變量Cox-PH回歸，并基于-log10 (p值)對它們進行排名。將這些等級歸一化后，作者通過匯總所有32種癌癥類型獲得了一個泛癌癥等級。RNA-Seq分析顯示，在表現(xiàn)最差的生存組中出現(xiàn)了一些過度表達的基因模式(圖5A)。利用排序值，作者對腫瘤和基因進行聚類，檢測到兩個清晰的基因簇，分別富含細胞周期和有絲分裂的生物學功能(adv . p值= 3e?42)和細胞外基質組織通路(adv . p值= 6e?9)(圖5a)。此外，分析顯示了兩組不同的癌癥，其中GBM、HNSC、OV、STAD、COAD、LUSC和KIRC屬于一組，PRAD、PAAD和LUAD屬于另一組(圖5A)。研究表明，CBX7的下調在癌癥進展中發(fā)揮了關鍵作用。同樣，EZH1抑制被證明參與了細胞增殖和癌變。此外，鋅指家族的多個基因(ZBTB7C、ZMAT1、ZNF18、ZNF540、ZNF589、ZNF554和ZNF763)均下調。ZNF基因是一個龐大的轉錄因子家族，其中許多基因在腫瘤進展中顯示出相關性。

Fig.5 Pan-cancer analysis of RNA-Seq gene signatures in the worst survival vs.other groups.

RNA-Seq共表達網絡分析

為了進一步鑒定與最差存活亞型相關的RNA-Seq基因表達，作者進行了全球基因共表達分析。對于每種癌癥類型，作者從生存最差的亞型(圖5A)中選擇差異表達基因，并構建泛癌共識共表達網絡。作為說明，作者使用前200個基因和最重要的相關基因(圖5B)構建了共表達的子圖，并進行基因群落檢測。很大一部分共表達基因與前面強調的生存基因重疊。此外，該網絡還分別揭示了淋巴和非淋巴細胞通路(第2組，Q值=6e?10)和平滑肌收縮(第3組，Q值為7e?12)兩組與免疫調節(jié)相關的基因。與簽名基因結果(圖5A)相似，基因-癌癥聚集圖在RNA共表達方面顯示CoAD和STAD之間非常相似的地方(圖5C)。為了解決患者體內腫瘤異質性的潛在混雜問題，作者使用XCell來分離每個患者的細胞類型。然后，作者使用Logistic回歸調整了所有細胞類型成分的基因。肝癌和癌旁組織的Kendall-Tau相關分數分別為0.5 2(p值<1.04e?2 5)和0.5 5(p值<3.5e?15 0)。高度顯著的p值否定了這兩個DE基因排名是獨立的假設。

類似的癌癥類型可以用作預測模型

基于觀察到的某些癌癥之間的相似性，作者探索了這些模型是否適用于轉移學習，也就是說，建立在一種特定癌癥類型上的模型可以用來預測另一種癌癥類型患者的生存。作者測試了所有32對癌癥，交替用作訓練和測試數據集。許多癌癥模型在預測其他癌癥類型方面是有效的(圖6A)。有趣的是，根據間皮瘤(MESO)數據建立的模型顯著預測了12種其他癌癥類型的亞型，p值從0.048到4.8e?6，C指數從0.58到0.82。一般來說，生物學上更相關的癌癥類型具有更高的交叉預測準確性。STAD模型顯著地預測了COAD樣本的亞型(p值=0.018，CI=0.6)(圖6B)，反之亦然，對于STAD樣本的COAD模型預測(p值=5.4E?3，CI=0.66)(圖6C)。作者進一步調查了潛在的來源。Read顯示了與STAD和CoAD相似的前100名基因表達模式；然而，在miRNA和甲基化水平上的前100名功能中則有很大不同。

**Fig.6 Transfer learning to predict survival subtypes of certain cancers using the DeepProg models trained by different cancers.**

本文小結：DeepProg是深度學習和機器學習方法的新集成框架，它使用多組學數據有力地預測患者的生存亞型。預計DeepProg模型可以為預測癌癥等疾病的患者生存風險提供信息。

欧美日本成人_亚洲一区二区日本_国产污视频在线观看_先锋影视av_99视频+国产日韩欧美_黄页视频在线免费观看_天海翼av在线播放_在线视频精品免费_黄色一级片免费在线观看_国内精品久久久久久久_av动漫网站_日本a级大片