最新十月發表的癌癥亞型分類方法,小編帶大家一起解讀這篇發表在《Briefings in Bioinformatics》(if=11.622)上的文章。目前腫瘤亞型的發現已成為腫瘤學研究的熱點。將癌癥患者劃分為不同的亞型可以為不同的患者提供個性化的治療。高通量技術也為癌癥分型提供了多種組學數據以供處理。在許多算法中,多視圖數據的集成被用來識別癌癥亞型,即使使用相同的數據,也可以獲得相同癌癥的不同亞型。但是我們可以發現不同方法得出的這些亞型在一定程度上是相關的,這可能對腫瘤亞型的劃分有一定的指導意義。那么如何有效利用不同亞型的有價值信息來產生更準確可靠的亞型呢?這篇文章中研究者提出了一種基于加權集成稀疏潛在表達(subtype-WESLR)的算法分析異質性組學數據,用來精準的檢測癌癥亞型。

小編解讀:
這個研究中,作者利用加權集成策略將不同分類方法得到的癌癥亞型聚類作為先驗信息進行融合,subtype-WESLR算法在保持原始樣本特征空間的局部結構和加權集成一致性的同時,將每個數據類型的每個樣本特征輪廓投影到公共子空間,并通過迭代方法優化其公共子空間來識別癌癥亞型。
作者在各種合成數據集和來自TCGA的8個公共多視圖數據集上進行實驗,結果表明,subtypes-weslr通過集成現有方法的聚類來獲得更精確的子類型,是一種優于其他方法。
具體內容:隨著高通量技術的發展,癌癥基因組圖譜(TCGA)等大型項目的各種基因組的公共數據可以被我們用來分析。TCGA提供了30多種癌癥的同源樣本的基因表達、miRNA表達和DNA甲基化等異質性組學數據,為研究癌癥的發生發展提供了前所未有的機會。但是研究表明,單一的數據類型,如基因表達,只能在一個特定的分子水平上描述一個生物學過程,為亞型提供不完整的信息,并不能捕捉到癌癥的細微之處。但來自不同生物學領域的不同數據類型提供了不同的、部分獨立的和互補的基因組視圖。因此,有了許多計算方法結合多組學數據來發現癌癥亞型。其中
LRAcluster算法:通過對數字、計數和離散特征的分布進行概率建模,將每個樣本的多個異質性組學數據連接起來,但這種集成沒有考慮不同組學中數據的不同分布和維數詛咒。結合生物數據的一個常見策略是對每個數據類型單獨聚類,并整合它們不同的聚類分配。
PINS算法:通過為每個數據類型建立一個樣本連接矩陣,將連接矩陣合并成一個合并的患者相似性矩陣。然而,這種集成忽略了數據類型之間微弱但一致的相關性。一些統計方法對每種數據類型的分布進行建模,然后使多組數據的可能性最大化。
iClusterBayes算法:通過使用幾個貝葉斯潛在變量來實現聯合降維,從而捕獲多個組學數據的內在結構。然而,這些方法受到多組數據假設的限制。此外,由于特征數量較多,這些方法還需要進行特征選擇。基于相似性的多組數據方法[15 17]避免了這個問題。
相似性網絡融合(SNF):為每個omic建立一個樣本相似網絡,并基于消息傳遞將這些樣本網絡融合為一個單一的組合網絡。
模式融合分析(PFA):考慮了多組數據與聯合降維的集成,通過自適應優化策略將來自每個數據類型的局部樣本模式融合成與表型相對應的完整樣本模式。
Subtype-GAN:一種深度學習應用于分子數據處理和分析的方法。利用多輸入多輸出神經網絡精確建模復雜組學數據,并使用共識聚類和高斯混合模型識別腫瘤樣本分子亞型。由于亞型的不確定性,對于同一種癌癥,方法可能會有不同的亞型,甚至使用相同的多組數據,這對癌癥亞型有一定的指導意義。
那么如何有效地利用不同亞型的有價值信息,生成更準確、更可靠的亞型?本研究中,提出了一種集成方法可以利用一些預先選擇的聚類方法獲得較好的聚類結果。每一種輸入聚類方法通過計算每一對父節點的支持邊來構造一個圖,通過對這些圖進行集成來構造一個集成圖,并應用于基于模塊化質量的圖聚類。基于稀疏子空間學習框架,這種集成聚類方法,稱為“weighted ensemble sparse latent representation”(Subtype-WESLR)。它通過分析多個異質性組學數據,同時考慮其他方法得到的癌癥亞型,從而識別癌癥亞型。這些模型將每個數據類型的每個樣本特征輪廓投影到與子空間一致性相對應的公共潛在子空間中,該子空間應保持原始樣本特征空間的局部結構,并與集成聚類保持一致,即保持局部結構的一致性和基指標的一致性。并通過迭代優化公共子空間來識別癌癥亞型。
subtype-WESLR不同于其他集成方法,在每個視圖上分別應用不同的聚類算法,或者對不同聚類算法的基層分區一視同仁,subtype-WESLR直接將聚類算法應用于多視圖數據,獲得基聚類作為先驗信息。此外,在不同的基聚類中自適應地應用權重集成來獲得最優組合。再經過實際數據的驗證后,研究人員發現這種研究方法是優于其他方法的,加權集成聚類可以獲得更準確、更可靠的子類型來發現子類型。

subtype-WESLR亞型分類方法的優勢:
(i)考慮不同方法的加權集成聚類,目的是利用已識別的不同子類型的有價值信息作為先驗知識,生成更精確的子類型。
(ii)開發子類型- weslr來學習多視圖數據之間的稀疏潛在表達,以便發現子類型,假設輸入視圖是由共同的潛在表達生成的。為了保持各數據類型的局部結構一致性和加權集成聚類指標的一致性,引入了多視圖拉普拉斯正則化。
(iii)在合成數據上的實驗表明,subtype-WESLR在不同噪聲和不同基聚類數下發現共同模式方面具有優勢。在TCGA數據集中的8個公共多視圖數據集上進行的實驗表明,subtype- weslr捕獲的癌癥子類型比其他方法更可靠。
算法研究:
多視圖數據的稀疏潛在表達
假設有n個樣本(如患者)和m個視圖(如miRNA, mRNA, DNA甲基化)。第p個視圖數據表示為矩陣x Xp ∈ Rdp×n (p = 1, 2, ..., m),其中dp為第p個特征矩陣的特征個數。將多組數據投影到一個共同的潛在子空間F ∈ Rn×c(F ≥ 0),該子空間可以通過最小化得到

||F和c分別為范數和簇數。Gp∈ Rdp×c是第p個視圖特征矩陣的投影矩陣,其元素代表特征的權值,且非負,即i.e. Gp ≥ 0。
利用L1-范數對投影矩陣Gp進行正則化,刻畫稀疏性,并引入正則化參數λ>0. FTF = I確保F是一個指標矩陣,其中I是單位矩陣。目標函數(1)可表示為

接下來我們探討之前提到的局部結構異質性:
多組數據的局部結構一致性
通過合并多視圖數據,共享的稀疏潛在子空間應保持原始特征空間的局部結構,可以使用多視圖拉普拉斯正則化來保持局部一致性。對于每個特征矩陣Xp,我們利用高斯核函數構造一個帶元素的圖模型S(P)

(如果xp(j)是xp(i)的最近鄰k值,則取第一個;否則為0)
其中xp(i)和xp(j)為第p個特征矩陣的樣本向量,σ為xp(i)和xp(j)之間的歐式距離(歐幾里德距離)。設D(p) 是一個對角矩陣

,則圖拉普拉斯矩陣L(p) 可定義為

因此,對于F,保持原特征空間局部結構一致性的多視圖拉普拉斯正則化可以重新表述為

其中權系數αp平衡了第p個特征空間中圖拉普拉斯矩陣對預測的貢獻。因為r1>1,保證所有的圖拉普拉斯矩陣都有助于識別子類型。
不同聚類的基礎指標一致性
不同方法得出的亞型在一定程度上與同一腫瘤相關,對腫瘤亞型有一定的指導意義?;旱募蓪τ谧宇愋偷陌l現是有意義的。
假設有一組基本聚類結果,其中指標矩陣 Yq ∈ Rn×cq (q = 1, 2, ..., NQ ) 由q基聚類算法(如SNF、iClusterPlus和PFA)生成,其中cq和NQ分別為q基算法中的聚類個數和基算法的個數。如果樣本i屬于Yq中的第j個聚類,則對應的元素Yq(i, j)設為1,否則Yq(i, j)設為0。對于每個基聚類矩陣,用元素構造一個圖模型S(q)

(如果樣本i和j在第q基聚類算法中屬于樣本聚類則為1,否則為0)
同理,設D(q) q是一個對角矩陣,其中


,則圖拉普拉斯矩陣L(q) q可定義為

我們可以從每個基聚類中提取有用的信息,其中矩陣L(q) 可以看作是一個樣本網絡的指示。加權集成指標可以自適應增強底層子空間F的一致性,對于F不同聚類的基本指標一致性可以通過

其中,權系數βq平衡了q基聚類方法對預測的貢獻??梢员WC所有的基本聚類方法都有助于使用r2 > 1來識別子類型。
加權集合稀疏潛在表示
結合(5)和(8),通過聯合自適應加權拉普拉斯正則化,得到保持局部結構一致性和基指標一致性的稀疏潛空間F

σ<0用于平衡特征矩陣和基本集成聚類結果。權重系數αp(p = 1,…, M)和βq(q = 1,…, Nq)兩者都可以自適應地獲得。結合(2)和(9),我們可以寫出subtype- WESLR為

其中,μ >是正則化參數。
subtype-WESLR的解決
我們通過交替迭代更新來優化目標函數,得到(10)的解,如補充材料中分析的那樣。我們將αp和βq的初始值分別設為1/m和1/NQ,并優化F和Gp的值;然后依次更新αp和βq。利用乘法更新規則,我們得到了F、Gp、αp和βq的更新后規則:

其中e元素1*dp的向量都是1。在補充材料中引入σ來約束FTF = I。L(+), L(?), B(+), B(?), A(+) p , A(?) p ,B(+) p and B(?)p被定義為

應用更新規則(11-14),研究人員證明了子類型weslr的優化是趨于一致的。當應用subtype- weslr求解目標函數(10)時,可以使用指示矩陣F進行癌癥亞型識別,其中矩陣F中每一行的最大值所在的列為一個癌癥亞型的聚類指數。{αp}mp=1和{βq}NQ q=1分別引用了每個視圖特征矩陣和每個基聚類算法對預測的貢獻。基于上述優化過程,在算法1中總結了subtype-WESLR。

結果:
試驗設置
參數設置
計算拉普拉斯矩陣時,兩個自由參數k和θ的合理范圍分別為{10,15,20,25,30,35}和{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1}。正則化參數μ和λ分別在{0.0001,0.001,0.01,0.1,1,10}和{0.001,0.01,0.1,1,10}范圍內。參數r1、r2、σ與權系數αp、βq有關,r1、r2在{2,3,5,10,100,1000}范圍內,值越小性能越好。σ在{0.1,1,10,100,1000,10000}范圍內,當σ很大時,αp和βq可以接近1/m和1/NQ。正則化參數δ在{0.00001,0.0001,0.001,0.01,0.1,1}范圍內,用于平衡特征矩陣和基聚類算法之間的權重。由于子類型- weslr的收斂性,停止規則設為

或最大迭代次數。
不同聚類算法比較方式
在合成數據和TCGA數據上,將subtype-WESLR與SNF、iClusterPlus、LRAcluster、moCluster、PFA、iClusterBayes、kmeans、spectral clustering、NEMO等相關多視圖聚類方法進行了比較。研究人員還在TCGA數據上比較了subtype-WESLR與最近的ClustOmics和subtype-GAN。
評價標準
采用歸一化交互信息,即NMI,衡量兩個聚類之間的一致性,評估在模擬數據集上的性能。NMI取值范圍為0 ~ 1,取值越高越好。通過Cox回歸模型的p值和一致性指數(Cindex)比較了subtype-weslr和其他方法在8個癌癥隊列中的表現,并通過生存分析分析了確定的亞型。值得注意的是,對于每一種方法,都是按照文中的規則設置參數,并對模擬數據或真實數據進行了多次不同設置的測試,試圖選擇相對較好的NMI或p值。由于數據和參數設置的不同,工作結果可能與其他算法的之前報告不同。
時間復雜度
subtype-weslr的運行時間可分為計算圖拉普拉斯矩陣步驟和優化步驟。計算所有基聚類方法和所有組學方法的圖拉普拉斯矩陣分別需要O(n2·NQ)和O(dp2·m)。迭代過程中優化計算時間為O(T·(NQ + m)),其中T為最大迭代次數。因此,總時間復雜度為O(n2 · NQ + dp2 · m + T · (NQ + m)).
綜合數據分析
基于涉及miRNA、mRNA和DNA甲基化的合成數據集,研究人員將subtype-WESLR與其他方法進行了比較。分別從GEO 數據庫中GSE73002、GSE10645和GSE51557中獲得miRNA表達、mRNA表達和DNA甲基化數據的多視圖數據。由于良好狀態數值示例的性能優于不良狀態數值示例,采用均值{0,0.25,0.5,0.75}模擬了較差狀態下的合成數據,包括200個樣本,分別為1-50,51-100,101-150和151-200四個聚類。每種數據類型都可以區分不完全簇,所有數據類型對應于簇{1-50,51-150,151-200},{1-50/101-150,51-100,151-200}和{1-100,101-150,151-200}。SNF、iClusterPlus、LRAcluster和moCluster作為subtype-weslr的基本方法,即基本方法的聚類是subtype-weslr的輸入。在模擬數據集上的實驗表明,該方法對各種參數設置都具有很強的魯棒性
比較不同的額外噪音

進行50次實驗,分別生成包含0%、20%和30%額外噪聲的數據集,即低噪聲、中等噪聲和高噪聲。在模擬中,我們考慮了不同方法獲得的聚類與地面真實聚類之間的NMI(表1;補充圖S7A)。如表1所示,subtype-weslr優于其他方法,在不同噪聲設置下與地面真實簇的一致性方面,而且隨著額外噪聲的增加,只有很小的f波動。NEMO和iClusterBayes在不同的噪聲水平下也相對穩定。PFA表現最差,可能是因為算法對參數很敏感
不同算法的比較

SNF作為subtype-weslr的基聚類方法,對額外的噪聲不敏感,僅次于子型weslr。在moCluster和iClusterPlus的噪聲下,LRAcluster更好、更穩定,而這兩者在識別集群方面都很差。這些基方法的性能與基聚類對subtype-weslr的貢獻相對應,即圖A中,基方法性能越好,基聚類對子類型- weslr的貢獻越大,其中SNF的貢獻最大。類似地,圖B顯示了DNA甲基化、miRNA和mRNA對subtype-weslr的貢獻。與DNA甲基化和mRNA相比,miRNA對subtype-weslr的影響最大。
多組數據與單組數據
將光譜聚類分別應用于DNA甲基化、miRNA和mRNA分別命名為SC-methylation、SC-miRNA和SC-mRNA,生成sbutype-weslr作為輸入的堿基聚類。圖C顯示,即使subtype-WESLR采用不同的堿基方法,與單一數據類型相比,多組數據的整合更穩定,miRNA在發現DNA甲基化和mRNA聚類方面更有用,這與圖B的觀察一致。由于miRNA在光譜聚類方面比mRNA和DNA甲基化有優勢,研究人員以上述方法為基本方法,在moCluster、iClusterPlus、LRAcluster、spectral clustering和subtype-WESLR中對miRNA進行了實驗。其中的SNF不用作基本方法,因為它不適用于單一數據類型。
結果表明,subtype-WESLR也適用于處理單一數據類型。我們還將任意兩種DNA甲基化miRNA和mRNA結合,將subtype-WESLR應用到數據中,分別命名為subtype-WESLR (mRNA+miRNA)、subtype-WESLR (methy+miRNA)和subtype-WESLR (methy+mRNA)。在亞型- weslr (mRNA+miRNA)中,以SC-miRNA和SC-mRNA為基礎方法。Subtype-WESLR (methy+miRNA)和Subtype-WESLR (methy+mRNA)采用相似的方法,Subtype-WESLR (methy+mRNA+miRNA)采用SC-mRNA、SC-methylation和SC-miRNA作為基本方法。與兩種數據類型的任何組合相比,subtype-WESLR在三種數據類型上表現更好,并表明集成更多高質量的多組數據有助于捕獲常見模式。因此,基于多組數據的加權集成基聚類可以使用subtype-WESLR得到更穩定的聚類。
在不同基聚類數下的性能
研究人員還討論了當不同數量的基聚類作為輸入時子類型weslr的有效性(圖D)。subtype-WESLR(2)使用moCluster和iClusterPlus作為基本方法,而subtype-WESLR(3)除了使用moCluster和iClusterPlus之外,還使用了LRAcluster,因為LRAcluster的性能優于moCluster和iClusterPlus。在完整模型即subtype-WESLR中,我們使用SNF、moCluster、iClusterPlus和LRAcluster作為基本方法。從圖D可以看出,subtype-WESLR優于subtype-WESLR(2)和subtype-WESLR(3),這意味著性能良好的基聚類有助于提高subtype-WESLR的性能。
綜合數據的各種實驗表明,subtype-WESLR在發現多視圖數據的公共模式方面具有優越性。最后,研究人員研究了得到的子類型的一致性。結果表明,subtype-WESLR每次在合成數據上都能識別出一致的子類型。
TCGA數據分析
mRNA是多組數據中最常見和廣泛使用的,通過差異表達基因表達譜來識別癌癥亞型。microRNA是一種小型非編碼rna,可與靶基因mRNA特異堿基互補配對,引起靶基因mRNA降解或抑制其翻譯,廣泛負調控靶基因表達。如果相關miRNA發生突變,激活相關癌基因的表達或導致抑癌基因的缺失,就會導致腫瘤的發生。DNA甲基化與基因表達密切相關。高DNA甲基化常發生在腫瘤抑制基因的啟動子區,低DNA甲基化則發生在癌基因的啟動子區。因此,DNA異常甲基化常被用作腫瘤診斷、分類和治療的重要分子標志物。這些不同的數據類型提供了不同的、部分獨立的和互補的基因組視圖。研究表明,整合這些多組數據有助于亞型鑒定。
研究人員將subtype-WESLR應用于8個公開可用的TCGA多視圖數據集。這些腫瘤包括腎透明細胞癌(KIRC)、乳腺浸潤癌(BRCA)、結腸癌(COAD)、皮膚黑色素瘤(SKCM)、肺鱗狀細胞癌(LUSC)、多形性膠質母細胞瘤(GBM)、卵巢漿液性囊腺癌(OV)和肝肝細胞癌(LIHC)。每個腫瘤數據集的樣本包含以下數據類型:miRNA表達、mRNA表達、DNA甲基化和臨床概況。對實驗數據進行預處理和歸一化處理,以提高實驗結果。去除每種數據類型缺失數據超過20%的樣本。然后進行歸一化,最終得到KIRC 206個樣本,BRCA 623個樣本,COAD 214個樣本,SKCM 439個樣本,GBM 271個樣本,LUSC 337個樣本,LIHC 404個樣本,OV 290個樣本。由于基因組數據存在很大的冗余,因此我們對每種數據類型分別使用主成分分析(Principal Component Analysis, PCA),同時在數據整合前保持95%的信息。如何確定腫瘤亞型的數量是發現腫瘤亞型的關鍵。由于比較方法有不同的標準來確定最佳的子類型數量,所以我們不要求每種方法的子類型數量相同。
采用剪影寬度來確定subtype-WESLR的最優簇數,在- 1和1之,該值越接近1,集群越好。根據剪影指數可以得到KIRC的4個亞型,BRCA的5個亞型,COAD的4個亞型,SKCM的5個亞型,GBM的3個亞型,LUSC的5個亞型,LIHC的4個亞型,OV的3個亞型。采用moCluster、LRAcluster、SNF和PFA作為TCGA數據的subtype-WESLR的基礎方法。
與以往8個癌癥隊列研究的比較


如表所示,在大多數情況下,subtype-WESLR在8個癌癥隊列中發現了生存差異更顯著的亞型。結果表明,在大多數情況下,subtype-WESLR可以根據p值獲得較高的c指數。將上述三種數據類型Kmeans (methy)、Kmeans (miRNA)、Kmeans (mRNA)、Kmeans (all)分別連接起來,分別用于DNA甲基化、miRNA、mRNA和組合數據。從表可以看出,整合多組數據比單一數據類型更有優勢。結果表明,subtype-WESLR在大多數情況下每次都能識別出一致的子類型。為了直觀地探討不同亞型之間的差異,8種癌癥的生存曲線如圖所示。
針對上述研究,研究人員選擇了一種癌癥進行進一步研究
KIRC上已識別的亞型分析

對于KIRC,通過Kaplan Meier生存分析確定并分析了subtype-WESLR的4個亞型,kmeans (methy)、kmeans (miRNA)、kmeans (mRNA)、iClusterBayes和kmeans (all), NEMO、moCluster、LRAcluster和SNF的3個亞型,iClusterPlus和PFA的2個亞型。為了研究subtype-WESLR所鑒定的亞型,進行了差異表達分析,以發現mRNA表達和miRNA的表達差異。在名為KIRC-differential-genes的profile中發現了一組差異表達的mRNA,其熱圖如圖所示。差異表達mrna由任意兩種KIRC亞型的差異表達mrna組成,因此是所有KIRC亞型的全部差異表達mrna。
我們可以觀察到,差異表達的mRNA可以提供任何兩個亞型之間的直觀區分,這表明已識別的亞型是有意義的和可解釋的。為了了解整個差異表達mRNA的生物學作用和潛在功能,研究人員還對差異基因進行了富集分析。

分析其他癌癥隊列中已確定的亞型
同樣,研究人員又對BRCA、COAD和SKCM差異表達的mRNA進行KEGG信號通路富集分析。BRCA的差異mRNA表達集中在tgf - β信號通路、p53信號通路、細胞色素P450代謝外源性藥物、細胞周期等KEGG癌相關通路。COAD的差異mRNA表達集中在Wnt信號通路的KEGG癌相關通路和細胞色素P450介導的外源性藥物代謝中。SKCM的差異mRNA表達集中在PI3K-Akt信號通路、Hippo信號通路和局灶黏附的KEGG癌相關通路中。
對這些腫瘤相關通路的研究將有助于闡明腫瘤發生、進展和轉移的機制以及相關靶向藥物的研究。為了驗證subtype-WESLR的分型結果是否合理,研究人員根據分子分型和分子特征,將結果亞型與之前BRCA上報道的亞型進行比較。整合不同的組學數據往往會導致不同的分型結果。根據PAM50 RNAseq可將BRCA相關亞型分為luminal-A、luminal-B、her2富集型、basal-like和normal -like。subtype 2和subtype 3對應basal-like和luminal-A, subtype 1對應luminal-B。her2富集和正常樣不能很好地與已鑒定的亞型對應,可能是由于樣本數量較少。還研究了5個亞型的年齡分布。亞型2的平均診斷年齡最小,低于亞型3,差異有統計學意義。綜上所述,BRCA上所鑒定的亞型是合理的,具有統計學解釋意義。
文章小結:
癌癥是一種復雜多樣的疾病,其異質性使得精確的治療勢在必行。這可以通過將癌癥患者分為不同的亞型來實現。通過分析與癌癥相關的基因組數據來確定癌癥亞型的需求越來越大。在很多癌癥亞型分類方法被運用之后,本篇文章的研究人員將多種方法結果結合起來,通過多種實驗研究和驗證得出一種最優方法subtypes-weslr,為之后的癌癥亞型提供了一種新思路。