癌癥亞型的鑒定是開發個性化治療的關鍵步驟。而經由RNA剪切,可以區分不同癌癥亞型,Nature Communication的新論文“A Bayesian model for unsupervised detection of RNA splicing based subtypes in cancers”提出了的無監督亞型判別算法CHESSBOARD,可基于RNA數據中的可變剪切信息進行癌癥亞型鑒定。使用該方法對幾個白血病數據集進行分析,發現其得出的亞型分類是可重復的,調查了相關的驅動調節因素及已知白血病相關突變的關系,可論證得出分型的生物學意義。CHESSBOARD 的潛在臨床應用包括,補充基于突變的診斷分析和發現新的剪接圖譜,以改善藥物反應的相關性研究。
論文地址:https://www.nature.com/articles/s41467-022-35369-0
Chessboard算法概述
Chessboard的輸入,是從患者RNA測序中得到的從患者支持各個基因可變剪接的read條數(圖1a),稱其為局部剪切變異(LSV)。匯總多個樣本的結果,記錄每個樣本中支持跨越外顯子的read的條數,得到可變剪切矩陣。Chessboard算法,會根據可變剪切矩陣,進行聚類,以識別出樣本中的不同的亞型(圖1b)。算法分為三步,第一步過濾,過濾掉太少的樣本中觀察到的低表達基因,只保留那些在樣本間普遍出現且存在顯著差異大基因(圖1c),之后的MCMC(馬爾科夫鏈蒙特卡洛)通過對輸入數據矩陣的進行阻塞吉布斯采樣,以迭代的方式使亞型判斷方法具有更高的可行性的可變剪切基因(圖1d),之后對分型結果計算邊緣后驗分布并進行可視化(圖1e)。

圖1 CHESSBOARD 的流程圖
2)Chessboard在癌癥亞型區分上的應用
為驗證Chessboard的性能,在 beatAML12數據集上測試Chessboard。該數據集包含了急性髓系白血病患者的RNA測序數據,樣本量 477,局部剪切變異基因 2299個。該算法檢測到一個由217個樣本和1910個 LSVs 組成的聚簇(圖2a)在另一個白血病數據集Penn HTSC使用Chessboard,可得出相似的結果(圖2b)。此外,屬于兩組數據集中,每個組的LSV中位數高度相關(圖2c),說明該方法找到的亞型在不同批次的數據間是穩定的。

圖2 BeatAML上使用Chessboard的分析結果
之后驗證分型是否具有生物學意義,通過比較chessboard分出的亞型的可變剪切,是否隨亞型的不同,具有不同的RNA結合蛋白調節(RPB)模式。與在 ENCODE 的 RBP 敲除實驗中觀察到的差異剪接中,有17個和chessboard區分出的亞型有關,所有17個RBP之間,都區分度亞型間都存在顯著差異(圖2d),且其中差異最明顯的兩種結合蛋白調節基因SRSF1和 U2AF2,已知在癌組織的抗凋亡中發揮功能, 由此指出該算法的分型結果具有生物學意義。圖2e是對chessboard識別的LSV,按照用 GSEA v. 4.1.0進行的功能注釋,得到的富集基因情況。
3)Chessboard可在新增數據模式下運行
當新數據加入后,可能會產生新的癌癥亞型,這就需要亞型算法能夠以增量模式運行,通過迭代的方式不斷更新分型結果。Chessboard支持進行遞歸聚類,將前一部分的聚類結果作為已知情況處理。圖3a展示了對beatAML 進行遞增式計算的結果,最初的結果是所有樣本都為未區分(白色),之后是隨著算法的迭代,未分類樣本所占比例降低,直到所有樣本被分為不同亞型。圖3a還展示了不同亞型的患者中 FLT3-ITD (p < 0.001) ,NPM1(p < 0.001)和 CEBPA (p = 0.025)三個可變剪切情況差異顯著的基因,其中突變富集情況經過置換測試顯著對應 p 值。這3個基因的突變已知和AML分型相關,這意味著該方法用于分型的基因具有生物學意義。圖3b展示了遞歸深度對分型的影響,表明該樣本只包含2個分型,進一步的遞歸不會產生新的分型。

圖3,使用遞歸模式在beatAML數據集上測試Chessboard
4)Chessboard的臨床應用,預測藥物反應
只針對70個與AML用藥相關的基因上的可變剪切,使用chessboard分型,可得到和上文分析(圖2a)類似的結果(圖4a)。這意味著無監督方法chessboard基于可變剪切信號,在不直接捕獲的突變時,隱含地捕捉了這些基因的生物學意義。通過圖4b中展示的那些基因只在一種亞型中出現,說明了模型具有可解釋性,即說明了那些基因上的可變剪切更為重要。圖4c展示了該算法可以根據分出的亞型,判定是否可對患者用Sorafenib 治療的決策樹。圖4d展示了不同分組患者對Sorafenib的效應率的AUC,不同組之間差異顯著,圖4c的決策樹可解釋36.8%的差異。其中表現出良好藥物反應的組(FLT3-ITD + 和背景)富集異常剪接(55/66例患者) ,而反應差的組(FLT3-ITD-和信號)富集正常剪接(152/169)。 圖4e具體展示了兩個亞型中的可變剪切事件發生在那個外顯子上,之后的散點圖展示了可變剪切與基因表達率之間的關系。以上分析說明,可基于chessboard預測癌癥患者的藥物效應,從而指導個性化用藥。

圖4 chessboard預測臨床反應的結果
5)CHESSBOARD對復雜亞型的區分
之前研究發現在兒童和成人的急性白血病(AML)中,存在很多遺傳差異。將 CHESSBOARD 應用于由 TARGET 兒科 AML 和 beatAML 樣本組成的聯合數據集,分出了五個亞型(圖5),其中C1,C2和 C4代表兒童 AML,C3和 C5代表成人 AML 。一部分可變剪切事件( LSVs) 分別對成人(綠色)和兒童(藍色) AML 是獨特的。其他 LSVs 或者在每種疾病類型的亞型之間共享(黃色) ,或者僅對一種疾病的單一亞型(紫色)獨有。許多這些剪接變異發生在基因,通常兒童和成人疾病類型對應的差異突變基因。
將 CHESSBOARD 應用于 TARGET b-ALL (B 細胞急性淋巴性白血病)數據(樣本 = 517,LSVs = 1562) ,這是一種明顯與AML不同類型的白血病。與 beatAML 數據集的結果相比,該算法識別出了五個具有明顯更復雜的聚簇。值得注意的是,一個確定的亞組富集的患者,其中RUNX1-ETV6融合陰性者有高復發率,該突變經常被用作一個積極的預后標志。這表明與該突變有關的剪切標記也可被視作是臨床指導指標。

圖5 CHESSBOARD 在AML 和b-ALL上的亞型區分
總結
CHESSBOARD是第一個用于異質 RNA-seq 數據中,基于 RNA 剪接進行聚類的定制算法。通過在白血病患者RNA seq數據的應用,展示了其可用于藥物反應預測,患者預后分類。該算法分型依據的基因,對應已知的相關通路,具有生物學意義。將 CHESSBOARD 應用于大型異構癌癥數據集中的許多其他分析任務,進一步推動多組學數據的相互印證,增加對可變剪接在復雜疾病中所發揮的作用的理解。