結直腸癌在我國的發病率呈逐年上升的趨勢,在結直腸癌的治療中,基于生物標志物檢測進行治療決策已是共識。今天給大家分享的是一篇關于結直腸癌的免疫相關lncRNA 特征的文章,發表于《nature communications》(IF: 14.919)上。

基于機器學習的整合開發了一種用于改善結直腸癌預后的免疫相關lncRNA 特征
研究思路
本研究收集了多個數據集,同時也結合了內部臨床數據集。總體研究思路是算法開發、模型構建、公共數據集和內部臨床數據集的驗證、耐藥性和臨床治療研究。基于機器學習的算法開發是本研究的一大亮點。

結果
1. 免疫浸潤亞群的鑒定和驗證
作者首先通過根據ssGSEA 評估的 28 個免疫細胞浸潤豐度對CRC樣本進行了共識聚類,將所有樣本分成C1和C2兩大亞群,C2 的總體浸潤程度明顯高于 C1。然后作者通過 ESTIMATE 算法計算的 TCGA-CRC 隊列中兩個亞群之間的免疫評分情況,C2也是高于C1,說明了ssGSEA 結果的穩定性和可靠性(圖1A-D)。
2. 鑒定源自免疫浸潤模塊的 lncRNA 模塊
為提取出與免疫相關的lncRNA,作者進一步進行了WGCNA分析,結果發現黃色模塊與免疫的相關性最高(圖1F)。于是作者從這一模塊中篩選出了526 個lncRNA,其篩選標準是GS(Gene Signifificance) > 0.5 和 MM(Module Membership)> 0.6(圖1G)。
3. 根據ImmLnc算法篩選免疫相關 lncRNA
ImmLnc是一種用于識別免疫相關通路的 lncRNA的集成算法,首先是使用 ESTIMATE 算法推斷腫瘤純度,其次通過將腫瘤純度調整為協變量,計算特定lncRNA與所有 mRNA 之間的偏相關系數 (PCC),最后,根據所有的mRNAs與特定lncRNA的相關系數進行排序,排序后的基因列表進一步進行 GSEA 分析。一般lncRES 評分 >0.995且 FDR?<?0.05被認為具有統計學意義。
根據ImmLnc算法作者確定了 791 個免疫相關 lncRNA,它們與細胞因子受體、TCR 信號通路、趨化因子受體、NK細胞毒性和抗原加工和呈遞等通路相關(圖1H)。再通過與前面 WGCNA鑒定出的lncRNA取交集,共提取了 235個重疊的 lncRNA 用于后續分析(圖 1I)。

4. 共識特征的綜合構建
基于前面所鑒定出的235 個免疫相關 lncRNA 的表達譜,作者通過單變量Cox分析確定了 43 個預后相關lncRNA。在TCGA-CRC隊列中,作者通過留一法交叉驗證(LOOCV)擬合了 101 種預測模型,并進一步計算了每個模型在所有驗證數據集中的C-index。發現最佳模型是Lasso 和逐步 Cox回歸的組合,該組合模型在所有驗證數據集中都具有很高的C-index(圖2A)。然后作者確定了最佳 λ,并進一步生成預后基因的 Lasso 系數(圖 2B)。作者接著對 Lasso 系數非零的 30 個 lncRNA 進行逐步 Cox 比例風險回歸,最終確定了 16 個 lncRNA(圖 2C),構建了免疫相關 lncRNA 特征(IRLS)。之后,作者根據 survminer 包確定的最佳臨界值,將所有患者分為高危組和低危組。如圖 2D-J 所示,在TCGA-CRC 訓練數據集和六個驗證數據集中,高風險組患者的總生存期 (OS) 明顯低于低風險組。將所有樣本組合在一起也顯示出相同的趨勢(圖2K)。

5. IRLS 模型的評估
為進一步評估IRLS 模型的性能,作者計算了TCGA-CRC隊列、GSE17536、GSE17537、GSE29621、GSE38832、GSE39582和GSE72970隊列以及綜合隊列中樣本1 年、3 年和 5 年的 AUC(圖3A)。并計算出了所有數據集的 IRLS 的 C-index(圖3B)。之后作者又對IRLS 在預測預后方面的表現與其他臨床和分子變量進行了比較,如圖 3C 所示,IRLS 的準確性明顯優于其他變量。

6. CRC中基于基因表達的預后特征的比較
接下來,作者比較了 IRLS 與其他特征的性能,一共收集了109 個特征(包括 mRNA 和 lncRNA 特征)。作者對每個特征在所有數據集中進行了單變量Cox 回歸,觀察到只有IRLS模型與所有隊列樣本的預后顯著相關(圖 4A),這個結果證明了IRLS的穩定性。此外,作者又將 IRLS與其他特征的C-index進行了比較,發現IRLS 在每個數據集中都顯示出比幾乎其他所有特征更好的性能(圖4B),這說明了IRLS模型的適用性較廣。

7. 在臨床內部隊列中進行驗證
為了進一步驗證IRLS 模型在臨床的可行性價值,作者接下來通過 qRT-PCR 分析評估了這些 lncRNA 在 232 名 CRC 患者的臨床隊列中的表達情況。Kaplan-Meier 分析表明,IRLS 高的患者的 OS 和 RFS 顯著降低(圖 5A-B)。在進一步的多變量 Cox 回歸分析中,IRLS 模型對于 OS仍然具有統計學意義(圖5C-D),與上述結果一致。接下來的ROC分析也顯示 IRLS 的準確性更高:預測 1、3 和 5 年 OS的AUC 分別為 0.840、0.776 和 0.818(圖5E)。此外,作者還比較了 IRLS 與其他臨床特征的預測優勢,結果發現??IRLS 的預測性能優于其他特征(圖5F)。總的來說,對臨床內部隊列的分析結果驗證并證實了IRLS 模型的穩健性,說明其可以作為 CRC 預后的獨立預測因子。

8. 氟尿嘧啶類ACT和貝伐單抗療效的預測價值
研究表明,lncRNA 與氟尿嘧啶類ACT和貝伐單抗的敏感性和耐藥性有關。因此,作者進一步評估了IRLS在量化氟尿嘧啶基ACT和貝伐單抗療效的預測價值。研究中納入了 6 個使用氟尿嘧啶類ACT治療的數據集(GSE19860、GSE28702、GSE45404、GSE69657 、GSE72970和GSE62080),包括 180 名無應答者和 160 名應答者。結果發現應答組的 IRLS 分數顯著高于無應答組(圖6A-E)。圖6F的GSE62080 中的應答組有更高IRLS 的趨勢,但這并不顯著。作者推測這可能是由于樣本量太少。進一步的ROC 分析表明,IRLS 可以準確預測氟尿嘧啶類ACT的療效(圖 6G-L)。之后,作者也在內部隊列中進行了相同的分析,也得到了同樣的結論(6M-N)。最后,作者還收集了三個有貝伐單抗治療信息的數據集(GSE19860、GSE19862 和 GSE72970),評估了IRLS 對貝伐單抗療效的預測,與氟尿嘧啶類ACT 相比,對貝伐單抗敏感的患者,表現出較低的IRLS水平(圖 6O-Q)。綜合來看,IRLS高的患者往往對氟尿嘧啶類ACT敏感,對貝伐單抗耐藥,而IRLS低的患者對貝伐單抗敏感,對氟尿嘧啶類ACT耐藥。

9. IRLS 對 ICI 治療的意義
由于IRLS是基于免疫相關的 lncRNA開發的,于是作者假設不同水平的 IRLS 的免疫特征和免疫治療效果存在差異。細胞浸潤分析顯示 TCGA-CRC 和 Meta-GEO 隊列中 IRLS 和免疫浸潤豐度之間存在顯著的負相關(圖7A-D)。為了進一步驗證CD8A 在不同 IRLS水平下的蛋白質表達,作者對石蠟切片進行了IHC,其中包括56個高風險CRC和 48個低風險CRC樣本。 IHC 圖像和評分顯示,CD8A的表達在低風險組中顯著升高(圖7E-F)。這表明 IRLS 低的患者可能擁有更多的ICI(免疫檢查點抑制劑 )治療后備資源。此外,IRLS 還與 TCGA-CRC、Meta-GEO和內部隊列中的 PD-L1 表達呈負相關(圖7G)。在蛋白質水平上也有一致的發現(圖 7I-J)。此外,微衛星狀態也被認為是CRC中免疫浸潤和 ICI 治療的有力的生物標志物。在這項研究中,作者觀察到 dMMR/MSI-H患者的IRLS 顯著低于 pMMR/MSI-L/MSS 患者。同時,IRLS可以準確預測 TCGC-CRC、Meta-GEO和內部隊列中的 dMMR/MSI-H 表型(圖7K-M)。這表明 IRLS 是微衛星狀態標記的有利替代物。最后,作者發現IRLS 還可以顯著區分pembrolizumab的應答者和無應答者,并顯著優于 PD-L1和 CD8A(圖7N)。

總結
在本研究中,作者開發了一種基于機器學習的集成算法(ImmLnc),用于構建共識免疫相關 lncRNA 特征 (IRLS)模型。之后又通過評估IRLS模型在多個數據集中的應用性能、比較其他特征與IRLS模型的預測性能以及IRLS模型在臨床樣本中的應用,綜合說明了IRLS模型的穩定性和可靠性。
參考文獻
Liu, Z., Liu, L., Weng, S. et al. Machine learning-based integration develops an immune-derived lncRNA signature for improving outcomes in colorectal cancer. Nat Commun 13, 816 (2022).