6+純生信好文:多組學+脂質代謝+預后模型
多組學分析可以更系統、更全面地了解惡性腫瘤中生物成分的潛在規律,是生信分析中經久不衰的熱點。今天給大家分享一篇2022年2月11日發表在Frontiers in Cell and Developmental Biology(IF:6.684)上的文章,看看這篇文章是如何把當下的多個研究熱點整合起來的吧!

一、研究背景
結直腸癌(CRC)的發病率和死亡率分別位居世界第三和第四位。 CRC的進展與遺傳因素、年齡、慢性炎癥、吸煙和飲酒等生活方式、飲食習慣和環境因素有關。 目前,CRC患者預后的改善仍相當有限,主要是因為相當一部分CRC患者在早期往往無癥狀。 因此,尋找CRC發生、發展和侵襲的分子機制和有利的預后監測指標是當前研究的熱點。
目前,大量研究表明,脂質代謝異常與腫瘤的發生發展密切相關。惡性轉化和癌細胞增殖過程的加速需要更多的能量,這可能會導致脂質代謝障礙,使癌細胞存活。鑒于脂質代謝功能障礙在腫瘤的發生發展中發揮著重要作用,脂質代謝的生物學活性一直是篩選腫瘤治療靶點的重點研究領域。代謝組學是系統生物學的一個重要分支,主要研究代謝動態過程中代謝物的變化,以揭示生命活動的代謝特征。代謝物檢測結果能更準確、更直接地反映機體的病理生理狀態。目前,血液和尿液是主要的研究對象,通過去除不純的代謝物(如蛋白質或糖類)來保證檢測結果的準確性。代謝組學在癌癥研究中的應用旨在提高癌癥的診斷和預后,并將其應用于潛在的癌癥生物標志物。

二、結果
代謝組學模式識別分析
作者總共納入了 236 名 CRC 患者的臨床特征,包括年齡、性別、組織學類型、病理分期、T 分期、N 分期和 M 分期。首先,作者進行了 PCA 和 PLSDA 分析來研究代謝物在K-means 聚類得到的亞組(Kgroup 1 和 Kgroup 2)中的空間分布(圖 2A)。 K-M 生存分析表明,Kgroup 2 中 CRC 患者的總生存期高于 Kgroup 1(圖 2B)(p < 0.001)。圖 2C、D 顯示了 Kgroup 1 和 Kgroup 2 的 PCA 結果,表明兩個亞組之間存在顯著的個體差異。此外,為了消除組內的隨機偏差和偏差,對 Kgroup 1 和 Kgroup 2 進行了 PLSDA,以進一步驗證兩個亞組之間的個體差異(圖 2E,F)。

差異代謝物的生物學功能
接下來,作者采用 T 檢驗區分 357 種代謝物的差異(FDR < 0.05),然后對 HMDB 上的特定成分進行鑒定。 最終確認了 175 種不同的脂質代謝物。 對 175 種差異脂質代謝物的KEGG 通路富集分析顯示,差異脂質代謝物最富含甘油磷脂代謝(圖 2G)。
6-脂質代謝物預后標志的構建
接下來,作者使用單變量 Cox 回歸分析識別了 14 種與生存相關的脂質代謝物(p < 0.05)。然后又進行了多變量 Cox 回歸分析,以建立基于六種脂質代謝物的預后特征 “LMS”,包括五種高風險脂質代謝物(HR > 1)和一種低風險脂質代謝物(HR < 1)。根據LMS 中位數 (0.875) 將CRC患者分為高風險組和低風險組,并繪制了K-M 生存曲線(圖 3A)。如圖 3B 所示,LMS 較高的 CRC 患者的總生存期低于 LMS 較低的患者。圖 3D顯示了基于預后特征的六種代謝物水平的分布和變化。隨著LMS的增加,5種高危代謝物水平升高,而低危代謝物水平呈下降趨勢。此外,作者還預測了患者 1 年、3 年和 5 年總生存期的 ROC 曲線的 AUC 分別為 0.769、0.711 和 0.723(圖 3E)。結合 LMS 和臨床特征(年齡、性別、病理分期、組織學類型、T 分期、N 分期和 M 分期),進行單變量和多變量獨立預后分析(圖 3F,G),以檢驗 LMS 的預后可行性。通過整合預后特征和獨立預后因素(組織學類型(腺癌和粘液性腺癌)、病理分期、T 分期),作者構建了復合列線圖(圖 3H),以單獨預測 CRC 患者的總生存期。一年、三年和五年的校準曲線也驗證了復合列線圖的良好擬合和穩定性(圖 3I)。基于列線圖的 ROC 的一年、三年和五年 AUC 分別為 0.815、0.815 和 0.805,顯示預測患者預后的良好準確性(圖 3J)。多指數 ROC 曲線的一年、三年和五年 AUC(圖 3K M)驗證了復合列線圖增強的預后準確性。

利用WGCNA來識別GMRHGs
為了確保腫瘤特異性基因選擇,作者使用TCGA CRC患者的差異表達基因矩陣進行WGCNA。 首先進行層次聚類和皮爾森相關分析以構建WGCNA網絡(圖4A,B)。 然后通過動態樹切割模塊的識別和相似模塊的合并(圖4C),最終識別出8個基因模塊(MEbrown、MEturquoise、MEmidnightblue、MEyellow、MEmagenta、MEgreenyellow、MEpink、MEgrey)(圖4D),其中MEbrown 包含 342 個 DEG 的模塊與甘油磷脂代謝顯著相關。MEbrown 模塊的總共 342 個 DEG 被視為 GMRHG 進行進一步分析。

5-GMRHG預后標志物的構建
作者加入了GEO 數據集(GSE17536、GSE38832 和 GSE103479)和TCGA中的 877 名 CRC 患者進行預后標志物的構建。對 342 個 GMRHG 表達數據進行單變量 Cox 回歸分析(圖 5A)、LASSO 回歸分析(圖 5B、C)和多變量 Cox 回歸分析(圖 5D),以構建五個 GMRHG(ACOX1、ATOH1、CPT2、PCSK5、和 TINCR) 預后特征 “GMS”。

GMS 大于或等于中位GMS (0.939) 的 CRC 患者將被分配到高風險組,而那些小于中位 GMS 的將被分配到低風險組。訓練組(圖 6A)和測試組(圖 6E)的 K-M 生存曲線說明低風險組和高風險組之間的總生存率存在顯著差異。 訓練組(圖 6B)和測試組(圖 6F)的散點圖表明,GMS 較高的患者的總生存期低于 GMS 較低的患者。訓練組(圖 6C)和測試組(圖 6G)的 GMS 曲線顯示了 GMS 的分布。訓練組(圖 6D)和測試組(圖 6H)的熱圖顯示了預后特征的五個 GMRHG 的表達趨勢。隨著 GMRHG 的增加,兩個高危 GMRHG(PCSK5 和 TINCR)的表達會增加,而三個低危 GMRHG(ATOH1 和 ACOX1 和 CPT2)的表達會降低。訓練組(圖 6I)和測試組(圖 6J)的時間依賴性 ROC 的一年、三年和五年 AUC 分別為 0.662、0.716、0.719 和 0.623、0.660、0.633。如圖 6K、L 所示,單變量和多變量獨立預后分析的結果表明,GMS 可被視為獨立的預后因素。時間依賴性 ROC 驗證了五種 GMRHG 預后特征在預測 CRC 患者預后方面的更佳精度。

臨床相關性分析
作者用卡方檢驗比較了基于 JLUFH CRC 患者和 TCGA CRC 患者的臨床特征(年齡、性別、組織學類型、病理分期、T 分期、N 分期、M 分期)在高風險和低風險組中的分布。對于 JLUFH CRC 患者,作者發現晚期病理分期(III 期和 IV 期)和粘液性腺癌的 CRC 患者主要分布在高危組,具有顯著統計學差異(p ≤ 0.031 和 p ≤ 0.001)(圖 7A、B )。還發現 TCGA CRC 患者具有晚期病理分期(stage and )和 N 分期(N1-2)主要分布在高危組(圖 7C、D)。基于JLUFH結直腸癌患者和TCGA結直腸癌患者的臨床特征,采用臨床相關性分析和Wilcoxon排序檢驗進一步探討6-脂質代謝物水平和5-GMRHG表達在臨床特征上的組內差異。 發現晚期病理階段 JLUFH CRC 患者的高危脂質代謝物 水平較高(圖 7E,7F)。CPT2 在 65 歲以下 TCGA CRC 患者中的表達高于大于 65 歲的 CRC 患者(圖 7G)。此外,ATOH1 和 CPT2 的表達在病理分期方面存在統計學差異(圖 7H)。在 T 分期中,PCSK5 在 T3-4 中的表達高于 T1-2(圖 7I)。此外,隨著N分期的增加,ATOH1和CPT2的表達呈下降趨勢(圖7J)。對于 M 分期,ATOH1 在 M0 中的表達高于 M1,具有靜態差異(圖 7K)。

基于預后特征的腫瘤免疫浸潤和TME特征
作者計算了16種免疫細胞和13種免疫功能的相對豐度。箱線圖(圖 8A、B)形象地說明了 T_helper_cells、Tfh、Th1_cells、TIL、CCR的相對豐度高危組高于低危組,差異有統計學意義(p < 0.05)。圖 8C 顯示高風險組的免疫評分、基質評分和估計評分高于低風險組。作者還系統地描述了基質評分、免疫評分、估計評分以及高風險和低風險組中腫瘤免疫細胞和免疫功能的相對豐度之間的分布關系(圖 8D)。此外,作者發現基質評分、免疫評分和估計評分均與 T_helper_cells、Tfh、Th1_cells TIL、CCR的相對豐度呈統計學正相關(圖 8E)。高危組和低危組免疫檢查點表達的比較結果表明,高危組CTLA4、PDCD1、TIGIT、CD274、HAVCR2的表達高于低危組(圖8F)。 如圖 8G 所示,低風險組的 TIDE 評分低于高風險組,表明與高風險組的樣本相比,低風險組的樣本對抗 PD1 和抗 CTLA4 免疫治療的敏感性更高。并且,TIDE 評分較低的 CRC 患者的總生存期較好(p < 0.017)(圖 8H)。此外,對高危組和低危組 CRC 患者的分層生存分析結果表明,TIDE 評分較低的低危組 CRC 患者與更好的總生存率相關(圖 8I)。

體細胞突變和MSI概述
圖 9A、B 顯示了突變頻率最高的前 30 個基因,其中 TP53 在高風險組和低風險組之間顯示出最顯著的統計學差異(圖 9C)。為了進一步研究 TP53 突變狀態中五種 GMRHG 預后特征的預后意義,作者對 TP53 野生型和 TP53 突變型 CRC 患者進行了分層生存分析,發現 TP53 突變 CRC 患者的總生存期高危組低于低危組,具有顯著統計學差異(p≤0.001)。同時,TP53-野生型 CRC 患者的總生存期表現出與TP53-突變型 CRC 患者總生存期相似的趨勢(圖 9D)。此外,作者還研究了 MMR 系統與五種 GMRHG 預后特征之間的關系。如圖 9E、F 所示,MSH6 和 MSH2 分別在高風險和低風險組中表現出最高的突變頻率。此外,MSH6-MSH2表現出最強烈的陽性共表達相關性(圖9G)。 MSH6、MSH2、PMS2和MLH1表達差異的結果表明,MLH1在低危組中的表達高于高危組(圖9H)。用斯皮爾曼相關分析進行的線性相關也驗證了 GMS 和 MLH1 表達之間的負相關關系 (圖 9I)。

基因集富集分析
針對高風險和低風險群體的基因表達矩陣,作者進行了 GSEA 以分層揭示 TCGA CRC 患者的潛在生物學功能。在 HALLMARK 功能通路的 GSEA 結果中(圖 10A),高危組的基因表達主要富集在經常研究的癌癥相關通路中,例如上皮-間質轉化、血管生成 和 KRAS 信號傳導,而低風險組的基因表達主要富集在代謝相關通路中,即氧化磷酸化和脂肪酸代謝。在 KEGG 功能通路的 GSEA 結果中(圖 10B),高風險組的基因主要富集在 ECM 受體相互作用、補體和凝血級聯和間隙連接 ,而低風險組的基因主要富集了33條KEGG功能通路,其中NES值最高的前5條通路中有4條是代謝相關途徑(脂肪酸代謝,丁酸代謝,纈氨酸亮氨酸和異亮氨酸降解和檸檬酸循環(TCA cycle) 。在 HALLMARK 和 KEGG 的分析中,低風險組的基因表達均富含脂肪酸代謝和過氧化物酶體。

三、總結
本研究從代謝組學和轉錄組學角度詳細探討了脂質代謝在結直腸癌(CRC)預后中的作用。為促進個體化治療和揭示結直腸癌潛在的分子生物學特征提供新的視角。總的來說,這篇文章的研究內容很全面,并且結合了當下的科研熱點,是一個不錯的預后模型工作。
參考文獻
1. Sun, Y., Liu, B., Chen, Y., Xing, Y. and Zhang, Y. (2021) Multi-Omics Prognostic Signatures Based on Lipid Metabolism for Colorectal Cancer. Front Cell Dev Biol, 9, 811957.