預后一直是癌癥研究中的一個經典方向,各種預后模型層出不窮,那么如何讓我們的預后文章脫穎而出呢,不妨結合單細胞試試。今天小編就和大家分享一篇前幾天剛剛發表在Frontiers in Oncology(IF:6.244)雜志上關于結腸癌預后的文章,文章將傳統bulk數據與單細胞數據結合,并以熱點的代謝為切入點構建了預后模型,進行了多角度分析,為文章增加了亮點。文章思路新穎,方法簡潔非常值得做預后的小伙伴學習借鑒。
Multi-Omics Characterization of a Glycerolipid Metabolism-Related Gene Enrichment Score in Colon Cancer
結腸癌中甘油脂代謝相關基因富集評分的多組學特征
一.研究背景
結腸癌(COAD)是世界上第三大常見的惡性腫瘤,2020年占所有癌癥相關死亡的近10%。盡管目前手術技術和治療策略迅速發展,但由于轉移和術后復發,晚期結腸癌的5年生存率仍低于30%。此外,結腸癌的發病和發展過程涉及多種危險因素和多種基因改變,其預后因患者的異質性而存在差異,且臨床病理特征,對治療的反應也不同。有研究發現甘油脂代謝參與結腸癌的發生和發展。這篇文章就從多組學角度探討甘油脂代謝相關基因在結腸癌中的預后價值及潛在的分子機制。
二.數據及方法
1. 數據獲取:研究涉及三個數據集。TCGA-COAD患者的臨床信息和生存數據,以及基因表達、體細胞突變、拷貝數變異和甲基化測序結果。GEO中結腸癌數據集GSE39582的患者臨床信息和生存數據及RAW CEL數據文件。GEO數據庫中還獲得了GSE146771數據集中COAD患者單細胞轉錄組數據集。研究也從MSigDB數據庫下載了KEGG_GLYCEROLIPID_METABOLISM基因組和50個癌癥標志基因組。其中從KEGG_GLYCEROLIPID_METABOLISM 通路中共獲得49個甘油脂代謝相關基因。
2. 臨床數據集預處理:TCGA-COAD和GSE39582數據集預處理步驟如下。(1)無臨床資料的患者被排除。(2)生存時間為0或生存狀態未知的患者被排除。(3)將兩個數據集的基因表達矩陣中的基因ID類型同步到gene Symbol中。當多個基因ID同步到一個gene Symbol時,選擇中值表示表達水平。
3. 結腸癌中甘油脂代謝的多組學特征:將49個甘油脂代謝相關基因定位到基因表達矩陣和基因甲基化矩陣,比較腫瘤組織與正常組織中這些基因的表達水平及甲基化水平。根據腫瘤樣本的相對序列結果計算與甘油脂代謝相關基因的CNV擴增、刪失頻率以及體細胞單核苷酸變異。
4. 單樣本基因集富集分析:采用R包GSVA中的ssGSEA分析方法,基于TCGA-COAD和GSE39582的基因表達矩陣,計算KEGG_GLYCEROLIPID_METABOLISM基因集富集評分(GLMS)。根據TCGA-COAD和GSE39582數據集的GLMS中值將樣本分為高GLMS和低GLMS組。
5. 臨床特征與GLMS的關系:通過R包CMScaller估算TCGA-COAD數據集的一致分子亞型(CMSs)。并納入TCGA-COAD數據集的年齡、性別、BMI、分期、微衛星不穩定性、腫瘤部位等臨床特征,結合CMS亞型評估GLMS與臨床特征的相關性。
6. 通路相關分析:基于TCGA-COAD數據集的基因表達矩陣,采用ssGSEA分析方法計算50個癌癥標志基因集富集得分。采用Spearman相關分析,根據TCGA-COAD樣本的ssGSEA評分,量化GLMS與50個癌癥標志基因集之間的相關性。通過基于基因表達的R包WGCNA corAndPvalue函數和hallmark ssGSEA評分計算KEGG基因組中每一個甘油脂代謝相關基因與50個癌癥標志基因組的相關性。
7. 免疫微環境分析:用xCell評估TCGA-COAD腫瘤樣品中64種細胞類型在腫瘤微環境中的比例。比較高、低GLMS組CD274、CD276、CD40、CTLA4、HAVCR2、ICOS、IDO1、LAG3、PDCD1、TIGIT、TNFRSF18、TNFRSF4、TNFRSF9、VTCN1 14種免疫檢查點的表達。
8. 潛在的藥物敏感性分析:基于基因表達芯片數據和來自癌癥基因組計劃(CGP)數據庫的近700個細胞系的138種藥物反應數據的最大半抑制濃度(IC50)的pRRophetic算法最初用于藥物反應預測,文章用其預測TCGA-COAD數據集中這些藥物的IC50值,并評價高、低GLMS組對每種藥物的敏感性差異。然后根據表達量和IC50,通過R包WGCNA corAndPvalue函數計算KEGG_GLYCORLIPID_METABOLISM基因組中每個單基因與藥物敏感性的相關性。
9. 單細胞轉錄組分析:單細胞轉錄組數據集GSE146771的GLMS也采用ssGSEA方法計算。從腫瘤免疫單細胞中心(TISCH)數據庫下載該數據集對應的細胞注釋信息。采用UMAP圖,顯示每個單個細胞的GLMS。采用Kruskal Wallis檢驗評價GLMS在不同細胞類型間是否存在差異。最后,甘油脂代謝影響的細胞亞群被計算估計。
三.研究的主要內容及結果
1. 結腸癌中甘油脂代謝相關基因的表觀遺傳學和基因組特征
在文章的第一部分,作者基于TCGA-COAD數據集的430個腫瘤樣本和39個正常樣本,分析了KEGG_GLYCEROLIPID_METABOLISM基因集的49個基因。文章首先比較了腫瘤組織與正常組織的表達及甲基化水平差異(圖1A)。發現9個表達與甲基化水平負相關的基因表明在這些基因的mRNA表達中存在甲基化抑制功能。然而,6個基因的表達水平與甲基化呈正相關,提示這些基因的mRNA表達可能存在甲基化以外的調節機制。接下來作者根據癌癥樣本分析拷貝數變異和基因突變,結果發現AGPAT1、AKR1B1、DGKB、DGAT2和DGKH出現了拷貝數擴增,而AGPAT3、ALDH2、DGKD、MBOAT1和LIPC出現了顯著的拷貝數缺失(圖1)。作者也發現共有120個(27.9%)腫瘤樣本存在甘油脂代謝相關基因突變,其中兩個基因被識別為高頻率突變,為DGKB(15%)和DGKD(14%)(圖1)。

2. 甘油脂代謝評分作為結腸癌預后指標
在這一部分,作者對TCGA-COAD數據集中的每個樣本根據單樣本基因集富集分析(ssGSEA)算法分配了甘油脂代謝相關基因富集評分(GLMS),并根據中值的臨界值將其分為高GLMS組和低GLMS組。Kaplan-Meier分析顯示,與GLMS較低的患者相比,GLMS較高的患者總體生存期(OS)有所改善。此外,作者也對其他臨床因素,包括年齡、性別、分期、腫瘤部位、MSI狀態、CMS均進行了單因素分析,其中只有臨床分期和GLMS具有統計學意義。接下來這些臨床因素與GLMS一起被納入多因素Cox回歸,結果發現GLMS與OS之間的相關性仍然顯著,表明GLMS是結腸癌潛在的獨立預后因素。為了進一步驗證GLMS預測結腸癌預后的穩健性,作者使用另一個數據集(GSE39582)作為驗證隊列,結果發現在GLMS算法相同的情況下,高GLMS組患者的OS也較好。單因素及多因素分析也觀察到類似的結果。綜合來看,這些結果表明GLMS是結腸癌的獨立預后因素(圖2)。

3. GLMS與臨床特征的關系
作者接下來進一步分析GLMS與年齡、性別、體重指數(BMI)、美國癌癥聯合委員會(AJCC)腫瘤分期、TNM分級、微衛星狀態、血管浸潤狀態、腫瘤部位、和consensus molecular subtypes (CMS)的關系(圖3)。結果發現,左結腸癌的GLMS明顯高于右結腸癌(圖3),表明GLMS具有鑒別腫瘤部位的能力。此外,研究也發現腫瘤CMS亞型間GLMS分布存在顯著差異(圖3),而不同年齡、性別、BMI、腫瘤分期、微衛星不穩定狀態的患者GLMS分布相似(圖3C)。

4. 甘油脂代謝的潛在機制
接下來作者為了探索甘油脂代謝可能參與的通路,分析了GLMS與腫瘤標志物的相關性。結果發現GLMS與膽汁酸代謝、異生物代謝、過氧化物酶體等通路呈顯著正相關,與干擾素γ反應、異體排斥反應、細胞凋亡、炎癥反應呈負相關(圖4)。此外,作者也對參與GLMS的42個基因進行了分析。結果發現AGPAT4、AKR1B1和DGKI表達上調的樣本在膽固醇穩態、膽汁酸代謝、炎癥反應和NOTCH信號通路中均呈陽性表達(圖4),而AGPAT4、AKR1B1、DGKI、和MGLL與蛋白分泌、IL2-STAT5信號轉導等通路呈負相關(圖4)。接下來,作者利用R包xCell檢測免疫微環境,評估不同免疫細胞的浸潤比例,并進一步比較高GLMS組和低GLMS組的免疫微環境。結果發現如圖4所示,在高GLMS和低GLMS樣本中,共有33個免疫細胞或基質細胞表現出明顯的浸潤差異。大多數的免疫促進細胞,包括B細胞,巨噬細胞、活化樹突狀細胞(aDC)、經典樹突狀細胞(cDC)和未成熟樹突狀細胞(iDC)在低GLMS組中所占比例較高,而在高GLMS組中,NKT細胞等負調控免疫反應的細胞顯著浸潤。此外,作者還比較了兩組之間涉及免疫檢查點的14個基因的表達,發現在低GLMS組樣本中,共有12個免疫檢查點分子上調(圖4),這表明低GLMS患者可能存在潛在的免疫治療獲益。

5. 藥物敏感
在文章的這一部分,作者考慮到GLMS較低與預后不良相關,進一步分析了GLMS與藥物敏感性的關系。作者基于腫瘤藥物敏感性基因組學(GDSC)數據庫,獲取IC50值來預測治療反應。作者在低、高GLMS組間有顯著反應差異的96種藥物中,特別關注目前用于結腸癌治療的藥物(圖5)。進一步作者分析了藥物IC50與甘油脂代謝相關基因表達的相關性,共識別出AKR1B1、DGKI、AGPAT2、gam、LCLAT、DGKZ、MGLL、DGKQ、AGPAT4、DGAT1、AKR1A1、DGKD、DGKH、AGK等14個基因(圖5),提示這些基因可能在藥物反應中起關鍵作用。

6. 甘油脂代謝紊亂的起源
在文章的最后一部分,研究引入單細胞測序數據集GSE146771,探討甘油脂代謝紊亂的起源。作者從TISCH數據庫中獲得細胞注釋,以識別細胞的亞型(圖6)。接下來根據同一ssGSEA算法分配每個細胞樣本的GLMS(圖6)。結果發現其在惡性腫瘤細胞和基質細胞以及在CD4Tconv CD8Tex中得分較高,當涉及到復雜的類別時,漿細胞也是如此。進一步的統計分析顯示,不同細胞類型間評分分布有顯著差異(圖6)。作者根據各細胞亞群富集得分的log2FC值分析發現惡性細胞和Tprolif細胞顯著富集(圖6),表明這些細胞可能是甘油脂代謝紊亂的潛在靶點和來源。

到這里這篇文章的主要內容就介紹完了,文章聚焦代謝,構建風險評分,在經典的預后思路中添加了單細胞數據進行分析,文章邏輯清晰,方法簡潔。預后文章很多,想要出彩就一定要有亮點,這篇文章結合代謝與單細胞,是一個不錯的學習思路。
參考文獻:
1. Multi-Omics Characterization of a Glycerolipid Metabolism-Related Gene Enrichment Score in Colon Cancer;