今天給大家分享的是一篇今年9月份發表在《Frontiers in Oncology》(IF:6.244)上的文章。目前大量證據表明,卵巢癌 (OC) 的異質性是其治療失敗的主要原因。單細胞RNA測序技術 (scRNA-seq) 是在單細胞水平上分析腫瘤異質性的有力工具,有助于在遺傳和細胞水平上更好地了解細胞功能。本研究中,作者將scRNA-seq與bulk RNA-seq相結合,最后確定了兩個標記基因,在OC中具有重要的預后意義和免疫治療價值。

scRNA-Seq與Bulk RNA-Seq整合分析卵巢癌免疫細胞異質性并建立分子風險模型
背景
卵巢癌(OC)是一種常見的婦科惡性腫瘤,死亡率很高,并具有異質性。目前主要的治療手段是手術和化療,且其異質性是其治療效果不佳的主要因素之一。超過90%的卵巢惡性腫瘤被歸類為上皮性卵巢癌,包括五種主要類型:高級別漿液性(70~80%%),低級漿液性(<5%),粘液性(3%),子宮內膜樣癌(10%)和透明細胞癌(10%)。
數據組成和方法思路
1. 數據組成:GEO數據庫中的兩個scRNA-seq數據集(GSE154600和GES158937)、TCGA中OC的bulk RNA-seq。
2. 方法思路:首先使用兩個scRNA-seq數據集(GSE154600 和 GES158937)來表征OC 異質性,共聚類出20個細胞群。然后根據免疫細胞標記篩選出免疫相關的細胞群,包括T細胞或NK 細胞、B細胞和髓樣細胞等。接下來,便是對TCGA-OC的bulk RNA-seq數據的分析,包括有免疫浸潤、WGCNA 分析、亞型分析、OS相關基因鑒定、預后風險模型構建。最后的實驗驗證部分包括qPCR和IHC 分析。

結果
1. ScRNA-seq聚類分析
研究人員首先對下載的scRNA-seq數據集去批次(利用Seurat包中的SCTransform() 函數),對其進行降維。再通過函數FindCluster ()對細胞進行聚類,獲得20個聚類。然后再根據標記基因的表達情況注釋免疫相關細胞類群,如PTPRC是免疫細胞標記,EPCAM是上皮細胞標記,COL1A2是成纖維細胞標記(圖2)。

2. 免疫細胞分析
在這一部分,首先是對前面注釋的免疫細胞群基于免疫細胞標記基因進行亞群聚類和注釋。然后是分別對T細胞、B 細胞和髓樣細胞進行GSVA富集分析,并描繪各類的細胞相應的特征情況(圖3)。其中,對于腫瘤浸潤的髓樣細胞,分析了M1-like和M2-like髓樣細胞的活性,結果發現M1和 M2相關基因在具有數據集GSE154600的P3和P4患者中顯著上調。綜上所述,研究人員通過分析兩個OC scRNA-seq數據集以及基于免疫細胞亞型的腫瘤和髓樣細胞之間的差異相互作用探索了卵巢癌的異質性。

3. CIBERSORT
CIBERSORT是一種常用的計算免疫細胞浸潤的方法,它利用線性支持向量回歸的原理對免疫細胞亞型的表達矩陣進行去卷積,來估計免疫細胞的豐度。在這里,為了進一步分析OC浸潤免疫細胞的臨床意義,研究人員通過CIBERSORT這種計算方法,根據TCGA中的bulk RNA-seq數據的counts預測22個免疫細胞的比例,同時也計算了這378名 TCGA-OC患者的bulk RNA-seq數據中M1-like TAMs(腫瘤相關巨噬細胞)豐度(圖4A)。生存分析結果表明,M1-TAMS豐度高的患者生存率更高(圖4B、C)。而不同豐度M2-like TAMS的患者之間的生存差異并不顯著。因此研究人員后續又對M1-like TAMs進行了深入的分析。

4. WGCNA分析和免疫治療預測
為了進一步探索M1-TAMS在OC中的潛在作用,研究人員對TCGA中的樣本數據進行了WGCNA分析。最后總共生成了7個模塊(圖5A-D),其中棕色模塊(內含3213個基因)與M1-like TAMs score的相關性最高(圖5E)。為了篩選出這一模塊中與OS相關的基因,他們通過計算基因與模塊特征基因之間的相關性與基因表達與 OS 之間的相關性這兩者之間的相關性,最后得到了45個關鍵基因(MM>0.5 和 GS>0.1)(圖5F)。
根據IMvigor210CoreBiologies包中OC的免疫治療隊列數據,可將樣本分為“免疫浸潤型” 、 “免疫排斥型”和 “免疫沙漠型”三種表型。根據三種表型的預測AUC值,可以發現這些關鍵基因在用于區分免疫浸潤型和免疫沙漠型樣本時預測效果更好(圖 5H)。這些結果表明鑒定出的這45個基因是免疫浸潤的潛在預測標記。

5. 基于M1-Related基因的分子分型
篩選出關鍵基因以后該做什么呢?一般套路主要是有兩種,一種是對樣本進行亞型分類,一種是構建回歸模型。這里一共篩選出了有45個基因,構建回歸模型的話顯然基因數量過多了,所以研究人員接著基于前面所篩選出的基因表達情況將所有樣本分成兩個亞型,分別研究這兩個亞型之間的差異,以進一步識別生存相關標記基因。首先是提取這45個基因的表達量矩陣,然后利用R包NMF基于M1相關基因將TCGA中的OC樣本分成兩個亞型(cluster1和cluster2),圖6C中就展示了這45個基因在所有樣本中的表達情況。預后分析顯示,cluster1的預后效果要更差(圖6D)。兩種OC分子亞型中cluster2中M1-like髓樣細胞的比例更高(圖6E)。最后還分別對兩個亞型進行了KEGG富集分析(圖6F-G)。

6. 構建預后風險模型
研究人員將TCGA中的OC樣本按照1:1比例隨機分成訓練集和測試集,從658個DEGs挑選出101個蛋白編碼基因,再通過cox回歸和Lasso回歸構建了預后風險模型(圖7)。首先使用Cox識別出4個生存相關基因(CXCL13、PLA2G2D、IL26、CARD17),然后再結合Lasso回歸,發現CXCL13和 IL26的低表達是一個風險因素。最后確定將這兩個基因用于構建風險模型,結果發現CXCL13和IL26基因表達較低的患者的風險評分和死亡率越高,高風險組的預后也更差。

7. 預后風險模型的驗證
構建完風險模型之后自然是對該模型的驗證了。根據測試集數據和TCGA中所有OC樣本數據分析,結果發現具有高 RiskScore的樣本的風險評分明顯小于具有低RiskScore的樣本。同時,KM曲線顯示低風險組和高風險組之間存在顯著的生存差異(圖8)。

8. 實驗驗證
這篇文章并不完全的純生信分析,研究人員最后還是做了一些實驗驗證的。他們通過qPCR(圖9A、B)和IHC(圖9C、D)分析了 OC 患者臨床樣本中特征基因(CXCL13和 IL26)的表達情況,結果顯示OC組織中CXCL13和 IL26的表達確實較低。

小結
這篇文章所用的分析數據都源于公共數據,只是在分析出關鍵基因后做了一點簡單的實驗驗證。我們來回顧一下,其實文章后面基于bulk RNA-seq的分析都是常規套路,不過他們想到了和腫瘤的異質性聯系在一起,所以加入了scRNA-seq數據用來表征異質性,這也正是文章的一大亮點。
參考文獻
Liang L, Yu J, Li J, Li N, Liu J, Xiu L, Zeng J, Wang T, Wu L. Integration of scRNA-Seq and Bulk RNA-Seq to Analyse the Heterogeneity of Ovarian Cancer Immune Cells and Establish a Molecular Risk Model. Front Oncol. 2021 Sep 21;11:711020.