你是否還在為沒有自己的數據而發愁?是否還在為實驗驗證而為難?是否還在苦尋研究思路?今天小編就來給你分享一篇今年十月份發表在《frontiers in Cell and Developmental Biology》(IF:6.684)上的純生信文章。這篇文章既沒有自己測的數據也沒有加入實驗驗證,只是巧妙的將scRNA-seq和bulk RNA-seq數據相結合起來,看完這個,你會發現你也可以的!

結合bulk RNA-seq和scRNA-seq數據分析,鑒定和驗證基于惡性細胞亞群標記的胃腺癌多基因風險評分
背景
胃腺癌 (STAD) 是最常見的胃癌類型,也是第五大最常見的癌癥類型,是全球第三大致命癌癥。STAD患者的不良預后與多種因素相關,包括有晚期臨床表現、遺傳異質性和強耐藥性。根據不同的分類系統可將其分成不同的亞型,如根據Lauren分類系統可將STAD分為彌漫型(低分化)、腸型(高分化)和混合型三種亞型。在TCGA中則根據基因組特征將STAD劃分為四種亞型,分別是EBV陽性 (9%)、微衛星不穩定 (MSI) (22%)、基因組穩定 (20%) 和染色體不穩定 ( 50%)。腫瘤異質性包括時間和空間上兩個層面,時間上的異質性是指從腫瘤早期進展到腫瘤晚期的異質性,而空間上的異質性則是指不同部位腫瘤的異質性。結合scRNA-seq數據可以從單細胞層面更好的揭示腫瘤的異質性。
數據來源和方法思路
1. 數據來源
Bulk RNA-seq:GEO數據庫中的四個數據集GSE66229、GSE113255、GSE84437 和 GSE26942;TCGA數據庫中的bulk RNA-seq數據,包括375 個STAD和32個正常組織,即文中的TCGA-STAD。
ScRNA-seq:GEO數據庫中的GSE134520數據集。
2. 方法思路
全文研究思路大致可以分為三部部分,首先是通過對bulk RNA-seq數據的分析鑒定出胃腺癌中惡性細胞和非惡性細胞的標記基因,然后就是利用標記基因對scRNA-seq數據中的細胞類型進行分類,通過聚類分析得到不同的惡性細胞亞群,以篩選出不同惡性細胞亞群的標記基因。最后又回歸到bulk RNA-seq數據的分析上,利用cox回歸構建風險預測模型,最后再利用數據集加以驗證。

結果
1. 鑒定惡性細胞和非惡性細胞標志基因
本文首先是對所收集的三個bulk RNA-seq數據集分別做差異分析,圖2A-C中分別展示了這三個數據集中差異基因的整體情況。具體而言,就是在GSE66229數據集中,共鑒定出14224個DEG,其中有7799個基因上調和6425個基因下調。在GSE113255中,共鑒定了8669個DEG,上調基因為7473個,下調基因為1196個。在TCGA-STAD中,共鑒定出13353個DEG,上調基因和下調基因分別為 7077個和6276個。對這些差異基因按上調和下調分組分別取交集,發現這三個數據集中的上調基因和下調基因存在很大的差異(圖2D-E),所以必須篩選出在大部分樣本中都穩定差異表達的基因才能作為標記基因用于后續分析。簡而言之,研究人員首先根據單個數據集中的log2(倍數變化)對DEG進行排序,然后對三個排序后的列表進行綜合排序,最后根據p值排序,將前 50個顯著上調的基因視為惡性細胞標志基因,將前50個顯著下調的基因視為非惡性細胞標志基因。圖2F-H中的三個熱圖分別展示了這100個基因在三個數據集的腫瘤和正常樣本中的差異表達情況。
此外,對三個數據集中的上調和下調基因的交集進行KEGG分析發現,上調基因所富集的通路主要包括細胞周期、p53信號通路等,而下調基因所富集的通路主要是氧化物酶體增殖物激活受體 (PPAR) 信號通路、胃酸分泌和 AMPK 信號通路(圖2I-J)。

2. 早期胃腺癌的腫瘤異質性
根據前面所篩選出的惡性細胞及非惡性細胞的標記基因,可進一步利用胃腺癌的scRNA-seq數據進行腫瘤異質性分析。通過軟件包SCINA在3771個質控合格后的細胞中共鑒定出了2506個惡性細胞、63個非惡性細胞以及1202個未知類型細胞(圖3A)。但基于前文中所鑒定的100個標記基因對這些細胞進行PCA分析,發現這三類細胞并不能被很好的分開(圖3B)。于是研究人員單獨將其中2506個惡性細胞進行亞群聚類,以便進行后續分析,聚類后一共得到9個細胞亞群(圖3C),圖3D中展示了前5個標記基因在這9個亞群中的表達情況。

惡性腫瘤中具有高度異質性的細胞群,研究不同細胞群中的分化軌跡和相應基因可能有助于闡明癌癥發展的分子機制。研究人員通過Monocle R包對惡性細胞進行擬時間分析,發現其分化軌跡包括七種狀態(圖4A)。圖4B中展示了分支表達分析模型 (BEAM) 中前100個顯著差異表達的基因熱圖。
現在我們已知惡性細胞中包含有九個細胞亞群,那這九個細胞亞群之間又存在什么區別和聯系呢?研究人員接著通過GSEA分析闡明了這九個細胞亞群之間的功能差異性。比如細胞cluster0中顯著富集PI3K/AKT/MTOR信號和氧化磷酸化,而cluster1似乎具有更強的蛋白分泌能力,因為這類細胞顯著富集出了蛋白分泌相關標記基因;Cluster2的下調基因與G2M檢查點、E2F靶標等相關,cluster3可能與DNA修復相關。胰腺β細胞的標記基因、通過核因子κβ的腫瘤壞死因子α信號、炎癥反應和同種異體移植排斥的顯著富集分別出現在了cluster5、6、7和8中。結合擬時間分析,結果發現腫瘤內異質性出現在STAD的早期階段,可能是耐藥性產生的原因之一。

3. 基于細胞標記的多基因風險評分預測胃腺癌預后
文章的最后一部分是構建風險評分模型及其驗證,具體是怎么進行的呢?我們一起來學習一下。首先研究人員結合前文中通過bulk RNA-seq數據所確定的惡性細胞標記基因和scRNA-seq中所確定的9個惡性細胞亞群的標記基因在TCGA-STAD數據集中進行單變量cox分析,得到38個與OS顯著相關的基因,最后篩選出其中的10個基因用于后續構建多基因風險評分 (PRS),PRS與OS顯著相關(圖5A)。ROC分析顯示PRS在預測患者5年內OS的效果不錯(圖5B-C)。此外,PRS也與患者的PFS相關,若根據中位PRS將STAD患者分為高危組和低危組,且與低風險組相比,高風險組患者的OS(圖5D)和PFS(圖5E)都更短。通過PRS和常規臨床病理特征的多變量Cox分析可知,PRS是一個獨立的預后因素(圖5F)。

研究人員還將PRS與OS相關的常規臨床病理因素相結合來構建用于預測OS率的列線圖模型(圖6A),以便更好地預測STAD患者的預后。OS在1-3年的校準曲線表明預測和觀察之間具有良好的一致性(圖6B-D)。

最后便是對PRS的驗證。研究人員采用三個數據集(GSE84437、GSE66229和GSE26942)用于驗證 PRS 的預后價值,驗證結果與預期一致,且效果不錯,發現高風險組患者的OS比低風險組患者短(圖7)。

小結
腫瘤內單一化的數據類型分析套路早已被人熟知,所以本文的研究人員巧妙的將傳統的bulk RNA-seq數據與目前比較熱門的單細胞數據分析相結合。通過簡單的差異分析在bulk RNA-seq中鑒定出標記基因再用于scRNA-seq數據中的分析,最后再回歸到bulk RNA-seq的cox分析以構建預測模型并加以驗證。通讀全文我們不難發現,這篇文章的整體思路和分析方法并不難,而且數據也都來源于公共數據,也沒有濕實驗的驗證。巧妙結合多種數據,常規套路分析發文章其實也并不是那么難。
參考文獻
Zou Q, Lv Y, Gan Z, Liao S, Liang Z. Identification and Validation of a Malignant Cell Subset Marker-Based Polygenic Risk Score in Stomach Adenocarcinoma Through Integrated Analysis of Bulk and Single-Cell RNA Sequencing Data. Front Cell Dev Biol. 2021 Oct 18;9:720649. doi: 10.3389/fcell.2021.720649. PMID: 34733840; PMCID: PMC8558465.