基于lncRNA的胰腺癌預后風險評估因素
描繪跨泛癌水平的生物學功能

這次小編為大家解讀一篇涉及泛癌和免疫的lncRNA研究文章,這篇文章利用lncRNA的表達構建預后模型,識別到與胰腺癌顯著相關的lncRNA,并對關鍵的lncRNA進行泛癌水平的分析,檢驗他們與免疫的相關性,本文還有一個新奇的部分就是利用TCGA泛癌表型數據和lncRNA表達構建了人體解剖熱圖,值得我們學習。
“基于lncRNA的胰腺癌預后風險評估因素描繪跨泛癌水平的生物學功能”于2021年6月發表在Frontiers in Cell and Developmental Biology雜志上,影響因子6.684。
研究背景
胰腺癌的早期研究取得了一些進展,已經發現了幾個胰腺癌相關基因。然而,對胰腺癌潛在機制的全面了解仍然有限。最近的研究表明,lncRNAs可能提供新的見解并有助于進一步的胰腺癌研究。
多項研究描述了一些lncRNA對胰腺癌患者預后的影響,并建立了多種預后風險模型。然而,這些研究有幾個缺點,包括數據樣本、算法和療效評估方面的局限性。此外,這些研究并未將其模型應用于泛癌研究或探索lncRNA的功能。
在這項研究中,作者旨在構建一個可靠的胰腺癌預后lncRNA模型和泛癌分析。共分析了TCGA數據中178名胰腺癌患者腫瘤組織的lncRNA表達譜,以及GTEx數據庫中正常胰腺樣本的基因表達數據用于校正非腫瘤和癌癥樣本數量的不平衡。對重要的lncRNA進行了泛癌分析,以探索lncRNA作為多種腫瘤預后分子標志物的可能性。
流程簡介:

研究結果
6-lncRNA的胰腺癌預后風險評分模型
為了識別與胰腺癌患者預后相關的潛在 lncRNA,作者使用來自 TCGA 和 GTEx 數據庫的數據集作為組合數據集。 對從訓練數據中的組合數據集中分析的差異基因進行了單因素 Cox 比例風險回歸分析。 共獲得112個與胰腺癌患者預后顯著相關的lncRNA。在LASSO回歸分析后,刪除了具有高相關性或從屬候選者的 lncRNA,并保留了 12 個具有高度獨立性的生存相關的lncRNA。

圖1篩選與胰腺癌預后相關的lncRNA:(A)與胰腺癌預后相關的lncRNA的LASSO回歸分析結果 (B) 預后相關 lncRNA LASSO回歸分析中的交叉驗證
基于來自組合數據集的訓練數據集的多因素 Cox 回歸分析篩選出六個預后 lncRNA。基于六個與生存相關的 lncRNA 構建了一個預后風險評分模型。
公式:

如圖所示,在 6 個 lncRNA 中, AP005264.1 和 AC093895.1 的HR大于 1.0,表明它們是危險因素。AL590438.1、TSPOAP1-AS1、AC005696.1和Z92544.2的HR小于1.0,表明它們是保護因素。

圖1: (C) 6-lncRNA 標記的風險比森林圖
基于6-lncRNA模型的生存預測模型構建
根據 6-lncRNA 預后風險評分模型計算了訓練集中每個胰腺癌患者的分數。根據訓練集中患者的中位數得分,將患者分為高危組和低危組。高危組患者的平均生存時間明顯低于低危組患者的平均生存時間。Kaplan-Meier 分析表明,兩組之間的總生存時間存在顯著差異(圖 2A)。訓練組5年6-lncRNA模型的AUC達到0.804(圖2B),表明預后風險評分模型預測了胰腺癌的5年生存率。在訓練集中,胰腺癌患者風險評分、生存狀態以及6個lncRNA在高、低風險組中的表達分布如圖2C所示。


圖 2 6-lncRNA 在訓練集和測試集中的性能評估:(A) 高危組和低危組的生存曲線分析 (B) 6-lncRNA 標記的 5 年 ROC 評估曲線 (C) 患者風險評分、生存狀態和 lncRNA 標志物表達譜
接下來計算了測試集中的中位數得分,并將測試數據集分為高風險組和低風險組。Kaplan-Meier分析表明,兩組之間的OS存在顯著差異(圖2D),這與訓練集中的結果相似。6-lncRNA 測試集中模型的 AUC 為 0.733(圖 2E)。這些結果表明,預后風險評分模型在預測測試集中胰腺癌患者的 5 年生存率方面是可靠的。圖 2F顯示了高危組和低危組的風險評分、生存時間、死亡人數和 6 種 lncRNA 的表達情況。


圖 2:(D) 測試集中高低風險組的 KM 分析 (E) 測試集中 6-lncRNA 標記的 5 年 ROC 評估曲線 (F) 測試集中的患者風險評分、生存狀態和 lncRNA 標記表達譜
胰腺癌患者的2-lncRNA預后風險評分模型及生存預測分析
作者在沒有GTEx數據集的情況下對 TCGA 胰腺癌患者的整體數據集進行了生存分析。共有46個lncRNA與胰腺癌患者的OS顯著相關。在單變量Cox比例風險回歸分析后,獲得了7個 lncRNA,將其輸入多變量Cox比例風險回歸分析。最后,獲得了具有兩種lncRNA的胰腺癌患者的預后風險評分模型。lncRNA MIR600HG和TSPOAP1-AS1的HR小于1.0,表明它們是胰腺癌預后的保護因素(圖3A)。

圖 3 2-lncRNA 的存活分析:(A) 2-lncRNA標記的風險比森林圖
使用2-lncRNA預后風險評分模型的中值,將TCGA胰腺癌患者樣本分為高危組和低危組。 Kaplan-Meier 分析顯示高風險組和低風險組之間的 OS 存在顯著差異(圖 3B)。 此外,模型5年的AUC為0.751(圖3C),表明2-lncRNA標志物在預測測試集中胰腺癌患者的5年生存率方面具有可靠的性能。

圖 3:(B) 2-lncRNAs 高低風險組的 KM 生存曲線 (C) 2-lncRNAs 五年存活率的 ROC 曲線
在高危組和低危組之間,對預后風險模型中的兩個 lncRNAs 進行排序,并在風險評分、總生存時間和生存狀態方面進行比較(圖 3D)。

圖 3:(D) 2-lncRNA 高低風險組的比較
預后風險評分模型中與關鍵 lncRNA 相關的基因
從胰腺癌的所有基因表達譜中,獲得了19,658 個蛋白質編碼基因PCG 和 14,142 個非蛋白質編碼的lncRNA。標準化后,獲得了16,988個PCG。 在來自兩個模型的 lncRNA 中,選擇lncRNA TSPOAP1-AS1 和 lncRNA MIR600HG。 對于這兩個關鍵的lncRNA,與胰腺癌患者的標準化PCG表達數據集一一進行了Pearson相關分析??偣搏@得了1673 個與 TSPOAP1-AS1 相關的 PCG 和 2172 個與 MIR600HG相關的PCG。
與TSPOAP1-AS1相關的PCGs富集到27個GO terms,主要涉及7個功能(細胞外基質、蛋白質橋接等)。KEGG通路分析顯示PCGs主要富集于免疫細胞活化、抗炎反應等5條通路(圖4A)。

圖 4 TSPOAP1-AS1 和 MIR600HG 相關基因和功能富集: (A) TSPOAP1-AS1相關基因的GO富集和KEGG通路富集
MIR600HG 的相關PCG 顯示出 28 個富集的 GO terms,主要集中在五個生物過程和功能上(嘌呤核苷代謝、尿苷環化酶激活等)。KEGG 通路與白細胞遷移、癌組織蛋白多糖調節等有關(圖 4B)。

圖 4:(B) MIR600HG相關基因的GO富集和KEGG通路富集
這兩個lncRNA也參與了泛癌的多種癌癥相關通路。使用GSEA分析發現,在膽管癌中,TSPOAP1-AS1參與淋巴細胞活化、B細胞活化、免疫細胞信號轉導受體調節和免疫效應反應調節等生物學過程,而MIR600HG則負調節一些細胞信號通路如甲基化 CpG 蛋白調節、DNA 轉錄因子結合和 RNA 聚合酶結合等。
非癌組織和泛癌中的 lncRNA 基因分析
基因在組織中與不同性別之間的表達存在差異。利用GTEx數據庫中的正常人體組織基因表達數據和33種腫瘤類型的表型文件和關鍵lncRNA表達水平,構建了目標基因在組織中表達的健康人體解剖圖。其中,作者對器官和性別進行了分類,并繪制了每個器官中靶基因lncRNA表達的醫學解剖圖。采用Wilcox統計檢驗計算lncRNA在33種癌癥中的差異表達。一般來說,這兩種 lncRNA在所有組織中都低表達。TSPOAP1-AS1在脾臟中表達最高,在腦和肺組織中高表達。男性腸道系統和女性長骨中TSPOAP1-AS1 的表達水平較高。MIR600HG 在腎組織中表達相對較高,而在肺組織、雄性腸道和雌性骨骼肌中表達水平較低(圖 5A、B)。

圖 5正常人體器官和泛癌的靶基因分析: (A) TSPOAP1-AS1 在男性和女性正常人體器官中的表達 (B)MIR600HG 在男性和女性正常人體器官中的表達
接下來檢查了 33 種腫瘤類型的腫瘤組織和正常組織中兩種lncRNA的基因表達。TSPOAP1-AS1在膀胱癌和10種癌癥中顯著升高或降低,在宮頸癌和肺腺癌中的表達也顯示出顯著差異。還檢測到MIR600HG 在 10 種癌癥中的顯著差異表達,包括乳腺癌和結腸癌(圖 5C)。

圖 5 :(C) TSPOAP1-AS1 和 MIR600HG 在 33 個腫瘤中的表達差異
根據 TSPOAP1-AS1KM 和 MIR600HG 的中位表達將患者分為高表達組和低表達組,并檢查了 33 種癌癥的OS。 在 PAAD、LUAD、READ 和 THYM 等癌癥中,高表達組和低表達組之間的 OS 存在顯著差異,其中 PAAD 的差異最顯著。在 MIR600HG 低表達和高表達組中,OV 和 PAAD 患者之間存在顯著的預后差異(圖 5D)。


圖 5: (D) TSPOAP1-AS1 和 MIR600HG 在多個癌癥患者中的生存曲線分析
使用 lncRNA 的表達對 33 種癌癥進行了 Cox 比例風險回歸分析。TSPOAP1-AS1與HNSC和PAAD患者的預后具有顯著相關性,是預后的低風險因素。MIR600HG 與 PAAD 患者的預后顯著相關,也是一個低風險因素(圖 5E)。

圖 5.:(E) TSPOAP1-AS1 和 MIR600HG 風險比森林圖
在各種癌癥中檢測到高表達組和低表達組之間疾病相關存活率的顯著差異,PAAD觀察到高度顯著性。

TSPOAP1-AS1 是 KICH 預后的高危因素以及其他癌癥類型的低危因素。 MIR600HG是PCPG預后的高危因素和其他癌癥的低危因素。

COAD中TSPOAP1-AS1的表達檢測到無病生存期存在顯著差異,COAD和KIRP中TSPOAP1-AS1表達水平差異顯著,是這兩種癌癥患者預后的高風險因素。在 LUSC、PAAD 和 PRAD 中觀察到高和低MIR600HG 風險組之間的顯著差異,并且在許多癌癥如 PAAD 中觀察到顯著的預后差異,其中 MIR600HG 是 PAAD 和 THCA 的低風險因素。

在無進展生存分析中,高風險組和低風險組在各種癌癥中都顯示出顯著的生存差異。兩種 lncRNA 的高危組和低危組在 PAAD 中的生存率顯示出顯著差異。TSPOAP1-AS1是多種癌癥的重要預后因素,其中TSPOAP1-AS1是UVM的高危因素。MIR600HG 是 PAAD 和 PRAD 等許多癌癥的重要預后因素,其中 MIR600HG 是 PAAD 的低風險因素。


接下來對兩種 lncRNA表達與33 種癌癥類型患者臨床分期之間的相關性進行了非參數 Kruskal 檢驗分析。 TSPOAP1-AS1在HNSC、KIRP、LIHC、LUAD、SKCM、TGCT和THCA中的表達在臨床分期上表現出顯著差異,其中HNSC和LUAD表現最為顯著。TSPOAP1-AS1的表達在HNSC臨床I期和II期臨床胰腺癌樣本之間存在顯著差異,III期和IV期臨床胰腺癌樣本之間的差異更大。在LUAD中,I期臨床胰腺癌樣本與II期和III期臨床胰腺癌樣本之間也存在高度顯著差異,I期和IV期臨床胰腺癌樣本之間也存在顯著差異。MIR600HG與KIRC、PAAD及10種癌癥的臨床分期存在統計學顯著相關性;MIR600HG的表達在KIRC III期臨床胰腺癌樣本和IV期臨床胰腺癌樣本中具有高度統計學意義(圖5 F)。

圖 5: (F) TSPOAP1-AS1 和 MIR600HG 與各種癌癥臨床分期之間的相關性
獲得突變總數以獲得腫瘤突變負荷(TMB)并計算TSPOAP1-AS1和MIR600HG在每個腫瘤中TMB與其表達之間的Spearman相關系數。發現 TSPOAP1-AS1 在 THYM 和 PAAD中與 TMB 呈負相關,而 MIR600HG 在 PAAD中與 TMB 呈低負相關(圖 5G )。

圖 5: (G) TSPOAP1-AS1 和 MIR600HG 與泛癌 TMB 之間的相關性,藍色值是相關系數的標度
接下來,對lncRNA和微衛星不穩定性(MSI)進行Spearman相關分析。MSI 數據來自 Bonneville 等人關于泛癌 MSI的研究結果。本研究通過計算腫瘤-正常組織配對樣本中各微衛星位點等位基因的分布差異,取平均值作為腫瘤-正常組織配對的MSI評分值,計算出TCGA數據庫中大部分腫瘤樣本的MANTIS評分。 TSPOAP1-AS1與大多數癌癥類型的MSI呈負相關或沒有相關性,而MIR600HG 在更多腫瘤中與 MSI 具有更高的相關性(圖 5H)。

圖 5.:(H) TSPOAP1-AS1、MIR600HG 和泛癌 MSI 之間的相關性,綠色值是相關系數的標度
lncRNA基因與泛癌腫瘤免疫的相關性分析
接下來分析了TSPOAP1-AS1和MIR600HG的表達與33個腫瘤的免疫細胞和基質細胞水平的關系。TSPOAP1-AS1 在 KICH、LUAD 和 STAD中與免疫細胞含量和基質細胞含量呈統計學顯著正相關。TSPOAP1-AS1在BLCA、HNSC、KIRC、LUSC、MESO、SKCM和TGCT中與免疫細胞含量呈顯著正相關,而在UVM中僅與基質細胞呈正相關。MIR600HG與KICH、LGG和SARC中的免疫細胞和基質細胞含量顯著相關,但僅與TGCT中的免疫細胞顯著相關(圖6A)。

圖 6. 泛癌靶基因與腫瘤免疫的相關性分析: (A)TSPOAP1-AS1、MIR600HG與泛癌免疫細胞和基質細胞含量的相關性
TSPOAP1-AS1的表達與7種癌癥中10種免疫細胞浸潤率顯著相關。例如在ESCA中,如圖,TSPOAP1-AS1與幼稚B細胞和調節性T細胞有關。

TSPOAP1-AS1與PAAD中記憶B細胞的含量也呈顯著負相關,而MIR600HG的表達與DLBC、LAML、PAAD中初始B細胞的含量呈顯著負相關并且與 LAML 中單核細胞的含量顯著正相關 (圖 6B)。

圖 6 :(B)TSPOAP1-AS1、MIR600HG的表達與多種腫瘤免疫細胞浸潤的相關性
TSPOAP1-AS1在23種腫瘤中均存在與其中度相關的免疫基因。TSPOAP1-AS1在15種癌癥中與免疫基因BTLA呈顯著相關,與PAAD和CHOL相關性強,其他主要顯著免疫基因包括CD28和 CD40LG(圖 6C)。

圖 6 :(C) TSPOAP1-AS1、MIR600HG 和免疫基因在 33 個腫瘤中的共表達結果,藍色代表 P 值,紅色代表相關系數
MIR600HG 僅在 8 種腫瘤(CHOL、DLBC、GBD、LAML、LGG、PAAD、SARC 和 THYM)中與幾種免疫基因顯著相關;與 TSPOAP1-AS1 相比,該 lncRNA 與較少的免疫基因相關,且相關程度較低。
研究結論
lncRNAs在腫瘤中發揮關鍵作用,不僅是癌癥預后的重要分子標志物,也是泛癌水平的分子特征。由于胰腺癌的預后較差,準確評估預后是制定胰腺癌治療方案的關鍵。在這里,作者使用 Cox 回歸和 lasso 回歸分析了來自TCGA和GTEx數據庫的胰腺癌數據,并使用兩個數據庫的組合以及僅TCGA數據庫進行分析。構建了與胰腺癌生存率顯著相關的預后風險評分模型,并研究了兩種lncRNA。使用這兩種 lncRNA 對 33 種癌癥的分析表明,TSPOAP1-AS1 是 7 種癌癥的預后標志物,其中胰腺癌最為顯著,MI600HG 是卵巢癌和胰腺癌的預后標志物。TSPOAP1-AS1 與某些癌癥的臨床分期和腫瘤突變負荷以及許多癌癥的免疫浸潤強烈相關,而在多種癌癥中觀察到MI600HG與微衛星不穩定性之間存在很強的相關性。此研究結果有助于進一步了解lncRNAs在癌癥中的不同功能,并可能有助于lncRNAs作為癌癥預后因素的臨床應用。