胰腺導管腺癌粘蛋白生信分析新思路
今天小編給大家帶來一篇最新發表在Clinical Cancer Research上關于胰腺導管腺癌粘蛋白分析的文章,該雜志最新影響因子為12.531,中科院分區大類:醫學 1區,小類:腫瘤學 1區。這篇文章從粘蛋白角度出發,深入淺出闡析了粘蛋白及其剪接變異體是如何影響胰腺導管腺癌亞型分類和病人生存,讓我們一起來學習吧!
前言
胰腺導管腺癌(Pancreatic ductal adenocarcinoma, PDAC)作為惡性程度最高的癌癥之一,其侵襲性高,進展快。PDAC病人常因對治療不響應而預后差,5 年生存率約為 8%。目前臨床上仍缺乏對PDAC正確的亞型認識以及有效的預后預測標志物。粘蛋白在PDAC中的研究近幾年被廣泛提及,然而這些研究缺乏對粘蛋白家族的全面分析。作者在本研究中確認了基于粘蛋白表達的的四種PDAC表型,這四種表型具有不同的生物學特征和預后特征。作者發現并驗證了粘蛋白剪接變異體可作為PDAC病人有效的的預后預測標志物,是臨床上潛在的治療靶點,同時作者證明了在分析PDAC轉錄組數據時,矯正由樣本腫瘤細胞比差異帶來的表達偏向性的重要性。
數據來源
(1)TCGA組:148例PDAC樣本,收集于TCGA公共數據庫;
(2)ICGC組:67例PDAC樣本,收集于ICGA公共數據庫;
(3)驗證組:17例PDAC樣本,收集于內布拉斯加州醫學中心的自測數據。
結果解讀
腫瘤細胞比對粘蛋白基因表達的影響
腫瘤細胞比未矯正前TCGA PDAC數據集中粘蛋白基因的表達和聚類
根據 TCGA的ABSOLUTE Purity算法打分,樣本被分為腫瘤細胞占比高和低兩組。作者首先在TCGA的這兩組樣本中評估了在特定細胞類型中特異性表達的基因,包括:amylase 2A(胰腺腺泡細胞), CD45(免疫細胞), cytokeratin 19(上皮細胞),leptin(脂肪細胞),mesothelin(基質細胞)。結果表明腫瘤細胞占比高的樣本和腫瘤細胞占比低的樣本,其細胞構成比之間存在差異。
接著,作者在腫瘤細胞占比高的樣本和低的兩組樣本比較了粘蛋白家族基因的表達,結果表明粘蛋白家族基因在這兩組樣本間存在顯著差異。通過聚類分析,這些粘蛋白家族基因被分為四組,分別是MUC19,MUC1/3/12/13/17/20, MUC6/15/22和MUC2/4/5AC/5B/16/21。而根據這四組基因的表達,病人樣本被聚類為5組,作者選擇腫瘤細胞占比高的病人樣本進行生存分析,結果表明這5組病人間總生存率存在顯著差異(Wilcoxon p=0.05)。

圖1. 腫瘤細胞比未矯正前TCGA PDAC數據集中粘蛋白的表達和聚類
ICGC PDAC數據集中粘蛋白基因的表達和聚類
作者同樣在ICGA數據庫中收集到的67例PDAC樣本中評估了粘蛋白家族基因的表達,通過聚類分析,這些粘蛋白家族基因被分為四組,分別是MUC12/22,MUC4/15/16/21,MUC3A/6/19和MUC1/2/5AC/5B/13/17/20。而根據這四組基因的表達,病人樣本被聚類為5組,生存分析結果表明這5組病人間總生存率存在顯著差異(Wilcoxon p=0.02)。

圖2. ICGC PDAC數據集中粘蛋白的表達和聚類
腫瘤細胞比矯正后TCGA PDAC數據集中粘蛋白基因的表達和聚類
由于粘蛋白僅由惡性腫瘤上皮細胞表達,因此作者認為評估每個患者的粘蛋白轉錄水平時需要考慮樣本中腫瘤細胞的比例。作者將TCGA組中每個樣本歸一化后的粘蛋白家族基因表達水平除以其各自的ABSOLUTE Purity算法打分,從而矯正腫瘤細胞占比不均衡。
經過矯正后,作者重新評估了粘蛋白家族基因的表達,通過聚類分析,這些粘蛋白家族基因被分為四組,分別是MUC7/12/17,MUC1/3/13/19/20,MUC6/15/22和MUC2/4/5AC/5B/16/21,而根據這四組基因的表達,病人樣本被聚類為5組,生存分析結果表明這5組病人間總生存率存在顯著差異(Wilcoxon p=0.03)。

圖3. 腫瘤細胞比矯正后TCGA PDAC數據集中粘蛋白的表達和聚類
作者在這部分結果中,評估了腫瘤細胞比矯正前后PDAC樣本中粘蛋白基因的表達,以及其對病人生存的潛在影響,作者認為細胞構成比不同的樣本無法直接橫向比較粘蛋白基因的表達,因此作者選擇矯正后的粘蛋白家族基因表達進行下一步分析。
基于粘蛋白基因表達水平的PDAC亞型
粘蛋白家族基因的主成分分析
基于斯皮爾曼相關性,作者對PDAC樣本的粘蛋白家族基因進行主成分分析。作者首先比較了TCGA樣本未矯正數據的PCA和ICGC 樣本的PCA,在確認了這兩組數據的主成分顯著重疊后,作者在TCGA樣本矯正后的粘蛋白基因表達數據中進行主成分分析,計算出4個顯著的主成分,解釋度達70%,同時作者篩選了在PC1中載荷量絕對值大于0.5,在PC2/PC3/PC4中載荷量絕對值大于0.3的粘蛋白基因。作者進一步篩選了分別與四個PC顯著正相關的基因,并進行通路富集分析。最終結果表明,PC1的粘蛋白基因與免疫激活相關,PC2的粘蛋白基因與腫瘤進展侵襲相關,PC3的粘蛋白基因與腺泡損傷以及胰腺炎相關,而PC4的粘蛋白基因與抗炎和上皮內瘤樣病變進展相關。

圖4. 粘蛋白家族基因的主成分分析
(2)基于粘蛋白基因表達水平的PDAC亞型和生存
基于樸素貝葉斯分類算法,作者分別評估了四個主成分中的黏蛋白基因對PDAC樣本亞型的分類能力,并繪制了ROC曲線(AUC=0.9648, 0.9971, 0.8833, 0.8529)。作者進一步探究了基于黏蛋白基因表達的四種PDAC亞型之間病人的生存差異,對于每種PDAC亞型的病人樣本,取相應的黏蛋白基因表達高低排序前25%的樣本(High PC)和后25%的樣本(Low PC)比較,PC2和PC3亞型的患者高低分組之間的生存沒有顯著性差異,而PC1和PC4亞型的患者高低分組之間的生存具有顯著性差異。

圖5. 基于粘蛋白基因表達水平的PDAC亞型和生存
作者在這部分結果中,確定了基于粘蛋白基因表達水平的PDAC亞型,分別是免疫激活相關亞型,腫瘤進展侵襲相關亞型,腺泡損傷以及胰腺炎相關亞型,抗炎和上皮內瘤樣病變進展相關亞型。
PDAC病人生存相關的黏蛋白基因剪接變異體
作者評估了單個黏蛋白基因表達與PDAC病人生存的相關性,然而缺乏顯著性,因此作者進一步考慮了黏蛋白的剪接變異體與PDAC病人生存之間的相關性。作者將TCGA 組PDAC病人樣本的原始RNA-seq數據與Ensembl 94 GRCh38 cDNA參考轉錄本比對,得到黏蛋白的剪接變異體,并基于其表達高低繪制病人生存曲線。作者共發現了6個黏蛋白剪接變異體的高表達與PDAC病人更好的生存相關,6個黏蛋白剪接變異體的高表達與PDAC病人更差的生存相關。

圖6. PDAC病人生存相關的黏蛋白剪接變異體
MUC4-sv-215和MUC13-sv-203的驗證
作者選擇了與PDAC病人較差預后相關的MUC4-sv-215和較好預后相關的MUC13-sv-203這兩個剪接變異體在獨立數據集中進行驗證。為了矯正樣本的腫瘤細胞占比,作者選取了與ABSOLUTE Purity算法打分最相關的基因,分別是ESRP2(Spearman’s rho=0.6191, p<0.001),PTK6(Spearman’s rho=0.7682, p<0.001)和MAGEH1(Spearman’s rho=-0.6570, p<0.001),樣本的腫瘤細胞占比基于這三個基因的拷貝數計算,最終樣本被分為腫瘤細胞占比高樣本(n=15)和腫瘤細胞占比低樣本(n=2)。由于缺乏具體的ABSOLUTE Purity算法打分,數據無法進行歸一化,所以作者選取了腫瘤細胞占比高的樣本進行下一步的驗證。分別根據MUC4-sv-215和MUC13-sv-203的表達高低,被分為兩組的樣本總生存之間存在顯著差異(p=0.0375和p=0.1048),結果表明這兩個黏蛋白剪接變異體與PDAC病人的生存顯著相關,是有效的預后靶點。

圖7. MUC4-sv-215和MUC13-sv-203的驗證
作者發現單個黏蛋白基因表達與PDAC病人生存之間缺乏顯著的相關性,進而評估了黏蛋白剪接變異體與PDAC病人生存之間的相關性,最終確認了MUC4-sv-215和MUC13-sv-203,并成功驗證。
小編總結
近年來,黏蛋白基因在PDAC中的表達和功能的研究被提出,然而這些研究局限于單個黏蛋白基因的表達。該文章從黏蛋白家族基因出發,全面分析并挖掘了黏蛋白家族基因panels,發現了基于黏蛋白基因表達的PDAC亞型分類,并挖掘了與 PDAC病人預后相關的黏蛋白剪接變異體。同時,作者也提出了在分析PDAC轉錄組數據時,矯正由樣本腫瘤細胞比差異帶來的表達偏向性的重要性,這也是本文的創新點。然而小編認為,該文章美中不足的是,對“基于黏蛋白基因表達的PDAC亞型分類”和“與PDAC病人預后相關的黏蛋白剪接變異體”這兩塊研究內容的銜接并不明顯,以及出現少許的圖文不符等編稿錯誤??偟膩碚f,該文章對想研究癌癥粘蛋白基因的讀者來說具有啟發意義,希望大家一起學習研讀!