肺腺癌CDK2相關的免疫預測模型和ceRNA的識別及泛癌分析

本文(Identification of CDK2-Related Immune Forecast Model and ceRNA in Lung Adenocarcinoma, a Pan-Cancer Analysis)于2021年7月發表在Frontiers in Cell and Developmental Biology雜志上,影響因子6.684。
研究背景:我們的研究旨在識別肺腺癌(LUAD)中具有顯著預后價值的分子,并構建相關的Nomogram、immuno模型及ceRNA網絡。
研究方法: 應用“GEO2R”、“limma”R包對GEO和TCGA數據庫中所有差異表達mRNA進行鑒定。p<0.01,LogFC>2或<-2的基因被納入進一步分析。通過DAVID和Metascape軟件對250個重疊mRNA進行功能分析。通過UALCAN, Oncomine和R包,探索了CDK2在33種癌癥中的表達水平及其與生存的關系。采用“Survival”、“surveminer”、“rms”等R包構建年齡、性別、分期、T、M、N的Nomogram預測模型,采用單因素和多因素Cox回歸建立LUAD患者預后相關的免疫預測模型。ceRNA網絡由各種在線數據庫組成。利用GDSC數據庫探討CDK2的表達與抗腫瘤藥物IC50的相關性(圖1)。
研究流程:

研究結果
一、GSE68465數據的mRNA差異表達
根據P-value和LogFC篩選出250個差異表達的基因。在19個相鄰非LUAD組織和433個LUAD組織中,有161個mRNA高表達,78個mRNA低表達(圖2)。

圖2:GSE68465樣本的火山圖、散點圖、峰值圖
二、250個DEmRNA的GO,KEGG分析
通過Metascape軟件,找到了大量顯著富集的通路,包括免疫應答激活、細胞粘附調節、參與免疫應答的T細胞激活以及PID-HNF3B通路(圖3 A-D)。根據DEmRNA的關系,進行了幾種蛋白分析(圖3 E)。CDK2、MYB、GATA3在某些腫瘤通路中相互關聯(圖3 F)。利用DAVID分析基因的KEGG結果,發現9種mRNA參與了經典P13-AKT信號通路,如MYB、COL3A1、COL4A1、CSF1R、CDK2、ITGB7、LAMA2、TLR2、VWF。結合LUAD患者的生存,選擇CDK2作為目標分子。利用KEGG進一步識別P13-AKT信號通路中CDK2的上游分子。最后,CDKN1A可能調節下游分子CDK2影響LUAD的細胞周期進程。使用GEPIA發現,CDK2和CDKN1A之間存在正相關關系(圖3 G)。



圖3: (A)顯著富集的通路。(B) 不同通路之間的相互作用。(C,D)不同通路徑的p值。(E)根據DE mrna的關系,進行多種蛋白分析。(F) CDK2、MYB、GATA3相互關聯。(G) CDK2和CDKN1A之間存在正相關關系。
三、CDK2及其在LUAD中的預后價值的進一步研究
通過Ualcan數據庫,研究了CDK2在LUAD組織和正常組織中的表達。與59個正常組織相比,515個LUAD組織中CDK2表達較高(圖 4A)。CDK2在不同年齡層的表達水平存在差異(圖 4B)。CDK2的表達與不同的臨床特征有關,如分級、腺癌的類型、性別、吸煙、階段、TP53突變狀態及權重(圖4 C-I)。CDK2的表達與LUAD患者的生存和預后有關(圖 4J)。CDK2的表達越高,存活時間越短。通過這個數據庫,發現了CDK2相關的基因(圖4 K-L)。許多參與腫瘤經典信號通路的分子都與CDK2的表達有關。PrognoScan數據庫:用于基因預后價值的meta分析的新數據庫。進一步分析發現CDK2的表達影響了不同GSE數據集LUAD患者的OS和RFS(圖4 M-P)。



圖4 進一步研究CDK2在LUAD中的表達及預后分析(A) 515個LUAD組織中CDK2的表達高于59個正常組織。(B)不同年齡CDK2的表達水平可能存在差異(C) CDK2的表達與級別有關(D)腺癌的類型。(E)性別。(F)吸煙習慣。(G)分期。(H)TP-53突變狀態。(I)體重。(J) CDK2表達與LUAD患者的生存和預后有關。(K,L)CDK2相關基因和熱圖。(M-P)CDK2表達影響LUAD患者的OS和RFS。
四、CDK2在泛癌中的表達分析
Oncomine數據庫顯示,15個癌組織中CDK2的表達高于正常組織 (圖 5A)。腫瘤組織與正常組織有很大的不同。在TIMER數據庫中進一步發現了正常組織和腫瘤組織之間的統計學意義(圖 5B)。15篇已發表的LUAD研究的Mata分析顯示,CDK2在LUAD中表達較高(圖 5C-E)。根據CDK2在33種癌癥中的表達情況對其進行了排名(圖 5F)。



圖5 CDK2在泛癌分析中的表達。(A)通過Oncomine數據庫,CDK2的表達在15種癌癥組織中高于正常組織。(B)數據庫TIMER中CDK2的表達。(C)對15個發表的LUAD研究進行Meta分析,結果顯示在LUAD中CDK2高表達。(D, E)LUAD中CDK2的t檢驗、箱式圖圖和峰值圖(F) CDK2在33種腫瘤中的表達。
CDK2的表達在17種癌癥中有所增加(圖 6A–Q)。CDK2的不同表達水平在患者分期上有統計學意義。CDK2在第I階段和第III階段、第I階段和第IV階段、第II階段和第IV階段之間表達存在顯著差異(圖 6R–Y)。


圖6 不同腫瘤的表達及分期(A-Q) CDK2在17種腫瘤中表達較高(R-Y) CDK2的不同表達水平在患者分期上具有統計學意義。
對于不同類型的癌癥,進行了CDK2的配對樣本差異表達分析。發現14種腫瘤類型的差異均有統計學意義(圖 7A-N)。在10種癌癥中,CDK2的高表達與患者不良預后相關(圖 7O-X)。


圖7 CDK2的配對樣本表達及生存分析(A-N)對于不同類型的癌癥,進行了CDK2的配對樣本差異表達(O-X)在10種癌癥中,CDK2的表達與患者的預后有關。
五、CDK2的功能富集分析
作者比較了LUAD中CDK2高表達組和低表達組的基因表達(圖 8A、B)。以FP為橫坐標,TP為縱坐標,繪制1、3、5、8年的AUC曲線來預測患者的生存期(圖 8C)。功能分析表明,CDK2與DNA復制、細胞周期調控、細胞周期檢查點、P53信號通路有關(圖 8D-G)。GO、KEGG、Reactome的波譜圖顯示,CDK2參與了TP53活性調控、PTEN調控、細胞凋亡、P13K-AKT信號通路等經典腫瘤信號通路(圖 8H-K)。利用CIBERSORT,發現CDK2與CD4 T細胞、巨噬細胞M1正相關,與Mast細胞負相關(圖 8L)。



圖8 CDK2功能富集分析。(A, B)展示了CDK2高表達組和低表達組前50個基因的熱圖。(C)1、3、5、8年的AUC曲線預測患者的生存(D) CDK2與DNA復制、細胞周期調控、細胞周期檢查點、P53信號通路有關。(H-J) GO、KEGG、Reactome的波譜圖顯示CDK2參與了TP53活性調控、PTEN調控、細胞凋亡、P13K-AKT信號通路等經典腫瘤信號通路。(K)通路環形圖(L)CIBERSOPT算法顯示CDK2與CD4 T細胞、巨噬細胞M1 正相關,與肥大細胞呈負相關。
六、CDK2免疫細胞浸潤特征
在LUAD中,進一步研究了CDK2在不同免疫細胞類型中的表達情況。發現有14種免疫細胞與CDK2的表達密切相關,如濾泡細胞、T細胞調節性TREG細胞、巨噬細胞M0、巨噬細胞、嗜酸性粒細胞、激活的肥大細胞、巨噬細胞M1、肥大細胞、單核細胞、靜息肥大細胞、漿細胞、CD8+T細胞、中性粒細胞、CD4+T細胞(圖 9A-N)。根據CDK2表達的中位數,將LUAD患者分為高表達組和低表達組。不同組的10個免疫細胞表達有系統性差異(圖 9O-X)。



圖9 CDK2免疫細胞浸潤特征。(A-N)14種免疫細胞與CDK2表達密切相關,(O-X)在不同的CDK2表達組,免疫細胞的表達存在系統性差異。
七、免疫相關預測模型的構建
通過TISIDB數據庫,發現了CDK2相關的免疫調節劑,免疫增強劑和免疫抑制劑(圖 10A,B)。通過P值排序,鑒定了與CDK2高度相關的13種免疫抑制劑和21種免疫增強劑。在cBioProtal中,探索了與34個免疫調節劑相關的49個基因。從TCGA數據庫下載臨床數據和基因表達數據。使用“perl”和“R”包從TCGA中混合了49個基因(圖 10C)。在Metascape數據庫中,49個基因中最富集的通路是免疫系統過程,其他功能有生物粘附、生物調節、細胞增殖(圖 10D)。49個免疫相關基因的蛋白存在相互作用(PPI,圖 10E)。GSEA分析了49個基因的功能、ES、NES、NOM p-val、FDR q-val。具有統計學意義的項為PUJANA_ATM_PCC_NETWORK和INTRACELLULAR_SIGNAL_TRANSDUCTION (圖 10F)。結合臨床資料和表達矩陣,對年齡、性別、腫瘤分期進行單因素和多因素回歸分析。如預期的那樣,腫瘤分期是影響LUAD患者預后的獨立危險因素(圖 10G)。Nomogram預后預測模型結合年齡、性別、分期、T、N、M等臨床因素從而直觀地分析LUAD的預后(圖 10H)。以臨床數據為基礎,采用Nomogram模型對每個患者進行評估。單因素回歸分析顯示,有36個基因與LUAD的預后相關。CDK2是LUAD的獨立預后基因(圖 10I)。對36個基因進行多因素回歸分析,預測模型中僅包含4個基因(SIT1、SNAI3、ASB2、CDK2)。通過GEPIA數據庫,LUAD中SIT1、SNAI3、ASB2的表達較低(圖 10J-L)。為了驗證預后模型,風險曲線顯示高風險組對肺癌患者的致命性更高(圖10M)。根據不同的風險得分,將患者分為高、低風險組(圖10N,O)。ROC曲線顯示4個感興趣基因的AUC不同,CDK2在預后模型中具有更大的預測價值(圖 10P)。



圖10 構建免疫相關的預測模型。(A, B)CDK2的免疫增強劑和免疫抑制劑的熱圖。(C) 使用“perl”和“R”包對TCGA中的49個基因進行混合。(D) 49個基因最富集的通路是免疫系統過程。(E)49個免疫相關基因的蛋白質互作網絡。(F)GSEA 分析 49個基因的功能,ES, NES, NOM,p-val 和 FDRq-val。(G)森林圖顯示了LUAD的風險比和一致性指數。(H)Nomogram模型結合了年齡、性別、分期、T、N、M等臨床因素。 (I)36個顯著基因的危險比(HR)、HR95L、HR95H、p值。(J-L) 通過GEPIA數據庫,LUAD中SIT1、SNAI3、ASB2表達較低。(M)風險曲線顯示,高危組對肺癌患者的致命性更高,(N,O)高風險和低風險圖,(P) ROC曲線顯示四個感興趣基因的不同AUC。
八、LUAD中HPA分析與預測ceRNA網絡構建
免疫組化結果顯示,LUAD組織中CDK2的表達明顯高于正常肺組織(圖 11A,B)。作者從TargetScan數據庫中選擇了455個與CDK2相關的miRNA。miRWalk數據庫中發現10018個miRNA。作者探索了來自mirDB的76個miRNAs和來自Starbase的28個miRNAs。結合LUAD中差異表達的miRNAs, 7個miRNAs通過Venn map加入到網絡中(圖 11C)。這些miRNAs對LUAD患者的預后有顯著影響(圖 11D-J)。我們使用Starbase數據庫找到了可能調控7個miRNAs的lncRNA。這些編碼基因與非編碼基因通過Cytoscape軟件相互作用(圖 11L)。根據網絡的程度,使用CytoHubba篩選出前15的基因(6個lncRNAs: XIST、SNHG16、RP11-145M9.4、MAP3K14、MIR4720、RP11-379K17.11)(圖11K)。



圖11 HPA分析和ceRNA網絡。(A)正常肺組織中的免疫組化結果。(B)LUAD組織中的免疫組化結果。(C)四個數據庫的交集結果用維恩圖表示。(D-J) 7個miRNA的生存分析。(K) 6lncRNAs-7miRNAs-cCDK2被CytoHubba視為前15個基因。(L)用Cytoscape構建ceRNA網絡。
九、CDK2表達的PCR結果
與BEAS-2B細胞株相比,A549細胞株CDK2表達增加,但差異無統計學意義。H1299細胞株與H1975細胞株差異有統計學意義(圖11M)。

(M) CDK2在BEAS-2B、A549 、H1299、H1975 中的表達情況。
十、耐藥相關性分析
共有192種抗腫瘤藥物被納入研究。89種抗腫瘤藥物的IC50水平與CDK2的表達有關。根據P<0.05,篩選出相關性最高的20種抗腫瘤藥物,如喜樹堿、長春堿、順鉑、阿糖胞苷、納維托樂、伏立諾他、尼羅替尼、奧拉帕尼、阿昔替尼、AZD7762、SB216763、kul -55933、PLX4720、Wee1抑制劑、PD173074、Obatoclax 甲磺酸帕珠沙星、索拉非尼,伊立替康、BMS536924、 GSK1904529A (12A-T)。



圖12 與CDK2(A-T)相關的前20位抗腫瘤藥物。
研究結論
綜上所述,我們發現一組包括CDK2表達在內的4個基因在LUAD中具有重要的預后價值。CDK2的表達與癌癥的免疫反應高度相關。作者做了一些預測,將CDK2的表達與藥物反應和miRNA的表達聯系起來。