今天要給大家介紹一篇2021年8月份發表自Frontiers in Oncology(IF: 6.244)文章,在該研究中,作者確定了CLM潛在生物標志物,它們將為早期診斷和預后提供潛在價值,并促進CRC和CLM的分子靶向治療。
Identification of Candidate Biomarkers and Prognostic Analysis
in Colorectal Cancer Liver Metastases
文章背景
結直腸癌(CRC)是全球最常見的惡性腫瘤之一。據全球癌癥統計,2020年報告的新發CRC病例超過190萬例,死亡93.5萬人,約占癌癥病例和死亡人數的十分之一。總體而言,CRC的發病率在全球排名第三,死亡率排名第二。結直腸癌肝轉移(CLM)是造成這種高死亡率的主要原因之一,發生在30%的CRC患者中,占相關死亡人數的三分之二。此外,超過50%CLM患者在切除術后2年內復發。
大量臨床數據表明,肝臟是結直腸癌轉移最常見的靶器官。迄今為止,該病進展過程中肝轉移形成和進展的相關機制已被廣泛研究,但其發病機制尚未完全闡明。事實上,CLM的發生和發展涉及多種功能信號通路中的無數表觀遺傳和遺傳變化。這些不同的網絡容易受到遺傳和表觀遺傳事件的調控,導致基因表達的多樣性。因此,需要利用生物信息學方法,從而篩選出合適的生物標志物并指導臨床全身預防、診斷和治療方案的選擇。
文章結果
差異基因的篩選和鑒定
作者從GEO數據庫(GSE6988、GSE14297和GSE81558數據集)中篩選了來自CRC和CLM組織樣本的微陣列數據集。其中,GSE6988基于GPL4811平臺,于2008年2月1日發表。來自這個人類CLM標記的全基因組數據集,包括123個樣本,其中包含25個正常結直腸粘膜、27個原發性CRC、13個正常肝組織和27個肝轉移,以及20個沒有肝轉移的原發性CRC組織,作者從26對有轉移性肝組織的原發性CRC中選擇了樣本數據。GSE14297基于GPL6370平臺,于2009年1月13日發表。來自這個原發性CRC和相關肝轉移表達譜數據集,共包含48個樣本,包括18個初級CRC,18個肝轉移、7個正常結直腸粘膜組織和5個正常肝組織,作者從18對CRC和肝轉移組織中選擇數據。GSE81558基于GPL15207平臺,于2017年6月12日發布。該CRC患者肝轉移數據集共51個樣本,包括23個原發性CRC,19個肝轉移和九個正常結腸黏膜組織,作者選擇了19對CRC原發癌和肝轉移組織樣本數據。然后,作者使用GEO2R對原始數據進行預處理和過濾,以p<0.05和[log FC]>1作為篩選標準,最終分別從這三個表達譜數據集中提取了315、233和117個差異(圖 1A-C)。使用FUNRICH軟件,作者從這三個基因組數據集中鑒定了35個一致的DEG(圖2A),包括4個下調和31個上調的基因(圖2B、C)。此外,R軟件(版本3.6.3)用于執行聚類分析并繪制熱圖以顯示來自三個數據集的35 DEG的表達(圖1D-F)。
為了確認從GEO數據集中識別的DEG的可靠性,作者還分析了來自GEO數據庫的GSE49355數據集以進行驗證(圖2D、E)。根據使用FUNRICH軟件的VENN圖結果,在本研究中鑒定的35個DEG中有30個在GSE49355數據集中顯著過表達。此外,GSE49355數據集中的四個基因也顯著下調,只有1個上調基因不存在于基因列表中(圖2F)。上調和下調基因的表達模式相似度為97.14%,表明本研究鑒定的候選基因是可靠的。

圖1

圖2
GO富集分析和信號通路富集分析
GO 富集分析
來自注釋、可視化和集成發現數據庫(DAVID)的GO分析表明,在生物過程中(圖3A),DEGs在許多過程中富集,例如急性炎癥、翻譯后蛋白質修飾、血小板脫粒、調節凝血和纖溶系統以及調節蛋白質激活級聯反應。對于分子功能(圖3B),DEGs主要富集在調節絲氨酸內肽酶抑制劑和水解酶活性、肽酶調節劑活性、糖胺聚糖結合、肝素和膠原結合等過程中。在細胞成分(圖3C)中,DEGs主要富集在介導細胞外空間、細胞外區域、內質網、內膜系統、血小板α-顆粒和細胞質囊泡的過程中。
這些結果表明,DEGs主要富集在細胞外區、內質網和血小板α顆粒中,主要參與炎癥、血小板脫顆粒、肽酶調節、蛋白質代謝以及凝血和纖溶系統的調節。
信號通路富集分析
分析結果表明,候選DEG具有共同的信號轉導途徑和反應過程(圖3D),主要富集在補體凝血級聯、藥物代謝(即代謝酶,如細胞色素P450)和類固醇激素合成中的那些。作者還發現這些DEG在以下途徑中發揮作用:化學致癌作用、異生素代謝通過細胞色素P450、亞油酸代謝、調節胰島素樣生長因子(IGF)轉運和攝取的胰島素樣生長因子結合蛋白(IGFBP)、翻譯后蛋白磷酸化、血小板脫顆粒、激活、聚集和其他信號通路.其中,補體凝血級聯、血小板活化、脫顆粒和聚集、IGFBP-IGF信號和藥物代謝是關鍵的信號轉導途徑。

圖3
PPI 網絡篩選和富集分析
關鍵基因的篩選與模塊化分析
作者使用STRING數據庫將35個DEG過濾成包含35個節點和189條邊的PPI網絡(圖4A),平均節點度為10.8,平均局部聚類系數為0.66,PPI濃度p值小于1e-16。其中,35個DEG中有4個(AADAC、FOXF1、CTSK和VNN1)不屬于PPI網絡;因此,作者最終篩選了31個DEG為關鍵基因的。同時,利用k-means聚類分析,將35個DEGs分為三類,選出26個關鍵基因。然后,作者使用CYTOSCAPE去除無節點基因,并根據節點之間的交互和表達制作PPI網絡圖(圖4B、C)。在CYTOSCAPE中使用MCODE模塊分析,篩選出18個候選基因(圖4D-H)。
基于使用STRING數據庫的PPI網絡分析,作者將26個關鍵DEG分為兩個模塊。模塊1主要調節IGFBP-IGF信號通路,而模塊2包括屬于補體凝血級聯。具體而言,模塊1包括基因IGFBP1、SPARCL1、CDH2、ITIH2、F5、APOA2、TF、CP、FGA、SERPINC1、F2和PLG。模塊2包括基因C4BPA、F5、FGA、SERPINC1、F2、PLG、SERPINA5和VTN。F5、FGA、SERPINC1、F2和PLG同時參與這兩種途徑。此外,FMO3、CYP2E1、CYP3A4和UGT2B4在藥物代謝-細胞色素P450信號通路中富集。根據三個功能團的分析,26個DEG在細胞外區富集,7個DEG在血小板α顆粒中富集,18個DEG在內質網富集。

圖4
基因集富集分析(GSEA)
作者使用GSE6988基因集進行富集分析。從GSE6988數據集中共篩選出9587個有效基因,基因組大小過濾標準設置為“最小等于15,最大等于500”。總共去除了8722個基因集,剩余的17002個基因集用于富集分析。根據分析結果,在CLM表型中,有6014個基因集上調;FDR<25%條件下,970個基因集顯著富集;在p<0.01條件下,440個基因集顯著富集;在p<0.05的條件下,945個基因集顯著富集。在CRC表型中,10988個基因組被上調;17個基因在FDR<25%條件下富集;在p<0.01條件下,219個基因集顯著富集;在p<0.05條件下,898個基因集顯著富集。本研究以“|NES|>1, NOM p-val<0.05, and FDR q-val<0.25”作為顯著通路富集的標準,并且從CLM組和CRC組中選擇了富集評分最高的20個基因集(圖 5)。結果表明,以血小板為中心的血細胞和內皮細胞的活化(導致細胞運動、分泌、酶產生的改變)、Ca2+代謝和內吞作用(圖5D)、炎癥和血管通透性破壞在CLM組中富集。此外,GSEA基因序列中前100個基因中有14個屬于先前篩選的18個DEG。

圖5
表達分析
作者使用ONCOMINE(圖6)、GEPIA2和UALCAN數據庫分析了18個候選基因在癌組織和鄰近正常組織中的表達情況。結果顯示SPARCL1、CDH2、CP、HP、TF和SERPINA5在癌組織中均顯著下調(p<0.05;圖7A-F)。此外,CDH2、SPARCL1和TF在CRC的病理階段顯著差異表達(p<0.05;圖7G-L)。此外,SPARCL1、CP和TF的表達式IV期結腸癌和正常之間存在顯著差異(p<0.05;圖8A-F),而SPARCL1、CDH2、CP和SERPINA5在直腸腺癌和正常組織之間存在顯著差異(圖8G-L)。

圖6

圖7

圖8
預后分析和相關分析
最后總共有六個基因被鑒定為候選生物標志物。生存曲線分析結果表明,有兩個DEGs(CDH2和SPARCL1)被認為是預后因素(p<0.05)。此外,發現CDH2和SPARCL1表達水平與預后顯著相關。同時,基于結合對數秩p檢驗的Kaplan-Meier曲線,CDH2與CRC的總生存期(OS;p<0.01)和無病生存期(DFS;p<0.01)明顯相關(圖9,圖10A-D)。此外,觀察到CDH2和SPARCL1的表達之間有很強的相關性(圖10E-H)。

圖9

圖10
為了揭示使用TCGA數據庫識別的關鍵基因是否在其他CRC病例中表現出相同的預后價值,作者使用GSE17538數據集和GSE50760作為驗證集。HPX、CDH2、VTN、IGFBP1、CP、HP、ORM2、APOA2、TF、HRG、PLG、SERPINA5、ITIH2、SERPINC1、FGA、F2和GC在CLM樣品中上調。同時,SPARCL1、ORM2、IGFBP1、FGA、APOA2和VTN顯著差異表達(校正p值<0.01)。此外,CDH2和SPARCL1與CRC的不良預后相關,表明兩者都可能代表CRC不良預后的潛在遺傳生物標志物,并可能為未來的CRC治療提供潛在價值。(圖11)。
作者還觀察到CDH2、CP、HP、TF和SERPINA5在肝轉移癌組織中上調,在原發癌組織中下調;而SPARCL1表現出相反的表達模式。此外,與CRC組織相比,SPARCL1、CDH2、CP、HP、TF和SERPINA5在正常結直腸組織中的表達相對較高。此外,與肝轉移癌組織相比,CP、HP、TF和SERPINA5在正常肝組織中表達上調,而CDH2和SPARCL1的表達在兩種組織間無顯著差異。因此,在觀察到的組織中,SPARCL1在正常結直腸組織中表達最高,CDH2在正常肝組織和肝轉移癌組織中表達最高,而CP、HP、TF和SERPINA5在正常肝中表達最高。

圖11
遺傳改變和共表達分析
作者使用TCGA的Pan Cancer Atlas對六個關鍵基因(CDH2、SPARCL1、CP、HP、TF和SERPINA5)的分子特征進行了綜合分析。結果表明,CDH2、SPARCL1、CP、HP、TF和SERPINA5分別在16%、7%、10%、6%、8%、8%的CRC樣本中發生了突變。此外,6個關鍵基因在213個(36%)樣本中發生了改變。mRNA表達增強是這些樣品中最常見的變化。作者接下來探索了這些樞紐基因的潛在共表達,發現CDH2、SPARCL1、CP、HP、TF和SERPINA5的表達表現出顯著的相關性,在CDH2和SPARCL1之間觀察到的關聯最強(圖12)。

圖12
使用臨床組織樣本進行預后基因驗證
為了進一步證實具有預后價值的hub基因的預后價值,作者使用免疫組織化學(IHC)染色檢測正常組織和腫瘤組織中CDH2和SPARCL1的蛋白表達。結果表明,與正常組織相比,CDH2和SPARCL1在原發性結直腸癌組織中顯著低表達。同時,SPARCL1在正常結直腸組織中相對高表達,CDH2在正常肝組織中高表達(圖13),與作者的研究結論一致。

圖13
文章小結
總之,補體凝血級聯和IGFBP-IGF通路可能是CLM的關鍵信號通路。作者發現HPX、SPARCL1、CDH2、VTN、IGFBP1、CP、HP、ORM2、APOA2、TF、HRG、PLG、SERPINA5、ITIH2、SERPINC1、FGA、F2和GC是關鍵基因,SPARCL1、CDH2、CP、 HP、TF和SERPINA5發揮著核心作用。 此外,CDH2和SPARCL1與CRC的預后顯著相關。識別這些候選基因并針對這些特定途徑可能更準確地診斷、預防和治療CRC和CLM。
該文章所用的方法簡單,利用數據庫分析,全程無代碼且分析思路清晰,看了這篇文,對于想要研究腫瘤相關的生物信息學的人,你還不行動起來嘛!