今天跟大家分享的是今年11月底發(fā)表在Genomics(IF: 5.736)上的一篇文章,主要是對I期、II期和III期胃癌和正常組織進(jìn)行轉(zhuǎn)錄組測序,識別胃癌分期特異性的差異表達(dá)基因(DEGs)、單核苷酸多態(tài)性(SNPs)和轉(zhuǎn)錄因子(TFs)。并基于分期特異性的標(biāo)志基因,構(gòu)建包含DEGs和TFs的相互作用網(wǎng)絡(luò)。
本文是一篇比較套路的生物信息學(xué)文章,小編也猶豫很久到底要不要分析,最終還是決定分享給大家。分享不是為了讓大家借鑒學(xué)習(xí),更多的還是想給大家避雷,希望大家都能夠避免這種套路重復(fù)的工作,找到自己的創(chuàng)新點(diǎn)。
Identifcation of stage-specifc differentially expressed genes and SNPs in gastric cancer employing RNA-Seq based transcriptome profling
基于轉(zhuǎn)錄組測序識別胃癌分期特異的差異表達(dá)基因和SNPs
1.RNA測序
研究者從當(dāng)?shù)蒯t(yī)院共收集到2例I期、2例II期和2例III期胃癌腫瘤組織及其相應(yīng)的遠(yuǎn)端正常組織樣本,并對其進(jìn)行RNA測序分析,序列比對等,最終獲取其轉(zhuǎn)錄組,SNPs等信息。
2. 識別差異表達(dá)基因
首先,基于FPKM的基因表達(dá)值識別胃癌不同分期腫瘤和正常組織對之間的DEGs。共檢測到差異表達(dá)基因2207個(gè),其中上調(diào)基因972個(gè),下調(diào)基因1235個(gè)。其中,在I期有326個(gè)上調(diào)基因,621個(gè)下調(diào)基因;在II期有381個(gè)上調(diào)基因,425個(gè)下調(diào)基因;在III期有265個(gè)上調(diào)基因,189個(gè)下調(diào)基因。不同分期的特異性基因有一定程度的交疊,其中I期和II期共有106個(gè)交疊基因,41個(gè)基因在II期和III期之間交疊,58個(gè)基因在I期和III期之間交疊。DPT、CYP2C9、HRASLS2等基因在胃癌的三個(gè)階段均發(fā)生差異表達(dá)(圖1A)。差異表達(dá)基因在人類各染色體上的頻率分布如圖1B所示。結(jié)果表明,在1號和2號染色體上發(fā)生差異表達(dá)的基因最多,在13、18和21號染色體上識別到的DEGs數(shù)量相對較少。

圖1. 差異表達(dá)基因的分布
3. 基因的功能富集分析
分別對不同分期上下調(diào)的基因進(jìn)行GO和KEGG富集分析,可以富集到免疫,代謝等與癌癥相關(guān)的多個(gè)通路。
4. 基于DEGs的蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)
基于STRING數(shù)據(jù)庫分別預(yù)測各腫瘤分期差異表達(dá)基因在蛋白水平上的潛在相互作用,并基于Cytoscape中的MCODE算法識別網(wǎng)絡(luò)中的密集連接區(qū)域(圖2)。KEGG通路富集分析顯示,I期中的基因簇主要包括細(xì)胞周期、DNA復(fù)制等相關(guān)生物學(xué)過程的基因;II期中的基因簇主要由剪接體和氧化磷酸化相關(guān)基因組成; III期中趨化因子信號通路和VEGF信號通路顯著富集。

圖2. 基于DEGs的蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)
5. 轉(zhuǎn)錄因子篩選及網(wǎng)絡(luò)分析
在I、II、III期的患者中共鑒定出39個(gè)發(fā)生差異表達(dá)的轉(zhuǎn)錄因子。在I期有14個(gè)差異表達(dá)的轉(zhuǎn)錄因子(7個(gè)上調(diào),7個(gè)下調(diào)),在II期有16個(gè)轉(zhuǎn)錄因子(9個(gè)上調(diào),7個(gè)下調(diào)),在III期有10個(gè)轉(zhuǎn)錄因子(4個(gè)上調(diào),6個(gè)下調(diào))。研究者進(jìn)一步構(gòu)建三個(gè)階段患者中轉(zhuǎn)錄因子及其下游基因的相互作用網(wǎng)絡(luò)(圖3)。


圖3. 轉(zhuǎn)錄因子及其靶基因之間的相互作用網(wǎng)絡(luò)
6.不同分期胃癌患者的SNP分析
基于對人類染色體上不同胃癌分期患者基因的SNP信息進(jìn)行分析,研究者發(fā)現(xiàn) SNP分布在23條染色體上,其中主要在19號,17號和22號染色體上富集,在X染色體上4號等染色體上的SNP數(shù)量最少。
通過GATK分析預(yù)測SNP基因,并進(jìn)行KEGG富集分析,發(fā)現(xiàn)其顯著富集到凋亡、MAPK等癌相關(guān)信號通路。
為進(jìn)一步了解SNP基因的功能,研究者還進(jìn)行GO富集分析,可以顯著富集到免疫系統(tǒng),細(xì)胞周期等相關(guān)生物學(xué)過程(圖4)。

圖4.SNP基因的功能富集分析
今天的內(nèi)容就是這些,內(nèi)容很套路,很流程,簡單來說就是三步,識別差異,構(gòu)建網(wǎng)絡(luò)和富集分析。舊瓶裝新酒可以,舊瓶裝舊酒就大可不必啦。希望大家都能認(rèn)真思考,找到自己工作的創(chuàng)新點(diǎn)哦~
參考文獻(xiàn):
Identifcation of stage-specifc differentially expressed genes and SNPs in gastric cancer employing RNA-Seq based transcriptome profling