大家好呀!今天給大家介紹一篇發表在Briefings in Bioinformatics(IF:11.622)上的文章。作者對TFs的表達,調控,互作,突變,表型和腫瘤患者生存情況進行了系統的研究。

摘要:
轉錄因子(TFs)通過控制基因表達在調控多種生物過程中起到關鍵作用。本研究,作者對TFs的表達,調控,互作,突變,表型和腫瘤患者生存情況進行了系統的研究。作者的研究發現,正常組織中TFs的表達水平低于non-TFs,腫瘤組織中TFs的表達水平較高。特定組織或癌癥中特異表達的TFs可以作為潛在的標記基因。例如,TGIF2LX/Y在睪丸組織中特異表達,而NEUROG1,PRDM14,SRY,ZNF705A和ZNF716在生殖細胞腫瘤中特異高表達。作者發現不同TF家族中TF和靶基因共調控作用存在差異。一些小的TF家族具有蛋白質互作對,他們在轉錄調控中發揮核心作用。bZIP家族是涉及多條信號通路的TF家族。生存分析表明,大多數TFs會顯著影響一種或多種癌癥的生存情況。生存相關的TFs在相應的腫瘤中特異表達,表明他們的癌癥驅動作用。對TF家族的系統分析為進一步研究TF的調控機制和TF在疾病中的作用提供了有價值的信息。
材料與方法:
1.從AnimalTFDB3.0獲取人類TFs,共包括1665個TFs。從Human Protein Atlas獲取37類正常組織的RNA表達數據。從TCGA獲取33類癌癥的RNA表達數據。從hTFtarget數據庫獲取TF-靶基因對。從HPRD和BioGRID獲取TF-protein/TF-physical互作數據。從MalaCards,Ensembl Biomart和AnimalTFDB3.0獲取TFs的表型數據。從KEGG數據庫獲取KEGG通路數據。從GSCALite數據庫獲取生存數據,TF的SNV和CNV數據。
2.使用SEGtool做鑒定SEGs(特異過表達基因)。
3.根據TF-靶基因數據,作者分析調控同一靶基因的TFs即共表達TFs。作者將基因的TSS上游50kb定義為核心區域來預測候選共表達TFs。此外,共表達TF必須是TF和靶基因在同一組織或腫瘤中表達。
4.作者對KEGG通路和表型數據中的TFs和排名前10的TF家族進行富集分析。
5.根據表達水平的中位數,將患者分為高表達組和地表達組。根據TF是否發生突變對樣本進行分組。Cox回歸分析評估突變組樣本的風險比。KM分析兩組的OS差異。
6.作者計算不同癌癥中每個基因發生CNV的頻率。使用Pearson相關性計算CNV頻率和TF表達水平之間的相關性。
結果:
1.TF在正常組和腫瘤組織中的表達水平
作者分析了37個正常組織和33個腫瘤組織中1665個TFs的表達水平。其中分別有1641和1557個TFs至少在一個組織或一個腫瘤中表達。與non-TF相比,TF在正常組織中的表達水平較低(圖1A)。有30個腫瘤組織中的TF表達水平低于non-TF,而在KICH,LAML和TGCT組織中TF的表達水平高于non-TF(圖1B)。此外,作者隨機選擇相同數量的non-TF和TF的表達水平進行多次比較,其結果與總體比較結果類似。與癌旁組織相比,TF在7個腫瘤組織的表達水平較高而在9個腫瘤組織的表達水平較低(圖1C)。TF在腫瘤組織的表達水平顯著高于正常組織(圖1D)。這些結果表明,從正常組織到腫瘤組織TF的表達水平受到擾動,說明TF在癌變過程中發揮重要作用。

2.正常組織和腫瘤組織中特異表達的TFs
為進一步分析特異表達TFs,作者分別在正常組織和腫瘤組織中鑒定到236和476個特異表達TF(SEG-TFs)(圖2A)。正常組織中的SEG-TFs中有223個TFs特異高表達(SEG-H-TFs)和13個TFs特異低表達(SEG-L-TFs)。睪丸和大腦皮層中的SEG-TFs數量最多(圖2A)。此外,有187個TFs在單一組織中特異表達,可以作為單一組織中的標記基因。例如,有14個TFs在睪丸組織中高表達,如TGIF2LX/Y和HMGB4。一般來說,共有SEG-TF多的組織具有相似的生理功能和細胞組成。例如,十二指腸和小腸組織共有8個SEG-TFs,如ATOH1,CDX1和CDX2。
在癌癥的467個SEG-TFs中有322個在一種腫瘤組織中特異高表達,有13個SEG-TFs僅在一種腫瘤組織中表達。1665個TF根據保守的DNA結合與分為73個TF家族,每個家族的TF數量不同(圖2B)。與正常組織相比,腫瘤組織中特異表達的TF數量更高(圖2C)。例如,在ESR-like家族中有9個是腫瘤組織的SEG-TF。

3.TF調控靶基因
作者從hTFtarget數據庫中收集了2712247個TF-靶基因對,涉及56個TF家族的542個TF和19369個靶基因。因此,325個TF調控1000多個靶基因(圖3A),其中SPI1是靶基因數量最多的TF。有35個基因僅受一個TF調控,大多數是zf-C2H2,Homeobox和ETS家族成員(圖3B)。例如,有12個基因僅受zf-C2H2家族CTCF的調控。一些TF家族成員具有數百上千個TF-靶基因對(圖3C)。然而,一些TF數量較少的TF家族也有很多TF-靶基因對,例如zf-GATA和STAT家族(圖3C和3D)。此外,這些家族中不同TF的靶基因數量差異較大(圖3D)。這些結果表明同一家族的不同成員可能參與不同的功能。
4.TFs共調控
作者共發現56個TF家族參與共調控(圖3E)。CBF,NF-YA和NF-YB等家族完全參與共調控,而CSRNP-N,DACH和GCFC等家族沒有參與共調控(圖3E)。MYC和GATA1共調控數千個靶基因,已有報道表明GATA1/MYC在白血病細胞系K562中發揮作用。

5.TF-蛋白質互作
為建立TF-蛋白質互作的全基因圖譜,作者整合HPRD和BioGRID的TF-蛋白質互作對。最終共得到44729對TF-蛋白質互作對(圖4A)。TF-TF互作對和TF-蛋白質互作對類似。一些ESR-like,MH1和P53等小的TF家族有大量TF-TF互作對(圖4B)。P53家族中僅有的3個TF均與其他39個TF家族互作(圖4B和4C),表明P53家族的重要性。此外,一些TF家族與其他TF家族互作。例如MH1家族有8個TF與42個TF家族中的179個TF互作(圖4A和4C)。

6.TF和疾病
大約有8%的蛋白編碼基因是TFs,TFs與疾病表型密切相關。有1138個TFs具有表型數據,333個TFs具有KEGG通路數據。富集分析表明與癌癥中轉錄調控異常有關的轉錄因子數量最多(圖5A)。此外,TFs在其他疾病相關通路中富集,如成熟性糖尿病和調節干細胞多能型信號通路等(圖5A)。一些TF家族顯著富集于特定的疾病類型中,這可能與TF家族的SEGs和功能密切相關。因此,作者對20多個TF家族進行KEGG富集分析(圖5B)。結果表明,TF-bZIP家族中有54個TFs在多條通路中顯著富集。

7.TFs顯著影響癌癥生存情況
作者對33個腫瘤組織的TF表達水平和預后進行KM分析。結果表明,有1448個TFs至少與一種癌癥的預后顯著相關(圖6A)。其中有3個TF與11種癌癥預后有關,有125個TF僅與一種癌癥預后有關。其中KIRC和LGG生存相關的TFs數量最多。這些TFs可能在腫瘤發生和預后中發揮重要作用。結合SEG分析,作者鑒定到40個TF與癌癥預后顯著相關,可以作為癌癥的預后標志物。在大多數癌癥中,50%的TFs與預后較好有關(圖6B)。bHLH,TF-bZIP,Homeobox和zf-C2HC等TF家族幾乎在所有癌癥中均存在顯著TF(圖6C)。TGCT中僅有一個與生存相關TF(FIGLA),而NDT80/PhoG,GCFC和NCU-G1家族中沒有與生存相關的TF。此外,對排名前100個TFs進行生存分析,這些TFs影響11種癌癥的預后(圖6D)。排名前4個TFs與總生存期顯著相關(圖6E)。

8.TF突變
接下來,作者對TFs的SNV和CNV進行分析。為鑒定癌癥發展中的關鍵基因,選擇至少在一種腫瘤中突變頻率高于10%的TF進行分析,共得到80個TFs。這80個TFs在癌癥中的突變情況如圖7A所示。其中UCEC,SKCM和COAD是發生TF突變數量最高的三種癌癥。TP53是突變頻率最高的基因。TP53在UCS中的突變頻率為91.2%,OV中的突變頻率為87.7%,ESCA中的突變頻率為85.9%和READ中的突變頻率為85.6%。此外,作者進一步分析了TF突變與腫瘤生存情況的相關性。有43個TFs突變與腫瘤生存顯著相關(圖7B),其中有33個TFs為高突變TFs,70%以上的TFs與低生存率有關(圖7B)。例如,ACC中有9個TFs的突變與預后不良有關。此外,作者計算了不同癌癥中每個基因的CNV頻率并分析其與表達的相關性。相關性分析表明,60個TFs的CNVs與表達顯著相關(圖7C)。

結論:
作者全面分析了全基因組范圍內腫瘤組織和正常組織中的TFs的表達水平,特異表達情況,靶基因共調控情況,TFs與腫瘤生存情況和TFs的突變情況。本研究為研究人員理解轉錄因子如何發揮調控作用,為今后TF調控網絡的研究奠定基礎。TF的突變和生存分析表明,一些關鍵TF基因可以作為潛在的標記基因。本研究為人類轉錄調控研究提供有價值的信息。