
OncoDB: an interactive online database for analysis of gene expression and viral infection in cancer
OncoDB:一個用于分析癌癥基因表達和病毒感染的交互式在線數據庫
摘要
TCGA是家喻戶曉的腫瘤多組學數據庫,包含的信息包括了基因表達,基因突變,表觀遺傳的改變,臨床隨訪信息等等。但是,目前為止還缺乏系統整理分析腫瘤的基因表達失調和病毒感染之間的聯系,這是與病毒感染相關的腫瘤進展的一個重點研究領域。為了解決這些未被滿足的需求,作者團隊建立了OncoDB在線數據庫,用于探索與癌癥臨床特征相關的基因表達和病毒感染的聯系。接下來,我們來看看這個數據庫原文是怎么介紹這個工具的吧:
OncoDB整合了TCGA數據庫中超過10000名癌癥患者的RNA-seq、DNA甲基化和相關臨床數據,以及GTEx研究中來自正常組織的數據。通過整理TCGA RNA- seq數據,OncoDB選取6種主要的癌癥相關的病毒,進一步將病毒感染與宿主基因表達和臨床結果的變化聯系起來。所有的分析結果通過一個交互的web工具集成在OncoDB中,以搜索與mRNA表達、DNA甲基化、病毒感染和癌癥患者的臨床特征相關的數據。
引言
TCGA提供了33種腫瘤臨床病理信息的基因組和表觀基因組數據,這為腫瘤的分子機制探索,數據挖掘提供了重要的資源。然而,TCGA在統計分析或數據可視化方面目前只能依靠R語言進行分析,對大多數缺乏生物信息學技能的研究人員來說,分析TCGA數據有一定的門檻。因此,開發用戶友好的在線數據庫來分析和可視化不同類型癌癥的異常分子變化是很重要的。
基于RNA-seq數據,可以進行差異分析來識別腫瘤和正常樣本之間顯著改變的基因。也可以利用表觀遺傳學的數據,探索腫瘤進展的機制,如DNA甲基化對RNA轉錄本的異常表觀遺傳調控。例如,TP53基因的高甲基化導致了乳腺癌不受抑制的增殖以及凋亡的抑制[1]。
將轉錄組和表觀基因組數據與臨床數據相關聯,有助于識別疾病發展背后的分子機制[2]。Biomarker的探索可以用于癌癥診斷和預測癌癥的預后。許多mRNA signature已被報道用于預測癌癥患者的治療反應和生存結局[3]。除了表觀遺傳的影響,另一個影響腫瘤治療效果以及預后的主要因素是患者感染的病毒種類。人類腫瘤相關的病毒 (癌病毒) 通常被認為是癌癥發展的主要驅動因素[4]。例如,HPV E7病毒相關蛋白可以通過破壞E2F-RB復合物使腫瘤抑制因子RB失活,并可以通過泛素-蛋白酶體途徑觸發RB的降解[5]。因此,探索癌病毒相關基因表達變化的有助于理解病毒誘發癌癥的潛在機制。
目前,針對TCGA數據集,已經開發了多種癌癥基因組數據分析的在線數據庫。但到目前為止,還缺乏可以分析mRNA表達差異和DNA甲基化水平異常與腫瘤患者的臨床參數、預后的在線數據庫。此外,癌病毒與腫瘤mRNA表達之間的聯系,還沒有在線工具可以實現。為了解決這些需求,我們建立了OncoDB,一個全面的在線數據庫資源,以探索腫瘤中關鍵基因表達情況和病毒感染后基因表達的異常模式。
方法和結果
數據收集及處理
OncoDB中包含的數據集主要來自TCGA,包括來自9000多名癌癥患者的RNA-seq、DNA甲基化和臨床數據。從GDC數據門戶網站(https://portal.gdc.cancer.gov/)下載了腫瘤和匹配正常的RNA-seq數據。部分腫瘤的TCGA中正常對照樣本數量較少。為了解決這一限制,OncoDB納入了GTEx的1600多個正常樣本的RNA-seq數據[6,7]。GTEx是研究54個正常組織基因表達的公共數據庫。OncoDB開發了一個RNA-seq數據分析管道,采用了GDC推薦的標準(https: //docs.gdc.cancer.gov/)。(圖1)
第一步,腫瘤和正常的原始讀取都用STAR[8]與人類基因組對齊。比對后的reads被進一步映射到人類RefSeq數據中對應基因表達水平。另一方面,對于與人類基因組不匹配的reads,它們被進一步與RefSeq數據庫[9]和PaVE數據庫[10]中所有已知的人類病毒基因組進行了匹配,以確定每個腫瘤的病毒狀態。使用每百萬轉錄本(TPM)方法進一步標準化原始基因水平的read counts。所有TCGA和GTEx數據使用相同的生物信息學管道處理。值得注意的是,在直接比較腫瘤組織和正常的差異時,不同的組織來源的差異也會影響差異分析結果。因此,對比較結果的解讀需要謹慎。

原始DNA甲基化數據從GDC下載。基于染色體定位標識,我們將每個甲基化探針定位到人類基因組中所有已知的基因。基因區域由RefSeq注釋文件定義,而啟動子區域和轉錄起始位點來自Fantom5[11]。從GDC平面文件中提取主要臨床參數,癌癥的臨床分期、病理階段、組織學分級和性別。
OncoDB數據庫的開發
上述的所有處理過的數據,都被導入到MySQL數據庫中。用Perl編寫的服務器端腳本用于數據分析和可視化。統計結果和相關數據由Perl-CGI結合Python或R統計程序生成。OncoDB提供四個主要分析模塊,包括mRNA表達分析、DNA甲基化分析、臨床分析和癌病毒分析。在OncoDB,可以分析mRNA表達和DNA甲基化數據與腫瘤患者臨床數據的相關性。在癌病毒模塊,分析感染病毒的患者的差異基因及其與臨床數據的相關性,以確定病毒相關的關鍵基因。下面列出了四個模塊的詳細信息:
RNA基因表達
基因表達異常是腫瘤發生的主要原因之一。因此,研究腫瘤和正常樣本之間的差異表達基因有助于推斷癌癥驅動基因或潛在的治療靶點。此外,進行基因間的相關性分析有助于識別基因調控網絡中的功能基因相互作用。在RNA表達分析模塊中,實現了三個主要功能,以實現統計分析和結果可視化,包括差異基因表達分析、基因共表達相關性分析。計算腫瘤和正常兩組間的Log 2FC變化值,以確定一個基因在腫瘤樣本中是上調還是下調。差異表達分析采用Student‘s t-檢驗。采用Pearson相關分析評價兩個基因之間的相關性。
網頁界面來搜索用戶指定基因在一種或多種癌癥類型中的表達譜,可視化為箱線圖(圖2A),并展示統計結果。此外,對于指定的癌癥,OncoDB可以計算差異最顯著的基因。除了比較腫瘤和正常樣本之間基因表達差異外,用戶還可以對任意選擇的癌癥類型進行兩個感興趣基因之間的相關性分析。將兩個輸入基因的Pearson相關分析結果可視化為散點圖 (圖2B)。

甲基化分析
表觀遺傳異常導致mRNA表達異常,并在癌癥發展中起著協同的作用。為此,甲基化分析模塊有兩個功能,包括關鍵基因的篩選和腫瘤之間甲基化分析。通過腫瘤樣本和配對正常組織樣本進行比較,以確定甲基化模式的差異。對于用戶指定的基因,差異甲基化分析可以確定改變的基因區域(包括啟動子和基因本體)。可視化以折線圖展示了腫瘤或正常樣本的基因結構(包括啟動子、外顯子和內含子)中每個探針的平均甲基化水平(如圖2C所示)。此外,探針的分析結果也呈現在一個表格中,顯示具有統計學意義的探針。基因甲基化存在差異是通過比較每個基因在腫瘤和正常樣本之間的平均探針強度來確定。
臨床分析
臨床分析模塊支持臨床數據和基因或者基因甲基化水平之間的相關性分析。OncoDB數據庫收錄各個腫瘤患者的臨床數據,包括各種臨床參數、生存時間和結果狀態,并可以分析與單個基因的相關性。臨床參數包括了TMN分期和年齡、飲酒、性別、組織學、吸煙、BMI、家族史和種族等。當用戶指定一個基因進行分析時,可繪制mRNA差異表達的箱線圖或DNA甲基化數據的折線圖(如圖2D)。
生存分析Kaplan-Meier (KM),呈現用戶指定基因在特定癌癥類型中的KM曲線。根據RNA表達或DNA甲基化的水平,所選定的癌癥病例都可用戶定義的截斷百分比分為高組或低組。此外,還提供了統計數據,包括log-rank檢驗的p值,Cox比例回歸分析的風險比HR。如果所選擇的基因與多個臨床參數有顯著的相關性,也將提供一個表格來總結統計分析結果。
腫瘤病毒分析
感染病毒也是引起腫瘤的原因之一,可導致不同基因調控水平的異常變化,如mRNA表達和DNA甲基化。因此,對病毒陽性和病毒陰性腫瘤的差異基因分析,甲基化分析的研究可以幫助我們確定人類轉錄組中的病毒靶點,為病毒有關的腫瘤提供更多機制上的信息。在OncoDB中,每個腫瘤樣本的病毒狀態通過分析管道確定(圖1),然后用于根據用戶指定的癌癥類型對患者病例進行分組。通過這種方式,可以進行mRNA差異表達或DNA甲基化分析,以確定與病毒感染相關的變化。
在癌病毒分析模塊中,可以評估在癌癥中用戶指定的基因的與某種病毒的潛在相關性。基因的差異表達分析用箱線圖,甲基化分析用折線圖顯示,以直觀地比較病毒陽性組和病毒陰性組(圖3A、B)。
感染病毒與對照組的差異基因分析可以得出與病毒狀態相關的基因,并展示在表格中。指定某個腫瘤的分析可以用來識別與特定病毒和腫瘤相關的所有差異基因,有詳細的表格統計分析結果。
腫瘤病毒分析模塊還可以分析臨床數據與各種病毒相關基因的相關性。例如,用戶可以進行患者生存分析,分別評估病毒陽性組或病毒陰性組中某個基因的預后意義,并繪制KM曲線圖。圖3C顯示了HPV陽性宮頸癌中基于CDKN2A基因表達分析示例圖。圖3D顯示了宮頸癌中按HPV狀態分組的生存圖。用戶還可以通過指定病毒和癌癥的類型以及感興趣的臨床參數,對基因進行病毒和臨床參數聯合分析。最后,用戶可以得到特定病毒病人群體的癌病毒基因表達,從而將病毒基因譜與腫瘤病人的臨床參數關聯起來。

結論
OncoDB是一個全面分析TCGA數據的在線工具。OncoDB的獨特的癌病毒分析模塊整合了病毒感染狀態與癌癥基因組和臨床數據。這一模塊為腫瘤病毒在癌癥發展和進展中的作用提供了更多的信息。
小編有話說
腫瘤與病毒,我們能想到的是HPV與宮頸癌,HBV與消化道的腫瘤,這樣的主題,結合一些免疫,自噬,鐵死亡再進行挖掘,不是很美妙嗎?
1. Ghavifekr Fakhr M, Rezaie Kahkhaie K, Shanehbandi D, et al. Scrophularia Atropatana Extract Reverses TP53 Gene Promoter Hypermethylation and Decreases Survivin Antiapoptotic Gene Expression in Breast Cancer Cells. Asian Pacific journal of cancer prevention : APJCP. 2018;199:2599-2605.
2. Liu J, Lichtenberg T, Hoadley KA, et al. An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics. Cell. 2018;1732:400-416.e411.
3. Kamel HFM, Al-Amodi HSAB. Exploitation of Gene Expression and Cancer Biomarkers in Paving the Path to Era of Personalized Medicine. Genomics, Proteomics & Bioinformatics. 2017;154:220-235.
4. Masucci MG, Rickinson AB. Emerging topics in human tumor virology. Seminars in Cancer Biology. 2014;26:1-3.
5. zur Hausen H. Papillomaviruses and cancer: from basic studies to clinical application. Nature Reviews Cancer. 2002;25:342-350.
6. Lonsdale J, Thomas J, Salvatore M, et al. The Genotype-Tissue Expression (GTEx) project. Nat Genet. 2013;456:580-585.
7. Human genomics. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans. Science (New York, NY). 2015;3486235:648-660.
8. Dobin A, Davis CA, Schlesinger F, et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013;291:15-21.
9. Dobay MP, Dobay A. NCBI Viral Genomes Resources. In: Dubitzky W, Wolkenhauer O, Cho K-H, Yokota H, eds. Encyclopedia of Systems Biology. New York, NY: Springer New York; 2013:1502-1504.
10. Van Doorslaer K, Li Z, Xirasagar S, et al. The Papillomavirus Episteme: a major update to the papillomavirus sequence database. Nucleic Acids Res. 2017;45D1:D499-d506.
11. Lizio M, Harshbarger J, Shimoji H, et al. Gateways to the FANTOM5 promoter level mammalian expression atlas. Genome Biology. 2015;161:22.