DNA甲基化作為表觀遺傳的一種方式,也為疾病的診斷和治療提供了新的途徑。而DiseaseMeth是一個專注于人類疾病的綜合性甲基化數(shù)據(jù)庫,其涵蓋了人類DNA甲基化疾病數(shù)據(jù)和來自公開數(shù)據(jù)集的原始數(shù)據(jù)。該數(shù)據(jù)庫由哈爾濱工業(yè)大學(xué)生命科學(xué)與技術(shù)學(xué)院的張巖教授課題組開發(fā)并維護,并于2012年在《NAR》首次發(fā)布。為了提供更加全面的疾病甲基化信息,張巖教授課題組對數(shù)據(jù)庫進行更新,發(fā)布了全新的人類疾病甲基化數(shù)據(jù)庫DiseaseMeth version3.0(http://diseasemeth.edbc.org/)。
自2012年DiseaseMeth數(shù)據(jù)庫創(chuàng)建以來,其一直致力于發(fā)現(xiàn)疾病中的關(guān)鍵DNA甲基化標(biāo)記。期間開發(fā)人員對數(shù)據(jù)庫進行過一次更新,將其升級到DiseaseMeth2.0版本。自更新以來,隨著DNA甲基化微陣列和高通量測序的成本不斷下降,有關(guān)甲基化數(shù)據(jù)的數(shù)量也在與日俱增。因此,基于甲基化數(shù)據(jù)量的大幅增加,開發(fā)者們也針對DiseaseMeth數(shù)據(jù)庫進行了第三次更新并發(fā)布了DiseaseMeth3.0版本。
本次數(shù)據(jù)庫的更新是對DiseaseMeth的一次重要擴充。在數(shù)據(jù)方面,不僅整合了包括TCGA、GEO等公共數(shù)據(jù)庫的高通量疾病甲基化大數(shù)據(jù),而且通過人工方式從PubMed網(wǎng)站上搜集整理了有關(guān)文獻的甲基化數(shù)據(jù)。相較于2.0版本,本次版本所記錄的人類疾病從88種增加到162種,收集的樣本總數(shù)從32701例增加到49949例甲基化譜樣本數(shù)。除數(shù)據(jù)更新外,開發(fā)者們對所收集的患者臨床數(shù)據(jù)進行了詳細(xì)分析,探討了DNA甲基化對患者預(yù)后的影響。同時升級了疾病甲基化譜可視化瀏覽器DisMethBrowser使其更加快速穩(wěn)定,還建立起了標(biāo)準(zhǔn)化的DNA甲基化數(shù)據(jù)分析流程,用于確定疾病中差異甲基化的基因,此外提供了新工具用于注釋差異甲基化基因的生物學(xué)過程和途徑、確定DNA甲基化介導(dǎo)的疾病關(guān)聯(lián)網(wǎng)絡(luò)WDAN和基因的癌癥預(yù)后分析與共甲基化模塊確定。

數(shù)據(jù)庫的主頁如上圖所示,在數(shù)據(jù)庫的主頁上有檢索(Search)、分析(Analysis)、疾病甲基化瀏覽器(DisMethBrowser)、工具(Tools)和數(shù)據(jù)下載(Download)五個板塊。可以看到整個頁面設(shè)置的簡潔明了,便于廣大用戶操作。接下來我們就來圍繞它們進行展開介紹:
1. Search板塊
檢索方式一共有四種,基因檢索(Gene Search)、疾病檢索(Disease Search)、功能檢索(Function Search)、高級檢索(Advance Search)。

在基因檢索上,我們可以輸入基因符號(基因名稱/轉(zhuǎn)錄本ID)或基因組位置,以獲得數(shù)據(jù)庫疾病樣本中該特定基因的甲基化水平。輸出將顯示為表格和熱圖?;虻?DNA 甲基化水平由熱圖表示,它可以顯示所有包含的疾病中特定基因的 DNA 甲基化水平的差異。
我們以MGMT基因為例,進行檢索,如圖所示,可根據(jù)基因symbol或基因所在位置進行檢索,確定我們所想要查找的信息,這邊我們選擇“all”。點擊“search”就可顯示出結(jié)果,這里以表格的形式列出了MGMT在不同疾病中的甲基化水平及差異信息,同時選中相關(guān)疾病便點擊“analysis”可進入分析工具欄中,頁面往下可以看到MGMT在不同疾病中的甲基化譜。


在疾病檢索中所選中的疾病與對應(yīng)差異甲基化基因(DMG)的DNA甲基化水平可以通過熱圖展示。在該功能中,可以具體檢索包含癌癥在內(nèi)的不同疾病與感興趣基因甲基化之間的聯(lián)系。
功能檢索為本次版本更新所新開發(fā)的功能,其基于GO和KEGG對DMG的生物學(xué)過程和途徑進行了注釋。所有DMG的功能富集信息都在DiseaseMeth 3.0版本中進行了本地化,我們只要輸入感興趣的疾病,就會立即顯示功能豐富的結(jié)果。此外,包括基因符號、GO 術(shù)語和通路 ID 在內(nèi)的其他查詢參數(shù)可用作更精確的查詢要求。
高級檢索則可以進行更具體的查詢。通過輸入一個或多個符合條件的條目,即基因名稱/轉(zhuǎn)錄本ID、基因組位置、疾病類型和技術(shù),幫助用戶快速獲取所需數(shù)據(jù)集。
2. Analysis板塊
該模塊能夠進行不同基因在不同癌癥中的甲基化水平分析,功能界面如下。

開發(fā)者建立了統(tǒng)一的、標(biāo)準(zhǔn)化的流程來分析DNA甲基化數(shù)據(jù)。根據(jù)數(shù)據(jù)的不同來源,主要分為兩種流程:
第一種是針對來自微陣列技術(shù)的Illumina Infinium HumanMethylation27 BeadChip,450 BeadChip和850 BeadChip數(shù)據(jù),分析流程如下:
(1)從公共數(shù)據(jù)庫下載原始數(shù)據(jù)和參考平臺數(shù)據(jù)。
(2)將DNA甲基化水平統(tǒng)一表示為一個值。
(3) 使用R包sva集成來自不同批次或不同數(shù)據(jù)庫的DNA甲基化數(shù)據(jù),以消除批次效應(yīng)。
(4)使用KNN算法填充缺失值,確保使用具有豐富甲基化水平的高質(zhì)量探針,通過差異分析確保更準(zhǔn)確的結(jié)果。
(5) 使用R包ChAMP和minfi分析和識別DNA甲基化差異位點和區(qū)域。鑒別標(biāo)準(zhǔn)是兩組樣本的均值差大于0.2,校正后P值<0.05。
(6)保留位于啟動子區(qū)域(TSS1500、5 UTR、1st Exon和TSS200)的差異甲基化位點的交叉點。
(7)定義每個基因?qū)?yīng)的所有啟動子區(qū)域的探針甲基化水平的平均值作為其甲基化水平。
第二種是針對DNA甲基化測序數(shù)據(jù),包括全基因組甲基化測序技術(shù)(Whole Genome Bisulfite Sequencing,WGBS)和簡并代表性亞硫酸氫鹽測序技術(shù)(Reduced representation bisulfite sequencing, RRBS) ,數(shù)據(jù)分析流程如下:
(1)下載相應(yīng)子序列平臺的原始測序數(shù)據(jù)。
(2)使用Bismark軟件將亞硫酸氫鹽處理的測序讀數(shù)映射到 Genome Reference Consortium Human Build 38 (GRCh38) 并提取甲基化值。
(3)使用SMART2挖掘疾病和對照樣本之間的差異 DNA 甲基化區(qū)域。
(4)保留了位于啟動子區(qū)域(TSS1500、5'UTR、1st Exon和TSS200)中的差異甲基化區(qū)域的交叉點。
(5)用差異甲基化區(qū)域的平均值計算基因的DNA甲基化水平。
基于以上兩種分析流程,開發(fā)者在該部分進行了不同基因在不同疾病中的甲基化水平分析。我們可以在Disease選項選擇一個或多個感興趣的疾??;輸入基因名稱/轉(zhuǎn)錄本ID /基因組位置用于設(shè)置感興趣的基因組區(qū)域;選擇檢測數(shù)據(jù)的技術(shù)方法進行分析。該數(shù)據(jù)庫提供4種檢驗方法,包括t檢驗,minfi,samr和edgeR,確定好有關(guān)閾值便可進行分析。開發(fā)者總共從所收集的所有數(shù)據(jù)中鑒定了 99 種疾病中具有顯著差異 DNA 甲基化的 22718 個基因。
分析的結(jié)果以表格的形式展示了基因在各種疾病中的DNA甲基化水平差異,并對兩組樣本之間DNA甲基化水平進行了可視化。結(jié)果表中的主要結(jié)果包括探針I(yè)D、顯著性P值和校正后P值,以及非常重要的結(jié)果。當(dāng)我們選擇多種疾病時,可以獲取疾到病間常見差異基因的DNA甲基化相關(guān)性以及疾病間的相關(guān)性。
3. DisMethBrowser板塊
如下圖所示,左側(cè)以DMxxx開頭的是樣本,水平的(淡)紅線表示甲基化水平為1??梢酝ㄟ^底下“Add Samples”添加樣本或者對單個樣本進行展示、移除、隱藏等操作。

4. Tools板塊
該功能包含本DiseaseMeth3.0兩個獨立開發(fā)的新工具:甲基化疾病相關(guān)性(Methylation Disease Correlation)和癌癥預(yù)后與共甲基化(Cancer Prognosis & Co-Methylation)。
研究發(fā)現(xiàn),不同組織中的疾病可能表現(xiàn)出相似的整體DNA甲基化模式。因此開發(fā)者們開發(fā)了一種跨疾病的網(wǎng)絡(luò)分析工具——甲基化疾病相關(guān)性分析。其通過計算 Jaccard 相似性測試,使用DMG的交集和并集對99種疾病與22718個DMG進行配對,從而獲得疾病之間的相關(guān)性。如果兩種疾病之間存在顯著關(guān)聯(lián),則將這兩種疾病連接起來形成疾病關(guān)聯(lián)網(wǎng)絡(luò)。對于網(wǎng)絡(luò)中與疾病一步關(guān)聯(lián)的疾病,可以篩選出其中任意兩種疾病的Jaccard系數(shù),形成完整的DNA甲基化介導(dǎo)的疾病關(guān)聯(lián)網(wǎng)絡(luò)(WDAN)。如下圖所示,這里選擇乳腺癌和卵巢癌進行相關(guān)性分析,可得到疾病關(guān)聯(lián)網(wǎng)絡(luò)。

在癌癥中經(jīng)常能觀察到DNA甲基化模式的擾動,這些擾動往往暗示了致癌作用。因此,DiseaseMeth3.0版本提供了癌癥預(yù)后和共甲基化工具。開發(fā)者們從TCGA數(shù)據(jù)庫中挖掘了31種癌癥的有關(guān)信息,對數(shù)據(jù)庫中所有癌癥的DMG進行Pearson相關(guān)性分析形成各癌癥的共甲基化網(wǎng)絡(luò),保留p<0.01、cor>0.6的基因?qū)?,從而分別形成31種癌癥的共甲基化網(wǎng)絡(luò)。因此該工具提供了不同基因的DNA甲基化水平在癌癥中的生存分析和其他臨床因素的相關(guān)性分析,以及在DMG共甲基化網(wǎng)絡(luò)中共甲基化模塊的挖掘。我們可通過生存分析和基因模塊挖掘從中挖掘不同癌癥中的關(guān)鍵DNA甲基化基因,通過選擇癌癥名稱、不同臨床因素(如分期、年齡、生存時間或模塊等)進行分析。對于得到的分析結(jié)果,我們可以下載模塊列表的文本文件進行查閱。其界面如下圖所示。

5.Download板塊
最后就是下載功能了,這些數(shù)據(jù)來源于TCGA、GEO和其他數(shù)據(jù)庫,同時標(biāo)注所對應(yīng)的疾病,右邊提供了下載的鏈接,我們可下載自己所感興趣的疾病甲基化數(shù)據(jù)集。模塊界面如下。最右邊的Help板塊能夠為初學(xué)者提供幫助和操作指南。

以上就是DiseaseMeth數(shù)據(jù)庫主要功能的簡單介紹了,該數(shù)據(jù)庫操作起來容易上手,并且也提供了豐富的信息。如想要進一步探究有關(guān)于人類疾病甲基化的相關(guān)分析,可以前往該數(shù)據(jù)庫體驗。
參考文獻:Xing, J., Zhai, R., Wang, C., Liu, H., Zeng, J., Zhou, D., Zhang, M., Wang, L., Wu, Q., Gu, Y., et al. (2021). DiseaseMeth version 3.0: a major expansion and update of the human disease methylation database. Nucleic acids research.