DNA甲基化作為表觀遺傳的一種方式,也為疾病的診斷和治療提供了新的途徑。而DiseaseMeth是一個專注于人類疾病的綜合性甲基化數據庫,其涵蓋了人類DNA甲基化疾病數據和來自公開數據集的原始數據。該數據庫由哈爾濱工業大學生命科學與技術學院的張巖教授課題組開發并維護,并于2012年在《NAR》首次發布。為了提供更加全面的疾病甲基化信息,張巖教授課題組對數據庫進行更新,發布了全新的人類疾病甲基化數據庫DiseaseMeth version3.0(http://diseasemeth.edbc.org/)。
自2012年DiseaseMeth數據庫創建以來,其一直致力于發現疾病中的關鍵DNA甲基化標記。期間開發人員對數據庫進行過一次更新,將其升級到DiseaseMeth2.0版本。自更新以來,隨著DNA甲基化微陣列和高通量測序的成本不斷下降,有關甲基化數據的數量也在與日俱增。因此,基于甲基化數據量的大幅增加,開發者們也針對DiseaseMeth數據庫進行了第三次更新并發布了DiseaseMeth3.0版本。
本次數據庫的更新是對DiseaseMeth的一次重要擴充。在數據方面,不僅整合了包括TCGA、GEO等公共數據庫的高通量疾病甲基化大數據,而且通過人工方式從PubMed網站上搜集整理了有關文獻的甲基化數據。相較于2.0版本,本次版本所記錄的人類疾病從88種增加到162種,收集的樣本總數從32701例增加到49949例甲基化譜樣本數。除數據更新外,開發者們對所收集的患者臨床數據進行了詳細分析,探討了DNA甲基化對患者預后的影響。同時升級了疾病甲基化譜可視化瀏覽器DisMethBrowser使其更加快速穩定,還建立起了標準化的DNA甲基化數據分析流程,用于確定疾病中差異甲基化的基因,此外提供了新工具用于注釋差異甲基化基因的生物學過程和途徑、確定DNA甲基化介導的疾病關聯網絡WDAN和基因的癌癥預后分析與共甲基化模塊確定。

數據庫的主頁如上圖所示,在數據庫的主頁上有檢索(Search)、分析(Analysis)、疾病甲基化瀏覽器(DisMethBrowser)、工具(Tools)和數據下載(Download)五個板塊??梢钥吹秸麄€頁面設置的簡潔明了,便于廣大用戶操作。接下來我們就來圍繞它們進行展開介紹:
1. Search板塊
檢索方式一共有四種,基因檢索(Gene Search)、疾病檢索(Disease Search)、功能檢索(Function Search)、高級檢索(Advance Search)。

在基因檢索上,我們可以輸入基因符號(基因名稱/轉錄本ID)或基因組位置,以獲得數據庫疾病樣本中該特定基因的甲基化水平。輸出將顯示為表格和熱圖。基因的 DNA 甲基化水平由熱圖表示,它可以顯示所有包含的疾病中特定基因的 DNA 甲基化水平的差異。
我們以MGMT基因為例,進行檢索,如圖所示,可根據基因symbol或基因所在位置進行檢索,確定我們所想要查找的信息,這邊我們選擇“all”。點擊“search”就可顯示出結果,這里以表格的形式列出了MGMT在不同疾病中的甲基化水平及差異信息,同時選中相關疾病便點擊“analysis”可進入分析工具欄中,頁面往下可以看到MGMT在不同疾病中的甲基化譜。


在疾病檢索中所選中的疾病與對應差異甲基化基因(DMG)的DNA甲基化水平可以通過熱圖展示。在該功能中,可以具體檢索包含癌癥在內的不同疾病與感興趣基因甲基化之間的聯系。
功能檢索為本次版本更新所新開發的功能,其基于GO和KEGG對DMG的生物學過程和途徑進行了注釋。所有DMG的功能富集信息都在DiseaseMeth 3.0版本中進行了本地化,我們只要輸入感興趣的疾病,就會立即顯示功能豐富的結果。此外,包括基因符號、GO 術語和通路 ID 在內的其他查詢參數可用作更精確的查詢要求。
高級檢索則可以進行更具體的查詢。通過輸入一個或多個符合條件的條目,即基因名稱/轉錄本ID、基因組位置、疾病類型和技術,幫助用戶快速獲取所需數據集。
2. Analysis板塊
該模塊能夠進行不同基因在不同癌癥中的甲基化水平分析,功能界面如下。

開發者建立了統一的、標準化的流程來分析DNA甲基化數據。根據數據的不同來源,主要分為兩種流程:
第一種是針對來自微陣列技術的Illumina Infinium HumanMethylation27 BeadChip,450 BeadChip和850 BeadChip數據,分析流程如下:
(1)從公共數據庫下載原始數據和參考平臺數據。
(2)將DNA甲基化水平統一表示為一個值。
(3) 使用R包sva集成來自不同批次或不同數據庫的DNA甲基化數據,以消除批次效應。
(4)使用KNN算法填充缺失值,確保使用具有豐富甲基化水平的高質量探針,通過差異分析確保更準確的結果。
(5) 使用R包ChAMP和minfi分析和識別DNA甲基化差異位點和區域。鑒別標準是兩組樣本的均值差大于0.2,校正后P值<0.05。
(6)保留位于啟動子區域(TSS1500、5 UTR、1st Exon和TSS200)的差異甲基化位點的交叉點。
(7)定義每個基因對應的所有啟動子區域的探針甲基化水平的平均值作為其甲基化水平。
第二種是針對DNA甲基化測序數據,包括全基因組甲基化測序技術(Whole Genome Bisulfite Sequencing,WGBS)和簡并代表性亞硫酸氫鹽測序技術(Reduced representation bisulfite sequencing, RRBS) ,數據分析流程如下:
(1)下載相應子序列平臺的原始測序數據。
(2)使用Bismark軟件將亞硫酸氫鹽處理的測序讀數映射到 Genome Reference Consortium Human Build 38 (GRCh38) 并提取甲基化值。
(3)使用SMART2挖掘疾病和對照樣本之間的差異 DNA 甲基化區域。
(4)保留了位于啟動子區域(TSS1500、5'UTR、1st Exon和TSS200)中的差異甲基化區域的交叉點。
(5)用差異甲基化區域的平均值計算基因的DNA甲基化水平。
基于以上兩種分析流程,開發者在該部分進行了不同基因在不同疾病中的甲基化水平分析。我們可以在Disease選項選擇一個或多個感興趣的疾病;輸入基因名稱/轉錄本ID /基因組位置用于設置感興趣的基因組區域;選擇檢測數據的技術方法進行分析。該數據庫提供4種檢驗方法,包括t檢驗,minfi,samr和edgeR,確定好有關閾值便可進行分析。開發者總共從所收集的所有數據中鑒定了 99 種疾病中具有顯著差異 DNA 甲基化的 22718 個基因。
分析的結果以表格的形式展示了基因在各種疾病中的DNA甲基化水平差異,并對兩組樣本之間DNA甲基化水平進行了可視化。結果表中的主要結果包括探針ID、顯著性P值和校正后P值,以及非常重要的結果。當我們選擇多種疾病時,可以獲取疾到病間常見差異基因的DNA甲基化相關性以及疾病間的相關性。
3. DisMethBrowser板塊
如下圖所示,左側以DMxxx開頭的是樣本,水平的(淡)紅線表示甲基化水平為1。可以通過底下“Add Samples”添加樣本或者對單個樣本進行展示、移除、隱藏等操作。

4. Tools板塊
該功能包含本DiseaseMeth3.0兩個獨立開發的新工具:甲基化疾病相關性(Methylation Disease Correlation)和癌癥預后與共甲基化(Cancer Prognosis & Co-Methylation)。
研究發現,不同組織中的疾病可能表現出相似的整體DNA甲基化模式。因此開發者們開發了一種跨疾病的網絡分析工具——甲基化疾病相關性分析。其通過計算 Jaccard 相似性測試,使用DMG的交集和并集對99種疾病與22718個DMG進行配對,從而獲得疾病之間的相關性。如果兩種疾病之間存在顯著關聯,則將這兩種疾病連接起來形成疾病關聯網絡。對于網絡中與疾病一步關聯的疾病,可以篩選出其中任意兩種疾病的Jaccard系數,形成完整的DNA甲基化介導的疾病關聯網絡(WDAN)。如下圖所示,這里選擇乳腺癌和卵巢癌進行相關性分析,可得到疾病關聯網絡。

在癌癥中經常能觀察到DNA甲基化模式的擾動,這些擾動往往暗示了致癌作用。因此,DiseaseMeth3.0版本提供了癌癥預后和共甲基化工具。開發者們從TCGA數據庫中挖掘了31種癌癥的有關信息,對數據庫中所有癌癥的DMG進行Pearson相關性分析形成各癌癥的共甲基化網絡,保留p<0.01、cor>0.6的基因對,從而分別形成31種癌癥的共甲基化網絡。因此該工具提供了不同基因的DNA甲基化水平在癌癥中的生存分析和其他臨床因素的相關性分析,以及在DMG共甲基化網絡中共甲基化模塊的挖掘。我們可通過生存分析和基因模塊挖掘從中挖掘不同癌癥中的關鍵DNA甲基化基因,通過選擇癌癥名稱、不同臨床因素(如分期、年齡、生存時間或模塊等)進行分析。對于得到的分析結果,我們可以下載模塊列表的文本文件進行查閱。其界面如下圖所示。

5.Download板塊
最后就是下載功能了,這些數據來源于TCGA、GEO和其他數據庫,同時標注所對應的疾病,右邊提供了下載的鏈接,我們可下載自己所感興趣的疾病甲基化數據集。模塊界面如下。最右邊的Help板塊能夠為初學者提供幫助和操作指南。

以上就是DiseaseMeth數據庫主要功能的簡單介紹了,該數據庫操作起來容易上手,并且也提供了豐富的信息。如想要進一步探究有關于人類疾病甲基化的相關分析,可以前往該數據庫體驗。
參考文獻:Xing, J., Zhai, R., Wang, C., Liu, H., Zeng, J., Zhou, D., Zhang, M., Wang, L., Wu, Q., Gu, Y., et al. (2021). DiseaseMeth version 3.0: a major expansion and update of the human disease methylation database. Nucleic acids research.