數據庫對生物信息學的發展是十分重要的,可以說優質的數據庫資源是生信學科發展的基石。數據庫可以根據不同的用途和領域分為很多種,但是實際上可以從一個角度對它進行劃分,那就是單版數據庫和持續更新的數據庫,其中單版數據庫就是指那些只發表一次的數據庫,這些數據庫在后面都沒有再更新,它們的作者可能只是出于為了發表一篇文章;而持續更新的數據庫則是在公布第一版后,陸續不斷更新完善其功能,這類數據庫對某一領域或者解決某一問題最關鍵的資源。今天,Immugent就來介紹一款非常經典、且持續更新的疾病基因相關數據庫—DisGeNET。這個數據庫從2010年發表第一版以來,一直都在受專業團隊維護更新,每隔一段時間就會有新的版本和功能被更新,而且相對應的文章也是越發越好。截止到DisGeNET數據庫最近在2020年所作的更新,它已經陪伴我們10多個年頭了,而且Immugent堅信它后續還會做出更有用的更新。
DisGeNET數據庫可以說是疾病相關基因研究的扛把子,它的的優勢主要包括:1.綜合性:DisGeNET匯集了來自不同來源的基因疾病關聯數據,包括基因組學、遺傳性和醫學文獻等多個領域,這使得其收集到的數據更加全面和可靠。2.可靠性:DisGeNET采用了多種篩選和驗證方法,以確保收集到的數據質量和可靠性。例如,基于特定算法的數據質量評估、多個數據庫之間的交叉驗證等。3.可訪問性:DisGeNET是一個免費、開放的數據庫,任何人都可以通過網頁界面或API訪問其中的數據和工具。4.多功能性:DisGeNET提供了許多功能和工具,如基因和疾病搜索、網絡分析和可視化等,使得研究人員可以更好地探索和理解基因與疾病之間的關系,從而為疾病的研究和治療提供幫助。
DisGeNET數據庫每一次更新都有相應的文章發表,從第一版發表在Bioinformatics雜志以來,到最近兩次更新都發表在Nucleic Acids Research雜志上,DisGeNET數據庫的影響力是越來越大。當然,引用DisGeNET數據庫發表的文章更是不計其數,各大子刊到CNS正刊都會引用DisGeNET數據庫。下面Immugent就以時間的順序,根據DisGeNET數據庫發表的一些列文章來系統介紹DisGeNET數據庫的發展歷程。
1. 作為Cytoscape插件的DisGeNET第一版
DisGeNET數據庫第一版是作為Cytoscape插件來使用,相應的文章發表在Bioinformatics雜志,篇名為:DisGeNET: a Cytoscape plugin to visualize, integrate, search and analyze gene–disease networks。使用這個插件可以直接查詢和分析人類基因疾病網絡,不僅允許用戶友好地訪問DisGeNET數據庫通過整合幾個公共來源的數據開發的新的基因疾病數據庫。它不僅可以二部圖表示基因-疾病的關聯,并提供數據的基因中心和疾病中心信息;它還可以通過各種內置功能幫助用戶解釋和探索人類疾病的遺傳基礎。此外,DisGeNET允許根據標準疾病分類對節點(基因/疾病)進行多色處理,以方便可視化。
圖1:

總的來說,DisGeNET插件是一個易于分析和解釋人類基因疾病網絡的連貫工具,它允許用戶友好地訪問一個全面的數據庫,包括孟德爾病、復雜疾病和環境疾病的基因疾病關聯。我們具體在使用時可以直接在Cytoscape上直接安裝DisGeNET插件,它有助于解釋和探索人類疾病的遺傳起源。DisGeNET插件還會生成子網絡的多種選擇,以及先進的搜索工具,不僅有助于對單一疾病的分析,這有助于對一系列疾病或通過相關基因指定的某些疾病類別的研究。在此,基因和疾病節點的多色提供了一個方便的可視化疾病分類網絡。
值得注意的是,DisGeNET團隊在發表第一版數據庫時,就在文章末尾就表示會計劃定期更新基礎基因-疾病關聯數據庫,并整合其它更多的疾病基因相關的數據源。
2. DisGeNET:一個動態探索人類疾病及其基因的綜合平臺
從2010年開始,DisGeNET團隊花了5年去收集和整理各類疾病基因相關的數據資源,并且去在萬眾期待了很久之后,一個真正意義上的綜合性DisGeNET數據庫誕生了。相應的文章在2015年發表在Database雜志上,篇名為:DisGeNET: a discovery platform for the dynamical exploration of human diseases and their genes。如果說2010年發表的第一版只是提供一個理想的藍圖,那么這次更新是實現這個理想所邁出的最關鍵的一步。
DisGeNET數據庫也是從這一年開始,才真正意義上成為一個綜合性的疾病相關基因探索平臺,旨在全方位解決與人類疾病的遺傳基礎有關的各種問題。在這一版的更新中,DisGeNET納入了16000個基因和13000種疾病之間的38萬多個關聯,這使它成為當時同類數據庫中最大的數據庫之一。DisGeNET將專家管理的數據庫與文本挖掘的數據集成在一起,涵蓋孟德爾疾病和復雜疾病的信息,并包括來自動物疾病模型的數據。它以支持證據為基礎,對基因疾病關聯進行優先排序。
圖2:

當然也是從2015年開始,DisGeNET被打造成一個可開放訪問的綜合性資源型數據庫,用戶既可以通過web界面,也可以使用Cytoscape插件和語義web資源獲得疾病相關信息,其中web界面支持用戶友好的數據瀏覽和導航。DisGeNET數據也可以通過DisGeNET Cytoscape插件進行分析,并通過這個流行的網絡分析軟件套件的其他插件的注釋進行豐富。最后,DisGeNET中包含的信息可以使用語義Web技術進行擴展和補充,并鏈接到關聯數據云中已經存在的各種資源。因此,DisGeNET提供了最全面的人類基因-疾病關聯集合之一,以及一套有價值的工具,用于調查遺傳起源疾病的分子機制,旨在滿足不同用戶的需求,包括生物信息學家、生物學家和衛生保健從業人員。
圖3:

其中,DisGeNET數據庫的Web界面是第二版本的主要新功能之一。它的設計是為了使搜索、可視化、過濾和分享數據更加容易。此外, 它允許下載包含用戶搜索結果的各種格式的數據文件。此外,它還能自動生成幾種編程語言的腳本,可以下載并用于復制用戶進行的分析。高級用戶可以定制這些腳本,以執行類似的查詢和/或將其納入他們自己的生物信息學工作流程。最后, 提供的功能是通過電子郵件或將結果頁面的HTML代碼嵌入到一個網頁中來分享用DisGeNET進行的搜索結果。
圖4:

DisGeNET數據庫還允許按 MeSH 類別過濾 PPARG 相關的疾病,從而展示了 PPARG 基因參與人類疾病的全貌。上圖A顯示了按 MeSH 類別對來自策劃來源的 PPARG 相關疾病的 DisGeNET 分數分布圖,其中代表性最強的兩個疾病類別是腫瘤(12 種疾病)和營養與代謝性疾病(11 種疾病)。后一類包括得分最高的三種疾病,這與PPARG在營養水平感知以及脂質和葡萄糖代謝的調節中的作用相一致。肥胖癥是與PPARG相關的排名最高的疾病(0.812)。幾乎所有的資料都支持這種關聯,而且有100多篇文章,這些文章主要是探討PPARG遺傳變異在肥胖癥中的作用。上圖C說明了這一點:連接 PPARG 和肥胖癥的許多邊都對應于 "遺傳變異 "關聯類型。
3. DisGeNET-RDF:利用語義網絡來探索疾病的遺傳基礎
DisGeNET數據庫在2015年的更新后,在當時的科研界引起了極大的轟動,但同時由于龐大的數據量和復雜的基因和疾病互作關系,使得用戶并不能輕易捕獲到檢索結果的核心信息。因此,在2016年DisGeNET數據庫提出了基于語義相似性的概念打造了DisGeNET-RDF,相應的文章以篇名為:DisGeNET-RDF: harnessing the innovative power of the Semantic Web to explore the genetic basis of diseases的形式,在2016年發表在Bioinformatics雜志上。
總的來說,DisGeNET-RDF基于語義網絡相似性,提供了關于人類疾病的遺傳基礎的知識,使得基因-疾病關聯(GDAs)及其出處元數據被公布為人類可讀和機器可處理的網絡資源。DisGeNET-RDF中包含的關于GDAs的信息與其他生物醫學數據庫相互連接,以支持開發生物信息學方法,通過循證利用豐富和完全相互連接的開放數據進行轉化研究。
圖5:

為了確定疾病相關病因、藥理治療和毒理學事件的生物機制,我們需要利用生物醫學數據,以多方面的方式進行集成。因此,DisGeNET-RDF的應用是多種多樣的,其SPARQL端點允許查詢聯合使用單個查詢查詢帶有多個LOD資源的DisGeNET。這些數據包括基因表達,藥物和其他化學物質,生物途徑和網絡,動力學模型,只是提到一些覆蓋的信息。
可以使用DisGeNET-RDF及其與其他資源的鏈接來解決所研究的復雜科研問題:
1.探索與拉福拉病相關的途徑是什么?
2.哪些與阿爾斯科格綜合征相關的蛋白質是潛在的藥物靶點?
3.胰腺癌中與基因差異表達相關的其他疾病有哪些?
DisGeNET-RDF不僅提供了基于以往研究的基因列表,還介紹了如何從個人電腦的端點服務制定SPARQL查詢的支持信息。例如,要解決前面的問題(1)、(2)和(3),用戶可以分別將DisGeNET-RDF與WikiPathways、ChEMBL和Gene Expression Atlas交叉。具體使用教程,我們可參閱網站上針對這些特定用例的SPARQL查詢示例。查詢到的這些信息可用于探索疾病的潛在分子機制,探索藥物的重新利用機會,或確定與不良反應相關的藥物靶點。
4. DisGeNET:一個整合了人類疾病相關基因的綜合平臺
關于人類疾病的遺傳基礎的信息是精準醫療和藥物發現的核心。然而, 為了充分發揮其潛力以支持這些目標, 必須克服一系列難題, 如數據的分散性、異質性、可用性和不同的概念化。為了嘗試解決上述難題,DisGeNET數據庫分別在2017年和2019年做了兩次系統性的更新,相應的文章均發表在Nucleic Acids Research雜志上,至此確定了其在疾病數據庫領域的核心地位。
DisGeNET數據庫不僅整合了來自專家策劃的資料庫, GWAS目錄, 動物模型和科學文獻的數據,并且還使用受控詞匯和公認的研究概念對所有疾病信息進行了同質化的注釋。此外, 還提供了幾個原始指標, 以協助確定基因型-表型關系的優先次序. 這些信息可以通過一個網絡界面、一個Cytoscape應用程序、一個RDF SPARQL終端、幾種編程語言的腳本和一個R包來獲取。最終,DisGeNET作為一個多功能的平臺,可用于不同的研究目的,包括調查特定人類疾病及其并發癥的分子基礎,分析疾病基因的特性,產生關于藥物治療作用和藥物不良反應的假設,驗證計算預測的疾病基因和評估文本挖掘方法的性能。
圖6:

DisGeNET數據庫結構(圖1A)的核心概念是基因-疾病關聯(GDA)和變異-疾病關聯(VDA),它們是從不同的數據源整理而來的(圖2)。這些不同數據源的集成是通過使用社區驅動的本體和受控詞匯表對基因、變異、疾病(疾病、癥狀和特征)和關聯進行適當的標準化來實現的。以及專門開發的本體(例如DisGeNET關聯類型本體)。值得注意的是,信息的來源以幾種方式提供:(a)作為字段“原始數據庫”,表明數據來自何處(例如ClinVar或UniProt), (b)支持該協會的文章數量和這些出版物的NCBI PMIDs,以及(c)從文章中摘錄的文本,表達該協會的證據。gda和vda通過內部和外部屬性進一步注解,簡化了數據分析、探索和優先級劃分。
圖7:

DisGeNET中關于疾病相關基因的主要包括兩個概念:疾病和基因的相關性(GDA)以及變異和疾病的相關性(VDA)。基于以上這兩個概念。作者基于多個公共數據基因注釋平臺例如:[Simple ClinVar]-臨床相關突變研究, Uniprot 以及基于文獻的文本挖掘,最終一共獲得了 628685 個 GDA,涉及 17549 個基因和 24166 種疾病,以及 210498 個 VDA,包括 117 337 個變異和 10358 種疾病。在DisGeNET數據庫最新的版本(v6.0)中,包含了628685個基因-疾病關聯(GDAs),涉及17549個基因和24 166種疾病,以及210498個變異-疾病關聯(VDAs),包括117 337個變異和10358種疾病。請注意,“疾病”一詞指的是與人類基因組學相關的廣泛表型:實際疾病、疾病癥狀和作為疾病表現被觀察到的異常表型,以及目前在大規模全基因組關聯研究(GWAs)中探索的正常性狀和表型(有關疾病標準化和注釋的更多細節,請參閱新數據屬性和優先級度量)。
圖8:

目前,納入DisGeNET數據庫的GDAs和VDAs來自于十多個資料庫。例如, 注釋臨床相關變異體(ClinVar)或基因(ClinGen, Genomics England Pan-elApp等)的數據庫, 或專門針對某些疾病類別的數據庫(如針對罕見疾病的Orphanet), 或匯編疾病的動物模型的信息(如MGD和RGD)。 除了 VDAs 和 GDAs 的原始信息來源外, DisGeNET 還為數據庫來源提供了一個分類: 對于基因-疾病關聯 (GDAs), 信息被歸類為 Curated, Animal Models, Literature 和一個新的類別—Inferred。
以上就是 DisGeNET數據庫的全部功能介紹了,至于我們如何使用它用于我們的實際科研問題,取決于用戶自己的喜好。特別是基于DisGeNET數據庫開發的R包--disgenet2r,已經和其它分析結果做了無縫銜接,使用起來十分方便。這對于高通量數據分成的結果解讀而言,除了基本的 GO 和 KEGG 的功能富集分析之外,也是可以使用disgenet2r包來分析這些基因和疾病的關系。特別是當我們聚焦一種疾病的話,就可以利用disgenet2r包很容易找到這個疾病有關的基因了。
5.說在最后
總的來說,DisGeNET數據庫是一個專門收集人類遺傳性疾病與基因、變異、蛋白質、化合物等相關信息的數據庫。它收集了大量文獻、基因組、蛋白質組和化學信息的數據,能夠提供大量的遺傳性疾病的相關信息,包括遺傳突變的位置、基因變異的性質、相關蛋白質的表達及功能等。同時,DisGeNET數據庫構建了一個基因疾病關聯網絡,它收集了來自不同資源(如科學文獻、遺傳性和基因組學數據庫、疾病相關基因、藥物和疾病關聯的基因)的數據,以及基于自然語言處理技術提取的基因-疾病關聯信息,以提供廣泛的基因疾病關聯數據。此外,該數據庫還提供了一些工具和功能,如基因和疾病搜索、網絡分析和交互式可視化等,以幫助研究人員更好地探索和理解基因與疾病之間的關系。
除了基因疾病關聯信息外,DisGeNET還提供了其他有用的功能。例如,用戶可以通過DisGeNET搜索具有特定疾病相關性的基因或基因組區域,并獲取有關這些基因的詳細信息。此外,DisGeNET還提供了可視化工具,幫助用戶理解基因疾病關聯的復雜性和多樣性。DisGeNET數據庫的應用已經涉及到許多領域,包括基因疾病關聯研究、藥物發現和個體化醫學等。其中一些應用包括:基因疾病關聯研究:DisGeNET可以為基因疾病關聯研究提供有用的信息和支持。例如,研究人員可以利用DisGeNET中的數據鑒定和驗證新的基因與疾病之間的關聯;藥物發現:DisGeNET可以用于藥物發現和開發。例如,研究人員可以利用DisGeNET中的信息確定哪些基因與特定疾病相關,并尋找具有靶向這些基因的藥物;個體化醫學:DisGeNET可以為個體化醫學提供支持。例如,醫生可以利用DisGeNET中的信息,幫助診斷和治療患有特定疾病的患者;
總之,DisGeNET數據庫是一個非常有用的資源,能夠提供廣泛的基因疾病關聯信息,并支持了多個醫學應用領域的發展。在未來,隨著更多數據和信息的不斷積累,DisGeNET的應用和發展將繼續完善和拓展。Immugent衷心希望DisGeNET數據庫能做的越來越好,同時也希望未來能有更多像DisGeNET這樣的數據庫被開發出來,那樣我們就能更好的整合這些資源來做好相關的科研工作。
[參考文獻]
[1] Bauer-Mehren A, Rautschka M, Sanz F, Furlong LI. DisGeNET: a Cytoscape plugin to visualize, integrate, search and analyze gene-disease networks. Bioinformatics. 2010 Nov 15;26(22):2924-6. doi: 10.1093/bioinformatics/btq538. Epub 2010 Sep 21. PMID: 20861032.
[2] Pi?ero J, Queralt-Rosinach N, Bravo à, Deu-Pons J, Bauer-Mehren A, Baron M, Sanz F, Furlong LI. DisGeNET: a discovery platform for the dynamical exploration of human diseases and their genes. Database (Oxford). 2015 Apr 15;2015:bav028. doi: 10.1093/database/bav028. PMID: 25877637; PMCID: PMC4397996.
[3] Queralt-Rosinach N, Pi?ero J, Bravo à, Sanz F, Furlong LI. DisGeNET-RDF: harnessing the innovative power of the Semantic Web to explore the genetic basis of diseases. Bioinformatics. 2016 Jul 15;32(14):2236-8. doi: 10.1093/bioinformatics/btw214. Epub 2016 Apr 22. PMID: 27153650; PMCID: PMC4937199.
[4] Pi?ero J, Bravo à, Queralt-Rosinach N, Gutiérrez-Sacristán A, Deu-Pons J, Centeno E, García-García J, Sanz F, Furlong LI. DisGeNET: a comprehensive platform integrating information on human disease-associated genes and variants. Nucleic Acids Res. 2017 Jan 4;45(D1):D833-D839. doi: 10.1093/nar/gkw943. Epub 2016 Oct 19. PMID: 27924018; PMCID: PMC5210640.
[5] Pi?ero J, Ramírez-Anguita JM, Saüch-Pitarch J, Ronzano F, Centeno E, Sanz F, Furlong LI. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Res. 2020 Jan 8;48(D1):D845-D855. doi: 10.1093/nar/gkz1021. PMID: 31680165; PMCID: PMC7145631.