要想文章發的好,數據挖掘少不了。今天就給大家介紹一個新鮮出爐的關于腫瘤藥物的數據庫——DREAM(http://bio-big-data.cn:8080/DREAM)。這個數據庫是由哈爾濱醫科大學和首都醫科大學聯合研發的,文章于今年11月發表在《Molecular Cancer》(IF: 27.401)上。

隨著高通量芯片技術等實驗技術的快速發展和成本的不斷降低,芯片數據的數量明顯增加。但是海量的癌癥相關數據也讓研究人員對數據進行挖掘、集成和分析變得越來越復雜。DREAM是一個從大量文獻和高通量數據中提取的綜合性的蛋白質編碼RNA和藥物相關性的數據庫,可以比較直觀地直接瀏覽和分析藥物和蛋白質編碼RNA的相關性。
數據來源和組成
在目前版本的DREAM數據庫中,所有的蛋白質編碼RNA分為兩類:一類是藥物干預相關的蛋白質編碼RNA,代表作為藥物靶點的蛋白質編碼RNA;另一類是藥物敏感性相關的蛋白質編碼RNA,代表與耐藥有關的蛋白質編碼RNA。DREAM中的每個條目都包含蛋白質編碼RNA、藥物、癌癥的詳細信息以及其他信息,如標題、PubMed ID、期刊、發表時間等。共收錄1560種蛋白質編碼RNA、138種藥物和35種人類疾病。

圖1中詳細介紹了該數據庫構建的整體流程和具體功能分區情況。除了文獻中的數據整合,研究人員還整合了其他數據庫的信息,包括有DrugBank(https://go.drugbank.com)、PubChem(https://pubchem.ncbi.nlm.nih.gov/)和來自Ensembl(https://m.ensembl.org/index.html)的蛋白質編碼RNA信息以及來自Disease Ontology(https://disease-ontology.org/)的癌癥信息。

功能分析
DREAM提供了一個用戶友好的web界面,可以輕松瀏覽、搜索、分析和下載數據。
1. 在“Browse”頁面中,用戶可以通過三種方式檢索DREAM中的蛋白編碼RNA和癌癥藥物相關性數據:包括有復合物名稱、基因名或疾病名。然后,網站將返回一個匹配條目的列表。

以膠質瘤為例,將返回以下結果。

2. 在“Search”頁面,可以通過蛋白質編碼RNA名稱、藥物名稱或藥庫ID和疾病來檢索數據庫。DREAM提供有模糊關鍵字搜索功能,將返回盡可能接近的匹配記錄。

同樣我們再次以膠質瘤為例。


3. 在“High-throughput”頁面,我們可以搜索各種癌癥的高通量微陣列數據,以獲得藥物干預或藥物敏感性相關數據。這里提供了三種搜索方式,分別是復合物名稱、基因名和疾病名。在這里,我們可以根據自己的實際需要設置p值和fold changes,以便快速識別與藥物靶點或耐藥相關的候選基因。在Drug Intervention中,病例組為藥物干預的疾病細胞。對照組是用安慰劑干預的疾病細胞,如PBS, DMSO。在Drug Sensitivity中,病例組為耐藥病細胞,對照組為正常病細胞。在這里該數據庫實現了交互式可視化工具,如火山圖,還提供了基因富集分析,如GO注釋和KEGG路徑分析。

4. 在"Drug Discovery"模塊中,DREAM提供了一種特殊的計算方法,根據藥物的基因表達特征與該疾病的表達特征的相關性來預測癌癥的藥物再利用。具體的計算流程R的源代碼研究人員也提供在了該網站中的Help界面中,會寫代碼的小伙伴也可以根據自己的需求進行相應的調整。

在這個功能模塊中,用戶需要上傳疾病的表達特征,包括基因名和fold changes (相對于健康對照組)。然后該數據庫將根據包含藥物基因表達特征的數據庫匹配并計算相關系數。最后,數據庫將返回結果,包括相關系數、藥物、癌癥和p值。相關系數在0以下被認為是顯著的結果,這意味著所選藥物可以逆轉癌癥基因的表達。例如,通過這個功能,研究人員發現Saracatinib這種經常用于結直腸癌的藥物,也可能對膠質瘤患者有益。

5. 在“Download”頁面,該數據庫提供了兩種可下載文件的格式,分別是txt格式和excel格式。除了以上內容,網站還提供了一些查詢示例,幫助用戶更好地了解如何使用DREAM。

綜上所述,與其他數據庫相比,DREAM具有三個顯著的特點:(1)它是第一個提供了人類癌癥中蛋白質編碼RNA與藥物之間關聯性的數據庫。(2)它將文獻數據和高通量數據合并到了一個數據庫中。(3)該數據庫提供一種特殊的計算方法,根據藥物的基因表達特征與疾病的表達特征的相關性來預測用于癌癥的藥物的再利用。