要想文章發(fā)的好,數(shù)據(jù)挖掘少不了。今天就給大家介紹一個(gè)新鮮出爐的關(guān)于腫瘤藥物的數(shù)據(jù)庫(kù)——DREAM(http://bio-big-data.cn:8080/DREAM)。這個(gè)數(shù)據(jù)庫(kù)是由哈爾濱醫(yī)科大學(xué)和首都醫(yī)科大學(xué)聯(lián)合研發(fā)的,文章于今年11月發(fā)表在《Molecular Cancer》(IF: 27.401)上。

隨著高通量芯片技術(shù)等實(shí)驗(yàn)技術(shù)的快速發(fā)展和成本的不斷降低,芯片數(shù)據(jù)的數(shù)量明顯增加。但是海量的癌癥相關(guān)數(shù)據(jù)也讓研究人員對(duì)數(shù)據(jù)進(jìn)行挖掘、集成和分析變得越來(lái)越復(fù)雜。DREAM是一個(gè)從大量文獻(xiàn)和高通量數(shù)據(jù)中提取的綜合性的蛋白質(zhì)編碼RNA和藥物相關(guān)性的數(shù)據(jù)庫(kù),可以比較直觀地直接瀏覽和分析藥物和蛋白質(zhì)編碼RNA的相關(guān)性。
數(shù)據(jù)來(lái)源和組成
在目前版本的DREAM數(shù)據(jù)庫(kù)中,所有的蛋白質(zhì)編碼RNA分為兩類:一類是藥物干預(yù)相關(guān)的蛋白質(zhì)編碼RNA,代表作為藥物靶點(diǎn)的蛋白質(zhì)編碼RNA;另一類是藥物敏感性相關(guān)的蛋白質(zhì)編碼RNA,代表與耐藥有關(guān)的蛋白質(zhì)編碼RNA。DREAM中的每個(gè)條目都包含蛋白質(zhì)編碼RNA、藥物、癌癥的詳細(xì)信息以及其他信息,如標(biāo)題、PubMed ID、期刊、發(fā)表時(shí)間等。共收錄1560種蛋白質(zhì)編碼RNA、138種藥物和35種人類疾病。

圖1中詳細(xì)介紹了該數(shù)據(jù)庫(kù)構(gòu)建的整體流程和具體功能分區(qū)情況。除了文獻(xiàn)中的數(shù)據(jù)整合,研究人員還整合了其他數(shù)據(jù)庫(kù)的信息,包括有DrugBank(https://go.drugbank.com)、PubChem(https://pubchem.ncbi.nlm.nih.gov/)和來(lái)自Ensembl(https://m.ensembl.org/index.html)的蛋白質(zhì)編碼RNA信息以及來(lái)自Disease Ontology(https://disease-ontology.org/)的癌癥信息。

功能分析
DREAM提供了一個(gè)用戶友好的web界面,可以輕松瀏覽、搜索、分析和下載數(shù)據(jù)。
1. 在“Browse”頁(yè)面中,用戶可以通過(guò)三種方式檢索DREAM中的蛋白編碼RNA和癌癥藥物相關(guān)性數(shù)據(jù):包括有復(fù)合物名稱、基因名或疾病名。然后,網(wǎng)站將返回一個(gè)匹配條目的列表。

以膠質(zhì)瘤為例,將返回以下結(jié)果。

2. 在“Search”頁(yè)面,可以通過(guò)蛋白質(zhì)編碼RNA名稱、藥物名稱或藥庫(kù)ID和疾病來(lái)檢索數(shù)據(jù)庫(kù)。DREAM提供有模糊關(guān)鍵字搜索功能,將返回盡可能接近的匹配記錄。

同樣我們?cè)俅我阅z質(zhì)瘤為例。


3. 在“High-throughput”頁(yè)面,我們可以搜索各種癌癥的高通量微陣列數(shù)據(jù),以獲得藥物干預(yù)或藥物敏感性相關(guān)數(shù)據(jù)。這里提供了三種搜索方式,分別是復(fù)合物名稱、基因名和疾病名。在這里,我們可以根據(jù)自己的實(shí)際需要設(shè)置p值和fold changes,以便快速識(shí)別與藥物靶點(diǎn)或耐藥相關(guān)的候選基因。在Drug Intervention中,病例組為藥物干預(yù)的疾病細(xì)胞。對(duì)照組是用安慰劑干預(yù)的疾病細(xì)胞,如PBS, DMSO。在Drug Sensitivity中,病例組為耐藥病細(xì)胞,對(duì)照組為正常病細(xì)胞。在這里該數(shù)據(jù)庫(kù)實(shí)現(xiàn)了交互式可視化工具,如火山圖,還提供了基因富集分析,如GO注釋和KEGG路徑分析。

4. 在"Drug Discovery"模塊中,DREAM提供了一種特殊的計(jì)算方法,根據(jù)藥物的基因表達(dá)特征與該疾病的表達(dá)特征的相關(guān)性來(lái)預(yù)測(cè)癌癥的藥物再利用。具體的計(jì)算流程R的源代碼研究人員也提供在了該網(wǎng)站中的Help界面中,會(huì)寫代碼的小伙伴也可以根據(jù)自己的需求進(jìn)行相應(yīng)的調(diào)整。

在這個(gè)功能模塊中,用戶需要上傳疾病的表達(dá)特征,包括基因名和fold changes (相對(duì)于健康對(duì)照組)。然后該數(shù)據(jù)庫(kù)將根據(jù)包含藥物基因表達(dá)特征的數(shù)據(jù)庫(kù)匹配并計(jì)算相關(guān)系數(shù)。最后,數(shù)據(jù)庫(kù)將返回結(jié)果,包括相關(guān)系數(shù)、藥物、癌癥和p值。相關(guān)系數(shù)在0以下被認(rèn)為是顯著的結(jié)果,這意味著所選藥物可以逆轉(zhuǎn)癌癥基因的表達(dá)。例如,通過(guò)這個(gè)功能,研究人員發(fā)現(xiàn)Saracatinib這種經(jīng)常用于結(jié)直腸癌的藥物,也可能對(duì)膠質(zhì)瘤患者有益。

5. 在“Download”頁(yè)面,該數(shù)據(jù)庫(kù)提供了兩種可下載文件的格式,分別是txt格式和excel格式。除了以上內(nèi)容,網(wǎng)站還提供了一些查詢示例,幫助用戶更好地了解如何使用DREAM。

綜上所述,與其他數(shù)據(jù)庫(kù)相比,DREAM具有三個(gè)顯著的特點(diǎn):(1)它是第一個(gè)提供了人類癌癥中蛋白質(zhì)編碼RNA與藥物之間關(guān)聯(lián)性的數(shù)據(jù)庫(kù)。(2)它將文獻(xiàn)數(shù)據(jù)和高通量數(shù)據(jù)合并到了一個(gè)數(shù)據(jù)庫(kù)中。(3)該數(shù)據(jù)庫(kù)提供一種特殊的計(jì)算方法,根據(jù)藥物的基因表達(dá)特征與疾病的表達(dá)特征的相關(guān)性來(lái)預(yù)測(cè)用于癌癥的藥物的再利用。