2019年末突如其來的新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19,簡(jiǎn)稱“新冠肺炎”)迅速蔓延,截至2022年1月寫稿時(shí),全球新冠肺炎確診病例已經(jīng)達(dá)到三億以上,死亡病例達(dá)五百多萬例,甚至全球每天新增確診人數(shù)仍在百萬以上。目前全球已經(jīng)開展了數(shù)量空前的努力來對(duì)抗新冠肺炎,其中學(xué)術(shù)界響應(yīng)迅速,從病毒的溯源到機(jī)理的研究,從流行的預(yù)測(cè)到臨床疫苗藥物的研發(fā),全球協(xié)作,每天都有新發(fā)現(xiàn),每周都有新進(jìn)展,科研成果呈井噴式爆發(fā)。但面對(duì)如何對(duì)新冠肺炎進(jìn)行有效治療這一問題,目前仍然沒有答案。因此,當(dāng)前科學(xué)界急需在疫苗實(shí)現(xiàn)大規(guī)模免疫之前,找到能夠遏制新冠肺炎沖擊的治療方法??紤]到新的治療性化合物的識(shí)別、測(cè)試和批準(zhǔn)所需的時(shí)間較長(zhǎng),許多研究人員將重點(diǎn)放在了對(duì)現(xiàn)有藥物再利用(drug repurposing,DR)上,來尋找有效的抗COVID-19候選藥物。小編今天要和大家分享的就是一篇21年12月剛剛發(fā)表在Briefings in Bioinformatics(IF:12.812)雜志上的關(guān)于整合多組學(xué)數(shù)據(jù)及網(wǎng)絡(luò)分析識(shí)別抗COVID-19候選藥物的文章,其可以說是一篇針對(duì)特定疾病整合多組學(xué)數(shù)據(jù)資源進(jìn)行藥物篩選的詳細(xì)教學(xué)。文章內(nèi)容很豐富,為了方便閱讀小編針對(duì)文章的主要內(nèi)容,進(jìn)行了藍(lán)色文字總結(jié),長(zhǎng)話短說,小編帶大家一睹為快。
Multi-omics data integration and network-based analysis drives a multiplex drug repurposing approach to a shortlist of candidate drugs against COVID-19
整合多組學(xué)數(shù)據(jù)及網(wǎng)絡(luò)分析推動(dòng)多重藥物再利用識(shí)別抗COVID-19的候選藥物
一.?dāng)?shù)據(jù)及方法
1. 數(shù)據(jù)資源:研究涵蓋了轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等多組學(xué)數(shù)據(jù)集。具體來說包括4個(gè)嚴(yán)重急性呼吸系統(tǒng)綜合征冠狀病毒(SARS-CoV-2)感染的細(xì)胞系和3個(gè) COVID-19患者肺部活檢組織七個(gè)轉(zhuǎn)錄組數(shù)據(jù)。此外,研究也收集了65名COVID-19和健康個(gè)體的血清進(jìn)行了蛋白質(zhì)組學(xué)(SerumP)和代謝組學(xué)(SerumM)分析,進(jìn)一步也使用了一套在Human Protein Atlas (HPA) 獲得的336個(gè)SARS-CoV-2有關(guān)人類蛋白。研究也從IntAct、PHISTO和VirHostNet下載了SARS-CoV-2病原體與宿主之間的PPIs。
2. 多重DR:研究基于轉(zhuǎn)錄組學(xué)分析、GWAS表型關(guān)聯(lián)分析和病原體宿主相互作用網(wǎng)絡(luò)分析,來實(shí)現(xiàn)多重DR方法,以生成COVID-19重新利用藥物的初始列表。
下面小編詳細(xì)介紹下這三種DR方法:
基于轉(zhuǎn)錄組的DR:Connectivity Map, L1000CDS2和L1000FWD是三種不同的基于轉(zhuǎn)錄組學(xué)計(jì)算DR的工具,這些工具使用來自多個(gè)人類細(xì)胞系的轉(zhuǎn)錄表達(dá)數(shù)據(jù)來探索疾病和治療藥物之間的關(guān)系。以數(shù)據(jù)集中得到的異常表達(dá)基因作轉(zhuǎn)錄組特征,將數(shù)據(jù)集輸入到這三種DR工具中可以預(yù)測(cè)藥物候選列表。同時(shí)CRowd extraction expression of Differential signature (CREEDS)基因和藥物擾動(dòng)數(shù)據(jù)庫(kù),CREEDS數(shù)據(jù)庫(kù)包含單藥物和單基因擾動(dòng),也可以從DrugMatrix中提取能夠逆轉(zhuǎn)疾病感興趣基因組表達(dá)的藥物。
基于全基因組關(guān)聯(lián)分析研究(GWAS)及表型的DR:PhenoScanner能夠返回從GWAS catalog和CHARGE等各種在線數(shù)據(jù)庫(kù)收集的性狀和基因型表型關(guān)聯(lián)??梢詫⑴cSARS-CoV-2等相關(guān)的強(qiáng)相互作用體輸入到PhenoScanner中自動(dòng)提取與表型相關(guān)的基因,用于尋找藥物相互作用體,即將這些基因作為藥物基因相互作用數(shù)據(jù)庫(kù)(Drug Gene Interaction Database, DGIdb)的輸入,該數(shù)據(jù)庫(kù)整合和展示了來自論文、數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)資源的藥物基因相互作用和基因藥物信息。
基于病原體網(wǎng)絡(luò)的DR:主要包括兩部分,1)識(shí)別病原體和基于分類的距離:可以從DrugBank的多肽靶標(biāo)數(shù)據(jù)文件中提取除智人以外的所有生物的NCBI分類ID,然后使用R語(yǔ)言編寫的自定義腳本和taxize包對(duì)該集合進(jìn)行過濾,并檢索生物體的分類、構(gòu)建它們的分類樹;2)基于分類距離矩陣的DR:假設(shè)就分類距離而言,對(duì)特定病原體具有直接抑制作用的藥物更有可能對(duì)密切相關(guān)的病原體產(chǎn)生類似的作用。因此,可以通過受同一藥物影響的生物體最大距離來捕獲這種抗致病性活性,并通過Shannon指數(shù)H(即熵)來捕獲分類單元間距離的多樣性。
3. 多組學(xué)數(shù)據(jù)整合:研究針對(duì)來自患者樣本的多組學(xué)數(shù)據(jù)集,開發(fā)了一種基于網(wǎng)絡(luò)的多組學(xué)數(shù)據(jù)集成方法。方法主要包括兩部分,第一步是數(shù)據(jù)預(yù)處理:將多個(gè)來源的數(shù)據(jù)以列表的形式進(jìn)行整合,列表包括兩列對(duì)應(yīng)基因身份和基因得分。第二步是基因與基因網(wǎng)絡(luò)與基因優(yōu)化:計(jì)算每個(gè)基因的特征得分,稱為多源信息增益(MIG),使用R包igraph生成和分析多源信息(Multi-source Information,MI)超級(jí)網(wǎng)絡(luò),并編譯MIG評(píng)分。
4. 功能分析與通路community識(shí)別:研究使用一種基于通路到通路的網(wǎng)絡(luò)圖驅(qū)動(dòng)的隨機(jī)游走方法--PathWalks揭示連通通路的community,接著對(duì)通路網(wǎng)絡(luò)的隨機(jī)游走進(jìn)行了比值比(OR)分析,并使用R包igraph將OR值大于1的通路可視化為一個(gè)網(wǎng)絡(luò),突出顯示特定的感興趣通路。
5. CoDRes重新排秩及藥物列表聯(lián)合評(píng)分:研究將先前得到的10個(gè)列表中的前50個(gè)靶向藥物輸入到計(jì)算DR得分的工具CoDReS中,其能夠?qū)⒆畛醯乃幬锱琶?可能是DR得分或先驗(yàn)評(píng)分(aS))與分析感興趣疾病得出的藥物功能評(píng)分(FS)以及藥物結(jié)構(gòu)評(píng)分(StS)相結(jié)合,研究最終計(jì)算了每種藥物的綜合評(píng)分(CoDRes評(píng)分)。最后,從每個(gè)重新排序的列表中選出前20個(gè)藥物進(jìn)行化學(xué)結(jié)構(gòu)多樣性分析。
6. 化學(xué)結(jié)構(gòu)多樣性分析與聚類:研究從PubChem,CLUE the Drug Repurposes Hub和文獻(xiàn)中搜索并下載了240種藥物的結(jié)構(gòu),并刪除了重復(fù)條目及沒有發(fā)現(xiàn)結(jié)構(gòu)的藥物和元素(如銅)。然后使用OpenBabel軟件將剩余210種藥物的結(jié)構(gòu)轉(zhuǎn)換為單個(gè)的Structure data file (SDF)庫(kù)文件,然后將其輸入到ChemBioServer 2.0工具中,計(jì)算其化學(xué)和結(jié)構(gòu)相似性的距離矩陣,并對(duì)藥物進(jìn)行聚類。
7. 排秩標(biāo)準(zhǔn)化及篩選:研究將藥物根據(jù)排秩進(jìn)行標(biāo)準(zhǔn)化,在除去重復(fù)和結(jié)構(gòu)冗余的藥物后,在185種藥物中選出了最高排名的前65種藥物。
8. 與正在進(jìn)行的臨床實(shí)驗(yàn)比較:研究從ClinicalTrials.gov網(wǎng)站收集所有與COVID-19相關(guān)的臨床研究。然后將臨床研究報(bào)道的小分子藥物和從PubChem獲得的藥物的2D結(jié)構(gòu)(SDF文件)輸入到Chembioserver 2.0,以獲得相應(yīng)的Tanimoto距離矩陣。并使用R進(jìn)行了分析來確定哪些擬議藥物在臨床試驗(yàn)中具有相同或類似的化合物。
二.研究的主要內(nèi)容及結(jié)果
首先介紹一下該研究的總體流程,如圖1所示,研究主要分為五個(gè)步驟:1)多組學(xué)和蛋白質(zhì)相互作用(PPI)數(shù)據(jù)的選擇和預(yù)處理;2)基于轉(zhuǎn)錄組學(xué)分析、GWAS表型關(guān)聯(lián)分析和病原體宿主相互作用網(wǎng)絡(luò)分析,來實(shí)現(xiàn)多重DR方法,以生成COVID-19重新利用藥物的初始列表;3)多組數(shù)據(jù)集成:開發(fā)“基于網(wǎng)絡(luò)的多組學(xué)數(shù)據(jù)整合”方法,以整合來自COVID-19患者的多組數(shù)據(jù)。4)藥物重排秩:通過整合網(wǎng)絡(luò)計(jì)算出的疾病關(guān)聯(lián)得分進(jìn)行藥物重排秩;5)藥物篩選:計(jì)算候選藥物的結(jié)構(gòu)相似性,聚類得分最高的化合物來進(jìn)行藥物篩選。表1概括了研究使用的數(shù)據(jù),而表2對(duì)最終得到的12種候選藥物進(jìn)行了概括。



接下來介紹三個(gè)離散型DR方法的應(yīng)用:基于轉(zhuǎn)錄組學(xué)的DR方法,針對(duì)RNA - seq得到的差異表達(dá)基因(DEG)集,使用現(xiàn)有的計(jì)算工具進(jìn)行了一系列DR分析。通過輸入由logFC值選擇的前150個(gè)差異表達(dá)基因,作者獲得了兩個(gè)候選列表,一個(gè)是DR工具的ensemble,一個(gè)是利用CREEDS工具的基于DrugMatrix的再利用特征。GWAS表型關(guān)聯(lián)的DR,研究將對(duì)應(yīng)40個(gè)強(qiáng)SARS-CoV-2相互作用體,以及HPA數(shù)據(jù)庫(kù)中4個(gè)突出的蛋白的共44個(gè)基因輸入到PhenoScanner數(shù)據(jù)庫(kù),識(shí)別與COVID -19相關(guān)的基因和與各種表型相關(guān)的基因或基因之間的遺傳關(guān)聯(lián)。最終,識(shí)別出的單核苷酸多態(tài)性(SNP)與83個(gè)基因相關(guān),然后作者利用這些基因在DGIdb中尋找潛在的藥物。按照這種方法,作者最終得到了靶向83個(gè)基因的58種藥物列表(GW列表)。基于病原體-宿主相互作用網(wǎng)絡(luò)的DR,作者根據(jù)分類距離矩陣識(shí)別能夠直接針對(duì)病原體蛋白的抗病毒化合物,這一過程產(chǎn)生了一份DrugBank化合物列表,并整合函數(shù)進(jìn)行評(píng)分,最終得到了藥物評(píng)分列表(TaxAV)及研究考慮的病原體及其相關(guān)藥物的分類樹(圖2)。此外,作者還納入了病原體和宿主蛋白之間已確定的PPIs,來獲得一個(gè)關(guān)于病原體和人類之間功能相互作用的信息更豐富的評(píng)分方案。為此構(gòu)建了一個(gè)病原體-病原體網(wǎng)絡(luò),并根據(jù)目標(biāo)病原體與SARS-CoV-2的接近程度進(jìn)行評(píng)分,結(jié)果得到一個(gè)包含1178個(gè)藥物的評(píng)分列表(列表HPAV)。對(duì)于TaxAV和HPAV列表,作者選擇了前20的藥物進(jìn)行結(jié)構(gòu)相似度分析。作者也利用這一基礎(chǔ)網(wǎng)絡(luò)進(jìn)一步篩選靶向宿主蛋白的藥物,最終得到了301種藥物的列表,并選擇了排名前50的藥物(列表HPH)進(jìn)行藥物重排秩。

這里介紹一下得到多效藥物列表的過程,作者首先整合了來自患者的多組數(shù)據(jù),也就是以下數(shù)據(jù):(1)分析轉(zhuǎn)錄組數(shù)據(jù)得到的以絕對(duì)logFC排序的DEGs列表;(2)分析蛋白質(zhì)組數(shù)據(jù)得到的以絕對(duì)logFC排序的基因列表;(3)分析代謝組數(shù)據(jù)得到的以p值排序的基因列表;(4) HPA中與病毒進(jìn)入相關(guān)的宿主蛋白的未排序列表;(5)與SARS-CoV-2相互作用的宿主蛋白的未排序列表。然后作者計(jì)算了MIG評(píng)分,整合基因特異性信息對(duì)每個(gè)基因進(jìn)行特征評(píng)分,以及基于共表達(dá)、遺傳相互作用、物理相互作用和從GeneMANIA中提取的共定位信息得到的基因-基因網(wǎng)絡(luò)的局部加權(quán)度。最終得到了圖3所示的集成MI網(wǎng)絡(luò)以及相關(guān)的分?jǐn)?shù)分布。在所有下游功能分析和藥物重新排序中,作者都使用了基于MIG評(píng)分的基因排序,該評(píng)分代表了基因與疾病的綜合關(guān)聯(lián)。接著作者使用生成的整合圖突出了與COVID-19相關(guān)的通路 communities,使用MIG排秩前300的基因創(chuàng)建了一個(gè)疾病顯著關(guān)聯(lián)基因圖,并在這個(gè)圖的指導(dǎo)下使用PathWalks來游走KEGG的通路-通路網(wǎng)絡(luò),其中高頻軌跡突出了廣泛參與COVID-19通路的communities。使用得到的通路頻率,作者僅使用通路網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)對(duì)隨機(jī)游走進(jìn)行OR分析。OR值>1對(duì)應(yīng)相對(duì)訪問頻率高,因此更有可能感染COVID-19,其中突出的通路communities如圖4所示。接下來作者基于計(jì)算的與目標(biāo)疾病的相關(guān)性對(duì)候選藥物進(jìn)行重新排序,針對(duì)宿主蛋白的10個(gè)藥物列表中的每一個(gè),按照加權(quán)標(biāo)準(zhǔn)化得分,對(duì)前50個(gè)藥物進(jìn)行了CoDReS重新排名。然后作者從每個(gè)列表中選擇排名前20的CoDReS藥物進(jìn)行進(jìn)一步分析,并根據(jù)化學(xué)結(jié)構(gòu)多樣等對(duì)藥物進(jìn)行篩選。作者使用ChemBioServer 2.0計(jì)算了所有候選藥物成對(duì)組合的結(jié)構(gòu)距離矩陣,通過層次聚類及消除藥物列表中的結(jié)構(gòu)冗余,最終生成了一個(gè)包含185種藥物的列表。最后,作者根據(jù)最大標(biāo)準(zhǔn)化排秩 (Max rank)篩選出排名前三分之一的候選藥物,共有65個(gè)候選藥物。


在這一部分,作者進(jìn)一步對(duì)上面得到的65種藥物與從clinicaltrials.gov獲得的目前正在進(jìn)行COVID-19相關(guān)臨床試驗(yàn)的藥物進(jìn)行了比較。結(jié)果發(fā)現(xiàn)11種得分最高的藥物中有5種已經(jīng)進(jìn)入臨床試驗(yàn)。此外,在正在進(jìn)行的臨床試驗(yàn)中也發(fā)現(xiàn)了8種標(biāo)準(zhǔn)化評(píng)分低一些的藥物。從其余藥物中,通過結(jié)構(gòu)相似性分析,作者又識(shí)別出兩種臨床試驗(yàn)中具有相似化合物的藥物。在文章的最后一部分,作者介紹了整合藥物列表的專家整理和注釋結(jié)果,針對(duì)65種藥物的整合列表專家精心挑選出了16種藥物(圖5)。篩選主要基于以下三個(gè)標(biāo)準(zhǔn):(a)在3期臨床試驗(yàn)中藥物展示出了抗COVID-19的效能;(b)藥物藥理證明其能夠直接針對(duì)冠狀分子組件;(c)臨床批準(zhǔn)的藥物已經(jīng)在文獻(xiàn)中證明其有活性分子通路涉及SARS-CoV-2生物學(xué)機(jī)制。最終挑選的16種藥物中有兩種符合第一個(gè)標(biāo)準(zhǔn),這兩種藥物是唯一被證明對(duì)COVID-19有效的藥物。此外,有六種藥物符合第二項(xiàng)標(biāo)準(zhǔn)它們?cè)诟鞣N檢測(cè)中顯示對(duì)SARS-CoVs有直接作用。另外有九種藥物滿足第三個(gè)標(biāo)準(zhǔn)。研究表明,這些藥物可以有效地靶向SARS-CoV-2的復(fù)制周期,以及與病毒編碼的非結(jié)構(gòu)蛋白(NSPs)生成有關(guān)的過程,這些非結(jié)構(gòu)蛋白對(duì)病毒復(fù)制酶復(fù)合物的組裝至關(guān)重要。這些結(jié)果也進(jìn)一步說明了篩選出的候選藥物的準(zhǔn)確性。

到這里這篇文章的主要內(nèi)容就介紹完了,文章整合多來源多組學(xué)的數(shù)據(jù)利用多重DR方法得到了COVID-19候選藥物的清單。文章敘述詳細(xì),方法清晰,內(nèi)容豐富,目前,不止新冠肺炎,還有很多復(fù)雜疾病同樣困擾人類健康,例如同樣受到關(guān)注的癌癥等。這些疾病也有豐富的多組學(xué)數(shù)據(jù)資源,DR方法也同樣可以應(yīng)用到這些疾病數(shù)據(jù)中,來進(jìn)行多組學(xué)數(shù)據(jù)整合分析,實(shí)現(xiàn)老藥新用。
參考文獻(xiàn)
Multi-omics data integration and network-based analysis drives a multiplex drug repurposing approach to a shortlist of candidate drugs against COVID-19