全基因組關聯研究(Genome Wide Association Studies, GWAS)可以將特定基因與疾病聯系起來,幫助我們了解疾病的遺傳基礎。為了確定這些基因如何導致疾病,需要了解它們編碼的蛋白質的功能,并將特定的生物過程與疾病聯系起來。相互作用的蛋白質往往具有相似的功能,進而表現出相似的表型,可以說GWAS是將遺傳藍圖與疾病表型聯系起來。
最近,一項發表在《Nature Genetics》雜志上的新研究中,研究人員創建了一個相互作用蛋白網絡,也被稱為相互作用組,匯集了來自不同來源的證據,包括IntAct、Reactome、 SIGNOR這3個數據庫的蛋白質相互作用數據。利用這個相互作用組,研究人員確定了與基因相互作用的蛋白質組,對1002種人類特征進行了基于網絡的擴展,發現這種方法可以恢復已知的疾病基因或藥物靶點,為新靶點發現和藥物再利用產生了一系列新的見解。

內容解讀
1.通過網絡擴展增強GWAS的能力
選擇IntAct、Reactome、 SIGNOR這3個數據庫的蛋白質相互作用數據,并通過Neo4j圖形數據庫整合了上述數據,稱為“OTAR交互組”。所有上述蛋白質相互作用數據與STRING數據庫的數據結合,得到了一個包含18410個節點和571917條邊的網絡(圖1a),這個網絡也被稱為相互作用組。使用來自Open Targets Genetics的L2G評分模型將GWAS性狀關聯映射到基因,L2G評分模型組成如圖1b。對于每個GWAS性狀,相關基因被用作相互作用網絡中的“種子”,使用個性化PageRank(PPR)算法對網絡中所有其他蛋白質編碼基因進行評分,通過短路徑連接到GWAS性狀的基因獲得更高的分數(圖1c)。利用這個相互作用組,確定了與基因相互作用的蛋白質組,這些基因已通過 GWAS 與來自 21 個治療領域的 1002 種人類特征相關聯(圖1d)。為了評估網絡擴展恢復性狀相關基因的能力,作者還進行了基準測試(圖1e)。

2.網絡擴展識別相關的人類特征
用于治療某種疾病的藥物可能對相關疾病也有療效,因此識別可能具有共同遺傳基礎的性狀具有重要價值。網絡擴展分數可以從任何GWAS可用的候選基因集計算出來,使用實驗因子本體(Experimental Factor Ontology, EFO)中注釋的相似性,對基于網絡擴展的性狀-性狀關聯進行基準測試,網絡擴展分數的相似性確定了可能共享潛在遺傳和生物學過程的特征組。利用網絡擴展分數的兩兩距離構建層次聚類樹,定義了54個性狀亞群。性狀傾向于根據功能相似性分組,54個性狀中有34個的EFO項注釋到組內50%以上的性狀(圖2a)。在圖2b中,展示了根據網絡擴展分數分組特征的例子。從ChEMBL數據庫中獲得各聚類疾病的藥物適應證,從而找到可以藥物再利用的聚類以及藥物開發最需要的特性組。

3.跨人類性狀的基因模塊的多效性
通過識別與人類特征相關的基因模塊,來研究人類細胞生物學的多效性,從而能夠了解細胞生物學特定方面的擾動如何對多個特征產生廣泛的影響。總共發現2021個基因模塊與性狀之間的關聯,其中886個(43.8%)是與單個性狀相關的基因模塊,73個是與2種或2種以上性狀相關的多效性基因模塊(圖3a)。其中,與6個多效性最強的基因模塊相關的性狀數量在56-110個不等,這些模塊富含參與蛋白質泛素化、細胞外基質組織、RNA加工、G蛋白偶聯受體(GPCR)信號傳導等過程的基因(圖3b)。
4.共享機制和藥物再利用機會
與基因缺失研究相反,這里定義的多效性捕捉了多細胞相關過程。研究人員展示了與人類疾病相關模塊的2個例子,這些模塊富含具有已知致病性變異的基因,可用于繪制已批準藥物的靶點,以便于重新再利用。
(1)與骨和筋膜炎相關的特征可能具有共同的決定基因模塊,該基因模塊在Wnt信號相關基因中富集(圖3c)。先前報道Wnt信號基因與骨穩態以及不同類型的筋膜炎和掌腱膜攣縮相關;該基因模塊富集于攜帶ClinVar變異的基因,這些變異來自牙缺失和骨相關疾病患者;具有ClinVar變體的幾個基因,如LRP6,SOST,WNT1,WNT10A和WNT10B,但通過GWAS,發現與骨骼疾病無關。在小鼠模型中,該模塊的幾個基因與骨密度變化有關;此外,該模塊包含Romosozumab的靶點(SOST), Romosozumab是一種已被證明有效的治療骨質疏松的藥物。
(2)呼吸道和皮膚相關的10種免疫疾病共享三個基因模塊,一是與轉錄和蛋白酶體調節相關的高度多效性模塊;二是與模式識別受體信號相關的特異模塊;三是與JAK-STAT參與的細胞因子產生相關的特異模塊;這些模塊在哮喘患者可能具有致病變異的基因中顯著富集。對兩個最特異的基因模塊進行分組,如圖3d所示。幾個已知致病變異基因(例如IRAK3, TNF, ALOX5, TBX21),但是通過GWAS,發現這些基因與上述疾病無關。IRAK3,一種編碼蛋白質的假激酶,是GWAS未鑒定出的可用于哮喘的成藥性基因的一個例子,而研究已經發現IRAK3的蛋白錯義突變與哮喘有關,并且小鼠模型研究表明,在白介素-33 (IL-33)誘導的氣道炎癥中,IRAK3受到調節。雖然臨床上尚未使用針對IRAK3的藥物,但這一分析提示,它可能成為哮喘和其他相關疾病的藥物靶標。
作者在圖3d所示的模塊中鑒定了126種藥物的41個基因靶點。為了確定可能具有重新再利用潛力的藥物,排除了那些已經有針對治療領域的藥物,包括與該基因模塊相關的10種疾病,由此產生了18種靶向5個基因的藥物,包括:14種靶向PTGS2的藥物,主要用于治療風濕性疾病和骨關節炎;干擾素ALFACON-1或ALFA-2B(靶向IFNAR1和IFNAR2),主要對抗病毒感染;GALIXIMAB(CD80的抗體),淋巴瘤III期試驗;以及針對結直腸癌IL1A的抗體RA-18C3。這些藥物可用于呼吸道或皮膚自身免疫相關疾病。例如,RA-18C3在一項針對化膿性汗腺炎(反常性痤瘡)的小型II期試驗中顯示出益處。

5.相關免疫介導疾病的基因模塊分析
與免疫系統相關的特征在分析中是一個很好的代表,可以分為3組:第一組包含系統性和器官特異性疾病;第二組是免疫細胞測定;第三組是異質性更強的集群。第一組聚類分析顯示,可以細分為包含15種疾病的2個亞群:①炎癥性腸病 (IBD) 、多發性硬化(MS)和系統性紅斑狼瘡(LES)等9種疾病;②乳糜瀉(CeD)、白癜風(vit)等6種疾病;作者發現與GPCR信號傳導,中性粒細胞活化和干擾素信號傳導等相關的6個基因模塊,至少在不同亞群性狀中的一個中富集(圖4a,左),存在于這些模塊中的基因在關鍵免疫組織中有較高的表達量(圖4a,右)。
如圖4b所示,當存在顯著的基因水平重疊時,基因模塊之間存在緊密聯系。從與至少3種免疫介導疾病連鎖的模塊中選擇了基因,并保持了高置信的交互作用子集。結果顯示,在原發性免疫缺陷患者中發現了攜帶ClinVar變異體的多個基因(例如IRF9、IRF7、STAT1、STAT2),這些基因不是GWAS連接的基因,但在其網絡附近,因此證明了該基因模塊對這些疾病的重要性。
為了確定具有再利用潛力的藥物,作者排除了與免疫介導的疾病組在相同治療領域靶向疾病的藥物,最終確定了有20個靶點的49種藥物。其中包括ulimorelin,是饑餓素(Ghrelin)促分泌劑受體GHSR的激動劑,用于治療胃腸道梗阻。先前已經有文獻報道在與年齡相關的慢性炎癥、銀屑病和炎癥性腸病的背景下研究了胃Ghrelin激素信號,這提示了藥物的潛在再利用機會。

6.網絡輔助IBD候選基因優先級排序
在單個GWAS位點識別致病基因對于確定治療靶點的優先順序很重要,在本研究中,使用網絡擴展方法對IBD GWAS基因座中的基因進行優先級排序。使用兩種替代方法來定義網絡的“種子”基因。一是手動篩選了37個高置信度與克羅恩病或潰瘍性結腸炎有因果關系的基因,二是使用Open Targets L2G評分在已建立的IBD基因座自動選擇了110個L2G > 0.5的基因。經過手動篩選的種子基因在200 kb范圍內的網絡得分遠高于其他基因,表明大多數種子基因與其他種子基因有密切的交互作用(圖5a)。當只考慮L2G基因集中的種子基因時,情況也是如此,表明其中許多也是強的IBD候選基因(圖5b)。最后,檢測了低SNP P值在10 kb內具有高網絡評分的基因中的富集情況。發現在網絡評分較高的基因附近,低P值逐漸富集(圖5c),這是由于與SNPs連鎖的大量基因未達到用于發現基因座所需的典型全基因組顯著性閾值(5×10 - 8)。
將手動篩選的37個高置信IBD基因稱為“精選基因”, L2G網絡評分最終篩選出的42個基因稱為“候選基因”。精選基因包括藥物靶點TYK2、ICAM1和ITGA4,以及NOD2和IL23R,這些基因存在錯義變異體,提示它們是IBD的調節劑。最近有證據證實候選基因中有些基因也是強有力的IBD基因。RIPK2被證實與細菌傳感器NOD2的相互作用編碼炎癥信號傳導介質;有研究發現SLC26A3表達與潰瘍性結腸炎的臨床結局相關;網絡評分高但尚未在IBD背景下有明確特征的IBD候選基因還有PTPRC (T細胞活化所需的磷酸酶)和BTBD8,網絡分析發現 BTBD8通過WIPI2和ATG16L1參與自噬調節。
為了研究精選和候選基因的多效性,作者研究了與IBD相關的8個基因模塊。在37個精選基因和42個候選基因中,35個(14個精選和21個候選基因)位于這些模塊中。有趣的是,大多數這些基因都位于只與IBD相關的模塊中,特別是一個模塊富集了與通過JAK-STAT通路的受體信號通路相關的基因。相反,與IBD相關的最多效性模塊中只有很少的IBD候選基因。與作者預期一致,這些多效性模塊大多數與免疫系統相關的特征有關,但最多效性模塊則主要富集于與蛋白質泛素化相關的基因。這一分析表明JAK-STAT相關模塊可能是更傾向于IBD特異性的新型候選疾病基因和藥物靶點的最佳來源。

總結
本研究中,作者聯合IntAct、Reactome、 SIGNOR和STRING數據庫,得到了一個包含18410個節點和571917條邊的相互作用組。利用這個相互作用組,確定了與基因相互作用的蛋白質組,這些基因已通過 GWAS 與來自 21 個治療領域的 1002 種人類特征相關聯,從而進一步鑒定出了73個多效性基因模塊,詳細介紹了其中的2個例子(骨和筋膜炎共享基因模塊以及呼吸道和皮膚相關的10種免疫疾病共享基因模塊)。了解這些多效性關系對于藥物發現和靶點再利用來說是無價的,因為它們表明了一種疾病的治療可能對另一種疾病也有效的機會。此外,它們還可以提示避免使用某些藥物靶點,因為靶向這些靶點可能會導致不必要的副作用。最后,作者闡述了利用網絡擴展分數研究炎癥性腸病全基因組關聯研究位點的基因,并揭示了具有強功能和遺傳支持的與炎癥性腸病相關的基因。
參考文獻:
Barrio-Hernandez, I., Schwartzentruber, J., Shrivastava, A. et al. Network expansion of genetic associations defines a pleiotropy map of human cell biology. Nat Genet 55, 389–398 (2023). https://doi.org/10.1038/s41588-023-01327-9