IF35+|學到就是賺到!用別人的數據發自己的文章!
Meta分析已經爛大街了?生信數據挖掘也快淪陷了??君不見,現在想發篇高分文章有多難!不過好在啊,小編這段時間又get了新技能:全基因組關聯分析研究(GWAS)和孟德爾隨機化分析(MR),小編無處安放的愛學習的心又躁動起來了呢!這不,馬上就向大家來分享了!今天和大家一起學習的這篇文章發表在Nature Genetics(IF:35.209)雜志上,題目為“Genome-wide meta-analysis identifies 93 risk loci and enables risk prediction equivalent to monogenic forms of venous thromboembolism”。這可是GWAS +孟德爾隨機化+Meta分析的王炸組合啊!

正文開始前,先簡單價紹2個專業名詞:
GWAS:全基因組關聯分析研究(Genome-wide association studies),是對多個個體在全基因組范圍的遺傳變異多態性進行檢測,獲得基因型,進而將基因型與可觀測的性狀,即表型,進行群體水平的統計學分析,根據統計量或顯著性 p 值篩選出最有可能影響該性狀的遺傳變異,挖掘與性狀變異相關的基因。
MR:孟德爾隨機化(Mendelian randomization),一種近年來主要應用于流行病學病因推斷上的一種數據分析方式,實際上就是評估暴露(exposure)和結局(outcome)之間是否存在反向因果關系,也即結局是否能導致暴露的發生。
背景介紹
靜脈血栓栓塞癥(VTE)是一種包括深靜脈血栓形成(DVT)和肺栓塞(PE)在內的疾病,是全世界心血管疾病死亡的第三大原因,僅次于心肌梗死和中風。雙生子研究預測VTE的遺傳力約為50%,表明很大一部分VTE風險是由遺傳驅動的。F5、F2、PROC、PROS和SERPINC1等基因突變可導致遺傳性血栓形成。大規模全基因組關聯研究(GWAS)發現了多個風險位點。最大的GWAS包括26066例病例和624053例對照,確定了22個風險位點,共產生33個已知VTE位點。盡管在過去的20年里,靜脈血栓栓塞的預防、診斷和管理取得了重要進展,但靜脈血栓栓塞的發病率和靜脈血栓栓塞相關的死亡率在過去的10年里并沒有下降。因此,需要更好的策略來識別高危人群。
在本項研究中,作者對6個隊列進行了GWAS薈萃分析,包括81190例病例和1419671例健康對照,首先檢測了VTE的新風險位點,然后開發了VTE的多基因風險評分(PRS),并驗證了PRS在識別高危個體方面的臨床效果。
數據來源
6個隊列:①哥本哈根醫院心血管疾病生物樣本庫(CHB-CVDC)和丹麥獻血者研究隊列(DBDS),簡稱CHB-CVDC/DBDS;②deCODE;③Intermountain Healthcare隊列;④英國生物樣本庫(UKB);⑤FinnGen隊列;⑥百萬退伍軍人計劃(MVP)
總計納入81190例VTE樣本和1419671名歐州血統的健康對照樣本。
結果分析
1.全基因組關聯結果
作者進行了GWAS薈萃分析,共納入81190例VTE樣本和1419671例歐洲血統的對照樣本,確定了93個符合傳統全基因組意義的風險位點(P<5×10?8),其中62個被認為是新風險位點(即與先前報道的VTE位點不重疊)(圖1a、表1)。62個位點更是超過了更嚴格的顯著性閾值 (P<1?×?10-9),其中33個以前未報道。大多數風險等位基因具有適度的效應量(中位數比值比(OR)=1.05(四分位數范圍(IQR)= 0.03);5個先導變異的OR > 1.3,包括SERPINC1(rs2227624)和P2RX3(rs185432795)的新變異。基因組膨脹系數(λGC)為1.32,連鎖不平衡分數回歸(LDSC)截距為1.05。這表明大多數的膨脹是由于VTE的多基因性引起的。
作者調查了潛在表型DVT和PE的效應估計之間的相關性,發現所有變異的效應估計都具有方向一致性。為了給先前報道的VTE變異提供額外的證據支持,作者定義了一個不重疊的樣本(即沒有UKB和MVP),其中包括48538例病例和825617例對照。在迄今為止最大的VTE GWAS報道的36個新變異中,有21個在本研究中達到了全基因組意義,14個具有名義上的意義(P< 0.05),1個不存在相關性(rs563259534,P = 0.163)。


(a). VTE風險等位基因與頻率之間的關系。對≥1.3的變異進行注釋,灰色代表已知風險位點,紅色代表新風險位點(由于SERPINC1和P2RX3位點具有相似的風險等位基因頻率和效應,用同一個點表示。(b).93個VTE風險位點先導變異的DVT(x軸)和PE(y軸)效應圖。數據來源于deCODE、UKB、FinnGen和CHB-CVDC/DBDS生物樣本庫。(c).93個VTE風險位點的先導變異與24個選定的血液性狀之間的相關性熱圖。對24個性狀和93個先導變異進行Bonferroni校正后,顯著性差異數據用星號(*)標。
2.候選基因的優先級化
盡管GWAS的發現將性狀與基因組區域聯系起來,但將它們與特定的基因聯系起來就不那么簡單了。作者使用4種不同的方法對每個風險位點1 Mb內的基因進行優先排序:
(1)一種基于相似性基因的方法(PoPS)。
(2)利用GTEx v8(全血、肺、肝、脛動脈和脾臟)和deCODE(全血)兩個數據集的表達數量性狀基因座(eQTL)數據,探究對基因表達的影響。
(3)利用deCODE數據庫的蛋白質數量性狀位點分析(pQTL)數據,探究對血漿蛋白水平的影響。
(4)編碼變異的鑒定。
通過PoPS方法,作者對115個具有PoPS z>1的基因進行了優先級排序;使用eQTL數據,在41個位點上發現了共定位的證據(后視概率> 0.75);使用pQTL數據,發現了15個基因具有顯著的順式關聯;最后,通過研究先導單核苷酸多態性(SNPs)和高連鎖不平衡(LD)(r 2 > 0.8)的預測結果,確定了20個錯義變異,包括8個是先導變異(F5、SERPINC1、TRIM58、CPS1、SERPINA1、ABCA6、NPC1和GP6);通過整合這些證據,作者確定了26個候選基因,這些候選基因都至少有兩組證據支持(圖2)。
許多被優先排序的基因都是成熟的VTE基因(例如,F5、F2、PROC和PROS1)。作者從基因優先級分析中發現了兩個突出的基因位點。一個是rs56324901,位于木糖苷木糖基轉移酶 1(XXYLT1)下游756個堿基對,是多個組織(全血、脛骨動脈、肺和脾)中XXYLT1的顯著eQTL,且該等位基因與XXYLT1的cis-pQTL(rs3796159,r2=0.90)密切相關。XXYLT1編碼糖基轉移酶,該酶負責延伸凝血因子VII和IX上的o-鏈聚糖。另一個位點是MAP1A下游224 kb的rs139974673,是PoPS方法中得分最高的基因之一。此外,作者在MAP1A中鑒定了一個錯義變異(rs55707100,p.Pro2349Leu,r2= 0.95),與rs139974673處于高LD。MAP1A參與微管組裝,這是血細胞發育和功能的關鍵過程。
為了深入了解VTE所涉及的生物學機制,作者使用MAGMA軟件進行了基因集富集分析。與預期一致,分析結果強調了凝血級聯反應和血小板功能是主要途徑。

基于至少兩種證據映射到候選基因的全基因組顯著位點,即:PoPS,基因表達水平(eQTL),血漿蛋白水平(pQTL)和蛋白質編碼功能(Coding)。第一列該基因是否與PoPS z> 1相關;第二列顯示先導變異和eQTL變異之間是否存在共定位(后驗概率> 0.75);第三列顯示先導變異或高LD變異(r2> 0.8)是否與血漿蛋白水平相關;第四列顯示先導變異或高LD變異(r2>0.8)是否為蛋白編碼。
3.與血細胞特征和凝血因子的關系
為了進一步了解導致疾病的潛在機制,作者測試了先導變異與24個預先定義的血液性狀之間的關聯,這些性狀包括從GWAS匯總統計數據(n≤870000)確定的血細胞性狀和從蛋白質組學數據(n~36000)確定的凝血因子(圖1c)。如圖1c所示,作者發現大多數VTE變異與血細胞特征相關(P < 2.2 × 10?5) (n = 61 / 93),相關性最高的是血小板計數(n=39 / 93),其次是白細胞計數(n = 32 / 93)、中性粒細胞計數(n = 31 / 93)和平均血小板體積(n = 28 / 93)。在相對較小的數據集中,作者發現有19個變異與至少一種凝血因子性狀相關。9個變異同時與血細胞性狀和凝血因子相關,而19個變異中只有4個(SCARA5的rs10087301, SERPINC1的rs2227624, F11的rs2289252和KNG1的rs5030062)只與凝血因子相關。這些結果表明,血細胞特征是VTE生物學的核心。
4.VTE和動脈粥樣硬化疾病的遺傳結構
盡管靜脈血栓栓塞和動脈粥樣硬化疾病代表了不同血管床的特征,但最近的一項研究表明,它們具有共同的遺傳結構。在這里,作者調查了VTE和源于不同動脈床的三種動脈粥樣硬化疾病之間的遺傳重疊程度,即冠狀動脈疾病(CAD)、大動脈中風(LAS)和周圍血管疾病(PAD)。與研究結果一致,VTE與PAD的遺傳相關性最強(rg = 0.358, P=3.8 × 10?17),其次是LAS (rg = 0.258, P = 0.002)和CAD (rg = 0.187, P = 5.5 × 10?9)。接下來,作者使用MiXeR(方法)應用二元高斯混合模型,研究VTE與CAD、LAS和PAD之間共享遺傳架構的比例和方向,發現約有300種常見變異影響靜脈血栓栓塞。當考慮共享變異的數量占總數的比例時,作者發現,大多數影響VTE的變異也可能影響PAD和CAD(分別為99%和88%),而不到三分之一的VTE變異(26.7%)也影響LAS。然而,雖然那些同時影響VTE和PAD的變異在效應方向上表現出高水平的一致性(98%),但只有64%的CAD具有方向性一致性。
5.與選定性狀的表型和因果關系
為了探索VTE和其他性狀之間的遺傳關系,作者使用VTE的多基因風險評分(PRSVTE)進行了一項全表型關聯研究(PheWAS)。利用貝葉斯回歸和連續收縮先驗(PRS-CS)的多基因預測和衍生樣本(不含UKB)推導出了PRSVTE。衍生樣本包括57467例病例和1006954例對照,并在UKB中檢測PRSVTE與49種表型的相關性,包括惡性腫瘤、心臟代謝、自身免疫和呼吸性狀等(PBonferroni < 0.001)。結果顯示,PRSVTE與靜脈(即靜脈曲張)和動脈(即腹主動脈瘤)血管床的血管疾病相關(圖3a)。此外,PRSVTE與廣泛的免疫相關特征(如1型糖尿病、風濕病、哮喘)、代謝(如2型糖尿病、甲狀腺功能減退)和動脈粥樣硬化疾?。ㄈ缧募」K?、中風)相關。在數量性狀中,觀察到對體重指數(BMI)的影響最大(圖3b)。其他相關因素包括:血糖、糖化血紅蛋白、血壓、生活方式因素(吸煙、體育活動)、腎臟(肌酐)、炎癥(c反應蛋白)和血液學特征(血小板、單核細胞計數)。

(a).PRSVTE與二元性狀的相關性。(b).PRSVTE與數量性狀的相關性。顯著相關性用紅色標出(P < 0.001(0.05 / 49個性狀))。點大小與顯著性水平相對應。
6.PRS和VTE風險預測
PRSVTE包括約110萬個SNPs,并在23,723例VTE和412,717例對照中進行了相關性測試。作者評估了新的PRSVTE相對于先前發表的PRSs (5-SNP PRS和297-SNP PRS)和本研究中93個先導SNP(93-SNP PRS)的表型方差解釋(r2)。結果顯示,PRSVTE解釋了最高比例的表型方差(r2= 4.2%),與其他3個PRSs相比具有最高的OR值(1.51)。相比之下,5-SNP PRS僅解釋了2.1%的表型方差,每增加1 s.d的OR值為1.32(圖4a-b)。
以前的PRS研究表明,疾病風險在評分分布的兩端分布更為明顯。為了探究PRSVTE的臨床意義,作者比較了不同水平的高PRS(>90%、99%和>99.9%)與突變p.R534Q (F5,等位基因頻率約為3%)和G20210A (F2,等位基因頻率約為1.2%)在雜合、純合和復合雜合子狀態下的風險(圖4c)。PRSVTE排在前10% 的個體發生VTE的風險與p.R534Q雜合子攜帶者和G20210A雜合子攜帶者相似(OR≈2);與F2變異攜帶者(≈2.1%)相比,F5變異攜帶者處于高風險的個體數量是其兩倍多(≈4.5%)。純合子F2和F5變異攜帶者或復合雜合子通常被認為是VTE的高風險人群,建議在高危期(如懷孕)進行血栓預防。作者發現排在前1%的PRSVTE比G20210A純合子型(OR = 3.31)和復合雜合子型(OR = 3.94)具有更高的VTE風險(OR = 6.17)。作者還發現排在前0.1%的PRSVTE與純合子p.R534Q攜帶者的風險相似(OR = 7.30),盡管影響的個體數量是后者的兩倍(0.10% vs 0.05%;圖4 c)。
與4個主成分(PCs)模型相比,調整10個或20個后的結果沒有實質性變化。為了測試PRSVTE是否可以用于識別有風險的個體,作者評估了它的附加預測價值。在比較人口統計學和臨床風險因素的附加預測價值時發現,PRSVTE優于所有其他風險因素,包括由年齡、性別和PCs組成的基準模型以及F2和F5變異。F2或F5的變異狀態僅使曲線下面積(AUC)的預測增加了1.0%,而PRSVTE的AUC增加了4.0%(圖4d)。在聯合分析了所有其他VTE危險因素后,引入PRSVTE改善了VTE的風險預測,AUC增加2.4%(0.671 vs 0.695)(圖4d)。

(a).表型方差(R2)由四種不同的PRS解釋:5-SNP PRS, 297-SNP PRS, 93-SNP PRS和約110萬SNPs位點的PRS(1092045-SNP PRS)(b).在VTE中方差每增加1 s.d 的OR值變化。(c).根據多基因和單基因攜帶者狀態評估VTE風險。(d).PRS與人口統計學和臨床危險因素相關的預測性能。
7.PRS和風險調整
為了評估PRS與F2和F5風險位點之間的相互作用,作者開發了一種改良的PRS (PRSmod),其中排除了F2(±10 Mb)和F5(±10 Mb)內的變異。盡管PRSmod與未改良的PRS (VTE)相比,效果預測能力略有減弱(OR = 1.51 /1 s.d),但PRSmod與VTE仍密切相關(OR = 1.45/1s.d)。作者發現,PRSmod位于前10%且攜帶F2或F5變異的個體(10年VTE風險分別為5.5%和6.0%),比PRSmod低于10%的F2或F5變異攜帶者((10年VTE風險分別為2.9和3.6%))的風險幾乎增加了兩倍(圖5a,b)。作者還發現,PRSmod位于后10%且同時攜帶F2或F5變異的個體,其VTE風險與人群平均水平相似或更低(圖5a,b)。
近年來,VTE的預防已經從以醫院為基礎的危險因素擴展到保持心臟健康的生活方式。作者基于運動、吸煙、飲食和體重的四項生活習慣,調查了生活方式與VTE風險之間的關系。發現健康的生活方式與VTE的風險降低相關(風險比= 0.73),而不健康的生活方式增加了VTE的風險(風險比= 1.29,95%)。為了探究多基因風險和生活方式因素之間的關系,根據性別、年齡和生活方式(吸煙、定期鍛煉和肥胖)將個體分組。研究發現VTE的風險隨著危險因素的累積和更高的PRSVTE而增加(圖5c-d)。

(a).10年累積風險曲線顯示無VTE病史的個體中PRS和F2 (rs1799963)攜帶者狀態之間的相互作用。(b).10年累積風險曲線顯示無VTE的個體中PRS和F5 (rs6025)攜帶者狀態之間的相互作用。(c).根據年齡組、性別(男/女)、肥胖(是/否)、定期運動(是/否)、吸煙(是/否)和PRS組合,發生VTE的10年風險。
結束語
本文中,研究團隊納入來自6個隊列的81190例VTE病例和1419671例健康對照,對VTE進行了大規模GWAS meta分析,從而確定了93個VTE風險位點,其中包含62個先前未報道過的新位點。基于這些風險位點,研究團隊開發了一個VTE的多基因風險評分(PRSVTE),有助于區分低危和高危VTE患者。此外,研究人員以孟德爾隨機化為主題,分析了腎功能、教育程度、空腹血糖和收縮壓與VTE風險的因果關系。考慮到MR分析的結果圖表大多在附錄中展示,小編在這里不做過多贅述,感興趣的同學自己下載原文去研究吧~
參考文獻:
Ghouse, J., Tragante, V., Ahlberg, G. et al. Genome-wide meta-analysis identifies 93 risk loci and enables risk prediction equivalent to monogenic forms of venous thromboembolism. Nat Genet (2023). https://doi.org/10.1038/s41588-022-01286-7