美國Regeneron遺傳學中心Manuel A. Ferreira、Gon?alo R. Abecasis等研究人員合作完成對454,787名英國生物庫參與者的外顯子組測序和分析。該項研究成果于2021年10月18日在線發表在《自然》雜志上。人類遺傳學的一個主要目標是利用自然變異來理解改變基因組中每個蛋白質編碼基因的表型后果。在這里,研究人員使用外顯子組測序來探索英國生物庫研究中的454787名參與者的蛋白質變異及其后果。
研究人員發現了1200萬個編碼變異,包括大約100萬個功能缺失和大約180萬個有害的錯義變異。當這些基因與3994個與健康相關的性狀進行關聯測試時,研究人員發現有564個基因與性狀相關。在全基因組關聯研究(GWAS)中,罕見的變異關聯富集在位點上,但大多數(91%)獨立于常見的變異信號。研究人員發現了一些與肝病、眼病和癌癥相關的風險增加相關的特征,以及與高血壓(SLC9A3R2)、糖尿病(MAP3K15, FAM234A)和哮喘(SLC27A3)的風險降低相關的特征。6個基因與腦成像表型相關,包括2個與神經發育相關的基因(GBE1, PLD1)。在一個獨立隊列中,81%的可復制信號得到了確認;此外,在歐洲、亞洲和非洲血統的個體中,聯想信號通常是一致的。研究人員闡明了外顯子組測序識別基因性狀關聯的能力,闡明了基因功能和精確定位效應基因,這在規模上是GWAS信號的基礎。
人類遺傳學的一個主要目標是利用自然變異來理解基因組中每個蛋白質編碼基因的后果。為了實現這一目標,英國生物庫(UKB)外顯子組測序協會對454787名UKB參與者的外顯子組進行了測序,如前所述,95.8%的目標堿基覆蓋深度在20或20以上。研究人員在18893個基因的編碼區域的3900萬個堿基對中發現了1230萬個變異(表1),其中99.6%是罕見變異(小等位基因頻率(MAF<所有血統的1%)。該目錄比TOPMed4和gnomAD5聯合數據集包含的編碼變異(950萬常染色體變異)高出約1.3倍,比UKB通過填充(160萬常染色體變異,信息得分 > 0.3);在被識別的變量中,有3,457,173(每個個體的中位數為10,273)同義,7,878,586(每個個體9,292)錯義和915,289(每個個體214)推定功能喪失(pLOF)變量(表1),其中約一半在本數據集中只被觀察到一次(單變量;約23%(1,789,828)的錯義變異被5種預測算法預測為有害的。這種獨特的編碼變異目錄,結合龐大的樣本量和數以千計的可用表型,為大規模評估基因功能提供了獨特的機會。
GWAS用于尋找與疾病或者特定性狀相關聯的SNP位點,為了更加有效的挖掘信息,GWAS需要大樣本量和高密度的SNP分型結果,最佳的分型方案當然是全基因組測序,然而成百上千個樣本的全基因組測序其成本依然是巨大的,目前更加經濟有效的方案是GWAS芯片,針對特定人群,利用tag SNP的思想設計探針,覆蓋的SNP位點在幾十M的數量級。
相比全基因組測序,GWAS芯片確實更加經濟,但是其缺點也是顯而易見的,只能夠分析挖掘已知的SNP位點,而且位點數據量相對較少,要知道一個全基因組測序分析得到的SNP位點在幾百M左右。為了解決這個問題,科學家提出了基因型填充的思想。
genotype imputation,稱之為基因型填充,基本思想是利用單倍型來推斷芯片未覆蓋到的SNP位點的分型結果,在家系數據和獨立樣本的分析中都適用。家系樣本基因型填充的過程示意

部分樣本具有較為完整的SNP分型結果,依據這些樣本的分型結果構建在家系樣本中共享的單倍型,對應圖中方框標記的完整分型結果,針對基因型缺失的樣本,根據親緣關系推斷該樣本可能的單倍型,對于基因型缺失的位點,直接使用對應單倍型中的分型結果進行填充。
獨立樣本的基因型填充過程示意如下

GWAS通常不能闡明基因功能本身,因為
大多數蛋白質編碼變異不能通過填充獲得;
要確定與常見的非編碼變異相關的特定基因和機制并非易事。
為了闡明通過全外顯子組測序(WES)數據分析闡明基因功能的潛力,研究人員測試了罕見的pLOF和有害的誤感變異之間的關系,以及UKB研究中測量的3994個與健康相關的特征。這包括3702個二進制特征(至少100個病例)和292個來自不同領域的定量特征,包括人體測量學。大約一半的性狀是不常見的,人群患病率在0.1%至1%之間。使用REGENIE中實施的全基因組回歸方法進行關聯分析,該方法解釋了相關性,群體結構和多基因性,并使用快速,近似Firth回歸方法的二元結果。通過對每個基因中改變蛋白質的變異進行分組的基因負擔測試,分別對變異進行單獨和綜合測試。
研究人員首先分析了歐洲血統個體的WES數據(n = 430,998;大約95%的樣本大小),重點關注pLOF(包括停止增益、移碼、停止丟失、開始丟失和必要的剪接變異)和MAF高達1%的有害錯義變異。研究人員測試了18,811個基因中每個性狀和個體變異之間的關聯,以及每個基因變異的聚集,將pLOF或pLOF和有害的錯義變異聯合考慮在內。總的來說,研究人員進行了大約23億次關聯測試(補充表5),沒有證據表明種群結構或未建模的相關性對結果有實質性影響(補充圖3、4)。研究人員發現了8865個顯著關聯,涉及564個基因。在P 2.18 10 11處,492個性狀和2,283個基因性狀對,這對應于多次檢驗的Bonferroni校正(即P 0.05/ 23億檢驗;在這個閾值上,0.05的關聯信號在整個結果集上都是偶然出現的)。正如研究人員后來所顯示的,這些關聯中有8059個(91%)不能用與附近常見變異的連鎖不平衡(LD)來解釋,此外,81%的可用和可復制關聯在一個獨立但較小的隊列(n = 133,370個個體)中得到了證實。補充數據2提供了所有8865個關聯,以及兩個非冗余集,它們是通過保留最重要的信號獲得的:
每個基因性狀對(2,283個信號);
或者,在564個先導基因關聯中,415個是由于負擔信號(典型聚集的單核苷酸多態性(SNPs)和indel), 149個是由于單個罕見變異。在這149個基因中,20個與indel變異相關,129個與單核苷酸變異(SNV)相關。fda批準的藥物的基因靶標在相關基因中是常見的3.6倍比其余基因更重要(18,317個中的345個)。
發現的大量關聯為理解人類蛋白質改變變異的表型后果和確定治療靶點提供了機會。由于不可能詳盡地描述所有的新基因關聯,研究人員從四個廣泛的變異組中選擇了突出的例子:
(i)單例變異;
(ii)降低風險的變異;
(iii)在數量性狀上具有有利影響的變異
(iv)變異可能是體細胞起源的。
這些分組說明了UKB外顯子組資源的價值,以及研究人員的數據對進一步發現和分析的潛力。
研究人員首先關注在考慮單例變異負擔時發現的69個信號,這代表了最罕見的變異類型,并且使用現有的參考面板仍然遠遠超出基因分型陣列和填充的范圍。將表型與基因中單細胞的負擔聯系起來,是人類遺傳學中將基因與疾病聯系起來的最具說服力的方法之一。這69個基因中的每一個平均與5.7個(大部分相關)性狀相關,總共有393個關聯。據研究人員所知,這69個基因關聯中有15個以前沒有描述過,其中研究人員強調。首先,染色質重塑器EP400中pLOF單例變異的攜帶者握力較低,與敲除小鼠的結果一致,敲除小鼠也表現出周圍神經病變和嚴重的中樞神經系統脫髓鞘。其次,編碼內質網膜蛋白的RRBP1的單例pLOF變異與載脂蛋白B的低水平相關,以及低密度脂蛋白和總膽固醇水平的相似降低。與此一致的是,小鼠中Rrbp1的沉默改變了肝脂穩態,導致極低密度脂蛋白的生物生成減少。
對罕見變異進行關聯分析的一個主要動力是鑒定功能缺失變異與較低疾病風險相關的基因,因為這些基因可能是阻斷抗體或其他抑制模式的有吸引力的目標。然而,權力保護協會認同罕見變異很低(擴展數據圖2)。與此一致的是,我們發現只有五個基因與疾病的風險較低的結果在之前報道中:PCSK9、APOB、APOC3對高脂血癥的保護作用ABCG5和膽石病;IL33和過敏性疾病。
然而,值得注意的是,在閾值上觀察到另外11個保護性關聯,包括6個先前報道的(涉及ANGPTL3、IFIH1、DBH、PDE3B、SLC22A12和ZNF229)和4個潛在的新基因。第一個是SLC9A3R2和高血壓風險較低,收縮壓也有很強的相關性,收縮和舒張壓作為數量性狀進行分析,SBP關聯在discoverehr隊列中復制。SLC9A3R2編碼NHERF- 2,這是一個功能連接的腎臟表達的支架蛋白,通過與鈉/氫交換劑相互作用,在功能上連接到鈉吸收。與SLC9A3R2中低頻錯義變異的關聯先前在血壓GWAS中被發現,但該信號歸因于PKD1中附近的變異。研究人員發現,SLC9A3R2中罕見的pLOF負擔和有害的錯義變異,以及Arg171Trp,在PKD1中調節Arg2200Cys后,仍與收縮壓、舒張壓和高血壓高度相關。該信號與鈉平衡在調節血壓中的作用是一致的,表明阻斷SLC9A3R2可以為控制血壓提供一種手段。功能性和臨床研究評估這種可能性是有必要的。
第二個新的關聯是兒童哮喘風險的降低與SLC27A3中罕見pLOF和有害錯義變異的負擔之間的聯系。首先,一種罕見的pLOF和有害的錯義變異的負擔也與血液嗜酸性粒細胞計數降低相關,是過敏性哮喘中具有關鍵效應功能的細胞類型。其次,在discoverhr隊列中,哮喘和嗜酸性粒細胞計數具有一致的保護性關聯。SLC27A3編碼一種能激活長鏈脂肪酸的酰基輔酶a合成酶,在動脈、脂肪和肺組織中表達最高,在肺癌中表達上調。
第三個新的關聯是在PIEZO1中的錯義變異和靜脈曲張風險降低。研究人員之前的研究表明,該基因中罕見的pLOFs會使下肢無癥狀靜脈曲張的風險增加4.9倍,這種關聯現在被估計為2倍,大約8倍的數據。OR = 0.66,,提示該錯義變異可能具有功能獲得效應。這一點很重要,因為它表明,PIEZO1可能為一種沒有可用藥物干預的常見疾病提供治療途徑。
最后,第四個新的關聯是MAP3K15和對2型糖尿病的保護之間的關系,下面將更詳細地討論。在這四種新的保護關聯中,只有兩種(SLC9A3R2和PIEZO1)在P?<?10?7 分析TOPMed輸入數據。
與疾病性狀相關的保護性關聯的低產量與與疾病相關的數量性狀(如體重指數)的觀測結果形成對比,后者通常為遺傳研究提供更大的動力。具體來說,研究人員發現了131個基因,它們對數量性狀的影響方向與對疾病風險的有益影響一致。例如,研究人員在ASGR1中發現了與較低載脂蛋白B水平相關的低頻蛋白改變變異。ASGR1單倍不足曾被報道可降低心血管疾病的風險,這一觀察結果支持了抗ASGR1單克隆抗體作為降脂治療藥物的臨床開發。
作為另一個例子,研究人員發現較低的血清葡萄糖水平與FAM234A,與常見變異無關。值得注意的是,FAM234A中一個常見的內含子變異與2型糖尿病的低風險相關,并與一個調節型變異共定位,在多個組織中降低FAM234A的表達。與此一致的是,研究人員發現FAM234A中罕見的pLOFs與自我報告的糖尿病風險降低36%相關。總的來說,罕見和常見變異的結果都涉及FAM234A,一種功能未知的基因,在糖尿病的病因中。
然后,研究人員確定是否有其他基因的例子,既對數量性狀有利,又與相關疾病具有保護性(即使低于閾值)聯系,就像在FAM234A中觀察到的那樣。為此,研究人員對131個數量性狀的關聯信號進行了遺傳相關(rg)估計,然后選擇rg最顯著的疾病。如果有的話,研究人員只考慮在多次檢測校正后rg顯著的疾病。例如,嗜酸性粒細胞計數與哮喘匹配(rg = 0.37),眼壓與青光眼匹配(rg = 0.66);總的來說,研究人員發現129種性狀關聯的匹配疾病。使用這種方法,研究人員發現有13個基因與一種與基因相關的疾病有保護性關聯,經過多次測試校正后,這種關聯顯著; 在這些研究中,研究人員強調了MAP3K15中蛋白質改變變異的負擔與血紅蛋白A1c較低水平之間的聯系,降低血糖和對2型糖尿病的保護。此外,在discoverehr隊列中有支持所有三種表型的證據:A1c,葡萄糖和2型糖尿病。MAP3K15編碼一種廣泛表達的、參與凋亡細胞死亡的絲裂原活化蛋白激酶20,據研究人員所知,該蛋白激酶在2型糖尿病中未被發現。
在492個性狀中,至少有1個顯著的罕見變異關聯,其中20個值得注意,因為它們涉及2個或更多的基因具有罕見變異信號,但沒有來自GWAS的常見變異信號。值得注意的是,這20個性狀中有7個是髓系白血病,膿毒癥(4個基因)和5個額外的血液相關性狀,大多數相關基因先前涉及不確定潛力的克隆造血。這些CHIP基因的相關變異與年齡密切相關,推測雜合子中支持該變異的reads比例通常小于35%或大于65%。與這些關聯一致,是通過血液源DNA的外顯子測序確定的體細胞突變驅動的。
研究人員接下來調查了在歐洲群體中確定的關聯在其他祖先中共享的程度。為此,研究人員使用來自UKB隊列的10348名南亞人(SAS)、9089名非洲人(AFR)和2217名東亞人(EAS)的WES數據進行了關聯分析。當研究人員關注564個非冗余關聯(即每個基因最強的關聯,484個與數量性狀相關,80個與二元性狀相關),研究人員發現數量性狀的大部分關聯在祖先之間是共享的,但二進制性狀的關聯較少,這可能是由于低權。對于數量性狀,在SAS個體中,83%的關聯在AFR個體中,73%的關聯在EAS祖先個體中,74%的關聯在方向上是一致的,當考慮與 P?≤?0.05的關聯時,增加到92%以上。對于二元性狀,在SAS中有61%的關聯,在AFR中有61%的關聯,在EAS中有64%的關聯觀察到一致效應。當考慮到全部8865個關聯時,研究人員觀察到了類似的模式。然后研究人員詢問是否在非歐洲祖先中發現了任何新的關聯,并發現了4個在歐洲唯一的分析中沒有發現的基因(G6PD, HBQ1, OR51V1和RGS11)。
我們試圖使用來自Geisinger discoverehr隊列22 (n = 133,370個歐洲血統個體)的外顯子組測序數據來復制相關性。如上所述,為了便于解釋結果,我們重點研究了在UKB隊列中發現的歐洲血統個體的564個基因性狀關聯的非冗余集合,并確定是否可以在DiscovEHR中識別出匹配的性狀。在我們試圖復制的279種基因性狀關聯中,193種(69%;二元性狀有28個,數量性狀有165個)在名義上顯著(p≤?0.05),在方向上也一致,而隨機預期約有7個(279 0.05 0.5)。當只考慮212個具有至少80%復制能力的基因性狀的子集時,復制率為81%(212的172個)。補充數據2提供了在discoverhr中可用的所有關聯的復制結果(8,865個關聯中的4,083個),其中70%在名義上是顯著的,并且在方向上是一致的。
如上所述,將表型與基因中罕見編碼變異的負擔聯系起來,是人類遺傳學將基因與疾病聯系起來的一種令人信服的方式。正如研究人員在補充說明中所顯示的,當更詳細地剖析負擔相關性時,研究人員發現:
在單變量分析中,大多數(77%的7,449)關聯不能被檢測到,這表明它們通常被多個變量支持;
將MAF高達1%的變量聚集在一起的負擔測試發現了更多數量的總體顯著關聯,但在排除MAF在0.1%和1%之間的變量后,其中大多數仍然顯著,表明更大的產量可能是由在一個單一測試中捕獲跨越廣泛等位基因頻率的關聯信號的能力來解釋的;
在同一測試中,結合pLOFs和有害的錯義變異在更允許的MAF閾值時逐漸變得更有價值。這些結果證明了執行各種負擔測試發現遺傳關聯的效用。

復雜性狀遺傳關聯研究的一個主要挑戰是通過GWAS確定的數千個位點的效應基因。為了解決罕見變異關聯可能有助于定位效應基因的可能性,研究人員對492個具有罕見變異關聯的性狀進行了GWAS,并確定了共107,276個與常見變異(以下簡稱GWAS哨兵變異)的獨立關聯。正如補充說明中更詳細的描述,通過結合GWAS和WES數據的結果,研究人員發現:
在同一性狀中,罕見變異關聯通常在GWAS哨兵變異的1 Mb以內(8,865,74%);
當研究人員使用GWAS常見變異信號時,大多數罕見變異關聯仍然顯著;
顯著的罕見變異關聯(調節GWAS信號后)為11.4倍,更常見的基因位于1 Mb的GWAS高峰,當研究人員只關注基因最近GWAS哨兵變異濃縮達到59.4倍(圖1)。
這些結果顯示強勁的常見變異重疊信號從GWAS和罕見的變異信號exome-wide研究,這表明,罕見的變異負擔信號將識別數千個GWAS位點的效應基因。
為了說明上述發現的相關性,研究人員突出顯示了168個基因,它們在最接近GWAS哨兵變異體的基因中觀察到顯著的罕見變異體關聯。這表明這些很可能是GWAS信號的效應基因。作為一個例子,研究人員發現GWAS信號血清水平的維生素D, 其中5罕見的負擔蛋白修改變異基因的最近的GWAS峰值也與維生素D水平。其中,研究人員強調了與HAL的聯系,據研究人員所知,這是以前沒有報道過的。維生素D合成的第一步是在皮膚中進行的,需要紫外線的照射。HAL很可能在這一步驟中發揮作用,因為它編碼一種酶,將組氨酸轉化為反尿酸,反尿酸是一種主要的吸收紫外線的發色團,聚集在角質層中。因此,HAL的失活預計會降低表皮最外層阻擋紫外線的能力。與這種可能性一致,研究人員發現HAL中罕見的pLOF和有害的錯義變異的負擔與更高水平的維生素D、更容易皮膚曬黑和更高的光化性角化病和非黑色素瘤皮膚癌的風險相關。這些發現得到了性狀降低與一個共同變異的關聯的支持,該變異與一個表達數量性狀位點共定位,該位點增加了皮膚組織中HAL的表達。這些結果涉及維生素D水平和皮膚癌的HAL,并強調了一個等位基因系列,包括罕見的功能喪失的蛋白質改變變異(性狀增加)和常見的表達增加的非編碼變異(性狀降低)。
目前,UKB的大腦成像部分包括來自36,968個人的磁共振成像(MRI)的2077種表型。研究人員分別分析了這些數據,給出了大量的性狀和相對較小的樣品量,測試了與上述GWAS信號條件下的罕見變異的關聯。研究人員發現6個基因有84個關聯:AMPD3、GBE1、PLD1、PLEKHG3、STAB1和TF。在這些研究中,研究人員強調了彌漫性腦區域的低灰質白質對比(GWC)測量與PLD1中有害的錯義變異,一種能催化磷脂酰膽堿水解為磷脂酸和膽堿的酶,已被證明在突觸形成中有作用。GWC是一種模糊灰質和白質腦區界限的測量方法,被認為是組織完整性和髓磷脂降解的局部變化的指標,白質中的水分含量增加,或鐵沉積。較低的GWC與衰老和較低的認知指標有關,同時也與輕度認知障礙向癡呆轉化的比率增加有關。與這一發現相關,在附加的46個與腦成像表型相關的閾下基因中,4個基因對GWC有較大的性狀降低作用,其中2個基因在髓磷脂的形成和維持中有明確的作用,這與破壞這些基因功能的變異與低GWC之間的關聯一致。相反,在ST6GALNAC5,該基因可催化GM1b在大腦中生物合成神經節苷脂。這與目前的證據相一致,即大腦中特定神經節苷脂的相對豐度會隨著年齡和常見的神經狀況而改變。研究人員在補充說明中討論了與其他基因(GBE1、PLEKHG3、STAB1和TF)的顯著相關性。
在研究人員評估從UKB參與者3中測序的前49960個外顯子時,當考慮所有50萬研究參與者的外顯子數據時,研究人員使用了β -二項模型來預測包含雜合子pLOF變異的基因數量。在目前的樣品量中,觀察到的和預測的數量非常吻合。以研究人員當前的數據集為基線(包括所有祖先),當外顯子組序列數據可用時,研究人員擴展了研究人員的預測,以估計包含罕見pLOFs (MAF 1%)的基因數量:研究人員預測,18035、17853和8376個基因將分別產生至少50、100和500個雜合pLOF攜帶者。同樣,研究人員預測,當考慮到500萬個測序個體時,2630個、997個和529個基因將分別有至少10個、50個和100個純合pLOF攜帶者。UKB隊列主要由歐洲血統的個體組成,因此一個重要的問題是,這些預測是否也適用于祖先更多樣化的人群。為了解決這一問題,研究人員預測了pLOF攜帶者的數量,預計在500萬個人中(i) 46000個來自英國UKB的歐洲血統的人;(ii) 46000名英國人,包括23000名歐洲血統和23000名其他血統的人(10,000名南亞人、9,000名非洲人、2,000名東亞人、1,000名西班牙裔或拉丁美洲人以及1,000名混合血統的人)。研究人員發現,基于更多樣化的樣本集的預測略高于僅來自歐洲數據集的估計。
參考文獻
Backman, J.D., Li, A.H., Marcketta, A. et al. Exome sequencing and analysis of 454,787 UK Biobank participants. Nature 599, 628–634 (2021). https://doi.org/10.1038/s41586-021-04103-z
在未來的幾年里,研究人員希望所有UKB參與者都能獲得全基因組序列數據,從而能夠將對罕見變異的分析擴展到基因組的其余部分。研究人員的數據可以對即將到來的基因型推斷資源的價值進行早期評估,基因型推斷是一種廣泛使用的策略,用于增加基于陣列的關聯研究的能力、完整性和可解釋性。