美國Regeneron遺傳學(xué)中心Manuel A. Ferreira、Gon?alo R. Abecasis等研究人員合作完成對454,787名英國生物庫參與者的外顯子組測序和分析。該項(xiàng)研究成果于2021年10月18日在線發(fā)表在《自然》雜志上。人類遺傳學(xué)的一個主要目標(biāo)是利用自然變異來理解改變基因組中每個蛋白質(zhì)編碼基因的表型后果。在這里,研究人員使用外顯子組測序來探索英國生物庫研究中的454787名參與者的蛋白質(zhì)變異及其后果。
研究人員發(fā)現(xiàn)了1200萬個編碼變異,包括大約100萬個功能缺失和大約180萬個有害的錯義變異。當(dāng)這些基因與3994個與健康相關(guān)的性狀進(jìn)行關(guān)聯(lián)測試時,研究人員發(fā)現(xiàn)有564個基因與性狀相關(guān)。在全基因組關(guān)聯(lián)研究(GWAS)中,罕見的變異關(guān)聯(lián)富集在位點(diǎn)上,但大多數(shù)(91%)獨(dú)立于常見的變異信號。研究人員發(fā)現(xiàn)了一些與肝病、眼病和癌癥相關(guān)的風(fēng)險(xiǎn)增加相關(guān)的特征,以及與高血壓(SLC9A3R2)、糖尿病(MAP3K15, FAM234A)和哮喘(SLC27A3)的風(fēng)險(xiǎn)降低相關(guān)的特征。6個基因與腦成像表型相關(guān),包括2個與神經(jīng)發(fā)育相關(guān)的基因(GBE1, PLD1)。在一個獨(dú)立隊(duì)列中,81%的可復(fù)制信號得到了確認(rèn);此外,在歐洲、亞洲和非洲血統(tǒng)的個體中,聯(lián)想信號通常是一致的。研究人員闡明了外顯子組測序識別基因性狀關(guān)聯(lián)的能力,闡明了基因功能和精確定位效應(yīng)基因,這在規(guī)模上是GWAS信號的基礎(chǔ)。
人類遺傳學(xué)的一個主要目標(biāo)是利用自然變異來理解基因組中每個蛋白質(zhì)編碼基因的后果。為了實(shí)現(xiàn)這一目標(biāo),英國生物庫(UKB)外顯子組測序協(xié)會對454787名UKB參與者的外顯子組進(jìn)行了測序,如前所述,95.8%的目標(biāo)堿基覆蓋深度在20或20以上。研究人員在18893個基因的編碼區(qū)域的3900萬個堿基對中發(fā)現(xiàn)了1230萬個變異(表1),其中99.6%是罕見變異(小等位基因頻率(MAF<所有血統(tǒng)的1%)。該目錄比TOPMed4和gnomAD5聯(lián)合數(shù)據(jù)集包含的編碼變異(950萬常染色體變異)高出約1.3倍,比UKB通過填充(160萬常染色體變異,信息得分 > 0.3);在被識別的變量中,有3,457,173(每個個體的中位數(shù)為10,273)同義,7,878,586(每個個體9,292)錯義和915,289(每個個體214)推定功能喪失(pLOF)變量(表1),其中約一半在本數(shù)據(jù)集中只被觀察到一次(單變量;約23%(1,789,828)的錯義變異被5種預(yù)測算法預(yù)測為有害的。這種獨(dú)特的編碼變異目錄,結(jié)合龐大的樣本量和數(shù)以千計(jì)的可用表型,為大規(guī)模評估基因功能提供了獨(dú)特的機(jī)會。
GWAS用于尋找與疾病或者特定性狀相關(guān)聯(lián)的SNP位點(diǎn),為了更加有效的挖掘信息,GWAS需要大樣本量和高密度的SNP分型結(jié)果,最佳的分型方案當(dāng)然是全基因組測序,然而成百上千個樣本的全基因組測序其成本依然是巨大的,目前更加經(jīng)濟(jì)有效的方案是GWAS芯片,針對特定人群,利用tag SNP的思想設(shè)計(jì)探針,覆蓋的SNP位點(diǎn)在幾十M的數(shù)量級。
相比全基因組測序,GWAS芯片確實(shí)更加經(jīng)濟(jì),但是其缺點(diǎn)也是顯而易見的,只能夠分析挖掘已知的SNP位點(diǎn),而且位點(diǎn)數(shù)據(jù)量相對較少,要知道一個全基因組測序分析得到的SNP位點(diǎn)在幾百M(fèi)左右。為了解決這個問題,科學(xué)家提出了基因型填充的思想。
genotype imputation,稱之為基因型填充,基本思想是利用單倍型來推斷芯片未覆蓋到的SNP位點(diǎn)的分型結(jié)果,在家系數(shù)據(jù)和獨(dú)立樣本的分析中都適用。家系樣本基因型填充的過程示意

部分樣本具有較為完整的SNP分型結(jié)果,依據(jù)這些樣本的分型結(jié)果構(gòu)建在家系樣本中共享的單倍型,對應(yīng)圖中方框標(biāo)記的完整分型結(jié)果,針對基因型缺失的樣本,根據(jù)親緣關(guān)系推斷該樣本可能的單倍型,對于基因型缺失的位點(diǎn),直接使用對應(yīng)單倍型中的分型結(jié)果進(jìn)行填充。
獨(dú)立樣本的基因型填充過程示意如下

GWAS通常不能闡明基因功能本身,因?yàn)?/p>
大多數(shù)蛋白質(zhì)編碼變異不能通過填充獲得;
要確定與常見的非編碼變異相關(guān)的特定基因和機(jī)制并非易事。
為了闡明通過全外顯子組測序(WES)數(shù)據(jù)分析闡明基因功能的潛力,研究人員測試了罕見的pLOF和有害的誤感變異之間的關(guān)系,以及UKB研究中測量的3994個與健康相關(guān)的特征。這包括3702個二進(jìn)制特征(至少100個病例)和292個來自不同領(lǐng)域的定量特征,包括人體測量學(xué)。大約一半的性狀是不常見的,人群患病率在0.1%至1%之間。使用REGENIE中實(shí)施的全基因組回歸方法進(jìn)行關(guān)聯(lián)分析,該方法解釋了相關(guān)性,群體結(jié)構(gòu)和多基因性,并使用快速,近似Firth回歸方法的二元結(jié)果。通過對每個基因中改變蛋白質(zhì)的變異進(jìn)行分組的基因負(fù)擔(dān)測試,分別對變異進(jìn)行單獨(dú)和綜合測試。
研究人員首先分析了歐洲血統(tǒng)個體的WES數(shù)據(jù)(n = 430,998;大約95%的樣本大小),重點(diǎn)關(guān)注pLOF(包括停止增益、移碼、停止丟失、開始丟失和必要的剪接變異)和MAF高達(dá)1%的有害錯義變異。研究人員測試了18,811個基因中每個性狀和個體變異之間的關(guān)聯(lián),以及每個基因變異的聚集,將pLOF或pLOF和有害的錯義變異聯(lián)合考慮在內(nèi)。總的來說,研究人員進(jìn)行了大約23億次關(guān)聯(lián)測試(補(bǔ)充表5),沒有證據(jù)表明種群結(jié)構(gòu)或未建模的相關(guān)性對結(jié)果有實(shí)質(zhì)性影響(補(bǔ)充圖3、4)。研究人員發(fā)現(xiàn)了8865個顯著關(guān)聯(lián),涉及564個基因。在P 2.18 10 11處,492個性狀和2,283個基因性狀對,這對應(yīng)于多次檢驗(yàn)的Bonferroni校正(即P 0.05/ 23億檢驗(yàn);在這個閾值上,0.05的關(guān)聯(lián)信號在整個結(jié)果集上都是偶然出現(xiàn)的)。正如研究人員后來所顯示的,這些關(guān)聯(lián)中有8059個(91%)不能用與附近常見變異的連鎖不平衡(LD)來解釋,此外,81%的可用和可復(fù)制關(guān)聯(lián)在一個獨(dú)立但較小的隊(duì)列(n = 133,370個個體)中得到了證實(shí)。補(bǔ)充數(shù)據(jù)2提供了所有8865個關(guān)聯(lián),以及兩個非冗余集,它們是通過保留最重要的信號獲得的:
每個基因性狀對(2,283個信號);
或者,在564個先導(dǎo)基因關(guān)聯(lián)中,415個是由于負(fù)擔(dān)信號(典型聚集的單核苷酸多態(tài)性(SNPs)和indel), 149個是由于單個罕見變異。在這149個基因中,20個與indel變異相關(guān),129個與單核苷酸變異(SNV)相關(guān)。fda批準(zhǔn)的藥物的基因靶標(biāo)在相關(guān)基因中是常見的3.6倍比其余基因更重要(18,317個中的345個)。
發(fā)現(xiàn)的大量關(guān)聯(lián)為理解人類蛋白質(zhì)改變變異的表型后果和確定治療靶點(diǎn)提供了機(jī)會。由于不可能詳盡地描述所有的新基因關(guān)聯(lián),研究人員從四個廣泛的變異組中選擇了突出的例子:
(i)單例變異;
(ii)降低風(fēng)險(xiǎn)的變異;
(iii)在數(shù)量性狀上具有有利影響的變異
(iv)變異可能是體細(xì)胞起源的。
這些分組說明了UKB外顯子組資源的價值,以及研究人員的數(shù)據(jù)對進(jìn)一步發(fā)現(xiàn)和分析的潛力。
研究人員首先關(guān)注在考慮單例變異負(fù)擔(dān)時發(fā)現(xiàn)的69個信號,這代表了最罕見的變異類型,并且使用現(xiàn)有的參考面板仍然遠(yuǎn)遠(yuǎn)超出基因分型陣列和填充的范圍。將表型與基因中單細(xì)胞的負(fù)擔(dān)聯(lián)系起來,是人類遺傳學(xué)中將基因與疾病聯(lián)系起來的最具說服力的方法之一。這69個基因中的每一個平均與5.7個(大部分相關(guān))性狀相關(guān),總共有393個關(guān)聯(lián)。據(jù)研究人員所知,這69個基因關(guān)聯(lián)中有15個以前沒有描述過,其中研究人員強(qiáng)調(diào)。首先,染色質(zhì)重塑器EP400中pLOF單例變異的攜帶者握力較低,與敲除小鼠的結(jié)果一致,敲除小鼠也表現(xiàn)出周圍神經(jīng)病變和嚴(yán)重的中樞神經(jīng)系統(tǒng)脫髓鞘。其次,編碼內(nèi)質(zhì)網(wǎng)膜蛋白的RRBP1的單例pLOF變異與載脂蛋白B的低水平相關(guān),以及低密度脂蛋白和總膽固醇水平的相似降低。與此一致的是,小鼠中Rrbp1的沉默改變了肝脂穩(wěn)態(tài),導(dǎo)致極低密度脂蛋白的生物生成減少。
對罕見變異進(jìn)行關(guān)聯(lián)分析的一個主要動力是鑒定功能缺失變異與較低疾病風(fēng)險(xiǎn)相關(guān)的基因,因?yàn)檫@些基因可能是阻斷抗體或其他抑制模式的有吸引力的目標(biāo)。然而,權(quán)力保護(hù)協(xié)會認(rèn)同罕見變異很低(擴(kuò)展數(shù)據(jù)圖2)。與此一致的是,我們發(fā)現(xiàn)只有五個基因與疾病的風(fēng)險(xiǎn)較低的結(jié)果在之前報(bào)道中:PCSK9、APOB、APOC3對高脂血癥的保護(hù)作用ABCG5和膽石病;IL33和過敏性疾病。
然而,值得注意的是,在閾值上觀察到另外11個保護(hù)性關(guān)聯(lián),包括6個先前報(bào)道的(涉及ANGPTL3、IFIH1、DBH、PDE3B、SLC22A12和ZNF229)和4個潛在的新基因。第一個是SLC9A3R2和高血壓風(fēng)險(xiǎn)較低,收縮壓也有很強(qiáng)的相關(guān)性,收縮和舒張壓作為數(shù)量性狀進(jìn)行分析,SBP關(guān)聯(lián)在discoverehr隊(duì)列中復(fù)制。SLC9A3R2編碼NHERF- 2,這是一個功能連接的腎臟表達(dá)的支架蛋白,通過與鈉/氫交換劑相互作用,在功能上連接到鈉吸收。與SLC9A3R2中低頻錯義變異的關(guān)聯(lián)先前在血壓GWAS中被發(fā)現(xiàn),但該信號歸因于PKD1中附近的變異。研究人員發(fā)現(xiàn),SLC9A3R2中罕見的pLOF負(fù)擔(dān)和有害的錯義變異,以及Arg171Trp,在PKD1中調(diào)節(jié)Arg2200Cys后,仍與收縮壓、舒張壓和高血壓高度相關(guān)。該信號與鈉平衡在調(diào)節(jié)血壓中的作用是一致的,表明阻斷SLC9A3R2可以為控制血壓提供一種手段。功能性和臨床研究評估這種可能性是有必要的。
第二個新的關(guān)聯(lián)是兒童哮喘風(fēng)險(xiǎn)的降低與SLC27A3中罕見pLOF和有害錯義變異的負(fù)擔(dān)之間的聯(lián)系。首先,一種罕見的pLOF和有害的錯義變異的負(fù)擔(dān)也與血液嗜酸性粒細(xì)胞計(jì)數(shù)降低相關(guān),是過敏性哮喘中具有關(guān)鍵效應(yīng)功能的細(xì)胞類型。其次,在discoverhr隊(duì)列中,哮喘和嗜酸性粒細(xì)胞計(jì)數(shù)具有一致的保護(hù)性關(guān)聯(lián)。SLC27A3編碼一種能激活長鏈脂肪酸的酰基輔酶a合成酶,在動脈、脂肪和肺組織中表達(dá)最高,在肺癌中表達(dá)上調(diào)。
第三個新的關(guān)聯(lián)是在PIEZO1中的錯義變異和靜脈曲張風(fēng)險(xiǎn)降低。研究人員之前的研究表明,該基因中罕見的pLOFs會使下肢無癥狀靜脈曲張的風(fēng)險(xiǎn)增加4.9倍,這種關(guān)聯(lián)現(xiàn)在被估計(jì)為2倍,大約8倍的數(shù)據(jù)。OR = 0.66,,提示該錯義變異可能具有功能獲得效應(yīng)。這一點(diǎn)很重要,因?yàn)樗砻鳎琍IEZO1可能為一種沒有可用藥物干預(yù)的常見疾病提供治療途徑。
最后,第四個新的關(guān)聯(lián)是MAP3K15和對2型糖尿病的保護(hù)之間的關(guān)系,下面將更詳細(xì)地討論。在這四種新的保護(hù)關(guān)聯(lián)中,只有兩種(SLC9A3R2和PIEZO1)在P?<?10?7 分析TOPMed輸入數(shù)據(jù)。
與疾病性狀相關(guān)的保護(hù)性關(guān)聯(lián)的低產(chǎn)量與與疾病相關(guān)的數(shù)量性狀(如體重指數(shù))的觀測結(jié)果形成對比,后者通常為遺傳研究提供更大的動力。具體來說,研究人員發(fā)現(xiàn)了131個基因,它們對數(shù)量性狀的影響方向與對疾病風(fēng)險(xiǎn)的有益影響一致。例如,研究人員在ASGR1中發(fā)現(xiàn)了與較低載脂蛋白B水平相關(guān)的低頻蛋白改變變異。ASGR1單倍不足曾被報(bào)道可降低心血管疾病的風(fēng)險(xiǎn),這一觀察結(jié)果支持了抗ASGR1單克隆抗體作為降脂治療藥物的臨床開發(fā)。
作為另一個例子,研究人員發(fā)現(xiàn)較低的血清葡萄糖水平與FAM234A,與常見變異無關(guān)。值得注意的是,F(xiàn)AM234A中一個常見的內(nèi)含子變異與2型糖尿病的低風(fēng)險(xiǎn)相關(guān),并與一個調(diào)節(jié)型變異共定位,在多個組織中降低FAM234A的表達(dá)。與此一致的是,研究人員發(fā)現(xiàn)FAM234A中罕見的pLOFs與自我報(bào)告的糖尿病風(fēng)險(xiǎn)降低36%相關(guān)。總的來說,罕見和常見變異的結(jié)果都涉及FAM234A,一種功能未知的基因,在糖尿病的病因中。
然后,研究人員確定是否有其他基因的例子,既對數(shù)量性狀有利,又與相關(guān)疾病具有保護(hù)性(即使低于閾值)聯(lián)系,就像在FAM234A中觀察到的那樣。為此,研究人員對131個數(shù)量性狀的關(guān)聯(lián)信號進(jìn)行了遺傳相關(guān)(rg)估計(jì),然后選擇rg最顯著的疾病。如果有的話,研究人員只考慮在多次檢測校正后rg顯著的疾病。例如,嗜酸性粒細(xì)胞計(jì)數(shù)與哮喘匹配(rg = 0.37),眼壓與青光眼匹配(rg = 0.66);總的來說,研究人員發(fā)現(xiàn)129種性狀關(guān)聯(lián)的匹配疾病。使用這種方法,研究人員發(fā)現(xiàn)有13個基因與一種與基因相關(guān)的疾病有保護(hù)性關(guān)聯(lián),經(jīng)過多次測試校正后,這種關(guān)聯(lián)顯著; 在這些研究中,研究人員強(qiáng)調(diào)了MAP3K15中蛋白質(zhì)改變變異的負(fù)擔(dān)與血紅蛋白A1c較低水平之間的聯(lián)系,降低血糖和對2型糖尿病的保護(hù)。此外,在discoverehr隊(duì)列中有支持所有三種表型的證據(jù):A1c,葡萄糖和2型糖尿病。MAP3K15編碼一種廣泛表達(dá)的、參與凋亡細(xì)胞死亡的絲裂原活化蛋白激酶20,據(jù)研究人員所知,該蛋白激酶在2型糖尿病中未被發(fā)現(xiàn)。
在492個性狀中,至少有1個顯著的罕見變異關(guān)聯(lián),其中20個值得注意,因?yàn)樗鼈兩婕?個或更多的基因具有罕見變異信號,但沒有來自GWAS的常見變異信號。值得注意的是,這20個性狀中有7個是髓系白血病,膿毒癥(4個基因)和5個額外的血液相關(guān)性狀,大多數(shù)相關(guān)基因先前涉及不確定潛力的克隆造血。這些CHIP基因的相關(guān)變異與年齡密切相關(guān),推測雜合子中支持該變異的reads比例通常小于35%或大于65%。與這些關(guān)聯(lián)一致,是通過血液源DNA的外顯子測序確定的體細(xì)胞突變驅(qū)動的。
研究人員接下來調(diào)查了在歐洲群體中確定的關(guān)聯(lián)在其他祖先中共享的程度。為此,研究人員使用來自UKB隊(duì)列的10348名南亞人(SAS)、9089名非洲人(AFR)和2217名東亞人(EAS)的WES數(shù)據(jù)進(jìn)行了關(guān)聯(lián)分析。當(dāng)研究人員關(guān)注564個非冗余關(guān)聯(lián)(即每個基因最強(qiáng)的關(guān)聯(lián),484個與數(shù)量性狀相關(guān),80個與二元性狀相關(guān)),研究人員發(fā)現(xiàn)數(shù)量性狀的大部分關(guān)聯(lián)在祖先之間是共享的,但二進(jìn)制性狀的關(guān)聯(lián)較少,這可能是由于低權(quán)。對于數(shù)量性狀,在SAS個體中,83%的關(guān)聯(lián)在AFR個體中,73%的關(guān)聯(lián)在EAS祖先個體中,74%的關(guān)聯(lián)在方向上是一致的,當(dāng)考慮與 P?≤?0.05的關(guān)聯(lián)時,增加到92%以上。對于二元性狀,在SAS中有61%的關(guān)聯(lián),在AFR中有61%的關(guān)聯(lián),在EAS中有64%的關(guān)聯(lián)觀察到一致效應(yīng)。當(dāng)考慮到全部8865個關(guān)聯(lián)時,研究人員觀察到了類似的模式。然后研究人員詢問是否在非歐洲祖先中發(fā)現(xiàn)了任何新的關(guān)聯(lián),并發(fā)現(xiàn)了4個在歐洲唯一的分析中沒有發(fā)現(xiàn)的基因(G6PD, HBQ1, OR51V1和RGS11)。
我們試圖使用來自Geisinger discoverehr隊(duì)列22 (n = 133,370個歐洲血統(tǒng)個體)的外顯子組測序數(shù)據(jù)來復(fù)制相關(guān)性。如上所述,為了便于解釋結(jié)果,我們重點(diǎn)研究了在UKB隊(duì)列中發(fā)現(xiàn)的歐洲血統(tǒng)個體的564個基因性狀關(guān)聯(lián)的非冗余集合,并確定是否可以在DiscovEHR中識別出匹配的性狀。在我們試圖復(fù)制的279種基因性狀關(guān)聯(lián)中,193種(69%;二元性狀有28個,數(shù)量性狀有165個)在名義上顯著(p≤?0.05),在方向上也一致,而隨機(jī)預(yù)期約有7個(279 0.05 0.5)。當(dāng)只考慮212個具有至少80%復(fù)制能力的基因性狀的子集時,復(fù)制率為81%(212的172個)。補(bǔ)充數(shù)據(jù)2提供了在discoverhr中可用的所有關(guān)聯(lián)的復(fù)制結(jié)果(8,865個關(guān)聯(lián)中的4,083個),其中70%在名義上是顯著的,并且在方向上是一致的。
如上所述,將表型與基因中罕見編碼變異的負(fù)擔(dān)聯(lián)系起來,是人類遺傳學(xué)將基因與疾病聯(lián)系起來的一種令人信服的方式。正如研究人員在補(bǔ)充說明中所顯示的,當(dāng)更詳細(xì)地剖析負(fù)擔(dān)相關(guān)性時,研究人員發(fā)現(xiàn):
在單變量分析中,大多數(shù)(77%的7,449)關(guān)聯(lián)不能被檢測到,這表明它們通常被多個變量支持;
將MAF高達(dá)1%的變量聚集在一起的負(fù)擔(dān)測試發(fā)現(xiàn)了更多數(shù)量的總體顯著關(guān)聯(lián),但在排除MAF在0.1%和1%之間的變量后,其中大多數(shù)仍然顯著,表明更大的產(chǎn)量可能是由在一個單一測試中捕獲跨越廣泛等位基因頻率的關(guān)聯(lián)信號的能力來解釋的;
在同一測試中,結(jié)合pLOFs和有害的錯義變異在更允許的MAF閾值時逐漸變得更有價值。這些結(jié)果證明了執(zhí)行各種負(fù)擔(dān)測試發(fā)現(xiàn)遺傳關(guān)聯(lián)的效用。

復(fù)雜性狀遺傳關(guān)聯(lián)研究的一個主要挑戰(zhàn)是通過GWAS確定的數(shù)千個位點(diǎn)的效應(yīng)基因。為了解決罕見變異關(guān)聯(lián)可能有助于定位效應(yīng)基因的可能性,研究人員對492個具有罕見變異關(guān)聯(lián)的性狀進(jìn)行了GWAS,并確定了共107,276個與常見變異(以下簡稱GWAS哨兵變異)的獨(dú)立關(guān)聯(lián)。正如補(bǔ)充說明中更詳細(xì)的描述,通過結(jié)合GWAS和WES數(shù)據(jù)的結(jié)果,研究人員發(fā)現(xiàn):
在同一性狀中,罕見變異關(guān)聯(lián)通常在GWAS哨兵變異的1 Mb以內(nèi)(8,865,74%);
當(dāng)研究人員使用GWAS常見變異信號時,大多數(shù)罕見變異關(guān)聯(lián)仍然顯著;
顯著的罕見變異關(guān)聯(lián)(調(diào)節(jié)GWAS信號后)為11.4倍,更常見的基因位于1 Mb的GWAS高峰,當(dāng)研究人員只關(guān)注基因最近GWAS哨兵變異濃縮達(dá)到59.4倍(圖1)。
這些結(jié)果顯示強(qiáng)勁的常見變異重疊信號從GWAS和罕見的變異信號exome-wide研究,這表明,罕見的變異負(fù)擔(dān)信號將識別數(shù)千個GWAS位點(diǎn)的效應(yīng)基因。
為了說明上述發(fā)現(xiàn)的相關(guān)性,研究人員突出顯示了168個基因,它們在最接近GWAS哨兵變異體的基因中觀察到顯著的罕見變異體關(guān)聯(lián)。這表明這些很可能是GWAS信號的效應(yīng)基因。作為一個例子,研究人員發(fā)現(xiàn)GWAS信號血清水平的維生素D, 其中5罕見的負(fù)擔(dān)蛋白修改變異基因的最近的GWAS峰值也與維生素D水平。其中,研究人員強(qiáng)調(diào)了與HAL的聯(lián)系,據(jù)研究人員所知,這是以前沒有報(bào)道過的。維生素D合成的第一步是在皮膚中進(jìn)行的,需要紫外線的照射。HAL很可能在這一步驟中發(fā)揮作用,因?yàn)樗幋a一種酶,將組氨酸轉(zhuǎn)化為反尿酸,反尿酸是一種主要的吸收紫外線的發(fā)色團(tuán),聚集在角質(zhì)層中。因此,HAL的失活預(yù)計(jì)會降低表皮最外層阻擋紫外線的能力。與這種可能性一致,研究人員發(fā)現(xiàn)HAL中罕見的pLOF和有害的錯義變異的負(fù)擔(dān)與更高水平的維生素D、更容易皮膚曬黑和更高的光化性角化病和非黑色素瘤皮膚癌的風(fēng)險(xiǎn)相關(guān)。這些發(fā)現(xiàn)得到了性狀降低與一個共同變異的關(guān)聯(lián)的支持,該變異與一個表達(dá)數(shù)量性狀位點(diǎn)共定位,該位點(diǎn)增加了皮膚組織中HAL的表達(dá)。這些結(jié)果涉及維生素D水平和皮膚癌的HAL,并強(qiáng)調(diào)了一個等位基因系列,包括罕見的功能喪失的蛋白質(zhì)改變變異(性狀增加)和常見的表達(dá)增加的非編碼變異(性狀降低)。
目前,UKB的大腦成像部分包括來自36,968個人的磁共振成像(MRI)的2077種表型。研究人員分別分析了這些數(shù)據(jù),給出了大量的性狀和相對較小的樣品量,測試了與上述GWAS信號條件下的罕見變異的關(guān)聯(lián)。研究人員發(fā)現(xiàn)6個基因有84個關(guān)聯(lián):AMPD3、GBE1、PLD1、PLEKHG3、STAB1和TF。在這些研究中,研究人員強(qiáng)調(diào)了彌漫性腦區(qū)域的低灰質(zhì)白質(zhì)對比(GWC)測量與PLD1中有害的錯義變異,一種能催化磷脂酰膽堿水解為磷脂酸和膽堿的酶,已被證明在突觸形成中有作用。GWC是一種模糊灰質(zhì)和白質(zhì)腦區(qū)界限的測量方法,被認(rèn)為是組織完整性和髓磷脂降解的局部變化的指標(biāo),白質(zhì)中的水分含量增加,或鐵沉積。較低的GWC與衰老和較低的認(rèn)知指標(biāo)有關(guān),同時也與輕度認(rèn)知障礙向癡呆轉(zhuǎn)化的比率增加有關(guān)。與這一發(fā)現(xiàn)相關(guān),在附加的46個與腦成像表型相關(guān)的閾下基因中,4個基因?qū)WC有較大的性狀降低作用,其中2個基因在髓磷脂的形成和維持中有明確的作用,這與破壞這些基因功能的變異與低GWC之間的關(guān)聯(lián)一致。相反,在ST6GALNAC5,該基因可催化GM1b在大腦中生物合成神經(jīng)節(jié)苷脂。這與目前的證據(jù)相一致,即大腦中特定神經(jīng)節(jié)苷脂的相對豐度會隨著年齡和常見的神經(jīng)狀況而改變。研究人員在補(bǔ)充說明中討論了與其他基因(GBE1、PLEKHG3、STAB1和TF)的顯著相關(guān)性。
在研究人員評估從UKB參與者3中測序的前49960個外顯子時,當(dāng)考慮所有50萬研究參與者的外顯子數(shù)據(jù)時,研究人員使用了β -二項(xiàng)模型來預(yù)測包含雜合子pLOF變異的基因數(shù)量。在目前的樣品量中,觀察到的和預(yù)測的數(shù)量非常吻合。以研究人員當(dāng)前的數(shù)據(jù)集為基線(包括所有祖先),當(dāng)外顯子組序列數(shù)據(jù)可用時,研究人員擴(kuò)展了研究人員的預(yù)測,以估計(jì)包含罕見pLOFs (MAF 1%)的基因數(shù)量:研究人員預(yù)測,18035、17853和8376個基因?qū)⒎謩e產(chǎn)生至少50、100和500個雜合pLOF攜帶者。同樣,研究人員預(yù)測,當(dāng)考慮到500萬個測序個體時,2630個、997個和529個基因?qū)⒎謩e有至少10個、50個和100個純合pLOF攜帶者。UKB隊(duì)列主要由歐洲血統(tǒng)的個體組成,因此一個重要的問題是,這些預(yù)測是否也適用于祖先更多樣化的人群。為了解決這一問題,研究人員預(yù)測了pLOF攜帶者的數(shù)量,預(yù)計(jì)在500萬個人中(i) 46000個來自英國UKB的歐洲血統(tǒng)的人;(ii) 46000名英國人,包括23000名歐洲血統(tǒng)和23000名其他血統(tǒng)的人(10,000名南亞人、9,000名非洲人、2,000名東亞人、1,000名西班牙裔或拉丁美洲人以及1,000名混合血統(tǒng)的人)。研究人員發(fā)現(xiàn),基于更多樣化的樣本集的預(yù)測略高于僅來自歐洲數(shù)據(jù)集的估計(jì)。
參考文獻(xiàn)
Backman, J.D., Li, A.H., Marcketta, A. et al. Exome sequencing and analysis of 454,787 UK Biobank participants. Nature 599, 628–634 (2021). https://doi.org/10.1038/s41586-021-04103-z
在未來的幾年里,研究人員希望所有UKB參與者都能獲得全基因組序列數(shù)據(jù),從而能夠?qū)币娮儺惖姆治鰯U(kuò)展到基因組的其余部分。研究人員的數(shù)據(jù)可以對即將到來的基因型推斷資源的價值進(jìn)行早期評估,基因型推斷是一種廣泛使用的策略,用于增加基于陣列的關(guān)聯(lián)研究的能力、完整性和可解釋性。