一項(xiàng)研究—對454787名英國生物庫參與者進(jìn)行外顯子組測序和分析

文獻(xiàn)解讀 dingr ·2022年3月8日 12:16

美國Regeneron遺傳學(xué)中心Manuel A. Ferreira、Gon?alo R. Abecasis等研究人員合作完成對454,787名英國生物庫參與者的外顯子組測序和分析。該項(xiàng)研究成果于2021年10月18日在線發(fā)表在《自然》雜志上。人類遺傳學(xué)的一個主要目標(biāo)是利用自然變異來理解改變基因組中每個蛋白質(zhì)編碼基因的表型后果。在這里，研究人員使用外顯子組測序來探索英國生物庫研究中的454787名參與者的蛋白質(zhì)變異及其后果。

摘要

研究人員發(fā)現(xiàn)了1200萬個編碼變異，包括大約100萬個功能缺失和大約180萬個有害的錯義變異。當(dāng)這些基因與3994個與健康相關(guān)的性狀進(jìn)行關(guān)聯(lián)測試時，研究人員發(fā)現(xiàn)有564個基因與性狀相關(guān)。在全基因組關(guān)聯(lián)研究(GWAS)中，罕見的變異關(guān)聯(lián)富集在位點(diǎn)上，但大多數(shù)(91%)獨(dú)立于常見的變異信號。研究人員發(fā)現(xiàn)了一些與肝病、眼病和癌癥相關(guān)的風(fēng)險(xiǎn)增加相關(guān)的特征，以及與高血壓(SLC9A3R2)、糖尿病(MAP3K15, FAM234A)和哮喘(SLC27A3)的風(fēng)險(xiǎn)降低相關(guān)的特征。6個基因與腦成像表型相關(guān)，包括2個與神經(jīng)發(fā)育相關(guān)的基因(GBE1, PLD1)。在一個獨(dú)立隊(duì)列中，81%的可復(fù)制信號得到了確認(rèn);此外，在歐洲、亞洲和非洲血統(tǒng)的個體中，聯(lián)想信號通常是一致的。研究人員闡明了外顯子組測序識別基因性狀關(guān)聯(lián)的能力，闡明了基因功能和精確定位效應(yīng)基因，這在規(guī)模上是GWAS信號的基礎(chǔ)。

人類遺傳學(xué)的一個主要目標(biāo)是利用自然變異來理解基因組中每個蛋白質(zhì)編碼基因的后果。為了實(shí)現(xiàn)這一目標(biāo)，英國生物庫(UKB)外顯子組測序協(xié)會對454787名UKB參與者的外顯子組進(jìn)行了測序，如前所述，95.8%的目標(biāo)堿基覆蓋深度在20或20以上。研究人員在18893個基因的編碼區(qū)域的3900萬個堿基對中發(fā)現(xiàn)了1230萬個變異(表1)，其中99.6%是罕見變異(小等位基因頻率(MAF<所有血統(tǒng)的1%)。該目錄比TOPMed4和gnomAD5聯(lián)合數(shù)據(jù)集包含的編碼變異(950萬常染色體變異)高出約1.3倍，比UKB通過填充(160萬常染色體變異，信息得分 > 0.3);在被識別的變量中，有3,457,173(每個個體的中位數(shù)為10,273)同義，7,878,586(每個個體9,292)錯義和915,289(每個個體214)推定功能喪失(pLOF)變量(表1)，其中約一半在本數(shù)據(jù)集中只被觀察到一次(單變量;約23%(1,789,828)的錯義變異被5種預(yù)測算法預(yù)測為有害的。這種獨(dú)特的編碼變異目錄，結(jié)合龐大的樣本量和數(shù)以千計(jì)的可用表型，為大規(guī)模評估基因功能提供了獨(dú)特的機(jī)會。

擴(kuò)展

GWAS用于尋找與疾病或者特定性狀相關(guān)聯(lián)的SNP位點(diǎn)，為了更加有效的挖掘信息，GWAS需要大樣本量和高密度的SNP分型結(jié)果，最佳的分型方案當(dāng)然是全基因組測序，然而成百上千個樣本的全基因組測序其成本依然是巨大的，目前更加經(jīng)濟(jì)有效的方案是GWAS芯片，針對特定人群，利用tag SNP的思想設(shè)計(jì)探針，覆蓋的SNP位點(diǎn)在幾十M的數(shù)量級。

相比全基因組測序，GWAS芯片確實(shí)更加經(jīng)濟(jì)，但是其缺點(diǎn)也是顯而易見的，只能夠分析挖掘已知的SNP位點(diǎn)，而且位點(diǎn)數(shù)據(jù)量相對較少，要知道一個全基因組測序分析得到的SNP位點(diǎn)在幾百M(fèi)左右。為了解決這個問題，科學(xué)家提出了基因型填充的思想。

genotype imputation，稱之為基因型填充，基本思想是利用單倍型來推斷芯片未覆蓋到的SNP位點(diǎn)的分型結(jié)果，在家系數(shù)據(jù)和獨(dú)立樣本的分析中都適用。家系樣本基因型填充的過程示意

部分樣本具有較為完整的SNP分型結(jié)果，依據(jù)這些樣本的分型結(jié)果構(gòu)建在家系樣本中共享的單倍型，對應(yīng)圖中方框標(biāo)記的完整分型結(jié)果，針對基因型缺失的樣本，根據(jù)親緣關(guān)系推斷該樣本可能的單倍型，對于基因型缺失的位點(diǎn)，直接使用對應(yīng)單倍型中的分型結(jié)果進(jìn)行填充。

獨(dú)立樣本的基因型填充過程示意如下

罕見變異的關(guān)聯(lián)研究

GWAS通常不能闡明基因功能本身，因?yàn)?/p>

大多數(shù)蛋白質(zhì)編碼變異不能通過填充獲得;

要確定與常見的非編碼變異相關(guān)的特定基因和機(jī)制并非易事。

為了闡明通過全外顯子組測序(WES)數(shù)據(jù)分析闡明基因功能的潛力，研究人員測試了罕見的pLOF和有害的誤感變異之間的關(guān)系，以及UKB研究中測量的3994個與健康相關(guān)的特征。這包括3702個二進(jìn)制特征(至少100個病例)和292個來自不同領(lǐng)域的定量特征，包括人體測量學(xué)。大約一半的性狀是不常見的，人群患病率在0.1%至1%之間。使用REGENIE中實(shí)施的全基因組回歸方法進(jìn)行關(guān)聯(lián)分析，該方法解釋了相關(guān)性，群體結(jié)構(gòu)和多基因性，并使用快速，近似Firth回歸方法的二元結(jié)果。通過對每個基因中改變蛋白質(zhì)的變異進(jìn)行分組的基因負(fù)擔(dān)測試，分別對變異進(jìn)行單獨(dú)和綜合測試。

研究人員首先分析了歐洲血統(tǒng)個體的WES數(shù)據(jù)(n = 430,998;大約95%的樣本大小)，重點(diǎn)關(guān)注pLOF(包括停止增益、移碼、停止丟失、開始丟失和必要的剪接變異)和MAF高達(dá)1%的有害錯義變異。研究人員測試了18,811個基因中每個性狀和個體變異之間的關(guān)聯(lián)，以及每個基因變異的聚集，將pLOF或pLOF和有害的錯義變異聯(lián)合考慮在內(nèi)。總的來說，研究人員進(jìn)行了大約23億次關(guān)聯(lián)測試(補(bǔ)充表5)，沒有證據(jù)表明種群結(jié)構(gòu)或未建模的相關(guān)性對結(jié)果有實(shí)質(zhì)性影響(補(bǔ)充圖3、4)。研究人員發(fā)現(xiàn)了8865個顯著關(guān)聯(lián)，涉及564個基因。在P 2.18 10 11處，492個性狀和2,283個基因性狀對，這對應(yīng)于多次檢驗(yàn)的Bonferroni校正(即P 0.05/ 23億檢驗(yàn);在這個閾值上，0.05的關(guān)聯(lián)信號在整個結(jié)果集上都是偶然出現(xiàn)的)。正如研究人員后來所顯示的，這些關(guān)聯(lián)中有8059個(91%)不能用與附近常見變異的連鎖不平衡(LD)來解釋，此外，81%的可用和可復(fù)制關(guān)聯(lián)在一個獨(dú)立但較小的隊(duì)列(n = 133,370個個體)中得到了證實(shí)。補(bǔ)充數(shù)據(jù)2提供了所有8865個關(guān)聯(lián)，以及兩個非冗余集，它們是通過保留最重要的信號獲得的:

每個基因性狀對(2,283個信號);

或者，在564個先導(dǎo)基因關(guān)聯(lián)中，415個是由于負(fù)擔(dān)信號(典型聚集的單核苷酸多態(tài)性(SNPs)和indel)， 149個是由于單個罕見變異。在這149個基因中，20個與indel變異相關(guān)，129個與單核苷酸變異(SNV)相關(guān)。fda批準(zhǔn)的藥物的基因靶標(biāo)在相關(guān)基因中是常見的3.6倍比其余基因更重要(18,317個中的345個)。

發(fā)現(xiàn)的大量關(guān)聯(lián)為理解人類蛋白質(zhì)改變變異的表型后果和確定治療靶點(diǎn)提供了機(jī)會。由于不可能詳盡地描述所有的新基因關(guān)聯(lián)，研究人員從四個廣泛的變異組中選擇了突出的例子:

(i)單例變異;

(ii)降低風(fēng)險(xiǎn)的變異;

(iii)在數(shù)量性狀上具有有利影響的變異

(iv)變異可能是體細(xì)胞起源的。

這些分組說明了UKB外顯子組資源的價值，以及研究人員的數(shù)據(jù)對進(jìn)一步發(fā)現(xiàn)和分析的潛力。

與單例變量的關(guān)聯(lián)

研究人員首先關(guān)注在考慮單例變異負(fù)擔(dān)時發(fā)現(xiàn)的69個信號，這代表了最罕見的變異類型，并且使用現(xiàn)有的參考面板仍然遠(yuǎn)遠(yuǎn)超出基因分型陣列和填充的范圍。將表型與基因中單細(xì)胞的負(fù)擔(dān)聯(lián)系起來，是人類遺傳學(xué)中將基因與疾病聯(lián)系起來的最具說服力的方法之一。這69個基因中的每一個平均與5.7個(大部分相關(guān))性狀相關(guān)，總共有393個關(guān)聯(lián)。據(jù)研究人員所知，這69個基因關(guān)聯(lián)中有15個以前沒有描述過，其中研究人員強(qiáng)調(diào)。首先，染色質(zhì)重塑器EP400中pLOF單例變異的攜帶者握力較低，與敲除小鼠的結(jié)果一致，敲除小鼠也表現(xiàn)出周圍神經(jīng)病變和嚴(yán)重的中樞神經(jīng)系統(tǒng)脫髓鞘。其次，編碼內(nèi)質(zhì)網(wǎng)膜蛋白的RRBP1的單例pLOF變異與載脂蛋白B的低水平相關(guān)，以及低密度脂蛋白和總膽固醇水平的相似降低。與此一致的是，小鼠中Rrbp1的沉默改變了肝脂穩(wěn)態(tài)，導(dǎo)致極低密度脂蛋白的生物生成減少。

與疾病結(jié)果的保護(hù)性聯(lián)系

對罕見變異進(jìn)行關(guān)聯(lián)分析的一個主要動力是鑒定功能缺失變異與較低疾病風(fēng)險(xiǎn)相關(guān)的基因，因?yàn)檫@些基因可能是阻斷抗體或其他抑制模式的有吸引力的目標(biāo)。然而,權(quán)力保護(hù)協(xié)會認(rèn)同罕見變異很低(擴(kuò)展數(shù)據(jù)圖2)。與此一致的是,我們發(fā)現(xiàn)只有五個基因與疾病的風(fēng)險(xiǎn)較低的結(jié)果在之前報(bào)道中:PCSK9、APOB、APOC3對高脂血癥的保護(hù)作用ABCG5和膽石病;IL33和過敏性疾病。

然而，值得注意的是，在閾值上觀察到另外11個保護(hù)性關(guān)聯(lián)，包括6個先前報(bào)道的(涉及ANGPTL3、IFIH1、DBH、PDE3B、SLC22A12和ZNF229)和4個潛在的新基因。第一個是SLC9A3R2和高血壓風(fēng)險(xiǎn)較低，收縮壓也有很強(qiáng)的相關(guān)性，收縮和舒張壓作為數(shù)量性狀進(jìn)行分析，SBP關(guān)聯(lián)在discoverehr隊(duì)列中復(fù)制。SLC9A3R2編碼NHERF- 2，這是一個功能連接的腎臟表達(dá)的支架蛋白，通過與鈉/氫交換劑相互作用，在功能上連接到鈉吸收。與SLC9A3R2中低頻錯義變異的關(guān)聯(lián)先前在血壓GWAS中被發(fā)現(xiàn)，但該信號歸因于PKD1中附近的變異。研究人員發(fā)現(xiàn)，SLC9A3R2中罕見的pLOF負(fù)擔(dān)和有害的錯義變異，以及Arg171Trp，在PKD1中調(diào)節(jié)Arg2200Cys后，仍與收縮壓、舒張壓和高血壓高度相關(guān)。該信號與鈉平衡在調(diào)節(jié)血壓中的作用是一致的，表明阻斷SLC9A3R2可以為控制血壓提供一種手段。功能性和臨床研究評估這種可能性是有必要的。

第二個新的關(guān)聯(lián)是兒童哮喘風(fēng)險(xiǎn)的降低與SLC27A3中罕見pLOF和有害錯義變異的負(fù)擔(dān)之間的聯(lián)系。首先，一種罕見的pLOF和有害的錯義變異的負(fù)擔(dān)也與血液嗜酸性粒細(xì)胞計(jì)數(shù)降低相關(guān)，是過敏性哮喘中具有關(guān)鍵效應(yīng)功能的細(xì)胞類型。其次，在discoverhr隊(duì)列中，哮喘和嗜酸性粒細(xì)胞計(jì)數(shù)具有一致的保護(hù)性關(guān)聯(lián)。SLC27A3編碼一種能激活長鏈脂肪酸的酰基輔酶a合成酶，在動脈、脂肪和肺組織中表達(dá)最高，在肺癌中表達(dá)上調(diào)。

第三個新的關(guān)聯(lián)是在PIEZO1中的錯義變異和靜脈曲張風(fēng)險(xiǎn)降低。研究人員之前的研究表明，該基因中罕見的pLOFs會使下肢無癥狀靜脈曲張的風(fēng)險(xiǎn)增加4.9倍，這種關(guān)聯(lián)現(xiàn)在被估計(jì)為2倍，大約8倍的數(shù)據(jù)。OR = 0.66,，提示該錯義變異可能具有功能獲得效應(yīng)。這一點(diǎn)很重要，因?yàn)樗砻鳎琍IEZO1可能為一種沒有可用藥物干預(yù)的常見疾病提供治療途徑。

最后，第四個新的關(guān)聯(lián)是MAP3K15和對2型糖尿病的保護(hù)之間的關(guān)系，下面將更詳細(xì)地討論。在這四種新的保護(hù)關(guān)聯(lián)中，只有兩種(SLC9A3R2和PIEZO1)在P?<?10?7 分析TOPMed輸入數(shù)據(jù)。

與數(shù)量性狀的保護(hù)性關(guān)聯(lián)

與疾病性狀相關(guān)的保護(hù)性關(guān)聯(lián)的低產(chǎn)量與與疾病相關(guān)的數(shù)量性狀(如體重指數(shù))的觀測結(jié)果形成對比，后者通常為遺傳研究提供更大的動力。具體來說，研究人員發(fā)現(xiàn)了131個基因，它們對數(shù)量性狀的影響方向與對疾病風(fēng)險(xiǎn)的有益影響一致。例如，研究人員在ASGR1中發(fā)現(xiàn)了與較低載脂蛋白B水平相關(guān)的低頻蛋白改變變異。ASGR1單倍不足曾被報(bào)道可降低心血管疾病的風(fēng)險(xiǎn)，這一觀察結(jié)果支持了抗ASGR1單克隆抗體作為降脂治療藥物的臨床開發(fā)。

作為另一個例子，研究人員發(fā)現(xiàn)較低的血清葡萄糖水平與FAM234A，與常見變異無關(guān)。值得注意的是，F(xiàn)AM234A中一個常見的內(nèi)含子變異與2型糖尿病的低風(fēng)險(xiǎn)相關(guān)，并與一個調(diào)節(jié)型變異共定位，在多個組織中降低FAM234A的表達(dá)。與此一致的是，研究人員發(fā)現(xiàn)FAM234A中罕見的pLOFs與自我報(bào)告的糖尿病風(fēng)險(xiǎn)降低36%相關(guān)。總的來說，罕見和常見變異的結(jié)果都涉及FAM234A，一種功能未知的基因，在糖尿病的病因中。

然后，研究人員確定是否有其他基因的例子，既對數(shù)量性狀有利，又與相關(guān)疾病具有保護(hù)性(即使低于閾值)聯(lián)系，就像在FAM234A中觀察到的那樣。為此，研究人員對131個數(shù)量性狀的關(guān)聯(lián)信號進(jìn)行了遺傳相關(guān)(rg)估計(jì)，然后選擇rg最顯著的疾病。如果有的話，研究人員只考慮在多次檢測校正后rg顯著的疾病。例如，嗜酸性粒細(xì)胞計(jì)數(shù)與哮喘匹配(rg = 0.37)，眼壓與青光眼匹配(rg = 0.66);總的來說，研究人員發(fā)現(xiàn)129種性狀關(guān)聯(lián)的匹配疾病。使用這種方法，研究人員發(fā)現(xiàn)有13個基因與一種與基因相關(guān)的疾病有保護(hù)性關(guān)聯(lián)，經(jīng)過多次測試校正后，這種關(guān)聯(lián)顯著; 在這些研究中，研究人員強(qiáng)調(diào)了MAP3K15中蛋白質(zhì)改變變異的負(fù)擔(dān)與血紅蛋白A1c較低水平之間的聯(lián)系，降低血糖和對2型糖尿病的保護(hù)。此外，在discoverehr隊(duì)列中有支持所有三種表型的證據(jù):A1c，葡萄糖和2型糖尿病。MAP3K15編碼一種廣泛表達(dá)的、參與凋亡細(xì)胞死亡的絲裂原活化蛋白激酶20，據(jù)研究人員所知，該蛋白激酶在2型糖尿病中未被發(fā)現(xiàn)。

與體細(xì)胞突變的關(guān)聯(lián)

在492個性狀中，至少有1個顯著的罕見變異關(guān)聯(lián)，其中20個值得注意，因?yàn)樗鼈兩婕?個或更多的基因具有罕見變異信號，但沒有來自GWAS的常見變異信號。值得注意的是，這20個性狀中有7個是髓系白血病，膿毒癥(4個基因)和5個額外的血液相關(guān)性狀，大多數(shù)相關(guān)基因先前涉及不確定潛力的克隆造血。這些CHIP基因的相關(guān)變異與年齡密切相關(guān)，推測雜合子中支持該變異的reads比例通常小于35%或大于65%。與這些關(guān)聯(lián)一致，是通過血液源DNA的外顯子測序確定的體細(xì)胞突變驅(qū)動的。

非歐洲血統(tǒng)的聯(lián)想

研究人員接下來調(diào)查了在歐洲群體中確定的關(guān)聯(lián)在其他祖先中共享的程度。為此，研究人員使用來自UKB隊(duì)列的10348名南亞人(SAS)、9089名非洲人(AFR)和2217名東亞人(EAS)的WES數(shù)據(jù)進(jìn)行了關(guān)聯(lián)分析。當(dāng)研究人員關(guān)注564個非冗余關(guān)聯(lián)(即每個基因最強(qiáng)的關(guān)聯(lián)，484個與數(shù)量性狀相關(guān)，80個與二元性狀相關(guān))，研究人員發(fā)現(xiàn)數(shù)量性狀的大部分關(guān)聯(lián)在祖先之間是共享的，但二進(jìn)制性狀的關(guān)聯(lián)較少，這可能是由于低權(quán)。對于數(shù)量性狀，在SAS個體中，83%的關(guān)聯(lián)在AFR個體中，73%的關(guān)聯(lián)在EAS祖先個體中，74%的關(guān)聯(lián)在方向上是一致的，當(dāng)考慮與 P?≤?0.05的關(guān)聯(lián)時，增加到92%以上。對于二元性狀，在SAS中有61%的關(guān)聯(lián)，在AFR中有61%的關(guān)聯(lián)，在EAS中有64%的關(guān)聯(lián)觀察到一致效應(yīng)。當(dāng)考慮到全部8865個關(guān)聯(lián)時，研究人員觀察到了類似的模式。然后研究人員詢問是否在非歐洲祖先中發(fā)現(xiàn)了任何新的關(guān)聯(lián)，并發(fā)現(xiàn)了4個在歐洲唯一的分析中沒有發(fā)現(xiàn)的基因(G6PD, HBQ1, OR51V1和RGS11)。

罕見變異關(guān)聯(lián)的復(fù)制

我們試圖使用來自Geisinger discoverehr隊(duì)列22 (n = 133,370個歐洲血統(tǒng)個體)的外顯子組測序數(shù)據(jù)來復(fù)制相關(guān)性。如上所述，為了便于解釋結(jié)果，我們重點(diǎn)研究了在UKB隊(duì)列中發(fā)現(xiàn)的歐洲血統(tǒng)個體的564個基因性狀關(guān)聯(lián)的非冗余集合，并確定是否可以在DiscovEHR中識別出匹配的性狀。在我們試圖復(fù)制的279種基因性狀關(guān)聯(lián)中，193種(69%;二元性狀有28個，數(shù)量性狀有165個)在名義上顯著(p≤?0.05)，在方向上也一致，而隨機(jī)預(yù)期約有7個(279 0.05 0.5)。當(dāng)只考慮212個具有至少80%復(fù)制能力的基因性狀的子集時，復(fù)制率為81%(212的172個)。補(bǔ)充數(shù)據(jù)2提供了在discoverhr中可用的所有關(guān)聯(lián)的復(fù)制結(jié)果(8,865個關(guān)聯(lián)中的4,083個)，其中70%在名義上是顯著的，并且在方向上是一致的。

負(fù)荷測試成分的影響

如上所述，將表型與基因中罕見編碼變異的負(fù)擔(dān)聯(lián)系起來，是人類遺傳學(xué)將基因與疾病聯(lián)系起來的一種令人信服的方式。正如研究人員在補(bǔ)充說明中所顯示的，當(dāng)更詳細(xì)地剖析負(fù)擔(dān)相關(guān)性時，研究人員發(fā)現(xiàn):

在單變量分析中，大多數(shù)(77%的7,449)關(guān)聯(lián)不能被檢測到，這表明它們通常被多個變量支持;

將MAF高達(dá)1%的變量聚集在一起的負(fù)擔(dān)測試發(fā)現(xiàn)了更多數(shù)量的總體顯著關(guān)聯(lián)，但在排除MAF在0.1%和1%之間的變量后，其中大多數(shù)仍然顯著，表明更大的產(chǎn)量可能是由在一個單一測試中捕獲跨越廣泛等位基因頻率的關(guān)聯(lián)信號的能力來解釋的;

在同一測試中，結(jié)合pLOFs和有害的錯義變異在更允許的MAF閾值時逐漸變得更有價值。這些結(jié)果證明了執(zhí)行各種負(fù)擔(dān)測試發(fā)現(xiàn)遺傳關(guān)聯(lián)的效用。

GWAS基因座中關(guān)聯(lián)的豐富

復(fù)雜性狀遺傳關(guān)聯(lián)研究的一個主要挑戰(zhàn)是通過GWAS確定的數(shù)千個位點(diǎn)的效應(yīng)基因。為了解決罕見變異關(guān)聯(lián)可能有助于定位效應(yīng)基因的可能性，研究人員對492個具有罕見變異關(guān)聯(lián)的性狀進(jìn)行了GWAS，并確定了共107,276個與常見變異(以下簡稱GWAS哨兵變異)的獨(dú)立關(guān)聯(lián)。正如補(bǔ)充說明中更詳細(xì)的描述，通過結(jié)合GWAS和WES數(shù)據(jù)的結(jié)果，研究人員發(fā)現(xiàn):

在同一性狀中，罕見變異關(guān)聯(lián)通常在GWAS哨兵變異的1 Mb以內(nèi)(8,865,74%);

當(dāng)研究人員使用GWAS常見變異信號時，大多數(shù)罕見變異關(guān)聯(lián)仍然顯著;

顯著的罕見變異關(guān)聯(lián)(調(diào)節(jié)GWAS信號后)為11.4倍，更常見的基因位于1 Mb的GWAS高峰,當(dāng)研究人員只關(guān)注基因最近GWAS哨兵變異濃縮達(dá)到59.4倍(圖1)。

這些結(jié)果顯示強(qiáng)勁的常見變異重疊信號從GWAS和罕見的變異信號exome-wide研究,這表明，罕見的變異負(fù)擔(dān)信號將識別數(shù)千個GWAS位點(diǎn)的效應(yīng)基因。

GWAS信號的效應(yīng)基因

為了說明上述發(fā)現(xiàn)的相關(guān)性，研究人員突出顯示了168個基因，它們在最接近GWAS哨兵變異體的基因中觀察到顯著的罕見變異體關(guān)聯(lián)。這表明這些很可能是GWAS信號的效應(yīng)基因。作為一個例子,研究人員發(fā)現(xiàn)GWAS信號血清水平的維生素D, 其中5罕見的負(fù)擔(dān)蛋白修改變異基因的最近的GWAS峰值也與維生素D水平。其中，研究人員強(qiáng)調(diào)了與HAL的聯(lián)系，據(jù)研究人員所知，這是以前沒有報(bào)道過的。維生素D合成的第一步是在皮膚中進(jìn)行的，需要紫外線的照射。HAL很可能在這一步驟中發(fā)揮作用，因?yàn)樗幋a一種酶，將組氨酸轉(zhuǎn)化為反尿酸，反尿酸是一種主要的吸收紫外線的發(fā)色團(tuán)，聚集在角質(zhì)層中。因此，HAL的失活預(yù)計(jì)會降低表皮最外層阻擋紫外線的能力。與這種可能性一致，研究人員發(fā)現(xiàn)HAL中罕見的pLOF和有害的錯義變異的負(fù)擔(dān)與更高水平的維生素D、更容易皮膚曬黑和更高的光化性角化病和非黑色素瘤皮膚癌的風(fēng)險(xiǎn)相關(guān)。這些發(fā)現(xiàn)得到了性狀降低與一個共同變異的關(guān)聯(lián)的支持，該變異與一個表達(dá)數(shù)量性狀位點(diǎn)共定位，該位點(diǎn)增加了皮膚組織中HAL的表達(dá)。這些結(jié)果涉及維生素D水平和皮膚癌的HAL，并強(qiáng)調(diào)了一個等位基因系列，包括罕見的功能喪失的蛋白質(zhì)改變變異(性狀增加)和常見的表達(dá)增加的非編碼變異(性狀降低)。

與大腦成像特征相關(guān)

目前，UKB的大腦成像部分包括來自36,968個人的磁共振成像(MRI)的2077種表型。研究人員分別分析了這些數(shù)據(jù)，給出了大量的性狀和相對較小的樣品量，測試了與上述GWAS信號條件下的罕見變異的關(guān)聯(lián)。研究人員發(fā)現(xiàn)6個基因有84個關(guān)聯(lián):AMPD3、GBE1、PLD1、PLEKHG3、STAB1和TF。在這些研究中，研究人員強(qiáng)調(diào)了彌漫性腦區(qū)域的低灰質(zhì)白質(zhì)對比(GWC)測量與PLD1中有害的錯義變異，一種能催化磷脂酰膽堿水解為磷脂酸和膽堿的酶，已被證明在突觸形成中有作用。GWC是一種模糊灰質(zhì)和白質(zhì)腦區(qū)界限的測量方法，被認(rèn)為是組織完整性和髓磷脂降解的局部變化的指標(biāo)，白質(zhì)中的水分含量增加，或鐵沉積。較低的GWC與衰老和較低的認(rèn)知指標(biāo)有關(guān)，同時也與輕度認(rèn)知障礙向癡呆轉(zhuǎn)化的比率增加有關(guān)。與這一發(fā)現(xiàn)相關(guān)，在附加的46個與腦成像表型相關(guān)的閾下基因中，4個基因?qū)WC有較大的性狀降低作用，其中2個基因在髓磷脂的形成和維持中有明確的作用，這與破壞這些基因功能的變異與低GWC之間的關(guān)聯(lián)一致。相反，在ST6GALNAC5，該基因可催化GM1b在大腦中生物合成神經(jīng)節(jié)苷脂。這與目前的證據(jù)相一致，即大腦中特定神經(jīng)節(jié)苷脂的相對豐度會隨著年齡和常見的神經(jīng)狀況而改變。研究人員在補(bǔ)充說明中討論了與其他基因(GBE1、PLEKHG3、STAB1和TF)的顯著相關(guān)性。

除了500000外的測序個體

在研究人員評估從UKB參與者3中測序的前49960個外顯子時，當(dāng)考慮所有50萬研究參與者的外顯子數(shù)據(jù)時，研究人員使用了β -二項(xiàng)模型來預(yù)測包含雜合子pLOF變異的基因數(shù)量。在目前的樣品量中，觀察到的和預(yù)測的數(shù)量非常吻合。以研究人員當(dāng)前的數(shù)據(jù)集為基線(包括所有祖先)，當(dāng)外顯子組序列數(shù)據(jù)可用時，研究人員擴(kuò)展了研究人員的預(yù)測，以估計(jì)包含罕見pLOFs (MAF 1%)的基因數(shù)量:研究人員預(yù)測，18035、17853和8376個基因?qū)⒎謩e產(chǎn)生至少50、100和500個雜合pLOF攜帶者。同樣，研究人員預(yù)測，當(dāng)考慮到500萬個測序個體時，2630個、997個和529個基因?qū)⒎謩e有至少10個、50個和100個純合pLOF攜帶者。UKB隊(duì)列主要由歐洲血統(tǒng)的個體組成，因此一個重要的問題是，這些預(yù)測是否也適用于祖先更多樣化的人群。為了解決這一問題，研究人員預(yù)測了pLOF攜帶者的數(shù)量，預(yù)計(jì)在500萬個人中(i) 46000個來自英國UKB的歐洲血統(tǒng)的人;(ii) 46000名英國人，包括23000名歐洲血統(tǒng)和23000名其他血統(tǒng)的人(10,000名南亞人、9,000名非洲人、2,000名東亞人、1,000名西班牙裔或拉丁美洲人以及1,000名混合血統(tǒng)的人)。研究人員發(fā)現(xiàn)，基于更多樣化的樣本集的預(yù)測略高于僅來自歐洲數(shù)據(jù)集的估計(jì)。

參考文獻(xiàn)

Backman, J.D., Li, A.H., Marcketta, A. et al. Exome sequencing and analysis of 454,787 UK Biobank participants. Nature 599, 628–634 (2021). https://doi.org/10.1038/s41586-021-04103-z

文章小結(jié)

在未來的幾年里，研究人員希望所有UKB參與者都能獲得全基因組序列數(shù)據(jù)，從而能夠?qū)币娮儺惖姆治鰯U(kuò)展到基因組的其余部分。研究人員的數(shù)據(jù)可以對即將到來的基因型推斷資源的價值進(jìn)行早期評估，基因型推斷是一種廣泛使用的策略，用于增加基于陣列的關(guān)聯(lián)研究的能力、完整性和可解釋性。

欧美日本成人_亚洲一区二区日本_国产污视频在线观看_先锋影视av_99视频+国产日韩欧美_黄页视频在线免费观看_天海翼av在线播放_在线视频精品免费_黄色一级片免费在线观看_国内精品久久久久久久_av动漫网站_日本a级大片

摘要