隨著基因測序技術的進一步突破,我們已經能識別人群中數以萬計的基因突變,在以往的研究里,都是針對某一基因上一些突變來研究其與疾病的關聯,以此來采取預防或治療的手段,但若是基因突變的數量以十萬級為單位呢,對于這些變異,我們如何得知該基因突變是否會影響基因功能,從而導致疾病呢?下面就跟著小編一起來看看如何使用深度生成模型來檢測數十萬在不同物種中的基因變異模式,以此來預測哪些序列變異會導致疾病。
一、研究背景
人類基因組測序的指數增長突顯了人類群體中存在的大量遺傳變異,量化基因組中特定變異與疾病相關聯的遺傳研究將對臨床方案產生顯著影響。然而,現有的探測技術并不能完全的探測到人群中基因變異數量,超過98%的變異對人體產生的影響仍是未知的。
現有臨床上已經存在可以評估數千個基因變異影響的模型,但這些模型不容易擴展到數千種蛋白質,尤其是變異組合,并嚴重依賴于與人類疾病表型相關或至少相關的檢測方法的可用性。并且這些模型往往在臨床標簽上進行有監督學習,而標簽偏差、標簽稀疏性、標簽噪聲和數據泄漏將夸大在現實預測場景中的準確率,因此這類模型的結果通常被認為是不夠可靠的。
基于此,來自哈佛大學醫學院和牛津大學的研究人員一篇發表在國際頂刊Nature(IF:49.962)上的文章,其開發了一種基于進化序列的深度生成模型,成功預測了3219個疾病基因中超過3600萬個變體的致病性,并將超過25萬個未知變體進行了歸類。
二、結果
1、從進化預測致病性
基于進化數據深度生成模型的疾病變異預測系統分為兩步。
第一步,使用深度生成模型---變分自編碼器VAE學習每個蛋白質的氨基酸序列分布,捕獲了進化過程中自然序列的約束,包括位置之間的復雜依賴關系。
在對進化序列進行訓練之后,通過從 VAE 學習的近似后驗分布中采樣來估計每個單個氨基酸變體相對于野生型的相對可能性,這種相對可能性稱之為進化指數。
當將此進化指數與臨床標簽進行比較時,區分致病性和良性標簽的值在蛋白質之間明顯一致,說明可采用無監督的方法來推斷致病性。
第二步,在所有單一氨基酸變異的蛋白質進化指標的分布上擬合了一個雙組分全局-局部混合高斯混合模型。
這一過程的輸出是EVE評分,它是定義在[0,1]區間內的連續致病性評分,0表示最良性,1表示最具致病性。
對于這些分配,研究人員使用高斯混合模型的預測熵作為分類不確定性的度量,并將變異分為三類:良性、不確定性或致病性。

將EVE模型運用于ClinVar數據庫中的3219個人類基因上(AUC=0.91),且EVE的性能對每個蛋白質的標簽數量是穩健的,說明EVE模型可以預測絕大多數基因變異的臨床意義,并能推廣到注釋較少的基因。

2、EVE模型優于已知模型, 和實驗預測一樣準確
研究人員將EVE模型與已知的模型進行比對,發現EVE 在預測已知臨床標簽方面優于所有有監督和無監督的方法。由于變異分類的結果因基因而異,研究人員所提出方法的一個重要特征是能夠為預測分配一定程度的不確定性,允許在預測的準確性和變異的覆蓋范圍之間進行權衡。如果拋開越來越多的“不確定性”變異不談,這樣就可以使比已經確實分類為致病性或良性的變異更高的準確性。例如,排除25%的最不確定的變異導致致病和良性分類的準確率約為90%(圖2b)。
研究人員對于計算預測是否和實驗預測一樣準確進行了檢驗。對于ClinVar中具有大量高質量標簽的5個基因(BRCA1, TP53,PTEN,MSH2,SCN5A)來說,EVE在預測臨床意義方面的總體表現與專為預測致病性而設計的深度突變掃描實驗一致甚至更好,而當從ClinVar數據庫中選擇高質量標簽較少的更大基因組的數據時,EVE模型的表現甚至更好

3、對 3600 萬個變體的預測
研究人員為3219個疾病相關基因的3600萬個單一氨基酸變異提供連續的EVE分數和類別分配。在這些變異中,迄今為止至少一個人類中觀察到約有130萬個變異,但這其中只有大約3%在ClinVar中有臨床解釋。在去掉25%最不確定的變異以保持大約90%的準確率之后,EVE的類別分配對總共約2700萬個變異和超過80萬個(約64%)的人類迄今看到的變異提供了解釋。
所有單一氨基酸變異的連續得分提供了一個與類別分配的情況。EVE分數在蛋白質中的分布突出了高致病性簇,遵循了功能重要性可能預期的趨勢,如疏水核心、配體結合和活性位點。例如,SCN4A-SCN1B離子通道復合物(PDB 6AGF38)中許多具有高EVE得分的變異位于復合物界面,排列在SCN4A孔和SCN1B的疏水核心。對于錯配DNA修復復合物MSH2-MSH6(與Lynch綜合征和大約20%的散發性癌癥有關),在臨床標記稀少(但在人群中觀察到)的ADP和DNA (PDB 2O8B)附近,EVE致病信號強烈。

4、將 EVE 與其他證據結合
EVE 提供單一證據來源,使其非常適合與其他正交證據來源相結合。為了說明這一點,研究人員將模型類別分配與來自gnomAD2和其他形式的現有證據的人口數據結合起來,對25.6萬個變異沒有潛在臨床解釋的重新分類,另外539個變異與當前ClinVar狀態相矛盾,表明EVE模型可以為變異解釋提供有價值的獨立證據
三、討論
將機器學習與臨床預測相結合,可以說是生信領域里一大熱點之一。本文中研究人員提出了一種利用深度生成模型來預測變異致病性而不依賴標簽的方法,采用深度學習計算機學習蛋白質的氨基酸序列分布,繪制跨生物體的序列變異分布進而在預測變異對蛋白質功能和穩定性的影響。
深度學習正在滲透到生物學領域,在生物學中,深度學習擁有大量數據及處理能力的技術,利用這些算法挖掘基因組數據,可以在識別遺傳變異類型,藥物發現、蛋白質結構預測、細胞圖像分類等生物學領域中發揮著巨大的潛力,一篇SCI就到手了!
參考文獻
[1] Frazer, J., Notin, P., Dias, M. et al. Disease variant prediction with deep generative models of evolutionary data. Nature 599, 91–95 (2021). https://doi.org/10.1038/s41586-021-04043-8