咚咚咚,您的生信早餐已送達,請及時享用~~~嘻嘻,朋友們,好久不見吖,小編最近在做遺傳突變相關的課題,看了一些這方面的文章之后,發現在篩選疾病相關的突變位點時,大家基本上都會選擇過濾掉同義突變,這樣看似好像更嚴謹,但看著所剩無幾的候選位點,小編不禁陷入沉思,難道這些同義突變就真的沒有臨床價值嗎?經過一番檢索,發現果然還是有相關研究的,于是小編選了幾篇感覺還不錯的想跟大家分享一下,有一篇2021年11月底發表在NAR上的文章,是對同義突變(sSNVs)進行影響預測的,我們重點來看一下吧。

突變類型有哪些?
關于分類,小編沒有找到一個通用的標準,就按照大家常用的簡單介紹一下。根據基因突變對蛋白質序列的影響,可以分為移碼突變、同義突變、錯義突變和無義突變等,本文重點討論SNP哈。
★ 移碼突變(InDel):一個或多個非3的整數倍的DNA序列插入或缺失,使得翻譯出的蛋白質序列與之前完全不同。
★ 無義突變:DNA序列上的一個點突變使得編碼氨基酸的密碼子變為終止密碼子,導致mRNA的翻譯提前終止,產生較短的多肽鏈或蛋白質,通常沒有功能。
★ 錯義突變(非同義突變):DNA序列上的一個點突變使編碼一種氨基酸的密碼子變為編碼另一種氨基酸的密碼子,會影響蛋白質產物的結構和功能。
★ 同義突變:發生在基因編碼區,由于遺傳密碼子的簡并性,不改變氨基酸序列。
★ 沉默突變:不改變產物蛋白質氨基酸序列的點突變,發生在不編碼蛋白質的區域或者為同義突變。
同義突變的作用機制
一個基因組攜帶的同義突變(sSNVs)并不比非同義突變少,而且,它們可能通過多種途徑來影響基因功能(圖1),導致疾病的發生。比如:
A、影響轉錄因子的結合,或者改變基因內順式調控元件的活性,導致基因轉錄強度改變;
B、改變pre-mRNA的剪接模式;
C、導致mRNA二級結構以及穩定性的改變;
D、tRNA結合的擺動性導致多肽鏈的改變;
E、蛋白質折疊和RNA翻譯在參與翻譯的核糖體上同時進行(共翻譯折疊),導致蛋白質結構的改變。

sSNV影響的預測
由于可用實驗數據的有限性,預測sSNV影響的方法比較少,現有的計算方法大致可分為兩類:專門預測sSNV的,如SilVA、reg-SNPsplicing、DDIG-SN、TraP 和IDSV;還有通用的方法,即同義突變和非同義突變都能預測,如CADD、DANN、FATHMM-MKL和MutationTaster2等。這些方法大多都過度依賴序列保守信號,除了CADD和DANN之外,其他幾種預測方法都是基于HGMD和ClinVar數據庫中的“致病”突變進行訓練的,然而,“致病性”并不等同于“功能影響”,此外,實驗性疾病突變注釋的不可靠以及數據庫之間數據的不統一性,使得對人類基因組中sSNVs的預測和注釋變得復雜和困難,小編之前在使用不同工具進行預測時,發現很多突變位點的預測結果的確不統一。
本著長江后浪追前浪的原則,咱們重點看一下最新的預測sSNVs影響的方法——synVep,該方法基于機器學習,收集了密碼子偏好性和自相關、蛋白質結構、mRNA穩定性、與調控/剪接位點的距離、轉錄表達譜等相關的35種特征,對每個可能的sSNV進行危害性評估。
突變標簽定義:作者從Ensembl BioMart下載了轉錄本數據,過濾之后用ANNOVAR注釋,篩選出所有可能的sSNVs。根據它們在gnomAD中出現的次數,賦予每個sSNV不同的標簽。singleton表示只在gnomAD的一個個體中發現的sSNVs; observed代表gnomAD中除singleton外的其他sSNVs;generated代表除singleton和observed外的所有可能的sSNVs。此外,unobservable代表generated集合中被PUL標為可能是observed的sSNVs,not-seen則表示generated的其他sSNVs。研究還整合了170個經過矯正的sSNVs ,將其定義為curated-effect sSNVs。
模型構建:
(1)首先選擇了” observed”和”generated”這兩個突變集合,通過正樣本無標簽學習(PUL)方法將”generated”進一步分為”unobservable” 和”not-seen” (observable)兩類;
(2)使用observed和not-seen集合訓練了一個中間模型,對common sSNVs(MAF > 1%)、curated-effect sSNVs 、observed和not-seen sSNV進行打分;
(3)得分高于curated-effect集合均值的sSNVs定義為effect,得分低于常見sSNV集合均值的定義為no-effect。最后,得到了7,385,137個no-effect和32,117 ,625個effect sSNVs。

主要結果
對比common sSNVs集合和curated-effect sSNVs集合的得分可以發現,后者的更高,表明突變影響更大,與事實相符。在對這兩類集合分類時,synVep有最高的auPRC 以及最低的auROC,這個問題,小編查了一下資料,PRC對數據不平衡更加敏感,這里作者用的兩類集合的比例接近1:10,所以,ROC應該更可靠一點~但是,在默認閾值的情況下,synVep的精確度也是相對比較高的(圖3.G)。

在對ClinVar數據庫中的Benign和Pathogenic sSNVs的突變影響打分時,所有預測器的結果都是Pathogenic sSNVs的分值更高,即有害性更大。而且,在默認閾值時,synVep的分類準確度是最高的(圖4)。

研究將所有sSNVs進行了跨物種注釋,CSVs代表人類參考序列和另一個物種的
直系同源序列之間的密碼子差異。總體來說,CSVs的得分比非CSVs低,產生影響的可能性更小。作者還發現,物種特異性的CSVs的synVep得分同進化距離呈正相關關系(圖5)。

此外,研究還發現singleton比observed突變更有可能產生影響;剪接干擾突變的synVep得分高于非剪接干擾突變等,一些不是很重要的結果小編就不在此贅述了。

同其他方法相比,synVep沒有使用疾病/有害性標記的訓練數據,而是用了來自于測序數據的sSNVs,擺脫了對黃金訓練集的依賴,在合適的情況下,大家不妨考慮借鑒一下這種方法,而不是簡單粗暴的忽視掉所有的同義突變~好了,今天到這了,have a nice day!
參考文獻:
1、Zeng Z, Aptekmann AA, Bromberg Y. Decoding the effects of synonymous variants. Nucleic Acids Res. 2021 Dec 16;49(22):12673-12691. doi: 10.1093/nar/gkab1159. PMID: 34850938; PMCID: PMC8682775.
2、Buske OJ, Manickaraj A, Mital S, Ray PN, Brudno M. Identification of deleterious synonymous variants in human genomes. Bioinformatics. 2013 Aug 1;29(15):1843-50. doi: 10.1093/bioinformatics/btt308. Epub 2013 Jun 4. Erratum in: Bioinformatics. 2015 Mar 1;31(5):799. PMID: 23736532.
3、Zeng Z, Bromberg Y. Predicting Functional Effects of Synonymous Variants: A Systematic Review and Perspectives. Front Genet. 2019 Oct 7;10:914. doi: 10.3389/fgene.2019.00914. PMID: 31649718; PMCID: PMC6791167.