對于我們搞科研的人來說,文章要想發高分,要么精,要么新,要么工作量相當大,憑著辛苦發個差不多的綜述。在生信行業發展日益成熟,甚至于開始內卷的當下,相信大家都有一個同感,那就是現在的文章不如以前那么好發了!這種情況下呢,就需要我們適時的轉換一下思路,不要總是將自己的思維局限某一領域里,總有一些被大家忽視的犄角旮旯可以讓我們找點東西做做文章的嘛!之前非編碼RNA的火熱就告訴我們一個道理:存在即合理,能被自然選擇留下的東西一定是有他的作用。這不,小編最近就看到了一篇發表在Nature Biotechnology(IF=54.908)雜志上的文章,作者著眼于人類基因組中的非特異區域,系統地總結了基因組在該區域的突變事件。小編特意去檢索了一下,發現相關的文章真的是少之甚少,有新意,有方法,難怪這篇基本純生信的文章能發到這個水平的雜志上。話不多說,正餐開始!

咳咳,先容我簡單介紹一下研究背景,目前高通量測序普遍使用的是短讀長技術,但是基因組結構在進化中會發生重復和重排,使用這種短讀的測序技術時,就會導致基因組約10%的區域是非特異的,即有些序列不只存在于染色體的一處位置,這就使得突變檢測有了盲點,所以我們所熟知的PCAWG(全基因組泛癌分析)等研究都是基于基因組特異區域的,而非特異區域包含著參與人類疾病和發育過程的基因和調控元件,以及在癌癥中經常發生突變的剪接因子和核RNAs。因此,該研究利用PCAWG數據集,利用同義詞庫方法對基因組上非特異區域進行突變注釋,補充了體細胞單堿基替換圖譜。
結果一、利用同義詞庫注釋識別體細胞突變
作者通過構建機器學習模型,對PCAWG數據集中的樣本重新call體細胞突變,然后進行同義詞庫注釋,將在基因組中位置唯一的定義為”local”,能夠鏈接到可替代位置的定義為” thesaurus” (下文統稱為特異突變和同義詞庫突變)。同PCAWG本來的突變數據相比,作者注釋得到的特異區域突變集的假陽性和假陰性率均不到10%,這跟數據集內部的一致性相關;而同義詞庫突變集與PCAWG已有的突變幾乎沒有交疊(圖1.b),表明這些位點之前可能被”隱藏”了。接下來,作者發現了特異突變集和同義詞庫突變集總突變負荷、等位頻率的高度相關性(圖1.c),最后,研究又使用一個單獨的癌癥樣本進行了驗證,特異突變和同義詞突變的等位頻率驗證率分別超過了90%和80%,一定程度上證實了其可靠性。

結果二、同義詞庫突變和特異突變的相關性
該研究以三核苷酸為背景,對突變進行分層,發現在大多數樣本中,特異突變譜和同義詞庫突變譜是顯著相關的(圖2.a),而關聯強度主要受突變負荷的影響(圖2.b)。通過對比特異突變譜和同義詞庫突變譜的UMAP以及特定簇的突變模式,可以發現它們在不同癌性和分子突變過程中都具有相似性(圖2.c-d)。

結果三、同義詞庫突變影響上千種功能原件
作者通過基因注釋對基因組區域進行了定義,發現同義詞庫突變與1,744個編碼基因相關。然后,該研究以區域長度為協變量,對編碼區基因的群體頻率進行分位數回歸模型擬合,發現三種模式下的趨勢是一致的(圖3.b)。最后,作者綜合泛癌z scores和基于熵的特異性度量,對編碼序列、啟動子等區域進行可視化(圖3.d-e),總的來看,大多基因都不是反復突變的,而且也不特異存在于某一癌型,基因TP53和KRAS的編碼區分別是泛癌復發和特異突變的高發區,而且只含有特異突變。但是,分值比較高的同義詞基因中也包含了一些癌基因,如PIK3CA在乳腺癌中富集同義詞庫突變,此外, IGLC、IGHG、IGHJ和IGHM 家族的免疫球蛋白元件在啟動子序列分析中具有較高的復發率和特異性(圖3.e)。

結果四、復發突變影響的基因家族
基于以上可視化分析的結果,作者將所有同義詞庫基因和COSMIC中的癌癥基因進行交疊,發現了35個癌癥基因編碼區、以及29個癌癥基因的非翻譯區和啟動子區的同義詞突變(圖4.a)。其中,NUTM2A, NUTM2B, SSX2和SSX4這四個基因只攜帶同義詞庫突變 (眼尖的小編發現圖中SSX2這個基因對應的顏色標錯了~),這與它們因為易位和融合突變,而非堿基替換而被數據庫記錄所一致,這種情況下同義詞替換就為突變事件進行了補充。然后,我們來看圖4.b,這里作者可視化了單個基因序列上的所有突變,以PIK3CA和KMT2C為例,同PCAWG數據庫的突變集相比,他們發現了更多的特異突變,而同義詞庫突變填補了特異突變之間的空白。
除了已知的癌癥基因,作者發現一些富集同義詞庫突變的基因,也包含有特異突變,如突變負荷較高的ANKRD30A和TPTE,都與癌癥相關通路互作;TRIM64B和TRIM49所在的蛋白家族參與先天免疫、自噬和癌變等過程。研究還發現,在同一蛋白家族中,受單個基因影響的樣本基本上是不重疊的(圖4.f)。在啟動子區富集突變的基因中,包括一些免疫球蛋白家族成員(圖4.g),在所有免疫球蛋白基因片段上游的序列中,同義詞庫突變占所有變異的19.7%,以C > T替換為主(圖4.h)。

好了,正文到此結束。最后,正如作者自己說的那樣,他們只分析了體細胞替換事件,像InDel,CNV等突變類型,隨著注釋的完善,也是很有研究價值的。
小編個人感覺,同其他高分文章相比,這篇的回報/投入比已經算是高的了,有好的創新思路就要大膽的去嘗試,而不要一味的跟隨熱點,畢竟偉大的愛因斯坦曾經說過——在科學上,每一條路都應該走一走,發現一條走不通的路,就是對科學的一大貢獻(是真的說過,不是小編在瞎扯哈~)。多多思考,勇于嘗試,我們也是有可能于滄海中拾遺的,就算結果不好,那也是為科學做了貢獻呢,是吧! Have a nice day!