基因融合在許多癌癥中都會作為致癌驅動因素發揮重要作用,所以識別基因融合具有重要意義。而今天小編要和大家分享的是一篇今年三月發表在Genome research(IF:9.043)雜志上關于檢測基因融合的文章。
Accurate and efficient detection of gene fusions from RNA sequencing data
從RNA測序數據中準確高效地檢測基因融合
一. 研究背景
從RNA測序數據中識別基因融合對癌癥研究和腫瘤精準治療至關重要。而基因融合對患者的治療有直接的影響是由于許多基因融合可以用靶向藥物治療。然而,盡管如今有許多計算工具可用,但融合檢測仍然具有挑戰性。現有的許多方法預測精度差,計算要求高。此外,雖然多年來,各種檢測基因融合的計算工具已經發展起來,但仍然沒有金標準。由于文庫制備和序列比對過程中引入了大量的人工制品,從短鏈RNA-seq中可靠地預測基因融合是十分困難的。因此今天介紹的文章開發了一種基因融合檢測算法Arriba。
二. 數據及方法
1. Arriba流程:許多融合檢測算法試圖通過精密的比對方法來提高靈敏度。盡管這些技術提高了融合的發現,但運行時間較長。相比之下,Arriba工作流程是線性的,只有一個單一比對步驟及過濾步驟,大大提高了運行效率,其主要工作流程如圖1所示。

2. 嵌合reads的提取:Arriba建立在超快STAR RNA-seq比對的基礎上,當運行參數chimSegmentMin時,STAR搜索兩類嵌合比對:split reads及discordant mates。嵌合比對被收集到一個名為chimeric.out.sam的單獨輸出文件或當指定參數chimOutType WithinBAM時的主輸出文件Aligned.out.bam中。 Arriba從這些文件中提取嵌合序列,并整合它們來識別基因融合。只有當一個不連續的片段在一個合理的距離內沒有比對到下游的外顯子時,STAR才報告比對為嵌合。否則,它假設在比對中的間隙代表內含子跳過并創建一個間隙比對。一些眾所周知的致癌融合來自focal缺失,它將上游基因的5端和下游基因的3端拉在一起。不同于創造的嵌合比對,STAR比對支持這種融合,如同融合基因是通過剪接連接起來的,這是由于STAR僅僅根據間隙的大小而不是基因注釋來定義比對類型。除了提取嵌合比對外,Arriba還對跨越注釋基因邊界的比對進行篩選,以避免focal缺失導致的融合缺失。與許多其他融合檢測pipelines不同,Arriba可以重復利用現有的STAR比對,而不是為了進行基因融合而要求reads進行專門比對。在所有提出的方法中,Arriba是唯一一個提供無縫集成到標準RNA-seq比對工作流的方法。
3. 過濾人工噪聲:在收集候選比對后,Arriba應用一個過濾集來刪除人工影響并提供高可信度。作者采用正向及負向過濾器,負向過濾器移除了人為因素產生的候選物,如過量不匹配的候選物等。此外,應用位置特異的黑名單來移除重復出現的人為因素及良性組織中的轉錄本。如果有強有力的證據表明某個候選項被錯誤丟棄,比如在注釋的剪接位點上有斷點的候選項,用戶定義的已知或高度重復融合的白名單,或者通過WGS檢測到的相關結構變體等,正向選擇過濾器則可以補救被負向選擇過濾器丟棄的候選項。正向選擇濾器和根據支持讀數篩選候選的統計模型是實現Arriba高靈敏度的關鍵特征。Arriba假設支持讀取數和背景噪聲水平之間的多項式關系。只有具有比估計的背景噪聲水平更多的支持讀數的候選會被報告(圖2A)。此外,該模型還包含了幾個與背景噪聲水平相關的變量,包括測序深度、斷點距離(圖2B)、文庫制備方案(圖2C)和斷點位置(內含子與外顯子與剪接位點)。基于支持候選的讀數,使用公式e-value = base_level_bg_noise * depth_penalty * distance_penalty * inv_to_dup_ratio * intron_to_exon_ratio計算背景噪聲的預期水平(值)。其中每個變量有對應計算方程,這些方程中的小寫分量表示動態計算變量;大寫的是經驗確定的常量,這些常量經過NCT及DKTK MASTER隊列的RNA-seq樣本訓練,證明在不同的數據集之間相當穩定。

4. 基準:研究中所有的融合檢測工具都使用默認參數運行,但有以下例外:PRADA的參數junL沒有默認值,被設置為開發人員推薦的讀數長度的80%。為了檢測基因間斷點融合的基準,nFusion使用參數--allow-intronic,--allow-intergenic,和--allow-non-coding執行。默認情況下,FusionCatcher使用內部已知的致癌融合列表來提高敏感性。為了更好地反映FusionCatcher對新融合發現的敏感度,作者使用skip-known-fusion參數調用了FusionCatcher,從而禁用了這個列表。另外,腳本extract_fusion_genes.py的參數allowed-labels的默認值必須被清空,參數skip-known-fusion才會生效。而clock時間、CPU時間和內存消耗是由GNU時間實用程序度量的。作者認為,如果融合partners與一組已驗證的融合匹配,或者斷點距離匹配的WGS樣本中檢測到的結構變異在100 kb以內,則預測為真陽性。由于FusionCatcher沒有報告這一信息,所以并不要求基因組斷點的方向與轉錄組斷點的方向匹配。用GENCODE v19基因模型對所有工具的預測斷點進行重新注釋,以匹配基因名稱。如果一個工具報告了涉及同一對基因的多個選擇性剪接,由于產生于相同的基因組重排,只有一個轉錄本被計數。類似地,如果一對斷點與多個基因重疊,并且以不同的基因名報告了不止一次,則只計算其中一個實例。PRADA和SOAPfuse不會根據置信對輸出進行排序。因此,這些工具的預測根據支持讀取的數量按降序排列。
5. MCF-7細胞系的融合預測驗證:對于每種融合檢測方法,如果預測沒有在之前的研究中得到驗證或結構變異證實,作者用Sanger測序對MCF-7細胞系的預測進行了實驗驗證。
6. 樣本收集:樣本收集過程和倫理批準可在本研究中分析的樣本的相關出版物中找到。除了已發表的樣本,作者還納入了一名KRAS野生型胰腺癌患者的樣本,該患者是NCT/DKTK MASTER隊列中招募的。
7. 胰腺癌樣本融合的識別:作者運行2.5.3版本的STAR來比對RNA-seq讀數。基因融合工具的運行參數與基準測試相同。對于某些工具,需要人工干預才能在一小部分樣本上成功完成。作者使用BCFtools的mpileup調用和過濾模塊,以及Annovar來識別KRAS突變。此外,通過檢測IGV中支持讀數,人工篩選除11、12、13、61外的密碼子突變。當RNA-seq數據中沒有發現KRAS錯義突變時,作者從各自的研究中獲取KRAS的突變狀態。 為了在收集的隊列中確定重復,作者比較了所有樣本的1000個常見SNP位點的基因型。使用基于歐式距離的層次聚類將樣本聚在一起的被認為是重復的。作者從特征的組合推斷基因融合是否應該被認為是一個驅動因素,包括表達水平,Arriba的置信評分,閱讀框的保存,致癌活性的基本域的保留,以及這些基因之前是否曾被描述參與胰腺癌或其他實體的致癌融合。使用R包PBase,從蛋白坐標到基因組坐標繪制Pfam蛋白結構域。跨膜結構域的基因組坐標來自UniPro。在IGV中可視化潛在的融合候選體,以識別潛在的比對噪音。PACACA隊列患者PCSI_0326進行了TRIM24-BRAF融合。Arriba只報告了一份融合記錄。進一步觀察BRAF的軟剪接讀數發現,一些讀數將TRIM24的第9外顯子連接到BRAF的第8外顯子,這是IGV內置的BLAT功能所揭示的。據推測,STAR未能對這些讀數進行比對是因為它們包含了BRAF內含子中的20個堿基,這些堿基不能單獨定位于人類基因組。接著在WebGestalt 的幫助下,對通路中過多代表的基因進行了分析。作者將所有人類蛋白編碼基因作為KEGG數據庫的背景和通路作為基因集進行過度表達測試。
8. 實驗驗證:慢病毒轉導、定量RT-PCR、克隆形成實驗、蛋白免疫印記。
9. 藥物敏感性:對于劑量反應曲線,將 2000 個 MCF10A 細胞接種在 96 孔板中,在不含EGF的培養基中用特定濃度的 MAPK (ERK) 抑制劑 FR180204 或 RAF1 抑制劑sorafenib進行處理,48小時后用CellTiter 96 Aqueous One Solution Cell Proliferation Assay (Promega) MTS法檢測細胞活力。
三. 研究的主要內容及結果
1. 精度基準
在文章的第一部分作者為了展示Arriba方法在不同類型輸入數據上的魯棒性,在四種類型的基準數據集上評估了其精確性。作者首先使用的數據集是模擬的150個融合轉錄本,并將它們整合到良性組織的RNA-seq樣本中,作為背景表達。為了測量作為融合轉錄本表達水平函數的方法的靈敏度,模擬了9個不同的表達水平,從5倍到200倍不等。作者使用的第二個數據集是在黑色素瘤細胞系COLO-829的RNA文庫中加入合成的RNA分子。這種合成的RNA分子模仿了九種不同癌癥類型中發現的致癌融合的轉錄序列。第三個數據集是來自4個細胞系的8個樣本。最后一個數據集是來自ICGC早發前列腺癌隊列和TCGA彌漫巨B細胞淋巴瘤隊列的患者數據。結果圖3A中ROC等曲線表明Arriba顯示了良好的準確性。在所有四種基準數據集中,Arriba的敏感性最高(圖4)。在特異性方面,Arriba也可以與最先進的方法相媲美。Arriba為其預測指定了三個置信等級:低、中、高。使用者可以通過選擇高于某個置信級別的事件,在敏感性和特異性之間選擇他們喜歡的平衡。


2. 運行時間和內存消耗
在文章的第二部分,作者在運行時間及內存消耗兩個方面評估Arriba方法的性能,測量了所有工具的運行時間。結果發現Arriba在運行時間和CPU時間方面都是最快的(圖3B)。此外,平均而言,基于Arriba的工作流消耗了38 GB的內存,比最有效的內存工具SOAPfuse多5.8倍(圖3C)。
3. 在實踐中使用Arriba
在文章的第三部分,作者對Arriba的應用作了進一步介紹。可以了解到為了加快基因融合相關研究任務,Arriba提供了一些其他的功能,而不僅僅是預測融合。它提供了連接位點側面的轉錄序列,有助于Sanger測序驗證引物的設計。它還計算了嵌合轉錄本產生的肽序列,這可以作為預測融合衍生的基礎。此外,Arriba提供了可視化工具,以促進基因融合的解釋。而且由于STAR以SAM格式存儲嵌合比對,這些比對可以加載到基因組瀏覽器中。Arriba提供了一個蛋白質結構域的特征軌跡,它可以與序列一起裝載到IGV中,以評估融合的功能影響。除了RNA-seq數據,臨床研究項目偶爾會為每個患者生成WGS數據。Arriba可以通過提供從WGS得到的結構變量列表來進一步提高預測精度。
4. 胰腺癌致癌基因融合的識別
在這一部分,由于在KRAS野生型胰腺癌中發現涉及NRG1的復發融合等融合病例的研究,作者在胰腺癌中對基因融合進行了識別。作者收集了803名捐贈者的RNA-seq樣本,包括了18項已發表的胰腺癌研究。其中327個樣本,有匹配的WGS數據。當Arriba從轉錄組數據中預測基因融合時,作者在WGS數據中檢查了一個相關的結構變體,以確認預測的有效性。結果在RNA-seq數據中檢測到30個潛在的驅動融合(圖5),所有這些經結構變異在WGS數據可用。同時作者也對影響的功能進行了分析,其中在納入分析的105個樣本中,沒有檢測到KRAS改變。在這些樣本中,致癌融合顯著富集,在KRAS突變腫瘤中僅發現4個融合。在79例腫瘤中,既沒有檢測到KRAS突變,也沒有檢測到驅動融合。為了排除由于Arriba的缺點而忽視融合的可能性,作者也在隊列上運行了其他融合檢測工具,但沒有一個報告表現出驅動融合超出了Arriba的設置。事實上,Arriba顯示出了最高的靈敏度,比其他方法多檢測了3到11個驅動融合,從而證實了基準測試結果。其中一些已確認的胰腺基因融合已經在其他癌癥類型的背景下被報道。

5. 兩個新的融合基因的功能驗證
在文章的最后一部分作者試圖通過實驗驗證預測的基因融合作為致癌驅動因素。作者選擇了RASGRP1-ATP1A1和RRBP1-RAF1(圖6A、B),因為RASGRP1之前沒有參與致癌融合,而RRBP1是RAF1的新伴侶,與接近全長的RAF1融合,而不是更常見的第8外顯子融合。這些融合通過慢病毒轉導進入H6c7細胞和TP53缺陷的MCF10A細胞。與空載體對照相比,兩種融合顯著增強了EGF獨立的集落形成(圖6C)。此外,當EGF退出時,融合蛋白增加了MAP2K1/2 (MEK1/2)和MAPK1/3 (ERK2/1)的磷酸化,表明MAPK通路的結構性激活(圖6D)。總之,這些實驗證實了RASGRP1-ATP1A1和RRBP1-RAF1的致癌活性,進一步支持了Arriba預測致癌融合的觀點。為了測試融合是否能夠用于治療,作者用兩種針對MAPK信號的化合物處理細胞:RAF1抑制劑sorafenib和MAPK (ERK)抑制劑FR180204。結果發現雖然細胞培養對所有化合物都有反應,但融合陽性細胞并不比空載體對照更敏感。

到這里,這篇文章的主要內容就介紹完了。文章開發了一種從RNA-seq中預測基因融合的方法,并對方法進行了比較測試應用驗證等分析,對基因融合感興趣或者做方法的小伙伴不要錯過呀。