一、背景
癌癥是一系列疾病,其主要特征是由基因突變引起的異常和不受控制的細胞生長。這些突變被稱為“驅動因子”,因為它們具有驅動腫瘤發生的能力,使組織中的細胞相對于鄰近細胞具有某些選擇性優勢。它們發生在一組基因中【癌癥驅動基因】,這些基因的突變形式會影響一系列關鍵功能平衡發展。
自遺傳學建立以來,癌癥研究的主要目標之一就是發現這些跨腫瘤類型的癌癥驅動基因。它們的識別導致了發展靶向抗癌療法的范式,該方向的最終目標是基于豐富的腫瘤突變數據集和成熟的突變驅動識別方法,揭示所有腫瘤類型的驅動基因,并提供其致瘤機制的線索。
研究人員開發了IntOGen——Integrative OncoGenomics,旨在系統地識別腫瘤類型的突變驅動基因。目前IntOGen數據庫整合了來自66種不同腫瘤類型的221個隊列中的28,076個腫瘤的癌癥驅動基因,還提供了最新的識別癌癥驅動基因的流程。

二、簡介
來自腫瘤樣本的體細胞突變數據集呈指數級增長,需要分析方法來全面了解腫瘤類型的突變、基因和通路。 有幾個癌癥基因組學門戶網站,其數據來自重測序的癌癥基因組,但沒有一個平臺能夠系統地分析不同測序項目的數據。 IntOGen-mutation平臺可以識別不同腫瘤類型的癌癥驅動因子,并展示當前可用的腫瘤體細胞突變大數據集的系統分析結果。截止至2020年,IntOGen平臺整合七種不同的方法以識別不同腫瘤類型和不同測序平臺下的癌癥驅動基因,包括大家熟知的OncodriveFM和OncodriveCLUST。
IntOGen數據庫最早發表在2010年,收集不同數據平臺下受表達和拷貝數變化影響的基因和通路。2013年數據庫進行更新,收集了13個癌癥位點的4623個腫瘤基因組/外顯子中涉及腫瘤發生的突變、基因和通路。而后,該數據持續更新,逐漸包含與治療、臨床分期、FDA批準或臨床試驗的與藥物有效性相關的特定基因組改變等信息。
目前,該數據庫收集了221個隊列的66種不同癌癥類型,總共28,076個樣本的體細胞SNV和短indels。大多數樣本來自大規模的測序工作,如ICGC、TCGA、PCAWG、TARGET。重要的是,通過cBioPortal和PedcBioPortal分別獲得了其他60個隊列的基因突變。這突出了開發和維護集中精力收集小項目中的測序數據的重要性。最后,從最初的研究中獲得了8個獨立隊列中測序的2257個腫瘤的突變。221個隊列中,大多數是原發腫瘤(180個),而其余41個是轉移或復發樣本(共4713個)。

使用CGC中的一組驅動基因作為66種惡性腫瘤發展相關基因的“金標準”。雖然CGC是不完整的,可能包含一些假陽性,但據知,它是從文獻中注釋的最全面和最準確的一組驗證過的癌癥基因。在整合的568個突變驅動基因中,幾乎有四分之三已經在CGC中進行了注釋(這也為該整合提供了一個強有力的驗證)。

三、識別diver基因和通路的pipeline
使用這些腫瘤突變數據集識別癌癥驅動基因需要一個高效的計算系統,我們稱之為IntOGen管道。IntOGen管道由三個基本步驟組成。第一個:預處理確保每個方法以正確的格式和操作參數接收其輸入,例如,去重從相同腫瘤中提取的樣本,或去除那些具有非同義突變與同義突變或超突變表型的異常比例的樣本。第二步:使用最近公布的7個方法識別驅動基因 - dNdScv、 OncodriveFML、CBaSE、OncodriveCLUSTL、HotMAPS、smRegions和Mutpanning ;第三步:通過加權投票將每種方法確定的候選驅動基因列表組合在一起,每種方法的權重基于其感知的可信度。這種組合產生了每個隊列的驅動基因列表,這些驅動基因比單個方法產生的驅動基因更敏感,但不喪失特異性。在最后的后處理步驟中,可能由于已知的混雜因素而出現的偽候選驅動基因被自動過濾掉。

2020年,IntOGen pipeline進行了更新,除了OncodriveFM 和OncodriveCLUST方法外,還額外增加了5種方法。并用OncodriveFML替換了以往的OncodriveFM,OncodriveFML方法可以識別非編碼癌癥驅動基因。而新添的如dNdScv、CBaSE等方法,它們分別基于不同的原理識別癌癥驅動基因——頻率、功能、結構。

IntOGen識別癌癥驅動基因基本流程(參考最新):

四、使用方法
IntOGen數據庫首頁給出了所有癌癥的扇形圖,當研究者需要某一癌癥的驅動基因時,可以在首頁選擇所需要的癌癥,IntOGen會返回該癌癥驅動基因相關的信息。包括所涉及的數據集,計算得到的癌癥驅動基因(可以下載多種形式:詞云圖、條形圖和表格)。

詞云圖代表了PRAD中最常反復突變的癌癥驅動基因。基因的大小與該基因突變樣本的數量有關。

Ref:
IntOGen-mutations identifies cancer drivers across tumor types. Nature Methods 2013
A compendium of mutational cancer driver genes Nature Cancer reviews 2020
Comprehensive characterization of cancer driver genes and mutations. Cell 2018