一、背景
癌癥是一系列疾病,其主要特征是由基因突變引起的異常和不受控制的細(xì)胞生長(zhǎng)。這些突變被稱為“驅(qū)動(dòng)因子”,因?yàn)樗鼈兙哂序?qū)動(dòng)腫瘤發(fā)生的能力,使組織中的細(xì)胞相對(duì)于鄰近細(xì)胞具有某些選擇性優(yōu)勢(shì)。它們發(fā)生在一組基因中【癌癥驅(qū)動(dòng)基因】,這些基因的突變形式會(huì)影響一系列關(guān)鍵功能平衡發(fā)展。
自遺傳學(xué)建立以來(lái),癌癥研究的主要目標(biāo)之一就是發(fā)現(xiàn)這些跨腫瘤類型的癌癥驅(qū)動(dòng)基因。它們的識(shí)別導(dǎo)致了發(fā)展靶向抗癌療法的范式,該方向的最終目標(biāo)是基于豐富的腫瘤突變數(shù)據(jù)集和成熟的突變驅(qū)動(dòng)識(shí)別方法,揭示所有腫瘤類型的驅(qū)動(dòng)基因,并提供其致瘤機(jī)制的線索。
研究人員開發(fā)了IntOGen——Integrative OncoGenomics,旨在系統(tǒng)地識(shí)別腫瘤類型的突變驅(qū)動(dòng)基因。目前IntOGen數(shù)據(jù)庫(kù)整合了來(lái)自66種不同腫瘤類型的221個(gè)隊(duì)列中的28,076個(gè)腫瘤的癌癥驅(qū)動(dòng)基因,還提供了最新的識(shí)別癌癥驅(qū)動(dòng)基因的流程。

二、簡(jiǎn)介
來(lái)自腫瘤樣本的體細(xì)胞突變數(shù)據(jù)集呈指數(shù)級(jí)增長(zhǎng),需要分析方法來(lái)全面了解腫瘤類型的突變、基因和通路。 有幾個(gè)癌癥基因組學(xué)門戶網(wǎng)站,其數(shù)據(jù)來(lái)自重測(cè)序的癌癥基因組,但沒有一個(gè)平臺(tái)能夠系統(tǒng)地分析不同測(cè)序項(xiàng)目的數(shù)據(jù)。 IntOGen-mutation平臺(tái)可以識(shí)別不同腫瘤類型的癌癥驅(qū)動(dòng)因子,并展示當(dāng)前可用的腫瘤體細(xì)胞突變大數(shù)據(jù)集的系統(tǒng)分析結(jié)果。截止至2020年,IntOGen平臺(tái)整合七種不同的方法以識(shí)別不同腫瘤類型和不同測(cè)序平臺(tái)下的癌癥驅(qū)動(dòng)基因,包括大家熟知的OncodriveFM和OncodriveCLUST。
IntOGen數(shù)據(jù)庫(kù)最早發(fā)表在2010年,收集不同數(shù)據(jù)平臺(tái)下受表達(dá)和拷貝數(shù)變化影響的基因和通路。2013年數(shù)據(jù)庫(kù)進(jìn)行更新,收集了13個(gè)癌癥位點(diǎn)的4623個(gè)腫瘤基因組/外顯子中涉及腫瘤發(fā)生的突變、基因和通路。而后,該數(shù)據(jù)持續(xù)更新,逐漸包含與治療、臨床分期、FDA批準(zhǔn)或臨床試驗(yàn)的與藥物有效性相關(guān)的特定基因組改變等信息。
目前,該數(shù)據(jù)庫(kù)收集了221個(gè)隊(duì)列的66種不同癌癥類型,總共28,076個(gè)樣本的體細(xì)胞SNV和短indels。大多數(shù)樣本來(lái)自大規(guī)模的測(cè)序工作,如ICGC、TCGA、PCAWG、TARGET。重要的是,通過(guò)cBioPortal和PedcBioPortal分別獲得了其他60個(gè)隊(duì)列的基因突變。這突出了開發(fā)和維護(hù)集中精力收集小項(xiàng)目中的測(cè)序數(shù)據(jù)的重要性。最后,從最初的研究中獲得了8個(gè)獨(dú)立隊(duì)列中測(cè)序的2257個(gè)腫瘤的突變。221個(gè)隊(duì)列中,大多數(shù)是原發(fā)腫瘤(180個(gè)),而其余41個(gè)是轉(zhuǎn)移或復(fù)發(fā)樣本(共4713個(gè))。

使用CGC中的一組驅(qū)動(dòng)基因作為66種惡性腫瘤發(fā)展相關(guān)基因的“金標(biāo)準(zhǔn)”。雖然CGC是不完整的,可能包含一些假陽(yáng)性,但據(jù)知,它是從文獻(xiàn)中注釋的最全面和最準(zhǔn)確的一組驗(yàn)證過(guò)的癌癥基因。在整合的568個(gè)突變驅(qū)動(dòng)基因中,幾乎有四分之三已經(jīng)在CGC中進(jìn)行了注釋(這也為該整合提供了一個(gè)強(qiáng)有力的驗(yàn)證)。

三、識(shí)別diver基因和通路的pipeline
使用這些腫瘤突變數(shù)據(jù)集識(shí)別癌癥驅(qū)動(dòng)基因需要一個(gè)高效的計(jì)算系統(tǒng),我們稱之為IntOGen管道。IntOGen管道由三個(gè)基本步驟組成。第一個(gè):預(yù)處理確保每個(gè)方法以正確的格式和操作參數(shù)接收其輸入,例如,去重從相同腫瘤中提取的樣本,或去除那些具有非同義突變與同義突變或超突變表型的異常比例的樣本。第二步:使用最近公布的7個(gè)方法識(shí)別驅(qū)動(dòng)基因 - dNdScv、 OncodriveFML、CBaSE、OncodriveCLUSTL、HotMAPS、smRegions和Mutpanning ;第三步:通過(guò)加權(quán)投票將每種方法確定的候選驅(qū)動(dòng)基因列表組合在一起,每種方法的權(quán)重基于其感知的可信度。這種組合產(chǎn)生了每個(gè)隊(duì)列的驅(qū)動(dòng)基因列表,這些驅(qū)動(dòng)基因比單個(gè)方法產(chǎn)生的驅(qū)動(dòng)基因更敏感,但不喪失特異性。在最后的后處理步驟中,可能由于已知的混雜因素而出現(xiàn)的偽候選驅(qū)動(dòng)基因被自動(dòng)過(guò)濾掉。

2020年,IntOGen pipeline進(jìn)行了更新,除了OncodriveFM 和OncodriveCLUST方法外,還額外增加了5種方法。并用OncodriveFML替換了以往的OncodriveFM,OncodriveFML方法可以識(shí)別非編碼癌癥驅(qū)動(dòng)基因。而新添的如dNdScv、CBaSE等方法,它們分別基于不同的原理識(shí)別癌癥驅(qū)動(dòng)基因——頻率、功能、結(jié)構(gòu)。

IntOGen識(shí)別癌癥驅(qū)動(dòng)基因基本流程(參考最新):

四、使用方法
IntOGen數(shù)據(jù)庫(kù)首頁(yè)給出了所有癌癥的扇形圖,當(dāng)研究者需要某一癌癥的驅(qū)動(dòng)基因時(shí),可以在首頁(yè)選擇所需要的癌癥,IntOGen會(huì)返回該癌癥驅(qū)動(dòng)基因相關(guān)的信息。包括所涉及的數(shù)據(jù)集,計(jì)算得到的癌癥驅(qū)動(dòng)基因(可以下載多種形式:詞云圖、條形圖和表格)。

詞云圖代表了PRAD中最常反復(fù)突變的癌癥驅(qū)動(dòng)基因。基因的大小與該基因突變樣本的數(shù)量有關(guān)。

Ref:
IntOGen-mutations identifies cancer drivers across tumor types. Nature Methods 2013
A compendium of mutational cancer driver genes Nature Cancer reviews 2020
Comprehensive characterization of cancer driver genes and mutations. Cell 2018