膠質(zhì)瘤是最常見(jiàn)的腦部惡性腫瘤,患者的平均生存時(shí)間為18月。對(duì)患者的生存時(shí)間基于分子標(biāo)志預(yù)測(cè),可以找出具有具有治療潛力的患者。通過(guò)匯總多個(gè)模型的預(yù)測(cè)結(jié)果,可以構(gòu)建更加具有魯棒性,范化能力更強(qiáng)的模型,這在機(jī)器學(xué)習(xí)中被稱為集成學(xué)習(xí)(ensemble learning),9月22日來(lái)自青島大學(xué)研究者的論文“The genetic algorithm-aided three-stage ensemble learning method identified a robust survival risk score in patients with glioma”,介紹了結(jié)合遺傳算法,集成學(xué)習(xí)的生存時(shí)間預(yù)測(cè)模型。該文將詳細(xì)介紹其算法原理。
論文鏈接:https://academic.oup.com/bib/article-abstract/23/5/bbac344/6694808?redirectedFrom=fulltext&login=false
1)如何訓(xùn)練生存率預(yù)測(cè)算法
算法的訓(xùn)練數(shù)據(jù),來(lái)自11個(gè)公開(kāi)數(shù)據(jù)庫(kù)的集合,包含患者的RNA表達(dá)譜和生存時(shí)間。其中來(lái)自TCGA和CGGA693這兩個(gè)樣本量較大的數(shù)據(jù)集被用作訓(xùn)練數(shù)據(jù)集,而全部數(shù)據(jù)集(總計(jì)1191個(gè)樣本)被當(dāng)作測(cè)試數(shù)據(jù)集。
在模型訓(xùn)練的第一階段,使用TCGA數(shù)據(jù)集通過(guò)基因配對(duì)(gene-pairing)算法進(jìn)行特征提取,以避免批次效應(yīng);訓(xùn)練的第二階段,在CGGA693數(shù)據(jù)集上,通過(guò)10疊交叉驗(yàn)證,在47個(gè)基礎(chǔ)預(yù)測(cè)模型(例如隨機(jī)森林,決策樹(shù),支持向量機(jī))上通過(guò)對(duì)參數(shù)的網(wǎng)格搜索,找出最優(yōu)的模型參數(shù)組合;而在第三階段,在TCGA數(shù)據(jù)集上,通過(guò)遺傳算法,從第二階段訓(xùn)練得出的模型中,找出最優(yōu)的三個(gè)模型,作為最終進(jìn)入集成學(xué)習(xí)框架的三個(gè)基礎(chǔ)模型。之后在所有11個(gè)來(lái)源的數(shù)據(jù)集上,對(duì)訓(xùn)練的模型進(jìn)行評(píng)價(jià)。

圖1:預(yù)測(cè)算法訓(xùn)練三階段的示意圖
具體來(lái)看每一階段的訓(xùn)練過(guò)程,根據(jù)醫(yī)學(xué)信息,選取217個(gè)關(guān)鍵基因,之后通過(guò)Cox回歸,找出203個(gè)關(guān)鍵基因,用于進(jìn)一步的特征工程。之后將剩下了的203個(gè)基因兩兩配對(duì),形成203*202個(gè)基因?qū)Γ鶕?jù)下圖的公式,進(jìn)行配對(duì)。之后對(duì)于每個(gè)樣本,判斷配對(duì)所處的頻率所在的相對(duì)位置,選取位于20-80%的基因?qū)Γㄈコ切┰谠撆沃械谋磉_(dá)量大多是存在相關(guān)性,即A在大多數(shù)時(shí)大于或小于B的基因?qū)Γ员苊馀尾町悺=?jīng)此過(guò)程選出的6300個(gè)基因?qū)Γㄟ^(guò)與生存時(shí)間做Lasso回歸,選出最終用做特征的40個(gè)基因?qū)Α?/p>

圖2:基因?qū)λ惴ㄈコ涡?yīng)的效果,a是各個(gè)基因?qū)CA降維后的結(jié)果,b與c是各個(gè)數(shù)據(jù)集上,基因組合在去批次效應(yīng)之前的降維結(jié)果,d是去除異常值之后,對(duì)剩余的基因?qū)Ρ磉_(dá)量的降維結(jié)果,可見(jiàn)去批次效應(yīng)之前,降維結(jié)果顯示不同批次聚在一起,去除后則相對(duì)均一。
之后的原始的預(yù)測(cè)模型訓(xùn)練,在新數(shù)據(jù)集CGGA693上利用上一階段得到的特征,在47個(gè)模型上,通過(guò)10折交叉驗(yàn)證和網(wǎng)格搜索,依次尋找每個(gè)模型下的預(yù)測(cè)準(zhǔn)確性最高的參數(shù)組合。在第三階段,依舊使用同一批數(shù)據(jù),使用遺傳算法,找出采取那些模型的組合,能夠以更高的效能進(jìn)行生存時(shí)間預(yù)測(cè)。以選取那些模型組合作為基因型,以集成學(xué)習(xí)后預(yù)測(cè)誤差為表型。最初選取隨機(jī)組合的預(yù)測(cè)模型作為基因型,通過(guò)不斷的模擬進(jìn)化過(guò)程(讓模型組合經(jīng)過(guò)點(diǎn)突變和重組),再通過(guò)其預(yù)測(cè)準(zhǔn)確性作為適應(yīng)度,選擇下一代模型組合的“物種池”,以此找出選取那些模型組合進(jìn)行集成學(xué)習(xí)時(shí),預(yù)測(cè)的準(zhǔn)確性最高。最后在全部數(shù)據(jù)集組成的樣本集合上,評(píng)價(jià)模型的準(zhǔn)確性。
2)如何評(píng)價(jià)生存率預(yù)測(cè)算法
預(yù)測(cè)過(guò)程中,考察了診斷后從第一年到第五年的生存率(使用ROC評(píng)價(jià)),并通過(guò)泛癌癥分析,在五種不同的癌癥下,使用訓(xùn)練的模型進(jìn)行預(yù)測(cè)。作者還提供了一個(gè)在線工具h(yuǎn)ttps://sujiezhulab.shinyapps.io/3S_score/,用戶可通過(guò)上傳數(shù)據(jù),使用訓(xùn)練好的模型進(jìn)行生存率預(yù)測(cè),該工具可作為對(duì)膠質(zhì)瘤患者基于轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評(píng)估的易用工具。
評(píng)價(jià)時(shí)先按照生存率預(yù)測(cè),將患者分為兩組,計(jì)算不同風(fēng)險(xiǎn)組的Kaplan–Meier s生存時(shí)間曲線,在11個(gè)數(shù)據(jù)集中的每一個(gè),以及組合后測(cè)試集上,可以看到兩組的生存率有顯著差異。

圖3:在不同數(shù)據(jù)集上,高風(fēng)險(xiǎn)與低風(fēng)險(xiǎn)組生存率曲線
之后判斷針對(duì)個(gè)體患者的1年,3年,5年的生存率預(yù)測(cè),通過(guò)ROC曲線評(píng)價(jià)預(yù)測(cè)準(zhǔn)確性,結(jié)果見(jiàn)圖4.

圖4:不同數(shù)據(jù)集上,最終訓(xùn)練得出模型針對(duì)患者1,3,5年生存概率預(yù)測(cè)的ROC曲線。在所有樣本的數(shù)據(jù)集上,第一年生存率ROC為0.705, 第三年為0.825,第五年為0.839
為了說(shuō)明模型預(yù)測(cè)的魯棒性,通過(guò)將樣本和標(biāo)簽置換(npermutation test),重新計(jì)算ROC,發(fā)現(xiàn)新預(yù)測(cè)的結(jié)果和之前的結(jié)果是相近的,這說(shuō)明模型是學(xué)到了數(shù)據(jù)間的特征,而非僅僅記住數(shù)據(jù)標(biāo)簽。

圖6,經(jīng)過(guò)300次標(biāo)簽置換(permutation test)后,模型的預(yù)測(cè)準(zhǔn)確性差異不大

圖7。A,模型的可解釋性,將各個(gè)基因表達(dá)量對(duì)應(yīng)的風(fēng)險(xiǎn)值。B,基于膠質(zhì)瘤訓(xùn)練的模型在其它6種癌癥上預(yù)測(cè)得出的風(fēng)險(xiǎn)高與低兩組對(duì)應(yīng)的生存曲線存在顯著差異。
3)總結(jié)
該論文的亮點(diǎn),不僅在于提供了一個(gè)簡(jiǎn)單易用的,對(duì)膠質(zhì)瘤及其它癌癥患者基于轉(zhuǎn)錄組數(shù)據(jù)預(yù)測(cè)預(yù)后效果(生存率)的在線工具,更在于提出了一種可以借鑒的生信分析思路,即先通過(guò)搜集不同來(lái)源的公開(kāi)數(shù)據(jù)集,之后通過(guò)判斷組間數(shù)據(jù)的相關(guān)性,選出不存在組間依賴的特征集合,以此去除批次效應(yīng)。之后批量訓(xùn)練各類預(yù)測(cè)模型,再通過(guò)諸如遺傳算法的組合優(yōu)化算法,找出使用那些分類器集合后的預(yù)測(cè)效果最佳。通過(guò)類似的套路,可以對(duì)各種癌癥,使用多組學(xué),多來(lái)源進(jìn)行類似的模型構(gòu)建,預(yù)期也會(huì)產(chǎn)生比單一預(yù)測(cè)模型,或基于所有基礎(chǔ)預(yù)測(cè)模型的集成學(xué)習(xí)更優(yōu)的結(jié)果。