日韩电影院,久草97,欧美黄页

集成學(xué)習(xí)+遺傳算法，基于轉(zhuǎn)錄組預(yù)測(cè)膠質(zhì)瘤患者生存率的算法套路

生信干貨 Peter ·2022年10月10日 15:19

膠質(zhì)瘤是最常見(jiàn)的腦部惡性腫瘤，患者的平均生存時(shí)間為18月。對(duì)患者的生存時(shí)間基于分子標(biāo)志預(yù)測(cè)，可以找出具有具有治療潛力的患者。通過(guò)匯總多個(gè)模型的預(yù)測(cè)結(jié)果，可以構(gòu)建更加具有魯棒性，范化能力更強(qiáng)的模型，這在機(jī)器學(xué)習(xí)中被稱為集成學(xué)習(xí)（ensemble learning），9月22日來(lái)自青島大學(xué)研究者的論文“The genetic algorithm-aided three-stage ensemble learning method identified a robust survival risk score in patients with glioma”，介紹了結(jié)合遺傳算法，集成學(xué)習(xí)的生存時(shí)間預(yù)測(cè)模型。該文將詳細(xì)介紹其算法原理。

論文鏈接：https://academic.oup.com/bib/article-abstract/23/5/bbac344/6694808?redirectedFrom=fulltext&login=false

1）如何訓(xùn)練生存率預(yù)測(cè)算法

算法的訓(xùn)練數(shù)據(jù)，來(lái)自11個(gè)公開(kāi)數(shù)據(jù)庫(kù)的集合，包含患者的RNA表達(dá)譜和生存時(shí)間。其中來(lái)自TCGA和CGGA693這兩個(gè)樣本量較大的數(shù)據(jù)集被用作訓(xùn)練數(shù)據(jù)集，而全部數(shù)據(jù)集（總計(jì)1191個(gè)樣本）被當(dāng)作測(cè)試數(shù)據(jù)集。

在模型訓(xùn)練的第一階段，使用TCGA數(shù)據(jù)集通過(guò)基因配對(duì)（gene-pairing）算法進(jìn)行特征提取，以避免批次效應(yīng)；訓(xùn)練的第二階段，在CGGA693數(shù)據(jù)集上，通過(guò)10疊交叉驗(yàn)證，在47個(gè)基礎(chǔ)預(yù)測(cè)模型（例如隨機(jī)森林，決策樹(shù)，支持向量機(jī)）上通過(guò)對(duì)參數(shù)的網(wǎng)格搜索，找出最優(yōu)的模型參數(shù)組合；而在第三階段，在TCGA數(shù)據(jù)集上，通過(guò)遺傳算法，從第二階段訓(xùn)練得出的模型中，找出最優(yōu)的三個(gè)模型，作為最終進(jìn)入集成學(xué)習(xí)框架的三個(gè)基礎(chǔ)模型。之后在所有11個(gè)來(lái)源的數(shù)據(jù)集上，對(duì)訓(xùn)練的模型進(jìn)行評(píng)價(jià)。

圖1：預(yù)測(cè)算法訓(xùn)練三階段的示意圖

具體來(lái)看每一階段的訓(xùn)練過(guò)程，根據(jù)醫(yī)學(xué)信息，選取217個(gè)關(guān)鍵基因，之后通過(guò)Cox回歸，找出203個(gè)關(guān)鍵基因，用于進(jìn)一步的特征工程。之后將剩下了的203個(gè)基因兩兩配對(duì)，形成203*202個(gè)基因?qū)Γ鶕?jù)下圖的公式，進(jìn)行配對(duì)。之后對(duì)于每個(gè)樣本，判斷配對(duì)所處的頻率所在的相對(duì)位置，選取位于20-80%的基因?qū)Γㄈコ切┰谠撆沃械谋磉_(dá)量大多是存在相關(guān)性，即A在大多數(shù)時(shí)大于或小于B的基因?qū)Γ员苊馀尾町悺＝?jīng)此過(guò)程選出的6300個(gè)基因?qū)Γㄟ^(guò)與生存時(shí)間做Lasso回歸，選出最終用做特征的40個(gè)基因?qū)Α?/p>

圖2：基因?qū)λ惴ㄈコ涡?yīng)的效果，a是各個(gè)基因?qū)CA降維后的結(jié)果，b與c是各個(gè)數(shù)據(jù)集上，基因組合在去批次效應(yīng)之前的降維結(jié)果，d是去除異常值之后，對(duì)剩余的基因?qū)Ρ磉_(dá)量的降維結(jié)果，可見(jiàn)去批次效應(yīng)之前，降維結(jié)果顯示不同批次聚在一起，去除后則相對(duì)均一。

之后的原始的預(yù)測(cè)模型訓(xùn)練，在新數(shù)據(jù)集CGGA693上利用上一階段得到的特征，在47個(gè)模型上，通過(guò)10折交叉驗(yàn)證和網(wǎng)格搜索，依次尋找每個(gè)模型下的預(yù)測(cè)準(zhǔn)確性最高的參數(shù)組合。在第三階段，依舊使用同一批數(shù)據(jù)，使用遺傳算法，找出采取那些模型的組合，能夠以更高的效能進(jìn)行生存時(shí)間預(yù)測(cè)。以選取那些模型組合作為基因型，以集成學(xué)習(xí)后預(yù)測(cè)誤差為表型。最初選取隨機(jī)組合的預(yù)測(cè)模型作為基因型，通過(guò)不斷的模擬進(jìn)化過(guò)程（讓模型組合經(jīng)過(guò)點(diǎn)突變和重組），再通過(guò)其預(yù)測(cè)準(zhǔn)確性作為適應(yīng)度，選擇下一代模型組合的“物種池”，以此找出選取那些模型組合進(jìn)行集成學(xué)習(xí)時(shí)，預(yù)測(cè)的準(zhǔn)確性最高。最后在全部數(shù)據(jù)集組成的樣本集合上，評(píng)價(jià)模型的準(zhǔn)確性。

2）如何評(píng)價(jià)生存率預(yù)測(cè)算法

預(yù)測(cè)過(guò)程中，考察了診斷后從第一年到第五年的生存率（使用ROC評(píng)價(jià)），并通過(guò)泛癌癥分析，在五種不同的癌癥下，使用訓(xùn)練的模型進(jìn)行預(yù)測(cè)。作者還提供了一個(gè)在線工具h(yuǎn)ttps://sujiezhulab.shinyapps.io/3S_score/，用戶可通過(guò)上傳數(shù)據(jù)，使用訓(xùn)練好的模型進(jìn)行生存率預(yù)測(cè)，該工具可作為對(duì)膠質(zhì)瘤患者基于轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評(píng)估的易用工具。

評(píng)價(jià)時(shí)先按照生存率預(yù)測(cè)，將患者分為兩組，計(jì)算不同風(fēng)險(xiǎn)組的Kaplan–Meier s生存時(shí)間曲線，在11個(gè)數(shù)據(jù)集中的每一個(gè)，以及組合后測(cè)試集上，可以看到兩組的生存率有顯著差異。

圖3：在不同數(shù)據(jù)集上，高風(fēng)險(xiǎn)與低風(fēng)險(xiǎn)組生存率曲線

之后判斷針對(duì)個(gè)體患者的1年，3年，5年的生存率預(yù)測(cè)，通過(guò)ROC曲線評(píng)價(jià)預(yù)測(cè)準(zhǔn)確性，結(jié)果見(jiàn)圖4.

圖4：不同數(shù)據(jù)集上，最終訓(xùn)練得出模型針對(duì)患者1，3，5年生存概率預(yù)測(cè)的ROC曲線。在所有樣本的數(shù)據(jù)集上，第一年生存率ROC為0.705, 第三年為0.825，第五年為0.839

為了說(shuō)明模型預(yù)測(cè)的魯棒性，通過(guò)將樣本和標(biāo)簽置換（npermutation test），重新計(jì)算ROC，發(fā)現(xiàn)新預(yù)測(cè)的結(jié)果和之前的結(jié)果是相近的，這說(shuō)明模型是學(xué)到了數(shù)據(jù)間的特征，而非僅僅記住數(shù)據(jù)標(biāo)簽。

圖6，經(jīng)過(guò)300次標(biāo)簽置換（permutation test）后，模型的預(yù)測(cè)準(zhǔn)確性差異不大

圖7。A，模型的可解釋性，將各個(gè)基因表達(dá)量對(duì)應(yīng)的風(fēng)險(xiǎn)值。B，基于膠質(zhì)瘤訓(xùn)練的模型在其它6種癌癥上預(yù)測(cè)得出的風(fēng)險(xiǎn)高與低兩組對(duì)應(yīng)的生存曲線存在顯著差異。

3）總結(jié)

該論文的亮點(diǎn)，不僅在于提供了一個(gè)簡(jiǎn)單易用的，對(duì)膠質(zhì)瘤及其它癌癥患者基于轉(zhuǎn)錄組數(shù)據(jù)預(yù)測(cè)預(yù)后效果（生存率）的在線工具，更在于提出了一種可以借鑒的生信分析思路，即先通過(guò)搜集不同來(lái)源的公開(kāi)數(shù)據(jù)集，之后通過(guò)判斷組間數(shù)據(jù)的相關(guān)性，選出不存在組間依賴的特征集合，以此去除批次效應(yīng)。之后批量訓(xùn)練各類預(yù)測(cè)模型，再通過(guò)諸如遺傳算法的組合優(yōu)化算法，找出使用那些分類器集合后的預(yù)測(cè)效果最佳。通過(guò)類似的套路，可以對(duì)各種癌癥，使用多組學(xué)，多來(lái)源進(jìn)行類似的模型構(gòu)建，預(yù)期也會(huì)產(chǎn)生比單一預(yù)測(cè)模型，或基于所有基礎(chǔ)預(yù)測(cè)模型的集成學(xué)習(xí)更優(yōu)的結(jié)果。

欧美日本成人_亚洲一区二区日本_国产污视频在线观看_先锋影视av_99视频+国产日韩欧美_黄页视频在线免费观看_天海翼av在线播放_在线视频精品免费_黄色一级片免费在线观看_国内精品久久久久久久_av动漫网站_日本a级大片