8+基于DNA復制壓力構建機器學習預測模型思路分享
如何利用多種機器學習算法建立預測模型,這篇8+文章告訴你!
新鮮出爐:建立機器學習模型探索DNA復制壓力對于前列腺癌患者預后和治療的影響
2020年,前列腺癌是第二大常見的癌癥,也是癌癥死亡的第五大原因。由于前列腺癌存在相當大的異質性,其治療方式必須考慮到患者基因組和臨床差異,從而進一步確定個性化治療方案。
然而,目前的證據表明,臨床特征和現有的檢測如Gleason評分、血清前列腺特異性抗原(PSA)和BRCA1/2突變不足以預測前列腺癌的進展或指導治療方案。因此,前列腺癌患者有很大的風險被過度治療或治療不足。復制壓力(DNA replication stress)是DNA復制過程中的障礙, 可以減慢或者停止復制叉的行進過程。這些壓力主要來自DNA復制機制自身缺陷,變異細胞 (腫瘤) 中基因組復制的高度需求和外部壓力包括高溫或藥物處理等。長遠來看,可促進腫瘤的發生和發展。
DNA復制壓力個性化服務
掃碼咨詢

今年1月份,發表在Journal?of?Translational?Medicine(IF:8.44)雜志上的一篇文章,利用多種機器學習算法,建立了一個穩定而強大的預測原發性前列腺癌復發和治療反應的模型。為前列腺癌風險分層和治療指導提供了希望。
A machine learning framework develops a DNA replication stress model for predicting clinical outcomes and therapeutic vulnerability in primary prostate cancer
下面和小編一起看看它的具體研究內容吧~
一、研究概述
1、在TCGA-PRAD數據集中進行特征篩選和機器學習基準測試
2、建立復制壓力signature(RSS)并在4個獨立外部隊列中驗證
3、識別篩選潛在的治療靶點和藥物

圖1 本研究工作概述
二、TCGA-PRAD中DNA復制壓力相關特征的鑒定
1、單因素cox分析TCGA-PRAD數據集,確定了198個與前列腺癌復發顯著相關的基因
2、Bootstrap方法進一步從198個預后基因中選擇了136個,這些基因對樣本重采樣具有魯棒性,并且在驗證數據集中也被識別出來
3、采用Boruta算法,將上述選擇的基因縮小到47個,這些基因被證實與復發更相關。按照重要程度對其排序,排名前5位的基因包括EMD、HJURP、PLK1、TROAP和CENPK(圖2A)

圖2 利用機器學習開發RSS
A Boruta算法識別出47個與前列腺癌復發相關的復制壓力相關基因;
B 箱線圖展示7種與生存相關的機器學習算法的C-index值;
C 箱線圖展示7種與生存相關的機器學習算法的integrated brier score (IBS) ;
D 機器學習算法在1-、3-、5-和10年的AUC值比較;
E 條形展示TCGA-PRAD隊列中納入的前列腺癌復發基因對XGBoost模型的貢獻;
三、DNA復制壓力signature的構建
1、使用Boruta算法選擇的特征,作者對7種與生存相關的機器學習算法(包括Enet、lasso、Ridge、XGBoost、plsRcox、SuperPC和CoxBoost)進行了基準測試,以篩選具有最佳精度和過擬合風險較低的超參數調優模型
2、結果顯示,XGBoost生存模型表現最佳,平均C-index值最高(0.725),平均IBS最低(0.156),平均AUC值最高(1年:0.807;3年:0.746;5年:0.703;10年:0.742)。然后將具有調優超參數的XGBoost模型擬合到整個TCGA-PRAD數據集,并稱為RSS(圖2B-D)
3、圖2E顯示了推斷出的特征對RSS的貢獻,前5個特征包括EMD、CCNE2、PTTG1、TROAP和TK1
四、DNA復制壓力signature的評估
1、作者使用1、3、5年AUC和C-index值來探討TCGA-PRAD訓練隊列和4個外部驗證隊列中RSS的預后價值。TCGA-PRAD 數據集1年、3年、5年AUC值分別為0.869、0.890、0.864,DKFZ-PRAD數據集AUC值分別為0.748、0.732、0.695,GSE70768隊列AUC值分別為0.832、0.658、0.636,GSE70769隊列AUC值分別為0.740、0.689、0.677,GSE94767隊列AUC值分別為0.701、0.712、0.659(圖3A - E)。TCGA-PRAD數據集的C-index值為0.851,DKFZ-PRAD數據集為0.700,GSE70768隊列為0.724,GSE70769數據集為0.654,GSE94767數據集為0.670。總體而言,RSS在驗證數據集上顯示出強大的預測能力
2、單變量和多變量Cox回歸分析,結果顯示,在所有數據集中,RSS作為一個連續變量與較短的復發時間顯著相關,因此被認為是前列腺癌復發的獨立危險因素(圖3F)
3、cutoff值為0.536時,能夠將所有數據集患者分為高危組和低危組,Kaplan-Meier分析顯示所有數據集的復發時間差異顯著(圖3G-K)

圖3 多個隊列中DNA復制壓力signature(RSS)的評估
五、RSS與臨床變量及已發表signature的比較
1、由于臨床變量如Gleason評分、血清PSA和TNM分期通常用于指導前列腺癌的管理和預測預后,作者采用C-index值將其與RSS進行了比較。總體而言,在TCGA-PRAD和GSE70768數據集中,RSS顯示出比大多數臨床特征更好的預測準確性,在DKFZ-PRAD、GSE70769和GSE94767數據集中,RSS的預測能力也不差(圖4A-E)
2、作者還將RSS與已發表的signature進行了比較,發現RSS與TCGA-PRAD隊列中的其他signature相比具有更高的風險比、C-index和AUC值(圖4F-J)

圖4 復制壓力signature(RSS)的預測性能與臨床特征和已發表預后signature進行比較
A TCGA-PRAD、B DKFZ-PRAD、C GSE70768、D GSE70769、E GSE94767數據集中RSS與臨床特征的C-index值比較;
F 5個前列腺癌隊列預后signature的單因素Cox回歸分析;
G 在隊列中RSS和其他預后signature之間的C-index值比較;
H、I、J 比較TCGA-PRAD數據集中1 -、3-和5年預后signature之間的接受者工作特征曲線(AUC)下的時間依賴區域;
六、TCGA-PRAD中RSS-high組和RSS-low組的多組學分析
1、作者使用GISTIC2.0分析發現,RSS-high組比RSS-low組有更多的重復拷貝數改變(圖5A-D)
2、RSS-high組的患者TP53、PTEN、RB1等基因缺失較多,MYC和CCND1基因在RSS-high組中擴增(圖5E)
3、此外,作者比較了RSS-high組和RSS-low組之間常見的體細胞突變,發現RSS-high組的TP53突變頻率(18.6%)高于RSS-low組(6.2%)(圖5F)
RSS-high組的非整倍體評分、腫瘤突變負擔、腫瘤新抗原負擔均顯著高于RSS-low組(圖5G-I)

圖5 RSS-high組和RSS-low組的多組學特征
RSS-high組檢測到重復拷貝數擴增區(A)和缺失區(B);
RSS-low組檢測到重復拷貝數擴增區(A)和缺失區(D);
E 受重復拷貝數改變影響的基因;
F 常見體細胞突變;
TCGA-PRAD數據集中RSS-high和RSS-low組患者的G非整倍體評分、H腫瘤突變負擔和I腫瘤新抗原負擔的分布;
七、RSS與臨床特征和生物學過程的聯系
1、作者比較了所有隊列中RSS-high組和RSS-low組的臨床特征,并使用ssGSEA研究了RSS對生物通路的影響。結果發現,RSS-high組細胞周期相關通路如有絲分裂軸、E2F靶點、G2M檢查點、MYC靶點、DNA復制和DNA修復相關通路如堿基切除修復、核苷酸切除修復、錯配修復,以及幾種癌癥相關通路如WNT/ β -catenin信號通路、Notch信號通路和血管生成顯著富集(均p<0.05)。RSS-low組與雄激素反應和凋亡顯著相關(圖6)
2、RSS-low組的特點是脂肪酸代謝、類固醇生物合成和氨基酸代謝等代謝相關途徑被顯著激活,而在RSS-high組中只有氧化磷酸化和嘧啶代謝等幾種代謝途徑被富集(圖6)
總之,RSS-high組具有高度的增殖性和侵襲性,而RSS-low組具有升高的雄激素反應和代謝活性

圖6臨床病理和生物學特征與復制壓力signature的關聯
八、RSS與免疫微環境的關系
1、據報道,復制壓力可激活促炎反應并改變腫瘤微環境。因此,作者利用CIBERSORT來量化905個前列腺癌樣本中的免疫細胞浸潤水平,并研究了RSS與免疫浸潤之間的關系。結果顯示,與RSS-low組相比,RSS-high組的CD8 + T細胞、調節性T細胞和M2巨噬細胞比例增加(圖7 A)。RSS與CD8 T細胞、調節性T細胞、M2巨噬細胞比例呈正相關(圖7B-D)
2、RSS-high組的免疫抑制標志物如FOXP3、HAVCR2、LAG3、PDCD1和ARG1的表達顯著升高(圖7E)
3、然后作者計算了IMvigor210隊列的RSS評分,發現阿替利珠單抗(atezolizumab)應答者的RSS評分明顯高于非應答者(圖7F),作者還使用閾值0.536將隊列分為RSS-high組和RSS-low組,發現RSS-high組的應答者明顯更多(圖7G)

圖7 元隊列中復制壓力signature與免疫細胞浸潤之間的關系
A CIBERSOR分析結果
B RSS和CD8 + T細胞之間的散點圖
C RSS和調控T細胞之間的散點圖
D RSS和M2巨噬細胞之間的散點圖
E RSS-high組和RSS-low組免疫相關基因的表達
F 阿替利珠單抗應答者和無應答者間RSS分布
G RSS-high組和RSS-low組間應答者和無應答者的百分比
九、RSS-high組患者的潛在靶點和藥物識別
1、為了確定RSS-high組患者的潛在靶點,作者首先在TCGA-PRAD和DKFZ-PRAD隊列中進行了RSS和druggable gene mRNA表達之間的Spearman秩相關分析。并將兩個隊列中正相關基因的共同子集視為RSS相關靶點(圖8A、B)
2、此外,作者利用CERES評分來衡量7個前列腺癌細胞系中RSS相關靶點的重要性,并縮小到13個潛在治療靶點(CERES評分大多< -1)。作者發現許多治療靶點如TOP2A、CDK9、CHEK1、RRM2和AURKB與細胞周期過程緊密相關(圖8C)
3、接下來,作者進行CMap分析,以推斷潛在有效的化合物。在5個前列腺癌隊列中進行了差異基因分析,并采用隨機效應模型進行meta分析,以形成差異表達基因的共識列表。然后將150個上調最多的基因和150個下調最多的基因作為RSS簽名來預測每種化合物的CMap評分。通過這種方法,作者共鑒定出84種CMap評分低于- 95并具有反向RSS簽名能力的化合物(圖8D)
4、在84個化合物中,拓撲異構酶抑制劑和CDK抑制劑分別占11.9%和7.1%。為了提高CMap推斷的可信度,使用prism衍生的藥物反應數據來推斷CMap選擇的化合物的AUC值。作者發現2種拓撲異構酶抑制劑,包括伊立替康和拓撲替康,在TCGA-PRAD和DKFZ-PRAD隊列中均在RSS-high組中顯示較低的AUC值(圖8E、F),表明拓撲異構酶是潛在的靶點之一
5、此外,作者還研究了RSS是否可以預測傳統前列腺癌治療的治療反應。如圖8G、H所示,RSS-high組別的患者對紫杉醇類化療(包括多西他賽和紫杉醇)和PARP抑制劑(包括奧拉帕尼和他唑帕尼)更敏感。相比之下,RSS-low組別的患者對ADT如阿比特龍更敏感

圖8 確定RSS-high患者的潛在治療靶點和藥物
A TCGA-PRAD和B DKFZ-PRAD數據集中RSS與druggable gene mRNA表達之間的Spearman秩相關分析得出的相關系數點圖;
C 前列腺癌細胞系中鑒定靶點的CERES評分分布;
D 通過CMap分析選擇化合物的組成,只顯示前10個藥品類別;
比較TCGA-PRAD(E)和 DKFZ-PRAD(F)數據集中RSS-high和RSS-low組別患者伊立替康和拓撲替康的推斷AUC值;
比較TCGA-PRAD(G)和DKFZ-PRAD(H)數據集中RSS-high和RSS-low組別患者中ADT、紫杉烷和PARP抑制劑的AUC值;
十、敲除FEN1和RFC5抑制細胞生長
1、作者選擇FEN1和RFC5進行實驗驗證,因為它們在復發性前列腺癌中表達較高,而在前列腺癌中很少被研究。在C4-2B和PC-3細胞中證實了FEN1和RFC5在mRNA和蛋白水平上的成功敲除(圖9A、B)。
2、然后,作者對轉染C4-2B和PC-3細胞進行CCK-8和集落形成檢測,結果顯示FEN1和RFC5的下調顯著抑制細胞生長(圖9C、D)。
3、AV和PI染色評估轉染后凋亡細胞的百分比。結果顯示,敲除FEN1和RFC5后C4-2B和PC-3細胞凋亡率升高(圖9E)。
綜上所述,FEN1和RFC5可以通過促進細胞生長來促進前列腺癌的進展。

圖9 敲除FEN1和RFC5抑制細胞生長,促進細胞凋亡
通過real-time qPCR(A)和B Western blot(B)檢測,C4-2B和PC-3中FEN1和RFC的表達水平通過siRNA敲低而降低;
通過CCK-8(C)和菌落形成(D)實驗,比較C4-2B和PC-3中對照組、FEN1和RFC5敲除組的細胞生長情況;
E流式細胞術檢測對照組、FEN1組和RFC5敲低組細胞凋亡;
DNA復制壓力是基因組不穩定性的主要驅動因素。這項研究建立了一個新穎而可靠的RSS,可以反映前列腺癌的復制壓力水平并預測預后和治療反應。機器學習方法越來越多地用于預測患者的生存。然而,如何成功地將這些技術應用于臨床實踐仍然是一個挑戰。除了前列腺癌之外的癌型,同樣可以采用機器學習的方法來分析建立預測模型,為臨床定制個性化治療方案提供可靠的參考!
DNA復制壓力個性化服務
掃碼咨詢
