DNA甲基化在乳腺癌的發(fā)展過程中起著作用。先前的研究表明,DNA甲基化修飾可以作為一種很有前景的乳腺癌生物標(biāo)記物。然而,以前的研究普遍被低統(tǒng)計效力所限制。今年4月份Maria Panagopoulou等人在 Cancers(IF: 6.639) 上發(fā)表了一篇《Deciphering the Methylation Landscape in Breast Cancer: Diagnostic and Prognostic Biosignatures through Automated Machine Learning 》,利用創(chuàng)新的AutoML工具對可用的BrCa甲基組進行再研究,得到了三個高性能的診斷/預(yù)后能力的簡單特征。
Deciphering the Methylation Landscape in Breast Cancer:
Diagnostic and Prognostic Biosignatures
through Automated Machine Learning
破譯乳腺癌的甲基化景觀:通過自動化機器學(xué)習(xí)診斷和預(yù)后生物信號
一、研究背景
DNA甲基化是哺乳動物細(xì)胞基因表達的關(guān)鍵調(diào)控因子。DNA甲基化機制的破壞會導(dǎo)致腫瘤相關(guān)基因的異常表達,這些基因參與轉(zhuǎn)移、免疫逃逸和代謝。然而,確切的甲基化事件及其在癌變和腫瘤進展過程中的關(guān)鍵時間尚未完全描述。隨著全基因組甲基化陣列及自動化ML工具的出現(xiàn),利用ML方法分析全基因組甲基化BrCa數(shù)據(jù)集,轉(zhuǎn)化醫(yī)學(xué)和分子生物學(xué)科學(xué)領(lǐng)域的研究人員能夠從對珍貴和稀缺的臨床樣本進行的費力和昂貴的陣列檢查中提取最大的信息,導(dǎo)致個性化的臨床決策和疾病管理。
在這篇文章中,研究人員的目標(biāo)是通過生物信息學(xué)分析利用全基因組BrCa甲基化數(shù)據(jù)集,使用現(xiàn)成的工具來識別DMG,通過功能分析揭示病理生理學(xué)意義,最重要的是通過特征選擇建立準(zhǔn)確和簡單的預(yù)測性特征,可用于個性化BrCa管理。

二、結(jié)果
1、BrCa與正常乳腺組織甲基化差異的研究
通過差異甲基化分析鑒定的差異甲基化基因(DMGs)進行進一步的功能分析,以確定BrCa病理生理學(xué)中的表觀遺傳調(diào)控途徑和功能,故研究人員做了以下幾個工作:
首先,用RnBeads分析520個BrCa(原發(fā)性和轉(zhuǎn)移性)和185個正常乳腺組織的原始甲基組數(shù)據(jù),并顯示27786個DMGs(假發(fā)現(xiàn)率(FDR)<0.05)。兩組間的陣列基因甲基化總體上密切相關(guān)(ρ=0.9681)。緊接著,采用RnBeads分析對兩組間的DMGs自動排序,并選擇250個排名靠前的基因進行進一步的功能分析。在這些DMGs中,只有10個是低甲基化的,其余240個DMGs在BrCa中相對于正常組織是高甲基化的。
其次,使用DAVID工具對250個DMG進行基因本體分析(圖2B)。結(jié)果表明:
(1)分子功能分析顯示,序列特異性DNA結(jié)合、轉(zhuǎn)錄因子活性和RNA聚合酶II核心啟動子近端區(qū)域富集。
(2)生物過程富集分析發(fā)現(xiàn),DMGs主要參與RNA polⅡ啟動子的轉(zhuǎn)錄、胰腺內(nèi)分泌發(fā)育、轉(zhuǎn)錄調(diào)控和DNA模板化。
(1)細(xì)胞成分分析顯示,研究基因主要富集于細(xì)胞核。
(2)通過一致性HDB進行的KEGG和反應(yīng)組分析主要揭示了信號轉(zhuǎn)導(dǎo)和代謝的富集。
最后,用JADBio分析RnBeads產(chǎn)生的β值,建立診斷模型。步驟如下:
(1)劃分?jǐn)?shù)據(jù)集。原始數(shù)據(jù)集(520個原發(fā)性和轉(zhuǎn)移性BrCa和185個正常組織)被自動隨機分為訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集。
(2)構(gòu)建模型。對28581個基因陣列特征的訓(xùn)練數(shù)據(jù)集進行分析,通過分類隨機森林算法產(chǎn)生區(qū)分BrCa患者和健康個體的5個特征基因(AUC=0.994)。其中4個是lncRNA基因,分別是AC104435.5、AC002550.1、AC124283.3和AC078802.1,最后一個是假基因DND1P1。構(gòu)造驗證模型顯示AUC為0.988,進一步驗證了模型性能的穩(wěn)定性和準(zhǔn)確性。(圖2C)
(3)外部驗證。為了進一步驗證模型的性能,將其應(yīng)用于一個外部的、不相關(guān)的數(shù)據(jù)集。經(jīng)外部驗證(AUC為0.888),進一步驗證了模型預(yù)測的區(qū)分健康和BrCa的性能。

2、原發(fā)性和轉(zhuǎn)移性BrCa的甲基化差異
通過分析原發(fā)性BrCa和轉(zhuǎn)移性BrCa的甲基體,以檢測與轉(zhuǎn)移性轉(zhuǎn)化相關(guān)的變化。研究人員做了以下工作:
首先,應(yīng)用RnBeads對132例原發(fā)癌和31例遠(yuǎn)處轉(zhuǎn)移癌的原始資料進行分析,檢測DMGs 24638例(FDR<0.05)。結(jié)果顯示兩組之間的甲基化水平高度相關(guān)(ρ=0.9804)。
其次,對250個最高級別的DMG進一步進行富集分析。與原發(fā)性BrCa相比,轉(zhuǎn)移性BrCa高甲基化126例,低甲基化124例。DAVID的基因本體分析在生物學(xué)過程、分子功能和細(xì)胞成分方面沒有顯示出任何統(tǒng)計上的顯著相關(guān)性。類似地,通過一致同意的HDB分析KEGG和反應(yīng)體通路并沒有導(dǎo)致通路。
最后,用JADBio分析每個基因的β值,構(gòu)建一個鑒別轉(zhuǎn)移性BrCa疾病的特異性模型。步驟如下:
(1)劃分?jǐn)?shù)據(jù)集。原始數(shù)據(jù)集被自動隨機分為93個原發(fā)組織和21個轉(zhuǎn)移組織的訓(xùn)練數(shù)據(jù)集和39個原發(fā)組織和10個轉(zhuǎn)移組織的驗證數(shù)據(jù)集。
(2)構(gòu)建模型。對28730個特征訓(xùn)練數(shù)據(jù)集進行AutoML分析,通過支持向量機算法生成一個包含三個特征基因,包括兩個lncRNA基因(AL139011.1和AD000671.3)和蛋白質(zhì)編碼基因USP16。在訓(xùn)練數(shù)據(jù)集中,該特征在區(qū)分原發(fā)性疾病和轉(zhuǎn)移性疾病方面的AUC為0.986,使用驗證數(shù)據(jù)集構(gòu)建模型(AUC=0.992),進一步驗證了該模型預(yù)測性能的準(zhǔn)確估計。

3、Ⅰ期BrCa與正常乳腺組織甲基化差異的研究
為了檢測BrCa癌變過程中的早期甲基化事件,對136例Ⅰ期BrCa和111例正常乳腺組織的甲基化原始數(shù)據(jù)進行了差異甲基化分析。共檢測到26046個DMGs(FDR<0.05)(圖4A)。
接下來,選擇250個排名靠前的基因(13個低甲基化基因和237個高甲基化基因在I期癌癥中與正常人的關(guān)系)進行進一步的功能分析。結(jié)果如下:
(1)生物過程分析表明,RNA-polⅡ啟動子在轉(zhuǎn)錄、DNA模板合成、轉(zhuǎn)錄調(diào)控和正、負(fù)調(diào)控等方面具有豐富的功能。
(2)分子功能也得到了豐富:序列特異性DNA結(jié)合、轉(zhuǎn)錄因子活性和DNA結(jié)合(圖4B)。
(3)細(xì)胞成分分析顯示只有細(xì)胞核富集。
(4)KEGG和Reactome分析表明,DMGs主要通過GPCR富集于信號轉(zhuǎn)導(dǎo)、代謝和信號傳導(dǎo)。
然后,將β值上傳到JADBio以構(gòu)建早期診斷模型。步驟如下:
(1)劃分?jǐn)?shù)據(jù)集。將原始數(shù)據(jù)集隨機分為94個Ⅰ期BrCa和79個正常組織的訓(xùn)練數(shù)據(jù)集和42個Ⅰ期BrCa和32個正常組織的驗證數(shù)據(jù)集。
(2)構(gòu)建模型。在28702特征訓(xùn)練數(shù)據(jù)集中,AutoML通過支持向量機算法生成了6個等效特征基因(AUC=0.973)(圖4C)。共同特征包括一個蛋白質(zhì)編碼基因(AIM2)、兩個lncRNA基因(AL513008.1和AC004884.2)和一個長基因間非蛋白質(zhì)編碼RNA基因(LINC01563)。其中非共同特征為5個蛋白編碼基因(DNM2、SSH1、PDGFRB、TIMP3和AP2M1)和1個lincRNA基因(LINC00623)。 經(jīng)驗證,該性能在AUC范圍內(nèi)達到0.972–0.984(圖4C),驗證了其估計的穩(wěn)定性和準(zhǔn)確性。

4、早期和晚期BrCa的甲基化差異
接下來,為了檢測與BrCa進展為晚期疾病相關(guān)的重要甲基化事件,研究人員對521例早期和221例晚期BrCa患者的原始甲基組數(shù)據(jù)進行分析,結(jié)果顯示:
(1)確定11176個DMG(FDR<0.05),兩組之間的甲基化總體上密切相關(guān)(ρ=0.999)。
(2)根據(jù)250個排名靠前的基因,119個低甲基化,其余131個DMG在晚期疾病中高甲基化與早期疾病有關(guān)。
(3)DAVID的功能分析并沒有顯示出與生物學(xué)過程、分子功能和細(xì)胞成分分析相關(guān)的統(tǒng)計顯著性。
(4)KEGG和Reactome通路分析也沒有導(dǎo)致任何通路。
研究人員為了傳遞預(yù)測信號,進行如下步驟:
(1)劃分?jǐn)?shù)據(jù)集。將原始數(shù)據(jù)集隨機分為366個早期和152個高級BrCa樣本的訓(xùn)練數(shù)據(jù)集和155個早期和69個高級BrCa樣本的驗證數(shù)據(jù)集。
(2)構(gòu)建模型。通過支持向量機算法,對28637特征訓(xùn)練數(shù)據(jù)集進行AutoML分析,得到了五個特征基因。特征包括四個蛋白質(zhì)編碼基因,即SMARCAD1,RWDD4,RPF2和WDR11以及一個lncRNA基因SNHG25。該特征在區(qū)分早期和晚期疾病方面的表現(xiàn)較差,AUC為0.559。

5、原發(fā)性BrCa患者生存分析
最后,為了建立一個基于甲基化的預(yù)后特征,研究人員使用894名患者的原始甲基組數(shù)據(jù)進行了AutoML事件時間(生存)分析,626名和268名原發(fā)性BrCa患者被隨機分配到訓(xùn)練和驗證數(shù)據(jù)集中。
通過ridge-Cox回歸算法,對28635個特征訓(xùn)練數(shù)據(jù)集進行AutoML分析,得出五個特征的四個等效預(yù)測特征。一致性指數(shù)為0.592,表明預(yù)后較差。四個共同的基因是兩個lncRNAs(AP005436.3和DDN-AS1),一個lincRNA(XX-C2158C12.2)和一個蛋白質(zhì)編碼基因(IL17RE)。非共同基因是一個lncRNA(AL355916.2)、一個lincRNA(LINC00824)和兩個蛋白質(zhì)編碼基因(NET1和BRINP2)。再次,將特征的臨界值增加到25導(dǎo)致輕微增加但仍較差的預(yù)后能力,AUC為0.606。
6、已鑒定蛋白質(zhì)與BrC的生物學(xué)聯(lián)系
為了進一步闡明BrCa病理生理學(xué)特征中所包含的所選蛋白質(zhì)基因的功能作用,研究人員使用另一種用于蛋白質(zhì)相互作用預(yù)測的生物信息學(xué)工具UniReD交叉檢查。UniReD是一個文本挖掘工具,可以預(yù)測蛋白質(zhì)的功能關(guān)聯(lián)。兩種蛋白質(zhì),RWDD4和BRINP2,被排除在分析之外,因為UniReD不能提供任何關(guān)于它們的信息。所有其他包含在特征碼中的蛋白質(zhì)特征被發(fā)現(xiàn)與乳腺癌途徑有關(guān)(根據(jù)KEGG途徑鑒定)。
此外,使用已知與乳腺癌生物學(xué)相關(guān)的10個基因的列表——BRCA1、BRCA2、RASSF1、ESR1、TP53、PIK3CA、BRMS1、CDH1、CST6、PTEN。
值得注意的是,所有的蛋白質(zhì)都與這些BrCa基因有一定的關(guān)聯(lián),并相應(yīng)地進行了排序。TIMP3、PDGFRB和DNM2都包含在早期疾病的生物信號中,顯示出最密切的關(guān)聯(lián),TIMP3與所有被檢測的BrCa基因相關(guān)。
三、討論
這篇范文利用全基因組BrCa甲基化數(shù)據(jù)集,通過差異甲基化分析鑒定的差異甲基化基因(DMGs)并進行進一步的功能分析,其主要貢獻是通過在高維甲基組數(shù)據(jù)集中應(yīng)用創(chuàng)新的經(jīng)驗證的AutoML技術(shù),通過支持向量機和隨機森林分類算法為BrCa診斷和預(yù)后提供三個準(zhǔn)確和低特征數(shù)的特征,是一篇典型的生信TCGA數(shù)據(jù)庫挖掘套路。
與此同時,Cancers雜志關(guān)注有關(guān)腫瘤方向的基礎(chǔ)研究及臨床轉(zhuǎn)化研究。作為具有較好IF上升趨勢的期刊,cancers雜志可以作為沖刺高分段的敲門磚。心動的腫瘤學(xué)研究領(lǐng)域的研究人員們快行動起來了!