大家好呀!今天給大家介紹一篇2021年2月發表在fronters in Cell and Developmental Biology上的文章。淋巴結轉移是侵襲性癌癥患者腫瘤復發和生存的重要預測因子,淋巴結轉移患者會出現不可控的疾病進展和較短的生存期。隨著高通量技術的發展,已有大量的表達數據包括mRNA和ncRNA可以用于預測腫瘤起源和癌癥亞型。本研究作者基于不同特征構建SVM分類器,可以用于預測一系列癌癥的淋巴結轉移狀態。
Prediction of Lymph-Node Metastasis in Cancers Using Differentially Expressed mRNA and Non-coding RNA Signatures
使用差異表達mRNA和非編碼RNA特征預測癌癥的淋巴結轉移
摘要:
準確預測癌癥的淋巴結轉移對于下一步的臨床治療十分重要,有益于患者的預后。mRNA和非編碼RNA廣泛應用于構建預測癌癥起源和亞型的分類器。然而,使用這些特征研究癌癥的淋巴結轉移很少,基于不同特征的分類器性能也沒有進行比較。本研究通過鑒定淋巴結轉移和未轉移的差異表達mRNA,miRNA和lncRNA作為特征,構建預測不同癌癥淋巴結轉移的分類器。系統的比較了不同特征的SVM分類器的性能。本研究共采用了9種癌癥數據,mRNA,miRNA和lncRNA分類器的精確度為81%,81.97%和80.78%。本研究提出的特征選擇策略是經濟有效的,可以準確的識別生物標志物,構建健壯的分類器預測腫瘤淋巴結轉移。此外,作者開發了一個界面友好的網站可以幫助研究人員預測癌癥的轉移風險。
流程圖:

材料與方法:
1.癌癥篩選和數據收集:首先,作者使用TCGA數據庫中臨床TNM分期數據篩選患者中存在明確淋巴結轉移狀態的腫瘤。其中,N-index和T-index為1-4,M-index為0的患者為淋巴結轉移患者,而N-index和M-index為0,T-index為1-4的患者為非淋巴結轉移患者。共有9種癌癥類型存在清晰的淋巴結轉移分類信息。對于這些癌癥類型,作者收集了2491個mRNA,2364個miRNA和2491個lncRNA,包括正常樣本,淋巴結轉移樣本和非轉移樣本。
2.數據預處理:對于每類癌癥的數據集,使用R包impute處理缺失值。
3.特征選擇:對于這9類癌癥數據,作者進行了3輪特征選擇。第一,篩選淋巴結轉移和非轉移樣本中差異表達的mRNA,miRNA和lncRNA。第二,篩選正常樣本和癌癥樣本中差異表達的mRNA,miRNA和lncRNA。第三,進行PCA分析。
4.分類器構建和網站開發:將篩選到的mRNA,miRNA和lncRNA作為預測癌癥淋巴結轉移的生物標志物。本研究使用SVM算法構建分類模型,其性能較好。作者的特征選擇策略可以保證獲得較小的特征集且預測性能較好。將SVM的分類結果與KNN和RF進行比較。對于淋巴結轉移樣本和非轉移樣本的不平衡問題,作者采用下采樣的策略來獲得平衡數據集。所有的模型進行5折交叉驗證來提高預測性能。作者開發LNMpredictor網站,可以使研究人員進行淋巴結轉移預測。
結果:
1.癌癥和樣本統計
本研究作者重點關注有明確淋巴結轉移狀態和樣本數量足夠的癌癥類型,基于SVM構建不同癌癥類型的分類器。本研究共選定9種癌癥類群,其中70%為腺癌和鱗狀細胞癌,20%為尿路上皮癌,包括乳腺,肺,腎,結腸,膀胱,宮頸,胰腺和直腸等8種器官或組織類型。其中肺源性腺癌和鱗狀細胞癌的淋巴結轉移風險較大。為構建分類器,作者選擇了2491個mRNA樣本,2364個miRNA樣本和2491個lncRNA樣本(表1)。

2.特征選擇
鑒定可以準確預測淋巴結轉移狀態的特征是構建有效分類器的關鍵步驟。為實現這一目標,作者使用淋巴結轉移和非淋巴結轉移之間的差異表達mRNA和ncRNC作為生物標志物,用來區分患者有無淋巴結轉移。對于miRNA來說,僅鑒定差異表達miRNA已經篩選到了大小合適的特征集(3-27個特征)。而對于mRNA和lncRNA來說,僅鑒定差異表達mRNA和lncRNA篩選到的特征集較大,平均為591和276個特征。因此,作者隨后進行了PCA特征選擇,這一步后篩選到mRNA和lncRNA的特征集大小平均為6和4(表2)。隨后,作者對miRNA的特征集構建了聚類熱圖可視化miRNA癌癥樣本的表達水平(圖1)。


3.分類性能評估
分類器的性能主要取決于提取特征的質量和數量。本研究中,作者選擇腫瘤淋巴結轉移中差異表達mRNA,miRNA和lncRNA作為分類器的特征。對于miRNA來說,僅使用差異表達miRNA即可,對于mRNA和lncRNA來說還需要進行PCA分析。作者使用SVM訓練分類器并生成模型。本研究作者將每類癌癥的淋巴結轉移樣本和非淋巴結轉移樣本進行平衡并使用SVM分類算法,并進行5折交叉驗證。為綜合評價該算法,作者將SVM分類器與KNN和RF分類器的性能進行比較。結果表明,SVM分類器的性能優于KNN和RF分類器,平均提高了2%。表2為9種癌癥不同特征的SVM分類器的5折交叉驗證訓練集和測試集準確率。使用mRNA,miRNA和lncRNA基于SVM分了錢可以正確預測大部分腫瘤的淋巴結轉移狀態,總體準確率分別為81%,81.97%和80.78%。此外,作者還開發了一個LNMpredictior網站,可以幫助研究人員預測淋巴結轉移風險(圖2)。

結論:
腫瘤中不確定的淋巴結轉移狀態是影響患者生存和預后的主要因子,明確的區域轉移預測有助于靶向腫瘤治療和臨床管理。機器學習已經廣泛應用于癌癥預測。本研究,作者使用癌癥患者的臨床數據和表達數據,將每種癌癥分為正常,淋巴結轉移和非轉移樣本。隨后,作者提出一種新的特征選擇策略以鑒定差異表達mRNA,miRNA和lncRNA作為預測淋巴結轉移的生物標志物。隨后,使用SVM算法構建每種患者的分類器并與KNN和RF進行比較。結果表明,SVM分類器的性能較好。并且作者開發了一個部署SVM分類器的網站,可以輔助研究人員預測淋巴結轉移狀態。
參考文獻:
Zhang S , Zhang C , Du J , et al. Prediction of Lymph-Node Metastasis in Cancers Using Differentially Expressed mRNA and Non-coding RNA Signatures[J]. Frontiers in Cell and Developmental Biology, 2021, 9:605977.