今天來看一篇今年十月份剛發表在Nature Communications上的利用公共數據結合自己的數據開發算法鑒定新的腫瘤標記物的文獻,整個研究思路都不復雜,也都是一些常規的簡單分析,很值得借鑒。
通過來自治療中腫瘤樣本的通路標記預測轉移性黑色素瘤對抗PD1阻斷的反應

摘要
本研究主要是基于來自于以抗PD1為基礎的治療作為訓練集的轉移性黑色素瘤的轉錄組數據和臨床信息,在治療前(PASS-PRE)和治療中(PASS-ON)腫瘤樣本中構建基于路徑的超級標記,同時也在轉移性黑色素瘤的三個獨立數據集中進行了驗證。此外,還合并了所有的樣本,PASS-PRE和PASS-ON 標記的AUC值分別是0.65和0.88。與現有標記相比,PASS-ON標記在所有四個數據集上表現出更穩健和更優越的預測性能。總的來說,本研究提供了一個基于通路的標記的構建思路,該標志高度準確地預測了治療中腫瘤病人的抗PD1治療的反應。最后,研究人員指出,基于治療中腫瘤樣本的通路的標記有望應用預測患者對ICB治療的治療反應。
研究背景
免疫檢查點阻斷(ICB)療法是一類通過調節T細胞活性來提高抗腫瘤免疫反應的治療方法。這種療法雖然在治療轉移性黑色素瘤和許多其他類型的癌癥患者方面取得了顯著的成功,但是只有一部分患者長期獲益。因此很有必要對患者進行ICB療法上的分診,否則可能還會產生比較大的副作用,確定對ICB療法反應的預測性生物標志物是非常必要的,這將為治療決策提供并優化信息。
目前基于基因組和轉錄組研究已報道的生物標記主要包括有腫瘤突變負荷(TMB)、新抗原負荷、HLA-I基因型、細胞溶解活性、非整倍性和T細胞庫。此外,在腫瘤或腫瘤免疫微環境(TiME)中表達的免疫預測評分(IMPRES)和IFN-γ反應基因等基因表達特征也與預測轉移性黑色素瘤對ICB療法的反應有關。現有的標記主要都是基于臨床前模型、僅進行治療前活檢的臨床隊列、外周血樣本和非全轉錄組測序數據,而且由于批次效應、缺乏可重復性或其他原因等,ICB療法的大多數預測標記未能在其他隊列中得到驗證。
預測標記在獨立數據集和潛在各種癌癥類型的可重復性是臨床實踐中廣泛應用之前的一項基本要求。研究人員推測僅用有限數量的基因構建的單個基因或預測標記可能會降低可重復性和普遍性。在本研究中,他們利用RNAseq數據和治療前和治療中轉移性黑色素瘤的臨床信息,在四個獨立的數據集中鑒定了基于通路的標記,以預測轉移性黑色素瘤對抗PD1療法的反應。他們分別在治療前和治療中的時間點,從抗PD1應答(R)與無應答(NR)的腫瘤樣本中鑒定出顯著富集的通路標記。總的來說,本研究證明了來源于非治療性腫瘤標本的基于通路的特征標記能夠高度預測轉移性黑色素瘤患者對抗PD1阻斷療法的反應。
結果
1. 樣本隊列和計算流程
本研究中主要分析了三個已發表的黑色素瘤數據集,一個已發表的MGH(Massachusetts General Hospital,麻省總醫院)隊列和一個新生成的MGH隊列的RNA-seq數據。這些樣本都來自轉移性黑色素瘤患者,包括有治療前和治療中的患者,他們接受抗PD-1/PD-L1單藥療法,抗PD-1/PDL1單藥療法和抗CTLA-4單藥療法,或抗PD-1加抗CTLA-4療法的組合(圖1a-b)。

圖1a-b
研究人員開發了一個計算流程來鑒定基于通路的標記,用于預測患者對ICB治療的反應。首先在訓練集中篩選出通路標記,然后在驗證集中檢驗標記的預測能力(圖1c)。由于Riaz et al數據集(GSE91061)是所有四個數據集中最大的,所以研究人員指定這個數據集為訓練集,其他三個數據集為驗證集。其中MGH數據集是已發表的MGH隊列與新生成的MGH隊列合并而成。

圖1c
2. 治療前樣本中基于通路的超級標記
研究人員構建了一個回歸模型用于計算鑒定Riaz et al數據集中基于通路的預測標記,主要流程包括差異表達基因分析(DEGs)、基因集富集分析(GSEA)、候選通路篩選以及ENLR模型的訓練和驗證(圖2a)。在基因差異分析中,鑒定出了190個上調基因(R vs NR,圖2b)。通過對鑒定出的DEGs進行GSEA富集分析,一共富集出了98條通路,圖2c中展示了前15條顯著富集的通路。研究人員接著進行了ssGSEA分析,對這15條通路進行了一個打分(圖2d);基于路徑分數,利用 ENLR 模型來識別具有最高預測精度的通路,識別出了六條通路作為預測抗PD1治療反應的最有效標記。最后,研究人員計算了這六條通路的ssGSEA值的加權平均值,并將其命名為基于通路的超級標記(PASS-PR)得分。Riaz et al數據集中的治療前樣本 (PASS-PRE) 的 R組的PASS-PR得分明顯高于NR組(圖2e)。

圖2a-e
為了評估這個標記的預測能力,研究人員繪制了ROC曲線圖,發現其AUC的值為0.73(圖2f),說明其預測能力還不錯。最后,還將患者分成高低兩組對其進行生存分析,結果顯示與低分組患者相比,高分組患者的OS和PFS顯著改善(圖2g-h)。
圖2f-h
以上都只是在訓練集中的情況,那這個新鑒定出的標記在其他數據集的情況又是如何呢?所以研究人員進一步驗證了PASS-PRE在其他三個獨立數據集中的預測性能。盡管在所有的治療前樣本中高分組的患者有顯著改善的PFS和OS,但結合所有的驗證集中的結果發現PASS-PRE在治療前樣本中的預測性能其實并不夠顯著和穩定(圖3)。

圖3
3. 治療中樣本中基于通路的超級標記
前面的分析都是在治療前樣本中的分析,所以接下來研究人員用類似的方法對治療中的樣本進行了分析,鑒定出了1078差異基因(圖4a),然后對這些差異基因進行GSEA分析和后續的一系列分析,最后得到了一個命名為PASS-ON的打分標記(圖4b-d)。與NR組相比,R組PASS-ON分數明顯高(圖4e)。觀察到 AUC 為 0.83(圖4f),說明PASS-ON的預測能力很好。通過生存分析發現高分組的患者的OS和PFS明顯優于低分組患者(圖4g-h)。

圖4
同樣的,為了進一步驗證PASS-ON的預測性能,研究人員也在其他三個數據集中進行了一系列的驗證測試(圖5)。總而言之,通過對治療中的樣本的分析,研究人員發現并證明了PASS-ON在預測患者對抗PD1療法的臨床反應方面的有效性。此外,PASS-ON分數對不同生存情況的患者可以進行很好的區分。

圖5
4. 基于治療前和治療中樣本的時間變化的通路相關的超級標記
上述標記主要是用于R和NR之間的比較,研究人員推斷一些標記在治療過程中是動態變化的,因此構建了如圖6a所示的計算流程,用于分析治療前和治療中時間變化相關的標記。一共設計了TimeANLS-PRE和TimeANLS-ON兩個回歸模型。對于第一個回歸模型來說,在訓練集中的R樣本中鑒定出了60個治療后顯著上調的基因(圖6b),然后進行富集分析,通路篩選以及標記的確定。經計算,訓練集中的AUC值為0.82(圖6c),其他三個驗證集中的AUC分別是0.60,0.49和0.76(圖6d),綜合所有樣本以后的AUC為0.63(圖6e)。在圖6f-h中展示了TimeANLS-ON模型在不同數據集中的預測效果的不同情況。

圖6
5. 本研究中鑒定出的標記與其他已報道的標記的比較
雖然本研究前面從各個方面和多個數據集中展現了新的標記的優良性能,但是它與目前已報道的標記相比又有什么優勢呢?基于這個問題,研究人員將其與目前研究中一些已經報道的標記進行了一系列的比較。首先是對治療前樣本的分析,將PASS-PRE和 TimeANLS-PRE的預測性能與已報道的預測標記進行了比較。PASS-PRE 和 TimeANLS-PRE 顯示的平均 AUC 分別為 0.66 和 0.67,這與其他已報道的標記不相上下(圖7a)。而PASS-ON和 TimeANLS-ON的平均 AUC 分別為 0.86 和 0.82,明顯優于其他標記物(圖7b)。

圖7
討論
總之,從治療中樣本提取的通路標記對轉移性黑色素瘤患者的抗PD1治療反應具有高度預測性。本研究不僅提供了抗PD1治療反應的高度準確和個性化的預測標記,而且還為抗PD1治療轉移性黑色素瘤患者的臨床管理提供了依據。但是需要進一步的研究來驗證這些標記在更大的轉移性黑色素瘤、其他類型ICB治療和癌癥患者隊列中的預測性能。