前列腺癌(prostate cancer, PCa)是男性高發惡性腫瘤之一。在我國,前列腺癌的發病率呈現逐年上升趨勢,并且發病年齡也日趨年輕化,這可能與人均壽命延長、人口老齡化以及診斷技術的提高有關。前列腺癌侵襲轉移的分子機制研究、患者預后的評估是前列腺癌防治中的重要方面。如何確定介導前列腺癌侵襲性表型的分子特征,目前仍然是臨床上一個主要的挑戰。
2021年9月22日,美國丹娜-法伯癌癥研究所的Eliezer M. Van Allen團隊在《自然》雜志上發表了一篇文章揭示了深度神經網絡在前列腺癌發現中的應用。他們開發的工具P-NET是一種基于生物學信息的深度學習模型,該模型可以根據治療-耐藥狀態對前列腺癌患者進行分層,并通過完整的模型可解釋性來評估癌癥治療中耐藥性的分子驅動因素。
經證明,P-NET可以利用分子數據來預測癌癥狀態,其性能優于其他建模方法。此外,P-NET的生物學可解釋性揭示了已知的和新的分子改變候選基因,如MDM4和FGFR1,這些候選基因與預測晚期癌癥有關,并在體外實驗中得到驗證。生物學上的完全可解釋的神經網絡使前列腺癌的臨床前發現和臨床預測成為可能,并可能普遍適用于其他類型的癌癥。
那么,接下來跟隨小編來了解一下該模型的神奇之處吧。
可解釋的生物信息的深度學習

圖1.可解釋的生物學信息深度學習
P-NET是一種神經網絡結構,它將不同的生物實體編碼成一種神經網絡語言,并在連續層之間進行自定義連接(即來自患者特征、基因、通路、生物過程和結果的特征)。該研究主要關注處理突變和拷貝數的改變。經過訓練的P-NET提供了每一層節點的相對排序,以告知生物學假說的生成。實線表示從輸入到生成結果的信息流,虛線表示計算不同節點的重要性得分的方向。驗證候選基因,以了解其功能和作用機制。
P-NET的預測性能

圖2.P-NET預測性能
研究人員用一組包含1013例前列腺癌的樣本來訓練和測試P-NET ,其中有333例去勢抵抗性前列腺癌(CRPC)和680例原發性癌。整個過程包括80%的訓練,10%的驗證和10%的檢測,使用體細胞突變和拷貝數的數據來預測疾病狀態。訓練后的P-NET表現優于典型的機器學習模型(包括線性和徑向基函數支持向量機、邏輯回歸和決策樹),P-NET模型AUC為0.93,AUPR為0.88,準確率為0.83。此外,作者還評估了稀疏模型是否具有不同于密集的全連接深度學習模型的特征。在訓練集上訓練了一個具有與P-NET模型相同參數數量的密集模型,樣本數量從100到811個(占樣本總數的80%)。P-NET模型的平均性能(AUC值) 在所有樣本量中都高于密集模型,并且這種差異在較小樣本量(最多500個)中具有統計學意義(圖2c)。
接下來,研究者使用另外兩個前列腺癌驗證隊列對模型的預測方面進行了外部驗證,一個原發性的,一個是轉移性的。訓練后的P-NET模型正確分類了73%的原發腫瘤和80%的轉移性腫瘤,這表明該模型具有足夠的預測性能,可以應用于預測未見過的樣本 (圖2b)。原發腫瘤樣本被P-NET錯誤地歸類為去勢耐藥轉移性腫瘤的患者實際上可能有更差的臨床結果。P-NET評分高的患者被誤診為耐藥的患者明顯比P-NET評分低的患者更容易發生生化復發,這表明對于原發性前列腺癌患者,P-NET評分可用于預測潛在的生化復發(圖2d)。
三、檢查和解釋P-NET
為了了解有助于預測性能的不同特征、基因、通路和生物過程之間的相互作用,并研究從輸入到結果的影響路徑,研究者在訓練后使用完全可解釋的層將P-NET的整個結構可視化(圖3)。

圖3.檢查和解釋P-NET
P-NET內層的可視化顯示了每層中不同節點的估計的相對重要性。最左邊的節點代表特征類型;第二層的節點代表基因;下一層代表更高級別的的生物實體;最后一層代表模型的結果。顏色較深的節點更重要,而透明節點代表每一層中未顯示節點的剩余重要性。為了評估特定基因對模型預測的相對重要性,作者檢查了基因層,并使用Deep-LIFT歸因方法獲得了基因的總重要性得分。排名較高的基因包括AR、PTEN、RB1和TP53,這些基因是已知的與轉移性疾病相關的前列腺癌驅動因子。使用桑基圖描述了特定數據類型對每個基因重要性的貢獻。例如,AR基因的重要性主要由基因擴增驅動,TP53的重要性由突變驅動,PTEN的重要性由缺失驅動。
四、P-NET的臨床和功能評價
通過對P-NET訓練模型的多層評估,研究者觀察到TP53相關生物學對CRPC的收斂性。追蹤TP53相關通路與基因水平的相關性,TP53和MDM2在前列腺癌進展中的作用是已知的。研究者還觀察到MDM4的改變,這在很大程度上促進了這種網絡的收斂。MDM4在前列腺癌耐藥性中的作用尚未完全確定,但它可以通過結合并掩蓋轉錄激活域抑制野生型TP53的表達。

圖4.P-NET的臨床和功能評價
接著,該團隊研究了臨床樣本和功能模型中的MDM4譜。MDM4的高擴增在耐藥樣本中更為普遍。圖4a顯示了AR、TP53和MDM4基因的變化。在LNCaP細胞中使用17255個開放閱讀框(ORF)進行的全基因組功能獲得臨床前篩選中,MDM4過表達與苯扎魯胺的耐藥性顯著相關(苯扎魯胺是一種用于治療CRPC患者的第二代抗雄激素藥物)(圖4b)。然后,作者使用CRISPR-Cas9在多個前列腺癌細胞系中敲除MDM4。與陰性對照組相比,前列腺癌細胞的增殖明顯減少。這表明選擇性靶向抑制MDM4可能適用于治療晚期的TP53野生型前列腺癌患者。作者試圖研究MDM4對突變型和野生型前列腺細胞系的抑制作用。與TP53突變的細胞系相比,具有野生型TP53的前列腺癌細胞對MDM4選擇性抑制劑RO-5963(也能抑制MDM2)更敏感(圖4d)。
五、總結
總的來說,P-NET是基于生物學信息,而不是利用任意的過度參數化的架構來進行預測的。因此,P-NET顯著減少了學習參數的數量,從而提高了可解釋性。與包括密集網絡在內的其他機器學習模型相比,P-NET中的稀疏架構具有更好的預測性能,并可能適用于其他類似的任務。
此外,P-NET提供了一種簡單的方法來整合多個分子特征(例如,突變、拷貝數變異和融合等)進行不同的加權,以反映它們在預測最終結果中的重要性,以前需要對每個特征采用不同的統計方法來發現癌癥基因。P-NET根據患者的基因組譜準確預測晚期前列腺疾病,并有能力預測潛在的生化復發。P-NET結構的可視化使得對相關的生物學途徑和過程有了多層次的見解,這可能有助于指導研究人員探索有關癌癥進展的潛在生物學過程,并將這些發現轉化為治療機會。具體來說,P-NET重新發現了與CRPC相關的已知基因,如AR、PTEN、TP53和RB1。此外,P-NET還確定了MDM4為前列腺疾病相關基因,這已通過實驗得到驗證,并得出使用MDM4選擇性抑制劑可以治療轉移性前列腺癌的基因組分層(TP53野生型)患者。
總之,P-NET是一種基于生物學信息的深度神經網絡,它準確地分類了去勢抗性轉移癌和原發性前列腺癌。可視化訓練后的模型,產生了前列腺癌轉移機制的新假說,并為分子分層前列腺癌患者群體的臨床轉化提供了直接的有潛力的觀點。生物引導的神經網絡代表了一種通過建立機制預測模型,將癌癥生物學與機器學習相結合的新方法,為生物學發現提供了一個平臺,可能廣泛適用于癌癥預測和發現任務。
Reference:
Elmarakeby, Haitham A et al. “Biologically informed deep neural network for prostate cancer discovery.” Nature vol. 598,7880 (2021): 348-352. doi:10.1038/s41586-021-03922-4