大家好呀!今天給大家介紹一篇2021年發表在Science Advances上的文章。全基因組功能缺失篩查揭示了對癌細胞增殖十分重要的基因,稱為腫瘤依賴性。然而將腫瘤依賴性關系與癌細胞的分子組成聯系起來并進一步與腫瘤聯系起來還是一個巨大的挑戰。本研究,作者提出了DeepDEP,基于深度學習模型和基因組數據可以預測癌癥依賴性。該模型對無標簽的腫瘤基因組進行無監督預訓練來改進癌癥依賴性學習。作者使用三個獨立數據集驗證DeepDEP的性能。通過系統的模型解釋,作者擴展了當前的癌癥依賴性圖譜。將DeepDEP應用于泛癌的腫瘤基因組數據并首次構建了具有臨床相關性的泛癌依賴性圖譜。總的來說,DeepDEP作為一種新的工具可以用于研究癌癥依賴性。
Predicting and characterizing a cancer dependency map of tumors with deep learning
使用深度學習預測和描述腫瘤異型性圖譜
結果:
1.模型設計
基因依賴性或必要性是指基因對細胞增殖和生存的重要程度。癌細胞中的基因依賴性與遺傳環境有關。本研究,作者提出了DeepDEP,通過學習腫瘤和細胞系樣本的高維基因組數據來預測基因依賴性。DeepDEP使用轉移學習對無標記的腫瘤樣本進行無監督的預訓練,隨后對有標記的CCL樣本進行參數微調,用于捕獲基因組學和基因依賴之間的關系(圖1A)。該模型包括以下幾個部分:1.對DNA突變,基因表達,DNA甲基化和CAN數據進行降維編碼神經網絡;2.構建用于提取DepOI的編碼網絡;3.構建預測網絡用于將學習到的特征轉化為依賴性打分(圖1B)。使用自編碼器對8238個TCGA腫瘤樣本的每種組學數據進行降維,將構建的自編碼器的結構和參數轉移到DeepDEP的四個相應編碼器上,隨后對整個網絡進行訓練生成一個基因依賴的特征空間。

原始依賴性打分是CERES以接近與零的模式估計和校正的基因效應打分圖2A)。通過SGRNA,篩選復制和CCL質量控制計算打分,其負值越大,依賴性越強即重要性越強。作者基于高度可選依賴性或COSMIC選擇1298個癌癥中候選DepOIs,每個DepOI涉及33.2個分子特征(圖2B)。共獲得360844(278CCL*1298DepOIs)個標記樣本。將CCLs隨機分為訓練集/驗證集(90%)和測試集(10%)(圖2C)。訓練集和測試集之間沒有腫瘤大小和細胞類型等的顯著差異。

2.模型性能和與其他方法比較
測試集的預測準確率較高(圖2C),性能穩定。總的來說,作者的模型在1298個DepOIs中的平均DepOIs為0.18(圖2D)。隨后,作者重點關注兩個高度變異的DepOIs亞集。這些DepOIs更可能是癌癥相關基因,例如TP53是高度變量依賴性的。這兩個亞集的平均DepOI分別為0.34和0.28,TP53的DepOIs為0.62。隨后,作者將DeepDEP與六種ML方法進行比較。與DeepDEP相比,所有ML方法在10輪抽樣中均會顯著降低DepOI的相關系數(圖2D)。
3.模型驗證
為避免模型的過擬合,作者使用下采樣和10折交叉驗證的方法驗證模型性能。作者使用三個獨立數據集驗證模型,DeepDEP的預測打分與實際打分一致(圖2E),盡管對這些數據使用了不同的篩選機制和算法,作者鑒定到了一些共有的CCLs(圖2F和2G)。
4.使用基因表達數據描述基因依賴性的模型解釋
作者構建了僅使用一種或兩種組學數據的簡化模型,例如Mut-DeepDEP使用突變數據,Mut/Exp-DeepDEP使用突變數據和表達數據。Mut/Exp-DeepDEP和Exp-DeepDEP的性能與DeepDEP的性能相當,但僅使用突變或CNA數據的模型性能較差。作者研究Exp-DeepDEP來了解單一組學模型學習的信息,即依賴性和基因表達之間的關系。其編碼層的輸出有50個神經元,在使用CCL依賴性數據進行最終訓練后僅有兩個神經元為非零值。作者人為干預這兩個神經元并檢查預測依賴性打分的變化(圖3A)。通過解碼層重構6016個基因的表達水平,從而解碼這兩個神經元的表達特征(圖3B)并進行GSEA分析。特征1與細胞增殖相關通路正相關(圖3C和3D),特征2與腫瘤發生和腫瘤微環境等過程有關。作者通過編碼器映射了278個CCLs,將每個CCL轉化為特征打分。作者鑒定到24個CCL中有20個在特征2中活性最低而在特征1中高度變化(圖3E)。作者通過組合不同的特征打分預測基因依賴性并使用等高線圖進行可視化(圖3F)。

5.使用Mut-DeepDEP研究SE進行模型解釋
作者使用Mut-DeepDEP預測與CCL中與誘導或移除基因突變有關的基因依賴性變化,或突變和基因敲除之間的SE。簡單地說,作者一次干擾一個突變,0變1表示為野生型變為突變體(圖4A)。對CCL中的突變DepOI對,通過比較突變和未突變的DepOI的預測依賴性計算SE打分。SE打分負值表明CCL中的突變越重要。總的來說,SE打分是適中的(圖4B),獨立于細胞系(圖4C)。作者分析了2個最常見的SE對,PTEN突變/CHD1刪失和BRCA1/PARP1。CCLs中PTEN/CHD1的評價SE顯著低于CHD1與其他基因突變的平均SE打分(圖4D),BRCA1/PARP1的結果類似。作者研究與KRAS突變有關的SE基因,結果表明EGFR和KRAS之間存在SE相互作用(圖4E)。

6.預測腫瘤依賴性
腫瘤和CCL之間的整體依賴性特征的相關性與CCL之間的相關性類似(圖5A)。腫瘤之間的依賴性變化是適中的,細胞周期調節因子CDND1和CDK6是選擇性最高的基因之一。
7.預測腫瘤依賴性與基因組學的相關性
上述結果與基因組表達和甲基化數據中癌癥類型的特異性形成對比(圖5B)。腫瘤的依賴性與突變負擔較高,CNA和基因表達和甲基化水平升高有關(圖5C)。接下來,作者研究基因組在基因依賴性中的作用,作者鑒定到1.6M的M-Dep,2.1M的E-Dep,1.3M的Me-Dep和1.7M的C-Dep事件(圖5D)。對于每個DepOI,作者計算這四類事件的百分比,大多數DepOI為E-Dep,M-Dep和C-Dep事件(圖5E)。

8.利用臨床和臨床前數據驗證腫瘤依賴性
作者首先研究乳腺癌,其臨床數據來自TCGA數據庫。預測的ER+對ESR1有更強的依賴性(圖6A)。作者還評價了靶向分子治療的藥物反應數據,曲妥珠單抗對ERBB2的依賴性較強(圖6B)。與22個進展性疾病的PDXs相比,預測達到CR的PDXs對FGFR2/FGFR4的依賴性較高(圖6C)。在TCGA的微衛星不穩定性(MSI)易發癌中,預測MSI高的腫瘤對WRN的依賴性較強(圖6D)。

9.預測腫瘤依賴性與化療耐藥和生存相關性
作者分析BRCA與化療耐藥相關的依賴性,比較化療后達到CR和PD的患者之間的預測相關性。共有71個基因在兩組中存在顯著差異(圖7A),大多數依賴性與化療耐藥性正相關,依賴性打分越負,化療反應越差。NDUFS5的依賴性最大(圖7B)。化療反應相關DepOIs顯著富集在線粒體和OXPHOS的GO terms上(圖7C)。隨后,作者分析不同譜系癌癥患者的基因依賴性和OS的關系,有34例DepOIs可用于8種癌癥的預后(圖7D和7E)。例如IL2的依賴性打分越負,在7種癌癥中的OS較好在2種癌癥中的OS較差(圖7F)。作者的研究表明,IL的依賴性越強,UVM(圖7G),KICH,KIRP的OS越好。SMAD4是一個腫瘤抑制因子,SMAD4依賴性越強,七種癌癥的OS越好(圖7H和7I)。作者的研究表明基因依賴性打分在化療反應和預測預后方面具有重要的臨床意義。

結論:
本研究基于深度學習和基因組多組學數據構建DeepDEP,可以預測癌癥依賴性,構建癌癥依賴性圖譜。作者使用三個額外數據驗證DeepDEP的性能。此外,作者全面分析了基因依賴性與基因組學和臨床特征的相關性。
參考文獻:
Chiu Y C, Zheng S, Wang L J, et al. Predicting and characterizing a cancer dependency map of tumors with deep learning[J]. Science Advances, 2021, 7(34): eabh1275.