合成致死能夠作為一種治療方法,利用癌癥細胞的易感性通過識別藥物靶點選擇性地影響異常癌癥細胞的生存。因此許多癌癥研究都在尋找額外的合成致死靶點。小編今天要和大家分享一篇今年八月份發表在Molecular cancer(IF:27.4)雜志上通過機器學習預測合成致死的文章。
Uncovering cancer vulnerabilities by machine learning prediction of synthetic lethality
通過機器學習預測合成致死揭示癌癥易感性
一.研究背景
合成致死率描述了兩種擾動之間的遺傳相互作用會導致細胞死亡,但這兩種擾動中任何一種單獨事件對細胞活力都沒有顯著影響。因此這一概念可用于特異性靶向腫瘤細胞。目前CRISPR活性篩選已經被廣泛用于識別癌癥的易感性。然而,從活性篩選系統推斷遺傳相互作用的方法仍然十分缺乏。因此今天小編和大家分享的文章描述了在泛癌中推斷合成致死率(PARIS),這是一種識別癌癥易感性的機器學習方法。PARIS通過將CRISPR活性篩選與基因組學和轉錄組學數據相結合,預測了Cancer Dependency Map中數百個癌細胞系的合成致死(SL)相互作用。
二.研究數據及方法
1. PARIS生物信息管線:分析中使用了CRISPR-Cas9篩選依賴得分,從DepMap下載表達和突變數據。使用FATHMM-MKL預測單核苷酸變異的致病性,編碼評分高或注釋為破壞性或TCGA熱點的突變為致病性。細胞系致病基因未突變編碼為0突變編碼為1。為了在所有細胞系中選擇突變基因和解釋基因依賴性表達,作者進行了基于RF的特征選擇。對于CRISPR-Cas9中的每個基因,作者使用基尼系數或原始排列重要性評分和突變或表達數據作為獨立變量,運行四次Boruta算法。作者也使用了校正基尼值作為重要性評分的RF算法。在每個循環中,Boruta對每個重要性分數高于shadowMax的特征分配一次hit(+1)。對于每個特征,計算hit計數,直到它們遠高于或低于隨機的預期值。高的情況下特征被確認,低的情況下征被拒絕并刪除,其他非重要特性將在下一次迭代中再次測試。分析提取了用于解釋依賴評分的重要性特征,計算每對基因的相關系數來了解關系的方向。作者從突變依賴對中選擇正相關,從表達依賴對中選擇負相關,自配對被移除。重要性分數按0到1之間的分組進行評分,其中1是組中高的分數。
2. 基因對分析:研究中所選基因對的重要性評分按密度分布和直方圖繪制,直方圖根據評分方法(基尼系數、原始排列和校正基尼系數)和特征隊列(表達或突變)分組。為了設置一個置信閾值,對聚類長尾應用頭尾斷點算法。這個過程被遞歸地應用,直到頭不再是分布中的少數。最后一個斷點用作識別高置信度對的閾值。為了比較不同的重要性評分方法,在接下來的分析中只使用三種方法所選擇的基因對。每一對選定的基因對,如果其重要性評分高于任何一種方法的閾值,則被標記為高置信度;如果其重要性評分低于所有方法的閾值,則被標記為低置信度。對于每個選擇的基因對從STRING數據庫檢索組合得分。研究還計算了相互作用基因的頻率在不同組中選擇的總頻率。
3. R shiny app:作者建立了一個可視化的R shiny app,特征選擇步驟中選出的基因對被保存到a.csv文件其中包括:兩個基因名稱,Pearson相關系數,重要性得分,重要性得分方法等。A.csv文件包含所有篩選基因的基因名稱、中位數、變異系數、標準差和依賴評分的范圍。數據可以表示為一個交互有向圖,其中每個節點代表一個基因,每個邊代表一個關系;箭頭從突變或失調的基因開始,到達依賴基因。邊緣的顏色表示突變或表達,而寬度與相關系數的絕對值成正比。節點的顏色表示依賴評分的中位數。這個R shiny app允許用戶篩選基因對,選擇兩個特征隊列(突變和/或表達)中的一個或兩個,并對它們應用獨立的閾值,選擇一種重要得分方法。
4. TCGA和GTEX數據分析:TCGA 和GTEX BRIP1及ALDH2表達數據從 Xena browser 獲取,相關性使用皮爾遜系數計算。
5. TCGA差異基因表達分析:根據ALDH2表達水平對樣本進行排序,頂部和底部2%的樣本分別作為高表達和低表達組。用DESeq2進行差異基因表達分析。富集分析使用EnricR。
6. 實驗:研究中的實驗部分包括細胞系及細胞培養:產生穩定的Cas9陽性細胞系、TYMP陽性細胞系、ALDH2 及CDKN2A敲除細胞系及C-MYC陽性細胞系。研究中使用了第三代慢病毒載體,轉染的gRNAs。混合CRISPR篩選、也進行了細胞生存能力分析、克隆形成實驗,RNA提取、cDNA合成和RT - qPCR、蛋白印跡、免疫熒光檢驗法、顯微鏡檢驗及活細胞成像等技術。
三、研究的主要內容及結果:
1. PARIS方法:文章的第一部分作者主要介紹了開發的推斷癌細胞易感性的PARIS方法,核心是基于RF算法來評估每個獨立變量(突變或表達)相對于應答變量的重要性(依賴得分)。作為應答變量,作者基于CERES管道檢索基因依賴評分數據,該數據可以從CRISPR-Cas9篩選的校正了gRNA活性和拷貝數效應結果中估計基因重要性水平。此外,作者從DepMap的CCLE中檢索突變和表達數據。利用這些數據,作者應用了一個基于機器學習算法的特征選擇步驟,該算法旨在通過數百個癌癥細胞系的基因突變或錯誤調控,解釋來自CRISPR-Cas9篩選的某些基因依賴(圖1a)。為此,作者選擇了Boruta算法,迭代地刪除相關性明顯低于隨機的特征(圖1b)。為了校準PARIS,作者比較了兩個重要的指標來選擇顯著特征:1)雜質的平均減少(基尼重要性)。2)精度的平均下降(原始排列的重要性。

2. 質量評估的重要性得分
在這一部分,作者開始關注作為癌癥治療潛在靶點的DDR相關基因,使用625個癌細胞系的依賴評分作為應答變量,突變和表達數據作為特征及預測因素,手工篩選了549個基因。接著作者使用Boruta算法選擇能夠解釋CRISPR-Cas9篩選中每個遺傳靶點依賴關系的致病突變或調控錯誤的基因。作者提取了選定的基因對以及特征選擇中檢索到的重要性得分(圖1b),結果發現MLH1是解釋WRN依賴最重要的特性之一。接著為了識別可能代表潛在SL相互作用或癌癥細胞系脆弱性的相互作用,作者關注依賴突變對的正向關系和依賴表達對的負向關系,使用相關系數來檢索關系的方向,結果發現WRN依賴評分與MLH1表達負相關,ARID1B依賴評分與ARID1A突變正相關,這表明了PARIS檢測SL互作的能力(圖1c)。接下來作者研究了不同算法得到的重要性得分的一致性,發現僅考慮兩種算法選擇的相互作用時,突變預測顯示出很強的相關性,但對表達的預測顯示出中等相關性(圖2a)。作者推斷這些差異可能源于表達數據相對于突變的數據,在PARIS實現樹的構建過程有更多的分裂點。由于基尼系數很容易對表達數據預測給出更高的分數,作者猜測它可能會引入偏差,為此應用了一種額外的RF算法,使用校正基尼系數重要性得分來改進特征選擇步驟(圖2a)。為了選擇置信度最高的基因對,作者基于頭/尾斷點聚類方法定義了重要性得分的類別(圖2b)。結果也發現校正基尼方法中較少基因對P值顯著但更多基因對卻被識別出較高的重要性得分(圖2c)。基于這些分析,作者將頭/尾斷點聚類方法的最后一個斷點作為識別具有最高置信度基因對的閾值。接著作者研究了三種方法的魯棒性,以便能夠高可信度地識別相互作用基因。作者也從STRING數據庫檢索互作信息。作者還考將三種方法選擇的低置信度基因對作為第四組。接著作者分析了表達數據識別的基因對,并比較了來自STRING數據庫的綜合評分,結果發現與基尼系數和低置信組相比,屬于修正基尼系數和原始排列組的組合分數更高(圖2d)。當只考慮基于實驗的互作時,原始排列高置信度選擇對的得分最高。然而總的來說校正的基尼系數組和原始排列組中,互作蛋白對的百分比都要高得多(圖2e)。而在突變數據中沒有觀察到三個高置信組之間的差異,只有低置信度組在組合得分、基于實驗的交互得分和交互百分比方面表現出較低的值。因此作者認為原始排列法在識別高可信度的基因對方面非常穩健,而修正的基尼系數法可以顯著提高選擇的可信度,特別是當用表達數據作自變量時。

3. DDR基因間合成致死相互作用的預測
在這一部分作者為了直觀的數據瀏覽和可視化,基于PARIS結果構建了一個R shiny app。在這個app中,選擇的基因對被表示為一個有向圖,其中的箭頭指向從有缺陷的基因到依賴基因。用戶可以用不同的篩選方法探索交互作用,并將結果導出為數據表。在DDR基因的背景下,為了選擇和分析推斷出的具有最高可信度的基因對,作者分別對表達和突變的預測使用了閾值為0.4或0.5的量級重要性評分。結果發現該隊列中識別的幾個基因對是同源的,它們在蛋白質復合物具有內在相關和更有可能顯示SL相互作用的功能。在考慮表達數據時,再次觀察到STAG1- STAG2之間的高置信相互作用以及SMARCA2和SMARCA4之間的雙向相互作用(圖2f)。
4. PARIS 預測癌細胞系依賴TYMS
在確定了PARIS可以識別高可信度SL互作之后,作者接下來關注識別到的之前未被描述的TYMS-CDKN2A易感性。PARIS發現具有CDKN2A破壞性突變的細胞對TYMS敲除敏感(圖2f及圖3a)。CDKN2A是一種腫瘤抑制基因。它編碼兩種蛋白分別為p14和p16。TYMS是將dUMP轉化為dTMP的酶。TYMS在補充復制所需的核苷酸庫中起著重要作用。作者為了證實PARIS預測并測試癌細胞對TYMS抑制的敏感性,用增加劑量的PMX處理了一組具有不同CDKN2A遺傳背景的細胞系,并測量了細胞活力來分析合成致死率。盡管PARIS預測是基于CDKN2A致病性突變,但作者不僅在CDKN2A無義突變細胞系也在純合缺失的細胞系中觀察到顯著的PMX敏感性,不過CDKN2A成熟細胞系沒有觀察到(圖3b,c)。此外,作者也發現CDKN2A成熟細胞和缺陷細胞之間IC50值存在顯著差異。接著為了更好地了解CDKN2A突變或缺失的癌細胞系對PMX的應答,作者對參與胸苷激酶代謝途徑的蛋白進行免疫印跡。結果發現PMX處理后,不管CDKN2A狀態如何,細胞的TYMS、TK1和DHFR蛋白水平至少上調了兩倍,而且PMX處理對CDKN2A缺陷細胞影響最大,PMX處理后CDKN2A缺陷細胞強烈誘導凋亡(圖3d)。作者也發現這些細胞對低劑量或高劑量PMX的敏感性通過補充胸苷激酶得以恢復(圖3e),此外在一些對PMX敏感性增加的細胞系中觀察到TYMP過表達,它們分別攜帶CDKN2A基因無義突變或CDKN2A位點缺失(圖3c)。由于PARIS也預測了TYMP過表達與TYMS依賴性相關,作者測試了CDKN2A缺陷的細胞中,TYMP過表達與PMX敏感性的關系。在穩定表達Cas9的細胞中轉染靶向TYMP的gRNA,與對照組gRNA轉染細胞相比,不會導致PMX敏感性的任何變化,這表明僅表達TYMP不足以控制TYMS依賴性(圖3f)。接下來,為了刻畫TYMP和p14/p16在調節PMX敏感性中的作用,作者使用MDA-MB-157細胞系觀察到足夠高水平的p14/p16和TYMP,以及轉染靶向TYMP和CDKN2A的gRNAs。TYMP的消耗沒有顯示出對PMX的額外敏感性,CDKN2A的消耗顯著增加了這些細胞對PMX的敏感性(圖3g)。在CDKN2A缺失的MDA-MB-157細胞中敲除TYMP時它們恢復了對PMX的敏感性并減少了細胞凋亡,表明TYMP和CDKN2A之間存在遺傳相互作用(圖3g)。作者為了在一個沒有PMX的穩定的遺傳背景研究TYMP和CDKN2A的相對貢獻,建立了一個細胞系模型。在這些細胞系中,測試了TYMS敲除對細胞活力的影響。在CDKN2A敲除細胞中,靶向TYMS的gRNAs導致細胞活力下降。過表達TYMP也可以觀察到對細胞活力的負影響,而過表達TYMP和CDKN2A缺陷的聯合作用顯著加劇了對細胞活力的負影響(圖3h)。總的來說,這些結果表明CDKN2A缺失和TYMP對PMX敏感性的影響。作者根據CDKN2A狀態和TYMP基因表達水平將DepMap數據分為4組,CDKN2A缺陷和TYMP高表達的結合很好地解釋了TYMS的敏感性(圖3i)。接著作者將DepMap腫瘤細胞系按組織來源進行分組,發現CDKN2A狀態和TYMP表達在不同腫瘤類型中控制TYMS依賴性的作用是不同的(圖3j)。作者認為CDKN2A缺失和TYMP過表達的細胞共同促進了TYMS的敏感性,并且這些依賴性可以是細胞類型特異性的。

5. 利用PARIS預測基因組中DDR基因的易感性
在文章的最后一部分作者為了證明PARIS在更大的隊列中選擇SL相互作用的能力,并揭示DDR和其他基因中的潛在易感性,作者將數據集的特征擴展到所有可用基因。結果發現兩個隊列預測得出的重要性得分是一致的,在這個更大的隊列中ARID1B-ARID1A、SMARCA2-SMARCA4和STAG1-STAG2也被發現是高置信度預測(圖4a)。此外,作者還識別了癌癥中眾所周知的易感性,如BRAF突變細胞中的MAPK1依賴性。與在DDR隊列分析一致,一些預測的SL相互作用是同源基因(圖4b)。除了這些同源對之外,PARIS還高度可信地預測了最近發現的SL相互作用,如抗凋亡基因MCL1和BCL2L1之間的相互作用(圖4c)。接著為了了解ALDH2和BRIP1水平在人類腫瘤中是如何調控的,作者分析了從TCGA獲得的癌癥表達數據,并將它們與GTEx數據庫的正常組織數據進行比較,結果發現ALDH2在幾種腫瘤中下調。也觀察到,在乳腺癌、腦癌和肺癌隊列中,ALDH2和BRIP1之間存在很強的負相關(圖4d)。這些表明在ALDH2低表達的腫瘤樣本中BRIP1可能上調。因此當根據ALDH2表達水平對腫瘤樣本進行劃分并進行差異基因表達分析時,FA通路是這兩組中上調較高的通路之一(圖4e),而FA通路中的BRIP1,FANCD2和FANCI在不同腫瘤類型中均一致上調(圖4f),且獨立于腫瘤分期。這些結果表明ALDH2-BRIP1易感性對各種組織特異性癌癥是重要的。為了進一步驗證這一預測,作者選擇了一組乳腺癌細胞系來測試ALDH2低表達細胞的易感性。結果乳腺癌細胞系顯示ALDH2的啟動子超甲基化,表明ALDH2的表達水平受表觀遺傳控制(圖4g)。為了進一步驗證作者通過RT-qPCR檢測了代表不同乳腺腫瘤亞群的9種乳腺癌細胞系中BRIP1和ALDH2的表達。結果在這9個細胞系中,7個細胞系的ALDH2 mRNA水平低到無法檢測,且BRIP1表達增加。而與基因表達分析一致,在SK-BR-3和MDA-MB-468中觀察到高水平的ALDH2蛋白,而在MCF-7、HCC1954和HCC1937中幾乎檢測不到(圖5a)。此外與SK-BR-3和MDA-MB-468相比,ALDH2蛋白水平低的細胞系BRIP1蛋白水平升高(圖5a)。接下來,為了研究ALDH2表達不同情況下對BRIP1的預測依賴是否代表一種潛在的腫瘤易感性,作者將乳腺癌細胞分為兩組:1)作為對照組,包括高水平表達ALDH2的SK-BR-3和MDA-MB-468;2)定義為依賴組包括MCF-7、HCC1954和HCC1937,它們的ALDH2水平較低。接下來,作者研究了模型細胞在轉染兩種靶向BRIP1的獨立gRNA后形成菌落的能力,這兩種gRNA均顯示了BRIP1蛋白水平的一致下調。結果作者觀察到三種依賴組的細胞在BRIP1敲除后的菌落數量顯著減少,而對照組細胞則輕微或無影響(圖5b, c)。此外,在對照細胞系SK-BR-3和MDA-MB-468中,敲除BRIP1和ALDH2基因導致的菌落數量減少與依賴細胞系中觀察到的效果一致,而當只敲除一個靶點時,沒有觀察到差異(圖5d)。這些進一步證實了BRIP1基因抑制的表型效應依賴于ALDH2水平。接下來作者為了無偏評估BRIP1和FA復合物的其他成分對ALDH2敲除細胞穩定性的影響,使用定制的主要靶向DDR相關基因的文庫進行了CRISPR-Cas9篩選(圖5e)。也測試了RPE-1 TP53-/-細胞對外源ACE的敏感性(圖5f)。結果發現與癌癥細胞系的結果一致,靶向BRIP1以及FA途徑的其他幾個成分與WT相比會顯著損害ALDH2 敲除細胞的穩定性(圖5e)。ACE治療加重了這些效應,尤其是BRIP1(圖5f)。接著作者探索了單個或聯合敲除后RPE1TP53-/-細胞中的DSB應答,測量了組蛋白變體H2AX在Ser139位點磷酸化的核灶形成(γ-H2AX),這是一個公認的DNA損傷標記。結果發現檢測到與單獨的相比,結合BRIP1和ALDH2敲除的核灶計數增加(圖5g, h)。與BRIP1-ALDH2敲除觀察到的效果類似,FANCD2和ALDH2聯合敲除導致γ-H2AX核灶的形成增加(圖5g)。總而言之,在ALDH2低表達的細胞中BRIP1的缺失引發的依賴性可能是通過內源性ACE誘導的DNA損傷反應。


到這里,這篇文章的主要內容就介紹完了,可以了解到文章開發了機器學習方法PARIS能夠無偏倚可擴展的預測癌癥依賴關系。文章通過研究DDR相關基因的易感性,證明了這種方法的能力,并識別和驗證了兩個以前未被描述的SL相互作用,研究合成致死的小伙伴不要錯過呀。