癌癥中有15%可歸因于病毒感染。Nature communications近日的論文“A deep learning approach reveals unexplored landscape of viral expression in cancer”,提出了一種基于深度學習的工具viRNAtrap,對腫瘤病毒組數據進行病毒序列識別和組裝。相比之前基于已知病毒序列比對的方法,該方法應用到TCGA的14種癌癥數據中,可發現以前沒有涉及癌癥的意外的且不同的病毒的表達。使用viRNAtrap工具還能夠揭示腫瘤組織中人類內源性病毒的表達量與患者存活率低相關。此外,本文還研究了利用生物信息學工具來鑒定和分析癌癥中的病毒,以及乳頭瘤病毒知識庫、病毒變異資源和人類內源性逆轉錄病毒數據庫等數據庫。
論文鏈接:https://doi.org/10.1038/s41467-023-36336-z
1)viRNAtrap的算法架構及評價
與癌癥有關的病毒通常分為直接致癌物和間接致癌物,前者通過病毒致癌基因的表達驅動致癌轉化,而間接致癌物可能通過與感染和炎癥相關的突變導致癌癥。迄今為止,已有7種病毒被歸類為人類體內的直接致癌物,但對于間接致癌病毒,則了解不多。測序技術的進步有助于更好地認識到癌癥中病毒感染的普遍性。然而之前的研究,只是通過比對已有的致癌病毒,以及找出病毒整合到宿主基因組的整合位點。
新方法首先訓練一個神經網絡,經過嵌入層,卷基層及全連接層,以區分腫瘤RNA數據中未必對讀中的病毒序列,之后將分類為病毒的讀進行組裝,將組裝結果和已知的病毒數據庫進行blast對比(如圖1a),相比其它病毒序列分類工具,viRNAtrap在訓練及測試數據集上的AUC最高(圖1b,c),針對不同類似的病毒,viRNAtrap的分類準確度差異較大(圖1d)

圖1,viRNAtrap的訓練及評價方法
2)viRNAtrap在腫瘤RNA數據集上的應用
在TCGA已知的14種癌癥中,高危人甲乳頭瘤病毒株(HR-ɑHPVs)與宮頸癌,以及HBV和肝癌的關系是研究最多的,經由viRNAtrap,鑒別出的包含病毒的樣本數見圖2a,其中對比了作為對照的健康組織和腫瘤組織中的包含病毒序列的比例。可以看到對于HPV和HBV,檢出病毒的樣本大部分為腫瘤組織,且在腫瘤組織中,讀所占的比更大。此外viRNAtrap還在之前認為不存在病毒的樣本中檢出了病毒序列,這說明了該方法具有高靈敏性。對于頭頸鱗狀細胞癌(HNSC),研究還對比了包含病毒和不包含病毒的樣本,發現包含病毒的樣本,其TMB和CNA都較低(圖2b),這意味著腫瘤組織自身的變異不多,組織癌變更多可歸因于病毒感染。圖2c對比了HR-ɑHPVs陽性和陰性的頭頸鱗狀細胞癌患者,發現HR-ɑHPVs陽性患者的整體存活率更低。

圖2 14種腫瘤已知數據在viRNAtrap的表現
除了檢測外源病毒,viRNAtrap還可以檢測人內源性逆轉錄病毒在腫瘤組織中的表達。圖3a展示了TCGA數據庫中14種癌癥樣本,針對不同類型的逆轉錄病毒出現概率的熱圖,可以看到HERV-K家族最近被整合到人類基因組中,是人類基因組中最豐富的HERV家族之一,也是腫瘤組織中表達比例最高的一類逆轉錄病毒。圖3b展示了逆轉錄陽性和陰性患者的生存曲線,可以看到在多種癌癥上,陽性和陰性患者的KM生存曲線差異顯著,結合圖3a的調色板,大部分癌癥中,逆轉錄病毒出現的概率低于10%,這意味著可基于RNA數據逆轉錄病毒的出現與否,預測患者的生存時間。圖3c展示了低總生存率相關的癌癥驅動基因的HERVs通常更有可能在體細胞突變中表達,如TP53、KRAS、ARID1A和PTEN中。

圖3:viRNAtrap在內源逆轉錄病毒中的應用
針對一個包含包括人類、蝙蝠、小鼠、昆蟲、植物和細菌病毒的數據庫,在TCGA的14種癌癥的RNA數據中,viRNAtrap發現了之前未知且未預料到的病毒感染(圖4a),其中有些來自植物的病毒,如何進入腫瘤組織,仍是未知。對于IIV31病毒,其在腫瘤組織中出現,具有保護作用,對應著更高的存活率(圖4b),IIV31病毒陽性的腫瘤樣本,其TMB和CNA出現的概率也低,這意味著這些樣本中的基因組損傷更小。根據轉錄組數據預測的T調節細胞和CD8細胞比例,在IIV31病毒陽性樣本中也更多(圖4d)。在IIV31病毒陽性的的樣本中,PTEN、CTNNB1和PIK3R1基因上的體細胞突變與之相關(圖4e)。研究者還在33個卵巢癌樣本中鑒定了地桿菌病毒E2的表達;該病毒可能是在高級別漿液性卵巢癌中表達最常見的病毒。圖4f展示預測為地桿菌陽性的COV318細胞系和作為對照的OVISE細胞系之間相對于GAPDH的表達量變化,

圖4:viRNAtrap發現已知在腫瘤中不存在的病毒
3)總結
從腫瘤RNA測序中識別病毒,就有可能發現新的致癌物質和機制。發現有助于癌癥發生和進展的新的和不同的病毒物種,對于開發新的治療方法至關重要,包括疫苗接種、早篩和抗菌治療。新提出的viRNAtrap可在不進行短序列比對的前提下,通過一種集成的方法來實現的病毒序列的識別,通過組裝可檢出未知的病毒序列,從而提升檢測的靈敏度,從而有潛力已有數據中找出新發現。
通過對來自TCGA的14個癌癥組織,使用viRNAtrap檢測病毒序列,并分析與患者生存率的關系。發現雖然已知一些外源性病毒的表達與提高生存率有關,但人類內源逆轉錄病毒的表達與較低的生存率嚴格相關。這些發現可用于輔助癌癥檢測,結合用藥數據,可分析藥物效應與腫瘤組織病毒出現與否的關系。針對逆轉錄病毒,結合內源病毒表達生存率低的發現,未來還可以研發靶點為抑制其表達的抗癌藥物。
由于viRNAtrap的分類算法,是基于人類數據訓練的,即分類的數據是判斷一條讀是來自人的基因組還是病毒的,未來可基于其它基因組序列訓練更加通用的模型,來識別來自各種其他生物體的病毒,并利用viRNAtrap框架,實現更高的病毒檢測靈敏度。