研究腫瘤微環境及腫瘤異質性,通常的方式是基于單細胞轉錄組數據。Nature communication近日的研究,介紹了基于拷貝數變異和斷點的檢測算法SCEVAN,該算法能夠自動、準確地區分惡性和非惡性細胞。將該算法應用于來自不同腫瘤類型和測序技術的106個樣本,共計93,322個細胞的數據集,可證明該方法可表征腫瘤內的異質性和惡性腦腫瘤的空間演變。
論文標題:A variational algorithm to detect the clonal copy number substructure of tumors from scRNA-seq data
論文地址:https://www.nature.com/articles/s41467-023-36790-9
1 SCEVAN 如何基于拷貝數及斷點進行亞克隆判別
了解腫瘤內異質性和腫瘤細胞與免疫系統之間的相互作用是解釋腫瘤治療失敗,理解腫瘤生長和進化的關鍵步驟。通常的研究套路,是將來自腫瘤活檢的大量未分選的細胞進行全轉錄組分析,根據特定標記的表達進一步分亞群,然后將細胞分類為惡性腫瘤細胞,基質細胞和免疫細胞。常用的標記是轉化后細胞所具有的獨特性拷貝數變化。然而,之前的方法需要人工識別,適用于高覆蓋率和低維度的Smart-seq 數據,而新方法SCEVAN能克服這些問題,在合成和真實數據上表現出更快和更準確地識別出腫瘤的亞克隆。
SCEVAN的分類邏輯,是假設給定拷貝數的克隆中,對應的所有細胞共享相同的斷點。因此,每個細胞的平滑表達譜構成了判別每個亞克隆中拷貝數譜的證據。其具體流程如下圖所示,從原始的單細胞轉錄譜開始,去除低表達的基因和細胞(圖1a)。之后依次從留下的高表達細胞基線去除獲得的不同細胞的相對基因表達量(圖1b),對相對基因表達的邊緣進行非線性擴散濾波(圖1c),根據變分區域進行分割(圖1d)。鑒定正常細胞,即包含大多數正常細胞的簇(圖1e)。對于腫瘤細胞,使用 Louvain 聚類的共享最近鄰圖鑒定可能的亞克隆(圖1f)。 應用變分區域生長算法對每個亞克隆進行分割(圖1g)。然后根據拷貝數狀態將腫瘤細胞分為五個亞克隆(圖1g)。 圖1H展示了亞克隆共享及特異的通路活性。

圖1 SCEVAN的任務流程及輸入輸出
2 SCEVAN在真實樣本惡性腫瘤細胞分類中的性能
對于三種不同癌癥類型的 scRNA-seq 數據(膠質母細胞瘤(GBM) ,頭頸部鱗狀細胞癌(HNSCC) ,大腸癌)和來自不同測序技術(Smart-seq2,10X Chromium),共包含106個樣本和93,322個細胞,使用 SCEVAN和之前基于CNV的分類工具的CopyKAT對比分類準確性,可以看到在三種癌種,大多數樣本中,SCEVAN的準確性(F1值)都高于CopyKAT。具體來看,SCEVAN 在63% 的樣本中取得較佳的分類評分,而 CopykAT 在23% 的樣本中取得較佳的分類評分。所有樣本上,SCEVAN的 F1只為0.90,而用 CopyKAT 的 F1值為0.63。

圖2 在真實癌癥數據,使用SCEVAN分類惡性細胞的F1值對比
3 使用SCEVAN可得到更準確的拷貝數變異
將同樣本的bulk RNA數據及WGS數據檢測出的拷貝數作為金標準,評價SCEVAN及其它同類軟件,如 inferCNV, CopyKAT 基于單細胞數據檢測拷貝數變異的準確度。圖3a和b分別是不同軟件各染色體中檢出的拷貝數變異,圖3c和d是對應的皮爾森相關系數??梢詮膱D3a和b中最上的圖(金標準)與之下不同方法的圖檢出的拷貝數變異結果對比,可以看到SCEVAN檢出的變異更多且更準,而圖3c和d對應的相關系數,SCEVAN最高,也反映了這一情況。同樣的結果,在模擬數據中也會出現,這些結果說明SCEVAN能夠從單細胞數據中得到準確度拷貝數變異譜。

圖3,對比不同軟件對單細胞拷貝數變異檢測的準確度
而執行時間上,SCEVAN 的執行時間,在惡性和非惡性細胞的區分任務上,相比InferCNV快2-7倍,在腫瘤區域分割任務上,相比CopyKAT 快2倍,比Infer CNV 快5倍。對于來自10X的單細胞數據,由于其包含的細胞數偏多,CopyKAT顯得尤其慢,此時SCEVAN 比Infer CNV 快11倍,比 CopyKAT 快19倍。這說明了SCEVAN 在計算上更有效率。
4 使用SCEVAN研究膠質母細胞瘤的腫瘤微環境
膠質母細胞瘤(GBM)是最具侵襲性的腦腫瘤,具有高度異質性,包括幾種克隆和亞克隆腫瘤細胞群,膠質瘤干細胞,以及免疫抑制性腫瘤微環境。SCEVAN 可以通過分析顯示出具有顯著不同基因組改變的 CNA 基質簇,從單細胞數據中自動推斷克隆亞結構。
為了論證SCEVAN的準確性,選擇MGH105樣本,該樣本已經過甲基化數據,驗證其存在4個亞克隆。經過單細胞數據,SCEVAN 揭示了三個腫瘤細胞亞群的存在,如圖4a,聚類結果見圖4b??寺涞南到y發育重建顯示兩個緊密克隆(亞克隆1和2)和顯著遠的第三個亞克隆(圖4c),與聚類結果相符。圖4d展示了不同亞克隆之間共有(例如Chr 10上的缺失(q22.1-q26.3))及特異的拷貝數變異。通過通路特異性分析,發現亞克隆1(淺藍色)富集神經元亞型特征的途徑,亞克隆2(藍色)具有屬于線粒體的細胞,亞克隆3(綠色)含有具有增殖/祖細胞亞型的細胞(圖4e)。為了確定不同細胞狀態的驅動因素,我們對亞克隆特異性改變區域中具有基因組坐標的基因進行了差異分析。位于亞克隆3特異性改變中的最高差異表達基因是泛素綴合酶 E2T (UBE2T)基因,其表達顯著上調,該基因位于DNA 修復通路上,這可以部分解釋該亞克隆的致癌成因。

圖4,使用SCEVAN發現膠質母細胞瘤的異質性
此外,拷貝數亞結構的分析可以表征特定腫瘤相關基因的克隆狀態。在樣品 BT1160和 MGH102中,SCEVAN 顯示腫瘤抑制基因 CDKN2A 和 PTEN 的改變只發生在部分亞克隆中(圖5)。在樣本BT1160中,含有 PTEN (10q23.31)的 Chr 10(q22.1-q26.3)上的缺失在三個亞克隆中的兩個之間共享,而在其余的亞克隆中,該缺失不存在。這些結果表明,SCEVAN 可以從 scRNA-seq 數據中解析腫瘤中的克隆拷貝數亞結構,并識別亞克隆差異和膠質瘤特異性癌癥狀態。

圖5,SCEVAN基于單細胞轉錄組對兩個膠質母細胞瘤區分亞克隆之后的拷貝數變異
4 使用SCEVAN研究腫瘤的進化與轉移
圖6展示了在多次活檢數據中,使用 SCEVAN進行推測的結果。有七個膠質母細胞瘤活組織檢查,兩個在腫瘤周邊,其余在腫瘤的核心。用 SCEVAN 對每個樣品進行克隆分析,可以推斷出克隆的進化樹(圖6)??截悢蹈淖冄刂鴰讉€分支發展,腫瘤周圍樣品(P2/P3)位于與核心樣品分離的分支中,其中4號和8號染色體沒有擴增。此外,存在于 Chr 2上的擴增在外周樣品中是完全出現,而在中間的部分只是部分出現,這說明了該突變的演化順序。

圖6,對多次活檢樣本使用SCEVAN進行時序分析得到的進化樹
SCEVAN還可以鑒別原發腫瘤和轉移之間的相似性,針對原發性 HNSCC 腫瘤和相應的淋巴結轉移。SCEVAN發現患者(HNSCC5)在原發腫瘤和淋巴結轉移之間呈現不同的克隆結構,特別是在淋巴結轉移中沒有擴增7號染色體(p22.3-p13) ,如圖7所示。只在一個樣本中,轉移和原發腫瘤細胞的拷貝數之間存在差異,不同的淋巴結轉移細胞中下調的GPNMB基因, 在多種情況下被證明增加腫瘤生長和轉移。而對于其余患者(HNSCC20,HNSCC25,HNSCC26,HNSCC28) ,淋巴結轉移的克隆結構似乎與原發腫瘤相同。轉移和原發腫瘤細胞的拷貝數之間高度相關性(皮爾遜相關系數在0.79和0.89之間)表明 SCEVAN 可用于研究轉移癌的克隆進化。

圖7:使用SCEVAN在4個原發腫瘤和淋巴結轉移鑒定拷貝數變異并發現存在高度相關性
5 總結
使用大量不同腫瘤類型,不同的單細胞技術的注釋數據集,該研究證實 SCEVAN 比最先進的方法能更準確、更快的基于單細胞轉錄組數據檢測拷貝數變異(CNA),并根據CNA差異描繪實體腫瘤中的克隆亞結構,以及研究腫瘤的時間和亞克隆之間的演化。亞克隆的功能分析揭示了細胞狀態的驅動因素,以及原發性和轉移性腫瘤之間差異的驅動基因。使用SCEVAN可擴展單細胞數據的分析范圍,通過找到的拷貝數差異,可結合甲基化等數據,進行多組學分析,從而進一步研究腫瘤的微環境及異質性。