今天小編來介紹一篇今年3月剛發表在nature communications(IF: 17.694)雜志上的文章。該文基于單細胞測序數據,主要提出了一個全面的泛癌 TME 細胞類型分類器——scATOMIC。
Pan-cancer classification of single cells in the tumour microenvironment
scTOMIC能夠降低TME多細胞系統的轉錄組復雜性,以改善細胞分類。還能夠以高分辨率準確識別TME駐留細胞,分離癌癥和正常組織細胞并確定腫瘤的來源。
通過scRNA-seq分析各種免疫細胞和基質細胞在癌癥中的功能,目前有很多成熟穩定的科學見解。然而,能夠標準化單個惡性細胞識別的自動化方法依舊空缺,細分腫瘤亞型的方法也并非一站式。因此,有了本文所提出的scTOMIC的誕生。
本文采用的數據為19種常見癌癥類型的癌細胞系的scRNA-seq以及不同外周血細胞的CITE-seq數據集(蛋白質組學和轉錄組學)。另外還有從幾個腫瘤和正常組織來源收集的基質細胞scRNA-seq??傮w而言,scTOMIC的訓練參考數據集中包含301662個細胞。
相關代碼的鏈接已放置在了文末。
一、模型的設計與開發
首先需要了解的是RHC-REP,它是作者提出的一種為了反向分層分類(reversed hierarchical classification)和重復消除親屬節點(parental nodes)方法。
它的具體作用是在分類任務的集合中減少了細胞類型的廣度。RHC-REP將優先選擇對被詢問細胞類型具有最高特異性的特征。
那么接下來,我們正式進入scATOMIC模型的構建:
1.作者基于泛癌的TME層次結構(每個父節點代表一組相關細胞,每個終端節點代表一個感興趣的單細胞類別)訓練了24個隨機森林模型,對應于父節點的總數。模型提供與父節點內每個終端類投票的樹的比例相對應的預測分數。然后輸出一個按細胞預測得分(PS)矩陣。
2. 細胞在其父節點的相應模型中迭代詢問,直到獲得終端分類。并且在每個分類任務期間,每個單元都會收到一個預測分數 (PS) 向量,對應于父節點中為每個終端類投票的樹的百分比。然后通過PS矩陣計算該單元來計算中間組分數(IGS),隨后將單元格鏈接到層次結構中的下一個父節點。如果單元格的 IGS 低于置信臨界值,則每個單元由其下一個關聯模型進行詢問,并且由一組更具辨別性的特征來進行潛在的終端類定義。未通過 IGS 閾值的細胞將被賦予其先前的父分類,并保留進一步的子分類。
作者還提出:scTOMIC中嵌入了癌癥簽名評分和細胞分化模塊。例如下圖的f模塊(圖1f),通過對批量scRNA-seq衍生的分化基因表達程序進行評分來區分癌癥和組織特異性非惡性細胞。scATOMIC 自動將群體 2 注釋為癌細胞,將群體 1 注釋為非惡性細胞。

二、模型驗證
采用一個內部驗證集和兩個外部驗證集共同驗證,結果分別如下圖顯示。這些結果證明了scATOMIC的核心算法在檢測癌細胞及其類型方面具有高度的準確性。

三、模型優勢與模型作用
1.由于現有的細胞類型分類工具(例如SingleR、Seurat、SingleCellNet、scmap-cell、CHETAH和scType)并非旨在注釋惡性細胞,因此該比較突出了scATOMIC克服泛癌癥環境中的復雜性以準確識別癌細胞的能力,同時在注釋基質和血液方面也具有相當或顯著更好的性能(圖2c)。
2.scATOMIC能夠區分非惡性、組織特異性細胞和癌細胞,這里是基于inferCNV算法,預測的惡性細胞被推斷為非整倍體細胞,而正常組織細胞被推斷為二倍體。與CopyKAT的比較如圖3b所示。

3.scATOMIC比腫瘤數據集中的原始注釋具有更高的細胞分辨率,例如可以識別重疊的基因表達,并將其分到合適的細胞類型中;還可以進一步細分為亞型。另外scATOMIC 在膠質母細胞瘤中鑒定出造血干細胞/祖細胞 (HSPC),這些已被證明可以促進腫瘤細胞增殖的群體。

4.scATOMIC 被證明檢測轉移性癌癥的起源組織是可行的(準確度為83.9%),并且可以幫助識別各種實體人腫瘤中的癌癥原發部位。
總而言之,scTOMIC的核心分層算法能夠以高分辨率解析細胞身份,標記更細的T細胞狀態,識別稀有細胞類型,避免錯誤分類未知細胞并確定癌癥類型。
四、討論
總之,scTONATIC被提出有效地注釋泛癌癥環境中的TME。其通過使用穩定表達的轉錄本作為特征、結構化分類和使用可靠和大型數據集訓練的模型,已被證明可以準確識別癌細胞類型及其來源,并且可以進行更細的亞型分類。此外,scANTIC與其他現有的自動細胞類型注釋器相當或優于其他現有的自動細胞類型注釋器。而且,在具有基因組不穩定性和正常細胞適當參考的樣本中,scANTIC和CNV推斷與scRNA-seq數據中的惡性細胞之間具有高度一致性,因此作者因此建議將scANTIC與CNV推理結合使用來注釋癌細胞及其類型。