常規單細胞分析中,細胞群的注釋通常依賴基于其轉錄組譜的無監督細胞聚類,鑒定不同類群之間差異表達的標記基因,然后通過在文獻或細胞標記數據庫中檢索這些標記基因,將對應的細胞類型標簽注釋到給每個細胞群。然而這種手動注釋的方法不僅耗時還容易出錯,因為一個標記基因可能在多個細胞群中表達,且對應多種不同細胞類型。此外,陰性標記基因的表達也應納入細胞類型鑒定過程,這些基因也是證明細胞屬于特定類型的證據。
在臨床上,單細胞特征分析的一個重要應用是設計個性化治療,選擇性地針對患者來源樣本中的惡性細胞類型,同時避免對健康細胞的抑制和毒性作用。然而,如何準確區分多種惡性和非惡性細胞群以進行靶向治療仍然是一個挑戰,需要適用于各種疾病和組織類型的系統性和高度選擇性策略。基于以上問題,芬蘭赫爾辛基大學分子醫學研究所(FIMM)的研究人員開發了ScType 數據庫(https://sctype.app)。

使用來自單細胞轉錄組數據的組合特定標記進行全自動和超快速的細胞類型鑒定
ScType簡介
ScType數據庫是迄今為止最大的人類和小鼠細胞特異性標記基因數據庫,整合了 CellMarker數據庫(http://biocc.hrbmu.edu.cn/CellMarker/)和PanglaoDB(https:// panglaodb.se)這兩個目前最大的細胞類型注釋數據庫中的標記基因。在CellMarker數據庫中,從 100000 多篇已發表的論文中手動收集和整理了158個人體組織中467種細胞類型的 13605 個細胞標記基因和 81個小鼠組織中389種細胞類型的9148個細胞標記基因。在 PanglaoDB數據庫中,收集了155 種細胞類型的 6631 個標記基因。此外,開發者還通過手動整理超過10篇文獻,將15種具有相應標記基因的新型細胞類型添加到了當前版本的ScType 數據庫中。總體而言,當前版本的 ScType 數據庫包含17種人體組織中194種細胞類型的 3980 個細胞標記基因和 17 種小鼠組織中194種細胞類型的 4212 個細胞標記基因。
不僅如此,ScType 還有很多其他優勢:首先,ScType只需要一個 scRNA-seq 表達矩陣(原始的或標準化的)作為輸入,輸入數據的維度不受限制;其次,ScType提供了多種處理、分析和可視化 scRNA-seq 數據的方法;再次,ScType 實現了細胞類型識別的自動化程序;最后,ScType 是一個免費的工具,還在GitHub上提供了可供使用的R包集代碼(https://github.com/IanevskiAleksandr/sc-type/)。

ScType的整體性能如何?
開發者通過對來自人和小鼠各種組織的 6 個 scRNA-seq 數據集進行了注釋分析,準確率 高達98.6%。唯一無法自動注釋已知的細胞類型是人腦數據集中的胎兒細胞,這是因為在當前版本的 ScType 數據庫中沒有可用于人腦的胎兒細胞標記基因。此外,開發者還將 ScType 與其他三種最近開發的細胞類型注釋方法進行了比較。結果顯示,ScType不僅準確性高,運行速度也很快。值得注意的是,ScType 在注釋人類 PBMC 數據集的細胞類型中顯示出了幾乎完美的準確性。

進入正題:如何使用ScType?
1. ScType介紹
進入首頁,左側為數據上傳、質控、可視化、示例樣本以及內置數據庫等項目。右上角的說明文檔中介紹了數據上傳的要求。ScType 中允許使用三種輸入文件格式,分別是基因表達矩陣、CellRanger的輸出文件(包含barcodes.tsv、genes.tsv/features.tsv 和 matrix.mtx的*.zip壓縮包)和SingleCellExperiment R 對象。

2. 上傳數據

3. 數據質控和過濾
該平臺數據分析的第一步是基于cells/barcodes統計的質控分析。ScType 提供三個QC指標來根據用戶自定義的標準(檢測到的基因數、計數深度和線粒體基因百分比)過濾細胞。左圖上的每個點代表一個細胞(鼠標懸停可以查看細胞注釋)。鼠標拖放虛線可以自由選擇過濾標準。過濾也可以通過右側欄移動滑塊來完成。確定過濾標準后點擊下一步。

4. 數據標準化
接下來是對數據的標準化。在右側選項欄中可以指定用于下游分析的高變基因數量,該平臺默認值是輸入數據中給出的基因總數的 15%。

5. 可視化
最后是結果可視化。用戶可以自主選擇是以散點圖還是熱圖展示,有t-SNE、UMAP和PCA三種降維方式可選擇,既可按cluster著色也可以選擇按細胞類型著色。可視化的結果可以圖片形式導出,相關數據也可以下載相應的xlsx文件。

6. 用戶自定義
此外,ScType還允許用戶上傳用于細胞類型注釋的自定義標記基因。

參考文獻
Ianevski, A., Giri, A.K. & Aittokallio, T. Fully-automated and ultra-fast cell-type identification using specific marker combinations from single-cell transcriptomic data. Nat Commun 13, 1246 (2022). https://doi.org/10.1038/s41467-022-28803-w