早吖,小可愛們!今天來給大家整點兒干貨,分享一篇BIB雜志關于單細胞分型方法的綜述,相信我,做單細胞的和不做單細胞的看了都不虧!PS:所有的參考文獻鏈接小編都放在文末了吆~

關于scRNA-seq,相信大家或多或少都有了解,它讓我們可以在細胞水平上分析表型的異質性,在拿到單細胞測序數據之后,對每一類細胞群進行注釋是后續分析的基礎,也是整個單細胞分析流程中最重要最繁瑣的一步。好在隨著技術的推廣,出現了越來越多的細胞分型方法,讓我們有機會可以站在前輩們的肩膀上,從眾多的方案中進行選擇。但這畢竟不是買菜,可以看哪個順眼買哪個,當你用自己的數據簡單套用別人的方法時,可能會出現買家秀和賣家秀的差距,這就說明maybe你的方法選錯了,那到底怎么選呢?別急,跟著小編往下看!

一、注釋方法有哪些?
現有的識別單細胞類型的方法,大致可以分為有監督和無監督兩類。有統計學基礎的同學,對這兩個概念應該不會陌生。所謂無監督的注釋方法,就是基于各種聚類算法,將所有沒有標簽的細胞整合到一起,根據它們基因表達譜的相似性進行分組,然后利用已知細胞類型的marker基因列表為每一組賦予標簽。接下來提到的這類方法主要有Seurat v3 clustering、raceID3、LIGER、SC3、Monocle3、TSCAN、pcaReduce、CIDR、SAME-clustering和SHARP這10種。
有監督的方法呢,首先需要有一個細胞類型已知的參考數據集,根據這個數據集構建訓練模型,用來預測自己數據集的細胞類型。比如CellAssign、Seuratv3mapping、scmap-cluster、scmap-cell、singleR、CHETAH、Garnett和SingleCellNet。
當然,每一類方法遠不止這幾種,比如對于有監督的方法,參考文獻2就囊括了32種,并將它們又細分成了三類,感興趣的小伙伴可以看一下原文哈!今天,咱們就比較一下常用的這十多種。
二、(*^-^*)vs ( ╯□╰ )
有監督的注釋方法:這類方法利用參考數據中的先驗知識,直接賦予細胞類型標簽,不需要使用者熟悉每類細胞的marker genes。當數據集很大時,同樣適用。但是,可以識別的細胞類型僅限于參考數據中有的,可能無法識別出新的細胞類型。雖然一些方法會將新的細胞類型標記為“未分配”,但還是需要對這類細胞做進一步分析。此外,有時獲取合適的參考數據集也具有挑戰性,尤其是對于新的組織類型,可能需要大量的檢索。
無監督的注釋方法:這類方法不需要參考數據集,也不需要單獨把每一個細胞分型,常用的聚類方法有基于圖的聚類、層次聚類和分區聚類。但是,一些參數需要手動設置,比如將細胞分成多少簇,即使一些方法會提供參考,選擇時依舊需要謹慎,而且,將生成的細胞簇賦予類型標簽也并非易事,它從根本上還是依賴于已知的marker基因列表,會不可避免地會引入錯誤和偏差。此外,無監督方法也無法很好的利用特異細胞類型基因表達的先驗知識。
三、方法測評
1、評估流程
作者對上文提到的8種有監督注釋方法和10種無監督注釋方法進行了評估(圖1),參數大多使用默認值或者根據軟件的建議選擇,除了以下幾處:(1) 由于CellAssign和Garnett所用的marker基因有缺失,也有分歧,作者使用Seurat提供的函數為兩種方法生成了新的marker基因列表,以避免使用不同的標記基因造成的差異;(2)無監督注釋方法聚類數目的選擇標準不同;(3)除了Seuratv3mapping/clustering、LIGER和raceID3方法本身可以去除批次效應,對其他方法,作者用MNN方法做了處理。

2、數據集的使用
作者總共使用了14個來自不同組織、疾病、物種和技術平臺的數據集來進行評估(表1)。為了確保完整性,作者只對這些原始數據集做了簡單的質量控制,沒有去除小群體的細胞類型或者非典型的細胞類型,也沒有過濾基因。
研究使用5倍交叉驗證,從細胞數量、測序深度、批次效應、參考偏差、細胞類型數量、細胞群失衡、新/稀有細胞類型的識別、計算效率和魯棒性等方面對這些方法進行了綜合的評估。
表1. 所用數據集
Dataset | Annotation | Tissue | Number of cell subtypes | Number of cells | Number of genes | Protocol | Condition |
|---|---|---|---|---|---|---|---|
PBMC Zheng | 1 | PBMC (human) | 8 | 61,309 | 32,738 | 10X | Healthy |
PBMC SLE A | 2 | PBMC (human) | 8 | 3,582 | 32,738 | 10X | SLE |
PBMC SLE B | 3 | PBMC (human) | 8 | 4,184 | 32,738 | 10X | SLE |
PBMC SLE C | 4 | PBMC (human) | 8 | 6,115 | 32,738 | 10X | SLE |
PBMC SLE Stim | 5 | PBMC (human) | 8 | 14,032 | 32,938 | 10X | SLE & INF-beta stimulated |
PBMC SLE Ctrl | 6 | PBMC (human) | 8 | 14,526 | 32,938 | 10X | SLE |
Segerstolpe | 7 | Pancreas (human) | 15 | 2,931 | 25,525 | SMART-Seq2 | Healthy |
Muraro | 8 | Pancreas (human) | 9 | 2,123 | 19,127 | CEL-Seq2 | Healthy |
Xin | 9 | Pancreas (human) | 8 | 1,588 | 39,851 | SMARTer | Healthy |
Alzheimer | 10 | Brain (human) | 8 | 70,634 | 17,926 | 10X | Alzheimer |
Autism | 11 | Brain (human) | 7 | 104,559 | 59,074 | 10X | Autism |
hMidbrain | 12 | Midbrain (human) | 23 | 1,695 | 19531 | 10X | Healthy |
mMidbrain | 13 | Midbrain (mouse) | 24 | 1,518 | 18555 | 10X | Healthy |
Human Cellular Landscape | 14 | Mixture of tissues (human) | 63 | 599,926 | 1772 | SMART-Seq2 | Healthy |
四、評估結果看這里!
用以評估方法性能的指標分為兩類,一類是實驗數據集的屬性,如數據復雜性和細胞群的不平衡等,另一類評估分類/聚類結果,例如ARI和BCubed F1分數,ARI指標可以衡量在不考慮類標簽的情況下,算法將相同類型的細胞分到一組的能力。BCubed F1得分用以評估算法的精確度和召回率,當罕見細胞類型比較多時,能更好的評估分類性能。

總的來說,根據每個方法中,13個數據集的ARI分布情況可以發現,監督方法基本優于無監督方法(圖2)。 作者進一步分析后,認為原因有兩個,一是指定的簇數和真實的簇數之間的差異,差異越大,監督方法越優于無監督方法;二是數據集的復雜性。如圖3所示,當數據集復雜度較低時(圖左側),有監督的方法明顯優于無監督的方法,而當數據集復雜度增加時(圖右側),兩類方法的ARI 分數接近,表明性能也相差無幾。接下來,分別看看不同因素對這兩類注釋方法的影響。

1、細胞數量的影響
對任何一種監督模型來說,訓練數據越大,偏差就越小,預測結果也更好,但是當數據集大到一定規模后,性能就不會再有所提高。當用大小不同的數據集進行測試時,大部分有監督的方法性能恒定,而無監督方法的性能則受到很大影響(圖4),這跟預估的細胞簇數有關。如果沒有預先指定簇數,數據集越大,就能得到越多的細胞簇。當數據集較小時,無監督方法的性能與監督方法相當。

2、測序深度的影響
為了評估測序深度對細胞分型性能的影響,研究使用了五個具有不同測序深度的測試數據集。 總體而言,監督方法在所有測序深度上都優于無監督方法。所有方法的性能都隨著深度的增加而顯著提高,表明更深層次的測序將在一定程度上有助于聚類和分類。但當達到一定閾值,就不再有提升,至于這個閾值是多少,因方法而異,文章也沒有過多探討。
3、批次效應的影響
目前,去除批次效應的方法已經有不少,像MNN、ComBat-seq、iNMF、SMNN和Harmony,作者選擇了MNN對八組數據集進行批次效應處理。研究表明,除了CHETAH之外的大多數監督方法在校正批次效應后都沒有表現出性能上的提升,而大多非監督方法(除monocle3外)的性能在校正之后,則變得更差,這與它們的聚類策略有關。
4、參考數據偏倚的影響
對于有監督的方法來說,選擇一個與所分析的數據集在所有方面都類似的訓練數據集是很難的,因此,不可避免的就會存在參考偏差,而無監督的方法則不存在這種情況。文章中,作者研究了有監督的方法在不同類型的參考偏差下的表現,包括level 1:個體水平偏差、level 2:實驗條件偏差、level 3:個體和批次水平偏差以及level 4:個體、實驗和批次偏差,并將它們與無監督方法進行了比較(圖5)。總的來說,參考偏差的水平越高,有監督方法的性能就越差,Seurat v3 mapping 和singleR 在不同參考偏差水平之間的性能變化最小。對大部分方法來說,實驗條件引入的參考偏差大于個體水平。有意思的是,有監督的方法在所有參考偏差水平上仍然優于無監督方法。

6、細胞類型數量的影響
理論上,數據集的復雜性很大程度上取決于細胞類型的數量,細胞類型越多,注釋難度就更大。作者發現,當數據集的復雜度較高時,有監督的方法和無監督方法的性能與細胞類型的數量呈負相關,但前者優于后者(圖6)。不過,當細胞類型的數量越多,數據集的復雜性越高,這種優勢就越小,甚至會消失。

7、細胞群失衡的影響
在一個復雜組織中,細胞類型比例可能極度失衡,這種情況下,那些稀有的細胞類型往往是我們感興趣的。然而,在確保方法精確度的同時,可能會無法識別出稀有細胞類型。通過對這十多種方法的分析,作者發現,總的來說,對于不平衡測試數據集,有監督方法比無監督方法更穩健,特別是當數據集包含足夠多的稀有細胞類型時。因此,當數據集存在嚴重的不平衡,并且想要研究稀有細胞類型時,有監督的方法可能會是更好的選擇。
8、識別新細胞類型的能力
當一類細胞與任何參考細胞類型都不相似時,許多有監督的方法會將其標記為“unassigned”,無監督方法則不受參考數據的限制,可以在不同的簇中分離出新的細胞類型。因此,同有監督的方法相比,無監督方法能更好的識別未知的細胞類型(圖7)。對于識別未知細胞類型比已知細胞類型更重要的情況下,采用無監督方法可能會更好。

9、計算效能的比較
在選擇方法時,運行時間也是我們必須要考慮的一個因素。基于此,作者將18種方法分為了快速、中速和低速三類(圖8)。在11種快速方法中, 當細胞數量增加時,有8種表現出了良好的計算速度和可擴展性,能夠在十分鐘內標記/聚集50,000個細胞。當細胞數量不大于 30,000 個時,Seurat最快,而當細胞數量不小于40,000 個時,SHARP最快??偟膩碚f,無監督方法在速度和可擴展性方面要優于有監督方法。

最后,作者又使用大規模的數據集(細胞數量~600,000)對以上因素進行了分析,結果基本一致。但也有一些新的發現,比如,Seurat v3 mapping是所有方法中性能最好的,Monocle3則是無監督方法中表現最好的;當細胞數相對少時,無監督的方法傾向于得到比真實數目少的簇,細胞數大于60,000之后,有監督方法的性能基本不再變化等等。
五、小結一下
做了這么多比較,最后肯定是要復盤一下,來個大排名的(圖9)。不難發現,(一)、除了識別未知細胞類型和計算效率之外,在其他方面的比較中,都是有監督的方法更勝一籌。(二)、對于有監督的方法來說,更多的訓練細胞、更少的細胞類型、更高的測序深度、訓練集和測試集之間更相似的細胞類型比例、更平衡的訓練細胞類型比例和更少的偏差參考,會得到更好的結果。(三)、對于無監督方法,更高的測序深度、更少的細胞類型以及真實簇和估計簇數之間更小的差異,也會得到更好的分型結果。(四)、對于這兩類方法,都沒必要去除批次效應。 有些情況下,去除了反而可能會使結果更糟。(五)、在有監督的方法中,Seurat v3 mapping和SingleR整體的準確度最高,處理超過10,000個細胞的大型數據集時,前者通常是更好的選擇。(六)、在無監督方法中,Seurat v3 clustering具有最好的整體性能,計算速度也很快,是無監督方法中的首選。(七)、無監督方法通常比有監督方法更快,尤其是SHARP具有最佳的計算效率和可擴展性,以及良好的聚類性能,可以用來處理超大型數據集。

好了,今天的分享到此結束,have a nice day, bye!

1. Sun X, Lin X, Li Z, Wu H. A comprehensive comparison of supervised and unsupervised methods for cell type identification in single-cell RNA-seq. Brief Bioinform. 2022 Mar 10;23(2):bbab567. doi: 10.1093/bib/bbab567. PMID: 35021202; PMCID: PMC8921620.
2. Xie B, Jiang Q, Mora A, Li X. Automatic cell type identification methods for single-cell RNA sequencing. Comput Struct Biotechnol J. 2021 Oct 20;19:5874-5887. doi: 10.1016/j.csbj.2021.10.027. PMID: 34815832; PMCID: PMC8572862.