在生信分析中,算法的開發和創新是一個非常重要的環節。隨著單細胞技術的飛速發展,現有的一些分析算法存在的不足已經日漸暴露出來了。就在近日,nature communications(14.913)上新發表了一篇關于單細胞數據聚類的新算法,就讓我們一起來看看這個新的算法具體又是怎樣創新的吧。

DUBStepR——一種用于單細胞數據準確聚類的可擴展的基于相關性的特征選擇方法
摘要
特征選擇,也就是標記基因的選擇,被廣泛認為是提高聚類準確度的關鍵步驟。而目前現有的方法都未考慮到基因相關性的影響,因此本文提出了一種利用基因之間的相關性的新的特征選擇算法——DUBStepR(Determining the Underlying Basis using Stepwise Regression)。它不但可以鑒定出類風濕關節炎患者PBMC中與疾病相關的常見和罕見的細胞類型,也可以應用于大型的數據集中,并且還可能可以直接應用于其他單細胞數據類型中,如scATAC-seq。
背景介紹
scRNA-seq數據的無監督聚類過程通常包括質控、標準化、特征選擇、主成分分析(PCA)、基于距離聚類以及細胞類型定義。盡管在這個過程中特征選擇是一個很關鍵的步驟,但是目前而言,對于scRNA-seq中的特征選擇的方法研究還很少。其中一個比較好的特征選擇算法就是選擇細胞類型特異性(DE)基因作為特征,但這種算法還需要優化不同細胞類群之間在生物學上的不同特征的區分。目前使用最多的特征選擇方法是均值方差建模(mean-variance modeling)。本文中提到了M3Drop和GiniClust兩種方法,但它們都未將基因表達之間的相關性考慮進去。
基于以上,研究人員提出了DUBStepR這種基于基因之間相關性的特征選擇算法,具體流程見圖1中。同時,為了評估這種新的算法的適用性和性能,研究人員納入了四種不同類型的數據同時與其他7種常用的特征選擇算法進行了比較。最后還將此算法應用于類風濕關節炎患者PBMC中的單細胞ATAC-seq數據上。
PBMC,也就是外周血單核細胞(Peripheral blood monoculear cell),起源于位于骨髓(bone marrow)的造血干細胞( hematopoietic stem cells, HSCs),主要包括淋巴細胞(T細胞,B細胞和自然殺傷(NK)細胞)和單核細胞。通常情況下,淋巴細胞約占70 – 90%,單核細胞約占10 – 30%,不同個體之間這些細胞群的比例可能存在差異。

圖1 DUBStepR流程圖
結果
1. 利用基因之間的相關性預測細胞類型特異性DE基因
DUBStepR的第一步是根據細胞類型特異性DE基因(標記基因)的已知特征選擇一組初始候選特征。相同細胞類型的特異性DE基因往往是高度正相關,而不同細胞類型的特異性DE基因可能是負相關的(圖2a,b)。相比之下,非DE基因之間可能只是弱相關性(圖2c)。因此研究人員假設,由基因最強正相關系數和最強負相關系數之間的差異得出的相關范圍分數在DE基因中會顯著升高。事實上,DE基因的相關范圍得分確實顯著高于非DE基因(圖2d)。
圖2 DE基因的表達相關性
2. 逐步回歸法(Stepwise regression)識別最小冗余特征子集
在基因-基因相關性(GGC)矩陣中可以觀察到大小不一的相關性模塊(圖3a),每個模塊可能代表著細胞中不同的差異表達模式。為了確保候選特征集中不同細胞類型的標記更均勻的分布,通過在GGC矩陣中進行回歸算法(圖3b-d),識別出最具有代表性的最小冗余子集(“seed”基因)。利用這種方法選擇具有不同細胞類型特異性標記的seed基因(圖3e-h),然后通過逐步回歸樹狀圖的拐點來確定最佳步驟數,也就是seed基因集的大?。▓D3i,j)。
圖3 識別最小冗余特征子集的逐步回歸
3. 擴展特征集(Guilt-by-association)
基于上述方法選擇的特征集雖然特征表現很顯著,但是每個特征相關的基因只有少數幾個基因(大多情況下是2-5個基因),這是遠遠不夠的。因此研究人員提出了通過Guilt-by-association的方法來擴展特征集,直到DUBStepR達到特征基因的最佳數量。
4. 基準測試
基準測試是指通過設計合理的測試方法,選用合適的測試工具和被測系統,實現對某個特定目標場景的某項性能指標進行定量的和可對比的測試。本文研究人員為了測量和評估DUBStepR,將其與其余7種算法在scRNA-seq數據中進行了比較。每種算法都用了7個數據集,涵蓋有4種不同的scRNA-seq:10x Genomics, Drop-Seq, CEL-Seq2和Smart-Seq on the Fluidigm C1。為了評估所選擇的特征的質量,這里采用的評估指標是SI(Silhouette index),該指數指的是屬于同一類的細胞之間的接近度相對于其他類群細胞的距離。可以發現,DUBStepR在整個特征集選擇范圍內明顯優于其他所有方法(圖4a)。此外,DUBStepR在7個數據集中的使用,有5個都是在這些算法中排第一的(圖4b)。
為了優化細胞類型聚類,特征選擇算法最好只選擇DE基因,即細胞類型或亞型特異性基因作為特征標記。因此,研究人員量化了特征選擇算法區分DE和非DE基因的能力,引入了AUROC(ROC曲線下的面積)。圖4c中可以看到,DUBStepR在所有7個數據集上的AUROC值都超過了0.97,說明它能夠很好的區分DE和非DE基因。也就是說,DUBStepR大大提高了我們選擇細胞類型或亞型特異性基因(DE基因)來對scRNA-seq數據進行聚類的能力。
此外,研究人員還對DUBStepR進行了進一步的優化,以便能以較快的速度可以處理大型數據集。
圖4 特征選擇方法的基準測試
5. 通過DI(Density index,密度指數)預測最佳特征集
從圖4a中可以看出,選擇太少或者太多的特征基因都會導致聚類效果不佳。由于無法確定特征集的SI,所以本文研究人員定義了一個新的指標,這個指標可以大致模擬SI,且無需知道細胞類型標簽;這個指標也就是密度指數(DI),即所有細胞對之間的均方根距離除以細胞與其k個臨近細胞之間的平均距離。
直觀地來說,當細胞聚在一起時,它們之間的距離應該最小,DI值應該是最大的(圖5a,b)??梢园l現DI和SI確實是呈現正相關性,并且在大致相同的特征集大小下趨向于達到它們的最大值(圖5c)。同時,對于7個基準數據集中的5個,DI最高的特征集也最大化了SI(圖5d)。除此之外,DI還有一個優點就是計算相對來說比較簡單。在默認條件下,DUBStepR會選擇最大化DI的特征集大小。
圖5 密度指數
6. DUBStepR在類風濕關節炎樣本中可靠地檢測出罕見細胞類型和隱匿的細胞狀態
前面的定量基準分析主要基于對健康供體細胞細胞系或FACS純化細胞群中常見的細胞類型(>所有細胞的10%)的檢測。所以研究人員為了證明DUBStepR能夠在復雜的原始樣本中對細胞進行聚類,這里加入了對四名類風濕關節炎(RA)患者的8312個PBMC的scRNA-seq數據的分析。首先利用SingleR分離出T細胞和NK細胞群(5329細胞)(圖8),然后通過DUBStepR對這些細胞進行聚類,進一步識別出了10個具有顯著不同的基因表達特征的亞型(圖6a)。其中還包括了四個罕見的細胞群(圖6b)??偠灾?,通過比較其他方法,DUBStepR是唯一一個可以可靠地檢測到淋巴細胞群中常見和罕見的細胞類型和亞型的方法。
圖6 類風濕關節炎患者外周血淋巴細胞群分析
7. DUBStepR應用于scATAC-seq數據
常用的特征選擇通常不適用于scATAC-seq數據上,但是特征相關性卻是適用的。研究人員進一步將新的算法DUBStepR推廣應用于人骨髓細胞的scATAC-seq數據上,結果發現DUBStepR的結果更清楚地揭示了造血干細胞的三大譜系的出現:淋巴系、髓系和巨核/紅細胞系(圖7)。具體來說,使用Monocle 3分析得出的拓撲結構僅在DUBStepR中與已報道的造血分化層次匹配(圖7d-f)
圖7 已發表文獻中的scATAC-seq數據特征選擇的比較
圖8 SingleR scores熱圖
討論
DUBStepR是一種基于細胞類型特異性標記基因往往彼此之間存在比較好的相關性的算法。隨著單細胞技術的飛速發展,使得可擴展性成為新型單細胞算法的一個基本特征,而DUBStepR的擴展范圍是比較大的,其中的主要因素是一旦構建了基因-基因相關矩陣,下游步驟的時間和內存復雜性相對于細胞數量是恒定的。本研究中定義了一個特征空間中細胞的不均勻性或“聚集性”的度量,也就是密度指數(DI)。DI的算法相對來說也更簡單。有趣的是,盡管DUBStepR不是專門設計用于檢測稀有細胞類型的,但是它的檢測效果要明顯優于其他算法。最后,研究人員還推測DUBStep可能也可以用于scATAC-seq、scChIP-seq和單細胞甲基組測序等數據中。
本文所開發的算法已經寫成了R包,源代碼也提供在了GitHub上可供我們獲取。此外,所采用的分析數據也是可以直接下載或申請,那我們何不趕緊動動手去用一下這新的算法呢?