在生信分析中,算法的開發(fā)和創(chuàng)新是一個非常重要的環(huán)節(jié)。隨著單細(xì)胞技術(shù)的飛速發(fā)展,現(xiàn)有的一些分析算法存在的不足已經(jīng)日漸暴露出來了。就在近日,nature communications(14.913)上新發(fā)表了一篇關(guān)于單細(xì)胞數(shù)據(jù)聚類的新算法,就讓我們一起來看看這個新的算法具體又是怎樣創(chuàng)新的吧。

DUBStepR——一種用于單細(xì)胞數(shù)據(jù)準(zhǔn)確聚類的可擴(kuò)展的基于相關(guān)性的特征選擇方法
摘要
特征選擇,也就是標(biāo)記基因的選擇,被廣泛認(rèn)為是提高聚類準(zhǔn)確度的關(guān)鍵步驟。而目前現(xiàn)有的方法都未考慮到基因相關(guān)性的影響,因此本文提出了一種利用基因之間的相關(guān)性的新的特征選擇算法——DUBStepR(Determining the Underlying Basis using Stepwise Regression)。它不但可以鑒定出類風(fēng)濕關(guān)節(jié)炎患者PBMC中與疾病相關(guān)的常見和罕見的細(xì)胞類型,也可以應(yīng)用于大型的數(shù)據(jù)集中,并且還可能可以直接應(yīng)用于其他單細(xì)胞數(shù)據(jù)類型中,如scATAC-seq。
背景介紹
scRNA-seq數(shù)據(jù)的無監(jiān)督聚類過程通常包括質(zhì)控、標(biāo)準(zhǔn)化、特征選擇、主成分分析(PCA)、基于距離聚類以及細(xì)胞類型定義。盡管在這個過程中特征選擇是一個很關(guān)鍵的步驟,但是目前而言,對于scRNA-seq中的特征選擇的方法研究還很少。其中一個比較好的特征選擇算法就是選擇細(xì)胞類型特異性(DE)基因作為特征,但這種算法還需要優(yōu)化不同細(xì)胞類群之間在生物學(xué)上的不同特征的區(qū)分。目前使用最多的特征選擇方法是均值方差建模(mean-variance modeling)。本文中提到了M3Drop和GiniClust兩種方法,但它們都未將基因表達(dá)之間的相關(guān)性考慮進(jìn)去。
基于以上,研究人員提出了DUBStepR這種基于基因之間相關(guān)性的特征選擇算法,具體流程見圖1中。同時,為了評估這種新的算法的適用性和性能,研究人員納入了四種不同類型的數(shù)據(jù)同時與其他7種常用的特征選擇算法進(jìn)行了比較。最后還將此算法應(yīng)用于類風(fēng)濕關(guān)節(jié)炎患者PBMC中的單細(xì)胞ATAC-seq數(shù)據(jù)上。
PBMC,也就是外周血單核細(xì)胞(Peripheral blood monoculear cell),起源于位于骨髓(bone marrow)的造血干細(xì)胞( hematopoietic stem cells, HSCs),主要包括淋巴細(xì)胞(T細(xì)胞,B細(xì)胞和自然殺傷(NK)細(xì)胞)和單核細(xì)胞。通常情況下,淋巴細(xì)胞約占70 – 90%,單核細(xì)胞約占10 – 30%,不同個體之間這些細(xì)胞群的比例可能存在差異。

圖1 DUBStepR流程圖
結(jié)果
1. 利用基因之間的相關(guān)性預(yù)測細(xì)胞類型特異性DE基因
DUBStepR的第一步是根據(jù)細(xì)胞類型特異性DE基因(標(biāo)記基因)的已知特征選擇一組初始候選特征。相同細(xì)胞類型的特異性DE基因往往是高度正相關(guān),而不同細(xì)胞類型的特異性DE基因可能是負(fù)相關(guān)的(圖2a,b)。相比之下,非DE基因之間可能只是弱相關(guān)性(圖2c)。因此研究人員假設(shè),由基因最強正相關(guān)系數(shù)和最強負(fù)相關(guān)系數(shù)之間的差異得出的相關(guān)范圍分?jǐn)?shù)在DE基因中會顯著升高。事實上,DE基因的相關(guān)范圍得分確實顯著高于非DE基因(圖2d)。
圖2 DE基因的表達(dá)相關(guān)性
2. 逐步回歸法(Stepwise regression)識別最小冗余特征子集
在基因-基因相關(guān)性(GGC)矩陣中可以觀察到大小不一的相關(guān)性模塊(圖3a),每個模塊可能代表著細(xì)胞中不同的差異表達(dá)模式。為了確保候選特征集中不同細(xì)胞類型的標(biāo)記更均勻的分布,通過在GGC矩陣中進(jìn)行回歸算法(圖3b-d),識別出最具有代表性的最小冗余子集(“seed”基因)。利用這種方法選擇具有不同細(xì)胞類型特異性標(biāo)記的seed基因(圖3e-h),然后通過逐步回歸樹狀圖的拐點來確定最佳步驟數(shù),也就是seed基因集的大小(圖3i,j)。
圖3 識別最小冗余特征子集的逐步回歸
3. 擴(kuò)展特征集(Guilt-by-association)
基于上述方法選擇的特征集雖然特征表現(xiàn)很顯著,但是每個特征相關(guān)的基因只有少數(shù)幾個基因(大多情況下是2-5個基因),這是遠(yuǎn)遠(yuǎn)不夠的。因此研究人員提出了通過Guilt-by-association的方法來擴(kuò)展特征集,直到DUBStepR達(dá)到特征基因的最佳數(shù)量。
4. 基準(zhǔn)測試
基準(zhǔn)測試是指通過設(shè)計合理的測試方法,選用合適的測試工具和被測系統(tǒng),實現(xiàn)對某個特定目標(biāo)場景的某項性能指標(biāo)進(jìn)行定量的和可對比的測試。本文研究人員為了測量和評估DUBStepR,將其與其余7種算法在scRNA-seq數(shù)據(jù)中進(jìn)行了比較。每種算法都用了7個數(shù)據(jù)集,涵蓋有4種不同的scRNA-seq:10x Genomics, Drop-Seq, CEL-Seq2和Smart-Seq on the Fluidigm C1。為了評估所選擇的特征的質(zhì)量,這里采用的評估指標(biāo)是SI(Silhouette index),該指數(shù)指的是屬于同一類的細(xì)胞之間的接近度相對于其他類群細(xì)胞的距離。可以發(fā)現(xiàn),DUBStepR在整個特征集選擇范圍內(nèi)明顯優(yōu)于其他所有方法(圖4a)。此外,DUBStepR在7個數(shù)據(jù)集中的使用,有5個都是在這些算法中排第一的(圖4b)。
為了優(yōu)化細(xì)胞類型聚類,特征選擇算法最好只選擇DE基因,即細(xì)胞類型或亞型特異性基因作為特征標(biāo)記。因此,研究人員量化了特征選擇算法區(qū)分DE和非DE基因的能力,引入了AUROC(ROC曲線下的面積)。圖4c中可以看到,DUBStepR在所有7個數(shù)據(jù)集上的AUROC值都超過了0.97,說明它能夠很好的區(qū)分DE和非DE基因。也就是說,DUBStepR大大提高了我們選擇細(xì)胞類型或亞型特異性基因(DE基因)來對scRNA-seq數(shù)據(jù)進(jìn)行聚類的能力。
此外,研究人員還對DUBStepR進(jìn)行了進(jìn)一步的優(yōu)化,以便能以較快的速度可以處理大型數(shù)據(jù)集。
圖4 特征選擇方法的基準(zhǔn)測試
5. 通過DI(Density index,密度指數(shù))預(yù)測最佳特征集
從圖4a中可以看出,選擇太少或者太多的特征基因都會導(dǎo)致聚類效果不佳。由于無法確定特征集的SI,所以本文研究人員定義了一個新的指標(biāo),這個指標(biāo)可以大致模擬SI,且無需知道細(xì)胞類型標(biāo)簽;這個指標(biāo)也就是密度指數(shù)(DI),即所有細(xì)胞對之間的均方根距離除以細(xì)胞與其k個臨近細(xì)胞之間的平均距離。
直觀地來說,當(dāng)細(xì)胞聚在一起時,它們之間的距離應(yīng)該最小,DI值應(yīng)該是最大的(圖5a,b)。可以發(fā)現(xiàn)DI和SI確實是呈現(xiàn)正相關(guān)性,并且在大致相同的特征集大小下趨向于達(dá)到它們的最大值(圖5c)。同時,對于7個基準(zhǔn)數(shù)據(jù)集中的5個,DI最高的特征集也最大化了SI(圖5d)。除此之外,DI還有一個優(yōu)點就是計算相對來說比較簡單。在默認(rèn)條件下,DUBStepR會選擇最大化DI的特征集大小。
圖5 密度指數(shù)
6. DUBStepR在類風(fēng)濕關(guān)節(jié)炎樣本中可靠地檢測出罕見細(xì)胞類型和隱匿的細(xì)胞狀態(tài)
前面的定量基準(zhǔn)分析主要基于對健康供體細(xì)胞細(xì)胞系或FACS純化細(xì)胞群中常見的細(xì)胞類型(>所有細(xì)胞的10%)的檢測。所以研究人員為了證明DUBStepR能夠在復(fù)雜的原始樣本中對細(xì)胞進(jìn)行聚類,這里加入了對四名類風(fēng)濕關(guān)節(jié)炎(RA)患者的8312個PBMC的scRNA-seq數(shù)據(jù)的分析。首先利用SingleR分離出T細(xì)胞和NK細(xì)胞群(5329細(xì)胞)(圖8),然后通過DUBStepR對這些細(xì)胞進(jìn)行聚類,進(jìn)一步識別出了10個具有顯著不同的基因表達(dá)特征的亞型(圖6a)。其中還包括了四個罕見的細(xì)胞群(圖6b)。總而言之,通過比較其他方法,DUBStepR是唯一一個可以可靠地檢測到淋巴細(xì)胞群中常見和罕見的細(xì)胞類型和亞型的方法。
圖6 類風(fēng)濕關(guān)節(jié)炎患者外周血淋巴細(xì)胞群分析
7. DUBStepR應(yīng)用于scATAC-seq數(shù)據(jù)
常用的特征選擇通常不適用于scATAC-seq數(shù)據(jù)上,但是特征相關(guān)性卻是適用的。研究人員進(jìn)一步將新的算法DUBStepR推廣應(yīng)用于人骨髓細(xì)胞的scATAC-seq數(shù)據(jù)上,結(jié)果發(fā)現(xiàn)DUBStepR的結(jié)果更清楚地揭示了造血干細(xì)胞的三大譜系的出現(xiàn):淋巴系、髓系和巨核/紅細(xì)胞系(圖7)。具體來說,使用Monocle 3分析得出的拓?fù)浣Y(jié)構(gòu)僅在DUBStepR中與已報道的造血分化層次匹配(圖7d-f)
圖7 已發(fā)表文獻(xiàn)中的scATAC-seq數(shù)據(jù)特征選擇的比較
圖8 SingleR scores熱圖
討論
DUBStepR是一種基于細(xì)胞類型特異性標(biāo)記基因往往彼此之間存在比較好的相關(guān)性的算法。隨著單細(xì)胞技術(shù)的飛速發(fā)展,使得可擴(kuò)展性成為新型單細(xì)胞算法的一個基本特征,而DUBStepR的擴(kuò)展范圍是比較大的,其中的主要因素是一旦構(gòu)建了基因-基因相關(guān)矩陣,下游步驟的時間和內(nèi)存復(fù)雜性相對于細(xì)胞數(shù)量是恒定的。本研究中定義了一個特征空間中細(xì)胞的不均勻性或“聚集性”的度量,也就是密度指數(shù)(DI)。DI的算法相對來說也更簡單。有趣的是,盡管DUBStepR不是專門設(shè)計用于檢測稀有細(xì)胞類型的,但是它的檢測效果要明顯優(yōu)于其他算法。最后,研究人員還推測DUBStep可能也可以用于scATAC-seq、scChIP-seq和單細(xì)胞甲基組測序等數(shù)據(jù)中。
本文所開發(fā)的算法已經(jīng)寫成了R包,源代碼也提供在了GitHub上可供我們獲取。此外,所采用的分析數(shù)據(jù)也是可以直接下載或申請,那我們何不趕緊動動手去用一下這新的算法呢?