空間轉(zhuǎn)錄組的一大生物學(xué)貢獻(xiàn),就在于其能夠識(shí)別出不同細(xì)胞類(lèi)型,在不同的細(xì)胞環(huán)境及細(xì)胞狀態(tài)下的空間組成。然而,由于空間轉(zhuǎn)錄組的數(shù)據(jù),其樣本來(lái)源并非單一的細(xì)胞類(lèi)型,且在樣本構(gòu)建時(shí),不同細(xì)胞中的RNA會(huì)出現(xiàn)擴(kuò)散,從而導(dǎo)致了轉(zhuǎn)錄組中一個(gè)像素包含來(lái)自多個(gè)細(xì)胞的RNA,因此,使用單細(xì)胞轉(zhuǎn)錄組中常用的細(xì)胞類(lèi)型判別方法(非監(jiān)督聚類(lèi)),就會(huì)錯(cuò)誤的判別那些在空間上距離較近,但在轉(zhuǎn)錄上并不相似的細(xì)胞(距離A類(lèi)細(xì)胞的RNA擴(kuò)散到了臨近的B類(lèi)細(xì)胞上,使得B類(lèi)細(xì)胞被錯(cuò)誤識(shí)別)。

Slide-seq得出的小鼠腦干中細(xì)胞類(lèi)型為Granule細(xì)胞標(biāo)志基因的read數(shù)(b)及被錯(cuò)誤標(biāo)記為Granule細(xì)胞的位點(diǎn)(c),錯(cuò)誤標(biāo)記的原因是該區(qū)域可能包含多種細(xì)胞類(lèi)型
另一類(lèi)細(xì)胞類(lèi)型識(shí)別的方法,是有監(jiān)督的聚類(lèi),該類(lèi)方法會(huì)受到平臺(tái)差異的影響,在某一種平臺(tái)上訓(xùn)練得出的模型,在訓(xùn)練集中表現(xiàn)顯著優(yōu)于另一平臺(tái),例如基于單細(xì)胞核轉(zhuǎn)錄組(sn-RNA)得出的數(shù)據(jù),其在sc-RNA上的表現(xiàn)就很差,這使得該類(lèi)方法缺少可擴(kuò)展性。

左圖sn-RNA數(shù)據(jù)訓(xùn)練的細(xì)胞類(lèi)型分類(lèi)算法的混淆矩陣熱圖,右圖是該模型在sc-RNA數(shù)據(jù)上的混淆矩陣,可見(jiàn)其差距明顯
而新提出的RCTD(魯棒的細(xì)胞類(lèi)型分解),其使用同一組織和物種單細(xì)胞轉(zhuǎn)錄數(shù)據(jù)集作為參考,對(duì)輸入的空間轉(zhuǎn)錄數(shù)據(jù),通過(guò)最大似然估計(jì),判定其每一點(diǎn)中包含了那一個(gè)或多個(gè)細(xì)胞類(lèi)型(兩種不同的模式),同時(shí)確定每種細(xì)胞類(lèi)型的比例。

RCTD的輸入輸出示意圖
使用單細(xì)胞數(shù)據(jù),可以按照不同的比例,模擬一個(gè)像素點(diǎn)包含多個(gè)細(xì)胞類(lèi)型的空間組數(shù)據(jù),之后在sn-RNA數(shù)據(jù)做訓(xùn)練集,sc-RNA數(shù)據(jù)做測(cè)試集,通過(guò)RCTD對(duì)其進(jìn)行判別,其相關(guān)系數(shù)r2達(dá)到了0.9,其混淆矩陣如下,說(shuō)明該方法的魯棒性,在一類(lèi)數(shù)據(jù)集中訓(xùn)練后的模型,適用于另一類(lèi)數(shù)據(jù)集。

RCTD在小鼠腦干模擬數(shù)據(jù)中,采用每個(gè)像素單個(gè)細(xì)胞模式預(yù)測(cè)得出的混淆矩陣
當(dāng)模擬數(shù)據(jù)中,一個(gè)像素點(diǎn)中的細(xì)胞類(lèi)型,包含兩種時(shí),可使用RCTD中的doublet模式,讓算法識(shí)別出兩種而不只是一種類(lèi)型,下圖是不同比例的組合下,95%的置信空間下,正確識(shí)別的比例,可見(jiàn)兩種細(xì)胞混的越均勻,識(shí)別正確的概率越大,最高達(dá)到81.1%,而錯(cuò)誤識(shí)別的部分,87%是由于兩種轉(zhuǎn)錄上相近的細(xì)胞,被錯(cuò)誤的識(shí)別為只包含單一細(xì)胞類(lèi)型。

不同比例的細(xì)胞類(lèi)型下,doublet模式下的分類(lèi)準(zhǔn)確度
對(duì)于包含3-4種細(xì)胞類(lèi)型的情況(分辨率較低的空間轉(zhuǎn)錄數(shù)據(jù)),或者每個(gè)像素平均包含超過(guò)100條UMI的空間轉(zhuǎn)錄數(shù)據(jù)(分辨率高),該方法都適用。以上說(shuō)明了RCTD可以應(yīng)對(duì)包含多種情況的空間轉(zhuǎn)錄數(shù)據(jù)。
之后在真實(shí)的小鼠小腦的slide-seq數(shù)據(jù)上,使用RCTD,以sn-RNA數(shù)據(jù)為參考集,進(jìn)行細(xì)胞類(lèi)型標(biāo)記,判定其中86.9%的細(xì)胞被成功標(biāo)記。

小鼠腦干被標(biāo)記的細(xì)胞類(lèi)型可視化
由于空間轉(zhuǎn)錄組上對(duì)應(yīng)的細(xì)胞類(lèi)型,沒(méi)有確定的金標(biāo)準(zhǔn),因此其準(zhǔn)確性驗(yàn)證,是通過(guò)多種方法間接完成的,首先是在單個(gè)和兩個(gè)細(xì)胞模式下,判斷的細(xì)胞類(lèi)型和其標(biāo)志基因表達(dá)量的關(guān)系,下圖說(shuō)明了無(wú)論在那種模式下,預(yù)測(cè)出的細(xì)胞類(lèi)型其在對(duì)應(yīng)的標(biāo)志基因上高表達(dá)。

在單個(gè)細(xì)胞或兩種細(xì)胞模式下,被標(biāo)記的細(xì)胞對(duì)應(yīng)的標(biāo)志基因表達(dá)量的散點(diǎn)圖
在識(shí)別兩種細(xì)胞的模式下,RCTD的表現(xiàn),符合已有生物學(xué)知識(shí)對(duì)小鼠小腦層次的劃分,最外層為Oligodendrocyte細(xì)胞,之后為Granular層,最內(nèi)部為Molecular層,其中標(biāo)志基因的密度,和被標(biāo)記后的細(xì)胞權(quán)重是能一一對(duì)應(yīng)的,這都說(shuō)明了RCTD的準(zhǔn)確性。

兩細(xì)胞類(lèi)型模式下,RCTD識(shí)別出細(xì)胞類(lèi)型權(quán)重(右圖)和標(biāo)志基因的UMI數(shù)量(左圖)
RCTD還能識(shí)別細(xì)胞亞型,在小鼠海馬體分辨率為250um的slide-seq數(shù)據(jù)中(在Visuim數(shù)據(jù)中也可以識(shí)別出),其可以識(shí)別出已知的27中神經(jīng)元間細(xì)胞中的25類(lèi),如下圖所示:

RCTD識(shí)別出的小鼠海馬體中的細(xì)胞亞型
之前檢測(cè)空間表達(dá)上有差異基因的方法,是沒(méi)有考慮細(xì)胞類(lèi)型這一信息的。由于不同類(lèi)型的細(xì)胞在空間上的表達(dá)并不均勻,且其間存在著差異,容易出現(xiàn)將細(xì)胞類(lèi)型對(duì)應(yīng)的marker基因錯(cuò)判為空間表達(dá)有差異的基因。如下圖找到的空間上自我相關(guān)系數(shù)(autocorrelation)大的基因,如果不考慮細(xì)胞類(lèi)型,會(huì)顯著大于隨機(jī)選取的基因,這意味著這些基因在空間上的表達(dá),有更高的相似性,而說(shuō)明基因表達(dá)的空間差異在很大程度上是受少數(shù)類(lèi)型的細(xì)胞影響的。

忽略細(xì)胞類(lèi)型找到的空間表達(dá)差異基因的自相關(guān)系數(shù)的箱線圖
而RCTD會(huì)在考慮了細(xì)胞類(lèi)型后,去識(shí)別出剩余的空間表達(dá)差異其識(shí)別出AC3類(lèi)型的細(xì)胞內(nèi)部的空間差異表達(dá)基因,其自相關(guān)系數(shù)的箱線圖顯著高于忽略細(xì)胞類(lèi)型時(shí)的情況,這說(shuō)明了該方法可識(shí)別特定類(lèi)型細(xì)胞內(nèi)部,,排除了細(xì)胞類(lèi)型影響后幅度較小的,但在空間上存在差異表達(dá)的基因。

在AC3細(xì)胞內(nèi)部,忽略或不忽略細(xì)胞類(lèi)型,找到的空間表達(dá)差異基因的自相關(guān)系數(shù)箱線圖

RCTD識(shí)別出在興奮性神經(jīng)元中,Ptk2b基因只會(huì)在該類(lèi)細(xì)胞株存在空間差異表達(dá),在其它類(lèi)型的細(xì)胞中不會(huì)呈現(xiàn)該模式,這指出RCTD可以識(shí)別不僅僅由細(xì)胞類(lèi)型解釋?zhuān)怯杉?xì)胞環(huán)境促成的空間表達(dá)差異。
總結(jié):
該文提出的RCTD,可以使用于多種單細(xì)胞及空間轉(zhuǎn)錄測(cè)序平臺(tái),利用已有的參考數(shù)據(jù),得出細(xì)胞類(lèi)型標(biāo)記。雖然該方法最初是為了空間轉(zhuǎn)錄開(kāi)發(fā)的,但其也可以用于bulk轉(zhuǎn)錄組中細(xì)胞類(lèi)型及組合比例的判定上。RCTD基于R語(yǔ)言,其開(kāi)源包可在https://github.com/dmcable/RCTD下載。
RCTD依賴的假設(shè)是,對(duì)于不同的細(xì)胞類(lèi)型,其平臺(tái)差異是相等的,但這一假設(shè)并不一定成立。另外,該方法在空間轉(zhuǎn)錄數(shù)據(jù)包含單細(xì)胞參考集中不存在的細(xì)胞類(lèi)型時(shí),會(huì)遇到問(wèn)題,解決方案是選擇那些已知特定細(xì)胞類(lèi)型的區(qū)域進(jìn)行分析。