21年2月的NBT,一篇題為“單細(xì)胞數(shù)據(jù)整合中的統(tǒng)計(jì)學(xué)原則和挑戰(zhàn)”的綜述,指出單細(xì)胞分析中,需要將不同類型的數(shù)據(jù)整合,這個(gè)過(guò)程包括單一組學(xué)批次效應(yīng)的校正,轉(zhuǎn)錄本和染色質(zhì)開(kāi)放性的關(guān)聯(lián),以及轉(zhuǎn)錄本上的基因變異關(guān)聯(lián)等。這些任務(wù)雖然目前依賴相近的統(tǒng)計(jì)學(xué)框架,但其目地和依賴的假設(shè)是不同的。

該綜述先將單細(xì)胞數(shù)據(jù)整合問(wèn)題的解法分成了三類,1)用基因特征為錨,進(jìn)行水平整合,例如對(duì)不同單細(xì)胞轉(zhuǎn)錄組芯片的數(shù)據(jù),按照其檢測(cè)的基因的交集進(jìn)行整合;2)以細(xì)胞為錨的垂直整合,例如將同一細(xì)胞的甲基化和轉(zhuǎn)錄組數(shù)據(jù)匯總后進(jìn)行整合;3)沒(méi)有特定的錨的數(shù)據(jù)整合,稱為對(duì)角線式的數(shù)據(jù)整合,例如一組細(xì)胞測(cè)了轉(zhuǎn)錄組,一組細(xì)胞測(cè)了scATAC-seq,現(xiàn)今需要將這兩組數(shù)據(jù)整合。圖一依次展示了三種數(shù)據(jù)整合的方式。

圖一:三種單細(xì)胞數(shù)據(jù)整合模式示意圖
以下是常見(jiàn)的三種數(shù)據(jù)整合的方法列表

水平整合常應(yīng)用于多個(gè)批次的轉(zhuǎn)錄組數(shù)據(jù)中,來(lái)自不同測(cè)序技術(shù)的數(shù)據(jù),如果沒(méi)有經(jīng)過(guò)批次效應(yīng)校正,那么會(huì)掩蓋其中的生物學(xué)聯(lián)系,并干擾后續(xù)的分析。隨著諸如 Human Cell Atlas這樣大規(guī)模的細(xì)胞轉(zhuǎn)錄參考集的成熟,單細(xì)胞轉(zhuǎn)錄組的數(shù)據(jù)分析,需要考慮先將私有數(shù)據(jù)于公開(kāi)參考集整合。
適用于bulk RNA數(shù)據(jù)的線性批次校正,例如limma和ComBat會(huì)不適合細(xì)胞類型差異巨大,因此分布不同的單細(xì)胞數(shù)據(jù)。上表列出的方法,是目前主流的整合方法。這些方法雖然基于的數(shù)學(xué)模型不同,但其面臨幾個(gè)共同的問(wèn)題,首先是overcorrection,即非線性的方法會(huì)強(qiáng)制性合并本不是來(lái)自同一細(xì)胞亞型的數(shù)據(jù)。其次,是大部分批次校正的方法,依賴于將原數(shù)據(jù)映射到隱空間,這會(huì)增加算法應(yīng)對(duì)數(shù)據(jù)噪音的能力,但映射后的數(shù)據(jù),在進(jìn)行下游基因表達(dá)量分析時(shí)會(huì)有問(wèn)題。三是當(dāng)不同來(lái)源的樣本,包含不同生物特征的數(shù)據(jù),例如來(lái)自細(xì)胞發(fā)育的不同階段時(shí),區(qū)分批次效應(yīng)和有生物學(xué)意義的區(qū)分在統(tǒng)計(jì)上就是困難的。
水平的數(shù)據(jù)整合,又可細(xì)分為全局和局部的,局部的整合,試圖找出數(shù)據(jù)間的相關(guān)性,例如DNA上的突變位點(diǎn)和轉(zhuǎn)錄組的關(guān)系(eQTL),大部分使用回歸,其難點(diǎn)在于區(qū)分虛假的和真實(shí)的關(guān)聯(lián)。如圖二所示,不同人有不同的基因突變,而通過(guò)數(shù)據(jù)整合,能夠找出不同細(xì)胞類型中,特有的會(huì)影響表達(dá)量的基因突變位點(diǎn)。

圖二:細(xì)胞特異性eQTL和轉(zhuǎn)錄組數(shù)據(jù)整合示意圖
除了和變異數(shù)據(jù)關(guān)聯(lián),其它類型的數(shù)據(jù),例如promoter區(qū)域的甲基化數(shù)據(jù),或者染色質(zhì)開(kāi)放數(shù)據(jù),也可以使用類似的方式,去和轉(zhuǎn)錄數(shù)據(jù)進(jìn)行關(guān)聯(lián)的。
而全局的整合,則試圖找出找出細(xì)胞在不同技術(shù)中表現(xiàn)出的整體特征,例如細(xì)胞的所處的階段和其多能性(pluripotency)狀態(tài)。通常的方法是非監(jiān)督的聚類,以求找到基因特征間共有的模式,從而指出多種類型的數(shù)據(jù),其實(shí)都在描述諸如細(xì)胞發(fā)育的不同階段這同一生物過(guò)程。該類方法面對(duì)的共同困難,首先是數(shù)據(jù)的異質(zhì)性高,其次是不同來(lái)源的數(shù)據(jù)的特征數(shù)不均一,三是難以對(duì)不同方法給出的解的質(zhì)量進(jìn)行評(píng)價(jià)。
第三類對(duì)角線的數(shù)據(jù)整合,更為困難,從中得出的生物學(xué)洞見(jiàn),也更難被驗(yàn)證及解釋。該類方法假設(shè)存在一個(gè)低維的流形,能夠在多種來(lái)源的數(shù)據(jù)集中抓住不同來(lái)源數(shù)據(jù)間的關(guān)聯(lián)。不少對(duì)角線型的數(shù)據(jù)整合,其實(shí)際是將問(wèn)題轉(zhuǎn)換為水平或垂直的數(shù)據(jù)整合,然而這種策略依賴的生物學(xué)假設(shè)是脆弱的。另外的方法則依賴于生物學(xué)差異可以被低維表示,從而可以將多來(lái)源的數(shù)據(jù)映射到一個(gè)共同的隱空間,來(lái)進(jìn)行數(shù)據(jù)整合。
在計(jì)算機(jī)視覺(jué)和自然語(yǔ)音處理中,遷移學(xué)習(xí)對(duì)這兩個(gè)領(lǐng)域的進(jìn)步,都發(fā)揮了重要的貢獻(xiàn)。使用遷移學(xué)習(xí)進(jìn)行單細(xì)胞的數(shù)據(jù)整合,將不需要進(jìn)行聚類及細(xì)胞注釋,而是與參考數(shù)據(jù)集一起生成聯(lián)合嵌入,從而將參考集中的數(shù)據(jù)標(biāo)簽,轉(zhuǎn)移到私有數(shù)據(jù)集上。不同于之前提到的數(shù)據(jù)整合方法,該方法不是將不同的實(shí)驗(yàn)看成是獨(dú)立的,而是假設(shè)數(shù)據(jù)集間存在層級(jí)關(guān)系,從而可依賴已有數(shù)據(jù),去推測(cè)新數(shù)據(jù)集的情況。該方法已廣泛應(yīng)用于數(shù)據(jù)降噪,細(xì)胞類型分類及構(gòu)造私有及公有數(shù)據(jù)集的共享數(shù)據(jù)嵌入上。

圖三:空間轉(zhuǎn)錄組中的數(shù)據(jù)整合
對(duì)于空間轉(zhuǎn)錄組,數(shù)據(jù)整合的任務(wù),可分為水平和垂直兩種,前者是將同一組織的不同切片的空間轉(zhuǎn)錄數(shù)據(jù),按照基因?qū)ζ洌东@率低及數(shù)據(jù)中包含的噪音,例如SpiceMix可以使用空間信息,并推測(cè)出細(xì)胞類型,最終找出空間上差異的基因(左圖),而圖三圖三右圖則描述了通過(guò)諸如SpatialDE這樣的方法,從空間轉(zhuǎn)錄組中呈現(xiàn)和不呈現(xiàn)線性的表達(dá)量模式的基因區(qū)分開(kāi)。
單細(xì)胞的數(shù)據(jù)整合,還可以應(yīng)用于精準(zhǔn)醫(yī)學(xué)。例如基于公開(kāi)數(shù)據(jù)集,查詢新檢測(cè)的樣本,是否患病,處于癌癥的那個(gè)階段,然而這樣的查詢?nèi)蝿?wù),不同于之間基礎(chǔ)科研中的數(shù)據(jù)整合。其考察的是細(xì)胞的組成如何與疾病的發(fā)展產(chǎn)生關(guān)聯(lián),其最終目的是在單細(xì)胞的層面,了解疾病的發(fā)生和演進(jìn)的規(guī)律,從而允許以個(gè)性化的方式進(jìn)行干預(yù)。
醫(yī)療應(yīng)用將問(wèn)題看成是有監(jiān)督的分類問(wèn)題。如圖四所示,其中先根據(jù)手工標(biāo)記的數(shù)據(jù)集,測(cè)出不同人群的免疫細(xì)胞的單細(xì)胞圖譜(圖中的每個(gè)點(diǎn)代表一個(gè)人),之后根據(jù)受檢者的單細(xì)胞轉(zhuǎn)錄數(shù)據(jù),判定其細(xì)胞組成和參考序列中的那一個(gè)更相似,從而判定受試者是否健康,是否處于疾病前期(橙色)或患某種疾病。

圖四:使用單細(xì)胞數(shù)據(jù)進(jìn)行疾病預(yù)測(cè)