單細胞海量數據整合工具-INSCT
自然機器智能6月的論文“使用三元神經網絡(triplet neural networks TNN),整合百萬級單細胞多批次數據”,提出了一種能夠在個人電腦上運行的工具INSCT,其可在1.5小時內,使用25G內存,整合來自不同測序平臺,不是實驗技術甚至不同物種的260萬單細胞轉錄本數據。INSCT基于python語言,可與常用的分析包Scanpy無縫銜接。
關鍵詞 神經網絡 批次效應校正 單細胞轉錄組
INSCT 的算法框架
在單細胞數據整合中,可以特定細胞類型的數據為錨點,進行垂直整合。下圖中同一細胞類型,由兩種不同的平臺測出的數據顏色相同,不同批次的數據形狀不同。INSCT構建一個三元組,通過抽樣,生成包含錨點數據,與錨點數據細胞類型相同,批次不同的正向數據,以及于錨點數據批次相同,細胞類型不同的負向數據,通過分別對三類數據進行主成分降維,對各自的PC通過神經網絡,獲取更低維度的嵌入。
之后最大化anchor和negative樣本之間的距離,同時最小化anchor和positive樣本間的距離(距離使用KNN和最大互近鄰兩種方式定義),以兩者之和為損失函數,訓練一個能夠識別批次效應的神經網絡(用于從各自類型PC得出嵌入)的權重。最后利用訓練好的神經網絡,對新數據求出最終的整合后的低維嵌入,完成數據整合。

圖1 INSCT的算法框架
2)INSCT 進行數據整合的效果
在模擬數據中,包含來自三個批次的數據,其中如果不通過校正,聚類的結果為12類,而經過INSCT校正后,只包含4類,每類對應不同細胞,圖2 b中紅色的細胞,只在某一批次中出現,其也能夠通過INSCT區分開,這說明了該方法能夠整合多個測序平臺中獨立出現的細胞類型。

圖2 模擬數據下和之前的批次效應校正方法 IVIS對比
在真實數據,包含4.9萬和5.6萬的小鼠20個器官的單細胞數據中,如果不進行數據整合,進行聚類的結果如圖3 的a和b所示,其中不同細胞類型的數據聚在了一起,而經過了INSCT整合,其各自平臺的數據,進行聚類后的結果的結果如圖3 c,d和e所示,其不同細胞類型能顯著區分開,且不同平臺的數據在聚類圖上的結構是相似的。

圖3:INSCT整合來自不同平臺的數據
對比其它數據整合方法對同樣的數據集進行整合后聚類的效果(圖4),并結合圖f使用KNN算法基于聚類結果預測細胞類型得出的準確率,可以看到TNN(即INSCT)其準確性高,且運行時間短(圖g)。

圖4:其它工具整合小鼠20個組織的來自兩個平臺的數據聚類結果
在另一個人類胰腺的,四個不同來源的數據集中,對比多種數據整合方法的結果如圖5所示,可見INSCT在聚類上,能分清不同細胞類型,其KNN的聚類結果也是準確性很高的。多數據集的結果,證明了該方法的魯棒性。

圖5:人類胰腺數據整合,現有方法和TNN對比
單細胞數據整合的應用,還在于整合不同物種對的數據,結果是不同的細胞類型能夠聚類后分成獨立的一簇。下圖將小鼠和人類的數據使用INSCT整合后,進行了聚類,并指出細胞類型對應的標志基因,在不同物種數據的聚類中,呈現相似的分布(圖5 d),而根據小鼠細胞類型預測人類數據的細胞類型,其準確度也很高(圖e所示)

圖6:不同物種的數據整合效果展示
為說明INSCT在海量數據集上的表現,該文進行了目前規模最大的單細胞轉錄組數據整合實驗,對四個數據集,總計260萬個細胞的數據進行整合,其結果在四個平臺上都是相互有重合的,且對區分細胞類型的標志基因,也能有在四個平臺之間是有重合的,這都證明了該方法對多個數據集進行了整合(圖7 B)。將表達異質性最高的神經元細胞單獨拿出來看,其結果也在多平臺的嵌入可視化中呈現相近的形狀(圖7 c),論證了該方法對表達量異質性高的數據也使用。

圖7:大數據集260萬小鼠腦細胞數據集的整合
比較不同大小的數據集整合所需的時間,可以看到在海量數據集上,TNN即INSCT的耗時最短,在百萬細胞時,其耗時是次長的Harmony的一半。這說明該方法可能用于未來更大量數據的整合,

圖8:不同細胞數運行時間對比
3)INSCT用于半監督的自動細胞標注
之前的分析,假設細胞類型是未知的,而INSCT可以在知道全部數據的細胞類型注釋(有監督學習),或將無數據的標簽整合到有標簽的參考集中(半監督學習),在引入細胞類型注釋后,其聚類的準確性(Silhouette指數評價),相比無監督學習時有顯著提升。在半監督學習時,同一類型的細胞聚類后分散明顯,不同來源的數據會聚在同一簇(圖9b),半監督學習下,可以避免手動對細胞類型進行標注,圖c展示了該方法進行自動化細胞類型標注的準確性。

圖9:半監督細胞類型分類
該方法還能夠檢測出手動數據標注時的錯誤,在模擬數據中,假設紅色點的細胞被錯誤標記為綠色,經過INSCT整合,其會被標記為全新的一類(紫色),由此可指出潛在的錯誤標記數據,見圖10.

圖10:使用INSCT檢測被錯誤標記的數據
4)總結
隨著細胞圖譜的數量和密度的增加,越來越多的研究人員將其私有的 scRNA-seq 數據投影到這些帶注釋的參考集中,并通過對未標記的原始數據進行穩健的集成和分類,這使得數據整合會變成單細胞分析中不可獲取的一步。
INSCT是一個高效的基于深度學習的單細胞數據整合工,其能取得和當前單細胞數據整合工具相同甚至更好的效果,但所需時間更短,其還可以使用下取樣策略進一步減少運行時間
通過訓練網絡上的一個細胞子集,然后投射到剩余的細胞到嵌入空間。
雖然我們只對 scRNA-seq 數據應用 INSCT,但原則上該方法是可以應用的,未來可測試將 INSCT的應用擴展到其他數據類型,例如甲基化或蛋白組數據。同時,該方法也原則上可以適用于空間轉錄組的數據整合。
該論文中的分析都基于Google Colab,軟件包見https://github.com/lkmklsmn/insct,可由pip進行安裝。
Ref
https://www.nature.com/articles/s42256-021-00361-8
https://www.biorxiv.org/content/10.1101/2020.05.16.100024v1.full.pdf