導讀:8月30日的NBT,介紹了基于深度遷移學習的單細胞轉錄組映射工具scArches,該方法能去除新樣本和參考集之間的批次效應,可以在多模態(multimodal )參考集中進行映射,并對缺失模塊進行補全。將新冠感染的細胞的轉錄組映射到健康細胞構成的參考集上,scArches可以找出和疾病有關的細胞狀態,還能通過分享由新參考集訓練的模型,在不公開原始數據的前提下,允許外部用戶通過參考數據集進行細胞類型注釋和映射。
諸如人類細胞圖譜計劃(Human Cell Atlas)這樣的參考集,改變單細胞轉錄組的套路。經由將新的數據映射到參考集中,可以對比由于個體差異,衰老,環境和疾病等因素造成的細胞間異質性。經由參考集,可以對新數據進行自動化注釋,對不同組織,物種及疾病與否進行對比。
然而參考集通常來自多個實驗室,包含多種測序技術,之前的方法,是在訪問所有數據集(包括新產生的和參考集中的),對數據構建整合后的嵌入,由此去除批次效應。除了消耗的資源多,這樣的方法還需要假設細胞的狀態是相同的,去除只是測序帶來的影響。但實際情況中,該假設通常是不滿足的。
遷移學習在圖像及自然語言處理上,都有廣泛的應用,例如ImageNet和BERT。在單細胞轉錄組中,遷移學習也被用于數據降噪,差異分解,細胞類型分類等任務。對于scArches,其訓練過程是將來自不同研究的單細胞數據,以及其對應的標簽(例如測序平臺,批次號,樣本的生物狀態等),通過條件多層自編碼器(conditional auto encoder)進行降維。

預先訓練scArches的過程
之后用戶可以從模型倉庫中下載訓練好的模型中的參數,加入新的數據集標簽后,重新訓練,得到新的模型,用戶可以選擇是否將訓練好的模型上傳數據倉庫,更新模型。其中新數據帶來的神經網絡中的連接,被稱為適配器,在更新模型時,只需要針對適配器進行更新。

分布式訓練scArches模型的過程
下圖展示了分布式訓練的過程,下圖是參考數據集,上圖中被圈出的數據,被逐步加入了模型,其對應的是下圖被圈出的藍色部分。通過UMAP聚類,可以看到新加入的數據,都是和之前的數據集能夠分開的。

將兩項研究連續整合到包含三項研究的胰腺參考圖譜的-可視化過程

scArche實現快速準確的參考映射
scArche是一個通用的框架,可以使用之前提出的不同數據整合模型,例如scVI,trVAE等,其中scArches-trVAE與其他方法相比更具有競爭力。上圖展示了應用于大腦圖譜時,不同顆粒度下的數據展示模式,可以看出其即使只用耗時最小的查詢層,其結果也和使用全部層是相近的,這說明使用權重來整合新的查詢數據集,可以在最佳的時間和整合性能進行手動地權衡,在整合不同批次的同時保持不同細胞類型之間的差異。

根據10849個CITE-seq數據作為參考集,可以對10315個RNA-seq的數據集進行整合,其細胞類型的判定,都是正確的,這說明scArches 支持從參考到查詢的知識遷移,與SVM rejection, Seurat version 3和邏輯回歸分類器等目前最先進的方法相比,基于scArches的標簽投影效果最好。

在新冠感染細胞映射參考基因集后,可保留COVID-19細胞狀態。
在疾病研究中,與健康參考數據的關聯性是至關重要的。一個成功的疾病到健康的數據整合應該滿足三個標準。(1)保留健康細胞狀態的生物變異;(2)整合健康參考和疾病查詢之間的匹配細胞類型;(3)保留獨特的疾病變異,如在健康參考建立過程中未見的新細胞類型的出現。在測試中,scArches聯合嵌入以細微的生物變異為主,雖然參考數據中沒有標記疾病狀態,但scArches將這些狀態與健康參考數據分開,甚至保留了生物變異模式。因此,用scArches進行的疾病到健康的整合符合成功整合的所有三個標準。
總結,scArche是使用遷移學習和參數優化來實現高效、分散、迭代的單細胞轉錄組參考圖譜構建,及新數據集與現有參考圖譜的關聯的工具。可被應用于生成特定背景的大規模疾病圖譜。通過疾病參考資料之間的映射,可以在單細胞水平上評估這些疾病的相似性,從而為尋找機制、恢復疾病狀態或研究擾動提供信息,例如用于藥物再利用。之后的研究,可將scArches應用于組裝多模式的單細胞參考圖譜,以包括表觀基因組、染色體構象、蛋白質組和空間組學。
scArches可以在以下網址獲取 :https://github.com/theislab/scarches
復現結果的代碼可在如下網址獲取:https://github.com/theislab/scarches-reproducibility