在线亚洲色图,亚洲欧美日韩国产一区,成人福利在线看

自然機器智能最新：單細胞海量數據整合工具-INSCT

生信干貨 Peter ·2021年7月12日 05:41

單細胞海量數據整合工具-INSCT

自然機器智能6月的論文“使用三元神經網絡(triplet neural networks TNN)，整合百萬級單細胞多批次數據”，提出了一種能夠在個人電腦上運行的工具INSCT，其可在1.5小時內，使用25G內存，整合來自不同測序平臺，不是實驗技術甚至不同物種的260萬單細胞轉錄本數據。INSCT基于python語言，可與常用的分析包Scanpy無縫銜接。

關鍵詞神經網絡批次效應校正單細胞轉錄組

INSCT 的算法框架

在單細胞數據整合中，可以特定細胞類型的數據為錨點，進行垂直整合。下圖中同一細胞類型，由兩種不同的平臺測出的數據顏色相同，不同批次的數據形狀不同。INSCT構建一個三元組，通過抽樣，生成包含錨點數據，與錨點數據細胞類型相同，批次不同的正向數據，以及于錨點數據批次相同，細胞類型不同的負向數據，通過分別對三類數據進行主成分降維，對各自的PC通過神經網絡，獲取更低維度的嵌入。

之后最大化anchor和negative樣本之間的距離，同時最小化anchor和positive樣本間的距離（距離使用KNN和最大互近鄰兩種方式定義），以兩者之和為損失函數，訓練一個能夠識別批次效應的神經網絡（用于從各自類型PC得出嵌入）的權重。最后利用訓練好的神經網絡，對新數據求出最終的整合后的低維嵌入，完成數據整合。

圖1 INSCT的算法框架

2）INSCT 進行數據整合的效果

在模擬數據中，包含來自三個批次的數據，其中如果不通過校正，聚類的結果為12類，而經過INSCT校正后，只包含4類，每類對應不同細胞，圖2 b中紅色的細胞，只在某一批次中出現，其也能夠通過INSCT區分開，這說明了該方法能夠整合多個測序平臺中獨立出現的細胞類型。

圖2 模擬數據下和之前的批次效應校正方法 IVIS對比

在真實數據，包含4.9萬和5.6萬的小鼠20個器官的單細胞數據中，如果不進行數據整合，進行聚類的結果如圖3 的a和b所示，其中不同細胞類型的數據聚在了一起，而經過了INSCT整合，其各自平臺的數據，進行聚類后的結果的結果如圖3 c，d和e所示，其不同細胞類型能顯著區分開，且不同平臺的數據在聚類圖上的結構是相似的。

圖3：INSCT整合來自不同平臺的數據

對比其它數據整合方法對同樣的數據集進行整合后聚類的效果（圖4），并結合圖f使用KNN算法基于聚類結果預測細胞類型得出的準確率，可以看到TNN（即INSCT）其準確性高，且運行時間短（圖g）。

圖4：其它工具整合小鼠20個組織的來自兩個平臺的數據聚類結果

在另一個人類胰腺的，四個不同來源的數據集中，對比多種數據整合方法的結果如圖5所示，可見INSCT在聚類上，能分清不同細胞類型，其KNN的聚類結果也是準確性很高的。多數據集的結果，證明了該方法的魯棒性。

圖5：人類胰腺數據整合，現有方法和TNN對比

單細胞數據整合的應用，還在于整合不同物種對的數據，結果是不同的細胞類型能夠聚類后分成獨立的一簇。下圖將小鼠和人類的數據使用INSCT整合后，進行了聚類，并指出細胞類型對應的標志基因，在不同物種數據的聚類中，呈現相似的分布（圖5 d）,而根據小鼠細胞類型預測人類數據的細胞類型，其準確度也很高（圖e所示）

圖6：不同物種的數據整合效果展示

為說明INSCT在海量數據集上的表現，該文進行了目前規模最大的單細胞轉錄組數據整合實驗，對四個數據集，總計260萬個細胞的數據進行整合，其結果在四個平臺上都是相互有重合的，且對區分細胞類型的標志基因，也能有在四個平臺之間是有重合的，這都證明了該方法對多個數據集進行了整合（圖7 B）。將表達異質性最高的神經元細胞單獨拿出來看，其結果也在多平臺的嵌入可視化中呈現相近的形狀（圖7 c），論證了該方法對表達量異質性高的數據也使用。

圖7：大數據集260萬小鼠腦細胞數據集的整合

比較不同大小的數據集整合所需的時間，可以看到在海量數據集上，TNN即INSCT的耗時最短，在百萬細胞時，其耗時是次長的Harmony的一半。這說明該方法可能用于未來更大量數據的整合，

圖8：不同細胞數運行時間對比

3）INSCT用于半監督的自動細胞標注

之前的分析，假設細胞類型是未知的，而INSCT可以在知道全部數據的細胞類型注釋（有監督學習），或將無數據的標簽整合到有標簽的參考集中（半監督學習），在引入細胞類型注釋后，其聚類的準確性（Silhouette指數評價），相比無監督學習時有顯著提升。在半監督學習時，同一類型的細胞聚類后分散明顯，不同來源的數據會聚在同一簇（圖9b），半監督學習下，可以避免手動對細胞類型進行標注，圖c展示了該方法進行自動化細胞類型標注的準確性。

圖9：半監督細胞類型分類

該方法還能夠檢測出手動數據標注時的錯誤，在模擬數據中，假設紅色點的細胞被錯誤標記為綠色，經過INSCT整合，其會被標記為全新的一類（紫色），由此可指出潛在的錯誤標記數據，見圖10.

圖10：使用INSCT檢測被錯誤標記的數據

4）總結

隨著細胞圖譜的數量和密度的增加，越來越多的研究人員將其私有的 scRNA-seq 數據投影到這些帶注釋的參考集中，并通過對未標記的原始數據進行穩健的集成和分類，這使得數據整合會變成單細胞分析中不可獲取的一步。

INSCT是一個高效的基于深度學習的單細胞數據整合工，其能取得和當前單細胞數據整合工具相同甚至更好的效果，但所需時間更短，其還可以使用下取樣策略進一步減少運行時間

通過訓練網絡上的一個細胞子集，然后投射到剩余的細胞到嵌入空間。

雖然我們只對 scRNA-seq 數據應用 INSCT，但原則上該方法是可以應用的，未來可測試將 INSCT的應用擴展到其他數據類型，例如甲基化或蛋白組數據。同時，該方法也原則上可以適用于空間轉錄組的數據整合。

該論文中的分析都基于Google Colab，軟件包見https://github.com/lkmklsmn/insct，可由pip進行安裝。

Ref

https://www.nature.com/articles/s42256-021-00361-8

https://www.biorxiv.org/content/10.1101/2020.05.16.100024v1.full.pdf

欧美日本成人_亚洲一区二区日本_国产污视频在线观看_先锋影视av_99视频+国产日韩欧美_黄页视频在线免费观看_天海翼av在线播放_在线视频精品免费_黄色一级片免费在线观看_国内精品久久久久久久_av动漫网站_日本a级大片