CellCall:整合配對配體-受體和轉錄因子活性以進行細胞間通訊
大家好,在火熱的八月,小編迫不及待給大家分享一個超好用的工具,它是今年7月31號發表在Nucleic Acids Res[IF=16.971]期刊上的一篇文章。隨著scRNA-seq技術的快速發展,細胞間通訊的相關研究成為了當下的研究熱點。目前已有的方法都存在著明顯的局限性,它們都不能預測連接細胞內外的通訊通路。在這里,作者開發了CellCall,這是一個通過整合成對的配體-受體和轉錄因子(TF)活性來推斷細胞間和細胞內通訊通路的工具包,目的是使研究人員能夠根據scRNA-seq數據破譯細胞間的通訊和相關的內部調節信號。小編提示:CellCall的免費獲取地址在文末噢~
L-R-TF軸和TF-TG互作數據的收集
首先,一個工具的開發顯然是少不了承載所用的數據。L-R指的是配體-受體,TG指的是配體-靶基因。L-R-TF軸數據集是從KEGG通路分析中提取的:(1) 作者首先從NATMI、Cellinker、CellTalkDB、CellChat和STRING數據庫中收集了人類的L-R互作對;(2) 接著從KEGG通路中提取L-R互作的下游TF,只有L-R互作和下游的TF在某一通路的同一分支才能認定為定為一個L-R-TF軸,最終共獲得了19144個人類L-R-TF軸。
人類TF-TG互作對是從TRANSFAC, JASPAR, RegNetwork等16個數據庫獲得的,總共收集了587248個人類實驗支持的互作。此外,還通過Cellinker獲得了12069個小鼠L-R-TF軸和554207個TF-TG互作數據。
推斷細胞間通訊
接下來,小編介紹的是工具的算法部分。為了推斷不同細胞類型之間的細胞間通訊,Sk被定義為細胞類型i和j之間的L-R互作k的通訊得分,它是通過整合L-R互作LRk的L2范數和下游TF的活性得分TFk來評估的。該公式如下:

其中TFk是L-R互作k下游TF的活性得分。LRk是由L-R互作k的配體和受體的歸一化表達值(通過softmax函數歸一化)表示的二維向量。

其中Li,k是配體在細胞類型i中的平均表達值,Rj,k是受體在細胞j中的平均表達值。此外,為了防止scRNA-seq數據丟失的影響,用戶還可以選擇配體/受體的分位數表達值(25%,50%和75%)來代表Li,k和Rj,k。如果配體是包含n個亞基的復合物,則定義L為所有亞基表達值的幾何平均值,其中lg是配體復合物中亞基的表達值:

跟配體類似,如果受體是包含n個亞基的復合物,則R被定義為所有亞基表達值的幾何平均值,其中rh是受體復合物中亞基的表達值:

TF活性得分TFk是根據TF調節子的表達來評估的。根據SCENIC,調節子被定義為在單細胞表達譜中與TF共同表達的TG集合。

其中GTG是一個TF的所有TG基因集,Gcoexp是一個TF的所有共表達基因集。基因共表達是通過Spearman相關系數計算得到的。
然后,TFk是該調節子的基因集富集分析(GSEA)得到的富集分數(ES)。其計算公式如下。

其中FC是所有TG在調節子中的倍數變化,adjust.p為GSEA的顯著性水平。如果adjust.p低于閾值α(默認為0.05),則TFk等于GSEA的ES;否則,TFk等于0。
如果L-R互作k的下游有n個TF,活性得分TFk被定義為所有TF的加權和。其計算公式如下,其中M是通路中從TFk,i到受體k的最短路徑:

通路活性分析
CellCall包含了一個通路活性分析方法,它可以探索某些細胞之間通訊所涉及的主要通路。首先,CellCall根據Jaccard相似系數對通路i的活性進行量化。通路活性分數nPASi的公式如下:

其中nPASi是z得分歸一化的PASi,PASi的計算方法如下:

其中CLR是通過細胞間通訊分析推斷的特定細胞類型之間的L-R互作,PLR是通路中的L-R互作,CellCall還通過超幾何檢驗估計了通路活性的顯著性。公式如下:

其中,m是所有L-R互作的數量,t是細胞間通訊分析推斷出的L-R互作的數量,n是一條通路中L-R互作的數量,q是t和n的重疊數。
scRNA-seq數據集的數據收集和處理
作者從先前研究中收集了包含2532個人類睪丸細胞的scRNA-seq數據,還從TISCH數據庫中獲得了10個TIME(腫瘤免疫微環境) scRNA-seq數據集。基于MAESTRO的標準流程進行了質控,去除批次效應,細胞聚類和基于表達矩陣的細胞類型注釋。
統計分析
作者使用R包“psych”中的Spearman相關分析來評估TF和靶基因之間的相關性。“survival”包中的Kaplan-Meier,log-rank檢驗和單變量Cox回歸被用來評估TF表達和生存時間之間的關系。使用“stats”包進行了超幾何檢驗和Fisher精確檢驗,“clusterProfiler”包用來做富集分析,“pROC”包用來畫ROC曲線。
CellCall概述
小編在這里總結一下該工具的原理和特性。圖1顯示了CellCall的核心算法和細胞間通訊模型,具體來說就是細胞信號通過細胞間的L-R互作從發送方細胞傳遞到接收方細胞,然后信號通過一個特定的信號傳導通路傳遞到接收方細胞內部,通常會導致下游TF和GRN(基因調控網絡)活性的變化(圖1A,B)。根據這個生物學模型,作者建立了一個細胞間通訊的統計模型,它由兩部分組成,一個是L-R對(細胞間信號傳遞),另一個是調節子(細胞內信號傳遞)(圖1C)。L-R對被定義為由配體和受體的表達值表示的二維向量,調節子被定義為與TF共同表達的TG集合。然后,通過整合細胞間信號傳導(配體和受體的表達)和細胞內信號傳導(下游TF的活性得分)來計算L-R對的細胞間通訊得分。下游調節子的活性狀態和得分是通過GSEA來估計的,當一個L-R互作可以激活多個調節子時,活性得分被定義為所有激活調節子的加權總和。總的來說,CellCall不僅能夠量化某些L-R對的細胞間通訊,還能推斷出由TF活性反映的內部調節信號。此外,CellCall還嵌入了通路活性分析方法,這有助于探索細胞間串擾所涉及的主要通路(圖1D)。
科研的小伙伴都知道,L-R互作和下游TF先驗知識的準確性對于推斷有意義的細胞間通訊至關重要。因此,作者從KEGG數據庫中提取了L-R-TF軸數據,除了細胞間通訊分析和通路活性分析外,CellCall還提供了豐富的可視化工具來直觀地展示分析結果,包括熱圖、Circos圖、氣泡圖等(圖1D)。

推斷人類生精生態位和生殖細胞之間的細胞間通訊
睪丸生態位通過復雜的細胞間信號轉導在精子發生過程中發揮重要作用。因此,作者將CellCall應用于人類睪丸細胞的scRNA-seq數據集(圖2A)。由于支持細胞(ST)是位于生精小管中唯一能夠支持生殖細胞發育并充當生精生態位的體細胞,作者分析了支持細胞到其他14種生殖細胞的細胞間信號傳遞。如圖2所示,與其他生殖細胞類型相比,SSC(精原干細胞)是來自支持細胞信號的主要接收者。通路活性分析顯示,從支持細胞到SSC的細胞間信號傳遞主要富集在Notch信號通路、Hippo信號通路、MAPK信號通路、PI3K-Akt信號通路和人巨細胞病毒感染通路(圖2),這些通路對精子的形成至關重要。


從支持細胞到SSC共識別了47條細胞間通訊通路(圖2),其中大部分都與精子發育或SSC分化有關。對這些細胞間通訊下游的TF進一步分析表明,這些TF大多與精子發育有關(圖2E)。對這些TF的富集分析表明,所有的TF都被明顯激活(圖3A),而且大多數TG的FC值都大于1(圖3B)。
為了證實CellCall推斷的細胞間通訊,作者進行了免疫染色試驗,以確定ST和SSC之間INHBB-ACVR2A/B-SMAD2軸的表達。結果顯示,在FGFR3+SSC中,ACVR2B(紅色)與INHBB和SMAD2共存(圖3C-E)。此外,ACVR1B也被確認在FGFR3+SSC中表達(圖3F)。

推斷生殖細胞的細胞間通訊
最近的研究表明,不同生殖細胞之間的細胞間通訊也在精子發生中起作用。因此,作者應用CellCall來推斷SSC與其他分化生殖細胞之間的候選細胞間通訊。如圖4A、B所示,從P(粗線期)到SSC的細胞間通訊可能在SSC和其他不同的生殖細胞間的串擾中起關鍵作用。如桑基圖所示,從P到SSC的細胞間通訊的下游TF,如HES1、SMAD1/9、TCF7和ID4,都被報道參與了精子的形成(見圖4C)。作者還通過免疫染色證實了從P到SSC的通訊軸(GDF5-BMPR1B-SMAD1)(圖4D)。這些結果顯示,在成人睪丸切片中,BMPR1B+(受體)和pSMAD1 + SSC均含有GDF5+(配體)精母細胞(圖4E)。GDF5-BMPR1B信號已被報道在軟骨形成和成骨過程中發揮重要作用。

推斷TIME中免疫細胞的細胞間通訊
越來越多的研究表明,腫瘤生態環境中免疫細胞之間的細胞間串擾參與了炎癥、免疫和腫瘤的發生,這對腫瘤的發展至關重要。在這項研究中,作者將CellCall應用于10個TIME scRNA-seq數據集。首先,通過CellCall分析了6種免疫細胞類型,即B細胞(B)、常規CD4 T細胞(CD4Tconv)、CD8 T細胞(CD8 T)、衰竭CD8 T細胞(CD8Tex)、單核細胞/巨噬細胞(Mono/Macro)和自然殺傷(NK)細胞之間的細胞間通訊。如圖5A所示,與其他細胞類型相比,Mono/Macro從其他免疫細胞中收到的信號明顯更多,表明Mono/Macro在TIME中免疫細胞的細胞間串擾中起主導作用。然后,在研究正常/腫瘤組織之間細胞間通訊的差異中,作者在4個以上的數據集中得到了7個常見的腫瘤特異性細胞間通訊(圖5B),它們都涉及從其他細胞到Mono/Macro的細胞間通訊,包括CCL3/4/5-CCR1/5和TNF-TNFRSF1B信號(圖5C)。
此外,作者還研究了這些通訊下游的TF,大多數被激活的TF參與了癌癥的進展(圖5D)。為了進一步證明這些TF在癌癥中的功能和CellCall的性能,作者利用TCGA泛癌數據研究了前10個TF的表達與患者生存的關系。如圖5E,所有TF都顯著影響了不同癌癥患者的總生存率。這些結果表明,CellCall能夠有效地推斷TIME中重要的細胞間通信,并識別受細胞間串擾影響的潛在細胞內過程。

CellCall與其他工具的比較
既然要推薦這個工具,當然是擁有其他工具不具備的優越性。作者從數據、方法和可視化三個方面系統地比較了CellCall和其他9個工具的特性,CellCall均優于其他幾個工具(表1)。接下來,在人類睪丸細胞的數據集上比較了CellCall和其他4個提供通訊分數閾值的工具(CellPhoneDB、CellChat、iTALK和SingleCellSignalR)的性能。如圖6A所示,每個工具根據的默認cutoff值鑒定了從支持細胞到SSC的細胞間通訊。與這些細胞間通訊有關的文獻中,CellCall所識別的細胞間通訊超過87%被證實參與了精子的形成(圖6B),其文獻支持率都高于其他幾個工具。然后,作者用ROC曲線來比較這些方法,CellCal獲得了最高的AUC值(圖6C)。從這些方法的結果與最佳cut-point可以看出,與這些現有的方法相比,CellCall更能準確地推斷出細胞間的通訊(圖6D)。


參考文獻:CellCall: integrating paired ligand–receptor andtranscription factor activities for cell-cellcommunication
CellCall獲取地址:https://github.com/ShellyCoder/cellcall。