細胞類型注釋,用它就夠了
>導讀
>數據庫網址
>數據庫建設背景
>數據庫介紹
>數據庫使用指南
(1)主頁介紹
(2)物種/組織/細胞/基因檢索
(3)數據概覽
(4)6個單細胞數據分析工具
(5)數據資源下載
>總結導讀
細胞標志物(Cell Marker)是用來對細胞定義和分選的重要標志,無論是在流式細胞術等濕實驗對特定細胞類型進捕獲,還是在單細胞測序數據中精確鑒定細胞類型,都需要借助Cell Marker。因此,CellMarker數據庫在2018年應運而生。近期,CellMarker 2.0數據庫升級版在Nucleic Acids Research發布,新增一系列單細胞測序數據分析相關的功能,是探索人類和小鼠不同組織中各種細胞類型標記物的寶貴資源。
數據庫網址
http://bio-bigdata.hrbmu.edu.cn/CellMarker
http://117.50.127.228/CellMarker/
數據庫建設背景
單細胞測序技術的發展為研究細胞的基因結構和基因表達狀態,從單細胞水平探索細胞之間的異質性提供了強有力的技術支持。為了區分不同組織中的不同細胞類型,CellMarker 1.0使用戶能夠在人類或小鼠的各種器官中搜索所有已知的實驗支持的不同細胞類型的標記。隨著對單細胞水平研究的興趣日益濃厚以及高通量技術的應用,各種細胞類型中的標記物數量迅速增加。此外,基于單細胞數據的腫瘤內異質性、細胞間通訊和細胞分化軌跡也得到了廣泛的研究。因此,迫切需要用更多的資源和改進的工具來更新CellMarker。值得注意的是,細胞標記物可以基于單細胞測序技術分為不同的組,包括10x Chromium、Smart-seq2和Drop-seq等。最近,一些數據庫從可用的文獻信息中手動收集不同細胞類型的標記基因,例如PanglaoDB、PCMDB和CancerSEA。盡管這些數據庫為細胞cluster的注釋提供了寶貴的資源,但是存儲在這些數據庫中的信息具有一定的局限性,例如缺乏標記物的組織來源、類型和測序技術信息等。目前缺乏一個全球性的高質量數據庫來存儲和分類各種人類和小鼠組織中不同細胞類型的標記。
數據庫介紹
CellMarker 1.0版本于2018年首次發布,由哈爾濱醫科大學李霞教授團隊建設完成,CellMarker 2.0是一個更新的數據庫,提供了人/鼠的組織中不同細胞類型的marker基因集合。此外,該數據庫提供了用于分析單細胞測序數據的網絡工具。CellMarker 2.0亮點可以概括為以下幾個方面(1)在以前版本的基礎上增加了36300個組織細胞類型標記條目、474個組織、1901個細胞類型和4566個marker基因。當前版本招募了26915個marker基因、2578個細胞類型和656個組織,總共有83361個組織細胞類型標記條目。(2)新增來自10X Chromium、Smart-Seq2、Drop-seq等48種測序技術來源的標記信息。(3)新增29種細胞標記,包括蛋白編碼基因lncRNA、假基因等。(4)開發了6種靈活的網絡工具,包括細胞注釋分析、細胞聚類分析、細胞惡性分析、細胞分化分析、細胞特征分析和細胞通訊分析,用于單細胞測序數據的分析和可視化。
數據庫使用指南
(1)主頁介紹
主頁提供了一個人類和小鼠的全局解剖地圖,方便用戶快速探索感興趣的物種、組織和細胞類型的marker基因,通過點擊相應圖像即可進入對應的數據模塊。下側是六種單細胞分析工具的入口,用戶點擊可以進入相應的分析版塊。在主頁的右邊是一個快速搜索框。用戶可以通過輸入組織名稱、細胞名稱、marker基因名稱來搜索。

(2)物種/組織/細胞/基因檢索
在菜單欄選擇進入“Search”頁面,數據庫提供了三種檢索的方式:(1)按照組織類型、細胞類型檢索,用戶可以直接在頁面上選擇相應的物種、組織、細胞類型,進而跳轉到該細胞類型對應的marker基因頁面。(2)按照基因檢索,數據庫支持三種基因輸入形式,Gene alias、Gene symbol和Gene Entrez ID。(3)快速檢索,是一種混合檢索模式,既可以檢索基因名,也可以檢索組織、細胞類型。

數據檢索之后,進入數據檢索結果頁面。數據庫提供了2種數據展示形式。結果頁面的頂部是經典的詞云圖,用以展示所有基因出現的頻次高低,越是高頻使用的基因,它的字體越醒目。在詞云圖的下方的表格中展示了每個marker基因條目的詳細信息,整體上分為實驗來源、綜述來源和計算分析三個來源的,每個條目包括物種、組織、細胞類型、疾病/腫瘤狀態、marker、文獻來源等。

通過輸入特定的marker基因名來檢索的話,還會有一個特殊的結果呈現形式。例如輸入“JCHAIN”后點擊查詢,結果會返回一個組織-細胞類型的dotplot,對于該基因的分布一覽無余。

(3)數據概覽
“我沒有感興趣的細胞類型,點進來只是來看看數據庫都存儲了哪些數據資源”。為了解決這個問題,數據庫單獨提供了“Browse”頁面,按照物種-組織-細胞類型-marker基因的數據層級逐級呈現數據。用戶在此頁面可以快速瀏覽數據庫包含的所有組織、細胞類型信息。

(4)6個單細胞數據分析工具
作為數據庫升級的重頭戲,數據庫開發者提供了6個單細胞在線分析工具,并提供了幾十套公共數據庫中的數據供用戶探索。很遺憾,數據庫目前不支持用戶自定義的數據上傳之后進行分析,但這絲毫掩蓋不了CellMarker的光輝。接下來詳細介紹這6個分析工具的功能。
(4.1)Cell Annotation
單細胞數據劃分cluster之后不知道這個cluster是哪種細胞類型怎么辦?Cell Annotation工具能夠幫助解決細胞類型注釋的問題。用戶需要準備一個基因list,比如cluster的差異上調基因,在選擇好物種、組織類型之后,輸入該基因list即可進行比較分析,數據庫會返回一個熱圖的結果,多個marker均表達的細胞類型即最有可能是需要注釋的細胞類型。

(4.2)Cell Clustering
細胞聚類分析允許用戶能夠探索不同數據集中的細胞cluster劃分以及細胞類型注釋結果,提供了tSNE和UMAP兩種降維方式的結果,同時也提供了每個細胞cluster的差異表達基因列表,方便用戶查詢、下載。

(4.3)Cell Malignancy
對于腫瘤的單細胞數據來講,非常關鍵的一步是細胞類型的劃分,即哪些是正常細胞、哪些是腫瘤細胞?;谀[瘤細胞常常會發生大片段的拷貝數擴增或缺失的基因組特征,開發者整合了通過scRNA-seq推測CNV的inferCNV工具,對多個數據集進行處理,用戶可以探索特定癌癥類型/GEO數據集編號的每種細胞類型所攜帶的拷貝數特征信息。

(4.4)Cell Differentiation
單細胞分析常見的降維方式是tSNE和UMAP,但是探索腫瘤演變的規律還需要依賴偽時序分析。開發者整了Monocle3的方法分析多個公開數據集,并將tSNE、UMAP、偽時序分析結果集成到一個頁面,方便用戶比較分析。此外,數據庫支持基因的表達值查詢,例如數據基因“CD3D”,可以發現在GSE205490 AML白血病數據集中,CD3D在偽時序的晚期表達水平較高。

(4.5)Cell Feature
本模塊支持用戶探索不同的cluster中基因表達和細胞類型分布的情況。用戶選擇感興趣的數據集之后,輸入相應的基因名稱,可以查詢該基因在哪個cluster中是處于高表達的狀態。

(4.6)細胞互作分析
細胞互作分析是腫瘤研究當中非常重要的一部分,免疫細胞殺傷腫瘤細胞可以通過細胞互作分析清晰的觀察到。開發者集成了CellPhoneDB工具對多個數據集進行細胞互作分析,并將結果以pdf的形式展示(pdf存放的矢量圖可以直接下載用來發文章,好貼心呀有木有,但是注意引用數據庫呦)。數據庫提供了四種數據結果,互作得分熱圖(未標準化)、互作得分熱圖(log標準化)、互作得分網絡和互作得分dotplot。在數據庫頁面上顯示不全,建議大家下載之后可以看到相應結果圖片的全貌。

(5)數據資源下載
網站上你能看到的所有數據基本都可以下載,在下載頁面開發者也提供了一鍵下載模式。

總結
隨著高通量測序技術的發展,近年來細胞標記的數量顯著增加。相關文獻的快速增長表明,迫切需要收集相應的數據集并更新第一版CellMarker數據庫。目前,CellMarker 2.0的數據集和功能得到了很大的改進。CellMarker 2.0擴展到656個組織,2578個細胞類型和26 915個細胞標記。相信在不就的將來,會有更多的物種和更多的信息加入到Cell Marker數據庫當中。