表觀遺傳的改變一直都是癌癥研究中不可或缺的一部分,今天小編要給大家介紹的這篇文章是今年7月份發表在Briefings in Bioinformatics(IF:11.622)雜志上關于結直腸癌DNA甲基化的研究,作者通過對WGBS和scBC-seq檢測到的結直腸癌DNA甲基化譜分析,對結直腸癌中DNA甲基化的研究在細胞層面提供了新的見解。文章內容豐富,研究DNA甲基化的小伙伴不要錯過啦!
Comprehensive analysis of partial methylation domains in colorectal cancer based on single-cell methylation profiles
基于單細胞甲基化譜的結直腸癌部分甲基化結構域綜合分析
一、研究背景
DNA甲基化的改變是人類癌癥中關鍵的表觀遺傳變化之一,結直腸癌中DNA甲基化模式的常見改變包括整體DNA低甲基化和區域特異性高甲基化。部分甲基化結構域 (PMD) 是大基因組塊中甲基化減少的區域,PMDs已在多種組織和細胞系中得到描述。不止人類基因組,小鼠基因組中也發現了PMDs且覆蓋了大部分基因組,大約50-75%。每種細胞類型都有一組獨特的PMDs,可用作細胞類型鑒別。以前的研究主要集中在WGBS數據分析組織中PMDs的分布和特征,但是基于細胞群的高通量測序忽略了來自同一腫瘤的細胞之間的異質性。因此,作者利用scBC-seq數據結合WGBS數據,檢測和分類結直腸癌細胞中的PMDs。通過比較同一腫瘤不同細胞和區域的DNA甲基化,對PMDs呈現的廣泛的表觀遺傳異質性進行了研究。
二、數據及方法
1.結直腸癌數據:作者從GEO數據庫中下載結直腸癌患者與之匹配的鄰近正常單細胞BS-seq和RNA-seq數據集GSE97693;從TCGA中下載了WGBS和450K檢測的結直腸癌甲基化數據和RNA-seq基因表達譜。該研究使用的是ucsc中提供的參考基因組版本19(hg19)的基因位置和CpG島信息。
2.PMDs的檢測:在檢測PMDs之前,作者首先通過dbSNP數據庫排除了與常見單核苷酸多態性重疊的CpG。接下來使用R包MethylSeekR來檢測正常和癌癥樣本中的PMDs,參數num.cores = 2。由于具有高CpG密度的基因組區域傾向于產生不平衡的平均甲基化,作者在移除了所有與CpG島(shores, shelves)和啟動子重疊的CpG后使用PMDs內的平均DNA甲基化水平作為PMDs的甲基化水平。對于單個細胞中的PMD,作者根據已發表的文章中定義方法對單個細胞中的PMDs進行定義。
3.PMDs的子類: 通過比較正常和結直腸癌樣本的PMD,作者將PMD分為三個亞類:Gain-PMDs, Loss-PMDs and Conserved-PMDs。Gain-PMDs是指在正常樣本中不存在,但在結直腸癌樣本中檢測到的PMDs;Loss-PMDs是指在正常樣本中被檢測為部分甲基化結構域,但在結直腸癌樣本中缺失的PMDs;Conserved-PMDs是在正常和結直腸癌樣本中均被檢測為PMDs的基因組區域。
4.對來自不同采樣區域的細胞進行聚類:接下來作者基于Gain-PMDs內部的DNA甲基化程度計算樣本間的歐式距離,通過R中的cmdscale函數進行MDS細胞聚類。Wilcoxon 符號秩檢驗用于比較來自不同采樣區域的 Gain-PMD 內的 DNA 甲基化。
5.人類基因組區域注釋:啟動子被定義為轉錄起始位點上游0.5 kb和下游0.5 kb;CpG shore被定義為CpG島上游2 kb和下游2 kb;CpG shelf定義為CpG shore上游2 kb和下游2 kb。作者根據已發表的啟動子分類方法,利用CpG 密度將人類啟動子分為三類:高密度CpG啟動子、中密度 CpG 啟動子和低密度 CpG 啟動子。
三、主要結果
1. 單細胞中部分甲基化結構域的檢測
在文章的第一部分,為了分析結直腸癌中的異常甲基化模式,作者使用了WGBS(n=1)和scBS-seq(n=4)檢測到的5例患者的原發腫瘤和匹配的鄰近正常組織的DNA甲基化譜,通過在100kb的連續片段中的平均甲基化來生成全基因組甲基化譜。如圖1A所示,作者發現鄰近的正常樣本顯示出高甲基化,而相同的基因組區域在匹配的腫瘤樣本中顯示出降低的平均DNA甲基化水平。此外,與WGBS檢測到的原發性腫瘤的甲基化譜相比,單個癌細胞內的甲基化水平顯示出更明顯的缺失。并且還觀察到甲基化缺失在不同的取樣區域是不同的。由于全基因組范圍的大規模低甲基化與部分甲基化結構域的概念相呼應。因此,為了研究低甲基化區域對結直腸癌的影響,下面的分析將集中在部分甲基化區域。

如圖1B所示,由于單個細胞中檢測到的DNA甲基化譜具有例如適度的CpG覆蓋和固有的數據稀疏性等缺點,為了防止PMDs的檢測收到測序數據的影響,作者建立了一套識別PMDs的程序。分析結果如圖1C所示,PMD最多的患者為CRC13;PMD最少的患者為CRC01。如圖1D,在CRC01、CRC10、CRC11和CRC13中,PMD覆蓋基因組的百分比分別為54.10%、55.57%、55.01%和58.51%。平均而言,每個患者保留了9073.25個PMD,覆蓋了55.8%的基因組。
2. PMDs的子類和特征
為了比較癌癥和正常樣本中PMDs的差異,作者將PMDs分成三個不同的亞類(圖2A)。通過識別單個細胞的PMD數(圖2B),作者發現CRC01、CRC10、CRC11和CRC13的Gain-PMD數分別為1597、2174、1860和3054;Conserved-PMD的數量分別為6125、7039、6738和7706,平均而言,每個患者識別了2171個Gain-PMD,6902個識別了Gain-PMD。作者進一步觀察了四名患者共享的Gain-PMDs和Conserved-PMDs,如圖2C,發現4名患者中分別共有1079個Gain-PMDs和5283個Conserved-PMDs,這表明結直腸癌的PMDs在患者中廣泛存在。

先前有研究表明,PMDs的特性和功能可能受到長度的影響。例如,與長PMD相比,短PMD含有更多的蛋白質編碼基因、長非編碼RNA (lincRNA)和假基因,短PMD保留了更多的表觀遺傳可塑性,具有更多的細胞類型特異性特征。因此,作者重點關注了Gain-PMDs和Conserved-PMDs的長度。如圖2D所示,Gain-PMDs 通常是短 PMDs,而大多數 Conserved-PMDs 是長 PMDs,作者推測本研究中檢測到的Gain-PMD 可能會影響細胞功能。
接下來作者分析了基因在兩個不同亞類中的覆蓋情況,如圖2E所示,患者CRC01、CRC10、CRC11和CRC13中的Gain-PMDs分別覆蓋了1.72、2.09、1.91和2.90%的基因組區域;Conserved-PMDs分別覆蓋了52.38、52.92、53.66和55.61%的基因組區域。與Conserved-PMDs相比,雖然Gain-PMDs只覆蓋了較小的基因組區域,但它們包含的基因比例更高。
作者接下來對Gain-PMDs中的基因是否對結腸癌的形成有推動作用進行了討論。通過Metascape在線工具進行了GO富集分析,結果顯示這些基因在調節有絲分裂細胞周期的G1/硫轉換、對前列腺素E的反應、T細胞共刺激、淋巴細胞共刺激、對脂肪酸的反應、白細胞遷移的積極調節、腫瘤壞死因子產生的積極調節和骨形態發生蛋白信號通路的調節等與結直腸癌的形成和發展密切相關的生物學過程中高度富集,且Gain-PMDs內部的基因廣泛參與癌癥的免疫反應。
3. 同一腫瘤不同細胞和區域之間廣泛的表觀遺傳異質性
在這一部分,作者分析了不同細胞間Gain-PMDs是否存在表觀遺傳異質性。首先,作者對結直腸癌患者的單細胞PMDs進行了過濾,保留了70%細胞中檢測到CpGs的Gain-PMDs區域且對于每個細胞保留CpG位點的平均甲基化在0.2-0.7的Gain-PMDs,如圖3A所示。接下來作者計算了具有Gain-PMDs的細胞數量的頻率分布,如圖3B,作者發現四名患者的細胞數量的頻率分布直方圖呈正態分布。作者在此得出結論:通過單細胞數據,WGBS檢測到的大多數 Gain-PMD 可以在一半以上的細胞中再次被識別。

然而,該基因組區域中另一部分細胞的平均甲基化水平與部分甲基化結構域不匹配,這表明Gain-PMDs在細胞之間存在廣泛的異質性。如圖3C,作者根據Gain-PMDs的甲基化水平對不同采樣區域的細胞進行聚類,發現Gain-PMDs的甲基化水平可能受到腫瘤微環境的影響,來自同一區域的細胞會聚集在一起。此外,作者還進行了Wilcoxon符號秩檢驗,以探討不同采樣區域之間Gain-PMDs甲基化水平的差異,圖3D的結果表明對于檢測多個采樣區域的重要性,有助于發現腫瘤內異質性。
4. Gain-PMDs 中發生異常甲基化變化
在這一部分,作者為了確定結直腸癌細胞中 Gain-PMD 中是否存在異常甲基化變化,比較了正常和原發腫瘤細胞之間 Gain-PMD 內的甲基化水平。如圖4A,結果表明與鄰近的正常細胞相比,結直腸癌細胞中Gain-PMDs的甲基化水平顯著降低,不同采樣區域細胞中甲基化的降低程度也不相同。

多項研究證實,基因組功能元件如啟動子和CpG島的異常甲基化在癌癥的發展中起著重要作用,因此作者比較了正常和結直腸癌細胞內Gain-PMDs基因組元件的DNA甲基化水平,將CpG根據甲基化水平分為三組:甲基化水平高于0且低于0.2的低甲基化組;甲基化水平高于0.2且低于0.8的中間甲基化組;和甲基化水平高于0.8且低于1的高甲基化組。如圖4B所示,作者發現與正常細胞相比,在結直腸癌細胞中,Gain-PMDs內部CpG島的高甲基化組和中間甲基化組的CpG比例增加,低甲基化組的CpG比例降低;對于啟動子,在4名患者中發現,與正常細胞中Gain-PMDs內的啟動子相比,大腸癌細胞中高甲基化組和低甲基化組的CpG比例降低,但中間甲基化組的CpG比例升高。總結一下就是作者發現Gain-PMDs內CpG島啟動子甲基化異常增加。
5.Gain-PMDs中異常的DNA甲基化對基因表達的影響
由于啟動子中的異常高甲基化可能抑制基因表達。因此,作者在這一部分主要關注CpG島啟動子的甲基化與基因表達的關系。通過之前的分析,在TCGA數據集中選擇了290個具有甲基化和表達數據的基因進行后續分析,結果如圖5A,腫瘤標本的DNA甲基化水平明顯高于正常標本(P< 0.01),這表明腫瘤中Gain-PMDs內部CGI啟動子的甲基化程度較高。同時,比較290個基因在正常和結直腸癌樣本中的表達值,發現兩組之間存在顯著差異(wilcox.test,P= 0.002),結直腸癌樣本中的基因表達降低。

接下來,作者計算了Gain-PMDs內部CGI啟動子的DNA甲基化與結直腸癌樣本中基因表達之間的Pearson相關系數,發現77.59%的基因表達與DNA甲基化顯著負相關(Cor <0,P< 0.05);11.38% 的基因呈強負相關(Cor <-0.6,P< 0.05)。作者進一步討論了啟動子甲基化和表達負相關的基因功能,以及他們是否參與促進結直腸癌的發病和進展。如圖5B,這225個基因與多種癌癥相關的生物學過程和通路顯著相關,它們有可能成為結直腸癌治療的靶點。ID4已有研究證實其在結直腸癌細胞中的低表達促進了細胞增殖和克隆的形成,圖5C顯示了ID4基因啟動子中的DNA甲基化和表達之間的Pearson相關性,Pearson相關系數為-0.37,這再次證明高甲基化抑制了ID4的表達。在此,作者得出結論:在從正常細胞向腫瘤細胞發展的過程中,對于Gain-PMDs內部的大多數基因,當CpG島啟動子DNA發生異常甲基化時,可以在一定程度上抑制基因表達,從而促進結直腸癌的形成、增殖和轉移。
以上這篇文章的全部內容就介紹完啦,總的來說,作者利用通過單細胞甲基化數據對部分甲基化結構域進行篩選,進而在WGBS和基因表達數據中確定其與基因表達的關系,在細胞和組織層面對PMDs與結直腸癌的關系都進行了闡述,相信隨著單細胞甲基化數據的增多,今后對于DNA甲基化的研究可能更多的會聚焦于單細胞層面,感興趣的小伙伴可以多多關注喲。