腫瘤分型一直是癌癥研究的一個經(jīng)典方向,今天小編要和大家分享一篇今年九月剛剛發(fā)表在Briefings in bioinformatics(IF:11.620)雜志上的HCC分型文章,文章基于腫瘤和非腫瘤組織中免疫及hallmark基因集的活性變化使用非負(fù)矩陣分解(NMF)的方法識別HCC亞型。純生信分型發(fā)了11分,小伙伴們get起來吧。
HCC subtypes based on the activity changes of immunologic and hallmark gene sets in tumor and nontumor tissues
基于腫瘤和非腫瘤組織中免疫及hallmark基因集的活性變化的HCC亞型
一.研究背景
目前肝細(xì)胞癌(HCC)是最常見的肝癌類型之一,是全球第四大癌癥相關(guān)死亡原因,且患者相鄰非腫瘤組織的預(yù)后作用尚不清楚。而在HCC肝切除術(shù)等治療措施后,鄰近非腫瘤組織中免疫和hallmark基因集的活性變化可能通過影響肝細(xì)胞的增殖和循環(huán)腫瘤細(xì)胞的定植而顯著影響預(yù)后。因此作者通過腫瘤和非腫瘤組織中基因集的活性變化確定HCC亞型和預(yù)后基因集,希望能夠改善患者預(yù)后。
二.?dāng)?shù)據(jù)及方法
1. 數(shù)據(jù)收集:作者從GEO數(shù)據(jù)庫下載了配對的腫瘤組織及癌旁組織的基因表達(dá)數(shù)據(jù)(GSE14520,GSE76427),并按照HCC組織和癌旁非腫瘤組織的樣本量均大于等于50的標(biāo)準(zhǔn)選擇合格的基因表達(dá)譜數(shù)據(jù)。此外,作者從基因集富集分析(GSEA)中下載4922個免疫和hallmark基因集。
2. 基因集變異分析及功能富集分析:基因集變異分析(GSVA)可以估計一個感興趣的基因集相對于樣本群體的富集程度,作者用于觀察與特定生物條件相對應(yīng)的一組基因(如通路)的活性變化。作者也通過clusterProfiler R包進(jìn)行分子功能(MF)分析和Reactome通路分析。
3. 熱圖及分類:文章使用ComplexHeatmap包和CancerSubtypes包分析HCC樣本的熱圖和分類。
4. 非負(fù)矩陣分解(NMF):非負(fù)矩陣分解是一種有效的降維方法,被廣泛應(yīng)用于高維基因組數(shù)據(jù)的分子模式識別,并為類發(fā)現(xiàn)提供了強(qiáng)有力的方法。研究中作者應(yīng)用NMF包對癌癥基因組數(shù)據(jù)進(jìn)行NMF。
5. 預(yù)后分析:作者采用LASSO回歸方法尋找潛在的預(yù)后基因集。
三.研究的主要內(nèi)容及結(jié)果
1. 肝癌和癌旁非腫瘤樣本中免疫和hallmark基因的活性變化
在文章第一部分作者分析了肝癌和癌旁非腫瘤樣本中免疫和hallmark基因的活性變化。GSVA可用于檢測整個基因表達(dá)集中細(xì)微的通路活性變化。因此作者為了全面揭示HCC和鄰近非腫瘤樣本中免疫和hallmark基因集的活性變化,從GSEA和基因表達(dá)譜數(shù)據(jù)(GSE14520)下載了4922個免疫和hallmark基因集,研究的流程如圖1所示。其中免疫基因集是由來自免疫學(xué)研究的芯片基因表達(dá)數(shù)據(jù)定義的,而hallmark基因集是由多個表示明確定義的生物狀態(tài)或過程的MSigDB基因集聚合而來的一致表達(dá)的特征。接著作者也根據(jù)GSE14520的表達(dá)數(shù)據(jù),通過GSVA計算4922個基因集的富集評分(ES)(圖2)。結(jié)果發(fā)現(xiàn)在HCC和鄰近的非腫瘤組織中,出現(xiàn)了多個基因集將樣本分成若干類。接著作者試圖基于肝細(xì)胞癌和鄰近非腫瘤樣本的免疫和hallmark基因集的ESs,將肝細(xì)胞癌患者分為不同的亞型。其中有四個樣本的預(yù)后信息不完整而被移除。作者使用Cox回歸模型通過CancerSubtypes包進(jìn)行特征選擇,保留999個特征供進(jìn)一步分析。接下來作者使用factoextra包生成最佳簇數(shù)(K) (K = 3,圖3A和B)。 進(jìn)一步的作者使用NMF方法將HCC患者聚類為三個不同的亞型(圖3C)。圖3D表明與其他亞型相比,HCC樣本與其確定的亞型之間匹配良好。同時亞型1的HCC患者總生存期較好,而亞型2和亞型3的預(yù)后較差(圖3E)。



2. 臨床特征與HCC亞型的相關(guān)性
在這一部分作者進(jìn)一步探討了臨床特征與HCC亞型的相關(guān)性。結(jié)果發(fā)現(xiàn)與亞型2和亞型3相比,亞型1的肝癌患者生存時間更長,復(fù)發(fā)率更低(圖4A和表1)。接著為了確定每個子類型的代表性基因集,作者計算了每個子類之間基因集的差異ES并將它們交叉。在圖4B中可以觀察到亞型1有12個不同的基因集,亞型2有59個,亞型3有22個。而代表性基因集與臨床特征的相關(guān)性如圖5所示:亞型1在非腫瘤樣本中9個基因集的ESs均高于其他亞型,亞型2在非腫瘤樣本中某些基因組的ESs也較高。與這兩種亞型相反,亞型3在腫瘤組織中有18個基因集ES增加了。由于包含配對腫瘤和非腫瘤樣本表達(dá)及臨床信息的數(shù)據(jù)集太小,作者選擇另一個不同的基因表達(dá)譜數(shù)據(jù)來驗證分類。在GSE14520數(shù)據(jù)中,亞型2和亞型3的死亡比例沒有太大差異(表1),Kaplan-Meier分析也顯示亞型2和亞型3的預(yù)后都相對較差(圖3E)。考慮到驗證組樣本量小,作者從樣本中分離出亞型1,其他樣本定義為亞型2/3。通過生存分析,驗證組中亞型1的HCC患者也傾向于生存更好。接下來作者試圖用LASSO方法確定肝癌的預(yù)后基因集,最終發(fā)現(xiàn)了7個基因集(圖6A和B),其中4個基因集位于非腫瘤組織,3個位于腫瘤組織。且每個基因組的ESs越高,總生存時間越短(圖6)。




3. 功能和通路富集分析
在一部分作者為了明確這7個預(yù)后基因集對預(yù)后的作用機(jī)制,提取了每個基因集所包含的基因,并在腫瘤和非腫瘤組織中進(jìn)行MF富集和Reactome通路分析。對于非腫瘤樣本,基因集主要與細(xì)胞粘附分子結(jié)合、細(xì)胞因子活性、白細(xì)胞介素信號轉(zhuǎn)導(dǎo)、血小板激活等相關(guān)(圖7A)。作者推測這些功能在非腫瘤組織中可能通過促進(jìn)腫瘤細(xì)胞定植和存活而影響預(yù)后。在腫瘤樣本中,基因集富集到微管蛋白結(jié)合、組蛋白激酶活性、細(xì)胞周期檢查點、有絲分裂前期和有絲分裂后期等相關(guān)過程(圖7B)。這些結(jié)果與細(xì)胞周期密切相關(guān),可能促進(jìn)腫瘤的發(fā)展。接下來作者進(jìn)一步識別了非腫瘤和腫瘤基因集中的hub基因,構(gòu)建蛋白-蛋白相互作用網(wǎng)絡(luò),并將結(jié)果進(jìn)一步分析。作者通過 Cytoscape MCODE插件計算出前三的類,并通過度計算出每個類中的hub基因。結(jié)果發(fā)現(xiàn)非腫瘤基因集中,類1的前3個hub基因為CXCL8、CXCL9和CCR5,主要與免疫反應(yīng)相關(guān);類2為ICAM1、ITGAM和IL1B,與細(xì)胞粘附密切相關(guān);類3為FBXO7、UBA6和SH3RF1,主要與泛素激活相關(guān)(圖8A)。腫瘤基因集中,類1的hub基因為MELK, CCNB1 及 CDCA8主要與細(xì)胞周期有關(guān);類2為PWP2, NLE1和KIAA0020與核糖體密切相關(guān);而類3 為EFTUD2, SRSF1 及HNRNPM 主要與mRNA剪接有關(guān)(圖8B)。


到這里這篇文章的主要內(nèi)容就介紹完了。文章主要使用NMF方法對HCC進(jìn)行分型,可以看出文章的算法并不復(fù)雜,但文章的思路清晰,能夠?qū)⒛[瘤和非腫瘤樣本結(jié)合,針對免疫基因集和hallmark基因集進(jìn)行分型,最終成就了11+的工作。感興趣的小伙伴可以學(xué)習(xí)下文章的思路和方法以及寫作邏輯。