基因家族分析是癌癥分析中的重要組成部分,也是對生信小白而言是比較友好便捷的入手點之一,上手簡單快速,易學(xué)易懂。今天小編想和大家分享的正是一篇比較經(jīng)典全面的家族基因分析文章,思路清晰明了,于今年1月底發(fā)表在Frontiers in Immunology(現(xiàn)影響因子:7.5607,2021年預(yù)測IF:8.048)。另外,小編還會在文末傾情貢獻(xiàn)自己珍藏多年的基因家族分析流程咯,感興趣的小伙伴千萬不要錯過哦~
Histone Acetylation RegulatorMediated Acetylation Patterns Define Tumor Malignant Pathways and Tumor Microenvironment in Hepatocellular Carcinoma
肝細(xì)胞癌中組蛋白乙?;{(diào)節(jié)因子介導(dǎo)的乙?;J蕉x腫瘤惡性通路和腫瘤微環(huán)境
組蛋白乙?;揎検亲畛R姷谋碛^遺傳學(xué)修飾方法之一,可以用于調(diào)節(jié)染色質(zhì)結(jié)構(gòu)、DNA修復(fù)和基因表達(dá)?,F(xiàn)有的研究主要集中在組蛋白乙酰化在腫瘤發(fā)生、腫瘤進(jìn)展和腫瘤微環(huán)境(TME)中發(fā)揮的重要作用,但尚未探討組蛋白乙?;{(diào)節(jié)因子在TME細(xì)胞浸潤、藥物敏感性和免疫治療中的潛在作用和相互作用。本文基于組蛋白乙?;{(diào)節(jié)因子的mRNA表達(dá)計算HAscore,確定三種組蛋白乙?;J郊跋鄳?yīng)患者。三組患者在生存時間,免疫浸潤,藥物敏感性等多方面存在差異。
1.數(shù)據(jù)
研究隊列:該研究共納入TCGA-LIHC、ICGC-LIRI(日本)、ICGC-LICA(法國)、GSE14520等9套肝癌數(shù)據(jù),涉及多達(dá)1599例肝癌患者的表達(dá)數(shù)據(jù)以及生存相關(guān)數(shù)據(jù)等進(jìn)行進(jìn)一步分析。
研究對象:其次,研究者檢索組蛋白乙酰化修飾相關(guān)文獻(xiàn),對36個公認(rèn)的組蛋白乙酰化基因進(jìn)行整理和分析,以確定不同的組蛋白乙酰化修飾模式,其中包括9個writer,12個eraser, 15個reader(圖1A)。
2.組蛋白乙?;{(diào)節(jié)因子在HCC中的遺傳和轉(zhuǎn)錄改變
富集分析表明36個基因主要與組蛋白修飾和癌癥相關(guān)通路有關(guān)(圖1B)。為確定HCC中組蛋白乙?;{(diào)節(jié)因子的基因改變,研究者首先對36個組蛋白乙?;{(diào)節(jié)因子的非沉默突變和拷貝數(shù)變異(CNVs)的landscape進(jìn)行分析。在TCGA的HCC隊列中,364個樣本中有95個(26.1%)存在組蛋白乙?;{(diào)節(jié)因子的基因改變,主要涉及錯義突變和剪接位點突變(圖1C)。此外,發(fā)現(xiàn)CNV,尤其是CNV擴(kuò)增在這些調(diào)控因子中廣泛存在(圖1D)。為確定這些基因變異是否會對HCC患者組蛋白乙酰化調(diào)節(jié)因子的表達(dá)造成影響,研究者進(jìn)一步比較正常和HCC樣本中這些調(diào)節(jié)因子的mRNA表達(dá)(圖1E)。結(jié)果顯示,CNV的變化對組蛋白乙?;{(diào)節(jié)因子的表達(dá)起著重要的調(diào)控作用。此外,根據(jù)這36個調(diào)控因子的表達(dá),研究者基于無監(jiān)督一致性聚類對HCC樣本和正常樣本進(jìn)行區(qū)分(圖1F)。

圖1. HCC中組蛋白乙酰化調(diào)節(jié)因子的基因改變
3.基于36個調(diào)節(jié)因子確定與臨床特征相關(guān)的組蛋白乙?;J?/strong>
研究者共獲取來自TCGA-LIHC、ICGCLIRI(日本)、ICGC-LICA(法國)等9個數(shù)據(jù)集的1599個HCC樣本的臨床數(shù)據(jù)和mRNA表達(dá)矩陣,以進(jìn)一步分析36個組蛋白乙酰化調(diào)節(jié)因子的表達(dá)模式。為探討組蛋白乙酰化調(diào)節(jié)因子的預(yù)后價值和表達(dá)關(guān)系,研究者將具有預(yù)后信息的TCGA-LIHC和ICGC-LIRI隊列的mRNA測序數(shù)據(jù)整合到一個meta隊列中,并基于單因素Cox回歸識別與癌癥預(yù)后相關(guān)的調(diào)節(jié)因子。結(jié)果表明,HDAC2、HDAC1等多種調(diào)節(jié)因子與HCC預(yù)后有關(guān)(圖2A)。相關(guān)分析顯示36個調(diào)控因子的表達(dá)之間存在顯著的相關(guān)性。總之,組蛋白乙?;{(diào)節(jié)因子之間存在著緊密的相互交流,共同構(gòu)成一個復(fù)雜的網(wǎng)絡(luò),整體調(diào)控組蛋白乙?;揎?,影響HCC的發(fā)展。
為確定36個調(diào)控因子的表達(dá)模式,研究者使用ConsensusClusterPlus對774例HCC樣本(TCGA-LIHC、ICGC-LIRI和ICGC-LICA隊列)的mRNA表達(dá)數(shù)據(jù)進(jìn)行分類。通過無監(jiān)督聚類,研究者發(fā)現(xiàn)3組不同的組蛋白乙酰化模式(HAcluster_A,HAcluster_B,HAcluster_C)。在GEO meta隊列(GSE14520、GSE76427、GSE116174、GSE104580、GSE112790、GSE121248)中重復(fù)組蛋白乙?;垲?,可以得到相似的結(jié)果。此外,主成分分析(PCA)顯示,三種不同的組蛋白乙酰化模式之間的轉(zhuǎn)錄譜存在顯著差異(圖2D)。在TCGA-LIHC和ICGC-LIRI隊列的聯(lián)合數(shù)據(jù)集中,HAcluster_B組患者的生存概率低于HAcluster_A和HAcluster_C組(圖2B)。GEO聯(lián)合數(shù)據(jù)中可以得到類似結(jié)果(圖2C)。與HAcluster_C和HAcluster_A相比,HAcluster_B中的組蛋白調(diào)節(jié)因子表達(dá)升高(圖2E),表面HAcluster_B患者組蛋白乙?;揎椬罨钴S,且修飾周期快。這可能是肝癌患者預(yù)后的一個危險因素。此外,HAcluster與HCC的臨床特征密切相關(guān)。在TCGA HCC隊列中,HAcluster_B顯著富集病毒感染事件、血管浸潤、高TNM分級和高組織學(xué)分級(圖2E)。


圖2.組蛋白乙?;揎椖J郊捌渑R床特征
4.組蛋白乙?;J脚c腫瘤分子背景和免疫浸潤相關(guān)
為進(jìn)一步確定三種組蛋白乙酰化修飾模式在生物學(xué)功能上的差異,研究者基于KEGG基因集進(jìn)行GSVA富集分析。與HAcluster_A和HAcluster_C相比,HAcluster_B富集于致癌激活,細(xì)胞周期和凋亡等通路,HAcluster_A和HAcluster_C在幾個與生物代謝相關(guān)的通路中富集(圖3A、B)。研究者根據(jù)另一研究中獲得的致瘤特征數(shù)據(jù)進(jìn)行GSVA富集分析,同樣證實HAcluster_B在大多數(shù)惡性通路中富集(圖3C)。此外,HAcluster_B中血管生成、EMT和癌干性的活性也相對較高(圖3C)。
研究者進(jìn)一步對組蛋白乙?;{(diào)節(jié)因子與TME之間關(guān)聯(lián)進(jìn)行全面研究,首先基于ssGSEA算法來量化浸潤TME的免疫細(xì)胞的相對豐度。Spearman相關(guān)分析顯示,調(diào)節(jié)因子與TME浸潤免疫細(xì)胞有很強(qiáng)的相關(guān)性(圖3D)。此外,還分析三種組蛋白乙?;J较耇ME細(xì)胞浸潤的差異(圖3E)。HAcluster_B中被激活的樹突狀細(xì)胞和漿細(xì)胞樣樹突狀細(xì)胞,自然殺傷細(xì)胞等數(shù)量較高,激活的CD8 T細(xì)胞以及其他重要的腫瘤殺傷細(xì)胞和gamma delta T細(xì)胞含量較低。以上結(jié)果表明,HAcluster_B是一種免疫抑制亞型,其免疫抑制細(xì)胞的活躍抵消高度激活的抗原抵制細(xì)胞的積極影響,導(dǎo)致HAcluster_B患者預(yù)后不良。為證實這一假設(shè),研究者基于Bindea和Thorsson等人的相關(guān)基因特征數(shù)據(jù),分析三種組蛋白乙?;J街械拿庖咭种苹钚?、免疫溶細(xì)胞效應(yīng)和抗原呈遞活性的變化。結(jié)果顯示,HAcluster_B的免疫抑制和抗原加工活性最高,而HAcluster_B的免疫溶細(xì)胞活性最低,與之前的分析一致(圖3F)。

圖3.組蛋白乙?;J降纳飳W(xué)特征
5.個體化肝癌組蛋白乙酰化的模型構(gòu)建
為全面了解三種HAculsters之間的生物學(xué)特征差異,基于之前在RNA-seq meta隊列中分析的三個HAcluster,研究者確定591個與患者預(yù)后顯著相關(guān)的DEGs來表征HAcluster。這些DEGs的GO富集表明,它們主要與組蛋白乙?;?、細(xì)胞周期等過程相關(guān)(圖4A)。研究者發(fā)現(xiàn),根據(jù)這些DEGs可將患者聚為3個表型相關(guān)的亞型,分別為geneCluster_A、geneCluster_B和geneCluster_C。大多數(shù)DEGs在geneCluster_B中高表達(dá)4B)。生存分析表面,geneCluster_b的患者預(yù)后最差(圖4C)。研究者基于這些表型相關(guān)的DEGs構(gòu)建一個評分模型(組蛋白乙?;u分,HAscore),首先采用無監(jiān)督聚類方法對預(yù)后相關(guān)DEGs進(jìn)行分析,將患者分為若干組進(jìn)行進(jìn)一步分析。采用一致性聚類算法確定基因聚類的數(shù)量及其穩(wěn)定性,并將這些基因的表達(dá)轉(zhuǎn)化為Z評分,并進(jìn)行主成分分析(PCA)構(gòu)建修飾的乙?;嚓P(guān)基因特征。選取主成分1和主成分2(分別為PC1和PC2)作為特征分?jǐn)?shù)。

研究者發(fā)現(xiàn)HAscore與組蛋白乙?;{(diào)節(jié)因子和表型相關(guān)DEGs的mRNA表達(dá)呈正相關(guān)。HAcluster_B和geneCluster_B的HAscore最高(圖4D, E)。
接下來,研究者使用Survminer包將患者分為高HAscore和低HAscore組,并基于頻率分布直方圖對不同分類結(jié)果進(jìn)行重疊分析。結(jié)果表明,高HAscore組樣本均來自于geneCluster_B(204個樣本中172個,占84.3%),geneCluster A和geneCluster_C中大部分患者是低HAscore組的主要組成部分(圖4G)。以上結(jié)果表明,這三種分類計算方法具有較高的一致性。低HAscores的患者生存時間更長(圖4F,4H),并且包含年齡,性別等臨床特征相關(guān)的多因素cox回歸分析表明在TCGA-LIHC和GSE14520隊列中,HAscore是一個穩(wěn)健的、獨立的預(yù)后生物標(biāo)志物(圖4I)。

圖4.個體化肝癌組蛋白乙酰化的模型構(gòu)建
6.臨床特征、分子特征和與HAscore相關(guān)的TME浸潤細(xì)胞
研究者進(jìn)一步探索導(dǎo)致不同HAscore組之間出現(xiàn)預(yù)后差異的潛在機(jī)制。首先,對HAscore與臨床特征、分子特征和TME等特征之間的關(guān)系進(jìn)行分析。首先探究HAscore與臨床特征的相關(guān)性,如圖5A,B所示,HAscore較高與AFP高表達(dá)、血管浸潤、病毒感染等HCC預(yù)后危險因素相關(guān),進(jìn)一步表明高HAscore患者的生存預(yù)后較差。
另外,除NRF2信號通路外,幾乎所有與癌癥相關(guān)的惡性通路(如細(xì)胞周期、HIPPO等)均與HAscore顯著正相關(guān)(圖5C)。HAscore與腫瘤浸潤免疫細(xì)胞、免疫功能的相關(guān)性分析表明HAscore與免疫抑制活性的細(xì)胞呈顯著正相關(guān),與免疫溶細(xì)胞活性呈負(fù)相關(guān)(圖5C-D),說明HAscore與TME密切相關(guān),高HAscore組被認(rèn)為是免疫抑制亞型。



圖5.不同HAscore組的臨床特征、分子特征和TME浸潤
7.HAscore與抗腫瘤藥物敏感性
組蛋白乙?;揎椗c腫瘤的功能通路密切相關(guān),HAscore在預(yù)測患者相關(guān)藥物響應(yīng)方面具有潛在價值。為驗證這一假設(shè),研究者使用GDSC數(shù)據(jù)庫評估了癌細(xì)胞系中HAscore和藥物反應(yīng)之間的關(guān)系?;赟pearman相關(guān)分析,研究者發(fā)現(xiàn)西妥昔單抗等42種藥物在低HAscores的細(xì)胞系中更敏感,HDAC6抑制劑ACY-1215 等74種藥物則在HAscores高的樣本中可能更敏感(圖6A)。研究者進(jìn)一步分析這些藥物靶向基因的信號通路,在高HAscores樣本中敏感的藥物主要針對組蛋白乙?;?、有絲分裂、細(xì)胞周期和DNA復(fù)制等過程。與之前的分析一致,即大多數(shù)組蛋白修飾調(diào)控因子,細(xì)胞周期和DNA復(fù)制相關(guān)活性在高HAscore組中活躍。此外,在低HAscores樣本中敏感的藥物主要針對MEK2和RTK信號通路(圖6B)。
為檢驗HAscore是否可以預(yù)測患者的藥物反應(yīng),研究者基于幾個使用相關(guān)抗腫瘤藥物治療的數(shù)據(jù)集,分析藥物反應(yīng)與HAscore之間的關(guān)系。在GSE5851數(shù)據(jù)集中,對晚期轉(zhuǎn)移性結(jié)直腸癌患者進(jìn)行西妥昔單抗單藥治療的分析顯示,有應(yīng)答者的HAscore顯著低于無應(yīng)答者(圖6C)。低HAscore組的無進(jìn)展生存期(PFS)明顯長于高HAscore組(圖6D)。HAscore藥物敏感性相關(guān)ROC曲線的AUC為0.691(圖6E)。這些結(jié)果與在低HAscore組西妥昔單抗的敏感性更高的發(fā)現(xiàn)一致。此外,在GSE22219數(shù)據(jù)集中,對環(huán)磷酰胺、甲氨喋呤和5-氟尿嘧啶方案治療乳腺癌患者的分析顯示,高HAscores患者的無進(jìn)展生存期明顯更長(圖6F)。
基于GSE148623數(shù)據(jù)集的分析顯示,對HDACi有響應(yīng)者的HAscore更高,高HAscore患者的PFS更長(圖6G, H)??傊?,這些分析表明HAscore在預(yù)測患者藥物反應(yīng)方面具有潛在價值。


圖6.HAscore與藥物響應(yīng)
8.HAscore與PD-L1或PD-1免疫治療
HAscore與TME密切相關(guān),研究者基于兩個免疫療法隊列檢測HAscore預(yù)測患者對ICI治療響應(yīng)的能力。首先,基于TCGA-ICGC和GEO隊列,分析HAscore和TIDE之間的關(guān)系。結(jié)果表明,高HAscore組的TIDE得分均顯著較高(圖7A、B),且HAscore與TIDE評分呈正相關(guān)。此外,HAscore與MDSC浸潤顯著正相關(guān),表明高HAscore組是一種免疫抑制亞型。此外,對抗PD-L1免疫治療樣本的分析顯示,HAscore低的患者獲益更多,生存時間更長(圖7C)。抗PD-L1阻斷劑完全緩解(CR)或部分緩解(PR)的患者比例在低HAscore組為27%,而在高HAscore組僅為13%(圖7D)。圖7E、F顯示,低HAscore組的新抗原負(fù)荷和突變負(fù)荷較高(P = 0.00022;P = 0.012),低HAscore組的TIDE評分較低。這與TIDE評分低的患者似乎從IBI治療中獲得更多臨床益處的發(fā)現(xiàn)一致。以上結(jié)果表明,低HAscores的患者在ICI治療中可以獲得更大的生存優(yōu)勢和臨床益處。

圖7.HAscore與免疫治療
今天的文章內(nèi)容大概就是這些,是不是思路超級清晰呢?還沒完全消化吸收的小伙伴也不要怕,今天的干貨,干貨,干貨終于來啦?。。⌒【幷洳囟嗄甑幕蚣易宸治鏊悸穬A情獻(xiàn)上,說能發(fā)個nature,science那純粹是吹牛,但只要內(nèi)容嚴(yán)謹(jǐn),寫作能力優(yōu)秀,思路,內(nèi)容再稍微出彩,有新意一點,發(fā)個7,8分的文章還是有很大可能的。如果有能力的話,再與臨床和實驗一結(jié)合,10分也不是沒有可能滴~
在做家族基因分析時,我們的首要任務(wù)是選好研究主題,只有主題有新意,有創(chuàng)意才能先人一步吸引到審稿人的目光。至于具體選擇,不論是最近火熱的鐵死亡,自噬,衰老,DNA損傷修復(fù)還是免疫相關(guān)基因,完全取決于你和你想要研究的癌型的特點。
1.基因landscape:展示基因在相應(yīng)癌癥中的突變,拷貝數(shù)改變,差異表達(dá),差異甲基化等,說明該家族基因與某癌癥形成發(fā)展高度相關(guān)。
2.基因篩選:在家族基因過多或分類效能不足時對基因進(jìn)行篩選,獲取最佳基因集合。篩選方法主要包括:
a.差異分析(正常 vs 癌癥;突變 vs 野生等)。
b.預(yù)后分析(高表達(dá) vs 低表達(dá);突變 vs 野生;拷貝數(shù)改變 vs 拷貝數(shù)不改變;單因素cox分析等)。
c.相關(guān)分析:與其他基因表達(dá),免疫細(xì)胞浸潤特征,與藥物響應(yīng)等的的相關(guān)性分析。
d.其他(變異系數(shù)等)。
3.模型構(gòu)建:基于篩選出的特征基因構(gòu)建分類模型。分類方法主要包括簡單的多因素cox回歸分析,lasso cox回歸分析,特征基因表達(dá)一致性聚類,主成分分析,以及難度較高的神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)等。
4.模型評估:評估模型的分類效能。
a.預(yù)測性能評估:獨立數(shù)據(jù)集驗證,AUC(ROC曲線下與坐標(biāo)軸圍成的面積),C-index指數(shù),與已知預(yù)后模型的比較。
b.獨立性評估:多因素cox回歸分析判斷預(yù)測模型是否獨立于性別,年齡等臨床特征。
5.不同分子亞型的比較:基因表達(dá),通路活性,TP53突變,免疫細(xì)胞浸潤比例,免疫得分,HRD打分等預(yù)后特征。
6.列線圖模型的建立和驗證。
7.亞型與藥物響應(yīng):將組織中分類模型應(yīng)用到細(xì)胞系或其他用藥數(shù)據(jù)中,評估不同類別與藥物響應(yīng)之間的關(guān)系。
8.結(jié)合實驗或者自測數(shù)據(jù)對自己的結(jié)果進(jìn)行驗證。
9.其他:在以上基礎(chǔ)上,可以適當(dāng)利用單細(xì)胞分析,ATAC-seq分析等進(jìn)一步充實文章內(nèi)容,補(bǔ)充實驗結(jié)果。
家族基因分析的流程大概就是這些,小編也會在文末中添加兩篇基因家族分析相關(guān)的文章,感興趣的小伙伴可以去自行閱讀學(xué)習(xí)哦~
同學(xué)們完全可以在自己的分析過程中對以上步驟進(jìn)行自由選擇,隨機(jī)組合,取你所想,用你所需。但切記不要照本宣科,千篇一律,但也不要內(nèi)容堆砌,我們要在保證研究完整,嚴(yán)謹(jǐn)?shù)耐瑫r,在最需要的地方做最合適的分析。
思路易得,但研究更需要創(chuàng)新和新意,如何能讓“平平無奇”的基因家族分析變得更有靈魂和思想是我們每個生信從業(yè)者都要面對和解決的難題之一。遺憾的是,小編暫時能想到的只有以下這幾點:首先是寄希望于一些小眾或者最新發(fā)現(xiàn)的基因,試圖在大家走火熱研究思路的同時,開辟一條不一樣的道路;其次是改進(jìn)自己的模型構(gòu)建方法,深入研究算法,提升效能;最后一點就是和實驗和臨床結(jié)合,讓實驗充分證實自己的結(jié)果,但是這個對于實力和財力都有著不小的要求。以上就是我的一點小小看法,肯定有不合適或者偏頗的地方,在這里也希望評論區(qū)的小伙伴們能多多留言,大家一起開拓思路,尋找答案。
參考文獻(xiàn):
Histone Acetylation RegulatorMediated Acetylation Patterns Define Tumor Malignant Pathways and Tumor Microenvironment in Hepatocellular Carcinoma
其他基因家族分析相關(guān)文章:
1.A Novel Ferroptosis-Associated Gene Signature to Predict Prognosis in Patients with Uveal Melanoma
首先基于單因素cox分析識別出與TCGA中UM患者預(yù)后相關(guān)的鐵死亡基因,接著通過LASSO Cox回歸模型構(gòu)建鐵死亡相關(guān)基因的預(yù)后特征,進(jìn)而在獨立數(shù)據(jù)集中進(jìn)行驗證。最后還對鐵死亡相關(guān)基因風(fēng)險評分與UM常見拷貝數(shù)改變,自噬和免疫浸潤之間關(guān)聯(lián)進(jìn)行分析。

2.Glioma-Associated Stromal Cells Stimulate Glioma Malignancy by Regulating the Tumor Immune Microenvironment
研究者基于TCGA和CGGA中膠質(zhì)瘤數(shù)據(jù)集,利用單樣本基因集合富集分析(ssGSEA)算法根據(jù)膠質(zhì)瘤基質(zhì)細(xì)胞(GASC)含量對患者進(jìn)行分型?;趚CELL和CIBERSORT算法分析基質(zhì)細(xì)胞和免疫細(xì)胞的組成并建立神經(jīng)膠質(zhì)瘤的風(fēng)險評分和nomogram預(yù)后預(yù)測模型。
