基因家族分析是癌癥分析中的重要組成部分,也是對生信小白而言是比較友好便捷的入手點之一,上手簡單快速,易學易懂。今天小編想和大家分享的正是一篇比較經典全面的家族基因分析文章,思路清晰明了,于今年1月底發表在Frontiers in Immunology(現影響因子:7.5607,2021年預測IF:8.048)。另外,小編還會在文末傾情貢獻自己珍藏多年的基因家族分析流程咯,感興趣的小伙伴千萬不要錯過哦~
Histone Acetylation RegulatorMediated Acetylation Patterns Define Tumor Malignant Pathways and Tumor Microenvironment in Hepatocellular Carcinoma
肝細胞癌中組蛋白乙酰化調節因子介導的乙酰化模式定義腫瘤惡性通路和腫瘤微環境
組蛋白乙酰化修飾是最常見的表觀遺傳學修飾方法之一,可以用于調節染色質結構、DNA修復和基因表達。現有的研究主要集中在組蛋白乙酰化在腫瘤發生、腫瘤進展和腫瘤微環境(TME)中發揮的重要作用,但尚未探討組蛋白乙酰化調節因子在TME細胞浸潤、藥物敏感性和免疫治療中的潛在作用和相互作用。本文基于組蛋白乙酰化調節因子的mRNA表達計算HAscore,確定三種組蛋白乙酰化模式及相應患者。三組患者在生存時間,免疫浸潤,藥物敏感性等多方面存在差異。
1.數據
研究隊列:該研究共納入TCGA-LIHC、ICGC-LIRI(日本)、ICGC-LICA(法國)、GSE14520等9套肝癌數據,涉及多達1599例肝癌患者的表達數據以及生存相關數據等進行進一步分析。
研究對象:其次,研究者檢索組蛋白乙酰化修飾相關文獻,對36個公認的組蛋白乙酰化基因進行整理和分析,以確定不同的組蛋白乙酰化修飾模式,其中包括9個writer,12個eraser, 15個reader(圖1A)。
2.組蛋白乙酰化調節因子在HCC中的遺傳和轉錄改變
富集分析表明36個基因主要與組蛋白修飾和癌癥相關通路有關(圖1B)。為確定HCC中組蛋白乙酰化調節因子的基因改變,研究者首先對36個組蛋白乙酰化調節因子的非沉默突變和拷貝數變異(CNVs)的landscape進行分析。在TCGA的HCC隊列中,364個樣本中有95個(26.1%)存在組蛋白乙酰化調節因子的基因改變,主要涉及錯義突變和剪接位點突變(圖1C)。此外,發現CNV,尤其是CNV擴增在這些調控因子中廣泛存在(圖1D)。為確定這些基因變異是否會對HCC患者組蛋白乙酰化調節因子的表達造成影響,研究者進一步比較正常和HCC樣本中這些調節因子的mRNA表達(圖1E)。結果顯示,CNV的變化對組蛋白乙酰化調節因子的表達起著重要的調控作用。此外,根據這36個調控因子的表達,研究者基于無監督一致性聚類對HCC樣本和正常樣本進行區分(圖1F)。

圖1. HCC中組蛋白乙酰化調節因子的基因改變
3.基于36個調節因子確定與臨床特征相關的組蛋白乙酰化模式
研究者共獲取來自TCGA-LIHC、ICGCLIRI(日本)、ICGC-LICA(法國)等9個數據集的1599個HCC樣本的臨床數據和mRNA表達矩陣,以進一步分析36個組蛋白乙酰化調節因子的表達模式。為探討組蛋白乙酰化調節因子的預后價值和表達關系,研究者將具有預后信息的TCGA-LIHC和ICGC-LIRI隊列的mRNA測序數據整合到一個meta隊列中,并基于單因素Cox回歸識別與癌癥預后相關的調節因子。結果表明,HDAC2、HDAC1等多種調節因子與HCC預后有關(圖2A)。相關分析顯示36個調控因子的表達之間存在顯著的相關性。總之,組蛋白乙酰化調節因子之間存在著緊密的相互交流,共同構成一個復雜的網絡,整體調控組蛋白乙酰化修飾,影響HCC的發展。
為確定36個調控因子的表達模式,研究者使用ConsensusClusterPlus對774例HCC樣本(TCGA-LIHC、ICGC-LIRI和ICGC-LICA隊列)的mRNA表達數據進行分類。通過無監督聚類,研究者發現3組不同的組蛋白乙酰化模式(HAcluster_A,HAcluster_B,HAcluster_C)。在GEO meta隊列(GSE14520、GSE76427、GSE116174、GSE104580、GSE112790、GSE121248)中重復組蛋白乙酰化聚類,可以得到相似的結果。此外,主成分分析(PCA)顯示,三種不同的組蛋白乙酰化模式之間的轉錄譜存在顯著差異(圖2D)。在TCGA-LIHC和ICGC-LIRI隊列的聯合數據集中,HAcluster_B組患者的生存概率低于HAcluster_A和HAcluster_C組(圖2B)。GEO聯合數據中可以得到類似結果(圖2C)。與HAcluster_C和HAcluster_A相比,HAcluster_B中的組蛋白調節因子表達升高(圖2E),表面HAcluster_B患者組蛋白乙酰化修飾最活躍,且修飾周期快。這可能是肝癌患者預后的一個危險因素。此外,HAcluster與HCC的臨床特征密切相關。在TCGA HCC隊列中,HAcluster_B顯著富集病毒感染事件、血管浸潤、高TNM分級和高組織學分級(圖2E)。


圖2.組蛋白乙酰化修飾模式及其臨床特征
4.組蛋白乙酰化模式與腫瘤分子背景和免疫浸潤相關
為進一步確定三種組蛋白乙酰化修飾模式在生物學功能上的差異,研究者基于KEGG基因集進行GSVA富集分析。與HAcluster_A和HAcluster_C相比,HAcluster_B富集于致癌激活,細胞周期和凋亡等通路,HAcluster_A和HAcluster_C在幾個與生物代謝相關的通路中富集(圖3A、B)。研究者根據另一研究中獲得的致瘤特征數據進行GSVA富集分析,同樣證實HAcluster_B在大多數惡性通路中富集(圖3C)。此外,HAcluster_B中血管生成、EMT和癌干性的活性也相對較高(圖3C)。
研究者進一步對組蛋白乙酰化調節因子與TME之間關聯進行全面研究,首先基于ssGSEA算法來量化浸潤TME的免疫細胞的相對豐度。Spearman相關分析顯示,調節因子與TME浸潤免疫細胞有很強的相關性(圖3D)。此外,還分析三種組蛋白乙酰化模式下TME細胞浸潤的差異(圖3E)。HAcluster_B中被激活的樹突狀細胞和漿細胞樣樹突狀細胞,自然殺傷細胞等數量較高,激活的CD8 T細胞以及其他重要的腫瘤殺傷細胞和gamma delta T細胞含量較低。以上結果表明,HAcluster_B是一種免疫抑制亞型,其免疫抑制細胞的活躍抵消高度激活的抗原抵制細胞的積極影響,導致HAcluster_B患者預后不良。為證實這一假設,研究者基于Bindea和Thorsson等人的相關基因特征數據,分析三種組蛋白乙酰化模式中的免疫抑制活性、免疫溶細胞效應和抗原呈遞活性的變化。結果顯示,HAcluster_B的免疫抑制和抗原加工活性最高,而HAcluster_B的免疫溶細胞活性最低,與之前的分析一致(圖3F)。

圖3.組蛋白乙酰化模式的生物學特征
5.個體化肝癌組蛋白乙酰化的模型構建
為全面了解三種HAculsters之間的生物學特征差異,基于之前在RNA-seq meta隊列中分析的三個HAcluster,研究者確定591個與患者預后顯著相關的DEGs來表征HAcluster。這些DEGs的GO富集表明,它們主要與組蛋白乙酰化、細胞周期等過程相關(圖4A)。研究者發現,根據這些DEGs可將患者聚為3個表型相關的亞型,分別為geneCluster_A、geneCluster_B和geneCluster_C。大多數DEGs在geneCluster_B中高表達4B)。生存分析表面,geneCluster_b的患者預后最差(圖4C)。研究者基于這些表型相關的DEGs構建一個評分模型(組蛋白乙酰化評分,HAscore),首先采用無監督聚類方法對預后相關DEGs進行分析,將患者分為若干組進行進一步分析。采用一致性聚類算法確定基因聚類的數量及其穩定性,并將這些基因的表達轉化為Z評分,并進行主成分分析(PCA)構建修飾的乙酰化相關基因特征。選取主成分1和主成分2(分別為PC1和PC2)作為特征分數。

研究者發現HAscore與組蛋白乙酰化調節因子和表型相關DEGs的mRNA表達呈正相關。HAcluster_B和geneCluster_B的HAscore最高(圖4D, E)。
接下來,研究者使用Survminer包將患者分為高HAscore和低HAscore組,并基于頻率分布直方圖對不同分類結果進行重疊分析。結果表明,高HAscore組樣本均來自于geneCluster_B(204個樣本中172個,占84.3%),geneCluster A和geneCluster_C中大部分患者是低HAscore組的主要組成部分(圖4G)。以上結果表明,這三種分類計算方法具有較高的一致性。低HAscores的患者生存時間更長(圖4F,4H),并且包含年齡,性別等臨床特征相關的多因素cox回歸分析表明在TCGA-LIHC和GSE14520隊列中,HAscore是一個穩健的、獨立的預后生物標志物(圖4I)。

圖4.個體化肝癌組蛋白乙酰化的模型構建
6.臨床特征、分子特征和與HAscore相關的TME浸潤細胞
研究者進一步探索導致不同HAscore組之間出現預后差異的潛在機制。首先,對HAscore與臨床特征、分子特征和TME等特征之間的關系進行分析。首先探究HAscore與臨床特征的相關性,如圖5A,B所示,HAscore較高與AFP高表達、血管浸潤、病毒感染等HCC預后危險因素相關,進一步表明高HAscore患者的生存預后較差。
另外,除NRF2信號通路外,幾乎所有與癌癥相關的惡性通路(如細胞周期、HIPPO等)均與HAscore顯著正相關(圖5C)。HAscore與腫瘤浸潤免疫細胞、免疫功能的相關性分析表明HAscore與免疫抑制活性的細胞呈顯著正相關,與免疫溶細胞活性呈負相關(圖5C-D),說明HAscore與TME密切相關,高HAscore組被認為是免疫抑制亞型。



圖5.不同HAscore組的臨床特征、分子特征和TME浸潤
7.HAscore與抗腫瘤藥物敏感性
組蛋白乙酰化修飾與腫瘤的功能通路密切相關,HAscore在預測患者相關藥物響應方面具有潛在價值。為驗證這一假設,研究者使用GDSC數據庫評估了癌細胞系中HAscore和藥物反應之間的關系。基于Spearman相關分析,研究者發現西妥昔單抗等42種藥物在低HAscores的細胞系中更敏感,HDAC6抑制劑ACY-1215 等74種藥物則在HAscores高的樣本中可能更敏感(圖6A)。研究者進一步分析這些藥物靶向基因的信號通路,在高HAscores樣本中敏感的藥物主要針對組蛋白乙酰化、有絲分裂、細胞周期和DNA復制等過程。與之前的分析一致,即大多數組蛋白修飾調控因子,細胞周期和DNA復制相關活性在高HAscore組中活躍。此外,在低HAscores樣本中敏感的藥物主要針對MEK2和RTK信號通路(圖6B)。
為檢驗HAscore是否可以預測患者的藥物反應,研究者基于幾個使用相關抗腫瘤藥物治療的數據集,分析藥物反應與HAscore之間的關系。在GSE5851數據集中,對晚期轉移性結直腸癌患者進行西妥昔單抗單藥治療的分析顯示,有應答者的HAscore顯著低于無應答者(圖6C)。低HAscore組的無進展生存期(PFS)明顯長于高HAscore組(圖6D)。HAscore藥物敏感性相關ROC曲線的AUC為0.691(圖6E)。這些結果與在低HAscore組西妥昔單抗的敏感性更高的發現一致。此外,在GSE22219數據集中,對環磷酰胺、甲氨喋呤和5-氟尿嘧啶方案治療乳腺癌患者的分析顯示,高HAscores患者的無進展生存期明顯更長(圖6F)。
基于GSE148623數據集的分析顯示,對HDACi有響應者的HAscore更高,高HAscore患者的PFS更長(圖6G, H)。總之,這些分析表明HAscore在預測患者藥物反應方面具有潛在價值。


圖6.HAscore與藥物響應
8.HAscore與PD-L1或PD-1免疫治療
HAscore與TME密切相關,研究者基于兩個免疫療法隊列檢測HAscore預測患者對ICI治療響應的能力。首先,基于TCGA-ICGC和GEO隊列,分析HAscore和TIDE之間的關系。結果表明,高HAscore組的TIDE得分均顯著較高(圖7A、B),且HAscore與TIDE評分呈正相關。此外,HAscore與MDSC浸潤顯著正相關,表明高HAscore組是一種免疫抑制亞型。此外,對抗PD-L1免疫治療樣本的分析顯示,HAscore低的患者獲益更多,生存時間更長(圖7C)。抗PD-L1阻斷劑完全緩解(CR)或部分緩解(PR)的患者比例在低HAscore組為27%,而在高HAscore組僅為13%(圖7D)。圖7E、F顯示,低HAscore組的新抗原負荷和突變負荷較高(P = 0.00022;P = 0.012),低HAscore組的TIDE評分較低。這與TIDE評分低的患者似乎從IBI治療中獲得更多臨床益處的發現一致。以上結果表明,低HAscores的患者在ICI治療中可以獲得更大的生存優勢和臨床益處。

圖7.HAscore與免疫治療
今天的文章內容大概就是這些,是不是思路超級清晰呢?還沒完全消化吸收的小伙伴也不要怕,今天的干貨,干貨,干貨終于來啦!!!小編珍藏多年的基因家族分析思路傾情獻上,說能發個nature,science那純粹是吹牛,但只要內容嚴謹,寫作能力優秀,思路,內容再稍微出彩,有新意一點,發個7,8分的文章還是有很大可能的。如果有能力的話,再與臨床和實驗一結合,10分也不是沒有可能滴~
在做家族基因分析時,我們的首要任務是選好研究主題,只有主題有新意,有創意才能先人一步吸引到審稿人的目光。至于具體選擇,不論是最近火熱的鐵死亡,自噬,衰老,DNA損傷修復還是免疫相關基因,完全取決于你和你想要研究的癌型的特點。
1.基因landscape:展示基因在相應癌癥中的突變,拷貝數改變,差異表達,差異甲基化等,說明該家族基因與某癌癥形成發展高度相關。
2.基因篩選:在家族基因過多或分類效能不足時對基因進行篩選,獲取最佳基因集合。篩選方法主要包括:
a.差異分析(正常 vs 癌癥;突變 vs 野生等)。
b.預后分析(高表達 vs 低表達;突變 vs 野生;拷貝數改變 vs 拷貝數不改變;單因素cox分析等)。
c.相關分析:與其他基因表達,免疫細胞浸潤特征,與藥物響應等的的相關性分析。
d.其他(變異系數等)。
3.模型構建:基于篩選出的特征基因構建分類模型。分類方法主要包括簡單的多因素cox回歸分析,lasso cox回歸分析,特征基因表達一致性聚類,主成分分析,以及難度較高的神經網絡,深度學習等。
4.模型評估:評估模型的分類效能。
a.預測性能評估:獨立數據集驗證,AUC(ROC曲線下與坐標軸圍成的面積),C-index指數,與已知預后模型的比較。
b.獨立性評估:多因素cox回歸分析判斷預測模型是否獨立于性別,年齡等臨床特征。
5.不同分子亞型的比較:基因表達,通路活性,TP53突變,免疫細胞浸潤比例,免疫得分,HRD打分等預后特征。
6.列線圖模型的建立和驗證。
7.亞型與藥物響應:將組織中分類模型應用到細胞系或其他用藥數據中,評估不同類別與藥物響應之間的關系。
8.結合實驗或者自測數據對自己的結果進行驗證。
9.其他:在以上基礎上,可以適當利用單細胞分析,ATAC-seq分析等進一步充實文章內容,補充實驗結果。
家族基因分析的流程大概就是這些,小編也會在文末中添加兩篇基因家族分析相關的文章,感興趣的小伙伴可以去自行閱讀學習哦~
同學們完全可以在自己的分析過程中對以上步驟進行自由選擇,隨機組合,取你所想,用你所需。但切記不要照本宣科,千篇一律,但也不要內容堆砌,我們要在保證研究完整,嚴謹的同時,在最需要的地方做最合適的分析。
思路易得,但研究更需要創新和新意,如何能讓“平平無奇”的基因家族分析變得更有靈魂和思想是我們每個生信從業者都要面對和解決的難題之一。遺憾的是,小編暫時能想到的只有以下這幾點:首先是寄希望于一些小眾或者最新發現的基因,試圖在大家走火熱研究思路的同時,開辟一條不一樣的道路;其次是改進自己的模型構建方法,深入研究算法,提升效能;最后一點就是和實驗和臨床結合,讓實驗充分證實自己的結果,但是這個對于實力和財力都有著不小的要求。以上就是我的一點小小看法,肯定有不合適或者偏頗的地方,在這里也希望評論區的小伙伴們能多多留言,大家一起開拓思路,尋找答案。
參考文獻:
Histone Acetylation RegulatorMediated Acetylation Patterns Define Tumor Malignant Pathways and Tumor Microenvironment in Hepatocellular Carcinoma
其他基因家族分析相關文章:
1.A Novel Ferroptosis-Associated Gene Signature to Predict Prognosis in Patients with Uveal Melanoma
首先基于單因素cox分析識別出與TCGA中UM患者預后相關的鐵死亡基因,接著通過LASSO Cox回歸模型構建鐵死亡相關基因的預后特征,進而在獨立數據集中進行驗證。最后還對鐵死亡相關基因風險評分與UM常見拷貝數改變,自噬和免疫浸潤之間關聯進行分析。

2.Glioma-Associated Stromal Cells Stimulate Glioma Malignancy by Regulating the Tumor Immune Microenvironment
研究者基于TCGA和CGGA中膠質瘤數據集,利用單樣本基因集合富集分析(ssGSEA)算法根據膠質瘤基質細胞(GASC)含量對患者進行分型。基于xCELL和CIBERSORT算法分析基質細胞和免疫細胞的組成并建立神經膠質瘤的風險評分和nomogram預后預測模型。
