基因組不穩定性會導致癌癥的種族差異?
今天給大家分享一篇即將在Theranostics雜志(IF:11.556)發表的文章。這篇文章首次發現肝細胞癌的基因組不穩定性與亞洲人和歐洲人之間的種族差異有關,為理解不同類型癌癥的種族差異提供了一個最好的例子。

一、研究背景
肝細胞癌(HCC)是世界上最致命的癌癥類型之一,其病因多種多樣。HCC的主要危險因素包括病毒感染、酒精攝入以及環境暴露(如黃曲霉毒素),這些因素在世界的不同地理區域之間存在明顯差異。先前已經有研究表征了HCC的多種分子事件和轉錄亞型。但是,HCC基因組的整合分析和跨隊列的種族比較仍然缺乏研究。
本篇文章首先整合了來自世界各地五個大隊列的1349名HCC患者的基因組,并應用多種統計方法來識別驅動基因。隨后,使用TCGA隊列對亞洲人和歐洲人的HCC基因組和轉錄組進行了系統的比較。研究發現了29個新的候選驅動基因,其中許多基因是驅動晚期腫瘤進展的罕見腫瘤抑制基因。通過多模型整合分析,作者發現亞洲人有更高的基因組不穩定性以及一系列分子事件:包括腫瘤突變負擔(TMB)、拷貝數改變以及兩個種族之間明顯分離的轉錄組亞型。作者還發現了一種亞洲人種特有的轉錄組亞型,該亞型具有多個種族豐富的基因組改變,特別是16號染色體的缺失。通過整合多模型信息,研究者發現亞洲患者的生存模型比歐洲患者的預后預測要好得多,這表明亞洲人種在精準醫療應用方面具有更高的潛力。總之,作者首次發現了不同種族間的HCC基因組差異,并強調了不同種族背景的HCC差異疾病生物學的重要性。
二、結果
1.TCGA隊列臨床表型的種族差異
為了系統的研究HCC的種族差異,本文使用的TCGA隊列包括來自兩個種族(161名亞洲患者和187名歐洲患者)的相似數量的多層基因組數據,是進行種族比較的理想隊列。為了進行系統的比較,作者重新處理了從基因組數據共享(GDC)門戶網站下載的原始測序數據,并跨多個層次對兩個隊列進行了比較。比較兩個隊列的臨床變量,最顯著的差異是病毒狀態(p = 6.42e 31,圖1A)。大約60%的亞洲患者是乙肝病毒陽性,而只有25%的歐洲人是病毒攜帶者。此外,歐洲患者中女性患者比例較高(44% vs 21%, p = 7.79e 06,圖1B),且診斷時年齡較大(中位年齡66歲vs 55歲,p = 3.66e 12,圖1C)。

2.不同種族背景的driver頻率相似,但亞洲人的TMB更高
為了評估基因組在多個層次上的種族差異,作者首先比較了兩個種族背景之間的腫瘤突變負擔(TMB),發現亞洲患者的TMB顯著更高(p = 9.90e 03,圖1D)。亞洲人較高的TMB提出了一個有趣的問題: 兩組研究是否在其他分子表型上也存在差異。為了識別driver列表,作者收集了五大隊列的肝癌基因組包括:癌癥基因組圖譜(TCGA, n = 373), 國際癌癥基因組協會(ICGC)數據庫(n = 270 來自日本LIRI-JP數據集, n = 244來自日本LINC-JP數據集,n = 242來自法國LICA-FR數據集),以及韓國隊列(n = 231)。利用大樣本量(n = 1349),作者整合了三種不同的方法,確定了62個肝癌的候選驅動基因。在62個候選driver中,33個基因(53%)與文獻報道的driver列表重疊。最終,29個新的候選驅動因子被鑒定出來。之后作者利用公共隊列中發現的driver基因,系統地比較了TCGA隊列中亞洲和歐洲患者的driver頻率。結果發現除了TP53和CDKN2A外,大多數driver的突變頻率相似(圖1E-F)。盡管兩組人群的病因背景不同(如病毒狀態),但亞洲人和歐洲人之間的driver基因譜相當相似。
3.腫瘤發生過程中突變過程的種族差異
作者使用deconstructSigs將突變分解為HCC中發現的已知突變特征(n = 10)。利用不同突變簽名的貢獻,作者將患者聚類為五個簽名組(稱為SG1-5,圖2A)。SG1和SG2組以SBS5(clock like) 信號為主,在歐洲患者中富集(圖2B-2D)。SG3組具有強馬兜鈴酸(即AA)特征(SBS22)和較高的TMB在亞洲患者中更為常見(圖2A-B)。 SG4研究組的主要特征是SBS5,還有相當比例的SBS4(吸煙),以及其他特征的混合。SG5組具有更高頻率的肝臟相關信號(SBS12和SBS16),也在亞洲患者中富集(圖2A-B)。通過時間和克隆性分析,作者發現吸煙等外部暴露相關的簽名在腫瘤發生的后期明顯較低,而MSI和肝臟相關簽名在腫瘤發生的后期比例較高。提示其在整個HCC發生和發展過程中發揮積極作用。

4.染色體CNV導致亞洲人有更高的基因組不穩定性
作者發現亞洲人的臂部SCNA水平更高(圖2C, p = 0.00036)。在對臨床變量和其他協變量進行控制后,臂部SCNA評分的種族差異仍然顯著(p = 0.02)。將SCNA整體得分分解為單個染色體的貢獻,得到11個組(4個擴增和7個缺失),其中,染色體16缺失和8q擴增在兩個隊列中以不同的頻率發生改變,并且主要富集在亞洲人群中(圖2D)。除了臂水平差異,作者還使用GISTIC算法比較CNAs時,盡管每個隊列都存在私有峰,但隊列間的景觀在定性上保持相似(例如TERT和FGF19擴增和AXIN1缺失,圖2E)。綜上所述,在亞洲HCC患者中,多臂水平的CNV事件導致了顯著更高的基因組不穩定性。
5.亞洲人特有的一種更具臨床侵襲性的轉錄組亞型
這一部分作者探究了更高的基因組不穩定性是否會導致表型分化,特別是種族背景之間的轉錄組差異。作者首先使用非負矩陣分解(NMF),將TCGA中的亞洲和歐洲隊列聚類為兩個亞型(圖3A),并使用SubMap比較亞型的相似性(圖3B)。在兩個隊列中,作者都觀察到一個亞組細胞周期上調(如G2M檢查點),但正常肝功能的代謝通路下調(如膽汁酸代謝)(圖3C-D)。盡管不同隊列的基礎分裂功能相似,但兩組亞型僅對亞洲隊列的總生存率進行了分層。根據亞分區中激活的通路,作者將亞簇命名為P(增殖)和M(代謝)。接下來,將這兩個隊列進一步劃分為三個亞組,亞洲的增殖組(P)和歐洲的代謝組(M)進一步劃分為兩個亞組,匹配的亞組數量仍然是兩個(圖3B, 3E)。在亞洲人群中,P1亞型表現為EMT、炎癥反應和血管生成通路的上調(圖3C、3E),而P2亞型表現為未折疊蛋白反應(unfolded protein response, UPR)和MYC靶基因的11個基因的上調。歐洲人群的M1亞型和M2亞型的表型分化類似于P亞型和M亞型的基礎表型分化,M1細胞周期活性更高,但代謝功能下調(圖3C-D)。接著將亞洲人分成4個亞組,代謝組進一步分為M1/M2, 并且,M1/M2的差異類似于P1/P2的差異,M1具有更高的免疫相關通路表達和EMT。在比較來自亞洲的四種亞型和來自歐洲的三種亞型時,代謝組內的兩個亞組(M1和M2)在兩種種族背景之間匹配良好,并且還有一個亞洲人特有的額外亞組(P2)(圖3B, 3E)。在所有的聚類分析中,亞洲患者的RNA亞組很好地分層了患者的總生存率,但歐洲患者沒有(圖3A)。將轉錄組亞型與臨床和分子表型相關聯,作者發現了一些臨床表型,如甲胎蛋白(AFP)水平在P亞型中富集,CTNNB1驅動突變在M2亞型中富集(圖3F)。

6.富含基因組變化的亞洲人被劃分為轉錄組P2亞型
亞洲富集轉錄組亞型(P2)是最具侵襲性的亞型之一,具有最高的AFP水平和最低的生存率(圖4A)。這就提出了一系列有趣的問題: 這種新的亞型有哪些特定的分子事件? 更重要的是,這些亞型的差異是否與種族差異相關? 這或許可以解釋這種種族特異性亞型的起源? 為了比較P2和其他亞群的基因組事件,作者發現了一系列P2特有的基因組變化: 1)AXIN1突變頻率顯著更高(圖3F, 4B), 2) SCNA強烈升高,CIN70評分水平最高(圖4C)。將SCNA的整體水平分解為亞組時,作者發現P2的16號染色體缺失也顯著更高(圖4D),并傾向于與AXIN1突變共發生(圖4B和4E, p值= 5.6e-12)。3) MYC靶蛋白和未折疊蛋白反應(unfolded protein response, UPR)的表達明顯增加,表明內質網(ER)應激可能對細胞周期產生了響應。4)將轉錄組圖譜分解為免疫組分時,結果發現P2和M2比其他免疫信號水平最低的亞型的免疫低得多,而P2的骨髓源性抑制細胞(MDSC)水平最高(圖4F-G)。為了了解P2亞型是否也存在于其他亞洲隊列中,作者檢索了兩個中國隊列,在這兩個隊列中也發現了P2亞型,且P2亞型患者具有相似的表型,如AFP水平更高、總生存率較低、和16號染色體缺失頻率更高。由于種族差異在驅動頻率上非常小,但在CNAs中更強,接下來,作者將拷貝數事件與整個基因組的基因表達聯系起來。正如預期的那樣,大多數拷貝數變異作為順式調控事件,積極影響基因組附近基因的表達(圖4H)。并且,第16號染色體上的CNV傾向于影響亞洲隊列中整個基因組的基因表達水平(圖4H)。此外,P2亞型患者的差異表達基因(DEGs)與16號染色體缺失患者的差異表達基因(DEGs)在亞洲隊列中高度相似(圖4I)。除了16號染色體的缺失,一系列定義P2亞型的其他基因組事件似乎共同作用于定義P2亞型。例如,以前的研究報道SCNA評分較高的腫瘤往往在癌癥類型中具有較低的免疫浸潤,在這個HCC隊列中也是如此(圖4J, p = 0.0095)。包括16號染色體在內的較高的基因組不穩定性與P2低免疫浸潤和高水平的MDSCs相關(圖4E, 4H, 4J)。最后,作者繪制了跨越臨床特征、基因組變化、轉錄組學和免疫表型等多個層面的P2特異性事件之間的關聯網絡,結果發現一個跨越多個層面的連接良好的網絡,定義了P2亞型(圖4K)。綜上所述,基因組不穩定性的種族差異似乎驅動了基因組差異的集合,從而定義了亞洲特異性轉錄組亞型。

7.綜合生存模型預測的亞洲患者的生存期更好
為了整理臨床和分子特征來分層患者,作者從不同層次收集了多個變量,包括臨床表型(如分期(n = 7),驅動基因(n = 12)和其他分子特征(n = 22)。由于腫瘤內異質性(ITH)越來越被認為是驅動患者臨床結果的重要因素,但在HCC中還未被探索,作者制定了三個ITH指標: 1)晚期突變的百分比(pLM),計算亞克隆突變的比例; 2)突變-等位基因腫瘤異質性(MATH)評分,測量變異等位基因頻率的分布; 3)基于亞克隆比例計算的香農s指數。為了選擇能夠對患者進行分層的變量,作者將隨機森林模型應用于亞洲和歐洲隊列以及聯合隊列(圖5A)。結果發現可以將患者分層的許多變量在兩個隊列中是共享的(圖5B)。當計算多層特征之間的相關性并分別繪制兩個隊列的相關網絡時,作者發現多個特征之間存在很強的相關性(圖5C-D)。雖然大多數特征在單變量Cox模型下能夠顯著分層患者(n = 17),但隨機森林模型選擇的一部分特征在單變量生存分析中不顯著(圖5C-D),提示這些變量與患者總生存率之間存在潛在的非線性關系。通過使用隨機森林模型對這些變量的重要性排序,作者發現免疫特征(如MDSC)和驅動基因(如DOCK2)在患者生存中發揮非常重要的作用(圖5E)。歐洲隊列中ITH特征的高排名似乎反映了隊列中所有變量的不良預后能力。為了驗證亞洲人和歐洲人之間的預測模型是否不同,作者首先使用交叉驗證方法評估了預測模型的準確性(圖5A),并觀察到亞洲人的預測準確性更高(圖5F)。在亞洲隊列中觀察到的預測模型(即c指數)的精度更高(圖5F)。當作者比較有P2亞型和沒有P2亞型對亞洲隊列的預測準確性時,發現排除P2后準確率顯著下降,這表明種族差異確實有助于亞洲人有更好的預測(圖5G)。綜上所述,肝癌的種族差異不僅提供了一個更好的預測亞洲患者生存的模型,而且也表明了對亞洲肝癌更有效的精準醫療方案。

三、總結
隨著組學數據的發展,種族差異的研究現已成為癌癥基因組學的中心課題之一。通過比較亞洲和歐洲的組群,作者首次對HCC基因組進行了系統的比較,并在兩個組群中發現了一系列基因組事件,尤其是較高的基因組不穩定性,似乎推動了亞洲人獨特轉錄組亞型的進化和更好的患者預后預測。這篇文章系統地探究了HCC基因組不穩定性如何導致兩組人群之間的種族差異,為理解不同類型癌癥的種族差異提供了一個范本。
參考文獻
Neslihan A. Kaya1,3 , Jianbin Chen1 , Hannah Lai1 , Hechuan Yang2 , Liang Ma2 , Xiaodong Liu2,15, Jacob Santiago Alvarez1, Jin Liu4 , Axel M. Hillmer5, David Tai6,7 , Joe Yeong Poh Sheng7,8 , Zheng Hu9, Yun Shen Chan10, Pierce K.H Chow11,12,13, Yuguang Mu3 , Torsten Wuestefeld1,3 , Weiwei Zhai1,2,14, *. Genome instability is associated with ethnic differences between Asians and Europeans in hepatocellular carcinoma.