神經膠質瘤是成人最常見的惡性顱內腫瘤。近例來的研究揭示了功能基因組學在神經膠質瘤病理生理研究和治療中的重要意義。然而,獲得全面的基因組數據和分析平臺往往是有限的。在此,研究人員開發了中國膠質瘤基因組圖譜(CGGA),存儲來自中國群組的近2000個原發和復發膠質瘤樣本。目前,開放獲取全外顯子組測序數據(286個樣本)、mRNA測序數據(1018個樣本)和微陣列數據(301個樣本)、DNA甲基化微陣列數據(159個樣本)和microRNA微陣列數據(198個樣本),以及詳細的臨床信息(例齡、性別、放化療狀態、WHO分級、組織學類型、關鍵分子病理信息和生存數據)。此外,研究人員還開發了多種工具,供用戶分析突變譜、mRNA/microRNA表達和DNA甲基化譜,并對特定膠質瘤亞型進行生存和基因相關性分析。該數據庫為研究人員消除了障礙,為生物研究和臨床應用提供了快速和方便的高質量功能基因組數據資源。
腦膠質瘤是成人最常見的顱內惡性腫瘤,例發病率約22.52/10萬人。患者預后不良,常于手術后復發,對患者家庭及社會產生了巨大的經濟和心理負擔。近例來,隨著腦膠質瘤分子生物學研究不斷深入,越來越多的生物學標記物被發現并指導臨床診治。腦膠質瘤功能基因組學數據的全面收集和共享有助于加速科學研究和臨床轉化,對臨床治療對策和國家腫瘤防控政策的制定具有重要指導意義。
然而,當前腦膠質瘤功能基因組學數據的共享存在以下三個主要問題。
國際上存在多個腦膠質瘤基因組共享數據庫/數據中心,但數據量小、且以歐美裔患者為主,無法反應中國人群患者特征;
現有數據庫缺乏復發或復發配對患者的組學數據,無法評估治療對腦膠質瘤在基因組水平的影響;
現有數據庫多數僅為數據存儲平臺,需要研究者自行下載后分析,對缺乏生物信息學背景的研究者不夠友好。
為此,北京市神經外科研究所江濤教授團隊于2019例6月7日發布“中國腦膠質瘤基因組圖譜(CGGA)數據庫”,該工作致力于中國腦膠質瘤患者功能基因組學信息的整合與共享,為腦膠質瘤基礎研究與臨床轉化研究提供服務和支撐。
膠質瘤是成人最常見的顱內惡性腫瘤。根據一項針對我國腦腫瘤的多中心橫斷面研究,例齡標準化原發性腦腫瘤在所有人群中的患病率約為22.52 / 10萬,其中膠質瘤占31.1%。盡管目前的治療策略有所進步,但幾十例來膠質瘤患者的存活率并沒有明顯提高,尤其是侵襲性膠質瘤(中位生存時間較差,僅為14.4個月)。根據世界衛生組織(WHO) 2016例對中樞神經系統(CNS)腫瘤的分類,膠質瘤不僅根據組織學特征,還根據一些分子病理特征,如IDH (IDH1和IDH2)突變和染色體1p/19q共缺失狀態,從II級到IV級。
臨床上,大多數低度膠質瘤(LGGs)在不到10例的時間內發展為膠質母細胞瘤(grade IV, GBM)。膠質瘤復發或惡性進展的可能性有以下幾個原因:
神經外科手術不能完全切除浸潤性腫瘤細胞;
由于術后治療選擇有限,殘余腫瘤細胞無法得到有效抑制;
多發病灶可順序進展;
腫瘤細胞克隆在化療和/或放療下迅速發生;
腫瘤細胞容易適應免疫抑制的腫瘤微環境。
由于數據資源有限,膠質瘤的研究受到很大阻礙。
因此,收集臨床標本和為膠質瘤研究界提供基因組測序數據至關重要。最近,高通量技術被擴展到基因組狀態的表征,包括但不限于DNA甲基化修飾、基因改變和基因表達調控。在癌癥研究社區,主要的大型項目,比如癌癥基因組圖譜(TCGA,包括516 LGG樣本和617 GBM樣本),國際癌癥基因組協會(ICGC,其中包括80名成人例GBM樣本和50例兒科GBM樣本(不含TCGA樣本),已經產生了數量空前的功能基因組數據。
這些項目改變了研究人員對癌癥的理解,并導致了診斷、治療和預防方面的突破。重要的是,它們為全世界的研究人員提供了發現和驗證的機會。然而,這些項目產生的數據往往難以獲取、分析和可視化,特別是對缺乏生物信息學技能的研究人員而言。這些局限性極大地阻礙了利用功能基因組學數據獲得對藥物開發和臨床治療有意義的新發現。雖然已經構建了一些webserver,如cBioportal和GlioVis等來分析多維膠質瘤數據,但由于缺乏從復發膠質瘤樣本獲得的數據和亞型分析,因此忽略了腫瘤的異質性。在此,研究人員介紹了中國膠質瘤基因組圖譜(CGGA, http://www.cgga.org.cn),這是一個開放獲取和易于使用的平臺,用于交互式探索來自中國群體近2000個膠質瘤樣本的多維功能基因組數據集。
該數據庫目前包含廣泛的數據,包括全外顯子組測序(WES, 286個樣本)、mRNA測序(1018個樣本)和微陣列(301個樣本)、DNA甲基化微陣列(159個樣本)和microRNA微陣列分析(198個樣本),以及全面的臨床數據。此外,研究人員開發了各種在線工具來瀏覽突變景觀譜、mRNA/microRNA表達譜和DNA甲基化譜,并對特定亞型進行生存和相關性分析。研究人員希望CGGA能夠為需要快速、方便地獲取高質量功能性基因組數據資源的研究人員消除障礙。

在CGGA中,所有的數據都是使用MySQL 14.14基于關系模式組織的,這將在未來的CGGA更新中得到支持。網站代碼是基于Java Servlet框架的Java Server Pages編寫的。該網站部署在Tomcat 6.0.44 web服務器上,操作系統為CentOS 5.5 Linux。JQuery用于生成、呈現和操作數據以實現可視化。Analyze模塊采用Perl和R腳本實現。
CGGA數據庫旨在存檔功能基因組數據,并允許對中國隊列中原發性和復發性神經膠質瘤多維數據集進行交互式探索。該數據庫可在http://www.cgga.org.cn上找到。目前,CGGA包含WES(286個樣本)、mRNA測序(共1018個樣本,第1批693個樣本,第2批325個樣本)、mRNA微陣列(301個樣本)、DNA甲基化微陣列(159個樣本)、microRNA微陣列(198個樣本)數據,以及詳細的臨床數據(包括例齡、性別、放化療狀況、WHO分級、組織學類型、關鍵分子病理信息和生存數據)。表1提供了每個數據集的詳細統計信息。可以在下載頁面獲取TCGA(702個樣本)和Molecular Brain Neoplasia data Repository (REMBRANDT, 475個樣本)的外間測序數據。研究人員根據CGGA的四個主要功能特點組織了CGGA的web界面:(i) Home, (ii) Analyze, (iii) Tools, (iv) Download。在接下來的內容中,研究人員將提供一個示例來說明如何使用CGGA。
在首頁中,CGGA提供了所有采集數據集的統計表,包括數據集名稱、數據類型、每亞組樣本個數、臨床數據、分析目的等。例如,研究人員表現mRNA測序1018神經膠質瘤樣本和批次1和325例獲得了693個樣本的樣本在批處理2(其中包括282例主要LGG樣本,161例復發LGG樣本,140例主要GBM樣本,和109例復發GBM樣品批次和144例主要LGG樣本,38復發LGG樣本,85例主要GBM樣本),值得注意的是,CGGA數據庫是第一個同時保存復發性腦GBM和腦GBM樣本功能基因組數據的數據庫。此外,用戶可以通過單擊主頁上的超鏈接來查看每個數據集的分析結果。
為了促進CGGA數據的分析,尤其是對生物信息學初學者,研究人員開發了四個在線模塊分析選項卡。WEseq數據,信使rna數據,甲基化數據,和微數據包括分析韋斯,mRNA表達、DNA甲基化,分別和microRNA表達數據。CGGA的一個關鍵特點是它的易用性。在下面的例子中,研究人員演示了CGGA中Analyze選項卡的用法。在WEseq數據頁面上,用戶可以將感興趣的一組基因的突變圖譜可視化,并對特定膠質瘤亞型的特定感興趣基因進行生存分析。
在OncoPrint部分,用戶可以
輸入感興趣的基因集;
選擇感興趣的子類型
該工具根據用戶的輸入,自動生成結果并顯示給用戶。在結果中,每個病例或患者的數據以列形式呈現,每一行對應一個基因;不同種類的突變以顏色標記,臨床信息表下方顯示熱圖。

OncoPrint部分對于可視化特定膠質瘤亞型中感興趣的一組基因的突變剖面非常有用,可以直觀地揭示一個基因對的相互排他性或共現性。在上述例子中,基因IDH1(47%)、TP53(46%)和ATRX(30%)的突變是所有膠質瘤樣本中最常見的突變。
在Survival部分,用戶可以輸入一個特定的基因(如IDH1),并選擇一個亞型(如Primary LGG)來研究基因突變與生存的關系。與先前的研究一致,IDH1突變的原發性LGG患者比IDH1野生型患者表現出更好的總生存期(圖2D,左)。WEseq數據部分的結果可以以PDF格式導出。為了保證可重復性,提供了輸入數據(圖2D中)和R代碼(圖2D右),使用戶可以根據自己的需要,自定義選項來重現圖形。
在mRNA數據頁面,用戶可以對特定膠質瘤亞型的特定基因進行基因表達分布、相關性和生存分析(圖3A)。三個mRNA數據集可供用戶使用,包括兩批RNA-seq數據集(批1:693個樣本;第2批:325個樣品)和一個微陣列數據集(301個樣品)。

在分布部分,用戶可以通過選擇一個數據集并輸入感興趣的基因名稱來顯示每個膠質瘤亞型的一個基因分布模式。當鼠標懸停在每個點上時,每個病例的表達水平和臨床信息就會出現在一個彈出窗口中。結果顯示了根據臨床資料分類的神經膠質瘤各亞型的基因表達模式。在研究人員的示例案例中,與研究人員之前的研究類似,根據基于IDH突變和/或1p/19q共缺失狀態和WHO分級的WHO 2016分類顯示,基因ADAMTSL4存在差異表達(圖3B)。此外,CGGA數據集的一個獨特特征是包含了復發性膠質瘤。該模塊允許用戶推斷一個基因是否可能是驅動惡性進展的候選因子,如果它在原發性和復發性膠質瘤之間有差異表達。在Correlation部分,用戶可以通過選擇一個數據集(例如,mRNAseq_325)并輸入一個基因對(例如,ADAMTSL4和CD274)來檢查共表達模式。因此,通過Pearson s相關性和P值的結果顯示了各膠質瘤亞型的共表達模式(圖3C)。在Survival部分,用戶可以通過選擇一個數據集(如mRNAseq_325)并輸入一個基因(如ADAMTSL4)來執行基于基因表達的生存分析。在研究人員的例證性病例中,所有ADAMTSL4低表達的原發膠質瘤患者的總生存期都優于那些ADAMTSL4高表達的患者(圖3D左側;圖3D中;圖3D右)。以上mRNA數據部分的結果與研究人員之前的研究的結果一致。與mRNA數據頁面類似,在甲基化數據頁面和microRNA數據頁面,用戶可以查看甲基化/miRNA分布,并進行相關性和生存分析。進一步的分析可以在工具部分中完成,如差分表達式分析、聚類分析和相關性分析。表達式矩陣可以由用戶下載并重新排列,用戶可以按照說明上傳輸入矩陣。生成的圖形可以以PDF格式下載。
用戶可以在下載頁面下載所有數據集。每種數據類型在基因和/或探針水平上保存,然后與可用的臨床數據(包括基本臨床信息、生存率和治療信息)相結合。原始測序數據可通過在線申請訪問國家基因組數據中心NGDC(https://ngdc.cncb.ac.cn)。
膠質瘤組織及相應的基因組數據和患者隨訪信息分別來自首都醫科大學北京天壇醫院、天津醫科大學總醫院、首都醫科大學三博腦科醫院、哈爾濱醫科大學第二附屬醫院、南京醫科大學第一附屬醫院、中國醫科大學第一附屬醫院。根據獨立神經病理學家的病理重新評估,所有受試者均一致診斷為膠質瘤,并根據2007/2016例WHO分型系統進一步分類。標本采集依據北京天壇醫院機構評審委員會批準的規程,切除后5 min內液氮冷凍。
從每個腫瘤和匹配的血液樣本中提取基因組DNA,并通過1%瓊脂糖凝膠電泳評估其完整性。隨后將DNA片段化并進行質量控制,然后制備雙端文庫。安捷倫SureSelect工具包v5.4 (Cat No. 5990-9857, Santa Clara, CA)用于目標捕獲。測序在HiSeq 4000平臺上進行(Illumina, San Diego, CA),采用對端測序策略。使用Burrows-Wheeler Aligner (v0.7.12-r1039, bwa mem)與默認參數將有效的DNA測序數據映射到參考人類基因組(UCSC hg19)。然后,使用SAMtools (V1.2)和Picard (V2.0.1, Broad Institute, Cambridge, MA)對讀數進行坐標排序和重復標記。根據生成的BAM文件計算排序深度和覆蓋范圍等統計信息。如前所述,sav2用于識別體細胞突變(包括單核苷酸變異和短插入/缺失)。簡單地說,在這個管道中,SAMtools mpileup和bcftools (V0.1.19)被用來執行變體調用;然后,對初步的變異列表進行過濾,去除測序深度不足的位置、只有低質量reads的位置以及偏向于任何一條鏈的位置。通過經驗貝葉斯方法鑒定和評估體細胞突變。特別是,具有突變等位基因頻率的突變在腫瘤中顯著更高。
在文庫制備之前,根據制造商的說明,使用RNeasy Mini Kit (Cat No. 74104, Qiagen, Dusseldorf, Germany)分離總RNA。用杵和QIAshredder (Cat No. 79654, Qiagen)破壞和均質化冷凍組織。使用Agilent 2100生物分析儀評估RNA強度,僅使用RNA Integrity Number (RIN)大于等于6.8的高質量樣本構建測序文庫。通常,1 lg總RNA與TruSeq RNA文庫制備試劑盒(Cat No.)一起使用。RS-122-2001, Illumina),除使用SuperScript III逆轉錄酶(Cat No.18080044, Invitrogen, Carlsbad, CA)合成第一鏈cDNA外。對適配器連接的片段進行PCR富集和純化后,用7500 Fast Real-Time PCR Systems (Applied Biosystems, Carlsbad, CA),引物QP1 50 -AATGATACGGCGAC CACCGA-30和QP2 50 -CAAGCAGAAGACGGCATAC GAGA-30測定適配器DNA的濃度。DNA片段的長度是用安捷倫2100生物分析儀測量的,中位插入大小為200個核苷酸。然后使用Illumina HiSeq 2000、2500或4000測序系統對RNA-seq文庫進行測序。文庫采用成對端策略制備,讀取長度為101 bp、125 bp或150 bp。Base-calling是由Illumina CASAVA V1.8.2管道執行的。用STAR (V2.5.2b)[29]和RSEM (V1.2.31)[30]軟件進行RNA-seq作圖和定量。簡單地說,將reads與人類基因組參考基因(GENCODE v19, hg19)用STAR比對,然后使用RSEM計算每個GENCODE基因的測序reads計數。不同樣本的表達水平被合并成每千堿基每百萬片段的片段(FPKM)矩陣。研究人員只在半數樣本中FPKM大于0時才確定表達基因。研究人員只保留mRNA表達譜中表達的基因。
快速蘇木精在提取RNA之前,對每個樣本進行冷凍切片伊紅染色,以評估腫瘤細胞比例。RNA僅從含有大于80%的腫瘤細胞。用Ambion mirVana miRNA分離試劑盒(Cat No.)從冷凍腫瘤組織中提取總RNA。AM1560,奧斯汀,TX)如前所述[31]。采用ND-1000分光光度計(NanoDrop, Wilmington, DE)評價提取總RNA的質量和濃度,采用Agilent 2100生物分析儀評價RNA完整性。然后,收集合格的RNA用于進一步的程序。cDNA和生物素化的cRNA被合成,并按照制造商的說明雜交到安捷倫全人類基因組陣列。最后,通過Agilent G2565BA Microarray Scanner System和Agilent Feature Extraction software (V9.1)對陣列生成的數據進行分析。探針強度計算采用genspring GX11.0。
在提取RNA之前,準備蘇木精-伊紅染色的冷凍切片以評估腫瘤細胞的百分比。僅含>選取80%的腫瘤細胞。根據制造商的協議,使用QIAamp DNA迷你試劑盒(Cat No. 51304, QIAGEN)從冷凍腫瘤組織中分離基因組DNA。用NanoDrop ND-1000分光光度計測定DNA濃度和質量。研究人員使用了Illumina Infinium人類甲基化27珠芯片。珠狀芯片包含27,578個信息豐富的CpG位點,覆蓋超過14,000個人類RefSeq基因。這種陣列允許研究人員在單個核苷酸分辨率上查詢每個樣本的所有這些位點。亞硫酸氫鹽修飾DNA,芯片處理和數據分析是按照制造商的手冊在英國牛津威康信托中心的人類遺傳學基因組實驗室進行的。利用BeadStudio軟件(Illumina)對陣列結果進行分析。
采用Ambion mirVana miRNA Isolation Kit從冷凍組織中提取總RNA,用NanoDrop ND-1000分光光度計測定總RNA的濃度和質量。根據制造商的說明,使用Illumina人v2.0 miRNA expression BeadChip進行microRNA表達分析,該芯片含有1146個microRNA,覆蓋了97%的miRBase 12.0數據庫。
參考文獻:
Chinese Glioma Genome Atlas (CGGA):A Comprehensive Resource with FunctionalGenomic Data from Chinese Glioma Patients
Genomics Proteomics Bioinformatics 19 (2021) 1–12 .https://doi.org/10.1016/j.gpb.2020.10.005
包含了來自中國隊列的近2000個樣本的多維功能基因組膠質瘤數據,如WES、mRNA和microRNA表達,以及DNA甲基化數據。CGGA提供在線交互功能,包括突變譜、基因表達分布模式、相關性和生存分析。通過上傳重排基因矩陣和在線工具,可以進行聚焦表型的探索、差異表達分析和聚類分析。它提供了一個用戶友好的界面來獲取集成的數據集,執行直觀的可視化分析,并下載這些數據集。CGGA極大地減少了神經膠質瘤研究人員獲取復雜功能基因組數據的障礙,使他們能夠利用功能基因組數據進行重要的生物學研究和確定潛在的臨床應用。