想必很多做科研的小伙伴,都會主要關注基因的轉錄組層面,也就是偏下游,而對更上游的基因組層面,可謂一竅不通。當然,小編自己也是。但是事實上,這樣做科研是不對的。特別是現在如今多組學研究的驅動下,在多個層面來全局把控科研是大勢所趨,況且現在多組學技術的發展是并駕齊驅的,沒有任何一個層面的偏倚。回想起Immugent過去寫的推文,幾乎全是基因下游的轉錄組層面,而很少關注基因組層面的研究。因此,Immugent從今年開始解讀一些基于基因組層面的技術或者文章來寫推文。
相比較于轉錄組層面,其上游的基因組層面是更需要涉獵的,因為它是本質,一切后續的生物學事件都是由基因決定的。我們可以說什么轉錄后修飾也很重要,它決定了基因最終是否發揮功能,以及發揮多大的功能。但是,今天Immugent要說的是如果最開始這個基因都不工作,那么下游的各種轉錄本和蛋白都無重談起。其實用于基因組研究的技術已經有很多了,比如全基因組測序(WGS),全外顯子測序技術(WES),以及全基因組關聯研究(GWAS)等。但這些都不是Immugent今天要講的主角,今天的主場是屬于數量性狀座位/數量性狀基因座(quantitative trait locus,QTLs)。
復雜性狀(Complex traits)通常是指由多個基因和環境共同作用的性狀,包括了數量性狀和常見的疾病等。因此研究復雜性狀的遺傳基礎就不能使用經典的遺傳學實驗手段了(例如,孟德爾的豌豆),而要另辟蹊徑。目前,GWAS和QTL分析是研究復雜性狀遺傳結構的主要手段。與GWAS 相比,QTL定位可算歷史悠久,已經發展了近一個世紀,是研究數量性狀遺傳基礎的主要手段。有趣的是,GWAS 實質是利用連鎖不平衡定位,而QTL的實質,是確定分子標記與QTL之間的連鎖關系,基本原理是QTL與連鎖標記的共分離。當分子標記與某一個性狀的QTL連鎖時,不同標記基因型個體的表型值將存在顯著差異。通過分析表型間差異,就可以推斷與分子標記相連鎖的QTL的位置和效應,也就是定位。如今的QTL分析較之前有很多的改善,可謂是各種混搭了,而且效果不錯,下面Immugent就通過幾篇重磅研究來系統解讀一下TL分析如何用于我們的科研設計中。
1. QTL分析締造兩篇NAR數據庫齊發
上面也說到,有關QTL分析的文章在很久之前就有了,國外很多研究物種進化、基因組相關疾病的課題組一直都在使用這項技術進行研究,但是國內一直都沒有特別出色的相關工作報道。而真正在國內引起巨大轟動的是華中科技大學的一位博后(現在是華中農業大學的老師),她在短時間內連發了兩篇NAR,構建了兩個QTL相關數據庫:PancanQTL和Pancan-meQT,而且全都是通過挖掘現有的QTL數據。PancanQTL和Pancan-meQTL兩款數據庫的數據均來源于The Cancer Genome Atlas (TCGA)數據庫,分別介紹了33種癌癥的eQTL數據以及23種癌癥的meQTL數據,QTL數據又分為cis-QTL和trans-QTL,數據處理過程類似,包括基因型數據、表達數據及甲基化數據收集和處理;協變量分析;eQTL及meQTL識別;survival相關的eQTL/meQTL及GWAS相關的eQTL/meQTL分析等。
圖1:

首先介紹一下這第一個數據庫:PancanQTL。我們知道eQTL分析主要是將基因表達的變化與基因型聯系起來,是理解基因調控和解釋疾病相關位點所必需的。目前鑒定的eQTL主要存在于血液和其他正常組織樣本中。然而,在PancanQTL之前,還沒有數據庫全面提供大量癌癥樣本中的eQTL。因此,作者就利用來自the cancer Genome Atlas (TCGA)的33種癌癥類型的9196個腫瘤樣本的基因型和表達數據,在cis-eQTL分析中鑒定出5,606,570個eQTL基因對,在trans-eQTL分析中鑒定出231,210個eQTL基因對。
圖2:

此外,作者進一步進行了生存分析,確定了22212個與患者總生存期相關的eQTL。最后,作者將這些eQTL與全基因組關聯研究(GWAS)數據聯系起來,并鑒定出337,131個與現有GWAS位點重疊的eQTL。最后,基于上面分析的結果,作者開發了一個用戶友好的數據庫PancanQTL(http: //bioinfo.life.hust.edu.cn/PancanQTL/),用于存儲cis-eQTL, trans-eQTL,生存相關的eQTL和GWAS相關的eQTL,在這個數據庫中支持用戶搜索,瀏覽和下載腫瘤相關的eQTL數據。總之,PancanQTL可以幫助研究者了解遺傳變異在腫瘤發生和發展中的作用。
說完第一個數據庫,繼續下一個數據庫:Pancan-meQTL數據庫。眾所周知,DNA甲基化是調控基因表達的重要表觀遺傳機制,異常的DNA甲基化已在包括癌癥在內的各種人類疾病中被觀察到。此外,單核苷酸多態性可以通過影響DNA甲基化來促進腫瘤的發生、發展和預后,基于此,大量的DNA甲基化數量性狀位點(meQTL)已在生理和病理背景下被鑒定出來。然而,目前還沒有開發出數據庫來系統地分析多種癌癥類型的meQTL。
圖3:

基于以上存在的QTL研究短板,作者首次提出了pancan-meQTL的理念,并且通過整合全基因組基因型和DNA甲基化數據,pancan-meQTL數據庫全面提供來自癌癥基因組圖譜的23種癌癥類型的meQTL。在這項研究中,作者共鑒定出8,028,964個順式meQTL和965,050個反式meQTL。其中,23,432個meQTL與患者總生存時間相關。最后,作者確定了2,214,458個與通過全基因組關聯研究確定的已知位點重疊的meQTL。pacan-meQTL提供了一個用戶友好的web界面(http://bioinfo.life.hust.edu.cn/Pancan-meQTL/),方便用戶瀏覽、搜索和下載感興趣的meQTL數據,該數據庫是研究遺傳學和表觀遺傳學在癌癥中的作用的寶貴資源。
2. 利用QTL數據構建DICE從而鑒定遺傳變異對免疫細胞基因表達的影響
基因組的很多研究都是將遺傳密碼中的數千個變異與人類疾病相關聯在一起,但是這些關聯性并沒有輕易地揭示出這些變異如何影響細胞功能,或者為研究者提供如何可能進行干預以降低風險或治療疾病。許多這些變異發生在基因之間的很大程度上未知的基因組DNA序列中,這些DNA序列可能指導細胞如何以及何時使用某些基因,但是它們實際調節哪些基因仍然是個謎。更重要的是,雖然人體中的每個細胞都含有相同的遺傳密碼,但是不同的細胞使用不同的信息,根據每個細胞在體內的獨特作用來打開或關閉基因。為了準確的揭示各種免疫細胞的這種精密的調控機制,利用QTL數據分析在2018年發表在Cell雜志上的一篇文章,名為:Impact of Genetic Polymorphisms on Human Immune Cell Gene Expression的研究,在當時的免疫學界引起了巨大轟動,這也是將大隊列的QTL數據用于免疫細胞研究的典型范例。
圖4:

為了構建這種免疫細胞QTL圖譜,Vijayanand團隊首先從健康供者的血液樣本中分離出不同類型的免疫細胞。他們隨后評估了供者特異性的遺傳變異,并利用RNA測序確定每種細胞類型中的每個基因的活性水平。這種分析包括了13種類型的免疫細胞。對于其中的兩個免疫細胞類型,除了評估處于靜息的無活性狀態的細胞中的基因活性外,該團隊使用抗體激活這些免疫細胞,刺激方式類似于它們在識別病原體或惡性癌細胞時接受到刺激物,隨后也在這種激活中分析處于這種激活狀態下的基因活性譜。
最終,Vijayanand團隊對1500多個樣本進行了測序和分析,結果就是產生了大量的數據。通過篩選這些數據,該團隊已發現了免疫系統的一些令人吃驚的特征。比如,這些研究人員發現特定類型的免疫細胞中的基因活性在男性和女性之間存在顯著差異。此外,他們發現僅在一種細胞類型中,遺傳變異通常影響附近基因的表達;最重要的是,這些獨特差異在使用全血時可能不會被檢測到。最后,他們還開始跟進一些關鍵的實驗驗證,以便研究他們的數據是否揭示了某些與疾病相關的基因發揮的作用。
圖5:

雖然DICE已是一個人類免疫細胞的寶貴資源,但是Vijayanand團隊承認這種免疫細胞圖譜并不完整。Vijayanand及其同事們隨后繼續開展他們的免疫相關QTLs分析相關工作,以期在這種數據庫中添加更多的活化細胞類型以及更罕見的免疫細胞類型。同時,他們還計劃將其擴展到每個細胞的圖譜,以便包括諸如表觀遺傳圖譜之類的新信息,這將有助于確定基因調控變異的位置。隨后不僅,同樣是他們團隊揭示了常見的基因變異在感染過程中如何影響免疫細胞的功能,相關研究已于去年發表在SCIENCE IMMUNOLOGY雜志上,篇名為:Single-cell eQTL analysis of activated T cell subsets reveals activation and cell type–dependent effects of disease-risk variants,這項研究為CD4+ T細胞亞群之間的基因表達差異提供了迄今為止最深入和全面的QTL信息。
3. ImmuNexUT從基因層面闡述“免疫相關疾病的發病機理”
如果說DICE數據庫只是揭示了生理狀況下各種免疫細胞的基因調控網絡,那么接下來的這項于2021年發表在Cell雜志上的研究,則是利用QTL分析著手解決免疫相關疾病的基因調控網絡,篇名為:Dynamic landscape of immune cell-specific gene regulation in immune-mediated diseases。在這項研究中,作者共納入了來自337名被診斷患有10類免疫相關疾病的患者和79名健康志愿者,并對其中每個樣本共計28個不同的免疫細胞亞群進行分析,最終利用eQTLs解析了不同免疫細胞類型和疾病的獨特的基因表達譜。最終,作者揭示了在免疫條件以及細胞類型背景下 eQTLs 效應的動態變化,這種細胞類型特異性的、和環境相關的 eQTLs 顯示出與免疫疾病相關的遺傳變異的顯著富集,并且與疾病相關的細胞類型、基因和環境有關。
圖6:

首先,作者對416個志愿者的9852個樣本的基因表達數據中進行分析,純化了28種不同的免疫細胞類型,包括幾乎所有類型的外周免疫細胞。作者發現基因表達差異大都可以用細胞類型QTL的差異來解釋,個體間的差異和臨床診斷部分對基因表達變異的解釋程度較輕。作者使用層次聚類分析表明,基因表達模式準確地再現了分離的免疫細胞亞型。每個細胞亞群都有特定表達的基因,包括細胞因子受體或模式識別受體,表明它們對環境信號有不同的反應。為了進一步比較基因模塊失調的模式時,IMD被分為兩組,主要對應于臨床不同的自身免疫性疾病(SLE、MCTD、SSc、SjS、IIM和RA)和自身炎癥性疾病(BD和AOSD)。此外,除了IMD中常見的異常調節途徑外,一些基因在特定疾病中展現出獨特的異常表達情況,暗示了未經識別的致病機制。
為了評估納入患者來源樣本對eQTLs鑒定的影響,作者接下來分別對健康志愿者樣本或IMD患者樣本的每個細胞亞群進行eQTLs分析。結果發現一些eQTLs僅在IMD患者中顯著,并且在不同的細胞類型中IMD特異的eQTLs數目存在差異,但是整體趨勢傾向于髓系細胞較多。與在健康志愿者和IMD患者中均顯著存在的eQTLs相比,IMD特異性的eQTLs在增強子和刺激后誘導的免疫細胞ATAC-seq峰中顯著富集。這些觀察表明,使用不同患者來源的樣本進行eQTLs鑒定有助于在生理條件下識別刺激依賴的eQTLs,這些eQTLs與疾病生物學相關,而在健康志愿者樣本中很難檢測到。
圖7:

最后,作者利用eQTLs數據集來解釋IMD相關的GWAS信號,使用分層LD回歸評分來評估eQTLs與GWAS結果的相關性。當通過聯合回歸分析的eQTLs注釋來制約共享元素時,盡管免疫疾病和免疫細胞eQTLs的特異性關聯仍然存在,但大多數非免疫性狀的關聯會減弱。在某些情況下,GWAS頂部信號的eQTLs效應指向疾病易感基因。因此,作者通過鄰近性評估了NHGRIEBI GWAS目錄中頂級變異的富集情況,結果與非免疫性狀GWAS在GTEx eQTLs中的富集形成對比。并且在系統性紅斑狼瘡患者中進行了免疫細胞亞群的特異性分析,這些亞群特異性和eQTLs可能對免疫細胞編排有很大影響,并可能與復雜的疾病發病機制相關。
4. 單細胞eQTL分析確定自身免疫性疾病相關基因調控機制
這幾年單細胞測序有多火,小編想必就不用多說了。縱觀這幾年生命醫學界,可以說是樣樣都有單細胞,樣樣都能做單細胞。當然,在科技發展迅速的當下,QTL數據也可以實現在單細胞水平的聯合分析。需要注意的是,在單細胞分辨率的數據生成過程中,研究者對遺傳差異如何在細胞水平上促進免疫變異的認識上主要受到兩個挑戰的限制。其中的一個挑戰是對許多樣品進行測序,另一個挑戰是對每個樣品的大量細胞進行測序。但是,解決這些挑戰對于剖析常見異質性疾病的遺傳和分子基礎是非常必要的。因此,一項2022年發表在Science期刊上的研究中,篇名為為“Single-cell eQTL mapping identifies cell type–specific genetic control of autoimmune disease”,多單位合作的研究人員通過構建OneK1K隊列,將單個細胞的基因表達譜和基因圖譜聯系起來。在這項研究,作者不僅對從982名供者體內收集的127萬個外周血單核細胞(PMBC)進行了單細胞RNA測序(scRNA-seq)數據,同時作者還開發了一個用于單個細胞分類的功能框架,通過將scRNA-seq數據與基因型數據相結合,繪制了14種免疫細胞類型中每種細胞基因表達的遺傳效應網絡,并確定了26597個獨立的順式表達數量性狀位點(eQTL)。
圖8:

利用每個基因座上的主要組織相容性復合體(MHC)區域以外的頂級相關eQTL單核苷酸多態性(eQTL single-nucleotide polymorphism, eSNP),這些作者確定了990個反式作用效應,其中的大多數(63.6%)是細胞類型特異性的。他們展示了eQTL如何在從初始狀態過渡到記憶狀態的B細胞中產生動態等位基因效應。
總的來說,他們確定了在整個B細胞成熟過程中表達的1988對eSNP-eGene(gene with an eQTL, 具有eQTL的基因,縮寫為eGene),其中333對eSNP-eGene在B細胞分化過程中具有統計學意義上的等位基因效應變化。在333對eSNP-eGene 中,66%僅從動態eQTL分析中發現,而在細胞類型中獨立測試效應時沒有觀察到,這突顯了研究決定免疫細胞功能的細胞狀態特異性效應的重要性。他們研究了eQTL如何影響特定細胞類型中必需免疫基因的表達變化,并為復雜的自身免疫性疾病中細胞機制的既定假設提供了實驗支持。
圖9:

在這項研究中,作者開發了一個細胞分類框架,并通過結合scRNA-seq數據和基因型數據,他們繪制了14種免疫細胞類型中每種類型的基因表達的遺傳效應,并確定了26597個獨立的順式表達數量性狀基因座(eQTL)。他們發現其中的大多數eQTL對基因表達的等位基因效應是細胞類型特異的。他們的結果在兩個獨立的隊列中得到了重現,其中的一個隊列由與他們的發現隊列不同血統的個體組成。在所有的基因座上,他們的發現隊列和重現隊列在不同免疫細胞類型中的等位基因方向的一致性在72.2至98.1%之間。最后,這些作者整合了七種常見的自身免疫性疾病的遺傳關聯數據,并確定了以細胞類型特異性方式運作的遺傳效應的顯著富集。通過單細胞eQTL和全基因組關聯研究(GWAS)位點的共定位,他們發現19%的順式eQTL與GWAS風險關聯的因果位點(causal loci)相同。利用孟德爾隨機化的方法,他們發現了305個基因座通過特定細胞類型和亞群的基因表達變化導致自身免疫性疾病的因果途徑。
6.展望
就像本文開頭說到的那樣,QTL分析都發展了進一個世紀了,它的體系可謂是非常成熟了,特別是近20年通過高通量測序實現的全基因組多樣本的QTL檢測,將它的優勢發揮得淋漓盡致。此外,無論是開頭最開始講到的PancanQTL和Pancan-meQTL兩款數據庫,還是后面QTL一步步應用在正常免疫細胞,病理狀況下的免疫細胞以及單細胞層面的QTL分析,我們可以看出這項技術的應用方向正在不斷擴展。
在如今這個生物科技迅速發展的時代,做出一項優秀的科研工作所缺的不再是各種技術,而是如何將這些技術很好的串聯到一起,使其每種技術的優勢都發揮得淋漓盡致,這就意味著需要課題的主導者有一個良好的科研思維。科研思維的高度決定了最終成果的高度,而要想找出一個比較優秀的科研思路,我們不需要會做每一項技術,因為這些公司都可以做,但是我們必須知道的是每一種技術的特點和優勢所在,這樣才會有助于我們選擇合適的工具輔助我們做好科研工作。
最后要說的是,無論是GWAS還是QTL分析,目的都是為了找到與性狀/疾病緊密關聯的候選基因。然而找到候選基因僅僅只是一個開始,后續還需要根據方案設計,結合其他組學手段,模型驗證等來深入分析,整個過程可謂任重而道遠。但是對于大多數人來說,我們要學的不是如何分析QTL定位數據,更不是要每個人都去做QTL,那樣就太耗錢耗力了。事實上,我們只需要知道如何利用已經發表的QTL數據得到的結果,對其進行二次挖掘,或者直接用他們分析出的結果,挑選出幾個關鍵的進行驗證即可。當然這樣的思路也有很成熟的體系了,如近幾年很火熱的孟德爾隨機化分析就是其中一類。最后,Immugent就是希望本篇推文能給大家帶來一些關于基因組研究的思考,并運用在自己的科研設計中。
[參考文獻]
[1] Gong J, Mei S, Liu C, Xiang Y, Ye Y, Zhang Z, Feng J, Liu R, Diao L, Guo AY, Miao X, Han L. PancanQTL: systematic identification of cis-eQTLs and trans-eQTLs in 33 cancer types. Nucleic Acids Res. 2018 Jan 4;46(D1):D971-D976. doi: 10.1093/nar/gkx861. PMID: 29036324; PMCID: PMC5753226.
[2] Gong J, Wan H, Mei S, Ruan H, Zhang Z, Liu C, Guo AY, Diao L, Miao X, Han L. Pancan-meQTL: a database to systematically evaluate the effects of genetic variants on methylation in human cancer. Nucleic Acids Res. 2019 Jan 8;47(D1):D1066-D1072. doi: 10.1093/nar/gky814. PMID: 30203047; PMCID: PMC6323988.
[3] Schmiedel BJ, Singh D, Madrigal A, Valdovino-Gonzalez AG, White BM, Zapardiel-Gonzalo J, Ha B, Altay G, Greenbaum JA, McVicker G, Seumois G, Rao A, Kronenberg M, Peters B, Vijayanand P. Impact of Genetic Polymorphisms on Human Immune Cell Gene Expression. Cell. 2018 Nov 29;175(6):1701-1715.e16. doi: 10.1016/j.cell.2018.10.022. Epub 2018 Nov 15. PMID: 30449622; PMCID: PMC6289654.
[4] Ota M, Nagafuchi Y, Hatano H, Ishigaki K, Terao C, Takeshima Y, Yanaoka H, Kobayashi S, Okubo M, Shirai H, Sugimori Y, Maeda J, Nakano M, Yamada S, Yoshida R, Tsuchiya H, Tsuchida Y, Akizuki S, Yoshifuji H, Ohmura K, Mimori T, Yoshida K, Kurosaka D, Okada M, Setoguchi K, Kaneko H, Ban N, Yabuki N, Matsuki K, Mutoh H, Oyama S, Okazaki M, Tsunoda H, Iwasaki Y, Sumitomo S, Shoda H, Kochi Y, Okada Y, Yamamoto K, Okamura T, Fujio K. Dynamic landscape of immune cell-specific gene regulation in immune-mediated diseases. Cell. 2021 May 27;184(11):3006-3021.e17. doi: 10.1016/j.cell.2021.03.056. Epub 2021 May 1. PMID: 33930287.
[5] Schmiedel BJ, Gonzalez-Colin C, Fajardo V, Rocha J, Madrigal A, Ramírez-Suástegui C, Bhattacharyya S, Simon H, Greenbaum JA, Peters B, Seumois G, Ay F, Chandra V, Vijayanand P. Single-cell eQTL analysis of activated T cell subsets reveals activation and cell type-dependent effects of disease-risk variants. Sci Immunol. 2022 Feb 25;7(68):eabm2508. doi: 10.1126/sciimmunol.abm2508. Epub 2022 Feb 25. PMID: 35213211; PMCID: PMC9035271.
[6] Yazar S, Alquicira-Hernandez J, Wing K, Senabouth A, Gordon MG, Andersen S, Lu Q, Rowson A, Taylor TRP, Clarke L, Maccora K, Chen C, Cook AL, Ye CJ, Fairfax KA, Hewitt AW, Powell JE. Single-cell eQTL mapping identifies cell type-specific genetic control of autoimmune disease. Science. 2022 Apr 8;376(6589):eabf3041. doi: 10.1126/science.abf3041. Epub 2022 Apr 8. PMID: 35389779.