輕松上5分!——連接表型和基因型的橋梁“孟德爾隨機化”
孟德爾隨機化分析簡介
醫學研究中,因果關聯推斷旨在對可控的暴露因素與結局之間的因果關系進行估計與評價,從而通過控制或干預暴露因素的水平改變相應結局。例如特定暴露對于人群發病的影響效應分析、特定藥物或手術方式作用于疾病的療效評估等。基于因果效應的分析與評價,對于確定疾病病因及干預方式、控制疾病進展或預后等方面均具有重要的指導意義.
孟德爾隨機化(MR)是基于全基因組測序數據、能有效減少偏倚、類似于RCT研究、用于揭露因果關系的統計學方法。MR可以用于評估因果推斷,以遺傳變異作為工具變量(IVs)來代表特定的暴露,以推斷暴露與結果之間的因果關系,將表型對表型的因果研究轉化成基因型的研究。優勢在于:個體的遺傳變異先于疾病的結局,這樣便排除了由于逆向因果問題所帶來的混雜偏倚;現代生物信息技術對遺傳變異的測量能夠達到很高的精度,這很大程度上降低了由于測量誤差所帶來的估計偏倚。
單核苷酸多態性(SNPs)是MR分析中最常用的一種遺傳變異,主要是指在基因組水平上由單個核苷酸的變異(轉換和顛換,二者之比為2 :1)所引起的DNA序列多樣性。一般而言,SNP是指變異頻率大于1 %的單核苷酸變異。SNP在人類基因組中的發生頻率比較高,有些SNP位點還會影響基因的功能,導致生物性狀改變甚至致病,是研究人類家族和動植物品系遺傳變異的重要依據。因此被廣泛用于群體遺傳學研究和疾病相關基因的研究,在藥物基因組學、診斷學和生物醫學研究中起重要作用。
基因座(基因組中特定的位點?;蜃梢允峭暾蚧騿蝹€核苷酸堿基對)中特定位點的單個核苷酸堿基已被不同的核苷酸取代,而出現在每個基因座上的不同可能的核苷酸稱為等位基因(Alleles)。如果一個基因座中存在多個不同的等位基因,我們可以將這個基因座稱為是具有多態性的。根據等位基因出現的頻率,可以進一步分為主要的等位基因(major alleles)和次要等位基因(minor alleles)。給定SNP的群體中次要等位基因(最小等位基因)的比例稱為“次要等位基因頻率(最小等位基因頻率,MAF)”。MAF常用來作為篩選SNP的條件。
MR模型中,遺傳變異作為工具變量需滿足3個核心假設:

關聯性性假設:遺傳變異(Z)與暴露因素(X)之間存在穩健的強相關關系(γ≠0)。獨立性假設:遺傳變異(Z)與影響“暴露因素(X)—結局(Y)”關系的混雜因素(U)獨立(φ1=0)。排他性假設:遺傳變異只能通過暴露因素對結局產生作用,而不能通過其他路徑影響結局(φ2=0)。
孟德爾隨機化分析流程為:
第一步:是找工具變量,作為工具變量的基因都是從別人的研究中挑出來的。所有的基因研究有個專門的庫叫做genome wide association studies (GWAS)??梢赃x擇從GWAS原文中獲取、從已經發表的MR文章中獲取、R program提取等方法;挑出來研究和暴露相關的基因SNPs。
第二步:估計的工具變量對結局的作用,工具變量對結局的作用也是從所有的研究中估計出來的整體效應,這樣可以拒絕單個研究的偏倚。
第三步:合并多個SNP的效應量,這個效應量是我們得到暴露和結局因果效應的前提。
第四步就是用合并后的數據進行孟德爾隨機化分析和相應的敏感性分析。
孟德爾隨機化分析的要求:1)、數據必須至少包括5列信息:SNP列;暴露的beta值;暴露的se值;結局的beta值;結局的se值。這里的beta值就是SNP對表型(暴露或者結局)的效應量,se是beta值的標準誤(standarderror)。2)必須要保證暴露和結局的效應等位基因(effect allele)一致,將暴露和結局的SNP等位基因方向協同,根據EAF大小,剔除不能判斷方向的palindromic(回型)SNP和incompatible SNP (A/G vs. A/C);3)檢查是否有SNP與結局強相關。
敏感性分析的作用:1)評估結果是否穩健,結論是否靠譜;2)評估結果是否有潛在的偏倚(比如基因多效性,數據異質性);3)評估是否存在某一個工具變量嚴重影響結局變量;敏感性分析主要用一下三個方法:1)基因多效性檢驗;2)異質性檢驗;3)“leave-one-out”法逐步剔除法,看每剔除一個SNP后,剩余SNP的效應值變化大不大。
由于現有觀察性研究往往止步于相關性的判斷,無法很好的控制混雜因素和排除由于逆向因果關系,可能在同一問題上,不同的研究會得到不同結果,并引發爭議。MR非常適合在此類問題上做出基于因果效應的分析與評價,對于確定疾病病因及干預方式、控制疾病進展或預后等方面均有重要意義。
比如今天分享的文章,作者首先發現端粒長度與乳腺癌患病風險的相關性在臨床研究中存在爭議,且只有其中少數研究區分了雌激素受體(ER)不同的表達狀態(陽性或陰性)。后作者就此問題設計了孟德爾分析(MR),得到因果效應關系。文章于2022/10/21發表在Frontiers in Oncology(IF 5.7)雜志,題為“Relationship between telomere length and the prognosis of breast cancer based on estrogen receptor status: A Mendelian randomization study”。
作者通過孟德爾隨機化(MR)分析,將與暴露因子(端粒長度)相關的遺傳變異作為工具變量(IVs)來評估暴露因子(端粒長度)和具有不同雌激素受體(ER)表達狀態的乳腺癌患者的預后的相關及因果關系。由于等位基因是隨機分配的,因此MR分析可以有效消除混雜因素的影響,并推斷暴露與結果之間的因果關系。因ER表達狀態有陽性和陰性表達兩種,作者先通過雙樣本MR分析了端粒長度對乳腺癌患者整體預后的影響。接下來,再分別評估了端粒長度與ER+和ER-乳腺癌患者預后之間的關系。
背景
乳腺癌是全世界女性最常見的癌癥之一,占女性癌癥死亡率的15%。影響罹患乳腺癌的風險和死亡率的危險因素包括乳腺癌的一級家族史,較早初潮的年齡,較晚的初次生育年齡,較晚的絕經年齡,超重或肥胖,口服避孕藥和外源激素的使用等。
雌激素受體(ER)是乳腺癌重要的預后指標,大約70%的乳腺癌可以表達ER并對激素治療敏感,因而比ER陰性的患者具有更好的預后。端粒是TTAGGG的串聯重復序列,具有防止DNA雙鏈斷裂、染色體融合和降解的功能。在維持DNA結構完整性和調節細胞復制方面發揮著至關重要的作用。端粒隨著細胞分裂周期而縮短,是生物體細胞衰老的標志。因此,端粒已被作為衰老和年齡相關疾?。ㄈ缧难芗膊。┌Y和糖尿?。┑纳飿酥疚飶V泛研究。
端粒長度與乳腺癌發病率和預后之間的關系尚不清楚。一些研究表明端粒長度與乳腺癌患病風險呈正相關,而另外一些研究得到了不同結果。此外,只有少數研究基于ER表達狀態研究了端粒長度與乳腺癌發病率之間的關系,端粒長度與不同ER表達狀態的乳腺癌的預后的關系尚未被研究?,F有的研究得到不一樣的結果,可能是由于現有的觀察性研究不能完全排除反向因果關系和混雜因子,導致結論有偏差。孟德爾隨機化(MR)是一種可以解決這些局限性的方法。
材料和方法
1、數據收集
收集與暴露和結果相關的單核苷酸多態性(SNP)。從MRCIEU GWAS數據庫獲得與端粒長度(暴露)相關的SNP。從乳腺癌協會聯盟(BCAC)進行的大型薈萃分析數據集中收集了與不同狀態的ER的乳腺癌生存率相關的SNP。所有數據都屬于歐洲人群。
2、工具變量的提取
選擇SNP作為IVs,以評估端粒長度和乳腺癌風險的相關性及因果關系。根據以下假設(1)關聯性假設:遺傳變異必須與暴露強相關(P<5×10-8);(2)獨立性假設:遺傳變異不能與任何潛在的混雜因素相關;(3)排他性假設:遺傳變異僅通過暴露因素影響結果。
連鎖不平衡(LD)窗口設置為10000 kb,r2<0.01,以確保所選遺傳變異的獨立性。LD指的是不同基因座(loci)的等位基因(allele)之間非隨機(nonrandom)的關聯,使用兩個參數r2和kb來衡量。r2:它是0~1之間的數據,越小則表示兩個SNP間是越是完全連鎖平衡的,也即這兩個SNP的分配是完全隨機的。kb:指考慮連鎖不平衡的區域長度,因在遺傳學上在染色體上距離很近的遺傳位點通常是“捆綁”在一起遺傳給后代的,這也就導致距離很近的位點之間的r2會很大。
根據PhenoScanner數據庫,檢查了這些SNP是否可能違反假設(2)和(3),排除了與乳腺癌生存密切相關的SNP(BMI,體重,吸煙,膽固醇)。使用MR多效性殘差和異常值檢驗(MR-PRESSO)檢查了所選SNP的可能多效性。此外,為保證暴露和結局的效應等位基因(effect allele)一致,將指代暴露和結局SNP等位基因方向協同,剔除不能判斷方向的palindromic(回型) SNP。所有數據均來自歐洲人口,這可以減少人口分層的影響。根據上述標準排除了不適當的IVs,并使用多種方法來確保結果的準確性。
最后,包括104個SNP(乳腺癌總生存率),99個SNP(ER陽性乳腺癌生存率)和100個SNP(ER陰性乳腺癌生存率)用于進一步研究。
反向方差加權(IVW)方法用于初步分析,以評估端粒長度與ER不同狀態的乳腺癌預后之間的因果關系。反向方差加權是將兩個或多個隨機變量聚合以最小化總和方差的方法,總和中每個隨機變量的權重與其方差成反比,方差通常用于組合獨立研究的結果。使用Wald比率方法計算每個SNP的暴露-結果效應值。為了確保結果的準確性,使用了包括MR-Egger回歸,加權中位數,懲罰加權中位數和最大似然等多種方法。
敏感性分析
敏感性分析用來評估結果是否穩健,結論是否靠譜,是否有潛在的偏倚(比如基因多效性:指一個基因影響多種表型;數據異質性),是否存在某一個工具變量嚴重影響結局變量(一般用“leave-one-out”法);
多效性檢驗:通過漏斗圖和MR-Egger截距測試,以檢測多效性的存在并評估結果的穩健性。
異質性檢驗:通過IVW和MR-Egger檢驗評估異質性,P值<0.05表明研究中存在異質性。MR-PRESSO R軟件包用于評估校正前后MR分析結果之間是否存在差異。
留一法(即leave-one-out法):使用IVW和MR-Egger法,以評估去除一個SNP后,其余SNP的綜合效應與主效應是否一致,如果一致,則表明去除的單個SNP對MR分析沒有產生過度影響。
結果
1、孟德爾隨機化分析
MR分析顯示端粒長度與乳腺癌患者總體預后呈負相關(OR=1.84, 95% CI=1.08-3.14, IVW方法),表明端粒長度是乳腺癌預后的危險因素(圖1)。

圖1
端粒長度也與ER陰性乳腺癌的預后呈負相關(OR=1.89, 95% CI=1.11-3.22,IVW法),表明端粒長度是ER狀態乳腺癌預后的危險因素(圖2)。

圖2
端粒長度與ER陽性乳腺癌(OR=0.99,95%CI=0.62-1.58,IVW法)的預后之間沒有類似的關系(圖3)。

圖3
為了確保研究結果的準確性,還使用其他方法評估了相關性,這些方法的結果是一致的(圖 2和3)
敏感性分析
異質性分析:IVW檢驗(Q=100.710,P=0.545)和MR-Egger檢驗(Q=99.691,P=0.545)在總乳腺癌,ER陰性和ER陽性乳腺癌中均未觀察到明顯的異質性。
多效性分析:MR-Egger截距檢驗顯示P值>0.05,表明不存在水平多效性。MR-PRESSO測試確保了結果的準確性(表1)。
表1

留一法分別逐個剔除SNP后,對于剩下的SNP行效應量估計,結果顯示剔除前和后的效應量沒有較大的差異,提示沒有單個SNP對MR估計結果產生顯著影響。漏斗圖未見異常的估計值(圖S1和S2)。

圖S1(A)

圖S1(B)

圖S1(C)

圖S2(A)

圖S2(B)

圖S2(C)
四、討論與小結
這項研究表明,端粒長度與乳腺癌的預后有關,尤其是在ER陰性乳腺癌中;然而,端粒長度與ER陽性乳腺癌的預后之間沒有顯著相關性。這些發現表明,長端粒可以預測ER陰性乳腺癌的不良預后。
其機制可能在于淋巴細胞在炎癥和腫瘤發生過程中受到刺激,并通過NF-kB途徑調節端粒酶,從而調節端粒長度。長端??赡苁故軗p細胞存活更長時間,并繼續分裂,額外的突變可引發惡變。維持端粒長度是腫瘤持續生長所必需的,特別是在晚期腫瘤中。癌細胞可以通過重新激活上調端粒酶來維持其永生。另外,癌細胞可以逆轉端粒的磨損,以繞過衰老,這被稱為端粒途徑的替代性延長。
這項研究得到類似的結論,長端粒的遺傳易感性可能通過端粒維持途徑影響癌癥死亡率。其機制可能是由于免疫系統受到抑制時,乳腺癌細胞端??s短的速度減慢,細胞凋亡減少。另一種解釋是端粒很短的細胞可能誘導衰老或凋亡,抑制細胞的增殖潛能,從而支持腫瘤抑制活性。端粒在癌癥中的具體功能機制尚不清楚。需要進一步的研究來確定這些機制。激素也與端粒長度密切相關,因為雌激素可以通過其對人端粒酶逆轉錄酶(hTERT)的作用和hTERT的AKT依賴性磷酸化的轉錄后修飾直接參與端粒酶活化促進。
看到這里是否對你有什么啟發呢?作者從一個臨床問題出發,查閱文獻后找出爭議點——分析爭議存在可能的原因——已經有很多類似的文章了,怎么辦呢?那就根據疾病本身的基礎分類,將現有的研究范圍“細化”從而找出研究領域新的空白。
很多與癌癥預后相關結論,都可以巧妙利用這樣思路。通過將癌癥類型,研究人群等等的范圍“縮小”或者“擴大”,從而挖掘出一個新的研究空白。更多思路,請聯系我們~