今年6月份,中國醫學科學院北京協和醫學院的李單青教授等人在《Nature biomedical engineering》(IF= 18.952)發表了文章。他們提出了一種通過機器學習輔助的深度甲基化測序技術——增強型線性分裂擴增測序(ELSA-seq),實現了對于循環腫瘤DNA (ctDNA) 的超靈敏檢測(如圖1)。
在基于甲基化模式的機器學習分類器的輔助下,深度甲基化測序能夠在稀釋因子低至萬分之一的情況下檢測腫瘤來源信號,克服了目前的DNA甲基化分析問題。今天小編就帶大家看看這篇文章~

研究背景:
(1)細胞游離DNA (cfDNA)是指血液中降解的DNA片段,大部分來源于正常白細胞(WBCs)。在癌癥患者中,一部分cfDNA是腫瘤衍生的循環腫瘤DNA (ctDNA),它提供了實時的癌癥基因組快照。ctDNA突變的表征在癌癥診斷、預后和監測方面取得了顯著的成功。
(2)目前,基于下一代測序(NGS)的DNA甲基化分析技術可分為兩類:基于亞硫酸氫鹽轉化的方法和基于富集的方法。其中,亞硫酸氫鹽測序被認為是DNA甲基化分析的金標準,因為它提供了單堿基分辨率的定量。但是,通過亞硫酸氫鹽處理會對DNA造成巨大損害,這就限制了該方法在血液中的應用。而且,轉換后的DNA序列多樣性普遍較差,這就導致了靶標富集偏差、高測序錯誤等問題,這使得基于富集的方法分析也變得十分具有挑戰。
教授介紹:
李單青,男,協和胸外科主任,主任醫師,教授,博士研究生導師。就讀于上海第一醫科大學,1989年就職于北京協和醫院外科,2007年開始任北京協和醫院胸外科主任,是北京協和醫院歷史上最年輕的科主任,擅長普胸外科各種常規及非常規手術,如肺部、胸膜、縱隔、食管賁門各種良惡性疾病。

研究數據:
作者從兩家醫院共招募了308名手術可切除的肺癌患者和261名年齡和性別匹配的非癌癥對照者。原始測序數據(fastq files)可以從NCBI Sequence Read Archive (SRA)存儲庫中獲得,訪問號為PRJNA534206。在合理的請求下,可以聯系作者獲取數據用于相關研究。
研究結果:
一、ELSA-seq的測序概況:
(1)DNA分子需要特定的5’和3’端adapters,以被高通量測序儀“讀取”。如果標記分子斷裂了,就會導致流細胞表面的“seeding”失敗。為了最大限度地減少亞硫酸氫鹽轉化導致的adapters損失,作者首先安排了退化步驟,然后是與單鏈DNA匹配的步驟,以最大限度地恢復原始模板。
(2)adapter連接是另一個常見的限制因素,因此作者設計了“tail-and-tag”策略來提高效率。簡而言之,亞硫酸氫鹽處理后的DNA被末端的脫氧核苷酸轉移酶(TdT)酶變性、去磷酸化,并以富集胞嘧啶的核苷酸尾延伸。然后在大腸桿菌連接酶(tail - tag .1)存在下,將夾板適配器退火到尾部,以促進高效的連接步驟。
(3)接下來,由尿嘧啶耐受性DNA聚合酶從一個共同的錨定位點產生復制鏈,為單標簽中間體提供高分子冗余,以減少下一輪adapter連接(Tail-Tag.2)中模板的丟失。

二、Panel設計和捕獲靶標的性能:
(1)要想對整個人類甲基化組進行深度測序,需要非常高的成本,因此作者基于Gene Expression Omnibus (GEO)和the cancer Genome Atlas (TCGA)數據庫,對白細胞(n = 656)、腫瘤組織(n = 4539)和正常組織(n = 521)的2765個探針區進行甲基化水平研究(如圖4f),重點關注于與常見癌癥相關的表觀遺傳變化上。共篩選到80,672個CpG位點,這些CpG位點橫跨約1.05Mb的基因組區域。
(2)作者利用人淋巴細胞DNA (NA12878)和血漿樣本來評估靶向測序的性能。該測序達到了合理均勻的擴增DNA片段捕獲,60-80%的reads與誘餌區域唯一對齊(目標比),大于90%的誘餌區域被超過200 reads覆蓋(均勻性),其中cfDNA僅為2ng(如圖4g)。
(3)測序cfDNA碎片具有一個長度約160bp的單核小體峰,這與常規方法(TruSeq)的結果是非常匹配的。此外,與單核小體和雙核小體相關的片段的擴增或捕獲偏向性可以忽略不計(如圖4h)。
(4)為了評估共同捕獲偏性,作者計算了每個CpG位點甲基化胞嘧啶殘基的百分比(單個甲基化等位基因頻率,iAF),并發現正負鏈上存在高度相關(皮爾遜相關,ρ=0.90) (如圖4i)。

三、單分子模式的信號識別:
(1)傳統的DNA甲基化分析主要基于iAF,它對采樣方差和技術噪聲敏感。為此,作者設計了一種稱為block index的指標,將顯示相似甲基化狀態的CpG位點分離成不同的block (如圖5a)。共確定了8,312個block,block大小的中位數約為143bp,平均每個block約有13個CpG位點。
(2)作者將每個block的平均甲基化水平定義為平均甲基化等位基因頻率(mAF),并將其與iAF在檢測癌癥相關變化方面的表現進行比較。通過對肺癌(LC)中經常甲基化的SHOX2基因的檢測,發現mAF的接受者操作特征曲線(AUC)下的面積明顯高于iAF,這表明“block”比“site”更具有鑒別能力(如圖5b)。
(3)ELSA-seq的另一個優點是它大大提高了從技術噪聲中分離生物信號的能力。對每個DNA片段的分析顯示出癌癥細胞和健康細胞的不同模式,而化學或測序錯誤通常是分散的。為了突出對比,作者開發了一種叫做甲基化block評分(MBS)的測量方法。其定義為連續甲基化模式的加權發生率與每個reads總CpG位點的比值(如圖5c)。
(4)為了評估MBS的性能,作者將體外甲基轉移酶處理的DNA與lambda DNA以不同的比例混合。(如圖5d)即使是spike-in(0.001)很小的樣本也可以被MBS明顯地與負控制區分開來,而在使用mAF時觀察到大量的信號重疊,這說明了模式識別在提高信噪比方面的優勢。

四、評估ELSA-seq對腫瘤源信號的檢測:
(1)作者通過腫瘤細胞spike-in實驗來評估ELSA-seq的定量準確性。通過對WBC DNA正常的結直腸癌(CRC)患者的DNA稀釋系列,發現在稀釋至1/ 2000 (r2=0.99)時,觀察到的腫瘤比例與預期的腫瘤比例之間存在近乎完美的相關性(如圖6b)。
(2)通過對正常白細胞的重復測序,對該方法的假發現率(FDR)進行了實證評估。(如圖6c)FDR隨著輸入DNA或測序深度的增加而穩步下降,這可能是因為甲基化計數低的標記產生了大部分的假calls,這些標記從泊松噪聲的降低中獲益更多。
(3)作者從3個不同的水平來評估ELSA-seq的檢測極限(LOD):(1)數值模擬:通過對二項分布的甲基化計數建模,發現增加標記物的數量或測序深度可以提高成功率(即靈敏度) 。值得注意的是,隨著ctDNA的比例從1/10,000下降到1/100,000,標記物的大小顯著增加,這表明腫瘤負荷是檢測靈敏度的一個基本限制因素。(2)生物信息學模擬:通過計算將癌細胞的測序reads與健康cfDNA的測序reads以不同的比例混合,進一步驗證了這一理論。(如圖6d所示)在肺癌和結直腸癌樣本的模擬數據集中,ELSA-seq的in silica敏感性達到1/100,000 (P<0.0001,雙尾t檢驗)。(3)實驗評估:肺癌和結直腸癌細胞的DNA加入正常WBC DNA稀釋系列。對兩種細胞系,MBS量化的癌癥信號(即檢出率)均以低至1/10,000的稀釋度檢測(CRC P=0.001, LC P=0.025,雙尾t檢驗)(如圖6e)。
(4)最后,作者將ELSA-seq的LOD與ddPCR和超深突變測序(HS-UMI)進行了比較。在相同條件下,ELSA-seq顯示出至少10倍于突變分析的能力(如圖6f)。

五、設計概念驗證研究(proof-of-concept)和肺癌特異性標記物的選擇:
(1)為了探索ELSA-seq的潛在臨床應用,作者進行了試點肺癌病例對照研究,包括四個順序步驟:標志物選擇、模型培訓與驗證、單盲試驗和跨技術比較(如圖7a)。
(2)在應用于血液樣本之前,通過比較惡性、良性和正常肺組織,作者為肺癌定制了ELSA-seq panel(如圖7b)。用于檢測ctDNA的標記物大小被設定為2000,確保了對于0.001–0.01%的腫瘤負荷能有95%的效能。總共有2473個block被選擇,作者把它們稱為specifiers。對于一部分specifiers的分類實現了92%的靈敏度和100%的特異性,AUC值為0.97,這表明了在同一組織類型中富集腫瘤特異性標記物是一個有效的策略(如圖7c)

六、血漿樣本的早期肺癌檢測:
(1)為了合理地評估效能,作者分別從兩家醫院招募了培訓/驗證和單盲試驗隊列(如圖7a)。共納入308例手術可切除LC患者和261例年齡和性別匹配的對照,這足以評估診斷準確性與期望的統計錯誤。
(2)與組織樣本相比,血液中的甲基化信號不太明顯,盡管其強度隨著疾病分期而增加 (如圖8a)。作者構建了基于軟邊緣支持向量機的分類器,以適應低腫瘤負荷場景中期望信號的高隨機性。訓練/驗證和單盲測試集之間的分類精度(AUC =0.93 vs 0.90)高度一致,這證實了低頻信號的有效建模和過擬合風險的適當控制(如圖8b,c)。
(3)多變量分析顯示腫瘤大小和組織學亞型與ctDNA檢測顯著相關,這與之前的研究結果一致,即腫瘤行為主導著循環系統中ctDNA的豐度(如圖8d,f)

七、ELSA-seq、HS-UMI和ddPCR的平行比較
(1)作者使用來自66例肺癌患者 (P1-P66)和49例正常對照 (N1-N49)的相同血漿樣本,比較了ELSA-seq、HS-UMI和ddPCR方法。
(2)在第1組中,作者僅使用血液樣本進行了雙比較(P1-P34, N1 - N28)。34例肺癌患者中HS-UMI血常規陽性13例,ELSA-seq血常規陽性24例。所有28名正常對照均經兩種方法檢測為陰性,產生了100%的特異性 (95% CI, 88.0-100%, 如圖9a)。報道的突變經常在癌癥病例中發現,因此更有可能與腫瘤相關,而不是與克隆造血有關(如圖9b)。
(3)在第2組中,作者對使用ELSA-seq和HS-UMI檢測的血液樣本以及匹配的腫瘤組織和/或突變的白細胞進行了“三聯比較”(P35-P66, N29-N49, 如圖9a)。在32例肺癌患者中,HS-UMI血液檢測陽性15例,ELSA-seq血液檢測陽性24例(如圖9c,d)。所有21例正常對照均檢測陰性,產生的特異性為100% (95% CI, 84.5-100%)。
(4)總之,ELSA-seq識別的癌癥患者幾乎是HS-UMI的兩倍(48 / 66 vs 28 / 66),同時保持同樣的超低假陽性率(0 / 49)。主成分分析顯示病例和對照明顯分離,這表明該分類器主要是由腫瘤特異性甲基化變化驅動的(如圖7e)。此外,綜合兩種測試的結果,總檢出率最高(54 / 66)(如圖7f)。

文章小結:
作者開發了一種高分辨率的表觀遺傳分析工具——ELSA-seq,用來改善當前對于ctDNA的檢測。該技術能夠良好地保存分子多樣性、有效地抑制噪聲并且具有魯棒的高維建模特征。ELSA-seq分析不需要先前的知識(如活檢組織),因此為不需要手術切除樣本的患者提供了一種解決方案。雖然作者僅證明了該方法在肺癌上有效,但它還是可以定制其他類型的癌癥或體液。該技術可以擴展到很多方面,如腫瘤異質性或應用于其他臨床場景,如治療療效的評估。