高通量DNA測序技術(DNA-seq)是臨床和基礎生物醫學研究的重要手段之一。作為一種常規的技術方法,DNA-seq在多個領域均有廣泛應用,例如個體基因分型和變異鑒定,種群和物種水平的基因組特征比較以及基于宏基因組的種群多樣性。近年來,基因組測序由于成本的大幅降低已變得無處不在。這導致現在出現了各種各樣的樣本收集方式、建庫方式、測序化學和下游生物信息分析方法。在本文中,生物分子資源設施協會(ABRF)對一些測序平臺(HiSeq/NovaSeq/paired-end 2 × 250-bp chemistry, Ion S5/Proton, PacBio circular consensus sequencing(CCS), Oxford Nanopore Technologies PromethION/MinION, BGISEQ-500/MGISEQ-2000和GS111)在人類和細菌參考DNA樣本的二代測序性能進行了測試。一起來看看吧~
關于ABRF
ABRF于1989年正式組建,成員包括來自41個國家/地區、340個不同核心實驗室的1000多位科學家,成員來自工業界、政府、學術界以及研究機構。ABRF致力于通過研究、交流和教育推進生物技術實驗室的核心競爭力和研究。
結果解讀:
實驗設計框架
在幾個平臺上對人和細菌基因組和靶向外顯子文庫進行了測序,包括5個Illumina平臺、3個Ion Torrent平臺、ONT minion(R9.4和Flongle flow cells)和Proomeion、BGISEQ-500、MGISEQ-2000和GenapSys GS111(圖1A)。由于實驗類型的不同,測序深度從較高基因組覆蓋(接近1,000×平均覆蓋)到較低基因組覆蓋(<1×平均覆蓋)不等。大多數全基因組序列文庫具有25倍到80倍的平均覆蓋率(圖1B)。Map-rate在平臺內是一致的,但在不同平臺之間差異很大。并且作者在Illumina、Ion Torrent、ONT和GenapSys平臺上對3個單獨的細菌物種和1個包含10個細菌物種的宏基因組混合物進行了測序(圖1D)。個體細菌物種和宏基因組測序的物種包括各種各樣的基因組大小、GC含量、革蘭氏染色反應和生態位(或者在某些情況下,例如高鹽分親和力會給捕獲會帶來挑戰),這旨在評價每個平臺克服這些因素的能力。

每臺儀器只使用具有足夠覆蓋范圍的replicates (平均覆蓋深度≥10倍,mapping quality截止為MQ20)和每個replicate的全球平均覆蓋率為25倍來計算整個基因組的覆蓋均衡度。所以,由于覆蓋范圍不夠,此處排除了來自GS111和Flong le和R9.4 Minion Flow cell的replicate。作者發現覆蓋范圍在各種平臺之間非常一致,包括short和 long reads (圖2A)。另外,作者還總結了不同環境下平臺之間的的性能(圖2B)。盡管這些平臺可以根據覆蓋性能進行分層,但平臺內的變化很小 (圖2C)。各平臺比拼:根據作者的結果來看各個平臺都有各自的優勢:BGISEQ-500、HiSeq4000、NovaSeq 2x150bp捕獲Alu區域,HiSeq 2500、HiSeq X10和NovaSeq 2x150bp在捕獲L1、L2和低復雜度區域,PacBio CCS和NovaSeq在微衛星區域和簡單重復區域,PromethION平臺則在端粒區域。

根據UCSC RepeatMasker區域表征比對讀數與參考基因組的不一致性比率(即失配率),以評估困難區域的測序性能(圖3A)。錯配也按GC含量的百分比(圖3B)和每read的堿基位置(圖3C)進行分層。作者也總結了在均聚物(圖3D)和其他短串聯重復序列(STR) 區域的錯誤率,按它們的熵排序,對STR基序的復雜性進行衡量(圖3E)。各平臺比拼:測序錯配率與基因組中GC含量相關。在GC含量高和低的區域,各平臺的錯誤率均比較高。錯誤在均聚物重復較高和STR熵較低的區域更常見。在短讀長測序平臺中,BGISEQ-500、MGISEQ-2000提供的測序錯誤率最低。在錯誤模式上,Genapsys和Nanopore平臺最主要錯誤來源是插入/缺失。其他的平臺的錯誤模式主要集中在核苷酸替代。總之,PacBio CCS平臺的錯誤率最低,而GenapSys的STR錯誤率比其他短讀平臺高。

圖3|估計每個平臺的測序錯誤率
幾個常見的生殖系變異callers在不同軟件進行了比較,包括DeepVariant、GATK HaplotypeCaller、Sentieon Haplotyper和Strelka2用于短讀,以及Clair2用于長讀(圖4A)。與之前的覆蓋和錯配一樣,為了在較難的區域比較個平臺準確性和重現性,作者對UCSC RepeatMasker類對變體進行了分層 (圖4B)。除了衡量特異性和敏感性外,還記錄了在每個context中捕獲的變異總數,以及SNV (圖4C)和INDELS(圖4D)平臺之間的重疊。作者還通過突變大小可視化了真陽性INDELs的捕獲(圖4E)。各平臺比拼:在SNV的檢出中,BGI的DNBSEQ平臺最為靈敏,最差的是HiSeq4000平臺。在各個平臺中Indel檢測是不相同的,特別是對于插入(缺失在平臺之間更具可比性)。ONT平臺捕獲的比例最低,其次是BGISEQ-500,Illumina HiSeq平臺,然后是PacBio CCS。NovaSeq 6000使用2 × 250-bp read chemistry,是捕獲已知INDELs的最強大的工具。

圖5A顯示了所有數據集的總體統計信息,以及每個樣本的SV調用分布。SV call集在基因組的特定區域沒有顯示任何聚集,分布在整個基因組中(圖5e)。很明顯,來自SV caller可變性的假陽性主要是由LumPy的SV calls,其次是Delly和Manta(圖5B)。在HiSeq X10上識別的SVs中,共有14.43%(42)是唯一的假陰性,相比之下,HiSeq 4000上識別的SVs為13.90%(36 SVs),HiSeq 2500上的SVsS為8.77%(20)。總體而言,73.17%的SVs與HG002參考集重疊,表明假陽性數量較少,replicates之間的一致性較高(圖5e)。各平臺比拼:在各平臺數據中,HiSeqX10檢測到SVs數量最多,其次是HiSeq4000和HiSeq2500。檢出假陽性最多的平臺依次是HiSeq2500,HiSeqX10和HiSeq4000。

作者接下來對于GC差異較大的原核細菌基因組進行了測序分析,包括三種單一菌種和十種細菌的混合物。各樣本分別于MiSeq、Ion PGM和 Ion S5平臺測序。對于宏基因組庫((American Type Culture Collection (ATCC)MSA-3001 Mix),作者發現在平臺內和平臺之間的分類組成都有很大的變化(圖6A)。雖然平臺內的復制彼此高度相似(除了Ion Torrent PGM),仍檢測到平臺特定的成分(圖6B)。與測序平臺無關,分類組成明顯受每個分類單元的GC含量的影響(圖6C)。各平臺比拼:細菌基因組捕獲的影響因素主要為菌種差異和測序平臺差異。在各個平臺中,ThermoFisher的Ion PM和S5平臺在錯誤率角度略勝一籌。對于復雜的宏基因組樣本,所有平臺都能夠識別混合物中的所有菌株,但對基因突變的捕獲水平差異較大。

全文總結:
目前,海量的DNA-seq數據可以作為一個強大的基準資源,促進臨床應用的進一步標準化,以及評估新的方法、化學和方案。但評估大規模平行DNA-seq平臺的重現性、準確性和實用性仍然是一個挑戰。本文在GIAB、the Global Alliance for Genomic Health和UCSC提供的資源的基礎上,對當前新興測序技術進行了公正的評估。測評了不同測序技術和平臺的性能,這些發現可以為測序平臺的選擇和分析提供重要的參考信息。
參考文獻
[1] J. Foox, S.W. Tighe, C.M. Nicolet, J.M. Zook, M. Byrska-Bishop, W.E. Clarke, M.M. Khayat, M. Mahmoud, P.K. Laaguiby, Z.T. Herbert, D. Warner, G.S. Grills, J. Jen, S. Levy, J. Xiang, A. Alonso, X. Zhao, W. Zhang, F. Teng, Y. Zhao, H. Lu, G.P. Schroth, G. Narzisi, W. Farmerie, F.J. Sedlazeck, D.A. Baldwin, C.E. Mason, Performance assessment of DNA sequencing platforms in the ABRF Next-Generation Sequencing Study, Nat Biotechnol, 39 (2021) 1129-1140.