全基因組分析,數(shù)十年以來(lái),都是先將測(cè)序數(shù)據(jù),比對(duì)到一個(gè)線性的參考序列上,之后進(jìn)行變異檢測(cè)。但當(dāng)樣品和參考基因組存在較大差異,或種群多樣性較高時(shí),受限于線性的參考基因組帶來(lái)的比對(duì)偏向性,會(huì)影響變異檢測(cè)的準(zhǔn)確性和敏感性。而采用包含已知變異信息的圖結(jié)構(gòu)做參考基因組,基于此進(jìn)行變異檢測(cè),被稱為泛基因組,是未來(lái)大人群研究的新方向。

圖參考基因組范例,其中的每個(gè)環(huán)狀結(jié)構(gòu),代表種群上的變異
Science12月16日的論文“Pangenomics enables genotyping of known structural variants in 5202 diverse genomes”,介紹了美國(guó)加州大學(xué)開(kāi)發(fā)的泛基因組比對(duì)工具Griaffe,相比常用的bwa,其速度更快,結(jié)合變異檢測(cè)工具vg,能夠更準(zhǔn)確的檢測(cè)長(zhǎng)度大于50bp的結(jié)構(gòu)變異。

Griaffe的運(yùn)行速度,相比之前的圖參考序列比對(duì)工具,要快一個(gè)數(shù)量級(jí),比常用的BWA minimap2,也快了50%,見(jiàn)下圖

對(duì)于二倍體,雜合變異的兩種堿基,在比對(duì)中所支持的比例理論上應(yīng)該是50%,偏離該比例,說(shuō)明比對(duì)存在偏向性,在低深度時(shí)會(huì)影響變異檢測(cè)的準(zhǔn)確性。下圖對(duì)比了使用bwa比對(duì)到hg19參考基因組和使用vg-map和Griaffe兩種圖比對(duì)工具(比對(duì)到基于千人變異構(gòu)建的圖參考序列)之后使用bcftools mpileup和call進(jìn)行變異檢測(cè)后,不同長(zhǎng)度的Indel和SNP中,突變型支持的堿基比例??梢钥吹絻煞N圖比對(duì)工具,在各個(gè)長(zhǎng)度都接近50%,但bwa比對(duì),隨著變異長(zhǎng)度增長(zhǎng),會(huì)出現(xiàn)變異型比例下降的趨勢(shì),這與短序列對(duì)較長(zhǎng)indel的檢出率下降相關(guān)。

在標(biāo)準(zhǔn)品HG002上,比較使用不同比對(duì)工具,結(jié)合Deep variant進(jìn)行變異堅(jiān)持得到的結(jié)果,左圖比較的是雜合的snp位點(diǎn),其中使用Griaffe得出的結(jié)果,假陽(yáng)性和假陰性都更低。而右圖則是比較長(zhǎng)于50bp的插入刪除的準(zhǔn)確性,可以看到使用Griaffer后,F(xiàn)1在全基因范圍和高可信度范圍,能達(dá)到0.9左右,說(shuō)明Griaffe能以更快的速度,達(dá)到和之前的圖比對(duì)工具在結(jié)構(gòu)變異檢測(cè)上相同的精度。

之前的全基因組研究,受限于方法學(xué),多關(guān)注單堿基變異或短的插入刪除,而對(duì)結(jié)構(gòu)變異,缺少準(zhǔn)確且全面的檢測(cè)方法。該論文通過(guò)使用三代長(zhǎng)讀長(zhǎng)序列檢測(cè)到的變異為金標(biāo)準(zhǔn),對(duì)不同人群的5202人(包含全部千人基因組的樣本)的結(jié)構(gòu)變異進(jìn)行檢測(cè),指出使用泛基因組的工具,可基于短序列,對(duì)結(jié)構(gòu)變異進(jìn)行更精準(zhǔn)的檢測(cè)。
具體流程如下圖,先從比對(duì)生成的cram文件中,結(jié)合圖參考基因組的index文件,拿到原始的read文件,之后使用Griaffe進(jìn)行比對(duì),再進(jìn)行結(jié)構(gòu)變異的變異檢測(cè),其中大部分的計(jì)算,都花在比對(duì)上,單樣本全流程的核時(shí)數(shù)在206小時(shí),相比傳統(tǒng)的全基因組分析更快。右圖比較了使用不同的圖參考基因組后,長(zhǎng)的插入和刪除的平均F1值,相比之前的結(jié)構(gòu)變異檢測(cè)更準(zhǔn)。

對(duì)得出的結(jié)構(gòu)變異,進(jìn)行PCA分析,可以得出和snp類似的結(jié)果,見(jiàn)下圖,這意味著在人群中,不同種族在結(jié)構(gòu)變異上存在著頻率差異,例如VNTR基因上的變異,在非洲人群中出現(xiàn)的比例超過(guò)14%,而在其它人群中低于3%。

Griaffe的安裝和使用都很簡(jiǎn)單,github(https://github.com/vgteam/vg)上有編譯好的二進(jìn)制文件,下載后可在linux平臺(tái)直接運(yùn)行。之后可以基于參考基因組和變異的vcf文件,構(gòu)建圖參考序列的index文件,推薦選擇和研究人群相近的群體,或者多樣性高的群體變異信息(需包含每個(gè)個(gè)體的變異情況)
命令如下:
vg construct -r small/x.fa -v small/x.vcf.gz >x.vg
構(gòu)建好的圖參考序列,可以進(jìn)行可視化,或壓縮為二進(jìn)制文件節(jié)省存儲(chǔ)。
之后的比對(duì)過(guò)程,先生成后綴為gam的圖比對(duì)結(jié)果,之后轉(zhuǎn)換為常用的bam文件,可進(jìn)行接下來(lái)的變異檢測(cè),命令如下:
vg map -T x.sim.txt -x x.xg -g x.gcsa > aln.gam
vg surject -x x.xg -b aln.gam > aln.bam
新檢出的樣本上的變異,還可以用來(lái)擴(kuò)展參考序列的多樣性,即疊加式的構(gòu)建更準(zhǔn)確的圖參考基因組,該操作的輸入是圖參考序列和比對(duì)生成對(duì)的.gam文件,輸出是增強(qiáng)后的參考序列,對(duì)應(yīng)的命令是;
vg augment x.vg aln.gam -i -S > aug_with_paths.vg
之后的變異檢測(cè),可以基于bam文件,使用傳統(tǒng)的Deep variant這樣的工具,也可以使用vg,以.gam文件為輸入,通過(guò)以下命令得到檢測(cè)結(jié)果:
vg pack -x x.xg -g aln.gam -Q 5 -o aln.pack
vg call x.xg -k aln.pack > graph_calls.vcf
對(duì)于多樣本的情況,可以使用bcftools merge,對(duì)檢出的變異進(jìn)行合并。對(duì)于結(jié)構(gòu)變異,該研究中將刪除或插入位置在20bp之內(nèi),且序列相似度在80%以上的變異,在群體上合并,據(jù)此計(jì)算人群頻率,通過(guò)RepeatMasker進(jìn)行功能注釋。
類似基于比對(duì)結(jié)果,對(duì)參考基因組進(jìn)行增強(qiáng),將新發(fā)現(xiàn)的變異加入?yún)⒖蓟蚪M中,vg也支持輸入為vcf格式的圖參考基因組增強(qiáng),或使用局部組裝得出的長(zhǎng)序列,通過(guò)vg mpmap命令比對(duì)到參考基因組上,構(gòu)建描述結(jié)構(gòu)變異多樣性的圖參考序列,之后使用vg concat命令,將圖參考基因組合并,得到用于結(jié)構(gòu)檢測(cè)檢測(cè)的圖參考序列。
對(duì)于轉(zhuǎn)錄組數(shù)據(jù),也可以使用vg進(jìn)行比對(duì),從而應(yīng)對(duì)不同的可變剪切帶來(lái)的比對(duì)偏向性。先是基于線性參考基因組,變異信息,和注釋文件,構(gòu)建圖結(jié)構(gòu)的index
vg autoindex --workflow mpmap -t 4 --prefix vg_rna --ref-fasta small/x.fa --vcf small/x.vcf.gz --tx-gff small/x.gtf
之后進(jìn)行比對(duì)
vg mpmap -n rna -t 4 -x vg_rna.spliced.xg -g vg_rna.spliced.gcsa -d vg_rna.spliced.dist -f small/x_rna_1.fq -f small/x_rna_2.fq > mpmap.gamp
泛基因組分析,是大規(guī)模人群基因組未來(lái)的發(fā)展方向,不論對(duì)于人群,動(dòng)植物還是微生物,使用包含變異信息的圖參考序列,都能更好的應(yīng)對(duì)基因多樣性帶來(lái)的偏向性。通過(guò)引入高性能圖基因組比對(duì)工具griaffe,降低了使用圖參考序列的門檻。具體首先體現(xiàn)在之前的比對(duì)工具,相比bwa慢4-5倍,而新工具比bwa更快,其次是通過(guò)支持將圖參考序列的比對(duì)結(jié)果轉(zhuǎn)換為bam格式,使得現(xiàn)有的變異檢測(cè)等分析工具可兼容使用。新研究還通過(guò)了大規(guī)模人群數(shù)據(jù),說(shuō)明了短序列使用圖參考序列,可以得出準(zhǔn)確的結(jié)構(gòu)變異檢測(cè)結(jié)果,其人群變異攜帶頻率和之前研究相符合。最后,vg還可以基于從頭組裝的結(jié)果,構(gòu)建圖參考基因組,隨著未來(lái)de novo組裝研究的增多,這將取代基于變異信息構(gòu)建的圖參考序列,稱為泛基因組研究的新方向。