Posts 你们的GATK流程需要ubam吗?
Post
Cancel

你们的GATK流程需要ubam吗?

在得到下机fq文件以后,大家第一步是怎么进行往下处理数据的呢?除了QC以后,貌似基本上就是需要将fq文件进行比对了,这也是很常见的第一个步骤。

本人是严格按照官方方式进行流程开发,然而在GATK官方的Best Practice里面发现,官方的流程的起点并不是fq文件,而是ubam文件。如果是fq下机,则需要多一步转换成ubam文件,以及合并比对结果的步骤

这里官方论坛就有一个人对这个问题有疑问ubam作为起始点疑问,可以详细看看里面对ubam的意义的讨论。这里还有官方的一个示意图流程示意图,也非常值得详细查阅

所以按照官方推荐来做,如果下机是fq的话,那就需要fq->ubam->fq->bwa,而不是直接fq->bwa,看起来好像多此一举,但是实际上,按照官方推荐来做的话就是下面这样

FastQ --> BWA - initial map
FastQ --> Picard - uBAM
uBAM + initial map --> Picard - Merge

也就是将最原始的ubam和fq比对后的bam要合并成最后的一个比对文件,至于为什么要这么做,文章提出是因为直接fq比对会损失一些信息(应该主要是soft和hard clip reads),由于这些信息可能会对SNP,Indel以及SV产生影响,所以需要考虑在ubam里面把损失的信息都merge进比对结果里面去,让流程在下游的计算能够考虑进去。

所以,大家所用的流程是怎么设计的呢?当然,因为多了一步从fq->ubam的转换,整个计算过程可能会多耗费一些时间,尤其是全外,全基因组级别的高深度数据,可能会增加上hour级别的消耗,但是金标准的建议,我们得听啊不是!至于soft clip, hard clip之类的信息如何去影响SNP, Indel, SV之类的,暂时也没有这个精力去做对比以及去做原理解析。

总之,在不是大牛的情况下,按照业界金标准的建议来总不会出大问题,尤其是在临床级的开发应用,按照理论的最准确的方式总是应该的。所以,各位该升级的就去升级,该深究的就继续研究去把!

OLDER POSTS NEWER POSTS

Comments powered by Disqus.

Contents

Search Results