栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

GATK4 Mutect2 call Short Variant

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

GATK4 Mutect2 call Short Variant

GATK4 Mutect2 call Short Variant

先来看一下GATK 官网对Short Variant的定义:

Short variants include single nucleotide (SNV) and insertion and deletion (indel) variants.

Mutect2

Call somatic SNVs and indels via local assembly of haplotypes

Mutect2有两种模式:

(i) somatic mode:分析中,一个肿瘤样本与正常样本相匹配;

(ii) tumor-only mode: 分析中, 只有一个肿瘤数据比对结果;

(i) Tumor with matched normal

利用提供的正常样本数据,Mutect2 只会找出那些体细胞变异;而在种系中普遍存在的变异会被Mutect2 忽略掉。对于那些在种系中无法很好界定的变异,Mutect2 会保留下来进行后续分析。

调用gatk Mutect2

gatk Mutect2    -R reference.fa    -I tumor.bam    -tumor tumor_sample_name    -I normal.bam    -normal normal_sample_name    --germline-resource af-only-gnomad.vcf.gz    --af-of-alleles-not-in-resource 0.00003125  #变异不存在于种系中的期望值   --panel-of-normals pon.vcf.gz    -O somatic.vcf.gz

Mutect2不需要运算 a germline resource和a panel of normals (PoN) ;只是利用这两个数据来过滤等位的变异位点。

种群等位位点频率格式如下:

  #CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO
      1       10067   .       T       TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC      30.35   PASS    AC=3;AF=7.384E-5
      1       10108   .       CAACCCT C       46514.32        PASS    AC=6;AF=1.525E-4
      1       10109   .       AACCCTAACCCT    AAACCCT,*       89837.27        PASS    AC=48,5;AF=0.001223,1.273E-4
      1       10114   .       TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA  *,CAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTA,T      36728.97        PASS    AC=55,9,1;AF=0.001373,2.246E-4,2.496E-5
      1       10119   .       CT      C,*     251.23  PASS    AC=5,1;AF=1.249E-4,2.498E-5
      1       10120   .       TA      CA,*    14928.74        PASS    AC=10,6;AF=2.5E-4,1.5E-4
      1       10128   .       ACCCTAACCCTAACCCTAAC    A,*     285.71  PASS    AC=3,1;AF=7.58E-5,2.527E-5
      1       10131   .       CT      C,*     378.93  PASS    AC=7,5;AF=1.765E-4,1.261E-4
      1       10132   .       TAACCC  *,T     18025.11        PASS    AC=12,2;AF=3.03E-4,5.049E-5
(ii) Tumor-only mode

单个样本时,使用CreateSomaticPanelOfNormals 生成a panel of normals;

CreateSequenceDictionary 是Picard中一个功能,利用参考序列生成参考序列的索引(.dict).

调用CreateSequenceDictionary

java -jar picard.jar CreateSequenceDictionary  
      R=reference.fasta  # .fasta 或 .fasta.gz
      O=reference.dict

调用gatk Mutect2

 gatk Mutect2    -R reference.fa    -I sample.bam    -tumor sample_name    -O single_sample.vcf.gz

Mutect2 必须设定的参数:

--input  -I  :BAM/SAM/CRAM文件

--output  -O :写入变异信息的加过文件

--reference  -R :参考序列

--tumor-sample  -tumor : 肿瘤样品名




作者:_eason_
链接:https://www.jianshu.com/p/6a689d4a09b6


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/220579.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号