肿瘤外显子全流程notes

Part0背景知识

Q：什么是外显子测序呢？
A：外显子组测序是指利用序列捕获或者靶向技术将全基因组外显子区域DNA富集后再进行高通量测序的基因组分析方法。外显子组包含约1%的基因组（约30MB），却包含约85%的致病突变，与个体表型相关的大部分功能性变异也都集中在染色体的外显子区。对于试图揭示超过6,800种罕见疾病原因的遗传研究人员而言，外显子组测序能够识别单核苷酸变异体(SNVs)、小插入缺失(InDels)以及能够解释复杂遗传疾病的罕见的原发性突变。

Q：外显子捕获试剂盒有哪些？
A：目前主要有Illumina、Agilent、BGI、罗氏NimbleGen四家的外显子捕获试剂。NimbleGen和Illumina使用的是DNA探针；Agilent和BGI使用的是RNA探针。

Q：介绍一下全外显子测序工作流程
A：首先将基因组DNA打断成200-300bp,然后末端修复之后加A加接头，LM-PCR 的线性扩增之后使用指定的捕获试剂kit对目标片段进行杂交捕获,再经过LM-PCR的线性扩增后Q-PCR定量，如果文库检测合格后就可上机测序，接下来就是数据下机后的信息分析

Q：介绍外显子捕获效率
A：外显子测序过程中要用到杂交过程。在人的染色体上有许多与外显子有同源性的部分，这些有同源性的部分很可能在杂交过程中也被捕获下来。另外由于是随机打断，可能一条reads上面有外显子区域也有侧翼区域会被一起抓下，这样就会使测到的序列中有一部分不是外显子序列。我们把比对到外显子的序列占全部测序序列的比列称为捕获效率。reads的捕获效率一般在70%-80%，碱基的捕获效率一般在50%-70%。

Q：外显子测序一般建议做多少倍的覆盖？
A：一般做100X或者150X。较高的覆盖倍数，对于测异质性的遗传变异可以发现小比例的突变。另外，外显子测序的覆盖不是特别均匀，这样较高的平均覆盖率有利于保证大部分的区域有足够的覆盖倍数。目前来说，100X的平均深度下，至少有90%的区域覆盖度可以达到10X以上。

Q：外显子捕获也可以像全基因组测序那样做CNV吗？
A：外显子测序因为有一个杂交捕获的过程，这里就会有一个杂交效率的问题。各个外显子的杂交效率是不同的，其同源竞争的情况也不同，所以不同的外显子的覆盖率的差异就很大。所以一般情况下，外显子测序不能用于CNV的检测。但在癌症研究中，利用癌组织和癌旁（或者血液样品）进行对照分析，有方法可以检测CNV。

Q：外显子测序其特有的优点
A：外显子测序是全基因重测序的一个较为经济的替代手段，对研究基因的SNP、InDel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等，一般在疾病研究中，会结合转录组测序一起研究。
我们都知道，人的全基因是3G，如果要把全基因都测一下，一般要平均30x的覆盖，也就是要超过90G的数据，如果样本多的话，费用上可能负担不起。
而外显子只占人全部基因序列的1%，而且是最关键的1%。把外显子全都测了，就相当于抓住了问题的主要矛盾。同时测序量大大降低，数据的存储和运输费用都少很多。这就是用外显子测序来替代全基因重测序的第一个原因。
第二个原因是在做肿瘤测序的时候，肿瘤本身存在着较大异质性，且往往肿瘤的样品的纯度不高。肿瘤的基因序列是不稳定的，一直在变的，也就是肿瘤的深部、浅部可能其基因序列是不一样的。为了测出各种突变，就需要有较深的测序深度，比如100x甚至200x的测序深度。这时候外显子测序就可以做到高的测序覆盖度，同时费用不会太高。

Q：什么是遗传变异
A：所谓遗传变异是生物体内遗传物质发生变化而造成的可以遗传给后代的变异，这些变异导致了生物在不同水品上体现出遗传的多样性。生物信息学中各种基因组研究的基础就是遗传变异的研究，比如进化和各种表型的研究。遗传变异包括单核苷酸多态性(SNP)，小片段的插入缺失(Indel)，结构变异(SV)，拷贝数变异(CNV)等等。区分这些变异简单的方法就是变了几个，其中SNP是单个核苷酸的改变，indel通常是50bp以下的变异，SV和CNV则要更长。

Q：SNV 和 SNP
A：SNP 和 SNV 都是单碱基的突变，但是SNP 是多了一个频率属性的SNV，比如在群体中1%以上。

Q:biallelic and multiallelic
A:biallelic 表示在基因组的某个位点上有两个等位基因，即可以有一个突变等位基因。换句话说这个位置上可能存在一个和参考基因组相同的碱基和一个和参考基因组不同的碱基或者是一个deletion。 multiallelic 多等位基因表示在基因组的某个位点可以观测到三个或者多个等位基因，在vcf文件中可以看到两个或者三个非参考基因组的突变。多等位基因并不常见，在各种vcf文件相关工具中，都可以统计这两种信息。

Q:Transition vs Transversion
A:转换(transition)则是嘌呤被嘌呤，或嘧啶被嘧啶替代，颠换(transversion)是指嘌呤与嘧啶的变化。

Q:SNP 种类
A:全基因组SNP突变可以分成6类（C>A, C>G, C>T, A>C, A>G, A>T）。以A:T>C:G为例，此种类型SNP突变包括A>C和T>G。由于测序数据既可比对到参考基因组的正链，也可比对到参考基因组的负链，当T>C类型突变出现在参考基因组正链上，A>G类型突变即在参考基因组负链的相同位置，所以通常也会将T>C和A>G划分成一类。

Q:SNP的可能影响
A:如果SNP发生在编码区，根据密码子简并性 SNP 不一定会引起编码氨基酸的改变，不引起任何变化的叫做Synonymous SNP，而引起氨基酸变化的叫做Non-Synonymous SNP。如果编码的某种氨基酸的密码子变成另一种，会导致多肽链的氨基酸种类和序列发生改变，这就是一个错义突变。当突变使一个编码氨基酸的密码子变成终止子时，则蛋白质合成进行到该突变位点时会提前终止，这时就是无义突变。

Part1 数据下载

使用prefetch和fastq-dump下载数据

#将这些内容存到Down.txt中SRR1139973  NPC29F-N
SRR1139999  NPC10F-T
SRR1140007  NPC10F-N
SRR1140015  NPC34F-T
SRR1140023  NPC34F-N
SRR1140044  NPC37F-T
SRR1140045  NPC37F-N
SRR1139966  NPC29F-T
SRR1139958  NPC15F-N
SRR1139956  NPC15F-T

cd ~/WES
mkdir {raw,clean,align,qc,mutation}cd raw#以下脚本命名为download.sh#!/bin/bashcat "Down.txt"|cut -f 1 | while read srrdoprefetch $srrdone---------------------------------
nohup bash download.sh &

#以下脚本写入transfer.sh#!/bin/bashcat 'Down.txt' |while read linedoarray=($line)    #括号很重要name=${array[0]}sample=${array[1]}fastq-dump --gzip --split-3 -A $sample ~/ncbi/public/sra/${name1}.sra -O ./ 
done---------------------------
nohup bash transfer.sh

下载的数据如下：

-rw-rw-r-- 1 ubuntu ubuntu 3.5G Aug 25 17:35 NPC10F-N_1.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 3.6G Aug 25 17:35 NPC10F-N_2.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 3.2G Aug 25 16:44 NPC10F-T_1.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 3.3G Aug 25 16:44 NPC10F-T_2.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.7G Aug 25 20:33 NPC15F-N_1.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.8G Aug 25 20:33 NPC15F-N_2.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.8G Aug 25 21:14 NPC15F-T_1.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.9G Aug 25 21:14 NPC15F-T_2.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.8G Aug 25 15:57 NPC29F-N_1.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.9G Aug 25 15:57 NPC29F-N_2.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.4G Aug 25 19:53 NPC29F-T_1.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.5G Aug 25 19:53 NPC29F-T_2.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.0G Aug 26 20:09 NPC34F-N_1.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.0G Aug 26 20:09 NPC34F-N_2.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.2G Aug 25 18:15 NPC34F-T_1.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.3G Aug 25 18:15 NPC34F-T_2.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.1G Aug 25 19:20 NPC37F-N_1.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.1G Aug 25 19:20 NPC37F-N_2.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.2G Aug 25 18:45 NPC37F-T_1.fastq.gz-rw-rw-r-- 1 ubuntu ubuntu 2.2G Aug 25 18:45 NPC37F-T_2.fastq.gz

双端测序，共5个样本，每个样本分为诊断为鼻咽癌（NPC）的患者和正常人

Part2 QC

fastqc+multiqc

qc =/home/ubuntu/WES/qcnohup find ~/WES/raw -name *.gz |xargs fastqc -t 10 -o $qc/ &

qc =/home/ubuntu/WES/qccd $qc
multiqc *.zip

打开multiqc_report.html就能看所有的测序质量
质量很好，不需要处理

raw=/home/ubuntu/WES/rawclean=/home/ubuntu/WES/cleanmv $raw/" $snp.count
sed -i "s/  *//" $indel.countdonepaste *snp*.count >count_all_snp.txt
paste *indel*.count >count_all_indel.txt

sed 's/ /t/g' count_all_snp.txt |cut -f 2 >id.txt
sed 's/ /t/g' count_all_snp.txt |cut -f 1,3,5,7,9,11,13,15,17,19 >count_num_snp.txt
sed 's/ /t/g' count_all_indel.txt |cut -f 1,3,5,7,9,11,13,15,17,19 >count_num_indel.txt

paste id.txt count_num_snp.txt > count_snp_final.txt
paste id.txt count_num_indel.txt > count_indel_final.txt

a=read.table("count_snp_final.txt",sep="t",row.names = 1,col.names =c("NPC10F-N","NPC10F-T","NPC15F-N","NPC15F-T","NPC29F-N","NPC29F-T","NPC34F-N","NPC34F-T","NPC39F-N","NPC39F-T"))
b=read.table("count_indel_final.txt",sep="t",row.names=1,col.names =c("NPC10F-N","NPC10F-T","NPC15F-N","NPC15F-T","NPC29F-N","NPC29F-T","NPC34F-N","NPC34F-T","NPC39F-N","NPC39F-T"))

作者：天秤座的机器狗
链接：https://www.jianshu.com/p/2107fc22e4a8

肿瘤外显子全流程notes

Python相关栏目本月热门文章