栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

软件前沿:泛基因组学映射工具Giraffe

软件前沿:泛基因组学映射工具Giraffe

软件前沿:泛基因组学映射工具Giraffe

作者:心如止水

要点:

    软件概览软件算法核心软件安装和使用

hello,大家好,今天为大家带来关于软件前沿 | 泛基因组学映射工具Giraffe的超详细介绍及应用教程。

我们将持续为大家带来生物医疗健康大数据分析的系列文章,欢迎大家关注我们,可以更及时的看到我们的文章哦。

软件概览

近期,美国加州大学圣克鲁斯基因研究所的Benedict Paten研究团队开发了一种泛基因组短读长映射工具——Giraffe,能够高效地将单个测序reads映射到包含数千个人类基因组的泛基因组上,号称能够对SNV、InDels和SV进行更准确的基因分型,且速度可与映射到单一参考基因组的标准方法相媲美。

1.1 背景

目前基于单一参考序列无法很好地捕获群体甚至是个体的基因组多态性。例如,当一个人的基因组因结构变异而与参考基因组不同时,单一的参考基因组可能不包含正确映射相应reads的位置。虽然长读长测序能够很好的解决这个问题,但是短读长测序由于低成本依然是目前基因组学研究的主要手段。随着参考基因组的不断发布以及基因组间的相互比较,人们逐渐认识到单一参考基因组不能代表物种内的多样性,由此,泛基因组(Pan-genome)应运而生。因此,如何高效准确的将短读长映射到泛基因组上成了一个亟待解决的问题。

1.2 研究内容
    来自长序列和大规模测序研究的约167000个结构变异被用来构建泛基因组参考图谱。对5202个样本进行短读长测序,使用Giraffe将读数映射到构建泛基因组参考图谱上,并评估映射的准确性、速度和映射偏差,并和传统的线性基因组映射工具做对比。映射的结果用于变异检测,并评估变体调用的准确性:
    例如将结构变异结果与表达变化关联分析、进行表达数量性状位点识别(eQTLs)和群体频率评估。
1.3 结论

Giraffe可以更全面地描述遗传变异的特征,对变异进行更全面的表征,进而改进基因组分析。

软件算法核心

图A:挑选了CASP12 基因组区域展示构建的泛基因组图(1000GP graph)。不同条带代表不同的路径(即单体型haplotypes),宽度代表log化的人群频率。 此图主要展示泛基因组图谱的基本结构。

图B:比对时的输入包含三个:read序列、构建泛基因组图、GBWT索引(用来有效地存储和查询泛基因组图中的单体型)。(此处,为了便于读者理解,作者将整个read在graph中的真实节点使用不同颜色区分了出来,这样可以直观展示read在整个参考graph和GBWT上分布情况)

图C:read和GBWT 分别做minimizer index,当reads的minimizer能够在GBWT中的匹配时,则确定该minimizer为一个seed, 如图上黑色实线框圈起来的部分。

图D:对前面查找到的seed进行聚类,聚类是根据最小图距离(t,以核苷酸为单位)进行聚类。(距离在t以内的seed聚为一类)

图E:高得分的cluster中的seed沿着haplotype向两边延伸,形成最大无间隙局部对齐。(此处为ungapped alignment,最终形成黑框所示比对结果)

图F:无法延伸的部分使用gapped alignment 解决

软件安装和使用

giraffe工具目前是作为一个功能模块封装在集成工具vg(variation graph tool)里头。vg工具包含了非常多的功能模块/子命令,能够进行变异图化,格式转换,序列映射,基因分型,和变异调用等。

3.1 软件安装

软件链接: https://github.com/vgteam/vg
文章源码: https://github.com/vgteam/giraffe-sv-paper

    直接下载二进制文件(推荐)
wget https://github.com/vgteam/vg/releases/download/v1.38.0/vg
chmod +x vg  #添加执行权限
    源码安装
    相对比较麻烦一些,需要 GCC 4.9 或更高版本,并支持 C++14 来编译 vg。(检查您的版本gcc --version)支持最高 11.2.0 的 GCC。需要 64 位操作系统,
#下载源码
git clone --recursive https://github.com/vgteam/vg.git
cd vg

#对于Ubuntu用户,使用一下命令准备编译环境
make get-deps 
#对于其他的linux版本则使用以下命令安装配置环境
sudo apt-get install build-essential git cmake   pkg-config libncurses-dev libbz2-dev  
   protobuf-compiler libprotoc-dev libprotobuf-dev libjansson-dev 
   automake gettext autopoint libtool jq bsdmainutils bc rs parallel 
   npm curl unzip redland-utils librdf-dev bison flex gawk lzma-dev 
   liblzma-dev liblz4-dev libffi-dev libcairo-dev libboost-all-dev 
. ./source_me.sh && make #开始编译
./bin/vg #测试是否成功
3.2 软件使用

此处,针对泛基因组映射工具giraffe,主要涉及到VG的三个子命令:construct,gbwt,giraffe。
construct 用于构建泛基因组图谱;
gbwt 用于构建graph Burrows-Wheeler transform (GBWT)索引[2],(GBWT 是一个多字符串 FM 索引,用于索引泛基因组图谱上相似路径的大量集合);
giraffe 用于将read快速映射到泛基因组图谱上。

    构建泛基因组图谱
    示例:
./vg construct --fasta hs38d1.fna.gz --vcf HGSVC.haps.vcf.gz --vcf_phasing HGSVC.haps.vcf.gz --fasta_regions --remove_chr_prefix  --out_name HGSVC_hs38d1 
    构建graph Burrows-Wheeler transform (GBWT) index
    示例:
./vg gbwt -p -g output.gg -o output.gbwt -x input.xg –P
    将read快速映射到泛基因组图谱上
    示例:
./vg giraffe -x ${GRAPH}.xg -H ${GRAPH}.${GBWT}.gbwt -g ${GRAPH}.${GBWT}.gg -m ${GRAPH}.${GBWT}.min -d ${GRAPH}.dist -f ${READS}.fq.gz -b ${PARAM_PRESET} ${PAIRED} -t 16 -p 2>log.txt >mapped.gam

以上为我们给大家带来的泛基因组学映射工具Giraffe的基本知识以及详细操作过程。如果对生物医疗健康大数据相关内容感兴趣也可以持续关注我们。

想要探索更多的软件流程或者知识文档,可以到六点了官网[1]看到。

References
[1] 六点了官网: http://www.sixoclock.net
[2] J. Sirén, E. Garrison, A. M. Novak, B. Paten, R. Durbin, Haplotype-aware graph indexes. Bioinformatics 36, 400–407 (2020). pmid: 31406990
[3]Jouni Sirén,Jean Monlong,Xian Chang,Adam M. Novak,Jordan M. Eizenga,Charles Markello,Jonas A. Sibbesen,Glenn Hickey,Pi-Chuan Chang,Andrew Carroll,Namrata Gupta,Stacey Gabriel,Thomas W. Blackwell,Aakrosh Ratan,Kent D. Taylor,Stephen S. Rich,Jerome I. Rotter,David Haussler,Erik Garrison,Benedict Paten,Pangenomics enables genotyping of known structural variants in 5202 diverse genomes, Science, 374, 6574, (2021).

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/753135.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号