栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Modeller-单模板建模(basic-example实例)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Modeller-单模板建模(basic-example实例)

        本文对应第一个实例:basic_example.zip,分为七部分。七个部分即运行七个脚本,需要安装python后,在cmd命令行下运行。所有文件应该放在同一个文件夹中。我的在d盘demo文件夹中。

运行“cmd”(或者打开modeller程序)

输入“d:”回车

输入“cd demo”回车(你得告诉程序脚本要处理的文件在哪儿放着,把运行目录设置好了)

一、搜模版(build_profile.py脚本)

       蓝框里的文件名都可以改成自己的,当然,不改肯定不会出错。

       pdb_95.pir :必要的输入文件,含有自然界95%蛋白结构的氨基酸序列数据库。

                            如果搜索不到自己想要的结构可以更换完整数据库pdball.pir,官网上有。

       Build_profile.prf :相当于程序的输出日志。

       Build_profile.ali :搜索到的氨基酸序列。

       TvLDH.ali :包含有需要建模的氨基酸序列。(蓝色部分需要自己粘贴进去,以星号“*”结尾)


        设置好了参数运行后就是等了,用95%的库搜索很快,用全库就比较慢。完成后就会有Build_profile.ali与Build_profile.prf两个输出文件。(我用的是10.1的modeller程序与群里的python版本,其他版本可能需要在脚本名前面输入python再回车。)

 

 打开pir后缀看一下日志:

        第11列是你提交的氨基酸序列与下面蛋白的相似度;第12列分值越接近0,说明这个模版越适合你;短横线是缺少这一块氨基酸。

        我们选都是0的几个模版(1bdm:A, 5mdh:A, 1b8p:A, 1civ:A, 7mdh:A),下载好pdb文件。为下一步做准备。

二、对比模版(compare.py脚本)

        1b8p指的是蛋白质编号,A指的是A链。都可以根据情况适当更改。直接运行脚本,结果只会在cmd界面打印出来。而通过compare.py>compare.log的命令方式可以将信息输出到log文件里。

       第一个主要信息是一个表,表以蓝色的对角线分成两个部分,对角线上是这个蛋白的氨基酸个数,对角线上方的三角是模版间的相似氨基酸个数,对角线下面是模版间的相似度。

       第二个主要信息是下面这个树形结构。“@1.9”指的是pdb的分辨率为1.9埃。

       选模版的标准主要有几种:模版间的相似性(适中最好)、晶体分辨率(越小越好)、与要建模的序列同一性(越大越好,在第一步的pir输出文件里有体现)、晶体R因子(越小越好,需要下载cif格式的模版蛋白质,用记事本打开,搜索R_factor)。

       比较表明1civ:A和 7mdh:A在顺序和结构上几乎相同。然而,7mdh:A晶体学分辨率好2.4Å,排除了 1civ:A。第二组结构(5mdh:A、1bdm:A和 1b8p:A)有一些相似之处。在该组中, 5mdh:A的分辨率最差,仅考虑1bdm:A和 1b8p:A。1smk:A是整套可能模板中最多样化的结构。然而,它是与查询序列具有最低序列同一性 (34%) 的序列。最终选择1bdm:A 而不是1b8p:A和 7mdh:A,因为它具有更小的晶体学 R 因子 (16.9%) 和更高的序列同一性 (45%)。

三、对齐模版(align2d.py脚本)

 

       运行的事,后面不会再说。蓝框里的东西都可以改名,但是你如果老报错,就不要改了(像TvLDH.ali、TvLDH),只把涉及的到的部分修改就好(像1bdm、1bdmA、1bdm.pdb)。

四、建模(model_single.py脚本)

       脚本按照 “TvLDH-1bdmA.ali”文件的对齐方式进行建模;knows的值即模版+链的方式;sequence的值指的是“TvLDH.ali”文件里第二行“sequence:”字段后的名字,如果前面几步操作的时候改了名字,后面都要注意更改。

        在建模的同时,脚本会对模型进行评分,评分方式有molpdf(越小越好)、DOPE(越小越好)、GA341(越接近1越好),其中molpdf默认输出,DOPE、GA341需要在代码中指定。如果蛋白原子数特别多,建模就慢,我试过注释掉assess.GA341(不用这个评价方式)可以略微加快速度。

       运行完成后输出5个pdb文件,及其打分情况。可以看出“TvLDH.B99990002.pdb”文件最好。

五、打分建模的模型(evaluate_model.py脚本)

        运行完后,每个氨基酸对应的dope得分会存入“TvLDH.profile”文件中,我们这里不需要打开它。

六、打分对照的模版(evaluate_template.py脚本)

        与第五步类似,区别在于需要指定模版蛋白的链,这里只用到它的A链

七、作图(plot_profiles.py.脚本)

        此脚本运行之前需要python安装一个作图插件matplotlib,这个网上不少教程,不在此赘述。

        由对齐文件、五六步打分的输出文件作为程序的输入文件,做了一个10:6、dpi为65的图像。 

        打分数值不是绝对好坏的标准,只能粗略的看一下,通过比较两条线形状上的差异,看潜在的错误。纵坐标-0.03是一个经常用的标准(我还没搞明白为啥);横坐标表示氨基酸,90-100、220-250氨基酸能量明显偏高。DOPE 指示的可能错误不一定是实际错误,尤其是当它突出显示活动位点或蛋白质-蛋白质界面时(网站上的原话)。

       对结构进行优化,可以通过对loop区的精炼、在模版中加入必要配体,限制配体与蛋白原子间距离、循环迭代建模等方法。这些方法下期再讲。 

 

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/268467.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号