栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > C/C++/C#

RBM-MHC: A Semi-Supervised Machine-LearningMethod for Sample-Specific Prediction of AntigenPresent

C/C++/C# 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

RBM-MHC: A Semi-Supervised Machine-LearningMethod for Sample-Specific Prediction of AntigenPresent

介绍:本文提出了一种灵活的机器学习方法,用于预测组织相容性白细胞抗原I类蛋白呈递给T细胞的病毒和癌症抗原。该方法旨在对新获得的样本进行预测,现在数据库中关于呈递HLA蛋白的信息很少。 1、Highlights:
  1. 为定制和新产生的数据集可以提供灵活的HLA抗原呈递预测;
  2. 预测较差的HLA等位基因得到改善;
  3. 在只有很少HLA注释的情况下,能够准确预测HLA类型;
  4. 拥有更加低维的数据表示;
2、摘要

      目前最先进的方法可以准确预测HLA等位基因的表达,在比较具有代表性的等位基因中表现比较好,但是对于比较罕见和特征较差的等位基因中表现较差。本文提出的RBMs方法可以在定制和新获得的没有或者少量注释的样本上进行训练,RBM-MHC确保了对罕见等位基因预测的提高,同时对数据的要求更少。

3、方法

      RBM-MHC是一种评分和分类方案,可以在定制数据集(如患者或者实验特定样本)以及更普遍的新获得的数据上进行实时训练,并且能够快速改进罕见等位基因的预测。

 方法主要由两部分组成:

(1)RBM,一种学习序列概率分布的无监督方法,将sequence作为输入,然后学习序列的概率分布;RBM估计每个肽的呈递分数,并可以生成候选的呈递肽。还提供了肽的低维表示,对HLA的类型提供了清晰的解释。如下图所示;

 训练集分为两种:用于训练RBM-MHC的多肽数据集,以及能够完成的相应的任务;

1、Allele-specific samples

2、Multi-allele samples

 本文方法的总流程图:

 序列对其程序的示意图,在构建主对齐时,符号“-”表示缝隙插入,符号“√”表示氨基酸删除;

 主要由以下几个步骤组成:

1、训练数据集收集

     RBM-MHC可以根据患者来源的临床样本或从公共存储库收集的数据集进行训练。本文中采用从IEDB中可用的质谱和结合亲和分析构建训练数据集。

 

2、Alignment

     RBM-MHC采用固定长度序列,因此需要通过对比程序将肽序列缩减到相同长度。(通过插入方式),其中9长度是最丰富的,将肽序列减少到典型的9个残基长度。

     在图的Main Alignment中,估计相同长度序列子集的位置权重矩阵轮廓,并分别使用matlab中的生物信息学工具箱seqprofile和profalign函数对这些轮廓进行对齐,考虑8-11长度进行对齐,从而得到一个最大对齐11长度;这种对齐长度用作种子来学习9长度的隐马尔可夫模型的配置文件。对齐HMM模板,长度不超过9的序列根据HMM的位置特异性的插入和删除概率(hmmprofalign函数)重新对齐到HMM的配置文件。然后利用第一次alignment来训练RBM-MHC。

     在Alignment refinement(用于多等位基因样本的HLA分类)中,根据HLA-I分类器预测的假定“类别”(HLA类型),将多肽进行分组,构建HLA特异性HMM谱图;首先,将10%的标记数据和该类中分类的肽放在一起,按分类概率加权,反映了类分配的置信度。然后构建一个特定于HLA的HMM,使用这些HMM配置文件(本质上捕获每个HLA类型的单位点氨基酸频率模式)作为每个类对齐的种子。在step4中,根据最佳HMM对齐分数重新对齐肽段,取每个未标记的肽,并考虑每个了别的种子和对应的HMM对齐得分。然后对于每个肽,都保留与最高分对应的序列。这种最好的评分比对可以是一个不同于分类器预测的类,允许我们在后续迭代中更准确地重新分类肽,因此通过这一步有助于通过等位基因特异性HMM校准得分,纠正前面产生的分类错误。再重组之后再次重复RBM-MHC训练。

(2)利用这种有效的表示方法,仅使用少量注释,在监督的方式通过HLA限制对序列进行分类;

RBM通过学习的权值集,将序列映射到“隐藏单元”的表示上。在这个表示空间中,每个簇将具有相同HLA结合特异性的抗原分组在一起。通过HLA-I分类器,以每个簇中少数抗原(“标签”)的HLA-I限制知识为指导,进行线性分类,预测所有抗原的HLA-I类型。如下图所示:

 具体的实验分析部分请参考原文:RBM-MHC: A Semi-Supervised Machine-Learning Method for Sample-Specific Prediction of Antigen Presentation by HLA-I Alleles

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/311942.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号