引入方法概述
引入 题目:Multi-instance learning of graph neural networks for aqueous
p
K
a
pK_a
pKa prediction (用于水性
p
K
a
pK_a
pKa预测的图神经网络的多实例学习)
摘要:酸解离常数 (
p
K
a
pK_a
pKa) 是反映化合物电离能力的关键参数,广泛应用于各行各业。然而,
p
K
a
pK_a
pKa的实验测定复杂且耗时,尤其是在原子水平上精确测定微
p
K
a
pK_a
pKa信息。因此,快速准确地预测化合物的
p
K
a
pK_a
pKa 值具有广泛的意义。结果:在这里,我们编译了一个包含 16595 种化合物和 17489 个
p
K
a
pK_a
pKa 值的大规模
p
K
a
pK_a
pKa 数据集。基于该数据集,利用图神经网络建立了一种新的
p
K
a
pK_a
pKa 预测模型,名为 Graph-
p
K
a
pK_a
pKa。 Graph-
p
K
a
pK_a
pKa 在预测宏观
p
K
a
pK_a
pKa 值方面表现良好,平均绝对误差在 0.55 左右,在测试数据集上的决定系数在 0.92 左右。此外,结合多实例学习,Graph-
p
K
a
pK_a
pKa 还能够自动将预测的宏
p
K
a
pK_a
pKa 反卷积为离散的微
p
K
a
pK_a
pKa 值。
包:一个分子被视为包
实例:分子中可电离的原子被视为实例
- 首先将每个分子描述为无向图,其中节点和边分别对应于原子和化学键。然后将分子图输入到图神经层中,其中原子接收分子中其他原子的消息,并使用聚合的消息来更新它们自己的特征。
Graph- p K a pK_a pKa 中的图神经层与之前开发的 Attentive FP (Xiong et al., 2020) 相同,这是一种使用图注意力机制的分子表示学习方案。在这里,六个图神经层堆叠在 Graph- p K a pK_a pKa 中,用于提取原子特征。
Graph- p K a pK_a pKa 与其他图神经网络的主要区别在于处理图神经网络层提取的节点特征的方法。在 GCN (Duvenaud et al., 2015)、MPNN (Gilmer et al., 2017) 和 Attentive FP (Xiong et al., 2020) 等分子图神经网络中,这些节点特征通过各种池化操作(例如平均pooling 和 Set2Set 生成整个分子的特征,然后用于拟合和预测分子特性。然而,在 Graph- p K a pK_a pKa 中,那些学习到的节点特征被直接馈送到全连接 (FC) 层以预测原子的 p K a pK_a pKa 值。由于分子中的某些原子是不可电离的,因此它们的预测 pKa 值将被掩盖。在酸性和碱性pKa预测模型中,掩码值分别为正无穷和负无穷。
最后,根据分子与可电离原子的预测 p K a pK_a pKa值之间的近似数学关系计算分子的宏观 p K a pK_a pKa值。



