来源:2022-04-20 13:56:00 热度:

CNN-DDI:使用卷积神经网络预测药物-药物相互作用

编辑 | 萝卜皮

药物-药物相互作用(DDI)是药物之间的反应。它们分为三种类型:协同、拮抗和无反应。作为一项快速发展的技术,预测 DDIs 相关事件在药物开发和疾病诊断领域越来越受到关注和应用。

在这项工作中,哈尔滨工业大学的研究人员,不仅研究两种药物是否相互作用,还研究特定的相互作用类型。他们提出了一种基于学习的方法,使用卷积神经网络来学习特征表示和预测 DDI,使用 CNN 架构的新算法,称为 CNN-DDI。

他们从药物类别、靶点、途径和酶中提取特征相互作用作为特征向量,并采用 Jaccard 相似度作为药物相似度的度量;然后,基于特征的表示,构建了一个新的卷积神经网络作为 DDI 的预测器。

实验结果表明,药物类别作为一种新的特征类型应用于 CNN-DDI 方法是有效的。并且使用多个特征比单个特征更能提供信息和更有效。这说明,CNN-DDI 在预测 DDI 的任务上比其他现有算法更具优势。

该研究以「CNN-DDI: a learning-based method for predicting drug–drug interactions using convolution neural networks」为题,于 2022 年 3 月 7 日发布在《BMC Bioinformatics》。

图片

DDI 在药物开发和疾病诊断领域发挥着重要作用,仍然消耗大量人力、物源和时间。

在先进的机器学习技术的支持下,DDIs 的预测方法已经从传统的方法,包括文本挖掘方法和统计方法,发展到机器学习方法。此外,越来越多的研究在生物信息学领域使用深度学习方法。

预测DDI的任务与药物之间的相似性密切相关。这项任务的基本假设是,如果药物A和药物B相互作用,产生特定的生物影响,药物与药物A(或药物B)相似,则可能与药物B(或药物A)相互作用,并产生相同的效果。

Cami 团队利用逻辑回归模型来解决 DDI 的问题。在此基础上,Gottlied 团队挖掘了更多不同的药物-药物相似性,并提出了另一种逻辑回归模型。Cheng团队提出了两种基于药物相互作用谱指纹的基于相似性的模型,并引入了异构网络辅助推理框架。在 DDI 的预测任务上扩展了其他一些算法。例如,TMUFF 是基于三重矩阵分解,DDINMF 是基于半非负矩阵分解。

提出了三种算法,包括邻居推荐算法、随机游走算法和矩阵扰动算法。此外,科学家提出了一种名为「流形正则化矩阵分解」的新算法。2019年,基于线性邻域正则化,使用四种药物特征提出了SFLLN;它是一种稀疏特征学习集成方法。

DeepDDI 被提议用于对来自 DrugBank 的 DDI 事件进行分类。DeepDDI 通过主成分分析(PCA)计算特征的相似性并降低特征的维度。Lee 团队专注于两种药物的具体类型,而不仅仅是它们是否相互作用。DDIMDL 是一种多模态深度神经网络算法,它结合了多种药物特征,可预测 65 种 DDI 事件。

卷积神经网络(CNN)是典型的基于监督学习的人工神经网络,在计算机视觉领域具有良好的性能。它从 CNN 开发了更多的网络结构。它们已广泛用于生物信息学。许多研究将深度学习方法应用于 DDI 的预测任务,其中大多数选择深度神经网络(DNN)。但与深度神经网络相比,CNN 在特征学习方面表现更好,可以有效缓解过拟合程度。考虑到所选特征包含噪声和 CNN 的优势,哈工大的研究人员决定使用 CNN 来解决 DDI 的预测问题。

结果与讨论

评价标准

预测 DDI 事件可以看作是一个多标签分类问题。因此,预测结果分为真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)四种。此外,精度和召回率标准是常用的评价标准,可以评价结果的准确性。精度是指在分类的正样本中,TP 样本的比例。而召回是指在所有正样本中,分类正确样本的比例。表达式如下:

图片

基于精确率和召回率,利用准确率、F1-score、精确召回曲线下面积(AUPR)和ROC曲线下面积(AUC)来评估算法的性能。

在该研究中,研究人员采用准确率、F1-score、微平均 AUPR 和微平均 AUC 作为评价指标。微平均指标是指在获得所有类的结果后对指标进行平均。

性能

为了分析不同相似度算法对 CNN-DDI 性能的影响,研究人员利用余弦相似度、Jaccard 相似度和高斯相似度来计算特征的相似度。表 1 显示了该方法在三个相似性度量上的实验结果。

可以看出,使用不同的相似性度量表现出相似的属性。CNN-DDI 对这三种相似性度量具有稳健性,因此在实验中使用了 Jaccard 相似性度量。

表 1:CNN-DDI在三种相似性度量上的实验结果。

图片

为了证明药物类别的优越性和不同组合形式的影响,研究人员进一步测试了具有不同特征类型的 CNN-DDI 模型的性能,实验结果如表 2 所示。

至于一个特征,以药物类别为特征的CNN-DDI表现最好,使用药物类别的AUPR得分为0.9139,远高于药物靶点产生的第二高得分(值为0.8470)。同样,使用药物类别在其他五个评估指标中得分最高。因此药物类别作为一种新的特征类型应用于 CNN-DDI 方法是有效的。

总体而言,使用多个特征可以提供信息,并且有助于 CNN-DDI 比单个特征表现更好。四个特征的组合在所有组合中的 AUPR 得分最高(值为 0.9251)。由此可以证明,每个特征都在一定程度上提高了 CNN-DDI 的性能。

表 2:CNN-DDI 使用不同特征的结果。

图片

比较实验

该团队评估了该算法和四种最先进算法的有效性。四种算法分别是随机森林(RF)、梯度提升决策树(GBDT)、逻辑回归(LR)和 K 近邻(KNN)。研究人员以相同的方式测量特征相似性。在实验中,设置RF的决策树数为 100,KNN 的相邻数为 4。

表 3 显示 CNN-DDI 算法在这 6 种准确度评估中比其他四种方法具有更好的性能。ACC的得分为0.8871,优于GBDT(0.8327)、RF(0.7837)、KNN(0.7581)和LR(0.7558)的得分。

CNN-DDI 实现的其他评价指标分别为 0.9251、0.9980、0.7496、0.8556 和 0.7220,明显高于其他方法的得分。LR 算法的性能最差,得分分别为 0.7558、0.8087、0.9950、0.3894、0.5617 和 0.3331。

与表现第二好的 GBDT 相比,ACC 得分为 0.8871,提升了 6.53%。AUPR得分为 0.9251,提高了 4.79%,其他评价指标均有不同程度的提高。

表 3:CNN-DDI 和其他最先进模型的结果。

图片

研究人员将该算法与 DDIMDL 进行比较。考虑到 DDIMDL 使用不同的特征,他们使用 CNN-DDI 选择的特征重新训练 DDIMDL 模型;如表 4 所示。可以得出结论,药物类别作为一种新的特征类型是有效的,在使用相同特征的情况下,CNN-DDI 的表现仍然优于 DDIMDL。

表 4:CNN-DDI 与 DDIMDL 的比较。

图片

结论

为了展示该方法的性能,研究人员将其与其他最先进的方法进行比较。评估表明,CNN-DDI 比其他现有的最先进的测量方法具有更好的性能。CNN-DDI 在预测 DDI 事件方面更具优势。考虑到耗时较长,未来研究人员会努力提高 CNN-DDI 的效率。

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-022-04612-2

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容