基于图神经网络的环状RNA生物标志物筛选预测算法

图片

研究意义

环状RNA(circular RNA, circRNA)在人类复杂疾病发病机制和许多重要生物学过程中发挥不可或缺的作用。确定环状 RNA与疾病之间关联对于复杂人类疾病的诊断和治疗具有重要的潜在价值。然而,传统的湿实验方式通常是盲目、低效、耗时且昂贵的,往往还伴随着高的假阳性率。因此,迫切需要有效和可行的计算方法来大规模预测潜在的环状RNA-疾病关联。

值得深思的是,现有方法仍然存在一些问题:(1)现有模型没有基于多个多源相似性网络来充分融合circRNA和疾病的相似性信息。(2)目前基于已知的circRNA-疾病关联数据所构建的网络相对稀疏,并且它们没有考虑从circRNA和疾病的多源相似性网络中来获得每个节点的高阶混合邻域信息。(3)现有模型大多是基于一个数据集提出的,预测模型的泛化性能未在其他circRNA-疾病关联数据集上加以验证。

本文工作

为了针对上述这些问题,本文提出了一种基于深度学习的方法来预测环状RNA-疾病关联。该模型整合了环状RNA功能相似性、环状RNA高斯相互普核相似性、疾病语义相似性和疾病高斯相互普核相似性的多种属性信息。该模型的优点是它能够从融合了circRNA和疾病的多个多源相似性网络中来充分学习环状RNA和疾病的高阶混合邻域信息嵌入表示,同时具有较好的泛化性能。本文的创新点如下:(1)基于环状RNA和疾病的现有信息,构建了多个多源相似性网络来充分融合circRNA和疾病的相似性信息。(2)利用高阶GCN(High-order GCN)算法从circRNA和疾病的多源相似性网络中来学习每个节点的高阶混合邻域信息嵌入表示。(3)在其他三个circRNA-疾病关联独立数据集上验证了所提模型的泛化性能。


图片

图1 环状RNA-疾病关联预测模型流程图

实验结果为了验证所提模型的有效性,本论文分别在四个金标准circRNA-疾病关联数据集上进行了5折交叉验证实验。同时,我们还绘制了四个数据集上所提模型的ROC曲线图,如图2所示,以清晰地展示其预测性能。从这些实验结果可以看出,所提模型具有较好的综合性能,可以有效地预测环状RNA-疾病关联。

图片
图2 所提模型在四个金标准数据集上的ROC曲线性能

此外,为了评估随机蕨分类器(RFs)对所提模型整体性能的影响,本研究在实验中比较了不同分类器模型在环状RNA-疾病关联预测中的效果。为公平起见,在构建不同分类器模型时,本文保持模型的其他部分不变,分别使用逻辑回归(LR)、K最近邻(KNN)、支持向量机(SVM)和决策树(DT)分类器来替代RFs分类器,从而构建了四种不同的计算模型来识别疾病相关的环状RNA。表1展示了这些模型在CircR2Disease数据集上5折交叉验证的平均结果。由表1可以看出,4个模型的最高平均准确率为85.38%,这显然比所提模型的平均准确率低了2.41%。同时,其他几个指标上所提方法也取得了较好的预测结果。这进一步表明,所提模型中使用RFs分类器不仅可以准确推断环状RNA是否与疾病相关,而且还有助于提高模型预测性能。

表1  不同分类器模型在CircR2Disease数据集上5折交叉验证的结果图片

作者信息

李扬,胡学钢,王磊, 等。基于图神经网络的环状RNA生物标志物筛选预测算法。中国科学: 信息科学,DOI:10.1360/SSI-2023-0070

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论