首页> 中国专利> 基于卷积门控递归神经网络的RNA基元位点预测方法及系统

基于卷积门控递归神经网络的RNA基元位点预测方法及系统

摘要

本发明公开了基于卷积门控递归神经网络的RNA基元位点预测方法及系统,包括嵌入层模块、多尺度卷积层模块、双向门控递归神经网络层模块、输出层模块;系统通过嵌入层模块将RNA序列转化为RNA数字序列;基于多尺度卷积层模块从RNA数字序列中学习不同长度基元的局部绑定特征信息并从中挑选出第一主要特征信息;通过双向门控递归神经网络层模块学习第一主要特征信息中的RNA数字序列的当前基元位点与其上下游子序列间的调控关系;基于输出层模块根据第一主要特征信息和调控关系,生成第二主要特征信息,用于预测RNA序列的RNA基元位点,本发明实现了RNA基元位点的准确预测。

著录项

  • 公开/公告号CN112863597A

    专利类型发明专利

  • 公开/公告日2021-05-28

    原文格式PDF

  • 申请/专利权人 同济大学;

    申请/专利号CN202110265412.8

  • 发明设计人 黄德双;申圳;

    申请日2021-03-11

  • 分类号G16B20/30(20190101);G06N3/08(20060101);G06N3/04(20060101);

  • 代理机构11562 北京东方盛凡知识产权代理事务所(普通合伙);

  • 代理人王颖

  • 地址 200092 上海市杨浦区四平路1239号

  • 入库时间 2023-06-19 11:06:50

说明书

技术领域

本发明属于RNA基元定位识别技术领域,涉及基于卷积门控递归神经网络的RNA基元位点预测方法及系统。

背景技术

基核糖核酸(RNA)是一种由DNA转录合成的生物大分子,主要功能是将DNA中遗传信息转化为具有特定生物功能的蛋白质。在基因表达的翻译阶段,RNA深度参与了遗传信息编解码、蛋白质合成、翻译调控等多个生物过程。RNA调控功能的发挥依赖于其自身与蛋白质的绑定,并且现有的研究已经证实RNA与蛋白质的绑定在细胞氧化应激反应、肠道分化、细胞极化、细胞周期调控以及肠道干细胞标志物表达等生物过程中发挥重要作用。研究人员将能够与RNA序列绑定的蛋白质称为RNA绑定蛋白质(RNABindingProtein,RBP),RNA序列中只有部分区域能够与RBP绑定,这部分区域被称为RNA-蛋白质绑定位点或RNAmotif。准确预测RNA与RBP的绑定位点能够帮助研究人员深入理解基因表达过程中的转录后调控机制及其与复杂生命活动的关系。

尽管PAR-CLIP、CLIP-Seq等高通量测序技术的出现为RNA基元的鉴别提供了极大的便利,但是使用这些技术需要耗费大量的资源。此外,由于技术本身存在的缺陷,上述高通量测序技术产生的实验数据包含有假阳性信息、假阴性信息,研究人员同样需要耗费大量的时间从原始实验数据中识别剔除这些信息。另一方面,这些技术提供了大量经过验证的与RNA-蛋白质绑定相关的高通量数据,这些数据可以用作训练和测试预测模型的评估标准。如何快速准确地从实验数据中鉴别RNA基元位点已成为研究人员面临的巨大挑战。在图像识别、语音识别等领域,传统机器学习方法能够有效排除噪声信息干扰,准确实现任务目标,因此研究人员根据生物数据的特点对传统机器学习方法进行修改,利用改进后的方法对实验数据进行建模分析,预测RNA与蛋白质的绑定位点。例如,传统方法Oli从RNA序列数据中学习四核苷酸频率特征,利用支持向量机预测RNA与蛋白质绑定位点

尽管GraphProt也是用支持向量机进行预测,但GraphProt在特征学习时同时使用了RNA序列特征和结构特征。实验结果表明,这些方法具有良好的预测性能,也再次证明利用改进后的机器学习方法对可靠实验数据进行建模分析得到的计算模型能够较好地完成RNA基元位点预测任务。

深度学习模型具有优异的特征分析学习能力、泛化性能好等特性,其在自然语言处理、计算机视觉、语音识别等领域得到广泛应用。为了克服传统预测方法噪声敏感、时间复杂度高等缺陷,研究人员开始尝试使用基于深度学习的模型进行基因组序列分析任务。Babak等人提出的DeepBind模型是首个将卷积神经网络用于DNA/RNA序列特异性分析的深度学习模型,实验结果表明,该模型在相关任务中的性能优于现有的传统计算方法。Zhou等人提出的DeepSea模型使用多层卷积神经网络从序列数据中学习预测基因组序列非编码区变异的影响。与图像分类任务类似,基于深度学习的模型将基因组序列基元预测任务视为一个二分类问题,也就是对当前序列是否含有基元位点进行判别。RNA序列主要由A、C、G、U四种基本元素构成,因此上述模型使用独热编码(one-hot)将RNA序列转化为CNN能够处理的形式,然后利用CNN对输入的RNA数据进行建模分析,进而实现RNA基元位点的预测。

虽然现有的基于深度学习的方法在RNA基元预测任务中取得了较好的效果,但是本发明不能忽视这些方法存在的缺点:1)不同RBP具有不同的长度,因此不同RBP与RNA序列绑定位点的长度也存在差异。但现有的方法在计算中并未考虑RBP的这种特性,仅使用固定长度的卷积核从RNA序列中学习基元特征。也就是说,现有的基于深度学习的模型在计算过程中会丢失一些有用的信息,可能影响模型的预测性能;2)RNA序列中不同基元位点间、基元位点与邻域均存在一定的关联性,但卷积神经网络只能学习基元位点的局部信息,无法充分学习上述关联信息。通过增加卷积层的方式增大CNN的感知域,在一定程度上增强了CNN对关联信息的学习能力,这种方式只能缓解关联信息缺失带来的影响,无法从根本上解决这个问题。

发明内容

为了解决这些问题,本发明提出了一种多尺度卷积门控递归神经网络模型(MSCGRU)用于RNA与蛋白质绑定位点的预测。针对不同RNA基元长度不同的问题,该模型使用多尺度卷积核来学习不同长度RNA基元的特征。针对现有模型关联信息缺失问题,该模型使用双向门控递归神经网络学习基元位点间及基元与邻域的关联信息。在31个CLIP-Seq数据集的测试结果表明,MSCGRU在RNA与蛋白质绑定位点预测任务中的性能优于传统方法Oli、GraphProt、以及基于深度学习的DeepBind与iDeepS方法。

本发明提供基于卷积门控递归神经网络的RNA基元位点预测方法,包括以下步骤:

S1.基于RNA序列的碱基,依据碱基的对应字母,构建RNA序列字母表数据集,通过采用独热编码的方法,依据RNA序列字母表数据集,构建RNA字符序列数据集,基于RNA序列字母表数据集和RNA字符序列数据集,构建RNA数字序列矩阵转换模型;

S2.基于碱基的基元长度,获得基元长度数据集合,通过对RNA数字序列矩阵转换模型的矩阵元素相乘,获得矩阵元素特征值;

S3.基于基元长度数据集合、矩阵元素特征值,通过选择基元长度数据集合的任一基元长度元素作为卷积核大小,依据模型激活函数,构建多尺度卷积模型;

S4.基于碱基的基元与基元的上游子序列的第一调控关系,构建正向学习网络模型,基于基元与所述基元的下游子序列的第二调控关系,构建反向学习网络模型,依据正向学习网络模型和反向学习网络模型,构建双向门控递归神经网络模型;

S5.通过第一激活函数构建第一全连接层,通过第二激活函数构建第二全连接层,基于第一全连接层和第二全连接层,构建输出模型;

S6.将RNA数字序列矩阵转换模型与多尺度卷积模型的数据输入端连接,将多尺度卷积模型的数据输出端通过双向门控递归神经网络模型与输出模型连接,构建多尺度卷积门控递归神经网络模型,用于预测所述RNA序列的RNA基元位点。

优选地,RNA序列字母表数据集包括字母表,字母表的大小为4;RNA字符序列数据集包括字符序列,字符序列的字符向量长度为4;通过字符序列,依据字符向量长度,构建参照矩阵,基于参照矩阵和RNA序列字母表数据集,构建RNA数字序列矩阵转换模型。

优选地,RNA数字序列矩阵转换模型包括RNA数字序列,RNA数字序列的表达式为:RS=[C1,C2,C3,……,C

RNA数字序列矩阵转换模型的公式为:

R

R=[R

其中,R

优选地,多尺度卷积模型的表达式为:

其中,Θ表示基元长度的集合;j是Θ集合中的一个元素,代表当前卷积操作中卷积核的大小,符号

优选地,输出模型的实现公式为:

h=max(0,W

其中,x代表输入数据;W表示第一个全连接层的参数,W

基于卷积门控递归神经网络的RNA基元位点预测系统,包括:

嵌入层模块、多尺度卷积层模块、双向门控递归神经网络层模块、输出层模块;嵌入层模块通过多尺度卷积层模块与双向门控递归神经网络层模块连接;双向门控递归神经网络层模块与输出层模块连接;嵌入层模块用于将RNA序列转化为RNA数字序列;多尺度卷积层模块用于从所述RNA数字序列中学习不同长度基元的局部绑定特征信息并从中挑选出第一主要特征信息;双向门控递归神经网络层模块,用于通过选取第一主要特征信息中的RNA数字序列,学习RNA数字序列的基元位点与其上下游子序列间的调控关系;输出层模块用于根据第一主要特征信息和调控关系,生成第二主要特征信息,基于第二主要特征信息,预测RNA序列的RNA基元位点。

优选地,嵌入层模块包括,RNA碱基字母分类单元、RNA字符序列生成单元、RNA数字序列生成单元;RNA字符序列生成单元与RNA碱基字母分类单元连接;RNA数字序列生成单元与RNA字符序列生成单元连接;RNA字符序列生成单元包括独热编码模块和参照矩阵生成模块;独热编码模块与参照矩阵生成模块连接、RNA碱基字母分类单元连接;独热编码模块和参照矩阵生成模块与RNA数字序列生成单元连接;RNA碱基字母分类单元用于将RNA序列的所述碱基分为A、C、G、U四种,生成字母表;独热编码模块根据字母表和所述字母表的大小,通过字符嵌入的方法,生成RNA字符序列;参照矩阵生成模块用于根据RNA字符序列生成参考矩阵;RNA数字序列生成单元,用于根据字母表、RNA字符序列、参考矩阵,生成RNA数字序列。

优选地,多尺度卷积层模块包括,卷积层单元和最大池化层单元;卷积层单元包括若干卷积运算单元,其中,每个卷积运算单元的卷积核尺寸不同;最大池化层单元包括若干最大池化运算单元,其中每个最大池化运算单元对应一个卷积运算单元。

优选地,双向门控递归神经网络层模块包括正向GRU学习单元、反向GRU学习单元、BiGRU层输出单元;正向GRU学习单元和反向GRU学习单元与BiGRU层输出单元连接;正向GRU学习单元用于学习基元上游子序列与基元之间的第一调控关系;反向GRU学习单元用于学习基元下游子序列与基元之间的第二调控关系;BiGRU层输出单元用于将第一调控关系和第二调控关系进行融合,得到第一主要特征信息,将第一主要特征信息发送到所述输出层模块;输出层模块包括第一全连接单元和第二全连接单元;第一全连接单元与BiGRU层输出单元连接;第二全连接单元与第一全连接单元连接;第一全连接单元还包括Relu激活函数模块和丢弃策略模块,其中,Relu激活函数模块用于将BiGRU层输出单元输出的第一主要特征信息进行降维,同时进行主要特征提取,获得初始第二主要特征信息,丢弃策略模块用于避免第一全连接单元在训练过程中出现过拟合情况;第二全连接单元还包括sigmoid激活函数模块,用于将初始第二主要特征信息转化为所述第二主要特征信息。

优选地,RNA基元位点预测系统至少还包括,数据采集模块、数据存储模块、电源模块、CPU;数据采集模块与嵌入层模块连接,用于收集RNA序列;数据存储模块与输出层模块连接,用于存储输出层的输出数据;电源模块用于给RNA基元位点预测系统供电;CPU用于RNA基元位点预测系统的运行。

本发明的积极进步效果在于:

本发明提供的基于卷积门控递归神经网络的RNA基元位点预测方法及系统,通过综合使用多尺度卷积层和双向递归神经网络层能够比仅使用多尺度卷积层的模型更有效地完成RNA基元预测任务,发明能够有效地预测RNA序列基元位点,帮助研究人员发掘RNA序列与蛋白质的绑定特异性信息,加深对RNA与蛋白质绑定在复杂生命活动的基因调控网络中作用机制的理解。

附图说明

图1为本发明实施例所述的MSCGRU模型架构图;

图2为本发明实施例所述的数据集在不同模型结构下,使用对应最优参数组合时的训练细节信息,其中(a)、(b)、(c)表示三个子图表示数据集1在三种不同网络结构下使用最优参数组合的训练过程,(d)、(e)、(f)表示三个子图表示数据集2在三种不同网络结构下使用最优参数组合的训练过程,(g)、(h)、(i)表示三个子图表示数据集3在三种不同网络结构下使用最优参数组合的训练过程;

图3为本发明实施例所述的MSCGRU与四种对比方法的AUC散点图对比;

图4为本发明实施例所述的MSCGRU与四种对比方法的AP散点图对比;

图5(a)为本发明实施例所述的MSCGRU与四种对比方法的AUC均值对比;

图5(b)为本发明实施例所述的MSCGRU与四种对比方法的AP均值对比;

图6为本发明实施例所述的MSCGRU与四种对比方法在35个数据集上的性能对比;

图7为本发明实施例所述的MSCGRU使用不同数量卷积核时的性能对比;

图8为本发明实施例所述的MSCGRU使用不同数量卷积核和不同卷积层数时的性能对比;

图9(a)为本发明实施例所述的MSCGRU与使用单层卷积操作的多尺度卷积神经网络的对比;

图9(b)为本发明实施例所述的MSCGRU与使用两层卷积操作的多尺度卷积神经网络的对比。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

实施例1:在基于深度学习的自然语言处理相关模型中,词嵌入(WordEmbedding)负责在尽量不损失语义的情况下将文字转换为深度学习模型能够理解的一种形式。这种方法需要预先使用word2vec、Glove等方法训练一个语言模型,然后才能得到与文子对应的词向量。当数据量比较大的时候,语言模型的训练存储需要耗费大量的时间和空间成本。在本发明中,MSCGRU在嵌入层使用字符嵌入和独热编码方法解决上述问题。构成RNA序列的碱基有A、C、G、U四种,因此与之对应的字母表大小v为4,使用独热编码得到的表示每个字符的向量长度d为4,参照矩阵RM是一个4×4大小的矩阵。根据RNA字符序列以及与RNA序列对应的字母表,转换后的RNA数字序列为RS=[C1,C2,C3,……,C

R

R=[R

其中,R

现有的RNA与RBP绑定位点预测模型在运算时将所有基元位点的长度都视为一致的,事实上不同的RBP对应了不同长度的基元位点,因此这些模型的性能受到一定的限制。研究表明,使用固定基元位点长度的模型无法很好地从RNA序列中提取与基元位点相关的局部特征信息。另一方面,特征的多样性对模型的预测性能也十分重要。为了解决这个问题,MSCGRU的卷积层使用了多个卷积核尺寸不同的卷积运算,用于从RNA序列中学习不同长度基元的局部绑定特征信息。同时,模型中每个卷积运算的后面都使用最大池化运算从卷积运算的输出中挑选主要特征信息。在本层中,每个卷积运算与对应最大池化层的组合被称为卷积操作。所有不同卷积核大小卷积操作的输出都将被连接起来作为下一层的输入。MSCGRU使用三种不同大小的卷积核进行特征提取任务。

多尺度卷积操作的实现方式如下:

其中,Θ表示基元长度的集合;j是Θ集合中的一个元素,代表当前卷积操作中卷积核的大小,符号

在RNA序列中,基元位点的上下游可能存在一些具有调控功能的子序列,这些子序列能够调控RBP与RNA的绑定,控制蛋白质的合成,最终影响生物体内正常生命活动的进行。由于卷积核大小的限制,卷积操作无法很好地学习到当前基元位点与其上下游子序列间的调控关系,这也使得基于卷积神经网络模型的性能受到很大影响。RNN在自然语言处理、音频处理等领域的应用表明其具有很好的序列数据建模分析能力,它能够从输入数据中学习到过去时间点状态和将来时间点状态对当前时间点状态的影响,这正好与基元位点上下游子序列与基元间的调控关系相对应。因此,MSCGRU使用双向GRU(BidirectionalGRU,BiGRU)从输入数据中学习基元与上下游子序列间的调控关系。其中,正向GRU负责学习基元上游子序列与基元间的调控关系,反向GRU负责学习基元下游子序列与基元间的调控关系。正向GRU层的输出和反向GRU层的输出融合后就是BiGRU层的输出,融合的方式有很多种,例如相加、取均值、相乘、连结等。

本层使用的是连结方式,BiGRU层输出的计算方法如下:

output=Concatenate(fout,bout)

其中,fout表示正向GRU层的输出;bout表示反向GRU层的输出。

该层是由两个具有不同功能的全连接层(FullyConnectLayer)组成:第一个全连接层使用ReLU作为其激活函数,主要功能是对从BiGRU层获取的数据进行降维,同时从这些数据中进一步地提取主要特征;第二个全连接层使用的激活函数是sigmoid,主要任务是将第一个全连接层的输出转换为一个数值,该数值代表了输入数据属于目标类别的概率。为了确保模型性能,MSCGRU在输出层使用了丢弃策略(Dropout),从而避免模型在训练过程中出现过拟合的情况。具体实现方式是从输入数据中随机选择丢弃一部分数据,并将输入数据中这些被丢弃的数据位置的数值设置为0。输出层的实现方式如下所示:

h=max(0,W

其中,x代表输入数据;W表示第一个全连接层的参数,W

本发明采用31个RBP绑定数据集来训练和测试MSCGRU,如表1所示。

表1

本发明在Python环境下使用以Tensorflow为后端的深度学习平台Keras来实现MSCGRU。模型的最大迭代次数被设置为100,模型每次迭代训练过程中的批处理数据块大小设置为200。在模型每次迭代运行时,会监控当前迭代完成时训练好的模型在验证数据集上的性能。此外,本发明还在模型中使用了检查点和提前停止策略。所谓检查点策略,指的是如果迭代结束时完成训练的模型的性

能优于前一迭代过程完成训练好的模型的性能,当前模型训练过程的权重就会被保存到本地。反之,权重参数就不会被保存。所谓提前停止策略,指的是如果模型在一定迭代次数内的性能没有发生变化时模型的训练过程会提前停止。

MSCGRU使用binary_crossentropyloss作为模型训练时的损失函数。为了找到能使模型训练过程中的损失最小化的优化函数,本发明使用四种不同的优化函数:RMSprop,Adadelta,Adagrad和Adam。双向GRU层的GRU单元的数量设置为三个不同的值:64、96和128。通过将不同GRU单元数和不同优化函数进行组合,将上述特征组合逐一应用到MSCGRU中,使用部分数据集测试模型性能并找出最优的特征组合。此外,MSCGRU还使用丢弃策略来防止或减少模型过度拟合对最终预测性能的影响。模型超参数设置如表2所示。

表2

生物体内能够与RNA绑定的蛋白质有很多种,这些蛋白质的长度不同,与之对应的RNA序列中基元位点的长度也是不同的。卷积神经网络的卷积核可以被视为一个基元扫描器,使用固定卷积核长度的基于卷积神经网络的模型无法捕获不同长度基元的局部绑定特征。为了使模型能更充分学习到不同长度基元位点的特征,MSCGRU中使用三种不同的卷积核尺寸:5、10和15。所有不同长度卷积操作的输出会被连结起来作为下一层的输入数据。

本发明在测试MSCGRU性能的实验中一共使用了31个数据集,从表2可以看出共有12个特征组合,使用31个数据集逐个测试特征组合能找到最优的组合获得最优的模型性能,但是这样会耗费大量的时间和计算资源。在多尺度卷积层中使用多层卷积能够获得高度抽象的特征,但是这是否能帮助模型改善性能还是一个未知数。因此,多尺度卷积层的卷积操作的层数也被当作一个超参数选项。为了能够短时间内获得使模型性能最优化的特征组合,本发明从31个数据集中选择了前8个数据集用于特征选择实验,具体的方法是分别在MSCGRU的卷积层使用一层、两层和三层卷积操作,使用8个数据集在上述模型中逐个测试特征组合,对比测试后的模型性能,从中选出较好的模型结构和特征组合。

表4展示了不同模型结构条件下8个数据集使用12个特征组合的性能对比,其中的V1、V2和V3表示模型的三种不同网络结构,即多尺度卷积层使用一层卷积操作、两层卷积操作和三层卷积操作。通过表3的对比可以发现当模型卷积层使用一层卷积操作时,模型使用参数组合10的性能与其它参数组合和模型网络结构相比是最优的。表3和图2展示了数据集1、2和3在不同模型结构下,使用对应最优参数组合时的训练细节信息。为了避免模型出现过拟合的情况,本发明在模型中使用了数据丢弃和提前停止策略。模型出现过拟合,意思就是模型在训练过程中在训练集上表现出很好的性能,但对验证数据集的预测结果比较差。随着迭代次数的增加,模型的训练损失和验证损失逐渐减少。而过度拟合时,也就是模型训练损失继续减少并且验证损失增加时,模型可以在有限的时期内停止,这也是本发明使用提前停止策略的目的。也就是说,在数据丢弃和提前停止策略的帮助下,提出的模型具有良好的抗过度拟合的能力。

表3

表4

通过超参数实验得出的结论是当MSCGRU在卷积层使用一层卷积操作,双向GRU层的GRU单元数为128,且使用Adagrad作为优化函数时,MSCGRU取得了较好的性能。在本节中,使用上述具有最优性能的MSCGRU模型对31个CLIP-Seq数据集进行训练测试,并与4种对比方法(Oli、GraphProt、DeepBind、iDeepS)进行性能对比。

MSCGRU和4种对比方法的AUC和AP的散点图对比如图3和图4所示,图5(a)、图5(b)和表5分别从AUC和AP的均值与中位数的角度展示了MSCGRU和4种对比方法间的性能变化幅度,附录A中的表格A8展示了MSCGRU和4种对比方法在31个数据集上的对比细节信息,从这些数据可以看出MSCGRU的性能明显优于4种对比方法。由于本发明在实验中使用的31个数据集中正样本和负样本的比例是非均衡的,而且在面对非均衡数据时,AP的变化要比AUC更为明显。从图3和图4中可以看到这点,也就是代表AUC的数据点的分布要比代表AP的数据点的分布更为密集。从图5(a)、图5(b)和表5可以明显观察到AUC和AP间的差异。

表5

本发明在UCSC中获取了Gm12878、K562、H1hesc、HelaS3、Hepg2五个细胞系上的35个RNA与蛋白质绑定数据集,如附录B中的表B2所示。测试了MSCGRU在上述35个数据集中的预测性能并与四种现有的预测方法DeepBind、iDeepE、GraphProt和iDeepS进行对比,如图6所示。从中可以看出,除了iDeepS外,MSCGRU的性能要优于三种现有的预测方法。

在RNA序列基元识别方法中,基于传统机器学习方法构建的模型需要经过复杂的后处理步骤才能将相关参数转换为RNA基元识别需要的PWM,而基于深度学习方法构建的模型则正好相反。将卷积神经网络中卷积核的相关学习参数转换为PWM是十分方便的,因此在本小节中,综合利用MSCGRU模型卷积层的权重参数和输出数据,获取与输入数据对应的PWM信息,利用这些PWM信息预测与目标蛋白质对应的RNA序列基元。在发明中,MSCGRU被用于预测31个数据集中RNA与蛋白质绑定的基元。其中,有20个数据集的预测结果能够利用已有的RNA与蛋白质绑定基元数据库或者已发表文献进行验证。表6展示了7种基元预测结果与通过实验获取的已知蛋白质基元的对比,附录A中的附表A9展示了其余13种基元预测结果与已知基元的对比。研究人员通过微阵列分析发现RNA序列的3'UTR区域中能够与蛋白质TDP-43绑定的部分含有大量重复UG二核苷酸基元。发明提出的模型MSCGRU预测出的与TDP-43对应的基元中同样包含重复UG二核苷酸基元,如表6所示。这与微阵列分析结果是一致的。从表6可以看出,MSCGRU对三种ELAVL1系列蛋白质的预测结果与已知基元有较高的一致性,ELAVL1系列蛋白质在胎盘分支形态发生与胚胎发育发挥关键作用[200]。综上所述,MSCGRU预测的RNA序列中与蛋白质对应的基元与经过实验验证的已知蛋白质基元是一致的,MSCGRU能够帮助研究人员加深对RNA翻译调控机制的理解。

表6

不同长度的RBP对应着RNA序列中不同长度的基元位点,因此在卷积层使用多尺度卷积核能够增强模型学习不同长度基元特征的能力,与之对应的是在之前的性能对比部分所提出的模型在多尺度卷积层使用了三种不同长度的卷积核。为了进一步探索不同长度卷积核对模型性能的影响,在本节设置的卷积核集合中包含了5种不同长度的卷积核:5、10、15、20、25,然后测试了MSCGRU使用不同个数卷积核对自身性能的影响。

MSCGRU使用不同个数卷积核时AP的均值和中位数的变化如图7所示。图7的横轴中的2、3、4、5的意思是MSCGRU使用的不同尺寸卷积核个数。从图7可以看出无论是AP的均值还是中位数,MSCGRU使用的不同尺寸卷积核的个数为3时,模型的性能优于使用当不同尺寸卷积核个数为2、4、5时的性能。

卷积核的尺寸越大,该卷积核就能够从输入的RNA序列数据中获得更多的特征。但是RNA序列中只有部分序列与RNA和RBP的绑定有关,也就是说大尺寸卷积核获取的特征中只有部分有RNA基元相关,其它的特征数据对基元预测没有任何帮助,而且可能会干扰模型对主要特征的学习,进而影响模型的预测性能。

综上所述,使用合适的不同尺寸卷积核个数能够使模型的性能进一步优化,在此基础上增加或减少模型多尺度卷积层使用的不同尺寸卷积核的个数都会降低模型的性能。

在多层卷积神经网络中,位于底层的卷积运算是直接面对数据的,它的感知域大小是与卷积核尺寸保持一致的,而后面的卷积层的运算目标是前一层卷积运算得到的特征,当前卷积层的感知域也会随着卷积层数的增加逐步扩大。这就意味着多层卷积神经网络能够从输入数据中获取更高层次的抽象特征,也能够在一定程度上抵消序列数据间的长期依赖性对模型性能带来的不利影响。尽管多层卷积神经网络在图像相关的任务中的应用取得了很好的效果,但也不能忽视它存在的缺陷。与递归神经网络(LSTM、GRU等)的信息选择性使用不同,在卷积过程中当前卷积层感知域内的所有特征信息都会被考虑,无论这些特征是否能帮助改善模型的性能。

此外,卷积运算中的参数量会随着卷积层数的增加而增加,导致模型需要花费大量时间来调整优化参数设置,增强模型的时间复杂度。为了研究模型多尺度卷积层使用不同卷积运算层数对模型性能的影响,综合考虑卷积层数和卷积核的尺寸,测试了模型使用不同层数卷积运算和不同尺寸卷积核时的性能表现。

图8以柱状图的形式对MSCGRU在多尺度卷积层使用不同层数卷积运算和不同尺寸卷积核个数时AP的均值和中位数的变化情况。从中可以看出,无论是AP的均值还是中位数,当MSCGRU使用一层卷积操作且不同尺寸卷积核个数为3的组合时,模型的性能明显优于其它结构参数组合。从图8的(a)中可以看出,当模型使用不同尺寸卷积核个数为2、3、5时,AP的均值会随着卷积层数的增加而降低。在图8的(b)中,随着卷积层数和卷积核个数的改变,观察到AP中位数会呈现波动性变化。从数据计算的角度来看,AP的均值是MSCGRU在所有数据集上AP的平均值,而AP的中位数则是从所有的AP中找出的一个中间数值。AP均值的变化能够反映模型在整个数据集上的性能变化,AP中位数的改变只能反映模型在某一个数据集上的变化,无法看出模型整体性能的改变,因此AP均值比AP中位数更能反映模型性能的改变。综上所述,能够得出的结论是MSCGRU在31个CLIP_seq数据集上的性能随着模型复杂度的增加而下降。在实际操作中,应该根据实验对象的特性调整模型结构,并通过在部分数据集上进行超参数搜索来获得最优的参数组合,进而得到具有最佳性能的模型。

研究表明序列数据中各数据块之间存在关联关系,但是对于卷积神经网络来讲,由于其网络结构和自身的计算特性,使其无法有效的从序列数据中学习特征信息。

传统递归神经网络能够充分学习序列数据的特征信息,但是仍然面临着如何学习序列数据中不同时间点间的长期依赖信息问题。为了解决这个缺陷,研究人员提出了LSTM、GRU等经过改进的递归神经网络。在RNA基元预测任务中,模型中仅使用卷积运算无法充分学习RNA序列基元间以及基元和其邻域的关联关系,因此在本发明中在多尺度卷积层的后面使用双向GRU层来增强模型的特征学习能力,但是仍不清楚双向GRU层的使用对模型性能有多大的影响。为了弄清楚这个问题,将移除双向GRU层的网络称为MSCNN(Multi-ScaleConvolution Neural Network),分别在卷积层使用一层和两层卷积运算测试MSCNN的性能并与MSCGRU进行对比。MSCGRU与使用不同卷积运算的MSCNN的性能对比如表7所示。从表7中观察到在AUC和AP的均值和中位数四种指标对比中,MSCGRU的指标比使用单间卷积运算的MSCNN的指标分别增加了0.011、0.008、0.069、0.107,比使用两层卷积运算的MSCNN的指标分别增加了0.009、0.006、0.051、0.087。增加卷积运算的层数虽然可以扩大模型的特征感知范围,但是从表7的数据可以看出,使用两层卷积运算的MSCNN的性能并未明显优于使用一层卷积的MSCNN。在多尺度卷积层的后面接入双向GRU层的方法使模型的性能有了明显的改善。

表7

图9(a)和图9(b)以散点图的形式展示了MSCGRU和使用不同层数卷积运算的MSCNN之间AP的对比。从图中可以明显看出MSCGRU的性能明显优于使用不同层数卷积运算的MSCNN的性能。

针对现有方法使用固定基元长度以及基元间关联关系提取问题,本发明提出了一种多尺度卷积门控递归神经网络模型MSCGRU用于预测RNA与RBP的绑定位点。该方法的创新点有两个:①使用多尺度卷积层学习不同长度RNA基元的特征信息;②使用双向递归神经网络学习RNA基元间的关联关系。通过在第一类31个数据集上的实验表明,本发明提出的模型MSCGRU比四个对比方法Oli、GraphProt、DeepBind、iDeepS有着更好的预测性能。在第二类35个从UCSC获取的数据集实验中,除了iDeepS外,MSCGRU的性能优于对比方法DeepBind、iDeepE、GraphProt。这也说明了本发明在模型中考虑多尺度基元特征和基元间关联关系的有效性。此外,本发明通过改变模型多尺度卷积层使用的不同尺寸卷积核数量和卷积运算层数来评估模型结构变化对模型性能的影响。实验结果表明,合适的多尺度卷积核数量有助于改善模型性能。本发明还通过改变模型结构来研究双向递归神经网络层对模型性能的影响。实验结果表明,综合使用多尺度卷积层和双向递归神经网络层能够比仅使用多尺度卷积层的模型更有效地完成RNA基元预测任务。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号