首页> 中国专利> 一种纳米孔单分子感知信号知识表示学习方法

一种纳米孔单分子感知信号知识表示学习方法

摘要

本发明公开一种纳米孔单分子感知信号知识表示学习方法,其为基于实例判别transformer的学习方法,其适用于机器学习和纳米孔单分子感知技术;本发明方法包括:构建基于transformer的纳米孔单分子感知信号知识表示学习神经网络模型;创建纳米孔单分子感知信号数据集并对信号数据进行合适的预处理;设置神经网络模型内各参数初始值,以最小化损失函数为目标训练模型实现针对纳米孔单分子感知信号的实例级判别;将待处理的感知信号输入到训练完成的模型输出信号对应的知识表示。本发明在编码器部分采用了transformer结构,实现了信号在知识表示空间内的稀疏分布,并且其直接从信号数据中挖掘模式信息,可适用于不同类型的下游信号分析任务,通用性和有效性强。

著录项

  • 公开/公告号CN114974463A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利号CN202210568004.4

  • 发明设计人 唐鹏;翁婷;殷博华;

    申请日2022-05-24

  • 分类号G16C20/70(2019.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构北京汉迪信和知识产权代理事务所(普通合伙) 16085;

  • 代理人赵景焕

  • 地址 400714 重庆市北碚区方正大道266号

  • 入库时间 2023-06-19 16:36:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G16C20/70 专利申请号:2022105680044 申请日:20220524

    实质审查的生效

说明书

技术领域

本发明属于数据分析与挖掘技术领域,具体涉及一种纳米孔单分子感知信号知识表示学习方法,尤其涉及一种基于实例判别transformer的纳米孔单分子感知信号知识表示学习方法。

背景技术

近年来,纳米孔单分子感知技术因其超高空间分辨率和无标记检测的优势得到广泛地关注,在医疗诊断和生化检测领域具有广阔前景。纳米孔单分子感知技术原理依据是在电压驱动下分子通过纳米孔时产生的阻遏电流变化,这些阻遏电流变化与分子自身结构特征及物化特征有关。通过分析阻遏电流信号即分子过孔行为信息便可间接了解分子结构特征信息。目前主流纳米孔单分子感知信号分析是从电流记录数据中提取信号后针对信号的幅值、时长或其他统计特征进行统计学分析。阻遏电流信号的统计特征限制了对单分子过孔行为进行深入细致地了解。

近年来,研究者开始意识到统计分析的局限性,并针对纳米孔单分子感知信号分析的方法学进行改进。一部分研究结合机器学习算法对阻塞信号进行分类,但训练模型的特征信息仍然是统计特征。比如,Wang等利用信号的均值、方差等统计指标构建特征向量结合Gradient Boost、CART、XGBoost、Random Forest、KNN等多种机器学习的分类算法,实现了对microRNA、siRNA、tRNA和5S rRNA的区分。Liu等基于类似的特征结合KNN、SVM、Decision Trees等机器学习分类算法,实现对Lysozyme、Apo/Holo-myoglobin、ACTR/NCBD等多种蛋白的分类区分。Diaz等基于mean、height、levels、dwelltime四种统计特征结合DNN、CNN、LSTM、XGBoost算法模型,区分识别A、T、C、G四种碱基通过二硫化钼固态纳米孔的信号。另一部分研究经人为设计并提取信号数据中的信息作为特征训练分类模型。比如,Wei等对感知信号进行shapelets提取,并以shapelets作为特征结合交叉熵损失构建分类模型,区分仅具单碱基差异的两种碱基序列过孔信号。Fu等使用EEMD、VMD、ITD结合HilbertTransform提取的时频特征训练ResNet分类模型,实现对两种相似碱基序列信号的区分。

尽管现有技术针对感知信号的分析取得了一定技术成果,但是现有感知信号分析的根本问题在于:在不对信号内隐含的分子过孔行为模式信息直接进行学习挖掘的情况下,很难使用统计特征或人工特征实现对分子过孔行为机制的有效描绘。

发明内容

针对现有技术存在的问题,本发明公开了一种纳米孔单分子感知信号知识表示学习方法,尤其涉及一种基于实例判别transformer的纳米孔单分子感知信号知识表示学习方法,其适用于机器学习和纳米孔单分子感知技术。

依据本发明专利的技术方案,提供一种纳米孔单分子感知信号知识表示学习方法,其为一种基于实例判别transformer的纳米孔单分子感知信号知识表示学习方法,其适用于机器学习和纳米孔单分子感知技术。

进一步地,所述纳米孔单分子感知信号知识表示学习方法包括以下步骤:

步骤一、构建基于transformer的纳米孔单分子感知信号知识表示学习神经网络模型;

步骤二、创建纳米孔单分子感知信号数据集并对信号数据进行合适的预处理;

步骤三、设置神经网络模型内各参数初始值,以最小化损失函数为目标训练模型实现针对纳米孔单分子感知信号的实例级判别;

步骤四、将待处理的感知信号输入到训练完成的模型输出信号对应的知识表示。

其中,步骤一中的神经网络模型包括信号嵌入处理部分、transformer编码器部分和信号实例判别部分,信号嵌入处理部分负责对信号进行预处理和信号嵌入转换,将信号嵌入转换为适合transformer进行处理的信号嵌入形式。

进一步地,transformer编码器部分经多层神经网络计算将信号转换为对应的知识表示;信号实例判别部分,以知识表示作为信号特征判定信号所属的实例类别。

优选地,步骤二中的纳米孔单分子感知信号数据集包括由实验采集提取或理论模拟获取的纳米孔单分子感知信号数据组成。纳米孔单分子为蛋白质、多肽、多糖、DNA、RNA或其他标志物分子。

进一步地,步骤二中的纳米孔单分子感知信号数据集需要针对纳米孔单分子感知信号数据集进行合适的预处理,以满足模型训练或知识表示提取的输入数据形式要求。

优选地,步骤三中,以最小化损失函数为目标训练模型,使用损失函数引导模型,挖掘信号数据集内的分子过孔行为模式信息,实现信号的实例级判别。

步骤三中所述损失函数定义为如下的负对数似然函数J(θ):

v=f

其中,x

进一步地,步骤三中所述损失函数中的条件概率P(i|v)使用如下的非参数变式:

其中

更进一步地,步骤三中针对条件概率P(i|v)的计算可使用额外的存储记录所有学习到的知识表示v,以减少每次训练中计算条件概率时对算力的要求。

与现有技术相比,本发明方法的有益效果在于:

1、本发明提供的纳米孔单分子感知信号知识表示学习方法,将纳米孔单分子感知信号由一维序列数据转换为二维数据形式,同时在编码器部分采用了transformer结构。

2、本发明方法利用纳米孔单分子感知信号数据集训练基于transformer设计的多层神经网络模型实现纳米孔单分子感知信号的实例判别任务。

2、本发明方法通过提取transformer编码器部分的输出即可得到对应信号的知识表示;利用transformer的多头自注意力机制,对感知信号内的分子过孔行为模式信息进行全面细致地挖掘学习形成通用的信号知识表示。

4、本发明方法获得的知识表示实现了信号在知识表示空间内的稀疏分布,并且其直接从信号数据中挖掘模式信息,可适用于不同类型的下游信号分析任务,通用性和有效性强。

5、本发明方法以信号实例判别为目的构建的非参数softmax变式损失函数可控制感知信号在信号数据映射后的知识表示空间内的稀疏分布,保证最终提取的知识表示的有效性。

附图说明

图1是依据本发明的纳米孔单分子感知信号知识表示学习方法的流程图;

图2是依据本发明的纳米孔单分子感知信号知识表示学习模型的内部构造示意图;

图3是适用于本发明的transformer编码器的结构示意图;

图4是依据本发明的纳米孔单分子感知信号知识表示学习模型实现实例判别辅助任务的数据映射转换简示图。

具体实施方式

下面将结合本发明专利实施例中的附图,对本发明专利实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明专利的一部分实施例,而不是全部的实施例。基于本发明专利中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明专利保护的范围。

本发明提出一种纳米孔单分子感知信号知识表示学习方法,其为一种基于实例判别transformer的纳米孔单分子感知信号知识表示学习方法,所述基于实例判别transformer的纳米孔单分子感知信号知识表示学习模型引入transformer、多层感知器、多头注意力机制、层归一化等结构创建多层神经网络模型,结合创建的纳米孔单分子感知信号数据集训练模型直接挖掘纳米孔单分子感知信号中的过孔行为模式信息,建立起从信号到信号知识表示的映射转换模型,从而能够运用学习的模型提取纳米孔单分子感知信号对应的知识表示,从而实现单分子感知信号在知识表示空间内的稀疏分布,用于后续的数据分析任务。

一种纳米孔单分子感知信号知识表示学习方法,其通过构建基于transformer的神经网络模型,以实现感知信号实例级判别为学习目标训练模型,学习挖掘信号数据内的分子过孔行为模式信息,建立起感知信号到对应知识表示的映射,实现感知信号在知识表示空间内的稀疏分布

下面对照附图并结合优选的实施方式对本发明纳米孔单分子感知信号知识表示学习方法作进一步说明。如图1所示的依据本发明的纳米孔单分子感知信号知识表示学习方法,其为基于实例判别transformer的纳米孔单分子感知信号知识表示学习方法。所述纳米孔单分子感知信号知识表示学习方法,包括以下步骤:

步骤一、构建基于transformer的纳米孔单分子感知信号知识表示学习神经网络模型;

步骤二、创建纳米孔单分子感知信号数据集并对信号数据集进行合适的预处理;

步骤三、设置神经网络模型内各参数初始值,以最小化损失函数为目标训练模型,实现针对纳米孔单分子感知信号的实例级判别;

步骤四、将待处理的感知信号输入到训练完成的模型,输出信号对应的知识表示。

步骤一中的神经网络模型包括信号嵌入处理部分、transformer编码器部分和信号实例判别部分,信号嵌入处理部分负责对信号进行预处理和信号嵌入转换,将信号嵌入转换为适合transformer进行处理的信号嵌入形式;transformer编码器部分经多层神经网络计算将信号转换为对应的知识表示;信号实例判别部分,以知识表示作为信号特征判定信号所属的实例类别。

步骤二中的纳米孔单分子感知信号数据集包括由实验采集提取或理论模拟获取的纳米孔单分子感知信号数据组成;所述纳米孔单分子为蛋白质、多肽、多糖、DNA、RNA或其他标志物分子。优选地,步骤二中的纳米孔单分子感知信号数据集需要针对纳米孔单分子感知信号数据集进行合适的预处理,以满足模型训练或知识表示提取的输入数据形式要求。

步骤三中的纳米孔单分子感知信号知识,表示学习模型内各参数的初始值由高斯随机函数生成,信号实例判别部分最后一层网络参数初始设定为零。

进一步地,步骤三中,以最小化损失函数为目标训练模型,使用损失函数引导模型,挖掘信号数据集内的分子过孔行为模式信息,实现信号的实例级判别,即训练模型将N个信号实例视为N个独立的实例类。

步骤三中所述损失函数定义为如下的负对数似然函数J(θ):

v=f

其中,x

优选地,步骤三中所述损失函数中的条件概率P(i|v)使用如下的非参数变式:

其中

优选地,步骤三中针对条件概率P(i|v)的计算可使用额外的存储记录所有学习到的知识表示v,以减少每次训练中计算条件概率时对算力的要求。

图2所示是依据本发明的实例判别transformer纳米孔单分子感知信号知识表示学习模型的内部构造,包括了信号嵌入处理、transformer编码器、信号实例判别头三个部分。其中,信号嵌入处理对纳米孔单分子感知信号进行维度转换、数据拆分、线性映射等操作,最终将纳米孔单分子感知信号转换为合适的嵌入形式作为transformer编码器的输入信号。在本发明优选的实施例中,维度转换为:将数据长度为256的一维(1维)序列纳米孔单分子感知信号,进行处理转换为16×16的二维(2维)数据形式的信号数据(图2左下角所示)。数据拆分为:将转换后的二维信号数据拆分为4×4个大小为4×4的信号图像块(图2右下部分)。线性映射为:将数据拆分得到的信号图像块转换为多维数据张量(图2右上部分)。线性映射转换后的多维数据张量会额外添加一个类别嵌入作为transformer编码器的输入,经transformer编码器计算后对应的类别嵌入输出则可作为信号的通用知识表示。

图3所示是适用于本发明的transformer编码器结构,其中包括八个相互连接的transformer编码模块。每个transformer编码模块包括一个多头自注意力计算模块、一个多层感知器、两个层归一化模块和两个捷径连接。每个transformer编码模块的输入依次由层归一化模块、多头自注意力计算模块、层归一化模块、多层感知器进行计算处理。其中一个捷径连接编码模块的输入至多头自注意力模块计算结果并与其进行加算形成第一个残差神经网络结构,另一个捷径连接则将前一个捷径连接的加算结果与多层感知器计算结果进行加算形成第二个残差神经网络结构。

信号实例判别头依据transformer编码器输出的信号知识表示进行计算,确定信号对应的实例类别,本发明优选实施例中选用的是多层感知器。

在本发明的纳米孔单分子感知信号知识表示学习方法中,模型训练使用的纳米孔单分子感知信号数据由纳米孔单分子感知实验采集提取获得或由相应感知实验模拟计算获得。所述纳米孔单分子的种类包括蛋白质、多肽、多糖、DNA、RNA以及其他标志物分子。

更进一步地,纳米孔单分子感知信号数据需要进行相应的信号预处理以满足模型对输入数据的基本要求。数据预处理主要包括了数据清理、数据标记、数据归一化、数据填充等四个主要流程。数据清理,对实验数据进行探索性分析并根据分析结果进行数据清理用以剔除无效信号,无效信号包括不能够清晰地反映分子过孔行为特征信息的短信号和由分子在纳米孔内停滞过久或最后从纳米孔内撤回的非过孔行为产生的超长信号。数据标记,对提取的信号数据进行整理并根据对应的实验和分子种类进行数据标记工作。数据归一化,以保留信号数据原始幅值分布信息和减轻模型训练算力要求为目的。在优选实施例中,使用纳米孔开孔电流作为基准对信号数据进行归一化操作,使得数据取值范围标准化至[0,1]。数据填充,将统一输入信号数据的长度。在另一实施例中,对数据进行重采样处理,以保证信号数据长度的统一,使得知识表示学习模型更关注于信号在幅值维度方面的形貌特征。

步骤三中,根据所述transformer纳米孔单分子感知信号知识表示学习模型及其训练参数,以实现信号实例判别为目标训练所述transformer神经网络模型,最终完成纳米孔单分子感知信号知识表示学习模型的构建。

本发明方法中,信号实例判别辅助任务是将数据集中的每一个感知信号实例自身视为一个独立的类,设定模型训练目标为识别区分每一个信号实例类,即模型需要实现信号数据的实例级判别。从映射转换的角度来看,如图4所示,经过信号知识表示学习模型的处理后,不同信号数据实例之间的距离在知识表示的空间内会被尽可能地放大,实现知识表示空间内信号数据的稀疏分布。

依据本发明方法,假定模型训练的信号数据集共有n个信号x

其中,x

其中w

因此,我们可以考虑将w

其中τ是知识蒸馏理论的温度参数,用以调制v在知识表示空间内的分布。这样的变式不需要训练权重参数,使模型训练目标关注于挖掘信号数据的特征信息和其相关知识表示,进一步保证知识表示的通用性。

该损失函数的设计形式在训练数据量大时需要耗费大量算力,本发明优选实施例中,采用噪声对比估计技术对损失函数的计算复杂度进行优化,减少模型训练对算力的需求;神经网络模型训练的优化器选择Adam优化器,Adam优化器在优化网络参数时,可针对梯度的一阶动量和二阶动量进行自适应调节,有效地避免神经网络模型在优化时收敛至局部最优解,并加快优化的整体效率。

步骤四中,将待处理的纳米孔单分子感知信号进行预处理后,输入到所述信号知识表示学习神经网络模型,输出信号所对应的知识表示。

依据本发明的纳米孔单分子感知信号知识表示学习方法,通过训练的transformer神经网络模型对信号的处理速度极快,能够在大部分硬件条件下以低于0.1秒的时间内完成信号的知识表示提取,在实际应用中拥有极大的优势。

相对于现有技术,本发明提供的纳米孔单分子感知信号知识表示学习方法,将纳米孔单分子感知信号由一维序列数据转换为二维数据形式,同时在编码器部分采用了transformer结构,利用transformer的多头自注意力机制,对感知信号内的分子过孔行为模式信息进行全面细致地挖掘学习。以实现信号实例判别为目的构建的非参数softmax变式损失函数可控制感知信号在信号数据映射后的知识表示空间内的稀疏分布,保证最终提取的知识表示的有效性。

以上所述,仅为本发明专利较佳的具体实施方式,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明专利的保护范围之内。因此,本发明专利的保护范围应该以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号