首页> 中国专利> 一种液‑质联用数据中复杂环境下的色谱峰定量分析新方法

一种液‑质联用数据中复杂环境下的色谱峰定量分析新方法

摘要

本发明公开了一种液‑质联用数据中复杂环境下的色谱峰定量分析新方法,属于分析化学领域。该方法首先快速读取原始质谱数据的XML文件,获得每一种待定量物质的提取离子色谱图,采用色谱峰跨度值这一物理意义明确的指标,找到提取色谱图中存在的潜在色谱峰。在此基础上,以峰高、峰距和峰面积等色谱属性特征,对相邻潜在色谱峰进行比较,并进一步进行有效融合,最后依照液‑质联用数据的特点,综合分析液‑质联用分析过程中可能出现的色谱峰形和噪声的影响,对色谱峰进行动态调整。基于对复杂液‑质联用数据进行准确定量的新方法,可得到数据在同一保留时间范围内色谱峰的数量、位置,峰高和峰面积的结果。该方法适合低信噪比和复杂背景下的高分辨液‑质联用数据的快速、准确、批量定量分析。

著录项

  • 公开/公告号CN106596814A

    专利类型发明专利

  • 公开/公告日2017-04-26

    原文格式PDF

  • 申请/专利权人 大连达硕信息技术有限公司;

    申请/专利号CN201611051168.0

  • 发明设计人 曾仲大;石诗余;陈爱明;

    申请日2016-11-25

  • 分类号G01N30/86;G01N30/96;G01N30/02;

  • 代理机构

  • 代理人

  • 地址 116023 辽宁省大连市高园区礼贤街32号座505(1-2)室

  • 入库时间 2023-06-19 01:58:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-26

    授权

    授权

  • 2017-05-24

    实质审查的生效 IPC(主分类):G01N30/86 申请日:20161125

    实质审查的生效

  • 2017-04-26

    公开

    公开

说明书

技术领域

本发明涉及一种定量分析中复杂液-质联用数据色谱峰定量的方法,属于分析化学领域。具体来说是利用高分辨液相与质谱联用数据,以及数据背景、噪声的相关特征,获取多个具有实际意义的化学指标,在此基础上进行多步的峰细分、峰融合与峰调整,实现复杂液-质联用数据的简单、快速、准确自动划分,进而提高液-质联用数据的定量准确性与分析可靠性。

背景技术

色谱峰的检测与准确峰划分是基于色谱技术对目标化合物进行准确定量分析的基础。由于液-质联用技术,特别是高分辨质谱和超高效液相色谱的使用,使得对复杂化合物的分析检测具有更高的灵敏度,也能够更好地目标化合物的定量信息,具有较高的鉴定准确性与分析效率,已经非常广泛地用于靶向与非靶向的代谢组学等研究与应用领域中。另一方面,由于离子源、环境噪声、色谱峰型、同分异构物质等多重因素的影响,在实际的定量过程中,往往不能从提取离子色谱图中准确进行峰划分,进而影响液-质联用数据的定量分析结果。

代谢组学等领域所涉及的液-质联用数据与定量分析过程,往往是建立在特定的实验条件的基础上,含有大量具有实际物理意义,但未得到实际应用的分析指标。通过分析这些指标,即可有效获取色谱峰中的信息,从而实现液-质数据中色谱峰的准确划分,从而快速、准确得到定量分析结果。

迄今为止,研究者提出了不少方法对高分辨液相质谱数据进行峰划分方法,比如利用多类不同的连续或非连续的小波变换、贝叶斯或人工神经网络算法等实现对色谱数据的峰划分。在Maven,Mzmine,XCMS以及各类商业仪器中的数据软件处理包中也存在多类不同峰划分的方法。这些方法各有优劣,但从整体而言,其峰划分方法结果的好坏往往受到实验数据的影响。另一方面,实因这些方法的复杂性和较长的计算时间,且对同批数据的不同样本划分亦存在较大的差异,且同时对多类物质,较多样本进行峰划分时,往往无法快速获取结果,使其在定量软件上的应用受到极大限制。目前而言,绝大多数的定量处理软件的峰识别与划分仍然采用较为传统的平滑、去噪等手段,对数据进行简单的峰识别与峰划分。

高分辨质谱数据特别是液-质联用数据,由于峰形、噪声和背景的多重因素影响,使得在定量过程中无法单纯依靠对峰形或传统色谱峰参数的计算完成整个分析。即使同一物质,在不同样本中的峰形,噪声和背景也会出现很大的不同。显然,使用简单的基线校正、去噪、峰平滑等手段,亦不能很好的确定定量过程中真实色谱离子峰的保留时间范围等,而峰划分结果的不准确,也必然导致定量过程中的诸多不准确性。在传统液-质定量软件中,只能通过人工调整与筛选,逐个检查每种物质定量匹配结果,人工实现定性、定量分析,才能获取较为满意的定量结果。特别地,对于待定性数据中存在保留时间比较接近的同分异构组分,加上噪声及保留时间漂移等因素的影响,某些样本可能会形成峰形极为复杂的重叠峰,但另一些样本可能会将这几个峰很好地区分开,传统方法较难对上述情况进行综合分析,获取每个样本中各个组分的保留时间范围,甚至无法确定这一系列重叠峰中可能包含几种组分。

本发明将复杂液-质数据中多组份的定量分析分解为峰细分、峰融合和峰调整三个阶段,选取具有实际物理意义且用户容易获取的指标,实现对复杂液-质联用数据的快速划分,综合降低数据中噪声、峰形变化、背景对色谱峰的影响,同时在不同样本的定量识别结果具有一致性,在实际定量分析中可得到充分应用。

发明内容

本发明的目的在于提供一种新的复杂液-质联用数据的峰定量方法,使用原始数据获得扣除背景后所提取的离子色谱图,根据多个有实际意义的化学指标,进行峰细分、峰融合与峰调整,其最大特征在于避免传统峰划分方法对色谱峰峰形特征的依赖,降低噪声和背景等峰划分结果的影响,保持在同一实验数据下不同样本数据的快速峰划分峰结果的一致性。该方法特别适合于定量物质较多,样本量较大时的复杂情况。在脂类组学和代谢组学的液-质数据定量分析中具有良好的应用场景。

为解决复杂高分辨质谱数据的液-质联用数据的准确峰定量问题,本发明首先获取质谱和色谱的相关特征,获得峰表中每种物质背景扣除后的提取离子色谱图。在此基础上,根据色谱峰跨度值这一指标,获得潜在色谱峰。然后比较相邻峰的峰面积及上半部分峰面积、峰高、峰距等因素,实现潜在色谱峰的初步融合。最后通过色谱峰值和另一个色谱峰值距离,以及局部噪声水平等因素,减少噪声或裂峰等不规则峰形造成的不准确结果,进一步融合与调整色谱峰的保留时间范围,最终实现对色谱峰的准确细分。

色谱峰跨度值这一指标,是基于半峰宽等传统色谱指标得到新的数据指标,即计算离子色谱图中每个点右侧方向上与该点峰高值最接近的色谱点间的距离。其判定原理是根据液-质质谱数据的系统噪声产生的波形与色谱峰有着较为明显的不同,用户可以根据采集数据时仪器本身状况和实验数据的特点,对该指标进行动态调整。与传统方法采用高通滤波、或小波变换等方法进行去噪的过程不同,该方法不需要对数据中噪声本身的特性进行研究,亦不考虑微小噪声对峰形的影响,可同时降低多类不同噪声的干扰,仅需滤除小于这一指标的峰,并对同一峰内的色谱峰进行拆分,即可实现色谱离子图中谱峰的初步划分。特别是针对待定量物质保留时间相近时同分异构体多,噪声复杂,离子化效率较低的情况,传统方法无法有效区分波段中的噪声,产生错误合并和将噪声峰视为色谱峰等情况。采用色谱峰跨度值则可改善这种情况,显著提高峰划分与峰定量的结果。

色谱峰的融合,则根据预估峰面积、峰高、峰距等因素,综合考虑一个潜在色谱峰与邻近色谱峰之间的关系,判别色谱峰是否可融合为一个峰。具体说来,就是首先计算相邻两个峰在色谱峰相交点上半部分的峰面积,同时计算两个色谱峰的峰高比值,以两者的综合指标作为融合判断依据,根据峰距与较大峰峰宽的比值,判断是否对其进行融合。最后,在计算每一个潜在色谱峰的上半部分峰面积与整体峰面积时,排除被融合峰。进一步减少化学噪声、离子源稳定性对峰划分与定量步骤造成的影响,提高色谱峰划分的准确性。

依保留时间次序依次计算相邻潜在色谱峰峰顶点的跨度距离和噪声水平,依照用户设定指标,对小于跨度距离和噪声水平较高的相邻色谱峰进行融合。同时去除未融合的两个色谱峰间噪音较大的点,对色谱峰的保留时间起止范围进行调整。若数据的相邻一侧或两侧不存在相邻色谱峰,则计算数据与临近噪声或基线峰点的距离和峰高,由用户设定对应指标值,对满足条件指标进行融合,直至没有临近峰为止;若在融合后与其他潜在色谱峰相邻,则返回到上一步骤再对其进行融合。最后,在获得的潜在色谱峰保留时间范围间依照峰高顺序寻找大于设定背景峰的色谱峰,若相邻范围内存在小于其峰高的峰,则将其融合,直到无相邻峰或与潜在色谱峰相邻为止。在融合后,计算其色谱峰跨度值,若大于设定值,亦将其列为独立色谱峰。

本发明与传统的方法相比,优越性明显。首先避开了峰定量与划分过程中的难点,同时采用自动背景扣除后的提取离子色谱图,初步扣除数据背景。接下来通过几个有实际物理或化学含义的指标,由用户根据数据的实际情况对其进行准确定义,使用这些指标对色谱峰进行峰细分、峰融合和峰调整,有效降低各类噪声、保留时间漂移及液-质分析过程中因离子源或其他因素造成的峰形较大幅度的变化对峰定量结果的影响,实现色谱峰的快速、准确划分,为目标物质的峰匹配与峰面积计算奠定良好基础,降低代谢组学等领域中液-质联用数据的快速、准确定量分析难度。该方法具有良好的应用前景。

附图说明

图1为实施例中所用的经过整理的定量峰表。从峰表中可以看出,代谢组学等领域研究的数据往往需要对较大量的物质进行定量分析,其保留时间接近的同分异构组分亦较多。

图2为一段定量峰表中所获取典型提取离子色谱图,即某一精确质量数离子下所对应的色谱,本例的所需定性物质的质荷比为648.6354,保留时间为10.23min。

(A),直接计算所获得的提取离子色谱图,(B),本发明使用的自动扣除背景后的提取离子色谱图。

图3为本发明方法中A)峰细分的原理图,B)峰融合的原理图。通过峰细分与峰融合,完整利用色谱在保留时间和强度上的变化,有效实现峰划分,找到各色谱峰区间。

图4为(A)传统峰划分方法流程图,(B)本发明中峰划分方法的流程图

图5为示例提取离子峰划分的结果图。

具体实施方式

实施例:

以一个用于人体脂类组学研究的数据为例,说明本发明所述的复杂液-质数据的峰定量方法。本数据包括不同数据类别的共82个样本,建立质量控制样本9个。数据均为Raw数据格式,色谱方向的检测时间为60分钟,m/z的量测范围为50-1000道尔顿,采用高分辨的Q-Exactive质谱仪进行分析检测。将质谱控制样本及其二级质谱数据使用Lipid Search进行定性,筛选出待定量分析的标志物,即本例中所要用到定量峰表。

从原始数据可清晰看到,该数据集比较复杂,色谱峰密集,有的峰信噪比不高,而且存在非常明显的基线漂移。定量分析时,若采用传统方法进行峰划分,无法有效去除噪声及其他因素的干扰,导致定量匹配结果非常不准确,往往需要大量的人工调整与干预,才能获取较为准确的定量结果。

图1为例子所述的定量峰表。本发明所述的定量分析的液-质联用数据的峰划分方法,在于实现图5所示的过程,即识别出如图2所示的待定量物质的提取离子色谱图中所有可能存在的物质峰,并将其进行融合与调整,准确获取每个峰的保留时间区域,为定量物质的峰匹配及峰面积计算打下基础。其简单流程图示于图4(B),其中亦包括与传统流程的比较。

采用本发明所述的色谱峰定量方法,具体包括如下几个步骤:

1)原始液-质数据文件的读取与提取离子色谱图的获得

首先通过pwiz软件将原始数据的.RAW文件转换为XML文件,通过本发明的方法开发成Matlab程序,读取用户转换后的户自定义文件夹路径,通过提取峰表确定稍宽的保留时间和质荷比的阈值范围,获得提取离子色谱图。采用改进后的airPLS法对提取离子色谱图自动进行基线校正,降低基线漂移对峰划分结果的影响。

2)峰细分

a.对定量峰表中的每种物质,分别确定提取离子色谱图中每个点的右侧方向上与该点峰高值两侧最接近的两个色谱点,采用线性插值的方法,找到与每个点等高的色谱保留时间位置,以两者的差值作为实际的色谱峰跨度值。

b.通过液相质谱数据的实际条件,设定提取离子色谱图中色谱峰跨度值,找到大于该设定值的色谱峰点对;

本例中所涉及的色谱峰跨度值被设定为0.04min,即认为该跨度值小于0.04min的峰是噪声。这个值的设定一般考虑质谱扫描时间平均间隔的影响和所用色谱的特性。一般来说,所用质谱的扫描时间平均间隔越大,所设定色谱峰跨度值也应越大。

c.寻找每组峰点对的取值范围内色谱峰点对,若在其范围内存在满足条件b的色谱峰点对,则将其分解为多个新的色谱峰点对,并将筛选后获取的每一个色谱峰点对的横坐标区间作为潜在色谱峰的保留时间范围,,以确保色谱峰得到最重复的划分;

3)峰融合

在这一步骤中,主要考虑相邻峰之间上半部分峰面积,峰高,峰距之间的比值,以上述指标作为参数,进行峰融合的判断,将满足条件的两个相邻峰进行融合。在本例中,上半部分峰面积比设定为1%,上半部分相对峰高比被设定为5%,相对峰距比被设定为5%。通过计算相邻峰之间上半部分峰面积、峰高、峰距之间的比值,以及自身上半部分峰面积与实际峰面积的比,有效降低离子源等因素的干扰,实现准确峰融合。

4)峰调整

在这一步骤中,主要根据色谱峰峰顶点的跨度距离和推算的噪声水平对峰的划分进行融合与调整。峰顶点的跨度距离与色谱峰跨度值的计算方法相似,这一指标可以有效排除离子源不稳等因素造成的影响。同时,在这一步骤中将色谱峰周围未被计算的峰融合入色谱峰中,使得对色谱峰峰面积的计算亦更加精确。最后通过预估相邻峰点的噪声水平,调整色谱峰保留时间起始点与结束点具体位置,获得更精确的峰划分结果。

5)峰划分结果的评价与使用

通过上述方法所得的峰定量结果,需要与原始数据的图形结果进行可视化的直观比较,以保证结果的可靠性。亦可在不同样本之间进行峰划分结果评价与比较,以验证结果的合理性。与此同时,将上述结果用于相关的研究,包括代谢组学或脂类组学标志物与关键代谢组份的定量分析研究中,辅助实现生物标志物的发现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号