法律状态公告日
法律状态信息
法律状态
2022-08-09
授权
发明专利权授予
技术领域
本发明涉及HIV抗病毒数据分析应用领域,特别涉及一种基于贝叶斯模型的HIV抗病毒统计分析方法。
背景技术
目前,艾滋病流行已成为影响人类社会发展和经济发展最重要的难题之一。艾滋病即获得性免疫缺陷综合征(acquired immunodeficiency syndrome,AIDS),是由人类免疫缺陷病毒(human immunodeficiency virus,HIV)引起的一种严重传染病。病毒特异性地侵犯CD4淋巴细胞(简称CD4细胞),造成机体细胞免疫功能受损。临床上初始表现为无症状病毒感染,继而发展为持续性全身淋巴结肿大综合征和艾滋病相关综合征,最后并发各种严重机会性感染和恶性肿瘤,病死率极高。作为“世纪之疫”,艾滋病的防治工作任重而道远,特别是如何动态把握HIV/AIDS流行模式和高危区域;如何根据HIV基因组变异频繁的特点,实施个性化的用药方案,避免耐药性/药物依赖性的产生;如何在药物疗效研究中合理筛选出敏感的指标、变量等均是具有重大社会意义的命题并有着极大的研究空间和价值。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种基于贝叶斯模型的HIV抗病毒统计分析方法,旨在解决的问题。
本发明的技术方案如下:
一种基于贝叶斯模型的HIV抗病毒统计分析方法,其中,包括步骤:
按照ID号(每个医院就医过的病人,都有该医院的一个独一无二的ID号,病人的所有档案包括影像资料、检查项目结果和以前的住院就诊信息和门诊资料全部可以通过ID号调阅查询,病人的全部信息可以实现无纸化,既方便了医院的信息化管理,也可以视为病人的“健康身份证”)搜集整理HIV感染者抗病毒临床数据,形成数据集,其中,所述数据集包括CD4细胞计数、HIV病毒载量、用药方案、用药时间、年龄、性别、所在地等指标;
根据所述数据集构建贝叶斯分位数回归方法下的部分线性模型,筛选出与病情转归密切相关的临床指标;
根据筛选出的所述临床指标构建有限混合框架下的层次变点模型;
对所述有限混合框架下的层次变点模型进行后验模拟,得到观测数据的联合后验分布;
所述基于贝叶斯模型选择和统计推断方法,以找到最优预测模型,以实现病情拐点预测和用药方案指导。
所述基于贝叶斯模型的HIV抗病毒统计分析方法,其中,所述贝叶斯分位数回归方法下的部分线性模型定义如下所示:
其中,
所述基于贝叶斯模型的HIV抗病毒统计分析方法,其中,所述贝叶斯分位数回归方法下的部分线性模型中的基函数的回归系数:
所述基于贝叶斯模型的HIV抗病毒统计分析方法,其中,分别对样条中线性部分及非线性部分的回归系数进行变量压缩先验:
以确定变量
所述基于贝叶斯模型的HIV抗病毒统计分析方法,其中,根据所述数据集构建有限混合框架下的层次变点模型的步骤包括:
根据免疫细胞CD4呈现出的先升后降、先升后保持平稳和先升后缓慢升高三种不同轨迹模式,分别设计如下三类轨迹方程:
其中,
根据所述三类轨迹方程构建有限混合框架下的层次变点模型为
其中,
所述基于贝叶斯模型的HIV抗病毒统计分析方法,其中,所述k为1、2或3。
所述基于贝叶斯模型的HIV抗病毒统计缝隙方法,其中,对所述有限混合框架下的层次变点模型进行后验模拟,得到观测数据的联合后验分布的步骤包括:
针对所述有限混合框架下的层次变点模型中数据呈现出的非正态特征,对随机误差设计多元正态分布偏斜T分布和偏斜正态分布;
在对所述有限混合框架下的层次变点模型进行后验模拟时,通过数据添加策略将多元正态分布偏斜T分布和偏斜正态分布表示为易于分析的层次子模型。
有益效果:本发明根据治疗过程中所出现的个体差异,建立起以CD4细胞计数为响应变量的层次变点有限混合模型(免疫动力学模型),合理描述治疗后不同个体间CD4细胞均值轨迹所呈现出的“异质性”并进一步探寻药物疗效与时间之间的关系。基于上述模型,开发适合于不同个体的抗HIV病毒治疗的干预治疗方案;开展临床诊疗方案成本效果评价模型研究,研究比较不同治疗方案的效—费比;为决策者以及长期从事医疗卫生、疾病防控、临床医学研究的一线工作者提供新的视角和有益的对策建议,为我省重大流行病的防控应对提供技术支持和决策支撑;同时,本技术结合了近年来计数数据研究和统计计算方面的新思路新成果,从贝叶斯方法入手,在模型设定、先验分布的选取、后验模拟计算等方面给出了与所研究问题相适应的有针对性的研究方案,丰富和发展了现有的贝叶斯分析理论。
附图说明
图1为本发明一种基于贝叶斯模型的HIV抗病毒统计分析方法较佳实施的流程图。
图2为免疫动力学模型中CD4的三种变化轨迹示意图。
具体实施方式
本发明提供一种基于贝叶斯模型的HIV抗病毒统计分析方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施仅仅用以解释本发明,并不用于限定本发明。
从已有的研究成果来看,早期的艾滋病流行病学研究多以定性分析和简单的描述性统计分析为主。随着艾滋病防控工作的不断完善以及艾滋病数据搜集的不断规范化,对吸毒人群的艾滋病相关研究也多借助于恰当的统计模型并将感染者的时间空间效应考虑在内。尽管如此,目前的研究工作大都围绕简单的Logistic回归模型所开展,对于各地区哨点检测结果中复杂的计数数据、分类数据、名义数据以及缺失数据涉及较少,与此同时,在国内对于近年来国际上流行病学研究的首选方法——“Disease Mapping”技术也几乎未见报道,特别是对这一问题的贝叶斯统计推断研究存在着极大的研究空间和研究价值。
在临床诊疗方面,随着HIV病毒的侵入,引起人体免疫力、免疫调节等各个功能损伤甚至局部缺陷以及多个脏器受累,这需要在病理学、免疫学、内分泌学等多个层次、多个科室协助下,全面了解病理生理变化过程,筛选、甄别出与病情转归密切相关的临床指标,在此基础上,根据治疗过程中患者所出现的个体差异,建立起相应的免疫动力学模型,实现病情走向的提前预判和及时干预。从国内研究成果来看,目前与贝叶斯变量选择研究相关的方法、理论大都围绕线性回归和结构相对简单的广义线性回归模型所展开,对于医学研究中普遍存在的复杂计数数据相关研究较少,与此同时,对HIV感染者临床诊疗数据的深入分析和挖掘仍显不足,尤其在预测疾病严重程度的重要指标的筛选、甄别方面,仍存在很大的研究空间并有待进一步完善。
艾滋病抗病毒治疗的根本难题在于HIV基因组变异频繁,即便是同一个感染者的HIV基因也有差异,这直接导致了在接受了初期的抗病毒治疗后感染者相关免疫学指标(如CD4细胞计数)的均值轨迹呈现出完全不同的三种基本类型(先升后降、升高后保持平稳以及升高后缓慢增长),同时,由于随访缺失和数据收集程序的影响,样本还呈现出不完全、非正态以及具有测量误差等多种复杂结构,如何将上述因素纳入建模中,如何探讨指标轨迹改变与时间的关系,对于后续耐药性/药物依赖研究、个性化治疗方案等工作的顺利开展起到决定性的作用。
基于此,本发明提供了一种基于贝叶斯模型的HIV抗病毒统计分析方法,如图1所示,其步骤包括:
S10、按照ID号搜集整理HIV感染者抗病毒临床数据,形成数据集;
S20、根据所述数据集构建贝叶斯分位数回归方法下的部分线性模型,获取与病情转归密切相关的临床指标;
S30、根据所述数据集构建有限混合框架下的层次变点模型;
S40、对所述有限混合框架下的层次变点模型进行后验模拟,得到观测数据的联合后验分布。
具体来讲,本发明首先根据采集的数据集构建贝叶斯分位数回归方法下的部分线性模型,通过该模型反映临床指标与病情严重程度之间的相关关系,从而筛选、甄别出与病情转归密切相关的临床指标;然后根据治疗过程中所出现的个体差异,建立起以CD4细胞计数为响应变量的有限混合框架下的层次变点模型(免疫动力学模型),合理描述治疗后不同个体间CD4细胞均值轨迹所呈现出的“异质性”,并进一步探寻药物疗效与时间之间的关系。基于本实施例所构建的上述模型,可开发适合于不同个体的抗HIV病毒治疗的干预治疗方案;开展临床诊疗方案成本效果评价模型研究,研究比较不同治疗方案的效—费比;为决策者以及长期从事医疗卫生、疾病防控、临床医学研究的一线工作者提供新的视角和有益的对策建议,为重大流行病的防控应对提供技术支持和决策支撑;同时,本发明结合了近年来计数数据研究和统计计算方面的新思路新成果,从贝叶斯方法入手,在模型设定、先验分布的选取、后验模拟计算等方面给出了与所研究问题相适应的有针对性的研究方案。
在本实施例中,按照ID号搜集整理HIV感染者抗病毒临床数据,形成数据集。具体来讲,针对每一个随访患者,按照不同随访时间采集得到的各项临床指标,所述数据集包括CD4细胞计数、HIV病毒载量、用药方案、用药时间、年龄、性别、所在地等,将所述数据存储为excel表格形式。
在一些实施方式中,本实施例通过建立起贝叶斯分位数回归方法下的部分线性模型以反映临床指标与病情严重程度之间的相关关系,所述贝叶斯分位数回归方法下的部分线性模型定义为:
在一些实施方式中,在临床研究中,由于患者间普遍存在着年龄、性别、基础状况及免疫状态等方面的差异,导致其CD4细胞计数在经历了最初的抗病毒治疗之后会呈现出不同的变化模式,为此,本实施例建立起有限混合框架下的层次变点模型以合理刻画不同感染者之间“非同质性”特征,其基本思想是将数据集划分为三个潜在类别,并在潜在类别内部建立起关于时间的变点模型分段拟合均值轨迹的不同变化趋势。具体来讲,如图2所示,根据免疫细胞CD4呈现出的先升后保持平稳、先升后缓慢升高和先升后降三种不同轨迹模式,分别设计三类轨迹方程:
,其中,
在一些实施方式中,所述对所述有限混合框架下的层次变点模型进行后验模拟,得到观测数据的联合后验分布的步骤包括:针对所述有限混合框架下的层次变点模型中数据呈现出的非正态特征,对随机误差设计多元正态分布偏斜T分布和偏斜正态分布;在对所述有限混合框架下的层次变点模型进行后验模拟时,通过数据添加策略将多元正态分布偏斜T分布和偏斜正态分布表示为易于分析的层次子模型。
具体来讲,根据实际情况,对于数据所呈现出的“尖峰、厚尾”等非正态性特征,本技术分别对随机误差考虑多元正态分布偏斜T分布(ST)、偏斜正态分布(SN),即
如果存在一个
其中,
假设随机变量
其中
于是,
从方法上来看,贝叶斯模型选择方法有很多,如后验模型概率,贝叶斯因子,后验预测检验等,这其中,偏差信息准则(DIC)对于复杂建模能提供准确测量结果,在实际应用中广泛适用于各类统计模型,为此,本技术采用DIC准则以进行模型比较和选择,其定义为:
其中
其中
在一些实施方式中,随着当代统计计算的发展,涌现出许多优秀的统计开发软件,这其中,最具代表性的莫过于R软件和Winbugs软件。借助于上述统计计算开发平台的二次开发技术,本实施例将有限混合层次变点模型的完整贝叶斯后验推断程序封装成R软件包,实现HIV抗病毒治疗的疗效实时检测、确定最佳停药/换药时间节点、费用评估等功能,在此基础上,拟进一步开发出交互界面,可升级为客户端。
综上所述,在临床上,CD4细胞计数在经历了最初的抗病毒治疗之后会出现两阶段的变化,第一阶段以快速升高为特征,第二阶段则相对稳定,可表现为缓慢增长、逐渐下降或维持平稳三种基本模式,此时,若继续沿用传统的纵向数据建模策略不仅不能够充分揭示CD4细胞均值轨迹所呈现出的巨大的个体差异,还缺乏建模的灵活性与稳健性。为此,本发明借鉴了近年来有限混合建模方面的新思路和新方法,建立起了有限混合框架下的层次变点模型以合理刻画数据的“非同质性”特征。直观的说,该方法的基本思想是将总体划分为有限个潜在类,对于不同的类别分别采用不同的轨迹方程以拟合CD4细胞的动力学行为。根据实际问题,本发明将总体划分为三个潜在类别,并在潜在类别内部建立起关于时间的变点模型分段拟合均值轨迹的不同变化趋势。此外,对于数据所呈现出的“尖峰、厚尾”等非正态性特征,本发明将对随机效应和随机误差考虑偏斜T分布(ST)、偏斜正态分布(SN),并对其做出比较。在缺失数据的处理方面,本发明在对问题背景进行充分分析的基础上,通过引入缺失数据的示性变量建立起相应的缺失数据机制。在三类缺失数据机制中,将重点研究随机缺失(MAR)和不可忽略缺失(MNAR)的情形。基于以上模型设定,最终得到观测数据的联合后验分布。
传统的非线性随机效应模型是分析纵向数据的标准选择,其基本思想在于用随机效应和随机误差分别刻画来自“组间”和“组内”两个水平下的变化。在HIV抗病毒治疗的医学统计分析研究中,上述模型的不足之处在于(i)实验个体可能来自于不同的总体,具有不同的均值轨迹,采用单一总体假设既不符合实际情况,也无法充分解释不同水平下的变化;(ii)在纵向数据研究中,鲜有文献同时考虑了缺失、偏态等数据特征。针对这些不足,本发明建立起了缺失及偏态分布假设下层次变点模型的贝叶斯有限混合建模方法,该方法的优势在于(i)允许不同的潜在类别具有不同的参数结构,更能合理反映总体内部“异质性”特征(ii)将变点问题与时间变量相结合,精确揭示了药物疗效与时间之间的关系。事实上,均值轨迹的拐点反映的正是巨噬细胞和受到长时间感染的淋巴组织向血浆中释放HIV病毒的时间节点,掌握这一关键时间节点对于避免药物依赖/耐药性、制定个性化的治疗方案具有重要的临床价值。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
机译: 用于生成带有类别贝叶斯层次模型的品牌贝叶斯层次模型的系统和方法
机译: 用于生成带有类别贝叶斯层次模型的品牌贝叶斯层次模型的系统和方法
机译: 基于贝叶斯峰选择和监测设备的基于贝叶斯峰值选择和相同的监测设备确定方法的方法