公开/公告号CN112992364A
专利类型发明专利
公开/公告日2021-06-18
原文格式PDF
申请/专利权人 广州医科大学附属脑科医院;
申请/专利号CN202110168688.4
发明设计人 曹莉萍;王继军;宋学勤;王志仁;张天宏;吴秋霞;钟思倩;王舒颖;周燕玲;杨婵娟;张晓菲;孙加琪;王成瑜;陈映梅;蔡颖莲;郑朝盾;雷华为;程道猛;张亚坤;武丽嫦;麦思茗;李苏义;欧玉芬;刘垂洪;成小芳;陈建山;郝小玉;殷炜珍;杨瑞兰;
申请日2021-02-07
分类号G16H50/50(20180101);G16H20/70(20180101);G16H50/70(20180101);G16H50/20(20180101);
代理机构44100 广州新诺专利商标事务所有限公司;
代理人吴泽燊;李海恬
地址 510000 广东省广州市荔湾区明心路36号广州医科大学附属脑科医院早期干预科
入库时间 2023-06-19 11:27:38
技术领域
本发明涉及精神分裂症诊断技术领域,特别是涉及一种基于认知的青少年及成人通用的首发精神分裂症诊断模型、构建方法和诊断系统。
背景技术
精神分裂症是一种严重的精神疾病,临床主要表现为幻觉、妄想、思维、言行紊乱,以及阴性症状。精神分裂症的全球发病率约1%。临床研究表明该病多起病于青少年及成年早期,越早治疗,效果越好,早期正确的诊断是决定精神分裂症能否获得功能康复最大化的关键因素。目前,该病的诊断主要依据缺乏客观依据的症状表现,然而该病临床表现多样,尤其是对于青少年起病的精神分裂症患者,临床表现更是复杂多变,早期诊断困难。
目前,临床上尚未有能通用于青少年和成年人的精神分裂症的客观诊断工具,没有可借鉴的现成方法。既往基于认知的成人精神分裂症诊断模型,建模过程不严格,或未经交叉验证,或未经过严格的测试集进一步验证,甚至没有测试数据集,无法很好保证模型的泛化性,使得模型性能在真正应用于临床时难以复现。因此,精神科临床迫切需求开发一种基于客观标记的、高准确率、且能同时适用于青少年和成人的精神分裂症早期识别或诊断工具。
发明内容
基于此,有必要针对上述问题,提供一种基于认知的青少年及成人通用的首发精神分裂症诊断模型的构建方法,构建得到的诊断模型可通用于成年和青少年精神分裂症患者的客观诊断,测试结果可重复性和准确性高。
一种基于认知的青少年及成人通用的首发精神分裂症诊断模型的构建方法,包括以下步骤:
采样:采集样本,所述样本中包括患者和健康者;所述患者符合美国精神障碍诊断与统计手册第5版(DSM-5)精神分裂症诊断标准,且为首次发病;所述健康者目前和既往均不符合DSM-5精神障碍诊断标准;
划分:从所述样本中划分训练集,所述训练集中包括患者和健康者;
数据预处理:采用国际通用的精神分裂症成套认知测试工具MCCB(MATRICSConsensus Cognitive Battery)认知测验对训练集的被试者进行评分,所述MCCB认知测验指标中不包含社会认知指标;
模型构建:通过整合了上采样法和下采样法的联合采样方法使得训练集中患者和健康者的样本数量得到匹配,采用支持向量机分类算法建模,并以留一法交叉验证调整模型参数,得到基于认知的青少年及成人通用的首发精神分裂症诊断模型。
研究表明成人、青少年精神分裂症患者在疾病早期均可存在广泛的认知功能损害,而且这种认知缺陷具有稳定的遗传性,且与患者的功能状态密切相关,认知功能可作为早期识别成人和青少年精神分裂症的客观特征,将其与机器学习技术整合,有望建立个体化诊断模型,有效早期识别成人和青少年精神分裂症患者。神经认知诊断标记操作简便,不受仪器设施等客观条件的制约,易于推广到基层,且检测结果相对稳定可靠。
本发明针对临床无通用于成人和青少年的精神分裂症客观诊断模型这一现状,依据MCCB指标,通过规范的数据预处理和机器学习分类模型构建流程,建立起一种成人及青少年通用的精神分裂症诊断模型。本发明在MCCB指标基础上剔除了社会认知维度,发明人通过多点采集数据发现年龄较小的青少年患者难以完成MCCB中的社会认知模块,而既往基于认知的成人精神分裂症模型,往往纳入了社会认知维度指标,使得其难以进一步应用于青少年中。因此,本发明在模型构建时剔除了社会认知维度变量,提高了该模型在青少年患者诊断实际应用中的可行性。
而且,本发明采用联合采样方法,即上采样法和下采样法,解决训练集样本量不平衡的问题,而这是实际研究中常常遇到的可能的研究混杂因素。上采样法可以使少数类样本扩增至跟多数类样本一样多,但可能会导致样本噪声增多,然后使用下采样法去除上采样法产生的数据噪声,从而有效缩减影响辨别的冗余样本,提高算法的分类准确性。
上述构建方法,剔除了不适用于年龄较小的青少年的社会认知指标,提高了该模型在青少年患者诊断实际应用中的可行性。通常训练集中的患者和健康者(即健康对照)样本数量不同,即样本不平衡,样本不平衡的问题可能导致模型训练时,模型倾向于选择数据中多数类作为分类依据,使训练出来的模型失去应用价值;因此,本发明模型构建时采用联合采样方法,先利用上采样法使少数类样本扩增至跟多数类样本一样多,再利用下采样法去除上采样法产生的数据噪声,从而有效缩减影响辨别的冗余样本,提高算法的分类准确性。上述方法构建的诊断模型,可通用于成人和青少年精神分裂症患者的客观诊断,测试结果可重复性高,在成人和未成年人的测试集中对患者和对照的分类准确性均大于84%,该诊断模型的泛化能力强。
“精神分裂症诊断标准”是指美国《精神障碍诊断与统计手册(第5版)》(Diagnostic and Statistical Manual of Mental Disorders,Fifth Edition,DSM-5)的精神分裂症诊断标准,由2名精神科主治医师及以上职称的医生做出一致诊断。
在其中一个实施例中,所述训练集中包括成年患者和成年健康者。
在其中一个实施例中,所述训练集中包括成年患者、未成年患者、成年健康者和未成年健康者。
在其中一个实施例中,所述模型构建步骤后还有验证步骤:所述划分步骤中除去训练集以外的样本为测试集,将所述首发精神分裂症诊断模型应用于测试集,对患者和健康者进行分类效果验证;所述测试集包括成年人测试集和未成年人测试集。
优选地,所述测试集的数量至少有两个。采用两个测试集对模型进行测试,能更好体现诊断模型的普适能力。
在其中一个实施例中,所述训练集的样本采集地点和测试集的样本采集地点不同。
在其中一个实施例中,所述训练集中的样本来源至少为2种,训练集采用多种来源样本,有利于模型得到充分训练,提高准确性。
可以理解的,所述样本来源指样本收集的地区或医院等,采用不同来源的样本进行训练和测试,数据独立性好,构建的模型不受地区限制,跨区域诊断结果准确性高,有利于在不同地区推广使用。
本发明采用的训练集和测试集数据独立性好,训练集和测试集分别来自于全国不同的中心,且构建训练过程中的交叉验证和联合采样过程仅应用于训练集,严格保证了训练集和测试集的数据独立性。
在其中一个实施例中,所述MCCB认知测验指标包括:信息处理速度、注意警觉性、工作记忆、词语学习、视觉学习、推理和问题解决。
在其中一个实施例中,所述MCCB认知测验指标包括:符号编码、动物命名分类流畅性、连线测验A、注意警觉性、工作记忆、词语学习、视觉学习、推理和问题解决。
采用上述MCCB认知测验指标,结合上述模型构建手段,得到的诊断模型在诊断成人和未成年人首发精神分裂症的准确性更高。
在其中一个实施例中,所述上采样法为SMOTE过采样法。
在其中一个实施例中,所述下采样法为Tomek Link法。
本发明一方面还提供一种采用上述构建方法得到的基于认知的青少年及成人通用的首发精神分裂症诊断模型。
本发明的诊断模型,可通用于成人和青少年精神分裂症患者的客观诊断,测试结果可重复性高,在成人和未成年人的测试集中对患者和对照的分类准确性均大于84%,表明该诊断模型的泛化能力强。
本发明还提供一种首发精神分裂症通用的诊断系统,所述诊断系统包括:
数据采集模块,用于采集被试者的MCCB认知测验指标测试评分;
分析模块,将被试者指标评分输入上述诊断模型,并进行分析;
输出模块,用于输出分析模块的诊断结果。
上述诊断系统采用了本发明的诊断模型,可高效地对被试者进行基于个体的客观诊断,提高诊断效率和诊断结果的稳定性。
与现有技术相比,本发明具有以下有益效果:
本发明的诊断模型,解决了临床无通用于成人和青少年精神分裂症患者的客观诊断模型的现状;测试结果可重复性高,模型经过测试集的检验,在成人和未成年人的测试集中对患者和健康对照的分类准确性均大于84%,提示模型泛化能力强,结果可重复性高。
本发明的构建方法,剔除了不适用于年龄较小的青少年的社会认知指标,提高了该模型在青少年患者诊断实际应用中的可行性;并且,采用联合采样方法,先利用上采用法使训练集少数类样本扩增至跟多数类样本一样多,再利用下采样法去除训练集中上采样法产生的数据噪声,从而有效解决样本不平衡问题以及缩减训练集中影响辨别的冗余样本,提高算法的分类准确性。
附图说明
图1为实施例中诊断模型的构建流程图;
图2为未成年人测试集的测试混淆矩阵图;
其中,SP为标准化病人,HC为健康对照;横排SP、HC为原始数据真实分类结果;竖排SP、HC为诊断分类结果;
图3为成年人测试集的测试混淆矩阵图;
其中,SP为标准化病人,HC为健康对照;横排SP、HC为原始数据真实分类结果;竖排SP、HC为诊断分类结果。
具体实施方式
为了便于理解本发明,以下将给出较佳实施例对本发明进行更全面的描述。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例1
一、采集研究对象。
本模型样本来自全国多中心,分别从以下四家单位负责招募健康对照以及住院部及门诊收治的首发精神分裂症患者和健康对照:上海精神卫生中心(54例患者和48例健康对照),广州医科大学附属脑科医院(101例患者和89例健康对照),郑州大学第一附属医院(107例患者和53例健康对照),北京回龙观医院(71例患者)。
首发精神分裂症患者入组标准:
1)符合《精神障碍诊断与统计手册(第5版)》(Diagnostic and StatisticalManual of Mental Disorders,Fifth Edition,DSM-5)精神分裂症诊断标准,由2名精神科主治医师及以上职称的医生做出一致诊断;
2)年龄13-45岁;
3)首次发作,未经精神科药物治疗或精神科药物(含抗精神病药物、抗抑郁药物、心境稳定剂等)累计暴露不超过1年。
首发精神分裂症患者排除标准:
1)妊娠或哺乳期妇女;
2)合并影响认知表现的重大躯体疾病、精神发育迟滞;
3)器质性精神障碍及神经系统疾病;
4)有药物或酒精滥用/依赖;
5)分裂情感性障碍、抑郁或双相障碍。
健康对照入组标准:
1)精神健康,目前和既往无符合DSM-5诊断标准的精神障碍;
2)13-45岁;
3)签署知情同意。
健康对照排除标准:
1)两系三代内有精神障碍家族史;
2)孕期和哺乳期;
3)合并影响认知表现的重大躯体疾病和神经系统疾病。
本研究经广州医科大学附属脑科医院伦理委员会审核批准,受试者或其监护人签署知情同意书。
二、认知评估。
目前精神分裂症的认知功能评测中最常用的是改善精神分裂症认知的评估和治疗研究共识认知成套测试(MATRICS Consensus Cognitive Battery,MCCB)。采用MCCB量表对被试进行评估,包括7个认知领域评分:信息处理速度、注意、警觉性、工作记忆、词语学习、视觉学习、推理和问题解决、社会认知。
本实施例中采用优化后的MCCB认知测验指标:符号编码、动物命名分类流畅性、连线测验A、注意警觉性、工作记忆、词语学习、视觉学习、推理和问题解决。
三、模型构建。
1、数据预处理
指标提取:由于青少年自身阅历和理解能力所限,超过三分之一无法配合完成社会认知模块,故而我们提取矫正过年龄、性别、受教育年限等影响因素后的信息处理速度下三个模块(符号编码、动物命名分类流畅性、连线测验A)、注意警觉性、工作记忆、词语学习、视觉学习、推理和问题解决的T分(T-score),一共8个指标,作为纳入模型的指标,上述指标按照常规MCCB认知测验方法进行评定。
2、模型构建方法
1)训练和测试集的划分:采用上海精神卫生中心、郑州大学第一附属医院、北京回龙观医院的一共232例患者和101例健康对照作为训练集,采用广州医科大学附属脑科医院的56例成人患者和61例健康对照作为成人测试集,广州医科大学附属脑科医院的45例未成年人患者和28例未成年人健康对照作为未成年人测试集。
2)算法及构建过程:训练集的患者和健康对照样本两组间样本量不平衡,通过联合采样方法使得训练集中患者和健康对照的样本数量得到匹配,即先采用SMOTE过采样法,再使用Tomek Link法对影响辨别的冗余样本进行有效缩减,最后采用支持向量机分类算法建模,采用留一法交叉验证调整模型参数。
3)验证:将模型分别应用于成人测试集、未成年人测试集中进行患者和健康对照分类效果验证。
四、模型诊断结果。
本实施例的模型构建流程如图1所示。
将认知测试指标测试结果输入上述模型中进行计算,得到诊断结果。在本实施例中,计算过程及结果输出通过scikit-learn支持向量机算法封装包中SVC.decision_function功能完成,可以理解地,也可以采用常规技术中功能相似的其它商用或开源统计学工具实现。
未成年人测试集的测试结果(混淆矩阵)如图2所示,成年人测试集的测试结果(混淆矩阵)如图3所示。
未成年人测试集中,模型区分患者和健康对照的准确度为84.93%,灵敏度为88.89%,特异度为78.57%,模型识别患者的精确度为86.96%。
成人测试集中,模型区分患者和健康对照的准确度为84.62%,灵敏度为69.64%,特异度为98.36%,模型识别患者的精确度为97.50%。
实施例2
一种诊断模型的构建方法,与实施例1模型构建步骤基本相同,区别在于,指标提取步骤中,采用信息处理速度、注意警觉性、工作记忆、词语学习、视觉学习、推理和问题解决6个认知维度指标构建模型。
其中,信息处理速度为符号编码、动物命名分类流畅性、连线测验A的综合分数,该综合分数是只能提供一个维度信息的一个总体指标。而实施例1中符号编码、动物命名分类流畅性、连线测验A为三个独立的指标。
测试结果:成人测试集中,模型区分患者和健康对照的准确度为82.05%;未成年人测试集中,模型区分患者和健康对照的准确度为82.19%。
对比例1
一种诊断模型的构建方法,与实施例1中的模型构建步骤基本相同,区别在于,模型构建方法步骤中,不经过联合采样过程,采用支持向量机算法建模。
测试结果:在成人测试集中,模型区分患者和健康对照的最佳准确度为70.94%;未成年人测试集中,模型区分患者和健康对照的最佳准确度为69.86%。
对比例2
一种诊断模型的构建方法,与实施例1中的模型构建步骤基本相同,区别在于,采用经典的机器学习线性模型-逻辑回归分类算法建模。
测试结果:成人测试集中,模型区分患者和健康对照的准确度为71.79%;未成年人测试集中,模型区分患者和健康对照的准确度为73.97%。
对比例3
一种诊断模型的构建方法,与实施例1中的模型构建步骤基本相同,区别在于,采用经典的机器学习非线性模型-随机森林分类算法建模。
测试结果:成人测试集中,模型区分患者和健康对照的准确度为69.23%;未成年人测试集中,模型区分患者和健康对照的准确度为69.86%。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
机译: 癌症诊断方法,癌症诊断模型构建方法,组合生物标记物的癌症诊断系统以及测量每种生物标记物效果的方法
机译: 在处理数据中分配标签以用于构建机床加工异常诊断模型和加工异常诊断系统的方法
机译: 体外 I>方法和试剂盒用于预防或预测患有首发性精神分裂症的患者对抗精神分裂症药物治疗的反应