面向不均衡医学数据集的疾病预测模型研究

陈旭; 刘鹏鹤; 孙毓忠; 沈曦; 张磊; 王晓青; 孙晓平; 程伟

首页> 中文期刊> 《计算机学报》 >面向不均衡医学数据集的疾病预测模型研究

面向不均衡医学数据集的疾病预测模型研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

基于临床表现的疾病预测模型是临床决策支持系统(Clinical Decision Support System,CDSS)的一个重要研究内容.现有临床决策支持系统往往将临床病例作为训练数据集,以临床表现的描述文字为特征,采用统计机器学习方法构建疾病预测模型.然而,在医疗领域往往存在着样本数据集不均衡的问题,导致模型的预测效果降低.欠采样技术是目前解决样本不均衡问题的常用手段.其主要采用一定的方法从多数类样本中抽取部分样本,与少数类样本组成平衡数据集后再构建模型.现有的欠采样方法往往可以显著提高模型对少数类样本的召回率,然而其通常也会造成模型准确率的降低,从而限制了预测模型的整体提升效果.为此,该文提出了一种新的基于迭代提升欠采样的集成分类方法(Under-Sampling with lteratively Boosting,USIB),该方法迭代地从多数类样本中进行欠抽样,构建多组弱分类器,并采用加权组合方式将这些弱分类器构成一个强分类器,从而提升样本不平衡条件下单种疾病预测效果.另外,医学病例样本数据集通常是多类别、多标签的,为此,该文将多个单种疾病的预测模型进行组合构成一个多标签疾病预测模型,以满足临床意义上的多病种以及并发症的诊断.为了进一步提升多标签预测模型的效果,该文设计了一种基于标签最大互信息生成树的标签选择方法(Labels Selection method based on Maximum Mutual InformationSpanning Tree,LS-MMIST),该方法根据原始数据集的分布构建标签之间的最大互信息生成树,在每一次的样本预测阶段,借助树中疾病标签之间的关系确定最终的预测标签集合.实验方面,该文首先选择三种公开的不均衡二分类数据集和我们私有的四种稀有疾病的数据集,对该文提出的迭代提升欠采样方法进行性能评估.其次,分别对比了该文提出的多标签预测模型与现有的多标签预测技术在中医和西医两种多标签数据集上的预测性能.实验结果显示,相对于目前主流的八种欠采样以及两种集成采样技术,该文提出的迭代提升欠采样方法在各个不均衡二分类数据集上的F1值平均提升22.58％;与现有的各种多标签预测技术相比,该文提出的多标签预测方法在西医和中医数据集上正确率分别提升6.30％和12.43％,召回率分别提升4.33％和5.86％,F1值分别提升5.48％和11.16％.

著录项

来源
《计算机学报》 |2019年第3期|596-609|共14页
作者
陈旭; 刘鹏鹤; 孙毓忠; 沈曦; 张磊; 王晓青; 孙晓平; 程伟;
展开▼
作者单位

中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190;

中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190;

中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190;

中国科学院计算技术研究所计算机体系结构国家重点实验室北京100190;

中国中医科学院中医临床基础医学研究所北京 100700;

首都医科大学附属北京朝阳医院北京 100020;

中国科学院计算技术研究所智能信息处理重点实验室北京100190;

中国中医科学院西苑医院北京100091;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
疾病预测; 不均衡数据集; 欠采样; 二分类; 多标签分类;

相似文献

中文文献
外文文献
专利

1. 面向类不平衡数据集的软件缺陷预测模型 [J] . 李冉 ,周丽娟 ,王华 . 计算机应用研究 . 2018,第9期
2. 面向不均衡数据集的过抽样数学模型构建 [J] . 杨思狄 ,王亚玲 . 计算机仿真 . 2021,第005期
3. 一种面向不均衡数据集的CHI特征选择改进算法 [J] . 骆魁永 . 商丘师范学院学报 . 2021,第006期
4. 一种面向不均衡数据集的IG特征选择改进算法 [J] . 骆魁永 . 信阳农林学院学报 . 2021,第004期
5. 面向不均衡数据集的过抽样算法 [J] . 崔鑫 ,徐华 ,宿晨 . 计算机应用 . 2020,第006期
6. 基于DOI构建面向医学领域科技评价的文献数据集的方法研究 [C] . 单连慧 ,李勇 ,安新颖 . 中国医学科学院/北京协和医学院医学信息研究所/图书馆2011年学术年会 . 2012
7. 面向不均衡数据集中少数类样本细分的过采样算法的研究 [A] . 杨炀 . 2016

面向不均衡医学数据集的疾病预测模型研究

摘要

著录项

相似文献

相关主题

期刊订阅