首页> 中文期刊> 《中国数字医学》 >基于预训练表征模型的自动ICD编码

基于预训练表征模型的自动ICD编码

         

摘要

目的:探索基于开源预训练表征模型的自然语言处理(Natural Language Processing,NLP)方法在电子病历ICD自动编码中的应用.方法:在电子病历文本字词向量的表达方面,传统基于浅层神经网络模型的Word2vec或基于深度学习模型Elmo等方法存在无法感知复杂上下文、语义单向编码等缺点.而近年来以BERT、ERNIE等基于Transformer编码的预训练字词表征技术在多个NLP场景中取得了较大的进步.通过对开源模型BERT采用微调(Fine-tuning),将三甲医院的439份电子病历的文字描述诊断所对应的ICD编码进行自动分类提取.结果:经过微调后的模型在准确率及召回率等指标相较于传统方法分别提升了21.1%和25.1%,使电子病历文本的特征表达能力得到了明显的提升.结论:基于预训练模型的迁移学习方法及双向语义感知能力体现了其处理大规模语料时的优势,对临床电子病历实际应用中ICD编码标准化、医院临床路径以及DRGs付费管理等NLP相关应用具有重要意义.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号