首页> 中文学位 >基于半监督学习的超声文本结构化研究与实现
【6h】

基于半监督学习的超声文本结构化研究与实现

代理获取

目录

第一个书签之前

展开▼

摘要

超声检查文本报告是电子病历的重要组成部分,记录着患者在诊断与治疗过程中所产生的非结构化文本报告,其中蕴含着非常丰富的临床事实知识,主要体现为各种临床实体如组织实体、位置实体、指标实体和指标值实体等,以及各实体之间的关系。但是其多以自由文本的形式存储,这种非结构化的存储形式不利于信息挖掘,为医疗文档的数据挖掘带来了一定的阻碍。因此,在进行医疗大数据的信息分析前,需针对医疗文档实施结构化信息抽取处理。 超声报告对不同病种具有不同的描述特征,不同于一般的自由文本,其描述语句多为短文本,句式结构不完整,因此目前常用的中文自然语言处理技术并不完全适用。为解决上述问题,结合超声报告的语法特征,提出了一种基于半监督学习的超声文本结构化处理方法。本文首先对超声报告中的实体实现识别,再根据实体识别的结果实现超声报告的结构化处理。本文所做的研究如下: 1)单病种语料标注数据集的构建。首先采用依存句法分析方法生成依存关系树,再根据树中结点及结点间的语义关系确定组织实体、位置实体、指标实体和指标值实体等四种实体,实现单病种语料初步构建。本文通过对超声文本语言特点的分析,总结其独特的语言模式,对依存句法分析构建的语料进行校对,在其中添加特殊的医疗语句规则,最终实现单病种语料标注数据集的构建。 2)基于自训练算法实现单病种的实体识别。本文首先针对单病种语料采用 LSTM-CRF 算法生成识别模型,再针对其余大量未标注数据进行实体识别,并将识别结果中置信度较高的数据加入到已有语料标注集中,扩大标注集规模,重新训练识别模型,直至结果收敛。 3)基于协同训练的跨病种实体识别。由于跨病种语言描述存在差异,为弥补自训练反馈过程扩大标注错误的缺点,选取协同训练实现跨病种实体识别。针对另一病种形成标注数据集,本文采用LSTM-CRF算法针对该语料生成识别模型,结合自训练算法生成的单病种标注数据集和识别模型,再针对其余大量跨病种未标注数据进行实体识别,并将识别结果中置信度较高的数据加入彼此语料标注集中,重复上述过程,直至结果收敛。 4)对识别结果进行实体截取,组织实体用于病种识别,位置实体用于病种检测位置的划分识别,指标实体和指标值实体用于结构化结果的构建。 为验证本文所提算法的有效性和可用性,本文采用某三甲医院的真实数据进行测试。实验结果表明,该方法能够达到预期的目标,精确度相较于其他方法有所提高,为后续研究提供了支持。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号