基于半监督学习的超声文本结构化研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

超声检查文本报告是电子病历的重要组成部分，记录着患者在诊断与治疗过程中所产生的非结构化文本报告，其中蕴含着非常丰富的临床事实知识，主要体现为各种临床实体如组织实体、位置实体、指标实体和指标值实体等，以及各实体之间的关系。但是其多以自由文本的形式存储，这种非结构化的存储形式不利于信息挖掘，为医疗文档的数据挖掘带来了一定的阻碍。因此，在进行医疗大数据的信息分析前，需针对医疗文档实施结构化信息抽取处理。超声报告对不同病种具有不同的描述特征，不同于一般的自由文本，其描述语句多为短文本，句式结构不完整，因此目前常用的中文自然语言处理技术并不完全适用。为解决上述问题，结合超声报告的语法特征，提出了一种基于半监督学习的超声文本结构化处理方法。本文首先对超声报告中的实体实现识别，再根据实体识别的结果实现超声报告的结构化处理。本文所做的研究如下： 1）单病种语料标注数据集的构建。首先采用依存句法分析方法生成依存关系树，再根据树中结点及结点间的语义关系确定组织实体、位置实体、指标实体和指标值实体等四种实体，实现单病种语料初步构建。本文通过对超声文本语言特点的分析，总结其独特的语言模式，对依存句法分析构建的语料进行校对，在其中添加特殊的医疗语句规则，最终实现单病种语料标注数据集的构建。 2）基于自训练算法实现单病种的实体识别。本文首先针对单病种语料采用 LSTM-CRF 算法生成识别模型，再针对其余大量未标注数据进行实体识别，并将识别结果中置信度较高的数据加入到已有语料标注集中，扩大标注集规模，重新训练识别模型，直至结果收敛。 3）基于协同训练的跨病种实体识别。由于跨病种语言描述存在差异，为弥补自训练反馈过程扩大标注错误的缺点，选取协同训练实现跨病种实体识别。针对另一病种形成标注数据集，本文采用LSTM-CRF算法针对该语料生成识别模型，结合自训练算法生成的单病种标注数据集和识别模型，再针对其余大量跨病种未标注数据进行实体识别，并将识别结果中置信度较高的数据加入彼此语料标注集中，重复上述过程，直至结果收敛。 4）对识别结果进行实体截取，组织实体用于病种识别，位置实体用于病种检测位置的划分识别，指标实体和指标值实体用于结构化结果的构建。为验证本文所提算法的有效性和可用性，本文采用某三甲医院的真实数据进行测试。实验结果表明，该方法能够达到预期的目标，精确度相较于其他方法有所提高，为后续研究提供了支持。

著录项

作者
车楠楠;
展开▼
作者单位

东华大学;

展开▼
授予单位东华大学;
学科计算机科学与技术
授予学位硕士
导师姓名陈德华;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;自动化基础理论;
关键词
半监督学习; 超声; 文本;

相似文献

中文文献
外文文献
专利

1. 基于XML的非结构化文本数据转换研究与实现 [J] . 程洪涛 . 现代计算机（专业版） . 2013,第006期
2. 非结构化文本的自动分类检索平台的研究与实现 [J] . 谢子超 . 软件 . 2015,第011期
3. 超文本结构化转换算法的研究与实现 [J] . 郑庆华 ,由渊霞 ,袁文斌 . 软件学报 . 2001,第002期
4. 基于概率超图半监督学习的专利文本分类方法研究 [J] . 刘桂锋 ,汪满容 ,刘海军 . 情报杂志 . 2016,第009期
5. 基于半监督学习算法在文本分类中的应用研究 [J] . 王敬 ,李淑英 . 信息与电脑：理论版 . 2015,第017期
6. 基于广义半监督学习法超声电机负载特性预测 [C] . Li Jinbang ,李锦棒 ,Qu Jianjun . 第五届全国振动利用工程学术会议暨第四次全国超声电机技术研讨会 . 2012
7. 基于语义依存分析的医学超声文本数据结构化处理 [A] . 费腾 . 2020

基于半监督学习的超声文本结构化研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅