首页> 中文学位 >基于EHR电子健康记录的临床医学文献检索研究
【6h】

基于EHR电子健康记录的临床医学文献检索研究

代理获取

目录

声明

摘要

1.1 研究背景与意义

1.2 研究现状

1.3 论文的主要研究内容

1.4 论文组织结构

第二章 相关研究技术

2.1 信息检索模型

2.1.1 向量空间模型

2.1.2 经典概率模型

2.1.3 统计语言模型

2.2 文档平滑技术

2.2.1 Dirichlet Prior平滑技术

2.2.2 Jelinek-Mereer平滑技术

2.3 伪相关反馈技术

2.3.1 传统Rocchio模型

2.3.2 传统RM3模型

2.4 信息检索模型评价指标

第三章 基于EHR不同查询长度的优化检索

3.1 引言

3.2 调整词频权重的MATFM模型

3.3 加入平均特定组频的初始检索模型

3.3.1 MATFB模型

3.3.2 NEWBM模型

3.4 实验数据与结果分析

3.4.1 实验数据

3.4.2 模型评估对比结果

3.4.3 评价措施

3.5 本章小结

第四章 基于超空间模拟语言的增强伪相关反馈

4.1 引言

4.2 基于HAL共现的伪相关反馈

4.2.1 HAL模型概述

4.2.2 加强融合邻近信息的PRF模型

4.2.3 加强融合邻近信息的归一化模型

4.3 实验设计

4.3.1 测试集和评估指标

4.3.2 参数设置

4.4 实验结果与分析

4.4.1 与基线PRF模型对比结果

4.4.2 与先进邻近PRF模型对比结果

4.4.3 不同D值的比较

4.4.3 结果分析

4.5 本章小结

5.1 总结

5.2 下一步研究工作

参考文献

攻读硕士学位期间参加的科研项目与取得的科研成果

致谢

展开▼

摘要

随着医疗信息系统的普及,存在大量相对松散且难以定量分析的EHR电子健康记录,真实地描述了患者的临床表现情况。本文使用EHR作为查询输入,检索与查询相关的医学文献进行输出,帮助医生更快更准确地进行医疗决策。这项任务同时得到了信息检索界和生物医学信息界的高度关注,并连续在近几年的TREC测评比赛中设立此项任务。
  医学检索一直是信息检索领域的研究热点。给定的临床真实数据具有以下特点:a.用作查询的EHR包含Summary,Description以及Note三种类型并且长短不一;b.特定词汇重复出现;c.医学数据集和查询主题中包含大量专有名词和缩略语,格式和内容普遍存在不规范和不完整问题。然而,在传统文档长度归一化方法中,模型本身具有一定的偏好性,如果参数设置一个很小的值,它对于短查询效果较好;反之,则对长查询更有利。现有伪相关反馈模型则不能同时考虑到候选词在反馈文档中的重要程度和候选词与查询词之间的邻近位置共现关系。鉴于此,本文进行了相应的研究与改进,具体贡献体现在以下两个方面:
  第一,在概率模型基础上,设置一个动态函数,代替取值固定的普通参数调节,动态函数需满足:
  (1)查询词只有一个时,必须包含该词的文章才能被检索出来。
  (2)函数值是递减的,随查询长度增加而减少。
  (3)该函数是有界的。同时采用一个新的平均特定组频的概念,得到一个新的模型来进行词区别。
  第二,为了更好地解决与查询术语具有较高位置关联度的词更可能与查询主题相关这一问题,本文使用超空间模拟语言(HAL)模型,设置固定窗口大小,分别计算该窗口内每个候选扩展词与初始用户查询词的邻近词权重,将词邻近共现权重融合到Rocchio扩展权重中,提出了HRoc模型。最终使用归一化方法计算候选查询词得分,选取前N个候选查询词作为扩展查询词来完善用户的查询意图。本文所提出的改进模型都在TREC临床决策支持追踪数据集上进行了实验,结果表明在大部分评价标准上,本文所提出的方法具有可行性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号