基于聚类语言模型的生物文献检索技术研究

文健; 李舟军

首页> 中文期刊> 《中文信息学报》 >基于聚类语言模型的生物文献检索技术研究

基于聚类语言模型的生物文献检索技术研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题.这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索.本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定.二是采用EM算法来估计主题产生项的概率.把上述方法集成到语言模型中就得到本文的语言模型.本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题.本文的方法在TREC 2004/05 Genomics Track数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高.

著录项

来源
《中文信息学报》 |2008年第1期|61-66,122|共7页
作者
文健; 李舟军;
展开▼
作者单位

国防科学技术大学,计算机学院,湖南,长沙,410073;

北京航空航天大学,计算机科学与工程学院,北京,100083;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
计算机应用; 中文信息处理; 主题语言模型; 信息检索; 聚类;

相似文献

中文文献
外文文献
专利

1. 统计语言模型中词的自动聚类技术研究 [J] . 高升 ,徐志明 . 计算机工程与应用 . 2003,第011期
2. 基于领域知识库的水生生物领域文献检索分类技术研究 [J] . 陈佳 . 湖北农业科学 . 2019,第S1期
3. 基于聚类和索引技术的语言模型压缩方法 [J] . 祁斌川 ,杨端端 ,丁建国 . 计算机技术与发展 . 2012,第012期
4. 一种基于统计语义聚类的查询语言模型估计 [J] . 蒲强 ,何大庆 ,杨国纬 . 计算机研究与发展 . 2011,第002期
5. 基于相似度的词聚类算法和可变长语言模型 [J] . 袁里驰 . 小型微型计算机系统 . 2009,第005期
6. 基于聚类语言模型的生物文献检索技术研究 [C] . 文健 ,李舟军 . 第三届全国信息检索与内容安全学术会议 . 2007
7. 基于稳定性语义聚类的语言模型及推荐方法 [A] . 孙芯宇 . 2017

基于聚类语言模型的生物文献检索技术研究

摘要

著录项

相似文献

相关主题

期刊订阅