首页> 中文学位 >基于全文搜索DotLuceneAPI构建企业信息搜索框架
【6h】

基于全文搜索DotLuceneAPI构建企业信息搜索框架

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究背景

1.2互联网搜索引擎的现状及工作原理

1.3企业行业信息

1.4研究目标及内容

1.4.1本文研究思路和过程

1.4.2本文的结构

1.5总述

第二章框架需求分析

2.1框架概述

2.1.1框架描述

2.1.2框架功能

2.1.3用户特点

2.1.4一般约束

2.1.5假设和依据

2.2具体需求

2.2.1功能需求

2.2.2.外部接口需求

2.2.3性能需求

2.2.4设计约束

2.2.5属性

2.2.6其它需求

2.3小结

第三章框架解决方案

3.1 B/S与C/S比较

3.1.1 C/S模式的优点和缺点

3.1.2 B/S模式的优点和缺点

3.1.3框架结构选择

3.2 DotLucene

3.2.1 DotLucene API全文索引与数据库索引

3.2.2使用DotLucene

3.3分词

3.3.1中文特点

3.3.2一般的分词技术

3.3.3 DotLucene的中文分词

3.3.4 MM(Maximum Matching Method)分词及其词典结构

3.3.5 MP(Maximum Probability Method)分词及其词典结构

3.3.6分词方法与DotLucene的集成

3.4 Remoting与Web Service比较

3.4.1 Web Service

3.4.2 Remoting

3.4.3比较和评价

3.5 .NET与COM组件互操作

3.5.1使用TLBIMP工具

3.5.2运行时可调用包装器

3.5.3 HRESULT

3.5.4继承与RCW对象

3.5.5 COM连接点

3.5.6 COM对象生命期和结束

3.6 XML序列化

3.7 Windows Service

3.7.1 Windows服务的特点

3.7.2创建Windows服务

3.7.3安装Windows服务

3.8总体架构

3.8.1框架设计

3.8.2框架规约

3.8.3模块设计

3.8.4框架层次

3.8.5文本索引及搜索流程

3.9小结

第四章框架模块的设计与实现

4.1 ManageService

4.2 Parser Plugin

4.3 Segment

4.4 IndexService

4.5 Utility

4.6 Search UI

4.7小结

第五章框架部署与评价

5.1客户端分组部署

5.2客户端本地搜索验证

5.3客户端远程搜索验证

5.4框架的优点与不足

5.5小结

第六章总结与展望

参考文献

致谢

展开▼

摘要

现代企业所在的行业越来越专业化,对行业信息也越来越渴求。目前广泛使用的通用搜索引擎,搜索到的相关信息不足45%,不能满足企业的需求。本框架旨在从另外一个方面探索获得企业所在的行业信息的途径——从企业内部进行深层挖掘。本搜索框架主要解决存在于企业内部的散布到各个用户终端的信息共享问题。在企业内部的用户终端上通常都保留着大量的行业信息,如果这些信息在企业内部能够充分流动起来,对于企业将是一大笔的财富。该框架对用户终端的文档进行文本抽取,然后将抽取到的文本进行基于行业词库的分词,将分词结果使用DotLucene索引API进行索引并存储为索引文件。这样一来,终端用户就可以基于行业词库通过DotLucene的搜索API搜索出本地的行业信息。该框架维护了一个在线用户列表。单个客户端不仅可以搜索本地的行业信息,还可以使用.NET框架下的Remoting技术通过在线用户列表搜索到框架中其它用户终端的行业信息,并可以将搜索到的文档下载到本地,以备使用。整个框架用户互相搜索行业信息,使得行业信息在企业内部流动起来。该框架扩展性较强,主要体现在行业词库的可扩展性、分词模块的可扩展性、抽取特定文档文本信息模块的可扩展性、对外的搜索服务的扩展性等几个方面。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号