首页> 中文学位 >智能双语搜索方法及搜索引擎的研究
【6h】

智能双语搜索方法及搜索引擎的研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1引言

1.1.1研究背景

1.1.2国内外研究现状

1.2搜索引擎

1.2.1搜索引擎的分类

1.2.2搜索引擎系统组成

1.2.3搜索引擎的评价

1.2.4网络机器人

1.3 Web挖掘与搜索引擎

1.4辅助翻译技术

1.4.1机器翻译

1.4.2计算机辅助翻译

1.4.3双语辅助翻译搜索

1.5 论文研究主要内容与组织结构

第2章 双语语料抽取方法

2.1语料库概述

2.1.1 网络中的中英文双语语料

2.1.2构建双语语料库的步骤

2.2 网页抓取方法

2.2.1 网络机器人程序设计方式

2.2.2 网络机器人的系统结构

2.2.3语料数据库逻辑结构

2.3 双页文本中双语语料的抽取

2.3.1双页双语文本的特征

2.3.2网页预处理算法

2.3.3语料挖掘算法

2.4 单页文本中双语语料的抽取

2.4.1 识别与净化单页双语文本的算法

2.4.2双语句对匹配与语料挖掘算法

2.5本章小结

第3章 基于查询扩展的双语搜索方法

3.1概述

3.2 查询扩展方法

3.2.1概念检索

3.2.2潜在语义分析

3.2.3同义词扩展

3.3 基于人机交互的查询扩展

3.3.1群体用户行为

3.3.2用户点击与查询词的关系

3.4 实验结果分析

3.5本章小结

第4章 个性化双语搜索方法

4.1概述

4.2 用户个性化信息的获取方法

4.2.1 用户兴趣个性化信息的收集方法

4.2.2用户兴趣个性化信息的更新方法

4.3 个性化搜索实现方法

4.3.1 用户兴趣库的构建

4.3.2查询关键词的个性化扩充

4.3.3查询结果个性化处理

4.4 实验结果分析

4.4.1实验目标

4.4.2实验结果分析

4.5本章小结

第5章 双语元搜索方法

5.1 元搜索概述

5.2 元搜索的结果处理方法

5.2.1结果的提取方法

5.2.2结果的去重复方法

5.3 元搜索的结果排序优化方法

5.3.1相关度排序法

5.3.2基于网络链接的算法

5.3.3使用PageRank算法的问题

5.3.4算法的公式改进

5.3.5结合相关度的优化算法

5.4 实验结果分析

5.4.1实验目标

5.4.2实验分析

5.5本章小结

第6章 双语辅助翻译搜索引擎的设计与实现

6.1系统总体设计

6.2 Lucene 工具

6.3索引模块设计

6.3.1基于Lucene建立索引

6.3.2建立语料库索引

6.3.3实现辅助翻译检索

6.4结果示例

6.5本章小结

第7章 总结与展望

7.1结论

7.2未来展望

参考文献

致谢

攻读博士学位期间发表的论文

展开▼

摘要

随着我国经济与对外交流的不断发展,翻译市场规模迅速扩大,利用计算机软件等翻译工具越来越受到用户的青睐,各类机器翻译的技术和方法层出不穷。机器翻译的方法主要分为两大类,分别是基于规则的方法和基于语料库的方法。基于规则的机器翻译最大的难题就是语言歧义的消解;基于语料库的方法是采取翻译记忆的模式,用户利用已有的原文和译文,建立起一个或多个语料库,在翻译过程中,系统自动搜索库中相同或相似的翻译资源,并给出参考译文。 但是,目前大量基于翻译记忆模式的翻译软件所依赖的语料库都是人工构建的,语料库容量有限,且更新缓慢。随着因特网的发展,基于Web的全文搜索引擎越来越成为信息检索的主要手段,若能将翻译技术与Web信息搜索技术结合起来,就可以为用户提供完善的、实时的和动态的翻译服务。 从研究对象的角度来看,Internet所包含的数据呈现出海量性、半结构化、多样性、动态性、分布式和异构性的特点。特别是经过多年的积累,Internet网站上存储了海量的中英文双语网页资源。 双语语料库对机器翻译、机器辅助翻译、双语词典编纂、双语术语自动提取、双语对比研究以及双语教学的巨大价值已经得到越来越多的认可。对于机器翻译或机器辅助翻译而言,双语语料库主要在两方面发挥作用。一方面,双语语料库可以持续不断地为基于记忆的翻译引擎提供翻译实例,另一方面,双语语料库又是一个宝藏,可以从中挖掘学习各种细粒度翻译知识,供机器翻译、机器辅助翻译使用,这些翻译知识对翻译任务的各个环节都会起到积极作用 本课题的研究目的是通过对网络搜索引擎、自动积累双语语料库、机器翻译的研究,利用网络机器人技术、网页噪音过滤技术、语句匹配入库算法、数据挖掘、分词技术、双语对齐技术、智能用户接口技术、个性化搜索技术、元搜索及结果融合与排序算法、全文检索技术以及JAVA应用等多项技术,研究基于网络大规模语料库和双语网页搜索的智能双语搜索方法和搜索引擎。这既可以为专业人员提供自动的双语网页资源,又可以为用户提供高质量的辅助翻译,避免翻译的重复劳动,提高翻译质量,具有很好的市场价值和社会效益。 本文在研究过程中,主要的创新工作如下: (1)在互联网海量信息中,专门针对含有中英双语信息的单页文本和双页对照文本进行研究。根据两者不同的特点,对双页双语文本首次提出了双页双语语料挖掘算法DBWCM;对单页双语文本设计了分步处理算法,提出了识别与净化单页双语文本的算法IPSBW和双语句对匹配与语料挖掘算法BSMCM。通过执行它们提取网页中大量存在的双语平行翻译语料,形成大规模的语料库,为辅助翻译搜索打下坚实基础。 (2)针对当前搜索引擎的用户界面现状,利用概念检索和潜在语义分析的思想,通过建立双语同义词词典对查询关键词进行双语扩展,并为用户输入提供扩展提示,实现良好的用户界面,提高了双语辅助搜索的智能性和查全率。同时为提高查询的准确率,满足用户的个性化需求,研究了显式和隐式两种获取与更新用户个性化信息的方法,提出了双语关键词个性化扩充算法PEBK和双语查询结果的个性化排序算法PSBR,以便使查询结果达到因时因人因地的不同,得到用户真正想看到的结果。 (3)为了扩大双语搜索的范围,将元搜索技术应用在双语翻译搜索中,通过分析元搜索的结果融合方法,针对使用PageRank算法的问题,提出了结合相关度的改进算法RSBS,并对算法的效果进行验证。 (4)最后,在形成双语语料库的基础上,基于Java和Lucene工具,设计网络机器人模块、网页识别与净化模块、语料匹配入库模块、索引模块、检索模块、个性化查询模块,用户接口等七个主要模块,实现双语搜索,为用户提供辅助翻译服务。 智能双语辅助翻译搜索涉及的研究领域非常广泛,它涵盖了人工智能、语言学、机器翻译、搜索引擎、Web数据挖掘、数据库等多个领域知识。本文所做的工作尽管为利用网络实现辅助翻译提出了一些可行方法,但是,对于构建一个高效且智能化程度高的基于网络的辅助翻译系统还有许多问题有待进一步研究。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号