首页> 中文学位 >特定领域术语自动抽取方法的研究
【6h】

特定领域术语自动抽取方法的研究

代理获取

目录

特定领域术语自动抽取方法的研究

Research on Automatic Domain-Specific Term Extraction Method

摘要

Abstract

第1章绪论

1.1课题研究的背景及意义

1.2国内外对术语自动获取的研究

1.3主要工作与本文组织

第2章术语学与术语的形式化概念

2.1术语学简介

2.2术语形式化界定的研究

2.3术语定义的研究

2.4术语的特征

2.5本章小结

第3章基于改进的互信息判别术语单元性方法 的研究

3.1判别术语单元性的相关统计参数的研究

3.2一种基于改进的互信息的术语抽取方法

3.3语料预处理相关技术的研究

3.4过滤方法的相关研究

3.5实验结果和分析

3.6本章小结

第4章基于统计与语言学相结合的术语领域性 判别方法的研究

4.1判别术语领域性的相关统计参数的研究

4.2基于术语定义信息的术语领域性判别方法

4.3基于统计信息与语言学信息的术语领域性判别方法

4.4实验结果与分析

4.5本章小结

第5章系统设计与实现

5.1系统功能

5.2系统架构

5.3术语单元性判别模块的设计与实现

5.4术语领域性判别模块的设计与实现

5.5术语抽取系统的评测

5.6本章小结

结论

参考文献

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致谢

展开▼

摘要

中文领域术语自动抽取是中文信息处理中的一项基础性课题,在很多领域都有很重要的作用。如自然语言生成、计算词典编撰学、句法分析、语料库语言学的研究、统计机器翻译、信息检索、文本分类、文本摘要等领域中有广泛的应用。特别是针对开放语料而言,术语抽取的作用显得十分重要。
  本文在统计学与语言学的基础上,研究和分析了术语的多方面特点,总结了术语的两个基本特征:单元性和术语性,并提出了术语的形式化定义,这对于领域术语的自动抽取,具有很强的实际操作性。
  本文系统的研究和分析了现有的术语单元性和领域性的实现方法,并在此基础上改进和提出了判别术语单元性和领域性的新方法。通过实验分析,这些方法在一定程度上提高了术语自动抽取的精度。
  在判别术语单元性的部分中,中文多字术语抽取一直是术语自动抽取的难点问题。因此,本文使用改进后的互信息参数,避免了传统的互信息参数在字符串应该如何分解上的问题,同时结合参数C-value在长术语抽取上的优势,定义了用于计算术语内部结合强度的统计参数C-MI及其公式。该参数的设计符合术语的构成特点,测试实验显示出了良好的效果。
  在判别术语领域性的部分中,本文采用了基于统计与规则相结合的方法。通过对术语定义的分析,本文可以看出术语是某一特定领域的被定义项。这种对术语的界定将术语与术语定义结合起来,将术语和普通词语区分开来,有效的判别了候选术语的领域性。同时,对于缺少术语定义信息的候选术语,本文使用信息熵判别其领域特征。
  本文综合运用论文中研究的方法和设计的术语自动抽取系统,对术语抽取和术语选择功能模块分别进行了评价对比,实验结果显示,本文提出的方法优于传统的术语抽取方法。同时,本文对中图法分类语料进行抽取测试,并随机选取了其中五个领域类别,人工统计了实验结果,五个类别的实验平均准确率达到了72.2%,召回率也要好于经典方法,从而验证了论文中提出的各种方法的有效性和可行性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号