特定领域术语自动抽取方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

中文领域术语自动抽取是中文信息处理中的一项基础性课题，在很多领域都有很重要的作用。如自然语言生成、计算词典编撰学、句法分析、语料库语言学的研究、统计机器翻译、信息检索、文本分类、文本摘要等领域中有广泛的应用。特别是针对开放语料而言，术语抽取的作用显得十分重要。
　　本文在统计学与语言学的基础上，研究和分析了术语的多方面特点，总结了术语的两个基本特征：单元性和术语性，并提出了术语的形式化定义，这对于领域术语的自动抽取，具有很强的实际操作性。
　　本文系统的研究和分析了现有的术语单元性和领域性的实现方法，并在此基础上改进和提出了判别术语单元性和领域性的新方法。通过实验分析，这些方法在一定程度上提高了术语自动抽取的精度。
　　在判别术语单元性的部分中，中文多字术语抽取一直是术语自动抽取的难点问题。因此，本文使用改进后的互信息参数，避免了传统的互信息参数在字符串应该如何分解上的问题，同时结合参数C-value在长术语抽取上的优势，定义了用于计算术语内部结合强度的统计参数C-MI及其公式。该参数的设计符合术语的构成特点，测试实验显示出了良好的效果。
　　在判别术语领域性的部分中，本文采用了基于统计与规则相结合的方法。通过对术语定义的分析，本文可以看出术语是某一特定领域的被定义项。这种对术语的界定将术语与术语定义结合起来，将术语和普通词语区分开来，有效的判别了候选术语的领域性。同时，对于缺少术语定义信息的候选术语，本文使用信息熵判别其领域特征。
　　本文综合运用论文中研究的方法和设计的术语自动抽取系统，对术语抽取和术语选择功能模块分别进行了评价对比，实验结果显示，本文提出的方法优于传统的术语抽取方法。同时，本文对中图法分类语料进行抽取测试，并随机选取了其中五个领域类别，人工统计了实验结果，五个类别的实验平均准确率达到了72.2％，召回率也要好于经典方法，从而验证了论文中提出的各种方法的有效性和可行性。

著录项

作者
马志斌;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名王宇颖;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
术语自动抽取系统; 信息熵; 功能模块; 形式化定义; 领域特征;

相似文献

中文文献
外文文献
专利

1. 服务于词典编纂的特定领域专业术语自动抽取 [J] . 安纪霞 ,李锡祚 ,宋冰 . 计算机与数字工程 . 2007,第011期
2. 中文领域术语自动抽取方法进展研究 [J] . 闫琪琪 ,张海军 . 电脑知识与技术 . 2014,第028期
3. 一种混合策略的领域术语自动抽取方法 [J] . 闫琪琪 ,张海军 . 电子制作 . 2015,第008期
4. 领域概念术语提取中特征项自动抽取方法 [J] . 孙珠婷 ,顾倩颐 . 计算机工程与设计 . 2012,第008期
5. 面向军事领域的土耳其语术语自动抽取研究 [J] . 张贵林 ,易绵竹 ,李宏欣 . 中国科技术语 . 2022,第001期
6. 基于统计的中文领域术语自动抽取方法的比较研究 [C] . 宁海燕 ,刘秉权 ,张德园 . 第五届全国信息检索学术会议CCIR2009 . 2009
7. 特定领域专业术语的自动抽取 [A] . 安纪霞 . 2007

特定领域术语自动抽取方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅