首页> 中文学位 >一种基于远程监督的中文实体关系抽取方法
【6h】

一种基于远程监督的中文实体关系抽取方法

代理获取

目录

声明

第1章绪论

1.1 课题背景及意义

1.1.1 课题背景与研究意义

1.1.2关系抽取的历史研究进展

1.2 本课题的主要研究内容

1.3 本文组织结构安排

第2章传统关系抽取方法概述

2.1.1模式匹配算法原理

2.1.2模式匹配方法的发展

2.2.2基于机器学习的关系抽取方法分类

2.3 开放式关系抽取研究

2.4.1缺少有效训练语料

2.4.2 特征的质量不一

2.5.1远程监督方法简介

2.5.2存在的不足

2.5.3当前解决方法

2.6 本章小结

第3章一种基于远程监督的中文实体关系抽取方法

3.1 基于远程监督的关系抽取流程

3.2 现存问题解决方案

3.2.1远程监督去噪算法

3.2.2特征筛选算法

3.2.3关系抽取算法

3.3 本章小结

第4章远程监督算法中的去噪研究

4.1 词汇语义相似度算法

4.1.1词汇语义相似度算法简介

4.1.2基于知网的相似度方法的改进

4.1.3基于搜索引擎的相似度算法的改进

4.1.4 WSHSE算法

4.2 使用WSHSE算法进行远程监督去噪

4.2.1语料预处理算法

4.2.2训练数据标注与去噪流程

4.3.1实验环境

4.3.2实验设置

4.3.3实验结果分析

4.4 本章小结

第5章 特征筛选及分类器构建

5.1 概述

5.2 初始特征筛选

5.2.1初始特征空间

5.2.2特征筛选算法

5.3 强化学习算法

5.3.1提升方法

5.3.2AdaBoost关系抽取算法

5.4.1实验环境

5.4.2实验设置

5.4.3 实验结果与分析

5.5 本章小结

第6章总结与展望

6.1 总结

6.2 展望

参考文献

作者攻读学位期间的科研成果

致谢

展开▼

摘要

实体关系表达的是衔接两个对象之间的某种联系,在自动问答,信息检索等领域有着非常重要的作用,关系抽取任务就是从大量无结构或者半结构数据中准确快速地抽取出这种联系,提高信息的利用率。web2.0时代开始,网络数据呈指数倍增长,包含了更多有价值的知识以及无价值的噪声,这对关系抽取任务提出了更高的要求,关系抽取研究也日益得到专家学者的重视。 目前较成熟的的关系抽取研究方法需要确定研究领域,且标注训练语料,指定关系类型,选取特征,训练分类器等工作均需人工处理,众多人工操作费时费力。据此,本文提出基于远程监督(distant supervision)和强化学习的关系抽取方法致力于解决上述问题。本文研究工作包括以下三个方面: 首先,利用远程监督的思想,提取不同知识库之间的冗余信息,自动标注语料。同时针对自动标注可能存在的噪声问题,使用词汇语义相似度算法进行去噪,提高抽取精度。 然后,使用近年来关系抽取研究中常用特征作为初始特征,利用随机森林算法测试特征的表征能力,过滤掉表征能力弱的特征。 最后,使用Adaboost强化学习方法,构建多个弱分类器,训练得到最终的强分类器,并完成对实体关系的抽取。 本文提出的方法使关系抽取的性能明显提高。在测试实验中,取得了71.6%的准确率和76.8%的召回率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号