首页> 中文学位 >融合知识库统计信息与概念信息的短文本分类方法
【6h】

融合知识库统计信息与概念信息的短文本分类方法

代理获取

目录

声明

目 录

第 1 章 绪论

1.1研究背景及意义

1.2国内外研究现状

1.2.1文本表示方法国内外研究

1.2.2 文本分类方法国内外研究

1.3本文主要工作

1.4论文组织结构

第 2 章 相关理论技术

2.1文本分类流程

2.2文本预处理

2.2.1文本分词

2.2.2去除停用词与提取词干

2.2.3去除非法格式字符

2.3文本表示模型

2.3.1离散表示

2.3.2分布表示

2.4文本分类常用算法

2.4.1 K 近邻分类算法

2.4.2支持向量机算法

2.4.3卷积神经网络

2.4.4循环神经网络

2.5注意力机制

2.5.1层次注意力

2.5.2前馈注意力

2.5.3多头自注意力

2.6深度学习框架介绍

2.7相关知识库

本章小结

第 3 章 基于知识库统计信息的短文本分类方法

3.1相关特征加权计算方法

3.1.1 布尔权重

3.1.2词频

3.1.3逆文档频率

3.1.4词频-逆文档频率

3.2权重计算方法

3.3分类流程及实现

3.3.1特征加权流程

3.3.2整体分类流程

3.4实验结果分析

3.4.1数据集

3.4.2分类器及评价标准

3.4.3实验结果

本章小结

第 4 章 融入知识库概念信息的短文本分类方法

4.1词嵌入表示

4.2概念表示

4.3 CAE-CNN 分类模型

4.3.1输入编码层

4.3.2短文本卷积层

4.3.3 softmax 分类层

4.4实验分析

4.4.1实验数据集

4.4.2实验参数设置

4.4.3对比实验方法及实验结果分析

4.5基于深度学习的变体方法

4.5.1实验设置

4.5.2实验结果和分析

本章小结

结 论

参考文献

附录 A 攻读工程硕士学位期间研究成果

致谢

展开▼

摘要

短文本分类作为自然语言处理中一项关键且基础性的研究,在推荐系统、问答系统、情感分析等领域发挥着重要作用。在网络信息时代,短文本是进行日常交流和信息共享过程中不可或缺的载体,具有长度短、句法不规范、语义稀疏且缺乏上下文背景知识等特点。针对这些问题,研究者们尝试通过统计信息来增强数据集的分类特征表示,例如用TF-IDF加权算法来增强有助于分类的特征项表示,而减弱无用特征项的表示。但单个小数据集本身的统计信息不能有效刻画特征项的重要程度,而利用规模较大的知识库(如维基百科知识库,谷歌知识库)的统计信息来增强自身语义特征是一种可尝试的方法。再者,之前的研究大多是针对词嵌入模型和分类模型进行改进,忽略了短文本数据集表达能力有限、语义稀疏且词语本身具有歧义性的特点,如果能够从数据集以外的知识库中获取先验知识来改善数据集的表达能力,那么对短文本分类将起着事半功倍的作用。综合以上发现,本文借助了维基百科知识库的统计信息,提出了两种特征加权方案,来刻画特征项的重要程度,增强样本表达语义的能力。进一步地,本文利用了现有知识库获取短文本的相关概念知识来改善文本缺乏背景知识的问题。具体地,本文主要工作内容如下:  (1)基于大规模知识库中的统计知识能够有效刻画词语的重要程度这一思想,统计了维基百科知识库的词频,以获得大规模知识库的统计知识。  (2)基于(1)中获取的统计知识,本文提出了两种特征加权方案,并通过实验证明这两种加权方案是有效的。  (3)借助了Probase知识库获取知识库中短文本单词的相关概念,来丰富词语的表达,改善词语的歧义性,在一定程度上解决缺乏背景知识的问题。  (4)综合了维基百科知识库的统计知识和Probase知识库的概念知识,在卷积神经网络(CNN)模型的基础上提出了CAE-CNN模型,并通过实验结果证明该模型是有效的。  (5)基于深度学习方法提出了有关CAE-CNN模型的六种变体方法,通过将这六种变体方法与CAE-CNN方法进行实验结果对比和分析,证明了这六种变体方法在提升短文本分类效果上是具有一定竞争力的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号