融合知识库统计信息与概念信息的短文本分类方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

短文本分类作为自然语言处理中一项关键且基础性的研究，在推荐系统、问答系统、情感分析等领域发挥着重要作用。在网络信息时代，短文本是进行日常交流和信息共享过程中不可或缺的载体，具有长度短、句法不规范、语义稀疏且缺乏上下文背景知识等特点。针对这些问题，研究者们尝试通过统计信息来增强数据集的分类特征表示，例如用TF-IDF加权算法来增强有助于分类的特征项表示，而减弱无用特征项的表示。但单个小数据集本身的统计信息不能有效刻画特征项的重要程度，而利用规模较大的知识库(如维基百科知识库，谷歌知识库)的统计信息来增强自身语义特征是一种可尝试的方法。再者，之前的研究大多是针对词嵌入模型和分类模型进行改进，忽略了短文本数据集表达能力有限、语义稀疏且词语本身具有歧义性的特点，如果能够从数据集以外的知识库中获取先验知识来改善数据集的表达能力，那么对短文本分类将起着事半功倍的作用。综合以上发现，本文借助了维基百科知识库的统计信息，提出了两种特征加权方案，来刻画特征项的重要程度，增强样本表达语义的能力。进一步地，本文利用了现有知识库获取短文本的相关概念知识来改善文本缺乏背景知识的问题。具体地，本文主要工作内容如下：　　(1)基于大规模知识库中的统计知识能够有效刻画词语的重要程度这一思想，统计了维基百科知识库的词频，以获得大规模知识库的统计知识。　　(2)基于(1)中获取的统计知识，本文提出了两种特征加权方案，并通过实验证明这两种加权方案是有效的。　　(3)借助了Probase知识库获取知识库中短文本单词的相关概念，来丰富词语的表达，改善词语的歧义性，在一定程度上解决缺乏背景知识的问题。　　(4)综合了维基百科知识库的统计知识和Probase知识库的概念知识，在卷积神经网络(CNN)模型的基础上提出了CAE-CNN模型，并通过实验结果证明该模型是有效的。　　(5)基于深度学习方法提出了有关CAE-CNN模型的六种变体方法，通过将这六种变体方法与CAE-CNN方法进行实验结果对比和分析，证明了这六种变体方法在提升短文本分类效果上是具有一定竞争力的。

著录项

作者
王静;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科计算机技术
授予学位硕士
导师姓名全哲,吴炜;
年度 2020
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
短文本分类,知识库,加权方案,统计知识,概念知识,卷积神经网络,卷积核;

相似文献

中文文献
外文文献
专利

1. 一种融合词项关联关系和统计信息的短文本建模方法 [J] . 马慧芳 ,曾宪桃 ,李晓红 . 计算机应用与软件 . 2016,第010期
2. 基于概念网络的短文本分类方法 [J] . 林小俊 ,张猛 ,暴筱 . 计算机工程 . 2010,第021期
3. 融合卡方统计和TF-IWF算法的特征提取和短文本分类方法 [J] . 李昌兵 ,段祺俊 ,纪聪辉 . 重庆理工大学学报（自然科学版） . 2021,第005期
4. 融合卡方统计和TF-IWF算法的特征提取和短文本分类方法 [J] . 李昌兵 ,段祺俊 ,纪聪辉 . 重庆理工大学学报 . 2021,第005期
5. 一种融合语义知识和BiLSTM-CNN的短文本分类方法 [J] . 杨秀璋 ,李晓峰 ,袁杰 . 计算机时代 . 2021,第011期
6. 从专业文献统计信息看信息融合技术的发展与现状 [C] . Jiang Benqing ,姜本清 ,Zhang Bingqiang . 第六届中国信息融合大会 . 2014
7. 基于概念描述及内容扩展的短文本分类方法研究 [A] . 杨天平 . 2013

融合知识库统计信息与概念信息的短文本分类方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅