首页> 中文期刊> 《中文信息学报》 >基于双向LSTM语义强化的主题建模

基于双向LSTM语义强化的主题建模

         

摘要

To construct a semantic coherent topic model,this paper proposes a probabilistic topic model DGPU-LDA (Double Generalized Polya Urn with LDA)which is built on the deep semantic reinforcement from bi-directional LSTM.In order to embed the semantic information of documents,we design a document-wise semantic encoder DS-Bi-LSTM (Document Semantic Bi-directional LSTM).For the model inference,we employ such mechanisms as doc-ument-topic GPU semantic reinforcement,word-word GPU semantic reinforcement and LSTM iterative dependency modeling to capture the Gibbs sampling process.Finally,we implement our method and other baselines on SogouCA and 20 Newsgroup dataset.Experimental results show that in the aspect of topic semantic coherence and text classi-fication,the proposed DGPU-LDA outperform some of the state-of-the-art topic models.Meanwhile,these im-provements also indicate that our DGPU-LDA have great power in text semantic feature representation.%当前,双向LSTM神经网络等深度学习方法已经能有效地表达文本语义特征,为构建深层次的具有语义连贯性的主题模型提供了可能.但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限.该文提出了一个基于双向LSTM语义强化的概率主题模型DGPU-LDA(double generalized polya Urn with LDA).该模型一方面结合双向LSTM文档语义编码框架DS-Bi-LSTM(document semantic bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档-主题和词汇-词汇双GPU(generalized polya Urn)语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程.在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,相对于一些比较前沿的主题模型,DGPU-LDA模型在主题语义连贯性、文本分类准确率方面展现了一定的优势,同时该模型在文本语义特征表达方面的有效性也得到了证明.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号