首页> 中国专利> 一种基于主题鉴别权重和采样式重构的并行化主题模型

一种基于主题鉴别权重和采样式重构的并行化主题模型

摘要

本发明涉及人工智能的自然语言处理领域以及数据挖掘领域,更具体地,涉及一种基于主题鉴别权重和采样式重构的并行化主题模型。包括以下步骤:S1.将预处理后的输入文档输入LDA(潜在狄利克雷分配,Latent Dirichlet Allocation)中,推断出主题分布;S2.通过当前每个词的主题分布,计算每个词的主题鉴别权重;S3.采样式重构,继续Gibbs采样。本发明基于TW(Term‑Weighting)LDA模型的赋权思想,建立了新的模型SR(Sampling Reconstructed)LDA,针对LDA模型进行文本建模和主题提取时受主题混淆词影响较大的问题,通过计算词汇表中各个词的主题鉴别权重并重构模型参数,降低了主题混淆词的影响。本文模型对所作的矩阵采样式重构和并行加速优化,能得到比TWLDA更好、更稳定的优化效果,并降低了优化所需的时间成本。

著录项

  • 公开/公告号CN109885839A

    专利类型发明专利

  • 公开/公告日2019-06-14

    原文格式PDF

  • 申请/专利权人 中山大学;

    申请/专利号CN201910161792.3

  • 发明设计人 江泓谕;饶洋辉;

    申请日2019-03-04

  • 分类号

  • 代理机构广州粤高专利商标代理有限公司;

  • 代理人陈伟斌

  • 地址 510275 广东省广州市海珠区新港西路135号

  • 入库时间 2024-02-19 11:14:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-07-09

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20190304

    实质审查的生效

  • 2019-06-14

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号