首页> 中国专利> 一种基于词组的概念化主题建模方法

一种基于词组的概念化主题建模方法

摘要

本发明涉及一种基于词组的概念化主题建模方法,属于自然语言处理中的文本挖掘领域。包括1)挖掘文本语料中的词组;2)从概念知识库获取概念和实体关系;3)设置主题数、Dirichlet分布先验参数及最大迭代次数N;4)随机为每篇文档的每个词组中的词分配概念;5)随机地为每个词组的概念分配相同的主题;6)通过Gibbs采样方法迭代N次,更新概念和主题分配;7)计算文档‑主题分布θ和主题‑概念分布φ的估计值;8)得出每篇文档中不同主题的占比;9)得出每个主题中不同概念的占比,并结合概念知识库对挖掘出的主题进行解释。所述方法使主题模型在挖掘文本语料主题的过程中,深入理解文本的含义,增强了主题挖掘的语义完整性。

著录项

  • 公开/公告号CN111401053B

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN202010178856.3

  • 发明设计人 黄河燕;唐翼琨;史学文;毛先领;

    申请日2020-03-15

  • 分类号G06F40/284(20200101);G06F40/216(20200101);G06F40/30(20200101);G06F16/35(20190101);

  • 代理机构11639 北京正阳理工知识产权代理事务所(普通合伙);

  • 代理人张利萍

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2022-08-23 12:59:35

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号