首页> 中国专利> 基于改进LDA主题模型的文本相似度计算方法及系统

基于改进LDA主题模型的文本相似度计算方法及系统

页面导航

摘要
著录项
法律信息
相似文献

摘要

一种基于改进LDA主题模型的文本相似度计算方法及系统，在WMF_LDA主题模型中获取若干文本集；通过word2vec词向量模型对预处理词语集中的词语进行相似度计算并生成若干词语相似度值；按照其词语之间相似度生成领域主题词语集；并将进行过词语语义合并的文档通过LDA主题模型得出其在不同主题上的概率分布；确定任意两个文本之间主题分布相似度得到本发明相似度。先进行筛选减少主题词语集中词语的数量，并将同义词、近义词、同领域词进行统一化映射，再通过建模获得文本的概率分布并进一步判断文本之间的相似程度，使得在计算两个文本的相似度的过程中，使得计算时维度小、减少浪费空间并且解决了过多集中于词语层面、未能充分挖掘和利用不同类型文本的问题。

著录项

公开/公告号CN108829799A

专利类型发明专利
公开/公告日2018-11-16

原文格式PDF
申请/专利权人中国人民公安大学;
展开▼

申请/专利号CN201810571074.9
发明设计人芦天亮;杜彦辉;曹金璇;蔡满春;张建岭;张璐;
展开▼

申请日2018-06-05
分类号G06F17/30(20060101);
代理机构11399 北京冠和权律师事务所;
代理人李建华
地址 100038 北京市西城区中国人民公安大学(木樨地校区)
入库时间 2023-06-19 07:15:35

法律信息

法律状态公告日

法律状态信息

法律状态
2018-12-11

实质审查的生效 IPC(主分类):G06F17/30 申请日:20180605

实质审查的生效
2018-11-16

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于改进LDA主题模型的文本相似度计算方法及系统 [P] . 中国专利： CN108829799A . 2018-11-16
2. 一种基于主题模型的职位描述文本相似度计算方法 [P] . 中国专利： CN105786781A . 2016-07-20
3. Computing system including virtual agent bot providing semantic topic model-based response [P] . US11188720B2 . 2021-11-30

机译：计算系统包括虚拟代理机器人提供基于语义主题模型的响应
4. Computing system including virtual agent bot providing semantic topic model-based response [P] . US11188720B2 . 2021-11-30

机译：计算系统包括虚拟代理机器人提供基于语义主题模型的响应
5. Topic Model Based Media Program Genome Generation For A Video Delivery System [P] . 美国专利： US2017024664A1 . 2017-01-26

机译：基于主题模型的视频传输系统媒体程序基因组生成