您现在的位置：首页> 研究主题> 主题模型

主题模型

主题模型的相关文献在2006年到2022年内共计1132篇，主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究等领域，其中期刊论文742篇、会议论文34篇、专利文献148334篇；相关期刊289种，包括情报理论与实践、情报学报、现代图书情报技术等；相关会议32种，包括第33届中国数据库学术会议（NDBC2016 ）、第15届全国软件与应用学术会议（NASAC2016）、信息系统协会中国分会第六届学术年会等；主题模型的相关文献由2706位作者贡献，包括孙小兵、万红新、余正涛等。

主题模型—发文量

期刊论文>

论文：742篇占比：0.50%

会议论文>

论文：34篇占比：0.02%

专利文献>

论文：148334篇占比：99.48%

总计：149110篇

主题模型—发文趋势图

主题模型
-研究学者

孙小兵
万红新
余正涛
张雷
李斌
陈渤
徐华
石磊
刘湘月
张引
汤颖
严建峰
刘佳
吴飞
姬东鸿
庄越挺
张磊
彭云
朱俊武
李云
王炜
罗森林
郑诚
高盛祥
丛玉来
乔晓东
伊惠芳
刘亮
唐焕玲
张永棠
徐硕
徐鸣
李宁
杨璐
潘丽敏
王建民
王涛
窦全胜
谢珺
邓文超
陆恒杨
魏宝刚
于立萍
冯旭鹏
冷严
刘利军
刘嘉勇
刘扬
刘挺
刘细文

主题模型
-相关主题

主题模型
-相关期刊

主题模型
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2022
(83)
2021
(140)
2020
(81)
2019
(84)
2018
(103)
2017
(86)
2016
(84)
2015
(67)
2014
(37)
2013
(39)
2012
(18)
2011
(9)
2010
(9)
2009
(3)
2008
(3)
2006
(1)

期刊

收录数据库

作者

孙小兵
(12)
万红新
(10)
余正涛
(10)
张雷
(10)
李斌
(10)
陈渤
(10)
徐华
(8)
石磊
(8)
刘湘月
(7)
张引
(7)
汤颖
(7)
严建峰
(6)
刘佳
(6)
吴飞
(6)
姬东鸿
(6)
庄越挺
(6)
张磊
(6)
彭云
(6)
朱俊武
(6)
李云
(6)
王炜
(6)
罗森林
(6)
郑诚
(6)
高盛祥
(6)
丛玉来
(5)
乔晓东
(5)
伊惠芳
(5)
刘亮
(5)
唐焕玲
(5)
张永棠
(5)
徐硕
(5)
徐鸣
(5)
李宁
(5)
杨璐
(5)
潘丽敏
(5)
王建民
(5)
王涛
(5)
窦全胜
(5)
谢珺
(5)
邓文超
(5)
陆恒杨
(5)
魏宝刚
(5)
于立萍
(4)
冯旭鹏
(4)
冷严
(4)
刘利军
(4)
刘嘉勇
(4)
刘扬
(4)
刘挺
(4)
刘细文
(4)

关键词

申请/权力人

;

1. 融入主题特征的中越跨语言情感分类模型
- 施忆雪；余正涛；相艳；张亚飞
- 摘要：越南语网络评论的情感分类是越南语事件观点分析的基础。越南语资源匮乏,标注困难,可借助中文标注语料进行跨语言情感分类,实现越南语评论的情感极性预测。但现有的跨语言情感分类模型忽略了主题信息对加强情感表征学习、减小语言差异的作用。为此,该文提出了一种融入主题特征的中越跨语言情感分类模型。将中文①和越南语的主题词分布作为外部知识引入模型,利用门控机制将主题表征与语义表征进行融合编码,并通过对抗过程使模型学习到语言分布差异最小的表征,最终完成情感分类任务。实验结果表明,该模型能更快拟合出语言分布差异,其宏F_(1)值较多个基线模型均有明显提高。
2. 学术期刊视角下国内外传媒领域研究现状分析与启示:数字驱动下的知识结构重塑
- 金茜茜；陈虹枢；黄晓兰
- 摘要： [目的/意义]面对世界范围内各种思想文化交流、交融、交锋的新形势,深入挖掘国际传媒研究热点,对促进我国传媒领域的学术发展与学科体系完善具有重要意义。[方法/过程]本文以Web of Science数据库中2015—2019年传媒类期刊文献数据为基础,结合概率主题模型、文献计量方法以及自然语言处理技术对文档内容和元数据进行联合建模,构建国家-主题分布矩阵,较为全面地挖掘了近五年来国际传媒研究的地理分布与知识结构,最终落脚于国内传媒领域研究的热点主题分析。[结果/结论]研究结果表明,数字技术推动新媒体蓬勃发展,不断刺激传媒领域的产业升级与文化重塑。我国部分主题在理论研究、产学交流、学科融合等方面仍存在探索与提升的空间,需要在重视理论研究与应用研究、基础学科与新兴学科协同发展的基础上,开展符合国内需求、具有国际视野的传媒研究,为传媒领域的持续深入发展添砖加瓦。
3. 基于BTM主题模型的对称可搜索加密方案
- 薛玉洁；陈兰香；穆怡
- 摘要：为了实现基于语义的密文检索,提高密文检索的准确率和效率,本文提出了一种基于biterm主题模型(biterm topic model,BTM)的多关键词可排序对称可搜索加密方案(BTM-MRSE).通过主题模型对关键词和文档之间的潜在语义进行建模,用户利用查询关键词的概率分布作为检索陷门,根据查询关键词与文档之间的语义相关性得分来获得最相关的文档.本方案将密文检索中的特定关键词替换为基于语义的主题,实现了关键词和文档标识符的分离,从而增强了文档关键词与查询关键词的隐私保护.为了减小索引规模,我们提出两层索引结构,利用平衡二叉树构造关键词-主题安全索引,结合倒排索引构造主题-文档安全索引.一方面,主题模型减小了索引节点中向量的维数,从而提高了检索效率,同时基于平衡二叉树的二级索引机制也进一步改善了密文检索效率.安全性分析证明了所提方案是安全有效的,同时利用真实数据集进行实验对比,表明本方案的密文检索准确率和效率都有极大提升.
4. 基于突发词对主题模型改进算法的微博热点话题发现研究
- 向卓元；吴玉；陈浩；张芙玮
- 摘要： [研究目的]针对主流话题发现模型存在数据稀疏、维度高等问题,提出了一种基于突发词对主题模型(BBTM)改进的微博热点话题发现方法(BiLSTM-HBBTM),以期在微博热点话题挖掘中获得更好的效果。[研究方法]首先,通过引入微博传播值、词项H指数和词对突发概率,从文档层面和词语层面进行特征选择,解决数据稀疏和高维度的问题。其次,通过双向长短期记忆(BiLSTM)训练词语之间的关系,结合词语的逆文档频率作为词对的先验知识,考虑了词之间的关系,解决忽略词之间关系的问题。再次,利用基于密度的方法自适应选择BBTM的最优话题数目,解决了传统的主题模型需要人工指定话题数目的问题。最后,利用真实微博数据集在热点话题发现准确度、话题质量、一致性三个方面进行验证。[研究结论]实验表明,BiLSTM-HBBTM在多种评价指标上都优于对比模型,实验结果验证了所提模型的有效性及可行性。
- 热点话题发现
- 主题模型
- 微博
- 短文本
- BiLSTM
- BBTM
- word2vec
5. 以文本为基础的社会科学研究:从内容分析到算法模型
- 胡安宁
- 摘要：文章系统讨论了社会科学研究中以文本为基础的多种方法论,将其分类为以传统内容分析为代表的诠释导向的文本探索方法,以语义网分析和量化叙事分析为代表的诠释与结构并重的文本探索方法以及以主题模型和词嵌入模型为代表的结构导向的文本探索方法。这些方法提出的历史时间点各不相同,呈现出一定的先后次序性,因此通过对比不同类型的方法分析策略,文章展示了以文本为基础的社会科学研究方法论的变迁图景。这一图景在研究目标上,从诠释逐渐转向因果和预测;在研究手段上,从人工为主导逐渐转向机器为主导;在研究对象上,从对意义的寻求逐渐转向对结构的探究。围绕着日渐兴起的以算法为导向的社会科学文本分析技术,文章从数据清洗、数据过拟合和结果验证三个方面讨论了其潜在的局限和未来发展的方向。
6. 基于利益相关者的突发事件网络舆情演化研究
- 张教萌；师荣蓉
- 摘要：针对突发公共卫生事件提出了一套结合利益相关者的网络舆情监控方法。以新冠肺炎微博数据为例,按照疫情中涉及的社会角色划分了11类利益相关者,将LDA(latent Dirichlet allocation)与LDA2vec串行提取文本主题,借助SnowNLP进行情感分类,通过统计话题的绝对关注度和相对关注度得到不同利益相关者的网络舆情演化过程。实证结果表明,利益相关者的关注点在疫情爆发期内比较一致,而在平稳期内比较分散,最终随着疫情的逐步控制再次集中;相同角色的利益相关者具有相似的话题和情感演化过程,但其侧重点仍有差异;绝对关注度反映了主流舆论影响下的关注点,相对关注度反映了与利益相关者自身利益相关的关注点。本研究揭示了突发公共卫生事件中利益相关者的舆论演化特征,为政府精确监控突发公共卫生事件中不同群体的舆论趋势提供了理论依据与决策参考。
7. 国内新冠肺炎疫情研究的主题演化与情感分析
- 莫姝；王婷
- 摘要：新型冠状病毒(COVID-19)相关研究是当前重点关注的领域,探究学者对新冠肺炎疫情的关注热点和情感态度对于学界明确研究重难点和规划研究活动具有重要意义。以中国知网为数据源,首先采用LDA模型识别文献主题,并将其与STM模型结果对比进行一致性检验,其次采用K-Means算法和PCA降维等方法探究各主题的关注度和内容演化趋势,最后分析学者对各主题的情感态度,进而构建“关注度-情感极性”分析框架,结合负面词频识别消极情感极性主题的改进空间。学者对新冠肺炎疫情的关注涉及生物医药、经济影响等9个主题。学者对新冠肺炎疫情高度关注,且大多为消极情感极性,不同主题的受关注度和情感态度有所区别。对新冠疫情相关研究的回顾与梳理可以为后续研究提供支撑与启示,助力我国尽早全面抗疫成功。
8. 基于机器学习的新型冠状肺炎的舆情分析
- 谢婷；罗清
- 摘要：新冠疫情的爆发和肆虐引起群众关注,互联网上的相关话题不断攀升。如何利用计算机方法和数据分析算法准确地识别热点新闻和疫情主题,挖掘民众关注的话题,分析舆论走势,显得至关重要。本文提出一种基于GSDMM主题挖掘的“新冠肺炎疫情”舆情分析方法,利用数据预处理、特征提取、词云可视化技术挖掘目标数据的热点主题,再采用GSDMM主题模型、聚类分析对目标数据进行分析挖掘。通过深入进行了面向人民网的GSDMM短文本聚类算法研究,得到大家都一直十分关心中国和世界的疫情形势和经济形势的信息。此次肺炎疫情热点主题包括疫情、防控、工作、肺炎、患者等。
9. 一种基于主题相似性的Mashup服务聚类方法研究
- 郭炳；邓丽平
- 摘要：随着Web服务技术的快速发展,Mashup的数量和多样性呈快速增长趋势。有效地管理Mashup服务资源和选取合适的Mashup,成为当今面临的一个重要挑战。鉴于此,提出了一种融合文档和标签的多层网络主题模型Mashup服务聚类方法。该模型对描述文本和标签进行融合,挖掘融合后信息的隐含主题,根据Mashup相似性构建相似性网络,并对网络进行谱聚类,进一步提高聚类效果。在真实数据集上进行了实验比较和分析,结果表明,所提方法在准确率、召回率方面都有明显优势。
10. 基于主题模型的文本分类算法性能比较
- 王万起；田中雨；董兰军
- 摘要：文章利用LDA模型进行文本降维和特征提取,并将传统分类算法置于集成学习框架下进行训练,以探讨是否能提高单一分类算法的分类准确度,并获得较优的分类效果,使LDA模型能够发挥更高的性能和效果,从而为文本分类精度的提高服务。同时,以Web of Science为数据来源,依据其学科类别划分标准,建立涵盖6个主题的实验文本集,利用Weka作为实验工具,以平均F值作为评价指标,对比分析了朴素贝叶斯、逻辑回归、支持向量机、K近邻算法4种传统分类算法以及AdaBoost、Bagging、Random Subspace 3种集成学习算法的分类效果。从总体上看,通过“同质集成”集成后的文本分类准确率高于单个分类器的分类准确率;利用LDA模型进行文本降维和特征提取,将朴素贝叶斯作为基分类器,并利用Bagging进行集成训练,分类效果最优,实现了“全局最优”。

1. 基于主题模型的出租车出行行为分析
- 谢开强
- 《2018年中国城市交通规划年会》 | 2018年
- 摘要：随着“大数据”时代的到来,出行行为数据的采集更加便捷,数据内容更加丰富准确,数据体量也更加庞大,“交通大数据”孕育而生.为了更加精确地研究出租车出行行为中的微观模式特征,本研究引入了自然语言处理中常用的LDA主题模型.通过出租车GPS出行数据与文本数据之间的类比,说明了主题模型在本次研究中的适用性.接着,论文构造了“出行时间+出行距离+行程时间”形式的“词语”,并应用LDA主题模型对北京市出租车GPS数据进行了分析.结果表明,LDA主题模型不仅能够通过主题-词语条件概率分布有效地给出隐藏在GPS数据中的出行模式特征,还能够通过文档-主题概率分布给出每天各出行模式的分布规律,进而发现出行行为中的周期性特征.
2. TCARS:基于主题模型的测试用例自动推荐系统
- Mu HongFen；母红芬； Li Zheng；李征； Jiao YongQiang；焦永强； Cheng XinYu；程新宇
- 《第33届中国数据库学术会议（NDBC2016 ）》 | 2016年
- 摘要：根据军工软件质量管理要求,航空系统软件测试用例需要进行规范化管理及高效的复用,TCARS系统基于主题模型,通过主题挖掘判断需求的相似性和需求与用例的关联性,实现测试用例高效复用.系统先建立测试用例管理知识库和需求管理库,对新上传的测试用例和需求,经过中文分词和LDA主题抽取处理,自动推荐相似需求和相关测试用例.系统同时推荐与文档相关的标签,方便用户标记和查找所需用例和需求.用户也可以定制搜索条件,通过精确匹配和模糊匹配,查找所需测试用例和需求,对主题生成过程和结果进行可视化,有利于系统分析和优化.
3. 融合主题模型和协同过滤的多样化移动应用推荐
- HUANG Lu；黄璐； Lin Chuan-jie；林川杰； HE Jun；何军； LIU Hong-Yan；刘红岩； DU Xiao-Yong；杜小勇
- 《第33届中国数据库学术会议（NDBC2016 ）》 | 2016年
- 摘要：本文首先改进了两个推荐方法,提出了将用户的主题模型和应用的主题模型与MF相结合的LDA_MF模型,以及将应用的标签信息和用户行为数据同时加以考虑的LDA_CF算法.为了结合不同算法的优点,在保证推荐准确率的条件下提升推荐结果的多样性,提出了融合LDA_MF、LDA_CF以及经典的基于物品的协同过滤模型的混合推荐算法.文章使用真实的大数据评测所提推荐算法,结果显示所提推荐方法能够得到推荐多样性更好且准确率高的结果。
4. 基于主题模型和机器学习的回答者推荐方法
- LI Gonghui；黎功辉； JIANG Jing；蒋竞； ZHANG Li；张莉
- 《第15届全国软件与应用学术会议（NASAC2016）》 | 2016年
- 摘要： Stack Overflow已成为开发人员进行问题求助和知识分享最大的IT技术问答平台.每天该平台有成千上万的新问题被提出,用户很难在海量问题中找到自己能够胜任并有兴趣回答的问题,使得问题常常不能够及时获得回答.因此,将问题推荐给能够及时给出答案的用户,有利于问题获得解答.首先本文在主题模型语料库中首次加入用户问答记录(问题和回答的描述信息)的评论信息,丰富语料库,使得主题模型获得更加精准的主题分布.其次考虑到用户自由参与社区问答的特性,本文对待推荐用户加入活跃度的评估,使得推荐的用户近期处于活跃状态.最后本文将推荐问题转化为分类问题,使用机器学习的方法来解决分类问题,将主题模型获得的用户和问题的主题特征作为特征向量的一部分,最终提出一种基于主题模型和机器学习的回答者推荐方法TMRec.使用Stack Overflow平台公开的真实问答数据进行实验,实验结果显示TMRec在进行Top@50推荐时,查全率达到0.4175,MAP指标达到0.2163,与现有方法RankSLDA相比分别提高了32.3296％和22.7582％.
5. 面向中朝跨语言文本分类的双语主题词嵌入模型的研究
- Wang Qi；王琪； TIAN Mingjie；田明杰； CUI Rongyi；崔荣一
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》 | 2018年
- 摘要：日渐丰富的少数民族跨语言文字信息资源,对其进行有效的管理、挖掘与利用有着重要的应用价值.为了解决语言间的差异,解决语言鸿沟问题,针对中朝跨语言文本分类任务,提出了双语主题词嵌入模型.该模型将主题模型与双语词嵌入模型相结合,解决了一词多义引起的歧义性对跨语言文本分类的精度带来的影响.首先,在大规模包含词对齐信息的平行句对中训练双语单词的词嵌入表示;其次,对双语分类语料进行主题模型的建模,并获得双语单词的双语主题词嵌入表示;最后,将双语单词的双语主题词嵌入表示输入至传统文本分类器与深度学习文本分类器,进行模型的训练与分类预测.实验结果表明,在中朝跨语言文本分类任务中Accuracy达到了91.76％,达到了实际应用水平,并且根据双语单词间的相似度进行排序,该文提出的模型可以对一词多义单词的多个词义有很好的表示.
6. 基于主题模型的古典乐器诗词文本挖掘
- SHEN Zizhuo；申资卓； YANG Ying；杨莹； SHAO Yanqiu；邵艳秋
- 《第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会（CCL 2018）》 | 2018年
- 摘要：古代先贤将乐器按其制作材料分为八类,《周礼·春官·大师》中记载"皆播之以八音:金石土革丝木匏竹."本文将《全唐诗》、《全宋词》中有关"八音"的诗句、词句作为研究对象,使用基于LDA和NMF的主题挖掘、基于Author-Topic-Model的作者相似度计算等方法.从宏观到微观,从整体诗词到具体诗人/词人,从主题的聚类、动词形容词的抽取到具体诗人词人作品相似度的计算,多维度、多层次、多角度研究了唐诗宋词中的中国古典乐器.
7. 基于双向LSTM语义强化的主题建模
- 彭敏；杨绍雄；朱佳晖
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》 | 2017年
- 摘要：当前,双向LSTM神经网络等深度学习方法在文本语义特征表达方面取得了突破性的进展,为构建深层次的具有语义连贯性的主题模型提供了可能.但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限.本文提出了一个基于双向LSTM语义强化的概率主题模型DGPU-LDA(Double Generalized Polya Urn with LDA).该模型一方面结合双向LSTM文档语义编码框架DS-Bi-LSTM(Document Semantic Bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档-主题和词汇-词汇双GPU(Generalized Polya Urn)语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程.在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,DGPU-LDA模型在主题语义连贯性、文本分类准确率方面相对于一些比较前沿的主题模型具有一定的优势,同时也表明了该模型在文本语义特征表达方面的有效性.
8. 基于在线招聘大数据的劳动力市场分析
- LIU Yun；刘耘
- 《信息系统协会中国分会第七届学术年会》 | 2017年
- 摘要：本文的目的是利用在线招聘大数据帮助普通高等学校了解和跟踪企业对员工的技能需求.基于主题模型,同时利用岗位名称和岗位需求进行文本挖掘.把岗位名称中包含的类别信息作为标签,采用PLDA算法得到不同类别的岗位及其方向对应的知识、技能和态度.在计算需求量的相对大小时,一是再次使用PLDA算法,二是在重排序后使用Labeled LDA算法.结果显示,在扎实的数据基础上,能够帮助普通高等学校更有信心地按照劳动力市场的需求来培养人才.
9. 基于主题分布的领域竞争力评价方法
- 岳名亮；马廷灿
- 《第一届评价方法与应用分会年会》 | 2017年
- 摘要：领域竞争力分析是指对不同研究领域、不同科研主体(如科研机构、研究人员等)的研究主题分布和研究强度及影响进行测度、比较与分析.完善领域竞争力分析技术与方法将有利于准确把握领域研究现状,了解科研机构和人员的优势研究领域和专长.本文提出了一种基于主题分布的科研机构领域竞争力评价方法.给定领域内论文集,该方法基于LDA主题模型求取论文-主题分布矩阵,以将论文的影响力(如被引次数)客观地分配至各研究主题.其后基于科研主体-论文映射计算各科研主体在各研究主题的竞争力.案例分析表明本方法可较为客观有效地评价科研主体在各研究主题上的科研竞争力.
10. 基于语义约束LDA的商品特征和情感词提取
- PENG Yun；彭云； WAN Chang-Xuan；万常选； JIANG Teng-Jiao；江腾蛟； LIU De-Xi；刘德喜； LIU Xi-Ping；刘喜平； LIAO Guo-Qiong；廖国琼
- 《第33届中国数据库学术会议（NDBC2016 ）》 | 2016年
- 摘要：本文根据中文商品评论文本的特点,从句法分析、词义理解和语境相关等多角度获取词语间的语义关系,然后将其作为约束知识嵌入到主题模型,提出语义关系约束的主题模型SRC-LDA(semantic relationconstrained LDA),用来实现语义指导下LDA的细粒度主题词提取.由于SRC-LDA改善了标准LDA对于主题词的语义理解和识别能力,从而提高了相同主题下主题词分配的关联度和不同主题下主题词分配的区分度,可以更多地发现细粒度特征词、情感词及其之间的语义关联性.通过实验表明,SRC-LDA对于细粒度特征和情感词的发现和提取具有较好的效果.

1. 增强BTM主题模型主题词语义相关性和主题凝聚度方法
- 太原理工大学
- 公开公告日期：2021.08.10
- 摘要：增强BTM主题模型主题词语义相关性和主题凝聚度方法,属于文本挖掘和机器学习的交叉领域，包括下述内容：（1）文本语料获取以及预处理；（2）词向量模型构建；（3）BTM主题模型的建模；（4）词语之间语义相关性计算；（5）结合双词语义相关的主题模型的建模。本发明的双词扩展的主题模型在主题凝聚度TC值以及Js距离值上都比传统的主题模型有明显的提高。
2. 基于变分自编码主题模型的短文本主题挖掘方法及系统
- 国家计算机网络与信息安全管理中心
- 公开公告日期：2022.09.20
- 摘要：本发明公开了一种基于变分自编码主题模型的短文本主题挖掘方法及系统。该方法充分利用神经网络结构的优点，在变分自编码主题模型中融入了预训练的词向量和知识图谱中的实体向量表示，可以帮助主题模型改善短文本特征稀疏导致的文本挖掘问题，较好地挖掘短文本的潜在语义信息。
3. 一种基于PLSA主题模型和EM算法确定网页元素主题的方法
- 南京邮电大学
- 公开公告日期：2022.09.23
- 摘要：本发明公开了一种基于PLSA主题模型和EM算法确定网页元素主题的方法，该方法包括：(1)选取待测网页的网页元素对应的主题，找出主题关键词集合和主题集合；(2)对待测网页的网页元素进行预处理；(3)根据获取到的所述主题集合，按照PLSA模型公式训练出主题‑词矩阵以及网页元素‑主题矩阵，(4)采用改进的EM算法求解出网页元素中对应概率最大的主题，作为该网页元素的主题；(5)当网页结构或元素属性改变而造成网页状态变化后，重新获取当前DOM，重新对当前网页内的网页元素的主题进行判定，并生成网页元素XPath定位器。本发明根据改进EM算法判定出网页元素的主题，自动生成对应的XPath绝对路径，提高了网页元素定位器在自动化测试中的鲁棒性。
4. 一种基于词汇相似性的LDA主题模型最优主题数确定方法
- 武汉大学
- 公开公告日期：2022.12.02
- 摘要：本发明公开了一种基于词汇相似性的LDA主题模型最优主题数确定方法，利用LDA模型抽取主题词，基于词向量间的相似性，寻找最优主题数目。首先对文本数据进行分词等预处理，应用LDA主题模型对文本进行主题建模，获得每个主题下对应的词分布；然后将词分布转化为词向量分布，利用向量间的相似性，基于LDA的语义关联，分析主题质量，确定最优主题数目。本发明提出的方法可以自动确定最优主题数目，避免人为设定的局限，更好地服务于微博文本数据的聚类分析。
5. 主题模型训练和主题预测方法、装置、设备及存储介质
- 腾讯科技(深圳)有限公司
- 公开公告日期：2021.11.09
- 摘要：本申请实施例提供了一种主题模型训练和主题预测方法、装置、设备及存储介质，涉及人工智能技术领域，在该方法中，采用综合模态特征提取器对综合模态参考数据进行特征提取，获得综合模态参考数据的综合模态特征，实现对综合模态参考数据中各个单模态参考数据的数据特征融合，故基于获得的各个综合模态特征进行聚类，获得目标主题模型时，每个聚类获得的主题特征可以更加准确地表征各个主题，从而提高主题模型的预测性能。进一步地，采用综合模态特征提取器，对目标综合模态数据的目标综合模态数据进行特征提取，获得目标综合模态特征，然后基于目标综合模态特征从目标主题模型中匹配目标综合模态数据的目标主题，从而提高主题预测的准确性。
6. 增强BTM主题模型主题词语义相关性和主题凝聚度方法
- 太原理工大学
- 公开公告日期：2018-06-19
- 摘要：增强BTM主题模型主题词语义相关性和主题凝聚度方法,属于文本挖掘和机器学习的交叉领域，包括下述内容：（1）文本语料获取以及预处理；（2）词向量模型构建；（3）BTM主题模型的建模；（4）词语之间语义相关性计算；（5）结合双词语义相关的主题模型的建模。本发明的双词扩展的主题模型在主题凝聚度TC值以及Js距离值上都比传统的主题模型有明显的提高。
7. 一种基于流式LDA主题模型发现文档隐含主题和主题词的方法
- 南京信息工程大学
- 公开公告日期：2018-12-21
- 摘要：本发明公开一种基于流式LDA主题模型发现文档隐含主题和主题词的方法，属于机器学习的自然语言处理技术领域。在LDA模型的基础上考虑文档间主题和主题词的互相影响，对连续文档进行准确的隐含主题和主题词发现，包括随机初始化参数和选取超参数、随机生成每篇文档主题的先验分布和每个主题词的主题词分布、将文档中的词分配给某个主题、计算主题和主题词的极大似然函数和后验分布并更新所有的分布和参数、按概率对文档的主题和主题词进行降序排序输出最大概率的几个主题及其主题词五个步骤。具有可充分考虑相邻文档间主题的相互影响，得到的文档的主题分布较现有的技术更加贴近于主题的真实分布，获取文档的主题以及其主题词更加精准等优点。
8. 主题模型训练和主题预测方法、装置、设备及存储介质
- 腾讯科技(深圳)有限公司
- 公开公告日期：2021-09-17
- 摘要：本申请实施例提供了一种主题模型训练和主题预测方法、装置、设备及存储介质，涉及人工智能技术领域，在该方法中，采用综合模态特征提取器对综合模态参考数据进行特征提取，获得综合模态参考数据的综合模态特征，实现对综合模态参考数据中各个单模态参考数据的数据特征融合，故基于获得的各个综合模态特征进行聚类，获得目标主题模型时，每个聚类获得的主题特征可以更加准确地表征各个主题，从而提高主题模型的预测性能。进一步地，采用综合模态特征提取器，对目标综合模态数据的目标综合模态数据进行特征提取，获得目标综合模态特征，然后基于目标综合模态特征从目标主题模型中匹配目标综合模态数据的目标主题，从而提高主题预测的准确性。
9. 一种基于平滑短语主题模型的主题提取方法及装置
- 微梦创科网络科技(中国)有限公司
- 公开公告日期：2020-05-19
- 摘要：本发明实施例提供一种基于平滑短语主题模型的主题提取方法及装置，包括：提取待处理数据集内的有效词，得到预处理数据集；通过Apriori关联算法自预处理数据集中提取出频繁短语，形成频繁短语数据集；根据频繁短语出现频率的高斯分布特性，将预处理数据集中符合预设要求的相邻的频繁短语组合成新的短语，并将新的短语加入到频繁短语数据集，形成候选短语数据集；通过SPLDA平滑短语主题模型对候选短语数据集进行分析，得到主题短语，通过主题短语形成相应的话题。通过平滑短语主题模型对候选短语数据集进行分析得到主题短语，通过主题短语形成相应的话题，提高了话题的可读性，更准确地表述了话题的真实信息。
10. 一种基于PLSA主题模型和EM算法确定网页元素主题的方法
- 南京邮电大学
- 公开公告日期：2020-07-28
- 摘要：本发明公开了一种基于PLSA主题模型和EM算法确定网页元素主题的方法，该方法包括：(1)选取待测网页的网页元素对应的主题，找出主题关键词集合和主题集合；(2)对待测网页的网页元素进行预处理；(3)根据获取到的所述主题集合，按照PLSA模型公式训练出主题‑词矩阵以及网页元素‑主题矩阵，(4)采用改进的EM算法求解出网页元素中对应概率最大的主题，作为该网页元素的主题；(5)当网页结构或元素属性改变而造成网页状态变化后，重新获取当前DOM，重新对当前网页内的网页元素的主题进行判定，并生成网页元素XPath定位器。本发明根据改进EM算法判定出网页元素的主题，自动生成对应的XPath绝对路径，提高了网页元素定位器在自动化测试中的鲁棒性。

主题模型

主题模型—发文量

主题模型—发文趋势图

主题模型-研究学者

主题模型-相关主题

主题模型-相关期刊

主题模型-相关会议

主题模型
-研究学者

主题模型
-相关主题

主题模型
-相关期刊

主题模型
-相关会议