主题模型
主题模型的相关文献在2006年到2022年内共计1132篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究
等领域,其中期刊论文742篇、会议论文34篇、专利文献148334篇;相关期刊289种,包括情报理论与实践、情报学报、现代图书情报技术等;
相关会议32种,包括第33届中国数据库学术会议(NDBC2016 )、第15届全国软件与应用学术会议(NASAC2016)、信息系统协会中国分会第六届学术年会等;主题模型的相关文献由2706位作者贡献,包括孙小兵、万红新、余正涛等。
主题模型—发文量
专利文献>
论文:148334篇
占比:99.48%
总计:149110篇
主题模型
-研究学者
- 孙小兵
- 万红新
- 余正涛
- 张雷
- 李斌
- 陈渤
- 徐华
- 石磊
- 刘湘月
- 张引
- 汤颖
- 严建峰
- 刘佳
- 吴飞
- 姬东鸿
- 庄越挺
- 张磊
- 彭云
- 朱俊武
- 李云
- 王炜
- 罗森林
- 郑诚
- 高盛祥
- 丛玉来
- 乔晓东
- 伊惠芳
- 刘亮
- 唐焕玲
- 张永棠
- 徐硕
- 徐鸣
- 李宁
- 杨璐
- 潘丽敏
- 王建民
- 王涛
- 窦全胜
- 谢珺
- 邓文超
- 陆恒杨
- 魏宝刚
- 于立萍
- 冯旭鹏
- 冷严
- 刘利军
- 刘嘉勇
- 刘扬
- 刘挺
- 刘细文
-
-
施忆雪;
余正涛;
相艳;
张亚飞
-
-
摘要:
越南语网络评论的情感分类是越南语事件观点分析的基础。越南语资源匮乏,标注困难,可借助中文标注语料进行跨语言情感分类,实现越南语评论的情感极性预测。但现有的跨语言情感分类模型忽略了主题信息对加强情感表征学习、减小语言差异的作用。为此,该文提出了一种融入主题特征的中越跨语言情感分类模型。将中文①和越南语的主题词分布作为外部知识引入模型,利用门控机制将主题表征与语义表征进行融合编码,并通过对抗过程使模型学习到语言分布差异最小的表征,最终完成情感分类任务。实验结果表明,该模型能更快拟合出语言分布差异,其宏F_(1)值较多个基线模型均有明显提高。
-
-
金茜茜;
陈虹枢;
黄晓兰
-
-
摘要:
[目的/意义]面对世界范围内各种思想文化交流、交融、交锋的新形势,深入挖掘国际传媒研究热点,对促进我国传媒领域的学术发展与学科体系完善具有重要意义。[方法/过程]本文以Web of Science数据库中2015—2019年传媒类期刊文献数据为基础,结合概率主题模型、文献计量方法以及自然语言处理技术对文档内容和元数据进行联合建模,构建国家-主题分布矩阵,较为全面地挖掘了近五年来国际传媒研究的地理分布与知识结构,最终落脚于国内传媒领域研究的热点主题分析。[结果/结论]研究结果表明,数字技术推动新媒体蓬勃发展,不断刺激传媒领域的产业升级与文化重塑。我国部分主题在理论研究、产学交流、学科融合等方面仍存在探索与提升的空间,需要在重视理论研究与应用研究、基础学科与新兴学科协同发展的基础上,开展符合国内需求、具有国际视野的传媒研究,为传媒领域的持续深入发展添砖加瓦。
-
-
薛玉洁;
陈兰香;
穆怡
-
-
摘要:
为了实现基于语义的密文检索,提高密文检索的准确率和效率,本文提出了一种基于biterm主题模型(biterm topic model,BTM)的多关键词可排序对称可搜索加密方案(BTM-MRSE).通过主题模型对关键词和文档之间的潜在语义进行建模,用户利用查询关键词的概率分布作为检索陷门,根据查询关键词与文档之间的语义相关性得分来获得最相关的文档.本方案将密文检索中的特定关键词替换为基于语义的主题,实现了关键词和文档标识符的分离,从而增强了文档关键词与查询关键词的隐私保护.为了减小索引规模,我们提出两层索引结构,利用平衡二叉树构造关键词-主题安全索引,结合倒排索引构造主题-文档安全索引.一方面,主题模型减小了索引节点中向量的维数,从而提高了检索效率,同时基于平衡二叉树的二级索引机制也进一步改善了密文检索效率.安全性分析证明了所提方案是安全有效的,同时利用真实数据集进行实验对比,表明本方案的密文检索准确率和效率都有极大提升.
-
-
向卓元;
吴玉;
陈浩;
张芙玮
-
-
摘要:
[研究目的]针对主流话题发现模型存在数据稀疏、维度高等问题,提出了一种基于突发词对主题模型(BBTM)改进的微博热点话题发现方法(BiLSTM-HBBTM),以期在微博热点话题挖掘中获得更好的效果。[研究方法]首先,通过引入微博传播值、词项H指数和词对突发概率,从文档层面和词语层面进行特征选择,解决数据稀疏和高维度的问题。其次,通过双向长短期记忆(BiLSTM)训练词语之间的关系,结合词语的逆文档频率作为词对的先验知识,考虑了词之间的关系,解决忽略词之间关系的问题。再次,利用基于密度的方法自适应选择BBTM的最优话题数目,解决了传统的主题模型需要人工指定话题数目的问题。最后,利用真实微博数据集在热点话题发现准确度、话题质量、一致性三个方面进行验证。[研究结论]实验表明,BiLSTM-HBBTM在多种评价指标上都优于对比模型,实验结果验证了所提模型的有效性及可行性。
-
-
胡安宁
-
-
摘要:
文章系统讨论了社会科学研究中以文本为基础的多种方法论,将其分类为以传统内容分析为代表的诠释导向的文本探索方法,以语义网分析和量化叙事分析为代表的诠释与结构并重的文本探索方法以及以主题模型和词嵌入模型为代表的结构导向的文本探索方法。这些方法提出的历史时间点各不相同,呈现出一定的先后次序性,因此通过对比不同类型的方法分析策略,文章展示了以文本为基础的社会科学研究方法论的变迁图景。这一图景在研究目标上,从诠释逐渐转向因果和预测;在研究手段上,从人工为主导逐渐转向机器为主导;在研究对象上,从对意义的寻求逐渐转向对结构的探究。围绕着日渐兴起的以算法为导向的社会科学文本分析技术,文章从数据清洗、数据过拟合和结果验证三个方面讨论了其潜在的局限和未来发展的方向。
-
-
张教萌;
师荣蓉
-
-
摘要:
针对突发公共卫生事件提出了一套结合利益相关者的网络舆情监控方法。以新冠肺炎微博数据为例,按照疫情中涉及的社会角色划分了11类利益相关者,将LDA(latent Dirichlet allocation)与LDA2vec串行提取文本主题,借助SnowNLP进行情感分类,通过统计话题的绝对关注度和相对关注度得到不同利益相关者的网络舆情演化过程。实证结果表明,利益相关者的关注点在疫情爆发期内比较一致,而在平稳期内比较分散,最终随着疫情的逐步控制再次集中;相同角色的利益相关者具有相似的话题和情感演化过程,但其侧重点仍有差异;绝对关注度反映了主流舆论影响下的关注点,相对关注度反映了与利益相关者自身利益相关的关注点。本研究揭示了突发公共卫生事件中利益相关者的舆论演化特征,为政府精确监控突发公共卫生事件中不同群体的舆论趋势提供了理论依据与决策参考。
-
-
莫姝;
王婷
-
-
摘要:
新型冠状病毒(COVID-19)相关研究是当前重点关注的领域,探究学者对新冠肺炎疫情的关注热点和情感态度对于学界明确研究重难点和规划研究活动具有重要意义。以中国知网为数据源,首先采用LDA模型识别文献主题,并将其与STM模型结果对比进行一致性检验,其次采用K-Means算法和PCA降维等方法探究各主题的关注度和内容演化趋势,最后分析学者对各主题的情感态度,进而构建“关注度-情感极性”分析框架,结合负面词频识别消极情感极性主题的改进空间。学者对新冠肺炎疫情的关注涉及生物医药、经济影响等9个主题。学者对新冠肺炎疫情高度关注,且大多为消极情感极性,不同主题的受关注度和情感态度有所区别。对新冠疫情相关研究的回顾与梳理可以为后续研究提供支撑与启示,助力我国尽早全面抗疫成功。
-
-
谢婷;
罗清
-
-
摘要:
新冠疫情的爆发和肆虐引起群众关注,互联网上的相关话题不断攀升。如何利用计算机方法和数据分析算法准确地识别热点新闻和疫情主题,挖掘民众关注的话题,分析舆论走势,显得至关重要。本文提出一种基于GSDMM主题挖掘的“新冠肺炎疫情”舆情分析方法,利用数据预处理、特征提取、词云可视化技术挖掘目标数据的热点主题,再采用GSDMM主题模型、聚类分析对目标数据进行分析挖掘。通过深入进行了面向人民网的GSDMM短文本聚类算法研究,得到大家都一直十分关心中国和世界的疫情形势和经济形势的信息。此次肺炎疫情热点主题包括疫情、防控、工作、肺炎、患者等。
-
-
郭炳;
邓丽平
-
-
摘要:
随着Web服务技术的快速发展,Mashup的数量和多样性呈快速增长趋势。有效地管理Mashup服务资源和选取合适的Mashup,成为当今面临的一个重要挑战。鉴于此,提出了一种融合文档和标签的多层网络主题模型Mashup服务聚类方法。该模型对描述文本和标签进行融合,挖掘融合后信息的隐含主题,根据Mashup相似性构建相似性网络,并对网络进行谱聚类,进一步提高聚类效果。在真实数据集上进行了实验比较和分析,结果表明,所提方法在准确率、召回率方面都有明显优势。
-
-
王万起;
田中雨;
董兰军
-
-
摘要:
文章利用LDA模型进行文本降维和特征提取,并将传统分类算法置于集成学习框架下进行训练,以探讨是否能提高单一分类算法的分类准确度,并获得较优的分类效果,使LDA模型能够发挥更高的性能和效果,从而为文本分类精度的提高服务。同时,以Web of Science为数据来源,依据其学科类别划分标准,建立涵盖6个主题的实验文本集,利用Weka作为实验工具,以平均F值作为评价指标,对比分析了朴素贝叶斯、逻辑回归、支持向量机、K近邻算法4种传统分类算法以及AdaBoost、Bagging、Random Subspace 3种集成学习算法的分类效果。从总体上看,通过“同质集成”集成后的文本分类准确率高于单个分类器的分类准确率;利用LDA模型进行文本降维和特征提取,将朴素贝叶斯作为基分类器,并利用Bagging进行集成训练,分类效果最优,实现了“全局最优”。
-
-
谢开强
- 《2018年中国城市交通规划年会》
| 2018年
-
摘要:
随着“大数据”时代的到来,出行行为数据的采集更加便捷,数据内容更加丰富准确,数据体量也更加庞大,“交通大数据”孕育而生.为了更加精确地研究出租车出行行为中的微观模式特征,本研究引入了自然语言处理中常用的LDA主题模型.通过出租车GPS出行数据与文本数据之间的类比,说明了主题模型在本次研究中的适用性.接着,论文构造了“出行时间+出行距离+行程时间”形式的“词语”,并应用LDA主题模型对北京市出租车GPS数据进行了分析.结果表明,LDA主题模型不仅能够通过主题-词语条件概率分布有效地给出隐藏在GPS数据中的出行模式特征,还能够通过文档-主题概率分布给出每天各出行模式的分布规律,进而发现出行行为中的周期性特征.
-
-
Mu HongFen;
母红芬;
Li Zheng;
李征;
Jiao YongQiang;
焦永强;
Cheng XinYu;
程新宇
- 《第33届中国数据库学术会议(NDBC2016 )》
| 2016年
-
摘要:
根据军工软件质量管理要求,航空系统软件测试用例需要进行规范化管理及高效的复用,TCARS系统基于主题模型,通过主题挖掘判断需求的相似性和需求与用例的关联性,实现测试用例高效复用.系统先建立测试用例管理知识库和需求管理库,对新上传的测试用例和需求,经过中文分词和LDA主题抽取处理,自动推荐相似需求和相关测试用例.系统同时推荐与文档相关的标签,方便用户标记和查找所需用例和需求.用户也可以定制搜索条件,通过精确匹配和模糊匹配,查找所需测试用例和需求,对主题生成过程和结果进行可视化,有利于系统分析和优化.
-
-
-
LI Gonghui;
黎功辉;
JIANG Jing;
蒋竞;
ZHANG Li;
张莉
- 《第15届全国软件与应用学术会议(NASAC2016)》
| 2016年
-
摘要:
Stack Overflow已成为开发人员进行问题求助和知识分享最大的IT技术问答平台.每天该平台有成千上万的新问题被提出,用户很难在海量问题中找到自己能够胜任并有兴趣回答的问题,使得问题常常不能够及时获得回答.因此,将问题推荐给能够及时给出答案的用户,有利于问题获得解答.首先本文在主题模型语料库中首次加入用户问答记录(问题和回答的描述信息)的评论信息,丰富语料库,使得主题模型获得更加精准的主题分布.其次考虑到用户自由参与社区问答的特性,本文对待推荐用户加入活跃度的评估,使得推荐的用户近期处于活跃状态.最后本文将推荐问题转化为分类问题,使用机器学习的方法来解决分类问题,将主题模型获得的用户和问题的主题特征作为特征向量的一部分,最终提出一种基于主题模型和机器学习的回答者推荐方法TMRec.使用Stack Overflow平台公开的真实问答数据进行实验,实验结果显示TMRec在进行Top@50推荐时,查全率达到0.4175,MAP指标达到0.2163,与现有方法RankSLDA相比分别提高了32.3296%和22.7582%.
-
-
Wang Qi;
王琪;
TIAN Mingjie;
田明杰;
CUI Rongyi;
崔荣一
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
日渐丰富的少数民族跨语言文字信息资源,对其进行有效的管理、挖掘与利用有着重要的应用价值.为了解决语言间的差异,解决语言鸿沟问题,针对中朝跨语言文本分类任务,提出了双语主题词嵌入模型.该模型将主题模型与双语词嵌入模型相结合,解决了一词多义引起的歧义性对跨语言文本分类的精度带来的影响.首先,在大规模包含词对齐信息的平行句对中训练双语单词的词嵌入表示;其次,对双语分类语料进行主题模型的建模,并获得双语单词的双语主题词嵌入表示;最后,将双语单词的双语主题词嵌入表示输入至传统文本分类器与深度学习文本分类器,进行模型的训练与分类预测.实验结果表明,在中朝跨语言文本分类任务中Accuracy达到了91.76%,达到了实际应用水平,并且根据双语单词间的相似度进行排序,该文提出的模型可以对一词多义单词的多个词义有很好的表示.
-
-
-
彭敏;
杨绍雄;
朱佳晖
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
当前,双向LSTM神经网络等深度学习方法在文本语义特征表达方面取得了突破性的进展,为构建深层次的具有语义连贯性的主题模型提供了可能.但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限.本文提出了一个基于双向LSTM语义强化的概率主题模型DGPU-LDA(Double Generalized Polya Urn with LDA).该模型一方面结合双向LSTM文档语义编码框架DS-Bi-LSTM(Document Semantic Bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档-主题和词汇-词汇双GPU(Generalized Polya Urn)语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程.在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,DGPU-LDA模型在主题语义连贯性、文本分类准确率方面相对于一些比较前沿的主题模型具有一定的优势,同时也表明了该模型在文本语义特征表达方面的有效性.
-
-
LIU Yun;
刘耘
- 《信息系统协会中国分会第七届学术年会》
| 2017年
-
摘要:
本文的目的是利用在线招聘大数据帮助普通高等学校了解和跟踪企业对员工的技能需求.基于主题模型,同时利用岗位名称和岗位需求进行文本挖掘.把岗位名称中包含的类别信息作为标签,采用PLDA算法得到不同类别的岗位及其方向对应的知识、技能和态度.在计算需求量的相对大小时,一是再次使用PLDA算法,二是在重排序后使用Labeled LDA算法.结果显示,在扎实的数据基础上,能够帮助普通高等学校更有信心地按照劳动力市场的需求来培养人才.
-
-
岳名亮;
马廷灿
- 《第一届评价方法与应用分会年会》
| 2017年
-
摘要:
领域竞争力分析是指对不同研究领域、不同科研主体(如科研机构、研究人员等)的研究主题分布和研究强度及影响进行测度、比较与分析.完善领域竞争力分析技术与方法将有利于准确把握领域研究现状,了解科研机构和人员的优势研究领域和专长.本文提出了一种基于主题分布的科研机构领域竞争力评价方法.给定领域内论文集,该方法基于LDA主题模型求取论文-主题分布矩阵,以将论文的影响力(如被引次数)客观地分配至各研究主题.其后基于科研主体-论文映射计算各科研主体在各研究主题的竞争力.案例分析表明本方法可较为客观有效地评价科研主体在各研究主题上的科研竞争力.
-