您现在的位置: 首页> 研究主题> 主题模型

主题模型

主题模型的相关文献在2006年到2022年内共计1132篇,主要集中在自动化技术、计算机技术、信息与知识传播、科学、科学研究 等领域,其中期刊论文742篇、会议论文34篇、专利文献148334篇;相关期刊289种,包括情报理论与实践、情报学报、现代图书情报技术等; 相关会议32种,包括第33届中国数据库学术会议(NDBC2016 )、第15届全国软件与应用学术会议(NASAC2016)、信息系统协会中国分会第六届学术年会等;主题模型的相关文献由2706位作者贡献,包括孙小兵、万红新、余正涛等。

主题模型—发文量

期刊论文>

论文:742 占比:0.50%

会议论文>

论文:34 占比:0.02%

专利文献>

论文:148334 占比:99.48%

总计:149110篇

主题模型—发文趋势图

主题模型

-研究学者

  • 孙小兵
  • 万红新
  • 余正涛
  • 张雷
  • 李斌
  • 陈渤
  • 徐华
  • 石磊
  • 刘湘月
  • 张引
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 施忆雪; 余正涛; 相艳; 张亚飞
    • 摘要: 越南语网络评论的情感分类是越南语事件观点分析的基础。越南语资源匮乏,标注困难,可借助中文标注语料进行跨语言情感分类,实现越南语评论的情感极性预测。但现有的跨语言情感分类模型忽略了主题信息对加强情感表征学习、减小语言差异的作用。为此,该文提出了一种融入主题特征的中越跨语言情感分类模型。将中文①和越南语的主题词分布作为外部知识引入模型,利用门控机制将主题表征与语义表征进行融合编码,并通过对抗过程使模型学习到语言分布差异最小的表征,最终完成情感分类任务。实验结果表明,该模型能更快拟合出语言分布差异,其宏F_(1)值较多个基线模型均有明显提高。
    • 金茜茜; 陈虹枢; 黄晓兰
    • 摘要: [目的/意义]面对世界范围内各种思想文化交流、交融、交锋的新形势,深入挖掘国际传媒研究热点,对促进我国传媒领域的学术发展与学科体系完善具有重要意义。[方法/过程]本文以Web of Science数据库中2015—2019年传媒类期刊文献数据为基础,结合概率主题模型、文献计量方法以及自然语言处理技术对文档内容和元数据进行联合建模,构建国家-主题分布矩阵,较为全面地挖掘了近五年来国际传媒研究的地理分布与知识结构,最终落脚于国内传媒领域研究的热点主题分析。[结果/结论]研究结果表明,数字技术推动新媒体蓬勃发展,不断刺激传媒领域的产业升级与文化重塑。我国部分主题在理论研究、产学交流、学科融合等方面仍存在探索与提升的空间,需要在重视理论研究与应用研究、基础学科与新兴学科协同发展的基础上,开展符合国内需求、具有国际视野的传媒研究,为传媒领域的持续深入发展添砖加瓦。
    • 薛玉洁; 陈兰香; 穆怡
    • 摘要: 为了实现基于语义的密文检索,提高密文检索的准确率和效率,本文提出了一种基于biterm主题模型(biterm topic model,BTM)的多关键词可排序对称可搜索加密方案(BTM-MRSE).通过主题模型对关键词和文档之间的潜在语义进行建模,用户利用查询关键词的概率分布作为检索陷门,根据查询关键词与文档之间的语义相关性得分来获得最相关的文档.本方案将密文检索中的特定关键词替换为基于语义的主题,实现了关键词和文档标识符的分离,从而增强了文档关键词与查询关键词的隐私保护.为了减小索引规模,我们提出两层索引结构,利用平衡二叉树构造关键词-主题安全索引,结合倒排索引构造主题-文档安全索引.一方面,主题模型减小了索引节点中向量的维数,从而提高了检索效率,同时基于平衡二叉树的二级索引机制也进一步改善了密文检索效率.安全性分析证明了所提方案是安全有效的,同时利用真实数据集进行实验对比,表明本方案的密文检索准确率和效率都有极大提升.
    • 向卓元; 吴玉; 陈浩; 张芙玮
    • 摘要: [研究目的]针对主流话题发现模型存在数据稀疏、维度高等问题,提出了一种基于突发词对主题模型(BBTM)改进的微博热点话题发现方法(BiLSTM-HBBTM),以期在微博热点话题挖掘中获得更好的效果。[研究方法]首先,通过引入微博传播值、词项H指数和词对突发概率,从文档层面和词语层面进行特征选择,解决数据稀疏和高维度的问题。其次,通过双向长短期记忆(BiLSTM)训练词语之间的关系,结合词语的逆文档频率作为词对的先验知识,考虑了词之间的关系,解决忽略词之间关系的问题。再次,利用基于密度的方法自适应选择BBTM的最优话题数目,解决了传统的主题模型需要人工指定话题数目的问题。最后,利用真实微博数据集在热点话题发现准确度、话题质量、一致性三个方面进行验证。[研究结论]实验表明,BiLSTM-HBBTM在多种评价指标上都优于对比模型,实验结果验证了所提模型的有效性及可行性。
    • 胡安宁
    • 摘要: 文章系统讨论了社会科学研究中以文本为基础的多种方法论,将其分类为以传统内容分析为代表的诠释导向的文本探索方法,以语义网分析和量化叙事分析为代表的诠释与结构并重的文本探索方法以及以主题模型和词嵌入模型为代表的结构导向的文本探索方法。这些方法提出的历史时间点各不相同,呈现出一定的先后次序性,因此通过对比不同类型的方法分析策略,文章展示了以文本为基础的社会科学研究方法论的变迁图景。这一图景在研究目标上,从诠释逐渐转向因果和预测;在研究手段上,从人工为主导逐渐转向机器为主导;在研究对象上,从对意义的寻求逐渐转向对结构的探究。围绕着日渐兴起的以算法为导向的社会科学文本分析技术,文章从数据清洗、数据过拟合和结果验证三个方面讨论了其潜在的局限和未来发展的方向。
    • 张教萌; 师荣蓉
    • 摘要: 针对突发公共卫生事件提出了一套结合利益相关者的网络舆情监控方法。以新冠肺炎微博数据为例,按照疫情中涉及的社会角色划分了11类利益相关者,将LDA(latent Dirichlet allocation)与LDA2vec串行提取文本主题,借助SnowNLP进行情感分类,通过统计话题的绝对关注度和相对关注度得到不同利益相关者的网络舆情演化过程。实证结果表明,利益相关者的关注点在疫情爆发期内比较一致,而在平稳期内比较分散,最终随着疫情的逐步控制再次集中;相同角色的利益相关者具有相似的话题和情感演化过程,但其侧重点仍有差异;绝对关注度反映了主流舆论影响下的关注点,相对关注度反映了与利益相关者自身利益相关的关注点。本研究揭示了突发公共卫生事件中利益相关者的舆论演化特征,为政府精确监控突发公共卫生事件中不同群体的舆论趋势提供了理论依据与决策参考。
    • 莫姝; 王婷
    • 摘要: 新型冠状病毒(COVID-19)相关研究是当前重点关注的领域,探究学者对新冠肺炎疫情的关注热点和情感态度对于学界明确研究重难点和规划研究活动具有重要意义。以中国知网为数据源,首先采用LDA模型识别文献主题,并将其与STM模型结果对比进行一致性检验,其次采用K-Means算法和PCA降维等方法探究各主题的关注度和内容演化趋势,最后分析学者对各主题的情感态度,进而构建“关注度-情感极性”分析框架,结合负面词频识别消极情感极性主题的改进空间。学者对新冠肺炎疫情的关注涉及生物医药、经济影响等9个主题。学者对新冠肺炎疫情高度关注,且大多为消极情感极性,不同主题的受关注度和情感态度有所区别。对新冠疫情相关研究的回顾与梳理可以为后续研究提供支撑与启示,助力我国尽早全面抗疫成功。
    • 谢婷; 罗清
    • 摘要: 新冠疫情的爆发和肆虐引起群众关注,互联网上的相关话题不断攀升。如何利用计算机方法和数据分析算法准确地识别热点新闻和疫情主题,挖掘民众关注的话题,分析舆论走势,显得至关重要。本文提出一种基于GSDMM主题挖掘的“新冠肺炎疫情”舆情分析方法,利用数据预处理、特征提取、词云可视化技术挖掘目标数据的热点主题,再采用GSDMM主题模型、聚类分析对目标数据进行分析挖掘。通过深入进行了面向人民网的GSDMM短文本聚类算法研究,得到大家都一直十分关心中国和世界的疫情形势和经济形势的信息。此次肺炎疫情热点主题包括疫情、防控、工作、肺炎、患者等。
    • 郭炳; 邓丽平
    • 摘要: 随着Web服务技术的快速发展,Mashup的数量和多样性呈快速增长趋势。有效地管理Mashup服务资源和选取合适的Mashup,成为当今面临的一个重要挑战。鉴于此,提出了一种融合文档和标签的多层网络主题模型Mashup服务聚类方法。该模型对描述文本和标签进行融合,挖掘融合后信息的隐含主题,根据Mashup相似性构建相似性网络,并对网络进行谱聚类,进一步提高聚类效果。在真实数据集上进行了实验比较和分析,结果表明,所提方法在准确率、召回率方面都有明显优势。
    • 王万起; 田中雨; 董兰军
    • 摘要: 文章利用LDA模型进行文本降维和特征提取,并将传统分类算法置于集成学习框架下进行训练,以探讨是否能提高单一分类算法的分类准确度,并获得较优的分类效果,使LDA模型能够发挥更高的性能和效果,从而为文本分类精度的提高服务。同时,以Web of Science为数据来源,依据其学科类别划分标准,建立涵盖6个主题的实验文本集,利用Weka作为实验工具,以平均F值作为评价指标,对比分析了朴素贝叶斯、逻辑回归、支持向量机、K近邻算法4种传统分类算法以及AdaBoost、Bagging、Random Subspace 3种集成学习算法的分类效果。从总体上看,通过“同质集成”集成后的文本分类准确率高于单个分类器的分类准确率;利用LDA模型进行文本降维和特征提取,将朴素贝叶斯作为基分类器,并利用Bagging进行集成训练,分类效果最优,实现了“全局最优”。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号