首页> 中文期刊> 《上海师范大学学报(自然科学版)》 >基于二阶隐马尔可夫模型的新闻分类算法

基于二阶隐马尔可夫模型的新闻分类算法

         

摘要

提出一种基于二阶隐马尔可夫模型 (HMM) 的新闻分类算法, 旨在提取新闻内容中的类别字, 构成特征词集合.以该特征词集合作为不同二阶HMM分类器的观察序列, 二阶HMM的隐藏状态反映了文档中词语之间的相关性差异, 每个状态表示出现在语料库中的词语的相关性水平.实验结果表明, 相比k近邻 (k NN) 、朴素贝叶斯 (Naive Bayes) 以及支持向量机 (SVM) 算法, 二阶HMM算法的分类表现更显优势.%A novel algorithm based on second order Hidden Markov Model (HMM)was proposed to classify the documents of news, aiming to extract categorical feature words from news contents as a feature set. The feature set was considered as the observation sequence of different second order HMM classifiers, and the hidden state of which reflected the differences between the words in the relevant documents, and each state of which represented correlation of words occurring in the corpus. The experiment showed that the proposed classification algorithm based second order HMM had prominent advantage over k-Nearest Neighbor (k NN), Naive Bayes and Support Vector Machine (SVM)algorithms.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号