首页> 中文会议>第二届全国信息检索与内容安全学术会议 >一个基于最大熵模型的文本分类方法

一个基于最大熵模型的文本分类方法

摘要

本文提出了一种应用最大熵模型进行中文文本分类的方法,该方法重点在于特征函数的构建和文本的预处理这两个方面.本文把文档的预处理分为网页去标记、分词、去虚词和去停用词四个步骤,从而使得特征项的提取更加合理.另外,本文提出了一种基于特征模板的方法,并将其与特征项的权重相结合的特征函数构建方法,提高了分类器的分类精度.实验结果发现,基于特征模板和权重相结合的最大熵模型的微平均准确率达到96.67%,分类效果要好于基于词频的最大熵模型.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号