首页> 中文期刊> 《电信技术研究》 >—种新的中文层次化文本分类规则设计

—种新的中文层次化文本分类规则设计

         

摘要

在信息爆炸时代,其中存在大量的中文文本,并且文本之间存在层次关系,为了从中及时的获取有用的信息,需要进行有效的组织和管理。本文通过文本分类的方法,设计了“全路径+自底向上”的层次化分类规则,可以缓解自顶向下分类的阻塞,同时兼顾解决多标签和中间节点分类问题。首先使用BR方法即二元关系法把多标签转化为单标签统一处理,为除根节点外的每个节点构建一个二元分类器,使得可以在中间节点和叶子节点进行分类,然后利用节点及其祖先节点的关系从底向上对分类结果进行筛选过滤,以减少错分现象。实验表明采用该方法比常规自顶向下的方法在宏平均F1和微平均F1有3%到6%的提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号