首页> 中文会议>中国中文信息学会二十五周年学术会议 >由字构词——中文分词新方法

由字构词——中文分词新方法

摘要

被称为Bakeoff的国际中文分词评测由于创建了公开、可比的分词评测语料库和多视角的评测指标,从而一举改变了中文分词研究的格局.通过带标注的语料库来定义中文的词语,允许采用不同分词标准而不是唯一标准的语料同台评测,通过定量分析科学地确认未登录词(OOV)识别的性能是进一步提高分词精度的突破口,以及针对这一需求而提出的"由字构词"的新分词方法等,都是近四年来分词研究领域涌现的喜人景象.本文将简略介绍"由字构词"的中文分词新方法,说明它出现的动机和采用的机器学习机制.微软亚洲研究院用条件随机场(CRF)模型实现的这种分词系统参加Bakeoff2006的六项中文分词评测,获得四个第一和两个第三.本文也相应地解释了这个参赛系统的一些重要设计理念.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号