首页> 中文会议>第七届中文信息处理国际会议 >命名实体识别:One-at-a-time or All-at-once? Word-based or Character-based?

命名实体识别:One-at-a-time or All-at-once? Word-based or Character-based?

摘要

命名实体识别是找出文本中出现的人名、地名、机构名等,由于中英文的区别,中文本身没有分好词,在识别时,一种做法是先对文本分词后,再使用机器学习的方法进行识别,本文称之为基于词的方法(word-based);但是能不能不分词而直接识别呢(character-based)?识别效果又怎样?另外需要考虑的问题是,在识别时,是应该分别建立模型(one-at-a-time)识别不同类型的实体,还是用一个统一的模型来同时(all-at-once)识别所有的实体呢?本文对上述问题作了深入的研究,发现all-at-once,character-based方法的识别结果最好,而one-at-a-time,character-based方法虽然在机构名的识别上略差,但模型总的训练时间比all-at-once短很多.另外,本文实体识别是基于CRF模型,尽管只用了简单的特征模板,但对于人名地名,F-measure在90%左右,机构名87%左右.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号