首页> 中文期刊> 《现代图书情报技术》 >面向食品安全突发事件汉语分词的特征选择及模型优化研究

面向食品安全突发事件汉语分词的特征选择及模型优化研究

         

摘要

【目的】在食品安全领域中,建立相关数据库对食品安全的监管和控制都会有很大的帮助,自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法,应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点,对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验,得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出,特征选择时并不是特征越多分词效果越好,会出现特征干扰的情况,在二三字词占46.62%的食品安全突发事件语料中,特征模板中的当前字和前后驱第一个字所代表的特征模板对分词效果影响明显。【结论】通过对不同特征选择和特征模板及其相互组合的实验,选择出在本文研究的语料库自动分词中最优的特征和特征模板,在5Tag特征标记下配合对应特征模板对目标语料分词的F值达到92.88%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号