首页> 中文期刊> 《计算机应用》 >基于语料库和网络的新词自动识别

基于语料库和网络的新词自动识别

         

摘要

汉语自动分词是进行中文信息处理的基础.目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别.同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义.文中提出了一种新的新词自动识别的方法.这个方法用到了互信息和log-likelihoodratio两个参数的改进形式.主要分三个阶段完成:先从网络上下载丰富的语料,构建语料库;然后采用统计的方法进行多字词识别;最后与已有的词表进行对照,判定新词.

著录项

  • 来源
    《计算机应用》 |2004年第7期|132-134|共3页
  • 作者

    刘建舟; 何婷婷; 骆昌日;

  • 作者单位

    华中师范大学;

    计算机科学系;

    湖北;

    武汉;

    430079;

    湖北工业大学;

    信息工程学院;

    湖北;

    武汉;

    430068;

    华中师范大学;

    计算机科学系;

    湖北;

    武汉;

    430079;

    华中师范大学;

    计算机科学系;

    湖北;

    武汉;

    430079;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 TP391.12;
  • 关键词

    抽取多字词; 页面解析; 动态语料库;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号