汉语文本自动处理之管见

摘要

汉字是世界上使用人数最多的文字。然而由于汉语与英语等西语比较有着独自的特点,这为汉语文献的自动处理带来了困难。如①汉语的字与词没有明显的界限,汉字是组成词或词组的最小单位,单独的汉字也可能是一个词。②一个方块字是一个书写单元,字与字之间有一致的间隔,但词与词之间却无明显的分隔符号,而是彼此连续排列,直到一句话结束有了标点符号为止。③汉语中的词没有固定的词头、词尾和性、数、格变化等的分词标志。这些特点导致了汉语文献自动处理的复杂性,因而汉语自动分词一直是一个难题。近几年来,尽管有不少研究者提出了自动分词的方案,但都不能令人满意。借助于词典法的切分,显然受学科专业的限制;部件词的切分方法,也往往很难照顾全面。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号