首页> 中文期刊> 《科教文汇》 >浅探河北省主要旅游景点旅游文本语料库建设中的人名标注问题

浅探河北省主要旅游景点旅游文本语料库建设中的人名标注问题

         

摘要

本文以河北省主要旅游景点的旅游文本为主、初步建立起一个小型封闭的语料库,并针对该语料库自动分词过程中人名的识别与切分出现的问题进行分析探讨。所收集语料来源于河北省主要旅游景点旅游文本,共计73471字,通过对语料的分词处理发现人名标注出现问题的频率较高。笔者将人名在语料自动切分中出现的问题归为三类,分别探讨问题出现的原因,并根据现有研究成果和旅游文本语料的特点为解决此问题做出简单设想,分析想法的可行性。%This paper discusses the problems of recognizing and splitting the names in the process of automatic segmentation of words of a small closed corpus of the main scenic sites tourism texts of Hebei Province. The collected data consist of 73471 characters, in which the problems of recognizing and splitting the names occur quite frequently. The problems can be divided into three types. Three reasons causing these problems have been an-alyzed respectively, and feasible solutions have been proposed based on the current achievements in the research and the fea-tures of tourism texts.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号