中文词聚类研究

         

摘要

词聚类是语言自动处理中一个重要的基础环节.针对中文词聚类研究中训练数据缺乏、质量不高而影响聚类效果这一主要障碍,本文提出一种面向中文的词聚类算法,算法以词的上下文分布相似度作距离量度;然后分析了仅依据距离量度进行中文词聚类的缺陷,提出词的临近空间概念,并根据词的临近空间概念进行聚类,使得在不用指定类的数目与大小的情况下,依靠词的内在语义进行聚类;最后,算法再将聚类结果作为计算相似度的依据,进行EM迭代聚类,使聚类结果得到明显优化.实验证明,算法有效地克服了中文训练数据的数量和质量问题,聚类结果好.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号