基于统计的汉字极限熵估测

摘要

文字符号的极限熵是在充分考虑上下文信息条件下,字符所包含平均信息量的大小.本文分别利用两种统计方法来估计汉字的极限熵:第一种方法通过计算汉字的n阶熵来逼近极限熵;第二种方法则通过建立统计语言模型,计算模型与平衡测试样本集之间的交叉熵给出汉字极限熵上界的估计.在实验中我们比较了这两种方法并得出结论:基于词的语言模型估计方法比基于字的直接计算方法得到了汉字熵的更为精确的估计,其熵值为5.31比特.实验中我们还使用了多种平滑技术对模型进行平滑,并比较了这些方法的优劣.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号