首页> 中文会议>第二届全国智能信息处理学术会议 >基于相似度的词聚类算法和可变长语言模型

基于相似度的词聚类算法和可变长语言模型

页面导航

摘要
著录项
相似文献
相关主题

摘要

基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义一种词相似度,基于相似度,提出一种自下而上的分层聚类算法.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出一种新的基于类的可变长语言模型(Vari-gram)的生成方法.

著录项

来源
《第二届全国智能信息处理学术会议》|2009年|912-915|共4页
会议地点徐州
作者
袁里驰;
展开▼
作者单位

中国计算机学会;

中国人工智能学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类文字信息处理;算法理论;
关键词
互信息; 词相似度; 聚类算法; 可变长语言模型;

相似文献

中文文献
外文文献
专利

1. 基于相似度的词聚类算法和可变长语言模型 [J] . 袁里驰 . 小型微型计算机系统 . 2009,第005期
2. 一种新颖的词聚类算法和可变长统计语言模型 [J] . 陈浪舟 ,黄泰翼 . 计算机学报 . 1999,第009期
3. 基于相似度的词聚类算法 [J] . 袁里驰 ,钟义信 . 微电子学与计算机 . 2005,第8期
4. 基于维度根距离相似度量方法对单值和区间中性的聚类算法进行聚类算法 [J] . 叶炬锋 . 机床与液压 . 2018,第006期
5. 一种基于相似度的汉语语言模型平滑技术及其在音字转换中的应用 [J] . 肖镜辉 ,王晓龙 ,刘秉权 . 高技术通讯 . 2006,第002期
6. 基于词的话题分布相似度的无监督日文旅游意见词翻译 [C] . 郭瑛媚 ,史晓东 ,陈毅东 . 第七届全国机器翻译研讨会 . 2011
7. 基于变长染色体的量子遗传聚类算法研究 [A] . 白小宝 . 2013

基于相似度的词聚类算法和可变长语言模型

摘要

著录项

相似文献

相关主题

期刊订阅