联合无监督词聚类的递归神经网络语言模型

刘章; 陈小平

首页> 中文期刊> 《计算机系统应用》 >联合无监督词聚类的递归神经网络语言模型

联合无监督词聚类的递归神经网络语言模型

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Previous studies proved that, adding part of speech tag information to the input layer of neural language model, can improve the performance significantly. But part of speech tag need hand-annotated data to train the tag model, which consumes a lot and the extra tagger also makes the model more complicated. To solve the problem, this article propose adding the results of brown clustering, instead of part of speech tag information to the input layer of the recurrent network language model. In the Penn Treebank corpus, the relative improvement over the original recurrent neural network language model reaches 8%~9%.%研究表明，在递归神经网络语言模型的输入层加入词性标注信息，可以显著提高模型的效果。但使用词性标注需要手工标注的数据训练，耗费大量的人力物力，并且额外的标注器增加了模型的复杂性。为了解决上述问题，本文尝试将布朗词聚类的结果代替词性标注信息加入到递归神经网络语言模型输入层。实验显示，在Penn Treebank语料上，加入布朗词类信息的递归神经网络语言模型相比原递归神经网络语言模型困惑度下降8~9%。

著录项

来源
《计算机系统应用》 |2014年第5期|101-106|共6页
作者
刘章; 陈小平;
展开▼
作者单位

中国科学技术大学计算机科学与技术学院;

合肥 230027;

中国科学技术大学计算机科学与技术学院;

合肥 230027;

展开▼
原文格式 PDF
正文语种 chi
中图分类
关键词
递归神经网络; 词性标注; 布朗词聚类; 语言模型;

相似文献

中文文献
外文文献
专利

1. 基于相似度的词聚类算法和可变长语言模型 [J] . 袁里驰 . 小型微型计算机系统 . 2009,第005期
2. 一种新颖的词聚类算法和可变长统计语言模型 [J] . 陈浪舟 ,黄泰翼 . 计算机学报 . 1999,第009期
3. 联合成对学习和图像聚类的无监督肺癌亚型识别 [J] . 任雪婷 ,赵涓涓 ,强彦 . 计算机科学 . 2020,第010期
4. 一种全部属性聚类和特征属性聚类相结合的无监督异常检测模型 [J] . 刘卫国 ,张志良 . 铁道学报 . 2010,第005期
5. 基于谱聚类的词和文档的联合聚类 [J] . 张吉文 ,陈笑蓉 . 贵州大学学报（自然科学版） . 2014,第005期
6. 基于相似度的词聚类算法和可变长语言模型 [C] . 袁里驰 . 第二届全国智能信息处理学术会议 . 2009
7. 基于无指导的词聚类及在文本聚类中应用的研究 [A] . 季铎 . 2007

联合无监督词聚类的递归神经网络语言模型

摘要

著录项

相似文献

相关主题

期刊订阅