【24h】

Subword Encoding in Lattice LSTM for Chinese Word Segmentation

机译:用于中文字分割的晶格LSTM中的子字

获取原文

摘要

We investigate subword information for Chinese word segmentation. by integrating sub word embeddings trained using byte-pair encoding into a Lattice LSTM (LaLSTM) network over a character sequence. Experiments on standard benchmark show that subword information brings significant gains over strong character-based segmentation models. To our knowledge, this is the first research on the effectiveness of subwords on neural word segmentation.
机译:我们调查中文字段的子字信息。通过在字符序列上将使用字节对(LALSTM)网络中的字节对(LALSTM)网络进行训练的子字嵌入训练。标准基准测试的实验表明,次字信息带来了基于强大的基于字符的分段模型的显着增益。据我们所知,这是第一个关于神经词分割次字有效性的研究。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号