首页> 中文期刊> 《现代图书情报技术》 >面向多领域先秦典籍的分词词性一体化自动标注模型构建

面向多领域先秦典籍的分词词性一体化自动标注模型构建

         

摘要

【目的】探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型。【方法】采用涵盖"经史子集"的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型。最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析。【结果】在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98%,词性标注准确率达到88.97%。在《史记》上的应用进一步证明了模型的稳定性和实用性。【局限】通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决。【结论】将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍。

著录项

获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号