首页> 中文期刊> 《中文信息学报》 >基于词语关联的散文阅读理解问题答案获取方法

基于词语关联的散文阅读理解问题答案获取方法

         

摘要

高考语文阅读理解问答题中的提问方式复杂多样,使用的词语语义抽象,而相关阅读材料的内容表达丰富和含蓄,造成问题中的词语与阅读材料中词语存在一定的语义鸿沟.为了解决这一问题,该文对词语关联进行相关研究.首先利用LDA主题聚类方法,将同一主题类的词语进行聚类,根据各类词语的词性、词频特征,筛选与主题相关联的词语,再利用Word2Vec的语义相似度计算,将每一个主题关联的词语扩展,获得与主题词语义关联的词语.最后,将所提出的方法应用于近12年北京高考题和模拟题的散文抽取类问答题解答中,实验结果表明该方法优于传统的词语扩展方法.%Substantial semantic gap exists between the questions words and the article words in the reading compre-hension test for Chinese of the college entrance examination,which may derive from the complexity and diversity of questions,abstract semantic meaning of words,and the rich and implicit semantics of articles.To address this is-sue,this paper investigates the words association.Specifically,all the words in the corpus are clustered into topics through LDA,which is then filtered by the part-of-speech and frequency,and augmented by the lexeme-related words according to the similarity of word embedding.Experiments on prose reading comprehension datasets of the college entrance examination indicate that our method performances better than traditional methods of words exten-sion.

著录项

  • 来源
    《中文信息学报》 |2018年第3期|135-142|共8页
  • 作者单位

    山西大学计算机与信息技术学院,山西太原030006;

    山西大学计算机与信息技术学院,山西太原030006;

    山西大学计算智能与中文信息处理教育部重点实验室,山西太原030006;

    山西大学计算机与信息技术学院,山西太原030006;

    山西大学计算机与信息技术学院,山西太原030006;

    山西大学计算机与信息技术学院,山西太原030006;

    山西大学计算机与信息技术学院,山西太原030006;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    阅读理解; 问答题; LDA聚类; 词语关联;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号