首页> 中文会议>第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 >一个面向中文古诗词理解难易度的人工标注数据集

一个面向中文古诗词理解难易度的人工标注数据集

页面导航

摘要
著录项
相似文献
相关主题

摘要

向读者推荐阅读难度合适的古诗词有助于提升读者的诗词鉴赏能力.现阶段,围绕古诗词可读性自动化分析的相关研究的突出局限之一是缺乏大规模高质量的数据集.针对该问题,本文研究面向古诗词可读性自动化分析的数据集构建.对外开放包含1915篇古诗词的标注阅读理解难度的数据集.首先将数据集划分成易中难三级,构建数据集APRD;然后进一步细化标注构建六级分类数据集APRD+.抽取教材中的诗词组成标准集,以年级为标准难度级别,计算标准集与APRD、APRD+之间的Spearman相关性分别为0.786与0.804,表明该数据集标记结果与标准集具有较高一致性.本文提取了字频、注释数等古诗词特征,采用SVM、随机森林等算法进行了初步古诗词阅读理解难易度分类测试.本文提出的古诗词可读性数据集与实验结果可作为后续研究的测试基准.

著录项

来源
《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》|2018年|1-10|共10页
会议地点北京
作者
LIU Lei; 刘磊; HE Ben; 何苯; SUN Le; 孙乐;
展开▼
作者单位

教育部华中师范大学;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类文字信息处理;
关键词
中文古诗词; 可读性分析; 人工标注; 数据集;

相似文献

中文文献
外文文献
专利

1. 一个面向中文古诗词理解难易度的人工标注数据集 [J] . 刘磊 ,何苯 ,孙乐 . 中文信息学报 . 2020,第011期
2. 面向非任务型对话系统的人工标注中文数据集 [J] . 李菁 ,张海松 ,宋彦 . 中文信息学报 . 2019,第003期
3. 面向中文的修辞结构关系分类体系及无歧义标注方法 [J] . 侯圣峦 ,费超群 ,张书涵 . 中文信息学报 . 2019,第007期
4. 面向中文电子病历的词法语料标注研究 [J] . 蒋志鹏 ,赵芳芳 ,关毅 . 高技术通讯 . 2014,第006期
5. 基于众包标注的语文教材句子难易度评估研究 [J] . 于东 ,吴思远 ,耿朝阳 . 中文信息学报 . 2020,第002期
6. 面向非任务型对话系统的人工标注中文数据集 [C] . Jing Li ,李菁 ,Haisong Zhang . 第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会（CCL 2018） . 2018
7. 基于自然语言理解的中文分词和词性标注方法的研究 [A] . 夏利玲 . 2009

一个面向中文古诗词理解难易度的人工标注数据集

摘要

著录项

相似文献

相关主题

期刊订阅