TREC、NICIR和CLEF等评测的成功已经证明:系统化、大规模的定量评测对问答系统的研发有巨大的推动作用.然而,缺乏汉语问答系统评测机制已经成为制约汉语问答技术发展的主要障碍.本研究小组在吸收英文、日文等问答系统评测的成功经验基础上,推出面向汉语的问答系统评测平台(Evaluation Platform for Chinese Question Answering,简称EPCQA),并规划了汉语问答系统评测的几个阶段.除此之外,本文还对EPCQA语料库(1.8GB互联网网页)、测试集(从多种不同的途径收集了4250个基于的事实用户提问)、打分标准(MRR、准确率、召回率和F值)等构建过程进行了详细的介绍.
展开▼