摘要:词义消歧是自然语言处理中的一个难点和热点问题.现阶段,多义词消歧的研究大多采用几个有代表性的歧义词作为研究与测试的对象,与实际应用还存在一定的距离,作者针对真实的应用情况,对大规模广西进行了词义消歧研究.本文比较了两个经典的统计模型解决大规模的词义消歧难题的优缺点,一阶隐马尔可夫模型考察了邻接的上下文,有些时候距离歧义词较远的词语往往对词义的确定起着至关重要的作用,所以这种方法的消歧正确率比较低,开放测试在85%左右;单纯贝叶斯概率模型的消歧方法在抽取上下文特征时加大了上下文的窗口,使与多义词消歧相关的信息充分考虑进来,这种方法的开放消歧正确率最高可达92%,消歧效果明显.由此证明了贝叶斯模型词义消歧的有效性和比较优势.