基于改进PMI和最小邻接熵结合策略的未登录词识别

徐豪杰; 吴新丽; 杨文珍; 潘志庚

首页> 中文期刊> 《计算机系统应用》 >基于改进PMI和最小邻接熵结合策略的未登录词识别

基于改进PMI和最小邻接熵结合策略的未登录词识别

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

cqvip:中文分词是中文自然语言处理的重要任务,其目前存在的一个重大瓶颈是未登录词识别问题.该文提出一种非监督的基于改进PMI和最小邻接熵结合策略的未登录词识别方法.滤除文本中无关识别的标点符号和特殊字符后,此方法先运用改进PMI算法识别出文本中凝聚程度较强的字符串,并通过停用词词表和核心词库的筛选过滤,得到候选未登录词;然后,计算候选未登录词的最小邻接熵,并依据词频-最小邻接熵判定阈值,确定出文本中的未登录词.通过理论及实验分析,此方法对不同的文本,在不需要长时间学习训练调整参数的情况下,即可生成个性化的未登录词词典,应用于中文分词系统后,其分词正确率、召回率分别达到81.49%、80.30%.

著录项

来源
《计算机系统应用》 |2020年第6期|181-188|共8页
作者
徐豪杰; 吴新丽; 杨文珍; 潘志庚;
展开▼
作者单位

浙江理工大学虚拟现实实验室杭州310018;

杭州师范大学数字媒体与人机交互研究中心杭州311121;

展开▼
原文格式 PDF
正文语种 chi
中图分类
关键词
中文分词; 未登录词识别; 改进PMI算法; 邻接熵;

相似文献

中文文献
外文文献
专利

1. 一种基于多字互信息与邻接熵的改进新词合成算法 [J] . 王欣 . 现代计算机（专业版） . 2018,第011期
2. 一种基于多字互信息与邻接熵的改进新词合成算法 [J] . 王欣 . 现代计算机：上半月版 . 2018,第004期
3. 基于改进互信息和邻接熵的微博新词发现方法 [J] . 夭荣朋 ,许国艳 ,宋健 . 计算机应用 . 2016,第010期
4. 基于分解与动态规划策略的汉语未登录词识别 [J] . 吕雅娟 ,赵铁军 ,杨沐昀 . 中文信息学报 . 2001,第001期
5. 基于改进泰尔熵和熵度的电力系统关键节点识别 [J] . 栗然 ,靳保源 ,严敬汝 . 电测与仪表 . 2018,第015期
6. 基于混合策略的中文生物医学领域未登录词识别研究 [C] . Sun Haixia ,孙海霞 ,Li Junlian . 中国医学科学院/北京协和医学院医学信息研究所/图书馆2012年学术年会 . 2013
7. 基于最大熵原理最小能量法的图像去噪及改进 [A] . 李嘉浪 . 2014

基于改进PMI和最小邻接熵结合策略的未登录词识别

摘要

著录项

相似文献

相关主题

期刊订阅