基于多语义因子分层聚类的文本特征提取方法

王靖; 柳青; 张德海; 赵华; 杨云

首页> 中文期刊> 《计算机应用研究》 >基于多语义因子分层聚类的文本特征提取方法

基于多语义因子分层聚类的文本特征提取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法.该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型.引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度.通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性.

著录项

来源
《计算机应用研究》 |2020年第10期|2951-29552960|共6页
作者
王靖; 柳青; 张德海; 赵华; 杨云;
展开▼
作者单位

云南大学软件学院昆明650000;

云南大学软件学院昆明650000;

云南大学软件学院昆明650000;

云南大学信息学院昆明650000;

云南大学软件学院昆明650000;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
语义; 文本特征; 分层聚类; 词向量;

相似文献

中文文献
外文文献
专利

1. 基于潜在语义索引和遗传算法的文本特征提取方法 [J] . 郝占刚 ,王正欧 . 情报科学 . 2006,第1期
2. 基于模式聚类和遗传算法的文本特征提取方法 [J] . 郝占刚 ,王正欧 . 计算机应用 . 2005,第007期
3. 基于PCNN分层聚类迭代的故障区域自动提取方法 [J] . 许晓路 ,周文 ,周东国 . 红外技术 . 2020,第008期
4. 基于灰度共生矩阵和分层聚类的刨花板表面图像缺陷提取方法 [J] . 郭慧 ,王霄 ,刘传泽 . 林业科学 . 2018,第011期
5. 基于分层次聚类的MIDI音乐主旋律提取方法 [J] . 冯国杰 ,王吉军 . 计算机工程与应用 . 2009,第026期
6. 一种基于分层聚类算法的电磁背景噪声提取方法 [C] . Song Qijun ,宋琦军 ,Wang Lei . 中国电机工程学会电磁干扰专业委员会第十三届学术会议 . 2013
7. 基于语义的中文文本特征提取方法研究 [A] . 于群 . 2017

基于多语义因子分层聚类的文本特征提取方法

摘要

著录项

相似文献

相关主题

期刊订阅