基于语义串抽取及主题相似度度量的维吾尔文文本分类

吐尔地·托合提; 维尼拉·木沙江; 艾斯卡尔·艾木都拉

首页> 中文期刊> 《中文信息学报》 >基于语义串抽取及主题相似度度量的维吾尔文文本分类

基于语义串抽取及主题相似度度量的维吾尔文文本分类

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

该文研究一种改进的n元递增算法来抽取维吾尔文本中表达关键信息的语义串,并用带权语义串集来刻画文本主题,提出了一种类似于Jaccard相似度的文本和类主题相似度度量方法,并实现了相应的维吾尔文分类算法.实验结果表明,该文提出的文本模型简单有效,分类算法计算量不高,而且还能达到或超过经典分类器的分类综合性能.%This paper proposes an improved frequent pattern-grow th approach to discover and extract the semantic strings which express key information in Uyghur texts .Then the topics are described by these weighted semantic strings .Based on these features ,the Uyghur text classification is conducted by a new-designed Jaccard-like similari-ty measure .Experimental results show that the proposed method achieves comparable performance with a reasonable computation cost with regard to two traditional classifiers .

著录项

来源
《中文信息学报》 |2017年第4期|100-107|共8页
作者
吐尔地·托合提; 维尼拉·木沙江; 艾斯卡尔·艾木都拉;
展开▼
作者单位

新疆大学信息科学与工程学院,新疆乌鲁木齐 830046;

新疆大学信息科学与工程学院,新疆乌鲁木齐 830046;

新疆大学信息科学与工程学院,新疆乌鲁木齐 830046;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
维吾尔文; n元递增算法; 语义串抽取; 主题相似度; 文本分类;

相似文献

中文文献
外文文献
专利

1. 基于统计和浅层语言分析的维吾尔文语义串快速抽取 [J] . 吐尔地·托合提 ,维尼拉·木沙江 ,艾斯卡尔·艾木都拉 . 中文信息学报 . 2017,第004期
2. 基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类 [J] . 阿力甫.阿不都克里木 ,李晓 . 计算机科学 . 2016,第12期
3. 基于低维语义向量模型的语义相似度度量 [J] . 蔡圆媛 ,卢苇 . 中国科学技术大学学报 . 2016,第009期
4. 基于语义串特征提取及融合评价的维吾尔文文本聚类 [J] . 吐尔地·托合提 ,维尼拉·木沙江 ,艾斯卡尔·艾木都拉 . 中文信息学报 . 2017,第005期
5. 语义相似度领域基于XGBOOST算法的关键词自动抽取方法 [J] . 王成柱 ,魏银珍 . 计算机与数字工程 . 2020,第006期
6. 基于百度百科与文本分类的网络文本语义主题抽取方法 [C] . Chen Yewang ,陈叶旺 ,Chen Chaoyang . 2012年第三届中国计算机学会服务计算学术会议 . 2012
7. 基于主题相似度的短文本分类方法研究 [A] . 李彬 . 2017

基于语义串抽取及主题相似度度量的维吾尔文文本分类

摘要

著录项

相似文献

相关主题

期刊订阅