基于后缀树词序列核挖掘Web文档

傅鹏; 张德运; 陈海诠; 董皓

首页> 中文期刊> 《微电子学与计算机》 >基于后缀树词序列核挖掘Web文档

基于后缀树词序列核挖掘Web文档

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间。在reuters-21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用。

著录项

来源
《微电子学与计算机》 |2005年第12期|4-7|共4页
作者
傅鹏; 张德运; 陈海诠; 董皓;
展开▼
作者单位

西安交通大学电子与信息工程学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算机软件;
关键词
核学习方法; 词序列核; 字符串核; 后缀树; Web挖掘;

相似文献

中文文献
外文文献
专利

1. 一种基于后缀树的Web访问模式挖掘算法 [J] . 何丽 ,韩文秀 . 计算机应用 . 2004,第011期
2. 基于广义后缀树的事件序列频繁情节挖掘算法 [J] . 曲文龙 ,杨炳儒 ,张克君 . 北京科技大学学报 . 2006,第005期
3. 基于Web日志挖掘的Web文档聚类 [J] . 高哲 ,魏海平 ,王福威 . 计算机工程与设计 . 2008,第018期
4. 基于Web挖掘和文档对象模型树的XML网页分类方法 [J] . 马勇 ,郑翔 ,鲜敏 . 微型电脑应用 . 2016,第007期
5. 基于网站结构挖掘的Web文档自动分类 [J] . 谢振亮 ,何丕廉 ,陈霞 . 计算机应用 . 2003,第007期
6. WD-STC:一种基于网络词典的WEB新闻文档后缀树聚类算法 [C] . 务孟庆 ,高军 ,王腾蛟 . 2007年全国网络与信息安全技术研讨会 . 2007
7. 基于关键词的Web文档自动分类算法研究 [A] . 李毅 . 2009

基于后缀树词序列核挖掘Web文档

摘要

著录项

相似文献

相关主题

期刊订阅