首页> 中国专利> 基于词性分类统计的重复网页和近似网页的识别方法

基于词性分类统计的重复网页和近似网页的识别方法

摘要

本发明公开了一种基于词性分类统计的重复网页和近似网页的识别方法,包括以下步骤:从网页文本中提取正文;切词;分类;统计词频;提取高频词;将高频词在词级倒排索引中查询,直到查询成功,记录下查询出来的对应文本编号,若查询不成功,则表示当前词性类别的集合为空;统计出现次数最多的文本编号及其次数;统计集合中不为空的集合个数;判断频率最高的文本次数是否大于或等于1,如果不是,则将高频词添加至词级倒排索引,结束;如果是,则将出现次数最多的文本编号添加至类型倒排索引中,结束。本发明的算法步骤简单、实用性强,和现有传统算法相比,本发明算法在准确率和召回率方面有明显的提升,其中召回率能够提升10-20个百分点。

著录项

  • 公开/公告号CN102722526B

    专利类型发明专利

  • 公开/公告日2014-04-30

    原文格式PDF

  • 申请/专利权人 成都信息工程学院;

    申请/专利号CN201210151552.3

  • 发明设计人 安俊秀;程芃森;王鹏;

    申请日2012-05-16

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构11340 北京天奇智新知识产权代理有限公司;

  • 代理人杨春

  • 地址 610000 四川省成都市西南航空港经济开发区学府路一段24号

  • 入库时间 2022-08-23 09:18:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-06-29

    未缴年费专利权终止 IPC(主分类):G06F 17/30 授权公告日:20140430 终止日期:20150516 申请日:20120516

    专利权的终止

  • 2014-04-30

    授权

    授权

  • 2012-11-28

    实质审查的生效 IPC(主分类):G06F 17/30 申请日:20120516

    实质审查的生效

  • 2012-10-10

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号