首页> 中国专利> 基于句号特征字串的中文网页重复文档检测和过滤方法

基于句号特征字串的中文网页重复文档检测和过滤方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明公开了一种基于句号特征字串的中文网页重复文档检测和过滤方法，包括如下步骤：提取待检测网页的句号特征字串；利用所述句号特征字串对待检测网页进行模板信息过滤以便保留和提取网页主题文本内容；计算所述网页主题文本内容的相似度，判定网页之间的重复关系和包含关系；将具有重复关系和包含关系的网页进行聚类。本发明针对中文网页，尤其是中文新闻网页，首先寻找有效的检测特征，能有效检测出网页上的有效正文部分，过滤掉网页上的广告等与主题正文内容无关的噪音部分；在此基础上，解决两两文档之间的相似性度量问题以及文档重复检测问题；最后解决大规模重复文档检测时的并行化处理问题。

著录项

公开/公告号CN102945244A

专利类型发明专利
公开/公告日2013-02-27

原文格式PDF
申请/专利权人南京大学;
展开▼

申请/专利号CN201210359942.X
发明设计人黄宜华;袁春风;韦永壮;刘玉龙;张建;
展开▼

申请日2012-09-24
分类号G06F17/30(20060101);G06F17/27(20060101);
代理机构南京苏高专利商标事务所(普通合伙);
代理人夏雪
地址 210093 江苏省南京市栖霞区仙林大道163号
入库时间 2024-02-19 16:59:17

法律信息

法律状态公告日

法律状态信息

法律状态
2016-01-06

发明专利申请公布后的视为撤回 IPC(主分类):G06F17/30 申请公布日:20130227 申请日:20120924

发明专利申请公布后的视为撤回
2013-03-27

实质审查的生效 IPC(主分类):G06F17/30 申请日:20120924

实质审查的生效
2013-02-27

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于句号特征字串的中文网页重复文档检测和过滤方法 [P] . 中国专利： CN102945244A . 2013-02-27
2. 一种基于网页特征识别的噪音网页过滤方法 [P] . 中国专利： CN105912737A . 2016-08-31
3. Method for performing semantic search in e.g. political ontology, based on text segment in semantic web, involves designing pattern in document, and performing semantic search in ontology by application based on designed pattern [P] . 瑞士专利： CH704148A2 . 2012-05-31

机译：在例如网页中执行语义搜索的方法基于语义网中文本段的政治本体，包括在文档中设计模式，并根据基于所设计的模式的应用程序在本体中进行语义搜索
4. Identifying potential duplicates of a document in a document corpus [P] . 美国专利： US9195714B1 . 2015-11-24

机译：识别文档语料库中文档的潜在重复项
5. Identifying potential duplicates of a document in a document corpus [P] . 美国专利： US7895225B1 . 2011-02-22

机译：识别文档语料库中文档的潜在重复项