首页> 外国专利> Removing non-substantive content from a web page by removing its text-sparse nodes and removing high-frequency sentences of its text-dense nodes using sentence hash value frequency across a web page collection

Removing non-substantive content from a web page by removing its text-sparse nodes and removing high-frequency sentences of its text-dense nodes using sentence hash value frequency across a web page collection

机译:通过删除整个页面集合中的句子散列值频率,通过删除其文本稀疏节点并删除其文本密集节点的高频句子来从网页中删除非实质内容

摘要

A method and system for removing chrome from a web page is provided. An example system includes a parsing module, a text density analyzer, a content node selector 206, and a text extractor. The parsing module may be configured to parse a web page into a tree structure. The text density analyzer may be configured to determine a text density score value for each node from the tree structure. The content node selector may be configured to identify one or more nodes from the tree structure as content nodes based on their respective text density score values. The text extractor may be configured to extract text from the content nodes only.
机译:提供了一种用于从网页去除铬的方法和系统。一个示例系统包括解析模块,文本密度分析器,内容节点选择器 206 和文本提取器。解析模块可以被配置为将网页解析为树结构。文本密度分析器可以被配置为从树结构中确定每个节点的文本密度得分值。内容节点选择器可以被配置为基于树结构的一个或多个节点各自的文本密度得分值来将它们识别为内容节点。文本提取器可以被配置为仅从内容节点提取文本。

著录项

  • 公开/公告号US9449114B2

    专利类型

  • 公开/公告日2016-09-20

    原文格式PDF

  • 申请/专利权人 JOHN ROPER;DANE GLASGOW;

    申请/专利号US20100761272

  • 发明设计人 JOHN ROPER;DANE GLASGOW;

    申请日2010-04-15

  • 分类号G06F17/30;G06F17/21;G06F17/22;

  • 国家 US

  • 入库时间 2022-08-21 14:31:38

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号