首页> 中国专利> 将超文字标签语言文件转换成纯文字文件的方法

将超文字标签语言文件转换成纯文字文件的方法

摘要

本发明公开了一种将超文字标签语言文件转换成纯文字文件的方法,其先将超文字标签语言文件做标签处理的动作,用以去除其它不必要的标签及标签中所包含的杂乱信息,以保留有用的HTML文件段落和至少一个目的标签及其所包含的内容,从该保留的HTML文件段落中将一目的标签及其它剩余标签的内容提取出来并记录其相关信息于一数据结构中,再根据数据结构所记录的信息进行段落区隔的步骤,以区隔出至少一个目标区块,然后将目标区块与HTML文件标题作关联性对比,以找出最接近标题文意的目标区块,作为基础区块组,再建立空间向量模型,找出其它区块中,和基础区块相似度大于一相似度门坎值的区块,最后将这些区块的内容输出成为纯文字文件。

著录项

  • 公开/公告号CN101751403B

    专利类型发明专利

  • 公开/公告日2012-08-08

    原文格式PDF

  • 申请/专利权人 易搜比控股公司;

    申请/专利号CN200810185164.0

  • 发明设计人 蔡弘扬;洪启豪;

    申请日2008-12-11

  • 分类号

  • 代理机构北京律诚同业知识产权代理有限公司;

  • 代理人梁挥

  • 地址 开曼群岛大开曼省乔治城

  • 入库时间 2022-08-23 09:11:09

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-07

    未缴年费专利权终止 IPC(主分类):G06F 17/30 授权公告日:20120808 终止日期:20171211 申请日:20081211

    专利权的终止

  • 2012-08-08

    授权

    授权

  • 2012-08-08

    授权

    授权

  • 2010-08-18

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20081211

    实质审查的生效

  • 2010-08-18

    实质审查的生效 IPC(主分类):G06F 17/30 申请日:20081211

    实质审查的生效

  • 2010-06-23

    公开

    公开

  • 2010-06-23

    公开

    公开

查看全部

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号