首页> 中国专利> 一种网络贴文标引系统及标引方法

一种网络贴文标引系统及标引方法

摘要

本发明公开了一种网络贴文标引系统及标引方法。该系统包括贴文提供模块、背景信息提取模块、背景分析引擎、文本标引模块和标引融合模块;其中,背景信息提取模块用于分离网络贴文的背景信息和贴文内容,分别提供给背景分析引擎和文本标引模块进行标引,背景分析引擎和文本标引模块的标引结果送入标引融合模块中进行融合,作为网络贴文的最终标引结果。本发明融合文本标引模块的标引结果和背景分析引擎的标引结果,对网络贴文的标引不再仅仅依据贴文内容本身,而是通过对网络贴文其他背景信息的标引得到其隐含的语义,使得相应的标引结果更加全面准确。

著录项

  • 公开/公告号CN103064892A

    专利类型发明专利

  • 公开/公告日2013-04-24

    原文格式PDF

  • 申请/专利权人 北京海量融通软件技术有限公司;

    申请/专利号CN201210540674.1

  • 发明设计人 宋传宝;王树强;张作职;

    申请日2012-12-13

  • 分类号G06F17/30(20060101);

  • 代理机构北京汲智翼成知识产权代理事务所(普通合伙);

  • 代理人陈曦;董烨飞

  • 地址 100080 北京市海淀区西五道口紫金数码园3号楼11层1108室

  • 入库时间 2024-02-19 19:06:55

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-15

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20170221 变更前: 变更后: 申请日:20121213

    专利申请权、专利权的转移

  • 2016-11-16

    授权

    授权

  • 2013-12-18

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20121213

    实质审查的生效

  • 2013-04-24

    公开

    公开

说明书

技术领域

本发明涉及一种对网络贴文进行自动标引的系统,同时也涉及该 系统实现网络贴文标引的方法,属于网页信息采集技术领域。

背景技术

通过计算机对目标文本进行自动分析,根据词在目标文本中出现 的特点,选择一部分词作为标引词,把目标文本转化成二次文献。这 种过程称为自动标引(automatic indexing)。目前,现有自动标引技 术采用了多种技术方法实现,总体上可分为统计分析方法、语言分析 方法、人工智能方法和混合方法。其中,绝大部分方法是基于抽词思 想实现的,同时标引范围往往仅限于目标文本本身。

在申请号为201010168526.2的中国专利申请中,公开了一种基于 知识网络的文本标引系统及其方法。该文本标引系统包括单文本特征 提取单元、多文本词关系提取单元、知识树生成单元、知识树应用单 元以及知识库存储单元。对于输入文本标引系统的文本,首先进行分 词,获取文本中的文本特征词;根据文本特征词所对应的知识树的节 点位置,推演出该文本对应的类别词;在类别词的基础上,通过判别 式模型对类别词的合法性进行判定,由此提炼出可靠的类别词词集, 再通过可靠的类别词词集对文本特征词词集进行重新定位,形成可靠 的文本特征词词集。该技术方案可以使内容词提取、类别标注和短语 的提取一体化,因此提取的效果能够互相促进;各个词的语义通过知 识网络的节点得以表现,从而减少歧义的发生。

另外,在专利号为ZL 200910061711.9的中国发明专利中,提供 了一种引文自动标引方法,包括以下步骤:步骤1,对提交文档进行 切割得到文本块,对文本块提取特征词句串或信息指纹;然后将特征 词句串或信息指纹提交给检索引擎;步骤2,对于被提交的特征词句 串或信息指纹,当检索引擎返回与特征词句串或信息指纹相应的搜索 结果时,记录搜索结果作为相应文本块的引文出处,并记录文本块在 文档中的终止位置,记录文本块的引文出处与终止位置的关联关系; 步骤3,结合提交文档中已有引用标引和搜索结果去除重复的引文出 处后,按照在提交文档中的位置前后关系对所有引文出处排序后进行 标引。该发明克服了现有手工方法效率十分低下的弱点,提高了标引 速度和准确性。

发明内容

本发明所要解决的技术问题在于提供一种网络贴文标引系统及标 引方法。该技术方案充分利用网络贴文的背景信息,扩充标引范围, 使得自动标引更加准确。

为实现上述的发明目的,本发明采用下述的技术方案:

一种网络贴文标引系统,包括贴文提供模块、背景信息提取模块、 背景分析引擎、文本标引模块和标引融合模块;其中,

所述贴文提供模块连接背景信息提取模块,所述背景信息提取模 块一方面连接所述背景分析引擎,另一方面连接所述文本标引模块;

所述背景分析引擎和所述文本标引模块分别与所述标引融合模块 连接;

所述背景信息提取模块用于分离网络贴文的背景信息和贴文内 容,分别提供给所述背景分析引擎和所述文本标引模块进行标引,所 述背景分析引擎和所述文本标引模块的标引结果送入所述标引融合模 块中进行融合,作为网络贴文的最终标引结果。

其中较优地,所述背景分析引擎中进一步包括URL背景库。

一种网络贴文标引方法,基于上述的网络贴文标引系统实现,包 括如下步骤:

对于待标引的网络贴文,首先将所述网络贴文的背景信息和贴文 内容进行分离,分别提供给背景分析引擎和文本标引模块进行标引;

将所述背景分析引擎和所述文本标引模块的标引结果进行融合, 作为所述网络贴文的最终标引结果。

其中较优地,在所述背景分析引擎中,针对贴文内容中出现的URL 地址,首先在URL背景库中进行查询;

如果在所述URL背景库中存在该URL地址,导出对应的标引结果 后返回,如果在所述URL背景库中不存在该URL地址,打开该URL地 址并萃取URL地址对应网页的主题和正文,对主题和正文进行文本标 引,然后将标引结果及相应的URL地址存储至所述URL背景库。

其中较优地,所述背景信息包括但不限于网络贴文的发帖人ID、 发帖时间、所处网络空间、所处地理空间以及贴文内容中的URL地址。

本发明融合文本标引模块的标引结果和背景分析引擎的标引结 果,对网络贴文的标引不再仅仅依据贴文内容本身,而是通过对网络 贴文其他背景信息的标引得到其隐含的语义,使得相应的标引结果更 加全面准确。

附图说明

图1是本发明所提供的网络贴文标引系统的整体结构图;

图2显示了网络贴文背景信息的具体种类;

图3是背景分析引擎针对贴文内容中的URL地址进行标引的流程 示意图。

具体实施方式

本发明所提供的网络贴文标引系统的技术特点在于通过对网络贴 文背景信息的进一步检测准确标引网络贴文,以解决现有技术中网络 贴文中背后隐藏信息不能检测的问题。为此,如图1所示,本发明所 提供的网络贴文标引系统包括贴文提供模块、背景信息提取模块、背 景分析引擎、文本标引模块和标引融合模块。其中,贴文提供模块连 接背景信息提取模块,用于向背景信息提取模块提供待标引的网络贴 文。背景信息提取模块用于分离网络贴文的背景信息和贴文内容,分 别提供给背景分析引擎和文本标引模块。该背景信息提取模块一方面 连接背景分析引擎,另一方面连接文本标引模块。背景分析引擎和文 本标引模块分别与标引融合模块连接,其中背景分析引擎中进一步包 括URL背景库,用于实现对背景信息的标引,文本标引模块用于实现 对贴文内容的标引,两方面的标引结果送入标引融合模块中进行融合, 作为该网络贴文的最终标引结果。

在本发明中,网络贴文作为网络贴文标引系统的系统输入,包含 文本形式的贴文内容、发帖人ID、发帖时间、所处网络空间、所处地 理空间以及贴文内容中的URL(统一资源定位符)地址等信息。如图2 所示,发帖人ID、发帖时间、所处网络空间、所处地理空间以及贴文 内容中的URL地址等属性信息作为网络贴文的背景信息,是背景分析 引擎进一步分析的基础。而文本形式的贴文内容是文本标引模块进行 分析的基础。

背景提取模块将网络贴文中的背景信息提取出来,作为背景分析 引擎的输入。其中,贴文内容中的URL地址是背景分析引擎进一步读 取分析的关键对象。背景分析引擎通过对上述背景信息进行进一步读 取分析,对网络贴文进行背景标引。文本标引模块主要对网络贴文中 的纯文本内容进行文本标引。该文本标引模块可以采用计算机自然语 言处理领域的成熟算法,以软件或者固件方式实现,在此就不详细说 明了。

图3显示了背景分析引擎针对贴文内容中的URL地址进行标引的 基本流程。背景分析引擎针对贴文内容中出现的URL地址(即任务 URL),首先在URL背景库中进行查询。如果在URL背景库中存在该URL 地址,直接导出对应的标引结果后返回。如果在URL背景库中不存在 该URL地址,打开该URL地址并萃取URL地址对应网页的主题和正文, 由文本标引模块对主题和正文进行文本标引,然后将标引结果及相应 的URL地址存储至URL背景库,返回。在上述步骤中,对网页主题和 正文的萃取可以采用信息抽取领域的成熟技术实现,例如中国发明专 利ZL 200810066432.7所介绍的互联网网页清洗方法等,在此就不具 体说明了。

标引融合模块通过融合文本标引模块的标引结果和背景分析引擎 的标引结果,作为网络贴文的最终标引结果。这样,对网络贴文的标 引不再仅仅依据贴文内容本身,而是通过对网络贴文其他背景信息的 标引得到其隐含的语义,使得相应的标引结果更加全面准确。

以上对本发明所提供的网络贴文标引系统及标引方法进行了详细 的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的 前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的 侵犯,将承担相应的法律责任。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号