首页> 中国专利> 一种中文文字标签云自动生成方法及装置

一种中文文字标签云自动生成方法及装置

摘要

本发明属于标签提取技术领域,尤其涉及一种中文文字标签云自动生成方法和装置。本发明中文文字标签云自动生成方法,包括:步骤a:对待分析文本数据利用汉语词法分析进行分词和词性标注;步骤b:根据分词及词性标注结果提取出待分析文本数据的关键词和词频;步骤c:将提取到的关键词以及其词频作为输入数据,使用标签云生成算法生成标签云。本发明的中文文字标签云自动生成方法和装置将中文分词和标签云算法结合并优化,填补了中文标签云生成算法的空白,为新闻要点提取,舆论分析等工作提供了有利的工具。

著录项

  • 公开/公告号CN103440256A

    专利类型发明专利

  • 公开/公告日2013-12-11

    原文格式PDF

  • 申请/专利权人 中国科学院深圳先进技术研究院;

    申请/专利号CN201310319948.9

  • 申请日2013-07-26

  • 分类号

  • 代理机构深圳市科进知识产权代理事务所(普通合伙);

  • 代理人宋鹰武

  • 地址 518055 广东省深圳市南山区西丽大学城学苑大道1068号

  • 入库时间 2024-02-19 21:18:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-11-30

    授权

    授权

  • 2014-01-08

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130726

    实质审查的生效

  • 2013-12-11

    公开

    公开

说明书

技术领域

本发明属于标签提取技术领域,尤其涉及一种中文文字标签云自动生成 方法及装置。

背景技术

随着科学技术的发展,特别是计算机技术的迅猛发展,人类产生和获取 数据的能力成数量级地增加。其中新闻、网络和报纸有大量的新信息产生, 对于这些中文文本数据的收集、分析与挖掘一直以来是研究人员工作的重 点,通常采用标签来对文本数据进行标记,标定出关键字词,方便查找或定 位。标签云是关键词的视觉化描述,用于汇总用户生成的标签或一个网站的 文字内容。现有的中文文本的标签云生成方法通过分词技术提取出关键词, 并根据Wordle算法来生成无互相遮挡的文字标签云,现有的中文文本的标签 云生成方法的缺点是:分词技术受到每日更新的新词以及文本语法不规范等 问题,不能根据一则文本数据准确地进行词法分析;另外,现有的标签云生 成方法主要针对英文文本,所生成的标签云不能很好适应中文文字的结构。

发明内容

本发明提供了一种中文文字标签云自动生成方法及装置,旨在解决现有 的标签云生成方法不能根据一则文本数据准确地进行词法分析,以及其主要 针对英文文本,所生成的标签云不能很好适应中文文字结构的技术问题。

本发明提供的技术方案为:一种中文文字标签云自动生成方法,包括:

步骤a:对待分析文本数据利用汉语词法分析进行分词和词性标注;

步骤b:根据分词及词性标注结果提取出待分析文本数据的关键词和词 频;

步骤c:将提取到的关键词以及其词频作为输入数据,使用标签云生成 算法生成标签云。

本发明的技术方案还包括:在所述步骤a中,所述汉语词法分析采用基 于层叠隐马模型的汉语词法分析,所述汉语词法分析包括:在预处理阶段, 采用N-最短路径粗分方法,得到能覆盖歧义的最佳N个粗切分结果;在粗分 结果集上,采用低层隐马模型结合词典语料库识别出普通无嵌套的人名、地 名,并依据识别出的结果采用高层隐马模型结合词典语料库识别出嵌套了人 名、地名的复杂地名和机构名;将识别出的未登录词以计算出来的概率加入 到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起 参与候选结果的竞争;在全局优化的分词结果上进行词性的隐马标注得到词 法分析结果。

本发明的技术方案还包括:所述词典语料库进行相应更新,更新方式包 括:利用网络爬虫技术对搜索引擎或新闻网站更新的新词进行抓取,并收集 新词相关的新闻;将收集到新词相关的新闻加入语料库进行训练,对新词加 以词性标注,将词性标注后的新词加入词典,并更新词典和语料库。

本发明的技术方案还包括:在所述步骤c中,标签云生成算法基于几何 结构对关键词进行布局。

本发明的技术方案还包括:所述布局方式包括:放射式布局和线性布 局,所述放射布局是将所有标签由内向外呈放射形放置,所述线性布局是将 所有标签随着扫描线放置。

本发明的技术方案还包括:所述标签云生成算法包括:选择生成的布局 方式,将标签按照选择的布局方式进行初始放置后,遍历所有标签,在出现 标签相互遮挡时使用贪心算法围绕着尺寸小的标签中心寻找新的放置位置。

本发明提供的另一技术方案为:一种中文文字标签云自动生成装置,包 括:分词和词性标注模块、关键词和词频提取模块和标签云生成模块,所述 分词和词性标注模块、关键词和词频提取模块和标签云生成模块依次相连, 所述分词和词性标注模块用于对待分析文本数据利用汉语词法分析进行分词 和词性标注,所述关键词和词频提取模块用于根据分词及词性标注结果提取 出待分析文本数据的关键词和词频,所述标签云生成模块用于将提取到的关 键词以及其词频作为输入数据,使用标签云生成算法生成标签云。

本发明的技术方案还包括:所述分词和词性标注模块采用基于层叠隐马 模型的汉语词法分析,具体包括:在预处理阶段,采用N-最短路径粗分方 法,得到能覆盖歧义的最佳N个粗切分结果;在粗分结果集上,采用低层隐 马模型结合词典语料库识别出普通无嵌套的人名、地名,并依据识别出的结 果采用高层隐马模型结合词典语料库识别出嵌套了人名、地名的复杂地名和 机构名;将识别出的未登录词以计算出来的概率加入到基于类的切分隐马模 型中,未登录词与歧义均不作为特例,与普通词一起参与候选结果的竞争; 在全局优化的分词结果上进行词性的隐马标注得到词法分析结果。

本发明的技术方案还包括:所述词典语料库进行相应更新,更新方式包 括:利用网络爬虫技术对搜索引擎或新闻网站更新的新词进行抓取,并收集 新词相关的新闻;将收集到新词相关的新闻加入语料库进行训练,对新词加 以词性标注,将词性标注后的新词加入词典,并更新词典和语料库。

本发明的技术方案还包括:所述标签云生成模块基于几何结构对关键词 进行布局,所述布局方式包括:放射式布局和线性布局,所述放射布局是将 所有标签由内向外呈放射形放置,所述线性布局是将所有标签随着扫描线放 置,所述标签云生成模块生成标签云包括:选择生成的布局方式,将标签按 照选择的布局方式进行初始放置后,遍历所有标签,在出现标签相互遮挡时 使用贪心算法围绕着尺寸小的标签中心寻找新的放置位置。

本发明的技术方案具有如下优点或有益效果:本发明实施例的中文文字 标签云自动生成方法和装置对分词系统所使用的词典进行改进,使其能够根 据每天产生新的语料进行自我更新,并加入情绪分析功能;再根据提取出的 关键词的词频以及关键词的情绪色彩生成更具空间结构、色彩更合理的标签 云;另外,将中文分词和标签云算法结合并优化,填补了中文标签云生成算 法的空白,为新闻要点提取,舆论分析等工作提供了有利的工具。

附图说明

附图1是本发明实施例的中文文字标签云自动生成方法的流程图;

附图2本发明实施例的中文文字标签云自动生成方法的汉语词法分析算 法流程图;

附图3是本发明实施例的中文文字标签云自动生成方法的词典、语料库 自我更新流程;

附图4是本发明实施例的中文文字标签云自动生成方法的关键词布局方 式示意图;

附图5本发明实施例的中文文字标签云自动生成方法应用贪心算法解决 标签遮挡的应用示意图;

附图6为本发明实施例的中文文字标签云自动生成方法应用网易新闻的 示意图;

附图7为本发明实施例的中文文字标签云自动生成方法对网易新闻回帖 的标签云生成示意图;

附图8为本发明实施例的中文文字标签云自动生成装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及 实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施 例仅仅用以解释本发明,并不用于限定本发明。

请参阅图1,为本发明实施例的中文文字标签云自动生成方法的流程 图。本发明实施例的中文文字标签云自动生成方法包括:

步骤100:对待分析文本数据利用汉语词法分析进行分词和词性标注;

在步骤100中,待分析文本数据包括新闻、网络和报纸等数据;请一并 参阅2,图2是本发明实施例的中文文字标签云自动生成方法的汉语词法分析 算法流程图。汉语词法分析是把一串连续的字符切分成单个的词;并正确地 判断每个词的词性。在本发明实施例中,汉语词法分析采用基于层叠隐马模 型的汉语词法分析,具体包括:在预处理阶段,采用N-最短路径粗分方法, 快速地得到能覆盖歧义的最佳N个粗切分结果;在粗分结果集上,采用低层 隐马模型结合词典语料库识别出普通无嵌套的人名、地名,并依据识别出的 结果采用高层隐马模型结合词典语料库识别出嵌套了人名、地名的复杂地名 和机构名;将识别出的未登录词以科学计算出来的概率加入到基于类的切分 隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与候选结果的 竞争;在全局优化的分词结果上进行词性的隐马标注得到词法分析结果。

在步骤100中,为了提高关键词提取的准确性,本发明实施例的中文文 字标签云自动生成方法对原有汉语词法分析算法所使用的词典进行改进,并 且扩充了原有的语料库。具体方法包括:利用网络爬虫技术对每日百度、搜 狗等搜索引擎或新闻网站更新的新词进行抓取,并收集新词相关的新闻,将 收集到新词相关的新闻加入语料库进行训练,对新词加以词性标注,将词性 标注后的新词加入词典,并更新词典和语料库,具体流程如图3。

步骤200:根据分词及词性标注结果提取出待分析文本数据的关键词和 词频;

步骤300:将提取到的关键词以及其词频作为输入数据,使用标签云生 成算法生成标签云。

在步骤300中,标签云生成算法基于几何结构对关键词进行布局,保持 关键字之间的Orthogonal Ordering(正交排序)特性。生成标签云具体流程 包括:选择生成的布局方式,其中,布局方式包括:放射式布局和线性布 局,放射布局是将所有标签由内向外呈放射形放置,线性布局是将所有标签 随着扫描线放置,布局如图4;在将标签按照两种布局放置之一进行初始放 置后,遍历所有标签,当出现两个标签遮挡的情况时使用贪心算法围绕着尺 寸小的标签中心寻找新的放置位置解决遮挡问题,图5为本发明实施例的中 文文字标签云自动生成方法应用贪心算法解决标签遮挡的应用示意图。贪心 算法具体包括:当有遮挡发生时,对于包含多个目标的合并前景块,根据合 并检测模块和遮挡前的跟踪结果,可获得前景块内发生遮挡的目标数量、标 号、颜色、形状等先验特征,定位时,依次遍历所有未被定位的目标,计算 每一个目标的观测概率,并将观测概率最高的目标所在位置作为该目标的定 位结果输出,同时将被该目标覆盖的像素添加到集合中,对合并前景快中的 像素集合进行更新,重复上述过程,直到获得所有遮挡目标在前景块中的定 位结果。

在步骤300中,布局方式选择放射式布局,则需要重新确定整体布局的 几何中心;遍历完全部标签,完成标签云的生成。

请一并参阅图6和图7,图6为本发明实施例的中文文字标签云自动生成 方法应用网易新闻的示意图,图7为本发明实施例的中文文字标签云自动生 成方法对网易新闻回帖的标签云生成示意图。本发明实施例的中文文字标签 云自动生成方法可以对大规模中文文本数据进行关键词提取以及中文标签云 生成操作,利用该系统对网易新闻的用户回帖数据进行标签云生成,根据提 取出的关键词的词频以及关键词的情绪色彩生成更具空间结构、色彩更合理 的标签云

请参阅图8,为本发明实施例的中文文字标签云自动生成装置的结构示 意图。本发明实施例的中文文字标签云自动生成装置包括:分词和词性标注 模块、关键词和词频提取模块和标签云生成模块,其中,分词和词性标注模 块、关键词和词频提取模块和标签云生成模块依次相连。

分词和词性标注模块:用于对待分析文本数据利用汉语词法分析进行分 词和词性标注。待分析文本数据包括新闻、网络和报纸等数据,汉语词法分 析是把一串连续的字符切分成单个的词;并正确地判断每个词的词性。在本 发明实施例中,汉语词法分析采用基于层叠隐马模型的汉语词法分析,具体 包括:在预处理阶段,采用N-最短路径粗分方法,快速地得到能覆盖歧义的 最佳N个粗切分结果;在粗分结果集上,采用低层隐马模型结合词典语料库 识别出普通无嵌套的人名、地名,并依据识别出的结果采用高层隐马模型结 合词典语料库识别出嵌套了人名、地名的复杂地名和机构名;将识别出的未 登录词以科学计算出来的概率加入到基于类的切分隐马模型中,未登录词与 歧义均不作为特例,与普通词一起参与候选结果的竞争;在全局优化的分词 结果上进行词性的隐马标注得到词法分析结果。

为了提高关键词提取的准确性,本发明实施例的中文文字标签云自动生 成装置对原有汉语词法分析算法所使用的词典进行改进,并且扩充了原有的 语料库。具体方法包括:利用网络爬虫技术对每日百度、搜狗等搜索引擎或 新闻网站更新的新词进行抓取,并收集新词相关的新闻,将收集到新词相关 的新闻加入语料库进行训练,对新词加以词性标注,将词性标注后的新词加 入词典,并更新词典和语料库,具体流程如图3。

关键词和词频提取模块用于根据分词及词性标注结果提取出待分析文本 数据的关键词和词频。

标签云生成模块用于将提取到的关键词以及其词频作为输入数据,使用 标签云生成算法生成标签云。标签云生成模块基于几何结构对关键词进行布 局,保持关键字之间的Orthogonal Ordering(正交排序)特性。标签云生成 模块生成标签云具体方式包括:选择生成的布局方式,其中,布局方式包 括:放射式布局和线性布局,放射布局是将所有标签由内向外呈放射形放 置,线性布局是将所有标签随着扫描线放置,布局如图4;在将标签按照两 种布局放置之一进行初始放置后,遍历所有标签,当出现两个标签遮挡的情 况时使用贪心算法围绕着尺寸小的标签中心寻找新的放置位置解决遮挡问 题,图5为本发明实施例的中文文字标签云自动生成方法应用贪心算法解决 标签遮挡的应用示意图。贪心算法具体包括:当有遮挡发生时,对于包含多 个目标的合并前景块,根据合并检测模块和遮挡前的跟踪结果,可获得前景 块内发生遮挡的目标数量、标号、颜色、形状等先验特征,定位时,依次遍 历所有未被定位的目标,计算每一个目标的观测概率,并将观测概率最高的 目标所在位置作为该目标的定位结果输出,同时将被该目标覆盖的像素添加 到集合中,对合并前景快中的像素集合进行更新,重复上述过程,直到获得 所有遮挡目标在前景块中的定位结果。

在标签云生成模块生成标签云具体方式中,布局方式选择放射式布局, 则需要重新确定整体布局的几何中心;遍历完全部标签,完成标签云的生 成。

本发明的技术方案具有如下优点或有益效果:本发明实施例的中文文字 标签云自动生成方法和装置对分词系统所使用的词典进行改进,使其能够根 据每天产生新的语料进行自我更新,并加入情绪分析功能;再根据提取出的 关键词的词频以及关键词的情绪色彩生成更具空间结构、色彩更合理的标签 云;另外,将中文分词和标签云算法结合并优化,填补了中文标签云生成算 法的空白,为新闻要点提取,舆论分析等工作提供了有利的工具。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本 发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号