公开/公告号CN113239111A
专利类型发明专利
公开/公告日2021-08-10
原文格式PDF
申请/专利权人 上海海洋大学;
申请/专利号CN202110672608.9
申请日2021-06-17
分类号G06F16/26(20190101);G06F40/295(20200101);G06F40/30(20200101);G06F40/216(20200101);G06F40/211(20200101);G06N3/04(20060101);G06F16/36(20190101);
代理机构31227 上海伯瑞杰知识产权代理有限公司;
代理人孟旭彤
地址 201306 上海市浦东新区沪城环路999号
入库时间 2023-06-19 12:10:19
技术领域
本发明涉及知识图谱舆情分析技术领域,具体地,涉及一种基于知识图谱的网络舆情可视化分析方法及系统。
背景技术
知识图谱是用来描述现实世界中存在的各种实体、概念及其关系,它构成了一个巨大的语义网络图,随着人工智能技术的发展和应用,知识图谱作为关键技术之一,已广泛应用于智能搜索、智能问答、个性化推荐、信息分析等领域。如今,越来越多的行业和企业积累了规模可见的大数据,但是这些数据并未发挥应有的价值,事实上,舆情分析、互联网的商业数据分析和军事情报分析等,都需要对大数据做精准分析,而这种分析更需要有知识图谱来支撑。
另一方面,随着互联网时代兴起,传统的知识存储主要利用关系型数据库,多个表之间的某些记录相互引用需要通过外键约束来实现,并且操作次数将在表中记录呈指数级别增长,增加了连接操作的成本,因此需要消耗大量的系统资源。另外,互联网数据噪声比较大,传统的数据建模的方法要严格按照相关约定构建其应用程序使用的数据,很难做到细粒度化,当数据量达到一定量级时,数据之间的复杂关系并不能详细表达。
中国发明专利公开号CN 112434226 A公布了一种网络舆情监测预警方法,该发明利用网络舆情数据获取模块,定向对互联网中公开的网络新闻、论坛、社交媒体进行数据收集;通过数据加工处理模块,对收集的数据进行清洗、转换和加工,将非结构化数据转化为半结构化或结构化数据;通过网络舆情数据分析模块,对加工后的数据进行自然语言处理和使用人工智能技术进行数据挖掘,发现识别舆情热点、敏感和/或风险话题;通过可视化模块对舆情监测分析结果进行可视化展示、输出舆情分析结果图表和/或舆情分析报告。
然而,现有专利的数据来源不是很丰富,数据清洗过程相对复杂,运维成本较大。另一方面网络舆情新闻之间的关联性以及细粒度分析并未详细表达,并且没有将网络舆情数据转化为知识实现知识存储和知识共享。
发明内容
针对现有技术中的缺陷,本发明的目的在于提供一种可提高数据存储和可视化分析效率的基于知识图谱的网络舆情可视化分析方法及系统,可实现将网络舆情数据自动转化为知识进行知识存储和知识共享。
为解决上述问题,本发明的技术方案为:
一种基于知识图谱的网络舆情可视化分析方法,所述方法包括以下步骤:
收集原始数据并对原始数据进行预处理;
根据预处理后的数据构建领域本体模型的关系;
对数据进行存储和加工,构建知识图谱;
对构建的知识图谱进行细粒度分析;以及
查询知识图谱中网络新闻之间的图结构关系并对网络新闻查询结果进行可视化分析。
可选地,所述收集原始数据并对原始数据进行预处理的步骤具体包括:
处理新闻标题、摘要中的非法字符,保留数字字符,使用正则表达式删除非中文字符;
保留网站链接媒体名称及媒体类型;
保留新闻稿发布时间;
利用模糊查询合并相同类型的地理名称;以及
对于多个相同类别的新闻项,如果这些类别的数据均相同,只保留一条新闻项。
可选地,所述根据预处理后的数据构建领域本体模型的关系步骤具体包括:
网络新闻数据内部关系以本体的attribute-of建模,网站链接是概念,其他类型数据作为属性;以及
进行本体实例化时,将其规则转化为kind-of,表达概念之间的继承关系,网站链接是父类,其他属性作为子类。
可选地,所述对数据进行存储和加工,构建知识图谱的步骤具体包括:
文本分词处理:用自然语言处理工具分析两个词是否具有聚合关系;
计算上下文相似性:使用Jaccard指数作为相似度的度量,并用相对上下文相似性的和来表示;
计算聚合关系:通过上下文窗口的大小,对比调整词汇的相似性得分,得分越高,聚合概率越高;
合并相同及相似节点:合并相同节点以保证数据的唯一性约束;合并相似节点通过上述文本分词处理计算词的相似度得分,得分系数高的节点进行聚合;以及
扩大新闻数据的类别,根据以上步骤进行迭代,进行网络新闻的数据更新。
可选地,所述对构建的知识图谱进行细粒度分析的步骤具体包括:
利用BiLSTM-CRF模型进行命名实体识别,识别出热点网络新闻中人物、地点等;
利用jieba算法对文本分词进行词性标注,挖掘新闻的语义信息;以及
对上述两类数据使用数组分别进行词频统计。
可选地,所述查询知识图谱中网络新闻之间的图结构关系并对网络新闻查询结果进行可视化分析的步骤具体包括:
将待查询数据以具体时间点和时间间隔作为一级查询条件;
添加二级查询条件,查询内容为媒体类型和地域分布;
查询关系结果以知识图谱方式进行展示,涉及信息类别有新闻网站、新闻标题、媒体名称、媒体类别、地区、新闻发布时间。
可选地,所述将待查询数据以具体时间点和时间间隔作为一级查询条件的步骤具体包括:以时间点和时间间隔为关键词查询图数据库并统计这一时间段网络新闻事件发生的趋势,按照时间点增序进行排列。
可选地,所述添加二级查询条件,查询内容为媒体类型和地域分布的步骤具体包括:
以媒体类型作为二级查询条件,查询图数据库关键词为“时间-网址-媒体类型”,并统计网络新闻事件发生的趋势及占比情况;
以活跃媒体名称作为二级查询条件,查询图数据库关键词为“时间-网址-媒体名称”,并统计网络新闻事件发生的趋势;
以地域分布情况作为二级查询条件,查询图数据库关键词为“时间-网址-地域”,并统计网络新闻事件发生的趋势;
以新闻摘要内容作为二级查询条件,查询图数据库关键词为“时间-网址-摘要”和“时间-网址-标题”,统计时间段范围内热门新闻相似摘要信息的内容,并按照频次增序排列;
以新闻标题作为二级查询条件,查询图数据库关键词为“时间-网址-标题”和“时间-网址-媒体名称”,统计时间段范围内传播途径最多的新闻信息和新闻媒体的内容。
可选地,所述查询知识图谱中网络新闻之间的图结构关系并对网络新闻查询结果进行可视化分析的步骤还包括:在可视化界面下载某一时间段某一主题网路新闻的舆情分析报告PDF版。
进一步地,本发明还提供一种基于知识图谱的网络舆情可视化分析系统,所述系统包括:
数据预处理模块:用于收集原始数据并对原始数据进行预处理;
自动化本体数据建模模块:用于根据预处理后的数据构建领域本体模型的关系;
数据存储模块:用于对数据进行存储和加工,构建知识图谱;
知识处理模块:用于对构建的知识图谱进行细粒度分析;以及
数据可视化模块:用于查询知识图谱中网络新闻之间的图结构关系并对网络新闻查询结果进行可视化分析;
其中,所述基于知识图谱的网络舆情可视化分析系统用于执行如上所述的基于知识图谱的网络舆情可视化分析方法。
与现有技术相比,本发明基于知识图谱的网络舆情可视化分析方法及系统针对网络舆情数据采用知识图谱来进行数据的存储、检索和可视化,对于相同或相似的数据进行融合,可以极大提高数据存储的效率;利用免索引邻接机制,在图数据库上可以进行高效的关系查询和图的遍历;通过对本体模型实例化以及网络新闻内容的语义解析,可以将结构化数据、非结构化数据进行细粒度化加工,使网络舆情可视化内容更加丰富,从而可以为学术、科研人员或者舆情监控提供应用支持和服务,并且本发明还可实现将网络舆情数据自动转化为知识进行知识存储和知识共享。
另外,通过知识图谱可以将相似数据进行消歧、相同数据单元小型化、规范化,同时还能明确数据之间的关系链接,从而降低应用程序的开发成本,建立更高效的网络舆情可视化分析系统,实现对网络舆情监控和管理的能力。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例提供的基于知识图谱的网络舆情可视化分析方法的流程框图;
图2为本发明实施例提供的基于知识图谱的网络舆情可视化分析方法另一流程框图;
图3为本发明实施例提供的基于知识图谱的网络舆情可视化分析系统的结构框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
图1为本发明实施例提供的基于知识图谱的网络舆情可视化分析方法流程框图,如图1所示,所述方法包括以下步骤:
S1:收集原始数据并对原始数据进行预处理;
具体地,在步骤S1中,某一热点主题新闻采用新浪舆情通提供的.csv格式数据,这样数据来源相对密集,数据信息量丰富,能够利用知识图谱对数据进行细粒度化分析,所述对原始数据进行预处理具体包括以下:
(1)处理新闻标题、摘要中的非法字符,保留数字字符,使用正则表达式删除非中文字符;
例如,删除标点符号,包括空格、中英文标点符号、重复使用不同标点符号的新闻标题。
(2)保留网站链接媒体名称及媒体类型;
(3)保留新闻稿发布时间;
(4)利用模糊查询合并相同类型的地理名称;
(5)对于多个相同类别的新闻项,如果这些类别的数据均相同,只保留一条新闻项。
S2:根据预处理后的数据构建领域本体模型的关系;
具体地,根据预处理后的数据构建领域本体模型的关系包括:
网络新闻数据内部关系以本体的attribute-of建模,网站链接是概念,其他类型数据作为属性,一条新闻数据代表一个独立的知识图谱;
进行本体实例化时,将其规则转化为kind-of,表达概念之间的继承关系,类似于面向对象中的父类与子类之间的关系,网站链接是父类,其他属性作为子类。
S3:对数据进行存储和加工,构建知识图谱;
具体地,如图2所示,包括以下步骤:
S31:文本分词处理:用自然语言处理工具分析两个词是否具有聚合关系;
S32:计算上下文相似性:使用Jaccard指数作为相似度的度量,并用相对上下文相似性的和来表示;
S33:计算聚合关系:通过上下文窗口的大小,对比调整词汇的相似性得分,得分越高,聚合概率越高。
S34:合并相同及相似节点:合并相同节点以保证数据的唯一性约束;合并相似节点通过上述步骤文本分词处理计算词的相似度得分,得分系数高的节点进行聚合。
S35:扩大新闻数据的类别,根据以上步骤进行迭代,进行网络新闻的数据更新。
通过上述步骤将文本数据建模为邻接图,并以“时间-网址”集体关键词作为图数据库查询关键字。
S4:对构建的知识图谱进行细粒度分析;
具体地,对构建的知识图谱进行细粒度分析主要是对新闻内容进行语义解析,包括以下步骤:
利用BiLSTM-CRF模型进行命名实体识别,识别出热点网络新闻中人物、地点等;
利用jieba算法对文本分词进行词性标注,挖掘新闻的语义信息;
对上述两类数据使用数组分别进行词频统计。
S5:查询知识图谱中网络新闻之间的图结构关系并对网络新闻查询结果进行可视化分析。
具体地,在步骤S5中,一个单一的新闻不能看出舆论的发展,需要通过批量新闻来推断一定时期内新闻的发展。因此,新闻舆论的发展需要一个起点和一个持续的时期,通过查询时间点和时间间隔,可以得到这一时期整个新闻舆论的变化,如这一时期各媒体的活动情况、新闻发布的区域分布情况、各新闻摘要关注的内容等。
为了提供有效的查询服务,需要统计数据来进行可视化分析过程,具体的可视化分析过程分别由两个web页面展示,每个页面作为一个检索任务,因此检索任务分为两类,一类是查询知识图谱中网络新闻之间的图结构关系,一类是对网络新闻查询结果进行可视化分析。
所述查询知识图谱中网络新闻之间的图结构关系并对网络新闻查询结果进行可视化分析包括以下步骤:
将待查询数据以具体时间点和时间间隔作为一级查询条件;
具体地,以时间点和时间间隔为关键词查询图数据库并统计这一时间段网络新闻事件发生的趋势,按照时间点增序进行排列。
添加二级查询条件,查询内容为媒体类型和地域分布;
具体地,以媒体类型作为二级查询条件,查询图数据库关键词为“时间-网址-媒体类型”,并统计网络新闻事件发生的趋势及占比情况;以活跃媒体名称作为二级查询条件,查询图数据库关键词为“时间-网址-媒体名称”,并统计网络新闻事件发生的趋势;以地域分布情况作为二级查询条件,查询图数据库关键词为“时间-网址-地域”,并统计网络新闻事件发生的趋势;以新闻摘要内容作为二级查询条件,查询图数据库关键词为“时间-网址-摘要”和“时间-网址-标题”,统计时间段范围内热门新闻相似摘要信息的内容,并按照频次增序排列;以新闻标题作为二级查询条件,查询图数据库关键词为“时间-网址-标题”和“时间-网址-媒体名称”,统计时间段范围内传播途径最多的新闻信息和新闻媒体的内容。
查询关系结果以知识图谱方式进行展示,涉及信息类别有新闻网站、新闻标题、媒体名称、媒体类别、地区、新闻发布时间;以及
在可视化界面下载某一时间段某一主题网路新闻的舆情分析报告PDF版。
图3为本发明实施例提供的基于知识图谱的网络舆情可视化分析系统结构框图,如图3所示,所述基于知识图谱的网络舆情可视化分析系统包括:
数据预处理模块31:用于收集原始数据并对原始数据进行预处理;
自动化本体数据建模模块32:用于根据预处理后的数据构建领域本体模型的关系;
数据存储模块33:用于对数据进行存储和加工,构建知识图谱;
知识处理模块34:用于对构建的知识图谱进行细粒度分析;以及
数据可视化模块35:用于查询知识图谱中网络新闻之间的图结构关系并对网络新闻查询结果进行可视化分析;
其中,所述基于知识图谱的网络舆情可视化分析系统用于执行如上所述的基于知识图谱的网络舆情可视化分析方法。
在本实施例中,整个系统可以采用Django框架进行编码,数据可视化模块35的效果图可通过Echart控件显示效果。
下面具体以长江大保护从2019年3月到2020年4月的舆情数据为例,具体说明本发明具体实施方式如下:
步骤S1:收集原始数据并对原始数据进行预处理;
原始数据来自新浪舆情频道,该频道提供各种话题的网络新闻,通过网络新闻的层次结构和关系类别,构建了通用主题领域本体模型。每一类话题的网络新闻数据包括新闻标题、评论内容、网站链接、媒体名称、发布时间、媒体类型、自媒体账号、属性、摘要、地域、是否转发、账号类型、相关词等多项条目。对该原始数据进行预处理,需要清理以下数据:
(1)处理新闻标题、摘要中的非法字符,如删除标点符号,包括空格、中英文标点符号、重复使用不同标点符号的新闻标题,保留数字字符,使用正则表达式删除非中文字符。
(2)保留网站链接媒体名称及媒体类型,保留10种媒体类型,分别是微信、微博、客户端、网站、政务、视频、论坛、报纸、博客和其他。
(3)保留新闻稿发布时间,包括年、月、日,例如:2019年3月1日。
(4)利用模糊查询合并相同类型的地理名称,例如“北京市”和“北京”合并到“北京”。中国34个省市自治区都使用两到三个汉字。比如:“北京”、“黑龙江”。
(5)对于多个相同类别的新闻项,如果这些类别的数据均相同,只保留一条新闻项。
步骤S2:根据预处理后的数据构建领域本体模型的关系;
根据步骤S1的数据清理,最终得到构建领域本体多个类别,其中新闻标题、媒体名称、媒体类别、地区、新闻发布时间、新闻摘要等可能存在重复的数据内容。例如,如果一条新闻被广泛转发,它的标题就会在各种媒体上反复出现,不同地区在同一时间报道某条新闻也是可能的,但是一篇新闻的网页链接不会反复出现,即使转发多次,链接地址也不会发生变化。因此将网络链接作为领域本体的父类,将其他类别作为网络链接的子类。
本步骤将数据转换成与本体对应的RDF三元组,然后映射到Neo4J数据结构中,通过领域本体的概念模型将相应的三元组映射到CSV文件,然后将映射后的三元组存储在Neo4J图形数据库中。
(1)实例化领域本体的概念模型:网络新闻数据内部关系以本体的attribute-of建模,网站链接是概念,其他类型数据作为属性。一条新闻数据代表一个独立的知识图谱。新闻中的每个类别的一个数据对应于Neo4J数据结构中相应的一个节点,其中URL节点是父节点,其他类别的节点是子节点。设G=(P,V
(2)添加父节点和子节点之间的关系:进行本体实例化后,其规则转化为kind-of,表达概念之间的继承关系,类似于面向对象中的父类与子类之间的关系,网站链接是父类,其他属性作为子类。关系的开始节点是父节点,结束节点是子节点,同一个父节点指向多个具有不同关系的子节点。设G=(P,V
步骤S3:对数据进行存储和加工,构建知识图谱;
具体地,包括以下步骤:
(1)文本分词处理:用自然语言处理工具分析两个词是否具有聚合关系。新闻摘要通过自然语言处理工具拆分成不同的词组以字符串的形式按顺序存放在集合里面;
(2)计算上下文相似性:使用Jaccard指数作为相似度的度量,即
(3)计算聚合关系:通过扩大上下文窗口的大小,对比调整词组的相似性得分,得分越高,聚合概率越高,从而计算出每条新闻与其他新闻的关系。
(4)合并相同及相似节点:存储在Neo4J数据库中的大量新闻数据有许多相同的节点,对这些节点进行合并,以保证数据的唯一性约束,合并同一新闻的所有相同的节点,合并不同新闻的其他相同节点,对于相似的节点通过上述步骤文本分词处理计算词的相似度得分,得分系数高的节点进行聚合,最后将整个文本数据转化为知识图谱。
(5)扩大新闻数据的类别:如果网络新闻类别扩展或现有新闻类别添加可用数据,则可以使用此发明本体建模方法添加新类别,然后,根据以上步骤进行迭代,进行网络新闻的数据更新。通过上述步骤将文本数据重新组织建模为邻接图,并以“时间-网址”集体关键词作为图数据库查询关键字。
步骤S4:对构建的知识图谱进行细粒度分析;
对构建的知识图谱进行细粒度分析主要是对新闻摘要内容进行语义解析,具体包括以下步骤:
(1)利用BiLSTM-CRF模型对新闻摘要内容进行命名实体识别,识别出热点网络新闻中人物、地点等。BiLSTM层通过一个正向LSTM和一个反向LSTM,分别计算新闻摘要中每个左侧词和右侧词对应的向量,然后将每个词的两个向量进行连接,形成词的向量输出,最后,CRF层以BiLSTM输出的向量作为输入,对句子中的命名实体进行序列标注;
(2)利用jieba算法对文本分词进行词性标注,挖掘新闻的语义信息。通过时间点和时间间隔查询知识图谱中新闻文本摘要内容。将所有的文本摘要内容聚合起来,形成一个句子集,句子集中每条新闻的摘要内容在200-300个汉字之间。以高词频的词汇作为关键词,统计查询全部新闻的高频词,然后将每个分词用词性标记出来。在词性标注过程中,保留时间名词、位置名词、专有名词等实用名词,以及各种动词;去掉句子集合中有很多没有语义信息的词,如助词、副词、代词等。计算每个剩余分词的词频,并选择前30个词频高的汉语分词作为时间范围内的热点新闻内容。
(3)对上述两类数据使用数组分别进行词频统计,在所有新闻摘要中出现频率更高的单词或短语被计算为关键词,然后使用词云显示。
步骤S5:查询知识图谱中网络新闻之间的图结构关系并对网络新闻查询结果进行可视化分析。
一个单一的新闻不能看出舆论的发展。需要通过批量新闻来推断一定时期内新闻的发展。因此,新闻舆论的发展需要一个起点和一个持续的时期。通过查询时间点和时间间隔,可以得到这一时期整个新闻舆论的变化,如这一时期各媒体的活动情况、新闻发布的区域分布情况、各新闻摘要关注的内容等。为了提供有效的查询服务,需要统计数据来进行可视化分析过程。具体可视化分析过程分别由两个web页面展示,每个页面作为一个检索任务。因此检索任务分为两类,一类是查询知识图谱中网络新闻之间的图结构关系,一类是对网络新闻查询结果进行可视化分析。
具体包括以下步骤:
(1)将待查询数据以具体时间点和时间间隔作为一级查询条件,例如,查询时间点为2019年3月19日,查询时间段为7天;
以时间点和时间间隔为关键词查询图数据库并统计这一时间段网络新闻事件发生的趋势,按照时间点增序进行排列(表记录)。
(2)添加二级查询条件,查询内容为媒体类型和地域分布;
以媒体类型作为二级查询条件,查询图数据库关键词为“时间-网址-媒体类型”,并统计网络新闻事件发生的趋势及占比情况(折线图/饼状图);
以活跃媒体名称作为二级查询条件,查询图数据库关键词为“时间-网址-媒体名称”,并统计网络新闻事件发生的趋势(柱状图);
以地域分布情况作为二级查询条件,查询图数据库关键词为“时间-网址-地域”,并统计网络新闻事件发生的趋势(地理图);
以新闻摘要内容作为二级查询条件,查询图数据库关键词为“时间-网址-摘要”和“时间-网址-标题”,统计时间段范围内热门新闻相似摘要信息的内容,并按照频次增序排列(表记录);
以新闻标题作为二级查询条件,查询图数据库关键词为“时间-网址-标题”和“时间-网址-媒体名称”,统计时间段范围内传播途径最多的新闻信息和新闻媒体的内容(树形图)。
(3)查询关系结果以知识图谱方式进行展示,涉及信息类别有新闻网站、新闻标题、媒体名称、媒体类别、地区、新闻发布时间。
(4)在可视化界面添加导出PDF报告button按钮,请求下载某一时间段某一主题网路新闻的舆情分析报告PDF版。
与现有技术相比,本发明基于知识图谱的网络舆情可视化分析方法及系统针对网络舆情数据采用知识图谱来进行数据的存储、检索和可视化,对于相同或相似的数据进行融合,可以极大提高数据存储的效率;利用免索引邻接机制,在图数据库上可以进行高效的关系查询和图的遍历;通过对本体模型实例化以及网络新闻内容的语义解析,可以将结构化数据、非结构化数据进行细粒度化加工,使网络舆情可视化内容更加丰富,从而可以为学术、科研人员或者舆情监控提供应用支持和服务,并且本发明还可实现将网络舆情数据自动转化为知识进行知识存储和知识共享。
另外,通过知识图谱可以将相似数据进行消歧、相同数据单元小型化、规范化,同时还能明确数据之间的关系链接,从而降低应用程序的开发成本,建立更高效的网络舆情可视化分析系统,实现对网络舆情监控和管理的能力。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
机译: 一种基于知识图谱的多用户游戏服务提供方法及其装置
机译: 一种基于固有心音听诊和可视化装置分离固有频率成分的心音分析方法
机译: 基于本体的知识图谱人工智能学习诊断系统