首页> 中国专利> 知识图谱中知识点的抽取方法、系统、电子设备

知识图谱中知识点的抽取方法、系统、电子设备

摘要

本发明提供一种知识图谱中知识点的抽取方法、系统、电子设备,所述方法包括:针对待抽取所述知识点的语料,通过无监督算法抽取关键词,通过NER模型抽取知识点实体;基于所述关键词和所述知识点实体,融合得到所述知识点。通过关键词和知识点实体的共同抽取与融合,能够实现更精确、覆盖更全面的专业知识图谱,为使用者提供更好的借鉴。

著录项

  • 公开/公告号CN114996394A

    专利类型发明专利

  • 公开/公告日2022-09-02

    原文格式PDF

  • 申请/专利权人 北京邮电大学;

    申请/专利号CN202210432232.9

  • 申请日2022-04-22

  • 分类号G06F16/33(2019.01);G06F16/36(2019.01);G06F40/30(2020.01);G06K9/62(2022.01);

  • 代理机构北京路浩知识产权代理有限公司 11002;

  • 代理人张文玄

  • 地址 100876 北京市海淀区西土城路10号北京邮电大学

  • 入库时间 2023-06-19 16:46:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-20

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022104322329 申请日:20220422

    实质审查的生效

  • 2022-09-02

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及知识图谱技术领域,尤其涉及一种知识图谱中知识点的抽取方法、系统、电子设备。

背景技术

知识图谱(Knowledge Graph,KG)本质上是一种大规模语义网络,包含实体、概念及其之间的各类语义关系,目前已经成为认知智能的基石,是发展人工智能的核心技术,它让机器语言认知、可解释人工智能成为可能,能够显著增强机器学习的能力,将成为与数据驱动相并列的一种非常重要的解决问题的方式。最近几年,以知识图谱为代表的智能化技术正在触及越来越多领域,许多企业都已将人工智能升格为企业的核心战略。知识图谱等人工智能技术正在赋能越来越多的业务,实现自动化和智能化。

知识图谱分为存储“常识知识”的通用型知识图谱和存储“垂类知识”的领域型知识图谱两大类。人工智能研究学者和工业人士当前的研究重心侧重于对常识性图谱的自动化构建与应用,如DBpedia、WikiData、CN-DBpedia、XLORE、zhishi.me,其技术相对趋于成熟。与通用型常识知识图谱相比,中文垂直领域知识图谱的构建仍处于开放探索的阶段,自动化构建的尝试仅限于商品垂域等,且由工业界闭源主导,这对细分专业的是知识图谱知识点的抽取提出了挑战。

现有技术在进行知识点提取时多使用的是较为传统的分词方法,将分词结果(或去除常用词后的分词结果)作为知识点,这种方法理解语言的能力有限,可能无法做到较为精准的知识点提取,提取知识点后没能很好地表示知识点拥有的结构。

发明内容

针对现有技术存在的问题,本发明提供一种知识图谱中知识点的抽取方法、系统、电子设备。

本发明提供的一种知识图谱中知识点的抽取方法,所述方法包括:

针对待抽取所述知识点的语料,通过无监督算法抽取关键词,通过NER(NamedEntity Recognition,命名实体识别)模型抽取知识点实体;

基于所述关键词和所述知识点实体,融合得到所述知识点。

根据本发明提供的一种知识图谱中知识点的抽取方法,所述NER模型,包括:BERT模型、BiLSTM模型和CRF模型。

根据本发明提供的一种知识图谱中知识点的抽取方法,所述融合得到所述知识点,包括:

对所述关键词和所述知识点实体中相同的部分进行去重;

对所述关键词和所述知识点实体中等价的实体和其子实体,删除实体,保留子实体;

对同音不同形的所述关键词和所述知识点实体,删除带有错别字的关键词和/或知识点实体。

根据本发明提供的一种知识图谱中知识点的抽取方法,所述无监督算法采用TF-IDF算法和TextRank算法。

根据本发明提供的一种知识图谱中知识点的抽取方法,所述通过NER模型抽取知识点实体,包括:

通过所述关键词构建所述NER模型的训练标签语料。

根据本发明提供的一种知识图谱中知识点的抽取方法,所述待抽取所述知识点的语料为具有多级标题的文档的各个章节内容,所述方法还包括:

针对所述文档,将所述多级标题抽取作为所述知识图谱对应的多级节点;

将融合得到的所述知识点作为所述多级节点中最低级节点的下级节点。

本发明还提供的一种知识图谱中知识点的抽取系统,所述系统包括:

抽取模块,所述抽取模块针对待抽取所述知识点的语料,通过无监督算法抽取关键词,通过NER模型抽取知识点实体;

融合模块,所述融合模块基于所述关键词和所述知识点实体,融合得到图谱知识点。

本发明还提供的一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一项所述知识图谱中知识点的抽取方法的步骤。

本发明还提供的一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述知识图谱中知识点的抽取方法的步骤。

本发明还提供的一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述知识图谱中知识点的抽取方法的步骤。

本发明提供的知识图谱中知识点的抽取方法、系统、电子设备,通过关键词和知识点实体的共同抽取与融合,能够实现更精确、覆盖更全面的专业知识图谱,为使用者提供更好的借鉴。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种知识图谱中知识点的抽取方法流程示意图;

图2为本发明提供NER模型的知识点实体抽取流程示意图;

图3为本发明提供的知识图谱中知识点的抽取方法中关键词和知识点实体的融合流程示意图;

图4为本发明提供的TF-IDF算法和TextRank算法具体流程示意图;

图5为本发明提供的知识图谱中知识点的抽取方法的另一流程示意图;

图6为本发明提供的电子信息类专业教材的知识图谱知识点自动化抽取流程示意图;

图7为本发明提供的一种知识图谱中知识点的抽取系统结构示意图;

图8为本发明提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的知识图谱中知识点的抽取方法进行详细地说明。

图1为本发明提供的一种知识图谱中知识点的抽取方法流程示意图,如图1所示,本发明提供的一种知识图谱中知识点的抽取方法,方法包括:

S100、针对待抽取知识点的语料,通过无监督算法抽取关键词,通过NER模型抽取知识点实体。

可选地,NER模型目标是获取语料中有特定意义的实体,如人名、地名、专业领域的特定名词等特定词语。作为知识图谱构成要素之一,实体的识别质量,直接影响到后续的任务的实验效果。

S200、基于关键词和知识点实体,融合得到知识点。

本实施例通过关键词和知识点实体的共同抽取与融合,能够实现更精确、覆盖更全面的专业知识图谱,为使用者提供更好的借鉴。基于电子教材资源和各种在线数据,通过上述的实施例公布的方法,构建本学科的知识图谱,并利用相关可视化工具可以很好地将学科知识的体系结构与各知识点之间的关系显示出来,不仅符合学习者的认知习惯,也有利于提升学习效率。

进一步地,图2为本发明提供NER模型的知识点实体抽取流程示意图,如图2所示,在前述实施例的基础上,另一实施例中,本实施例提供一种知识图谱中知识点的抽取方法,NER模型,包括:BERT模型、BiLSTM模型和CRF模型。

可选地,选取BERT-BiLSTM-CRF组合模型,BERT预训练语言模型在训练时长、模型加载速度、预测速度上都占据了很大的优势。

可选地,NER模型的工作实质上是一个序列标注工作,采用较为简单的{B,I,O}序列标注方法。最后获得语句中实体标签标注,通过标签获得语句中实体。其流程表述如下:首先输入语句,用BERT模型微调语句输入序列的字向量;然后将微调后的字向量输入到BiLSTM模型中,获取上下文相关的隐藏层特征,将其经过全连接层和softmax激励函数层后,获取每个字符在不同标签类别上的概率;最后将每个字符在不同标签类别上的概率信息输入CRF模型,获得最后的语句序列标注结果。

本实施例选取BERT-BiLSTM-CRF组合模型来实现NER模型,相比其他NER模型,具有更好的实体抽取效果。

进一步地,图3为本发明提供的知识图谱中知识点的抽取方法中关键词和知识点实体的融合流程示意图,如图3所示,在前述实施例的基础上,另一实施例中,本实施例提供一种知识图谱中知识点的抽取方法,融合得到知识点,包括:

对关键词和知识点实体中相同的部分进行去重;

对关键词和知识点实体中等价的实体和其子实体,删除实体,保留子实体;

对同音不同形的关键词和知识点实体,删除带有错别字的关键词和/或知识点实体。

可选地,对关键词和知识点实体中相同的部分进行去重,包含在数据预处理中,数据预处理将提取的关键词和知识点实体进行整合,根据求同存异原则,相同词仅保留一个,不同词直接保留。

优选地,数据预处理包括语法正规化:保证英文知识点的大小写统一,将所有英文知识点统一为小写表示;数据预处理还包括数据正规化:自动化生成的知识点数据,会存在一些重复冗余的数据,需要进行数据归一化,对数据进行去重操作,即去除完全相同的词语。

可选地,对关键词和知识点实体中等价的实体和其子实体,删除实体,保留子实体,包含在实体匹配中,具体地,对于等价实体和其等价子实体,利用匹配字符串算法,删除等价实体,保留等价子实体,作为最后细粒度的知识点。如在同一章节中,若出现“信号”和“数字信号”两个知识点,则保留信息量较大、更细粒度的知识点“数字信号”,而删除“信号”这个知识点。

可选地,对同音不同形的关键词和知识点实体,删除带有错别字的关键词和/或知识点实体,包含在拼音纠错中,由于pdf转txt文件时可能会出现文字识别错误,或者不同教材中对同一知识点的写法不同,如“傅里叶变换”和“傅立叶变换”,会出现一些相同知识点但写法不同的情况。针对此问题,通过拼音纠错算法,调用Python的pypinyin包,在所有知识点数据中,找出拼音一样但字形不同的知识点。然后将这些筛选出来的词对中属于错别字的情况,保留名称正确的知识点,删除同义的错误知识点,实现知识点数据归一化。

本实施例公布了融合的具体方法,通过去重、保留等价的子实体和去除错别字影响,使得抽取的知识点更精确、冗余度低。

进一步地,在前述实施例的基础上,另一实施例中,本实施例提供一种知识图谱中知识点的抽取方法,无监督算法采用TF-IDF算法和TextRank算法。

可选地,采用基于统计特征的关键词抽取方法TF-IDF算法,并结合基于无向加权图的关键词抽取方法TextRank算法得到关键词。

可选地,关键词是用来理解文档主题和意思的最小单元,其本质是带有上下文特征的文本片段。TF-IDF算法是当今统计法中最常用的方法,常用于计算特定词对于文档库中的一篇文档的重要性。其核心思想是:如果一个词在一篇文档中经常出现,但在语料库的其他文档中不常出现,就说明这个词具有良好的文档分类能力,应该被赋予较高的重要性。通常使用逆文档频率IDF和词频TF相乘的结果来表示一个词的在文档中的重要性。逆文档频率IDF指的是一个词在文档库中文档频率的倒数,用于表示这个词在这个文档库中区分文档的能力。词频TF指的是词数与文档所含总词数的商。词频值越大,描述文档内容的能力越强。由于词数受文档长度的影响较大,所以词频使用词数/文档中总词数的方法,对词数进行归一化,从而更精确的表示这个词的描述能力。

可选地,TextRank算法研究的依据是词语之间的共现关系或句子之间的相似度。TextRank算法和LDA、HMM等模型不同,它是一种无监督的抽取方法,利用局部词汇之间关系对词语、句子进行排序,直接从文本本身抽取,不需要平行语料来进行训练,略去了人工标记语料的繁琐。使用TextRank对文本进行关键词提取,其核心在于确定以词为节点的共现关系。所谓的共现关系是指对节点集合,以长度为k的窗口进行滑动,对窗口内的k个节点构造边。采用共现关系构建无向无权图模型,再使用PageRank公式进行计算,根据PR值排序后筛选关键词。

可选地,TF-IDF算法的公式为:

其中,n

可选地,图4为本发明提供的TF-IDF算法和TextRank算法具体流程示意图,如图4所示,TF-IDF算法和TextRank算法具体流程如下:

利用jieba将文章中每句话进行分词,保存为字典,然后去除停用词;

利用文档集计算文档集中每个词的IDF值,并保存至IDF文档;

统计文档每个词的词频TF,计算TF*IDF的值,并进行归一化处理;

对TextRank图端点进行加权赋值,然后进行TextRank公式迭代至收敛,得出最终的词权重(重要度),最后将词按照重要度从大到小进行排序,得到专业关键词。

本实施例采用TF-IDF算法和TextRank算法实现关键词的有效抽取,且关键词更能体现语料特征,为后续知识点的抽取质量的提高做好铺垫。

进一步地,图5为本发明提供的知识图谱中知识点的抽取方法的另一流程示意图,如图5所示,在前述实施例的基础上,另一实施例中,本实施例提供一种知识图谱中知识点的抽取方法,通过NER模型抽取知识点实体,包括:

通过关键词构建NER模型的训练标签语料。

可选地,由于汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,在实体识别时需要分词;在特殊领域中常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体;将该任务视为序列标注任务时,监督学习需要大量的训练标注数据。为了解决人工标注成本高的问题,采用进行多次迭代训练的方式,标签机器迭代更新。如果在迭代更新过程中,部分机器标注标签存在噪声,每次重新训练需去除该部分噪声数据,避免噪声数据对训练模型产生较大影响。采用BERT-BiLSTM-CRF组合模型得到知识点实体。首先用无监督算法得到的关键词构建NER模型的训练标签语料,然后用训练好的NER模型进行知识点实体抽取。

本实施例用无监督算法得到的关键词构建NER模型的训练标签语料,为监督学习提供大量高质量的训练标注数据,节省标注用的人工。

进一步地,在前述实施例的基础上,另一实施例中,本实施例提供一种知识图谱中知识点的抽取方法,待抽取知识点的语料为具有多级标题的文档的各个章节内容,方法还包括:

针对文档,将多级标题抽取作为知识图谱对应的多级节点;

将融合得到的知识点作为多级节点中最低级节点的下级节点。

可选地,所述文档为专业教材和/或专业PPT课件。优选地,所述文档为电子信息类专业教材和/或电子信息类专业PPT课件

本实施例公布了将语料的多级标题和章节内容提取的知识点组合成知识图谱的多级节点,从而便于实现专业教材的知识图谱展示。

进一步地,图6为本发明提供的电子信息类专业教材的知识图谱知识点自动化抽取流程示意图,如图6所示,本实施例公布电子信息类专业教材的知识图谱知识点自动化抽取流程,具体包括:

(1)教材PDF文件转TXT文件

已有教材pdf文件的情况下,获取教材txt文档(编码格式为UTF-8)。

方法举例:借助软件ABBYY FineReader将PDF转成txt文档。

(2)教材自动化分章节

实现中文教材分节功能的自动化,但这个自动化是在教材txt文档的高度精准的情况下。教材txt文档中有很多个性化的识别错误和问题,部分共性问题可采用算法代码解决。

说明:以下操作步骤可按需进行,如有些教材不需进行去除页眉页脚处理等。且一、二、三级目录的分节操作可调换顺序,比如可以倒序进行,从三级目录开始,修改调试至分节结果准确后,再进行二、一级目录分节。

1)教材txt文档预处理

考虑到后续词频统计等文本处理的准确性,前言、后记及页眉页脚不应算在章节内容中;前言中目录的标题及页眉页脚有时会对分节操作的标题识别产生影响,所以需要去除教材文本的前言、后记及页眉页脚部分。

a剔除前言和后记:

前言,即第一章正文开始前的内容,一般包括封面、前言和目录。后记,即最后一节之后的内容,一般包括习题答案及参考文献。

剔除方法:将前言和后记剔除出来,但为保证教材的完整性,将两者分别存入两个新文档。

b去除页眉页脚:

借助软件ABBYY FineReader,在OCR选项里面对语言进行设置,可以自动去除页眉页脚。或利用txt文档中的查找替换,将页眉页脚替换成空格,即可达到去除效果。

应用于其它课程教材时,可结合实际情况,考虑增加预处理步骤。

2)一、二、三级目录分节操作

使用python语言,利用re.search()函数,制定多种正则匹配表达式,用于检测多种形式的层级标题,然后截取每个章节标题后的内容,并写入独立的txt文件中,实现教材分章节操作。

应用于其它课程教材时,可结合实际情况,考虑增加正则匹配约束。

(3)抽取章节标题作为图谱一二三级结点

与教材分节操作类似,利用re.search函数,制定多种正则匹配表达式,检测多种形式的层级标题,用group()方法提取出匹配到的标题,然后使用re.sub()函数,修改层级标题为统一标准格式,例如“1-2.2”修正为“1.2.2”,“1·2.4”修正为“1.2.4”。

若不想要章节标题开头的标号,只保留标题文字,可采用list列表切片方法,截取想要的标题形式。

对于每一门课程(course),根据章节目录层级,定义三层图谱结点,识别出的一级章节标题对应知识单元(KnowledgeUnit),二级章节标题对应知识章节(KnowledgeChapter),三级章节标题对应(知识块KnowledgeBlock)。

(4)抽取章节知识点作为四级结点

按照前述公布的知识图谱知识点抽取步骤,针对教材的章节内容txt文件,进行章节知识点抽取,作为图谱的四级结点(AlignmentObject)。

(5)爬虫得到知识点解释

使用python脚本爬取已提取知识点的维基百科中英文解释及百度百科解释。

下面对本发明提供的知识图谱中知识点的抽取系统进行描述,下文描述的知识图谱中知识点的抽取系统与上文描述的知识图谱中知识点的抽取方法可相互对应参照。

图7为本发明提供的一种知识图谱中知识点的抽取系统结构示意图,如图7所示,本发明还提供的一种知识图谱中知识点的抽取系统,系统包括:

抽取模块,抽取模块针对待抽取知识点的语料,通过无监督算法抽取关键词,通过NER模型抽取知识点实体;

融合模块,融合模块基于关键词和知识点实体,融合得到图谱知识点。

本实施例通过关键词和知识点实体的共同抽取与融合,能够实现更精确、覆盖更全面的专业知识图谱,为使用者提供更好的借鉴。

图8为本发明提供的一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行知识图谱中知识点的抽取方法,所述方法包括:

针对待抽取所述知识点的语料,通过无监督算法抽取关键词,通过NER模型抽取知识点实体;

基于所述关键词和所述知识点实体,融合得到所述知识点。

此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的知识图谱中知识点的抽取方法,所述方法包括:

针对待抽取所述知识点的语料,通过无监督算法抽取关键词,通过NER模型抽取知识点实体;

基于所述关键词和所述知识点实体,融合得到所述知识点。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的知识图谱中知识点的抽取方法,所述方法包括:

针对待抽取所述知识点的语料,通过无监督算法抽取关键词,通过NER模型抽取知识点实体;

基于所述关键词和所述知识点实体,融合得到所述知识点。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号