首页> 中国专利> 维基数据中明星库的知识图谱扩充方法及系统

维基数据中明星库的知识图谱扩充方法及系统

摘要

本发明涉及一种维基数据中明星库的知识图谱扩充方法及系统,方法包括,导入目标明星的基本信息,基本信息包括姓名和个人简介;根据姓名和个人简介,捕捉目标明星的头像信息,通过面部识别技术确定头像信息对应的人脸特征信息,筛选目标明星对应的影视作品,并根据人脸特征信息截取目标明星的明星剧照;爬取关系网明星库,获取目标明星的个人特征信息和人物关系链;将个人特征信息、人物关系链和明星剧照存储至明星库的知识图谱,以实现对知识图谱的扩充,既保证了数据的准确度,有提高了数据扩充编辑运营的效率。

著录项

  • 公开/公告号CN112163100A

    专利类型发明专利

  • 公开/公告日2021-01-01

    原文格式PDF

  • 申请/专利权人 广州欢网科技有限责任公司;

    申请/专利号CN202011099358.6

  • 发明设计人 孙仁财;

    申请日2020-10-14

  • 分类号G06F16/36(20190101);G06F16/951(20190101);G06K9/00(20060101);

  • 代理机构11471 北京细软智谷知识产权代理有限责任公司;

  • 代理人牛晴

  • 地址 510000 广东省广州市番禺区小谷围街中二横路22号A513-A514

  • 入库时间 2023-06-19 09:24:30

说明书

技术领域

本发明属于知识图谱扩充技术领域,具体涉及一种维基数据中明星库的知识图谱扩充方法及系统。

背景技术

知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,知识图谱提供了从关系的角度去分析问题的能力。现阶段明星维基知识库的知识图谱结构扩充采用方法多采用人工编辑、人工运营调整的方式,通过自有的维基管理相关系统软件进行知识脉络的校准和扩充等。

但是,随着增量信息的快速出现,人工编辑运营的效率、准确度已不能满足使用需求。

发明内容

为了至少解决现有技术存在的上述问题,本发明提供了一种维基数据中明星库的知识图谱扩充方法及系统,以实现自动对知识图谱的扩充,提高编辑运营的效率。

本发明提供的技术方案如下:

一方面,一种维基数据中明星库的知识图谱扩充方法,包括:

导入目标明星的基本信息,所述基本信息包括姓名和个人简介;

根据所述姓名和个人简介,捕捉所述目标明星的头像信息,通过面部识别技术确定所述头像信息对应的人脸特征信息;

筛选所述目标明星对应的影视作品,并根据所述人脸特征信息截取所述目标明星的明星剧照;

爬取关系网明星库,获取所述目标明星的个人特征信息和人物关系链;

将所述个人特征信息、所述人物关系链和所述明星剧照存储至明星库的知识图谱,以实现对知识图谱的扩充。

可选的,上述所述的维基数据中明星库的知识图谱扩充方法,还包括:

按照时间轴顺序生成所述影视作品和所述明星剧照的作品专辑;

将所述作品专辑与所述个人特征信息和人物关系链相融合,生成作品热点话题;

存储所述作品热点话题至明星库的知识图谱。

可选的,上述所述个人特征信息包括身高、体重、年龄、血型、籍贯、毕业院校;

所述人物关系链包括亲属关系和工作关系。

可选的,上述所述筛选所述目标明星对应的影视作品,包括:

根据所述姓名,筛选所述目标明星对应的影视作品,所述影作品包括主演作品、配角作品和导演作品;

对应的,根据所述人脸特征信息截取所述目标明星的明星剧照,包括:

按照主演作品、导演作品和配角作品的先后顺序来截取所述目标明星的明星剧照。

可选的,上述将所述明星剧照存储至明星库的知识图谱,包括:

识别所述明星对应的影视作品的评分热度值;

按照所述评分热度值对所述影视作品中的明星剧照存储至明星库的知识图谱。

另一方面,一种维基数据中明星库的知识图谱扩充系统,包括:

导入模块,用于导入目标明星的基本信息,所述基本信息包括姓名和个人简介;

确定模块,用于根据所述姓名和个人简介,捕捉所述目标明星的头像信息,通过面部识别技术确定所述头像信息对应的人脸特征信息;

截取模块,用于筛选所述目标明星对应的影视作品,并根据所述人脸特征信息截取所述目标明星的明星剧照;

获取模块,用于爬取关系网明星库,获取所述目标明星的个人特征信息和人物关系链;

扩充模块,用于将所述个人特征信息、所述人物关系链和所述明星剧照存储至明星库的知识图谱,以实现对知识图谱的扩充。

可选的,上述所述的维基数据中明星库的知识图谱扩充系统,还包括:

按照时间轴顺序生成所述影视作品和所述明星剧照的作品专辑;

将所述作品专辑与所述个人特征信息和人物关系链相融合,生成作品热点话题;

存储所述作品热点话题至明星库的知识图谱。

可选的,上述所述个人特征信息包括身高、体重、年龄、血型、籍贯、毕业院校;

所述人物关系链包括亲属关系和工作关系。

可选的,上述所述截取模块具体用于:

根据所述姓名,筛选所述目标明星对应的影视作品,所述影作品包括主演作品、配角作品和导演作品;

按照主演作品、导演作品和配角作品的先后顺序来截取所述目标明星的明星剧照。

可选的,上述所述扩充模块具体用于:

识别所述明星对应的影视作品的评分热度值;

按照所述评分热度值对所述影视作品中的明星剧照存储至明星库的知识图谱。

本发明的有益效果为:

本发明提供的一种维基数据中明星库的知识图谱扩充方法及系统,方法通过导入目标明星的基本信息,基本信息包括姓名和个人简介;根据姓名和个人简介,捕捉目标明星的头像信息,通过面部识别技术确定头像信息对应的人脸特征信息;筛选目标明星对应的影视作品,并根据人脸特征信息截取目标明星的明星剧照;爬取关系网明星库,获取目标明星的个人特征信息和人物关系链;将个人特征信息、人物关系链和明星剧照存储至明星库的知识图谱的方式,以实现对知识图谱的扩充,通过爬取数据的方式,来获取明星对应的个人特征信息和人物关系链,均为自动完成,无需人工的编辑,既能有效地保证准确度,还能提高编辑运营的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的维基数据中明星库的知识图谱扩充方法的一种流程图;

图2是本发明实施例提供的维基数据中明星库的知识图谱扩充系统的一种结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。

图1是本发明实施例提供的维基数据中明星库的知识图谱扩充方法的一种流程图。

如图1所示,本实施例的一种维基数据中明星库的知识图谱扩充方法,包括以下步骤:

S11、导入目标明星的基本信息,基本信息包括姓名和个人简介。

具体的,姓名包括了中文名、英文名、别名等等,个人简介指的是自己的一些过往履历,也就是在网络上可以轻松获取到的一些内容。导入方式可以是直接在线导入也可以其他的导入方式。

S12、根据姓名和个人简介,捕捉目标明星的头像信息,通过面部识别技术确定头像信息对应的人脸特征信息。

明星为了提高自己的知名度,都会有着自己对应的照片信息,通过识别姓名可以直接的查询到对应的明星照片。然后便可以通过图像识别技术捕捉到明星的头像信息,然后直接通过面部识别技术,确定头像信息对应的人脸特征信息,然后对其进行匹配保存,目的是将人脸特征信息与姓名信息相对应,便于直接通过视频片段或照片直接将其相关内容增加至对应的姓名中,使得可以更好地保证对明星进行区分等。

S13、筛选目标明星对应的影视作品,并根据人脸特征信息截取目标明星的明星剧照。

通过姓名筛选目标明星对应的影视作品,影视作品包括主演作品、配角作品和导演作品,对应的,根据人脸特征信息截取所述目标明星的明星剧照,包括:按照主演作品、导演作品和配角作品的先后顺序来截取所述目标明星的明星剧照。表明该影视作品与目标演员的相关度,相关度越高的越优先展示,同时优先生成相关度高的明星剧照,根据人脸信息截图明显剧照则可以自动增加目标明星的曝光度,直接通过明星剧照的展示,更能够增加其他人对目标明星的好奇以及好感度。当然,获取明星剧照的方式也可以包括其他的方式,例如通过识别台词中的声纹对目标明星的身份进行确认,进而获取明星剧照等。

S14、爬取关系网明星库,获取目标明星的个人特征信息和人物关系链。

可以通过爬取数据的方式,通过不同的渠道获取到目标明星的个人特征信息,包括身高、体重、年龄、血型、籍贯、毕业院校等信息,还可以获取到明星人物关系链包括亲属关系和工作关系等,使得以明星自身为原点的环绕数据库,可以更加全方位的了解到对应的明星。

在上述自动得到了明星剧照以后,还可以按照时间轴顺序生成影视作品和明星剧照的作品专辑;将作品专辑与个人特征信息和人物关系链相融合,生成作品热点话题,存储作品热点话题至明星库的知识图谱,从而实现对图谱的扩充,从而也能展现给其他人一种明星的时间轴,可以使得更好地了解到明星的历史数据和作品等。

S15、将个人特征信息、人物关系链和明星剧照存储至明星库的知识图谱,以实现对知识图谱的扩充。

可以选择直接将对应的个人特征信息、人物关系链和明星剧照存储至明星库的知识图谱。还可以识别明星对应的影视作品的评分热度值,按照评分热度值对影视作品中的明星剧照存储至明星库的知识图谱,使得当有人去检索明星时,在输入姓名之后,可以直接的展示出评分最高的影视作品和剧照等,可以增加明星的曝光度,同时也有助于提升人们对明星的好感度。

该发明可为内容运营方如广电、新媒体、电信运营商等提供自动化的明星维基数据知识图谱自动锻炼、自动扩充的服务,通过系统自动爬取、校准、扩充、锻炼,可替代人工编辑,保证知识图谱的时效性、准确性,同时提升了工作效率及知识图谱的可支持能力。

本实施例提供的一种维基数据中明星库的知识图谱扩充方法,通过导入目标明星的基本信息,基本信息包括姓名和个人简介;根据姓名和个人简介,捕捉目标明星的头像信息,通过面部识别技术确定头像信息对应的人脸特征信息;筛选目标明星对应的影视作品,并根据人脸特征信息截取目标明星的明星剧照;爬取关系网明星库,获取目标明星的个人特征信息和人物关系链;将个人特征信息、人物关系链和明星剧照存储至明星库的知识图谱的方式,以实现对知识图谱的扩充,通过爬取数据的方式,来获取明星对应的个人特征信息和人物关系链,均为自动完成,无需人工的编辑,既能有效地保证准确度,还能提高编辑运营的效率。

基于同一总的发明构思,本申请还保护一种维基数据中明星库的知识图谱扩充系统。

图2是本发明实施例提供的维基数据中明星库的知识图谱扩充系统的一种结构示意图。

如图2所示,本实施例的一种维基数据中明星库的知识图谱扩充系统,包括:

导入模块10,用于导入目标明星的基本信息,基本信息包括姓名和个人简介;

确定模块20,用于根据姓名和个人简介,捕捉目标明星的头像信息,通过面部识别技术确定头像信息对应的人脸特征信息;

截取模块30,用于筛选目标明星对应的影视作品,并根据人脸特征信息截取目标明星的明星剧照;

获取模块40,用于爬取关系网明星库,获取目标明星的个人特征信息和人物关系链;

扩充模块50,用于将个人特征信息、人物关系链和明星剧照存储至明星库的知识图谱,以实现对知识图谱的扩充。

本发明提供的一种维基数据中明星库的知识图谱扩充系统,通过导入目标明星的基本信息,基本信息包括姓名和个人简介;根据姓名和个人简介,捕捉目标明星的头像信息,通过面部识别技术确定头像信息对应的人脸特征信息;筛选目标明星对应的影视作品,并根据人脸特征信息截取目标明星的明星剧照;爬取关系网明星库,获取目标明星的个人特征信息和人物关系链;将个人特征信息、人物关系链和明星剧照存储至明星库的知识图谱的方式,以实现对知识图谱的扩充,通过爬取数据的方式,来获取明星对应的个人特征信息和人物关系链,均为自动完成,无需人工的编辑,既能有效地保证准确度,还能提高编辑运营的效率。

进一步地,本实施例的维基数据中明星库的知识图谱扩充系统,还包括热点模块,用于:

按照时间轴顺序生成影视作品和明星剧照的作品专辑;

将作品专辑与个人特征信息和人物关系链相融合,生成作品热点话题;

存储作品热点话题至明星库的知识图谱。

进一步地,本实施例的个人特征信息包括身高、体重、年龄、血型、籍贯、毕业院校;

人物关系链包括亲属关系和工作关系。

进一步地,本实施例的截取模块30具体用于:

根据姓名,筛选目标明星对应的影视作品,影作品包括主演作品、配角作品和导演作品;

按照主演作品、导演作品和配角作品的先后顺序来截取目标明星的明星剧照。

进一步地,本实施例的扩充模块50具体用于:

识别明星对应的影视作品的评分热度值;

按照评分热度值对影视作品中的明星剧照存储至明星库的知识图谱。

关于系统部分的实施例,在对应的方法实施例中已经做了详细的介绍说明,因此,在对应的系统部分不再进行具体的阐述,可以相互参照进行理解。

基于一个总的发明构思,本发明实施例还提供一种维基数据中明星库的知识图谱扩充设备。

一种维基数据中明星库的知识图谱扩充设备,包括:处理器,以及与所述处理器相连接的存储器;

存储器用于存储计算机程序,计算机程序至少用于执行上述任一实施例的维基数据中明星库的知识图谱扩充方法;

处理器用于调用并执行存储器中的所述计算机程序。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号