公开/公告号CN113254704A
专利类型发明专利
公开/公告日2021-08-13
原文格式PDF
申请/专利权人 北京视连通科技有限公司;
申请/专利号CN202110707175.6
申请日2021-06-25
分类号G06F16/732(20190101);G06F16/74(20190101);G06F16/783(20190101);G06N3/04(20060101);G06N3/08(20060101);H04N21/84(20110101);
代理机构11797 北京专赢专利代理有限公司;
代理人李斌
地址 100020 北京市朝阳区将台路5号院5号楼一层1062室
入库时间 2023-06-19 12:13:22
技术领域
本发明属于图像数字数据处理技术领域,尤其涉及结合弹幕理解和视频内容理解的精彩片段提取方法及系统。
背景技术
随着网络的发展,网络上的视频量逐渐增加,对每个视频而言,其中都存在精彩片段,这些片段是最吸引人的,因此,就有了从视频中提取的精彩片段的需求。
在现有技术中,常见的视频精彩片段提取的方法是从头到尾将视频看一遍,利用人工进行视频片段的筛选,在看视频的过程中,有的利用倍速的方式进行观看,能够提高一定的效率。
虽然利用倍速的方式进行视频筛选能够提高效率,但是如果倍率过高,一般超过3倍速,人工就很难对视频内容进行理解,当然也无法针对视频内容进行精彩片段的甄别。
发明内容
本发明实施例的目的在于提供结合弹幕理解和视频内容理解的精彩片段提取方法,旨在解决背景技术中提出的问题。
本发明实施例是这样实现的,结合弹幕理解和视频内容理解的精彩片段提取方法,所述方法包括:
获取视频数据,并获取该视频数据对应的弹幕信息流,所述弹幕信息流包括时间轴数据和弹幕内容数据;
对视频数据进行内容识别,得到内容识别结果,所述内容识别结果包含至少一个视频片段;
根据时间轴数据节选出与视频片段对应的弹幕流片段;
对弹幕流片段进行分析,得到分析结果;
根据分析结果筛选视频片段,得到精彩片段。
优选的,所述获取该视频数据对应的弹幕信息流的步骤,具体包括:
从视频数据中随机截取至少一帧视频画面,得到视频检索源图像;
根据视频检索源图像在搜索引擎上进行搜索,得到视频搜索结果,所述视频搜索结果包括相应的视频链接;
根据视频搜索结果中的视频链接,生成访问路径表;
根据访问路径表逐个访问相应的视频链接,并获取对应的弹幕信息流。
优选的,所述对视频数据进行内容识别的步骤,具体包括:
建立训练数据库和ResNet模型,所述训练数据库中预存有训练图像集、检测图像集和人工描述信息;
利用训练图像集及其对应的人工描述信息对ResNet模型进行训练;
利用检测图像集和人工描述信息对ResNet模型的训练结果进行检测验证;
利用训练好的ResNet模型对视频数据进行内容识别。
优选的,所述对弹幕流片段进行分析,得到分析结果的步骤,具体包括:
按预设时间步长对弹幕流片段进行分段,得到碎片弹幕流;
识别碎片弹幕流中包含的文字信息以及弹幕数量,得到弹幕内容分析表;
根据弹幕内容分析表生成分析结果。
优选的,所述根据分析结果筛选视频片段,得到精彩片段的步骤,具体包括:
根据分析结果中弹幕的文字信息类型对各视频片段进行分类,得到分类片段;
根据分析结果中的弹幕数量对分类片段进行排序;
并按照排序选取预设数量的分类片段作为精彩片段。
优选的,所述弹幕数量根据每条弹幕的点赞数量按照预设比例放大。
优选的,所述碎片弹幕流至少包含一条弹幕。
本发明实施例的另一目的在于提供结合弹幕理解和视频内容理解的精彩片段提取系统,所述系统包括:
数据获取模块,用于获取视频数据,并获取该视频数据对应的弹幕信息流,所述弹幕信息流包括时间轴数据和弹幕内容数据;
内容识别模块,用于对视频数据进行内容识别,得到内容识别结果,所述内容识别结果包含至少一个视频片段;
弹幕分割模块,用于根据时间轴数据节选出与视频片段对应的弹幕流片段;
弹幕分析模块,用于对弹幕流片段进行分析,得到分析结果;
片段生成模块,用于根据分析结果筛选视频片段,得到精彩片段。
优选的,所述数据获取模块包括:
图像提取单元,用于从视频数据中随机截取至少一帧视频画面,得到视频检索源图像;
视频检索单元,用于根据视频检索源图像在搜索引擎上进行搜索,得到视频搜索结果,所述视频搜索结果包括相应的视频链接;
路径生成单元,用于根据视频搜索结果中的视频链接,生成访问路径表;
弹幕提取单元,用于根据访问路径表逐个访问相应的视频链接,并获取对应的弹幕信息流。
优选的,所述内容识别模块包括:
模型建立单元,用于建立训练数据库和ResNet模型,所述训练数据库中预存有训练图像集、检测图像集和人工描述信息;
模型训练单元,用于利用训练图像集及其对应的人工描述信息对ResNet模型进行训练;
模型验证单元,用于利用检测图像集和人工描述信息对ResNet模型的训练结果进行检测验证;
模型识别单元,用于利用训练好的ResNet模型对视频数据进行内容识别。
本发明实施例提供的结合弹幕理解和视频内容理解的精彩片段提取方法,通过对视频内容进行识别,然后结合弹幕的内容进行综合识别,不仅能够提高对视频精彩片段的识别准确度,还能够利用更高的倍速进行视频的筛选,即提高了视频处理的效率。
附图说明
图1为本发明实施例提供的结合弹幕理解和视频内容理解的精彩片段提取方法的流程图;
图2为本发明实施例提供的获取该视频数据对应的弹幕信息流的步骤的流程图;
图3为本发明实施例提供的对视频数据进行内容识别的步骤的流程图;
图4为本发明实施例提供的对弹幕流片段进行分析得到分析结果的步骤的流程图;
图5为本发明实施例提供的所述根据分析结果筛选视频片段得到精彩片段的步骤的流程图;
图6为本发明实施例提供的结合弹幕理解和视频内容理解的精彩片段提取系统的架构图;
图7为本发明实施例提供的数据获取模块的架构图;
图8为本发明实施例提供的内容识别模块的架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
在现有技术中,常见的视频精彩片段提取的方法是从头到尾将视频看一遍利用人工进行视频片段的筛选,在看视频的过程中,有的利用倍速的方式进行观看,能够提高一定的效率。虽然利用倍速的方式进行视频筛选能够提高效率,但是如果倍率过高,一般超过3倍速,人工就很难对视频内容进行理解,当然也无法针对视频内容进行精彩片段的甄别。
在本发明中,通过对视频内容进行识别,然后结合弹幕的内容进行综合识别,不仅能够提高对视频精彩片段的识别准确度,还能够利用更高的倍速进行视频的筛选,即提高了视频处理的效率。
图1为本发明实施例提供的结合弹幕理解和视频内容理解的精彩片段提取方法,其特征在于,所述方法包括:
S100,获取视频数据,并获取该视频数据对应的弹幕信息流,所述弹幕信息流包括时间轴数据和弹幕内容数据。
在本步骤中,获取视频数据,首先获取需要进行精彩片段提取的视频数据获取,获取方式可以是直接导入,也可以是通过名称从网络上获取,视频数据中包含的视频数量可以是一个,也可以是多个;在获取到视频数据之后,根据视频数据中的视频,从网络上寻找具有相同视频的网站,并从该网站上获取相应的弹幕信息流,这是因为,对于同一个视频,可能在不同的网站都有资源,因此,观众将会被分散至不同的网站,并在不同的网站留下弹幕,为了保证内容识别的精准性,需要从至少一个网站上获取该视频对应的弹幕,以方便对其进行分析。
S200,对视频数据进行内容识别,得到内容识别结果,所述内容识别结果包含至少一个视频片段。
在本步骤中,对视频数据进行内容识别,视频数据中的视频为连续的,在进行识别的时候,通过内容识别,将其中较为精彩的片段提取出来,即得到了多个视频片段,对视频进行内容识别具有较多的现有技术,此处不进行赘述,但是视频内容识别的精度较低,不足以完全支撑精彩片段的精确识别,因此需要利用弹幕进行进一步筛选。
S300,根据时间轴数据节选出与视频片段对应的弹幕流片段。
在本步骤中,根据时间轴节选弹幕流片段,这是因为对于一个视频而言,从中节选的片段之后,此片段之外的弹幕并不与当前片段内的画面相匹配,因此需要根据时间轴节选出与视频片段对应的弹幕流片段,以下举例说明,某视频长度为100分钟,在进行视频内容识别之后,选出了三个视频片段,三个视频片段对应的时间轴为10-15分钟,18-24分钟以及35-40分钟,此时根据上述三个时间段,对弹幕进行节选,分别节选出处于10-15分钟,18-24分钟以及35-40分钟时间段的弹幕,当然也可以根据需要在节选段前后预留几秒钟的余量,给观众一定的缓冲时间。
S400,对弹幕流片段进行分析,得到分析结果。
在本步骤中,对弹幕流片段进行分析,对于视频而言,其实质是按照一定顺序进行图片的播放,因此在时间轴线上,可以按照精度需求将时间轴划分为多个段落,可以以10ms为一个段落,也可以以1000ms为一个段落,因此弹幕将会分别落入各个段落内,由于段落内的视频画面帧较少,其内容变化并不大,此时的弹幕可以作为此时画面的对应评价,在进行分段时,需要保证每个段落至少存在一个弹幕。
S500,根据分析结果筛选视频片段,得到精彩片段。
在本步骤中,根据分析结果筛选视频片段,由于每个段落内均有弹幕,因此可以根据弹幕的内容对视频片段的内容进行辅助判断,以下举例说明,如某个视频中某片段内容较为热血,此时弹幕数量将会激增,并且出现了大量的“燃”等弹幕,则可以认为当前片段热度较高,受观众喜爱,如果在某个片段中,弹幕的数量极少,并且弹幕内容为负面评价,则说明当前片段不受观众喜爱,以此为依据对视频片段进行二次筛选,最终得到精彩片段。
如图2所示,作为本发明一个优选的实施例,所述获取该视频数据对应的弹幕信息流的步骤,具体包括:
S101,从视频数据中随机截取至少一帧视频画面,得到视频检索源图像。
在本步骤中,从视频数据中随机截取至少一帧视频画面,由于在网络上存在很多相似的图片,并且这些图片将会附带有链接信息;当然,也可以截取多帧视频画面作为视频检索源图像,视频检索源图像应当清洗,画面内容应当出现人物的面部信息。
S102,根据视频检索源图像在搜索引擎上进行搜索,得到视频搜索结果,所述视频搜索结果包括相应的视频链接。
在本步骤中,以视频检索源图像在搜索引擎上进行搜索,对于有的搜索引擎而言,其可以利用图像搜索对应的视频,也可以利用图像在常见的搜索引擎上进行搜索,搜索结果中,将会出现多个相似度极高的图片,该图片为网站中的缩略图,因此通过该图片可以直接获取网站的网址,该网址中即存在相应的视频链接。
S103,根据视频搜索结果中的视频链接,生成访问路径表。
在本步骤中,根据视频搜索结果中的视频链接,生成访问路径表,由于在检索之后将会出现多个检索结果,因此也就存在多个视频链接,此时可以通过设置图片相似度进行视频链接的过滤,比如,设置检索结果中图片与视频检索源图像之间的相似度超过95%,才能视为两者对应的视频片段相同,相似度可以通过进行图片对比的方式进行,即进行像素对比,此为现有技术,不再赘述。
S104,根据访问路径表逐个访问相应的视频链接,并获取对应的弹幕信息流。
在本步骤中,根据访问路径表逐个访问相应的视频链接,此时可以采用高倍速率进行视频的播放,从而按照时间轴的顺序记录弹幕的出现顺序,即得到弹幕信息流。
如图3所示,作为本发明一个优选的实施例,所述对视频数据进行内容识别的步骤,具体包括:
S201,建立训练数据库和ResNet模型,所述训练数据库中预存有训练图像集、检测图像集和人工描述信息。
在本步骤中,建立训练数据库和ResNet模型,ResNet模型是一种深度学习模型,此时需要导入大量的数据对其进行训练,其中,也需要设置一定的数据对其进行训练结果的检验,在检验合格之后方能实际应用。
S202,利用训练图像集及其对应的人工描述信息对ResNet模型进行训练。
在本步骤中,利用训练图像集及其对应的人工描述信息对ResNet模型进行训练,首先将训练图像集导入到ResNet模型,然后将人工描述信息导入到ResNet模型,使得ResNet模型在训练图像集与人工描述信息之间建立联系。
S203,利用检测图像集和人工描述信息对ResNet模型的训练结果进行检测验证。
在本步骤中,在训练阶段之后,需要对利用检测图像集和人工描述信息对ResNet模型的训练结果进行检测验证,将检测图像集导入到ResNet模型当中,此时ResNet模型将会输出结果,根据其输出的结果与人工描述信息的对应关系,判断当前识别的精度,如果达标则可以实际使用,反之则继续训练。
S204,利用训练好的ResNet模型对视频数据进行内容识别。
在本步骤中,利用训练好的ResNet模型对视频数据进行内容识别,此时的ResNet模型已经经过训练和检验,因此直接将视频输入,便可以对视频内容进行识别。
如图4所示,作为本发明一个优选的实施例,所述对弹幕流片段进行分析,得到分析结果的步骤,具体包括:
S401,按预设时间步长对弹幕流片段进行分段,得到碎片弹幕流。
在本步骤中,按预设时间步长对弹幕流片段进行分段,对于弹幕而言,其是按照视频播放的顺序生成的,对于较为精彩的片段,其弹幕量与弹幕内容的含义都不同,但是由于视频内剧情可能变化较快,因此如果直接去较长的间隔,将会导致在同一时间内,存在多个精彩片段,不利于精彩片段的拆分,因此,预设时间步长内,应该至少包含一条弹幕,并且不宜过长。
S402,识别碎片弹幕流中包含的文字信息以及弹幕数量,得到弹幕内容分析表。
S403,根据弹幕内容分析表生成分析结果。
在本步骤中,识别碎片弹幕流中包含的文字信息以及弹幕数量,即统计每一个碎片弹幕流当中弹幕的数量,弹幕的数量越多,说明此片段更加收到观众的关注,当然,可以将对弹幕的点赞情况纳入考虑,可以根据对弹幕的点赞情况对弹幕的数量进行放大,比如,某一条弹幕的点赞数量为10,则该条弹幕的数量可以放大10倍,即视为11条,然后根据文字信息进行分析,弹幕的文字内容包含文字和表情,通过对表情和文字的分析,可以直接判断当前观众对于当前视频片段的直观感受。
如图5所示,作为本发明一个优选的实施例,所述根据分析结果筛选视频片段,得到精彩片段的步骤,具体包括:
S501,根据分析结果中弹幕的文字信息类型对各视频片段进行分类,得到分类片段。
在本步骤中,对视频片段进行分类,对于视频片段而言,其内容可能是热血,也可能是催泪,这样的片段都能够引发观众发弹幕的热情,因此可以根据弹幕的内容对视频片段分类,最终可以得到不同类型的精彩片段。
S502,根据分析结果中的弹幕数量对分类片段进行排序。
S503,并按照排序选取预设数量的分类片段作为精彩片段。
在本步骤中,对于分类片段而言,弹幕数量越多,说明该片段越能够吸引观众,因此根据弹幕数量进行排序,排名越靠前的,其吸引力更大,因此从中挑选吸引力最大的精彩片段即可,当然,也可以根据需要将弹幕融合到精彩片段当中,方便观看。
如图6所示,为本发明提供的结合弹幕理解和视频内容理解的精彩片段提取系统,所述系统包括:
数据获取模块100,用于获取视频数据,并获取该视频数据对应的弹幕信息流,所述弹幕信息流包括时间轴数据和弹幕内容数据。
在本系统中,数据获取模块100获取视频数据,首先获取需要进行精彩片段提取的视频数据获取,获取方式可以是直接导入,也可以是通过名称从网络上获取,视频数据中包含的视频数量可以是一个,也可以是多个;在获取到视频数据之后,根据视频数据中的视频,从网络上寻找具有相同视频的网站,并从该网站上获取相应的弹幕信息流。
内容识别模块200,用于对视频数据进行内容识别,得到内容识别结果,所述内容识别结果包含至少一个视频片段。
在本系统中,内容识别模块200对视频数据进行内容识别,视频数据中的视频为连续的,在进行识别的时候,通过内容识别,将其中较为精彩的片段提取出来,即得到了多个视频片段,但是视频内容识别的精度较低,不足以完全支撑精彩片段的精确识别,因此需要利用弹幕进行进一步筛选。
弹幕分割模块300,用于根据时间轴数据节选出与视频片段对应的弹幕流片段。
在本系统中,弹幕分割模块300根据时间轴节选弹幕流片段,这是因为对于一个视频而言,从中节选的片段之后,此片段至外的弹幕并不与当前片段内的画面相匹配,因此需要根据时间轴节选出与视频片段对应的弹幕流片段。
弹幕分析模块400,用于对弹幕流片段进行分析,得到分析结果。
在本系统中,弹幕分析模块400对弹幕流片段进行分析,对于视频而言,其实质是按照一定顺序进行图片的播放,因此在时间轴线上,可以按照精度需求将时间轴划分为多个段落。
片段生成模块500,用于根据分析结果筛选视频片段,得到精彩片段。
在本系统中,片段生成模块500根据分析结果筛选视频片段,由于每个段落内均有弹幕,因此可以根据弹幕的内容对视频片段的内容进行辅助判断。
如图7所示,为本发明提供的数据获取模块,包括:
图像提取单元101,用于从视频数据中随机截取至少一帧视频画面,得到视频检索源图像。
在本模块中,图像提取单元101从视频数据中随机截取至少一帧视频画面,由于在网络上存在很多相似的图片,并且这些图片将会附带有链接信息;当然,也可以截取多帧视频画面作为视频检索源图像,视频检索源图像应当清洗,画面内容应当出现人物的面部信息。
视频检索单元102,用于根据视频检索源图像在搜索引擎上进行搜索,得到视频搜索结果,所述视频搜索结果包括相应的视频链接。
在本模块中,视频检索单元102以视频检索源图像在搜索引擎上进行搜索,对于有的搜索引擎而言,其可以利用图像搜索对应的视频,也可以利用图像在常见的搜索引擎上进行搜索。
路径生成单元103,用于根据视频搜索结果中的视频链接,生成访问路径表。
在本模块中,路径生成单元103根据视频搜索结果中的视频链接,生成访问路径表,由于在检索之后将会出现多个检索结果,因此也就存在多个视频链接,此时可以通过设置图片相似度进行视频链接的过滤。
弹幕提取单元104,用于根据访问路径表逐个访问相应的视频链接,并获取对应的弹幕信息流。
在本模块中,弹幕提取单元104根据访问路径表逐个访问相应的视频链接,此时可以采用高倍速率进行视频的播放,从而按照时间轴的顺序记录弹幕的出现顺序,即得到弹幕信息流。
如图8所示,为本发明提供的内容识别模块,包括:
模型建立单元201,用于建立训练数据库和ResNet模型,所述训练数据库中预存有训练图像集、检测图像集和人工描述信息。
在本模块中,模型建立单元201建立训练数据库和ResNet模型,ResNet模型是一种深度学习模型,此时需要导入大量的数据对其进行训练。
模型训练单元202,用于利用训练图像集及其对应的人工描述信息对ResNet模型进行训练。
在本模块中,模型训练单元202利用训练图像集及其对应的人工描述信息对ResNet模型进行训练,首先将训练图像集导入到ResNet模型,然后将人工描述信息导入到ResNet模型,使得ResNet模型在训练图像集与人工描述信息之间建立联系。
模型验证单元203,用于利用检测图像集和人工描述信息对ResNet模型的训练结果进行检测验证。
在本模块中,模型验证单元203在训练阶段之后,需要对利用检测图像集和人工描述信息对ResNet模型的训练结果进行检测验证,将检测图像集导入到ResNet模型当中,此时ResNet模型将会输出结果,根据其输出的结果与人工描述信息的对应关系,判断当前识别的精度。
模型识别单元204,用于利用训练好的ResNet模型对视频数据进行内容识别。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
机译: 使用户能够相对于首选语言理解可理解的视频或音频内容的方法和系统
机译: 使用户能够相对于首选语言理解可理解的视频或音频内容的方法和系统
机译: 用于基于视频内容捕获的传送位置确定视频精彩片段的系统和方法