首页> 中国专利> 时序动作提名方法及装置

时序动作提名方法及装置

摘要

本申请公开了一种时序动作提名方法及装置。其中,该方法包括:获取待处理视频,将待处理视频划分为多个第一视频片段;基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集;基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,并基于动作边界集合确定多个候选动作提名;提取每个候选动作提名对应的候选提名特征,并基于候选提名特征确定每个候选动作提名的置信度;基于多个候选动作提名的置信度对多个候选动作提名进行非极大值抑制处理,得到目标动作提名。本申请解决了相关技术中对视频进行时序动作检测时获取动作提名的过程较为复杂,且召回率不高的技术问题。

著录项

  • 公开/公告号CN114973095A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 中国电信股份有限公司;

    申请/专利号CN202210648422.4

  • 发明设计人 黄金龙;张琳;贺嘉;何美斌;

    申请日2022-06-09

  • 分类号G06V20/40(2022.01);G06V40/20(2022.01);

  • 代理机构北京康信知识产权代理有限责任公司 11240;

  • 代理人张文华

  • 地址 100033 北京市西城区金融街31号

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06V20/40 专利申请号:2022106484224 申请日:20220609

    实质审查的生效

说明书

技术领域

本申请涉及时序动作检测技术领域,具体而言,涉及一种时序动作提名方法及装置。

背景技术

时序动作检测(Temporal Action Detection)的任务主要有两点:一是自动识别视频中动作类别;二是定位视频中该动作的时间长度。通常,时序动作检测算法可用于提取运动竞技视频中的高光时刻任务,也可以用于处理一些视频推荐的即时应用任务,或用于视频智能监控等领域。

早期的时序动作检测方法受二维图像检测发展范式启发,该典型范式的过程可以分成两个阶段:生成动作候选提名;对动作候选提名进行分类。由于在整个过程中需要先得到候选提名,基于此,如何得到较高质量的动作候选提名成了时序动作检测的难点所在。

大量的文章实验表明,高质量的提名应具备以下条件:提名时间重叠率高且能保证较高的召回率;在遵守上述条件的情况下,提名数较少,以便降低计算开销,提高生成速度。但相关的原子评估模型虽然能保证在提名任务中获得较好的性能,但整个训练阶段并没有考虑原子动作间的关系,导致基于原子评估模型的动作提名过程较为复杂,且无法获得较高的召回率。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种时序动作提名方法及装置,以至少解决相关技术中对视频进行时序动作检测时获取动作提名的过程较为复杂,且召回率不高的技术问题。

根据本申请实施例的一个方面,提供了一种时序动作提名方法,包括:获取待处理视频,将待处理视频划分为多个第一视频片段,其中,每个第一视频片段具有对应的标记时间点;基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集合,其中,原子动作评估模型为Transformer模型,原子动作包括:动作开始,动作进行中和动作结束;基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,并基于动作边界集合确定多个候选动作提名;提取每个候选动作提名对应的候选提名特征,并基于候选提名特征确定每个候选动作提名的置信度;基于多个候选动作提名的置信度对多个候选动作提名进行非极大值抑制处理,得到目标动作提名。

可选地,将待处理视频划分为多个第一视频片段,包括:通过等间隔采样法将待处理视频划分为多个第一视频片段,其中,任意相邻的两个第一视频片段具有重叠的视频帧图像。

可选地,基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集合,包括:将多个第一视频片段依次输入原子动作评估模型,得到每个第一视频片段对应的原子动作概率,原子动作概率包括:动作开始概率,动作进行中概率和动作结束概率;将多个第一视频片段对应的原子动作概率作为原子动作概率集合,原子动作概率集合包括:动作开始概率集合,动作进行中概率集合和动作结束概率集合。

可选地,原子动作评估模型的训练过程包括:获取训练样本视频及标注信息,标注信息用于标注训练样本视频中的动作实例;将训练样本视频划分为多个第二视频片段,并基于待训练的原子动作评估模型预测每个第二视频片段对应的原子动作概率;基于每个第二视频片段对应的原子动作概率及标注信息构建目标损失函数;基于目标损失函数,通过反向传播梯度下降的方式调整待训练的原子动作评估模型的模型参数。

可选地,基于每个第二视频片段对应的原子动作概率及标注信息构建目标损失函数,包括:基于每个第二视频片段对应的动作开始概率及标注信息构建第一损失函数;基于每个第二视频片段对应的动作进行中概率及标注信息构建第二损失函数;基于每个第二视频片段对应的动作结束概率及标注信息构建第三损失函数;基于每三个相邻的第二视频片段对应的动作开始概率、动作进行中概率及动作结束概率确定顺序概率,并基于所有顺序概率构建第四损失函数,其中,顺序概率用于表示每三个相邻的第二视频片段是否满足原子动作顺序;基于第一损失函数、第二损失函数、第三损失函数和第四损失函数构建目标损失函数。

可选地,动作边界集合包括动作开始边界集合和动作结束边界集合,基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,并基于动作边界集合确定多个候选动作提名,包括:确定动作开始概率集合中每个大于第一预设阈值的动作开始概率所对应的第一视频片段的标记时间点为动作开始边界,得到动作开始边界集合;确定动作结束概率集合中每个大于第一预设阈值的动作结束概率所对应的第一视频片段的标记时间点为动作结束边界,得到动作结束边界集合;每次从动作开始边界集合和动作结束边界集合中各取一个动作开始边界和一个动作结束边界,若动作开始边界和动作结束边界对应的时间长度满足待处理视频中动作实例的时间长度范围,基于动作开始边界和动作结束边界确定一个候选动作提名;遍历动作开始边界集合和动作结束边界集合,得到多个候选动作提名。

可选地,提取每个候选动作提名对应的候选提名特征,包括:对于每个候选动作提名,将候选动作提名划分为动作开始区域、动作进行中区域和动作结束区域;分别从动作开始区域采集第一数量的动作开始特征,从动作进行中区域采集第二数量的动作进行中特征,从动作结束区域采集第三数量的动作结束特征;将动作开始特征、动作进行中特征和动作结束特征拼接得到候选动作提名对应的候选提名特征。

可选地,基于候选提名特征确定每个候选动作提名的置信度,包括:将每个候选动作提名对应的候选提名特征输入双层感知机中,得到每个候选动作提名的置信度,其中,置信度用于表示候选动作提名与待处理视频中动作实例的重叠度。

可选地,基于多个候选动作提名的置信度对多个候选动作提名进行非极大值抑制处理,得到目标动作提名,包括:确定多个候选动作提名中置信度最高的第一候选动作提名以及剩余的第二候选动作提名,确定第一候选动作提名为目标动作提名,并比较第二候选动作提名与第一候选动作提名的重叠度,若重叠度小于第二预设阈值,则第二候选动作提名的置信度保持不变,若重叠度不小于第二预设阈值,则对第二候选动作提名的置信度进行分数高斯衰减;从多个候选动作提名中去除处理后的置信度低于第三预设阈值的第二候选动作提名以及第一候选动作提名,对剩余的候选动作提名重复执行上述处理流程,直至剩余最后一个候选动作提名,确定最后一个候选动作提名也为目标动作提名。

根据本申请实施例的另一方面,还提供了一种时序动作提名装置,包括:获取模块,用于获取待处理视频,将待处理视频划分为多个第一视频片段,其中,每个第一视频片段具有对应的标记时间点;概率评估模块,用于基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集合,其中,原子动作评估模型为Transformer模型,原子动作包括:动作开始,动作进行中和动作结束;边界确定模块,用于基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,并基于动作边界集合确定多个候选动作提名;特征提取模块,用于提取每个候选动作提名对应的候选提名特征,并基于候选提名特征确定每个候选动作提名的置信度;提名确定模块,用于基于多个候选动作提名的置信度对多个候选动作提名进行非极大值抑制处理,得到目标动作提名。

根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行上述的时序动作提名方法。

根据本申请实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的时序动作提名方法。

在本申请实施例中,首先通过获取待处理视频,将待处理视频划分为多个第一视频片段,并基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集合;基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合;基于动作边界集合确定多个候选动作提名,然后提取每个候选动作提名对应的候选提名特征,并基于候选提名特征确定每个候选动作提名的置信度,最后基于多个候选动作提名的置信度对多个候选动作提名进行非极大值抑制处理,得到目标动作提名,其中,原子动作评估模型为Transformer模型。实现了时序动作检测中时序动作定位更佳的技术效果,从而解决了相关技术中对视频进行时序动作检测时获取动作提名的过程较为复杂,且召回率不高的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的一种时序动作提名方法的流程示意图;

图2是一种可选的Transformer原子动作评估模型的示意图;

图3是一种可选的融合规则训练阶段反向传播流程的示意图;

图4是根据本申请实施例的一种时序动作提名装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本申请实施例,提供了一种时序动作提名方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种可选的时序动作提名方法的流程示意图,如图1所示,该方法至少包括步骤S101-S105,其中:

步骤S101,获取待处理视频,将待处理视频划分为多个第一视频片段,其中,每个第一视频片段具有对应的标记时间点。

为了更好对视频的动作提名进行分析,在输入原视频后可以对其进行分割操作,即将待处理视频有重叠的部分分割成多个小视频片段,本申请实施例中可以通过等间隔采样法将待处理视频划分为多个第一视频片段,其中,任意相邻的两个第一视频片段具有重叠的视频帧图像。

例如,当输入原视频后,可以将输入视频定义为

通过滑窗有重叠等间隔采样法对输入视频进行分解可以得到多个第一视频片段,得到的多个第一视频片段可以用序列

步骤S102,基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集合,其中,原子动作评估模型为Transformer模型,原子动作包括:动作开始,动作进行中和动作结束。

在本申请的一个可选实施例中,通过将多个第一视频片段依次输入原子动作评估模型,得到每个第一视频片段对应的原子动作概率,原子动作概率包括:动作开始概率,动作进行中概率和动作结束概率,将多个第一视频片段对应的原子动作概率作为原子动作概率集合,原子动作概率集合包括:动作开始概率集合S,动作进行中概率集合A和动作结束概率集合E。

原子动作评估模型可以选择Transformer模型,该模型由嵌入层、transformerEncoder(编码器)、MLP Head(分类器)等组成,图2示出了一种Transformer模型的结构示意图。

在本申请实施例中需要依据Transformer模型确定多个第一视频片段对应的原子动作概率,因此需要对Transformer模型进行训练,其训练过程可以分为以下几步:

步骤S1、获取训练样本视频及标注信息,标注信息用于标注训练样本视频中的动作实例;

例如,将获取得到的训练样本视频定义为

步骤S2、将训练样本视频划分为多个第二视频片段,并基于待训练的原子动作评估模型预测每个第二视频片段对应的原子动作概率;

具体地,将步骤S1中的训练样本视频划分为多个第二视频片段,其可以定义为序列

在第二视频片段所对应的原子动作均包含动作开始、动作进行中、动作结束,为了更好提取原子动作之间的逻辑关系,当多个第二视频片段通过待训练的Transformer模型时,得到多个第二视频片段所对应的原子动作概率矩阵,分别记为:动作开始概率矩阵,动作进行中概率矩阵和动作结束概率得分矩阵,将这三个概率得分矩阵对应位置的概率进行对比,取最大值作为第二视频片段的最大概率原子动作。其中,若概率最大的为动作开始概率,则该处概率得分矩阵对应值记作0;当概率值最大为原子动作进行中时刻,则该处概率得分矩阵对应值记作1;当概率值最大为原子动作结束时刻,则该处概率得分矩阵对应值记作2。依据上述得到的动作开始概率矩阵,动作进行中概率矩阵和动作结束概率得分矩阵所对应的值将用于构建原子动作关系限制函数,统计出所有不符合逻辑顺序的原子动作错误数。

步骤S3、基于每个第二视频片段对应的原子动作概率及标注信息构建目标损失函数;

可选地,可以通过以下方式构建目标损失函数:基于每个第二视频片段对应的动作开始概率及标注信息构建第一损失函数;基于每个第二视频片段对应的动作进行中概率及标注信息构建第二损失函数;基于每个第二视频片段对应的动作结束概率及标注信息构建第三损失函数;基于每三个相邻的第二视频片段对应的动作开始概率、动作进行中概率及动作结束概率确定顺序概率,并基于所有顺序概率构建第四损失函数,其中,顺序概率用于表示每三个相邻的第二视频片段是否满足原子动作顺序;基于第一损失函数、第二损失函数、第三损失函数和第四损失函数构建目标损失函数。

具体地,本申请实施例中Transformer原子动作评估模型的损失函数是由三项分类损失和一项惩罚项损失加权组成,其中三个分类损失分别是动作进行中类别损失函数

上述公式中,η表示权重系数,ε定义为动作惩罚函数的权重,在实际应用可以根据经验进行设定,在本实施例中可以设定η为2。

第一损失函数、第二损失函数和第三损失函数均采用的是交叉熵损失函数,可以用如下公式表示:

其中,p

第四损失函数可以定义为动作惩罚函数,可以用如下公式表示:

为了保证视频中原子动作具备一定的顺序逻辑,原子动作关系限制函数是为了统计不符合逻辑顺序的原子动作的错误数,具体可以通过以下公式来实现:

其中,上述公式的目的是来判定p

步骤S4、基于目标损失函数,通过反向传播梯度下降的方式调整待训练的原子动作评估模型的模型参数。

图3为训练阶段反向传播流程的示意图,在模型训练时计算出第一视频片段S

步骤S103,基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,并基于动作边界集合确定多个候选动作提名。

在本申请的一个可选实施例中,确定动作开始概率集合中每个大于第一预设阈值的动作开始概率所对应的第一视频片段的标记时间点为动作开始边界,得到动作开始边界集合,然后确定动作结束概率集合中每个大于第一预设阈值的动作结束概率所对应的第一视频片段的标记时间点为动作结束边界,得到动作结束边界集合,每次从动作开始边界集合和动作结束边界集合中各取一个动作开始边界和一个动作结束边界,若动作开始边界和动作结束边界对应的时间长度满足待处理视频中动作实例的时间长度范围,基于动作开始边界和动作结束边界确定一个候选动作提名,最后遍历动作开始边界集合和动作结束边界集合,得到多个候选动作提名。

具体地,从步骤S102得到的动作开始概率集合S和动作结束概率集合E,首先从动作开始概率集合S进行阈值剔除,动作开始概率集合S定义为

从动作开始边界集合B

步骤S104,提取每个候选动作提名对应的候选提名特征,并基于候选提名特征确定每个候选动作提名的置信度。

可选地,可以通过如下方式提取每个候选动作提名对应的候选提名特征:对于每个候选动作提名,将候选动作提名划分为动作开始区域、动作进行中区域和动作结束区域;分别从动作开始区域采集第一数量的动作开始特征,从动作进行中区域采集第二数量的动作进行中特征,从动作结束区域采集第三数量的动作结束特征;将动作开始特征、动作进行中特征和动作结束特征拼接得到候选动作提名对应的候选提名特征。

具体地,针对步骤S103得到的候选动作集合ψ

可选地,可以通过如下方式确定每个候选提名特征的置信度:将每个候选动作提名对应的候选提名特征

步骤S105,基于多个候选动作提名的置信度对多个候选动作提名进行非极大值抑制处理,得到目标动作提名。

由于在提名过程中会生成多个不同时间重叠的提名,因此可以通过采用非极大值抑制算法来抑制冗余提名。

在本申请的一个可选实施例中,确定多个候选动作提名中置信度最高的第一候选动作提名以及剩余的第二候选动作提名,确定第一候选动作提名为目标动作提名,并比较第二候选动作提名与第一候选动作提名的重叠度,若重叠度小于第二预设阈值,则第二候选动作提名的置信度保持不变,若重叠度不小于第二预设阈值,则对第二候选动作提名的置信度进行分数高斯衰减;从多个候选动作提名中去除处理后的置信度低于第三预设阈值的第二候选动作提名以及第一候选动作提名,对剩余的候选动作提名重复执行上述处理流程,直至剩余最后一个候选动作提名,确定最后一个候选动作提名也为目标动作提名。

具体地,通过采用Soft-NMS(Non-maximum suppression)算法,对多个候选动作提名进行处理,以此获得高质量的提名。Soft-NMS算法在进行非极大抑制时会考虑置信度得分和边框之间的重合程度,其主要是通过置信度分数衰减函数来抑制冗余结果,保证输出高质量结构。Soft-NMS算法的处理过程为:

首先对所有的候选动作提名按照置信度得分进行排序,确定置信度得分最高的第一候选动作提名

其中,

在通过非极大值抑制Soft-NMS算法之后,我们可以得到最终的提名

通过采用Transformer模型对输入视频片段进行分解,再将分解得到的多个第一视频片段输入至预训练的原子动作评估模型中,确定每个第一视频对应的原子动作概率以及对应的原子动作概率集合,然后依据原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,从动作边界集合中确定多个候选动作提名,组成候选动作提名集合,且对候选动作提名集合构建边界敏感提名特征并对边界敏感提名特征进行评估,得到该候选动作提名集合中每个候选动作提名且包含动作实例的最终置信度得分,从而选出高置信度候选提名,最后通过非极大值抑制算法,去除冗余提名得到高质量提名。上述步骤提高了端对端的视频分类效果,既简化时序动作检测时获取动作提名的过程,又可以保证输出高质量的提名。

实施例2

根据本申请实施例,还提供了一种用于实现上述时序动作提名方法的时序动作提名装置,如图4所示,该装置至少包括获取模块41,概率评估模块42、边界确定模块43、特征提取模块44和提名确定模块45,其中:

获取模块41,用于获取待处理视频,将待处理视频划分为多个第一视频片段,其中,每个第一视频片段具有对应的标记时间点。

为了更好对视频的动作提名进行分析,在获取模块得到原视频之后可以对其进行分割操作,即将待处理视频有重叠的部分分割成多个小视频片段,本申请实施例中可以通过等间隔采样法将待处理视频划分为多个第一视频片段,其中,任意相邻的两个第一视频片段具有重叠的视频帧图像。

概率评估模块42,用于基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集合,其中,原子动作评估模型为Transformer模型,原子动作包括:动作开始,动作进行中和动作结束。

可选地,将多个第一视频片段依次输入原子动作概率评估模块,得到每个第一视频片段对应的原子动作概率,原子动作概率包括:动作开始概率,动作进行中概率和动作结束概率;将多个第一视频片段对应的原子动作概率作为原子动作概率集合,原子动作概率集合包括:动作开始概率集合,动作进行中概率集合和动作结束概率集合。

在本申请实施例中需要依据原子动作概率评估模块确定多个第一视频片段对应的原子动作概率,因此需要对原子动作概率评估模块进行训练,其训练过程可以分为以下几步:获取训练样本视频及标注信息,标注信息用于标注训练样本视频中的动作实例;将训练样本视频划分为多个第二视频片段,并基于待训练的原子动作评估模型预测每个第二视频片段对应的原子动作概率;基于每个第二视频片段对应的原子动作概率及标注信息构建目标损失函数;基于目标损失函数,通过反向传播梯度下降的方式调整待训练的原子动作评估模型的模型参数。

其中,原子动作评估模块中的目标损失可以通过如下方式获取:基于每个第二视频片段对应的动作开始概率及标注信息构建第一损失函数;基于每个第二视频片段对应的动作进行中概率及标注信息构建第二损失函数;基于每个第二视频片段对应的动作结束概率及标注信息构建第三损失函数;基于每三个相邻的第二视频片段对应的动作开始概率、动作进行中概率及动作结束概率确定顺序概率,并基于所有顺序概率构建第四损失函数,其中,顺序概率用于表示每三个相邻的第二视频片段是否满足原子动作顺序;基于第一损失函数、第二损失函数、第三损失函数和第四损失函数构建目标损失函数。

边界确定模块43,用于基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,并基于动作边界集合确定多个候选动作提名,其中,动作边界集合包括动作开始边界集合和动作结束边界集合。

可选地,可以通过以下方式确定动作边界集合以及确定多个候选动作提名:确定动作开始概率集合中每个大于第一预设阈值的动作开始概率所对应的第一视频片段的标记时间点为动作开始边界,得到动作开始边界集合;确定动作结束概率集合中每个大于第一预设阈值的动作结束概率所对应的第一视频片段的标记时间点为动作结束边界,得到动作结束边界集合;每次从动作开始边界集合和动作结束边界集合中各取一个动作开始边界和一个动作结束边界,若动作开始边界和动作结束边界对应的时间长度满足待处理视频中动作实例的时间长度范围,基于动作开始边界和动作结束边界确定一个候选动作提名;遍历动作开始边界集合和动作结束边界集合,得到多个候选动作提名。

特征提取模块44,用于提取每个候选动作提名对应的候选提名特征,并基于候选提名特征确定每个候选动作提名的置信度。

可选地,可以通过以下方式提取每个候选动作对应的候选提名特征:对于每个候选动作提名,将候选动作提名划分为动作开始区域、动作进行中区域和动作结束区域;分别从动作开始区域采集第一数量的动作开始特征,从动作进行中区域采集第二数量的动作进行中特征,从动作结束区域采集第三数量的动作结束特征;将动作开始特征、动作进行中特征和动作结束特征拼接得到候选动作提名对应的候选提名特征。

可选地,可以通过以下确定每个候选动作提名的置信度:通过将每个候选动作提名对应的候选提名特征输入双层感知机中,得到每个候选动作提名的置信度,其中,置信度用于表示候选动作提名与待处理视频中动作实例的重叠度。

提名确定模块45,用于基于多个候选动作提名的置信度对多个候选动作提名进行非极大值抑制处理,得到目标动作提名。

在本申请的一个可选实施例中,确定多个候选动作提名中置信度最高的第一候选动作提名以及剩余的第二候选动作提名,确定第一候选动作提名为目标动作提名,并比较第二候选动作提名与第一候选动作提名的重叠度,若重叠度小于第二预设阈值,则第二候选动作提名的置信度保持不变,若重叠度不小于第二预设阈值,则对第二候选动作提名的置信度进行分数高斯衰减;从多个候选动作提名中去除处理后的置信度低于第三预设阈值的第二候选动作提名以及第一候选动作提名,对剩余的候选动作提名重复执行上述处理流程,直至剩余最后一个候选动作提名,确定最后一个候选动作提名也为目标动作提名。

需要说明的是,本申请实施例中的时序动作提名装置中的各模块与实施例1中的时序动作提名方法的各实施步骤一一对应,由于实施例1中已经进行了详尽的描述,本实施例中部分未体现的细节可以参考实施例1,在此不再过多赘述。

实施例3

根据本申请实施例,还提供了一种非易失性存储介质,该非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行实施例1中的时序动作提名方法。

可选地,在程序运行时控制非易失性存储介质所在设备执行实现以下步骤:

步骤S1、获取待处理视频,将待处理视频划分为多个第一视频片段,其中,每个第一视频片段具有对应的标记时间点;

步骤S2、基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集合,其中,原子动作评估模型为Transformer模型,原子动作包括:动作开始,动作进行中和动作结束;

步骤S3、基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,并基于动作边界集合确定多个候选动作提名;

步骤S4、提取每个候选动作提名对应的候选提名特征,并基于候选提名特征确定每个候选动作提名的置信度;

步骤S5、基于多个候选动作提名的置信度对多个候选动作提名进行非极大值抑制处理,得到目标动作提名。

根据本申请实施例,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行实施例1中的时序动作提名方法。

可选地,程序运行时执行实现以下步骤:

获取待处理视频,将待处理视频划分为多个第一视频片段,其中,每个第一视频片段具有对应的标记时间点;基于预训练的原子动作评估模型确定每个第一视频片段对应的原子动作概率,得到原子动作概率集合,其中,原子动作评估模型为Transformer模型,原子动作包括:动作开始,动作进行中和动作结束;基于原子动作概率集合从多个第一视频片段对应的标记时间点中确定动作边界集合,并基于动作边界集合确定多个候选动作提名;提取每个候选动作提名对应的候选提名特征,并基于候选提名特征确定每个候选动作提名的置信度;基于多个候选动作提名的置信度对多个候选动作提名进行非极大值抑制处理,得到目标动作提名。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号