首页> 中国专利> 使用潜在子标记来学习用于视频注释的标记

使用潜在子标记来学习用于视频注释的标记

摘要

标记学习模块训练与从多个视频的文本元数据导出的存储的标记集合相关联的视频分类器,该训练基于从训练视频提取的特征。每个标记分类器包括涉及标记内的潜在子标记的多个子标记分类器。可以通过对针对标记的与视频有关的共同观看信息聚类来初始化潜在子标记。在初始化以标识子标记组之后,可以对从每个子标记组提取的特征训练子标记分类器。可以通过使用子标记分类器标识训练集合的潜在子标记、然后通过用被指定为与该子标记最接近地相符的视频来训练每个子标记分类器迭代地改进子标记分类器来实现子标记分类器的迭代训练。

著录项

  • 公开/公告号CN103299324A

    专利类型发明专利

  • 公开/公告日2013-09-11

    原文格式PDF

  • 申请/专利权人 谷歌公司;

    申请/专利号CN201180062621.7

  • 发明设计人 G·托德埃里西;杨玮龙;

    申请日2011-11-10

  • 分类号G06K17/00(20060101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人王茂华;陈颖

  • 地址 美国加利福尼亚州

  • 入库时间 2024-02-19 21:31:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-03-06

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06K17/00 变更前: 变更后: 申请日:20111110

    专利权人的姓名或者名称、地址的变更

  • 2016-02-17

    授权

    授权

  • 2013-10-16

    实质审查的生效 IPC(主分类):G06K17/00 申请日:20111110

    实质审查的生效

  • 2013-09-11

    公开

    公开

说明书

技术领域

本公开内容总体涉及标记标识领域,并且更具体地涉及用对象 代表的标记来自动标识对象的方法。

背景技术

数字视频提供者通常用一个或者多个关键词或者“标记”、比如 “自行车”或者“变压器”来对它们的视频加标签,该关键词或者“标记” 描述视频或者其一部分的内容。多数视频托管系统依赖于用户标记 他们的视频,但是这样的用户提供的标记可能很不准确。尽管有用 于为视频自动确定标记的方法,但是现有的自动标记加标签方式依 赖于视频具有语义无歧义的视频标记。也就是说,常规方法通常要 求仅用如下视频训练分类器,这些视频的标记指代具有相似提取特 征的单个视频类型。然而用户贡献的视频的大型全集可以代表在单 个标记之中的很大和不同数目的相异视频类型。例如用于“自行车” 的标记可以应用于涉及山地自行车、口袋自行车、滚落自行车的视 频以及其它语义上不同视频类型。基于用于“自行车”标记的单个分 类器的典型机器学习将经常无法标识与在单个标记之中的相异视频 类型的关联的不同特征。

发明内容

标记学习模块训练与从多个视频的文本元数据导出的存储的 标记集合相关联的视频分类器,该训练基于从训练视频提取的特征。 每个标记分类器可以包括多个子标记分类器。为与用于每个潜在子 标记分类器的训练集合相关联的视频训练该子标记分类器。按照从 视频提取的特征用潜在子标记自动地标识视频,并且视频无需代表 在标记内的语义上有意义划分。因此,标记学习模块可以基于不仅 与标记本身相关联而且与其潜在的子标记相关联的特征来创建更准 确和自动地对视频加标签的标记分类器。

在一个实施例中,通过标识与视频集合相关的共同观看信息将 用于给定的标记的视频初始训练集合分组成子标记类别。共同观看 信息被用来确定视频初始训练集合的哪些视频与初始训练集合中的 其它视频一起观看。共同观看信息广义地包括数据,该数据一般指 示用户往往将两个不同视频一起观看、比如用户在查看会话内或者 在某个时间段内观看来自彼此的视频。下文进一步定义共同观看信 息。

在确定一起查看的视频之后,可以对子标记初始训练集合聚类 以确定潜在子标记初始分组。然后对每个子标记聚类中的视频训练 初始潜在子标记分类器。以这一方式,每个子标记分类器学习与潜 在子标记相关联的视频相关联的特征。

在一个实施例中,对训练集合迭代地训练子标记分类器。首先, 子标记分类器可以被用来标识训练集合中的每个视频为属于特定子 标记。接着,可以对被标识为属于该子标记的视频重新训练每个子 标记分类器。在一个实施例中,在重新训练之前,引导(bootstrap) 子标记训练集合中的视频以排除接收根据子标记分类器的低置信度 分数的肯定训练视频集合和也接收根据子标记分类器的低置信度分 数的否定训练视频集合。

在说明书中描述的特征和优点并非囊括,并且具体而言,许多 附加特征和优点将鉴于附图、说明书和权利要求而为本领域普通技 术人员所清楚。另外应当注意,在说明书中使用的语言已经主要出 于可读性和指导的目的而加以选择并且可以未被选择用于界定或者 限定发明主题内容。

附图说明

图1是根据一个实施例的其中可以运用标记学习的视频托管 服务的框图。

图2图示根据一个实施例的在视频托管服务中使用的标记学 习模块的各种部件。

图3呈现根据一个实施例的按子标记的视频分类和迭代子标 记学习的概况。

图4是描绘根据一个实施例的描绘标记的迭代学习和子标记 分类器的详细数据流程图。

图5是代表根据一个实施例的利用子标记分类器的标记学习 模块的应用的数据流程图。

附图仅出于说明性的目的而描绘本公开内容的实施例。本领域 技术人员将从下文描述中容易认识到可以运用这里所示结构和方法 的备选实施例而未脱离这里描述的公开内容的原理。

具体实施方式

系统架构

图1是根据一个实施例的其中可以运用标记学习的视频托管 服务100的框图,该标记学习利用潜在子标记。视频托管服务100 代表系统、比如YOUTUBE或者GOOGLE VIDEO的系统,该系统 存储并且向客户端、比如客户端设备135提供视频。视频托管站点 100经由网络140与多个内容提供者130和客户端设备135通信以支 持在用户之间共享视频内容。注意在图1中,为了清楚,仅示出内 容提供者130和客户端135的一个实例,但是每一个都可以存在任 何数目。视频托管服务100还包括前端接口102、视频供应(serving) 模块104、视频搜索模块106、上传服务器108、用户数据库114和 视频贮存库116。未示出其它常规特征、比如防火墙、负载平衡器、 认证服务器、应用服务器、故障保护服务器、站点管理工具等以便 更清楚地图示视频托管站点100的特征。适当站点100的一个实例 是在www.youtube.com找到的YOUTUBE网站。其它视频托管站点可 以适于根据这里公开的教导来操作。可以实施视频托管网站100的 所示部件为单个或者多个软件或者硬件部件。一般而言,在一个实 施例中描述为由一个部件执行的功能也可以在其它实施例中由其它 部件执行或者由部件组合执行。此外,在一个实施例中描述为由视 屏托管网站100执行的功能在其它实施例中如果适合则也可以由一 个或多个客户端135执行。

客户端135是计算设备,这些计算设备执行客户端软件、例如 web浏览器或者内置客户端应用以经由网络140连接到视频托管服 务100的前端接口102并且以显示视频。客户端135可以例如是个 人计算机、个人数字助理、蜂窝、移动或者智能电话或者膝上型计 算机。

网络140通常是因特网、但是可以是任何网络,该网络包括但 不限于LAN、MAN、WAN、移动有线或者无线网络、专有网络或 者虚拟专有网络。客户端设备135可以包括个人计算机或者其它具 有网络功能的设备、比如数字个人助理(PDA)、移动电话、寻呼 机、电视“机顶盒”等。

在概念上,内容提供者130向视频托管服务100和查看视频内 容的客户端135提供该内容。在实践中,内容提供者也可以是内容 查看者。此外,内容提供者130可以是操作视频托管站点100的相 同实体。

内容提供者130操作客户端设备以执行各种内容提供者功能。 内容提供者功能可以例如包括向视频托管网站100上传视频文件、 编辑视频托管网站100存储的视频文件或者编辑与视频文件相关联 的内容提供者偏好。

客户端135在设备上操作以查看视频托管站点100存储的视频 内容。客户端135也可以用来配置与视频内容有关的查看者偏好。 在一些实施例中,客户端135包括嵌入的视频播放器、如例如来自 奥多比系统公司的FLASH播放器或者适合于在视频托管网站100中 使用的视频文件格式的任何其它播放器。注意如这里所用术语“客户 端”和“内容提供者”可以如从其中使用术语的上下文清楚的那样指代 提供客户端和内容提供功能的软件、该软件在其上执行的硬件或者 操作该软件和/或硬件的实体。

视频托管服务100的上传服务器108从客户端135接收视频内 容。在视频贮存库116中存储接收的内容。响应于来自客户端135 的请求,视频供应模块104向客户端135提供来自视频贮存库116 的视频数据。客户端135也使用视频搜索模块106、比如通过录入包 含感兴趣的关键词的文本查询来搜寻视频贮存库116中存储的感兴 趣的视频。前端接口102提供在客户端135与视频托管站点100的 其它部件之间的接口。

在一些实施例中,用户数据库114负责维护视频托管服务器 100的所有注册用户的记录。注册的用户包括内容提供者130和/或 仅仅查看视频托管网站100上的视频的用户。每个内容提供者130 和/或个体用户向视频托管服务器100注册包括登录名、电子邮件(电 邮)地址和口令的账户信息,并且具有唯一用户ID。在用户数据库 114中存储这一账户信息。

视频贮存库116包含用户提交的视频117的集合。视频贮存库 116可以包含任何数目的视频117、比如数万或者数亿万。视频117 中的每个视频具有它与其它视频中的每个视频的唯一视频标识符、 比如文本名称(例如串“a91qrx8”)、整数或者唯一地命名视频的任 何其它方式。视频117可以被封装于各种容器、比如AVI、MP4或 者MOV中并且可以使用视频编码解码器、比如MPEG-2、MPEG-4、 WebM、WMV、H.263等来编码。视频117除了它们的视听内容之 外还具有关联元数据117A、例如文本元数据、比如标题、描述和/ 或标记。

视频托管服务100还包括训练用于标记集合的准确视频分类 器的标记学习模块119。训练的分类器然后可以应用于给定的视频以 自动确定标记中的哪个标记可以适用于视频。例如用户可以提交新 视频,并且标记学习模块119可以自动推荐将被应用于视频的标记 或者标记组。标记学习模块也可以用来在采用用户录入的标记作为 视频的元数据117A的部分之前验证标记为与视频关联。现在更具体 描述标记学习模块119。

标记学习模块

图2图示根据一个实施例的标记学习模块119的各种部件。标 记学习模块119包括用于发现标记、导出视频特征、训练用于各种 标记的分类器等的各种模块。在一个实施例中,标记学习模块119 并入于现有视频托管服务100、比如YOUTUBE中。

标记学习模块119有权访问视频托管服务100的视频贮存库 116。标记学习模块119还包括特征贮存库205,该特征贮存库存储 用于视频贮存库116的视频的关联特征集合,这些特征关于一个或 者多个视觉或者音频信息类型、比如颜色、移动和音频信息来表征 视频。视频117的特征与视频本身的原始内容相异并且由特征提取 模块230从原始内容导出。在一个实施例中,将特征存储为值矢量, 为了一致,该矢量针对视频117中的每个视频具有相同维度。

标记学习模块119还包括存储各种标记211的标记贮存库210, 可以针对这些标记学习分类器。一般而言,标记是描述与视频117 关联的某一实体、活动、事件、地点、对象或者特性的术语或者短 语。通常使用标记作为与视频关联的关键词以帮助组织、浏览和搜 寻视频汇集内的视频。标记可以作为元数据117A的部分与视频相关 联并且通常可以与视频关联的描述、评论、注释和其它数据一起存 储。每个标记具有标签211A和其它描述符二者,该标签是用于标记 的唯一名称、比如“自行车”、“船”、“卡”、“狗”、“爆炸”、“花”、“直 升机”。标记211A可以与各种统计量、比如出现频率、标记与其它 标记的共现频率(即标记与第二标记一起出现的频率)等关联。

由于用户未必非常准确地对视频加标签,所以可以向给定的标 记应用具有可变特征类型的多种视频。可以基于共同观看或者其它 度量来将用于标记的这些各种视频划分成多个不同子集。每个不同 子集或者组可以视为与标记的不同潜在子标记关联。给定的子标记 因此与从它的相应视频子集提取的特定特征关联、但是可以或者可 以不对应于语义有意义标签或者具有与标记的特定分类关系。因此, 尽管标记可以包括特定标签、比如“自行车”,但是其子标记可以包 括标签、比如“山地自行车”或者“摩托车越野赛”以及子标记,这些子 标记没有特定名称或者意义、但是简单地代表标识符(例如子标记1、 子标记2等)或者用于从“自行车”标记的具有强共同观看或者其它 相互关系的特定视频子集提取的特征集合的代理。尽管可以或者可 以未从子标记导出语义意义,但是与子标记关联的视频意味着视频 与用于该子标记的标记相关联。

标记学习模块119因此具有多个分类器214,每个分类器与标 记211之一关联。用于标记211的分类器214是输出分数的函数, 该分数代表与视频关联的特征指示特定标记211与视频相关的程度、 因此用作指示是否可以准确应用标记211以标签视频的度量。用于 标记211的分类器214基于与标记的子标记有关的多个子标记分类 器215。在一个实施例中,分类器214被应用于的特征包括(下文关 于特征提取模块230描述的)视频内容特征和从视频共同观看数据 导出的共同观看特征。在实践中,共同观看特征可以在对当前在视 频贮存库中的视频分类时或者在确定子标记成员资格时最有用、但 是在标识用于新视频的标记时不太用,因为供给视频贮存库的新视 频将没有共同观看数据或者具有极少共同观看数据。

在一个实施例中,一些标记分类器114利用标记分类器模型中 的子标记分类器115,而一些标记分类器114并不使用子标记分类器 115。换而言之,子标记分类器115可以在标识标记时存在性能提高 时选择性地用于标记分类器。反言之,在相对于单个标记分类器存 在很少或者无标记分类改进时不使用子标记分类器215。因此基于每 标记来实施子标记分类器215。

分类器214可以在不同实施例中返回不同类型的分数。例如在 一个实施例中,每个分类器214输出实数,该实数指示在视频与分 类器(并且因此与对应标记211代表的概念或者话题)之间的相关 度匹配的强度。在另一实施例中,分类器214输出布尔值、例如整 数1指示视频与标记相关,而不同的值、例如0指示标记不相关。

分配器学习模块119也包括标识可以用来标签视频的潜在标 记的标记发现模块220。在一个实施例中,标记发现模块220从视频 贮存库116中的各种视频117的视频元数据117A或者从元数据的某 一子集、比如标题和用户建议的标记或者描述中提取标记。例如标 记发现模块220可以确定应用于贮存库中的视频的所有个体(一元 模型)或者配对(二元模型)标记的集合、然后标识N(例如10,000) 个最频繁单克和双克作为用于贮存库210的潜在标记。标记发现模 块220从潜在标记列表去除不可能传达实质意义的预定“无用词” (stopword)的集合、比如冠词和介词、比如“一个”、“该”和“的”。

在一个备选实施例中,标记发现模块220从另一来源、比如预 先存在的比如WordNet提供的术语和短语集合获得潜在标记集合而 不是从视频元数据117A提取。

针对每个潜在标记,标记发现模块220在一个实施例中维护统 计量、比如标记在视频元数据内的出现频率。标记发现模块220清 除标识的潜在标记,这些潜在标记针对某一预定频率阈值、比如 100,000个视频这一最大阈值和1,500个视频这一最小阈值在视频元 数据117A中太频繁或者不频繁出现。例如标记“视频”或者“有趣”是 通用的、因此可能针对很不同的视频种类出现极大次数。因此,它 们将不可能代表单个相异视频类型、因此将被清除。类似地,出现 很小次数的标记不会提供足够数据以允许学习算法训练用于标记的 有用分类器并且将类似地被清除。

特征提取

视频托管服务100还包括特征提取模块230,该特征提取模块 出于机器学习的目的而导出用来简洁表征视频的特征。在一个实施 例中,特征提取模块230从视频117的内容导出多个不同视听特征 205,这些特征包括涉及帧特征、运动特征和听觉特征的特征。在其 它实施例中,可以提取其它特征或者其它特征类型以分析视频全集。 具体而言,每个特征类型可以使用词袋表示。另外,可以通过矢量 量化特征描述符来表示每个特征为直方图,并且可以进一步归一化 每个特征从而二元值之和为1。在一个实施例中,每个视频的特征矢 量是用于每个特征的直方图的级联。从视频提取的广泛多种特征可 以根据设计者的偏好和每个特征集合的相对于标记区分的鉴别能力 在多种实施例中有用。

在一个实施例中,用于视频的帧特征包括定向梯度直方图 (HOG)、色直方图、纹理和脸部计数器。为了计算HOG特征,在 每个帧像素位置,在10x10包围窗中提取1800维特征描述符作为 HOG级联。然后通过使用随机化的判决树来量化原始描述符将原始 描述符收集成词袋(bag-of-words)表示。色直方图可以是色调饱和 度直方图。脸部计数器可以用来容易辨别包含人脸的视频和视频中 的人脸数目。可以使用立方体兴趣点检测器来计算运动特征以提取 在检测到的兴趣点周围的时空体积。从立方体可以提取两个描述符。 第一,可以将归一化的像素值级联成矢量,并且可以对矢量应用PCA 以将维数减少至例如256。第二,可以将立方体的每个切片拆分成 2x2个单元。然后,可以将立方体中的单元的HOG描述符级联成矢 量。也可以使用PCA将HOG描述符矢量的维数减少至例如256。除 了HOG之外或者作为HOG的备选,还可以使用其它特征,这些特 征包括但不限于运动刚性特征、(例如从Gabor小波导出的)包括 3D滤波器响应的滤波器响应、使用Canny边缘检测器检测到的边缘 的边缘特征、GLOH(梯度位置和定向直方图)、LESH(基于局部 能量的形状直方图)或者SURF(加速鲁棒特征)特征。

可以使用对应代码簿来进一步量化描述符。音频特征可以包括 矢量,该矢量形成稳定的听觉图像(SAI)和Mel-频率对数倒频谱稀 疏(MFCC)。

在一个实施例中,针对每个视频提取相同特征类型集合——例 如帧、运动和音频。然而不同特征类型可以被用于学习不同视频类 型。例如音频特征有效用于学习以获得主要由其音乐表征的某些视 频类型、但是在基于视频的视觉运动区别它们、比如区别卡通视频 与其它视频类型时不太有用。因而,运用的特定特征类型可以根据 使用的特定标签应用在不同实施例中变化。也就是说,一个实施例 可以运用任何特征类型,该特征类型有用地描述视频的可以用来区 别一个视频与另一视频的性质。提取的特征205然后出于后续学习 操作的目的而用作从其中提取它们的关联视频117的表示。在被用 于训练之前,可以使用线性SVM、PCA或者其它方法在维数上减少 提取的特征以确定鉴别特征子集。这些鉴别特征然后可以用作未用 于分类器训练240的输入。

视频集合分割

分割模块235将视频117分割成用于执行分类器212的训练的 不同集合。更具体而言,分割模块235将视频117划分成相异训练 和确认集合,其中训练集合T被用于训练用于不同标记的分类器(“学 习”),并且确认集合用来测试训练/学习的分类器的准确性。在其中 标记学习包括若干迭代的一个实施例中,分割模块235还可以细分 用于每个可能迭代的训练和确认集合。

另外,分割模块235可以针对每个标记211定义具体用于该标 记的训练集合和确认集合。分割模块235也将每标记的训练和确认 集合的视频划分成假设代表关联标记的“肯定”示例和未假设代表关 联标记的“否定”示例。

在一个实施例中,如果标记211位于它的文本元数据内某处、 例如(用户分配或者分类器先前定义的)现有标记、视频的标题、 描述或者关键词列表,则分割模块235标识视频为属于用于标记211 的肯定集合——否则属于否定集合。因此,在这一实施例中,仅参 照现有元数据定义肯定和否定集合而无需人类专家的人工标签。在 一个实施例中,从整个全集随机选择否定示例。简言之,针对每个 标记211有四个视频集合:肯定训练集合、否定训练集合、肯定确 认集合和否定确认集合。

分类器训练

标记学习模块119还包括分类器训练模块240,该分类器训练 模块基于分割模块235针对标记而标识的肯定和否定训练集合迭代 地学习用于标记211的分类器214。通过多个训练迭代训练分类器 214。更具体而言,在给定的迭代,分类器训练模块240尝试通过将 总体学习算法应用于在用于标记211的训练集合中的视频117的导 出的特征205来学习用于给定的标记211的分类器214。在一个实施 例中,运用的总体学习算法是有256个判决端的LogitBoost。使用 LogitBoost,可以使用判决端作为弱学习器来生成强分类器214。可 以类似地使用其它学习算法、比如AdaBoost或者其它增进算法以及 线性分类器或者支持矢量机。针对使用潜在子标记的分类器学习, 以迭代方式针对每个子标记训练多个子标记分类器215。用于标记的 子标记分类器215然后用作标记分类器214的部件。

使用共同观看数据来初始化子标记训练集合

为了开始使用潜在子标记来对标记分类,针对每个子标记a、 b、c、...n初始化训练集合S以生成子标记训练集合Sa、Sb、Sc、...Sn。 每个子标记训练集合包括多个视频,这些视频的特征用于训练关联 子标记。在一个实施例中,使用共同观看信息来初始化肯定子标记 训练集合以创建聚类Cla-Cln,其中每个聚类Cli与潜在子标记Si关联。 聚类的视频然后用来初始化肯定子标记训练集合(即从Cla导出Sapos)。可以从否定标记训练集合随机选择用于子标记训练集合的初 始否定训练集合。

共同观看信息在本公开内容中广义地用来包括任何可用信息, 该信息指示用户在查看会话中一起观看或者在时间上接近地在一起 的视频。共同观看信息包括共同出现信息、视频在相同查看会话中 的出现频率、用户搜索、用户页面改变、用户链接访问、视频、用 户视频查看交互(停止、快进、倒退等)以及其它用户活动。共同 观看信息可以包括相同用户紧接在视频之前或者之后在某一设置的 时间段(例如20分钟)内播放的视频。共同观看信息也包括否定交 互——例如用户跟随从第一视频到第二视频的链接、然后立即停止 播放第二视频。

共同观看信息可以有帮助,因为它可能指示在给定的标记内的 带有相似语义意义的视频类型。观看山地自行车视频的用户比涉及 袖珍或者路面自行车的视频更可能观看涉及山地自行车的第二视 频。尽管子标记标签未必与用于视频的语义差异关联,但是通过根 据共同观看数据初始化子标记成员资格,初始数据集合可能包含语 义不同的视频。

现在描述使用共同观看数据的聚类的子标记初始化过程的一 个实施例。从用于给定的标记的肯定标记训练集合之中选择随机视 频样本N。这可以是训练集合的百分比或者具体数目的视频、比如 3000。针对每个采样的视频Vi生成共同观看视频列表Li、即L1、 L2、...Ln。创建共同观看视频的合并列表L,该列表包括视频观看列 表的并集、即L={L1 U L2U...Ln}。注意共同观看视频列表中的成员资 格不限于N个随机采样的视频、而是包括与视频N共同观看的任何 视频。这样,L包含与N中的任何视频共同观看的每个视频。

接着创建用于每个采样的视频的矢量V1、V2、...Vm,这些矢 量代表L中的哪些成员与Vi被共同观看。为了实现这一点,设置矢 量长度等于合并的视频共同观看列表长度:|V|=|L|。矢量中的每个元 素用来代表L中的对应视频。例如每个矢量V1、V2、...Vn中的第5 个元素代表L中的第5个视频。针对每个矢量Vi,元素将根据编索 引的视频是否在该视频Vi的共同观看列表中而设置成0或者1。例 如,如果在L中的位置5标识的视频是L1的成员,则将Vl的第5 个元素设置成0。以这一方式,创建矢量集合{V1-Vn},该集合量化共 同观看的视频。

接着使用共同观看矢量集合{V1-Vn}对视频聚类。以这一方式, 可以根据普遍共同观看的视频对视频分组。在一个实施例中,通过 使用k均值聚类来实现聚类。可以比较在这些矢量之间的距离与如 本领域已知的L1距离或者其它距离度量。在k均值聚类中使用的聚 类数目未固定、但是可以由系统设计者选择以最佳地代表在视频采 样中预计的子标记数目或者使用静态值、比如5。例如,如果随机采 样的视频数目增加,则系统可以增加使用的聚类数目。

在确定聚类之后,去除表现为孤立点的任何聚类。例如可以排 除具有太少采样的聚类或者合并到最近聚类中。每个视频V现在与 聚类Cl关联。剩余聚类数目是用于训练子标记分类器的潜在值标记 数目。每个聚类Cl现在可以用来初始化子标记肯定训练集合。也就 是说,Cla可以初始化肯定训练集合Sa pos,Clb初始化肯定训练集合 Sb pos,等等。

为了初始化肯定训练集合Sn,向Sn pos添加用于属于聚类Cln的每个视频的共同观看视频列表L。例如,如果Cla包括视频3、5 和6,则用共同观看列表的并集构造Sa pos:Sa pos={L3 U L5 U L6}。在一个 实施例中,直至视频在共同观看列表中出现阈值次数才向子标记训 练集合添加它们。这一阈值方式去除表现为与共同观看聚类中的其 它视频无关、因此更少可能代表潜在子标记的共同观看视频。如上 文描述的那样,初始子标记否定训练集合可以包括来自标记否定训 练集合的随机采样的视频。初始子标记训练集合简单地是肯定和否 定子标记训练集合的并集:Sa=(Sa pos U Sa neg)。现在可以对相应训练集合 Sa-Sn训练子标记分类器Ca-Cn

由于通过自动处理共同观看数据来完成这一实施例中的子标 记生成,所以这一过程无监督并且无需系统管理员的任何管理。此 外,对从相互具有共同观看关系的视频提取的特征训练所得子标记 分类器,这使得从这一方法导出的子标记分类器也更可能涉及在视 频之间的潜在语义差异。

在前文中,共同观看信息用来标识用于初始子标记训练集合的 子标记聚类。此外,其它实施例可以通过其它手段、比如通过人工 标识语义有意义子标记或者通过根据视频特征的聚类来标识初始子 标记训练集合。由于已经初始化子标记训练集合,所以迭代方式如 下文描述的那样用来进一步精化子标记分类器。

子标记分类器训练概况

现在参照图3,提供根据一个实施例的子标记分类器训练方式 的概况。子标记分类器训练方式联合地训练子标记分类器和标记分 类器。由于在标记级标识训练集合301中的视频为肯定或者否定(如 上文相对于视频元数据描述的那样),所以系统未先验地具有对给 定的视频训练哪个子标记分类器302的任何确定。为了确定对给定 的视频训练哪个子标记分类器,应用备选方式。初始地将当前子标 记分类器迭代应用于视频以确定用于每个视频的“最佳拟合”子标 记。然后,用于每个子标记的“最佳拟合”视频用来迭代地精化子标 记分类器。下一迭代通过使用精化的子标记分类器确定用于视频的 “最佳拟合”来开始。在图3中图示这一概念框架。

训练集合301包括未先验地具有任何子标记指定的视频1-6。 在有两个子标记的这一简化模型中,从子标记训练集合Sa和Sb303 提取的特征已经训练子标记分类器Ca和Cb302。在第一迭代中,Sa和Sb是上述共同观看初始化过程确定的初始训练集合。标记训练集 合301由子标记训练集合Sa和Sb303评价并且用来确定训练集合301 中的潜在子标记。也就是说,每个视频放置于属于子标记分类器的 子标记训练集合304中,该子标记分类器产生最高置信度分数。备 选说明是视频的提取的特征现在用来确定视频与哪个特征子标记聚 类最相似。在这一示例中,确定从视频1、4和5提取的特征为更接 近地拟合的Ca,并且这些视频放置于用于训练Ca’的Sa’中。类似地, 从视频2、3和6提取的特征指示这些视频更接近地拟合Cb并且放 置于用于训练Cb’的Sb’中。然后对每个相应子标记训练集合Sa’和Sb’304训练下一迭代的子标记分类器Ca’和Cb’305。这提供用于图4中 进一步探索的迭代子标记分类训练的概念框架。

概括而言,在这一实施例中,用于标记的分类器(包括子标记 分类器集合)的训练通过两个主要步骤执行。第一,当前分类器模 型用来确定用于训练集合中的每个视频的“最佳拟合”子标记组。第 二,从每个子标记组中的视频提取的特征用来重新训练子标记分类 器。

这一训练过程的一个效果在于用于特定视频的“最佳拟合”子 标记组可以从一个迭代到另一迭代改变。例如,如果视频的特征分 数针对一个子标记相对于另一子标记仅在裕度上打分更佳则产生这 一效果,并且由于下一迭代改变子标记训练集合中的视频(并且因 此改变训练分类器的特征)的组成,所以视频的特征在下一迭代上 在另一子标记组中打分更高。

迭代发展子标记分类器

图4中的数据流程图示出用于迭代地训练子标记分类器的方 法的一个实施例。用于标记401的训练集合包括为了训练分割模块 235标识的标记分类器而选择的视频。可以如希望的那样将这些视频 进一步分隔成用于在迭代训练期间使用的部分。当前用于训练子标 记分类器的视频是活跃训练集合S402。在一个实施例中,训练集合 401中的每个视频也是S中的视频。在下文描述的实施例中,活跃训 练集合S402是整个训练集合401的被选择的部分。

活跃训练集合S402包括子标记训练集合Sa-Sn403。在第一迭 代上,由比如共同观看数据初始化子标记训练集合Sa-Sn403。

因此,活跃训练集合402包括多个子标记训练集合403,一个 子标记训练集合用于每个相应子标记。也就是说,根据子标记训练 集合403针对子标记训练集合指定活跃训练集合402中的视频。子 标记训练集合403Sa-Sn用来训练关联子标记分类器404Ca-Cn。子标 记分类器404Ca-Cn中的每个子标记分类器用来对用于标记的潜在子 标记的特征分类并且一起包括用于标记本身的分类器。

由于子标记分类器各自对不同数据集合来训练并且可能置信 度分数尚未收敛,所以重新加权505子标记分类器。具体而言,子 标记分类器可能由于从视频的特征选择和用于子标记分类器的端数 目而尚未收敛。使用这一方式,如上文起初参照图3描述的那样, 比较来自不同分类器的置信度分数以确定潜在子标记。在一个实施 例中,线性SVM用来校准用于每个分类器的判决分数。一种用于重 新加权子标记分类器的方法是使用视频在标记内的关联成员资格在 所有训练视频内使用每个子标记分类器来训练线性SVM。在重新加 权之后,标记分类器406包括与每个子标记分类器的关联加权因子 修改的子标记分类器404对应的子标记分类器Ca’-Cn’的集合。这里 可以停止该过程,并且标记分类器406可以用于根据标记分类器406 对提取的视频特征分类。

备选地,可以执行用于改进分类的迭代方式。在所需次数的迭 代之后,也可以选择用于标记的最终分类器作为标记分类器406。

第一迭代步骤是确定用于训练集合407的最近潜在子标记。 (重新加权所修改的)子标记分类器404分析从训练集合401中的 视频提取的特征以确定用于训练集合401中的每个视频的最可能 (“最近”)潜在子标记。然后向与标识的潜在子标记对应的子标记 训练集合403添加训练集合401中的每个视频。

这一迭代方式遵循图3的概念框架。也就是说,来自训练集合 中的视频的特征用来发现用于每个视频的“最佳拟合”(即最高置信 度)子标记分类器。然后向用于每个视频的“最佳拟合”子标记分类 器的子标记训练集合添加该视频。作为示例,扩展子标记训练集合 Sa以包括训练集合401中的其特征与Cb’-Cn’比较由Ca’最佳表征的视 频。由于训练集合401包括肯定以及否定训练视频,所以扩展每个 子标记训练集合403以包括与它的子标记分类器405最接近地匹配 的肯定和否定采样。

下文描述在一个实施例中用来引导子标记训练集合的附加引 导步骤408。在用标识为与每个潜在子标记对应的视频扩展子标记训 练集合并且可选地执行引导之后,使用扩展的子标记训练集合作为 用于下一训练迭代的活跃训练集合502。在一个实施例中,在创建子 标记分类器404之后重置子标记训练集合403,从而子标记训练集合 403的下一迭代仅包括标识为用于子标记的最接近匹配的视频。如果 希望,则在设置次数的迭代之后或者在针对分类器406收敛之后, 如果分割模块235已经包括用于更多训练迭代的若干分割,则扩展 标记训练集合401以包括更多视频。

子标记训练集合引导

在块409的引导可以用来在重新训练子标记分类器405之前通 过选择用于在活跃训练集合402中包括的视频来修改子标记训练集 合。由于可以从用户提供的元数据标识标记,所以用户提供的标记 可能“有噪声”并且偶尔不可靠。作为结果,希望未包括尽管被用户 标记为用于标记的肯定、但是可能没有与具有标记的其它视频相似 的特征的视频。这使得视频更少可能是真正的肯定。因此有助于减 少用于每个子标记的肯定训练集合以仅包括“可信”肯定。另外,用 于子标记的否定训练集合可以包括用于标记的很大数目的否定而许 多否定共享与子标记的很少特征共性。这样,可以通过主要包括“易 混淆”——也就是与代表子标记的特征最相似——的否定视频来改进 否定训练集合。在块409的引导用来根据这些概念选择活跃训练集 合402。

一种减少“不可信”肯定的方法是通过包括根据适用子标记分 类器提供最高置信度判决分数的k个样本来更新子标记训练集合。 换而言之,从用于训练子标记标签的下一迭代的训练集合排除属于 该子标记、但是根据子标记分类器提供最低置信度的肯定,因为标 记尽管提供“肯定”但是可能在用户提供的数据录入给定时是“不可 信”肯定。

类似地,在构造用于子标记的否定训练集合时,在训练集合中 包括的否定视频是按照子标记分类器提供最高置信度作为肯定的否 定视频。也就是说,可以在用于每个子标记的否定训练集合中包括k 个最“易混淆”或者“最难”否定(最可能向分类器训练提供错误肯定)。 可以根据子标记分类器训练的能力调节k确定的训练集合大小以维 护存储器中的视频。作为这一引导的结果,对包含最“可信”肯定样 本的“干净”数据集合训练子标记分类器,并且子标记分类器可以更 能容忍用户的标签噪声。k个肯定样本无需与k个否定样本相同。在 一些实施例中,随着该过程迭代地精化分类器而增加活跃训练集合 的大小(也就是,训练集合大小k)。

使用子标记分类器来标识视频标记

现在参照图5中的一个实施例描述用于使用标记分类器将标 记应用于视频的系统,这些标记分类器利用子标记分类器部件。标 记分类器501如图所示包括多个子标记分类器502C1a-C1n。子标记 分类器502的集合评价的分类器501C1确定与标记“自行车”的关联。 根据上文描述的技术训练子标记分类器502。此图图示使用提取的视 频特征503来评价用于视频的可能标记。

在针对标记501中的成员资格评价提取的视频特征503时,子 标记分类器502对视频分类以确定分类分数504。分数S1a是C1a在 被提供提取的视频特征503作为输入时产生的分数。子标记分类器 产生更多分数504为S1a-S1n。为了确定用于标记分类器501的最终 分数505S1,使用重新加权调整来调整子标记分类器分数S1a-S1n,并 且选择最大分数作为分类器分数505S1。最大分数505用来确定标 记“自行车”中的成员资格。

附加分类器506也可以用来确定涉及与这些分类器关联的标 签的分数507。如图所示,C3涉及“变压器”,其它标记分类器也包 括子标记分类器组,而更多标记分类器、比如涉及“狗”的C2未包括。 使用分数S1-Sx,系统可以评价与标记关联的标签准确表征从视频提 取的特征的似然度。

概要

使用视频内的潜在子标记属于训练集合中的标记这样的概念, 改进使用多个子标记分类器对标记的标识。可以通过多种方法执行 子标记训练集合的初始化、比如按照共同观看特征的初始化。通过 精化用于每个子标记的训练集合以排除局外肯定视频并且包括最 “易混淆”的否定视频,可以训练子标记分类器以提高子标记训练集 合的鲁棒性。

利用子标记分类器的标记学习的应用

上文描述的过程和从中获得的分类器具有许多有价值的应用。

1)对视频的用标记加标签:作为一个例子,该过程可以用来 向视频添加标记标签。在一个实施例中,针对每个分类器214,该分 类器的所得分数指示视频117代表关联标记211,向视频的元数据添 加对应标记标签211A。在一个备选实施例中,对分数排序,并且向 视频元数据仅添加与前N个标记211对应的标签。在另一备选实施 例中,仅添加指示特别强匹配的那些分数——即在某一特定阈值以 上的仅那些分数。

2)对视频的用子标记加标签:尽管子标记分类器从未假设从 与子标记分类器关联的特征导出语义意义,但是有可能发展用于一 些子标记的语义意义。子标记训练集合包括视频,这些视频本身包 括描述文本和其它元数据。将这一元数据用于子标记训练视频集合, 文本信息的分析可以提供用于子标记的标签。由于先前从潜在信息 发展子标记,所以如果为子标记标签发展充分确信度,则应当仅为 视频提供语义意义。因此,仅如果文本信息存在于子标记视频中的 超多数中,则文本信息视为语义有意义标签。如果在子标记训练集 合中的最频繁文本描述超过用于频率和分布的阈值,则采用它作为 子标记的语义标签,并且子标记中的成员资格还可以将子标记标签 应用于视频元数据。在使用这一技术时的一个实施例中,用更大怀 疑对待子标记标签,并且提示用户确认子标记标签适用。

3)基于标记标识来纠正视频描述:作为训练的子标记分类器 的另一使用,可以测试并且——如果发现不准确则——修改用户供 应的现有文本元数据。这对于标识和整理“垃圾”视频描述而言特别 有用,其中提交视频的用户有意地提供误导描述。更具体而言,获 得用于视频117的用户供应的文本元数据。如果文本元数据或者用 户供应的标记包括标记标签211A,已经学习用于该标记标签的分类 器214,则将分类器应用于视频、由此产生分数。如果分数指示视频 未代表关联标记——例如分数在某一最小阈值以下——则可以采取 补救动作、比如标记视频、从用户供应的元数据去除关联文本等。 特别的,这一技术有助于保证特定标记具有具体意义并且由此修整 边界线情况以改进用户搜索。

尽管本公开内容涉及标识用于在视频中使用的标记的方法,但 是使用潜在子标记分类器以确定标记成员资格可以应用于多种其它 分类系统。例如图像分类或者声音分类也可以受益于基于潜在子标 记标识符确定的分类。

已经关于一个可能实施例特别具体地描述本公开内容。本领域 技术人员将理解可以在其它实施例中实现公开内容。首先,部件和 变量的特定命名、术语的大写、属性、数据结构或者任何其它编程 或者结构方面并非必需或者重要的,并且实施公开内容或者它的特 征的机制可以具有不同命名、格式或者协议。在这里描述的各种系 统部件之间的特定功能划分也仅出于举例的目的而非必需;单个系 统部件执行的功能可以代之以由多个部件执行,并且多个部件执行 的功能可以代之以由单个部件执行。

上文描述的一些部分在对信息的操作的算法和符号表示方面 呈现本公开内容的特征。这些算法描述和表示是数据处理领域技术 人员用来向本领域其他技术人员最有效地传达他们的工作实质的手 段。这些操作在功能或者逻辑上被描述之时被理解为由计算机程序 实施。另外,将这些操作布置称为模块或者冠以功能名称也已经证 实有时是便利的而不失一般性。

除非如从上文讨论中清楚的那样另有具体陈述,理解在说明书 全文中利用诸如“确定”或者“显示”等术语的讨论指代计算机系统或 者相似电子计算设备的动作和过程,该计算机系统或者相似电子计 算设备操控和变换计算机系统存储器或者寄存器或者其它这样的信 息储存器、传输或者显示设备内表示为物理(电子)数量的数据。

本公开内容的某些方面包括这里以算法的形式描述的过程步 骤和指令。应当注意可以用软件、固件或者硬件体现本公开内容的 过程步骤和指令并且在用软件体现时可以下载这些过程步骤和指令 以驻留于实时网络操作系统使用的不同平台上并且从不同平台操 作。

本公开内容也涉及一种用于执行这里的操作的装置。这一装置 可以被具体构造用于所需目的,或者它可以包括由计算机可以访问 的计算机可读介质上存储的计算机程序有选择地激活或者重新配置 的通用计算机。这样的计算机程序可以存储于计算机可读存储介质、 比如但不限于包括软盘、光盘、CD-ROM、光磁盘的任何类型的盘、 只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、 磁卡或者光卡、专用集成电路(ASIC)或者适合用于存储电子指令 的任何类型的非瞬态计算机可读存储介质中。另外,在说明书中指 代的计算机可以包括单个处理器或者可以是运用多处理器设计用于 增加计算能力的架构。

这里呈现的算法和操作并非固有地与任何特定计算机或者其 它装置有关。各种通用系统也可以与根据这里的教导的程序一起使 用,或者构造更专门化的装置以执行所需方法步骤可以证实是便利 的。用于多种这些系统的所需结构将与等效变化一起为本领域技术 人员所清楚。此外,未参照任何特定编程语言描述本公开内容。应 理解多种编程语言可以用来实施如这里描述的本公开内容的教导并 且提供对具体语言的任何引用以便公开本公开内容的实现和最佳实 施方式。

本公开内容很好地适合在诸多拓扑之上的广泛多种计算机网 络系统。在这一领域内,大型网络的配置和管理包括通过网络、比 如因特网通信地耦合到不相同计算机和存储设备的存储设备和计算 机。

最后应当注意,在说明书中使用的语言已经主要出于可读性和教导 的目的而加以选择并且可以未被选择用来界定或者限制发明主题内 容。因而,本公开内容的公开内容旨在于示例而非限制在所附权利 要求中阐述的公开内容的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号