首页> 中国专利> 使用潜在子标记来学习用于视频注释的标记

使用潜在子标记来学习用于视频注释的标记

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

标记学习模块训练与从多个视频的文本元数据导出的存储的标记集合相关联的视频分类器，该训练基于从训练视频提取的特征。每个标记分类器包括涉及标记内的潜在子标记的多个子标记分类器。可以通过对针对标记的与视频有关的共同观看信息聚类来初始化潜在子标记。在初始化以标识子标记组之后，可以对从每个子标记组提取的特征训练子标记分类器。可以通过使用子标记分类器标识训练集合的潜在子标记、然后通过用被指定为与该子标记最接近地相符的视频来训练每个子标记分类器迭代地改进子标记分类器来实现子标记分类器的迭代训练。

著录项

公开/公告号CN103299324A

专利类型发明专利
公开/公告日2013-09-11

原文格式PDF
申请/专利权人谷歌公司;
展开▼

申请/专利号CN201180062621.7
发明设计人 G·托德埃里西;杨玮龙;
展开▼

申请日2011-11-10
分类号G06K17/00(20060101);
代理机构11256 北京市金杜律师事务所;
代理人王茂华;陈颖
地址美国加利福尼亚州
入库时间 2024-02-19 21:31:47

法律信息

法律状态公告日

法律状态信息

法律状态
2018-03-06

专利权人的姓名或者名称、地址的变更 IPC(主分类):G06K17/00 变更前: 变更后: 申请日:20111110

专利权人的姓名或者名称、地址的变更
2016-02-17

授权

授权
2013-10-16

实质审查的生效 IPC(主分类):G06K17/00 申请日:20111110

实质审查的生效
2013-09-11

公开

公开

说明书

技术领域

本公开内容总体涉及标记标识领域，并且更具体地涉及用对象代表的标记来自动标识对象的方法。

背景技术

数字视频提供者通常用一个或者多个关键词或者“标记”、比如 “自行车”或者“变压器”来对它们的视频加标签，该关键词或者“标记” 描述视频或者其一部分的内容。多数视频托管系统依赖于用户标记他们的视频，但是这样的用户提供的标记可能很不准确。尽管有用于为视频自动确定标记的方法，但是现有的自动标记加标签方式依赖于视频具有语义无歧义的视频标记。也就是说，常规方法通常要求仅用如下视频训练分类器，这些视频的标记指代具有相似提取特征的单个视频类型。然而用户贡献的视频的大型全集可以代表在单个标记之中的很大和不同数目的相异视频类型。例如用于“自行车” 的标记可以应用于涉及山地自行车、口袋自行车、滚落自行车的视频以及其它语义上不同视频类型。基于用于“自行车”标记的单个分类器的典型机器学习将经常无法标识与在单个标记之中的相异视频类型的关联的不同特征。

发明内容

标记学习模块训练与从多个视频的文本元数据导出的存储的标记集合相关联的视频分类器，该训练基于从训练视频提取的特征。每个标记分类器可以包括多个子标记分类器。为与用于每个潜在子标记分类器的训练集合相关联的视频训练该子标记分类器。按照从视频提取的特征用潜在子标记自动地标识视频，并且视频无需代表在标记内的语义上有意义划分。因此，标记学习模块可以基于不仅与标记本身相关联而且与其潜在的子标记相关联的特征来创建更准确和自动地对视频加标签的标记分类器。

在一个实施例中，通过标识与视频集合相关的共同观看信息将用于给定的标记的视频初始训练集合分组成子标记类别。共同观看信息被用来确定视频初始训练集合的哪些视频与初始训练集合中的其它视频一起观看。共同观看信息广义地包括数据，该数据一般指示用户往往将两个不同视频一起观看、比如用户在查看会话内或者在某个时间段内观看来自彼此的视频。下文进一步定义共同观看信息。

在确定一起查看的视频之后，可以对子标记初始训练集合聚类以确定潜在子标记初始分组。然后对每个子标记聚类中的视频训练初始潜在子标记分类器。以这一方式，每个子标记分类器学习与潜在子标记相关联的视频相关联的特征。

在一个实施例中，对训练集合迭代地训练子标记分类器。首先，子标记分类器可以被用来标识训练集合中的每个视频为属于特定子标记。接着，可以对被标识为属于该子标记的视频重新训练每个子标记分类器。在一个实施例中，在重新训练之前，引导(bootstrap) 子标记训练集合中的视频以排除接收根据子标记分类器的低置信度分数的肯定训练视频集合和也接收根据子标记分类器的低置信度分数的否定训练视频集合。

在说明书中描述的特征和优点并非囊括，并且具体而言，许多附加特征和优点将鉴于附图、说明书和权利要求而为本领域普通技术人员所清楚。另外应当注意，在说明书中使用的语言已经主要出于可读性和指导的目的而加以选择并且可以未被选择用于界定或者限定发明主题内容。

附图说明

图1是根据一个实施例的其中可以运用标记学习的视频托管服务的框图。

图2图示根据一个实施例的在视频托管服务中使用的标记学习模块的各种部件。

图3呈现根据一个实施例的按子标记的视频分类和迭代子标记学习的概况。

图4是描绘根据一个实施例的描绘标记的迭代学习和子标记分类器的详细数据流程图。

图5是代表根据一个实施例的利用子标记分类器的标记学习模块的应用的数据流程图。

附图仅出于说明性的目的而描绘本公开内容的实施例。本领域技术人员将从下文描述中容易认识到可以运用这里所示结构和方法的备选实施例而未脱离这里描述的公开内容的原理。

具体实施方式

系统架构

图1是根据一个实施例的其中可以运用标记学习的视频托管服务100的框图，该标记学习利用潜在子标记。视频托管服务100 代表系统、比如YOUTUBE或者GOOGLE VIDEO的系统，该系统存储并且向客户端、比如客户端设备135提供视频。视频托管站点 100经由网络140与多个内容提供者130和客户端设备135通信以支持在用户之间共享视频内容。注意在图1中，为了清楚，仅示出内容提供者130和客户端135的一个实例，但是每一个都可以存在任何数目。视频托管服务100还包括前端接口102、视频供应(serving) 模块104、视频搜索模块106、上传服务器108、用户数据库114和视频贮存库116。未示出其它常规特征、比如防火墙、负载平衡器、认证服务器、应用服务器、故障保护服务器、站点管理工具等以便更清楚地图示视频托管站点100的特征。适当站点100的一个实例是在www.youtube.com找到的YOUTUBE网站。其它视频托管站点可以适于根据这里公开的教导来操作。可以实施视频托管网站100的所示部件为单个或者多个软件或者硬件部件。一般而言，在一个实施例中描述为由一个部件执行的功能也可以在其它实施例中由其它部件执行或者由部件组合执行。此外，在一个实施例中描述为由视屏托管网站100执行的功能在其它实施例中如果适合则也可以由一个或多个客户端135执行。

客户端135是计算设备，这些计算设备执行客户端软件、例如 web浏览器或者内置客户端应用以经由网络140连接到视频托管服务100的前端接口102并且以显示视频。客户端135可以例如是个人计算机、个人数字助理、蜂窝、移动或者智能电话或者膝上型计算机。

网络140通常是因特网、但是可以是任何网络，该网络包括但不限于LAN、MAN、WAN、移动有线或者无线网络、专有网络或者虚拟专有网络。客户端设备135可以包括个人计算机或者其它具有网络功能的设备、比如数字个人助理(PDA)、移动电话、寻呼机、电视“机顶盒”等。

在概念上，内容提供者130向视频托管服务100和查看视频内容的客户端135提供该内容。在实践中，内容提供者也可以是内容查看者。此外，内容提供者130可以是操作视频托管站点100的相同实体。

内容提供者130操作客户端设备以执行各种内容提供者功能。内容提供者功能可以例如包括向视频托管网站100上传视频文件、编辑视频托管网站100存储的视频文件或者编辑与视频文件相关联的内容提供者偏好。

客户端135在设备上操作以查看视频托管站点100存储的视频内容。客户端135也可以用来配置与视频内容有关的查看者偏好。在一些实施例中，客户端135包括嵌入的视频播放器、如例如来自奥多比系统公司的FLASH播放器或者适合于在视频托管网站100中使用的视频文件格式的任何其它播放器。注意如这里所用术语“客户端”和“内容提供者”可以如从其中使用术语的上下文清楚的那样指代提供客户端和内容提供功能的软件、该软件在其上执行的硬件或者操作该软件和/或硬件的实体。

视频托管服务100的上传服务器108从客户端135接收视频内容。在视频贮存库116中存储接收的内容。响应于来自客户端135 的请求，视频供应模块104向客户端135提供来自视频贮存库116 的视频数据。客户端135也使用视频搜索模块106、比如通过录入包含感兴趣的关键词的文本查询来搜寻视频贮存库116中存储的感兴趣的视频。前端接口102提供在客户端135与视频托管站点100的其它部件之间的接口。

在一些实施例中，用户数据库114负责维护视频托管服务器 100的所有注册用户的记录。注册的用户包括内容提供者130和/或仅仅查看视频托管网站100上的视频的用户。每个内容提供者130 和/或个体用户向视频托管服务器100注册包括登录名、电子邮件(电邮)地址和口令的账户信息，并且具有唯一用户ID。在用户数据库 114中存储这一账户信息。

视频贮存库116包含用户提交的视频117的集合。视频贮存库 116可以包含任何数目的视频117、比如数万或者数亿万。视频117 中的每个视频具有它与其它视频中的每个视频的唯一视频标识符、比如文本名称(例如串“a91qrx8”)、整数或者唯一地命名视频的任何其它方式。视频117可以被封装于各种容器、比如AVI、MP4或者MOV中并且可以使用视频编码解码器、比如MPEG-2、MPEG-4、 WebM、WMV、H.263等来编码。视频117除了它们的视听内容之外还具有关联元数据117A、例如文本元数据、比如标题、描述和/ 或标记。

视频托管服务100还包括训练用于标记集合的准确视频分类器的标记学习模块119。训练的分类器然后可以应用于给定的视频以自动确定标记中的哪个标记可以适用于视频。例如用户可以提交新视频，并且标记学习模块119可以自动推荐将被应用于视频的标记或者标记组。标记学习模块也可以用来在采用用户录入的标记作为视频的元数据117A的部分之前验证标记为与视频关联。现在更具体描述标记学习模块119。

标记学习模块

图2图示根据一个实施例的标记学习模块119的各种部件。标记学习模块119包括用于发现标记、导出视频特征、训练用于各种标记的分类器等的各种模块。在一个实施例中，标记学习模块119 并入于现有视频托管服务100、比如YOUTUBE中。

标记学习模块119有权访问视频托管服务100的视频贮存库 116。标记学习模块119还包括特征贮存库205，该特征贮存库存储用于视频贮存库116的视频的关联特征集合，这些特征关于一个或者多个视觉或者音频信息类型、比如颜色、移动和音频信息来表征视频。视频117的特征与视频本身的原始内容相异并且由特征提取模块230从原始内容导出。在一个实施例中，将特征存储为值矢量，为了一致，该矢量针对视频117中的每个视频具有相同维度。

标记学习模块119还包括存储各种标记211的标记贮存库210，可以针对这些标记学习分类器。一般而言，标记是描述与视频117 关联的某一实体、活动、事件、地点、对象或者特性的术语或者短语。通常使用标记作为与视频关联的关键词以帮助组织、浏览和搜寻视频汇集内的视频。标记可以作为元数据117A的部分与视频相关联并且通常可以与视频关联的描述、评论、注释和其它数据一起存储。每个标记具有标签211A和其它描述符二者，该标签是用于标记的唯一名称、比如“自行车”、“船”、“卡”、“狗”、“爆炸”、“花”、“直升机”。标记211A可以与各种统计量、比如出现频率、标记与其它标记的共现频率(即标记与第二标记一起出现的频率)等关联。

由于用户未必非常准确地对视频加标签，所以可以向给定的标记应用具有可变特征类型的多种视频。可以基于共同观看或者其它度量来将用于标记的这些各种视频划分成多个不同子集。每个不同子集或者组可以视为与标记的不同潜在子标记关联。给定的子标记因此与从它的相应视频子集提取的特定特征关联、但是可以或者可以不对应于语义有意义标签或者具有与标记的特定分类关系。因此，尽管标记可以包括特定标签、比如“自行车”，但是其子标记可以包括标签、比如“山地自行车”或者“摩托车越野赛”以及子标记，这些子标记没有特定名称或者意义、但是简单地代表标识符(例如子标记1、子标记2等)或者用于从“自行车”标记的具有强共同观看或者其它相互关系的特定视频子集提取的特征集合的代理。尽管可以或者可以未从子标记导出语义意义，但是与子标记关联的视频意味着视频与用于该子标记的标记相关联。

标记学习模块119因此具有多个分类器214，每个分类器与标记211之一关联。用于标记211的分类器214是输出分数的函数，该分数代表与视频关联的特征指示特定标记211与视频相关的程度、因此用作指示是否可以准确应用标记211以标签视频的度量。用于标记211的分类器214基于与标记的子标记有关的多个子标记分类器215。在一个实施例中，分类器214被应用于的特征包括(下文关于特征提取模块230描述的)视频内容特征和从视频共同观看数据导出的共同观看特征。在实践中，共同观看特征可以在对当前在视频贮存库中的视频分类时或者在确定子标记成员资格时最有用、但是在标识用于新视频的标记时不太用，因为供给视频贮存库的新视频将没有共同观看数据或者具有极少共同观看数据。

在一个实施例中，一些标记分类器114利用标记分类器模型中的子标记分类器115，而一些标记分类器114并不使用子标记分类器 115。换而言之，子标记分类器115可以在标识标记时存在性能提高时选择性地用于标记分类器。反言之，在相对于单个标记分类器存在很少或者无标记分类改进时不使用子标记分类器215。因此基于每标记来实施子标记分类器215。

分类器214可以在不同实施例中返回不同类型的分数。例如在一个实施例中，每个分类器214输出实数，该实数指示在视频与分类器(并且因此与对应标记211代表的概念或者话题)之间的相关度匹配的强度。在另一实施例中，分类器214输出布尔值、例如整数1指示视频与标记相关，而不同的值、例如0指示标记不相关。

分配器学习模块119也包括标识可以用来标签视频的潜在标记的标记发现模块220。在一个实施例中，标记发现模块220从视频贮存库116中的各种视频117的视频元数据117A或者从元数据的某一子集、比如标题和用户建议的标记或者描述中提取标记。例如标记发现模块220可以确定应用于贮存库中的视频的所有个体(一元模型)或者配对(二元模型)标记的集合、然后标识N(例如10,000) 个最频繁单克和双克作为用于贮存库210的潜在标记。标记发现模块220从潜在标记列表去除不可能传达实质意义的预定“无用词” (stopword)的集合、比如冠词和介词、比如“一个”、“该”和“的”。

在一个备选实施例中，标记发现模块220从另一来源、比如预先存在的比如WordNet提供的术语和短语集合获得潜在标记集合而不是从视频元数据117A提取。

针对每个潜在标记，标记发现模块220在一个实施例中维护统计量、比如标记在视频元数据内的出现频率。标记发现模块220清除标识的潜在标记，这些潜在标记针对某一预定频率阈值、比如 100,000个视频这一最大阈值和1,500个视频这一最小阈值在视频元数据117A中太频繁或者不频繁出现。例如标记“视频”或者“有趣”是通用的、因此可能针对很不同的视频种类出现极大次数。因此，它们将不可能代表单个相异视频类型、因此将被清除。类似地，出现很小次数的标记不会提供足够数据以允许学习算法训练用于标记的有用分类器并且将类似地被清除。

特征提取

视频托管服务100还包括特征提取模块230，该特征提取模块出于机器学习的目的而导出用来简洁表征视频的特征。在一个实施例中，特征提取模块230从视频117的内容导出多个不同视听特征 205，这些特征包括涉及帧特征、运动特征和听觉特征的特征。在其它实施例中，可以提取其它特征或者其它特征类型以分析视频全集。具体而言，每个特征类型可以使用词袋表示。另外，可以通过矢量量化特征描述符来表示每个特征为直方图，并且可以进一步归一化每个特征从而二元值之和为1。在一个实施例中，每个视频的特征矢量是用于每个特征的直方图的级联。从视频提取的广泛多种特征可以根据设计者的偏好和每个特征集合的相对于标记区分的鉴别能力在多种实施例中有用。

在一个实施例中，用于视频的帧特征包括定向梯度直方图 (HOG)、色直方图、纹理和脸部计数器。为了计算HOG特征，在每个帧像素位置，在10x10包围窗中提取1800维特征描述符作为 HOG级联。然后通过使用随机化的判决树来量化原始描述符将原始描述符收集成词袋(bag-of-words)表示。色直方图可以是色调饱和度直方图。脸部计数器可以用来容易辨别包含人脸的视频和视频中的人脸数目。可以使用立方体兴趣点检测器来计算运动特征以提取在检测到的兴趣点周围的时空体积。从立方体可以提取两个描述符。第一，可以将归一化的像素值级联成矢量，并且可以对矢量应用PCA 以将维数减少至例如256。第二，可以将立方体的每个切片拆分成 2x2个单元。然后，可以将立方体中的单元的HOG描述符级联成矢量。也可以使用PCA将HOG描述符矢量的维数减少至例如256。除了HOG之外或者作为HOG的备选，还可以使用其它特征，这些特征包括但不限于运动刚性特征、(例如从Gabor小波导出的)包括 3D滤波器响应的滤波器响应、使用Canny边缘检测器检测到的边缘的边缘特征、GLOH(梯度位置和定向直方图)、LESH(基于局部能量的形状直方图)或者SURF(加速鲁棒特征)特征。

可以使用对应代码簿来进一步量化描述符。音频特征可以包括矢量，该矢量形成稳定的听觉图像(SAI)和Mel-频率对数倒频谱稀疏(MFCC)。

在一个实施例中，针对每个视频提取相同特征类型集合——例如帧、运动和音频。然而不同特征类型可以被用于学习不同视频类型。例如音频特征有效用于学习以获得主要由其音乐表征的某些视频类型、但是在基于视频的视觉运动区别它们、比如区别卡通视频与其它视频类型时不太有用。因而，运用的特定特征类型可以根据使用的特定标签应用在不同实施例中变化。也就是说，一个实施例可以运用任何特征类型，该特征类型有用地描述视频的可以用来区别一个视频与另一视频的性质。提取的特征205然后出于后续学习操作的目的而用作从其中提取它们的关联视频117的表示。在被用于训练之前，可以使用线性SVM、PCA或者其它方法在维数上减少提取的特征以确定鉴别特征子集。这些鉴别特征然后可以用作未用于分类器训练240的输入。

视频集合分割

分割模块235将视频117分割成用于执行分类器212的训练的不同集合。更具体而言，分割模块235将视频117划分成相异训练和确认集合，其中训练集合T被用于训练用于不同标记的分类器(“学习”)，并且确认集合用来测试训练/学习的分类器的准确性。在其中标记学习包括若干迭代的一个实施例中，分割模块235还可以细分用于每个可能迭代的训练和确认集合。

另外，分割模块235可以针对每个标记211定义具体用于该标记的训练集合和确认集合。分割模块235也将每标记的训练和确认集合的视频划分成假设代表关联标记的“肯定”示例和未假设代表关联标记的“否定”示例。

在一个实施例中，如果标记211位于它的文本元数据内某处、例如(用户分配或者分类器先前定义的)现有标记、视频的标题、描述或者关键词列表，则分割模块235标识视频为属于用于标记211 的肯定集合——否则属于否定集合。因此，在这一实施例中，仅参照现有元数据定义肯定和否定集合而无需人类专家的人工标签。在一个实施例中，从整个全集随机选择否定示例。简言之，针对每个标记211有四个视频集合：肯定训练集合、否定训练集合、肯定确认集合和否定确认集合。

分类器训练

标记学习模块119还包括分类器训练模块240，该分类器训练模块基于分割模块235针对标记而标识的肯定和否定训练集合迭代地学习用于标记211的分类器214。通过多个训练迭代训练分类器 214。更具体而言，在给定的迭代，分类器训练模块240尝试通过将总体学习算法应用于在用于标记211的训练集合中的视频117的导出的特征205来学习用于给定的标记211的分类器214。在一个实施例中，运用的总体学习算法是有256个判决端的LogitBoost。使用 LogitBoost，可以使用判决端作为弱学习器来生成强分类器214。可以类似地使用其它学习算法、比如AdaBoost或者其它增进算法以及线性分类器或者支持矢量机。针对使用潜在子标记的分类器学习，以迭代方式针对每个子标记训练多个子标记分类器215。用于标记的子标记分类器215然后用作标记分类器214的部件。

使用共同观看数据来初始化子标记训练集合

为了开始使用潜在子标记来对标记分类，针对每个子标记a、 b、c、...n初始化训练集合S以生成子标记训练集合S_a、S_b、S_c、...S_n。每个子标记训练集合包括多个视频，这些视频的特征用于训练关联子标记。在一个实施例中，使用共同观看信息来初始化肯定子标记训练集合以创建聚类Cl_a-Cl_n，其中每个聚类Cl_i与潜在子标记S_i关联。聚类的视频然后用来初始化肯定子标记训练集合(即从Cl_a导出S_a_pos)。可以从否定标记训练集合随机选择用于子标记训练集合的初始否定训练集合。

共同观看信息在本公开内容中广义地用来包括任何可用信息，该信息指示用户在查看会话中一起观看或者在时间上接近地在一起的视频。共同观看信息包括共同出现信息、视频在相同查看会话中的出现频率、用户搜索、用户页面改变、用户链接访问、视频、用户视频查看交互(停止、快进、倒退等)以及其它用户活动。共同观看信息可以包括相同用户紧接在视频之前或者之后在某一设置的时间段(例如20分钟)内播放的视频。共同观看信息也包括否定交互——例如用户跟随从第一视频到第二视频的链接、然后立即停止播放第二视频。

共同观看信息可以有帮助，因为它可能指示在给定的标记内的带有相似语义意义的视频类型。观看山地自行车视频的用户比涉及袖珍或者路面自行车的视频更可能观看涉及山地自行车的第二视频。尽管子标记标签未必与用于视频的语义差异关联，但是通过根据共同观看数据初始化子标记成员资格，初始数据集合可能包含语义不同的视频。

现在描述使用共同观看数据的聚类的子标记初始化过程的一个实施例。从用于给定的标记的肯定标记训练集合之中选择随机视频样本N。这可以是训练集合的百分比或者具体数目的视频、比如 3000。针对每个采样的视频V_i生成共同观看视频列表L_i、即L₁、 L₂、...L_n。创建共同观看视频的合并列表L，该列表包括视频观看列表的并集、即L＝{L₁ U L₂U...L_n}。注意共同观看视频列表中的成员资格不限于N个随机采样的视频、而是包括与视频N共同观看的任何视频。这样，L包含与N中的任何视频共同观看的每个视频。

接着创建用于每个采样的视频的矢量V₁、V₂、...V_m，这些矢量代表L中的哪些成员与V_i被共同观看。为了实现这一点，设置矢量长度等于合并的视频共同观看列表长度：|V|＝|L|。矢量中的每个元素用来代表L中的对应视频。例如每个矢量V₁、V₂、...V_n中的第5 个元素代表L中的第5个视频。针对每个矢量V_i，元素将根据编索引的视频是否在该视频V_i的共同观看列表中而设置成0或者1。例如，如果在L中的位置5标识的视频是L₁的成员，则将V_l的第5 个元素设置成0。以这一方式，创建矢量集合{V₁-V_n}，该集合量化共同观看的视频。

接着使用共同观看矢量集合{V₁-V_n}对视频聚类。以这一方式，可以根据普遍共同观看的视频对视频分组。在一个实施例中，通过使用k均值聚类来实现聚类。可以比较在这些矢量之间的距离与如本领域已知的L₁距离或者其它距离度量。在k均值聚类中使用的聚类数目未固定、但是可以由系统设计者选择以最佳地代表在视频采样中预计的子标记数目或者使用静态值、比如5。例如，如果随机采样的视频数目增加，则系统可以增加使用的聚类数目。

在确定聚类之后，去除表现为孤立点的任何聚类。例如可以排除具有太少采样的聚类或者合并到最近聚类中。每个视频V现在与聚类Cl关联。剩余聚类数目是用于训练子标记分类器的潜在值标记数目。每个聚类Cl现在可以用来初始化子标记肯定训练集合。也就是说，Cl_a可以初始化肯定训练集合S_a _pos，Cl_b初始化肯定训练集合 S_b _pos，等等。

为了初始化肯定训练集合S_n，向S_n _pos添加用于属于聚类Cl_n的每个视频的共同观看视频列表L。例如，如果Cl_a包括视频3、5 和6，则用共同观看列表的并集构造S_a _pos：S_a _pos＝{L₃ U L₅ U L₆}。在一个实施例中，直至视频在共同观看列表中出现阈值次数才向子标记训练集合添加它们。这一阈值方式去除表现为与共同观看聚类中的其它视频无关、因此更少可能代表潜在子标记的共同观看视频。如上文描述的那样，初始子标记否定训练集合可以包括来自标记否定训练集合的随机采样的视频。初始子标记训练集合简单地是肯定和否定子标记训练集合的并集：S_a＝(S_a _pos U S_a _neg)。现在可以对相应训练集合 S_a-S_n训练子标记分类器C_a-C_n。

由于通过自动处理共同观看数据来完成这一实施例中的子标记生成，所以这一过程无监督并且无需系统管理员的任何管理。此外，对从相互具有共同观看关系的视频提取的特征训练所得子标记分类器，这使得从这一方法导出的子标记分类器也更可能涉及在视频之间的潜在语义差异。

在前文中，共同观看信息用来标识用于初始子标记训练集合的子标记聚类。此外，其它实施例可以通过其它手段、比如通过人工标识语义有意义子标记或者通过根据视频特征的聚类来标识初始子标记训练集合。由于已经初始化子标记训练集合，所以迭代方式如下文描述的那样用来进一步精化子标记分类器。

子标记分类器训练概况

现在参照图3，提供根据一个实施例的子标记分类器训练方式的概况。子标记分类器训练方式联合地训练子标记分类器和标记分类器。由于在标记级标识训练集合301中的视频为肯定或者否定(如上文相对于视频元数据描述的那样)，所以系统未先验地具有对给定的视频训练哪个子标记分类器302的任何确定。为了确定对给定的视频训练哪个子标记分类器，应用备选方式。初始地将当前子标记分类器迭代应用于视频以确定用于每个视频的“最佳拟合”子标记。然后，用于每个子标记的“最佳拟合”视频用来迭代地精化子标记分类器。下一迭代通过使用精化的子标记分类器确定用于视频的 “最佳拟合”来开始。在图3中图示这一概念框架。

训练集合301包括未先验地具有任何子标记指定的视频1-6。在有两个子标记的这一简化模型中，从子标记训练集合S_a和S_b303 提取的特征已经训练子标记分类器C_a和C_b302。在第一迭代中，S_a和S_b是上述共同观看初始化过程确定的初始训练集合。标记训练集合301由子标记训练集合S_a和S_b303评价并且用来确定训练集合301 中的潜在子标记。也就是说，每个视频放置于属于子标记分类器的子标记训练集合304中，该子标记分类器产生最高置信度分数。备选说明是视频的提取的特征现在用来确定视频与哪个特征子标记聚类最相似。在这一示例中，确定从视频1、4和5提取的特征为更接近地拟合的C_a，并且这些视频放置于用于训练C_a’的S_a’中。类似地，从视频2、3和6提取的特征指示这些视频更接近地拟合C_b并且放置于用于训练C_b’的S_b’中。然后对每个相应子标记训练集合S_a’和S_b’304训练下一迭代的子标记分类器C_a’和C_b’305。这提供用于图4中进一步探索的迭代子标记分类训练的概念框架。

概括而言，在这一实施例中，用于标记的分类器(包括子标记分类器集合)的训练通过两个主要步骤执行。第一，当前分类器模型用来确定用于训练集合中的每个视频的“最佳拟合”子标记组。第二，从每个子标记组中的视频提取的特征用来重新训练子标记分类器。

这一训练过程的一个效果在于用于特定视频的“最佳拟合”子标记组可以从一个迭代到另一迭代改变。例如，如果视频的特征分数针对一个子标记相对于另一子标记仅在裕度上打分更佳则产生这一效果，并且由于下一迭代改变子标记训练集合中的视频(并且因此改变训练分类器的特征)的组成，所以视频的特征在下一迭代上在另一子标记组中打分更高。

迭代发展子标记分类器

图4中的数据流程图示出用于迭代地训练子标记分类器的方法的一个实施例。用于标记401的训练集合包括为了训练分割模块 235标识的标记分类器而选择的视频。可以如希望的那样将这些视频进一步分隔成用于在迭代训练期间使用的部分。当前用于训练子标记分类器的视频是活跃训练集合S402。在一个实施例中，训练集合 401中的每个视频也是S中的视频。在下文描述的实施例中，活跃训练集合S402是整个训练集合401的被选择的部分。

活跃训练集合S402包括子标记训练集合S_a-S_n403。在第一迭代上，由比如共同观看数据初始化子标记训练集合S_a-S_n403。

因此，活跃训练集合402包括多个子标记训练集合403，一个子标记训练集合用于每个相应子标记。也就是说，根据子标记训练集合403针对子标记训练集合指定活跃训练集合402中的视频。子标记训练集合403S_a-S_n用来训练关联子标记分类器404C_a-C_n。子标记分类器404C_a-C_n中的每个子标记分类器用来对用于标记的潜在子标记的特征分类并且一起包括用于标记本身的分类器。

由于子标记分类器各自对不同数据集合来训练并且可能置信度分数尚未收敛，所以重新加权505子标记分类器。具体而言，子标记分类器可能由于从视频的特征选择和用于子标记分类器的端数目而尚未收敛。使用这一方式，如上文起初参照图3描述的那样，比较来自不同分类器的置信度分数以确定潜在子标记。在一个实施例中，线性SVM用来校准用于每个分类器的判决分数。一种用于重新加权子标记分类器的方法是使用视频在标记内的关联成员资格在所有训练视频内使用每个子标记分类器来训练线性SVM。在重新加权之后，标记分类器406包括与每个子标记分类器的关联加权因子修改的子标记分类器404对应的子标记分类器C_a’-C_n’的集合。这里可以停止该过程，并且标记分类器406可以用于根据标记分类器406 对提取的视频特征分类。

备选地，可以执行用于改进分类的迭代方式。在所需次数的迭代之后，也可以选择用于标记的最终分类器作为标记分类器406。

第一迭代步骤是确定用于训练集合407的最近潜在子标记。 (重新加权所修改的)子标记分类器404分析从训练集合401中的视频提取的特征以确定用于训练集合401中的每个视频的最可能 (“最近”)潜在子标记。然后向与标识的潜在子标记对应的子标记训练集合403添加训练集合401中的每个视频。

这一迭代方式遵循图3的概念框架。也就是说，来自训练集合中的视频的特征用来发现用于每个视频的“最佳拟合”(即最高置信度)子标记分类器。然后向用于每个视频的“最佳拟合”子标记分类器的子标记训练集合添加该视频。作为示例，扩展子标记训练集合 S_a以包括训练集合401中的其特征与C_b’-C_n’比较由C_a’最佳表征的视频。由于训练集合401包括肯定以及否定训练视频，所以扩展每个子标记训练集合403以包括与它的子标记分类器405最接近地匹配的肯定和否定采样。

下文描述在一个实施例中用来引导子标记训练集合的附加引导步骤408。在用标识为与每个潜在子标记对应的视频扩展子标记训练集合并且可选地执行引导之后，使用扩展的子标记训练集合作为用于下一训练迭代的活跃训练集合502。在一个实施例中，在创建子标记分类器404之后重置子标记训练集合403，从而子标记训练集合 403的下一迭代仅包括标识为用于子标记的最接近匹配的视频。如果希望，则在设置次数的迭代之后或者在针对分类器406收敛之后，如果分割模块235已经包括用于更多训练迭代的若干分割，则扩展标记训练集合401以包括更多视频。

子标记训练集合引导

在块409的引导可以用来在重新训练子标记分类器405之前通过选择用于在活跃训练集合402中包括的视频来修改子标记训练集合。由于可以从用户提供的元数据标识标记，所以用户提供的标记可能“有噪声”并且偶尔不可靠。作为结果，希望未包括尽管被用户标记为用于标记的肯定、但是可能没有与具有标记的其它视频相似的特征的视频。这使得视频更少可能是真正的肯定。因此有助于减少用于每个子标记的肯定训练集合以仅包括“可信”肯定。另外，用于子标记的否定训练集合可以包括用于标记的很大数目的否定而许多否定共享与子标记的很少特征共性。这样，可以通过主要包括“易混淆”——也就是与代表子标记的特征最相似——的否定视频来改进否定训练集合。在块409的引导用来根据这些概念选择活跃训练集合402。

一种减少“不可信”肯定的方法是通过包括根据适用子标记分类器提供最高置信度判决分数的k个样本来更新子标记训练集合。换而言之，从用于训练子标记标签的下一迭代的训练集合排除属于该子标记、但是根据子标记分类器提供最低置信度的肯定，因为标记尽管提供“肯定”但是可能在用户提供的数据录入给定时是“不可信”肯定。

类似地，在构造用于子标记的否定训练集合时，在训练集合中包括的否定视频是按照子标记分类器提供最高置信度作为肯定的否定视频。也就是说，可以在用于每个子标记的否定训练集合中包括k 个最“易混淆”或者“最难”否定(最可能向分类器训练提供错误肯定)。可以根据子标记分类器训练的能力调节k确定的训练集合大小以维护存储器中的视频。作为这一引导的结果，对包含最“可信”肯定样本的“干净”数据集合训练子标记分类器，并且子标记分类器可以更能容忍用户的标签噪声。k个肯定样本无需与k个否定样本相同。在一些实施例中，随着该过程迭代地精化分类器而增加活跃训练集合的大小(也就是，训练集合大小k)。

使用子标记分类器来标识视频标记

现在参照图5中的一个实施例描述用于使用标记分类器将标记应用于视频的系统，这些标记分类器利用子标记分类器部件。标记分类器501如图所示包括多个子标记分类器502C_1a-C_1n。子标记分类器502的集合评价的分类器501C₁确定与标记“自行车”的关联。根据上文描述的技术训练子标记分类器502。此图图示使用提取的视频特征503来评价用于视频的可能标记。

在针对标记501中的成员资格评价提取的视频特征503时，子标记分类器502对视频分类以确定分类分数504。分数S_1a是C_1a在被提供提取的视频特征503作为输入时产生的分数。子标记分类器产生更多分数504为S_1a-S_1n。为了确定用于标记分类器501的最终分数505S₁，使用重新加权调整来调整子标记分类器分数S_1a-S_1n，并且选择最大分数作为分类器分数505S1。最大分数505用来确定标记“自行车”中的成员资格。

附加分类器506也可以用来确定涉及与这些分类器关联的标签的分数507。如图所示，C3涉及“变压器”，其它标记分类器也包括子标记分类器组，而更多标记分类器、比如涉及“狗”的C2未包括。使用分数S₁-S_x，系统可以评价与标记关联的标签准确表征从视频提取的特征的似然度。

概要

使用视频内的潜在子标记属于训练集合中的标记这样的概念，改进使用多个子标记分类器对标记的标识。可以通过多种方法执行子标记训练集合的初始化、比如按照共同观看特征的初始化。通过精化用于每个子标记的训练集合以排除局外肯定视频并且包括最 “易混淆”的否定视频，可以训练子标记分类器以提高子标记训练集合的鲁棒性。

利用子标记分类器的标记学习的应用

上文描述的过程和从中获得的分类器具有许多有价值的应用。

1)对视频的用标记加标签：作为一个例子，该过程可以用来向视频添加标记标签。在一个实施例中，针对每个分类器214，该分类器的所得分数指示视频117代表关联标记211，向视频的元数据添加对应标记标签211A。在一个备选实施例中，对分数排序，并且向视频元数据仅添加与前N个标记211对应的标签。在另一备选实施例中，仅添加指示特别强匹配的那些分数——即在某一特定阈值以上的仅那些分数。

2)对视频的用子标记加标签：尽管子标记分类器从未假设从与子标记分类器关联的特征导出语义意义，但是有可能发展用于一些子标记的语义意义。子标记训练集合包括视频，这些视频本身包括描述文本和其它元数据。将这一元数据用于子标记训练视频集合，文本信息的分析可以提供用于子标记的标签。由于先前从潜在信息发展子标记，所以如果为子标记标签发展充分确信度，则应当仅为视频提供语义意义。因此，仅如果文本信息存在于子标记视频中的超多数中，则文本信息视为语义有意义标签。如果在子标记训练集合中的最频繁文本描述超过用于频率和分布的阈值，则采用它作为子标记的语义标签，并且子标记中的成员资格还可以将子标记标签应用于视频元数据。在使用这一技术时的一个实施例中，用更大怀疑对待子标记标签，并且提示用户确认子标记标签适用。

3)基于标记标识来纠正视频描述：作为训练的子标记分类器的另一使用，可以测试并且——如果发现不准确则——修改用户供应的现有文本元数据。这对于标识和整理“垃圾”视频描述而言特别有用，其中提交视频的用户有意地提供误导描述。更具体而言，获得用于视频117的用户供应的文本元数据。如果文本元数据或者用户供应的标记包括标记标签211A，已经学习用于该标记标签的分类器214，则将分类器应用于视频、由此产生分数。如果分数指示视频未代表关联标记——例如分数在某一最小阈值以下——则可以采取补救动作、比如标记视频、从用户供应的元数据去除关联文本等。特别的，这一技术有助于保证特定标记具有具体意义并且由此修整边界线情况以改进用户搜索。

尽管本公开内容涉及标识用于在视频中使用的标记的方法，但是使用潜在子标记分类器以确定标记成员资格可以应用于多种其它分类系统。例如图像分类或者声音分类也可以受益于基于潜在子标记标识符确定的分类。

已经关于一个可能实施例特别具体地描述本公开内容。本领域技术人员将理解可以在其它实施例中实现公开内容。首先，部件和变量的特定命名、术语的大写、属性、数据结构或者任何其它编程或者结构方面并非必需或者重要的，并且实施公开内容或者它的特征的机制可以具有不同命名、格式或者协议。在这里描述的各种系统部件之间的特定功能划分也仅出于举例的目的而非必需；单个系统部件执行的功能可以代之以由多个部件执行，并且多个部件执行的功能可以代之以由单个部件执行。

上文描述的一些部分在对信息的操作的算法和符号表示方面呈现本公开内容的特征。这些算法描述和表示是数据处理领域技术人员用来向本领域其他技术人员最有效地传达他们的工作实质的手段。这些操作在功能或者逻辑上被描述之时被理解为由计算机程序实施。另外，将这些操作布置称为模块或者冠以功能名称也已经证实有时是便利的而不失一般性。

除非如从上文讨论中清楚的那样另有具体陈述，理解在说明书全文中利用诸如“确定”或者“显示”等术语的讨论指代计算机系统或者相似电子计算设备的动作和过程，该计算机系统或者相似电子计算设备操控和变换计算机系统存储器或者寄存器或者其它这样的信息储存器、传输或者显示设备内表示为物理(电子)数量的数据。

本公开内容的某些方面包括这里以算法的形式描述的过程步骤和指令。应当注意可以用软件、固件或者硬件体现本公开内容的过程步骤和指令并且在用软件体现时可以下载这些过程步骤和指令以驻留于实时网络操作系统使用的不同平台上并且从不同平台操作。

本公开内容也涉及一种用于执行这里的操作的装置。这一装置可以被具体构造用于所需目的，或者它可以包括由计算机可以访问的计算机可读介质上存储的计算机程序有选择地激活或者重新配置的通用计算机。这样的计算机程序可以存储于计算机可读存储介质、比如但不限于包括软盘、光盘、CD-ROM、光磁盘的任何类型的盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或者光卡、专用集成电路(ASIC)或者适合用于存储电子指令的任何类型的非瞬态计算机可读存储介质中。另外，在说明书中指代的计算机可以包括单个处理器或者可以是运用多处理器设计用于增加计算能力的架构。

这里呈现的算法和操作并非固有地与任何特定计算机或者其它装置有关。各种通用系统也可以与根据这里的教导的程序一起使用，或者构造更专门化的装置以执行所需方法步骤可以证实是便利的。用于多种这些系统的所需结构将与等效变化一起为本领域技术人员所清楚。此外，未参照任何特定编程语言描述本公开内容。应理解多种编程语言可以用来实施如这里描述的本公开内容的教导并且提供对具体语言的任何引用以便公开本公开内容的实现和最佳实施方式。

本公开内容很好地适合在诸多拓扑之上的广泛多种计算机网络系统。在这一领域内，大型网络的配置和管理包括通过网络、比如因特网通信地耦合到不相同计算机和存储设备的存储设备和计算机。

最后应当注意，在说明书中使用的语言已经主要出于可读性和教导的目的而加以选择并且可以未被选择用来界定或者限制发明主题内容。因而，本公开内容的公开内容旨在于示例而非限制在所附权利要求中阐述的公开内容的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 使用潜在子标记来学习用于视频注释的标记 [P] . 中国专利： CN103299324B . 2016.02.17
2. 使用潜在子标记来学习用于视频注释的标记 [P] . 中国专利： CN103299324A . 2013-09-11
3. Learning tags for video annotation using latent subtags [P] . AU2011326430B2 . 2015-01-22

机译：使用潜在子标签学习用于视频注释的标签
4. Learning tags for video annotation using latent subtags [P] . 美国专利： US8930288B2 . 2015-01-06

机译：使用潜在子标签学习用于视频注释的标签
5. Learning tags for video annotation using latent subtags [P] . AU2011326430A1 . 2013-05-30

机译：使用潜在子标签学习用于视频注释的标签