首页> 中国专利> 大众传媒的社会性和交互式应用

大众传媒的社会性和交互式应用

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

基于实时环境音频和/或视频识别为大众传媒提供社会化和交互式应用的系统，方法，装置，用户界面以及计算机程序产品。在一些实现中，提供一种方法，包括：接收标识了与媒体广播相关联的环境音频的描述符；将该描述符与一个或多个参考描述符进行比较；以及至少部分地基于所述比较结果来确定所述媒体广播的收视率。

著录项

公开/公告号CN101517550A

专利类型发明专利
公开/公告日2009-08-26

原文格式PDF
申请/专利权人谷歌公司;
展开▼

申请/专利号CN200680044650.X
发明设计人迈克尔·芬克;舒梅特·巴卢哈;米歇尔·科维尔;
展开▼

申请日2006-11-27
分类号G06F13/00(20060101);
代理机构11219 中原信达知识产权代理有限责任公司;
代理人郑立;林月俊
地址美国加利福尼亚州
入库时间 2023-12-17 22:31:46

法律信息

法律状态公告日

法律状态信息

法律状态
2018-02-13

专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F13/00 变更前: 变更后: 申请日:20061127

专利权人的姓名或者名称、地址的变更
2013-01-02

授权

授权
2009-10-21

实质审查的生效

实质审查的生效
2009-08-26

公开

公开

说明书

相关申请

本申请要求2005年11月29日申请的美国临时专利申请第60/740,760号，名称为“Environment-Based Referrals”的优先权，通过引用将其内容合并于此。

本申请要求2006年8月29日申请的美国临时专利申请第60/823,881号，名称为“Audio Identification Based on Signatures”的优先权，通过引用将其内容合并于此。

技术领域

本发明涉及大众传媒的社会性和交互式应用。

背景技术

大众传媒通道(例如电视和电台广播)通常给广大听众提供有限的内容。相反地，万维网提供了海量信息，但可能只有少数人对其内容感兴趣。传统的交互式电视通过向观众提供一装置以便与他们的电视进行交互并且接收与电视广播相关的内容和/或服务，来试图在这两种通信媒体之间架起桥梁。

传统的交互式电视通常只对通过电缆或卫星网络交纳了开户入网费的观众可用。要接收交互式电视服务，观众必须租赁或购买机顶盒并由技术人员对其进行安装。观众的电视连接至该机顶盒，该机顶盒能允许观众利用遥控或其它输入设备与其电视进行交互，并接收信息，娱乐以及服务(例如：广告，在线购物，问卷调查，游戏活动等等)。

尽管传统的交互式电视能够改善观众的电视体验，但仍然需要对于大众传媒的社会性和交互式应用，其不仅仅依赖于电视或电台与机顶盒或计算机之间的重要的附加硬件或物理连接。

传统的交互式电视系统所缺少的一项社会性和交互式电视应用能够轻松地向大众传媒通道提供补充信息。利用传统的系统，用户将不得不登录到计算机上并查询这些信息，从而会减少由大众传媒所提供的被动体验。而且，当用户观看广播节目时，传统电视系统不能够实时地提供补充信息。

传统的交互式电视系统所缺少的另一项社会性和交互式电视应用能够动态地将一个观众与自组社会对等群体(ad hoc social peercommunity)(例如：讨论组，聊天室等)实时地链接起来。请想象你在电视上观看最新的连续剧“朋友”，并发现剧中人物莫尼卡怀孕了。你想要实时地聊天，评论，或阅读其它观众对剧情的反应。一种选择是登录你的计算机，在搜索引擎中输入“朋友”的名称或其它相关词语，并执行搜索以找到关于“朋友”的讨论组。然而，观众的这种查询行为减少了由大众传媒所提供的被动体验，并且不会使观众愿意与同时在观看该节目的其他观众进行动态的交互(例如：评论，聊天等)。

传统电视系统和交互式电视系统的另一个不足是评估广播节目事件的大众收视率的简单方法。广播节目事件的大众收视率对于用户、播音员以及广告主都非常有吸引力。可通过诸如收视率之类的测评系统来部分地解决这些需求。然而，这些收视率需要安装专用的硬件并且需要参与观众的合作。

发明内容

通过基于实时环境音频和/或视频识别而提供社会性和交互式应用的系统，方法，装置，用户界面以及计算机程序产品，可解决上述缺陷。

在一些实施例中，提供一种方法，包括：接收标识了与媒体广播相关联的环境音频的描述符；将该描述符与该媒体广播相关的参考描述符进行比较；以及基于所述比较结果汇集关于该媒体广播的个性化信息。

在一些实施例中，提供一种方法，包括：接收标识了与第一媒体广播相关联的环境音频的第一描述符；接收标识了与第二媒体广播相关联的环境音频的第二描述符；比较该第一描述符和该第二描述符以确定该第一和第二媒体广播是否相同；以及基于比较结果汇集个性化信息。

在一些实施例中，提供一种方法，包括：检测与媒体广播相关联的环境音频；生成标识该媒体广播的描述符；将该描述符发送至网络资源；以及基于所述描述符从所述网络资源接收汇集的个性化信息。

在一些实施例中，提供一种系统，包括参考描述符的数据库。数据库服务器有效地连接至该数据库和客户系统。该数据库服务器被配置为接收来自该客户系统的描述符，以标识与媒体广播相关联的环境音频，将接收到的描述符与一个或多个参考描述符进行比较，以及基于比较结果汇集关于该媒体广播的个性化信息。

在一些实施例中，提供一种系统，包括配置为用于对环境音频进行采样的音频检测器。客户端接口有效地连接至该音频检测器并可配置为生成标识媒体广播的描述符。该客户端接口可配置为用于发送该描述符至网络资源，并用于基于该描述符接收来自该网络资源的汇集的个性化信息。

在一些实施例中，提供一种方法，包括：接收标识了与媒体广播相关联的环境音频的描述符；将该描述符与一个或多个参考描述符进行比较；以及至少部分地基于该比较的结果确定该媒体广播的收视率。

在一些实施例中，提供一种方法，包括：生成标识与了媒体广播相关联的环境音频的描述符；向收视率提供者提供该描述符，用以基于该描述符确定该媒体广播的收视率；接收来自该收视率提供者的该收视率；以及在显示设备上显示该收视率。

在一些实施例中，提供一种方法，包括：记录来自媒体广播的环境音频片段；由该环境音频片段生成描述符；以及向收视率提供者提供该描述符。

在一些实施例中，提供一种系统，包括：参考描述符的数据库。服务器有效地连接至该数据库以及客户端系统。该服务器可被配置为接收来自该客户端系统用于标识与媒体广播相关联的环境音频的描述符，将该接收到的描述符与一个或多个参考描述符进行比较，以及至少部分地基于该比较结果确定该媒体广播的收视率。

在一些实施例中，提供一种系统，包括：包括设置为用于对环境音频进行采样的音频检测器。客户端接口有效地与该音频检测器相连接，并可被设置为生成标识了与媒体广播相关联的环境音频的描述符。客户端接口可配置为用于向网络资源发送该描述符；以及基于该描述符接收来自网络资源的收视率信息。

其它实施例被定向为系统，方法，装置，用户界面，以及计算机程序产品。

附图说明

图1是大众个性化系统的一个实施例的框图；

图2是包括图1所示客户端接口的环境音频识别系统的一个实施例的示图；

图3是用于提供大众个性化应用的过程的一个实施例的流程图；

图4是音频指纹处理过程的一个实施例的流程图；

图5是用于与大众个性化应用进行交互的用户界面的一个实施例的流程图；

图6是客户端系统的硬件架构的一个实施例的框图，其中该客户端系统用于实现如图1所示的客户端接口；以及

图7是重复检测过程的一个实施例的流程图。

具体实施方式

大众个性化应用

大众个性化应用提供与大众传媒广播(例如：电视，电台广播，电影，互联网广播等)相关的个性化和交互式信息。这些应用包括但不限于：个性化信息层，自组社会对等群体，实时的大众收视率以及视频(或音频)书签等。尽管在此处披露的一些大众传媒的实例是在电视广播的背景下，但所披露的实施例同样适用于电台和/或音乐广播。

个性化信息层为大众传媒通道提供补充的信息。个性化信息层的实例包括但不限于：时尚，政治，商业，健康，旅游等等。例如，当观看关于著名人士的新闻片段时，在电视屏幕或计算机显示设备上会为观众呈现出时尚层，该时尚层提供关于该著名人士在该新闻片段中穿着和佩戴的服装和服饰的信息和/图片。此外，个性化层可包括宣传该新闻片段相关产品或服务的广告，例如指向出售该名人所穿着服装的服装店的链接。

自组社会对等群体为在电视上观看相同演出或收听相同广播电台的用户提供评论的场所。例如，可向观看CNN最新头条的用户提供评论媒介(例如：聊天室，消息板，WIKI页面，视频链接等)，该评论媒介允许用户对正在进行的大众传媒广播进行交谈，评论或阅读其他观众的反应。

实时的大众收视率为内容提供商和用户提供收视率信息(类似于Nielsen收视率)。例如，可通过用户的社会化网络和/或通过类似的收视人群，即时地向用户提供正在观看或收听的电视频道或广播电台的实时的大众收视率。

视频或音频书签为用户提供轻松的方法以创建他们最喜爱的广播内容的个性化图书馆。例如，用户可简单地在计算机上按下按键或遥控设备，广播内容的环境音频和/或视频的片段即被记录，处理以及保存。该片段可作为指向该节目或该节目的部分的书签，以便日后观看。该书签可与朋友共享或被保存供以后个人参考使用。

大众个性化网络

图1为提供大众个性化应用的大众个性化系统100的框图。系统100包括一个或多个客户端接口102，音频数据库服务器104以及社会性应用服务器106，上述各部分均通过网络108(例如：因特网，内部网，局域网，无线网络等)进行通信。

客户端接口102可以是允许用户输入和接收信息的任意设备，并且其能在显示设备上呈现出用户界面，其包括但不限于：台式机或便携式计算机，电子设备，电话，手机，显示系统，电视，计算机监视器，导航系统，便携式媒体播放器/记录器，个人数字助理(PDA)，游戏机，手持电子设备，以及嵌入式电子设备或装置。客户端接口102的描述详见图2。

在一些实施例中，客户端接口102包括环境音频检测器(例如麦克风)，用于监测和记录在广播环境下(例如：用户的起居室)大众传媒广播的环境音频。一个或多个环境音频段或“小片段”被转换为独特且稳定的统计摘要，被称为“音频指纹”或“描述符”。在一些实施例中，描述符为包含一个或多个音频签名部分的压缩文件，其中该音频签名部分能够与之前生成的与该大众传媒广播相关的参考描述符或统计量相匹敌。

一种用于为音乐识别生成音频指纹的技术在Ke，Y.，Hoiem，D.，Sukthankar，R.发表于2005年“Computer Vision and Pattern Recognition”名称为“Computer Vision for Music Identification”的文中被描述，通过引用将其全文合并于此。在一些实施例中，采用了由Ke等人提出的音乐识别方法，以为电视音频数据和查询生成描述符，如图4所示。

美国临时专利申请第60/823,881号“Audio Identification Based onSignatures(基于签名的音频识别)”描述了一种利用小波生成音频描述符的技术。该申请描述了一种技术，利用计算机视觉技术和大规模数据流处理算法相结合以产生能够被有效匹配的音频片段的压缩描述符/指纹。该技术使用了小波，小波是已知的分级分解功能的数学工具。

在“基于签名的音频识别”申请中，检索过程的实施例包括以下步骤：1)给定音频片段的音频频谱后，提取频谱图像，例如：持续时间11.6*w ms，随机间隔平均d ms。对各频谱图像：2)计算该频谱图像的小波；3)提取top-t小波；4)创建该top-t小波的二进制表示；5)使用最小散列(min-hash)以创建该top-t小波的子指纹；6)利用具有b bins和1散列表的LSH以查找最匹配的子指纹段；7)丢弃小于v匹配的子指纹；8)计算从剩余候选子指纹到查询子指纹的hamming距离；以及9)使用动态编程将这些匹配跨越时间进行结合。

在一些实施例中，用于标识客户端接口102的描述符和相关用户标识符(“用户ID”)被经网络108发送至音频数据库服务器104。音频数据库服务器104将该描述符与多个参考描述符进行比较，其中该多个参考描述符为预先确定的并被存储于与音频数据库服务器104相连接的音频数据库110中。在一些实施例中，音频数据库服务器104连续地更新存储于音频数据库110中，来自新近的大众媒体广播的参考描述符。

音频数据库服务器104确定接收到的描述符和参照描述符中的最佳匹配，并将最佳匹配信息发送到社会应用服务器106。该匹配处理将参照图4进行详细描述。

在一些实施例中，社会应用服务器106接受与客户端接口102相关联的WEB浏览器连接。利用最匹配信息，社会应用服务器106汇总该用户的个性化信息，并将其发送至客户端接口102。该个性化信息可包括但不限于：广告，个性化信息层，大众收视率，以及与评论媒介相关的信息(例如：自组社会对等群体，论坛，讨论组，视频会议等等)。

在一些实施例中，该个性化信息可被用于为观众创建聊天室，而无需了解他们正在实时收看的节目。可通过直接比较由客户系统发送来的数据流中的描述符以确定匹配，从而创建聊天室。即，可围绕具有匹配描述符的观众而创建聊天室。在这样的实施例中，无需将自观众处接收到的描述符与参考描述符进行比较。

在一些实施例中，社会应用服务器106向客户端接口102提供网页，该页面被运行于客户端接口102的WEB浏览器(例如，微软公司的Internet Explorer^TM)所接收并显示。社会应用服务器106也接收来自客户端接口102和/或音频数据库服务器104的用户ID，以帮助汇集个人化内容并将网页提供给客户端接口102。

显而易见的是，系统100的其它实施方式也是可能的。例如系统100可包括多个音频数据库110，音频数据库服务器104和/或社会应用服务器106。可选地，音频数据库服务器104和/或社会应用服务器106可为单个服务器或系统，或是网络资源和/或服务的一部分。此外，网络108可包括多个网络和链路，利用多种网络设备(例如：集线器，路由器等)和介质(例如：铜导线，光纤，无线频率，等等)以各种拓朴和配置将它们有效地连接在一起。在此描述的客户-服务器架构仅作为示例。其它计算机架构也是可能的。

环境音频识别系统

图2为环境音频识别系统200，包括如图1所示的客户端接口102。系统200包括大众传媒系统202(例如，电视机，收音机，计算机，电子设备，手机，游戏机，网络设备等等)，环境音频检测器204，客户端接口102(例如：台式机或便携式计算机等等)以及网络接入设备206。在一些实施例中，客户端接口102包括用以呈现用户界面(UI)208的显示设备210，其中用户界面208可供用户与大众个性化应用进行交互，如图5所示。

大众传媒系统202在运行时生成大众传媒广播(例如电视音频)的环境音频，该环境音频被环境音频检测器204检测。环境音频检测器204可为任何能够检测环境音频的设备，包括独立式麦克风和与客户端接口102集成的麦克风。被检测的环境音频由客户端接口102编码，以提供标识该环境音频的描述符。该描述符经由网络接入设备206和网络108被发送至音频数据库服务器104。

在一些实施例中，在客户端接口102上运行的客户端软件连续地监测并记录n秒(例如5秒)环境音频的音频文件(“片段”)。根据图4所示的过程，该片段随后被转换为k比特编码的描述符(例如32比特)的m帧(例如415个帧)。在一些实施例中，监测和记录是基于事件的。例如，监测和记录可以在指定的日期和指定时间(例如：星期一，晚8:00)自动启动，并持续指定的时间(例如晚8:00至9:00)。可选地，监测和记录也可以是响应于来自控制设备(例如：遥控等)的用户输入(例如：点击鼠标，功能键或组合键等)而启动。在一些实施例中，利用Ke等人描述的32比特/帧判别特征的流送变化(streaming variation)，来对环境音频进行编码。

在一些实施例中，客户端软件作为“侧边栏”或其它用户界面元素运行。以这种方式，当客户端接口102启动时，环境音频采样可立即开始并在“背景”中运行，并且其结果(可选择地)被显示于该侧边栏中而无需调用一个完整的WEB浏览器会话。

在一些实施例中，环境音频采样可在客户端接口102启动或在观众登录到服务或应用(如：电子邮件等)时开始。

描述符被发送至音频数据库服务器104。在一些实施例中，描述符为环境音频的压缩的统计摘要，如Ke等人所描述的。通过发送统计摘要，由于该统计摘要是不可逆的，即，原始的音频不能从该描述符中恢复，因此可保持用户声音的私密性。因此，在广播环境中被监测和记录的用户或其它个人的对话无法从该描述符再现。在一些实施例中，可利用一个或多个现有加密技术(例如：非对称或对称密钥加密，椭圆加密等等)来加密描述符，以提供额外的私密性和安全性。

在一些实施例中，描述符作为查询提交(也被称为查询描述符)而被发送至音频数据库服务器104，该查询提交是响应于监测过程在客户端接口102所检测到的触发事件。例如，触发事件可以是电视节目的开始旋律(如：“宋飞传”的开始曲)或演员的对话。在一些实施例中，查询描述符可作为连续的流媒体过程的一部分而被发送至音频数据库服务器104。在一些实施例中，查询描述符可响应于用户输入(如：通过遥控，鼠标点击等等)而被发送至音频数据库服务器104。

大众个性化过程

图3为大众个性化过程300的流程图。过程300的步骤无需以任何特定的顺序完成，并且至少有一些步骤可在同一时间在多线程或并行处理环境下被执行。

过程300在客户端接口(例如：客户端接口102)监测并记录了广播环境下大众媒体广播的环境音频片段时开始(302)。记录的环境音频片段被编码为描述符(如：压缩的统计摘要)，该描述符可被作为查询发送至音频数据库服务器(304)。该音频数据库服务器将该查询与从大众媒体广播统计量计算出的参考描述符的数据库进行比较，以确定与该查询最匹配的候选描述符。该候选描述符被发送至社会应用服务器或其它网络资源，该社会应用服务器或其它网络资源利用该候选描述符来为用户汇集个性化信息(310)。例如，如果该用户正在收看电视剧“宋飞传”，则从该电视剧的环境音频生成的查询描述符将与从之前的“宋飞传”节目所获得的参考描述符相匹配。因此，最匹配的候选描述符被用于汇集关于“宋飞传”的个性化信息(例如，新闻故事，讨论组，指向自组社会对等群体或聊天室的链接，广告等等)。在一些实施例中，利用散列(hashing)技术(如直接哈希或位置敏感散列法(LSH))有效地执行匹配程序，以得到候选描述符的短列表，如图4所示。随后在验证步骤中处理候选描述符，例如Ke等人所描述的。

在一些实施例中，来自不同观众的查询描述符直接进行匹配，而不是将每个查询与参考描述符的数据库进行匹配。这样的实施例可允许创建关于主题事件的自组社会对等群体，对该主题事件来说参考描述符的数据库不可用。这样的实施例可实时地匹配处于相同公共场所(如体育场，酒吧等)使用便携式电子设备(例如：手机，PDA等)的观众。

大众收视率

在一些实施例中，从当前观看广播(如：电视剧，广告等)的观众列表中推出实时和汇集的统计量。这些统计量在观众使用其它应用时能够在背景中被收集到。统计量可包括但不限于：1)收看该广播的观众的平均人数；2)观众收看该广播的平均次数；3)观众收看的其它节目；4)观众的最小和最大人数；5)观众离开一个广播后最常切换到哪些节目；6)观众收看广播的时间；7)观众换台的次数；8)观众收看哪些广告；以及9当观众进入一个广播时，他最常从哪个节目切换过来等等。一个或多个的大众收视率可从这些统计量中被确定。

可使用被监测的每一广播频道的计数器来生成用于生成大众收视率的统计量。在一些实施例中，这些计数器可被分为人口组数据或地理组数据。观众可利用大众收视率来了解正在进行的广播节目中哪些最受欢迎(如：通过在2004超级碗中场休息演出时通告收视率增长)。广告和内容提供商也可利用大众收视率来响应于收视率而动态地调整播放的素材。这对于广告来说尤其适用，因为由广告公司制作的时间短，版本多的广告可很容易地根据观众的收视率水平来进行更换。统计量的其它例子包括但不限于：按人数或按时间电视广播相对于电台广播的大众收视率，一天中的黄金时间，即，高峰收看/收听时段，在给定区域内的家庭住户数，在特定节目(节目类型，一天的特别时间)期间的冲浪频道数，广播的音量等等。

个性化信息被发送至客户端接口(312)。大众收视率也可被存储于数据库中供其它过程使用(318)，例如上述广告的动态调整。该个性化信息在客户端接口被接收到(314)，并在此被格式化并呈现在用户界面(316)。该个性化信息可与在用户界面呈现给用户的评论媒介(例如：聊天室中的文本消息)相关联。在一些实施例中，聊天室可包括一个或多个子组。例如，关于“宋飞传”的讨论组可能包括称为“宋飞专家”的子组，或者子组可与特定人群，例如年龄在20-30岁之间观看“宋飞传”的女性相关联，等等。

在一些实施例中，用于为大众收视率生成统计量的原始信息(如计数器值)被在客户端接口收集并存储，而不是在社会应用服务器。只要用户在线和/或调用大众个性化应用，该原始信息就可被传送至广播者。

在一些实施例中，广播测量盒(BMB)被安装在客户端接口。该BMB可以是类似于机顶盒但不与广播设备相连接的简单硬件设备。与Neilsen收视率系统需要在电视上安装硬件不同，BMB可被安装于靠近大众传媒系统处或在电视信号的范围之内。在一些实施例中，BMB自动记录音频片段并生成存储于存储器(如闪存介质)中的描述符。在一些实施例中，BMB可选地包括一个或多个硬件按钮，用户通过按下按钮可指示他们正在收看哪些广播节目(类似收视率)。由收视率提供商选出的BMB设备可不时地收集所存储的描述符，或者BMB可通过网络连接(例如：电话，因特网，诸如SMS/载波电台的无线电等等)不时地向一个或多个感兴趣方广播所存储的描述符。

在一些实施例中，可监测广告以判断该广告的效果，该效果可被报告给广告主。例如，哪些广告被观看，被跳过，广告的音量等等。

在一些实施例中，图像捕捉设备(如：数码相机，录像机等等)可被用于计量有多少观众在收看或收听广播。例如，各种现有的图像匹配算法可被应用于图像或图像序列，以确定在特定的广播期间处在广播环境中的观众的数量。从该图像获得的图像和/或数据可被用于与音频描述符相结合，以收集用户的个性化信息，计算大众收视率，或为了其它目的。

音频指纹处理过程

图4为音频指纹处理过程400的流程图。过程400的步骤无需以任意特定的顺序完成，并且至少有一些步骤可在同一时间在多线程或并行处理环境中执行。过程400实时地或低延时地将客户端接口(例如：客户端接口102)生成的查询描述符与存储在一个或多个数据库中的参考描述符进行匹配。过程400采用Ke等人提出的技术来处理环境音频数据(例如来自电视广播的)和查询。

过程400开始于客户端接口将环境音频检测器(例如麦克风)获取的大众传媒广播的环境音频片段(例如：5-6秒的音频)分解为相互重叠的帧(402)。在一些实施例中，这些帧之间相隔几毫秒(例如：间隔12毫秒)。各个帧被转换为经训练后可克服音频噪声和失真的描述符(例如：32比特描述符)(404)，如Ke等人所描述的。在一些实施例中，各描述符表示音频片段的识别统计摘要。

在一些实施例中，描述符可被作为查询片段(也被称为查询描述符)而发送至音频数据库服务器，该描述符在该音频数据库服务器与参考描述符的数据库相匹配，该参考描述符标识了之前记录的大众传媒广播的环境音频片段的统计摘要(406)。可确定具有最佳匹配的候选描述符的列表(408)。可对候选描述符进行评分，使得与查询描述符时序一致的候选描述符的分值高于与查询描述符不够时序一致的候选描述符(410)。具有最高分值(例如，超过一充分高的阈值的分值)的候选描述符被发送或以其它方式提供给社会应用服务器(412)，这些候选描述符在社会应用服务器可被用于汇集与媒体广播相关的个性化信息。在将候选描述符发送或以其它方式提供给社会应用服务器(412)之前利用阈值确保该描述符是充分匹配的。

在一些实施例中，可从不同媒体公司提供的广播生成参考描述符的数据库，该数据库可被索引并被用于生成描述符。在其它实施例中，也可利用电视节目表或其它元数据和/或内置于广播信号中的信息来生成参考描述符。

在一些实施例中，可利用语音识别技术以帮助识别哪些节目正在被收看。这种技术可帮助用户讨论新闻事件而不仅仅是电视剧。例如，用户可在与其它观众不同的频道收看航天飞机的发射，因此，可能获得不同的音频信号(例如，由于不同的播音员)。语音识别技术可被用于识别关键字(如，航天飞机，发射等等)，该关键字可被用于将用户和评论媒介相链接。

散列描述符

Ke等人利用计算机视觉技术来寻找对音频的高判别力，简洁的统计量。他们的程序在标记的正例(其中x和x’为同一音频的噪声版本)和反例(其中x和x’来自不同的音频)对中训练。在此训练阶段，基于推进(boosting)的机器学习技术使用标记对来选择共同创建了高判别力的统计量的32个过滤器和阈值的组合。过滤器利用在时域和频域上的第一阶和第二阶差分来定位光谱图幅值的变化。使用这些简易差分过滤器的一个益处是可使用整数图像技术来高效地计算他们，其中整数图像技术在Viola，P.和Jones，M.发表于“International Journal ofComputer Vision”，(2002)期，题目为“Robust Real-Time ObjectDetection”的文章中有所描述，其全文通过引用合并于此。

在一些实施例中，这32个过滤器的输出为阈值，在每一音频帧提供1bit/每一过滤器。这32个阈值仅由被发送的音频的那一帧的描述符而得到。这种编码中的稀疏性保证了用户的私密性，防止未经授权的窃听。此外，这些32比特的描述符对于训练数据中的音频失真是强健的，从而使正例(如匹配的帧)具有小的Hamming距离(例如，衡量不同比特数的距离)，并且反例(如不匹配的帧)具有大的Hamming距离。请注意，也可使用更多或更少数量的过滤器，并且在每一音频帧使用多于1bit/每一过滤器(如，使用多阈值测试的多比特)。

在一些实施例中，32比特描述符本身用作直接散列算法的散列密钥。描述符是平衡的散列函数。通过不仅仅对查询描述符，也对小部分相似的描述符(与原始查询描述符的Hamming距离最多为2)进行查询，检索速度得到进一步提高。

内部查询时序一致性

一旦使用上述散列程序将查询描述符与音频数据库相匹配，验证该匹配以确定哪个数据库返回的命中项(hit)是精确匹配。否则，候选描述符可能有许多帧与查询描述符相匹配，但时序结构却是错误的。

在一些实施例中，验证是通过将每一数据库命中项视为是对特定查询数据库偏移处的匹配的支持而实现。例如，如果在5秒，415帧长的“宋飞传”查询片段，q中的8个描述符(q₈)命中项第1008个数据库描述符(X₁₀₀₈)，则这支持了在5秒查询和音频数据库中1001帧至1415帧之间的候选匹配。在q_n和X_1000+n，(1≤n≤415)之间的其它匹配可支持此相同的候选匹配。

除了时序一致性之外，当会话声音暂时淹没于环境音频时，我们还需要解释帧。这可被建模为在环境音频与干扰声音之间的互斥性转换。对于各个查询帧i，都有一个隐藏变量y_i，如果y_i等于0，则查询的第i帧仅被建模为干扰；如果y_i等于1，则第i帧被建模为来自干净的环境音频。采用一种极端的情景(纯环境音频或纯干扰)，被用以表示(32比特)每一音频帧的极低的精度证明为合理，并且通过在这两种假设(y_i＝0和y_i＝1)下为该帧矢量的32个位置中的每一个提供额外的比特跳动概率而被弱化。最后，我们利用由训练数据得到的转换概率，将在纯环境音频或纯干扰状态之间的帧间转换建模为隐含一阶马尔可夫过程。例如，我们可重复使用Ke等人在CVPR 2005上给出的66参数概率模型。

在查询矢量q和偏移N帧的环境数据库矢量x_N之间的匹配概率的最终模型，为：

$P (q | x^{N}) = Π_{n = 1}^{415} P (< q_{n}, x_{N + n} > | y_{n}) P (y_{n} | y_{n - 1}) - - - (1)$

其中<q_n，x_m>表示32比特帧矢量q_n与x_m之间的比特差别。该模型结合了时序一致性约束以及环境/干扰隐含马尔可夫模型。

匹配后一致性过滤

人们经常在观看电视的时候与其他人进行交谈，从而出现零星的但较强的声波干扰，特别是在使用基于便携式的麦克风对环境音频进行采样时。假定大多数交谈方式为持续两或三秒钟，在观众之间的简单交流会使5秒的查询不可识别。

在一些实施例中，匹配后过滤被用于处理这些间歇性低置信度的不匹配。例如，我们可使用具有L秒预期驻留时间(expected dwell time)(即频道改变之间的时间)的频道切换的连续时间隐含马尔可夫模型。社会应用服务器106将最近的过去内的最高置信度匹配(与其“打折后的(discounted)”置信度一起)作为与各个客户会话相关联的状态信息的一部分。利用该信息，服务器106可根据哪个具有更高的置信度而从最近过往中选择内容索引匹配，或选择当前索引匹配。

我们用M_h和C_h表示以前步骤(5秒以前)中的最佳匹配及其对数似然置信度分值。如果我们对该以前最佳匹配简单地应用马尔可夫模型，而不进行其它观测，则我们的预期是当前时间的最佳匹配与往前5秒的最佳匹配是相同的程序序列，并且在此预期中我们的置信度为C_h-l/L，其中l＝5秒是查询时间步长。在对数似然中l/L的折扣与马尔可夫模型概率e^-l/L对应，其中，在l长的时间步长期间内不切换频道。

另一种假设通过对当前查询的音频匹配而产生。我们用M₀表示对当前音频片段的最佳匹配，即，该匹配由音频指纹处理过程400产生。C₀为由音频指纹处理过程400给出的对数似然置信度分值。

如果这两种匹配(更新的历史预期和当前片段观察)得出不同的匹配，则我们选择具有更高置信度分值的假设：

其中，M₀是被社会应用服务器106用于选择相关内容的匹配，并且M₀和C₀被作为M_h和C_h而带入下一步。

用户界面

图5为用于与大众个性化应用进行交互的用户界面208的一个实施例的流程图。用户界面208包括个性化层显示区502，评论媒介显示区504，赞助链接显示区506，以及内容显示区508。个性化层显示区502提供与内容显示区508中显示的视频内容有关的补充信息和/或图像。利用导航条510和输入设备(如鼠标或遥控)可对个性化层进行导航。每一层在导航条510中有相关的标签。例如，如果用户选择“时尚”标签，则包含与“宋飞传”相关联的时尚相关内容的时尚层将呈现在显示区502。

在一些实施例中，客户端接口102包括能够呈现用户界面208的显示设备210。在一些实施例中，用户界面208是社会应用服务器106所提供的并呈现在显示设备210屏幕上的浏览器窗口中的交互式网页。在一些实施例中，用户界面208是持久的，并在内容匹配过程中使用的广播音频已经变动之后仍可用于交互。在一些实施例中，用户界面208随时间或响应于触发事件(如新人进入聊天室，商业广告的开始，等等)而被动态地更新。例如，每次播出商业广告时，赞助链接显示区506将被更新为与该商业广告的主题事件相关的新链接518。

在一些实施例中，个性化信息和赞助链接可由电邮发送至观众或是稍后显示于侧边栏。

在一些实施例中，客户端接口102从社会应用服务器106接收个性化信息。该信息包括网页，电子邮件，消息板，链接，即时消息，聊天室或加入进行中的讨论组，电子房间，视频会议或网络会议，语音电话(如：)等邀请。在一些实施例中，用户界面208提供从先前所看广播或电影到评论和/或指向评论的链接的访问。例如，如果用户当前正在收看“怪物史莱克”的DVD，他可能想看以前人们是如何谈论这个电影的。

在一些实施例中，显示区502包括收视率区512，该收视率区512用于显示与广播有关的大众收视率。例如，显示区512可显示与同时播出的其它电视剧相比，当前有多少观众正在收看“宋飞传”。

在一些实施例中，评论媒介显示区504呈现为聊天室类型的环境，多个用户可在其中对广播进行评论。在一些实施例中，显示区504包括文本框514，以利用输入机构516(如按键)输入发送至聊天室的评论。

赞助链接显示区506包括与广播相关联的广告相关的信息，图像和/或链接。例如，链接518之一可将用户带往销售“宋飞传”商品的网站。

内容显示区508为显示广播内容的地方。例如，当前的广播的场景可与其它相关信息(如剧集编号，名称，时间表等等)一起显示。在一些实施例中，显示区508包括用于对显示内容进行导航的控制器520(如滚动按钮)。

视频书签

在一些实施例中，按钮522可被包含于用于标记视频的内容显示区。例如，通过点击按钮522，在显示区508播出的电视剧“宋飞传”被加入到用户最喜爱的视频库，然后可通过基于WEB的流媒体应用或其它访问方法而点播收看该电视剧。根据内容所有者设定的策略，流媒体服务可提供免费的单次观看重放，作为代理为内容所有者收费，或插入要向内容所有者付费的广告。

客户端接口硬件架构

图6是用于如图1所示客户端接口102的硬件架构600的框图。尽管硬件架构600是典型的计算设备(如个人电脑)，公开的实施例也可由任何能够在显示设备上呈现用户界面的设备来实现，其包括但不限于：台式计算机或便携式计算机；电子设备；电话；移动电话；显示系统；电视；监视器；导航系统；便携式媒体播放器/记录器；个人电子助理；游戏系统；手持电子设备；以及嵌入式电子设备或装置。

在一些实施例中，系统600包括一个或多个的处理器602(如CPU)，可选地包括一个或多个显示设备604(如：阴极射线管(CRT)，液晶显示器(LCD)等)，麦克风接口606，一个或多个网络接口608(如：通用串行总线(USB)，以太网，Fire端口等等)；可选地包括一个或多个输入设备610(如鼠标，键盘等)以及一个或多个计算机可读介质612。这些组件中的每一个均为有效地连接至一个或多个总线614(如：扩展标准体系结构(EISA)，外设组件互连标准(PCI)，USB，FireNuBus，综合布线系统(PDS)等)。

在一些实施例中没有显示设备或输入设备，并且系统600只在背景中执行采样和编码(如生成描述符等)，而无用户输入。

术语“计算机可读介质”指参与了向处理器602提供执行指令的任意介质，包括但不限于：非易失性介质(如光盘或磁盘)，易失性介质(如内存)以及传输介质。传输介质包括但不限于：同轴电缆，铜导线以及光纤。传输介质也可是声波，光波或无线电波。

计算机可读介质612进一步包括操作系统616(如MacUnix，Linux等)，网络通信模块618，客户端软件620以及一个或多个应用622。操作系统616可以是多用户，多处理，多任务，多线程，实时的等等。操作系统616执行基本任务，包括但不限于：识别来自输入设备610的输入；将输出发送至显示设备604；在存储设备612上跟踪文件和目录；控制外部设备(如，磁盘驱动器，打印机，图像捕捉设备等)；以及在一个或多个总线614上管理流量。

网络通信模块618包括用于建立和保持网络连接(如用于实现通信协议，如传输控制协议/因特网协议(TCP/IP)，超文本传输协议(HTTP)，以太网，通用串行总线(USB)，Fire等)的各种组件。

客户端软件620提供各种软件组件用于实现大众个性化应用的客户端，以及用于执行如图1至图5所示的各种客户端的功能(如环境音频识别)。在一些实施例中，由客户端软件620执行的一些或全部过程都可以被集成于操作系统616中。在一些实施例中，至少可部分地在数字电子电路，或计算机硬件，固件，软件，或上述各项的任意组合中执行过程。

其它应用624可包括其它任何软件应用，包括但不限于：文字处理，浏览器，电子邮件，即时消息，媒体播放器，电话软件，等等。

检测广告和重播

重复检测

在为查询准备数据库时，能够利用前面所述的描述符预先标志重复的素材是有帮助的。重复的素材可包括但不限于：重复的节目，广告，子片段(如新闻节目中的股票片段)，等等。利用这些标志，可以以这种方式来呈现重复的素材，即不会推出超出进行搜索的用户的关注范围的所有其他素材(如超过最初的10-20条命中项)。下面描述的过程700提供了一种在对数据库的任何搜索查询之前先检测那些副本的方法。

视频广告删除

广播公司关于允许素材被搜索和回放的抱怨之一是嵌入式广告的重播。从广播公司的观点来看，重播是起反作用的：由于它给广告主提供免费的广告从而降低了广告主直接付费的广播节目的价值。除非以向原始广播公司返回一些评论的方式来删除旧广告并适当地加入新广告，否则他们不会从之前的广播素材中赢利。下面描述的过程700提供了一种通过查找重复，也可能连同其它规则(如持续时间，音量，视觉活动，链组空白帧(bracketing blank frame)等)一起检测嵌入式广告的途径。

视频摘要

如果需要非重复节目素材的“摘要”¹(即较短的版本)，获取其的一种方式为删除广告(如检测到的重复素材)，并从正好在该广告位置之前或之后的素材中取出片段。在广播电视上，在节目中这些位置典型地包含“预告片”(在广告之前)和“扼要重述”(正好在广告之后)。如果摘要需要由包括非重复和重复的非广告素材的新闻节目来制作，典型地该重复的非广告素材相当于原声摘要播出(sound bite)。通常，这些片段的提供的信息少于新闻故事主持人的叙述所提供的信息，是好的删除候选对象。如果摘要需要由叙述节目(如：电影或连载部分)来制作，重复的音轨典型地相当于主旋律，情景音乐，或静默。再次地，这些典型地是适合从摘要视频中被删除的片段。以下描述的过程700提供检测这些重复音轨的方法，以便从该摘要视频中将其删除。

重复检测过程

图7为根据重复检测过程的一实施例的流程图。过程700的步骤无需以任意特定的顺序完成，并且至少有一些步骤可在同一时间在多线程或并行处理环境下执行。

过程700开始于从诸如电视，视频上载等的内容集来创建音频统计量的数据库(702)。例如，该数据库可包含32比特/每帧的描述符，如Ke等人所描述的。从该数据库取得查询，并对该数据库运行该查询以了解在哪里产生了重复(704)。在一些实施例中，音频统计量的短片段被当作查询并被执行，以利用散列技术(如直接散列法或位置敏感散列法(LSH))来检查非同一性匹配(匹配但不一致)，从而得到可能的听觉匹配的短列表。然后在验证过程中处理这些候选匹配，例如，如Ke等人所描述的。与经验证的候选匹配相对应的内容可被标识为重复的内容(706)。

最强的非同一性匹配在时间上向前和向后“生长”，以查找重复素材的开始和结束点(708)。在一些实施例中，可利用现有动态编程技术(如维特比(Viterbi)解码)来完成这个。在时间上向前延伸该匹配时，强“种子”匹配中的最后的时间片被设置为“匹配”，用于该查询与该匹配之间的同一数据库偏移的首个低于可信度的匹配的最后的时间片被设置为“不匹配”。在一些实施例中，位于这两个固定点之间的单个帧的匹配分值被用作观察值，并且使用了允许状态内转换以及从“匹配”到“不匹配”状态的单一转换的一阶马尔可夫模型。从匹配到不匹配的至1/L的转换概率可略微任意地设置，其中L是这两个固定点之间的帧数，其对应于允许范围内的对转换位置的最少认知。另一个选择转换概率的可能性是使用匹配强度简档来偏置对较早和较晚转换的估计。但是这会增加动态编程模型的复杂度，并且不大可能会改进结果，因为已经在此期间内将匹配强度用作为观察值了。可使用同样的方法来在时间上向后生长片段匹配(例如，只切换过去/将来并运行同样的算法)。

在一些实施例中，音频提示与非声音信息(如视觉提示)相结合，以获得更高的匹配准确度。例如，通过音频匹配查找到的匹配可随后通过利用简单的视觉相似性度量来进行验证(或第二次检查)(710)。这些度量可包括但不限于：彩色直方图(如在两个图像中相似色彩的频度)，对边缘数量和分布的统计量等。这些不只需针对整个图像计算，也要针对图像的子区域而计算，并与目标图像中相对应的子区域进行比较。

对于那些查找广告(与各类重复素材相反)的应用，重复素材的检测结果可与用于辨别广告与非广告的度量标准相结合(712)。这些区别特征可依赖于广告惯例，如持续时间(例如，10/15/30秒的插播广告比较普遍)，依赖于音量(如：广告的音量往往高于附近节目素材的音量，因此如果重复的素材比任一侧的素材更响，则其很有可能是广告)，依赖于视觉活动(如：广告往往是在镜头之间有更多的快速转换和更多的镜头内动作，因此如果重复的素材比任一侧的节目素材具有更大的帧间差别，则其很有可能是广告)，以及依赖于链组空白帧(地方插入的广告典型地不能完全填充全国性馈播(national feed)为其留下的空间，导致以30秒的倍数为间隔出现空白帧和静默)。

一旦识别出广告，可分析该广告周围的素材，并生成统计量。例如，可关于利用特定的创意(如图像，文本)而对特定产品做了多少次广告，或关于特定片段被播出了多少次等等而生成统计量。在一些实施例中，一个或多个旧广告被删除或被新广告替代。还有一些用于广告检测和替换的技术在Covell，M.，Baluja，S.，Fink，M.发表于IEEE SignalProcessing Society，MMSP 2006 International Workshop on MultimediaSignal Processing，2006年10月3-6日，加拿大，题目为“AdvertisementDetection and Replacement Using Acoustic and Visual Repetition”的文中进行了描述，其全文通过引用合并于此。

在一些实施例中，来自内容所有者的关于该内容详细结构的信息(如广告素材插入的位置，节目重复的位置)可被用于扩充过程700，并可增加匹配准确度。在一些实施例中，可使用视频统计量替代音频统计量以确定重复。在其它实施例中，也可使用视频和音频统计量的结合。

音频片段拍卖

在一些实施例中，广告主可参与与环境音频有关的拍卖，其中该环境音频与该广告主所要销售的产品和服务有关。例如，多个广告主可竞拍以获得将其产品或服务与有关“宋飞传”的音频片段或描述符相关联的权利。竞拍的成功者随后即可在出现该主题环境音频时将一些相关信息呈现在观众面前(例如，赞助链接)。在一些实施例中，广告主可竞拍具有元级(meta-level)描述的环境音频片段。例如，广告主可竞拍与电视广告相关的音频(例如，这是与Ford Explorer TV广告相关的音频)，隐藏式字幕(如：字幕显示“Yankees baseball”)，节目段位置(如：该音频将出现在“宋飞传”播出15分钟，出现在上一个插播广告之后3分钟以及下一个插播广告之前1分钟)，或低级别声音或视觉特性(如：“背景音乐”，“对话声音”，“爆炸声”等)。

在一些实施例中，一个或多个大众个性化应用可在用户执行其它任务，诸如浏览另一个网站(如赞助链接)的背景下运行。与媒体广播(如电视内容)有关的素材可加入到与另一内容资源(如网站内容)相关素材相同的赞助链接拍卖中。例如，TV相关的广告可与对应于当前网页内容的广告混合在一起。

在后附权利要求的范围之内允许对所披露的实施例进行各种修改。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 大众传媒的社会性和交互式应用 [P] . 中国专利： CN101517550B . 2013.01.02
2. 大众传媒的社会性和交互式应用 [P] . 中国专利： CN101517550A . 2009-08-26
3. interactive image analysis system, workstation, interactive image analysis method, server arranged to transmit an interactive image analysis application to a client device for execution on the client device, method comprising transmitting an interactive analysis application to a client device to run on the client device and computer program product [P] . BR112012033335A2 . 2016-11-29

机译：交互式图像分析系统，工作站，交互式图像分析方法，被配置为将交互式图像分析应用程序发送到客户端设备以在客户端设备上执行的服务器，该方法包括将交互式分析应用程序发送到客户端设备以在客户端设备上运行，以及电脑程序产品
4. Interactive application`s behavior managing method for mobile terminal, involves interpreting behavior description for activating determined behavior of interactive application stored in storage unit of mobile terminal [P] . 法国专利： FR2894753A1 . 2007-06-15

机译：用于移动终端的交互式应用程序的行为管理方法，包括解释行为描述以激活存储在移动终端的存储单元中的交互式应用程序的确定的行为
5. INTERACTIVE APPLICATION DISTRIBUTION METHOD AND INTERACTIVE APPLICATION DISTRIBUTION DEVICE [P] . 日本专利： JP2000165840A . 2000-06-16

机译：交互式应用程序分发方法和交互式应用程序分发设备