首页> 中国专利> 用于H.264的改进的帧内块游荡刷新

用于H.264的改进的帧内块游荡刷新

摘要

一种用于数字视频编码的设备和方法。所公开的系统提供了一种校正解码器中参考块的偏差、同时使更新参考块所需的系统开销最小化的改进方法。

著录项

  • 公开/公告号CN1668112A

    专利类型发明专利

  • 公开/公告日2005-09-14

    原文格式PDF

  • 申请/专利权人 宝利通公司;

    申请/专利号CN200510054148.4

  • 发明设计人 约翰·塞维尔斯;

    申请日2005-03-09

  • 分类号H04N7/50;H04N7/26;

  • 代理机构11021 中科专利商标代理有限责任公司;

  • 代理人朱进桂

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-17 16:29:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-04-27

    未缴年费专利权终止 IPC(主分类):H04N7/50 授权公告日:20080820 终止日期:20150309 申请日:20050309

    专利权的终止

  • 2008-08-20

    授权

    授权

  • 2005-11-16

    实质审查的生效

    实质审查的生效

  • 2005-09-14

    公开

    公开

说明书

技术领域

本发明一般涉及视频通信,并且尤其涉及提供一种更新数字传输的视频图像、同时高效地使用给定位预算(budget)的高效方法。

背景技术

视频图像的数字化已变得越来越重要。除了视频图像数字化在全球通信(例如视频会议)中的应用,用于数字视频记录的视频图像数字化也已变得越来越常见。在这些应用的每一种中,视频和伴随的音频信息通过包括电话线、综合服务数字网(ISDN)、数字用户线(DSL)和射频的电信链路被传输,或者记录在诸如数字视频光盘(DVD)和超级视频光盘(SVCD)的各种媒体装置上。

目前,视频数据的高效传输和接收、以及高效存储可能需要对视频和伴随的音频数据进行编码和压缩。视频压缩编码是对数字视频数据进行编码,以致需要较少的存储器来存储视频数据、并且减小所需的传输带宽的一种方法。某些压缩/解压缩(CODEC)方案经常用于压缩视频帧,以减小所需的传输比特率。因而,CODEC硬件和软件允许将数字视频数据压缩成比原始(即未压缩的)数字视频格式所需的更紧凑的二进制格式。

存在几种对源视频信号进行编码和压缩的方法和标准。一些标准是为诸如国际电信联盟电信标准化部门(ITU-T)建议案H.261、H.263和H.264的特殊应用而设计的,这些ITU-T建议案H.261、H.263和H.264广泛地用于视频会议应用中。另外,运动图像专家组颁布的标准(MPEG-2,MPEG-4)已在消费者电子设备和其它应用中得到普遍应用。这些标准的每一个在此都被整体引入作为参考。

数字图像由单个象素的网格组成。典型地,整个图像不是同时被处理,而是被分成单独处理的块。每一块包括预定数量的亮度象素(它通常指定象素的亮度)和预定数量的色度象素(它通常指定象素的颜色)的矩形网格。预定数量的块组成宏块,宏块形成了例如H.264标准中的基本处理单元。另外,在H.264标准中,一组宏块可以组成被称为片的更大处理单元。虽然以下描述该处理单元层次的某些方面,但是一般来说,用于对要处理的图像进行基于块的处理的方法和技术对于本领域技术人员是周知的,因此在此不再详细地重述。

可以利用两种基本技术之一的变型,对图像数据块进行编码。例如,可以使用“帧内”编码,其中在不参考历史数据、例如来自前一帧的相应块的情况下,对原始块进行编码。作为替换,可以使用“帧间”编码,其中根据图像数据块与参考数据块、例如来自前一帧的相应块之间的差,来对图像数据块进行编码。这两种基本方案的许多变型对于本领域技术人员都是周知的,因此在此不再详细地讨论。一般,希望选择需要最少位数来描述数据块的编码技术。

帧内编码通常需要更多位来表示块。因此,一般帧间编码是优选的。然而,有这样一些情况,其中接收器保持的参考图像块与发送器存储的相应参考块有差异,例如当逆离散余弦变换(IDCT)的实施存在算法差异时,或者当出现传输错误时。因此,当发送器相对于给定参考对块进行编码时,由接收器重构的块将与发送器预期的块不同。因此,所希望的是,对于以帧间方式对数据块编码给定次数,至少以帧内方式对每一数据块编码一次。在Bruder的美国专利No.5,644,660中公开了一种用于H.261标准环境下的这种编码的技术的细节,其在此整体被引入作为参考。

然而,这些先有技术不适用于更新的编码标准,例如H.264。尤其是,在H.264视频编解码器中,除非为帧设置了“强迫帧内(constrained intra)”标志,否则总是从相邻象素来预测帧内块。如果设置了“强迫帧内”标志,则帧中的所有帧内块都只从其它帧内块来预测,而不必从周围象素来预测。因此,如果某人想要通过每一帧发送一个或两个帧内块,来逐渐地刷新图像,则他有以下不合乎需要的选择:(1)如果“强迫帧内”标志被清除了,则由于帧内预测而使得图像缺陷错误传播到帧内区域中,或者(2)如果“强迫帧内”标志被设置了,则通过包含帧中的所有帧内块,失掉了H.264视频编解码器的重大优势,而不管它们是刷新块、还是作为帧内块最有效发送的块,都被强迫只使用相邻帧内编码的象素。

因此,需要一种提供改进的帧内刷新、同时保持视频编解码器的效率、由此提高视频质量的系统和方法。

发明内容

本发明涉及以下方法:视频编码器利用分类映射,来发送用于刷新编码器的参考帧与解码器的参考帧之间的差异的象素组。因为这些象素组本质上用于纠错任务,因此它们不能基于来自其它象素的信息,这与使用图像冗余来提高编码效率的象素组相反。H.264标准明确表示,只有相同片组内的宏块才可以在空间上相互被预测。H.264也允许发送用于描述帧中的各个宏块被分配给了哪一片组的映射。通过发送这样的映射,该映射将小的宏块子集放入一个片组中、并将剩余宏块放入一个或多个其它片组中,某人能够产生使图像的刷新块与利用图像冗余的块分开的期望效果。进一步,通过为每一个已发送的帧发送不同的映射,每个映射与要在那一帧中被帧内刷新的宏块相一致,则可以实现逐渐地刷新图像的所有部分的效果。最后,通过将不同的帧索引分配给每一已发送的映射,只需要在通信的开始,发送一次映射描述。使用相同的刷新块模式(pattern)的所有随后帧都能够参考先前发送的映射索引。其结果是,仅仅利用在通信开始时发送多个刷新映射的附加信道开销,来有效地发送自纠正视频序列。

本发明维持最高水平的视频质量和压缩率,同时仍然能够清除H.264会议中的偶然线路错误。虽然参考视频会议应用描述了本发明,但是可以预见,本发明也可有益地应用于涉及视频数据数字化、例如DVD记录等的其它应用中。

附图说明

图1所示为,示例性视频会议系统的框图;

图2所示为,图1的视频会议系统的示例性视频会议站的框图;以及

图3所示为,图2的图像处理引擎的示例性实施例的框图。

具体实施方式

图1显示了示例性视频会议系统100。视频会议系统100包括本地视频会议站102和通过网络106连接的远程视频会议站104。虽然图2只显示了两个视频会议站102和104,但是本领域技术人员应该认识到,更多的视频会议站可以连接到视频会议系统100。应该注意,本系统和方法可以用于通过网络来传输视频数据的任何通信系统中。网络106可以是任何类型的电子传输媒介,诸如、但不限于,普通老式电话服务(POTS),电缆,光纤和无线电传输媒介。

图2所示为,示例性视频会议站200的框图。为简便起见,将视频会议站200描述为本地视频会议站102(图1),虽然远程视频会议站104(图1)可以包含类似的配置。在一个实施例中,视频会议站200包括显示装置202、中央处理器(CPU)204、存储器206、至少一个视频捕获装置208、图像处理引擎210和通信接口212。作为替换,也可以将其它装置提供在视频会议站200中,或者并不将所有以上指定的装置都提供在视频会议站200中。

至少一个视频捕获装置208可以被实施为电容耦合装置(CCD)照相机,互补金属氧化物半导体(CMOS)照相机,或任何其它类型的图像捕获装置。至少一个视频捕获装置208捕获用户、会议室或其它场景的图像,并将图像发送给图像处理引擎210。将连同图3来更详细地讨论图像处理引擎210。相反,图像处理引擎210也将从远程视频会议站104收到的数据分组,变换为供显示装置202上显示用的视频信号。

图3是图2的图像处理引擎210的示例性实施例。图像处理引擎210包括:编码引擎302;传输引擎304,其被配置成将每一个编码的宏块放入特殊的格式中,以便通过网络传输;以及通信缓冲器306。在本发明的其它实施例中,传输引擎可以是宏块分组引擎,或者可以不存在,或者可以被结合到编码引擎中。另外,图像处理引擎210可以包括或多或少的元件。

最初,来自视频捕获装置208(图2)的视频信号进入编码引擎302,编码引擎302将每一帧视频转换成期望的格式,并将每一帧视频信号变换成一组宏块。宏块是这样的数据单元,该数据单元包括:包含与像元(也称为象素)相联系的亮度分量和色度分量的数据块。例如,在H.264标准中,图像被分成片。片是一序列宏块(或者,如果宏块自适应帧/场解码正在使用中,则是宏块对)。H.264块大小不同于H.261和H.263,虽然宏块仍然相同。仅供参考,H.264允许将宏块分解为用于帧间块的不同大小分量,甚至帧内块也允许16象素×16象素模式和4象素×4象素模式。对4×4块执行DCT(离散余弦变换)/量化/IDCT(逆离散余弦变换),而不是象在H.261和H.263中那样对8×8块执行DCT/量化/IDCT。每个宏块都包括一个16×16亮度和两个8×8色度样本阵列。在4:2:0的色度采样格式下,宏块包括4个8×8亮度数据块和2个相应的8×8色度数据块。8×8数据块是8列乘8行的数据矩阵,其中每个数据都对应于视频帧的象素。

然而,应该注意,本发明不限于如同按照惯例定义的宏块,而可以被延伸到包括亮度和/或色度数据的任何数据单元。另外,本发明的范围覆盖了其它采样格式,例如,包括4个8×8亮度数据块和4个相应的8×8色度数据块的4:2:2色度采样格式,或者包括4个8×8亮度数据块和8个相应的8×8色度数据块的4:4:4色度采样格式。

另外,编码引擎302对每一个块都进行编码,以减少用于代表图像内容的位数。每个宏块可以是“帧内编码的”或“帧间编码的”,并且视频帧可以包括帧内编码宏块和帧间编码宏块的组合。在不使用来自其它视频帧的信息的情况下,对帧内编码宏块进行编码,即仅仅参考帧内编码帧自己来对帧内编码帧进行编码。作为替换,利用时间相似性(即,在来自一帧的宏块与来自先前已编码帧的紧密匹配宏块之间存在的相似性),对帧间编码宏块进行编码。来自前一参考视频帧的相应宏块不必位于该前一帧内的相同空间位置,而是可以包括与以下象素相联系的数据:这些象素在空间上偏离于与给定宏块相联系的象素。这是使用运动补偿技术的结果,运动补偿技术是本领域技术人员所周知的,因此在此不重述其细节。

优选地,编码引擎302利用刷新机制对帧的宏块进行帧内编码。刷新机制是通过对每一帧的特定模式(pattern)的宏块进行帧内编码、来消除编码器与解码器参考帧之间不匹配的决定性机制。供将来参考,通过刷新机制被帧内编码的宏块将被称为刷新帧内编码宏块。在2002年12月23日提交的、题为“用于视频错误隐蔽的动态帧内编码宏块刷新间隔(Dynamic Intra-coded Macroblock Refresh Interval for Video ErrorConcealment)”的美国专利申请序号no.10/328,513中,讨论了刷新机制的细节,该专利申请no.10/328,513与本申请一起共同被拥有,并在此被引入作为参考。

编码引擎302优选地产生帧内宏块映射,该映射识别已编码视频帧中的哪些宏块是帧内编码的。在产生帧内宏块映射之后,图像处理引擎210将该映射发送给远程视频会议站104(图1)。例如,可以将该映射作为与已编码视频帧相联系的图像头数据的一部分来发送,虽然可以使用其它的数据字段。

如上所述,视频序列的每个图像都被分成一片或多片。每一片包括一些宏块。宏块至片组映射是将图像的宏块映射到片组中的一种方法。宏块至片组映射由一列数组成,每个已编码宏块一个数,用于指定每个已编码宏块所属的片组。

H.264允许灵活宏块排序,灵活宏块排序是通过在宏块至片组映射中指定帧中的各个宏块被分配给什么片组而得以实现的。在编码处理期间,只能够对同一片组中的宏块进行相互预测。通过发送多个映射,每个映射都将一个或两个不同宏块放入一个片组中、并将帧中的剩余宏块放入另一片组中,然后索引(index)适当的映射、以便和要在帧中被帧内刷新的宏块相一致,设计者能够在不冒着将错误传播到被刷新区中的风险的情况下,实现刷新图像一部分的期望效果。同时,在图像的剩余部分中保持了编码效率,这是因为所有其它的宏块都属于同一片组。

重要的是,注意在视频序列/视频会议/电影期间,帧内宏块映射只需要发送一次。H.264标准要求解码器能够同时保留直到256个宏块映射。在映射已被发送之后,编码器只需通过解码器用的数字来访问那个映射,以便回忆哪个映射正用于那个帧,由此保持了最高水平的编码效率。

以上已经参考示例性实施例说明了本发明。显然,对于本领域技术人员,在不背离本发明的更广精神和范围的情况下,可以对本发明进行各种更改。进一步,虽然在特殊环境下及用于特殊应用的本发明实施的情况下描述了本发明,但是本领域技术人员应该认识到,本发明的有用性不限于此,以及本发明可以有益地用于许多环境和实施中。因此,上述说明和附图被认为是说明性的,而非限制性的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号