公开/公告号CN101014123A
专利类型发明专利
公开/公告日2007-08-08
原文格式PDF
申请/专利权人 北京大学;
申请/专利号CN200710063583.2
申请日2007-02-05
分类号H04N7/24(20060101);H04N7/173(20060101);H04L29/06(20060101);H04L12/28(20060101);
代理机构11245 北京纪凯知识产权代理有限公司;
代理人徐宁;关畅
地址 100871 北京市海淀区颐和园路5号北京大学数字媒体研究所
入库时间 2023-12-17 18:54:43
法律状态公告日
法律状态信息
法律状态
2010-02-03
授权
授权
2007-10-03
实质审查的生效
实质审查的生效
2007-08-08
公开
公开
技术领域
本发明涉及计算机视觉和图像处理方法及系统,特别是关于一种多视点视频流的自由视点视频重建方法及系统。
背景技术
近年来,随着视频服务的不断升级,人们已经不满足于传统视频所提供的简单视觉信息。面对周围多元化的世界,人们需要从更加全面、更加立体的角度进行观察和分析。于是,多视点视频技术应运而生。相对于传统的单点视频来说,多视点视频可以提供某一事物或场景的不同角度,不同层面的信息,并且可以把这些信息进行合成,生成多角度、全方位的自由或立体视觉。
多视点视频的原始数据一般是由多个摄像机组成的集合采集而成,并且根据摄像机的排列方式不同而生成不同类型的多视点视频数据。由于组成集合的摄像机大都距离固定,拍摄的场景也大致相同,因此多视点视频数据往往表现了同一场景或物体不同角度的信息。作为新型媒体的多视点视频最突出的特征就是视觉信息的多元化和交互性,用户可以有机会以某种方式主动参与到媒体活动中而不是作为被动的消费者存在。多个摄像机同时拍摄同一个场景的不同角度,使得用户可以任意选择其中之一进行观看,或者根据相邻几个摄像机所拍摄的视频序列合成出一个虚拟的中间场景来进行观看,并实现多个视点之间的无缝自由浏览和切换,即所谓的自由视点视频。
现有技术的多视点视频系统大致可分为两类。一类是采用由大量摄像机密集排列所组成的摄像机阵列。在这种情况下不需要做虚拟视合成便可以达到较为平滑的自由视点浏览和切换的效果,然而对摄像机的几何关系要求却相对较高,大量摄像机的使用不仅增加了系统建设的成本,而且对于多视点视频的编码和传输性能也带来了巨大的压力。另一类是采用相对稀疏的摄像机阵列,当用户要求在两个实际视点之间进行切换时,服务器预先在这两个视点之间合成一到多个虚拟图像帧,以实现在这两个视点间切换时视觉上的平滑过渡。一方面,这种方法只能用于两个实际视点之间的切换,而无法使用户较长时间地关注位于它们之间的某个虚拟视点;另一方面,这种方法目前仅适用于预编码好的多视点视频码流,而无法用于实时采集、编码和传输的现场直播型系统;即使对于预编码的多视点视频码流来说,当用户数增加且需求不一致时,会给服务器端的视角生成带来沉重的负担。
发明内容
针对上述问题,本发明的目的是提供一种多视点视频流的自由视点视频重建方法及系统。
为实现上述目的,本发明采取以下技术方案:一种多视点视频流的自由视点视频重建方法,包括以下操作步骤:(1)视频采集/编码器为它所连接的每台摄像机分别生成一个会话描述文件并将其拷贝至流媒体服务器,然后启动视频采集和编码过程并将编码后的视频码流实时向流媒体服务器转发;(2)流媒体服务器将上述生成的所有会话描述文件以Web页面中统一资源定位符URL的形式发布出去,供客户端进行选择和点播;(3)在客户端图形用户界面中设置自由视点导航器和自由视点播放器两个区域,在自由视点导航器中设置若干图像或视频小窗口,在其上方设置一个浮动聚焦框;(4)用户通过移动浮动聚焦框在自由视点导航器区域内进行选择;(5)自由视点导航器计算当前被浮动聚焦框所覆盖或部分覆盖的所有小窗口中被覆盖部分的比例关系;(6)自由视点导航器从位于流媒体服务器上的Web页面获取当前被浮动聚焦框所覆盖或部分覆盖的所有小窗口所对应的各摄像机视点视频流的URL;(7)自由视点导航器将上述步骤(5)中计算出来的比例关系和步骤(6)中获得到的URL地址发送至自由视点播放器;(8)自由视点播放器同时向流媒体服务器发送针对上述各URL的点播请求;(9)流媒体服务器接收到各点播请求后,首先向自由视点播放器发送对应于每一个点播请求的会话描述信息,然后从当前位置开始依次转发对应于该会话描述信息的压缩视频码流;(10)自由视点播放器从接收到的各视点会话描述信息中提取各摄像机的参数信息并缓存;(11)自由视点播放器依次从流媒体服务器接收对应于当前所选择各视点的后续压缩视频码流并解码;(12)当自由视点播放器解码完同一时刻对应于各视点的多个视频帧后,以各视点所对应小窗口被覆盖部分的比例关系以及摄像机参数信息为参数调用虚拟视点合成算法,根据上述多个视频帧合成出一个中间虚拟视频帧并显示,转至步骤(4)。
所述步骤(2)中生成的会话描述文件中除了包含现有视频编码和传输标准中已规定的会话描述信息之外,还新增一条用于描述摄像机参数信息的属性项。
一种多视点视频流的自由视点视频重建方法的系统,其特征在于它包括:前端、接入网络和客户端三个部分组成;所述前端包括摄像机、视频采集/编码器和流媒体服务器,其中摄像机与视频采集/编码器之间通过高速数据线相连,视频采集/编码器与流媒体服务器之间通过局域网相连,一台视频采集/编码器可以同时连接一到多台摄像机;所述接入网络是基于IP协议的局域网或广域网;所述客户端通过接入网络与流媒体服务器相连,其图形用户界面至少包括自由视点导航器和自由视点播放器两个相互独立的区域组成,其特征在于自由视点导航器负责检测和接收来自用户的访问请求并把它提交给自由视点播放器,自由视点播放器负责根据该访问请求从流媒体服务器接收多路视频码流并进行虚拟视点合成和显示。
所述客户端中的自由视点导航器由若干图像或视频小窗口组成,其中每个小窗口对应于前端的一个摄像机视点,同时也对应于流媒体服务器上Web页面中的一个URL地址,小窗口数量与前端实际使用的摄像机数量相同,排列方式与前端实际摄像机阵列的排列方式相一致;在自由视点导航器中存在一个浮动聚焦框,可由人机交互设备操纵在自由视点导航器区域内任意滑动。
所述客户端中的自由视点播放器占据一个尺寸与前端摄像机原始采集视频分辨率相一致的视频窗口,它能够同时与流媒体服务器建立多条网络连接,并通过这些连接同时接收对应于多个摄像机视点的多个视频码流并解码,然后调用虚拟视点合成算法将多个视频码流的解码结果合成为一个中间虚拟视点并显示。
本发明由于采取以上技术方案,其具有以下优点:1、本发明直接利用现有基于单视点的视频编码标准和传输技术,不需要对现有视频编码和传输系统的前端(服务器端)和网络传输部分进行实质性改动,因而可大大节省系统建设的软硬件投资和技术成本,并可应用于直播型的实时编码和传输系统。2、本发明可根据用户当前所关注焦点的不同由相邻的两个到多个摄像机合成出其中任意位置的虚拟摄像机视点来,从而能够达到真正的自由视点无缝漫游和切换。3、当用户关注于某一焦点位置时,客户端仅要求服务器向其传送与该焦点位置相邻的少数几个视点的压缩视频码流,因而可节省网络带宽需求。4、服务器不需要根据不同用户的不同观察位置分别为其合成相应的虚拟视点,因而可降低对服务器处理能力和性能的要求。本发明方法及系统可广泛用于各种基于多视点视频流的应用场合,例如各种体育竞技比赛、博览会和造势会等的视频直播活动。
附图说明
图1是本发明一种多视点视频流的自由视点视频重建系统示意图
图2是本发明的客户端图形用户界面的示例图
图3是本发明一种多视点视频流的自由视点视频重建方法流程图
具体实施方式
下面结合附图和实施例,对本发明进行详细的描述。
如图1所示,本发明多视点视频流的自由视点视频重建系统由前端10、接入网络20和客户端30三个部分组成。其中前端10又包括摄像机11、视频采集/编码器12和流媒体服务器13三个组成部分。
摄像机11通过高速数据线与视频采集/编码器12相连,多个摄像机11可按照一定的规则进行排列和摆放,从而构成不同形式的摄像机阵列,例如矩阵型、一字型和弧线型等等。
视频采集/编码器12一方面通过高速数据线与摄像机11相连,另一方面通过局域网与流媒体服务器13相连;一台视频采集/编码器12可以同时连接一到多台摄像机11;视频采集/编码器12主要负责控制摄像机11来进行视频数据的采集,并对采集到的原始视频数据进行实时编码,然后将编码后生成的压缩视频码流实时发送至流媒体服务器13供其转发;在初始化每台摄像机11时,视频采集/编码器12还为每台摄像机11所拍摄的视频流生成一个会话描述文件,并将其拷贝至流媒体服务器13进行发布;每个会话描述文件中除了保存现有视频编码和传输标准中已规定的会话描述信息之外,还需要新增一条形式为“a=camerapara:<摄像机参数集>”的属性项,用于描述摄像机11的参数信息,该摄像机参数信息主要供客户端30进行虚拟视点合成时使用。增加了摄像机参数信息属性项的会话描述文件举例如下:
v=0
o=freeviewpoint 3255535843 3255554269 IN IP4 192.168.1.1
s=n11.sdp
c=IN IP4 127.0.0.1
t=0 0
m=video 0 RTP/AVP 96
a=rtpmap:96 AVS1-P2/90000
a=camerapara:para1=’para1’;para2=’para1’;...
流媒体服务器13一方面通过局域网与视频采集/编码器12相连,另一方面通过接入网络20与客户端30相连,其功能主要包括多视点视频信息的发布和视频流的转发:(1)将由视频采集/编码器12生成的所有会话描述文件以Web页面URL(统一资源定位符)地址的形式发布出去,供客户端30进行选择和点播,URL地址举例如下:RTSP://192.168.1.1/n11.sdp;(2)接受来自客户端30的点播请求,将对应于该点播请求命令中指定会话描述文件的压缩视频码流通过接入网络20转发至客户端30。
接入网络20是基于IP协议的局域网或广域网。
客户端30通过接入网络20与流媒体服务器13相连。客户端30包括自由视点导航器31和自由视点播放器32两个模块组成,它们在用户图形界面上体现为相互独立的两个区域。其中自由视点导航器31由若干图像或视频小窗口组成,每个小窗口对应于一个摄像机11视点,同时也对应于流媒体服务器13上Web页面中的一个URL地址,小窗口数量与前端10实际使用的摄像机11数量相同,排列方式与前端10实际摄像机11阵列的排列方式相一致。在自由视点导航器31所对应的区域中还浮动着一个浮动聚焦框311(如图2所示),可由鼠标或其它人机交互设备操纵在该区域中任意滑动,根据应用场景不同浮动聚焦框311的大小也可以不同,但通常选择与导航区中各小窗口的大小相一致。当把浮动聚焦框311移动至某一位置并选择确定后,自由视点导航器31首先从流媒体服务器13的Web页面中获取当前被浮动聚焦框311覆盖或部分覆盖的所有小窗口所对应的各摄像机视点视频流的URL地址,然后将这些URL连同各小窗口被覆盖部分的比例关系一起发送至自由视点播放器32,驱使其进行自由视点切换操作。自由视点播放器32所占区域为一个大的视频窗口,尺寸与各摄像机11原始采集视频的分辨率一致,当它接收到从自由视点导航器31发来的浮动聚焦框311当前所覆盖小窗口的比例关系以及所对应各摄像机视点视频的URL后,立即根据这些URL分别从流媒体服务器13接收相应的会话描述信息和视频码流,然后将各视频码流分别解码后,调用虚拟视点合成算法生成一个中间虚拟视点并在图形用户界面上显示。虚拟视点合成算法在运算过程中需要用到各输入视点被覆盖部分的比例关系,以及各视点会话描述信息中所携带的摄像机参数信息。图2中显示的是前端10摄像机11阵列摆放为4×4矩阵模式时,客户端图形用户界面的一个例子。此时浮动聚焦框311部分覆盖了自由视点导航器31中的四个小窗口1c、1d、2c和2d,因此自由视点播放器32需要请求从流媒体服务器13同时接收1c、1d、2c和2d这四个视点所对应的压缩视频码流,并根据这四个视频码流合成出一个虚拟的中间视点来。
如图3所示,本发明一种多视点视频流的自由视点视频重建方法,其操作步骤如下:
(1)视频采集/编码器12为它所连接的每台摄像机11分别生成一个会话描述文件并将其拷贝至流媒体服务器13,然后启动视频采集和编码过程并将编码后的视频码流实时向流媒体服务器13转发;
(2)流媒体服务器13将上述生成的所有会话描述文件以Web页面中统一资源定位符URL的形式发布出去,供客户端30进行选择和点播;
(3)在客户端30图形用户界面中设置自由视点导航器31和自由视点播放器32两个区域,在自由视点导航器31中设置若干图像或视频小窗口,在其上方设置一个浮动聚焦框311;
(4)用户通过鼠标或其它人机交互设备将客户端30图形用户界面中自由视点导航器31区域内的浮动聚焦框311移动至某一位置并选定;
(5)自由视点导航器31计算当前被聚焦框311所覆盖或部分覆盖的所有小窗口中被覆盖部分的比例关系;
(6)自由视点导航器31通过访问位于流媒体服务器13上的Web页面来获得当前被浮动聚焦框311覆盖或部分覆盖的所有小窗口所对应的各摄像机11视点视频流的URL地址;
(7)自由视点导航器31将上述步骤(5)中计算出来的比例关系和步骤(6)中获得到的URL地址发送至自由视点播放器32;
(8)自由视点播放器32接收到从自由视点导航器31发送来的各被覆盖小窗口的比例关系及其对应的URL地址后,逐个向流媒体服务器13发送针对这些URL的点播请求;
(9)流媒体服务器13收到每个来自自由视点播放器32的点播请求后,首先将对应于各点播请求URL的会话描述信息发送至自由视点播放器32,然后从当前位置开始依次向自由视点播放器32转发从视频采集/编码器12接收到的对应于该会话描述信息的压缩视频码流;
(10)自由视点播放器32从流媒体服务器13接收对应于当前所选择各视点的会话描述信息,从中提取各摄像机11的参数信息并缓存;
(11)自由视点播放器32依次从流媒体服务器13接收对应于当前所选择各视点的后续压缩视频码流并解码;
(12)当自由视点播放器32解码完同一时刻对应于当前所选择各视点的视频帧后,以各视点所对应小窗口中被覆盖部分的比例关系以及摄像机参数信息为参数调用虚拟视点合成算法,根据上述多个视频帧合成出一个中间虚拟视频帧并显示,转至步骤(4)。
机译: 根据多视点视频流和从多视点视频流导出的运动信息生成极化视频流的装置和方法
机译: 多视点视频流处理系统和提供多视点视频流的方法
机译: 根据多视点视频的层间预测对视频流进行编码的方法和装置,以及根据多视点视频的层间预测对视频流进行解码的方法和装置