您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页多视点视频编码的研究现状及其展望_霍俊彦

多视点视频编码的研究现状及其展望_霍俊彦

来源:华佗小知识
第31卷第5期 2010年5月

通 信 学 报 Vol.31 No.5

Journal on Communications

May 2010

多视点视频编码的研究现状及其展望

霍俊彦,常义林,李明,马彦卓

(西安电子科技大学 综合业务网理论及关键技术国家重点实验室, 陕西 西安 710071)

摘 要:阐述了多视点视频编码(MVC)的主要研究问题。其中首先介绍了MVC的体系结构和发展过程;然后详细讨论了MVC的研究内容,包括预测结构、提高MVC编码效率的技术和高层语法;最后在总结MVC研究现状的基础上,提出了MVC在3D视频应用中的研究思路。 关键词:多视点视频编码;3D视频;时间相关性;视点间相关性

中图分类号:TN919.8 文献标识码:A 文章编号:1000-436X(2010)05-0113-09

Study status and prospective of multiview video coding

HUO Jun-yan, CHANG Yi-lin, LI Ming, MA Yan-zhuo

(The State Key Laboratory of Integrated Service Networks, Xidian University, Xi’an 710071, China)

Abstract: The main reasons of multiview video coding (MVC) were described. Firstly, the architecture and evolutional history of MVC was introduced. Then, the key technologies of MVC were discussed in detail including prediction struc-ture, techniques to improve the coding efficiency and high level syntax. Finally, conclusions were drawn and future re-search directions for MVC in 3D video applications were put forward.

Key words: multiview video coding; 3D video; temporal correlation; inter-view correlation

1 引言

3D视频因其能够提供更加真实和自然的视觉体验,一直是视频处理和通信领域追求的目标。从20世纪70年代开始,很多学者致力于3D视频的采集、表示和显示的研究。由于众多因素的,早期的研究仅仅局限在学术领域,距市场化应用还有很大的距离。随着计算机视觉、计算机图形学和视频编码技术的发展和融合,同时得益于处理器能力、存储器容量、网络传输能力的飞速提高,3D视频又一次引起人们的普遍关注[1~4]。这次不仅仅局限于学术领域,

一些大的公司和研究机构都认为3D视频已经接近市场化应用,并投入很大的精力对其相关技术进行深入研究。

多视点视频[5,6]指的是由不同视点的多个摄像机从不同视角拍摄同一场景得到的一组视频信号,是一种有效的3D视频表示方法,能够更加生动地再现场景,提供立体感和交互功能。多视点视频可广泛应用于任意视点视频、三维电视、交融式会议电视、远程医学诊疗、虚拟现实以及视频监视系统等多种正在兴起的多媒体业务。

与单视点视频相比,多视点视频的数据量随着摄像机的数目增加而线性增加。巨大的数据量

收稿日期:2009-02-13;修回日期:2010-03-13

基金项目:国家自然科学基金资助项目(60772134);高等学校学科创新引智计划基金资助项目(B08038);高校基本科研业务费专项基金资助项目 (72105457)

Foundation Items: The National Natural Science Foundation of China (60772134); The Programmer of Introducing Talents of Dis-cipline to Universities (B08038); The Fundamental Research Funds for the Central Universities (72105457)

·114· 通 信 学 报 第31卷

已成为制约其广泛应用的瓶颈,为此,ITU-T 和MPEG的联合视频组(JVT, joint video team)提出了多视点视频编码(MVC, multiview video coding)的概念。MVC主要致力于多视点视频的高效压缩编码,是未来视频通信领域中的一项关键技术,也是国际视频标准化组织正在研究的热点问题。

目前,MVC主要着眼在现有视频编码框架的基础上添加新的编码技术以利于多视点视频的存储或传输。根据不同的视频编码框架,MVC可分为基于小波的MVC方法和基于运动补偿加块变换的MVC方法。基于小波的MVC方法[7,8]是对现有小波视频编码框架的扩展,其突出优点是具有良好的可分级性。基于运动补偿加块变换的MVC方法是在现有运动补偿加块变换框架的基础上通过添加新技术以提高MVC的编码效率。现阶段,JVT主要研究基于H.2/AVC的MVC方法[5],属于基于运动补偿加块变换的MVC方法的范畴,本文将重点阐述这类方法。

H.2/AVC[9]是由JVT于2003年正式公布的新一代视频编码标准。与其之前的视频编码标准相比,H.2/AVC具有更高的编码效率和良好的网络适配性。为了进一步扩展H.2/AVC 的功能,使其具有更为广阔的应用前景,JVT相继公布了3个扩展标准,它们分别是高保真范围扩展[9]、4:4:4格式扩展[9]和可分级视频编码[10]。考虑到3D视频的广阔应用前景,JVT决定将MVC作为H.2/AVC的第四个扩展标准[11]。目前,MVC是JVT的主要工作内容之一。在每三个月召开一次的标准化会议上,各研究机构纷纷提交提案,其中,国外的研究机构主要有HHI研究中心、NTT、LG等;国内的研究机构有清华大学、浙江大学和西安电子科技大学等。

本文第2节和第3节分别介绍MVC的体系结构和发展过程;第4节重点介绍MVC的主要研究内容,包括预测结构、提高MVC编码效率的技术和高层语法;第5节是结束语。

(a) 典型拍摄场景

(b) Exit多视点视频序列

图1 多视点视频拍摄场景及典型序列

多视点视频编码体系结构如图2所示[5],其核心模块包括多视点视频的编码、存储/传输和解码。由摄像机阵列拍摄的N个视点的视频并行输入到MVC编码器,经编码后生成单个码流用于存储或传输,解码端对输入码流进行解码后恢复出多视点视频。考虑到与不同显示设备的兼容问题,解码端根据用户的需求恢复出一个或多个视点的视频。

图2 多视点视频编码体系结构

3 多视点视频编码发展过程

MPEG早于2001年专门成立3DAV(3D audio and 3D video) ad hoc组[14]研究3DAV的典型应用场景和可标准化的内容。该小组于2003年7月发布征求意见稿[15],详细给出了3DAV的需求分析和应用前景,希望引起工业界的关注。在2004年3月第68次MPEG会议上,3DAV ad hoc组分析各研究机构的回应文档发现任意视点视频受到工业界

2 多视点视频编码体系结构

多视点视频序列是由一组摄像机阵列同步拍摄得到的,图1给出了多视点视频的典型拍摄场景[12]和Exit序列示例[13]。由图1可看出,多视点视频序列包含了一定范围内的3D场景信息。

第5期 霍俊彦等:多视点视频编码的研究现状及其展望 ·115·

的普遍关注,决定对任意视点视频的关键模块——多视点视频编码进行标准化。在本次会议上,该小组发布MVC征求验证文档[16],旨在初步验证MVC编码效率的提升空间。

2005年1月召开的第71次MPEG会议共收到7项技术提案[17]。比较结果[18]表明MVC的编码效率远高于基本编码方案,从而验证了MVC标准化的必要性和可行性。在此基础上,3DAV ad hoc组决定发布MVC征求草案文档(call for proposals on multiview video coding)[19]。该文档的发布标志着MVC标准化正式开始。为了综合衡量新技术的性能,文献[19]给出了MVC的主观和客观测试条件以及基本编码方案的详细配置参数。第75次MPEG会议文档W7779[20]给出了所提技术与基本编码方案的比较结果。结果表明提出的新技术能够显著提高MVC的编码效率。在本次会议上,3DAV Ad hoc组决定将MVC作为H.2/AVC的第四个扩展标准[11]。

考虑到H.2/AVC的标准化工作一直由JVT负责,在第77次MPEG会议上,MVC的标准化工作正式移交给JVT,这标志着MVC的标准化工作进入实质性阶段。同时JVT发布MVC的联合多视点视频编码模型JMVM[21](joint multiview video model),将该模型作为评价MVC性能的公共测试平台。在2006年10月召开的第78次MPEG会议上,JVT向MPEG组织提交了MVC的工作草案文档[22]。2008年7月JVT发布了最终补充草案文档[23],并对MVC进行一致性测试,以保证其完备性和准确性。2009年3月发布的H.2/AVC[9]标准添加了附录H,该附录给出了MVC的语法语义。

MVC的研究最初是由视频标准化组织启动的,由于多视点视频序列能够提供逼真的视觉感受, MVC成为近期视频编码领域的研究热点。近年来,学术界围绕MVC举办了多次专题研讨,如IEEE Transactions on Circuits and Systems for Video Technology的MVC专辑[6], Signal Processing: Image Communication的3D视频专辑[24], Picture Coding Symposium的专题讨论[25]等。其中MVC专辑[6]详细介绍了现阶段MVC的主要研究方向,包括MVC的预测结构研究[26]、多视点视频的运动和视差补偿技术[27]、多视点视频编码中的视点图像插值和颜色校正[28]等。此外,国内研究机构也纷纷开展MVC的研究工作,主要从MVC编码方案设计[29,30]、颜色校正[31,32]、视差估计[33]和速率

控制[34]等几个方面开展。

4 多视点视频编码的主要研究内容

经过几年的研究,MVC主要从预测结构、提高MVC编码效率的技术和高层语法3个方面展开的,本节将逐一进行介绍。 4.1 预测结构

在单视点视频编码标准中,帧间预测是去除视频序列时间冗余的有效方式。为了提高帧间预测的准确性,H.2/AVC引入了多参考图像预测技术。该技术使用多个参考图像进行位移估值和帧间预测,从而获得相对精确的匹配块,降低预测差(residual)信号的能量,提高编码效率。在H.2/AVC编码框架下,去除视点间冗余最直接的方式是在编码当前图像时使用其他视点中的已解码图像作为参考图像进行位移估值和帧间预测,这种方法称为视点间预测。如何设计时间预测和视点间预测以有效利用时间和视点间相关性是MVC预测结构需要解决的问题。

文献[17,26,30,35]提出了多种适用于MVC的预测结构。根据设计目标不同,这些预测结构大体上可分为两类。第一类预测结构以提高编码效率为目的,例如顺序视点预测结构[17]、基于分层B帧的视点间/时间混合预测结构[26]以及基于最小生成树的预测结构[30,35]等。第二类预测结构考虑除编码效率之外的其他一些功能需求[36],如随机访问性能、初始解码时延、编解码复杂度等。该类预测结构为了满足某些特定的需求,往往以牺牲编码效率为代价。例如,为了提供较好的随机访问性能[37],预测结构可通过减少视点间预测和时间预测的方法提高随机访问性能,但由于不能有效地利用视点间和时间相关性,编码效率有所降低。

目前,由HHI提出的基于分层B帧的视点间/时间混合预测结构因其出色的编码性能被JVT选为MVC的参考预测结构[26]。图3给出该参考预测

图3 MVC参考预测结构示例

·116· 通 信 学 报 第31卷

结构的示例,其中,水平方向箭头表示时间预测关系,垂直方向箭头表示视点间预测关系。关于该预测结构的详细介绍可参考文献[26]。 4.2 提高MVC编码效率的技术

预测结构一经确定后,如何有效进行视点间预测来提高编码效率是MVC研究的一个主要内容。根据所使用方法的不同,视点间预测技术大致可分为两类:利用现有视点间相关性提高MVC编码效率的技术和补偿视点间差异性提高MVC编码效率的技术。

4.2.1 利用现有视点间相关性提高MVC编码效率

的技术

视点间预测指的是采用邻近视点中已解码的图像作为参考图像对当前待编码图像进行预测。因此,如何有效利用视点间参考图像的信息提高MVC编码效率是视点间预测的核心内容。根据利用视点间相关性进行预测信息的不同,视点间预测技术可进一步分为视点间采样点预测和视点间运动信息预测两大类。

1) 视点间采样点预测

多视点视频是从不同的角度拍摄同一场景所获得的视频信号,因此,各个视点的图像之间存在很强的相似性,可使用视点间参考图像的采样值来预测当前编码图像的采样值。视差矢量(DV, dis-parity vector)[38]指的是场景中同一点在各视点中投影位置之间的相对偏差。根据DV的定义,在获得准确的DV信息后可以有效地进行视点间采样点预测。因此,视差估计技术成为MVC的关键技术之一,其估计的准确程度直接影响编码的效率。视差估计技术一直是众多学者研究的问题,文献[39]和文献[40]给出了各种视差估计技术的比较。

2) 视点间运动信息预测

多个摄像机拍摄同一场景时,场景中某一运动物体在各视点的投影的运动特性具有很强的相似性,利用此特性可进一步提高MVC编码效率。运动跳过模式(motion skip mode)正是基于这种运动相似性提出的。编码一个块时,该模式首先寻找与当前编码块具有相似运动的视点间匹配块,然后将匹配块的运动信息作为当前编码块的运动信息进行运动补偿预测,最后对预测差进行编码。采用运动跳过模式,当前编码块运动信息可由视点间匹配块运动信息推导得出,不需要传输至解码端,从而有效降低运动信息的编码开销。

基于全局视差矢量(GDV, global disparity vector)的运动跳过模式[41,42]认为当前编码块与GDV指向块的运动信息具有很强的相似性。采用该方法,图4中当前编码块P0的运动信息可由式(1)求得。

⎧⎪RefIdxP0=RefIdxP0′

(1) ⎨

mv=mv′PP⎪0⎩0

0

0

0

0

其中,RefIdxP、mvP、RefIdxP′和mvP′分别代表当前编码块P0和GDV指向块P0′的最佳参考图像索引和运动矢量。

图4 基于全局视差矢量的运动跳过模式

然而,对于图像中每个编码块,GDV不一定是

最佳DV,往往与真实DV存在较大偏差。基于此,文献[43]和文献[44]提出了一种基于精细粒度匹配的运动跳过模式,其具体思想是在GDV指向块附近进行搜索,寻找具有与当前编码块运动信息更相似的匹配块,如图5所示。当前编码块P0的运动信息可由式(2)计算得出。

⎧RefIdxP0=RefIdxP0′⎪⎪

(2) ⎨pmvP0=mvP0′

⎪⎪⎩mvdP0=mvP0−pmvP0

0

0

其中,pmvP为当前编码块P0运动矢量预测值,mvP

0

为搜索得到的最佳运动矢量,mvdP为运动矢量差值信号,需编码并传输至解码端。

图5 基于精细粒度匹配的运动跳过模式

第5期 霍俊彦等:多视点视频编码的研究现状及其展望 ·117·

需要指出的是,在实际编码过程中,编码器根据一定准则在运动跳过模式和H.2/AVC已有模式中选择最优的预测编码模式。实测表明,相比于JMVM,基于GDV的运动跳过模式可获得0.017~0.452dB的编码增益,基于精细粒度匹配的运动跳过模式可获得0.076~0.721dB的编码增益。因能获得较高编码增益,这两项技术都被接收到JMVM中。

4.2.2 补偿视点间差异性提高MVC编码效率的技术

4.2.1节中介绍的两类方法适用于视点间相关性很强的序列。但在实际应用中,由于场景的光照条件、拍摄角度、摄像机参数不一致等原因,场景中同一物体在各摄像机上的投影存在一定的差异。这种差异主要体现在各视点所拍摄图像的采样值不同。视点间差异减弱了视点间相关性,致使视点间预测不能有效地去除视点间冗余,降低了MVC的编码效率。因此,如何通过补偿视点间差异性进而更充分地利用视点间相关性提高MVC编码效率也是MVC的关键技术之一。本节主要介绍针对多视点视频中存在的亮度差异、颜色差异、几何差异和聚焦差异进行补偿的技术。

1) 亮度补偿

亮度差异是不同视点图像间最常见的差异。这种差异使得当前编码图像与其视点间参考图像的亮度分量相关性下降,严重影响MVC的编码效率。引起亮度差异的原因主要有2个:一是摄像机内部参数的不一致使得在同一时间、同一地点拍摄的图像存在亮度差异;二是由于摄像机位置和镜头拍摄角度不同造成物体表面反射到摄像机镜头内的光强随着拍摄角度的变化而变化,进而导致图像亮度的差异。

对于存在亮度差异的视频,亮度补偿是提高编码效率的一种有效方法。H.2/AVC中的加权预测技术[45]是一种全局亮度补偿方法,该方法可有效提高单视点视频的编码效率,尤其适用于存在淡入淡出效果的视频序列。对于多视点视频,亮度差异一般具有局部变化的特性,目前普遍采用局部亮度补偿方法[46~48]。其中,自适应局部亮度补偿方法[46,47]可获得0.1~0.6dB的编码增益被接收至JMVM。

自适应局部亮度补偿方法认为视点间局部亮度差异影响宏块的直流分量,提出了一种改进的视差估计匹配准则——去均值绝对误差和准则,其最佳视差矢量计算方法如式(3)所示。

dvopt=(xopt,yopt)T=argmin{MRSAD(x,y)} (3)

(x,y)T∈W2

dvopt= (xopt, yopt)T其中,dv= (x, y)T表示视差矢量,

表示根据去均值绝对误差和准则进行视差估计得到的最佳视差矢量,W2表示视差估计的搜索窗所包含像素点的集合,MRSAD(x, y)可由式(4)计算得到。

MRSAD(x,y)=

∑∑(f(i,j)−Avg

i=0j=0

1515

cur

)−(r(i+x,j+y)−Avgref)

(4)

其中,f(i, j)表示当前编码块中坐标为(i, j)的像素点的亮度采样值,r(i+x, j+y)表示dv所指向的视点间预测参考块的像素点的亮度采样值,Avgcur和Avgref分别表示当前编码块和预测参考块像素点亮度分量的均值,即亮度直流分量。需要指出的是,在求得dvopt后,需将预测差信号以及Avgcur与Avgref的差值进行编码并传输至解码端。

2) 颜色补偿

通常情况下,很难做到将各摄像机参数调整至完全一致,这就使得不同视点的图像之间出现颜色差异。颜色差异降低了多视点视频序列的视点间相关性,从而影响MVC的编码效率。针对此问题,一些学者提出了颜色补偿技术[28,31,32,49]。

根据补偿位置不同,颜色补偿方法可分为基于预处理的颜色补偿方法和基于编码的颜色补偿方法。基于预处理的颜色补偿方法[49]指的是在编码之前选取一个视点为基准视点,对其他非基准视点进行颜色补偿,然后将补偿后的非基准视点与基准视点进行编码。由于用户观看的是经过颜色补偿后的多视点视频,这一类方法必须保证补偿后的多视点视频具有很好的主观质量,但这往往是以高复杂度为代价的。基于编码的颜色补偿方法[28,32]主要用于提高编码视点和参考视点的相似性,使得在编码过程中有效地利用视点间相关性提高MVC的编码效率。

根据补偿颜色空间不同,颜色补偿方法又可分为基于YCbCr空间的颜色补偿方法和基于RGB空间的颜色补偿方法。由于MVC系统中只支持YCbCr格式,因此一些学者提出在YCbCr空间上进行颜色补偿,例如H.2/AVC中使用的加权预测[45]、利用直方图匹配对色度分量进行补偿[49]等。实际上,视点间的差异主要是由于摄像

·118· 通 信 学 报 第31卷

机内部参数不一致引起的,而摄像机内部采用RGB空间来表示彩色信息,因此,基于RGB空间的颜色补偿方法能够更加准确地描述视点间颜色差异。文献[32]提出了一种基于RGB空间的MVC颜色补偿方法[32]。此外,Yamamoto等人提出了一种基于RGB空间非线性模型的颜色补偿方法[28]。Fecker等人将原先基于YCbCr空间的直方图匹配方法扩展至RGB空间[49]。文献[49]的实验结果表明基于RGB空间的颜色补偿方法的编码性能优于基于YCbCr空间的颜色补偿方法,但编码复杂度有所增加。

3) 虚拟视图合成预测

由于拍摄角度的差异,多个摄像机在拍摄同一场景时,生成的视点之间存在几何失真。虚拟视图合成预测(VSP, view synthesis prediction)[50,51]是针对补偿几何失真提出的,其主要思想是利用深度信息或视差信息合成一个虚拟视图用作当前编码图像的参考图像,并要求生成的虚拟视图比视点间参考图像更接近于当前编码图像,从而提高MVC的编码效率。图6给出了VSP的示意图,其中实线方框代表实际拍摄图像,虚线方框代表生成的虚拟图像。

图6 视点合成预测

的最佳滤波器参数。然后,根据求得的滤波器参数构造几个模糊程度不同的视点间参考图像,与原始视点间参考图像一起用于视点间预测。在编码的过程中,对于每个编码块,根据率失真性能最优准则选择最佳参考图像。滤波器参数需要进行编码并传输到解码端,使得解码端可以构造出与编码端相同的“模糊的”参考图像。这种方法能够提高视点间预测的准确性,但由于滤波器参数需要根据多视点视频的信源特性自适应确定,因此编码端的计算复杂度较高。

4.3 MVC高层语法

MVC高层语法的研究主要集中在MVC语法和语义的设计。H.2/AVC的语法和语义是经过精心设计的,在对其增加新的补充时,往往需要对原H.2/AVC语法做适当的修改。具体而言,MVC需要根据多个视点联合编码的特点,扩展H.2/AVC语法和语义。文献[53]给出了MVC在高层语法方面的一些设计思想。

目前,关于MVC扩展的高层语法主要有以下4个方面:一是在序列参数集中添加语法元素,用来说明视点的数目以及定义各视点之间的预测关系;二是扩展网络抽象层单元(NALU, network ab-stract layer unit)的语法元素,添加当前NALU属于哪个视点,是否做视点间参考图像等信息;三是设计适合MVC的参考图像管理机制,包括参考图像标记、参考图像列表初始化以及参考图像重排序等;四是扩展H.2/AVC附加增强信息(SEI, sup-plemental enhancement information),使其能够支持MVC中所定义的各项功能需求,如视点可分级性、支持观看部分视点、并行处理等。

4) 自适应参考图像滤波

多个摄像机拍摄同一场景时,生成的视点图像可能存在聚焦失配的情况,这也会减弱视点间相关性,影响MVC的编码效率。引起视点图像聚焦失配的原因主要有2个:一是摄像机未精确校准,这种失配具有全局性,表现为一个视点的图像比另一个视点的图像模糊;二是被拍摄物体到各摄像机之间的距离不同,这种失配具有局部性,表现为同一物体在各视点图像的清晰度不同。

自适应参考图像滤波(ARF, adaptive reference filtering)[48,52]主要是针对各视点图像的聚焦差异进行补偿。该方法首先根据深度信息将图像分成几个区域,并根据预测差能量最小化准则求解每个区域

5 结束语

多视点视频可广泛应用于三维电视和任意视点视频等新兴的多媒体业务,其广阔的应用前景对当前的编码和传输技术提出了很大的挑战。目前,多视点视频编码主要是基于H.2/AVC编码框架设计的,提高编码效率是该研究领域的核心问题。本文介绍了一些用于提高多视点视频编码效率的技术,其中,由LG公司提出的运动跳过模式[41,42]、由西安电子科技大学与华为技术有限公司联合提出的精细粒度匹配运动跳过模式[43,44]和世宗大学提出的亮度补偿[46,47]能够显著提高编码效率,已被JVT接受到JMVM中。然而,提高MVC编码效率

第5期 霍俊彦等:多视点视频编码的研究现状及其展望 ·119·

的研究远不止这些,很多问题还有待进一步的深入研究。编码效率的提高是多视点视频能否获得广泛应用的关键因素。

目前,MVC可从以下几个方面进一步展开研究:一是研究更高效的编码技术,已有编码技术的编码增益有限,仍需进一步研究;二是构造高效的预测结构,重点研究如何高效使用视点间预测,如何根据实际应用的需求在编码效率、随机访问性能、初始解码时延和编解码复杂度等指标之间进行折衷,设计相应的预测结构;三是MVC的速率控制研究,现有MVC采用固定量化参数的方式进行编码,未考虑速率控制问题。

3D视频一直是视频编码和通信领域的研究热点。MPEG已开始着手组织和实施针对3D视频应用的研究。MPEG在2007年10月的第82次会议上征集3D视频的公共测试序列[54],全面启动对3D视频的研究工作[1]。多视点视频序列着眼于多个摄像机拍摄的一组视频信息。3D视频与多视点视频序列的不同之处在于其引入了深度信息。深度指的是场景中各点与摄像机之间的距离信息。深度信息是3D视频中一个重要信息,利用深度可在任意位置合成高质量的虚拟视点图像,从而能够提供真正的立体视频,同时也可满足用户随机选择观看视点的需求。

3D视频编码旨在联合高效压缩多视点视频和深度信息,目前普遍是在MVC基础上开展的。实际上,深度信息的引入为多视点视频编码带来了新的契机。深度信息可提供准确的视差信息从而可设计更精确的预测技术,充分利用视点间相关性。目前,深度信息的高效编码和深度辅助的多视点视频编码已成为3D视频编码的主要研究方向。

综上所述,为推动3D视频的研究和应用,多视点视频编码尚有很多值得深入研究的问题。因此,与3D视频相关的MVC必将成为MPEG组织和学术界的研究热点,而这都要求对MVC的前期研究工作有足够的积累。因此,本文主要总结了现阶段国际标准化组织和各主要研究机构对MVC的研究工作,希望能够对MVC在3D视频应用中的技术研究提供有益的启示和帮助。 参考文献:

[1] MPEG Video Subgroup. Introduction to 3D video[A]. W9784, 85th

MPEG Meeting[C]. Hannover, Germany, 2008.

[2] SMOLIC A, KAUFF P. Interactive 3-D video representation and cod-ing technologies[J]. Proceedings of the IEEE, 2005, 93(1): 98-110. [3] CIVANLAR M R, OSTERMANN J, OZAKJAS H M, et al. Special

issue on three-dimensional video and television[J]. Signal Processing: Image Communication, 2007, 22(2): 103-107.

[4] TRIANTAFYLLIDIS G A, CETIN A E, SOMLIC A. 3DTV: capture,

transmission, and display of 3D video[J]. EURASIP Journal on Ad-vances in Signal Processing, 2009, (1): 1-2.

[5] MPEG Video Subgroup. Introduction to multiview video coding[A].

W9580, 83nd MPEG Meeting[C]. Antalya, Turkey, 2008.

[6] HE Y, OSTERMANN J, TANIMOTO M. Introduction to the special

section on multiview video coding[J]. IEEE Trans Circuits and Sys-tems for Video Technology, 2007, 17(11): 1433-1435.

[7] YANG W X, LU Y, WU F. 4-D wavelet-based multiview video cod-ing[J]. IEEE Trans Circuits and Systems for Video Technology, 2006, 16(11): 1385-1396.

[8] LASANG P, KUMWILAISAK W, KAEWPUNYA A. Multi-view

image coding via image feature matching and adaptive dispar-ity-compensated wavelet lifting technique[A]. 25th PCS Proceedings: Picture Coding Symposium[C]. Beijing, China, 2006.

[9] Joint Video Team (JVT) of ISO/IEC MPEG and ITU-T VCEG. ITU-T

Recommendation and Final Draft International Standard of Joint Video Specification (ITU-T Rec. H.2/ISO/IEC 14496-10 AVC)[S]. 2009. [10] SCHWARZ H, MARPE D, WIEGAND T. Overview of the scalable

video coding extension of the H.2/AVC standard[J]. IEEE Trans on Circuits and Systems for Video Technology, 2007, 17(9): 1103-1120. [11] SMOLIC A, KIMAJA H, VETRO A, et al. Request for amendment

14496-10:2006 amd.4 multiview video coding[A]. W8017, 76th MPEG Meeting[C]. Monteux, CH, 2006.

[12] FRAUNHOFER H I. HHI test material for 3D video[A]. M15413,

84th MPEG Meeting[C]. France, 2008.

[13] SU Y P, VETRO A, SMOLIC A. Common test conditions for multi-

view video coding[A]. JVT-U211, 21st JVT Meeting[C]. Hangzhou, China, 2006.

[14] YAMASHITA R. AHG on 3D video coding in MPEG[A]. W4524,

58th MPEG Meeting[C]. Pattaya, 2001.

[15] MPEG Requirements. Call for comments on 3DAV[A]. W6051, 66th

MPEG Meeting[C]. Gold Coast, 2003.

[16] MPEG Video Subgroup. Draft call for evidence on multiple views video

coding[A]. W6374, 68th MPEG Meeting[C]. Munich, Germany, 2004. [17] MPEG Video Subgroup. Survey of algorithms used for multi-view

video coding (MVC)[A]. W6909, 71st MPEG Meeting[C]. Hong Kong, China, 2005.

·120· 通 信 学 报 第31卷

[18] MPEG Test and Video Subgroup. Report of the subjective quality

evaluation for multi view coding CfE[A]. W6999, 71st MPEG Meet-ing[C]. Hong Kong, China, 2005.

[19] MPEG Video Subgroup. Draft call for proposals on multi-view video

coding[A]. W6910, 71st MPEG Meeting[C]. Hong Kong, China, 2005. [20] MPEG Test and Video Subgroup. Subjective test results for the CFP on

multi-view video coding[A]. W7779, 75th MPEG Meeting[C]. Bang-kok, 2006.

[21] VETRO A, SU Y P, KIMATA H. Joint multiview video model (JMVM)

1.0[A]. JVT-T208, 20th JVT Meeting[C]. Klagenfurt, Austria, 2006. [22] VETRO A, SU Y P, KIMATA H. Working draft 1 of ISO/IEC

14496-10:2005/amd.4 multiview video coding[A]. W8458, 78th MPEG Meeting[C]. Hangzhou, China, 2006.

[23] VETRO A, PANDIT P, KIMATA H. Text of ISO/IEC 14496-10:

200X/FDAM 1 multiview video coding[A]. W9978, 85th MPEG Meeting[C]. Hannover, 2008.

[24] GUDUKBAY U, ALATAN A A. Special issue on advances in

three-dimensional television and video: guest editorial[J]. Signal Processing: Image Communication, 2009, 24(1-2): 1-2.

[25] RALF S. Review and future directions for 3D-video[A]. 25th PCS

Proceedings: Picture Coding Symposium[C]. Beijing, China, 2006. [26] MERKLE P, SMOLIC A, MULLER K. Efficient prediction structures

for multiview video coding[J]. IEEE Trans on Circuits and Systems for Video Technology, 2007, 17(11): 1461-1473.

[27] MARKUS P, ADITYA M, BERND G. Motion and disparity compen-sated coding for multiview video[J]. IEEE Trans on Circuits and Sys-tems for Video Technology, 2007, 17(11): 1474-1484.

[28] YAMAMOTO K, KITAHARA M, KIMATA H. Multi-view video

coding using view interpolation and color correction[J]. IEEE Trans on Circuits and Systems for Video Technology, 2007, 17(11):1436-1449. [29] 蒋刚毅, 张云, 郁梅. 基于相关性分析的多模式多视点视频编码[J].

计算机学报,2007, 30(12): 2205-2211.

JIANG G Y, ZHANG Y, YU M. Multi-modal multi-view video coding based on correlation analysis[J]. Chinese Journal of Computers, 2007, 30(12): 2205-2211.

[30] LI D X, ZHENG W, XIE X H. Optimizing inter-view prediction

structure for multiview video coding with minimum spanning tree[J]. Electronics Letters, 2007 43(23): 1269-1271.

[31] 陈建乐, 陈妤姗, 刘济林等. 多视点视频中基于乘加误差模型的亮

度和色差校正[J]. 电路与系统学报, 2009, 14(1): 66-71.

CHEN J L, CHEN Y S, LIU J L, et al. Luminance and chrominance correction for multi-view video using multiplicative and additive er-rors[J]. Journal of Circuits and Systems, 2009, 14(1): 66-71.

[32] HUO J Y, YANG H T, CHANG Y L, et al. Color compensation for

multi-view video coding based on diversity of cameras[J]. Journal of Zhejiang University Science A, 2008, 9(12): 1631-1637.

[33] 杨海涛, 常义林, 霍俊彦等. 应用于多视点视频编码的基于深度特

征的图像区域分割与区域视差估计[J]. 光学学报, 2008, 28(6): 1073-1078.

YANG H T, CHANG Y L, HUO J Y, et al. Depth characteristic-based image region partition and regional disparity estimation for multi-view video coding[J]. Acta Optica Sinica, 2008, 28(6): 1073-1078. [34] 李振纲, 安平, 严涛等. 面向多视点视频编码的宏块级码率控制[J].

应用科学学报, 2009, 27(5): 502-507.

LI Z G, AN P, YAN T, et al. Macroblock layer rate control in multi-view video coding[J]. Journal of Applied Sciences, 2009, 27(5): 502-507.

[35] KANG J W, CHO S H, HUR N H. Graph theoretical optimization of

prediction structure in MVC[A]. IEEE International Conference on Image Processing[C]. San Antonio, Texas, USA, 2007. 429-432. [36] MPEG Requirements Subgroup. Requirements on multi-view video

coding v.6[A]. W80, 76th MPEG Meeting[C]. Montreux, CH, 2006. [37] FECKER U, KAUP A. Complexity evaluation of random access to

coded multi-view video data[A]. European Signal Processing Confer-ence[C]. Poznan, Poland, 2007.

[38] FLIERL M, MAVLANKAR A, GIROD B. Motion and disparity com-pensated coding for multiview video[J]. IEEE Trans Circuits and Sys-tems for Video Technology, 2007, 17(11): 1474-1484.

[39] SCHARSTEIN D, SZELISKI R. A taxonomy and evaluation of dense

two-frame stereo correspondence algorithms[J]. International Journal of Computer Vision, 2002, 47(1/2/3): 7-42.

[40] Middlebury stereo evaluation-version 2[EB/OL]. http://vision.middlebury.

edu/stereo/eval/, 2009.

[41] KOO H S, JEON Y J, JEON B M. Motion information inferring

scheme for multi-view video coding[J]. IEICE Transactions on Com-munications, 2008, E91-B(4): 1247- 1250.

[42] KOO H S, JEON Y J, JEON B M. MVC motion skip mode[A].

JVT-W081, 23rd JVT Meeting[C]. San Jose, CA, USA, 2007. [43] YANG H T, CHANG Y L, HUO J Y. Fine-granular motion matching

for inter-view motion skip mode in multiview video coding[J]. IEEE Trans on Circuits and Systems for Video Technology, 2009, 19(6): 887-2. [44] YANG H T, CHANG Y L, HUO J Y. CE1: fine motion matching for

motion skip mode in MVC[A]. JVT-Z021, 26th JVT Meeting[C]. Antalya, TR, 2008.

[45] BOYCE J M. Weighted prediction in H.2 standard[A]. IEEE Interna-tional Symposium on Circuit and System[C]. Vancouver, Canada 2005.

第5期 霍俊彦等:多视点视频编码的研究现状及其展望 ·121·

[46] HUR J H, CHO S, LEE Y L. Adaptive local illumination change com-pensation method for H.2/AVC-based multiview video coding[J]. IEEE Trans Circuits and Systems for Video Technology, 2007, 17(11): 1496-1505.

[47] LEE Y L, HUR J H, KIM D. CE11: illumination compensation[A].

JVT- U052, 21st JVT Meeting[C]. Hangzhou, China, 2006.

[48] KIM J H, LAI P, LOPEZ J. New coding tools for illumination and

focus mismatch compensation in multiview video coding[J]. IEEE Trans Circuits and Systems for Video Technology, 2007, 17(11): 1519-1535.

[49] FECKER U, BARKOWSK M, KAUP A. Histogram-based prefilter-ing for luminance and chrominance compensation of multiview video[J]. IEEE Transactions on Circuits and Systems for Video Tech-nology, 2008, 18(9): 1258-1267.

[50] YEA S, VETRO A. RD-optimized view synthesis prediction for mul-tiview video coding[A]. IEEE International Conference on Image Processing 2007[C]. San Antonio, Texas, USA, 2007. 209-212. [51] MARTINIAN E, BEHRENS A, XIN J. View synthesis for multiview

video compression[A]. 25th PCS Proceedings: Picture Coding Sympo-sium[C]. Beijing, China, 2006.

[52] LAI P, ORTEGA A, PANDIT P. Adaptive reference filtering for

MVC[A]. JVT-W065, 23rd JVT Meeting[C]. San Jose, CA, USA, 2007. [53] CHEN Y, WANG Y K, UGUR K. The emerging MVC standard for 3D

video services[J]. EURASIP Journal on Advances in Signal Processing, 2009, (1): 1-13.

[54] MPEG Video Subgroup. Call for contributions on FTV test mate-rial[A]. W9468, 82nd MPEG Meeting[C]. Shenzhen, China, 2007.

作者简介:

霍俊彦(1982-),女,山西晋中人,博士,西安电子科技大学讲师,主要研究方向为视频编码与多媒体通信。

常义林(1944-),男,江苏江都人,西安电子科技大学教授、博士生导师,主要研究方向为多媒体通信和网络管理。

李明(1983-),男,山东青岛人,西安电子科技大学博士生,主要研究方向为视频编码和视频传输。

马彦卓(1980-),女,河北深州人,西安电子科技大学博士生,主要研究方向为视频编码与视频传输。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务