Video Object编码技术

Video Object编码技术

《西部广播电视》2001.10发表
2001中南地区广播电视技术讨论会技术论文二等奖

多媒体信息是未来人类获取信息最主要的载体，因此它已成为目前世界上技术开发和研究的热点。视频信息作为多媒体信息中最被关注、数据量最大的一员，现在也正面临着一场其意义不亚于从模拟到数字的技术进步革新：从传统的矩形DCT变换编码到根据视频内容、划分对象、分别变换编码的新的编码方法。

一、传统的编码方式

传统的视频编码是以视频信号的数字量为编码对象的，与视频信息的内容无关，无论是M-JPEG、MPEG-1还是MPEG-2，都是以DCT矩形变换块为变换编码单元，对DCT块内图像的亮度和色度进行特征取样，提取像素；采用帧间编码、运动估测技术，在参考帧帧内DCT编码的基础上，对DCT块内图像的像素特征进行差值预测编码。基于矩形DCT编码的视频编码在设计思想上只考虑到对信号数据进行处理的需要（比如小的比特率以利于传输、高的比特率以保证质量），但未考虑视频信息--图像内容本身的含义和重要性，以及视频信息应用者的主观需求（比如部分内容的提取功能）。另外，这种基?quot;块"的压缩算法在低码率时容易产生"方块效应"和"抽帧"，大大缩小了视频信息的应用领域。

小波变换是一种新的变换编码方法，它与DCT变换相比，考虑到了视频信号对不同应用环境的自适应性（不同的清晰度与比特率），可以将基础图像层与增强图像层分离编码传输，用户可根据实际情况选择是否打开增强图像层。但无论用户选择是或否，被传送的视频信息却都是一样的。

二、基于内容对象的编码

1、 VO与VOP概念的引入

传统的视频编码方式是将整个视频信号作为一个内容单体来处理，其本身不可再分割，而这与人类对视觉信息的判别法则，也就是大脑对视神经导入的视觉信号的处理方法是完全不同的。这就决定了我们不可能将一个视频信息完整的从视频信号中提取出来，比如：将加有台标和字幕的视频恢复成无台标、字幕的视频。解决问题的惟一途径就是在编码时就将不同的视频信息载体--视频对象VO（Video Objects）区分开，独立编码传送，将图像序列中的每一帧，看成是由不同的VO加上活动的背景所组成。VO可以是人或物，也可以是计算机生成的2D或3D图形。VO具有音频属性，其属性赋值可能?quot;有"或者是"无"。但音频的具体内容数据是独立于视频编码、传输的。VO概念的引入，更加符合人脑对视觉信息的处理方式，并使视频信号的处理方式从数字化进展到智能化。提高了视频信号的交互性和灵活性，使得更广泛的视频应用和更多的内容交互功能成为可能。

现代图像编码理论指出，人眼捕获图像信息的本质是"轮廓－纹理"，即人眼感兴趣的是VO的一些表面特性，如形状、运动、纹理等。VO的表面往往是不规则的、千变万化的，但可将其视为一定视角下，n个形状规则的、具有一定纹理的剖面的组合的连续运动，这些剖面的组合称为视频对象面VOP(Video Object Profile)。VOP描述了VO在一定视角条件下的表面特性。VOP的编码主要由两部分组成：一个是形状编码，另一个是纹理和运动信息编码。VOP纹理编码和运动的预测、补偿在原理上同MPEG-2基本一致，而形状编码技术则是首次应用在图像编码领域。

2、新的编码技术

合成VO的独立编码在以前，2D或3D动画被看作是视频的一部分，并一概以视频的方法来处理。实际上，根据合成VO的合成机理和特性，大部分合成VO都可以用通用的有关图形文本的多种表达方式来描述。非复杂性合成VO将被视为一种独立于视频的数据类型来编码，并定义了其描述框架、通用的数据流结构和灵活的接口。而复杂性合成VO和自然VO的.编码方法，将采用以下的编码方法。

基于矩形窗口的VOP分割考虑到与现有标准的兼容，目前已得到应用的VO编码技术，比如MPEG4，仍采用了基于矩形窗口的内容分割法。编码时，首先利用像素特征统计，将每一个VOP都限定在一个矩形窗口内，称之为VOP窗口(VOP Window),取窗的原则为：长、宽均为16像素的整数倍（便于对现有标准的兼容和将来的扩展），同时保证VOP窗口中非VOP的宏块数目最少。目前标准中的视频帧可认为是一个无VOP的特例，在编码过程中将形状编码模块屏蔽掉就可以了。在一个VOP窗口内，VOP剖面的形状也是采用8×8像素的矩形形状。针对不同的VOP，可以根据不同的应用场合和运动、变化的特点，采用固定的或可变的VOP帧频（即VOP刷新频率）。