嵌入式视频图像系统压缩算法的实现和优化技术频道中电网-图像压缩-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

嵌入式视频图像系统压缩算法的实现和优化技术频道中电网

来源：互联网发布日期：2011-10-07 19:49:33 浏览：11863次

导读：随着网络技术和多媒体技术的发展.视频通信的需求逐渐增加.同时最新的视频压缩标准不断推出。MPEG-4 ( Moving Pictures Expcrts Group-4)是国际运动图像像编码专...

作者：张春光吉林市人民广播电台刘化彤长春光学科技发展有限责任公司

引言

随着网络技术和多媒体技术的发展.视频通信的需求逐渐增加.同时最新的视频压缩标准不断推出。MPEG-4 ( Moving Pictures Expcrts Group-4)是国际运动图像像编码专家组(MPEG Moving Picture Experts Group)在1998年11月制定[1]的，它不同于其他标准.是个而向多媒体应用的压缩标准. 第1次提出了基于对象的压缩方法.使交互功能的实现成为可能。日前基于PC平台的MPEG-4视频编码器[2]在互联网的远程教育和高清晰电影等方面己经有较多的应用.但在硬盘录像机、多媒体通信等视频业务的嵌入式系统应用更为广泛。以DSP为嵌入式图像处理核心的系统，具有开发周期短，编程灵活的特点，因此DSP图像处理系统成为了研究热点。

DSPs结构特点

TMS320C6455是TI ( Tcxas Instrumcnts Incorporatcd)公司推出的最新高速DSP芯片[3]。具体结构见图1。最主要的特点从是结构[4]上采用了VLIW(VLIW: VeryLong Instruction Word)超长指令字内核结构.具有1200 MHz的CPU，每个周期可以同时执行8条32bit的指令。速度可达到9600 MIPS ( 1200 MHz X 8条指令=4 800 MIPS) 。片内采用2级高速缓存结构.片外存储器有很强大的外部存储器接口EMIF ( Extcrnal Mcm ory Intcrfacc)。这些性能能满足视频图像处理的实时性要求.确立了它在高端多媒体应用中的地位。

图1 TMS320C6455DSP 的内核结构

对Cache的优化

最大程度地发挥Cache效率是达到期望编码器性能的一个关键因素[5]。Cache高速的存储访问速度可以减少CPU延迟周期.提高处理器的效率。TMS320C64xDSP有两级存储结构应用片内数据和程序存储。对于L1Cache能够以CPU的同样速度访问。L2Cache既可以作数据空间也可以作为程序空间使用.L2是片外空间与L1的桥梁。

MPEG-4视频编码器是以宏块为单位进行编码处理，只有当前宏块处理完成所有的过程后，视频编码器才能传送一个宏块。直接出现的缺点是: 一个视频编码器整个代码大于 L1P。每个宏块在 L1P和 L2之间的传送过程，导致严重的Cache缺失。而一个单独的宏块从片外存储空间到片内空间的搬移 , 也不能发挥 EDMA (Extended Direct Memony Access )的优势。
　　
为避免发生的Cache大量缺失，采取 3种方法[6] 。

1.整个编码算法应该分成 3个模块: 宏块编码、运动估计、运动重建 , 这样使每个模块代码都适合 L1P。每次循环以宏块组为单位 , 宏块组的大小由 L1D大小决定。在宏块编码模块中, 当宏块组被传送到片内，他们一起经过 DCT Direct Cosine Transform 、量化、熵编码 , 直到宏块组编码模块结束为止，L1D才刷新这组宏块。同时对应的程序包括 DCT、量化、熵编码也被保存到 L1P。

2.尽量减少数据类型的大小。可以用 8位数据就不用 16位数据 , 这样不但节省空间，而且能提高L1D的使用效率。因为 L1D行的大小是固定的，在一行内如果采用 8位数据比 16位数据可多放一倍 , 从而减少程序中 Cache缺失情况的发生。

3.采用乒乓缓存结构, 提高 Cache命中率 , 减少 CPU等待时间

图2 乒乓缓冲存储器结构

SAD和像素插值的优化

SAD(Sum ofAbsolute Difference)是运动估计模块[7]关键模块 , 而 DM642提供了一套丰富的视频和图像专用指令可以高效实现运动估计算法。

LDNDW (Load Non2alignedDoubleWord)指令，可以一次读取 64位无边界数据。这个指令可以从当前帧中和参考帧一次读取8个 8位像素数据。因此可以提高当前帧和参考帧宏块数据的搬移速度。

SUBABS4(Subtractwith Absolute)指令，计算在两组 8位数据包之间的 4个绝对值之差。
　　
DOPTPU4是个计算 4对 8位数据乘积求和的运算。两个 DOPTPU4可在单周期内并行 , 所以可极大地提高 SAD的计算速度。具体步骤如下：

1)两个 LDNDW指令从当前帧和参考帧取 8个像素;
2)两个 SUBABS4计算 8个像素的差值; <

相关热词： MPEG-4 DSP 视频编码器

嵌入式视频图像系统压缩算法的实现和优化技术频道中电网
来源：互联网发布日期：2011-10-07 19:49:33 浏览：11863次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

嵌入式视频图像系统压缩算法的实现和优化 技术频道 中电网 来源：互联网 发布日期：2011-10-07 19:49:33 浏览：11863次