机电之家资源网
单片机首页|单片机基础|单片机应用|单片机开发|单片机文案|软件资料下载|音响制作|电路图下载 |嵌入式开发
培训信息
赞助商
H264解码器中CABAC硬件加速器的实现
H264解码器中CABAC硬件加速器的实现
 更新时间:2008-8-4 1:23:35  点击数:27
【字体: 字体颜色


    

摘  要:在H.264解码器中,为了能够完成高清码流的实时解码任务,本文提出了一种CABAC硬件加速器的设计方案。通过采用高效率的状态机和流水线结构,该方案可在每1~3个时钟周期内完成1bit数据的解码。本设计在中芯国际0.18mm CMOS工艺标准单元库的基础上进行综合,硬件加速器面积为0.38mm2,工作时钟频率可达166MHz。
关键词:CABAC;H.264;硬件加速器


引言
    H.264是由国际电信联盟(ITU)和国际标准化组织(ISO)共同制定的新一代视频编码标准,该标准采用一系列先进的编码技术,在编码效率、网络适应性等诸多方面都超越了以往的视频标准。H.264有两种熵编码方案:一种是从可变长编码方案发展而来的基于上下文的自适应可变长编码CAVLC;另一种是从算术编码发展而来的基于上下文的自适应二进制算术编码CABAC。与CAVLC相比,CABAC可以节省约7%的码流,但增加了10%的计算时间。在解高清码流时,用软件来做CABAC这样复杂的熵解码,无法完成实时解码的任务,因此,设计硬件加速器是非常必要的。


CABAC解码算法
    在H.264解码器的输入码流中,数据的基本单位是句法元素(Syntax Element),码流是由一个个句法元素依次衔接而成的。每个句法元素由若干比特组成,表示某个特定的物理意义。在H.264定义的码流中,句法元素被组织成有层次的结构,分别描述序列(Sequence)、图像(Picture)、片(Slice)、宏块(Macroblock)、子宏块(Subblock)五个层次的信息,CABAC主要负责对片层以下的句法元素进行解码。
CABAC解码的总体过程可以分为三个步骤:初始化、二进制算术解码归一化、反二进制。

初始化
     该过程在每一个片开始时执行,包括上下文模型变量(Context Variable)的初始化和解码引擎(Decoding Engine)的初始化。

二进制算术解码和归一化
    二进制算术解码是CABAC解码的核心部分,该过程实现1bit数据的解码,对每个句法元素进行解码都需要调用该过程。H.264中二进制算术解码有三种模式:规则解码(Decode Decision)、旁路解码(Decode Bypass)和结束解码(Decode Terminate)。对不同句法元素进行解码时,分别调用这三种模式的一种或多种。

反二进制化
    CABAC定义了四种二进制化方法:一元码(Unary)、截断一元码(Truncated Unary)、K阶指数哥伦布码(kth order Exp-Golomb)和定长码(Fixed-Length)。一个句法元素可以对应一种或两种上述二进制化方法,但特殊的是,句法元素mb_type和sub_mb_type的反二进制化独立于上述四种方法,它们通过查表来实现。
  
CABAC硬件加速器的架构设计
H.264解码器的软/硬件划分
    H.264解码过程采用软/硬件联合的解码方案,整个解码器由32位CPU、DSP结构的运算单元和硬件加速器组成。CABAC熵解码部分,主要是一些判断和分支操作,数据接口、吞吐量不大,这些任务由软件和硬件加速器共同完成。本文设计的CABAC解码模块就是一个CABAC硬件加速器。

CABAC硬件加速器的总体构架
    CABAC硬件加速器的总体架构如图1所示。其总体架构分为两层:顶层是CABAC_TOP;底层有7个模块,包括CABAC_Center_ Control_Unit、Context、 Neighbor_MB_Information, Context_Init、AC_next_ state_LPS、 AC_next_state_MPS和RangeLPS。

    CABAC_Center_Control_Unit模块负责上下文模型变量的初始化,解句法元素,更新Context,并将解出的残差数据传给IQ&IDCT模块;Context模块是双口RAM,存放459个上下文模型变量,可同时对一个地址的上下文模型变量进行读操作并对另外一个地址的上下文模型变量进行写操作;Neighbor_MB_Information模块是SRAM,存放宏块信息,CABAC解码器在解析当前宏块中的句法元素时,需要参考上面和左面宏块的信息,因此,需要在该SRAM内保存图像中当前宏块的上一行宏块和该行之前宏块的信息,每解完一个宏块更新该SRAM;Context_Init模块是一块片内ROM,用于初始化变量;3个查找表模块AC_next_state_LPS、AC_next_ state_MPS和RangeLPS由组合逻辑实现,用于二进制算术解码过程中的查表运算。

CABAC的硬件化分析
    本设计的目标是使整个H.264解码器的芯片能够对高清图像(1920×1088)进行实时解码。假设芯片工作在166MHz的频率下,图像播放速率是25fps,则平均解一个宏块的时间是823个时钟周期。考虑到H.264熵解码部分的运算总体上是串行解码,并行性较差,因此CABAC硬件加速器需要在3个时钟周期内完成1bit数据的解码。假设视频图像的压缩比为20:1,YUV为4:2:0取样,因为取样值是8bit,则每个像素为8bit×1.5=12bit。CABAC的解码率约为1:1.2,所以CABAC要解的码流是(1920×1088×12bit/20)×1.2,约1.43Mb。芯片工作频率是166MHz,每3个时钟解出1bit,则解码数据率约为55.3Mbps,本设计在解码时CABAC占用了90%,约为49.8Mbps。因此解码速度为49.8/1.43,约34.7fps,即1s可以解34.7帧,则解1帧(1920×1088)大约需要28.8ms。

    为了达到该目标,CABAC硬件加速器的设计必须对核心的二进制算术解码进行优化。根据归一化算法的特点,即循环的次数可由输入的codIRange、codIOffset和查表得到的codIRangeLPS事先判断出来,因此可以合并二进制化和归一化这两个步骤,使其在1个时钟周期内完成。由于篇幅有限,下面仅以三种模式中的规则解码为例,说明二进制算术解码和归一化的硬件化,旁路解码和结束解码可参考H.264协议。

[1] [2] [3]  下一页
  • 上一篇: 基于单片机技术的机械设备计时器的研制
  • 下一篇: 高清电视音频解码的定点DSP实现
  • 发表评论   告诉好友   打印此文  收藏此页  关闭窗口  返回顶部
    热点文章
     
    推荐文章
     
    相关文章
    网友评论:(只显示最新5条。)
    关于我们 | 联系我们 | 广告合作 | 付款方式 | 使用帮助 | 机电之家 | 会员助手 | 免费链接

    点击这里给我发消息66821730(技术支持)点击这里给我发消息66821730(广告投放) 点击这里给我发消息41031197(编辑) 点击这里给我发消息58733127(审核)
    本站提供的机电设备,机电供求等信息由机电企业自行提供,该企业负责信息内容的真实性、准确性和合法性。
    机电之家对此不承担任何保证责任,有侵犯您利益的地方请联系机电之家,机电之家将及时作出处理。
    Copyright 2007 机电之家 Inc All Rights Reserved.机电之家-由机电一体化网更名-声明
    电话:0571-87774297 传真:0571-87774298
    杭州滨兴科技有限公司提供技术支持

    主办:杭州市高新区(滨江)机电一体化学会
    中国行业电子商务100强网站

    网站经营许可证:浙B2-20080178-1