<开源项目分析>Cisco的开源视频加解码器THOR（H.264解码）

时间 2019-12-04

标签开源项目分析 cisco 视频解码器 thor h.264 解码繁體版

原文原文链接

原创博客，转载请联系博主！linux

题外话：自学了快两个月的Perl语言，原本打算写两篇基础介绍的博文来科普一下一些小技巧，可是仔细想一想仍是没有必要了吧，毕竟如今不管是在用Perl5仍是Perl6的人都是小众了，回头写几个中小型的项目再拿出来深刻说会更好点，毕竟Perl的学习曲线比较陡峭也不是几篇博文能说完的事儿，好了废话到此为止，下文进入正题！git

有关于提到的加解码器THOR的源代码托管在github上：https://github.com/cisco/thorgithub

Github上面这个项目的文档写得不是通常的简洁，我先大概整理下这个编译后的二进制文件大概用法再讨论里面的构造（linux平台下编译）：算法

build/Thorenc -if input_filename -of output_filename [options...]ide

build/Thordex input_filename output_filename函数

虽然编码和解码的参数用法不是很对称，但仍是好在比较简明，其实解码器的参数是固定的，可是编码过程的参数比较复杂，以下所示：学习


static void add_param_to_list(param_list *list, char *name, char *default_string, int type, void *value)
{
  list->params[list->num].name = name;
  list->params[list->num].default_string = default_string;
  list->params[list->num].type = type;
  list->params[list->num].value = value;
  list->num++;
}
.....
  add_param_to_list(&list, "-cf",                   NULL, ARG_FILENAME, NULL);
  add_param_to_list(&list, "-if",                   NULL, ARG_FILENAME, &params->infilestr);
  add_param_to_list(&list, "-ph",                    "0", ARG_INTEGER,  &params->file_headerlen);
  add_param_to_list(&list, "-fh",                    "0", ARG_INTEGER,  &params->frame_headerlen);
  add_param_to_list(&list, "-of",                   NULL, ARG_FILENAME, &params->outfilestr);
  add_param_to_list(&list, "-rf",                   NULL, ARG_FILENAME, &params->reconfilestr);
  add_param_to_list(&list, "-stat",                 NULL, ARG_FILENAME, &params->statfilestr);
  add_param_to_list(&list, "-n",                   "600", ARG_INTEGER,  &params->num_frames);
  add_param_to_list(&list, "-skip",                  "0", ARG_INTEGER,  &params->skip);
  add_param_to_list(&list, "-width",              "1920", ARG_INTEGER,  &params->width);
  add_param_to_list(&list, "-height",             "1080", ARG_INTEGER,  &params->height);
  add_param_to_list(&list, "-qp",                   "32", ARG_INTEGER,  &params->qp);  
  add_param_to_list(&list, "-f",                    "60", ARG_FLOAT,    &params->frame_rate);
  add_param_to_list(&list, "-lambda_coeffI",       "1.0", ARG_FLOAT,    &params->lambda_coeffI);
  add_param_to_list(&list, "-lambda_coeffP",       "1.0", ARG_FLOAT,    &params->lambda_coeffP);
  add_param_to_list(&list, "-lambda_coeffB",       "1.0", ARG_FLOAT,    &params->lambda_coeffB);
  add_param_to_list(&list, "-early_skip_thr",      "0.0", ARG_FLOAT,    &params->early_skip_thr);
  add_param_to_list(&list, "-enable_tb_split",       "0", ARG_INTEGER,  &params->enable_tb_split);
  add_param_to_list(&list, "-enable_pb_split",       "0", ARG_INTEGER,  &params->enable_pb_split);
  add_param_to_list(&list, "-max_num_ref",           "1", ARG_INTEGER,  &params->max_num_ref);
  add_param_to_list(&list, "-HQperiod",              "1", ARG_INTEGER,  &params->HQperiod);
  add_param_to_list(&list, "-num_reorder_pics",      "0", ARG_INTEGER,  &params->num_reorder_pics);
  add_param_to_list(&list, "-dqpP",                  "0", ARG_INTEGER,  &params->dqpP);
  add_param_to_list(&list, "-dqpB",                  "0", ARG_INTEGER,  &params->dqpB);
  add_param_to_list(&list, "-mqpP",                "1.0", ARG_FLOAT,    &params->mqpP);
  add_param_to_list(&list, "-mqpB",                "1.0", ARG_FLOAT,    &params->mqpB);
  add_param_to_list(&list, "-dqpI",                  "0", ARG_INTEGER,  &params->dqpI);
  add_param_to_list(&list, "-intra_period",          "0", ARG_INTEGER,  &params->intra_period);
  add_param_to_list(&list, "-intra_rdo",             "0", ARG_INTEGER,  &params->intra_rdo);
  add_param_to_list(&list, "-rdoq",                  "0", ARG_INTEGER,  &params->rdoq);
  add_param_to_list(&list, "-max_delta_qp",          "0", ARG_INTEGER,  &params->max_delta_qp);
  add_param_to_list(&list, "-encoder_speed",         "0", ARG_INTEGER,  &params->encoder_speed);
  add_param_to_list(&list, "-deblocking",            "1", ARG_INTEGER,  &params->deblocking);
  add_param_to_list(&list, "-clpf",                  "1", ARG_INTEGER,  &params->clpf);
  add_param_to_list(&list, "-snrcalc",               "1", ARG_INTEGER,  &params->snrcalc);
  add_param_to_list(&list, "-use_block_contexts",    "0", ARG_INTEGER,  &params->use_block_contexts);
  add_param_to_list(&list, "-enable_bipred",         "0", ARG_INTEGER,  &params->enable_bipred);
...

这些是编码器进入编码循环以前真正的参数，若是并无在argv里明确指明参数的值，那么就会在这里使参数被赋予默认缺省值，具体来说：测试

static int parse_params(int argc, char **argv, enc_params *params, param_list *list)优化

这个函数是从命令行调用参数中获得参数值的函数ui

static void add_param_to_list(param_list *list, char *name, char *default_string, int type, void *value)

这个函数是给函数列表赋以默认值和约束参数类型的函数

参数的读取先到这里，下文对参数会有更细的分析和补充。Thorenc能够编码的是一种后缀为.y4m格式的文件，与传统格式的视频文件不一样，这里看下.y4m格式文件的具体格式参数：

y4m格式视频文件文件最开头是以一段长度为10的ascii字符串"YUV4MPEG2"做为魔数签名，接着是一个空格(0x20)做为分隔符，接下来的数据流是关于这个视频文件的各类参数信息：

W--视频单画面帧的宽度 e.g.W1080

H--视频单画面帧的高度 e.g.H1920

F--视频单画面帧的频率 e.g.F24:1表明24帧每秒，F25:1表明25帧每秒

C--色彩空间，常见的有4:4:4,4:2:2,4:2:0表明了Y值与UV值的交叉程度，具体差异有不少文章科普篇幅较大这里暂不赘述

A--像素宽高比

在每个视频的参数之间也都有一个空格做为间隔符（0x20），在最后一个(0x0A)间隔符以后是真正原始的帧数据，大小以下所示：

C444--width*height*3

C422--width*height*2

C420--width*height*3/2

//解析y4m文件参数的switch-case

      while (pos < len && buf[pos] != '\n') {
          switch (buf[pos++]) {
          case 'W':
            params->width = strtol(buf+pos, &end, 10);
            pos = end-buf+1;
            break;
          case 'H':
            params->height = strtol(buf+pos, &end, 10);
            pos = end-buf+1;
            break;
          case 'F':
            den = strtol(buf+pos, &end, 10);
            pos = end-buf+1;
            num = strtol(buf+pos, &end, 10);
            pos = end-buf+1;
            params->frame_rate = (double)den/num;
            break;
          case 'I':
            if (buf[pos] != 'p') {
              fprintf(stderr, "Only progressive input supported\n");
              return NULL;
            }
            break;
          case 'C':
            if (strcmp(buf+pos, "C420")) {
            }
            /* Fallthrough */
          case 'A': /* Ignored */
          case 'X':
          default:
            while (buf[pos] != ' ' && buf[pos] != '\n' && pos < len)
              pos++;
            break;
          }
        }

而后接下来是视频解码过程当中必须清楚的几个概念：

SB(Super Block 超级块)：64*64的亮度像素(Luma Pixel)单元组成的块，能够被分解为CB。 ///关于亮度像素和色彩像素(Chroma Pixel)的概念见上文色彩空间C的定义，具体分布下文默认为4:2:0的分布，了解细节见wiki和google.

CB(Coding Block 编码块)：8*8的亮度像素单元组成的块，是超级块的子单元。

PB(Prediction Block 预测块)：是编码块的一种子块，一个编码块能够分为1，2或者4个相同的预测块。

TB(Transform Block 变换块)：是编码块的另外一种子块，一个编码块能够分为1或者4个相同的变换块。

边界问题：因为屏幕的分辨率种类繁多，有许多尺寸不能按超级块完整地进行等分，例如1920*1080分辨率的屏幕，在纵向上1080=64*16+56致使最后会剩余一个长方形的不完整超级块：

----------------〉〉〉

　　如上图所示，具体的解决的办法是将64*56的超级块分为两对32*32的块和32*24的块，32*24的块再具体对分再分办直到最后只有8*8块做为编码块，具体实现源码中有完总体现。

　　接下来是分帧和编码循环：

　　在thor中的main函数中全部真正编码文件的过程都体现为如下几段代码：

      /* Read input frame */
      fseek(infile, frame_num*(frame_size+params->frame_headerlen)+params->file_headerlen+params->frame_headerlen, SEEK_SET);
      read_yuv_frame(&orig,width,height,infile);
      orig.frame_num = encoder_info.frame_info.frame_num;

      /* Encode frame */
      start_bits = get_bit_pos(&stream);
      encode_frame(&encoder_info);
      rec_available[rec_buffer_idx]=1;
      end_bits =  get_bit_pos(&stream);
      num_bits = end_bits-start_bits;
      num_encoded_frames++;

　　在thor中一直有一个全局的对象stream，编码解码的过程都是围绕stream而展开的，包括将和编码有关的参数先写入stream中，随后将每一帧编码后的结果都写入stream，在stream使用一个经典的“滑窗”结构来进行二进制数据的读/写，orig是从原始的yuv文件读取获得的帧数据，编码的工做也是以orig为基础进行的。

encode_frame(&encoder_info);

　　其实真正编码的过程是一个很是复杂的过程，也是当前全部H.264行业都在关注的一项庞大的技术，之后会写几篇博文深刻探讨相关技术。在thor中最后一步是计算视频的psnr，这是一个评价视频编码标准的重要参数，也是做为考量算法效率的重要反馈结果。

snr_yuv(&psnr,&orig,&rec[rec_buffer_idx],height,width,input_stride_y,input_stride_c);

　　分析完psnr参数，整个函数代码就进入了收尾的阶段：关句柄，收内存，thor的工做基本也就完成了，thor和openh264相比整个项目小了不少，可是也少了一些对OS的区分支持，有一些代码须要优化，和一些测试代码的删减，总的来讲，不是作的很结构化的一个项目，用软件工程的说法就是模块耦合度过高了，我想这也是thor至今有些流产了的缘由吧，可是做为研究仍是很是有价值。