WO2015100956A1

WO2015100956A1 - 异构集群中实现x264编码加速的方法、系统及计算节点、存储介质

Info

Publication number: WO2015100956A1
Application number: PCT/CN2014/080020
Authority: WO
Inventors: 王继刚; 周斌
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-01-02
Filing date: 2014-06-16
Publication date: 2015-07-09
Also published as: CN104768000A

Abstract

公开了一种异构集群中实现X264编码加速的方法、系统及计算节点、存储介质，包括获取集群中计算节点的设备信息；计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点并行处理；将来自各计算节点利用GPU设备进行编码加速处理后得到的编码后的结果，合并为完整的视频。基于支持GPU的异构集群环境，不仅使用了集群的并行能力，同时针对单个计算节点使用了GPU设备进行二次加速，充分发挥了异构集群的优势。而且，在提供的技术方案中，利用GPU设备的性能优势，提高了通用性和兼容性。

Description

异构集群中实现 X264编码加速的方法、系统及计算节点、存储介质技术领域

本发明涉及图形处理技术，尤指一种基于支持图形处理器（GPU， Graphic Processing Unit )的异构集群中实现 X264编码加速的方法、系统及计算节点、存储介质。背景技术

目前，在 X264编码优化领域主要有软件优化和硬件优化两个方面。其中，专门的硬件优化技术代价高，往往需要特定的硬件平台来支持，而且不能通用；软件优化技术，主要从算法层次和并行加速两个方面着手： X264 程序本身，简化了 H.264标准中的^ I多复杂算法，同时使用 CPU中的多媒体指令从指令并行的角度进行了加速设计。目前，已有的 X264程序的加速方案主要是利用同构集群或者单机上的 GPU设备，来加速 X264编码效率。

现有技术中，提出了集群环境中加速 X264程序的设计和实现方案，参见 "PC集群中的 H.264并行编码效率分析" ( "Parallel Coding Efficiency Analysis of H.264 on PC cluster" (IEEE 2010), 其中，在集群中对 slice并行方案和帧（frame ) 并行方案，进行了设计与分析， H.264 标准规定每个图像帧可以划分为一个或多个 slice, 每个 slice可包含多个宏块。虽然 frame 级并行方案，能减缓数据传输的压力，但是， frame方案中针对的是同构的集群环境，而且，在其基于帧（frame— based ) 并行方案中，主节点每次将一帧的数据传给一个计算节点进行计算，这样的实现方式并不能在有多个计算节点的集群中 [艮好的发挥作用。

在 AMD的公开号为 US 2009/0016430，发明名称为 "利用 GPU加速的软件视频编码器" （ "Software Video Encoder with GPU Acceleration" ) 的专利申请中，提出了一种将整个编码任务分解，不同的任务调度到不同的设备进行计算的方案。在该技术方案中， GPU主要完成运动搜索过程以及熵编码过程。该方法突出的是， CPU间多线程的任务分配，而 GPU设备的性能并没有发挥出来。

在"基于 CUDA的 H.264并行编码器研究与实现" （国防科学技术大学，苏华友硕士论文， 2010年 11月 ) 中，提出了在单个 GPU上利用统一设备架构（ CUDA )加速 H.264并行编码器的实现方案。利用 GPU加速了 X.264 程序中的帧间预测、帧内预测、熵编码等过程。但是，其提出的加速方案中，由于加速的几个模块是严格的串行执行过程，因此，整体的加速性能受到了很大的影响。同时，在每一个模块的计算时，都是以宏块为单位顺序进行的，虽然文中采用了对角线扫描的方式以增加宏块处理的并行性，但是，这样的并行处理方式仍不能发挥 GPU的优势。另外，该方法仅使用单个 GPU加速，没有考虑集群环境，且基于 CUDA加速，故其能够支持的 GPU设备显然是受限的，比如该方法就不能支持 AMD公司的 GPU设备。

综上所述，现有基于支持 GPU的异构集群的 X264编码加速中，要么不能在有多个计算节点的集群中发挥作用，要么未考虑集群环境，不能将 GPU设备的性能优势发挥出来，而且通用性和兼容性不好。发明内容

为了解决上述技术问题，本发明实施例提供一种异构集群中实现 X264 编码加速的方法、系统及计算节点，能够充分发挥异构集群的优势，利用 GPU设备的性能优势，提高通用性和兼容性。

为解决上述技术问题，本发明实施例提供了一种异构集群中实现 X264 编码加速的方法，包括：获取集群中计算节点的设备信息；

计算待编码的视频序列帧数目，同时按照所述计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点并行处理；

将来自各计算节点利用图形处理器 GPU设备进行编码加速处理后得到的结果，合并为完整的视频。

所述计算待编码的视频序列帧 frame数目包括：

对待编码的视频中的码流数据进行分离，获取视频流数据；

针对不同的视频格式，对获得的视频流数据进行解析，获取不同的视频流数据的头部以及视频流数据的视频段；

根据计算得出的视频流数据每一帧的大小，以及视频流数据的总长度，计算待编码的视频序列数目。

所述计算节点的设备信息，主要包括 CPU设备的核的数目、 GPU设备工作组信息。

所述每一个计算节点的计算任务 _v(_Vl,_V2... 如下式所示：

' ⁷ ,. ~ Λ其中，表示计算节点 1上的计算任

1 1 务，其中 i=l,2,3...n; _gi. (i=l,2,3...n)表示计算节点 i上是否存在 GPU设备， "^表示对 &的值取反的运算； V表示视频序列数目； _Pl ( ^ =1,2,3... n) 表示计算节点 i的 CPU设备的核的数目； _fo。r表示下取整运算;。

所述将待编码的视频序列帧分段调度到相应的计算节点并行处理包括：

将各所述计算任务所包含的视频段调度到对应的计算节点上，每一个计算节点从对应的偏移量开始，依次处理接下来的帧视频序列；其中，待编码的视频帧的偏移量分别为 offs,, ν,ν + ν₂ ,···,¾ v_t )。

1

本发明实施例还提供了一种异构集群中实现 X264编码加速的方法，包括：计算节点对待编码的视频段进行预处理，将不同的待编码的视频帧的像素点映射到不同的 GPU工作组中，并行地处理一帧中的所有像素点的插值结果；

根据得到的插值结果，在 GPU设备中并行计算时，将一个宏块的计算映射到 GPU的一个本地工作组中，将不同的计算任务分别映射到不同的工作单元中进行计算；将编码代价最小的预测模式下的编码代价作为当前块的帧内编码代价；计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧内编码代价；

同时，并行处理一帧中的所有宏块，每一个宏块的处理映射到不同的处理单元中；计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧间编码代价；

比较当前编码帧，在不同的编码模式下的帧内编码代价、帧间编码代价，以及综合编码中率失真优化、确定当前帧的编码类型。

本发明实施例又公开了一种异构集群中实现 X264编码加速的系统，至少包括源主节点、目的主节点、一个或一个以上计算节点；其中，

源主节点，配置为获取集群中计算节点的设备信息；计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点；

计算节点，配置为利用 GPU设备进行编码加速处理后，将编码后的结果输出给目的主节点；

目的主节点，配置为接收来自各计算节点的编码后的结果，将其合并为完整的视频。

所述源主节点与目的主节点是同一节点。

所述计算节点的设备信息至少包括 CPU设备的核的数目、 GPU设备工作组信息。本发明实施例还公开了一种节点，配置为获取集群中计算节点的设备信息；计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点；接收来自各计算节点利用图形处理器 GPU设备进行编码加速处理后的编码结果，并将编码后的结果合并为完整的视频。

本发明实施例再公开了一种计算节点，至少包括预处理模块、帧内编码代价计算模块、帧间编码代价计算模块，以及处理模块；其中，

预处理模块，配置为对待编码的视频段进行预处理，将不同的待编码的视频帧的像素点映射到不同的 GPU工作组中，并行地处理一帧中的所有像素点的插值结果，将插值结果输出给帧内编码代价计算模块和帧间编码代价计算模块；

帧内编码代价计算模块，配置为在 GPU设备中并行计算时，将一个宏块的计算映射到 GPU的一个本地工作组中，将不同的计算任务分别映射到不同的工作单元中进行计算；将编码代价最小的预测模式下的编码代价作为当前块的帧内编码代价；计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧内编码代价；帧间编码代价计算模块，配置为并行处理一帧中的所有宏块，每一个宏块的处理映射到不同的处理单元中；计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧间编码代价；

处理模块，配置为比较当前编码帧，在不同的编码模式下的帧内编码代价、帧间编码代价，以及综合编码中率失真优化、确定当前帧的编码类型。

本发明实施例还记载了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序配置为执行前述的异构集群中实现 X264编码加速的方法。

与现有技术相比，本发明实施例的技术方案提供包括获取集群中计算节点的设备信息；计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点并行处理；各计算节点利用 GPU设备进行编码加速处理后，将编码后的结果合并为完整的视频。本发明实施例中基于支持 GPU的异构集群环境，不仅使用了集群的并行能力，同时针对单个计算节点使用了 GPU设备进行二次加速，充分发挥了异构集群的优势。而且，在本发明实施例提供的技术方案中，利用 GPU设备的性能优势，提高了通用性和兼容性。

本发明实施例的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图 1为本发明实施例基于支持 GPU的异构集群中实现 X264编码加速的方法的流程图；

图 2为本发明实施例基于支持 GPU的异构集群中实现 X264编码加速的系统的组成结构示意图；

图 3为本发明实施例计算节点的组成结构示意图。具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图 1为本发明实施例基于支持 GPU的异构集群中实现 X264编码加速的方法的流程图，如图 1所示，包括以下步骤：

步骤 100: 获取集群中计算节点的设备信息。

在异构集群中，计算节点可以是一个或一个以上，计算节点的设备信息是指计算节点中的所有设备的信息，主要包括 CPU设备的核的数目、GPU 设备工作组信息等，目前的集群系统或集群软件都提供直接获取到各计算节点的设备信息的功能，属于本领域技术人员的公知技术，这里不再赘述。

对于异构集群，假设计算节点的数目是"， "为大于 1的自然数；那么，

CPU设备的核的数目采用 … ）表示，其中， _Pi ( i=l,2,3...n )表示计算节点 i的 CPU设备的核的数目； GPU设备工作组采用 local— dim(x, _y, _Z global _dim(x, y, z)，其中，前者为工作组的局部 ID，后者为工作组的全局 ID, 是 OpenCL 中的默认表示方式，这里的 ID是每个核的 ID。这里，使用 ^ex^ -^^， &… g")来表示对应的计算节点上是否存在 GPU设备，其中 ( i=l,2,3...n )表示计算节点 i上是否存在 GPU设备，比如& =0表示不存在， g =l表示存在等。

步骤 101 : 计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点并行处理。

本步骤中，计算待编码的视频序列帧（frame )数目包括：将待编码的视频按照不同的视频序列的类型和视频格式，计算待编码的视频序列 frame 数目。具体实现中，首先，对待编码的视频中的码流数据进行分离，获取视频流数据，具体实现属于本领域技术人员的惯用技术手段，这里不再赘述；然后，针对不同的视频格式，对获得的视频流数据进行解析，获取不同的视频流数据的头部（即头字段 )以及视频数据的详细信息（即视频段）；最后，计算视频流数据每一帧的大小 frame _ size，以及视频流数据的总长度 len，并按照公式 (1)计算得出待编码的视频序列 frame数目：

本步骤中，按照计算节点的设备信息分配视频编码任务包括：按照每一个计算节点的 CPU设备的核的数目，以及 GPU设备的设备信息，分配视频编码任务。具体的编码任务分配中，为了简化编码任务分配的难度，可以认为每一个 CPU节点的处理能力只与处理器数目相关，有 GPU 的计算节点和没有 GPU计算节点的处理能力相比是一个常量 3。由此，得出每一个计算节点的编码任务即计算任务 i 如公式 (2)所示：

V, = floor _η ；' )

1 1

在公式 (2)中，表示计算节点 i上的计算任务，其中 i=l,2,3...n。 " ^表示对 &的值取反的运算， _ fo。r表示下取整运算； _Pl ( A =l,2,3...n )表示计算节点 i的 CPU设备的核的数目， _gl ( i=l,2,3...n )表示计算节点 i上是否存在 GPU设备， V表示视频序列 frame数目。

那么，每一个计算节点在对其编码任务进行编码时，读取的待编码的视频帧的偏移量分别为 o (0, v„v, + v₂ ,· · ·, ¾ v_t )。

1

本步骤中，将待编码的视频序列帧分段调度到相应的计算节点并行处理包括：按照公式 (2)中分配的计算任务，将各自的计算任务所包含的视频段调度到对应的计算节点上。每一个计算节点从对应的偏移量开始，依次处理接下来的帧视频序列。

通过本发明步骤 100〜步骤 101，依据计算节点的设备信息，针对其处理能力为每一个计算节点划分了计算任务，各计算节点在在整个集群环境中，对待编码的视频进行并行处理，达到了加速视频编码的目的，提高了编码效率。

步骤 102: 将来自各计算节点利用 GPU设备进行编码加速处理后得到的编码后的结果，合并为完整的视频。

本步骤中，对于各个计算节点，针对 X264程序的特点和编码流程的限制，对 X264的前期预测线程进行并行加速处理。这样，对于 X264的整体处理过程来讲，本发明强调的是，编码过程由适宜做逻辑运算的 CPU设备来执行，而预测处理过程则由 GPU设备来执行， GPU的编码是采用的通用的 OpenCL技术来实现的。具体地，本步骤中，各计算节点利用 GPU设备进行编码加速处理包括：

首先，对待编码的视频段进行预处理，即将不同的待编码的视频帧的最小组成单元即像素点映射到计算节点中的不同的 GPU工作组中，所有的像素点计算都是独立进行的，并行地处理一帧中的所有像素点的插值结果，并缓存最终结果以作为计算帧编码代价的输入参数；这里，为了降低运算的复杂度，可以将预处理设置为比如针对 8x8宏块进行处理。

然后，根据预处理后的插值结果进行帧内编码代价计算和帧间编码代价计算，其中，

帧内编码代价计算包括：每一个宏块（像素点的集合）的处理都有 M 种如 8种不同的预测模式。在 GPU设备中并行计算时，将一个宏块的计算映射到 GPU的一个本地工作组中，将 8种不同的计算任务分别映射到 8个不同的工作单元中进行计算。一帧中的所有宏块映射到 GPU的全局工作组中。计算得出每一个宏块的预测模式后，比较 8种预测模式中编码代价最小的预测模式，选择编码代价最小的预测模式下的编码代价作为当前块的帧内编码代价。计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧内编码代价^ _ra _ _cos t ; 帧间编码代价计算包括：并行处理一帧中的所有宏块，每一个宏块的处理映射到不同的处理单元中。计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧间编码代价? 'wter—cos t。

其中，帧内编码代价计算、帧间编码代价计算属于本领域技术人员的惯用技术手段，具体实现这里不再赘述。

接着，通过比较当前编码帧，在不同的编码模式下的帧内编码代价 intra cos t、帧间编码代价《ter _ cos t，以及综合编码中率失真优化、及其它编码参数限制条件下，确定当前帧的编码类型。具体实现属于本领域技术人员的公知技术，这里不再赘述。

本步骤中，将编码后的结果合并为完整的视频包括：

每一个计算节点，会将编码后的编码结果返回给主节点，主节点按照输出视频的格式，对来自各计算节点编码后的码流数据进行重新封装，合成一个完整的视频。具体实现属于本领域技术人员的惯用技术手段，这里不再赘述。其中，对于本发明来讲，主节点指的是同一节点，也可以将其分为源节点与目的节点。

通过本步骤，在单个计算节点中， CPU和 GPU设备相互协调工作，对待编码视频的前期预处理在 GPU中实现，而视频编码在 CPU中实现，充分发挥了 GPU和 CPU各自设备的优势，进一步提升了编码的性能。

与传统的同构集群不同，本发明实施例中使用的支持 GPU的异构集群环境，不仅使用了集群的并行能力，同时针对单个计算节点使用了 GPU设备进行二次加速，充分发挥了异构集群的优势。与已有的采用 CUDA技术实现环节不同，本发明提供的技术方案中， GPU 的加速环节采用 OpenCL 技术来实现，实现了在应用 X264应用软件的通用性和兼容性上提供支持，从而实现了在不同公司如 AMD和 Nivida公司的 GPU设备上的运行。图 2为本发明实施例基于支持 GPU的异构集群中实现 X264编码加速的系统的组成结构示意图，如图 2所示，至少包括源主节点、目的主节点、一个或一个以上计算节点；其中，

其中，源主节点与目的主节点可以是同一节点。本发明还提供一种节点，配置为获取集群中计算节点的设备信息；计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点；接收来自各计算节点利用图形处理器 GPU设备进行编码加速处理后的编码结果，并将编码后的结果合并为完整的视频。

其中，计算节点的设备信息至少包括 CPU设备的核的数目、 GPU设备工作组信息。

图 3为本发明实施例计算节点的组成结构示意图，如图 3所示，计算节点至少包括预处理模块 300、帧内编码代价计算模块 301、帧间编码代价计算模块 302，以及处理模块 303; 其中，

预处理模块 300, 配置为对待编码的视频段进行预处理，将不同的待编码的视频帧的像素点映射到不同的 GPU工作组中，并行地处理一帧中的所有像素点的插值结果，将插值结果输出给帧内编码代价计算模块 301 和帧间编码代价计算模块 302; 帧内编码代价计算模块 301，配置为在 GPU设备中并行计算时，将一个宏块的计算映射到 GPU的一个本地工作组中，将不同的计算任务分别映射到不同的工作单元中进行计算；将编码代价最小的预测模式下的编码代价作为当前块的帧内编码代价；计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧内编码代价；

帧间编码代价计算模块 302 , 配置为并行处理一帧中的所有宏块，每一个宏块的处理映射到不同的处理单元中；计算时同步全局工作组中的线程，所有计算完成后，并行计算所有宏块的编码代价之和，得出该编码帧的帧间编码代价；

处理模块 303，配置为比较当前编码帧，在不同的编码模式下的帧内编码代价、帧间编码代价，以及综合编码中率失真优化、确定当前帧的编码类型。

本领域技术人员应当理解，上述预处理模块、帧内编码代价计算模块、帧间编码代价计算模块，以及处理模块均可由的应用处理器（AP， Application Processor ), 中央处理器（ CPU， Central Processing Unit )、数字信号处理器（ DSP， Digital Signal Processor )或可编程门阵列（ FPGA， Field Programmable Gate Array )等实现。

本发明实施例还记载了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序配置为执行前述实施例的异构集群中实现 X264编码力口速的方法。

以上所述，仅为本发明的较佳实例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

工业实用性本发明基于支持 GPU的异构集群环境，不仅使用了集群的并行能力，同时针对单个计算节点使用了 GPU设备进行二次加速，充分发挥了异构集群的优势。并且，本发明利用 GPU设备的性能优势，提高了通用性和兼容性。

Claims

权利要求书

1、一种异构集群中实现 X264编码加速的方法，包括：

获取集群中计算节点的设备信息；

2、根据权利要求 1所述的方法，其中，所述计算待编码的视频序列帧 frame数目包括：

对待编码的视频中的码流数据进行分离，获取视频流数据；

3、根据权利要求 1所述的方法，其中，所述计算节点的设备信息，主要包括 CPU设备的核的数目、 GPU设备工作组信息。

4、根据权利要求 3所述的方法，其中，所述每一个计算节点的计算任务如下式所示：

' ⁷ ,. ~ Λ 其中，表示计算节点 1上的计算任

1 1

务，其中 i=l,2,3...n; _gi. ( i=l,2,3...n )表示计算节点 i上是否存在 GPU设备， " ^表示对 &的值取反的运算； V表示视频序列数目； _Pl ( ^ =1,2,3... n ) 表示计算节点 i的 CPU设备的核的数目； _ fo。r表示下取整运算。

5、根据权利要求 1所述的方法，其中，所述将待编码的视频序列帧分段调度到相应的计算节点并行处理包括：

将各所述计算任务所包含的视频段调度到对应的计算节点上，每一个计算节点从对应的偏移量开始，依次处理接下来的帧视频序列；其中，待编码的视频帧的偏移量分别为 offs,, ν , ν + ν₂ ,· · ·, ¾ v_t )。

1

6、一种异构集群中实现 X264编码加速的方法，包括：

计算节点对待编码的视频段进行预处理，将不同的待编码的视频帧的像素点映射到不同的 GPU工作组中，并行地处理一帧中的所有像素点的插值结果；

7、一种异构集群中实现 X264编码加速的系统，至少包括源主节点、目的主节点、一个或一个以上计算节点；其中，

8、根据权利要求 7所述的系统，其中，所述源主节点与目的主节点是同一节点。

9、根据权利要求 7或 8所述的系统，其中，所述计算节点的设备信息至少包括 CPU设备的核的数目、 GPU设备工作组信息。

10、一种节点，配置为获取集群中计算节点的设备信息；计算待编码的视频序列帧数目，同时按照计算节点的设备信息分配视频编码任务并将待编码的视频序列帧分段调度到相应的计算节点；接收来自各计算节点利用图形处理器 GPU设备进行编码加速处理后的编码结果，并将编码后的结果合并为完整的视频。

11、一种计算节点，至少包括预处理模块、帧内编码代价计算模块、帧间编码代价计算模块，以及处理模块；其中，

12、一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序配置为执行权利要求 1至 6任一项所述的异构集群中实现 X264编码加速的方法。