WO2022206960A1

WO2022206960A1 - 视频转码方法、系统及电子设备

Info

Publication number: WO2022206960A1
Application number: PCT/CN2022/084838
Authority: WO
Inventors: 高艳
Original assignee: 京东方科技集团股份有限公司
Priority date: 2021-03-29
Filing date: 2022-04-01
Publication date: 2022-10-06
Also published as: CN113038279B; CN113038279A

Abstract

本公开提供的一种视频转码方法、系统及电子设备，包括：对输入视频进行解码生成第一视频帧序列；利用并行计算框架对按序获取第一视频帧序列中每一帧的全部数据进行前处理，利用深度学习推理框架对前处理后的第一视频帧序列进行转码模型计算，生成转码后的第二视频帧序列；根据第二视频帧序列按序生成转码视频，输出转码视频。

Description

视频转码方法、系统及电子设备

本申请要求申请日为2021年3月29日、申请号为“202110336370.2”、发明名称为“视频转码方法、系统及电子设备”的优先权。

技术领域

本公开涉及图像转码技术领域，尤其涉及一种视频转码方法、系统及电子设备。

背景技术

随着互联网技术的快速发展，用户对高清视频的需求量日益增加，用户对视频清晰度要求越来越高。因此，互联网中针对每一个视频都会设置不同的清晰度供用户选择。

但是在现有技术中，用户在切换一个视频的清晰度时，系统会进行大量的数据处理，对同一份数据会可能会进行多次数据调取，造成数据传输的冗余，不利于资源的有效利用及服务器的数据处理速度。

发明内容

有鉴于此，本公开的目的在于提出一种视频转码方法、系统及电子设备。

基于上述目的，本公开提供了一种视频转码方法，包括：

对输入视频进行解码生成第一视频帧序列；

利用并行计算框架对按序获取所述第一视频帧序列中每一帧的全部数据进行前处理，利用深度学习推理框架对前处理后的第一视频帧序列进行转码模型计算，生成转码后的第二视频帧序列；

根据所述第二视频帧序列按序生成转码视频，输出所述转码视频。

基于同一构思，本公开还提供了一种视频转码系统，包括：

解码单元，用于对输入视频进行解码生成第一视频帧序列；

超分辨率增强单元，用于利用并行计算框架对按序获取所述第一视频帧序列中每一帧的全部数据进行前处理，利用深度学习推理框架对前处理后的第一视频帧序列进行转码模型计算，生成转码后的第二视频帧序列；

编码输出单元，用于根据所述第二视频帧序列按序生成转码视频，输出所述转码视频。

基于同一构思，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任一项所述的方法。

从上面所述可以看出，本公开提供的一种视频转码方法、系统及电子设备，包括：对输入视频进行解码生成第一视频帧序列；利用并行计算框架对按序获取第一视频帧序列中每一帧的全部数据进行前处理，利用深度学习推理框架对前处理后的第一视频帧序列进行转码模型计算，生成转码后的第二视频帧序列；根据第二视频帧序列按序生成转码视频，输出转码视频。本说明书一个或多个实施例利用并行计算框架和深度学习推理框架相结合的方式，充分利用到图形处理器资源。且推理框架间的不需要数据传输，共享数据，减少了数据多次传输带来的冗余。视频帧仅进行一次传输，其余操作都在图形处理器中通过并行计算框架和深度学习推理框架完成，大大提升了资源的有效利用率及数据处理速度。

附图说明

为了更清楚地说明本公开实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提出的一种视频转码方法的流程示意图；

图2为本公开实施例提出的一种视频转码方法的去噪网络框架示意图；

图3为本公开实施例提出的一种视频转码方法的超分网络框架示意图；

图4为本公开实施例提出的一种视频转码方法的同步控制流程示意图；

图5为本公开实施例提出的具体应用场景中一种视频转码系统框架示意图；

图6为本公开实施例提出的具体应用场景中AI超分辨率增强单元的数据处理流程示意图；

图7为本公开实施例提出的一种视频转码系统的结构示意图；

图8本公开实施例提出的电子设备结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本说明书进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件、物件或者方法步骤涵盖出现在该词后面列举的元件、物件或者方法步骤及其等同，而不排除其他元件、物件或者方法步骤。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如背景技术部分所述，现有系统在处理视频的清晰度转码过程中，一般都是通过中央处理器(CPU，Central Processing Unit)进行处理，在处理过程中由于涉及了多个图像模型，从而需要多次进行数据的提取，而多次提取数据的过程势必在处理过程中造成冗余，从而降低视频转码的效率和浪费系统资源。

结合上述实际情况，本公开实施例提出了一种视频转码方案，利用并行计算框架和深度学习推理框架相结合的方式，充分利用到图形处理器(GPU，Graphics Processing Unit)资源。且推理框架间的不需要数据传输，共享数据，减少了数据多次传输带来的冗余。视频帧仅进行一次传输，其余操作都在图形处理器中通过并行计算框架和深度学习推理框架完成，大大提升了资源的有效利用率及数据处理速度。

参考图1所示，为本说明书一个实施例的一种视频转码方法的流程示意图，具体包括以下步骤：

步骤101，对输入视频进行解码生成第一视频帧序列。

本步骤旨在，对视频进行解码，形成一个个视频帧，为之后的视频帧超分做准备。其中，对于输入视频，视频的格式可以是wma，rm，avi，mod等等。解码的方式可以是硬件解码也可以是软件解码等，解码工具可以是 FFmpeg(Fast Forward Mpeg)、MPEG-4、DivX等等。视频帧序列即为将视频解码后，将每个视频帧按照播放时间节点顺序排列的序列。

可选的，在一些应用场景中，为了方便后续模型处理过程，可以在生成视频帧序列时进行视频采样，例如将将解码出的视频帧自动采样到1080p。即，所述对输入视频进行解码生成第一视频帧序列，包括：通过音视频处理程序对所述输入视频进行解码；将解码后的视频帧采样为设定视频显示格式，生成所述第一视频帧序列。当然，在生成第一视频帧序列时也可以完全不进行采样，解码完成即生成最终的视频帧序列。

可选的，为了保证高可移植性和编解码质量，提高编码速度，所述音视频处理程序为FFMpeg(Fast Forward Mpeg)程序。

步骤102，利用并行计算框架对按序获取所述第一视频帧序列中每一帧的全部数据进行前处理，利用深度学习推理框架对前处理后的第一视频帧序列进行转码模型计算，生成转码后的第二视频帧序列。

本步骤旨在，在进行视频转码时，先一次性获取全部的视频帧数据，并通过并行计算框架和深度学习推理框架相结合的方式充分利用处理器资源，并且由于深度学习推理框架共享数据，减少了数据多次传输带来的冗余。其中，并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程，是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的、含有多个处理器的超级计算机，也可以是以某种方式互连的若干台的独立计算机构成的集群。通过并行计算集群完成数据的处理，再将处理的结果返回给用户。常见的并行计算框架有：MPI、OPENMP、OPENCL(Open Computing Language，开放运算语言)、OPENGL(Open Graphics Library，开放图形库)、CUDA(Compute Unified Device Architecture)等等。之后，在深度学习推理初始阶段，每个深度学习研究者都需要写大量的重复代码。为了提高工作效率，研究者将这些代码写成了各种框架放到网上让所有研究者一起使用，即为深度学习推理框架。常见的深度学习推理框架有：TensorRT、OpenVINO、NCNN、MNN等等。

之后，利用并行计算框架对每一帧的全部数据进行前处理是对每一帧数据进行标准化处理的过程，其可以是对每一帧数据进行归一化和/或类型转换的过程，例如，将0-255范围uint8数据转换为0-1范围float32数据。之后，为了能够最大化的利用到图形处理器(GPU)，使其能够快速高效的进行归一化和/或类型转换等前处理过程，可选的，在并行计算框架中选取CUDA框架。即，所述并行计算框架为CUDA框架；所述前处理，包括：通过所述CUDA框架对所述第一视频帧序列进行归一化及类型转换操作。

进行完前处理之后，利用深度学习推理框架加载不同的模型进行模型推理计算以完成转码超分的过程，其中，加载的模型可以是去噪模型、超分模型、细节增强模型等等。可选的，在进行转码的过程中，去噪模型计算与超分模型计算是必须按照先后顺序进行的，先进行完去噪模型计算，再进行超分模型计算，而细节增强模型等其他模型可以根据具体情况，选择是否需要加入。可选的，为了达到能够进行实时处理的目的，对于去噪模型与超分模型，在两者现有模型的基础上可以进一步的再进行设定次数的卷积和/或反卷积操作。之后，为了能够最大化的利用到GPU资源，在共享GPU显存的同事能够快速的进行模型计算，可选的，在深度学习推理框架中选取tensorRT框架。即，所述深度学习推理框架为tensorRT框架；所述利用深度学习推理框架对前处理后的第一视频帧序列进行转码模型计算，包括：通过所述tensorRT框架对所述前处理后的第一视频帧序列按照去噪模型、细节增强模型和/或超分模型顺序进行计算；并在所述去噪模型、细节增强模型和/或超分模型中进行至少一次卷积和/或反卷积操作，完成所述转码模型计算。

在具体应用场景中，如图2所示，为一种视频转码方法的去噪网络框架示意图；如图3所示，为一种视频转码方法的超分网络框架示意图。其中，两种网络框架分别是在现有的去噪网络框架和超分网络框架的基础上再次做了卷积和/或反卷积操作，举例说明，在去噪网络框架下，先行按照现有去噪网络完成数据处理后，将处理后的数据再进行如图2所示的4次卷积，之后再输出，最终完成去噪处理。每层卷积的高斯内核均为3*3，特征图数量均为64。利用本具体实施例中的框架系统可以实现高转4k的实时视频超分辨率处理，包括视频编码，超分辨增强，视频编码的整个流程，每一帧的整体处理时间为0.04s。如果模型的复杂度较高，可以相应的增加GPU的数量，以达到实时处理的目的。

在一个具体应用场景中，为了确定能够利用的GPU资源数量，最大化的利用GPU处理空间。所述利用并行计算框架对按序获取所述第一视频帧序列中每一帧的全部数据进行前处理，包括：识别当前可用的图形处理器的处理空间，根据所述处理空间确定所述第一视频帧序列的分发量，根据所述分发量按序分发所述第一视频帧序列中的每一帧。即，在进行视频帧序列分发之前，先确定当前能用的GPU空间量，然后根据之后要进行的处理模型量对GPU空间量进行划分，例如：后续需要进行去噪和超分两个模型计算，则将当前的全部GPU空间平均划分两部分，一部分进行去噪，一部分进行超分，然后由于对视频帧的处理需要先进行去噪再进行超分，则根据去噪模型分到的空间量确定每次视频帧序列的分发量，之后按照这个分发量对视频帧进行顺序分发。其中，为了实现视频帧的顺序分发、顺序处理等过程。需要对数据进行同步控制，在具体应用场景中，可以采用信号量来做同步控制，如图4所示，为一种同步控制的流程示意图。其中，sem_wait代表等待信号量若信号量为0则挂起，若为1则减一，sem_post代表释放信号量，将信号量加1。其具体步骤如下：(1)等待共享变量1可读，既等待上一个线程处理结束将结果赋值给共享变量1；(2)从共享变量1中取值；(3)释放共享变量1可写，既告诉上一个线程可以给共享变量1赋值了。(4)处理数据。(5)等待共享变量2可写，既等待下一个线程将共享变量2的上一个值取走。(6)向共享变量2赋值。(7)释放共享变量2可读，既告诉下一个线程可以取走共享变量2的值了。从而，可以通过如此方式可以做到当前线程处理第n帧，上一个线程处理第n-1帧，下一个线程处理第n+1帧，从而可以通过流水线的方式处理，更高效的使用多核资源。

步骤103，根据所述第二视频帧序列按序生成转码视频，输出所述转码视频。

本步骤旨在，对超分后的视频帧序列再按序排列重新编码成为超分视频并输出，以使用户能够看到超分转码的视频或对转码视频进行再加工。其中，根据视频帧序列按序生成转码视频的过程，可以是先对转码后的视频帧进行集合，并顺序排列好后，再一并转发给视频编码软件进行视频编码生成转码视频；或是在每个视频帧转码完成后直接给到视频编码软件，由于在视频转码时其本身也是按序进行的，所以在编码是只要根据接收顺序进行编码即可，从而生成转码视频。其中，本步骤中进行排序处理的过程可以与步骤102的具体应用场景中的同步控制方式相类似。之后，对于编码程序，可以使用与步骤101中相同的音视频处理程序进行，同时，为了减少转码与编码之间的数据传输次数，以减少传输冗余。所述根据所述第二视频帧序列按序生成转码视频，包括：获取全部所述第二视频帧序列，根据所述音视频处理程序按序进行再编码。即，等全部视频帧转码完成后，再按序排列，一起发送给编码程序进行编码。

最后，输出转码视频，用以存储、展示、使用或再加工转码视频。根据不同的应用场景和实施需要，具体的对于转码视频的输出方式可以灵活选择。

例如，对于本实施例的方法在单一设备上执行的应用场景，可以将转码视频直接在当前设备的显示部件(显示器、投影仪等)上以显示的方式输出，使得当前设备的操作者能够从显示部件上直接看到转码视频的内容。

又如，对于本实施例的方法在多个设备组成的系统上执行的应用场景，可以将转码视频通过任意的数据通信方式(有线连接、NFC、蓝牙、wifi、蜂窝移动网络等)发送至系统内的其他作为接收方的预设设备上，以使得接收到转码视频的预设设备可以对其进行后续处理。可选的，该预设设备可以是预设的服务器，服务器一般设置在云端，作为数据的处理和存储中心，其能够对转码视频进行存储和分发；其中，分发的接收方是终端设备，该些终端设备的持有者或操作者可以是当前用户、视频后续处理的相关人员等等。

再如，对于本实施例的方法在多个设备组成的系统上执行的应用场景时，可以将转码视频通过任意的数据通信方式直接发送至预设的终端设备，终端设备可以是前述段落列举中的一种或多种。

在具体应用场景中，如图5所示，为具体应用场景中一种视频转码系统框架示意图。其中，框架主要有5个处理单元：视频解码单元，GPU分发单元，AI(Artificial Intelligence，人工智能)超分辨率增强单元，GPU集合单元，视频编码单元。为了充分使用到CPU资源，这五个部分采用多线程并行处理机制。线程之间的数据同步采用信号量控制。具体的，视频解码单元(可使用FFMpeg解码)：FFMpeg api解码视频，将解码出的视频帧自动采样到1080p。GPU分发单元：会自动识别GPU的空间数量，并根据GPU数量做视频帧序列的分发，以供后续AI超分辨率增强单元处理分出去的帧序列。AI超分辨率增强单元：在这个处理单元中，采用了CUDA和tensort相结合的方式，充分利用到GPU资源。且每个tensorrt推理引擎之间的不需要做数据传输，共享GPU显存，减少了数据多次传输带来的冗余。数据从 CPU端传给GPU端，只做一次，其余操作都在GPU端实现，最终处理完的数据从GPU端传给CPU端，以供编码单元使用。如图6所示，为AI超分辨率增强单元的数据处理流程示意图。具体处理过程如下：CPU端数据一次性拷贝至GPU端；CUDA做数据前处理，进行归一化和类型转换：0-255范围uint8数据转换为0-1范围float32数据；调用tensorrt框架做模型1推理，并将数据地址给模型2；再调用tensorrt框架做模型2推理；CUDA做数据后处理：数据修剪(clip)和数据类型转换(float32转换为uint8)，数据修剪(clip)是指的将超出0-1范围的数据截断，小于0的置换为0，大于1的置换为1。其中，模型1一般是去噪模型，模型2一般是超分模型，当然其他模型也可以根据实际情况以预定顺序加入其中，或加于两个模型之间，或加于两个模型之后或之前等等。GPU集合单元：用于接受转码结果，并按顺序传给编码单元，以保证不会出现帧序列混乱情况。视频编码单元(可使用FFMpeg硬编)：视频编码单元可以支持常规的编码格式，在此采用FFMpeg硬编码的方式(h264_nvenc,hevc_nvenc)，提高编码速度。

通过应用本说明书一个或多个实施例提供的一种视频转码方法，包括：对输入视频进行解码生成第一视频帧序列；利用并行计算框架对按序获取第一视频帧序列中每一帧的全部数据进行前处理，利用深度学习推理框架对前处理后的第一视频帧序列进行转码模型计算，生成转码后的第二视频帧序列；根据第二视频帧序列按序生成转码视频，输出转码视频。本说明书一个或多个实施例利用并行计算框架和深度学习推理框架相结合的方式，充分利用到图形处理器资源。且推理框架间的不需要数据传输，共享数据，减少了数据多次传输带来的冗余。视频帧仅进行一次传输，其余操作都在图形处理器中通过并行计算框架和深度学习推理框架完成，大大提升了资源的有效利用率及数据处理速度。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本公开实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在具体应用场景中，采用多线程机制管理视频编解码以及GPU资源调度，充分使用到CPU资源。在AI超分辨率增强单元和数据前后处理中，使用tensorrt框架和cuda加速，且在CPU和GPU数据传输上做了优化，将处理过程中的冗余操作降到最低。结合超分辨模型对数据精度的特殊要求，对比多种显卡在不同数据精度上的算力，以及显卡成本，最终在NVIDIA的GeForce RTX ^TM 2080ti单个显卡上实现了高清转4K的实时超分辨。且可根据具体模型的计算复杂度，可增加GPU数量，以达到高复杂度模型的实时处理，本系统框架下可实现自动识别使用全部GPU，且对比单卡处理速度接近倍数增长。

需要说明的是，本公开的实施例还可以通过以下方式进一步描述：

在一些实施方式中，所述并行计算框架为CUDA框架；

所述前处理，包括：

通过所述CUDA框架对所述第一视频帧序列进行归一化及类型转换操作。

在一些实施方式中，所述深度学习推理框架为tensorRT框架；

所述利用深度学习推理框架对前处理后的第一视频帧序列进行转码模型计算，包括：

通过所述tensorRT框架对所述前处理后的第一视频帧序列按照去噪模型、细节增强模型和/或超分模型顺序进行计算；并在所述去噪模型、细节增强模型和/或超分模型中进行至少一次卷积和/或反卷积操作，完成所述转码模型计算。

在一些实施方式中，所述对输入视频进行解码生成第一视频帧序列，包括：

通过音视频处理程序对所述输入视频进行解码；

将解码后的视频帧采样为设定视频显示格式，生成所述第一视频帧序列。

在一些实施方式中，所述利用并行计算框架对按序获取所述第一视频帧序列中每一帧的全部数据进行前处理，包括：

识别当前可用的图形处理器的处理空间，根据所述处理空间确定所述第一视频帧序列的分发量，根据所述分发量按序分发所述第一视频帧序列中的每一帧。

在一些实施方式中，所述根据所述第二视频帧序列按序生成转码视频，包括：

获取全部所述第二视频帧序列，根据所述音视频处理程序按序进行再编码。

在一些实施方式中，所述音视频处理程序为FFMpeg程序。

基于同一构思，与上述任意实施例方法相对应的，本公开还提供了一种视频转码系统，参考图7所示，具体包括：

解码单元701，用于对输入视频进行解码生成第一视频帧序列；

超分辨率增强单元702，用于利用并行计算框架对按序获取所述第一视频帧序列中每一帧的全部数据进行前处理，利用深度学习推理框架对前处理后的第一视频帧序列进行转码模型计算，生成转码后的第二视频帧序列；

编码输出单元703，用于根据所述第二视频帧序列按序生成转码视频，输出所述转码视频。

为了描述的方便，描述以上系统时以功能分为各种模块分别描述。当然，在实施本公开实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的系统用于实现前述实施例中相应的视频转码方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

在本说明书的可选实施例中，为了能够实现新增处理单元“即插即用”模式。所述系统基于汇编语言的多态机制提供扩展接口。其中汇编语言即为C语言、C++语言等编程语言。在具体应用场景中，在进行单元模块编写时，均可基于C++的多态机制进行单元编写，从而，在完成系统编写时，可以利用多态机制事先定义好可能加入的单元的端口，以此定义其他处理单元的加入位置和运算逻辑，从而在具体应用场景中需要加入其他处理单元时，即可按照定义好的格式进行单元编写从而直接加入到系统框架中来，可以很方便的添加其他处理单元。例如：HDR(High-Dynamic Range，高动态范围图像) 单元，可以直接加入到超分辨率增强单元之后，在视频帧完成超分后进行HDR处理。

在一些实施方式中，所述系统基于汇编语言的多态机制提供扩展接口。

基于同一构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的视频转码方法。

图8示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器810、存储器820、输入/输出接口830、通信接口840和总线850。其中处理器810、存储器820、输入/输出接口830和通信接口840通过总线850实现彼此之间在设备内部的通信连接。

处理器810可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器820可以采用ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器820可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口830用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口840用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线850包括一通路，在设备的各个组件(例如处理器810、存储器820、输入/输出接口830和通信接口840)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器810、存储器820、输入/输出接口830、通信接口840以及总线850，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的视频转码方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种视频转码方法，包括：

对输入视频进行解码生成第一视频帧序列；

利用并行计算框架对按序获取所述第一视频帧序列中每一帧的全部数据进行前处理，利用深度学习推理框架对前处理后的第一视频帧序列进行转码模型计算，生成转码后的第二视频帧序列；

根据所述第二视频帧序列按序生成转码视频，输出所述转码视频。
根据权利要求1所述的方法，其中，所述并行计算框架为CUDA框架；

所述前处理，包括：

通过所述CUDA框架对所述第一视频帧序列进行归一化及类型转换操作。
根据权利要求1所述的方法，其中，所述深度学习推理框架为tensorRT框架；

所述利用深度学习推理框架对前处理后的第一视频帧序列进行转码模型计算，包括：

通过所述tensorRT框架对所述前处理后的第一视频帧序列按照去噪模型、细节增强模型和/或超分模型顺序进行计算；并在所述去噪模型、细节增强模型和/或超分模型中进行至少一次卷积和/或反卷积操作，完成所述转码模型计算。
根据权利要求1所述的方法，其中，所述对输入视频进行解码生成第一视频帧序列，包括：

通过音视频处理程序对所述输入视频进行解码；

将解码后的视频帧采样为设定视频显示格式，生成所述第一视频帧序列。
根据权利要求4所述的方法，其中，所述利用并行计算框架对按序获取所述第一视频帧序列中每一帧的全部数据进行前处理，包括：

识别当前可用的图形处理器的处理空间，根据所述处理空间确定所述第一视频帧序列的分发量，根据所述分发量按序分发所述第一视频帧序列中的每一帧。
根据权利要求4所述的方法，其中，所述根据所述第二视频帧序列按序生成转码视频，包括：

获取全部所述第二视频帧序列，根据所述音视频处理程序按序进行再编码。
根据权利要求4所述的方法，其中，所述音视频处理程序为FFMpeg程序。
一种视频转码系统，包括：

解码单元，用于对输入视频进行解码生成第一视频帧序列；

超分辨率增强单元，用于利用并行计算框架对按序获取所述第一视频帧序列中每一帧的全部数据进行前处理，利用深度学习推理框架对前处理后的第一视频帧序列进行转码模型计算，生成转码后的第二视频帧序列；

编码输出单元，用于根据所述第二视频帧序列按序生成转码视频，输出所述转码视频。
根据权利要求8所述的系统，其中，所述系统基于汇编语言的多态机制提供扩展接口。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7任一项所述的方法。