WO2019205872A1

WO2019205872A1 - 视频流处理方法、装置、计算机设备及存储介质

Info

Publication number: WO2019205872A1
Application number: PCT/CN2019/079830
Authority: WO
Inventors: 胡小华; 罗梓恒; 朱秀明
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-04-25
Filing date: 2019-03-27
Publication date: 2019-10-31
Also published as: US11463779B2; EP3787300A1; EP3787300A4; CN108401192B; CN108401192A; US20200336796A1

Abstract

本申请公开了一种视频流处理方法及装置。该方法包括：获取直播视频流数据中的第一音频流数据；对第一音频流数据进行语音识别，获得语音识别文本；根据语音识别文本生成包含字幕文本的字幕数据；根据时间信息将该字幕文本添加入直播视频流数据中对应的画面帧，获得处理后的直播视频流数据。

Description

视频流处理方法、装置、计算机设备及存储介质

本申请要求于2018年04月25日提交中国专利局、申请号为201810380157.X、发明名称为“视频流处理方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网应用技术领域，特别涉及一种视频流处理方法、装置、计算机设备及存储介质。

背景

随着移动互联网的不断发展，视频直播类的应用也越来越广泛。视频直播作为一种新的内容传播方式，已经越来越受到欢迎。它不仅具有实时的特点，而且覆盖面更广(可以覆盖到网络电视、PC和移动终端)，成本更低，操作起来更容易。

当在网络上做视频直播时，有时候需要传达给终端用户的信息不仅是图像和声音，还需要有字幕来提高用户的观看体验。

技术内容

本申请实例提供了一种视频流处理方法，所述方法包括：

获取直播视频流数据中的第一音频流数据；

对所述第一音频流数据进行语音识别，获得语音识别文本；

根据所述语音识别文本生成字幕数据，所述字幕数据中包含字幕文本以及所述字幕文本对应的时间信息；

根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得处理后的直播视频流数据。

本申请实例还提供了一种视频流处理装置，所述装置包括：

第一获取模块，用于获取直播视频流数据中的第一音频流数据；

语音识别模块，用于对所述第一音频流数据进行语音识别，获得语音识别文本；

字幕生成模块，用于根据所述语音识别文本生成字幕数据，所述字幕数据中包含字幕文本以及所述字幕文本对应的时间信息；

字幕添加模块，用于根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得处理后的直播视频流数据。

本申请实例还提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的视频流处理方法。

本申请实例还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的视频流处理方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图简要说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实例，并与说明书一起用于解释本申请的原理。

图1是本申请实例提供的一种直播流程示意图；

图2是是根据一示例性实例示出的一种直播系统的结构示意图；

图3是根据一示例性实例示出的一种视频流处理方法的流程图；

图4是根据一示例性实例示出的一种视频流处理方法的流程图；

图5是图4所示实例涉及的一种直播视频流数据的数据结构图；

图6是图4所示实例涉及的一种语音识别流程图；

图7是图4所示实例涉及的一种字幕数据的结构示意图；

图8是图4所示实例涉及的一种字幕叠加示意图；

图9是图4所示实例涉及的一种字幕叠加流程的示意图；

图10是图4所示实例涉及的一种直播流选择示意图；

图11是图4所示实例涉及的另一种直播流选择示意图；

图12是根据一示例性实例示出的一种直播视频流的处理流程示意图；

图13是根据一示例性实例示出的一种视频流处理方法的流程图；

图14是根据一示例性实例示出的一种直播视频流的处理流程示意图；

图15是根据一示例性实例示出的直播场景中的视频流处理装置的结构方框图；

图16是根据一示例性实例示出的一种计算机设备的结构框图。

实施方式

这里将详细地对示例性实例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在对本申请所示的各个实例进行说明之前，首先对本申请涉及到的几个概念进行介绍：

1)字幕

字幕是指以文字形式显示在网络视频、电视、电影、舞台作品中的对话或者旁白等非影像内容，也泛指影视作品后期加工的文字。

2)直播

直播是一种通过流媒体技术，将图像、声音、文字等丰富的元素经互联网向用户展示生动、直观的真实画面的一整套技术，其涉及编码工具、流媒体数据、服务器、网络以及播放器等一系列服务模块。

3)实时翻译

实时翻译是指通过人工或者计算机将一种语言的语音或者文本即时翻译为另一种语言的语音或者文本。在本申请实例中，实时翻译可以是基于人工智能的语音识别和即时翻译。

在一些实例中，直播视频中的字幕通常在直播录制端(比如录制现场/演播室)通过人工插入来实现。比如，请参考图1，其示出了本申请一些实例提供的一种直播流程示意图。如图1所示，在直播录制端采集视频图像并进行编码的过程中，通过现场工作人员人工插入字幕数据，直播录制端通过直播接入服务，将直播视频流上传给服务器，服务器通过直播转码服务对直播视频流进行转码，并将转码后的直播视频流通过内容分发网络发送至用户终端侧的播放器进行播放。其中，所述直播录制端、服务器和用户终端的关系可以参见下图2。

然而，上述在直播视频中插入字幕的方案，需要在直播录制端通过人工插入字幕数据，字幕数据与直播视频画面同步的准确性较低，且通常会导致较高的直播延时，影响直播效果。

图2是根据一示例性实例示出的一种直播系统的结构示意图。该系统包括：直播录制终端220、服务器240以及若干个用户终端260。

直播录制终端220可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

直播录制终端220对应有图像采集组件和音频采集组件。其中，该图像采集组件和音频采集组件可以是直播录制终端220的一部分，比如，该图像采集组件和音频采集组件可以是直播录制终端220内置的摄像头和内置的麦克风；或者，该图像采集组件和音频采集组件也可以作为直播录制终端220的外设设备与该用户终端220相连接，比如，该图像采集组件和音频采集组件可以分别是连接该直播录制终端220的摄像机和话筒；或者，该图像采集组件和音频采集组件也可以部分内置于直播录制终端220，部分作为直播录制终端220的外设设备，比如，该图像采集组件可以是直播录制终端220内置的摄像头，该音频采集组件可以是连接该直播录制终端220的耳机中的麦克风。本申请实例对于图像采集组件和音频采集组件的实现形式不做限定。

用户终端260可以是具有视频播放功能的终端设备，比如，用户终端可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3/MP4播放器、膝上型便携计算机和台式计算机等等。

直播录制终端220和用户终端260分别与服务器240之间通过通信网络相连。在一些实例中，通信网络是有线网络或无线网络。

在本申请实例中，直播录制终端220可以将在本地录制的直播视频流上传至服务器240，并由服务器240对直播视频流进行相关处理后推送给用户终端260。

服务器240是一台服务器，或者由若干台服务器，或者是一个虚拟化平台，或者是一个云计算服务中心。

其中，上述直播录制终端220中可以安装有直播应用程序(Application，APP)客户端，比如腾讯视频客户端或者花样直播客户端等，服务器240可以是上述直播应用程序对应的直播服务器。

在直播时，直播录制终端运行直播应用程序的客户端，用户(也可以称为主播)在直播应用程序界面中触发启动直播功能后，直播应用程序的客户端调用直播录制终端中的图像采集组件和音频采集组件来录制直播视频流，并将录制的直播视频流上传至直播服务器，直播服务器接收该直播视频流，并为该直播视频流建立直播频道，用户终端对应的用户可以通过用户终端中安装的直播应用程序客户端或者浏览器客户端访问直播服务器，并在访问页面中选择该直播频道后，直播服务器将该直播视频流推送给用户终端，由用户终端在直播应用程序界面或者浏览器界面中播放该直播视频流。

在一些实例中，该系统还可以包括管理设备(图2未示出)，该管理设备与服务器240之间通过通信网络相连。在一些实例中，通信网络是有线网络或无线网络。

在一些实例中，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

图3是根据一示例性实例示出的一种直播场景中的视频流处理方法的流程图，该直播场景中的视频流处理方法可以用于如图2所示的直播系统中。如图3所示，该直播场景中的视频流处理方法可以包括如下步骤：

步骤31，获取直播视频流数据中的第一音频流数据。

其中，音频流数据可以是包含直播视频流中的各个音频帧的流式数据。

步骤32，对该第一音频流数据进行语音识别，获得语音识别文本。

在本申请实例中，语音识别是指将第一音频流数据中的语音识别为对应语言类型的文本。

步骤33，根据该语音识别文本生成字幕数据，该字幕数据中包含字幕文本以及该字幕文本对应的时间信息。

在本申请实例中，上述时间信息可以是用于指示字幕数据、音频流数据或者直播视频流数据的播放时间的信息。

步骤34，根据该字幕文本对应的时间信息，将该字幕文本添加入该直播视频流数据中对应的画面帧，获得处理后的直播视频流数据。

由于上述步骤31至步骤33所示的，获取音频流数据、进行语音识别以及根据语音识别结果生成字幕数据的步骤不可避免的需要消耗一定的处理时间，因此，在本申请实例中，可以从第一时刻起延时预设时长后，执行上述根据字幕文本对应的时间信息，将该字幕文本添加入该直播视频流数据中对应的画面帧，获得处理后的直播视频流数据的步骤(即上述步骤34)；其中，该第一时刻是获取到该直播视频流数据的时刻。

在本申请实例中，可以预先设置一个固定的延时时长(即上述预设时长，比如5分钟)，在获取到直播视频流数据开始计时，一方面缓存该直播视频流数据，另一方面开始执行上述步骤31至步骤33，并缓存步骤33生成的字幕数据，当计时到达上述延时时长时，提取缓存的直播视频流数据和字幕数据，并根据提取到的直播视频流数据和字幕数据执行步骤34。

其中，上述预设时长可以由开发人员预先设置在代码中，或者，上述预设时长也可以由系统管理人员或者用户自行设置或更改。需要说明的是，该预设时长可以大于执行上述步骤31至步骤33所需的时长。

在另一种可能的实现方式中，也可以直接在获得上述字幕数据的时刻，执行上述步骤34。

在本申请实例中，对于一份直播视频流数据来说，在获取到该直播视频流数据后，一方面缓存该直播视频流数据，另一方面开始执行上述步骤31至步骤33，在成功存储字幕数据后，即可以从缓存中提取该字幕数据对应的直播视频流数据，并根据生成的字幕数据以及从缓存中提取到的直播视频流数据执行步骤34。

比如，服务器可以提供字幕生成服务、字幕存储服务和字幕混合服务，其中，字幕生成服务用于根据语音识别文本生成字幕数据，字幕存储服务用于接收字幕生成服务生成的字幕数据并进行存储，字幕混合服务用于将字幕存储服务存储的字幕数据中的字幕文本添加入直播视频流数据中的画面帧中。在本申请实例中，当字幕混合服务接收到字幕存储服务发送的，成功存储字幕数据的通知时，或者，当字幕混合服务查询到数据库中已经存在字幕存储服务存储的字幕数据时，字幕混合服务可以确定字幕存储服务成功存储了上述字幕数据，此时，字幕混合服务可以开始执行上述步骤34。

通过上述图3所示的方案，在直播场景中，可以获取直播视频流数据中的音频流数据，并对音频流数据进行语音识别并根据识别结果生成字幕数据，再根据时间信息将字幕数据中的字幕文本添加入视频流中对应字幕文本的画面帧中，从而获得包含字幕的直播视频流，实现字幕与视频画面的准确同步，同时，由于不需要人工插入字幕数据，能够有效降低直播延时。

上述图3所示的方案可以由直播系统中的不同设备实现。比如，在一种可能的实现方式中，上述对视频流进行处理的方法可以由直播系统中的服务器执行，即服务器接收到直播录制终端上传的直播视频流之后，获取直播视频流数据，并对获取到的直播视频流数据进行上述图3所示的处理。

或者，在另一种可能的实现方式中，上述对视频流进行处理的方法也可以由直播系统中的直播录制终端执行，即直播录制终端在将直播视频流数据上传服务器之前，获取直播视频流数据，并对获取到的直播视频流数据进行上述图3所示的处理。

或者，在又一种可能的实现方式中，上述对视频流进行处理的方法也可以由直播系统中的用户终端执行，即用户终端接收到服务器推送的直播视频流数据后，在播放直播视频流数据之前，对直播视频流数据进行上述图3所示的处理。

本申请后续的实例，将以上述对视频流进行处理的方法由直播系统中的服务器执行为例进行说明。

图4是根据一示例性实例示出的一种直播场景中的视频流处理方法的流程图，该直播场景中的视频流处理方法可以用于服务器中，比如，该方法可以用于上述图1所示的服务器240。如图4所示，该直播场景中的视频流处理方法可以包括如下步骤：

步骤401，获取直播视频流数据中的第一音频流数据。

以执行主体是服务器为例，直播录制终端在直播现场录制直播视频，并将录制的视频编码为直播视频流(也可以称为原始视频流)后推送给服务器；服务器接收到直播录制终端推送的直播视频流后，首先对接收到的直播视频流进行转码，获得上述直播视频流数据。

在本申请实例中，直播视频流数据由画面帧流数据和音频流数据构成，其中，画面帧流数据由一系列的画面帧数据块组成，每个画面帧数据块包含若干画面帧，相应的，音频流数据由一系列的音频帧数据块组成，每个音频帧数据块包含若干音频帧。

其中，上述直播视频流数据中的画面帧数据块与音频帧数据块在时间上一一对应，也就是说，一个画面帧数据块的播放时间，与一个音频帧数据块的播放时间是完全相同的。比如，上述画面帧数据块和音频帧数据块中分别包含各自的时间信息，且画面帧数据块和音频帧数据块之间的对应关系通过各自的时间信息进行指示，即对于一一对应的画面帧数据块和音频帧数据块，两者包含的时间信息也是相同的。

比如，请参考图5，其示出了本申请实例涉及的一种直播视频流数据的数据结构图。

如图5所示，直播视频流数据中的一个画面帧数据块包含数据块头(header)和有效载荷(payload)两部分，其中，有效载荷包括画面帧数据块中的各个画面帧，数据块头中包含数据块头大小(header_size)、有效载荷大小(payload_size)、时长(duration)、索引(index)、协调世界时(Universal Time Coordinated，UTC)以及时间戳(timestamp)等信息。其中数据块头大小用于指示当前画面帧数据块中的数据块头所占用的数据量，有效载荷大小用于指示当前画面帧数据块中的有效载荷所占用的数据量，时长用于指示当前画面帧数据块中的各个画面帧的播放时长，索引用于指示当前画面帧数据块中的各个画面帧，协调世界时用于指示当前画面帧数据块被转码的系统时间(比如，可以是画面帧数据块中第一个画面帧被转码的系统时间)，时间戳用于指示当前画面帧数据块在直播视频流中的时间位置。

相应的，在图5中，直播视频流数据中的一个音频帧数据块也包含数据块头和有效载荷两部分，其中，数据块头包括音频帧数据块中的各个音频帧，数据块头中包含数据块头大小、有效载荷大小、时长、索引、协调世界时以及时间戳等信息。

在图5所示的直播视频流数据中，画面帧数据块和音频帧数据块各自的时间信息可以通过各自的数据块头中的协调世界时和/或时间戳来表示，也就是说，在时间上同步的一组画面帧数据块和音频帧数据块，两者的数据块头中的协调世界时和时间戳也是相同的。

在本申请实例中，服务器转码获得直播视频流数据后，可以获取直播视频流数据中的第一音频流数据，同时，将直播视频流数据缓存在本地。

步骤402，对该第一音频流数据进行语音识别，获得语音识别文本。

由于一段音频流数据中可能包含多句语音，为了提高语音识别的准确性，在本申请实例中，服务器可以从第一音频流数据中提取出各段语音对应的音频帧，并对各段语音对应的音频帧分别进行语音识别。

比如，服务器可以对该第一音频流数据进行语音起止检测，获得该第一音频流数据中的语音起始帧和语音结束帧；该语音起始帧是一段语音开始的音频帧，该语音结束帧是一段语音结束的音频帧；服务器根据该第一音频流数据中的语音起始帧和语音结束帧，从该第一音频流数据中提取至少一段语音数据，该语音数据包括对应的一组语音起始帧和语音结束帧之间的音频帧；之后，服务器对该至少一段语音数据分别进行语音识别，获得该至少一段语音数据分别对应的识别子文本；最后，服务器将该至少一段语音数据分别对应的识别子文本确定为该语音识别文本。

服务器可以通过基因检测来实现语音起止检测。本实例中，基因检测又可以称为特性检测，服务器可以根据音频数据的特性来判断音频数据中的音频帧是否对于音频尾点。比如，请参考图6，其示出了本申请实例涉及的一种语音识别流程图。如图6所示，服务器在音频数据(即上述第一音频流数据)中识别出一个语音起始帧之后，开始对该语音起始帧之后的各个音频帧进行基因检测，以确定当前检测的音频帧是否对应音频尾点(相当于上述语音结束帧)，即执行步骤601，同时将检测后的各个音频帧输入语音识别模型进行语音识别，即执行步骤602，当检测到音频尾点时，服务器停止语音识别，即执行步骤603，并输出识别出的文本(步骤604)，经过拆句处理(步骤605)后，进入后续的字幕输出(步骤606)流程。

步骤403，根据该语音识别文本生成字幕数据，该字幕数据中包含字幕文本以及该字幕文本对应的时间信息。

在本申请实例中，服务器可以将上述步骤获得的该语音识别文本翻译为目标语言对应的翻译文本，并根据该翻译文本生成该字幕文本；该字幕文本中包含该翻译文本，或者，该字幕文本中包含该语音识别文本和该翻译文本；然后，服务器再生成包含该字幕文本的该字幕数据。

在本申请实例中，服务器可以针对每种语言分别生成对应的字幕数据，比如，假设上述语音识别获得的语音识别文本对应的语言是中文，而目标语言包括英文、俄文、韩文和日文四种，以字幕文本中包含语音识别文本和翻译文本为例，服务器可以生成四种字幕数据，即“中文+英文”对应的字幕数据、“中文+俄文”对应的字幕数据、“中文+韩文”对应的字幕数据以及“中文+日文”对应的字幕数据。

在本申请实例中，字幕数据中还包含字幕文本对应的时间信息。比如，字幕数据中可以包含若干个字幕子数据，每个字幕子数据对应一段完整语音。请参考图7，其示出了本申请实例涉及的一种字幕数据的结构示意图。如图7所示，每个字幕子数据包括序列号(seq)、协调世界时、时长、时间戳以及字幕文本(text)等信息。其中，字幕子数据中的时长可以是一段语音的持续时长，字幕子数据中的协调世界时可以是对应的一段完整语音的起始时间点(即该段完整语音对应的第一个音频帧被转码时的协调世界时)，字幕子数据中的时间戳可以是对应的一段完整语音的第一个音频帧的时间戳。其中，字幕子数据中的协调世界时和/或时间戳即为该字幕子数据中包含的字幕文本的时间信息。其中，上述的一段语音可以是包含一个或者多个句子的语音片段。

其中，字幕文本对应的时间信息可以是字幕文本对应的语音的时间信息。比如，在上述步骤402中，服务器在对第一音频流数据进行语音识别时，记录每一段语音数据的时间信息。其中，一段语音数据的时间信息可以包括该段语音数据的语音起始帧对应的时间点(比如utc/时间戳)，以及该段语音数据的持续时长。服务器在生成一段语音数据的识别字文本对应的字幕子数据时，将该段识别字文本的翻译文本作为对应的字幕子数据中的字幕文本，并将该段语音数据的时间信息作为该字幕子数据中的字幕文本的时间信息。

步骤404，将该直播视频流数据分解为第二音频流数据和第一画面帧流数据。

在本申请实例中，在将字幕数据中的字幕文本添加入直播视频流数据中的画面帧时，服务器可以首先将直播视频流数据分解为第二音频流数据和第一画面帧流数据，该分解步骤也称为音视频解复用。

步骤405，确定该第一画面帧流数据中的目标画面帧，该目标画面帧是与该字幕文本的时间信息对应的画面帧。

在本申请实例中，对于上述每一个字幕子数据，服务器可以获取该字幕子数据中的协调世界时和持续时长，根据该协调世界时和持续时长确定目标结束时间点(该目标结束时间点是该协调世界时之后，且与该协调世界时之间的时长为上述持续时长的时间点)，并将上述第一画面帧流数据中，处于该字幕子数据中的协调世界时和该目标结束时间点之间的各个画面帧确定为上述目标画面帧。

或者，对于上述每一个字幕子数据，服务器可以获取该字幕子数据中的时间戳和持续时长，根据该时间戳和持续时长确定目标结束时间点(该目标结束时间点是处于该时间戳对应的时间点之后，且与该时间戳对应的时间点之间的时长为上述持续时长的时间点)，并将上述第一画面帧流数据中，处于该字幕子数据中的时间戳对应的时间点和该目标结束时间点之间的各个画面帧确定为上述目标画面帧。

步骤406，生成包含该字幕文本的字幕图像。

服务器可以对应每一个字幕子数据，分别生成该字幕子数据中的字幕文本对应的字幕图像。其中，该字幕图像可以是一个包含字幕文本的透明或者半透明图像。

步骤407，将该字幕图像叠加在该目标画面帧的上层，获得叠加后的画面帧流数据。

对于某一个字幕子数据，服务器可以将包含该字幕子数据中的字幕文本的字幕图像，叠加在该字幕子数据对应的每一个目标画面帧中，获得该字幕子数据对应的叠加后的画面帧流数据。

请参考图8，其示出了本申请实例涉及的一种字幕叠加示意图。如图8所示，画面帧81是画面帧流数据中，与字幕图像82相对应的目标画面帧中的一个画面帧，服务器将画面帧81与字幕图像82进行叠加，获得叠加后的画面帧83，并将画面帧流数据中的图像帧81替换为叠加后的画面帧83。

步骤408，将该第二音频流数据和该叠加后的画面帧流数据组合为处理后的直播视频流数据。

服务器可以将该第二音频流数据与该叠加后的画面帧流数据按照时间信息进行数据对齐；并将对齐后的该第二音频流数据与该叠加后的画面帧流数据组合为该处理后的直播视频流数据。

在本申请实例中，上述步骤404中分解获得的第二音频流数据和第一画面帧流数据分别由音频帧数据块和画面帧数据块组成，且分解前后的音频帧数据块和画面帧数据块中的时间信息不变。而在上述将字幕图像叠加至对应的画面帧的步骤(即上述步骤407)中，画面帧数据块对应的时间信息也保持不变。也就是说，上述第二音频流数据中包含的音频帧数据块，与叠加后的画面帧流数据中的画面帧数据块之间也是一一对应的关系，服务器可以将第二音频流数据和叠加后的画面帧流数据，对应相同时间信息(比如时间戳和/或协调世界时)的数据块进行对齐。

请参考图9，其示出了本申请实例涉及的一种字幕叠加流程的示意图。在图9中，一方面，服务器将输入的视频流(对应上述直播视频流数据)进行音视频解复用，获得音频和视频，并对视频部分进行解码得到各个画面帧；另一方面，服务器还获取字幕信息(对应上述字幕数据)，并生成字幕图片(对应上述字幕图像)；服务器将生成的字幕图片叠加到解码得到的对应的画面帧中(即图7中的视频叠加步骤，步骤407)，并对叠加后画面帧进行视频编码获得视频，最后将编码获得的视频与上述音频进行复用，获得包含字幕的视频流。

在本申请实例中，服务器在接收到用户终端发送的请求后，将上述处理后的直播视频流数据推送给用户终端，由用户终端进行播放。

比如，服务器可以接收用户终端发送的视频流获取请求；获取该视频流获取请求中携带的语言指示信息，该语言指示信息用于指示字幕语言；当该语言指示信息指示的字幕语言是该字幕文本对应的语言时，向该用户终端推送该处理后的直播视频流数据。

观看直播的用户可以在用户终端侧请求获取包含指定语言的字幕的直播视频流。比如，用户可以在用户终端侧的字幕选择界面中选择某种语言的字幕，之后，用户终端向服务器发送视频流获取请求，该视频流获取请求中包含指示用户选择的字幕语言的语言指示信息，服务器接收到用户终端发送的视频流获取请求后，即可以获取到该语言指示信息。

对于上述步骤408中获得处理后的直播视频流数据，当用户终端发送的视频流获取请求中的语言指示信息所指示的字幕语言是上述步骤408中获得处理后的直播视频流数据中叠加的字幕文本对应的语言时，服务器即可以将上述处理后的直播视频流数据推送给用户终端，由用户终端进行播放。

在本申请实例中，服务器可以针对每一种语言或者语言组合的字幕文本生成对应的一条叠加字幕的直播视频流，当用户终端侧选择一种语言或者语言组合时，服务器即可以将叠加后该语言或者语言组合的字幕的直播视频流发送给用户终端。

在一种可能的实现方式中，用户可以在进入直播界面时选择哪一种字幕对应的直播视频流。比如，请参考图10，其示出了本申请实例涉及的一种直播流选择示意图。如图10所示，用户点开某个直播频道时，用户终端展示直播视频流选择界面101，其中包含若干个直播入口101a，每个直播入口101a对应一种语言/语言组合的字幕，用户点击其中一个直播入口101a(图10示出为中文+英文的语言组合的字幕对应的直播入口)后，用户终端展示直播界面102，同时向服务器发送视频流获取请求，该视频流获取请求指示用户选择了中文+英文的语言组合的字幕，服务器将中英文字幕对应的直播视频流推送给用户终端，由用户终端在直播界面102中进行展示，此时，直播界面102中的字幕102a为中文+英文字幕。

在另一种可能的实现方式中，用户也可以在观看直播的过程中，切换不同字幕的直播视频流。比如，请参考图11，其示出了本申请实例涉及的另一种直播流选择示意图。如图11所示，在第一时刻，用户终端的直播界面112中展示的直播画面中的字幕112a为中英文字幕，当用户想要切换直播画面中的字幕的语言时，可以通过点击等方式呼出字幕选择菜单114，并选择另一语言/语言组合的字幕(如图11所示，用户选择中文+日文组合的字幕)，之后，用户终端向服务器发送视频流获取请求，该视频流获取请求指示用户选择了中文+日文的语言组合的字幕，服务器将中日文字幕对应的直播视频流推送给用户终端，由用户终端在直播界面进行展示，如图11所示，在用户选择中日文字幕之后的第二时刻，直播界面112中的字幕切换为中日文字幕112b。

综上所述，本申请实例所示的方案，服务器可以获取直播视频流数据中的音频流数据，并对音频流数据进行语音识别并根据识别结果生成字幕数据，再根据时间信息将字幕数据中的字幕文本添加入视频流中对应字幕文本的画面帧中，从而获得包含字幕的直播视频流，实现字幕与视频画面的准确同步，同时，由于不需要人工插入字幕数据，能够有效降低直播延时。

此外，本申请实例所示的方案，推送给用户终端的直播视频流的画面帧中已经添加了字幕，用户终端不需要对直播视频流做进一步处理即可以向用户展示带字幕的直播画面。

基于上述图4所示的方案，请参考图12，其是根据一示例性实例示出的一种直播视频流的处理流程示意图。如图12所示，直播录制终端通过摄像机采集直播画面并进行编码后，通过直播接入服务将直播流上传给服务器，服务器通过直播转码服务将接入的直播流转码，并输出时间信息同步的视频流(包含画面帧数据块和音频帧数据块)与纯音频流(只包含音频帧数据块)。在转码之后，一方面，服务器通过直播延时服务实现视频流的延时输出(比如，延时预定时长)，另一方面，服务器通过直播翻译服务将转码获取的音频数据(即纯音频流)发送到语音识别模块进行识别和翻译，其中，该语音识别模块用于实现语音的识别与翻译，并将翻译的结果(即字幕数据)写入到字幕存储服务(这里的直播翻译服务和语音识别模块相当于上述字幕生成服务)，由字幕存储服务负责字幕数据的存储。在上述延时的预定时长到达时，服务器通过字幕混合服务，从直播延时服务拉取视频数据(即上述视频流)，并从字幕存储服务拉取到时间信息相对应的字幕数据，根据视频流、音频流与字幕数据中的时间信息(比如时间戳)，同步混合为包含字幕的直播流。

上述图12提供了一种基于直播流的实时识别、翻译以及字幕同步叠加的解决方案，直播后台(即服务器)实时从直播流中获取音频流，采用人工智能算法，实时识别音频流中的音频信号，并翻译为各种目标语言字幕；然后根据在视频流、音频流以及字幕数据中插入的时间信息，实现视频画面、声音、字幕内容完全同步对齐；最后将内容同步的字幕与视频画面实时叠加为包含字幕的视频画面，并将包含字幕的视频画面与内容同步的音频混合在一起，实现直播流字幕实时添加功能。本方案具有广泛的使用场景，不需要人工的参与，且本方案的字幕实时叠加在原始视频画面中，播放终端不需要做额外的处理，直接播放就能展现字幕信息。

图13是根据一示例性实例示出的一种直播场景中的视频流处理方法的流程图，该直播场景中的视频流处理方法可以用于服务器中，比如，该方法可以用于上述图1所示的服务器240。如图13所示，该直播场景中的视频流处理方法可以包括如下步骤：

步骤1301，获取直播视频流数据中的第一音频流数据，并获取直播视频流数据中的第二画面帧流数据。

以执行主体是服务器为例，服务器接收到直播录制终端推送的直播视频流后，对接收到的直播视频流进行转码获得上述直播视频流数据。在本申请实例中，服务器可以在转码获得直播视频流数据之后，将直播视频流数据分解(即解复用)为音频流数据(即上述第一音频流数据)和画面帧流数据(即上述第二画面帧流数据)。

其中，音频流数据和画面帧流数据的构成形式可以参考图4对应实例中的描述，此处不再赘述。

步骤1302，对该第一音频流数据进行语音识别，获得语音识别文本。

步骤1303，根据该语音识别文本生成字幕数据，该字幕数据中包含字幕文本以及该字幕文本对应的时间信息。

其中，上述步骤1302和步骤1303的执行过程可以参考图4对应实例中的步骤402和步骤403下的描述，此处不再赘述。

步骤1304，确定第二画面帧流数据中的目标画面帧，该目标画面帧是与字幕文本的时间信息相对应的画面帧。

步骤1305，生成包含该字幕文本的字幕图像。

步骤1306，将该字幕图像叠加在该目标画面帧的上层，获得叠加后的画面帧流数据。

步骤1307，将该第一音频流数据和该叠加后的画面帧流数据组合为处理后的直播视频流数据。

上述步骤1304至步骤1307所示的方案，与图4对应实例中的步骤 405至步骤408下的描述类似，此处不再赘述。

基于上述图13所示的方案，请参考图14，其是根据一示例性实例示出的一种直播视频流的处理流程示意图。如图14所示，直播录制终端通过摄像机采集直播画面并进行编码后，通过直播接入服务将直播流上传给服务器，服务器通过直播转码服务将接入的直播流转码，并输出时间信息同步的纯画面流(只包含画面帧数据块)与纯音频流(只包含音频帧数据块)。在转码之后，一方面，服务器通过直播延时服务实现纯画面流的延时输出(比如，延时预定时长)，另一方面，服务器将纯音频流分为两路，一路通过直播延时服务实现纯音频流的延时输出，另一路输入直播翻译服务，通过直播翻译服务将纯音频流发送到语音识别模块进行识别和翻译，并将翻译的结果(即字幕数据)写入到字幕存储服务，由字幕存储服务负责字幕数据的存储。在上述延时的预定时长到达时，服务器通过字幕混合服务，从直播延时服务拉取视频数据(即上述纯画面流和纯音频流)，并从字幕存储服务拉取到时间信息相对应的字幕数据，根据纯画面流、纯音频流与字幕数据中的时间信息(比如时间戳)，同步混合为包含字幕的直播流。

图15是根据一示例性实例示出的一种直播场景中的视频流处理装置的结构方框图。该直播场景中的视频流处理装置可以用于如图1所示系统中，以执行图3、图4或图13所示实例提供的方法的全部或者部分步骤。该直播场景中的视频流处理装置可以包括：

第一获取模块1501，用于获取直播视频流数据中的第一音频流数据；

语音识别模块1502，用于对所述第一音频流数据进行语音识别，获得语音识别文本；

字幕生成模块1503，用于根据所述语音识别文本生成字幕数据，所述字幕数据中包含字幕文本以及所述字幕文本对应的时间信息；

字幕添加模块1504，用于根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得处理后的直播视频流数据。

在一些实例中，所述字幕添加模块1504，包括：

分解单元，用于将所述直播视频流数据分解为第二音频流数据和第一画面帧流数据；

第一画面帧确定单元，用于确定所述第一画面帧流数据中的目标画面帧，所述目标画面帧是与所述时间信息对应的画面帧；

第一图像生成单元，用于生成包含所述字幕文本的字幕图像；

第一叠加单元，用于将所述字幕图像叠加在所述目标画面帧的上层，获得叠加后的画面帧流数据；

第一组合单元，用于将所述第二音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。

在一些实例中，所述第一组合单元，具体用于，

将所述第二音频流数据与所述叠加后的画面帧流数据按照时间信息进行数据对齐；

将对齐后的所述第二音频流数据与所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。

在一些实例中，所述装置还包括：

第二获取模块，用于在所述字幕添加模块根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得处理后的直播视频流数据之前，获取所述直播视频流数据中的第二画面帧流数据；

所述字幕添加模块1504，包括：

第二画面帧确定单元，用于确定所述第二画面帧流数据中的目标画面帧，所述目标画面帧是与所述时间信息对应的画面帧；

第二图像生成单元，用于生成包含所述字幕文本的字幕图像；

第二叠加单元，用于将所述字幕图像叠加在所述目标画面帧的上层，获得叠加后的画面帧流数据；

第二组合单元，用于将所述第一音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。

在一些实例中，所述字幕添加模块1504，具体用于从第一时刻起延时预设时长后，执行所述根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得处理后的直播视频流数据的步骤；其中，所述第一时刻是获取到所述直播视频流数据的时刻。

在一些实例中，所述字幕添加模块1504，具体用于在获得所述字幕数据的时刻，执行所述根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得处理后的直播视频流数据的步骤。

在一些实例中，所述语音识别模块1502，具体用于，

对所述第一音频流数据进行语音起止检测，获得所述第一音频流数据中的语音起始帧和语音结束帧；所述语音起始帧是一段语音开始的音频帧，所述语音结束帧是一段语音结束的音频帧；

根据所述第一音频流数据中的语音起始帧和语音结束帧，从所述第一音频流数据中提取至少一段语音数据，所述语音数据包括对应的一组语音起始帧和语音结束帧之间的音频帧；

对所述至少一段语音数据分别进行语音识别，获得所述至少一段语音数据分别对应的识别子文本；

将所述至少一段语音数据分别对应的识别子文本获取为所述语音识别文本。

在一些实例中，所述字幕生成模块1503，具体用于，

将所述语音识别文本翻译为目标语言对应的翻译文本；

根据所述翻译文本生成所述字幕文本；所述字幕文本中包含所述翻译文本，或者，所述字幕文本中包含所述语音识别文本和所述翻译文本；

生成包含所述字幕文本的所述字幕数据。

在一些实例中，所述装置还包括：

请求接收模块，用于接收用户终端发送的视频流获取请求；

指示获取模块，用于获取所述视频流获取请求中携带的语言指示信息，所述语言指示信息用于指示字幕语言；

推送模块，用于当所述语言指示信息指示的字幕语言是所述字幕文本对应的语言时，向所述用户终端推送所述处理后的直播视频流数据。

综上所述，本申请实例所示的方案，视频流处理装置可以获取直播视频流数据中的音频流数据，并对音频流数据进行语音识别并根据识别结果生成字幕数据，再根据时间信息将字幕数据中的字幕文本添加入视频流中对应字幕文本的画面帧中，从而获得包含字幕的直播视频流，实现字幕与视频画面的准确同步，同时，由于不需要人工插入字幕数据，能够有效降低直播延时。

图16是本申请一个示例性实例示出的计算机设备1600的结构框图。计算机设备1600可以为所述直播系统中的直播录制终端220、服务器240或用户终端260。所述计算机设备1600包括中央处理单元(CPU)1601、包括随机存取存储器(RAM)1602和只读存储器(ROM)1603的系统存储器1604，以及连接系统存储器1604和中央处理单元1601的系统总线1605。所述计算机设备1600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1606，和用于存储操作系统1613、应用程序1614和其他程序模块1615的大容量存储设备1607。

所述基本输入/输出系统1606包括有用于显示信息的显示器1608和用于用户输入信息的诸如鼠标、键盘之类的输入设备1609。其中所述显示器1608和输入设备1609都通过连接到系统总线1605的输入输出控制器1610连接到中央处理单元1601。所述基本输入/输出系统1606还可以包括输入输出控制器1610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1607通过连接到系统总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。所述大容量存储设备1607及其相关联的计算机可读介质为计算机设备1600提供非易失性存储。也就是说，所述大容量存储设备1607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1604和大容量存储设备1607可以统称为存储器。

计算机设备1600可以通过连接在所述系统总线1605上的网络接口单元1611连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1601通过执行该一个或一个以上程序来实现图3、图4或图13任一所示的方法中的全部或者部分步骤。

在示例性实例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实例所示的直播场景中的视频流处理方法。例如，所述非临时性计算机可读存储介质可以是 ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种视频流处理方法，由计算机设备执行，所述方法包括：

获取直播视频流数据中的第一音频流数据；

对所述第一音频流数据进行语音识别，获得语音识别文本；

根据所述语音识别文本生成字幕数据，所述字幕数据中包含字幕文本以及所述字幕文本对应的时间信息；

根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得处理后的直播视频流数据。
根据权利要求1所述的方法，其中，所述根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得处理后的直播视频流数据，包括：

将所述直播视频流数据分解为第二音频流数据和第一画面帧流数据；

确定所述第一画面帧流数据中的目标画面帧，所述目标画面帧是与所述时间信息对应的画面帧；

生成包含所述字幕文本的字幕图像；

将所述字幕图像叠加在所述目标画面帧的上层，获得叠加后的画面帧流数据；

将所述第二音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。
根据权利要求2所述的方法，其中，所述将所述第二音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据，包括：

将所述第二音频流数据与所述叠加后的画面帧流数据按照时间信息进行数据对齐；

将对齐后的所述第二音频流数据与所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。
根据权利要求1所述的方法，其中，所述根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得处理后的直播视频流数据之前，还包括：

获取所述直播视频流数据中的第二画面帧流数据；

其中，所述根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得处理后的直播视频流数据，包括：

确定所述第二画面帧流数据中的目标画面帧，所述目标画面帧是与所述时间信息对应的画面帧；

生成包含所述字幕文本的字幕图像；

将所述字幕图像叠加在所述目标画面帧的上层，获得叠加后的画面帧流数据；

将所述第一音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。
根据权利要求1至4任一所述的方法，其中，

从第一时刻起延时预设时长后，根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得所述处理后的直播视频流数据；

其中，所述第一时刻是获取到所述直播视频流数据的时刻。
根据权利要求1至4任一所述的方法，其中，

在成功存储所述字幕数据后，根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得所述处理后的直播视频流数据。
根据权利要求1至4任一所述的方法，其中，所述对所述第一音频流数据进行语音识别，获得语音识别文本，包括：

对所述第一音频流数据进行语音起止检测，获得所述第一音频流数据中的语音起始帧和语音结束帧；所述语音起始帧是一段语音开始的音频帧，所述语音结束帧是一段语音结束的音频帧；

根据所述第一音频流数据中的语音起始帧和语音结束帧，从所述第一音频流数据中提取至少一段语音数据，所述语音数据包括对应的一组语音起始帧和语音结束帧之间的音频帧；

对所述至少一段语音数据分别进行语音识别，获得所述至少一段语音数据分别对应的识别子文本；

将所述至少一段语音数据分别对应的识别子文本确定为所述语音识别文本。
根据权利要求1至4任一所述的方法，其中，所述根据所述语音识别文本生成字幕数据，包括：

将所述语音识别文本翻译为目标语言对应的翻译文本；

根据所述翻译文本生成所述字幕文本；所述字幕文本中包含所述翻译文本；

生成包含所述字幕文本的所述字幕数据。
根据权利要求1至4任一所述的方法，其中，所述根据所述语音识别文本生成字幕数据，包括：

将所述语音识别文本翻译为目标语言对应的翻译文本；

根据所述翻译文本生成所述字幕文本；所述字幕文本中包含所述语音识别文本和所述翻译文本；

生成包含所述字幕文本的所述字幕数据。
根据权利要求1至4任一所述的方法，所述方法还包括：

接收用户终端发送的视频流获取请求；

获取所述视频流获取请求中携带的语言指示信息，所述语言指示信息用于指示字幕语言；

当所述语言指示信息指示的字幕语言是所述字幕文本对应的语言时，向所述用户终端推送所述处理后的直播视频流数据。
一种视频流处理装置，所述装置包括：

第一获取模块，用于获取直播视频流数据中的第一音频流数据；

语音识别模块，用于对所述第一音频流数据进行语音识别，获得语音识别文本；

字幕生成模块，用于根据所述语音识别文本生成字幕数据，所述字幕数据中包含字幕文本以及所述字幕文本对应的时间信息；

字幕添加模块，用于根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得处理后的直播视频流数据。
根据权利要求11所述的装置，其中，所述字幕添加模块，包括：

分解单元，用于将所述直播视频流数据分解为第二音频流数据和第一画面帧流数据；

第一画面帧确定单元，用于确定所述第一画面帧流数据中的目标画面帧，所述目标画面帧是与所述时间信息对应的画面帧；

第一图像生成单元，用于生成包含所述字幕文本的字幕图像；

第一叠加单元，用于将所述字幕图像叠加在所述目标画面帧的上层，获得叠加后的画面帧流数据；

第一组合单元，用于将所述第二音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。
根据权利要求12所述的装置，其中，所述第一组合单元，具体用于，

将所述第二音频流数据与所述叠加后的画面帧流数据按照时间信息进行数据对齐；

将对齐后的所述第二音频流数据与所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。
根据权利要求11所述的装置，所述装置还包括：

第二获取模块，用于在所述字幕添加模块根据所述字幕文本对应的时间信息，将所述字幕文本添加入所述直播视频流数据中对应的画面帧，获得处理后的直播视频流数据之前，获取所述直播视频流数据中的第二画面帧流数据；

所述字幕添加模块，包括：

第二画面帧确定单元，用于确定所述第二画面帧流数据中的目标画面帧，所述目标画面帧是与所述时间信息对应的画面帧；

第二图像生成单元，用于生成包含所述字幕文本的字幕图像；

第二叠加单元，用于将所述字幕图像叠加在所述目标画面帧的上层，获得叠加后的画面帧流数据；

第二组合单元，用于将所述第一音频流数据和所述叠加后的画面帧流数据组合为所述处理后的直播视频流数据。
一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的视频流处理方法。
一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一所述的视频流处理方法。