WO2019205870A1

WO2019205870A1 - 视频流处理方法、装置、计算机设备及存储介质

Info

Publication number: WO2019205870A1
Application number: PCT/CN2019/079799
Authority: WO
Inventors: 胡小华
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-04-24
Filing date: 2019-03-27
Publication date: 2019-10-31
Also published as: CN108566558B; US20200314460A1; US11252444B2; CN108566558A

Abstract

本申请是关于一种视频流处理方法及装置。该方法包括：获取直播视频流数据包含的第一音频流数据；对所述第一音频流数据进行语音识别，获得语音识别文本；根据所述语音识别文本生成第二音频流数据；将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据。

Description

视频流处理方法、装置、计算机设备及存储介质

本申请要求于2018年04月24日提交中国专利局、申请号为201810371700.X、发明名称为“视频流处理方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网应用技术领域，特别涉及一种视频流处理方法、装置、计算机设备及存储介质。

背景技术

随着移动互联网的不断发展，视频直播类的应用也越来越广泛，为直播视频增加翻译语音也已经成为提高用户观看体验的重要手段。

在相关技术中，直播视频中的翻译语音通常在直播录制端(比如录制现场/演播室)通过人工进行同声传译的方式来实现。比如，在直播录制端采集视频图像并进行编码的过程中，将现场的音频信号通过调音台分一路到同传室，译员通过耳机接受现场的音频信号，然后将听到的内容口译给麦克风，麦克风将采集到的口译语音传输给直播录制端，直播录制端将口译语音数据与现场采集的视频数据一起传输到采集编码服务，采集编码服务将口译语音数据和视频数据编码为直播流，并将直播流接入到直播平台。

发明内容

本申请实施例提供了一种视频流处理方法、装置、计算机设备及存储介质，该技术方案如下：

一方面，提供了一种视频流处理方法，由计算机设备执行，所述方法包括：

获取直播视频流数据中的第一音频流数据，所述第一音频流数据中包含第一语音；

对所述第一音频流数据进行语音识别，获得语音识别文本；

根据所述语音识别文本生成第二音频流数据，所述第二音频流数据中包含第二语音，且所述第二语音对应的语言类型与第一语音对应的语言类型不同；

将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据，所述时间信息用于指示音频流数据或者直播视频流数据的播放时间。

另一方面，提供了一种视频流处理装置，所述装置包括：

音频获取模块，用于获取直播视频流数据中的第一音频流数据，所述第一音频流数据中包含第一语音；

语音识别模块，用于对所述第一音频流数据进行语音识别，获得语音识别文本；

音频流生成模块，用于根据所述语音识别文本生成第二音频流数据，所述第二音频流数据中包含第二语音，且所述第二语音对应的语言类型与第一语音对应的语言类型不同；

合并模块，用于将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据，所述时间信息用于指示音频流数据或者直播视频流数据的播放时间。

另一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的视频流处理方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的视频流处理方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图简要说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据本申请实施例示出的一种直播系统的结构示意图；

图2是根据本申请实施例示出的一种视频流处理方法的流程图；

图3是根据本申请实施例示出的一种视频流处理方法的流程图；

图4是图3所示实施例涉及的一种直播视频流转码流程示意图；

图5是图3所示实施例涉及的一种直播视频流数据的数据结构图；

图6是图3所示实施例涉及的一种语音识别流程图；

图7A是图3所示实施例涉及的一种子音频流数据的数据结构示意图；

图7B是图3所示实施例涉及的视频流处理过程示意图；

图8是图3所示实施例涉及的一种多路音轨与直播视频流数据复用示意图；

图9是图3所示实施例涉及的一种翻译语音选择示意图；

图10是根据本申请实施例示出的一种直播视频流的处理流程示意图；

图11是根据本申请实施例示出的一种视频流处理方法的流程图；

图12是根据本申请实施例示出的一种直播视频流的处理流程示意图；

图13是根据本申请实施例示出的直播场景中的视频流处理装置的结构方框图；

图14是根据本申请实施例示出的一种计算机设备的结构框图。

实施本发明的方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍：

1)字幕

字幕是指以文字形式显示在网络视频、电视、电影、舞台作品中的对话或者旁白等非影像内容，也泛指影视作品后期加工的文字。

2)直播

直播是一种通过流媒体技术，将图像、声音、文字等丰富的元素经互联网向用户展示生动、直观的真实画面的一整套技术，其涉及编码工具、流媒体数据、服务器、网络以及播放器等一系列服务模块。

3)实时翻译

实时翻译是指通过人工或者计算机将一种语言类型的语音或者文本即时翻译为另一种语言类型的语音或者文本。在本申请实施例中，实时翻译可以是基于人工智能的语音识别和即时翻译。

图1是根据本申请实施例示出的一种直播系统的结构示意图。该系统包括：直播录制终端120、服务器140以及若干个用户终端160。

直播录制终端120可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

直播录制终端120对应有图像采集组件和音频采集组件。其中，该图像采集组件和音频采集组件可以是直播录制终端120的一部分，比如，该图像采集组件和音频采集组件可以是直播录制终端120内置的摄像头和内置的麦克风；或者，该图像采集组件和音频采集组件也可以作为直播录制终端120的外设设备与该用户终端120相连接，比如，该图像采集组件和音频采集组件可以分别是连接该直播录制终端120的摄像机和话筒；或者，该图像采集组件和音频采集组件也可以部分内置于直播录制终端120，部分作为直播录制终端120的外设设备，比如，该图像采集组件可以是直播录制终端120内置的摄像头，该音频采集组件可以是连接该直播录制终端120的耳机中的麦克风。本申请实施例对于图像采集组件和音频采集组件的实现形式不做限定。

用户终端160可以是具有视频播放功能的终端设备，比如，用户终端可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3/MP4播放器、膝上型便携计算机和台式计算机等等。

直播录制终端120和用户终端160分别与服务器140之间通过通信网络相连。通信网络可以是有线网络或无线网络。

在本申请实施例中，直播录制终端120可以将在本地录制的直播视频流上传至服务器140，并由服务器140对直播视频流进行相关处理后推送给用户终端160。

服务器140可以是一台服务器，或者是若干台服务器，或者是一个虚拟化平台，或者是一个云计算服务中心。

其中，上述直播录制终端120中可以安装有直播应用程序(Application，APP)客户端(比如腾讯视频客户端或者花样直播客户端等)，服务器140可以是上述直播应用程序对应的直播服务器。

在直播时，直播录制终端运行直播应用程序的客户端，用户A(也可以称为主播)在直播应用程序界面中触发启动直播功能后，直播应用程序的客户端调用直播录制终端中的图像采集组件和音频采集组件来录制直播视频流，并将录制的直播视频流上传至直播服务器，直播服务器接收该直播视频流，并为该直播视频流建立直播频道。建立直播频道的过程例如包括给该直播视频流分配直播频道名称，不同的直播视频流具有不同的直播频道名称，将直播频道名称与上传该直播视频流的用户的用户标识(例如，用户A在直播应用程序上的用户名等标识)进行关联，分配该直播频道所占用的存储空间、生成该直播频道在服务器上的链接地址。用户终端对应的用户可以通过用户终端中安装的直播应用程序客户端或者浏览器客户端访问直播服务器，并在访问页面中选择该直播频道后，直播服务器将该直播视频流推送给用户终端，由用户终端在直播应用程序界面或者浏览器界面中播放该直播视频流。

该系统还可以包括管理设备(图1未示出)，该管理设备与服务器240之间通过通信网络相连。通信网络可以是有线网络或无线网络。

根据本申请实施例，上述的无线网络或有线网络可以使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network， VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

图2是根据本申请实施例示出的一种视频流处理方法的流程图，该视频流处理方法可以用于如图1所示的直播系统中。如图2所示，该直播场景中的视频流处理方法可以包括如下步骤：

步骤21，获取直播视频流数据中的第一音频流数据，第一音频流数据中包含第一语音。

其中，音频流数据可以是包含直播视频流中的各个音频帧的流式数据。

步骤22，对该第一音频流数据进行语音识别，获得语音识别文本。

在本申请实施例中，语音识别是指将第一音频流数据中的语音识别为对应语言类型的文本。

步骤23，根据该语音识别文本生成第二音频流数据，第二音频流数据中包含第二语音。

其中，第二语音对应的语言类型与第一语音对应的语言类型不同。

步骤24，将第二音频流数据与直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据。

其中，时间信息用于指示音频流数据或者直播视频流数据的播放时间。

由于上述步骤21至步骤23所示的，获取第一音频流数据、进行语音识别以及根据语音识别结果生成第二音频流数据的步骤不可避免的需要消耗一定的处理时间，因此，在本申请实施例中，可以从第一时刻起延时预设时长后，将第二音频流数据与直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据(即上述步骤24)；其中，第一时刻是获取到该直播视频流数据的时刻。

在本申请实施例中，可以预先设置一个固定的延时时长(即上述预设时长，比如5分钟)，在获取到直播视频流数据开始计时，一方面缓存该直播视频流数据，另一方面开始执行上述步骤21至步骤23，并缓存步骤23生成的第二音频流数据，当计时到达上述延时时长时，提取缓存的直播视频流数据和第二音频流数据，并根据提取到的直播视频流数据和第二音频流数据执行步骤24。

其中，上述预设时长可以由开发人员预先设置在代码中，或者，上述预设时长也可以由系统管理人员或者用户自行设置或更改。需要说明的是，该预设时长可以大于执行上述步骤21至步骤23所需的时长。

在另一种可能的实现方式中，也可以直接在成功存储上述第二音频流数据后，执行上述步骤24。

在本申请实施例中，对于一份直播视频流数据来说，比如，在服务器获取到该直播视频流数据后，一方面缓存该直播视频流数据，另一方面开始执行上述步骤21至步骤23，在成功存储第二音频流数据后，即可以从缓存中提取该第二音频流数据对应的直播视频流数据，并根据生成的第二音频流数据以及从缓存中提取到的直播视频流数据执行步骤24。

比如，服务器可以提供直播同传服务、语音存储服务和同传混合服务，其中，直播同传服务用于根据语音识别文本生成第二音频流数据，语音存储服务用于接收直播同传服务生成的第二音频流数据并进行存储，同传混合服务用于将语音存储服务存储的第二音频流数据与直播视频流数据进行合并。在本申请实施例中，当同传混合服务接收到语音存储服务发送的成功存储第二音频流数据的通知时，或者，当同传混合服务查询到数据库中已经存在语音存储服务存储的第二音频流数据时，同传混合服务可以确定语音存储服务成功存储了上述第二音频流数据，此时，同传混合服务可以开始执行上述步骤24。

在本文中，直播同传服务、语音存储服务和同传混合服务可以分别指直播同传服务或提供直播同传服务的硬件和/或软件模块、语音存储服务或提供语音存储服务的硬件和/或软件模块、同传混合服务或提供同传混合服务的硬件和/或软件模块。

通过上述图2所示的方案，在直播场景中，可以获取直播视频流数据包含的第一音频流数据，并对第一音频流数据进行语音识别并根据识别结果生成包含不同语言类型语音的第二音频流数据，再按照时间信息将第二音频流数据与直播视频流数据进行合并获得处理后的直播视频流，实现翻译语音与视频画面的准确同步，同时，由于不需要翻译人员在直播现场进行口译，能够有效降低直播延时。

上述图2所示的方案可以由直播系统中的不同设备实现。比如，在一种可能的实现方式中，上述对视频流进行处理的方法可以由直播系统中的服务器执行，即服务器接收到直播录制终端上传的直播视频流之后，获取直播视频流数据，并对获取到的直播视频流数据进行上述图2所示的处理。

或者，在另一种可能的实现方式中，上述对视频流进行处理的方法也可以由直播系统中的直播录制终端执行，即直播录制终端在将直播视频流数据上传服务器之前，获取直播视频流数据，并对获取到的直播视频流数据进行上述图2所示的处理。

或者，在又一种可能的实现方式中，上述对视频流进行处理的方法也可以由直播系统中的用户终端执行，即用户终端接收到服务器推送的直播视频流数据后，在播放直播视频流数据之前，对直播视频流数据进行上述图2所示的处理。

本申请后续的实施例，将以上述对视频流进行处理的方法由直播系统中的服务器执行为例进行说明。

在一种可能的实现方式中，在执行上述图2所示实施例中的步骤24之前，服务器还将第二音频流数据分配至目标音轨中，该目标音轨与第一音频流数据所在的音轨不同。例如，服务器可以增加一个音轨，作为目标音轨。也就是说，服务器可以将包含不同语言类型语音的第二音频流数据通过与原始音频流(即上述第一音频流数据)不同的音轨合并到直播视频流数据中，以便后续用户终端在播放直播视频流时，可以将不同语言类型的语音与直播视频的原始语音进行同步播放。其中，服务器可以通过第一音频流数据所在的音轨之外的其它音轨向直播视频流中添加只包含单种语言类型的翻译语音的第二音频流数据，或者，服务器也可以通过第一音频流数据所在的音轨之外的其它音轨向直播视频流中添加包含多种语言类型的翻译语音的第二音频流数据。

图3是根据本申请实施例示出的一种视频流处理方法的流程图，该视频流处理方法可以用于服务器中，比如，该方法可以用于上述图1所示的服务器140。以向直播视频流中添加包含多种语言类型的翻译语音的第二音频流数据为例，如图3所示，该视频流处理方法可以包括如下步骤：

步骤301，获取直播视频流数据中的第一音频流数据，第一音频流数据中包含第一语音。

以执行主体是服务器为例，直播录制终端在直播现场录制直播视频，并将录制的视频编码为直播视频流(也可以称为原始视频流)后推送给服务器；服务器接收到直播录制终端推送的直播视频流后，首先对接收到的直播视频流进行转码，获得上述直播视频流数据以及第一音频流数据。转码是指将已经压缩编码的视频流转换成另一个视频流，以适应不同的网络带宽、不同的终端处理能力和不同的用户需求，其本质上是一个先解码、再编码的过程。

比如，请参考图4，其示出了本申请实施例涉及的一种直播视频流转码流程示意图。如图4所示，服务器接收到直播视频流之后，进行音视频解复用，获得音频流和画面帧流(即图4所示的“视频”)，服务器对音频流和画面帧流进行同步切片，同步获取音频流数据及对应的画面帧流数据。在同步切片后，音频流分为两路，一方面，服务器将切片后的一路音频流和画面帧流进行音视频复用，并进行直播流组包，获得上述直播视频流数据；另一方面，服务器对切片后的另一路音频流进行音频复用，并进行音频流组包，获得上述第一音频流数据。

在本申请实施例中，组包后的直播视频流数据由一系列的视频流数据块构成，而组包后的第一音频流数据由一系列的音频流数据块构成。

其中，上述组包后的直播视频流数据中的视频流数据块与组包后的第一音频流数据中的音频流数据块在时间上一一对应，也就是说，一个视频流数据块的播放时间，与一个音频流数据块的播放时间是完全相同的。比如，上述视频流数据块和音频流数据块中分别包含各自的时间信息，且视频流数据块和音频流数据块之间的对应关系通过各自的时间信息进行指示，即对于一一对应的视频流数据块和音频流数据块，两者包含的时间信息也是相同的。

比如，请参考图5，其示出了本申请实施例涉及的一种直播视频流数据的数据结构图。

如图5所示，直播视频流数据中的一个视频流数据块包含数据块头(header)和有效载荷(payload)两部分，其中，有效载荷包括视频流数据块中的各个画面帧以及音频数据，数据块头中包含数据块头大小(header_size)、有效载荷大小(payload_size)、时长(duration)、索引(index)、协调世界时(Coordinated Universal Time，UTC)以及时间戳(timestamp)等信息。其中数据块头大小用于指示当前视频流数据块中的数据块头所占用的数据量，有效载荷大小用于指示当前视频流数据块中的有效载荷所占用的数据量，时长用于指示当前视频流数据块中的各个画面帧以及音频数据的播放时长，即当前视频流数据块的播放时长，索引用于指示当前视频流数据块在视频流中的顺序和/或用于标识当前视频流数据块，协调世界时用于指示当前视频流数据块被转码的系统时间(比如，可以是视频流数据块中第一个画面帧被转码的系统时间)，时间戳用于指示当前视频流数据块在直播视频流中的时间位置。

相应的，在图5中，第一音频流数据中的一个音频流数据块也包含数据块头和有效载荷两部分，其中，有效载荷可以包括音频流数据块中的各个音频帧(或者称为音频数据)，数据块头中包含数据块头大小、有效载荷大小、时长、索引、协调世界时以及时间戳等信息。其中，数据块头大小用于指示当前音频流数据块中的数据块头所占用的数据量，有效载荷大小用于指示当前音频流数据块中的有效载荷所占用的数据量，时长用于指示当前音频流数据块中的音频数据的播放时长，即当前音频流数据块的播放时长，索引用于指示当前音频流数据块在第一音频流中的顺序和/或用于标识当前音频流数据块，协调世界时用于指示当前音频流数据块被转码的系统时间(比如，可以是音频流数据块中第一个音频帧被转码的系统时间)，时间戳用于指示当前音频流数据块在音频流中的时间位置。

在图5所示的直播视频流数据和第一音频流数据中，视频流数据块和音频流数据块各自的时间信息可以通过各自的数据块头中的协调世界时和/或时间戳来表示，也就是说，在时间上同步的一组视频流数据块和音频流数据块，两者的数据块头中的协调世界时和时间戳也是相同的。

在本申请实施例中，服务器转码获得直播视频流数据的同时，获取直播视频流数据包含的第一音频流数据，并将直播视频流数据缓存在本地。

步骤302，对该第一音频流数据进行语音识别，获得语音识别文本。

由于一段音频流数据中可能包含多句语音，为了提高语音识别的准确性，在本申请实施例中，在对第一音频流数据中的第一语音进行语音识别时，服务器可以从第一音频流数据中提取出各段语音对应的音频帧，并对各段语音对应的音频帧分别进行语音识别。

比如，服务器可以对该第一音频流数据进行语音起止检测，获得该第一音频流数据中的语音起始帧和语音结束帧；该语音起始帧是一段语音开始的音频帧，该语音结束帧是一段语音结束的音频帧；服务器根据该第一音频流数据中的语音起始帧和语音结束帧，从该第一音频流数据中提取至少一段语音数据，该语音数据包括对应的一组语音起始帧和语音结束帧之间的音频帧；之后，服务器对该至少一段语音数据分别进行语音识别，获得该至少一段语音数据分别对应的识别子文本；最后，服务器将该至少一段语音数据分别对应的识别子文本获取为该语音识别文本。其中，上述的一段语音可以是包含一个或者多个句子的语音片段。所述语音识别文本数据中可以带有与所述一段语音对应的时间信息，例如所述一段语音起始帧的协调世界时和时间戳。

服务器可以通过基因检测来实现语音起止检测。比如，请参考图6，其示出了本申请实施例涉及的一种语音识别流程图。如图6所示，服务器在音频数据(即上述第一音频流数据)中识别出一个语音起始帧之后，开始对该语音起始帧之后各个音频帧进行基因检测，以确定当前检测的音频帧是否对应音频尾点(相当于上述语音结束帧)，同时将检测后的各个音频帧输入语音识别模型进行语音识别，当检测到音频尾点时，服务器停止语音识别，并输出识别出的文本，经过拆句处理后，进入后续的第二音频流数据的生成流程。

步骤303，根据该语音识别文本生成第二音频流数据，该第二音频流数据包括至少两路子音频流数据，每一路子音频流数据包含一种语言类型对应的语音。

其中，第二音频流数据中包含第二语音，且第二语音对应的语言类型与第一语音对应的语言类型不同。

在本申请实施例中，服务器可以将上述步骤获得的该语音识别文本翻译为第二语音对应的语言类型对应的翻译文本，并根据该翻译文本生成第二语音；然后，服务器再生成包含该第二语音的第二音频流数据。

在本申请实施例中，第二语音对应的语言类型可以包含至少两种语言类型，相应的，服务器可以针对每种语言类型分别生成对应的语音，比如，假设上述语音识别获得的语音识别文本对应的语言类型是中文，而第二语音对应的语言类型包括英文、俄文、韩文和日文四种，则服务器可以针对语音识别文本生成四种语音，即英文语音、俄文语音、韩文语音以及日文语音。

当第二语音对应的语言类型包含至少两种语言类型时，服务器在生成第二音频流数据时，可以生成至少两路子音频流数据，每一路子音频流数据包含一种语言类型对应的语音。比如，以第二语音对应的语言类型包括英文、俄文、韩文和日文四种为例，服务器可以生成四路子音频流数据，分别为包含的语音为英文语音的子音频流数据、包含的语音为俄文语音的子音频流数据、包含的语音为韩文语音的子音频流数据以及包含的语音为日文语音的子音频流数据。

在本申请实施例中，第二语音中还可以包含对应的时间信息。比如，第二语音中每种语言类型对应的语音数据可以包含若干个语音子数据，每个语音子数据对应一段完整语音。

根据本申请实施例，子音频流数据中可以包含若干个语音子数据块。请参考图7A，其示出了本申请实施例涉及的一种子音频流数据的数据结构示意图。如图7A所示，每个语音子数据块包括序列号(seq)、协调世界时、时长、时间戳以及语音(speech)等信息。语音子数据块中的时长可以是语音子数据块的持续时长或播放时长，语音子数据块中的协调世界时可以是对应的供识别的一段完整语音(即，对应的第一语音)的起始时间点(即该段供识别的完整语音的第一个音频帧被转码时的协调世界时)，语音子数据块中的时间戳可以是对应的所述供识别的一段完整语音的第一个音频帧的时间戳。其中，语音子数据块中的协调世界时和/或时间戳即为该语音子数据块中包含的语音的时间信息。

根据本申请实施例，服务器在执行步骤302时，提取出各段语音对应的音频帧，并对各段语音对应的音频帧进行语音识别时，会得到一段语音的起始时间点，例如该段语音的第一个音频帧的时间戳以及被转码时的协调世界时。之后在执行步骤303的过程中，根据该段语音的语音识别文本生成子音频流数据时，会将所述时间戳与协调世界时的信息加在相应的语音子数据块中。

在本申请实施例中，直播视频流数据中的各个视频流数据块与第一音频流数据中的各个音频流数据块在时间上一一对应，第一音频流数据中的一段完整语音的起始时间与音频流数据块的时间信息之间也存在一一映射关系。比如，第一音频流数据中的一段完整语音的持续时间段可以处于一个音频流数据块对应的持续时间段内，或者，第一音频流数据中的一段完整语音的持续时间段可以与两个或者两个以上连续的音频流数据块对应的持续时间段存在交集。通过这段语音开始时，对应的音频帧的时间戳作为完整语音开始的时间；这段语音结束时，对应的音频帧的时间戳作为完整语音的结束时间来计算语音的时长。在本申请实施例中，服务器在生成包含第二语音的第二音频流数据时，对于每一条子音频流数据，可以生成包含的音频流数据块与直播视频流数据中的各个视频流数据块一一对应的子音频流数据，即该子音频流数据中的每个音频流数据块的时间信息，与直播视频流数据中对应的视频流数据块的时间信息同样一一对应。

图7B是图3所示实施例涉及的视频流处理过程示意图，其中示出了第一音频流数据、语音识别文本数据和第二音频流数据之间的对应关系。

步骤304，将该至少两路子音频流数据分配至各自对应的一条音轨中。

在本申请实施例中，服务器可以将每一路子音频流数据分别通过对应的一条音轨(soundtrack)来承载，每条音轨可以单独设置自己的属性，比如音色、音量以及输入/输出端口等。

在一种可能的实现方式中，上述第二语音的声音强度不低于第一语音的声音强度。其中，第二语音的声音强度可以通过设置每一路子音频流数据对应的音轨的音量属性来实现。

步骤305，将各条音轨中的子音频流数据分别按照时间信息与直播视频流数据进行数据对齐。

在本申请实施例中，在缓存直播视频流数据，并延时预设时长后，或者，在生成上述第二音频流数据后，对于上述每一条音轨，服务器将该条音轨对应的子音频流数据中的每一个音频流数据块，与直播视频流数据中时间信息对应的视频流数据块对齐。

步骤306，将对齐后的各条音轨中的子音频流数据与直播视频流数据进行合并，获得处理后的直播视频流数据。

在本申请实施例中，服务器将各条音轨中的子音频流数据和直播视频流数据复用为一条视频流(即直播视频流数据)。

比如，请参考图8，其示出了本申请实施例涉及的一种多路音轨与直播视频流数据复用的示意图。如图8所示，一方面，服务器从本地缓存中提取直播视频流数据，对提取到的直播视频流数据进行音视频解复用获得画面帧流和原始音频流，并将获得的画面帧流和原始音频流分别通过打包器进行格式封装(比如添加协议头等)后，输入音视频多路复用器；另一方面，服务器获取包含多路语音(图8示出语音1至语音n，n为大于或者等于2的整数)的语音数据(相当于上述第二语音)，通过音频编码器编码获得多路音频(图8示出音频1至音频n，相当于上述第二音频流数据中的各条子音频流数据)，通过打包器对多路音频进行格式封装，分别分配至一条音轨(图8示出音轨1至音轨n)后，输入音视频多路复用器；最后，服务器通过音视频多路复用器，将画面帧流、原始音频流以及n条音轨分别承载的多路音频复用为多音轨直播流(对应上述处理后的直播视频流数据)。

步骤307，将处理后的直播视频流数据发送给用户终端。

在一种可能的实现方式中，用户终端侧的播放器在播放直播视频时，可以显示翻译语音选择界面，该翻译语音选择界面中包含各条音轨分别对应的语言类型选项，在接收到用户在翻译语音选择界面执行的针对目标语言类型选项的选择操作时，播放该目标语言类型选项对应的音轨中的子音频流数据。

在本申请实施例中，用户终端侧的播放器在播放直播视频时，除了播放直播画面和原始的直播音频之外，用户还可以选择播放多种翻译语音中的一种。

比如，请参考图9，其示出了本申请实施例涉及的一种翻译语音选择示意图。如图9所示，用户终端通过直播界面902中播放的直播画面和直播的原始音频时，用户可以通过点击等方式呼出翻译语音选择菜单904，并选择其中一种语言类型对应的翻译语音选项(如图9所示，用户选择日文翻译语音)，之后，用户终端在直播的原始音频的基础上同步播放日文翻译语音。

综上所述，本申请实施例所示的方案，服务器可以获取直播视频流数据包含的第一音频流数据，对第一音频流数据进行语音识别，并根据识别结果生成多种不同的语言类型分别对应的子音频流数据，将多种不同的语言类型分别对应的子音频流数据分配至不同的音轨，再按照时间信息将多条音轨中的子音频流数据分别与直播视频流数据进行对齐后，复用至同一条处理后的直播视频流中推送给用户终端，由用户选择其中一条音轨中子音频流数据与原始的直播视频流的同步播放，实现翻译语音与视频画面的准确同步，同时，由于不需要翻译人员在直播现场进行口译，能够有效降低直播延时。

基于上述图3所示的方案，请参考图10，其是根据一示例性实施例示出的一种直播视频流的处理流程示意图。如图10所示，直播录制终端通过采集卡对摄像机(画面切换台)和麦克风(调音台)采集到的直播画面和声音进行采集编码后，通过直播接入服务将直播流上传给服务器，服务器通过直播转码服务将接入的直播流转码，并输出视频流(包含画面帧数据块和音频流数据块)与纯音频流(只包含音频流数据块)。其中，上述视频流与纯音频流通过相同的时间信息(UTC/timestamp)来标记同步的内容块。在转码之后，一方面，服务器通过直播延时服务实现视频流的延时输出(比如，延时预定时长)，另一方面，服务器通过直播同传服务对音频数据(即纯音频流)进行语音识别、翻译以及语音转化，获取不同语言类型对应的同传语音数据(对应上述第二音频流数据)，并将同传语音数据写入到语音存储服务，由语音存储服务负责同传语音数据的存储。在上述延时的预定时长到达时，服务器通过同传混合服务，从直播延时服务拉取视频数据(即上述视频流)，并从语音存储服务拉取到时间信息相对应的同传语音数据，根据视频流与同传语音数据中的时间信息(比如时间戳)，同步混合为混合直播流(对应上述处理后的直播视频流数据)，并通过内容分发网络(Content Delivery Network，CDN)发送给用户终端进行播放。在上述混合直播流中，每一种语言类型对应的同传语音会存储在一个独立的音轨中，同传混合服务输出包含不同语言类型的多音轨的混合流，用户在播放这种混合流的时候，可以根据自己需求，选择不同的翻译语音与原始的直播视频流同步进行播放。

上述图10提供了一种基于直播流的实时识别、翻译以及翻译语音同步混合的解决方案，直播后台(即服务器)实时从直播流中提取音频流，采用人工智能算法，实时识别直播中的音频信号，同步翻译转换为各种目标语音，然后将包含各种目标语音的音频数据与原视频内容进行同步混合，生成具有多种音轨的直播流，用户在播放的时候可以根据自己的需求，选择相应的音轨进行播放，达到同声传译的目的。其中，直播的同传翻译处理放在了直播后台，不受任何场地的限制，只要将直播流接入直播后台即可。上述直播同传翻译方案由机器自动学习处理，不需要人来处理，没有译员的参与，不受人的因素影响。同声传译的语音与原始的视频画面通过utc/timestamp信息完全同步，不存在同传语音比画面内容延时的问题。并且，上述方案支持多种语音的同时同声传译处理输出，并混合到原始的视频流中，以多音轨的方式实现一路直播流，同时支持多种语言类型选择的功能，支持同时多种语言类型语音的输出处理，不需要每种同声传译流单独提供。

因此，上述方案解决了传统同声传译方案中，人的因素带来的相关问题，能够支持多种语言类型的同时处理输出，具有更广泛的使用场景；同时，同声传译之后的语音数据以多音轨方式与原始流混合为一路直播流进行分发，降低了数据分发的成本。

在另一种可能的实现方式中，服务器也可以将第二音频流数据与直播视频流中的原始音频(即第一音频流数据)融合为一条音频流。

图11是根据一示例性实施例示出的一种视频流处理方法的流程图，该视频流处理方法可以用于服务器中，比如，该方法可以由上述图1所示的服务器140执行。如图11所示，该视频流处理方法可以包括如下步骤：

步骤1101，获取直播视频流数据中的第一音频流数据，该第一音频流数据中包含第一语音。

步骤1102，对该第一音频流数据进行语音识别，获得语音识别文本。

步骤1103，根据该语音识别文本生成第二音频流数据，该第二音频流数据包括单种语言类型对应的第二语音。

与上述图3所示的实施例不同的是，在本申请实施例中，第二音频流数据中可以只包含一种语言类型对应的语音。

其中，上述第二音频流数据的生成方式，与上述图3所示实施例中生成子音频流数据的方式类似，此处不再赘述。

步骤1104，将该第二音频流数据与该第一音频流数据按照时间信息进行音频叠加，获得第三音频流数据。

在本申请实施例中，在缓存直播视频流数据，并延时预设时长后，或者，在成功存储上述第二音频流数据后，对于上述第二音频流数据，服务器将该第二音频流数据中的每一个音频流数据块，与第一音频流数据中时间信息对应的音频流数据块对齐，并将对齐后的音频流数据块进行音频叠加，获得由叠加后的音频流数据块组成的第三音频流数据。

本申请实施例中的音频叠加，是指将两段时间信息相同的音频叠加为时间信息对应的一段音频。比如，假设两段时间信息相同的音频1和音频2，两者的播放时长均为1min，将音频1和音频2叠加后获得音频3，该音频3的播放时长也为1min，且该音频3中同时包含音频1和音频2的音频内容。

步骤1105，将该第三音频流数据与该直播视频流数据中的画面帧流数据按照时间信息进行合并，获得该处理后的直播视频流数据。

在本申请实施例中，服务器可以在转码获得直播视频流数据后，将直播视频流解复用为第一音频流数据和画面帧流数据，并将画面帧流数据缓存在本地。

其中，上述画面帧流数据可以由一系列的画面帧流数据块构成，上述画面帧流数据中的画面帧数据块与第一音频流数据中的音频流数据块在时间上一一对应。并且，每个画面帧流数据块的构成与视频流数据块或者音频流数据块类似，即一个画面帧流数据块包含数据块头和有效载荷两部分，其中，有效载荷可以包括画面帧流数据块中的各个画面帧，数据块头中包含数据块头大小、有效载荷大小、时长、索引、协调世界时以及时间戳等信息。

由于叠加后的第三音频流数据中包含的各个音频流数据块的时间信息与第一音频流数据中包含的各个音频流数据块的时间信息一一对应，因此，服务器可以将第三音频流数据与直播视频流数据中的画面帧流数据按照时间信息进行数据对齐，并将数据对齐后的第三音频流数据与直播视频流数据中的画面帧流数据合并获得处理后的直播视频流数据。

在本申请实施例中，服务器可以在接收到用户终端发送的直播获取请求时，将处理后的直播视频流数据推送给用户终端进行播放。比如，服务器可以接收用户终端发送的视频流获取请求；获取该视频流获取请求中携带的语言类型指示信息，该语言类型指示信息用于指示音频语言类型；当该语言类型指示信息指示的音频语言类型是该第二语音对应的语言类型时，向该用户终端推送该处理后的直播视频流数据。

观看直播的用户可以在用户终端侧请求获取包含指定语言类型的翻译语音的直播视频流。比如，用户可以在用户终端侧的翻译语音选择界面中选择某种语言类型的翻译语音，之后，用户终端向服务器发送视频流获取请求，该视频流获取请求中包含指示用户选择的翻译语言类型的语言类型指示信息，服务器接收到用户终端发送的视频流获取请求后，即可以获取到该语言类型指示信息。

对于上述步骤1105中获得处理后的直播视频流数据，当用户终端发送的视频流获取请求中的语言类型指示信息所指示的翻译语言类型是上述步骤1105中获得处理后的直播视频流数据中包含的翻译语音对应的语言类型时，服务器即可以将上述处理后的直播视频流数据推送给用户终端，由用户终端进行播放。

在本申请实施例中，服务器可以针对每一种语言类型生成对应的一条包含翻译语音的直播视频流，当用户终端侧选择一种语言类型时，服务器即可以将包含该语言类型的翻译语音的直播视频流发送给用户终端。

在一种可能的实现方式中，用户可以在进入直播界面时选择哪一种翻译语言类型对应的直播视频流。比如，用户点开某个直播频道时，用户终端展示直播视频流选择界面，其中包含若干个直播入口，每个直播入口对应一种语言类型的翻译语音，用户点击其中一个直播入口(比如点击中文语言类型的翻译语音对应的直播入口)后，用户终端展示直播界面，同时向服务器发送视频流获取请求，该视频流获取请求指示用户选择了中文的翻译语音，服务器将中文翻译语音对应的直播视频流推送给用户终端，由用户终端在直播界面中进行播放。

或者，在另一种可能的实现方式中，用户也可以在观看直播的过程中，选择切换到另一条包含不同的翻译语音的直播视频流，该直播视频流切换的界面与上述图9所示的界面类似，此处不再赘述。

综上所述，本申请实施例所示的方案，服务器可以获取直播视频流数据包含的第一音频流数据，并对第一音频流数据进行语音识别并根据识别结果生成另一语言类型对应的第二音频流数据，并将第二音频流数据与第一音频流数据叠加后，与直播视频流中的画面帧流数据合并，并将合并获得的处理后的直播视频流数据推送给用户终端进行播放，实现翻译语音与视频画面的准确同步，同时，由于不需要翻译人员在直播现场进行口译，能够有效降低直播延时。

基于上述图11所示的方案，请参考图12，其是根据一示例性实施例示出的一种直播视频流的处理流程示意图。如图12所示，直播录制终端通过采集卡对摄像机(画面切换台)和麦克风(调音台)采集到的直播画面和声音并进行采集编码后，通过直播接入服务将直播流上传给服务器，服务器通过直播转码服务将接入的直播流转码，并输出纯画面流(只包含画面帧数据块)与纯音频流(只包含音频流数据块)。在转码之后，一方面，服务器通过直播延时服务实现纯画面流的延时输出(比如，延时预定时长)，另一方面，服务器将纯音频流分为两路，一路通过直播延时服务实现纯音频流的延时输出，另一路输入直播同传服务进行语音识别、翻译以及语音转化，获取不同语言类型对应的同传语音数据(对应上述第二音频流数据)，并将同传语音数据写入到语音存储服务，由语音存储服务负责同传语音数据的存储。在上述延时的预定时长到达时，服务器通过同传混合服务，从直播延时服务拉取纯画面流和纯音频流，并从语音存储服务拉取到时间信息相对应的同传语音数据，将纯音频流与同传语音数据进行叠加获得混合音频流，再根据混合音频流与纯画面流中的时间信息(比如时间戳)，同步混合为混合直播流(对应上述处理后的直播视频流数据)，并通过CDN发送给用户终端进行播放。

图13是根据一示例性实施例示出的一种视频流处理装置的结构方框图。该视频流处理装置可以用于如图1所示系统中，以执行图2、图3或图11所示实施例提供的方法的全部或者部分步骤。该视频流处理装置可以包括：

音频获取模块1301，用于获取直播视频流数据中的第一音频流数据，所述第一音频流数据中包含第一语音；

语音识别模块1302，用于对所述第一音频流数据进行语音识别，获得语音识别文本；

音频流生成模块1303，用于根据所述语音识别文本生成第二音频流数据，所述第二音频流数据中包含第二语音，且所述第二语音对应的语言类型与第一语音对应的语言类型不同；

合并模块1304，用于将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据，所述时间信息用于指示音频流数据或者直播视频流数据的播放时间。

所述装置还可以包括：音轨分配模块，用于在所述合并模块将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据之前，将所述第二音频流数据分配至目标音轨中，所述目标音轨与所述第一音频流数据所在的音轨不同。

所述第二音频流数据可以包括至少两路子音频流数据，每一路子音频流数据包含一种语言类型对应的语音；

所述音轨分配模块，具体用于将所述至少两路子音频流数据分配至各自对应的一条音轨中；

所述合并模块1304，具体可以用于，

将各条音轨中的子音频流数据分别按照时间信息与所述画面帧流数据进行数据对齐；

将对齐后的各条音轨中的子音频流数据与所述直播视频流数据进行合并，获得所述处理后的直播视频流数据。

所述合并模块1304，具体可以用于，

将所述第二音频流数据与所述第一音频流数据按照时间信息进行音频叠加，获得第三音频流数据；

将所述第三音频流数据与所述直播视频流数据中的画面帧流数据按照时间信息进行合并，获得所述处理后的直播视频流数据。

所述装置还可以包括：

请求接收模块，用于接收用户终端发送的视频流获取请求；

指示信息获取模块，用于获取所述视频流获取请求中携带的语言类型指示信息，所述语言类型指示信息用于指示音频语言类型；

推送模块，用于当所述语言类型指示信息指示的音频语言类型是所述第二语音对应的语言类型时，向所述用户终端推送所述处理后的直播视频流数据。

所述合并模块1304，具体可以用于，

从第一时刻起延时预设时长后，将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据；

其中，所述第一时刻是获取到所述直播视频流数据的时刻。

所述合并模块1304，具体可以用于，

在成功存储所述第二音频流数据后，将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据。

所述语音识别模块1302，具体可以用于，

对所述第一音频流数据进行语音起止检测，获得所述第一音频流数据中的语音起始帧和语音结束帧；所述语音起始帧是一段语音开始的音频帧，所述语音结束帧是一段语音结束的音频帧；

根据所述第一音频流数据中的语音起始帧和语音结束帧，从所述第一音频流数据中提取至少一段语音数据，所述语音数据包括对应的一组语音起始帧和语音结束帧之间的音频帧；

对所述至少一段语音数据分别进行语音识别，获得所述至少一段语音数据分别对应的识别子文本；

将所述至少一段语音数据分别对应的识别子文本获取为所述语音识别文本。

所述音频流生成模块1303，具体可以用于，

将所述语音识别文本翻译为所述第二语音对应的语言类型的翻译文本；

根据所述翻译文本生成所述第二语音；

生成包含所述第二语音的所述第二音频流数据。

所述第二语音的声音强度例如不低于所述第一语音的声音强度。

图14是本申请一个示例性实施例示出的计算机设备1400的结构框图。所述计算机设备1400包括中央处理单元(CPU)1401、包括随机存取存储器(RAM)1402和只读存储器(ROM)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。所述计算机设备1400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1406，和用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1407。

所述基本输入/输出系统1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中所述显示器1408和输入设备1409都通过连接到系统总线1405的输入输出控制器1410连接到中央处理单元1401。所述基本输入/输出系统1406还可以包括输入输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。所述大容量存储设备1407及其相关联的计算机可读介质为计算机设备1400提供非易失性存储。也就是说，所述大容量存储设备1407可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，所述计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。

计算机设备1400可以通过连接在所述系统总线1405上的网络接口单元1411连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1401通过执行该一个或一个以上程序来实现图2、图3或图11任一所示的方法中的全部或者部分步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的视频流处理方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种视频流处理方法，由计算机设备执行，其特征在于，所述方法包括：

获取直播视频流数据中的第一音频流数据，所述第一音频流数据中包含第一语音；

对所述第一音频流数据进行语音识别，获得语音识别文本；

根据所述语音识别文本生成第二音频流数据，所述第二音频流数据中包含第二语音，且所述第二语音与所述第一语音对应的语言类型不同；

将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据，所述时间信息用于指示音频流数据或者直播视频流数据的播放时间。
根据权利要求1所述的方法，其特征在于，所述将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据之前，所述方法还包括：

将所述第二音频流数据分配至目标音轨中，所述目标音轨与所述第一音频流数据所在的音轨不同。
根据权利要求1所述的方法，其特征在于，所述第二音频流数据包括至少两路子音频流数据，每一路子音频流数据包含一种语言类型对应的语音；所述将所述第二音频流数据分配至目标音轨中，包括：

将所述至少两路子音频流数据分配至各自对应的一条音轨中；

所述将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据，包括：

将各条音轨中的子音频流数据分别按照时间信息与所述直播视频流数据进行数据对齐；

将对齐后的各条音轨中的子音频流数据与所述直播视频流数据进行合并，获得所述处理后的直播视频流数据。
根据权利要求1所述的方法，其特征在于，所述将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据，包括：

将所述第二音频流数据与所述第一音频流数据按照时间信息进行音频叠加，获得第三音频流数据；

将所述第三音频流数据与所述直播视频流数据中的画面帧流数据按照时间信息进行合并，获得所述处理后的直播视频流数据。
根据权利要求4所述的方法，其特征在于，所述方法还包括：

接收用户终端发送的视频流获取请求；

获取所述视频流获取请求中携带的语言类型指示信息，所述语言类型指示信息用于指示音频语言类型；

当所述语言类型指示信息指示的音频语言类型是所述第二语音对应的语言类型时，向所述用户终端推送所述处理后的直播视频流数据。
根据权利要求1至5任一所述的方法，其特征在于，

从第一时刻起延时预设时长后，将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得所述处理后的直播视频流数据；

其中，所述第一时刻是获取到所述直播视频流数据的时刻。
根据权利要求1至5任一所述的方法，其特征在于，

在成功存储所述第二音频流数据后，将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得所述处理后的直播视频流数据。
根据权利要求1至5任一所述的方法，其特征在于，所述对所述第一音频流数据进行语音识别，获得语音识别文本，包括：

对所述第一音频流数据进行语音起止检测，获得所述第一音频流数据中的语音起始帧和语音结束帧；所述语音起始帧是一段语音开始的音频帧，所述语音结束帧是一段语音结束的音频帧；

根据所述第一音频流数据中的语音起始帧和语音结束帧，从所述第一音频流数据中提取至少一段语音数据，所述语音数据包括对应的一组语音起始帧和语音结束帧之间的音频帧；

对所述至少一段语音数据分别进行语音识别，获得所述至少一段语音数据分别对应的识别子文本；

将所述至少一段语音数据分别对应的识别子文本获取为所述语音识别文本。
根据权利要求1至5任一所述的方法，其特征在于，所述根据所述语音识别文本生成第二音频流数据，包括：

将所述语音识别文本翻译为所述第二语音对应的语言类型的翻译文本；

根据所述翻译文本生成所述第二语音；

生成包含所述第二语音的所述第二音频流数据。
根据权利要求1至5任一所述的方法，其特征在于，所述第二语音的声音强度不低于所述第一语音的声音强度。
一种视频流处理装置，其特征在于，所述装置包括：

音频获取模块，用于获取直播视频流数据中的第一音频流数据，所述第一音频流数据中包含第一语音；

语音识别模块，用于对所述第一音频流数据进行语音识别，获得语音识别文本；

音频流生成模块，用于根据所述语音识别文本生成第二音频流数据，所述第二音频流数据中包含第二语音，且所述第二语音与所述第一语音对应的语言类型不同；

合并模块，用于将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据，所述时间信息用于指示音频流数据或者直播视频流数据的播放时间。
根据权利要求11所述的装置，其特征在于，所述装置还包括：

音轨分配模块，用于在所述合并模块将所述第二音频流数据与所述直播视频流数据按照时间信息进行合并，获得处理后的直播视频流数据之前，将所述第二音频流数据分配至目标音轨中，所述目标音轨与所述第一音频流数据所在的音轨不同。
根据权利要求12所述的装置，其特征在于，所述第二音频流数据包括至少两路子音频流数据，每一路子音频流数据包含一种语言类型对应的语音；所述音轨分配模块，具体用于，

将所述至少两路子音频流数据分配至各自对应的一条音轨中；

所述合并模块，具体用于，

将各条音轨中的子音频流数据分别按照时间信息与所述直播视频流数据进行数据对齐；

将对齐后的各条音轨中的子音频流数据与所述直播视频流数据进行合并，获得所述处理后的直播视频流数据。
一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的视频流处理方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一所述的视频流处理方法。