WO2019000721A1

WO2019000721A1 - 视频文件录制方法、音频文件录制方法及移动终端

Info

Publication number: WO2019000721A1
Application number: PCT/CN2017/107014
Authority: WO
Inventors: 张雨田
Original assignee: 联想(北京)有限公司
Priority date: 2017-06-30
Filing date: 2017-10-20
Publication date: 2019-01-03
Also published as: CN107316642A

Abstract

本申请公开一种移动终端的视频文件录制方法，移动终端处于视频录制模式时，通过摄像头获得图像信息、通过麦克风获得音频信息，并且移动终端调用语音识别引擎，基于语音识别引擎对获得的音频信息进行实时处理，以便基于音频信息同步生成字幕信息，移动终端退出视频录制模式后，对本次视频录制过程中获得的图像信息构成的图像流、本次视频录制过程中获得的音频信息构成的音频流、以及本次视频录制过程中获得的字幕信息构成的字幕流进行合成处理，获得第一视频文件。基于本申请公开的方法，能够快捷地制作完成配置有字幕的视频文件。本申请还公开一种移动终端的音频文件录制方法。

Description

视频文件录制方法、音频文件录制方法及移动终端

技术领域

本申请属于多媒体技术领域，尤其涉及视频文件录制方法、音频文件录制方法及移动终端。

背景技术

随着互联网技术的发展和互联网资源的日益丰富，用户通过互联网能够获取到多种用于工作、学习、娱乐的资源，音频和视频就是其中重要的资源。

为了给用户带来更加丰富的体验，音频和视频通常配有对应的字幕，便于有听觉障碍的用户或者处于嘈杂环境的用户通过字幕清楚地理解音频和视频所播放的内容。目前通常是先制作音频或者视频，后期再制作对应的字幕。但是，目前针对音频或者视频制作字幕的方式较为单一。

发明内容

有鉴于此，本申请的目的在于提供一种应用于移动终端的视频文件录制方法，以便更加快捷地制作完成配置有字幕的视频文件。本申请还提供一种应用于移动终端的音频文件录制方法，以便更加快捷地制作完成配置有字幕的音频文件。

为实现上述目的，本申请提供如下技术方案：

一方面，本申请提供一种移动终端的视频文件录制方法，包括：

获得指示开始录制视频的第一指令；

响应所述第一指令，进入视频录制模式；

在所述视频录制模式下，通过所述移动终端的摄像头获得图像信息，通过所述移动终端的麦克风获得音频信息；

调用语音识别引擎，基于所述语音识别引擎对所述音频信息进行实时处理，以使得基于所述音频信息同步生成字幕信息；

获得指示结束录制视频的第二指令；

响应所述第二指令，退出所述视频录制模式；

将在所述视频录制模式下，由所述图像信息构成的图像流、由所述音频信息构成的音频流、以及由所述字幕信息构成的字幕流合成为第一视频文件，以使得在播放所述第一视频文件时，同步输出所述图像流、所述音频流和所述字幕流。

可选的，上述方法中，所述基于所述语音识别引擎对所述音频信息进行实时处理，包括：基于所述音频信息的参数信息确定当前录制环境；基于当前录制环境为第一环境的结果，将当前的音频信息同步转换为字幕信息；基于当前录制环境为第二环境的结果，暂停将音频信息同步转换为字幕信息的操作，直至获得表明当前录制环境为所述第一环境的结果。

可选的，上述方法中，所述第一环境包括至少有一个用户在进行语言输出的环境，所述第二环境包括仅存在背景音的环境。

可选的，上述方法中，基于所述音频信息的参数信息确定当前录制环境，包括：确定当前音频信息的信噪比；如果当前音频信息的信噪比大于阈值，则确定当前录制环境为所述第一环境；如果当前音频信息的信噪比小于所述阈值，则确定当前录制环境为所述第二环境。

可选的，所述移动终端包括麦克风阵列，所述麦克风阵列包括多个安装位置不同的麦克风，其中，所述摄像头所在的侧面上设置有至少一个麦克风，所述移动终端的至少一个其他侧面上设置有麦克风；

上述方法中，所述通过所述移动终端的麦克风获得音频信息，包括：通过所述麦克风阵列获得目标用户的音频信息，其中，所述目标用户为能够通过所述移动终端的摄像头进行图像采集且显示在所述移动终端的显示屏内的用户。

另一方面，本申请提供一种移动终端，包括输入接口、摄像头、麦克风和处理器；

所述输入接口用于采集输入指令；

所述处理器用于：响应指示开始录制视频的第一指令，进入视频录制模式；在所述视频录制模式下，通过所述移动终端的摄像头获得图像信息，通过所述移动终端的麦克风获得音频信息；调用语音识别引擎，基于所述语音识别引擎对所述音频信息进行实时处理，以使得基于所述音频信息同步生成字幕信息；响应指示结束录制视频的第二指令，退出所述视频录制模式；将在所述视频录制模式下，由所述图像信息构成的图像流、由所述音频信息构成的音频流、以及由所述字幕信息构成的字幕流合成为第一视频文件，以使得在播放所述第一视频文件时，同步输出所述图像流、所述音频流和所述字幕流。

可选的，上述移动终端中，所述处理器在基于所述语音识别引擎对所述音频信息进行实时处理的方面，用于：

基于所述音频信息的参数信息确定当前录制环境；基于当前录制环境为第一环境的结果，将当前的音频信息同步转换为字幕信息；基于当前录制环境为第二环境的结果，暂停将音频信息同步转换为字幕信息的操作，直至获得表明当前录制环境为所述第一环境的结果。

可选的，上述移动终端中，所述处理器将所述第一环境配置为包括至少有一个用户在进行语言输出的环境，将所述第二环境配置为包括仅存在背景音的环境。

可选的，上述移动终端中，所述处理器在基于所述音频信息的参数信息确定当前录制环境的方面，用于：

确定当前音频信息的信噪比；如果当前音频信息的信噪比大于阈值，则确定当前录制环境为所述第一环境；如果当前音频信息的信噪比小于所述阈值，则确定当前录制环境为所述第二环境。

可选的，上述移动终端包括麦克风阵列，所述麦克风阵列包括多个安装位置不同的麦克风，其中，所述摄像头所在的侧面上设置有至少一个麦克风，所述移动终端的至少一个其他侧面上设置有麦克风；所述移动终端还包括显示屏；

所述处理器在通过所述移动终端的麦克风获得音频信息的方面，用于：通过所述麦克风阵列获得目标用户的音频信息，其中，所述目标用户为能够通过所述移动终端的摄像头进行图像采集且显示在所述移动终端的显示屏内的用户。

另一方面，本申请提供一种移动终端的音频文件录制方法，包括：

获得指示开始录制音频的第一指令；

响应所述第一指令，进入音频录制模式；

在所述音频录制模式下，通过所述移动终端的麦克风获得音频信息；

获得指示结束录制音频的第二指令；

响应所述第二指令，退出所述音频录制模式；

将在所述音频录制模式下，由所述音频信息构成的音频流以及由所述字幕信息构成的字幕流合成为第一音频文件，以使得在播放所述第一音频文件时，同步输出所述音频流和所述字幕流。

另一方面，本申请提供一种移动终端，包括输入接口、麦克风和处理器；

所述输入接口用于采集输入指令；

所述处理器用于：响应指示开始录制音频的第一指令，进入音频录制模式；在所述音频录制模式下，通过所述移动终端的麦克风获得音频信息；调用语音识别引擎，基于所述语音识别引擎对所述音频信息进行实时处理，以使得基于所述音频信息同步生成字幕信息；响应指示结束录制音频的第二指令，退出所述音频录制模式；将在所述音频录制模式下，由所述音频信息构成的音频流以及由所述字幕信息构成的字幕流合成为第一音频文件，以使得在播放所述第一音频文件时，同步输出所述音频流和所述字幕流。

由此可见，本申请的有益效果为：

本申请公开的移动终端的视频文件录制方法，移动终端处于视频录制模式时，通过摄像头获得图像信息、通过麦克风获得音频信息，并且移动终端调用语音识别引擎，基于语音识别引擎对获得的音频信息进行实时处理，以便基于音频信息同步生成字幕信息，移动终端退出视频录制模式后，对本次视频录制过程中获得的图像信息构成的图像流、本次视频录制过程中获得的音频信息构成的音频流、以及本次视频录制过程中获得的字幕信息构成的字幕流进行合成处理，获得第一视频文件。可以看到，本申请公开的视频文件录制方法，移动终端在录制视频的过程中，通过语音识别引擎对音频信息进行实时处理，从而基于音频信息同步生成字幕信息，移动终端在退出视频录制模式后，即可基于音频流、图像流和字幕流生成视频文件，从而快捷地制作完成配置有字幕的视频文件。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种移动终端的视频文件录制方法的流程图；

图2为本申请公开的基于语音识别引擎对音频信息进行实时处理的流程图；

图3为本申请公开的一种视频录制场景的示意图；

图4为本申请公开的一种移动终端的结构图；

图5为本申请公开的另一种移动终端的结构图；

图6为本申请公开的一种移动终端的音频文件录制方法的流程图；

图7为本申请公开的另一种移动终端的结构图。

具体实施方式

本申请公开视频文件录制方法、音频文件录制方法及相应的移动终端，在录制音频或者视频的过程中，通过识别音频信息同步生成对应的字幕信息，从而更加快捷地制作完成配置有字幕的音频文件或者视频文件。本申请中的移动终端可以为手机、平板电脑，或者其他具有音频录制功能和视频录制功能的终端。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解，实质上任意表示两个或更多可选项目的转折连词和/或短语，无论是在说明书、权利要求书还是附图中，都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如，短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。

因此，本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中，计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

参见图1，图1为本申请公开的一种移动终端的视频文件录制方法的流程图。该方法包括：

步骤S11：获得指示开始录制视频的第一指令。

步骤S12：响应第一指令，进入视频录制模式。

其中，该第一指令可以通过按下移动终端的物理按键产生，可以通过按下移动终端显示的虚拟按键产生，也可以利用语音采集模块采集用户的语音输入，通过识别用户的语音输入产生触发指令。移动终端响应获得的第一指令进入视频录制模式。

步骤S13：在视频录制模式下，通过移动终端的摄像头获得图像信息，通过移动终端的麦克风获得音频信息。

需要说明的是，通过移动终端的麦克风获得的音频信息可以是麦克风采集到的当前录制环境的音频信息，也可以是对麦克风采集的音频信息进行处理后得到的音频信息，如对麦克风采集到的音频信息进行降噪处理所得到的音频信息，如从麦克风采集到的音频信息中提取出的某对象产生的音频信息。

步骤S14：调用语音识别引擎，基于语音识别引擎对音频信息进行实时处理，以使得基于音频信息同步生成字幕信息。

移动终端调用语音识别引擎，在麦克风采集音频信息的过程中，实时对音频信息进行处理，得到对应的字幕信息，也就是基于音频信息同步生成字幕信息。可以理解，本公开实施例中的基于音频信息同步生成字幕信息可以包括在接收音频信息的同时，对音频信息进行处理同步生成字幕信息，即，生成字幕信息的动作与接收音频信息的动作是同步进行的。但是，本公开实施例不限制字幕信息生成的时间与音频信息完全地同步，例如，由于需要对音频信息进行实时处理，则生成字幕信息的时间可以稍晚于接收到相应音频信息的时间。步骤S15：获得指示结束录制视频的第二指令。

步骤S16：响应第二指令，退出视频录制模式。

其中，该第二指令可以通过按下移动终端的物理按键产生，可以通过按下移动终端显示的虚拟按键产生，也可以利用语音采集模块采集用户的语音输入，通过识别用户的语音输入产生触发指令。移动终端响应获得的第二指令退出视频录制模式，也就是结束录制视频。

步骤S17：将在视频录制模式下，由图像信息构成的图像流、由音频信息构成的音频流、以及由字幕信息构成的字幕流合成为第一视频文件，以使得在播放第一视频文件时，同步输出图像流、音频流和字幕流。

也就是，将从获得第一指令开始到获得第二指令结束的过程中，通过摄像头获得的图像信息构成的图像流、通过麦克风获得的音频信息构成的音频流、以及通过语音识别引擎获得的字幕信息构成的字幕流合成为视频文件(记为第一视频文件)。在播放第一视频文件时，该第一视频文件包含的音频流、图像流和字幕流被同步输出。

作为一种实施方式，基于语音识别引擎对音频信息进行实时处理采用如图2所示的方式。具体包括：

步骤S21：基于音频信息的参数信息确定当前录制环境。

用户可能在不同的环境中录制视频，在某些环境下是无需生成字幕信息的。例如：当前录制环境下没有人说话，那么是无需生成字幕信息的。例如：当前录制环境下存在嘈杂的人声，但当前的拍摄对象并未说话，那么是无需生成字幕信息的。另外，在某些环境下，通过搜索引擎难以准确地基于音频信息同步生成字幕信息。

因此，基于语音识别引擎对音频信息进行实时处理的过程中，根据音频信息的参数信息确定当前录制环境是第一环境还是第二环境，以确定是否通过语音识别引擎将音频信息同步转换为字幕信息。实施中，可以将第一环境视为存在有效语音信号的环境，将第二环境视为不存在有效语音信号的环境。

其中，有效语音信号是指满足预定要求的语音信号，例如：特定用户产生的语音信号作为有效语音信号，或者用户产生的音量达到了音量阈值的语音信号作为有效语音信号。

步骤S22：基于当前录制环境为第一环境的结果，将当前的音频信息同步转换为字幕信息。

步骤S23：基于当前录制环境为第二环境的结果，暂停将音频信息同步转换为字幕信息的操作，直至获得表明当前录制环境为第一环境的结果。

如果当前录制环境为第一环境，那么通过语音识别引擎对当前的音频信息进行实时处理，将当前的音频信息同步转换为字幕信息。如果当前录制环境为第二环境，那么暂停通过语音识别引擎对当前的音频信息进行实时处理，直至获得表明当前录制环境为第一环境的结果，再次启动语音识别引擎对音频信息进行实时处理。

实施中，可以在字幕流中插入与暂停通过语音识别引擎对音频信息进行实时处理的时间段对应的空白。

例如：在录制视频的过程中，从第10分钟进入第二环境、到第12分钟从第二环境进入第一环境，那么在从第10分钟至第12分钟的时间段内，语音识别引擎暂停对音频信息进行实时处理，相应的，在字幕流中从第10分钟至第12分钟的时间段内插入空白。在该时间段内，如果有需要补充的字幕信息，那么用户后期可以在视频文件中对该时间段内的字幕信息进行编辑修改。

基于本申请图2所示的方法，移动终端在视频录制模式下，通过摄像头获得图像信息、通过麦克风获得音频信息，并且基于音频信息的参数信息确定当前录制环境，如果当前录制环境为第一环境，则通过语音识别引擎将当前的音频信息同步转换为字幕信息，如果当前录制环境为第二环境，则暂停通过语音识别引擎将音频信息同步转换为字幕信息，直至录制环境变换为第一环境，移动终端退出视频录制模式后，将本次视频录制过程中产生的图像流、音频流和字幕流合成为第一视频文件。可以看到，基于本申请图2所示的方法，如果当前录制环境为第二环境，则暂停通过语音识别引擎将音频信息同步转换为字幕信息，一方面能够降低语音识别引擎的数据处理量，另一方面也能够避免将录制环境中的杂音误处理为字幕信息或者提供错误的字幕信息。

可选的，将第一环境配置为至少有一个用户在进行言语输出的环境，将第二环境配置为仅存在背景音的环境。其中，用户在进行言语输出是指该用户在说话。

作为一种方式，步骤S21中基于音频信息的参数信息确定当前录制环境，包括：

对通过麦克风获得的音频信息进行分析，确定音频信息中是否包含语音信息，如果音频信息不包含语音信息，那么确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境。

进一步的，如果音频信息包含语音信息，那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息，如果是唱歌(或戏剧)产生的语音信息，那么确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境，如果是说话产生的语音信息，那么确定当前录制环境有正在进行言语输出的用户，当前录制环境为第一环境。

也就是说，如果当前录制环境没有语音信号(没有人发出的声音)，那么确定当前录制环境为第二环境，如果当前录制环境有语音信号，但是该语音信号是唱歌(或戏剧)过程所产生的语音信号，那么确定当前录制环境为第二环境。

作为另一种方式，步骤S21中基于音频信息的参数信息确定当前录制环境，包括：

进一步的，如果音频信息包含语音信息，进一步统计该语音信息的音量，如果该语音信息的音量低于预设的音量阈值，则确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境。

进一步的，如果音频信息包含语音信息并且该语音信息的音量达到预设的音量阈值，那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息，如果是唱歌(或戏剧)产生的语音信息，那么确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境，如果是说话产生的语音信息，那么确定当前录制环境有正在进行言语输出的用户，当前录制环境为第一环境。

也就是说，如果当前录制环境没有语音信号(没有人发出的声音)，那么确定当前录制环境为第二环境，如果当前录制环境有语音信号，但是该语音信号的音量低于预设的音量阈值，则确定当前录制环境为第二环境，进一步的，如果该语音信号的音量达到预设的音量阈值但该语音信号是唱歌(或戏剧)过程所产生的语音信号，那么确定当前录制环境为第二环境。

需要说明的是，可以通过分析语音信号的节奏、旋律或者韵律，以确定语音信号是说话产生的还是唱歌(或戏剧)产生的。

确定当前音频信息的信噪比；

如果当前音频信息的信噪比大于阈值，则确定当前录制环境为第一环境；

如果当前音频信息的信噪比小于阈值，则确定当前录制环境为第二环境。

移动终端在视频录制模式下，如果通过麦克风获得的音频信息的信噪比大于阈值，表明当前录制环境较为安静，处于该录制环境中的用户说话时能够清楚地采集到该用户的声音信号，因此将当前录制环境确定为第一环境，通过语音识别引擎对当前的音频信息进行实时处理，将当前的音频信息同步转换为字幕信息。如果通过麦克风获得的音频信息的信噪比小于阈值，表明当前录制环境较为嘈杂，处于该录制环境中的用户说话时很难清楚地采集到该用户的声音信号，因此将当前录制环境确定为第二环境，暂停通过语音识别引擎对当前的音频信息进行实时处理。

作为一种优选方案，移动终端包括麦克风阵列，该麦克风阵列包括多个安装位置不同的麦克风，其中，摄像头所在的侧面上设置至少一个麦克风，移动终端的至少一个其他侧面上设置至少一个麦克风。需要说明的是，多个麦克风的位置是不同的，相应的，多个麦克风的拾音区也是不同的。

本申请上述公开的视频文件录制方法中，通过移动终端的麦克风获得音频信息，可以采用如下方式：

1)、获得第一侧面上麦克风采集的音频信息，获得第二侧面上麦克风采集的音频信息，其中，第一侧面是当前进行图像采集的摄像头所在的侧面，第二侧面是除第一侧面之外设置有麦克风的侧面；

2)、利用位于第二侧面的麦克风采集的音频信息对位于第一侧面的麦克风采集的音频信息进行降噪处理，获得经过降噪处理后的音频信息。

移动终端处于视频录制模式时，位于第一侧面的麦克风的拾音区能够覆盖当前进行图像采集的摄像头的拍摄区域，而位于第二侧面的麦克风的拾音区与当前进行图像采集的摄像头的拍摄区域没有重叠，或者仅有很小的重叠区域。而视频拍摄者关注的声音源通常是当前的拍摄对象，位于第一侧面的麦克风采集的主要是拍摄对象发出的声音，而位于第二侧面的麦克风采集的主要是环境噪音，因此，利用位于第二侧面的麦克风采集的音频信息对位于第一侧面的麦克风采集的音频信息进行降噪处理，能够得到拍摄对象更加清楚的语音信息。

另外，本申请上述公开的视频文件录制方法中，通过移动终端的麦克风获得音频信息，也可以采用如下方式：

通过麦克风阵列获得目标用户的音频信息。其中，目标用户为能够通过移动终端的摄像头进行图像采集且图像显示在移动终端的显示屏内的用户。

实施中，通过麦克风阵列对目标用户进行定位，根据目标用户的位置以及麦克风阵列中麦克风的安装位置调整各个麦克风的增益，实现对目标用户的追踪，采集该目标用户的音频信息。

以图3所示的办公室录制场景为例：

在办公室中共有10个人员，并且10个人员呈环形围坐。移动终端的麦克风阵列包括麦克风102、麦克风103、麦克风104和麦克风105，其中，麦克风102以及麦克风103与摄像头101处于同一侧面，麦克风104和麦克风105位于其他侧面上。

在当前时刻，人员A1进行发言，移动终端朝向人员A1进行视频录制，并且移动终端中当前处于图像采集状态的摄像头为101，摄像头101的拍摄区域为图中以S1标示的区域。此时，摄像头101对人员A1进行图像采集，并且人员A1的图像显示在移动终端的显示屏内，人员A1即为目标用户。

移动终端通过麦克风阵列对人员A1进行定位，确定人员A1的位置。移动终端根据人员A1的位置以及各麦克风的安装位置，调整各个麦克风的增益，实现对人员A1的音源跟踪，采集人员A1的音频信息，将其他人员产生的音频信息滤除。

另外，在本申请上述公开的视频文件录制方法中，字幕流还可以携带字幕信息的显示配置信息。其中，字幕信息的显示配置信息包括字幕信息的显示位置和/或字幕信息的动态显示模式。

另外，字幕流中除了通过语音识别引擎产生的字幕信息之外，还可以包括：根据语音信息的提供者的情绪状态确定的辅助信息。其中，辅助信息包括但不限于图片、表情符号。实施中，对通过摄像头获得的图像进行分析，根据语音信息的提供者的表情和/或肢体动作确定该提供者的情绪状态，也可以根据语音信息确定其提供者的情绪状态，获得与该情绪状态对应的辅助信息。

本申请还公开一种移动终端，其结构如图4所示，包括输入接口10、摄像头20、麦克风301和处理器40。

输入接口10用于采集输入指令。

处理器40用于：响应指示开始录制视频的第一指令，进入视频录制模式；在视频录制模式下，通过摄像头20获得图像信息，通过麦克风301获得音频信息；调用语音识别引擎，基于语音识别引擎对音频信息进行实时处理，以使得基于音频信息同步生成字幕信息；响应指示结束录制视频的第二指令，退出视频录制模式；将在视频录制模式下，由图像信息构成的图像流、由音频信息构成的音频流、以及由字幕信息构成的字幕流合成为第一视频文件，以使得在播放第一视频文件时，同步输出图像流、音频流和字幕流。

本申请公开的移动终端在录制视频的过程中，通过语音识别引擎对音频信息进行实时处理，从而基于音频信息同步生成字幕信息，在退出视频录制模式后，即可基于音频流、图像流和字幕流生成视频文件，从而快捷地制作完成配置有字幕的视频文件。

作为一种实施方式，处理器40在基于语音识别引擎对音频信息进行实时处理的方面，用于：

基于音频信息的参数信息确定当前录制环境；基于当前录制环境为第一环境的结果，将当前的音频信息同步转换为字幕信息；基于当前录制环境为第二环境的结果，暂停将音频信息同步转换为字幕信息的操作，直至获得表明当前录制环境为第一环境的结果。

可选的，处理器40将第一环境配置为至少有一个用户在进行语言输出的环境，将第二环境配置为仅存在背景音的环境。

作为一种实施方式，处理器40在基于音频信息的参数信息确定当前录制环境的方面，用于：对通过麦克风获得的音频信息进行分析，确定音频信息中是否包含语音信息，如果音频信息不包含语音信息，那么确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境。进一步的，如果音频信息包含语音信息，那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息，如果是唱歌(或戏剧)产生的语音信息，那么确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境，如果是说话产生的语音信息，那么确定当前录制环境有正在进行言语输出的用户，当前录制环境为第一环境。

作为一种实施方式，处理器40在基于音频信息的参数信息确定当前录制环境的方面，用于：对通过麦克风获得的音频信息进行分析，确定音频信息中是否包含语音信息，如果音频信息不包含语音信息，那么确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境。进一步的，如果音频信息包含语音信息，进一步统计该语音信息的音量，如果该语音信息的音量低于预设的音量阈值，则确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境。进一步的，如果音频信息包含语音信息并且该语音信息的音量达到预设的音量阈值，那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息，如果是唱歌(或戏剧)产生的语音信息，那么确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境，如果是说话产生的语音信息，那么确定当前录制环境有正在进行言语输出的用户，当前录制环境为第一环境。

作为另一种实施方式，处理器40在基于音频信息的参数信息确定当前录制环境的方面，用于：确定当前音频信息的信噪比；如果当前音频信息的信噪比大于阈值，则确定当前录制环境为第一环境；如果当前音频信息的信噪比小于阈值，则确定当前录制环境为第二环境。

作为一种优选实施方式，移动终端包括麦克风阵列30，该麦克风阵列30包括多个安装位置不同的麦克风，其中，摄像头20所在的侧面上设置有至少一个麦克风，移动终端的至少一个其他侧面上设置有麦克风，移动终端还包括显示屏50，如图5所示。

在移动终端包括麦克风阵列30的情况下，作为一种实施方式，处理器40在通过移动终端的麦克风获得音频信息的方面，用于：获得第一侧面上麦克风采集的音频信息，获得第二侧面上麦克风采集的音频信息，利用位于第二侧面的麦克风采集的音频信息对位于第一侧面的麦克风采集的音频信息进行降噪处理，获得经过降噪处理后的音频信息。其中，第一侧面是当前进行图像采集的摄像头所在的侧面，第二侧面是除第一侧面之外设置有麦克风的侧面。

在移动终端包括麦克风阵列30的情况下，作为另一种实施方式，处理器40在通过移动终端的麦克风获得音频信息的方面，用于：通过麦克风阵列30获得目标用户的音频信息，其中，目标用户为能够通过移动终端的摄像头20进行图像采集且图像显示在移动终端的显示屏50内的用户。

根据本公开实施例，处理器40例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器40还可以包括用于缓存用途的板载存储器。处理器40可以是用于执行参考图1～图2描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

本发明还公开应用于移动终端的音频文件录制方法。

参见图6，图6为本申请公开的一种移动终端的音频文件录制方法的流程图。该方法包括：

步骤S61：获得指示开始录制音频的第一指令。

步骤S62：响应第一指令，进入音频录制模式。

其中，该第一指令可以通过按下移动终端的物理按键产生，可以通过按下移动终端显示的虚拟按键产生，也可以利用语音采集模块采集用户的语音输入，通过识别用户的语音输入产生触发指令。移动终端响应获得的第一指令进入音频录制模式。

步骤S63：在音频录制模式下，通过移动终端的麦克风获得音频信息。

步骤S64：调用语音识别引擎，基于语音识别引擎对音频信息进行实时处理，以使得基于音频信息同步生成字幕信息。

移动终端调用语音识别引擎，在麦克风采集音频信息的过程中，实时对音频信息进行处理，得到对应的字幕信息，也就是基于音频信息同步生成字幕信息。可以理解，本公开实施例中的基于音频信息同步生成字幕信息可以包括在接收音频信息的同时，对音频信息进行处理同步生成字幕信息，即，生成字幕信息的动作与接收音频信息的动作是同步进行的。但是，本公开实施例不限制字幕信息生成的时间与音频信息完全地同步，例如，由于需要对音频信息进行实时处理，则生成字幕信息的时间可以稍晚于接收到相应音频信息的时间。步骤S65：获得指示结束录制音频的第二指令。

步骤S66：响应第二指令，退出音频录制模式。

其中，该第二指令可以通过按下移动终端的物理按键产生，可以通过按下移动终端显示的虚拟按键产生，也可以利用语音采集模块采集用户的语音输入，通过识别用户的语音输入产生触发指令。移动终端响应获得的第二指令退出音频录制模式，也就是结束录制音频。

步骤S67：将在音频录制模式下，由音频信息构成的音频流以及由字幕信息构成的字幕流合成为第一音频文件，以使得在播放第一音频文件时，同步输出音频流和字幕流。

也就是，将从获得第一指令开始到获得第二指令结束的过程中，通过麦克风获得的音频信息构成的音频流、以及通过语音识别引擎获得的字幕信息构成的字幕流合成为音频文件(记为第一音频文件)。在播放第一音频文件时，该第一音频文件包含的音频流和字幕流被同步输出。

本申请公开的音频文件录制方法，移动终端在录制音频的过程中，通过语音识别引擎对音频信息进行实时处理，从而基于音频信息同步生成字幕信息，移动终端在退出音频录制模式后，即可基于音频流和字幕流生成音频文件，从而快捷地制作完成配置有字幕的音频文件。

作为一种实施方式，基于语音识别引擎对音频信息进行实时处理采用如下方式，具体包括：基于音频信息的参数信息确定当前录制环境；基于当前录制环境为第一环境的结果，将当前的音频信息同步转换为字幕信息；基于当前录制环境为第二环境的结果，暂停将音频信息同步转换为字幕信息的操作，直至获得表明当前录制环境为第一环境的结果。具体的实施方式可以参见前文中关于图2的说明。

可选的，将第一环境配置为包括至少有一个用户在进行言语输出的环境，将第二环境配置为包括仅存在背景音的环境。其中，用户在进行言语输出是指该用户在说话。

作为一种方式，基于音频信息的参数信息确定当前录制环境，包括：

作为另一种方式，基于音频信息的参数信息确定当前录制环境，包括：

确定当前音频信息的信噪比；

移动终端在音频录制模式下，如果通过麦克风获得的音频信息的信噪比大于阈值，表明当前录制环境较为安静，处于该录制环境中的用户说话时能够清楚地采集到该用户的声音信号，因此将当前录制环境确定为第一环境，通过语音识别引擎对当前的音频信息进行实时处理，将当前的音频信息同步转换为字幕信息。如果通过麦克风获得的音频信息的信噪比小于阈值，表明当前录制环境较为嘈杂，处于该录制环境中的用户说话时很难清楚地采集到该用户的声音信号，因此将当前录制环境确定为第二环境，暂停通过语音识别引擎对当前的音频信息进行实时处理。

作为一种优选方案，移动终端包括麦克风阵列，该麦克风阵列包括多个麦克风，多个麦克风布置于移动终端的至少两个侧面上。

在本申请上述公开的音频文件录制方法中，通过移动终端的麦克风获得音频信息，可以采用如下方式：

通过麦克风阵列获得目标用户的音频信息。其中，目标用户为指定的用户。

实施中，通过麦克风阵列对目标用户进行定位，根据目标用户的位置以及麦克风阵列中麦克风的安装位置调整各个麦克风的增益，实现对目标用户的追踪，以便采集该目标用户的音频信息。

另外，在本申请上述公开的音频文件录制方法中，字幕流还可以携带字幕信息的显示配置信息。其中，字幕信息的显示配置信息包括字幕信息的显示位置和/或字幕信息的动态显示模式。

另外，字幕流中除了通过语音识别引擎产生的字幕信息之外，还可以包括：根据语音信息的提供者的状态确定的辅助信息。其中，辅助信息包括但不限于图片、表情符号。实施中，可以根据语音信息确定其提供者的情绪状态。

本申请还公开一种移动终端，其结构如图7所示，包括输入接口50、麦克风601和处理器70。

输入接口50用于采集输入指令。

处理器70用于：响应指示开始录制音频的第一指令，进入音频录制模式；在音频录制模式下，通过麦克风601获得音频信息；调用语音识别引擎，基于语音识别引擎对音频信息进行实时处理，以使得基于音频信息同步生成字幕信息；响应指示结束录制音频的第二指令，退出音频录制模式；将在音频录制模式下，由音频信息构成的音频流以及由字幕信息构成的字幕流合成为第一音频文件，以使得在播放第一音频文件时，同步输出音频流和字幕流。

本申请公开的移动终端在录制音频的过程中，通过语音识别引擎对音频信息进行实时处理，从而基于音频信息同步生成字幕信息，移动终端在退出音频录制模式后，即可基于音频流和字幕流生成音频文件，从而快捷地制作完成配置有字幕的音频文件。

作为一种实施方式，处理器70在基于语音识别引擎对音频信息进行实时处理的方面，用于：基于音频信息的参数信息确定当前录制环境；基于当前录制环境为第一环境的结果，将当前的音频信息同步转换为字幕信息；基于当前录制环境为第二环境的结果，暂停将音频信息同步转换为字幕信息的操作，直至获得表明当前录制环境为第一环境的结果。

可选的，处理器70将第一环境配置为至少有一个用户在进行语言输出的环境，将第二环境配置为仅存在背景音的环境。

作为一种实施方式，处理器70在基于音频信息的参数信息确定当前录制环境的方面，用于：对通过麦克风获得的音频信息进行分析，确定音频信息中是否包含语音信息，如果音频信息不包含语音信息，那么确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境。进一步的，如果音频信息包含语音信息，那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息，如果是唱歌(或戏剧)产生的语音信息，那么确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境，如果是说话产生的语音信息，那么确定当前录制环境有正在进行言语输出的用户，当前录制环境为第一环境。

作为一种实施方式，处理器70在基于音频信息的参数信息确定当前录制环境的方面，用于：对通过麦克风获得的音频信息进行分析，确定音频信息中是否包含语音信息，如果音频信息不包含语音信息，那么确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境。进一步的，如果音频信息包含语音信息，进一步统计该语音信息的音量，如果该语音信息的音量低于预设的音量阈值，则确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境。进一步的，如果音频信息包含语音信息并且该语音信息的音量达到预设的音量阈值，那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息，如果是唱歌(或戏剧)产生的语音信息，那么确定当前录制环境没有正在进行言语输出的用户，当前录制环境为第二环境，如果是说话产生的语音信息，那么确定当前录制环境有正在进行言语输出的用户，当前录制环境为第一环境。

作为另一种实施方式，处理器70在基于音频信息的参数信息确定当前录制环境的方面，用于：确定当前音频信息的信噪比；如果当前音频信息的信噪比大于阈值，则确定当前录制环境为第一环境；如果当前音频信息的信噪比小于阈值，则确定当前录制环境为第二环境。

作为一种优选实施方式，移动终端包括麦克风阵列，该麦克风阵列包括多个麦克风，多个麦克风布置于移动终端的至少两个侧面上。

在移动终端包括麦克风阵列的情况下，作为一种实施方式，处理器70在通过移动终端的麦克风获得音频信息的方面，用于：通过麦克风阵列获得目标用户的音频信息。其中，目标用户为指定的用户。

处理器70例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器510还可以包括用于缓存用途的板载存储器。处理器510可以是用于执行参考图6描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。本发明的实施例在视频录制的时候启动语音识别，针对当前环境中语音进行识别并转换成字幕。该字幕同步与摄像头采集的图像、麦克风采集的语音保存形成最终的多媒体文件。本发明的实施例通过多个麦克风的采集以及声音降噪技术能够实现仅针对摄像头采集区域中的对象进行语音采集并通过语音识别引擎进行同步识别和转换。更进一步的，可以通过多麦克风定位的技术定位到摄像头采集区域中的某一个正在进行语音输出的用户并进行实时采集以及通过语言识别引擎进行针对该正在语音输出的用户进行识别和转换成字幕。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的移动终端而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种移动终端的视频文件录制方法，其特征在于，包括：

获得指示开始录制视频的第一指令；

响应所述第一指令，进入视频录制模式；

在所述视频录制模式下，通过所述移动终端的摄像头获得图像信息，通过所述移动终端的麦克风获得音频信息；

调用语音识别引擎，基于所述语音识别引擎对所述音频信息进行实时处理，以使得基于所述音频信息同步生成字幕信息；

获得指示结束录制视频的第二指令；

响应所述第二指令，退出所述视频录制模式；

将在所述视频录制模式下，由所述图像信息构成的图像流、由所述音频信息构成的音频流、以及由所述字幕信息构成的字幕流合成为第一视频文件，以使得在播放所述第一视频文件时，同步输出所述图像流、所述音频流和所述字幕流。
根据权利要求1所述的方法，其特征在于，所述基于所述语音识别引擎对所述音频信息进行实时处理，包括：

基于所述音频信息的参数信息确定当前录制环境；

基于当前录制环境为第一环境的结果，将当前的音频信息同步转换为字幕信息；

基于当前录制环境为第二环境的结果，暂停将音频信息同步转换为字幕信息的操作，直至获得表明当前录制环境为所述第一环境的结果。
根据权利要求2所述的方法，其特征在于，所述第一环境包括至少有一个用户在进行语言输出的环境，所述第二环境包括仅存在背景音的环境。
根据权利要求3所述的方法，其特征在于，所述基于所述音频信息的参数信息确定当前录制环境，包括：

确定当前音频信息的信噪比；

如果当前音频信息的信噪比大于阈值，则确定当前录制环境为所述第一环境；

如果当前音频信息的信噪比小于所述阈值，则确定当前录制环境为所述第二环境。
根据权利要求1所述的方法，其特征在于，所述移动终端包括麦克风阵列，所述麦克风阵列包括多个安装位置不同的麦克风，其中，所述摄像头所在的侧面上设置有至少一个麦克风，所述移动终端的至少一个其他侧面上设置有麦克风；

所述通过所述移动终端的麦克风获得音频信息，包括：通过所述麦克风阵列获得目标用户的音频信息，其中，所述目标用户为能够通过所述移动终端的摄像头进行图像采集且显示在所述移动终端的显示屏内的用户。
一种移动终端，其特征在于，包括输入接口、摄像头、麦克风和处理器；

所述输入接口用于采集输入指令；

所述处理器用于：响应指示开始录制视频的第一指令，进入视频录制模式；在所述视频录制模式下，通过所述移动终端的摄像头获得图像信息，通过所述移动终端的麦克风获得音频信息；调用语音识别引擎，基于所述语音识别引擎对所述音频信息进行实时处理，以使得基于所述音频信息同步生成字幕信息；响应指示结束录制视频的第二指令，退出所述视频录制模式；将在所述视频录制模式下，由所述图像信息构成的图像流、由所述音频信息构成的音频流、以及由所述字幕信息构成的字幕流合成为第一视频文件，以使得在播放所述第一视频文件时，同步输出所述图像流、所述音频流和所述字幕流。
根据权利要求6所述的移动终端，其特征在于，所述处理器在基于所述语音识别引擎对所述音频信息进行实时处理的方面，用于：

基于所述音频信息的参数信息确定当前录制环境；基于当前录制环境为第一环境的结果，将当前的音频信息同步转换为字幕信息；基于当前录制环境为第二环境的结果，暂停将音频信息同步转换为字幕信息的操作，直至获得表明当前录制环境为所述第一环境的结果。
根据权利要求7所述的移动终端，其特征在于，所述处理器将所述第一环境配置为包括至少有一个用户在进行语言输出的环境，将所述第二环境配置为包括仅存在背景音的环境。
根据权利要求8所述的移动终端，其特征在于，所述处理器在基于所述音频信息的参数信息确定当前录制环境的方面，用于：

确定当前音频信息的信噪比；如果当前音频信息的信噪比大于阈值，则确定当前录制环境为所述第一环境；如果当前音频信息的信噪比小于所述阈值，则确定当前录制环境为所述第二环境。
根据权利要求6所述的移动终端，其特征在于，所述移动终端包括麦克风阵列，所述麦克风阵列包括多个安装位置不同的麦克风，其中，所述摄像头所在的侧面上设置有至少一个麦克风，所述移动终端的至少一个其他侧面上设置有麦克风；所述移动终端还包括显示屏；

所述处理器在通过所述移动终端的麦克风获得音频信息的方面，用于：通过所述麦克风阵列获得目标用户的音频信息，其中，所述目标用户为能够通过所述移动终端的摄像头进行图像采集且显示在所述移动终端的显示屏内的用户。
一种移动终端的音频文件录制方法，其特征在于，包括：

获得指示开始录制音频的第一指令；

响应所述第一指令，进入音频录制模式；

在所述音频录制模式下，通过所述移动终端的麦克风获得音频信息；

调用语音识别引擎，基于所述语音识别引擎对所述音频信息进行实时处理，以使得基于所述音频信息同步生成字幕信息；

获得指示结束录制音频的第二指令；

响应所述第二指令，退出所述音频录制模式；

将在所述音频录制模式下，由所述音频信息构成的音频流以及由所述字幕信息构成的字幕流合成为第一音频文件，以使得在播放所述第一音频文件时，同步输出所述音频流和所述字幕流。
一种移动终端，其特征在于，包括输入接口、麦克风和处理器；

所述输入接口用于采集输入指令；

所述处理器用于：响应指示开始录制音频的第一指令，进入音频录制模式；在所述音频录制模式下，通过所述移动终端的麦克风获得音频信息；调用语音识别引擎，基于所述语音识别引擎对所述音频信息进行实时处理，以使得基于所述音频信息同步生成字幕信息；响应指示结束录制音频的第二指令，退出所述音频录制模式；将在所述音频录制模式下，由所述音频信息构成的音频流以及由所述字幕信息构成的字幕流合成为第一音频文件，以使得在播放所述第一音频文件时，同步输出所述音频流和所述字幕流。