WO2023030270A1

WO2023030270A1 - 音视频处理方法、装置和电子设备

Info

Publication number: WO2023030270A1
Application number: PCT/CN2022/115582
Authority: WO
Inventors: 高桦
Original assignee: 维沃移动通信（杭州）有限公司
Priority date: 2021-08-31
Filing date: 2022-08-29
Publication date: 2023-03-09
Also published as: CN113727140A

Abstract

本申请公开了一种音视频处理方法和电子设备，属于电子设备领域。在本申请实施例中，能够在播放第一音视频的情况下，接收用户的第一输入，以对应第一音视频播放进度的第一时刻显示通过拍摄或播放得到的第二音视频，然后将第二音视频合成到第一音视频中，生成合成音视频。

Description

音视频处理方法、装置和电子设备

相关申请的交叉引用

本申请主张2021年8月31日在中国提交的中国专利申请号202111017334.6的优先权，其全部内容通过引用包含于此。

技术领域

本申请属于电子设备技术领域，具体涉及一种音视频处理方法、装置和电子设备。

背景技术

用户常常想要对音视频文件进行剪辑处理，以剪辑出更有趣味性的音视频，但剪辑处理操作都较为繁琐。

例如用户通过手机等电子设备录制音视频、视频博客(video blog或video log，vlog)等来记录生活片段时，往往采用的是手机具备的相机应用、短视频应用或美化拍摄应用，但录制的音视频内容常常不能完全符合用户的拍摄期望，因此需要再次编辑。然而当前录制类应用(包括上述相机应用、短视频应用或美化拍摄应用等)的编辑能力有限，而音视频编辑类应用的操作难度和复杂度又较高，因此导致相关技术对音视频素材处理缺乏便捷性。

发明内容

本申请实施例的目的是提供一种音视频处理方法、装置和电子设备，能够解决对音视频素材处理缺乏便捷性的问题。

第一方面，本申请实施例提供了一种音视频处理方法，该方法包括：

在播放第一音视频的情况下，接收用户的第一输入；

响应于所述第一输入，在第一音视频播放进度对应的第一时刻显示第二音视频，第二音视频通过录制或播放得到；

在第一音视频中合成第二音视频，生成合成音视频。

第二方面，本申请实施例提供了一种音视频处理的装置，该装置包括：

第一接收模块，用于在播放第一音视频的情况下，接收用户的第一输入；

第一显示模块，用于响应于第一输入，在第一音视频播放进度对应的第一时刻显示第二音视频，第二音视频通过录制或播放得到；

生成模块，用于生成合成音视频，合成音视频为在第一音视频中合成第二音视频得到。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，能够在播放第一音视频的情况下，接收用户的第一输入，以对应第一音视频播放进度的第一时刻显示通过录制或播放得到的第二音视频，然后将第二音视频合成到第一音视频中，生成合成音视频。这样可以直接在原音视频的基础上选择合适的播放进度，通过电子设备的录制或播放功能获取第二音视频来与原音视频合成，进而得到合成音视频，操作便捷，高效。

附图说明

图1是本申请实施例提供的一种音视频处理方法的流程示意图；

图2是本申请一个具体示例中界面跳转的显示示意图；

图3是本申请一个具体示例中播放界面的显示示意图；

图4是本申请另一个具体示例中界面跳转的显示示意图；

图5是本申请另一个具体示例中电子设备系统桌面的显示示意图；

图6是本申请再一个具体示例中拍摄界面的显示示意图；

图7是本申请再一个具体示例中界面跳转的显示示意图；

图8是本申请实施例提供的一种音视频处理装置结构示意图；

图9是本申请本申请实施例提供的一种电子设备结构示意图；

图10是实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

得益于短视频、流媒体等内容的丰富，用户进行趣味视频剪辑、编辑的需求和想法也更为丰富。相较于电脑(personal computer，PC)端多任务处理以及鼠标操作的精准灵活性，要在手机等移动端上完成视频的合成，一般需要借助第三方软件程序，进行较为复杂的处理，例如，通过手动拖拽视频进度条调整视频编辑时间。因此，导致用户无法便捷地得到想要的合成音视频。

为此，本申请实施例提供了一种音视频处理方法和电子设备，以解决上述至少一个技术问题。其中，该音视频处理方法可以在电子设备上执行，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，本申请实施例不作具体限定。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音视频处理方法进行详细地说明。

图1示出了本申请实施例提供的音视频处理方法的流程示意图。如图1所示，该方法包括步骤S101～S103：

S101.在播放第一音视频的情况下，接收用户的第一输入。

本文中的音视频可以是视频，也可以是音频，下同。

第一音视频可以来自电子设备本地，也可以是通过互联网下载或缓存的音视频，本实施例不做限定。

第一音视频播放时，可以在电子设备的全部屏幕或部分屏幕上显示。

示例性的，第一输入可以是用户对屏幕的点击输入、或者是用户输入的语音指令，或者是用户输入的特定手势或隔空手势，具体的可以根据实际使用需求确定，本实施例对此不做限定。

点击输入可以为单击输入、双击输入或任意次数的点击输入，还可以为长按输入或短按输入。特定手势可以是轻点手势、双轻点手势、滑动手势、拖动手势、缩放手势、转动手势中的任意一种。

S102.响应于第一输入，在第一音视频播放进度对应的第一时刻显示第二音视频，其中，第二音视频通过录制或播放得到。

第一音视频播放时，可以在电子设备的屏幕上显示第一音视频的画面和播放进度信息，进度信息可以显示为进度条和/或进度时间。

在第一音视频播放进度对应的第一时刻，响应于第一输入，显示第二音视频。其中，第一时刻可以是用户播放第一音视频过程中的一个进度时刻，也可以是通过手动拖动第一视频进度条，或者手动输入播放时刻的方式来确定。

第二音视频可以是通过电子设备具有的录制功能得到的视频，或者也可以是通过电子设备具有的播放功能得到的视频。

示例性地，在显示第二音视频的情况下，可以暂停播放第一音视频，也可以同时持续播放第一音视频。

并且，可以在电子设备的全部屏幕显示第二音视频，也可以在不同的屏幕区域分别显示第一音视频和第二音视频。

示例性地，如果第二音视频为录制得到的音视频，则显示第二音视频时，可以显示的是第二音视频的录制画面、录制进度以及录制相关的功能标识等。

如果第二音视频为播放得到的音视频，则显示第二音视频时，可以显示的是第二音视频的播放画面、进度信息以及播放相关的功能标识等等。

S103.在第一音视频中合成第二音视频，生成合成音视频。

将步骤S102显示的第二音视频合成到第一音视频中，生成合成音视频，生成的合成音视频可以显示在电子设备的屏幕上，也可以直接在后台保存到电子设备本地，本实施例不做限定。

其中，合成可以是第二音视频插入到第一音视频中，也可以是第二音视频替换第一音视频中的部分片段。

可以理解的是，第二音视频也可以为图片，相当于第二音视频仅有一帧图像。

可以理解的是，通过本申请实施例上述方法，可以在一段视频中合成另一段视频，可以在一段视频中合成一段音频或者在一段音频中合成一段视频，也可以在一段音频中合成另一段音频。

通过本申请实施例的上述方法，能够在播放第一音视频的情况下，接收用户的第一输入，以对应第一音视频播放进度的第一时刻显示通过录制或播放得到的第二音视频，然后将第二音视频合成到第一音视频中，生成合成音视频。这样可以直接在原音视频的基础上选择合适的播放进度对应的时刻，通过电子设备的拍摄或播放功能获取第二音视频来与原音视频合成，进而得到合成音视频，操作便捷，高效。

示例性地，本申请实施例的一个具体应用场景中，用户想在第一视频中合成其他视频片段，则可以在观看第一视频到某一进度时间(或手动拖动进度到某一进度时间)时，触发电子设备的拍摄功能拍摄一段音视频(第二音视频)，并在拍摄结束的同时生成合成音视频。具体的，下面结合图2对本示例进行说明。

图2中的(2a)所示的是一个互联网上的短视频(播放视频在30分钟以内)的播放界面。以该短视频(也即第一视频)的剪辑为例，本申请实施例中步骤S101在播放第一音视频的情况下，接收用户的第一输入，具体可以为如下方式：

在图2中的(2a)所示的电子设备200播放界面201，显示有按钮控件(Button)202或悬浮窗功能键。在播放到第一视频播放进度对应的第一时刻时，通过点击该按钮控件202或悬浮窗，可以跳转到图2中(2b)所示的视频剪辑界面203，以执行步骤S102。

其中，在跳转到视频剪辑界面203之前，由于该第一视频是互联网上的流媒体文件，因此可以通过弹窗方式提示用户将所播放第一视频进行下载，若允许下载，则会开启视频缓存，并进入后续S102～S103的视频处理步骤。

可以理解的是，若互联网的第一视频不允许被下载(如版权限制不允许用户下载)或者该视频无法下载，则可以通过弹窗提示无法跳转到编辑界面。

在其他示例中，如果第一视频为长视频，则可以在如图3所示的该长视频播放界面301，通过显示的快捷按键触发电子设备300跳转到视频剪辑界面(图中未标识)，或者在显示该长视频播放界面301的情况下通过长按电子设备300的任一个音量键302，跳转到视频剪辑界面。其中，该长视频可以是互联网的流媒体文件，也可以是电子设备本地的视频文件。

再次结合图2，在跳转到视频剪辑界203后，在执行步骤S102响应于第一输入，在第一音视频播放进度对应的第一时刻显示第二音视频之前，用户可以先通过视频剪辑界面上的控件204或菜单，选择视频合成的方式。其中，合成的方式可以包括插入、自动替换和自由替换中的一种或多种。

插入方式，指的是将第二视频插入到第一视频中的某一位置，将第二视频和第一视频拼接起来。

自动替换方式，指的是在录制第二视频结束的同时，自动将第二视频合成到第一视频中，且替换掉第一视频中相同时长的片段。

自由替换方式，指的是在录制第二视频之前或之后，输入任意目标时长(该时长不大于第一视频的总播放时长)，在将第二视频合成到第一视频中时，替换掉第一视频中对应该目标时长的片段，第二视频的时长可以等于该目标时长，也可以不等于该目标时长。

示例性地，在确定合成方式之后，步骤S102响应于第一输入，在第一音视频播放进度对应的第一时刻显示第二音视频，具体可以包括：

响应于第一输入，当在第一显示区域205播放第一音视频至第一时刻的情况下，在第二显示区域206显示第二音视频。

本步骤中，响应于第一输入，可以在电子设备上的第一显示区域和第二显示区域分别显示第一视频和第二视频。例如，在图2中(2a)所示的播放界面201，第一视频的显示区域为整个屏幕，响应于第一输入，电子设备进行分屏显示，如图2中(2b)所示，同时在电子设备200的第一显示区域205和第二显示区域206分别显示第一视频的播放画面和第二视频的录制画面。

这样通过分屏显示播放和录制画面，能够利于用户更为直观的了解第一视频和第二视频的剪辑信息，例如直观了解第一视频的插入点(如上述第一时刻的进度位置)以及第二视频的拍摄时长等，方便用户对比两个视频的剪辑信息，进行更加便捷高效的剪辑处理。

为了提高对音视频合成操作的便捷性，并直观了解第二音视频获取过程中的画面、进度等信息，示例性地，在通过步骤S101接收到第一输入后，步骤S102响应于第一输入，在第一音视频播放进度对应的第一时刻显示第二音视频，具体可以包括：

S1021.响应于第一输入，在第一音视频播放进度对应的第一时刻，开始动态显示目标音视频的画面。

本步骤中，目标音视频为录制或播放的音视频。

如果通过录制得到第二音视频，则响应于第一输入，在第一音视频播放进度对应的第一时刻，开始显示目标音视频的录制画面。例如图2中(2b)所示，在第二显示区域206动态显示目标视频的录制画面，方便用户根据录制画面调整电子设备的录制视角等，录制到需要的所有视频画面后，结束录制。

应理解，如果是目标音频的录制画面，则录制画面可以包括录制状态(录制、暂停录制或停止录制)按钮、录制进度(可以通过进度条或录制时间等方式表示)等。目标音频的录制过程中，录制进度随时间变化，录制画面可以动态显示该录制进度的变化。

如果通过播放得到第二音视频，则响应于第一输入，在第一音视频播放进度对应的第一时刻，开始显示目标音视频的播放画面。目标音视频可以来自电子设备的音视频数据库，当播放完用户需要的所有视频画面后，结束播放。

应理解，如果是目标音频的播放画面，则播放画面可以包括播放状态(播放、暂停播放或停止播放)按钮、播放进度(可以通过进度条或播放时间等方式表示)等。目标音频的播放过程中，播放进度随时间变化，播放画面可以动态显示该播放进度的变化。

S1022.接收用户的第二输入。

示例性地，第二输入可以是用户对屏幕的点击输入、或者是用户输入的语音指令，或者是用户输入的特定手势或隔空手势，具体的可以根据实际使用需求确定，本实施例对此不做限定。

S1023.响应于第二输入，停止动态显示目标音视频的画面，得到第二音视频。

用户通过第二输入，停止动态显示目标音视频的画面，也即如果动态显示的录制画面，则响应于第二输入，结束录制，停止录制画面的动态显示，录制的结果作为第二音视频；如果是动态显示的播放画面，则响应于第二输入，结束播放，停止播放画面的动态显示，从目标音视频中播放的数据作为第二音视频。

为满足用户多样化的合成需求，本申请实施例可以通过插入、等时长的自动替换、以及可以不等时长的自由替换等方式，完成合成。

示例性地，在得到满足用户需求的第二视频后，如果用户预先选择的合成方式为插入，则步骤S103在所述第一音视频中合成所述第二音视频，生成合成音视频，具体可以包括：

将第二音视频拼接在第一音视频中对应第一时刻的位置，生成合成音视频。

如图2中(2b)所示，用户可以通过点击视频剪辑界面203上的功能按钮207，结束第二视频的录制，并将录制得到的第二视频直接插入到第一视频中对应第一时刻的位置，进行视频的拼接，生成合成视频。

本示例中，在插入模式下，响应于第一输入，在显示第二视频时，第一视频可以显示为暂停状态。当第二视频完成拍摄后，直接在第一视频暂定的进度位置插入第二视频，生成合成音视频。例如，用户追剧时，想要与喜欢的主角或明星合拍视频，则可以在播放该主角或明星的视频画面节点输入第一输入，拍摄包含用户自身的第二视频进行合成。

这样在录制结束的同时，电子设备自动将录制得到的第二视频按照用户选择的插入点(即第一视频中第一时刻对应的位置)完成拼接，用户不必过多操作，简便快捷。并且对于用户剪辑自己录制的视频时，可以灵活的根据自身灵感进行视频画面的补拍、续拍等，以便捷的丰富、完善用户拍摄的视频内容，提升视频拍摄的质量。并且不必通过第三方视频编辑软件的辅助即可完成剪辑，节省手机内存占用。

可以理解的，录制的第二视频也可以是一张图像，相当于第二视频短到只有一帧画面。

可选地，本示例中，在视频剪辑界面上还可以设有第一标识208，第一标识208用于跳转到电子设备的素材存储区(音视频数据库)，如相册209。用户可以通过在相册209中选择视频210或图片文件作为第二视频，插入到第一视频中对应第一时刻的位置，完成视频的拼接合成。

示例性地，在得到满足用户需求的第二视频后，如果用户选择的合成方式为自动替换，则步骤S103在所述第一音视频中合成所述第二音视频，生成合成音视频，具体可以包括：

将第二音视频替换第一音视频中的目标片段，生成合成音视频。其中，该目标片段可以为第一音视频中第一时刻(插入起始点)至第二时刻(插入结束点)的片段，也可以是通过手动输入(如输入片段的起止时刻或拖动进度条)确定的，但该目标片段的时长等于第二视频的时长，这样可以保证合成后的音视频总时长不变。

为简化对等时长自动替换模式的操作，可选地，如果用户预先选择自动替换方式，则在得到第二音视频之前，也可以根据手动输入的目标片段时长自动关联得到第二音视频。例如，在得到第二音视频之前，步骤S102响应于第一输入，在第一音视频播放进度对应的第一时刻显示第二音视频，具体可以包括：

S1024.响应于第一输入，在第一音视频播放进度对应的第一时刻，开始动态显示目标音视频的画面，目标音视频为录制或播放的音视频；

S1025.在预设目标时长后，停止动态显示目标音视频的画面，得到第二音视频。

预设目标时长为自动替换方式下用户确定的目标片段的时长，该目标时长可以是手动输入目标片段的起止时刻或者拖动进度条确定起止时刻确定。

在录制或播放的画面时长达到预设目标时长后，自动停止，得到第二音视频。

对应的，步骤S103具体可以包括：

将第二音视频替换所述第一音视频中的第一片段，生成合成音视频，其中，第一片段即用户确定的目标片段，通过手动输入确定起始时刻，进而确定第一片段的时长，该时长等于预设目标时长，以在合成过程中，自动实现等时长的片段替换。

示例性地，在得到满足用户需求的第二视频后，如果用户预先选择的合成方式为自由替换，则步骤S103在第一音视频中合成所述第二音视频，生成合成音视频，具体可以包括步骤S301～S303：

S301.接收第三输入；

S302.响应于第三输入，确定所述第一音视频中目标片段的时长。

第三输入用于输入目标时长，目标时长可以是在视频播放进度条上确定的起止时刻，也可以是时间段，其中，进度条上的起止时刻可以是例如起始时刻“00::05:00”，终止时刻“00:10:00”的形式，表示从第一视频的第一时刻00::05:00至第二时刻00:10:00之间的5分钟时长片段；时间段可以是例如“5min”或“300s”的形式，表示从第一视频的第一时刻起始后的5分钟。

在自由替换模式下，第三输入确定的目标时长可以任意设置，但不能超过第一视频的总时长。

S303.将第二音视频替换第一音视频中的目标片段，生成合成音视频。

在得到第二音视频的时刻同时将第二视频替换第一视频中的目标片段，其中，该目标片段为第一音视频中目标时长对应的片段。

本申请实施例中，在自由替换模式下，通过上述步骤S301～S303，可以先录制或播放得到任意时长的第二视频，然后通过第三输入确定第一视频中目标片段的目标时长，以用第二视频替换掉第一视频中的该目标片段，这样替换的目标片段可以与第二视频时长相等，也可以不相等。例如通过5分钟的第二视频，替换第一视频中自第一时刻起，目标为10分钟的目标片段。这样视频剪辑操作更加自由灵活，满足用户的多样化的需求。

应理解，上述步骤S301～S302也可以在步骤S102之前执行，先确定目标片段的时长，再通过步骤S102得到第二音视频，然后通过S103将第二音视频替换第一音视频中的目标片段，也可以实现不等时长片段的自由替换。

为便于启动音视频的合成操作，示例性地，本申请实施例的另一个应用场景中，第一视频可以是来自电子设备本地存储的视频，在步骤S101之前，方法还可以包括:

S1011.在显示录制界面的情况下，接收用户对录制界面中目标标识的第六输入。

本示例中，如图4中(4a)所示，录制界面401可以设有第一标识402和第二标识403，第一标识402可以是用于进入电子设备相册的功能标识，第二标识403可以是用于触发跳转视频剪辑界面的功能标识。

目标标识为第一标识或第二标识。

S1011.在目标标识为第一标识的情况下，响应于第六输入，显示候选音视频；以及

在目标标识为第二标识的情况下，响应于第六输入，显示目标剪辑界面。

结合图所示的视频剪辑的例子，对本示例进行说明。

如图4中(4a)所示，如果目标标识为第一标识402，则第六输入为对第一标识402的输入，响应于第六输入，可以进入图4中(4b)所示的电子设备的相册404，显示若干候选音视频405，候选音视频可以包括音频和视频。这样可以从候选音视频405中选取目标文件406作为第一音视频，执行步骤S101～S103。

如果目标标识为第二标识403，则第六输入为对第二标识403的输入，则可以跳转到如图2中(2b)所示的视频剪辑界面203，可以通过视频剪辑界面203设置的用于进入电子设备相册的功能标识208，进入相册选取目标文件作为第一视频。

本申请实施例中通过录制界面的标识，能够快速选择并播放第一音视频以启动音视频剪辑，或者直接进入视频剪辑界面，选择第一音视频并录制第二音视频，实现快速剪辑。

为便于启动音视频的合成操作，可选的，还可以在步骤S101之前，如图5所示，直接通过电子设备500系统桌面上的相册功能标识501，进入电子设备的相册中，选取目标文件作为第一视频，执行步骤S101～S102的播放和剪辑处理。

为提高音视频合成操作的灵活性，可选地，在选取第一视频后执行步骤S101的过程中，在第一视频播放到第一时刻、或者手动拖动进度条到第一时刻、或者手动输入播放时间跳播到第一时刻的情况下，接收第一输入后，通过步骤S102录制第二音视频的过程中，可以复用电子设备的影像录制能力(如滤镜功能、广角/微距功能、重新拍摄功能等)和视频编辑能力。

例如，在执行步骤S102过程中，参考图6，在显示第二视频的录制界面601的情况下，通过录制界面上的滤镜功能、广角/微距功能等调整第一视频的录制画面。并且录制界面601上还可以设有确认录制标识602和取消录制标识603。确认录制标识602用于将当前录制的视频确定为第二视频，并可以被合成到第一视频中；取消录制标识603用于自动放弃当前录制的视频，并重新拍摄第二视频。

这样通过复用电子设备的影像录制能力，得到符合用户需求的第二视频。

并且如图6所示，在拍摄界面601上还可以显示多个第一视频的视频片段缩略图，如插入起始点(如上述第一时刻)之前的视频片段缩略图604和插入起始点/结束点之后的视频片段缩略图605以及第二视频的预览缩略图606。

这样可以通过手动点击不同的缩略图，选取第一视频不同的片段进行显示，以方便更有针对性的进行具体片段的再编辑。如在录制第二视频的过程中，点击插入起始点(第一时刻)之前的视频片段缩略图604，在第一显示区域播放第一视频中对应的该前一段视频片段，并通过相关剪辑功能(亮度功能、对比度功能、色彩功能等)对该片段再次编辑；或者点击视频片段缩略图605，在第一显示区域播放第一视频对应的该后一段片段，并通过相关剪辑功能对该片段再次编辑。

本申请实施例，通过复用录制影像能力和视频剪辑能力，能够直观的看到第一视频插入起始点和结束点前后的视频片段并进行再剪辑，并可以通过与录制中的第二视频的缩略图比较，便于用户直观、便捷的根据这三段视频判断合成后的视频效果，以随时调整。

本申请实施例在又一个应用场景中，如图7中(7a)所示，进入到视频剪辑界面701后，可以在视频剪辑界面701设置视频添加标识702，视频添加标识702是用于进入电子设备的相册的功能标识。对应的，在通过步骤S103在第一音视频中合成第二音视频，生成合成音视频之前，方法还可以包括：

S104.在通过录制得到第二音视频的情况下，接收用户的第四输入；以及

S105.响应第四输入，从目标音视频库中选取获取第三音视频。

第四输入可以是对视频添加标识702的点击输入，响应于第四输入，如图7中(7b)所示，进入电子设备的相册703，再次选取视频或图片等目标文件704作为第三音视频。

则步骤S103可以包括：

将第二音视频和第三音视频合成至第一音视频中，生成所述合成音视频。

这样在响应于第一输入，得到第二视频后，可以将第二音视频和第三音视频合成至第一音视频中，生成合成音视频，完成多素材的快捷合成。

可以理解，上述各示例中，第一视频的处理方式同样适用于对音频的处理，且上述各示例中，获取第二视频并合成视频的方式同样适用于获取音频和合成音频。

示例性地，在步骤S103中，还可以包括：

S1031.根据所述第二音视频，生成字幕信息；以及

S1032.将所述字幕信息关联所述第二音视频，并与所述第二音视频合成至所述第一音视频中，生成所述合成音视频。

在音视频合成时，第一视频可以是来自于影视剧片段等带有字幕信息的视频，或者第一视频插入的第二视频或第二音频有配置字幕信息的需要时，可以通过电子设备具有的语音识别转换功能，将用户拍摄的视频或音频中的语音信息转换为字幕信息，并在生成合成音视频时，将字幕信息关联第二音视频合成在第一音视频中，合成便捷的同时丰富信息的多样性，满足用户的多样化需求。

可选的，可以自动检测第一视频中的字幕信息的格式，并将第一音视频的字幕信息按照第一视频中的字幕信息格式进行显示，提高合成音视频的内容的一致性。

在其他示例中，步骤S102，响应于第一输入，在第一音视频播放进度对应的第一时刻显示第二音视频，其中，第二音视频可以是播放得到。

本示例中，响应于第一输入，可以进入电子设备的本地相册，选取一段视频(也即目标视频)跳转到播放界面，通过在该播放界面上手动调节播放起始点和结束点，也可以通过手动输入播放起始点和结束点，来确定第二视频，此时第二视频即该目标视频的一个片段。

在确定第二视频后，自动将该第二视频合成到第一视频中。合成可以是插入或替换的方式。

该示例可以通过对相册中的不同素材进行合成，丰富了音视频合成方式，且操作方便快捷。

需要说明的是，本申请实施例提供的音视频处理方法，执行主体可以为音视频处理装置，或者该音视频处理装置中的用于执行音视频处理方法的控制模块。本申请实施例中以音视频处理装置执行音视频处理方法为例，说明本申请实施例提供的音视频处理装置。

图8示出的是本申请实施例提供的音视频处理装置的结构示意图。如图所示，该装置包括：

第一接收模块801，用于在播放第一音视频的情况下，接收用户的第一输入；

第一显示模块802，用于响应于第一输入，在第一音视频播放进度对应的第一时刻显示第二音视频，第二音视频通过录制或播放得到；

生成模块803，用于生成合成音视频，合成音视频为在第一音视频中合成第二音视频得到。

其中，第一音视频可以来自电子设备本地，也可以是通过互联网下载或缓存的视频，本实施例不做限定。

合成可以是第二音视频插入到第一音视频中，也可以是第二音视频替换第一音视频中的部分片段。

可以理解的是，通过本申请实施例上述装置，可以在一段视频中合成另一段视频，可以在一段视频中合成一段音频或者在一段音频中合成一段视频，也可以在一段音频中合成另一段音频。

本申请实施例的装置，能够在播放第一音视频的情况下，接收用户的第一输入，以对应第一音视频播放进度的第一时刻显示通过录制或播放得到的第二音视频，然后将第二音视频合成到第一音视频中，生成合成音视频。这样可以直接在原音视频的基础上选择合适的播放进度对应的时刻，通过电子设备的录制或播放功能获取第二音视频来与原音视频合成，进而得到合成音视频，操作便捷，高效。

示例性的，第一显示模块8002具体可以用于：

响应于第一输入，当在第一显示区域播放第一音视频至第一时刻的情况下，在第二显示区域显示第二音视频。

例如，在图2中(2a)所示的播放界面201，第一视频的显示区域为整个屏幕，响应于第一输入，电子设备进行分屏显示，如图2中(2b)所示，同时在电子设备200的第一显示区域205和第二显示区域206分别显示第一视频的播放画面和第二视频的录制画面。这样通过分屏显示播放和录制画面，能够利于用户更为直观的了解第一视频和第二视频的剪辑信息，例如直观了解第一视频的插入点(如上述第一时刻的进度位置)以及第二视频的拍摄时长等，方便用户对比两个视频的剪辑信息，进行更加便捷高效的剪辑处理。

为了提高对音视频合成操作的便捷性，并直观了解第二音视频获取过程中的画面、进度等信息，可选的，第一显示模块802具体包括：

第一显示子模块8021，用于响应于所述第一输入，在所述第一音视频播放进度对应的第一时刻，开始动态显示目标音视频的画面，所述目标音视频为录制或播放的音视频；

第一接收子模块8022，用于接收用户的第二输入；

第一停止子模块8023，用于响应于所述第二输入，停止动态显示所述目标音视频的画面，得到所述第二音视频。

可选的，在插入模式下，生成模块803具体可以用于：

将第二音视频拼接在所述第一音视频中对应第一时刻的位置，生成合成音视频。

可选的，在等时长的自动替换模式下，生成模块803具体可以用于：

将第二音视频替换第一音视频中的第一片段，生成合成音视频，第一片段为第一音视频中第一时刻至第二时刻的片段，第一片段的时长等于第二音视频的时长。

为简化对等时长自动替换模式的操作，可选的，如果用户预先选择自动替换方式，则在得到第二音视频之前，也可以根据手动输入的目标片段时长自动关联得到第二音视频。例如，第一显示模块802具体可以包括：

第二显示子模块8024，用于响应于第一输入，在第一音视频播放进度对应的第一时刻，开始动态显示目标音视频的画面，目标音视频为录制或播放的音视频；

第二停止子模块8025.在预设目标时长后，停止动态显示目标音视频的画面，得到所述第二音视频。

对应的，生成模块803具体可以用于：

将第二音视频替换第一音视频中的第一片段，生成合成音视频，第一片段时长等于所述预设目标时长。

可选的，在用户预先选择的合成方式为自由替换的情况下，生成模块803具体可以包括：

第二接收子模块8031，用于接收第三输入；

第一确定子模块8032，用于响应于第三输入，确定第一音视频中目标片段的时长；

第一生成子模块8033，用于将第二音视频替换第一音视频中的目标片段，生成合成音视频。

本申请实施例中，在自由替换模式下，通过上述第二接收子模块8031和第一确定子模块8032，可以先录制或播放得到任意时长的第二视频，然后通过第三输入确定第一视频中目标片段的目标时长，以用第二视频替换掉第一视频中的该目标片段，这样替换的目标片段可以与第二视频时长相等，也可以不相等。例如通过5分钟的第二视频，替换第一视频中自第一时刻起，目标为10分钟的目标片段。这样视频剪辑操作更加自由灵活，满足用户的多样化的需求。

应理解，上述第二接收子模块8031和第一确定子模块8032执行的步骤也可以在获取第二音视频之前执行，先确定目标片段的时长，再通过第一显示模块802得到第二音视频，然后通过生成模块803将第二音视频替换第一音视频中的目标片段，也可以实现不等时长片段的自由替换。

为便于启动音视频的合成操作，示例性的，本申请实施例的另一个应用场景中，第一视频可以是来自电子设备本地存储的视频。装置还可以包括：

第二接收模块804，用于在显示录制界面的情况下，接收用户对录制界面中目标标识的第六输入。

目标标识为第一标识或第二标识。

第二显示模块805，用于在目标标识为第一标识的情况下，响应于第六输入，显示候选音视频；以及

为提高音视频合成操作的灵活性，可选的，第一显示模块802在响应于第一输入，在第一音视频播放进度对应的第一时刻显示第二音视频的过程中，

可以复用电子设备的影像录制能力(如滤镜功能、广角/微距功能、重新拍摄功能等)和视频编辑能力。

例如，参考图6，在显示第二视频的录制界面601的情况下，通过录制界面上的滤镜功能、广角/微距功能等调整第一视频的录制画面。并且录制界面601上还可以设有确认录制标识602和取消录制标识603。确认录制标识602用于将当前录制的视频确定为第二视频，并可以被合成到第一视频中；取消录制标识603用于自动放弃当前录制的视频，并重新拍摄第二视频。

可选的，为方便完成多素材的快捷合成，装置还可以包括：

第三接收模块806，用于在通过录制得到第二音视频的情况下，接收用户的第四输入；以及

获取模块807，用于响应第四输入，从目标音视频库中选取获取第三音视频。

对应的，生成模块803可以用于：

将所述第二音视频和第三音视频合成至第一音视频中，生成合成音视频。

可选的，生成模块803还可以包括：

第二生成子模块，用于根据所述第二音视频，生成字幕信息；以及

第三生成子模块，用于将所述字幕信息关联所述第二音视频，并与所述第二音视频合成至所述第一音视频中，生成所述合成音视频。

本申请实施例中的音视频处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音视频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音视频处理装置能够实现图1至图7的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图9所示，本申请实施例还提供一种电子设备900，包括处理器901，存储器902，存储在存储器902上并可在所述处理器901上运行的程序或指令，该程序或指令被处理器901执行时实现上述音视频处理装置方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，用户输入单元1007用于在播放第一音视频的情况下，接收用户的第一输入；

处理器1010，用于响应于所述第一输入，在所述第一音视频播放进度对应的第一时刻显示第二音视频，所述第二音视频为通过拍摄或播放得到；

在所述第一音视频中合成所述第二音视频，生成合成音视频。

本申请实施例的电子设备，能够在播放第一音视频的情况下，接收用户的第一输入，以对应第一音视频播放进度的第一时刻显示通过拍摄或播放得到的第二音视频，然后将第二音视频合成到第一音视频中，生成合成音视频。这样可以直接在原音视频的基础上选择合适的播放进度对应的时刻，通过电子设备的拍摄或播放功能获取第二音视频来与原音视频合成，进而得到合成音视频，操作便捷，高效。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风10042，图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1009可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

一种音视频处理方法，所述方法包括：

在播放第一音视频的情况下，接收用户的第一输入；

响应于所述第一输入，在所述第一音视频播放进度对应的第一时刻显示第二音视频，所述第二音视频通过录制或播放得到；

在所述第一音视频中合成所述第二音视频，生成合成音视频。
根据权利要求1所述的方法，其中，所述响应于所述第一输入，在所述第一音视频播放进度对应的第一时刻显示第二音视频，包括：

响应于所述第一输入，在所述第一音视频播放进度对应的第一时刻，开始动态显示目标音视频的画面，所述目标音视频为录制或播放的音视频；

接收用户的第二输入；

响应于所述第二输入，停止动态显示所述目标音视频的画面，得到所述第二音视频。
根据权利要求2所述的方法，其中，所述在所述第一音视频中合成所述第二音视频，生成合成音视频，包括：

将所述第二音视频拼接在所述第一音视频中对应所述第一时刻的位置，生成合成音视频。
根据权利要求2所述的方法，其中，所述在所述第一音视频中合成所述第二音视频，生成合成音视频，包括：

将所述第二音视频替换所述第一音视频中的第一片段，生成合成音视频，所述第一片段为第一音视频中所述第一时刻至第二时刻的片段，所述第一片段的时长等于所述第二音视频的时长。
根据权利要求1所述的方法，其中，所述响应于所述第一输入，在所述第一音视频播放进度对应的第一时刻显示第二音视频，包括：

响应于所述第一输入，在所述第一音视频播放进度对应的第一时刻，开始动态显示目标音视频的画面，所述目标音视频为录制或播放的音视频；

在预设目标时长后，停止动态显示所述目标音视频的画面，得到所述第二音视频；

所述在所述第一音视频中合成所述第二音视频，生成合成音视频，包括：

将所述第二音视频替换所述第一音视频中的第一片段，生成合成音视频，所述第一片段时长等于所述预设目标时长。
根据权利要求1所述的方法，其中，所述在所述第一音视频中合成所述第二音视频，生成合成音视频，包括：

接收第三输入；

响应于所述第三输入，确定所述第一音视频中目标片段的时长；

将所述第二音视频替换所述第一音视频中的所述目标片段，生成合成音视频。
根据权利要求1-4任一项所述的方法，其中，所述响应于所述第一输入，在所述第一音视频播放进度对应的第一时刻显示第二音视频，包括：

响应于所述第一输入，当在第一显示区域播放所述第一音视频至所述第一时刻的情况下，在第二显示区域显示所述第二音视频。
根据权利要求1所述的方法，其中，所述在所述第一音视频中合成所述第二音视频，生成合成音视频，包括:

根据所述第二音视频，生成字幕信息；

将所述字幕信息关联所述第二音视频，并与所述第二音视频合成至所述第一音视频中，生成所述合成音视频。
根据权利要求1所述的方法，在所述第一音视频中合成所述第二音视频，生成合成音视频之前，所述方法还包括：

在通过录制得到所述第二音视频的情况下，接收用户的第四输入；

响应所述第四输入，从目标音视频库中选取第三音视频；

所述在所述第一音视频中合成所述第二音视频，生成合成音视频，包括：

将所述第二音视频和所述第三音视频合成至所述第一音视频中，生成所述合成音视频。
一种音视频处理装置，所述装置包括：

第一接收模块，用于在播放第一音视频的情况下，接收用户的第一输入；

第一显示模块，用于响应于所述第一输入，在所述第一音视频播放进度对应的第一时刻显示第二音视频，所述第二音视频为通过录制或播放得到；

生成模块，用于生成合成音视频，所述合成音视频为在所述第一音视频中合成所述第二音视频得到。
根据权利要求10所述的装置，其中，所述第一显示模块包括：

第一显示子模块，用于响应于所述第一输入，在所述第一音视频播放进度对应的第一时刻，开始动态显示目标音视频的画面，所述目标音视频为录制或播放的音视频；

第一接收子模块，用于接收用户的第二输入；

第一停止子模块，用于响应于所述第二输入，停止动态显示所述目标音视频的画面，得到所述第二音视频。
根据权利要求11所述的装置，其中，所述生成模块具体用于：

将所述第二音视频拼接在所述第一音视频中对应所述第一时刻的位置，生成合成音视频。
根据权利要求11所述的装置，其中，所述生成模块具体用于：

将所述第二音视频替换所述第一音视频中的第一片段，生成合成音视频，所述第一片段为第一音视频中所述第一时刻至第二时刻的片段，所述第一片段的时长等于所述第二音视频的时长。
根据权利要求10所述的装置，其中，所述第一显示模块包括：

第二显示子模块，用于响应于所述第一输入，在所述第一音视频播放进度对应的第一时刻，开始动态显示目标音视频的画面，所述目标音视频为录制或播放的音视频；

第二停止子模块，用于在预设目标时长后，停止动态显示所述目标音视频的画面，得到所述第二音视频；

所述生成模块具体用于：

将所述第二音视频替换所述第一音视频中的第一片段，生成合成音视频，所述第一片段时长等于所述预设目标时长。
根据权利要求10所述的装置，其中，所述生成模块包括：

第二接收子模块，用于接收第三输入；

第一确定子模块，用于响应于所述第三输入，确定所述第一音视频中目标片段的时长；

第一生成子模块，用于将所述第二音视频替换所述第一音视频中的所述目标片段，生成合成音视频。
根据权利要求10-13任一项所述的装置，其中，所述第一显示模块具体用于：

响应于所述第一输入，当在第一显示区域播放所述第一音视频至所述第一时刻的情况下，在第二显示区域显示所述第二音视频。
根据权利要求10所述的装置，其中，所述生成模块包括:

第二生成子模块，用于根据所述第二音视频，生成字幕信息；

第三生成子模块，用于将所述字幕信息关联所述第二音视频，并与所述第二音视频合成至所述第一音视频中，生成所述合成音视频。
根据权利要求10所述的装置，所述装置还包括：

第三接收模块，用于在所述第一音视频中合成所述第二音视频，生成合成音视频之前，在通过录制得到所述第二音视频的情况下，接收用户的第四输入；

获取模块，用于响应所述第四输入，从目标音视频库中选取第三音视频；

所述生成模块，用于将所述第二音视频和所述第三音视频合成至所述第一音视频中，生成所述合成音视频。
一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-9任一项所述的音视频处理方法的步骤。
一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-9任一项所述的音视频处理方法的步骤。
一种计算机程序产品，所述程序产品被存储在非易失的存储介质中，所述程序产品被至少一个处理器执行以实现如权利要求1-9任一项所述的音视频处理方法的步骤。
一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如权利要求1-9任一项所述的音视频处理方法的步骤。
一种电子设备，用于执行如权利要求1-9任一项所述的音视频处理方法的步骤。