WO2023065885A1

WO2023065885A1 - 一种视频处理方法和电子设备

Info

Publication number: WO2023065885A1
Application number: PCT/CN2022/118147
Authority: WO
Inventors: 侯伟龙; 董振; 朱世宇; 邵涛
Original assignee: 荣耀终端有限公司
Priority date: 2021-10-22
Filing date: 2022-09-09
Publication date: 2023-04-27
Also published as: EP4199492A4; EP4199492A1

Abstract

提供了一种视频处理方法和电子设备。该方法包括：显示第一界面，第一界面是第一视频的播放界面，第一界面中包括第一控件和第一区域，第一区域显示第一照片的缩略图和第二照片的缩略图，第一照片是在第一时刻自动拍摄的，第二照片是在第二时刻自动拍摄的，第一视频片段为第一场景，第二视频片段为第二场景，第一照片是第一视频片段中的照片，第二照片是第二视频片段中的照片，第一照片的评分大于第一阈值，第二照片的评分大于第二阈值；响应于对第一控件的第二操作，显示第二界面，第二界面是第二视频的播放界面。本申请实施例的视频处理方法能够决策出评分较高的精彩时刻，从而获得图像质量更高的精彩时刻照片及精选短视频，用户体验更好。

Description

一种视频处理方法和电子设备

本申请要求于2021年10月22日提交国家知识产权局、申请号为202111236229.1、申请名称为“一种录像中拍照的方法和电子设备”的中国专利申请的优先权，以及，要求于2022年01月30日提交国家知识产权局、申请号为202210114568.0、申请名称为“一种视频处理方法和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及电子设备领域，并且更具体地，涉及一种视频处理方法和电子设备。

背景技术

随着智能终端的不断发展，拍照以及视频录制功能成为智能终端的必备功能。用户对录制和拍照的需求与体验也不断增强。在某些拍摄场景下，用户期望同时捕捉到值得纪念的精彩瞬间照片以及视频。而目前智能终端相机技术中，在视频拍摄过程中获得的精彩瞬间的图像质量不好，导致用户体验不佳。

发明内容

有鉴于此，本申请提供了一种视频处理方法、电子设备、计算机可读存储介质以及计算机程序产品，能够决策出评分较高的精彩时刻，从而获得图像质量更高的精彩时刻照片，使得用户在录像时同时获得精彩瞬间的高质量照片以及视频，极大提升了用户体验。

第一方面，提供了一种视频处理方法，包括：

响应于用户的第一操作，录制第一视频；

显示第一界面，所述第一界面是所述第一视频的播放界面，所述第一界面中包括第一控件和第一区域，所述第一区域显示第一照片的缩略图和第二照片的缩略图，所述第一照片是在第一时刻自动拍摄的，所述第二照片是在第二时刻自动拍摄的，所述第一视频的录制过程中包括所述第一时刻和所述第二时刻；

其中，所述第一视频包括第一视频片段和第二视频片段，所述第一视频片段为第一场景，所述第二视频片段为第二场景，所述第一照片是所述第一视频片段中的照片，所述第二照片是所述第二视频片段中的照片，所述第一照片的评分大于第一阈值，所述第二照片的评分大于第二阈值；

响应于对所述第一控件的第二操作，显示第二界面，所述第二界面是第二视频的播放界面，所述第二视频的时长小于所述第一视频的时长，所述第二视频中至少包括所述第一照片。

上述方法可以由电子设备(比如终端设备)或电子设备中的芯片(比如终端设备中的芯片)执行。基于上述技术方案，在录制视频过程中，通过自动识别精彩时刻并在精彩时刻触发拍照，能够决策出评分较高的精彩时刻，从而获得图像质量更高的精彩时刻照片，得到高质量的精彩时刻照片以及视频。用户可以查看与录制的原始视频(第一视频)关联的精彩时刻的照片(第一照片和第二照片)以及精选短视频(第二视频)，提升了用户体验。

在一种可能的实现方式中，所述第一视频片段中还包括第三照片，所述第三照片是在第三时刻自动拍摄的，所述第三照片的评分大于所述第一阈值。

上述第一阈值可以认为是用于评价第一视频片段中的精彩时刻照片的绝对阈值。换句话说，如果第一视频片段中决策出了多种精彩时刻的照片，那么这些精彩时刻的照片均应该满足第一阈值。因此，通过引入第一阈值，可以更准确的获得多个精彩时刻的照片。

可选地，所述第一视频片段到所述第二视频片段间发生了一次转场。

可选地，所述第一照片是第一类型的动作，所述第二照片是第二类型的动作。

可选地，所述第一照片是风景，所述第二照片是人物。

在一种可能的实现方式中，所述方法还包括：

在自动拍摄所述第一照片之前，获取第四照片的评分，所述第四照片的评分小于或等于所述第一阈值，且，大于第三阈值；

将所述第三阈值的取值更新为所述第三照片的评分。

上述第三阈值是相对阈值。在得到第四照片的评分时，如果第四照片的评分不满足大于绝对阈值(第一阈值)的情形，那么通过判断第四照片的评分与第三阈值的关系。如果第四照片的评分大于第三阈值，则将第三阈值更新为第四照片的评分，以使得相对阈值始终保持最新最高值。

在一种可能的实现方式中，所述第二视频片段中还包括所述第五照片，所述第五照片是在发生转场时自动拍摄的。

这里，在发生转场时可以先触发自动拍照，获得转场帧(比如第五照片)。这样做的目的是保证在第二视频片段中至少能够输出一张照片，避免第二视频片段中没有任何照片输出的情形，或者说，可以保证一个转场片段下至少能输出一张照片。

可选地，所述第一区域中还包括所述第五照片的缩略图。当然，所述第五照片的评分如果也大于第二阈值，则第五照片也可以判定为第二视频片段中的精彩时刻照片。

可选地，所述转场距离上一次转场的时间大于时间阈值。

这里设置时间阈值的目的在于避免频繁触发转场拍照，有助于节省终端功耗。

可选地，所述第三阈值小于所述第二阈值。

在一种可能的实现方式中，所述方法还包括：

响应于用户的第三操作，显示第三界面，所述第三界面为图库应用的界面，所述第三界面包括第二控件；

所述显示第一界面，包括：响应于对所述第二控件的第四操作，显示所述第一界面。

在一种可能的实现方式中，所述第三界面还包括第一提示窗口，所述第一提示窗口用于向用户提示已生成了所述第一照片和所述第二照片。

在一种可能的实现方式中，所述第一提示窗口的亮度以及所述第一区域的亮度，高于所述第一界面中除去所述第一区域和所述第一提示窗口以外的区域的亮度。

在图库应用中首次进入第一视频时，通过高亮显示第一提示窗口，可以引导用户查看精彩时刻区域的照片，引起用户对所述第一提示窗口的注意，以达到更醒目的提醒效果，提升用户使用体验。

在一种可能的实现方式中，所述方法还包括：

响应于用户的第五操作，停止对所述第一视频的录制，显示第四界面，所述第四界面包括预览缩略图选项；

其中，所述响应于用户的第三操作，显示第三界面，包括：

响应于用户对所述预览缩略图选项的第六操作，显示所述第三界面。

在一种可能的实现方式中，所述第四界面还包括第二提示窗口，所述第二提示窗口用于向用户提示已经生成所述第一照片、所述第二照片以及所述第二视频。

在一种可能的实现方式中，在录制所述第一视频之前，所述方法还包括：

响应于用户的第七操作，开启一录多得功能。

在一种可能的实现方式中，所述第一界面还包括播放进度条，所述播放进度条用于显示所述第一视频的播放进度。

在一种可能的实现方式中，所述第二界面还包括音乐控件；所述方法还包括：

响应于用户对所述音乐控件的第八操作，显示多个不同的音乐选项。

因此，用户可以为第二视频进行配乐，丰富了用户体验。

在一种可能的实现方式中，所述第二界面还包括风格控件；所述方法还包括：

响应于用户对所述风格控件的第九操作，显示多个不同的风格选项。比如，风格可以理解为滤镜。

因此，用户可以为第二视频选择视频风格，丰富了用户体验。

在一种可能的实现方式中，图库应用中包括第一相册，所述第一相册中包括所述第一照片和所述第二照片。

因此，第一照片和第二照片可以保存在同一相册，以便用户查看。

在一种可能的实现方式中，所述第一相册还包括所述第二视频的虚拟视频。虚拟视频是指没有实际生成视频文件的数据文件，比如，虚拟视频可以是XML播放逻辑。

在一种可能的实现方式中，所述第二界面还包括：分享控件或保存控件；

响应于用户对所述分享控件或保存控件的第十操作，生成所述第二视频的视频文件；

将所述视频文件存储在所述第一相册中。

可选地，所述视频文件占用的存储空间大于所述虚拟视频占用的存储空间。

因此，在对分享或保存第二视频时，才生成第二视频，这样可以有效减少视频对终端空间的占用。

在一种可能的实现方式中，所述第一界面还包括删除选项；所述方法还包括：

响应于用户对所述删除选项的第十一操作，显示第三提示窗口，所述第三提示窗口用于提示用户是否删除所述第二视频、所述第一照片以及所述第二照片。

因此，在用户删除第一视频时，可以提示用户是否删除第一视频的精彩时刻照片和精彩短视频，以避免发生误删，提升用户体验。

在一种可能的实现方式中，所述方法还包括：

如果在N天后未接收到用户查看所述第一照片的操作，自动删除所述第一照片。

可以理解，对于第二照片，如果在N天后未接收到用户查看所述第二照片的操作，自动删除所述第二照片。

因此，通过对与所述第一视频关联的精彩时刻照片(比如第一照片和第二照片)进行如下设置“若用户未查看照片则自动保留预设时长后删除”，有助于节省空间。

在一种可能的实现方式中，所述第二视频中还包括所述第二照片。也就是说，第二视频可以包含全部精彩时刻的照片(比如第一照片和第二照片)，也可以包含部分精彩时刻的照片(比如第一照片)，对此不作具体限定。

在一种可能的实现方式中，所述第一时刻是基于第一时间标签确定的。

可选地，所述第一时间标签是基于第一层级信息、第二层级信息和第三层级信息确定的，所述第一层级信息用于表征视频的主题或场景，所述第二层级信息用于表征视频的场景发生变化，所述第三层级信息用于表征精彩时刻。

在一种可能的实现方式中，所述第二视频中还包括所述第一照片的附近图像帧，所述附近图像帧是基于所述第一时间标签确定的；

其中，所述附近图像帧包括所述第一时间标签的前A个时刻对应的图像帧和所述第一时间标签的后B个时刻对应的图像帧，A大于或等于1，B大于或等于1。

可选地，所述第二视频中去除发生转场的时刻对应的图像帧，所述转场是指场景发生变化。

在一种可能的实现方式中，所述方法还包括：

响应于所述第一操作，生成请求消息，所述请求消息中包括第一标识；

其中，所述第一照片与所述第二视频通过所述第一标识关联。

因此，可以通过第一标识实现精彩时刻的照片与精彩短视频的关联。

在一种可能的实现方式中，所述第一照片的分辨率大于在所述第一视频中截取的图像的分辨率。相比于在视频中截图的方式，本申请实施例获得的图像的分辨率更佳。

在一种可能的实现方式中，所述方法还包括：在录制视频时接收拍照请求，所述拍照请求携带抓拍标记；

响应于所述拍照请求，触发拍照并获得第一图像，所述第一图像对应的可交换图像文件格式EXIF信息中包括所述抓拍标记。

因此，在录制视频中还可以接收用户的手动抓拍请求，使得用户可以基于主观需求抓拍精彩时刻的照片，以进一步提升用户体验。

第二方面，提供了一种电子设备，包括用于执行第一方面中任一种方法的单元。该电子设备可以是终端设备，也可以是终端设备内的芯片。该电子设备包括输入单元、显示单元和处理单元。

当该电子设备是终端设备时，该处理单元可以是处理器，该输入单元可以是通信接口，该显示单元可以是图形处理模块和屏幕；该终端设备还可以包括存储器，该存储器用于存储计算机程序代码，当该处理器执行该存储器所存储的计算机程序代码时，使得该终端设备执行第一方面中的任一种方法。

当该电子设备是终端设备内的芯片时，该处理单元可以是芯片内部的逻辑处理单元，该输入单元可以是输出接口、管脚或电路等，该显示单元可以是芯片内部的图形处理单元；该芯片还可以包括存储器，该存储器可以是该芯片内的存储器(例如，寄存器、缓存等)，也可以是位于该芯片外部的存储器(例如，只读存储器、随机存取存储器等)；该存储器用于存储计算机程序代码，当该处理器执行该存储器所存储的计算机程序代码时，使得该芯片执行第一方面的任一种方法。

在一种实现方式中，所述处理单元用于响应于用户的第一操作，录制第一视频；

调用所述显示单元显示第一界面，所述第一界面是所述第一视频的播放界面，所述第一界面中包括第一控件和第一区域，所述第一区域显示第一照片的缩略图和第二照片的缩略图，所述第一照片是在第一时刻自动拍摄的，所述第二照片是在第二时刻自动拍摄的，所述第一视频的录制过程中包括所述第一时刻和所述第二时刻，其中，所述第一视频包括第一视频片段和第二视频片段，所述第一视频片段为第一场景，所述第二视频片段为第二场景，所述第一照片是所述第一视频片段中的照片，所述第二照片是所述第二视频片段中的照片，所述第一照片的评分大于第一阈值，所述第二照片的评分大于第二阈值；

响应于对所述第一控件的第二操作，调用所述显示单元显示第二界面，所述第二界面是第二视频的播放界面，所述第二视频的时长小于所述第一视频的时长，所述第二视频中至少包括所述第一照片。

可选地，所述第一照片是风景，所述第二照片是人物。

在一种可能的实现方式中，所述处理单元还用于在自动拍摄所述第一照片之前，获取第四照片的评分，所述第四照片的评分小于或等于所述第一阈值，且，大于第三阈值；将所述第三阈值的取值更新为所述第三照片的评分。

可选地，所述第一区域中还包括所述第五照片的缩略图。

可选地，所述转场距离上一次转场的时间大于时间阈值。

可选地，所述第三阈值小于所述第二阈值。所述处理单元还用于响应于用户的第三操作，调用所述显示单元显示第三界面，所述第三界面为图库应用的界面，所述第三界面包括第二控件；

所述处理单元调用所述显示单元用于显示第一界面，具体包括：响应于对所述第二控件的第四操作，调用所述显示单元显示所述第一界面。

在一种实现方式中，所述第三界面还包括第一提示窗口，所述第一提示窗口用于向用户提示已生成了所述第一照片和所述第二照片。

在一种实现方式中，所述第一提示窗口的亮度以及所述第一区域的亮度，高于所述第一界面中除去所述第一区域和所述第一提示窗口以外的区域的亮度。

在一种实现方式中，所述处理单元还用于：

响应于用户的第五操作，停止对所述第一视频的录制，调用所述显示单元显示第四界面，所述第四界面包括预览缩略图选项；

响应于用户对所述预览缩略图选项的第六操作，调用所述显示单元显示所述第三界面。

在一种实现方式中，所述第四界面还包括第二提示窗口，所述第二提示窗口用于向用户提示已经生成所述第一照片、所述第二照片以及所述第二视频。

在一种实现方式中，所述处理单元还用于，在录制所述第一视频之前，响应于用户的第七操作，开启一录多得功能。

在一种实现方式中，所述第一界面还包括播放进度条。

在一种实现方式中，所述第二界面还包括音乐控件；所述处理单元还用于，响应于用户对所述音乐控件的第八操作，调用所述显示单元显示多个不同的音乐选项。

在一种实现方式中，所述第二界面还包括风格控件；所述处理单元还用于，响应于用户对所述风格控件的第九操作，调用所述显示单元显示多个不同的风格选项。

在一种实现方式中，图库应用中包括第一相册，所述第一相册中包括所述第一照片和所述第二照片。

在一种实现方式中，所述第一相册还包括所述第二视频的虚拟视频。

在一种实现方式中，所述第二界面还包括：分享控件或保存控件；所述处理单元还用于：响应于用户对所述分享控件或保存控件的第十操作，生成所述第二视频的视频文件；将所述视频文件存储在所述第一相册中。

在一种实现方式中，所述视频文件占用的存储空间大于所述虚拟视频占用的存储空间。

在一种实现方式中，所述第一界面还包括删除选项；

所述处理单元还用于：响应于用户对所述删除选项的第十一操作，调用所述显示单元显示第三提示窗口，所述第三提示窗口用于提示用户是否删除所述第二视频以及所述多个精彩时刻的照片。

在一种实现方式中，所述处理单元还用于如果在N天后未接收到用户查看所述第一照片的操作，自动删除所述第一照片。

在一种实现方式中，所述第二视频还包括所述第二照片。

在一种实现方式中，所述第一时刻是基于第一时间标签确定的。

在一种实现方式中，所述第二视频中还包括所述第一照片的附近图像帧，所述附近图像帧是基于所述第一时间标签确定的；

在一种实现方式中，所述第一时间标签是基于第一层级信息、第二层级信息和第三层级信息确定的，所述第一层级信息用于表征视频的主题或场景，所述第二层级信息用于表征视频的场景发生变化，所述第三层级信息用于表征精彩时刻。

在一种实现方式中，所述第二视频中去除发生转场的时刻对应的图像帧，所述转场是指场景发生变化。

在一种实现方式中，所述处理单元还用于响应于所述第一操作，生成请求消息，所述请求消息中包括第一标识；其中，所述第一照片与所述第二视频通过所述第一标识关联。

在一种实现方式中，所述第一照片的分辨率大于在所述第一视频中截取的图像的分辨率。

第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被电子设备运行时，使得该电子设备执行第一方面中的任一种方法。

第四方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被电子设备运行时，使得该电子设备执行第一方面中的任一种方法。

附图说明

图1是一种适用于本申请的电子设备的硬件系统的示意图；

图2是本申请提供的一例开启“一录多得”的示意图；

图3是本申请提供的另一例开启“一录多得”的示意图；

图4是本申请提供的又一例开启“一录多得”的示意图；

图5是本申请提供的一例“一录多得”的图形用户界面GUI的示意图；

图6是本申请提供的另一例“一录多得”的图形用户界面GUI的示意图；

图7是本申请提供的又一例“一录多得”的图形用户界面GUI的示意图；

图8是一种适用于本申请的电子设备的软件系统的示意图；

图9是本申请实施例的LV0-3层的决策逻辑的一个示例图；

图10是基于数据流获取LV0-3的层级信息一个示例图；

图11是本申请实施例的拍照逻辑的一个示例图；

图12是LV0-3的层级信息的一个示例图；

图13至图16是本申请提供的录制视频时不同时刻的界面示意图；

图17是本申请提供的录制视频时不同时刻的界面相关的时间戳示意图；

图18是本申请实施例提供的视频处理方法的示意性流程图；

图19是本申请提供的快速运镜时转场帧的示意图；

图20是本申请提供的一例MM节点工作的示意图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

本申请实施例中，除非另有说明，“多个”的含义可以是两个或两个以上。

在介绍本申请实施例之前，首先对本申请实施例涉及的一些术语或概念进行解释。应理解，本申请对以下术语的命名不作具体限定。以下术语可以有其他命名。重新命名的术语仍满足以下相关的术语解释。

精彩时刻(magic moment，MM)，是指视频录制过程中的一些精彩画面瞬间。例如，MM可以是最佳运动瞬间，最佳表情时刻或最佳打卡动作。可以理解，本申请对术语MM不作限定，MM也可以称作美好时刻，神奇时刻，精彩瞬间，决定性瞬间，或最佳拍摄(best shot，BS)等。在不同的场景下，精彩时刻可以不同类型的画面瞬间。例如当录制足球比赛视频时，精彩时刻可以是射门或传球时，运动员脚与足球接触的瞬间，精彩时刻也可以是足球飞进球门的瞬间；当录制人物从地面起跳的视频时，精彩时刻可以是人物在空中最高点的瞬间，也可以是人物在空中时动作最舒展的瞬间。

MM标签(TAG)，即时间标签，MM标签用于指示精彩时刻在录制的视频文件中的位置。例如，在视频文件中包括一个或多个MM标签，MM标签可指示在该视频文件的第10秒、第1分20秒等时刻，视频文件中的对应图像帧为精彩时刻。

MM节点，用于对拍摄的视频流进行分析，识别或决策精彩时刻，并在识别到精彩时刻时自动触发拍照。MM节点也称作MM决策引擎，BS决策引擎，MM决策模块等，这些术语具备如前所示的MM节点的功能。

一录多得，可以理解为用户使用相机应用拍摄视频时，通过一次按下“拍摄”图标，可以得到包括一张或多张精彩时刻照片、以及一段或多段精选视频的功能。一录多得的实现过程可以是：MM节点在录像过程中自动识别精彩时刻并触发抓拍，得到MM的照片；在录制结束后，用户查看录制视频时可以向用户推荐精彩时刻MM的照片以及精彩短视频(或称作精选短视频，或精彩视频，或精选视频)。可以理解的是，通过一录多得获得的精彩短视频的时长小于整段完整视频的时长。例如，录制的整段完整视频为1分钟，可以得到4张精彩时刻照片和时长为15秒的精彩短视频。还可以理解，一录多得也可有其他名称，比如，一键多得，一键多拍，一键出片，一键大片，AI一键大片等。

手动抓拍，在录像过程中，可同时进行手动拍照，获得期望拍摄的画面。

为了提升在录像模式下获得的精彩时刻的图像质量，本申请引入“一录多得”模式，即在录像模式中录制视频时，通过分析视频流，自动识别精彩时刻，并在识别到精彩时刻时自动触发拍照，以获得精彩时刻的照片。另外，当视频录制完成时，可在图库查看到精彩时刻的照片以及精彩短视频。相比于随机获取录制视频中的照片，本申请实施例的视频处理方法获得的精彩时刻的图像质量更高，用户体验更好。

本申请实施例提供的视频处理方法可以适用于各种电子设备。

在本申请的一些实施例中，该电子设备可以是手机、智慧屏、平板电脑、可穿戴电子设备、车载电子设备、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)、投影仪等等。

下文以电子设备为手机为例，图1示出了本申请实施例提供的一种电子设备100的结构示意图。图1示出了一种适用于本申请的电子设备的硬件系统。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

需要说明的是，图1所示的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图1所示的部件更多或更少的部件，或者，电子设备100可以包括图1所示的部件中某些部件的组合，或者，电子设备100可以包括图1所示的部件中某些部件的子部件。图1示的部件可以以硬件、软件、或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元。例如，处理器110可以包括以下处理单元中的至少一个：应用处理器(application processor，AP)、调制解调处理器、图形处理器(graphics processing unit，GPU)、图像信号处理器(image signal processor，ISP)、控制器、视频编解码器、数字信号处理器(digital signal processor，DSP)、基带处理器、神经网络处理器(neural-network processing unit，NPU)。其中，不同的处理单元可以是独立的器件，也可以是集成的器件。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。例如，处理器110可以包括以下接口中的至少一个：内部集成电路(inter-integrated circuit，I2C)接口、内部集成电路音频(inter-integrated circuit sound，I2S)接口、脉冲编码调制(pulse code modulation，PCM)接口、通用异步接收传输器(universal asynchronous receiver/transmitter，UART)接口、移动产业处理器接口(mobile industry processor interface，MIPI)、通用输入输出(general-purpose input/output，GPIO)接口、SIM接口、USB接口。图1所示的各模块间的连接关系只是示意性说明，并不构成对电子设备100的各模块间的连接关系的限定。可选地，电子设备100的各模块也可以采用上述实施例中多种连接方式的组合。

电子设备100可以通过GPU、显示屏194以及应用处理器实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194可以用于显示图像或视频。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)、有源矩阵有机发光二极体(active-matrix organic light-emitting diode，AMOLED)、柔性发光二极管(flex light-emitting diode，FLED)、迷你发光二极管(mini light-emitting diode，Mini LED)、微型发光二极管(micro light-emitting diode，Micro LED)、微型OLED(Micro OLED)或量子点发光二极管(quantum dot light emitting diodes，QLED)。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。作为一种可能的实现方式，在用户查看精彩时刻的照片和精选短视频时，显示屏194可用于显示精彩时刻MM的照片以及精选短视频。

电子设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP可以对图像的噪点、亮度和色彩进行算法优化，ISP还可以优化拍摄场景的曝光和色温等参数。在一些实施例中，ISP可以设置在摄像头193 中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的红绿蓝(red green blue，RGB)，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。在本申请实施例中，处理器110可基于摄像头193录制的视频流，确定视频流中的精彩时刻MM，并在确定出MM时，调用摄像头193自动触发拍照。ISP和DSP可对精彩时刻MM的图像信号进行处理，以得到精彩时刻的图像。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1、MPEG2、MPEG3和MPEG4。

NPU是一种借鉴生物神经网络结构的处理器，例如借鉴人脑神经元之间传递模式对输入信息快速处理，还可以不断地自学习。通过NPU可以实现电子设备100的智能认知等功能，例如：图像识别、人脸识别、语音识别和文本理解。

外部存储器接口120可以用于连接外部存储卡，例如安全数码(secure digital，SD)卡，实现扩展电子设备100的存储能力。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能(例如，声音播放功能和图像播放功能)所需的应用程序。存储数据区可存储电子设备100使用过程中所创建的数据(例如，音频数据和电话本)。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如：至少一个磁盘存储器件、闪存器件和通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种处理方法。

电子设备100可以通过音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D以及应用处理器等实现音频功能，例如，音乐播放和录音。

触摸传感器180K，也称为触控器件。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，触摸屏也称为触控屏。触摸传感器180K用于检测作用于其上或其附近的触摸操作。触摸传感器180K可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，并且与显示屏194设置于不同的位置。

按键190包括开机键和音量键。按键190可以是机械按键，也可以是触摸式按键。电子设备100可以接收按键输入信号，实现于按键输入信号相关的功能。

以下实施例中所涉及的技术方案均可以在具有上述硬件架构的电子设备100中实现。

为了便于理解，本申请以下实施例将以具有图1所示结构的电子设备为例，结合下文各个图中示出的应用场景，对本申请实施例提供的视频处理方法进行具体阐述。

本申请将以电子设备为手机，手机中安装相机应用为例，详细介绍本申请提供的视频处理方法。

在本申请的一些实施例中，用户可以手动开启或关闭本申请实施例提供的“一录多得”功能。以下结合图2至图4描述一录多得功能的入口。

图2是本申请实施例提供的一例视频处理方法的图形用户界面(graphical user interface，GUI)的示意图。

示例性的，用户可以通过触摸手机屏幕上特定的控件、按压特定的物理按键或按键组合、输入语音、隔空手势等方式，指示手机开启相机应用。响应于接收到用户开启相机的指示后，手机启动相机，显示拍摄界面。

例如，如图2中(1)所示，手机的屏幕显示系统显示了当前输出的界面内容，该界面内容显示了多款应用程序(application，App)。用户可以通过在手机桌面上点击“相机”应用图标401，指示手机开启相机应用，手机显示如图2中(2)所示的拍摄界面。

再例如，在手机处于锁屏状态时，用户也可以通过在手机屏幕上向右(或向左)滑动的手势，指示手机开启相机应用，手机也可以显示如图2中(2)所示的拍摄界面。

或者，手机处于锁屏状态时，用户可以通过在锁屏界面上点击“相机”应用的快捷图标，指示手机开启相机应用，手机也可以显示如图2中(2)所示的拍摄界面。

又例如，在手机运行其他应用时，用户也可以通过点击相应的控件使得手机开启相机应用进行拍照。比如，用户正在使用即时通信类应用(例如微信应用)时，用户也可以通过选择相机功能的控件，指示手机开启相机应用进行拍照和拍摄视频。

如图2中(2)所示，相机的拍摄界面一般包括有取景框402、拍照控件、录像控件以及其他功能控件(比如人像功能控件、夜景功能控件或更多其他控件)。用户通过点击录像控件可以开启录像模式，手机可以显示如图2中(3)所示的录制界面。用户通过点击“设置”，可以进入设置界面，手机显示如图2中(4)所示的界面。图2中(4)所示的界面中显示开启“一录多得”的选项404，用于开启一录多得的功能。也就是说，当用户开启该功能后，手机处于录像模式时会自动采用本申请实施例提供的视频处理方法，在录制视频时智能识别精彩时刻，识别到精彩时刻内容后将自动生成精彩照片和短视频。当然，用户也可以通过该选项404，手动关闭录像模式下的一录多得功能。

另外，图2中(4)所示的设置界面还可以包括最小时间限制的控件405。最小时间设置的控件用于限制能够开启一录多得功能的最小录制时长，如果视频的录制时长小于该最小录制时长，则无法回调视频的一录多得特性。比如，最小时间限制可设置为15s，当用户拍摄时间小于15s时，不会回调一录多得照片。

可以理解，图2中(4)所示的设置界面也可以包括其他关于录像设置的控件，比如，视频分辨率的设置控件、视频帧率的设置控件等，图2中(4)所示的控件只是示例性描述。

上述图2中(4)所示的视频分辨率的设置控件可用于选择视频的分辨率。应理解，视频分辨率的选项取决于手机的具体配置。比如，视频分辨率可选择3840*2160(超高清4K)、1920*1080(1080p全高清)、1280*720(720P高清)等。

举例来说，手机的视频分辨率可设置为1920*1080，换种表述，视频分辨率为(1080P)16：9。一般而言，正常拍照(即不是在录像过程中触发的拍照)的分辨率为4096*3072。需要说明的是，为了匹配宽高比16：9，在录像过程中自动抓拍的精彩时刻照片的分辨率为4096*2304，而在录像过程中截取的图像帧的分辨率为1920*1080。因此，从图像分辨率的角度看，本申请实施例在识别到精彩时刻时，自动抓拍的精彩时刻的照片的分辨率显然要优于在录像过程中截取的图像帧的分辨率。换句话说，精彩时刻的照片的分辨率，要大于通过常规方式在视频中截取的照片的分辨率。

也就是说，至少从分辨率的角度来讲，自动抓拍的精彩时刻的照片的画质要优于通过常规方式在视频中截取的照片的画质。当然，自动抓拍的精彩时刻的照片的画质还可取决于其他因素，比如，通过照片管道模式组件photo pipeline中的拍照算法处理后的照片画质会更好。本申请实施例涉及的photo pipeline中的拍照算法会在后文图8处详细描述。

另外，图2中(4)所示的设置界面还可以包括关于拍照设置的控件，比如，照片比例的设置控件、手势拍照的设置控件、笑脸抓拍的设置控件等。

在开启一录多得选项后，用户可以点击录像控件进行录像。图2中(5)所示的界面示出了录制过程中的一个画面(比如第10秒时的画面)。图2中(5)所示的界面中包括录像停止控件406、录像暂停控件407以及拍照键408。在录像过程中，用户可以点击拍照键408手动抓取照片。

图2中(6)所示的界面中，用户在16分15秒可以点击录像停止的按钮406，结束录制过程，可得到时长为16分15秒的视频。

以上介绍了触发手机进入“一录多得”模式的方法，但本申请不限于在录像模式进入“一录多得”。在本申请的一些实施例中，用户开启“一录多得”功能可以有其他方式。例如，“一录多得”作为一种新增的模式，供用户在相机应用中选择。用户可以选择进入“一录多得”模式。

例如，如图3中(2)所示的界面，响应于检测到用户点击图3中(2)所示界面中的“更多”控件，手机显示如图3中(3)所示的界面。用户点击图3中(3)所示的一录多得控件501，进入一录多得模式，手机显示如图3中(4)所示的界面。当然，“一录多得”控件501也可以显示于如图3中(2)所示界面中，即与拍照控件、录像控件在同一栏，用户通过左右滑动控件，选择一录多得模式。

图3中(1)与图2中(1)所示界面相同，这里不作赘述。从图3中(1)进入图3中(2)的方式也与图2中(1)进入图2中(2)的方式类似，为了简洁，这里不作赘述。

或者，在一些示例中，可以在设置菜单中设置手机的录像模式为“一录多得”模式。

又例如，如图4中(1)所示的界面，响应于检测到用户点击控件601，手机显示如图4中(2)所示的设置界面602。用户可以设置界面中的控件603，进入如图4中(3)所示的相机设置界面604。相机设置界面604中显示有控件605，用于开启一录多得的功能。也就是说，当用户开启该功能后，手机处于录像模式时会自动采用本申请实施例提供的视频处理方法，在录制视频时自动判断精彩时刻并触发抓拍，并自动保存一录多得功能下获得的精彩时刻照片以及精彩短视频。当然，用户也可以通过该控件605，手动关闭录像模式下的一录多得功能。

当然，手机可以默认选择录像模式下开启“一录多得”功能。本申请不作限定。

应理解，用户的手指点击图标可以包括用户的手指触摸到图标，或者，也可以是用户的手指距离图标为小于一定距离时(比如，0.5mm)也可以称为用户的手指触摸到图标。

基于以上各种实现方式，可以开启手机的“一录多得”功能。在手机打开上述一录多得功能后，用户录制的视频以及与该视频相关的一录多得的文件可在图库中查看。以下结合图5进行描述。

图5是本申请实施例提供的一例“一录多得”相关的图形用户界面(graphical user interface，GUI)的示意图。

示例性的，用户可以通过触摸手机屏幕上特定的控件、按压特定的物理按键或按键组合、输入语音、隔空手势等方式，指示手机开启图库应用。图库应用也称作相册、照片等。响应于接收到用户开启图库的指示后，手机显示照片界面。例如，如图5中(1)所示，手机的屏幕显示系统显示了当前输出的界面内容，该界面内容显示了多款应用程序App。用户可以通过在手机桌面上点击“图库”应用图标301，指示手机开启图库应用，手机显示如图5中(2)所示的界面。

如图5中(2)所示，界面中显示用户拍摄的照片以及视频，比如，用户拍摄的视频302(比如图2中(6)得到的时长为16分15秒的视频)，照片302，视频304(时长为12秒)。用户拍摄的照片以及视频可以按照拍摄时间排序。图5中(2)所示的界面中展示的视频和照片呈缩略图排列，用户拍摄的视频302(比如图2中(6)得到的时长为16分15秒的视频)是最新录制的视频。在录制该视频302时，开启了一录多得功能。

图5中(2)所示的界面显示的是用户拍摄的所有照片以及视频(或者说是所拍摄的照片以及视频时在图库应用中以未分类的方式呈现)。

作为一种可能的实现方式，图库应用中可以包括多个相册，该多个相册用于分类存储视频、截屏录屏、我的电影等文件。该多个相册中包括用于保存一录多得的视频的相册。例如，可将该用于保存一录多得的视频的相册命名为一录多得相册。一录多得相册中还可保存与录制的原视频关联的精彩时刻照片以及精彩短视频。

需要说明的是，在用户未触发分享或保存精彩短视频时，一录多得相册中保存的精彩短视频是虚拟视频。虚拟视频是指没有实际生成视频文件的数据文件，比如，虚拟视频可以是XML播放逻辑。并且，虚拟视频在一录多得相册中也会有对应的视频缩略图。由于虚拟视频并非是实际生成的视频文件，所以虚拟视频占用的内存空间小于实际生成的视频文件。比如说，实际生成的视频文件占用5M，虚拟视频占用30k。另外，如果用户触发了保存精彩短视频的动作，那么实际生成的精彩短视频文件也会保存在该一录多得相册中。

图5中(2)所示的视频302的缩略图与图库中其他照片和视频(指未开启一录多得功能的视频)的缩略图，大小可以不同，也可以相同，本申请实施例对此不作限定。

作为一种可能的实现方式，开启了一录多得功能之后，录制的视频的缩略图，可大于图库中其他照片和视频(指未开启一录多的功能下录制的视频)的缩略图。比如，在图5中(2)所示的界面中，视频302的缩略图大于照片303的缩略图，视频302的缩略图也大于视频304的缩略图。

或者，作为一种可能的实现方式，开启了一录多得功能后录制的视频的缩略图，与其他缩略图大小保持一致。

在一种可能的实现方式中，在手机显示如图5中(2)所示的界面时，作为最新录制的一录多得视频，视频302可自动播放，以供用户预览。可以理解，在供用户预览时，视频302不会全屏播放，视频的预览窗口沿用缩略图的窗口大小，即在预览视频302时仍然可以看到其他照片和视频的缩略图。

又一种可选的播放视频302的方式，在用户打开图库后，作为最新录制的视频，视频302可自动播放，即全屏播放视频302，以供用户查看。当然，如果在录制视频302以后用户还拍摄了一些照片，即视频302不是最新录制的视频，则不会自动播放视频302。另一种可选的播放视频302的方式，用户可以点击图5中(2)所示的视频302进行查看。在点击视频302后，手机显示如图5中(3)所示界面，在屏幕中出现播放按钮305。用户点击播放按钮305，则手机开始播放视频302，手机显示如图5中(4)所示的界面。

在图5中(4)所示的界面中，视频302呈现播放状态(比如，视频播放到了第3秒)。在视频302播放状态下，用户可通过一定的手势进行触发，使手机呈现“一录多得”获得的精彩照片和精彩短视频界面。触发手势可以是用户由屏幕下方向上滑动的手势。用户可以通过上滑屏幕进入一录多得。可以理解，本申请对如何进入一录多得的方式不作限定，用户也可以采用其他UX交互方式进入一录多得。

例如，在图5中(5)所示的界面中，用户手指向上滑动屏幕超过预设距离时，界面上呈现标识306，提示用户将呈现与该视频302关联的“一录多得”界面。当用户完成上滑操作，手指离开屏幕后，手机显示如图5中(6)所示的界面。在图5中(6)所示的界面中，屏幕最上方会显示视频302的预览图的一部分。此时，如果用户手指向下滑动屏幕，界面会重新回到视频302的播放界面。

在图5中(5)所示的界面中，还包括暂停控件307、喇叭控件308。暂停控件307用于暂停播放视频；喇叭控件308用于选择是否静音播放视频。视频下方显示按照时间排列的图像帧队列，用于显示当前视频播放的进度，可供用户查看即将要播放的画面帧。

另外，图5中(5)所示的界面中，还包括分享、收藏、编辑、删除、更多等选项。如果用户点击分享，可以分享视频302；如果用户点击收藏，可以将视频302收藏于文件夹；如果用户点击编辑，可以对视频302执行编辑；如果用户点击删除，则可以删除视频302；如果用户点击更多，则可以进入对视频的其他操作功能(比如移动、复制、添加备注、隐藏、重命名等等)。

如图5中(6)所示的界面，手机呈现“一录多得”获得的精彩时刻照片和精彩短视频界面，界面向用户呈现推荐的15秒精彩短视频309以及4张精彩时刻高质量照片(310、311、312、313)以及拼图314。其中，该15秒精彩短视频309由精彩时刻组成。该15秒精彩短视频309中包括的图像帧均是从16分15秒的完整视频中截取的。当然，此处的截取并非是指通过常规方式在16分15秒短视频中进行截图(或者说截取图像帧)的操作。以下描述该15秒精彩短视频309的获得方式。

一种可能的方式，该15秒精彩短视频309是16分15秒视频中的不同片段拼接而成的一段视频，例如，该15秒精彩短视频由以下多个片段拼接而成：第5分9秒至第5分11秒，第7分20秒至第7分22秒，第10分03秒至第10分05秒，第13分13秒至第13分15秒，以及，第15分08秒至第15分10秒。

另一种可能的方式，该15秒精彩短视频309是16分15秒视频中的一段完整视频，例如，该15秒精彩短视频由第10分3秒至第10分18秒的视频组成。此时，精彩时刻 MM对应的图像帧都处于第10分3秒至第10分18秒的视频中。

应注意，如果精彩时刻的照片比较多，那么在生成该15秒精彩短视频时，可以舍弃部分精彩时刻MM的照片。舍弃的原则是：优先保留精彩时刻评分较高的照片。

还应注意，如果精彩时刻MM的照片不够多，可以考虑适当增加一些图像帧进行过渡，比如，可以增加发生转场的图像帧，又比如，在裁剪精彩时刻的前后图像帧时，可适当扩大裁剪范围。举例来说，如果确定出了3个MM，那么在生成15秒精彩短视频时，可以每个MM为中心，向两侧扩展裁剪时长为5秒的片段，得到3个时长为5秒的片段，然后将这3个片段拼接为15秒精彩短视频。

可以理解的是，本申请实施例对精彩短视频的时长和数量均不做限定。例如，精彩短视频可以是一段20秒精彩短视频，还可以是两段精彩短视频，两段精彩短视频的时长分别为15秒和20秒。同样可以理解的是，本申请实施例对精彩时刻照片MM的数量也不做限制，精彩时刻MM的照片可以是1张或多张，具体的，可以是1张-4张。

在图5中(6)所示的界面中，拼图314可以是多张精彩时刻照片MM组成的拼图。应理解，本申请实施例对拼图314中包括的精彩时刻的照片数量不作限定，拼图314中可以包括部分或全部精彩时刻照片MM。

在图5中(6)所示的界面中，屏幕下方还包括人物标签图。若用户点击某一人物标签图，则手机会显示与该人物标签图相关的照片(或者说显示该人物标签图的聚类)。

在图5中(6)所示的界面中，用户通过点击如图5中(6)所示的15秒精彩短视频309，手机显示如图5中(7)所示的界面。

如图5中(7)所示，用户进入沉浸式卡片播放。沉浸式卡片播放是一种画面充满整个屏幕的播放方式。可以看到，图5中(7)所示的界面中，画面充满整个手机屏幕。

作为一种可能的实现方式，在图5中(7)所示的界面中，如果用户点击屏幕，界面显示如图5中(8)所示的界面。在图5中(8)所示的界面中，界面可以包括视频播放的进度条315，分享316，收藏317，编辑318以及删除319等选项。通过进度条315，用户可以得知视频播放的进度。

在图5中(8)所示的界面中，如果用户点击分享316，则手机会基于MM标签生成精彩短视频309对应的视频文件并存储，以便用户进行分享。如果用户点击收藏317，则手机会将精彩短视频309保存在收藏文件夹中，此处不需要生成精彩短视频309对应的视频文件。如果用户点击编辑318，则手机会对精彩短视频309进行编辑，至于是否生成精彩短视频309的视频文件，可取决于用户的后续操作，比如，如果用户需要保存，则生成编辑后的精彩短视频309的视频文件进行保存。如果用户点击删除319，则删除视频309。应注意，图5中(8)所示界面中的分享316与图5中(5)所示界面中的分享选项本质是不同的。图5中(8)所示界面中的分享316用于分享精彩短视频309，并且，在用户点击图5中(8)所示界面中的分享316后，手机才会生成待分享的精彩短视频309的视频文件。而图5中(5)所示界面中的分享选项是用于分享录制的原视频(即视频302)。

需要说明的是，在一种可选的实施方式中，为了节省终端的存储空间，图5中(6)的界面所显示的15秒精彩短视频309、图5中(7)播放的视频、以及图5中(8)的界面所显示的视频均是播放器基于视频标签生成的播放策略，此时手机的内部存储器121中并没有实际生成对应的视频文件，即在用户下发分享或保存指令之前，存储器中并不存储对应的视频文件。具体来讲，图5中(6)的界面所显示的15秒精彩短视频309、图5中(7)播放的视频、以及图5中(8)的界面所显示的视频可通过以下方式生成：通过MM标签可得知精彩时刻在完整视频文件中的位置，基于MM标签在视频中的位置，可以生成预览视频。

举例来说，假设通过视频302得到5个MM标签，第一个MM标签为第5分10秒，第二个MM标签为第7分21秒，第三个MM标签为第10分04秒，第四个MM标签为第13分14秒，第五个MM标签为第15分09秒，那么基于每个MM标签的时间为中心点，向两侧扩展剪裁，生成15秒精彩短视频。最终得到的15秒精选视频由以下时间片段组成：第5分9秒至第5分11秒，第7分20秒至第7分22秒，第10分03秒至第10分05秒，第13分13秒至第13分15秒，以及，第15分08秒至第15分10秒。应理解，此处的举例只是示意描述，本申请并不限于此。

在用户有分享或保存该15秒精彩短视频的需求时，才会实际生成该15秒精彩短视频。比如，在图5中(8)所示的界面中，在用户点击分享316时，手机基于播放策略生成实际的15秒精彩短视频。

图6是本申请实施例提供的另一例“一录多得”相关的GUI示意图。

在开启了一录多得选项的情况下，图6中(1)呈现的是录制过程中的一个界面，比如第24秒的画面。若需要结束录制，可以点击图6中(1)所示界面中的停止控件901。

在结束录制后，如果用户是首次使用一录多得功能进行视频录制，则手机会向用户提示：已经生成了一录多得的文件。比如，图6中(2)所示的界面是录制结束后的预览界面，界面中会弹出一个气泡窗口902，窗口902中显示的内容是：“已生成一录多得精彩照片和短视频”。其中，图6中(2)中的预览图903是录制的原始视频的缩略显示。如果用户点击903，则可以进入图库呈现录制的原视频。

当用户点击903后，可以启动图库，显示如图6中(3)所示的界面。图6中(3)所示的界面是录制的原视频在图库应用中的一个呈现。在图6中(3)所示的界面中，录制的视频下方包括精彩时刻区904。精彩时刻区904用于展示精彩时刻的图像帧。比如，精彩时刻区904中包括5张精彩时刻的照片的缩略图。

需要说明的是，精彩时刻区904中包括的精彩时刻照片，与图5中(6)所示的精彩时刻高质量照片310-313类似。可选地，精彩时刻区904中包括的精彩时刻照片可以包括拼图的缩略图，也可以不包括拼图的缩略图。其中，拼图的定义与图5中(6)所示的拼图314类似，此处不再赘述。

另外，由于是首次进入该视频，界面中还会出现引导框905(或称作提示框)，引导框905用于向用户提示以下信息：“一录多得”为您智能抓拍多个精彩瞬间。也就是说，引导框905用于告知用户904中包含的是精彩时刻照片的缩略图。作为一种可选的实现方式，当显示引导框905时，为了更好地提醒用户，可以对引导框905进行高亮显示，此时图6中(3)所示的界面中除引导框905和精彩时刻区904外，其余的部分可以调低显示亮度，以便凸显引导框905和精彩时刻区904。当然，如果不是首次进入该视频，则不会出现引导框905。

另外，图6中(3)所示的界面中还包括播放控件915、分享、收藏、编辑、删除、更多等选项，以便用户对原视频进行相应操作。各个选项的具体含义在前文图5中(5)处的描述有涉及，这里不再赘述。

在用户点击播放控件915后，界面开始播放录制视频。比如，图6中(4)所示的界面是播放录制视频的一个界面，该界面播放的是第12秒的画面。视频的播放界面中会向用户显示AI一键大片控件906。AI一键大片控件906用于进入精彩短视频。也就是说，如果用户点击控件906，则会进入精彩短视频的播放界面，比如，图6中(5)所示的界面。图6中(5)所示的界面与如下图7中(2)所示的界面相同，相关描述可参考下文描述。图6中(4)所示的界面还包括进度条907。比如，进度条907显示录制的视频时长为56秒，当前播放到了12秒。进度条也可称作滑动条，用户通过拖动滑动条可以调整播放进度。图6中(4)所示的界面还包括精彩时刻区904，精彩时刻区904同样用于展示精彩时刻的图像帧。类似地，图6中(4)所示的界面中还包括分享、收藏、编辑、删除、更多等选项。

可选地，图6中(4)所示的界面还可以包括视频903的录制时间、录制该视频903时手机所处的地址位置信息等。

图7是本申请实施例提供的又一例“一录多得”相关的GUI示意图。

与图6中(4)所示的界面类似，图7中(1)所示的是播放录制视频的一个界面。类似地，如图7中(1)所示，界面中包括正在播放的视频、AI一键大片控件906、进度条907、精彩时刻区904、分享、收藏、编辑、删除、更多等选项。可选地，为了凸显一录多得功能，界面中的906、907、904所在的区域可构成一个显示框凸出显示。凸出显示的一种实现方式是界面中的906、907、904所在区域构成的显示框的宽度，可大于正在播放的视频的宽度。

在图7中(1)所示的界面中，如果用户点击控件906，则界面显示如图7中(2)所示的界面。在图7中(2)所示的界面中，正在播放精彩短视频。同样，此处播放的精彩短视频是基于视频标签生成的播放策略，此时手机的内部存储器121中并没有实际生成对应的视频文件，即在用户下发分享或保存指令之前，存储器中并不存储对应的视频文件。图7中(2)的界面还包括保存控件908、分享控件909、音乐控件910、编辑控件911、风格控件912等。

同样，如果用户点击控件908或控件909，手机会生成该15秒精彩短视频的视频文件。

如果用户点击音乐控件910，则可以进入图7中(3)所示的界面，为该精彩短视频添加不同的配乐。如图7中(3)所示的界面，用户可点击虚线框913中的任一个配乐控件，为该精彩短视频选择配乐，比如，舒缓、浪漫、温暖、惬意、恬静等。

如果用户点击风格控件912，则可以进入图7中(4)所示的界面，为该精彩短视频选择不同的风格。如图7中(4)所示的界面，用户点击虚线框914中的任一个风格控件，为该精彩短视频选择风格。这里的视频风格可以是滤镜，即通过套用滤镜来对该视频进行调色处理。滤镜是视频特效的一种，用来实现视频的各种特殊效果。可选地，这里的视频风格也可以是快放、慢放等视频效果。可选地，这里的视频风格还可以指各种主题，不同的主题包括各自对应的滤镜和音乐等内容。

如果用户点击编辑控件911，可以对精彩短视频进行剪辑、分割、音量调整、画幅调整等编辑操作。用户编辑完成后，如果对编辑后的精彩短视频进行保存，则手机可以生成对应的编辑后的视频文件。如果对编辑后的精彩短视频做放弃处理，即不保存编辑后的精彩短视频，则手机可以不实际生成视频文件，在一录多得相册中仍然仅保存虚拟视频。

在本申请实施例中，一录多得中的精彩照片是实际已存储的。也就是说，如果开启了一录多得选项，那么在录制视频过程中自动触发拍照的精彩照片会自动存储在图库中。比如，图2中(6)录制视频结束后及图6中(1)录制视频结束后，录制过程中自动抓拍的精彩照片会保存在图库中。录制过程中自动抓拍的精彩照片，例如为图5中(6)中示出的精彩照片310-313、图6中(3)或图6中(4)或图7中(1)中的精彩时刻区904示出的精彩照片等。录制过程中自动抓拍的这些精彩照片，如前面描述的，可以自动存储在一录多得相册中。

作为一种可能的实现方式，如果用户没有查看一录多得相关的文件，那么未查看的精彩照片在自动保留N天后自动删除，以便节省终端的存储空间。N的取值是可以预先设置。

比如，如果用户没有执行图5中(5)所示的上滑操作查看一录多得文件，那么图5中(6)所示的照片310-314会在自动保留N天后自动删除。

又比如，如果用户没有查看图6中(3)或图6中(4)或图7中(1)中的精彩时刻区904示出的精彩照片，那么图6中(3)或图6中(4)或图7中(1)中的精彩时刻区904示出的精彩照片会在自动保留N天后自动删除。

可选地，如果在N天之前，用户主动删除录制的原始视频，那么可以向用户显示提示信息。该提示信息用于提示用户是否删除原始视频的一录多得文件(或者说与原始视频关联的精彩照片和精彩短视频)。

比如，在用户点击图5中(5)所示的界面中的删除选项时，手机可弹出提示窗口，提示窗口用于提示用户是否删除关联的精彩照片和精彩短视频。

又比如，在用户点击图6中(3)或图6中(4)或图7中(1)中所示界面中的删除选项时，手机可弹出提示窗口，提示窗口用于提示用户是否删除关联的精彩照片和精彩短视频。

上文描述了在用户点击分享或保存等操作时，才会实际生成精彩短视频的视频文件，本申请并不限于此。

作为另一种可选的实施方式，在录制结束后，也可以基于MM标签直接生成精彩短视频进行存储，(即，不需要用户点击分享或保存等操作，才生成精彩短视频)。另外，基于此实施方式生成的精彩短视频，在用户删除录制的原始视频时，也可以向用户提示是否删除原始视频的一录多得文件。

图8是本申请实施例的电子设备100的软件结构示意图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统可以分为五层，从上至下分别为应用程序(application，APP)层、应用程序框架层(简称为FWK)、系统库、硬件抽象层(HAL)以及驱动层。

应用程序层可以包括一系列应用程序包。例如，如图8所示，应用程序层包括相机应用、图库应用。其中，相机应用支持录像模式(或电影模式)。

应用程序层可以分为应用界面(UI)和应用逻辑。相机的应用界面可以包括录像模式、电影模式等。

应用逻辑包括以下模块：捕获流(CaptureFlow)，视频标签(Video TAG)，精彩时刻MM，捕获照片回调函数(OnPictureTaken)，手动抓拍JPEG，一录多得JPEG等。

CaptureFlow支持用户手动触发的抓拍操作。

Video TAG用于保存框架层发送的精彩时刻MM标签的时间信息，以及精彩时刻的语义信息(包括LV0-LV3)的描述。精彩时刻语义信息的描述包括但不限于：精彩时刻的类型(比如，精彩时刻的类型是笑容、跳跃、回眸、进球瞬间等等)，以及，精彩时刻的评分等。

OnPictureTaken是一种回调函数，用于回调图像数据。在图8中，应用逻辑层中的OnPictureTaken可用于回调手动抓拍的图像数据。应用逻辑层中的手动抓拍JPEG用于基于OnPictureTaken回调的手动抓拍的图像数据，生成手动抓拍的图像。

精彩时刻MM用于保存一录多得JEPG队列数据。作为一种可能的实现方式，该一录多得JEPG队列数据可以传输至一录多得JEPG模块，以便通过一录多得JEPG模块生成一录多得JEPG。一录多得JEPG在图库中可以呈现为：图5中(6)所示的310-313，图6中(3)或图6中(4)或图7中(1)中的精彩时刻区904。

可以理解，应用程序层也可以包括其他应用程序，比如，日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息、浏览器、微信、支付宝、淘宝等应用程序。

应用程序框架层为应用程序层的应用程序提供应用程序编程接口(application programming interface，API)和编程框架。应用程序框架层可以包括一些预定义的函数。

如图8所示，应用程序框架层可以包括相机框架(或者说相机应用对应的接口)和私有拍照通路。私有拍照通路用于将图像的数据传输至应用程序层的相应模块。一种实现方式，一录多得JPEG队列通过私有拍照通路传输至应用程序层的精彩时刻MM模块，在图库应用中呈现精彩时刻MM的照片，比如，如图5中(6)所示的310-313，或者如图6中(3)所示的904，或者如图7中(1)所示的904。一种实现方式，手动抓拍的图像的数据通过私有拍照通路传输至应用程序层的OnPictureTaken模块。

可以理解，应用程序框架层还可以包括其他内容，比如，窗口管理器、内容提供器、视图系统、电话管理器、资源管理器和通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏、锁定屏幕和截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频、图像、音频、拨打和接听的电话、浏览历史和书签、以及电话簿。

视图系统包括可视控件，例如显示文字的控件和显示图片的控件。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成，例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理、堆栈管理、线程管理、安全和异常的管理、以及垃圾回收等功能。

如图8所示，系统库可以包括相机服务功能。

系统库还可以包括多个功能模块(图8中未示出)，例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：针对嵌入式系统的开放图形库(open graphics library for embedded systems，OpenGL ES)和2D图形引擎(例如：skia图形库(skia graphics library，SGL))。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D图层和3D图层的融合。

媒体库支持多种音频格式的回放和录制、多种视频格式回放和录制以及静态图像文件。媒体库可以支持多种音视频编码格式，例如:MPEG4、H.264、动态图像专家组音频层面3(moving picture experts group audio layer III，MP3)、高级音频编码(advanced audio coding，AAC)、自适应多码率(adaptive multi-rate，AMR)、联合图像专家组(joint photographic experts group，JPG)和便携式网络图形(portable network graphics，PNG)。

三维图形处理库可以用于实现三维图形绘图、图像渲染、合成和图层处理。

二维图形引擎是2D绘图的绘图引擎。

硬件抽象层(HAL)是位于操作系统内核与硬件电路之间的接口层,其目的在于将硬件抽象化。它隐藏了特定平台的硬件接口细节，为操作系统提供虚拟硬件平台，使其具有硬件无关性，可在多种平台上进行移植。

如图8所示，硬件抽象层包括视频管道模式组件(video pipeline)、精彩时刻MM节点、照片管道模式组件(photo pipeline)、MM标签、一录多得JPEG队列以及视频编码MP4。其中，照片管道模式组件中包括RAW队列、RAW域拍照算法、拜耳处理阶段(Bayer processing segment，BPS)模块、图像处理引擎(Image processing engine，IPE)模块、风格化模块以及JPEG编码器(encoder，Enc)。

驱动层是硬件和软件之间的层。如图8所示，驱动层可以包括显示驱动、摄像头驱动等驱动模块。其中，摄像头驱动是camera器件的驱动层，主要负责和硬件的交互。

以相机应用为例，应用程序层中的相机应用可以以图标的方式显示在电子设备的屏幕上。当相机应用的图标被触发时，电子设备运行相机应用。相机应用运行在电子设备上，电子设备可以根据用户的操作，向驱动层发送相应的触摸事件。当触摸屏接收到触摸事件，启动相机应用，通过调用驱动层的摄像头驱动启动摄像头。

下面对本申请实施例提供的视频处理方法所涉及的软件模块和模块间的交互进行说明。

如图8所示，应用程序层中的相机应用接收到用户触发的录像请求。应用程序层中的相机应用可以与框架层中的相机框架交互，将录像请求发送至相机框架。相机框架将录像请求发送至系统库中的相机服务。系统库中的相机服务将录像请求发送至硬件抽象层的视频管道模式组件。硬件抽象层的视频管道模式组件将录像的视频流数据发送至MM节点。MM节点基于录制的视频流确定精彩时刻MM，并在确定出精彩时刻MM时调用摄像头驱动进行拍照，同时将拍照数据送入照片管道模式组件处理。MM节点还可以将精彩时刻MM的时间信息(或者说MM在视频中所处的时间位置)以及精彩时刻的类型或者说是精彩时刻的语义层面的描述(精彩时刻对应的LV0-LV3信息，比如，精彩时刻MM为回眸、笑容、跳跃等信息)输送至MM标签模块。MM标签模块，可以以精彩时刻的标签作为元数据(meta)并以clip为单位，将精彩时刻MM的时间信息以及精彩时刻的类型实时上报给video pipeline。精彩时刻MM的时间信息以及精彩时刻的类型通过video pipeline传输至系统库的相机服务。进一步地，相机服务将精彩时刻MM的时间信息以及精彩时刻的类型传递至框架层的相机框架，并通过相机框架发送至应用程序层的Video Tag模块。在MM节点识别到精彩时刻MM触发自动拍照时，照片管道模式组件可以将精彩时刻MM的照片数据进行处理，输出一录多得JPEG队列(即精彩时刻MM照片的JPEG数据)。具体地，照片管道模式组件中的RAW队列用于将RAW数据送入RAW域拍照算法处理。RAW域拍照算法输出的数据送入BPS模块。BPS模块用于将RAW数据转换为拜耳数据。经过BPS模块处理后得到的拜耳数据进入IPE模块。IPE模块用于对拜耳数据进行进一步处理，以提升成像的清晰度、纹理细节、影调色彩、锐化等。经过IPE模块处理后的数据送入风格化模块。风格化模块用于对图像进行渲染(比如将图像渲染为有艺术风格的画作)。经过风格化模块处理后的图像数据送入JPEG编码器。JPEG编码器用于将从风格化模块获得的图像数据进行处理，得到JPEG数据。硬件抽象层的一录多得JPEG队列可通过私有拍照通路将JPEG数据回调至应用程序层的精彩时刻MM。应用程序层的精彩时刻MM可以将一录多得JPEG队列传递至应用程序层的一录多得JPEG模块。应用程序层的精彩时刻MM还可以向私有拍照通路注册MM。一录多得JPEG模块可以基于JPEG数据生成JPEG，即精彩时刻MM的照片。另外，硬件抽象层中的视频管道模式组件可以将录制的视频数据传递至MP4模块。MP4模块用于输出录制的原视频。录制的原视频可通过录像请求中的录像标识与应用程序层中的一录多得JPEG建立关联关系。

示例性地，应用程序层中的图库应用接收用户触发的查看操作，该查看操作用于查看一录多得的JPEG图像。图库应用通过调用显示驱动将一录多得的JPEG图像显示在显示屏上。比如，在图5中(5)所示的界面中，用户通过上滑屏幕进入图5中(6)的界面，图5中(6)的界面显示的是一录多得的JPEG图像。又比如，用户点击图6中(3)中的904，查看精彩时刻的照片(或者说一录多得的JPEG图像)。

可选地，在录像过程中同时支持手动抓拍功能。图8中的架构提供了手动抓拍功能的相关结构。

示例性地，在录像模式下，应用程序层中的CaptureFlow向框架层中的相机框架下发用户触发的手动抓拍请求。框架层将手动抓拍请求通过系统库中的相机服务下发至硬件抽象层的视频管道模式组件。视频管道模式组件将该手动抓拍请求发送至手动抓拍选帧模块。手动抓拍选帧模块调用摄像头驱动进行拍照，并将拍照数据送入照片管道模式组件进行处理。照片管道模式组件中包含的各个模块的处理参考上文描述，这里不作赘述。照片管道模式组件输出手动抓拍的图像数据。手动抓拍的图像数据可通过私有拍照通路反馈至应用程序层的OnPictureTaken模块。应用程序层的OnPictureTaken模块可以基于手动抓拍的图像数据，确定手动抓拍的是哪些帧，然后基于这些帧可得到手动抓拍JPEG图像。

比如，在图13中(2)所示的界面中，用户可点击控件802触发手动抓拍操作。

示例性地，应用程序层中的图库接收到用户触发的查看手动抓拍图像的操作，图库应用也通过调用显示驱动将手动抓拍JPEG图像显示在显示屏上。

应理解，图8中所示的架构并不对本申请实施例构成限定。

还应理解，本申请实施例中所涉及的技术方案可以在具有图8所示的软件架构的电子设备100中实现。

图8中的MM节点可基于录制的视频流确定精彩时刻MM。作为一种可能的实现方式，MM节点基于录制的视频流确定精彩时刻MM，包括：基于视频流获取多个粒度的层级信息；根据多个粒度的层级信息确定精彩时刻MM，其中，所述多个粒度的层级信息包括：第一层级信息、第二层级信息以及第三层级信息，第一层级信息的粒度大于第二层级信息的粒度，第二层级信息的粒度大于第三层级信息的粒度。所述第一层级信息用于表征视频的主题或场景，所述第二层级信息用于表征视频的场景发生变化，所述第三层级信息用于表征精彩时刻。

上述第一层级信息、第二层级信息以及第三层级信息按照粒度由粗到细的次序提供决策信息，以辅助MM节点识别录制过程中的精彩时刻。

示例性地，假设上述第一层级信息所对应的层级包含LV0和LV1，第二层级信息所对应的层级记作LV2，第三层级信息对应的层级记作LV3，即将决策信息按照粒度由粗到细依次划分为LV0、LV1、LV2和LV3。

其中，LV0的信息用于给出整段视频的风格或氛围TAG(比如，童趣、人物、春节、圣诞节、生日、婚礼、毕业、美食、艺术、旅行、夜景、运动、大自然、轻松欢快/小伤感/动感节奏/休闲)。LV1的信息用于语义层面场景识别，将视频分成若干片段，并给出每个片段的类别，例如：山脉、人像等。

示例性地，假设上述第一层级信息所对应的层级包含LV0和LV1，以下表1给出了LV0和LV1的定义的举例。

表1

示例性地，假设上述第二层级信息所对应的层级记作LV2，LV2信息的粒度相比于LV0-1而言会更细。LV2的信息可以给出视频转场位置(比如，发生转场的帧号)，以及转场类型(人物主角切换、快速运镜、场景类别变化、其他情况引起的图像内容变化)，以防止相似场景推荐数量过多。LV2的信息用于表征视频场景变化(或者也可以简称为转场)，包括但不限于以下变化中的一种或多种：人物主体(或主角)变化，图像内容构成发生较大变化，语义层面场景发生变化，以及图像亮度或颜色发生变化。

其中，人物主体变化：当人物主体发生改变时，视为一次转场。人物主体可以定义图像中占比最大的人物。例如，若第t-1帧图像的人物主体为A，第t帧图像的人物主体增加了B，但是主体仍为A，则不算一次转场。又例如，若第t-1帧图像的人物主体为A，第t帧图像的人物主体变成B，则算一次转场。

图像内容构成发生较大变化视为一次转场。例如，在相机基本稳定时，如果录制画面中有较多物体移动，导致画面内容发生较大变化，则视为一次转场。比如，在观看赛车比赛时，用户通过手机录制赛车画面，如果画面中有赛车驶过，那么可以认为赛车经过时发生了一次转场。快速运镜(e.g.快速从A摇到B)。又例如，在相机缓慢平稳运镜时，此时画面内容一般不会有明显的转场分界，但是转场检测帧率为2FPS，比如第t帧图像与第t-16帧图像内容构成差别较大时，视为一次转场。又例如，在相机快速运镜期间，画面模糊严重，帧与帧之间的内容变化较大，但是只能将整个运镜过程视为一次转场。如图19所示，在相机运镜的区间A至区间C中，假设B为快速运镜的区间，那么将区间B的起始帧a和结束帧b视为转场帧。

图像亮度或颜色发生变化视为一次转场。比如，演唱会中，画面内容变化较小，但是氛围灯的颜色和亮度发生了变化，则视为一次转场。

示例性地，假设上述第三层级信息所对应的层级记作LV3，LV3的信息的粒度相比于LV2而言会更细。LV3的信息用于确定精彩时刻。LV3的信息可以按照以下类别划分：基础画质、主观图像评价、人物以及动作。

举例来说，基础画质是从图像的整体维度判断图像的整体清晰度，比如，图像是否失焦、运动是否模糊，曝光是否合适，噪声是否明显等。主观图像评价可从构图的维度判断，比如，构图是否美观(评价准则可基于对称、三分法等评价标准)。

举例来说，人物可从以下维度判断：人脸是否清晰(这里仅判断一个脸)、人物是否睁眼或闭眼，传递情感的表情(比如大笑、惊讶等，这里需要剔除无意义的标签，比如，肌肉抽搐，眼角歪斜等)。

举例来说，动作可从以下维度判断：投篮(上篮最高点、跳投最高点(人最高))、踢球(踢球的瞬间，比如起始动作或完成动作)、羽毛球(打球或扣球动作)、跳跃(跳跃最高点)、奔跑(迈腿、滞空点)、回眸(回眸瞬间、长发飘逸(45度以下))、泼水(小溪泼水打卡)以及抛物(抛物打卡照)。需要说明的是，若图像中有多人场景，则选择主要人物(比如一个)进行动作检测。

应理解，上述关于LV0-LV3的信息的举例只是示例性描述，本申请并不限于此。

以下结合图9中的决策模块描述LV0-3层的决策逻辑。如图9所示，LV0-3层的决策逻辑由各个算法模块配合决策输出。

其中，LV0-1层的决策通过场景识别模块配合决策输出。该场景模块的输入包括以下信息：单帧图像、人脸信息以及人体信息；输出场景类别。其中，人脸信息可以通过人脸信息模块获得。具体来讲，通过场景识别模块对输入的单帧图像进行场景识别，可以输出图像的场景类别。另外，图像中的人体信息(包括但不限于人体在图像中的位置、人体是否是小孩、人物标识ID)可通过人体检测+ReID模块获得。图像中的人脸信息可以通过人脸信息(包括但不限于人脸位置、性别、表情等)可通过人脸信息模块获得。

LV2层的决策通过转场模块实现。转场模块通过上述人体检测+ReID模块和转场检测模块配合决策输出。人体检测+ReID模块可以输出人体检测的相关信息，包括但不限于以下内容：人体位置、是否是小孩、ID等信息。该转场检测模块的输入：2帧图像；输出：是否转场以及转场帧号。具体来说，可以将两帧图像输入到转场检测模块，这两帧图像的场景信息可以通过场景识别模块获得。转场检测模块基于这两帧图像，可以得到是否发生了转场以及转场帧号等信息。另外，转场模块中的人体检测+ReID模块也可以用于辅助转场模块判断是否发生了转场。

LV3层的决策通过MM模块实现。MM模块通过人脸表情、动作检测模块(输出：动作类别、动作分数)、构图评价模块(输入：单帧图像；输出：分数)以及画质评价模块(输入：单帧图像；输出：分数)配合决策输出。具体来讲，转场模块中的人体检测+ReID模块可以将人体检测信息输入到MM模块中的动作检测模块。人脸信息模块可以将人脸信息输入到MM模块中的人脸表情模块，以便进行MM模块进行人脸表情的打分。MM模块可以基于以下四个维度的评分，输出图像帧的最终评分：人脸表情的分数、动作检测的分数、构图评价分数以及画质评价分数等。

因此，通过图9中各个逻辑模块的配合，可以获得LV0-LV3的结果。

在本申请实施例中，MM节点可以基于预设间隔获取各个等级(比如LV0-3)的层级信息(或者说关键数据、决策信息等)，以供拍照决策使用。该间隔可以是预设值，预设值可取决于硬件资源。比如，每间隔10帧获取一次场景信息。又比如，每间隔10帧获取一次转场信息。

结合图10和图11中的示例说明。此处作统一说明，图10和图11均是基于数据流(或者说视频流)进行分析或检测的。该数据流可以是基于预览流进行降低分辨率操作得到的数据流。可以理解，这里采用降低分辨率的数据流进行分析或检测，有助于提高检测效率。比如，图10和图11中的数据流可以是Tiny流。

如图10所示，对于视频流，MM节点在时间戳(-10)处通过对视频流的进行场景识别，获得LV1信息，可以获得视频的场景，从而可以得知视频的场景。通过场景识别获得的信息应送入LV0统计决策模块中。需要说明的是，LV0结果需要结合最终的统计结果而定。也就是说，待用户拍摄完成后，可以统计生成唯一的LV0结果，LV0结果用于表征整个视频的主题和氛围。

MM节点可以每间隔10帧获取一次场景信息(可通过场景识别模块获得)。比如，在时间戳t(-15)及时间戳t(-5)，MM节点各自获取一次场景信息，然后进行图像转场比对。如果图像发生了转场，则统计一次转场。另外，在时间戳t(-5)也可以通过人脸检测模块进行人脸识别，并将识别到的人脸送入人脸ReID中。不论是图像的场景发生变化，还是人脸发生了变化，统计结果均可体现于LV2结果中。MM节点基于时间戳t(-15)及时间戳t(-5)生成LV2结果。通过LV2结果可以得知是否发生转场。

在当前时间戳t(0)，MM节点依次对图像帧进行如下人体检测，动作检测，并基于检测到的动作进行评分，将动作评分送入LV3综合决策模块；同时，结合在时间戳t(-5)处的人脸检测模块输出的数据，对时间戳t(0)的图像帧进行画质/美学评分，得到画质/美学评分，送入LV3综合决策模块。LV3综合决策模块基于画质/美学评分和动作评分进行综合决策，得到时间戳t(-1)的LV3结果(即精彩时刻的评分)。

以下结合图11描述MM节点在获得LV0-3的结果后，如何触发拍照逻辑。如图11所示，图11中示出了MM节点在当前时间戳t(0)的相关判断逻辑。如图11所示，包括以下步骤：

步骤0，录像开始时，初始化相对阈值。

初始阈值可以设置为较小的值，比如0。在相对阈值等于初始阈值时，可以清空缓存区。初始化相对阈值的目的在于保证至少可以拍出一张照片。

同时，还可以配置绝对阈值(或者说是分数阈值)。绝对阈值可认为是用于评价精彩时刻的量化指标。比如，绝对阈值可用thd_max_confid表示。

一个示例，绝对阈值用于分离出预定义的动作。每个动作类别可以具有对应的绝对阈值。可以理解，绝对阈值需要尽可能精确调试，以便准确识别出精彩时刻动作。该绝对阈值表示大概率动作被探测。

举例来说，对于跳跃动作，可预先设置与跳跃动作对应的绝对阈值。如果检测到图像帧中有跳跃动作，则可以对该跳跃动作进行评分，然后将评分与跳跃动作对应的绝对阈值进行比较。如果评分大于跳跃动作对应的绝对阈值，可以将该跳跃动作确定为精彩时刻，那么相应的图像帧可以认为是精彩时刻的照片。

步骤1，录像过程中，判断具有LV3数据的关键帧(比如时间戳t(-1))的LV3数据的分数是否大于绝对阈值。如果LV3数据的分数大于绝对阈值，则执行步骤6；如果否，则执行步骤2。

如果当前LV3分数比绝对阈值大，则表示间戳t(-1)的图像帧以非常高的置信度落入预先定义的动作类别中。在没有其他拍照进程冲突影响下，可以直接触发RAW域算法拍照。

另外，此处需要额外考虑Tiny流与零秒延迟(zero shutter lag，ZSL)序列的对齐问题。这是因为，MM节点是工作在Tiny数据上的，因此拍照需要选择其对应的RAW数据。

步骤2，判断LV3数据的分数是否大于相对阈值。如果LV3数据的分数比相对阈值大，则执行步骤3。

步骤3，将RAW数据复制到缓存区中，同时，更新相对阈值以使其保持最新最高值。

上述缓存区用于存储RAW数据。前文分析或检测利用的是tiny流，此处存储到缓存区中的数据是tiny流对应的原始(RAW)图像帧。比如，此处将时间戳t(-7)至t(0)对应的RAW图像帧存储在缓存区中。

应理解，本申请实施例对缓存区的类型对此不作限定。比如，所述缓存区可以是一个单独设置的buffer。又比如，若电子设备采用ZSL拍照系统，那么缓存区可以是ZSL拍照系统中的ZSL buffer。步骤4，在当前时间戳判断是否发生转场，以及该转场距离上一次转场的时间是否超过最短转场时间限制阈值(比如，thd_change)，如果是，则判断该转场为一次可以触发拍照的转场，继续执行步骤5。这里，引入最短转场时间限制阈值的目的在于：防止频繁转场导致的拍照过于频繁。

步骤5，判断缓存区是否不为空以及相对阈值是否小于绝对阈值。

如果当前相对阈值还小于绝对阈值，则说明此转场片段还没有触发过拍照，此时可以执行步骤6，将暂存缓存区中的RAW数据送入拍照通路触发一次拍照。此设计使一个转场下至少能输出一张照片。

步骤6，送RAW域拍照算法处理。

可选地，在步骤6中，将RAW数据送入RAW域拍照算法处理之前，还可以先判断当前拍照间隔是否大于最小拍照间隔。比如，最小拍照间隔设置为3s，如果判断出当前拍照间隔大于3s，才会触发拍照。这样设置的好处在于可以防止频繁触发拍照。并且，也可以避免手动抓拍与自动拍照发生冲突。当然，如果用户连续抓拍，可能会存在自动触发拍照受阻的情况。比如，如果用户连续抓拍导致自动拍照受阻，那么可以将用户手动抓拍的图像与视频关联起来，即可以考虑将用户抓拍的图像输出为精彩时刻的照片。

步骤7，拍照通路处理，送JPEG编码。在JPEG编码时，可以将对应的MM决策数据(比如LV3数据的评分)保存到EXIF中。

步骤8，按照LV3数据的评分高低出入JPEG队列。

高低出入JPEG队列是基于照片评分进行末位淘汰得到的。举例来说，假设当前JPEG队列保留有5张照片(比如图中示出的t(-4)至t(0)对应的5张照片)，这5张照片中评分最低的照片记作照片X，此时如果输出1张照片Y，该照片Y的评分大于照片X的评分，那么照片X出队列，照片Y入队列。

比如，按照LV3数据的评分高低输出包含5个JPEG的队列，即永远保留评分最高的TOP5照片。可以理解，这里是以包含5个JPEG的队列为例进行说明，该JPEG队列中包含的JPEG的数量是可以设置的。

示例性地，如图12所示，将决策信息按照粒度由粗到细依次划分为LV0、LV1、LV2和LV3。LV0给出了整个视频的概括(summary)，或者说视频的整体氛围。LV1在LV0的基础上将视频划分为3个类别的视频片段，比如，所属类别分别为肖像(portrait)、风景(landscape)以及建筑物(building)。LV2在LV1的基础上获得场景发生变化的信息(比如发生转场的帧号)，具体包括3次转场。LV3在LV2的基础上，获得以下精彩时刻：MM1(在第一次转场和第二次转场之间)、MM2(在第一次转场和第二次转场之间)、MM3(在第二次转场和第三次转场之间)，MM4(第三次转场以后)。可以看到，第一次转场和第二次转场之间发生了两次MM。当然，对于同一场景下的MM1与MM2，为避免相似场景下照片推荐数量过多，在决策时可比较MM1与MM2的评分，保留评分较高的MM。

为便于理解，以下结合图13-图17描述录制视频中获得精彩时刻MM的流程。

假设拍摄的对象是山脉，用户在录制视频过程中移动手机，录制不同的画面。图13-图16是用户在录制视频时不同时刻的界面示意图。图17是针对图13-图16所示界面的时间戳示意图。

如图13中(1)所示的界面，用户点击控件801，开启录像模式。此处手机已开启一录多得功能。开启一录多得的方式可以参考前文图2至图4的描述，这里不再赘述。录像的起始时间为00分钟00秒00毫秒(表示为00:00:00)。

如图13中(2)所示的界面，在录像开始后，界面中包括拍照控件802、停止控件803和暂停控件804。如果用户点击停止控件803，可结束录制；如果用户点击控件802，可以在录像过程中进行手动抓拍。如果用户点击暂停控件804，可暂停录制。在时刻00:02:15的录制画面如图13中(2)所示，此时的画面呈现了山的全貌，画面内容为山(记作山A)。用户手持手机继续移动，得到时刻00:05:00的画面如图13中(3)所示，界面中显示画面内容为山的一部分。

示例性地，MM节点对时刻00:00:00到00:05:00的视频流进行检测，可识别到时刻00:00:00到00:05:00的视频片段的语义场景或类别为山脉。例如，MM节点可识别出该视频片段的场景为山A。进一步地，MM节点识别到时刻00:00:00到00:05:00中，时刻00:02:15的画面呈现了山A的全貌。MM节点对时刻00:02:15的画面的基础画质、构图是否美观等因素进行判断，得到此刻画面帧的评分为65，将此刻确定为第一MM。

在录制时刻00:05:00到00:06:00时，镜头快速移动了1秒。时刻00:06:00的画面如图14中(1)所示，画面内容为另一个山的部分。时刻00:05:00的画面与时刻00:06:00的画面不同。MM节点对时刻00:05:00到时刻00:06:00的视频流进行检测，可认为在时刻00:06:00发生一次转场(转场是指场景发生变化)，该转场类型为快速运镜。因此，在后端剪辑精选短视频时，抛弃时刻00：05:00到时刻00:06:00的内容。

用户继续手持手机移动，拍摄另一山脉。比如，时刻00:08:54的画面如图14中(2)所示，此时的画面中呈现了山的全貌，画面中的内容为山(记作山B)。时刻00:11:00的画面如图15中(1)所示，画面中的内容为天空。从图14中(1)所示的界面、图14中(2)所示的界面以及图15中(1)所示的界面得知，在时刻00:11:00，画面内容发生改变，因此认为在时刻00:11:00发生一次转场。MM节点通过对时刻00:06:00至时刻00:11:00的视频流进行检测，得知在时刻00:11:00场景发生变化。进一步地，MM节点对从时刻00:06:00至时刻00:11:00的视频流的MM进行检测，得到第二MM为时刻00:08:54，评分为79。

在拍摄完山脉后，用户移动手机，以期拍摄天空。比如，时刻00:18:50的画面如图15中(2)所示，画面中的内容为天空。时刻00:20:00的画面如图15中(3)所示，画面中的内容为天空。MM节点对00:11:00到00:20:00的视频流进行检测，可识别到该视频片段的场景类别为天空。进一步地，MM节点对00:11:00到00:20:00的MM进行检测，可得到第三MM为时刻00:18:50，评分为70。

在拍摄完天空后，用户手持手机快速移动，以期拍摄人像。比如，从时刻00:20:00到00:25:00，镜头快速移动了5秒。时刻00:25:00的画面如图16中(1)所示。从图16中(1)所示的界面可知，在时刻00:25:00人物进入镜头。时刻00:20:00的画面与时刻00:25:00的画面不同。MM节点对时刻00:20:00到时刻00:25:00的视频流进行检测，得知在时刻00:25:00场景发生变化，发生一次转场，该转场类型为快速运镜。因此，在后端剪辑精选短视频时，抛弃从00：20:00到00:25:00的内容。

时刻00:28:78的画面如图16中(2)所示，在时刻00:28:78人物发生回眸。时刻00:30:99的画面如图16中(3)所示，在时刻00:30:99人物发生另一回眸。如图16中(4)所示，在时刻00:35:00用户可点击控件803，结束录制。

从时刻00:25:00到时刻00:35:00，MM节点检测到场景类别为人物。进一步地，MM节点对时刻00:25:00到时刻00:35:00的视频流的MM进行检测，得知两个精彩时刻分别为00:28:78和00:30:99，并结合以下因素分别对这两个时刻的画面进行评分：基础画质、人物、人物动作，得到这两个精彩时刻的评分分别为95和70。基于此，MM节点确定出第四MM为时刻00:28:78，以及第五MM为时刻00:30:99。

在上述图13至图16中，得到的5个MM分别为：时刻00:02:15、时刻00:08:54、时刻00:18:50、时刻00:28:78以及时刻00:30:99。基于多个MM所在的时间位置，可以生成精彩短视频。其中，精彩短视频是由这些精彩MM对应的图像帧组成的，帧之间包括过渡。精彩短视频还包括这些帧附近的图像帧，例如，对于时刻00:25:00而言，精彩短视频除了包括00:25:00的图像帧以外，还包括00:24:58-00:25:02的图像帧。

换种方式描述，以图17中所示的时间轴为例，从录制开始(00:00:00)到录制结束(00:35:00)，MM节点基于视频流检测到以下多个片段的信息：

片段Clip1：起始时间为00:00:00，结束时间为00:05:00，场景的类别为风景(比如，图13中所示该场景实际为风景A：山)，该场景的精彩时刻MM为00:02:15，该MM的评分为65，起始帧的转场类型为：启动。

Clip2：起始时间为00:05:00，结束时间为00:06:00，场景的类别为动感节奏，该场景不存在MM，起始帧的转场类型为：快速运镜。因此，建议在精选视频中抛弃从00：05:00到00:06:00的内容。

Clip3：起始时间为00:06:00，结束时间为00:11:00，场景的类别为风景(比如，图14中所示该场景实际为风景B：山)，在该场景的MM为00：08：54，该MM的评分为79，起始帧的转场类型为：内容变化。

Clip4：起始时间为00:11:00，结束时间为00:20:00，场景的类别为天空(比如，图15中所示该场景实际为风景C：天空)，在该场景的MM为00:18:50，该MM的评分为70，起始帧的转场类型为：内容变化。

Clip5：起始时间为00:20:00，结束时间为00:25:00，场景的类别为动感节奏，在该场景中不存在MM，起始帧的转场类型为：快速运镜。因此，建议在精选视频中抛弃从00：20:00到00:25:00的内容。

Clip6：起始时间为00:25:00(该时间戳检测到人物入镜头)，结束时间为00:35:00，场景的类别为人物，该场景的MM为00：28：78(比如，图16中(2)所示在该时间戳检测到回眸的动作)以及00：30：99(比如，图16中(3)所示在该时间戳检测到回眸的动作)，这两个MM的评分分别为95,70，起始帧的转场类型为：内容变化。

需要说明的是，上述6个Clip可以认为是将录制的原视频划分为6个视频片段，或者说是基于识别到的语义层面的信息(可记作LV1信息)将原视频划分为6个视频片段。根据划分的每个视频片段，可进一步识别出发生转场的信息(即LV2信息)。接着，可以在每个视频片段中检测精彩时刻的信息(即LV3信息)，以便确定精彩时刻MM。另外，在整个视频录制结束后，可以基于原视频确定整段视频的主题或风格，即LV0信息。

另外，当多个视频片段的总MM数量，超出了最终能够呈现的精彩时刻照片的数量限制时，可优先保留评分较高的MM的照片。举例来说，假设录制的视频划分了4个视频片段，精彩时刻MM的照片数量限制为4，经过分析得知：第1个视频片段中包含了2个MM，第2个视频片段到第4个视频片段中分别包含1个MM，即一共确定出5个MM，那么需要比较第1个视频片段中2个MM的评分，保留第1个视频片段中评分较高的MM，同时，为了保证每个视频片段至少需要输出1个MM，还需要将第2个视频片段到第4个视频片段中分别包含的1个MM作为最终输出的精彩时刻照片，即最终输出了4张精彩时刻照片。

在图17中的示例中，可获得5张MM的照片。并且，还可以基于上述5个MM生成15秒的精选视频。在基于上述5个MM生成15秒精选短视频时，可以基于MM在完整视频中所在的时间位置，以及，前后转场位置关系，确定具体剪裁多少秒。比如，以某个MM所在的时间为中心点，向两侧扩展并避开发生转场的时间戳，并且针对每个MM都这样操作，直到视频时长满足预设时长(比如15秒)，得到预设时长的精选视频。

可以理解，图13-图17中的示例只是便于本领域技术人员进行理解，并不对本申请实施例的保护范围构成限定。

请参考图18，为本申请实施例提供的视频处理方法的示意性流程图。如图18所示，该方法包括：

S701，响应于用户的第一操作，录制第一视频。

第一操作可以是录制操作。比如，如图13中(1)所示的界面，第一操作可以是用户点击录像控件801的操作，响应于用户点击录像控件801的操作，电子设备开始视频录制。

第一视频是用户录制的原始视频。比如，第一视频是图5中(2)的视频302(时长为16分15秒)。又比如，第一视频是图6中(4)所示界面中正在播放的视频(时长为56秒)。

S702，显示第一界面，所述第一界面是所述第一视频的播放界面，所述第一界面中包括第一控件和第一区域，所述第一区域显示第一照片的缩略图和第二照片的缩略图，所述第一照片是在第一时刻自动拍摄的，所述第二照片是在第二时刻自动拍摄的，所述第一视频的录制过程中包括所述第一时刻和所述第二时刻，其中，所述第一视频包括第一视频片段和第二视频片段，所述第一视频片段为第一场景，所述第二视频片段为第二场景，所述第一照片是所述第一视频片段中的照片，所述第二照片是所述第二视频片段中的照片，所述第一照片的评分大于第一阈值，所述第二照片的评分大于第二阈值。

第一照片和第二照片可以理解为精彩时刻的照片。应理解，此处是第一照片和第二照片为例进行说明，并非限定精彩时刻的照片只有两张，事实上，精彩时刻的照片可以多张，本申请实施例对此不作限定。

第一时刻与第二时刻是在录制视频过程中识别到的精彩时刻。

第一视频片段和第二视频片段是第一视频中的不同视频片段，或者说是不同场景下的视频片段。第一视频片段是第一场景，第二视频片段是第二场景。

应理解，第一视频片段和第二视频片段可以是第一视频中连续的视频片段，也可以是不连续的视频片段，对此不作具体限定。

比如，第一视频片段是图13中(1)至图13中(3)所示的界面，即，起始时间为00:00:00，结束时间为00:05:00，该视频片段的场景(可对应第一场景)为山脉。第二视频片段是图16中(1)至图16中(4)所示界面对应的视频片段，起始时间为00:25:00，结束时间为00:35:00，该视频片段的场景类别(可对应第二场景)为人物。

第一场景和第二场景是不同的场景。所述第一视频片段到所述第二视频片段间发生了一次转场。

比如，第一场景是山脉(比如图14中(1)和图14中(2)所示的界面，其场景为山脉)，第二场景是天空(比如图15中(1)至图15中(3)所示的界面，其场景为天空)等。

又比如，第一场景是天空(比如图15中(1)至图15中(3)所示的界面，其场景为天空)，第二场景是人物(比如图16中(1)至图16中(4)所示的界面，其场景为人物)。

应理解，此处对第一场景和第二场景的举例只是示例性描述，本申请实施例并不限于此。还应理解，第一视频中除了上述描述的第一场景和第二场景以外，也可以包含更多的场景，本申请实施例不作具体限定。

还应理解，本申请实施例对第一照片和第二照片的精彩时刻的具体类型不作具体限定。

作为一种可能的实现方式，第一照片是第一类型的动作，第二照片是第二类型的动作。也就是说，第一照片与第二照片是不同类型的人物动作。关于人物动作的判断维度可参考前文介绍，此处不作具体阐述。比如，第一类型的动作是跳跃。第二类型的动作是回眸等。又比如，第一类型的动作是踢球，第二类型的动作是长发飘逸。

作为一种可能的实现方式，第一照片是风景(比如山脉、天空等)，第二照片是人物(或者说人像、肖像等)。

作为一种可能的实现方式，第一照片是山脉，第二照片是天空。应理解，上述关于第一照片和第二照片的类型描述只是示例性描述，本申请实施例并不限于此。

比如，第一时刻是图13中(2)所示界面中的时刻00:02:15，第一照片是时刻00:02:15对应的画面，第一照片的评分为65。又比如，第二时刻是图14中(2)所示界面中的时刻00:08:54，第二照片是时刻00:08:54对应的画面，第二照片的评分为79。

又比如，第一时刻是图15中(2)所示界面中的时刻00:18:50，第一照片是时刻00:18:50对应的画面，第一照片的评分为70。又比如，第二时刻是图16中(2)所示界面中的时刻00:28:78，第二照片是时刻00:28:78对应的画面，第二照片的评分为95。

第一照片的评分应满足第一阈值。以第一照片是第一类型动作为例，上述第一阈值是第一类型动作对应的绝对阈值。通过第一阈值可以判断第一照片的评分是否满足精彩时刻评分的标准。如果判断出第一照片的评分大于第一阈值，则说明第一照片是精彩时刻的照片。

举例说明，假设第一阈值设置为60，如果第一照片的评分是70，则第一照片的评分满足精彩时刻评分的标准。

需要说明的是，如果第一视频片段中决策出了多种精彩时刻的照片，那么这些精彩时刻的照片均应该满足第一阈值。此处以第一视频片段中还包括第三照片为例进行说明，可选地，所述第一视频片段中还包括第三照片，所述第三照片是在第三时刻自动拍摄的，所述第三时刻的评分大于所述第一阈值。换句话说，第三照片也是第一视频片段中的精彩时刻照片。

应理解，上述是以评分大于第一阈值作为评价精彩时刻照片的标准的一种可能实现方式，事实上本申请实施例并不限于此，还可以有多种实现方式。比如，也可以设置一个精彩时刻分数范围，若照片的评分落入该分数范围，则认为照片是精彩时刻照片。又比如，第一阈值的端点值也可以包含在精彩时刻照片的范畴内，如评分等于第一阈值时也可以认为照片为精彩时刻照片。

作为一种可能的实现方式，所述方法还包括：在自动拍摄所述第一照片之前，获取第四照片的评分，所述第四照片的评分小于或等于所述第一阈值，且，大于第三阈值；将所述第三阈值的取值更新为所述第三照片的评分。

此处的第三阈值指的是相对阈值，第一阈值是绝对阈值。在得到第四照片的评分时，如果第四照片的评分不满足大于绝对阈值(第一阈值)的情形，那么继续判断第四照片的评分与第三阈值的关系；如果第四照片的评分大于第三阈值，则将第三阈值更新为第四照片的评分，以使得相对阈值始终保持最新最高值，具体可以参考前文图11中的步骤2和步骤3的理解。

上述第一场景和第二场景是不同的场景。所述第一视频片段到所述第二视频片段间发生了一次转场。

作为一种可能的实现方式，可选地，所述第二视频片段中还包括所述第五照片，所述第五照片是在发生转场时自动拍摄的。也就是说，为了保证在第二视频片段中至少能够输出一张照片，所以在发生转场时可以先触发自动拍照，获得转场帧(比如第五照片)。当然，是否保留第五照片还要取决于后续是否出现比第五照片的评分更高的照片。这里，随着视频的录制，如果判断出第二视频片段中出现了比第五照片的评分更高的照片，比如，第二照片，那么可以用第二照片替换第五照片，即输出第二照片。

可选地，所述第一区域中还包括所述第五照片的缩略图。

也就是说，如果所述第五照片的评分也大于第二阈值，则第五照片也可以判定为第二视频片段中的精彩时刻照片，即第五照片的缩略图可呈现在第一区域中。类似地，第二阈值是用于判断第二视频片段中的精彩时刻的绝对阈值。

可选地，所述转场距离上一次转场的时间大于时间阈值。

该时间阈值可以对应前文图11中的步骤4中的最短转场时间限制阈值。也就是说，为了避免频繁触发转场拍照，可以设置时间阈值。

可选地，所述第三阈值(相对阈值)小于所述第二阈值。第二阈值是用于判断第二照片评分的绝对阈值。

在第二视频片段中，如果相对阈值小于绝对阈值的话，说明该转场片段下还未触发过自动拍摄(或者说第二视频片段中还没触发过自动拍摄)，因此为了保证一个转场片段下至少能输出一张照片，可以在转场帧触发自动拍摄，即获得上述第五照片。

可选地，所述第一界面还包括播放进度条，所述播放进度条用于显示所述第一视频的播放进度。

以图6中的界面示意为例，第一界面是图6中(4)所示的界面。第一控件是图6中(4)的906，第一区域是904。第一照片的缩略图和第二照片的缩略图可显示于904中。播放进度条是图6中(4)的907。

又比如，第一界面是图7中(1)所示的界面。第一控件是图7中(1)的906，第一区域是904。

可选地，所述第一照片的分辨率大于在所述第一视频中截取的图像的分辨率。关于图像分辨率的不同，本申请实施例在前文图2中(4)处的已进行相关描述，这里不再赘述。

S703，响应于对所述第一控件的第二操作，显示第二界面，所述第二界面是第二视频的播放界面，所述第二视频的时长小于所述第一视频的时长，所述第二视频中至少包括所述第一照片。

其中，第二视频可以理解为是第一视频的精彩短视频。精彩短视频的组成方式在前文有提及，相关描述可以参考前文，此处不再赘述。

比如，第二界面是图6中(5)所示的界面。第二视频是图6中(5)所示的15秒视频。该15秒视频中至少包括904中的一张照片。

可以理解，第二视频可以包括部分精彩时刻的照片，也可以包括全部精彩时刻的照片，本申请实施例对此不作具体限定。

可选地，所述第二视频中还包括所述第二照片。

在一种可能的实现方式中，所述方法还包括：

上述第三操作可以是用户在图库应用中查看上述第一视频的操作。比如，第三界面可以是图6中(3)所示的界面。第二控件是播放控件。比如，第二控件可以是图6中(3)所示的915。

也就是说，在首次进入时，可以引导用户查看精彩时刻的照片。比如，所述第一提示窗口可以是图6中(3)所示的905。

因此，可以通过高亮显示的方式，引起用户对所述第一提示窗口的注意，以达到更醒目的提醒效果，提升用户体验。

在一种可能的实现方式中，所述方法还包括：响应于用户的第五操作，停止对所述第一视频的录制，显示第四界面，所述第四界面包括预览缩略图选项；

其中，所述响应于用户的第三操作，显示第三界面，包括：

第五操作是触发停止录制的操作。比如，所述第五操作可以是用户点击图6中(1)所示控件901的操作。第四界面可以是图6中(2)所示的界面。

在录制结束的界面中，还可以显示当前录制的视频的预览缩略图选项。用户在点击预览缩略图选项后，可以跳转至图库应用中，显示当前录制的视频(非播放状态)。比如，预览缩略图选项可以是图6中(2)的903。第六操作可以是用户点击903的操作。在用户点击903后，显示图6中(3)所示的界面，其中包含播放控件915。

当然，如果是首次使用一录多得功能，可以通过提示窗口引导用户查看一录多得的内容。比如，第二提示窗口可以是图6中(2)所示的902。

响应于用户的第七操作，开启一录多得功能。

上述第一视频是在开启了以录多得功能的前提下录制的。开启一录多得功能的实现方式在前文已经描述，具体可以参考图2至图4中的描述。比如，开启一录多得功能可以通过图2中(4)所示的404设置。

可选地，应用可以设置录制视频的最小时长，当录制时长小于最小时长时，不会回调视频的一录多得特性。在一种可能的实现方式中，第一视频的时长大于或等于预设时长。比如，预设时长设置为15秒，当用户的录制时长小于15秒时，不会回调一录多得照片。比如，录制视频的最小时长可以通过图2中(4)所示的405设置。

可选地，所述第二界面还包括音乐控件；

用户可以对第二视频实现配乐操作。比如，第二界面可以是图7中(2)所示的界面。音乐控件可以是图7中(2)所示的音乐控件910。

可选地，所述第二界面还包括风格控件；所述方法还包括：

响应于用户对所述风格控件的第九操作，显示多个不同的风格选项。

比如，风格控件可以是图7中(2)所示的风格控件912。

用户可以对第二视频添加风格。关于风格的描述在前文已提及，相关描述可以参考前文，此处不再赘述。

可选地，图库应用中包括第一相册，所述第一相册中包括所述第一照片和所述第二照片。

这里作统一说明，第一相册可以参考前文描述的一录多得相册。相关描述可以参考前文，这里不再赘述。

可选地，所述第一相册还包括所述第二视频的虚拟视频。虚拟视频的含义参考前文的解释。

可选地，所述第二界面还包括：分享控件或保存控件；

将所述视频文件存储在所述第一相册中。

比如，分享控件是图7中(2)所示的909。又比如，保存控件是图7中(2)所示的908。

在一种可能的实现方式中，所述第一界面还包括删除选项；所述方法还包括：响应于用户对所述删除选项的第十一操作，显示第三提示窗口，所述第三提示窗口用于提示用户是否删除所述第二视频、所述第一照片以及所述第二照片。

比如，删除选项如图6中(4)所示的删除选项。

也就是说，若接收到用户删除录制的原始视频的请求(第十三操作)，在用户界面显示提示信息，以便提示用户是否删除与所述原始视频关联的图像和视频(比如，第一照片、第二照片以及第二视频)。这样，如果用户希望保留与所述原始视频关联的图像和视频，可以选择保留与所述原始视频关联的图像和视频，避免了数据丢失，有助于提升用户体验。如果用户希望一并删除，那么将原始视频以及与所述原始视频关联的图像和视频一并删除，有助于节省空间。

上述与第一视频关联的精彩时刻的照片可以自动保留预设时长，比如N天，N小时等其他时间单位。比如，预设时长可以是出厂设置好的，或者，也可以由用户自主设置，对此不作限定。在一种可能的实现方式中，所述方法还包括：如果在N天后未接收到用户查看所述第一照片的操作，自动删除所述第一照片。可以理解，这里仅是第一照片为例进行说明，第二照片也可以是在保留N天后自动删除。

可选地，在N天后未接收到用户查看所述第二视频的操作，自动删除所述第二视频。

在前文介绍图5中(6)的界面时，介绍了15秒精彩短视频309的获得方式。以精彩短视频309的获得方式中的一个精彩时刻为例说明附近图像帧，比如，假设第5分10秒是精彩时刻(对应第一时刻)，第5分10秒对应的图像帧是精彩时刻照片(对应第一照片)，那么第5分9秒对应的图像帧和第5分11秒对应的图像帧为所谓的附近图像帧。

可选地，所述第二视频中去除发生转场的时刻对应的图像帧，所述转场是指场景发生变化。这里举例说明去除发生转场的时刻对应的图像帧的含义。示例性地，在获得5个精彩时刻MM的照片后，基于5个MM的照片生成第二视频，以每个MM所在的时间为中心点，向两侧扩展并避开发生转场的时间戳，并且针对每个MM都这样操作，直到第二视频的时长满足预设时长(比如15秒)，得到预设时长的精选短视频。

在一种可能的实现方式中，所述第一时刻是基于第一时间标签确定的。所述第一时间标签是基于第一层级信息、第二层级信息和第三层级信息确定的，所述第一层级信息用于表征视频的主题或场景，所述第二层级信息用于表征视频的场景发生变化，所述第三层级信息用于表征精彩时刻。

比如，在具体实现时，MM节点可以实时获得视频流的多个粒度的层级信息，以便识别精彩时刻。

作为一种可能的实施例，在录制视频时实时获取视频流的多个层级信息，并基于所述多个层级信息识别视频的精彩时刻；在所述视频的精彩时刻自动触发拍照以获得精彩时刻的照片(比如在第一时刻自动拍摄第一照片，在第二时刻自动拍摄第二照片)；其中，所述多个层级信息包括第一层级信息，第二层级信息和第三层级信息，所述第一层级信息用于表征视频的主题或场景，所述第二层级信息用于表征视频的场景发生变化，所述第三层级信息用于表征精彩时刻。

作为一种可能的实现方式，在识别到精彩时刻时可生成时间标签(或者说视频标签)。时间标签是指精彩时刻在第一视频中的时间位置。比如，第一时刻对应第一时间标签。基于时间标签可生成精选视频。

在具体实现时，HAL中的MM节点在录制视频时，可实时判断录像过程中的精彩时刻(或者说精彩瞬间)，并在识别到精彩时刻时自动触发拍照，获得精彩时刻的图像。

可选地，在录制视频时，通过自动触发拍照获得的精彩时刻的图像的数量可以设置或基于需求调整。比如，可以设置获得的精彩时刻的图像最多为5张。

可选地，为了实现录制的视频与上述精彩时刻的照片的关联，可以将所述录像标识以及时间标签写入抓拍图像的JPEG信息中。示例性地，所述多帧图像的JPEG信息携带可交换图像文件格式EXIF信息，所述EXIF信息包括所述录像标识以及所述视频标签的信息。可以理解，EXIF信息还可以包括其他JPEG数据，比如，标准信息，缩略图，水印信息等。

可选地，所述方法还包括：

所述请求消息可以称作录像请求。所述录像请求用于触发相机应用开启录像模式。比如，如图13中(1)所示的界面，用户点击录像控件801，即可触发相机应用开启录像模式。

比如，第一标识称作录像标识，录像标识为UUID。

可选地，在图库应用中，录制的原始视频(第一视频)，第一照片，以及第二照片可以通过第一标识关联。

可选地，在图库应用中，录制的原始视频(第一视频)，第一照片，第二照片以及精选短视频(第二视频)在图库应用中可通过数据库实现关联。这样，用户在查看原始视频时，可以选择查看与第一视频关联的精彩时刻的照片以及精选短视频。

当用户在查看录制的原始视频时，如果触发查看操作，可以查看与该视频相关联的精彩时刻的照片或精选视频。比如，如图5中(5)所示，该查看操作是指向上滑动屏幕，界面上呈现标识306，提示用户将呈现与该视频302关联的“一录多得”界面；当用户完成上滑操作，手指离开屏幕后，手机显示如图5中(6)所示的界面。又比如，该查看操作可以是点击图6中(4)所示的906，进入图6中(5)所示的界面。

需要说明的是，上述时间标签是指精彩时刻在视频中的位置，具体可以为精彩时刻对应的时间戳。所述时间标签可用于生成精选视频，可以理解为：在录像结束后，可以根据视频中的标签位置，自动生成播放策略，该播放策略可用于生成精选视频(或者说精彩短视频)。并且，在用户需要对精选视频执行操作(比如，该操作可以指分享该精选视频)时，才利用所述视频标签生成精选视频，而并非在录制视频过程中实时生成精选视频，这样可以节省存储空间。

图20给出了本申请提供的一例MM节点(这里，MM节点可以是图8中硬件抽象层中的MM节点)工作的示例图。如图20所示，缓存中包含16个时间戳的RAW数据。MM节点当前执行的是时间戳5和时间戳14的图像帧的比较。由于算法存在延时，在算法当前帧(时间戳14)得到的当前局部最优帧实际是时间戳11的图像帧。MM节点通过分析时间戳(比如时间戳18、时间戳34和时间戳50)的LV1信息，可以识别到场景为生日。MM节点通过分析比对时间戳0和时间戳16的图像信息(LV2信息)，可得知在时间戳16发生了转场。MM节点分析送入算法的当前帧(时间戳14)的LV3信息(比如，LV3信息包括以下维度：人脸相关、图像构图评价、动作检测以及基础图像质量评价)，并利用MM比较策略对时间戳14对应图像帧的评分与时间戳5(之前局部最优帧)的评分进行比较。另外，MM节点在获得图像帧的RAW数据时，可以将RAW数据暂存在缓存区。MM节点在识别到分数较高的数据帧时，将暂存在缓冲区的RAW数据送入拍照通路，触发RAW域算法拍照。MM节点可以将数据库(数据库包含图20中所示的不同粒度的决策信息，比如，时间戳5的信息：ID5，cls1，pri2，分数96；时间戳14的信息：ID14，cls1，pri2，分数99；发生转场时间戳：16,82,235，…主题：生日)反馈至相机框架层。

应理解，图20中的工作图只是示例描述，并不对本申请实施例构成限定。

在本申请实施例中，在录制视频时还可以支持用户手动抓拍图像，以期提升用户的拍摄体验。比如，参考图13中(2)所示的界面，在录像过程中，用户点击控件802可进行收到抓拍。

作为一种可能的实现方式，所述方法还包括：在录制视频时接收拍照请求，所述拍照请求携带(手动)抓拍标记；响应于所述拍照请求，触发拍照并获得第一图像，所述第一图像对应的可交换图像文件格式EXIF信息中包括所述抓拍标记。

在具体实现时，HAL层支持手动抓拍能力，通过拍照通路处理，可以生成第一图像以及对应的EXIF信息。

由上可知，本申请提供的视频处理方法，在录像过程中，用户即可同时获得高质量的精彩时刻的照片以及视频，极大提高了用户体验。

本申请还提供了一种计算机程序产品，该计算机程序产品被处理器执行时实现本申请中任一方法实施例所述的方法。

该计算机程序产品可以存储在存储器中，经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器执行的可执行目标文件。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时实现本申请中任一方法实施例所述的方法。该计算机程序可以是高级语言程序，也可以是可执行目标程序。

该计算机可读存储介质可以是易失性存储器或非易失性存储器，或者，可以同时包括易失性存储器和非易失性存储器。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和设备的具体工作过程以及产生的技术效果，可以参考前述方法实施例中对应的过程和技术效果，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例的一些特征可以忽略，或不执行。以上所描述的装置实施例仅仅是示意性的，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统。另外，各单元之间的耦合或各个组件之间的耦合可以是直接耦合，也可以是间接耦合，上述耦合包括电的、机械的或其它形式的连接。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

总之，以上所述仅为本申请技术方案的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种视频处理方法，其特征在于，包括：

响应于用户的第一操作，录制第一视频；

显示第一界面，所述第一界面是所述第一视频的播放界面，所述第一界面中包括第一控件和第一区域，所述第一区域显示第一照片的缩略图和第二照片的缩略图，所述第一照片是在第一时刻自动拍摄的，所述第二照片是在第二时刻自动拍摄的，所述第一视频的录制过程中包括所述第一时刻和所述第二时刻；

其中，所述第一视频包括第一视频片段和第二视频片段，所述第一视频片段为第一场景，所述第二视频片段为第二场景，所述第一照片是所述第一视频片段中的照片，所述第二照片是所述第二视频片段中的照片，所述第一照片的评分大于第一阈值，所述第二照片的评分大于第二阈值；

响应于对所述第一控件的第二操作，显示第二界面，所述第二界面是第二视频的播放界面，所述第二视频的时长小于所述第一视频的时长，所述第二视频中至少包括所述第一照片。
根据权利要求1所述的方法，其特征在于，所述第一视频片段中还包括第三照片，所述第三照片是在第三时刻自动拍摄的，所述第三照片的评分大于所述第一阈值。
根据权利要求1或2所述的方法，其特征在于，所述第一视频片段到所述第二视频片段间发生了一次转场。
根据权利要求1至3中任一项所述的方法，其特征在于，所述第一照片是第一类型的动作，所述第二照片是第二类型的动作。
根据权利要求1至3中任一项所述的方法，其特征在于，所述第一照片是风景，所述第二照片是人物。
根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

在自动拍摄所述第一照片之前，获取第四照片的评分，所述第四照片的评分小于或等于所述第一阈值，且，大于第三阈值；

将所述第三阈值的取值更新为第三照片的评分。
根据权利要求1至6中任一项所述的方法，其特征在于，所述第二视频片段中还包括第五照片，所述第五照片是在发生转场时自动拍摄的。
根据权利要求7所述的方法，其特征在于，所述第一区域中还包括所述第五照片的缩略图。
根据权利要求7或8所述的方法，其特征在于，所述转场距离上一次转场的时间大于时间阈值。
根据权利要求6至9中任一项所述的方法，其特征在于，所述第三阈值小于所述第二阈值。
根据权利要求1至10中任一项所述的方法，其特征在于，所述方法还包括：

响应于用户的第三操作，显示第三界面，所述第三界面为图库应用的界面，所述第三界面包括第二控件；

所述显示第一界面，包括：响应于对所述第二控件的第四操作，显示所述第一界面。
根据权利要求11所述的方法，其特征在于，所述第三界面还包括第一提示窗口，所述第一提示窗口用于向用户提示已生成了所述第一照片和所述第二照片。
根据权利要求12所述的方法，其特征在于，所述第一提示窗口的亮度以及所述第一区域的亮度，高于所述第一界面中除去所述第一区域和所述第一提示窗口以外的区域的亮度。
根据权利要求11至13中任一项所述的方法，其特征在于，所述方法还包括：

响应于用户的第五操作，停止对所述第一视频的录制，显示第四界面，所述第四界面包括预览缩略图选项；

其中，所述响应于用户的第三操作，显示第三界面，包括：

响应于用户对所述预览缩略图选项的第六操作，显示所述第三界面。
根据权利要求14所述的方法，其特征在于，所述第四界面还包括第二提示窗口，所述第二提示窗口用于向用户提示已经生成所述第一照片、所述第二照片以及所述第二视频。
根据权利要求1至15中任一项所述的方法，其特征在于，图库应用中包括第一相册，所述第一相册中包括所述第一照片和所述第二照片。
根据权利要求16所述的方法，其特征在于，所述第一相册还包括所述第二视频的虚拟视频。
根据权利要求17所述的方法，其特征在于，所述第二界面还包括：分享控件或保存控件；

响应于用户对所述分享控件或保存控件的第十操作，生成所述第二视频的视频文件；

将所述视频文件存储在所述第一相册中。
根据权利要求18所述的方法，其特征在于，所述视频文件占用的存储空间大于所述虚拟视频占用的存储空间。
根据权利要求1至19中任一项所述的方法，其特征在于，所述方法还包括：

如果在N天后未接收到用户查看所述第一照片的操作，自动删除所述第一照片。
根据权利要求1至20中任一项所述的方法，其特征在于，所述第二视频中还包括所述第二照片。
根据权利要求1至21中任一项所述的方法，其特征在于，所述第二视频中去除发生转场的时刻对应的图像帧，所述转场是指场景发生变化。
根据权利要求1至22中任一项所述的方法，其特征在于，所述第一照片的分辨率大于在所述第一视频中截取的图像的分辨率。
一种电子设备，其特征在于，包括处理器和存储器，所述处理器和所述存储器耦合，所述存储器用于存储计算机程序，当所述计算机程序被所述处理器执行时，使得所述电子设备执行权利要求1至23中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至23中任一项所述的方法。
一种芯片，其特征在于，包括处理器，当所述处理器执行指令时，所述处理器执行如权利要求1至23中任一项所述的方法。
一种计算机程序产品，其特征在于，包括计算机程序，当所述计算机程序被运行时，使得计算机执行如权利要求1至23中任一项所述的方法。