WO2021036318A1

WO2021036318A1 - 一种视频图像处理方法及装置

Info

Publication number: WO2021036318A1
Application number: PCT/CN2020/087634
Authority: WO
Inventors: 武勇; 赵厚强; 宋巍
Original assignee: 华为技术有限公司
Priority date: 2019-08-31
Filing date: 2020-04-28
Publication date: 2021-03-04
Also published as: CN112446255A; US20220270343A1

Abstract

本申请实施例公开了一种视频图像处理方法及装置，涉及图像处理领域，在视频采集显示过程中实现显示画面连续的画随人动。具体方案为：获取第i帧视频图像中每个人物的身份信息及位置信息；根据第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从第i帧视频图像中确定M个主体人物；其中，N个视频图像帧中的人物的身份信息包括M个主体人物的身份信息；根据主体人物的位置信息，裁剪第i帧视频图像，裁剪后的第i帧视频图像包括M个主体人物；将裁剪后的第i帧视频图像缩小或放大，以便显示屏按照预设显示规格显示裁剪后的第i帧视频图像。

Description

一种视频图像处理方法及装置

本申请要求于2019年08月31日提交国家知识产权局、申请号为201910819774.X、发明名称为“一种视频图像处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理领域，尤其涉及一种视频图像的处理方法及装置。

背景技术

随着图像技术的飞速发展，用户对视频画面的显示有了更高的需求。例如，视频通话过程中的视频画面显示、监控场景中的视频画面显示。常规的视频采集显示过程是由采集设备采集视频图像，按照显示规格对采集的视频图像进行相应的裁剪、缩放，然后编码发送至显示设备以进行显示。

通常采集显示基于固定硬件平台实现，由采集摄像头采集固定视野的视频图像。当采集端的人物位置变化时，由于采集摄像头对人物不感知，显示端的画面始终保持固定视野显示，达不到“画随人动”的效果，用户体验差。

基于此，业界将人物感知技术应用于图像采集显示过程，具体方案为：摄像头按固定视野进行大分辨率采集，对采集到的视频图像利用人体感知技术进行人体检测跟踪，实时定位出人物位置，在人物位置发生移动时，能根据实时定位的人物位置(移动后的人物位置)对大分辨率视频图像进行相应的裁剪、缩放，得到适应显示规格，且人物位于图像中特定区域的小分辨率图像，从而实现根据人物位置实时调整显示画面，达到“画随人动”的效果。

但是，当采集端设备环境复杂(例如，背景画面复杂或者有其他人物频繁进出画面)时，上述方法可能出现误检漏检导致某些帧定位出的人物位置不准确，裁剪缩放后的小分辨率图像中不能显示或者不能完整显示人物，使得呈现的主体人物的画面不连续。

发明内容

本申请提供一种视频图像处理方法及装置，在视频通话中实现显示画面连续的画随人动。

为了达到上述目的，本申请采用如下技术方案：

第一方面，提供一种视频图像处理方法，该方法可以包括：获取第i帧视频图像中每个人物的身份信息及位置信息；i大于1；根据第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从第i帧视频图像中确定M个主体人物；M、N大于或等于1；根据主体人物的位置信息，裁剪第i帧视频图像，裁剪后的第i帧视频图像包括M个主体人物；将裁剪后的第i帧视频图像缩小或放大，以便显示屏按照预设显示规格显示裁剪后的第i帧视频图像。

通过本申请提供的视频图像处理方法，在确定视频图像的主体人物时，结合了本帧图像的人物身份信息以及本帧之前的N个视频图像帧的人物身份信息，使得人物感知过程的准确度大大提高，确定的主体人物位置的准确性相应提高，这样就能保证按照主体人物裁剪缩放后的小分辨率图像中能完整显示主体人物，以保证呈现的主体人物的画面连续，以实现在图像采集显示过程中通过软件的方式达到画面连续的画随人动。

其中，人物的身份信息用于在不同帧中唯一指示同一个人物，身份信息可以是通过检测跟踪算法得到的该人物的标志信息，即每个人物具有各自不同的特征信息。

第i帧视频图像为视频流中任一帧视频图像，i小于或等于视频流的总帧数。在执行本申请提供的视频图像处理方法时，对于视频流中每一帧图像均执行本申请提供的视频图像处理方法，保证每一帧图像裁剪后都能完整显示主体人物，其他不再一一赘述。

可选的，第i帧视频图像之前的N个视频图像帧，可以为视频流中与第i帧视频图像连续的前N个视频图像帧，或者，也可以为视频流中与第i帧视频图像不连续的前N个视频图像帧，或者，也可以为视频流中预设时间段内的视频图像帧。

其中，N个视频图像帧中的人物的身份信息包括该M个主体人物的身份信息，即该M个主体人物在前N个视频图像帧中出现过。具体的，一个人物是否在视频图像中出现，由人物的身份信息识别。

结合第一方面，在一种可能的实现方式中，根据第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从第i帧视频图像中确定M个主体人物，可以包括：根据第i帧视频图像中每个人物的身份信息和第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从第i帧视频图像中确定M个主体人物。

一种可能的实现方式中，可以将在前N个视频图像帧中出现过且出现在第i帧视频图像帧中，满足预设条件的人物确定为主体人物。其中，预设条件可以根据实际情况进行配置，本申请对此不予限定。

结合第一方面及上述任一种可能的实现方式，在另一种可能的实现方式中，根据第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从第i帧视频图像中确定M个主体人物，具体可以实现为：将在N个视频图像帧中出现的帧数大于等于第一预设阈值并且出现在第i帧视频图像中的人物确定为M个主体人物。通过累计帧数确定主体人物，避免了未参与视频通话的人员进出画面对人物识别的干扰，提高了人物识别的准确度。

具体的，确定第i帧视频图像中一个人物是否为主体人物的过程可以包括：统计该人物在N个视频图像帧中的累计出现帧数，若累计出现帧数大于或等于第一预设阈值，则该人物确定主体人物。一个视频图像帧中是否出现该人物，具体可以实现为：该视频图像帧中是否含有与该人物具有相同身份信息的人物。

其中，一个人物的累计出现帧数，为第i帧视频图像之前的N个视频图像帧中出现该人物的连续视频图像帧的数量；连续视频图像帧中可以包括S帧未出现该人物的视频图像帧；S大于或等于0，小于或等于预设帧数。

结合第一方面及上述任一种可能的实现方式，在另一种可能的实现方式中，本申请提供的视频图像处理方法还可以包括：将第i帧视频图像划分为Y个区域；配置每个区域对应的预设阈值；第k区域对应的预设阈值为第k预设阈值；第k区域为Y个区域中任一个区域；Y大于或等于2；k大于或等于1，小于或等于Y。其中，不同区域对应的预设阈值可以不同。相应的，根据第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从第i帧视频图像中确定M个主体人物，具体实现为：将在N个视频图像帧中出现的帧数大于等于所在区域对应的预设阈值并且出现在第i帧视频图像中的人物确定为M个主体人物。通过为不同区域配置不同预设阈值，提高确定主体人物的准确度，进而提高了人物识别的准确度。

结合第一方面，在一种可能的实现方式中，上述方法还包括：获取第i帧视频图像中每个人物的人物信息，人物信息可以包括下述信息中一项或多项：是否讲话信息、优先级信息。相应的，根据第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从第i帧视频图像中确定M个主体人物，具体可以实现为：将在N个视频图像帧中讲话的帧数大于等于第二预设阈值并且出现在第i帧视频图像中的人物确定为M个主体人物。或者，将在N个视频图像帧中优先级信息大于第三预设阈值并且出现在第i帧视频图像中的人物确定为M个主体人物。或者，将在N个视频图像帧中讲话的帧数大于等于第二预设阈值并且出现在第i帧视频图像中的人物，按照优先级信息选择最重要的M个确定为M个主体人物。

其中，是否讲话信息用于指示视频图像中人物正在讲话或者未讲话。可以采用音频处理技术结合视频图像中人物的口型以获取人物是否讲话信息，或者，可以直接通过视频图像中人物的口型获取人物是否讲话信息。

优先级信息用于指示视频图像中人物的重要程度，可以预先配置使用设备的不同人的优先级信息与人物的身份信息对应。然后，在处理每一帧视频图像时，在获取到人物的身份信息时，查找预先配置的优先级信息，得到该人物的优先级信息。或者，可以接收用户对视频图像中不同人物输入的优先级信息。

结合第一方面及上述任一种可能的实现方式，在另一种可能的实现方式中，本申请提供的视频图像处理方法还可以包括：接收用户输入的优先级信息。以实现用户实时配置人物优先级等级，提高人物识别准确度。

结合第一方面及上述任一种可能的实现方式，在另一种可能的实现方式中，根据主体人物的位置信息，裁剪第i帧视频图像，具体可以实现为：确定裁剪框，该裁剪框包含M个主体人物的最小外接矩形框；以确定的裁剪框裁剪第i帧视频图像。

其中，裁剪框可以为M个主体人物的最小外接矩形框加裁剪余量，裁剪余量可以大于或等于0。

需要说明的是，裁剪框包含M个主体人物的最小外接矩形框可以理解为：确定的裁剪框尽量完整的包含M个主体人物的最小外接矩形框。

结合第一方面及上述任一种可能的实现方式，在另一种可能的实现方式中，确定裁剪框具体可以实现为：获取待选裁剪框的中心点与前一帧视频图像的裁剪框的中心点的距离，待选裁剪框包括M个主体人物的最小外接矩形框；若距离大于或等于距离阈值，将待选裁剪框扩大至与前一帧视频图像的裁剪框的中心点的距离小于预设阈值，将扩大后的待选裁剪框作为确定的裁剪框。

其中，待选裁剪框可以为M个主体人物的最小外接矩形框加裁剪余量，裁剪余量可以大于或等于0。

结合第一方面及上述任一种可能的实现方式，在另一种可能的实现方式中，确定裁剪框具体可以实现为：获取第一待选裁剪框的中心点与前一帧视频图像的裁剪框的中心点的距离，第一待选裁剪框包括M个主体人物的最小外接矩形框；若该距离大于或等于距离阈值，确定第二裁剪框，第二裁剪框的中心点为前一帧视频图像的裁剪框的中心点加偏移量，第二裁剪框的大小与前一帧视频图像的裁剪框的大小相同；若第二裁剪框包含M个主体人物的最小外接矩形框，将第三裁剪框作为裁剪框；其中，第三裁剪框为第二裁剪框，或者，第三裁剪框为第二裁剪框缩小至包含最小外接矩形框的裁剪框；若第二裁剪框未完整包含最小外接矩形框，将第二裁剪框扩大至包含最小外接矩形框，将扩大后的第二裁剪框作为裁剪框。

其中，偏移量可以为预设值，或者，也可以为第一待选裁剪框的中心点与前一帧视频图像的裁剪框的中心点的距离乘以加权值，或者其他。

结合第一方面及上述任一种可能的实现方式，在另一种可能的实现方式中，当人物信息包括优先级信息时，待选裁剪框或者第一待选裁剪框可以为以M个主体人物中优先级最高的人物为中心且包含M个主体人物的外接矩形框加裁剪余量。

结合第一方面及上述任一种可能的实现方式，在另一种可能的实现方式中，当人物信息包括是否讲话信息时，待选裁剪框或者第一待选裁剪框可以为以M个主体人物中讲话人物为中心且包含M个主体人物的外接矩形框加裁剪余量。

结合第一方面及上述任一种可能的实现方式，在另一种可能的实现方式中，本申请提供的视频图像处理方法还可以包括：按照预设显示规格显示裁剪后的第i帧视频图像。其中，预设显示规格可以为适应显示屏的规格，或者，也可以为预设的显示屏占比。

结合第一方面及上述任一种可能的实现方式，在另一种可能的实现方式中，本申请提供的视频图像处理方法还可以包括：保存第i帧视频图像中每个人物下述信息中至少一项：身份信息、位置信息、人物信息。

结合第一方面及上述任一种可能的实现方式，在另一种可能的实现方式中，本申请提供的视频图像处理方法还可以包括：获取第j帧视频图像，j小于或等于X，X大于1；获取并保存第j帧视频图像中每个人物的身份信息及位置信息；将第j帧视频图像直接缩小为预设显示规格的图像。

结合第一方面或上述任一种可能的实现方式，在另一种可能的实现方式中，本申请提供的视频图像处理方法应用于视频通话中的发送端设备，本申请提供的视频图像处理方法还可以包括：向接收端设备发送缩小或放大后的第i帧视频图像。

第二方面，本申请提供一种视频图像处理装置，该装置可以是电子设备，也可以是电子设备中的装置或者芯片系统，或者是能够和电子设备匹配使用的装置。该视频图像处理装置可以实现上述各方面或者各可能的设计中所执行的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个上述功能相应的模块。如：该视频图像处理装置可以包括：获取单元、确定单元、裁剪单元及缩放单元。

其中，获取单元，用于获取第i帧视频图像中每个人物的身份信息及位置信息；i大于1；确定单元，用于根据第i帧视频图像之前的N个视频图像帧中人物的身份信息，从第i帧视频图像中确定M个主体人物；M、N大于或等于1；其中，N个视频图像帧中的人物的身份信息包括M个主体人物的身份信息；裁剪单元，根据主体人物的位置信息，裁剪第i帧视频图像，裁剪后的第i帧视频图像包括M个主体人物；缩放单元，将裁剪后的第i帧视频图像缩小或放大，以便显示屏按照预设显示规格显示裁剪后的第i帧视频图像。

需要说明的是，第二方面提供的视频图像处理装置，用于执行上述第一方面提供的视频图像处理方法，具体实现可以参考上述第一方面的具体实现。

第三方面，本申请实施例提供一种电子设备，该电子设备可以包括：处理器，存储器；处理器，存储器耦合，存储器可用于存储计算机程序代码，计算机程序代码包括计算机指令，当计算机指令被电子设备执行时，使得电子设备执行如第一方面或任一种可能的实现方式面所述的视频图像处理方法。

第四方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质可以包括：计算机软件指令；当计算机软件指令在电子设备中运行时，使得该电子设备执行如第一方面或第一方面的可能实现方式中任一项所述的视频图像处理方法。

第五方面，本申请实施例提供一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得该计算机执行如权利要求第一方面或任一种可能的实现方式中任一项所述的视频图像处理方法。

第六方面，本申请实施例提供一种芯片系统，该芯片系统应用于电子设备；芯片系统包括接口电路和处理器；接口电路和处理器通过线路互联；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行该计算机指令时，芯片系统执行如第一方面或任一种可能的实现方式中任一项所述的视频图像处理方法。

第七方面，本申请实施例提供一种图形用户界面(graphical user interface，GUI)，该图形用户界面存储在电子设备中，该电子设备包括显示器、存储器、一个或多个处理器；一个或多个处理器用于执行存储在存储器中的一个或多个计算机程序，该图形用户界面包括：显示在所述显示器上的GUI，该GUI包括视频画面，该视频画面中包括经上述第一方面或任一种可能的实现方式处理后的第i帧视频图像，该视频画面是其他电子设备(如称为第二电子设备)传输给该电子设备的，第二电子设备包括显示屏和摄像头。

应当理解的是，本申请中对技术特征、技术方案、有益效果或类似语言的描述并不是暗示在任意的单个实施例中可以实现所有的特点和优点。相反，可以理解的是对于特征或有益效果的描述意味着在至少一个实施例中包括特定的技术特征、技术方案或有益效果。因此，本说明书中对于技术特征、技术方案或有益效果的描述并不一定是指相同的实施例。进而，还可以任何适当的方式组合本实施例中所描述的技术特征、技术方案和有益效果。本领域技术人员将会理解，无需特定实施例的一个或多个特定的技术特征、技术方案或有益效果即可实现实施例。在其他实施例中，还可在没有体现所有实施例的特定实施例中识别出额外的技术特征和有益效果。

附图说明

图1为本申请实施例提供的一种视频场景示意图；

图2为本申请实施例提供一种视频通话场景的系统架构示意图；

图3为本申请实施例提供的一种视频图像示意图；

图4为本申请实施例提供的一种视频图像处理示意图；

图5为本申请实施例提供的一种视频图像处理结果的示意图；

图6为本申请实施例提供的又一种视频图像处理结果的示意图；

图7为本申请实施例提供的一种视频监控场景的系统架构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图；

图9为本申请实施例提供的一种视频图像处理方法的流程示意图；

图10为本申请实施例提供的一种视频通话界面示意图；

图11为本申请实施例提供的另一种视频通话界面示意图；

图12为本申请实施例提供的又一种视频通话界面示意图；

图13为本申请实施例提供的又一种视频图像处理示意图；

图14为本申请实施例提供的又一种视频图像处理示意图；

图15为本申请实施例提供的又一种视频图像处理示意图；

图16为本申请实施例提供的另一种视频图像处理方法的流程示意图；

图17A为本申请实施例提供的又一种视频通话界面示意图；

图17B为本申请实施例提供的又一种视频通话界面示意图；

图18A为本申请实施例提供的又一种视频通话界面示意图；

图18B为本申请实施例提供的又一种视频通话界面示意图；

图18C为本申请实施例提供的又一种视频通话界面示意图；

图19为本申请实施例提供的又一种视频图像处理示意图；

图19A为本申请实施例提供的又一种视频图像处理示意图；

图19B为本申请实施例提供的又一种视频通话界面显示图；

图20为本申请实施例提供的又一种视频图像处理示意图；

图20A为本申请实施例提供的又一种视频通话界面显示图；

图21为本申请实施例提供的又一种视频图像处理示意图；

图21A为本申请实施例提供的又一种视频图像处理示意图；

图21B为本申请实施例提供的又一种视频通话界面显示图；

图22为本申请实施例提供的又一种视频图像处理示意图；

图22A为本申请实施例提供的又一种视频通话界面显示图；

图23为本申请实施例提供的一种监控场景视频图像处理示意图；

图24为本申请实施例提供的又一种监控场景视频图像处理示意图；

图25为本申请实施例提供的又一种监控场景视频图像处理示意图；

图26为本申请实施例提供的又一种监控场景视频图像处理示意图；

图27为本申请实施例提供的一种视频图像处理装置的结构示意图；

图28为本申请实施例提供的又一种视频图像处理装置的结构示意图。

具体实施方式

基于此，本申请提出一种新的业务传输方法，用于在UE配置的多载波支持不同的numerology时，调整载波的功率，其基本原理是：UE使用多个载波传输业务时，一个载波中的功率调整位置使用基站配置或指示的发射功率发送信号，其余载波的功率调整位置使用小于或等于基站配置或指示的发射功率发射信号。不同载波的功率调整位置时间资源上有重叠。本申请仅调整功率调整位置，功率调整位置可以根据实际需求灵活配置，已经调度的业务也可以降功率，以保证临时突发业务也能保证其发射功率。

本申请说明书和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于限定特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了便于理解，先对本申请涉及的名词进行解释。

视频流，可以指视频业务中传输的数据，即视频通话、视频会议或监控场景中动态的连续图像序列。

视频图像，可以指静态画面，视频流中的每一帧图像称之为视频图像。

人物，可以指视频图像中活动或静止的人。当然，本申请的应用场景中，不仅可以适用于视频图像中活动或静置的人，还可以适用于视频图像中其他主体对象，例如活动或静动物或者其他事物。下面将以视频图像中的人物作为举例进行说明，不应造成应用场景的限定。

身份信息，可以指视频图像中通过人体检测跟踪算法识别出的每个人物的特征标识，用于在不同帧中唯一标识同一个人物，以区分不同的人物个体。身份信息可以包括但不限于样貌信息、标注信息、或者其他识别出来的特征信息。身份信息的表达形式可以包括文字、序号、人物编号或者其他与个体特征有关信息。

位置信息，可以用于指示视频图像中人物在该视频图像中的相对位置或者区域。位置信息的形式可以为视频图像中人物的一个或多个点的像素位置，或者人物轮廓的像素位置，或者人物所在区域的像素位置等。像素位置可以通过像素坐标或者其他指示。位置信息是用于指示人物在视频图像中的相对位置，并不局限于具体地点。

人物信息，可以是指通过识别算法或者标记算法获取的视频图像中每个人物的附加信息，以更好的进行人物识别、确定主体人物。该人物信息可以包括但不限于下述信息中一项或多项：人物是否讲话信息、人物优先级信息等。

目前，在视频采集显示过程中为了实现画随人动，业界有两种方案。

一种是硬件实现方案，采用带有云台的摄像头，并辅助额外的人物定位设备(如通过语音定位出说话者位置)定位人物位置，然后控制云台将摄像头指向说话者的方向进行采集。云台摄像头的硬件方案，体积大、成本高，不利于大规模普及。

另一种是软件算法实现方案，摄像头按固定视野进行大分辨率采集，人物检测跟踪算法实时定位出人物位置，然后根据定位出的人物位置对大分辨率图像进行相应的裁剪、缩小或放大(缩放)，得到既定规格的小分辨率图像。但软件方案可能存在误检、漏检等缺陷，若定位后直接裁剪，人物感知的准确性不高，最终显示画面的连续性将难以保证。

基于此，本申请实施例提供一种视频图像处理方法，以通过软件方式实现呈现的主体人物的画面连续的画随人动，该方法可以应用于电子设备。在本实施例提供的方法中，对视频图像进行处理定位出人物后，结合当前帧以及历史帧的人物身份信息确定主体人物，按照主体人物裁剪缩放采集的当前帧视频图像。使得人物感知过程的准确度大大提高，确定的主体人物位置的准确性相应提高，这样就能保证按照主体人物裁剪缩放后的小分辨率图像中能完整显示主体人物，以保证呈现的主体人物的画面连续，以实现在图像采集显示过程中通过软件的方式达到画面连续的画随人动。

下面将结合附图对本申请实施例的实施方式进行详细描述。

本申请实施例提供的视频图像处理方法可以应用于电子设备的视频图像采集显示过程。该图像采集显示过程可以是视频通话(视频会议)场景或视频监控场景中或者其他。示例性的，视频图像采集显示过程为视频通话场景时，如图1所示，用户A使用电子设备1，用户B使用电子设备2，用户A与用户B进行视频通话。

图2为本申请实施例提供的一种上述视频图像处理方法应用于视频通话场景中的系统架构示意图。如图2所示，该系统架构可以包括发送端设备201及接收端设备202。

具体的，发送端设备201可以作为视频通话的一端，与接收端设备202进行通话。例如，一个或多个用户1可通过发送端设备201与接收端设备202的一个或多个用户2进行通话。

其中，本实施例中的通话可以是指视频通话，或视频会议。因此，发送端设备201至少包括摄像头和显示屏，接收端设备202也至少包括摄像头和显示屏。另外，发送端设备201、接收端设备202还可以包括听筒(或喇叭)，话筒等。摄像头可用于采集通话过程中的视频图像。显示屏可用于显示通话过程中的图像。听筒(或喇叭)用于播放通话过程中的语音。话筒用于采集通话过程中的语音。

具体的，如图2所示，发送端设备201包括视频采集器2011、视频前处理器2012、视频编码器2013、发送器2014。接收端设备202包括视频显示器2021、视频后处理器2022、视频解码器2023、接收器2024。

其中，图2示意的系统架构的工作流程为：发送端设备201中的视频采集器2011对视频通话中的视频图像逐帧进行视频图像采集，将采集到的视频图像传给视频前处理器2012进行相应地预处理(包括但不限于：人物识别、裁剪、缩放等)，然后经视频编码器2013进行编码后传给发送器2014，发送器2014将编码后的视频图像通过有线或无线介质发送给接收端设备202的接收器2024，接收器2024将接收到的视频图像传给视频解码器2023进行解码，解码后的视频图像经视频后处理器2022的处理后传给视频显示器2021进行显示。

示例性的，本申请实施例中所述的电子设备可以是电视机、手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑(如华为笔记本电脑)、台式电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备等包括或连接有显示屏和摄像头的设备，本申请实施例对该设备的具体形态不作特殊限制。

另外，在一些实施例中，上述发送端设备201、接收端设备202可以为相同类型的电子设备，如发送端设备201、接收端设备202均为电视机。在其他一些实施例中，上述发送端设备201、接收端设备202可以为不同类型的电子设备，如发送端设备201为电视机，接收端设备202为笔记本电脑。此处结合具体示例，对视频通话或视频会议中的视频图像传输过程进行示例说明。

例如，在图1所示的场景中，假设电子设备1为发送端设备、电子设备2为接收端设备。在某一时刻其摄像头采集的固定视野的视频图像可以如图3所示。电子设备1对图3所示的视频图像采用人物检测跟踪算法识别出人物的身份信息和位置信息。例如，该位置信息可以如图4所示的坐标。其中，此处的坐标，示例为人物中每个关键点的具体坐标，该关键点可以包括但不限于：头部、肩膀、胳膊、手、腿、脚、眼睛、鼻子、嘴巴及衣服等。图4中将坐标示意为不同的点，每个坐标点具有在视频图像中的确定坐标值。电子设备1确定识别出的人物的最小外接矩形框如图4所示。假设电子设备2的显示规格宽w高h的分辨率图像，电子设备1以最小外接矩形框裁为中心，按照电子设备2的显示规格的宽高比例，裁剪图3所示的视频图像，得到图5所示的裁剪结果。电子设备1将图5所示的裁剪结果，缩放为宽w高h的分辨率图像如图6所示。具体的缩放过程为：若裁剪结果的分辨率小于宽w高h，则进行放大；若裁剪结果的分辨率大于宽w高h，则进行缩小。

图7为本申请实施例提供的一种上述视频图像处理方法应用于视频监控场景的系统架构示意图。如图7所示，该系统架构可以包括采集设备701、处理设备702、存储设备703、显示设备704。

需要说明的是，图7中示意的系统架构中包括的设备可以集中部署，也可以分布式部署。图7中示意的系统架构中包括的设备可以部署在至少一个电子设备中。

其中，图7示意的系统架构的工作流程为：采集设备701对逐帧进行视频图像采集，将采集到的视频图像传给处理设备702进行相应地预处理(包括但不限于：人物识别、裁剪、缩放等)后存储至存储设备703。显示设备704从存储设备703中获取视频图像并显示。

图8为本申请实施例提供的一种电子设备的结构示意图。上述发送端设备201、接收端设备202、图7中示意的系统架构中包括的设备所在的电子设备的结构可以如图8所示。

如图8所示，电子设备可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中，传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，神经网络处理器(neural-network processing unit，NPU)等中的一个或多个。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，SIM接口，USB接口等中的一个或多个。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142，充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备上的包括第二代手机通信技术(the second generation mobile communication technology，2G)/第三代手机通信技术(the 3rd generation mobile communication technology，3G)/第四代手机通信技术(the 4th generation mobile communication technology，4G)/第五代手机通信技术((the 5th generation mobile communication technology，5G)等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备可以通过无线通信技术与网络以及其他设备通信。例如，电子设备可以通过天线1和移动通信模块150与其他电子设备进行视频通话或视频会议。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，IR技术等中的一个或多个。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)，星基增强系统(satellite based augmentation systems，SBAS)等中的一个或多个。

电子设备通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备可以包括1个或N个显示屏194，N为大于1的正整数。例如，在本申请实施例中，在用户利用电子设备与其他电子设备的用户进行视频通话或视频会议的过程中，显示屏194可以显示视频接听界面，或视频提醒界面，或视频通话界面，或视频监控界面(如包括对端设备发送的视频图像，本设备采集到的视频图像)。

电子设备可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。例如，在本申请实施例中，摄像头193可用于采集视频通话或视频会议过程中的视频图像。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备可以包括1个或N个摄像头193，N为大于1的正整数。在本实施例中，该摄像头193可以采用隐藏式方式设置在电子设备中，也可以不采用隐藏式方式设置，本实施例在此不做具体限制。

数字信号处理器用于处理数字信号。例如，对数字视频图像采用人体监测跟踪算法，确定出视频图像中的主体人物后对视频图像进行相应的裁剪、缩放，得到适应接收端设备显示规格的图像等。

视频编解码器用于对数字视频压缩或解压缩。电子设备可以支持一种或多种视频编解码器。这样，电子设备可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备的各种功能应用以及数据处理。例如，在本申请实施例中，处理器110可以通过执行存储在内部存储器121中的指令，对视频图像进行处理定位出人物后，结合当前帧人物信息以及历史帧人物信息确定主体人物，按照主体人物裁剪缩放采集的当前帧视频图像，保证接收端设备显示画面连续，以实现在视频通话中显示画面连续的画随人动。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。在本实施例中，内部存储器121还可用于存储摄像头193采集到的原大分辨率视频图像、经过处理器110人物识别、人物筛选、裁剪缩放的小分辨率视频图像，以及每一帧视频图像的人物信息等。

电子设备可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如通话，音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息或需要通过语音助手触发电子设备执行某些功能时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备可以设置至少一个麦克风170C。在另一些实施例中，电子设备可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备根据压力传感器180A检测所述触摸操作强度。电子设备也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备是翻盖机时，电子设备可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备在各个方向上(一般为三轴)加速度的大小。当电子设备静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备通过发光二极管向外发射红外光。电子设备使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备附近有物体。当检测到不充分的反射光时，电子设备可以确定电子设备附近没有物体。电子设备可以利用接近光传感器180G检测用户手持电子设备贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备对电池142加热，以避免低温导致电子设备异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备可以接收按键输入，产生与电子设备的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备的接触和分离。电子设备可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备中，不能和电子设备分离。

以下实施例中的方法均可以在具有上述硬件结构的电子设备中实现。

图9为本申请实施例提供的一种视频图像处理方法的流程示意图。在本申请中，电子设备对视频通话或视频监控中的视频流逐帧处理，每获取一帧视频图像则按照本申请提供的图像处理方法进行处理，电子设备对于每一帧图像的处理方式相同，下述实施例仅描述电子设备处理第i帧视频图像的详细过程，其他不再一一赘述。第i帧视频图像为视频流中任一帧视频图像。如图9所示，该方法可以包括：

S901、电子设备获取第i帧视频图像中每个人物的身份信息及位置信息。

其中，i大于1，i小于或等于视频流的总帧数。

例如的，i可以大于或等于X，X为预先配置的视频流中开始执行本申请实施例提供的视频图像处理方法的帧数门限值。

具体的，在S901中，电子设备可以采用人体检测跟踪算法来识别第i帧视频图像中人物，识别出的人物为一个或多个，在识别人物的同时可以获取到每个人物的身份信息及位置信息。

需要说明的是，人体检测跟踪算法是一种图像处理技术，用于识别图像中的人物，本申请实施例对于人体检测跟踪算法的具体实现不进行限定。例如，人体检测跟踪算法可以为YOLO算法或者SSD算法或者其他。

具体的，一个人物的身份信息可以用于在不同帧中唯一指示同一个人物，身份信息可以是通过检测跟踪算法得到的该人物的标志信息，即每个人物具有各自不同的特征信息。或者，身份信息也可以是特征信息对应的人物编号。

人物的位置信息可以为人物的一个或多个关键点在视频图像中的唯一坐标值。

进一步的，如图16所示，本申请实施例提供的视频处理方法还可以包括S901a。

S901a、电子设备获取第i帧视频图像中每个人物的人物信息。

其中，人物信息可以包括下述信息中一项或多项：是否讲话信息、优先级信息。在实际应用中，对于人物信息包括的内容可以不受本文内容局限，根据实际需求配置。

优先级信息用于指示视频图像中人物的重要程度，可以预先配置使用设备的不同人的优先级信息与人物的身份信息对应。然后，在处理每一帧视频图像时，在获取到人物的身份信息时，查找预先配置的优先级信息，得到该人物的优先级信息。或者，可以接收用户对视频图像中不同人物输入的优先级信息。或者，优先级信息可以通过是否讲话信息转换得到，例如，讲话的人物的优先级高于未讲话的人物的优先级，讲话时间长的人物的优先级高于讲话时间短的人物。

示例性的，电子设备中存储了不同人物的照片信息以及对应的优先级信息，在进行视频图像处理时，若视频图像中识别出的人物与存储的某一照片相似度大于相似门限，则将存储的照片对应的优先级信息作为识别出的人物的优先级信息。

其中，电子设备中存储的不同人物的照片信息以及对应的优先级信息，可以由用户进入电子设备的功能配置界面，人工输入不同人物的照片及优先级信息，由电子设备存储；或者，可以由电子设备记录历史视频采集显示过程中得到的不同人物的照片信息以及对应的优先级信息；或者，可以由用户人工输入不同人物的照片及优先级信息，同时电子设备在每次进行视频采集显示时，动态更新不同人物的照片及对应的优先级信息。

可选的，当优先级信息由电子设备的用户输入时，本申请提供的视频图像处理方法还可以包括：接收用户输入的优先级信息。

此处通过示例对用户输入优先级信息的过程进行说明。

例如，用户给视频图像中识别出的某一人物配置优先级信息时，可以在电子设备的屏幕长按以显示配置菜单，进行配置。如图10所示，假设电子设备采集的视频图像为图10中的画面，用户长按该画面中某一人物的位置(图10中手指位置用于指示用户长按的位置，仅为示例不构成限定)，电子设备向用户显示图11中示意的配置菜单，用户在图11示意的配置菜单中可以选择选择“配置人物优先级信息”进行优先级配置。当用户选择图11中“配置人物优先级信息”时，电子设备显示图12所示的交互界面，用户在该界面输入该人物的优先级信息，电子设备同时抓取该人物的照片，将照片与用户在图12界面输入的重要程度记录存储。

S902、电子设备根据第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从第i帧视频图像中确定M个主体人物。

其中，N个视频图像帧中的人物的身份信息包括M个主体人物的身份信息。应理解，该N个视频图像帧中的所有的人物的身份信息包括该M个主体人物的身份信息，即，该M个主体人物在前N个视频图像帧中出现过。

其中，第i帧视频图像之前的N个视频图像帧中的人物的身份信息，是由电子设备执行S901处理相应的视频图像获取之后保存的，具体过程与S901相同，不再赘述。

具体的，N大于或等于1。可选的，N可以小于或等于i-1。在实际应用中，N的具体取值可以根据实际需求配置。

可选的，第i帧视频图像之前的N个视频图像帧，可以为视频流中与第i帧视频图像相邻的前N个视频图像帧，或者，也可以为视频流中与第i帧视频图像不相邻的前N个视频图像帧，或者，也可以为视频流中预设时间段内的视频图像帧。本申请实施例对于第i帧视频图像之前的N个视频图像帧在视频流中的具体位置不进行限定。

一种可能的实现中，在处理一个视频流的过程中，N的取值也可以为动态值，当i小于配置门限时，N取等于i-1，当i大于配置门限时，N取小于i-1的固定值，当i等于配置门限时，N可以取等于i-1，也可以取小于i-1的固定值，本申请不进行具体限定。

其中，N取小于i-1的固定值时，固定值的具体取值可以根据经验配置，本申请不进行具体限定。

其中，M可以为一个或多个。本申请实施例对于M的取值不进行具体限定。

一种可能的实现中，M可以为每个视频图像帧中确定的主体人物的总数量。

另一种可能的实现中，M可以为预先配置的固定值。

一种可能的实现方式中，S902可以实现为：电子设备根据第i帧视频图像中每个人物的身份信息和第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从第i帧视频图像中确定M个主体人物。例如，电子设备可以将第i帧视频图像中每个人物的身份信息，与第i帧视频图像之前的N个视频图像帧中的人物的身份信息进行比对，确定第i帧视频图像之前的N个视频图像帧中的人物的身份信息与第i帧视频图像中每个人物的身份信息的匹配部分对应的人物，作为待选人物，再从待选人物中确定主体人物。

具体的，在S902中电子设备可以将在前N个视频图像帧中出现过(根据身份信息识别)且出现在第i帧视频图像帧中，且满足预设条件的人物确定为主体人物。其中，该预设条件可以根据实际情况进行配置，本申请对此不予限定。例如，预设条件可以为人物在前N个视频图像帧中出现过的帧数大于或等于阈值。

具体的，S902可以通过但不限于下述几种可能的实现。

实现1、电子设备将在N个视频图像帧中出现的帧数大于等于第一预设阈值并且出现在第i帧视频图像中的人物确定为M个主体人物。

实现2、电子设备将第i帧视频图像划分为Y个区域；配置每个区域对应的预设阈值；第k区域对应的预设阈值为第k预设阈值；第k区域为Y个区域中任一个区域；Y大于或等于2；k大于或等于1，小于或等于Y。将在N个视频图像帧中出现的帧数大于等于所在区域对应的预设阈值并且出现在第i帧视频图像中的人物确定为M个主体人物。

其中，在实现2中，不同区域对应的预设阈值可以不同。

例如，Y等于3，将视频图像划分为图13所示左中右3个预设区域，分别记录为区域1、区域2及区域3，为每个区域配置的预设阈值分别记录为阈值1、阈值2、阈值3，阈值1、阈值2、阈值3不同。那么，若第i帧视频图像中识别出人物A位于区域2，人物A的累计出现帧数大于阈值2，则将人物A确定为主体人物。若第i帧视频图像中识别出人物B位于区域3，人物B的累计出现帧数小于阈值3，则人物B不是主体人物。

需要说明的是，Y也可以为1，此时实现2的具体实现与上述实现1相同，不再赘述。

实现3、对应于S901a获取了第i帧视频图像中每个人物的人物信息，S902具体实现为：

将在N个视频图像帧中讲话的帧数大于等于第二预设阈值并且出现在第i帧视频图像中的人物确定为M个主体人物。或者，将在N个视频图像帧中优先级信息大于第三预设阈值并且出现在第i帧视频图像中的人物确定为M个主体人物；或者，将在N个视频图像帧中讲话的帧数大于等于第二预设阈值并且出现在第i帧视频图像中的人物，按照优先级信息选择最重要的M个确定为M个主体人物。

需要说明的是，上述各个预设阈值的取值，可以根据实际需求配置，本申请实施例对此不进行具体限定。累计出现帧数也可以转换为累计出现时长，相应的预设阈值的内容则可以为时间阈值。

S903、电子设备根据主体人物位置信息，裁剪第i帧视频图像。

其中，裁剪后的第i帧视频图像包括M个主体人物，应理解，裁剪后的第i帧视频图像可以完整显示M个主体人物。

具体的，电子设备根据主体人物位置信息，裁剪第i帧视频图像，具体可以实现为：确定裁剪框，该裁剪框包含M个主体人物的最小外接矩形框；以裁剪框裁剪第i帧视频图像。

其中，裁剪框的长宽比应适应预设显示规格。

可选的，确定裁剪框的具体实现可以包括但不限于下述几种实现方案。

实现方案1、电子设备将待选裁剪框确定为裁剪框。

一种可能的实现中，待选裁剪框可以为M个主体人物的最小外接矩形框加裁剪余量，裁剪余量可以大于或等于0。

例如，电子设备将最小外接矩形框作为确定的裁剪框裁剪视频图像的具体过程，可以参照图4及图5示意。

另一种可能的实现中，当人物信息包括优先级信息时，待选裁剪框可以为以M个主体人物中优先级最高的人物为中心且包含M个主体人物的外接矩形框加裁剪余量。

例如，图14示意了确定的裁剪框为以M个主体人物中优先级最高的人物为中心且包含M个主体人物的外接矩形框，裁剪第i帧视频图像以完整显示主体人物的场景。

另一种可能的实现中，当人物信息包括是否讲话信息时，待选裁剪框可以为以M个主体人物中讲话人物为中心且包含M个主体人物的外接矩形框加裁剪余量。

例如，图15示意了确定的裁剪框为以M个主体人物中讲话人物为中心且包含M个主体人物的外接矩形框，裁剪第i帧视频图像以完整显示主体人物的场景。

当然，待选裁剪框的范围可以根据实际需求配置，本申请实施例对此不进行具体限定。

实现方案2、电子设备根据第一待选裁剪框及前一帧视频图像的裁剪框确定第i帧视频图像的裁剪框。

其中，实现方案2中的第一待选裁剪框与实现方案1中的待选裁剪框相同。

具体的，在实现方案2中，电子设备先获取第一待选裁剪框的中心点与前一帧视频图像的裁剪框的中心点的距离，第一待选裁剪框包括M个主体人物的最小外接矩形框；若该距离大于或等于距离阈值，确定第二裁剪框，第二裁剪框的中心点为前一帧视频图像的裁剪框的中心点加偏移量，第二裁剪框的大小与前一帧视频图像的裁剪框的大小相同；若第二裁剪框包含M个主体人物的最小外接矩形框，将第三裁剪框作为裁剪框；其中，第三裁剪框为第二裁剪框，或者，第三裁剪框为第二裁剪框缩小至包含最小外接矩形框的裁剪框；若第二裁剪框未完整包含最小外接矩形框，将第二裁剪框扩大至包含最小外接矩形框，将扩大后的第二裁剪框作为裁剪框。

其中，偏移量可以为预设值，或者，也可以为第一待选裁剪框的中心点与前一帧视频图像的裁剪框的中心点的距离乘以加权值，或者根据预设算法得到，本申请实施例对此不进行具体限定。

示例性的，将待选裁剪框扩大或缩小可以实现为：将待选裁剪框的一个或多个边向外扩大或向内缩小。

进一步的，若该距离小于距离阈值，电子设备可以直接将待选裁剪框作为确定的裁剪框。

其中，待选裁剪框的中心点与前一帧视频图像的裁剪框的中心点的距离，可以为直线距离或者其他，本申请实施例对此不进行具体限定。

S904、电子设备将裁剪后的第i帧视频图像缩小或放大。

具体的，电子设备执行S904，以便显示屏按照预设显示规格显示裁剪后的第i帧视频图像。在S904中，电子设备按照预设显示规格对S903中裁剪后的第i帧视频图像进行缩小或放大。

其中，预设显示规格可以为适应显示屏幕的规格，或者固定的屏占比。

例如，若S903中裁剪后的第i帧视频图像的分辨率小于预设显示规格，则S904中电子设备将裁剪后的第i帧视频图像放大为预设显示规格的图像；若S903中裁剪后的第i帧视频图像的分辨率大于预设显示规格，则S904中电子设备将裁剪后的第i帧视频图像缩小为预设显示规格的图像；若S903中裁剪后的第i帧视频图像的分辨率等于预设显示规格，则S904中电子设备将裁剪后的第i帧视频图像作为预设显示规格的图像。

进一步的，在S904之后，电子设备对后续帧视频图像，可以继续执行S901至S904的过程，即将i+1遍历视频流中每一帧视频图像，逐帧进行处理，获取一帧处理一帧，直至视频流结束。

进一步的，本申请提供的视频图像处理方法还可以包括：电子设备获取第j帧视频图像，j小于或等于X；X大于1。获取并保存第j帧视频图像中每个人物的身份信息和/或位置信息；将第j帧视频图像直接缩小为预设显示规格的图像。其中，第j帧视频图像的身份信息和/或位置信息可以作为后续帧视频图像的参考信息。

当然，电子设备还可以获取第j帧视频图像中每个人物的人物信息并保存。

进一步的，如图16所示，本申请实施例提供的图像处理方法还可以包括S905。

S905、电子设备按照预设显示规格显示裁剪后的第i帧视频图像。

一种可能的实现中，执行图9或图16所示的视频图像处理方法的电子设备可以为视频通话中的发送端设备，本申请提供的视频图像处理方法还可以包括：电子设备将缩小或放大得到的预设显示规格的图像进行编码，向接收端设备发送，由接收端设备按照预设显示规格显示裁剪后的第i帧视频图像。具体过程参见图2所示系统架构的工作流程。

一种可能的实现中，执行图9或图16所示的视频图像处理方法的电子设备可以为视频通话中的发送端设备，本申请提供的视频图像处理方法还可以包括：电子设备按照预设显示规格显示裁剪后的第i帧视频图像，同时按照预设显示规格显示裁剪后的对端的视频图像。

一种可能的实现中，执行图9或图16所示的视频图像处理方法的电子设备可以为视频通话中的接收端设备，本申请提供的视频图像处理方法还可以包括：电子设备将缩小或放大得到的预设规格的图像通过显示装置显示。具体过程参见图2所示系统架构的工作流程。

下面以具体视频通话场景为例，对本申请实施例提供的视频图像处理方法进行详细说明。

电子设备1701和电子设备1702中安装有视频通话应用。该视频通话应用是可以为用户提供视频通话服务的客户端。电子设备1701、电子设备1702中安装的视频通话应用，可以通过互联网访问视频通话服务器进行数据交互，完成视频通话，为使用电子设备1701和电子设备1702的用户提供视频通话服务。

例如，如图17A所示，电子设备1701的主界面(即桌面)上包括视频通话应用的应用图标17011。如图17B所示，电子设备1702的桌面上包括视频通话应用的应用图标17021。电子设备1701调用视频通话应用与电子设备1702进行视频通话，视频通话过程中对视频图像进行本申请实施例所述的视频图像处理。

例如，电子设备1701可以接收用户对图17A所示的应用图标17011的点击操作(如触摸单击操作或通过遥控装置的操作)，显示图18A所示的视频通话应用界面1801。视频通话应用界面1801中包括“新朋友”选项1802和至少一个联系人选项。例如，至少一个联系人选项包括鲍勃(Bob)的联系人选项1803和用户311的联系人选项1804。其中，“新朋友”选项1802用于添加新的联系人。电子设备1701响应于用户对用户311的联系人选项1804的点击操作(如单击操作或通过遥控装置的操作)，向用户311这一账户登录的电子设备1702发送视频通话请求，与电子设备1702进行视频通话。

示例性的，响应于用户对联系人选项1804的点击操作，电子设备1701可以启动自身的摄像头，采集固定视野的图像作为场景图像，电子设备1701的显示屏显示包括摄像头采集的场景图像的视频通话界面1805如图18B所示。视频通话界面1805中包括提示信息“正在等待对方响应！”1806和“取消”按钮1807。“取消”按钮1807用于触发电子设备1701取消与电子设备1702进行视频通话。

相应的，电子设备1702从视频通话服务器接收到电子设备1701发送的视频通话请求，电子设备1702的显示屏显示视频通话界面1808如图18C所示。视频通话界面1808中包括“接收”按钮1809和“拒绝”按钮1810。其中，“接收”按钮1809用于电子设备1702与电子设备1701建立视频通话连接。“拒绝”按钮1810用于触发电子设备1702拒绝电子设备1701的视频通话请求。

电子设备1702可以接收用户对“接收”按钮1809的点击操作(如触摸单击操作或通过遥控装置的操作)，与电子设备1701建立视频通话连接。在建立连接之后，电子设备1701及电子设备1702作为视频通话的双方，电子设备1701、电子设备1702可以分别采用各自的摄像头采集固定视野的图像作为场景图像，逐帧经裁剪、缩放、编码后向对端发送场景图像，由对端显示，电子设备1701、电子设备1702可以在显示对端裁剪后的视频图像的同时显示本端裁剪后的视频图像。其中，在视频通话过程中，电子设备1701向电子设备1702发送视频图像的过程，电子设备1701是发送端设备电子设备1702是接收端设备，电子设备1702向电子设备1701发送视频图像的过程，电子设备1702是发送端设备电子设备1701是接收端设备。电子设备间视频图像传输具体过程可以参照图2所示的系统架构的工作流程。

其中，电子设备1701、电子设备1702可以对前X(例如X等于120)帧视频图像，直接将原始图像缩小为对端显示规格的图像进行编码发送到对端。电子设备1701、电子设备1702可以对第i帧(i大于120)帧视频图像，按照本申请实施例提供的视频图像处理方法处理。

示例性的，电子设备1701与电子设备1702进行视频通话的过程中的某一时刻，电子设备1701的摄像头采集的固定视野的视频图像如图19中的(a)所示，电子设备1701按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为电子设备1702的显示规格的图像如图19中的(b)所示。电子设备1701将图19中的(b)所示的图像编码后向电子设备1702发送。同时，在该时刻，电子设备1702的摄像头采集的固定视野的视频图像如图19A中的(a)所示，电子设备1702按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为电子设备1701的显示规格的图像如图19A中的(b)所示，电子设备1702将图19A中的(b)所示的图像编码后向电子设备1701发送。此时，电子设备1701、电子设备1702的显示界面如图19B。如图19B所示，电子设备1701、电子设备1702的主界面大图分别是对端是采集裁剪缩放后的图像，小图按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为自身显示规格的图像。需要说明的是，电子设备显示本端采集的图像时，可以显示为本端采集的原始图像或者为按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为自身显示规格的图像。

在电子设备1701与电子设备1702进行视频通话的过程中的另一时刻，电子设备1701的采集场景中，人物位置发生变化，此时电子设备1701的摄像头采集的固定视野的视频图像如图20中的(a)所示，电子设备1701按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为电子设备1702的显示规格的图像如图20中的(b)所示。电子设备1701将图20中的(b)所示的图像编码后向电子设备1702发送。同时，在该时刻，假设电子设备1702的采集场景中人物位置与图19A中示意的相同未发生变化。此时，电子设备1701、电子设备1702的显示界面如图20A。如图20A所示，电子设备1701、电子设备1702的主界面大图分别是对端是采集裁剪缩放后的图像，小图为按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为自身显示规格的图像。

在电子设备1701与电子设备1702进行视频通话的过程中的另一时刻，电子设备1701的采集场景中，人物增加，此时电子设备1701的摄像头采集的固定视野的视频图像如图21中的(a)所示，电子设备1701按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为电子设备1702的显示规格的图像如图21中的(b)所示。电子设备1701将图21中的(b)所示的图像编码后向电子设备1702发送。同时，在该时刻，电子设备1702的采集场景相对于图19A，人物位置发生变化，此时电子设备1702摄像头采集的固定视野的视频图像如图21A中的(a)所示，电子设备1702按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为电子设备1701的显示规格的图像如图21A中的(b)所示，电子设备1702将图21A中的(b)所示的图像编码后向电子设备1701发送。此时，电子设备1701、电子设备1702的显示界面如图21B。如图21B所示，电子设备1701、电子设备1702的主界面大图分别是对端是采集裁剪缩放后的图像，小图按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为自身显示规格的图像。

在电子设备1701与电子设备1702进行视频通话的过程中另一时刻，电子设备1701的采集场景中，人物增加且位置变化，此时电子设备1701的摄像头采集的固定视野的视频图像如图22中的(a)所示，电子设备1701按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为电子设备1702的显示规格的图像如图22中的(b)所示。电子设备1701将图22中的(b)所示的图像编码后向电子设备1702发送。同时，在该时刻，假设电子设备1702的采集场景中人物位置与图21A中示意的相同未发生变化。此时，电子设备1701、电子设备1702的显示界面如图22A。如图22A所示，电子设备1701、电子设备1702的主界面大图分别是对端是采集裁剪缩放后的图像，小图为按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为自身显示规格的图像。

下面以具体监控场为例，对本申请实施例提供的视频图像处理方法进行详细说明。

假设监控系统包括摄像头1、服务器2、显示设备3。摄像头1用于采集固定视野的视频图像，服务器2用于对摄像头1采集的视频图像通过本申请实施例提供的视频图像处理方法处理，处理之后的视频图像可以通过显示设备3实时显示，处理之后的视频图像还可以存储于服务器2中的存储装置，服务器2在接收到读取指令时从存储装置读取处理后的视频图像通过显示设备3显示。

示例性的，该监控系统运行过程中的某一时刻，摄像头1采集的固定视野的视频图像如图23中的(a)所示，摄像头1将采集的图像发送至服务器2。服务器2按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为显示设备3的显示规格的图像如图23中的(b)所示。服务器2将图23中的(b)所示的图像通过显示设备3实时显示。同时，服务器2将图23中的(b)所示的图像存储于服务器2中的存储装置。当服务器2接收到读取该视频图像的指令时，从存储装置中读取视频图像通过显示设备3显示。

在该监控系统运行过程中的另一时刻，采集场景中的人物位置发生变化，此时摄像头1采集的固定视野的视频图像如图24中的(a)所示，摄像头1将采集的图像发送至服务器2。服务器2按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为显示设备3的显示规格的图像如图24中的(b)所示。服务器2将图24中的(b)所示的图像通过显示设备3实时显示。同时，服务器2将图24中的(b)所示的图像存储于服务器2中的存储装置。当服务器2接收到读取该视频图像的指令时，从存储装置中读取视频图像通过显示设备3显示。

在该监控系统运行过程中的另一时刻，采集场景中的人物增加，此时摄像头1采集的固定视野的视频图像如图25中的(a)所示，摄像头1将采集的图像发送至服务器2。服务器2按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为显示设备3的显示规格的图像如图25中的(b)所示。服务器2将图25中的(b)所示的图像通过显示设备3实时显示。同时，服务器2将图25中的(b)所示的图像存储于服务器2中的存储装置。当服务器2接收到读取该视频图像的指令时，从存储装置中读取视频图像通过显示设备3显示。

在该监控系统运行过程中的另一时刻，采集场景中人物增加且位置变化，此时摄像头1采集的固定视野的视频图像如图26中的(a)所示，摄像头1将采集的图像发送至服务器2。服务器2按照本申请实施例提供的视频图像处理方法处理确定主体人物进行裁剪、缩放为显示设备3的显示规格的图像如图26中的(b)所示。服务器2将图26中的(b)所示的图像通过显示设备3实时显示。同时，服务器2将图26中的(b)所示的图像存储于服务器2中的存储装置。当服务器2接收到读取该视频图像的指令时，从存储装置中读取视频图像通过显示设备3显示。

上述主要从电子设备的角度对本申请实施例提供的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，如图27所示为本申请实施例提供的一种视频图像处理装置270，用于实现上述方法中电子设备的功能。该视频图像处理装置270可以是电子设备，也可以是电子设备中的装置，也可以是能够和电子设备匹配使用的装置。其中，该视频图像处理装置270可以为芯片系统。本申请实施例中，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。如图27所示，视频图像处理装置270可以包括：获取单元2701、确定单元2702、裁剪单元2703、缩放单元2704。获取单元2701用于执行图9或图16中的S901、S901a，确定单元2702用于执行图9或图16中的S902，裁剪单元2703用于执行图9或图16中的S903，缩放单元2704用于执行图9或图16中的S904。其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

进一步的，如图27所示，视频图像处理装置270还可以包括显示单元2705，用于执行图16中的S905。

如图28所示，为本申请实施例提供的视频图像处理装置280，用于实现上述方法中电子设备的功能。该视频图像处理装置280可以是电子设备，也可以是电子设备中的装置，也可以是能够和电子设备匹配使用的装置。其中，该视频图像处理装置280可以为芯片系统。视频图像处理装置280包括至少一个处理模块2801，用于实现本申请实施例提供的方法中电子设备的功能。示例性地，处理模块2801可以用于执行图9或图16中的过程S901、S901a、S902、S903、S904。具体参见方法示例中的详细描述，此处不做赘述。

视频图像处理装置280还可以包括至少一个存储模块2802，用于存储程序指令和/或数据。存储模块2802和处理模块2801耦合。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接，可以是电性，机械或其它的形式，用于装置、单元或模块之间的信息交互。处理模块2801可能和存储模块2802协同操作。处理模块2801可能执行存储模块2802中存储的程序指令。所述至少一个存储模块中的至少一个可以包括于处理模块中。

视频图像处理装置280还可以包括通信模块2803，用于通过传输介质和其它设备进行通信，从而用于确定视频图像处理装置280中的装置可以和其它设备进行通信。

视频图像处理装置280还可以包括显示模块2804，可以用于执行图16中的过程S905。

当处理模块2801为处理器，存储模块2802为存储器，显示模块2804为显示屏，本申请实施例图28所涉及的视频图像处理装置280可以为图8所示的电子设备。

如前述，本申请实施例提供的视频图像处理装置270或视频图像处理装置280可以用于实施上述本申请各实施例实现的方法中电子设备的功能，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请各实施例。

本申请另一些实施例还提供一种计算机可读存储介质，该计算机可读存储介质可包括计算机软件指令，当该计算机软件指令在电子设备上运行时，使得该电子设备执行上述9或图16所示实施例中电子设备执行的各个步骤。

本申请另一些实施例还提供一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得该计算机执行上述图9或图16所示实施例中电子设备执行的各个步骤。

本申请另一些实施例还提供一种芯片系统，该芯片系统可以应用于电子设备。该电子设备包括显示屏和摄像头。芯片系统包括接口电路和处理器；接口电路和处理器通过线路互联；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行该计算机指令时，芯片系统执行如上述图9或图16所示实施例中电子设备执行的各个步骤。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种视频图像处理方法，其特征在于，所述方法包括：

获取第i帧视频图像中每个人物的身份信息及位置信息；所述i大于1；

根据所述第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从所述第i帧视频图像中确定M个主体人物；所述M、N大于或等于1；其中，所述N个视频图像帧中的人物的身份信息包括所述M个主体人物的身份信息；

根据所述主体人物的位置信息，裁剪所述第i帧视频图像，裁剪后的所述第i帧视频图像包括所述M个主体人物；

将裁剪后的所述第i帧视频图像缩小或放大，以便显示屏按照预设显示规格显示裁剪后的所述第i帧视频图像。
根据权利要求1所述的方法，其特征在于，所述根据所述第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从所述第i帧视频图像中确定M个主体人物，包括：

将在所述N个视频图像帧中出现的帧数大于等于第一预设阈值并且出现在所述第i帧视频图像中的人物确定为M个主体人物。
根据权利要求1所述的方法，其特征在于，

所述方法还包括：将所述第i帧视频图像划分为Y个区域；配置每个所述区域对应的预设阈值；第k区域对应的预设阈值为第k预设阈值；所述第k区域为所述Y个区域中任一个区域；所述Y大于或等于2；所述k大于或等于1，小于或等于所述Y；

所述根据所述第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从所述第i帧视频图像中确定M个主体人物，包括：

将在所述N个视频图像帧中出现的帧数大于等于所在区域对应的预设阈值并且出现在所述第i帧视频图像中的人物确定为M个主体人物。
根据权利要求1所述的方法，其特征在于，

所述方法还包括：获取所述第i帧视频图像中每个人物的人物信息，所述人物信息包括下述信息中一项或多项：是否讲话信息、优先级信息；

所述根据所述第i帧视频图像之前的N个视频图像帧中的人物的身份信息，从所述第i帧视频图像中确定M个主体人物，包括：

将在所述N个视频图像帧中讲话的帧数大于等于第二预设阈值并且出现在所述第i帧视频图像中的人物确定为M个主体人物；

或者，

将在所述N个视频图像帧中优先级信息大于第三预设阈值并且出现在所述第i帧视频图像中的人物确定为M个主体人物；

或者，

将在所述N个视频图像帧中讲话的帧数大于等于第二预设阈值并且出现在所述第i帧视频图像中的人物，按照优先级信息选择最重要的M个确定为M个主体人物。
根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述主体人物的位置信息，裁剪所述第i帧视频图像，包括：

确定裁剪框，所述裁剪框包含所述M个主体人物的最小外接矩形框；

以裁剪框裁剪所述第i帧视频图像。
根据权利要求5所述的方法，其特征在于，所述确定裁剪框，包括：

获取第一待选裁剪框的中心点与前一帧视频图像的裁剪框的中心点的距离，所述第一待选裁剪框包括所述M个主体人物的最小外接矩形框；

若所述距离大于或等于距离阈值，确定第二裁剪框，所述第二裁剪框的中心点为所述前一帧视频图像的裁剪框的中心点加偏移量，所述第二裁剪框的大小与所述前一帧视频图像的裁剪框的大小相同；

若所述第二裁剪框包含所述最小外接矩形框，将第三裁剪框作为所述裁剪框；其中，所述第三裁剪框为所述第二裁剪框，或者，所述第三裁剪框为所述第二裁剪框缩小至包含所述最小外接矩形框的裁剪框；

若所述第二裁剪框未完整包含所述最小外接矩形框，将所述第二裁剪框扩大至包含所述最小外接矩形框，将扩大后的所述第二裁剪框作为所述裁剪框。
根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

按照预设显示规格显示裁剪后的所述第i帧视频图像。
一种视频图像处理装置，其特征在于，所述装置包括：

获取单元，用于获取第i帧视频图像中每个人物的身份信息及位置信息；所述i大于1；

确定单元，用于根据所述第i帧视频图像之前的N个视频图像帧中的人物身份信息，从所述第i帧视频图像中确定M个的主体人物；所述M、N大于或等于1；

裁剪单元，用于根据所述确定单元确定的所述主体人物的位置信息，裁剪所述第i帧视频图像，裁剪后的所述第i帧视频图像包括所述M个主体人物；其中，所述N个视频图像帧中的人物的身份信息包括所述M个主体人物的身份信息；

缩放单元，将裁剪后的所述第i帧视频图像缩小或放大，以便显示屏按照预设显示规格显示裁剪后的所述第i帧视频图像。
根据权利要求8所述的装置，其特征在于，所述确定单元具体用于：

将在所述N个视频图像帧中出现的帧数大于等于第一预设阈值并且出现在所述第i帧视频图像中的人物确定为M个主体人物。
根据权利要求8所述的装置，其特征在于，所述确定单元具体用于：

将所述第i帧视频图像划分为Y个区域；配置每个所述区域对应的预设阈值；第k区域对应的预设阈值为第k预设阈值；所述第k区域为所述Y个区域中任一个区域；所述Y大于或等于2；所述k大于或等于1，小于或等于所述Y；

将在所述N个视频图像帧中出现的帧数大于等于所在区域对应的预设阈值并且出现在所述第i帧视频图像中的人物确定为M个主体人物。
根据权利要求8所述的装置，其特征在于，

所述获取单元还用于：获取所述第i帧视频图像中每个人物的人物信息，所述人物信息包括下述信息中一项或多项：是否讲话信息、优先级信息；

所述确定单元具体用于：

将在所述N个视频图像帧中讲话的帧数大于等于第二预设阈值并且出现在所述第i帧视频图像中的人物确定为M个主体人物；

或者，

将在所述N个视频图像帧中优先级信息大于第三预设阈值并且出现在所述第i帧视频图像中的人物确定为M个主体人物；

或者，

将在所述N个视频图像帧中讲话的帧数大于等于第二预设阈值并且出现在所述第i帧视频图像中的人物，按照优先级信息选择最重要的M个确定为M个主体人物。
根据权利要求8-11任一项所述的装置，其特征在于，所述裁剪单元具体用于：

确定裁剪框，所述裁剪框包含所述M个主体人物的最小外接矩形框；

以裁剪框裁剪所述第i帧视频图像。
根据权利要求12所述的装置，其特征在于，所述裁剪单元具体用于：

获取第一待选裁剪框的中心点与前一帧视频图像的裁剪框的中心点的距离，所述第一待选裁剪框包括所述M个主体人物的最小外接矩形框；

若所述距离大于或等于距离阈值，确定第二裁剪框，所述第二裁剪框的中心点为所述前一帧视频图像的裁剪框的中心点加偏移量，所述第二裁剪框的大小与所述前一帧视频图像的裁剪框的大小相同；

若所述第二裁剪框包含所述最小外接矩形框，将第三裁剪框作为所述裁剪框；其中，所述第三裁剪框为所述第二裁剪框，或者，所述第三裁剪框为所述第二裁剪框缩小至包含所述最小外接矩形框的裁剪框；

若所述第二裁剪框未完整包含所述最小外接矩形框，将所述第二裁剪框扩大至包含所述最小外接矩形框，将扩大后的所述第二裁剪框作为所述裁剪框。
根据权利要求8-13任一项所述的装置，其特征在于，所述装置还包括：

显示单元，用于按照预设显示规格显示裁剪后的所述第i帧视频图像。
一种电子设备，其特征在于，所述电子设备包括：处理器，存储器；所述处理器和所述存储器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述电子设备执行时，使得所述电子设备执行如权利要求1-7中任一项所述的视频图像处理方法。
一种计算机可读存储介质，其特征在于，包括：计算机软件指令；

当所述计算机软件指令在电子设备中运行时，使得所述电子设备执行如权利要求1-7中任一项所述的视频图像处理方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-7中任一项所述的视频图像处理方法。