WO2020181523A1

WO2020181523A1 - 唤醒屏幕的方法和装置

Info

Publication number: WO2020181523A1
Application number: PCT/CN2019/077991
Authority: WO
Inventors: 刘翠君; 那柏林; 吴学成; 占望鹏; 黄庚帅
Original assignee: 华为技术有限公司
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2020-09-17
Also published as: EP3910507A1; EP3910507A4; CN111936990A; US20210382542A1

Abstract

本申请提供了一种唤醒屏幕的方法和装置，其中，唤醒屏幕的方法包括：获取M个图像帧，其中，每个图像帧包括第一面部图像，M为大于或等于1的整数；根据预先配置的神经网路，确定每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户；当该每个第一面部图像均匹配该预设面部图像且属于该用户时，将该屏幕由灭屏状态切换至亮屏状态。本申请提供的技术方案，能够在不显著增加成本的前提下，提高设备唤醒屏幕的准确性。

Description

唤醒屏幕的方法和装置

技术领域

本申请涉及电子设备领域，并且更具体地，涉及一种唤醒屏幕的方法和装置。

背景技术

随着人工智能(artificial intelligence，AI)技术在终端设备的发展，可以通过AI技术时刻感知人、感知用户行为，提高用户粘性，为用户提供更加智能化的服务。在使用终端设备之前，需要进行待机唤醒技术，待机唤醒技术是指可以预先唤醒睡眠或者待机状态下的终端设备，即需要唤醒终端设备的屏幕，进而才能够进行后续的功能性操作。

现有技术中，对于待机唤醒技术而言，例如，采用获取用户的虹膜信息进行注视判别和机主判别的认证，但是，该技术依赖于获取的瞳孔图像进行判别，采用一般的前置摄像头获取瞳孔图像时，图像画质较低，严重影响唤醒结果的准确性。还例如，采用特殊的虹膜摄像头，可以获取高质量的瞳孔头像，使得唤醒结果更加准确，但是提高了设备的生产成本。因此，如何在不显著增加成本的前提下提高设备唤醒屏幕的准确性，成为亟待解决的问题。

发明内容

本申请提供一种唤醒屏幕的方法和装置，能够在不显著增加成本的前提下，提高设备唤醒屏幕的准确性。

第一方面，提供了一种唤醒屏幕的方法，包括：获取M个图像帧，其中，每个图像帧包括第一面部图像，M为大于或等于1的整数；根据预先配置的神经网路，确定每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户；当所述每个第一面部图像均匹配所述预设面部图像且属于所述用户时，将所述屏幕由灭屏状态切换至亮屏状态。

本申请提供的唤醒屏幕的方法，通过获取的M个图像帧中每个图像帧的第一面部图像，通过预先配置的神经网络进行注视判别和面部图像判别，即确定每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户，能够避免前置摄像头获取瞳孔图像时，图像画质较低，严重影响唤醒结果的准确性的问题，从而提高设备唤醒屏的准确性，不会显著增加设备的成本。

在一种可能的实现方式中，可以获取当前图像帧，所述当前图像帧中包括第一面部图像，根据预先配置的神经网络确定所述当前图像帧中的第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户；当所述当前图像帧中的第一面部图像匹配所述预设面部图像且属于所述注视设备的屏幕的用户时，将所述屏幕由灭屏状态切换至亮屏状态。

结合第一方面，在第一方面的某些实现方式中，所述根据所述预先配置的神经网络，确定每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户，包括：利用所述预先配置的神经网络确定所述每个第一面部图像是否属于所述用户；当所述每个第一面部图像属于所述用户时，利用所述预先配置的神经网络确定所述每个第一面部图像是否匹配所述预设面部图像。

本申请实施例提供的屏幕唤醒的方法，可以利用预先配置的神经网络，先确定一个第一面部图像对应的用户是否在注视屏幕，当第一面部图像对应的用户注视屏幕时，即第一面部图像属于所述用户时，可以利用预先配置的神经网络确定第一面部图像是否为预设面部图像。当同时满足上述条件时，可以将屏幕由灭屏状态切换至亮屏状态，从而实现唤醒设备的屏幕。

在一种可能的实现方式中，所述根据所述预先配置的神经网络，确定每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户，包括：利用所述预先配置的神经网络确定每个第一面部图像是否匹配所述预设的面部图像；当所述每个第一面部图像匹配所述预设的面部图像时，利用所述预先配置的神经网络确定所述每个第一面部图像是否属于所述用户。

本申请实施例提供的屏幕唤醒的方法，可以利用预先配置的神经网络，先确定一个第一面部图像是否匹配预设面部图像，当第一面部图像匹配预设面部图像时，可以利用预先配置的神经网络确定对应的用户是否在注视屏幕，即第一面部图像属于所述用户。当同时满足上述条件时，可以将屏幕由灭屏状态切换至亮屏状态，从而实现唤醒设备的屏幕。

需要说明的是，本申请中确定第一面部图像是否属于注视设备的屏幕的用户以及是否匹配预设面部图像利用的预配置的神经网络可以是同一个预配置的神经网络，也可以是两个不同的预配置的神经网络。

结合第一方面，在第一方面的某些实现方式中，所述利用所述预先配置的神经网络确定所述每个第一面部图像是否属于所述用户，包括：利用所述预先配置的神经网络确定所述每个第一面部图像属于所述用户的概率值；当所述概率值大于预设阈值时，确定所述每个第一面部图像属于所述用户。

本申请实施例提供的屏幕唤醒的方法，可以利用预配置的神经网络确定一个第一面部图像对应的用户注视设备的屏幕的概率值，从而确定一个第一面部图像对应的用户是否属于注视设备的屏幕的用户。

结合第一方面，在第一方面的某些实现方式中，在获取M个图像帧后，还包括：在所述每个图像帧中确定第一面部框，所述第一面部框为所述每个图像帧中包括的至少一个面部框中面积最大的面部框；根据位于所述第一面部框中的第二面部图像确定所述第一面部图像。

本申请实施例提供的屏幕唤醒的方法，可以通过一个图像帧中包括的至少一个面部框的面积大小确定面积最大的第一面部框，根据第一面部框可以定位于图像帧中的面部图像区域，从而确定第二面部图像。

结合第一方面，在第一方面的某些实现方式中，还包括：获取面部方向信息，所述面部方向信息用于指示所述第二面部图像的方向；所述根据位于所述第一面部框中的第二面部图像确定所述第一面部图像包括：当所述第二面部图像的方向不匹配预设标准方向时，对所述第二面部图像进行旋转处理，以得到匹配于所述预设标准方向的所述第一面部图像。

本申请实施例提供的屏幕唤醒的方法，为了避免预配置的神经网络的算法复杂度较高以及降低所述预配置的神经网络的功耗，可以获取面部方向信息，当方面部向信息不匹配预设标准方向时，可以进行旋转处理，将处理后的面部图像再输入至预配置的神经网络。

在一种可能的实现方式中，还包括：获取面部方向信息，所述面部方向信息用于指示所述第二面部图像的方向；所述根据位于所述第一面部框中的第二面部图像确定所述第一面部图像包括：当所述第二面部图像的方向匹配预设标准方向时，将所述第二面部图像作为所述第一面部图像。

结合第一方面，在第一方面的某些实现方式中，所述获取M个图像帧包括：在所述屏幕处于所述灭屏状态时，获取所述M个图像帧。

本申请提供的唤醒屏幕的方法，可以周期性地检测设备的屏幕是否处于灭屏状态，当检测到屏幕处于灭屏状态时，可以获取M个图像帧。例如，可以一次获取一个或多个图像帧，从而获取M个图像帧。

结合第一方面，在第一方面的某些实现方式中，所述预先配置的神经网络为深度神经网络。

例如，预先配置的神经网络可以是全连接神经网络，也可以是卷积神经网络。

第二方面，提供一种唤醒屏幕的装置，所述装置包括：获取单元，用于获取M个图像帧，其中，每个图像帧包括第一面部图像，M为大于或等于1的整数；处理单元，用于根据预先配置的神经网路，确定每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户；唤醒单元，用于当所述每个第一面部图像均匹配所述预设面部图像且属于所述用户时，将所述屏幕由灭屏状态切换至亮屏状态。

根据本申请提供的唤醒屏幕的装置，通过获取的M个图像帧中每个图像帧的第一面部图像，通过预先配置的神经网络进行注视判别和面部图像判别，即确定每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户，能够避免前置摄像头获取瞳孔图像时，图像画质较低，严重影响唤醒结果的准确性的问题，从而提高设备唤醒屏的准确性，不会显著增加设备的成本。

在一种可能的实现方式中，获取单元，可以用于获取当前图像帧，所述当前图像帧中包括第一面部图像，处理单元，可以用于根据预先配置的神经网络确定所述当前图像帧中的第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户；唤醒单元，可以用于当所述当前图像帧中的第一面部图像匹配所述预设面部图像且属于所述注视设备的屏幕的用户时，将所述屏幕由灭屏状态切换至亮屏状态。

结合第二方面，在第二方面的某些实现方式中，所述处理单元具体用于：利用所述预先配置的神经网络确定所述每个第一面部图像是否属于所述用户；当所述每个第一面部图像属于所述用户时，利用所述预先配置的神经网络确定所述每个第一面部图像是否匹配所述预设面部图像。

在一种可能的实现方式中，处理单元具体用于：利用所述预先配置的神经网络确定每个第一面部图像是否匹配所述预设的面部图像；当所述每个第一面部图像匹配所述预设的面部图像时，利用所述预先配置的神经网络确定所述每个第一面部图像是否属于所述用户。

结合第二方面，在第二方面的某些实现方式中，所述处理单元具体用于：利用所述预先配置的神经网络确定所述每个第一面部图像属于所述用户的概率值；当所述概率值大于预设阈值时，确定所述每个第一面部图像属于所述用户。

结合第二方面，在第二方面的某些实现方式中，所述处理单元还用于：在所述每个图像帧中确定第一面部框，所述第一面部框为所述每个图像帧中包括的至少一个面部框中面积最大的面部框，；根据位于所述第一面部框中的第二面部图像确定所述第一面部图像。

结合第二方面，在第二方面的某些实现方式中，所述获取单元还用于：获取面部方向信息，所述面部方向信息用于指示所述第二面部图像的方向；所述处理单元具体用于：当所述第二面部图像的方向不匹配预设标准方向时，对所述第二面部图像进行旋转处理，以得到匹配于所述预设标准方向的所述第一面部图像。

在一种可能的实现方式中，所述获取单元还用于：获取面部方向信息，所述面部方向信息用于指示所述第二面部图像的方向；；所述处理单元具体用于：当所述第二面部图像的方向匹配预设标准方向时，将所述第二面部图像作为所述第一面部图像。

结合第二方面，在第二方面的某些实现方式中，所述获取单元具体用于：在所述屏幕处于所述灭屏状态时，获取所述M个图像帧。

结合第二方面，在第二方面的某些实现方式中，所述预先配置的神经网络为深度神经网络。

第三方面，提供了一种唤醒屏幕的装置，包括，处理器，存储器，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得该唤醒屏幕的装置执行第一方面及其各种可能实现方式中的唤醒屏幕的方法。

可选地，所述处理器为一个或多个，所述存储器为一个或多个。

可选地，所述存储器可以与所述处理器集成在一起，或者所述存储器与处理器分离设置。

第四方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当所述计算机程序被运行时，使得计算机或任一至少一种处理器执行上述第一方面及其各种实现方式中的方法。

第五方面，提供了一种计算机可读介质，所述计算机可读介质存储有计算机程序(也可以称为代码，或指令)当其在计算机或任一至少一种处理器上运行时，使得计算机或该处理器执行上述第一方面及其各种实现方式中的方法。

第六方面，提供了一种芯片系统，该芯片系统包括处理器，用于支持计算机中的服务器实现上述第一方面及其各种实现方式中所涉及的功能。

附图说明

图1是本申请实施例提供的卷积神经网络的模型示意图；

图2是根据本申请一个实施例的唤醒屏幕的方法的示意图；

图3是根据本申请一个实施例的唤醒屏幕的方法的流程图；

图4是根据本申请一个实施例的唤醒屏幕的装置的示意图；

图5是根据本申请另一个实施例的唤醒屏幕的装置的示意图；

图6是根据本申请另一个实施例的唤醒屏幕的装置的示意图；

图7是本申请实施例提供的一种芯片硬件结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例提供的控制屏幕状态的方法能够应用在唤醒屏幕、注视拍照、识别用户感兴趣的阅读内容、人机交互等场景。具体而言，本申请实施例的控制屏幕状态的方法能够应用在待机唤醒状态的场景中，下面分别对待机唤醒状态的场景进行简单的介绍。

唤醒屏幕的场景

在使用终端设备的各种应用之前，需要预先唤醒睡眠/待机状态下的终端设备，即需要唤醒(又可以称为激活)该终端设备对应的屏幕，才可进行后续的功能性操作。唤醒终端设备的屏幕可以是控制屏幕的状态由灭屏状态切换至亮屏状态，也可以看作是将终端设备由睡眠状态唤醒为激活状态，该技术可称之为待机唤醒技术。

应理解，待机唤醒技术与解锁技术存在着一定的差异，解锁技术是指在终端设备设备唤醒之后，即终端设备处于亮屏状态之后，需要进行的一些安全认证，例如，输入密码、输入指纹、虹膜认证、面部认证等等，解锁技术可以获得并使用终端设备的完整功能。待机唤醒技术则是用户使用终端设备的第一步，是终端设备的首要技术。

目前，例如，常用的待机唤醒技术即唤醒屏幕的方法可以是按键唤醒、双击唤醒、抬起唤醒、语音唤醒等等。其中，按键唤醒、双击唤醒和抬起唤醒需要用户手动操作，使用不方便且不安全；语音唤醒需要用户发声唤醒，使用还是不够方便且唤醒率不高。这些唤醒方式都没有进行安全认证，即并没有限制只有机主才能够进行控制屏幕切换至亮屏状态，使得非机主可以轻而易举的唤醒屏幕，极易泄露屏幕上的短信信息，无法有效保护机主显示在屏幕上的隐私信息。

有鉴于此，本申请提出了一种唤醒屏幕的方法，可以通过获取当前图像帧，根据当前图像帧中的第一面部图像完成注视判别和机主判别，即可以根据第一面部图像和预先训练的深度神经网络确定第一面部图像对应的用户是否注视屏，并进一步地确定该用户是否为机主，当第一面部图像既满足上述注视判别又满足机主判别时，即当前图像帧可以满足唤醒条件，当连续的M图像帧满足上述唤醒条件时，可以将设备的屏幕状态由灭屏状态切换至亮屏状态。通过本申请中的控制屏幕状态的方法，通过获取当前图像帧中的面部图像和预先训练的深度神经网络，避免了采用一般的前置摄像头获取瞳孔图像进行注视判别时，图像画质较低，严重影响唤醒结果的准确性的问题，从而提高了控制屏幕状态的准确性。

在本申请中，设备可以是具有屏幕的终端设备，例如，可以是用户设备、移动设备、用户终端、终端、无线通信设备或用户装置。终端设备还可以是蜂窝电话、无绳电话、会话启动协议(session initiation protocol，SIP)电话、无线本地环路(wireless local loop，WLL)站、个人数字助理(personal digital assistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备，未来5G网络中的终端设备或者未来演进的公用陆地移动通信网络(public land mobile network，PLMN)中的终端设备等，本申请实施例对此并不限定。

本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

(1)旋转处理(面部旋转)

利用图像处理、机器学习、计算机图形学等相关方法中的任一项，可以将面部图像从一个姿态(pose)角度旋转到另一个姿态角度并得到相应的旋转后图像。

(2)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距b为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(3)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有很多层隐含层的神经网络，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。例如，全连接神经网络中层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，则系数W和偏移向量

的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(4)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(5)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

在本申请中，预先训练的深度神经网络可以是深度学习模型，例如，可以是全连接的神经网络，也可以是卷积神经网络(convolutional neural network，CNN)。在每一层的所有神经元与下一层的所有神经元连接(每一层的每一个神经元的权重w均不为0)的情况下，该深度神经网络还可以是一个全连接的神经网络模型。在每一层的所有神经元不与下一层的所有神经元连接(每一层的每一个神经元上的权重w部分为0)的情况下，该深度神经网络还可以是一个CNN模型。

下面从模型训练侧和模型应用侧对本申请提供的方法进行描述：

本申请实施例提供的神经网络的训练方法，涉及计算机视觉的处理，具体可以应用于数据训练、机器学习、深度学习等数据处理方法，对训练数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等，最终得到训练好的神经网络。

示例性地，预先配置的神经网络可以是注视判别网络，即能够根据获取的面部图像和预先训练的神经网络，确定该面部图像对应的用户是否注视屏幕。本申请实施例提供的唤醒屏幕的方法可以运用上述预先配置的神经网络，将输入数据(例如，本申请中的第一面部图像)输入到所述训练好的注视判别网络中，得到输出数据(如本申请中的第一概率)。

需要说明的是，本申请实施例提供的预先配置的神经网络的训练方法和唤醒屏幕的方法可以是基于同一个构思，也可以理解为一个系统中的两个部分，或一个整体流程的两个阶段：如模型训练阶段和模型应用阶段。例如，模型训练阶段可以提前训练的，模型应用阶段可以是本申请中的唤醒屏幕的方法，即对预先训练的深度神经网络的应用。

首先，对本申请中预先配置的神经网络的训练过程进行简要说明。

本申请实施例中训练数据可以包括：用户的特征图像，即可以反映当前用户特征的图像，例如，可以是用户的注视图像、非注视图像、头部姿态信息以及注视方向信息；根据训练数据可以得到目标模型/规则，即目标模型可以是预先训练的神经网络，用于确定用户是否注视屏幕。

在本申请中，预先配置的神经网络可以是根据至少一个用户的面部特征图像进行训练得到。其中，至少一个用户的面部特征图像可以是预先采集购买的数据库中的至少一个用户的面部特征图像，或者，可以是经过用户授权后通过前置摄像头采集到的图像。

例如，至少一个用户的面部特征图像可以是至少一个用户的非注视面部图像、注视面部图像、头部姿态信息以及注视方向信息等。由于面部图像能直接反应头部姿态，而人的头部姿态与注视方向往往强相关，通常情况下头部姿态与注视信息基本一致，当用户侧脸角度、俯仰角度较大时，通常没有在注视屏幕；用户正脸时，则一般是在注视屏幕等等。为了避免现实场景中也存在少部分头部姿态与注视情况不一致的场景，通过构建丰富的数据集来让神经网络有目的的学习到此种特殊场景的注视结果，从而提高神经网络进行判别的准确性。

本申请的实施例中该目标模型/规则能够用于实现本申请实施例提供的唤醒屏幕的方法，即，将获取的当前图像帧中的第一面部图像通过相关预处理后输入该目标模型/规则，得到输出结果，即确定第一面部图像对应的用户是否注视屏幕。本申请实施例中的目标模型/规则可以为预先配置的神经网络。

本申请中，得到的目标模型/规则可以应用于不同的设备中，例如，可以将得到的目标模型/规则应用于是终端设备，如手机终端，平板电脑，笔记本电脑，AR/VR，车载终端等。

示例性地，本申请中的预先配置的神经网络可以是卷积神经网络。

如前文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。

如图1所示，卷积神经网络(CNN)100可以包括输入层110，卷积层/池化层120(其中池化层为可选的)，以及神经网络层130。

如图1所示卷积层/池化层120可以包括如示例121-126层，举例来说：在一种实现中，121层为卷积层，122层为池化层，123层为卷积层，124层为池化层，125为卷积层，126为池化层；在另一种实现方式中，121、122为卷积层，123为池化层，124、125为卷积层，126为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层121为例，介绍一层卷积层的内部工作原理。

卷积层121可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素，这取决于步长 stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络100进行正确的预测。

当卷积神经网络100有多个卷积层的时候，初始的卷积层(例如121)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络100深度的加深，越往后的卷积层(例如126)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图1中120所示例的121-126各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层130

在经过卷积层/池化层120的处理后，卷积神经网络100还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层120只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的信息或其他相关信息)，卷积神经网络100需要利用神经网络层130来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层130中可以包括多层隐含层(如图1所示的131、132至13n)以及输出层140，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如，在本申请中该任务类型可以包括图像识别，即可以进行判断输入至神经网络中的一个第一面部图像是否匹配预设面部图像，以及该第一面部图像对应的用户是否在注视设备的屏幕。

示例性地，本申请中的预先配置的神经网络还可以是全连接的神经网络，即每一层的所有神经元与下一层的所有神经元连接(每一层的每一个神经元的权重w均不为0)。

需要说明的是，如图1所示的卷积神经网络100仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在。

图2是本申请实施例提供的一种唤醒屏幕的方法200，该方法200可以包括步骤210-230，下面对步骤210-230进行详细的描述。

步骤210：获M个图像帧，其中，每个图像帧包括第一面部图像，M为大于或等于1的整数。在一个可能的实现方式中，获取M个图像帧之前，可以检测屏幕的状态信息。

例如，可以检测当前屏幕处于灭屏状态还是亮屏状态。在屏幕处于灭屏状态时，可以获取M个图像帧。第一面部图像中的面部可能属于用户，例如，机主或其他人。

示例性地，可以周期性的检测屏幕状态，以预设的时间周期，周期性地检测设备当前状态是否在灭屏状态，若屏幕的当前状态为灭屏时，可以获取图像存储模块中的最新图像帧。

示例性地，获M个图像帧可以是一次获取一个当前图像帧，通过M次获取M个图像帧。也可以一次获取多个图像帧。

需要说明的是，获取每个图像帧可以是获取设备的存储器中的最新图像帧，最新图像帧可以是前置摄像头采集的图像，最新图像帧可以看作存储图像或者获取图像的时间距离当前为时间差最短的图像帧。获取M个图像帧，可以是一次获取当前图像帧，以及当前图像帧的前M-1个图像帧，即一次可以获取M个图像帧。

在本申请中，步骤210还可以包括：在获取M个图像帧后，可以在每个图像帧中确定第一面部框，例如，第一面部框为所述每个图像帧中包括的至少一个面部框中面积最大的面部框；根据位于第一面部框中的第二面部图像可以确定第一面部图像。

应理解，前置摄像头采集的一个图像帧中可以包括一个面部的图像，也可以包括多面部的图像，一图像帧中包括的面部图像的数量与采集图像时摄像头前用户的数量相关。考虑到唤醒设备时，往往会有意凑近设备屏幕，即一个图像帧中的面积最大的面部图像最有可能是唤醒屏幕的真实用户。因此，在本申请中，获取的每个图像帧中可以包括至少一个面部图像，即至少一个面部图像，第一面部图像可以是当前图像帧中包括的至少一个面部图像中面积最大的面部图像。可以理解，第一面部图像也可以是当前图像帧中包括的至少一个面部图像中其他的面部图像，例如，位于或接近于当前图像帧中央的面部图像。

在一个示例中，在每个图像帧中确定第一面部框的步骤还可以包括：获取面部方向信息，面部方向信息用于指示第二面部图像的方向；当第二面部图像的方向不匹配预设标准方向时，对第二面部图像进行旋转处理，以得到匹配于预设标准方向的所述第一面部图像。

例如，当第二面部图像的方向匹配预设标准方向时，可以将第二面部图像作为第一面部图像。

示例性地，以一个图像帧举例进行描述，在获取一个图像帧后，可以判断当前图像帧中是否存在面部图像，即对当前图像帧中的面部图像以及背景图像进行区分；在当前图像帧中存在面部图像时，可以确定当前图像帧中包括的至少一个面部图像的面部框和面部方向，其中，面部框可以是矩形框，可以获取面部框的定位即矩形面部框中左上角和右下角的坐标，面部方向即可以是面部框中的面部图像相对于矩形面部框为朝上、朝下、朝左、朝右等方向的。例如，可以根据至少一个面部框的坐标计算面部框的面积，依据面积排序，选出面积最大的面部框即第一面部框。根据第一面部框可以从当前图像帧中定位到第一面部框区域，并截取该第一面部框对应的面部区域图像，即获取第二面部图像。

进一步地，为了降低预先配置的神经网络的计算量以及计算复杂度，可以根据第一面部框和面部方向信息确定第一面部图像，该第一面部图像为相对于屏幕为竖直向上的面部图像。也就是说，可以在获取第一面部框对应的第二面部图像，若第二面部图像不匹配预设标准方向，例如，预设标准方向可以是相对于屏幕竖直向上的方向，根据面部方向信息对第二面部图像进行旋转处理，将第二面部图像校正为相对于屏幕为竖直向上的面部图像。若第二面部图像匹配预设标准方向，则可以将第二面部图像作为第一面部图像。

在本申请中，摄像头采集到的图像中的面部存在各种方向的可能，为了降低预先配置的神经网络的计算量以及计算复杂度，即为了满足后续预先训练的深度神经网络的输入约束，可以将各种方向的面部都校正为竖直面部，该竖直面部即为相对于屏幕为竖直向上的面部图像。本实施例的竖直向上可以是相对于地平面的竖直向上。

步骤220：根据预先配置的神经网路，确定每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户。

应理解，本申请中预先配置的神经网络可以是深度神经网络，该深度神经网络的预先配置的过程可以如上述图1所示。

在一示例中，可以利用预先配置的神经网络确定每个第一面部图像是否属于注视设备的屏幕的用户；当每个第一面部图像属于所述用户时，可以利用所述预先配置的神经网络确定每个第一面部图像是否匹配预设面部图像。

在本申请中，可以先进行注视判别，即确定当前图像帧中的第一面部图像对应的用户是否在注视屏幕。在满足注视判别的情况下，再进行机主判别，即确定第一面部图像对应的用户是否匹配预设面部图像。其中，由于机主判别需要进行图像中多个特征向量的对比，从而机主判别的功耗是高于注视判别的功耗的，因此，为了节约系统功耗，可以先进行注视判别再进行机主判别；此外，也可以根据第一面部图像先进行机主判别再进行注视判别。

在一示例中，可以利用预先配置的神经网络确定每个第一面部图像是否匹配预设面部图像；当每个第一面部图像匹配预设面部图像时，可以利用预先配置的神经网络确定每个第一面部图像是否属于注视设备的屏幕的用户。

具体地，可以利用预先配置的神经网络确定每个第一面部图像属于注视设备的屏幕的用户的概率值；当概率值大于预设阈值时，确定每个第一面部图像属于注视设备的屏幕的用户。

具体地，可以将每个第一面部图像输入至预先配置的神经网路，输出该第一面部图像的特征向量，并与设备上的预设面部图像的特征向量计算距离，判断是否满足所述匹配。

在一个示例中，预设面部图像可以是设备的机主面部图像。机主在进行注册时，设备可以引导机主采集机主的面部图像，并通过该机主识别网络执行得到对应的特征向量，并存储在固定位置(如存储器)作为机主面部的特征向量(face ID)，供机主识别判定使用。在判断当前面部是否匹配时，可以通过计算当前面部图像对应的特征向量与机主面部的特征向量的距离，并与预设的距离阈值比较大小，若小于预设的距离阈值，则可以确定当前面部图像匹配预设面部图像；若大于预设的距离阈值，则可以确定当前面部图像不匹配预设面部图像。

步骤230：当所述每个第一面部图像均匹配所述预设面部图像且属于所述用户时，将所述屏幕由灭屏状态切换至亮屏状态。

例如，以一个图像帧举例说明，可以获取当前图像帧，该当前图像帧包括第一面部图像；根据预先配置的神经网路，确定第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户；当该第一面部图像均匹配所述预设面部图像且属于所述用户时，将所述屏幕由灭屏状态切换至亮屏状态。

进一步地，根据当前一个图像帧已经判定为是机主在注视屏幕后，为了避免用户无意看一眼手机后，设备的屏幕即由灭屏状态切换至亮屏状态的问题，可以进一步判断连续的M个图像帧中，每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户。通常情况下，假设机主有意唤醒设备，机主会注视一定间隔，因此考虑到场景的合理性同时满足实时唤醒，可以检测在连续的M个图像帧中每个第一面部图像均匹配所述预设面部图像且属于注视屏幕的用户时，将屏幕由灭屏状态切换至亮屏状态。其中，检测在连续的M个图像帧中每个第一面部图像均匹配所述预设面部图像且属于注视屏幕的用户的具有执行流程可以是分别对每个图像帧依次进行处理判断，即可以是获取第一图像帧，当第一图像帧中的第一面部图像匹配所述预设面部图像且属于注视屏幕的用户时，再获取第二图像帧进行相同的判别操作，直至获取第M个图像帧时，第M个图像帧中的第一面部图像也满足匹配所述预设面部图像且属于注视屏幕的用户时，将设备的屏幕由灭屏状态切换至亮屏状态。或者，也可以是获取连续的M个图像帧，同时可以对M个图像帧中的全部或者部分进行处理，在M个图像帧中每个第一面部图像均匹配所述预设面部图像且属于注视屏幕的用户时，将屏幕由灭屏状态切换至亮屏状态。上述为举例说明，并不对本申请的流程执行顺序作出任何限定。

应理解，其中，M的数值可以自行设定，理应保证M值不应太大也不应太小，若M值太大，会使得唤醒存在时延较大且唤醒率低；若M值太小，会使得唤醒跳变严重。

下面结合图3，对本申请实施例中的唤醒屏幕的具体流程进行说明。

图3为本申请实施例提供的唤醒屏幕的方法的流程示意图。图3所示的方法包括步骤301至步骤315，下面分别对步骤301至步骤315进行详细描述。

步骤301：周期性灭屏检测模块，以设定的周期，周期性地检测终端设备当前状态是否在灭屏状态。

例如，若终端设备处于灭屏状态，即终端设备的屏幕处于灭屏状态，则执行步骤302。

例如，若终端设备处于亮屏状态，即终端设备的屏幕处于亮屏状态，则执行步骤305本图像帧结束即结束该流程，等待继续下个周期的灭屏检测。

步骤302：获取图像存储模块中的最新图像帧，作为后续注视判别或者机主判别的输入图像。

在本申请中，针对最新图像帧，存储该图像帧或者获取该图像帧的时间距离当前时间的时间差最短。

步骤303：判断获取的最新图像帧中是否存在面部图像。若存在面部图像，则执行步骤304；若不存在面部图像，则执行步骤305本图像帧结束即结束该流程。

步骤304：计算面部框大小，获取最大面部框及其面部方向。

示例性地，获取最新的图像帧后，可以对图像进行面部检测，即可以确定最新图像帧中的背景区域和面部区域。

在一个示例中，可以采用一个端到端(end-to-end)的多任务网络结构，完成面部框定位、面部分类和面部方向分类三个任务，即可以输入固定尺寸的图像，获取输出的面部框坐标和面部方向。其中，面部方向为面部框中的面部图像相对于面部框的相对位置信息，例如，面部方向分可以为朝上、朝左、朝右、朝下。面部框坐标可以是矩形框的左上角和右下角的坐标值，即可以是4个数值。计算面部框的面积，依据面积排序，选出面积最大的面部输出其面部框坐标和及其面部方向。

应理解，前置摄像头采集的图像中可以包括一个面部图像，或者，也可以包括多个面部图像，考虑到机主想要唤醒设备时，往往会有意凑近设备屏幕，那么在摄像头采集的图像中最大的面部图像，或者，面部图像也可以是当前图像帧中包括的至少一个面部图像中其他的面部图像，例如，位于或接近于当前图像帧中央的面部图像，作为最有可能进行唤醒屏幕的用户。

步骤306：根据最大面部框从获取的最新图像帧中定位到该面部框并截取该面部框中的面部区域图像。

步骤307：根据最大面部框的面部方向确定截取的面部区域图像是否为竖直方向面部，即截取的面部区域图像相对于屏幕是否为竖直向上的面部图像。若截取的面部图像为竖直面部图像(竖直朝上的面部图像)，则执行步骤309；若截取的面部图像不是竖直面部图像，则执行步骤308。

步骤308：通过翻转和转置校正面部图像，得到校正后的面部图像，即可以是得到相对于终端设备的屏幕为竖直向上的面部图像。

在本申请中，摄像头采集到的图像中的面部存在各种方向的可能，为了减小后续注视判别以及机主判别网络的负载以及计算复杂度，可以将截取的面部区域图像校正为竖直方向的面部图像。

示例性地，若截取获得的面部图像为竖直向上方向的面部图像，则可以不进行校正处理；若截取获得的面部图像为朝下方向的面部图像，则可以进行向上翻转处理；若截取获得的面部图像为朝左方向的面部图像，则可以先向上翻转然后转置处理；若截取获得的面部图像为朝右方向的面部图像，则可以先向左翻转然后转置处理；最终可以输出校正为竖直方向的面部区域图像。

步骤309：面部图像作为输入，执行注视判别网络，输出注视概率。

本申请中，注视判别网络可以是预先训练的深度神经网络，将获取的面部图像输入至预先训练的深度神经网络，可以输出注视或者非注视的概率。

应理解，注视判别网络的输入可以是校正为竖直方向的面部图像，也可以是输入未进行校正的面部图像。当输入是校正为竖直方向的面部图像比输入直接是面部图像时，网络输出的注视结果的准确率更高。此外，若考虑到校正过程可能会引入设备的功耗，也可以去掉面部校正过程，直接输入原始面部图像，确定相应的注视准确度。即使是直接输入未校正为竖直方向的原始面部图像，该注视判别网络的注视准确度也比传统的注视判别基于获取瞳孔图像的方法的准确度更高。

步骤310：将输出的注视概率与预设注视阈值比较大小，输出是否注视屏幕。若注视概率大于预设注视阈值，则判定该面部在注视屏幕，说明该面部在试图唤醒设备，即确定输入注视判别网络的面部对应的用户在注视屏幕，执行步骤311；若注视概率小于预设注视阈值，则判定该面部未注视屏幕，说明该面部并无唤醒意图，即确定输入注视判别网络的面部对应的用户没有注视屏幕，则执行步骤305本图像帧结束即结束该流程。

步骤311：面部图像作为输入，执行机主判别网络，输出该面部图像的特征向量。需要说明的是，在本申请中机主判别网络和注视判别网络可以是两个不同的端到端的轻量级神经网络算法。

步骤312：计算输出的特征向量与预设的机主面部的特征向量的距离。

步骤313：将计算得到的距离与预设的距离阈值比较大小，输出是否为机主。

在一个示例中，通过计算当前面部图像对应的特征向量与机主面部的特征向量的距离，并与预设的距离阈值比较大小，若小于预设的距离阈值，则确定是机主面部，执行步骤314；否则，确定是非机主面部，则执行步骤305，本图像帧结束，即结束该流程。其中，机主在进行注册时，终端设备可以引导机主采集机主面部，并通过该机主识别网络执行得到对应的特征向量，并存储在固定位置作为机主面部的特征向量，供机主识别判定使用。

应理解，在图3中先执行注视判别，即步骤309和步骤310；在注视概率大于预设注视阈值时，再执行机主识别，即步骤311至步骤313。可以理解，图3所示的唤醒屏幕的方法的执行流程中，也可以先执行机主判别，在机主判别满足条件时即可以是输入的面部图像匹配机主的面部图像，再执行注视判别。或者，可以通过神经网络一次性执行机主识别和注视判别，即通过神经网络的处理，一次性地输出执行机主识别和注视判别的结果。上述为举例说明，并不对本申请的流程执行顺序作出任何限定。

步骤314：判断是否连续M帧为机主注视。即统计判定为机主在注视屏幕的连续帧数，是否达到预设的M帧，若达到连续M帧，则执行步骤315；否则执行步骤305退出流程。

步骤315：唤醒亮屏，即将屏幕状态调整至亮屏状态。

应注意，图3的例子仅仅是为了帮助本领域技术人员理解本申请实施例，而非要将本申请实施例限于所例示的具体场景。本领域技术人员根据所给出的图3的例子，显然可以进行各种等价的修改或变化，这样的修改或变化也落入本申请实施例的范围内。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文详细描述了根据本申请实施例的唤醒屏幕的方法，在本申请中通过获取的M个图像帧，通过预先配置的神经网络进行注视判别和面部图像判别，即确定每个图像帧中的第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户，能够提高设备唤醒屏的准确性，不会显著增加设备的成本。应理解，本申请实施例的唤醒屏幕的装置可以执行前述本申请实施例的各种方法，即以下各种产品的具体工作过程，可以参考前述方法实施例中的对应过程。

图4是本申请实施例的唤醒屏幕的装置400的示意性框图。应理解，装置400能够执行图2或图3的方法中的各个步骤，为了避免重复，此处不再详述。装置400包括：获取单元410、处理单元420和唤醒单元430。其中，获取单元410，用于获取M个图像帧，其中，所述M个图像帧中的每个图像帧包括第一面部图像，M为大于或等于1的整数；处理单元420，用于根据预先配置的神经网路，确定每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户；唤醒单元430，用于当所述每个第一面部图像均匹配所述预设面部图像且属于所述用户时，将所述屏幕由灭屏状态切换至亮屏状态。

在一个示例中，图4中的获取单元410的具体实现形式可以具体是如图5所示的图像获取模块，其中，图像获取模块：用于获取图像存储模块中的最新图像帧，作为后续网络的输入图像。

在一个示例中，图4中的处理单元420具体实现形式可以包括如图5所示的周期性灭屏检测模块、面部检测+方向判别模块、注视判别模块以及机主识别模块，其中，周期性检测模块：可以用于以设定的周期，周期性地检测设备当前状态是否在灭屏状态，若在灭屏状态则继续下一流程，否则跳出流程继续下个周期的灭屏检测。面部检测+方向判别模块：可以用于运行面部检测+方向判别的多任务神经网络算法，获取图像存储模块的最新存储图像作为网络的输入图像，算法直接输出图像中的面部框坐标和面部方向信息，依据面部框的面积大小获取到最大面部框和其面部方向信息，从输入图像中截取到最大面部区域，并依据面部方向进行竖直方向校正，输出校正后的面部区域图像作为后续模块的输入。注视判别模块：可以用于运行注视判别的神经网络算法，以面部检测+方向判别模块的输出图像(面部区域图像)作为输入，算法直接输出注视概率，与预设的概率阈值比较大小，输出注视结果。机主识别模块：可以用于运行机主识别模块的神经网络算法，以面部检测+方向判别模块的输出图像(面部区域图像)作为输入，算法直接输出面部特征向量，计算与预存的机主面部特征向量的距离，根据预设的距离阈值判断输出是否为机主。

在一个示例中，图4中的唤醒单元430具体实现形式可以是如图5所示的唤醒处理模块，其中，唤醒处理模块可以用于依据上述模块得到的注视信息和机主信息，平滑处理模块判断当前是否满足已经连续M图像帧中存在机主注视屏幕，若满足，则上报相关唤醒单元唤醒亮屏；若不满足，则不上报。

可选地，作为一个实施例，所述处理单元420具体用于：利用所述预先配置的神经网络确定所述每个第一面部图像是否属于所述用户；当所述每个第一面部图像属于所述用户时，利用所述预先配置的神经网络确定所述每个第一面部图像是否匹配所述预设面部图像。

可选地，作为一个实施例，所述处理单元420具体用于：利用所述预先配置的神经网络确定所述每个第一面部图像属于所述用户的概率值；当所述概率值大于预设阈值时，确定所述每个第一面部图像属于所述用户。

可选地，作为一个实施例，所述处理单元420还用于：在所述每个图像帧中确定第一面部框，所述第一面部框为所述每个图像帧中包括的至少一个面部框中面积最大的面部框；根据位于所述第一面部框中的第二面部图像确定所述第一面部图像。

可选地，作为一个实施例，所述获取单元410还用于：获取面部方向信息，所述面部方向信息用于指示所述第二面部图像的方向；所述处理单元420具体用于：当所述第二面部图像的方向不匹配预设标准方向时，对所述第二面部图像进行旋转处理，以得到匹配于所述预设标准方向的所述第一面部图像。

可选地，作为一个实施例，所述获取单元410具体用于：在所述屏幕处于所述灭屏状态时，获取所述M个图像帧。

可选地，作为一个实施例，所述预先配置的神经网络为深度神经网络。

应理解，这里的唤醒屏幕的装置400以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现，对此不作具体限定。例如，“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。因此，在本申请的实施例中描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例还提供一种设备，该设备可以是终端设备也可以是内置于所述终端设备的电路设备。该设备可以用于执行上述方法实施例中的功能/步骤。

如图6所示，设备600包括处理器610和收发器620。可选地，该设备600还可以包括存储器630。其中，处理器610、收发器620和存储器630之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器630用于存储计算机程序，该处理器610用于从该存储器630中调用并运行该计算机程序。可选地，设备600还可以包括天线640，用于将收发器620输出的无线信号发送出去。

上述处理器610可以和存储器630可以合成一个处理装置，更常见的是彼此独立的部件，处理器610用于执行存储器630中存储的程序代码来实现上述功能。具体实现时，该存储器630也可以集成在处理器610中，或者独立于处理器610。该处理器610可以与图4中装置400中的处理单元420对应，也可以与图5中装置500中的周期性检测模块、面部检测+方向判别模块、注视判别模块以及机主识别模块对应。

除此之外，为了使得设备600的功能更加完善，该设备600还可以包括输入单元660、显示单元670、音频电路680、摄像头690和传感器601等中的一个或多个，所述音频电路还可以包括扬声器682、麦克风684等。其中，摄像头690可以与图4中装置400中的获取单元410对应，也可以与图5中装置500中图像获取模块对应；显示单元870可以包括屏幕，显示单元870可以与图4中装置400中的唤醒单元430对应，也可以与图5所示装置500中的唤醒处理模块对应。

例如，在一种实现方式中，摄像头690或对应于摄像头690的图像处理通道可以用于获取M个图像帧。

可选地，上述设备600还可以包括电源650，用于给终端设备中的各种器件或电路提供电源。

应理解，图6所示的设备600能够实现图2以及图3所示方法实施例的各个过程。设备600中的各个模块的操作和/或功能，分别为了实现上述方法实施例中的相应流程。具体可参见上述方法实施例中的描述，为避免重复，此处适当省略详细描述。

图7为本申请实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器70。该芯片可以被设置在如图6所示的设备600中，例如可以设置在设备600的处理器610中。如图1所示的卷积神经网络中各层的算法均可在如图7所示的芯片中得以实现。

应理解，图6所示的设备600中的处理器610可以是片上系统(system on a chip，SOC)，该处理器610中可以包括中央处理器(central processing unit，CPU)以及图7所示的(neural-network processing unit，NPU)70，还可进一步包括其他类型的处理器，例如对应于摄像头690的图像信号处理器(ISP)，该ISP可包括之前实施例提到的图像处理通道。所述CPU可以叫主CPU，神经网络处理器NPU 70作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。各部分处理器配合工作实现之前的方法流程，并且每部分处理器可以选择性执行一部分软件驱动程序。

例如，图2中步骤210可以由ISP执行，220可以由NPU70执行，230可以由CPU执行。再例如，图3中301、314和315由CPU执行，302由ISP执行，303-313可以由NPU执行。或者可替换的，303可以由CPU而非NPU执行。总之，处理器610内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器630中。以上NPU70仅用于举例，实际的神经网络功能可以由除了NPU70之外的处理设备代替，如图像处理器(graphics processing unit，GPU)也可用于神经网络的处理，本实施例对此不限定。

以图7为例，NPU的核心部分为运算电路703，控制器704控制运算电路703提取权重存储器702或者输入存储器701中的数据并进行运算。

在一些可能的实现方式中，运算电路703内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路703是二维阵列。运算电路703还可以是一维阵列或者能够执行例如，乘法和加法这样的数学运算的其它电子线路。

在一些实现中，运算电路703是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器702中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器701中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器708中。

向量计算单元707可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元707可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization，LRN)等。

在一些实现中，向量计算单元能707将经处理的输出的向量存储到统一缓存器706。例如，向量计算单元707可以将非线性函数应用到运算电路703的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元707生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路703的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器706用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)705将外部存储器中的输入数据搬运到输入存储器701和/或统一存储器706、将外部存储器中的权重数据存入权重存储器702，以及将统一存储器706中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)710，用于通过总线实现主CPU、DMAC和取指存储器709之间进行交互。与控制器704连接的取指存储器(instruction fetch buffer)709，用于存储控制器704使用的指令；控制器704，用于调用取指存储器709中缓存的指令，实现控制该运算加速器的工作过程。其中，图1所示的卷积神经网络中各层的运算可以由运算电路703或向量计算单元707执行。

示例性地，本申请实施例中，提供的一种神经网络的训练方法，可以根据至少一个用户的特征图像进行训练，确定预先训练的深度神经网络。例如，可以根据至少一个用户的非注视面部图像、注视面部图像、头部姿态信息以及注视方向信息进行训练，确定预先训练的深度神经网络。

可选的，训练方法可以由CPU处理，也可以由CPU和GPU共同处理，也可以不用GPU，而使用其他适合用于神经网络计算的处理器，本申请不做限制。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机执行上述如图2、图3所示的唤醒屏幕的方法中的各个步骤。

本申请还提供了一种包含指令的计算机程序产品，当该计算机程序产品在计算机或任一至少一种处理器上运行时，使得计算机执行如图2、图3所示的唤醒屏幕的方法中的各个步骤。

本申请还提供一种芯片，包括处理器。该处理器用于读取并运行存储器中存储的计算机程序，以执行本申请提供的唤醒屏幕的方法执行的相应操作和/或流程。

可选地，该芯片还包括存储器，该存储器与该处理器通过电路或电线与存储器连接，处理器用于读取并执行该存储器中的计算机程序。进一步可选地，该芯片还包括通信接口，处理器与该通信接口连接。通信接口用于接收需要处理的数据和/或信息，处理器从该通信接口获取该数据和/或信息，并对该数据和/或信息进行处理。该通信接口可以是输入输出接口。

以上各实施例中，涉及的处理器610可以例如包括中央处理器(central processing unit，CPU)、微处理器、微控制器或数字信号处理器，还可包括GPU、NPU和ISP，该处理器还可包括必要的硬件加速器或逻辑处理硬件电路，如特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器中。

存储器可以是只读存储器(read-only memory，ROM)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(random access memory，RAM)或可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质等。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

本领域普通技术人员可以意识到，本文中公开的实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种唤醒屏幕的方法，其特征在于，包括：

获取M个图像帧，其中，每个图像帧包括第一面部图像，M为大于或等于1的整数；

根据预先配置的神经网路，确定每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户；

当所述每个第一面部图像均匹配所述预设面部图像且属于所述用户时，将所述屏幕由灭屏状态切换至亮屏状态。
如权利要求1所述的方法，其特征在于，所述根据所述预先配置的神经网络，确定每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户，包括：

利用所述预先配置的神经网络确定所述每个第一面部图像是否属于所述用户；

当所述每个第一面部图像属于所述用户时，利用所述预先配置的神经网络确定所述每个第一面部图像是否匹配所述预设面部图像。
如权利要求2所述的方法，其特征在于，所述利用所述预先配置的神经网络确定所述每个第一面部图像是否属于所述用户，包括：

利用所述预先配置的神经网络确定所述每个第一面部图像属于所述用户的概率值；

当所述概率值大于预设阈值时，确定所述每个第一面部图像属于所述用户。
如权利要求1至3中任一项所述的方法，其特征在于，在获取M个图像帧后，还包括：

在所述每个图像帧中确定第一面部框，所述第一面部框为所述每个图像帧中包括的至少一个面部框中面积最大的面部框；

根据位于所述第一面部框中的第二面部图像确定所述第一面部图像。
如权利要求4所述的方法，其特征在于，还包括：

获取面部方向信息，所述面部方向信息用于指示所述第二面部图像的方向；

所述根据位于所述第一面部框中的第二面部图像确定所述第一面部图像包括：

当所述第二面部图像的方向不匹配预设标准方向时，对所述第二面部图像进行旋转处理，以得到匹配于所述预设标准方向的所述第一面部图像。
如权利要求1至5中任一项所述的方法，其特征在于，所述获取M个图像帧包括：

在所述屏幕处于所述灭屏状态时，获取所述M个图像帧。
如权利要求1至6中任一项所述的方法，其特征在于，所述预先配置的神经网络为深度神经网络。
一种唤醒屏幕的装置，其特征在于，所述装置包括：

获取单元，用于获取M个图像帧，其中，每个图像帧包括第一面部图像，M为大于或等于1的整数；

处理单元，用于根据预先配置的神经网路，确定每个第一面部图像是否匹配预设面部图像且属于注视设备的屏幕的用户；

唤醒单元，用于当所述每个第一面部图像均匹配所述预设面部图像且属于所述用户时，将所述屏幕由灭屏状态切换至亮屏状态。
如权利要求8所述的装置，其特征在于，所述处理单元具体用于：

利用所述预先配置的神经网络确定所述每个第一面部图像是否属于所述用户；

当所述每个第一面部图像属于所述用户时，利用所述预先配置的神经网络确定所述每个第一面部图像是否匹配所述预设面部图像。
如权利要求9所述的装置，其特征在于，所述处理单元具体用于：

利用所述预先配置的神经网络确定所述每个第一面部图像属于所述用户的概率值；

当所述概率值大于预设阈值时，确定所述每个第一面部图像属于所述用户。
如权利要求8至10中任一项所述的装置，其特征在于，所述处理单元还用于：

在所述每个图像帧中确定第一面部框，所述第一面部框为所述每个图像帧中包括的至少一个面部框中面积最大的面部框，；

根据位于所述第一面部框中的第二面部图像确定所述第一面部图像。
如权利要求11所述的装置，其特征在于，所述获取单元还用于：

获取面部方向信息，所述面部方向信息用于指示所述第二面部图像的方向；

所述处理单元具体用于：

当所述第二面部图像的方向不匹配预设标准方向时，对所述第二面部图像进行旋转处理，以得到匹配于所述预设标准方向的所述第一面部图像。
如权利要求8至12中任一项所述的装置，其特征在于，所述获取单元具体用于：

在所述屏幕处于所述灭屏状态时，获取所述M个图像帧。
如权利要求8至13中任一项所述的装置，其特征在于，所述预先配置的神经网络为深度神经网络。
一种唤醒屏幕的装置，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序，以执行如权利要求1至7中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括计算机程序，当其在计算机设备或处理器上运行时，使得所述计算机设备或处理器执行如权利要求1至7中任一项所述的方法。