WO2021017096A1

WO2021017096A1 - 一种将人脸信息录入数据库的方法和装置

Info

Publication number: WO2021017096A1
Application number: PCT/CN2019/104108
Authority: WO
Inventors: 蔡海蛟; 冯歆鹏; 周骥
Original assignee: 上海肇观电子科技有限公司
Priority date: 2019-07-29
Filing date: 2019-09-03
Publication date: 2021-02-04
Also published as: CN110196914A; US10922570B1; JP6723591B1; JP2021022351A; EP3772016A1; EP3772016B1; CN110196914B; KR20220041891A; US20210034898A1

Abstract

一种用于将人脸信息录入数据库中的方法、处理器芯片、电子设备、存储介质。用于将人脸信息录入数据库中的方法包括：对一个或多个被拍摄者进行视频拍摄，在拍摄期间从视频画面中提取一个或多个被拍摄者的人脸信息(S101)；记录一个或多个被拍摄者中的至少一个在被拍摄期间的语音(S103)；对被记录的语音进行语义分析，从中提取相应的信息(S105)；将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联并录入数据库中(S107)。

Description

一种将人脸信息录入数据库的方法和装置

技术领域

本公开涉及人脸识别，特别涉及将人脸信息录入数据库的方法和装置。

背景技术

人脸识别是基于人的脸部特征信息进行识别的一种生物识别技术。人脸识别技术用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测人脸，进而对检测到的人脸进行脸部识别。建立人脸信息数据库是进行人脸识别的先决条件。在将人脸信息录入数据库的过程中，通常是由图像和视频采集设备的使用者来录入与所采集的人脸信息相对应的信息。

发明内容

本公开的一个目的是提供一种于将人脸信息录入数据库中的方法、处理器芯片、电子设备、存储介质。

根据本公开的一个方面，提供了一种用于将人脸信息录入数据库中的方法，包括：对一个或多个被拍摄者进行视频拍摄，在拍摄期间从视频画面中提取所述一个或多个被拍摄者的人脸信息；记录所述一个或多个被拍摄者中的至少一个在被拍摄期间的语音；对被记录的语音进行语义分析，从中提取相应的信息；并且将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联并录入所述数据库中。

根据本公开的又一方面，提供一种处理器芯片电路，用于将人脸信息录入数据库中，包括被配置为执行上述方法的步骤的电路单元。

根据本公开的又一方面，提供一种电子设备，包括：视频传感器，用于对一个或多个被拍摄者进行视频拍摄；音频传感器，用于记录所述一个或多个被拍摄者中的至少一个在被拍摄期间的语音；以及上述的处理器芯片电路，以对相应被拍摄者的信息和人脸信息进行关联并录入数据库中。

根据本公开的又一个方面，提供了一种计算机可读存储介质，其中，存储介质上存储有包括指令的程序，该指令在由电子设备的处理器执行时致使电子设备执行上述方法的步骤。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据第一实施方式将人脸信息与从语音中提取的信息进行关联的流程图；

图2示例性示出了对多个被拍摄者录入人脸信息的场景；

图3示出了麦克风阵列与摄像头的第一种排列方式；

图4示出了麦克风阵列与摄像头的第二种排列方式；

图5示例性地基于共同的时间轴对视频图像与音频波形进行关联显示；

图6示出了根据第二实施方式将人脸信息与从语音中提取的信息进行关联的流程图；

图7示出了根据第三实施方式将人脸信息与从语音中提取的信息进行关联的流程图；

图8示出了能够应用于示例性实施方式的示例性计算设备的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个要素与另一要素区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

图1示出了根据本公开的第一实施方式将人脸信息与从语音中提取的信息进行关联的流程图。

下文中，首先按照图1中的步骤描述只有一个被拍摄者的场景。该场景例如是政府相关部门或银行的工作人员需要录入一个被拍摄者的人脸和身份的场景；或者是弱视人员使用一个辅助的可穿戴设备被动录入与其对面讲话的人的人脸和包括身份在内的相关信息的场景。

在步骤S101中，对一个被拍摄者进行视频拍摄，在拍摄期间从视频画面中提取被拍摄者的人脸信息。

视频拍摄可以借助摄像机、摄像头或其它具有图像传感器的视频采集单元完成。当被拍摄者在视频采集单元的拍摄范围内时，视频采集单元可以利用人脸识别技术自动搜索到人脸，进而提取被拍摄者的人脸信息用于人脸识别。

人脸信息包括能够用于辨识被拍摄者的人脸特征信息。人脸识别系统可使用的特征包括视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等。例如，对人脸的眼睛、鼻子、嘴、下巴等局部之间结构关系的几何描述，以及虹膜都可以作为识别人脸的重要特征。

在进行人脸识别时，将上述提取的人脸信息与数据库中存储的人脸信息模板进行搜索匹配，根据相似程度对人脸的身份信息进行判断。例如，可以通过深度学习，训练出神经网络来进行上述的相似程度判断。

在步骤S103中，记录被拍摄者中在被拍摄期间的语音。

语音中可以包含说话者自己的身份信息；作为替代和补充，语音中也可以包括与说话者自己所处场景有关的信息。例如，在弱视人员的就医场景中，医生的谈话内容中不仅可以包括该医生的姓名、所属科室、职位等身份信息，同样可以包括关于治疗方式、服药方式等有效语音信息。

语音的采集可以通过麦克风等音频采集单元实现。被拍摄者主动说出信息，例如自己的身份信息“我是王军”等。身份信息至少包括姓名，然而根据数据库的不同用途，还可以包括年龄、籍贯、以及上述的工作单位、职务等其他信息。

在步骤S105中，对被记录的语音进行语义分析，从中提取相应的信息。

从语音中提取信息可以通过语音识别技术实现，提取出的信息可以以文本的形式进行存储。基于语音识别技术提供商提供的汉语(包括不同方言)、英语等各类语言的语音数据库，可以识别出用多种语言报出的信息。如上所述，所提取的信息中可以是说话者自己的身份信息；作为替代和补充，所提取的信息也可以包括与说话者自己所处场景有关的信息。需要指出，通过语义分析所提取的身份信息不同于说话者的声纹信息。

被拍摄者的配合程度可能对语音识别的结果造成影响。可以理解的是，如果被拍摄者以适当的语速清晰地说出相应的信息，语音识别的结果会更准确。

在步骤S107中，将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联并存入数据库。

在只有一个被拍摄者的场景中，可以判定所提取的人脸信息与信息属于该同一个被拍摄者，进而将提取到的人脸信息和信息以关联的形式存储到数据库中。其中，信息以文字信息的形式存储在数据库中。

上述的人脸信息录入办法，通过自动识别并关联被拍摄者播报的信息与其人脸信息，降低了由视频采集单元使用者错误录入被拍摄人信息(尤其是身份信息)的风险，提高了人脸信息录入的效率。此外，根据本公开的方法使得同时录入与场景有关的其他信息成为可能，因此可以满足用户在不同场景的使用需求。

图1流程图中的步骤也可以应用于有多个被拍摄者的场景。该场景例如是弱视人员参加多人会议或处于社交场合。

应当理解，上文中围绕单个被拍摄者描述的人脸识别和语音识别可以分别应用于包括多个被拍摄者的场景中的每个个人，因此，相关内容不再赘述。

在步骤S101中，对多个被拍摄者进行视频拍摄，在拍摄期间从视频画面中提取每个被拍摄者的人脸信息。

如图2所示，视频采集单元204的拍摄范围内(图2中两条虚线界定的扇形区域)同时有三个被拍摄者201、202和203。利用人脸识别技术自动搜索到多个被拍摄者的人脸，进而针对拍摄到的所有人脸提取相应的人脸信息。

在步骤S103中，记录多个拍摄者中的至少一个在被拍摄期间的语音。

多个被拍摄者可以依次播报自己的信息，记录下来的语音可以存储在存储器中。

在步骤S105中，分别对被记录的各个语音进行语义分析，从中提取相应的信息。需要说明的是，如上所述，除身份信息之外，语音中也可以包括与说话者所在场景有关的信息，这类信息也同样可以通过分析语音而被提取出来，并与人脸信息关联存储到数据库种。为说明的简便起见，下文会以语音中的身份信息为例对本发明进行阐述。

在步骤S107中，将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联并录入数据库中。

在包括多个被拍摄者的场景中，可以进一步区分仅一人说话和多人同时说话的场景。在多人说话造成相互严重干扰以至无法区分的情况下，可以选择放弃在当前场景中记录的语音，并再做语音录入；在仅有一人说话，或者虽有多人说话但仍有一个声音可以与其他声音区分开时，对所记录的语音中的该主要(或唯一)的声音进行分析从而提取相应的信息。

所提取出的相应的信息和人脸信息的关联可以通过以下两种方式实现：

一、声源定位

在图2以俯视图的方式示出的场景中，三个被拍摄者201、202和203位于视频采集单元204的拍摄范围内。此外，用于人脸信息录入的设备200还包括音频采集单元205。需要指出，图2并不意图限定音频采集单元205和视频采集单元204的相对位置。

音频采集单元205可以是包括三个麦克风的阵列，其中的麦克风例如是对声压灵敏度高的无指向性的麦克风元件。

图3中，三个麦克风305-1、305-2、305-3在摄像头304上方呈直线排列。图4中，三个麦克风405-1、405-2、405-3以摄像头404为中心构成一个等边三角形。

麦克风的阵列的形式不限于图3和图4中的模式，重要的是三个麦克风分别安装于人脸信息录入设备200、300、400上已知的且不同的位置。

当被拍摄者201、202和203中的一个播报自己的身份信息时，说话的声波传播到音频采集单元的三个麦克风305-1、305-2、305-3。由于位置不同，三个麦克风采集的音频信号相互之间存在相位差，根据三个相位差信息可以判断出声源相对于人脸信息录入设备的方向。例如，如图3所示，可以将三个麦克风305-1、305-2、305-3中的一个305-2设置在人脸信息录入设备300竖直方向的中轴线上，其余两个麦克风305-1、305-3相对麦克风305-2左右对称设置，并且以经过麦克风305-2且垂直于其所在平面的法线作为基准线，用角度来标定声源的具体方向。

在图2所示的情况中，被拍摄者1正在发出语音播报自己的身份信息。通过音频采集单元205，能够准确定位被拍摄者1相对于音频采集单元205的方向。应当理解的是，声源定位的精准度与音频采集单元使用的麦克风的灵敏度有关。如果处于拍摄范围内的被拍摄者相互之间的间隔距离很大，则对声源定位精准度的要求相对较低；相反，如果处于拍摄范围内的被拍摄者相互之间的间隔很小，则对声源定位精准度的要求相对较高。基于以上教导，在实施本公开时，本领域技术人员可以根据具体的应用场景(例如根据同时处于拍摄范围内的人数)决定音频采集单元的性能。

视频采集单元304、404可以用于将拍摄者所处的现实场景和视频场景关于方位进行映射。这种映射可以通过在现实场景中预设参考标志物206、207实现(在这种情况下，视频采集单元到参考标志物的距离已知)，也可以利用摄像头的测距功能实现。

其中，利用摄像头测距可以通过以下方式实现：

1)拍摄多视角图像：在视频采集单元304、404的摄像头参数已知的情况下，可以利用设备内部的传感器(比如陀螺仪)估计摄像头视角变化的情况以及视频采集单元的位移情况，从而推断图像中像素位移对应的实际空间距离；

2)利用defocus(depth from focus)的方法，拍摄多张不同聚焦深度的图片，然后利用多张图片进行深度估计。

基于现实场景与视频场景之间的方位映射，可以判断出现实场景中的某个方位在拍摄的视频画面中的相应位置。具体到图2的场景中，在三个被拍摄者201、202、203在现实场景中相对于视频采集单元204的位置、说话者201相对于音频采集单元205的方向、音频采集设备205和视频采集设备204相对距离已知的情况下，可以推算出说话者(被拍摄者1)在视频画面中的位置，进而完成提取的身份信息和提取的人脸信息的关联。

二、捕捉唇部动作

上述的声源定位涉及音频和视频在空间方位上的关联，捕捉唇部动作的实施方式则涉及视频和音频在时间上的关联。

有益的是，同时启动视频采集单元和音频采集单元，并分别进行视频和音频的录制。

图5利用共同的时间轴将所拍摄的视频和记录的音频波形关联显示。

当音频采集单元检测到在t1到t2的时间间隔内有音频信号录入，并且可以从中有效(排除噪声)提取出身份信息时，人脸信息录入设备200、300、400调取录制的视频画面，对t1时刻的帧502及其之前时刻(例如100ms之前)的帧501进行比较。通过比较，可以判断出位于左侧的被拍摄者在帧502中嘴唇有明显的张开动作；同样，t2时刻的帧503及其之后时刻(例如100ms之后)的帧504进行比较；通过比较，可以判断出位于左侧的被拍摄者在帧504中结束了嘴唇张开的状态。

基于时间的高度吻合性，可以判断音频采集单元在t1到t2的时间间隔内采集到身份信息应当与位于左侧的被拍摄者关联。

上述通过捕捉唇部动作关联身份信息和人脸信息的方法，既可以用来补强声源定位的实施方式，也可以作为声源定位的替代单独使用。

通过将身份信息和人脸信息进行关联，可以在同一个视频拍摄期间对多个被拍摄者进行信息录入，进一步节省人脸信息录入所需花费的时间，此外，还可以辅助弱视人员在人数较多的会议或社交场合中迅速掌握在场人员的身份信息，并将陌生人的身份信息与对应的人脸信息关联地存储在数据库中。一旦建立了数据库之后，在接下来的谈话过程中，可以通过上文阐释的定位技术，确认说话者在视频画面中的位置，对其进行人脸识别进而例如通过扬声器向弱视人员提供当前说话者的身份信息，从而为弱视人员能够进行正常的社交活动提供了极大的便利。

此外，在有多人说话的场景中，也可以通过拍摄的唇部视频动作准确分析出对应的语义，通过音频采集设备将不同的声源进行拆分，将视频唇部动作分析的语义与音频采集设备拆分的单路声源信息进行比对，以进行关联。

图6示出了根据本公开的第二实施方式将人脸信息与所提取的相应信息关联录入数据库的流程图。

与图1示出的实施方式不同的是，本第二实施方式在从语音中提取相应信息之前判断提取的人脸信息是否已经存储于数据库中。

在步骤S601中，对一个或多个被拍摄者进行视频拍摄，从视频画面中提取被拍摄者的人脸信息，并记录被拍摄者的语音。

在步骤S602中，将提取的人脸信息与数据库中已经存储的人脸信息模板进行比较。

如果判断该人脸信息已经存储于数据库中，则前进到步骤S605，退出人脸信息录入模式。

如果判断该人脸信息尚未存储于数据库中，则前进到S603，开始语义分析步骤601中记录的被拍摄者的语音，并从语音中提取相应的信息。

优选的，当将要录入的名字已经存储于数据库中(对应的人脸信息不同)，可以对将要录入的名字进行区别后录入数据库。例如，当数据库中已有“王军”时，录入为“王军2号”以区别库中已录入的“王军”，从而在后续播报给用户时，通过不同的语音信息代号，让用户与不同的人脸信息对应。

在步骤S604中，将提取的信息与人脸信息进行关联并录入数据库中。上述结合图1至5阐述的将声音和人脸进行关联的方式也可以应用于本第二实施方式。

根据第二实施方式，可以进一步提高所提取的相应信息与人脸信息的录入效率。

应当说明，根据本公开提取的包括身份在内的相应的信息是从音频格式的语音信息中识别出的文字信息，因此，上述信息作为文字信息而非语音信息被存储在数据库中。

图7示出了根据本公开的第三实施方式将人脸信息与身份信息关联录入数据库的流程图。

在步骤S701中，对一个或多个被拍摄者进行视频拍摄，在拍摄期间从视频画面中提取被拍摄者的人脸信息。

在步骤S703中，对被拍摄者中在被拍摄期间的语音进行语义分析，语音中可以包含说话者自己的身份信息。

在步骤S705中，判断提取的人脸信息是否已经在数据库中。

如果经判断发现相关的人脸信息尚未存储在数据库中，则前进到步骤S707，将提取的信息与人脸信息以关联的形式存储到数据库中。这里，上述结合图1至5阐述的将声音和人脸进行关联的方式也可以应用于本第三实施方式。

如果经判断发现相关的人脸信息已经存储在数据库中，则前进到S710，进一步判断提取的信息中是否可以补充数据库中已有的信息。例如，数据库中已经存在被拍摄者的姓名，而提取的信息中还包括了年龄、籍贯等其他信息，或者与说话者所在场景有关的新的信息。

如果不存在可以补充到数据库中的其他信息，前进到S711，退出人脸信息录入模式。

如果存在可以补充到数据库中的其他信息，前进到S712，将可以补充的信息补充存储到数据库中。

根据第三实施方式，可以以更高的效率获取更为全面的身份信息数据库。

图8是用于实现本公开的方法或者过程的计算设备2000，其是可以应用于本公开的各方面的硬件设备的示例。计算设备2000可以是被配置为执行处理和/或计算的任何机器。尤其是在上述有多人在场的会议或社交场景中，计算设备2000可以实现为一种可穿戴设备，优选实现为一种智能眼镜。此外，计算设备2000还可以实现为平板计算机、智能电话或其任何组合。根据本公开的用于人脸信息录入的装置可以全部或至少部分地由计算设备2000或类似设备或系统实现。

计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如，计算设备2000可以包括总线2002、一个或多个处理器2004、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2006可以是能向计算设备2000输入信息的任何类型的设备，并且可以包括但不限于摄像头。输出设备2008可以是能呈现信息的任何类型的设备，并且可以包括但不限于扬声器、音频输出终端、振动器或者显示器。计算设备2000还可以包括非暂时性存储设备2010或者与非暂时性存储设备2010连接，非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备2010可以从接口拆卸。非暂时性存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于无线通信设备和/或芯片组，例如蓝牙设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算设备2000还可以包括工作存储器2014，其可以是存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器2014中，包括但不限于操作系统2016、一个或多个应用2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用2018中。

在将图8所示的计算设备2000应用于本公开的实施方式时，存储器2014可以存储用于执行图1、图6和图7所示的流程图的程序代码、拍摄的视频和/或音频文件，其中应用2018中可以包括由第三方提供的人脸识别应用、语音识别应用、摄像头测距应用等等。输入设备2006可以是用于获取视频和音频的传感器，例如摄像头和麦克风。存储设备2010例如用于存储数据库，使得经关联的身份信息和人脸信息可以写入数据库中。处理器2004用于根据工作存储器2014中的程序代码来执行根据本公开的各方面的方法步骤。

还应该理解，计算设备2000的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算设备2000的其他组件也可以类似地分布。这样，计算设备2000可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

一种用于将人脸信息录入数据库中的方法，包括：

对一个或多个被拍摄者进行视频拍摄，在拍摄期间从视频画面中提取所述一个或多个被拍摄者的人脸信息；

记录所述一个或多个被拍摄者中的至少一个在被拍摄期间的语音；

对被记录的语音进行语义分析，从中提取相应的信息；并且

将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联并录入所述数据库中。
根据权利要求1的方法，其中，所述人脸信息包括能够用于辨识所述一个或多个被拍摄者的人脸特征信息。
根据权利要求1或2的方法，其中，所述至少一个被拍摄者的语音中包括说话者自己的身份信息，并且所述提取的相应的信息包括所述说话者自己的身份信息。
根据权利要求3的方法，其中，所述身份信息包括姓名。
根据权利要求1或2的方法，所述至少一个被拍摄者的语音中包括与说话者自己所处场景有关的信息，并且所述提取的相应的信息包括所述与说话者自己所处场景有关的信息。
根据权利要求1的方法，其中，将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联包括：

通过声源定位来确定所述说出该信息的被拍摄者在现实场景中的方位。
根据权利要求6的方法，其中，将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联还包括：

对所述现实场景与视频场景关于方位进行映射；

通过所述说出该信息的被拍摄者在现实场景中的方位来确定其在视频场景中的位置。
根据权利要求1的方法，对所提取的信息与说出该信息的被拍摄者的人脸信息进行关联包括：

在拍摄期间根据视频画面分析所述一个或多个被拍摄者的嘴唇的运动。
根据权利要求8的方法，其中，

比较所述嘴唇的运动的开始时间与所述语音被记录的开始时间。
根据权利要求1的方法，其中，检测所述至少一个被拍摄者的人脸信息是否已经存储在数据库中，如果所述至少一个被拍摄者的人脸信息不在数据库中，对所述被记录的语音进行分析。
根据权利要求1的方法，其中，检测所述至少一个被拍摄者的人脸信息是否已经存储在数据库中，如果所述至少一个被拍摄者的人脸信息已经存储在数据库中，则利用所述所提取的信息补充数据库中已存的与所述至少一个被拍摄者的人脸信息相关联的信息。
根据权利要求1的方法，其中，所述信息作为文字信息存储在数据库中。
一种处理器芯片电路，用于将人脸信息录入数据库中，包括：

被配置为执行根据权利要求1至12中任一项所述的方法的步骤的电路单元。
一种电子设备，包括：

视频传感器，用于对一个或多个被拍摄者进行视频拍摄；

音频传感器，用于记录所述一个或多个被拍摄者中的至少一个在被拍摄期间的语音；以及

如权利要求13所述的处理器芯片电路，以对相应被拍摄者的信息和人脸信息进行关联并录入数据库中。
根据权利要求14的电子设备，其中所述电子设备实现为可穿戴设备，所述可穿戴设备进一步包括扬声器，用于当数据库中存在与所识别的人脸对应的信息时语音播放出信息内容。
一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据权利要求1至12中任一项所述的方法。