WO2021196648A1

WO2021196648A1 - 交互对象的驱动方法、装置、设备以及存储介质

Info

Publication number: WO2021196648A1
Application number: PCT/CN2020/129855
Authority: WO
Inventors: 陈智辉
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2020-03-31
Filing date: 2020-11-18
Publication date: 2021-10-07
Also published as: SG11202109202VA; CN111428672A; KR20210124313A; TW202139064A; JP2022531055A

Abstract

公开了一种交互对象的驱动方法、装置、设备以及存储介质，所述方法包括：获取第一图像；识别所述第一图像中至少包含目标对象的嘴部的面部区域图像，并确定所述面部区域图像包含的嘴部的关键点信息；根据所述嘴部的关键点信息，确定所述第一图像中的所述目标对象是否处于说话状态；响应于确定所述第一图像中的所述目标对象处于说话状态，驱动所述交互对象进行回应。

Description

交互对象的驱动方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及一种交互对象的驱动方法、装置、设备以及存储介质。

背景技术

人机交互的方式大多为：用户基于按键、触摸、语音进行输入，设备通过在显示屏上呈现图像、文本或虚拟人物进行回应。目前虚拟人物多是在语音助理的基础上改进得到的，用户与虚拟人物的交互还停留表面上。

发明内容

本公开实施例提供一种交互对象的驱动方案。

根据本公开的一方面，提出一种交互对象的驱动方法，所述方法包括：获取第一图像；识别所述第一图像中至少包含目标对象的嘴部的面部区域图像，并确定所述面部区域图像包含的所述嘴部的关键点信息；根据所述嘴部的关键点信息，确定所述第一图像中的所述目标对象是否处于说话状态；以及响应于确定所述第一图像中的所述目标对象处于说话状态，驱动交互对象进行回应。

结合本公开提供的任一实施方式，所述嘴部的关键点信息包括位于目标对象的嘴部的多个关键点的位置信息；所述多个关键点包括至少一组关键点对，每个所述关键点对包括分别位于上嘴唇处和下嘴唇处的两个关键点；所述根据所述嘴部的关键点信息，确定所述目标对象是否处于说话状态，包括：根据所述至少一组关键点对的位置信息，确定每个所述关键点对中分别位于所述上嘴唇处和所述下嘴唇处的两个关键点的第一距离；以及根据各组所述关键点对的所述第一距离确定所述第一图像中的所述目标对象是否处于说话状态。

结合本公开提供的任一实施方式，所述第一图像为图像序列中的一帧；所述根据各组所述关键点对的所述第一距离确定所述第一图像中的所述目标对象是否处于说话状态，包括：在所述图像序列中，获取设定数目的待处理图像，所述待处理图像包括所述第一图像以及至少一帧第二图像；针对每帧第二图像：获取所述第二图像中每个所述关键点对的第一距离；根据所述第一图像中各组所述关键点对的第一距离以及各帧所述第二图像中各组所述关键点对的第一距离，确定所述第一图像中的所述目标对象是否处于说话状态。

结合本公开提供的任一实施方式，所述在所述图像序列中，获取设定数目的待处理图像，包括：以设定长度的窗口以及设定步长在所述图像序列中进行滑窗，每次滑动获取所述设定数目的待处理图像，其中，所述第一图像为所述窗口内的最后一帧图像。

结合本公开提供的任一实施方式，所述关键点对的第一距离包括所述关键点对中的两个关键点之间的欧式距离，所述根据所述第一图像中各组所述关键点对的第一距离以及各帧所述第二图像中各组所述关键点对的第一距离，确定所述第一图像中的所述目标对象是否处于说话状态，包括：识别所述待处理图像中的目标图像；确定所述待处理图像中所包含的目标图像的数目；响应于所述目标图像的数目与所述待处理图像的所述设定数目之间的比例大于设定比例，确定所述第一图像中的目标对象处于说话状态。

结合本公开提供的任一实施方式，所述识别所述待处理图像中的目标图像包括：将所述各组关键点对的欧式距离的平均值大于第一设定阈值的图像确定为所述目标图像；或将所述各组关键点对的欧式距离的加权平均值大于第二设定阈值的图像确定为所述目标图像。

结合本公开提供的任一实施方式，所述第一设定阈值和所述第二设定阈值根据所述待处理图像的分辨率确定。

结合本公开提供的任一实施方式，所述响应于所述目标对象处于说话状态，驱动交互对象进行回应，包括：在所述交互对象处于待机状态下，响应于首次确定所述第一图像中的所述目标对象处于说话状态，驱动所述交互对象进入与所述目标对象进行交互的状态。

根据本公开的一方面，提出一种交互对象的驱动装置，所述装置包括：获取单元，用于获取第一图像；识别单元，用于识别所述第一图像中至少包含目标对象的嘴部的面部区域图像，并确定所述面部区域图像包含的所述嘴部的关键点信息；确定单元，用于根据所述嘴部的关键点信息，确定所述第一图像中的所述目标对象是否处于说话状态；以及驱动单元，用于响应于确定所述第一图像中的所述目标对象处于说话状态，驱动交互对象进行回应。

结合本公开提供的任一实施方式，所述嘴部的关键点信息包括位于目标对象的嘴部的多个关键点的位置信息；所述多个关键点包括至少一组关键点对，每个所述关键点对包括分别位于上嘴唇处和下嘴唇处的两个关键点；所述确定模块在根据所述嘴部的关键点信息，确定所述目标对象是否处于说话状态时，还用于根据所述至少一组关键点对的位置信息，确定每个所述关键点对中分别位于所述上嘴唇处和所述下嘴唇处的两个关键点的第一距离；以及根据各组所述关键点对的所述第一距离确定所述第一图像中的所述目标对象是否处于说话状态。

结合本公开提供的任一实施方式，所述第一图像为图像序列中的一帧；所述确定单元在用于根据各组所述关键点对的所述第一距离确定所述第一图像中的所述目标对象是否处于说话状态时，用于：在所述图像序列中，获取设定数目的待处理图像，所述待处理图像包括所述第一图像以及至少一帧第二图像；针对每帧第二图像，获取所述第二图像中每个所述关键点对的第一距离；根据所述第一图像中各组所述关键点对的第一距离以及各帧所述第二图像中各组所述关键点对的第一距离，确定所述第一图像中的所述目标对象是否处于说话状态。

结合本公开提供的任一实施方式，所述确定单元在用于在所述图像序列中，获取设定数目的待处理图像时，用于：以设定长度的窗口以及设定步长在所述图像序列中进行滑窗，每次滑动获取设定数目的待处理图像，其中，所述第一图像为所述窗口内的最后一帧图像。

结合本公开提供的任一实施方式，所述关键点对的第一距离包括所述关键点对中的两个关键点之间的欧式距离，所述确定单元在根据所述第一图像中各组所述关键点对的第一距离以及各帧所述第二图像中各组所述关键点对的第一距离，确定所述第一图像中的所述目标对象是否处于说话状态时，用于：识别所述待处理图像中的目标图像；确定所述待处理图像中所包含的目标图像的数目；响应于所述目标图像的数目与所述待处理图像的所述设定数目之间的比例大于设定比例，确定所述第一图像中的目标对象处于说话状态。

结合本公开提供的任一实施方式，所述确定模块在所述待处理图像中，确定所述目标图像时，用于将所述各组关键点对的欧式距离的平均值大于第一设定阈值的图像确定为所述目标图像；或，将所述各组关键点对的欧式距离的加权平均值大于第二设定阈值的图像确定为所述目标图像。

结合本公开提供的任一实施方式，所述驱动单元具体用于：在所述交互对象处于待机状态下，响应于首次确定所述第一图像中的所述目标对象处于说话状态，驱动所述交互对象进入与所述目标对象进行交互的状态。

本公开一个或多个实施例的交互对象的驱动方法、装置、设备及计算机可读存储介质，通过对第一图像进行识别，获得所述第一图像中至少包含所述目标对象的嘴部的面部区域图像，并确定所述面部区域图像中的嘴部的关键点信息，根据所述嘴部的关键点信息来确定所述第一图像中的所述目标对象是否处于说话状态，以驱动所述交互对象进行回应，通过根据第一图像实时判断目标对象是否在说话，可以在目标对象未与展示交互对象的终端设备进行触摸交互的情况下，使交互对象对于目标对象说话及时做出回应，进入交互状态，提高了目标对象的交互体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入本公开中并构成本公开的一部分，示出了符合本公开的实施例，并与本公开一起用于解释本公开的原理。

图1是根据本公开实施例的交互对象的驱动方法中显示器的示意图；

图2是根据本公开实施例的交互对象的驱动方法的流程图；

图3是根据本公开实施例的交互对象的驱动方法中嘴部关键点的示意图；

图4是根据本公开实施例的交互对象的驱动装置的结构示意图；

图5是根据本公开实施例的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所述的、本公开的一些方面相一致的装置和方法的例子。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本公开至少一个实施例提供了一种交互对象的驱动方法，所述驱动方法可以由终端设备或服务器等电子设备执行，所述终端设备可以是固定终端或移动终端，例如手机、平板电脑、游戏机、台式机、广告机、一体机、车载终端等等，所述服务器包括本地服务器或云端服务器等，所述方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

在本公开实施例中，交互对象可以是任意一种能够与目标对象进行交互的交互对象，其可以是虚拟人物，还可以是虚拟动物、虚拟物品、卡通形象等等其他能够实现交互功能的虚拟形象，虚拟形象的展现形式即可以是2D形式也可以是3D形式，本公开对此并不限定。所述目标对象可以是用户，也可以是机器人，还可以是其他智能设备。所述交互对象和所述目标对象之间的交互方式可以是主动交互方式，也可以是被动交互方式。一示例中，目标对象可以通过做出手势或者肢体动作来发出需求，通过主动交互的方式来触发交互对象与其交互。另一示例中，交互对象可以通过主动打招呼、提示目标对象做出动作等方式，使得目标对象采用被动方式与交互对象进行交互。

所述交互对象可以通过电子设备进行展示，所述电子设备还可以是电视机、带有显示功能的一体机、投影仪、虚拟现实(Virtual Reality，VR)设备、增强现实(Augmented Reality，AR)设备等，本公开并不限定电子设备的具体形式。

图1示出根据本公开实施例的显示设备。如图1所示，该显示设备具有显示屏，其可以在显示屏上显示立体画面，以呈现出虚拟场景以及交互对象。例如图1中显示屏显示的交互对象有虚拟卡通人物。

在一些实施例中，本公开中所述的电子设备可以包括内置的显示器，通过显示器，可以显示立体画面，以呈现出虚拟场景以及交互对象。在另一些实施例中，本公开中所述的电子设备还可以不包括内置的显示器，所需显示的内容可以通过有线或无线的连接通知外接的显示器呈现出虚拟场景以及交互对象。

在一些实施例中，响应于电子设备接收到用于驱动交互对象输出语音的声音驱动数据，交互对象可以对目标对象发出指定语音。可以根据电子设备周边目标对象的动作、表情、身份、偏好等，生成声音驱动数据，以驱动交互对象通过发出指定语音进行回应，从而为目标对象提供拟人化的服务。基于此，本公开至少一个实施例提出一种交互对象的驱动方法，以提升目标对象与交互对象进行交互的体验。

图2示出根据本公开实施例的交互对象的驱动方法的流程图，如图2所示，所述方法包括步骤201～步骤204。

在步骤201中，获取第一图像。

所述第一图像可以是展示交互对象的电子设备(例如终端设备、服务器等)周边的图像。该图像可以通过电子设备的图像采集模块获得，例如通过内置摄像头获得。电子设备的周边的图像包括所述电子设备的一定范围内任意方向上的图像，例如可以包括所述电子设备的前向、侧向、后方、上方中的一个或多个方向上的图像。示例性的，该范围根据用于检测音频信号的声音检测模块所能接收到设定强度的音频信号的范围确定。其中，所述声音检测模块可以作为所述电子设备的内置模块设置在电子设备中，也可以作为外接设备，独立于电子设备之外。所述第一图像还可以是通过网络获取的图像采集设备所采集的图像。所述图像采集设备可以是独立于终端设备之外的摄像头，该摄像头可以通过有线或无线网络将采集的图像传输给执行本方法的电子设备。所述图像采集设备的数量可以为一个或多个。例如，目标对象(如用户)可使用终端设备进行某种操作，如使用终端设备的某个客户端进行一种涉及与交互对象进行交互的服务，第一图像可以是由终端设备的摄像头或外接摄像头采集的图像，该图像可通过网络上传至服务器端，由服务器进行解析并基于解析结果判断是否需控制交互对象作出回应；或者，该图像也可直接由该终端设备进行解析，并基于解析结果判断是否需控制交互对象作出回应。

在步骤202中，识别所述第一图像中至少包含目标对象的嘴部的面部区域图像，并确定所述面部区域图像包含的所述嘴部的关键点信息。

在一个示例中，可以对第一图像中包含所述目标对象的嘴部的面部区域图像进行裁剪，使所述面部区域图像成为独立的图像，以对所述面部区域图像进行面部关键点检测，确定所述面部区域图像中的嘴部关键点，并获得所述嘴部的关键点信息，例如位置信息。

在一个示例中，可以直接对第一图像中包含目标对象的嘴部的面部区域图像块进行面部关键点检测，确定所述第一图像中所包含的所述嘴部的关键点信息。

在步骤203中，根据所述嘴部的关键点信息，确定所述第一图像中的所述目标对象是否处于说话状态。

在目标对象嘴部处于张开状态或处于闭合状态时，所检测到的嘴部的关键点信息(例如，位置信息)是不同的。例如，在嘴部处于张开状态时，位于上唇的关键点与位于下唇的关键点之间的距离通常大于一定程度；而嘴部处于闭合状态时，位于上唇的关键点和位于下唇的关键点之间的距离通常较小。用于判断嘴部处于张开状态或闭合状态的距离阈值，与所选取的上唇关键点和下唇关键点所处的嘴部位置有关。例如，针对位于上唇中心处的关键点与下唇中心处的关键点之间的距离的阈值，通常大于针对位于上唇边缘处的关键点与下唇边缘处的关键点之间的距离的阈值。

在一示例中，当在设定时间内，在多张第一图像中，若超过设定比例的图像检测到目标对象的嘴部处于张开状态时，则可以确定所述目标对象处于说话状态。反之，如果在设定时间内，若不超过设定比例的图像检测到目标对象的嘴部处于闭合状态，则可以确定所述目标对象未说话。

在步骤204中，响应于所述第一图像中的所述目标对象处于说话状态，驱动所述交互对象进行回应。

由于目标对象与展示所述交互对象的终端设备可能不存在触摸交互，在电子设备或者图像采集设备周边的目标对象较多，或者接收到的音频信号较多时，在目标对象开始说话或者发出语音指令时，电子设备可能无法及时判断出有目标对象已经开始与交互对象进行交互。通过检测电子设备或者图像采集设备周边的目标对象是否处于说话状态，可以在确定一目标对象处于说话状态时，及时驱动所述交互对象针对该目标对象进行回应，例如做出聆听目标对象的姿态，或者针对所述目标对象进行特定的回应，例如，在所述目标对象为女士的情况下，可以驱动所述交互对象发出“女士，有什么可以帮您的？”。

在本公开实施例中，通过根据第一图像实时判断目标对象是否在说话，可以在目标对象未与展示交互对象的终端设备进行触摸交互的情况下，使交互对象对于目标对象说话及时做出回应，进入交互状态，提高了目标对象的交互体验。

在本公开实施例中，所述嘴部的关键点信息包括位于目标对象的嘴部的多个关键点的位置信息；所述多个关键点包括至少一组关键点对，所述关键点对至少包括分别位于上嘴唇处和下嘴唇处的两个关键点。

图3示出根据本公开实施例提供的交互对象的驱动方法中嘴部关键点的示意图。在图3所示的嘴部关键点中，可以获取至少一组关键点对，例如关键点对(98，102)，其中，关键点98位于上嘴唇中间处，关键点102位于下嘴唇中间处。

根据嘴部的至少一组关键点对的位置信息，可以确定每个所述关键点对中分别位于上嘴唇处和下嘴唇处的两个关键点的第一距离。例如，在获取了一组关键点对(98，102)的情况下，根据关键点98和关键点102的位置信息，则可以确定关键点98和关键点102的第一距离。

根据各组所述关键点对的所述第一距离可以确定所述目标对象是否处于说话状态。

在嘴部的张开状态和闭合状态下，关键点98和关键点102之间的第一距离是不同的。在关键点98和关键点102之间的第一距离大于距离设定阈值的情况下，可以确定所述第一图像中的目标对象的嘴部处于张开状态；反之，在关键点98和关键点102之间的第一距离小于或等于所述距离设定阈值的情况下，则可以确定所述目标对象的嘴部处于闭合状态。根据嘴部的闭合或张开的状态，则可以确定所述目标是否处于说话状态，也即所述目标对象当前是否正在说话。

本领域技术人员应当理解，关键点对的选取不限点于(98，102)，也可以其他一个关键点于上唇区域，另一个关键点位于下唇区域的关键点对。在选取了多组关键点对的情况下，可以根据多组关键点对所对应的第一距离的平均值或者加权平均值，来确定在所述第一图像中，上唇关键点与下唇关键点之间的平均距离。而用于判断嘴部闭合或张开的距离设定阈值，根据所选取的关键点对所处的部位确定。

在本公开实施例中，所述第一图像为图像序列中的一帧。其中，所述图像序列可以是通过图像采集设备获取的视频流，或者以设定频率拍摄的多帧图像。在所述第一图像为图像序列中的一帧的情况下，可以通过在所述图像序列中，获取设定数目的待处理图像，根据各个待处理图像中所述关键点对的第一距离来确定所述目标对象是否处于说话状态。其中，所述待处理图像包括所述第一图像以及所述第一图像之外的至少一帧第二图像。对于每帧第二图像，获取所述第二图像中每个关键点对的第一距离，根据所述第一图像中各组所述关键点对的第一距离以及各帧所述第二图像中各组所述关键点对的第一距离，确定所述目标对象是否处于说话状态。

例如，对于所述待处理图像中的两帧第二图像，可以是与第一图像相邻的连续两帧，也可以是与第一图像形成相同间隔帧的两帧第二图像。例如，假设所述第一图像是图像序列中的第N帧，那么所述两帧第二图像，可以是第N-1帧、第N-2帧；也可以是第N-2帧、第N-4帧，以此类推。

在本实施例中，根据第一图像和各第二图像中各关键点对的第一距离，能够确定在设定数目的待处理图像中目标对象嘴部处于张开状态还是闭合状态，从而确定所述目标对象是否处于说话状态。

在一些实施例中，可以以设定长度的窗口以及设定步长在所述图像序列中进行滑窗，每次滑动获取设定数目的待处理图像，并且，所述第一图像为所述窗口内的最后一帧图像。

需要说明的是，本公开所述的方法可以实时检测目标对象是否处于说话状态。也就是说所采集的第一图像可能会一直增加。设置窗口，所述第一图像可以为最新加入所述窗口的图像，并且可以在增加第一图像的同时丢弃最早加入所述窗口的第一帧图像，也就是丢弃窗口内采集时间最早的一帧图像。从而可以保证窗口内的多张图像的采集时间较新。

在一种实现方式中，可以对窗口内所有的待检测图像同时进行处理，确定在这些待处理图像中目标对象嘴部状态，以判断目标对象是否处于说话状态。在另一种实现方式中，可以对窗口内所有的待检测图像分别进行处理，也就是说，每当窗口内新增加一帧待检测图像，即对该图像进行检测，确定该图像中目标对象的嘴部状态，并保存该嘴部状态，在后续判断目标对象是否处于说话状态时，使用窗口内保存的当前多帧待检测图像中的每帧待检测图像的嘴部状态。

窗口的长度与窗口所包含的待处理图像的数目相关，窗口的长度越长，包含的待处理图像的数目越多；进行滑窗的步长与获取待处理图像的时间间隔(频率)相关，也即与对所述目标对象的说话状态进行判断的时间间隔相关。窗口的长度以及步长可以根据实际的交互场景进行设置。例如，在窗口的长度为10，步长为2的情况下，表明所述窗口可以包括10个待处理图像，并且每次滑动在所述图像序列中移动2帧图像。

此外，窗口长度的设置与检测的准确性相关。例如，若根据一张待处理图像的检测结果判断目标对象的状态，则判断的准确性可能较低。根据多张待处理的检测结果判断目标对象的状态，可以提高判断的准确性。但是若窗口的长度过长，则会导致判断的实时性较差。例如，目标对象对应着第N帧图像的t1时刻开始说话，但是由于窗口内其他帧图像(如N-1，N-2，…)的检测结果仍表示目标对象未说话，因此t1时刻仍会判断目标对象未开始说话，直到获取了第N+i帧图像的t2时刻，也就是窗口内超过设定比例的图像的检测结果表示目标对象处于开口状态，才会判断目标对象开始说话，其中，i至少取决于窗口的长度、步长、以及设定比例。因此，窗口的长度越长，t2与t1之间的时间差值越大，从而影响检测的实时性。

在本公开实施例中，通过第一图像以及所述第一图像之前的第二图像中目标对象的嘴部状态，能够确定在所述第一图像中所述目标对象是否处于说话状态。并且，通过滑窗的方式，每采集到一帧新的图像，也即第一图像，将该图像作为窗口内的最后一帧图像，从而可以实时检测目标对象是否处于说话状态。

在本公开实施例中，所述第一距离包括所述关键点对中的两个关键点之间的欧式距离。对于三维面部图像而言，所述欧式距离能够更准确地衡量两个关键点之间的距离和位置关系。

在一些实施例中，可以通过以下方式根据所述第一图像中各组所述关键点对的第一距离以及各帧所述第二图像中各组所述关键点对的第一距离，确定所述目标对象是否处于说话状态。

首先，确定所述第一图像和各帧所述第二图像中，各关键点对的欧式距离的平均值大于第一设定阈值的图像为目标图像，或，确定各关键点对的欧式距离的加权平均值大于第二设定阈值的图像为目标图像。也即，将所述待处理图像中，所述目标对象的嘴部处于张开状态的图像确定为目标图像。

之后，确定所述待处理图像中所包含的目标图像的数目。也即，确定所述待处理图像中包含嘴部处于张开状态的图像(可以是待处理图像中的第一图像，也可以是待处理图像中的第二图像)的数目。

接下来，根据所述目标图像的数目与所述待处理图像的所述设定数目之间的比例，确定所述目标对象是否处于说话状态。

响应于所述比例大于设定比例，确定所述第一图像中的所述目标对象处于说话状态；反之，响应于所述比例小于或等于设定比例，则确定所述目标对象当前并未说话。

在一些实施例中，可以根据所述待处理图像的不同分辨率设置不同的欧式距离设定阈值。也即，所述第一设定阈值和所述第二阈值可以根据所述待处理图像的分辨率确定。

在一个示例中，可以在所述待处理图像的分辨率为720*1080的情况下，将欧式距离设定阈值设置为9(例如，9个像素点)。可以将窗口的长度设置为10，也即使所述窗口包括10个待处理图像，并以步长1移动窗口。在设定比例为0.4的情况下，当所述窗口滑动到当前图像帧时，如果所包含的10个待处理图像中包含超过4个处于张嘴状态的图像时，则确定所述目标对象正处于说话状态。

在另一个示例中，若待处理图像的分辨率不是720*1080，则可以通过剪裁、放大或缩小，将待处理图像的分辨率调整为720*1080；也可以根据待处理图像的分辨率，计算出该分辨率下相应的欧式距离设定阈值。

在所述交互对象处于待机状态下，也即所述交互对象未与所述目标对象进行交互的状态下，响应于首次确定所述第一图像中的目标对象处于说话状态，可以驱动所述交互对象进入与所述目标对象进行交互的状态。

在目标对象未与展示所述交互对象的终端设备进行触摸交互的情况下，通过以上方式能够使交互对象及时对于目标对象处于说话状态做出回应，进入交互状态，提高目标对象的交互体验。

图4示出根据本公开实施例的交互对象的驱动装置的结构示意图，如图4所示，该装置可以包括：获取单元401，用于获取第一图像；识别单元402，用于识别所述第一图像中至少包含目标对象的嘴部的面部区域图像，并确定所述面部区域图像包含的所述嘴部的关键点信息；确定单元403，用于根据所述嘴部的关键点信息，确定所述第一图像中的所述目标对象是否处于说话状态；驱动单元404，用于响应于确定所述第一图像中的所述目标对象处于说话状态，驱动所述交互对象进行回应。

在一些实施例中，所述嘴部的关键点信息包括位于目标对象的嘴部的多个关键点的位置信息；所述多个关键点包括至少一组关键点对，每个所述关键点对包括分别位于上嘴唇处和下嘴唇处的两个关键点；所述确定模块403在根据所述嘴部的关键点信息，确定所述目标对象是否处于说话状态时，还用于根据所述至少一组关键点对的位置信息，确定每个所述关键点对中分别位于所述上嘴唇处和所述下嘴唇处的两个关键点的第一距离；以及根据各组所述关键点对的所述第一距离确定所述第一图像中的所述目标对象是否处于说话状态。

在一些实施例中，所述第一图像为图像序列中的一帧；所述确定单元403在用于根据各组所述关键点对的所述第一距离确定所述第一图像中的所述目标对象是否处于说话状态时，用于：在所述图像序列中，获取设定数目的待处理图像，所述待处理图像包括所述第一图像以及至少一帧第二图像；针对每帧第二图像，获取所述第二图像中每个所述关键点对的第一距离；根据所述第一图像中各组所述关键点对的第一距离以及各帧所述第二图像中各组所述关键点对的第一距离，确定所述第一图像中的所述目标对象是否处于说话状态。

在一些实施例中，所述确定单元403在用于在所述图像序列中，获取设定数目的待处理图像时，用于：以设定长度的窗口以及设定步长在所述图像序列中进行滑窗，每次滑动获取设定数目的待处理图像，其中，所述第一图像为所述窗口内的最后一帧图像。

在一些实施例中，所述关键点对的第一距离包括所述关键点对中的两个关键点之间的欧式距离，所述确定单元403在根据所述第一图像中各组所述关键点对的第一距离以及各帧所述第二图像中各组所述关键点对的第一距离，确定所述第一图像中的所述目标对象是否处于说话状态时，用于：识别所述待处理图像中的目标图像；确定所述待处理图像中所包含的目标图像的数目；响应于所述目标图像的数目与所述待处理图像的所述设定数目之间的比例大于设定比例，确定所述第一图像中的目标对象处于说话状态。

在一些实施例中，所述确定模块403在所述待处理图像中，确定所述目标图像时，用于将所述各组关键点对的欧式距离的平均值大于第一设定阈值的图像确定为所述目标图像；或，将所述各组关键点对的欧式距离的加权平均值大于第二设定阈值的图像确定为所述目标图像。

在一些实施例中，所述第一设定阈值和所述第二设定阈值根据所述待处理图像的分辨率确定。

在一些实施例中，所述驱动单元404用于：在所述交互对象处于待机状态下，响应于首次确定所述第一图像中的所述目标对象处于说话状态，驱动所述交互对象进入与所述目标对象进行交互的状态。

本公开实施例还提供了一种电子设备，如图5所示，所述设备包括存储器、处理器，存储器用于存储可在处理器上运行的计算机指令，处理器用于在执行所述计算机指令时实现本公开任一实施例所述的交互对象的驱动方法。

在一些实施例中，所述设备例如为服务器或终端设备，所述服务器或终端设备根据第一图像中的嘴部的关键点信息确定目标状态的说话状态，从而对显示器展示的交互对象进行控制。在所述终端设备包括显示器的情况下，所述显示器还包括显示屏或者透明显示屏，用于显示交互对象的动画。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的交互对象的驱动方法。

本领域技术人员应明白，本公开的一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本公开一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本公开一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本公开中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本文公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本公开中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本公开中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本公开包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本公开在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本公开的一个或多个实施例而已，并不用以限制本公开，凡在本公开一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开一个或多个实施例保护的范围之内。

Claims

一种交互对象的驱动方法，包括：

获取第一图像；

识别所述第一图像中至少包含目标对象的嘴部的面部区域图像，并确定所述面部区域图像包含的所述嘴部的关键点信息；

根据所述嘴部的关键点信息，确定所述第一图像中的所述目标对象是否处于说话状态；

响应于确定所述第一图像中的所述目标对象处于说话状态，驱动交互对象进行回应。
根据权利要求1所述的方法，其特征在于，所述嘴部的关键点信息包括位于目标对象的嘴部的多个关键点的位置信息；所述多个关键点包括至少一组关键点对，每组所述关键点对包括分别位于上嘴唇处和下嘴唇处的两个关键点；

所述根据所述嘴部的关键点信息，确定所述目标对象是否处于说话状态，包括：

根据所述至少一组关键点对的位置信息，确定每组所述关键点对中分别位于所述上嘴唇处和所述下嘴唇处的两个关键点的第一距离；以及

根据各组所述关键点对的所述第一距离，确定所述第一图像中的所述目标对象是否处于说话状态。
根据权利要求2所述的方法，其特征在于，所述第一图像为图像序列中的一帧；

所述根据各组所述关键点对的所述第一距离，确定所述第一图像中的所述目标对象是否处于说话状态，包括：

在所述图像序列中，获取设定数目的待处理图像，所述待处理图像包括所述第一图像以及至少一帧第二图像；

针对每帧第二图像，获取所述第二图像中每组所述关键点对的所述第一距离；

根据所述第一图像中各组所述关键点对的所述第一距离以及各帧所述第二图像中各组所述关键点对的所述第一距离，确定所述第一图像中的所述目标对象是否处于说话状态。
根据权利要求3所述的方法，其特征在于，所述在所述图像序列中，获取设定数目的待处理图像，包括：

以设定长度的窗口以及设定步长在所述图像序列中进行滑窗，每次滑动获取所述设定数目的待处理图像，其中，所述第一图像为所述窗口内的最后一帧图像。
根据权利要求3或4所述的方法，其特征在于，所述关键点对的第一距离包括所述关键点对中的两个关键点之间的欧式距离，所述根据所述第一图像中各组所述关键点对的第一距离以及各帧所述第二图像中各组所述关键点对的第一距离，确定所述第一图像中的所述目标对象是否处于说话状态，包括：

识别所述待处理图像中的目标图像；

确定所述待处理图像中包含的所述目标图像的数目；

响应于所述目标图像的数目与所述待处理图像的所述设定数目之间的比例大于设定比例，确定所述第一图像中的目标对象处于说话状态。
根据权利要求5所述的方法，其特征在于，所述识别所述待处理图像中的目标图像，包括：

将所述各组关键点对的欧式距离的平均值大于第一设定阈值的图像确定为所述目标图像；或，

将所述各组关键点对的欧式距离的加权平均值大于第二设定阈值的图像确定为所述目标图像。
根据权利要求6所述的方法，其特征在于，所述第一设定阈值和所述第二设定阈值根据所述待处理图像的分辨率确定。
根据权利要求1至7任一项所述的方法，其特征在于，所述响应于所述目标对象处于说话状态，驱动交互对象进行回应，包括：

在所述交互对象处于待机状态下，响应于首次确定所述第一图像中的所述目标对象处于说话状态，驱动所述交互对象进入与所述目标对象进行交互的状态。
一种交互对象的驱动装置，其特征在于，所述装置包括：

获取单元，用于获取第一图像；

识别单元，用于识别所述第一图像中至少包含目标对象的嘴部的面部区域图像，并确定所述面部区域图像包含的嘴部的关键点信息；

确定单元，用于根据所述嘴部的关键点信息，确定所述第一图像中的所述目标对象是否处于说话状态；以及

驱动单元，用于响应于确定所述第一图像中的所述目标对象处于说话状态，驱动交互对象进行回应。
根据权利要求9所述的装置，其特征在于，所述嘴部的关键点信息包括位于目标对象的嘴部的多个关键点的位置信息；所述多个关键点包括至少一组关键点对，每个所述关键点对包括分别位于上嘴唇处和下嘴唇处的两个关键点；

所述确定单元用于：

根据所述至少一组关键点对的位置信息，确定每个所述关键点对中分别位于所述上嘴唇处和所述下嘴唇处的两个关键点的第一距离；以及

根据各组所述关键点对的所述第一距离确定所述第一图像中的所述目标对象是否处于说话状态。
根据权利要求10所述的装置，其特征在于，所述第一图像为图像序列中的一帧；

所述确定单元在用于根据各组所述关键点对的所述第一距离确定所述第一图像中的所述目标对象是否处于说话状态时，用于：

在所述图像序列中，获取设定数目的待处理图像，所述待处理图像包括所述第一图像以及至少一帧第二图像；

针对每帧第二图像：

获取所述第二图像中每个所述关键点对的第一距离；

根据所述第一图像中各组所述关键点对的第一距离以及各帧所述第二图像中各组所述关键点对的第一距离，确定所述第一图像中的所述目标对象是否处于说话状态。
根据权利要求11所述的装置，其特征在于，所述确定单元在用于在所述图像序列中，获取设定数目的待处理图像时，具体用于：

以设定长度的窗口以及设定步长在所述图像序列中进行滑窗，每次滑动获取所述设定数目的待处理图像，其中，所述第一图像为所述窗口内的最后一帧图像。
根据权利要求11或12所述的装置，其特征在于，所述关键点对的第一距离包括所述关键点对中的两个关键点之间的欧式距离，所述确定单元在根据所述第一图像中各组所述关键点对的第一距离以及各帧所述第二图像中各组所述关键点对的第一距离，确定所述第一图像中的所述目标对象是否处于说话状态时，用于：

识别所述待处理图像中的目标图像；

确定所述待处理图像中所包含的目标图像的数目；

响应于所述目标图像的数目与所述待处理图像的所述设定数目之间的比例大于设定比例，确定所述第一图像中的目标对象处于说话状态。
根据权利要求13所述的装置，其特征在于，所述确定单元在识别所述待处理图像中的目标图像时，用于：

将所述各组关键点对的欧式距离的平均值大于第一设定阈值的图像确定为所述目标图像；或，

将所述各组关键点对的欧式距离的加权平均值大于第二设定阈值的图像确定为所述目标图像。
根据权利要求14所述的装置，其特征在于，所述第一设定阈值和所述第二设定阈值根据所述待处理图像的分辨率确定。
根据权利要求10至15任一项所述的装置，其特征在于，所述驱动单元具体用于：

在所述交互对象处于待机状态下，响应于首次确定所述第一图像中的所述目标对象处于说话状态，驱动所述交互对象进入与所述目标对象进行交互的状态。
一种电子设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至8任一所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8任一所述的方法。