WO2020087895A1

WO2020087895A1 - 语音交互处理方法及装置

Info

Publication number: WO2020087895A1
Application number: PCT/CN2019/084692
Authority: WO
Inventors: 文白林
Original assignee: 华为技术有限公司
Priority date: 2018-10-29
Filing date: 2019-04-26
Publication date: 2020-05-07
Also published as: CN111105792A; US11620995B2; US20200234707A1

Abstract

一种语音交互处理方法及装置，用于实现友好、自然的语音交互效果的同时降低功耗。该方法中的微处理器根据声音采集器采集的声音数据确定第一用户为目标用户时才开启图像采集器（S202）；然后由图像采集器采集用户图像数据，并传输至微处理器（S203）；微处理器根据用户图像数据确定目标用户处于语音交互状态时才向应用处理器发送唤醒指令（S204）。通过该方法一定程度上避免了图像采集器和应用处理器的误开启，降低了功耗。

Description

语音交互处理方法及装置

本申请要求于2018年10月29日提交国家知识产权局、申请号为201811271551.6、申请名称为“语音交互处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种语音交互处理方法及装置。

背景技术

语音交互作为继键盘交互、鼠标交互及触摸屏交互后的新一代用户交互模式，以其方便快捷的特点，逐渐被广大用户所喜爱，并被广泛应用在各种电子设备中。比如，在智能移动终端上安装语音助手，用户借助语音助手即可与智能移动终端进行语音交互。

目前，用户在使用语音助手等语音交互软件时，通常需要先通过特定唤醒词唤醒语音交互软件，然后再向语音交互软件输入相应的语音操作指令以实现语音交互。比如，用户在使用语音助手Siri时，需要先通过特定唤醒词“Hey Siri”唤醒Siri；或者，在使用华为Mate10的语音助手时，需要先通过特定唤醒词“你好，小E”唤醒语音助手。上述使用过程中，用户每次在使用语音交互软件时，都需要先说出唤醒词，导致语音交互过程不友好，无法达到自然交互的效果，若保持语音交互软件长期处于运行状态又会增加设备的功耗，从而用户体验较低。

发明内容

本申请提供一种语音交互处理方法及装置，实现了友好、自然的语音交互效果，同时降低了电子设备的功耗。

下面通过多个方面介绍本申请提供的方案，应理解的是，各个方面之间的实现方式和有益效果可相互参考。

第一方面，提供一种语音交互处理装置，该装置包括：声音采集器、图像采集器、微处理器和应用处理器；其中，声音采集器，用于采集第一用户的声音数据，并传输至微处理器；微处理器，用于根据第一用户的声音数据确定第一用户为目标用户时，开启图像采集器；图像采集器，用于采集用户图像数据，并传输至微处理器；微处理器，还用于根据该用户图像数据确定目标用户处于语音交互状态时，向应用处理器发送用于唤醒语音交互软件的唤醒指令；应用处理器，用于接收该唤醒指令，并唤醒语音交互软件以为目标用户提供语音交互功能。

该装置可以为终端设备，例如人工智能机器人、手机、智能音箱、自助取款机等等。

上述技术方案中，用户无需通过唤醒词唤醒语音交互软件，而是由功耗较低的微处理器接收和处理声音采集器传输的声音数据和图像采集器传输的用户图像数据，并在确定目标用户处于交互语音状态时，向应用处理器发送用于唤醒语音交互软件的唤醒指令，以唤醒语音交互软件为目标用户提供语音交互功能，从而实现了友好、自然的语音交互效果，同时语音交互软件无需长时间处于工作状态，从而降低了该装置的功耗。

在第一方面的一种可能的实现方式中，所述微处理器具体用于根据该用户图像数据获取用户图像特征，并根据该用户图像特征确定目标用户处于语音交互状态。这里用户图像数据可以理解为一张或多张图片的原始数据，或视频的原始数据，用户图像特征是从原始数据中提取出的特征数据。

在第一方面的一种可能的实现方式中，所述微处理器具体用于根据所述第一用户的所述声音数据获取用户声纹特征，并根据该用户声纹特征确定第一用户为目标用户。换句话说，所述微处理器利用声纹识别的方式确定该第一用户确实为目标用户。

在第一方面的一种可能的实现方式中，在根据该用户图像特征确定目标用户处于语音交互状态时，微处理器，具体用于：根据人脸识别方法确定该用户图像特征与目标用户的目标图像特征匹配，以及根据活体检测方法确定目标用户处于语音交互状态。上述可能的实现方式中，提供了一种简单有效的确定目标用户处于语音交互状态的方法。

在第一方面的一种可能的实现方式中，该装置还包括：姿态传感器，用于检测该装置的姿态参数，并将该姿态参数传输至微处理器；图像采集器包括：前置图像采集器和后置图像采集器；微处理器，还用于根据该姿态参数确定该装置处于正面放置姿态时，向前置图像采集器发送第一开启指令，以开启前置图像采集器；或者，微处理器，还用于根据该姿态参数确定该装置处于反面放置姿态时，向后置图像采集器发送第二开启指令，以开启后置图像采集器。上述可能的实现方式中，能够精准地实现图像采集器的开启，进一步降低该装置的功耗。

在第一方面的一种可能的实现方式中，该装置还包括：距离传感器，用于检测第一用户与该装置之间的距离，并将该距离传输至微处理器；微处理器，还用于确定在该距离小于或等于预设距离时，向声音采集器发送第三开启指令，以开启声音采集器。上述可能的实现方式中，只有当用户靠近装置时才确定用户确实要与该装置对话，此时才开启声音采集器，因此能够进一步降低该装置的功耗。

第二方面，提供一种语音交互处理方法，应用于包括声音采集器、图像采集器、微处理器和应用处理器的装置中；其中，声音采集器采集第一用户的声音数据，并传输至微处理器；微处理器根据第一用户的声音数据确定第一用户为目标用户时，开启图像采集器；图像采集器采集用户图像数据，并传输至微处理器；微处理器根据该用户图像数据确定目标用户处于语音交互状态时，向应用处理器发送用于唤醒语音交互软件的唤醒指令；应用处理器接收该唤醒指令，并唤醒语音交互软件以为目标用户提供语音交互功能。

在第二方面的一种可能的实现方式中，微处理器根据该用户图像数据确定目标用户处于语音交互状态，包括：根据该用户图像数据获取用户图像特征，并根据该用户图像特征确定目标用户处于语音交互状态。这里用户图像数据可以理解为一张或多张图片的原始数据，或视频的原始数据，用户图像特征是从原始数据中提取出的特征数据。

在第二方面的一种可能的实现方式中，所述微处理器根据第一用户的声音数据确定第一用户为目标用户，包括：根据所述第一用户的所述声音数据获取用户声纹特征，并根据该用户声纹特征确定第一用户为目标用户。换句话说，所述微处理器利用声纹识别的方式确定该第一用户确实为目标用户。

在第二方面的一种可能的实现方式中，微处理器根据该用户图像数据确定目标用户处于语音交互状态，具体包括：基于所述用户图像数据，利用活体检测方法确定所述目标用户处于语音交互状态。

在第二方面的一种可能的实现方式中，该装置还包括姿态传感器，图像采集器包括前置图像采集器和后置图像采集器，该方法还包括：姿态传感器检测该装置的姿态参数，并将该姿态参数传输至微处理器；微处理器根据姿态参数确定该装置处于正面放置姿态时，向前置图像采集器发送第一开启指令，以开启前置图像采集器；或者，微处理器根据该姿态参数确定该装置处于反面放置姿态时，向后置图像采集器发送第二开启指令，以开启后置图像采集器。

在第二方面的一种可能的实现方式中，该装置还包括距离传感器，该方法还包括：距离传感器检测第一用户与该装置之间的距离，并将该距离传输至微处理器；微处理器在确定该距离小于或等于预设距离时，向声音采集器发送第三开启指令，以开启声音采集器。

可以理解地，上述提供的语音交互处理方法所能达到的有益效果可参考上文所提供的对应的装置中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种电子设备的结构示意图；

图2为本申请实施例提供的一种语音交互处理方法的流程示意图；

图3为本申请实施例提供的另一种语音交互处理方法的流程示意图；

图4为本申请实施例提供的一种三维空间的示意图。

具体实施方式

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c或a-b-c，其中a、b和c可以是单个，也可以是多个。另外，在本申请的实施例中，“第一”、“第二”等字样并不对数量和执行次序进行限定。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请提供的语音交互处理方法可应用于人机交互场景中，且用户无需通过特定唤醒词唤醒语音交互软件，即可与安装有语音交互软件的语音交互设备之间实现友好、自然的交互，从而提高用户的体验。这里的语音交互设备可以是指用于与用户进行语音交互的设备，该设备可以是手机、平板电脑、摄像机、计算机、可穿戴设备、车载设备或便携式设备等。为方便描述，本申请中将上面提到的设备或者内置芯片系统的上述设备统称为电子设备。

图1为本申请实施例提供的一种电子设备的结构示意图。图1中以该电子设备为手机为例进行说明，该手机或者内置于手机的芯片系统包括：存储器101、处理器102、传感器组件103、多媒体组件104、音频组件105、输入\输出接口106和电源组件107等。

下面结合图1对手机或者内置于手机的芯片系统的各个构成部件进行具体的介绍：

存储器101可用于存储数据、软件程序以及模块；主要包括存储程序区和存储数据区，其中，存储程序区可存储软件程序，包括以代码形成的指令，包括但不限于操作系统、至少一个功能所需的应用程序，比如声音播放功能、图像播放功能等；存储数据区可存储根据手机的使用所创建的数据，比如音频数据、图像数据、电话本等。在一些可行的实施例中，可以有一个存储器，也可以有多个存储器；该存储器可以是软盘，硬盘如内置硬盘和移动硬盘，磁盘，光盘，磁光盘如CD_ROM、DCD_ROM，非易失性存储设备如RAM、ROM、PROM、EPROM、EEPROM、闪存、或者技术领域内所公知的任意其他形式的存储介质。

处理器102是手机的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器101内的软件程序和/或软件模块，以及调用存储在存储器101内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。在本申请实施例中，处理器102可集成应用处理器(Application Processor，AP)和微处理器，其中，AP主要处理操作系统、用户界面和应用程序等，微处理器可用于接收和处理传感器组件103和多媒体组件104等多个组件采集到的数据，并控制多个组件的开启和关闭等。可以理解的是，上述微处理器也可以不集成到处理器102中。

除此以外，处理器102还可进一步包括其他硬件电路或加速器，如专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器102也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。

传感器组件103包括一个或多个传感器，用于为手机提供各个方面的状态评估。其中，传感器组件103可以包括距离传感器和姿态传感器，距离传感器用于检测外部物体与手机的距离，姿态传感器用于检测手机的放置姿态，比如加速/减速、或者方位等。比如，本申请实施例中的距离传感器可以为光传感器，姿态传感器可以为加速度传感器或陀螺仪传感器。此外，传感器组件103还可以包括磁传感器，压力传感器或温度传感器，通过传感器组件103还可以检测到手机打开/关闭状态，组件的相对定位，或手机的温度变化等。在本申请实施例中，传感器组件103可以将检测到的各种状态参数发送给功耗较低的微处理器进行处理。

多媒体组件104在手机和用户之间提供一个输出接口的屏幕，该屏幕可以为触摸面板，且当该屏幕为触摸面板时，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。此外，多媒体组件104还包括图像采集器，多媒体组件104包括一个前置图像采集器和/或后置图像采集器，比如，本申请实施例中的前置图像采集器可以为前置摄像头，后置图像采集器可以为后置摄像头。不论前置摄像头还是后置摄像头，摄像头的个数本实施例不做限定。采用的图像采集方法可以是捕获单张或多张图片，也可以是录制视频。

当手机处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以感应外部的多媒体信号，该信号被用于形成图像帧。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。在本申请实施例中，多媒体组件104可以将采集到的图像数据发送给功耗较低的微处理器进行处理，且微处理器可以控制前置图像采集器和/或后置图像采集器的开启和关闭。

音频组件105可提供用户与手机之间的音频接口，比如，音频组件105可以包括声音采集器，本申请实施例中的声音采集器可以为麦克风。音频组件105还可以包括音频电路和扬声器，或者声音采集器还包括音频电路和扬声器。具体的，音频电路可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，麦克风将收集的声音信号转换为电信号，由音频电路接收后转换为音频数据，再将音频数据输出至输入\输出接口106以发送给比如另一手机，或者将音频数据输出至处理器102以便进一步处理。在本申请实施例中，音频组件105可以将采集到的音频数据发送给功耗较低的微处理器进行处理。

输入\输出接口106为处理器102和外围接口模块之间提供接口，比如，外围接口模块可以包括键盘、鼠标、或USB(通用串行总线)设备等。在一种可能的实现方式中，输入\输出接口106可以只有一个输入\输出接口，也可以有多个输入\输出接口。电源组件107用于为手机的各个组件提供电源，电源组件107可以包括电源管理系统，一个或多个电源，及其他与手机生成、管理和分配电力相关联的组件。

尽管未示出，手机还可以包括无线保真(Wireless Fidelity，WiFi)模块、蓝牙模块等，本申请实施例在此不再赘述。本领域技术人员可以理解，图1中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

图2为本申请实施例提供的一种语音交互处理方法的流程示意图，该方法可应用于包括声音采集器、图像采集器、微处理器和应用处理器的装置中，比如，该装置为图1所示的电子设备，参见图2，该方法包括以下几个步骤。

S201：声音采集器采集第一用户的声音数据，并传输至微处理器。

其中，该声音采集器可以是指该电子设备中用于采集声音数据的器件，比如，该声音采集器可以包括麦克风，或者包括麦克风和音频电路等。第一用户可以是指该声音采集器可采集到的任意一个用户，比如，第一用户可以是指手持该电子设备的用户、或者距离该电子设备较近的用户等。第一用户的声音数据可以是指该声音采集器采集到的第一用户的声音信号，或者是指将该声音信号进行转换得到的音频数据等。

具体的，该声音采集器可以是低功耗的声音采集器，且该声音采集器可以处于开启状态，当该声音采集器检测到第一用户的声音时，该声音采集器可采集第一用户的声音数据，并将采集到的第一用户的声音数据传输至微处理器。

S202：微处理器根据第一用户的声音数据确定第一用户为目标用户时，开启图像采集器。

具体的，该电子设备中预先存储一个或多个用户的声纹特征。微处理器根据第一用户的声音数据获取用户声纹特征，并根据该用户声纹特征确定第一用户为目标用户。

其中，微处理器可以是指功耗较低的处理器，比如，微处理器可以是传感器中心(sensor hub)或者微控制器等。该用户声纹特征可以是指用于唯一标识一个用户的声音特征，比如，该用户声纹特征可以包括音强、共振峰的频率值及其走向、波形等中的一种或者多种等。

另外，图像采集器可以是指用于采集用户图像的器件，比如，图像采集器可以是该电子设备的摄像头；可选的，该图像采集器可以包括前置图像采集器(比如，前置摄像头)和/或后置图像采集器(比如，后置摄像头)。这里的目标用户可以是指预先设置的用户，比如该目标用户可以是该电子设备的主人，或者是经常使用该电子设备的其他用户等，本申请实施例对此不作具体限定。

具体的，当第一用户的声音数据为声音信号时，微处理器在接收到该声音信号时，可以将该声音信号转换为音频数据，并从转换得到的音频数据中提取用户声纹特征；或者，当第一用户的声音数据已经为转换后的音频数据时，微处理器在接收到该音频数据时，可以直接从该音频数据中提取用户声纹特征。同时，微处理器中可以预先获取并存储目标用户的声纹特征，在微处理器提取到该用户声纹特征时，微处理器可以将存储的目标用户的声纹特征与该用户声纹特征进行匹配，若二者匹配成功，则微处理器确定第一用户为目标用户，若二者匹配失败，则微处理器确定第一用户不是目标用户。当微处理器确定第一用户为目标用户时，微处理器可以向图像采集器发送开启指令，已在该图像采集器接收到该开启指令时开启该图像采集器。

在其它一些实施例中，不同的用户可以有不同的权限等级，有的用户权限等级较高，不需要后续的图像验证即可进入语音交互，那么此时匹配出的用户还需要确认下是否符合权限，即是否需要后续的图像验证，若需要才开启图像采集器。

需要说明的是，微处理器从音频数据中提取用户声纹特征的方法和过程可以参考相关技术，本申请实施例对此不作具体限定。另外，目标用户的声纹特征与该用户声纹特征匹配成功，可以是指二者完全一致、或者匹配误差在一定的容错范围内。

S203：图像采集器采集用户图像数据，并传输至微处理器。

在开启图像采集器之后，该图像采集器可以捕获用户图像并实时地、周期性地或者非周期性地采集用户图像数据，并将采集得到的用户图像数据传输至微处理器。

S204：微处理器根据该用户图像数据确定目标用户处于语音交互状态时，向应用处理器发送用于唤醒语音交互软件的唤醒指令。

具体的，微处理器根据该用户图像数据获取用户图像特征，并根据该用户图像特征确定目标用户处于语音交互状态。

其中，用户图像特征是指用于唯一标识一个用户的图像特征，比如，该用户图像特征可以包括眼部特征、脸庞特征和唇部特征中的一种或者多种等。语音交互软件可以是指用于提供语音交互功能的软件，比如，该语音交互软件可以是语音助手等软件。

具体的，微处理器在接收到该用户图像数据时，微处理器可以从该用户图像数据中提取用户图像特征；同时，微处理器中可以预先获取并存储目标用户的图像特征。在微处理器提取到该用户图像特征之后，微处理器可以根据人脸识别方法确定该用户图像特征与目标用户的图像特征匹配，比如，微处理器将存储的目标用户的图像特征与该用户图像特征进行匹配，若二者匹配成功，则微处理器确定该用户图像特征对应的用户为目标用户，若二者匹配失败，则微处理器确定该用户图像特征对应的用户不是目标用户。当微处理器确定该用户图像特征对应的用户为目标用户时，微处理器可以进一步根据活体检测方法确定目标用户处于语音交互状态，比如，微处理器可以根据一段时间内的该用户图像特征中的唇部特征确定目标用户是否在说话，当确定目标用户在说话时，即可确定目标用户处于语音交互状态。之后，微处理器可以向应用处理器发送用于唤醒语音交互软件的唤醒指令。

S205：应用处理器接收该唤醒指令，并唤醒语音交互软件以为目标用户提供语音交互功能。

语音交互软件可以运行在应用处理器上，且当语音交互软件长时间不被使用时，语音交互软件可以处于休眠状态或者低功耗状态，即语音交互软件的功耗低于正常工作状态时的功耗。当应用处理器接收到微处理器发送的唤醒指令时，应用处理器可以唤醒语音交互软件，从而使得语音交互软件为目标用户提供语音交互功能。

在本申请实施例中，用户无需通过唤醒词唤醒语音交互软件，而是由功耗较低的微处理器接收和处理声音采集器传输的声音数据和图像采集器传输的用户图像数据，并在确定目标用户处于交互语音状态时，向应用处理器发送用于唤醒语音交互软件的唤醒指令，以唤醒语音交互软件为目标用户提供语音交互功能，从而实现了友好、自然的语音交互效果，同时语音交互软件无需长时间处于工作状态，从而降低了电子设备的功耗。

进一步地，该电子设备还包括姿态传感器，该图像采集器包括图像前置采集器和后置图像采集器。相应地，在上述S202中，当微处理器开启图像采集器时，具体可以通过如下图3所示的方法开启前置采集器或后置图像采集器。如图3所示，该方法包括：S2021-S2023。通过下述S2021至S2023所述的方法开启前置采集器或后置图像采集器，可以进一步降低该电子设备的功耗。

S2021：姿态传感器检测该电子设备的姿态参数，并将该姿态参数传输至微处理器。

其中，姿态传感器可以是指能够用于检测该电子设备的姿态的传感器，比如，该姿态传感器可以包括加速度传感器或者陀螺仪传感器等。该姿态参数可以包括该电子设备在预设的三维空间中的参数，该三维空间可以包括x轴、y轴和z轴，比如，该三维空间如图4所示，x轴与y轴垂直且形成水平面，z轴垂直于该水平面。示例性的，假设该电子设备水平放置在该水平面且正面向上时，x轴、y轴和z轴对应为(0，0，9.81)；假设该电子设备水平放置在该水平面且反面向上时，x轴、y轴和z轴对应为(0，0，-9.81)。

具体的，该姿态传感器可以被设置为工作状态，且该姿态传感器可以实时地、周期性地、或者非周期性地检测该电子设备的姿态参数，并将检测得到的姿态参数传输至微处理器。比如，该姿态传感器可以周期性地检测该电子设备在图4所示三维空间中的参数，并将检测得到的x轴、y轴和z轴上对应数值传输给微处理器。

需要说明的，上述仅以图4所示的三维空间为例对该姿态参数进行说明，在实际应用中，还可以通过其他方式表示该姿态参数，本申请实施例不作具体限定。

S2022：微处理器根据该姿态参数确定该电子设备处于正面放置姿态时，向前置图像采集器发送第一开启指令，以开启前置图像采集器。

当微处理器接收到该姿态参数时，微处理器可以根据该姿态参数确定该电子设备的放置状态。其中，假设该正面放置姿态对应的姿态参数包括：三维空间中参数中z轴对应的数值大于0且小于或者等于9.81。若微处理器接收到的姿态参数中z轴对应的数值属于(0,9.81]的范围中，则确定该电子设备处于正面放置姿态，从而微处理器向前置图像采集器发送第一开启指令，以使前置图像采集器在接收到第一开启指令时，开启并采集用户图像数据。

S2023：微处理器根据该姿态参数确定该电子设备处于反面放置姿态时，向后置图像采集器发送第二开启指令，以开启后置图像采集器。

其中，假设该反面放置姿态对应的姿态参数包括：三维空间中参数中z轴对应的数值大于或等于-9.81且小于0。若微处理器接收到的姿态参数中z轴对应的数值属于[-9.81,0)的范围中，则确定该电子设备处于反面放置姿态，比如，微处理器确定该姿态参数中的z轴对应的数值大于或等于-9.81且小于0，则微处理器可以确定该电子设备处于反面放置姿态，从而微处理器向后置图像采集器发送第二开启指令，以使后置图像采集器在接收到第二开启指令时，开启并采集用户图像数据。

需要说明的是，上述仅以正面放置姿态、反面放置姿态及其对应的数值范围为例进行说明，在实际应用于中，还可以通过设置其他的姿态以及设置不同的数值范围等来实现，本申请实施例在此不再赘述。

进一步地，该电子设备还包括距离传感器。相应地，在声音采集器通过上述S201采集第一用户的声音数据之前，该方法还包括如下步骤以开启声音采集器，具体如下所述。

S2011：距离传感器检测第一用户与该电子设备之间的距离，并将该距离传输至微处理器。

其中，该距离传感器可以用于检测外部物体与该电子设备之间的距离，比如，该距离传感器可以是接近光传感器。具体的，该距离传感器可以被设置为工作状态，且该距离传感器可以实时地、周期性地、或者非周期性地检测外部物体(比如，该外部物体为第一用户)与该电子设备之间的距离，并将检测得到的距离传输至微处理器。

S2012：微处理器在确定该距离小于或等于预设距离时，向声音采集器发送第三开启指令，以开启声音采集器。

其中，该预设距离可以事先设置，且该预设距离的具体数值可以由本领域技术人员根据实际需要进行设置，本申请实施例对此不作具体限定。具体的，当微处理器接收到该距离时，微处理器可以确定该距离是否小于或者等于预设距离，比如，该预设距离为20厘米(cm)；当确定该距离小于该预设距离时，微处理器可以向声音采集器发送第三开启指令，以使声音采集器在接收到第三开启指令时，开启并采集第一用户的声音数据。

本申请实施例中，通过检测第一用户与该电子设备之间的距离，并在该距离小于或等于预设距离时，开启声音采集器以采集第一用户的声音数据，由于距离传感器的功耗通常小于声音采集器的功耗，因此与声音采集器长时间处于工作状态相比，可以进一步降低该电子设备的功耗。

本申请实施例还提供一种语音交互处理装置，该装置的结构可以参见图1所示，该装置可以为电子设备或者内置于电子设备的芯片系统。在本申请实施例中，声音采集器，用于采集第一用户的声音数据，并传输至微处理器；微处理器，用于根据第一用户的声音数据获取用户声纹特征，并在根据该用户声纹特征确定第一用户为目标用户时，开启图像采集器；图像采集器，用于采集用户图像数据，并传输至微处理器；微处理器，还用于根据该用户图像数据获取用户图像特征，并在根据该用户图像特征确定目标用户处于语音交互状态时，向应用处理器发送用于唤醒语音交互软件的唤醒指令；应用处理器，用于接收该唤醒指令，并唤醒语音交互软件以为目标用户提供语音交互功能。

可选的，在根据该用户图像特征确定目标用户处于语音交互状态时，微处理器具体用于：基于用户图像数据，利用活体检测方法确定目标用户处于语音交互状态。

在本申请的另一实施例中，姿态传感器，用于检测该装置的姿态参数，并将该姿态参数传输至微处理器；图像采集器包括：前置图像采集器和后置图像采集器；微处理器，还用于根据该姿态参数确定该装置处于正面放置姿态时，向前置图像采集器发送第一开启指令，以开启前置图像采集器；或者，微处理器，还用于根据该姿态参数确定该装置处于反面放置姿态时，向后置图像采集器发送第二开启指令，以开启后置图像采集器。

在本申请的另一实施例中，距离传感器，用于检测第一用户与该装置之间的距离，并将该距离传输至所述微处理器；微处理器，还用于确定在该距离小于或等于预设距离时，向声音采集器发送第三开启指令，以开启声音采集器。

需要说明的是，上述关于声音采集器、图像采集器、微处理器、应用采集器、姿态传感器和距离传感器的相关描述，具体可以参见上述方法实施例中的相关描述，本申请实施例在此不再赘述。

在本申请实施例中，用户无需通过唤醒词唤醒语音交互软件，而是由功耗较低的微处理器接收和处理声音采集器传输的声音数据和图像采集器传输的用户图像数据，并在确定目标用户处于交互语音状态时，向应用处理器发送用于唤醒语音交互软件的唤醒指令，以唤醒语音交互软件为目标用户提供语音交互功能，从而实现了友好、自然的语音交互效果，同时语音交互软件无需长时间处于工作状态，从而降低了该装置的功耗。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音交互处理装置，其特征在于，所述装置包括：声音采集器、图像采集器、微处理器和应用处理器；其中，

所述声音采集器，用于采集第一用户的声音数据，并传输至所述微处理器；

所述微处理器，用于根据所述第一用户的声音数据确定所述第一用户为目标用户时，开启所述图像采集器；

所述图像采集器，用于采集用户图像数据，并传输至所述微处理器；

所述微处理器，还用于根据所述用户图像数据确定所述目标用户处于语音交互状态时，向所述应用处理器发送唤醒指令；

所述应用处理器，用于接收所述唤醒指令，并唤醒语音交互软件以为所述目标用户提供语音交互功能。
根据权利要求1所述的装置，其特征在于，所述微处理器，具体用于：

基于所述用户图像数据，利用活体检测方法确定所述目标用户处于语音交互状态。
根据权利要求1或2所述的装置，其特征在于，所述装置还包括：

姿态传感器，用于检测所述装置的姿态参数，并将所述姿态参数传输至所述微处理器；

所述图像采集器包括：前置图像采集器和后置图像采集器；

所述微处理器，还用于根据所述姿态参数确定所述装置处于正面放置姿态时，向所述前置图像采集器发送第一开启指令，以开启所述前置图像采集器；或者，

所述微处理器，还用于根据所述姿态参数确定所述装置处于反面放置姿态时，向所述后置图像采集器发送第二开启指令，以开启所述后置图像采集器。
根据权利要求1-3任一项所述的装置，其特征在于，所述装置还包括：

距离传感器，用于检测所述第一用户与所述装置之间的距离，并将所述距离传输至所述微处理器；

所述微处理器，还用于确定在所述距离小于或等于预设距离时，向所述声音采集器发送第三开启指令，以开启所述声音采集器。
一种语音交互处理方法，其特征在于，应用于包括声音采集器、图像采集器、微处理器和应用处理器的装置中；其中，

所述声音采集器采集第一用户的声音数据，并传输至所述微处理器；

所述微处理器根据所述第一用户的声音数据确定所述第一用户为目标用户时，开启所述图像采集器；

所述图像采集器采集用户图像数据，并传输至所述微处理器；

所述微处理器根据所述用户图像数据确定所述目标用户处于语音交互状态时，向所述应用处理器发送唤醒指令；

所述应用处理器接收所述唤醒指令，并唤醒语音交互软件以为所述目标用户提供语音交互功能。
根据权利要求5所述的方法，其特征在于，所述微处理器根据所述用户图像数据确定所述目标用户处于语音交互状态，具体包括：

基于所述用户图像数据，利用活体检测方法确定所述目标用户处于语音交互状态。
根据权利要求5或6所述的方法，其特征在于，所述装置还包括姿态传感器，所述图像采集器包括前置图像采集器和后置图像采集器，所述方法还包括：

所述姿态传感器检测所述装置的姿态参数，并将所述姿态参数传输至所述微处理器；

所述微处理器根据所述姿态参数确定所述装置处于正面放置姿态时，向所述前置图像采集器发送第一开启指令，以开启所述前置图像采集器；或者，

所述微处理器根据所述姿态参数确定所述装置处于反面放置姿态时，向所述后置图像采集器发送第二开启指令，以开启所述后置图像采集器。
根据权利要求5-7任一项所述的方法，其特征在于，所述装置还包括距离传感器，所述方法还包括：

所述距离传感器检测所述第一用户与所述装置之间的距离，并将所述距离传输至所述微处理器；

所述微处理器在确定所述距离小于或等于预设距离时，向所述声音采集器发送第三开启指令，以开启所述声音采集器。