WO2020001172A1

WO2020001172A1 - 一种音频处理方法和电子设备

Info

Publication number: WO2020001172A1
Application number: PCT/CN2019/086193
Authority: WO
Inventors: 王敏刚
Original assignee: 联想(北京)有限公司
Priority date: 2018-06-29
Filing date: 2019-05-09
Publication date: 2020-01-02
Also published as: CN109032554A; CN109032554B

Abstract

本申请提供了一种音频处理方法，包括：采集输入数据；如果满足第一条件的所述输入数据满足第二条件，以满足第一条件的方式响应所述输入数据；如果满足所述第一条件的所述输入数据不满足所述第二条件，忽略所述满足第一条件的所述输入数据。采用该方法，通过判断满足第一条件的输入数据是否满足第二条件，确定是否以第一条件的方式响应该输入数据，对输入数据进行了两个条件的判断，判断准确度较高，防止误唤醒。

Description

一种音频处理方法和电子设备

技术领域

本申请涉及电子设备领域，更具体的说，是涉及一种音频处理方法和电子设备。

背景技术

随着电子技术的发展，目前，很多设备支持语音功能，但是，由于使用固定的语音唤醒词，任何人说出该唤醒词都能够唤醒支持该唤醒词的设备，导致本不应唤醒的设备易被唤醒，出现误唤醒的问题。

发明内容

有鉴于此，本申请提供了一种音频处理方法，解决了现有技术中设备易出现误唤醒的问题。

为实现上述目的，本申请提供如下技术方案：

一种音频处理方法，应用于第一设备，所述方法包括：

采集输入数据；

如果满足第一条件的所述输入数据满足第二条件，以满足第一条件的方式响应所述输入数据；

如果满足所述第一条件的所述输入数据不满足所述第二条件，忽略所述满足第一条件的所述输入数据。

上述的方法，优选的，所述满足第一条件的输入数据用于切换预设应用的状态为预设运行状态，则所述以满足第一条件的方式响应所述输入数据之后，还包括：

采集控制数据，以使得处于预设运行状态的预设应用响应所述控制数据。

上述的方法，优选的，所述第一设备以第一方式输出多媒体内容时，则响应所述输入数据包括：

以所述第一方式输出响应数据。

上述的方法，优选的，所述输出多媒体内容时，采集输入数据之后，还包括：

判断所述输入数据是否满足第一条件；基于所述输入数据满足所述第一条件，判断所述输入数据是否满足第二条件；

或

判断所述输入数据是否满足第二条件；基于所述输入数据满足所述第二条件，判断所述输入数据是否满足第一条件。

上述的方法，优选的，判断所述输入数据是否满足第二条件，包括：

判断是否接收到第二设备反馈的第一信息；

基于接收到所述第一信息，判断所述输入数据是否满足第二条件；

其中，所述第一信息包括下列中的至少一种：

所述第二设备采集到所述输入数据；或

所述第二设备采集到所述输入数据的质量；或

所述第二设备执行响应所述输入数据的操作。

上述的方法，优选的，所述输入数据是语音音频，则判断所述输入数据是否满足第二条件，包括：

判断所述语音音频是否与预设的声纹信息匹配，所述预设的声纹信息为预设唤醒人的声纹信息；

基于所述语音音频与预设的声纹信息的匹配，确定所述输入数据满足第二条件；否则，确定所述输入数据不满足第二条件。

上述的方法，优选的，所述输入数据包括图像和音频，则判断所述输入数据是否满足第二条件，包括：

分析判断所述图像是否满足预设条件；

基于所述图像满足所述预设条件，确定所述输入数据满足所述第二条件；否则，所述输入数据不满足所述第二条件；

其中，所述图像满足预设条件包括下列中的至少一种：

识别得到的所述图像中人物身份满足预设身份条件；或

识别得到的所述图像中的人物朝向所述第一设备。

一种电子设备，包括：

采集模块，用于采集输入数据；

判断模块，用于判断所述输入数据是否满足第一条件，以及所述输入数据是否满足第二条件；

处理模块，用于如果所述输入数据满足第一条件且满足第二条件，以满足第一条件的方式响应所述输入数据；以及如果所述输入数据满足第一条件且不满足第二条件，忽略所述满足第一条件的所述输入数据。

一种电子设备，包括：

处理器，用于接收采集的输入数据，如果所述输入数据满足第一条件且满足第二条件，以满足第一条件的方式响应所述输入数据；以及如果所述输入数据满足第一条件且不满足第二条件，忽略所述满足第一条件的所述输入数据；

存储器，用于存储所述第一条件和第二条件。

上述的电子设备，优选的，还包括：

音频采集器，用于采集语音音频；

则，所述存储器中还存储有预设的声纹信息；

所述处理器具体用于判断所述语音音频是否与预设的声纹信息匹配；

或者，

还包括：

音频采集器，用于采集语音音频；

图像采集模组，用于采集图像采集区域的图像；

则，所述存储器中还存储有预设条件；

所述处理器具体用于分析判断所述语音音频是否满足第一条件，以及判断所述图像是否满足预设条件。

经由上述的技术方案可知，与现有技术相比，本申请提供了一种音频处理方法，包括：采集输入数据；如果满足第一条件的所述输入数据满足第二条件，以满足第一条件的方式响应所述输入数据；如果满足所述第一条件的所述输入数据不满足所述第二条件，忽略所述满足第一条件的所述输入数据。采用该方法，通过判断满足第一条件的输入数据是否满足第二条件，确定是否以第一条件的方式响应该输入数据，对输入数据进行了两个条件的判断，判断准确度较高，防止误唤醒。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种音频处理方法实施例1的流程图；

图2为本申请提供的一种音频处理方法实施例2的流程图；

图3为本申请提供的一种音频处理方法实施例3的流程图；

图4为本申请提供的一种音频处理方法实施例3中显示内容示意图；

图5为本申请提供的一种音频处理方法实施例4的流程图；

图6为本申请提供的一种音频处理方法实施例5的流程图；

图7为本申请提供的一种音频处理方法实施例5中具体示例示意图；

图8为本申请提供的一种音频处理方法实施例6的流程图；

图9为本申请提供的一种音频处理方法实施例7的流程图；

图10为本申请提供的一种音频处理方法实施例7中具体示例示意图；

图11为本申请提供的一种电子设备实施例1的结构示意图；

图12为本申请提供的一种电子设备实施例2的结构示意图；

图13为本申请提供的一种电子设备实施例3的结构示意图；

图14为本申请提供的一种电子设备实施例4的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示的，为本申请提供的一种音频处理方法实施例1的流程图，该方法应用于一电子设备，本申请中，该电子设备作为第一设备，该方法包括以下步骤：

步骤S101：采集输入数据；

其中，该输入数据为输入该第一设备的数据。

具体的，该输入数据可以为音频、视频、图像、其他设备传输来的数据等。

步骤S102：如果满足第一条件的所述输入数据满足第二条件，以满足第一条件的方式响应所述输入数据；

其中，该输入数据同时满足第一条件和第二条件时，才以满足该第一条件的方式响应该输入数据。

步骤S103：如果满足所述第一条件的所述输入数据不满足所述第二条件，忽略所述满足第一条件的所述输入数据。

其中，该输入数据满足第一条件但是不满足第二条件时，忽略该满足第一条件的输入数据，不对该输入数据进行响应。

作为一个具体示例，该输入数据是音频时，该第一条件是该音频中包含唤醒词，如该唤醒词为“嗨，语音助手”，而该唤醒词是用于唤醒该第一设备中语音助手的，那么，响应该输入数据是唤醒该第一设备中的语音助手。

相应的，该第二条件是对该第一条件的补充，当该输入数据也满足第二条件时，才以满足该第一条件的方式响应该输入数据。

例如，即使该输入数据中包含有唤醒词“嗨，语音助手”，但是，由于该输入数据不满足第二条件，该第一设备也不响应该唤醒词，即不唤醒该第一设备中的语音助手。

需要说明的是，该第二条件可以是与该第一设备相关的其他条件，如发出音频的用户的音频条件、其他与该第一设备相关设备的反馈或者用户的行为等各个方面的条件，后续实施例中会针对该第二条件进行详细解释，本实施例中不做详述。

综上，本实施例提供的一种音频处理方法，包括：采集输入数据；如果满足第一条件的所述输入数据满足第二条件，以满足第一条件的方式响应所述输入数据；如果满足所述第一条件的所述输入数据不满足所述第二条件，忽略所述满足第一条件的所述输入数据。采用该方法，通过判断满足第一条件的输入数据是否满足第二条件，确定是否以第一条件的方式响应该输入数据，对输入数据进行了两个条件的判断，判断准确度较高，防止误唤醒。

其中，该满足第一条件的输入数据用于切换预设应用的状态为预设运行状态。

如图2所示的，为本申请提供的一种音频处理方法实施例2的流程图，该方法包括以下步骤：

步骤S201：采集输入数据；

步骤S202：如果满足第一条件的所述输入数据满足第二条件，以满足第一条件的方式响应所述输入数据；

其中，步骤S201-202与实施例1中的步骤S101-102一致，本实施例中不做赘述。

步骤S203：采集控制数据，以使得处于预设运行状态的预设应用响应所述控制数据；

其中，该输入数据满足第一条件和第二条件，以满足该第一条件的方式响应该输入数据，实现该第一设备中的预设应用的状态切换为预设运行状态。

例如，该预设运行状态为正常运行状态，或者激活状态。

那么，该预设应用切换为预设运行状态后，继续采集输入的控制数据，该预设应用响应该数据。

作为一个具体示例，该预设应用为第一设备中的语音助手，该预设运行状态为激活状态，则该语音助手激活后，该第一设备继续采集输入的控制数据，如语音指令“打电话给李明”，则该语音助手响应该语音控制指令，执行控制第一设备中的电话软件进行“打电话给李明”的操作。又如，该继续采集输入的控制数据为语音控制指令“打开浏览器”，则该语音助手响应该语音控制指令，执行控制第一设备中的浏览器软件打开的操作。

步骤S204：如果满足所述第一条件的所述输入数据不满足所述第二条件，忽略所述满足第一条件的所述输入数据。

其中，步骤S204与实施例1中的步骤S103一致，本实施例中不做赘述。

综上，本实施例提供的一种音频处理方法中，还包括：采集控制数据，以使得处于预设运行状态的预设应用响应所述控制数据。采用该方法，以满足该第一条件的方式响应该输入数据，实现将第一设备中的预设应用的状态切换为预设运行状态，并在后续过程中，继续采集输入的控制数据，并使得该预设应用响应该控制数据，保证该预设应用正常执行操作。

其中，该第一设备以第一方式输出多媒体内容。

如图3所示的，为本申请提供的一种音频处理方法实施例3的流程图，包括以下步骤：

步骤S301：采集输入数据；

其中，步骤S301与实施例1中的步骤S101一致，本实施例中不做赘述。

步骤S302：如果满足第一条件的所述输入数据满足第二条件，以所述第一方式输出响应数据；

需要说明的是，第一设备以影响多媒体内容输出的方式，输出响应数据，输出该响应数据会对该多媒体的内容输出产生干扰。

所以，该第二条件是用于判断是否该第一设备是否不需要响应该输入数据，第一设备需要响应该输入数据，则输入数据满足第二条件，否则，该输入数据不满足第二条件。

具体的，该第一设备中输出多媒体过程中，采集该输入数据，该多媒体内容的输出方式与该第一设备响应该输入数据的方式相应，都是第一方式。当该第一设备输出响应数据时，可能会对其输出多媒体内容产生影响，因此，需要确定该满足第一条件的输入数据也满足第二条件时，该第一设备输出响应数据，用户能够接收该响应。

例如，该第一设备通过屏幕显示内容(如视频或者图像)时，通过在该屏幕上显示一个提示框实现输出响应，该提示框占据了部分屏幕，遮挡部分屏幕中的原显示内容。

又如，该第一设备通过喇叭播放内容(如音频)时，通过播放音频“启动语音助手”实现输出响应，其与播放内容重叠。

如图4所示的为显示内容示意图，包括：显示界面401，该显示界面中显示图像，当设备对输入数据进行响应时，在显示界面上显示提示框402，该提示框中提示“启动语音助手。”。

步骤S303：如果满足所述第一条件的所述输入数据不满足所述第二条件，忽略所述满足第一条件的所述输入数据。

其中，步骤S303与实施例1中的步骤S103一致，本实施例中不做赘述。

综上，本实施例提供的一种音频处理方法中，所述第一设备以第一方式输出多媒体内容时，则响应所述输入数据包括：以所述第一方式输出响应数据。采用该方法，通过与设备输出多媒体内容相同的方式输出响应数据，保证用户能够了解该第一设备已经响应了该输入数据。

如图5所示的，为本申请提供的一种音频处理方法实施例4的流程图，包括以下步骤：

步骤S501：采集输入数据；

其中，步骤S501与实施例1中的步骤S101一致，本实施例中不做赘述。

步骤S502：判断所述输入数据是否满足第一条件；

步骤S503：基于所述输入数据满足所述第一条件，判断所述输入数据是否满足第二条件；

其中，先对该输入数据是否满足第一条件进行判断，如果该输入数据满足该第一条件，再判断其是否满足第二条件。

作为一个具体示例，该输入数据是音频，第一条件是该音频中包含唤醒词，那么判断该音频是否包含该唤醒词，如果包含，该输入数据满足该第一条件，而为了保证该第一设备是特定用户目的唤醒的设备，还需要根据情况对与该第一设备/用户相关的信息进行判断，即判断该输入数据是否满足第二条件，以防止不是特定用户唤醒设备或者用户目的唤醒的不是该第一设备，而导致出现误唤醒的问题。

需要说明的是，具体实施中，本申请对判断输入数据是否满足第一条件和第二条件的先后顺序不做限制，可以判断所述输入数据是否满足第一条件；基于所述输入数据满足所述第一条件，判断所述输入数据是否满足第二条件；也可以判断所述输入数据是否满足第二条件；基于所述输入数据满足所述第二条件，判断所述输入数据是否满足第一条件。

步骤S504：如果满足第一条件的所述输入数据满足第二条件，以满足第一条件的方式响应所述输入数据；

步骤S505：如果满足所述第一条件的所述输入数据不满足所述第二条件，忽略所述满足第一条件的所述输入数据。

其中，步骤S504-505与实施例1中的步骤S102-103一致，本实施例中不做赘述。

综上，本实施例提供的一种音频处理方法中，先判断该输入数据是否满足第一条件，基于所述输入数据满足所述第一条件，判断所述输入数据是否满足第二条件。采用该方法，通过判断满足第一条件的输入数据是否满足第二条件，确定是否以第一条件的方式响应该输入数据，对输入数据进行了两个条件的判断，判断准确度较高，防止误唤醒。

如图6所示的，为本申请提供的一种音频处理方法实施例5的流程图，包括以下步骤：

步骤S601：采集输入数据；

步骤S602：判断所述输入数据是否满足第一条件；

其中，步骤S601-602与实施例4中的步骤S501-502一致，本实施例中不做赘述。

步骤S603：基于所述输入数据满足所述第一条件，判断是否接收到第二设备反馈的第一信息；

其中，该第二设备与该第一设备组成联网系统，该联网系统中的数据共享。

例如，该第一设备与第二设备可以处于同一环境中，二者能够对该环境中的相同内容进行采集，如采集相同的输入数据，而联网系统中的设备采集到输入数据后可以将其采集的相关信息和/或对该输入数据的信息反馈给其他设备。

具体的，所述第一信息包括下列中的至少一种：

所述第二设备采集到所述输入数据；或

所述第二设备采集到所述输入数据的质量；或

所述第二设备执行响应所述输入数据的操作。

需要说明的是，当用户在说出唤醒词时，由于联网系统中的各个设备处于与用户不同的相对位置，其能够采集的音频(输入数额)的质量不同，越靠近用户，输入数据的质量(如清晰度/强度等)越好，采集输入数据的速度越快，响应速度也越快。

例如，该联网系统为家电系统时，该系统中可以包括手机、平板电脑、电视、冰箱、空调等各种电子设备。

步骤S604：基于接收到所述第一信息，判断所述输入数据是否满足第二条件；

其中，该第一设备接收到第二设备反馈的第一信息后，可以结合该第一信息判断自己采集的输入数据是否满足第二条件。

具体的，该第一信息是第二设备采集到输入数据时，该第一设备采集该输入数据晚于该第二设备，则可以分析得到该第二设备更加靠近该用户，该第二设备是用户目的唤醒的设备，那么，该输入数据不满足第二条件；当该第一设备未接收到该第一信息时，该第一设备是最早采集该输入数据的，则可以分析得到该第一设备最靠近用户，该第一设备就是用户目的唤醒的设备，那么，该输入数据满足第二条件。

具体的，该第一信息是第二设备采集到输入数据的质量，以强度为例，该第二设备采集到输入设备的强度为9，而该第一设备采集到输入数据的强度为4，那么可以分析得到该第二设备更加靠近该用户，该第二设备是用户目的唤醒的设备，那么，该输入数据不满足第二条件；该第二设备采集到输入设备的强度为2，而该第一设备采集到输入数据的强度为8，那么可以分析得到该第一设备更加靠近该用户，该第一设备是用户目的唤醒的设备，那么，该输入数据满足第二条件。

具体的，该第一信息是第二设备执行响应所述输入数据的操作时，由于该第一设备采集到该第一信息还未进行响应之前，该第二设备已经响应了该输入数据，那么可知，该第二设备是用户目的唤醒的设备，那么，该输入数据不满足第二条件；如果未接收到该第一信息时，那么可知，该第一设备采集速度较快，该第一设备是用户目的唤醒的设备，那么，该输入数据满足第二条件。

如图7所示的一个具体示例示意图，该输入数据为音频，该音频为用户701说出特定唤醒词“嗨，语音助手”时产生的，而该联网系统中的手机702、平板电脑703和电视704中的语音助手都能够被该特定唤醒词唤醒。该手机、平板电脑和电视都能够对环境中的音频进行采集，三者与用户的距离从近到远分别为手机、电视、平板电脑。

例如，任意一个设备采集完成后，将其采集动作反馈给其他设备。三个设备采集速度从快到慢是：手机、电视、平板电脑，手机采集到音频后，将其采集到音频的信息反馈给电视和平板电脑，该手机中未接收到其他设备反馈的信息，那么该手机对该音频进行响应，唤醒其语音助手；而电视和平板电脑得到该反馈的信息可知，已有手机在其之前采集到音频，那么，该电视和平板电脑不对该采集的音频进行响应。

又如，任意一个设备采集完成后，可以将其采集的音频质量反馈给其他设备。三个设备采集强度/清晰度从大到小是：手机、电视、平板电脑，各个设备采集到音频后，将其采集到音频的质量反馈给其他设备，由于手机中的音频质量最好，那么该手机对该音频进行响应，唤醒其语音助手；而电视和平板电脑得到该反馈的信息可知，有其他设备音频质量优于自己，那么，该电视和平板电脑不对其采集的音频进行响应。

又如，任意一个设备采集完成后，对该音频进行响应，并将响应操作的信息反馈给其他设备。三个设备响应的速度从快到慢是：手机、电视、平板电脑。手机采集到音频后，其对该音频进行响应，唤醒其语音助手，并将该响应操作的信息反馈给电视、平板电脑。而电视和平板电脑得到该反馈的信息可知，手机已经响应了该音频，那么，该电视和平板电脑不对其采集的音频进行响应。

步骤S605：如果满足第一条件的所述输入数据满足第二条件，以满足第一条件的方式响应所述输入数据；

步骤S606：如果满足所述第一条件的所述输入数据不满足所述第二条件，忽略所述满足第一条件的所述输入数据。

其中，步骤S605-606与实施例5中的步骤S504-505一致，本实施例中不做赘述。

综上，本实施例提供的一种音频处理方法中，判断所述输入数据是否满足第二条件，包括：判断是否接收到第二设备反馈的第一信息；基于接收到所述第一信息，判断所述输入数据是否满足第二条件；其中，所述第一信息包括下列中的至少一种：所述第二设备采集到所述输入数据；或所述第二设备采集到所述输入数据的质量；或所述第二设备执行响应所述输入数据的操作。采用该方法，通过第一设备与第二设备之间进行针对其采集输入数据或者输入数据质量或者是否响应该输入数据进行信息反馈，各个设备之间数据共享，使得根据该共享的信息确定哪个设备是用户目的唤醒的设备，保证了唤醒用户想要唤醒的设备被唤醒，防止出现误唤醒的问题。

其中，该输入数据是语音音频。

如图8所示的，为本申请提供的一种音频处理方法实施例6的流程图，包括以下步骤：

步骤S801：采集输入数据；

步骤S802：判断所述输入数据是否满足第一条件；

其中，步骤S801-802与实施例4中的步骤S501-502一致，本实施例中不做赘述。

步骤S803：基于所述输入数据满足所述第一条件，判断所述语音音频是否与预设的声纹信息匹配，所述预设的声纹信息为预设唤醒人的声纹信息；

基于所述语音音频与预设的声纹信息匹配，所述输入数据满足第二条件；

否则，所述输入数据不满足第二条件。

需要说明的是，不同人具有不同的声纹信息，根据声纹信息能够对发出声音的人身份进行判断。

其中，该输入数据满足第一条件，即语音音频中包含有特定的唤醒词。

为防止非特定用户唤醒第一设备，则还需要对发出该语音音频的人的身份进行判断，具体通过声纹信息进行判断。

具体的，该第一设备中预设声纹信息，该预设的声纹信息为预设唤醒人的声纹信息。判断该语音音频与预设的声纹信息是否匹配，如果二者匹配，该发出语音音频的人就是预设唤醒人，其具有唤醒该第一设备语音助手的权限；如果二者不匹配，那么发出语音音频的人就不是预设唤醒人，其没有唤醒该第一设备语音助手的权限。

作为一个具体示例，用户A使用手机，用户B使用平板电脑，两个设备中语音助手的唤醒词均是“嗨，语音助手”，那么，当A和B在同一环境中时，B说出语音“嗨，语音助手”，如果手机中未设置该第二条件，则该手机采集到输入数据后，就会对该唤醒词进行响应，唤醒语音助手，而该手机的用户A并未想要唤醒语音助手，这会导致A的体验较差。而该手机中设置该第二条件，根据声纹信息即可判定该语音不是自己的用户A发出，则会忽略该唤醒词，不唤醒语音助手。

步骤S804：如果满足第一条件的所述输入数据满足第二条件，以满足第一条件的方式响应所述输入数据；

步骤S805：如果满足所述第一条件的所述输入数据不满足所述第二条件，忽略所述满足第一条件的所述输入数据。

其中，步骤S804-805与实施例5中的步骤S504-505一致，本实施例中不做赘述。

综上，本实施例提供的一种音频处理方法中，所述输入数据是语音音频，则判断所述输入数据是否满足第二条件，包括：判断所述语音音频是否与预设的声纹信息匹配，所述预设的声纹信息为预设唤醒人的声纹信息；基于所述语音音频与预设的声纹信息匹配，所述输入数据满足第二条件；否则，所述输入数据不满足第二条件。采用该方法，通过对语音音频与预设声纹信息进行匹配判断，确定发出该语音音频的人是否为预设唤醒人，防止出现其他人唤醒设备导致误唤醒的问题。

其中，该输入数据包括图像和音频。

如图9所示的，为本申请提供的一种音频处理方法实施例7的流程图，包括以下步骤：

步骤S901：采集输入数据；

步骤S902：判断所述输入数据是否满足第一条件；

其中，步骤S901-902与实施例4中的步骤S501-502一致，本实施例中不做赘述。

步骤S903：基于所述输入数据满足所述第一条件，分析判断所述图像是否满足预设条件；

基于所述图像满足预设条件，所述输入数据满足第二条件；

否则，所述输入数据不满足第二条件；

其中，图像满足预设条件包括下列中的至少一种：

识别得到的所述图像中人物身份满足预设身份条件；或

识别得到的所述图像中的人物朝向所述第一设备。

其中，该输入数据包括音频和图像，该第一设备能够同时对音频和图像进行采集。

具体实施中，可以对该输入数据中的音频进行判断是否满足第一条件，对该输入数据中的图像是否满足预设条件进行判断。

需要说明的是，当用户说出该唤醒词时，第一设备在采集得到音频信息同时，也对图像采集区域进行图像采集，采集的图像中包含用户的影像。

具体的，对该图像进行分析，得到该图像中人物的相关信息，如特征、姿势等。

具体的，该人物特征可以包括人脸特征、动态特征等，而根据该人物特征可以分析得到该人物的身份是否为满足预设身份条件的特定唤醒人，该特定唤醒人能够唤醒设备。

具体实施中，该第一设备中可以预设该特定唤醒人的人物特征的相关信息。该特定唤醒人可以为授权的用户，只有该授权的用户能够使用该第一设备。

具体的，该图像中人物的相关信息是人脸特征时，则对图像进行识别，得到图像中人物的脸部特征，根据该脸部特征确定该人物是否为能够唤醒设备的特定唤醒人，该脸部特征与特定唤醒人的脸部特征匹配时，该输入数据满足第二条件，否则不满足。

具体的，该图像中人物的相关信息是动态特征时，则对连续的几帧图像进行识别，得到图像中人物动态特征(如走路、挥手等动作)，根据该动态特征确定该人物是否为能够唤醒设备的特定唤醒人，该动态特征与特定唤醒人的动态特征匹配时，该输入数据满足第二条件，否则不满足。

作为一个具体示例，第一设备中设置有授权的用户的人物特征。当有授权的用户说出唤醒词时，该第一设备根据采集的图像分析得到说出唤醒词的人的与预设的人物特征匹配，就可响应该唤醒词，唤醒第一没备的语音助手。当有非授权的用户说出唤醒词时，该第一设备根据采集的图像分析得到说出唤醒词的人的与预设的人物特征不匹配，就可忽略该唤醒词，不唤醒第一设备的语音助手。

具体的，该图像中人物的姿势是该人物面向该第一设备时，则对图像进行识别，得到图像中人物是否面对该第一设备，如果人物面对该第一设备，该输入数据满足第二条件，否则不满足。

具体应用中，当用户想要控制/操作某一设备时，会面向该设备，而当用户不面向该设备时，则可认为用户不想控制/操作该设备。

当用户周围有多个设备，可以根据自己的需求面对想要控制/操作的设备，所以，根据用户是否面对设备即可确定其是否想要操作/操作该设备。

如图10的为一个具体示例示意图，用户1001周围具有手机1002、平板电脑1003和电视1004，用户面对该手机1002。用户1001说出特定唤醒词“嗨，语音助手”时产生音频，手机1002、平板电脑1003和电视1004中的语音助手都能够被该特定唤醒词唤醒，该手机1002、平板电脑1003和电视1004对其图像采集区域进行图像采集，并对采集的图像进行分析，该平板电脑1003分析其采集到的图像，得到结果为用户面对该平板电脑，该输入数据满足第二条件，则平板电脑响应该唤醒词，唤醒语音助手。而手机和电视分析到的结果为用户均未面对自己，该输入数据不满足第二条件，则不响应该唤醒词。

步骤S904：如果满足第一条件的所述输入数据满足第二条件，以满足第一条件的方式响应所述输入数据；

步骤S905：如果满足所述第一条件的所述输入数据不满足所述第二条件，忽略所述满足第一条件的所述输入数据。

其中，步骤S904-905与实施例5中的步骤S504-505一致，本实施例中不做赘述。

综上，本实施例提供的一种音频处理方法中，该所述输入数据包括图像和音频，则判断所述输入数据是否满足第二条件，包括：分析判断所述图像是否满足预设条件；基于所述图像满足预设条件，所述输入数据满足第二条件；否则，所述输入数据不满足第二条件；其中，图像满足预设条件包括下列中的至少一种：识别得到的所述图像中人物身份满足预设身份条件；或识别得到的所述图像中的人物朝向所述第一设备。采用该方法，通过对图像中的人物进行分析，判断人物身份是否满足预设身份条件或者该确定该人物是否朝向设备，确定本设备是否为用户目的唤醒的设备，防止出现用户非目的唤醒的设备被唤醒导致误唤醒的问题。

与上述本申请提供的一种音频处理方法实施例相对应的，本申请还提供了应用该音频处理方法的电子设备实施例。

如图11所示的为本申请提供的一种电子设备实施例1的结构示意图，该电子设备中具有音频采集功能，该电子设备包括以下结构：采集模块1101、判断模块1102和处理模块1103；

其中，采集模块1101，用于采集输入数据；

其中，判断模块1102，用于判断所述输入数据是否满足第一条件，以及所述输入数据是否满足第二条件；

其中，处理模块1103，用于如果所述输入数据满足第一条件且满足第二条件，以满足第一条件的方式响应所述输入数据；以及如果所述输入数据满足第一条件且不满足第二条件，忽略所述满足第一条件的所述输入数据。

其中，该输入数据包括音频时，该采集模块具体可以采用麦克风等具有音频采集功能的装置；该输入数据包括音频和图像时，该采集模块可以包括音频采集的装置(如麦克风)和图像采集的装置(如摄像头)。

综上，本实施例提供的一种电子设备中，通过判断满足第一条件的输入数据是否满足第二条件，确定是否以第一条件的方式响应该输入数据，对输入数据进行了两个条件的判断，判断准确度较高，防止误唤醒。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，采集模块1101、判断模块1102和处理模块1103中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，采集模块1101、判断模块1102和处理模块1103中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，采集模块1101、判断模块1102和处理模块1103中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图12所示的为本申请提供的一种电子设备实施例2的结构示意图，该电子设备包括以下结构：处理器1201和存储器1202；

其中，处理器1201，用于接收采集的输入数据，如果所述输入数据满足第一条件且满足第二条件，以满足第一条件的方式响应所述输入数据；以及如果所述输入数据满足第一条件且不满足第二条件，忽略所述满足第一条件的所述输入数据；

其中，存储器1202，用于存储所述第一条件和第二条件。

具体实施中，该处理器可以采用具有数据处理能力的芯片结构，如CPU(central processing unit，中央处理器)等。

具体实施中，该第一设备以第一方式输出多媒体内容。该第一方式可以为屏幕显示方式或者音频播放等。

具体的，该第一方式为屏幕显示方式时，该第一设备中还包含有显示屏，以实现对该多媒体内容进行显示，且将该响应该输入数据的响应数据在该显示屏幕中相应显示。

具体的，该第一方式为音频播放方式时，该第一设备中还包含有音频播放器，如喇叭，以实现对该多媒体内容进行音频播放，且将该响应该输入数据的响应数据在该喇叭进行播放。

其中，该输入数据是语音音频。

如图13所示的为本申请提供的一种电子设备实施例3的结构示意图，该电子设备包括以下结构：处理器1301、存储器1302和音频采集器1303；

其中，该处理器1301、存储器1302的结构功能与实施例2中的相应结构功能一致，本实施例中不做赘述。

其中，该音频采集器1303，用于采集语音音频；

则，所述存储器中还存储有预设的声纹信息；

所述处理器具体用于判断所述语音音频是否与预设的声纹信息匹配。

具体实施中，该音频采集器可以采用麦克风等具有音频采集功能的设备结构。

综上，本实施例提供的一种电子设备中，所述输入数据是语音音频，通过对语音音频与预设声纹信息进行匹配判断，确定发出该语音音频的人是否为预设唤醒人，防止出现其他人唤醒设备导致误唤醒的问题。

其中，该输入数据是语音音频和图像。

如图14所示的为本申请提供的一种电子设备实施例4的结构示意图，该电子设备包括以下结构：处理器1401、存储器1402、音频采集器1403和图像采集模组1404；

其中，该处理器1401、存储器1402的结构功能与实施例2中的相应结构功能一致，本实施例中不做赘述。

其中，该音频采集器1403，用于采集语音音频；

其中，图像采集模组1404，用于采集图像采集区域的图像，该图中包含有人物影像。

则，所述存储器中还存储有预设条件

其中，图像满足预设条件包括下列中的至少一种：

识别得到的所述图像中人物身份满足预设身份条件；或

识别得到的所述图像中的人物朝向所述第一设备。

综上，本实施例提供的一种电子设备中，通过对图像中的人物进行分析，判断人物身份是否满足预设身份条件或者该确定该人物是否朝向设备，确定本设备是否为用户目的唤醒的设备，防止出现用户非目的唤醒的设备被唤醒导致误唤醒的问题。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所提供的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所提供的原理和新颖特点相一致的最宽的范围。

Claims

一种音频处理方法，应用于第一设备，所述方法包括：

采集输入数据；

如果满足第一条件的所述输入数据满足第二条件，以满足第一条件的方式响应所述输入数据；

如果满足所述第一条件的所述输入数据不满足所述第二条件，忽略所述满足第一条件的所述输入数据。
根据权利要求1所述的方法，所述满足第一条件的输入数据用于切换预设应用的状态为预设运行状态，则所述以满足第一条件的方式响应所述输入数据之后，还包括：

采集控制数据，以使得处于预设运行状态的预设应用响应所述控制数据。
根据权利要求1所述的方法，所述第一设备以第一方式输出多媒体内容时，则响应所述输入数据包括：

以所述第一方式输出响应数据。
根据权利要求1所述的方法，所述第一电子设备输出多媒体内容时，采集输入数据之后，还包括：

判断所述输入数据是否满足所述第一条件；基于所述输入数据满足所述第一条件，判断所述输入数据是否满足第二条件；

或

判断所述输入数据是否满足所述第二条件；基于所述输入数据满足所述第二条件，判断所述输入数据是否满足所述第一条件。
根据权利要求4所述的方法，判断所述输入数据是否满足所述第二条件，包括：

判断是否接收到第二设备反馈的第一信息；

基于接收到所述第一信息，判断所述输入数据是否满足第二条件；

其中，所述第一信息包括下列中的至少一种：

所述第二设备采集到所述输入数据；或

所述第二设备采集到所述输入数据的质量；或

所述第二设备执行响应所述输入数据的操作。
根据权利要求4所述的方法，所述输入数据是语音音频，则判断所述输入数据是否满足所述第二条件，包括：

判断所述语音音频是否与预设的声纹信息匹配，所述预设的声纹信息为预设唤醒人的声纹信息；

基于所述语音音频与预设的声纹信息的匹配，确定所述输入数据满足第二条件；否则，确定所述输入数据不满足第二条件。
根据权利要求4所述的方法，所述输入数据包括图像和音频，则判断所述输入数据是否满足第二条件，包括：

分析判断所述图像是否满足预设条件；

基于所述图像满足预设条件，确定所述输入数据满足第二条件；否则，确定所述输入数据不满足第二条件；

其中，所述图像满足预设条件包括下列中的至少一种：识别得到的所述图像中人物身份满足预设身份条件；或

识别得到的所述图像中的人物朝向所述第一设备。
一种电子设备，包括：

采集模块，用于采集输入数据；

判断模块，用于判断所述输入数据是否满足第一条件，以及所述输入数据是否满足第二条件；

处理模块，用于如果所述输入数据满足第一条件且满足第二条件，以满足第一条件的方式响应所述输入数据；以及如果所述输入数据满足第一条件且不满足第二条件，忽略所述满足第一条件的所述输入数据。
一种电子设备，包括：

处理器，用于接收采集的输入数据，如果所述输入数据满足第一条件且满足第二条件，以满足第一条件的方式响应所述输入数据；以及如果所述输入数据满足第一条件且不满足第二条件，忽略所述满足第一条件的所述输入数据；

存储器，用于存储所述第一条件和第二条件。
根据权利要求9所述的电子设备，还包括：

音频采集器，用于采集语音音频；

则，所述存储器中还存储有预设的声纹信息；

所述处理器具体用于判断所述语音音频是否与预设的声纹信息匹配；

或者，

还包括：

音频采集器，用于采集语音音频；

图像采集模组，用于采集图像采集区域的图像；

则，所述存储器中还存储有预设条件；

所述处理器具体用于分析判断所述语音音频是否满足第一条件，以及判断所述图像是否满足预设条件。