WO2021196617A1

WO2021196617A1 - 一种语音交互方法、装置、电子设备及存储介质

Info

Publication number: WO2021196617A1
Application number: PCT/CN2020/127116
Authority: WO
Inventors: 何亚欣
Original assignee: 深圳创维－Rgb电子有限公司
Priority date: 2020-04-02
Filing date: 2020-11-06
Publication date: 2021-10-07
Also published as: CN111462744B; CN111462744A

Abstract

一种语音交互方法、装置、电子设备及存储介质，其中，语音交互方法包括：在接收到语音唤醒指令后，启用用于传输交互音频信息的第一音频通道，以及，将当前启用的用于传输点播音频信息的第二音频通道设置为目标状态；其中，目标状态为关闭状态或者低音状态（S101）；在接收到交互音频指令后，查找与交互音频指令相匹配的交互音频信息，并将交互音频信息通过第一音频通道传输至播放端进行播放（S102）。能够基于不同的音频通道分别控制交互音频信息和点播音频信息的音量，提高了交互音频信息的识别效率，进而提高了人机交互的效率。

Description

一种语音交互方法、装置、电子设备及存储介质

相关申请的交叉引用

本公开要求于2020年04月02日提交中国专利局的申请号为202010256089.3、名称为“一种语音交互方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及语音识别技术领域，具体而言，涉及一种语音交互方法、装置、电子设备及存储介质。

背景技术

近年来，随着语音识别技术逐渐趋于成熟，常常将语音识别技术应用在智能电视领域，以实现智能电视和用户之间的语音交互功能，比如，基于语音调换频道、调节音量、开启或关闭智能电视。

实际中，用户使用智能电视的过程中，可以在观看电视节目的同时，与智能电视进行语音交互，获取智能电视反馈的语音交互内容，此时，受正在播放的电视节目的影响，用户很难对电视节目和语音交互内容进行区分，这将降低用户识别语音交互内容的效率，进而降低用户与智能电视的交互效率。

发明内容

有鉴于此，本公开实施例的目的在于提供一种语音交互方法、装置、电子设备及存储介质，能够基于不同的音频通道分别控制交互音频信息和点播音频信息的音量，提高了交互音频信息的识别效率，进而提高了人机交互的效率。

本公开实施例提供了一种语音交互方法，所述方法包括：

在接收到语音唤醒指令后，启用用于传输交互音频信息的第一音频通道，以及，将当前启用的用于传输点播音频信息的第二音频通道设置为目标状态；其中，所述目标状态为关闭状态或者低音状态；

在接收到交互音频指令后，查找与所述交互音频指令相匹配的交互音频信息，并将所述交互音频信息通过所述第一音频通道传输至播放端进行播放。

在本公开实施方式中，所述语音交互方法还包括：

在接收到语音关闭指令后，关闭所述第一音频通道，以及，将所述第二音频通道由所述目标状态切换为工作状态。

在本公开实施方式中，所述语音交互方法还包括：

查找与所述语音唤醒指令相匹配的交互音频信息，并将所述交互音频信息通过所述第一音频通道传输至所述播放端进行播放。

在本公开实施方式中，所述第一音频通道还用于传输提示音频信息，在启用所述第一音频通道后，所述方法还包括：

若检测到待播放的提示音频信息，则基于所述第一音频通道对应的音频信息传输优先级，确定所述提示音频信息和所述交互音频信息的传输顺序；

基于所述传输顺序，依次将所述提示音频信息和所述交互音频信息通过所述第一音频通道传输至所述播放端进行播放。

在本公开实施方式中，所述基于所述第一音频通道对应的音频信息传输优先级，确定所述提示音频信息和所述交互音频信息的传输顺序，之前包括：确定所述待播放的提示音频信息对应的第一传输时间范围与所述交互音频信息对应的第二传输时间范围相交。

在本公开实施方式中，所述第一音频通道还用于传输提示音频信息，在关闭所述第一音频通道后，所述方法还包括：

若检测到待播放的提示音频信息，则启用所述第一音频通道，以及，将当前启用的第二音频通道设置为目标状态；

将所述提示音频信息通过所述第一音频通道传输至所述播放端进行播放，并在所述提示音频信息播放完成后，关闭所述第一音频通道，以及，将所述第二音频通道由所述目标状态切换为工作状态。

在本公开实施方式中，所述将第二音频通道由所述目标状态切换为工作状态，包括：

重新启用处于关闭状态的第二音频通道；

或者，

将所述第二音频通道由低音状态切换为预设音量状态。

在本公开实施方式中，所述语音唤醒指令至少包括以下之一：基于用户发送的语音交互开启信息生成的语音唤醒指令；基于语音交互开启控制键被点击而生成的语音唤醒指令；基于语音交互开启控件被点击而生成的语音唤醒指令；遥控设备发送的语音唤醒指令。

在本公开实施方式中，所述语音关闭指令至少包括以下之一：基于用户通过语音发送的语音交互关闭信息生成的语音关闭指令；基于语音交互关闭控制键被点击而生成的语音关闭指令；基于语音交互关闭控件被点击而生成的语音关闭指令；基于预设时间间隔内未接收到下一个交互音频指令而生成的语音关闭指令。

在本公开实施方式中，所述预设时间间隔内未接收到下一个交互音频指令，包括：当接收到所述交互音频指令后开始计时，在经过预设时间间隔后，确定在所述预设时间间隔内未接收到下一个交互音频指令。

在本公开实施方式中，所述方法还包括：在接收到所述交互音频指令后，执行所述交互音频指令对应的设备控制操作。

本公开实施例提供了一种语音交互装置，所述装置包括：

第一设置模块，用于在接收到语音唤醒指令后，启用用于传输交互音频信息的第一音频通道，以及，将当前启用的用于传输点播音频信息的第二音频通道设置为目标状态；其中，所述目标状态为关闭状态或者低音状态；

查找模块，用于在接收到交互音频指令后，查找与所述交互音频指令相匹配的交互音频信息；

第一传输模块，用于将所述交互音频信息通过所述第一音频通道传输至播放端进行播放。

在本公开实施方式中，所述语音交互装置还包括：

第二设置模块，用于在接收到语音关闭指令后，关闭第一音频通道，以及，将第二音频通道由目标状态切换为工作状态。

本公开实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行本公开实施例的任一项所述的语音交互方法的步骤。

本公开实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行本公开实施例的任一项所述的语音交互方法的步骤。

本公开实施例提供的语音交互方法、装置、电子设备及存储介质，在接收到语音唤醒指令后，启用用于传输交互音频信息的第一音频通道，以及，将当前启用的用于传输点播音频信息的第二音频通道设置为目标状态；其中，目标状态为关闭状态或者低音状态；在接收到交互音频指令后，查找与交互音频指令相匹配的交互音频信息，并将交互音频信息通过第一音频通道传输至播放端进行播放，本公开实施例能够基于不同的音频通道分别控制交互音频信息和点播音频信息的音量，提高了交互音频信息的识别效率，进而提高了人机交互的效率。

进一步，本公开实施例提供的语音交互方法、装置、电子设备及存储介质，还可以在检测到待播放的提示音频信息后，基于第一音频通道对应的音频信息传输优先级，确定提示音频信息和交互音频信息的传输顺序；并基于传输顺序，依次将提示音频信息和交互音频信息通过第一音频通道传输至播放端进行播放，这里，第一音频通道用于传输提示音频信息和交互音频信息，能够减少占用的音频通道的数量，提高第一音频通道的利用率，并且，基于第一音频通道对应的音频信息传输优先级，确定音频信息的传输顺序，能够提高第一音频通道音频信息的传输质量。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例提供的一种语音交互方法的流程图；

图2示出了本公开实施例提供的另一种语音交互方法的流程图；

图3示出了本公开实施例提供的另一种语音交互方法的流程图；

图4示出了本公开实施例提供的一种语音交互装置的结构示意图；

图5示出了本公开实施例提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

现阶段，用户使用智能电视的过程中，可以在观看电视节目的同时，与智能电视进行语音交互，获取智能电视反馈的语音交互内容，此时，受正在播放的电视节目的影响，用户很难对电视节目和语音交互内容进行区分，这将降低用户识别语音交互内容的效率，进而降低用户与智能电视的交互效率。

基于上述问题，本公开实施例提供了一种语音交互方法、装置、电子设备及存储介质，在接收到语音唤醒指令后，启用用于传输交互音频信息的第一音频通道，以及，将当前启用的用于传输点播音频信息的第二音频通道设置为目标状态；其中，目标状态为关闭状态或者低音状态；在接收到交互音频指令后，查找与交互音频指令相匹配的交互音频信息，并将交互音频信息通过第一音频通道传输至播放端进行播放，本公开实施例能够基于不同的音频通道分别控制交互音频信息和点播音频信息的音量，提高了交互音频信息的识别效率，进而提高了人机交互的效率。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

为了使得本领域技术人员能够使用本公开内容，结合特定应用场景“智能电视领域”，给出以下实施方式。对于本领域技术人员来说，在不脱离本公开的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本公开主要围绕“智能电视领域”进行描述，但是应该理解，这仅是一个示例性实施例。

下面将结合本公开中附图，对本公开中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种语音交互方法进行详细介绍。

如图1所示，为本公开实施例提供的语音交互方法的流程图，该语音交互方法包括以下步骤：

S101、在接收到语音唤醒指令后，启用用于传输交互音频信息的第一音频通道，以及，将当前启用的用于传输点播音频信息的第二音频通道设置为目标状态；其中，所述目标状态为关闭状态或者低音状态。

本公开实施例中，本公开实施例提供的语音交互方法的实施主体可以是智能电视、平板、手机、电脑等可以与用户进行语音交互的终端设备，下文以智能电视为例但不限于智能电视，其中，智能电视中可以至少包括两条音频通道，其中，第一音频通道可以用于传输交互音频信息，第二音频通道可以用于传输点播音频信息，比如，用户点播的电视剧的音频信息，并且，第一音频通道可以对应第一音量，第二音频通道可以对应第二音量，可以分别对第一音量和第二音量进行调节。

在智能电视播放点播音频信息时(未开启用户与智能电视之间的语音交互功能)，第一音频通道处于关闭状态，第二音频通道处于开启状态，在接收到语音唤醒指令后，可以开启用户与智能电视之间的语音交互功能，此时，可以将第一音频通道由关闭状态切换为开启状态，以及，可以将第二音频通道由开启状态切换为目标状态，以实现用户与智能电视之间的语音交互。

其中，第一音频通道对应有第一预设音量，可以将第一音频通道由关闭状态切换为开启状态时，也可以将第一音频通道对应的第一音量设置为第一预设音量，这里，第一预设音量可以为本地预存的音量，也可以为用户根据自身的需求选择的音量。

其中，目标状态为关闭状态或者低音状态，将第二音频通道由开启状态切换为目标状态具体包括：可以将第二音频通道由开启状态切换为关闭状态，或者，可以将第二音频通道由开启状态切换为低音状态，低音状态对应有第二预设音量，即可以将第二音频通道对应的第二音量设置为第二预设音量，进而，可以将点播音频信息通过第二音频通道传输至播放端以第二音量(第二预设音量)进行播放，这里，第二预设音量可以小于第一预设音量。

本公开实施例中，可以通过如下方式之一接收语音唤醒指令：

1、接收用户发送的特定的语音交互开启信息——该语音交互开启信息可以包括：如“开启语音交互功能”、“让我们聊天吧”。

2、检测到用户点击(例如：检测到长按操作)智能电视上的语音交互开启控制键。

3、检测到用户点击(例如：检测到长按、滑动操作)智能电视显示屏上的语音交互开启控件。

4、接收智能电视对应的遥控设备发送的语音唤醒指令。

S102、在接收到交互音频指令后，查找与所述交互音频指令相匹配的交互音频信息，并将所述交互音频信息通过所述第一音频通道传输至播放端进行播放。

本公开实施例中，本地可以预存交互音频指令与交互音频信息的对应关系，在接收到交互音频指令后，可以基于上述对应关系，查找交互音频指令对应的交互音频信息，并可以将查找到的交互音频信息通过所述第一音频通道传输至播放端进行播放，这里，播放端可以包括显示屏和音箱。

其中，交互音频信息可以包括交互语音信息和交互视频信息，可以将交互语音信息通过第一音频通道传输至智能电视的音箱以上述第一音量(第一预设音量)进行播放，可以将交互视频信息通过第一音频通道传输至智能电视的显示屏进行播放。

本公开实施例中，交互音频指令可以对应固定的交互音频信息，也可以对应动态的交互音频信息，比如，在接收到交互音频指令，诸如“你的显示屏是多大的尺寸呢”，之后，可以将与该交互音频指令相匹配的固定的交互音频信息，诸如“我的屏幕是55英寸呢”，通过第一音频通道传输至播放端进行播放，或者，在接收到交互音频指令，诸如“现在几点了”之后，可以将与该交互音频指令相匹配的动态的交互音频信息，诸如“当前时间下午三点整”，通过第一音频通道传输至播放端进行播放。

在本公开实施例中，在接收到交互音频指令后，可以执行所述交互音频指令对应的设备控制操作。具体地，实际中，在接收到交互音频指令后，智能电视中的处理器既要将与交互音频指令相匹配的交互音频信息反馈给用户，还要响应该交互音频指令，以执行对应的设备控制操作，比如，在接收到交互音频指令，诸如“调低显示屏亮度”后，可以将交互音频信息，诸如“亮度太低容易伤眼睛哦”通过第一音频通道传输至播放端进行播放，并响应上述交互音频指令，诸如“调低显示屏亮度”，以降低显示屏的亮度；又例如，在接收到交互音频指令，诸如“关闭智能电视”后，可以执行关机操作。

本公开实施例提供的语音交互方法，能够基于不同的音频通道分别控制交互音频信息和点播音频信息的音量，提高了交互音频信息的识别效率，进而提高了人机交互的效率。

进一步的，所述语音交互方法还可以包括：

本公开实施例中，在接收到语音关闭指令后，可以将第一音频通道由开启状态切换为关闭状态，可以将第二音频通道由目标状态切换为工作状态。

其中，可以将第二音频通道由目标状态切换为工作状态，包括：可以重新启用处于关闭状态的第二音频通道；或者，可以将所述第二音频通道由低音状态切换为预设音量状态。

具体的，当目标状态为关闭状态时，可以将第二音频通道由关闭状态切换为开启状态，并恢复第二音频通道对应的第二音量；当目标状态为低音状态时，可以恢复至第二音频通道对应的第二音量，或者，可以将第二音频通道对应的第二音量设置为第三预设音量，这里，第三预设音量可以为本地预存的音量。

本公开实施例中，可以通过如下方式之一接收语音关闭指令：

1、接收用户通过语音发送的特定的语音交互关闭信息，该语音交互关闭信息可以包括：比如，语音信息“关闭语音交互功能”、“让我们结束聊天吧”，该语音交互关闭信息被配置成指示生成语音关闭指令。

2、检测到用户点击(例如：检测到长按操作)智能电视上的语音交互关闭控制键后生成语音关闭指令。

3、检测到用户点击(例如：检测到长按、滑动操作)智能电视显示屏上的语音交互关闭控件后，生成语音关闭指令。

4、当接收到所述交互音频指令后开始计时，在经过预设时间间隔后，确定在所述预设时间间隔内未接收到下一个交互音频指令，生成语音关闭指令。例如，智能电视接收到了音频交互指令后开始计时，等待10分钟后，判断在这10分钟之内未收到新的音频交互指令，则智能电视可以生成语音关闭指令，以指示智能电视关闭所述第一音频通道以及将所述第二音频通道由所述目标状态切换为工作状态，或进行其他相应操作。。

进一步的，在接收到语音唤醒指令后，所述方法还可以包括：

可以查找与所述语音唤醒指令相匹配的交互音频信息，并可以将所述交互音频信息通过所述第一音频通道传输至播放端进行播放。

本公开实施例中，在接收到语音唤醒指令后，可以将与语音唤醒指令相匹配的交互音频信息通过第一音频通道传输至播放端进行播放。

作为本公开示例性的实施方式，本地可以预存有语音唤醒指令对应的交互音频信息，在接收到语音唤醒指令后，可以将上述交互音频信息通过第一音频通道传输至播放端进行播放。

比如，本地预存有语音唤醒指令对应的交互音频信息，例如：音频信息“很开心与你聊天”，在接收到语音唤醒指令后，可以播放交互音频信息，例如：音频信息“很开心与你聊天”。

进一步的，如图2所示，所述第一音频通道还可以用于传输提示音频信息，在启用第一音频通道后，所述方法还可以包括：

S201、若检测到待播放的提示音频信息，则基于所述第一音频通道对应的音频信息传输优先级，确定所述提示音频信息和所述交互音频信息的传输顺序。

S202、基于所述传输顺序，依次将所述提示音频信息和所述交互音频信息通过所述第一音频通道传输至播放端进行播放。

结合步骤201和步骤202，第一音频通道可以用于传输提示音频信息和交互音频信息，在智能电视与用户进行语音交互的过程中，若检测到待播放的提示音频信息，可以获取该待播放的提示音频信息对应的第一传输时间范围，以及，可以获取待播放的交互音频信息对应的第二传输时间范围，若上述第一传输时间范围与第二传输时间范围相交，则可以基于第一音频通道对应的音频信息传输优先级，确定上述待播放的提示音频信息和上述待播放的交互音频信息的传输顺序，并可以根据上述传输顺序，依次将上述待播放的提示音频信息和上述待播放的交互音频信息通过第一音频通道传输至播放端进行播放；若上述第一传输时间范围与第二传输时间范围不相交，则可以分别在第一传输时间范围内传输上述待播放的提示音频信息，在第二传输时间范围内传输上述待播放的交互音频信息。

比如，待播放的提示音频信息对应的第一传输时间范围为2020年3月31日11点30分00秒至2020年3月31日11点30分05秒，待播放的交互音频信息对应的第二传输时间范围为2020年3月31日11点30分03秒至2020年3月31日11点30分10秒，可以看出待播放的提示音频信息对应的第一传输时间范围与所述待播放的交互音频信息对应的第二传输时间范围有相交的部分，则可以根据第一音频通道对应的音频信息传输优先级，依次通过第一音频通道传输上述待播放的提示音频信息和上述待播放的交互音频信息。

进一步的，如图3所示，所述第一音频通道还用于传输提示音频信息，在关闭第一音频通道后，所述方法还包括：

S301、若检测到待播放的提示音频信息，则启用第一音频通道，以及，将当前启用的第二音频通道设置为目标状态。

本公开实施例中，第一音频通道可以用于传输提示音频信息和交互音频信息，未开启用户与智能电视之间的语音交互功能时，第一音频通道处于关闭状态，第二音频通道处于开启状态，在检测到待播放的提示音频信息后，可以将第一音频通道由关闭状态切换为开启状态，将第二音频通道由开启状态切换为目标状态。

其中，第一音频通道对应有第一预设音量，可以将第一音频通道由关闭状态切换为开启状态时，将第一音频通道对应的第一音量设置为第一预设音量，这里，第一预设音量可以为本地预存的音量，也可以为用户根据自身的需求选择的音量。

其中，目标状态可以为关闭状态或者低音状态，将第二音频通道由开启状态切换为目标状态具体可以包括：将第二音频通道由开启状态切换为关闭状态，或者，将第二音频通道由开启状态切换为低音状态，低音状态对应有第二预设音量，即将第二音频通道对应的第二音量设置为第二预设音量，进而，可以将点播音频信息通过第二音频通道传输至播放端以第二音量(第二预设音量)进行播放，这里，第二预设音量小于第一预设音量。

S302、将所述提示音频信息通过所述第一音频通道传输至播放端进行播放，并在所述提示音频信息播放完成后，关闭第一音频通道，以及，将第二音频通道由目标状态切换为工作状态。

本公开实施例中，可以将提示音频信息通过第一音频通道传输至播放端进行播放，每个提示音频信息均对应有播放时长，在经过播放时长后，可以将第一音频通道从开启状态切换为关闭状态，以及，将第二音频通道从目标状态切换为工作状态。

其中，将第二音频通道由目标状态切换为工作状态，可以包括：重新启用处于关闭状态的第二音频通道；或者，将所述第二音频通道由低音状态切换为预设音量状态。

具体的，当目标状态为关闭状态时，可以将第二音频通道由关闭状态切换为开启状态，并恢复第二音频通道对应的第二音量；当目标状态为低音状态时，恢复第二音频通道对应的第二音量，或者，可以将第二音频通道对应的第二音量设置为第三预设音量，这里，第三预设音量为本地预存的音量。

其中，提示音频信息可以包括提示语音信息和提示视频信息，可以将提示语音信息通过第一音频通道传输至智能电视的音箱以上述第一音量(第一预设音量)进行播放，可以将提示视频信息通过第一音频通道传输至智能电视的显示屏进行播放。

基于同一发明构思，本公开实施例中还提供了与语音交互方法对应的语音交互装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述语音交互方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4所示，图4为本公开实施例提供的一种语音交互装置的结构示意图，该语音交互装置包括：

第一设置模块401，用于在接收到语音唤醒指令后，启用用于传输交互音频信息的第一音频通道，以及，将当前启用的用于传输点播音频信息的第二音频通道设置为目标状态；其中，所述目标状态为关闭状态或者低音状态；

查找模块402，用于在接收到交互音频指令后，查找与所述交互音频指令相匹配的交互音频信息；

第一传输模块403，用于将所述交互音频信息通过所述第一音频通道传输至播放端进行播放。

在本公开的实施方式中，所述语音交互装置还包括：

在本公开实施方式中，所述语音交互装置还包括：

第二传输模块，用于查找与所述语音唤醒指令相匹配的交互音频信息，并将所述交互音频信息通过所述第一音频通道传输至播放端进行播放。

在本公开实施方式中，所述第一音频通道还用于传输提示音频信息，所述语音交互装置还包括：

确定模块，用于若检测到待播放的提示音频信息，则基于所述第一音频通道对应的音频信息传输优先级，确定所述提示音频信息和所述交互音频信息的传输顺序；

第三传输模块，用于基于所述传输顺序，依次将所述提示音频信息和所述交互音频信息通过所述第一音频通道传输至播放端进行播放。

第三设置模块，用于若检测到待播放的提示音频信息，则启用第一音频通道，以及，将当前启用的第二音频通道设置为目标状态；

第四传输模块，用于将所述提示音频信息通过所述第一音频通道传输至播放端进行播放；

第四设置模块，用于在所述提示音频信息播放完成后，关闭第一音频通道，以及，将第二音频通道由目标状态切换为工作状态。

在本公开实施方式中，第二设置模块将第二音频通道由目标状态切换为工作状态，或者，第四设置模块将第二音频通道由目标状态切换为工作状态，包括：

重新启用处于关闭状态的第二音频通道；

或者，

将所述第二音频通道由低音状态切换为预设音量状态。

本公开实施例提供的语音交互装置，能够基于不同的音频通道分别控制交互音频信息和点播音频信息的音量，提高了交互音频信息的识别效率，进而提高了人机交互的效率。

参见图5所示，图5为本公开实施例提供的一种电子设备500，该电子设备500包括：处理器501、存储器502和总线，所述存储器502存储有所述处理器501可执行的机器可读指令，当电子设备运行时，所述处理器501与所述存储器502之间通过总线通信，所述处理器501执行所述机器可读指令，以执行如上述语音交互方法的步骤。

具体地，上述存储器502和处理器501能够为通用的存储器和处理器，这里不做具体限定，当处理器501运行存储器502存储的计算机程序时，能够执行上述语音交互方法。

对应于上述语音交互方法，本公开实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述语音交互方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

工业实用性

本公开实施例提供了一种语音交互方法、装置、电子设备及存储介质，由于本公开实施例的语音交互装置包含了两种音频通道，能够基于不同的音频通道分别控制交互音频信息和点播音频信息的音量，提高了交互音频信息的识别效率，进而提高了人机交互的效率。

Claims

一种语音交互方法，其特征在于，所述方法包括：

在接收到语音唤醒指令后，启用用于传输交互音频信息的第一音频通道，以及，将当前启用的用于传输点播音频信息的第二音频通道设置为目标状态；其中，所述目标状态为关闭状态或者低音状态；

在接收到交互音频指令后，查找与所述交互音频指令相匹配的交互音频信息，并将所述交互音频信息通过所述第一音频通道传输至播放端进行播放。
根据权利要求1所述的语音交互方法，其特征在于，所述方法还包括：

在接收到语音关闭指令后，关闭所述第一音频通道，以及，将所述第二音频通道由所述目标状态切换为工作状态。
根据权利要求1或2所述的语音交互方法，其特征在于，在接收到所述语音唤醒指令后，所述方法还包括：

查找与所述语音唤醒指令相匹配的交互音频信息，并将所述交互音频信息通过所述第一音频通道传输至所述播放端进行播放。
根据权利要求1至3任一项所述的语音交互方法，其特征在于，所述第一音频通道还用于传输提示音频信息，在启用所述第一音频通道后，所述方法还包括：

若检测到待播放的提示音频信息，则基于所述第一音频通道对应的音频信息传输优先级，确定所述提示音频信息和所述交互音频信息的传输顺序；

基于所述传输顺序，依次将所述提示音频信息和所述交互音频信息通过所述第一音频通道传输至所述播放端进行播放。
根据权利要求4所述的语音交互方法，其特征在于，所述基于所述第一音频通道对应的音频信息传输优先级，确定所述提示音频信息和所述交互音频信息的传输顺序，之前包括：

确定所述待播放的提示音频信息对应的第一传输时间范围与所述交互音频信息对应的第二传输时间范围相交。
根据权利要求1至5任一项所述的语音交互方法，其特征在于，所述第一音频通道还用于传输提示音频信息，在关闭所述第一音频通道后，所述方法还包括：

若检测到待播放的提示音频信息，则启用所述第一音频通道，以及，将当前启用的第二音频通道设置为目标状态；

将所述提示音频信息通过所述第一音频通道传输至所述播放端进行播放，并在所述提示音频信息播放完成后，关闭所述第一音频通道，以及，将所述第二音频通道由所述目标状态切换为工作状态。
根据权利要求2至6任一项所述的语音交互方法，其特征在于，所述将第二音频通道由所述目标状态切换为工作状态，包括：

重新启用处于关闭状态的第二音频通道；

或者，

将所述第二音频通道由低音状态切换为预设音量状态。
根据权利要求1至7任一项所述的语音交互方法，其特征在于，所述语音唤醒指令至少包括以下之一：

基于用户发送的语音交互开启信息生成的语音唤醒指令；

基于语音交互开启控制键被点击而生成的语音唤醒指令；

基于语音交互开启控件被点击而生成的语音唤醒指令；

遥控设备发送的语音唤醒指令。
根据权利要求1至8任一项所述的语音交互方法，其特征在于，所述语音关闭指令至少包括以下之一：

基于用户通过语音发送的语音交互关闭信息生成的语音关闭指令；

基于语音交互关闭控制键被点击而生成的语音关闭指令；

基于语音交互关闭控件被点击而生成的语音关闭指令；

基于预设时间间隔内未接收到下一个交互音频指令而生成的语音关闭指令。
根据权利要求9所述的语音交互方法，其特征在于，所述预设时间间隔内未接收到下一个交互音频指令，包括：

当接收到所述交互音频指令后开始计时，在经过预设时间间隔后，确定在所述预设时间间隔内未接收到下一个交互音频指令。
根据权利要求1至10任一项所述的语音交互方法，其特征在于，所述方法还包括：在接收到所述交互音频指令后，执行所述交互音频指令对应的设备控制操作。
一种语音交互装置，其特征在于，所述装置包括：

第一设置模块，用于在接收到语音唤醒指令后，启用用于传输交互音频信息的第一音频通道，以及，将当前启用的用于传输点播音频信息的第二音频通道设置为目标状态；其中，所述目标状态为关闭状态或者低音状态；

查找模块，用于在接收到交互音频指令后，查找与所述交互音频指令相匹配的交互音频信息；

第一传输模块，用于将所述交互音频信息通过所述第一音频通道传输至播放端进行播放。
根据权利要求12所述的语音交互装置，其特征在于，所述装置还包括：

第二设置模块，用于在接收到语音关闭指令后，关闭所述第一音频通道，以及，将所述第二音频通道由目标状态切换为工作状态。
一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至11任一项所述的语音交互方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至11任一项所述的语音交互方法的步骤。