WO2024149352A1

WO2024149352A1 - 语音交互方法、装置及相关设备

Info

Publication number: WO2024149352A1
Application number: PCT/CN2024/071940
Authority: WO
Inventors: 付济强; 刘生华; 王文兵
Original assignee: 杭州灵伴科技有限公司
Priority date: 2023-01-12
Filing date: 2024-01-12
Publication date: 2024-07-18
Also published as: CN116030810A

Abstract

本申请提供了一种语音交互方法、装置及相关设备，其中所述方法包括：基于增强现实设备的音频采集单元获取用户的语音指令；确定与所述增强现实设备连接的目标设备的类型；在所述目标设备为第一类型时，确定对所述语音指令的目标响应模式为第一响应模式；在所述目标设备为第二类型或未检测到目标设备时，确定对所述语音指令的目标响应模式为第二响应模式；采用所述目标响应模式，对所述语音指令进行响应。为实现增强现实设备在不连接目标设备，或连接不同目标设备的场景下都能正常进行语音交互提供了技术支持。

Description

语音交互方法、装置及相关设备

相关申请的交叉引用

本申请要求于2023年1月12日提交中国专利局，申请号为202310096785.6的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音交互领域，尤其涉及一种语音交互方法、装置及相关设备。

背景技术

通常，增强现实设备用做显示或采集传感器数据，多数情况下需能连接到与增强现实设备适配的终端设备才能使用。

发明内容

本申请提供了一种语音交互方法、装置及相关设备，以至少解决现有技术中存在的以上技术问题。

根据本申请的第一方面，提供了一种语音交互方法，所述方法包括：

基于增强现实设备的音频采集单元获取用户的语音指令；

确定与所述增强现实设备连接的目标设备的类型；

在所述目标设备为第一类型时，确定对所述语音指令的目标响应模式为第一响应模式；

在所述目标设备为第二类型或未检测到目标设备时，确定对所述语音指令的目标响应模式为第二响应模式；

采用所述目标响应模式，对所述语音指令进行响应。

上述方案中，所述采用所述目标响应模式，对所述语音指令进行响应，包括：

在所述目标响应模式为第一响应模式时，将所述语音指令交由所述目标设备响应；

在所述目标响应模式为第二响应模式时，基于所述语音指令的类型，确定由所述增强现实设备和所述目标设备中的其中之一进行响应。

上述方案中，所述基于所述语音指令的类型，确定由所述增强现实设备和所述目标设备中的其中之一进行响应，包括：

在所述语音指令为第一类型指令时，由所述增强现实设备对所述语音指令进行响应；

在所述语音指令为第二类型指令时，将所述语音指令交由所述目标设备响应。

上述方案中，所述在所述语音指令为第二类型指令时，将所述语音指令交由所述目标设备响应，包括：

在所述语音指令为第二类型指令时，将所述语音指令转换成目标类型指令，将所述目标类型指令交由所述目标设备响应。

上述方案中，所述音频采集单元用于对目标语音数据进行采集，所述目标语音数据包括语音指令；

所述方法还包括：

通过确定所述目标语音数据中是否存在语音指令而获取所述语音指令；

和/或，将所述目标语音数据交由所述目标设备。

上述方案中，所述通过确定所述目标语音数据中是否存在语音指令而获取所述语音指令；和/或，将所述目标语音数据交由所述目标设备，包括：

将所述目标语音数据进行降噪处理，得到降噪后的目标语音数据；

通过确定所述降噪后的目标语音数据中是否存在语音指令而获取所述语音指令；

和/或，将所述降噪后的目标语音数据交由所述目标设备。

上述方案中，所述通过确定所述降噪后的目标语音数据中是否存在语音指令而获取所述语音指令；和/或，将所述降噪后的目标语音数据交由所述目标设备，包括：

基于降噪后的目标语音数据，得到第一目标语音数据和第二目标语音数据；

通过确定所述第一目标语音数据中是否存在语音指令而获取所述语音指令；

和/或，将所述第二目标语音数据交由所述目标设备。

根据本申请的第二方面，提供了一种语音交互装置，所述装置包括：

获取单元，用于基于增强现实设备的音频采集单元获取用户的语音指令；

第一确定单元，用于确定与所述增强现实设备连接的目标设备的类型；

第二确定单元，用于在所述目标设备为第一类型时，确定对所述语音指令的目标响应模式为第一响应模式；

第三确定单元，用于在所述目标设备为第二类型或未检测到目标设备时，确定对所述语音指令的目标响应模式为第二响应模式；

响应单元，用于采用所述目标响应模式，对所述语音指令进行响应。

根据本申请的第三方面，提供了一种增强现实设备，所述增强现实设备至少包括本申请所述的语音交互装置。

根据本申请的第四方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请所述的方法。

本申请中，基于增强现实设备的音频采集单元获取用户的语音指令，确定与增强现实设备连接的目标设备的类型，在目标设备为第一类型时，确定对语音指令的目标响应模式为第一响应模式；在目标设备为第二类型或未检测到目标设备时，确定对语音指令的目标响应模式为第二响应模式，采用目标响应模式，对语音指令进行响应。为实现增强现实设备在不连接目标设备，或连接不同目标设备的场景下都能正常进行语音交互提供了技术支持。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本申请实施例语音交互方法的实现流程示意图。

图2示出了本申请实施例不同目标响应模式的实现流程示意图一。

图3示出了本申请实施例不同目标响应模式的实现流程示意图二。

图4示出了本申请实施例增强现实设备端数据流示意图。

图5示出了本申请实施例中语音交互装置的组成结构示意图。

图6示出了本申请实施例一种电子设备的组成结构示意图。

具体实施方式

为使本申请的目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

相关技术中，增强现实设备仅能和与其适配的终端设备进行通信，无法体现增强现实设备的灵活性和多功能性。

可以理解，增强现实(AR，Augmented Reality)设备是现在主流的可穿戴式设备，智能语音交互作为增强现实设备的主流交互方式，可以做到解放双手，轻松快速的完成对增强现实设备的输入或操控。考虑到外观、佩戴、功耗、发热等因素影响，增强现实设备通常不作为复杂计算单元，仅用作显示(投影)及传感器数据采集功能(如图像、音频、惯性测量单元等)。基于此，增强现实设备只能通过有线或无线的方式连接到与之适配的终端设备，将采集到的传感器数据交给终端设备做算法计算。如果能够实现增强现实设备在不连接终端设备或连接其他终端设备时也可以正常进行语音交互，势必会扩大增强现实设备的功能性。如此，可以为增强现实设备在日常生活中的广泛应用奠定基础。

本申请实施例的技术方案涉及到语音交互的方案，增强现实设备可与不同类型的目标设备连接进行语音交互，也可以在不连接目标设备的情况下进行语音交互，体现了增强现实设备的多功能性和灵活性。基于获取到的语音指令和与增强现实设备连接的目标设备类型，即可采用不同的目标响应模式对语音指令进行响应。为实现增强现实设备在不连接目标设备，或连接不同目标设备的场景下都能正常进行语音交互提供了技术支持，扩大了增强现实设备的使用场景。

下面对本申请实施例的语音交互方法做详细说明。

本申请实施例提供一种语音交互方法，如图1所示，所述方法包括：

S101：基于增强现实设备的音频采集单元获取用户的语音指令。

本步骤中，增强现实设备为可以进行AR交互的电子设备。增强现实设备可以为智能穿戴设备，包括但不限定于智能眼镜、智能手表。本申请中，以增强现实设备为分体式AR眼镜为例进行说明。

增强现实设备包括音频采集单元，如麦克风。本步骤中，通过麦克风对用户向增强现实设备发出的语音指令进行采集的方式，而获取用户的语音指令。

可以理解，麦克风包含有麦克风阵列传感器(MicArray)，用于采集用户向增强现实设备发出的语音指令。

在实际应用中，用户可以在增强现实设备不被使用时，向增强现实设备发出语音指令。如，在增强现实设备处于黑屏时，向其发出诸如“请亮屏”的语音指令或“请关机”的语音指令。

用户还可以在增强现实设备被使用时，如利用增强现实设备投放电影或播放歌曲等音频时，向增强现实设备发出语音指令。即，在利用增强现实设备输出多媒体数据的情况下，基于增强现实设备的音频采集单元获取用户的语音指令。

可以理解，增强现实设备通常会在进行AR交互的过程中输出一些多媒体数据，如图像、音频等。增强现实设备在与目标设备连接的情况下，可以将目标设备中的视频投影至增强现实设备进行输出，如将目标设备中的电影投影至增强现实设备进行输出。在这种情况下，多媒体数据可指目标设备中可被AR设备进行投影的视频。还可以，将目标设备中的音频通过增强现实设备进行输出，如通过增强现实设备接听通话语音或语音电话。这种情况下，多媒体数据可指目标设备中可被AR设备进行输出的音频。

即，在与目标设备进行连接的情况下，本申请中的增强现实设备作为代替目标设备进行音视频输出的设备。这种代替方案主要考虑到，在某些应用场景中，采用目标设备作为音视频输出设备远没有采用增强现实设备作为音视频输出设备方便、输出效果好。如，在投影的应用场景中，通过增强现实设备对目标设备中的可投影视频进行投影，可令增强现实设备的佩戴者感受到身临其境的效果。还如，在一些接听环境拥挤的场景中，如地铁的早晚高峰情形中，由于地铁中的拥挤不方便接听目标设备的来电，可通过佩戴的分体式AR眼镜进行来电的接听。分体式AR眼镜可内置在佩戴者佩戴的普通眼镜上，通过分体式AR眼镜进行来电接听，可避免在拥挤环境中无法从口袋中掏出手机接听来电情况的发生。

用户可在需要的情形下，向增强现实设备发出语音指令。增强现实设备，具体是麦克风采集语音指令。

示例性地，在增强现实设备为分体式AR眼镜的情况下，假定当前场景为用户使用分体式AR眼镜进行音视频播放，此时分体式AR眼镜输出的多媒体数据为用户播放的音视频信息，当用户发出语音指令“调高音量”，通过麦克风采集用户发出的这一语音指令即可获取到针对音视频播放的语音指令，以通过对语音指令的响应，提高当前音视频播放的音量。

S102：确定与所述增强现实设备连接的目标设备的类型。

本步骤中，目标设备可以是任何与增强现实设备进行语音交互的设备。如智能手机、电脑、个人数字助理等设备。本申请中的增强现实设备连接的目标设备可以是不同类型的终端。如目标设备是自研终端，即，与增强现实设备相适配的终端。可以理解，增强现实设备在被厂商生产出来之后，通常都会有厂家生产的与该增强现实设备相适配的自研终端。该自研终端可以理解为一个没有显示屏幕或显示屏幕较小，但具有计算能力的正常大小的终端。通过将增强现实设备与适配的自研终端连接来实现增强现实设备的智能语音交互功能。

目标设备也可以是其他类型终端，如第三方手机、或者第三方电脑。本申请中，通过将增强现实设备与其他类型终端连接来实现增强现实设备的智能语音交互功能。示例性地，当增强现实设备为分体式AR眼镜时，分体式AR眼镜可以和与其适配的终端进行连接，还可以和第三方终端进行连接。本申请中，无论是和与其适配的终端进行连接，还是和第三方终端进行连接，分体式AR眼镜均可和与分体式AR眼镜连接的设备进行智能语音交互。

在实际应用中，语音交互作为增强现实设备主流的交互方式，通常受限在自研终端上。即，用户要想使用增强现实设备，就得购买与之适配的自研终端才可以正常进行语音交互。在这种情况下，一方面，用户在已具备移动手机情况下，出于成本和便携性考虑，不会再额外购买适配的终端。另一方面，增强现实设备在接入个人电脑(PC，Personal Computer)场景下，PC作为计算单元，也不会再接入终端。在前述两个场景下增强现实设备的语音交互功能就会变的不可用，大大限制了语音交互在AR眼镜下的使用场景。

本申请中，增强现实设备可接入不同类型的终端，并通过确定与增强现实设备连接的目标设备的类型，实现增强现实设备的语音交互功能。增强现实设备也可以不接入任何类型的终端，通过自身语音指令控制应用实现一些基础的语音交互功能，如调节音量、调节亮度等。

在实际应用中，增强现实设备可接入不同类型的终端，也可以不接入任何终端，使得用户可以选择只购买增强现实设备，不用再去购买与之适配的自研终端，直接与自己的手机或者电脑进行连接也可以实现增强现实设备的语音交互功能。

S103：在所述目标设备为第一类型时，确定对所述语音指令的目标响应模式为第一响应模式。

本申请中，增强现实设备可接入或连接不同类型的终端，增强现实设备连接的目标设备类型不同，对语音指令的响应模式也会有所不同。

本申请中目标设备的类型包括第一类型和第二类型，第一类型为内部包含语音关键词检测技术服务的终端，如前述的自研终端。第二类型为内部不包含语音关键词检测技术服务的终端，如前述的第三方手机端、电脑端等终端。

示例性地，假定增强现实设备连接的目标设备为前述的自研终端，那与之对应的对语音指令的目标响应模式可以为模式A(第一响应模式)。假定增强现实设备连接的目标设备为前述的其它类型终端(第三方手机端、电脑端等)，那与之对应的对语音指令的目标响应模式可以为模式B(第二响应模式)。

在实施时，增强现实设备对自身是否连接有目标设备进行识别。如果没有连接设备，则确定对所述语音指令的目标响应模式为第二响应模式。如果连接有设备，获得所连接的设备的标识，基于所连接设备的标识，确定其所连接的设备为第一类型还是为第二类型。如果所连接的设备的标识为标识A，且标识A是表征第一类型的设备的标识，则确定其所连接的设备为第一类型。如果所连接的设备的标识为标识B，且标识B是表征第二类型的设备的标识时，确定其所连接的设备为第二类型。

本申请中，基于与增强现实设备连接的终端是与增强现实设备适配的终端，还是不与增强现实设备适配的第三方终端，预先设置有两种响应模式。其中一种是在与增强现实设备连接的终端是与增强现实设备适配的终端时使用的模式。另一种是在与增强现实设备连接的终端是第三方终端时使用的模式。预先将两种不同类型终端和各类型终端下需要使用的模式设置为一种对应关系。在实施时，基于与增强现实设备连接的终端的类型，在对应关系中查找该类型终端对应的模式，作为对语音指令进行响应的目标响应模式。

S104：在所述目标设备为第二类型或未检测到目标设备时，确定对所述语音指令的目标响应模式为第二响应模式。

由于第二类型的目标设备是不包含语音关键词检测技术服务的终端，因此为保证增强现实设备在接入第二类型的目标设备时仍能进行语音交互，本申请增强现实设备中需运用语音关键词检测技术服务，来实现增强现实设备在连接第二类型目标设备时的正常语音交互。同时，由于本申请增强现实设备中包括语音关键词检测技术服务，因此当增强现实设备没有与目标设备进行连接，即未检测到目标设备时，增强现实设备也可以采用对应的目标响应模式进行基础的语音交互，如调节亮度、调节音量等。

本申请中，在增强现实设备中部署一种低功耗的语音关键词检测技术服务，在不明显增加增强现实设备的功耗或发热的情况下，借助低功耗语音关键词检测技术服务，完成对语音指令的识别。

通过对不同类型的终端实施不同的目标响应模式，满足了增强现实设备在接入不同类型终端下均能保持语音交互的能力。

S105：采用所述目标响应模式，对所述语音指令进行响应。

通过连接的目标设备类型的不同，采用不同的目标响应模式对语音指令进行响应，即采用不同的目标响应模式，分析语音指令是何种指令并对该种指令进行处理。示例性地，分析语音指令是“提高音量”的语音指令，调高增强现实设备的输出音量。分析语音指令是“降低屏幕亮度”的指令，将增强现实设备的屏幕亮度降低。以实现语音指令对应的操作。

在S101～S105所示的方案中，增强现实设备不仅可与适配的终端以及第三方终端进行通信，还可以在不接入任何终端的情况下进行语音交互。体现了增强现实设备的灵活性和多功能性。

且本申请中，可基于与增强现实设备连接的目标设备的类型，确定目标响应模式，并利用目标响应模式，实现对语音指令的响应。基于与增强现实设备连接的目标设备类型，即可采用不同的目标响应模式对语音指令进行响应。实现了增强现实设备在接入不同类型终端的情况下保持语音交互能力。为实现增强现实设备在连接不同目标设备的场景下都能正常进行语音交互提供了技术支持。

在一个可选的方案中，所述采用所述目标响应模式，对所述语音指令进行响应，包括：

其中，语音指令的类型表征该语音指令是由增强现实设备进行响应的指令类型、或由目标设备进行响应的指令类型。

如图2所示，本申请中，涉及到的响应主体主要有两类：目标设备和增强现实设备。增强现实设备主要包含语音关键词检测技术服务和语音指令控制应用。当目标响应模式为第一响应模式，即基于增强现实设备连接的目标设备类型为第一类型如自研终端而确定目标响应模式为第一响应模式时，语音指令交由目标设备的操作系统进行全语音控制。当目标响应模式为第二响应模式，即基于增强现实设备连接的目标设备类型为第二类型如第三方手机或电脑、或者未检测到目标设备而确定目标响应模式为第二响应模式时，将语音指令转化为Event Id通知给增强现实设备中的语音指令控制应用，语音指令控制应用判断指令是否为增强现实设备自身控制指令。如果指令为增强现实设备自身控制指令，则由语音指令控制应用对语音指令进行响应，如音量调节、亮度调节等。如果语音指令为目标设备控制的指令，则将Event Id转化为通用键盘(USB KeyBoard，UniversalSerialBus KeyBoard)协议Id，将USB KeyBoard Id交由目标设备，由目标设备对语音指令进行响应。

具体的，如图3所示，增强现实设备的语音关键词检测技术服务处于运行状态，由语音关键词检测技术服务判断与增强现实设备连接的目标设备为第一类型还是为第二类型。通过判断接入的目标设备类型，采取不同的目标响应模式。当目标响应模式为第一响应模式，即基于增强现实设备连接的目标设备类型为第一类型如自研终端而确定目标响应模式为第一响应模式时，增强现实设备中的语音关键词检测技术服务进入休眠状态，语音指令交由目标设备的操作系统进行全语音控制。示例性地，假设增强现实设备连接的目标设备为自研终端，由于自研终端里面包含有语音关键词检测技术服务，通常在自研终端上有预定义好的语音指令集，如调高音量指令是为了对多媒体数据的声音进行调节、增加亮度指令是为了对屏幕的显示亮度进行调节、模式切换指令是为了对多媒体数据的显示模式进行调节，如从普通模式调节到3D模式，或从3D模式调节到普通模式等。

在用户发出对应的语音指令后，增强现实设备判断接入的目标设备为自研终端，可将增强现实设备采集的语音指令交由目标设备的操作系统进行全语音控制。自研终端上运行的语音关键词检测技术服务将语音指令交给自研终端。自研终端、具体是应用处理单元响应语音指令，执行对应于语言指令的操控动作，如声音调节、亮度调节、模式切换等。

在增强现实设备获取到的语音指令为对增强现实设备输出的多媒体数据的声音进行调节的(声音调节)指令，如果与增强现实设备连接的目标设备是与增强现实设备适配的自研终端，则将声音调节指令交由自研终端处理，以通过自研终端实现对增强现实设备输出的多媒体数据的声音的调节。

在增强现实设备获取到的语音指令为对增强现实设备输出的多媒体数据的显示亮度进行调节的指令，如果与增强现实设备连接的目标设备是与增强现实设备适配的自研终端，则将显示亮度调节指令交由自研终端处理，以通过自研终端实现对增强现实设备屏幕的显示亮度的调节。

在增强现实设备获取到的语音指令为对增强现实设备输出的多媒体数据的显示模式进行调节的指令，如果与增强现实设备连接的目标设备是与增强现实设备适配的自研终端，则将显示模式调节指令交由自研终端处理，以通过自研终端实现对增强现实设备输出的多媒体数据的显示模式的调节。

当目标响应模式为第二响应模式，即基于增强现实设备连接的目标设备类型为第二类型如第三方手机或电脑、或未检测到目标设备而确定目标响应模式为第二响应模式时，增强现实设备的语音关键词检测技术服务保持运行。

在一个可选的方案中，所述在所述目标响应模式为第二响应模式时，基于所述语音指令的类型，确定由所述增强现实设备和所述目标设备中的其中之一进行响应，包括：

本申请中，在目标响应模式为第二响应模式的情况下，语音指令也包括两种类型，第一类型指令为增强现实设备可以响应的指令，如前述的声音调节指令、显示亮度调节指令及显示模式调节指令等。第二类型指令为增强现实设备无法响应、但目标设备可以响应的指令，如“返回上一步”指令、“确定”指令及“主菜单”指令等等。

本申请中，在目标响应模式为第二响应模式的情况下，如果语音指令是诸如声音调节指令、显示亮度调节指令及显示模式调节指令等增强现实设备可以响应的指令，则由增强现实设备对语音指令进行响应。如果语音指令是诸如“返回上一步”指令、“确定”指令及“主菜单”指令等，则将语音指令交由目标设备进行响应。

基于此，本申请中，在第二响应模式下，根据语音指令类型的不同，由不同的响应主体对语音指令进行响应的方案，可避免语音指令全部为响应主体中的其中之一进行响应而导致的负担过重的问题。本申请中，不同类型的语音指令由不同的响应主体进行响应，在工程上易于实施，具有很高的可行性。

在一个可选的方案中，所述在所述语音指令为第二类型指令时，将所述语音指令交由所述目标设备响应，包括：

本申请中，如果语音指令为增强现实设备无法响应、但目标设备可以响应的指令，则需要将语音指令转化为目标设备可以识别或者响应的类型，进而实现对语音指令的响应。

示例性地，假设增强现实设备连接的目标设备为第三方手机或电脑端，当增强现实设备中的语音关键词检测技术服务识别到语音指令后，将语音指令转化为Event Id通知给增强现实设备中的语音指令控制应用，语音指令控制应用在收到指令Event Id后，将指令Event Id与预先定义的指令功能对应的编号进行对应，根据对应的编号代表的预定义的指令功能做出对应的反馈。其中，预定义的指令功能为预先定义的指令集中不同编号代表的指令功能，如编号1代表声音增大功能，编号2代表亮度增大功能，编号3代表模式切换功能等。

当指令Event Id对应的指令为第一类型指令，即当指令Event Id与为增强现实设备预定义的指令功能对应的编号存在对应关系，也就是说指令Event Id对应的指令为增强现实设备可以响应的自身控制相关指令，如声音调节、亮度调节、显示切换、模式切换等与增强现实设备硬件相关的指令时，语音指令控制应用直接通过系统应用程序编程接口(API，Application Programming Interface)完成对应的控制操作。当指令Event Id对应的指令为第二类型指令，即当指令Event Id与为目标设备预定义的指令功能对应的编号存在对应关系，也就是说当指令Event Id对应的指令为需要目标设备进行响应的指令时，通过将指令Event Id转化为USB KeyBoard协议Id发送给接入的目标设备。目标设备对USB KeyBoard协议Id进行响应，执行对增强现实设备输出的多媒体数据的操作。示例性地，将指令“返回上一步”定义为目标设备的键盘“F1”键，当用户点击“F1”键时，增强现实设备输出的多媒体数据就会返回上一步操作。或者将“主菜单”定义为目标设备的键盘“F2”键，当用户点击“F2”键时，增强现实设备就会弹出主菜单界面。或者还可以将“确认”定义为目标设备的键盘“enter”键，当用户点击“enter”键时就可以进行确认操作。

本申请中的增强现实设备的前述执行过程可由设置在增强现实设备中的高性能专用芯片来实现，高性能专用芯片的设置可提升计算效率，实现对语音指令的快速响应。此外，本申请中，采用低功耗语音关键词检测技术服务，具有所需算力低、资源消耗少等显著优势。在不明显增加功耗的情况下，赋予了增强现实设备AR能力，极大程度提升了增强现实设备自身控制能力。再有，语音指令可定制、可扩展，弥补了通过按键控制的不足之处。借助通用的USB KeyBoard协议，增强现实设备将识别到的语音指令转化为目标设备可识别或响应的目标类型，将目标设备对语音指令的响应看做是用户操作(如前述的目标设备的键盘“F1”键、目标设备的键盘“F2”键以及目标设备的键盘“enter”键等)按键而对语音指令执行的响应。这种方案相当于将增强现实设备作为目标设备的控制外设，在低成本接入的情况下赋予目标设备语音交互能力。在实际应用中增加了增强现实设备的产品竞争力。

在一个可选的方案中，所述音频采集单元用于对目标语音数据进行采集，所述目标语音数据包括语音指令；

所述方法还包括：

和/或，将所述目标语音数据交由所述目标设备。

本方案中，增强现实设备还包括关键词检测单元及控制应用单元。关键词检测单元包含有语音关键词检测技术服务，用于判断接入的目标设备类型，以及识别语音指令。控制应用单元包含有语音指令控制应用，用于判断指令类型，将不同类型的指令交由不同的响应主体进行响应。目标语音数据包括语音指令和/或在增强现实设备进行多媒体数据输出时产生的语音数据。

可以理解，本申请中的语音指令指的是通过语音形式输入至增强现实设备的指令，是一种指令数据。麦克风阵列传感器采集到的目标语音数据可能是指令数据。除此之外，麦克风阵列传感器采集到的语音数据可能是进行多媒体数据输出时产生的语音数据，如在通过增强现实设备接听来电时，麦克风阵列传感器采集到的语音数据可能是通话内容。或者在通过增强现实设备进行电影的投影时，麦克风阵列传感器采集到的语音数据可能是电影中的音频内容。

增强现实设备通过麦克风阵列传感器采集到目标语音数据，识别目标语音数据是否包含语音指令、和/或是否包含增强现实设备进行多媒体数据输出时产生的语音数据。如果经识别发现目标语音数据既包含语音指令，又包含增强现实设备进行多媒体数据输出时产生的语音数据，则可将这两种语音数据进行分离，以对两种语音数据执行不同的处理。

当目标语音数据中包含语音指令时，增强现实设备通过关键词检测单元判断不同的目标设备类型，从而采用不同的响应模式。具体的，当目标设备为第一类型时，由目标设备对语音指令进行响应。当目标设备为第二类型或未检测到目标设备时，通过关键词检测单元识别语音指令，控制应用单元判断不同的指令类型，从而选用不同的响应主体对语音指令进行响应。

当目标语音数据中包含增强现实设备进行多媒体数据输出时产生的语音数据，可将该语音数据交由目标设备，由目标设备对该语音数据进行录制、语义识别等处理。

前述方案中，通过将采集到的目标语音数据传送到增强现实设备端和/或目标设备端，在工程上易于实施，保证了增强现实设备端和/或目标设备对目标语音数据的正常使用。

在一个可选的方案中，所述通过确定所述目标语音数据中是否存在语音指令而获取所述语音指令；和/或，将所述目标语音数据交由所述目标设备，包括：

和/或，将所述降噪后的目标语音数据交由所述目标设备。

本方案中，增强现实设备还包括降噪单元，用于对目标语音数据进行降噪处理，得到降噪后的目标语音数据。增强现实设备通过麦克风阵列传感器采集到目标语音数据，将采集到的目标语音数据通过降噪单元对目标语音数据进行降噪处理，得到降噪后的目标语音数据。将降噪后的目标语音数据传送给增强现实设备端和/或目标设备端。当目标语音数据中包含语音指令时，增强现实设备端通过关键词检测单元判断不同的目标设备类型，从而采用不同的响应模式。当目标设备类型为第一类型时，由目标设备对语音指令进行响应。当目标设备类型为第二类型或未检测到目标设备时，通过关键词检测单元识别语音指令，控制应用单元判断不同的指令类型，从而选用不同的响应主体对语音指令进行响应。

当目标语音数据中包含增强现实设备进行多媒体数据输出时产生的语音数据，可将降噪后的语音数据交由目标设备，由目标设备对该降噪后的语音数据进行录制、语义识别等处理。

通过将采集到的目标语音数据进行降噪，使得经过降噪后的目标语音数据是不包含噪声或包含噪声较少的语音数据，可以提高传送给增强现实设备端和/或目标设备端的语音数据的质量，从而实现对目标语音数据的准确响应。

在一个可选的方案中，所述通过确定所述降噪后的目标语音数据中是否存在语音指令而获取所述语音指令；和/或，将所述降噪后的目标语音数据交由所述目标设备，包括：

和/或，将所述第二目标语音数据交由所述目标设备。

本方案中，增强现实设备还包括复制分流单元，用于将降噪后的目标语音数据进行复制，得到两份降噪后的目标语音数据，将两份降噪后的目标语音数据进行分流，得到第一目标语音数据和第二目标语音数据。如图4所示，增强现实设备将读取到的麦克风音频数据Audio In送给特定的降噪单元进行定向降噪，得到增强后的不含噪声或含噪声较少的音频数据Clean Audio，不含噪声或含噪声较少的音频数据通过复制分流单元得到第一目标语音数据和第二目标语音数据。可以理解，第一目标语音数据和第二目标语音数据均为与经过降噪后的不含噪声或含噪声较少的Clean Audio相同的语音数据。第二目标语音数据直接通过硬件有线或无线方式传输给目标设备Audio Out，第一目标语音数据由增强现实设备端处理。进一步的，当目标语音数据中存在语音指令时，增强现实设备端获取语音指令，通过关键词检测单元判断不同的目标设备类型，从而采用不同的响应模式。具体的，当目标设备为第一类型时，由目标设备对语音指令进行响应。当目标设备为第二类型或未检测到目标设备时，通过关键词检测单元识别语音指令，控制应用单元判断不同的指令类型，从而选用不同的响应主体对语音指令进行响应。

通过将降噪后的目标语音数据进行复制并分流，得到第一目标语音数据和第二目标语音数据，第一目标语音数据由增强现实设备端进行处理，是为了进行语音指令识别以及由不同响应主体进行响应的方案。第二目标语音数据传送到目标设备端是为了让采集到的目标语音数据被目标设备的其他应用所用。示例性地，当用户进行通话时，采集到的目标语音数据作为通话内容被目标设备的通话应用所用。对降噪后的目标语音数据进行复制并分流，能够保证增强现实设备端和目标设备端的应用都能互不干扰的获取到各自需要的音频数据。

本申请实施例提供一种语音交互装置，如图5所示，所述装置包括：

获取单元501，用于基于增强现实设备的音频采集单元获取用户的语音指令；

第一确定单元502，用于确定与所述增强现实设备连接的目标设备的类型；

第二确定单元503，用于在所述目标设备为第一类型时，确定对所述语音指令的目标响应模式为第一响应模式；

第三确定单元504，用于在所述目标设备为第二类型或未检测到目标设备时，确定对所述语音指令的目标响应模式为第二响应模式；

响应单元505，用于采用所述目标响应模式，对所述语音指令进行响应。

在一个可选的方案中，所述响应单元505，用于在所述目标响应模式为第一响应模式时，将所述语音指令交由所述目标设备响应；在所述目标响应模式为第二响应模式时，基于所述语音指令的类型，确定由所述增强现实设备和所述目标设备中的其中之一进行响应。

在一个可选的方案中，所述响应单元505，用于在所述语音指令为第一类型指令时，由所述增强现实设备对所述语音指令进行响应；在所述语音指令为第二类型指令时，将所述语音指令交由所述目标设备响应。

在一个可选的方案中，所述响应单元505，用于在所述语音指令为第二类型指令时，将所述语音指令转换成目标类型指令，将所述目标类型指令交由所述目标设备响应。

所述装置还包括：

语音数据单元，用于通过确定所述目标语音数据中是否存在语音指令而获取所述语音指令；和/或，将所述目标语音数据交由所述目标设备。

在一个可选的方案中，所述装置还包括：降噪单元；所述降噪单元用于将所述目标语音数据进行降噪处理，得到降噪后的目标语音数据；相应地，所述语音数据单元，还用于通过确定所述降噪后的目标语音数据中是否存在语音指令而获取所述语音指令；和/或，将所述降噪后的目标语音数据交由所述目标设备。

在一个可选的方案中，所述装置还包括：复制分流单元；所述复制分流单元用于基于降噪后的目标语音数据，得到第一目标语音数据和第二目标语音数据；相应地，所述语音数据单元，还用于通过确定所述第一目标语音数据中是否存在语音指令而获取所述语音指令；和/或，将所述第二目标语音数据交由所述目标设备。

需要说明的是，本申请实施例的语音交互装置，由于该装置解决问题的原理与前述的语音交互方法相似，因此，该装置的实施过程、实施原理及有益效果均可以参见前述方法的实施过程、实施原理及有益效果的描述，重复之处不再赘述。

本申请实施例提供一种增强现实设备，所述增强现实设备至少包括本申请所述的语音交互装置。

根据本申请的实施例，本申请还提供了一种电子设备。

图6示出了可以用来实施本申请的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如语音交互方法。例如，在一些实施例中，语音交互方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的语音交互方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音交互方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音交互方法，其中，所述方法包括：

基于增强现实设备的音频采集单元获取用户的语音指令；

确定与所述增强现实设备连接的目标设备的类型；

在所述目标设备为第一类型时，确定对所述语音指令的目标响应模式为第一响应模式；

在所述目标设备为第二类型或未检测到目标设备时，确定对所述语音指令的目标响应模式为第二响应模式；

采用所述目标响应模式，对所述语音指令进行响应。
根据权利要求1所述的方法，其中，所述采用所述目标响应模式，对所述语音指令进行响应，包括：

在所述目标响应模式为第一响应模式时，将所述语音指令交由所述目标设备响应；

在所述目标响应模式为第二响应模式时，基于所述语音指令的类型，确定由所述增强现实设备和所述目标设备中的其中之一进行响应。
根据权利要求2所述的方法，其中，所述基于所述语音指令的类型，确定由所述增强现实设备和所述目标设备中的其中之一进行响应，包括：

在所述语音指令为第一类型指令时，由所述增强现实设备对所述语音指令进行响应；

在所述语音指令为第二类型指令时，将所述语音指令交由所述目标设备响应。
根据权利要求3所述的方法，其中，所述在所述语音指令为第二类型指令时，将所述语音指令交由所述目标设备响应，包括：

在所述语音指令为第二类型指令时，将所述语音指令转换成目标类型指令，将所述目标类型指令交由所述目标设备响应。
根据权利要求1所述的方法，其中，所述音频采集单元用于对目标语音数据进行采集，所述目标语音数据包括语音指令；

所述方法还包括：

通过确定所述目标语音数据中是否存在语音指令而获取所述语音指令；

和/或，将所述目标语音数据交由所述目标设备。
根据权利要求5所述的方法，其中，所述通过确定所述目标语音数据中是否存在语音指令而获取所述语音指令；和/或，将所述目标语音数据交由所述目标设备，包括：

将所述目标语音数据进行降噪处理，得到降噪后的目标语音数据；

通过确定所述降噪后的目标语音数据中是否存在语音指令而获取所述语音指令；

和/或，将所述降噪后的目标语音数据交由所述目标设备。
根据权利要求6所述的方法，其中，所述通过确定所述降噪后的目标语音数据中是否存在语音指令而获取所述语音指令；和/或，将所述降噪后的目标语音数据交由所述目标设备，包括：

基于降噪后的目标语音数据，得到第一目标语音数据和第二目标语音数据；

通过确定所述第一目标语音数据中是否存在语音指令而获取所述语音指令；

和/或，将所述第二目标语音数据交由所述目标设备。
一种语音交互装置，其中，所述装置包括：

获取单元，用于基于增强现实设备的音频采集单元获取用户的语音指令；

第一确定单元，用于确定与所述增强现实设备连接的目标设备的类型；

第二确定单元，用于在所述目标设备为第一类型时，确定对所述语音指令的目标响应模式为第一响应模式；

第三确定单元，用于在所述目标设备为第二类型或未检测到目标设备时，确定对所述语音指令的目标响应模式为第二响应模式；

响应单元，用于采用所述目标响应模式，对所述语音指令进行响应。
一种增强现实设备，其中，至少包括权利要求8所述的语音交互装置。
一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。