WO2022206602A1

WO2022206602A1 - 语音唤醒方法、装置、存储介质及系统

Info

Publication number: WO2022206602A1
Application number: PCT/CN2022/083055
Authority: WO
Inventors: 肖龙帅; 甄一楠; 李文洁; 彭超; 杨占磊
Original assignee: 华为技术有限公司
Priority date: 2021-03-31
Filing date: 2022-03-25
Publication date: 2022-10-06
Also published as: EP4310838A1; CN115148197A; US20240029736A1; EP4310838A4

Abstract

本申请涉及终端技术领域，尤其涉及一种语音唤醒方法、装置、存储介质及系统。该方法包括：获取原始的第一麦克风数据；根据第一麦克风数据进行第一级处理得到第一唤醒数据，第一级处理包括基于神经网络模型的第一级分离处理和第一级唤醒处理；当第一唤醒数据指示预唤醒成功时根据第一麦克风数据进行第二级处理得到第二唤醒数据，第二级处理包括基于神经网络模型的第二级分离处理和第二级唤醒处理；根据第二唤醒数据确定唤醒结果。本申请实施例通过设计两级分离和唤醒方案，在第一级场景下通过第一级分离和唤醒方案进行预唤醒判断，在预唤醒成功后在第二级场景下再次进行唤醒确认，保证较高的唤醒率的同时降低了误唤醒率。

Description

语音唤醒方法、装置、存储介质及系统

本申请要求于2021年03月31日提交中国专利局、申请号为202110348176.6、申请名称为“语音唤醒方法、装置、存储介质及系统”中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端技术领域，尤其涉及一种语音唤醒方法、装置、存储介质及系统。

背景技术

随着智能语音交互的兴起，越来越多的电子设备支持语音交互功能。其中，语音唤醒作为语音交互的开始，在不同的电子设备中应用广泛，例如智能音箱、智能电视等。当用户所处空间存在支持语音唤醒的电子设备，用户发出唤醒语音后，被唤醒的电子设备会响应说话人的请求，与用户进行交互。

相关技术中，为了提高电子设备的唤醒率，可以对电子设备中的唤醒模块进行多条件训练，并采用训练后的唤醒模块进行语音唤醒；或者，可以采用麦克风阵列处理技术进行语音唤醒；或者，可以采用传统的声源分离技术进行语音唤醒。

通过上述方法，在唤醒率上虽然已经有了一定的进度，但是在存在背景噪音的情况下，对人声识别就会比较差，特别是在多声源干扰或强声源干扰或远场回声场景时，唤醒率会更低，电子设备的语音唤醒效果较差。

发明内容

有鉴于此，提出了一种语音唤醒方法、装置、存储介质及系统。本申请实施例通过设计两级分离和唤醒方案，在第一级场景下通过第一级分离和唤醒方案进行预唤醒判断，在预唤醒成功后在第二级场景下再次进行唤醒确认，保证较高的唤醒率的同时降低误唤醒率，从而得到更好的语音唤醒效果。

第一方面，本申请实施例提供了一种语音唤醒方法，所述方法包括：

获取原始的第一麦克风数据；

根据所述第一麦克风数据进行第一级处理得到第一唤醒数据，所述第一级处理包括基于神经网络模型的第一级分离处理和第一级唤醒处理；

当所述第一唤醒数据指示预唤醒成功时根据所述第一麦克风数据进行第二级处理得到第二唤醒数据，所述第二级处理包括基于神经网络模型的第二级分离处理和第二级唤醒处理；

根据所述第二唤醒数据确定唤醒结果。

在该实现方式中，设计了两级分离和唤醒方案，在第一级场景下在对原始的第一麦克风数据进行第一级分离处理和第一级唤醒处理后得到第一唤醒数据，根据第一唤醒数据进行预唤醒判断，第一级分离和唤醒方案可以保证唤醒率尽量高，但也会带来较高的误唤醒率，因此当第一唤醒数据指示预唤醒成功时，在第二级场景下再对第一麦克风数据进行第二级分离处理和第二级唤醒处理，即对第一麦克风数据再次进行唤醒确认，这样可以得到更好的分离性能，保证了较高的唤醒率的同时降低误唤醒率，从而得到更好的语音唤醒效果。

结合第一方面，在第一方面的一种可能的实现方式中，所述根据所述第一麦克风数据进行第一级处理得到第一唤醒数据，包括：

对所述第一麦克风数据进行预处理得到多通道特征数据；

根据所述多通道特征数据，调用预先训练完成的第一级分离模块输出得到第一分离数据，所述第一级分离模块用于进行所述第一级分离处理；

根据所述多通道特征数据和所述第一分离数据，调用预先训练完成的第一级唤醒模块输出得到所述第一唤醒数据，所述第一级唤醒模块用于进行所述第一级唤醒处理。

在该实现方式中，对第一麦克风数据进行预处理得到多通道特征数据，从而可以先根据多通道特征数据调用第一级分离模块输出得到第一分离数据，再根据多通道特征数据和第一分离数据调用第一级唤醒模块输出得到第一唤醒数据，实现在第一级场景下对第一麦克风数据的第一级分离处理和第一级唤醒处理，保证预唤醒的唤醒率尽量高。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述当所述第一唤醒数据指示预唤醒成功时根据所述第一麦克风数据进行第二级处理得到第二唤醒数据，包括：

当所述第一唤醒数据指示预唤醒成功时，根据所述多通道特征数据和所述第一分离数据调用预先训练完成的第二级分离模块输出得到第二分离数据，所述第二级分离模块用于进行所述第二级分离处理；

根据所述多通道特征数据、所述第一分离数据和所述第二分离数据，调用预先训练完成的第二级唤醒模块输出得到所述第二唤醒数据，所述第二级唤醒模块用于进行所述第二级唤醒处理。

在该实现方式中，当第一唤醒数据指示预唤醒成功时，根据多通道特征数据和第一分离数据调用第二级分离模块输出得到第二分离数据，根据多通道特征数据、第一分离数据和第二分离数据调用第二级唤醒模块输出得到第二唤醒数据，实现在第二级场景下基于第一级分离模块输出的第一分离数据对第一麦克风数据的第二级分离处理和第二级唤醒处理，即对第一麦克风数据再次进行唤醒确认，保证了较高的唤醒率的同时降低误唤醒率，进一步提高了语音唤醒效果。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述第一级分离处理为流式的声源分离处理，所述第一级唤醒处理为流式的声源唤醒处理；和/或，

所述第二级分离处理为离线的声源分离处理，所述第二级唤醒处理为离线的声源唤醒处理。

在该实现方式中，第一级场景为第一级流式场景，第二级场景为第二级离线场景，由于第一级分离和唤醒方案是流式设计的，一般会损失分离性能，保证唤醒率尽量高，但也会带来较高的误唤醒率，因此当第一唤醒数据指示预唤醒成功时，在第二级离线场景下再对第一麦克风数据进行离线的第二级分离处理和第二级唤醒处理，这样可以得到更好的分离性能，保证了较高的唤醒率的同时降低误唤醒率，进一步提高了语音唤醒效果。

结合第一方面的第二种可能的实现方式或第三种可能的实现方式，在第一方面的第四种可能的实现方式中，

所述第一级唤醒模块包括多输入单输出形式或者多输入多输出形式的唤醒模型；和/或，

所述第二级唤醒模块包括多输入单输出形式或者多输入多输出形式的唤醒模型。

在该实现方式中，第一级唤醒模块和/或第二级唤醒模块为多输入的唤醒模块，与相关技术中单输入的唤醒模块相比，不但可以节省计算量，避免多次重复调用唤醒模型带来的计算量显著增加和浪费问题；而且，由于更好的利用各个输入参数的相关性，大大提高了唤醒性能。

结合第一方面的第二种可能的实现方式至第四种可能的实现方式中的任意一种可能的实现方式，在第一方面的第五种可能的实现方式中，所述第一级分离模块和/或所述第二级分离模块采用对偶路径的conformer(dual-path conformer，dpconformer)网络结构。

在该实现方式中，基于conformer的自注意力网络层建模技术，提供了对偶路径的conformer网络结构，通过设计块内和块间交替进行conformer层的计算，既能对长序列进行建模，又可以避免直接使用conformer带来的计算量增加问题，并且由于conformer网络较强的建模能力，可以显著提升分离模块(即第一级分离模块和/或第二级分离模块)的分离效果。

结合第一方面的第二种可能的实现方式至第五种可能的实现方式中的任意一种可能的实现方式，在第一方面的第六种可能的实现方式中，所述第一级分离模块和/或所述第二级分离模块为用于执行至少一个任务的分离模块，所述至少一个任务包括单独的声源分离任务，或者包括所述声源分离任务和其他任务；

其中，所述其他任务包括声源定位任务、特定人提取任务、特定方向提取任务、特定人确认任务中的至少一种。

在该实现方式中，提供了声源分离任务和其他任务的多任务设计方案，比如其他任务包括声源定位任务、特定人提取任务、特定方向提取任务、特定人确认任务中的至少一种，可以将声源分离结果与其他信息关联起来，提供给下游任务或者下级唤醒模块，提高了分离模块(即第一级分离模块和/或第二级分离模块)的输出效果。

结合第一方面的第二种可能的实现方式至第六种可能的实现方式中的任意一种可能的实现方式，在第一方面的第七种可能的实现方式中，所述第一级唤醒模块和/或所述第二级唤醒模块为用于执行至少一个任务的唤醒模块，所述至少一个任务包括单独的唤醒任务，或者包括所述唤醒任务和其他任务；

在该实现方式中，提供了声源唤醒任务和其他任务的多任务设计方案，比如其他任务包括声源定位任务、特定人提取任务、特定方向提取任务、特定人确认任务中的至少一种，可以将声源唤醒结果与其他信息关联起来，提供给下游任务，提高了唤醒模块(即第一级唤醒模块和/或第二级唤醒模块)的输出效果。比如其他任务为声源定位任务，这样唤醒模块可以在提供声源唤醒结果的同时提供更准确的方位信息，与相关技术中直接做空间多固定波束的方案相比，保证了更准确的方位估计效果。

结合第一方面的第一种可能的实现方式至第七种可能的实现方式中的任意一种可能的实现方式，在第一方面的第八种可能的实现方式中，所述第一级分离模块包括第一级多特征融合模型和第一级分离模型；所述根据所述多通道特征数据，调用预先训练完成的第一级分离模块输出得到第一分离数据，包括：

将所述多通道特征数据输入至所述第一级多特征融合模型中输出得到第一单通道特征数据；

将所述第一单通道特征数据输入至所述第一级分离模型输出得到所述第一分离数据。

在该实现方式中，提供了多通道特征数据的融合机制，避免相关技术中人工选择特征数据，通过第一级多特征融合模型自动学习特征通道间的相互关系，以及各个特征对最终分离效果的贡献，进一步保证了第一级分离模型的分离效果。

结合第一方面的第二种可能的实现方式至第八种可能的实现方式中的任意一种可能的实现方式，在第一方面的第九种可能的实现方式中，所述第二级分离模块包括第二级多特征融合模型和第二级分离模型；所述根据所述多通道特征数据和所述第一分离数据调用预先训练完成的第二级分离模块输出得到第二分离数据，包括：

将所述多通道特征数据和所述第一分离数据输入至所述第二级多特征融合模型中输出得到第二单通道特征数据；

将所述第二单通道特征数据输入至所述第二级分离模型输出得到所述第二分离数据。

在该实现方式中，提供了多通道特征数据的融合机制，避免相关技术中人工选择特征数据，通过第二级多特征融合模型自动学习特征通道间的相互关系，以及各个特征对最终分离效果的贡献，进一步保证了第二级分离模型的分离效果。

结合第一方面的第一种可能的实现方式至第九种可能的实现方式中的任意一种可能的实现方式，在第一方面的第十种可能的实现方式中，所述第一级唤醒模块包括多输入单输出形式的第一唤醒模型，所述根据所述多通道特征数据和所述第一分离数据，调用预先训练完成的第一级唤醒模块输出得到所述第一唤醒数据，包括：

将所述多通道特征数据和所述第一分离数据输入至所述第一级唤醒模型中输出得到所述第一唤醒数据，所述第一唤醒数据包括第一置信度，所述第一置信度用于指示原始的所述第一麦克风数据中包括预设唤醒词的概率。

在该实现方式中，提供了多输入单输出形式的第一唤醒模型，由于第一唤醒模型是多输入形式的模型，避免相关技术中多次重复调用唤醒模型带来的计算量显著增加和浪费问题，节省了计算资源，提高了第一唤醒模型的处理效率；并且，由于更好的利用各个输入参数的相关性，大大提高了第一唤醒模型的唤醒性能。

结合第一方面的第一种可能的实现方式至第九种可能的实现方式中的任意一种可能的实现方式，在第一方面的第十一种可能的实现方式中，所述第一级唤醒模块包括多输入多输出形式的第一唤醒模型和第一后处理模块，所述根据所述多通道特征数据和所述第一分离数据，调用预先训练完成的第一级唤醒模块输出得到所述第一唤醒数据，包括：

将所述多通道特征数据和所述第一分离数据输入至所述第一唤醒模型中，输出得到多个声源数据各自对应的音素序列信息；

将所述多个声源数据各自对应的音素序列信息输入至所述第一后处理模块中，输出得到所述第一唤醒数据，所述第一唤醒数据包括多个声源数据各自对应的第二置信度，所述第二置信度用于指示所述声源数据与预设唤醒词之间的声学特征相似度。

在该实现方式中，提供了多输入多输出形式的第一唤醒模型，一方面，由于第一唤醒模型是多输入形式的模型，避免相关技术中多次重复调用唤醒模型带来的计算量显著增加和浪费问题，节省了计算资源，提高了第一唤醒模型的处理效率；另一方面，由于第一唤醒模型是多输出形式的模型，可以同时输出多个声源数据各自对应的音素序列信息，从而避免各个声源数据间相互影响而导致唤醒率低的情况，进一步保证了后续的唤醒率。

结合第一方面的第二种可能的实现方式至第十一种可能的实现方式中的任意一种可能的实现方式，在第一方面的第十二种可能的实现方式中，所述第二级唤醒模块包括多输入单输出形式的第二唤醒模型，所述根据所述多通道特征数据、所述第一分离数据和所述第二分离数据，调用预先训练完成的第二级唤醒模块输出得到所述第二唤醒数据，包括：

将所述多通道特征数据、所述第一分离数据和所述第二分离数据输入至所述第二级唤醒模型中输出得到所述第二唤醒数据，所述第二唤醒数据包括第三置信度，所述第三置信度用于指示原始的所述第一麦克风数据中包括预设唤醒词的概率。

在该实现方式中，提供了多输入单输出形式的第二唤醒模型，由于第二唤醒模型是多输入形式的模型，避免相关技术中多次重复调用唤醒模型带来的计算量显著增加和浪费问题，节省了计算资源，提高了第二唤醒模型的处理效率；并且，由于更好的利用各个输入参数的相关性，大大提高了第二唤醒模型的唤醒性能。

结合第一方面的第二种可能的实现方式至第十一种可能的实现方式中的任意一种可能的实现方式，在第一方面的第十三种可能的实现方式中，所述第二级唤醒模块包括多输入多输出形式的第二唤醒模型和第二后处理模块，所述根据所述多通道特征数据、所述第一分离数据和所述第二分离数据，调用预先训练完成的第二级唤醒模块输出得到所述第二唤醒数据，包括：

将所述多通道特征数据、所述第一分离数据和所述第二分离数据输入至所述第二级唤醒模型中，输出得到多个声源数据各自对应的音素序列信息；

将所述多个声源数据各自对应的音素序列信息输入至所述第二后处理模块中，输出得到所述第二唤醒数据，所述第二唤醒数据包括多个声源数据各自对应的第四置信度，所述第四置信度用于指示所述声源数据与预设唤醒词之间的声学特征相似度。

在该实现方式中，提供了多输入多输出形式的第二唤醒模型，一方面，由于第二唤醒模型是多输入形式的模型，避免相关技术中多次重复调用唤醒模型带来的计算量显著增加和浪费问题，节省了计算资源，提高了第二唤醒模型的处理效率；另一方面，由于第二唤醒模型是多输出形式的模型，可以同时输出多个声源数据各自对应的音素序列信息，从而避免各个声源数据间相互影响而导致唤醒率低的情况，进一步保证了后续的唤醒率。

第二方面，本申请实施例提供了一种语音唤醒装置，所述装置包括：获取模块、第一级处理模块、第二级处理模块和确定模块；

所述获取模块，用于获取原始的第一麦克风数据；

所述第一级处理模块，用于根据所述第一麦克风数据进行第一级处理得到第一唤醒数据，所述第一级处理包括基于神经网络模型的第一级分离处理和第一级唤醒处理；

所述第二级处理模块，用于当所述第一唤醒数据指示预唤醒成功时根据所述第一麦克风数据进行第二级处理得到第二唤醒数据，所述第二级处理包括基于神经网络模型的第二级分离处理和第二级唤醒处理；

所述确定模块，用于根据所述第二唤醒数据确定唤醒结果。

结合第二方面，在第二方面的一种可能的实现方式中，所述装置还包括预处理模块，所述第一级处理模块还包括第一级分离模块和第一级唤醒模块；

所述预处理模块，用于对所述第一麦克风数据进行预处理得到多通道特征数据；

所述第一级分离模块，用于根据所述多通道特征数据进行所述第一级分离处理，输出得到第一分离数据；

所述第一级唤醒模块，用于根据所述多通道特征数据和所述第一分离数据进行所述第一级唤醒处理，输出得到所述第一唤醒数据。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述第二级处理模块还包括第二级分离模块和第二级唤醒模块；

所述第二级分离模块，用于当所述第一唤醒数据指示预唤醒成功时，根据所述多通道特征数据和所述第一分离数据进行所述第二级分离处理，输出得到第二分离数据；

所述第二级唤醒模块，用于根据所述多通道特征数据、所述第一分离数据和所述第二分离数据进行所述第二级唤醒处理，输出得到所述第二唤醒数据。

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，

所述第一级分离处理为流式的声源分离处理，所述第一级唤醒处理为流式的声源唤醒处理；和/或，

结合第二方面的第二种可能的实现方式或第三种可能的实现方式，在第二方面的第四种可能的实现方式中，

结合第二方面的第二种可能的实现方式至第四种可能的实现方式中的任意一种可能的实现方式，在第二方面的第五种可能的实现方式中，所述第一级分离模块和/或所述第二级分离模块采用对偶路径的conformer网络结构。

结合第二方面的第二种可能的实现方式至第五种可能的实现方式中的任意一种可能的实现方式，在第二方面的第六种可能的实现方式中，所述第一级分离模块和/或所述第二级分离模块为用于执行至少一个任务的分离模块，所述至少一个任务包括单独的声源分离任务，或者包括所述声源分离任务和其他任务；

结合第二方面的第二种可能的实现方式至第六种可能的实现方式中的任意一种可能的实现方式，在第二方面的第七种可能的实现方式中，所述第一级唤醒模块和/或所述第二级唤醒模块为用于执行至少一个任务的唤醒模块，所述至少一个任务包括单独的唤醒任务，或者包括所述唤醒任务和其他任务；

结合第二方面的第一种可能的实现方式至第七种可能的实现方式中的任意一种可能的实现方式，在第二方面的第八种可能的实现方式中，所述第一级分离模块包括第一级多特征融合模型和第一级分离模型；所述第一级分离模块，还用于：

结合第二方面的第二种可能的实现方式至第八种可能的实现方式中的任意一种可能的实现方式，在第二方面的第九种可能的实现方式中，所述第二级分离模块包括第二级多特征融合模型和第二级分离模型；所述第二级分离模块，还用于：

结合第二方面的第一种可能的实现方式至第九种可能的实现方式中的任意一种可能的实现方式，在第二方面的第十种可能的实现方式中，所述第一级唤醒模块包括多输入单输出形式的第一唤醒模型，所述第一级唤醒模块，还用于：

结合第二方面的第一种可能的实现方式至第九种可能的实现方式中的任意一种可能的实现方式，在第二方面的第十一种可能的实现方式中，所述第一级唤醒模块包括多输入多输出形式的第一唤醒模型和第一后处理模块，所述第一级唤醒模块，还用于：

结合第二方面的第二种可能的实现方式至第十一种可能的实现方式中的任意一种可能的实现方式，在第二方面的第十二种可能的实现方式中，所述第二级唤醒模块包括多输入单输出形式的第二唤醒模型，所述第二级唤醒模块，还用于：

结合第二方面的第二种可能的实现方式至第十一种可能的实现方式中的任意一种可能的实现方式，在第二方面的第十三种可能的实现方式中，所述第二级唤醒模块包括多输入多输出形式的第二唤醒模型和第二后处理模块，所述第二级唤醒模块，还用于：

第三方面，本申请实施例提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令时实现第一方面或第一方面中的任意一种可能的实现方式所提供的语音唤醒方法。

第四方面，本申请实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现第一方面或第一方面中的任意一种可能的实现方式所提供的语音唤醒方法。

第五方面，本申请的实施例提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行上述第一方面或者第一方面中的任意一种可能的实现方式所提供的语音唤醒方法。

第六方面，本申请的实施例提供了一种语音唤醒系统，该语音唤醒系统用于执行上述第一方面或者第一方面中的任意一种可能的实现方式所提供的语音唤醒方法。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出相关技术中电子设备的唤醒率与声源距离的相关关系的示意图。

图2示出了本申请一个示例性实施例提供的电子设备的结构示意图。

图3示出了本申请一个示例性实施例提供的语音唤醒方法的流程图。

图4示出了本申请一个示例性实施例提供的语音唤醒方法的原理示意图。

图5示出了本申请一个示例性实施例提供的dpconformer网络的结构示意图。

图6示出了本申请一个示例性实施例提供的两阶段分离方案的原理示意图。

图7至图14示出了本申请示例性实施例提供的第一级分离方案的几种可能的实现方式的原理示意图。

图15示出了本申请一个示例性实施例提供的两阶段唤醒方案的原理示意图。

图16至图19示出了本申请示例性实施例提供的第一级唤醒方案的几种可能的实现方式的原理示意图。

图20至图23示出了本申请示例性实施例提供的单麦克风场景下语音唤醒方法的原理示意图。

图24至图28示出了本申请示例性实施例提供的多麦克风场景下语音唤醒方法的原理示意图。

图29示出了本申请另一个示例性实施例提供的语音唤醒方法的流程图。

图30示出了本申请一个示例性实施例提供的语音唤醒装置的框图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

语音交互技术是现在电子设备中较为重要的技术，电子设备包括智能手机、音箱、电视、机器人、平板设备、车载设备等设备。语音唤醒功能是语音交互技术的关键功能之一，通过特定的唤醒词或者命令词(比如“小艺小艺”)，激活处于非语音交互状态(比如休眠状态或者其他状态)的电子设备，开启语音识别、语音搜索、对话、语音导航等其他语音功能，既满足语音交互技术的随时可用性，又避免电子设备长期处于语音交互状态带来的功耗问题或者用户隐私数据被监听的问题。

理想环境(比如安静且用户距离待唤醒的电子设备较近)下，语音唤醒功能达到满足用户使用的需求，即满足95％以上的唤醒率。但是，实际使用场景的声学环境往往比较复杂，用户距离待唤醒的电子设备较远(比如3-5米)并且存在背景噪音(比如电视声、说话声、背景音乐、混响、回声等)的情况下，唤醒率将急剧下降。如图1所示，电子设备的唤醒率随声源距离增加而下降，其中声源距离为用户与电子设备的距离。图1中，声源距离为0.5米时唤醒率为80％，声源距离为1米时唤醒率为65％，声源距离为3米时唤醒率为30％，声源距离为5米时唤醒率为10％，过低的唤醒率，导致电子设备的语音唤醒效果较差。

通过相关技术中提供的一些方法，在唤醒率上虽然已经有了一定的进度，但是在存在背景噪音的情况下，对人声识别就会比较差，特别是在多声源干扰(比如其他说话人的干扰、背景音乐的干扰、回声场景的回声残余干扰等等)或强声源干扰或远场回声场景时，唤醒率会更低，且产生较高的误唤醒情况。

而本申请实施例通过设计两级分离和唤醒方案，在第一级流式场景下通过第一级分离和唤醒方案进行预唤醒判断，保证唤醒率尽量高，但会带来较高的误唤醒率，因此在预唤醒成功后在第二级离线场景下进行离线唤醒确认，保证较高的唤醒率的同时降低误唤醒率，从而得到更好的语音唤醒效果。

首先，对本申请实施例涉及的一些名词进行介绍。

1、离线的声源唤醒处理：是指在获取完整的音频内容后对该音频内容进行声源唤醒处理。离线的声源唤醒处理包括离线的分离处理和离线的唤醒处理。

2、流式的声源唤醒处理(也称在线的声源唤醒处理)：是指实时或每隔预设时间间隔获取音频段并对该音频段进行声源唤醒处理。流式的声源唤醒处理包括流式的分离处理和流式的唤醒处理。

其中，音频段为实时或每隔预设时间段采集的连续数量的样本数据，比如，预设时间间隔为16毫秒。本申请实施例对此不加以限定。

3、多声源分离技术：是指将接收到的单麦克风或者多麦克风语音信号分离出多个声源数据的技术。其中，多个声源数据包括目标对象的声源数据和干扰声源的声源数据。多声源分离技术用于将目标对象的声源数据与干扰声源的声源数据进行分离，以便更好地进行唤醒判断。

4、唤醒技术又称为关键词检出技术(Key Word Spotting，KWS)，用于判断待测试的声源数据中是否包含预设的唤醒词。其中，唤醒词可以是默认设置的，或者是用户自定义设置的。比如，默认设置的固定唤醒词为“小艺小艺”，用户不能更改，唤醒方案设计往往依赖特定的训练样本数据。又比如，用户手动设置个性化的唤醒词，无论用户设置什么样的个性化唤醒词，都期待有较高的唤醒率，同时不希望在电子设备侧进行频繁的模型自学习。可选的，唤醒技术的建模方式包括但不限于如下两种可能的实现方式：第一种为采用整词建立唤醒模块，比如固定唤醒词为唤醒模块的输出目标；第二种为基于通用语音识别中的音素表示建立用于音素识别的唤醒模块，比如支持固定唤醒词或者支持用户自定义唤醒词时自动构造对应的个性化解码图，最终依赖唤醒模块的输出再解码图确定用户的唤醒意图。

对于上述第一种可能的实现方式即采用固定唤醒词建模的方案，在多声源干扰场景下，唤醒模块希望有单路的输出数据，该输出数据用于指示是否唤醒，或者是否为固定的唤醒词。而对于上述第二种可能的实现方式即采用音素建模的方案，在多声源干扰场景下，多个声源数据的唤醒模块的输出是有意义的，需要分别进行解码图解码，以便最终确定是否为自定义的唤醒词。因此，在多声源干扰场景下，对于采用固定唤醒词建模的方案，唤醒模块为多输入单输出形式的模型；而对于采用音素建模的方案，唤醒模块为多输入多输出形式的模型，多个输出数据分别对应多个声源数据的音素后验概率序列。

请参考图2，其示出了本申请一个示例性实施例提供的电子设备的结构示意图。

该电子设备可以是终端，终端包括移动终端或者固定终端。比如电子设备可以是手机、音箱、电视、机器人、平板设备、车载设备、耳机、智能眼镜、智能手表、膝上型便携计算机和台式计算机等等。服务器可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

参照图2，电子设备200可以包括以下一个或多个组件：处理组件202，存储器204，电源组件206，多媒体组件208，音频组件210，输入/输出(I/O)的接口212，传感器组件214，以及通信组件216。

处理组件202通常控制电子设备200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令，以完成本申请实施例提供的语音唤醒方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在电子设备200的操作。这些数据的示例包括用于在电子设备200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，多媒体内容等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件206为电子设备200的各种组件提供电力。电源组件206可以包括电源管理系统，一个或多个电源，及其他与为电子设备200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述电子设备200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件208包括一个前置摄像头和/或后置摄像头。当电子设备200处于操作模式，如拍摄模式或多媒体内容模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。可选地，电子设备200通过摄像头(前置摄像头和/或后置摄像头)采集视频信息。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(MIC)，当电子设备200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。可选地，电子设备200通过麦克风采集原始的第一麦克风数据。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

I/O接口212为处理组件202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件214包括一个或多个传感器，用于为电子设备200提供各个方面的状态评估。例如，传感器组件214可以检测到电子设备200的打开/关闭状态，组件的相对定位，例如所述组件为电子设备200的显示器和小键盘，传感器组件214还可以检测电子设备200或电子设备200一个组件的位置改变，用户与电子设备200接触的存在或不存在，电子设备200方位或加速/减速和电子设备200的温度变化。传感器组件214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于电子设备200和其他设备之间有线或无线方式的通信。电子设备200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行本申请实施例提供的语音唤醒方法。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器204，上述计算机程序指令可由电子设备200的处理器220执行以完成本申请实施例提供的语音唤醒方法。

下面，采用几个示例性实施例对本申请实施例提供的语音唤醒方法进行介绍。

请参考图3，其示出了本申请一个示例性实施例提供的语音唤醒方法的流程图，本实施例以该方法用于图2所示的电子设备中来举例说明。该方法包括以下几个步骤。

步骤301，获取原始的第一麦克风数据。

电子设备通过单个麦克风或者多个麦克风获取麦克风输出信号，将麦克风输出信号作为原始的第一麦克风数据。

可选的，第一麦克风数据包括目标对象的声源数据和干扰声源的声源数据，干扰声源包括除目标对象以外的其它对象的说话声、背景音乐、环境噪声中的至少一种。

步骤302，对第一麦克风数据进行预处理得到多通道特征数据。

为了处理真实声学场景下可能遇到的声学回声、混响、信号幅度等问题，电子设备对第一麦克风数据进行预处理得到多通道特征数据。可选的，预处理包括声学回声抵消(Acoustic Echo Cancellation，AEC)、去混响(Dereverberation)、语音活动检测(Voice Activity Detection，VAD)、自动增益控制(Automatic Gain Control，AGC)、波束滤波中的至少一种处理。

可选的，多通道特征为多组多通道特征，多通道特征数据包括多通道时域信号数据、多通道频谱数据、多组通道间相位差(Inter Phase Difference，IPD)数据、多方向特征数据、多波束特征数据中的至少一种数据。

步骤303，根据多通道特征数据进行第一级分离处理得到第一分离数据。

其中，第一级分离处理也可以称为第一级神经网络分离处理，第一级分离处理为基于神经网络模型的分离处理，即第一级分离处理包括调用神经网络模型进行声源分离处理。

可选的，电子设备根据多通道特征数据，调用预先训练完成的第一级分离模块输出得到第一分离数据。其中，第一级分离模块用于进行第一级分离处理，第一级分离处理为流式的声源分离处理。可选的，第一级分离模块采用dpconformer网络结构。

电子设备根据多通道特征数据，调用预先训练完成的第一级分离模块输出得到第一分离数据，包括但不限于如下两种可能的实现方式：

在一种可能的实现方式中，第一级分离模块包括第一级分离模型，电子设备将多通道特征进行拼接，将拼接后的多通道特征数据输入至第一级分离模型中输出得到第一分离数据。

在另一种可能的实现方式中，第一级分离模块包括第一级多特征融合模型和第一级分离模型，电子设备将多通道特征数据输入至第一级多特征融合模型中输出得到第一单通道特征数据；将第一单通道特征数据输入至第一级分离模型输出得到第一分离数据。为了方便说明，下面仅以第二种可能的实现方式为例进行介绍。本申请实施例对此不加以限定。

可选的，第一级多特征融合模型为conformer特征融合模型。

其中，第一级分离模型采用流式的网络结构。可选的，第一级分离模型采用dpconformer网络结构。

其中，第一级分离模型为神经网络模型，即第一级分离模型为采用神经网络训练得到的模型。可选的，第一级分离模型采用深度神经网络(Deep Neural Networks，DNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、卷积神经网络(Convolutional Neural Networks，CNN)、全卷积时域音频分离网络(Conv-TasNet)、DPRNN中的任意一种网络结构。需要说明的是，第一级分离模型还可以采用其他适合流式场景的网络结构，本申请实施例对此不加以限定。

其中，第一级分离模块的分离任务设计可以是流式声源分离任务的单任务设计，也可以是流式声源分离任务和其他任务的多任务设计，可选的，其他任务包括多个声源各自对应的方位估计任务和/或多个声源各自对应的声源对象识别任务。

在一种可能的实现方式中，第一级分离模块用于对多个声源数据进行盲分离，第一分离数据包括分离的多个声源数据。

在另一种可能的实现方式中，第一级分离模块用于从多个声源数据中提取目标对象的声源数据，第一分离数据包括提取的目标对象的声源数据。

在另一种可能的实现方式中，第一级分离模块用于基于视频信息从多个声源数据中提取目标对象的声源数据，第一分离数据包括提取的目标对象的声源数据。比如，视频信息包括目标对象的视觉数据。

在另一种可能的实现方式中，第一级分离模块用于从多个声源数据中提取目标方向的至少一个声源数据，第一分离数据包括目标方向的至少一个声源数据。

需要说明的是，分离任务设计的几种可能的实现方式的相关细节可参考下面实施例中的相关描述，在此先不介绍。

可选的，对于需要分离出多个声源数据的盲分离任务，第一级分离模块中的代价函数为基于置换不变训练(Permutation Invariant Traning，PIT)准则设计的函数。

可选的，在代价函数的训练过程中，电子设备将多个样本声源数据按照语音段起始时刻的先后顺序进行排序，根据排序后的多个样本声源数据计算代价函数的损失值。基于计算出的损失值，训练该代价函数。

可选的，在通过第一级分离模块分离得到多个声源数据后，将多个声源数据直接输入至下一级处理模型即第一级唤醒模块。

可选的，对于多麦克风的场景，在通过第一级分离模块分离得到多个声源数据后，计算多个声源数据的统计量信息，将统计量信息输入至波束形成模型中输出得到波束形成数据，将波束形成数据输入至下一级处理模型即第一级唤醒模块。

步骤304，根据多通道特征数据和第一分离数据进行第一级唤醒处理得到第一唤醒数据。

可选的，电子设备根据多通道特征数据和第一分离数据，调用预先训练完成的第一级唤醒模块输出得到第一唤醒数据。其中，第一级唤醒模块用于进行第一级唤醒处理，第一级唤醒处理为流式的声源唤醒处理。

需要说明的是，对多通道特征数据和第一分离数据的介绍可参考上述步骤中的相关描述，在此不再赘述。

可选的，电子设备将多通道特征数据和第一分离数据输入至第一级唤醒模块中输出得到第一唤醒数据。

可选的，唤醒方案为多输入单输出的流式唤醒方案(MISO-KWS)，即第一级唤醒模块是采用固定唤醒词建模的，第一级唤醒模块为多输入单输出形式的唤醒模型，输入参数包括多通道特征数据和第一分离数据，输出参数包括第一置信度。其中，第一置信度用于指示原始的第一麦克风数据中包括预设唤醒词的概率。

可选的，第一置信度为多维向量，多维向量中的每个维度的值为0到1之间的概率值。

可选的，唤醒方案为多输入多输出的流式唤醒方案(MIMO-KWS)，即第一级唤醒模块是采用音素建模的，第一级唤醒模块包括多输入多输出形式的唤醒模型和第一后处理模块(比如解码器)，第一级唤醒模块的输入参数(也即唤醒模型的输入参数)包括多通道特征数据和第一分离数据，唤醒模型的输出参数包括多个声源数据各自对应的音素序列信息。其中，声源数据对应的音素序列信息用于指示该声源数据中多个音素的概率分布，即音素序列信息包括多个音素各自对应的概率值。第一级唤醒模块的输出参数(也即第一后处理模块的输出参数)包括多个声源数据各自对应的第二置信度，第二置信度用于指示该声源数据与预设唤醒词之间的声学特征相似度。

其中，预设唤醒词为默认设置的固定唤醒词，或者用户自定义设置的唤醒词。本申请实施例对此不加以限定。

其中，第一级唤醒模块采用流式的网络结构。可选的，第一级唤醒模块采用流式的dpconformer网络结构。

可选的，第一级唤醒模块采用DNN、LSTM、CNN中的任意一种网络结构。需要说明的是，第一级唤醒模块还可以采用其他适合流式场景的网络结构，第一级唤醒模块的网络结构可以类比参考第一级分离模块的网络结构，本申请实施例对此不加以限定。

其中，第一级唤醒模块的唤醒任务设计可以是唤醒任务的单任务设计，也可以是唤醒任务和其他任务的多任务设计，可选的，其他任务包括方位估计任务和/或声源对象识别任务。

可选的，第一唤醒数据包括第一置信度，第一置信度用于指示原始的第一麦克风数据中包括预设唤醒词的概率。可选的，第一唤醒数据包括多个声源数据各自对应的第二置信度，第二置信度用于指示该声源数据与预设唤醒词之间的声学特征相似度。

可选的，第一唤醒数据还包括唤醒事件对应的方位信息和/或唤醒对象的对象信息，对象信息用于指示声源数据的对象身份。

步骤305，根据第一唤醒数据，判断是否预唤醒。

电子设备设置第一级唤醒模块的第一门限值。其中，第一门限值为允许电子设备被预唤醒成功的阈值。

在一种可能的实现方式中，第一唤醒数据包括第一置信度，第一置信度用于指示原始的第一麦克风数据中包括预设唤醒词的概率，当第一唤醒数据中的第一置信度大于第一门限值时，确定预唤醒成功即第一级流式唤醒成功，将缓存的多通道特征数据和第一分离数据输入至第二级分离模块，执行步骤306；当第一置信度小于或者等于第一门限值时，确定预唤醒失败即第一级流式唤醒失败，结束进程。

在另一种可能的实现方式中，第一唤醒数据包括多个声源数据各自对应的第二置信度，第二置信度用于指示该声源数据与预设唤醒词之间的声学特征相似度，当第一唤醒数据中存在任意一个第二置信度大于第一门限值时，确定预唤醒成功即第一级流式唤醒成功，将缓存的多通道特征数据和第一分离数据输入至第二级分离模块，执行步骤306；当第一唤醒数据中的各个第二置信度均小于或者等于第一门限值时，确定预唤醒失败即第一级流式唤醒失败，结束进程。

步骤306，根据多通道特征数据和第一分离数据进行第二级分离处理得到第二分离数据。

其中，第二级分离处理也可以称为第二级神经网络分离处理，第二级分离处理为基于神经网络模型的分离处理，即第二级分离处理包括调用神经网络模型进行声源分离处理。

可选的，电子设备根据多通道特征数据和第一分离数据，调用预先训练完成的第二级分离模块输出得到第二分离数据。其中，第二级分离模块用于进行第二级分离处理，第二级分离处理为离线的声源分离处理。

可选的，第一唤醒数据还包括唤醒词对应的方位信息，电子设备根据多通道特征数据、第一分离数据和唤醒词对应的方位信息，调用第二级分离模块输出得到第二分离数据。

需要说明的是，对第一分离数据、多通道特征数据和第一唤醒数据的介绍可参考上述步骤中的相关描述，在此不再赘述。为了方便说明，下面仅以电子设备根据多通道特征数据和第一分离数据，调用预先训练完成的第二级分离模块输出得到第二分离数据为例进行说明。

可选的，第二级分离模块采用dpconformer网络结构。

电子设备根据多通道特征数据和第一分离数据，调用预先训练完成的第二级分离模块输出得到第二分离数据，包括但不限于如下两种可能的实现方式：

在一种可能的实现方式中，第二级分离模块包括第二级分离模型，电子设备将多通道特征和第一分离数据进行拼接，将拼接后的数据输入至第二级分离模型中输出得到第二分离数据。

在另一种可能的实现方式中，第二级分离模块包括第二级多特征融合模型和第二级分离模型，电子设备将多通道特征数据和第一分离数据输入至第二级多特征融合模型中输出得到第二单通道特征数据；将第二单通道特征数据输入至第二级分离模型输出得到第二分离数据。为了方便说明，下面仅以第二种可能的实现方式为例进行介绍。本申请实施例对此不加以限定。

可选的，第二级多特征融合模型为conformer特征融合模型。

其中，第二级分离模型为神经网络模型，即第二级分离模型为采用神经网络训练得到的模型。可选的，第二级分离模型采用dpconformer网络结构。或者，第二级分离模型采用深度神经网络(Deep Neural Networks，DNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、卷积神经网络(Convolutional Neural Networks，CNN)、全卷积时域音频分离网络(Conv-TasNet)、循环神经网络(Recurrent Neural Network，RNN)中的任意一种网络结构。需要说明的是，第二级分离模型还可以采用其他适合离线场景的网络结构，本申请实施例对此不加以限定。

其中，第二级分离模块的分离任务设计可以是离线声源分离任务的单任务设计，也可以是离线声源分离任务和其他任务的多任务设计，可选的，其他任务包括多个声源各自对应的方位估计任务和/或多个声源各自对应的声源对象识别任务。

在一种可能的实现方式中，第二级分离模块用于对多个声源数据进行盲分离，第二分离数据包括分离的多个声源数据。

在另一种可能的实现方式中，第二级分离模块用于从多个声源数据中提取目标对象的声源数据，第二分离数据包括提取的目标对象的声源数据。

在另一种可能的实现方式中，第二级分离模块用于基于视频信息从多个声源数据中提取目标对象的声源数据，第二分离数据包括提取的目标对象的声源数据。

在另一种可能的实现方式中，第二级分离模块用于从多个声源数据中提取目标方向的至少一个声源数据，第二分离数据包括目标方向的至少一个声源数据。

需要说明的是，多通道特征的融合、网络结构的选择、分离任务设计、代价函数的使用、分离结果的使用可以类比参考第一级分离处理的相关描述，在此不再赘述。

步骤307，根据多通道特征数据、第一分离数据和第二分离数据进行第二级唤醒处理得到第二唤醒数据。

可选的，电子设备根据多通道特征数据、第一分离数据和第二分离数据，调用预先训练完成的第二级唤醒模块输出得到第二唤醒数据。其中，第二级唤醒模块用于进行第二级唤醒处理，第二级唤醒处理为离线的声源唤醒处理。

可选的，第一唤醒数据还包括唤醒词对应的方位信息，电子设备根据多通道特征数据、第一分离数据、第二分离数据和唤醒词对应的方位信息，调用第二级唤醒模块输出得到第二唤醒数据。

需要说明的是，对多通道特征数据、第一分离数据和第二分离数据的介绍可参考上述步骤中的相关描述，在此不再赘述。

可选的，电子设备将多通道特征数据、第一分离数据和第二分离数据输入至第二级唤醒模块中输出得到第二唤醒数据。

可选的，第二级唤醒模块是采用固定唤醒词建模的，第二级唤醒模块为多输入单输出形式的唤醒模型，即唤醒方案为多输入单输出的流式唤醒方案(MISO-KWS)。或者，第二级唤醒模块是采用音素建模的，第二级唤醒模块包括多输入多输出形式的唤醒模型和第二后处理模块(比如解码器)，即唤醒方案为多输入多输出的流式唤醒方案(MIMO-KWS)。

可选的，第二级唤醒模块采用dpconformer网络结构。或者，第二级唤醒模块采用DNN、LSTM、CNN中的任意一种网络结构。需要说明的是，第二级唤醒模块还可以采用其他适合离线场景的网络结构，第二级唤醒模块的网络结构可以类比参考第二级分离模块的网络结构，本申请实施例对此不加以限定。

其中，第二级唤醒模块的唤醒任务设计可以是唤醒任务的单任务设计，也可以是唤醒任务和其他任务的多任务设计，可选的，其他任务包括方位估计任务和/或声源对象识别任务。

可选的，第二唤醒数据包括第三置信度，第三置信度用于指示原始的第一麦克风数据中包括预设唤醒词的概率。

可选的，第二唤醒数据包括多个声源数据各自对应的第四置信度，声源数据的第四置信度用于指示该声源数据与预设唤醒词之间的声学特征相似度。为了方便介绍，下面仅以第二唤醒数据包括第三置信度，第三置信度用于指示原始的第一麦克风数据中包括预设唤醒词的概率为例进行说明。

可选的，第二唤醒数据还包括唤醒事件对应的方位信息和/或唤醒对象的对象信息。

步骤308，根据第二唤醒数据，确定唤醒结果。

电子设备根据第二唤醒数据，确定唤醒结果，唤醒结果包括唤醒成功或者唤醒失败中的一种。

可选的，电子设备设置第二级唤醒模块的第二门限值。其中，第二门限值为允许电子设备被唤醒成功的阈值。示意性的，第二门限值大于第一门限值。

在一种可能的实现方式中，第二唤醒数据包括第三置信度，第三置信度用于指示原始的第一麦克风数据中包括预设唤醒词的概率。当第二唤醒数据中的第三置信度大于第二门限值时，电子设备确定唤醒结果为唤醒成功。当第三置信度小于或者等于第二门限值时，电子设备确定唤醒结果为唤醒失败，结束进程。

在另一种可能的实现方式中，第二唤醒数据包括多个声源数据各自对应的第四置信度，声源数据的第四置信度用于指示该声源数据与预设唤醒词之间的声学特征相似度。当第二唤醒数据中存在任意一个第四置信度大于第二门限值时，电子设备确定唤醒结果为唤醒成功。当第二唤醒数据中的各个第四置信度均小于或者等于第二门限值时，电子设备确定唤醒结果为唤醒失败，结束进程。

可选的，当第二唤醒数据指示唤醒成功时，电子设备输出唤醒成功标识；或者，输出唤醒成功标识和其他信息。其中，该唤醒成功标识用于指示唤醒成功，其他信息包括唤醒事件对应的方位信息、唤醒对象的对象信息。

需要说明的是，在保证唤醒率的同时减少误唤醒情况，本申请实施例设计了两级唤醒处理模块，在第一级唤醒成功后，调用更为复杂的第二级唤醒模块，对第一级唤醒成功后的数据进行离线唤醒确认。为了更好的支持唤醒方案这样的两级测试，对分离模块也进行了两级设计，第一级分离方案是流式的，需要一直在运行，所以第一级分离模块需要进行因果流式设计。流式设计一般会损失分离性能，所以在第一级唤醒成功后，在输出的数据上可以进行第二级分离方案，由于是离线场景，第二级唤醒方案可以采用离线的设计方案，同时第一级已经输出的数据同样可以用于第二级分离方案，最终得到更好的分离性能，从而最终更好的支持二级唤醒的效果。

在一个示意性的例子中，如图4所示，该电子设备包括第一级分离模块41(包括第一级分离模型)、第一级唤醒模块42、第二级分离模块43(包括第二级分离模型)和第二级唤醒模块44。电子设备将原始的第一麦克风数据输入至预处理模块进行预处理(比如声学回声抵消、去混响和波束滤波处理)，得到多通道特征数据；将多通道特征数据输入至第一级分离模块41进行第一级分离处理得到第一分离数据；将多通道特征数据和第一分离数据输入至第一级唤醒模块42进行第一级唤醒处理得到第一唤醒数据。电子设备根据第一唤醒数据，判断是否预唤醒。若判断出预唤醒成功，则将多通道特征数据和第一分离数据输入至第二级分离模块43进行第二级分离处理得到第二分离数据；将多通道特征数据、第一分离数据和第二分离数据输入至第二级唤醒模块44进行第二级唤醒处理得到第二唤醒数据。电子设备根据第二唤醒数据判断是否唤醒成功。

本申请实施例提供的语音唤醒方法主要从多声源分离技术和唤醒技术这两个角度进行优化设计，可以大幅度解决上述的技术问题。下面，分别对本申请实施例涉及的多声源分离技术和唤醒技术进行介绍。

在对多声源分离技术和唤醒技术进行介绍之前，先对dpconformer网络结构进行介绍。该dpconformer网络的结构示意图如图5所示。该dpconformer网络包括编码层、分离层和解码层。

1、编码层：该dpconformer网络接收单通道特征数据，经过一维卷积(1-D Conv)层得到中间特征数据，比如中间特征数据为二维矩阵。

可选的，对输入的单通道特征数据进行一维卷积运算，通过如下公式变换到输入时域数据的隐空间中：X＝RELU(x*W)；其中，x为时域的单通道特征数据，W为编码变换对应的权重系数，x通过W按固定的卷积核大小和卷积步长进行一维卷积运算，最终得到编码之后的中间特征数据满足X∈R ^N*I，其中N为编码的维度，I为时域的总帧数，中间特征数据X为N*I维的二维矩阵。

2、分离层包括数据切割模块、块内的conformer层和块间的conformer层。

(1)、数据切割模块

数据切割模块的输入参数为中间特征数据，输出参数为三维张量。即数据切割模块用于按照数据分帧分段方式将中间特征数据表示为三维张量，分别对应块内特征、块间特征以及特征维度。

可选的，将N*I维的二维矩阵按块等分切割成N*K*P维的三维张量，其中N为特征维度，K为块的个数，P为块的长度，块之间重叠P/2。

(3)、块内的conformer层

块内的conformer层的输入参数为数据切割模块输出的三维张量，输出参数为第一中间参数。

可选的，conformer层包括线性层、多头自注意力层(MultiHead Self-Attention，MHSA)、卷积层中的至少一个。

可选的，将K个长度为P的块，通过如下公式进行块内的conformer计算：

其中，b为当前所处的第b个dpconformer子模块，总共包括B个dpconformer子模块，每个dpconformer子模块包括一层块内的conformer层和一层块间的conformer层，B为正整数。

需要说明的是，流式场景和离线场景下，块内的conformer层的计算方式是相同的。

(4)、块间的conformer层

块间的conformer层的输入参数为块内的conformer层输出的第一中间参数，输出参数为第二中间参数。

可选的，离线场景下，在块内P的每一个相同维度上，通过如下公式进行各个块间的conformer计算：

块间的conformer层在离线场景在整句所有特征上计算注意力，而流式场景下，为了控制时延，利用掩模(mask)机制，只计算当前块及以前时刻的注意力，保证因果性。

可选的，流式场景下，当前时刻对应的块为t，当前块t的块间的conformer计算只与历史时刻对应的块到当前块t存在关联关系，与块t+1无关，则通过如下公式进行各个块间的conformer计算：

经过B层的块内以及块间的conformer层进行计算，即块内的conformer层与块间的conformer层重复计算B次。

然后，将经过2-D Conv层三维的N*K*P张量转换为C个N*I的二维矩阵，对应得到C个声源的掩蔽矩阵M，其中M是预设的待分离的声源个数。

3、解码层

根据各个声源的掩蔽矩阵M，与各个声源的隐空间表示通过一维卷积层，最终得到分离结果，即分离的多个声源数据。

本申请实施例提供的多声源分离方案为两阶段分离方案，以两阶段分离方案中的多特征融合模型和分离模块均采用图5提供的dpconformer网络结构为例，该两阶段分离方案如图6所示。

第一级流式分离模块包括conformer特征融合模型61和dpconformer分离模型62，第二级离线分离模块包括conformer特征融合模型63和dpconformer分离模型64。其中，第一级流式分离模块可以为上述的第一级分离模块41，第二级离线分离模块可以为上述的第二级离线分离模块43。

电子设备将多通道特征数据输入至conformer特征融合模型61中输出得到单通道特征数据；将单通道特征数据输入至dpconformer分离模型62输出得到第一分离数据。当预唤醒成功时，将多通道特征数据和第一分离数据输入至conformer特征融合模型63中输出得到单通道特征数据；将单通道特征数据输入至dpconformer分离模型64输出得到第二分离数据。

需要说明的是，为了方便介绍，仅以两阶段分离方案中的第一级分离方案为例进行说明，第二级分离方案可类比参考，不再赘述。

在一种可能的实现方式中，第一级分离方案包括盲分离技术，第一级分离方案包括但不限于如下几个方面，如图7所示：

(1)、特征输入部分：包括多通道特征数据。在多麦克风场景下，多通道特征数据包括多组多通道特征数据，可选的，多通道特征数据包括多个麦克风的原始时域数据、对应的多通道的变换域数据、多组IPD数据、多个预先设定方向的固定波束的输出数据、各个预设方向的方向性特征(Directional Features)数据中的至少一组多通道特征数据。比如特征输入部分包括三组多通道特征数据，即多通道特征数据1、多通道特征数据2和多通道特征数据3。本申请实施例对多通道特征数据的组数不加以限定。

(2)、conformer特征融合模型71：用于将多组多通道特征数据融合为单通道特征数据。首先，每组多通道特征数据基于conformer层，计算组内的通道间的第一注意力特征数据；然后，每组通道间的第一注意力特征数据再统一经过另一个conformer层即全通道注意力层72，得到各组的第二注意力特征数据，再经过池化层(pooling layer)或者投影层得到单通道的中间特征表示即单通道特征数据。

(3)、dpconformer分离模型73：用于将融合后的多组多通道特征数据即单通道特征数据输入至dpconformer分离模型，输出得到M个估计的声源数据，M为正整数。比如M个估计的声源数据包括声源数据1、声源数据2、声源数据3和声源数据4。本申请实施例对此不加以限定。

(4)、代价函数设计：代价函数训练时，多个声源数据的输出和对应的多个声源数据的标注存在置换混淆问题，所以需要使用置换不变训练准则(Permutation Invariant Training，PIT)，即确定多个声源数据对应的所有可能的标注顺序，根据多个标注顺序与代价函数的输出参数计算多个标注顺序各自对应的损失值，根据损失值最小的标注顺序进行梯度计算。除了采用上述方法训练代价函数以外，还可以使用多个声源数据的先验信息设置固定的排序顺序，以避免声源数据的个数增大而导致损失值计算复杂度高的问题。声源数据的先验信息包括该声源数据的起始时刻，将多个声源数据按照起始时刻从早到晚的顺序依次排列。

在另一种可能的实现方式中，第一级分离方案包括特定人提取技术，特定人提取技术是多声源干扰场景下的另一主要技术方案。该第一级分离方案包括但不限于如下几个方面，如图8所示：

(1)、特征输入部分：包括多通道特征数据和注册语音数据。与图7提供的第一级分离方案不同的是，在特定人提取场景下需要目标对象进行注册，将目标对象的注册语音数据作为额外的特征数据进行输入。比如特征输入部分包括多通道特征数据1、多通道特征数据2和注册语音数据。本申请实施例对多通道特征数据的组数不加以限定。

(2)、conformer特征融合模型81：用于将多组多通道特征数据和注册语音数据融合为单通道特征数据。首先，每组多通道特征数据基于conformer层，计算组内的通道间的第一注意力特征数据；然后，每组通道间的第一注意力特征数据和目标对象的说话人表示特征数据再统一经过全通道注意力层82，全通道注意力层82用于计算目标对象的说话人表示特征数据与其他的多通道特征数据之间的相关性，并融合输出得到单通道特征。

可选的，将目标对象的注册语音数据输入至说话人表示模型中，输出得到目标对象的嵌入(embedding)表示即说话人表示特征数据，其中说话人表示模型是预先训练得到，说话人表示模型是通过标准的说话人识别训练方法得到的。

可选的，将目标对象的说话人表示特征数据以向量形式预先存储在电子设备中。

(3)、dpconformer分离模型83：将单通道特征数据输入至dpconformer分离模型83，输出得到目标对象的声源数据。即该dpconformer分离模型83的输出参数为单输出参数，预期的输出参数为目标对象的声源数据。比如，目标对象的声源数据为声源数据1。

(4)、代价函数设计：可以类比参考上述代价函数的介绍，在此不再赘述。

在另一种可能的实现方式中，该第一级分离方案包括视觉数据辅助的特定人提取技术，该第一级分离方案包括但不限于如下几个方面，如图9所示：

(1)、特征输入部分：包括多通道特征数据和目标人视觉数据。在一些特定场景下，比如电视、手机、机器人、车载设备等电子设备装配有摄像头，这些电子设备可以在通过摄像头获取目标对象的视觉数据即目标人视觉数据。在这些场景下，可以利用目标人视觉数据辅助进行特定人提取任务。比如特征输入部分包括多通道特征数据1、多通道特征数据2和目标人视觉数据。本申请实施例对多通道特征数据的组数不加以限定。

(2)、conformer特征融合模型91：用于将多组多通道特征数据和视觉数据融合为单通道特征数据。首先，每组多通道特征数据基于conformer层，计算组内的通道间的第一注意力特征数据；然后，每组通道间的第一注意力特征数据和目标对象的视觉表示特征数据再统一经过全通道注意力层92，全通道注意力层92用于计算目标对象的视觉表示特征数据与其他的多通道特征数据之间的相关性，并融合输出得到单通道特征。

可选的，电子设备根据目标人视觉数据调用预先训练好的视觉分类模型输出得到目标对象的向量表示即视觉表示特征数据。比如视觉分类模型包括唇语识别模型，目标人视觉数据包括唇部活动视觉数据。本申请实施例对此不加以限定。

(3)、dpconformer分离模型93：将单通道特征数据输入至dpconformer分离模型，93输出得到目标对象的声源数据。即该dpconformer分离模型83的输出参数为单输出参数，预期的输出参数为目标对象的声源数据。比如，目标对象的声源数据为声源数据1。

在另一种可能的实现方式中，该第一级分离方案包括特定方向提取技术，特定方向提取技术是多声源干扰场景下提取预设的目标方向的声源数据的技术。该第一级分离方案包括但不限于如下几个方面，如图10所示：

(1)、特征输入部分：包括多通道特征数据和目标方向数据。类比参考图8提供的特定人提取技术，在该场景下，将目标方向数据作为额外的特征数据进行输入。比如特征输入部分包括多通道特征数据1、多通道特征数据2、多通道特征数据3和目标方向数据。本申请实施例对多通道特征数据的组数不加以限定。

(2)、conformer特征融合模型101：用于将多组多通道特征数据和目标方向数据融合为单通道特征数据。首先，每组多通道特征数据基于conformer层，计算组内的通道间的第一注意力特征数据；然后，每组通道间的第一注意力特征数据和目标方向数据的方向特征数据再统一经过全通道注意力层102，全通道注意力层102用于计算目标方向数据的方向特征数据与其他的多通道特征数据之间的相关性，并融合输出得到单通道特征。

可选的，根据目标方向数据和麦克风阵列的麦克位置信息，计算目标方向数据的方向特征数据。

可选的，将目标方向数据的方向特征数据预先存储在电子设备中。

(3)、dpconformer分离模型103：将单通道特征数据输入至dpconformer分离模型103，输出得到目标方向的至少一个声源数据。即该dpconformer分离模型103的输出参数为单输出参数或者多输出参数，预期的输出参数为目标方向的至少一个声源数据。比如，目标方向的至少一个声源数据包括声源数据1和声源数据2。

需要说明的是，上述第一级分离方案的几种可能的实现方式可以两两结合实施，或者其中任意三个结合实施，或者全部结合实施例，本申请实施例对此不加以限定。

在另一种可能的实现方式中，该第一级分离方案包括盲分离与多声源定位进行多任务设计的技术。该第一级分离方案包括但不限于如下几个方面，如图11所示：

(1)、特征输入部分：包括多通道特征数据。

(2)、conformer特征融合模型111(包括全通道注意力层112)：用于将多组多通道特征数据融合为单通道特征数据。

(3)、dpconformer分离模型113、声源分离层114和方向估计层115：将单通道特征数据输入至dpconformer分离模型113中输出得到中间参数，将中间参数输入至声源分离层114中输出得到声源分离结果，并将中间参数输入至方向估计层115中输出得到方位估计结果，声源分离结果包括分离的m个声源数据，方位估计结果包括m个声源数据各自对应的方位信息。比如，输出参数包括声源数据1和声源数据2，以及声源数据1的方位信息和声源数据2的方位信息。

其中，声源分离层114和方向估计层115可以作为单独的模块设置在dpconformer分离模型113外，即在dpconformer分离模型113的输出端设置声源分离层114以及方向估计层115。示意性的，方向估计层115输出的第i个方位信息是声源分离层114分离的第i个声源数据的方位信息，i为正整数。

可选的，方位信息为方位标签，采用one-hot向量形式。比如，多声源定位技术中将水平方位360度，以分辨率gamma＝10度为例，等分为360/gamma＝36份，即输出维度为36维，方向信息为36维的one-hot向量。

(4)、代价函数设计

可选的，分离任务与方向估计任务的代价函数均采用PIT准则。

需要说明的是，上述几个方面的介绍可类比参考上述实施例中的相关描述，在此不再赘述。

在另一种可能的实现方式中，该第一级分离方案包括特定人提取和特定人方位估计进行多任务设计的技术。该第一级分离方案包括但不限于如下几个方面，如图12所示：

(1)、特征输入部分：包括多通道特征数据和注册语音数据。

(2)、conformer特征融合模型121(包括全通道注意力层122)：用于将多组多通道特征数据和注册语音数据融合为单通道特征数据。

(3)、dpconformer分离模型123、特定人提取层124和特定人方位估计层125：将单通道特征数据输入至dpconformer分离模型123中输出得到中间参数，将中间参数输入至特定人提取层124中输出得到目标对象的声源数据，并将中间参数输入至特定人方位估计层中125输出得到目标对象的声源数据的方位信息。比如，输出参数包括目标对象的声源数据1和声源数据1的方位信息。可选的，方位信息为方位标签，采用one-hot向量形式。

在给定目标对象的注册语音数据后，利用说话人表示特征数据以及其他多通道特征数据，通过dpconformer网络结构，设计one-hot向量形式的方位标签，采用交叉熵(cross-entropy，CE)代价函数进行训练。特定人提取和特定人方位估计进行多任务设计的技术是通过将两个任务共享多通道特征数据、注册语音数据、conformer特征融合模型121和dpconformer分离模型123，dpconformer分离模型123的输出端设置特定人提取层124和特定人方位估计层125，分别采用分离任务和方位估计任务的代价函数加权进行多任务训练。

(4)、代价函数设计

在另一种可能的实现方式中，该第一级分离方案包括盲分离与多说话人识别进行多任务设计的技术，盲分离与多说话人识别进行多任务设计的技术是从麦克风数据中分离出多个声源数据，并识别出多个声源数据各自对应的对象信息，对象信息用于指示该声源数据的对象身份。可选的，电子设备中存储有多个样本声源数据与多个对象信息之间的对应关系。该第一级分离方案包括但不限于如下几个方面，如图13所示：

(1)、特征输入部分：包括多通道特征数据。

(2)、conformer特征融合模型131(包括全通道注意力层132)：用于将多组多通道特征数据融合为单通道特征数据。

(3)、dpconformer分离模型133、声源分离层134和对象识别层135：将单通道特征数据输入至dpconformer分离模型1333中输出得到中间参数，将中间参数输入至声源分离层134中输出得到声源分离结果，并将中间参数输入至对象识别层135中输出得到对象识别结果，声源分离结果包括分离的m个声源数据，对象识别结果包括m个声源数据各自对应的对象信息。比如，输出参数包括声源数据1和声源数据2，以及声源数据1的对象信息和声源数据2的对象信息。

分离任务和对象识别任务共享多通道特征数据、conformer特征融合模型131和dpconformer分离模型133，在dpconformer分离模型133的输出端设置声源分离层134以及对象识别层135。声源分离层134分离出多个声源数据。对象识别层135在帧级特征计算完成后，进行段级特征融合，得到段级的多对象表示，每个段的对象表示输出该段表示的对象身份，对应的对象信息为one-hot向量，用于指示对象身份。可选的，one-hot向量的维数为对象个数，一个声源数据对应的one-hot向量中该声源数据对应的位置为1，用于指示该声源数据的对象在多个对象中的说话顺序，其他位置为0。

对象识别层135输出的第i个对象信息是声源分离层134分离的第i个声源数据的对象信息，i为正整数。

(4)、代价函数设计

可选的，分离任务与对象识别任务的代价函数均采用PIT准则。

在另一种可能的实现方式中，该第一级分离方案包括特定人提取和特定人确认进行多任务设计的技术。特定人提取任务是利用目标对象的注册语音数据，从麦克风数据中提取出目标对象的声源数据。而单独的特定人提取任务，可能存在麦克风数据中不包含目标对象的声源数据，但特定人提取任务还是会输出声源数据，因此需要设置特定人确认任务，对提取的声源数据进行确认。特定人确认任务是确认提取出的声源数据与目标对象的注册语音数据是否相同，或者确认提取出的声源数据对应的对象中是否包含目标对象。特定人提取和特定人确认进行多任务设计的技术是在提取目标对象的声源数据的同时，确定该声源数据的对象识别结果。同样，该任务为离线设计。该第一级分离方案包括但不限于如下几个方面，如图14所示：

(1)、特征输入部分：包括多通道特征数据和注册语音数据。

(2)、conformer特征融合模型141(包括全通道注意力层142)：用于将多组多通道特征数据和注册语音数据融合为单通道特征数据。

(3)、dpconformer分离模型143、特定人提取层144和特定人确认层145：将单通道特征数据输入至dpconformer分离模型143中输出得到中间参数，将中间参数输入至特定人提取层144中输出得到目标对象的声源数据，并将中间参数输入至特定人确认层145中输出得到该声源数据的对象识别结果，对象识别结果用于指示输出的声源数据与注册语音数据之间的声学特征相似度。可选的，对象识别结果包括输出的声源数据对应的对象为目标对象的概率。比如，输出参数包括目标对象的声源数据1和声源数据1的对象识别结果。

特定人提取和特定人确认任务共享多通道特征数据、conformer特征融合模型141和dpconformer分离模型143，在dpconformer分离模型143的输出端设置特定人提取层144和特定人确认层145。

(4)、代价函数设计

本申请实施例涉及的唤醒方案为两阶段唤醒方案，两阶段唤醒方案中的第一级唤醒模块和第二级唤醒模块均为多输入的唤醒模型结构，比如唤醒模型结构为DNN、LSTM、CNN、Transformer、conformer中的任意一种网络结构。需要说明的是，唤醒模型结构还可以采用其他的网络结构，为了方便介绍仅以两阶段唤醒方案中的第一级唤醒模块和第二级唤醒模块均采用图5提供的dpconformer网络结构为例进行说明，该两阶段唤醒方案如图15所示。

电子设备将多通道特征数据和第一分离数据输入至dpconformer唤醒模块151中输出得到第一唤醒数据；当第一唤醒数据指示预唤醒成功时，将多通道特征数据、第一分离数据和第二分离数据输入至dpconformer唤醒模块152中输出得到第二唤醒数据；根据第二唤醒数据确定唤醒结果。

需要说明的是，为了方便介绍，仅以两阶段唤醒方案中的第一级唤醒方案为例进行说明，第二级唤醒方案可类比参考，不再赘述。

在一种可能的实现方式中，本申请实施例提供的第一级唤醒方案包括多输入单输出整词建模的唤醒技术，第一级唤醒模块为多输入单输出整词建模唤醒模块，如图16所示，包括但不限于如下几个方面：

(1)、特征输入部分：包括多组多通道特征数据。其中多组多通道特征数据包括对第一麦克风数据进行预处理得到的多通道特征数据和进行第一级分离处理得到的第一分离数据。

(2)、conformer特征融合模型161(包括全通道注意力层162)：用于将多组多通道特征数据融合为单通道特征数据。

(3)、dpconformer分离模型163：将单通道特征数据输入至dpconformer分离模型163，输出得到第一置信度，第一置信度用于指示原始的第一麦克风数据中包括预设唤醒词的概率，该预设唤醒词为默认设置的固定唤醒词。

比如，预设唤醒词包括N个唤醒词，dpconformer分离模型163输出的第一置信度为N+1维向量，N+1维向量的N个维度分别对应N个唤醒词，另外一个维度对应不属于N个唤醒词的类别。N+1维向量中的每个维度的值为0到1之间的概率值，该概率值用于指示对应位置的唤醒词的唤醒概率。

(4)、代价函数设计

需要说明的是，上述几个方面的介绍可类比参考第一级分离方案中的相关描述，在此不再赘述。

在本实施例中，dpconformer分离模型163的输出参数为单输出参数，建模单元的个数为唤醒词个数加一，额外的一个单元为垃圾单元，该垃圾单元用于输出唤醒词以外的其他词的概率值，dpconformer分离模型163的输出参数为第一置信度。

可选的，两个预设唤醒词为预设唤醒词1和预设唤醒词2，每个建模单元的概率值为第一数值、第二数值和第三数值中的一种，当概率值为第一数值时用于指示该声源数据不包括预设唤醒词，当概率值为第二数值时用于指示该声源数据包括预设唤醒词1，当概率值为第三数值时用于指示声源数据包括预设唤醒词2。比如，预设唤醒词1为“小艺小艺”，预设唤醒词2为“你好小艺”，第一数值为0，第二数值为1，第三数值为2。本申请实施例对此不加以限定。

第一级唤醒模块是实时计算的，对于当前输入的多组多通道特征数据，第一级唤醒模块实时判断是否包括固定唤醒词。当输出的第一置信度大于第一门限值，则确定预唤醒成功。对于第一级唤醒模块，电子设备确定预唤醒成功，此时已经接收完整的唤醒词信息，将当前时刻确定为唤醒时刻，用于给第二级分离模块和第二级唤醒模块提供时间点参考信息，并启动第二级离线分离模块。

在另一种可能的实现方式中，本申请实施例提供的唤醒方案包括多输入多输出音素建模的唤醒技术，第一级唤醒模块为多输入多输出音素建模唤醒模块，如图17所示，包括但不限于如下几个方面：

(2)、conformer特征融合模型171(包括全通道注意力层172)：用于将多组多通道特征数据融合为单通道特征数据。

(3)、dpconformer分离模型173：将单通道特征数据输入至dpconformer分离模型173，输出得到音素集，该音素集包括多个声源数据各自对应的音素序列信息，可选的，音素序列信息为音素序列后验概率，音素序列后验概率为该声源数据对应的各个音素的后验概率值的乘积。比如，dpconformer分离模型173的输出参数包括声源数据1的音素序列信息1和声源数据2的音素序列信息2。

(4)、代价函数设计

对于多输入多输出音素建模唤醒模块，dpconformer分离模型173的输出参数为多个声源数据各自对应的音素序列信息，将多个音素序列信息分别输入至解码器中，最终输出得到多个音素序列信息各自对应的第二置信度。

其中，声源数据对应的音素序列信息用于指示该声源数据中多个音素的概率分布，即音素序列信息包括多个音素各自对应的概率值。对于多个音素序列信息中的每个音素序列信息，调用一次解码器得到该音素序列信息各自对应的第二置信度，第二置信度用于指示该声源数据与预设唤醒词之间的声学特征相似度。解码器部分不能参与模型计算，模型在没法判断哪个分离的声源数据为预设唤醒词的情况下，需要计算得到多个声源数据各自对应的音素序列信息。

在本实施例中，建模单元为音素，音素是基本语音单元的表示形式。比如，对于唤醒词“小艺小艺”，对应的音素序列可以为“x i ao y i x i ao y i”，各个音素以空格表示。多声源干扰场景下，声源数据1对应的音素序列1是“x i ao y i x i ao y i”，而声源数据2对应的语音内容可以是“天气怎么样”，对应的音素序列2为“t i an q i z en m o y ang”。dpconformer分离模型173的输出参数包括两个音素序列信息，即声源数据1对应的音素序列1“x i ao y i x i ao y i”的概率值，和声源数据2对应的音素序列12“t i an q i z en m o y ang”的概率值。

对于第一级唤醒模块，以输出参数包括两个音素序列信息为例，一个音素序列信息可以为声源数据1所对应的各个音素的概率分布，另一个音素序列信息可以为声源数据2所对应的各个音素的概率分布。比如，音素集大小为100，则两个音素序列信息分别为100维向量，向量的取值位于大于或者等于0，且小于或者等于1的范围，并且100维的各个数值的和为1。比如，两个音素序列信息分别为100维向量，第一个音素序列信息中对应“x”位置的概率值最高，第二个音素序列信息中对应“t”位置的概率值最高。

在确定两个音素序列信息后，分别计算预设唤醒词的音素序列“x i ao y i x i ao y i”在这音素序列的输出概率并进行几何平均，得到这两个音素序列信息各自对应的第二置信度。当任意一个第二置信度大于第一门限值时，则确定预唤醒成功。

在另一种可能的实现方式中，本申请实施例提供的唤醒方案包括多输入单输出整词建模的唤醒与方向估计进行多任务设计的技术，第一级唤醒模块为多输入单输出整词建模唤醒模块，如图18所示，包括但不限于如下几个方面：

(2)、conformer特征融合模型181(包括全通道注意力层182)：用于将多组多通道特征数据融合为单通道特征数据。

(3)、dpconformer分离模型183、唤醒词检测层184和方位估计层185：将单通道特征数据输入至dpconformer分离模型183中输出得到中间参数，将中间参数输入至唤醒词检测层184中输出得到唤醒信息，并将中间参数输入至方位估计层185中输出得到唤醒事件的方位信息，唤醒信息包括分离出的多个声源数据各自对应的第一置信度，比如方位信息采用one-hot向量形式。

对于唤醒任务，模型是为了计算各个唤醒事件以及垃圾词的概率，而方向估计任务只输出唤醒事件对应的方位信息。因此方位信息为唤醒成功对应的方向估计任务的输出参数。

其中，唤醒词检测层184和方位估计层185可以为额外的网络模块，设置在dpconformer分离模型183的输出端，比如一层的DNN或LSTM，并接着对应维度的线性层和Softmax层。对于唤醒任务，唤醒词检测层184的输出参数(即唤醒信息)为唤醒词的检测概率。对于方位估计任务，方位估计层185的输出参数(即方位信息)为方位估计向量的概率分布。

(4)、代价函数设计

在另一种可能的实现方式中，本申请实施例提供的唤醒方案包括多输入多输出音素建模唤醒与方向估计进行多任务设计的技术，第一级唤醒模块为多输入多输出音素建模唤醒模块，如图19所示，包括但不限于如下几个方面：

(2)、conformer特征融合模型191(包括全通道注意力层192)：用于将多组多通道特征数据融合为单通道特征数据。

(3)、dpconformer分离模型193、多唤醒音素序列层194和方位估计层195：将单通道特征数据输入至dpconformer分离模型193中输出得到中间参数，将中间参数输入至多唤醒音素序列层194中输出得到唤醒信息，并将中间参数输入至方位估计层195中输出得到方位估计结果，唤醒信息包括多个声源数据各自对应的音素序列信息，方位估计结果包括多个音素序列信息各自对应的方位信息。可选的，音素序列信息为音素序列后验概率，音素序列后验概率为该声源数据对应的各个音素的后验概率值的乘积。比如，输出参数包括声源数据1的音素序列信息1、声源数据2的音素序列信息2、音素序列信息1的方位信息和音素序列信息2的方位信息。

其中，多唤醒音素序列层194和方位估计层195可以为额外的网络模块，设置在dpconformer分离模型193的输出端。

(4)、代价函数设计

唤醒任务和方向估计任务共享特征输入部分、conformer特征融合模型191和 pconformer分离模型193，唤醒任务的输出参数包括多个声源数据各自对应的音素序列信息，方位估计任务的输出参数包括多个音素序列信息各自对应的方位信息。最终各个音素序列信息通过解码器得到唤醒结果即第一置信度。

需要说明的是，上述第一级唤醒方案的几种可能的实现方式可以两两结合实施，或者其中任意三个结合实施，或者全部结合实施例，本申请实施例对此不加以限定。

下面，采用几个示意性的例子对本申请实施例提供的语音唤醒方法进行介绍。

在一个示意性的例子中，电子设备为具有单麦克风的设备，该语音唤醒方法为单通道的两级分离以及两级唤醒的方法。该方法可以使用在电子设备的近场唤醒场景下，当用户在嘈杂环境中使用电子设备的唤醒功能时，在保证唤醒功能具有较高的唤醒率的同时，降低误唤醒率。

如图20所示，该电子设备包括第一级分离模块201、第一级唤醒模块202、第二级分离模块203和第二级唤醒模块204。电子设备通过单麦克风采集原始的第一麦克风数据(比如背景音乐、回声、说话声1、说话声2、说话声K和环境噪声)，将第一麦克风数据输入至预处理模块205进行预处理，得到多通道特征数据；将多通道特征数据输入至第一级分离模块201进行第一级分离处理得到第一分离数据；将多通道特征数据和第一分离数据输入至第一级唤醒模块202进行第一级唤醒处理得到第一唤醒数据。电子设备根据第一唤醒数据，判断是否预唤醒。若判断出预唤醒成功，则将多通道特征数据和第一分离数据输入至第二级分离模块203进行第二级分离处理得到第二分离数据；将多通道特征数据、第一分离数据和第二分离数据输入至第二级唤醒模块204进行第二级唤醒处理得到第二唤醒数据。电子设备根据第二唤醒数据判断是否唤醒成功。

基于图20提供的语音唤醒方法，部分步骤还可以被替换实现成为如下一些可能的实现方式。

可选的，预处理模块包括声学回声抵消模块。将声学回声抵消模块的输出参数作为多通道特征数据，输入至后续的分离模块和唤醒模块。

可选的，预处理模块包括声学回声抵消模块和去混响模块。将声学回声抵消模块的输出参数输入至去混响模块，将去混响模块的输出参数作为多通道特征数据，输入至后续的分离模块和唤醒模块。

可选的，第一级唤醒模块和第二级唤醒模块均为上述的多输入单输出整词建模唤醒模块。可选的，第一级唤醒模块和第二级唤醒模块均为上述的多输入多输出音素建模唤醒模块。

可选的，当该场景需要支持特定人唤醒的需求时，两级唤醒模块需要支持特定人确认功能。在一种可能的实现方式中，基于图20提供的例子，如图21所示，第二级分离模块203输出的多个声源数据和目标对象的注册语音数据(即注册说话声)输入至说话人确认模块(Speaker Identification，SID)210，用于确认分离出的多个声源数据是否包括注册语音数据，说话人确认模块210作为单独的网络模块，区别于第二级唤醒模块204。如果第二级唤醒模块204输出的第二唤醒数据指示唤醒成功，且说话人确认模块210确认分离出的多个声源数据中包括注册语音数据，则确定唤醒成功，否则唤醒失败。

在另一种可能的实现方式中，基于图20提供的例子，如图22所示，说话人确认模块210集成在第二级唤醒模块204中，将第一级分离模块201输出的多个声源数据、第二级分离模块203输出的多个声源数据和目标对象的注册语音数据(即注册说话声)输入至第二级唤醒模块204(包括说话人确认模块210)中，输出得到第二唤醒数据和对象确认结果，当第二唤醒数据指示唤醒成功且对象确认结果指示输出的声源数据中存在目标对象的声源数据时，确定唤醒成功，否则唤醒失败。

可选地，对象确认结果用于指示输出的声源数据中是否存在目标对象的声源数据，即对象确认结果用于指示当前的唤醒事件是否为目标对象所引起的。示意性的，对象确认结果包括第一标识和第二标识中的一种，第一标识用于指示输出的声源数据中存在目标对象的声源数据，第二标识用于指示输出的声源数据中不存在目标对象的声源数据。当第二唤醒数据指示唤醒成功且对象确认结果为第一标识时，确定唤醒成功，否则唤醒失败。

在另一种可能的实现方式中，基于图22提供的例子，如图23所示，第一级分离模块201被替换实现为第一级特定人提取模块231，第二级分离模块203被替换实现为第二级特定人提取模块232。将多通道特征数据和注册语音数据输入至第一级特定人提取模块231中输出得到目标对象的第一声源数据，将多通道特征数据和目标对象的第一声源数据输入至第一级唤醒模块202中输出得到第一唤醒数据，当第一唤醒数据指示预唤醒成功时，将多通道特征数据、目标对象的第一声源数据和目标对象的注册语音数据(即注册说话声)输入至第二级特定人提取模块232输出得到目标对象的第二声源数据，将多通道特征数据、目标对象的第一声源数据、第二声源数据、目标对象的注册语音数据输入至第二级唤醒模块204(包括说话人确认模块210)中，输出得到第二唤醒数据和对象确认结果，当第二唤醒数据指示唤醒成功且对象确认结果指示输出的声源数据中存在目标对象的声源数据时，确定唤醒成功，否则唤醒失败。

需要说明的是，在该场景下还可以支持特定人提取技术、视觉数据辅助的特定人提取技术、特定方向提取技术、盲分离与多声源定位进行多任务设计的技术、特定人提取和特定人方位估计进行多任务设计的技术、盲分离与多说话人识别进行多任务设计的技术、唤醒与方向估计进行多任务设计的技术等等。各个步骤的实现细节可参考上述实施例中的相关描述，在此不再赘述。

在另一个示意性的例子中，电子设备为具有多麦克风的设备，该语音唤醒方法为多通道的两级分离以及两级唤醒的方法。该方法可以使用在具有多麦克风的电子设备中，电子设备用于响应预设唤醒词。

如图24所示，该电子设备包括第一级分离模块241、第一级唤醒模块242、第二级分离模块243和第二级唤醒模块244。电子设备通过多麦克风采集原始的第一麦克风数据(比如背景音乐、回声、同向的说话声1和说话声2、说话声K以及环境噪声)，将第一麦克风数据输入至预处理模块245进行预处理，得到多通道特征数据；将多通道特征数据输入至第一级分离模块241进行第一级分离处理得到第一分离数据；将多通道特征数据和第一分离数据输入至第一级唤醒模块242进行第一级唤醒处理得到第一唤醒数据。电子设备根据第一唤醒数据，判断是否预唤醒。若判断出预唤醒成功，则将多通道特征数据和第一分离数据输入至第二级分离模块243进行第二级分离处理得到第二分离数据；将多通道特征数据、第一分离数据和第二分离数据输入至第二级唤醒模块244进行第二级唤醒处理得到第二唤醒数据。电子设备根据第二唤醒数据判断是否唤醒成功。

基于图24提供的语音唤醒方法，部分步骤还可以被替换实现成为如下一些可能的实现方式。

可选的，预处理模块包括声学回声抵消模块。可选的，预处理模块包括声学回声抵消模块和去混响模块。

可选的，预处理模块包括声学回声抵消模块、去混响模块和波束滤波模块。将原始的第一麦克风数据进行回声抵消以及去混响处理后，进行多个方向的波束滤波，得到多路波束滤波输出参数、去混响后的多麦克数据和场景的IPD等多组多通道特征数据，输入至后续的分离模块和唤醒模块。

可选地，在分离、唤醒和定位的多任务场景下，分离任务可以与定位任务进行多任务设计，唤醒任务也可以与定位任务进行多任务设计。可选地，分离任务的执行主体为方向特征提取器，方向特征提取器可以集成在分离模块或唤醒模块中，最终输出得到分离的多个声源数据和多个声源数据各自对应的方位信息。相关介绍可参考上述实施例中对包括定位任务的多任务设计的相关描述，在此不再赘述。

在多任务设计的需求场景下，包括但不限于如下几种可能的多任务设计方式：

1、第一级流式分离与方位估计的多任务设计。第一级分离模块的输出参数包括流式分离的多个声源数据和多个声源数据各自对应的方位信息，第一级分离模块的输出参数可以提供给第一级唤醒模块、第二级分离模块和第二级唤醒模外，第一级分离模块输出的多个声源数据还可以提供给声学事件检测模块，用以判断当前的各个声源数据是否包含特定的声学事件，或者同时提供给说话人确认模块，用以判断当前的各个声源数据对应的身份信息。第一级分离模块输出的多个方位信息可以提供给系统交互控制模块，用以实时显示多个声源数据各自对应的方位。

2、第一级流式唤醒与说话人识别、方位估计的多任务设计。第一级唤醒模块的输出参数包括流式分离的多个声源数据、多个声源数据各自对应的方位信息和对象确认结果，可以用于判断当前的唤醒事件是否为目标对象引起，以及唤醒时刻对应的方位信息。第一级唤醒模块输出的多个方位信息，可以提供给后端系统，用于判断目标对象的主要方位，比如提供给波束形成模块，对该方位上的声源数据进行实时增强，将加强后的声源数据进行语音识别。

3、第二级离线分离与说话人识别、方位估计的多任务设计。离线场景下说话人识别与方位估计的结果更为准确，第二级分离模块的输出参数包括离线分离的多个声源数据、多个声源数据各自对应的方位信息和对象确认结果。第二级分离模块的输出参数可以用于系统调试，确定分离结果的质量。

4、第二级离线唤醒和说话人识别、方位估计的多任务设计：离线唤醒的效果优于实时流式唤醒的效果。第二级唤醒模块的输出参数包括离线分离的多个声源数据、多个声源数据各自对应的方位信息和对象确认结果。方位信息可以作为唤醒事件的补充信息，用于进行后续的唤醒方向增强任务，进行语音识别。

在一种可能的实现方式中，基于图24提供的例子，第二级离线唤醒与唤醒方位估计的多任务设计的示意图如图25所示，第二级唤醒模块244可以采用多输入多输出形式或多输入单输出形式的唤醒模型，最终输出得到分离的多个声源数据和多个声源数据各自对应的方位信息。

在另一种可能的实现方式中，基于图24提供的例子，第二级离线唤醒与说话人确认的多任务设计的示意图如图26所示，说话人确认模块261集成在第二级唤醒模块244中，将第一级分离模块241输出的多个声源数据、第二级分离模块243输出的多个声源数据和目标对象的注册语音数据(即注册说话声)输入至第二级唤醒模块244(包括说话人确认模块261)中，输出得到第二唤醒数据和对象确认结果，当第二唤醒数据指示唤醒成功且对象确认结果指示输出的声源数据中存在目标对象的声源数据时，确定唤醒成功，否则唤醒失败。

可选的，该场景还支持基于神经网络的分离与传统波束技术的结合使用。除了将第一分离数据输入至第一级唤醒模块，将第一分离数据和第二分离数据输入至第二级唤醒模块使用外，还可以将第一分离数据和第二分离数据输入至自适应波束形成模块，比如最小方差无失真频响波束滤波器(Minimum Variance Distortionless Response，MVDR)，用于计算噪声干扰协方差矩阵，从而得到更好的空间干扰抑制效果。多个声源数据进行波束滤波后的输出参数可以作为新的声源数据，同时作为额外的特征数据输入至第一级唤醒模块和/或第二级唤醒模块，增强唤醒效果。

在一种可能的实现方式中，基于图24提供的例子，如图27所示，将第一分离数据输入至自适应波束形成模块271中输出得到第一滤波数据，将多通道特征数据、第一分离数据和第一滤波数据输入至第一级唤醒模块242中输出得到第一唤醒数据，当第一唤醒数据指示预唤醒成功时，将多通道特征数据和第一分离数据输入至第二级分离模块242中输出得到第二分离数据，将第二分离数据输入至自适应波束形成模块272中输出得到第二滤波数据，将多通道特征数据、第一分离数据、第二分离数据、第二滤波数据输入至第二级唤醒模块244中，输出得到第二唤醒数据，根据第二唤醒数据确定是否唤醒成功。

可选的，该场景还支持全神经网络的多声源唤醒方案。不使用预处理模块，将原始的第一麦克风数据和计算出的多通道特征数据输入至后续的分离模块和唤醒模块。可选的，第一级分离模块和第二级分离模块需要考虑回声场景，所以需要接受回声的参考信号，用于处理回声问题。在该实现方式中，语音唤醒方法可以运行在装配有GPU或者张量处理单元(Tensor Processing Unit，TPU)等专用神经网络加速的芯片中，从而得到更好的算法加速效果。

在一种可能的实现方式中，基于图24提供的例子，如图28所示，不使用预处理模块245，将原始的第一麦克风数据、计算出的多通道特征数据和回声参考数据输入至第一分离模块241，输出得到第一分离数据，将第一麦克风数据、多通道特征数据和第一分离数据输入至第一级唤醒模块242中输出得到第一唤醒数据，当第一唤醒数据指示预唤醒成功时，将第一麦克风数据、多通道特征数据、第一分离数据和回声参考信号输入至第二级分离模块242中输出得到第二分离数据，将第一麦克风数据、多通道特征数据、第一分离数据和第二分离数据输入至第二级唤醒模块244中，输出得到第二唤醒数据，根据第二唤醒数据确定是否唤醒成功。

综上所述，本申请实施例提供的语音唤醒方法，在一方面，基于conformer的自注意力网络层建模技术，提供了对偶路径的conformer网络结构，通过设计块内和块间交替进行conformer层的计算，既能对长序列进行建模，又可以避免直接使用conformer带来的计算量增加问题，并且由于conformer网络较强的建模能力，可以显著提升分离效果。

在另一方面，提供了conformer的多组多通道特征数据的融合机制。对于多组多通道特征先进行组内的第一注意力特征数据的计算，再进行组间的第二注意力特征数据的计算，让模型更好的学习到各个特征对最终分离效果的贡献，进一步保证了后续的分离效果。

在另一方面，提供了两阶段分离方案，即用于第一级唤醒的流式分离过程，以及用于第二级唤醒的离线分离过程，由于第二级分离模块可以额外采用第一级分离模块输出的第一分离数据作为输入参数，进一步加强分离效果。

在另一方面，提供了多输入形式的唤醒模块，与相关技术中单输入的唤醒模块相比，不但可以节省计算量，避免多次重复调用唤醒模型带来的计算量显著增加和浪费问题；而且，由于更好的利用各个输入参数的相关性，大大提高了唤醒性能。

在另一方面，提供了声源唤醒任务和其他任务的多任务设计方案，比如其他任务包括声源定位任务、特定人提取任务、特定方向提取任务、特定人确认任务中的至少一种，可以将声源唤醒结果与其他信息关联起来，提供给下游任务，提高了唤醒模块(即第一级唤醒模块和/或第二级唤醒模块)的输出效果。比如其他任务为声源定位任务，输出的唤醒数据包括多个声源数据和多个声源数据各自对应的方位信息，这样唤醒模块可以在提供声源唤醒结果的同时提供更准确的方位信息，与相关技术中直接做空间多固定波束的方案相比，保证了更准确的方位估计效果。又比如，其他任务为特定人提取任务，输出的唤醒数据包括目标对象的声源数据，从而使得电子设备只会响应特定人(即目标对象)的唤醒，进一步降低了误唤醒率。又比如，其他任务为特定方向提取任务，输出的唤醒数据包括目标方向的至少一个声源数据，从而使得电子设备只会响应特定方向(即目标方向)的唤醒，进一步降低了误唤醒率。又比如，以本申请实施例提供的语音唤醒方法的执行主体为机器人为例，其他任务为特定人提取任务和声源定位任务，输出的唤醒数据包括目标对象的声源数据和目标对象的声源数据的方位信息，使得机器人只会响应特定人(即目标对象)的唤醒，并且在被唤醒的同时确定出该特定人的方位，从而机器人可以调整自身朝向以面向特定人，保证后续更好地接受其发出的指令。

请参考图29，其示出了本申请另一个示例性实施例提供的语音唤醒方法的流程图，本实施例以该方法用于图2所示的电子设备中来举例说明。该方法包括以下几个步骤。

步骤2901，获取原始的第一麦克风数据。

步骤2902，根据第一麦克风数据进行第一级处理得到第一唤醒数据，第一级处理包括基于神经网络模型的第一级分离处理和第一级唤醒处理。

步骤2903，当第一唤醒数据指示预唤醒成功时根据第一麦克风数据进行第二级处理得到第二唤醒数据，第二级处理包括基于神经网络模型的第二级分离处理和第二级唤醒处理。

步骤2904，根据第二唤醒数据确定唤醒结果。

需要说明的是，本实施例中的各个步骤的相关介绍可参考上述方法实施例中的相关描述，在此不再赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图30，其示出了本申请一个示例性实施例提供的语音唤醒装置的框图。该装置可以通过软件、硬件或者两者的结合实现成为一个或多个芯片，或者实现成为语音唤醒系统，或者实现成为图2提供的电子设备的全部或者一部分。该装置可以包括：获取模块3010、第一级处理模块3020、第二级处理模块3030和确定模块3040；

获取模块3010，用于获取原始的第一麦克风数据；

第一级处理模块3020，用于根据第一麦克风数据进行第一级处理得到第一唤醒数据，第一级处理包括基于神经网络模型的第一级分离处理和第一级唤醒处理；

第二级处理模块3030，用于当第一唤醒数据指示预唤醒成功时根据第一麦克风数据进行第二级处理得到第二唤醒数据，第二级处理包括基于神经网络模型的第二级分离处理和第二级唤醒处理；

确定模块3040，用于根据第二唤醒数据确定唤醒结果。

在一种可能的实现方式中，该装置还包括预处理模块，第一级处理模块3020还包括第一级分离模块和第一级唤醒模块；

预处理模块，用于对第一麦克风数据进行预处理得到多通道特征数据；

第一级分离模块，用于根据多通道特征数据进行第一级分离处理，输出得到第一分离数据；

第一级唤醒模块，用于根据多通道特征数据和第一分离数据进行第一级唤醒处理，输出得到第一唤醒数据。

在另一种可能的实现方式中，第二级处理模块3030还包括第二级分离模块和第二级唤醒模块；

第二级分离模块，用于当第一唤醒数据指示预唤醒成功时，根据多通道特征数据和第一分离数据进行第二级分离处理，输出得到第二分离数据；

第二级唤醒模块，用于根据多通道特征数据、第一分离数据和第二分离数据进行第二级唤醒处理，输出得到第二唤醒数据。

在另一种可能的实现方式中，第一级分离处理为流式的声源分离处理，第一级唤醒处理为流式的声源唤醒处理；和/或，

第二级分离处理为离线的声源分离处理，第二级唤醒处理为离线的声源唤醒处理。

在另一种可能的实现方式中，

第一级唤醒模块包括多输入单输出形式或者多输入多输出形式的唤醒模型；和/或，

第二级唤醒模块包括多输入单输出形式或者多输入多输出形式的唤醒模型。

在另一种可能的实现方式中，第一级分离模块和/或第二级分离模块采用对偶路径的conformer网络结构。

在另一种可能的实现方式中，第一级分离模块和/或第二级分离模块为用于执行至少一个任务的分离模块，至少一个任务包括单独的声源分离任务，或者包括声源分离任务和其他任务；

其中，其他任务包括声源定位任务、特定人提取任务、特定方向提取任务、特定人确认任务中的至少一种。

在另一种可能的实现方式中，第一级唤醒模块和/或第二级唤醒模块为用于执行至少一个任务的唤醒模块，至少一个任务包括单独的唤醒任务，或者包括唤醒任务和其他任务；

在另一种可能的实现方式中，第一级分离模块包括第一级多特征融合模型和第一级分离模型；第一级分离模块，还用于：

将多通道特征数据输入至第一级多特征融合模型中输出得到第一单通道特征数据；

将第一单通道特征数据输入至第一级分离模型输出得到第一分离数据。

在另一种可能的实现方式中，第二级分离模块包括第二级多特征融合模型和第二级分离模型；第二级分离模块，还用于：

将多通道特征数据和第一分离数据输入至第二级多特征融合模型中输出得到第二单通道特征数据；

将第二单通道特征数据输入至第二级分离模型输出得到第二分离数据。

在另一种可能的实现方式中，第一级唤醒模块包括多输入单输出形式的第一唤醒模型，第一级唤醒模块，还用于：

将多通道特征数据和第一分离数据输入至第一级唤醒模型中输出得到第一唤醒数据，第一唤醒数据包括第一置信度，第一置信度用于指示原始的第一麦克风数据中包括预设唤醒词的概率。

在另一种可能的实现方式中，第一级唤醒模块包括多输入多输出形式的第一唤醒模型和第一后处理模块，第一级唤醒模块，还用于：

将多通道特征数据和第一分离数据输入至第一唤醒模型中，输出得到多个声源数据各自对应的音素序列信息；

将多个声源数据各自对应的音素序列信息输入至第一后处理模块中，输出得到第一唤醒数据，第一唤醒数据包括多个声源数据各自对应的第二置信度，第二置信度用于指示声源数据与预设唤醒词之间的声学特征相似度。

在另一种可能的实现方式中，第二级唤醒模块包括多输入单输出形式的第二唤醒模型，第二级唤醒模块，还用于：

将多通道特征数据、第一分离数据和第二分离数据输入至第二级唤醒模型中输出得到第二唤醒数据，第二唤醒数据包括第三置信度，第三置信度用于指示原始的第一麦克风数据中包括预设唤醒词的概率。

在另一种可能的实现方式中，第二级唤醒模块包括多输入多输出形式的第二唤醒模型和第二后处理模块，第二级唤醒模块，还用于：

将多通道特征数据、第一分离数据和第二分离数据输入至第二级唤醒模型中，输出得到多个声源数据各自对应的音素序列信息；

将多个声源数据各自对应的音素序列信息输入至第二后处理模块中，输出得到第二唤醒数据，第二唤醒数据包括多个声源数据各自对应的第四置信度，第四置信度用于指示声源数据与预设唤醒词之间的声学特征相似度。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种电子设备，该电子设备包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令时实现上述由电子设备执行的方法。

本申请实施例提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当计算机可读代码在电子设备的处理器中运行时，电子设备中的处理器执行上述由电子设备执行的方法。

本申请实施例提供了一种语音唤醒系统，该语音唤醒系统用于执行上述由电子设备执行的方法。

本申请实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令被处理器执行时实现上述由电子设备执行的方法。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(Electrically Programmable Read-Only-Memory，EPROM或闪存)、静态随机存取存储器(Static Random-Access Memory，SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能盘(Digital Video Disc，DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

这里所描述的计算机可读程序指令或代码可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture，ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(Local Area Network，LAN)或广域网(Wide Area Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或可编程逻辑阵列(Programmable Logic Array，PLA)，该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本申请的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行相应的功能或动作的硬件(例如电路或ASIC(Application Specific Integrated Circuit，专用集成电路))来实现，或者可以用硬件和软件的组合，如固件等来实现。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其它变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种语音唤醒方法，其特征在于，所述方法包括：

获取原始的第一麦克风数据；

根据所述第一麦克风数据进行第一级处理得到第一唤醒数据，所述第一级处理包括基于神经网络模型的第一级分离处理和第一级唤醒处理；

当所述第一唤醒数据指示预唤醒成功时根据所述第一麦克风数据进行第二级处理得到第二唤醒数据，所述第二级处理包括基于神经网络模型的第二级分离处理和第二级唤醒处理；

根据所述第二唤醒数据确定唤醒结果。
根据权利要求1所述的方法，其特征在于，所述根据所述第一麦克风数据进行第一级处理得到第一唤醒数据，包括：

对所述第一麦克风数据进行预处理得到多通道特征数据；

根据所述多通道特征数据，调用预先训练完成的第一级分离模块输出得到第一分离数据，所述第一级分离模块用于进行所述第一级分离处理；

根据所述多通道特征数据和所述第一分离数据，调用预先训练完成的第一级唤醒模块输出得到所述第一唤醒数据，所述第一级唤醒模块用于进行所述第一级唤醒处理。
根据权利要求2所述的方法，其特征在于，所述当所述第一唤醒数据指示预唤醒成功时根据所述第一麦克风数据进行第二级处理得到第二唤醒数据，包括：

当所述第一唤醒数据指示预唤醒成功时，根据所述多通道特征数据和所述第一分离数据调用预先训练完成的第二级分离模块输出得到第二分离数据，所述第二级分离模块用于进行所述第二级分离处理；

根据所述多通道特征数据、所述第一分离数据和所述第二分离数据，调用预先训练完成的第二级唤醒模块输出得到所述第二唤醒数据，所述第二级唤醒模块用于进行所述第二级唤醒处理。
根据权利要求3所述的方法，其特征在于，

所述第一级分离处理为流式的声源分离处理，所述第一级唤醒处理为流式的声源唤醒处理；和/或，

所述第二级分离处理为离线的声源分离处理，所述第二级唤醒处理为离线的声源唤醒处理。
根据权利要求3或4所述的方法，其特征在于，

所述第一级唤醒模块包括多输入单输出形式或者多输入多输出形式的唤醒模型；和/或，

所述第二级唤醒模块包括多输入单输出形式或者多输入多输出形式的唤醒模型。
根据权利要求3至5任一所述的方法，其特征在于，所述第一级分离模块和/或所述第二级分离模块采用对偶路径的conformer网络结构。
根据权利要求3至6任一所述的方法，其特征在于，所述第一级分离模块和/或所述第二级分离模块为用于执行至少一个任务的分离模块，所述至少一个任务包括单独的声源分离任务，或者包括所述声源分离任务和其他任务；

其中，所述其他任务包括声源定位任务、特定人提取任务、特定方向提取任务、特定人确认任务中的至少一种。
根据权利要求3至7任一所述的方法，其特征在于，所述第一级唤醒模块和/或所述第二级唤醒模块为用于执行至少一个任务的唤醒模块，所述至少一个任务包括单独的唤醒任务，或者包括所述唤醒任务和其他任务；

其中，所述其他任务包括声源定位任务、特定人提取任务、特定方向提取任务、特定人确认任务中的至少一种。
根据权利要求2至8任一所述的方法，其特征在于，所述第一级分离模块包括第一级多特征融合模型和第一级分离模型；所述根据所述多通道特征数据，调用预先训练完成的第一级分离模块输出得到第一分离数据，包括：

将所述多通道特征数据输入至所述第一级多特征融合模型中输出得到第一单通道特征数据；

将所述第一单通道特征数据输入至所述第一级分离模型输出得到所述第一分离数据。
根据权利要求3至9任一所述的方法，其特征在于，所述第二级分离模块包括第二级多特征融合模型和第二级分离模型；所述根据所述多通道特征数据和所述第一分离数据调用预先训练完成的第二级分离模块输出得到第二分离数据，包括：

将所述多通道特征数据和所述第一分离数据输入至所述第二级多特征融合模型中输出得到第二单通道特征数据；

将所述第二单通道特征数据输入至所述第二级分离模型输出得到所述第二分离数据。
根据权利要求2至10任一所述的方法，其特征在于，所述第一级唤醒模块包括多输入单输出形式的第一唤醒模型，所述根据所述多通道特征数据和所述第一分离数据，调用预先训练完成的第一级唤醒模块输出得到所述第一唤醒数据，包括：

将所述多通道特征数据和所述第一分离数据输入至所述第一级唤醒模型中输出得到所述第一唤醒数据，所述第一唤醒数据包括第一置信度，所述第一置信度用于指示原始的所述第一麦克风数据中包括预设唤醒词的概率。
根据权利要求2至10任一所述的方法，其特征在于，所述第一级唤醒模块包括多输入多输出形式的第一唤醒模型和第一后处理模块，所述根据所述多通道特征数据和所述第一分离数据，调用预先训练完成的第一级唤醒模块输出得到所述第一唤醒数据，包括：

将所述多通道特征数据和所述第一分离数据输入至所述第一唤醒模型中，输出得到多个声源数据各自对应的音素序列信息；

将所述多个声源数据各自对应的音素序列信息输入至所述第一后处理模块中，输出得到所述第一唤醒数据，所述第一唤醒数据包括多个声源数据各自对应的第二置信度，所述第二置信度用于指示所述声源数据与预设唤醒词之间的声学特征相似度。
根据权利要求3至12任一所述的方法，其特征在于，所述第二级唤醒模块包括多输入单输出形式的第二唤醒模型，所述根据所述多通道特征数据、所述第一分离数据和所述第二分离数据，调用预先训练完成的第二级唤醒模块输出得到所述第二唤醒数据，包括：

将所述多通道特征数据、所述第一分离数据和所述第二分离数据输入至所述第二级唤醒模型中输出得到所述第二唤醒数据，所述第二唤醒数据包括第三置信度，所述第三置信度用于指示原始的所述第一麦克风数据中包括预设唤醒词的概率。
根据权利要求3至12任一所述的方法，其特征在于，所述第二级唤醒模块包括多输入多输出形式的第二唤醒模型和第二后处理模块，所述根据所述多通道特征数据、所述第一分离数据和所述第二分离数据，调用预先训练完成的第二级唤醒模块输出得到所述第二唤醒数据，包括：

将所述多通道特征数据、所述第一分离数据和所述第二分离数据输入至所述第二级唤醒模型中，输出得到多个声源数据各自对应的音素序列信息；

将所述多个声源数据各自对应的音素序列信息输入至所述第二后处理模块中，输出得到所述第二唤醒数据，所述第二唤醒数据包括多个声源数据各自对应的第四置信度，所述第四置信度用于指示所述声源数据与预设唤醒词之间的声学特征相似度。
一种语音唤醒装置，其特征在于，所述装置包括：获取模块、第一级处理模块、第二级处理模块和确定模块；

所述获取模块，用于获取原始的第一麦克风数据；

所述第一级处理模块，用于根据所述第一麦克风数据进行第一级处理得到第一唤醒数据，所述第一级处理包括基于神经网络模型的第一级分离处理和第一级唤醒处理；

所述第二级处理模块，用于当所述第一唤醒数据指示预唤醒成功时根据所述第一麦克风数据进行第二级处理得到第二唤醒数据，所述第二级处理包括基于神经网络模型的第二级分离处理和第二级唤醒处理；

所述确定模块，用于根据所述第二唤醒数据确定唤醒结果。
根据权利要求15所述的装置，其特征在于，所述装置还包括预处理模块，所述第一级处理模块还包括第一级分离模块和第一级唤醒模块；

所述预处理模块，用于对所述第一麦克风数据进行预处理得到多通道特征数据；

所述第一级分离模块，用于根据所述多通道特征数据进行所述第一级分离处理，输出得到第一分离数据；

所述第一级唤醒模块，用于根据所述多通道特征数据和所述第一分离数据进行所述第一级唤醒处理，输出得到所述第一唤醒数据。
根据权利要求16所述的装置，其特征在于，所述第二级处理模块还包括第二级分离模块和第二级唤醒模块；

所述第二级分离模块，用于当所述第一唤醒数据指示预唤醒成功时，根据所述多通道特征数据和所述第一分离数据进行所述第二级分离处理，输出得到第二分离数据；

所述第二级唤醒模块，用于根据所述多通道特征数据、所述第一分离数据和所述第二分离数据进行所述第二级唤醒处理，输出得到所述第二唤醒数据。
根据权利要求17所述的装置，其特征在于，

所述第一级分离处理为流式的声源分离处理，所述第一级唤醒处理为流式的声源唤醒处理；和/或，

所述第二级分离处理为离线的声源分离处理，所述第二级唤醒处理为离线的声源唤醒处理。
根据权利要求17或18所述的装置，其特征在于，

所述第一级唤醒模块包括多输入单输出形式或者多输入多输出形式的唤醒模型；和/或，

所述第二级唤醒模块包括多输入单输出形式或者多输入多输出形式的唤醒模型。
根据权利要求17至19任一所述的装置，其特征在于，所述第一级分离模块和/或所述第二级分离模块采用对偶路径的conformer网络结构。
根据权利要求17至20任一所述的装置，其特征在于，所述第一级分离模块和/或所述第二级分离模块为用于执行至少一个任务的分离模块，所述至少一个任务包括单独的声源分离任务，或者包括所述声源分离任务和其他任务；

其中，所述其他任务包括声源定位任务、特定人提取任务、特定方向提取任务、特定人确认任务中的至少一种。
根据权利要求17至21任一所述的装置，其特征在于，所述第一级唤醒模块和/或所述第二级唤醒模块为用于执行至少一个任务的唤醒模块，所述至少一个任务包括单独的唤醒任务，或者包括所述唤醒任务和其他任务；

其中，所述其他任务包括声源定位任务、特定人提取任务、特定方向提取任务、特定人确认任务中的至少一种。
根据权利要求16至22任一所述的装置，其特征在于，所述第一级分离模块包括第一级多特征融合模型和第一级分离模型；所述第一级分离模块，还用于：

将所述多通道特征数据输入至所述第一级多特征融合模型中输出得到第一单通道特征数据；

将所述第一单通道特征数据输入至所述第一级分离模型输出得到所述第一分离数据。
根据权利要求17至23任一所述的装置，其特征在于，所述第二级分离模块包括第二级多特征融合模型和第二级分离模型；所述第二级分离模块，还用于：

将所述多通道特征数据和所述第一分离数据输入至所述第二级多特征融合模型中输出得到第二单通道特征数据；

将所述第二单通道特征数据输入至所述第二级分离模型输出得到所述第二分离数据。
根据权利要求16至24任一所述的装置，其特征在于，所述第一级唤醒模块包括多输入单输出形式的第一唤醒模型，所述第一级唤醒模块，还用于：

将所述多通道特征数据和所述第一分离数据输入至所述第一级唤醒模型中输出得到所述第一唤醒数据，所述第一唤醒数据包括第一置信度，所述第一置信度用于指示原始的所述第一麦克风数据中包括预设唤醒词的概率。
根据权利要求16至24任一所述的装置，其特征在于，所述第一级唤醒模块包括多输入多输出形式的第一唤醒模型和第一后处理模块，所述第一级唤醒模块，还用于：

将所述多通道特征数据和所述第一分离数据输入至所述第一唤醒模型中，输出得到多个声源数据各自对应的音素序列信息；

将所述多个声源数据各自对应的音素序列信息输入至所述第一后处理模块中，输出得到所述第一唤醒数据，所述第一唤醒数据包括多个声源数据各自对应的第二置信度，所述第二置信度用于指示所述声源数据与预设唤醒词之间的声学特征相似度。
根据权利要求17至26任一所述的装置，其特征在于，所述第二级唤醒模块包括多输入单输出形式的第二唤醒模型，所述第二级唤醒模块，还用于：

将所述多通道特征数据、所述第一分离数据和所述第二分离数据输入至所述第二级唤醒模型中输出得到所述第二唤醒数据，所述第二唤醒数据包括第三置信度，所述第三置信度用于指示原始的所述第一麦克风数据中包括预设唤醒词的概率。
根据权利要求17至26任一所述的装置，其特征在于，所述第二级唤醒模块包括多输入多输出形式的第二唤醒模型和第二后处理模块，所述第二级唤醒模块，还用于：

将所述多通道特征数据、所述第一分离数据和所述第二分离数据输入至所述第二级唤醒模型中，输出得到多个声源数据各自对应的音素序列信息；

将所述多个声源数据各自对应的音素序列信息输入至所述第二后处理模块中，输出得到所述第二唤醒数据，所述第二唤醒数据包括多个声源数据各自对应的第四置信度，所述第四置信度用于指示所述声源数据与预设唤醒词之间的声学特征相似度。
一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令时实现权利要求1-14任意一项所述的方法。
一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1-14中任意一项所述的方法。
一种语音唤醒系统，其特征在于，所述语音唤醒系统用于执行权利要求1-14任意一项所述的方法。