WO2023116087A1

WO2023116087A1 - 语音交互指令处理方法、装置及计算机可读存储介质

Info

Publication number: WO2023116087A1
Application number: PCT/CN2022/119828
Authority: WO
Inventors: 朱长宝; 牛建伟; 余凯
Original assignee: 北京地平线机器人技术研发有限公司
Priority date: 2021-12-21
Filing date: 2022-09-20
Publication date: 2023-06-29
Also published as: CN114255753A

Abstract

一种语音交互指令处理方法、装置及计算机可读存储介质，该方法包括：获取待响应语音交互指令（110）；确定待响应语音交互指令的产生位置（120）；基于待响应语音交互指令的产生位置，确定是否响应待响应语音交互指令（130）。该方法能够避免车辆外部的人员对车辆的语音控制。

Description

语音交互指令处理方法、装置及计算机可读存储介质

本公开要求在2021年12月21日提交的、申请号为202111574733.2、发明名称为“语音交互指令处理方法、装置及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及驾驶技术领域，尤其涉及一种语音交互指令处理方法、装置及计算机可读存储介质。

背景技术

基于车辆的语音控制功能，车辆内部的人员可以通过语音交互的方式，对车辆进行语音控制。然而，车辆内部不能完全隔绝车辆外部的声音，这样会导致车辆外部的人员也能够对车辆进行语音控制，如何避免车辆外部的人员对车辆的语音控制对于本领域技术人员而言是一个亟待解决的问题。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音交互指令处理方法、装置、计算机可读存储介质及电子设备。

根据本公开实施例的一个方面，提供了一种语音交互指令处理方法，包括：

获取待响应语音交互指令；

确定所述待响应语音交互指令的产生位置；

基于所述待响应语音交互指令的产生位置，确定是否响应所述待响应语音交互指令。

根据本公开实施例的另一个方面，提供了一种语音交互指令处理装置，包括：

第一获取模块，用于获取待响应语音交互指令；

第一确定模块，用于确定所述第一获取模块获取的所述待响应语音交互指令的产生位置；

第二确定模块，用于基于所述第一确定模块确定的所述待响应语音交互指令的产生位置，确定是否响应所述第一获取模块获取的所述待响应语音交互指令。

根据本公开实施例的再一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述语音交互指令处理方法。

根据本公开实施例的又一个方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述语音交互指令处理方法。

基于本公开上述实施例提供的一种语音交互指令处理方法、装置、计算机可读存储介质及电子设备，可以基于待响应语音交互指令的产生位置，确定是否响应待响应语音交互指令，这样可以区分语音交互指令产生于车辆内部和车辆外部的情况，从而区分语音交互指令来自于车辆内部的人员和车辆外部的人员的情况，对于来自于车辆外部的人员的语音交互指令可以不予响应，进而避免车辆外部的人员对车辆的语音控制。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的语音交互指令处理方法的流程示意图。

图2是本公开另一示例性实施例提供的语音交互指令处理方法的流程示意图。

图3是本公开再一示例性实施例提供的语音交互指令处理方法的流程示意图。

图4是本公开又一示例性实施例提供的语音交互指令处理方法的流程示意图。

图5是本公开又一示例性实施例提供的语音交互指令处理方法的流程示意图。

图6是本公开又一示例性实施例提供的语音交互指令处理方法的流程示意图。

图7是本公开一示例性实施例提供的语音交互指令处理装置的结构示意图。

图8是本公开另一示例性实施例提供的语音交互指令处理装置的结构示意图。

图9是本公开再一示例性实施例提供的语音交互指令处理装置的结构示意图。

图10是本公开又一示例性实施例提供的语音交互指令处理装置的结构示意图。

图11是本公开又一示例性实施例提供的语音交互指令处理装置的结构示意图。

图12是本公开又一示例性实施例提供的语音交互指令处理装置的结构示意图。

图13是本公开又一示例性实施例提供的语音交互指令处理装置的结构示意图。

图14是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

公开概述

基于车辆的语音控制功能，车辆内部的人员可以通过语音交互的方式，对车辆进行语音控制，例如，车辆内部的人员可以通过说“播音乐”实现车载娱乐设备对音乐的播放，车辆内部的人员可以通过说“开车窗”实现车窗的开启。

由于车辆内部不能完全隔绝车辆外部的声音，如果车辆外部的人员说“播音乐”，车载娱乐设备也会播放音乐，而车辆内部的人员当前可能并不希望听音乐，如果车辆外部的人员说“开车窗”，车窗也会开启，这样会导致车辆内部的财物存在遗失风险，因此，有必要提供一种方法，避免车辆外部的人员对车辆的语音控制。

示例性方法

图1是本公开一示例性实施例提供的语音交互指令处理方法的流程示意图。图1所示的方法包括步骤110、步骤120和步骤130，下面分别对各步骤进行说明。

步骤110，获取待响应语音交互指令。

在步骤110中，可以调用麦克风等语音采集设备进行语音信号的采集，通过对采集到的语音信号进行检测，可以确定采集到的语音信号中是否包括承载有语音交互指令的语音信号，如果确定结果为是，则可以基于采集到的语音信号，获取语音交互指令，该语音交互指令即可作为待响应语音交互指令。可选地，语音采集设备既可以设置于车辆内部，也可以设置于车辆外部。

步骤120，确定待响应语音交互指令的产生位置。

需要说明的是，待响应语音交互指令的产生位置可以有两种情况，分别是车辆内部和车辆外部，并且，待响应语音交互指令的产生位置的确定方式多样，为了布局清楚，后续进行举例介绍。

步骤130，基于待响应语音交互指令的产生位置，确定是否响应待响应语音交互指令。

在待响应语音交互指令的产生位置为车辆内部的情况下，这说明待响应语音交互指令来自于车辆内部的人员，那么，可以确定响应待响应语音交互指令，以满足车辆内部的人员对车辆的语音控制需求；在待响应语音交互指令的产生位置为车辆外部的情况下，这说明待响应语音交互指令来自于车辆外部的人员，那么，可以确定不响应待响应语音交互指令，以避免车辆外部的人员对车辆的语音控制。

基于本公开上述实施例提供的一种语音交互指令处理方法，可以基于待响应语音交互指令的产生位置，确定是否响应待响应语音交互指令，这样可以区分语音交互指令产生于车辆内部和车辆外部的情况，从而区分语音交互指令来自于车辆内部的人员和车辆外部的人员的情况，对于来自于车辆外部的人员的语音交互指令可以不予响应，进而避免车辆外部的人员对车辆的语音控制。

在一个可选示例中，待响应语音交互指令包括对在车辆内部采集的语音信号进行检测获取的第一语音交互指令，以及对在车辆外部采集的语音信号进行检测获取的第二语音交互指令，且第二语音交互指令与第一语音交互指令的获取时刻之间的间隔时长小于预设时长。

可选地，第二语音交互指令的获取时刻可以早于第一语音交互指令，或者，第二语音交互指令的获取时刻可以晚于第一语音交互指令。

可选地，预设时长可以为0.2秒、0.3秒、0.5秒或者其它较短的时长，在此不再一一列举。

需要说明的是，车辆内部可以设置有第一语音采集设备，车辆外部可以设置有第二语音采集设备，第一语音交互指令可以通过对第一语音采集设备采集的语音信号进行检测获取，第二语音交互指令可以通过对第二语音采集设备采集的语音信号进行检测获取。可选地，对于第一语音采集设备采集的语音信号，可以先对其进行语音增强，然后通过对经增强后的语音信号进行检测来获取第一语音交互指令。类似地，对于第二语音采集设备采集的语音信号，也可以先对其进行语音增强，然后通过对经增强后的语音信号进行检测来获取第二语音交互指令。

需要指出的是，由于第二语音交互指令与第一语音交互指令的获取时刻之间的间隔非常短，第二语音交互指令与第一语音交互指令很可能是基于不同语音采集设备获取的相同语音交互指令，当然，在一些情况下(例如车辆内部的人员说“开车窗”的同时，车辆外部的人员说“播音乐”的情况下)，第二语音交互指令与第一语音交互指令也可能是基于不同语音采集设备获取的不同语音交互指令。

在图1所示实施例的基础上，如图2所示，步骤120，包括步骤1201、步骤1202和步骤1203。

步骤1201，确定第一语音交互指令的第一语音特征信息。

可选地，第一语音交互指令的第一语音特征信息包括但不限于语音信号能量、语音信号置信度、声纹信息等；其中，语音信号能量可以利用声压级进行表征，语音信号置信度可以利用传统声学模型进行确定，声纹信息可以利用声纹识别技术确定。

步骤1202，确定第二语音交互指令的第二语音特征信息。

需要说明的是，第二语音交互指令的第二语音特征信息包含的信息和确定方式参照对第一语音特征信息的相关说明即可，在此不再赘述。

步骤1203，基于第一语音特征信息和第二语音特征信息，确定待响应语音交互指令的产生位置为车辆内部或车辆外部。

在一种具体实施方式中，步骤1203，包括：

基于第一语音特征信息，获取第一语音信号能量，以及基于第二语音特征信息，获取第二语音信号能量；

基于第一语音信号能量与第二语音信号能量之间的大小关系，确定待响应语音交互指令的产生位置为车辆内部或车辆外部。

本实施方式中，可以从第一语音特征信息中提取语音信号能量以作为第一语音信号能量，从第二语音特征信息中提取语音信号能量作为第二语音信号能量，将第一语音信号能量与第二语音信号能量进行大小比较，并基于通过大小比较得到的大小关系，确定待响应语音交互指令的产生位置。

假设第一语音信号能量利用第一语音交互指令的声压级表征，第二语音信号能量利用第二语音交互指令的声压级表征，则可以在大小关系表征第一语音交互指令的声压级低于第二语音交互指令的声压级的情况下，确定待响应语音交互指令的产生位置为车辆外部，并在大小关系表征第一语音交互指令的声压级高于第二语音交互指令的声压级的情况下，确定待响应语音交互指令的产生位置为车辆内部。

需要说明的是，由于声音在传播过程中是存在能量损失的，对于相同语音交互指令，基于对在车辆内部采集的语音信号进行检测和对车辆外部采集的语音信号进行检测来对其进行获取时，获取结果的语音信号能量是存在差异的，另外，不同语音交互指令的语音信号能量往往也是存在差异的，有鉴于此，本实施方式中可以利用上述特性，参考第一语音交互指令与第二语音交互指令两者的语音信号能量之间的大小关系，高效可靠地确定待响应语音交互的产生位置具体是车辆内部还是车辆外部。

在另一种具体实施方式中，步骤1203，包括：

基于第一语音特征信息，获取第一语音信号置信度，以及基于第二语音特征信息，获取第二语音信号置信度；

基于第二语音信号置信度和第一语音信号置信度的差值，确定待响应语音交互指令的产生位置为车辆内部或车辆外部。

需要说明的是，任一语音交互指令的语音信号置信度可以用于表征该语音交互指令本身的可信程度。

本实施方式中，可以从第一语音特征信息中提取语音信号置信度以作为第一语音信号置信度，从第二语音特征信息中提取语音信号置信度以作为第二语音信号置信度，计算第二语音信号置信度与第一语音信号置信度的差值，并基于通过计算得到的差值，确定待响应语音交互指令的产生位置。

可选地，可以将差值与第一预设阈值(例如0.2、0.3等)进行大小比较，在通过大小比较得到的大小关系表征差值大于预设阈值的情况下，确定待响应语音交互指令的产生位置为车辆外部，并在通过大小比较得到的大小关系为差值小于或等于预设阈值的情况下，确定待响应语音交互指令的产生位置为车辆内部。

需要说明的是，理论上来说，对于相同语音交互指令，基于对在车辆内部采集的语音信号进行检测和对车辆外部采集的语音信号进行检测来对其进行获取时，获取结果的语音信号置信度是存在差异的，另外，不同语音交互指令的语音信号置信度往往也是存在差异的，有鉴于此，本实施例中可以利用上述特性，参考第二语音交互指令与第一语音交互指令两者的语音信号置信度的差值，高效可靠地确定待响应语音交互的产生位置具体是车辆内部还是车辆外部。

可见，本公开的实施例中，通过在车辆内部和车辆外部均进行语音信号的采集，可以得到获取时刻间隔较短的第一语音交互指令和第二语音交互指令，通过对第一语音交互指令和第二语音交互指令进行语音特征信息的比对，可以高效可靠地确定待响应语音交互的产生位置具体是车辆内部还是车辆外部。

需要说明的是，图2所示实施例中，第一语音采集设备和第二语音采集设备可以预先校准至相同的灵敏度，以保证第一语音采集设备和第二语音采集设备采集到同样声压级的语音信号，通过模拟数字转换器(Analog-to-digital converter，ADC)传入车辆的语音交互系统后能够获取到同样能量的声音，消除由于第一语音采集设备和第二语音采集设备的增益不同而导致车辆内外声音拾取的差异，从而保证后续基于第一语音信号能量与第二语音信号能量之间的大小关系，确定待响应语音交互指令的产生位置时，确定结果的准确性和可靠性。

在图1所示实施例的基础上，如图3所示，步骤120，包括步骤1204、步骤1205和步骤1206。

步骤1204，确定待响应语音交互指令的声源方向。

在步骤1204中，可以利用声源定位技术，确定待响应语音交互指令的声源方向。可选地，声源定位技术可以为传声器阵列技术。

步骤1205，确定车辆内部各乘员的座位位置。

可选地，车辆的每个座椅均可以设置有座椅传感器，在步骤1205中，可以基于各座椅传感器的检测信号，确定车辆中的哪些座椅上有乘员，哪些座椅上没有乘员，从而据此确定车辆内部各乘员的座位位置。当然，步骤1205的具体实施方式并不局限于此，例如，可以调用位于车辆内部图像传感器采集图像(例如下文中的第一图像)，通过现有算法检测第一图像中的人脸框，基于检测结果，可以确定车辆中的哪些座椅上有乘员，哪些座椅上没有乘员，从而据此确定车辆内部各乘员的座位位置。

步骤1206，基于声源方向和各乘员的座位位置之间的第一匹配度，确定待响应语音交互指令的产生位置为车辆内部或车辆外部。

在步骤1206中，可以确定待响应语音交互指令的声源方向与车辆内部各乘员的座位位置之间的第一匹配度。可选地，声源方向可以利用一坐标系中起点为原点的一方向向量(为了便于描述，后续将其称为第一方向向量)进行表征，对于车辆内部某一乘员的座位位置，可以在该坐标系中确定该乘员位置的对应点，确定由原点指向该对应点的方向向量(为了便于描述，后续将其称为第二方向向量)，之后可以计算第二方向向量与第一方向向量之间的夹角大小，并将夹角大小映射至0至1这个指定区间，得到的映射值可以作为声源方向与该座位位置之间的第一匹配度。

在待响应语音交互指令的声源方向与车辆内部各乘员的座位位置之间的第一匹配度中，存在大于第二预设阈值(例如0.7、0.8、0.9等)的第一匹配度的情况下，可以认为待响应语音交互指令来自于车辆内部的某一乘员，因此，可以确定待响应语音交互指令的产生位置为车辆内部，否则，可以认为待响应语音交互指令不来自于车辆内部的任一乘员，因此，可以确定待响应语音交互指令的产生位置为车辆外部。

需要说明的是，在待响应语音交互指令来自于车辆内部的某一乘员的情况下，待响应语音交互指令的声源方向与该乘员的座位位置理论上是相匹配的，有鉴于此，本公开的实施例中，可以通过待响应语音交互指令的声源方向与车辆内部各乘员的座位位置之间的匹配性判断，高效可靠地确定待响应语音交互指令的产生位置。

在图1所示实施例的基础上，如图4所示，步骤120，包括：

步骤1207，将待响应语音交互指令输入预先训练好的语音识别模型，获取语音识别模型输出的产生位置分类信息。

需要说明的是，可以预先通过模型训练，得到用于识别输入语音的产生位置的语音识别模型。具体地，对于特定车辆，可以获取多组样本数据，每组样本数据中包括一语音数据(其可以由设置于特定车辆内部的语音采集设备采集)和一标签数据，该标签数据用于表征该语音数据实际产生于车辆内部还是车辆外部，在该语音数据实际产生于车辆内部的情况下，该标签数据可以为1，在该语音数据实际产生于车辆外部的情况下，该标签数据可以为0。实际训练时，可以多组样本数据中的语音数据作为输入数据，以多组样本数据中的标签数据作为输出数据进行训练，从而得到语音识别模型。

一般而言，语音交互指令呈语音数据的形式，在步骤1207中，可以将待响应语音交互指令输入预先训练好的语音识别模型，语音识别模型可以基于待响应语音交互指令进行运算，从而输出待响应语音交互指令的产生位置分类信息。可选地，待响应语音交互指令的产生位置分类信息可以用于表征待响应语音交互指令的产生位置为车辆内部的置信度，在该置信度大于预设置信度(例如0.75、0.8、0.9等)的情况下，可以认为待响应语音交互指令的产生位置为车辆内部，否则，可以认为语音交互指令的产生位置为车辆外部。

可见，本公开的实施例中，通过以产生于车辆内部的语音数据作为正样本，以产生于车辆外部的语音数据作为负样本进行训练，能够生成用于识别输入的语音数据的产生位置的语音识别模型，这样，基于语音识别模型，能够高效可靠地确定待响应语音交互指令的产生位置为车辆内部还是车辆外部。

需要指出的是，在进行模型训练时，也可以将产生于车辆内部的语音数据作为负样本，以产生于车辆外部的语音数据作为正样本，这时，待响应语音交互指令的产生位置分类信息可以用于表征待响应语音交互指令的产生位置为车辆外部的置信度。

在图1所示实施例的基础上，如图5所示，该方法还包括步骤111和步骤112。

步骤111，获取位于车辆内部图像传感器(为了便于描述，后续将其称为第一图像传感器)采集的第一图像。

可选地，第一图像传感器可以为电荷耦合器件(Charge Coupled Device，CCD)或者互补金属氧化物半导体(Complementary Metal Oxide Semiconductor，CMOS)。

步骤112，基于第一图像，获取第一人员属性信息。

在步骤112中，可以通过现有算法检测第一图像中的人脸框，对人脸框中的人脸进行属性判决，以得到第一人员属性信息，第一人员属性信息包括但不限于性别信息、年龄信息、身份标识(Identity Document，ID)信息、声纹信息等。

需要说明的是，为了使第一人员属性信息包括声纹信息，可以通过以下两种方式进行声纹信息的获取：

方式一：可以预先录制乘员信息，进行注册以得到声纹信息，将得到的声纹信息录入系统，录入系统中的声纹信息可以与ID信息关联；在步骤112中进行属性判决时，可以先通过人脸识别获取ID信息，之后通过调取该ID信息对应的声纹信息作为第一人员属性信息中的声纹信息；

方式二：在检测出第一图像中的人脸框之后，可以通过现有算法获取人脸框中的人脸的唇动信息，如果唇动则表明该人脸对应的乘员在说话，那么可以在唇动期间采集该乘员说的语音信息，并根据语音信息提取该乘员的声纹信息，该声纹信息可以作为第一人员属性信息中的声纹信息。

步骤120，包括步骤1208和步骤1209。

步骤1208，基于待响应语音交互指令，获取第二人员属性信息。

在步骤1208中，可以采用语音识别技术，对待响应语音交互指令进行分析，以得到第二人员属性信息，第二人员属性信息包括但不限于性别信息、年龄信息、ID信息、声纹信息等。

步骤1209，基于第一人员属性信息与第二人员属性信息之间的第二匹配度，确定待响应语音交互指令的产生位置为车辆内部或车辆外部。

在步骤1209中，可以确定第一人员属性信息与第二人员属性信息之间的第二匹配度，例如，基于第一人员属性信息中的性别信息和第二人员属性信息中的性别信息是否相同，可以确定性别维度的匹配度得分(其可以位于0至1之间)，基于第一人员属性信息中的年龄信息所表示的年龄和第二人员属性信息中的年龄信息所表示的年龄的差值，可以确定年龄维度的匹配度得分(其可以位于0至1之间)，其它维度的匹配度得分依此类推，之后可以将所有维度的匹配度得分进行加权平均，加权平均结果即可作为第一人员属性信息与第二人员属性信息之间的第二匹配度。

之后，可以基于第一人员属性信息与第二人员属性信息之间的第二匹配度，确定待响应语音交互指令的产生位置为车辆内部或车辆外部。

在图5所示实施例的基础上，如图6所示，该方法还包括步骤113和步骤114。

步骤113，获取位于车辆外部图像传感器(为了便于描述，后续将其称为第二图像传感器)采集的第二图像。

可选地，第二图像传感器可以为CCD或者CMOS。

步骤114，基于第二图像，获取第三人员属性信息。

需要说明的是，步骤114的具体实施方式参照对步骤112的具体实施方式的介绍即可，在此不再赘述。

步骤1209，包括：

步骤12091，基于第一人员属性信息与第二人员属性信息之间的第二匹配度，以及第三人员属性信息与第二人员属性信息之间的第三匹配度，确定待响应语音交互指令的产生位置为车辆内部或车辆外部。

在步骤12091中，可以确定第三人员属性信息与第二人员属性信息之间的第三匹配度，具体确定方式参照对第二匹配度的确定方式的说明即可，在此不再赘述。之后，可以基于第二匹配度和第三匹配度，确定待响应语音交互指令的产生位置。具体地，可以在第二匹配度大于第三预设阈值(例如0.7、0.8、0.9等)，第三匹配度小于第四预设阈值(例如0.1、0.2、0.3等)的情况下，确定待响应语音交互指令的产生位置为车辆内部，否则，确定待响应语音交互指令的产生位置为车辆外部。

需要说明的是，图6所示实施例中，通过第一人员属性信息与第二人员属性信息之间的匹配性判断，以及第三人员属性信息与第二人员属性信息之间的匹配性判断，能够结合车辆内部图像、车辆外部图像和待响应语音交互指令三者，准确可靠地确定待响应语音交互指令的产生位置。当然，具体实施时，也可以仅结合车辆内部图像和待响应语音交互指令两者，确定待响应语音交互指令的产生位置，或者仅结合车辆外部图像和待响应语音交互指令两者，确定待响应语音交互指令的产生位置，例如，可以在第二匹配度大于第三预设阈值的情况下，确定待响应语音交互指令的产生位置为车辆内部，否则，确定待响应语音交互指令的产生位置为车辆外部，再例如，可以在第三匹配度小于第四预设阈值的情况下，确定待响应语音交互指令的产生位置为车辆内部，否则，确定待响应语音交互指令的产生位置为车辆外部。

可见，本公开的实施例中，通过结合图像和语音，进行属性信息相关的匹配，能够准确可靠地确定待响应语音交互指令的产生位置。

在一个可选示例中，步骤130，包括：

若待响应语音交互指令的产生位置为车辆内部，确定响应待响应语音交互指令，并基于待响应语音交互指令，对车辆和/或车辆上的车载设备进行控制。

本公开的实施例中，对于待响应语音交互指令的产生位置为车辆内部的情况，可以响应于待响应语音交互指令，对车辆和/或车辆上的车载设备进行控制，例如，在待响应语音交互指令用于指示开启车窗的情况下，可以控制车窗开启，再例如，在待响应语音交互指令用于指示播放音乐的情况下，可以调用车辆上的车载娱乐设备进行音乐播放，这样能够有效地满足车辆内部的人员对车辆的语音控制需求。

在一个可选示例中，为了避免车辆外部的人员对车辆的语音控制，可以先基于第一图像传感器进行图像采集，以基于采集的图像获取车内乘员情况(例如基于该图像中是否能够检测到人脸框来获取车内乘员情况)，或者，可以基于车辆内的各座椅传感器的检测信号，获取车内乘员情况。如果车内乘员情况表征车辆内没有乘员，则可以关闭车辆的语音控制功能，如果车内乘员情况表征车辆内有乘员，可以采用以下四种方式中的任一种，确定待响应语音交互指令的产生位置：

方式一：根据乘员声音属性信息进行判决，以得到上文中的第二人员属性信息，另外可以基于第一图像传感器采集的图像得到第一人员属性信息，基于第一人员属性信息与第二人员属性信息之间的第二匹配度，确定待响应语音交互指令的产生位置为车辆内部还是车辆外部，如果是车辆外部，则可以不响应待响应语音交互指令。

方式二：通过传声器阵列技术进行声源定位，确定待响应语音交互指令的声源方向，如果声源方向不来自于车辆内的任何一个乘员，则可以确定待响应语音交互指令的产生位置为车辆外部，那么可以不响应待响应语音交互指令。

方式三：可以同时在车辆内外布置麦克风，如果在某个时间段在车辆内部和车辆外部采集到了相同的语音交互指令，且在车辆外部采集的语音交互指令的声压级高于车辆内部，或者语音质量高于车辆内部，则可以确定待响应语音交互指令的产生位置为车辆外部，那么可以不响应待响应语音交互指令。

方式四：通过预先训练得到的语音识别模型，确定待响应语音交互指令的产生位置为车辆内部还是车辆外部，如果是车辆外部，则可以不响应待响应语音交互指令。

在一个可选示例中，可以先通过第二图像传感器进行图像采集，以基于采集的图像确定车辆外部是否有人员，如果车辆外部有人员，再采用上述四种方式中的任一种，确定待响应语音交互指令的产生位置。

需要强调的是，本公开的实施例中，所涉及的人员属性信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

本公开实施例提供的任一种语音交互指令处理方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种语音交互指令处理方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种语音交互指令处理方法。下文不再赘述。

示例性装置

图7是本公开一示例性实施例提供的语音交互指令处理装置的结构示意图。图7所示的装置包括第一获取模块710、第一确定模块720和第二确定模块730。

第一获取模块710，用于获取待响应语音交互指令；

第一确定模块720，用于确定第一获取模块710获取的待响应语音交互指令的产生位置；

第二确定模块730，用于基于第一确定模块720确定的待响应语音交互指令的产生位置，确定是否响应第一获取模块710获取的待响应语音交互指令。

在一个可选示例中，第一获取模块710获取的待响应语音交互指令包括对在车辆内部采集的语音信号进行检测获取的第一语音交互指令，以及对在车辆外部采集的语音信号进行检测获取的第二语音交互指令，且第二语音交互指令与第一语音交互指令的获取时刻之间的间隔时长小于预设时长；

如图8所示，第一确定模块720，包括：

第一确定子模块7201，用于确定第一获取模块710获取的待响应语音交互指令包括的第一语音交互指令的第一语音特征信息；

第二确定子模块7202，用于确定第一获取模块710获取的待响应语音交互指令包括的第二语音交互指令的第二语音特征信息；

第三确定子模块7203，用于基于第一确定子模块7201确定的第一语音特征信息和第二确定子模块7202确定的第二语音特征信息，确定第一获取模块710获取的待响应语音交互指令的产生位置为车辆内部或车辆外部。

在一个可选示例中，

第三确定子模块7203，包括：

第一获取单元，用于基于第一确定子模块7201确定的第一语音特征信息，获取第一语音信号能量，以及基于第二确定子模块7202确定的第二语音特征信息，获取第二语音信号能量；

第一确定单元，用于基于第一获取单元获取的第一语音信号能量与第二语音信号能量之间的大小关系，确定第一获取模块710获取的待响应语音交互指令的产生位置为车辆内部或车辆外部；

或者，

第三确定子模块7203，包括：

第二获取单元，用于基于第一确定子模块7201确定的第一语音特征信息，获取第一语音信号置信度，以及基于第二确定子模块7202确定的第二语音特征信息，获取第二语音信号置信度；

第二确定单元，用于基于第二获取单元获取的第二语音信号置信度和第一语音信号置信度的差值，确定第一获取模块710获取的待响应语音交互指令的产生位置为车辆内部或车辆外部。

在一个可选示例中，如图9所示，第一确定模块720，包括：

第四确定子模块7204，用于确定第一获取模块710获取的待响应语音交互指令的声源方向；

第五确定子模块7205，用于确定车辆内部各乘员的座位位置；

第六确定子模块7206，用于基于第四确定子模块7204确定的声源方向和第五确定子模块7205确定的各乘员的座位位置之间的第一匹配度，确定第一获取模块710获取的待响应语音交互指令的产生位置为车辆内部或车辆外部。

在一个可选示例中，如图10所示，第一确定模块720，包括：

输入子模块7207，用于将第一获取模块710获取的待响应语音交互指令输入预先训练好的语音识别模型；

第一获取子模块7208，用于获取语音识别模型输出的产生位置分类信息。

在一个可选示例中，如图11所示，该装置还包括：

第二获取模块711，用于获取位于车辆内部图像传感器采集的第一图像；

第三获取模块712，用于基于第二获取模块711获取的第一图像，获取第一人员属性信息；

第一确定模块720，包括：

第二获取子模块7209，用于基于第一获取模块710获取的待响应语音交互指令，获取第二人员属性信息；

第七确定子模块7210，用于基于第三获取模块712获取的第一人员属性信息与第二获取子模块7209获取的第二人员属性信息之间的第二匹配度，确定第一获取模块710获取的待响应语音交互指令的产生位置为车辆内部或车辆外部。

在一个可选示例中，如图12所示，该装置还包括：

第四获取模块713，用于获取位于车辆外部图像传感器采集的第二图像；

第五获取模块714，用于基于第四获取模块713获取的第二图像，获取第三人员属性信息；

第七确定子模块7210，具体用于：

基于第三获取模块712获取的第一人员属性信息与第二获取子模块7209获取的第二人员属性信息之间的第二匹配度，以及第五获取模块714获取的第三人员属性信息与第二获取子模块7209获取的第二人员属性信息之间的第三匹配度，确定待响应语音交互指令的产生位置为车辆内部或车辆外部。

在一个可选示例中，如图13所示，第二确定模块730，包括：

第八确定子模块7301，用于若第一获取模块710获取的待响应语音交互指令的产生位置为车辆内部，确定响应第一获取模块710获取的待响应语音交互指令；

控制子模块7302，用于基于第一获取模块710获取的待响应语音交互指令，对车辆和/或车辆上的车载设备进行控制。

示例性电子设备

下面，参考图14来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图14图示了根据本公开实施例的电子设备的框图。

如图14所示，电子设备1400包括一个或多个处理器1401和存储器1402。

处理器1401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1400中的其他组件以执行期望的功能。

存储器1402可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1401可以运行所述程序指令，以实现上文所述的本公开的各个实施例的语音交互指令处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备1400还可以包括：输入装置1403和输出装置1404，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置1403可以是麦克风或麦克风阵列。在该电子设备是单机设备时，该输入装置13可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入装置1403还可以包括例如键盘、鼠标等等。

该输出装置1404可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置1404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图14中仅示出了该电子设备1400中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1400还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音交互指令处理方法中的步骤。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

Claims

一种语音交互指令处理方法，包括：

获取待响应语音交互指令；

确定所述待响应语音交互指令的产生位置；

基于所述待响应语音交互指令的产生位置，确定是否响应所述待响应语音交互指令。
根据权利要求1所述的方法，其中，所述待响应语音交互指令包括对在车辆内部采集的语音信号进行检测获取的第一语音交互指令，以及对在所述车辆外部采集的语音信号进行检测获取的第二语音交互指令，且所述第二语音交互指令与所述第一语音交互指令的获取时刻之间的间隔时长小于预设时长；

所述确定所述待响应语音交互指令的产生位置，包括：

确定所述第一语音交互指令的第一语音特征信息；

确定所述第二语音交互指令的第二语音特征信息；

基于第一语音特征信息和第二语音特征信息，确定所述待响应语音交互指令的产生位置为所述车辆内部或所述车辆外部。
根据权利要求2所述的方法，其中，

所述基于第一语音特征信息和第二语音特征信息，确定所述待响应语音交互指令的产生位置为所述车辆内部或所述车辆外部，包括：

基于所述第一语音特征信息，获取第一语音信号能量，以及基于所述第二语音特征信息，获取第二语音信号能量；

基于所述第一语音信号能量与所述第二语音信号能量之间的大小关系，确定所述待响应语音交互指令的产生位置为所述车辆内部或所述车辆外部；

或者，

所述基于第一语音特征信息和第二语音特征信息，确定所述待响应语音交互指令的产生位置为所述车辆内部或所述车辆外部，包括：

基于所述第一语音特征信息，获取第一语音信号置信度，以及基于所述第二语音特征信息，获取第二语音信号置信度；

基于所述第二语音信号置信度和所述第一语音信号置信度的差值，确定所述待响应语音交互指令的产生位置为所述车辆内部或所述车辆外部。
根据权利要求1所述的方法，其中，所述确定所述待响应语音交互指令的产生位置，包括：

确定所述待响应语音交互指令的声源方向；

确定车辆内部各乘员的座位位置；

基于所述声源方向和所述各乘员的座位位置之间的第一匹配度，确定所述待响应语音交互指令的产生位置为所述车辆内部或所述车辆外部。
根据权利要求1所述的方法，其中，所述确定所述待响应语音交互指令的产生位置，包括：

将所述待响应语音交互指令输入预先训练好的语音识别模型，获取所述语音识别模型输出的产生位置分类信息。
根据权利要求1所述的方法，还包括：

获取位于车辆内部图像传感器采集的第一图像；

基于所述第一图像，获取第一人员属性信息；

所述确定所述待响应语音交互指令的产生位置，包括：

基于所述待响应语音交互指令，获取第二人员属性信息；

基于所述第一人员属性信息与所述第二人员属性信息之间的第二匹配度，确定所述待响应语音交互指令的产生位置为所述车辆内部或所述车辆外部。
根据权利要求6所述的方法，还包括：

获取位于所述车辆外部图像传感器采集的第二图像；

基于所述第二图像，获取第三人员属性信息；

所述基于所述第一人员属性信息与所述第二人员属性信息之间的第二匹配度，确定所述待响应语音交互指令的产生位置为所述车辆内部或所述车辆外部，包括：

基于所述第一人员属性信息与所述第二人员属性信息之间的第二匹配度，以及所述第三人员属性信息与所述第二人员属性信息之间的第三匹配度，确定所述待响应语音交互指令的产生位置为所述车辆内部或所述车辆外部。
根据权利要求1-7中任一所述的方法，其中，所述基于所述待响应语音交互指令的产生位置，确定是否响应所述待响应语音交互指令，包括：

若所述待响应语音交互指令的产生位置为车辆内部，确定响应所述待响应语音交互指令，并基于所述待响应语音交互指令，对所述车辆和/或所述车辆上的车载设备进行控制。
一种语音交互指令处理装置，包括：

第一获取模块，用于获取待响应语音交互指令；

第一确定模块，用于确定所述第一获取模块获取的所述待响应语音交互指令的产生位置；

第二确定模块，用于基于所述第一确定模块确定的所述待响应语音交互指令的产生位置，确定是否响应所述第一获取模块获取的所述待响应语音交互指令。
一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8中任一所述的语音交互指令处理方法。
一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8中任一所述的语音交互指令处理方法。