WO2022001347A1

WO2022001347A1 - 一种车舱内语音指令控制方法及相关设备

Info

Publication number: WO2022001347A1
Application number: PCT/CN2021/091138
Authority: WO
Inventors: 邱梅清; 蒋慧颖; 黄怡
Original assignee: 华为技术有限公司
Priority date: 2020-07-03
Filing date: 2021-04-29
Publication date: 2022-01-06
Also published as: EP4163913A4; EP4163913A1; KR20230027252A; US20230129816A1; CN113963692A

Abstract

本发明实施例公开了车舱内语音控制方法，具体可以应用于智能座舱领域，其中，所述语音控制方法包括: 获取车舱内的音频数据，当识别所述音频数据中包括目标类型的指令信息，获取对于与所述音频数据中指令信息相关事件段的车舱内图像数据，基于所述图像数据获取车舱内特定位置上的车内成员的图像数据，并从中提取该位置上车内成员的唇部运动信息，所述指令信息和所述唇部运动信息输入到目标特征匹配模型中，得到所述特定位置的车内成员的唇部运动信息与所述指令信息之间的匹配度; 根据所述匹配度确定是否执行所述指令信息对应的指令。

Description

一种车舱内语音指令控制方法及相关设备

本申请要求于2020年07月03日提交中国专利局、申请号为202010631879.5、申请名称为“一种车舱内语音指令控制方法及相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及人机交互技术领域，尤其涉及一种车舱内语音指令控制方法及相关设备。

背景技术

随着无人驾驶技术的发展，车辆的智能性越来越高，车舱内进行智能的语音控制也成为了当前智能座舱的一个主流需求，越来越多的车辆开始具备语音交互功能，能够基于车内成员的语音指令来执行相应的功能。

由于车舱内同时也是一个多人的空间，不同的车内成员可能存在不同的操控需求，因此在执行语音指令时，对于有些特殊指令的执行车内智能设备需要获取指令发出者所在的具体位置，从而确定如何指令相应的指令。在车舱内的多人场景中，车辆有些指令需要针对车舱的具体位置进行操作，如调整某个具体出风口的风量，或者调整某个具体扬声器的音量，这个时候当接收到一个调小出风口风量的语音指令时，车辆智能设备如果不能识别出当前指令发出者所在的具体位置往往无法基于语音进行车舱内的精细化控制调整；有些车辆可以通过语音进行车辆的行驶控制，如进行自动驾驶，如自动泊车，但是当车内存在多个成员时，如车内存在儿童，此时如何判断何时可以执行驾驶相关的语音指令，何时不能执行，确认发出指令者的身份和权限，防止车辆的误操控也是自动驾驶领域车舱内人机交互控制需要解决的问题之一。

发明内容

本发明实施例提供一种语音指令控制方法及相关设备，以提升车内多人场景下的语音指令的执行准确度，降低误操作或者误识别的情况。

第一方面，本发明实施例提供了一种车舱内语音控制方法，包括：获取第一类型指令和位于车舱内N个位置上的车内成员在目标时间段内的唇部运动信息，所述第一类型指令为根据车舱内采集的目标音频数据获取，所述车内成员的唇部运动信息为当从所述目标音频数据中识别出所述第一类型指令时获取，所述目标时间段为所述第一类型指令在所述音频数据中对应的时间段；将所述第一类型指令和所述车舱内N个位置上的车内成员的唇部运动信息进行匹配，根据所述N个位置上的车内成员的唇部运动信息与所述第一类型指令之间的匹配结果获取目标位置，所述目标位置为所述匹配结果指示唇部运动信息与所述第一类型指令匹配的车内成员所处的位置；发送指示针对目标位置执行所述第一类指令的指示信息。

本发明实施例，可应用于车舱内的精细化的语音指令控制，当识别到语音指令为需要进一步进行位置确定后才能执行的指令，如车舱内装置的操作指令，如播放视频，扬声器调节，空调调节，座椅条件等需要确定指令具体针对的位置进行针对性进行局部操作的指令，通过获取车内各个位置上成员的唇部运动信息和所识别出的具体指令信息来判断是哪个位置的成员发出的指令，从而能够有针对性的针对特定位置区域进行操作控制。上述语音控制方法因为涉及视频数据的处理和分析其局部特征与指令信息的匹配的程度，因此可以发生在本地，即车辆或者车辆上的智能设备来执行上述方法，也可以是在云端执行上述视频数据的处理和匹配动作。

本发明实施例的方法可适用于任意人数的车辆场景，尤其适用于当车内有多个成员，且同时有多人在说话的场景，此时通过唇部运动信息与指令信息的匹配结合车内位置分布信息能够精准的定位发出语音指令的成员的位置信息，进而判断出指令执行所针对的位置区域。本发明实施例所涉及的方法中提到的N不一定代表车内的全部成员，可以是车内的全部成员，也可以是部分成员。

在一种可能的实现方式中，所述获取第一类型指令和位于车舱内N个位置上的车内成员的唇部运动信息，具体为：获取车舱内所述目标音频数据；当识别出所述目标音频数据中包括第一类型指令，获取车舱内图像数据；从所述车舱内图像数据中提取车舱内N个位置上的车内成员的唇部运动信息。本发明的实施例中提到的从车舱内的图像数据中提取所述车内N个位置上成员的唇部运动信息，具体可以是基于人脸识别算法，识别所述视频数据中的所述N个人脸区域，提取所述N个人脸区域中每个人脸区域中的唇部运动视频或者抽样提取视频帧序列；基于所述每个人脸区域中的唇部运动视频或者视频帧序列确定所述N个成员的唇部运动信息。所述图像数据通常是车内的一个或者多个摄像头采集获得，所述摄像头的类型可以有多种。

同时由于车舱内的环境通常会存在多个摄像头，有的摄像头可以通过变换拍摄角度获取不同视角的视屏数据，因此本发明实施例中提到的图像数据可以是一个摄像头从一个角度获取的图像数据，而由于从一些角度去拍摄时，车内不同位置上的成员之间可能存在遮挡的情况，因此本发明实施例中的图像数据也可以是来自同一摄像头的不同视角的图像数据，或者是来自多个摄像头的图像数据，以及其他上述组合情况。

在一种可能的实现方式中，所述从所述车舱内图像数据中提取车舱内N个位置上的车内成员的唇部运动信息，具体为：当识别车内成员大于1时，从所述车舱内图像数据中提取车舱内N个位置上的车内成员的唇部运动信息。本发明实施例在具体实现的过程中，为了避免计算资源的浪费，可以在识别第一指令类型后，根据获取的车内图像数据判断车舱内的人数，当车舱内仅有一人时，不用提取唇部运动信息，仅在人数多于1人时对有人员乘坐的位置上的人员的唇部运动信息的提取。

在一种可能的实现方式中，所述将所述第一类型指令和所述车舱内N个位置上的车内成员的唇部运动信息进行匹配，根据所述N个位置上的车内成员的唇部运动信息与所述第一类型指令之间的匹配结果获取目标位置，具体为：根据所述第一类型指令和所述位于车舱内N个车内成员的唇部运动信息，得到每个所述N个位置上的车内成员的唇部运动信息分别与所述指令信息之间的匹配度，N为大于1的整数；将匹配度最高的唇部运动信息对应的车内成员所处的位置作为目标位置。

其中匹配度的获取有多种方式，通常可以通过目标匹配模型进行获取，所述目标特征匹配模型为以训练用户的唇部运动信息以及一个或者多个语音信息(所述语音信息可以是语音波形序列也可以是语音所对应的文本信息)为输入、以所述训练用户的唇部运动信息分别与所述M个语音信息之间的匹配度为M个标签，训练得到的特征匹配模型。

本发明实施例中的训练模型的方式，根据训练的样本数据的不同，模型的推理方式也会有区别，当采用多组唇部运动信息进行输入时，如5个唇部运动信息，则将5个唇部运动信息分别和M个语音信息中的每一个，构建成M组样本作为输入，5个唇部运动信息分别和样本内语音信息匹配度为输出，标签信息为训练是的目标输出结果。由此训练出的模型在进行推理时也是以5个唇部运动信息和目标指令信息为输入，当车内人员不足5人时，可以将空置的位置的唇部信息用默认值作为输入，如全0序列，输出与指令信息之间的匹配度。也可以以单个唇部运动信息和语音信息为一组样本，匹配标签为目标训练结果，进行训练，这样训练得到的模型在进行推理时，需要以每个车内成员的唇部运动指令和指令信息作为输入，分别获取多个位置成员的匹配度。

在一种可能的实现方式中，所述第一类型指令为从所述音频数据中提取的语音波形序列或者根据所述音频数据识别出的文本指令信息。

在一种可能的实现方式中，所述车舱内N个位置上的车内成员的唇部运动信息为所述车舱内N个位置上的车内成员在所述目标时间段内的唇部运动的图像序列。

在本发明的实施例通过获取的语音指令和各个位置车内成员的唇部信息的匹配度来获知指令相关的语音是哪个位置上的成员发出的，指令信息和成员的唇部运动信息之间的匹配度通过匹配模型获知，取决于匹配模型的不同，需要获取的指令信息也不相同。根据模型训练的需要可以针对唇部运动的视频提取不同的唇部运动信息，例如可以是在所述目标时间段内的唇部运动的图像序列或者是表示上下唇距离的时序变化情况的向量参数。所述第一类型指令同样也可以有多种形式，可以是语音波形序列，也可以是指令对应的文本信息。

在一种可能的实现方式中，所述车舱内音频数据为根据车舱内指定位置区域的麦克风所采集的音频数据获得。

在一种可能的实现方式中，所述车舱内音频数据基于从车舱内多个麦克风采集的音频数据中选择的目标音频数据获得。

车舱内通常会存在多个麦克风，设置于车舱内的不同位置，因此车舱内音频数据的采集，为了获取最佳音频效果，本发明实施例中提到的车舱内的音频数据可以是多个音频数据进行综合处理之后获得的；也可以是综合比较车舱内多个麦克风采集的音频数据之后，根据预设规则选择出的参数最优的，即收录到的语音质量最优的音频数据；或者是指令位置的麦克风所采集的音频数据，如是设置在车内中央位置区域的麦克风所采集的音频数据。

在一种可能的实现方式中，所述目标特征匹配模型包括第一模型、第二模型和第三模型；所述将所述指令信息和所述车舱内N个位置上的车内成员的唇部运动信息输入到目标特征匹配模型中，得到所述车舱内N个位置上的车内成员的唇部运动信息分别与所述指令信息之间的匹配度，包括：将所述指令信息输入到所述第一模型中，得到语音特征，所述语音特征为K维语音特征，K为大于0的整数；将所述车舱内N个位置上的车内成员的唇部运动信息输入到所述第二模型中，得到N个图像序列特征，所述N个图像序列特征中的每一个图像序列特征均为K维图像序列特征；将所述语音特征和所述N个图像序列特征输入到第三模型中，得到所述N个图像序列特征分别与所述语音特征之间的匹配度。

在一种可能的实现方式中，所述目标特征匹配模型包括第一模型、第二模型；所述将所述指令信息和所述车舱内N个位置上的车内成员的唇部运动信息输入到目标特征匹配模型中，得到所述车舱内N个位置上的车内成员的唇部运动信息分别与所述指令信息之间的匹配度，包括：将所述音频数据输入到所述第一模型中，得到对应的指令信息，将所述车舱内N个位置上的车内成员的唇部运动信息输入到所述第二模型中，所述每个车内成员的唇部运动信息对应一组图像序列特征，将所述N个图像序列特征同时或者分别输入到第二模型中，获得每个唇部运动信息对应的指令信息；基于两个模型的识别结果，判断出发出指令的目标位置成员。

在本发明实施例的模型的其中一种实现方式第一模型输出的指令信息可以是指令对应的标识及匹配度，模型选择输出匹配度最高的指令对应的指令标识，所述标识可以是指令编码，也可以是指令对应的文本特征。上述基于第一模型和第二模型的输出结果进行判断，其中判断规则可以有多种，如识别出与第一模型输出的指令信息相同的位置成员，若识别的有多个位置上的成员都与第一模型识别的指令信息相同，则比较第二模型输出的匹配度，选择匹配度高的目标位置执行所述指令，或者选择第二模型中识别的匹配度最高的指令信息和第一模型的指令信息进行比较，如果指令信息相同，则确定第二模型中国匹配度最高的指令信息对应的位置为目标位置。

在一种可能的实现方式中，生成所述N个位置上的车内成员的唇部运动信息与所述N个位置的对应关系；所述将匹配度最高的唇部运动信息对应的车内成员所处的位置作为目标位置，包括：获取匹配度最高的目标唇部运动信息；根据所述所述N个位置上的车内成员的唇部运动信息与所述N个位置的对应关系将所述目标唇部运动信息所对应的位置确定为目标位置。

所述生成N个位置上的车内成员的唇部运动信息与所述N个位置的对应关系，可以是通过车内的图像采集来获取各个位置上的成员关系，然后将各个成员的唇部运动信息和位置关系对应起来，所述图像数据可以是来自于唇部信息提取的相同图像也可以是独立的采集过程。

在一种可能的实现方式中，生成所述N个位置上的车内成员的唇部运动信息与所述N个位置上的车内成员的身份的对应关系；将匹配度最高的唇部运动信息对应的车内成员所处的位置作为目标位置，包括：获取匹配度最高的目标唇部运动信息；根据所述所述N个位置上的车内成员的唇部运动信息与所述N个位置上的车内成员的身份的对应关系确定目标车内成员；将所述目标车内成员的位置信息确定为目标位置，所述目标车内成员的位置信息为根据车内的传感器数据确定。

本发明实施例中所提到的第一类型指令可以为车舱内操控指令，主要适用于对于车舱内需要识别位置信息以用于确定执行指令所针对的目标区域的指令交互场景。由于有时候车内用户在执行语音指令时会给出明确的位置信息，如关闭右后座的车窗，那么在一种可能的实现方式中这一类有明确的位置信息的指令可以被认为不属于第一类型指令，第一类型指令可以是需要区分位置区域来执行但是指令中不包含位置区域信息的指令。

第二方面，本发明实施例还提供了一种车舱内语音控制方法，包括，获取第一类型指令和位于车内第一位置的车内成员的唇部运动信息，所述第一类型指令为根据车舱内采集的目标音频数据获取，所述第一位置的车内成员的唇部运动信息为当当从所述目标音频数据中识别出所述第二类型指令时获取，所述目标时间段为所述第二类型指令在所述音频数据中对应的时间段；将所述第二类型指令和所述第一位置的车内成员的唇部运动信息进行匹配，得到匹配结果；当根据所述匹配结果确定所述第二类型指令和所述第一位置的车内成员的唇部运动信息为匹配，发送指示执行所述第二类指令的指示信息。

本发明实施例，可应用于车舱内的精细化的语音指令控制，当识别到语音指令为需要确定指令发出者的身份或者权限后才能执行的指令，如车辆的行驶操控指令，或者其他涉及到隐私信息操作的指令，如切换驾驶模式，控制行驶方向，查看历史通话数据等，通常基于车辆的特殊环境，我们往往会默认驾驶位的成员具备最高权限，因此当车辆在获取到相关需要确认发出者身份的指令时，通过获取特定位置上(如驾驶位)成员的唇部运动信息和所识别出的具体指令信息来判断是否是驾驶位成员发出的指令，从而能够有针对性的针对特定位置区域进行操作控制。上述语音控制方法因为涉及视频数据的处理和分析其局部特征与指令信息的匹配的程度，因此可以发生在本地，即车辆或者车辆上的智能设备来执行上述方法，也可以是在云端执行上述视频数据的处理和匹配动作。除了驾驶位的成员的唇部运动信息的采集，也可以是预设或人为设定一个或多个位置上的成员具备某类指令的控制权限，当识别出此类指令时，则获取相应位置的人员的唇部运动信息进行匹配分析。

在一种可能的实现方式中，还可以是通过人脸识别技术识别当前车内环境下特定用户(如车主)所在的位置，将特定用户所在的位置作为第一位置。通常默认为获取驾驶位的成员的唇部运动信息。

本发明实施例的方法可适用于任一人数的车辆场景，尤其适用于当车内有多个成员，且同时有多人在说话的场景，此时通过唇部运动信息与指令信息的匹配结合车内位置分布信息能够精准的判断是否是特定位置上的成员发出的语音指令，进而确定是否执行所述指令。所述匹配方式可以是获取车内多个成员(包括第一位置成员)进行匹配，判段是否第一位置的成员匹配度最高，也可以是仅获取第一位置的成员进行匹配，当匹配度达到阈值时确定为匹配，指令可执行。

在涉及对第二类型指令进行判断指令的实施例中，通常需要对特定位置进行判断的情况是，针对仅有特定位置的成员才具备进行此类指令的执行权限的场景，例如第二类型指令通常是车辆操控类的指令，此类指令为了防止误操作通常会设置为只有特定位置如驾驶位的成员才具备通过语音进行车辆行驶操控的能力。通常的实现方式是获取驾驶位的用户的唇部运动信息和第二指令信息进行匹配，当结构为匹配时判断是驾驶位的用户发出的第二类型指令，从而执行第二类型指令。因为通常是默认驾驶位的用户具有对车辆的操控权限。也可以人工设置其他位置的乘客具备语音操控权限，那么第一位置还是是其他车内的位置。

也可以根据需要设置某些指令也只有特定位置的成员才能进行，那么这类指令的执行规则也可以参照第二类型指令的执行方式进行判断是否执行。

在本发明实施例的中，所述获取第二类型指令和位于车内第一位置的车内成员的唇部运动信息，具体可以为：获取车舱内所述目标音频数据；当识别出所述目标音频数据中包括第二类型指令，获取车舱内图像数据；从所述车舱内图像数据中提取第一位置的车内成员的唇部运动信息。

上述方案的实现过程中，所述将所述第二类型指令和所述第一位置的车内成员的唇部运动信息进行匹配，得到匹配结果，具体为：根据所述第二类型指令和所述第一位置的车内成员的唇部运动信息的匹配度和预设阈值确定所述第二类型指令和所述第一位置的车内成员的唇部运动信息的匹配结果。

本发明实施例中的所述第二类型指令可以为从所述音频数据中提取的语音波形序列或者根据所述音频数据识别出的文本指令信息。车内成员的唇部运动信息为车内成员在所述目标时间段内的唇部运动的图像序列。

在实现过程中，本发明实施例还包括，当所述音频数据中包括所述第二类型指令，获取车内其他N个位置车内成员的图像数据；从所述车内其他N个位置车内成员的图像数据的所述目标时间段内提取所述车内其他N个位置车内成员的唇部运动信息；所述将所述第二类型指令和所述位于车内第一位置的车内成员的唇部运动信息进行匹配，得到匹配结果，具体为：将所述第二类型指令与所述位于车内第一位置的车内成员的唇部运动信息和所述N个位置车内成员的唇部运动信息进行匹配，得到N+1个车内成员的唇部运动信息分别与所述第二类型指令之间的匹配度，获取匹配度最高的唇部运动信息；所述当根据所述匹配结果确定所述第二类型指令和所述位于车内第一位置的车内成员的唇部运动信息为匹配，发送指示执行所述第二类指令的指示信息，具体为：当所述匹配度最高的唇部运动信息为所述位于车内第一位置的车内成员的唇部运动信息，则发送指示执行所述第二类指令的指示信息。

本发明实施例中从所述车内位置上的成员的视频数据中提取车内位置上成员的唇部运动信息，具体方法为基于人脸识别算法，识别所述视频数据中的多个人脸区域，提取多个人脸区域中每个人脸区域中的唇部运动视频；基于所述每个人脸区域中的唇部运动视频确定每个人脸对应的唇部运动信息。

在一种可能的实现方式中，所述车舱内音频数据为根据车舱内多个麦克风采集的数据获得，或者所述车舱内音频数据为根据车舱内指定位置区域的麦克风所采集的音频数据获得。

第三方面，本发明实施例提供了一种语音指令控制设备，包括处理器；所述处理器用于：获取第一类型指令和位于车舱内N个位置上的车内成员在目标时间段内的唇部运动信息，所述第一类型指令为根据车舱内采集的目标音频数据获取，所述车内成员的唇部运动信息为当从所述目标音频数据中识别出所述第一类型指令时获取，所述目标时间段为所述第一类型指令在所述音频数据中对应的时间段；将所述第一类型指令和所述车舱内N个位置上的车内成员的唇部运动信息进行匹配，根据所述N个位置上的车内成员的唇部运动信息与所述第一类型指令之间的匹配结果获取目标位置，所述目标位置为所述匹配结果指示唇部运动信息与所述第一类型指令匹配的车内成员所处的位置；发送指示针对目标位置执行所述第一类指令的指示信息。

本发明实施例，可应用于车舱内的精细化的语音指令控制，当识别到语音指令为需要进一步进行位置确定后才能执行的指令，如车舱内装置的操作指令，如播放视频，扬声器调节，空调调节，座椅条件等需要确定指令具体针对的位置进行针对性进行局部操作的指令，通过获取车内各个位置上成员的唇部运动信息和所识别出的具体指令信息来判断是哪个位置的成员发出的指令，从而能够有针对性的针对特定位置区域进行操作控制。上述语音控制设备需要进行视频数据的处理和分析其局部特征与指令信息的匹配的程度，因此上述设备可以是本地设备，如可以是智能车载设备，或者车载处理器芯片，也可以是包括了麦克风和摄像头的车载系统，或者是智能车辆，同时根据方案不同的实现方式也可以是在云端服务器，获取车载摄像头以及车内扬声器的数据后执行上述视频数据的处理和匹配动作。

在一种可能的实现方式中，所述处理器用于，获取车舱内所述目标音频数据；当识别出所述目标音频数据中包括第一类型指令，获取车舱内图像数据；从所述车舱内图像数据中提取车舱内N个位置上的车内成员的唇部运动信息。本发明的实施例中处理器从车舱内的图像数据中提取所述车内N个位置上成员的唇部运动信息，具体可以是处理器基于人脸识别算法，识别所述视频数据中的所述N个人脸区域，提取所述N个人脸区域中每个人脸区域中的唇部运动视频或者抽样提取视频帧序列；基于所述每个人脸区域中的唇部运动视频或者视频帧序列确定所述N个成员的唇部运动信息。所述图像数据通常是车内的一个或者多个摄像头采集获得，所述摄像头的类型可以有多种。

在一种可能的实现方式中，所述处理器还用于，当识别车内成员大于1时，从所述车舱内图像数据中提取车舱内N个位置上的车内成员的唇部运动信息。本发明实施例在具体实现的过程中，为了避免计算资源的浪费，处理器在识别第一指令类型后，会根据获取的车内图像数据判断车舱内的人数，当车舱内仅有一人时，不用提取唇部运动信息，仅在人数多于1人时对有人员乘坐的位置上的人员的唇部运动信息的提取。

在一种可能的实现方式中，所述处理器将所述第一类型指令和所述车舱内N个位置上的车内成员的唇部运动信息进行匹配，根据所述N个位置上的车内成员的唇部运动信息与所述第一类型指令之间的匹配结果获取目标位置，具体为：所述处理器根据所述第一类型指令和所述位于车舱内N个车内成员的唇部运动信息，得到每个所述N个位置上的车内成员的唇部运动信息分别与所述指令信息之间的匹配度，N为大于1的整数；将匹配度最高的唇部运动信息对应的车内成员所处的位置作为目标位置。

其中处理器关于匹配度的获取可以通过不同的目标匹配模型来获取，所述目标特征匹配模型为以训练用户的唇部运动信息以及一个或者多个语音信息(所述语音信息可以是语音波形序列也可以是语音所对应的文本信息)为输入、以所述训练用户的唇部运动信息分别与所述M个语音信息之间的匹配度为M个标签，训练得到的特征匹配模型，模型的训练通常是在云侧进行，并且与模型的使用是独立开来的，即在一个设备上进行模型的训练，训练完成之后发给需要进行指令匹配的设备来运行使用。

在一种可能的实现方式中，所述处理器还用于生成所述N个位置上的车内成员的唇部运动信息与所述N个位置的对应关系；所述处理器将匹配度最高的唇部运动信息对应的车内成员所处的位置作为目标位置，包括：所述处理器获取匹配度最高的目标唇部运动信息；根据所述所述N个位置上的车内成员的唇部运动信息与所述N个位置的对应关系将所述目标唇部运动信息所对应的位置确定为目标位置。

处理器对于车内成员的唇部运动信息与位置的对应关系，可以是通过车内采集的图像来识别各个位置上的成员关系，然后将各个成员的唇部运动信息和位置关系对应起来，所述图像数据可以是来自于唇部信息提取的相同图像也可以是独立的采集过程。

在一种可能的实现方式中，所述处理器生成所述N个位置上的车内成员的唇部运动信息与所述N个位置上的车内成员的身份的对应关系；所述处理器将匹配度最高的唇部运动信息对应的车内成员所处的位置作为目标位置，包括：所述处理器获取匹配度最高的目标唇部运动信息；根据所述所述N个位置上的车内成员的唇部运动信息与所述N个位置上的车内成员的身份的对应关系确定目标车内成员；将所述目标车内成员的位置信息确定为目标位置，所述目标车内成员的位置信息为根据车内的传感器数据确定。

本发明实施例中所提到的第一类型指令可以为车舱内操控指令，主要适用于对于车舱内需要识别位置信息以用于确定执行指令所针对的目标区域的指令交互场景。由于有时候车内用户在执行语音指令时会给出明确的位置信息，如关闭右后座的车窗，那么这种情况下处理器可以直接识别出所述指令所针对的目标位置，因此在一种可能的实现方式中当处理器识别出获取的指令为这一类有明确的位置信息的指令，处理器会判断此指令不属于第一类型指令，第一类型指令可以是需要区分位置区域来执行但是指令中不包含位置区域信息的指令。

第四方面，本发明实施例提供了一种语音指令控制设备，包括处理器；所述处理器用于：获取第一类型指令和位于车内第一位置的车内成员的唇部运动信息，所述第一类型指令为根据车舱内采集的目标音频数据获取，所述第一位置的车内成员的唇部运动信息为当当从所述目标音频数据中识别出所述第二类型指令时获取，所述目标时间段为所述第二类型指令在所述音频数据中对应的时间段；将所述第二类型指令和所述第一位置的车内成员的唇部运动信息进行匹配，得到匹配结果；当根据所述匹配结果确定所述第二类型指令和所述第一位置的车内成员的唇部运动信息为匹配，发送指示执行所述第二类指令的指示信息。

本发明实施例，可应用于车舱内的精细化的语音指令控制，当识别到语音指令为需要确定指令发出者的身份或者权限后才能执行的指令，如车辆的行驶操控指令，或者其他涉及到隐私信息操作的指令，如切换驾驶模式，控制行驶方向，查看历史通话数据等，通常基于车辆的特殊环境，我们往往会默认驾驶位的成员具备最高权限，因此当车辆在获取到相关需要确认发出者身份的指令时，通过获取特定位置上(如驾驶位)成员的唇部运动信息和所识别出的具体指令信息来判断是否是驾驶位成员发出的指令，从而能够有针对性的针对特定位置区域进行操作控制。上述语音控制设备因为涉及视频数据的处理和分析其局部特征与指令信息的匹配的程度，因此可以是本地设备，如车载智能设备，车载智能芯片，包括摄像头和麦克风的车载系统或者是智能车辆，也可以是云侧的云端处理器。处理器除了对驾驶位的成员的唇部运动信息的采集，也可以根据系统预设或人为设定一个或多个位置上的成员来进行针对性的采集，当识别出此类指令时，则获取相应位置的人员的唇部运动信息进行匹配分析。

在一种可能的实现方式中，第一位置为驾驶位。

在一种可能的实现方式中，第二类型指令为车辆行驶操控指令。

本发明实施例的设备可用于任一人数的车辆场景，尤其适用于当车内有多个成员，且同时有多人在说话的场景，进行指令的识别和执行判断，此时处理器通过唇部运动信息与指令信息的匹配情况结合获取车内位置分布信息能够精准的判断是否是特定位置上的成员发出的语音指令，进而确定是否执行所述指令。所述匹配方式可以是获取车内多个成员(包括第一位置成员)进行匹配，判段是否第一位置的成员匹配度最高，也可以是仅获取第一位置的成员进行匹配，当匹配度达到阈值时确定为匹配，指令可执行。

在涉及对第二类型指令进行判断指令的实施例中，处理器需要对特定位置进行判断的情况是，针对仅有特定位置的成员才具备进行此类指令的执行权限的场景，例如第二类型指令通常是车辆操控类的指令，此类指令为了防止误操作通常会设置为只有特定位置如驾驶位的成员才具备通过语音进行车辆行驶操控的能力。通常的实现方式是处理器获取驾驶位的用户的唇部运动信息和第二指令信息进行匹配，当结构为匹配时判断是驾驶位的用户发出的第二类型指令，从而执行第二类型指令。因为通常是默认驾驶位的用户具有对车辆的操控权限。也可以人工设置其他位置的乘客具备语音操控权限，那么第一位置还是是其他车内的位置。

在一种可能的实现方式中，所述处理器获取第二类型指令和位于车内第一位置的车内成员的唇部运动信息，具体为：所述处理器获取车舱内所述目标音频数据；当识别出所述目标音频数据中包括第二类型指令，获取车舱内图像数据；从所述车舱内图像数据中提取第一位置的车内成员的唇部运动信息。

上述方案的实现过程中，处理器将所述第二类型指令和所述第一位置的车内成员的唇部运动信息进行匹配，得到匹配结果，具体为：处理器根据所述第二类型指令和所述第一位置的车内成员的唇部运动信息的匹配度和预设阈值确定所述第二类型指令和所述第一位置的车内成员的唇部运动信息的匹配结果。

在一种可能的实现方式中，所述处理器还用于，当所述音频数据中包括所述第二类型指令，获取车内其他N个位置车内成员的图像数据；从所述车内其他N个位置车内成员的图像数据的所述目标时间段内提取所述车内其他N个位置车内成员的唇部运动信息；所述处理器将所述第二类型指令和所述位于车内第一位置的车内成员的唇部运动信息进行匹配，得到匹配结果，具体为所述处理器将所述第二类型指令与所述位于车内第一位置的车内成员的唇部运动信息和所述N个位置车内成员的唇部运动信息进行匹配，得到N+1个车内成员的唇部运动信息分别与所述第二类型指令之间的匹配度，获取匹配度最高的唇部运动信息；所述处理器当根据所述匹配结果确定所述第二类型指令和所述位于车内第一位置的车内成员的唇部运动信息为匹配，发送指示执行所述第二类指令的指示信息，具体为：所述处理器当所述匹配度最高的唇部运动信息为所述位于车内第一位置的车内成员的唇部运动信息，则发送指示执行所述第二类指令的指示信息。

第五方面，本发明实施例提供了一种芯片系统，所述芯片系统包括至少一个处理器，存储器和接口电路，所述存储器、所述接口电路和所述至少一个处理器通过线路互联，所述至少一个存储器中存储有指令；所述指令被所述处理器执行用于实现第一、二方面中的任意一种的方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读介质用于存储程序代码，所述程序代码包括用于执行第一、二方面中的任意一种的方法。

第七方面，本发明实施例提供了一种计算机程序，所述计算机程序包括指令，当所述计算机程序被执行执行用于实现第一、二方面中的任意一种的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本发明实施例提供的一种车内多人交互的场景示意图。

图2为本发明实施例提供的一种车内多人交互的场景示意图。

图3为本发明实施例提供了一种系统架构100。

图4为本发明实施例提供的一种卷积神经网络示意图。

图5是本发明实施例提供的一种神经网络的训练方法的流程示意图。

图6为本发明实施例提供的一种声音波形示例图。

图7A为本发明实施例提供的一种语音指令匹配方法。

图7B为本发明实施例提供的一种语音指令匹配方法。

图8为本发明实施例提供的一种云端交互场景示意图。

图9为本发明实施例的一种方法流程图。

图10为本发明实施例的一种方法流程图。

图11为本发明实施例的一种方法流程图。

图12为本发明实施例的一种方法流程图。

图13是本发明实施例提供的一种指令控制装置的结构示意图。

图14是本发明实施例提供的一种神经网络的训练装置的结构示意图。

图15是本发明实施例提供的另一种指令控制系统。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例进行描述。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在本说明书中使用的术语“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如，部件可以是但不限于，在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。通过图示，在计算设备上运行的应用和计算设备都可以是部件。一个或多个部件可驻留在进程和/或执行线程中，部件可位于一个计算机上和/或分布在2个或更多个计算机之间。此外，这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一部件交互的二个部件的数据，例如通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。

首先，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)位图(Bitmap)：又称栅格图(Raster graphics)或点阵图，是使用像素阵列(Pixel-array/Dot-matrix点阵)来表示的图像。根据位深度,可将位图分为1、4、8、16、24及32位图像等。每个像素使用的信息位数越多，可用的颜色就越多，颜色表现就越逼真，相应的数据量越大。例如，位深度为1的像素位图只有两个可能的值(黑色和白色)，所以又称为二值位图。位深度为8的图像有28(即256)个可能的值。位深度为8的灰度模式图像有256个可能的灰色值。RGB图像由三个颜色通道组成。8位/通道的RGB图像中的每个通道有256个可能的值，这意味着该图像有1600 万个以上可能的颜色值。有时将带有8位/通道(bpc)的RGB图像称作24位图像(8位x 3通道＝24位数据/像素)。[2]通常将使用24位RGB组合数据位表示的的位图称为真彩色位图。

(2)语音识别技术(AutomaticSpeech Recognition，ASR)，也被称为自动语音识别，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

(3)声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的生物特征。声纹识别是通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的，简单的说就是辨别某一句话是否是某一个人说的技术。通过声纹可以确定出说话人的身份，从而进行有针对性的回答。

(4)梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)在声音处理领域中，梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。梅尔频率倒谱系数(MFCC)广泛被应用于语音识别的功能。

(5)多路交叉熵(Multi-way cross-Entropy Loss)交叉熵描述了两个概率分布之间的距离，当交叉熵越小说明二者之间越接近。

(6)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，Ws为xs的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(7)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有很多层隐含层的神经网络，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，b是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，则系数W和偏移向量b的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(8)卷积神经网络

卷积神经网络(CNN，convolutional neuron network)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(9)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(10)反向传播算法

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正卷积神经网络中参数的大小，使得卷积神经网络的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新卷积神经网络中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的卷积神经网络的参数，例如权重矩阵。

(11)像素值

图像的像素值可以是一个红绿蓝(RGB)颜色值，像素值可以是表示颜色的长整数。例如，像素值为256*Red+100*Green+76Blue，其中，Blue代表蓝色分量，Green代表绿色分量，Red代表红色分量。各个颜色分量中，数值越小，亮度越低，数值越大，亮度越高。对于灰度图像来说，像素值可以是灰度值。

首先，为了便于理解本发明实施例，进一步分析并提出本申请所具体要解决的技术问题。在现有技术中，关于车内多人场景中对于检测到的语音指令进行发出者所在位置的的识别，可以有多种实现方式，例如可以通过车舱内的声纹识别和/或声源定位来实现，以下示例性的列举如下常用的两种方案。其中，

方案一：

声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的生物特征。声纹识别是通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的，简单的说就是辨别某一句话是否是某一个人说的技术。通过声纹可以确定出说话人的身份，从而进行有针对性的回答。主要分为两个阶段：注册阶段和验证阶段。其中，注册阶段：根据发音人语音的声纹特征，建立相应的声纹模型；验证阶段：接收发音人的语音，提取其声纹特征并与注册的声纹模型进行匹配，若匹配成功，则证明是原来注册的发音人。

方案二：

声源定位技术，是利用声学和电子装置接收目标声场信息以确定目标声源位置的一种技术。麦克风阵列的声源定位是指用麦克风阵列拾取声源信号，通过对多路声音信号进行分析与处理，在空间域中定取一个或者多个声源平面或空间坐标，即得到声源的位置。近一步控制麦克风阵列的波束对准说话人。

方案一和方案二应用于车舱内指令发出者位置分析的缺点：

对于声纹识别的应用，首先需要提前存储有乘坐人员的声纹信息，如果是没有进行过声纹识别和记录的人员则无法识别，同时同一个人的声音具有易变性、同时车内是一个多人环境，当多人同时说话时声纹特征不易提取，或者环境噪音很大时也会对识别有干扰。

对于声源定位技术，由于车内是一个相对狭小且拥挤的空间，尤其是后排乘客之间空间距离上非常的接近，成员在说话时也会存在晃动或者身体倾斜的情况，上诉因素都会导致声源定位的准确性的下降，同时车舱内常常会有多人同时说话的情况，此时也会影响声源定位的准确性。

综上，上述两种方案若应用于应用于车内的语音指令发出者位置的识别，尤其是应用于多人同时发声的车内场景中的指令发出者的位置识别，会存在无法准确识别所采集到的指令具体由哪个位置上的车内成员，因此也就无法实现更为精准、有效的人机交互。因此，本申请要解决的技术问题包括如下方面：在车舱内存在多个用户的情况下，当采集到特定类型指令，如何准确地判断语音发出者的具体位置、并针对性的指令相应的指令。

本申请实施例提供的语音匹配方法能够应用在智能车辆的人机交互场景。以下示例性列举本申请中语音指令控制方法所应用的人机交互场景，可以包括如下两个场景。

车内交互场景一：

通常车内分布有多个扬声器，分别分布于车舱内的不同位置，多个扬声器可以根据乘客和驾驶员的需求为车内不同区域的乘客提供不同音量大小的音乐，例如乘客A想要休息则需要一个安静的环境，因此可以选择将其所在区域的扬声器音量调整到最低，而乘客B需要正常的听音乐，则可以将其所在区域的扬声器设置为正常的大小；又或者多个扬声器还可以为不同区域的用户提供不同的音频播放内容，例如后排做的是小朋友，则可以在后排为小朋友选择播放童话故事，而前排的驾驶员和副驾驶想要听流行音乐，则可以在前排区域的扬声器播放流行音乐。

而本发明的实施例则可以为车舱内的成员提供一种可以语音控制发出语音指令者所在区域扬声器的方法，例如如图1所示，当车内有A,B,C,D 4个人，分别乘坐于驾驶位，副驾驶位和左后排，右后排，这时成员D说：“把音量调低”，此时可以如图7A所示通过车舱内的摄像头和麦克风分别获取多个车内成员的音频指令信息和视频信息，通过车内成员的唇部运动信息和指令信息的特征匹配，确定说话的成员，并基于说话的成员所发出的指令和位置，控制说话成员所在位置的扬声器，如果识别出说话成员是右后方的乘客，则调低右后方区域的扬声器。

若成员C的语音指令是说：“给我播放一首《****》”，则同样可以通过车舱内的摄像头和麦克风分别获取车内成员的音频指令信息和视频信息，通过处理、分析车内成员A、B、C、D唇部运动信息和语音信息，确定说话的成员是成员C，并基于说话的成员C所发出的指令和所处的位置，控制说话成员所在位置的扬声器，如果识别出说话成员C是左后方的乘客，则控制左后方的扬声器播放歌曲《****》。

类似的应用场景还可以有，车内分布有多个空调出风口，分别分布于车舱内的不同位置，多个空调出风口可以根据乘客和驾驶员的需求为车内不同区域的乘客提供不同风量的大小，实现局部区域温度的差异化调整，例如乘客A温度低一点，因此可以选择将其所在区域的风量调大，而乘客B觉得冷，则可以通过指令将其所在区域的出风口的出风方向调整为不直接吹到人或者风量调小。或者当车内的座椅可以分别独立的调整角度和高低时，不同区域的乘客也会针对自己的需求对座椅的各个参数进行调整。上述场景，都可以通过本发明实施例的语音识别的方法来进行方便的控制，同样可以通过车舱内的摄像头和麦克风分别获取车内成员的音频指令信息和视频信息，通过处理、分析车内成员的唇部运动信息和语音信息，确定说话的成员，并基于说话的成员所发出的指令和所处的位置，控制说话成员所在位置的空调出风口的出风方向或者风量大小，或者控制座椅的椅背角度或者座椅的高低前后。

车内交互场景二：

车舱内的语音指令控制除了前述场景中提到的对车内设置的控制，因为有些车内设施的控制需要区分具体指令实施的目标区域，因此需要识别是哪个位置上的成员发出的语音指令，除了以上场景外，当驾驶员要执行车辆的行驶控制时，也可以选择通过语音控制车辆的行驶，这种语音指令交互场景下，同样需要识别当前的车辆控制指令是否是驾驶位上的成员发出的。

由此本发明的实施例则可以为车辆的行驶控制提供一种语音指令的权限识别方法，例如当车内有多个人，此时若接受到一个车辆行驶控制相关的语音指令，如，“切换到自动驾驶模式”，而车辆系统默认是驾驶位的成员才具有这类指令的执行权限，此时车辆需要如图2所示获取驾驶位成员的唇部运动信息，并且如图7B所示将获取的驾驶位成员的唇部运动信息和语音指令信息进行特征匹配，获取其与指令信息的匹配度，由此来判断是否是驾驶位成员发出的语音指令，从而判断是否执行所述指令。

具体的判断是否是驾驶位成员发出的语音指令，也可以是获取车内多个成员的唇部运动信息，分析其与指令信息之间的匹配度，看是否是驾驶员位置上的成员的唇部运动信息的匹配度最高，进而判断是否执行所述指令。

可以理解的是，图1、图2车舱中的应用场景的只是本发明实施例中的几种示例性的实施方式，本发明实施例具体实现时可以有多样灵活的实现方式，例如对于场景一，并不需要获取车内全部成员的唇部运动信息，可能根据具体的指令类型，仅获取部分成员的唇部运动信息，例如只有前排座椅可调节时，当检测当座椅调节的指令，只获取前排成员的唇部运动信息。对于场景二，不一定是要获取驾驶位成员的唇部运动信息，当车辆默认是车主具有所识别指令的操作权限时，获取车主所在位置，并提取车主的唇部运动信息，判断是否是车主发出的指令。

由于进行指令信息和车内成员唇部运动信息的匹配，可以采用模型训练的方式获取模型，并通过输入唇部运动信息和指令信息来输出相应的匹配度，因此下面从模型训练侧和模型应用侧对本申请提供的方法进行描述：

本申请提供的任意一种神经网络的训练方法，涉及计算机听觉与视觉的融合处理，具体可以应用于数据训练、机器学习、深度学习等数据处理方法，对训练数据(如本申请中的训练用户的唇部运动信息以及M个语音信息)进行符号化和形式化的智能信息建模、抽取、预处理、训练等，最终得到训练好的目标特征匹配模型；并且，本申请提供的任意一种语音匹配方法可以运用上述训练好的目标特征匹配模型，将输入数据(如本申请中的待识别的语音信息以及N个用户的唇部运动信息)输入到所述训练好的目标特征匹配模型中，得到输出数据(如本申请中的N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度)。需要说明的是，本申请实施例提供的一种神经网络的训练方法和一种语音匹配方法是基于同一个构思产生的发明，也可以理解为一个系统中的两个部分，或一个整体流程的两个阶段：如模型训练阶段和模型应用阶段。

参见附图3，图3是本发明实施例提供了一种系统架构100。如所述系统架构100所示，数据采集设备160用于采集训练数据，在本申请中，该数据采集设备160可以包括麦克风和摄像头。本发明实施例中训练数据(即模型训练侧的输入数据)可包括：视频样本数据和语音样本数据，即分别为本发明实施例中的训练用户的唇部运动信息以及M个语音信息，其中，所述M个语音信息可包括与所述训练用户的唇部运动信息所匹配的语音信息。例如，视频样本数据为某个训练用户在发出语音为:“今天天气特别好，我们去哪里玩？”时的唇部运动图像序列，而语音样本数据则为包含上述训练用户发出“今天天气特别好，我们去哪里玩？”的语音波形序列(作为语音正样本)以及(M-1)个其它语音波形序列(作为语音负样本)。而上述视频样本数据和音频样本数据可以是由数据采集设备160采集的，也可以是从云端下载下来的，图3只是一种示例性的架构，并不对此进行限定。进一步地，数据采集设备160将训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标特征匹配模型/规则101(此处的目标特征匹配模型101即为本发明实施例中的所述目标特征匹配模型，例如，为经过上述训练阶段训练得到的模型，可以用于语音和唇部运动轨迹之间的特征匹配的神经网络模型)。

下面将更详细地描述训练设备120如何基于训练数据得到目标特征匹配模型/规则101，该目标特征匹配模型/规则101能够用于实现本发明实施例提供任意一种语音匹配方法，即，将由数据采集设备160获取的音频数据和图像数据通过相关预处理后输入该目标特征匹配模型/规则101，即可得到多个用户的唇部运动的图像序列特征分别与待识别的语音特征之间的匹配度/置信度。本发明实施例中的目标特征匹配模型/规则101具体可以为时空卷积网络(STCNN)，在本申请提供的实施例中，该时空卷积网络可以是通过训练卷积神经网络得到的。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标特征匹配模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本发明实施例的限定。

如图3所示，根据训练设备120训练得到目标特征匹配模型/规则101，该目标特征匹配模型/规则101在本发明实施例中可以称之为视听交叉卷积神经网络(V&A Cross CNN)/时空卷积神经网络。具体的，本发明实施例提供的目标特征匹配模型可以包括：第一模型、第二模型和第三模型，其中第一模型用于进行语音特征的提取，第二模型用于多个用户(本申请中为N个用户)唇部运动的图像序列特征的提取，第三模型则用于上述语音特征和N个用户的图像序列特征之间的匹配度/置信度的计算。在本发明实施例提供的目标特征匹配模型中，所述第一模型、所述第二模型和所述第三模型都可以是卷积神经网络即可以理解为目标特征匹配模型/规则101自身可以看作是一个整体的时空卷积神经网络，而该时空卷积神经网络中又包含了多个独立网络，如上述第一模型、第二模型和第三模型。

除了上述的模型训练和执行方式，本发明实施例还可以通过其他的模型训练和执行方案来实现。

同上面已经介绍过的训练方法的样本数据采集来源一样，本发明实施例中训练数据(即模型训练侧的输入数据)可包括：视频样本数据和语音样本数据，即分别为本发明实施例中的训练用户的唇部运动信息以及M个语音信息，其中，唇部运动信息包括不同用户的各种语音指令语句对应的唇部运动信息，语音信息包括不同用户发出的语音指令语句。可选的也可以包括一些负样本，即不是语音指令的语句对应的唇部运动信息，以及不是语音指令的语音信息。这里的语音指令是指车载系统能够识别并作出应道相应的语音信息，可以是关键词，也可以是完整的句子。而上述视频样本数据和音频样本数据可以是由数据采集设备160采集的，也可以是从云端下载下来的，或者是第三方数据持有者提供的。进一步地，数据采集设备160将训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标特征匹配模型/规则101(此处的目标特征匹配模型101即为本发明实施例中的所述目标特征匹配模型，例如，为经过上述训练阶段训练得到的模型，可以用于语音和唇部运动轨迹之间的特征匹配的神经网络模型)。

下面将更详细地描述训练设备120如何基于训练数据得到目标特征匹配模型/规则101，该目标特征匹配模型/规则101能够用于实现本发明实施例提供任意一种语音匹配方法，即，将由数据采集设备160获取的音频数据和图像数据通过相关预处理后输入该目标特征匹配模型/规则101，即可得到多个用户的唇部运动的图像序列特征分别与待识别的语音特征之间的匹配度/置信度。本发明实施例中的目标特征匹配模型/规则101具体可以为卷积网络(CNN)，在本申请提供的实施例中。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标特征匹配模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本发明实施例的限定。

如图3所示，根据训练设备120训练得到目标特征匹配模型/规则101。具体的，本发明实施例提供的目标特征匹配模型可以包括：第一模型、第二模型，其中第一模型用于进行语音指令的匹配识别语音指令所对应的指令信息，具体的可以是指令标识，或者指令的文本特征，第二模型用于基于N个用户的图像序列特征分别识别于各个唇部运动信息所对应的语音指令的对应关系，例如能够匹配的输出对应的指令的标识及其匹配度，最终根据语音指令对应的指令标识和各个用户唇部运动信息对应的语音标识及其匹配度输出发出语音指令的目标用户。在本发明实施例提供的目标特征匹配模型中，其中所述第一模型，第二模型可以是CNN、RNN、DBN、DNN等。

所述第一模型的训练是以语音指令为输入语音指令所对应的指令标识(标识的表现形式可以为编码)为标签进行训练。第二模型是以用户的唇部运动信息为输入(唇部运动信息具体可以是唇部运动图像序列特征如唇部按照时间采样的开合幅度为向量序列)，唇部运动信息对应的指令标识及其匹配度为输出，其中指令标识可以是指令对应的编码，匹配度可以为输出的匹配数值，根据匹配数值进行是否匹配的判断，例如，数值大于0.5是匹配，小于0.5则为不匹配。

根据训练设备120训练得到的目标特征匹配模型/规则101可以应用于不同的系统或设备中，如应用于图4所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)，智能可穿戴设备、智能机器人、车载终端、智能座舱环境等，还可以是服务器或者云端等。在附图4中，执行设备110配置有I/O接口112，用于与外部设备进行数据交互，用户可以通过客户设备140(本申请中的客户设备也可以包括麦克风、摄像头等数据采集设备)向I/O接口112输入数据，所述输入数据(即模型应用侧的输入数据)在本发明实施例中可以包括：待识别的语音信息和N个用户的唇部运动信息，即分别为本发明实施例中的目标时间段内的语音波形序列和N个用户的唇部运动信息中的每一个用户的唇部运动信息包括对应的用户在所述目标时间段内唇部运动的图像序列。例如，当前需要识别一群人中具体是哪个人讲了“明天天气怎么样，适合到哪里出游”的语音信息，则该“明天天气怎么样，适合到哪里出游”对应的语音波形序列，以及在场所有人对应的唇部运动的图像序列则作为输入数据。可以理解的是，此处的输入数据，可以是用户输入的，也可以是由相关数据库提供的，具体依据应用场景的不同而不同，本发明实施例对此不作具体限定。

在本发明实施例中，客户设备140可以和执行设备110在同一个设备上，数据采集设备160、数据库130和训练设备120也可以和执行设备110和客户设备140在同一个设备上。以本申请中的执行主体为机器人为例，机器人在通过客户设备140(包括麦克风和摄像头以及处理器)将采集的音频数据和图像数据，进行提取获得待识别的语音信息及N个用户的唇部运动信息之后，则可以通机器人内部的执行设备110，进一步对上述提取的语音信息和唇部运动信息之间进行特征匹配，最终输出结果至客户设备140，由客户设备140中的处理器分析得到所述待识别的语音信息在所述N个用户用所属的目标用户。并且，模型训练侧的设备(数据采集设备160、数据库130和训练设备120)可以在机器人内部，也可以在云端，当在机器人内部时，则可以认为机器人拥有可以实现模型训练或者模型更新优化的功能，此时，机器人既有模型训练侧的功能，又有模型应用侧的功能；当在云端，则可以认为机器人侧仅有模型应用侧的功能。可选的，客户设备140和执行设备110也可以不在同一个设备上，即采集音频数据和图像数据、以及提取待识别的语音信息和N个用户的唇部运动信息可以由客户设备140(例如智能手机、智能机器人等)来执行，而对待识别的语音信息和N个用户的唇部运动信息之间进行特征匹配的过程，则可以由执行设备110(例如云端服务器、服务器等)来执行。或者，可选的，采集音频数据和图像数据由客户设备140来执行，而提取待识别的语音信息和N个用户的唇部运动信息，以及对待识别的语音信息和N个用户的唇部运动信息之间进行特征匹配的过程均由执行设备110来完成。

在附图3中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端(例如为麦克风、摄像头)，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

预处理模块113用于根据I/O接口112接收到的输入数据(如所述语音数据)进行预处理，在本发明实施例中，预处理模块113可以用于对语音数据进行预处理，例如从语音数据中提取待识别的语音信息。

预处理模块114用于根据I/O接口112接收到的输入数据，如(所述图像数据)进行预处理，在本发明实施例中，预处理模块114可以用于对图像数据进行预处理，例如从图像数据中提取与上述待识别的语音信息对应的N个用户的唇部运动信息。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。最后，I/O接口112将输出结果，如本发明实施例中的N个用户的唇部运动信息分别与待识别的语音信息之间的匹配度，或者其中最高的一个匹配度的目标用户ID返回给客户设备140，客户设备140从而根据上述匹配度，确定目标用户的用户信息，从而基于该用户信息生成与该用户信息匹配的控制指令。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标特征匹配模型/规则101，该相应的目标特征匹配模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

值得注意的是，附图4仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图4中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

基于上述系统架构的介绍，以下描述本发明实施例中模型训练侧和模型应用侧所涉及的神经网络模型机即卷积神经网络，卷积神经网络CNN是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。

如图4所示，图4为本发明实施例提供的一种卷积神经网络示意图，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220，以及神经网络层230，其中池化层为可选的。

卷积层/池化层220：

如图4所示卷积层/池化层120可以包括如示例221-226层，在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

卷积层：

以卷积层221为例，卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……，这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化……该多个权重矩阵维度相同，经过该多个维度相同的权重矩阵提取后的特征图维度也相同，再将提取到的多个维度相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以从输入图像中提取信息，从而帮助卷积神经网络200进行正确的预测。

当卷积神经网络200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以被称为低级别的特征；随着卷积神经网络200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，即如图4中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像大小相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层130：

在经过卷积层/池化层220的处理后，卷积神经网络100还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息)，卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的输出。因此，在神经网络层230中可以包括多层隐含层(如图4所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等……

在神经网络层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(图4中由210至240的传播为前向传播)完成，反向传播(图4中由240至210的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图4所示的卷积神经网络200仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在，例如，多个卷积层/池化层并行，将分别提取的特征均输入给全神经网络层230进行处理。

本申请中的归一化层，作为CNN的功能层，原则上可以在上述CNN中的任何一层之后，或者任何一层之前进行，并以上一层输出的特征矩阵作为输入，其输出也可以作为CNN中任何一层功能层的输入。但在实际CNN应用中，归一化层一般在卷积层之后进行，并以前面卷积层输出的特征矩阵作为输入矩阵。

基于上述图3和图4中对系统架构100以及对卷积神经网络200的相关功能描述，下面结合上述应用场景、系统架构、卷积神经网络的结构、神经网络处理器的结构，从模型训练侧和模型应用侧对本申请提供的神经网络的训练方法、语音匹配方法的实施例进行描述，以及对本申请中提出的技术问题进行具体分析和解决。

参见图5，图5是本发明实施例提供的一种神经网络的训练方法的流程示意图，该方法可应用于上述图1、图2中所述的应用场景及系统架构中，具体可应用于上述图3的训练设备120中。下面结合附图5以执行主体为上述图3中的训练设备120或者包含训练设备120的设备为例进行描述。该方法可以包括以下步骤S701-步骤S702。

S701：获取训练样本，所述训练样本包括训练用户的唇部运动信息以及M个指令信息。

具体地，例如，训练用户的唇部运动信息为用户小方发出语音信息：“你好，我的名字叫小方，来自中国湖南，你呢？”所对应的唇部运动信息也即是唇部运动视频或唇部连续运动的图像序列，或者是可以体现唇部开合运动的上下唇之间的距离按照时序关系所组成的向量参数那么，所述M个指令信息则包括上述“空调温度调高一点”的指令信息的波形序列或者文本信息作为指令样本，以及其它的指令信息，如“座椅后背角度调低一点”、“打开车窗”“把音乐关掉”等语音信息作为负样本。可选的，所述M个指令信息包括与所述训练用户的唇部运动信息所匹配的指令信息以及(M-1)个与所述训练用户的唇部运动信息不匹配的指令信息。例如，上述唇部运动信息为用户A在发出指令信息：“空调温度调高一点”所对应的连续的唇部运动的图像序列(即发音口型的视频)，而上述M个指令信息则包括上述语音正样本的语音波形序列，和M-1个负样本的语音波形序列。可以理解的是，上述M个指令信息中也可以包括多个正样本和负样本，即对正样本和负样本的数量不作具体限定，只要均包含即可。

S702：以所述训练用户的唇部运动信息以及所述M个语音信息为训练输入，以所述训练用户的唇部运动信息分别与所述M个语音信息之间的匹配度为M个标签，对初始化的神经网络进行训练，得到目标特征匹配模型。

具体地，例如，上述训练用户的唇部运动信息与正样本的指令信息“空调温度调高一点”之间的标签为“匹配度＝1”，而上述训练用户的唇部运动信息与其他负样本的指令信息“座椅后背角度调低一点”、“打开车窗”“把音乐关掉”之间的标签为“匹配度＝0.2”、“匹配度＝0”“匹配度＝0”等，此处不再赘述。也即是通过上述训练输入和预先设置的标签，可以将初始化的神经网络模型训练得到本申请中所需要使用的目标特征匹配模型，该目标特征匹配模型可以用于匹配待识别的指令信息与多个用户的唇部运动信息之间的匹配关系，用于实现本申请中的任意一种语音匹配方法。

在一种可能的实现方式中，所述以所述训练用户的唇部运动信息以及所述M个指令信息为训练输入，以所述训练用户的唇部运动信息分别与所述M个指令信息之间的匹配度为M个标签，对初始化的神经网络进行训练，得到目标特征匹配模型，包括：将所述训练用户的唇部运动信息以及所述M个指令信息输入到所述初始化的神经网络中，计算得到所述M个指令信息分别与所述训练用户的唇部运动信息之间的匹配度；将计算得到的所述M个指令信息分别与所述训练用户的唇部运动信息之间的匹配度与所述M个标签进行比较，对初始化的神经网络进行训练，得到目标特征匹配模型。

在一种可能的实现方式中，所述目标特征匹配模型包括第一模型、第二模型和第三模型；所述将所述训练用户的唇部运动信息以及所述M个指令信息输入到所述初始化的神经网络中，计算得到所述M个指令信息分别与所述训练用户的唇部运动信息之间的匹配度，包括：将所述M个指令信息输入到所述第一模型中，得到M个语音特征，所述M个语音特征中的每一个语音特征均为K维语音特征，K为大于0的整数；将所述训练用户的唇部运动信息输入到所述第二模型中，得到所述训练用户的图像序列特征，所述训练用户的图像序列特征为K维图像序列特征；将所述M个语音特征和所述训练用户的图像序列特征输入到第三模型中，计算得到所述M个语音特征分别与所述训练用户的图像序列特征之间的匹配度。

关于上述具体如何从初始化的神经网络模型训练成为本申请中的目标特征匹配模型，在后续图7对应的模型应用侧的方法实施例中一并进行描述，此处不作详述。

本发明实施例，通过将某个训练用户的唇部运动信息，以及与之匹配的指令信息和多个不匹配的指令信息作为初始化的神经网络的输入，并基于上述M个指令信息与该训练用户的唇部运动信息的实际匹配度作为标签，对上述初始的神经网络模型进行训练得到的目标特征匹配模型，例如，完全匹配对应的匹配度即标签为1，不匹配对应的匹配度即标签为0，当通过训练后的初始化的神经网络计算得到的训练用户的唇部运动信息分别与M个指令信息之间的匹配度越接近所述M个标签，则该训练后的初始化的神经网络越接近所述目标特征匹配模型。

参见图9，图9是本发明实施例提供的又一种语音指令控制方法的流程示意图，主要适用车内成员车内车载设备的语音交互控制的场景，通常在车内存在多个车内成员的场景下，车载设备接受到用于车载设备控制的语音指令，当车载设备需要确定指令是基于哪个位置的车内成员发出，并针对特定位置区域进行响应控制的场景，可以基于本方案来准确识别出是哪个位置上的成员发出的语音指令。该方法可应用于车舱内的应用场景及系统架构中，以及具体可应用于上述图3的客户设备140以及执行设备110中，可以理解的是，客户设备140和执行设备110均可以设置在车内。下面结合附图9以执行主体为智能车辆为例进行描述。该方法可以包括以下步骤S1601-步骤S1605

步骤S1601：获取车内音频数据。

具体地，获取车载麦克风采集的车内音频数据。音频数据包括有车内的环境音，如扬声器的音乐，发动机空调等的噪声，车外的声音等等环境音以及用户发出的语音指令。

通常智能车辆的车舱内存在麦克风阵列，即车内存在多个麦克风分布于车舱内不同位置，因此当车内存在麦克风阵列时，此时步骤S1601具体可以为：

S1601a：获取车内多个麦克风采集的音频数据。

在进行人机交互的场景下麦克风阵列会进行音频数据的采集，或者车内麦克风阵列在车辆启动后便实时处于音频数据采集状态下，或者是通过车内成员例如车主进行特定操作后，例如开启音频采集功能后，麦克风阵列进入音频采集状态。麦克风阵列采集音频数据的方式为，多个麦克风分别在车舱内的不同位置采集音频数据。

S1601b：基于多个麦克风采集的音频数据获取目标音频数据。

车内麦克风阵列通常为多个麦克风设置于车内不的不同位置，因此在车内环境下的音频数据的获取可以有多个音频源供选择，由于不用位置采集到的音频数据的效果是不一样的，例如当发出语音指令的人是坐在车辆的后排，而前排副驾驶位的成员在听歌，副驾驶位的扬声器此时正在播放歌曲，那么这个时候副驾驶位采集到的音频数据会因为副驾驶位的扬声器而音乐声比较大，后排乘客的指令信息比较微小，而后排的扬声器则相对会采集到一个比较明确的语音信号仅伴随较小的音乐声，此时在进行音频数据的获取时，通常会对各个麦克风采集到的音频数据进行预处理后，通过分析比较，选择出目标音频数据。例如因为环境噪声，音乐声，和语音指令所处的频段不同，所述预处理可以是对多个麦克风采集到的音频数据进行滤波处理，选择滤波处理后语音信号最强的音频信号作为目标音频信号。

这里还可以是通过其他现有的预处理方式来判断哪个麦克风采集的音频数据中的语音指令相关信号的信号质量最佳，及选择此音频信号作为目标音频信号。所选择的目标音频信号可以是原始的麦克风采集的音频信号，也可以是经过预处理后的音频信号。

步骤S1602：当识别出所述音频数据中包括第一类型指令信息，获取图像数据。

所述识别出所述S1601步骤中获取的音频数据中是否包括第一类型指令信息的方式有多种，例如可以基于RNN模型来进行音频信息的语义识别，然后基于识别出的文本信息进行指令内容的识别，根据指令内容判断指令类型，或者直接根据文本信息中的特征信息，如关键词，判断指令类型，具体基于语音进行指令识别的方案在现有技术中已有多种，在此不一一列举。所述用于进行模型输入的音频数据可以是对采集的音频数据进行环境噪声滤除等预处理后的音频数据，也可以直接基于采集到的音频数据直接进行输入。也可以是现有技术中的其他的语音识别方式来判断是否包括有指令信息。

本实施例中的第一类型指令信息是指车载设备能够接收并识别，并需要通过判断指令发起者所处的位置对所述位置区域进行相应操作响应的指令信息，即通常为车舱内部设施的调控指令，如车舱内的空调调节指令，声音调节，音频内容选择调节相关的指令。

指令信息可以是音频数据中对应于指令时间段内的语音波形序列，或者为从所述音频数据中提取的在所述目标时间段内的文本信息的文本特征序列。在本文的模型介绍时，会提到待识别语音信息，其实质也是语音指令发出的对应时间段内的语音波形序列，因此图9中提到指令信息，当其为语音波形序列形式时，也是一种待识别语音信息。

获取车内音图像数据是同麦克风进行音频采集一样，可以是再车辆启动后就开始自动进行实时采集，也可以是根据用户的指示开启实时的采集功能，或者是默认音频采集启动时同时开启图像数据的采集。车辆上通常会设置有多个摄像头，也会设置有不同种类的摄像头，如单目相机，双目相机，TOF相机，红外相机等，在本方案中并不限定采集车内图像数据的摄像头的部署位置和个数以及摄像头的类型，本领域技术人员可以根据具体方案实现的需要进行相应的选择部署。其中S1601步骤中的麦克风可以是独立设置的麦克风，也可以是集成在摄像头中的麦克风。

所述图像数据可以是车载处理系统在通过麦克风获取语音数据的同时通过摄像头获取图像数据。即上述音频数据和图像数据是在某个时间段内的原始音频数据及图像数据，即音频数据源和图像数据源。可选的，该音频数据和图像数据是针对同一个场景下的同一个时间段内所采集的。

由于车舱内通常是2排以上的座位，因此从一个摄像头获取图像数据时，往往容易存在成员之间的遮挡情况，因此为了清楚采集到每一个成员的唇部运动信息，往往需要通过车舱内处于不同位置的多个摄像头进行图像数据的采集。但音频数据源的数量和图像数据源的数量并不要求一定要相匹配，比如，可以通过设置在车内各个位置的麦克风采集音频数据，通过车内的全局摄像头采集车舱内的图像数据，也可以是通过某个指定的麦克风采集音频数据，通过车内多个位置的摄像头采集车舱内的图像数据。

步骤S1603：从所述图像数据中提取车内N个位置上的成员的唇部运动信息。

具体地，根据所采集到的车内视频信息，判断车内成员的位置分布，并提取各个位置上的成员的唇部运动信息，所述唇部运动信息携带有对应的位置标识。

所述车内多个成员的唇部运动信息中的每一个成员的唇部运动信息包括对应的用户在对应目标时间段内唇部运动的图像序列，目标时间段为音频中所述指令信息对应的时间段。即从原始图像数据中提取的各个成员的唇部视频，即连续的唇部运动的图像序列，包含了对应成员的连续的口型变化特征。例如，通过摄像头采集的图像数据中的每一帧图像的格式为24位BMP位图，其中，BMP图像文件(Bitmap-File)格式是Windows采用的图像文件存储格式，而24位图像则是使用3字节保存颜色值，每一个字节代表一种颜色，按红(R)、绿(R)、蓝(B)排列，并将RGB彩色图像转换成灰度图。智能设备从上述摄像头采集的图像数据中，基于人脸识别算法，获取至少一个人脸区域，并进一步以每个人脸区域为单位，为每个人脸区域赋予一个人脸ID(和机器人或者智能音箱场景不同，所述人脸ID用于对应车内的位置)，提取嘴部区域的视频序列流，其中，视频的帧速率为30f/s(帧率(Frame rate)＝帧数(Frames)/时间(Time)，单位为帧每秒(f/s,frames per second，fps))。9个连续的图像帧形成0.3秒的视频流。将9帧图像图像数据(视频速度30fps)拼接(concat)为一个尺寸为9×60×100的cube，其中9是表示时间信息的帧数(时序特征)。每个通道都是口腔区域的60×100灰度图像(2d空间特征)。以此N个用分别对应的0.3s内的唇部运动的图像序列作为视频特征的输入，其中0.3s则为目标时间段。

具体如何从所述图像数据中提取多个成员的唇部运动信息，参考本发明的在先实施例中的相应技术方案描述。

步骤S1604：将所述指令信息和所述N个成员的唇部运动信息输入到目标特征匹配模型中，得到所述N个成员的唇部运动信息分别与所述指令信息之间的匹配度。

具体地，将指令信息和N个成员各自在所述目标时间段内唇部运动的图像序列，分别作为音频特征的输入和视频特征的输入，输入到目标特征匹配模型中，分别计算该指令信息分别和N个成员的唇部运动特征之间的匹配度。匹配度具体的可以是大于等于0小于等于1的数值。

此处的指令信息可以是如图6所示，图6为本发明实施例提供的一种声音波形示例图，或者是指令的标识信息的形式，如序列编号的形式，或指令语句的形式等。在一种可能的实现方式中，假设音频数据中有多个用户在同时讲话，那么此时需要判断其中的某一段语音信息是由哪个用户发出的，则需要先识别、提取音频数据中的目标语音信息即上述待识别的语音信息。或者，假设该音频数据中包括了某一个用户讲的多段语音信息，而智能设备只需要识别其中某一段语音信息，则该段语音信息为待识别的语音信息。例如，智能设备从S801中的麦克风阵列获取的音频数据中提取音频特征，具体方法可以使用梅尔频率倒谱系数进行语音特征提取，使用梅尔频率倒谱系数(MFCC)对帧长为20ms数据提取40维的特征，帧与帧之间没有重叠(non-overlapping)，每15帧(对应0.3秒的音频片段)拼接(concat)为一个维数为15×40×3的cube(其中，15是时序特征，40×3是2d空间特征)，以该0.3s内的语音波形序列作为音频特征的输入，其中0.3s则为目标时间段。除了上述方式以外现有技术中也还有其他方式可以用于分离一段语音中的目标语句。

关于目标特征匹配模型的具体实现，会在下文中具体介绍，其中模型结构参见后续关于图7的描述，以及前文图3中对于模型训练和获取的描述。

步骤S1605：根据匹配度确定对哪个位置区域执行所述指令信息对应的指令。

由于匹配度通常来说是数值的形式，因此S1605相应的确定策略可以是将匹配度最高的成员的唇部运动信息对应的成员所处的车内位置，确定为执行所述指令信息的目标区域，执行所述。

如当指令调低空调的，则仅对于目标区域执行调低出风口的温度或者风量的操作。

此外S1604-S1605还可以是：

S1604：将所述指令信息和其中一个成员的唇部运动信息输入到目标特征匹配模型中，得到所述成员的唇部运动信息与所述指令信息之间的匹配度。

步骤S1605：当匹配度大于已知门限值则在成员所在位置区域执行所述指令信息对应的指令。

若匹配度小于已知门限值，则继续按照一定的规则，继续判断车内另一位置上的成员的唇部运动信息和所述指令信息的匹配度，直到得到匹配度大于已知门限值的唇部运动信息，或者是匹配完所有的车内成员，则结束匹配过程。

车舱内除了如上述实施例一样，需要识别指令发起者所在的位置，针对特定的位置执行相应的操作外，还存在需要判断指令的发起者的身份的场景，例如当识别到一个车辆控制相关的语音指令，此时需要判断是否是驾驶员发出的指令，从而判断是否能够执行该指令。对于这类场景，具体的实施方式如下：

参见图10，图10是本发明实施例提供的又一种语音匹配方法的流程示意图，主要适用基于语音指令对车辆执行行驶方面的操作控制的场景，由于通常车内存在多个成员，通常认为只有驾驶员具备对车辆行驶进行语音操作控制的权限，为了避免误操作，误识别，当车载设备接受到用于车辆行驶控制的语音指令，需要判断是否是驾驶员发出的语音指令，然后基于识别结果判断是否执行所述车辆行驶指令。该方法可以包括以下步骤S1701-步骤S1705。

步骤S1701：获取车内音频数据。

其中S1701的具体实现和S1601相同。

步骤S1702：当识别出所述音频数据中包括第二类指令信息，获取图像数据。

S1702中的第二类指令信息只要是指车辆的形式控制相关的指令信息，如车辆转弯、加速、启动，驾驶模式的切换等。当识别是这一类的指令信息时，需要获取驾驶位成员的图像数据。

具体的指令识别方式和图像数据获取方式参见S1602.

步骤S1703：从所述图像数据中提取第一位置成员的唇部运动信息。其中如何提起唇部运动信息以及如何对唇部运动信息进行标识参见S1603。

步骤S1704：将所述指令信息和所述第一位置成员的唇部运动信息输入到目标特征匹配模型中，得到驾驶位成员的唇部运动信息分别与所述指令信息之间的匹配度。

步骤S1705：根据匹配度确定是否执行所述指令信息对应的指令。

S1705有多种判断方式，由于匹配度通常来说是数值的形式，S1705可以是根据匹配度是否高于预设门限值来判断是否执行所述指令信息。即，可以是，当匹配度大于预设的门限值，则认为所述指令是第一位置成员发出的，则执行所述车辆形式控制指令。否则不执行所述指令。

S1705还可以是判断所述第一位置成员唇部信息的匹配度是不是所有车内成员唇部运动信息和指令信息匹配度中匹配度最高的。若是这种情况，则需要在S1703中除了提取第一位置成员的唇部运动信息外，还要提起车内其他成员的唇部运动信息。同样S1704中，除了将所述指令信息和所述第一位置成员的唇部运动信息输入到目标特征匹配模型中，还要将其他成员的唇部信息也输入到目标特征匹配模型中，获取相应的匹配度。

在方案具体实现的时候，上述实施例中的第一位置通常是驾驶位，例如，可以车内控制系统的初始设定默认是驾驶位成员具备语音控制车辆行驶操作的权限，也可以基于用户的人工设定基于每次乘车时的具体位置分布情况进行更改，例如设置驾驶位和副驾驶位都具备车辆行驶控制权限。此时则第一位置是驾驶位和副驾驶位。

或者本发明实施例在具体实现时也可以是在车辆初始化的时候，会在车辆上根据车辆提示要求，或者车主主动设置录入家庭会使用车辆的成员的图像信息和权限信息，此时本发明实施例的方案在具体实现时，可以是车辆行驶之前或者就开始启动之后，车内摄像头获取具有驾驶操控权限的登记成员的位置信息，然后当识别到车辆控制相关的指令时，则基于具备操控权限的成员所处位置上的唇部运动信息判断是否是所述位置上的成员的发出的语音指令。

本发明的实施例除了判断车辆行驶控制类语音指令是不是驾驶位成员发出，还可以应用于，其他类型的指令的是否可执行的判断，例如对于呼叫功能，可以手动或者车辆默认设置为只有车主或者驾驶员可执行语音控制，以上实施例仅为具体的示例，并不限定具体的指令类型，或者具体的固定位置。

通过上述两个车内交互的实施例，可以通过判断是那个车内座位上的成员发出的指令，来针对性的实施指令操作，为用户提供更精准的车舱内交互控制。

对于车辆行驶操控上的语音控制，能够很好的防止误操作，误识别，确保只有驾驶员才能够进行相应的车辆行驶控制，提供了车辆形式控制的安全性。

本发明实施例还提供又一种语音指令控制方法，该方法可应用于上述图1、图2的车内的应用场景及系统架构中，以及具体可应用于上述图3的执行设备110中，可以理解的是，此时，客户设备140和执行设备110可以不在同一个物理设备上，如图8所示，图8为本发明实施例提供的一种语音指令控制系统架构图，在该系统中，例如，包括智能车辆800，作为音频数据和图像数据的采集设备，进一步地，还可以作为待识别指令信息以及N个用户的唇部信息的提取设备；而关于上述提取后的待识别指令信息以及N个用户的唇部信息之间的匹配则可以在执行设备110所在的服务器/服务设备/服务装置/云端服务设备801上执行。可选的，上述待识别指令信息以及N个用户的唇部信息的提取也可以在执行设备110所在的设备侧执行，本发明实施例对此不作具体限定。下面以包含图8中的云端服务设备801为例进行描述。该方法如图11所示，可以包括以下步骤S1001-步骤S1003。

步骤S1001：获取指令信息和位于车舱内N个车内成员的唇部运动信息；

上述步骤中，指令信息为根据车舱内采集的音频数据获取，车内成员的唇部运动信息为当判断所述指令信息对应的指令为第一类型指令时获取，唇部运动信息包括所述位于车内第一位置的车内成员在目标时间段内的唇部运动的图像序列，所述目标时间段为所述指令在所述音频数据中对应的时间段。

步骤S1002：将所述指令信息和所述位于车舱内N个车内成员的唇部运动信息输入到目标特征匹配模型中，得到所述N个位置上的车内成员的唇部运动信息分别与所述指令信息之间的匹配度；

步骤S1003：将匹配度最高的用户的唇部运动信息对应的成员所处的位置作为执行所述指令信息对应的指令的目标位置。

除此之外还有如图12所示的，需要识别具体发出指令的成员的权限，从而判断指令的目标执行区域的云端方案：

步骤S1021：获取指令信息和位于车内第一位置的车内成员的唇部运动信息；

上述步骤中的指令信息为根据车舱内采集的音频数据获取，位于车内第一位置的车内成员的唇部运动信息为当识别所述指令信息对应的指令为第二类型指令时获取，唇部运动信息包括所述位于车内第一位置的车内成员在目标时间段内的唇部运动的图像序列，目标时间段为所述指令在所述音频数据中对应的时间段。

步骤S1022：将所述指令信息和所述位于车内第一位置的车内成员的唇部运动信息输入到目标特征匹配模型中，得到所述位于车内第一位置的车内成员的唇部运动信息与所述指令信息之间的第一匹配度；

步骤S1023：根据所述第一匹配度确定是否执行所述指令信息对应的指令。

在一种可能的实现方式中，所述目标特征匹配模型包括第一模型、第二模型和第三模型；

所述将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中，得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度，包括：

将所述待识别的语音信息输入到所述第一模型中，得到语音特征，所述语音特征为K维语音特征，K为大于0的整数；

将所述N个用户的唇部运动信息输入到所述第二模型中，得到N个图像序列特征，所述N个图像序列特征中的每一个图像序列特征均为K维图像序列特征；

将所述语音特征和所述N个图像序列特征输入到第三模型中，得到所述N个图像序列特征分别与所述语音特征之间的匹配度。

在一种可能的实现方式中，所述目标特征匹配模型为以训练用户的唇部运动信息以及M个指令信息为输入、以所述训练用户的唇部运动信息分别与所述M个语音信息之间的匹配度为M个标签，训练得到的特征匹配模型。

在一种可能的实现方式中，所述方法还包括：

确定所述目标用户的用户信息，所述用户信息包括人物属性信息、与所述待识别的语音信息对应面部表情信息、与所述待识别的语音信息对应的环境信息中的一种或多种；

基于所述用户信息，生成与所述用户信息匹配的控制指令。

在一种可能的实现方式中，所述方法还包括：从图像数据中提取N个用户的唇部运动信息；进一步地，所述从所述图像数据中提取N个用户的唇部运动信息，包括：

基于人脸识别算法，识别所述图像数据中的N个人脸区域，提取所述N个人脸区域中每个人脸区域中的唇部运动视频；

基于所述每个人脸区域中的唇部运动视频确定所述N个用户的唇部运动信息。

在一种可能的实现方式中，所述方法还包括：从所述音频数据中提取待识别的语音信息；进一步地，所述从所述音频数据中提取待识别的语音信息，包括：

基于频谱识别算法，识别所述音频数据中的不同频谱的音频数据，并将目标频谱的音频数据识别为所述待识别的语音信息。

需要说明的是，本发明实施例中所描述的云端服务设备所执行的方法流程可参见上述图9-图12中所述的相关方法实施例，此处不再赘述。

请参见图13，图13是本发明实施例提供的一种智能设备的结构示意图，图13是本发明实施例提供的一种智能设备的功能原理示意图。该智能设备可以为车载设备，车载系统，智能车辆。该智能设备40中可包括处理器401，以及耦合于该处理器401的麦克风402、摄像头403，当是智能车辆或者是车内的语音处理系统时，所述麦克风402、摄像头403通常为多个，如对应图12的应用场景，其中，

麦克风402，用于采集音频数据；

摄像头403，用于采集图像数据，所述音频数据与所述图像数据为针对同一场景下采集的；

处理器401，获取所述车舱内音频数据，当识别出所述车舱内音频数据中包括第一类型指令，获取车舱内图像数据；从所述车舱内图像数据中提取车舱内N个位置上的车内成员的唇部运动信息；用于将所述第一类型指令对应的指令信息和所述车舱内N个位置上的车内成员的唇部运动信息输入到目标特征匹配模型中，得到所述N个位置上的车内成员的唇部运动信息分别与所述指令信息之间的匹配度；将匹配度最高的用户的唇部运动信息对应的成员所处的位置作为执行所述指令信息对应的指令的目标位置。

如对应图12的应用场景，麦克风402，用于采集音频数据；

处理器401，获取所述车舱内音频数据，当识别出所述车舱内音频数据中包括第二类型指令，获取所述车舱内图像数据，从所述车舱内图像数据中获取第一图像数据，所述第一图像数据为包括位于车内第一位置的车内成员的图像数据，从所述第一图像数据中提取所述位于车内第一位置的车内成员的唇部运动信息；用于将所述第二类型指令对应的指令信息和所述位于车内第一位置的车内成员的唇部运动信息输入到目标特征匹配模型中，得到所述位于车内第一位置的车内成员的唇部运动信息与所述指令信息之间的第一匹配度，根据所述第一匹配度确定是否执行所述指令信息对应的指令。

在一种可能的实现方式中，所述待识别的语音信息包括目标时间段内的语音波形序列；所述N个用户的唇部运动信息中的每一个用户的唇部运动信息包括对应的用户在所述目标时间段内唇部运动的图像序列。

在一种可能的实现方式中，处理器401，具体用于：将所述待识别的语音信息和所述N个用户的唇部运动信息输入到目标特征匹配模型中，得到所述N个用户的唇部运动信息分别与所述待识别的语音信息之间的匹配度；将匹配度最高的用户的唇部运动信息对应的用户，确定为所述待识别的语音信息所属的目标用户。

在一种可能的实现方式中，所述目标特征匹配模型包括第一模型、第二模型和第三模型；处理器401，具体用于：将所述待识别的语音信息输入到所述第一模型中，得到语音特征，所述语音特征为K维语音特征，K为大于0的整数；将所述N个用户的唇部运动信息输入到所述第二模型中，得到N个图像序列特征，所述N个图像序列特征中的每一个图像序列特征均为K维图像序列特征；将所述语音特征和所述N个图像序列特征输入到第三模型中，得到所述N个图像序列特征分别与所述语音特征之间的匹配度。

在一种可能的实现方式中，所述目标特征匹配模型为以训练用户的唇部运动信息以及M个语音信息为输入、以所述训练用户的唇部运动信息分别与所述M个语音信息之间的匹配度为M个标签，训练得到的特征匹配模型，其中，所述M个语音信息包括与所述训练用户的唇部运动信息所匹配的语音信息。

在一种可能的实现方式中，处理器401还用于：确定所述目标用户的用户信息，所述用户信息包括人物属性信息、与所述待识别的语音信息对应面部表情信息、与所述待识别的语音信息对应的环境信息中的一种或多种；基于所述用户信息，生成与所述用户信息匹配的控制指令。

在一种可能的实现方式中，处理器401，具体用于：基于人脸识别算法，识别所述图像数据中的N个人脸区域，提取所述N个人脸区域中每个人脸区域中的唇部运动视频；基于所述每个人脸区域中的唇部运动视频确定所述N个用户的唇部运动信息。

在一种可能的实现方式中，处理器401，具体用于：基于频谱识别算法，识别所述音频数据中的不同频谱的音频数据，并将目标频谱的音频数据识别为所述待识别的语音信息。

需要说明的是，本发明实施例中所描述的智能设备40中相关模块的功能可参见上述图9-图12中所述的相关方法实施例，此处不再赘述。

请参见图14，图14是本发明实施例提供的一种神经网络的训练装置的结构示意图，图14是本发明实施例提供的一种智能设备的功能原理示意图。该神经网络的训练装置所训练的模型可以用于车载设备，车载系统，智能车辆，云端服务器等。该神经网络的训练装置60中可包括获取单元601和训练单元602；其中，

获取单元601，用于获取训练样本，所述训练样本包括训练用户的唇部运动信息以及M个指令信息；可选的，所述M个指令信息包括与所述训练用户的唇部运动信息所匹配的指令信息以及(M-1)个与所述训练用户的唇部运动信息不匹配的指令信息；

训练单元602，用于以所述训练用户的唇部运动信息以及所述M个指令信息为训练输入，以所述训练用户的唇部运动信息分别与所述M个指令信息之间的匹配度为M个标签，对初始化的神经网络进行训练，得到目标特征匹配模型。

在一种可能的实现方式中，所述训练用户的唇部运动信息包括所述训练用户的唇部运动图像序列，所述M个指令信息包括一个与所述训练用户的唇部运动图像序列匹配的语音波形序列以及(M-1)个与所述训练用户的唇部运动图像序列不匹配的语音波形序列。

在一种可能的实现方式中，训练单元602，具体用于：

将所述训练用户的唇部运动信息以及所述M个指令信息输入到所述初始化的神经网络中，计算得到所述M个指令信息分别与所述训练用户的唇部运动信息之间的匹配度；

将计算得到的所述M个指令信息分别与所述训练用户的唇部运动信息之间的匹配度与所述M个标签进行比较，对初始化的神经网络进行训练，得到目标特征匹配模型。

在一种可能的实现方式中，所述目标特征匹配模型包括第一模型、第二模型和第三模型；训练单元602，具体用于：

将所述M个指令信息输入到所述第一模型中，得到M个语音特征，所述M个语音特征中的每一个语音特征均为K维语音特征，K为大于0的整数；

将所述训练用户的唇部运动信息输入到所述第二模型中，得到所述训练用户的图像序列特征，所述训练用户的图像序列特征为K维图像序列特征；

将所述M个语音特征和所述训练用户的图像序列特征输入到第三模型中，计算得到所述M个语音特征分别与所述训练用户的图像序列特征之间的匹配度；

将计算得到的所述M个语音特征分别与所述训练用户的图像序列特征之间的匹配度与所述M个标签进行比较，对初始化的神经网络进行训练，得到目标特征匹配模型。

请参见图15，图15是本发明实施例提供的系统结构图，包括智能设备70和服务器设备80的结构示意图，该智能设备可以为智能车辆。该智能设备70中可包括处理器701，以及耦合于该处理器701的麦克风702、摄像头703；其中，

麦克风702，用于采集音频数据；

摄像头703，用于采集图像数据；

处理器701，用于获取音频数据以及图像数据；

从所述音频数据中提取待识别的语音信息，所述待识别的语音信息包括目标时间段内的语音波形序列；

从所述图像数据中提取N个用户的唇部运动信息，所述N个用户的唇部运动信息中的每一个用户的唇部运动信息包括对应的用户在所述目标时间段内唇部运动的图像序列，N为大于1的整数；

当应用于，智能车辆或者车内语音交互系统，处理器701，用于获取音频数据，当音频数据中包括目标指令时，从获取车舱内图像数据；从所述车舱内图像数据中提取车舱内N个位置上的车内成员的唇部运动信息。此处可以是获取车内成员的唇部运动信息发送给服务装置，也可以是发送采集的车内图像信息给服务装置，由服务装置来提取唇部运动信息。

或者处理器701，用于获取车舱内音频数据；当识别出所述音频数据中包括第二类型指令，获取第一图像数据，所述第一图像数据为包括位于车内第一位置的车内成员的图像数据；从所述第一图像数据中提取所述位于车内第一位置的车内成员的唇部运动信息。

需要说明的是，本发明实施例中所描述的智能设备70中相关模块的功能可参见上述图9-图12中所述的相关方法实施例，此处不再赘述。

图15提供一种服务装置的结构示意图，该服务装置可以为服务器、云端服务器等。该服务装置80中可包括处理器；可选的，该处理器可由神经网络处理器和与该神经网络处理器耦合的处理器802组成，或者直接由处理器组成；其中，

对应于车内实现场景，神经网络处理器801，用于：

将所述第一类型指令对应的指令信息和所述车舱内N个位置上的车内成员的唇部运动信息输入到目标特征匹配模型中，得到所述N个位置上的车内成员的唇部运动信息分别与所述指令信息之间的匹配度；将匹配度最高的用户的唇部运动信息对应的成员所处的位置作为执行所述指令信息对应的指令的目标位置。

或者是用于：将所述第二类型指令对应的指令信息和所述位于车内第一位置的车内成员的唇部运动信息输入到目标特征匹配模型中，得到所述位于车内第一位置的车内成员的唇部运动信息与所述指令信息之间的第一匹配度；根据所述第一匹配度确定是否执行所述指令信息对应的指令

在一种可能的实现方式中，所述目标特征匹配模型包括第一模型、第二模型和第三模型；处理器802，具体用于：将所述待识别的语音信息或者指令信息输入到所述第一模型中，得到语音特征，所述语音特征为K维语音特征，K为大于0的整数；将所述N个用户的唇部运动信息输入到所述第二模型中，得到N个图像序列特征，所述N个图像序列特征中的每一个图像序列特征均为K维图像序列特征；将所述语音特征和所述N个图像序列特征输入到第三模型中，得到所述N个图像序列特征分别与所述语音特征之间的匹配度。

在一种可能的实现方式中，所述目标特征匹配模型为以训练用户的唇部运动信息以及M个语音信息为输入、以所述训练用户的唇部运动信息分别与所述M个语音信息之间的匹配度为M个标签，训练得到的特征匹配模型。

在一种可能的实现方式中，所述服务器还包括处理器802；处理器802用于：确定所述目标用户的用户信息，所述用户信息包括人物属性信息、与所述待识别的语音信息对应面部表情信息、与所述待识别的语音信息对应的环境信息中的一种或多种；基于所述用户信息，生成与所述用户信息匹配的控制指令。

在一种可能的实现方式中，所述服务器还包括处理器802；处理器802，还用于：基于人脸识别算法，识别图像数据中的N个人脸区域，提取所述N个人脸区域中每个人脸区域中的唇部运动视频；基于所述每个人脸区域中的唇部运动视频确定所述N个用户的唇部运动信息。

在一种可能的实现方式中，所述服务器还包括处理器802；处理器802，还用于：基于频谱识别算法，识别所述音频数据中的不同频谱的音频数据，并将目标频谱的音频数据识别为所述待识别的语音信息。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的任意一种的部分或全部步骤。

本发明实施例还提供一种计算机程序，该计算机程序包括指令，当该计算机程序被计算机执行时，使得计算机可以执行上述方法实施例中记载的任意一种的部分或全部步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可能可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请各个实施例上述方法的全部或部分步骤。其中，而前述的存储介质可包括：U盘、移动硬盘、磁碟、光盘、只读存储器(Read-Only Memory，缩写：ROM)或者随机存取存储器(Random Access Memory，缩写：RAM)等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种语音指令控制方法，其特征在于，包括：

获取第一类型指令和位于车舱内N个位置上的车内成员在目标时间段内的唇部运动信息，所述第一类型指令为根据车舱内采集的目标音频数据获取，所述车内成员的唇部运动信息为当从所述目标音频数据中识别出所述第一类型指令时获取，所述目标时间段为所述第一类型指令在所述音频数据中对应的时间段；

将所述第一类型指令和所述车舱内N个位置上的车内成员的唇部运动信息进行匹配，根据所述N个位置上的车内成员的唇部运动信息与所述第一类型指令之间的匹配结果获取目标位置，所述目标位置为所述匹配结果指示唇部运动信息与所述第一类型指令匹配的车内成员所处的位置；

发送指示针对目标位置执行所述第一类指令的指示信息。
根据权利要求1所述的方法，其特征在于：

所述获取第一类型指令和位于车舱内N个位置上的车内成员的唇部运动信息，具体为：

获取车舱内所述目标音频数据；

当识别出所述目标音频数据中包括第一类型指令，获取车舱内图像数据；

从所述车舱内图像数据中提取车舱内N个位置上的车内成员的唇部运动信息。
根据权利要求2所述的方法，其特征在于：

所述从所述车舱内图像数据中提取车舱内N个位置上的车内成员的唇部运动信息，具体为：

当识别车内成员大于1时，从所述车舱内图像数据中提取车舱内N个位置上的车内成员的唇部运动信息。
根据权利要求1-3任一所述的方法，其特征在于：

所述将所述第一类型指令和所述车舱内N个位置上的车内成员的唇部运动信息进行匹配，根据所述N个位置上的车内成员的唇部运动信息与所述第一类型指令之间的匹配结果获取目标位置，具体为：

根据所述第一类型指令和所述位于车舱内N个车内成员的唇部运动信息，得到每个所述N个位置上的车内成员的唇部运动信息分别与所述指令信息之间的匹配度，N为大于1的整数；

将匹配度最高的唇部运动信息对应的车内成员所处的位置作为目标位置。
根据权利要求1-4任一所述的方法，其特征在于，所述第一类型指令为从所述音频数据中提取的语音波形序列或者根据所述音频数据识别出的文本指令信息。
根据权利要求1-4任一所述的方法，其特征在于，所述车舱内N个位置上的车内成员的唇部运动信息为所述车舱内N个位置上的车内成员在所述目标时间段内的唇部运动的图像序列。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

生成所述N个位置上的车内成员的唇部运动信息与所述N个位置的对应关系；

所述将匹配度最高的唇部运动信息对应的车内成员所处的位置作为目标位置，包括：

获取匹配度最高的目标唇部运动信息；

根据所述所述N个位置上的车内成员的唇部运动信息与所述N个位置的对应关系将所述目标唇部运动信息所对应的位置确定为目标位置。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

生成所述N个位置上的车内成员的唇部运动信息与所述N个位置上的车内成员的身份的对应关系；

所述将匹配度最高的唇部运动信息对应的车内成员所处的位置作为目标位置，包括：

获取匹配度最高的目标唇部运动信息；

根据所述所述N个位置上的车内成员的唇部运动信息与所述N个位置上的车内成员的身份的对应关系确定目标车内成员；

将所述目标车内成员的位置信息确定为目标位置，所述目标车内成员的位置信息为根据车内的传感器数据确定。
根据权利要求1-6任一所述的方法，其特征在于，

所述车舱内音频数据为根据车舱内多个麦克风采集的数据获得，或者

所述车舱内音频数据为根据车舱内指定位置区域的麦克风所采集的音频数据获得。
根据权利要求1-9任一所述的方法，其特征在于，所述第一类型指令为车舱内操控指令。
一种语音指令控制方法，其特征在于，包括：

获取第一类型指令和位于车内第一位置的车内成员的唇部运动信息，所述第一类型指令为根据车舱内采集的目标音频数据获取，所述第一位置的车内成员的唇部运动信息为当当从所述目标音频数据中识别出所述第二类型指令时获取，所述目标时间段为所述第二类型指令在所述音频数据中对应的时间段；

将所述第二类型指令和所述第一位置的车内成员的唇部运动信息进行匹配，得到匹配结果；

当根据所述匹配结果确定所述第二类型指令和所述第一位置的车内成员的唇部运动信息为匹配，发送指示执行所述第二类指令的指示信息。
根据权利要求11所述的方法，其特征在于，所述第一位置为驾驶位。
根据权利要求11-12所述的方法，其特征在于：

所述获取第二类型指令和位于车内第一位置的车内成员的唇部运动信息，具体为：

获取车舱内所述目标音频数据；

当识别出所述目标音频数据中包括第二类型指令，获取车舱内图像数据；

从所述车舱内图像数据中提取第一位置的车内成员的唇部运动信息。
根据权利要求11-12所述的方法，其特征在于：

所述将所述第二类型指令和所述第一位置的车内成员的唇部运动信息进行匹配，得到匹配结果，具体为：

根据所述第二类型指令和所述第一位置的车内成员的唇部运动信息的匹配度和预设阈值确定所述第二类型指令和所述第一位置的车内成员的唇部运动信息的匹配结果。
根据权利要求11-12,14任一所述的方法，其特征在于，所述第二类型指令为从所述音频数据中提取的语音波形序列或者根据所述音频数据识别出的文本指令信息。
根据权利要求11-14任一所述的方法，其特征在于，所述第一位置的车内成员的唇部运动信息为所述第一位置的车内成员在所述目标时间段内的唇部运动的图像序列。
根据权利要求11-16任一所述的方法，其特征在于，所述方法还包括：

当所述音频数据中包括所述第二类型指令，获取车内其他N个位置车内成员的图像数据；

从所述车内其他N个位置车内成员的图像数据的所述目标时间段内提取所述车内其他N个位置车内成员的唇部运动信息；

所述将所述第二类型指令和所述位于车内第一位置的车内成员的唇部运动信息进行匹配，得到匹配结果，具体为

将所述第二类型指令与所述位于车内第一位置的车内成员的唇部运动信息和所述N个位置车内成员的唇部运动信息进行匹配，得到N+1个车内成员的唇部运动信息分别与所述第二类型指令之间的匹配度，获取匹配度最高的唇部运动信息；

所述当根据所述匹配结果确定所述第二类型指令和所述位于车内第一位置的车内成员的唇部运动信息为匹配，发送指示执行所述第二类指令的指示信息，具体为：

当所述匹配度最高的唇部运动信息为所述位于车内第一位置的车内成员的唇部运动信息，则发送指示执行所述第二类指令的指示信息。
根据权利要求11-17任一所述的方法，其特征在于，所述车舱内音频数据为根据车舱内多个麦克风采集的数据获得，或者

所述车舱内音频数据为根据车舱内指定位置区域的麦克风所采集的音频数据获得。
根据权利要求11-18任一所述的方法，其特征在于，所述第二类型指令为车辆行驶操控指令。
一种语音指令控制设备，其特征在于，包括处理器；所述处理器用于：

获取第一类型指令和位于车舱内N个位置上的车内成员在目标时间段内的唇部运动信息，所述第一类型指令为根据车舱内采集的目标音频数据获取，所述车内成员的唇部运动信息为当从所述目标音频数据中识别出所述第一类型指令时获取，所述目标时间段为所述第一类型指令在所述音频数据中对应的时间段；

将所述第一类型指令和所述车舱内N个位置上的车内成员的唇部运动信息进行匹配，根据所述N个位置上的车内成员的唇部运动信息与所述第一类型指令之间的匹配结果获取目标位置，所述目标位置为所述匹配结果指示唇部运动信息与所述第一类型指令匹配的车内成员所处的位置；

发送指示针对目标位置执行所述第一类指令的指示信息。
根据权利要求20所述的设备，其特征在于，

所述处理器用于，获取车舱内所述目标音频数据；当识别出所述目标音频数据中包括第一类型指令，获取车舱内图像数据；从所述车舱内图像数据中提取车舱内N个位置上的车内成员的唇部运动信息。
根据权利要求20所述的设备，其特征在于：

所述处理器还用于，当识别车内成员大于1时，从所述车舱内图像数据中提取车舱内N个位置上的车内成员的唇部运动信息。
根据权利要求20-22任一所述的设备，其特征在于：

所述处理器将所述第一类型指令和所述车舱内N个位置上的车内成员的唇部运动信息进行匹配，根据所述N个位置上的车内成员的唇部运动信息与所述第一类型指令之间的匹配结果获取目标位置，具体为：

所述处理器根据所述第一类型指令和所述位于车舱内N个车内成员的唇部运动信息，得到每个所述N个位置上的车内成员的唇部运动信息分别与所述指令信息之间的匹配度，N为大于1的整数；将匹配度最高的唇部运动信息对应的车内成员所处的位置作为目标位置。
根据权利要求20-23所述的设备，其特征在于，

所述处理器还用于生成所述N个位置上的车内成员的唇部运动信息与所述N个位置的对应关系；

所述处理器将匹配度最高的唇部运动信息对应的车内成员所处的位置作为目标位置，包括：

所述处理器获取匹配度最高的目标唇部运动信息；根据所述所述N个位置上的车内成员的唇部运动信息与所述N个位置的对应关系将所述目标唇部运动信息所对应的位置确定为目标位置。
根据权利要求20-24所述的设备，其特征在于，

所述处理器生成所述N个位置上的车内成员的唇部运动信息与所述N个位置上的车内成员的身份的对应关系；

所述处理器将匹配度最高的唇部运动信息对应的车内成员所处的位置作为目标位置，包括：

所述处理器获取匹配度最高的目标唇部运动信息；根据所述所述N个位置上的车内成员的唇部运动信息与所述N个位置上的车内成员的身份的对应关系确定目标车内成员；将所述目标车内成员的位置信息确定为目标位置，所述目标车内成员的位置信息为根据车内的传感器数据确定。
一种语音指令控制设备，其特征在于，包括处理器；所述处理器用于：

获取第一类型指令和位于车内第一位置的车内成员的唇部运动信息，所述第一类型指令为根据车舱内采集的目标音频数据获取，所述第一位置的车内成员的唇部运动信息为当当从所述目标音频数据中识别出所述第二类型指令时获取，所述目标时间段为所述第二类型指令在所述音频数据中对应的时间段；

将所述第二类型指令和所述第一位置的车内成员的唇部运动信息进行匹配，得到匹配结果；

当根据所述匹配结果确定所述第二类型指令和所述第一位置的车内成员的唇部运动信息为匹配，发送指示执行所述第二类指令的指示信息。
根据权利要求26所述的设备，其特征在于，所述第一位置为驾驶位。
根据权利要求26-27所述的设备，其特征在于：

所述处理器获取第二类型指令和位于车内第一位置的车内成员的唇部运动信息，具体为：

所述处理器获取车舱内所述目标音频数据；当识别出所述目标音频数据中包括第二类型指令，获取车舱内图像数据；从所述车舱内图像数据中提取第一位置的车内成员的唇部运动信息。
根据权利要求26-28任一所述的设备，其特征在于：

所述处理器将所述第二类型指令和所述第一位置的车内成员的唇部运动信息进行匹配，得到匹配结果，具体为：

所述处理器根据所述第二类型指令和所述第一位置的车内成员的唇部运动信息的匹配度和预设阈值确定所述第二类型指令和所述第一位置的车内成员的唇部运动信息的匹配结果。
根据权利要求26-29任一所述的设备，其特征在于，所述第二类型指令为从所述音频数据中提取的语音波形序列或者根据所述音频数据识别出的文本指令信息。
根据权利要求26-29任一所述的设备，其特征在于，所述第一位置的车内成员的唇部运动信息为所述第一位置的车内成员在所述目标时间段内的唇部运动的图像序列。
根据权利要求26-31任一所述的设备，其特征在于，

所述处理器还用于，当所述音频数据中包括所述第二类型指令，获取车内其他N个位置车内成员的图像数据；从所述车内其他N个位置车内成员的图像数据的所述目标时间段内提取所述车内其他N个位置车内成员的唇部运动信息；

所述处理器将所述第二类型指令和所述位于车内第一位置的车内成员的唇部运动信息进行匹配，得到匹配结果，具体为

所述处理器将所述第二类型指令与所述位于车内第一位置的车内成员的唇部运动信息和所述N个位置车内成员的唇部运动信息进行匹配，得到N+1个车内成员的唇部运动信息分别与所述第二类型指令之间的匹配度，获取匹配度最高的唇部运动信息；

所述处理器当根据所述匹配结果确定所述第二类型指令和所述位于车内第一位置的车内成员的唇部运动信息为匹配，发送指示执行所述第二类指令的指示信息，具体为：

所述处理器当所述匹配度最高的唇部运动信息为所述位于车内第一位置的车内成员的唇部运动信息，则发送指示执行所述第二类指令的指示信息。
根据权利要求26-32任一所述的设备，其特征在于，所述第二类型指令为车辆行驶操控指令。
一种芯片系统，其特征在于，所述芯片系统包括至少一个处理器，存储器和接口电路，所述存储器、所述接口电路和所述至少一个处理器通过线路互联，所述至少一个存储器中存储有指令；所述指令被所述处理器执行时，权利要求1-19中任意一项所述的方法得以实现。
一种计算机可读存储介质，其特征在于，所述计算机可读介质用于存储程序代码，所述程序代码包括用于执行如权利要求1-19任一项所述的方法。
一种计算机程序，其特征在于，所述计算机程序包括指令，当所述计算机程序被执行时，使得如权利要求1-19中的任意一项所述的方法得以实现。