WO2021217572A1

WO2021217572A1 - 车内用户定位方法、车载交互方法、车载装置及车辆

Info

Publication number: WO2021217572A1
Application number: PCT/CN2020/088227
Authority: WO
Inventors: 赵勤嵩; 殷明睿
Original assignee: 华为技术有限公司
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2021-11-04
Also published as: EP4134949A1; US20230038039A1; EP4134949A4; CN112655000B; CN112655000A

Abstract

本申请提供了一种车内用户定位方法、车载交互方法、车载装置及车辆，可应用于自动驾驶领域。该车内用户定位方法包括：获取车内麦克风采集的声音信号；当从声音信号中识别到第一语音命令时，确定发出第一语音命令的第一用户；根据车内用户与车内位置的映射关系确定第一用户的车内位置。本申请的方案能够基于语音命令判断需要交互的用户，进而根据车内用户与车内位置的映射关系确定需要交互的用户的车内位置，即使在多个用户同时说话的情况下也能定位至需要交互的用户所在的位置。

Description

车内用户定位方法、车载交互方法、车载装置及车辆

技术领域

本申请实施例涉及人工智能领域，尤其涉及一种车内用户定位方法、车载交互方法、车载装置及车辆。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

智能座舱是人工智能领域的一种主流应用，其中车机智能化是智能座舱研究的一个重要方面。车机在功能上能够实现人与车、车与外界的信息通讯，实现多种交互功能，例如，收发短信、拨打电话、导航、语音控制、播放音乐、在线影视等，大大增强了用户体验。当车内存在多个用户时，为了实现车内不同用户的个性化需求，通常需要定位正在进行交互的用户。例如，车内配置多个显示屏幕(如座椅背面)，各个位置的用户均可以欣赏视频。使用机械按钮或者触摸屏的方式进行交互的方式已经难以满足用户需求。语音交互的方式能够减少用户操作，用户发出语音命令，语音助手定位声源，仅打开声源位置的用户对应的显示屏幕，能够避免干扰他人，同时保护用户的隐私。然而，车内空间较小，用户声音嘈杂，对定位精度的要求较高，若车内同一时刻多个用户在对话时，现有方法无法准确定位发出语音命令的用户，进而无法执行相应的操作，影响交互体验。

因此，如何在车内存在多个声源的情况下实现用户的定位成为一个亟待解决的问题。

发明内容

本申请提供一种车内用户定位方法、车载交互方法、车载装置及车辆，能够在车内存在多个声源的情况下实现用户的定位。

第一方面，提供了一种车内用户定位方法，包括：获取车内麦克风采集的声音信号；当从声音信号中识别到第一语音命令时，确定发出第一语音命令的第一用户；获取车内用户与车内位置的映射关系；根据车内用户与车内位置的映射关系确定第一用户的车内位置。

其中，车内麦克风可以为一个麦克风，也可以为多个麦克风。例如，多个麦克风可以为麦克风阵列。麦克风阵列可以根据需要设置，例如，该麦克风阵列可以为均匀圆阵或均匀线阵。

例如，该第一语音命令可以为唤醒词，该唤醒词可以用于唤醒语音助手，激活后续处理流程。

确定发出第一语音命令的第一用户的方式可以包括多种方式。本申请实施例对确定第一用户的方式不做限定。

例如，可以根据用户和语音命令的映射关系，确定第一语音命令对应的第一用户。

具体地，预先为不同的用户设置不同的语音命令，并将该语音命令与用户绑定，即建立映射关系。例如，用户A与语音命令“打开A的扬声器”建立映射关系，用户B与语音命令“打开B的扬声器”建立映射关系。若第一语音命令为“打开A的扬声器”，则确定发出第一语音命令的第一用户为用户A。

车内用户与车内位置的映射关系可以是车内全部用户在车内的位置映射关系，也可以是车内的一个用户，或者一部分用户在车内的位置映射关系。

车内用户与车内位置的映射关系的获取方法可以包括多种方式。例如，车内用户与车内位置的映射关系可以是预存的，也可以是从其他设备，例如云服务器获取的，还可以是实时更新的。本申请实施例对获取车内用户与车内位置的映射关系的方法不做限定。

车内用户与车内位置的映射关系的确定方式可以包括多种方式。

例如，车内不同的位置处可以设置指纹采集器。通过指纹采集器采集指纹，根据用户与用户的指纹特征的映射关系，确定指纹采集器采集的指纹对应的用户。由于不同指纹采集器即对应不同的车内位置，可以将用户与车内位置建立映射关系。例如，指纹采集器A对应车内位置A，由该指纹采集器A采集到指纹A，通过指纹识别确定指纹A对应用户A，进而将该用户A与车内位置A建立映射关系。本申请实施例对车内用户与车内位置的映射关系的确定方法不做限定。

根据本申请实施例的方案，基于语音命令判断需要交互的用户，进而根据车内用户与车内位置的映射关系确定需要交互的用户的车内位置，即使在多个用户同时说话的情况下也能定位至需要交互的用户所在的位置，有利于实现一对一交互，提高用户体验。

结合第一方面，在第一方面的某些实现方式中，确定发出第一语音命令的第一用户包括：对第一语音命令进行声纹特征匹配，识别发出第一语音命令的第一用户。

根据本申请实施例的方案，基于声纹特征识别需要交互的用户，提高了定位准确性。

结合第一方面，在第一方面的某些实现方式中，车内用户与车内位置的映射关系是根据车载摄像头采集的人脸图像确定的。

根据本申请实施例的方案，车载摄像头采集的人脸图像确定用户与车内的映射关系，无需用户配合，能够避免打扰用户，提高用户体验。

结合第一方面，在第一方面的某些实现方式中，车内用户与车内位置的映射关系是根据车载摄像头采集的人脸图像确定的，包括：获取用户信息；根据用户信息和人脸图像的映射关系，确定人脸图像对应的用户；根据车载摄像头的位置和/或角度确定用户的车内位置。

该用户信息的获取方法可以包括多种方式。例如，用户信息可以是预存的，也可以是从其他设备，例如云服务器获取的，还可以是实时更新的。本申请实施例对获取用户信息的方法不做限定。根据用户信息和人脸图像的映射关系，确定人脸图像对应的用户，也就是对人脸图像进行人脸识别，确定人脸图像对应的用户。

车载摄像头可以为车内摄像头，也可以为车外摄像头。

可选地，通过车内摄像头的位置与车内位置之间的映射关系确定用户的车内位置。

例如，在车内不同的位置设置多个摄像头，不同位置的摄像头与车内位置一一对应。在该情况下，摄像头的位置与车内位置之间的映射关系也可以理解为不同摄像头与车内位置的映射关系。不同摄像头拍摄的用户所在的位置即为该摄像头对应的车内位置。

可选地，通过车内摄像头的旋转角度与车内位置之间的映射关系确定用户的车内位置。

例如，摄像头位于车内后视镜上，摄像头的旋转角度与车内位置对应。以车身的中线方向为0°，摄像头的旋转角度为0°时，对应车内的位置为车的中部，在该情况下，摄像头拍摄的用户所在的位置即为车的中部；摄像头的旋转角度为角度A时，对应车内的位置为车内位置A，在该情况下，摄像头拍摄的用户所在的位置即为车内位置A。

可选地，可以通过车内座位指示车内位置，这样，可以根据座位设置摄像头的位置/或角度，在定位过程中能够减少计算量，提高处理速度。

结合第一方面，在第一方面的某些实现方式中，车内用户与车内位置的映射关系是根据车载摄像头采集的人脸图像确定的，包括：根据用户信息和人脸图像的映射关系，确定人脸图像对应的用户，根据用户在车载摄像头的镜头中的相对位置确定用户的车内位置。

根据用户在车载摄像头的镜头中的相对位置确定用户的车内位置，也就是根据车载摄像头采集的图像信息确定用户的车内位置。

例如，车载摄像头位于车内后视镜上，在一次拍摄中可以将车内所有用户放入取景框中。通过人脸识别确定人脸图像对应的用户及其在镜头中的相对位置，根据该相对位置确定用户对应的车内位置。再如，车载摄像头位于车外的B柱上，两侧B柱可以分别设置车载摄像头。对于左侧B柱上的摄像头采集的人脸图像，通过人脸识别确定人脸图像对应的用户及其在镜头中的相对位置。例如，该用户在镜头中的相对位置靠右侧，则该用户从车辆左侧的前侧车门上车，该用户对应的车内位置可能位于驾驶座上。

可选地，可以通过车内座位指示车内位置，这样，可以将镜头中的相对位置映射到车内座位上，在定位过程中能够减少计算量，提高处理速度。

结合第一方面，在第一方面的某些实现方式中，车内用户与车内位置的映射关系是定时更新的。

由于座舱内的用户可能更换座位或者上/下车，定时更新车内用户与车内位置的映射关系，能够提高用户定位的准确性。

结合第一方面，在第一方面的某些实现方式中，车内用户与车内位置的映射关系是定时更新的，包括：根据车内用户与车内位置的映射关系确定当前车内位置对应的用户，获取车载摄像头采集的当前人脸图像，根据用户信息和人脸图像的映射关系，确定当前人脸图像对应的当前用户；在当前车内位置对应的用户与当前用户不同时，更新车内用户与车内位置的映射关系。

例如，根据车内用户与车内位置的映射关系确定当前车内位置没有用户，获取车载摄像头采集的当前人脸图像，根据用户信息和人脸图像的映射关系，确定当前人脸图像对应的当前用户；将当前用户与当前车内位置建立映射关系，更新车内用户与车内位置的映射关系。

再如，根据车内用户与车内位置的映射关系确定当前车内位置对应的用户为用户A，获取车载摄像头采集的当前人脸图像，根据用户信息和人脸图像的映射关系，确定当前人脸图像对应的当前用户为用户B；当用户A与用户B不同时，将用户B与当前车内位置建立映射关系，更新车内用户与车内位置的映射关系。

结合第一方面，在第一方面的某些实现方式中，该方法还包括：根据声音信号进行声源定位，获得至少一个声源位置；根据第一用户的车内位置和至少一个声源位置修正第一用户的车内位置。

具体地，可以通过基于麦克风阵列的声源定位方法对声音信号进行声源定位。例如，该声源定位方法可以为MUSIC算法。该麦克风阵列可以根据需要设置，例如，该麦克风阵列可以为均匀圆阵或均匀线阵。

根据本申请实施例的方案，通过声源定位能够进一步提高第一用户的车内位置的准确性，在车内嘈杂的环境中也能准确定位需要交互的用户。

结合第一方面，在第一方面的某些实现方式中，根据第一用户的车内位置和至少一个声源位置修正第一用户的车内位置，包括：将至少一个声源位置中与第一用户的车内位置最接近的一个声源位置确定为修正后的第一用户的车内位置。

例如，若修正前的第一用户的车内位置为一个角度范围，则将至少一个声源位置中的落于该角度范围内的声源位置作为修正后的第一用户的车内位置。

再如，若修正前的第一用户的车内位置为一个角度值，则将至少一个声源位置中与该值最接近的声源位置作为修正后的第一用户的车内位置。

第二方面，提供了一种车载交互方法，包括：获取车内麦克风采集的声音信号；当从声音信号中识别到第一语音命令时，确定发出第一语音命令的第一用户；获取车内用户与车内位置的映射关系，根据车内用户与车内位置的映射关系确定第一用户的车内位置；根据第一用户的车内位置执行第一语音命令。

可选地，可以根据用户和语音命令的映射关系，确定第一语音命令对应的第一用户。

根据本申请实施例的方案，基于语音命令判断需要交互的用户，进而根据车内用户与车内位置的映射关系确定需要交互的用户的车内位置，即使在多个用户同时说话的情况下也能定位至需要交互的用户所在的位置，能够根据用户位置执行语音命令，实现一对一交互，提高用户体验。

结合第二方面，在第二方面的某些实现方式中，根据第一用户的车内位置执行第一语音命令，包括：根据第一用户的车内位置控制投影界面的位置。

该投影界面可以用于显示投影形象。

示例性地，该投影界面的位置可以由投影组件的旋转角度控制。投影组件可以包括投影框架和转向电机。该投影框架可以用于投影，例如，用于展示语音助手的三维形象。该三维形象即显示在投影界面上，也就是说可以根据第一用户的车内位置控制该三维形象的位置。

第一语音命令不一定是控制投影界面位置的命令，也就是说第一语音命令可以为任意语音命令。例如，该第一语音命令可以为调节空调温度，那么执行第一语音命令包括，调节空调温度，以及控制投影界面的位置。

根据本申请实施例的方案，能够通过投影界面展示投影形象，并根据车内位置调整投影界面的位置，以使投影形象能够面对需要交互的用户，为用户提供一对一的交互体验。

结合第二方面，在第二方面的某些实现方式中，根据第一用户的车内位置执行第一语音命令，包括：控制第一用户的车内位置对应的扬声器。

例如，第一语音命令可以为播放音乐。控制第一用户的车内位置对应的扬声器，可以包括，打开扬声器，并播放相应音乐等。

结合第二方面，在第二方面的某些实现方式中，根据第一用户的车内位置执行第一语音命令，包括：控制第一用户的车内位置对应的空调。

例如，第一语音命令为打开空调。控制第一用户的车内位置对应的空调，可以包括，打开第一用户的车内位置对应的空调。

以上仅为车载交互方法的应用示例，本申请实施例中的车载交互方法还可以应用于其他需要定位用户的场景。

第三方面，提供了一种车载装置，包括：存储单元，用于存储车内用户与车内位置的映射关系；处理单元，用于：获取车内麦克风采集的声音信号；当从声音信号中识别到第一语音命令时，确定发出第一语音命令的第一用户；获取车内用户与车内位置的映射关系；根据车内用户与车内位置的映射关系确定第一用户的车内位置。

结合第三方面，在第三方面的某些实现方式中，处理单元具体用于：对第一语音命令进行声纹特征匹配，识别发出第一语音命令的第一用户。

结合第三方面，在第三方面的某些实现方式中，车内用户与车内位置的映射关系是根据车载摄像头采集的人脸图像确定的。

结合第三方面，在第三方面的某些实现方式中，车内用户与车内位置的映射关系是根据摄像头的位置与摄像头采集的人脸图像确定的，包括：获取用户信息；根据用户信息和人脸图像的映射关系，确定人脸图像对应的用户；根据摄像头的位置和/或角度确定用户的车内位置。

结合第三方面，在第三方面的某些实现方式中，处理单元还用于：根据声音信号进行声源定位，获得至少一个声源位置；根据第一用户的车内位置和至少一个声源位置修正第一用户的车内位置。

结合第三方面，在第三方面的某些实现方式中，处理单元具体用于：将至少一个声源位置中与第一用户的车内位置最接近的一个声源位置确定为修正后的第一用户的车内位置。

结合第三方面，在第三方面的某些实现方式中，处理单元还用于：根据第一用户的车内位置执行第一语音命令。

结合第三方面，在第三方面的某些实现方式中，处理单元具体用于：根据第一用户的车内位置控制投影界面的位置。

第四方面，提供了一种车辆，包括上述第三方面中的装置。

第五方面，提供一种车载装置，包括输入输出接口、处理器和存储器。该处理器用于控制输入输出接口收发信息，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得该车载装置执行上述第一方面或第二方面中的方法。

可选地，上述装置可以是终端设备/服务器，也可以是终端设备/服务器内的芯片。

可选地，上述存储器可以位于处理器内部，例如，可以是处理器中的高速缓冲存储器(cache)。上述存储器还可以位于处理器外部，从而独立于处理器，例如，装置的内部存储器(memory)。

应理解，上述第一方面包括第一方面中的任意一种实现方式，第二方面包括第二方面中的任意一种实现方式，第三方面包括第三方面中的任意一种实现方式。

第六方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述各方面中的方法。

需要说明的是，上述计算机程序代码可以全部或者部分存储在第一存储介质上，其中，第一存储介质可以与处理器封装在一起的，也可以与处理器单独封装，本申请实施例对此不作具体限定。

第七方面，提供了一种计算机可读介质，所述计算机可读介质存储有程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述各方面中的方法。

第八方面，提供了一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述各方面中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行上述各方面中的方法。

附图说明

图1是本申请实施例提供的车辆的示意图；

图2是本申请实施例提供的麦克风阵列的结构示意图；

图3是本申请实施例提供的能量谱的示意图；

图4是本申请实施例提供的车载系统的结构示意图；

图5是本申请实施例提供的车内用户定位方法的流程示意图；

图6是本申请实施例提供的一种车内硬件配置的结构示意图；

图7是本申请实施例提供的修正第一用户的车内位置的示意图；

图8是本申请实施例提供的一种车载交互方法的示意性流程图；

图9是本申请实施例提供的投影框架的结构示意图；

图10是本申请实施例提供的一种用户的车内位置更新方法的示意性流程图；

图11是本申请实施例提供的车内座位状态转换的示意性流程图；

图12是本申请实施例提供的车内座位更新的初始化过程的示意性流程图；

图13是本申请实施例提供的车内座位更新的校验过程的示意性流程图；

图14是本申请实施例提供的车载系统的结构示意图；

图15是本申请实施例提供的车载装置的示意性框图；

图16是本申请实施例提供的车载装置的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

图1是本发明实施例提供的车辆100的功能框图。

车辆100可包括各种子系统，例如行进系统102、传感器系统104、控制系统106、一个或多个外围设备108以及电源110、计算机系统112和用户接口116。可选地，车辆100可包括更多或更少的子系统，并且每个子系统可包括多个元件。另外，车辆100的每个子系统和元件可以通过有线或者无线互连。

行进系统102可包括为车辆100提供动力运动的组件。在一个实施例中，推进系统102可包括引擎118、能量源119、传动装置120和车轮/轮胎121。

传感器系统104可包括感测关于车辆100周边的环境的信息的若干个传感器。例如，传感器系统104可包括定位系统122(定位系统可以是GPS系统，也可以是北斗系统或者其他定位系统)、惯性测量单元(inertial measurement unit，IMU)124、雷达126、激光测距仪128以及相机130。传感器系统104还可包括被监视车辆100的内部系统的传感器(例如，车内空气质量监测器、燃油量表、机油温度表等)。来自这些传感器中的一个或多个的传感器数据可用于检测对象及其相应特性(位置、形状、方向、速度等)。这种检测和识别是自主车辆100的安全操作的关键功能。

控制系统106为控制车辆100及其组件的操作。控制系统106可包括各种元件，其中包括转向系统132、油门134、制动单元136、传感器融合算法138、计算机视觉系统140、路线控制系统142以及障碍物避免系统144。

计算机视觉系统140可以操作来处理和分析由相机130捕捉的图像以便识别车辆100周边环境中的物体和/或特征。所述物体和/或特征可包括交通信号、道路边界和障碍物。在本申请实施例中，计算机视觉系统140还可以操作来处理和分析由相机130捕捉的图像以便识别车辆100内部环境中的用户和/或特征。计算机视觉系统140可使用物体识别算法、人脸识别算法、运动中恢复结构(structure from motion，SFM)算法、视频跟踪和其他计算机视觉技术。

当然，在一个实例中，控制系统106可以增加或替换地包括除了所示出和描述的那些以外的组件。或者也可以减少一部分上述示出的组件。

车辆100通过外围设备108与外部传感器、其他车辆、其他计算机系统或用户之间进行交互。外围设备108可包括无线通信系统146、车载电脑148、麦克风150和/或扬声器152。

在一些实施例中，外围设备108提供车辆100的用户与用户接口116交互的手段。例如，车载电脑148可向车辆100的用户提供信息。用户接口116还可操作车载电脑148来接收用户的输入。车载电脑148可以通过触摸屏进行操作。在其他情况中，外围设备108可提供用于车辆100与位于车内的其它设备通信的手段。例如，麦克风150可从车辆100的用户接收音频(例如，语音命令或其他音频输入)。在本申请实施例中，车载电脑148可以通过接收用户的语音命令或其他音频输入进行操作。类似地，扬声器152可向车辆100的用户输出音频。

电源110可向车辆100的各种组件提供电力。车辆100的部分或所有功能受计算机系统112控制。计算机系统112可包括至少一个处理器113，处理器113执行存储在例如数据存储装置114这样的非暂态计算机可读介质中的指令115。计算机系统112还可以是采用分布式方式控制车辆100的个体组件或子系统的多个计算设备。

处理器113可以是任何常规的处理器，诸如商业可获得的CPU。替选地，该处理器可以是诸如ASIC或其它基于硬件的处理器的专用设备。尽管图1功能性地图示了处理器、存储器、和在相同块中的计算机110的其它元件，但是本领域的普通技术人员应该理解该处理器、计算机、或存储器实际上可以包括可以或者可以不存储在相同的物理外壳内的多个处理器、计算机、或存储器。例如，存储器可以是硬盘驱动器或位于不同于计算机110的外壳内的其它存储介质。因此，对处理器或计算机的引用将被理解为包括对可以或者可以不并行操作的处理器或计算机或存储器的集合的引用。不同于使用单一的处理器来执行此处所描述的步骤，诸如转向组件和减速组件的一些组件每个都可以具有其自己的处理器，所述处理器只执行与特定于组件的功能相关的计算。

在此处所描述的各个方面中，处理器可以位于远离该车辆并且与该车辆进行无线通信。在其它方面中，此处所描述的过程中的一些在布置于车辆内的处理器上执行而其它则由远程处理器执行，包括采取执行单一操纵的必要步骤。

在一些实施例中，数据存储装置114可包含指令115(例如，程序逻辑)，指令115可被处理器113执行来执行车辆100的各种功能，包括以上描述的那些功能。数据存储装置114也可包含额外的指令，包括向推进系统102、传感器系统104、控制系统106和外围设备108中的一个或多个发送数据、从其接收数据、与其交互和/或对其进行控制的指令。

除了指令115以外，数据存储装置114还可存储数据，例如道路地图、路线信息，车辆的位置、方向、速度以及其它这样的车辆数据，以及其他信息。这种信息可在车辆100在自主、半自主和/或手动模式中操作期间被车辆100和计算机系统112使用。在本申请实施例中，数据存储装置114还可存储用户的相关信息。这种信息可在人机交互期间被车辆100和计算机系统112使用。

用户接口116，用于向车辆100的用户提供信息或从其接收信息。可选地，用户接口116可包括在外围设备108的集合内的一个或多个输入/输出设备，例如无线通信系统146、车车在电脑148、麦克风150和扬声器152。

计算机系统112可基于从各种子系统(例如，行进系统102、传感器系统104和控制系统106)以及从用户接口116接收的输入来控制车辆100的功能。例如，计算机系统112可利用来自用户接口116的输入以便控制外围设备108实现人机交互。在一些实施例中，计算机系统112可操作来对车辆100及其子系统的许多方面提供控制。

可选地，上述这些组件中的一个或多个可与车辆100分开安装或关联。例如，数据存储装置114可以部分或完全地与车辆100分开存在。上述组件可以按有线和/或无线方式来通信地耦合在一起。

可选地，上述组件只是一个示例，实际应用中，上述各个模块中的组件有可能根据实际需要增添或者删除，图1不应理解为对本发明实施例的限制。

上述车辆100可以为轿车、卡车、摩托车、公共汽车、船、飞机、直升飞机、割草机、娱乐车、游乐场车辆、施工设备、电车、高尔夫球车、火车、和手推车等，本发明实施例不做特别的限定。

本申请实施例提供的车内用户定位方法能够应用在所有需要对车内用户进行定位的场景中。具体地，本申请实施例提供的车内用户定位方法能够应用在音乐播放、空调控制、座椅加热、座椅调节等需要对车内用户进行定位的场景。下面分别对两种常用的应用场景进行简单的介绍。

应用场景一：音乐播放

图1中的扬声器152可以分布于车内多个位置。具体地，可以分别控制不同位置的扬声器播放不同的音乐，实现分区音乐播放的功能，以使不同位置的用户能够根据需要打开/关闭扬声器或播放不同的音乐等。例如，当用户需要播放音乐时，可以发出语音命令，语音助手等可以定位发出语音命令的用户，并根据该语音指令对该用户附近的扬声器进行控制，例如，打开扬声器，并播放相应音乐等。

其中，定位发出语音命令的用户可以由本申请实施例中的车内用户定位方法来执行。即使在车内存在多个用户同时说话的情况下，本申请实施例中的车内用户定位方法也能够准确定位发出语音命令的用户，进而根据该语音指令对该用户附近的扬声器进行控制。这样不影响其他用户的正常交流，同时提高车内用户定位的准确性，避免干扰他人，满足不同用户的需求。

应用场景二：空调控制

图1的车辆100中还可以包括空调，空调可以分布于车内多个位置。具体地，可以分别控制不同位置的空调调节不同位置的温度，实现分区空调控制的功能，以使不同位置的用户能够根据需要调节附近的温度。例如，当用户需要调节空调温度时，可以发出语音命令，语音助手等可以定位发出语音命令的用户，并根据该语音指令对控制该用户附近的空调，根据用户的需要调节该空调的温度。

其中，定位发出语音命令的用户可以由本申请实施例中的车内用户定位方法来执行。即使在车内存在多个用户同时说话的情况下，本申请实施例中的车内用户定位方法也能够准确定位发出语音命令的用户，并根据该语音指令对控制该用户附近的空调。这样不影响其他用户的正常交流，同时提高车内用户定位的准确性，避免干扰他人，满足不同用户的需求。

应理解，以上应用场景仅为示意，对于车内其他能够分区实现的功能，均可以采用本申请实施例提供的车内用户定位方法定位至需要使用相应功能的用户，根据需要开启相应功能，提高用户的交互体验。

为了便于理解本申请实施例，下面先对本申请实施例涉及的相关术语的相关概念进行介绍。

(1)多重信号分类(multiple signal classification，MUSIC)算法

MUSIC算法是借助信号子空间和噪音子空间的正交性计算信号在不同角度的能量分布，从而以信号峰值出现的位置来进行定位。多个人同时在不同角度说话时，该算法会产生多个峰值。

假设有D个声源，即同时有D个人在说话，M个麦克风组成麦克风阵列。图2示出了一种麦克风阵列的结构示意图。在图2中，M为4，即由4个间距为d的麦克风组成麦克风阵列。

麦克风阵列接收的信号可以如公式(1)所示：

X(t)＝AS(t)+N(t) (1)

其中，X(t)为接收的信号，t为时间，S(t)为信号源在阵元上的信号强度，A为不同麦克风对接收信号的影响，是角度θ的函数，θ为接收的信号与麦克风阵列法线的夹角，即信号的方位角，N(t)为噪声。协方差矩阵由信号子空间和噪声子空间构成，具体可以如公式(2)所示：

R(t)＝AR _SA ^H+σ ²I (2)

其中，R(t)为协方差矩阵，H表示矩阵共轭转置，σ ²为噪声功率，I为M*M阶的单位矩阵，R _S为信号的相关矩阵。

根据样本，可以得到最大似然的估计值，如公式(3)所示：

其中，R _x为最大似然的估计值，N为采样数。

对协方差矩阵进行特征分解，分解后的特征值后按大小排序，前D个为与信号相关的特征值，后M-D个特征值为噪声空间，其特征向量构成了噪声矩阵E _n＝[v _D+1,v _D+2,...v _M]，其中，v _D+1表示第D+1个特征值，v _D+2表示第D+2个特征值，v _M表示第M个特征值。能量谱关于角度θ的分布，具体如公式(4)所示：

其中，a(θ)为麦克风对方位角为θ的信号源的响应，P _music(θ)为能量谱，该能量谱中包括一个或多个峰值，通过寻找波峰得到声源的位置。也就是说同一时刻，多个声源同时说话可以显示在能量谱中。图3示出了多人同时说话时的能量谱的示意图。在图3中，两个人同时在相对于麦克风阵列0°和60°的位置说话。

(2)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距1为输入的运算单元，该运算单元的输出可以如公式(5)所示：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，该激活函数用于对神经网络中的特征进行非线性变换，将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(3)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例，假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(4)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(5)反向传播算法

神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的数值，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

目前，车内用户的定位通常采用声源定位系统。声源定位系统主要包括基于麦克风阵列的声源定位系统和基于人耳听觉机理的声源定位系统。基于麦克风阵列的声源定位指的是用麦克风拾取声音信号，通过对麦克风阵列的各路输出信号进行分析和处理，得到一个或多个声源的位置信息。然而，当多个用户在车内说话时，上述方案无法分辨是哪个或哪几个用户发出的声音。当上述方案应用于人机交互时，系统无法判断需要进行交互的方向，无法提供一对一的交互体验。

图4示出了本申请实施例中的一种车载系统的结构示意图。图4中的车载系统200包括语音助手组件210、语音处理单元220和数据库230。

其中，语音助手组件210包括麦克风211。麦克风211可以是指将声音信号转换为电信号的能量转换器件。示例性地，麦克风211可以为麦克风阵列。麦克风阵列指的是由一定距离的多个麦克风组成的阵列，例如，线性阵列或圆形阵列等。麦克风211采集的声音信号可以传输至语音处理单元220进行处理。

在一些实施例中，语音助手组件210还可以包括转向电机212。示例性地，该转向电机212可以为控制旋转的步进电机。例如，该转向电机212可以为用于控制3D投影组件旋转的步进电机。该转向电机212可以接收定位模块222发送的位置信息，并进行相应地转动。

语音处理单元220包括语音识别模块221和定位模块222。

语音识别模块221用于在麦克风采集的声音信号中识别语音命令。

例如，该语音命令可以为唤醒词。唤醒词可以用于激活系统200的处理流程。

示例性地，识别到语音命令后，根据语音命令与用户的映射关系，确定发出该语音命令的用户。也就是说不同的用户可以设置不同的语音命令。

可选地，语音处理单元220还可以包括声纹识别模块223。声纹识别模块223用于根据说话用户的声波特性识别用户。在该情况下，语音识别模块221识别到语音命令后，可以将声音信号发送至声纹识别模块223。声纹识别模块223可以用于根据用户和用户的声纹特征的映射关系对语音命令进行声纹识别，确定发出该语音命令的用户。

示例性地，声纹识别包括：声音信号处理、声纹特征提取、声纹比对以及判别决策等。

例如，声纹特征提取是指提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。

例如，声纹对比以及判别决策是指声纹模式匹配(声纹模式识别)。具体地，提取的声纹的特征数据与数据库230中存储的特征模板(声纹特征)进行搜索匹配的过程。例如，可以采用神经网络方法、最近邻方法等。

应理解，上述声纹识别模块223可以部署于车辆中，或者，上述声纹识别模块223也可以部署于云端。

还应理解，上述声纹识别模块223仅为举例说明，声纹识别模块223用于通过采集说话用户的声音从而对用户进行识别，声纹识别模块223可以是任何形式，本申请实施例对此不作任何限定。

定位模块222可以根据车内用户与车内位置的映射关系确定发出语音命令的用户的车内位置，即需要交互的用户的位置。其中，车内用户与车内位置的映射关系可以存储于数据库230中。

进一步地，定位模块222可以将该位置信息反馈至语音助手组件210，以使语音助手组件210执行后续操作。例如，控制转向电机212转动。

进一步地，定位模块222还可以用于实现声源定位，获得至少一个声源位置。示例性地，语音识别模块可以将麦克风采集的声音信号传输至定位模块222，以用于实现声源定位。

声源定位指的是根据声音信号定位一个或多个声源的方向和距离。例如，声源定位可以采用MUSIC算法、到达时间差(time difference of arrival，TDOA)法等方法实现。

示例性地，定位模块222可以根据声纹识别模块223得到的车内位置和声源定位得到的至少一个声源位置修正发出语音命令的用户的位置，得到更准确的需要交互的车内位置θ。

应理解，上述定位模块222可以部署于车辆中，或者，定位模块222也可以部署于云端。

还应理解，上述定位模块222仅为举例说明，定位模块222可以用于通过采集说话用户的声音信号从而对用户的位置进行定位，声源定位方式可以是任何形式，本申请实施例对此不作任何限定。

可选地，系统200还可以包括图像采集单元250和图像处理单元240。

图像采集单元250包括摄像头251。摄像头251可以具有获取视频摄像/传播或者静态图像捕捉等基本功能，它是借由镜头采集图像后，由摄像头内的感光组件电路及控制组件对图像进行处理并转换成数字信号以便进行后续的信号处理。

具体地，图像采集单元250可以将采集的人脸图像发送至图像处理单元240。

图像处理单元240包括人脸识别模块241。

人脸识别模块241用于根据用户的人脸图像识别用户。具体地，人脸识别模块241可以用于根据用户和用户的人脸特征的映射关系确定人脸图像对应的用户。其中，该用户和用户的人脸特征的映射关系可以存储于数据库230中。

示例性地，人脸识别包括：人脸图像预处理、人脸图像特征提取以及匹配与识别。

例如，人脸图像预处理是指基于人脸检测结果，对图像进行处理并最终服务于特征提取的过程。比如，系统获取的原始图像由于受到各种条件的限制和随机干扰，往往不能直接使用，需要在图像处理的早期阶段对它进行灰度校正、噪声过滤等图像预处理。

例如，上述人脸特征提取的方法可以包括：基于知识的表征方法和基于代数特征或统计学习的表征方法。

例如，上述人脸图像匹配与识别是指提取的人脸图像的特征数据与数据库230中存储的特征模板(人脸特征)进行搜索匹配的过程；通过设定一个预设阈值，当相似度超过预设阈值，则把匹配得到的结果输出。人脸识别就是将待识别的人脸特征与已得到的人脸特征模板进行比较，根据相似程度对人脸对应的用户进行判断。

应理解，上述人脸识别模块241可以部署于车辆中，或者，上述人脸识别模块241也可以部署于云端。

还应理解，上述人脸识别模块241仅为举例说明，人脸识别模块241用于通过采集用户的图像从而对用户进行识别，人脸识别模块241可以是任何形式，本申请实施例对此不作任何限定。

可选地，图像处理单元240还包括映射模块242。映射模块242可以将用户的车内位置与用户建立映射关系，并将车内用户与车内位置的映射关系存储至数据库230。其中，用户的车内位置可以是根据摄像头251的角度和/或位置确定的。

可选地，图像处理单元240还可以用于定时更新车内用户与车内位置的映射关系。

示例性地，数据库230可以包括用户信息数据库231。该用户信息数据库231可以用于存储用户与用户的声纹特征的映射关系以及用户与用户的人脸特征的映射关系。示例性地，用户信息数据库231可以存储有所有在车机上注册过的用户的信息。

示例性地，数据库230还可以包括实时信息数据库232。该实时信息数据库232可以用于存储车内用户与车内位置的映射关系。例如，该用户与用户之间的映射关系是可以基于摄像头采集的人脸图像确定的。示例性地，基于用户信息数据库231中的数据，可以通过用户的声纹信息指示用户。具体地，可以根据用户与用户的声纹特征的映射关系以及车内用户与车内位置的映射关系，得到用户的声纹特征与车内位置的映射关系。也就是说，该实时信息数据库232可以用于存储用户的声纹特征与车内位置之间的映射关系。在该情况下，定位模块222可以在实时信息数据库232中匹配用户的声纹特征，进而确定用户的车内位置。用户的声纹特征与车内位置之间的映射关系可以随着车内用户与车内位置的映射关系的更新而更新。

下面结合图5对本申请实施例提供的车内用户定位方法进行详细的描述。

图5示出了本申请实施例提供的车内用户定位方法300，该车内用户定位方法300可以由能够进行车内用户定位的装置或系统执行，例如，可以由图4所示的车载系统200执行。方法300包括步骤S310至步骤S350。下面对步骤S310至步骤S350进行详细说明。

S310，获取车内麦克风采集的声音信号。

其中，车内麦克风可以为一个麦克风，也可以为多个麦克风。例如，多个麦克风可以为麦克风阵列。麦克风阵列可以根据需要设置，例如，该麦克风阵列可以为均匀圆阵或均匀线阵。图6中示出了一种车内硬件配置的结构示意图。图6中的麦克风阵列包括4个麦克风410，位于座舱前方的驾驶台，呈线性排列。

S320，在从该声音信号中识别到第一语音命令时，确定发出该第一语音命令的第一用户。

具体地，可以对该声音信号进行语音识别，判断声音信号中是否包含第一语音命令。在声音信号中包含第一语音命令时确定发出该第一语音命令的第一用户。例如，该语音识别可以由图4所示的语音识别模块221执行。

示例性地，该第一语音命令可以为唤醒词，该唤醒词可以用于唤醒语音助手，激活后续处理流程。

可选地，可以对第一语音命令进行声纹特征匹配，识别发出第一语音命令的第一用户。

具体地，可以根据用户和用户的声纹特征的映射关系，对第一语音命令进行声纹识别，确定发出第一语音命令的第一用户。这样能够基于声纹特征识别需要交互的用户，提高了定位准确性。

示例性地，数据库230中保存用户与用户的声纹特征的映射关系，不同的声纹特征可以对应不同的用户，声纹特征可以用于指示用户。通过图4的声纹识别模块223进行声纹识别，将提取的第一语音命令对应的声纹的特征数据与数据库230中存储的特征模板(声纹特征)进行搜索匹配，得到与之匹配的第一声纹特征，也即确定第一用户。其中，该第一声纹特征是第一用户的声纹信息。

若无法识别第一语音命令对应的声纹特征，也就是无法在数据库中匹配到对应的用户，则该用户可能未录制声纹信息，例如，该用户可能第一次乘坐该车。在该情况下，可以提醒用户补录声纹特征，更新数据库中的信息。

可替换地，可以根据用户和语音命令的映射关系，确定第一语音命令对应的第一用户。用户与语音命令的映射关系可以存储于数据库230中。

示例性地，可以预先为不同的用户设置不同的语音命令，并将该语音命令与用户绑定，即建立映射关系。例如，将该映射关系作为数据对存储于数据库230中。

例如，用户A与语音命令“打开A的扬声器”建立映射关系，用户B与语音命令“打开B的扬声器”建立映射关系。若第一语音命令为“打开A的扬声器”，则确定发出第一语音命令的第一用户为用户A。

S330，根据车内用户与车内位置的映射关系确定该第一用户的车内位置。

示例性地，车内位置可以通过角度范围表示。或者，车内位置也可以通过角度值表示。

示例性地，车内可以划分为多个区域，车内位置可以由车内区域表示。例如，车内区域可以为车内座位，即通过车内座位指示车内位置。这样能够减少车内位置的可选项，减少计算量，提高处理速度。

或者，车内位置可以为具体的车内位置。这样，即使用户不是坐在某一座位上，例如，用户坐在两个座位之间或者用户站在车内的过道上，也可以得到该用户的准确位置。

示例性地，该车内用户与车内位置的映射关系可以存储于数据库230中。步骤S330可以由前述定位模块222执行。

可选地，车内用户与车内位置的映射关系可以是根据车载摄像头采集的人脸图像确定的。根据车载摄像头采集的人脸图像确定用户与车内的映射关系，无需用户配合，能够避免打扰用户，提高用户体验。

可选地，可以根据用户信息和人脸图像的映射关系确定人脸图像对应的用户；根据车载摄像头的位置和/或角度确定用户的车内位置。即为用户与用户的车内位置建立映射关系。

该用户信息的获取方法可以包括多种方式。例如，用户信息可以是预存的，也可以是从其他设备，例如云服务器获取的，还可以是实时更新的。本申请实施例对获取用户信息的方法不做限定。

根据用户信息和人脸图像的映射关系，确定人脸图像对应的用户，也就是对人脸图像进行人脸识别，确定人脸图像对应的用户。

用户信息和人脸图像的映射关系也可以理解为用户和用户的人脸特征的映射关系。

示例性地，数据库230中可以保存用户与用户的人脸特征的映射关系，不同的人脸特征可以对应不同的用户，人脸特征可以用于指示用户。通过图4的人脸识别模块241进行人脸识别，将提取的人脸图像的特征数据与数据库230中存储的特征模板(人脸特征)进行搜索匹配，得到与之匹配的人脸特征，也即确定该人脸图像对应的用户。

若无法识别人脸图像对应的声纹特征，也就是无法在数据库中匹配到对应的用户，则该用户可能未保存面部特征，例如，该用户可能第一次乘坐该车。在该情况下，可以提醒用户补录面部特征，更新数据库中的信息。

将用户的信息均保存于数据库中，能够通过数据库实现数据共享。

例如，数据库中存储有用户与用户的声纹特征的映射关系以及车内用户与车内位置的映射关系，进而可以确定用户的声纹信息与车内位置的映射关系。

示例性地，车内可以划分为多个区域，车内位置可以由车内区域表示。例如，车内区域可以为车内座位，即通过车内座位指示车内位置。根据座舱的布局能够确定用户的座位范围。这样能够减少车内位置的可选项，减少计算量，提高处理速度。

其中，车载摄像头可以为车内摄像头，也可以为车外摄像头。例如，车外摄像头可以安装于车辆B柱上。

下面举例说明通过车内摄像头确定用户的车内位置。

方式1：通过车内摄像头的位置与车内位置之间的映射关系确定用户的车内位置。

进一步地，如前所述，可以通过车内座位指示车内位置。在该情况下，摄像头的位置与车内位置之间的映射关系可以为摄像头的位置与车内座位的映射关系。不同位置的摄像头与车内座位一一对应，不同摄像头拍摄的用户所在的位置即为该摄像头对应的车内座位。

例如，如图6所示，对于四座汽车，可以设置四个摄像头420，分别位于四个座位的前方。其中，对于前排座位，摄像头420可以设置于驾驶台；对于后排座位，摄像头420可以设置于前排座位的背面。如图6所示，由副驾驶座位前方的摄像头拍摄到的用户，可以认为该用户的车内位置为副驾驶座位，即图6中的阴影区域。以车身的中线方向为0°，该区域可以为-20°至-45°。应理解，该角度可以根据需要设置，不同的车型不同座舱布局对应的角度也不同。

方式2：通过车内摄像头的旋转角度与车内位置之间的映射关系确定用户的车内位置。

进一步地，如前所述，可以通过车内座位指示车内位置。在该情况下，摄像头的旋转角度与车内位置的映射关系可以为摄像头的旋转角度与车内座位的映射关系。

例如，对于四座汽车，摄像头位于车内后视镜上。车内座位与摄像头的旋转角度对应。位于不同旋转角度的摄像头拍摄的用户即位于该摄像头在该旋转角度对应的车内座位。将车内位置用车内座位表示，这样可以根据座位设置旋转角度，在定位过程中能够减少计算量，提高处理速度。

由于摄像头的视场范围与摄像头的位置和/或角度有关，在一些实施例中，通过摄像头确定用户的车内位置可以包括：通过摄像头的视场范围与车内位置之间的映射关系确定由该摄像头拍摄的用户所在的车载位置。

例如，若摄像头的视场范围对应车内的位置为车的中部，比如，视场角的中线与车身平行，在该情况下，摄像头拍摄到的用户所在的位置为车的中部。若摄像头的视场范围对应车内的位置为位置A，在该情况下，摄像头拍摄到的用户所在的位置为位置A。

可选地，根据用户和用户的人脸特征的映射关系，确定人脸图像对应的用户，根据用户在车载摄像头的镜头中的相对位置确定用户的车内位置。

例如，车载摄像头位于车内后视镜上，在一次拍摄中可以将车内所有用户放入取景框中。通过人脸识别确定人脸图像对应的用户及其在镜头中的相对位置，根据该相对位置确定用户对应的车内位置。

再如，车载摄像头位于车外的B柱上，两侧B柱可以分别设置车载摄像头。对于左侧B柱上的摄像头采集的人脸图像，通过人脸识别确定人脸图像对应的用户及其在镜头中的相对位置。例如，该用户在镜头中的相对位置靠右侧，则该用户从车辆左侧的前侧车门上车，该用户对应的车内位置可能位于驾驶座上。

应理解，以上仅为示例，摄像头的数量可以为一个或多个，摄像头的位置或摄像头的数量等可以根据需要设置。

示例性地，该车内用户与车内位置的映射关系可以存储于实时信息数据库232中。该实时信息数据库可以为用户乘车后建立的数据库。

例如，获取摄像头拍摄的人脸图像，根据用户和用户的人脸特征的映射关系，确定人脸图像对应的用户，根据所述车载摄像头的位置和/或角度确定所述用户的车内位置，得到车内用户与车内位置的映射关系，在数据库230中获取该用户的声纹特征，建立用户的声纹特征与车内位置的映射关系，将用户的声纹特征与车内位置的映射关系存储于实时信息数据库232中。然后可以执行步骤S310至步骤S330。这样可以在实时信息数据库中查找用户与车内位置之间的映射关系，避免每次定位用户均需重新确定车内用户与车内位置的映射关系。此外实时信息数据库中的用户数量小于或等于数据库中的用户数量，在该实时信息数据库中查找映射关系，能够减小查找范围，提高处理速度。

示例性地，车内用户与车内位置的映射关系可以是实时更新，或者，也可以是定时更新的。具体的更新车内用户与车内位置的映射关系或者说更新该实时信息数据库的方法详见后文中的方法600。

示例性地，车内用户与车内位置的映射关系可以是实时建立的。

例如，执行步骤S310和步骤S320，确定第一用户。获取摄像头拍摄的人脸图像，根据用户和用户的人脸特征的映射关系，确定人脸图像对应的用户，在该用户为第一用户时，根据车载摄像头的位置和/或角度确定该用户的车内位置，即建立第一用户与第一用户的车内位置之间的映射关系，确定第一用户的车内位置。这样可以仅在需要定位车内用户时才建立车内用户与车内位置的映射关系，避免不必要的计算，同时可以仅针对第一用户建立第一用户与其位置之间的映射关系，降低计算量。

应理解，以上确定车内用户与车内位置的映射关系的方式仅为示例，本申请实施例对车内用户与车内位置的映射关系的确定方式不做限定。

示例性地，车内不同的位置处可以设置指纹采集器。通过指纹采集器采集指纹，根据用户与用户的指纹特征的映射关系，确定指纹采集器采集的指纹对应的用户。由于不同指纹采集器即对应不同的车内位置，可以将用户与车内位置建立映射关系。例如，指纹采集器A对应车内位置A，由该指纹采集器A采集到指纹A，通过指纹识别确定指纹A对应用户A，进而将该用户A与车内位置A建立映射关系。

可选地，车内用户与车内位置的映射关系可以是定时更新的。

结合第一方面，在第一方面的某些实现方式中，车内用户与车内位置的映射关系是定时更新的，包括：

根据车内用户与车内位置的映射关系确定当前车内位置对应的用户，获取车载摄像头采集的当前人脸图像，根据用户和用户的人脸特征的映射关系，确定当前人脸图像对应的当前用户；在当前车内位置对应的用户与当前用户不同时，更新车内用户与车内位置的映射关系。

例如，根据车内用户与车内位置的映射关系确定当前车内位置没有用户，获取车载摄像头采集的当前人脸图像，根据用户和用户的人脸特征的映射关系，确定当前人脸图像对应的当前用户；将当前用户与当前车内位置建立映射关系，更新车内用户与车内位置的映射关系。

再如，根据车内用户与车内位置的映射关系确定当前车内位置对应的用户为用户A，获取车载摄像头采集的当前人脸图像，根据用户和用户的人脸特征的映射关系，确定当前人脸图像对应的当前用户为用户B；当用户A与用户B不同时，将用户B与当前车内位置建立映射关系，更新车内用户与车内位置的映射关系。

可选地，方法300还包括步骤S340和步骤S350。

S340，根据声音信号进行声源定位，获得至少一个声源位置。

具体地，可以通过基于麦克风阵列的声源定位方法对声音信号进行声源定位。例如，该声源定位方法可以为MUSIC算法。该麦克风阵列可以根据需要设置，示例性地，该麦克风阵列可以为均匀圆阵或均匀线阵。例如，图6中示出了一种麦克风阵列，该麦克风阵列包括4个麦克风，位于座舱前方的驾驶台，呈线性排列。

通过MUSIC算法可以得到信号能量在不同角度的分布图谱，峰值即为信号的传入方向。根据该图谱可以得到至少一个声源的位置。例如，如图2所示，当0°和60°的用户同时说话时，在图谱上会产生两个峰值。

应理解，此处仅为示意，本申请实施例对声源定位的具体方式不做限定，其他能够实现声源定位的方法也可用于步骤S340。

S350，根据第一用户的车内位置和所述至少一个声源位置修正第一用户的车内位置。

若步骤S330中无法确定第一用户的车内位置，例如，无法识别第一用户，则在该步骤中的第一用户的车内位置可以为默认值，例如，-90°～90°，也就是说，直接根据至少一个声源位置确定第一用户的车内位置。

可选地，将至少一个声源位置中与第一用户的车内位置最接近的一个声源位置确定为修正后的第一用户的车内位置。

示例性地，若步骤S330得到的第一用户的车内位置为一个角度范围，则将至少一个声源位置中的落于该角度范围内的声源位置作为修正后的第一用户的车内位置。例如，图7中示出了一种修正第一用户的车内位置的示意图。由步骤S330确定的第一用户的车内位置为50°至70°范围，对声音信号进行声源定位得到关于声源位置的能量图谱，将该能量图谱与第一用户的角度范围叠加，50°至70°范围内只有60°位置一个峰值，排除0°位置的峰值，将60°作为最终的第一用户的车内位置。也就是说0°位置和60°位置的用户均在说话，60°位置处的用户为需要进行语音交互的用户，排除0°位置的用户对语音交互的影响。若该角度范围内的声源位置有多个，则可以取该角度范围的中间值作为修正后的第一用户的车内位置。例如，该角度范围为20°至40°范围，该范围内有多个声源位置，则将30°作为修正后的第一用户的车内位置。在出现多个声源位置时，仅通过声源定位无法判断需要交互的用户。相对于仅通过声源定位确定用户的位置，本方案能够提高定位用户的准确性，减小嘈杂的环境，例如，多个用户同时说话，对语音交互的影响。

示例性地，若步骤S330中无法确定第一用户的车内位置，例如，第一用户的车内位置为-90°～90°范围，则将该范围内的声源位置作为修正后的第一用户的车内位置。若该范围内有多个声源位置，可以取0°作为修正后的第一用户的车内位置。

示例性地，若步骤S330得到的第一用户的车内位置为一个角度值，则将至少一个声源位置中与该值最接近的声源位置作为修正后的第一用户的车内位置。

通过声源定位能够进一步提高第一用户的车内位置的准确性，在车内嘈杂的环境中也能准确定位需要交互的用户。或者说，结合声学和视觉采集的信息，能够提高声源定位的精度和使用范围。

根据本申请实施例的方案，基于语音命令判断需要交互的用户，进而根据车内用户与车内位置的映射关系确定需要交互的用户的车内位置，即使在多个用户同时说话的情况下也能定位至需要交互的用户所在的位置，实现一对一交互，提高用户体验。

本申请实施例中的车内用户定位方法可以应用于多种车载交互场景，具体地，可以应用于需要对用户进行定位的场景。

目前，车载语音助手的表现形式和交互模式较为单一，大多数仅通过语音进行交互，且多为二维动画形象。

3D全息投影是一种利用干涉和衍射原理记录并再现物体真实的三维图像，观众无需佩戴眼镜即可看到的立体的虚拟人物的3D技术。3D全息投影的基本原理为，拍摄过程中利用干涉原理记录物体光波信息，成像过程中利用衍射原理再现物体光波信息，从而再现物体真实的三维图像。3D全息投影也可以包括使用佩伯尔幻像、边缘消隐等方法实现3D效果的类全息投影技术。而就目前座舱内的技术而言，激光和空气的投影系统不能长期保持投影效果，类全息投影的投影框大多较为固定，无法实现更好的交互体验。

通过三维投影展示语音助手的视觉形象，能够提高娱乐性，显著提高用户体验。在用户需要交互时，该语音助手的形象能够面对需要交互的用户，提供一对一的交互体验。

图8示出了本申请实施例提供的一种车载交互方法500，该车载交互方法中涉及的车内用户定位的方法可以通过车内用户定位方法300实现，具体实现方式可以参照前述方法300，为了避免不必要的重复，下面在介绍方法500时适当省略重复的描述。方法500包括步骤S510至步骤S570。

方法500可以由图4中的系统执行。图4中的语音助手组件210中还可以包括投影组件。具体地，该投影组件包括投影框架和转向电机212。该投影框架可以用于展示语音助手的三维形象。

图9示出了本申请实施例提供的一种投影框架的结构示意图。图9中的投影框架主要包括四部分：框架主体910、显示屏920、旋转底座930和投影结构940。

其中，框架主体910为圆柱形的钢化玻璃，正后方和顶部覆盖有遮光涂料，这样可以防止阳光漫反射造成的视觉效果减弱。

显示屏920用于投影。显示屏920的形状可以根据需要设置，例如，可以为正方形显示屏。显示屏920位于框架主体的顶部，例如，可以镶嵌于圆柱顶部内侧。

旋转底座930与座舱内的旋转电机相连，用于带动投影结构940和显示屏920旋转。该框架主体910在旋转过程中保持不动。

投影结构940固定于旋转底座930上，同时与显示屏920的位置相对固定，即投影结构940与显示屏920在旋转过程中保持相对静止。该投影结构940包括4个等腰梯形的钢化玻璃，该钢化玻璃上贴有全息膜。

旋转电机可以用于控制投影框架旋转。例如，该旋转电机可以为步进电机。该旋转电机可以接收定位模块222返回的结果，例如，位置信息，并根据该结果执行相应的转向操作，以使语音助手的三维形象面对需要交互的用户。

投影框架可以设置于中控台上，位于座舱内中线上。示例性地，车内麦克风410、摄像头420、投影框架430可以按照图6所示设置。应理解，图6仅为示意，车内麦克风、摄像头和投影框架的位置可以根据需要设置。

为了便于描述方法500，座舱中线可以设置为0°，声源定位的角度范围在-90°和90°之间。

下面对步骤S510至步骤S570进行说明。

S510，获取麦克风采集的声音信号。

S520，判断声音信号中是否包含第一语音命令，若声音信号中不包含第一语音命令，则结束流程，继续监听；若声音信号中包含第一语音命令，则执行步骤S530和步骤S550。步骤S530和步骤S550可以为异步执行。

具体地，可以对声音信号进行语音识别，判断声音信号中是否包含第一语音命令。

例如，该第一语音命令可以为唤醒词。

S530，确定发出第一语音命令的第一用户。

示例性地，根据用户和用户的声纹特征的映射关系，对所述第一语音命令进行声纹识别，确定发出所述第一语音命令的第一用户。具体描述可以参见前述方法300中的步骤S320。

S540，根据车内用户与车内位置的映射关系确定第一用户的车内位置。

示例性地，该实时信息数据库中存储有用户的声纹特征和车内座位的映射关系。通过在实时信息数据库中比对第一语音命令的声纹特征，确定对应的车内座位。

例如，根据车载摄像头采集的人脸图像确定用户与车内座位的映射关系，进而根据用户与用户的声纹特征的映射关系确定用户的声纹特征，得到用户的声纹信息与车内座位的映射关系，并存储至实时信息数据库中。具体描述参见前述方法300中的步骤S330。

示例性地，该实时信息数据库可以是实时更新的，或者，也可以是定时更新的。实时信息数据库的详细更新方法可以参见后文中的方法600。

示例性地，该车内位置可以为角度范围。例如，当用户座位为副驾驶座位时，该角度范围可以为-20°～-45°。应理解，此处的角度范围仅为示意，对于不同的车型、不同的座舱布局，车内座位对应的角度范围可能不同。

S550，根据声音信号进行声源定位。

示例性地，可以通过MUSIC算法对声音信号进行声源定位，得到至少一个声源位置。具体描述可以参见前述方法300中的步骤S340。

S560，修正第一用户的车内位置。

示例性地，根据步骤S540确定的角度范围和步骤S550确定的至少一个声源位置修正第一用户的车内位置。

例如，可以将步骤S540确定的角度范围内的声源位置作为修正后的第一用户的车内位置。具体描述可以参见前述方法300中的步骤S350。

S570，根据第一用户的车内位置执行第一语音命令。

可选地，根据第一用户的车内位置控制投影界面的位置。

该投影界面可以用于显示投影形象。

示例性地，该投影界面的位置可以由投影组件的旋转角度控制。

具体地，第一用户的车内位置信息可以用于控制投影组件转向。将修正后的第一用户的车内位置返回至语音助手组件中的转向电机212，控制投影框架旋转。

应理解，步骤S550和步骤S560为可选步骤，若方法500不包括步骤S550和步骤S560，则在步骤S570中，将步骤S540得到的第一用户的车内位置返回至投影组件。

需要说明的是，第一语音命令不一定是投影界面的位置的命令，也就是说第一语音命令可以为任意语音命令。例如，该第一语音命令可以为调节空调温度，那么执行第一语音命令包括，调节空调温度，以及控制投影界面的位置。

如前所述，本申请实施例的车内用户定位方法可以应用于多种车载交互场景，例如，音乐播放、空调控制、座椅加热、座椅调节等需要对车内用户进行定位的场景。在不同的交互场景下可以通过不同的语音命令实现交互。下面举例说明车载交互方法500。

可选地，根据第一用户的车内位置执行第一语音命令，包括：控制第一用户的车内位置对应的扬声器。

示例性地，车载交互场景可以为音乐播放。例如，第一语音命令为播放音乐。步骤S570包括：控制第一用户的车内位置对应的扬声器，例如，打开扬声器，并播放相应音乐等。

可选地，根据第一用户的车内位置执行第一语音命令，包括：控制第一用户的车内位置对应的空调。

示例性地，车载交互场景可以为空调控制。例如，第一语音命令为打开空调。步骤 S570包括：打开第一用户的车内位置对应的空调。

应理解，以上仅为车载交互方法的应用示例，本申请实施例中的车载交互方法还可以应用于其他需要定位用户的场景。

在本申请实施例中，基于语音命令判断需要交互的用户，进而根据车内用户与车内位置的映射关系确定需要交互的用户的车内位置，即使在多个用户同时说话的情况下也能定位至需要交互的用户所在的位置。

此外，通过声源定位算法能够进一步提高定位的准确性，提高用户体验。

此外，通过投影组件展示投影形象，例如，展示语音助手的视觉形象，并根据车内位置调整投影组件的旋转角度，以使投影形象能够面对需要交互的用户，为用户提供一对一的交互体验。

图10示出了一种实时信息数据库更新方法600的示意性流程图。如前所述，可以通过车内区域表示车内位置，为了便于理解和说明，在方法600中通过车内区域按照车内座位划分。在该情况下，实时信息数据库更新方法也可以理解为车内座位信息的更新方法。方法600包括步骤S610至步骤S670。下面对步骤S610至步骤S670进行详细说明。

S610，获取摄像头采集的人脸图像。

S620，对该人脸图像进行人脸识别，确定该人脸图像对应的用户。

具体地，可以根据用户和用户的人脸特征的映射关系，确定人脸图像对应的用户。

示例性地，数据库中可以保存用户与用户的人脸特征的映射关系。对人脸图像进行特征提取，并将提取的特征数据与数据库中的用户的人脸特征进行匹配，判断是否被识别为数据库中的用户，若被识别为数据库中的用户，执行步骤S630。若不能被识别为非数据库中的用户，可以结束流程。

S630，判断数据库中是否包含该用户的声纹特征。若数据库中包括该用户的声纹信息，则执行步骤S640。若数据库中不包括该用户的声纹信息，可以结束流程。

可选地，方法600还包括步骤S660。在该情况下，若数据库中不包括该用户的声纹信息，则执行步骤S660。

S640，将该用户的声纹信息与用户的座位作为数据对存储至实时信息数据库中。

该用户的座位可以是通过摄像头确定的。例如，图6中示出了4个摄像头，分别对应4个座位。摄像头A对应座位A，由摄像头A拍摄的人脸图像对应的用户即位于座位A上。用户的座位可以通过座位号区分，即步骤S640可以为，将用户的声纹信息与用户的座位号座位数据对存储。

S650，执行持续更新。

示例性地，定时重新进行人脸识别，在识别到的面部特征与该座位当前对应的面部特征不一致时，可以重新建立用户与车内座位的映射关系，或者可以理解为，从数据库中查找该用户的声纹特征，建立用户的声纹特征与车内座位的映射关系。

例如，可以周期性执行步骤S610至步骤S640。应理解，步骤S650为可选步骤。

S660，补录用户的声纹特征，执行步骤S640。

S670，更新用户与用户的声纹特征的映射关系。

将补录的用户的声纹特征与用户建立映射关系，并将该映射关系存储至数据库中。应理解，步骤S670为可选步骤。

车内座位可以对应不同的状态，在执行上述步骤S610至步骤S670的过程中，车内座位的状态会随之改变。应理解，本申请实施例中的座位的状态指的是该座位在系统中的状态。

图11示出了一种车内座位状态转换过程的示意性流程图。

初始(Init)态：该状态为初始状态，在该状态下，进行初始化设置。例如，当启动语音助手时或座位上的用户发生变化时，该座位进入Init态。在该状态下，对用户进行人脸识别，确认用户身份，匹配声纹特征，并将相应的映射关系存储至实时信息数据库中，以供车内用户定位使用。具体初始化设置过程可以参见后文中的图12。完成后，该座位进入Ready态。若检测到座位上没有用户，则该座位进入Idle态。

准备(Ready)态：该座位处于可用状态，即可以用于实现本申请实施例中的方法。若车上的座位都处于可用状态，则该系统处于可用状态。进一步地，可以定时更新。例如，每隔一段时间，例如10s，进入Check状态，进行用户的校验。

校验(Check)态：在该状态下，检验座位上的用户是否发生改变。若未发生改变，则退回Ready状态。若发生改变，则进入Init态。或者，进一步地，若座位上没有用户，例如，用户下车或者换了座位，则该座位进入Idle态。具体检验过程可以参见后文中的图13。

空闲(Idle)态：该状态下的座位上没有用户。进一步地，该状态下可以定时更新。例如，每隔一段时间，例如10s，重新判断该座位上是否有用户，当该座位上出现乘客时，进入Init态重新开始更新用户的座位信息。

停止(Stop)态：在该状态下关闭语音助手。进一步地，可以删除实时信息数据库中的数据。前述任何状态下，断电关机或关闭语音助手均会进入该状态。

图12示出了一种用户的座位信息更新过程中初始化设置的示意性流程图。初始化设置包括步骤S710至步骤S7120。

S710，获取摄像头采集的人脸图像。

S720，对该人脸图像进行人脸识别。

S730，判断当前座位上是否有用户。若当前座位上有用户，则执行步骤S740。若当前座位上没有用户，则该座位进入Idle态。

S740，判断数据库中是否有该用户。

判断数据库中是否有该用户也可以理解为判断人脸识别是否能够识别出该用户。若数据库中有该用户，即根据该人脸识别结果识别出用户，则执行步骤S750。若数据库中没有该用户，即根据人脸识别结果无法识别出该用户，则执行步骤S780。步骤S780为可选步骤，

S750，将该用户与该车内座位相关联。也就是建立用户与车内座位的映射关系。

S760，判断数据库中是否有该用户的声纹特征。如果数据库中有该用户的声纹特征，则执行步骤S770。如果数据库中没有该用户的声纹特征，则执行步骤S7100。步骤S7100为可选步骤。

S770，将该用户的声纹特征和车内座位相关联。也就是建立用户的声纹特征与车内座位的映射关系。例如，将用户的声纹特征和座位号作为数据对保存至实时信息数据库中，该座位进入Ready态。

S780，判断是否录入用户信息。

具体地，可以询问该用户是否录入用户信息，若用户同意录入用户信息，则执行步骤S790。若用户不同意录入用户信息，则执行步骤S7120。

S790，采集用户信息，包括人脸特征等，并将其保存至数据库中。例如，在车机中注册登录。

S7100，判断是否录入声纹特征。

具体地，可以询问用户是否录入用户的声纹信息，若用户同意录入声纹信息，则执行步骤S7110。若用户不同意录入声纹信息，则该座位进入Ready态。

S7110，将用户与用户的声纹特征相关联。也就是建立用户与用户的声纹特征的映射关系。例如，将该映射关系作为数据对保存至数据库中，执行S770。

S7120，将该用户的人脸特征与该座位相关联，该座位进入Ready态。也就是建立用户的人脸特征与车内座位的映射关系。例如将该映射关系座位数据对保存至实时信息数据库中。这样可以保存该用户的人脸特征，以便之后判断座位上的用户是否改变。

图13示出了一种座位信息更新过程中校验的示意性流程图。该校验过程包括步骤S810至步骤S860。

S810，获取摄像头采集的人脸图像。

S820，对该图像进行人脸识别。

S830，判断用户是否改变。

具体地，可以根据人脸识别的结果与该座位对应的人脸特征进行对比，从而判断用户是否发生改变。

若发生改变，则执行步骤S840。若未发生改变，则该座位进入Ready态。

S840，定时再次获取n次数据，即每间隔一段时间再次执行步骤S810至步骤S830，得到n次结果。

S850，若改变次数超过阈值，则执行步骤S860，否则该座位进入Ready态。

需要说明的是步骤S850仅为示例。步骤S850还可以为，若n次结果满足预设条件，则执行步骤S860。例如，若n次结果均为该座位的用户发生改变，则执行步骤S860。若步骤S850得到的结果中存在未发生改变的结果，则该座位进入Ready态。这样可以“投票”表决该座位的用户是否发生变化，减少误判的可能性。

需要说明的是，步骤S840和步骤S850为可选步骤。步骤S830还可以为，若发生改变，则可以执行步骤S860。

S860，判断当前座位上是否有用户。若该座位上有用户，则该座位进入Init态，例如，执行图12中的步骤。需要说明的是，在该情况下，可以不执行步骤S730。若该座位上没有用户，则该座位进入Idle态。

示例性地，步骤S860也可以在步骤S830之前执行，例如，若该座位上有用户，则执行步骤S830，在该情况下，步骤S850中，若改变次数超过阈值，则该座位进入Init态。若该座位上没有用户，则该座位进入Idle态。

应理解，上述举例说明是为了帮助本领域技术人员理解本申请实施例，而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明，显然可以进行各种等价的修改或变化，这样的修改或变化也落入本申请实施例的范围内。

下面结合附图对本申请实施例的装置实施例进行详细的描述，应理解，下面描述的装置能够执行前述本申请实施例的方法，为了避免不必要的重复，下面在介绍本申请实施例的装置时适当省略重复的描述。

图14是本申请实施例的一种车载系统的示意性框图。图14所示的车载系统900包括车机910、语音助手组件920、网关930、总线940、车载数据中心950、摄像头和控制器局域网络(controller area network，CAN)970。

其中，车机910中包含多个计算模块，通过总线940与其他设备通信。具体地，车机910包括语音识别模块911和定位模块912。可选地，车机还包括车内位置更新模块913。可选地，车机还包括声纹识别模块914。

语音识别模块911与图4中的语音识别模块221对应，定位模块912与图4中的定位模块222对应。声纹识别模块914与图4中的语音识别模块223对应。

车内位置更新模块913用于更新车内用户与车内位置的映射关系。示例性地，车内位置更新模块913可以执行图10、图12或图13中的步骤。

语音助手组件920包括麦克风921。麦克风921可以为麦克风阵列。可选地，语音助手组件920还包括转向电机922和投影框架923。语音助手组件可以通过网关接入座舱中。

语音助手组件920与图4中的语音助手组件210对应。

车载数据中心950中包含数据库，例如，图4中的数据库230。示例性地，车载数据中心950可以包括用户信息数据库和实时信息数据库。车载数据中心950可以通过总线为车机中的计算模块提供数据。

摄像头可以为多个。示例性地，对于四座汽车，摄像头可以包括4个，分布为主驾摄像头961，副驾摄像头962，后排摄像头963，后排摄像头964。摄像头可以与座舱内其他传感器一样经由CAN970连接网关930。

网关930与总线940相连，提供其他组件和硬件的接入能力。

图15是本申请实施例的车载装置的示意性框图。图15所示的车载装置1000包括存储单元1010和处理单元1020。

存储单元1010和处理单元1020可以用于执行本申请实施例的车内用户定位方法或车载交互方法，具体地，处理单元1020可以执行上述方法300或方法500。

存储单元1010用于存储车内用户与车内位置的映射关系。处理单元1020用于获取车内麦克风采集的声音信号；当从声音信号中识别到第一语音命令时，确定发出第一语音命令的第一用户；获取车内用户与车内位置的映射关系；根据车内用户与车内位置的映射关系确定第一用户的车内位置。

可选地，作为一个实施例，处理单元1020具体用于：对第一语音命令进行声纹特征匹配，识别发出第一语音命令的第一用户。

可选地，作为一个实施例，车内用户与车内位置的映射关系是根据车载摄像头采集的人脸图像确定的。

可选地，作为一个实施例，车内用户与车内位置的映射关系是根据摄像头的位置与摄像头采集的人脸图像确定的，包括：获取用户信息；根据用户信息和人脸图像的映射关系，确定人脸图像对应的用户；根据摄像头的位置和/或角度确定用户的车内位置。

可选地，作为一个实施例，处理单元1020还用于：根据声音信号进行声源定位，获得至少一个声源位置；根据第一用户的车内位置和至少一个声源位置修正第一用户的车内位置。

可选地，作为一个实施例，处理单元1020具体用于：将至少一个声源位置中与第一用户的车内位置最接近的一个声源位置确定为修正后的第一用户的车内位置。

可选地，作为一个实施例，处理单元1020还用于：根据第一用户的车内位置执行第一语音命令。

可选地，作为一个实施例，处理单元1020具体用于：根据第一用户的车内位置控制投影界面的位置。

需要说明的是，上述车载装置1000以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现，对此不作具体限定。

例如，“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

因此，在本申请的实施例中描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图16是本申请实施例提供的一种车载装置的硬件结构示意图。图16所示的车载装置1100(该车载装置1100具体可以是一种计算机设备)包括存储器1101、处理器1102、通信接口1103以及总线1104。其中，存储器1101、处理器1102、通信接口1103通过总线1104实现彼此之间的通信连接。

存储器1101可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1101可以存储程序，当存储器1101中存储的程序被处理器1102执行时，处理器1102用于执行本申请实施例的车内用户定位方法或车载交互方法的各个步骤，例如，执行图5或图8所示的各个步骤。

应理解，本申请实施例所示的车载装置可以是服务器，例如，可以是云端的服务器，或者，也可以是配置于云端的服务器中的芯片。

处理器1102可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请方法实施例的车内用户定位方法或车载交互方法。

处理器1102还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的方法的各个步骤可以通过处理器1102中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器1102还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1101，处理器1102读取存储器1101中的信息，结合其硬件完成本申请实施中图15所示的车载装置中包括的单元所需执行的功能，或者，执行本申请方法实施例的图5或图8所示的方法。

通信接口1103使用例如但不限于收发器一类的收发装置，来实现车载装置1100与其他设备或通信网络之间的通信。

总线1104可包括在装置1100各个部件(例如，存储器1101、处理器1102、通信接口1103)之间传送信息的通路。

应注意，尽管上述车载装置1100仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，车载装置1100还可以包括实现正常运行所必须的其他器件。同时，根据具体需要本领域的技术人员应当理解，上述车载装置1100还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，上述车载装置1100也可仅仅包括实现本申请实施例所必需的器件，而不必包括图16中所示的全部器件。

还应理解，本申请实施例中，该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。处理器的一部分还可以包括非易失性随机存取存储器。例如，处理器还可以存储设备类型的信息。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(USB flash disk，UFD)，UFD也可以简称为U盘或者优盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种车内用户定位方法，其特征在于，包括：

获取车内麦克风采集的声音信号；

当从所述声音信号中识别到第一语音命令时，确定发出所述第一语音命令的第一用户；

获取车内用户与车内位置的映射关系；

根据所述车内用户与车内位置的映射关系确定所述第一用户的车内位置。
如权利要求1所述的方法，其特征在于，所述确定发出所述第一语音命令的第一用户包括：

对所述第一语音命令进行声纹特征匹配，识别发出所述第一语音命令的第一用户。
如权利要求1或2所述的方法，其特征在于，所述车内用户与车内位置的映射关系是根据车载摄像头采集的人脸图像确定的。
如权利要求3所述的方法，其特征在于，所述车内用户与车内位置的映射关系是根据车载摄像头采集的人脸图像确定的，包括：

获取用户信息；

根据所述用户信息和所述人脸图像的映射关系，确定所述人脸图像对应的用户；

根据所述车载摄像头的位置和/或角度确定所述用户的车内位置。
如权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

根据所述声音信号进行声源定位，获得至少一个声源位置；

根据所述第一用户的车内位置和所述至少一个声源位置修正所述第一用户的车内位置。
如权利要求5所述的方法，其特征在于，所述根据所述第一用户的车内位置和所述至少一个声源位置修正所述第一用户的车内位置，包括：

将所述至少一个声源位置中与所述第一用户的车内位置最接近的一个声源位置确定为修正后的第一用户的车内位置。
一种车载交互方法，其特征在于，包括：

获取车内麦克风采集的声音信号；

当从所述声音信号中识别到第一语音命令时，确定发出所述第一语音命令的第一用户；

获取车内用户与车内位置的映射关系；

根据所述车内用户与车内位置的映射关系确定所述第一用户的车内位置；

根据所述第一用户的车内位置执行所述第一语音命令。
如权利要求7所述的方法，其特征在于，所述根据所述第一用户的车内位置执行所述第一语音命令，包括：

根据所述第一用户的车内位置控制投影界面的位置。
一种车载装置，其特征在于，包括：

存储单元，用于存储车内用户与车内位置的映射关系；

处理单元，用于：

获取车内麦克风采集的声音信号；

当从所述声音信号中识别到第一语音命令时，确定发出所述第一语音命令的第一用户；

获取车内用户与车内位置的映射关系；

根据所述车内用户与车内位置的映射关系确定所述第一用户的车内位置。
如权利要求9所述的装置，其特征在于，所述处理单元具体用于：

对所述第一语音命令进行声纹特征匹配，识别发出所述第一语音命令的第一用户。
如权利要求9或10所述的装置，其特征在于，所述车内用户与车内位置的映射关系是根据车载摄像头采集的人脸图像确定的。
如权利要求11所述的装置，其特征在于，所述车内用户与车内位置的映射关系是根据摄像头的位置与所述摄像头采集的人脸图像确定的，包括：

获取用户信息；

根据所述用户信息和所述人脸图像的映射关系，确定所述人脸图像对应的用户；

根据所述摄像头的位置和/或角度确定所述用户的车内位置。
如权利要求9至12中任一项所述的装置，其特征在于，所述处理单元还用于：

根据所述声音信号进行声源定位，获得至少一个声源位置；

根据所述第一用户的车内位置和所述至少一个声源位置修正所述第一用户的车内位置。
如权利要求13所述的装置，其特征在于，所述处理单元具体用于：

将所述至少一个声源位置中与所述第一用户的车内位置最接近的一个声源位置确定为修正后的第一用户的车内位置。
如权利要求9至14中任一项所述的装置，其特征在于，所述处理单元还用于：

根据所述第一用户的车内位置执行所述第一语音命令。
如权利要求15所述的装置，其特征在于，所述处理单元具体用于：

根据所述第一用户的车内位置控制投影界面的位置。
一种车辆，其特征在于，包括如权利要求9至16中任一项所述的车载装置。
一种车载装置，其特征在于，包括至少一个处理器和存储器，所述至少一个处理器与所述存储器耦合，用于读取并执行所述存储器中的指令，以执行如权利要求1至6或7至8中任一项所述的方法。
一种计算机可读介质，其特征在于，所述计算机可读介质存储有程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如权利要求1至6或7至8中任一项所述的方法。