WO2021217527A1

WO2021217527A1 - 一种车内语音交互方法及设备

Info

Publication number: WO2021217527A1
Application number: PCT/CN2020/087913
Authority: WO
Inventors: 黄佑佳; 聂为然; 高益
Original assignee: 华为技术有限公司
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2021-11-04
Also published as: EP4138355A4; EP4138355A1; CN112673423A; US20230048330A1

Abstract

一种车内语音交互方法和设备，方法包括：获取用户语音信息；根据用户语音信息确定用户指令；根据用户指令判断针对用户指令的响应内容是否涉及隐私；根据响应内容是否涉及隐私，确定是否通过隐私保护模式输出响应内容。由此，能够保护隐私不被泄露。

Description

一种车内语音交互方法及设备

技术领域

本申请实施例涉及智能语音交互领域，尤其涉及一种车内语音交互方法及设备。

背景技术

人机智能语音交互是人机交互科学领域与人工智能领域的一个主要的研究方向，用于实现人与计算机之间用自然语言进行有效地信息传递。现有的人机智能语音交互技术中，用户发出语音信号，设备识别语音并将语音转换成文本，该文本被送入自然语言理解(natural language understanding，NLU)模块中进行语义解析获取用户意图，还可以根据NLU模块解析的用户意图生成反馈文本。之后自然语言生成(natural language generation，NLU)模块会将反馈文本内容转换成语音，向用户播放语音，完成人机智能语音交互。

目前用户应用场景比较复杂，现有技术对用户语音的反馈往往仅与用户指令的字面意思对应，不会考虑隐私安全，很有可能造成隐私泄露。

发明内容

本申请实施例提供一种车内语音交互方法及设备，在人机语音交互中，设备能够针对涉及隐私的响应内容进行区别反馈，保护隐私安全。

第一方面，提供了一种车内语音交互方法，所述方法包括：获取用户语音信息；其中，用户语音信息可以是音频采集设备(例如，麦克风阵列)采集到的模拟信号，也可以是对采集到的模拟信号进行处理获得的文本信息。还可以根据用户语音信息确定用户指令；进一步，根据用户指令判断针对用户指令的响应内容是否涉及隐私；根据响应内容是否涉及隐私，确定是否通过隐私保护模式输出响应内容。

本申请实施例提供一种车内语音交互方法，能够针对用户在不同场景下的用户指令进行区别反馈。尤其是可以识别涉及隐私的响应内容，对涉及隐私的响应内容进行区别反馈，采用隐私保护模式输出响应内容，尽可能保护隐私安全。

结合第一方面，在第一方面的第一种可能的实现方式中，所述方法还包括：获取用户图像。所述根据用户语音信息确定用户指令，具体为：根据用户图像判断用户的注视方向；当判断用户的注视方向为目标方向，则确定用户的意图为进行人机交互；根据用户的注视方向为目标方向时所发出的用户语音信息确定用户指令。其中，获取用户图像可以是用户进行人机交互的智能设备集成的图像采集部件(例如，摄像头模组)拍摄的图像，也可以是车内的摄像头拍摄图像后将图像传输给智能设备。目标方向可以是预先设定的方向。该方向可以是指向车内某个设备的方向，例如，目标方向可以是指向智能设备的方向；或者目标方向可以是指向采集设备的方向，例如，目标方向可以是指向摄像头的方向。

本申请实施例提供的方法中，可以借助用户的注视方向来判断用户是否进行人机交互。若确定用户意图为进行人机交互，即只能设备获取到的用户语音信息是需要智能设备进行处理并响应的，则进行后续步骤，确定用户指令、判别响应内容是否涉及隐私等。在免唤醒场景或长时间唤醒场景下，可以避免用户与其他人之间的聊天语音频繁地误触智能设备的响应。

结合第一方面或第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述根据响应内容是否涉及隐私，确定是否通过隐私保护模式输出响应内容，具体为：判断响应内容涉及隐私，且用户处于单人场景，则通过非隐私模式输出响应内容。

本申请实施例中，虽然判断用户指令的响应内容涉及隐私，但是由于用户处于单人场景，不存在隐私泄露的风险，可以通过非隐私模式输出用户指令的响应内容，例如，通过车内的公共设备输出用户指令的响应内容。

结合第一方面或第一方面的第一种可能的实现方式，在第一方面的第三种可能的实现方式中，根据响应内容是否涉及隐私，确定是否通过隐私保护模式输出响应内容，具体为：判断响应内容涉及隐私，且用户处于多人场景，则通过隐私保护模式输出响应内容。

本申请实施例中，判断用户指令的响应内容涉及隐私，且由于用户处于多人场景，存在隐私泄露的风险，可以通过隐私保护模式输出用户指令的响应内容，例如，非公共设备输出用户指令的响应内容。非公共设备仅面向用户，可以有效保证隐私不被泄露。

结合第一方面或第一方面的第一种可能的实现方式，在第一方面的第四种可能的实现方式中，根据响应内容是否涉及隐私，确定是否通过隐私保护模式输出响应内容，具体为：判断响应内容涉及隐私，则通过隐私保护模式输出响应内容。

本申请实施例中，一旦判断用户指令的响应内容涉及隐私，存在隐私泄露的风险，可以通过隐私保护模式输出用户指令的响应内容，例如，非公共设备输出用户指令的响应内容。非公共设备仅面向用户，可以有效保证隐私不被泄露。

结合第一方面的第三或第四种可能的实现方式，在第一方面的第五种可能的实现方式中，所述通过隐私保护模式输出响应内容，具体为：通过公共设备输出响应内容时，隐藏响应内容包括的隐私内容；或，通过非公共设备输出响应内容。

本申请实施例中，可以通过以上两种方式响应用户指令，在响应用户指令的同时，还可以有效防止隐私泄露。

第二方面，提供了一种设备，包括：获取单元，用于获取用户语音信息；

处理单元，用于根据用户语音信息确定用户指令；处理单元还用于，根据用户指令判断针对用户指令的响应内容是否涉及隐私；根据响应内容是否涉及隐私，确定是否通过隐私保护模式输出响应内容。

结合第二方面，在第二方面的第一种可能的实现方式中，获取单元还用于，获取用户图像；处理单元具体用于，根据用户图像判断用户的注视方向；当判断用户的注视方向为目标方向，则确定用户的意图为进行人机交互；根据用户的注视方向为目标方向时所发出的用户语音信息确定用户指令。

结合第二方面或第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，处理单元具体用于，判断响应内容涉及隐私，且用户处于单人场景，则通过非隐私模式输出响应内容。

结合第二方面或第二方面的第一种可能的实现方式，在第二方面的第三种可能的实现方式中，判断响应内容涉及隐私，且用户处于多人场景，则通过隐私保护模式输出响应内容。

结合第二方面或第二方面的第一种可能的实现方式，在第二方面的第四种可能的实现方式中，处理单元具体用于，判断响应内容涉及隐私，则通过隐私保护模式输出响应内容。

结合第二方面的第三或第四种可能的实现方式，在第二方面的第五种可能的实现方式中，处理单元具体用于，通过公共设备输出响应内容时，隐藏响应内容包括的隐私内容；或，通过非公共设备输出响应内容。

第三方面，提供了一种装置，所述装置包括至少一个处理器和存储器，至少一个处理器与存储器耦合；存储器，用于存储计算机程序；至少一个处理器，用于执行存储器中存储的计算机程序，以使得装置执行如上述第一方面或第一方面的任意一种可能的实现方式所述的方法。

该装置可以为终端设备或服务器等。这里的终端设备包括但不限于智能手机、车载装置(例如自动驾驶设备)、个人计算机、人工智能设备、平板电脑、个人数字助理、智能穿戴式设备(例如智能手表或手环、智能眼镜)、智能语音设备(例如智能音箱等)、虚拟现实/混合现实/增强显示设备或网络接入设备(例如网关等)等。服务器可以包括存储服务器或计算服务器等。

第四方面，本申请公开了一种计算机可读存储介质，包括：计算机可读存储介质中存储有指令；当计算机可读存储介质在上述第二方面以及第二方面任意一种实现方式、第三方面所述的装置上运行时，使得装置执行如上述第一方面以及第一方面任意一种实现方式所述的方法。

第五方面，本申请提供一种芯片，包括接口和处理器，所述处理器用于通过所述接口获取计算机程序并实现前述第一方面或第一方面的任意一种可能的实现方式所述的方法。

第六方面，本申请提供一种芯片，包括多个电路模块，所述多个电路模块用于实现前述第一方面或第一方面的任意一种可能的实现方式所述的方法。在一些实现方式下，所述多个电路模块与软件程序一起实现前述第一方面或第一方面的任意一种可能的实现方式所述的方法。

附图说明

图1为本申请实施例提供的人机语音交互场景；

图2为本申请实施例提供的智能设备的结构框图；

图3为本申请实施例提供的人机语音交互场景示意图；

图4为本申请实施例提供的车内语音交互方法的流程示意图；

图5～图9为本申请实施例提供的车内语音交互方法的示意图；

图10为本申请实施例提供的语音交互方法的流程示意图；

图11为本申请实施例提供的智能设备的另一结构框图；

图12为本申请实施例提供的智能设备的另一结构框图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

首先对本发明实施例涉及的术语进行解释说明：

(1)意图

本申请实施例中，用户的意图用于描述用户的需求、目的等。例如，用户的意图为与智能设备进行人机交互，用户可以通过唤醒词唤醒智能设备。

需要说明的是，在智能语音交互场景下，用户的意图为进行人机交互，可以理解为用户通过语音形式向智能设备发出指令，并期望智能设备响应用户指令。

(2)用户语音信息

本申请实施例中，用户语音信息可以是设备接收到的模拟信号，也可以是设备根据模拟信号后获得的文本信息。

(3)用户指令

本申请实施例中，用户指令指的是由用户发起，且需要智能设备响应的指令。例如，“打开短信”、“接听电话”等。

本申请实施例提供的方法车内的人机语音交互场景。参考图1，该场景下用户(例如，驾驶员)发出语音信号，智能设备可以接收用户的语音信号。智能设备还可以根据用户的语音信号提取用户语音信息，根据用户语音信息确定用户指令，从而响应用户指令。

示例的，用户发出语音信号“播放歌曲”，智能设备接收到语音信号，将语音信号其转换成文本信息。还可以对该文本信息进行语义解析，确定用户指令，最后响应用户指令，例如，运行音乐播放软件，播放歌曲。

需要说明的是，智能设备的工作模式包括唤醒模式和免唤醒模式。唤醒模式下，用户需要发出唤醒词来唤醒智能设备，智能设备才接收用户的语音信号；免唤醒模式下，无需用户发出唤醒词唤醒，智能设备即可接收到用户的语音信号。

参考图2，智能设备10包括输出模块101、输入模块102、处理器103以及存储器104。

具体实现中，输出模块101可以与处理器103进行通信，输出处理器的处理结果。例如，输出模块101可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，投影仪(projector)或音响等。

输入模块102可以与处理器103通信，可以以多种方式接收用户的输入。例如，输入模块102可以是鼠标、键盘、触摸屏设备、传感设备或麦克风阵列等。

处理器103可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

存储器104可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，也可以与处理器相连接。存储器也可以和处理器集成在一起。存储器104还可以通过智能设备的网络接口访问各种云服务以及云服务管理模块。

本申请实施例中，处理器103可以运行存储器104存储的软件模块对输入模块102接收到的语音信号进行处理，确定用户指令，并通过输出模块10响应用户指令。存储器104存储的软件模块包括收件人识别(addressee detection，AD)模块、自然语言生成(natural language generation，NLG)模块、文本转语音(text to Speech，TTS)模块、自动语音识别(automatic speech recognition，ASR)模块以及对话管理(dialogue management，DM)模块等。

其中，AD模块用于对输入模块102接收到的语音进行二分类，识别语音是否为用户进行人机交互时发出的语音，即用户对智能设备发出的语音。AD模块还可以过滤出用户进行人机交互时发出的语音，将用户进行人机交互时发出的语音输入ASR模块。

ASR模块可以将从AD模块接收的语音信号转化成文本信息，还可以将文本信息输入DM模块；

DM模块可以根据从ASR模块接收的文本信息确定用户指令。DM模块还用于进行对话管理，例如，根据问题确定答案或反馈。因此DM模块还可以生成用户指令的响应内容。其中，用户指令的响应内容可以是文本信息。DM模块还可以将用户指令的响应内容输入NLG模块。

NLG模块用于根据用户指令的响应内容生成符合自然语言习惯的文本信息，还可以通过输出模块101显示该文本信息。

TTS模块用于将NLG模块生成的文本信息转化为语音，还可以通过输出模块10播放该语音。

具体实现中，车内除了智能设备10外还可以包括其他设备。例如，参考图3，车内还包括驾驶位抬头显示屏20以及驾驶员佩戴的耳机30、中控显示屏40、车内音响50、摄像头60以及驾驶位微型扬声器70。其中，智能设备10可以和中控显示屏40集成在一起，抬头显示屏20、驾驶员佩戴的耳机30、车内音响50、摄像头60可以独立存在。车内的各个设备之间可以进行交互，例如，摄像头60可以将拍摄到的图像传输给智能设备10进行处理。

本申请实施例中，车内的设备可以划分为公共设备和非公共设备。其中，公共设备输出的内容是面向多数人，多数人可以接收公共设备输出的内容，例如，多数人可以接收公共设备播放的语音或显示的文字、图像。

非公共设备面向指定人员(例如，驾驶员)，指定人员可以接收非公共设备输出的内容，例如，指定人员可以接收非公共设备播放的语音或显示的文字、图像。

以图3所示的车内场景为例，公共设备可以是车内音响50或车内的中控显示屏40；非公共设备可以是驾驶员佩戴的耳机30或者驾驶位的微型扬声器70，也可以是驾驶位的抬头显示屏20。

需要说明的是，智能设备与用户的语音交互中，智能设备的反馈方式对用户体验有非常大的影响。单单是理解用户的意图或响应用户指令，无法针对用户所处的不同场景做出区别性响应，也会给用户造成不好的体验。目前，设备与用户之间的语音交互方案还没有太多关注这方面的内容，大部分的焦点还是集中在语义理解部分。现有技术中设备对用户语音的反馈往往仅与用户指令的字面意思对应，不会考虑不同场景的差异。

可以理解的，本申请实施例中，终端设备和/或网络设备可以执行本申请实施例中的部分或全部步骤，这些步骤或操作仅是示例，本申请实施例还可以执行其它操作或者各种操作的变形。此外，各个步骤可以按照本申请实施例呈现的不同的顺序来执行，并且有可能并非要执行本申请实施例中的全部操作。

本申请实施例提供一种车内语音交互方法，适用于图3所示的车内场景，所述方法的执行主体可以是车内的智能设备10。如图4所示，所述方法包括以下步骤：

401、获取用户语音信息。

具体实现中，智能设备的输入模块20可以接收到语音(即模拟信号)。其中，输入模块20接收到的模拟信号可以是本申请实施例所述的用户语音信息。或者，输入模块20可以将接收到的语音输入智能设备的处理器30，处理器30(例如，ASR模块)可以根据模拟获得文本信息，该文本信息也可以是本申请实施例所述的用户语音信息。

例如，输入模块20可以是麦克风阵列，麦克风阵列可以拾取到用户发出的语音，用户语音信息可以是麦克风阵列拾取到的语音。

402、根据所述用户语音信息确定用户指令。

本申请实施例，智能设备的输入模块20获取模拟信号后，由ASR模块将模拟信号转换成文本信息，还可以将文本信息输入DM模块。DM模块可以对文本信息进行语义解析确定用户指令。

DM模块还可以按照自然的对话习惯生成用户指令的响应内容。其中，DM模块生成的用户指令的响应内容可以是文本信息。

一种可能的实现方式中，DM模块对ASR模块输入的文本信息进行语意解析还可以确定用户指令的槽位。其中，用户指令的槽位可以认为是用户指令的参数。例如，用户指令为：把空调温度调为26度，“26度”就是用户指令的槽位(或参数)。

403、根据所述用户指令判断针对所述用户指令的响应内容是否涉及隐私。

具体地，可以判断DM模块生成的响应内容是否包括隐私内容，若用户指令的响应内容包括隐私内容，则判断针对用户指令的响应内容涉及隐私。

一种可能的实现方式中，智能设备的存储器104可以保存隐私内容列表，包括至少一个隐私内容。处理器103查询存储器104中存储的隐私内容列表，若所述用户指令的响应内容包括隐私内容列表中的一个或多个隐私内容，则确定针对所述用户指令的响应内容涉及隐私。

示例的，与微信相关的隐私内容记为隐私内容1，与备忘录相关的隐私内容记为隐私内容2。隐私内容列表可以包括隐私内容1和隐私内容2。当用户指令的响应内容包括隐私内容1或隐私内容2，则确定针对所述用户指令的响应内容涉及隐私。

404、根据所述响应内容是否涉及隐私，确定是否通过隐私保护模式输出所述响应内容。

具体实现中，当用户指令的响应内容涉及隐私，才判断是否通过隐私保护模式输出用户指令的响应内容，以保护用户隐私。当用户指令的响应内容不涉及隐私，则以正常方式输出用户指令的响应内容，例如，通过非隐私模式输出用户指令的响应内容。

一种可能的实现方式中，当智能设备的处理器103判断用户指令的响应内容涉及隐私，但所述用户处于单人场景，则通过非隐私模式输出所述响应内容。

另一种可能的实现方式中，当智能设备的处理器103判断用户指令的响应内容涉及隐私，且所述用户处于多人场景，则通过所述隐私保护模式输出所述响应内容。

另一种可能的实现方式中，当智能设备的处理器103判断用户指令的响应内容涉及隐私，则通过所述隐私保护模式输出所述响应内容。

需要说明的是，车内的摄像头60可以拍摄用户图像，并将用户图像发送给智能设备10。智能设备10的处理器103还可以对所述用户图像进行解析、处理。若在所述用户图像中解析到多个人物图像，则确定用户当前所处场景包括多人，即用户处于多人场景。若在所述用户图像中解析到1个人物图像，则确定用户当前处于单人场景。

具体实现中，处理器103可以使用yolo算法对用户图像进行人脸目标检测，然后根据识别到的人脸目标数目确定场景内的人数，例如，车内的人数。根据场景内的人数判断用户处于单人场景还是多人场景。

具体实现中，智能设备可以通过以下两种隐私保护模式输出用户指令的响应内容。其中，“输出”指的是智能设备呈现用户指令的响应内容。当响应内容为文本信息，则可以通过显示屏显示响应内容；当响应内容为语音，则可以通过音响播放响应内容。两种隐私保护模式具体如下：

第一、所述智能设备通过公共设备输出所述响应内容时，隐藏所述响应内容包括的隐私内容。

为了完成人机智能语音交互，响应用户通过语音发起的用户指令，可以在公共设备输出用户指令的响应内容。由于公共设备面向多数人，可能导致用户隐私泄露，因此在公共设备输出用户指令的响应内容时，可以隐藏响应内容包括的隐私内容。

其中，通过公共设备输出用户指令的响应内容，可以是通过公共显示屏(例如，车载中控显示器)显示用户指令的响应内容，但需要隐藏隐私内容，例如，隐藏关键的人名、地点等信息。

可以理解的是，隐藏隐私内容，可以是以特殊图像(例如，马赛克)遮盖隐私内容。也可以是不显示隐私内容，以特殊字符代替隐私内容，仅显示不涉及隐私的内容。

本申请实施例中，通过公共设备输出用户指令的响应内容，也可以是通过公共音响系统(例如，车载音响)播放用户指令的响应内容，但不能播放响应内容中的隐私内容，例如，隐藏关键的人名、地点等信息，仅播放不涉及隐私的内容。

第二、所述智能设备通过非公共设备输出所述响应内容。

为了完成人机智能语音交互，响应用户通过语音发起的用户指令，可以在非公共模块输出用户指令的响应内容。由于非公共模块仅面向智能设备的用户(例如，驾驶员)。在非公共模块输出用户指令的响应内容时，可以保护用户隐私内容。

其中，通过非公共模块输出用户指令的响应内容，可以是通过非公共显示屏(例如，驾驶位抬头显示屏)显示用户指令的响应内容。或者，通过非公共音响系统(例如，驾驶员佩戴的耳机)播放用户指令的响应内容。

需要说明的是，如果用户所处场景包括多人，智能设备的输入模块20接收到的语音有两种可能：一种是真实的用户对设备输入的语音信号(即用户对设备所讲的话)，另一种可能是用户之间的聊天语音，这些语音对于智能设备确定真实的用户指令而言属于噪音。

通常认为用户通过唤醒词唤醒智能设备之后的语音信号是有效的，智能设备接收用户发出的唤醒词，在唤醒之后接收用户语音。根据接收到的用户语音确定用户指令，并对用户指令进行响应。

当智能设备长时间处于唤醒状态，输入模块20接收到的语音很多属于用户聊天语音，为了避免设备针对这些语音进行不必要的反馈，可以基于对接收到的语音进行判别，提取用户进行人机交互时发出的语音。具体地，可以通过以下两种方式对接收到的语音进行判别：

第一种、根据AD模块判断输入模块20接收到的语音是否为用户进行人机交互时发出的语音。

需要说明的是，用户之间聊天的语速、语调、韵律或语音感情色彩往往不同与人机器交互的语音，可以根据这些差异来判断一段语音的接收对象是否为智能设备。本申请实施例中，可以通过AD模块可以利用这些差异来区分用户语音是用户进行人机交互时发出的语音，还是用户与其他人之间的聊天语音。

具体地，AD模块是一个基于输入的语音信号进行二分类的模型。将输入模块20接收到的语音输入AD模块，AD模块可以输出一个结果值。这个结果值代表输入模块20接收到的语音为用户进行人机交互时发出的语音，或者，输入模块20接收到的语音不是用户进行人机交互时发出的语音。或者，结果值还可以代表输入模块20接收到的语音是用户进行人机交互时发出的语音的概率，当概率大于相应阈值，可以认为输入模块20接收到的语音为用户进行人机交互时发出的语音。

AD模块可以通过对训练样本进行训练得到，AD模块的训练样本可以是AD判别样本、意图识别(NLU)样本、词性标注(POS)样本、文本对对抗样本等。其中，AD判别样本可以包括语音信号，语音信息的AD判别结果指示语音信号的接收对象为智能设备或语音信号的接收对象不是智能设备。意图识别(NLU)样本可以包括文本信息以及文本信息对应的用户意图(或用户指令)。词性标注(POS)样本可以包括词(Word)以及词性。文本对对抗样本包括文本对以及文本对之间的干扰量。

AD判别样本、意图识别(NLU)样本、词性标注(POS)样本的损失函数为交叉熵损失，文本对对抗样本的损失函数为两个文本对应的向量之间的欧式距离。需要说明的是，损失函数用于计算训练样本的误差，根据各个训练样本的损失函数，可以确定AD模块的误差。

第二种、根据用户的注视对象判断用户语音的接收对象是否为所述智能设备。

通常，当用户向智能设备发出语音，会同时注视智能设备，因此当判断用户的注视对象为智能设备，则可以确定用户语音的接收对象为智能设备。

具体实现中，智能设备还可以获取用户图像。示例的，车内的摄像头60可以拍摄用户图像，并将用户图像发送给智能设备10的处理器103。

处理器103根据所述用户图像判断所述用户的注视方向；当判断所述用户的注视方向为目标方向，则确定所述用户的意图为进行人机交互。进一步，还可以根据所述用户的注视方向为所述目标方向时所发出的用户语音信息确定所述用户指令。

本申请实施例中，目标方向可以是预先设定的方向。该方向可以是指向车内某个设备的方向，例如，目标方向可以是指向智能设备的方向；或者目标方向可以是指向采集设备的方向，例如，目标方向可以是指向摄像头的方向。

一种可能的实现方式中，利用人体头部姿态进行视线跟踪。具体地，首先使用yolo算法进行人脸目标检测，检测到人脸目标后，进行2D人脸关键点检测。然后根据检测到的2D人脸关键点进行3D人脸模型匹配。匹配了3D人脸模型后，可以根据3D人脸关键点与2D人脸关键点的旋转关系求解人脸的姿态角度，将这个角度作为用户的视线角度。根据用户的视线角度判断用户是否注视智能设备，若用户注视对象为智能设备则可以确定用户意图为进行人机交互。

可选的，本申请实施例所述的方法还包括：当智能设备判断接收到的语音信号为用户与其他人之间的聊天语音，则在显示屏显示动态的波形，表示智能设备在接收外部语音，并不会实时显示语音信号的识别结果。

当判断接收到的语音信号为用户对设备发出的，才通过ASR模块将语音信号转化为文本信息，还可以在显示屏显示该文本信息，以便用户判断识别结果是否准确。

以图3所示的场景为例，驾驶员发出语音信号1“吃早饭了吗”，副驾驶回复语音信号2“没呢，没来得及”；主驾驶发出语音信号3“你几点起床的”，副驾驶回复语音信号4“起的比较完”。

智能设备的麦克风阵列收集到语音信号1～语音信号4，对语音信号1～语音信号4进行分析，根据语音信号的语调、语速或语言感情色彩判断语言信号1～语音信号4为乘客与驾驶员之间的聊天语音，则不进行后续处理，即不会将语音信号转化成文本信息确定用户指令。

或者，智能设备根据摄像头60确定用户(驾驶员)的注视对象，若用户的注视对象不是智能设备，则不进行后续处理。

可选的，参考图5，中控显示屏40可以显示波形，以表示正在接收用户语音。

驾驶员发出语音信号5“打开空调，调至24度”。

智能设备的麦克风阵列收集到语音信号5，对语音信号5进行分析，根据语音信号的语调、语速或语言感情色彩判断语言信号5为驾驶员对设备发出的，则进行后续处理，将语音信号转化成文本信息确定用户指令为“打开空调，调至24度”。

进一步，智能设备判断用户指令“打开空调，调至24度”的响应内容不涉及隐私，则对意图进行反馈，打开车内空调，并将温度调为24摄氏度。

驾驶员发出语音信号6“查看今天日程”。

智能设备的麦克风阵列收集到语音信号6，对语音信号6进行分析，根据语音信号的语调、语速或语言感情色彩判断语言信号6为驾驶员进行人机交互时对智能设备 10发出的，则进行后续处理，将语音信号转化成文本信息，根据文本信息确定用户指令为“查看今天日程”。

进一步，智能设备判断用户指令“查看今天日程”的响应内容为“日程”，涉及隐私，且根据用户图像判断用户当前所处场景包括多人，即用户当前处于多人场景。则通过非公共模块输出用户指令的响应内容，即用户的日程。或者，通过公共模块输出用户指令的响应内容时，隐藏关键人名、地点。

示例的，用户的日程为“今天14:40在高新大酒店参加A公司的招标会”。参考图6，通过中控显示屏40显示“您今天14:40在**大酒店参加*公司的招标会”。

或者，参考图7，通过车内音响50播放语音“您今天14:40需要参加一个招标会”。

或者，参考图8，通过抬头显示屏20显示“您今天14:40在高新大酒店参加A公司的招标会”。

或者，参考图9，通过耳机30播放语音“您今天14:40在高新大酒店参加A公司的招标会”。

本申请实施例提供的方法中，在智能设备加入AD模块，过滤很多无无效的语音信号，减少由于无效语音误触发的反馈，提升用户的使用体验。此外，还可以进行反馈模式决策，基于用户意图、用户场景动态调整反馈方式。不仅仅支持反馈设备的调整，还支持调整反馈的内容，能够更好地保护用户的隐私。

本申请实施例还提供一种语音交互方法，如图10所示，所述方法包括以下步骤：

1001、获取用户的多模态信息。

其中，用户的多模态信息可以用户语音信息、用户图像。用户语音信息可以是智能设备接收到的模拟信号；用户图像可以是车内的摄像头拍摄的图像。

1002、判断用户意图是否为进行人机交互。

一种可能的实现方式中，通常认为通过唤醒词唤醒系统智能设备之后输入的用户语音是有效的，即唤醒词唤醒系统之后，接收到的语音是用户进行人机交互时发出的语音。

另一种可能的实现方式中，智能设备长时间处于唤醒状态，在长时唤醒情况下，设备接收到的语音可能包括用户与其他人之间的聊天语音。因此，可以基于AD模块判别接收到的语音是用户进行人机交互时发出的语音。

或者，还可以利用摄像头确定用户的注视对象。当用户的注视对象为目标方向，例如，用户的注视方向指向智能设备，则可以是确定接收到的语音是用户进行人机交互时发出的语音。

如果接收到的语音是用户进行人机交互时发出的语音则执行步骤1003；否则仅在智能设备的显示屏显示波形表示设备正在接收用户语音。

1003、根据语音信号信息确定用户指令。

具体实现参考步骤402的相关描述，在此不做赘述。

1004、判断针对用户指令的响应内容是否涉及隐私。

具体地，可以定义一个隐私内容列表，常见的隐私内容包括：短信、微信、备忘录等。涉及隐私的响应内容可以是短信内容，微信内容，备忘录内容。当针对用户指令的响应内容不包括隐私内容列表中的隐私内容，直接执行1007常规显示用户指令的响应内容；当针对用户指令的响应内容包括隐私内容列表中的隐私内容进行后续的进一步判断与决策，执行步骤1005。

1005、判断用户是否处于多人场景。

具体地，可以基于摄像头获取的用户图像判断用户是否处于多人场景。例如，可以根据用户图像判别车内是否有多人。在有多人的情况下才会产生隐私问题，多人场景下通过车内音响语音播报反馈内容，或通过中控显示屏呈现反馈内容发生都会有一些隐私泄露风险。

因此，当判断车内有多人，则确定用户是否处于多人场景，执行步骤1006，保护隐私。否则，执行步骤1007，以常规方式输出用户指令的响应内容。

1006、以隐私保护模式输出用户指令的响应内容。

具体实现中，可以通过智能设备的非公共设备输出用户指令的响应内容。例如，通过驾驶员用户佩戴的耳机播放用户指令的响应内容，或者通过驾驶位显示屏显示用户指令的响应内容。

例如，首先可以检测是否存在隐私模式所需的硬件条件，比如，驾驶位显示屏，或驾驶员是否佩戴耳机等。当满足隐私模式所需的硬件条件，例如驾驶员佩戴了耳机，可以通过耳机播放用户指令的响应内容。

当不存在所需硬件环境时，则对反馈内容进行调整，隐藏用户的隐私信息。例如，在中控显示屏显示响应内容，但隐藏关键的地点、人名等隐私信息。

1007、以常规模式输出用户指令的响应内容。

其中，常规模式输出用户指令的响应内容，即通过智能设备的公共设备输出用户指令的响应内容。例如，通过车内音响播放用户指令的响应内容，或者通过中控显示屏显示用户指令的响应内容。

在采用对应各个功能划分各个功能模块的情况下，图11示出上述实施例中所涉及的设备(例如，本申请实施例所述的智能设备)的一种可能的结构示意图。例如，图11所示的设备可以是本申请实施例所述的智能设备，也可以是智能设备中实现上述方法的部件。如图11所示，设备包括获取单元1101、处理单元1102、收发单元1103。处理单元可以是一个或多个处理器，收发单元可以是收发器。

获取单元1101，用于支持智能设备执行步骤401，和/或用于本文所描述的技术的其它过程。

数据处理单元1102，用于支持智能设备执行步骤401～步骤404，和/或用于本文所描述的技术的其它过程。

收发单元1103，用于支持智能设备与其他设备或设备之间的通信，和/或用于本文所描述的技术的其它过程。可以是智能设备的接口电路或网络接口。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

一种可能的实现方式中，图11所示的结构也可以是应用于智能设备中的芯片的结构。所述芯片可以是片上系统(System-On-a-Chip，SOC)或者是具备通信功能的基带芯片等。

示例性的，在采用集成的单元的情况下，本申请实施例提供的设备的结构示意图如图12所示。在图12中，该设备包括：处理模块1201和通信模块1202。处理模块1201用于对设备的动作进行控制管理，例如，执行上述获取单元1101、处理单元1102执行的步骤，和/或用于执行本文所描述的技术的其它过程。通信模块1202用于执行上述收发单元1103执行的步骤，支持设备与其他设备之间的交互，如与其他终端设备之间的交互。如图12所示，设备还可以包括存储模块1203，存储模块1203用于存储设备的程序代码和数据。

当处理模块1201为处理器，通信模块1202为收发器，存储模块1203为存储器时，设备为图2所示的设备。

本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有指令；指令用于执行如图4或图10所示的方法。

本申请实施例提供一种包括指令的计算机程序产品，当其在设备上运行时，使得设备实现如图4或图10所示的方法。

本申请实施例一种无线设备，包括：无线设备中存储有指令；当无线设备在图2、图11、图12所示的设备上运行时，使得设备实现如图4或图10所示的方法。该设备可以为芯片等。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请实施例提供的方法中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，简称DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机可以存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(digital video disc，简称DVD))、或者半导体介质(例如,SSD)等。

在本申请实施例中，在无逻辑矛盾的前提下，各实施例之间可以相互引用，例如方法实施例之间的方法和/或术语可以相互引用，例如装置实施例之间的功能和/或术语可以相互引用，例如装置实施例和方法实施例之间的功能和/或术语可以相互引用。

本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请实施例提供的方法及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种车内语音交互方法，其特征在于，包括：

获取用户语音信息；

根据所述用户语音信息确定用户指令；

根据所述用户指令判断针对所述用户指令的响应内容是否涉及隐私；

根据所述响应内容是否涉及隐私，确定是否通过隐私保护模式输出所述响应内容。
根据权利要求1所述的方法，其特征在于，所述方法还包括：获取用户图像；

所述根据所述用户语音信息确定用户指令，具体为：

根据所述用户图像判断所述用户的注视方向；

当判断所述注视方向为目标方向，则确定所述用户的意图为进行人机交互；

根据所述注视方向为所述目标方向时所发出的用户语音信息确定所述用户指令。
根据权利要求1或2所述的方法，其特征在于，所述根据所述响应内容是否涉及隐私，确定是否通过隐私保护模式输出所述响应内容，具体为：

判断所述响应内容涉及隐私，且所述用户处于单人场景，则通过非隐私模式输出所述响应内容。
根据权利要求1或2所述的方法，其特征在于，所述根据所述响应内容是否涉及隐私，确定是否通过隐私保护模式输出所述响应内容，具体为：

判断所述响应内容涉及隐私，且所述用户处于多人场景，则通过所述隐私保护模式输出所述响应内容。
根据权利要求1或2所述的方法，其特征在于，所述根据所述响应内容是否涉及隐私，确定是否通过隐私保护模式输出所述响应内容，具体为：

判断所述响应内容涉及隐私，则通过所述隐私保护模式输出所述响应内容。
根据权利要求4或5所述的方法，其特征在于，所述通过所述隐私保护模式输出所述响应内容，具体为：

通过公共设备输出所述响应内容时，隐藏所述响应内容包括的隐私内容；或，

通过非公共设备输出所述响应内容。
一种设备，其特征在于，包括：

获取单元，用于获取用户语音信息；

处理单元，用于根据所述用户语音信息确定用户指令；

所述处理单元还用于，根据所述用户指令判断针对所述用户指令的响应内容是否涉及隐私；根据所述响应内容是否涉及隐私，确定是否通过隐私保护模式输出所述响应内容。
根据权利要求7所述的设备，其特征在于，所述获取单元还用于，获取用户图像；

所述处理单元具体用于，根据所述用户图像判断所述用户的注视方向；

当判断所述注视方向为目标方向，则确定所述用户的意图为进行人机交互；

根据所述注视方向为所述目标方向时所发出的用户语音信息确定所述用户指令。
根据权利要求7或8所述的设备，其特征在于，所述处理单元具体用于，判断所述响应内容涉及隐私，且所述用户处于单人场景，则通过非隐私模式输出所述响应内容。
根据权利要求7或8所述的设备，其特征在于，所述处理单元具体用于，判断所述响应内容涉及隐私，且所述用户处于多人场景，则通过所述隐私保护模式输出所述响应内容。
根据权利要求7或8所述的设备，其特征在于，所述处理单元具体用于，判断所述响应内容涉及隐私，则通过所述隐私保护模式输出所述响应内容。
根据权利要求10或11所述的设备，其特征在于，所述处理单元具体用于，通过公共设备输出所述响应内容时，隐藏所述响应内容包括的隐私内容；或，

通过非公共设备输出所述响应内容。
一种装置，其特征在于，包括至少一个处理器和存储器，所述至少一个处理器与所述存储器耦合；

所述存储器，用于存储计算机程序；

所述至少一个处理器，用于执行所述存储器中存储的计算机程序，以使得所述装置执行如权利要求1至6中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序或指令，当所述计算机程序或指令被运行时，实现如权利要求1至6中任一项所述的方法。