WO2020192247A1

WO2020192247A1 - 人机交互方法及系统、介质和计算机系统

Info

Publication number: WO2020192247A1
Application number: PCT/CN2020/071188
Authority: WO
Inventors: 苏晓文
Original assignee: 北京京东尚科信息技术有限公司; 科大讯飞股份有限公司
Priority date: 2019-03-22
Filing date: 2020-01-09
Publication date: 2020-10-01
Also published as: CN111722702A

Abstract

本公开提供了一种人机交互方法，包括：在人机交互过程中，获取用户的图像信息和语音信息；根据所述图像信息，确定当前的语境；在当前的语境下，感知所述用户通过所述语音信息实际想要表达的语义；以及基于所感知的语义，对所述用户进行应答。本公开还公开了一种人机交互系统、一种计算机系统和一种计算机可读存储介质。

Description

人机交互方法及系统、介质和计算机系统

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种人机交互方法、人机交互系统、一种计算机系统和一种计算机可读存储介质。

背景技术

随着人机对话技术的不断发展，目前越来越多的智能设备(如智能音箱，智能手机等)都可以实现人机对话了。

然而，在实现本公开构思的过程中，发明人发现现有的智能设备在人机交互，尤其是人机对话时，只能“听”到人的声音，无法“看”到人的样子，因而语义理解能力不强。

发明内容

有鉴于此，本公开提供了一种使智能设备在人机交互时既能“听”到人的声音，又能“看”到人的样子的人机交互方法和人机交互系统。

本公开的一个方面提供了一种人机交互方法，包括：在人机交互过程中，获取用户的图像信息和语音信息；根据上述图像信息，确定当前的语境；在当前的语境下，感知上述用户通过上述语音信息实际想要表达的语义；以及基于所感知的语义，对上述用户进行应答。

根据本公开的实施例，上述根据上述图像信息，确定当前的语境，包括：根据上述图像信息，对上述用户进行人脸识别，以确定上述用户当前的表情，和/或对上述用户进行肢体动作识别，以确定上述用户当前的状态；以及基于上述用户当前的表情和/或当前的状态，确定当前的语境。

根据本公开的实施例，上述在当前的语境下，感知上述用户通过上述语音信息实际想要表达的语义，包括：确定上述语音信息能够表达的至少一种语义；判断上述至少一种语义中是否存在与当前的语境匹配的一种或者多种语义；如果存在，则执行以下操作中的一种：将上述与当前的语境匹配的一种或者多种语义中的至少一种语义作为上述用户通过上述语音信息实际想要表达的语义；将上述与当前的语境匹配的一种或者多种语义中的任意一种语义作为上述用户通过上述语音信息实际想要表达的语义；将上述与当前的语境匹配的一种或者多种语义全部作为上述用户通过上述语音信息实际想要表达的语义。

根据本公开的实施例，上述方法还包括在人机交互过程中：判断能否获取到上述用户的图像信息；以及如果不能获取到上述用户的图像信息，则提醒上述用户调整位姿。

根据本公开的实施例，上述方法还包括在人机交互过程中：判断是否有遮挡物部分地或者全部地遮挡住上述用户；以及如果有遮挡物部分地或者全部地遮挡住上述用户，则调整图像采集装置，使之能够避开遮挡物的遮挡而采集上述用户的图像信息。

本公开的另一个方面提供了一种人机交互系统，包括：获取模块，用于在人机交互过程中，获取用户的图像信息和语音信息；确定模块，用于根据上述图像信息，确定当前的语境；感知模块，用于在当前的语境下，感知上述用户通过上述语音信息实际想要表达的语义；以及应答模块，用于基于所感知的语义，对上述用户进行应答。

根据本公开的实施例，上述确定模块包括：识别单元，用于根据上述图像信息，对上述用户进行人脸识别，以确定上述用户当前的表情，对上述用户进行肢体动作识别，以确定上述用户当前的状态；以及第一确定单元，用于基于上述用户当前的表情和/或当前的状态，确定当前的语境。

根据本公开的实施例，上述感知模块包括：第二确定单元，用于确定上述语音信息能够表达的至少一种语义；判断单元，用于判断上述至少一种语义中是否存在与当前的语境匹配的一种或者多种语义；执行单元，用于在存在与当前的语境匹配的一种或者多种语义的情况下，执行以下操作中的一种：将上述与当前的语境匹配的一种或者多种语义中的至少一种语义作为上述用户通过上述语音信息实际想要表达的语义；将上述与当前的语境匹配的一种或者多种语义中的任意一种语义作为上述用户通过上述语音信息实际想要表达的语义；将上述与当前的语境匹配的一种或者多种语义全部作为上述用户通过上述语音信息实际想要表达的语义。

根据本公开的实施例，上述系统还包括：第一判断模块，用于在人机交互过程中判断能否获取到上述用户的图像信息；以及提醒模块，用于在不能获取到上述用户的图像信息的情况下，提醒上述用户调整位姿。

根据本公开的实施例，上述系统还包括：第二判断模块，用于在人机交互过程中判断是否有遮挡物部分地或者全部地遮挡住上述用户；以及调整模块，用于在有遮挡物部分地或者全部地遮挡住上述用户的情况下，调整图像采集装置，使之能够避开遮挡物的遮挡而采集上述用户的图像信息。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，指令在被执行时用于实现如上任一项所述的方法。

本公开的另一方面提供了一种计算机程序，计算机程序包括计算机可执行指令，指令在被执行时用于实现如上任一项所述的方法。

本公开的另一方面提供了一种计算机系统，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上任一项所述的方法。

根据本公开的实施例，在人机交互场景中，因为采用了智能设备既获取交流对象的声音，又获取交流对象的图像的技术手段，所以至少部分地克服了相关技术中智能设备在人机交互，尤其是人机对话时，只能“听”到人的声音，无法“看”到人的样子，因而语义理解能力不强的技术问题，进而达到了增强智能设备的语义理解能力的技术效果。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了可以应用本公开的人机交互方法和系统的示例性系统架构；

图2示意性示出了根据本公开实施例的人机交互方法和系统的应用场景；

图3示意性示出了根据本公开实施例的人机交互方法的流程图；

图图4A～图4C示意性示出了根据本公开实施例的确定语义的示意图；

图5示意性示出了根据本公开实施例的人机交互系统的框图；

图6示意性示出了根据本公开实施例的确定模块的框图；

图7示意性示出了根据本公开实施例的确定模块的框图；以及

图8示意性示出了根据本公开实施例的适于实现人机交互方法和系统的计算机系统的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种使智能设备在人机交互时既能“听”到人的声音，又能“看”到人的样子的人机交互方法和人机交互系统。该方法包括在人机交互过程中，获取用户的图像信息和语音信息；根据上述图像信息，确定当前的语境；在当前的语境下，感知上述用户通过上述语音信息实际想要表达的语义；以及基于所感知的语义，对上述用户进行应答。

图1示意性示出了可以应用本公开的人机交互方法和系统的示例性系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的人机交互方法也可以由终端设备101、102、或103执行，或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地，本公开实施例所提供的人机交互系统也可以设置于终端设备101、102、或103中，或设置于不同于终端设备101、102、或103的其他终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的人机交互方法和系统的应用场景。

如图2所示，在该应用场景中，用户可以使用智能音箱201进行人机交互。并且，使用本公开实施例提供的技术方案，在人机交互过程中，智能音箱201不仅可以识别用户的语音，而且还可以捕捉用户的图像，从而既可以听见用户的声音，又可以看见用户的样子，不再像现有技术中智能音箱如同盲人一样，只能听见用户的声音，无法看见用户的样子。

应该理解，图2所示仅为可以适于本公开实施例的应用场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

图3示意性示出了根据本公开实施例的人机交互方法的流程图。

如图3所示，该方法包括操作S310～S340，其中：

在操作S310，在人机交互过程中，获取用户的图像信息和语音信息。

在人机交互过程中，智能设备和用户互相作为交流对象。并且，在本公开实施例中，智能设备由于能够获取用户的语音信息，因而能够看见用户的样子，同时，智能设备由于还能够获取用户的图像信息，因而能够听见用户的声音。

具体地，智能设备包括一个麦克风阵列，并由此采集用户的语音信息。更具体地，在采集用户的语音信息时，智能设备可以准确地定位用户的说话方向，进而可以加强该方向上的波束能量，提高识别度。

此外，智能设备可以通过图像采集装置如摄像头采集用户的图像信息。更具体地，该图像采集装置既可以设置在智能设备上，作为智能设备的一个部件，又可以设置在智能设备之外，作为一个独立的装置。

在操作S320，根据图像信息，确定当前的语境。

由于人的面部表情和肢体语言也会传达出一定的信息，并渲染出相应的语境，因此在加强智能设备对人的有声语言的理解时，可以考虑解析人的面部表情和/或肢体语言。

具体地，可以基于获取的图像信息进行人脸识别，和/或基于获取的图像信息进行分析交流对象的肢体动作。更具体地，在识别区域内，智能设备可以通过摄像头可采集出人脸数据，包括人脸的朝向、轮廓、眼睛、眉毛、嘴唇以及鼻子轮廓，以便分析当前用户(即交流对象)的情绪和表情等信息，进而确定相应的语境。例如，愉悦一般表示肯定、同意，无奈、沮丧一般表示否定，等等。

在操作S330，在当前的语境下，感知用户通过语音信息实际想要表达的语义。

由于好多语音信息在不同的语境下表达出来的语义一般不同，甚至截然相反，因此，配合语境来感知用户通过某一语音信息实际想要表达的语义，可以加强对语义的理解。

例如，在聊天的过程中，如果一方发出“呵呵”的声音，并且变现得很愉悦，则一般认为这是同意另一方的意思，而如果一方发出“呵呵”的声音，并且变现得很无奈，则一般认为这是不同意另一方的意思，如果一方发出“呵呵”的声音，并且看不出愉悦还是无奈，则一般认为“呵呵”此时只是语气词而已。

在操作S340，基于所感知的语义，对用户进行应答。

在正确的语境下不仅可以感知交流对象所表达的真实意思，而且能够赋予智能设备察言观色的能力，因而更能聊到对方心坎里去，从而提起对方的聊天兴趣。

与现有技术智能设备在人机交互，尤其是人机对话时，只能听到人的声音，无法看到人的样子，如同盲人一样，语义理解能力受到影响相比，本公开公开实施例，增加视觉交互，即引入人脸识别和/或肢体动作识别，通过采集交流对象即人的图像和语音，使得智能设备在人机交互时既能听又能看，从而能够加强语义理解能力。

作为一种可选的实施例，根据图像信息，确定当前的语境，包括：根据图像信息，对用户进行人脸识别，以确定用户当前的表情，和/或根据图像信息，对用户进行肢体动作识别，以确定用户当前的状态；以及基于用户当前的表情和/或当前的状态，确定当前的语境。

换言之，在实际操作中，既可以只进行人脸识别，以确定交流对象的表情，进而根据表情来确定当前的语境，也可以只进行肢体动作，以确定交流对象当前的状态，进而根据当前的状态来确定当前的语境，还可以即进行人脸识别又进行肢体动作，从而确定交流对象的表情和其当前的状态，进而根据表情和当前的状态来确定当前的语境。

在具体的交互场景中，图像识别系统进行人脸识别，即通过对人脸的面部属性进行分析，以确定人脸的角度和表情，和/或进行肢体动作识别，从而计算用户当前的状态，生成状态信息表，包括用户的交流对象(如智能设备)和用户，进而基于人的表情和/或当前的状态给出每种语境对应的阈值。与此同时还将麦克风阵列采集的语音数据进行波束分析、自然语言处理，生成用户的语言信息，并根据预先设定不同的语境，给出处理结果，并给出对应语义的阈值。最后，结合人脸识别和语音识别，匹配语境，选出合理的语义解析结果，并与用户交互。

通过本公开实施例，在听觉交互的基础上增加视觉交互，并结合图像识别技术，获取用户当前的表情和/或状态，再结合音频分析，给出更为合理的语义识别结果，从而达到更强的语义理解能力。

作为一种可选的实施例，在当前的语境下，感知用户通过语音信息实际想要表达的语义，包括：确定语音信息能够表达的至少一种语义；判断至少一种语义中是否存在与当前的语境匹配的一种或者多种语义；如果存在，则执行以下操作中的一种：将与当前的语境匹配的一种或者多种语义中的至少一种语义作为用户通过语音信息实际想要表达的语义；将与当前的语境匹配的一种或者多种语义中的任意一种语义作为用户通过语音信息实际想要表达的语义；将与当前的语境匹配的一种或者多种语义全部作为用户通过语音信息实际想要表达的语义。

由于很多信息在不同的语境往往对应于不同的语义，因此在确定某个信息的语义时，可以先确定这个信息能够表达的所有语义，在从所有语义中匹配出与当前的语境匹配的语义。

由于一种语境可能同时匹配出一种或者多种语义，这种情况下，可以有多种操作方式：如图4A所示，可以从匹配出的语义中选出至少一种作为用户最想表达的语义；或者如图4B所示，可以从匹配出的语义中任选一种语义如匹配度最高的语义作为用户最想表达的语义；或者如图4C所示，可以将所有匹配出的语义都作为用户最想表达的语义。

通过本公开实施例，可以从多种语义中找出与当前语境匹配的语义，并依此进行应答，能够准确把握用户的意图，提高用户体验。

作为一种可选的实施例，上述方法还包括在人机交互过程中：判断能否获取到用户的图像信息；以及如果不能获取到用户的图像信息，则提醒用户调整位姿。

由于涉及图像采集，因此优选地，在使用过程中，可以将智能设备放置在视野开阔并且无明显遮挡的位置，以便于更好地收集用户的图像信息。此外，减少遮挡可以更准确的定位用户的说话方向，以便加强该方位的波束能量，提高语音识别度。

因此，在交互过程中，可以不断检测是否能够获取到用户的图像信息，如果不能，则可以提醒用户调整位姿，如果能，则可以不做处理。

通过本公开实施例，可以保证智能设备在交互过程中能够看见交流对象的样子。

作为一种可选的实施例，上述方法还包括在人机交互过程中：判断是否有遮挡物部分地或者全部地遮挡住用户；以及如果有遮挡物部分地或者全部地遮挡住用户，则调整图像采集装置，使之能够避开遮挡物的遮挡而采集用户的图像信息。

具体地，在发现有遮挡物部分地或者全部地遮挡住用户，导致无法拍到或者只能拍到部分或者无法拍到清楚的图像时，除了通过提醒用户调整位姿解决之外，还可以通过调整图像采集装置来解决。具体地，可以调整图像采集装置的拍摄角度或者摄像头的伸缩状态等，使之能够避开或者绕过遮挡物的遮挡而采集用户的图像信息。

通过本公开实施例，也可以保证智能设备在交互过程中能够看见/看清交流对象的样子。

图5示意性示出了根据本公开实施例的人机交互系统的框图。

如图5所示，人机交互系统500包括获取模块510、确定模块520、感知模块530和应答模块540，其中：

获取模块510用于在人机交互过程中，获取用户的图像信息和语音信息。

确定模块520用于根据图像信息，确定当前的语境。

感知模块530用于在当前的语境下，感知用户通过语音信息实际想要表达的语义。

应答模块540用于基于所感知的语义，对用户进行应答。

作为一种可选的实施例，如图6所示，确定模块520包括识别单元521和第一确定单元522。识别单元521用于根据图像信息，对用户进行人脸识别，以确定用户当前的表情，和/或对用户进行肢体动作识别，以确定用户当前的状态；第一确定单元522用于基于用户当前的表情和 /或当前的状态，确定当前的语境。

作为一种可选的实施例，如图7所示，感知模块530包括第二确定单元531、判断单元532和执行单元533。第二确定单元531用于确定语音信息能够表达的至少一种语义；判断单元532用于判断至少一种语义中是否存在与当前的语境匹配的一种或者多种语义；执行单元533用于在存在与当前的语境匹配的一种或者多种语义的情况下，执行以下操作中的一种：将与当前的语境匹配的一种或者多种语义中的至少一种语义作为用户通过语音信息实际想要表达的语义；将与当前的语境匹配的一种或者多种语义中的任意一种语义作为用户通过语音信息实际想要表达的语义；将与当前的语境匹配的一种或者多种语义全部作为用户通过语音信息实际想要表达的语义。

作为一种可选的实施例，该人机交互系统500还包括第一判断模块和提醒模块。第一判断模块用于在人机交互过程中判断能否获取到用户的图像信息；以及提醒模块用于在不能获取到用户的图像信息的情况下，提醒用户调整位姿。

作为一种可选的实施例，该人机交互系统500还包括第二判断模块和调整模块。第二判断模块用于在人机交互过程中判断是否有遮挡物部分地或者全部地遮挡住用户；以及调整模块用于在有遮挡物部分地或者全部地遮挡住用户的情况下，调整图像采集装置，使之能够避开遮挡物的遮挡而采集用户的图像信息。

根据本公开的实施例的模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获取模块510、确定模块520、感知模块530和应答模块540中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，获取模块510、确定模块520、感知模块530和应答模块540中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块510、确定模块520、感知模块530和应答模块540中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中系统部分实施方式与本公开的实施例中方法部分实施方式对应相同或类似，系统部分实施方式的描述具体请参考方法部分实施方式的描述，在此不再赘述。

图8示意性示出了根据本公开实施例的适于实现人机交互方法和系统的计算机系统的框图。图8示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，根据本公开实施例的计算机系统800包括处理器801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 803中，存储有系统800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统800还可以包括输入/输出(I/O)接口805，输入/输出(I/O)接口805也连接至总线804。系统800还可以包括连接至I/O接口805的以下部件中的一项或多项：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

一种人机交互方法，包括：

在人机交互过程中，获取用户的图像信息和语音信息；

根据所述图像信息，确定当前的语境；

在当前的语境下，感知所述用户通过所述语音信息实际想要表达的语义；以及

基于所感知的语义，对所述用户进行应答。
根据权利要求1所述的方法，其中，所述根据所述图像信息，确定当前的语境，包括：

根据所述图像信息，对所述用户进行人脸识别，以确定所述用户当前的表情，和/或对所述用户进行肢体动作识别，以确定所述用户当前的状态；以及

基于所述用户当前的表情和/或当前的状态，确定当前的语境。
根据权利要求1所述的方法，其中，所述在当前的语境下，感知所述用户通过所述语音信息实际想要表达的语义，包括：

确定所述语音信息能够表达的至少一种语义；

判断所述至少一种语义中是否存在与当前的语境匹配的一种或者多种语义；

如果存在，则执行以下操作中的一种：

将所述与当前的语境匹配的一种或者多种语义中的至少一种语义作为所述用户通过所述语音信息实际想要表达的语义；

将所述与当前的语境匹配的一种或者多种语义中的任意一种语义作为所述用户通过所述语音信息实际想要表达的语义；

将所述与当前的语境匹配的一种或者多种语义全部作为所述用户通过所述语音信息实际想要表达的语义。
根据权利要求1所述的方法，其中，所述方法还包括在人机交互过程中：

判断能否获取到所述用户的图像信息；以及

如果不能获取到所述用户的图像信息，则提醒所述用户调整位姿。
根据权利要求1所述的方法，其中，所述方法还包括在人机交互过程中：

判断是否有遮挡物部分地或者全部地遮挡住所述用户；以及

如果有遮挡物部分地或者全部地遮挡住所述用户，则调整图像采集装置，使之能够避开遮挡物的遮挡而采集所述用户的图像信息。
一种人机交互系统，包括：

获取模块，用于在人机交互过程中，获取用户的图像信息和语音信息；

确定模块，用于根据所述图像信息，确定当前的语境；

感知模块，用于在当前的语境下，感知所述用户通过所述语音信息实际想要表达的语义；以及

应答模块，用于基于所感知的语义，对所述用户进行应答。
根据权利要求6所述的系统，其中，所述确定模块包括：

识别单元，用于根据所述图像信息，对所述用户进行人脸识别，以确定所述用户当前的表情，和/或对所述用户进行肢体动作识别，以确定所述用户当前的状态；以及

第一确定单元，用于基于所述用户当前的表情和/或当前的状态，确定当前的语境。
根据权利要求6所述的系统，其中，所述感知模块包括：

第二确定单元，用于确定所述语音信息能够表达的至少一种语义；

判断单元，用于判断所述至少一种语义中是否存在与当前的语境匹配的一种或者多种语义；

执行单元，用于在存在与当前的语境匹配的一种或者多种语义的情况下，执行以下操作中的一种：

将所述与当前的语境匹配的一种或者多种语义中的至少一种语义作为所述用户通过所述语音信息实际想要表达的语义；

将所述与当前的语境匹配的一种或者多种语义中的任意一种语义作为所述用户通过所述语音信息实际想要表达的语义；

将所述与当前的语境匹配的一种或者多种语义全部作为所述用户通过所述语音信息实际想要表达的语义。
根据权利要求6所述的系统，其中，所述系统还包括：

第一判断模块，用于在人机交互过程中判断能否获取到所述用户的图像信息；以及

提醒模块，用于在不能获取到所述用户的图像信息的情况下，提醒所述用户调整位姿。
根据权利要求6所述的系统，其中，所述系统还包括：

第二判断模块，用于在人机交互过程中判断是否有遮挡物部分地或者全部地遮挡住所述用户；以及

调整模块，用于在有遮挡物部分地或者全部地遮挡住所述用户的情况下，调整图像采集装置，使之能够避开遮挡物的遮挡而采集所述用户的图像信息。
一种计算机系统，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至5中任一项所述的方法。
一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1至5中任一项所述的方法。