WO2022135492A1

WO2022135492A1 - 控制方法、客户端、车辆、语音系统和存储介质

Info

Publication number: WO2022135492A1
Application number: PCT/CN2021/140569
Authority: WO
Inventors: 易晖; 杨如栋; 鲍鹏丽; 赵耀; 翁志伟
Original assignee: 广州橙行智动汽车科技有限公司; 广州小鹏汽车科技有限公司
Priority date: 2020-12-25
Filing date: 2021-12-22
Publication date: 2022-06-30
Also published as: CN112735411A

Abstract

一种控制方法、客户端(100)、车辆(300)、语音系统(500)和存储介质(1000)。控制方法用于控制客户端(100)，客户端(100)包括语音助手(10)，控制方法包括：控制语音助手(10)激活使语音助手(10)进入倾听态，在倾听态下语音助手(10)获取语音信号，确定是否存在控制指令(01)；存在控制指令时，控制语音助手(10)进入执行态，在执行态下语音助手(10)根据控制指令对客户端(100)控制并在控制结束后恢复倾听态(02)。

Description

控制方法、客户端、车辆、语音系统和存储介质

优先权信息

本申请请求2020年12月25日向中国国家知识产权局提交的、专利申请号为202011562171.5的专利申请的优先权和权益，并且通过参照将其全文并入此处。

技术领域

本申请涉及语音技术领域，特别涉及一种控制方法、客户端、车辆、语音系统和存储介质。

背景技术

在相关技术中，语音交互需要每次都用固定的唤醒词激活语音助手，然后才能完成对话，在对话结束后语音助手会自动退出，这样的唤醒式交互使用起来极不便利。

发明内容

本申请的实施方式提供一种控制方法、客户端、车辆、语音系统和存储介质。

本申请实施方式的控制方法用于控制客户端，所述客户端包括语音助手，所述控制方法包括：控制所述语音助手激活以使所述语音助手进入倾听态，在所述倾听态下所述语音助手能够获取语音信号以直接根据所述语音信号确定是否存在控制指令；在存在所述控制指令时，控制所述语音助手进入执行态，在所述执行态下所述语音助手能够根据所述控制指令对所述客户端进行相应的控制并在控制结束后恢复所述倾听态。

在某些实施方式中，所述客户端包括显示屏，所述显示屏用于显示所述语音助手的形象，所述控制方法包括：在所述语音助手进入所述执行态时，控制所述显示屏显示所述控制指令对应的卡片信息和所述形象的第一预设动作或第一预设表情。

在某些实施方式中，所述客户端包括显示屏，所述显示屏用于显示所述语音助手的形象，所述控制方法包括：在所述语音助手进入所述倾听态时，控制所述显示屏显示所述形象的第二预设动作或第二预设表情。

在某些实施方式中，所述控制指令包括打开预设应用，所述控制方法包括：在检测到所述预设应用的关闭信号时，控制所述语音助手由所述执行态变成所述倾听态。

在某些实施方式中，所述客户端还包括控制按键，所述控制方法包括：根据所述控制按键的触发信息控制所述语音助手由所述执行态变成所述倾听态。

在某些实施方式中，所述控制方法包括：在所述语音助手接收到开启语音指令时控制所述语音助手激活以使所述语音助手进入所述倾听态；在所述语音助手接收到关闭语音指令时控制所述语音助手关闭。

在某些实施方式中，所述控制方法包括：在所述语音助手激活时创建倾听态节点并将所述倾听态节点压入对话状态栈；在所述语音助手由所述倾听态变成所述执行态时，创建执行态节点并将所述执行态节点压入所述对话状态栈；在所述语音助手维持所述执行态时，刷新所述执行态节点；在所述语音助手由所述执行态变成所述倾听态时，将所述执行态节点弹出所述对话状态栈；在所述语音助手关闭时，将所述倾听态节点弹出所述对话状态栈。

在某些实施方式中，所述倾听态节点包括状态信息和对话信息，所述执行态节点包括状态信息、对话信息和执行信息。

在某些实施方式中，所述客户端与服务端通信，所述控制方法包括：将所述语音信号发送至所述服务端，所述服务端用于根据所述语音信号确定是否存在所述控制指令并将结果反馈至所述客户端。

在某些实施方式中，所述控制方法包括：控制所述客户端与所述服务端同步所述语音助手的对话状态，所述对话状态包括所述倾听态和所述执行态。

本申请实施方式的客户端包括语音助手和处理器，所述处理器用于：控制所述语音助手激活以使所述语音助手进入倾听态，在所述倾听态下所述语音助手能够获取语音信号以直接根据所述语音信号确定是否存在控制指令；在存在所述控制指令时，控制所述语音助手进入执行态，在所述执行态下所述语音助手能够根据所述控制指令对所述客户端进行相应的控制并在控制结束后恢复所述倾听态。

本申请实施方式的车辆包括车辆本体和上述任一实施方式的客户端，所述客户端设置在所述车辆本体上。

本申请实施方式的语音系统包括服务端和上述任一实施方式的客户端，所述服务端与所述客户端通信。

本申请实施方式的计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时，实现上述任一实施方式的控制方法。

本申请实施方式的控制方法、客户端、车辆、语音系统和存储介质通过控制语音助手激活后进入倾听态，在倾听态下语音助手能够获取语音信号以直接根据语音信号确定是否存在控制指令，此时不需要再重新激活，能够实现一次激活连续对话的功能，使得语音助手使用起来更加方便。另外，在执行态下语音助手能够根据控制指令对客户端进行相应的控制，如此，通过两级对话状态(即倾听态和执行态)对语音助手进行管理，便于语音助手进行不同的工作。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本申请实施方式的控制方法的流程示意图；

图2是本申请实施方式的客户端的模块示意图；

图3是本申请实施方式的控制方法的流程示意图；

图4是本申请实施方式的对话状态的示意图；

图5至图8是本申请实施方式的控制方法的流程示意图；

图9至图13是本申请实施方式的对话状态的示意图；

图14是本申请实施方式的车辆的示意图；

图15是本申请实施方式的语音系统的示意图；

图16是本申请实施方式的处理器和计算机可读存储介质的连接示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

在本申请的实施方式的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的实施方式的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1，本申请实施方式的控制方法用于控制客户端100，客户端100包括语音助手10，控制方法包括：

步骤01：控制语音助手10激活以使语音助手10进入倾听态，在倾听态下语音助手10能够获取语音信号以直接根据语音信号确定是否存在控制指令；

步骤02：在存在控制指令时，控制语音助手10进入执行态，在执行态下语音助手10能够根据控制指令对客户端100进行相应的控制并在控制结束后恢复倾听态。

请参阅图2，本申请还公开一种客户端100。具体地，本申请实施方式的控制方法可以由本申请实施方式的客户端100实现，客户端100包括语音助手10和处理器20。其中，步骤01和步骤02可以由处理器20实现，也即是说，处理器20用于：控制语音助手10激活以使语音助手10进入倾听态，在倾听态下语音助手10能够获取语音信号以直接根据语音信号确定是否存在控制指令；在存在控制指令时，控制语音助手10进入执行态，在执行态下语音助手10能够根据控制指令对客户端100进行相应的控制并在控制结束后恢复倾听态。

上述控制方法和客户端100能够通过控制语音助手10激活后进入倾听态，在倾听态下语音助手10能够获取语音信号以直接根据语音信号确定是否存在控制指令，此时不需要再重新激活，能够实现一次激活连续对话的功能，使得语音助手10使用起来更加方便。另外，在执行态下语音助手10能够根据控制指令对客户端100进行相应的控制，如此，通过两级对话状态(即倾听态和执行态)对语音助手10进行管理，便于语音助手10进行不同的工作。

相关技术中的语音交互需要每次都用固定的唤醒词激活语音助手10，然后才能完成对话，在对话结束后语音助手10会自动退出，这样的唤醒式交互使用起来极不便利。而本实施方式的控制方法和客户端100不需要再重新激活，就能够实现一次激活连续对话的功能，使得语音助手10使用起来更加方便。本实施方式的控制方法和客户端100通过两级对话状态(即倾听态和执行态)对语音助手10进行管理，便于语音助手10进行不同的工作。

具体地，本申请实施方式包括两级对话状态(即倾听态和执行态)，倾听态包括对话信息，执行态包括执行信息。倾听态具有便利性，执行态具有强感知。控制语音助手10激活后语音助手10进入倾听态，在倾听态下语音助手10能够获取语音信号以直接根据语音信号确定是否存在控制指令。语音信号对应的控制指令可以是在出厂前设置的，也可以是用户自定义设置的，此处不作为限制。在存在控制指令时，控制语音助手10进入执行态，在执行态下语音助手10能够根据控制指令对客户端100进行相应的控制并在控制结束后恢复倾听态。如此，通过两级对话状态对语音助手10进行管理，使得语音助手10在执行态下进行相应的控制并在控制结束后恢复倾听态。如此，语音助手10退出执行态，但保持倾听态，较好的兼顾了语音交互的强感知性和便利性，同时也便于语音助手10进行不同的工作。

请参阅图3，在某些实施方式中，客户端100包括显示屏30，显示屏30用于显示语音助手10的形象，控制方法包括：

步骤03：在语音助手10进入执行态时，控制显示屏30显示控制指令对应的卡片信息和形象的第一预设动作或第一预设表情。

本申请实施方式的控制方法可以由本申请实施方式的客户端100实现，客户端100还包括显示屏30。其中，步骤03可以由处理器20实现，也即是说，处理器20用于：在语音助手10进入执行态时，控制显示屏30显示控制指令对应的卡片信息和形象的第一预设动作或第一预设表情。

具体地，请一并参阅图2和图4，客户端100包括显示屏30，显示屏30用于显示语音助手10的形象，在语音助手10进入执行态时，语音助手10的形象为第一预设动作或第一预设表情。在一个例子中，在语音助手10进入执行态时，语音助手10的形象可以是一个虚拟机器人的形象，语音助手10的形象的第一预设动作可以是虚拟机器人的头像变大、眼睛睁开的动作，此时虚拟机器人可以位于显示屏30中间。语音助手10的形象的第一预设表情可以是大幅度闪烁的表情。在语音助手10进入执行态时，控制显示屏30显示控制指令对应的卡片信息，卡片信息可以是控制指令对应的内容。在一个例子中，控制显示屏30显示控制指令可以是“导航去中关村”，显示屏30显示控制指令对应的卡片信息可以是去中关村的几条路线。在某些实施方式中，在语音助手10进入执行态时，虚拟机器人可以位于卡片信息上方显示。

请再次参阅图3，在某些实施方式中，客户端100包括显示屏30，显示屏30用于显示语音助手10 的形象，控制方法包括：

步骤04：在语音助手10进入倾听态时，控制显示屏30显示形象的第二预设动作或第二预设表情。

本申请实施方式的控制方法可以由本申请实施方式的客户端100实现，客户端100还包括显示屏30。其中，步骤03可以由处理器20实现，也即是说，处理器20用于：在语音助手10进入倾听态时，控制显示屏30显示形象的第二预设动作或第二预设表情。

具体地，请参阅图4，客户端100包括显示屏30，显示屏30用于显示语音助手10的形象，在语音助手10进入倾听态时，语音助手10的形象为第二预设动作或第二预设表情。在一个例子中，在语音助手10进入倾听态时，语音助手10的形象可以是一个虚拟机器人的形象，语音助手10的形象的第二预设动作可以是虚拟机器人的头像变大、眼睛显示波纹的动作，此时虚拟机器人可以位于显示屏30中间。语音助手10的形象的第二预设表情可以是小幅度闪烁的表情。值得一提的是，在语音助手10进入倾听态时，显示屏30无卡片信息显示。显示屏30可以显示很小的文本框，文本框的内容可以是语音信息，例如：“你在干嘛”等语音信息。

在语音助手10处于未唤醒状态时，语音助手10的形象可以在显示屏30的左上角显示，语音助手10的形象的体积较小。在语音助手10被激活后，语音助手10可以在显示屏30的正中间显示，语音助手10的形象的体积变大。在语音助手10接收到语音时，语音助手10可以进入倾听态。在语音助手10执行相应的控制指令时，语音助手10可以进入执行态。在语音助手10退出后，语音助手10可以重新变成未唤醒状态。

其中，服务端200在处于倾听态时，能够进行接收客户端100发送的语音信号以实现对话拾音，然后对接收的语音信号进行自然语言理解(Natural Language Understanding，NLU)，此时可以识别语音信号所表示的对话是无意义对话还是有意义对话，在对话为无意义对话时拒识语音信号，在对话为有意义对话时准备执行语音信号对应的控制指令。此时客户端100和服务端200由倾听态开始进入执行态，在服务端200处于执行态时，服务端200判断对话属于多轮对话还是单轮对话，其中，多轮对话是指需要多轮对话信息才能实现的功能(例如导航等)，多轮对话是单轮对话信息即可实现的功能(例如把屏幕的亮度调至100％)等，在多轮对话时进入剧本模式(例如导航时用户说出某个地点，此时下一步可以进行地点确认)，在单轮对话时直接将指令下发至客户端100。

请参阅图5，在某些实施方式中，控制指令包括打开预设应用，控制方法包括：

步骤05：在检测到预设应用的关闭信号时，控制语音助手10由执行态变成倾听态。

本申请实施方式的控制方法可以由本申请实施方式的客户端100实现，客户端100包括语音助手10和处理器20。其中，步骤05可以由处理器20实现，也即是说，处理器20用于：在检测到预设应用的关闭信号时，控制语音助手10由执行态变成倾听态。

具体地，预设应用可以是导航、音乐播放器、搜索引擎等，在一个例子中，控制语音助手10激活以使语音助手10进入倾听态，语音助手10在倾听态的状态下获取“我想听周杰伦的晴天”的语音信号，“我想听周杰伦的晴天”的语音信号确定存在控制指令，如此可以打开音乐播放器播放周杰伦的《晴天》。预设应用即音乐播放器被用户关闭时，可以检测到预设应用的关闭信号时，控制语音助手10由执行态变成倾听态。在倾听态下语音助手10能够再次获取语音信号以直接根据语音信号确定是否存在控制指令，此时不需要再重新激活，能够实现一次激活连续对话的功能，使得语音助手10使用起来更加方便。

请参阅图6，在某些实施方式中，客户端100还包括控制按键，控制方法包括：

步骤06：根据控制按键的触发信息控制语音助手10由执行态变成倾听态。

本申请实施方式的控制方法可以由本申请实施方式的客户端100实现，客户端100还包括控制按键。其中，步骤06可以由处理器20实现，也即是说，处理器20用于：根据控制按键的触发信息控制语音助手10由执行态变成倾听态。

具体地，控制按键可以是设置在显示屏30上的虚拟按键(例如显示屏30为触摸屏，虚拟按键为触摸屏中显示的图标)，也可以是单独设置的物理按键。客户端100可以通过轻触虚拟按键以使语音助手10由执行态变成倾听态；客户端100也可以通过按压物理按键以使语音助手10由执行态变成倾听态，如此可以快速地退出当前执行态。控制按键可以便于对语音助手进行管理，快速切换语音助手的两级对话状态。

请参阅图7，在某些实施方式中，控制方法包括：

步骤071：在语音助手10接收到开启语音指令时控制语音助手10激活以使语音助手10进入倾听态；

步骤072：在语音助手10接收到关闭语音指令时控制语音助手10关闭。

本申请实施方式的控制方法可以由本申请实施方式的客户端100实现，客户端100包括语音助手10和处理器20。其中，步骤071和步骤072均可以由处理器20实现，也即是说，处理器20用于：在语音助手10接收到开启语音指令时控制语音助手10激活以使语音助手10进入倾听态；在语音助手10接收到关闭语音指令时控制语音助手10关闭。

具体地，在语音助手10接收到开启语音指令时控制语音助手10激活以使语音助手10进入倾听态。开启语音指令可以是出厂前设置的，也可以是用户自定义设置的，此处不作为限制。在一个例子中，开启语音指令可以是“你好，小P”，在语音助手10接收到“你好，小P”时控制语音助手10激活以使语音助手10进入倾听态。关闭语音指令可以是出厂前设置的，也可以是用户自定义设置的，此处不作为限制。在一个例子中，关闭语音指令可以是“退出”，在语音助手10接收到“退出”时控制语音助手10关闭。

请参阅图8，在某些实施方式中，控制方法包括：

步骤081：在语音助手10激活时创建倾听态节点并将倾听态节点压入对话状态栈；

步骤082：在语音助手10由倾听态变成执行态时，创建执行态节点并将执行态节点压入对话状态栈；

步骤083：在语音助手10维持执行态时，刷新执行态节点；

步骤084：在语音助手10由执行态变成倾听态时，将执行态节点弹出对话状态栈；

步骤085：在语音助手10关闭时，将倾听态节点弹出对话状态栈。

申请实施方式的控制方法可以由本申请实施方式的客户端100实现，客户端100包括语音助手10和处理器20。其中，步骤081、步骤082、步骤083、步骤084和步骤085均可以由处理器20实现，也即是说，处理器20用于：在语音助手10激活时创建倾听态节点并将倾听态节点压入对话状态栈；在语音助手10由倾听态变成执行态时，创建执行态节点并将执行态节点压入对话状态栈；在语音助手10维持执行态时，刷新执行态节点；在语音助手10由执行态变成倾听态时，将执行态节点弹出对话状态栈；在语音助手10关闭时，将倾听态节点弹出对话状态栈。

请参阅图9，如此利用状态栈可以便于对两级对话状态进行管理。具体地，在有意义语音被执行时，语音助手10可以由倾听态切换为执行态，此时可以创建执行态节点并将执行态节点压入对话状态栈中。在点击卡片上的按钮以触发新的执行事件或者在执行多轮对话剧本时，可以更新执行态节点，此时对话状态栈中的执行态节点进行刷新。在卡片被关闭、当前应用被关闭或者当前对话执行结束、或者执行退出当前对话类时，此时语音助手10可以由执行态变成倾听态，此时执行态节点可以从对话状态栈弹出。

请参阅图10，在某些实施方式中，倾听态节点包括状态信息和对话信息，执行态节点包括状态信息、对话信息和执行信息。在一个例子中，倾听态节点的状态信息可以是等待状态。倾听态节点的对话信息包括文本信息、响应信息和类别信息。文本信息可以是语音信号“哈哈哈”，由于“哈哈哈”不存在控制指令，如此响应信息为空，类别信息为被拒识。执行态节点的状态信息可以是执行状态。执行态节点的对话信息包括文本信息、响应信息和类别信息。文本信息可以是语音信号“导航到北大”，响应信息可以是兴趣点(Point of Interest，POI)列表，类别信息为选择状态。执行态节点的执行信息包括对话轮次、剧本名称和执行界面。对话轮次可以是首轮、第二轮、第三轮等。剧本名称是兴趣点(Point of Interest，POI)选择，剧本名称可以是在出厂前设置好的常用对话信息。执行界面可以是卡片信息。值得一提的是，卡片信息可以是兴趣点选择的内容，兴趣点选择可以包括：北大南门、北大东门、北大停车场、北大公交站等。

请一并参阅图4和图11，在某些实施方式中，客户端100与服务端200通信，控制方法包括：

将语音信号发送至服务端200，服务端200用于根据语音信号确定是否存在控制指令并将结果反馈至客户端100。

本申请实施方式的控制方法可以由本申请实施方式的客户端100实现，客户端100包括语音助手10和处理器20，客户端100与服务端200通信。其中，上述步骤可以由处理器20实现，也即是说，处理器20用于：将语音信号发送至服务端200，服务端200用于根据语音信号确定是否存在控制指令并将结果反馈至客户端100。

请再次参阅图4，客户端100与服务端200通信，可以将语音信号发送至服务端200，服务端200用于根据语音信号确定是否存在控制指令并将结果反馈至客户端100。如此客户端100用于接收语音信号，并将语音信号发送至服务端200，可以利用服务端200确定是否存在控制指令，并将结果反馈至客户端100。

请一并参阅图4、图11、图12和图13，在某些实施方式中，控制方法包括：

控制客户端100与服务端200同步语音助手10的对话状态，对话状态包括倾听态和执行态。

本申请实施方式的控制方法可以由本申请实施方式的客户端100实现，客户端100包括语音助手10和处理器20，客户端100与服务端200通信。其中，上述步骤可以由处理器20实现，也即是说，处理器20用于：控制客户端100与服务端200同步语音助手10的对话状态，对话状态包括倾听态和执行态。

具体地，客户端100与服务端200同步语音助手10的对话状态，客户端100与服务端200始终高度保持状态的一致性。

请参阅图11，在某些实施方式中，可以使用全语音的方式对两级对话状态进行管理。例如：用户可以使用开启语音指令“你好，小P”来唤醒语音助手10，在语音助手10接收到“你好，小P”时控制语音助手10激活以使语音助手10进入倾听态。用户可以说出“导航到中关村”的有意义语音，如此，语音助手10进入执行态，语音助手10可以列出兴趣点选择的同时询问用户“已为你找到以下结果，你要去哪一个呢？”用户可以语音回答“第一个”，用户也可以使用关闭语音指令“退出”以使语音助手10退出。

请参阅图12，在某些实施方式中，可以使用语音与按键结合的方式对两级对话状态进行管理。例如：户可以使用开启语音指令“你好，小P”来唤醒语音助手10，在语音助手10接收到“你好，小P”时控制语音助手10激活以使语音助手10进入倾听态。用户可以说出“导航到中关村”的有意义语音，如此，语音助手10进入执行态，语音助手10可以列出兴趣点选择的同时询问用户“已为你找到以下结果，你要去哪一个呢？”，用户可以根据需求，手动关闭导航应用。用户也可以通过按键手动关闭语音助手10。

请参阅图14，本申请公开了一种车辆300，车辆300包括车辆本体301和上述任意一种实施方式的客户端100，客户端100设置在车辆本体301上。

如此，本申请实施方式的车辆300的客户端100可以控制语音助手10激活后进入倾听态，在倾听态下语音助手10能够获取语音信号以直接根据语音信号确定是否存在控制指令，此时不需要再重新激活，能够实现一次激活连续对话的功能，使得语音助手10使用起来更加方便。另外，在执行态下语音助手10能够根据控制指令对客户端100进行相应的控制，如此，通过两级对话状态(即倾听态和执行态)对语音助手10进行管理，便于语音助手10进行不同的工作。值得一提的是，车辆300可以通过无线通信方式(如WIFI、移动通信网络等)连接客户端100。车辆300包括但不限于纯电动车、混合动力电动车、增程式电动车、燃油车等。

请参阅图15，本申请公开了一种语音系统500，语音系统500包括服务端200和上述任意一种实施方式的客户端100，服务端200与客户端100通信。

如此，本申请实施方式的语音系统500，可以控制语音助手10激活后进入倾听态，在倾听态下语音助手10能够获取语音信号以直接根据语音信号确定是否存在控制指令，此时不需要再重新激活，能够实现一次激活连续对话的功能，使得语音助手10使用起来更加方便。另外，在执行态下语音助手10能够根据控制指令对客户端100进行相应的控制，如此，通过两级对话状态(即倾听态和执行态)对语音助手10进行管理，便于语音助手10进行不同的工作。

请参阅图16，本申请实施方式还提供一种计算机可读存储介质1000，其上存储有计算机程序，当计算机程序被处理器20执行时，使得处理器20执行上述任一实施方式的控制方法的步骤。

例如，程序被处理器20执行的情况下，实现以下控制方法的步骤：

如此，本申请实施方式的计算机可读存储介质1000，可以控制语音助手10激活后进入倾听态，在倾听态下语音助手10能够获取语音信号以直接根据语音信号确定是否存在控制指令，此时不需要再重新激活，能够实现一次激活连续对话的功能，使得语音助手10使用起来更加方便。另外，在执行态下语音助手10能够根据控制指令对客户端100进行相应的控制，如此，通过两级对话状态(即倾听态和执行态)对语音助手10进行管理，便于语音助手10进行不同的工作。

可以理解，计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、以及软件分发介质等。

处理器可以是指控制器包含的处理器。处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在本说明书的描述中，参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的实施方式的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请的各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims

一种控制方法，用于控制客户端，其特征在于，所述客户端包括语音助手，所述控制方法包括：

控制所述语音助手激活以使所述语音助手进入倾听态，在所述倾听态下所述语音助手能够获取语音信号以直接根据所述语音信号确定是否存在控制指令；

在存在所述控制指令时，控制所述语音助手进入执行态，在所述执行态下所述语音助手能够根据所述控制指令对所述客户端进行相应的控制并在控制结束后恢复所述倾听态。
根据权利要求1所述的控制方法，其特征在于，所述客户端包括显示屏，所述显示屏用于显示所述语音助手的形象，所述控制方法包括：

在所述语音助手进入所述执行态时，控制所述显示屏显示所述控制指令对应的卡片信息和所述形象的第一预设动作或第一预设表情。
根据权利要求1所述的控制方法，其特征在于，所述客户端包括显示屏，所述显示屏用于显示所述语音助手的形象，所述控制方法包括：

在所述语音助手进入所述倾听态时，控制所述显示屏显示所述形象的第二预设动作或第二预设表情。
根据权利要求1所述的控制方法，其特征在于，所述控制指令包括打开预设应用，所述控制方法包括：

在检测到所述预设应用的关闭信号时，控制所述语音助手由所述执行态变成所述倾听态。
根据权利要求1所述的控制方法，其特征在于，所述客户端还包括控制按键，所述控制方法包括：

根据所述控制按键的触发信息控制所述语音助手由所述执行态变成所述倾听态。
根据权利要求1所述的控制方法，其特征在于，所述控制方法包括：

在所述语音助手接收到开启语音指令时控制所述语音助手激活以使所述语音助手进入所述倾听态；

在所述语音助手接收到关闭语音指令时控制所述语音助手关闭。
根据权利要求1所述的控制方法，其特征在于，所述控制方法包括：

在所述语音助手激活时创建倾听态节点并将所述倾听态节点压入对话状态栈；

在所述语音助手由所述倾听态变成所述执行态时，创建执行态节点并将所述执行态节点压入所述对话状态栈；

在所述语音助手维持所述执行态时，刷新所述执行态节点；

在所述语音助手由所述执行态变成所述倾听态时，将所述执行态节点弹出所述对话状态栈；

在所述语音助手关闭时，将所述倾听态节点弹出所述对话状态栈。
根据权利要求7所述的控制方法，其特征在于，所述倾听态节点包括状态信息和对话信息，所述执行态节点包括状态信息、对话信息和执行信息。
根据权利要求1所述的控制方法，其特征在于，所述客户端与服务端通信，所述控制方法包括：

将所述语音信号发送至所述服务端，所述服务端用于根据所述语音信号确定是否存在所述控制指令并将结果反馈至所述客户端。
根据权利要求9所述的控制方法，其特征在于，所述控制方法包括：

控制所述客户端与所述服务端同步所述语音助手的对话状态，所述对话状态包括所述倾听态和所述执行态。
一种客户端，其特征在于，所述客户端包括语音助手和处理器，所述处理器用于：控制所述语音助手激活以使所述语音助手进入倾听态，在所述倾听态下所述语音助手能够获取语音信号以直接根据所述语音信号确定是否存在控制指令；在存在所述控制指令时，控制所述语音助手进入执行态，在所述执行态下所述语音助手能够根据所述控制指令对所述客户端进行相应的控制并在控制结束后恢复所述倾听态。
一种车辆，其特征在于，所述车辆包括车辆本体和权利要求11所述的客户端，所述客户端设置在所述车辆本体上。
一种语音系统，其特征在于，所述语音系统包括服务端和权利要求11所述的客户端，所述服务端与所述客户端通信。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时，实现权利要求1-10任一项所述的控制方法。