WO2022000828A1

WO2022000828A1 - 小程序的语音控制方法、设备及存储介质

Info

Publication number: WO2022000828A1
Application number: PCT/CN2020/117498
Authority: WO
Inventors: 史南胜; 谢马林; 季林峰; 曹姣
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2020-06-29
Filing date: 2020-09-24
Publication date: 2022-01-06
Also published as: CN111724785A; CN111724785B

Abstract

本申请公开了小程序的语音控制方法、设备及存储介质，涉及计算机技术中的语音技术，具体实现方案为：通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令；由语音交互系统对语音控制指令进行语音识别和意图解析，获取意图信息，并将意图信息传输给目标小程序；由目标小程序接收意图信息，并将意图信息转换为目标小程序的线程能够执行的控制指令，由目标小程序的线程执行控制指令。本申请实施例通过语音交互系统与目标小程序框架之间的交互，实现对目标小程序的语音控制，提高交互过程的便利性，提高用户使用小程序的体验，也为小程序在智能语音设备分发和使用量提供有力支撑。

Description

小程序的语音控制方法、设备及存储介质

本申请要求于2020年6月29日提交中国专利局、申请号为202010605375.6、申请名称为“小程序的语音控制方法、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术中的语音技术，尤其涉及一种小程序的语音控制方法、设备及存储介质。

背景技术

随着人工智能和小程序的迅猛发展，在智能软硬件设备中围绕小程序展开的各种应用和产品不断受到关注。各种智能硬件产品通过嵌入和分发小程序为用户提供更多的服务。

目前，很多支持语音交互的智能语音设备如有屏音箱、车载屏幕等，也可使用小程序，而其对于小程序的分发主要还是依赖手动调起，用户与小程序的交互过程也主要通过手动触摸交互，例如有屏音箱上的资讯视频类小程序，需要手动触发小程序中心进行选择后才能调起、并通过手动上下翻页、点击播放等操作才能进行浏览和观看等。

现有的智能语音设备与小程序的交互方式，操作不方便，对于车载屏、电视屏等智能硬件设备，通过触摸方式交互尤为不便，尤其是在驾驶过程中对车载应用的操作可能导致安全隐患；而触摸操作屏幕，导致语音交互不可持续进行，造成注意力割裂，且用户交互操作的割裂和使用的不方便性，容易造成用户中途退出或者弃用；流程过长，比如找到收藏的小程序等需要经过小程序中心才可以进入，基于上述因素导致用户体验极差。

发明内容

本申请提供了一种小程序的语音控制方法、设备及存储介质，以在智能语音设备上实现小程序的语音控制，提高用户与小程序交互的便利性，从而提高交互体验。

根据本申请的第一方面，提供了一种小程序的语音控制方法，应用于智能语音设备，所述智能语音设备上配置有语音交互系统和目标小程序，所述方法包括：

所述目标小程序接收所述语音交互系统传输的意图信息，其中所述意图信息为所述语音交互系统对用户发出的目标小程序的语音控制指令进行语音识别和意图解析后所得到的；

所述目标小程序将所述意图信息转换为目标小程序的线程能够执行的控制指令，由目标小程序的线程执行所述控制指令。

根据本申请的第二方面，提供了一种小程序的语音控制方法，应用于智能语音设备，所述智能语音设备上配置有语音交互系统和目标小程序，所述方法包括：

所述语音交互系统获取用户发出的目标小程序的语音控制指令；

所述语音交互系统对所述语音控制指令进行语音识别和意图解析，获取意图信息；

所述语音交互系统将所述意图信息传输给所述目标小程序，以由所述目标小程序将所述意图信息转换为目标小程序的线程能够执行的控制指令并执行。

根据本申请的第三方面，提供了一种小程序的语音控制方法，应用于智能语音设备，所述智能语音设备上配置有语音交互系统和目标小程序，所述方法包括：

通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令；

由语音交互系统对所述语音控制指令进行语音识别和意图解析，获取意图信息，并将所述意图信息传输给目标小程序；

由目标小程序接收所述意图信息，并将所述意图信息转换为目标小程序的线程能够执行的控制指令，由目标小程序的线程执行所述控制指令。

根据本申请的第四方面，提供了一种智能语音设备，其上配置有语音交互系统和目标小程序；其中语音交互系统包括：

获取模块，用于通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令；

语音处理模块，用于对所述语音控制指令进行语音识别和意图解析，获取意图信息，并将所述意图信息传输给目标小程序；

所述目标小程序包括：

接收模块，用于接收所述意图信息；

指令转换模块，用于将所述意图信息转换为目标小程序的线程能够执行的控制指令；

执行模块，用于通过目标小程序的线程执行所述控制指令。

根据本申请的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面或第二方面或第三方面所述的方法。

根据本申请的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面或第二方面或第三方面所述的方法。

本申请实施例提供的小程序的语音控制方法、设备及存储介质，通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令；由语音交互系统对所述语音控制指令进行语音识别和意图解析，获取意图信息，并将所述意图信息传输给目标小程序；由目标小程序接收所述意图信息，并将所述意图信息转换为目标小程序的线程能够执行的控制指令，由目标小程序的线程执行所述控制指令。本申请实施例通过语音交互系统与目标小程序框架之间的交互，可实现对目标小程序的语音控制，提高了交互过程的便利性，避免了需要触摸方式与小程序交互导致语音交互不可持续而进行造成注意力割裂，提高了用户使用小程序的体验，也为小程序在智能语音设备分发和使用量提供有力支撑。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是可以实现本申请实施例的小程序的语音控制方法的场景图；

图2是根据本申请一实施例提供的小程序的语音控制方法的流程图；

图3是根据本申请另一实施例提供的小程序的语音控制方法的流程图；

图4是根据本申请另一实施例提供的小程序的语音控制方法的流程图；

图5是根据本申请另一实施例提供的小程序的语音控制方法的流程图；

图6是根据本申请另一实施例提供的小程序的语音控制方法的流程图；

图7是根据本申请另一实施例提供的小程序的语音控制方法的流程图；

图8是根据本申请一实施例提供的智能语音设备的框图；

图9是用来实现本申请实施例的小程序的语音控制方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

现有技术的智能语音设备，尤其是一些有屏智能语音设备，如有屏音箱、车载屏幕等，对于小程序的分发主要还是依赖手动调起，用户与小程序的交互过程也主要通过手动触摸交互，例如有屏音箱上的资讯视频类小程序，需要手动触发小程序中心进行选择后才能调起、并通过手动上下翻页、点击播放等操作才能进行浏览和观看等。现有的智能语音设备与小程序的交互方式，操作不方便，对于车载屏、电视屏等智能硬件设备，通过触摸方式交互尤为不便，尤其是在驾驶过程中对车载应用的操作可能导致安全隐患；而触摸操作屏幕，导致语音交互不可持续进行，造成注意力割裂，且用户交互操作的割裂和使用的不方便性，容易造成用户中途退出或者弃用；流程过长，比如找到收藏的小程序等需要经过小程序中心才可以进入，基于上述因素导致用户体验极差。

针对于现有技术的上述技术问题，本申请提供一种小程序的语音控制方法，应用于计算机技术中的语音技术，通过语音交互系统与小程序框架之间的交互，实现对目标小程序的语音控制，提高了交互过程的便利性，避免了需要触摸方式与小程序交互导致语音交互不可持续而进行造成注意力割裂，提高了用户使用小程序的体验，也为小程序在智能语音设备分发和使用量提供有力支撑。本申请可应用于有屏智能语音设备，当然也可用于无屏智能语音设备。当然，小程序仍然可以具有手动触摸进行调起、控制的功能。

本申请实施例应用于如图1所示的场景，在智能语音设备100配置有语音交互系统110和目标小程序120，其中语音交互系统110能够对语音采集设备采集的用户对目标小程序的语音控制指令进行语音识别和意图解析，获取意图信息，并将所述意图信息传输给目标小程序120，由目标小程序120接收所述意图信息，并将所述意图信息转换为目标小程序120的线程能够执行的控制指令，由目标小程序120的线程执行所述控制指令。通过上述的语音交互系统110与目标小程序120框架之间的交互，可实现对目标小程序的语音控制。

下面结合具体实施例和附图对本申请的小程序的语音控制过程进行详细介绍。

本申请一实施例提供一种小程序的语音控制方法，图2为本申请实施例提供的小程序的语音控制方法流程图。所述执行主体可以为智能语音设备，其上配置有语音交互系统和目标小程序；如图2所示，所述小程序的语音控制方法具体步骤如下：

S201、通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令。

在本实施例中，当用户需要对智能语音设备上的目标小程序进行控制时，可发出语音控制指令，例如用户希望控制智能音箱上的已调起的视频小程序A播放综艺节目B综艺节目B，则用户可以发出“我要看视频小程序A的综艺节目B”的语音控制指令，进而可由智能音箱上的语音采集设备如麦克风采集用户的语音控制指令。

可以理解的是，用户在发出包含视频小程序A及综艺节目B的语音控制指令时，可以为真实存在的某个视频小程序及真实存在的综艺节目，这里进行了隐形处理。

S202、由语音交互系统对所述语音控制指令进行语音识别和意图解析，获取意图信息，并将所述意图信息传输给目标小程序。

在本实施例中，由于智能语音设备的语音交互系统通常具备语音识别和意图解析功能，因此在语音采集设备采集到对目标小程序的语音控制指令后，通过语音交互系统的语音识别和意图解析功能进行语音识别和意图解析，其中语音识别是将采集到的语音控制指令转换为机器理解的文字，而意图解析是将机器文字进行分析处理，解读其中的关键信息，例如上述的语音控制指令，可解析出如下关键词“小程序”、“视频小程序A”、“综艺节目B”，从而可获取到用户的意图信息；而目标小程序中则不需要部署语音识别和意图解析功能，在语音交互系统获取到意图信息后，将意图信息传输给目标小程序即可，也即将意图信息传输给目标小程序的线程。

S203、由目标小程序接收所述意图信息，并将所述意图信息转换为目标小程序的线程能够执行的控制指令，由目标小程序的线程执行所述控制指令。

在本实施例中，由于不同的小程序在开发过程时可能采用不同的框架或开发语言，可能与语音交互系统的存在差异，语音交互系统得到的意图信息可能无法被小程序理解和执行。因此在智能语音设备中已调起该目标小程序时，目标小程序可接收到语音交互系统传输的意图信息后，将意图信息转换为目标小程序的线程能够执行的控制指令，进而由目标小程序的线程执行该控制指令，从而实现用户所需的意图或功能。例如，智能音箱上已调起了视频小程序A，在视频小程序A接收到用户希望播放综艺节目B相关的意图信息后，转换成视频小程序A能够执行的搜索资源库和播放指令，进而执行搜索资源库和播放指令，实现在视频小程序A中播放综艺节目B。

当然，若目标小程序当前未调起，则需要先由语音交互系统对目标小程序进行调起后再由目标小程序进行上述的流程。

本实施例提供的小程序的语音控制方法，通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令；由语音交互系统对所述语音控制指令进行语音识别和意图解析，获取意图信息，并将所述意图信息传输给目标小程序；由目标小程序接收所述意图信息，并将所述意图信息转换为目标小程序的线程能够执行的控制指令，由目标小程序的线程执行所述控制指令。本实施例通过语音交互系统与目标小程序框架之间的交互，可实现对目标小程序的语音控制，提高了交互过程的便利性，避免了需要触摸方式与小程序交互导致语音交互不可持续而进行造成注意力割裂，提高了用户使用小程序的体验，也为小程序在智能语音设备分发和使用量提供有力支撑。

在上述任一实施例的基础上，S202中所述的语音交互系统在获取意图信息时，具体可包括：

由所述语音交互系统根据意图解析结果按照预设协议生成意图信息；

相应的，所述S203中所述的目标小程序在将所述意图信息转换为目标小程序的线程能够执行的控制指令时，具体可包括：

所述目标小程序根据所述意图信息确定预定转换规则，并按照所述预定转换规则将所述意图信息转换为目标小程序的线程能够执行的控制指令。

在本实施例中，语音交互系统在获取到意图解析结果后，可根据预设协议将意图解析结果转换为满足预设协议的意图信息，其中预设协议具体可包括协议头和协议内容部分，其中协议头具体可包括但不限于指令的命名空间、指令名、加密类型(若系统内嵌协议则无需进行加密传输)，而协议内容部分则可包括但不限于意图对应的操作信息以及目标小程序信息，其中操作信息可包括但不限于操作类型、扩展信息，扩展信息可以是对操作类型的补充，目标小程序信息可包括目标小程序的小程序标识；例如用户意图为对于视频小程序A当前播放视频进行快进，则操作类型为“快进”，小程序标识为视频小程序A的标识，扩展信息为快进速度，如2倍快进速度。

进一步的，目标小程序在接收到语音交互系统传输的满足预设协议的意图信息后，将该意图信息转换成目标小程序能够执行的控制指令，例如目标小程序为SwanJS(Smart Web Application Native JavaScript)架构，SwanJS是某互联网企业的小程序框架的核心，则需要将满足预设协议的意图信息转换成SwanJS事件命令。可选的，在进行指令转换时，目标小程序根据意图信息中的协议头，获取与协议头对应的预设转换规则，其中预设转换规则中包括预设操作信息与预设控制指令之间的对应关系；目标小程序根据预设操作信息与预设控制指令之间的对应关系，将意图信息中的协议内容部分转换为目标小程序的线程能够执行的控制指令。

进一步的，首先根据协议头中的命名空间对应的转换规则，解析出实现约定好的指令空间，可根据指令空间、操作类型、加密类型、小程序标识等确定意图信息是否是针对目标小程序的，如果不是，则确定意图信息对于目标小程序无效，直接返回，从而不进行后续的语音控制过程，无需占用小程序线程，减小运行开销，如果是，则可继续后续的语音控制过程；而协议内容部分则是控制指令需要执行的部分，支持开发者应用程序的事件调起，可将协议内容部分根据准换规则转换成SwanJS框架下的控制指令，例如可预先设定目标小程序中所能执行的全部控制指令，以及各预设控制指令与预设操作类型之间的对应关系，然后确定协议内容部分与哪一控制指令相对应。

本实施例中考虑到小程序适配和实现的多样性，针对SwanJS只实现接口的通用功能，对于具体小程序具体场景的模式，开发者可以通过接口进行重写指令执行功能，例如对于快进的控制指令，SwanJS只提供接口实现快进的通用功能，而具体以怎样的方式快进可由开发者根据具体场景配置。

在上述任一实施例的基础上，如图3所示，在S203中所述由目标小程序的线程执行所述控制指令时，具体还可包括：

S301、由所述目标小程序判断所述控制指令是否需要与服务端进行交互；

S302、若所述控制指令需要与服务端进行交互，则所述目标小程序控制目标小程序的线程对于需要交互的相关内容进行本地暂存，并采用异步上传的方式对需要交互的相关内容上传到所述服务端。

在本实施例中，考虑到当智能语音设备处于弱网或断网环境时，某些需要与服务端进行交互的控制指令可无需立即与服务端进行交互，则通过目标小程序进行指令调度过程，对目标小程序中需要与服务端交互的相关内容在智能语音设备本地进行暂存，然后采用异步上传的方式上传到服务端，例如当智能语音设备处于弱网或断网环境时，控制指令是希望收藏视频，需要将收藏视频记录在服务端，以便于下次调起目标小程序或在其他设备上调起小程序时用户仍能够看到该收藏的视频，目标小程序则可将收藏视频的相关内容在本地暂存，然后异步上传，例如在网络环境比较好时上传服务端，或者采用静默空闲上传方式上传服务端，避免在用户交互过程中目标小程序频繁与服务端交互，保障用户交互过程中足够的带宽，提高用户体验。

当然，上述实施例中，在网络环境较好时收到需要与服务端进行交互的控制指令时也可采用同步上传的方式。此外，本实施例中可兼容异步和同步上传，可根据网络环境等具体场景进行选择。可选的，在获取到控制指令后，判断是否需要与服务端交互，当不需要交互时，直接在本地执行控制指令即可；当需要交互时，判断是否需要本地暂存，若不需要本地暂存则直接上传服务端，若需要本地暂存，则先本地暂存，再异步上传到服务端。

可选的，本实施例中，对于一些需要同步给服务端的数据，也可采用异步上传的方式，可确保同一用户在不同的设备上使用同一目标小程序时体验一致，例如在不同的智能音箱上的同一目标小程序上可查看到该用户的收藏夹、历史浏览记录、评论、点赞、下单购买记录等数据。

在上述任一实施例的基础上，如图4所示，在S201所述的通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令之前，还可包括：

S401、通过所述语音采集设备获取用户对目标小程序的语音调起指令；

S402、由所述语音交互系统对所述语音调起指令进行语音识别和意图解析，根据意图解析结果确定待调起的目标小程序，并对所述目标小程序进行调起。

在本实施例中，由于S201-S203是在智能语音设备中已调起该目标小程序后对目标小程序的语音控制，而在对目标小程序进行语音控制之前，还需先将目标小程序进行调起。具体的，调起过程也可通过语音控制的方式进行调起，也即通过语音采集设备获取用户对目标小程序的语音调起指令，例如，用户发出“启动视频小程序A”的语音调起指令，进而可通过语音交互系统进行语音识别和意图解析，确定用户的意图是希望对目标小程序“视频小程序A”进行调起，因此进一步的可对目标小程序进行调起。

在上述实施例的基础上，如图5所示，S402中所述的语音交互系统对所述目标小程序进行调起时，具体可包括：

S501、由所述语音交互系统判断所述智能语音设备中是否已存在所述目标小程序；

S502、若确定所述智能语音设备中不存在所述目标小程序，则从服务端获取所述目标小程序的小程序包，并对所述目标小程序进行调起；或者

S503、若确定所述智能语音设备中已存在所述目标小程序，则直接对所述目标小程序进行调起。

在本实施例中，如果之前使用过目标小程序、且目标小程序仍缓存在智能语音设备中，或者之前未使用过目标小程序、但预先对目标小程序进行了缓存，则不需要再从服务端获取目标小程序的小程序包，可直接对目标小程序进行调起；否则，智能语音设备中不存在目标小程序，则需要从服务端获取目标小程序的小程序包，然后再对目标小程序进行调起。

可选的，如图6所示，在S502所述的从服务端获取所述目标小程序的小程序包时，具体可包括：

S601、由所述语音交互系统判断所述智能语音设备是否支持与小程序的语音交互；

S602、若所述智能语音设备支持与小程序的语音交互，则从所述服务端获取所述目标小程序的全量小程序包；或者

S603、若所述智能语音设备不支持与小程序的语音交互，则从所述服务端获取所述目标小程序的部分小程序包，其中所述部分小程序包中不加载与语音交互相关模块。

在本实施例中，在语音交互系统从服务端获取目标小程序的小程序包SDK(软件开发工具包)时，可先判断智能语音设备进行是否具备支持小程序语音交互能力，如若智能语音设备支持与小程序的语音交互，则从服务端获取目标小程序的全量SDK小程序包；若智能语音设备不支持与小程序的语音交互，则可从服务端获取目标小程序的部分SDK小程序包，部分SDK小程序包是相对于全量SDK小程序包而言的，其中不加载与语音交互相关模块，也即此时目标小程序不具备接收意图信息、将意图信息转换成目标小程序的线程能够执行的控制指令的能力，可减少小程序包体大小，减小加载过程的流量消耗，提高目标小程序的调起速度。

在上述任一实施例的基础上，如图7所示，所述根据意图解析结果确定待调起的目标小程序，包括：

S701、所述语音交互系统若确定所述意图解析结果中包括待调起的目标小程序以及用户请求的资源信息，则搜索所述目标小程序的资源库中是否存在所述资源信息对应的目标资源；

S702、若不存在，则获取其他能够提供所述目标资源的小程序，并推荐给用户，以作为备选的目标小程序。

在本实施例中，用户发出的对目标小程序的语音调起指令中具体可包括目标小程序名称和所请求的资源信息，例如在智能语音设备当前未调起视频小程序A的情况下，用户发出“我要看视频小程序A的综艺节目B”的语音指令时，此时该语音指令则可作为未语音调起指令，在语音识别和意图解析后，可确定待调起的目标小程序为视频小程序A，用户请求的资源为综艺节目B，此时可向服务端搜索视频小程序A的资源库是否存在该资源，若存在该资源，则对视频小程序A进行调起，包括直接调起或者获取小程序包后再调起；若视频小程序A的资源库不存在该资源，则可查询是否有其他的小程序的资源库中存在该资源，例如视频小程序C的资源库中存在该资源，可将视频小程序C推荐给用户，例如询问用户是否调起视频小程序C，或者直接将视频小程序C作为目标小程序进行调起。

此外，可选的，若用户在发出语音指令时只包括请求的资源，可根据请求的资源进行模糊搜索，确定目标小程序，例如用户发出“我要看综艺节目B”的语音指令，可以查找哪些小程序存在该资源，从而确定为目标小程序，进行调起。

在上述任一实施例的基础上，所述小程序的语音控制方法还可包括：

由所述语音交互系统定期从所述服务端获取预定数量的热门小程序的小程序包，并进行缓存。

在本实施例中，语音交互系统可定期访问服务端获取热门小程序相关信息，语音交互系统可根据热门小程序相关信息选择预定数量的热门小程序，从服务端获取该些热门小程序的小程序包进行缓存，以便于在用户需要调起某一热门小程序时可实现快速调起。当然，也可由服务端定期向语音交互系统推送热门小程序相关信息，进而由语音交互系统根据热门小程序相关信息选择预定数量的热门小程序。可选的，缓存热门小程序的数量可根据智能语音设备的存储空间确定；而选择那些热门小程序进行缓存可根据小程序的下载量、用户兴趣等因素进行确定。

上述各实施例提供的小程序的语音控制方法，通过语音交互系统与目标小程序框架之间的交互，可实现对目标小程序的语音控制；此外，在目标小程序未调起时，可通过语音控制实现对目标小程序的调起，也提高了调起小程序的便利性，简化了通过触摸方式查找、打开小程序的操作过程，提高了用户使用小程序的体验，也为小程序在智能语音设备分发和使用量提供有力支撑。

本申请一实施例提供一种小程序的语音控制方法，应用于智能语音设备，所述智能语音设备上配置有语音交互系统和目标小程序，所述方法包括：

在上述实施例的基础上，其中，所述意图信息为所述语音交互系统根据意图解析结果按照预设协议生成的意图信息；

所述目标小程序将所述意图信息转换为目标小程序的线程能够执行的控制指令，包括：

在上述实施例的基础上，所述预设协议中包括协议头和协议内容，其中所述协议内容中包括与意图对应的操作信息和目标小程序信息；

所述目标小程序根据所述意图信息确定预定转换规则，并按照所述预定转换规则将所述意图信息转换为目标小程序的线程能够执行的控制指令，包括：

所述目标小程序根据所述意图信息中的协议头，获取与所述协议头对应的预设转换规则，其中所述预设转换规则中包括预设操作信息与预设控制指令之间的对应关系；

所述目标小程序根据所述预设操作信息与预设控制指令之间的对应关系，将所述意图信息中的协议内容部分转换为目标小程序的线程能够执行的控制指令。

在上述实施例的基础上，所述由目标小程序的线程执行所述控制指令，包括：

若所述目标小程序确定所述控制指令需要与服务端进行交互，则所述目标小程序控制目标小程序的线程对于需要交互的相关内容进行本地暂存，并采用异步上传的方式对需要交互的相关内容上传到所述服务端。

在上述实施例的基础上，在所述目标小程序接收所述语音交互系统传输的意图信息之前，还包括：

所述目标小程序由所述语音交互系统根据用户发出的目标小程序的语音调起指令进行调起。

在上述实施例的基础上，所述智能语音设备为智能音箱。

本实施例提供的小程序的语音控制方法为上述实施例中智能语音设备的目标小程序执行的流程，其具体实现方式和技术效果参见上述实施例，此处不再赘述。

在上述实施例的基础上，所述获取意图信息，包括：

所述语音交互系统根据意图解析结果按照预设协议生成的意图信息，其中所述预设协议中包括协议头和协议内容，其中所述协议内容中包括与意图对应的操作信息和目标小程序信息。

在上述实施例的基础上，在所述语音交互系统获取用户发出的目标小程序的语音控制指令之前，还包括：

所述语音交互系统获取用户发出的对目标小程序的语音调起指令；

所述语音交互系统对所述语音调起指令进行语音识别和意图解析，根据意图解析结果确定待调起的目标小程序，并对所述目标小程序进行调起。

在上述实施例的基础上，所述对所述目标小程序进行调起，包括：

若所述语音交互系统确定所述智能语音设备中不存在所述目标小程序，则从服务端获取所述目标小程序的小程序包，并对所述目标小程序进行调起；或者

若所述语音交互系统确定所述智能语音设备中已存在所述目标小程序，则直接对所述目标小程序进行调起。

在上述实施例的基础上，所述从服务端获取所述目标小程序的小程序包，包括：

若所述语音交互系统确定所述智能语音设备支持与小程序的语音交互，则从所述服务端获取所述目标小程序的全量小程序包；或者

若所述语音交互系统确定所述智能语音设备不支持与小程序的语音交互，则从所述服务端获取所述目标小程序的部分小程序包，其中所述部分小程序包中不加载与语音交互相关模块。

在上述实施例的基础上，所述根据意图解析结果确定待调起的目标小程序，包括：

所述语音交互系统若确定所述意图解析结果中包括待调起的目标小程序以及用户请求的资源信息，则搜索所述目标小程序的资源库中是否存在所述资源信息对应的目标资源；

若不存在，则获取其他能够提供所述目标资源的小程序，并推荐给用户，以作为备选的目标小程序。

在上述实施例的基础上，所述方法还包括：

所述语音交互系统定期从所述服务端获取预定数量的热门小程序的小程序包，并进行缓存。

在上述实施例的基础上，所述智能语音设备为智能音箱。

本实施例提供的小程序的语音控制方法为上述实施例中智能语音设备的语音交互系统执行的流程，其具体实现方式和技术效果参见上述实施例，此处不再赘述。

本申请一实施例提供一种智能语音设备，图8为本申请实施例提供的智能语音设备的结构图。如图8所示，所述智能语音设备800其上配置有语音交互系统810和目标小程序820。

其中，语音交互系统810可包括：获取模块811和语音处理模块812；

获取模块811，用于通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令；

语音处理模块812，用于对所述语音控制指令进行语音识别和意图解析，获取意图信息，并将所述意图信息传输给目标小程序；

语音处理模块812具体可包括语音识别子模块和意图解析子模块。

其中，所述目标小程序820可包括：接收模块821、指令转换模块822和执行模块823；

接收模块821，用于接收所述意图信息；

指令转换模块822，用于将所述意图信息转换为目标小程序的线程能够执行的控制指令；

执行模块823，用于通过目标小程序的线程执行所述控制指令。

在上述任一实施例的基础上，所述语音处理模块812在获取意图信息时，用于：

根据意图解析结果按照预设协议生成意图信息；

所述指令转换模块822在将所述意图信息转换为目标小程序的线程能够执行的控制指令时，用于：

根据所述意图信息确定预定转换规则，并按照所述预定转换规则将所述意图信息转换为目标小程序的线程能够执行的控制指令。

在上述任一实施例的基础上，所述执行模块823在通过目标小程序的线程执行所述控制指令时，用于：

判断所述控制指令是否需要与服务端进行交互；

若所述控制指令需要与服务端进行交互，则控制目标小程序的线程对于需要交互的相关内容进行本地暂存，并采用异步上传的方式对需要交互的相关内容上传到所述服务端。

也即执行模块823具体可包括调度子模块和上传子模块。

在上述任一实施例的基础上，所述获取模块811在所述通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令之前，还用于：通过所述语音采集设备获取用户对目标小程序的语音调起指令；

所述语音交互系统810还包括小程序调起模块813，用于：

对所述语音调起指令进行语音识别和意图解析，根据意图解析结果确定待调起的目标小程序，并对所述目标小程序进行调起。

在上述任一实施例的基础上，所述小程序调起模813在对所述目标小程序进行调起时，用于：

判断所述智能语音设备中是否已存在所述目标小程序；

若确定所述智能语音设备中不存在所述目标小程序，则从服务端获取所述目标小程序的小程序包，并对所述目标小程序进行调起；或者

若确定所述智能语音设备中已存在所述目标小程序，则直接对所述目标小程序进行调起。

在上述任一实施例的基础上，所述小程序调起模块813在从服务端获取所述目标小程序的小程序包时，用于：

判断所述智能语音设备是否支持与小程序的语音交互；

若所述智能语音设备支持与小程序的语音交互，则从所述服务端获取所述目标小程序的全量小程序包；或者

若所述智能语音设备不支持与小程序的语音交互，则从所述服务端获取所述目标小程序的部分小程序包，其中所述部分小程序包中不加载与语音交互相关模块。

在上述任一实施例的基础上，所述小程序调起模块813在根据意图解析结果确定待调起的目标小程序时，用于：

若确定所述意图解析结果中包括待调起的目标小程序以及用户请求的资源信息，则搜索所述目标小程序的资源库中是否存在所述资源信息对应的目标资源；

在上述任一实施例的基础上，所述小程序调起模块813还用于：

定期从所述服务端获取预定数量的热门小程序的小程序包，并进行缓存。

本实施例提供的智能语音设备可以具体用于执行上述图所提供的方法实施例，具体功能此处不再提供的赘述。

本实施例提供的智能语音设备，通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令；由语音交互系统对所述语音控制指令进行语音识别和意图解析，获取意图信息，并将所述意图信息传输给目标小程序；由目标小程序接收所述意图信息，并将所述意图信息转换为目标小程序的线程能够执行的控制指令，由目标小程序的线程执行所述控制指令。本实施例通过语音交互系统与目标小程序框架之间的交互，可实现对目标小程序的语音控制，提高了交互过程的便利性，避免了需要触摸方式与小程序交互导致语音交互不可持续而进行造成注意力割裂，提高了用户使用小程序的体验，也为小程序在智能语音设备分发和使用量提供有力支撑。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的小程序的语音控制方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的小程序的语音控制方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的小程序的语音控制方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的小程序的语音控制方法对应的程序指令/模块(例如，附图8所示的各模块)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的小程序的语音控制方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据小程序的语音控制方法的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至小程序的语音控制方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

小程序的语音控制方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与小程序的语音控制方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令；由语音交互系统对所述语音控制指令进行语音识别和意图解析，获取意图信息，并将所述意图信息传输给目标小程序；由目标小程序接收所述意图信息，并将所述意图信息转换为目标小程序的线程能够执行的控制指令，由目标小程序的线程执行所述控制指令。本实施例通过语音交互系统与目标小程序框架之间的交互，可实现对目标小程序的语音控制，提高了交互过程的便利性，避免了需要触摸方式与小程序交互导致语音交互不可持续而进行造成注意力割裂，提高了用户使用小程序的体验，也为小程序在智能语音设备分发和使用量提供有力支撑。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

一种小程序的语音控制方法，应用于智能语音设备，所述智能语音设备上配置有语音交互系统和目标小程序，所述方法包括：

所述目标小程序接收所述语音交互系统传输的意图信息，其中所述意图信息为所述语音交互系统对用户发出的目标小程序的语音控制指令进行语音识别和意图解析后所得到的；

所述目标小程序将所述意图信息转换为目标小程序的线程能够执行的控制指令，由目标小程序的线程执行所述控制指令。
根据权利要求1所述的方法，其中，所述意图信息为所述语音交互系统根据意图解析结果按照预设协议生成的意图信息；

所述目标小程序将所述意图信息转换为目标小程序的线程能够执行的控制指令，包括：

所述目标小程序根据所述意图信息确定预定转换规则，并按照所述预定转换规则将所述意图信息转换为目标小程序的线程能够执行的控制指令。
根据权利要求2所述的方法，其中，所述预设协议中包括协议头和协议内容，其中所述协议内容中包括与意图对应的操作信息和目标小程序信息；

所述目标小程序根据所述意图信息确定预定转换规则，并按照所述预定转换规则将所述意图信息转换为目标小程序的线程能够执行的控制指令，包括：

所述目标小程序根据所述意图信息中的协议头，获取与所述协议头对应的预设转换规则，其中所述预设转换规则中包括预设操作信息与预设控制指令之间的对应关系；

所述目标小程序根据所述预设操作信息与预设控制指令之间的对应关系，将所述意图信息中的协议内容部分转换为目标小程序的线程能够执行的控制指令。
根据权利要求1-3任一项所述的方法，其中，所述由目标小程序的线程执行所述控制指令，包括：

若所述目标小程序确定所述控制指令需要与服务端进行交互，则所述目标小程序控制目标小程序的线程对于需要交互的相关内容进行本地暂存，并采用异步上传的方式对需要交互的相关内容上传到所述服务端。
根据权利要求1-4任一项所述的方法，在所述目标小程序接收所述语音交互系统传输的意图信息之前，还包括：

所述目标小程序由所述语音交互系统根据用户发出的目标小程序的语音调起指令进行调起。
根据权利要求1-5任一项所述的方法，其中，所述智能语音设备为智能音箱。
一种小程序的语音控制方法，应用于智能语音设备，所述智能语音设备上配置有语音交互系统和目标小程序，所述方法包括：

所述语音交互系统获取用户发出的目标小程序的语音控制指令；

所述语音交互系统对所述语音控制指令进行语音识别和意图解析，获取意图信息；

所述语音交互系统将所述意图信息传输给所述目标小程序，以由所述目标小程序将所述意图信息转换为目标小程序的线程能够执行的控制指令并执行。
根据权利要求7所述的方法，其中，所述获取意图信息，包括：

所述语音交互系统根据意图解析结果按照预设协议生成的意图信息，其中所述预设协议中包括协议头和协议内容，其中所述协议内容中包括与意图对应的操作信息和目标小程序信息。
根据权利要求7或8所述的方法，在所述语音交互系统获取用户发出的目标小程序的语音控制指令之前，还包括：

所述语音交互系统获取用户发出的对目标小程序的语音调起指令；

所述语音交互系统对所述语音调起指令进行语音识别和意图解析，根据意图解析结果确定待调起的目标小程序，并对所述目标小程序进行调起。
根据权利要求9所述的方法，其中，所述对所述目标小程序进行调起，包括：

若所述语音交互系统确定所述智能语音设备中不存在所述目标小程序，则从服务端获取所述目标小程序的小程序包，并对所述目标小程序进行调起；或者

若所述语音交互系统确定所述智能语音设备中已存在所述目标小程序，则直接对所述目标小程序进行调起。
根据权利要求10所述的方法，其中，所述从服务端获取所述目标小程序的小程序包，包括：

若所述语音交互系统确定所述智能语音设备支持与小程序的语音交互，则从所述服务端获取所述目标小程序的全量小程序包；或者

若所述语音交互系统确定所述智能语音设备不支持与小程序的语音交互，则从所述服务端获取所述目标小程序的部分小程序包，其中所述部分小程序包中不加载与语音交互相关模块。
根据权利要求9-11任一项所述的方法，其中，所述根据意图解析结果确定待调起的目标小程序，包括：

所述语音交互系统若确定所述意图解析结果中包括待调起的目标小程序以及用户请求的资源信息，则搜索所述目标小程序的资源库中是否存在所述资源信息对应的目标资源；

若不存在，则获取其他能够提供所述目标资源的小程序，并推荐给用户，以作为备选的目标小程序。
根据权利要求10-12任一项所述的方法，还包括：

所述语音交互系统定期从所述服务端获取预定数量的热门小程序的小程序包，并进行缓存。
根据权利要求7-13任一项所述的方法，其中，所述智能语音设备为智能音箱。
一种小程序的语音控制方法，应用于智能语音设备，所述智能语音设备上配置有语音交互系统和目标小程序，所述方法包括：

通过语音采集设备获取用户对目标小程序的语音控制指令；

由所述语音交互系统对所述语音控制指令进行语音识别和意图解析，获取意图信息，并将所述意图信息传输给所述目标小程序；

由所述目标小程序接收所述意图信息，并将所述意图信息转换为目标小程序的线程能够执行的控制指令，由目标小程序的线程执行所述控制指令。
根据权利要求15所述的方法，其中，在所述通过语音采集设备获取用户对目标小程序的语音控制指令之前，还包括：

通过语音采集设备获取用户对目标小程序的语音调起指令；

由所述语音交互系统对所述语音调起指令进行语音识别和意图解析，根据意图解析结果确定待调起的目标小程序，并对所述目标小程序进行调起。
一种智能语音设备，其上配置有语音交互系统和目标小程序；其中语音交互系统包括：

获取模块，用于通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令；

语音处理模块，用于对所述语音控制指令进行语音识别和意图解析，获取意图信息，并将所述意图信息传输给目标小程序；

所述目标小程序包括：

接收模块，用于接收所述意图信息；

指令转换模块，用于将所述意图信息转换为目标小程序的线程能够执行的控制指令；

执行模块，用于通过目标小程序的线程执行所述控制指令。
根据权利要求17所述的设备，其中，所述语音处理模块在获取意图信息时，用于：

根据意图解析结果按照预设协议生成意图信息；

所述指令转换模块在将所述意图信息转换为目标小程序的线程能够执行的控制指令时，用于：

根据所述意图信息确定预定转换规则，并按照所述预定转换规则将所述意图信息转换为目标小程序的线程能够执行的控制指令。
根据权利要求17或18所述的设备，其中，所述执行模块在通过目标小程序的线程执行所述控制指令时，用于：

判断所述控制指令是否需要与服务端进行交互；

若所述控制指令需要与服务端进行交互，则控制目标小程序的线程对于需要交互的相关内容进行本地暂存，并采用异步上传的方式对需要交互的相关内容上传到所述服务端。
根据权利要求17-19任一项所述的设备，其中，所述获取模块在所述通过语音采集设备获取用户对智能语音设备中的目标小程序的语音控制指令之前，还用于：通过所述语音采集设备获取用户对目标小程序的语音调起指令；

所述语音交互系统还包括小程序调起模块，用于

对所述语音调起指令进行语音识别和意图解析，根据意图解析结果确定待调起的目标小程序，并对所述目标小程序进行调起。
根据权利要求20所述的设备，其中，所述小程序调起模块在对所述目标小程序进行调起时，用于：

判断所述智能语音设备中是否已存在所述目标小程序；

若确定所述智能语音设备中不存在所述目标小程序，则从服务端获取所述目标小程序的小程序包，并对所述目标小程序进行调起；或者

若确定所述智能语音设备中已存在所述目标小程序，则直接对所述目标小程序进行调起。
根据权利要求21所述的设备，其中，所述小程序调起模块在从服务端获取所述目标小程序的小程序包时，用于：

判断所述智能语音设备是否支持与小程序的语音交互；

若所述智能语音设备支持与小程序的语音交互，则从所述服务端获取所述目标小程序的全量小程序包；或者

若所述智能语音设备不支持与小程序的语音交互，则从所述服务端获取所述目标小程序的部分小程序包，其中所述部分小程序包中不加载与语音交互相关模块。
根据权利要求20-22任一项所述的设备，其中，所述小程序调起模块在根据意图解析结果确定待调起的目标小程序时，用于：

若确定所述意图解析结果中包括待调起的目标小程序以及用户请求的资源信息，则搜索所述目标小程序的资源库中是否存在所述资源信息对应的目标资源；

若不存在，则获取其他能够提供所述目标资源的小程序，并推荐给用户，以作为备选的目标小程序。
根据权利要求20-23任一项所述的设备，其中，所述小程序调起模块还用于：

定期从所述服务端获取预定数量的热门小程序的小程序包，并进行缓存。
一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-16中任一项所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-16中任一项所述的方法。
一种计算机程序，包括程序代码，当计算机运行所述计算机程序时，所述程序代码执行如权利要求1-16中任一项所述的方法。