WO2020042077A1

WO2020042077A1 - 语音识别方法、装置、拍摄系统和计算机可读存储介质

Info

Publication number: WO2020042077A1
Application number: PCT/CN2018/103219
Authority: WO
Inventors: 赵文泉
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2020-03-05
Also published as: US20210183388A1; CN110770820A

Abstract

本发明公开了一种语音识别方法、装置、拍摄系统和计算机可读存储介质，方法包括：获取用户输入的语音指令，语音指令用于对终端设备进行语音控制；确定终端设备的工作状态；根据工作状态确定一与工作状态相对应的目标语音识别模型；利用目标语音识别模型对语音指令进行识别。本发明公开的技术方案，通过确定终端设备的工作状态，并根据工作状态确定一与工作状态相对应的目标语音识别模型，并利用目标语音识别模型对语音指令进行识别，实现了可以根据终端设备的不同工作状态采用不同的语音识别模型，这样不仅降低了语音识别模型训练的复杂程度，并且也提高了终端设备的语音识别效率和准确率，有助于终端设备的智能化发展。

Description

语音识别方法、装置、拍摄系统和计算机可读存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音识别方法、装置、拍摄系统和计算机可读存储介质。

背景技术

语音作为人际交互最自然的方式，同样适用于人机交互。目前，市场上人机交互的终端设备大多具有图形化操作界面，需要使用者紧盯界面，并需要用手进行操作控制。这样增加了使用者的操作复杂度，因此，为了便于使用者操作，能够识别语音的终端设备应运而生，此时，终端设备可以识别使用者发出的语音指令，并根据所识别出的语音指令执行相应的动作。

现有技术中，大部分的终端设备全局采用单一的语音识别模型，不仅增加了语音识别模型训练的复杂程度，并且也降低了终端设备的语音识别效率，不利于终端设备的智能化发展。

发明内容

本发明提供了一种语音识别方法、装置、拍摄系统和计算机可读存储介质，用于解决现有技术中存在的全局采用单一的语音识别模型，不仅增加了语音识别模型训练的复杂程度，并且也降低了终端设备的语音识别效率，不利于终端设备智能化发展的问题。

本发明的第一方面是为了提供一种语音识别方法，包括：

获取用户输入的语音指令，所述语音指令用于对终端设备进行语音控制；

确定所述终端设备的工作状态；

根据所述工作状态确定一与所述工作状态相对应的目标语音识别模型；

利用所述目标语音识别模型对所述语音指令进行识别。

本发明的第二方面是为了提供一种语音识别装置，包括：

存储器，用于存储计算机程序；

处理器，用于运行所述存储器中存储的计算机程序以实现：获取用户输入的语音指令，所述语音指令用于对终端设备进行语音控制；确定所述终端设备的工作状态；根据所述工作状态确定一与所述工作状态相对应的目标语音识别模型；利用所述目标语音识别模型对所述语音指令进行识别。

本发明的第三方面是为了提供一种语音识别装置，包括：

获取模块，用于获取用户输入的语音指令，所述语音指令用于对终端设备进行语音控制；

确定模块，用于确定所述终端设备的工作状态；

处理模块，用于根据所述工作状态确定一与所述工作状态相对应的目标语音识别模型；

识别模块，用于利用所述目标语音识别模型对所述语音指令进行识别。

本发明的第四方面是为了提供一种拍摄系统，包括：

拍摄装置；

语音识别装置，与所述拍摄装置通信连接，所述语音识别装置包括：

存储器，用于存储计算机程序；

本发明的第五方面是为了提供一种计算机可读存储介质，该计算机可读存储介质中存储有程序指令，所述程序指令用于实现上述第一方面所述的语音识别方法。

本发明提供的语音识别方法、装置、拍摄系统和计算机可读存储介质，通过确定终端设备的工作状态，根据工作状态确定一与工作状态相对应的目标语音识别模型，并利用目标语音识别模型对语音指令进行识别，实现了可以根据终端设备的不同工作状态采用不同的语音识别模型，这样不仅降低了语音识别模型训练的复杂程度，同时也提高了终端设备的语音识别效率和准确率，有助于终端设备的智能化发展，从而提高了该方法的实用性。

附图说明

图1为本发明实施例提供的一种语音识别方法的流程示意图；

图2为本发明实施例提供的利用所述目标语音识别模型对所述语音指令进行识别的流程示意图；

图3为本发明实施例提供的利用所述目标语音识别模型对所述关键词进行识别的流程示意图；

图4为本发明实施例提供的根据每个标准关键词相对于所述关键词的概率信息对所述关键词进行识别处理的流程示意图；

图5为本发明实施例提供的根据所述概率信息和相对概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词的流程示意图；

图6为本发明实施例提供的确定所述终端设备的工作状态的流程示意图；

图7为本发明应用实施例提供的一种语音识别方法的流程示意图；

图8为本发明实施例提供的一种语音识别装置的结构示意图一；

图9为本发明实施例提供的一种语音识别装置的结构示意图二。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

下面结合附图，对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

图1为本发明实施例提供的一种语音识别方法的流程示意图，图6为本发明实施例提供的确定终端设备的工作状态的流程示意图；参考附图1、6可知，本实施例提供了一种语音识别方法，该语音识别方法可以快速、准确地对语音进行识别，具体的，该方法包括：

S101：获取用户输入的语音指令，语音指令用于对终端设备进行语音控制；

其中，终端设备可以为智能手机、车载终端、拍摄装置和穿戴式设备(手表或者手环)中的一种或多种；所获取的语音指令可以对上述的终端设备进行语音控制。

S102：确定终端设备的工作状态；

其中，终端设备在具体应用时可以具有不同的工作状态，例如：当终端设备为智能手机时，智能手机的工作状态可以包括以下至少之一：待机状态、通话状态等，当终端设备为车载终端时，车载终端的工作状态可以包括以下至少之一：音乐播放状态、导航状态、图像显示状态等；当终端设备为拍摄装置时，拍摄装置的工作状态包括以下至少之一：待机状态、相机工作状态、摄像工作状态等等。进一步的，不同的工作状态下可以具有不同的情景模式，例如：当终端设备为智能手机时，且智能手机处于待机状态下，可以具有：蓝牙连接模式、WiFi连接模式、飞行模式等等；当终端设备为拍摄装置，且拍摄装置处于摄像工作状态时，可以具有：延时拍摄模式、慢动作拍摄模式、正常拍摄模式等等。

因此，为了提高对终端设备语音控制的精确度和识别效率，可以确定终端设备的工作状态，其中，本实施例对于工作状态的具体确定方式不做限定，本领域技术人员可以根据具体的设计需求进行设置，例如：每个终端设备的不同工作状态可以对应有不同范围的电压信息和电流信息，进而可以获取终端设备的电压信息和/或电流信息，根据电压信息和/或电流信息来确定终端设备的工作状态。当然的，本领域技术人员还可以采用其他的方式来确定终端设备的工作状态，只要能够保证工作状态确定的准确性即可，在此不再赘述。

为了提高对工作状态确定的效率和准确性，较为优选的，在终端设备中可以设置有状态机，该状态机中存储有与终端设备的工作状态相对应的状态数据；此时，确定终端设备的工作状态可以包括：

S1021：获取状态机中存储的状态数据；

具体的，可以向状态机发送查询指示，以使得状态机根据查询指示确定与当前工作状态相对应的状态数据，从而可以获取到状态数据。

S1022：根据状态数据确定终端设备的工作状态。

其中，状态机中所存储的状态数据与终端设备的当前工作状态相对应，并且，不同的状态数据与不同的工作状态相对应，因此，在获取到状态数据之后，可以根据状态数据确定终端设备的工作状态；举例来说：在终端设备为拍摄装置，且所获取的状态数据为01时，根据该状态数据01可以确定终端设备的工作状态为待机状态；在所获取的状态数据为02时，根据该状态数据02可以确定终端设备的工作状态为相机工作状态等等。

S103：根据工作状态确定一与工作状态相对应的目标语音识别模型；

其中，终端设备上的每一个工作状态均可以对应有一个语音识别模型，而每个语音识别模型中存在有不同的识别数据库；举例来说：当终端设备为智能手机，且智能手机的工作状态为通话状态时，此时工作状态所对应的目标语音识别模型中的识别数据库可以包括以下识别关键词：保持通话、挂断通话、静音、免提等等；当智能手机的工作状态为待机状态时，此时工作状态所对应的目标语音识别模型中的识别数据库可以包括以下识别关键词：拨打电话、播放音乐、查找、搜索等等；而当终端设备为拍摄装置，且拍摄装置的工作状态为摄像状态时，此时工作状态所对应的目标语音识别模型中的识别数据库可以包括以下识别关键词：停止摄像、高亮等等；当终端设备为拍摄装置，且拍摄装置的工作状态为拍照状态时，此时工作状态所对应的目标语音识别模型中的识别数据库可以包括以下识别关键词：开始录像、关机、拍照等等。

因此，在确定工作状态之后，可以根据工作状态确定相对应的目标语音识别模型，该语音识别模型用于对在相应工作状态下的终端设备进行语音识别。

S104：利用目标语音识别模型对语音指令进行识别。

在确定目标语音识别模型之后，可以利用目标语音识别模型对用户输入的语音指令进行识别，从而提高了语音识别的准确率和效率。

本实施例提供的语音识别方法，通过确定终端设备的工作状态，根据工作状态确定一与工作状态相对应的目标语音识别模型，并利用目标语音识别模型对语音指令进行识别，实现了可以根据终端设备的不同工作状态采用不同的语音识别模型，这样不仅降低了语音识别模型训练的复杂程度，同时也提高了终端设备的语音识别效率和准确率，有助于终端设备的智能化发展，进而提高了该方法的实用性。

图2为本发明实施例提供的利用目标语音识别模型对语音指令进行识别的流程示意图；在上述实施例的基础上，继续参考附图2可知，本实施例对于利用目标语音识别模型对语音指令进行识别的具体实现方式不做限定，本领域技术人员可以根据具体的设计需求进行设置，较为优选的，本实施例中的利用目标语音识别模型对语音指令进行识别可以包括：

S1041：对语音指令进行特征提取处理，获取与语音指令相对应的关键词；

举例来说，在用户输入的语音指令为“请帮我播放歌曲”，此时对语音指令进行特征提取处理，经过处理后，可以获取到与语音指令相对应的关键词可以为“播放、歌曲”；再例如，用户输入的语音指令为“请帮我打开免提”，此时对语音指令进行特征提取处理，经过处理后，可以获取到与语音指令相对应的关键词可以为“打开、免提”等等。

S1042：利用目标语音识别模型对关键词进行识别。

由于与语音指令相对应的关键词完全表示出语音指令的含义与意图，因此，在获取到与语音指令相对应的关键词之后，可以利用目标语音识别模型对关键词进行识别，从而可以提高对语音指令进行识别的效率和准确率。

图3为本发明实施例提供的利用目标语音识别模型对关键词进行识别的流程示意图；在上述实施例的基础上，继续参考附图3可知，本实施例对于对关键词进行识别过程而言，一种可实现的方式为：利用目标语音识别模型对关键词进行识别可以包括：

S10421：获取目标语音识别模型中每个标准关键词相对于关键词的概率信息；

其中，目标语音识别模型中可以包括一个或多个标准关键词，而标准关键词相对于关键词的概率信息用于标识关键词与标准关键词的相似程度，因此，可以基于每个标准关键词与关键词的相似程度来确定每个标准关键词相对于关键词的概率信息。

举例来说，目标语音识别模型中包括：第一标准关键词、第二标准关键词和第三标准关键词，通过目标语音识别模型对关键词进行分析处理，可以获取到上述第一标准关键词相对于关键词的相似程度为S1，根据该相似程度S1可以获取到对应的概率信息为P1，第二标准关键词相对于关键词的相似程度为S2，根据该相似程度S2可以获取到对应的概率信息为P2，第三标准关键词相对于关键词的相似程度为S3，根据该相似程度S3可以获取到对应的概率信息为P3，其中，P1+P2+P3＝1，并且，P1>P2>P3，此时则可以说明：第一标准关键词与关键词的相似程度较高，第三标准关键词与关键词的相似程度较低。

S10422：根据每个标准关键词相对于关键词的概率信息对关键词进行识别处理。

其中，对于关键词的具体识别处理过程，一种可实现的方式为：根据每个标准关键词相对于关键词的概率信息对关键词进行识别处理可以包括：

S104221：根据每个标准关键词相对于关键词的概率信息在多个标准关键词中确定一与关键词相对应的目标关键词。

接上述举例说明，在第一标准关键词相对于关键词的概率信息为P1，第二标准关键词相对于关键词的概率信息为P2，第三标准关键词相对于关键词的概率信息为P3，并且，P1>P2>P3，此时，则可以将概率信息的大小关系来确定目标关键词。

较为优选的，根据每个标准关键词相对于关键词的概率信息在多个标准关键词中确定一与关键词相对应的目标关键词可以包括：

在概率信息大于预设的概率阈值时，将概率信息相对应的标准关键词确定为目标关键词。

其中，概率阈值为预先设置的，本领域技术人员可以根据具体的设计需求进行设置，例如，概率阈值可以为90％、95％或者98％等等，在获取到每个标准关键词相对于关键词的概率信息之后，可以将概率信息与概率阈值进行分析比较，当比较结果为某一标准关键词相对于关键词的概率信息大于预设的概率阈值时，则说明该标准关键词与语音指令的关键词的相似度较高，此时，可以将该概率信息所对应的标准关键词确定为目标关键词。

接上述举例说明，目标语音识别模型中的第一标准关键词相对于关键词的概率信息为0.93，第二标准关键词相对于关键词的概率信息为0.02，第三标准关键词相对于关键词的概率信息为0.05，此时，将上述三个概率信息与概率阈值进行比较可知，第一标准关键词相对于关键词的概率信息为0.93大于概率阈值0.9，则说明第一标准关键词与语音指令的关键词的相似度较高，进而则可以确定第一标准关键词为目标关键词。

图4为本发明实施例提供的根据每个标准关键词相对于关键词的概率信息对关键词进行识别处理的流程示意图，在上述实施例的基础上，继续参考附图4可知，对于关键词的具体识别处理过程而言，另一种可实现的方式为：根据每个标准关键词相对于关键词的概率信息对关键词进行识别处理可以包括：

S201：根据每个标准关键词相对于关键词的概率信息确定标准关键词与其他标准关键词之间的相对概率信息；

其中，该相对概率信息用于标识不同标准关键词相对于同一个关键词的概率信息的近似程度，具体的，相对概率信息可以为两个标准关键词相对于关键词的两个概率信息的差值与其中一个标准关键词的概率信息的比值，也即，相对概率信息可以为：(第一概率信息-第二概率信息)/第一概率信息，或者，相对概率信息可以为：(第一概率信息-第二概率信息)/第二概率信息，并且该相对概率信息大于或等于0，这里相对概率信息只是举例，可以是其它的方法得到的，例如两个概率信息的差值或者两个概率信息的比值等等。

接上述举例说明，第一标准关键词相对于关键词的概率信息为P1，第二标准关键词相对于关键词的概率信息为P2，第三标准关键词相对于关键词的概率信息为P3，此时，可以获取第一标准关键词与第二标准关键词之间的相对概率信息可以为(P1-P2)/P1、(P2-P1)/P1、(P1-P2)/P2或者(P2-P1)/P2，第一标准关键词与第三标准关键词之间的相对概率信息可以为(P1-P3)/P1、(P1-P3)/P3、(P3-P1)/P1或者(P3-P1)/P3，而第二标准关键词与第三标准关键词之间的相对概率信息可以为(P2-P3)/P2、(P3-P2)/P2、(P2-P3)/P3或者(P3-P2)/P3。

S202：根据概率信息和相对概率信息在多个标准关键词中确定一与关键词相对应的目标关键词。

在获取到概率信息和相对概率信息之后，可以对概率信息和相对概率信息进行分析处理，以确定一个与关键词相对应的目标关键词，具体的，一种可实现的方式为：根据概率信息和相对概率信息在多个标准关键词中确定一与关键词相对应的目标关键词可以包括：

S2021：在概率信息大于预设的概率阈值，且相对概率信息大于或等于相对概率阈值时，则将概率信息和相对概率信息相对应的标准关键词确定为目标关键词。

其中，概率阈值和相对概率阈值为预先设置的，本领域技术人员可以根据具体的设计需求进行设置，例如，概率阈值可以为0.6、0.55或者0.5等等，相对应的，相对概率阈值可以为0.1、0.05、0.01或者0.15等等，在获取概率信息和相对概率信息之后，可以将概率信息与预先设置的概率阈值进行分析比较，同时，将相对概率信息与相对概率阈值进行分析比较，当比较结果为某一标准关键词相对于关键词的概率信息大于预设的概率阈值，且相对概率信息大于或等于相对概率阈值时，则说明该标准关键词与语音指令的关键词的相似度较高，此时，可以将该概率信息和相对概率信息相对应的标准关键词所对应的标准关键词确定为目标关键词。

继续参考附图5可知，可以理解的是，在根据概率信息和相对概率信息在多个标准关键词中确定一与关键词相对应的目标关键词时，该方法还可以包括：

S2022：在概率信息大于预设的概率阈值，且相对概率信息小于相对概率阈值时，则获取与相对概率信息相对应的第一标准关键词和第二标准关键词；

当对概率信息和相对概率信息的分析结果为某一标准关键词相对于关键词的概率信息大于预设的概率阈值，且相对概率信息小于相对概率阈值时，此时则说明，存在两个概率信息相近的标准关键词，这两个标准关键词可以为与相对概率信息相对应的第一标准关键词和第二标准关键词。

举例来说：目标语音识别模型中的第一标准关键词相对于关键词的概率信息为0.53，第二标准关键词相对于关键词的概率信息为0.46，第三标准关键词相对于关键词的概率信息为0.01，通过上述概率信息可以确定第一标准关键词与第二标准关键词之间的相对概率信息可以为0.132，第一标准关键词与第三标准关键词之间的相对概率信息可以为0.981，而第二标准关键词与第三标准关键词之间的相对概率信息可以为0.978，而后将上述的概率信息和相对概率信息分别与预设的概率阈值0.5和相对概率阈值0.15进行分析比较，对于第一标准关键词而言，概率信息0.53大于概率阈值0.5，相对概率信息0.132小于相对概率阈值0.15，此时，则说明相对概率信息0.132所对应的两个标准关键词(第一标准关键词和第二标准关键词)的概率信息较为接近，从而可以根据相对概率信息0.132来确定第一标准关键词和第二标准关键词。

S2023：按照预设的优先处理策略将第一标准关键词或者第二标准关键词确定为目标关键词。

在获取到第一标准关键词和第二标准关键词之后，可以基于预设的优先处理策略确定目标关键词，其中，优先处理策略可以为用户人为设置，具体可以基于应用场景的需求或者使用需求来确定第一标准关键词和第二标准关键词的优先级，因此，该目标关键词可以为第一标准关键词，或者，该目标关键词也可以为第二标准关键词。

通过上述方式来确定目标关键词，有效地保证了目标关键词确定的准确可靠性，进而提高了该方法使用的精确程度。

进一步的，在利用目标语音识别模型对语音指令进行识别之后，本实施例中的方法还包括：

S301：根据目标关键词控制终端设备执行相应操作。

在获取到目标关键词之后，可以根据目标关键词所对应的操作对终端设备进行控制，其中，可以控制终端设备在当前工作状态下执行操作，也可以控制终端设备由当前的工作状态切换至其他工作状态；举例来说：在终端设备为拍摄装置，且当前工作状态为拍照工作状态时，此时，假设目标关键词为“连拍”，则可以根据该目标关键词控制拍摄装置执行连续拍照操作；假设目标关键词为“摄像”，则可以根据该目标关键词控制拍摄装置由拍照工作状态切换至摄像工作状态，并在摄像工作状态下执行摄像操作。

具体的，目标语音识别模型中可以包括一个或多个与切换状态相关的状态关键词；进而，根据目标关键词控制终端设备执行相应操作可以包括：

S3011：在目标关键词为目标语音识别模型中的状态关键词时，则根据语音指令控制终端设备由当前的工作状态切换至于状态关键词相对应的工作状态。

举例来说，终端设备为拍摄装置，拍摄装置当前的工作状态为拍照工作状态，此时，目标语音识别模型中的状态关键词可以包括“摄像”，该状态关键词与拍摄装置中的摄像工作状态相对应，因此，在目标关键词为“摄像”时，可以根据该目标关键词控制终端设备由当前的拍照工作状态切换至摄像工作状态，并可以进一步根据目标关键词控制终端设备执行摄像操作。

本实施例中，在确定目标关键词之后，可以根据目标关键词控制终端设备执行相应操作，有效地提高了用户对终端设备进行控制的方便程度，进而提高了该方法的实用性。

具体应用时，参考附图7所示，本应用实施例提供了一种语音识别方法，为了便于说明，本应用实施例以拍摄装置作为终端设备为例进行说明，其中，该拍摄装置可以具有不同的工作状态，并且不同状态时对应有不同的语音识别模型，例如：拍摄装置处于第一工作状态时，语音识别模型可识别的语音指令有：A1(如拍照)、B1(如录像)、C1(如关机)等，此时，拍摄状态的语音识别功能所对应的语音识别模型为第一语音识别模型；拍摄装置处于第二工作状态时，语音识别模型可识别的语音指令有：A2(如停止)、B2(如高亮)等，此时，拍摄状态的语音识别功能所对应的语音识别模型为第二语音识别模型。依次类推，不同工作状态下，实际上要识别的语音指令词是不相同的，所需要的语音识别模型也不相同。

具体的，语音识别方法包括以下步骤：

a1：获取用户输入的语音指令；

a2：利用预设的预处理器对语音指令进行处理，例如：平滑、过滤或者去噪处理，以降低外接环境因素对语音指令的干扰和影响；

a3：对经过处理后的语音指令进行特征提取处理，获取与语音指令相对应的关键词；

a4：确定拍摄装置的工作状态；其中，此处的工作状态与拍摄装置的工作模式不同，举例来说：拍摄装置具有拍照模式、录像模式、人像模式等，在未开始执行动作时，上述的工作模式可以看作为一个工作状态，即未执行连续性动作的状态，在该工作状态下，拍摄装置可以识别“拍照”、“录像”、“关机”等语音指令。而当拍摄装置处于连续性动作的工作状态，如：相机处于慢动作录像、连续性拍照、4KP60录像等状态时，此时，相机可以识别的语音指令可以只包括“停止”、“标记某帧视频”等。例如：在拍摄装置处于摄像工作状态下，用户下达“拍照”指令，此时，则拍摄装置可以拒绝识别和执行。

a5：确定与工作状态相对应的目标语音识别模型；例如：当拍摄装置的工作状态为状态1时，所对应的目标语音识别模型为识别模型1；当拍摄装置的工作状态为状态2时，所对应的目标语音识别模型为识别模型2，依次类推，不同的识别模型对应有不同的标准关键词。

a6：在确定目标语音识别模型之后，利用目标语音识别模型对语音指令进行识别，确定出候选的标准关键词；举例来说，目标语音识别模型为识别模型1，该识别模型1可以识别4条语音指令，例如：“拍照”、“录像”、“关机”和“连拍”。那么，通过识别模型1对语音指令进行分析识别后，就可以获取到识别模型1中各个标准关键词所对应的概率值，例如：P(拍照)＝0.8，P(录像)＝0.05，P(关机)＝0.03，P(连拍)＝0.1，P(拒绝识别)＝0.02，从而确定出候选的标准关键词。

a7：在候选的标准关键词中确定一目标关键词，根据该目标关键词控制拍摄装置执行相应操作。

具体的，目标关键词可以为概率最大的P(拍照)＝0.8所对应的标准关键词，并将该标准关键词作为识别出的指令。当然，也可以选取其他概率的标准关键词作为目标关键词，举例来说：在标准关键词的概率信息分别为：P(拍照)＝0.5，P(录像)＝0.01，P(关机)＝0.02，P(连拍)＝0.02，P(拒绝识别)＝0.45时，由于P(拍照)与P(拒绝识别)的概率值较为接近，此时，可以根据预设的优先处理策略确定目标关键词，例如：“拒绝识别”的优先级要高于“拍摄”的优先级，此时，则可以确定目标关键词为“拒绝识别”。

在根据目标关键词控制拍摄装置执行相应操作时，可以包括控制拍摄状态改变工作状态，例如：在拍摄装置处于相机工作状态时，使用者下达“录像”指令，则拍摄装置由相机工作状态切换至摄像工作状态，并可以根据上述“录像”指令执行录像操作。

本应用实施例提供的语音识别方法，全局采用不同的语音识别模型，可以提高终端设备在不同状态下需求指令的识别率，并可以某些状态下针对特定词汇进行强化，举例来说，相机在录像状态下，设备需求只有“停止录像” 和高亮“Highlight”等，不同于其待机状态下的多种，如：开始录像，关机，拍照等等，并且，在相机处于待机状态下，不需要识别“停止录像”等指令。另外，该语音识别方法从逻辑角度来讲，减少了误触发到不必要的指令上去的可能性，终端设备的有些状态从逻辑上讲是不需要某些指令的，直接剔除可防止误触发到这些无用指令；从而有效地提高了识别效率和准确性，并降低了语音识别模型的训练难度，有效地保证了该方法的实用性，有利于市场的推广与应用。

图8为本发明实施例提供的一种语音识别装置的结构示意图一；参考附图8可知，本实施例提供了一种语音识别装置，该语音识别装置可以执行上述的语音识别方法，具体的，语音识别装置可以包括：

存储器301，用于存储计算机程序；

处理器302，用于运行存储器301中存储的计算机程序以实现：获取用户输入的语音指令，语音指令用于对终端设备进行语音控制；确定终端设备的工作状态；根据工作状态确定一与工作状态相对应的目标语音识别模型；利用目标语音识别模型对语音指令进行识别。

其中，终端设备可以包括：拍摄装置，拍摄装置的工作状态包括以下至少之一：待机状态，相机工作状态、摄像工作状态。

另外，终端设备中设置有状态机；在处理器302确定终端设备的工作状态时，处理器302被配置为：

获取状态机中存储的状态数据；

根据状态数据确定终端设备的工作状态。

进一步的，在处理器302利用目标语音识别模型对语音指令进行识别时，处理器302被配置为：

对语音指令进行特征提取处理，获取与语音指令相对应的关键词；

利用目标语音识别模型对关键词进行识别。

其中，目标语音识别模型中包括一个或多个标准关键词；进而，在处理器302利用目标语音识别模型对关键词进行识别时，处理器302被配置为：

获取目标语音识别模型中每个标准关键词相对于关键词的概率信息；

根据每个标准关键词相对于关键词的概率信息对关键词进行识别处理。

可选的，在处理器302根据每个标准关键词相对于关键词的概率信息对关键词进行识别处理时，处理器302被配置为：

根据每个标准关键词相对于关键词的概率信息在多个标准关键词中确定一与关键词相对应的目标关键词。

具体的，在处理器302根据每个标准关键词相对于关键词的概率信息在多个标准关键词中确定一与关键词相对应的目标关键词时，处理器302被配置为：

根据每个标准关键词相对于关键词的概率信息确定标准关键词与其他标准关键词之间的相对概率信息；

根据概率信息和相对概率信息在多个标准关键词中确定一与关键词相对应的目标关键词。

其中，一种可实现的方式为：在处理器302根据概率信息和相对概率信息在多个标准关键词中确定一与关键词相对应的目标关键词时，处理器302被配置为：

在概率信息大于预设的概率阈值，且相对概率信息大于或等于相对概率阈值时，则将概率信息和相对概率信息相对应的标准关键词确定为目标关键词。

另一种可实现的方式为，在处理器302根据概率信息和相对概率信息在多个标准关键词中确定一与关键词相对应的目标关键词时，处理器302被配置为：

在概率信息大于预设的概率阈值，且相对概率信息小于相对概率阈值时，则获取与相对概率信息相对应的第一标准关键词和第二标准关键词；

按照预设的优先处理策略将第一标准关键词或者第二标准关键词确定为目标关键词。

进一步的，处理器302还用于：

在利用目标语音识别模型对语音指令进行识别之后，根据目标关键词控制终端设备执行相应操作。

其中，目标语音识别模型中包括一个或多个与切换状态相关的状态关键词；进而，在处理器302根据目标关键词控制终端设备执行相应操作时，处理器302被配置为：

在目标关键词为目标语音识别模型中的状态关键词时，则根据语音指令控制终端设备由当前的工作状态切换至于状态关键词相对应的工作状态。

本实施例提供的语音识别装置能够用于执行图1-图7实施例所对应的方法，其具体执行方式和有益效果类似，在这里不再赘述。

图9为本发明实施例提供的一种语音识别装置的结构示意图二，参考附图9可知，本实施例提供了另一种语音识别装置，包括：

获取模块101，用于获取用户输入的语音指令，语音指令用于对终端设备进行语音控制；

确定模块102，用于确定终端设备的工作状态；

处理模块103，用于根据工作状态确定一与工作状态相对应的目标语音识别模型；

识别模块104，用于利用目标语音识别模型对语音指令进行识别。

本实施例提供的语音识别装置中的获取模块101、确定模块102、处理模块103以及识别模块104能够用于执行图1-图7实施例所对应的方法，其具体执行方式和有益效果类似，在这里不再赘述。

本实施例的又一方面提供了一种拍摄系统，包括：

拍摄装置；以及，

存储器，用于存储计算机程序；

本实施例提供的拍摄系统中的语音识别装置与图8所对应实施例中的语音识别装置中的具体实现原理与实现效果相同，具体可参考上述陈述内容，在这里不再赘述。

本实施例的再一方面提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序指令，程序指令用于实现图1-图7所对应的实施例中的语音识别方法。

以上各个实施例中的技术方案、技术特征在与本相冲突的情况下均可以单独，或者进行组合，只要未超出本领域技术人员的认知范围，均属于本申请保护范围内的等同实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的相关遥控装置和方法，可以通过其它的方式实现。例如，以上所描述的遥控装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，遥控装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得计算机处理器101(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种语音识别方法，其特征在于，包括：

获取用户输入的语音指令，所述语音指令用于对终端设备进行语音控制；

确定所述终端设备的工作状态；

根据所述工作状态确定一与所述工作状态相对应的目标语音识别模型；

利用所述目标语音识别模型对所述语音指令进行识别。
根据权利要求1所述的方法，其特征在于，利用所述目标语音识别模型对所述语音指令进行识别，包括：

对所述语音指令进行特征提取处理，获取与所述语音指令相对应的关键词；

利用所述目标语音识别模型对所述关键词进行识别。
根据权利要求2所述的方法，其特征在于，所述目标语音识别模型中包括一个或多个标准关键词；利用所述目标语音识别模型对所述关键词进行识别，包括：

获取所述目标语音识别模型中每个标准关键词相对于所述关键词的概率信息；

根据每个标准关键词相对于所述关键词的概率信息对所述关键词进行识别处理。
根据权利要求3所述的方法，其特征在于，根据每个标准关键词相对于所述关键词的概率信息对所述关键词进行识别处理，包括：

根据每个标准关键词相对于所述关键词的概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词。
根据权利要求4所述的方法，其特征在于，根据每个标准关键词相对于所述关键词的概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词，包括：

在所述概率信息大于预设的概率阈值时，将所述概率信息相对应的标准关键词确定为所述目标关键词。
根据权利要求3所述的方法，其特征在于，根据每个标准关键词相对于所述关键词的概率信息对所述关键词进行识别处理，包括：

根据每个标准关键词相对于所述关键词的概率信息确定所述标准关键词与其他标准关键词之间的相对概率信息；

根据所述概率信息和相对概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词。
根据权利要求6所述的方法，其特征在于，根据所述概率信息和相对概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词，包括：

在所述概率信息大于预设的概率阈值，且所述相对概率信息大于或等于相对概率阈值时，则将所述概率信息和相对概率信息相对应的标准关键词确定为所述目标关键词。
根据权利要求6所述的方法，其特征在于，根据所述概率信息和相对概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词，包括：

在所述概率信息大于预设的概率阈值，且所述相对概率信息小于相对概率阈值时，则获取与所述相对概率信息相对应的第一标准关键词和第二标准关键词；

按照预设的优先处理策略将所述第一标准关键词或者第二标准关键词确定为所述目标关键词。
根据权利要求4-8中任意一项所述的方法，其特征在于，在利用所述目标语音识别模型对所述语音指令进行识别之后，所述方法还包括：

根据所述目标关键词控制所述终端设备执行相应操作。
根据权利要求9所述的方法，其特征在于，所述目标语音识别模型中包括一个或多个与切换状态相关的状态关键词；根据所述目标关键词控制所述终端设备执行相应操作，包括：

在所述目标关键词为所述目标语音识别模型中的状态关键词时，则根据所述语音指令控制所述终端设备由当前的工作状态切换至于所述状态关键词相对应的工作状态。
根据权利要求1-8中任意一项所述的方法，其特征在于，所述终端设备中设置有状态机；确定所述终端设备的工作状态，包括：

获取所述状态机中存储的状态数据；

根据所述状态数据确定所述终端设备的工作状态。
根据权利要求1-8中任意一项所述的方法，其特征在于，所述终端设备包括：拍摄装置，所述拍摄装置的工作状态包括以下至少之一：待机状态、相机工作状态、摄像工作状态。
一种语音识别装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于运行所述存储器中存储的计算机程序以实现：获取用户输入的语音指令，所述语音指令用于对终端设备进行语音控制；确定所述终端设备的工作状态；根据所述工作状态确定一与所述工作状态相对应的目标语音识别模型；利用所述目标语音识别模型对所述语音指令进行识别。
根据权利要求13所述的装置，其特征在于，在所述处理器利用所述目标语音识别模型对所述语音指令进行识别时，所述处理器被配置为：

对所述语音指令进行特征提取处理，获取与所述语音指令相对应的关键词；

利用所述目标语音识别模型对所述关键词进行识别。
根据权利要求14所述的装置，其特征在于，所述目标语音识别模型中包括一个或多个标准关键词；在所述处理器利用所述目标语音识别模型对所述关键词进行识别时，所述处理器被配置为：

获取所述目标语音识别模型中每个标准关键词相对于所述关键词的概率信息；

根据每个标准关键词相对于所述关键词的概率信息对所述关键词进行识别处理。
根据权利要求15所述的装置，其特征在于，在所述处理器根据每个标准关键词相对于所述关键词的概率信息对所述关键词进行识别处理时，所述处理器被配置为：

根据每个标准关键词相对于所述关键词的概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词。
根据权利要求16所述的装置，其特征在于，在所述处理器根据每个标准关键词相对于所述关键词的概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词时，所述处理器被配置为：

在所述概率信息大于预设的概率阈值时，将所述概率信息相对应的标准关键词确定为所述目标关键词。
根据权利要求15所述的装置，其特征在于，在所述处理器根据每个标准关键词相对于所述关键词的概率信息对所述关键词进行识别处理时，所述处理器被配置为：

根据每个标准关键词相对于所述关键词的概率信息确定所述标准关键词与其他标准关键词之间的相对概率信息；

根据所述概率信息和相对概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词。
根据权利要求18所述的装置，其特征在于，在所述处理器根据所述概率信息和相对概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词时，所述处理器被配置为：

在所述概率信息大于预设的概率阈值，且所述相对概率信息大于或等于相对概率阈值时，则将所述概率信息和相对概率信息相对应的标准关键词确定为所述目标关键词。
根据权利要求18所述的装置，其特征在于，在所述处理器根据所述概率信息和相对概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词时，所述处理器被配置为：

在所述概率信息大于预设的概率阈值，且所述相对概率信息小于相对概率阈值时，则获取与所述相对概率信息相对应的第一标准关键词和第二标准关键词；

按照预设的优先处理策略将所述第一标准关键词或者第二标准关键词确定为所述目标关键词。
根据权利要求16-20中任意一项所述的装置，其特征在于，所述处理器，还用于：

在利用所述目标语音识别模型对所述语音指令进行识别之后，根据所述目标关键词控制所述终端设备执行相应操作。
根据权利要求21所述的装置，其特征在于，所述目标语音识别模型中包括一个或多个与切换状态相关的状态关键词；在所述处理器根据所述目标关键词控制所述终端设备执行相应操作时，所述处理器被配置为：

在所述目标关键词为所述目标语音识别模型中的状态关键词时，则根据所述语音指令控制所述终端设备由当前的工作状态切换至于所述状态关键词相对应的工作状态。
根据权利要求13-20中任意一项所述的装置，其特征在于，所述终端设备中设置有状态机；在所述处理器确定所述终端设备的工作状态时，所述处理器被配置为：

获取所述状态机中存储的状态数据；

根据所述状态数据确定所述终端设备的工作状态。
根据权利要求13-20中任意一项所述的装置，其特征在于，所述终端设备包括：拍摄装置，所述拍摄装置的工作状态包括以下至少之一：待机状态、相机工作状态、摄像工作状态。
一种拍摄系统，其特征在于，包括：

拍摄装置；

语音识别装置，与所述拍摄装置通信连接，所述语音识别装置包括：

存储器，用于存储计算机程序；

处理器，用于运行所述存储器中存储的计算机程序以实现：获取用户输入的语音指令，所述语音指令用于对终端设备进行语音控制；确定所述终端设备的工作状态；根据所述工作状态确定一与所述工作状态相对应的目标语音识别模型；利用所述目标语音识别模型对所述语音指令进行识别。
根据权利要求25所述的系统，其特征在于，在所述处理器利用所述目标语音识别模型对所述语音指令进行识别时，所述处理器被配置为：

对所述语音指令进行特征提取处理，获取与所述语音指令相对应的关键词；

利用所述目标语音识别模型对所述关键词进行识别。
根据权利要求26所述的系统，其特征在于，所述目标语音识别模型中包括一个或多个标准关键词；在所述处理器利用所述目标语音识别模型对所述关键词进行识别时，所述处理器被配置为：

获取所述目标语音识别模型中每个标准关键词相对于所述关键词的概率信息；

根据每个标准关键词相对于所述关键词的概率信息对所述关键词进行识别处理。
根据权利要求27所述的系统，其特征在于，在所述处理器根据每个标准关键词相对于所述关键词的概率信息对所述关键词进行识别处理时，所述处理器被配置为：

根据每个标准关键词相对于所述关键词的概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词。
根据权利要求28所述的系统，其特征在于，在所述处理器根据每个标准关键词相对于所述关键词的概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词时，所述处理器被配置为：

在所述概率信息大于预设的概率阈值时，将所述概率信息相对应的标准关键词确定为所述目标关键词。
根据权利要求27所述的系统，其特征在于，在所述处理器根据每个标准关键词相对于所述关键词的概率信息对所述关键词进行识别处理时，所述处理器被配置为：

根据每个标准关键词相对于所述关键词的概率信息确定所述标准关键词与其他标准关键词之间的相对概率信息；

根据所述概率信息和相对概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词。
根据权利要求30所述的系统，其特征在于，在所述处理器根据所述概率信息和相对概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词时，所述处理器被配置为：

在所述概率信息大于预设的概率阈值，且所述相对概率信息大于或等于相对概率阈值时，则将所述概率信息和相对概率信息相对应的标准关键词确定为所述目标关键词。
根据权利要求30所述的系统，其特征在于，在所述处理器根据所述概率信息和相对概率信息在多个标准关键词中确定一与所述关键词相对应的目标关键词时，所述处理器被配置为：

在所述概率信息大于预设的概率阈值，且所述相对概率信息小于相对概率阈值时，则获取与所述相对概率信息相对应的第一标准关键词和第二标准关键词；

按照预设的优先处理策略将所述第一标准关键词或者第二标准关键词确定为所述目标关键词。
根据权利要求28-32中任意一项所述的系统，其特征在于，所述处理器，还用于：

在利用所述目标语音识别模型对所述语音指令进行识别之后，根据所述目标关键词控制所述终端设备执行相应操作。
根据权利要求33所述的系统，其特征在于，所述目标语音识别模型中包括一个或多个与切换状态相关的状态关键词；在所述处理器根据所述目标关键词控制所述终端设备执行相应操作时，所述处理器被配置为：

在所述目标关键词为所述目标语音识别模型中的状态关键词时，则根据所述语音指令控制所述终端设备由当前的工作状态切换至于所述状态关键词相对应的工作状态。
根据权利要求25-32中任意一项所述的系统，其特征在于，所述终端设备中设置有状态机；在所述处理器确定所述终端设备的工作状态时，所述处理器被配置为：

获取所述状态机中存储的状态数据；

根据所述状态数据确定所述终端设备的工作状态。
根据权利要求25-32中任意一项所述的系统，其特征在于，所述终端设备包括：拍摄装置，所述拍摄装置的工作状态包括以下至少之一：待机状态、相机工作状态、摄像工作状态。
一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有程序指令，所述程序指令用于实现权利要求1-12中任意一项所述的语音识别方法。