WO2017166649A1

WO2017166649A1 - 语音信号处理方法及装置

Info

Publication number: WO2017166649A1
Application number: PCT/CN2016/096984
Authority: WO
Inventors: 王育军
Original assignee: 乐视控股（北京）有限公司; 乐视致新电子科技（天津）有限公司
Priority date: 2016-03-30
Filing date: 2016-08-26
Publication date: 2017-10-05
Also published as: CN105895090A

Abstract

一种语音信号处理方法及装置。语音信号处理方法包括：接收客户端发送的语音信号（101）；对语音信号进行语音识别，以获得文本数据（102）；对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果（103）；将初始解析结果中的实体词转换为拼音流，以获得中间解析结果（104）；将中间解析结果发送给客户端，以供客户端利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果（105）。

Description

语音信号处理方法及装置

本申请要求于2016年3月30日提交中国专利局、申请号为201610193074.0、发明名称为“语音信号处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音信号处理方法及装置。

背景技术

随着语音识别技术的发展，基于语音识别的应用越来越多，例如语音拨号、语音导航、语音播放控制、语音信息检索等。在基于语音识别的应用中，都需要对语音信号进行语义解析，提取语音信号所表达的用户意图，并转换成机器能够理解的结构化数据格式。

现有技术主要使用预设的语义解析模板与语音识别出的字符串进行匹配的方法来对语音信号进行语义解析。这种方法要求语义解析模板足够多，但实际上语义解析模板的数量是有限的，而语音信号的表达方式又是多种多样，所以经常出现一些无法精准匹配的情况，导致无法准确解析语音信号的语义。

发明内容

本发明提供一种语音信号处理方法及装置，用以对语音信号进行语义解析，提高语义解析的准确度。

本发明实施例提供一种语音信号处理方法，包括：

接收客户端发送的语音信号；

对所述语音信号进行语音识别，以获得文本数据；

对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果；

将所述初始解析结果中的实体词转换为拼音流，以获得中间解析结果；

将所述中间解析结果发送给所述客户端，以供所述客户端利用本地信息库对所述中间解析结果中的拼音流进行修正后获得最终解析结果。

本发明实施例提供另一种语音信号处理方法，包括：

向服务端发送语音信号，以供所述服务端对所述语音信号进行语义解析；

接收所述服务端返回的中间解析结果，所述中间解析结果是所述服务端将初始解析结果中的实体词转换为拼音流后获得的，所述中间解析结果包括所述初始解析结果中的固定句式和所述实体词转换成的拼音流；

利用本地信息库对所述中间解析结果中的拼音流进行修正，以获得最终解析结果。

本发明实施例提供一种语音信号处理装置，位于服务端实现，所述装置包括：

接收模块，用于接收客户端发送的语音信号；

语音识别模块，用于对所述语音信号进行语音识别，以获得文本数据；

语义解析模块，用于对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果；

转换模块，用于将所述初始解析结果中的实体词转换为拼音流，以获得中间解析结果；

发送模块，用于将所述中间解析结果发送给所述客户端，以供所述客户端利用本地信息库对所述中间解析结果中的拼音流进行修正后获得最终解析结果。

本发明实施例提供另一种语音信号处理装置，位于客户端实现，所述装置包括：

发送模块，用于向服务端发送语音信号，以供所述服务端对所述语音信号进行语义解析；

接收模块，用于接收所述服务端返回的中间解析结果，所述中间解析结果是所述服务端将初始解析结果中的实体词转换为拼音流后获得的，所述中间解析结果包括所述初始解析结果中的固定句式和所述实体词转换成的拼音流；

修正模块，用于利用本地信息库对所述中间解析结果中的拼音流进行修正，以获得最终解析结果。

本发明实施例还提供了一种非暂态计算机可读存储介质，其中，该非暂态计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行上述语音信号处理方法。

本发明实施例还提供了一种电子设备，包括：一个或多个处理器；以及，存储器；其中，所述存储器存储有可被所述一个或多个处理器执行的指令，所述指令被设置为用于执行上述语音信号处理方法。

本发明实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述语音信号处理方法。

本发明实施例提供的语音信号处理方法及装置，在服务端，采用固定句式语义解析方式对语音信号对应的文本数据进行语义解析，获得包括固定句式和实体词的初始解析结果，将初始解析结果中的实体词转换为拼音流，以获得中间解析结果，将中间解析结果发送给客户端，在客户端，利用本地信息库对接收到的中间解析结果中的拼音流进行修正，以获得最终解析结果。本发明实施例将服务端解析与客户端修正相结合，充分发挥客户端本地信息库对部分实体词在语义解析上的作用，对服务端无法准确解析的结果进行修正，提高了语义解析的准确度，同时有利于减少服务端存储的语义解析模板的数量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音信号处理方法的流程示意图；

图2为本发明另一实施例提供的语音信号处理方法的流程示意图；

图3为本发明又一实施例提供的语音信号处理装置的结构示意图；

图4为本发明又一实施例提供的语音信号处理装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在现有技术中，主要使用预设的语义解析模板与语音识别出的字符串进行匹配的方法来对语音信号进行语义解析。这种方法要求语义解析模板足够多，但实际上语义解析模板的数量是有限的，而语音信号的表达方式又是多种多样，所以经常出现一些无法精准匹配的情况，导致无法准确解析语音信号的语义。以语音拨号为例，可能有语音信号“请给张三拨打电话”对应的语义解析模板，但可能没有语音信号“请给李四打电话”的语义解析模板，所以“请给李四打电话”可能无法准备解析出语音信号“请给李四打电话”的语义。

针对上述问题，本发明实施例提供一种解决方案，主要原理是：在服务端，采用固定句式语义解析方式对语音信号对应的文本数据进行语义解析，获得包括固定句式和实体词的初始解析结果，实体词的不确定性较高，因此将初始解析结果中的实体词转换为拼音流，以获得中间解析结果，将中间解析结果发送给客户端，在客户端，利用本地信息库对接收到的中间解析结果中的拼音流进行修正，以获得最终解析结果。

本发明实施例将服务端解析与客户端修正相结合，充分发挥客户端本地信息库对部分实体词在语义解析上的作用，对服务端无法准确解析的结果进行修正，提高了语义解析的准确度，同时有利于减少服务端存储的语义解析模板的数量。

下面通过具体实施例对本发明技术方案进行详细说明。

图1为本发明一实施例提供的语音信号处理方法的流程示意图。如图1所示，该方法包括：

101、接收客户端发送的语音信号。

102、对语音信号进行语音识别，以获得文本数据。

103、对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果。

104、将初始解析结果中的实体词转换为拼音流，以获得中间解析结果。

105、将中间解析结果发送给所述客户端，以供客户端利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果。

本实施例提供一种语音信号处理方法，可由语音信号处理装置来执行，用以对语音信号进行语义解析，提高语义解析的准确度。

本实施例提供的方法适用于各种需要对语音信号进行语义解析的应用场景，例如语音拨号、语音导航、语音播放控制、语音信息检索等。其中，语音信号处理装置可位于各应用场景中的服务端实现。

具体的，在各应用场景中，客户端采集用户的语音信号，例如对用户的语音进行录制，从而获取用户的语音信号，然后将语音信号发送给服务端，具体来说是发送给服务端的语音信号处理装置。语音信号处理装置接收客户端发送的语音信号。

可选的，客户端发送语音信号之前，可以对语音信号进行模数转换、编码、压缩等处理。相应的，语音信号处理装置接收到语音信号之后，可以对语音信号经解压缩、解码等处理，并针对处理后的语音信号进行语义解析处理。

在获得语音信号之后，语音信号处理装置可以对语音信号进行语音识别，以获得文本数据。举例说明，假设用户输入的语音信号为“我要给张三打电话”，则可以将该语音信号识别为对应的文本数据。其中，对语音信号进行语音识别的具体方案可以参见现有技术，在此不做详述。

在获得语音信号对应的文本数据之后，语音信号处理装置可以对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果。本实施例中的固定句式语义解析不同于现有技术中的通用语义解析。其中，通用语义解析是指利用预设的通用语义解析模板与文本数据进行匹配以获得文本数据对应的语义的方案。而本实施例的固定句式语义解析是指利用预设的固定句式解析模板与文本数据进行匹配，以获得文本数据对应的语义的方案。

在本实施例中，固定句式解析模板包括固定表达部分和待定表达部分。固定表达部分是比较固定的，在相同应用场景的不同请求中一般不会发生变化，而待定表达部分是不固定的，在相同应用场景的不同请求中往往会发生变化。

例如，“请给xxx打电话”为一固定句式解析模板，其中“请给…打电话”是该固定句式解析模板中的固定表达部分，而其中的“xxx”是该固定句式解析模板中的待定表达部分，在该固定句式解析模板中，待定表达部分主要指姓名，在不同拨号请求中，请求呼叫的对象姓名经常是不同的。

又例如，“请播放歌曲xxx”为另一固定句式解析模板，其中“请播放歌曲…”是该固定句式解析模板中的固定表达部分，而其中的“xxx”是该固定句式解析模板中的待定表达部分，在该固定句式解析模板中，待定表达部分主要指歌曲名，在不同播放请求中，请求播放的歌曲经常是不同的。

又例如，“请搜索歌曲xxx的歌词”为又一固定句式解析模板，其中“请搜索歌曲…的歌词”是该固定句式解析模板中的固定表达部分，而其中的“xxx”是该固定句式解析模板中的待定表达部分，在该固定句式解析模板中，待定表达部分主要指歌曲名，在不同搜索请求中，请求搜索的歌词经常是不同歌曲的。

基于上述，语音信号处理装置具体可以利用预设的固定句式解析模板与上述语音信号对应的文本数据进行匹配，以获得该文本数据匹配中的固定句式解析模板，为便于描述，将文本数据匹配中的固定句式解析模板称为目标固定句式解析模板。该目标固定句式解析模板也包括固定表达部分和待定表达部分。之后，语音信号处理装置将文本数据中对应目标固定句式解析模板中的固定表达部分的内容作为初始解析结果中的固定句式，将文本数据中对应目标固定句式解析模板中的待定表达部分的内容作为初始解析结果中的实体词。

例如，假设语音信号对应的文本数据为“请给张三打电话”，则与该文本数据匹配中的目标固定句式解析模板为“请给xxx打电话”，则可以将固定表达部分“请给…打电话”作为初始解析结果中的固定句式，将“张三”作为初始解析结果中的实体词。

又例如，假设语音信号对应的文本数据为“请播放歌曲小燕子”，则与该文本数据匹配中的目标固定句式解析模板为“请播放歌曲xxx”，则可以将固定表达部分“请播放歌曲…”作为初始解析结果中的固定句式，将“小燕子”作为初始解析结果中的实体词。

又例如，假设语音信号对应的文本数据为“请搜索歌曲童年的歌词”，则与该文本数据匹配中的目标固定句式解析模板为“请搜索歌曲xxx的歌词”，则可以将固定表达部分“请搜索歌曲…的歌词”作为初始解析结果中的固定句式，将“童年”作为初始解析结果中的实体词。

在一可选实施方式中，在对语音信号对应的文本数据进行固定句式语义解析之前，可以先对文本数据进行通用语义解析。具体的，语音信号处理装置可以先利用预设的通用语义解析模板与所述文本数据进行匹配；若未匹配中通用语义解析模板，语音信号处理装置可以继续对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果。

进一步，若匹配中通用语义解析模板，则根据匹配中的通用语义解析模板获得文本数据的解析结果并返回给客户端，以供客户端根据该解析结果执行相应操作。

在本实施例中，在获得文本数据对应的初始解析结果之后，并不是像现有技术那样直接将初始解析结果返回给客户端。考虑到初始解析结果中实体词的不确定性，有可能语音识别出的是错误的，例如语音信号中的“张三”，可以被识别为“张伞”，为提高对实体词的识别结果，语音信号处理装置将初始解析结果中的实体词转换为拼音流，例如将“张伞”转换为“zhang san”，从而获得中间解析结果。举例说明，初始解析结果为“请给张伞打电话”，经过拼音流转换后的中间解析结果为“请给zhang san打电话”。

在获得中间解析结果之后，语音信号处理装置将中间解析结果发送给客户端。对客户端来说，接收语音信号处理装置发送的中间解析结果，利用本地信息库对中间解析结果中的拼音流进行修正，以获得最终解析结果。具体的，客户端可以将该拼音流在本地信息库中进行匹配，例如可以采用最小编辑距离匹配算法，以获得该拼音流对应的实体词，进而用该实体词替换拼音流，获得最终解析结果。

值得说明的是，客户端的本地信息库实际上是与客户端所属应用场景相关的信息库，例如若客户端属于语音拨号场景，则本地信息库可以是通讯录，若客户端属于语音播放控制场景，则本地信息库可以是本地音乐库。

本实施例通过将不确定性较强的实体词转换为拼音流并发送给客户端，有利于客户端根据本地与应用场景相关的信息库准确确定该拼音流对应的实体词，提高最终解析结果的准确度。另外，由于不确定性较强的实体词交由客户端根据具体应用场景来确定，使得服务端只需存储固定句式解析模板即可，不用像现有技术中存储每个实体词对应的通用语义解析模板，有利于减少解析模板的数量。

图2为本发明另一实施例提供的语音信号处理方法的流程示意图。如图2所示，该方法包括：

201、向服务端发送语音信号，以供服务端对语音信号进行语义解析。

202、接收服务端返回的中间解析结果，中间解析结果是服务端将初始解析结果中的实体词转换为拼音流后获得的，中间解析结果包括初始解析结果中的固定句式和实体词转换成的拼音流。

203、利用本地信息库对中间解析结果中的拼音流进行修正，以获得最终解析结果。

本实施例提供的方法适用于各种需要对语音信号进行语义解析的应用场景，例如语音拨号、语音导航、语音播放控制、语音信息检索等。其中，语音信号处理装置可位于各应用场景中的客户端实现。

具体的，在各应用场景中，语音信号处理装置采集用户的语音信号，例如对用户的语音进行录制，从而获取用户的语音信号，然后将语音信号发送给服务端，以供服务端对语音信号进行语义解析。

其中，服务端对语音信号进行语义解析的过程可参见图1所示实施例的描述，在此不再赘述。

在将语音信号发送给服务端之后，语音信号处理装置等待接收服务端返回的中间解析结果，在接收到中间解析结果后，利用本地信息库对中间解析结果中的拼音流进行修正，以获得最终解析结果。

具体的，语音信号处理装置将拼音流在本地信息库中进行匹配，以获得拼音流对应的实体词；将中间解析结果中的固定句式与拼音流对应的实体词进行组合，以获得最终解析结果。

例如，语音信号处理装置可以采用最小编辑距离匹配算法，将该拼音流在本地信息库中进行匹配，以获得该拼音流对应的实体词。

值得说明的是，语音信号处理装置的本地信息库实际上是与应用场景相关的信息库，例如若是语音拨号场景，则本地信息库可以是通讯录，若是语音播放控制场景，则本地信息库可以是本地音乐库、本地视频库等。

另外，语音信号处理装置在获得最终解析结果后，可以根据最终解析结果进行相应操作，例如根据最终解析结果进行拨号控制，或者根据最终解析结果进行播放控制，或者根据最终解析结果进行搜索等。

在此说明，若语音信号处理装置未能在本地信息库中匹配到拼音流对应的实体词，语音信号处理装置可以直接拒绝用户的相应请求，例如拒绝拨号、拒绝播放歌曲或拒绝搜索歌词等。或者，若语音信号处理装置未能在本地信息库中匹配到拼音流对应的实体词，语音信号处理装置可以通过与用户交互的方式进行处理，例如向用户输出提示信息，以供用户确定是否继续执行相应操作，并根据用户的指示执行相应操作。

在本实施例中，语音信号处理装置与服务端相配合，根据本地与应用场景相关的信息库，能够对不确定性较高的实体词对应的拼音流进行准确识别，有利于提高最终解析结果的准确度，同时有利于减少解析模板的数量。

图3为本发明又一实施例提供的语音信号处理装置的结构示意图。该装置位于服务端中实现。如图3所示，该装置包括：接收模块31、语音识别模块32、语义解析模块33、转换模块34和发送模块35。

接收模块31，用于接收客户端发送的语音信号。

语音识别模块32，用于对语音信号进行语音识别，以获得文本数据。

语义解析模块33，用于对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果。

转换模块34，用于将初始解析结果中的实体词转换为拼音流，以获得中间解析结果。

发送模块35，用于将中间解析结果发送给客户端，以供客户端利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果。

在一可选实施方式中，语义解析模块33具体用于：

利用预设的固定句式解析模板与文本数据进行匹配，以获得文本数据匹配中的目标固定句式解析模板，目标固定句式解析模板包括固定表达部分和待定表达部分；

将文本数据中对应固定表达部分的内容作为初始解析结果中的固定句式，将文本数据中对应待定表达部分的内容作为初始解析结果中的实体词。

在一可选实施方式中，语义解析模块33具体用于：利用预设的通用语义解析模板与文本数据进行匹配，并在未匹配中通用语义解析模板时，触发执行对文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果的操作。

本实施例提供的语音信号处理装置，位于服务端实现，采用固定句式语义解析方式对语音信号对应的文本数据进行语义解析，获得包括固定句式和实体词的初始解析结果，将初始解析结果中的实体词转换为拼音流，以获得中间解析结果，将中间解析结果发送给客户端，使得客户端可以利用本地信息库对中间解析结果中的拼音流进行修正后获得最终解析结果，充分发挥了客户端本地信息库对部分实体词在语义解析上的作用，对服务端无法准确解析的结果进行修正，提高了语义解析的准确度，同时有利于减少服务端存储的语义解析模板的数量。

图4为本发明又一实施例提供的语音信号处理装置的结构示意图。该装置位于客户端实现，如图4所示，该装置包括：发送模块41、接收模块42和修正模块43。

发送模块41，用于向服务端发送语音信号，以供服务端对语音信号进行语义解析。

接收模块42，用于接收服务端返回的中间解析结果，中间解析结果是服务端将初始解析结果中的实体词转换为拼音流后获得的，中间解析结果包括初始解析结果中的固定句式和实体词转换成的拼音流。

修正模块43，用于利用本地信息库对中间解析结果中的拼音流进行修正，以获得最终解析结果。

在一可选实施方式中，修正模块43具体用于：

将拼音流在本地信息库中进行匹配，以获得拼音流对应的实体词；

将固定句式与拼音流对应的实体词进行组合，以获得最终解析结果。

例如，修正模块43具体可以采用最小编辑距离匹配算法，将该拼音流在本地信息库中进行匹配，以获得该拼音流对应的实体词。

本实施例提供的语音信号处理装置，位于客户端实现，与服务端相配合，根据本地与应用场景相关的信息库，能够对不确定性较高的实体词对应的拼音流进行准确识别，有利于提高最终解析结果的准确度，同时有利于减少解析模板的数量。

本申请实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音信号处理方法。

图5是本申请实施例提供的执行语音信号处理方法的电子设备的硬件结构示意图，如图5所示，该设备包括：

一个或多个处理器510以及存储器520，图5中以一个处理器510为例。

执行语音信号处理方法的设备还可以包括：输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的语音信号处理方法对应的程序指令/模块(例如，附图3所示的接收模块31、语音识别模块32、语义解析模块33、转换模块34和发送模块35，或者，附图4所示的发送模块41、接收模块42和修正模块43)。处理器510通过运行存储在存储器520中的非暂态软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例语音信号处理方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音信号处理装置的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至语音信号处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息，以及产生与语音信号处理装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的语音信号处理方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本发明实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非暂态计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种语音信号处理方法，其特征在于，应用于服务端，包括：

接收客户端发送的语音信号；

对所述语音信号进行语音识别，以获得文本数据；

对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果；

将所述初始解析结果中的实体词转换为拼音流，以获得中间解析结果；

将所述中间解析结果发送给所述客户端，以供所述客户端利用本地信息库对所述中间解析结果中的拼音流进行修正后获得最终解析结果。
根据权利要求1所述的方法，其特征在于，所述对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果，包括：

利用预设的固定句式解析模板与所述文本数据进行匹配，以获得所述文本数据匹配中的目标固定句式解析模板，所述目标固定句式解析模板包括固定表达部分和待定表达部分；

将所述文本数据中对应所述固定表达部分的内容作为所述初始解析结果中的固定句式，将所述文本数据中对应所述待定表达部分的内容作为所述初始解析结果中的实体词。
根据权利要求1或2所述的方法，其特征在于，所述对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果之前，包括：

利用预设的通用语义解析模板与所述文本数据进行匹配，并在未匹配中通用语义解析模板时，触发执行对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果的操作。
一种语音信号处理方法，其特征在于，应用于客户端，包括：

向服务端发送语音信号，以供所述服务端对所述语音信号进行语义解析；

接收所述服务端返回的中间解析结果，所述中间解析结果是所述服务端将初始解析结果中的实体词转换为拼音流后获得的，所述中间解析结果包括所述初始解析结果中的固定句式和所述实体词转换成的拼音流；

利用本地信息库对所述中间解析结果中的拼音流进行修正，以获得最终解析结果。
根据权利要求4所述的方法，其特征在于，所述利用本地信息库对所述中间解析结果中的拼音流进行修正，以获得最终解析结果，包括：

将所述拼音流在所述本地信息库中进行匹配，以获得所述拼音流对应的实体词；

将所述固定句式与所述拼音流对应的实体词进行组合，以获得所述最终解析结果。
一种语音信号处理装置，位于服务端实现，其特征在于，所述装置包括：

接收模块，用于接收客户端发送的语音信号；

语音识别模块，用于对所述语音信号进行语音识别，以获得文本数据；

语义解析模块，用于对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果；

转换模块，用于将所述初始解析结果中的实体词转换为拼音流，以获得中间解析结果；

发送模块，用于将所述中间解析结果发送给所述客户端，以供所述客户端利用本地信息库对所述中间解析结果中的拼音流进行修正后获得最终解析结果。
根据权利要求6所述的装置，其特征在于，所述语义解析模块具体用于：

利用预设的固定句式解析模板与所述文本数据进行匹配，以获得所述文本数据匹配中的目标固定句式解析模板，所述目标固定句式解析模板包括固定表达部分和待定表达部分；

将所述文本数据中对应所述固定表达部分的内容作为所述初始解析结果中的固定句式，将所述文本数据中对应所述待定表达部分的内容作为所述初始解析结果中的实体词。
根据权利要求6或7所述的装置，其特征在于，所述语义解析模块具体用于：

利用预设的通用语义解析模板与所述文本数据进行匹配，并在未匹配中通用语义解析模板时，触发执行对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果的操作。
一种语音信号处理装置，位于客户端实现，其特征在于，所述装置包括：

发送模块，用于向服务端发送语音信号，以供所述服务端对所述语音信号进行语义解析；

接收模块，用于接收所述服务端返回的中间解析结果，所述中间解析结果是所述服务端将初始解析结果中的实体词转换为拼音流后获得的，所述中间解析结果包括所述初始解析结果中的固定句式和所述实体词转换成的拼音流；

修正模块，用于利用本地信息库对所述中间解析结果中的拼音流进行修正，以获得最终解析结果。
根据权利要求9所述的装置，其特征在于，所述修正模块具体用于：

将所述拼音流在所述本地信息库中进行匹配，以获得所述拼音流对应的实体词；

将所述固定句式与所述拼音流对应的实体词进行组合，以获得所述最终解析结果。
一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行：

接收客户端发送的语音信号；

对所述语音信号进行语音识别，以获得文本数据；

对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果；

将所述初始解析结果中的实体词转换为拼音流，以获得中间解析结果；

将所述中间解析结果发送给所述客户端，以供所述客户端利用本地信息库对所述中间解析结果中的拼音流进行修正后获得最终解析结果。
一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行：

向服务端发送语音信号，以供所述服务端对所述语音信号进行语义解析；

接收所述服务端返回的中间解析结果，所述中间解析结果是所述服务端将初始解析结果中的实体词转换为拼音流后获得的，所述中间解析结果包括所述初始解析结果中的固定句式和所述实体词转换成的拼音流；

利用本地信息库对所述中间解析结果中的拼音流进行修正，以获得最终解析结果。
一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

接收客户端发送的语音信号；

对所述语音信号进行语音识别，以获得文本数据；

对所述文本数据进行固定句式语义解析，以获得包括固定句式和实体词的初始解析结果；

将所述初始解析结果中的实体词转换为拼音流，以获得中间解析结果；

将所述中间解析结果发送给所述客户端，以供所述客户端利用本地信息库对所述中间解析结果中的拼音流进行修正后获得最终解析结果。
一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

向服务端发送语音信号，以供所述服务端对所述语音信号进行语义解析；

接收所述服务端返回的中间解析结果，所述中间解析结果是所述服务端将初始解析结果中的实体词转换为拼音流后获得的，所述中间解析结果包括所述初始解析结果中的固定句式和所述实体词转换成的拼音流；

利用本地信息库对所述中间解析结果中的拼音流进行修正，以获得最终解析结果。
一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1至5任一项所述的方法。