WO2020248524A1

WO2020248524A1 - 人机对话方法及电子设备

Info

Publication number: WO2020248524A1
Application number: PCT/CN2019/120607
Authority: WO
Inventors: 宋洪博; 朱成亚; 石韡斯; 樊帅
Original assignee: 苏州思必驰信息科技有限公司
Priority date: 2019-06-13
Filing date: 2019-11-25
Publication date: 2020-12-17
Also published as: US20220165269A1; CN110223697B; EP3985661B1; US11551693B2; EP3985661A1; CN110223697A; JP2022528582A; JP7108799B2; EP3985661A4

Abstract

一种人机对话方法和系统，该方法包括：接收用户通过客户端上传的第一音频，标记第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果（S11）；根据第一音频的开始时间点和结束时间点，确定第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，接收到客户端上传的第二音频，利用音频解码器生成第二音频的第二识别结果（S12）；将至少第一识别结果和第二识别结果的组合发送至语言预测模型，当为一条语句时，生成组合语句对应的回答指令，将回答指令连同回答指令的反馈时间标记发送至客户端（S13）。该方法解决了全双工对话场景下的不合理断句以及对话中回复出现冗余的问题。

Description

人机对话方法及电子设备

技术领域

本发明涉及智能语音对话领域，尤其涉及一种人机对话方法及电子设备。

背景技术

在一般的问答系统里面，通常都是问一句答一句，或者使用多轮交互。全双工交互希望可以达到的效果是类似人与人之间打电话一样，不仅仅是一问一答，也可能是用户说多句话，然后机器人回答一下；甚至机器人可以主动提问来帮助交互，采用节奏控制技术，来根据用户话量大小与内容，调整自己的话量。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

1、答非所问。根据现有设备的响应结果，到达客户端的语句会连续播报，当网络延时或服务端处理延时较大时，响应到达客户端，已经失去了时效性。由于对客户端的响应测量完全在服务端实现，客户端没有实现相对时间对齐的策略，不能有选择的去丢弃某些响应，保持与服务端相同的会话状态。如果用户已经开始了下一轮输入，而客户端此时连续播报多条之前输入的内容，会导致输入输出不对应，也就是答非所问的情况，从而导致用户体验较差。

2、不合理断句。一方面，用户在不同场景下，说话节奏会有所不同，仅仅靠着声学特征去断句，会导致出现用户还没说完，提前响应了相应的问题的情况，也会导致出现用户明明说完了，但是却要等待较长的时间的情况。另一方面，上传音频不连续，服务端不能准确判断两句话之间的实际间隔时间，不能判断是否是由于网络延时导致的两句话间隔较长，导致出现不能合理决策响应内容的情况。

发明内容

为了至少解决现有技术中由于回答失去了时效性，导致输入输出内容不对应，上下音频不连续导致不合理断句，从而不能合理决策响应内容的问题。

第一方面，本发明实施例提供一种人机对话方法，应用于服务器，包括：

接收用户通过客户端上传的第一音频，标记所述第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果；

根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，接收到客户端上传的第二音频，利用音频解码器生成第二音频的第二识别结果；

将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型，判断所述组合语句是否为一条语句，

当为一条语句时，生成所述组合语句对应的回答指令，将所述回答指令连同所述回答指令的反馈时间标记发送至客户端，以通过客户端完成人机对话，其中，所述反馈时间标记包括：所述回答指令对应语句的开始时间点和结束时间点。

第二方面，本发明实施例提供一种人机对话方法，应用于客户端，包括：

向服务器连续上传用户输入的第一音频以及第二音频，将所述音频的开始时间点和结束时间点作为输入时间标记；

依次接收服务器发送的回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

根据所述用户输入的音频的输入时间标记与客户端当前时间产生的时间偏移，判断所述回答指令是否超时，

当所述回答指令超时时，丢弃所述回答指令，当所述回答指令没有超时时，将所述回答指令反馈给用户，以完成人机对话。

第三方面，本发明实施例提供一种人机对话方法，应用于语音对话平台，所述语音对话平台包括服务器端和客户端，其特征在于，所述方法包括：

客户端向服务器端连续上传用户输入的第一音频以及第二音频，将所述音频的开始时间点和结束时间点作为输入时间标记；

服务器端接收用户通过客户端上传的第一音频，标记所述第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果；

服务器端根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，服务器端接收到客户端连续上传的第二音频，利用音频解码器生成第二音频的第二识别结果；

服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型，判断所述组合语句是否为一条语句，

当为一条语句时，服务器端生成所述组合语句对应的回答指令，将所述回答指令连同所述回答指令的反馈时间标记发送至客户端，其中，所述反馈时间标记包括：所述回答指令对应语句的开始时间点和结束时间点；

客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移，判断所述回答指令是否超时，

第四方面，本发明实施例提供一种人机对话系统，应用于服务器，包括：

识别解码程序模块，用于接收用户通过客户端上传的第一音频，标记所述第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果；

短句确定程序模块，用于根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，接收到客户端上传的第二音频，利用音频解码器生成第二音频的第二识别结果；

语句判断程序模块，用于将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型，判断所述组合语句是否为一条语句，

第五方面，本发明实施例提供一种人机对话系统，应用于客户端，包括：

音频上传程序模块，用于向服务器连续上传用户输入的第一音频以及第二音频，将所述音频的开始时间点和结束时间点作为输入时间标记；

音频匹配程序模块，用于依次接收服务器发送的回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

人机对话程序模块，用于根据所述用户输入的音频的输入时间标记与客户端当前时间产生的时间偏移，判断所述回答指令是否超时，

第六方面，本发明实施例提供一种人机对话系统，应用于语音对话平台，所述语音对话平台包括服务器端和客户端，其特征在于，所述方法包括：

音频上传程序模块，用于客户端向服务器端连续上传用户输入的第一音频以及第二音频，将所述音频的开始时间点和结束时间点作为输入时间标记；

识别解码程序模块，用于服务器端接收用户通过客户端上传的第一音频，标记所述第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果；

短句确定程序模块，用于服务器端根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，服务器端接收到客户端连续上传的第二音频，利用音频解码器生成第二音频的第二识别结果；

语句判断程序模块，用于服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型，判断所述组合语句是否为一条语句，

音频匹配程序模块，用于客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

人机对话程序模块，用于客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移，判断所述回答指令是否超时，

第七方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的人机对话方法的步骤。

第八方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的人机对话方法的步骤。

本发明实施例的有益效果在于：在确保用户先说出的语句是短句的同时使用心跳事件来处理两句话的时间间隔，在确保两句话可以组合成完整的语句后解决了全双工对话场景下的不合理断句。记录音频的开始时间点和结束时间点将用户输入的音频和服务器返回的回答指令进行匹配，保证了答复用户的准确性，在此基础上，通过设定不同的时间偏移，来处理用户与智能语音设备交互中的不同状况，解决了全双工对话中回复出现冗余的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种应用于服务器的人机对话方法的流程图；

图2是本发明一实施例提供的一种应用于客户端的人机对话方法的流程图；

图3是本发明一实施例提供的一种应用于语音对话平台的人机对话方法的流程图；

图4是本发明一实施例提供的一种应用于服务器的人机对话系统的结构示意图；

图5是本发明一实施例提供的一种应用于客户端的人机对话系统的结构示意图；

图6是本发明一实施例提供的一种应用于语音对话平台的人机对话系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种人机对话方法的流程图，应用于服务器，包括如下步骤：

S11：接收用户通过客户端上传的第一音频，标记所述第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果；

S12：根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，接收到客户端上传的第二音频，利用音频解码器生成第二音频的第二识别结果；

S13：将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型，判断所述组合语句是否为一条语句，

在本实施方式中，现有的用户与智能设备的全双工对话会有以下场景：

用户：我想听(短停顿)周杰伦的歌

智能语音设备：你想听什么？

智能语音设备：下面为您播放周杰伦的稻香。

用户说“我想听”是不完整的句子，但是智能语音设备却对“我想听”做出回复，增加了一轮无意义的对话。本方法为了避免智能语音设备对“我想听”这类稍作停顿的不完整语句，做出无意义的对话回复。

对于步骤S11，同样的，当用户说：我想听(短停顿)周杰伦的歌，由于“我想听”后有短停顿，将其确定为第一音频，“周杰伦的歌”确定为第二音频。服务器接收用户通过智能语音设备客户端上传的第一音频“我想听”，标记所述第一音频开始时间点和结束时间点，通过音频解码器生成第一音频的第一识别结果。

对于步骤S12，根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，例如，由于录音长度和时间是正比的关系，从而可以根据收到音频的大小计算出音频的相对时间。进而将通话时间较短的音频确定为短句。例如“我想听”这就是短句。当确定第一音频为短句时，如果在预设置好的心跳保护时间范围内，接收到了客户端上传的第二音频，从而进一步的表现出“第一音频”没说完。其中，心跳保护时间在心跳检测在网络程序中常常被用到，在客户端和服务器之间暂时没有数据交互时，就需要心跳检测对方是否存活。心跳检测可以由客户端主动发起，也可以由服务器主动发起。

对于步骤S13，至少将所述第一识别结果“我想听”和所述第二识别结果“周杰伦的歌”的组合“我想听周杰伦的歌”发送至语言模型，来判断所组合的语句是否为一条完整的语句。

通过语言模型判断，确定“我想听周杰伦的歌”是一条完整的语句。从而生成“我想听周杰伦的歌”对应的回答指令，从而将所述回答指令，并连同所述回答指令的反馈时间标记发送至客户端，从而通过客户端完成人机对话。(反馈时间标记为了解决答非所问的问题，在下述实施例中会进行说明)

通过该实施方式可以看出，在确保用户先说出的语句是短句的同时使用心跳事件来处理两句话的时间间隔，在确保两句话可以组合成完整的语句后解决了全双工对话场景下的不合理断句。

作为一种实施方式，在本实施例中，在判断所述组合语句是否为一条语句之后，所述方法还包括：

当不是一条语句时，分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令，将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端。

在本实施方式中，如果第一识别结果和第二识别结果组合不到同一条语句中时，此时，由于两句话说的内容不相关，也就涉及不到不合理断句的问题。进而分别生成对应于所述第一识别结果的第一回答指令和所述第二结果的第二回答指令，并连同各自的反馈时间标记发送至客户端。

通过该实施方式可以看出，当两句话不相关时，对用户的每一个对话，都有相应的回答，保证全双工对话的稳定运行。

在一些实施例中，本申请还提供一种服务器，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以下步骤：

在一些实施例中，本申请提供的服务器的至少一个处理器还配置为：

如图2所示为本发明一实施例提供的一种人机对话方法的流程图，应用于客户端，包括如下步骤：

S21：向服务器连续上传用户输入的第一音频以及第二音频，将所述音频的开始时间点和结束时间点作为输入时间标记；

S22：依次接收服务器发送的回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

S23：根据所述用户输入的音频的输入时间标记与客户端当前时间产生的时间偏移，判断所述回答指令是否超时，

在本实施方式中，现有的用户与智能设备的全双工对话又会有以下场景：

用户：我想听首歌

用户：周杰伦的稻香

智能语音设备：你想听谁的歌？

智能语音设备：好的，为您播放周杰伦的稻香。

用户在第一句话回复后，又补充了第二句话，但是，由于回复的顺序与输入相对应，用户输入的话又过快，导致了用户在输入第二句话时，已经将后输出第一句的问题给解答了，使得智能语音设备输出的第一句话属于冗余的回复，本方法为了避免这种情况而进行了调整。

对于步骤S21，同样的，当用户说：我想听首歌，周杰伦的稻香，依次向服务器连续传送，同时，在本地记录所述音频的开始时间点和结束时间点作为输入时间标记；

对于步骤S22，由于用户说的“我想听首歌”、“周杰伦的稻香”都是完整的语句，会接收到服务器反馈的两条回答指令，以及反馈时间标记。在本实施例中，由于输入的是两个整句，在接收时，会有两个指令。如果在本方法使用实施例1中的语句，那么在接收时，只会有一个指令。由于是全双工对话，客户端要知道服务器返回的回答指令是对应的哪一条输入的语句，因此通过之前的时间标记进行匹配对应。

对于步骤S23，根据用户输入的音频的输入时间标记，与客户端当前时间产生的时间偏移，其中客户端当前时间产生的偏移可以根据具体的情况进行调整，例如，在全双工对话时，有两种情况：

第一种情况，为上述举例所述，用户连续的第二句输入，已经隐含了智能语音设备的第一回复语句的内容，使得第一回复语句已经无意义，也就是说，第二句话输入了，第一句话还没有回答时，第一句话就没有必要回复了，此时，时间偏移设定为与第二句话的输入时间相关。

第二种情况，用户连续输入的两句话没有关系，例如“现在几点了”“给我订个餐”，此时，智能语音设备依次回复，第一回复内容和第二回复内容没有影响。

在此基础上，由于用户输入的问题，服务器在处理起来比较复杂，占用的时间较长，或者由于网络波动，导致在服务器处理好回答指令后发送给客户端时间已经延迟很久(例如2分钟，全双工对话中，这种延迟回复会极度影响用户体验)，这些延迟很久的回答指令也已经显得无意义了，此时，时间偏移设定为与预设的回复等待时间相关(这类比较常见，具体实施方式就不赘述了)。

因此，可以针对这不同的情况，对客户端当前时间产生的偏移进行不同的设定，来适应不同的情况。

通过将客户端当前时间产生的偏移设定为第一种情况时，就根据时间偏移，确定所述第一句话的回答指令已经超时，丢弃所述第一句话的回答指令，这样，在回复时，避免出现冗余的回复。

1、用户：我想听首歌

2、用户：周杰伦的稻香

智能语音设备：你想听谁的歌？(丢弃，不向用户输出)

3、智能语音设备：好的，为您播放周杰伦的稻香。

通过该实施方式可以看出，记录音频的开始时间点和结束时间点将用户输入的音频和服务器返回的回答指令进行匹配，保证了答复用户的准确性，在此基础上，通过设定不同的时间偏移，来处理用户与智能语音设备交互中的不同状况，解决了全双工对话中回复出现冗余的问题。

在一些实施例中，本申请还提供一种客户端，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以下步骤：

如图3所示为本发明一实施例提供的一种人机对话方法的流程图，应用于语音对话平台，包括如下步骤：

S31：客户端向服务器端连续上传用户输入的第一音频以及第二音频，将所述音频的开始时间点和结束时间点作为输入时间标记；

S32：服务器端接收用户通过客户端上传的第一音频，标记所述第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果；

S33：服务器端根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，服务器端接收到客户端连续上传的第二音频，利用音频解码器生成第二音频的第二识别结果；

S34：服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型，判断所述组合语句是否为一条语句，当为一条语句时，服务器端生成所述组合语句对应的回答指令，将所述回答指令连同所述回答指令的反馈时间标记发送至客户端，其中，所述反馈时间标记包括：所述回答指令对应语句的开始时间点和结束时间点；

S35：客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

S36：客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移，判断所述回答指令是否超时，当所述回答指令超时时，丢弃所述回答指令，当所述回答指令没有超时时，将所述回答指令反馈给用户，以完成人机对话。

作为一种实施方式，在本实施例中，在所述判断所述组合是否为一条语句之后，所述方法还包括：

当不是一条语句时，服务器端分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令，将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端；

客户端分别接收服务器端发送的第一、第二回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

在本实施方式中，将客户端与服务器应用到语音对话平台中，作为一个实施整体。具体实施步骤在上述实施例中已经说明，在此不再赘述。

通过该实施方式可以看出，在确保用户先说出的语句是短句的同时使用心跳事件来处理两句话的时间间隔，在确保两句话可以组合成完整的语句后解决了全双工对话场景下的不合理断句。记录音频的开始时间点和结束时间点将用户输入的音频和服务器返回的回答指令进行匹配，保证了答复用户的准确性，在此基础上，通过设定不同的时间偏移，来处理用户与智能语音设备交互中的不同状况，解决了全双工对话中回复出现冗余的问题。

在一些实施例中，本申请还提供一种语音对话平台，所述语音对话平台包括服务器端和客户端，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以下步骤：

在一些实施例中，本申请提供的语音对话平台的至少一个处理器还配置为：

如图4所示为本发明一实施例提供的一种人机对话系统的结构示意图，该系统可执行上述任意实施例所述的人机对话方法，并配置在终端中。

本实施例提供的一种人机对话系统，应用于服务器，包括：识别解码程序模块11，短句确定程序模块12和语句判断程序模块13。

其中，识别解码程序模块11用于接收用户通过客户端上传的第一音频，标记所述第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果；短句确定程序模块12用于根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，接收到客户端上传的第二音频，利用音频解码器生成第二音频的第二识别结果；语句判断程序模块13用于将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型，判断所述组合语句是否为一条语句，当为一条语句时，生成所述组合语句对应的回答指令，将所述回答指令连同所述回答指令的反馈时间标记发送至客户端，以通过客户端完成人机对话，其中，所述反馈时间标记包括：所述回答指令对应语句的开始时间点和结束时间点。

进一步地，在判断所述组合语句是否为一条语句之后，所述语句判断程序模块还用于：

如图5所示为本发明一实施例提供的一种人机对话系统的结构示意图，该系统可执行上述任意实施例所述的人机对话方法，并配置在终端中。

本实施例提供的一种人机对话系统，应用于客户端，包括：音频上传程序模块21，音频匹配程序模块22和人机对话程序模块23。

其中，音频上传程序模块21用于向服务器连续上传用户输入的第一音频以及第二音频，将所述音频的开始时间点和结束时间点作为输入时间标记；音频匹配程序模块22用于依次接收服务器发送的回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；人机对话程序模块23用于根据所述用户输入的音频的输入时间标记与客户端当前时间产生的时间偏移，判断所述回答指令是否超时，当所述回答指令超时时，丢弃所述回答指令，当所述回答指令没有超时时，将所述回答指令反馈给用户，以完成人机对话。

如图6所示为本发明一实施例提供的一种人机对话系统的结构示意图，该系统可执行上述任意实施例所述的人机对话方法，并配置在终端中。

本实施例提供的一种人机对话系统，应用于语音对话平台，所述语音对话平台包括服务器端和客户端，包括：音频上传程序模块31，识别解码程序模块32，短句确定程序模块33，语句判断程序模块34，音频匹配程序模块35和人机对话程序模块36。

其中，音频上传程序模块31用于客户端向服务器端连续上传用户输入的第一音频以及第二音频，将所述音频的开始时间点和结束时间点作为输入时间标记；识别解码程序模块32用于服务器端接收用户通过客户端上传的第一音频，标记所述第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果；短句确定程序模块33用于服务器端根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，服务器端接收到客户端连续上传的第二音频，利用音频解码器生成第二音频的第二识别结果；语句判断程序模块34用于服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型，判断所述组合语句是否为一条语句，当为一条语句时，服务器端生成所述组合语句对应的回答指令，将所述回答指令连同所述回答指令的反馈时间标记发送至客户端，其中，所述反馈时间标记包括：所述回答指令对应语句的开始时间点和结束时间点；音频匹配程序模块35用于客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；人机对话程序模块36用于客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移，判断所述回答指令是否超时，当所述回答指令超时时，丢弃所述回答指令，当所述回答指令没有超时时，将所述回答指令反馈给用户，以完成人机对话。

进一步地，在所述判断所述组合是否为一条语句之后，所述短句确定程序模块还用于：当不是一条语句时，服务器端分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令，将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端；

音频匹配程序模块，用于客户端分别接收服务器端发送的第一、第二回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

人机对话程序模块，用于客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移，判断所述回答指令是否超时，当所述回答指令超时时，丢弃所述回答指令，当所述回答指令没有超时时，将所述回答指令反馈给用户，以完成人机对话。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的人机对话方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的人机对话方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的人机对话方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据人机对话装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至人机对话装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的人机对话方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有语音对话功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种人机对话方法，应用于服务器，包括：

接收用户通过客户端上传的第一音频，标记所述第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果；

根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，接收到客户端上传的第二音频，利用音频解码器生成第二音频的第二识别结果；

将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型，判断所述组合语句是否为一条语句，

当为一条语句时，生成所述组合语句对应的回答指令，将所述回答指令连同所述回答指令的反馈时间标记发送至客户端，以通过客户端完成人机对话，其中，所述反馈时间标记包括：所述回答指令对应语句的开始时间点和结束时间点。
根据权利要求1所述的方法，其中，在判断所述组合语句是否为一条语句之后，所述方法还包括：

当不是一条语句时，分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令，将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端。
一种人机对话方法，应用于客户端，包括：

向服务器连续上传用户输入的第一音频以及第二音频，将所述音频的开始时间点和结束时间点作为输入时间标记；

依次接收服务器发送的回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

根据所述用户输入的音频的输入时间标记与客户端当前时间产生的时间偏移，判断所述回答指令是否超时，

当所述回答指令超时时，丢弃所述回答指令，当所述回答指令没有超时时，将所述回答指令反馈给用户，以完成人机对话。
一种人机对话方法，应用于语音对话平台，所述语音对话平台包括服务器端和客户端，所述方法包括：

客户端向服务器端连续上传用户输入的第一音频以及第二音频，将所述音频的开始时间点和结束时间点作为输入时间标记；

服务器端接收用户通过客户端上传的第一音频，标记所述第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果；

服务器端根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，服务器端接收到客户端连续上传的第二音频，利用音频解码器生成第二音频的第二识别结果；

服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型，判断所述组合语句是否为一条语句，

当为一条语句时，服务器端生成所述组合语句对应的回答指令，将所述回答指令连同所述回答指令的反馈时间标记发送至客户端，其中，所述反馈时间标记包括：所述回答指令对应语句的开始时间点和结束时间点；

客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移，判断所述回答指令是否超时，

当所述回答指令超时时，丢弃所述回答指令，当所述回答指令没有超时时，将所述回答指令反馈给用户，以完成人机对话。
根据权利要求4所述的方法，其中，在所述判断所述组合是否为一条语句之后，所述方法还包括：

当不是一条语句时，服务器端分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令，将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端；

客户端分别接收服务器端发送的第一、第二回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移，判断所述回答指令是否超时，

当所述回答指令超时时，丢弃所述回答指令，当所述回答指令没有超时时，将所述回答指令反馈给用户，以完成人机对话。
一种服务器，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以下步骤：

接收用户通过客户端上传的第一音频，标记所述第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果；

根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，接收到客户端上传的第二音频，利用音频解码器生成第二音频的第二识别结果；

将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型，判断所述组合语句是否为一条语句，

当为一条语句时，生成所述组合语句对应的回答指令，将所述回答指令连同所述回答指令的反馈时间标记发送至客户端，以通过客户端完成人机对话，其中，所述反馈时间标记包括：所述回答指令对应语句的开始时间点和结束时间点。
根据权利要求6所述的服务器，所述至少一个处理器还配置为：

当不是一条语句时，分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令，将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端。
一种客户端，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以下步骤：

向服务器连续上传用户输入的第一音频以及第二音频，将所述音频的开始时间点和结束时间点作为输入时间标记；

依次接收服务器发送的回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

根据所述用户输入的音频的输入时间标记与客户端当前时间产生的时间偏移，判断所述回答指令是否超时，

当所述回答指令超时时，丢弃所述回答指令，当所述回答指令没有超时时，将所述回答指令反馈给用户，以完成人机对话。
一种语音对话平台，所述语音对话平台包括服务器端和客户端，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以下步骤：

客户端向服务器端连续上传用户输入的第一音频以及第二音频，将所述音频的开始时间点和结束时间点作为输入时间标记；

服务器端接收用户通过客户端上传的第一音频，标记所述第一音频的开始时间点和结束时间点，利用音频解码器生成第一音频的第一识别结果；

服务器端根据所述第一音频的开始时间点和结束时间点，确定所述第一音频是否为短句，当为短句时，若在预设的心跳保护时间范围内，服务器端接收到客户端连续上传的第二音频，利用音频解码器生成第二音频的第二识别结果；

服务器端将至少所述第一识别结果和所述第二识别结果的组合发送至语言预测模型，判断所述组合语句是否为一条语句，

当为一条语句时，服务器端生成所述组合语句对应的回答指令，将所述回答指令连同所述回答指令的反馈时间标记发送至客户端，其中，所述反馈时间标记包括：所述回答指令对应语句的开始时间点和结束时间点；

客户端接收服务器端发送的回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移，判断所述回答指令是否超时，

当所述回答指令超时时，丢弃所述回答指令，当所述回答指令没有超时时，将所述回答指令反馈给用户，以完成人机对话。
根据权利要求9所述的语音对话平台，所述至少一个处理器还配置为：

当不是一条语句时，服务器端分别生成对应于所述第一识别结果的第一回答指令以及所述第二识别结果的第二回答指令，将所述第一回答指令以及所述第二回答指令连同各自对应的反馈时间标记发送至客户端；

客户端分别接收服务器端发送的第一、第二回答指令以及所述回答指令对应的反馈时间标记，通过对所述输入时间标记与所述反馈时间标记进行匹配，确定所述回答指令对应的用户输入的音频；

客户端根据所述用户输入的音频的输入时间标记与所述客户端当前时间产生的时间偏移，判断所述回答指令是否超时，

当所述回答指令超时时，丢弃所述回答指令，当所述回答指令没有超时时，将所述回答指令反馈给用户，以完成人机对话。