WO2021169615A1

WO2021169615A1 - 基于人工智能的语音响应处理方法、装置、设备及介质

Info

Publication number: WO2021169615A1
Application number: PCT/CN2021/070450
Authority: WO
Inventors: 吕林澧; 叶松; 孙建波
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-02-27
Filing date: 2021-01-06
Publication date: 2021-09-02
Also published as: CN111429899A

Abstract

提供了一种基于人工智能的语音响应处理方法、装置、设备及介质。该方法包括：获取语音录音模块实时采集的待处理语音流（S201）；对待处理语音流进行语句完整性分析，得到待分析语音流（S202）；并行执行第一处理进程和第二处理进程，基于第一处理进程控制语音播放模块播放目标语气词录音，基于第二处理进程对待分析语音流进行识别，获取目标响应语音（S203）；实时监测语音播放模块播放目标语气词录音的播放状态，若播放状态为播放结束，则控制语音播放模块播放目标响应语音（S204）。该方法可使智能交互设备在人机交互过程中实时进行响应，提高语音交互的响应时间和响应效果。

Description

基于人工智能的语音响应处理方法、装置、设备及介质

本申请要求于2020年02月27日提交中国专利局、申请号为202010122179.3，发明名称为“基于人工智能的语音响应处理方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音处理技术领域，尤其涉及一种基于人工智能的语音响应处理方法、装置、设备及介质。

背景技术

随着人工智能技术的快速发展，应用人工智能技术的各种智能交互设备应运而生，以方便人们的工作或生活。例如，具有语音交互功能的智能交互设备可以采集并识别用户的实时语音，基于实时语音的识别结果进行响应，以达到人机交互目的。当前智能交互设备对实时语音进行响应需经过ASR语音识别、NLP语义分析和TTS语音合成等处理过程，这一处理过程所需的时间为智能交互设备与用户进行交互的停顿响应时间，这一停顿响应时间具体为从用户说完某一段实时语音时起，至智能交互设备基于实时语音进行响应时之间的时间差。发明人意识到当前智能交互设备与用户进行语音交互的停顿响应时间较长，使得用户感觉到延迟，影响用户进行语音交互的体验。

发明内容

本申请实施例提供一种基于人工智能的语音响应处理方法、装置、设备及介质，以解决当前智能交互设备与用户进行语音交互的停顿响应时间过长的问题。

一种基于人工智能的语音响应处理方法，包括：

获取语音录音模块实时采集的待处理语音流；

对所述待处理语音流进行语句完整性分析，得到待分析语音流；

并行执行第一处理进程和第二处理进程，调用所述第一处理进程控制语音播放模块播放目标语气词录音，调用所述第二处理进程对所述待分析语音流进行识别，获取目标响应语音；

实时监测所述语音播放模块播放所述目标语气词录音的播放状态，若所述播放状态为播放结束，则控制所述语音播放模块播放所述目标响应语音。

一种基于人工智能的语音响应处理装置，包括：

待处理语音流获取模块，用于获取语音录音模块实时采集的待处理语音流；

待分析语音流获取模块，用于对所述待处理语音流进行语句完整性分析，得到待分析语音流；

播放分析并行处理模块，用于并行执行第一处理进程和第二处理进程，调用所述第一处理进程控制语音播放模块播放目标语气词录音，调用所述第二处理进程对所述待分析语音流进行识别，获取目标响应语音；

响应语音实时播放模块，用于实时监测所述语音播放模块播放所述目标语气词录音的播放状态，若所述播放状态为播放结束，则控制所述语音播放模块播放所述目标响应语音。

一种智能交互设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取语音录音模块实时采集的待处理语音流；

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取语音录音模块实时采集的待处理语音流；

上述基于人工智能的语音响应处理方法、装置、设备及介质，先对语音交互过程中实时采集到的待处理语音流进行语句完整性分析，以确定待分析语音流，有助于提高后续识别分析的准确性和时效性。在对待分析语音流进行识别的同时播放目标语气词录音，并在目标语气词录音播放结束之后播放目标响应语音，使得待分析语音流的识别过程与目标语气词录音的播放过程同时进行，实现在对待分析语音流进行分析处理的停顿响应时间内播放目标语气词录音，使得目标语气词录音和目标响应语音的播放之间衔接自然，提高语音交互的响应时间和响应效果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中基于人工智能的语音响应处理方法的一应用环境示意图；

图2是本申请一实施例中基于人工智能的语音响应处理方法的一流程图；

图3是本申请一实施例中基于人工智能的语音响应处理方法的另一流程图；

图4是本申请一实施例中基于人工智能的语音响应处理方法的另一流程图；

图5是本申请一实施例中基于人工智能的语音响应处理方法的另一流程图；

图6是本申请一实施例中基于人工智能的语音响应处理方法的另一流程图；

图7是本申请一实施例中基于人工智能的语音响应处理方法的另一流程图；

图8是本申请一实施例中基于人工智能的语音响应处理方法的另一流程图；

图9是本申请一实施例中基于人工智能的语音响应处理装置的一示意图；

图10是本申请一实施例中智能交互设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的基于人工智能的语音响应处理方法，该基于人工智能的语音响应处理方法可以应用在独立设置的智能交互设备上，也可以应用在如图1所示的应用环境中。

作为一示例，该基于人工智能的语音响应处理方法应用在独立设置的智能交互设备上时，该智能交互设备上设有处理器和与处理器相连的语音录音模块和语音播放模块，可在处理器上执行基于人工智能的语音响应处理方法，以使用户与智能交互设备进行语音交互过程中，智能交互设备每次停顿响应时间较短，使得用户感觉不到语音交互过程中存在延迟，体验更好。

作为另一示例，该基于人工智能的语音响应处理方法应用在基于人工智能的语音响应处理系统中，该基于人工智能的语音响应处理系统包括如图1所示的智能交互设备和服务器，智能交互设备与服务器通过网络进行通信，智能交互设备上设有语音录音模块和语音播放模块，可在服务器上执行基于人工智能的语音响应处理方法，以使用户与智能交互设备进行语音交互过程中，智能交互设备每次停顿响应时间较短，使得用户感觉不到语音交互过程中存在延迟，体验更好。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。智能交互设备可以是可实现人机交互的机器人。

在一实施例中，如图2所示，提供一种基于人工智能的语音响应处理方法，以该方法应用在独立的智能交互设备的处理器或者与智能交互设备相连的服务器为例进行说明，包括如下步骤：

S201：获取语音录音模块实时采集的待处理语音流。

其中，语音录音模块是可以实现录音功能的模块。作为一示例，语音录音模块可以是集成在智能交互设备或者客户端上的用于实现录音功能的录音芯片。

待处理语音流是语音录音模块实时采集到的需要进行后续识别处理的语音流。作为一示例，智能交互设备的处理器或者与智能交互设备相连的服务器，可获取语音录音模块实时采集用户说话过程所形成的待处理语音流，该待处理语音流具体为用户想与智能交互设备进行交互的用于反映用户意图的语音流。

S202：对待处理语音流进行语句完整性分析，得到待分析语音流。

其中，待分析语音流是从待处理语音流中确定的可反映用户已经说完一段话的语音流。对待处理语音流进行语句完整性分析是指将待处理语音流基于一个完整的语句进行分隔，以使每一待分析语音流可以完整而准确地反映用户意图。

作为一示例，智能交互设备的处理器或者与智能交互设备相连的服务器可从语音录音模块实时录制的待处理语音流中，截取出可以反映用户已经说完某一段话的语音流作为待分析语音流，以便后续对待分析语音流进行识别分析，以确定待分析语音流中反映的用户意图并基于该用户意图进行响应，从而实现人机交互的目的。可以理解地，从待处理语音流中截取可反映用户已说完某一段话的待分析语音流，可以保障后续识别分析的准确性和时效性，避免将用户说的某一段话划分为几段，分别进行处理，导致语音识别分析的准确性和时效性较低。

S203：并行执行第一处理进程和第二处理进程，调用第一处理进程控制语音播放模块播放目标语气词录音，调用第二处理进程对待分析语音流进行识别，获取目标响应语音。

其中，目标语气词录音是指本次需要播放的语气词录音，该语气词录音是预先录制的与语气词相关的录音，例如，预先录制的“嗯嗯”等语气词对应的录音。

其中，目标响应语音是根据对待分析语音流进行识别分析确定的用户意图进行响应的语音。例如，若待分析语音流对应的说话内容对应的用户意图为“我想了解A产品的收益率”，则目标响应语音为“A产品的收益率为……”，可实现对待分析语音流中的用户意图进行智能响应，以替代人工响应，有助于节省人工成本。

其中，第一处理进程是在智能交互设备的处理器或者服务器的处理器上创建的用于控制语音播放模块工作的进程。第二处理进程是在智能交互设备的处理器或者服务器的处理器上创建的用于对待识别语音流进行识别处理的进程。

作为一示例，智能交互设备的处理器或者与智能交互设备相连的服务器在得到待分析语音流后，创建或者调用预先创建的第一处理进程和第二处理进程，使第一处理进程和第二处理进程并行执行，以使第一处理进程控制语音播放模块播放目标语气词录音，并使第二处理进程对待分析语音流进行识别，以获取目标响应语音，以使目标语气词录音的播放与待分析语音流的识别过程并行处理，以实现在对待分析语音流进行识别分析处理的停顿响应时间内播放目标语气词录音，使得智能交互设备响应及时，避免停顿响应时间过长而导致用户体验差，而且播放目标语气词录音，可使人机交互过程更具有口语化，有助于提高用户体验。此处的停顿响应时间可以理解为对待分析语音流进行识别分析，以确定并播放目标响应语音的处理时间。例如，对某一段待分析语音流进行识别分析的停顿响应时间为3s，若智能交互设备的处理器或者与智能交互设备相连的服务器在得到待分析语音流后的1s内播放2s的目标语气词录音，使得智能交互设备的停顿响应时间缩短在1s内，使得用户感觉不到响应延迟，有助提高用户体验。

S204：实时监测语音播放模块播放目标语气词录音的播放状态，若播放状态为播放结束，则控制语音播放模块播放目标响应语音。

作为一示例，目标语气词录音可以理解为在对待分析语音流进行识别分析过程中播放的录音，一般来说，该目标语气词录音的播放时长会在待分析语音流对应的停顿响应时间内，因此，智能交互设备可以在控制语音播放模块播放目标语气词录音结束后，实时播放目标响应语音，以实现对待分析语音流分别确定的用户意图进行及时响应。

可以理解地，智能交互设备的处理器或者与智能交互设备相连的服务器在得到待分析语音流，并基于第一处理进程控制语音播放模块播放目标语气词录音后，调用状态监测工具实时监测语音播放模块播放目标语气词录音的播放状态，该播放状态包括播放结束和播放未结束。在语音播放模块播放目标语气词录音的播放状态为播放结束时，可调用第一处理进程控制语音播放模块播放待分析语音流对应的目标响应语音，以实现在播放目标语气词录音之后，自然地衔接播放目标响应语音，避免停顿响应时间过长而影响用户体验。其中，状态监测工具是预先设置的用于监测语音播放模块的播放状态的工具。

本实施例所提供的基于人工智能的语音响应处理方法中，先对语音交互过程中实时采集到的待处理语音流进行语句完整性分析，以确定待分析语音流，有助于提高后续识别分析的准确性和时效性。通过并行执行第一处理进程和第二处理进程，可使待分析语音流的识别过程与目标语气词录音的播放过程同时进行，实现在对待分析语音流进行分析处理的停顿响应时间内播放目标语气词录音提高语音交互的响应时间和响应效果。在实时监测到目标语气词录音的播放状态为播放结束后，控制语音播放模块播放目标响应语音，使得目标语气词录音和目标响应语音的播放之间衔接自然，有助于提高语音交互的响应效果

在一实施例中，如图3所示，步骤S202，即对待处理语音流进行语句完整性分析，得到待分析语音流，具体包括如下步骤：

S301：采用话音激活检测算法对待处理语音流进行监测，获取语音停顿点及对应的停顿时长。

话音激活检测(Voice Activity Detection，简称VAD)算法，其目的是检测当前语音信号中是否包含话音信号存在，即对输入信号进行判断，将话音信号与各种背景噪声信号区分出来的算法。

语音停顿点是采用VAD算法识别出待处理语音流中语音停顿的位置，即采用VAD算法识别用户说话停顿时在待处理语音流中的位置。语音停顿点对应的停顿时长是指采用VAD算法识别到语音停顿的开始时刻与结束时刻之间的时间差。

作为一示例，智能交互设备可以采用话音激活检测算法对待处理语音流进行静默监测，以确定用户说话停顿时在待处理语音流中对应的语音停顿点以及任一语音停顿点对应的停顿时长，以便基于语音停顿点对应的停顿时长分析用户是否说完一句话，从而进行语句完整性分析。

S302：将停顿时长大于预设时长阈值的语音停顿点确定为目标停顿点。

其中，预设时长阈值是预先设置的用于评估用户说完一句话后停顿的时长阈值。目标停顿点是从待处理语音流中分析确定的用户说完一句话时的停顿位置。

作为一示例，智能交互设备将任一语音停顿点对应的停顿时长与预设时长阈值进行比较；若停顿时长大于预设时长阈值，则认定用户已经说完一句话，此时，将该停顿时长对应的语音停顿点确定为目标停顿点；若停顿时长不大于预设时长阈值，则认定用户还未说完一句话，此时的语音停顿点为用户说话过程中的短暂停顿，因此，不将该停顿时长对应的语音停顿点确定为目标停顿点。

S303：基于相邻两个目标停顿点，得到待分析语音流。

具体地，智能交互设备在从实时采集的待处理语音流中确定至少两个目标停顿点之后，将相邻两个目标停顿点之间的语音流确定为待分析语音流，使得该待分析语音流可以反映用户想要表述的完整语句，以便于提高后续识别分析的准确性和时效性，即可使后续对待分析语音流进行识别分析时，无需对目标停顿点之间的信号进行识别分析，保障其时效性；由于每一待分析语音流反映用户想要表述的完整语句，使得后续识别和响应的准确性更高。

作为一示例，智能交互设备将开始录制待处理语音流的起始时刻所在的位置确定为初始目标停顿点；然后，将在初始目标停顿点之后的下一个目标停顿点确定为结束目标停顿点，基于起始目标停顿点和结束目标停顿点确定一个待分析语音流；最后，将结束目标停顿点更新为新的初始目标停顿点，重复执行将在初始目标停顿点之后的下一个目标停顿点确定为结束目标停顿点，基于起始目标停顿点和结束目标停顿点确定一个待分析语音流这一步骤，以实现从待处理语音流中实时划分出多个待分析语音流，从而保证待分析语音流确定的实时性，有助于提高后续对待分析语音流进行识别分析的准确性和时效性。

本实施例所提供的基于人工智能的语音响应处理方法中，先采用VAD算法监测实时采集的待处理语音流中的语音停顿点及对应的停顿时长，以保证处理过程中客观性。将停顿时长大于预设时长阈值的语音停顿点确定为目标停顿点，避免后续停顿时长不大于预设时长阈值的语音停顿点进行语音划分而导致后续识别分析过程不准确。再基于相邻两个目标停顿点确定待分析语音流，从而使得该待分析语音流可以反映用户想要表述的完整语句，以便于提高后续识别分析的准确性和时效性。

在一实施例中，如图4所示，步骤S203中的调用第一处理进程控制语音播放模块播放目标语气词录音，具体包括调用第一处理进程执行的如下步骤：

S401：获取待分析语音流对应的语音时长。

具体地，智能交互设备可调用第一处理进程，确定待分析语音流对应的相邻两个目标停顿点，根据这两个目标停顿点，获取待分析语音流对应的语音时长。作为一示例，智能交互设备基于相邻两个目标停顿点，确定待分析语音流，具体是指将待处理语音流中，上一目标停顿点的结束时刻到下一目标停顿点的开始时刻之间的语音流确定为待分析语音流，此时，可以将上一目标停顿点的结束时刻到下一目标停顿点的开始时刻之间的时间差，确定为待分析语音流对应的语音时长。可以理解地，待分析语音流对应的语音时长可以基于相邻两个目标停顿点的开始时刻和结束时刻确定，使得语音时长的确定过程简单方便，有助于提高后续处理的效率。

S402：基于语音时长查询系统数据库，基于与语音时长相匹配的原始语气词录音确定目标语气词录音，控制语音播放模块播放目标语气词录音。

其中，系统数据库是设置在智能交互设备上的或者与智能交互设备相连的用于存储语音交互过程中涉及到相关数据的数据库。原始语气词录音是预先录制的用于使智能交互设备与用户进行人机交互时播放的与语气词相关的录音。目标语气词录音是原始语气词录音中的一个，具体为与待分析语音流对应的语音时长相匹配的一个原始语气词录音。

作为一示例，系统数据库中可以预先录制不同播放时长对应的原始语气词录音，在获取待分析语音流对应的语音时长之后，基于该待分析语音流对应的语音时长预估对待分析语音流进行识别分析所需的预估处理时长；然后，从系统数据库中选择播放时长与预估处理时长相匹配的原始语气词录音，作为目标语气词录音，控制语音播放模块播放目标语气词录音。例如，系统数据库中预先存储时长对照表，用于待分析语音流的语音时长和其预估处理时长之间的对应关系，以便后续可以通过查表操作快速确定预估处理时长。其中，播放时长与预估处理时长相匹配可以理解为播放时长与预估处理时长之间的时间差最小或者时间差在预设误差范围内，使得后续在待分析语音流进行识别分析过程的停顿响应时间内实时播放目标语气词录音之后，可以更自然地在播放完目标语气词录音之后衔接播放目标响应语音，有助于提高响应处理的效率。

进一步地，在从系统数据库中选择播放时长与预估处理时长相匹配的原始语气词录音的数量为至少两个时，即存在至少两个原始语音词录音对应的播放时长与预估处理时长之间的时间差在预设误差范围内时，认定存在至少两个原始语气词录音，此时，需从至少两个原始语气词录音随机选取一个作为目标语气词录音，或者从至少两个原始语气词录音选择与上次选用的目标语气词录音不相同的一个作为目标语气词录音。

本实施例所提供的基于人工智能的语音响应处理方法中，基于待分析语音流对应的相邻两个目标停顿点，可快速确定待分析语音流对应的语音时长，使其获取过程简单方便，效率较高；再基于与语音时长相匹配的原始语气词录音确定目标语气词录音，以实现更自然地在播放完目标语气词录音之后衔接播放目标响应语音，有助于提高响应处理的效率。

在一实施例中，如图5所示，步骤S203中的调用第二处理进程对待分析语音流进行识别，获取目标响应语音，具体包括调用第二处理进程执行的如下步骤：

S501：对待分析语音流进行语音识别，对应的待分析文本。

其中，待分析文本是指对待分析语音流进行语音识别后确定的文本内容。本实施例中，对待分析语音流进行语音识别，以获取待分析语音流对应的待分析文本的过程可以理解为将待分析语音流这种语音信号转换成可进行后续识别的文本信息的过程。

作为一示例，智能交互设备可采用ASR(Automatic Speech Recognition的简称，即自动语音识别)技术或者预先训练好的可实现语音文本转换的静态解码网络对待分析语音流进行语音识别，从而可快速获取待分析语音流对应的待分析文本，以便后续进行语义分析。

S502：对待分析文本进行语义分析，获取待分析文本对应的目标意图。

其中，目标意图是对待分析文本进行语义分析后确定的用户意图。本实施例中，对待分析文本进行语义分析，以获取待分析文本对应的目标意图的过程可以理解为采用人工智能技术从待分析文本这一文本信息中分析用户意图的过程，相当于人脑从用户话语中分别用户意图的过程。

作为一示例，智能交互设备可以采用NLP(Natural Language Processing的简称，即自然语言处理)技术或者预先基于神经网络构建的语义分析模型对待分析文本进行语义分析，以从待分析文本中准确且快速地确定目标意图。

S503：基于目标意图查询系统数据库，获取目标意图对应的目标响应话术。

其中，目标响应话术是智能交互设备基于分析出的目标意图进行响应的话术，该目标响应话术以文本形式存在，是对待分析文本所识别出的目标意图的响应。例如，若待分析文本所识别出的目标意图为“A产品的收益率”，则其对应的目标响应话术为“A产品的收益率为……”，或者，若待分析文本所识别出的目标意图为“我本月待还款金额是多少”，则其对应的目标响应话术为“您本月待还款金额是……”等。

作为一示例，智能交互设备在确定待分析文本对应的目标意图后，基于目标意图查询系统数据库，从系统数据库中直接获取目标意图对应的目标响应话术，或者从系统数据库获取与目标意图对应的响应内容，并基于响应内容形成目标响应话术。

S504：基于目标响应话术，获取目标响应语音。

其中，目标响应语音是与目标响应话术相对应的语音。可以理解地，该目标响应语音可以理解为在智能交互设备与用户进行人机交互时，需从待分析语音流对应的停顿响应时间之后实时播放，具体是针对待分析语音流中识别出目标意图进行响应的语音。

作为一示例，基于目标响应话术确定目标响应语音的过程，既可以通过查询系统数据库，以确定与目标响应话术相对应的预先录制的目标响应语音，以使目标响应语音的获取效率较快；也可以采用文本语音转换技术将目标响应话术进行文本语音转换处理，以获取对应的目标响应语音，以保障目标响应语音的实时性。此处的文本语音转换技术是用于实现将文本内容转换成语音内容的技术，例如TTS语音合成技术。

本实施例所提供的基于人工智能的语音响应处理方法中，通过对待分析语音流进行语音识别和语义分析，可快速确定其目标意图；再基于目标意图确定目标响应话术及对应的目标响应语音，从而实现基于语音录音模块实时采集并截取的待分析语音流进行识别分析和响应，以实现智能交互，使得智能交互设备可广泛应用在需对人工提问进行响应的场景，如设置在公共场所上的用于方便用户咨询的智能交互设备，以节省人力成本。

在一实施例中，如图6所示，步骤S503，即基于目标意图查询系统数据库，获取目标意图对应的目标响应话术，具体包括如下步骤：

S601：基于目标意图，确定意图类型。

其中，意图类型是根据目标意图确定其所属的类型。作为一示例，可将意图类型划分为通用意图和专用意图。其中，通用意图是指用于查询通用信息的意图，即用于查询与特定用户信息无关的通用信息的意图，例如，用于查询A产品的收益率的意图。专用意图是指用于查询专用信息的意图，即用于查询与特定用户信息相关的专用信息的意图，例如，用于查询用户1的贷款金额及还款期限等专用信息的意图。

S602：若意图类型为通用意图，则基于目标意图查询通用话术数据库，获取目标意图对应的目标响应话术。

其中，通用话术数据库是专用于存储通用响应话术的数据库，是系统数据库中的一个子数据库。通用响应话术是预先设置的针对通用问题进行响应回复的话术。

作为一示例，在待分析文本识别出的目标意图为通用意图时，说明用户想查询与特定用户信息无关的通用信息，这些通用信息可在通用话术数据库中存储有相应的通用响应话术，因此，智能交互终端可基于目标意图查询通用话术数据库，以将与目标意图相对应的通用响应话术作为目标响应话术，使得目标响应话术的获取效率较高。

S603：若意图类型为专用意图，则基于目标意图查询专用信息数据库，获取意图查询结果，基于专用意图对应的话术模板和意图查询结果，获取目标意图对应的目标响应话术。

其中，专用信息数据库是专用于存储用户专用信息的数据库，是系统数据库中的一个子数据库。用户专用信息是用于存储与用户相关的信息，例如，用户的帐户余额或者贷款金额等信息。专用意图对应的话术模板是预先设置的与专用意图相对应的用于针对专用意图进行响应回程的话术对应的模板。例如，针对“我想了解我的月还款信息”，则其对应的话术模板为“您的月还款金额为……，还款日期为……”等。

作为一示例，在待分析文本识别出的目标意图为专用意图时，说明用户想要查询与特定用户信息相关的专用信息，这些专用信息一般存储在专用信息数据库中，因此，智能交互设备可基于目标意图查询专用信息数据库，以快速获取与专用意图相对应的意图查询结果，再将意图查询结果填充在专用意图对应的话术模板上，以获取与目标意图对应的目标响应话术，以保障目标响应话术获取的实时性。

本实施例所提供的基于人工智能的语音响应处理方法中，针对待分析文本识别出的目标意图对应的意图类型，分别采用与通用意图和专用意图相对应的处理方式确定其对应的目标响应话术，以保障目标响应话术的获取效率和实时性。

在一实施例中，如图7所示，步骤S504，即基于目标响应话术，获取目标响应语音，具体包括如下步骤：

S701：若意图类型为通用意图，则基于目标响应话术查询系统数据库，将与目标响应话术对应的通用响应录音确定为目标响应语音。

作为一示例，在待识别文本识别出的目标意图为通用意图时，可将通用话术数据库中与目标意图相对应的通用响应话术确定为目标响应话术，以使目标响应话术的获取效率较快；为了进一步提高响应语音的获取效率，可预先录制与通用响应话术相对应的通用响应录音，并将通用响应录音存储在系统数据库中，在将通用响应话术确定为目标响应话术时，可直接将通用响应话术预先录制的通用响应录音确定为目标响应语音，以提高目标响应语音的获取效率。

S702：若意图类型为专用意图，则对目标响应话术进行语音合成，获取目标响应语音。

作为一示例，在待识别文本识别出的目标意图为专用意图时，其基于目标意图确定的目标响应话术是将与目标意图相对应的意图查询结果填充在话术模板上形成的文本内容，此时，系统数据库中不会存在与目标响应话术相对应的目标响应语音，因此，需采用文本语音转换技术将目标响应话术进行文本语音转换，以获取对应的目标响应语音，以保障目标响应语音的实时性。此处的文本语音转换技术是用于实现将文本内容转换成语音内容的技术，例如TTS语音合成技术。

本实施例所提供的基于人工智能的语音响应处理方法中，针对待分析文本识别出的目标意图对应的意图类型，在意图类型为通用类型，可直接将通用响应录音作为目标响应语音，以提高目标响应语音的获取效率；在意图类型为专用意图时，对目标响应话术进行文本语音转换，从而获取目标响应语音，以提高目标响应语音的实时性。

在一实施例中，如图8所示，步骤S204，即实时监测语音播放模块播放目标语气词录音的播放状态，若播放状态为播放结束，则控制语音播放模块播放目标响应语音，具体包括如下步骤：

S801：实时监测语音播放模块播放目标语气词录音的播放状态，若播放状态为播放结束，则判断在预设时间段内能否获取目标响应语音。

由于目标语气词录音是用于在采集到待分析语音流至播放目标响应语音之间的停顿响应时间内，通过语音播放模块播放给用户的语音，以实现过渡衔接自然，避免停顿响应时间过长而导致用户体验差，因此，需保证在目标语气词录音播放结束后，可实时切换至播放目标响应语音，但当前智能交互设备在播放目标语气词录音结束之后，可能会存在因故障而无法及时获取目标响应语音，使得无法切换播放目标响应语音，此时若无其他响应机制，会使智能交互设备较长时间无响应，会影响用户体验。

因此，智能交互设备可调用预先设置的状态监测工具实时监测语音播放模块播放目标语气词录音的播放状态；若播放状态为播放结束，则需判断能否在预设时间段内能否获取目标响应语音，以根据判断结果进行后续处理。其中，预设时间段是预先设置的时间段；若播放状态为播放未结束，则需继续等待，直至监测到其播放状态为播放结束，才执行判断预设时间段内能否获取目标响应语音。

S802：若在预设时间段内能获取目标响应语音，则实时播放目标响应语音。

作为一示例，若智能交互设备在预设时间段内能获取目标响应语音，则在获取到目标响应语音后，实时播放目标响应语音，以实现从播放目标语气词到播放目标响应语音的实时切换，使用智能交互设备可及时进行语音响应，避免停顿响应时间过长而影响用户体验。

S803：若在预设时间段内不能获取目标响应语音，则执行应急处理机制。

其中，应急处理机制是预先设置的用于在预设时间内不能获取目标响应语音时的处理机制。作为一示例，若智能交互设备在预设时间段内不能获取目标响应语音，此时，可获取语气词播放次数；若语气词播放次数小于预设次数阈值，则随机播放下一语气词录音，以使智能交互设备及时响应，使得目标响应语音播放之前进行响应，而不会使用户在较长时间处于等待响应状态而无响应；若语气词播放次数不小于预设次数阈值，则随机播放故障提示语音，以使用户及时了解智能交互设备是否故障，避免继续等待响应。其中，语气词播放次数是指当前已经播放过的语气词录音的次数。故障提示语音是预先设置的用于提示设备存在故障的语音，该故障提示语音具体可以与不能获取目标响应语音的故障原因相对应。

本实施例所提供的基于人工智能的语音响应处理方法中，根据在目标语气词录音播放结束后的预设时间段内能否获取目标响应语音的判断结果，分别播放目标响应语音或者应急处理机制对应的语音，以实现对用户说话形成的待分析语音流进行及时响应，提高响应效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种基于人工智能的语音响应处理装置，该基于人工智能的语音响应处理装置与上述实施例中基于人工智能的语音响应处理方法一一对应。如图9所示，该基于人工智能的语音响应处理装置包括待处理语音流获取模块901、待分析语音流获取模块902、播放分析并行处理模块903和响应语音实时播放模块904。各功能模块详细说明如下：

待处理语音流获取模块901，用于获取语音录音模块实时采集的待处理语音流。

待分析语音流获取模块902，用于对待处理语音流进行语句完整性分析，得到待分析语音流。

播放分析并行处理模块903，用于并行执行第一处理进程和第二处理进程，调用第一处理进程控制语音播放模块播放目标语气词录音，调用第二处理进程对待分析语音流进行识别，获取目标响应语音。

响应语音实时播放模块904，用于实时监测语音播放模块播放目标语气词录音的播放状态，若播放状态为播放结束，则控制语音播放模块播放目标响应语音。

优选地，待分析语音流获取模块902，包括停顿时长获取单元、目标停顿点确定单元和待分析语音流获取单元。

停顿时长获取单元，用于采用话音激活检测算法对待处理语音流进行监测，获取语音停顿点及对应的停顿时长。

目标停顿点确定单元，用于将停顿时长大于预设时长阈值的语音停顿点确定为目标停顿点。

待分析语音流获取单元，用于基于相邻两个目标停顿点，得到待分析语音流。

优选地，播放分析并行处理模块903，包括语音时长获取单元和语气词播放控制单元。

语音时长获取单元，用于获取待分析语音流对应的语音时长。

语气词播放控制单元，用于基于语音时长查询系统数据库，基于与语音时长相匹配的原始语气词录音确定目标语气词录音，控制语音播放模块播放目标语气词录音。

优选地，播放分析并行处理模块903，包括待分析文本获取单元、目标意图获取单元、目标响应话术获取单元和目标响应语音获取单元。

待分析文本获取单元，用于对待分析语音流进行语音识别，获取待分析语音流对应的待分析文本。

目标意图获取单元，用于对待分析文本进行语义分析，获取待分析文本对应的目标意图。

目标响应话术获取单元，用于基于目标意图查询系统数据库，获取目标意图对应的目标响应话术。

目标响应语音获取单元，用于基于目标响应话术，获取目标响应语音。

优选地，目标响应话术获取单元，包括意图类型确定子单元、通用话术确定子单元和专用话术确定子单元。

意图类型确定子单元，用于基于目标意图，确定意图类型。

通用话术确定子单元，用于若意图类型为通用意图，则基于目标意图查询通用话术数据库，获取目标意图对应的目标响应话术。

专用话术确定子单元，用于若意图类型为专用意图，则基于目标意图查询专用信息数据库，获取意图查询结果，基于专用意图对应的话术模板和意图查询结果，获取目标意图对应的目标响应话术。

优选地，目标响应语音获取单元，包括通用语音确定子单元和专用语音确定子单元。

通用语音确定子单元，用于若意图类型为通用意图，则基于目标响应话术查询系统数据库，将与目标响应话术对应的通用响应录音确定为目标响应语音。

专用语音确定子单元，用于若意图类型为专用意图，则对目标响应话术进行语音合成，获取目标响应语音。

优选地，响应语音实时播放模块904，包括响应语音接收判断单元、第一响应处理单元和第二响应处理单元。

响应语音接收判断单元，用于实时监测语音播放模块播放目标语气词录音的播放状态，若播放状态为播放结束，则判断在预设时间段内能否获取目标响应语音。

第一响应处理单元，用于若在预设时间段内能获取目标响应语音，则实时播放目标响应语音。

第二响应处理单元，用于若在预设时间段内不能获取目标响应语音，则执行应急处理机制。

关于基于人工智能的语音响应处理装置的具体限定可以参见上文中对于基于人工智能的语音响应处理方法的限定，在此不再赘述。上述基于人工智能的语音响应处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于智能交互设备中的处理器中，也可以以软件形式存储于智能交互设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种智能交互设备，该智能交互设备可以是服务器，其内部结构图可以如图10所示。该智能交互设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该智能交互设备的处理器用于提供计算和控制能力。该智能交互设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该智能交互设备的数据库用于存储执行基于人工智能的语音响应处理方法过程采用或者生成的数据。该智能交互设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种基于人工智能的语音响应处理方法。本示例中，可读存储介质可以是非易失性可读存储介质，也可以是易失性可读存储介质。

在一个实施例中，提供了一种智能交互设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现上述实施例中基于人工智能的语音响应处理方法，例如图2所示S201-S204，或者图3至图8中所示，为避免重复，这里不再赘述。或者，处理器执行计算机可读指令时实现基于人工智能的语音响应处理装置这一实施例中的各模块/单元的功能，例如图9所示的待处理语音流获取模块901、待分析语音流获取模块902、播放分析并行处理模块903和响应语音实时播放模块904的功能，为避免重复，这里不再赘述。

在一实施例中，提供一个或多个存储有计算机可读指令的可读存储介质，可读存储介质存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述实施例中基于人工智能的语音响应处理方法，例如图2所示S201-S204，或者图3至图8中所示，为避免重复，这里不再赘述。或者，该计算机可读指令被处理器执行时实现上述基于人工智能的语音响应处理装置这一实施例中的各模块/单元的功能，例如图9所示的待处理语音流获取模块901、待分析语音流获取模块902、播放分析并行处理模块903和响应语音实时播放模块904的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种基于人工智能的语音响应处理方法，其中，包括：

获取语音录音模块实时采集的待处理语音流；

对所述待处理语音流进行语句完整性分析，得到待分析语音流；

并行执行第一处理进程和第二处理进程，调用所述第一处理进程控制语音播放模块播放目标语气词录音，调用所述第二处理进程对所述待分析语音流进行识别，获取目标响应语音；

实时监测所述语音播放模块播放所述目标语气词录音的播放状态，若所述播放状态为播放结束，则控制所述语音播放模块播放所述目标响应语音。
如权利要求1所述的基于人工智能的语音响应处理方法，其中，所述对所述待处理语音流进行语句完整性分析，得到待分析语音流，包括：

采用话音激活检测算法对所述待处理语音流进行监测，获取语音停顿点及对应的停顿时长；

将停顿时长大于预设时长阈值的语音停顿点确定为目标停顿点；

基于相邻两个所述目标停顿点，得到待分析语音流。
如权利要求1所述的基于人工智能的语音响应处理方法，其中，所述调用所述第一处理进程控制语音播放模块播放目标语气词录音，包括：

获取所述待分析语音流对应的语音时长；

基于所述语音时长查询系统数据库，基于与所述语音时长相匹配的原始语气词录音确定目标语气词录音，控制语音播放模块播放目标语气词录音。
如权利要求1所述的基于人工智能的语音响应处理方法，其中，所述调用所述第二处理进程对所述待分析语音流进行识别，获取目标响应语音，包括：

对所述待分析语音流进行语音识别，获取所述待分析语音流对应的待分析文本；

对所述待分析文本进行语义分析，获取所述待分析文本对应的目标意图；

基于所述目标意图查询系统数据库，获取所述目标意图对应的目标响应话术；

基于所述目标响应话术，获取目标响应语音。
如权利要求4所述的基于人工智能的语音响应处理方法，其中，所述基于所述目标意图查询系统数据库，获取所述目标意图对应的目标响应话术，包括：

基于所述目标意图，确定意图类型；

若所述意图类型为通用意图，则基于所述目标意图查询通用话术数据库，获取所述目标意图对应的目标响应话术；

若所述意图类型为专用意图，则基于所述目标意图查询专用信息数据库，获取意图查询结果，基于所述专用意图对应的话术模板和所述意图查询结果，获取所述目标意图对应的目标响应话术。
如权利要求5所述的基于人工智能的语音响应处理方法，其中，所述基于所述目标响应话术，获取目标响应语音，包括：

若所述意图类型为通用意图，则基于所述目标响应话术查询系统数据库，将与所述目标响应话术对应的通用响应录音确定为所述目标响应语音；

若所述意图类型为专用意图，则对所述目标响应话术进行语音合成，获取目标响应语音。
如权利要求1所述的基于人工智能的语音响应处理方法，其中，所述实时监测所述语音播放模块播放所述目标语气词录音的播放状态，若所述播放状态为播放结束，则控制所述语音播放模块播放所述目标响应语音，包括：

实时监测所述语音播放模块播放所述目标语气词录音的播放状态，若所述播放状态为播放结束，则判断在预设时间段内能否获取所述目标响应语音；

若在所述预设时间段内能获取所述目标响应语音，则实时播放所述目标响应语音；

若在所述预设时间段内不能获取所述目标响应语音，则执行应急处理机制。
一种基于人工智能的语音响应处理装置，其中，包括：

待处理语音流获取模块，用于获取语音录音模块实时采集的待处理语音流；

待分析语音流获取模块，用于对所述待处理语音流进行语句完整性分析，得到待分析语音流；

播放分析并行处理模块，用于并行执行第一处理进程和第二处理进程，调用所述第一处理进程控制语音播放模块播放目标语气词录音，调用所述第二处理进程对所述待分析语音流进行识别，获取目标响应语音；

响应语音实时播放模块，用于实时监测所述语音播放模块播放所述目标语气词录音的播放状态，若所述播放状态为播放结束，则控制所述语音播放模块播放所述目标响应语音。
一种智能交互设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

获取语音录音模块实时采集的待处理语音流；

对所述待处理语音流进行语句完整性分析，得到待分析语音流；

并行执行第一处理进程和第二处理进程，调用所述第一处理进程控制语音播放模块播放目标语气词录音，调用所述第二处理进程对所述待分析语音流进行识别，获取目标响应语音；

实时监测所述语音播放模块播放所述目标语气词录音的播放状态，若所述播放状态为播放结束，则控制所述语音播放模块播放所述目标响应语音。
如权利要求9所述的智能交互设备，其中，所述对所述待处理语音流进行语句完整性分析，得到待分析语音流，包括：

采用话音激活检测算法对所述待处理语音流进行监测，获取语音停顿点及对应的停顿时长；

将停顿时长大于预设时长阈值的语音停顿点确定为目标停顿点；

基于相邻两个所述目标停顿点，得到待分析语音流。
如权利要求9所述的智能交互设备，其中，所述调用所述第一处理进程控制语音播放模块播放目标语气词录音，包括：

获取所述待分析语音流对应的语音时长；

基于所述语音时长查询系统数据库，基于与所述语音时长相匹配的原始语气词录音确定目标语气词录音，控制语音播放模块播放目标语气词录音。
如权利要求9所述的智能交互设备，其中，所述调用所述第二处理进程对所述待分析语音流进行识别，获取目标响应语音，包括：

对所述待分析语音流进行语音识别，获取所述待分析语音流对应的待分析文本；

对所述待分析文本进行语义分析，获取所述待分析文本对应的目标意图；

基于所述目标意图查询系统数据库，获取所述目标意图对应的目标响应话术；

基于所述目标响应话术，获取目标响应语音。
如权利要求12所述的智能交互设备，其中，所述基于所述目标意图查询系统数据库，获取所述目标意图对应的目标响应话术，包括：

基于所述目标意图，确定意图类型；

若所述意图类型为通用意图，则基于所述目标意图查询通用话术数据库，获取所述目标意图对应的目标响应话术；

若所述意图类型为专用意图，则基于所述目标意图查询专用信息数据库，获取意图查询结果，基于所述专用意图对应的话术模板和所述意图查询结果，获取所述目标意图对应的目标响应话术。
如权利要求9所述的智能交互设备，其中，所述实时监测所述语音播放模块播放所述目标语气词录音的播放状态，若所述播放状态为播放结束，则控制所述语音播放模块播放所述目标响应语音，包括：

实时监测所述语音播放模块播放所述目标语气词录音的播放状态，若所述播放状态为播放结束，则判断在预设时间段内能否获取所述目标响应语音；

若在所述预设时间段内能获取所述目标响应语音，则实时播放所述目标响应语音；若在所述预设时间段内不能获取所述目标响应语音，则执行应急处理机制。
一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取语音录音模块实时采集的待处理语音流；

对所述待处理语音流进行语句完整性分析，得到待分析语音流；

并行执行第一处理进程和第二处理进程，调用所述第一处理进程控制语音播放模块播放目标语气词录音，调用所述第二处理进程对所述待分析语音流进行识别，获取目标响应语音；

实时监测所述语音播放模块播放所述目标语气词录音的播放状态，若所述播放状态为播放结束，则控制所述语音播放模块播放所述目标响应语音。
如权利要求15所述的可读存储介质，其中，所述对所述待处理语音流进行语句完整性分析，得到待分析语音流，包括：

采用话音激活检测算法对所述待处理语音流进行监测，获取语音停顿点及对应的停顿时长；

将停顿时长大于预设时长阈值的语音停顿点确定为目标停顿点；

基于相邻两个所述目标停顿点，得到待分析语音流。
如权利要求15所述的可读存储介质，其中，所述调用所述第一处理进程控制语音播放模块播放目标语气词录音，包括：

获取所述待分析语音流对应的语音时长；

基于所述语音时长查询系统数据库，基于与所述语音时长相匹配的原始语气词录音确定目标语气词录音，控制语音播放模块播放目标语气词录音。
如权利要求15所述的可读存储介质，其中，所述调用所述第二处理进程对所述待分析语音流进行识别，获取目标响应语音，包括：

对所述待分析语音流进行语音识别，获取所述待分析语音流对应的待分析文本；

对所述待分析文本进行语义分析，获取所述待分析文本对应的目标意图；

基于所述目标意图查询系统数据库，获取所述目标意图对应的目标响应话术；

基于所述目标响应话术，获取目标响应语音。
如权利要求18所述的可读存储介质，其中，所述基于所述目标意图查询系统数据库，获取所述目标意图对应的目标响应话术，包括：

基于所述目标意图，确定意图类型；

若所述意图类型为通用意图，则基于所述目标意图查询通用话术数据库，获取所述目标意图对应的目标响应话术；

若所述意图类型为专用意图，则基于所述目标意图查询专用信息数据库，获取意图查询结果，基于所述专用意图对应的话术模板和所述意图查询结果，获取所述目标意图对应的目标响应话术。
如权利要求15所述的可读存储介质，其中，所述实时监测所述语音播放模块播放所述目标语气词录音的播放状态，若所述播放状态为播放结束，则控制所述语音播放模块播放所述目标响应语音，包括：

实时监测所述语音播放模块播放所述目标语气词录音的播放状态，若所述播放状态为播放结束，则判断在预设时间段内能否获取所述目标响应语音；

若在所述预设时间段内能获取所述目标响应语音，则实时播放所述目标响应语音；

若在所述预设时间段内不能获取所述目标响应语音，则执行应急处理机制。