WO2023102889A1

WO2023102889A1 - 语音交互的方法和装置

Info

Publication number: WO2023102889A1
Application number: PCT/CN2021/137038
Authority: WO
Inventors: 李宏广; 高益; 聂为然
Original assignee: 华为技术有限公司
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2023-06-15
Also published as: CN116583820A

Abstract

一种训练语音交互应答语模型的方法（300）和装置（1000），方法（300）包括：获取用户的第一语音指令（S301）；对第一语音指令的文本进行特征提取，以得到第一指令文本（S302）；根据第一语音指令的文本和第一指令文本对第一待训练模型进行训练，以得到语音交互应答语模型，语音交互应答语模型输出的文本具有用户的表达特征，语音交互应答语模型用于根据用户的语音指令进行应答，第一指令文本为第一待训练模型的输入，第一语音指令的文本为训练标签（S303）。在应用中根据用户的语音指令对模型进行训练，使得训练后的模型可以根据用户的语音指令输出符合用户表达习惯的个性化应答语。

Description

语音交互的方法和装置

技术领域

本申请实施例涉及人机交互技术领域，并且更具体的，涉及一种语音交互的方法和装置。

背景技术

技术的发展为人机交互带来巨大变革，用户对智能化、个性化的语音交互诉求增加，如何最大化利用语音交互来提高用户交互体验成为当前的研究热点。以智能汽车场景中的人机交互为例，在实际驾驶中由于交通路况复杂，对于传统的触屏式的交互方式用户往往反应不及时，导致极高的驾驶风险。而基于自然语言理解(natural language understanding，NLU)的人机交互技术可以完全解放驾驶员的双手，实现语音控制车内的所有控件，包括支持导航、音乐、电台等的随心控制，从而提高驾驶安全性，提升用户体验感。然而目前的人机交互中的语音应答过于机械、生硬，缺乏自然的语言表达，存在话术同质化高的问题，不能实现自然通顺且个性化的应答。

发明内容

本申请实施例提供一种语音交互的方法和装置，可以根据用户的语音表达习惯来训练模型，使得训练后的模型可以根据用户的语音指令输出的符合用户表达习惯的个性化应答语。

第一方面，提供了一种语音交互的方法，包括：获取用户的第一语音指令；对第一语音指令的文本进行特征提取，以得到第一指令文本；根据第一语音指令的文本和第一指令文本对第一待训练模型进行训练，以得到语音交互应答语模型，该语音交互应答语模型输出的文本具有用户的表达特征，该语音交互应答语模型用于根据用户的语音指令进行应答，第一指令文本为第一待训练模型的输入，第一语音指令的文本为训练标签。

本申请实施例的语音交互的方法可以根据用户的语音表达习惯来训练模型，模型的训练数据来源直接，可以是在用户使用语音交互系统的过程中，通过日常的语音交互采集用户的语音指令，根据特征提取方式获取待训练模型的输入，并以用户的语音指令作为待训练模型的训练标签，来训练得到语音交互应答语模型，而无需再人为额外撰写或收集训练数据。此外，由于直接使用用户的语音指令对待训练模型进行训练，通过训练好的语音交互应答语模型所输出的文本具有用户的表达特征，即为符合用户表达习惯的文本，由此可以实现语音交互系统在与用户交互的过程中，输出符合用户表达习惯的应答语语音，提升用户体验。

在某些实现方式中，对第一语音指令的文本进行特征提取，以得到第一指令文本，包括：对第一语音指令的文本进行特征提取，以得到第一语音指令的意图信息和槽位信息；根据意图信息、槽位信息和预设模板获取第一指令文本。

应注意，在某些实现方式中，预设模板将意图信息和槽位信息组合成为一个语句文本，而并不是针对第一语音指令的意图信息和槽位信息生成相应的应答语文本，相当于是将原来用户发出的个性化的、具有自己语言表达习惯的第一语音指令文本中个性化的、具有自己语言表达习惯的特征去掉，只留下最基本的能表达用户意图信息和槽位信息的特征。

在某些实现方式中，用户包括多个用户。

在某些实现方式中，用户为第一用户，第一用户和第一语音交互应答语模型之间具有第一映射，第一映射用于指示第一语音交互应答语模型与第一用户对应，第一语音交互应答语模型是根据第一用户的语音指令训练得到的。

在实际应用过程中，这里的用户可以表示一个或多个用户。具体的，本申请实施例中的语音交互系统可以根据不同的用户训练出分别对应于各个用户的语音交互应答语模型，每个语音交互应答语模型输出的文本符合各个用户的语言表达习惯。由此，可以实现对于不同的用户输出符合该用户表达习惯的应答语，例如对于父母可以输出较为成熟风格的应答语，对于孩童可以输出天真风格的应答语。

在某些实现方式中，第一待训练模型包括三个子模型，三个子模型为标记模型、指针模型和插入模型。

在某些实现方式中，根据第一语音指令的文本和第一指令文本对第一待训练模型进行训练，包括：将第一指令文本输入标记模型，以得到第一指令文本的特征标记序列，特征标记序列为对第一指令文本进行特征标记得到；将特征标记序列输入指针模型，以得到特征排序序列，特征排序序列为将特征标记序列中的特征重新排序得到；将特征排序序列输入插入模型，以得到输出序列，输出序列为向特征排序序列中插入第一特征得到；将第一语音指令的文本作为训练标签更新标记模型、指针模型和插入模型的参数。

在某些实现方式中，将第一语音指令的文本作为训练标签更新标记模型、指针模型和插入模型的参数，包括：将第一语音指令的文本作为训练标签计算标记模型的第一损失函数、指针模型的第二损失函数和插入模型的第三损失函数；根据第一损失函数、第二损失函数和第三损失函数更新标记模型、指针模型和插入模型的参数。

在某些实现方式中，第一待训练模型是根据预设训练语句和预设训练语句的预设标签训练得到的。

待训练模型在此之前已经经过了初步的训练，经过初步训练的待训练模型在用户使用过程中可以根据用户的语音指令输出比较自然的应答语文本。例如，待训练模型可以是在出厂前经过初步的训练，或者是在之前的升级过程中经过了初步的训练，或者，还可以在之前的使用过程中通过其他方法进行的训练。

第二方面，提供了一种语音交互方法，包括：获取用户的第二语音指令；根据第二语音指令获取第一应答语文本；将第一应答语文本输入语音交互应答语模型，以输出第二应答语文本，语音交互应答语模型是根据第一语音指令的文本和第一指令文本训练得到，第一指令文本是将第一语音指令的文本进行特征提取得到，第一语音指令为用户的语音指令。

本申请实施例的语音交互方法使用根据用户日常的语音交互中发出的语音指令训练得到的语音交互应答语模型来生成应答语，使得生成的应答语符合该用户的语言表达习惯。且针对不同的用户匹配不同的语音交互应答语模型，从而可以实现个性化、千人千面的应答语表达，极大提升了用户的使用感受。

在某些实现方式中，根据第二语音指令获取第一应答语文本，包括：根据第二语音指令获取第二语音指令的意图信息和槽位信息；根据意图信息、槽位信息和预设模板获取第一应答语文本。

应注意，与上述第一方面中不同，这里的第一应答语文本则是对第二语音指令做出的回答，只是该第一应答语文本还不符合用户的语言表达习惯，较为机械化。

在某些实现方式中，用户包括多个用户。

在某些实现方式中，用户为第一用户，第一应答语输入语音交互应答语模型，包括：根据第一映射获取第一语音交互应答语模型，第一语音交互应答语模型是根据第一用户的语音指令训练得到的，第一映射用于指示第一语音交互应答语模型与第一用户对应；将第一应答语的文本输入第一语音交互应答语模型。

本申请实施例中的语音交互系统可以根据不同的用户训练出分别对应于各个用户的语音交互应答语模型，每个语音交互应答语模型输出的文本符合各个用户的语言表达习惯。

在某些实现方式中，方法还包括：滤除第二应答语文本中的预设语言信息。

在实际训练过程中，如果用户的用语不太文明，可能导致根据用户语音指令训练得到的语音交互应答语模型输出不文明的应答语文本，因此在输出给用户之前，需要将语音交互应答语模型输出的第二应答语文本进行过滤，滤除第二应答语文本中的不文明语言信息。

在某些实现方式中，方法还包括：将第二应答语文本输入语音合成引擎，以生成第二应答语语音。

在某些实现方式中，在获取用户的第二语音指令之前，方法还包括：获取用户的第三语音指令；将第三语音指令输入第一待训练模型，以输出第三应答语文本，第一待训练模型是根据预设训练语句和预设训练语句的预设标签训练得到的。

该第三应答语文本为较为自然的应答语文本，但还并不符合该用户的语言表达习惯。

在某些实现方式中，语音交互应答语模型和第一待训练模型为非自回归模型。

第三方面，提供了一种语音交互的装置，包括：获取单元，用于获取用户的第一语音指令；处理单元，用于对第一语音指令的文本进行特征提取，以得到第一指令文本；处理单元还用于根据第一语音指令的文本和第一指令文本对第一待训练模型进行训练，以得到语音交互应答语模型，该语音交互应答语模型输出的文本具有用户的表达特征，该语音交互应答语模型用于根据用户的语音指令进行应答，第一指令文本为第一待训练模型的输入，第一语音指令的文本为训练标签。

在某些实现方式中，处理单元具体用于：对第一语音指令的文本进行特征提取，以得到第一语音指令的意图信息和槽位信息；根据意图信息、槽位信息和预设模板获取第一指令文本。

在某些实现方式中，用户包括多个用户。

在某些实现方式中，处理单元具体用于：将第一指令文本输入标记模型，以得到第一指令文本的特征标记序列，特征标记序列为对第一指令文本进行特征标记得到；将特征标记序列输入指针模型，以得到特征排序序列，特征排序序列为将特征标记序列中的特征重新排序得到；将特征排序序列输入插入模型，以得到输出序列，输出序列为向特征排序序列中插入第一特征得到；将第一语音指令的文本作为训练标签更新标记模型、指针模型和插入模型的参数。

在某些实现方式中，处理单元具体用于：将第一语音指令的文本作为训练标签计算标记模型的第一损失函数、指针模型的第二损失函数和插入模型的第三损失函数；根据第一损失函数、第二损失函数和第三损失函数更新标记模型、指针模型和插入模型的参数。

第四方面，提供了一种语音交互装置，包括：获取单元，用于获取用户的第二语音指令；处理单元，用于根据第二语音指令获取第一应答语文本；处理单元还用于，将第一应答语文本输入语音交互应答语模型，以输出第二应答语文本，语音交互应答语模型是根据第一语音指令的文本和第一指令文本训练得到，第一指令文本是将第一语音指令的文本进行特征提取得到，第一语音指令为用户的语音指令。

在某些实现方式中，处理单元具体用于：根据第二语音指令获取第二语音指令的意图信息和槽位信息；根据意图信息、槽位信息和预设模板获取第一应答语文本。

在某些实现方式中，用户包括多个用户。

在某些实现方式中，处理单元具体用于：根据第一映射获取第一语音交互应答语模型，第一语音交互应答语模型是根据第一用户的语音指令训练得到的，第一映射用于指示第一语音交互应答语模型与第一用户对应；将第一应答语文本输入第一语音交互应答语模型。

在某些实现方式中，处理单元还用于：滤除第二应答语文本中的第一语言信息，第一语言信息为预设的。

在某些实现方式中，处理单元还用于：将第二应答语文本输入语音合成引擎，以生成第二应答语语音。

在某些实现方式中，处理单元还用于：获取用户的第三语音指令；将第三语音指令输入第一待训练模型，以输出第三应答语文本，第一待训练模型是根据预设训练语句和预设训练语句的预设标签训练得到的。

第五方面，提供了一种计算机可读介质，计算机可读介质存储有程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述第一方面和第二方面中任一项所述的方法。

第六方面，提供了一种芯片，包括：至少一个处理器和存储器，至少一个处理器与存储器耦合，用于读取并执行存储器中的指令，以执行上述第一方面和第二方面中任一项所述的方法。

本申请实施例的语音交互的方法可以根据用户的语音表达习惯来训练模型，模型的训练数据来源直接，可以是在用户使用语音交互系统的过程中，通过日常的语音交互采集用户的语音指令，根据特征提取的方式获取待训练模型的输入，并以用户的语音指令作为待训练模型的训练标签，来训练得到语音交互应答语模型，而无需再人为额外撰写或收集训练数据。此外，由于直接使用用户的语音指令对待训练模型进行训练，通过训练好的语音交互应答语模型所输出的文本具有用户的表达特征，即为符合用户表达习惯的文本，由此可以实现语音交互系统在与用户交互的过程中，输出的符合用户表达习惯的应答语语音，提升用户体验。

附图说明

图1是本申请实施例的一种语音交互系统100的示意图；

图2是本申请实施例的一种系统架构200的示意图；

图3是本申请实施例的语音交互的方法的示意性流程图；

图4是本申请实施例的语音交互的系统架构的示意图；

图5是本申请实施例的语音交互方法的示意性流程图；

图6是本申请实施例的另一种语音交互的系统的示意性框图；

图7是本申请实施例的生成通用性自然应答语文本的示意性流程图；

图8是本申请实施例的训练语音交互应答语模型的示意性流程图；

图9是本申请实施例的生成个性化自然应答语文本的示意性流程图；

图10是本申请实施例的语音交的装置1000的示意性框图；

图11是本申请实施例的语音交互装置1100的示意性框图；

图12是本申请实施例的装置1200的结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

语音交互相较于传统的触屏式交互为用户的生活带来更大的便利性，基于自然语言理解的人机交互技术可以完全解放用户的双手，使用户通过语音即可控制相应的设备。本申请的方案可以应用在人机交互场景中，例如电子设备的人机交互和车载系统的人机交互场景中。其中，电子设备具体可以包括智能手机、个人数字助理(personal digital assistant，PDA)以及平板电脑等等。车载系统具体可以是车载芯片、车载装置(例如车机、车载电脑、具有语音识别功能的传感器等)等设备中的一个或多个。本申请实施例的语音交互方法包括模型的训练过程，电子设备或车载系统可以将获取的用户的语音指令上传至云端，云端对用户的语音指令进行处理，并根据处理后的结果对模型进行训练，然后将训练好的语音交互应答语模型发送至电子设备或车载系统；或者，电子设备或车载系统可以对获取的用户的语音指令进行一定的预处理，例如将语音指令转换为文本，然后对文本进行特征提取，以得到指令文本，再将指令文本上传至云端，云端根据指令文本对模型进行训练，然后将训练好的语音交互应答语模型发送至电子设备或车载系统；又或者，电子设备或车载系统可以将获取的用户的语音指令上传至云端，由云端对用户的语音指令进行一定的预处理，例如将语音指令转换为文本，然后对文本进行特征提取，以得到指令文本，再将指令文本发送至电子设备或车载系统，电子设备或车载系统根据收到的指令文本对模型进行训练，以得到训练好的语音交互应答语模型。训练好的语音交互应答语模型可以应用于电子设备的人机交互和车载系统的人机交互场景，包括根据用户的语音指令输出相应的应答语文本，电子设备或车载系统中的语音合成引擎根据应答语文本生成相应的应答语语音输出给用户。

下面对两种较为常用的应用场景进行简单的介绍。

应用场景1：智能驾驶的应用场景

在智能驾驶的应用场景中，用户可以通过语音控制智能驾驶设备。例如，用户可以向车载的语音助手发出语音指令，以控制智能驾驶设备。在一些可能的示例中，用户通过语音，可以调节座椅靠背的倾斜度、调节车内空调的温度、开启或关闭座椅加热器、开启或关闭车灯、开启或关闭车窗、开启或关闭后备箱、规划导航路线、播放个性化歌单等。在智能驾驶的应用场景中，语音交互有利于为用户提供便捷的驾驶环境。

应用场景2：智能家居的应用场景

在智能家居的应用场景中，用户可以通过语音控制智能家居设备。例如，用户可以向物联网设备(例如，智能家居设备)或物联网控制设备(如手机等)发出语音指令，以控制物联网设备。在一些可能的示例中，用户通过语音，可以控制智能空调的温度、控制智能电视播放用户指定的电视剧、控制智能烹饪设备在用户指定的时间启动、控制智能窗帘开启或关闭、控制智能灯具调整色温等。在智能家居的应用场景中，语音交互有利于为用户提供舒适的家居环境。

图1是一种语音交互系统100的示意图，图1所示的语音交互系统可以用于执行本申请实施例的语音交互方法。

执行设备110可以是具有语音识别能力、自然语言理解能力等的设备。执行设备110例如可以是服务器。可选的，执行设备110还可以与其它计算设备配合，例如：数据存储、路由器、负载均衡器等设备。执行设备110可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备110可以使用数据存储系统150中的数据，或者调用数据存储系统150中的程序代码实现语音识别、机器学习、深度学习、模型训练等功能中的至少一种。图1中的数据存储系统150可以集成在执行设备110上，也可以设置在云上或其它网络服务器上。

用户可以操作各自的本地设备(例如本地设备101和本地设备102)与执行设备110进行交互。图1所示的本地设备例如可以表示各类语音交互终端，例如前文所述的电子设备和车载系统等。用户对本地设备发出语音指令，本地设备将用户的语音指令发送给执行设备110，执行设备对用户的语音指令进行处理，并根据处理结果执行相应的指令。

用户的本地设备可以通过有线或无线通信网络与执行设备110进行交互，通信网络的通信方法、制式或标准不做限定，可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

在一种实现中，本地设备101可以为执行设备110提供本地数据或反馈计算结果。

在另一种实现中，执行设备110的所有或部分功能可以由本地设备实现。例如，本地设备101实现执行设备110的功能并为自己的用户提供服务，或者为本地设备102的用户提供服务。

在本申请实施例的语音交互方法中，执行设备对语音指令的处理结果发送给本地设备，使得本地设备可以对用户的语音指令做出相应的应答。

图2是一种系统架构200的示意图，图2中的系统可以用于执行本申请实施例的训练语音交互应答语模型的方法。

数据采集设备260可以用于采集训练数据，这里采集的训练数据可以是人工设计的训练语句及其标签，也可以是用户在使用过程中发出的语音指令。数据采集设备260还可以用于将训练数据存入数据库230。训练设备220可以基于数据库230中维护的训练数据训练得到目标模型/规则201，这里训练得到的目标模型/规则201可以是本申请实施例的语音交互应答语模型。训练设备220也不一定完全基于数据库230维护的训练数据进行目标模型/规则201的训练，也可以从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

所述数据库230中维护的训练数据不一定都来自于数据采集设备260的采集，也有可能是从其他设备接收得到的。在一个示例中，数据库230中的训练数据可以通过客户设备240获取，或者可以通过执行设备210获取。客户设备240例如可以包括各类语音交互终端。执行设备210可以是具有语音识别能力、自然语言理解能力等的设备。例如，通过数据采集设备260获得语音信息并进行相关处理，可以获得输入文本的文本特征、目标语音的音标特征等训练数据；还可以通过数据采集设备260获取输入文本的文本特征和目标语音的音标特征。又如，语音信息可以直接作为训练数据。在另一个示例中，同一账户可以登录在多个客户设备240上，该多个客户设备240采集到的数据均可以维护在数据库230中。

可选地，上述训练数据例如可以包括语音、语料、热词等数据中的一种或多种。语音可以指负载了一定语言意义的声音。语料即语言材料，可以指用文本以及文本上下文关系等描述现实世界中的语言以及语言的上下文关系。热词，可以理解为热门词汇。热词可以是一种词汇现象，热词可以反映一些人在一个时期内相对关注的问题、话题、事物等。不同时间阶段的热词可能不同。

在一个可能的示例中，上述训练数据例如可以包括输入语音(输入语音例如可以来自用户，也可以是其他设备获取到的语音)。

在另一个可能的示例中，上述训练数据例如可以包括输入语音的特征向量(如音标特征，音标特征例如可以反映输入语音的音标)。输入语音的特征向量可以通过对输入语音进行特征提取得到。

在另一个可能的示例中，上述训练数据例如可以包括与输入语音对应的目标文本等。

在再一个可能的示例中，上述训练数据例如可以包括与输入语音对应的目标文本的文本特征。目标文本可以通过对输入语音进行特征预处理后得到。目标文本的文本特征可以通过对目标文本进行特征提取得到。

应理解，输入语音可以由客户设备240发送给数据采集设备260，也可以由数据采集设备260从存储装置读取获得，还可以通过实时采集获得。

根据训练设备220训练得到目标模型/规则201，可以是基于神经网络搭建的模型，这里的神经网络可以是卷积神经网络(convolutional neuron network，CNN)、循环神经网络(recurrent neural network，RNN)、时间递归神经网络(long-short term memory，LSTM)、双向时间递归神经网络(bidirectional long-short term memory,BLSTM)、深度卷积神经网络(deep convolutional neural networks，DCNN)等等。

上述训练设备220得到的目标模型/规则201可以应用于不同的系统或设备中。在图2所示的系统化架构200中，执行设备210可以配置有输入/输出(input/output，I/O)接口212。通过该I/O接口212，执行设备210能够与执行设备210的外部设备进行数据交互。如图2所示，“用户”可以通过客户设备240向I/O接口212输入数据。例如，用户可以通过客户设备240向I/O接口212输入中间预测结果，再由客户设备240将经过一定处理后得到的中间预测结果经I/O接口212发送给执行设备210。中间预测结果例如可以是与输入语音对应的目标文本等。

可选的，训练设备220可以针对不同的目标或称不同的用户，基于不同的训练数据生成相应的目标模型/规则201，该相应的目标模型/规则201即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

可选的，目标模型/规则201可以是在基础语音模型的基础上训练获得的。在训练过程中，目标模型/规则201的一部分可以更新，目标模型/规则201的另一部分可以不更新。目标模型/规则201的更新部分可以对应于个性化语音子模型。目标模型/规则201的不更新部分可以对应于通用语音子模型。基础语音模型可以是训练设备220利用多人的语音、语料等预先训练好的，也可以是已有的语音模型。

客户设备240和计算模块211可以配合工作。客户设备240和计算模块211可以根据上述个性化语音子模型和通用语音子模型，对输入到客户设备240的数据和/或输入到执行设备210的数据(例如来自于客户设备240的中间预测结果)进行处理。在一个示例中，客户设备240可以对输入的用户语音进行处理，获得该用户语音对应的音标特征或文本特征；然后，客户设备240可以将该音标特征或文本特征输入到计算模块211。在其他示例中，执行设备210的预处理模块213可以从根据I/O接口112接收到输入语音，并对输入语音进行特征预处理和特征提取，得到目标文本的文本特征。预处理模块213可以将目标文本的文本特征输入到计算模块211计算模块211可以将该音标特征或文本特征输入到目标模型/规则201中，从而得到语音识别的输出结果(例如语义识别结果、与语音指令对应的操作等)。计算模块211可以将该输出结果输入到客户设备240，使得客户设备240可以执行相应操作以响应用户的语音指令。

I/O接口212可以将输入数据发送给执行设备210相应模块，也可以将输出结果返回给客户设备240，提供给用户。例如，I/O接口212可以将输入语音对应的中间预测结果发送给计算模块211，也可以将识别语音后得到的结果返回给客户设备240。

在图2所示的系统架构200中，用户可以向客户设备240中输入语音、语料等数据，可以在客户设备240查看执行设备210输出的结果，具体的呈现形式可以是声音或者声音与显示的组合等具体方式。客户设备240也可以作为数据采集端将采集到的语音、语料等数据存入数据库230。当然，也可以不经过客户设备240进行采集，而是由其他设备将用户的语音、语料等数据及I/O接口212的输出结果，作为新的样本数据存入数据库230。

在图2所示的系统架构200中，根据客户设备240数据处理能力的不同，执行设备210和数据存储系统250可以集成在不同的设备中。例如，当客户设备240的数据处理能力较强时，执行设备210和数据存储系统250可以集成在客户设备240中；而当客户设备240数据处理能力不是很强时，执行设备210和数据存储系统250可以集成在专门的数据处理设备中。图2中的数据库230、训练设备220以及数据采集设备260既可以集成在专门的数据处理设备中，也可以设置在云上或网络上的其它服务器上，还可以分别设置在客户设备240和数据处理设备中。

值得注意的是，图2仅是本申请实施例提供的一种系统架构的示意图，图2中所示设备、器件、模块等之间的位置关系不构成任何限制。例如，在图2中，数据存储系统250相对执行设备210是外部存储器，在其它情况下，也可以将数据存储系统250置于执行设备210中。又如，在一些可能的示例中，执行设备210可以置于客户设备240中。目标模型/规则201的通用语音子模型可以是客户设备240的出场语音模型。在客户设备240出厂后，目标模型/规则201的个性化语音子模型可以根据客户设备240采集到的数据进行更新。

在进行语音交互时，智能设备除了根据用户的语音指令执行相应的操作之外，还可以根据用户的语音指令和相应的操作做出应答，例如在图1所示的系统中，本地设备101获取用户的语音指令，并将语音指令发送给执行设备110，执行设备110对语音指令进行处理，以得到相应的执行指令，同时生成语音指令对应的应答语，并将执行指令和应答语发送给本地设备101，本地设备除了执行相应的执行指令，还将应答语输出给用户。而现有的语音应答主要是基于应答语模板实现，不同的语音交互场景有不同的应答语模板，一般来说，基于应答语模板生成的应答语过于机械、生硬，且在实际应用中，不同的用户的表达习惯不同，基于应答语模板生成应答语的方法难以满足自然、个性化和契合用户表达习惯的要求。

因此本申请实施例提供一种训练语音交互应答语模型的方法，在应用中根据用户的语音指令对模型进行训练，使得训练后的模型输出的应答语符合用户的个性化表达，其中本申请实施例的一种训练语音交互应答语模型的方法可以由图2中的系统来实现，图2中的数据采集设备260获取用户的语音指令，并存储在数据库230中，训练设备220根据数据库230中的语言指令对模型进行训练，以得到训练好的语音交互应答语模型，训练好的语音交互应答语模型存储在图1中的数据存储系统150中。此外，本申请实施例还提供一种语音交互方法，使用本申请实施例提供的训练语音交互应答语模型的方法训练好的语音交互应答语模型对用户的语音指令进行处理，具体的，在图1中的系统中，执行设备110通过本地设备101获取用户指令，然后根据数据存储系统150中的语音交互应答语模型对语音指令进行处理，以得到相应的自然的、个性化的且契合用户表达习惯的应答语，并通过本地设备输出给用户，从而提升用户的使用感受。

图3示出了本申请实施例的训练语音交互应答语模型的方法的示意性流程图，图3所示的方法可以应用于用户使用语音交互系统的过程中，例如，例如电子设备的人机交互和车载系统的人机交互场景中，以车载系统为例，当语音交互系统为车载语音交互系统，在用户日常与车载语音交互系统进行语音交互的过程中，车载语音交互系统获取用户的语音指令后，根据用户发出的语音指令即可实现对语音交互应答语模型的训练，训练好的语音交互应答语模型可以应用于车载语音交互系统的人机交互场景，包括根据用户的语音指令输出相应的应答语文本，语音合成引擎根据应答语文本生成相应的应答语语音输出给用户，使得车载语音交互系统输出的应答语更加个性化和符合用户的表达习惯。本方案可以由车载设备，例如车机系统、车载装置、车载处理器等装置来实现，也可以由车载设备将获取的用户的语音指令上传至云端，云端对用户的语音指令进行处理，并根据处理后的结果对模型进行训练，然后将训练好的语音交互应答语模型发送至车载设备；或者，车载设备可以对获取的用户的语音指令进行一定的预处理，例如将语音指令转换为文本，然后对文本进行特征提取，以得到指令文本，再将指令文本上传至云端，云端根据指令文本对模型进行训练，然后将训练好的语音交互应答语模型发送至车载设备；又或者，车载语音交互系统可以将获取的用户的语音指令上传至云端，由云端对用户的语音指令进行一定的预处理，例如将语音指令转换为文本，然后对文本进行特征提取，以得到指令文本，再将指令文本发送至车载设备，车载设备根据收到的指令文本对模型进行训练，以得到训练好的语音交互应答语模型。图3所示的方法包括步骤301至步骤303，以下分别进行介绍。

S301，获取用户的第一语音指令。

如上所述，该第一语音指令为用户在与语音交互系统进行交互的过程中对语音交互系统发出的语音指令。例如，用户根据自己的表达习惯向语音交互系统发出第一语音指令“来首说唱歌曲ABC旋律贼棒的”，则语音交互系统可以根据用户的该第一语音指令对待训练模型进行训练。应理解，图3的方法为对待训练模型进行再训练的过程，这意味着，待训练模型在此之前可以预先经过了初步的训练，例如，待训练模型可以是在出厂前经过初步的训练，或者是在之前的升级过程中经过了初步的训练，或者，还可以在之前的使用过程中通过其他方法进行的训练。因此，在用户使用过程中，用户对语音交互系统发出第一语音指令，语音交互系统会根据经过初步训练的待训练模型做出该第一语音指令相对应的应答语，已完成本次的语音交互，然后将用户本次的第一语音指令保存起来(例如保存在图2所示的系统的数据库230中)，在必要时候根据用户的第一语音指令对待训练模型进行训练，例如在采集到预设数目的用户的语音指令后对待训练模型进行训练，或者在用户使用语音交互系统至预设时间后对待训练模型进行训练，具体可以由人为预先设定，本申请实施例在此不做限定。

S302，对第一语音指令的文本进行特征提取，以得到第一指令文本。

将第一语音指令转换为文本，然后对第一语音指令的文本进行特征提取，以得到第一指令文本。具体的，首先对第一语音指令的文本进行特征提取，从而得到第一语音指令的意图信息和槽位信息，然后根据第一语音指令的意图信息和槽位信息以及预设模板获取第一指令文本。其中第一指令文本为只保留第一语音指令的意图信息和槽位信息的简洁的语句文本，与第一语音指令的文本相比，不包含任何个性化的表达。例如第一语音指令的文本为“来首说唱歌曲ABC旋律贼棒的”，则第一指令文本为“播放歌曲是ABC”。

下面介绍一种示例性的具体过程，首先将第一语音指令转换为语音音频信号，同时可以对语音音频信号进行降噪、放大等处理，以便于后续进行语音识别；然后将语音音频信号转换为文本信号，再使用意图解码器从文本信号中提取意图信息，使用语义槽位解码器从文本信号中提取槽位信息；最后根据意图信息、槽位信息和预设模板得到第一指令文本，应注意，预设模板将意图信息和槽位信息简单组合成为一个语句文本，而并不是针对第一语音指令的意图信息和槽位信息生成相应的应答语文本，相当于是将原来用户发出的个性化的、具有自己语言表达习惯的第一语音指令文本中个性化的、具有自己语言表达习惯的特征去掉，只留下最基本的能表达用户意图信息和槽位信息的特征。

S303，根据第一语音指令的文本和第一指令文本对第一待训练模型进行训练，以得到语音交互应答语模型，其中，第一指令文本为第一待训练模型的输入，第一语音指令的文本为训练标签。

将上述得到的第一指令文本作为第一待训练模型的输入，第一语音指令的文本作为第一待训练模型的训练标签，对第一待训练模型进行训练。其中，第一待训练模型包括三个子模型，分别为标记模型、指针模型和插入模型，或者初始待训练模型为一个模型同时包括该三个子模型的功能。以下以三个子模型为例对初始待训练模型的训练进行介绍，应理解，当初始待训练模型为一个模型同时包括该三个子模型的功能时，可以参照以下的训练过程。

第一待训练模型的具体训练过程为，首先将第一指令文本输入标记模型，标记模型对第一指令文本进行特征标记，从而得到特征标记序列；其中，对第一指令文本进行特征标记包括判断第一指令文本中哪些特征需要删除、哪些特征需要维持、哪些位置需要插入新的特征以及插入多少个新的特征等，然后为相应特征或在相应位置处做上标记；例如，对于第一指令文本“播放歌曲是ABC”，特征“播放”、“是”需要删除，特征“歌曲”、“ABC”需要保留，同时在特征“歌曲”之前还需要插入4个新的特征，在特征“ABC”之后还需要插入5个新的特征，则在相应位置处做上相应的标记。然后将特征标记序列输入指针模型，指针模型对特征标记序列进行排序，从而得到特征排序序列；具体的，指针模型对标记了删除的特征进行删除，对标记了维持的特征进行重新排序，例如对于第一指令文本“播放歌曲是ABC”，将特征“播放”、“是”进行删除，将特征“歌曲”排在特征“ABC”之前，并在特征“歌曲”之前预留4个待插入的位置，在特征“ABC”之后预留5个待插入的位置。最后将排序序列输入插入模型，插入模型向特征排序序列中插入第一特征，从而得到输出序列，例如对于第一指令文本“播放歌曲是ABC”，在上述得到的排序序列中，在特征“歌曲”之前预留4个待插入的位置分别插入特征“来”、“首”、“说”、“唱”，在特征“ABC”之后预留5个待插入的位置分别插入特征“旋”、“律”、“贼”、“棒”、“的”，从而得到输出序列为“来首说唱歌曲ABC旋律贼棒的”，该输出序列即为第一待训练模型训练过程中的输出序列。

待训练模型的总体损失函数由标记模型的损失函数、指针模型的损失函数、插入模型的损失函数构成，通过将输出序列与训练标签进行比较，计算三个子模型的损失函数并反馈给三个子模型，调整三个子模型的参数，从而达到训练语音交互应答语模型的目的。损失函数用于刻画训练的模型和目标模型的匹配度，以此作为依据通过梯度下降的算法更新训练的模型参数。

如S301中所述，图3的方法为对待训练模型进行再训练的过程，待训练模型在此之前已经经过了初步的训练，例如，待训练模型可以是在出厂前经过初步的训练，或者是在之前的升级过程中经过了初步的训练，或者，还可以在之前的使用过程中通过其他方法进行的训练。这里的初步的训练是指待训练模型在出厂前已根据预设训练语句和预设训练语句的预设标签进行了训练，预设训练语句和预设训练语句的预设标签可以由人为撰写或者从历史记录中获取，经过初步训练的待训练模型在用户使用过程中可以根据用户的语音指令输出比较自然的应答语文本。例如对于第一语音指令“来首说唱歌曲ABC旋律贼棒的”，经过初步训练的待训练模型输出比较自然的应答语文本“ABC为您播放了哈”。

经过上述步骤训练得到的语音交互应答语模型即可输出个性化、符合用户语音表达习惯的文本。在实际应用过程中，这里的用户可以表示一个或多个用户。具体的，本申请实施例中的语音交互系统可以根据不同的用户训练出分别对应于各个用户的语音交互应答语模型，每个语音交互应答语模型输出的文本符合各个用户的语言表达习惯。例如，语音交互系统可以通过识别不同用户的音色来判断语音指令是否来自不同的用户，或者还可以结合其他传感器例如摄像头传感器对用户进行面部识别，以此判断当前语音指令是来自哪一个用户，从而将获取的每个用户的语音指令存储到数据库的不同集合中，然后根据该不同的集合分别训练出不同的语音交互应答语模型。同时，为每个用户与对应的语音交互应答语模型之间建立映射关系，例如，对于第一用户，第一用户和第一语音交互应答语模型之间具有第一映射，第一映射用于指示第一语音交互应答语模型与第一用户对应，第一语音交互应答语模型是根据第一用户的语音指令训练得到的。由此，可以实现对于不同的用户输出符合该用户表达习惯的应答语，例如对于父母可以输出较为成熟风格的应答语，对于孩童可以输出天真风格的应答语。

可选的，本申请实施例也可以根据多个不同的用户的语音指令训练出同一个语音交互应答语模型，该多个不同的用户具有相似的语言表达习惯。

本申请实施例的训练语音交互应答语模型的方法的训练数据来源直接，是在用户使用语音交互系统的过程中，通过日常的语音交互采集用户的语音指令，根据去个性化的特征提取方式获取待训练模型的输入，并以用户的语音指令作为待训练模型的训练标签，来训练得到语音交互应答语模型，而无需再人为撰写或收集训练数据。此外，由于直接使用用户的语音指令对待训练模型进行训练，训练好的音交互应答语模型输出的文本即为符合用户表达习惯的文本，由此可以实现语音交互系统输出的应答语为符合用户表达习惯的应答语语音，提升用户体验。

根据图3所示的训练语音交互应答语模型的方法训练得到的语音交互应答语模型可以应用于图4所示的语音交互的系统。图4示出了本申请实施例的语音交互的系统架构的示意图，如图4所示，该系统包括语音识别子系统、语义理解子系统、语义应答子系统和语音合成子系统。其中，语音识别子系统用于将音频设备采集到的语音信号转化为文本信号，语义理解子系统用于理解该文本信号的含义，语义应答子系统用于基于语义理解子系统的输出，确定应答语文本，语音合成子系统用于将应答语文化合成为相应的语音。此外，该系统还可以包括前处理系统，该前处理系统用于在语音识别子系统将音频设备采集到的语音信号转化为文本信号之前，预先对语音信号进行降噪和放大等前处理。

图5示出了本申请实施例的语音交互方法的示意性流程图，图5所示的方法可以使用图4所示的语音交互的系统来实现，通过图5所示的方法可以实现语音交互系统在与用户进行语音交互的过程中输出个性化、符合该用户语言表达习惯的应答语。图5所示的方法包括步骤501至步骤503，以下分别进行介绍。

S501，获取用户的第二语音指令。

这里以用户与语音交互系统进行一次语音交互的过程为例进行说明，第二语音指令即指用户在与语音交互系统进行语音交互的过程中用户对语音交互系统发出的语音指令，依然以第二语音指令为“来首说唱歌曲ABC旋律贼棒的”为例进行说明。

S502，根据所述第二语音指令获取第一应答语文本。

首先根据第二语音指令获取第二语音指令的意图信息和槽位信息，然后根据意图信息、槽位信息和预设应答语模板获取第一应答语文本。具体的，首先将第二语音指令转换为语音音频信号，同时可以对语音音频信号进行降噪、放大等处理，以便于后续进行语音识别；然后将语音音频信号转换为文本信号，再使用意图解码器从文本信号中提取意图信息，使用语义槽位解码器从文本信号中提取槽位信息；最后根据意图信息、槽位信息和预设应答语模板得到第一应答语文本，应注意，与上述S302中不同，S302中根据意图信息、槽位信息和预设模板得到第一指令文本，第一指令文本相当于是由第一语音指令去个性化得到，第一指令文本本质上还是为指令，而这里的第一应答语文本则是对第二语音指令做出的回答，只是该第一应答语文本还不符合用户的语言表达习惯，较为机械化。例如，当第二语音指令为“来首说唱歌曲ABC旋律贼棒的”，则根据预设应答语模板得到的相应的第一应答语文本为“为您播放歌曲ABC”。

S503，将所述第一应答语文本输入语音交互应答语模型，以输出第二应答语文本，所述语音交互应答语模型是根据第一语音指令的文本和第一指令文本训练得到，所述第一指令文本是将所述第一语音指令的文本进行特征提取得到，所述第一语音指令为所述用户的语音指令。

由于语音交互应答语模型已经通过图3所述的训练方法根据该用户的语音指令训练好，可以输出符合用户语言表达习惯的文本，因此将第一应答语文本输入训练好的语音交互应答语模型，输出的第二应答语文本即为符合语言表达习惯的应答语文本。

如前所述，本申请实施例中的语音交互系统可以根据不同的用户训练出分别对应于各个用户的语音交互应答语模型，每个语音交互应答语模型输出的文本符合各个用户的语言表达习惯。而每个语音交互应答语模型与每个用户之间具有映射关系，因此本申请实施例的方法还包括，当用户为第一用户时，根据第一映射获取第一语音交互应答语模型，第一语音交互应答语模型是根据第一用户的语音指令训练得到的，第一映射用于指示第一语音交互应答语模型与第一用户对应，然后将根据该用户的第二语音指令得到的第一应答语的文本输入第一语音交互应答语模型，由此可以输出符合该第一用户的语言表达习惯的应答语。在实际应用过程中，语音交互系统可以通过识别不同用户的音色来判断用户的身份，或者还可以结合其他传感器例如摄像头传感器对用户进行面部识别，以此判断当前用户的身份，从而根据映射关系获取与该用户对应的语音交互应答语模型。

可选的，在得到第二应答语文本后，本申请实施例的方法还包括，滤除第二应答语文本中的预设语言信息。在实际训练过程中，如果用户的用语不太文明，可能导致根据用户语音指令训练得到的语音交互应答语模型输出不文明的应答语文本，因此在输出给用户之前，需要将语音交互应答语模型输出的第二应答语文本进行过滤，滤除第二应答语文本中的不文明语言信息。具体的需要滤除的语言信息可以由开发人员在语音交互系统出厂前预先设定，也可以用户在使用过程中自由设定，本申请实施例在此不做限定。

在根据上述步骤获取到第二应答语文本后，将第二应答语文本输入语音合成引擎，以生成第二应答语语音，并播放第二应答语语音给用户，从而实现用户与语音交互系统的一次语音交互。

应理解，由于语音交互应答语模型是在用户使用过程中进行再训练得到的，而待训练模型在出厂前已经经过了初步的训练，因此在出厂后、再训练之前，本申请实施例的方法还包括，获取用户的第三语音指令，将第三语音指令输入第一待训练模型，以输出第三应答语文本，第一待训练模型是根据预设训练语句和预设训练语句的预设标签训练得到的。再将第三应答语文本输入语音合成引擎，以生成第三应答语语音，该第三应答语语音为较为自然的应答语，但并不符合该用户的语言表达习惯。

本申请实施例中的语音交互应答语模型和待训练模型均为非自回归模型(non-autoregressive translation，NART)，自回归模型(autoregressive translation，ART)每次会使用已生成的序列作为已知信息预测未来的一个单词，最终再把每个时间步生成的单词拼成一个完整的序列输出。时延大；与自回归模型相比，非自回归模型中每个单词之间没有依赖关系，整个输出序列的每个单词被并行地同步预测。

本申请实施例的训练语音交互应答语模型的方法主要针对车载语音交互应答场景，面向的产品主要是智能汽车领域的语音交互产品，具体形式可以是软件代码、功能接口，也可以是具有语音交互功能或语音交互处理功能的硬件，包括但不限于车机、语音交互系统、车、车载电脑、处理器等。本申请实施例的训练语音交互应答语模型的方法还可以拓展至智能音响、智能电视等智能家居相关产品中，涉及的产品包括但不限于处理器、计算设备、音响、电视和语音交互系统等。

图6示出了本申请实施例的更详细的一种语音交互的系统的示意性框图，如图6所示，包括前处理子系统、语音识别子系统、语义理解子系统、语义应答子系统和语音合成子系统。

前处理子系统用于将获取的用户的语音指令转换为语音音频信号，然后将语音音频信号传递给语音识别子系统。语音识别子系统用于将语音音频信号转换为文本信号，然后将文本信号传递给语义理解子系统。语义理解子系统根据文本信号得到相应的意图和槽位信息，然后将意图和槽位信息传递给语义应答子系统。语义应答子系统用于根据意图和槽位信息生成用户的语音指令对应的应答语文本，语义应答子系统中加载了本申请实施例的语音交互应答语模型，语音交互应答语模型在之前根据人工设计的训练数据离线训练，在之后的应用中，包括三个不同的阶段，第一阶段是通用性自然应答阶段，由于语音交互应答语模型之前根据通用性的训练数据进行训练，因此可以根据用户的语音指令输出通用性自然应答语文本，该阶段可以得到自然的语音应答语，使用户体验上更加自然；第二个阶段是个性化学习阶段，以用户的语音指令作为训练数据，让语音交互应答语模型在日常的人机交互中不断学习用户的语言习惯，强化机器的个性化表达的学习能力；第三个阶段是个性化自然应答阶段，即经过一段时间的个性化学习，语音交互应答语模型能够输出与用户语言表达习惯类似的应答语文本，带给用户更好的使用体验。语义应答子系统将生成的应答语文本传递给语音合成子系统，语音合成子系统将应答语文本转换为语音，然后输出给用户。

根据上述对于图6的语音交互系统的描述，以下结合图7至图9对本申请实施例的语音交互应答语模型应用的三个阶段进行介绍，其中应用场景以车载系统的人机交互场景为例，但应理解，本申请实施例的语音交互应答语模型的应用场景还包括其他电子设备的人机交互场景，包括智能终端、智能家居等的人机交互场景中。

当车机启动后，语音交互应答语模型被加载在图6所示的语音交互系统中，其中语音交互应答语模型是在之前已经根据人工设计的训练数据进行了训练，例如，待训练模型可以是在出厂前经过初步的训练，或者是在之前的升级过程中经过了初步的训练，或者，还可以在之前的使用过程中通过其他方法进行的训练。可以实现输出通用性自然应答文本。

图7示出了根据语音交互应答语模型生成通用性自然应答语文本的示意性流程图。首先，汽车启动或者汽车行驶过程中(主要是汽车使用过程中，不限于驻车或行驶状态)用户发出语音指令“来首说唱歌曲ABC旋律贼棒的”，音频采集设备(例如车内的麦克风等)将采集到的用户的语音指令输入前处理模块，前处理模块将语音指令转换为语音音频信号T＝t ₁ t ₂...t _n，其中t表示一个字节，n表示语音指令的长度，前处理模块可以对语音音频信号进行降噪、放大等处理，以便于后续模块进行语音识别、理解、应答等操作，前处理模块将语音音频信号T传递给语音识别模块。语音识别模块接收到语音音频信号T后，将其转换为文本信号X＝x ₁ x ₂…x _n，其中x表示一个字节，n表示文本信号X的长度，其中文本信号指从语音转换成的机器可以识别的文字，例如“你知道A地怎么去吗”的语音转换为“你知道A地怎么去吗”的文本，或者“来首说唱歌曲ABC旋律贼棒的”的语音转换为“来首说唱歌曲ABC旋律贼棒的”的文本，语音识别模块再将文本信号X传递给语义理解模块。语义理解模块接收到文本信号X后，首先将文本信号X转换为新的序列Z＝z ₁ z ₂…z _n，其中z表示一个字节，n表示文本序列Z的长度，然后语音识别模块中的语义意图解码器对文本序列Z进行处理，得到意图y ₁，语音识别模块中的语义槽位解码器对文本序列Z进行处理，得到槽位信息Y＝y ₂ y ₃…Y _n+1，例如将文本信号“奥利给！地点B走起，来首说唱歌曲ABC旋律贼棒的”输入该语义理解模块，可以输出语义意图“导航目的地地点B”、“播放歌曲ABC”，而语义槽位可以是导航的目的地“地点B”、播放的歌曲名“ABC”，语音识别模块将意图y ₁和槽位信息Y传递给语义应答模块。

如图7所示，语义应答模块根据现有的应答语模板、意图y ₁和槽位信息Y得到固定的模板应答语R＝r ₁ r ₂…r _m，其中r表示一个字节，m表示模板应答语R的长度，其中，应答语模板为预先训练好的语音应答模板，一个基于通用预料训练好的应答模型，例如针对于“播放歌曲是ABC”的设定语义应答语为“为您播放歌曲ABC”，针对于“导航目的地是地点B”的设定语义应答语为“已为您导航至地点B”。如图7中，得到的模板应答语为“为您播放歌曲ABC”，可以看出，由现有的应答语模板得到的模板应答语R较为机械生硬。模板应答语R被输入经过离线训练的语音交互应答语模型，语音交互应答语模型包括图7中的3个子模型，分别为标记模型、指针模型和文本插入模型，具体的，标记模型根据如下公式为模板应答语R的进行特征标记：

其中，

表示标记模型输出的特征标记序列中的第i个元素，arg max()表示最大值池化函数，BERT()表示特征提取函数，r _i为模板应答语R中的第i个元素。对于模板应答语为“为您播放歌曲ABC”，标记模型的输出如图7所示，其中标记“D”表示删除，标记“K”表示维持，标记“I^2”表示插入，标记模型给每一个字打一个标签，表示将这个字删除、保留还是插入。然后标记模型输出的特征标记序列作为指针模型的输入，指针模型用于标记将哪些字调整到哪些位置，如图7所示，指针模型将特征标记序列中标记“D”的特征删除，并根据如下公式对特征标记序列中标记“K”的多个特征进行重新排序：

其中，

表示指针模型输出的特征排序序列中的第i个元素，p()表示插入函数，π()表示排列函数。指针模型的输出如图7所示，其中特征“歌曲”被删除，特征“为您播放”和“ABC”重新排序，特征“为您播放”之后确定了两个插入位置。再将指针模型输出的特征排序序列作为插入模型的输入，插入模型根据如下公式在特征排序序列的插入位置插入适当的特征：

其中

表示插入模型输出的特征插入序列的第i个元素，BERT()表示对括号内的信号添加掩码。如图7所示，指针模型在特征“为您播放”之后插入特征“了哈”，从而得到语音交互应答语模型生成通用性自然应答语文本“ABC为您播放了哈”。最后将该通用性自然应答语文本输入语音合成模块，语音合成模块将其转换为通用性自然应答语语音并输出给用户，可以看出，该通用性自然应答语语音相较于根据应答语模板得到的模板应答语，表达更加通俗、自然。

然而在日常的使用中，上述通用性自然应答语语音可能还无法满足用户的需求，对于某些用户来说，可能希望语音交互系统输出的应答语更加个性化，更加符合用户的表达习惯。因此本申请实施例的方法还包括，在语音交互系统的日常使用中，根据用户的语音指令对语音交互应答语模型进行训练。

图8示出了根据用户的语音指令对语音交互应答语模型进行训练的示意性流程图，首先依然根据用户的语音指令获取语音指令对应的意图y ₁和槽位信息Y，这里依然以语音指令“来首说唱歌曲ABC旋律贼棒的”为例，具体过程可以参照上述对于图7中的根据用户的语音指令和前处理模块、语音识别模块、语音理解模块得到意图y ₁和槽位信息Y的过程的描述，本申请实施例在此不再赘述。如图8所示，然后根据现有的语义解析模板、语音指令对应的意图y ₁和槽位信息Y生成固定的语音交互指令，如图8所示，固定的语音交互指令为“播放歌曲是ABC”，可以看出，相比于用户的语音指令，固定的语音交互指令仅可以表达用户的意图并包括相应的槽位信息，但并不包括用户的习惯表达。本申请实施例的方法，将固定的语音交互指令“播放歌曲是ABC”作为语音交互应答语模型的训练语句，将用户的语音指令“来首说唱歌曲ABC旋律贼棒的”作为训练标签，对语音交互应答语模型进行训练。具体的，语音交互应答语模型包括标记模型、指针模型、插入模型，标记模型对固定的语音交互指令进行特征标记，以得到特征标记序列，指针模型对特征标记序列进行重新排序，以得到特征排序序列，插入模型在特征排序序列的插入位置插入适当的特征，最终得到输出序列。语音交互应答语模型的总体损失函数由标记模型的损失函数、指针模型的损失函数、插入模型的损失函数构成，向标记模型、指针模型和插入模型反馈更新三个模型的参数即可，通过调整3个子模型的参数，以使总体损失函数的值最小，从而得到训练好的可以实现个性化自然应答的语音交互应答语模型。值得注意的是，在根据用户的语音指令对语音交互应答语模型进行训练的过程中，语音交互应答语模型的输入为固定的语音交互指令，输出也为指令而非应答语，但是输出的指令与用户的语音指令相同或者符合用户的语言习惯表达。

在语音交互应答语模型训练好后，即可使用该训练好的语音交互应答语模型实现个性化自然应答。如图9所示，依然以语音指令“来首说唱歌曲ABC旋律贼棒的”为例，首先根据用户的语音指令获取语音指令对应的意图y ₁和槽位信息Y，具体过程可以参照上述对于图7中的根据用户的语音指令和前处理模块、语音识别模块、语音理解模块得到意图y ₁和槽位信息Y的过程的描述，本申请实施例在此不再赘述。然后根据现有的应答语模板、语音指令对应的意图y ₁和槽位信息Y生成固定的模板应答语R＝r ₁ r ₂…r _m，其中r表示一个字节，m表示模板应答语R的长度，如图9所示，模板应答语为“为您播放歌曲ABC”。然后将模板应答语R输入训练好的语音交互应答语模型，具体的，模板应答语R被输入标记模型，标记模型为模板应答语R的进行特征标记，以得到特征标记序列，如图9所示，其中标记“D”表示删除，标记“K”表示维持，标记“I^6”表示插入。然后标记模型输出的特征标记序列作为指针模型的输入，指针模型将特征标记序列中标记“D”的特征删除，对特征标记序列中标记“K”的多个特征进行重新排序，从而得到特征排序序列，具体如图9所示，其中特征“歌曲”被删除，特征“为您播放”和“ABC”重新排序，特征“为您播放”之后有6个插入位置。再将指针模型输出的特征排序序列作为插入模型的输入，插入模型在特征排序序列的插入位置插入适当的特征，如图9所示，指针模型在特征“为您播放”之后插入特征“旋律贼一流的”，从而得到语音交互应答语模型生成个性化自然应答语文本“为您播放旋律贼一流的ABC”。最后将该个性化自然应答语文本输入语音合成模块，语音合成模块将其转换为个性化自然应答语语音并输出给用户，可以看出，该个性化自然应答语相较于根据图7中的通用性自然应答语，表达更加个性化，更加符合用户的表达习惯，让用户有亲切之感。

应理解，图8和图9中的标记模型、指针模型、插入模型在数据处理过程中所依据的公式可以参考图7中的公式，为了简洁，本申请实施例在此不再赘述。

上述结合图7至图9对本申请实施例的语音交互模型的训练和应用作了详细介绍，图7中的方法对语音应答子系统进行训练，获得一个通用性自然应答语模型，该训练阶段可以在车辆启用前，在云端进行训练，也可以在本地进行训练，可以利用大量的同一类型的用户数据，也可以用本车数据进行训练。图8为在车辆启用后，根据用户的个性化语音习惯，对语音应答子系统进行训练，获得一个个性化自然应答语模型，该训练阶段可以在云端进行训练，也可以在本地进行训练，可以根据使用该车辆的某一用户的语音进行训练，也可以根据使用该车辆的多个用户的语音进行训练，例如用户的提问和日常交流时的用户语音。图9为根据训练好的个性化自然应答语模型对用户的语音做出应答，以得到符合用户表达习惯的个性化应答语，提升用户的使用体验。

以下以语音指令“来首说唱歌曲ABC旋律贼棒的”为例简要介绍在模型再训练前、再训练中和再训练后对该语音指令的处理。

模型再训练前，用户发出语音指令“来首说唱歌曲ABC旋律贼棒的”，音频采集设备将采集到的用户的语音指令输入前处理模块，前处理模块将语音指令转换为语音音频信号，同时前处理模块还可以对语音音频信号进行降噪、放大等处理，以便于后续模块进行语音识别、理解、应答等操作，然后前处理模块将语音音频信号T传递给语音识别模块。语音识别模块接收到语音音频信号后，将“来首说唱歌曲ABC旋律贼棒的”的语音转换为“来首说唱歌曲ABC旋律贼棒的”的文本信号，文本信号是指从语音转换成的机器可以识别的文字，语音识别模块再将文本信号传递给语义理解模块。语义理解模块接收到文本信号后，首先将文本信号转换为新的序列，然后语音识别模块中的语义意图解码器对文本序列进行处理，得到意图信息“播放歌曲”，语音识别模块中的语义槽位解码器对文本序列进行处理，得到槽位信息是播放的歌曲名“ABC”，语音识别模块将意图和槽位信息传递给语义应答模块。语义应答模块根据现有的应答语模板、意图和槽位信息得到固定的模板应答语“为您播放歌曲ABC”。再将得到的固定的模板应答语输入之前前经过初步训练的模型，模型输出应答语文本“ABC为您播放了哈”。最后将该应答语文本输入语音合成引擎，语音合成引擎将其转换为应答语语音并输出给用户，与固定的模板应答语相比，该应答语语音表达更加通俗、自然。

模型再训练过程中，依照上述过程得到语音指令对应的意图和槽位信息，然后根据现有的语义解析模板、语音指令对应的意图和槽位信息生成固定的语音交互指令“播放歌曲是ABC”，将该固定的语音交互指令作为模型再训练过程中的输入，将用户的语音指令“来首说唱歌曲ABC旋律贼棒的”作为用户的语音指令“来首说唱歌曲ABC旋律贼棒的”作为训练标签，对模型进行再训练。

模型再训练好后，对于用户的语音指令依然按照上述过程获取语音指令对应的意图和槽位信息，然后根据现有的应答语模板、意图和槽位信息生成固定的模板应答语“为您播放歌曲ABC”。然后将模板应答语输入再训练好的模型，模型输出应答语文本“为您播放旋律贼一流的ABC”。最后将该应答语文本输入语音合成引擎，语音合成引擎将其转换为应答语语音并输出给用户，与再训练前的模型输出的应答语相比，再训练后的模型输出的该应答语语音表达更加个性化，更加符合用户的表达习惯，让用户有亲切之感。

上文结合附图对本申请实施例的方法进行了详细的描述，下面对本申请实施例的装置进行描述，应理解，本申请实施例的装置能够执行本申请实施例的方法的各个步骤，下面在介绍本申请实施例的装置时适当省略重复的描述。

图10为本申请的语音交互的装置的示意性框图，该语音交互的装置可以是终端，例如前文所述电子设备或车载系统，也可以是终端内部的芯片，例如车载芯片等，如图10所示，该训练语音交互应答语模型的装置包括获取单元1001，处理单元1002，以下进行简要介绍。

获取单元1001，用于获取用户的第一语音指令。

处理单元1002，用于对第一语音指令的文本进行特征提取，以得到第一指令文本。

处理单元1002还用于根据第一语音指令的文本和第一指令文本对第一待训练模型进行训练，以得到语音交互应答语模型，该语音交互应答语模型输出的文本具有用户的表达特征，该语音交互应答语模型用于根据用户的语音指令进行应答，第一指令文本为第一待训练模型的输入，第一语音指令的文本为训练标签。

在某些实现方式中，处理单元1002具体用于：对第一语音指令的文本进行特征提取，以得到第一语音指令的意图信息和槽位信息；根据意图信息、槽位信息和预设模板获取第一指令文本。

在某些实现方式中，用户包括多个用户。

在某些实现方式中，处理单元1002具体用于：将第一指令文本输入标记模型，以得到第一指令文本的特征标记序列，特征标记序列为对第一指令文本进行特征标记得到；将特征标记序列输入指针模型，以得到特征排序序列，特征排序序列为将特征标记序列中的特征重新排序得到；将特征排序序列输入插入模型，以得到输出序列，输出序列为向特征排序序列中插入第一特征得到；将第一语音指令的文本作为训练标签更新标记模型、指针模型和插入模型的参数。

在某些实现方式中，处理单元1002具体用于：将第一语音指令的文本作为训练标签计算标记模型的第一损失函数、指针模型的第二损失函数和插入模型的第三损失函数；根据第一损失函数、第二损失函数和第三损失函数更新标记模型、指针模型和插入模型的参数。

应理解，图10所示的语音交互的装置可以用于实现上述语音交互的方法300，其中获取单元1001用于实现步骤301，处理单元1002用于实现步骤302和步骤303，图10所示的语音交互的装置还可以用于实现图8所述的训练语音交互应答语的方法，具体步骤和细节可以参照上述对于图8的描述，为了简洁，本申请在此不再赘述。

图11为本申请的语音交互装置的示意性框图，该语音交互装置可以是终端，例如前文所述的电子设备或车载系统，也可以是终端内部的芯片，例如车载芯片等。如图11所示，该语音交互装置包括获取单元1101，处理单元1102，以下进行简要介绍。

获取单元1101，用于获取用户的第二语音指令。

处理单元1102，用于根据第二语音指令获取第一应答语文本。

处理单元1102还用于，将第一应答语文本输入语音交互应答语模型，以输出第二应答语文本，语音交互应答语模型是根据第一语音指令的文本和第一指令文本训练得到，第一指令文本是将第一语音指令的文本进行特征提取得到，第一语音指令为用户的语音指令。

在某些实现方式中，处理单元1102具体用于：根据第二语音指令获取第二语音指令的意图信息和槽位信息；根据意图信息、槽位信息和预设模板获取第一应答语文本。

在某些实现方式中，用户包括多个用户。

在某些实现方式中，处理单元1102具体用于：根据第一映射获取第一语音交互应答语模型，第一语音交互应答语模型是根据第一用户的语音指令训练得到的，第一映射用于指示第一语音交互应答语模型与第一用户对应；将第一应答语文本输入第一语音交互应答语模型。

在某些实现方式中，处理单元1102还用于：滤除第二应答语文本中的第一语言信息，第一语言信息为预设的。

在某些实现方式中，处理单元1102还用于：将第二应答语文本输入语音合成引擎，以生成第二应答语语音。

在某些实现方式中，处理单元1102还用于：获取用户的第三语音指令；将第三语音指令输入第一待训练模型，以输出第三应答语文本，第一待训练模型是根据预设训练语句和预设训练语句的预设标签训练得到的。

应理解，图11所示的语音交互装置可以用于实现上述语音交互方法500，其中获取单元1101用于实现步骤501，处理单元1102用于实现步骤502和步骤503，图11所示的语音交互装置还可以用于实现图9所述的语音交互方法，具体步骤可以参照上述对于图9的描述，为了简洁，本申请在此不再赘述。

应理解的是，本申请实施例中的装置1000和装置1100可以由软件实现，例如，具有上述功能的计算机程序或指令来实现，相应计算机程序或指令可以存储在终端内部的存储器中，通过处理器读取该存储器内部的相应计算机程序或指令来实现上述功能。或者，本申请实施例中的装置1000和装置1100还可以由硬件来实现。其中处理单元1002和处理单元1102为处理器(如神经网络处理单元(neural network processing unit，NPU)、系统芯片中的处理器等)，获取单元1001和获取单元1101为数据接口。或者，本申请实施例中的装置1000和装置1100还可以由处理器和软件单元的结合实现。具体地，获取单元1001和获取单元1101可以为处理器的接口电路，或者，终端的麦克风等。例如，终端的麦克风将获取的用户语音指令，发送给处理器接口电路。

图12是本申请实施例的装置1200的结构示意图。图12所示的装置1200包括存储器1201、处理器1202、通信接口1203以及总线1204。其中，存储器1201、处理器1202、通信接口1203通过总线1204实现彼此之间的通信连接。

应理解，图10和图11中的获取单元1001和获取单元1101可以相当于装置1200中的传感器(图12中未示出传感器)，处理单元1002和处理单元1102可以相当于装置1200中的处理器1202。下面对装置1200中的各个单元和单元进行详细的介绍。

存储器1201可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1201可以存储程序，当存储器1201中存储的程序被处理器1202执行时，处理器1202用于执行本申请实施例的方法的各个步骤。

具体地，处理器1202可用于执行图3所示的方法中的步骤302、步骤303以及图5所示的方法中的步骤502、步骤503。另外，处理器1202还可以执行图7至图9所示的过程。

当处理器1202执行步骤302、步骤303和步骤502、步骤503时，处理器1202可以通过通信接口1203从装置1200的传感器获取用户的语音指令，并根据多用户的语音指令对模型进行训练或者利用模型得到相应的应答语文本。

处理器1202可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的方法。

处理器1202还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的方法的各个步骤可以通过处理器1202中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器1202还可以是通用处理器、数字信号处理器(digital signal processing， DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1201，处理器1202读取存储器1201中的信息，结合其硬件完成装置中包括的单元所需执行的功能，或者执行本申请方法实施例的方法。

通信接口1203使用例如但不限于收发器一类的收发装置，来实现装置1200与其他设备或通信网络之间的通信。例如，可以通过通信接口1203获取用户语音指令。

总线1204可包括在装置1200各个部件(例如，存储器1201、处理器1202、通信接口1203)之间传送信息的通路。

本申请实施例还提供了一种计算机可读介质，计算机可读介质存储有程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述图3、图5、图7至图9所述的方法。

本申请实施例还提供了一种芯片，包括：至少一个处理器和存储器，至少一个处理器与存储器耦合，用于读取并执行存储器中的指令，以执行上述图3、图5、图7至图9所述的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音交互的方法，其特征在于，包括：

获取用户的第一语音指令；

对所述第一语音指令的文本进行特征提取，以得到第一指令文本；

根据所述第一语音指令的文本和所述第一指令文本对第一待训练模型进行训练，以得到所述语音交互应答语模型，所述语音交互应答语模型输出的文本具有所述用户的表达特征，所述语音交互应答语模型用于根据所述用户的语音指令进行应答，所述第一指令文本为所述第一待训练模型的输入，所述第一语音指令的文本为训练标签。
根据权利要求1所述的方法，其特征在于，所述对所述第一语音指令的文本进行特征提取，以得到第一指令文本，包括：

对所述第一语音指令的文本进行特征提取，以得到所述第一语音指令的意图信息和槽位信息；

根据所述意图信息、槽位信息和预设模板获取所述第一指令文本。
根据权利要求1或2所述的方法，其特征在于，所述用户包括多个用户。
根据权利要求1或2所述的方法，其特征在于，所述用户为第一用户，所述第一用户和第一语音交互应答语模型之间具有第一映射，所述第一映射用于指示所述第一语音交互应答语模型与所述第一用户对应，所述第一语音交互应答语模型是根据所述第一用户的语音指令训练得到的。
根据权利要求1至4中任一项所述的方法，其特征在于，所述第一待训练模型包括三个子模型，所述三个子模型为标记模型、指针模型和插入模型。
根据权利要求5所述的方法，其特征在于，所述根据所述第一语音指令的文本和所述第一指令文本对第一待训练模型进行训练，包括：

将所述第一指令文本输入所述标记模型，以得到所述第一指令文本的特征标记序列，所述特征标记序列为对所述第一指令文本进行特征标记得到；

将所述特征标记序列输入所述指针模型，以得到特征排序序列，所述特征排序序列为将所述特征标记序列中的特征重新排序得到；

将所述特征排序序列输入所述插入模型，以得到输出序列，所述输出序列为向所述特征排序序列中插入第一特征得到；

将所述第一语音指令的文本作为训练标签更新所述标记模型、所述指针模型和所述插入模型的参数。
根据权利要求6所述的方法，其特征在于，所述将所述第一语音指令的文本作为训练标签更新所述标记模型、所述指针模型和所述插入模型的参数，包括：

将所述第一语音指令的文本作为训练标签计算所述标记模型的第一损失函数、所述指针模型的第二损失函数和所述插入模型的第三损失函数；

根据所述第一损失函数、所述第二损失函数和所述第三损失函数更新所述标记模型、所述指针模型和所述插入模型的参数。
根据权利要求1至7中任一项所述的方法，其特征在于，所述第一待训练模型是根据预设训练语句和所述预设训练语句的预设标签训练得到的。
一种语音交互方法，其特征在于，包括：

获取用户的第二语音指令；

根据所述第二语音指令获取第一应答语文本；

将所述第一应答语文本输入语音交互应答语模型，以输出第二应答语文本，所述语音交互应答语模型是根据第一语音指令的文本和第一指令文本训练得到，所述第一指令文本是将所述第一语音指令的文本进行特征提取得到，所述第一语音指令为所述用户的语音指令。
根据权利要求9所述的方法，其特征在于，所述根据所述第二语音指令获取第一应答语文本，包括：

根据所述第二语音指令获取所述第二语音指令的意图信息和槽位信息；

根据所述意图信息、所述槽位信息和预设模板获取所述第一应答语文本。
根据权利要求9或10所述的方法，其特征在于，所述用户包括多个用户。
根据权利要求9或10所述的方法，其特征在于，所述用户为第一用户，所述第一应答语输入语音交互应答语模型，包括：

根据第一映射获取第一语音交互应答语模型，所述第一语音交互应答语模型是根据所述第一用户的语音指令训练得到的，所述第一映射用于指示所述第一语音交互应答语模型与所述第一用户对应；

将所述第一应答语的文本输入第一语音交互应答语模型。
根据权利要求9至12中任一项所述的方法，其特征在于，所述方法还包括：滤除所述第二应答语文本中的预设语言信息。
根据权利要求9至13中任一项所述的方法，其特征在于，所述方法还包括：

将所述第二应答语文本输入语音合成引擎，以生成第二应答语语音。
根据权利要求9至14中任一项所述的方法，其特征在于，在所述获取用户的第二语音指令之前，所述方法还包括：

获取所述用户的第三语音指令；

将所述第三语音指令输入第一待训练模型，以输出第三应答语文本，所述第一待训练模型是根据预设训练语句和所述预设训练语句的预设标签训练得到的。
根据权利要求9至15中任一项所述的方法，其特征在于，所述语音交互应答语模型和所述第一待训练模型为非自回归模型。
一种语音交互的装置，其特征在于，包括：

获取单元，用于获取用户的第一语音指令；

处理单元，用于对所述第一语音指令的文本进行特征提取，以得到第一指令文本；

所述处理单元还用于根据所述第一语音指令的文本和所述第一指令文本对第一待训练模型进行训练，以得到所述语音交互应答语模型，所述语音交互应答语模型输出的文本具有所述用户的表达特征，所述语音交互应答语模型用于根据所述用户的语音指令进行应答，所述第一指令文本为所述第一待训练模型的输入，所述第一语音指令的文本为训练标签。
根据权利要求17所述的装置，其特征在于，所述处理单元具体用于：

对所述第一语音指令的文本进行特征提取，以得到所述第一语音指令的意图信息和槽位信息；

根据所述意图信息、槽位信息和预设模板获取所述第一指令文本。
根据权利要求17或18所述的装置，其特征在于，所述用户包括多个用户。
根据权利要求17或18所述的装置，其特征在于，所述用户为第一用户，

第一用户和第一语音交互应答语模型之间具有第一映射，所述第一映射用于指示所述第一语音交互应答语模型与所述第一用户对应，所述第一语音交互应答语模型是根据所述第一用户的语音指令训练得到的。
根据权利要求17至20中任一项所述的装置，其特征在于，所述第一待训练模型包括三个子模型，所述三个子模型为标记模型、指针模型和插入模型。
根据权利要求21所述的装置，其特征在于，所述处理单元具体用于：

将所述第一指令文本输入所述标记模型，以得到所述第一指令文本的特征标记序列，所述特征标记序列为对所述第一指令文本进行特征标记得到；

将所述特征标记序列输入所述指针模型，以得到特征排序序列，所述特征排序序列为将所述特征标记序列中的特征重新排序得到；

将所述特征排序序列输入所述插入模型，以得到输出序列，所述输出序列为向所述特征排序序列中插入第一特征得到；

将所述第一语音指令的文本作为训练标签更新所述标记模型、所述指针模型和所述插入模型的参数。
根据权利要求22所述的装置，其特征在于，所述处理单元具体用于：

将所述第一语音指令的文本作为训练标签计算所述标记模型的第一损失函数、所述指针模型的第二损失函数和所述插入模型的第三损失函数；

根据所述第一损失函数、所述第二损失函数和所述第三损失函数更新所述标记模型、所述指针模型和所述插入模型的参数。
根据权利要求17至23中任一项所述的装置，其特征在于，所述第一待训练模型是根据预设训练语句和所述预设训练语句的预设标签训练得到的。
一种语音交互装置，其特征在于，包括：

获取单元，用于获取用户的第二语音指令；

处理单元，用于根据所述第二语音指令获取第一应答语文本；

所述处理单元还用于，将所述第一应答语文本输入语音交互应答语模型，以输出第二应答语文本，所述语音交互应答语模型是根据第一语音指令的文本和第一指令文本训练得到，所述第一指令文本是将所述第一语音指令的文本进行特征提取得到，所述第一语音指令为所述用户的语音指令。
根据权利要求25所述的装置，其特征在于，所述处理单元具体用于：

根据所述第二语音指令获取所述第二语音指令的意图信息和槽位信息；

根据所述意图信息、所述槽位信息和预设模板获取所述第一应答语文本。
根据权利要求25或26所述的装置，其特征在于，所述用户包括多个用户。
根据权利要求25或26所述的装置，其特征在于，所述处理单元具体用于：

根据第一映射获取第一语音交互应答语模型，所述第一语音交互应答语模型是根据所述第一用户的语音指令训练得到的，所述第一映射用于指示所述第一语音交互应答语模型与所述第一用户对应；

将所述第一应答语文本输入第一语音交互应答语模型。
根据权利要求25至28中任一项所述的装置，其特征在于，所述处理单元还用于：滤除所述第二应答语文本中的第一语言信息，所述第一语言信息为预设的。
根据权利要求25至29中任一项所述的装置，其特征在于，所述处理单元还用于：

将所述第二应答语文本输入语音合成引擎，以生成第二应答语语音。
根据权利要求25至30中任一项所述的装置，其特征在于，所述处理单元还用于：

获取所述用户的第三语音指令；

将所述第三语音指令输入第一待训练模型，以输出第三应答语文本，所述第一待训练模型是根据预设训练语句和所述预设训练语句的预设标签训练得到的。
根据权利要求25至31中任一项所述的装置，其特征在于，所述语音交互应答语模型和所述第一待训练模型为非自回归模型。
一种计算机可读介质，其特征在于，所述计算机可读介质存储有程序代码，当所述计算机程序代码在计算机上运行时，使得所述计算机执行如权利要求1至8或9至16中任一项所述的方法。
一种芯片，其特征在于，包括：至少一个处理器和存储器，所述至少一个处理器与所述存储器耦合，用于读取并执行所述存储器中的指令，以执行如权利要求1至8或9至16中任一项所述的方法。