WO2023231936A1

WO2023231936A1 - 一种语音交互方法及终端

Info

Publication number: WO2023231936A1
Application number: PCT/CN2023/096683
Authority: WO
Inventors: 陈开济; 陈家胜; 史舒婷
Original assignee: 华为技术有限公司
Priority date: 2022-06-01
Filing date: 2023-05-26
Publication date: 2023-12-07
Also published as: CN117198286A

Abstract

一种语音交互方法及终端，涉及人机交互领域，可以区分更多的场景，并基于不同的场景给出不同的响应方式，提升受话人识别结果的准确性，以及使得语音系统回复更加自然和智能，该方法包括：在语音交互过程中，根据检测到的语音信号、语音信号转换后的文本、针对文本进行意图识别的结果中的一项或多项，确定受话人识别结果，其中受话人识别结果包括语音信号的来源、对象和主题；根据受话人识别结果，以及意图执行结果，确定语音信号的响应方式；当受话人识别结果和意图执行结果不同时，语音信号的响应方式不同。还提供了一种计算机可读存储介质、芯片系统及语音交互系统。

Description

一种语音交互方法及终端

本申请要求于2022年6月1日提交国家知识产权局、申请号为202210629293.4、申请名称为“一种语音交互方法及终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人机交互领域，尤其涉及一种语音交互方法及终端。

背景技术

在语音交互过程中，终端拾取用户的语音，采用自动语音识别(Automatic Speech Recognition，ASR)技术将用户的语音转换为文字，然后采用自然语言理解(Natural Language Understanding，NLU)技术对转换后的文字进行意图识别，再执行该意图对应的技能，并向用户回复执行结果。

可以理解的是，在终端真实的处理过程中，可能存在多种情况造成终端最终没有执行相应的技能。例如：终端未识别出用户的意图；或者，终端已识别出用户的意图，但终端并不支持执行该意图对应的技能等。然而，针对终端最终没有执行用户的意图对应的技能的情况，目前终端全部给出统一的“听不懂”回复，会给用户造成语音回复不准确、不自然、不智能的感受，造成用户的语音交互体验不佳。

发明内容

本申请提供的一种语音交互方法及终端，可以区分更多的场景，并基于不同的场景给出不同的响应方式，提升受话人识别结果的准确性，以及使得语音系统回复更加自然和智能。

为了实现上述目的，本申请实施例提供了以下技术方案：

第一方面、提供一种语音交互方法，该方法包括：检测到语音信号；将语音信号转换为文本，并对文本进行意图识别，得到意图识别结果；根据语音信号、文本、意图识别结果中的一项或多项，确定受话人识别结果，受话人识别结果包括语音信号的来源、对象和主题；根据受话人识别结果，以及意图执行结果，确定语音信号的响应方式。

其中，语音信号的来源包括用户、扬声器或电子设备、环境中一项；语音信号的对象包括语音系统、用户、环境中一项；语音信号的主题包括任务或无意义。可选的，任务还包括：执行类任务、闲聊任务、百科类任务、方言类任务中一项或多项。

可选的，任务还可以包括方言类任务。另一些示例中，还可以根据用户的情感将任务划分为不同情感对应的任务，例如，兴奋的情感对应的播放欢快类音乐的任务；紧张的情感对应播放舒缓类的轻音乐的任务等。

其中，意图执行结果包括成功执行意图和未成功执行意图。需要说明的是，一些示例中，这里的意图执行结果可以是终端请求执行意图识别结果中的意图后，终端自身已执行该意图的结果；或者，终端请求其他设备执行该意图后，其他设备向该终端反馈的执行结果。也就是说，在终端确定语音信号的响应方式之前，该意图已经执行。另一些示例中，这里的意图执行结果也可以终端根据意图判断自身或者其他设备(如服务器)是否支持执行该意图对应的技能，该判断结果即为意图执行结果。也就是说，在终端确定语音信号的响应方式之前，该意图没有被执行。

由此可见，受话人识别结果(语音的来源，对象和主题)有利于区分语音的不同场景，有利于提升拒绝识别场景(例如人人对话，电子设备播放声音、用户的自言自语等场景)的识别率。另外，基于不同场景，语音系统可以提供不同的响应方式，按照不同的播放模板播放不同的内容。例如，针对未成功执行意图的情况，语音系统可以通过受话人识别结果区分具体的情况，通过不同的播放内容向用户提供更多的信息，提升语音系统的交互的智能化，使得人机交互更加自然。

一种可能的实现方式中，根据受话人识别结果，以及意图执行结果，确定语音信号的响应方式，包括：当语音信号的来源为用户，语音信号的对象为语音系统，语音信号的主题为任务，意图识别执行结果为未成功执行意图时，发出第一提示，第一提示用于提示语音系统不支持执行语音信号的主题；第一提示包括语音信号的来源、语音信号的对象、以及语音信号的主题；或者，当语音信号的来源为用户，语音信号的对象为语音系统，语音信号的主题为无意义，意图识别执行结果为未成功执行意图时，发出第二提示；第二提示用于请求用户澄清，第一提示包括语音信号的来源、语音信号的对象、以及语音信号的主题；或者，当语音信号的来源为非用户，或者，语音信号的对象为非语音系统，确定不响应语音信号。

由此可见，提供几种不同场景下不同响应方式的具体实现。

一种可能的实现方式中，根据受话人识别结果，以及意图执行结果，确定语音信号的响应方式，包括：当语音信号的来源为用户，且语音信号的对象为另一个用户，语音信号的主题为闲聊任务时，发出第三提示，第三提示用于询问是否执行与语音信号关联的第一技能；或者，当语音信号的来源为用户，且语音信号的对象为空气，语音信号的主题为闲聊任务时，发出第四提示，第四提示用于询问是否执行与语音信号关联的第二技能；第二技能与第一技能相同或不同。

也就是说，语音系统可以加入两个用户的对话，实现人(用户1)-人(用户2)-机(语音系统)的智能交互，提升用户的语音交互。或者，语音系统还可以根据用户1和用户2的交谈内容，执行相关的技能。比如，用户1和用户2商量去某个旅游景点游玩，则语音系统可以询问是否需要查询该旅游景点的天气、车票、旅游攻略等信息。

语音系统还可以在用户的自言自语的场景中进行插话。例如，当语音系统接收到的语音来自用户1，但语音的对象为空气，语音信号的主题为闲聊任务，意图执行结果为未成功执行意图，则语音系统也可以进行插话。或者，语音系统还可以根据用户1闲聊的内容，询问是否执行相关的技能。

由此可见，当基于受话人识别结果(语音的来源，对象和主题)区分出细分的场景后，语音系统可以提供更加丰富的功能，提升了语音系统的人机交互的智能化。

一种可能的实现方式中，根据受话人识别结果，以及意图执行结果，确定语音信号的响应方式，包括：基于预设规则，查询受话人识别结果以及意图执行结果对应的响应方式；规则中受话人识别结果或意图执行结果不同时，对应的响应方式不同；或者，将受话人识别结果以及意图执行结果输入到预先训练好的响应模型中进行推理，得到语音信号的响应方式。

由此提供了两种实现基于不同受话人结果和意图执行结果，实现不同响应方式的具体方法。

一种可能的实现方式中，根据语音信号、文本、意图识别结果中的一项或多项，确定受话人识别结果，包括：将语音信号输入到语音识别模型中进行推理，得到语音信号对应的对话分类，对话分类包括人人对话、人机对话、电子音、噪声和未知声音中的一项；将文本输入到文本识别模型中进行推理，得到语音信号的来源初值、语音信号的对象初值、以及语音信号的主题初值；将语音信号对应的对话分类、语音信号的来源初值、语音信号的对象初值、以及语音信号的主题初值输入到第一集成学习模型中进行推理，得到语音信号的来源、语音信号的对象、以及语音信号的主题。由此提供了一种受话人识别方法的具体实现。

一种可能的实现方式中，根据语音信号、文本、意图识别结果中的一项或多项，确定受话人识别结果，还包括：将语音信号输入到语音识别模型中进行推理，得到语音信号对应的对话分类，对话分类包括人人对话、人机对话、电子音、噪声和未知声音中的多项；将文本输入到文本识别模型中进行推理，得到语音信号的来源初值、语音信号的对象初值、以及语音信号的主题初值；根据意图执行结果中文本对应的各个意图的概率分布，映射为文本的有意图的概率和无意图的概率；将文本的有意图的概率和无意图的概率，语音信号对应的对话分类、语音信号的来源初值、语音信号的对象初值、以及语音信号的主题初值输入到第二集成学习模型中进行推理，得到语音信号的来源、语音信号的对象、以及语音信号的主题。由此提供了又一种受话人识别方法的具体实现。

第二方面、提供一种终端，包括：处理器、存储器和触摸屏，所述存储器、所述触摸屏与所述处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器从所述存储器中读取所述计算机指令，使得终端执行如上述方面及其中任一种可能的实现方式中所述的方法。

第三方面、提供一种装置，该装置包含在终端中，该装置具有实现上述方面及可能的实现方式中任一方法中终端行为的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括至少一个与上述功能相对应的模块或单元。例如，接收模块或单元、显示模块或单元、以及处理模块或单元等。

第四方面、提供一种计算机可读存储介质，包括计算机指令，当计算机指令在终端上运行时，使得终端执行如上述方面及其中任一种可能的实现方式中所述的方法。

第五方面、提供一种语音交互系统，所述语音系统包括一个或多个处理单元，当所述一个或多个处理单元执行指令时，所述一个或多个处理单元执行如上述方面及其中任一种可能的实现方式中所述的方法。

第六方面、提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如上述方面中及其中任一种可能的实现方式中所述的方法。

第七方面、提供一种芯片系统，包括处理器，当处理器执行指令时，处理器执行如上述方面中及其中任一种可能的实现方式中所述的方法。

上述第二方面提供的终端、第三方面提供的装置、第四方面提供的计算机可读存储介质、第五方面提供的语音交互系统、第六方面提供的计算机程序产品以及第七方面提供的芯片系统所能达到的技术效果可以参考第一方面以及其中任一种可能的实现方式中关于技术效果的描述，这里不再赘述。

附图说明

图1为本申请实施例提供的一种终端的结构示意图；

图2为本申请实施例提供的一种语音交互方法的流程示意图；

图3为本申请实施例提供的一种语言系统的结构示意图；

图4为本申请实施例提供的一种自然语言生成模块的结构示意图；

图5为本申请实施例提供的一些受话人识别模块的结构示意图；

图6为本申请实施例提供的又一些受话人识别模块的结构示意图；

图7为本申请实施例提供的又一些受话人识别模块的结构示意图；

图8为本申请实施例提供的又一些受话人识别模块的结构示意图；

图9为本申请实施例提供的一种芯片系统的结构示意图。

具体实施方式

在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例提供的语音交互方法可应用于具备语音交互能力的终端。一些示例中，终端可以安装用于提供语音交互能力的该语音交互类应用，例如手机上的语音助手或虚拟助理等，车载终端上的语音系统等。本申请实施例提供的技术方案可应用于连续对话的语音交互场景、免唤醒的语音交互场景、以及全双工语音交互场景中。其中，连续对话的语音交互场景是指用户在唤醒语音交互类应用后，在预设时长内可以连续向语音交互类应用发送多条语音指令，语音交互类应用可以完成多条语音指令。免唤醒语音交互场景是指用户无需说出唤醒词，语音交互类应用自动唤醒，自动拾取用户的语音指令，并完成用户的语音指令。其中，全双工对话的语音交互场景，与单轮或者多轮连续语音识别场景不同，全双工对话可实时预测用户即将说出的内容，实时生成回应并控制对话节奏，从而实现长程语音交互。本申请实施例对应用场景不再具体限定。

示例性的，本申请实施例中终端例如可以为手机、平板电脑、个人计算机(personal computer，PC)、个人数字助理(personal digital assistant，PDA)、智能手表、上网本、可穿戴终端、增强现实技术(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、车载设备、智慧屏、智能汽车、智能音响、机器人等，本申请对该终端的具体形式不做特殊限制。

图1示出了终端100的结构示意图。

终端100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过终端100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

终端100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出语音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

终端100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，终端100可以包括1个或N个显示屏194，N为大于1的正整数。

终端100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样，终端100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端 100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行终端100的各种功能应用以及数据处理。

终端100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为语音信号。终端100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成语音信号。当终端100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将语音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将语音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中，终端100可以设置两个麦克风170C，除了采集语音信号，还可以实现降噪功能。在另一些实施例中，终端100还可以设置三个，四个或更多麦克风170C，实现采集语音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端100可以接收按键输入，产生与终端100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

以下实施例中所涉及的技术方案均可以在具有上述架构的终端100中实现。

下面结合附图对本申请实施例提供的技术方案进行详细说明。

如图2所示，为本申请实施例提供的一种语音交互方法的流程示意图，该流程包括：

S201、终端检测到语音信号。

S202、终端将语音信号转换为文本，并根据文本进行意图识别，得到文本的意图识别结果。

在步骤S201-步骤S202中，在本申请的一些示例中，终端可以安装用于提供语音交互能力的语音交互类应用。例如，手机上的语音助手或虚拟助理等应用，可以根据拾取的用户语音为用户提供相应的服务(在语音交互中也称为技能)。该技能可以操作手机上的功能，或者向服务器(第三方技能提供商)请求相关的服务等。又例如，车载终端的语音系统可以拾取驾驶员或乘客的语音，为驾驶员或乘客提供汽车的控制功能，车内影音娱乐播放功能，向服务器(第三方技能提供商)请求相关的服务等。又例如，智能音箱的语音软件可以拾取房间内用户的语音指令，执行用户语音指令，例如播放相关的音视频资源，通过智能音箱控制其他的智能家居设备等。

下文以车载终端安装的语音系统为例进行说明。示例性的，图3示出了一种语音系统的软件结构图。这里结合图3所示的语音系统的软件结构进行说明。

当接收到用户说出的唤醒词后，车载终端开启拾音装置(如麦克风)拾取车内的声音。或者，车载终端的语音系统支持免唤醒，那么车载终端一直开启拾音装置(如麦克风)拾取车内的声音。拾取的声音输入声音预处理模块进行预处理，例如包括语音信号的采样、反混叠滤波、语音增强等。处理后的语音信号输入自动语音识别模块，自动语音识别模块将语音信号转换为文本。文本输入到自然语言理解模块进行意图识别，得到意图识别结果，意图识别结果包括针对文本识别出的意图和槽位。可以理解的是，意图识别过程实质上是一个分类结果，因此意图识别结果还包括文本对应各个意图的概率分布。

可以理解的，在终端拾取用户(例如驾驶员)的语音的过程中，终端可能拾取到周围人的说话声、车内其他电子设备播放的声音、环境的噪声等。也就是说，终端可能拾取到非目标用户的语音输入，非目标用户的语音输入会对后续识别出的用户意图造成干扰，影响语音系统执行用户指令的准确性。为此，在一些技术方案中，终端在将语音信号识别为文本后，还会对文本进行无效文本的拒识处理，即将识别的文本输入到受话人识别(Addressee Detection，AD)模块(也称为拒绝识别模块，简称拒识模块)。受话人识别模块输出二分类结果，即文本是否为语音系统的拒识对象。当识别出文本为拒识对象(即语音信号的受话人不是车载终端的语音系统)时，车载终端的语音系统将不相应该文本的意图。当识别出文本不为拒识对象(即语音信号的受话人是车载终端的语音系统)时，车载终端的语音系统才执行该文本的意图等。由此，针对文本进行拒识处理后，有利于降低语音系统误识别的概率，提升语音系统的处理效率以及正确性。但可以注意到，该技术方案是在语音系统对语音信号转换后的文本的基础上进行拒识处理的，因此语音系统的语音识别的能力直接影响拒识处理的准确率。

因此，本申请实施例还提供了一种技术方案，识别出的受话人识别结果不是简单的二分类结果(即是否是拒识对象)，而是包含多个语音信号的特征，包括但不限于语音信号的来源、语音信号的对象和语音信号的主题。可以理解的，多个语音信号的特征能够提升语音识别的准确率。即，执行下述步骤S203以及后续步骤。

S203、终端根据语音信号、文本、意图识别结果中的一项或多项，确定受话人识别结果。其中受话人识别结果包括多个语音信号的特征，例如语音信号的来源(from)、语音信号的对象(to)和语音信号的主题(subject)。

示例性的，语音信号的来源包括但不限于用户，扬声器，环境。其中，当语音信号的来源为用户时，该语音可以被确认为是人声。当语音信号的来源为扬声器时，该语音可以被确认为电子设备发出的声音，为非人声。当语音信号的来源为环境时，该语音可以被确认为噪音。可以理解的是，识别出语音信号的来源有利于区分语音是否是用户发出的，有利于区分语音是否是语音系统的拒识对象。在一些示例中，用户的用户来源还可以包括驾驶员、副驾、后排1的用户、后排2的用户。那么，语音信号的来源还有利于区分发出语音的具体用户，后续可以针对不同的用户执行不同的响应方式等。

语音信号的对象包括但不限于语音系统、用户、环境。当语音信号的对象为语音系统时，该语音可以认为是人机交互的内容。当语音信号的对象为用户时，该语音可认为是用户间的交谈，为语音系统的拒识对象。或者，在其他一些示例中，语音系统如支持插话功能，则在该场景中，该语音不为语音系统的拒识对象。当语音信号的对象为环境时，该语音可认为是用户的自言自语或吟唱等，为语音系统的拒识对象。可以理解的是，识别出语音对话有利于区分语音的受话人是否为语音系统，也有利于区分语音是否是语音系统的拒识对象。

语音信号的主题包括任务和无意义类。其中，任务，是指语音包含了用户希望语音系统执行技能。无意义类，是指语音未包含用户希望语音系统执行技能，即用户无需语音系统执行技能。一些示例中，还可以根据任务的类型将任务进一步划分为执行类任务、闲聊任务、百科类任务。可选的，任务还可以包括方言类任务。另一些示例中，还可以根据用户的情感将任务划分为不同情感对应的任务，例如，兴奋的情感对应的播放欢快类音乐的任务；紧张的情感对应播放舒缓类的轻音乐的任务等。

需要说明的是，这里提取语音信号的主题的特征，可以根据语音本身的含义进行识别和提取的，不依赖语音系统的自动语音识别模块识别的文本，也不依赖自然语言理解模块对文本的意图识别，因此，这里提取语音信号的主题的能力，不依赖语音系统的自动语音识别模块和自然语言理解模块的识别能力。

示例性的，这里继续结合图3所示的语音系统的软件结构进行说明。声音预处理模块输出的语音信号在输入到自动语音识别模块外，还输入到受话人识别模块。受话人识别模块用于识别出语音的特征，包含语音信号的来源、语音信号的对象以及语音信号的主题。可选的，自动语音识别模块识别出的文本也可以输入到受话人识别模块，也用于识别出语音的特征。可选的，自然语言理解模块对文本进行意图识别后的意图识别结果，也可以通过对话管理模块输入到受话人识别模块，用于识别出语音的特征。可选的，对话管理模块还可以将该语音的上下文也输入到受话人识别模块中，用于识别出语音的特征。可选的，语音系统还可以启动摄像头采集用户的图像，图像经过图像预处理模块后输入到受话人识别模块，受话人识别模块还可以基于图像的信息，识别出该语音的特征。其中，图像的信息包括但不限于车内乘客的数量、人脸朝向，人物动作等，可以理解，语音系统可以基于车内乘客的数量、人脸朝向、人物动作等识别当前说话的人，是否和其他人交谈，是否正在打电话，是否播放电子设备等，用于识别语音的特征。可选的，受话人识别模块还可以基于传感器采集的数据(如乘客的数量，车速等)识别语音的特征。

由此可见，本申请实施例提供了受话人识别模块对输入的多模态的数据(例如：语音、文本、意图识别结果、对话上下文、图像数据、传感器数据等)进行识别，识别出语音的特征，提升识别准确率。

S204、终端请求执行意图识别结果中的意图。

需要说明的是，本申请实施例中并不限制上述步骤S202至步骤S204的执行顺序，可以理解的是，上述步骤S202至步骤S204可以顺序执行，也可以并行执行，或者部分步骤顺序执行，部分步骤并行执行。例如，终端在执行步骤S202中的语音信号转换为文本的同时，也可以同时执行步骤S203中对语音信号执行受话人识别的步骤。又例如，终端在执行完步骤S202中根据文本进行意图识别的同时，也可以执行步骤S203中对文本确定受话人识别的步骤。又例如，终端在执行完步骤S202，得到意图识别结果后，执行步骤S203中的根据意图识别结果执行受话人识别的步骤，同时终端也可以执行步骤S204的执行意图识别结果中的意图。总而言之，在上述步骤不矛盾的前提下，上述步骤S202至步骤S204的执行顺序可以进行变换。

S205、终端根据受话人识别结果，以及意图执行结果，确定语音信号的响应方式。

在现有技术中，若文本的意图识别结果包括意图，即语音系统识别出意图，语音系统从其支持的技能中查找该具体意图对应的技能。当查找到相应的技能时，语音系统请求执行该技能，或者语音系统向车载终端中其他系统请求执行该技能，语音系统还可以向车载终端之外的其他设备(例如服务器)请求执行该技能。而后，语音系统向用户反馈该技能的执行结果。该场景中，意图执行结果包括成功执行意图和未成功执行意图。可以理解，可能存在多种情况造成语音系统向用户反馈“未成功执行意图”。例如，语音系统的自然语言理解模块识别出用户的意图，但语音系统并不支持执行该意图对应的技能；或者，语音系统的自然语言理解模块识别出用户的意图，且向服务器请求执行该意图对应的技能，但服务器无响应，或者服务器执行技能出现错误(例如缺少槽位信息等)。若文本的意图识别结果包括无意图，即语音系统未识别出意图，语音系统向用户反馈“未成功执行意图”。可以理解，可能存在多种情况造成语音系统向用户反馈“未成功执行意图”，例如：语音系统的自然语言理解模块未识别出用户的意图；又或者，语音系统采集的语音中本身不包含用户的意图等。综上可见，现有技术中，语音系统不区分具体的应用场景，向用户反馈统一的“未成功执行意图”(即“无结果”)，会给用户造成语音回复不准确、不自然、不智能的感受，造成用户的语音交互体验不佳。

为此，本申请实施例还给出了语音系统的另一种响应方法，结合识别出的受话人识别结果(例如语音信号的来源、语音信号的对象以及语音信号的主题)和意图的执行结果，确定不同的响应方式，向用户反馈不同的响应结果。可以理解的，当语音系统识别出语音信号的多个特征后，有利于语音系统识别出更细分的应用场景，有利于语音系统根据更细分的应用场景给出不同的响应结果，从而提升人机交互的智能化、语音回复的自然流畅，提升语音交互体验。

示例性的，这里继续结合图3所示的语音系统的软件结构进行说明。自然语言理解模块输出意图识别结果，其中，意图识别结果包括识别出的意图或无意图。意图识别结果输入到对话管理模块，对话管理模块输出意图的执行结果。例如，当意图识别结果包括意图时，对话管理模块执行该意图，并向用户反馈意图执行结果，意图执行结果包括成功执行意图和未成功执行意图。当意图识别结果为无意图时，意图执行结果是未成功执行意图。进一步的，对话管理模块将确定的意图执行结果输入到自然语言生成模块，并且受话人识别模块将受话人识别结果输入到自然语言生成模块。自然语言生成模块根据意图执行结果以及受话人识别结果中多个语音信号的特征确定该语音确定最终的响应方式。

在一个具体的实现方式中，车载终端采用基于规则和语料模板的方法实现不同应用场景下的响应方式不同。也就是说，在规则中为不同的应用场景设置不同的响应方式，可选的，还可以为不同的应用场景设置不同的语料模板。其中，语料模板用于语音系统向用户播放语音的执行结果，也可称为播放模板，或者，语料模板用于语音系统采用图形界面(包括文字内容)的形式向用户呈现语音的执行结果。

如表一所示，为受话人识别结果(包括语音信号的来源、语音信号的对象、语音信号的主题)、意图执行结果、响应方式、以及播放模板的对应关系的一个示例。

表一

当自然语音生成模块获取到受话人识别结果(包括语音信号的来源、语音信号的对象、语音信号的主题)和意图执行结果后，可以以受话人识别结果和意图执行结果为关键字，在表一中查找相对应的响应方式以及播放模板。语音系统按照查找到的响应方式执行相关操作，且，语音系统解析该场景对应的播放模板，播放模板中包括占位符和文字，根据本次的语音、本次语音的上下文填充占位符的内容，填充后的内容和播放模板中原有的文字组合成最终的播放文本。语音系统播放该播放文本。

例如，当语音为用户1向语音系统请求的执行任务时，若意图执行结果为未成功执行意图，则采用兜底的响应方式，播放“用户1，语音系统还无法完成您的任务请求，请给我学习时间吧！”。或者，在确定意图执行结果为未成功执行意图后，语音系统还可以进一步确定任务是否对应语音系统能够处理的技能。当确定任务不对应语音系统能够处理的某项技能，那么语音系统采用兜底的响应方式。当确定任务对应语音系统能够处理的某项技能，那么语音系统采用失败提示的响应方式，比如提示“用户1，语音系统未成功执行您的任务的请求。”又例如，语音为用户1向语音系统发送无意义的语音，且意图执行结果为未成功执行意图，则采用请求澄清的响应方式，播放“用户1，语音系统收到您的请求，请换个方式再说一遍吧！”又例如，当语音为用户1向语音系统请求的执行任务时，语音执行相应的意图。若意图执行结果为成功执行意图，并播放“用户1，语音系统已完成任务！”。

当语音的来源为非用户，或者，语音的对象为非语音系统时，则不响应该语音。例如，当语音系统接收到的语音来自用户1，语音信号的对象为用户2，语音信号的主题为任务，意图执行结果为未成功执行意图，则语音系统不响应。又例如，当语音系统接收到的语音来自用户1，但语音的对象为空气，语音信号的主题为任务，意图执行结果为未成功执行意图，则语音系统不响应。又例如，当语音系统接收到的语音来自电子设备，但语音的对象为空气，语音信号的主题为任务，意图执行结果为未成功执行意图，则语音系统不响应。

在其他一些示例中，还可以基于不同场景的需求，设置不同的语音信号的主题。例如，将任务进一步划分为执行类任务、闲聊任务、百科类任务。如表二所示，为受话人识别结果(包括语音信号的来源、语音信号的对象、语音信号的主题)、意图执行结果、响应方式、以及播放模板的对应关系的另一个示例。

表二

例如，当语音为用户1向语音系统请求的执行类任务时，若意图执行结果为成功执行意图，则播放“用户1，语音系统已完成您的任务请求”。当语音为用户1向语音系统请求的执行类任务时，若意图执行结果为未成功执行意图，则采用兜底的响应方式，播放“用户1，语音系统还无法完成您的任务请求，请给我学习时间吧！”。

又例如，当语音系统接收到的语音来自用户1，语音信号的对象为用户2，语音信号的主题为执行类任务，意图执行结果为未成功执行意图，则语音系统不响应。又例如，当语音系统接收到的语音来自用户1，语音信号的对象为用户2，语音信号的主题为闲聊任务，意图执行结果为未成功执行意图，则语音系统可以进行插话。比如，语音系统可以加入用户1和用户2的对话，实现人(用户1)-人(用户2)-机(语音系统)的智能交互，提升用户的语音交互。或者，语音系统还可以根据用户1和用户2的交谈内容，执行相关的技能。比如，用户1和用户2商量去某个旅游景点游玩，则语音系统可以询问是否需要查询该旅游景点的天气、车票、旅游攻略等信息。

又例如，当语音系统接收到的语音来自用户1，但语音的对象为空气，语音信号的主题为闲聊任务，意图执行结果为未成功执行意图，则语音系统也可以进行插话。或者，语音系统还可以根据用户1闲聊的内容，询问是否执行相关的技能。

在另一个具体实现的方式中，车载终端还可以基于机器学习的方法实现不同应用场景下的响应方式不同。也即，采用机器学习的方法训练出自然语言生成模块的模型。具体的，使用一个预训练的语言模型作为编码器，例如，使用基于转换器的双向编码表征(Bidirectional Encoder Representation from Transformers，BERT)模型作为编码器。将大量训练样本输入到该编码器中进行训练，例如，采用自回归方式进行训练，得到自然语言生成模块。其中，训练样本可以为开发人员收到编写的或基于一定规则由机器生成的语料-响应的内容。其中，语料为语音，并且开发人员对每条语音进行标注，标注的内容包括该语音的来源、对象、主题、语音转换为文本、识别出的意图、槽位、意图执行结果、以及响应方式。开发人员可以手动进行标注，也可以将语音输入到图3所示的模型中，由受话人识别模块识别出语音的来源、对象、主题的特征；由自动语音识别模块将语音转换为文本；由自然语言理解模块识别出文本的意图和槽位；由对话管理模块输出意图执行结果；并确定希望的响应方式和播放内容，对语音进行标注。可以理解的是，通过对上述训练样本进行训练得到的自然语言生成模块可以实现不同应用场景下的响应方式(和播放内容)不同。如图4所示，为训练后得到的自然语言生成模块的示例。当向自然语言生成模块输入语音的来源、对象、主题、语音转换为文本、识别出的意图、槽位、意图执行结果等参数后，自然语言生成模块运行后输出响应的响应方式和播放内容。可见，利用预训练的语言模型的能力可实现更多样更灵活的响应方式以及播放内容，提升人机交互的智能化。

下面，对语音系统中的受话人识别模块的实现进行详细说明。

在一些示例中，受话人识别模块包括语音受话人识别(Sound-based Addressee Detection，SAD)模型。也就是说，语音受话人识别模型接收声音预处理模块处理后的语音信号，对语音信号进行识别，识别出语音信号的多个特征，如语音信号的来源、语音信号的对象和语音信号的主题。在一个具体实现方式中，如图5中(1)所示，语音受话人识别模型包括语音识别模型，该语音识别模型例如为Transformer语音识别模型，或者，更具体的，为基于卷积增强的Transformer语音识别模型(Convolution-augmented Transformer for Speech Recognition，Conformer)。在训练语音识别模型时，可以将训练样本输入到预训练的模型中进行训练。其中，训练样本包括语音，以及对语音标注的来源、对象以及主题等。需要说明的是，标注人员可以根据语音本身的含义标注语音的来源、对象以及主题。后续，训练好的语音识别模型可以对输入的语音进行推理，推理出该语音的来源、对象以及主题等特征。可以理解的，这里提取语音信号的主题的特征，是根据语音本身的含义进行识别和提取的，不依赖语音系统的自动语音识别模块识别的文本，也不依赖自然语言理解模块对文本的意图识别，因此，这里提取语音信号的主题的能力，不依赖语音系统的自动语音识别模块和自然语言理解模块的识别能力。

在另一个具体实现方式中，如图5中(2)所示，语音受话人识别模型可以包括语音识别模型(例如Transformer语音识别模型)和集成学习模型。其中，在训练语音识别模型时，可以将训练样本输入到预训练的模型中。其中，训练样本包括语音，以及对语音标注的对话分类，该对话分类例如包括人人对话、人机对话、电子音(即电子设备播放声音)、噪声以及未知声音中多项。需要说明的是，标注人员可以根据语音本身的含义标注的对话分类。后续，训练好的语音识别模型可以对输入的语音进行推理，推理出该语音对应的各个对话分类的概率分布。在训练集成学习模型时，可以将训练样本输入到预训练的集成学习模型中。其中，训练样本包括语音对应的各个对话分类的概率分布，以及标注的语音的来源、对象和主题等。训练好的集成学习模型可以对输入的语音的对话分类的概率分布进行推理，推理出该语音的来源、对象和主题等。也就是说，当语音输入到语音受话人识别模型中后，通过语音识别模型和集成学习模型的推理，可以得到该语音的来源、对象以及主题等特征。

在又一些示例中，受话人识别模块包括文本受话人识别(Text-to-Speech Addressee Detection，TAD)模型。也就是说，如图6中(1)所示，文本受话人识别模型接收自动语音识别模块转换后的文本，通过对文本进行识别，识别出语音信号的多个特征，如语音信号的来源、语音信号的对象和语音信号的主题。在一个具体实现方式中，如图6中(2)所示，文本受话人识别模型包括文本识别模型，该文本识别模型包括拼接模块、BERT编码器和解码器。其中，拼接模块，用于将语音转换后文本和预设模板进行拼接。该预设模板包括多个提示符，一个提示符对应一个语音的特征。例如，语音信号的来源、对象和主题。例如，拼接后的内容为“【语音信号的来源】对【语音信号的对象】说【语音信号的主题】：语音转换后的文本”。在训练文本识别模型时，可以将训练样本输入到预训练的模型中进行训练。其中，训练样本包括语音转换后的文本，以及对文本标注的语音的来源、对象以及主题等。训练好的文本识别模型可以对语音转换后的文本进行推理，推理出该语音的来源、对象以及主题等特征。

在又一些示例中，如图6中(2)所示，受话人识别模型包括语音受话人识别模型、文本受话人识别模型以及集成学习模型。其中，语音受话人识别模型可以参考上述图5中(1)所示的语音识别模型，文本受话人识别模型可以参考上述图6中(1)和(2) 所示的文本识别模型，这里不再赘述。集成学习模型可以融合语音受话人识别模型和文本受话人识别模型的识别结果，最终输出语音的来源、对象以及主题等特征。

需要说明的是，由于语音和文本的数据特征不同，语音为流式数据，是一组顺序、大量、快速、连续到达的数据序列。文本为非流式数据。因此，在融合语音受话人识别模型的识别结果和文本受话人识别模型的识别结果时，可以采用语音激活检测(Voice Activity Detection，VAD)方法，将语音流切断为多个语音片段。针对每一个语音片段输入到语音受话人识别模型进行识别，并将该语音片段对应的文本输入到文本受话人识别模型的识别结果，以达到对齐语音和文本的效果，将相对应的两个识别结果进行融合。

在一个具体的实现方式中，如图7中(1)所示，语音系统包括一个语音激活检测模块。在接收到语音后，语音激活检测模块将音频流切断为多个语音片段。然后，将各个语音片段分别输入到语音受话人识别模型中进行识别，输出各个语音片段对应的对话分类的概率。同时，将各个语音片段转换后的文本输入到文本受话人识别模型中进行识别，输出各个语音片段对应的语音信号的来源、对象和主题等。可以注意到，此时语音受话人识别模型处理语音片段，与文本受话人识别模型处理的文本已对齐。而后，将两个模型输出的识别结果输入到集成学习模型进行推理，得到融合后的语音的来源、对象和主题等。

在另一个具体的实现方式中，如图7中(2)所示，语音受话人识别模型中包括语音激活检测模块。具体的，当语音受话人识别模型接收到语音流后，其中的语音激活检测模块将音频流切断为多个语音片段，并将断句点发送给文本受话人识别模型。断句点用于触发文本受话人识别模型对相应的文本内容进行识别。此时语音受话人识别模型处理语音片段，与文本受话人识别模型处理的文本已对齐。而后，将两个模型输出的识别结果输入到集成学习模型进行推理，得到融合后的语音的来源、对象和主题等。

在又一些示例中，如图8中(1)或图8中(2)所示，受话人识别模型还包括意图受话人识别模型。意图受话人识别模型包括意图映射模块，用于将自然语言理解模块输出的语音的意图概率分布映射为有意图概率和无意图概率。例如：语音1输入到自然语言理解模块后，得到语音1的意图概率分布为：意图1的概率为概率1，意图2的概率为概率2，意图3的概率为，无意图的概率为概率4。那么，意图映射模块映射后的有意图的概率为概率1+概率2+概率3；无意图的概率为概率4。可见，意图受话人识别模型有利于提升识别出的语音信号的主题。而后，集成学习模型可以融合语音受话人识别模型的识别结果、文本受话人识别模型的识别结果以及意图受话人识别模型的识别结果，最终输出语音的来源、对象以及主题等特征。可选的，在一些其他示例中，对话管理模块还可以将该语音的上下文输入到意图受话人识别模型中，用于辅助输出语音的来源、对象以及主题等特征。

可以理解的是，仍然可以采用语音激活检测模块，对齐意图受话人识别模型处理的文本，语音受话人识别模型处理的语音以及文本受话人识别模型处理的文本。具体对齐方式可参考前文中语音受话人识别模型处理的语音以及文本受话人识别模型处理的文本对齐方法，这里不再赘述。

需要说明的是，本申请实施例对受话人识别模块的具体实现不做具体限定。例如，受话人识别模块还可以包括图像受话人识别模块，用于通过用户的图像识别该图像对应的语音的特征。受话人识别模块还可以包括上述各个子模型(语音识别模型、文本识别模型、意图受话人识别模型、图像是被模型等)的任意组合。例如，受话人识别模块可以包括语音受话人识别模型和意图受话人识别模型，或者，包括文本受话人识别模型和意图受话人识别模型等。

综上，本申请实施例通过受话人识别模块对输入的多模态的数据(例如：语音、文本、意图识别结果、对话上下文、图像数据、传感器数据等)进行识别，且识别结果包括多个语音信号的特征。可以理解的，多个语音信号的特征有利于提升受话人识别准确率，还有利于区分更多的应用场景，便于语音系统根据更细分的应用场景给出不同的响应结果，从而提升人机交互的智能化、语音回复的自然流畅，提升语音交互体验。

本申请实施例还提供一种芯片系统，如图9所示，该芯片系统包括至少一个处理器1101和至少一个接口电路1102。处理器1101和接口电路1102可通过线路互联。例如，接口电路1102可用于从其它装置(例如终端100的存储器)接收信号。又例如，接口电路1102可用于向其它装置(例如处理器1101)发送信号。示例性的，接口电路1102可读取存储器中存储的指令，并将该指令发送给处理器1101。当所述指令被处理器1101执行时，可使得终端执行上述实施例中的终端100(比如，手机)执行的各个步骤。当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

本申请实施例还提供一种装置，该装置包含在终端中，该装置具有实现上述实施例中任一方法中终端行为的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括至少一个与上述功能相对应的模块或单元。例如，检测模块或单元、显示模块或单元、确定模块或单元、以及计算模块或单元等。

本申请实施例还提供一种计算机存储介质，包括计算机指令，当计算机指令在终端上运行时，使得终端执行如上述实施例中任一方法。

本申请实施例还提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如上述实施例中任一方法。

可以理解的是，上述终端等为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

本申请实施例可以根据上述方法示例对上述终端等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种语音交互方法，其特征在于，所述方法包括：

检测到语音信号；

将所述语音信号转换为文本，并对所述文本进行意图识别，得到意图识别结果；

根据所述语音信号、所述文本、所述意图识别结果中的一项或多项，确定受话人识别结果，所述受话人识别结果包括所述语音信号的来源、对象和主题；

根据所述受话人识别结果，以及意图执行结果，确定所述语音信号的响应方式。
根据权利要求1所述的方法，其特征在于，所述语音信号的来源包括用户、扬声器或电子设备、环境中一项；所述语音信号的对象包括语音系统、用户、环境中一项；所述语音信号的主题包括任务或无意义。
根据权利要求2所述的方法，其特征在于，所述任务还包括：执行类任务、闲聊任务、百科类任务、方言类任务中一项或多项。
根据权利要求2或3所述的方法，其特征在于，所述根据所述受话人识别结果，以及意图执行结果，确定所述语音信号的响应方式，包括：

当所述语音信号的来源为用户，所述语音信号的对象为语音系统，所述语音信号的主题为任务，所述意图识别执行结果为未成功执行意图时，发出第一提示，所述第一提示用于提示所述语音系统不支持执行所述语音信号的主题；所述第一提示包括语音信号的来源、所述语音信号的对象、以及所述语音信号的主题；

或者，当所述语音信号的来源为用户，所述语音信号的对象为语音系统，所述语音信号的主题为无意义，所述意图识别执行结果为未成功执行意图时，发出第二提示；所述第二提示用于请求用户澄清，所述第一提示包括语音信号的来源、所述语音信号的对象、以及所述语音信号的主题；

或者，当所述语音信号的来源为非用户，或者，所述语音信号的对象为非语音系统，确定不响应所述语音信号。
根据权利要求3所述的方法，其特征在于，所述根据所述受话人识别结果，以及意图执行结果，确定所述语音信号的响应方式，包括：

当语音信号的来源为用户，且语音信号的对象为另一个用户，语音信号的主题为闲聊任务时，发出第三提示，所述第三提示用于询问是否执行与所述语音信号关联的第一技能；

或者，当语音信号的来源为用户，且语音信号的对象为空气，语音信号的主题为闲聊任务时，发出第四提示，所述第四提示用于询问是否执行与所述语音信号关联的第二技能；所述第二技能与所述第一技能相同或不同。
根据权利要求1-5任一项所述的方法，其特征在于，所述根据所述受话人识别结果，以及意图执行结果，确定所述语音信号的响应方式，包括：

基于预设规则，查询所述受话人识别结果以及意图执行结果对应的响应方式；所述规则中所述受话人识别结果或意图执行结果不同时，对应的响应方式不同；

或者，将所述受话人识别结果以及意图执行结果输入到预先训练好的响应模型中进行推理，得到所述语音信号的响应方式。
根据权利要求1-6任一项所述的方法，其特征在于，所述根据所述语音信号、所述文本、所述意图识别结果中的一项或多项，确定受话人识别结果，包括：

将所述语音信号输入到语音识别模型中进行推理，得到所述语音信号对应的对话分类，所述对话分类包括人人对话、人机对话、电子音、噪声和未知声音中的一项；

将所述文本输入到文本识别模型中进行推理，得到所述语音信号的来源初值、语音信号的对象初值、以及语音信号的主题初值；

将所述语音信号对应的对话分类、所述语音信号的来源初值、语音信号的对象初值、以及语音信号的主题初值输入到第一集成学习模型中进行推理，得到所述语音信号的来源、所述语音信号的对象、以及所述语音信号的主题。
根据权利要求7所述的方法，其特征在于，所述根据所述语音信号、所述文本、所述意图识别结果中的一项或多项，确定受话人识别结果，还包括：

将所述语音信号输入到语音识别模型中进行推理，得到所述语音信号对应的对话分类，所述对话分类包括人人对话、人机对话、电子音、噪声和未知声音中的多项；

将所述文本输入到文本识别模型中进行推理，得到所述语音信号的来源初值、所述语音信号的对象初值、以及所述语音信号的主题初值；

根据所述意图执行结果中所述文本对应的各个意图的概率分布，映射为所述文本的有意图的概率和无意图的概率；

将所述文本的有意图的概率和无意图的概率，所述语音信号对应的对话分类、所述语音信号的来源初值、所述语音信号的对象初值、以及所述语音信号的主题初值输入到第二集成学习模型中进行推理，得到所述语音信号的来源、所述语音信号的对象、以及所述语音信号的主题。
一种终端，其特征在于，包括：处理器、存储器和触摸屏，所述存储器、所述触摸屏与所述处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器从所述存储器中读取所述计算机指令，以使得所述终端执行如权利要求1-8中任一项所述的语音交互方法。
一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在终端上运行时，使得所述终端执行如权利要求1-8中任一项所述的语音交互方法。
一种芯片系统，其特征在于，包括一个或多个处理器，当所述一个或多个处理器执行指令时，所述一个或多个处理器执行如权利要求1-8中任一项所述的语音交互方法。
一种语音交互系统，其特征在于，包括一个或多个处理单元，当所述一个或多个处理单元执行指令时，所述一个或多个处理单元执行如权利要求1-8中任一项所述的语音交互方法。