WO2020135811A1

WO2020135811A1 - 一种语音交互方法，设备和系统

Info

Publication number: WO2020135811A1
Application number: PCT/CN2019/129631
Authority: WO
Inventors: 郑明辉
Original assignee: 华为技术有限公司
Priority date: 2018-12-29
Filing date: 2019-12-28
Publication date: 2020-07-02
Also published as: JP7348288B2; US20210327436A1; CN111402900A; EP3896691A4; EP3896691A1; JP2022516491A; CN111402900B

Abstract

一种语音交互的方法，包括：检测到发起语音交互的指示后，终端进入语音交互工作状态；终端收到第一语音信息，输出针对所述第一语音信息的处理结果；终端收到第二语音信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户；如果判断为同一用户，则输出响应于所述第二语音信息的处理结果；如果判断为不同用户，则结束所述语音交互工作状态；通过在语音交互流程中增加话者对话意愿识别，例如判断继续说话的人是否相同来决定是否继续响应收到的语音信息，支持用户在一轮会话结束后不必再次说出唤醒词即可连续向系统发出语音指令，有效减少了语音交互，特别是会议的语音交互中的冗余唤醒。

Description

一种语音交互方法，设备和系统

技术领域

本申请涉及人机交互技术领域，尤其涉及一种人机语音交互的方法，设备和系统。

背景技术

随着人工智能的兴起，语音交互作为一种新的交互技术已经在各个行业中被广泛应用：家庭智能音箱、语音控制车载终端、个人语音助手、会议系统语音控制等。与鼠键交互和触摸交互相比，语音交互具有非接触、释放手眼、自然(不用学习)等诸多优点。受人工智能当前所处的技术水平限制，语音交互系统还不能做到完全模拟人与人之间的自然对话那般流畅智能。例如，当前的语音交互系统还不能主动判断附近的说话人是否在对系统说话，必须依靠一个特定的事件触发才能开始收听语音指令。这里的特定事件可以是用户说出一个指定的被训练过的唤醒词、发出一段特定的声音、做出一个特定的手势动作、按压一个物理按键或点击屏幕上的图标等，其中唤醒词触发最能发挥语音交互的优点，也是当前语音交互系统中应用最为普及的唤醒方式。但是，语音系统被首次唤醒后，当用户语音指令被执行或一轮会话结束后，用户如果紧接着想要发出下一条语音指令或进入下一轮会话，必须再次说出唤醒词。这种交互流程跟人与人之间的语言交流习惯相差甚远(人们交谈时，如果对话没有明显结束，哪怕是话题切换，我们也不必反复呼喊对方的名字以维持交谈)，带来的不良后果是，用户在与系统对话的过程中经常忘记说唤醒词，影响对话的连续性。这也是当前所有语音交互系统存在的通用性问题。

中国专利申请CN108182943A公开了一种智能设备控制方法、装置及智能设备，所述智能设备控制方法包括：响应完第一用户语音信息对应的交互指令后，保持工作状态；在接收到第二用户语音信息后，获得所述第二用户语音信息对应的语音识别结果；根据所述语音识别结果，判断所述第二用户语音信息与所述第一用户语音信息的相关度是否大于等于预设相关度；若所述相关度大于等于预设相关度，响应目标交互指令，其中，所述目标交互指令为：所述第二用户语音信息对应的交互指令。通过该专利方案，智能设备被用户唤醒后，用户就相同话题的内容与智能设备进行多次交互时，不需要再次唤醒智能设备，但是该专利方案中，第二用户语音信息必须与第一用户语音信息内容强相关(相同话题)，才能免再次唤醒，实际应用中话题可能会频繁切换，比如让语音系统打开台灯后，紧接着想听一首歌，此类场景中用户仍需再次唤醒系统。中国专利申请CN105912092A公开了一种当机器检测到非唤醒词的声音信号时，系统开启人体/人脸检测，或利用声源定位方法循声调整摄像头拍摄角度并继续图像检测，如果检测到人体/人脸，则唤醒机器开始语音识别。但是该方案缺点在于：该方案只涉及一次会话的唤醒，忽视了连续会话的需求；另外，当用户长时间未与机器对话时，严格的唤醒机制是必须的，此时仅凭简单的声量和图像检测作为判断特征，降低了唤醒阈值，精度也不够高。

发明内容

本申请提供一种语音交互的方法、终端设备及系统，用以通过判断用户的继续对话意愿，减少语音交互过程中的冗余唤醒，提升用户体验。

第一方面，提供一种语音交互的方法。该方法包括：检测到发起语音交互的指示；响应于所述发起语音交互的指示，所述终端进入语音交互工作状态；所述终端收到第一语音信息，输出针对所述第一语音信息的处理结果；所述终端收到第二语音信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户；如果判断为同一用户，则所述终端输出响应于所述第二语音信息的处理结果；如果判断为不同用户，则所述终端结束所述语音交互工作状态。

在一种可能的设计中，所述终端判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户，包括：所述终端收到第一和第二语音信息时，分别获取所述第一和第二语音信息的特征；所述终端根据所述第一和第二语音信息特征的比较结果，确定所述第二语音信息与所述第一语音信息的发出者是否为同一用户。

在一种可能的设计中，所述语音特征信息为声纹模型信息。

在一种可能的设计中，所述终端判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户，包括：所述终端分别获取收到第一和第二语音信息时用户的方位或者距离信息；所述终端根据所述用户方位或者距离信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户。

在一种可能的设计中，所述终端利用红外感应探测所述用户的距离信息，利用麦克风阵列探测所述用户的方位信息。

在一种可能的设计中，所述终端判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户，包括：所述终端分别获取收到第一和第二语音信息时用户的面部特征信息；所述终端通过比较所述用户面部特征信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户。

在一种可能的设计中，所述终端判断所述第二语音信息与所述第一语音信息的发出者为同一用户以后，所述终端进一步判断所述用户的面部朝向是否满足预设的阈值，满足预设的阈值后，所述终端输出针对所述第二语音信息的处理结果，否则所述终端结束所述语音交互工作状态。

在一种可能的设计中，所述判断所述用户的面部朝向是否满足预设的阈值，包括：确定语音交互界面的视觉中心点和摄像头位置的偏移量，根据所述偏移量，确定所述用户的面部朝向是否满足预设的阈值。

在一种可能的设计中，所述终端进入语音交互工作状态进一步包括：所述终端呈现第一语音交互界面；所述终端输出针对所述第一语音信息的处理结果后，所述终端呈现第二语音交互界面，所述第一语音交互界面不同于所述第二语音交互界面；所述终端结束所述语音交互工作状态，包括：所述终端取消所述第二语音交互界面。

第二方面，提供一种实现智能语音交互的终端，包括：语音交互模块和继续对话意愿判断模块，所述语音交互模块，用于实现智能语音交互，根据收到的语音信息，输出针对性的的处理结果；继续对话意愿判断模块，用于判断收到的第一语音信息和第二语音信息是否为同一个用户，所述第一语音信息为所述语音交互模块响应于发起语音交互的指示后收到的语音信息；所述第二语音信息为所述语音交互模块输出针对所述第一语音信息的处理结果后收到的语音信息。

在一种可能的设计中，所述继续对话意愿判断模块判断收到的第一语音信息和第二语音信息是否为同一个用户，包括：所述继续对话意愿判断模块根据所述第一和第二语音信息特征的比较结果，确定所述第二语音信息与所述第一语音信息的发出者是否为同一用户。

在一种可能的设计中，所述语音特征信息为声纹模型信息。

在一种可能的设计中，所述继续对话意愿判断单元判断收到的第一语音信息和第二语音信息是否为同一个用户，包括：所述继续对话意愿判断模块根据收到第一和第二语音信息时用户的方位或者距离信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户。

在一种可能的设计中，所述继续对话意愿判断模块利用红外感应探测所述用户的距离信息，利用麦克风阵列探测所述用户的方位信息。

在一种可能的设计中，所述继续对话意愿判断模块判断收到的第一语音信息和第二语音信息是否为同一个用户，包括：所述继续对话意愿判断模块根据收到第一和第二语音信息时用户的面部特征信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户。

在一种可能的设计中，所述继续对话意愿判断模块判断所述第二语音信息与所述第一语音信息的发出者为同一用户以后，进一步判断所述用户的面部朝向是否满足预设的阈值。

在一种可能的设计中，所述终端还包括语音交互界面呈现模块，用于在所述终端进入语音交互工作状态后，呈现第一语音交互界面，以及在所述终端输出针对所述第一语音信息的处理结果后，呈现第二语音交互界面，所述第一语音交互界面不同于所述第二语音交互界面。

第三方面，本申请实施例提供一种实现智能语音交互的会议系统，所述会议系统包含前述方面的任一终端以及至少一个服务器，所述终端通过网络与所述至少一个服务器连接，实现智能语音交互，所述服务器包括：声纹识别服务器，人脸识别服务器，语音识别和语义理解服务器，语音合成服务器和会话意愿识别服务器。

第四方面，本申请实施例提供一种芯片，包括处理器和存储器；该存储器用于存储计算机执行指令，处理器与该存储器连接，当该芯片运行时，处理器执行该存储器存储的该计算机执行指令，以使该芯片执行上述任一智能语音交互的方法。

第五方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质中存储有指令，当所述指令在计算机上运行时，使得所述计算机执行上述任一智能语音交互的方法。

第六方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包含有指令，当所述指令在计算机上运行时，使得所述计算机执行上述任一智能语音交互的方法。

另外，第二方面至第六方面中任一种设计方式所带来的技术效果可参见上述第一方面中不同设计方法所带来的技术效果，此处不再赘述。

可以理解地，上述提供的任一种设备、计算机存储介质、计算机程序产品、芯片、用于智能语音交互的系统均用于实现上文所提供的对应的方法，因此，其所能达到的有益效果可参考对应的方法中的有益效果，此处不再赘述。

附图说明

图1为本发明实施例提供的一种实现语音交互的系统示意图；

图2为本发明实施例提供的一种语音交互的方法流程示意图；

图3为本发明实施例判断语音信息的发出者是否相同的实施例示意图；

图4为本发明实施例计算用户面部朝向时考虑朝向偏差的算法示意图；

图5为本发明实施例语音交互过程中交互界面变化的实施例示意图；

图6为本发明实施例提供一种智能终端设备示意图；

图7为本发明实施例提供又一种智能终端设备示意图。

具体实施方式

下面对本申请实施例中的部分用于进行解释说明，以便于本领域技术人员理解。

本发明实施例提供的一种实现语音交互的系统100示意图如图1所示，该系统包含语音终端101，声纹识别服务器102，人脸识别服务器103，语音识别和语义理解服务器104；语音合成服务器105，会话意愿识别服务器106；所述智能语音终端101通过网络和上述服务器102-106连接，各网元功能进一步说明如下：

终端101：负责语音采集、图像采集、唤醒检测、对话管理、控制管理、状态指示、声音播放以及内容显示等功能；

具体的，终端101可以是一种智能语音终端，可以检测到用户发起的语音交互的指示，如用户说出的唤醒词，点击发起语音交互的按钮，或者某些用户预定义的声音或者操作等，响应于所述用户发起的语音交互指示，进入语音交互工作状态；区别于单纯检测唤醒词等发起语音交互的指示，语音交互工作状态，或者称为语音交互对话状态，是指终端101可以对接收到的语音信息，调用各种处理资源进行处理并输出相应处理结果或者操作的状态；终端设备101收到用户发出的第一语音信息后，输出针对所述第一语音信息的处理结果，例如回答用户的问题，触发例如加入会议，打开麦克风等操作；执行完第一语音信息对应的指令后，终端101可以进一步判断用户是否有继续对话的意愿，具体的，可以在收到第二语音信息时，判断第二语音信息与所述第一语音信息的发出者为同一用户，则输出针对所述第二语音信息的处理结果；如果判断为不同用户，则结束所述语音交互工作状态；判断是否为同一用户的方式，可以是通过人脸识别，说话人的方位和/或者距离，用户的声音特征等信息完成；终端101还可以进一步判断用户是否专注于当前会话并有继续对话的意愿，例如判断用户的面部朝向是否满足预设的阈值，满足预设的阈值后，才输出针对所述第二语音信息的处理结果，否则结束所述语音交互工作状态。进一步的，终端101还会考虑语音交互界面和屏幕摄像头在法线方向上的投影并不重合时导致的对用户面部朝向判断的偏差。具体来说，判断用户面部朝向时，如果终端显示屏幕比较宽大，语音助手界面的视觉中心位置和摄像头的位置在法线方向上的投影可能并不重合，此时用户注视着语音助手界面的时候，在摄像头看来，可能是存在面部朝向偏差的，即摄像头可能认为用户并没有正面对着屏幕，但是用户其实是正对着语音助手界面专注的进行对话，因此以摄像头为中心位置来判断用户面部朝向的时候，需要考虑这个偏差；

终端101还可以通过不同的UI界面来向用户提示当前的工作状态，例如进入语音交互工作状态时呈现第一语音交互界面；输出针对所述第一语音信息的处理结果后，呈现与第一语音交互界面不同的，例如更简洁的第二语音交互界面；在判断出用户没有继续对话的意愿后，再取消所有的语音交互界面。

终端101可以为:智能手机、智能家居产品(如：智能音箱)、智能车载设备、智能穿戴设备、智能机器人，会议终端等，这都是合理的；可以理解的是，终端101在语音交互过程中需要的功能可以通过网络连接到相关的服务器来实现的，即终端101可以采用与服务器102-106通过通信连接的方式工作，终端101也可以本身集成了实现本发明实施例所有智能语音交互所必须的全部或者部分功能；另外，服务器102-106只是从功能上进行的示例性划分，实现中他们可能有不同的功能组合或者为终端提供其他的服务。

声纹识别服务器102：根据终端101采集到的语音数据，生成话者声纹模型；并进行话者声纹比对，确认话者身份。结果返回意愿识别服务器106；

人脸识别服务器103：从语音终端采集到的图像中检测人脸并可以进一步计算人脸朝向，以及用户身份识别，结果返回意愿识别服务器106；

语音识别和语义理解服务器104：将终端采集上传的语音信号转换为文本和语义，发送给终端101或者其他服务器处理；

语音合成服务器105：将终端101请求扬声器播报的文字合成语音，并送回终端101；

会话意愿识别服务器106：接受声纹识别、人脸识别服务器，或者终端上红外感应装置和麦克风阵列等返回的信息(声纹，人脸或者说话者声源方位和/或距离)，综合判断话者是否有继续对话意愿，并将结果发送至终端101；

本发明实施例提供实现语音交互系统通过在语音交互流程中增加话者对话意愿识别，例如判断继续说话的人是否是同一个人来决定是否继续响应收到的语音信息，支持用户在一轮会话结束后不必再次说出唤醒词(或者其他唤醒方式)即可连续向系统发出语音指令，有效减少了语音交互过程中的冗余唤醒；同时，旁人插话以及话者与旁人的交流的语音信号会被智能过滤，有效减少系统的误响应，从而提升语音交互的流畅性和准确性，改善用户体验；本实施例的系统还支持利用摄像头采集到人脸朝向来判断用户继续对话的意愿，从而提升话者对话意愿识别的准确度；本实施例的系统支持在现有交互界面中增加第一轮会话(可包括第一轮会话后的适当延时)结束后的UI界面，例如半唤醒(唤醒延时)状态UI，既保证界面的简洁，减少干扰，也能有效提示用户系统当前所处的工作状态。值得指出的是，本发明实施例对用户继续对话意愿的识别(话者识别和人脸朝向识别)不需要进行语音到文字的转换或语义的分析，部署难度较低，更容易实现。

利用附图1中所述的系统，本发明实施例进一步提供了一种语音交互的方法，如图2所示，所述方法包括步骤：

S201、检测到发起语音交互的指示；

也可以称为唤醒终端开始进入语音交互状态的指示，如前所述，发起语音交互的指示可以有多种形式，例如用户说出的唤醒词“开会了”，用户点击发起语音交互的按钮，或者其他用户预定义的声音等。

S202、响应于所述发起的语音交互指示，所述终端进入语音交互工作状态；

用户说出唤醒词“开会了”或“小微小微”，当系统检测到唤醒词后播放应答提示音，进入语音指令收听状态(也是一种语音交互工作状态)，终端还可以在屏幕上弹出语音助手用户界面。界面包含命令提示信息、语音系统状态指示等内容；终端可以通过ASR和NLP服务以及对话管理功能与用户进行交互，其中ASR为自动语音识别，NLP为自然语言处理。

S203、所述终端收到第一语音信息，输出针对所述第一语音信息的处理结果；

接着用户说出语音指令，如“加入会议”。语音信号被识别(本地识别或者送往语音识别服务器)，并返回识别结果。会议终端根据返回的结果执行加入会议任务。

会议终端根据返回的结果执行加入会议任务后，本轮会话可以没有马上结束，即可以有一定的时延，不必立即进入会话意愿判断状态(例如半唤醒状态)，因为用户可能还会马上再发出新的指示，这个时延一般较短，例如5秒；可以认为时延结束后，本轮会话结束。

S204、所述终端收到第二语音信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户；如果判断为同一用户，则所述终端输出响应于所述第二语音信息的处理结果；如果判断为不同用户，则所述终端结束所述语音交互工作状态。

终端输出针对第一语音信息的处理结果后(或者经过了一定的时延)，终端即进入会话意愿判断状态(例如半唤醒状态)，此时收到终端发送的第二语音信息，如果该用户需要邀请其他人入会，可以直接说“呼叫张三”，而不必再次说出唤醒词。终端对话意愿识别服务器，依据话者身份或者进一步根据人脸朝向判断该语音指令是向语音助手发出，此时终端才会将该语音片段送往语音识别服务器进行识别，进入正常对话流程；

参考图3，为本发明实施例判断第二语音信息与所述第一语音信息的发出者是否相同的一个实施例示意图：

S2041、终端检测到第二语音信号；

可选的，如果检测到唤醒词，终端当然可以重新进入语音交互工作状态；

判断是否同一个人的方法，可以是通过语音特征信息比对，例如声纹比对，具体的，用户在收到第一语音信号的时候，即获取了第一语音信号的声音特征信息，例如声纹信息，在收到第二语音信息后，也提取出第二语音信息的语音特征进行对比，如果满足一定的阈值，则判定为同一个用户，如果不同，则结束语音交互工作状态；这种情况下，如果加入会议后，话者身边有其他人说话(不包含唤醒词)，话者继续对话意愿识别服务器依据该话者与上轮对话话者非同一人，判断话者无继续对话意愿，不予响应。

可选的，终端检测到第二语音信号时，还可以通过红外感应探测话者与终端的距离或者方位来判断是否是同一人，或者利用人脸识别来判断是否是同一个用户，可以理解的是，用户在收到第一语音信号的时候也获取了第一语音信号发出者的距离信息或者人脸信息，据此和第二语音信号发出者的距离或者人脸信息进行比对判断；

S2042、人脸朝向检测；如果加入会议后，用户可能没有其他语音指令需要发出，并且想要跟身边的同事对话，用户可能面向同事正常说话，此时，可以进一步通过人脸朝向确认用户是否正面对屏幕来确定用户的会话意愿，例如通过计算用户面部朝向偏差的角度来确认，再如采用头部姿态估计 (Head Pose Estimate，HPE)技术来确认，即利用计算机视觉和模式识别的方法在数字图像中判断人头部的朝向问题，利用一个空间坐标系内识别头部的姿态方向参数,也就是，头部位置参数(x,y,z)和方向角度参数(Yaw,Pitch,Roll)。按照估计结果的不同，分为离散的粗糙头部姿态估计(单张图像)、连续的精细头部姿态估计(视频)，本发明实施例在此不再赘述。如果因人脸朝向检测结果未满足设定阈值要求，对话意愿识别服务器可以判断该用户无持续对话意愿，系统不予响应，即退出语音交互工作状态。

本发明实施例提供实现语音交互方法通过在语音交互流程中增加话者对话意愿识别，例如判断继续说话的人是否是同一个人来决定是否继续响应收到的语音信息，支持用户在一轮会话结束后不必再次说出唤醒词(或者其他唤醒方式)即可连续向系统发出语音指令，有效减少了语音交互过程中的冗余唤醒，旁人插话以及话者与旁人的交流的语音信号会被智能过滤，有效减少系统的误响应，从而提升语音交互的流畅性和准确性，改善用户体验；

本实施例的系统还支持利用摄像头采集到人脸朝向来判断用户继续对话的意愿，从而提升话者对话意愿识别的准确度；值得指出的是，本发明实施例对用户继续对话意愿的识别(话者识别和人脸朝向识别)不需要进行(语音到文字)的转换或语义分析，部署难度较低，更容易实现。

进一步的，本发明实施例还考虑语音交互界面和屏幕摄像头在法线方向上的投影并不重合时导致的对用户面部朝向判断的偏差。具体来说，由于通常的算法都是以摄像头为基准来判断用户面部朝向的，如果终端显示屏幕比较宽大，语音助手界面的视觉中心位置和摄像头的位置在法线方向上的投影可能并不重合，此时用户注视着语音助手界面的时候(具备对话意愿)，在摄像头看来，可能是存在面部朝向偏差的，即摄像头可能认为用户并没有正面对着屏幕，因此以摄像头为中心位置来判断用户面部朝向的时候，需要考虑这个偏差。

本实施例中提供了一种人脸朝向修正算法，用于检测用户的人脸朝向并判断其是否满足要求：摄像头分为固定摄像头和带云台巡声目标追踪摄像头两种情形。当投影对齐时，用户如果正面着视觉交互界面(即正面着摄像头)，云台摄像头不会产生角度偏差，如果用户面部不是正面着摄像头(交互界面)，此时摄像头即可根据人脸朝向算法判断用户是否正面对屏幕；例如通过计算用户面部朝向偏差的角度(△＝a)来确认；对于固定摄像头的情形，还可以是通过麦克风阵列定位用户位置(声源)，形成用户到麦克风语音接收点的连线，该连线和用户位置与摄像头位置的连线形成一个夹角，通过夹角值确认用户人脸朝向是否满足要求；

同样是云台摄像头的情形，如果语音助手界面的视觉中心位置(可由系统获取或者由语音助手上报)和摄像头的位置(可以是固定配置)在法线方向上的投影并不对齐，二者与用户位置的连线形成一个夹角，那么在计算偏差角度△时，就要考虑这个夹角，如附图4所示，假设：

a＝人脸图像的横向(左右)侧偏角度；(图例中，人脸右偏时a值取负数，人脸左偏时a值取正数)；

b＝话者声源与语音助手视觉焦点连线在水平面上的投影与屏幕法向的夹角(图例中，当人脸处在语音助手视觉焦点法向竖直平面右侧时，b值为负数)；

c＝话者人脸与摄像头连线在水平面上的投影与屏幕法向的夹角。(图例中，当人脸处在摄像头中心法向竖直平面右侧时，c值为负数)；

那么人脸朝向与正视语音助手视觉焦点方向的偏差角度△2＝a+(b-c)；

这里，偏差角度△2即为考虑了语音交互界面视觉中心和摄像头并不对齐的情况计算出的人脸朝向修正值。

通过本发明实施例的方法，可以更加准确的检测用户在对话时候的面部朝向，从而实现更加智能高效的语音交互，特别是对于大屏幕和语音交互界面在屏幕上的位置可能灵活变化的场景，可以实现更精准的用户继续对话意愿识别，减少误判。

如附图5所示，本发明进一步提供了语音交互界面变化的一个实施例，本发明实施例在用户交互界面中引入了半唤醒状态指示界面：唤醒监听状态下，当系统检测到唤醒词时，弹出语音助手用户界面(UI)(第一语音交互界面)，界面显示的信息包括命令提示、播报语、语音识别文字结果、助手工作状态动画图标等。本轮会话结束后，进入半唤醒状态，界面不会完全退出，而是收缩为一个小的图标(第二语音交互界面)，用以提示用户系统正处于半唤醒状态(唤醒延时)，此时系统会判断用户是否有继续对话意愿，半唤醒状态结束后，再完全退出语音交互状态，进入唤醒监听状态。

本实施例通过在现有交互界面中增加第一轮会话(可包括第一轮会话后的适当延时)结束后的UI界面，例如半唤醒(唤醒延时)状态UI，既保证界面的简洁，减少干扰，也能有效提示用户系统当前所处的工作状态。

本发明实施例进一步提供了一种终端设备600，如附图6所示，该终端设备包括是一种实现智能语音交互的终端，包括：语音交互模块601和继续对话意愿判断模块602，下面具体描述该终端设备600各个模块的功能：

所述语音交互模块601，用于实现智能语音交互，根据收到的语音信息，输出针对性的的处理结果；

所述继续对话意愿判断模块602，用于判断收到的第一语音信息和第二语音信息是否为同一个用户，所述第一语音信息为所述语音交互单元响应于发起语音交互的指示后收到的语音信息；所述第二语音信息为所述语音交互模块601输出针对所述第一语音信息的处理结果后收到的语音信息。

可选的，所述继续对话意愿判断模块602根据所述第一和第二语音信息特征的比较结果，确定所述第二语音信息与所述第一语音信息的发出者是否为同一用户。

可选的，所述语音特征信息为声纹模型信息，如附图6所示，此时，所述继续对话意愿判断模块602包含话者声纹生成单元和比对单元，分别用于获取第一和第二语音信息的声纹以及进行比对，并将比对结果对应为用户对话意愿的判断结果。

可选的，所述继续对话意愿判断模块根据收到第一和第二语音信息时用户的方位或距离信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户。

可选的，所述继续对话意愿判断单元利用红外感应探测所述用户的距离信息，利用麦克风阵列探测所述用户的方位信息，如附图6所示，此时，所述继续对话意愿判断模块包含方位距离获取单元和比对单元，分别用于获取终端收到第一和第二语音信息时候用户的方位和距离信息以及进行比对，并将比对结果对应为用户对话意愿的判断结果。

可选的，所述继续对话意愿判断模块根据收到第一和第二语音信息时用户的面部特征信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户。如附图6所示，此时，所述继续对话意愿判断模块包含面部特征生成单元和比对单元，分别用于获取终端收到第一和第二语音信息时候用户的面部特征以及进行比对，并将比对结果对应为用户对话意愿的判断结果。

可选的，所述继续对话意愿判断模块判断所述第二语音信息与所述第一语音信息的发出者为同一用户以后，进一步判断所述用户的面部朝向是否满足预设的阈值。如附图6所示，此时，所述继续对话意愿判断模块包含声源定位单元和人脸检测单元，声源定位单元用于通过麦克风阵列定位用户的定位用户位置(声源)或者话音方向，人脸检测单元用于检测用户的面部位置，从而计算出用户面部朝向，具体算法可以参考前述方法实施例S2042中的描述，在此不再赘述。通过获取用户的面部朝向并和一定的阈值进行比对，将比对结果对应为用户对话意愿的判断结果

可选的，在判断所述用户的面部朝向是否满足预设的阈值时，还可以进一步考虑语音交互界面的视觉中心点和摄像头位置的偏移量，根据所述偏移量，确定所述用户的面部朝向是否满足预设的阈值，并将判断结果对应为用户继续对话意愿的判断结果。

可选的，在判断人脸朝向时候，还可以进一步通过唇动检测单元检测用户是否在说话，以进一步确认用户继续对话意愿，例如，有时候可能用户说话声音比较小，没有被终端检测到，但是通过检测到用户有唇动，加上前面的同一用户的判断以及面部朝向识别，可以确认用户确实在进行进一步的对话，则继续保持语音交互状态，避免过早退出。

可选的，所述终端还包括语音交互界面呈现模块603，用于在所述终端进入语音交互工作状态后，呈现第一语音交互界面，以及在所述终端输出针对所述第一语音信息的处理结果后，呈现第二语音交互界面，所述第一语音交互界面不同于所述第二语音交互界面，例如第二语音交互界面更加简洁，避免对用户形成干扰。

可以理解的是，上述继续会话意愿判断模块需要的各种信息，可以通过终端自身收集和获取，也可以是通过网络或者线缆连接到相关的设备或者服务器获取；甚至继续会话意愿判断模块本身，也可以通过网络或者线缆连接的设备或者服务器来实现，即终端只作为一个与用户进行语音交互的界面，负责采集语音，图像等用户信息以及负责输出处理后的语音和图像信息，将其他所有功能云化。

由于本申请实施例提供的终端设备用于执行前述所有实施例中的方法，因此其所能获得的技术效果可参考上述方法实施例，在此不再赘述。

图6中的“模块”或者“单元”可以为专用集成电路(Application Specific Integrated Circuit，ASIC)、电子线路、执行一个或多个软件或固件程序的处理器和存储器、组合逻辑电路和其他提供上述功能的组件。所述集成的单元或者模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

请参阅图7，是本申请实施例提供的一种终端设备700的结构示意图。该结构包括处理器701、存储器702、收发器703以及显示器704，检测器705(麦克风，或进一步包括摄像头，红外检测器件等)。处理器701连接到存储器702和收发器703，例如处理器801可以通过总线连接到存储器702和收发器703。

处理器701可以被配置为终端设备700执行前述实施例中相应的功能。该处理器701可以是中央处理器(英文：central processing unit，CPU)，网络处理器(英文：network processor，NP)，硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，ASIC)，可编程逻辑器件(英文：programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，FPGA)，通用阵列逻辑(英文：generic array logic，GAL)或其任意组合。

存储器702存储器用于存储程序代码等。存储器702可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random access memory，缩写：RAM)；存储器702也可以包括非易失性存储器(英文：non-volatile memory)，例如只读存储器(英文：read-only memory，缩写：ROM)，快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器702还可以包括上述种类的存储器的组合。

检测器705包括麦克风等音频拾取设备，用于将用户发出的语音信息(如第一或者第二语音信息)发送给处理器处理或者进行声场定位；还可以包含摄像头，红外感应等测距装置，将用户相关信息(人脸，距离，方位等)采集并发送给处理器处理701；

收发器703(可选)可以是通信模块、收发电路，用于实现前述实施例中终端设备与各个服务器等其他网络单元之间可能的数据、信令等信息的传输。

处理器701可以调用所述程序代码以执行如图2-图5所述方法实施例中的操作。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质。例如，可以利用磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))来存储或传输所述计算机指令。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。。

Claims

一种语音交互的方法，其特征在于，所述方法包括：

终端检测到发起语音交互的指示；

响应于所述发起语音交互的指示，所述终端进入语音交互工作状态；

所述终端收到第一语音信息，输出针对所述第一语音信息的处理结果；

所述终端收到第二语音信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户；

如果判断为同一用户，则所述终端输出响应于所述第二语音信息的处理结果；

如果判断为不同用户，则所述终端结束所述语音交互工作状态。
如权利要求1中所述的方法，其特征在于，所述终端判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户，包括：

所述终端收到第一和第二语音信息时，分别获取所述第一和第二语音信息的特征；

所述终端根据所述第一和第二语音信息特征的比较结果，确定所述第二语音信息与所述第一语音信息的发出者是否为同一用户。
如权利要求1中所述的方法，其特征在于，所述语音特征信息为声纹模型信息。
如权利要求1中所述的方法，其特征在于，所述终端判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户，包括：

所述终端分别获取收到第一和第二语音信息时用户的方位或者距离信息；

所述终端根据所述用户方位或者距离信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户。
如权利要求4中所述的方法，其特征在于，所述终端利用红外感应探测所述用户的距离信息，根据收到第一和第二语音信息时用户的距离信息确认是否为同一用户；或者

所述终端利用利用麦克风阵列探测所述用户的方位信息，根据收到第一和第二语音信息时用户的方位信息确认是否为同一用户。
如权利要求1中所述的方法，其特征在于，所述终端判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户，包括：

所述终端分别获取收到第一和第二语音信息时用户的面部特征信息；

所述终端通过比较所述用户面部特征信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户。
如权利要求1-6中任一项所述的方法，其特征在于，所述方法还包括，判断所述第二语音信息与所述第一语音信息的发出者为同一用户以后，所述终端进一步判断所述用户的面部朝向是否满足预设的阈值，满足预设的阈值后，所述终端输出针对所述第二语音信息的处理结果，否则所述终端结束所述语音交互工作状态。
如权利要求7中所述的方法，其特征在于，所述判断所述用户的面部朝向是否满足预设的阈值，包括：确定语音交互界面的视觉中心点和摄像头位置的偏移量，根据所述偏移量，确定所述用户的面部朝向是否满足预设的阈值。
如权利要求1-8中任一项所述的方法，其特征在于，

所述终端进入语音交互工作状态进一步包括：所述终端呈现第一语音交互界面；

所述终端输出针对所述第一语音信息的处理结果后，所述终端呈现第二语音交互界面，所述第一语音交互界面不同于所述第二语音交互界面；

所述终端结束所述语音交互工作状态，包括：所述终端取消所述第二语音交互界面。
一种实现智能语音交互的终端，其特征在于，所述终端包括：语音交互模块和继续对话意愿判断模块，

所述语音交互模块，用于实现智能语音交互，根据收到的语音信息，输出针对性的的处理结果；

继续对话意愿判断模块，用于判断收到的第一语音信息和第二语音信息是否为同一个用户，所述第一语音信息为所述语音交互模块响应于发起语音交互的指示后收到的语音信息；所述第二语音信息为所述语音交互模块输出针对所述第一语音信息的处理结果后收到的语音信息。
如权利要求10所述的终端，其特征在于，所述继续对话意愿判断模块判断收到的第一语音信息和第二语音信息是否为同一个用户，包括：

所述继续对话意愿判断模块根据所述第一和第二语音信息特征的比较结果，确定所述第二语音信息与所述第一语音信息的发出者是否为同一用户。
如权利要求11中所述的终端，其特征在于，所述语音特征信息为声纹模型信息。
如权利要求10中所述的终端，其特征在于，所述继续对话意愿判断单元判断收到的第一语音信息和第二语音信息是否为同一个用户，包括：

所述继续对话意愿判断模块根据收到第一和第二语音信息时用户的方位或者距离信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户。
如权利要求13中所述的终端，其特征在于，所述继续对话意愿判断模块利用利用红外感应探测所述用户的距离信息，根据收到第一和第二语音信息时用户的距离信息确认是否为同一用户；或者，所述继续对话意愿判断模块利用麦克风阵列探测所述用户的方位信息，根据收到第一和第二语音信息时用户的方位信息确认是否为同一用户。
如权利要求10中所述的终端，其特征在于，所述继续对话意愿判断模块判断收到的第一语音信息和第二语音信息是否为同一个用户，包括：

所述继续对话意愿判断模块根据收到第一和第二语音信息时用户的面部特征信息，判断所述第二语音信息与所述第一语音信息的发出者是否为同一用户。
如权利要求10-15中任一项所述的终端，其特征在于，所述继续对话意愿判断模块判断所述第二语音信息与所述第一语音信息的发出者为同一用户以后，进一步判断所述用户的面部朝向是否满足预设的阈值。
如权利要求16中所述的终端，其特征在于，所述判断所述用户的面部朝向是否满足预设的阈值，包括：确定语音交互界面的视觉中心点和摄像头位置的偏移量，根据所述偏移量，确定所述用户的面部朝向是否满足预设的阈值。
如权利要求10-17中任一项所述的终端，其特征在于，所述终端还包括语音交互界面呈现模块，用于在所述终端进入语音交互工作状态后，呈现第一语音交互界面，以及在所述终端输出针对所述第一语音信息的处理结果后，呈现第二语音交互界面，所述第一语音交互界面不同于所述第二语音交互界面。
一种实现智能语音交互的会议系统，其特征在于，所述会议系统包含如权利要求10到17中所述的任一终端以及至少一个服务器，所述终端通过网络与所述至少一个服务器连接，实现智能语音交互，所述服务器包括：声纹识别服务器，人脸识别服务器，语音识别和语义理解服务器，语音合成服务器和会话意愿识别服务器。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至9中任一项所述的方法。
一种实现智能语音交互的终端，包括存储器、处理器、及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述的方法。