WO2020135067A1

WO2020135067A1 - 语音交互方法、装置、机器人及计算机可读存储介质

Info

Publication number: WO2020135067A1
Application number: PCT/CN2019/124844
Authority: WO
Inventors: 崔锦; 谈华斌; 吉东旭; 胡斌; 林东; 乔光辉; 司丽娟
Original assignee: 同方威视技术股份有限公司
Priority date: 2018-12-24
Filing date: 2019-12-12
Publication date: 2020-07-02
Also published as: CN111429924A

Abstract

一种语音交互方法、装置、机器人以及计算机可读存储介质，涉及机器人技术领域。其中的语音交互方法包括：利用深度学习神经网络对用户输入的语音进行处理，识别语音的语种（S104）；为用户提供与语种相对应的机器人语音交互服务（S106）。使机器人能够为用户提供与用户的语种相对应的语音交互服务，提升了机器人语音交互服务的用户体验。

Description

语音交互方法、装置、机器人及计算机可读存储介质

相关申请的交叉引用

本申请是以CN申请号为201811581336.6，申请日为2018年12月24日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及机器人技术领域，特别涉及一种语音交互方法、装置、机器人及计算机可读存储介质。

背景技术

人机交互方式的演变过程越来越贴近于人类的本能表达。人机交互方式中，语音交互是人与机器人之间更加自然的交互手段，语音交互简单快速，且能解放人的双手和眼睛，在很多场景能够给用户带来更好的体验。

此外，通过语音交互过程，机器人后台还可以获取用户数据，为后续的增值服务打下基础。由此可见，为用户提供更好的语音交互服务，是语音机器人领域的重要工作目标。

发明内容

本公开解决的一个技术问题是，如何使机器人为用户提供与用户的语种相对应的语音交互服务。

根据本公开实施例的一个方面，提供了一种语音交互方法，包括：利用深度学习神经网络对用户输入的语音进行处理，识别语音的语种；为用户提供与语种相对应的机器人语音交互服务。

在一些实施例中，还包括：利用标注了不同语种的语料对深度学习神经网络进行训练，使深度学习神经网络能够识别用户输入的语音的语种。

在一些实施例中，还包括：判断机器人当前的网络连接状态；若当前的网络连接状态为在线状态，则将用户输入的语音发送至云端服务器进行语音识别、语义理解和语音合成，接收云端反馈的第一输出语音；同时，将用户输入的语音发送至本地知识库进行语音识别、语义理解和语音合成，得到本地反馈的第二输出语音；若先接收到第一输出语音后得到第二输出语音，则向用户播放第一输出语音；若先得到第二输出语音后接收到第一输出语音，则向用户播放第二输出语音。

在一些实施例中，还包括：若当前的网络状态为离线状态，则将用户输入的语音发送至本地知识库进行语音识别、语义理解和语音合成，得到本地反馈的第二输出语音；向用户播放第二输出语音。

在一些实施例中，进行语音识别时，根据用户输入的语音中各个字之间的时间间隔和语音能量对用户输入的语音进行断句。

在一些实施例中，进行语音识别时，采用隐马尔科夫模型对用户输入的语音进行断句。

在一些实施例中，还包括：在机器人休眠状态下，利用摄像头对人脸进行实时识别；响应于摄像头识别到人脸，将机器人从休眠状态唤醒至工作状态。

根据本公开实施例的另一个方面，提供了一种语音交互机器人，包括前端处理芯片，被配置为：利用深度学习神经网络对用户输入的语音进行处理，识别语音的语种；为用户提供与语种相对应的机器人语音交互服务。

在一些实施例中，深度学习神经网络经过标注了不同语种的语料的训练，能够识别用户输入的语音的语种。

在一些实施例中，还包括上位机，被配置为：判断机器人当前的网络连接状态；若当前的网络连接状态为在线状态，则将用户输入的语音发送至云端服务器进行语音识别、语义理解和语音合成，接收云端反馈的第一输出语音；同时，将用户输入的语音发送至本地知识库进行语音识别、语义理解和语音合成，得到本地反馈的第二输出语音；若先接收到第一输出语音后得到第二输出语音，则向用户播放第一输出语音；若先得到第二输出语音后接收到第一输出语音，则向用户播放第二输出语音。

在一些实施例中，上位机还被配置为：若当前的网络状态为离线状态，则将用户输入的语音发送至本地知识库进行语音识别、语义理解和语音合成，得到本地反馈的第二输出语音；向用户播放第二输出语音。

在一些实施例中，上位机被还配置为：根据用户输入的语音中各个字之间的时间间隔和语音能量对用户输入的语音进行断句。

在一些实施例中，上位机还被配置为：采用隐马尔科夫模型对用户输入的语音进行断句。

在一些实施例中，还包括摄像头，被配置为：在机器人休眠状态下对人脸进行实时识别；在识别到人脸的情况下，将机器人从休眠状态唤醒至工作状态。

在一些实施例中，还包括麦克风阵列，麦克风阵列的多个咪头位于相同水平面的同一圆周上，且相邻咪头之间的圆周距离相等。

在一些实施例中，麦克风阵列上套有硅胶套，硅胶套与语音机器人的外壳固定连接。

在一些实施例中，还包括扩音器和多个腔体；其中，扩音器和麦克风阵列设置在语音交互机器人的不同腔体内。

在一些实施例中，还包括包裹在麦克风阵列上的隔音棉。

根据本公开实施例的又一个方面，提供了一种语音交互装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述的语音交互方法。

根据本公开实施例的再一个方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现前述的语音交互方法。

本公开能够使机器人能够为用户提供与用户的语种相对应的语音交互服务，提升了机器人语音交互服务的用户体验。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开一些实施例的语音交互方法的流程示意图。

图2示出了本公开另一些实施例的语音交互方法的流程示意图。

图3示出了本公开又一些实施例的语音交互方法的流程示意图。

图4示出了本公开一些实施例的语音交互机器人的结构示意图。

图5示出了前端处理芯片的结构示意图。

图6示出了本公开一些实施例的语音交互装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

首先结合图1描述本公开语音交互方法的一些实施例，以解释本公开如何使机器人为用户提供与用户的语种相对应的语音交互服务。

图1示出了本公开一些实施例的语音交互方法的流程示意图。如图1所示，本实施例包括步骤S102～步骤S116。

在步骤S102中，利用标注了不同语种的语料对深度学习神经网络进行训练，使深度学习神经网络能够识别用户输入的语音的语种。

例如，可以使用大量的英文语料以及中文语料对深度学习神经网络进行训练，使深度学习神经网络能够准确识别用户输入的语音为中文语音或英文语音。

在步骤S104中，利用深度学习神经网络对用户输入的语音进行处理，识别用户语音的语种。

例如，利用深度学习神经网络对用户输入的语音进行处理，可以识别用户输入的语音为中文语音或英文语音。

在步骤S106中，为用户提供与语种相对应的机器人语音交互服务。

若识别到用户输入的语音为中文语音，则调用中文语音交互平台(例如科大讯飞等语音厂商的语音交互平台)中的语音识别、语义理解、语音合成等语音算法，为用户提供中文语音交互服务；若识别到用户输入的语音为英文语音，则调用语音交互平台(例如亚马逊Alexa语音服务平台)中的语音识别、语义理解、语音合成等语音算法，为用户提供英文语音交互服务。

上述实施例提供的语音交互方法，能够使语音机器人在复杂的语言场景下提供与用户语种相对应的语音交互服务，使语音机器人能够准确的与用户进行中英文语音交互，提升了机器人语音交互服务的用户体验。

对于调用的语音交互平台，可以在语音识别功能上进行改进。现有的语音交互平台在将语音转化为文本时，需要对文本进行断句以便于语义理解。为了使得断句更加准确，可以采用如下三个方面的技术手段。

(1)根据语音中各个字之间的时间间隔和语音能量对语音进行断句。

例如，在检测到字与字之间的时间间隔大于预设时长的情况下进行断句。或者，在检测到语音能量小于预设能量值(趋近于零)的情况下进行断句。

(2)根据用户的意图对语音进行断句。

例如，可以采用关键词库来提取语音“上海大学城书店在哪里”中的关键词。提取出的关键词“上海”带有地点意图属性，“在”带有位置意图属性，“哪里”带有询问意图属性。根据各个关键词的意图属性，可以得到语音的意图属性为询问位置。然后，利用预先训练的与询问位置意图属性对应的神经网络对语音进行断句。

(3)直接通过深度学习神经网络语音进行断句。

例如，采用海量的语料对隐马尔科夫模型CNN-HMM进行训练，可以使训练好的隐马尔科夫模型CNN-HMM具有直接对语音进行断句的功能。

本领域技术人员应理解，如果将上述三个方面的技术手段组合使用，能够更准确的对用户输入的语音进行断句，从而进一步提升了机器人语音交互服务的用户体验。

发明人研究发现，语音识别和语义理解时需要借助语音知识库。由于本地离线知识库中的语料较少，若仅采用本地离线知识库，虽然不依赖网络，但识别效果和语义分析能力相对较差，语音识别正确率较低；若仅采用云端在线知识库，虽然语料较多且识别效果和语义分析能力相对较强，但则过于依赖网络环境，而机器人使用场景网络条件相对复杂，语音机器人工作时很难应对网络信号不稳定和网络延迟大的情况。有鉴于此，发明人提供了一种离在线结合的方式，对语音进行识别和理解。

下面结合图2描述本公开语音交互方法的另一些实施例，以解释本公开如何使机器人通过离在线结合的方式为用户提供语音交互服务。

图2示出了本公开另一些实施例的语音交互方法的流程示意图。如图2所示，本实施例包括步骤S201～步骤S205。

在步骤S201中，判断机器人当前的网络连接状态。

例如，可以通过向特定网络端口发送ping消息。若收到恢复消息则当前的网络连接状态为在线状态，执行步骤S202；若未收到回复消息则当前的网络状态为离线状态，执行步骤S204。

在步骤S202中，将用户输入的语音发送至云端服务器进行语音识别、语义理解和语音合成，接收云端反馈的第一输出语音；同时，将用户输入的语音发送至本地知识库进行语音识别、语义理解和语音合成，得到本地反馈的第二输出语音。

在步骤S203中，向用户播放第一输出语音与第二输出语音当中首先获得的输出语音。

若先接收到第一输出语音后得到第二输出语音，则向用户播放第一输出语音；若先得到第二输出语音后接收到第一输出语音，则向用户播放第二输出语音。

在步骤S204中，将用户输入的语音发送至本地知识库进行语音识别、语义理解和语音合成，得到本地反馈的第二输出语音。

在步骤S205中，向用户播放第二输出语音。

上述实施例提供了离在线结合的方式对语音进行识别和理解。该实施例能够在网络条件较差的情况下使语音机器人能够提供语音交互服务，在网络条件较号的情况下使语音机器人能够提供更加准确的语音交互服务，更进一步的提升了机器人语音交互服务的用户体验。

下面结合图3描述本公开语音交互方法的又一些实施例，以解释本公开如何实现机器人的人脸唤醒功能。

图3示出了本公开又一些实施例的语音交互方法的流程示意图。如图3所示，本实施例包括步骤S302～步骤S304。

在步骤S302中，在机器人休眠状态下，利用摄像头对人脸进行实时识别。

若识别到人脸，则执行步骤S304；若未识别到人脸，则返回步骤S301。

在步骤S304中，将机器人从休眠状态唤醒至工作状态。

例如，在摄像头识别到人脸的情况下，调用系统的唤醒程序，使机器人从休眠状态唤醒至工作状态。

上述实施例中，通过摄像头与系统唤醒程序的配合，实现了语音机器人的人脸唤醒功能，不需要用户提供唤醒词对语音机器人进行唤醒，仅需靠近摄像头即可与语音机器人进行语音交互。

下面结合图4描述本公开语音交互机器人的一些实施例，以说明本公开语音交互机器人的硬件架构。

图4示出了本公开一些实施例的语音交互机器人的结构示意图。如图4所示，本实施例中的语音交互机器人40包括：麦克风401、前端处理芯片402、上位机403、扩音器404。其中，前端处理芯片402被配置为：利用深度学习神经网络对用户输入的语音进行处理，识别语音的语种；为用户提供与语种相对应的机器人语音交互服务。其中，深度学习神经网络经过标注了不同语种的语料的训练，能够识别用户输入的语音的语种。

下面结合图5说明前端处理芯片402的如何实现。图5示出了前端处理芯片的结构示意图。如图5所示，前端处理芯片中的软件程序可以基于Android平台进行开发，具体包括语音识别模块5021、语音代理模块5022、语音侦听模块5023、语音服务模块5024、控制服务模块5025以及连接服务模块5026。各模块功能如下：

语音识别模块5021，用于对接收到的语音进行语种识别，并根据识别的语种类别调用不同的语音交互服务；

语音代理模块5022，用于向语音服务模块5024发送语音服务消息；

语音侦听模块5023，用于从语音服务模块5024获取反馈的语音服务消息；

语音服务模块5024，用于实现基础的语音算法服务，包括语音识别、语义理解和语音合成等；

控制服务模块5025，用于根据语音指令实现语音机器人的控制服务；

控制服务模块5026，用于根据语音指令实现语音机器人与外部设备的连接控制服务。

从图5可以看出，前端处理芯片中各个工作模块之间采用一套接口即可实现语种识别功能以及语音服务调用功能，整个语音机器人仅需一套软硬件即可提供多语种的语音交互服务。

在一些实施例中，上位机403被配置为：判断机器人当前的网络连接状态；若当前的网络连接状态为在线状态，则将用户输入的语音发送至云端服务器进行语音识别、语义理解和语音合成，接收云端反馈的第一输出语音；同时，将用户输入的语音发送至本地知识库进行语音识别、语义理解和语音合成，得到本地反馈的第二输出语音；若先接收到第一输出语音后得到第二输出语音，则向用户播放第一输出语音；若先得到第二输出语音后接收到第一输出语音，则向用户播放第二输出语音。

在一些实施例中，上位机403还被配置为：若当前的网络状态为离线状态，则将用户输入的语音发送至本地知识库进行语音识别、语义理解和语音合成，得到本地反馈的第二输出语音；向用户播放第二输出语音。本领域技术人员应理解，本地知识库也可以位于上位机403中。

在一些实施例中，语音交互机器人40还包括摄像头405，被配置为：在机器人休眠状态下对人脸进行实时识别；在识别到人脸的情况下，将机器人从休眠状态唤醒至工作状态。

上位机403不仅可以通过串口与前端处理芯片402通信，还可以与麦克风401、扩音器404、摄像头405、检测传感器406连接。其中，上位机403具有以下语音应用功能：

(1)从麦克风401获取用户输入的语音后将语音转发至前端处理芯片402进行语音处理；若用户输入的语音为运动控制指令，上位机403可以对语音机器人40进行运动控制；若用户输入的语音为状态控制指令，上位机403可以对语音机器人40的工作状态进行调整，如语音服务初始化、唤醒/休眠、启动/停止语音交互、开始/停止录音等等；

(2)从摄像头405获取接收的图像，借助人脸识别算法对图像进行识别，在识别到人脸的情况下唤醒语音机器人；

(3)从检测传感器406接收检测结果，并通过扩音器404对检测结果进行播报；

在一些实施例中，语音交互机器人40还包括终端设备407。终端设备407例如可以为平板电脑，可以通过TCP/IP协议与前端处理芯片402通信，以便用户通过终端设备调用语音机器人的语音交互服务。

在一些实施例中，麦克风401为麦克风阵列。麦克风401的设计标准如下。

(1)麦克风阵列的多个咪头位于相同水平面的同一圆周上，且相邻咪头之间的圆周距离相等，使得人声直达声到达麦克风阵列中各个咪头的机会均等。

(2)麦克风阵列的麦克风板的法线方向与语音机器人的正面方向一致。

(3)麦克风外侧没有遮挡，麦克风与声源之间没有阻挡，声源到达麦克风的路径尽可能短且宽。

(4)麦克风阵列上套有硅胶套，硅胶套与语音机器人的外壳固定连接。

例如，采用硅胶套对麦克风进行减震密封处理，并使用胶水将硅胶套固定在机器人外壳上。可以使麦克风远离干扰和震动(包括喇叭震动、结构转动震动等等)。

(5)扩音器和麦克风设置在语音机器人的不同腔体内。例如，将麦克风放置在语音机器人的头部，使用隔音棉包裹隔音；将扩音器放在语音机器人的腹部，使扩音器声音不能在结构内泄露到麦克风。

上述实施例中，通过对麦克风的设置使语音机器人具有一定的抗噪能力和远程多方位语音识别能力，适用于语音机器人在机场内部、展会会场入口、进出口口岸等环境嘈杂的工作场所与人进行远距离交互。

在一些实施例中，可以对麦克风401和前端处理芯片402进行相关语音交互平台的设备认证。

在一些实施例中，语音机器人40还包括路由器408。路由器408可以与蜂窝网络和WIFI网络连接，并可以在蜂窝网络和WIFI网络之前自动切换选择，以确保网络的稳定和低延迟。上位机403可以通过路由器408连接至不同的语音交互平台的云端服务器。

发明人认为，在实现了离在线结合的语音识别和理解之后，可以对构建更加完善的语音知识库，来提升语音交互服务的质量。知识库包括通用知识库和专业知识库，专业知识库分为问答库和技能库。其中，通用知识库包括用户日常使用的寒暄、生活查询、百科知识等领域；专业知识库包括安全、安检等行业领域知识和问答。问答库可以解决问答类的业务需求，技能库可以解决多轮交互的需求，可以涉及业务逻辑、数据等处理的需求。在语音机器人处理安全和安检业务时，可以协助安检人员解释法律条款、政策法规宣贯、引领咨询服务、整理分析现场用户与机器人交互内容、分析研究安全和安检法规。

实验得出，语音机器人40在环境噪声低于60分贝的条件能够达到如下指标：

项目	指标
1米识别率	>92％
3米识别率	>90％
5米识别率	>85％
拾音角度	360度
唤醒成功率	85％，1s以内响应
应答正确率	对于知识库内问题应答正确率>80％
外部网络速率	上行速度>3Mbps，延迟<200ms

图6示出了本公开一些实施例的语音交互装置的结构示意图。如图6所示，该实施例的语音交互装置60包括：存储器610以及耦接至该存储器610的处理器620，处理器620被配置为基于存储在存储器610中的指令，执行前述任意一些实施例中的语音交互方法。

其中，存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

语音交互装置60还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间例如可以通过总线660连接。其中，输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。

本公开还包括一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意一些实施例中的语音交互方法。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种语音交互方法，包括：

利用深度学习神经网络对用户输入的语音进行处理，识别所述语音的语种；

为用户提供与所述语种相对应的机器人语音交互服务。
如权利要求1所述的语音交互方法，还包括：

利用标注了不同语种的语料对所述深度学习神经网络进行训练，使所述深度学习神经网络能够识别用户输入的语音的语种。
如权利要求1所述的语音交互方法，还包括：

判断机器人当前的网络连接状态；

若当前的网络连接状态为在线状态，则将用户输入的语音发送至云端服务器进行语音识别、语义理解和语音合成，接收云端反馈的第一输出语音；同时，将用户输入的语音发送至本地知识库进行语音识别、语义理解和语音合成，得到本地反馈的第二输出语音；

若先接收到所述第一输出语音后得到所述第二输出语音，则向用户播放所述第一输出语音；若先得到所述第二输出语音后接收到所述第一输出语音，则向用户播放所述第二输出语音。
如权利要求3所述的语音交互方法，还包括：

若当前的网络状态为离线状态，则将用户输入的语音发送至本地知识库进行语音识别、语义理解和语音合成，得到本地反馈的第二输出语音；

向用户播放所述第二输出语音。
如权利要求3或4所述的语音交互方法，其中，进行语音识别时，根据用户输入的语音中各个字之间的时间间隔和语音能量对用户输入的语音进行断句。
如权利要求3或4所述的语音交互方法，其中，进行语音识别时，采用隐马尔科夫模型对用户输入的语音进行断句。
如权利要求1所述的语音交互方法，还包括：

在机器人休眠状态下，利用摄像头对人脸进行实时识别；

响应于所述摄像头识别到人脸，将机器人从休眠状态唤醒至工作状态。
一种语音交互机器人，包括前端处理芯片，被配置为：

利用深度学习神经网络对用户输入的语音进行处理，识别所述语音的语种；

为用户提供与所述语种相对应的机器人语音交互服务。
如权利要求8所述的语音交互机器人，其中，所述深度学习神经网络经过标注了不同语种的语料的训练，能够识别用户输入的语音的语种。
如权利要求8所述的语音交互机器人，还包括上位机，被配置为：

判断机器人当前的网络连接状态；

若当前的网络连接状态为在线状态，则将用户输入的语音发送至云端服务器进行语音识别、语义理解和语音合成，接收云端反馈的第一输出语音；同时，将用户输入的语音发送至本地知识库进行语音识别、语义理解和语音合成，得到本地反馈的第二输出语音；

若先接收到所述第一输出语音后得到所述第二输出语音，则向用户播放所述第一输出语音；若先得到所述第二输出语音后接收到所述第一输出语音，则向用户播放所述第二输出语音。
如权利要求10所述的语音交互机器人，其中，所述上位机还被配置为：

若当前的网络状态为离线状态，则将用户输入的语音发送至本地知识库进行语音识别、语义理解和语音合成，得到本地反馈的第二输出语音；

向用户播放所述第二输出语音。
如权利要求10或11所述的语音交互方法，其中，所述上位机被还配置为：根据用户输入的语音中各个字之间的时间间隔和语音能量对用户输入的语音进行断句。
如权利要求10或11所述的语音交互方法，其中，所述上位机还被配置为：采用隐马尔科夫模型对用户输入的语音进行断句。
如权利要求8所述的语音交互机器人，还包括摄像头，被配置为：

在机器人休眠状态下对人脸进行实时识别；

在识别到人脸的情况下，将机器人从休眠状态唤醒至工作状态。
如权利要求8所述的语音交互机器人，还包括麦克风阵列，所述麦克风阵列的多个咪头位于相同水平面的同一圆周上，且相邻咪头之间的圆周距离相等。
如权利要求15所述的语音交互机器人，其中，所述麦克风阵列上套有硅胶套，所述硅胶套与所述语音机器人的外壳固定连接。
如权利要求15所述的语音交互机器人，还包括扩音器和多个腔体；其中，所述扩音器和所述麦克风阵列设置在语音交互机器人的不同腔体内。
如权利要求15所述的语音交互机器人，还包括包裹在所述麦克风阵列上的隔音棉。
一种语音交互装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至7中任一项所述的语音交互方法。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至7中任一项所述的语音交互方法。