WO2023202635A1

WO2023202635A1 - 语音交互方法、电子设备以及存储介质

Info

Publication number: WO2023202635A1
Application number: PCT/CN2023/089278
Authority: WO
Inventors: 吴鹏扬; 曾俊飞
Original assignee: 华为技术有限公司
Priority date: 2022-04-22
Filing date: 2023-04-19
Publication date: 2023-10-26
Also published as: CN116978372A

Abstract

本申请提供了一种语音交互方法、电子设备以及计算机可读存储介质。语音交互方法包括：与第一用户进行语音交互，并在语音交互的语音采集时段中，采集第一用户所在角度范围的第一音频信号和第二用户所在角度范围的第二音频信号，第二用户为在设定历史时段中与电子设备进行语音交互的用户；判断第一音频信号中的第一语音信号的开始时刻是否位于第一时段内，并根据判断结果从第一语音信号和第二语音信号中确定目标语音信号，第二语音信号为第二音频信号中包含的语音信号，第一时段为语音采集时段的开始时刻之后经过第一时长的时段；对目标语音信号进行应答。本申请可以在多人交互场景下准确地确定目标交互人。

Description

语音交互方法、电子设备以及存储介质

本申请要求2022年04月22日提交中国专利局、申请号为202210430483.3、申请名称为“语音交互方法、电子设备以及存储介质”的中国专利申请的优先权，上述申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及软件技术领域，尤其涉及一种语音交互方法、电子设备以及计算机可读存储介质。

背景技术

随着音频处理技术和人工智能(Artificial Intelligence，AI)的发展，越来越多的电子设备(例如，智能音箱，智能机器人等)具备语音交互功能。在语音交互过程中，电子设备需要采集用户语音。为提高语音采集的准确率，电子设备会对目标方向(即当前交互人所在的方向)的声音进行采集，并抑制目标方向之外的其他方向的声音，以减小环境噪声对用户语音信号的干扰。

在一些情形中，电子设备可能处于多用户交互场景中。即，电子设备周围除了存在当前交互人之外，还存在其他可能与电子设备进行语音交互的用户(称作“潜在交互人”)。由于电子设备仅采集当前交互人所在方向的语音，这样，潜在交互人的声音会被抑制。当潜在交互人说话时，电子设备无法感知到其语音内容，从而无法对其进行回应。

发明内容

本申请的一些实施方式提供了一种语音交互方法、电子设备以及计算机可读存储介质，以下从多个方面介绍本申请，以下多个方面的实施方式和有益效果可互相参考。

第一方面，本申请实施方式提供了一种语音交互方法，用于电子设备，方法包括：与第一用户进行语音交互，并在语音交互的语音采集时段中，采集第一用户所在角度范围的第一音频信号和第二用户所在角度范围的第二音频信号，第二用户为在设定历史时段中与电子设备进行语音交互的用户；判断第一音频信号中的第一语音信号的开始时刻是否位于第一时段内，并根据判断结果从第一语音信号和第二语音信号中确定目标语音信号，第二语音信号为第二音频信号中包含的语音信号，第一时段为语音采集时段的开始时刻之后经过第一时长的时段；对目标语音信号进行应答。

根据本申请实施方式，可以根据第一时长在第一用户和第二用户中确定目标交互人，可以合理兼顾第一用户和第二用户的语音交互需求，准确地确定目标交互人，从而提高多人交互场景下的用户体验。

在一些实施方式中，第一语音信号的开始时刻和第二语音信号的开始时刻的至少之一位于第一时段内；根据判断结果从第一语音信号和第二语音信号中确定目标语音信号，包括：若第一语音信号的开始时刻位于第一时段内，则将第一语音信号确定为目标语音信号；否则，则根据第二语音信号和第一语音信号在时间上的交叠状态确定目标语音信号。

根据本申请实施方式，只要第一用户在第一时段内开口说话，电子设备即把第一用户确定为目标交互人(即维持第一用户为当前交互人不变)，以优先满足第一用户的语音交互需求。

如果第一用户未在第一时段内开口说话，则认为第一用户的交互意愿较小，从而有可能将第二用户确定为目标交互人，以兼顾第二用户的语音交互需求。

在一些实施方式中，根据第二语音信号和第一语音信号在时间上的交叠状态确定目标语音信号，包括：若第二语音信号和第一语音信号在时间上有交叠，则将第一语音信号确定为目标语音信号；若第二语音信号和第一语音信号在时间上无交叠，则将第二语音信号确定为目标语音信号。

在一些实施方式中，第一时长根据第一用户的交互意愿值P和/或第一用户与电子设备在设定时间段内的交互次数M确定，其中，交互意愿值P用于表征第一用户与电子设备的语音交互意愿。

在一些实施方式中，交互意愿值P根据第一用户的面部角度和/或第一用户与电子设备的距离确定。

在一些实施方式中，第一时长为k₁×P+k₂×min{M，n}，其中，k₁、k₂为预设常数，n为3～6之间的整数。

在一些实施方式中，第二语音信号中不包括电子设备的唤醒词。

在一些实施方式中，设定历史时段为语音采集时段的开始时刻之前第二时长的时段。

第二方面，本申请实施方式提供了一种电子设备，包括：存储器，用于存储由电子设备的一个或多个处理器执行的指令；处理器，当处理器执行存储器中的指令时，可使得电子设备执行本申请第一方面任一实施方式提供的语音交互方法。第二方面能达到的有益效果可参考本申请第一方面任一实施方式的有益效果，此处不再赘述。

第三方面，本申请实施方式提供了一种计算机可读存储介质，计算机可读存储介质上存储有指令，该指令在计算机上执行时使得计算机执行本申请第一方面任一实施方式提供的语音交互方法。第三方面能达到的有益效果可参考本申请第一方面任一实施方式的有益效果，此处不再赘述。

附图说明

图1为本申请实施例的示例性应用场景；

图2为本申请实施例提供的电子设备的示例性结构图；

图3为本申请实施例提供的语音交互方法的示例性流程图；

图4为本申请实施例提供的电子设备与当前交互人进行语音交互的时序示意图；

图5为本申请实施例提供的用户语音采集过程的示例性流程图；

图6为本申请实施例提供的用户所在角度范围的示意图；

图7为本申请实施例提供的目标语音信号确定方法的示例性流程图；

图8A为本申请实施例提供的目标语音信号确定规则的示意图一；

图8B为本申请实施例提供的目标语音信号确定规则的示意图二；

图9为本申请实施例提供的目标语音信号确定规则的示意图三；

图10A为本申请实施例提供的目标语音信号确定规则的示意图四；

图10B为本申请实施例提供的目标语音信号确定规则的示意图五；

图11为本申请实施例的另一示例性应用场景；

图12为一些实施例中的语音交互方法示意图；

图13为另一些实施例中的语音交互方法示意图；

图14示出了本申请实施方式提供的电子设备的框图；

图15示出了本申请实施方式提供的片上系统(System on Chip，SOC)的结构示意图。

具体实施方式

以下将参考附图详细说明本申请的具体实施方式。

为便于理解，首先介绍本申请中可能涉及的音频处理技术。

(1)波束成形：波束成形技术可以确定声源的方向。波束成形技术依赖于麦克风阵列。声源在发声时，麦克风阵列中各个麦克风(即各声音采集通道)接收到的声音信号存在延时，波束成形技术能够通过各通道的延时信息对声源进行定位(例如，确定声源的方向角，仰角和距离)。

波束成形技术还可以对目标角度内的声音进行采集。波束成形技术能够对麦克风阵列中各通道声音信号进行移相、加权等处理，从而实现增强目标角度内的声音信号，抑制其他方向的声音信号的目的，以实现目标角度内(例如，电子设备正前方±30°内)的声音采集。

(2)语音活动检测(Voice Activity Detection,VAD)，又称“语音边界检测”或“端点检测”。语音活动检测技术能够区分音频信号中的语音信号和非语音信号，能够确定语音信号的起点和终点，从而将语音信号从音频信号中分离出来。这样，后续的语音识别可以只对语音信号进行，从而提高语音识别的准确率。

本申请实施方式用于提供一种语音交互方法，用于在多人交互场景下确定合适的目标交互人，以满足用户的语音交互需求。

本申请中，电子设备可以是智能音箱，车机，大屏设备，手机、平板，可穿戴设备，摄像头等任意形态的设备，只要具备语音交互功能即可。在下文中，将智能机器人(例如，小艺精灵)作为电子设备的示例。

图1示出了本申请实施例的示例性应用场景。在图1中，电子设备100(具体为智能机器人)正在与用户甲进行语音交互(简称“交互”)。即，用户甲为电子设备100的当前交互人。为便于交互，用户甲位于电子设备100的正前方。电子设备100与用户甲的交互内容例如为：

用户甲：“小艺小艺”；

电子设备：“我在”；

用户甲：“你有喜欢的动物吗”；

电子设备：“我喜欢毛茸茸的动物，看起来好暖和”；

用户甲：“那你一定喜欢这个熊猫玩具了”；

电子设备：“嗯，比喜欢你更喜欢这个”；

用户甲：“xxxxx……”。

上述示例为用户主动发起的语音交互。即，用户甲主动说出电子设备100的唤醒词“小艺小艺”后，电子设备100被唤醒，并开始与用户甲的交互。在其他示例中，语音交互也可以是电子设备100主动发起的交互。例如，当电子设备100观察到用户甲长时间(例如，连续10s)对其进行注视时，可以播放预设语音(例如，“你有什么问题想问我吗”)，以主动发起与用户甲的语音交互。

继续参考图1，电子设备100的周围还存在用户乙。用户乙为刚刚(例如，半分钟前)与电子设备100结束语音交互的用户。本申请对用户乙与电子设备100结束语音交互的原因不作限定。例如，用户乙不对电子设备100播放的语音进行回复，以主动结束与电子设备100的语音交互；或者，电子设备100在与用户乙进行语音交互的过程中，监听到来自用户甲的唤醒词(例如，小艺小艺)，从而结束与用户乙的语音交互，并开启与用户甲的语音交互。

由于用户乙为刚刚与电子设备100进行过语音交互的用户，因此，用户乙仍可能与电子设备100继续进行语音交互。即，用户乙为电子设备100的潜在交互人。但是，在一些实施例中，电子设备100在与用户甲进行语音交互时，为提高语音采集准确度，会对用户甲所在方向之外的其他方向的声音进行抑制。例如，电子设备仅采集正前方±30°内的声音，而对其他方向的声音进行抑制。这样，当用户乙在说话时，电子设备100无法采集到用户乙的语音，从而无法感知到用户乙的交互需求。

为此，本申请实施方式提供了一种语音交互方法，用于在多人交互场景下确定目标交互人，以提高多人交互场景下的用户体验。具体地，电子设备100在与用户甲的语音交互过程中，不仅采集用户甲(作为“当前交互人”或“第一用户”)所在方向的音频信号，还采集用户乙(作为“潜在交互人”或“第二用户”)所在方向的音频信号。电子设备100根据采集到的音频信号，判断用户甲开始说话的时间是否位于设定的优先等待时段(又称“第一时段”)内，并根据判断结果在用户甲和用户乙中确定目标交互人(电子设备100即将应答的交互人)。例如，当用户甲开始说话的时间位于设定的优先等待时段内时，将用户甲确定为目标交互人；否则，有可能将用户乙作为目标交互人。

本申请中，可以根据优先等待时段在用户甲和用户乙中确定目标交互人，可以合理兼顾当前交互人(例如，用户甲)和潜在交互人(例如，用户乙)的语音交互需求，准确地确定目标交互人，从而提高多人交互场景下的用户体验。

以下介绍本申请的具体实施例。在下述实施例中，将智能机器人作为电子设备100的示例。但可以理解，本申请不限于此。

图2示出了本实施例提供的电子设备100的示例性结构图。参考图2，电子设备100包括处理器110，摄像头120，麦克风130，扬声器140，通信模块150、存储器160和传感器170。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

摄像头120用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头120，N为大于1的正整数。

麦克风130，也称“话筒”，“传声器”，用于将声音信号转换为电信号。电子设备100可以设置多个(例如，三个、四个或更多)麦克风130，以形成麦克风阵列。麦克风阵列作为语音前端设备，除了采集声音信号，还可以实现采集声音信号，降噪，识别声音来源，实现定向录音功能等功能。

扬声器140，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器140收听音乐，或收听免提通话。

通信模块150可以提供应用在电子设备100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。通过通信模块150，电子设备可以与其他设备(例如，云端服务器)进行通信。

存储器160可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。存储器160可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，存储器160可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在存储器160的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。存储器160中存储的指令可以包括：由处理器110中的至少一个执行时导致电子设备100实施本申请实施例提供的语音交互方法。

传感器170可以包括距离传感器和接近光传感器。距离传感器用于测量距离。例如，距离传感器可以通过红外或激光测量距离。接近光传感器可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测周围是否有用户。

此外，电子设备还可以包括旋转机构，以实现电子设备的舵机转身功能。例如，通过旋转机构，电子设备可以从面向用户甲的角度转动至面向用户乙的角度。

另外，电子设备可以包括若干功能单元。例如，ASR算法单元，声源定位算法单元(例如，波束成形算法单元)、声源抑制算法单元等语音识别单元，以及人脸识别算法单元等视觉识别单元。

以下结合图1示出的场景介绍本实施例提供的语音交互方法的具体流程。参考图3，本实施例提供的语音交互方法包括以下步骤：

S110：电子设备与用户甲(又称“当前交互人”或“第一用户”)进行语音交互。在该语音交互的语音采集阶段，电子设备采集用户甲所在角度范围的音频信号Autio_A和用户乙(又称“潜在交互人”或“第二用户”)所在角度范围的音频信号Autio_B。

图4示出了电子设备与用户甲的语音交互的时序图。其中，白框内为用户甲说话内容，灰框内为电子设备播放内容。参考图4，电子设备与用户甲的语音交互过程包括交替进行的语音播放阶段和语音采集阶段。在语音播放阶段，电子设备播放设备语音；在播放完设备语音后，电子设备进入语音采集阶段，以监测用户语音。当电子设备确定用户讲话完毕后，结束语音采集阶段，以进入下一个语音播放阶段。在其他实施例中，当电子设备在设定时间内(例如，8s内)没有监测到用户讲话时，可以结束语音采集阶段。通常地，在语音播放阶段，电子设备可以关闭麦克风，不采集外界声音。

本实施例中，在每个语音采集阶段，电子设备会判断是否存在潜在交互人。如存在潜在交互人，则采集当前交互人所在方向范围的音频信号和潜在交互人所在方向范围的音频信号；如不存在潜在交互人，则仅采集当前交互人所在方向范围的音频信号。

以下以当前的语音采集阶段(即图4中的语音采集阶段3)为例，介绍电子设备采集用户语音的过程。当前语音采集阶段的开始时刻为T_S。参考图5，电子设备采集用户语音的过程包括以下步骤：

S111：电子设备确定存在潜在交互人。

潜在交互人为在设定历史时段P1内与电子设备进行过语音交互的用户。潜在交互人由于与电子设备进行过语音交互，因此其仍有可能与电子设备进行语音交互。本实施例中，设定历史时段P1为T_S时刻之前第二时长T₂的时段。即，设定历史时段P1的起点时刻为T_S-T₂，终端时刻为T_S。也就是说，潜在交互人为在最近第二时长的时段内与电子设备交互过的用户。此时，潜在交互人有较大的概率与电子设备进行语音交互。本实施例对第二时长的具体数值不作限定。在一些示例中，第二时长为0.5～2min，例如，0.5min，1min，1.3min。需要说明的是，本申请中的数值范围包括端值。例如，数据范围0.5～2min包括0.5min和2min。

以下以用户乙为例介绍电子设备判断是否存在潜在交互人的方法。电子设备在与用户甲进行语音交互的过程中，确定其周围存在用户乙。例如，电子设备可以通过图像识别方法确定其周围存在用户乙，或者通过传感器(例如，接近光传感器)确定周围存在用户乙。在一些示例中，电子设备将设定距离以内(例如，3m以内)的用户确定为位于其周围的用户。

进一步地，电子设备对用户乙的身份进行识别，例如，电子设备通过人脸识别方式，声纹识别方式等对用户乙的身份进行识别。然后，电子设备可以通过查询其存储的语音交互记录，来判断用户乙是否为潜在交互人。示例性地，语音交互记录中保存有最近一段时间内(例如，2天内)与电子设备进行过语音交互的用户的标识，以及每次语音交互的开始时间，结束时间等。

本实施例中，设定历史时段P1为[T_S-60s，T_S]。根据历史交互记录，用户乙最近与电子设备交互的时间段为[T_S-80s，T_S-40s]，因此，用户乙在设定历史时段P1内与电子设备进行过语音交互，从而，电子设备确定用户乙为潜在交互人。

S112：电子设备确定用户甲所在角度范围(记作angle_A)和用户乙所在角度范围(记作angle_B)。

图6示出了角度范围angle_A和角度范围angle_B的示意图。示例性地，电子设备的正前方为0°，绕电子设备顺时针转动的方向为正方向。电子设备可以通过视觉定位方式，距离传感器测距方式、声源定位方式等对用户甲、用户乙进行定位。在对用户甲、用户乙进行定位之后，电子设备可以确定用户甲的角度为α(用户甲位于电子设备正前方，因此α＝0°)，用户乙的角度为β(例如，75°)。在其他实施例中，用户甲也可以不正对电子设备，该实施例中，α可以为其他值，例如，α＝-12°。

考虑到定位误差和声音扩散等因素，为了更加可靠地采集用户甲、用户乙的语音信号，电子设备不仅采集用户甲，用户乙所在位置的音频信号，还采集用户甲，用户乙周围的音频信号。即，电子设备采集用户甲所在角度范围angle_A和用户乙所在角度范围angle_B的音频信号。本实施例中，angle_A＝α±c1，angle_B＝β±c2。本实施例对c1，c2的值不作限定。示例性地，c1＝c2＝20°～40°，例如，c1＝c2＝30°。

S113：电子设备采集角度范围angle_A的音频信号(记作Audio_A，作为第一音频信号)和角度范围angle_B中的音频信号(记作Audio_B，作为第二音频信号)。

具体地，在时刻T_S，电子设备开启麦克风，并通过麦克风阵列采集音频信号。之后，电子设备通过波束成形算法A对麦克风阵列采集到的音频信号进行处理，以得到音频信号Audio_A；通过波束成形算法B对麦克风阵列采集到的音频信号进行处理，以得到音频信号Audio_B。

其中，波束成形算法A的目标角度被设置为angle_A，因此，音频信号Audio_A为对angle_A之外的声音信号进行抑制后的音频信号，即，angle_A为角度范围angle_A内的音频信号。

波束成形算法B的目标角度被设置为angle_B，因此，音频信号Audio_B为对angle_B之外的声音信号进行抑制后的音频信号，即，angle_B为角度范围angle_B内的音频信号。

以上介绍了电子设备采集用户语音的示例性方法。以下返回到图3，继续介绍本实施例提供的语音交互方法的后续步骤。

S120：电子设备判断音频信号Audio_A中的语音信号(记作Voice_A，作为第一语音信号)的开始时刻是否位于优先等待时段(又称“第一时段”)之内，并根据判断结果从语音信号Voice_A和语音信号Voice_B(作为第二语音信号)中确定目标语音信号(电子设备即将回复的语音信号)，其中，语音信号Voice_B是音频信号Audio_B中包含的语音信号。

如果用户甲在当前语音采集时段中开口说话，音频信号Audio_A中将包括语音信号Voice_A。同样地，如果用户乙在当前语音采集时段中开口说话，音频信号B中将包括语音信号Voice_B。电子设备可以通过语音活动检测VAD算法检测音频信号Audio_A、Audio_B中的语音信号Voice_A、Voice_B，并确定语音信号Voice_A、Voice_B的端点(起点和终点)。

本实施例中，电子设备会判断语音信号Voice_A的起点(又称作Voice_A的开始时刻)是否位于优先等待时段内，并根据判断结果将语音信号Voice_A和语音信号Voice_B的其中之一确定为目标语音信号。其中，优先等待时段为时刻T_S之后经过第一时长T的时段。即，优先等待时段的起点为时刻T_S，终点为时刻T_E(T_E＝T_S+T)。

在一些实施例中，第一时长T为用户甲最有可能开口说话的时间(例如，3s)，即，如果用户甲会与电子设备继续进行交互的话，用户甲大概率会在优先等待时段之内开口说话。本实施例根据优先等待时段来确定目标语音信号，可以更为符合用户的交互意愿，以提高用户体验。为叙述的连贯性，第一时长T的具体决定方法将在后文中介绍。

参考图7，本实施例提供的电子设备确定目标语音信号的过程包括以下步骤：

S121：电子设备判断语音信号Voice_A的开始时刻T_AS是否位于优先等待时段内。

电子设备可以通过VAD算法检测语音信号Voice_A的开始时刻T_AS。可以理解，Voice_A的开始时刻T_AS即为用户甲开始说话的时刻。

电子设备在确定时刻T_AS之后，将其与优先等待时段的结束时刻T_E进行比较。如果时刻T_AS早于或等于时刻T_E，电子设备判断语音信号Voice_A的开始时刻T_AS位于优先等待时段内，从而执行步骤S122；否则，电子设备执行步骤S123。

S122：电子设备将语音信号Voice_A确定为目标语音信号。

本实施例中，只要语音信号Voice_A的开始时刻T_AS位于优先等待时段内，即把Voice_A确定为目标语音信号(电子设备即将回应的语音信号)。也就是说，只要用户甲在优先等待时段内开口说话，电子设备即把用户甲确定为目标交互人(即维持用户甲为当前交互人不变)，以优先满足用户甲的语音交互需求。

图8A给出了将语音信号Voice_A确定为目标语音信号的一个示例。参考图8A，Voice_A的开始时刻T_AS和Voice_B的开始时刻T_BS均位于优先等待时段内，且时刻T_AS早于时刻T_BS(即用户甲开口说话的时间早于用户乙)。该示例中，由于时刻T_AS位于优先等待时段内，因此，电子设备将语音信号Voice_A确定为目标语音信号。

可选地，当电子设备检测到语音信号Voice_A的起点之后(即时刻T_AS之后)，可以停止采集音频信号Audio_B(或语音信号Voice_B)。

图8B给出了将语音信号Voice_A确定为目标语音信号的另一个示例。参考图8B，Voice_A的开始时刻T_AS和Voice_B的开始时刻T_BS均位于优先等待时段内，但时刻T_BS早于时刻T_AS(即用户乙开口说话的时间早于用户甲)。该示例中，虽然用户乙先开口说话，但由于时刻T_AS位于优先等待时段内，因此，电子设备仍将语音信号Voice_A确定为目标语音信号。可选地，当电子设备检测到语音信号Voice_A的起点之后(即时刻T_AS之后)，可以停止采集音频信号Audio_B(或语音信号Voice_B)，并丢弃时刻T_AS之前采集到的语音信号Voice_B。

如果用户甲未在优先等待时段内开口说话，则认为用户甲的交互意愿较小，从而有可能将用户乙确定为目标交互人，以兼顾用户乙的语音交互需求。以下结合图7中的后续步骤进行介绍。

S123：电子设备判断语音信号Voice_A和语音信号Voice_B在时间上是否有交叠。

本实施例中，语音信号Voice_A的开始时刻T_AS和语音信号Voice_B的开始时刻T_BS的至少一个位于优先等待时段内。当语音信号Voice_A的开始时刻T_AS位于优先等待时段之外时，电子设备根据语音信号Voice_A和语音信号Voice_B在时间上的交叠状态确定目标语音信号。

其中，如果语音信号Voice_A的开始时刻T_AS早于或等于语音信号Voice_B的结束时刻T_BE(又称“Voice_B的终点T_BE”)时，电子设备判断语音信号Voice_A和语音信号Voice_B在时间上有交叠，从而执行步骤S124；否则，电子设备判断语音信号Voice_A和语音信号Voice_B在时间上无交叠，从而执行步骤S125。如上文所述，各语音信号的端点，例如，语音信号Voice_A的开始时刻T_AS，语音信号Voice_B的结束时刻T_BE等，均可以通过语音活动检测VAD算法确定。

S124：电子设备将语音信号Voice_A确定为目标语音信号。

当语音信号Voice_A和语音信号Voice_B在时间上有交叠时，电子设备将语音信号Voice_A确定为目标语音信号。也就是说，当用户乙说话尚未结束，用户甲即开始说话时，仍将用户甲作为目标交互人(维持用户甲为当前交互人不变)。

图9给出了将语音信号Voice_A确定为目标语音信号的又一个示例。参考图9，Voice_B的开始时刻T_BS位于优先等待时段内，结束时刻T_BE位于优先等待时段外。Voice_A的开始时刻T_AS位于优先等待时段外，但时刻T_AS早于Voice_B的结束时刻T_BE(即用户甲开口说话的时间早于用户乙结束说话的时间)。该示例中，由于语音信号Voice_A和语音信号Voice_B在时间上有交叠，因此，电子设备将语音信号Voice_A确定为目标语音信号。

可选地，在一些实施例中，当电子设备检测到语音信号Voice_A的起点之后(即时刻T_AS之后)，可以停止采集音频信号Audio_B(或语音信号Voice_B)，并丢弃时刻T_AS之前采集到的语音信号Voice_B。该实施例中，在检测到语音信号Voice_A的起点之后，如果判断语音信号Voice_B尚未结束(即尚未检测到语音信号Voice_B的终点T_BE)，则可以确定Voice_A的开始时刻T_AS早于Voice_B的结束时刻T_BE。

S125：电子设备将语音信号Voice_B确定为目标语音信号。

当语音信号Voice_A和语音信号Voice_B在时间上无交叠时，电子设备将语音信号Voice_B确定为目标语音信号。也就是说，当用户乙说话已经结束，用户甲尚未开始说话时，电子设备将用户乙确定为目标交互人(即，电子设备将当前交互人从用户甲切换为用户乙)。

图10A给出了将语音信号Voice_B确定为目标语音信号的一个示例。参考图10A，Voice_B的开始时刻T_BS均位于优先等待时段内，结束时刻T_BE位于优先等待时间外。Voice_A的开始时刻T_AS晚于Voice_B的结束时刻T_BE(即用户乙说话结束时，用户甲尚未开始说话)。该示例中，由于语音信号Voice_A和语音信号Voice_B在时间上无交叠，因此，电子设备将语音信号Voice_B确定为目标语音信号。可选地，当电子设备检测到语音信号Voice_B的终点之后(即时刻T_BE之后)，可以停止采集音频信号(例如，关闭麦克风，不采集音频信号Audio_A)，并对语音信号Voice_B进行应答(即执行步骤S130)。

图10B给出了将语音信号Voice_B确定为目标语音信号的一个示例。参考图10B，Voice_B的开始时刻T_BS和结束时刻T_BE均位于优先等待时段内。Voice_A的开始时刻T_AS位于优先等待时间之外。该示例中，电子设备在检测到Voice_B的终点T_BE之后，继续等待至时刻T_E。当电子设备确定在时刻T_E达到后用户甲仍未开口说话时，电子设备将语音信号Voice_B确定为目标语音信号。可选地，电子设备等待至时刻T_E之后，可以停止采集音频信号(例如，关闭麦克风，不采集音频信号Audio_A)，并对语音信号Voice_B进行应答(即执行步骤S130)。

S130：电子设备对目标语音信号进行应答。

在确定目标语音信号后，电子设备对目标语音信号进行应答(即对目标交互人进行回复)。示例性地，电子设备将目标语音信号上传到云端服务器中。云端服务器通过自动语音识别(Automatic Speech Recognition，ASR)算法，自然语音处理(Neuro-Linguistic Programming，NLP)算法对目标语音信号进行语义识别，以确定回复文本内容。其中，ASR算法为用于将语音转换为文本的技术，NLP算法为用于使电子设备“读懂”人类语言的技术。

云端服务器在确定回复文本后，将回复文本发送至电子设备。电子设备在接收到回复文本之后，通过(Text To Speech，TTS)算法，将回复文本转换为语音流，并输出(例如，播放)该语音流，以对目标语音信号(或目标交互人)进行应答。电子设备在播放语音流的过程中，可以关闭麦克风，不采集音频信号。在其他实施例中，电子设备也可以通过本地的ASR算法、NLP算法确定回复文本内容。

另外，除语音应答之外，电子设备的应答方式还可以包括表情，动作等。例如，在电子设备确定目标交互人为用户乙后，转身至面向用户乙的方向，以提高电子设备的智能化和拟人化程度。

综上，本实施例提供了一种语音交互方法，根据优先等待时段来确定目标交互人，可以合理兼顾当前交互人(例如，用户甲)和潜在交互人(例如，用户乙)的语音交互需求，提高多人交互场景下的用户体验。

例如，如果用户甲(即当前交互人)在优先等待时段内开口说话，电子设备即把用户甲确定为目标交互人，以优先满足用户甲的语音交互需求。如果用户甲未在优先等待时段内开口说话，则认为用户甲的交互意愿较小，从而有可能将用户乙(即潜在交互人)确定为目标交互人，以兼顾用户乙的语音交互需求。

本实施例为本申请技术方案的示例性说明，本领域技术人员可以进行其他变形。

例如，本实施例中，如果用户甲未在优先等待时段内开口说话，则根据语音信号Voice_A和语音信号Voice_B在时间上的交叠状态确定目标交互人。在其他实施例中，只要用户甲未在优先等待时段内开口说话，而用户乙在优先等待时段内开口说话，则将用户乙确定为目标交互人。该实施例中，可以相对更为快速地确定目标交互人。另外，该实施例还可以提高潜在交互人的优先程度。

又如，本实施例中，语音信号Voice_A的开始时刻T_AS和语音信号Voice_B的开始时刻T_BS的至少一个位于优先等待时段内。在其他实施例中，当语音信号Voice_A的开始时刻T_AS和语音信号Voice_B的开始时刻T_BS均位于优先等待时段之外时，电子设备可以继续监测语音信号Voice_A，如果在设定时间(例如，T_S+8s)之前监测到语音信号Voice_A的起点，则将语音信号Voice_A作为目标语音信号，否则，电子设备结束当前语音交互。

又如，在一些实施例中，考虑到唤醒词可能直接导致目标交互人的切换，因此，用户乙的语音(即语音信号Voice_B)中不包括电子设备的唤醒词。

又如，本实施例中，电子设备周围的潜在交互人为1个，具体为用户乙。在其他场景中，电子设备周围可以存在多个潜在交互人。参考图11，电子设备周围存在两个潜在交互人，具体为用户乙和用户丙。该实施例中，电子设备可以从中用户乙和用户丙中选择一个作为暂定交互人，并根据步骤S120所述的方法在暂定交互人和用户甲中确定目标交互人。

本申请对选择暂定交互人的方式不作限定。例如，将用户乙和用户丙中最近与电子设备进行语音交互的一者选择为暂定交互人；或者，将在当前语音采集阶段中，最先开口说话的一者选择为暂定交互人。

以下介绍本实施例提供的第一时长T的确定方法。

本实施例中，根据用户甲最有可能开口的时间确定第一时长T。即，在假设用户甲有继续交互意愿的情况下，用户甲最晚将会在第一时长内(即时刻T_E之前)开口说话。

本实施例中，第一时长是根据用户甲的交互意愿值P和用户甲在设定时间段内与电子设备的交互轮次M确定的。其中，交互意愿值P用于表征用户甲与电子设备的交互意愿。交互意愿值P越大，表示用户甲与电子设备进行语音交互的可能性越大。

具体地，第一时长T＝k₁×P+k₂×min{M，n}，其中，k₁、k₂为预设常数，n为3～6之间的整数。以下进行具体介绍。

(1)交互意愿值P。本实施例中，交互意愿值为0～1之间的数值。但本申请不限于此。在其他实施例中，交互意愿值P也可以为其他数值，例如，1～5之间的数值。

本实施例中，交互意愿值P是根据用户甲的面部角度和/或用户甲与电子设备的距离D确定。用户甲的面部角度用于表示用户甲的面部与电子设备的正对程度。当用户面部正对电子设备的正面时，用户甲的面部角度为0°；用户甲侧向电子设备的角度越大，用户甲的面部角度越大。通常地，用户甲越正对电子设备，用户甲的交互意愿值P越大。用户甲的面部角度可以通过图像识别的方式确定。

用户甲与电子设备的距离D可以根据图像识别，距离传感器测距，声源定位等方式确定。示例性地，当用户甲与电子设备的距离D位于设定范围(例如，电子设备的高度的0.5～1倍)时，认为用户甲具有较高的交互意愿值P；距离D与该设定范围的偏差越大，认为用户甲的交互意愿值P越小。

在一些实施例中，交互意愿值P为面部角度和距离D的加权和。该实施例中，面部角度φ和距离D的权值可以是根据经验确定的常数。

在另一些实施例中，交互意愿值P可以通过AI算法确定。电子设备中可以存储预先训练好的AI模型，AI模型用于表示面部角度距离D与交互意愿值P的映射关系。电子设备在测量得到面部角度和距离D之后，可以通过该AI模型计算得到交互意愿值P。

(2)交互轮次M。交互轮次M为用户甲在设定时间段P2内与电子设备的交互轮次。本申请中，电子设备和用户完成一次问答算作一个交互轮次。例如，用户甲问“你有喜欢的动物吗”，电子设备回答“我喜欢毛茸茸的动物，看起来好暖和”，算作一个交互轮次。

交互轮次M可以反映用户甲与电子设备的交互频次，交互频次越高(即M值越大)，用户甲的交互可能性越大。本实施例中，设定时间段P2为时刻T_S之前第三时长的时段。也就是说，M为用户甲在最近第三时长内与电子设备的交互轮次。这样，M可以更准确地表征用户甲与电子设备继续交互的可能性。示例性地，第三时长为0.5～2min，例如，1min。

在一些实施例中，M为设定时间段P2内用户甲与电子设备连续交互的轮次，连续交互指在用户甲与电子设备的交互过程中，没有其他用户介入。如果有其他用户介入，则从0开始重新计算交互轮次M。

(3)k₁，k₂。k₁和k₂分别为交互意愿值P、交互轮次M的权值，用于调节交互意愿值P和交互轮次M在第一时长T中的权重。本实施例中，由于交互意愿值P为0～1之间的数值，而M为大于1的数值，为平衡交互意愿值P和交互轮次M在第一时长T中的权重，k₁大于k₂。例如，k₁为k₂的3～5倍。示例性地，k₁＝2，k₂＝0.5。

(4)n。n用于限定第一时长T的上限。考虑到一些场景中，用户甲会与电子设备进行较多轮次的交互，例如，M＝15，这样，第一时长T可能会有过大的值。为避免第一时长T无限制的增加，将交互轮次项设置为min{M，n}，以限定第一时长T的上限。

以上介绍了第一时长T的确定方法。例如，在一个示例中，交互意愿值P＝0.9，交互轮次M＝3，k₁＝2，k₂＝0.5，n＝5，可以得出T＝3.3s；在另一些示例中，交互意愿值P＝0.3，交互轮次M＝1，k₁＝2，k₂＝0.5，n＝5，可以得出T＝1.1s。

本实施例中，根据交互意愿值P和交互轮次M确定第一时长，可以准确地预测用户甲的交互可能性。用户甲的交互可能性越大，电子设备对用户甲的优先等待时长越长，从而可以合理满足用户甲的语音交互需求。

以上介绍了第一时长T的确定方法。但本申请不限于此。

例如，在另一些实施例中，可以根据交互意愿值P和交互轮次M的其中之一确定第一时长T。例如，T＝3×P。

又如，本实施例中，根据交互意愿值P和交互轮次M动态地调整第一时长T。在另一些实施例中，第一时长T可以为根据经验确定的固定值，例如，第一时长为3s。该实施例可以简化第一时长T的确定过程，减少计算开销。

与其他实施例提供的语音交互方法相比，本申请实施例提供的语音交互方法可以在多人交互场景下，合理地选择目标交互人。以下与其他实施例提供的语音交互方法进行分别地对比。

图12示出了一种实施方式。具体地，图12提供了一种拾音方法及装置,初始拾音波束指向目标声源，在检测到录音设备朝向发生变化，动态调整拾音波束方向，确保目标声源与拾音波束指向相同，从而衰减或屏蔽其他噪声源的声音信号。

图12所示的实施方式是在明确了目标声源后，根据检测录音设备朝向动态调整拾音波束指向，但是没有解决在多人交互场景中，机器人如何拾音方向，以及如何在多用户中选择目标交互人的问题。

图13示出了另一种实施方式。具体地，图13提供了一种拾音方法，包括如下步骤S1001，当接收的声源角度在预设的角度内，通过获取当前摄像头的人脸；步骤S1002，选择这些人脸中与声源角度最接近的人脸为说话人，即对角度最接近的人脸进行跟踪，以达到跟踪当前说话人的目的；最后，在步骤S1003，调整机器人角度，使得说话人的脸部中心落在机器人前方中心位置，以便于对说话人的声音信号进行响应。

图13所示实施方式只是根据当前声源角度与面前所有人脸中选择一个角度最接近的进行人脸跟踪，达到跟踪当前说话人的目的，但是没有解决在多人交互场景中，机器人如何确定拾音方向，以及如何在多用户中选择目标交互人的问题。

相对于图12和图13所示的方式，本实施例中的语音交互方法可以在多人交互场景下，合理兼顾当前交互人和潜在交互人的语音交互需求，准确地确定目标交互人，从而提高多人交互场景下的用户体验。

现在参考图14，所示为根据本申请的一个实施例的电子设备400的框图。电子设备400可以包括耦合到控制器中枢403的一个或多个处理器401。对于至少一个实施例，控制器中枢403经由诸如前端总线(Front Side Bus，FSB)之类的多分支总线、诸如快速通道连(QuickPath Interconnect，QPI)之类的点对点接口、或者类似的连接406与处理器401进行通信。处理器401执行控制一般类型的数据处理操作的指令。在一实施例中，控制器中枢403包括，但不局限于，图形存储器控制器中枢(Graphics&Memory Controller Hub，GMCH)(未示出)和输入/输出中枢(Input Output Hub，IOH)(其可以在分开的芯片上)(未示出)，其中GMCH包括存储器和图形控制器并与IOH耦合。

电子设备400还可包括耦合到控制器中枢403的协处理器402和存储器404。或者，存储器和GMCH中的一个或两者可以被集成在处理器内(如本申请中所描述的)，存储器404和协处理器402直接耦合到处理器401以及控制器中枢403，控制器中枢403与IOH处于单个芯片中。

存储器404可以是例如动态随机存取存储器(DRAM，Dynamic Random Access Memory)、相变存储器(PCM，Phase Change Memory)或这两者的组合。存储器404中可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性计算机可读介质。计算机可读存储介质中存储有指令，具体而言，存储有该指令的暂时和永久副本。该指令可以包括：由处理器中的至少一个执行时导致电子设备400实施如图3、图5、图7所示方法的指令。当指令在计算机上运行时，使得计算机执行上述实施例公开的方法。

在一个实施例中，协处理器402是专用处理器，诸如例如高吞吐量集成众核(Many Integrated Core，MIC)处理器、网络或通信处理器、压缩引擎、图形处理器、图形处理单元上的通用计算(General-purpose computing on graphics processing units，GPGPU)、或嵌入式处理器等等。协处理器402的任选性质用虚线表示在图14中。

在一个实施例中，电子设备400可以进一步包括网络接口(Network Interface Controller，NIC)406。网络接口406可以包括收发器，用于为电子设备400提供无线电接口，进而与任何其他合适的设备(如前端模块，天线等)进行通信。在各种实施例中，网络接口406可以与电子设备400的其他组件集成。网络接口406可以实现上述实施例中的通信单元的功能。

电子设备400可以进一步包括输入/输出(Input/Output，I/O)设备405。I/O405可以包括：用户界面，该设计使得用户能够与电子设备400进行交互；外围组件接口的设计使得外围组件也能够与电子设备400交互；和/或传感器设计用于确定与电子设备400相关的环境条件和/或位置信息。

值得注意的是，图14仅是示例性的。即虽然图14中示出了电子设备400包括处理器401、控制器中枢403、存储器404等多个器件，但是，在实际的应用中，使用本申请各方法的设备，可以仅包括电子设备400各器件中的一部分器件，例如，可以仅包含处理器401和网络接口406。图14中可选器件的性质用虚线示出。

现在参考图15，所示为根据本申请的一实施例的片上系统(System on Chip，SoC)500的框图。在图15中，相似的部件具有同样的附图标记。另外，虚线框是更先进的SoC的可选特征。在图15中，SoC500包括：互连单元550，其被耦合至处理器510；系统代理单元580；总线控制器单元590；集成存储器控制器单元540；一组或一个或多个协处理器520，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(Static Random access Memory，SRAM)单元530；直接存储器存取(Direct Memory Access，DMA)单元560。在一个实施例中，协处理器520包括专用处理器，诸如例如网络或通信处理器、压缩引擎、图形处理单元上的通用计算(General-purpose computing on graphics processing units，GPGPU)、高吞吐量MIC处理器、或嵌入式处理器等。

静态随机存取存储器(SRAM)单元530可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性计算机可读介质。计算机可读存储介质中存储有指令，具体而言，存储有该指令的暂时和永久副本。该指令可以包括：由处理器中的至少一个执行时导致SoC实施如图3、图5、图7所示方法的指令。当指令在计算机上运行时，使得计算机执行上述实施例中公开的方法。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请的各方法实施方式均可以以软件、磁件、固件等方式实现。

可将程序代码应用于输入指令，以执行本文描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(Digital Signal Processor，DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本文中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

至少一个实施例的一个或多个方面可以由存储在计算机可读存储介质上的表示性指令来实现，指令表示处理器中的各种逻辑，指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“知识产权(Intellectual Property，IP)核”的这些表示可以被存储在有形的计算机可读存储介质上，并被提供给多个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。

在一些情况下，指令转换器可用来将指令从源指令集转换至目标指令集。例如，指令转换器可以变换(例如使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其它方式将指令转换成将由核来处理的一个或多个其它指令。指令转换器可以用软件、硬件、固件、或其组合实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。

Claims

一种语音交互方法，用于电子设备，其特征在于，所述方法包括：

与第一用户进行语音交互，并在所述语音交互的语音采集时段中，采集所述第一用户所在角度范围的第一音频信号和第二用户所在角度范围的第二音频信号，所述第二用户为在设定历史时段中与所述电子设备进行语音交互的用户；

判断所述第一音频信号中的第一语音信号的开始时刻是否位于第一时段内，并根据判断结果从所述第一语音信号和第二语音信号中确定目标语音信号，所述第二语音信号为所述第二音频信号中包含的语音信号，所述第一时段为所述语音采集时段的开始时刻之后经过第一时长的时段；

对所述目标语音信号进行应答。
根据权利要求1所述的方法，其特征在于，所述第一语音信号的开始时刻和所述第二语音信号的开始时刻的至少之一位于所述第一时段内；

所述根据判断结果从所述第一语音信号和第二语音信号中确定目标语音信号，包括：

若所述第一语音信号的开始时刻位于所述第一时段内，则将所述第一语音信号确定为目标语音信号；否则，则根据所述第二语音信号和所述第一语音信号在时间上的交叠状态确定所述目标语音信号。
根据权利要求2所述的方法，其特征在于，所述根据所述第二语音信号和所述第一语音信号在时间上的交叠状态确定所述目标语音信号，包括：

若所述第二语音信号和所述第一语音信号在时间上有交叠，则将所述第一语音信号确定为所述目标语音信号；

若所述第二语音信号和所述第一语音信号在时间上无交叠，则将所述第二语音信号确定为所述目标语音信号。
根据权利要求1所述的方法，其特征在于，所述第一时长根据所述第一用户的交互意愿值P和/或所述第一用户与所述电子设备在设定时间段内的交互次数M确定，其中，所述交互意愿值P用于表征所述第一用户与所述电子设备的语音交互意愿。
根据权利要求4所述的方法，其特征在于，所述交互意愿值P根据所述第一用户的面部角度和/或所述第一用户与所述电子设备的距离确定。
根据权利要求4所述的方法，其特征在于，所述第一时长为k₁×P+k₂×min{M，n}，其中，k₁、k₂为预设常数，n为3～6之间的整数。
根据权利要求1所述的方法，其特征在于，所述第二语音信号中不包括所述电子设备的唤醒词。
根据权利要求1所述的方法，其特征在于，所述设定历史时段为所述语音采集时段的开始时刻之前第二时长的时段。
根据权利要求8所述的方法，其特征在于，所述第二时长为0.5～2min。
一种电子设备，其特征在于，包括：

存储器，用于存储由所述电子设备的一个或多个处理器执行的指令；

处理器，当所述处理器执行所述存储器中的所述指令时，可使得所述电子设备执行权利要求1～9任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，该指令在计算机上执行时使得计算机执行权利要求1～9任一项所述的方法。