WO2020119032A1

WO2020119032A1 - 基于生物特征的声源追踪方法、装置、设备及存储介质

Info

Publication number: WO2020119032A1
Application number: PCT/CN2019/088820
Authority: WO
Inventors: 任婧; 胡文成; 曾燕玲
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-12-10
Filing date: 2019-05-28
Publication date: 2020-06-18
Also published as: CN109754811A; CN109754811B

Abstract

本申请公开了一种基于生物特征的声源追踪方法、装置、设备及存储介质，所述方法包括：获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置；获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话；若该人脸正在说话，获取该人脸的说话音频，并提取所述说话音频中的第二声纹特征；在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象。本申请结合声源定位、人脸检测和声纹识别等来实现对追踪对象的追踪定位，提升了追踪的定位效果，提高了追踪的准确性。

Description

基于生物特征的声源追踪方法、装置、设备及存储介质

[0001] 本申请以 2018年 12月 10日提交的申请号为 201811504484.8，名称为“基于生物特征的声源追踪方法、装置、设备及存储介质”的中国发明专利申请为基础，并要求其优先权。

技术领域

[0002] 本申请涉及生物特征领域，具体涉及一种基于生物特征的声源追踪方法、装置、设备及存储介质。

[0003] 背景技术

[0004] 目前，随着科学技术的发展，在一些大型会展等现场，如何对发言对象等追踪对象进行智能追踪，是一个很需要解决的问题，由于智能机器人的快速发展，人们也可能也会希望智能机器人能够实现此类追踪的智能操作，比如，通过声源定位技术实现对追踪对象的定位等。但是，在现有技术中，上述的智能追踪并没有得到很好的实现，比如，通过智能机器人对追踪对象进行定位追踪一般都是通过智能机器人的某一方面的技术来实现的，而这种实现方式往往比较片面，准确性低，导致定位效果比较差。

[0005] 申请内容

[0006] 本申请实施例提供一种基于生物特征的声源追踪方法、装置、设备及存储介质，本申请结合声源定位、人脸检测和声纹识别等多方面技术来实现对追踪对象的追踪定位，提升了追踪的定位效果，提高了追踪的准确性。

[0007] 一种基于生物特征的声源追踪方法，包括：

[0008] 获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置；

[0009] 获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话；

[0010] 若该人脸正在说话，获取该人脸的说话音频，并提取所述说话音频中的第二声纹特征；

[0011] 在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象。

[0012] 一种基于生物特征的声源追踪装置，包括：

[0013] 第一提取模块，用于获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置；

[0014] 判断模块，用于获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话；

[0015] 第二提取模块，用于若该人脸正在说话，获取该人脸的说话音频，并提取所述说话音频中的第二声纹特征；

[0016] 设定模块，用于在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象。

[0017] 一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

[0018] 获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置；

[0019] 获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话；

[0020] 若该人脸正在说话，获取该人脸的说话音频，并提取所述说话音频中的第二声纹特征；

[0021] 在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象。

[0022] 一个或多个存储有计算机可读指令的非易失性可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置；

[0023] 获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话；

[0024] 若该人脸正在说话，获取该人脸的说话音频，并提取所述说话音频中的第二声纹特征；

[0025] 在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象。

[0026] 本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

[0027] 附图说明

[0028] 为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0029] 图 1是本申请一实施例中基于生物特征的声源追踪方法的应用环境示意图； [0030] 图 2是本申请一实施例中基于生物特征的声源追踪方法的流程图；

[0031] 图 3是本申请一实施例中基于生物特征的声源追踪方法的步骤 S10的流程图； [0032] 图 4是本申请一实施例中基于生物特征的声源追踪方法的步骤 S106的流程图； [0033] 图 5是本申请一实施例中基于生物特征的声源追踪方法的步骤 S20的流程图； [0034] 图 6是本申请一实施例中基于生物特征的声源追踪方法的步骤 S202的流程图； [0035] 图 7是本申请另一实施例中基于生物特征的声源追踪方法的流程图；

[0036] 图 8是本申请又一实施例中基于生物特征的声源追踪方法的流程图；

[0037] 图 9是本申请一实施例中基于生物特征的声源追踪装置的原理框图；

[0038] 图 10是本申请一实施例中计算机设备的示意图。

[0039] 具体实施方式

[0040] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

[0041] 本申请提供的基于生物特征的声源追踪方法，可应用在如图 1的应用环境中，其中，客户端（计算机设备）通过网络与服务器进行通信。其中，客户端（计算机设备）包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。 [0042] 在一实施例中，如图 2所示，提供一种基于生物特征的声源追踪方法，以该方法应用在图 1中的服务器为例进行说明，包括以下步骤：

[0043] S10, 获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置。

[0044] 其中，所述当前环境是指需要确定当前正在发言的追踪对象并对其进行持续追踪的当前环境（比如会议、演出、主持环境等，亦可以用于需要与所述追踪对象进行互动，因此首先需要确定追踪对象的环境）；所述当前环境中根据需求在多个位置分布设有可以捕获声源信号的麦克风。

[0045] 同时，在该当前环境中分布设有多个可以进行拍摄视频和图像的摄像设备（比如摄像头，移动终端等）。可理解地，各所述摄像设备均可以随意旋转角度和 / 或各所述摄像设备的位置亦可以在一定范围内进行调整（设定调整摄像设备以调整其高低、左右前后、倾斜角度等位置关系），以达到所述当前环境中的所有空间的任何角度均可以被清晰地拍摄到的效果即可。

[0046] S20，获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话

[0047] 也即，首先可通过摄像设备捕捉声源位置附近的图片，之后提取所述图片中的人脸。同时，需要进一步根据确认该人脸是否在说话（可以根据该人脸的微表情进行识别其是否正在说话）；在其正在说话时，通过将正在说话的人脸的第二声纹特征与上述的声源的第一声纹特征进行匹配，以确认其是否为追踪对象，在该人脸并未在说话时，将其排除出追踪对象的范围。

[0048] S30, 若该人脸正在说话，获取该人脸的说话音频，并提取所述说话音频中的第二声纹特征。

[0049] 在该步骤中，在确认该人脸正在说话时，可以提取该说话音频中的第二声纹特征，以便于将该第二声纹特征与上述第一声纹特征进行匹配，进而追踪对象。

[0050] S40, 在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象。

[0051] 也即，将说话人脸的第二声纹特征与所述声源的第一声纹特征匹配的说话人脸，确认为与该声源对应的追踪对象，进而通过摄像设备对该说话人脸进行持续追踪。

[0052] 本申请提供的基于生物特征的声源追踪方法，首先获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置；获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话；若该人脸正在说话，获取该人脸的说话音频，并提取所述说话音频中的第二声纹特征；在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象。本申请结合声源定位、人脸检测和声纹识别等多方面技术来实现对追踪对象的追踪定位，提升了追踪的定位效果，提高了追踪的准确性。

[0053] 在一实施例中，如图 3所示，所述步骤 S10包括：

[0054] S101 , 获取当前环境中的所有声源，并在所有声源中检测是否存在符合预设声源要求的声源。

[0055] 在本实施例中，可根据上述设置在各个位置的麦克风来采集声源信号，之后可对采集的所有声源信号进行有效音频信号检测，并且还可通过 ManyEars技术将检测到的多个声源进行分离以得到多个独立的声源。

[0056] 其中，符合所述预设声源要求的声源，是指在预设音量大小范围中，且声源在预设音量大小范围中的持续时长大于预设时长的声源。

[0057] 其中，预设音量大小范围可以根据需求进行设定，可以设定该音量大小范围的最小值和最大值，超出所述音量大小范围的最大值的即视为噪音，此时将其排除在符合所述预设声源要求的声源的范围之外，小于所述音量大小的最小值的，可以视为其不是该当前环境中所需要进行追踪的追踪对象所发出的声源。可理解地，所述音量大小范围可以根据当前环境的不同进行设定，亦可以同时考虑在该环境中主要参与的人员（追踪对象）的可能音量大小。所述预设时长亦同样可以根据当前环境中追踪对象可能的发言时长来进行设定。

[0058] 进一步地，在不存在符合预设声源要求的声源时，此时继续获取当前环境中的声源进行检测。

[0059] S102, 在存在符合预设声源要求的声源时，提取符合预设声源要求的该声源的第一声纹特征。也即，在检测到符合预设声源要求的声源时，可以提取该声源中的第一声纹特征，以便于在后续根据该第一声纹特征来确认追踪对象。 [0060] 可理解地，在所述符合预设声源要求的声源中，可以提取一个或者多个第一声纹特征（比如，在有两个以上人员在进行对话，且该声源中存在两个以上符合预设声源要求的声音，此时提取每个符合预设声源要求的声音的第一声纹特征，此时追踪对象即为两个以上），此时，在检测到提取的第一声纹特征为两个以上时，获取提取的第一声纹特征的数量，并在后续步骤 S106中为所述声源位置分配摄像设备时，为该声源位置分配的摄像设备的数量大于或等于所述第一声纹特征的数量。

[0061] S103 , 通过声源定位运算对该声源进行定位，获取该声源的声源位置。可理解地，当检测到某个声源满足所述预设声源要求时，可通过 ManyEars技术中的声源定位运算对上述某个声源进行定位，以获取该声源的声源位置。

[0062] S 104 将所述声源位置以及所述第一声纹特征关联之后，在预设的电子地图中标记所述声源位置。

[0063] 可理解地，此时，所述声源位置所需要进行追踪的追踪对象，即为与所述第一声纹特征对应的追踪对象，此时，需要将该声源位置与该第一声纹特征关联，以便于在该声源位置根据该第一声纹特征找寻追踪对象。

[0064] 作为优选，每一个声源位置可以是由通过 ManyEars技术中的声源定位运算对上述某个声源进行定位之后的具体的实时位置（随机生成该声源位置的唯一编号） ; 亦可以是在所述电子地图中预先规划好的具有唯一编号的声源位置（比如，在所述电子地图中预先将其分隔为多个区块，将每个区块给予一个唯一编号，只要该声源定位之后确认属于其中一个区块中，即将该区块所在位置作为该声源的声源位置，将该区块的唯一编号作为该声源位置的编号）。

[0065] 在本实施例中，在服务器中已经预置了该当前环境中的电子地图（立体地图或者平面地图），可以在定位到该声源位置之后，在所述电子地图中标记该声源位置；作为优选，此时标记在所述声源位置上的标记，代表着该声源位置尚未分配摄像设备。在后续步骤 S106中为所述声源位置分配用于对该声源位置的追踪对象进行追踪的摄像设备之后，标记在所述声源位置上的标记，随即会切换为代表该声源位置已分配摄像设备的标记。

[0066] 在另一实施例中，如图 3所示，所述步骤 S 104之后还包括， [0067] S105 , 获取所述电子地图中所述声源位置周围预设范围内分布的摄像设备。

[0068] 所述预设范围是指预先设定的一个可以确定所述声源位置内的摄像设备的范围，在该范围内，所述摄像设备可以较佳地拍摄到所述声源位置的追踪对象；比如，所述预设范围为以所述声源位置为圆心，半径为 X米的圆内。 X的取值可以但不限于 1米、 2米、 3米等。

[0069] 可理解地，各所述摄像设备都有唯一标识（比如设备编号），各所述声源位置也均具有唯一编号，此时可以在电子地图中仅显示所述摄像设备的唯一标识和所述声源位置的唯一编号。且在所述预设范围内的所述摄像设备可以以不同的显示参数突出显示，比如，可以将所述预设范围内的所述摄像设备的唯一标识加粗显示或将其以不同的颜色、字体和背景色进行显示。

[0070] S106 , 根据预设的分配规则为所述声源位置分配所述摄像设备。

[0071] 其中，分配至所述声源位置的所述摄像设备用于追踪该声源位置的声源。在根据预设的分配规则为所述声源位置分配所述摄像设备之后，将所述声源位置标记更改为已分配摄像设备，同时将分配至所述声源位置的所述摄像设备（唯一标识）与该声源位置（唯一编号）关联，此时所述摄像设备在所述电子地图中亦可以被标记为已使用。在对所述声源位置的追踪结束之后，去除对所述声源位置的所有标记（或标记为未出现追踪对象）；同时解除所述声源位置与所述摄像设备的关联，此时所述摄像设备在所述电子地图中被标记为未使用。

[0072] 在本实施例中，根据预设的分配规则去分配摄像设备，且分别对声源设备与摄像设备的各种不同状态进行标记，可以更有序分配各摄像设备，以更快速和准确地明确追踪范围及追踪对象，提升了每个摄像设备的追踪效率，也避免了所有摄像设备全部无目标地全部同时去追踪某一个声源。

[0073] 在一实施例中，如图 4所示，所述步骤 S106，包括：

[0074] S1061，检测所述预设范围内分布的摄像设备是否被标记为未使用。

[0075] S1062, 在所述摄像设备被标记为未使用时，检测所述摄像设备是否可以拍摄到所述声源位置的人脸。

[0076] S1063 , 在所述摄像设备可以拍摄到所述声源位置的人脸时，将所述摄像设备与所述声源位置关联，并将所述摄像设备标记为已使用。 [0077] 上述过程中，首先获取所述预设范围内被标记为未使用的摄像设备，再获取上述各未使用的所述摄像设备中可以拍摄到所述声源位置的人脸的一个或多个摄像设备，之后将其均分配给所述声源位置；可理解地，在分配给所述声源位置的摄像设备为多个时，若在步骤 S40中确认追踪对象，此时，可以仅保留必要的一个摄像设备以持续追踪所述追踪对象，而解除其他摄像设备与所述声源位置的关联，并将解除关联的所述摄像设备重新标记为未使用。也即，在追踪过程中，也可以根据需求调整与该声源位置关联的摄像设备。可理解地，所述摄像设备的标记亦可以由用户人工标记

[0078] 在本实施例中，可以根据摄像设备的标记更好地区分摄像设备的使用状态，方便对于所述摄像设备进行调配。

[0079] 在一实施例中，如图 4所示，所述步骤 S1061之后，还包括：

[0080] S1064, 在所述摄像设备均被标记为已使用时，指示其他位置的所述摄像设备移动至所述预设范围中，或扩大所述预设范围。

[0081] 在本实施例的一方面，所述摄像设备可以为移动终端（包括智能机器人或智能手机等）上安装的摄像头，此时，若所述预设范围中并不存在可分配给所述声源位置的摄像设备，此时，可以命令其他位置的移动终端移动至所述预设范围中，并通过其摄像头对所述声源位置的人脸进行拍摄。

[0082] 在本实施例的另一方面，若无法在上述各未使用的所述摄像设备中获取可以拍摄到所述声源位置的人脸的摄像设备，此时，可能需要扩大所述预设范围以获取更多的未使用的摄像设备，并返回至所述 S1061中进行检测。

[0083] 在一实施例中，如图 5所示，所述步骤 S20包括：

[0084] S201 , 获取摄像设备拍摄的所述声源位置周围预设范围内的人脸，并通过静默活体检测判断所述人脸是否属于活体人脸。

[0085] 在本实施例中，首先可通过摄像设备捕捉声源位置附近的图片，之后不断地将捕捉到的图片输入到人脸检测算法中以进行人脸识别并检测其是否为人脸。同时，还需要通过静默活体检测来检测所述人脸是否为活体人脸，避免摄像设备拍摄到的人脸为非活体的人脸（比如墙上的海报中的人脸）的情况发生。所述声源位置周围预设范围内所指的具体范围，亦可以在服务器中预先设定，比如所述声源位置周围预设范围内是指 S105中所述的预设范围之内。可理解地，所述摄像设备可以随意旋转角度和 /或各所述摄像设备的位置亦可以在一定范围内进行调整（设定调整摄像设备以调整其高低、左右前后、倾斜角度等位置关系），以达到在所述当前环境中调整拍摄范围的目的，因此，仅需要确认所述声源位置，即可确认该声源位置周围的预设范围，进而在拍摄该预设范围内的图像之后，将该图像中提取的人脸确认为所述声源位置周围预设范围内的人脸。

[0086] S202, 在所述人脸属于活体人脸时，判断所述人脸当前的第一微表情是否为说话微表情。

[0087] 也即，在所述人脸属于活体人脸时，说明所述人脸可能是追踪对象，此时，需要进一步根据该人脸说话时的音频进行确认。因此，首先根据所述人脸的第一微表情来判断其是否在说话。在进行微表情识别人脸是否在说话之后，将声源的第一声纹特征与说话人脸的第二声纹特征进行匹配，可以精确确认与该声源对应的追踪对象。

[0088] S203 , 在所述第一微表情为说话微表情时，确认所述人脸在说话。

[0089] 可理解地，判断提取的所述第一微表情是否为说话微表情的过程，可以在预设时间范围内均保持持续进行（以免追踪对象在被摄像设备拍摄到的时候，刚好处于说话过程中的暂时停顿过程中），若在预设时间范围之内检测到所述第一微表情为说话微表情，即可认为所述人脸在说话。

[0090] S204，在预设时间范围之内检测到的所有第一微表情均不是说话微表情时，确认所述人脸一直未在说话，将该人脸标记为非追踪对象。此时，可以直接捕获下一个人脸在步骤 S201中继续进行检查即可。

[0091] 在本实施例中，可以通过静默活体检测和微表情确认追踪对象，提升了追踪准确度。

[0092] 在一实施例中，如图 6所示，所述步骤 S202中，所述判断所述人脸当前的第一微表情是否为说话微表情包括：

[0093] S2021 , 提取所述第一微表情中的第一动作单元类型及序列。

[0094] 其中，所述第一动作单元（包括多个动作单元）类型可以包括国际上通用的部分和说话时嘴唇相关的动作单元类型（比如下表 1中所示）等。所述第一动作单元序列是指所述第一动作单元在第一微表情中出现的先后顺序的排列。

[0095] 表 1 动作单元（AU）类型

[] [表 1]

[0096] S2022, 获取数据库中预先存储的与说话微表情关联的第二动作单元类型及序列。

[0097] 也即，数据库中预先存储有说话微表情所对应的第二动作单元（包括多个动作单元）类型及序列，只要将在所述步骤 S2021中提取的所述第一动作单元类型及序列，与数据库中存储的说话微表情对应的第二动作单元类型及序列进行比对，即可确认所述第一微表情的类型是否为说话微表情。

[0098] S2023，判断所述第一动作单元类型及序列是否与所述第二动作单元类型及序列匹配。

[0099] 可理解地，在本实施例一方面，只要在所述步骤 S2021中提取的所述第一动作单元类型及序列中，包含数据库中存储的说话微表情所对应的第二动作单元类型（还可以包含其他动作单元），且两者序列也一致，即可认为所述第一微表情的类型为说话微表情。在本实施例另一方面，亦可以仅在在所述步骤 S2021中提取的所述第一动作单元的类型及序列，与数据库中存储的说话微表情的第二动作单元类型及序列完全一一对应（不可多或者少任何一个动作单元，且序列还需要一致）时，才认为所述第一微表情的类型为说话微表情。

[0100] S2024, 在所述第一动作单元类型及序列与所述第二动作单元类型及序列匹配时，确认所述人脸当前的第一微表情为说话微表情。

[0101] 进一步地，在所述第一动作单元类型及序列与所述第二动作单元类型及序列不匹配时，确认所述人脸当前的第一微表情不是说话微表情。此时，确认所述人脸并未在说话。

[0102] 在一实施例中，所述步骤 S30中，所述获取该人脸的说话音频，具体为：获取与所述人脸最近 /或所述人脸正在使用的麦克风录制的该人脸的说话音频。

[0103] 其中，与所述人脸最近的麦克风是指在上述电子地图中距离所述声源位置最近或距离和所述声源位置关联的摄像设备最近的麦克风。可理解地，在本实施例中，各所述麦克风在所述电子地图中亦可以和所述摄像设备一样具有唯一标识，所述麦克风唯一标识可以在电子地图中显示以供服务器进行调取，且对麦克风的使用状态等的标记亦可以参照上述对于摄像设备的标记，在所述麦克风进行使用之后，可以在所述电子地图上将其标记为已使用，且将所述麦克风与该声源位置（或该声源位置的该人脸）关联；在其取消关联之后，其标记亦可更换为未使用。

[0104] 所述人脸正在使用的麦克风，则可以直接自数据库中进行调取，每一个麦克风在被使用时，均会被标记为已使用，且若该麦克风在所述声源位置被使用，则代表其已经与该声源位置关联，此时无需在进行选取，直接获取该麦克风录制的说话音频，即为该人脸对应的说话音频（在该实施例中，每一个声源位置仅有一个追踪对象在说话，若存在多个正在使用的麦克风，可以认为每个麦克风对应于一个追踪对象）。

[0105] 在上述过程中获取该人脸的说话音频之后，可以提取该说话音频中的第二声纹特征，以便于将该第二声纹特征与上述第一声纹特征进行匹配，进而追踪对象

[0106] 在一实施例中，所述步骤 S40之前，包括: [0107] 检测所述第一声纹特征与所述第二声纹特征的相似度是否超过相似度阈值。其中，所述相似度阈值可以根据实际情况预先进行设定，比如，所述相似度阈值为 0.6以上。

[0108] 在所述第一声纹特征与所述第二声纹特征的相似度超过相似度阈值时，确认所述第二声纹特征与所述第一声纹特征匹配。在确认所述第二声纹特征与所述第一声纹特征匹配之后，即进入所述步骤 S40中，将所述第二声纹特征所属的该人脸设定为追踪对象。

[0109] 在所述第一声纹特征与所述第二声纹特征的相似度未超过相似度阈值时，确认所述第二声纹特征与所述第一声纹特征不匹配，继续获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话。也即识别该声源位置下一人脸是否为追踪对象。

[0110] 在一实施例中，如图 7所示，所述步骤 S40之后，包括：

[0111] S50, 调整与所述声源位置关联的摄像设备对所述追踪对象的拍摄参数。

[0112] 进一步地，在确认该人脸设定为追踪对象之后，可以在与该声源位置关联的摄像设备中调整其拍摄该追踪对象的拍摄参数。比如，使该追踪对象的预设身体位置（比如身体比例的 1/2）位于所拍摄的视频的画面正中间，且调整其清晰度等符合预设要求，同时，有上述可知，此时还可以根据需求调整摄像设备与该追踪对象之间的高低、左右前后（包括远近）、倾斜角度等位置关系。

[0113] S60, 将所述摄像设备拍摄的所述追踪对象的视频显示在客户端的预设显示界面中。

[0114] 其中，所述预设显示界面是指在该当前环境中为该声源位置或所述追踪对象分配的显示界面。该预设显示界面亦与所述声源位置或所述追踪对象关联，所述摄像设备将拍摄到的视频直接传送至服务器并显示在该预设显示界面中的预设部位上。在所述显示界面中，可以同时显示多个视频画面，但正在拍摄所述追踪对象的视频画面可以在所述显示画面中的预设显示位置以预设比例大小进行显示；比如，拍摄追踪对象的视频画面为一个，此时，将该视频画面在显示界面的中间位置（不限定于该预设显示位置，亦可以为上下左右等位置）的以该显示界面大小的 1/2 （不限定于该比例大小）显示，而其他的视频画面可以显示在拍摄追踪对象的视频画面周围，且其显示比例大小可以根据剩余显示位置的面积以及其他的视频画面的数量来确定。同理，在拍摄追踪对象的视频画面为两个以上时，亦可以将拍摄所述追踪对象的两个以上的视频画面在所述显示画面中的预设显示位置以预设比例大小进行显示，在此不再赘述。

[0115] 在一实施例中，还可以自动识别所述追踪对象是谁，此时在数据库中预先存储有该追踪对象的头像及其基本信息（比如，当前环境为会议环境，此时数据库中预先存储有所有参会人员的头像及基本信息），可以根据该头像与所述追踪对象的人脸进行匹配之后，确认该追踪对象的身份，并将该追踪对象的基本信息中的部分或者全部显示在所述预设显示界面中。可理解地，还可以对拍摄到的所述追踪对象的视频中的音频进行解析，并将其转换为文字之后输出显示在所述预设显示界面中。亦可以对该音频进行同步翻译，将翻译之后的音频进行播放或将翻译之后的音频转换为文字之后显示在所述预设显示界面中。

[0116] 在一实施例中，所述摄像设备为智能机器人上的摄像头，此时，如图 8所示，所述步骤 S40之后还包括：

[0117] S70，获取摄像设备拍摄的所述追踪对象的第二微表情。

[0118] 也即，在一些情况下，本申请实施例应用于智能机器人与追踪对象进行互动的当前环境中，此时，智能机器人可以在确定所述追踪对象之后，根据自所述追踪对象的视频中提取的第二微表情与其进行互动。

[0119] S80, 根据所述第二微表情识别所述追踪对象的情绪类型。

[0120] 也即，数据库中预先存储有各种微表情类型（比如，各微表情类型为哭、笑或者生气，此时，将该微表情类型与其相对应的情绪类型关联）所对应的动作单元类型及序列，只要将在所述第二微表情中提取其动作单元的类型及序列，并与数据库中存储的各微表情类型所对应的动作单元类型及序列进行比对，即可确认所述微表情的类型，进而确定所述追踪对象的情绪类型。其比对过程可以参照上述步骤 S20, 在此不再赘述。

[0121] S90, 根据所述情绪类型指示智能机器人做出与所述情绪类型对应的预设肢体动作。

[0122] 也即，在确认所述追踪对象的情绪类型之后，由于在数据库中亦预先设定了所述智能机器人在所述追踪对象处于各种情绪类型的情况下的应对措施，也即设定该智能机器人在各种情绪类型下所应做出的肢体动作，比如所述追踪对象的情绪类型为开心（所述微表情类型为笑），此时所述智能机器人也表现其肢体动作为开心地摇晃和旋转身体，若所述追踪对象的情绪类型为不开心（所述微表情类型为哭），此时所述智能机器人也表现其肢体动作为拥抱所述追踪对象。本实施例使得智能机器人可以与追踪对象进行互动，使得人机交互更加有趣

[0123] 在一实施例中，如图 9所示，提供一种基于生物特征的声源追踪装置，该基于生物特征的声源追踪装置与上述实施例中基于生物特征的声源追踪方法一一对应。所述基于生物特征的声源追踪装置包括：

[0124] 第一提取模块 11，用于获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置；

[0125] 判断模块 12, 用于获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话；

[0126] 第二提取模块 13 , 用于若该人脸正在说话，获取该人脸的说话音频，并提取所述说话音频中的第二声纹特征；

[0127] 设定模块 14, 用于在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象。

[0128] 在一实施例中，所述第一提取模块 11包括：

[0129] 第一获取子模块，用于获取当前环境中的所有声源，并在所有声源中检测是否存在符合预设声源要求的声源；

[0130] 第一提取子模块，用于在存在符合预设声源要求的声源时，提取符合预设声源要求的该声源的第一声纹特征；

[0131] 第二获取子模块，用于通过声源定位运算对该声源进行定位，获取该声源的声源位置；

[0132] 标记子模块，用于将所述声源位置以及所述第一声纹特征关联之后，在预设的电子地图中标记所述声源位置。

[0133] 在一实施例中，所述第一提取模块 11还包括： [0134] 第三获取子模块，用于获取所述电子地图中所述声源位置周围预设范围内分布的摄像设备；

[0135] 分配子模块，用于根据预设的分配规则为所述声源位置分配所述摄像设备。

[0136] 在一实施例中，所述分配子模块包括：

[0137] 第一检测单元，用于检测所述预设范围内分布的摄像设备是否被标记为未使用

[0138] 第二检测单元，用于在所述摄像设备被标记为未使用时，检测所述摄像设备是否可以拍摄到所述声源位置的人脸；

[0139] 标记单元，用于在所述摄像设备可以拍摄到所述声源位置的人脸时，将所述摄像设备与所述声源位置关联，并将所述摄像设备标记为已使用。

[0140] 在一实施例中，所述分配子模块还包括：

[0141] 指示单元，用于在所述摄像设备均被标记为已使用时，指示其他位置的所述摄像设备移动至所述预设范围中，或扩大所述预设范围。

[0142] 在一实施例中，所述判断模块 12包括：

[0143] 第一检测子模块，用于获取摄像设备拍摄的所述声源位置周围预设范围内的人脸，并通过静默活体检测判断所述人脸是否属于活体人脸；

[0144] 判断子模块，用于在所述人脸属于活体人脸时，判断所述人脸当前的第一微表情是否为说话微表情；

[0145] 第一确认子模块，用于在所述第一微表情为说话微表情时，确认所述人脸在说话。

[0146] 在一实施例中，所述判断模块 12还包括：

[0147] 第二确认子模块，用于在预设时间范围之内检测到的所有第一微表情均不是说话微表情时，确认所述人脸一直未在说话，将该人脸标记为非追踪对象。

[0148] 在一实施例中，所述判断子模块包括：

[0149] 提取单元，用于提取所述第一微表情中的第一动作单元类型及序列；

[0150] 获取单元，用于获取数据库中预先存储的与说话微表情关联的第二动作单元类型及序列；

[0151] 判断单元，用于判断所述第一动作单元类型及序列是否与所述第二动作单元类型及序列匹配；

[0152] 确认单元，用于在所述第一动作单元类型及序列与所述第二动作单元类型及序列匹配时，确认所述人脸当前的第一微表情为说话微表情。

[0153] 在一实施例中，所述第二提取模块 13包括：

[0154] 第四获取子模块，用于获取与所述人脸最近 /或所述人脸正在使用的麦克风录制的该人脸的说话音频。

[0155] 在一实施例中，所述装置还包括：

[0156] 检测模块，用于检测所述第一声纹特征与所述第二声纹特征的相似度是否超过相似度阈值；

[0157] 确认模块，用于在所述第一声纹特征与所述第二声纹特征的相似度超过相似度阈值时，确认所述第二声纹特征与所述第一声纹特征匹配；

[0158] 返回模块，用于在所述第一声纹特征与所述第二声纹特征的相似度未超过相似度阈值时，确认所述第二声纹特征与所述第一声纹特征不匹配，继续获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话。

[0159] 在一实施例中，所述装置还包括：

[0160] 调整模块，用于调整与所述声源位置关联的摄像设备对所述追踪对象的拍摄参数；

[0161] 显示模块，用于将所述摄像设备拍摄的所述追踪对象的视频显示在客户端的预设显示界面中。

[0162] 在一实施例中，所述装置包括：

[0163] 获取模块，用于获取所述摄像设备拍摄的所述追踪对象的第二微表情；

[0164] 识别模块，用于根据所述第二微表情识别所述追踪对象的情绪类型；

[0165] 指示模块，用于根据所述情绪类型指示所述智能机器人做出与所述情绪类型对应的预设肢体动作。

[0166] 关于基于生物特征的声源追踪装置的具体限定可以参见上文中对于基于生物特征的声源追踪方法的限定，在此不再赘述。上述基于生物特征的声源追踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

[0167] 在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图 10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机可读指令被处理器执行时以实现前面任一实施方式描述的一种基于生物特征的声源追踪方法。

[0168] 在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：

[0169] 获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置；

[0170] 获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话；

[0171] 若该人脸正在说话，获取该人脸的说话音频，并提取所述说话音频中的第二声纹特征；

[0172] 在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象。

[0173] 在一个实施例中，提供了一个或多个存储有计算机可读指令的非易失性可读存储介质，该非易失性可读存储介质上存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现以下步骤：

[0174] 获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置；

[0175] 获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话；

[0176] 若该人脸正在说话，获取该人脸的说话音频，并提取所述说话音频中的第二声纹特征；

[0177] 在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象。

[0178] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和 /或易失性存储器。非易失性存储器可包括只读存储器 (ROM) 、可编程 ROM (PROM ) 、电可编程 ROM (EPROM) 、电可擦除可编程 ROM (EEPROM) 或闪存。易失性存储器可包括随机存取存储器 (RAM) 或者外部高速缓冲存储器。作为说明而非局限， RAM以多种形式可得，诸如静态 RAM (SRAM) 、动态 RAM ( DRAM) 、同步 DRAM (SDRAM) 、双数据率 SDRAM (DDRSDRAM) 、增强型 SDRAM (ESDRAM) 、同步链路 DRAM (SLDRAM) 、存储器总线直接 RA M (RDRAM) 、直接存储器总线动态 RAM (DRDRAM) 、以及存储器总线动态 RAM (RDRAM) 等。

[0179] 所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元或模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

[0180] 以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

发明概述

技术问题

问题的解决方案

发明的有益效果

Claims

权利要求书

[权利要求 1] 一种基于生物特征的声源追踪方法，其特征在于，包括：

获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置；

获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话；

若该人脸正在说话，获取该人脸的说话音频，并提取所述说话音频中的第二声纹特征；

在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象。

[权利要求 2] 如权利要求 1所述的基于生物特征的声源追踪方法，其特征在于，所述获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置，包括：获取当前环境中的所有声源，并在所有声源中检测是否存在符合预设声源要求的声源；

在存在符合预设声源要求的声源时，提取符合预设声源要求的该声源的第一声纹特征；

通过声源定位运算对该声源进行定位，获取该声源的声源位置；将所述声源位置以及所述第一声纹特征关联，并在预设的电子地图中标记所述声源位置。

[权利要求 3] 如权利要求 2所述的基于生物特征的声源追踪方法，其特征在于，所述将所述声源位置以及所述第一声纹特征关联，并在预设的电子地图中标记所述声源位置之后，包括：

获取所述电子地图中所述声源位置周围预设范围内分布的摄像设备；根据预设的分配规则为所述声源位置分配所述摄像设备。

[权利要求 4] 如权利要求 3所述的基于生物特征的声源追踪方法，其特征在于，所述根据预设的分配规则为所述声源位置分配所述摄像设备，包括：检测所述预设范围内分布的摄像设备是否被标记为未使用；在所述摄像设备被标记为未使用时，检测所述摄像设备是否可以拍摄到所述声源位置的人脸；

在所述摄像设备可以拍摄到所述声源位置的人脸时，将所述摄像设备与所述声源位置关联，并将所述摄像设备标记为已使用。

[权利要求 5] 如权利要求 4所述的基于生物特征的声源追踪方法，其特征在于，所述检测所述预设范围内分布的摄像设备是否被标记为未使用之后，还包括：

在所述摄像设备均被标记为已使用时，指示其他位置的所述摄像设备移动至所述预设范围中，或扩大所述预设范围。

[权利要求 6] 如权利要求 1所述的基于生物特征的声源追踪方法，其特征在于，所述获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话，包括：

获取摄像设备拍摄的所述声源位置周围预设范围内的人脸，并通过静默活体检测判断所述人脸是否属于活体人脸；

在所述人脸属于活体人脸时，判断所述人脸当前的第一微表情是否为说话微表情；

在所述第一微表情为说话微表情时，确认所述人脸在说话。

[权利要求 7] 如权利要求 6所述的基于生物特征的声源追踪方法，其特征在于，所述在所述人脸属于活体人脸时，判断所述人脸当前的第一微表情是否为说话微表情之后，还包括：

在预设时间范围之内检测到的所有第一微表情均不是说话微表情时，确认所述人脸一直未在说话，将该人脸标记为非追踪对象。

[权利要求 8] 如权利要求 6所述的基于生物特征的声源追踪方法，其特征在于，所述判断所述人脸当前的第一微表情是否为说话微表情，包括：提取所述第一微表情中的第一动作单元类型及序列；

获取数据库中预先存储的与说话微表情关联的第二动作单元类型及序列；

判断所述第一动作单元类型及序列是否与所述第二动作单元类型及序列匹配；

在所述第一动作单元类型及序列与所述第二动作单元类型及序列匹配时，确认所述人脸当前的第一微表情为说话微表情。

[权利要求 9] 如权利要求 1所述的基于生物特征的声源追踪方法，其特征在于，所述获取该人脸的说话音频，包括：

通过与所述人脸最近的麦克风或所述人脸正在使用的麦克风录制该人脸的说话音频。

[权利要求 10] 如权利要求 1所述的基于生物特征的声源追踪方法，其特征在于，所述在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象之前，还包括：

检测所述第一声纹特征与所述第二声纹特征的相似度是否超过相似度阈值；

在所述第一声纹特征与所述第二声纹特征的相似度超过相似度阈值时，确认所述第二声纹特征与所述第一声纹特征匹配；

在所述第一声纹特征与所述第二声纹特征的相似度未超过相似度阈值时，确认所述第二声纹特征与所述第一声纹特征不匹配，继续获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话。

[权利要求 11] 如权利要求 1所述的基于生物特征的声源追踪方法，其特征在于，所述在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象之后，包括：

调整与所述声源位置关联的摄像设备对所述追踪对象的拍摄参数；将所述摄像设备拍摄的所述追踪对象的视频显示在客户端的预设显示界面中。

[权利要求 12] 如权利要求 2所述的基于生物特征的声源追踪方法，其特征在于，所述在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象之后，包括：

[权利要求 13] 如权利要求 1所述的基于生物特征的声源追踪方法，其特征在于，所述在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象之后，包括：

获取摄像设备拍摄的所述追踪对象的第二微表情；根据所述第二微表情识别所述追踪对象的情绪类型；

根据所述情绪类型指示智能机器人做出与所述情绪类型对应的预设肢体动作。

[权利要求 14] 如权利要求 2所述的基于生物特征的声源追踪方法，其特征在于，所述在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象之后，包括：

[权利要求 15] 一种基于生物特征的声源追踪装置，其特征在于，包括：

第一提取模块，用于获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置；判断模块，用于获取所述声源位置周围预设范围内的人脸，并判断该人脸是否正在说话；

第二提取模块，用于若该人脸正在说话，获取该人脸的说话音频，并提取所述说话音频中的第二声纹特征；

设定模块，用于在确定所述第二声纹特征与所述第一声纹特征匹配时，将该人脸设定为追踪对象。

[权利要求 16] 如权利要求 15所述的基于生物特征的声源追踪装置，其特征在于，所述第一提取模块包括：

第一获取子模块，用于获取当前环境中的所有声源，并在所有声源中检测是否存在符合预设声源要求的声源；

第一提取子模块，用于在存在符合预设声源要求的声源时，提取符合预设声源要求的该声源的第一声纹特征；

第二获取子模块，用于通过声源定位运算对该声源进行定位，获取该声源的声源位置；

标记子模块，用于将所述声源位置以及所述第一声纹特征关联之后，在预设的电子地图中标记所述声源位置。

[权利要求 17] 如权利要求 16所述的基于生物特征的声源追踪装置，其特征在于，所述第一提取模块还包括：

第三获取子模块，用于获取所述电子地图中所述声源位置周围预设范围内分布的摄像设备；

分配子模块，用于根据预设的分配规则为所述声源位置分配所述摄像设备。

[权利要求 18] 如权利要求 17所述的基于生物特征的声源追踪装置，其特征在于，所述分配子模块包括：

第一检测单元，用于检测所述预设范围内分布的摄像设备是否被标记为未使用；

第二检测单元，用于在所述摄像设备被标记为未使用时，检测所述摄像设备是否可以拍摄到所述声源位置的人脸；

标记单元，用于在所述摄像设备可以拍摄到所述声源位置的人脸时，将所述摄像设备与所述声源位置关联，并将所述摄像设备标记为已使用。

[权利要求 19] 一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

[权利要求 20] 一个或多个存储有计算机可读指令的非易失性可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：获取当前环境中符合预设声源要求的声源，提取所述声源中的第一声纹特征，并标记该声源所在的声源位置；