WO2020119032A1 - 基于生物特征的声源追踪方法、装置、设备及存储介质 - Google Patents

基于生物特征的声源追踪方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2020119032A1
WO2020119032A1 PCT/CN2019/088820 CN2019088820W WO2020119032A1 WO 2020119032 A1 WO2020119032 A1 WO 2020119032A1 CN 2019088820 W CN2019088820 W CN 2019088820W WO 2020119032 A1 WO2020119032 A1 WO 2020119032A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
face
voiceprint feature
preset
tracking
Prior art date
Application number
PCT/CN2019/088820
Other languages
English (en)
French (fr)
Inventor
任婧
胡文成
曾燕玲
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020119032A1 publication Critical patent/WO2020119032A1/zh

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Definitions

  • the present application relates to the field of biological features, and in particular to a method, device, device, and storage medium for sound source tracking based on biological features.
  • Embodiments of the present application provide a biometric-based sound source tracking method, device, device, and storage medium.
  • the present application combines sound source localization, face detection, voiceprint recognition, and other technologies to achieve tracking of objects Tracking and positioning improves the positioning effect of tracking and improves the accuracy of tracking.
  • a biometric-based sound source tracking method includes:
  • the face is set as a tracking pair Elephant.
  • a sound source tracking device based on biological characteristics including:
  • a first extraction module configured to obtain a sound source that meets the requirements of a preset sound source in the current environment, extract the first soundprint feature in the sound source, and mark the sound source location where the sound source is located;
  • a judgment module configured to obtain a face within a preset range around the sound source position, and determine whether the face is speaking
  • a second extraction module used to obtain the speech audio of the face if the face is talking, and extract the second voiceprint feature in the speech audio
  • a setting module configured to set the face as a tracking object when determining that the second voiceprint feature matches the first voiceprint feature.
  • a computer device includes a memory, a processor, and computer-readable instructions stored in the memory and executable on the processor, and the processor implements the computer-readable instructions to implement the following steps :
  • the human face is set as a tracking object.
  • One or more non-volatile readable storage media storing computer readable instructions, which when executed by one or more processors, cause the one or more processors to execute as follows Steps: Obtain a sound source that meets the requirements of the preset sound source in the current environment, extract the first voiceprint feature in the sound source, and mark the sound source location where the sound source is located;
  • the face is set as a tracking pair Elephant.
  • FIG. 1 is a schematic diagram of an application environment of a biometric-based sound source tracking method in an embodiment of the present application
  • FIG. 2 is a flowchart of a biometric-based sound source tracking method in an embodiment of the present application
  • FIG. 3 is a flowchart of step S10 of a biological feature-based sound source tracking method in an embodiment of the present application
  • FIG. 4 is a biological feature-based sound source tracking method of step S106 in an embodiment of the present application
  • FIG. 5 is a flowchart of step S20 of a biometric-based sound source tracking method in an embodiment of the application
  • FIG. 6 is a biometric-based sound source tracking in an embodiment of the application Flow chart of step S202 of the method
  • FIG. 7 is a flow chart of a sound source tracking method based on biological characteristics in another embodiment of the present application;
  • FIG. 8 is a flowchart of a biometric-based sound source tracking method in yet another embodiment of the present application.
  • FIG. 9 is a functional block diagram of a biometric-based sound source tracking device in an embodiment of the present application.
  • FIG. 10 is a schematic diagram of a computer device in an embodiment of the present application.
  • the biometric-based sound source tracking method provided in the present application can be applied in an application environment as shown in FIG. 1, where a client (computer device) communicates with a server through a network.
  • the client includes, but is not limited to, various personal computers, notebook computers, smart phones, tablet computers, cameras, and portable wearable devices.
  • the server can be realized by an independent server or a server cluster composed of multiple servers.
  • FIG. 2 a method for tracking a sound source based on biometrics is provided. The method is applied to the server in FIG. 1 as an example for illustration, and includes the following steps:
  • S10 Acquire a sound source that meets the requirements of a preset sound source in the current environment, extract the first soundprint feature in the sound source, and mark the position of the sound source where the sound source is located.
  • the current environment refers to a current environment (such as a meeting, a performance, a hosting environment, etc.) that needs to determine and continuously track the tracking object currently speaking, and can also be used to interact with the tracking object Therefore, it is first necessary to determine the environment of the tracking object); in the current environment, microphones that can capture the sound source signal are distributed at multiple locations according to requirements.
  • a current environment such as a meeting, a performance, a hosting environment, etc.
  • a plurality of camera devices (such as cameras, mobile terminals, etc.) that can shoot videos and images are distributed in the current environment. Understandably, each of the camera devices can be rotated arbitrarily and/or the position of each camera device can also be adjusted within a certain range (setting the camera device to adjust its height, left and right, front and rear, tilt angle, etc. Relationship) to achieve the effect that all angles in all spaces in the current environment can be clearly captured.
  • S20 Obtain a face within a preset range around the sound source position, and determine whether the face is speaking
  • a picture near the sound source position may be captured by the camera device, and then the face in the picture is extracted. At the same time, it is necessary to further confirm whether the face is speaking (it can be recognized whether it is speaking according to the micro-expression of the face); when it is speaking, by comparing the second voiceprint feature of the face that is speaking with the above The first voiceprint feature of the sound source is matched to confirm whether it is a tracking object, and when the face is not speaking, it is excluded from the tracking object.
  • a second voiceprint feature in the speaking audio may be extracted, so as to match the second voiceprint feature with the first voiceprint feature, and further Track objects.
  • the speaker face that matches the second voiceprint feature of the speaker face with the first voiceprint feature of the sound source is confirmed as the tracking object corresponding to the sound source, and then the camera device Speak face continues Tracking.
  • the biometric-based sound source tracking method provided in this application first obtains a sound source that meets the requirements of a preset sound source in the current environment, extracts the first soundprint feature in the sound source, and marks the sound source The location of the sound source; acquiring a face within a preset range around the location of the sound source, and determining whether the face is speaking; if the face is speaking, acquiring the speech audio of the face, and extracting the speech audio
  • the second voiceprint feature in when it is determined that the second voiceprint feature matches the first voiceprint feature, the face is set as a tracking target.
  • This application combines sound source localization, face detection, voiceprint recognition and other technologies to achieve tracking and positioning of tracking objects, which improves the positioning effect of tracking and improves the accuracy of tracking.
  • the step S10 includes:
  • S101 Obtain all sound sources in the current environment, and detect whether there is a sound source that meets the requirements of a preset sound source among all sound sources.
  • the sound source signals can be collected according to the microphones provided at various positions as described above, and then effective audio signal detection can be performed on all the collected sound source signals, and many of the detected sounds can also be detected through the ManyEars technology.
  • the sound sources are separated to obtain multiple independent sound sources.
  • the sound source that meets the requirements of the preset sound source refers to a sound source in a preset volume range, and the duration of the sound source in the preset volume range is greater than the preset duration.
  • the preset volume range can be set according to requirements, and the minimum and maximum values of the volume range can be set. Those exceeding the maximum value of the volume range are regarded as noise. Excluded from the range of sound sources that meet the requirements of the preset sound source and less than the minimum value of the volume level, it may be considered that it is not a sound source emitted by a tracking object that needs to be tracked in the current environment. Understandably, the volume range can be set according to different current environments, and the possible volume levels of persons (tracking objects) who are mainly involved in the environment can also be considered at the same time. The preset duration can also be set according to the possible speech duration of the tracking object in the current environment.
  • the sound source in the current environment is continuously acquired for detection at this time.
  • S102 When there is a sound source that meets the requirements of the preset sound source, extract the first voiceprint feature of the sound source that meets the requirements of the preset sound source. That is, when a sound source that meets the requirements of the preset sound source is detected, the first voiceprint feature in the sound source may be extracted, so as to confirm the tracking object based on the first voiceprint feature later. [0060] Understandably, in the sound source that meets the requirements of the preset sound source, one or more first voiceprint features may be extracted (for example, when more than two persons are in a conversation and the sound source There are more than two sounds that meet the requirements of the preset sound source. At this time, the first voiceprint feature of each sound that meets the requirements of the preset sound source is extracted.
  • the number of the first voiceprint features extracted is obtained, and when a camera device is assigned to the sound source position in subsequent step S106, the camera device assigned to the sound source position The number of is greater than or equal to the number of the first voiceprint features.
  • S103 Locate the sound source through a sound source localization operation to obtain a sound source position of the sound source. Understandably, when it is detected that a certain sound source meets the requirements of the preset sound source, the above sound source may be located by sound source localization calculation in the ManyEars technology to obtain the sound source position of the sound source.
  • S104 After associating the sound source position and the first voiceprint feature, mark the sound source position in a preset electronic map.
  • the tracking object that needs to be tracked by the sound source position is the tracking object corresponding to the first voiceprint feature, and at this time, the sound source position and the first A voiceprint feature is associated to facilitate finding a tracking object according to the first voiceprint feature at the sound source location.
  • each sound source position may be a specific real-time position after randomly locating one of the above sound sources by sound source localization operation in ManyEars technology (randomly generate a unique number of the sound source position); also It may be a sound source position with a unique number pre-planned in the electronic map (for example, it is divided into multiple blocks in advance in the electronic map, and each block is given a unique number as long as the After the sound source is located, it is confirmed that it belongs to one of the blocks, that is, the position of the block is taken as the sound source position of the sound source, and the unique number of the block is taken as the number of the sound source position).
  • an electronic map (stereo map or plane map) in the current environment has been preset in the server, and the sound can be marked in the electronic map after the location of the sound source is located Source position; as a preference, the mark marked on the sound source position at this time represents that the sound source position has not been assigned an imaging device.
  • the mark marked on the sound source position will be switched to represent the sound source position. Assign the tag of the camera device.
  • the step S104 further includes, [0067] S105: Acquire camera devices distributed within a preset range around the sound source position in the electronic map.
  • the preset range refers to a preset range that can determine the imaging device within the sound source position, and within the range, the imaging device can better capture the sound source position Tracking objects; for example, the preset range is within a circle with the sound source position as the center and a radius of X meters.
  • the value of X can be, but not limited to, 1 meter, 2 meters, 3 meters, and so on.
  • each of the camera devices has a unique identifier (such as a device number), and each of the sound source locations also has a unique number.
  • a unique identifier such as a device number
  • each of the sound source locations also has a unique number.
  • only the unique identifier of the camera device may be displayed on the electronic map And the unique number of the sound source location.
  • the camera device within the preset range may be highlighted with different display parameters, for example, the unique identifier of the camera device within the preset range may be bolded or displayed in different colors , Font and background color are displayed.
  • S106 Assign the camera device to the sound source position according to a preset assignment rule.
  • the imaging device allocated to the sound source position is used to track the sound source at the sound source position.
  • the camera device After assigning the camera device to the sound source position according to a preset assignment rule, change the sound source position marker to the assigned camera device, and at the same time, assign the camera device (only) to the sound source position (Identification) is associated with the position (unique number) of the sound source.
  • the camera device may also be marked as used in the electronic map.
  • the camera device is marked as unused in the electronic map.
  • the imaging devices are allocated according to a preset allocation rule, and the various states of the sound source device and the imaging device are separately marked, and the imaging devices can be allocated in an orderly manner to achieve faster and Accurately clarifying the tracking range and tracking object improves the tracking efficiency of each camera device, and also prevents all camera devices from tracking all sound sources at the same time without any target.
  • the step S106 includes:
  • S1061 Detect whether the imaging devices distributed within the preset range are marked as unused.
  • the use status of the imaging device may be better distinguished according to the mark of the imaging device, so as to facilitate the deployment of the imaging device.
  • step S1061 the method further includes:
  • the camera device may be a camera installed on a mobile terminal (including a smart robot or a smart phone, etc.).
  • a mobile terminal at another position can be instructed to move to the preset range, and the human face at the sound source position is photographed through its camera.
  • the step S20 includes:
  • S201 Acquire a human face within a preset range around the sound source position captured by a camera device, and determine whether the human face belongs to a living human face by silent live detection.
  • a picture near the sound source position may be captured by a camera device, and then the captured picture is continuously input into a face detection algorithm to perform face recognition and detect whether it is a face. At the same time, it is also necessary to detect whether the human face is a living human face through silent living body detection, to avoid the situation where the human face photographed by the camera device is a non-living human face (such as a human face in a poster on a wall).
  • the specific range indicated within the preset range around the sound source position may also be preset in the server, for example The preset range around the sound source position refers to the preset range described in S105.
  • the camera device can rotate at any angle and/or the position of each camera device can also be adjusted within a certain range (setting and adjusting the camera device to adjust its positional relationship such as height, left and right, front and rear, tilt angle, etc.)
  • a certain range setting and adjusting the camera device to adjust its positional relationship such as height, left and right, front and rear, tilt angle, etc.
  • S202 When the human face belongs to a living human face, determine whether the current first micro-expression of the human face is a spoken micro-expression.
  • the human face when the human face belongs to a living human face, it indicates that the human face may be a tracking object. In this case, it is necessary to further confirm according to the audio when the human face speaks. Therefore, it is first determined whether the person is speaking based on the first micro-expression of the face. After performing micro-expression to identify whether the human face is speaking, matching the first voiceprint feature of the sound source with the second voiceprint feature of the speaker's face can accurately confirm the tracking object corresponding to the sound source.
  • S203 when the first micro-expression is a speaking micro-expression, confirming that the human face is speaking.
  • the process of determining whether the extracted first micro-expression is a speaking micro-expression can be continued for a preset time range (so as not to track the object when it is photographed by the camera device, just right During a temporary pause in the speaking process), if it is detected that the first micro-expression is a speaking micro-expression within a preset time range, it can be considered that the face is speaking.
  • S204 When all the first micro-expressions detected within the preset time range are not speaking micro-expressions, confirm that the human face has not been talking, and mark the human face as a non-tracking object. In this case, you can directly capture the next face and continue checking in step S201.
  • the tracking target can be confirmed by silent living body detection and micro-expression, which improves the tracking accuracy.
  • the judging whether the current first micro-expression of the face is a speaking micro-expression includes:
  • S2021 Extract the first action unit type and sequence in the first micro-expression.
  • the type of the first action unit may include an internationally-used part and a type of action unit related to lips when speaking (such as shown in Table 1 below), etc.
  • the first action sheet The meta-sequence refers to the order in which the first action units appear in the first micro-expression.
  • S2022 Acquire the type and sequence of the second action unit pre-stored in the database and associated with the speaking micro-expression.
  • the type and sequence of the second action unit (including multiple action units) corresponding to the speaking micro-expression is pre-stored in the database, as long as the type and sequence of the first action unit extracted in the step S2021 are The sequence is compared with the type and sequence of the second action unit corresponding to the speaking micro-expression stored in the database to confirm whether the type of the first micro-expression is the speaking micro-expression.
  • S2023 Determine whether the type and sequence of the first action unit match the type and sequence of the second action unit.
  • the first action unit type and sequence extracted in step S2021 include the second action unit type corresponding to the speaking micro-expression stored in the database (It may also include other action units), and the sequence of the two is also the same, that is, the type of the first micro-expression is a speaking micro-expression. In another aspect of this embodiment, it may also be only in the step S2021 When the type and sequence of the extracted first action unit correspond exactly to the type and sequence of the second action unit of the micro-expression stored in the database (no more or less one action unit, and the sequence needs to be consistent) Only then does the type of the first micro-expression be a speaking micro-expression.
  • step S30 the acquiring of the audio of the face is specifically: acquiring the face recorded by the microphone closest to the face and/or being used by the face Speaking audio.
  • the microphone closest to the face refers to the microphone closest to the sound source position or closest to the imaging device associated with the sound source position in the electronic map. Understandably, in this embodiment, each of the microphones may also have a unique identifier in the electronic map as the camera device, and the unique identifier of the microphone may be displayed in the electronic map for the server to retrieve,
  • the marking of the use status of the microphone can also refer to the above marking for the imaging device. After the microphone is used, it can be marked as used on the electronic map, and the microphone and the sound source can be marked. The position (or the face of the sound source position) is associated; after it is unassociated, its mark can also be replaced with unused.
  • each microphone will be marked as used when it is used, and if the microphone is used at the sound source location , It means that it has already been associated with the sound source position. In this case, it is not necessary to select, and the speech audio recorded by the microphone is directly obtained, that is, the speech audio corresponding to the face (in this embodiment, each sound source position is only There is a tracking object talking, if there are multiple microphones in use, each microphone can be considered to correspond to a tracking object).
  • the second voiceprint feature in the speech audio may be extracted, so as to match the second voiceprint feature with the first voiceprint feature, and then track Object
  • step S40 including: [0107] detecting whether the similarity between the first voiceprint feature and the second voiceprint feature exceeds a similarity threshold.
  • the similarity threshold may be preset according to actual conditions, for example, the similarity threshold is above 0.6.
  • step S40 is entered, and the face to which the second voiceprint feature belongs is set as a tracking target.
  • step S40 the method includes:
  • the shooting parameters for shooting the tracking target may be adjusted in the imaging device associated with the position of the sound source.
  • the preset body position of the tracked object such as 1/2 of the body ratio
  • the preset body position of the tracked object is located in the middle of the screen of the captured video, and its sharpness is adjusted to meet the preset requirements.
  • S60 Display the video of the tracking object captured by the camera device on a preset display interface of the client.
  • the preset display interface refers to a display interface allocated to the sound source position or the tracking object in the current environment.
  • the preset display interface is also associated with the position of the sound source or the tracking object, and the camera device directly transmits the captured video to the server and displays it on a preset part in the preset display interface.
  • the display interface multiple video frames can be displayed at the same time, but the video frames of the tracking object being photographed can be displayed at a preset scale in a preset display position in the display screen; for example, photographing the tracking object There is only one video screen.
  • the display scale can be determined according to the area of the remaining display position and the number of other video images.
  • the two or more video frames of the tracking object can also be displayed at a preset ratio in the preset display position in the display screen, I will not repeat them here.
  • the avatar of the tracking object and its basic information are pre-stored in the database (for example, the current environment is a conference environment, and the database Pre-stored the avatars and basic information of all participants), after matching the avatar with the face of the tracked object, confirm the identity of the tracked object, and part or all of the basic information of the tracked object Displayed in the preset display interface.
  • the audio in the captured video of the tracking object may also be parsed, converted into text, and then output and displayed on the preset display interface.
  • the audio can also be synchronously translated, and the translated audio can be played or the translated audio can be converted into text and displayed on the preset display interface.
  • the camera device is a camera on an intelligent robot.
  • the method further includes:
  • the embodiments of the present application are applied to a current environment in which an intelligent robot interacts with a tracking object.
  • the intelligent robot may determine the tracking object and The second micro-expression extracted from the video interacts with it.
  • actions corresponding to various micro-expression types are pre-stored in the database Unit type and sequence, as long as the type and sequence of the action unit are extracted from the second micro-expression and compared with the action unit type and sequence corresponding to each micro-expression type stored in the database, you can confirm The type of the micro-expression, and then determine the emotion type of the tracked object. For the comparison process, reference may be made to the above step S20, which will not be repeated here.
  • S90 Instruct the intelligent robot to perform a preset limb motion corresponding to the emotion type according to the emotion type.
  • the intelligent robot after confirming the emotion type of the tracked object, since all the The countermeasures of the intelligent robot in the case where the tracked object is in various emotion types, that is, set the physical actions that the intelligent robot should make under various emotion types, for example, the emotion type of the tracked object is Happy (the micro-expression type is laugh), at this time, the intelligent robot also shows that its limb movements are shaking and rotating the body suddenly, if the emotion type of the tracked object is unhappy (the micro-expression type is crying) At this time, the intelligent robot also expresses its limb movement as embracing the tracking object.
  • This embodiment enables the intelligent robot to interact with the tracking object, making human-computer interaction more interesting
  • a biometric-based sound source tracking device is provided.
  • the biometric-based sound source tracking device is the same as the biometric-based sound source tracking method 1 in the foregoing embodiment.
  • the biometric-based sound source tracking device includes:
  • the first extraction module 11 is configured to obtain a sound source that meets the requirements of a preset sound source in the current environment, extract the first voiceprint feature in the sound source, and mark the sound source location where the sound source is located;
  • the judgment module 12 is used to obtain a face within a preset range around the sound source position, and determine whether the face is speaking;
  • the second extraction module 13 is used to obtain the speech audio of the face if the face is talking, and extract the second voiceprint feature in the speech audio;
  • the setting module 14 is configured to set the face as a tracking object when determining that the second voiceprint feature matches the first voiceprint feature.
  • the first extraction module 11 includes:
  • a first acquisition submodule configured to acquire all sound sources in the current environment, and detect whether there is a sound source that meets the requirements of the preset sound source among all the sound sources;
  • the first extraction submodule is configured to extract the first voiceprint feature of the sound source that meets the requirements of the preset sound source when there is a sound source that meets the requirements of the preset sound source;
  • a second obtaining submodule configured to locate the sound source through a sound source localization operation, and obtain a sound source position of the sound source
  • a marking submodule configured to mark the position of the sound source in a preset electronic map after associating the position of the sound source and the first voiceprint feature.
  • the first extraction module 11 further includes: [0134] a third acquisition sub-module for acquiring camera devices distributed within a preset range around the position of the sound source in the electronic map;
  • an allocation submodule configured to allocate the imaging device to the sound source position according to a preset allocation rule.
  • the allocation submodule includes:
  • a second detection unit configured to detect whether the human face of the sound source can be captured by the camera device when the camera device is marked as unused;
  • a labeling unit configured to associate the camera device with the sound source position when the camera device can capture a human face at the sound source position, and mark the camera device as used.
  • the allocation sub-module further includes:
  • an instruction unit configured to instruct the camera devices in other positions to move into the preset range or expand the preset range when the camera devices are marked as used.
  • the judgment module 12 includes:
  • a first detection sub-module configured to acquire a human face within a preset range around the sound source position photographed by the camera device, and determine whether the human face belongs to a living human face through silent live detection;
  • a first confirmation submodule configured to confirm that the human face is speaking when the first micro-expression is a speaking micro-expression.
  • the judgment module 12 further includes:
  • a second confirmation sub-module which is used to confirm that the human face has not been talking when all the first micro-expressions detected within a preset time range are not speaking micro-expressions, and mark the human face as non-speaking Track objects.
  • the determination sub-module includes:
  • an extraction unit configured to extract the first action unit type and sequence in the first micro-expression
  • an obtaining unit configured to obtain the type and sequence of the second action unit pre-stored in the database and associated with the speaking micro-expression
  • a judging unit for judging whether the type and sequence of the first action unit is the same as the class of the second action unit Type and sequence matching;
  • a confirmation unit configured to confirm that the current first micro-expression of the face is a speaking micro-expression when the first action unit type and sequence matches the second action unit type and sequence.
  • the second extraction module 13 includes:
  • a fourth acquisition submodule configured to acquire the speech audio of the face recorded by the microphone closest to the face and/or being used by the face.
  • the device further includes:
  • a detection module configured to detect whether the similarity between the first voiceprint feature and the second voiceprint feature exceeds a similarity threshold
  • a confirmation module configured to confirm that the second voiceprint feature matches the first voiceprint feature when the similarity between the first voiceprint feature and the second voiceprint feature exceeds a similarity threshold ;
  • a return module configured to confirm the second voiceprint feature and the first voiceprint feature when the similarity between the first voiceprint feature and the second voiceprint feature does not exceed a similarity threshold If it does not match, continue to obtain a face within a preset range around the sound source position, and determine whether the face is speaking.
  • the device further includes:
  • an adjustment module configured to adjust the shooting parameters of the tracking object by the camera device associated with the position of the sound source
  • a display module configured to display the video of the tracking object captured by the camera device in a preset display interface of the client.
  • the device includes:
  • an acquisition module configured to acquire a second micro-expression of the tracking object captured by the camera device
  • an identification module for identifying the emotion type of the tracked object according to the second micro-expression
  • An instruction module configured to instruct the intelligent robot to perform a preset limb motion corresponding to the emotion type according to the emotion type.
  • each module in the biometric-based sound source tracking device may be implemented in whole or in part by software, hardware, and a combination thereof.
  • the above-mentioned modules may be embedded in hardware or independent of the processor in the computer device, or may be stored in software in The memory in the computer device is convenient for the processor to call and execute the operations corresponding to the above modules.
  • a computer device may be a server, and an internal structure diagram thereof may be as shown in FIG.
  • the computer equipment includes a processor, memory, network interface, and database connected by a system bus.
  • the processor of the computer device is used to provide calculation and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and internal memory.
  • the non-volatile storage medium stores an operating system, computer-readable instructions, and a database.
  • the internal memory provides an environment for the operation of the operating system and computer-readable instructions in the non-volatile storage medium.
  • the computer-readable instructions are executed by the processor to implement a biometric-based sound source tracking method described in any of the foregoing embodiments.
  • a computer device including a memory, a processor, and computer-readable instructions stored on the memory and executable on the processor, and the processor implements the computer-readable instructions to implement the following steps :
  • the human face is set as a tracking object.
  • one or more non-volatile readable storage media storing computer-readable instructions are provided, the non-volatile readable storage media storing computer-readable instructions, the computer When the readable instructions are executed by one or more processors, the one or more processors implement the following steps:
  • the face is set as a tracking pair Elephant.
  • Non-volatile memory may include read-only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • Volatile memory can include random access memory (RAM) or external cache memory.
  • RAM random access memory
  • DRAM dynamic RAM
  • SDRAM synchronous DRAM
  • DDRSDRAM double data rate SDRAM
  • ESDRAM enhanced SDRAM
  • SLDRAM synchronous chain DRAM
  • RDRAM memory bus direct RAM
  • DRAM direct memory bus dynamic RAM
  • RDRAM memory bus dynamic RAM

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

本申请公开了一种基于生物特征的声源追踪方法、装置、设备及存储介质,所述方法包括:获取当前环境中符合预设声源要求的声源,提取所述声源中的第一声纹特征,并标记该声源所在的声源位置;获取所述声源位置周围预设范围内的人脸,并判断该人脸是否正在说话;若该人脸正在说话,获取该人脸的说话音频,并提取所述说话音频中的第二声纹特征;在确定所述第二声纹特征与所述第一声纹特征匹配时,将该人脸设定为追踪对象。本申请结合声源定位、人脸检测和声纹识别等来实现对追踪对象的追踪定位,提升了追踪的定位效果,提高了追踪的准确性。

Description

基于生物特征的声源追踪方法、 装置、 设备及存储介质
[0001] 本申请以 2018年 12月 10日提交的申请号为 201811504484.8, 名称为“基于生物特 征的声源追踪方法、 装置、 设备及存储介质”的中国发明专利申请为基础, 并要 求其优先权。
技术领域
[0002] 本申请涉及生物特征领域, 具体涉及一种基于生物特征的声源追踪方法、 装置 、 设备及存储介质。
[0003] 背景技术
[0004] 目前, 随着科学技术的发展, 在一些大型会展等现场, 如何对发言对象等追踪 对象进行智能追踪, 是一个很需要解决的问题, 由于智能机器人的快速发展, 人们也可能也会希望智能机器人能够实现此类追踪的智能操作, 比如, 通过声 源定位技术实现对追踪对象的定位等。 但是, 在现有技术中, 上述的智能追踪 并没有得到很好的实现, 比如, 通过智能机器人对追踪对象进行定位追踪一般 都是通过智能机器人的某一方面的技术来实现的, 而这种实现方式往往比较片 面, 准确性低, 导致定位效果比较差。
[0005] 申请内容
[0006] 本申请实施例提供一种基于生物特征的声源追踪方法、 装置、 设备及存储介质 , 本申请结合声源定位、 人脸检测和声纹识别等多方面技术来实现对追踪对象 的追踪定位, 提升了追踪的定位效果, 提高了追踪的准确性。
[0007] 一种基于生物特征的声源追踪方法, 包括:
[0008] 获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位置;
[0009] 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话;
[0010] 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的第二声 纹特征;
[0011] 在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定为追踪对 象。
[0012] 一种基于生物特征的声源追踪装置, 包括:
[0013] 第一提取模块, 用于获取当前环境中符合预设声源要求的声源, 提取所述声源 中的第一声纹特征, 并标记该声源所在的声源位置;
[0014] 判断模块, 用于获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否 正在说话;
[0015] 第二提取模块, 用于若该人脸正在说话, 获取该人脸的说话音频, 并提取所述 说话音频中的第二声纹特征;
[0016] 设定模块, 用于在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人 脸设定为追踪对象。
[0017] 一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处 理器上运行的计算机可读指令, 所述处理器执行所述计算机可读指令时实现如 下步骤:
[0018] 获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位置;
[0019] 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话;
[0020] 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的第二声 纹特征;
[0021] 在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定为追踪对 象。
[0022] 一个或多个存储有计算机可读指令的非易失性可读存储介质, 所述计算机可读 指令被一个或多个处理器执行时, 使得所述一个或多个处理器执行如下步骤: 获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位置;
[0023] 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话;
[0024] 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的第二声 纹特征;
[0025] 在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定为追踪对 象。
[0026] 本申请的一个或多个实施例的细节在下面的附图和描述中提出, 本申请的其他 特征和优点将从说明书、 附图以及权利要求变得明显。
[0027] 附图说明
[0028] 为了更清楚地说明本申请实施例的技术方案, 下面将对本申请实施例的描述中 所需要使用的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本申 请的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提 下, 还可以根据这些附图获得其他的附图。
[0029] 图 1是本申请一实施例中基于生物特征的声源追踪方法的应用环境示意图; [0030] 图 2是本申请一实施例中基于生物特征的声源追踪方法的流程图;
[0031] 图 3是本申请一实施例中基于生物特征的声源追踪方法的步骤 S10的流程图; [0032] 图 4是本申请一实施例中基于生物特征的声源追踪方法的步骤 S106的流程图; [0033] 图 5是本申请一实施例中基于生物特征的声源追踪方法的步骤 S20的流程图; [0034] 图 6是本申请一实施例中基于生物特征的声源追踪方法的步骤 S202的流程图; [0035] 图 7是本申请另一实施例中基于生物特征的声源追踪方法的流程图;
[0036] 图 8是本申请又一实施例中基于生物特征的声源追踪方法的流程图;
[0037] 图 9是本申请一实施例中基于生物特征的声源追踪装置的原理框图;
[0038] 图 10是本申请一实施例中计算机设备的示意图。
[0039] 具体实施方式
[0040] 下面将结合本申请实施例中的附图, 对本申请实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是本申请一部分实施例, 而不是全部的实 施例。 基于本申请中的实施例, 本领域普通技术人员在没有作出创造性劳动前 提下所获得的所有其他实施例, 都属于本申请保护的范围。
[0041] 本申请提供的基于生物特征的声源追踪方法, 可应用在如图 1的应用环境中, 其中, 客户端 (计算机设备) 通过网络与服务器进行通信。 其中, 客户端 (计 算机设备) 包括但不限于为各种个人计算机、 笔记本电脑、 智能手机、 平板电 脑、 摄像头和便携式可穿戴设备。 服务器可以用独立的服务器或者是多个服务 器组成的服务器集群来实现。 [0042] 在一实施例中, 如图 2所示, 提供一种基于生物特征的声源追踪方法, 以该方 法应用在图 1中的服务器为例进行说明, 包括以下步骤:
[0043] S10, 获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声纹 特征, 并标记该声源所在的声源位置。
[0044] 其中, 所述当前环境是指需要确定当前正在发言的追踪对象并对其进行持续追 踪的当前环境 (比如会议、 演出、 主持环境等, 亦可以用于需要与所述追踪对 象进行互动, 因此首先需要确定追踪对象的环境) ; 所述当前环境中根据需求 在多个位置分布设有可以捕获声源信号的麦克风。
[0045] 同时, 在该当前环境中分布设有多个可以进行拍摄视频和图像的摄像设备 (比 如摄像头, 移动终端等) 。 可理解地, 各所述摄像设备均可以随意旋转角度和 / 或各所述摄像设备的位置亦可以在一定范围内进行调整 (设定调整摄像设备以 调整其高低、 左右前后、 倾斜角度等位置关系) , 以达到所述当前环境中的所 有空间的任何角度均可以被清晰地拍摄到的效果即可。
[0046] S20, 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话
[0047] 也即, 首先可通过摄像设备捕捉声源位置附近的图片, 之后提取所述图片中的 人脸。 同时, 需要进一步根据确认该人脸是否在说话 (可以根据该人脸的微表 情进行识别其是否正在说话) ; 在其正在说话时, 通过将正在说话的人脸的第 二声纹特征与上述的声源的第一声纹特征进行匹配, 以确认其是否为追踪对象 , 在该人脸并未在说话时, 将其排除出追踪对象的范围。
[0048] S30, 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的 第二声纹特征。
[0049] 在该步骤中, 在确认该人脸正在说话时, 可以提取该说话音频中的第二声纹特 征, 以便于将该第二声纹特征与上述第一声纹特征进行匹配, 进而追踪对象。
[0050] S40, 在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定为 追踪对象。
[0051] 也即, 将说话人脸的第二声纹特征与所述声源的第一声纹特征匹配的说话人脸 , 确认为与该声源对应的追踪对象, 进而通过摄像设备对该说话人脸进行持续 追踪。
[0052] 本申请提供的基于生物特征的声源追踪方法, 首先获取当前环境中符合预设声 源要求的声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位 置; 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话; 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的第二声 纹特征; 在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定 为追踪对象。 本申请结合声源定位、 人脸检测和声纹识别等多方面技术来实现 对追踪对象的追踪定位, 提升了追踪的定位效果, 提高了追踪的准确性。
[0053] 在一实施例中, 如图 3所示, 所述步骤 S10包括:
[0054] S101 , 获取当前环境中的所有声源, 并在所有声源中检测是否存在符合预设声 源要求的声源。
[0055] 在本实施例中, 可根据上述设置在各个位置的麦克风来采集声源信号, 之后可 对采集的所有声源信号进行有效音频信号检测, 并且还可通过 ManyEars技术将 检测到的多个声源进行分离以得到多个独立的声源。
[0056] 其中, 符合所述预设声源要求的声源, 是指在预设音量大小范围中, 且声源在 预设音量大小范围中的持续时长大于预设时长的声源。
[0057] 其中, 预设音量大小范围可以根据需求进行设定, 可以设定该音量大小范围的 最小值和最大值, 超出所述音量大小范围的最大值的即视为噪音, 此时将其排 除在符合所述预设声源要求的声源的范围之外, 小于所述音量大小的最小值的 , 可以视为其不是该当前环境中所需要进行追踪的追踪对象所发出的声源。 可 理解地, 所述音量大小范围可以根据当前环境的不同进行设定, 亦可以同时考 虑在该环境中主要参与的人员 (追踪对象) 的可能音量大小。 所述预设时长亦 同样可以根据当前环境中追踪对象可能的发言时长来进行设定。
[0058] 进一步地, 在不存在符合预设声源要求的声源时, 此时继续获取当前环境中的 声源进行检测。
[0059] S102, 在存在符合预设声源要求的声源时, 提取符合预设声源要求的该声源的 第一声纹特征。 也即, 在检测到符合预设声源要求的声源时, 可以提取该声源 中的第一声纹特征, 以便于在后续根据该第一声纹特征来确认追踪对象。 [0060] 可理解地, 在所述符合预设声源要求的声源中, 可以提取一个或者多个第一声 纹特征 (比如, 在有两个以上人员在进行对话, 且该声源中存在两个以上符合 预设声源要求的声音, 此时提取每个符合预设声源要求的声音的第一声纹特征 , 此时追踪对象即为两个以上) , 此时, 在检测到提取的第一声纹特征为两个 以上时, 获取提取的第一声纹特征的数量, 并在后续步骤 S106中为所述声源位 置分配摄像设备时, 为该声源位置分配的摄像设备的数量大于或等于所述第一 声纹特征的数量。
[0061] S103 , 通过声源定位运算对该声源进行定位, 获取该声源的声源位置。 可理解 地, 当检测到某个声源满足所述预设声源要求时, 可通过 ManyEars技术中的声 源定位运算对上述某个声源进行定位, 以获取该声源的声源位置。
[0062] S 104 将所述声源位置以及所述第一声纹特征关联之后, 在预设的电子地图中 标记所述声源位置。
[0063] 可理解地, 此时, 所述声源位置所需要进行追踪的追踪对象, 即为与所述第一 声纹特征对应的追踪对象, 此时, 需要将该声源位置与该第一声纹特征关联, 以便于在该声源位置根据该第一声纹特征找寻追踪对象。
[0064] 作为优选, 每一个声源位置可以是由通过 ManyEars技术中的声源定位运算对上 述某个声源进行定位之后的具体的实时位置 (随机生成该声源位置的唯一编号 ) ; 亦可以是在所述电子地图中预先规划好的具有唯一编号的声源位置 (比如 , 在所述电子地图中预先将其分隔为多个区块, 将每个区块给予一个唯一编号 , 只要该声源定位之后确认属于其中一个区块中, 即将该区块所在位置作为该 声源的声源位置, 将该区块的唯一编号作为该声源位置的编号) 。
[0065] 在本实施例中, 在服务器中已经预置了该当前环境中的电子地图 (立体地图或 者平面地图) , 可以在定位到该声源位置之后, 在所述电子地图中标记该声源 位置; 作为优选, 此时标记在所述声源位置上的标记, 代表着该声源位置尚未 分配摄像设备。 在后续步骤 S106中为所述声源位置分配用于对该声源位置的追 踪对象进行追踪的摄像设备之后, 标记在所述声源位置上的标记, 随即会切换 为代表该声源位置已分配摄像设备的标记。
[0066] 在另一实施例中, 如图 3所示, 所述步骤 S 104之后还包括, [0067] S105 , 获取所述电子地图中所述声源位置周围预设范围内分布的摄像设备。
[0068] 所述预设范围是指预先设定的一个可以确定所述声源位置内的摄像设备的范围 , 在该范围内, 所述摄像设备可以较佳地拍摄到所述声源位置的追踪对象; 比 如, 所述预设范围为以所述声源位置为圆心, 半径为 X米的圆内。 X的取值可以 但不限于 1米、 2米、 3米等。
[0069] 可理解地, 各所述摄像设备都有唯一标识 (比如设备编号) , 各所述声源位置 也均具有唯一编号, 此时可以在电子地图中仅显示所述摄像设备的唯一标识和 所述声源位置的唯一编号。 且在所述预设范围内的所述摄像设备可以以不同的 显示参数突出显示, 比如, 可以将所述预设范围内的所述摄像设备的唯一标识 加粗显示或将其以不同的颜色、 字体和背景色进行显示。
[0070] S106 , 根据预设的分配规则为所述声源位置分配所述摄像设备。
[0071] 其中, 分配至所述声源位置的所述摄像设备用于追踪该声源位置的声源。 在根 据预设的分配规则为所述声源位置分配所述摄像设备之后, 将所述声源位置标 记更改为已分配摄像设备, 同时将分配至所述声源位置的所述摄像设备 (唯一 标识) 与该声源位置 (唯一编号) 关联, 此时所述摄像设备在所述电子地图中 亦可以被标记为已使用。 在对所述声源位置的追踪结束之后, 去除对所述声源 位置的所有标记 (或标记为未出现追踪对象) ; 同时解除所述声源位置与所述 摄像设备的关联, 此时所述摄像设备在所述电子地图中被标记为未使用。
[0072] 在本实施例中, 根据预设的分配规则去分配摄像设备, 且分别对声源设备与摄 像设备的各种不同状态进行标记, 可以更有序分配各摄像设备, 以更快速和准 确地明确追踪范围及追踪对象, 提升了每个摄像设备的追踪效率, 也避免了所 有摄像设备全部无目标地全部同时去追踪某一个声源。
[0073] 在一实施例中, 如图 4所示, 所述步骤 S106, 包括:
[0074] S1061, 检测所述预设范围内分布的摄像设备是否被标记为未使用。
[0075] S1062, 在所述摄像设备被标记为未使用时, 检测所述摄像设备是否可以拍摄 到所述声源位置的人脸。
[0076] S1063 , 在所述摄像设备可以拍摄到所述声源位置的人脸时, 将所述摄像设备 与所述声源位置关联, 并将所述摄像设备标记为已使用。 [0077] 上述过程中, 首先获取所述预设范围内被标记为未使用的摄像设备, 再获取上 述各未使用的所述摄像设备中可以拍摄到所述声源位置的人脸的一个或多个摄 像设备, 之后将其均分配给所述声源位置; 可理解地, 在分配给所述声源位置 的摄像设备为多个时, 若在步骤 S40中确认追踪对象, 此时, 可以仅保留必要的 一个摄像设备以持续追踪所述追踪对象, 而解除其他摄像设备与所述声源位置 的关联, 并将解除关联的所述摄像设备重新标记为未使用。 也即, 在追踪过程 中, 也可以根据需求调整与该声源位置关联的摄像设备。 可理解地, 所述摄像 设备的标记亦可以由用户人工标记
[0078] 在本实施例中, 可以根据摄像设备的标记更好地区分摄像设备的使用状态, 方 便对于所述摄像设备进行调配。
[0079] 在一实施例中, 如图 4所示, 所述步骤 S1061之后, 还包括:
[0080] S1064, 在所述摄像设备均被标记为已使用时, 指示其他位置的所述摄像设备 移动至所述预设范围中, 或扩大所述预设范围。
[0081] 在本实施例的一方面, 所述摄像设备可以为移动终端 (包括智能机器人或智能 手机等) 上安装的摄像头, 此时, 若所述预设范围中并不存在可分配给所述声 源位置的摄像设备, 此时, 可以命令其他位置的移动终端移动至所述预设范围 中, 并通过其摄像头对所述声源位置的人脸进行拍摄。
[0082] 在本实施例的另一方面, 若无法在上述各未使用的所述摄像设备中获取可以拍 摄到所述声源位置的人脸的摄像设备, 此时, 可能需要扩大所述预设范围以获 取更多的未使用的摄像设备, 并返回至所述 S1061中进行检测。
[0083] 在一实施例中, 如图 5所示, 所述步骤 S20包括:
[0084] S201 , 获取摄像设备拍摄的所述声源位置周围预设范围内的人脸, 并通过静默 活体检测判断所述人脸是否属于活体人脸。
[0085] 在本实施例中, 首先可通过摄像设备捕捉声源位置附近的图片, 之后不断地将 捕捉到的图片输入到人脸检测算法中以进行人脸识别并检测其是否为人脸。 同 时, 还需要通过静默活体检测来检测所述人脸是否为活体人脸, 避免摄像设备 拍摄到的人脸为非活体的人脸 (比如墙上的海报中的人脸) 的情况发生。 所述 声源位置周围预设范围内所指的具体范围, 亦可以在服务器中预先设定, 比如 所述声源位置周围预设范围内是指 S105中所述的预设范围之内。 可理解地, 所 述摄像设备可以随意旋转角度和 /或各所述摄像设备的位置亦可以在一定范围内 进行调整 (设定调整摄像设备以调整其高低、 左右前后、 倾斜角度等位置关系 ) , 以达到在所述当前环境中调整拍摄范围的目的, 因此, 仅需要确认所述声 源位置, 即可确认该声源位置周围的预设范围, 进而在拍摄该预设范围内的图 像之后, 将该图像中提取的人脸确认为所述声源位置周围预设范围内的人脸。
[0086] S202, 在所述人脸属于活体人脸时, 判断所述人脸当前的第一微表情是否为说 话微表情。
[0087] 也即, 在所述人脸属于活体人脸时, 说明所述人脸可能是追踪对象, 此时, 需 要进一步根据该人脸说话时的音频进行确认。 因此, 首先根据所述人脸的第一 微表情来判断其是否在说话。 在进行微表情识别人脸是否在说话之后, 将声源 的第一声纹特征与说话人脸的第二声纹特征进行匹配, 可以精确确认与该声源 对应的追踪对象。
[0088] S203 , 在所述第一微表情为说话微表情时, 确认所述人脸在说话。
[0089] 可理解地, 判断提取的所述第一微表情是否为说话微表情的过程, 可以在预设 时间范围内均保持持续进行 (以免追踪对象在被摄像设备拍摄到的时候, 刚好 处于说话过程中的暂时停顿过程中) , 若在预设时间范围之内检测到所述第一 微表情为说话微表情, 即可认为所述人脸在说话。
[0090] S204, 在预设时间范围之内检测到的所有第一微表情均不是说话微表情时, 确 认所述人脸一直未在说话, 将该人脸标记为非追踪对象。 此时, 可以直接捕获 下一个人脸在步骤 S201中继续进行检查即可。
[0091] 在本实施例中, 可以通过静默活体检测和微表情确认追踪对象, 提升了追踪准 确度。
[0092] 在一实施例中, 如图 6所示, 所述步骤 S202中, 所述判断所述人脸当前的第一 微表情是否为说话微表情包括:
[0093] S2021 , 提取所述第一微表情中的第一动作单元类型及序列。
[0094] 其中, 所述第一动作单元 (包括多个动作单元) 类型可以包括国际上通用的部 分和说话时嘴唇相关的动作单元类型 (比如下表 1中所示) 等。 所述第一动作单 元序列是指所述第一动作单元在第一微表情中出现的先后顺序的排列。
[0095] 表 1 动作单元 (AU) 类型
[] [表 1]
Figure imgf000012_0001
[0096] S2022, 获取数据库中预先存储的与说话微表情关联的第二动作单元类型及序 列。
[0097] 也即, 数据库中预先存储有说话微表情所对应的第二动作单元 (包括多个动作 单元) 类型及序列, 只要将在所述步骤 S2021中提取的所述第一动作单元类型及 序列, 与数据库中存储的说话微表情对应的第二动作单元类型及序列进行比对 , 即可确认所述第一微表情的类型是否为说话微表情。
[0098] S2023, 判断所述第一动作单元类型及序列是否与所述第二动作单元类型及序 列匹配。
[0099] 可理解地, 在本实施例一方面, 只要在所述步骤 S2021中提取的所述第一动作 单元类型及序列中, 包含数据库中存储的说话微表情所对应的第二动作单元类 型 (还可以包含其他动作单元) , 且两者序列也一致, 即可认为所述第一微表 情的类型为说话微表情。 在本实施例另一方面, 亦可以仅在在所述步骤 S2021中 提取的所述第一动作单元的类型及序列, 与数据库中存储的说话微表情的第二 动作单元类型及序列完全一一对应 (不可多或者少任何一个动作单元, 且序列 还需要一致) 时, 才认为所述第一微表情的类型为说话微表情。
[0100] S2024, 在所述第一动作单元类型及序列与所述第二动作单元类型及序列匹配 时, 确认所述人脸当前的第一微表情为说话微表情。
[0101] 进一步地, 在所述第一动作单元类型及序列与所述第二动作单元类型及序列不 匹配时, 确认所述人脸当前的第一微表情不是说话微表情。 此时, 确认所述人 脸并未在说话。
[0102] 在一实施例中, 所述步骤 S30中, 所述获取该人脸的说话音频, 具体为: 获取 与所述人脸最近 /或所述人脸正在使用的麦克风录制的该人脸的说话音频。
[0103] 其中, 与所述人脸最近的麦克风是指在上述电子地图中距离所述声源位置最近 或距离和所述声源位置关联的摄像设备最近的麦克风。 可理解地, 在本实施例 中, 各所述麦克风在所述电子地图中亦可以和所述摄像设备一样具有唯一标识 , 所述麦克风唯一标识可以在电子地图中显示以供服务器进行调取, 且对麦克 风的使用状态等的标记亦可以参照上述对于摄像设备的标记, 在所述麦克风进 行使用之后, 可以在所述电子地图上将其标记为已使用, 且将所述麦克风与该 声源位置 (或该声源位置的该人脸) 关联; 在其取消关联之后, 其标记亦可更 换为未使用。
[0104] 所述人脸正在使用的麦克风, 则可以直接自数据库中进行调取, 每一个麦克风 在被使用时, 均会被标记为已使用, 且若该麦克风在所述声源位置被使用, 则 代表其已经与该声源位置关联, 此时无需在进行选取, 直接获取该麦克风录制 的说话音频, 即为该人脸对应的说话音频 (在该实施例中, 每一个声源位置仅 有一个追踪对象在说话, 若存在多个正在使用的麦克风, 可以认为每个麦克风 对应于一个追踪对象) 。
[0105] 在上述过程中获取该人脸的说话音频之后, 可以提取该说话音频中的第二声纹 特征, 以便于将该第二声纹特征与上述第一声纹特征进行匹配, 进而追踪对象
[0106] 在一实施例中, 所述步骤 S40之前, 包括: [0107] 检测所述第一声纹特征与所述第二声纹特征的相似度是否超过相似度阈值。 其 中, 所述相似度阈值可以根据实际情况预先进行设定, 比如, 所述相似度阈值 为 0.6以上。
[0108] 在所述第一声纹特征与所述第二声纹特征的相似度超过相似度阈值时, 确认所 述第二声纹特征与所述第一声纹特征匹配。 在确认所述第二声纹特征与所述第 一声纹特征匹配之后, 即进入所述步骤 S40中, 将所述第二声纹特征所属的该人 脸设定为追踪对象。
[0109] 在所述第一声纹特征与所述第二声纹特征的相似度未超过相似度阈值时, 确认 所述第二声纹特征与所述第一声纹特征不匹配, 继续获取所述声源位置周围预 设范围内的人脸, 并判断该人脸是否正在说话。 也即识别该声源位置下一人脸 是否为追踪对象。
[0110] 在一实施例中, 如图 7所示, 所述步骤 S40之后, 包括:
[0111] S50, 调整与所述声源位置关联的摄像设备对所述追踪对象的拍摄参数。
[0112] 进一步地, 在确认该人脸设定为追踪对象之后, 可以在与该声源位置关联的摄 像设备中调整其拍摄该追踪对象的拍摄参数。 比如, 使该追踪对象的预设身体 位置 (比如身体比例的 1/2) 位于所拍摄的视频的画面正中间, 且调整其清晰度 等符合预设要求, 同时, 有上述可知, 此时还可以根据需求调整摄像设备与该 追踪对象之间的高低、 左右前后 (包括远近) 、 倾斜角度等位置关系。
[0113] S60, 将所述摄像设备拍摄的所述追踪对象的视频显示在客户端的预设显示界 面中。
[0114] 其中, 所述预设显示界面是指在该当前环境中为该声源位置或所述追踪对象分 配的显示界面。 该预设显示界面亦与所述声源位置或所述追踪对象关联, 所述 摄像设备将拍摄到的视频直接传送至服务器并显示在该预设显示界面中的预设 部位上。 在所述显示界面中, 可以同时显示多个视频画面, 但正在拍摄所述追 踪对象的视频画面可以在所述显示画面中的预设显示位置以预设比例大小进行 显示; 比如, 拍摄追踪对象的视频画面为一个, 此时, 将该视频画面在显示界 面的中间位置 (不限定于该预设显示位置, 亦可以为上下左右等位置) 的以该 显示界面大小的 1/2 (不限定于该比例大小) 显示, 而其他的视频画面可以显示 在拍摄追踪对象的视频画面周围, 且其显示比例大小可以根据剩余显示位置的 面积以及其他的视频画面的数量来确定。 同理, 在拍摄追踪对象的视频画面为 两个以上时, 亦可以将拍摄所述追踪对象的两个以上的视频画面在所述显示画 面中的预设显示位置以预设比例大小进行显示, 在此不再赘述。
[0115] 在一实施例中, 还可以自动识别所述追踪对象是谁, 此时在数据库中预先存储 有该追踪对象的头像及其基本信息 (比如, 当前环境为会议环境, 此时数据库 中预先存储有所有参会人员的头像及基本信息) , 可以根据该头像与所述追踪 对象的人脸进行匹配之后, 确认该追踪对象的身份, 并将该追踪对象的基本信 息中的部分或者全部显示在所述预设显示界面中。 可理解地, 还可以对拍摄到 的所述追踪对象的视频中的音频进行解析, 并将其转换为文字之后输出显示在 所述预设显示界面中。 亦可以对该音频进行同步翻译, 将翻译之后的音频进行 播放或将翻译之后的音频转换为文字之后显示在所述预设显示界面中。
[0116] 在一实施例中, 所述摄像设备为智能机器人上的摄像头, 此时, 如图 8所示, 所述步骤 S40之后还包括:
[0117] S70, 获取摄像设备拍摄的所述追踪对象的第二微表情。
[0118] 也即, 在一些情况下, 本申请实施例应用于智能机器人与追踪对象进行互动的 当前环境中, 此时, 智能机器人可以在确定所述追踪对象之后, 根据自所述追 踪对象的视频中提取的第二微表情与其进行互动。
[0119] S80, 根据所述第二微表情识别所述追踪对象的情绪类型。
[0120] 也即, 数据库中预先存储有各种微表情类型 (比如, 各微表情类型为哭、 笑或 者生气, 此时, 将该微表情类型与其相对应的情绪类型关联) 所对应的动作单 元类型及序列, 只要将在所述第二微表情中提取其动作单元的类型及序列, 并 与数据库中存储的各微表情类型所对应的动作单元类型及序列进行比对, 即可 确认所述微表情的类型, 进而确定所述追踪对象的情绪类型。 其比对过程可以 参照上述步骤 S20, 在此不再赘述。
[0121] S90, 根据所述情绪类型指示智能机器人做出与所述情绪类型对应的预设肢体 动作。
[0122] 也即, 在确认所述追踪对象的情绪类型之后, 由于在数据库中亦预先设定了所 述智能机器人在所述追踪对象处于各种情绪类型的情况下的应对措施, 也即设 定该智能机器人在各种情绪类型下所应做出的肢体动作, 比如所述追踪对象的 情绪类型为开心 (所述微表情类型为笑) , 此时所述智能机器人也表现其肢体 动作为开心地摇晃和旋转身体, 若所述追踪对象的情绪类型为不开心 (所述微 表情类型为哭) , 此时所述智能机器人也表现其肢体动作为拥抱所述追踪对象 。 本实施例使得智能机器人可以与追踪对象进行互动, 使得人机交互更加有趣
[0123] 在一实施例中, 如图 9所示, 提供一种基于生物特征的声源追踪装置, 该基于 生物特征的声源追踪装置与上述实施例中基于生物特征的声源追踪方法一一对 应。 所述基于生物特征的声源追踪装置包括:
[0124] 第一提取模块 11, 用于获取当前环境中符合预设声源要求的声源, 提取所述声 源中的第一声纹特征, 并标记该声源所在的声源位置;
[0125] 判断模块 12, 用于获取所述声源位置周围预设范围内的人脸, 并判断该人脸是 否正在说话;
[0126] 第二提取模块 13 , 用于若该人脸正在说话, 获取该人脸的说话音频, 并提取所 述说话音频中的第二声纹特征;
[0127] 设定模块 14, 用于在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该 人脸设定为追踪对象。
[0128] 在一实施例中, 所述第一提取模块 11包括:
[0129] 第一获取子模块, 用于获取当前环境中的所有声源, 并在所有声源中检测是否 存在符合预设声源要求的声源;
[0130] 第一提取子模块, 用于在存在符合预设声源要求的声源时, 提取符合预设声源 要求的该声源的第一声纹特征;
[0131] 第二获取子模块, 用于通过声源定位运算对该声源进行定位, 获取该声源的声 源位置;
[0132] 标记子模块, 用于将所述声源位置以及所述第一声纹特征关联之后, 在预设的 电子地图中标记所述声源位置。
[0133] 在一实施例中, 所述第一提取模块 11还包括: [0134] 第三获取子模块, 用于获取所述电子地图中所述声源位置周围预设范围内分布 的摄像设备;
[0135] 分配子模块, 用于根据预设的分配规则为所述声源位置分配所述摄像设备。
[0136] 在一实施例中, 所述分配子模块包括:
[0137] 第一检测单元, 用于检测所述预设范围内分布的摄像设备是否被标记为未使用
[0138] 第二检测单元, 用于在所述摄像设备被标记为未使用时, 检测所述摄像设备是 否可以拍摄到所述声源位置的人脸;
[0139] 标记单元, 用于在所述摄像设备可以拍摄到所述声源位置的人脸时, 将所述摄 像设备与所述声源位置关联, 并将所述摄像设备标记为已使用。
[0140] 在一实施例中, 所述分配子模块还包括:
[0141] 指示单元, 用于在所述摄像设备均被标记为已使用时, 指示其他位置的所述摄 像设备移动至所述预设范围中, 或扩大所述预设范围。
[0142] 在一实施例中, 所述判断模块 12包括:
[0143] 第一检测子模块, 用于获取摄像设备拍摄的所述声源位置周围预设范围内的人 脸, 并通过静默活体检测判断所述人脸是否属于活体人脸;
[0144] 判断子模块, 用于在所述人脸属于活体人脸时, 判断所述人脸当前的第一微表 情是否为说话微表情;
[0145] 第一确认子模块, 用于在所述第一微表情为说话微表情时, 确认所述人脸在说 话。
[0146] 在一实施例中, 所述判断模块 12还包括:
[0147] 第二确认子模块, 用于在预设时间范围之内检测到的所有第一微表情均不是说 话微表情时, 确认所述人脸一直未在说话, 将该人脸标记为非追踪对象。
[0148] 在一实施例中, 所述判断子模块包括:
[0149] 提取单元, 用于提取所述第一微表情中的第一动作单元类型及序列;
[0150] 获取单元, 用于获取数据库中预先存储的与说话微表情关联的第二动作单元类 型及序列;
[0151] 判断单元, 用于判断所述第一动作单元类型及序列是否与所述第二动作单元类 型及序列匹配;
[0152] 确认单元, 用于在所述第一动作单元类型及序列与所述第二动作单元类型及序 列匹配时, 确认所述人脸当前的第一微表情为说话微表情。
[0153] 在一实施例中, 所述第二提取模块 13包括:
[0154] 第四获取子模块, 用于获取与所述人脸最近 /或所述人脸正在使用的麦克风录 制的该人脸的说话音频。
[0155] 在一实施例中, 所述装置还包括:
[0156] 检测模块, 用于检测所述第一声纹特征与所述第二声纹特征的相似度是否超过 相似度阈值;
[0157] 确认模块, 用于在所述第一声纹特征与所述第二声纹特征的相似度超过相似度 阈值时, 确认所述第二声纹特征与所述第一声纹特征匹配;
[0158] 返回模块, 用于在所述第一声纹特征与所述第二声纹特征的相似度未超过相似 度阈值时, 确认所述第二声纹特征与所述第一声纹特征不匹配, 继续获取所述 声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话。
[0159] 在一实施例中, 所述装置还包括:
[0160] 调整模块, 用于调整与所述声源位置关联的摄像设备对所述追踪对象的拍摄参 数;
[0161] 显示模块, 用于将所述摄像设备拍摄的所述追踪对象的视频显示在客户端的预 设显示界面中。
[0162] 在一实施例中, 所述装置包括:
[0163] 获取模块, 用于获取所述摄像设备拍摄的所述追踪对象的第二微表情;
[0164] 识别模块, 用于根据所述第二微表情识别所述追踪对象的情绪类型;
[0165] 指示模块, 用于根据所述情绪类型指示所述智能机器人做出与所述情绪类型对 应的预设肢体动作。
[0166] 关于基于生物特征的声源追踪装置的具体限定可以参见上文中对于基于生物特 征的声源追踪方法的限定, 在此不再赘述。 上述基于生物特征的声源追踪装置 中的各个模块可全部或部分通过软件、 硬件及其组合来实现。 上述各模块可以 硬件形式内嵌于或独立于计算机设备中的处理器中, 也可以以软件形式存储于 计算机设备中的存储器中, 以便于处理器调用执行以上各个模块对应的操作。
[0167] 在一个实施例中, 提供了一种计算机设备, 该计算机设备可以是服务器, 其内 部结构图可以如图 10所示。 该计算机设备包括通过系统总线连接的处理器、 存 储器、 网络接口和数据库。 其中, 该计算机设备的处理器用于提供计算和控制 能力。 该计算机设备的存储器包括非易失性存储介质、 内存储器。 该非易失性 存储介质存储有操作系统、 计算机可读指令和数据库。 该内存储器为非易失性 存储介质中的操作系统和计算机可读指令的运行提供环境。 该计算机可读指令 被处理器执行时以实现前面任一实施方式描述的一种基于生物特征的声源追踪 方法。
[0168] 在一个实施例中, 提供了一种计算机设备, 包括存储器、 处理器及存储在存储 器上并可在处理器上运行的计算机可读指令, 处理器执行计算机可读指令时实 现以下步骤:
[0169] 获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位置;
[0170] 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话;
[0171] 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的第二声 纹特征;
[0172] 在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定为追踪对 象。
[0173] 在一个实施例中, 提供了一个或多个存储有计算机可读指令的非易失性可读存 储介质, 该非易失性可读存储介质上存储有计算机可读指令, 该计算机可读指 令被一个或多个处理器执行时, 使得一个或多个处理器实现以下步骤:
[0174] 获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位置;
[0175] 获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话;
[0176] 若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中的第二声 纹特征;
[0177] 在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定为追踪对 象。
[0178] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可 以通过计算机可读指令来指令相关的硬件来完成, 所述的计算机可读指令可存 储于一非易失性计算机可读取存储介质中, 该计算机可读指令在执行时, 可包 括如上述各方法的实施例的流程。 其中, 本申请所提供的各实施例中所使用的 对存储器、 存储、 数据库或其它介质的任何引用, 均可包括非易失性和 /或易失 性存储器。 非易失性存储器可包括只读存储器 (ROM) 、 可编程 ROM (PROM ) 、 电可编程 ROM (EPROM) 、 电可擦除可编程 ROM (EEPROM) 或闪存。 易失性存储器可包括随机存取存储器 (RAM) 或者外部高速缓冲存储器。 作为 说明而非局限, RAM以多种形式可得, 诸如静态 RAM (SRAM) 、 动态 RAM ( DRAM) 、 同步 DRAM (SDRAM) 、 双数据率 SDRAM (DDRSDRAM) 、 增强 型 SDRAM (ESDRAM) 、 同步链路 DRAM (SLDRAM) 、 存储器总线直接 RA M (RDRAM) 、 直接存储器总线动态 RAM (DRDRAM) 、 以及存储器总线动 态 RAM (RDRAM) 等。
[0179] 所属领域的技术人员可以清楚地了解到, 为了描述的方便和简洁, 仅以上述各 功能单元或模块的划分进行举例说明, 实际应用中, 可以根据需要而将上述功 能分配由不同的功能单元或模块完成, 即将所述装置的内部结构划分成不同的 功能单元或模块, 以完成以上描述的全部或者部分功能。
[0180] 以上所述实施例仅用以说明本申请的技术方案, 而非对其限制; 尽管参照前述 实施例对本申请进行了详细的说明, 本领域的普通技术人员应当理解: 其依然 可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进 行等同替换; 而这些修改或者替换, 并不使相应技术方案的本质脱离本申请各 实施例技术方案的精神和范围, 均应包含在本申请的保护范围之内。
发明概述
技术问题
问题的解决方案
发明的有益效果

Claims

权利要求书
[权利要求 1] 一种基于生物特征的声源追踪方法, 其特征在于, 包括:
获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声 纹特征, 并标记该声源所在的声源位置;
获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说 话;
若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中 的第二声纹特征;
在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定 为追踪对象。
[权利要求 2] 如权利要求 1所述的基于生物特征的声源追踪方法, 其特征在于, 所 述获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一 声纹特征, 并标记该声源所在的声源位置, 包括: 获取当前环境中的所有声源, 并在所有声源中检测是否存在符合预设 声源要求的声源;
在存在符合预设声源要求的声源时, 提取符合预设声源要求的该声源 的第一声纹特征;
通过声源定位运算对该声源进行定位, 获取该声源的声源位置; 将所述声源位置以及所述第一声纹特征关联, 并在预设的电子地图中 标记所述声源位置。
[权利要求 3] 如权利要求 2所述的基于生物特征的声源追踪方法, 其特征在于, 所 述将所述声源位置以及所述第一声纹特征关联, 并在预设的电子地图 中标记所述声源位置之后, 包括:
获取所述电子地图中所述声源位置周围预设范围内分布的摄像设备; 根据预设的分配规则为所述声源位置分配所述摄像设备。
[权利要求 4] 如权利要求 3所述的基于生物特征的声源追踪方法, 其特征在于, 所 述根据预设的分配规则为所述声源位置分配所述摄像设备, 包括: 检测所述预设范围内分布的摄像设备是否被标记为未使用; 在所述摄像设备被标记为未使用时, 检测所述摄像设备是否可以拍摄 到所述声源位置的人脸;
在所述摄像设备可以拍摄到所述声源位置的人脸时, 将所述摄像设备 与所述声源位置关联, 并将所述摄像设备标记为已使用。
[权利要求 5] 如权利要求 4所述的基于生物特征的声源追踪方法, 其特征在于, 所 述检测所述预设范围内分布的摄像设备是否被标记为未使用之后, 还 包括:
在所述摄像设备均被标记为已使用时, 指示其他位置的所述摄像设备 移动至所述预设范围中, 或扩大所述预设范围。
[权利要求 6] 如权利要求 1所述的基于生物特征的声源追踪方法, 其特征在于, 所 述获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在 说话, 包括:
获取摄像设备拍摄的所述声源位置周围预设范围内的人脸, 并通过静 默活体检测判断所述人脸是否属于活体人脸;
在所述人脸属于活体人脸时, 判断所述人脸当前的第一微表情是否为 说话微表情;
在所述第一微表情为说话微表情时, 确认所述人脸在说话。
[权利要求 7] 如权利要求 6所述的基于生物特征的声源追踪方法, 其特征在于, 所 述在所述人脸属于活体人脸时, 判断所述人脸当前的第一微表情是否 为说话微表情之后, 还包括:
在预设时间范围之内检测到的所有第一微表情均不是说话微表情时, 确认所述人脸一直未在说话, 将该人脸标记为非追踪对象。
[权利要求 8] 如权利要求 6所述的基于生物特征的声源追踪方法, 其特征在于, 所 述判断所述人脸当前的第一微表情是否为说话微表情, 包括: 提取所述第一微表情中的第一动作单元类型及序列;
获取数据库中预先存储的与说话微表情关联的第二动作单元类型及序 列;
判断所述第一动作单元类型及序列是否与所述第二动作单元类型及序 列匹配;
在所述第一动作单元类型及序列与所述第二动作单元类型及序列匹配 时, 确认所述人脸当前的第一微表情为说话微表情。
[权利要求 9] 如权利要求 1所述的基于生物特征的声源追踪方法, 其特征在于, 所 述获取该人脸的说话音频, 包括:
通过与所述人脸最近的麦克风或所述人脸正在使用的麦克风录制该人 脸的说话音频。
[权利要求 10] 如权利要求 1所述的基于生物特征的声源追踪方法, 其特征在于, 所 述在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设 定为追踪对象之前, 还包括:
检测所述第一声纹特征与所述第二声纹特征的相似度是否超过相似度 阈值;
在所述第一声纹特征与所述第二声纹特征的相似度超过相似度阈值时 , 确认所述第二声纹特征与所述第一声纹特征匹配;
在所述第一声纹特征与所述第二声纹特征的相似度未超过相似度阈值 时, 确认所述第二声纹特征与所述第一声纹特征不匹配, 继续获取所 述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说话。
[权利要求 11] 如权利要求 1所述的基于生物特征的声源追踪方法, 其特征在于, 所 述在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设 定为追踪对象之后, 包括:
调整与所述声源位置关联的摄像设备对所述追踪对象的拍摄参数; 将所述摄像设备拍摄的所述追踪对象的视频显示在客户端的预设显示 界面中。
[权利要求 12] 如权利要求 2所述的基于生物特征的声源追踪方法, 其特征在于, 所 述在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设 定为追踪对象之后, 包括:
调整与所述声源位置关联的摄像设备对所述追踪对象的拍摄参数; 将所述摄像设备拍摄的所述追踪对象的视频显示在客户端的预设显示 界面中。
[权利要求 13] 如权利要求 1所述的基于生物特征的声源追踪方法, 其特征在于, 所 述在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设 定为追踪对象之后, 包括:
获取摄像设备拍摄的所述追踪对象的第二微表情; 根据所述第二微表情识别所述追踪对象的情绪类型;
根据所述情绪类型指示智能机器人做出与所述情绪类型对应的预设肢 体动作。
[权利要求 14] 如权利要求 2所述的基于生物特征的声源追踪方法, 其特征在于, 所 述在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设 定为追踪对象之后, 包括:
调整与所述声源位置关联的摄像设备对所述追踪对象的拍摄参数; 将所述摄像设备拍摄的所述追踪对象的视频显示在客户端的预设显示 界面中。
[权利要求 15] 一种基于生物特征的声源追踪装置, 其特征在于, 包括:
第一提取模块, 用于获取当前环境中符合预设声源要求的声源, 提取 所述声源中的第一声纹特征, 并标记该声源所在的声源位置; 判断模块, 用于获取所述声源位置周围预设范围内的人脸, 并判断该 人脸是否正在说话;
第二提取模块, 用于若该人脸正在说话, 获取该人脸的说话音频, 并 提取所述说话音频中的第二声纹特征;
设定模块, 用于在确定所述第二声纹特征与所述第一声纹特征匹配时 , 将该人脸设定为追踪对象。
[权利要求 16] 如权利要求 15所述的基于生物特征的声源追踪装置, 其特征在于, 所 述第一提取模块包括:
第一获取子模块, 用于获取当前环境中的所有声源, 并在所有声源中 检测是否存在符合预设声源要求的声源;
第一提取子模块, 用于在存在符合预设声源要求的声源时, 提取符合 预设声源要求的该声源的第一声纹特征;
第二获取子模块, 用于通过声源定位运算对该声源进行定位, 获取该 声源的声源位置;
标记子模块, 用于将所述声源位置以及所述第一声纹特征关联之后, 在预设的电子地图中标记所述声源位置。
[权利要求 17] 如权利要求 16所述的基于生物特征的声源追踪装置, 其特征在于, 所 述第一提取模块还包括:
第三获取子模块, 用于获取所述电子地图中所述声源位置周围预设范 围内分布的摄像设备;
分配子模块, 用于根据预设的分配规则为所述声源位置分配所述摄像 设备。
[权利要求 18] 如权利要求 17所述的基于生物特征的声源追踪装置, 其特征在于, 所 述分配子模块包括:
第一检测单元, 用于检测所述预设范围内分布的摄像设备是否被标记 为未使用;
第二检测单元, 用于在所述摄像设备被标记为未使用时, 检测所述摄 像设备是否可以拍摄到所述声源位置的人脸;
标记单元, 用于在所述摄像设备可以拍摄到所述声源位置的人脸时, 将所述摄像设备与所述声源位置关联, 并将所述摄像设备标记为已使 用。
[权利要求 19] 一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可 在所述处理器上运行的计算机可读指令, 其特征在于, 所述处理器执 行所述计算机可读指令时实现如下步骤:
获取当前环境中符合预设声源要求的声源, 提取所述声源中的第一声 纹特征, 并标记该声源所在的声源位置;
获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说 话;
若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中 的第二声纹特征;
在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定 为追踪对象。
[权利要求 20] 一个或多个存储有计算机可读指令的非易失性可读存储介质, 其特征 在于, 所述计算机可读指令被一个或多个处理器执行时, 使得所述一 个或多个处理器执行如下步骤: 获取当前环境中符合预设声源要求的 声源, 提取所述声源中的第一声纹特征, 并标记该声源所在的声源位 置;
获取所述声源位置周围预设范围内的人脸, 并判断该人脸是否正在说 话;
若该人脸正在说话, 获取该人脸的说话音频, 并提取所述说话音频中 的第二声纹特征;
在确定所述第二声纹特征与所述第一声纹特征匹配时, 将该人脸设定 为追踪对象。
PCT/CN2019/088820 2018-12-10 2019-05-28 基于生物特征的声源追踪方法、装置、设备及存储介质 WO2020119032A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811504484.8 2018-12-10
CN201811504484.8A CN109754811B (zh) 2018-12-10 2018-12-10 基于生物特征的声源追踪方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
WO2020119032A1 true WO2020119032A1 (zh) 2020-06-18

Family

ID=66403560

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/088820 WO2020119032A1 (zh) 2018-12-10 2019-05-28 基于生物特征的声源追踪方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN109754811B (zh)
WO (1) WO2020119032A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899743A (zh) * 2020-07-31 2020-11-06 斑马网络技术有限公司 获取目标声音的方法、装置、电子设备及存储介质
CN112651333A (zh) * 2020-12-24 2021-04-13 世纪龙信息网络有限责任公司 静默活体检测方法、装置、终端设备和存储介质
CN113764094A (zh) * 2021-10-09 2021-12-07 哈尔滨思哲睿智能医疗设备有限公司 医疗设备的控制方法、计算设备、医疗设备及存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754811B (zh) * 2018-12-10 2023-06-02 平安科技(深圳)有限公司 基于生物特征的声源追踪方法、装置、设备及存储介质
CN110188364B (zh) * 2019-05-24 2023-11-24 宜视智能科技(苏州)有限公司 基于智能眼镜的翻译方法、设备及计算机可读存储介质
CN110505399A (zh) * 2019-08-13 2019-11-26 聚好看科技股份有限公司 图像采集的控制方法、装置及采集终端
TWI714318B (zh) * 2019-10-25 2020-12-21 緯創資通股份有限公司 人臉辨識方法及裝置
CN110767226B (zh) * 2019-10-30 2022-08-16 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN111276155B (zh) * 2019-12-20 2023-05-30 上海明略人工智能(集团)有限公司 语音分离方法、装置及存储介质
CN113411487B (zh) * 2020-03-17 2023-08-01 中国电信股份有限公司 设备的控制方法、装置、系统和计算机可读存储介质
CN113406567B (zh) * 2021-06-25 2024-05-14 安徽淘云科技股份有限公司 一种声源定位方法、装置、设备及存储介质
CN114466139A (zh) * 2022-01-30 2022-05-10 深圳市浩瀚卓越科技有限公司 追踪定位方法、系统、装置、设备、存储介质和产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902963A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
CN106328156A (zh) * 2016-08-22 2017-01-11 华南理工大学 一种音视频信息融合的麦克风阵列语音增强系统及方法
US20170052245A1 (en) * 2011-07-14 2017-02-23 Microsoft Technology Licensing, Llc Sound source localization using phase spectrum
CN107767137A (zh) * 2016-08-23 2018-03-06 中国移动通信有限公司研究院 一种信息处理方法、装置及终端
CN108769400A (zh) * 2018-05-23 2018-11-06 宇龙计算机通信科技(深圳)有限公司 一种定位录音的方法及装置
CN109754811A (zh) * 2018-12-10 2019-05-14 平安科技(深圳)有限公司 基于生物特征的声源追踪方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9355641B2 (en) * 2011-12-06 2016-05-31 Kyungpook National University Industry-Academic Cooperation Monitoring device using selective attention model and method for monitoring same
CN106231047A (zh) * 2016-08-05 2016-12-14 惠州Tcl移动通信有限公司 一种基于智能终端的音频采集方法、系统及智能终端
CN106599866B (zh) * 2016-12-22 2020-06-02 上海百芝龙网络科技有限公司 一种多维度用户身份识别方法
CN107516526B (zh) * 2017-08-25 2022-09-06 百度在线网络技术(北京)有限公司 一种声源跟踪定位方法、装置、设备和计算机可读存储介质
CN107862060B (zh) * 2017-11-15 2021-03-23 吉林大学 一种追踪目标人的语义识别装置及识别方法
CN108766439A (zh) * 2018-04-27 2018-11-06 广州国音科技有限公司 一种基于声纹识别的监控方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170052245A1 (en) * 2011-07-14 2017-02-23 Microsoft Technology Licensing, Llc Sound source localization using phase spectrum
CN103902963A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
CN106328156A (zh) * 2016-08-22 2017-01-11 华南理工大学 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN107767137A (zh) * 2016-08-23 2018-03-06 中国移动通信有限公司研究院 一种信息处理方法、装置及终端
CN108769400A (zh) * 2018-05-23 2018-11-06 宇龙计算机通信科技(深圳)有限公司 一种定位录音的方法及装置
CN109754811A (zh) * 2018-12-10 2019-05-14 平安科技(深圳)有限公司 基于生物特征的声源追踪方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899743A (zh) * 2020-07-31 2020-11-06 斑马网络技术有限公司 获取目标声音的方法、装置、电子设备及存储介质
CN112651333A (zh) * 2020-12-24 2021-04-13 世纪龙信息网络有限责任公司 静默活体检测方法、装置、终端设备和存储介质
CN112651333B (zh) * 2020-12-24 2024-02-09 天翼数字生活科技有限公司 静默活体检测方法、装置、终端设备和存储介质
CN113764094A (zh) * 2021-10-09 2021-12-07 哈尔滨思哲睿智能医疗设备有限公司 医疗设备的控制方法、计算设备、医疗设备及存储介质
CN113764094B (zh) * 2021-10-09 2023-07-07 哈尔滨思哲睿智能医疗设备股份有限公司 医疗设备的控制方法、计算设备、医疗设备及存储介质

Also Published As

Publication number Publication date
CN109754811A (zh) 2019-05-14
CN109754811B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
WO2020119032A1 (zh) 基于生物特征的声源追踪方法、装置、设备及存储介质
WO2021027424A1 (zh) 图像采集的控制方法及采集终端
US9064160B2 (en) Meeting room participant recogniser
US10681308B2 (en) Electronic apparatus and method for controlling thereof
US8411130B2 (en) Apparatus and method of video conference to distinguish speaker from participants
US10241990B2 (en) Gesture based annotations
US20190174095A1 (en) System and methods for automatic call initiation based on biometric data
CN112037791A (zh) 会议纪要转录方法、设备和存储介质
US11527242B2 (en) Lip-language identification method and apparatus, and augmented reality (AR) device and storage medium which identifies an object based on an azimuth angle associated with the AR field of view
WO2019184650A1 (zh) 字幕生成方法及终端
CN111260313A (zh) 发言者的识别方法、会议纪要生成方法、装置及电子设备
CN112148922A (zh) 会议记录方法、装置、数据处理设备及可读存储介质
WO2021120190A1 (zh) 数据处理方法、装置、电子设备和存储介质
CN109063628B (zh) 人脸识别方法、装置、计算机设备及存储介质
CN110196914B (zh) 一种将人脸信息录入数据库的方法和装置
CN210469530U (zh) 发言人员音频及影像追踪系统
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
CN110941992B (zh) 微笑表情检测方法、装置、计算机设备及存储介质
JP2014165565A (ja) テレビ会議装置およびシステムおよび方法
CN110705356A (zh) 功能控制方法及相关设备
CN112507829B (zh) 一种多人视频手语翻译方法及系统
WO2022002214A1 (zh) 一种视频剪辑方法、装置、计算机可读存储介质及相机
TWM591655U (zh) 發言人員音訊及影像追蹤系統
CN114513622A (zh) 说话人检测方法、设备、存储介质及程序产品
CN116366961A (zh) 视频会议方法、装置及计算机设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19894640

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19894640

Country of ref document: EP

Kind code of ref document: A1