WO2016183791A1 - 一种语音信号处理方法及装置 - Google Patents

一种语音信号处理方法及装置 Download PDF

Info

Publication number
WO2016183791A1
WO2016183791A1 PCT/CN2015/079245 CN2015079245W WO2016183791A1 WO 2016183791 A1 WO2016183791 A1 WO 2016183791A1 CN 2015079245 W CN2015079245 W CN 2015079245W WO 2016183791 A1 WO2016183791 A1 WO 2016183791A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
target sound
image
microphone array
source region
Prior art date
Application number
PCT/CN2015/079245
Other languages
English (en)
French (fr)
Inventor
赵天宇
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to CN201580079468.7A priority Critical patent/CN107534725B/zh
Priority to PCT/CN2015/079245 priority patent/WO2016183791A1/zh
Publication of WO2016183791A1 publication Critical patent/WO2016183791A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Definitions

  • the present invention relates to the field of voice processing technologies, and in particular, to a voice signal processing method and apparatus.
  • the voice signal is generally picked up by a microphone, and the picked-up voice signal is often interfered by signals such as ambient noise, other speakers' voices, reverberations, etc., so that the quality of the voice is seriously degraded, and therefore, it is necessary to pick up
  • the voice signal is effectively noise-reduced to suppress noise and improve voice quality.
  • a common noise reduction technology is a noise reduction method based on a microphone array.
  • the principle is to use a microphone array to locate a sound source to determine a beam direction, and enhance a voice signal received by the microphone and in the beam direction. At the same time try to suppress interference in other directions.
  • the above method can be used to reduce noise.
  • the embodiment of the invention discloses a voice signal processing method and device, which can improve the accuracy of sound source localization and effectively improve the noise reduction effect of the voice signal.
  • a first aspect of the embodiments of the present invention discloses a voice signal processing method, including:
  • the speech signal After receiving the speech signal through the microphone array, the speech signal is enhanced by a minimum variance distortion-free response MVDR beamforming algorithm according to a relative position of the target sound source region and the microphone array.
  • the location information of the target sound source region relative to the image capturing device is obtained by using a point feature positioning manner ,include:
  • the image storage device and the microphone array are pre-stored. Determining the relative position of the target sound source area and the microphone array, and determining the relative position of the target sound source area and the microphone array, including:
  • Determining a center of the target sound source region according to coordinates of the microphone array in a coordinate system of the image capturing device and coordinates of a center point of the target sound source region in a coordinate system of the image capturing device
  • the relative position of the point to the array of microphones is the relative position of the target sound source area to the microphone array.
  • the distance between any two microphones in the microphone array is greater than half of the wavelength of the voice signal.
  • the voice signal After receiving the voice signal through the microphone array, the voice signal is enhanced by using a minimum variance distortion-free response MVDR beam shape algorithm according to the relative position of the target sound source region and the microphone array, including:
  • the microphone array After receiving the voice signal through the microphone array, calculating a linear distance from a center point of the target sound source area to each microphone in the microphone array according to a relative position of the target sound source area and the microphone array, And calculating a sound path difference between a center point of the target sound source region and any two microphones, wherein the sound path difference is a center point of the target sound source region to one of the two microphones An absolute difference between a linear distance from a center point of the target sound source region to a linear distance of the other of the two microphones;
  • a second aspect of the embodiments of the present invention discloses a voice signal processing apparatus, including:
  • An acquisition unit configured to collect an image of a target speaker by using an image acquisition device
  • a first determining unit configured to determine, from the image, a mouth region of the target speaker as a target sound source region
  • An acquiring unit configured to acquire, by using a point feature positioning manner, position information of the target sound source area relative to the image capturing device;
  • a second determining unit configured to determine the target sound source region and the location according to a spatially relative position of the image capturing device and the microphone array stored in advance, and position information of the target sound source region relative to the image capturing device The relative position of the microphone array;
  • a processing unit configured to: after receiving the voice signal through the microphone array, enhance the voice signal by using a minimum variance distortion-free response MVDR beamforming algorithm according to a relative position of the target sound source region and the microphone array deal with.
  • the acquiring unit includes:
  • a first acquiring sub-unit configured to extract at least one point feature of the target sound source region, and acquire coordinates of the point feature in a coordinate system of the image according to a pixel value of the point feature, where the image
  • the coordinate origin in the coordinate system is a vertical projection point of the optical axis of the image acquisition device on the image, and two mutually perpendicular axes in the coordinate system of the image are in the plane of the image;
  • a second acquiring subunit configured to acquire, according to coordinates of the point feature in a coordinate system of the image and a focal length of the image capturing device, coordinates of a center point of the target sound source region in the image capturing device a coordinate of the target sound source area relative to the image acquisition device; wherein a coordinate origin in the coordinate system of the image acquisition device is a center point of the image acquisition device, and the image One of the two axes perpendicular to each other in the coordinate system of the acquisition device is perpendicular to the plane of the image, and the other two axes are respectively parallel to the two axes of the coordinate system of the image.
  • the second determining unit includes:
  • a first determining subunit configured to determine coordinates of the microphone array in a coordinate system of the image capturing device according to a spatially relative position of the image capturing device and the microphone array stored in advance;
  • a second determining subunit configured to determine, according to coordinates of the microphone array in a coordinate system of the image capturing device, and coordinates of a center point of the target sound source region in a coordinate system of the image capturing device a relative position of a center point of the target sound source region and the microphone array as a relative position of the target sound source region and the microphone array.
  • the distance between any two microphones in the microphone array is greater than half the wavelength of the speech signal.
  • the processing unit includes:
  • a first calculating subunit configured to calculate a center point of the target sound source area to the microphone according to a relative position of the target sound source area and the microphone array after receiving a voice signal through the microphone array a linear distance of each microphone in the array, and calculating a sound path difference from a center point of the target sound source region to any two microphones, wherein the sound path difference is a center point of the target sound source region to the arbitrary An absolute difference between a linear distance of one of the two microphones and a linear distance from a center point of the target sound source region to another of the two microphones;
  • a second calculating subunit configured to calculate a delay from a center point of the target sound source area to the any two microphones according to a sound path difference between the center point of the target sound source area and the any two microphones ;
  • a delay compensation subunit configured to perform time delay compensation on the any two microphones according to a delay from a center point of the target sound source area to the any two microphones, to enhance the The voice signal in the direction of the target sound source area.
  • a third aspect of the embodiments of the present invention discloses a voice signal processing apparatus, including: a processor, a memory, a communication bus, an image acquisition device, and a microphone array;
  • the memory is used to store programs and data
  • the communication bus is configured to establish connection communication between the processor, the memory, the image acquisition device, and the microphone array;
  • the processor is configured to invoke the program stored in the memory, and perform the following steps:
  • the speech signal After receiving the speech signal through the microphone array, the speech signal is enhanced by a minimum variance distortion-free response MVDR beamforming algorithm according to a relative position of the target sound source region and the microphone array.
  • the processor acquires the target sound source region relative to the image capturing device by using a point feature positioning manner.
  • the location information is specifically as follows:
  • the processor includes the data pre-stored according to the memory, including The spatial relative position of the image acquisition device and the microphone array, and the position information of the target sound source region relative to the image acquisition device, the manner of determining the relative position of the target sound source region and the microphone array Specifically:
  • the distance between any two microphones in the microphone array is greater than half the wavelength of the speech signal.
  • the processor After receiving the voice signal through the microphone array, the processor uses the minimum variance distortion-free response MVDR beam shape algorithm to enhance the voice signal according to the relative position of the target sound source region and the microphone array. Specifically:
  • the image of the target speaker may be collected by the image acquisition device, and the mouth region of the target speaker is determined according to the image as the target sound source region, and the relative image collection of the target sound source region may be acquired by the point feature positioning method.
  • the voice signal is enhanced by the minimum variance distortion-free response MVDR beamforming algorithm.
  • the present invention is implemented
  • the image acquisition device and the microphone array can be combined to locate the sound source, thereby improving the accuracy of sound source localization; further, in the voice enhancement process, accurate sound source localization is beneficial to improve the noise reduction effect of the voice signal. .
  • FIG. 1 is a schematic flowchart of a voice signal processing method according to an embodiment of the present invention
  • FIG. 2 is a schematic flow chart of another voice signal processing method according to an embodiment of the present invention.
  • FIG. 3 is a schematic diagram of coordinates of a target sound source positioning disclosed in an embodiment of the present invention.
  • FIG. 4 is a schematic structural diagram of a voice signal processing apparatus according to an embodiment of the present invention.
  • FIG. 5 is a schematic structural diagram of another voice signal processing apparatus according to an embodiment of the present invention.
  • FIG. 6 is a schematic structural diagram of still another voice signal processing apparatus according to an embodiment of the present invention.
  • the embodiment of the invention discloses a voice signal processing method and device, which can improve the accuracy of sound source localization and effectively improve the noise reduction effect of the voice signal. The details are described below separately.
  • FIG. 1 is a schematic flowchart diagram of a voice signal processing method according to an embodiment of the present invention. As shown in FIG. 1, the voice signal processing method may include the following steps:
  • the voice signal processing device may collect the object in real time through the image acquisition device.
  • the image of the target speaker may be an image of the target speaker collected in real time by the image acquisition device when the voice signal processing device starts a video call or a hands-free conference.
  • the voice signal processing device may include, but is not limited to, a smart phone, a personal computer, a multimedia player, a videophone, and a device that can implement communication.
  • the image collection device may be one or more, may be integrated in the voice signal processing device, or may be an external device independent of the voice signal processing device and maintain a communication connection with the voice signal processing device;
  • the image acquisition device It can be a device such as a camera or a camera, which is not limited in the embodiment of the present invention.
  • the face detection process it may be detected whether the face image of the target speaker, ie, the face detection process, is included in the image before determining the mouth region of the target speaker from the image.
  • the implementation process of the feature-based face detection method is to compare the feature information of the extracted image with the pre-stored face feature information to determine whether the face is included;
  • the implementation process of the template matching face detection method is The image is matched with a pre-established face template to determine whether a face is included;
  • the appearance-based face detection method is to compare the image with a pre-trained face and a non-face classifier to determine whether Contains faces.
  • the face detection method described above may be used alone or in combination.
  • a Hal Haar mouth feature classifier is used in the face image region to locate the approximate position of the mouth on the face image;
  • the principle that the feature distribution satisfies the one-third ratio, and the position of the acquired mouth in the approximate position of the lower third of the face is determined as the final position of the mouth, and is defined as the mouth region.
  • the mouth area is the target sound source area.
  • the point feature positioning is a positioning method using a single frame image, and the relative position and posture of the image capturing device are determined according to n feature points on the target sound source region, that is, the positioning is performed.
  • the image acquisition device takes an image containing n spatial points, and the coordinates of the n spatial points are known to determine the coordinates of the n spatial points in the coordinate system of the image acquisition device, thereby obtaining the target sound source region. Relative to the location information of the image acquisition device. Where n is an integer greater than zero.
  • S104 Determine a relative position of the target sound source area and the microphone array according to a spatial relative position of the image storage device and the microphone array stored in advance, and position information of the target sound source area relative to the image capturing device.
  • the microphone array includes at least two microphones, and each of the microphones may be an omnidirectional receiving type microphone, that is, a voice signal in each direction may be picked up.
  • the microphone array can be integrated inside the speech signal processing device or can be in communication with the speech signal processing device and in communication with the speech signal processing device.
  • the spatial relative position between the image capturing device and the microphone array may be known, and may be stored in advance in the memory of the voice signal processing device.
  • the spatial relative position between the image acquisition device and the microphone array stored in advance, and the position information of the target sound source region and the image acquisition device acquired in step S103 can be determined, and the target sound source region and the microphone array can be determined. relative position.
  • the voice signal After receiving the voice signal through the microphone array, the voice signal is enhanced by using a minimum variance distortion-free response MVDR beamforming algorithm according to a relative position of the target sound source region and the microphone array.
  • the beam can be utilized.
  • the forming technique performs enhancement processing on the voice signals collected by the respective microphones to enhance the voice signals of the respective microphones in the direction of the target sound source, and suppress the received voice signals in other directions.
  • the beamforming technology performs weighting processing on the voice signals received by the respective microphones, enhances the voice signals in a specific direction, and weakens the voice signals in other directions, thereby obtaining a voice signal from a specific direction.
  • the specific direction is Each microphone points in the direction of the target source.
  • the beamforming capability of the microphone array makes it possible to provide a directional sound source while providing more than a single microphone High system output signal to noise ratio.
  • beamforming technology is quite common. Common beamforming algorithms include LMS (Least mean square) algorithm, RLS (Recursive Least Squares) algorithm, and MVDR (Minimum Variance Distortion Less Response). Distortion response) algorithm and so on.
  • the MVDR beamforming algorithm is selected in the embodiment of the present invention, and the principle is that the speech signal of interest is output without distortion, and the beam output noise variance is minimized. Compared with the LMS algorithm, the RLS algorithm, etc., the MVDR algorithm can increase the array gain, so the noise suppression ability is stronger.
  • the image of the target speaker may be collected by the image acquisition device, and the mouth region of the target speaker is determined according to the image as the target sound source region, and the relative image collection of the target sound source region may be acquired by the point feature positioning method.
  • the voice signal is enhanced by the minimum variance distortion-free response MVDR beamforming algorithm.
  • FIG. 2 is a schematic flowchart diagram of another voice signal processing method according to an embodiment of the present invention. As shown in FIG. 2, the voice signal processing method may include the following steps:
  • the voice signal processing device when the voice signal processing device starts a mode such as a video call or a hands-free conference, the image of the target speaker may be collected by one or more image acquisition devices.
  • the image capturing device may be a camera, a camera, or the like, which is not limited in the embodiment of the present invention.
  • the target speaker may be one or multiple.
  • An image acquisition device may be used to capture images of multiple target speakers, or multiple image acquisition devices may be used to capture images of multiple target speakers.
  • the mouth area of the target speaker may be determined from the image according to a preset algorithm, and positioned as the target sound source area.
  • the mouth area of multiple target speakers can be determined at the same time to obtain a plurality of target sound source areas.
  • a plurality of dot features can be extracted on the target sound source region, and the dot features have corresponding pixel values in the image, so that the pixel values can be regarded as point features in the image.
  • the coordinate system of the image is a two-dimensional coordinate system, wherein the coordinate origin is a vertical projection point of the optical axis of the image acquisition device on the image, and the two axes are perpendicular to each other and are in the plane of the image.
  • the coordinate system of the image acquisition device may be constructed with the center point (ie, the optical center) of the image acquisition device as the coordinate origin, and the coordinate system of the image acquisition device is a three-dimensional coordinate system, and the three axes are perpendicular to each other, wherein One axis is perpendicular to the plane of the image, and the other two axes are parallel to the two axes of the image's coordinate system.
  • the positional relationship between the coordinate system of the image acquisition device and the coordinate system of the image may be utilized to determine the target sound source.
  • the coordinates of the point feature on the area are in the coordinate system of the image acquisition device, and the coordinates of one of the point features of the target sound source area or the coordinates of the center point of the target sound source area are selected as the target sound source area relative to the image acquisition device. location information.
  • FIG. 3 is a schematic diagram of coordinates of target sound source positioning disclosed in an embodiment of the present invention.
  • FIG. 3 shows only one image acquisition device, and the case where only the microphone array comprising two microphones m 1 and m 2 of.
  • the arrangement of the image capturing device and the microphone array shown in FIG. 3 does not constitute a limitation of the present invention, and they may be arranged on the same straight line or in any arrangement, and may also include more than FIG. Show more image acquisition devices and microphones.
  • the o point is the center point (ie, the optical center) of the image acquisition device
  • the o' point is the vertical projection point of the optical axis of the image acquisition device on the image
  • the coordinate system of the image is taken as the coordinate origin of the o' point
  • the axes u and v are perpendicular to each other and in the plane of the image. Selecting a plurality of point features on the target sound source region, and the coordinates of the point features are known in the coordinate system of the image, wherein the point M is the center point of the target sound source region, and the point M is in the coordinate system of the image. The coordinates are also known.
  • the coordinate system of the image acquisition device takes o point as the coordinate origin, and the three axes x, y and z are perpendicular to each other, wherein the y axis is perpendicular to the plane of the image, and the foot is o' point, x axis and u
  • the axes are parallel, the z-axis is parallel to the v-axis, and o o' is the focal length of the image acquisition device.
  • S205 Determine a relative position of the target sound source area and the microphone array according to the spatial relative position of the pre-stored image capturing device and the microphone array, and the position information of the target sound source area relative to the image capturing device.
  • step S205 may include the following steps:
  • the spatial relative position of the image capturing device and the microphone array is known.
  • the two microphones m 1 and m 2 included in the microphone array are all located on the x-axis, and the image capturing device is The distance is both L. Therefore, the coordinates of the two microphones in the coordinate system of the image acquisition device can be determined according to the distance between the two microphones and the image acquisition device. Obtaining the coordinates of the two microphones m 1 , m 2 in the coordinate system of the image acquisition device, and the coordinates of the center point M of the target sound source region in the coordinate system of the image acquisition device, the center of the target sound source region can be determined. The relative position between the point M and the two microphones m 1 , m 2 .
  • the voice signal After receiving the voice signal through the microphone array, the voice signal is enhanced by using a minimum variance distortion-free response MVDR beamforming algorithm according to a relative position of the target sound source region and the microphone array.
  • the distance between any two microphones in the microphone array is greater than half of the wavelength of the voice signal.
  • the wavelength of the speech signal is the result obtained by dividing the propagation speed of the speech signal in the air by the frequency of the speech signal.
  • step S206 may include the following steps:
  • the linear distance between the center point of the target sound source area and each microphone in the microphone array can be calculated, and the target sound source can be further calculated.
  • the delay ⁇ t of any two of the above microphones, at this time, the delay ⁇ t is the time difference of the voice signals sent by the arbitrary two microphones respectively received by the target sound source region.
  • delay compensation is performed on any two microphones according to the delay ⁇ t, thereby enhancing the voice signal received by each microphone in the direction of the target sound source region, and suppressing the voice signal in other directions.
  • the coordinates of the microphone m 1 and the microphone m 2 in the coordinate system of the image acquisition device are respectively obtained, and the center point M of the target sound source region is determined under the coordinate system of the image acquisition device.
  • the coordinates of the line can be used to calculate the linear distance S 1 between the center point M of the target sound source region and the microphone m 1 , and the linear distance S 2 between the center point M of the target sound source region and the microphone m 2 .
  • of the linear distance between the center point M of the target sound source region and the microphone m 1 and the microphone m 2 can be calculated, and the absolute difference
  • is divided by the propagation speed of the speech signal in the air (generally 340 m / s), that is, the center point M of the target sound source region is obtained to the microphone m 1 and the microphone m 2 Delay ⁇ t, and delay compensation of the microphone m 1 and the microphone m 2 according to the delay ⁇ t, with the maximum output microphone m 1 and the microphone m 2 pointing to the voice signal in the direction of the center point M of the target sound source region, and Try to suppress the received voice signals in other directions.
  • the voice signal processing method described in FIG. 2 may further include the following steps:
  • the enhanced processed speech signal may be filtered by an IIR (Infinite Impulse Response) digital filter to appropriately raise a higher frequency band in the speech signal band, thereby improving the speech signal.
  • IIR Infinite Impulse Response
  • the image capturing device and the microphone array can be combined to locate the sound source, thereby improving the accuracy of the sound source positioning; further, in the voice enhancement In the process, accurate sound source localization is beneficial to improve the noise reduction effect of the speech signal.
  • FIG. 4 is a schematic structural diagram of a voice signal processing apparatus according to an embodiment of the present invention.
  • the voice signal processing apparatus shown in FIG. 4 can be used to execute the language disclosed in the embodiment of the present invention. Sound signal processing method.
  • the voice signal processing apparatus may include:
  • the collecting unit 401 is configured to collect an image of the target speaker by using the image capturing device.
  • the collecting unit 401 may collect an image of the target speaker in real time through the image collecting device when the voice signal processing device starts a video call or a hands-free conference.
  • the image capturing device may be one or more, may be integrated in the voice signal processing device, or may be independent of the external device of the voice signal processing device and maintain a communication connection with the voice signal processing device; the image capturing device may be a camera,
  • the device and the like are not limited in the embodiment of the present invention.
  • the first determining unit 402 is configured to determine, from the image, a mouth region of the target speaker as the target sound source region.
  • the voice signal processing device may detect whether the image of the face of the target speaker is included in the image, that is, the face detection process.
  • the face detection process There are several methods for common face detection: feature-based face detection, template matching face detection, appearance-based face detection, and so on.
  • the implementation process of the feature-based face detection method is to compare the feature information of the extracted image with the pre-stored face feature information to determine whether the face is included;
  • the implementation process of the template matching face detection method is The image is matched with a pre-established face template to determine whether a face is included;
  • the appearance-based face detection method is to compare the image with a pre-trained face and a non-face classifier to determine whether Contains faces.
  • the face detection method described above may be used alone or in combination.
  • the first determining unit 402 may adopt a Hal Haar mouth feature classifier, and locate the mouth on the face image. Approximate position; according to the principle that the facial facial feature distribution satisfies the one-third ratio, the position of the acquired mouth in the approximate position of the lower third of the face is determined as the final position of the mouth, and It is defined as a mouth area, which is the target sound source area.
  • the obtaining unit 403 is configured to acquire location information of the target sound source area relative to the image capturing device by using a point feature positioning manner.
  • the point feature positioning is a positioning method using a single frame image, which is based on Identifying the relative position and posture of the image acquisition device by using n feature points on the source region, that is, using the image acquisition device to capture an image containing n spatial points, and the coordinates of the n spatial points are known.
  • the coordinates of the n spatial points in the coordinate system of the image capturing device are determined, thereby obtaining position information of the target sound source region relative to the image capturing device.
  • n is an integer greater than zero.
  • the second determining unit 404 is configured to determine a relative position of the target sound source area and the microphone array according to the spatial relative position of the image storage device and the microphone array stored in advance, and the position information of the target sound source area and the image capturing device.
  • the microphone array includes at least two microphones, and each of the microphones may be an omnidirectional receiving type microphone, that is, a voice signal in each direction may be picked up.
  • the microphone array can be integrated inside the speech signal processing device or can be in communication with the speech signal processing device and in communication with the speech signal processing device.
  • the spatial relative position between the image capturing device and the microphone array may be known, and may be stored in advance in the memory of the voice signal processing device.
  • the second determining unit 404 can determine the target sound source region by using the spatial relative position between the image capturing device and the microphone array stored in advance, and the position information of the target sound source region and the image capturing device acquired by the acquiring unit 403. The relative position between the array and the microphone.
  • the processing unit 405 is configured to perform enhancement processing on the voice signal by using a minimum variance distortion-free response MVDR beamforming algorithm according to a relative position of the target sound source region and the microphone array after receiving the voice signal through the microphone array.
  • the processing is performed.
  • the unit 405 can perform enhancement processing on the voice signals collected by the respective microphones by using a beamforming technique to enhance the voice signals of the respective microphones in the direction of the target sound source, and suppress the received voice signals in other directions.
  • the beamforming technology performs weighting processing on the voice signals received by the respective microphones, enhances the voice signals in a specific direction, and weakens the voice signals in other directions, thereby obtaining a voice signal from a specific direction.
  • the specific direction is Each microphone points in the direction of the target source.
  • Mike The beamforming capability of the wind array allows it to provide a higher system output signal-to-noise ratio than a single microphone while capturing a directional sound source.
  • beamforming technology is quite common. Common beamforming algorithms include LMS algorithm, RLS algorithm, MVDR algorithm and so on.
  • the MVDR beamforming algorithm is selected in the embodiment of the present invention, and the principle is that the speech signal of interest is output without distortion, and the beam output noise variance is minimized. Compared with the LMS algorithm, the RLS algorithm, etc., the MVDR algorithm can increase the array gain, so the noise suppression ability is stronger.
  • the collecting unit 401 may collect an image of the target speaker through the image capturing device, and the first determining unit 402 determines the mouth region of the target speaker according to the image as the target sound source region, and the obtaining unit 403 may pass
  • the point feature locating mode acquires the location information of the target sound source region relative to the image capturing device
  • the second determining unit 404 is configured according to the spatial relative position of the image capturing device and the microphone array stored in advance, and the location information of the target sound source region relative to the image capturing device. Determining the relative position of the target sound source area and the microphone array.
  • the processing unit 405 After receiving the voice signal through the microphone array, the processing unit 405 uses the minimum variance distortion-free response MVDR beamforming algorithm to the voice signal according to the relative position of the target sound source area and the microphone array. Enhance processing.
  • the image acquisition device and the microphone array can be combined to locate the sound source, thereby improving the accuracy of the sound source localization; further, during the speech enhancement process, the accurate sound is obtained. Source positioning is beneficial to improve the noise reduction effect of the speech signal.
  • FIG. 5 is a schematic structural diagram of another voice signal processing apparatus according to an embodiment of the present invention.
  • the voice signal processing apparatus shown in FIG. 5 can be used to execute the voice signal processing method disclosed in the embodiment of the present invention.
  • the voice signal processing apparatus may include:
  • the collecting unit 501 is configured to collect an image of the target speaker by using the image capturing device.
  • the first determining unit 502 is configured to determine, from the image, a mouth region of the target speaker as the target sound source region.
  • the obtaining unit 503 is configured to acquire location information of the target sound source area relative to the image capturing device by using a point feature positioning manner.
  • the obtaining unit 503 may further include:
  • the first acquiring unit 5031 is configured to extract at least one point feature of the target sound source region, and acquire coordinates of the point feature in a coordinate system of the image according to the pixel value of the point feature, where the coordinate origin in the coordinate system of the image is
  • the optical axis of the image capture device is a vertical projection point on the image, and the two axes perpendicular to each other in the coordinate system of the image are in the plane of the image.
  • a second acquiring unit 5032 configured to acquire coordinates of a center point of the target sound source region in a coordinate system of the image capturing device according to coordinates of the point feature in a coordinate system of the image and a focal length of the image capturing device, as a target sound source
  • the position information of the region relative to the image capturing device wherein the coordinate origin in the coordinate system of the image capturing device is the center point of the image capturing device, and one of the three axes perpendicular to each other in the coordinate system of the image capturing device It is perpendicular to the plane of the image, and the other two axes are parallel to the two axes of the coordinate system of the image.
  • the second determining unit 504 is configured to determine a relative position of the target sound source area and the microphone array according to the spatial relative position of the image storage device and the microphone array stored in advance, and the position information of the target sound source area and the image capturing device.
  • the second determining unit 504 may further include:
  • the first determining subunit 5041 is configured to determine coordinates of the microphone array in a coordinate system of the image capturing device according to a spatial relative position of the image storage device and the microphone array stored in advance.
  • a second determining subunit 5042 configured to determine a center point of the target sound source area according to coordinates of the microphone array in a coordinate system of the image capturing device and coordinates of a center point of the target sound source area in a coordinate system of the image capturing device The relative position to the microphone array as the relative position of the target sound source area to the microphone array.
  • the processing unit 505 is configured to perform enhancement processing on the voice signal by using a minimum variance distortion-free response MVDR beamforming algorithm according to a relative position of the target sound source region and the microphone array after receiving the voice signal through the microphone array.
  • the distance between any two microphones in the microphone array is greater than half of the wavelength of the voice signal.
  • the processing unit 505 may further include:
  • a first calculating subunit 5051 configured to: after receiving the voice signal through the microphone array, according to the mesh Calculating the relative position of the source region and the microphone array, calculating the linear distance from the center point of the target sound source region to each microphone in the microphone array, and calculating the sound path difference from the center point of the target sound source region to any two microphones, wherein
  • the sound path difference is an absolute difference between a linear distance from a center point of the target sound source region to one of the two microphones and a linear distance from a center point of the target sound source region to another microphone of any two of the above microphones value.
  • the second calculating sub-unit 5052 is configured to calculate a delay from a center point of the target sound source area to any two of the microphones according to a sound path difference between the center point of the target sound source area and any two of the above microphones.
  • the delay compensation sub-unit 5053 is configured to perform delay compensation on any two of the microphones according to a delay from a center point of the target sound source area to any two of the above microphones, so as to enhance a direction of the target sound source area received by each microphone. Voice signal.
  • the image capturing device and the microphone array can be combined to locate the sound source, thereby improving the accuracy of the sound source positioning; further, the voice enhancement is performed.
  • accurate sound source localization is beneficial to improve the noise reduction effect of the speech signal.
  • FIG. 6 is a schematic structural diagram of still another voice signal processing apparatus according to an embodiment of the present invention.
  • the voice signal processing apparatus shown in FIG. 6 can be used to perform the voice signal processing method disclosed in the embodiment of the present invention.
  • the voice signal processing apparatus 600 may include at least one processor 601, such as a CPU (Central Processing Unit), at least one image acquisition device 602, a microphone array 603, a memory 604, and a communication bus 605. .
  • the communication bus 605 is used to implement connection communication between these components.
  • the structure of the speech signal processing apparatus shown in FIG. 6 does not constitute a limitation of the present invention, and it may be a bus-shaped structure or a star-shaped structure, and may also include FIG. More or fewer parts, or some parts, or different parts.
  • the image capturing device 602 may be a camera, a camera, or the like for collecting an image of a target speaker; the microphone array 603 includes at least two microphones for receiving voice signals in various directions.
  • the memory 604 may be a high speed RAM memory or a non-volatile memory, such as at least one disk memory.
  • the memory 604 can optionally also be at least one storage device located remotely from the aforementioned processor 601.
  • the memory 604 as a computer storage medium may include an operating system, a voice signal processing program, data, and the like, which are not limited in the embodiment of the present invention.
  • the processor 601 can be used to call a speech signal processing program stored in the memory 604 to perform the following operations:
  • the speech signal After receiving the speech signal through the microphone array 603, the speech signal is enhanced by the minimum variance distortion-free response MVDR beamforming algorithm according to the relative position of the target sound source region and the microphone array 603.
  • the manner in which the processor 601 obtains the location information of the target sound source region relative to the image capturing device 602 by using the point feature positioning manner may be:
  • the coordinates of the center point of the target sound source region in the coordinate system of the image capturing device 602 are acquired as the target sound source region relative to the image capturing device 602.
  • Position information wherein the coordinate origin in the coordinate system of the image capturing device 602 is the center point of the image capturing device 602, and the two in the coordinate system of the image capturing device 602
  • One of the three axes perpendicular to each other is perpendicular to the plane of the image, and the remaining two axes are respectively parallel to the two axes of the coordinate system of the image.
  • the processor 601 determines the target sound source region according to the spatial relative position of the image capturing device 602 and the microphone array 603 included in the voice signal processing data stored in advance by the memory 604, and the position information of the target sound source region relative to the image capturing device 602.
  • the manner of the relative position of the microphone array 603 may specifically be:
  • the relative position of the center point of the target sound source region to the microphone array 603 is determined according to the coordinates of the microphone array 603 in the coordinate system of the image capturing device 602 and the coordinates of the center point of the target sound source region in the coordinate system of the image capturing device 602.
  • the position is the relative position of the target sound source area to the microphone array 603.
  • the distance between any two microphones in the microphone array 603 is greater than half of the wavelength of the voice signal.
  • the processor 601 after receiving the voice signal through the microphone array 603, the processor 601 enhances the voice signal by using the minimum variance distortion-free response MVDR beamforming algorithm according to the relative position of the target sound source region and the microphone array 603.
  • the specific method can be:
  • any two of the above The microphones are time-delay compensated to enhance the speech signal received by each microphone in the direction of the target sound source area.
  • the image capturing device and the microphone array can be combined to locate the sound source, thereby improving the accuracy of the sound source positioning; further, the voice enhancement is performed.
  • accurate sound source localization is beneficial to improve the noise reduction effect of the speech signal.
  • the voice signal processing apparatus introduced in the embodiment of the present invention may implement some or all of the processes in the voice signal processing method embodiment introduced by the present invention in conjunction with FIG. 1 or FIG.
  • the units in the apparatus of the embodiment of the present invention may be combined, divided, and deleted according to actual needs.
  • the program may be stored in a computer readable storage medium, and the storage medium may include: Flash disk, Read-Only Memory (ROM), Random Access Memory (RAM), disk or optical disk.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明实施例公开了一种语音信号处理方法及装置,其中,该方法包括:通过图像采集设备采集目标发言人的图像;从该图像中确定目标发言人的嘴部区域,作为目标声源区域;通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息;根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置;在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。本发明实施例可以提高声源定位的准确度以及有效提高语音信号的降噪效果。

Description

一种语音信号处理方法及装置 技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音信号处理方法及装置。
背景技术
在实际应用中,一般是通过麦克风来拾取语音信号,而拾取的语音信号往往会受到环境噪声、其他说话人的声音、混响等信号的干扰,使得语音的质量严重下降,因此,需要对拾取的语音信号进行有效的降噪处理,以抑制噪声,提高语音质量。
目前,常见的一种降噪技术是基于麦克风阵列的降噪方法,其原理是利用麦克风阵列定位声源,以确定波束方向,将麦克风接收到的且在该波束方向上的语音信号进行增强,同时尽量抑制其他方向上的干扰。在声源单一且环境噪声不复杂等情况下采用上述方法进行降噪会有较明显效果,然而,当多声源并发且环境噪声较为复杂时,容易引起来波方向角的误判,以致在进行声源定位时准确度下降,从而使得降噪效果降低。
发明内容
本发明实施例公开了一种语音信号处理方法及装置,能够提高声源定位的准确度以及有效提高语音信号的降噪效果。
本发明实施例第一方面公开了一种语音信号处理方法,包括:
通过图像采集设备采集目标发言人的图像;
从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。
结合本发明实施例第一方面,在本发明实施例第一方面的第一种可能的实现方式中,所述通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息,包括:
提取所述目标声源区域的至少一个点特征,根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标,其中,所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点,且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内;
根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距,获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,作为所述目标声源区域相对所述图像采集设备的位置信息;其中,所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点,且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直,其余两个轴分别与所述图像的坐标系的两个轴平行。
结合本发明实施例第一方面的第一种可能的实现方式,在本发明实施例第一方面的第二种可能的实现方式中,所述根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置,包括:
根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标;
根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标,以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,确定所述目标声源区域的中心点与所述麦克风阵列的相对位置,作为所述目标声源区域与所述麦克风阵列的相对位置。
结合本发明实施例第一方面或第一方面的第一种至第二种中的任一种可 能的实现方式,在本发明实施例第一方面的第三种可能的实现方式中,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
结合本发明实施例第一方面或第一方面的第一种至第三种中的任一种可能的实现方式,在本发明实施例第一方面的第四种可能的实现方式中,所述在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理,包括:
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点与任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
本发明实施例第二方面公开了一种语音信号处理装置,包括:
采集单元,用于通过图像采集设备采集目标发言人的图像;
第一确定单元,用于从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
获取单元,用于通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
第二确定单元,用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
处理单元,用于在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。
结合本发明实施例第二方面,在本发明实施例第二方面的第一种可能的实现方式中,所述获取单元包括:
第一获取子单元,用于提取所述目标声源区域的至少一个点特征,根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标,其中,所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点,且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内;
第二获取子单元,用于根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距,获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,作为所述目标声源区域相对所述图像采集设备的位置信息;其中,所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点,且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直,其余两个轴分别与所述图像的坐标系的两个轴平行。
结合本发明实施例第二方面的第一种可能的实现方式,在本发明实施例第二方面的第二种可能的实现方式中,所述第二确定单元包括:
第一确定子单元,用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标;
第二确定子单元,用于根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标,以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,确定所述目标声源区域的中心点与所述麦克风阵列的相对位置,作为所述目标声源区域与所述麦克风阵列的相对位置。
结合本发明实施例第二方面或第二方面的第一种至第二种中的任一种可能的实现方式,在本发明实施例第二方面的第三种可能的实现方式中,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
结合本发明实施例第二方面或第二方面的第一种至第三种中的任一种可 能的实现方式,在本发明实施例第二方面的第四种可能的实现方式中,所述处理单元包括:
第一计算子单元,用于在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
第二计算子单元,用于根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
时延补偿子单元,用于根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
本发明实施例第三方面公开了一种语音信号处理装置,包括:处理器、存储器、通信总线、图像采集设备和麦克风阵列;
其中,所述存储器用于存储程序和数据;
所述通信总线用于建立所述处理器、所述存储器、所述图像采集设备和所述麦克风阵列之间的连接通信;
所述处理器用于调用所述存储器存储的程序,执行如下步骤:
通过所述图像采集设备采集目标发言人的图像;
从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。
结合本发明实施例第三方面,在本发明实施例第三方面的第一种可能的实现方式中,所述处理器通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息的方式具体为:
提取所述目标声源区域的至少一个点特征,根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标,其中,所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点,且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内;
根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距,获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,作为所述目标声源区域相对所述图像采集设备的位置信息;其中,所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点,且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直,其余两个轴分别与所述图像的坐标系的两个轴平行。
结合本发明实施例第三方面的第一种可能的实现方式,在本发明实施例第三方面的第二种可能的实现方式中,所述处理器根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置的方式具体为:
根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标;
根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标,以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,确定所述目标声源区域的中心点与所述麦克风阵列的相对位置,作为所述目标声源区域与所述 麦克风阵列的相对位置。
结合本发明实施例第三方面或第三方面的第一种至第二种中的任一种可能的实现方式,在本发明实施例第三方面的第三种可能的实现方式中,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
结合本发明实施例第三方面或第三方面的第一种至第三种中的任一种可能的实现方式,在本发明实施例第三方面的第四种可能的实现方式中,所述处理器在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理的方式具体为:
在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
本发明实施例中,可以通过图像采集设备采集目标发言人的图像,根据图像确定目标发言人的嘴部区域,以作为目标声源区域,可以通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息,并根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置,当通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。可见,本发明实施 例可以将图像采集设备和麦克风阵列结合起来对声源进行定位,从而能够提高声源定位的准确度;进一步地,在语音增强过程中,准确的声源定位有利于提高语音信号的降噪效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种语音信号处理方法的流程示意图;
图2是本发明实施例公开的另一种语音信号处理方法的流程示意图;
图3是本发明实施例公开的一种目标声源定位的坐标示意图;
图4是本发明实施例公开的一种语音信号处理装置的结构示意图;
图5是本发明实施例公开的另一种语音信号处理装置的结构示意图;
图6是本发明实施例公开的又一种语音信号处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种语音信号处理方法及装置,能够提高声源定位的准确度以及有效提高语音信号的降噪效果。以下分别进行详细说明。
请参阅图1,图1是本发明实施例公开的一种语音信号处理方法的流程示意图。如图1所示,该语音信号处理方法可以包括以下步骤:
S101、通过图像采集设备采集目标发言人的图像。
本发明实施例中,可以是语音信号处理装置通过图像采集设备实时采集目 标发言人的图像,具体可以是在语音信号处理装置开启视频通话或免提会议等模式时通过图像采集设备实时采集目标发言人的图像。其中,语音信号处理装置可以包括但不限于智能手机、个人电脑、多媒体播放器、可视电话以及可实现通信的装置等。
本发明实施例中,图像采集设备可以是一个或多个,可以集成在语音信号处理装置内部,也可以是独立于语音信号处理装置的外部设备且与语音信号处理装置保持通信连接;图像采集设备可以是摄像头、相机等设备,本发明实施例不作限定。
S102、从该图像中确定目标发言人的嘴部区域,作为目标声源区域。
在一个实施例中,可以在从该图像中确定目标发言人的嘴部区域之前,检测该图像中是否包含目标发言人的人脸图像,即人脸检测的过程。常见的人脸检测有以下几种方法:基于特征的人脸检测法、模板匹配的人脸检测法、基于外观的人脸检测法等等。其中,基于特征的人脸检测法的实现过程为将提取的图像的特征信息与预先存储的人脸特征信息进行比较,以判断是否包含人脸;模板匹配的人脸检测法的实现过程为将图像与预先建立的人脸模板进行匹配,以判断是否包含人脸;基于外观的人脸检测法的实现过程为将图像与预先训练的人脸和非人脸分类器进行比对,以判断是否包含人脸。在该实施例中,上述人脸检测方法可以单独使用,也可以结合使用。
在一个实施例中,当该图像中包含人脸图像时,在该人脸图像区域,采用哈尔Haar嘴部特征分类器,定位嘴部在该人脸图像上的大致位置;根据人脸面部特征分布满足三分之一比例的原则,将获取的嘴部的大致位置中满足在人脸下部1/3区域的位置,确定为嘴部的最终位置,并将其划定为嘴部区域,该嘴部区域即为目标声源区域。
S103、通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息。
本发明实施例中,点特征定位是一种运用单帧图像的定位方法,是根据目标声源区域上n个特征点来确定图像采集设备的相对位置和姿态,也就是利用 图像采集设备摄取一幅包含有n个空间点的图像,且这n个空间点的坐标已知,来确定这n个空间点在图像采集设备的坐标系下的坐标,从而获得目标声源区域相对图像采集设备的位置信息。其中,n为大于0的整数。
S104、根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置。
本发明实施例中,麦克风阵列包括至少两个麦克风,且各个麦克风均可以为全向接收型麦克风,即可以拾取各个方向的语音信号。麦克风阵列可以集成在语音信号处理装置的内部,也可以独立于语音信号处理装置且与语音信号处理装置保持通信连接。
本发明实施例中,图像采集设备与麦克风阵列之间的空间相对位置可以是已知的,可以预先存储在语音信号处理装置的存储器中。通过预先存储的图像采集设备与麦克风阵列之间的空间相对位置,以及执行步骤S103时获取到的目标声源区域相对图像采集设备的位置信息,可以确定出目标声源区域与麦克风阵列之间的相对位置。
S105、在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。
本发明实施例中,语音信号处理装置在通过麦克风阵列中的各个麦克风采集到来自任意方向的语音信号后,在获取到目标声源区域与麦克风阵列之间的相对位置的情况下,可以利用波束形成技术将各个麦克风采集到的语音信号进行增强处理,以增强各麦克风指向目标声源方向的语音信号,而抑制接收到的其他方向上的语音信号。
本发明实施例中,波束形成技术是通过对各个麦克风接收到的语音信号进行加权处理,增强特定方向语音信号而削弱其它方向语音信号,从而得到来自特定方向的语音信号,此时,特定方向为各麦克风指向目标声源的方向。麦克风阵列的波束形成能力使其可以在捕捉方向性声源的同时,提供比单麦克风更 高的系统输出信噪比。目前,波束形成技术运用相当普遍,常见的波束形成算法有LMS(Least mean square,最小均方)算法、RLS(Recursive Least Squares,递归最小二乘法)算法、MVDR(Minimum Variance Distortionless Response,最小方差无失真响应)算法等等。本发明实施例选用的是MVDR波束形成算法,其原理为让感兴趣的语音信号无失真输出,而使得波束输出噪声方差最小。与LMS算法、RLS算法等相比,MVDR算法能够提高阵增益,因此对噪声的抑制能力更强。
本发明实施例中,可以通过图像采集设备采集目标发言人的图像,根据图像确定目标发言人的嘴部区域,以作为目标声源区域,可以通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息,并根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置,当通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。通过实施图1所描述的语音信号处理方法,可以将图像采集设备和麦克风阵列结合起来对声源进行定位,从而能够提高声源定位的准确度;进一步地,在语音增强过程中,准确的声源定位有利于提高语音信号的降噪效果。
请参阅图2,图2是本发明实施例公开的另一种语音信号处理方法的流程示意图。如图2所示,该语音信号处理方法可以包括以下步骤:
S201、通过图像采集设备采集目标发言人的图像。
本发明实施例中,当语音信号处理装置开启视频通话或者免提会议等模式时,可以通过一个或多个图像采集设备采集目标发言人的图像。其中,图像采集设备可以是摄像头、相机等,本发明实施例不作限定。
本发明实施例中,目标发言人可以是一个,也可以是多个。可以利用一个图像采集设备采集多个目标发言人的图像,也可以利用多个图像采集设备采集多个目标发言人的图像。
S202、从该图像中确定目标发言人的嘴部区域,作为目标声源区域。
本发明实施例中,可以按照预设的算法从该图像中确定出目标发言人的嘴部区域,并将其定位为目标声源区域。当目标发言人不止一个时,则可以同时确定出多个目标发言人的嘴部区域,以得出多个目标声源区域。
S203、提取目标声源区域的至少一个点特征,根据点特征的像素值获取点特征在该图像的坐标系下的坐标,其中,该图像的坐标系中的坐标原点为图像采集设备的光轴在该图像上的垂直投影点,且该图像的坐标系中的相互垂直的两个轴在该图像所在平面内。
本发明实施例中,在目标声源区域上可以提取若干个点特征,这些点特征在该图像内都有与之对应的像素值,从而可以将这些像素值看作是点特征在该图像内构建的坐标系下的坐标。该图像的坐标系为二维坐标系,其中,坐标原点为图像采集设备的光轴在该图像上的垂直投影点,两个轴互相垂直且处于该图像所在平面内。
S204、根据点特征在该图像的坐标系下的坐标和图像采集设备的焦距,获取目标声源区域的中心点在图像采集设备的坐标系下的坐标,作为目标声源区域相对图像采集设备的位置信息;其中,图像采集设备的坐标系中的坐标原点为图像采集设备的中心点,且图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与该图像所在平面垂直,其余两个轴分别与该图像的坐标系的两个轴平行。
本发明实施例中,可以以图像采集设备的中心点(即光心)为坐标原点构建图像采集设备的坐标系,图像采集设备的坐标系为三维坐标系,三个轴两两互相垂直,其中一个轴与该图像所在平面垂直,另外两个轴分别与该图像的坐标系的两个轴平行。在点特征在该图像的坐标系下的坐标已知,以及图像采集设备的焦距已知的情况下,可以利用图像采集设备的坐标系与该图像的坐标系的位置关系,确定出目标声源区域上的点特征在图像采集设备的坐标系下的坐标,并选取目标声源区域的其中一个点特征的坐标或者是目标声源区域的中心点的坐标作为目标声源区域相对图像采集设备的位置信息。
请一并参阅图3,图3是本发明实施例公开的一种目标声源定位的坐标示意图。其中,图3中仅示出了一个图像采集设备,且麦克风阵列只包括两个麦克风m1和m2的情况。本领域技术人员可以理解,图3中示出的图像采集设备和麦克风阵列的排列并不构成对本发明的限定,它们既可以处在同一直线上,也可以任意排列,还可以包括比图3所示的更多的图像采集设备和麦克风。
其中,o点为图像采集设备的中心点(即光心),o'点为图像采集设备的光轴在该图像上的垂直投影点,该图像的坐标系以o'点为坐标原点,两个轴u轴和v轴互相垂直,且在该图像所在平面内。在目标声源区域上选取若干个点特征,且这些点特征在该图像的坐标系下坐标已知,其中点M为目标声源区域的中心点,且点M在该图像的坐标系下的坐标也已知。图像采集设备的坐标系以o点为坐标原点,三个轴x轴、y轴和z轴互相垂直,其中,y轴与该图像所在平面垂直,垂足即为o'点,x轴与u轴平行,z轴与v轴平行,o o'为图像采集设备的焦距。根据两个坐标系的位置关系以及点特征在该图像的坐标系下的坐标已知,即可确定出点特征在图像采集设备的坐标系下的坐标,即可确定点M在图像采集设备的坐标系下的坐标,从而获得目标声源区域相对图像采集设备的位置信息。
S205、根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置。
本发明实施例中,步骤S205的具体实施方式可以包括以下步骤:
21)根据预先存储的图像采集设备与麦克风阵列的空间相对位置,确定麦克风阵列在图像采集设备的坐标系下的坐标;
22)根据麦克风阵列在图像采集设备的坐标系下的坐标,以及目标声源区域的中心点在图像采集设备的坐标系下的坐标,确定目标声源区域的中心点与麦克风阵列的相对位置,作为目标声源区域与麦克风阵列的相对位置。
本发明实施例中,图像采集设备与麦克风阵列的空间相对位置是已知的,如图3所示,麦克风阵列包括的两个麦克风m1、m2均位于x轴上,且与图像采 集设备的距离均为L,因此,可以根据两个麦克风与图像采集设备的距离确定出两个麦克风在图像采集设备的坐标系下的坐标。获得两个麦克风m1、m2在图像采集设备的坐标系下的坐标,以及目标声源区域的中心点M在图像采集设备的坐标系下的坐标,即可确定出目标声源区域的中心点M与两个麦克风m1、m2之间的相对位置。
S206、在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。
本发明实施例中,麦克风阵列中的任意两个麦克风之间的距离大于语音信号的波长的一半。其中,语音信号的波长为语音信号在空气中的传播速度除以语音信号的频率所获得的结果。
本发明实施例中,步骤S206的具体实施方式可以包括以下步骤:
23)在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,计算目标声源区域的中心点至麦克风阵列中各个麦克风的直线距离,并计算目标声源区域的中心点与任意两个麦克风的声程差,其中,该声程差为目标声源区域的中心点至上述任意两个麦克风中的一个麦克风的直线距离与目标声源区域的中心点至上述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
24)根据目标声源区域的中心点至上述任意两个麦克风的声程差,计算目标声源区域的中心点至上述任意两个麦克风的时延;
25)根据目标声源区域的中心点至上述任意两个麦克风的时延对上述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向目标声源区域方向的语音信号。
本发明实施例中,当目标声源区域与麦克风阵列的相对位置已知的情况下,可以计算目标声源区域的中心点至麦克风阵列中各个麦克风的直线距离,并可以进一步计算出目标声源区域的中心点至任意两个麦克风的声程差。接着,将该声程差除以语音信号的传播速度,即可获得目标声源区域的中心点至 上述任意两个麦克风的时延△t,此时,时延△t为上述任意两个麦克风分别接收到目标声源区域发出的语音信号的时间差值。并根据该时延△t对上述任意两个麦克风进行时延补偿,从而增强各麦克风接收到的指向目标声源区域方向的语音信号,而抑制其他方向上的语音信号。
举例来说,如图3所示,分别获得了麦克风m1和麦克风m2在图像采集设备的坐标系下的坐标,且确定了目标声源区域的中心点M在图像采集设备的坐标系下的坐标,则可以计算出目标声源区域的中心点M与麦克风m1之间的直线距离S1,以及目标声源区域的中心点M与麦克风m2之间的直线距离S2。进一步地,可以计算出目标声源区域的中心点M与麦克风m1和麦克风m2的直线距离的绝对差值|S1-S2|,并将该绝对差值|S1-S2|作为目标声源区域的中心点M至麦克风m1和麦克风m2的声程差。接着,将声程差|S1-S2|除以语音信号在空气中的传播速度(一般为340m/s),即得出目标声源区域的中心点M至麦克风m1和麦克风m2的时延△t,并根据时延△t对麦克风m1和麦克风m2进行时延补偿,以最大输出麦克风m1和麦克风m2指向目标声源区域的中心点M方向的语音信号,并尽量抑制接收到的其他方向上的语音信号。
在一个实施例中,图2所描述的语音信号处理方法还可以包括以下步骤:
26)提高增强处理后的语音信号的增益,并对该语音信号进行滤波处理。
在该实施例中,可以利用IIR(Infinite Impulse Response,无限脉冲响应)数字滤波器对增强处理后的语音信号进行滤波处理,以适当提升语音信号频带中的较高频带,从而可以提高语音信号的清晰度。
本发明实施例中,通过实施图2所描述的语音信号处理方法,可以将图像采集设备和麦克风阵列结合起来对声源进行定位,从而能够提高声源定位的准确度;进一步地,在语音增强过程中,准确的声源定位有利于提高语音信号的降噪效果。
请参阅图4,图4是本发明实施例公开的一种语音信号处理装置的结构示意图。其中,图4所示的语音信号处理装置可以用于执行本发明实施例公开的语 音信号处理方法。如图4所示,该语音信号处理装置可以包括:
采集单元401,用于通过图像采集设备采集目标发言人的图像。
本发明实施例中,采集单元401可以是在语音信号处理装置开启视频通话或免提会议等模式时通过图像采集设备实时采集目标发言人的图像。其中,图像采集设备可以是一个或多个,可以集成在语音信号处理装置内部,也可以是独立于语音信号处理装置的外部设备且与语音信号处理装置保持通信连接;图像采集设备可以是摄像头、相机等设备,本发明实施例不作限定。
第一确定单元402,用于从该图像中确定目标发言人的嘴部区域,作为目标声源区域。
在一个实施例中,在第一确定单元402从该图像中确定目标发言人的嘴部区域之前,语音信号处理装置可以检测该图像中是否包含目标发言人的人脸图像,即人脸检测的过程。常见的人脸检测有以下几种方法:基于特征的人脸检测法、模板匹配的人脸检测法、基于外观的人脸检测法等等。其中,基于特征的人脸检测法的实现过程为将提取的图像的特征信息与预先存储的人脸特征信息进行比较,以判断是否包含人脸;模板匹配的人脸检测法的实现过程为将图像与预先建立的人脸模板进行匹配,以判断是否包含人脸;基于外观的人脸检测法的实现过程为将图像与预先训练的人脸和非人脸分类器进行比对,以判断是否包含人脸。在该实施例中,上述人脸检测方法可以单独使用,也可以结合使用。
在一个实施例中,当检测出该图像中包含人脸图像时,在该人脸图像区域,第一确定单元402可以采用哈尔Haar嘴部特征分类器,定位嘴部在该人脸图像上的大致位置;根据人脸面部特征分布满足三分之一比例的原则,将获取的嘴部的大致位置中满足在人脸下部1/3区域的位置,确定为嘴部的最终位置,并将其划定为嘴部区域,该嘴部区域即为目标声源区域。
获取单元403,用于通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息。
本发明实施例中,点特征定位是一种运用单帧图像的定位方法,是根据目 标声源区域上n个特征点来确定图像采集设备的相对位置和姿态,也就是利用图像采集设备摄取一幅包含有n个空间点的图像,且这n个空间点的坐标已知,来确定这n个空间点在图像采集设备的坐标系下的坐标,从而获得目标声源区域相对图像采集设备的位置信息。其中,n为大于0的整数。
第二确定单元404,用于根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置。
本发明实施例中,麦克风阵列包括至少两个麦克风,且各个麦克风均可以为全向接收型麦克风,即可以拾取各个方向的语音信号。麦克风阵列可以集成在语音信号处理装置的内部,也可以独立于语音信号处理装置且与语音信号处理装置保持通信连接。
本发明实施例中,图像采集设备与麦克风阵列之间的空间相对位置可以是已知的,可以预先存储在语音信号处理装置的存储器中。第二确定单元404通过预先存储的图像采集设备与麦克风阵列之间的空间相对位置,以及通过上述获取单元403获取到的目标声源区域相对图像采集设备的位置信息,可以确定出目标声源区域与麦克风阵列之间的相对位置。
处理单元405,用于在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。
本发明实施例中,在通过麦克风阵列中的各个麦克风采集到来自任意方向的语音信号后,在上述第二确定单元404确定出目标声源区域与麦克风阵列之间的相对位置的情况下,处理单元405可以利用波束形成技术将各个麦克风采集到的语音信号进行增强处理,以增强各麦克风指向目标声源方向的语音信号,而抑制接收到的其他方向上的语音信号。
本发明实施例中,波束形成技术是通过对各个麦克风接收到的语音信号进行加权处理,增强特定方向语音信号而削弱其它方向语音信号,从而得到来自特定方向的语音信号,此时,特定方向为各麦克风指向目标声源的方向。麦克 风阵列的波束形成能力使其可以在捕捉方向性声源的同时,提供比单麦克风更高的系统输出信噪比。目前,波束形成技术运用相当普遍,常见的波束形成算法有LMS算法、RLS算法、MVDR算法等等。本发明实施例选用的是MVDR波束形成算法,其原理为让感兴趣的语音信号无失真输出,而使得波束输出噪声方差最小。与LMS算法、RLS算法等相比,MVDR算法能够提高阵增益,因此对噪声的抑制能力更强。
本发明实施例中,采集单元401可以通过图像采集设备采集目标发言人的图像,第一确定单元402根据该图像确定目标发言人的嘴部区域,以作为目标声源区域,获取单元403可以通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息,第二确定单元404根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置,处理单元405在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。通过实施图4所示的语音信号处理装置,可以将图像采集设备和麦克风阵列结合起来对声源进行定位,从而能够提高声源定位的准确度;进一步地,在语音增强过程中,准确的声源定位有利于提高语音信号的降噪效果。
请参阅图5,图5是本发明实施例公开的另一种语音信号处理装置的结构示意图。其中,图5所示的语音信号处理装置可以用于执行本发明实施例公开的语音信号处理方法。如图5所示,该语音信号处理装置可以包括:
采集单元501,用于通过图像采集设备采集目标发言人的图像。
第一确定单元502,用于从该图像中确定目标发言人的嘴部区域,作为目标声源区域。
获取单元503,用于通过点特征定位方式获取目标声源区域相对图像采集设备的位置信息。
在图5所示的语音信号处理装置中,获取单元503可以进一步包括:
第一获取单元5031,用于提取目标声源区域的至少一个点特征,根据点特征的像素值获取点特征在该图像的坐标系下的坐标,其中,该图像的坐标系中的坐标原点为图像采集设备的光轴在该图像上的垂直投影点,且该图像的坐标系中的相互垂直的两个轴在该图像所在平面内。
第二获取单元5032,用于根据点特征在该图像的坐标系下的坐标和图像采集设备的焦距,获取目标声源区域的中心点在图像采集设备的坐标系下的坐标,作为目标声源区域相对图像采集设备的位置信息;其中,图像采集设备的坐标系中的坐标原点为图像采集设备的中心点,且图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与该图像所在平面垂直,其余两个轴分别与该图像的坐标系的两个轴平行。
第二确定单元504,用于根据预先存储的图像采集设备与麦克风阵列的空间相对位置,以及目标声源区域相对图像采集设备的位置信息,确定目标声源区域与麦克风阵列的相对位置。
在图5所示的语音信号处理装置中,第二确定单元504可以进一步包括:
第一确定子单元5041,用于根据预先存储的图像采集设备与麦克风阵列的空间相对位置,确定麦克风阵列在图像采集设备的坐标系下的坐标。
第二确定子单元5042,用于根据麦克风阵列在图像采集设备的坐标系下的坐标,以及目标声源区域的中心点在图像采集设备的坐标系下的坐标,确定目标声源区域的中心点与麦克风阵列的相对位置,作为目标声源区域与麦克风阵列的相对位置。
处理单元505,用于在通过麦克风阵列接收到语音信号后,根据目标声源区域与麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。
本发明实施例中,麦克风阵列中的任意两个麦克风之间的距离大于语音信号的波长的一半。
在图5所示的语音信号处理装置中,处理单元505可以进一步包括:
第一计算子单元5051,用于在通过麦克风阵列接收到语音信号后,根据目 标声源区域与麦克风阵列的相对位置,计算目标声源区域的中心点至麦克风阵列中各个麦克风的直线距离,并计算目标声源区域的中心点至任意两个麦克风的声程差,其中,该声程差为目标声源区域的中心点至上述任意两个麦克风中的一个麦克风的直线距离与目标声源区域的中心点至上述任意两个麦克风中的另一个麦克风的直线距离的绝对差值。
第二计算子单元5052,用于根据目标声源区域的中心点至上述任意两个麦克风的声程差,计算目标声源区域的中心点至上述任意两个麦克风的时延。
时延补偿子单元5053,用于根据目标声源区域的中心点至上述任意两个麦克风的时延对上述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向目标声源区域方向的语音信号。
本发明实施例中,通过实施图5所示的语音信号处理装置,可以将图像采集设备和麦克风阵列结合起来对声源进行定位,从而能够提高声源定位的准确度;进一步地,在语音增强过程中,准确的声源定位有利于提高语音信号的降噪效果。
请参阅图6,图6是本发明实施例公开的又一种语音信号处理装置的结构示意图。其中,图6所示的语音信号处理装置可以用于执行本发明实施例公开的语音信号处理方法。如图6所示,该语音信号处理装置600可以包括:至少一个处理器601,例如CPU(Central Processing Unit,中央处理器),至少一个图像采集设备602,麦克风阵列603,存储器604以及通信总线605。其中,通信总线605用于实现这些组件之间的连接通信。本领域技术人员可以理解,图6中示出的语音信号处理装置的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图6所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例中,图像采集设备602可以是摄像头、相机等,用于采集目标发言人的图像;麦克风阵列603包括至少两个麦克风,用于接收各个方向上的语音信号。
本发明实施例中,存储器604可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。如图6所示,作为一种计算机存储介质的存储器604中可以包括操作系统、语音信号处理程序和数据等,本发明实施例不作限定。
在图6所示的语音信号处理装置中,处理器601可以用于调用存储器604中存储的语音信号处理程序以执行以下操作:
通过图像采集设备602采集目标发言人的图像;
从该图像中确定目标发言人的嘴部区域,作为目标声源区域;
通过点特征定位方式获取目标声源区域相对图像采集设备602的位置信息;
根据存储器604预先存储的语音信号处理数据包括的图像采集设备602与麦克风阵列603的空间相对位置,以及目标声源区域相对图像采集设备602的位置信息,确定目标声源区域与麦克风阵列603的相对位置;
在通过麦克风阵列603接收到语音信号后,根据目标声源区域与麦克风阵列603的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理。
本发明实施例中,处理器601通过点特征定位方式获取目标声源区域相对图像采集设备602的位置信息的方式具体可以为:
提取目标声源区域的至少一个点特征,根据点特征的像素值获取点特征在该图像的坐标系下的坐标,其中,该图像的坐标系中的坐标原点为图像采集设备602的光轴在该图像上的垂直投影点,且该图像的坐标系中的相互垂直的两个轴在该图像所在平面内;
根据点特征在该图像的坐标系下的坐标和图像采集设备602的焦距,获取目标声源区域的中心点在图像采集设备602的坐标系下的坐标,作为目标声源区域相对图像采集设备602的位置信息;其中,图像采集设备602的坐标系中的坐标原点为图像采集设备602的中心点,且图像采集设备602的坐标系中的两两 互相垂直的三个轴中的一个轴与该图像所在平面垂直,其余两个轴分别与该图像的坐标系的两个轴平行。
相应地,处理器601根据存储器604预先存储的语音信号处理数据包括的图像采集设备602与麦克风阵列603的空间相对位置,以及目标声源区域相对图像采集设备602的位置信息,确定目标声源区域与麦克风阵列603的相对位置的方式具体可以为:
根据存储器604预先存储的语音信号处理数据包括的图像采集设备602与麦克风阵列603的空间相对位置,确定麦克风阵列603在图像采集设备602的坐标系下的坐标;
根据麦克风阵列603在图像采集设备602的坐标系下的坐标,以及目标声源区域的中心点在图像采集设备602的坐标系下的坐标,确定目标声源区域的中心点与麦克风阵列603的相对位置,作为目标声源区域与麦克风阵列603的相对位置。
本发明实施例中,麦克风阵列603中的任意两个麦克风之间的距离大于语音信号的波长的一半。
本发明实施例中,处理器601在通过麦克风阵列603接收到语音信号后,根据目标声源区域与麦克风阵列603的相对位置,利用最小方差无失真响应MVDR波束形成算法对语音信号进行增强处理的方式具体可以为:
在通过麦克风阵列603接收到语音信号后,根据目标声源区域与麦克风阵列603的相对位置,计算目标声源区域的中心点至麦克风阵列603中各个麦克风的直线距离,并计算目标声源区域的中心点至任意两个麦克风的声程差,其中,该声程差为目标声源区域的中心点至上述任意两个麦克风中的一个麦克风的直线距离与目标声源区域的中心点至上述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
根据目标声源区域的中心点至上述任意两个麦克风的声程差,计算目标声源区域的中心点至上述任意两个麦克风的时延;
根据目标声源区域的中心点至上述任意两个麦克风的时延对上述任意两 个麦克风进行时延补偿,以增强各个麦克风接收到的指向目标声源区域方向的语音信号。
本发明实施例中,通过实施图6所示的语音信号处理装置,可以将图像采集设备和麦克风阵列结合起来对声源进行定位,从而能够提高声源定位的准确度;进一步地,在语音增强过程中,准确的声源定位有利于提高语音信号的降噪效果。
具体地,本发明实施例中介绍的语音信号处理装置可以实施本发明结合图1或图2介绍的语音信号处理方法实施例中的部分或全部流程。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
以上对本发明实施例所提供的语音信号处理方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

  1. 一种语音信号处理方法,其特征在于,包括:
    通过图像采集设备采集目标发言人的图像;
    从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
    通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
    根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
    在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。
  2. 根据权利要求1所述的方法,其特征在于,所述通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息,包括:
    提取所述目标声源区域的至少一个点特征,根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标,其中,所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点,且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内;
    根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距,获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,作为所述目标声源区域相对所述图像采集设备的位置信息;其中,所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点,且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直,其余两个轴分别与所述图像的坐标系的两个轴平行。
  3. 根据权利要求2所述的方法,其特征在于,所述根据预先存储的所述图 像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置,包括:
    根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标;
    根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标,以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,确定所述目标声源区域的中心点与所述麦克风阵列的相对位置,作为所述目标声源区域与所述麦克风阵列的相对位置。
  4. 根据权利要求1-3中任一项所述的方法,其特征在于,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
  5. 根据权利要求1-4中任一项所述的方法,其特征在于,所述在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理,包括:
    在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
    根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
    根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区 域方向的语音信号。
  6. 一种语音信号处理装置,其特征在于,包括:
    采集单元,用于通过图像采集设备采集目标发言人的图像;
    第一确定单元,用于从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
    获取单元,用于通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
    第二确定单元,用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
    处理单元,用于在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。
  7. 根据权利要求6所述的装置,其特征在于,所述获取单元包括:
    第一获取子单元,用于提取所述目标声源区域的至少一个点特征,根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标,其中,所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点,且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内;
    第二获取子单元,用于根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距,获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,作为所述目标声源区域相对所述图像采集设备的位置信息;其中,所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点,且所述图像采集设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直,其余两个轴分别与所述图像的坐标系的两个轴平行。
  8. 根据权利要求7所述的装置,其特征在于,所述第二确定单元包括:
    第一确定子单元,用于根据预先存储的所述图像采集设备与麦克风阵列的空间相对位置,确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标;
    第二确定子单元,用于根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标,以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,确定所述目标声源区域的中心点与所述麦克风阵列的相对位置,作为所述目标声源区域与所述麦克风阵列的相对位置。
  9. 根据权利要求6-8中任一项所述的装置,其特征在于,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
  10. 根据权利要求6-9中任一项所述的装置,其特征在于,所述处理单元包括:
    第一计算子单元,用于在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两个麦克风中的另一个麦克风的直线距离的绝对差值;
    第二计算子单元,用于根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
    时延补偿子单元,用于根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
  11. 一种语音信号处理装置,其特征在于,包括:处理器、存储器、通信 总线、图像采集设备和麦克风阵列;
    其中,所述存储器用于存储程序和数据;
    所述通信总线用于建立所述处理器、所述存储器、所述图像采集设备和所述麦克风阵列之间的连接通信;
    所述处理器用于调用所述存储器存储的程序,执行如下步骤:
    通过所述图像采集设备采集目标发言人的图像;
    从所述图像中确定所述目标发言人的嘴部区域,作为目标声源区域;
    通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息;
    根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置;
    在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形成算法对所述语音信号进行增强处理。
  12. 根据权利要求11所述的装置,其特征在于,所述处理器通过点特征定位方式获取所述目标声源区域相对所述图像采集设备的位置信息的方式具体为:
    提取所述目标声源区域的至少一个点特征,根据所述点特征的像素值获取所述点特征在所述图像的坐标系下的坐标,其中,所述图像的坐标系中的坐标原点为所述图像采集设备的光轴在所述图像上的垂直投影点,且所述图像的坐标系中的相互垂直的两个轴在所述图像所在平面内;
    根据所述点特征在所述图像的坐标系下的坐标和所述图像采集设备的焦距,获取所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,作为所述目标声源区域相对所述图像采集设备的位置信息;其中,所述图像采集设备的坐标系中的坐标原点为所述图像采集设备的中心点,且所述图像采集 设备的坐标系中的两两互相垂直的三个轴中的一个轴与所述图像所在平面垂直,其余两个轴分别与所述图像的坐标系的两个轴平行。
  13. 根据权利要求12所述的装置,其特征在于,所述处理器根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,以及所述目标声源区域相对所述图像采集设备的位置信息,确定所述目标声源区域与所述麦克风阵列的相对位置的方式具体为:
    根据所述存储器预先存储的所述数据包括的所述图像采集设备与所述麦克风阵列的空间相对位置,确定所述麦克风阵列在所述图像采集设备的坐标系下的坐标;
    根据所述麦克风阵列在所述图像采集设备的坐标系下的坐标,以及所述目标声源区域的中心点在所述图像采集设备的坐标系下的坐标,确定所述目标声源区域的中心点与所述麦克风阵列的相对位置,作为所述目标声源区域与所述麦克风阵列的相对位置。
  14. 根据权利要求11-13中任一项所述的装置,其特征在于,所述麦克风阵列中的任意两个麦克风之间的距离大于所述语音信号的波长的一半。
  15. 根据权利要求11-14中任一项所述的装置,其特征在于,所述处理器在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,利用最小方差无失真响应MVDR波束形算法对所述语音信号进行增强处理的方式具体为:
    在通过所述麦克风阵列接收到语音信号后,根据所述目标声源区域与所述麦克风阵列的相对位置,计算所述目标声源区域的中心点至所述麦克风阵列中各个麦克风的直线距离,并计算所述目标声源区域的中心点至任意两个麦克风的声程差,其中,所述声程差为所述目标声源区域的中心点至所述任意两个麦克风中的一个麦克风的直线距离与所述目标声源区域的中心点至所述任意两 个麦克风中的另一个麦克风的直线距离的绝对差值;
    根据所述目标声源区域的中心点至所述任意两个麦克风的声程差,计算所述目标声源区域的中心点至所述任意两个麦克风的时延;
    根据所述目标声源区域的中心点至所述任意两个麦克风的时延对所述任意两个麦克风进行时延补偿,以增强各个麦克风接收到的指向所述目标声源区域方向的语音信号。
PCT/CN2015/079245 2015-05-19 2015-05-19 一种语音信号处理方法及装置 WO2016183791A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201580079468.7A CN107534725B (zh) 2015-05-19 2015-05-19 一种语音信号处理方法及装置
PCT/CN2015/079245 WO2016183791A1 (zh) 2015-05-19 2015-05-19 一种语音信号处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/079245 WO2016183791A1 (zh) 2015-05-19 2015-05-19 一种语音信号处理方法及装置

Publications (1)

Publication Number Publication Date
WO2016183791A1 true WO2016183791A1 (zh) 2016-11-24

Family

ID=57319205

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/079245 WO2016183791A1 (zh) 2015-05-19 2015-05-19 一种语音信号处理方法及装置

Country Status (2)

Country Link
CN (1) CN107534725B (zh)
WO (1) WO2016183791A1 (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108200515A (zh) * 2017-12-29 2018-06-22 苏州科达科技股份有限公司 多波束会议拾音系统及方法
CN108957392A (zh) * 2018-04-16 2018-12-07 深圳市沃特沃德股份有限公司 声源方向估计方法和装置
CN109451291A (zh) * 2018-12-29 2019-03-08 像航(上海)科技有限公司 无介质浮空投影声源定向语音交互系统、智能汽车
WO2019061292A1 (zh) * 2017-09-29 2019-04-04 深圳传音通讯有限公司 一种终端降噪方法及终端
CN110767246A (zh) * 2018-07-26 2020-02-07 深圳市优必选科技有限公司 一种噪声处理的方法、装置及机器人
CN110764520A (zh) * 2018-07-27 2020-02-07 杭州海康威视数字技术股份有限公司 飞行器控制方法、装置、飞行器和存储介质
CN110808048A (zh) * 2019-11-13 2020-02-18 联想(北京)有限公司 语音处理方法、装置、系统及存储介质
CN111323753A (zh) * 2018-12-13 2020-06-23 蔚来汽车有限公司 定位汽车内语音源的方法
CN111580050A (zh) * 2020-05-28 2020-08-25 国网上海市电力公司 一种用于识别gis设备异响声源位置的装置及方法
CN111601198A (zh) * 2020-04-24 2020-08-28 达闼科技成都有限公司 应用麦克风跟踪说话人的方法、装置及计算设备
CN111688580A (zh) * 2020-05-29 2020-09-22 北京百度网讯科技有限公司 智能后视镜进行拾音的方法以及装置
CN111722186A (zh) * 2020-06-30 2020-09-29 中国平安人寿保险股份有限公司 基于声源定位的拍摄方法、装置、电子设备及存储介质
CN112205002A (zh) * 2018-12-06 2021-01-08 松下知识产权经营株式会社 信号处理装置以及信号处理方法
CN112261528A (zh) * 2020-10-23 2021-01-22 汪洲华 一种多路定向拾音的音频输出方法及系统
CN112466323A (zh) * 2020-11-24 2021-03-09 中核检修有限公司 一种光学图像与声学图像融合方法及系统
CN112826446A (zh) * 2020-12-30 2021-05-25 上海联影医疗科技股份有限公司 一种医学扫描语音增强方法、装置、系统及存储介质
CN112951257A (zh) * 2020-09-24 2021-06-11 上海译会信息科技有限公司 一种音频图像采集设备及说话人定位及语音分离方法
CN113314138A (zh) * 2021-04-25 2021-08-27 普联国际有限公司 基于麦克风阵列的声源监听分离方法、装置及存储介质
US20210343042A1 (en) * 2019-06-17 2021-11-04 Tencent Technology (Shenzhen) Company Limited Audio acquisition device positioning method and apparatus, and speaker recognition method and system
CN113726947A (zh) * 2020-05-26 2021-11-30 Oppo广东移动通信有限公司 语音通话方法、装置、终端及存储介质
CN114442039A (zh) * 2020-11-05 2022-05-06 中国移动通信集团山东有限公司 一种声源定位方法、装置和电子设备
WO2023016053A1 (zh) * 2021-08-12 2023-02-16 北京荣耀终端有限公司 一种声音信号处理方法及电子设备
CN115831141A (zh) * 2023-02-02 2023-03-21 小米汽车科技有限公司 车载语音的降噪方法、装置、车辆及存储介质
CN116165607A (zh) * 2023-02-15 2023-05-26 深圳市拔超科技股份有限公司 采用多个麦克风阵列实现声源精确定位系统及定位方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
CN110121048A (zh) * 2018-02-05 2019-08-13 青岛海尔多媒体有限公司 一种会议一体机的控制方法及控制系统和会议一体机
CN110495185B (zh) * 2018-03-09 2022-07-01 深圳市汇顶科技股份有限公司 语音信号处理方法及装置
CN112335261B (zh) 2018-06-01 2023-07-18 舒尔获得控股公司 图案形成麦克风阵列
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
JP7126143B2 (ja) * 2018-07-18 2022-08-26 パナソニックIpマネジメント株式会社 無人飛行体、情報処理方法およびプログラム
US10206036B1 (en) * 2018-08-06 2019-02-12 Alibaba Group Holding Limited Method and apparatus for sound source location detection
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
WO2020191380A1 (en) 2019-03-21 2020-09-24 Shure Acquisition Holdings,Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
CN113841419A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 天花板阵列麦克风的外壳及相关联设计特征
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
CN114051738B (zh) 2019-05-23 2024-10-01 舒尔获得控股公司 可操纵扬声器阵列、系统及其方法
US11302347B2 (en) 2019-05-31 2022-04-12 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
CN110225430A (zh) * 2019-06-12 2019-09-10 付金龙 一种降噪骨传导耳麦及其降噪方法
WO2021041275A1 (en) 2019-08-23 2021-03-04 Shore Acquisition Holdings, Inc. Two-dimensional microphone array with improved directivity
CN112578338B (zh) * 2019-09-27 2024-05-14 阿里巴巴集团控股有限公司 声源定位方法、装置、设备及存储介质
CN110716180B (zh) * 2019-10-17 2022-03-15 北京华捷艾米科技有限公司 一种基于人脸检测的音频定位方法及装置
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
CN110933254B (zh) * 2019-12-11 2021-09-07 杭州叙简科技股份有限公司 一种基于图像分析的声音过滤系统及其声音过滤方法
CN112964256B (zh) * 2019-12-13 2024-02-27 佛山市云米电器科技有限公司 室内定位方法、智能家电设备及计算机可读存储介质
CN113141285B (zh) * 2020-01-19 2022-04-29 海信集团有限公司 一种沉浸式语音交互方法及系统
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
CN113450769B (zh) * 2020-03-09 2024-06-25 杭州海康威视数字技术股份有限公司 语音提取方法、装置、设备和存储介质
CN113516989B (zh) * 2020-03-27 2024-08-16 浙江宇视科技有限公司 声源音频的管理方法、装置、设备和存储介质
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
WO2022000174A1 (zh) * 2020-06-29 2022-01-06 深圳市大疆创新科技有限公司 音频处理方法、音频处理装置、电子设备
CN111932619A (zh) * 2020-07-23 2020-11-13 安徽声讯信息技术有限公司 结合图像识别和语音定位的麦克风跟踪系统及方法
CN112614508B (zh) * 2020-12-11 2022-12-06 北京华捷艾米科技有限公司 音视频结合的定位方法、装置、电子设备以及存储介质
EP4285605A1 (en) 2021-01-28 2023-12-06 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system
CN113093106A (zh) * 2021-04-09 2021-07-09 北京华捷艾米科技有限公司 一种声源定位方法及系统
CN114205725A (zh) * 2021-12-01 2022-03-18 云知声智能科技股份有限公司 一种无线扩音设备、方法、装置、终端设备及存储介质
CN114911449A (zh) * 2022-04-08 2022-08-16 南京地平线机器人技术有限公司 音量控制方法、装置、存储介质和电子设备
DE202023103428U1 (de) 2023-06-21 2023-06-28 Richik Kashyap Ein Sprachqualitätsschätzsystem für reale Signale basierend auf nicht negativer frequenzgewichteter Energie

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101674410A (zh) * 2008-09-12 2010-03-17 Lg电子株式会社 在移动终端上调整图像的显示方向
JP2010233173A (ja) * 2009-03-30 2010-10-14 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
CN104012074A (zh) * 2011-12-12 2014-08-27 华为技术有限公司 用于数据处理系统的智能音频和视频捕捉系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01253787A (ja) * 1988-04-01 1989-10-11 Ishikawajima Harima Heavy Ind Co Ltd 訓練シミュレータ用模擬視界再現方法
JP3627058B2 (ja) * 2002-03-01 2005-03-09 独立行政法人科学技術振興機構 ロボット視聴覚システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101674410A (zh) * 2008-09-12 2010-03-17 Lg电子株式会社 在移动终端上调整图像的显示方向
JP2010233173A (ja) * 2009-03-30 2010-10-14 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
CN104012074A (zh) * 2011-12-12 2014-08-27 华为技术有限公司 用于数据处理系统的智能音频和视频捕捉系统

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019061292A1 (zh) * 2017-09-29 2019-04-04 深圳传音通讯有限公司 一种终端降噪方法及终端
CN108200515B (zh) * 2017-12-29 2021-01-22 苏州科达科技股份有限公司 多波束会议拾音系统及方法
CN108200515A (zh) * 2017-12-29 2018-06-22 苏州科达科技股份有限公司 多波束会议拾音系统及方法
CN108957392A (zh) * 2018-04-16 2018-12-07 深圳市沃特沃德股份有限公司 声源方向估计方法和装置
CN110767246A (zh) * 2018-07-26 2020-02-07 深圳市优必选科技有限公司 一种噪声处理的方法、装置及机器人
CN110764520A (zh) * 2018-07-27 2020-02-07 杭州海康威视数字技术股份有限公司 飞行器控制方法、装置、飞行器和存储介质
CN112205002B (zh) * 2018-12-06 2024-06-14 松下知识产权经营株式会社 信号处理装置以及信号处理方法
CN112205002A (zh) * 2018-12-06 2021-01-08 松下知识产权经营株式会社 信号处理装置以及信号处理方法
CN111323753A (zh) * 2018-12-13 2020-06-23 蔚来汽车有限公司 定位汽车内语音源的方法
CN109451291A (zh) * 2018-12-29 2019-03-08 像航(上海)科技有限公司 无介质浮空投影声源定向语音交互系统、智能汽车
US20210343042A1 (en) * 2019-06-17 2021-11-04 Tencent Technology (Shenzhen) Company Limited Audio acquisition device positioning method and apparatus, and speaker recognition method and system
US11915447B2 (en) * 2019-06-17 2024-02-27 Tencent Technology (Shenzhen) Company Limited Audio acquisition device positioning method and apparatus, and speaker recognition method and system
CN110808048A (zh) * 2019-11-13 2020-02-18 联想(北京)有限公司 语音处理方法、装置、系统及存储介质
CN111601198A (zh) * 2020-04-24 2020-08-28 达闼科技成都有限公司 应用麦克风跟踪说话人的方法、装置及计算设备
CN113726947B (zh) * 2020-05-26 2022-09-09 Oppo广东移动通信有限公司 语音通话方法、装置、终端及存储介质
CN113726947A (zh) * 2020-05-26 2021-11-30 Oppo广东移动通信有限公司 语音通话方法、装置、终端及存储介质
CN111580050A (zh) * 2020-05-28 2020-08-25 国网上海市电力公司 一种用于识别gis设备异响声源位置的装置及方法
CN111688580A (zh) * 2020-05-29 2020-09-22 北京百度网讯科技有限公司 智能后视镜进行拾音的方法以及装置
US11631420B2 (en) 2020-05-29 2023-04-18 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Voice pickup method for intelligent rearview mirror, electronic device and storage medium
CN111722186A (zh) * 2020-06-30 2020-09-29 中国平安人寿保险股份有限公司 基于声源定位的拍摄方法、装置、电子设备及存储介质
CN111722186B (zh) * 2020-06-30 2024-04-05 中国平安人寿保险股份有限公司 基于声源定位的拍摄方法、装置、电子设备及存储介质
CN112951257A (zh) * 2020-09-24 2021-06-11 上海译会信息科技有限公司 一种音频图像采集设备及说话人定位及语音分离方法
CN112261528B (zh) * 2020-10-23 2022-08-26 汪洲华 一种多路定向拾音的音频输出方法及系统
CN112261528A (zh) * 2020-10-23 2021-01-22 汪洲华 一种多路定向拾音的音频输出方法及系统
CN114442039A (zh) * 2020-11-05 2022-05-06 中国移动通信集团山东有限公司 一种声源定位方法、装置和电子设备
CN112466323A (zh) * 2020-11-24 2021-03-09 中核检修有限公司 一种光学图像与声学图像融合方法及系统
CN112826446A (zh) * 2020-12-30 2021-05-25 上海联影医疗科技股份有限公司 一种医学扫描语音增强方法、装置、系统及存储介质
CN113314138B (zh) * 2021-04-25 2024-03-29 普联国际有限公司 基于麦克风阵列的声源监听分离方法、装置及存储介质
CN113314138A (zh) * 2021-04-25 2021-08-27 普联国际有限公司 基于麦克风阵列的声源监听分离方法、装置及存储介质
WO2023016053A1 (zh) * 2021-08-12 2023-02-16 北京荣耀终端有限公司 一种声音信号处理方法及电子设备
CN115831141A (zh) * 2023-02-02 2023-03-21 小米汽车科技有限公司 车载语音的降噪方法、装置、车辆及存储介质
CN116165607A (zh) * 2023-02-15 2023-05-26 深圳市拔超科技股份有限公司 采用多个麦克风阵列实现声源精确定位系统及定位方法
CN116165607B (zh) * 2023-02-15 2023-12-19 深圳市拔超科技股份有限公司 采用多个麦克风阵列实现声源精确定位系统及定位方法

Also Published As

Publication number Publication date
CN107534725B (zh) 2020-06-16
CN107534725A (zh) 2018-01-02

Similar Documents

Publication Publication Date Title
WO2016183791A1 (zh) 一种语音信号处理方法及装置
CN106328156B (zh) 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN106653041B (zh) 音频信号处理设备、方法和电子设备
CN106782584B (zh) 音频信号处理设备、方法和电子设备
EP2882170B1 (en) Audio information processing method and apparatus
CN110379439B (zh) 一种音频处理的方法以及相关装置
US20150022636A1 (en) Method and system for voice capture using face detection in noisy environments
US20100123785A1 (en) Graphic Control for Directional Audio Input
US9500739B2 (en) Estimating and tracking multiple attributes of multiple objects from multi-sensor data
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
TW201120469A (en) Method, computer readable storage medium and system for localizing acoustic source
WO2018049957A1 (zh) 音频信号、图像处理的方法、装置和系统
US10964326B2 (en) System and method for audio-visual speech recognition
JP7567344B2 (ja) 音信号処理方法および音信号処理装置
JP6977448B2 (ja) 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム
CN112351248A (zh) 一种关联图像数据和声音数据的处理方法
KR101678305B1 (ko) 텔레프레즌스를 위한 하이브리드형 3d 마이크로폰 어레이 시스템 및 동작 방법
KR101542647B1 (ko) 화자 검출을 이용한 오디오 신호 처리 방법 및 장치
US11172319B2 (en) System and method for volumetric sound generation
JP6881267B2 (ja) 制御装置、変換装置、制御方法、変換方法、およびプログラム
CN114038452A (zh) 一种语音分离方法和设备
US11956606B2 (en) Audio signal processing method and audio signal processing apparatus that process an audio signal based on posture information
JPH1118193A (ja) 受話状態検出方法およびその装置
US20230105785A1 (en) Video content providing method and video content providing device
JP7245034B2 (ja) 信号処理装置、信号処理方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15892170

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15892170

Country of ref document: EP

Kind code of ref document: A1