WO2016169310A1 - 一种音频信号处理的方法和装置 - Google Patents

一种音频信号处理的方法和装置 Download PDF

Info

Publication number
WO2016169310A1
WO2016169310A1 PCT/CN2016/072017 CN2016072017W WO2016169310A1 WO 2016169310 A1 WO2016169310 A1 WO 2016169310A1 CN 2016072017 W CN2016072017 W CN 2016072017W WO 2016169310 A1 WO2016169310 A1 WO 2016169310A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel signal
delay
auxiliary
difference
sound source
Prior art date
Application number
PCT/CN2016/072017
Other languages
English (en)
French (fr)
Inventor
齐娜
仝欣
范书成
张琦
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2016169310A1 publication Critical patent/WO2016169310A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements

Definitions

  • the fourth delay difference is a delay difference between the auxiliary left channel signal and the left input channel signal
  • the fifth delay difference is a delay difference between the auxiliary right channel signal and the right input channel signal
  • auxiliary right channel signal and the right input channel signal received by the receiving unit are combined in a weighted sum manner to obtain the right output channel signal.
  • a receiver for receiving the collected left input channel signal, the center channel signal, and the right input channel signal of the binaural audio collection device, wherein the left input channel signal, the center channel signal, and the right input channel
  • the signals respectively correspond to the left ear channel, the middle channel and the right ear channel of the binaural audio collection device, and the center channel is located between the left ear channel and the right ear channel;
  • a processor configured to determine, between the sound source and the head mode of the binaural audio collection device, according to the left input channel signal, the center channel signal, and the right input channel signal received by the receiver Sound source azimuth; convolving the center channel signal with an exaggerated ear left ear related impulse response HRIR corresponding to the sound source azimuth angle, thereby obtaining an auxiliary left channel signal; and the center channel signal and The exaggerated ear right ear HRIR corresponding to the azimuth of the sound source is convoluted to obtain an auxiliary right channel signal; the left output channel signal is obtained by using the left input channel signal and the auxiliary left channel signal, and the right input channel is utilized The signal and the auxiliary right channel signal obtain a right output channel signal.
  • the processor is further configured to:
  • the processor is configured to:
  • Determining a determination factor according to the first delay difference and a size of the head die, determining the sound according to a range in which the value of the determination factor is located, the second delay difference, and the third delay difference The orientation of the source.
  • the processor is used to:
  • the delay adjustment on the auxiliary left channel signal and the auxiliary right channel signal by using the final compensation time difference thereby obtaining the delay adjusted auxiliary left channel signal and the delay adjusted auxiliary right channel signal
  • the time difference between the delay-adjusted auxiliary left channel signal timing leading the left input channel signal is the final compensation time difference
  • the delay-adjusted auxiliary right channel signal timing leads the right input channel signal The time difference is the final compensation time difference
  • the processor is configured to:
  • the left input channel signal, the middle channel signal, and the right input channel signal collected by the binaural audio collection device are received, wherein the left input channel signal, the center channel signal, and The right input channel signal respectively corresponds to a left ear channel, a middle channel, and a right ear channel of the binaural audio collection device, and the center channel is located between the left ear channel and the right ear channel; Determining a sound source azimuth between the sound source and a head mode of the binaural audio collection device; the left input channel signal, the center channel signal, and the right input channel signal; An exaggerated left ear related pulse response HRIR corresponding to the azimuth of the sound source is convoluted to obtain an auxiliary left channel signal; an exaggerated ear right ear HRIR corresponding to the sound source azimuth angle Convolving to obtain an auxiliary right channel signal; obtaining a left output channel signal by using the left input channel signal and the auxiliary left channel signal, using the right input
  • the center channel signal Since the center channel is located between the left and right ear channels, the center channel signal has more front sound source positioning feature information, so the center channel signal is convolved with the left input channel signal and the right input channel signal, respectively.
  • the auxiliary left channel signal and the auxiliary right channel signal also have a front sound source localization characteristic signal.
  • the left output channel signal is further obtained by using the auxiliary left channel signal and the left input channel signal
  • the right output channel signal is obtained by using the auxiliary right channel signal and the right input channel signal. Therefore, the left output channel signal and the right output channel signal in the embodiment of the present invention have more front sound source localization characteristic information than the prior art. Therefore, when the user hears the audio signal output by the embodiment of the present invention, It is more accurately determined that the sound source is located in front, which reduces the possibility of misidentifying the front sound source as a rear sound source.
  • FIG. 1 to 2 are flowcharts of an audio signal processing method according to an embodiment of the present invention.
  • FIG. 3 is a simplified schematic view of a head mold according to an embodiment of the present invention.
  • FIG. 5 is a schematic structural diagram of an audio signal processing apparatus according to an embodiment of the present invention.
  • the present application provides a method and apparatus for audio signal processing, which enhances the characteristics of the front sound source in the output signals of the left and right channels, thereby reducing the possibility of the user erroneously judging the front sound source as coming from the rear according to the sound signal heard.
  • the solution to the technical solution provided by the present application includes:
  • the left input channel signal, the middle channel signal, and the right input channel signal collected by the binaural audio collection device are received, wherein the left input channel signal, the center channel signal, and The right input channel signal respectively corresponds to a left ear channel, a middle channel, and a right ear channel of the binaural audio collection device, and the center channel is located between the left ear channel and the right ear channel; Determining a sound source azimuth between the sound source and a head mode of the binaural audio collection device; the left input channel signal, the center channel signal, and the right input channel signal; An exaggerated left ear related pulse response HRIR corresponding to the azimuth of the sound source is convoluted to obtain an auxiliary left channel signal; an exaggerated ear right ear HRIR corresponding to the sound source azimuth angle Convolution to obtain the auxiliary right channel signal; The left input channel signal and the auxiliary left channel signal obtain a left output channel signal, and the right output channel signal is obtained
  • the center channel signal Since the center channel is located between the left and right ear channels, the center channel signal has more front sound source positioning feature information, so the center channel signal is convolved with the left input channel signal and the right input channel signal, respectively.
  • the auxiliary left channel signal and the auxiliary right channel signal also have a front sound source localization characteristic signal.
  • the left output channel signal is further obtained by using the auxiliary left channel signal and the left input channel signal
  • the right output channel signal is obtained by using the auxiliary right channel signal and the right input channel signal. Therefore, the left output channel signal and the right output channel signal in the embodiment of the present invention have more front sound source localization characteristic information than the prior art. Therefore, when the user hears the audio signal output by the embodiment of the present invention, it is more accurately determined that the sound source is located in front, thereby reducing the possibility of misidentifying the front sound source as the rear sound source.
  • the first aspect of the present application provides a method for processing audio signals. Referring to FIG. 1 and FIG. 2, the method includes:
  • S101 Receive left input channel signal and center channel signal of the binaural audio collection device And the right input channel signal.
  • S102 Determine a sound source azimuth between the sound source and the head mode of the binaural audio collection device according to the left input channel signal, the center channel signal, and the right input channel signal.
  • S104 Obtain a left output channel signal by using the left input channel signal and the auxiliary left channel signal, and obtain a right output channel signal by using the right input channel signal and the auxiliary right channel signal.
  • the binaural audio collection device may be a head-mounted multimedia device.
  • a miniature microphone placed in the left ear, right ear, and center of the head mold.
  • the head module may be an actual head module or a virtual head module.
  • the virtual head module is sized to match the head mounted multimedia device, in other words, the head mounted multimedia device can be worn on an actual head module that is made according to the virtual die size.
  • the head mold in the embodiment of the present application is a standard Chinese acoustic head model. Of course, it can also be a Western acoustic head model, etc., and the application is not limited thereto.
  • three sound channels are used to collect the sound signals emitted by the sound source, which are a left input channel, a middle channel, and a right input channel, respectively.
  • the left ear channel is placed at the left ear portion of the head mold, or at a position corresponding to the left ear portion of the virtual head mold.
  • the right ear channel is placed at the right ear portion of the head mold or at the position corresponding to the right ear portion of the virtual head mold.
  • the center channel is located between the left ear channel and the right ear channel, directly in front of the head die.
  • exaggerated binaural in order to enhance the effect of the auricle on the sound source localization, on the basis of the standard Chinese acoustic head mold, exaggerated binaural is adopted.
  • the exaggerated binaural size used in the embodiment of the present application is about 13 cm, which is similar to the two parts of the ordinary binaural.
  • the exaggerated binaural auricle can act on the frequency band above 2 to 3 kHz, thereby extending the effect of the auricle on the sound source localization to a lower frequency band.
  • the audio signal received from the left ear channel is the left input channel signal
  • the audio signal received from the right ear channel is the right input channel signal
  • the audio signal received from the center channel signal is the center channel signal.
  • the method before S103, the method further includes:
  • the center channel signal is convolved with the exaggerated ear left HRIR corresponding to the sound source azimuth, and the center channel is The signal is convolved with an exaggerated right ear HRIR corresponding to the azimuth of the sound source.
  • the possibility of erroneously determining the front sound source as the rear sound source is higher than the possibility of erroneously determining the rear sound source as the front sound source. Therefore, in the embodiment of the present application, before executing S103, Determine the orientation of the sound source.
  • FIG. 3 is a simplified schematic diagram (top view) of the head mold in the embodiment of the present application.
  • the circle in Fig. 3 represents the head mode, assuming that the radius of the head mode is a and the azimuth of the sound source is ⁇ .
  • L indicates the position of the left ear channel
  • R indicates the position of the right ear channel
  • C indicates the position of the center channel.
  • S103 is performed when it is determined that the orientation of the sound source is in front of the head mold, that is, the sound source is in the range of [0°, 90°], or [270°, 360°).
  • the audio signal processing method in the embodiment of the present application may be used.
  • the processing may also be performed by using the methods in the prior art, and the present application does not specifically limit the application.
  • determining the orientation of the sound source according to the left input channel, the center channel signal, and the right input channel signal including:
  • Determining a determination factor according to the first delay difference and a size of the head die, determining the sound according to a range in which the value of the determination factor is located, the second delay difference, and the third delay difference The orientation of the source.
  • determining the time difference of the two channel signals is calculated by a frequency domain correlation method. The following describes in detail how to determine the first delay difference ITD LR between the left input channel signal and the right input channel signal.
  • a Fourier transform is performed on the left input channel signal x L (t) to obtain a Fourier function coefficient H L (f) of the left input channel signal.
  • Fourier transform is performed on the right input channel signal x R (t) to obtain the Fourier coefficient H R (f) of the right input channel. And further calculation to obtain the conjugate of H R (f)
  • Equation 1 the cross-correlation function ⁇ LR ( ⁇ ) between the two-head related transformation function (English: Head Related Transfer Function; HRTF) is obtained by Equation 1:
  • the low frequency range is obtained in the embodiment of the present application, such as f ⁇ 3 kHz,
  • ITD LR ⁇ max .
  • the size of the head mold may be the radius of the head mold, the circumference, and the body. Ji et al., this application does not impose specific restrictions. In the following, the radius is taken as an example. Specifically, the judgment factor is obtained according to the following formula:
  • n is the judgment factor
  • c is the speed of sound
  • a is the radius of the head mode
  • determining the orientation of the sound source according to the range of the value of the determination factor comprises:
  • the orientation of the sound source is located on the right side of the head mold, specifically the area where the azimuth of the sound source is in [0°, 180°]; m ⁇ 0, the orientation of the sound source is located on the left side of the head mold, specifically The azimuth of the sound source is in the range of [180°, 360°].
  • the first possible sound source azimuth angle ⁇ LR is calculated by the formula (2)
  • the second sound source possible azimuth angle ⁇ LC is calculated by the formula (3)
  • the formula (4) is calculated.
  • the first possible sound source azimuth angle ⁇ LR , the second possible sound source azimuth angle ⁇ LC and the third possible sound source azimuth angle ⁇ RC obtained by the formula (2)-formula (4) may be actual sound sources.
  • Azimuth angle ⁇ e the judgment factor m determined by the size of the head mold and the ITD LR will be determined.
  • the sound source azimuth angle ⁇ e is determined from ⁇ LR , ⁇ LC , and ⁇ RC according to the range in which the value of m is present.
  • the manner of determining the judgment factor m is similar to the above, that is, I won't go into details here.
  • the sound source azimuth angle ⁇ e is determined from ⁇ LR , ⁇ LC or ⁇ RC , including the following four cases:
  • the center channel signal carries more information on the positioning characteristics of the front sound source.
  • S103 if it is determined that the sound source is located in front of the head mold, S103 will be executed.
  • exaggerated HRIR left ear signal ⁇ e corresponding to the read h e_l ( ⁇ e, t) and exaggerated HRIR ear right ear signal h e_R ( ⁇ e, t) .
  • the exaggerated left ear HRIR signal h e_l ( ⁇ e , t) and the exaggerated ear right ear HRIR signal h e_l ( ⁇ e , t) are time domain signals.
  • the data of the exaggerated left ear HRIR signal h e_l ( ⁇ e , t) and the exaggerated ear right ear HRIR signal in the embodiment of the present application are twice as large as the standard head mode left and right ear HRIR.
  • the left input channel signal x L (t) is convolved with h e_l ( ⁇ e , t) according to formula (5), thereby The auxiliary left channel signal x CL (t) is obtained.
  • the left input channel signal and the auxiliary left channel signal are used to obtain the left input. Out channel information. And using the right input channel signal and the auxiliary right channel signal to obtain the right output channel information. Furthermore, the front sound source localization characteristic information carried by the auxiliary left channel signal is added to the left output channel signal, and the front sound source localization characteristic information carried by the auxiliary right channel signal is added to the left and right output channel signals.
  • the left input channel signal and the auxiliary left input are synthesized by the signal, thereby obtaining the left output channel signal x Lout (t), and synthesizing the right input channel signal and the auxiliary right channel signal, thereby obtaining the right output channel signal.
  • x Rout (t) the left input channel signal and the auxiliary left input are synthesized by the signal, thereby obtaining the left output channel signal x Lout (t), and synthesizing the right input channel signal and the auxiliary right channel signal, thereby obtaining the right output channel signal.
  • x Lout (t) x L (t)+x CL (t)
  • x Rout (t) x R (t)+x CR (t) Equation (7).
  • the delay adjustment is performed on the auxiliary left channel signal and the auxiliary right channel signal, and the auxiliary left channel signal after the delay adjustment and the auxiliary right channel signal after the delay adjustment are obtained, including:
  • the fourth delay difference is a delay difference between the auxiliary left channel signal and the left input channel signal
  • the fifth delay difference is a delay difference between the auxiliary right channel signal and the right input channel signal
  • the fourth delay difference is an alignment delay difference
  • the orientation of the sound source is located on a right side of the head mold
  • the delay adjustment on the auxiliary left channel signal and the auxiliary right channel signal by using the final compensation time difference thereby obtaining the delay adjusted auxiliary left channel signal and the delay adjusted auxiliary right channel signal
  • the time difference between the delay-adjusted auxiliary left channel signal timing leading the left input channel signal is the final compensation time difference
  • the delay-adjusted auxiliary right channel signal timing leads the right input channel signal The time difference is the final compensation time difference
  • the fourth delay difference ⁇ ' Lmax between the auxiliary left channel signal and the left input channel signal is obtained before.
  • the manner of calculating the fourth delay difference ⁇ ' Lmax is similar to the manner of calculating the first delay difference between the left and right input channel signals by Equation 1.
  • the fifth delay difference ⁇ ' Rmax between the auxiliary right channel signal and the right input channel signal is obtained in a similar manner.
  • the orientation of the sound source in the embodiment of the present application is located in front of the head mold, when [270°, 360°], the orientation of the sound source in the embodiment of the present application is located in front of the head mold, and Located at the left side of the head mold; when [0°, 90°], the sound source in the embodiment of the present application has an orientation both in front of the head mold and on the right side of the head mold.
  • ⁇ ' max is the alignment delay difference
  • the priority effect when the lead and lag time difference between the two sound signals exceeds 1 ms, the two sounds are still a sound in human hearing perception in a relatively short time. However, the location of the perceived sound source depends on the leading sound signal. This effect is called the priority effect, also known as the Haas effect. Therefore, in order for the user to more accurately judge that the sound source is located in front when hearing the left output channel signal and the right output channel signal, the difference between the alignment time difference ⁇ ' max and the enhanced positioning delay time difference ⁇ 0 is used as the final compensation. Time difference ⁇ '. The delay adjustment is performed on the auxiliary left channel signal and the auxiliary right channel signal by using the final compensation time difference. The final compensation time difference ⁇ ' is determined by the formula (9) in the embodiment of the present application.
  • the final compensation time difference ⁇ ' is the difference between the enhanced positioning delay time difference ⁇ 0 minus the alignment time difference ⁇ ' max .
  • the priority effect occurs when the time difference between the two signals exceeds 1 ms. Therefore, 0 ⁇ ⁇ 0 ⁇ 10 ms, for example, 1 ms, 1.2 ms, 1.21 ms, and the like in the embodiment of the present invention.
  • the same compensation time difference is used to make the same for the auxiliary left channel signal and the auxiliary right channel signal.
  • Delay adjustment In the embodiment of the present application, the timing of the auxiliary left channel signal assisting the right channel signal is advanced ⁇ ' according to the formula (10). Then, the obtained delay-adjusted auxiliary left channel signal timing leads the left input channel signal ⁇ ', and the delayed adjusted auxiliary right channel signal timing leads the right input channel signal ⁇ '.
  • x' CL (t) is the auxiliary left channel signal after the delay adjustment
  • x' RL (t) is the auxiliary right channel signal after the delay adjustment
  • the difference between the enhanced positioning delay time difference ⁇ 0 and the fourth delay difference ⁇ ′ Lmax is taken as the final left compensation time difference ⁇ ′ L ; and the enhanced positioning delay time difference ⁇ 0 is subtracted from the fifth time.
  • the difference of the delay ⁇ ' Rmax is taken as the final right compensation time difference ⁇ ' R , ie
  • x" L (t) is the weighted left input channel signal
  • x" R (t) is the weighted right input channel signal
  • M 2 is the second weighting coefficient
  • the weighted left input channel signal and the weighted auxiliary left channel signal are combined to obtain a left output channel signal, and the weighted right input channel signal and the weighted auxiliary right channel signal are synthesized, thereby Get the right output channel signal.
  • the delay adjustment is performed on the left input channel signal and the right input channel signal, and the left input channel signal after the delay adjustment and the right input channel signal after the delay adjustment are obtained, including:
  • the fourth delay difference is a delay difference between the auxiliary left channel signal and the left input channel signal
  • the fifth delay difference is a delay difference between the auxiliary right channel signal and the right input channel signal
  • the fourth delay difference is the alignment delay difference
  • the fifth delay difference is the alignment delay difference
  • the time difference between the time delay of the left input channel signal and the auxiliary left channel signal is the final compensation time difference, and the time delay adjusted right input channel signal time lags behind the auxiliary right
  • the time difference of the channel signal is the final compensation time difference
  • Performing delay adjustment on the left input channel signal by using the final left compensation time difference to obtain the delay-adjusted left input channel signal, and performing the right input channel signal by using the final right compensation time difference The delay adjustment is performed to obtain the delay-adjusted right input channel signal, such that the time difference of the delay-adjusted left input channel signal lags behind the auxiliary left channel signal is the final left compensation time difference.
  • the time difference of the delay-adjusted right input channel signal timing lags behind the auxiliary right channel signal is the final right compensation time difference.
  • the final compensation time difference is obtained, or the final left compensation time difference and the most The way to compensate for the time difference on the right side is similar to the third method in the previous section, and will not be repeated here.
  • delay adjustment is performed on the left input channel signal and the right input channel signal according to formula (18), and the delay-adjusted left input channel signal lags behind the auxiliary left channel signal ⁇ ' in time series, and the delay is adjusted right.
  • the input channel signal timing lags behind the auxiliary right channel signal ⁇ '.
  • x' L (t) is the delay-adjusted left input channel signal
  • x' R (t) is the delay-adjusted right input channel signal
  • delay adjustment is performed on the left input channel signal and the right input channel signal according to formula (19), and the delay-adjusted left input channel signal lags behind the auxiliary left channel signal ⁇ ' L in time series, and the delay is adjusted right.
  • the input channel signal timing lags behind the auxiliary right channel signal ⁇ ' R .
  • synthesizing the delay-adjusted auxiliary right channel signal and the right input signal to obtain the right output signal including:
  • the auxiliary left channel signal and the auxiliary right channel signal may be multiplied by the third weighting coefficient to obtain the weighted auxiliary left channel signal and the weighted auxiliary right channel signal.
  • the third weighting coefficient in the implementation of the present application is an arbitrary constant greater than 0 and less than 1.
  • x " CL (t) is the weighted auxiliary left channel signal
  • x" CR (t) is the weighted auxiliary right channel signal
  • M 3 is the third weighting coefficient
  • the delay-adjusted left input channel signal and the weighted auxiliary left channel signal are combined to obtain a left output channel signal, and the delay-adjusted right input channel signal and the weighted auxiliary right signal are obtained.
  • Channel signal synthesis to obtain the right output channel signal ie
  • the second aspect of the present application provides an apparatus for processing audio signals, as shown in FIG. 4, including:
  • the receiving unit 401 is configured to receive the collected left input channel signal, the center channel signal, and the right input channel signal of the binaural audio collection device, wherein the left input channel signal, the center channel signal, and the right input
  • the channel signals respectively correspond to the left ear channel, the middle channel and the right ear channel of the binaural audio collection device, and the center channel is located between the left ear channel and the right ear channel;
  • a determining unit 402 configured to determine, according to the left input channel signal, the center channel signal, and the right input channel signal received by the receiving unit 401, a sound source and a head mode of the binaural audio collection device Sound source azimuth between
  • a convolution unit 403 configured to convolute the center channel signal received by the receiving unit 401 with an exaggerated left ear related impulse response HRIR corresponding to the sound source azimuth determined by the determining unit 402 Obtaining an auxiliary left channel signal; convolving the center channel signal with an exaggerated ear ear HRIR corresponding to the sound source azimuth angle, thereby obtaining an auxiliary right channel signal;
  • An output signal obtaining unit 404 configured to obtain a left output channel signal by using the left input channel signal received by the receiving unit 401 and the auxiliary left channel signal provided by the convolution unit 403, and receiving by the receiving unit 401
  • the right input channel signal and the auxiliary right channel signal provided by the convolution unit 403 obtain a right output channel signal.
  • the determining unit 402 is further configured to:
  • the convolution unit 403 convolves the center channel signal with an exaggerated left ear HRIR corresponding to the sound source azimuth, and the center channel signal corresponding to the sound source azimuth Determining the orientation of the sound source according to the left input channel signal, the center channel signal, and the right input channel signal received by the receiving unit 401 before the HRIR of the omni-ear ear is convoluted;
  • the determining unit 402 determines that the orientation of the sound source is located in front of the head mold, and notifies the convolution unit 403 to roll the exaggerated left ear HRIR corresponding to the center channel signal and the sound source azimuth. And accumulating the center channel signal with an exaggerated ear ear HRIR corresponding to the sound source azimuth.
  • the determining unit 402 is configured to:
  • the output signal obtaining unit 404 is configured to:
  • the fourth delay difference is a delay difference between the auxiliary left channel signal and the left input channel signal
  • the fifth delay difference is a delay difference between the auxiliary right channel signal and the right input channel signal
  • the fourth delay difference is an alignment delay difference
  • the orientation of the sound source is located on a right side of the head mold
  • the time difference leading to the left input channel signal is the final left compensation time difference
  • the time difference of the delay right auxiliary channel signal timing leading the right input channel signal is the final right compensation time difference.
  • the output signal obtaining unit 404 is configured to:
  • the channel signals are synthesized in a weighted sum manner to obtain the right output channel signal.
  • the output signal obtaining unit 404 is configured to:
  • the fourth delay difference is the alignment delay difference
  • the fifth delay difference is the alignment delay difference
  • the right input channel signal is such that the time difference of the delay-adjusted left input channel signal lags behind the auxiliary left channel signal is the final compensation time difference, and the delay-adjusted right input channel signal timing The time difference that lags behind the auxiliary right channel signal is Final compensation time difference; or
  • Performing delay adjustment on the left input channel signal received by the receiving unit 401 by using the final left compensation time difference, obtaining the left input channel signal after the delay adjustment, and using the final right compensation time difference pair The right input channel signal received by the receiving unit 401 is subjected to delay adjustment, and the delay-adjusted right input channel signal is obtained, so that the delay-adjusted left input channel signal timing lags behind the auxiliary
  • the time difference of the left channel signal is the final left compensation time difference
  • the time difference of the time delay adjusted right input channel signal lags behind the auxiliary right channel signal is the final right compensation time difference.
  • the output signal obtaining unit 404 is configured to:
  • the device includes:
  • the receiver 501 is configured to receive the collected left input channel signal, the center channel signal, and the right input channel signal of the binaural audio collection device, wherein the left input channel signal, the center channel signal, and the right input
  • the channel signals respectively correspond to the left ear channel, the middle channel and the right ear channel of the binaural audio collection device, and the center channel is located between the left ear channel and the right ear channel;
  • the processor 503 is configured to determine, according to the left input channel signal, the center channel signal, and the right input channel signal received by the receiver 501, a sound source and a head mode of the binaural audio collection device. a sound source azimuth; convolving the center channel signal with an exaggerated ear left ear related impulse response HRIR corresponding to the sound source azimuth angle, thereby obtaining an auxiliary left channel signal; The signal is convoluted with an exaggerated ear-ear HRIR corresponding to the azimuth of the sound source to obtain an auxiliary right channel signal; the left output channel signal is obtained by using the left input channel signal and the auxiliary left channel signal, using the right The input channel signal and the auxiliary right channel signal obtain a right output channel signal.
  • the processor 503 is configured to:
  • Determining a determination factor according to the first delay difference and a size of the head die, determining the sound according to a range in which the value of the determination factor is located, the second delay difference, and the third delay difference The orientation of the source.
  • the processor 503 is configured to:
  • the processor 503 is configured to:
  • the fourth delay difference is a delay difference between the auxiliary left channel signal and the left input channel signal
  • the fifth delay difference is a delay difference between the auxiliary right channel signal and the right input channel signal
  • the fourth delay difference is an alignment delay difference
  • the orientation of the sound source is located on a right side of the head mold
  • the processor 503 is configured to:
  • the fourth delay difference is the alignment delay difference
  • the fifth delay difference is the alignment delay difference
  • the time difference between the time delay of the left input channel signal and the auxiliary left channel signal is the final compensation time difference, and the time delay adjusted right input channel signal time lags behind the auxiliary right
  • the time difference of the channel signal is the final compensation time difference
  • the left side compensates for the time difference, and the time difference between the delay-adjusted right input channel signal timing and the auxiliary right channel signal is the final right compensation time difference.
  • the processor 503 is configured to:
  • auxiliary left channel signal and the delayed input left input channel signal in a weighted sum manner to obtain the left output channel signal, and the auxiliary right channel signal and the delay processing
  • the latter right input channel signal is synthesized in a weighted sum manner to obtain the right output channel signal.
  • the processor 503 is configured to:
  • the first delay difference is a time difference between the left input channel signal and the right input channel signal
  • the second delay difference is between the left input channel signal and the center channel signal a time difference
  • a third time delay difference being a time difference between the right input channel signal and the center channel signal
  • bus 500 can include any number of interconnected buses and bridges, and bus 500 will include one or more processors and memory 504 represented by processor 503.
  • the various circuits of the memory are linked together.
  • the bus 500 can also link various other circuits such as peripherals, voltage regulators, and power management circuits. These are well known in the art and, therefore, will not be further described herein.
  • Bus interface 505 provides an interface between bus 500 and receiver 501 and transmitter 502.
  • Receiver 501 and transmitter 502 may be the same component, i.e., a transceiver, providing means for communicating with various other devices on a transmission medium.
  • Processor 503 is responsible for managing bus 500 and normal processing, while memory 504 can be used to store data used by processor 503 in performing operations.
  • the left input channel signal, the middle channel signal, and the right input channel signal collected by the binaural audio collection device are received, wherein the left input channel signal, the center channel signal, and The right input channel signal respectively corresponds to a left ear channel, a middle channel, and a right ear channel of the binaural audio collection device, and the center channel is located between the left ear channel and the right ear channel; Determining a sound source azimuth between the sound source and a head mode of the binaural audio collection device; the left input channel signal, the center channel signal, and the right input channel signal; An exaggerated left ear related pulse response HRIR corresponding to the azimuth of the sound source is convoluted to obtain an auxiliary left channel signal; an exaggerated ear right ear HRIR corresponding to the sound source azimuth angle Convolving to obtain an auxiliary right channel signal; obtaining a left output channel signal by using the left input channel signal and the auxiliary left channel signal, using the right input
  • the center channel signal has more front sound source positioning feature information, so the center channel signal is convolved with the left input channel signal and the right input channel signal, respectively, and the auxiliary left channel signal is obtained.
  • the auxiliary right channel signal also has a front sound source localization characteristic signal.
  • the left output channel signal is further obtained by using the auxiliary left channel signal and the left input channel signal, and the right output channel signal is obtained by using the auxiliary right channel signal and the right input channel signal. Therefore, the left output channel signal and the right output channel signal in the embodiment of the present invention have more front sound source localization characteristic information than the prior art. Therefore, when the user hears the audio signal output by the embodiment of the present invention, it is more accurately determined that the sound source is located in front, thereby reducing the possibility of misidentifying the front sound source as the rear sound source.
  • embodiments of the present invention can be provided as a method, system, or computer program product. Accordingly, the present invention may take the form of an entirely hardware embodiment, an entirely software embodiment, or a combination of software and hardware. Moreover, the invention can take the form of a computer program product embodied on one or more computer-usable storage media (including but not limited to disk storage and optical storage, etc.) including computer usable program code.
  • These computer program instructions can also be stored in a bootable computer or other programmable data processing device.
  • a computer readable memory that operates in a particular manner, causing instructions stored in the computer readable memory to produce an article of manufacture comprising an instruction device implemented in one or more flows and/or block diagrams of the flowchart The function specified in the box or in multiple boxes.
  • These computer program instructions can also be loaded onto a computer or other programmable data processing device such that a series of operational steps are performed on a computer or other programmable device to produce computer-implemented processing for execution on a computer or other programmable device.
  • the instructions provide steps for implementing the functions specified in one or more of the flow or in a block or blocks of a flow diagram.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

一种音频信号处理的方法和装置,增强了左右通道输出信号中的前方声源特征,从而降低用户将前方声源误判为来自后方的可能性。所述方法包括:接收双耳音频采集设备的采集的左输入通道信号、中置通道信号和右输入通道信号;确定声源与所述双耳音频采集设备的头模之间的声源方位角;将所述中置通道信号与所述声源方位角对应的夸张耳左耳头相关脉冲响应HRIR进行卷积,从而获得辅助左通道信号;将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积,从而获得辅助右通道信号;利用所述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号。

Description

一种音频信号处理的方法和装置
本申请要求在2015年4月24日提交中国专利局、申请号为201510201303.4、申请名称为“一种音频信号处理的方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及电子技术领域,尤指涉及一种音频信号处理的方法和装置。
背景技术
双耳录音重放技术是采用放置在人工头(或真人受试者)双耳处的一对微缩传声器进行对原声场进行采集。所得的双耳信号经处理后,再用一对耳机进行重放,从而在用户双耳处产生和原声场一致的主要空间信息,实现声音空间信息的重放。双耳录音重放技术可以使用户产生身临其境的感受。
人类根据同一声源在左右耳接收到的信号差异来判断该声源的方位。但是现有技术中的双耳录音重放技术,在耳机重放双耳信号的时候,会丢失辅助通过听觉判断前后方位的认知信息,出现一定的前后声像混淆。即用户根据听到的声音信号,会将来自前方的声音判断成来自后方,或将来自后方的声音判断成来自前方。且将来自前方的声音误判成来自后方的可能性更高。
发明内容
本申请提供了一种音频处理的方法和装置,增强了左右通道输出信号中的前方声源特征,从而降低用户根据听到的声音信号将前方声源误判为来自后方的可能性。
本申请第一方面提供了一种音频信号处理的方法,包括:
接收双耳音频采集设备的采集的左输入通道信号、中置通道信号和右输入通道信号,其中,所述左输入通道信号、所述中置通道信号和所述右输入通道信号分别与所述双耳音频采集设备的左耳通道、中置通道和右耳通道对应,所述中置通道位于所述左耳通道和所述右耳通道之间;
根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备的头模之间的声源方位角;
将所述中置通道信号与所述声源方位角对应的夸张耳左耳头相关脉冲响应HRIR进行卷积,从而获得辅助左通道信号;
将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积,从而获得辅助右通道信号;
利用所述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,在所述将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,以及所述将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积之前,所述方法还包括:
根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定所述声源的方位;
当确定所述声源的方位位于所述头模的前方时,才将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,并且将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实 现方式中,所述根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定所述声源的方位,包括:
确定所述左输入通道信号和所述右输入通道信号之间的第一时延差,所述左输入通道信号和所述中置通道信号之间的第二时延差,以及所述右输入通道信号和所述中置通道信号之间的第三时延差;
根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围、所述第二时延差以及所述第三时延差,确定所述声源的方位。
结合第一方面或第一方面的第一种可能的实现方式至第一方面的第二种可能的实现方式中的任意一种,在第一方面的第三种可能的实现方式中,所述利用所述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号,包括:
对所述辅助左通道信号和所述辅助右通道信号进行时延调整,获得时延调整后的辅助左通道信号和时延调整后的辅助右通道信号;
将所述时延调整后的辅助左通道信号与所述左输入通道信号进行合成,从而获得所述左输出通道信号,将所述时延调整后的辅助右通道信号与所述右输入信号进行合成,从而获得所述右输出通道信号。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述对所述辅助左通道信号和所述辅助右通道信号进行时延调整,获得时延调整后的辅助左通道信号和时延调整后的辅助右通道信号,包括:
获取第四时延差和第五时延差,所述第四时延差为所述辅助左通道信号和所述左输入通道信号之间时延差,所述第五时延差为所述辅助右通道信号和所述右输入通道信号之间时延差;
当所述声源的方位位于所述头模的左侧时,确定所述第四时延差为对齐时延差;当所述声源的方位位于所述头模的右侧时,确定所述第五时延差为对齐时延差;
将预设的强化定位延时时差减去所述对齐时延差的差值作为最终补偿时差;
利用所述最终补偿时差对所述辅助左通道信号和所述辅助右通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号和所述时延调整后的辅助右通道信号,所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终补偿时差;或
将所述强化定位延时时差减去所述第四时延差的差值作为最终左侧补偿时差;将所述强化定位延时时差减去所述第五时延差的差值作为最终右侧补偿时差;
利用所述最终左侧补偿时差对所述辅助左通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号,以及利用所述最终右侧补偿时差对所述辅助右通道信号进行时延调整,从耳获得所述时延调整后的辅助右通道信号,使得所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终左侧补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终右侧补偿时差。
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述将所述时延调整后的辅助左通道信号与所述左输入通道信号进行合成,从而获得所述左输出信号,将所述时延调整后的辅助右通道信号与所述右输入信号进行合成,从而获得所述右输出信号,包括:
将所述时延处理后的辅助左通道信号和所述左输入通道信号,以加权和的方式进行合成,从而获得所述左输出通道信号,将所述时延处理后的辅助右通道信号和所述右输入通道信号,以加权和的方式进行合成,进而获得所述右输出通道信号。
结合第一方面或第一方面的第一种可能的实现方式至第一方面的第二种可能的实现方式中的任意一种,在第一方面的第六种可能的实现方式中,所述利用所述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号,包括:
对所述左输入通道信号和所述右输入通道信号进行时延调整,获得时延调整后的左输入通道信号和时延调整后的右输入通道信号;
将所述时延调整后的左通道信号与所述辅助左输入通道信号进行合成,从而获得所述左输出信号,将所述时延调整后的右通道信号与所述辅助右输入信号进行合成,从而获得所述右输出信号。
结合第一方面或第一方面的第一种可能的实现方式至第一方面的第六种可能的实现方式中的任意一种,在第一方面的第七种可能的实现方式中,所述根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备对应的头模之间的声源方位角,包括:
根据第一时延差和所述头模的尺寸确定第一可能声源方位角,根据第二时延差和所述头模的尺寸确定第二可能声源方位角,根据第三时延差和所述头模的尺寸确定第三可能声源方位角;
所述第一时延差为所述左输入通道信号和所述右输入通道信号之间的时差,所述第二时延差为所述左输入通道信号和所述中置通道信号之间的时差,第三时延差为所述右输入通道信号和所述中置通道信号之间的时差;
根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围,从所述第一可能声源方位角、所述第二可能声源方位角或所述第三可能声源方位角中确定所述声源方位角。
本申请第二方面提供了一种输出声源信号的装置,包括:
接收单元,用于接收双耳音频采集设备的采集的左输入通道信号、中置通道信号和右输入通道信号,其中,所述左输入通道信号、所述中置通道信号和所述右输入通道信号分别与所述双耳音频采集设备的左耳通道、中置通道和右耳通道对应,所述中置通道位于所述左耳通道和所述右耳通道之间;
确定单元,用于根据所述接收单元接收到的所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备的头模之间的声源方位角;
卷积单元,用于将所述接收单元接收的所述中置通道信号与所述确定单元所确定的所述声源方位角对应的夸张耳左耳头相关脉冲响应HRIR进行卷积,从而获得辅助左通道信号;将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积,从而获得辅助右通道信号;
输出信号获得单元,用于利用所述接收单元接收的所述左输入通道信号和所述卷积单元提供的所述辅助左通道信号获得左输出通道信号,利用所述接收单元接收的所述右输入通道信号和所述卷积单元提供的所述辅助右通道信号获得右输出通道信号。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述确定单元还用于:
在所卷积单元将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,以及所述将所述中置通道信号与所述声源方位角对应的夸张 耳右耳HRIR进行卷积之前,根据所述接收单元接收的所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定所述声源的方位;当所述确定单元确定所述声源的方位位于所述头模的前方时,通知所述卷积单元将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,并且将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积。
结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述确定单元用于:
确定所述左输入通道信号和所述右输入通道信号之间的第一时延差,所述左输入通道信号和所述中置通道信号之间的第二时延差,以及所述右输入通道信号和所述中置通道信号之间的第三时延差;
根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围、所述第二时延差以及所述第三时延差,确定所述声源的方位。
结合第二方面或第二方面的第一种可能的实现方式至第二方面的第二种可能的实现方式中的任意一种,在第二方面的第三种可能的实现方式中,所述输出信号获得单元用于:
对所述卷积单元提供的所述辅助左通道信号和所述辅助右通道信号进行时延调整,获得时延调整后的辅助左通道信号和时延调整后的辅助右通道信号;
将所述时延调整后的辅助左通道信号与所述接收单元接收的所述左输入通道信号进行合成,从而获得所述左输出通道信号,将所述时延调整后的辅助右通道信号与所述接收单元接收的所述右输入信号进行合成,从而获得所述右输出通道信号。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述输出信号获得单元用于:
获取第四时延差和第五时延差,所述第四时延差为所述辅助左通道信号和所述左输入通道信号之间时延差,所述第五时延差为所述辅助右通道信号和所述右输入通道信号之间时延差;
当所述声源的方位位于所述头模的左侧时,确定所述第四时延差为对齐时延差;当所述声源的方位位于所述头模的右侧时,确定所述第五时延差为对齐时延差;
将预设的强化定位延时时差减去所述对齐时延差的差值作为最终补偿时差;
利用所述最终补偿时差对所述卷积单元提供的所述辅助左通道信号和所述辅助右通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号和所述时延调整后的辅助右通道信号,所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终补偿时差;或
将所述强化定位延时时差减去所述第四时延差的差值作为最终左侧补偿时差;将所述强化定位延时时差减去所述第五时延差的差值作为最终右侧补偿时差;
利用所述最终左侧补偿时差对所述卷积单元提供的所述辅助左通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号,以及利用所述最终右侧补偿时差对所述卷积单元提供的所述辅助右通道信号进行时延调整,从耳获得所述时延调整后的辅助右通道信号,使得所述时延调整后的辅 助左通道信号时序上领先所述左输入通道信号的时差为所述最终左侧补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终右侧补偿时差。
结合第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式中,所述输出信号获得单元用于:
将所述时延处理后的辅助左通道信号和所述接收单元接收的所述左输入通道信号,以加权和的方式进行合成,从而获得所述左输出通道信号,将所述时延处理后的辅助右通道信号和所述接收单元接收的所述右输入通道信号,以加权和的方式进行合成,进而获得所述右输出通道信号。
结合第二方面或第二方面的第一种可能的实现方式至第二方面的第二种可能的实现方式中的任意一种,在第二方面的第六种可能的实现方式中,所述输出信号获得单元用于:
对所述接收单元接收的所述左输入通道信号和所述右输入通道信号进行时延调整,获得时延调整后的左输入通道信号和时延调整后的右输入通道信号;
将所述时延调整后的左通道信号与所述卷积单元提供的所述辅助左输入通道信号进行合成,从而获得所述左输出信号,将所述时延调整后的右通道信号与所述卷积单元提供的所述辅助右输入信号进行合成,从而获得所述右输出信号。
结合第二方面或第二方面的第一种可能的实现方式至第二方面的第六种可能的实现方式中的任意一种,在第二方面的第七种可能的实现方式中,所述确定单元用于:
根据第一时延差和所述头模的尺寸确定第一可能声源方位角,根据第二 时延差和所述头模的尺寸确定第二可能声源方位角,根据第三时延差和所述头模的尺寸确定第三可能声源方位角;
所述第一时延差为所述左输入通道信号和所述右输入通道信号之间的时差,所述第二时延差为所述左输入通道信号和所述中置通道信号之间的时差,第三时延差为所述右输入通道信号和所述中置通道信号之间的时差;
根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围,从所述第一可能声源方位角、所述第二可能声源方位角或所述第三可能声源方位角中确定所述声源方位角。
本申请第三方面提供了一种音频信号处理设备,包括:
接收器,用于接收双耳音频采集设备的采集的左输入通道信号、中置通道信号和右输入通道信号,其中,所述左输入通道信号、所述中置通道信号和所述右输入通道信号分别与所述双耳音频采集设备的左耳通道、中置通道和右耳通道对应,所述中置通道位于所述左耳通道和所述右耳通道之间;
处理器,用于根据所述接收器接收到的所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备的头模之间的声源方位角;将所述中置通道信号与所述声源方位角对应的夸张耳左耳头相关脉冲响应HRIR进行卷积,从而获得辅助左通道信号;将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积,从而获得辅助右通道信号;利用所述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号。
结合第三方面的第一种可能的实现方式,在第三方面的第二种可能的实现方式中,所述处理器还用于:
在所述将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR 进行卷积,以及所述将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积之前,根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定所述声源的方位;当确定所述声源的方位位于所述头模的前方时,所述处理器才将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,并且将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积。
结合第三方面的第二种可能的实现方式,在第三方面的第三种可能的实现方式中,所述处理器用于:
确定所述左输入通道信号和所述右输入通道信号之间的第一时延差,所述左输入通道信号和所述中置通道信号之间的第二时延差,以及所述右输入通道信号和所述中置通道信号之间的第三时延差;
根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围、所述第二时延差以及所述第三时延差,确定所述声源的方位。
结合第三方面或第三方面的第一种可能的实现方式至第三方面的第二种可能的实现方式中的任意一种,在第三方面的第三种可能的实现方式中,所述处理器用于:
对所述辅助左通道信号和所述辅助右通道信号进行时延调整,获得时延调整后的辅助左通道信号和时延调整后的辅助右通道信号;
将所述时延调整后的辅助左通道信号与所述左输入通道信号进行合成,从而获得所述左输出通道信号,将所述时延调整后的辅助右通道信号与所述右输入信号进行合成,从而获得所述右输出通道信号。
结合第三方面的第三种可能的实现方式,在第三方面的第四种可能的实 现方式中,所述处理器用于:
获取第四时延差和第五时延差,所述第四时延差为所述辅助左通道信号和所述左输入通道信号之间时延差,所述第五时延差为所述辅助右通道信号和所述右输入通道信号之间时延差;
当所述声源的方位位于所述头模的左侧时,确定所述第四时延差为对齐时延差;当所述声源的方位位于所述头模的右侧时,确定所述第五时延差为对齐时延差;
将预设的强化定位延时时差减去所述对齐时延差的差值作为最终补偿时差;
利用所述最终补偿时差对所述辅助左通道信号和所述辅助右通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号和所述时延调整后的辅助右通道信号,所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终补偿时差;或
将所述强化定位延时时差减去所述第四时延差的差值作为最终左侧补偿时差;将所述强化定位延时时差减去所述第五时延差的差值作为最终右侧补偿时差;
利用所述最终左侧补偿时差对所述辅助左通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号,以及利用所述最终右侧补偿时差对所述辅助右通道信号进行时延调整,从耳获得所述时延调整后的辅助右通道信号,使得所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终左侧补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终右侧补偿时差。
结合第三方面的第四种可能的实现方式,在第三方面的第五种可能的实现方式中,所述处理器用于:
将所述时延处理后的辅助左通道信号和所述左输入通道信号,以加权和的方式进行合成,从而获得所述左输出通道信号,将所述时延处理后的辅助右通道信号和所述右输入通道信号,以加权和的方式进行合成,进而获得所述右输出通道信号。
结合第三方面或第三方面的第一种可能的实现方式至第三方面的第二种可能的实现方式中的任意一种,在第三方面的第六种可能的实现方式中,所述处理器用于:
对所述左输入通道信号和所述右输入通道信号进行时延调整,获得时延调整后的左输入通道信号和时延调整后的右输入通道信号;
将所述时延调整后的左通道信号与所述辅助左输入通道信号进行合成,从而获得所述左输出信号,将所述时延调整后的右通道信号与所述辅助右输入信号进行合成,从而获得所述右输出信号。
结合第三方面或第三方面的第一种可能的实现方式至第三方面的第六种可能的实现方式中的任意一种,在第三方面的第七种可能的实现方式中,所述处理器用于:
根据第一时延差和所述头模的尺寸确定第一可能声源方位角,根据第二时延差和所述头模的尺寸确定第二可能声源方位角,根据第三时延差和所述头模的尺寸确定第三可能声源方位角;
所述第一时延差为所述左输入通道信号和所述右输入通道信号之间的时差,所述第二时延差为所述左输入通道信号和所述中置通道信号之间的时差,第三时延差为所述右输入通道信号和所述中置通道信号之间的时差;
根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围,从所述第一可能声源方位角、所述第二可能声源方位角或所述第三可能声源方位角中确定所述声源方位角。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在本发明实施例的技术方案中,接收双耳音频采集设备的采集的左输入通道信号、中置通道信号和右输入通道信号,其中,所述左输入通道信号、所述中置通道信号和所述右输入通道信号分别与所述双耳音频采集设备的左耳通道、中置通道和右耳通道对应,所述中置通道位于所述左耳通道和所述右耳通道之间;根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备的头模之间的声源方位角;将所述中置通道信号与所述声源方位角对应的夸张耳左耳头相关脉冲响应HRIR进行卷积,从而获得辅助左通道信号;将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积,从而获得辅助右通道信号;利用所述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号。由于中置通道位于左右耳通道之间,中置通道信号带有更多前方的声源定位特征信息,因此将中置通道信号与左输入通道信号和右输入通道信号分别卷积,进而获得的辅助左通道信号和辅助右通道信号中也会带有前方的声源定位特征信号。进一步利用辅助左通道信号和左输入通道信号获得左输出通道信号,以及利用辅助右通道信号和右输入通道信号获得右输出通道信号。从而本发明实施例中的左输出通道信号和右输出通道信号较现有技术而言,带有更多前方的声源定位特征信息。所以,当用户听到本发明实施例输出的音频信号后,就会 更加准确地判断出声源是位于前方,进而降低了将前方声源误判为后方声源的可能性。
附图说明
图1-图2为本发明实施例中的音频信号处理方法的流程图;
图3为本发明实施例中头模的简化示意图;
图4为本发明实施例中音频信号处理装置的结构示意图;
图5为本发明实施例中音频信号处理设备的结构示意图。
具体实施方式
本申请提供了一种音频信号处理的方法和装置,增强了左右通道输出信号中的前方声源特征,从而降低用户根据听到的声音信号将前方声源误判为来自后方的可能性。
为了解决上述技术问题,本申请提供的技术方案的解决思路包括:
在本发明实施例的技术方案中,接收双耳音频采集设备的采集的左输入通道信号、中置通道信号和右输入通道信号,其中,所述左输入通道信号、所述中置通道信号和所述右输入通道信号分别与所述双耳音频采集设备的左耳通道、中置通道和右耳通道对应,所述中置通道位于所述左耳通道和所述右耳通道之间;根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备的头模之间的声源方位角;将所述中置通道信号与所述声源方位角对应的夸张耳左耳头相关脉冲响应HRIR进行卷积,从而获得辅助左通道信号;将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积,从而获得辅助右通道信号;利用所 述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号。由于中置通道位于左右耳通道之间,中置通道信号带有更多前方的声源定位特征信息,因此将中置通道信号与左输入通道信号和右输入通道信号分别卷积,进而获得的辅助左通道信号和辅助右通道信号中也会带有前方的声源定位特征信号。进一步利用辅助左通道信号和左输入通道信号获得左输出通道信号,以及利用辅助右通道信号和右输入通道信号获得右输出通道信号。从而本发明实施例中的左输出通道信号和右输出通道信号较现有技术而言,带有更多前方的声源定位特征信息。所以,当用户听到本发明实施例输出的音频信号后,就会更加准确地判断出声源是位于前方,进而降低了将前方声源误判为后方声源的可能性。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图对本发明的实施方式进行详细说明。
本申请第一方面提供一种音频信号处理的方法,请参考图1和图2,包括:
S101:接收双耳音频采集设备的采集的左输入通道信号、中置通道信号 和右输入通道信号。
S102:根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备的头模之间的声源方位角。
S103:将所述中置通道信号与所述声源方位角对应的夸张耳左耳头相关脉冲响应HRIR进行卷积,从而获得辅助左通道信号;将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积,从而获得辅助右通道信号。
S104:利用所述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号。
具体来讲,在本申请实施例中,双耳音频采集设备可以为头戴式多媒体设备。或者是置于头模左耳、右耳和中置部位的微缩传声器。在具体实现过程中,当双耳音频采集设备为头戴式多媒体设备时,头模可以为实际的头模,也可以为虚拟头模。该虚拟头模的尺寸与头戴式多媒体设备匹配,换言之,头戴式多媒体设备能够佩戴在根据虚拟头模尺寸制作的实际头模上。本申请实施例中的头模为标准中国人声学头模,当然,也可以为西方人声学头模等,对此本申请不做限制。
在本申请实施例中,采用三个录音通道采集声源所发出的声音信号,分别为左输入通道、中置通道和右输入通道。其中,左耳通道置于头模的左耳部位,或者位于对应虚拟头模左耳部位的位置。右耳通道置于头模的右耳部位,或者位于对应虚拟头模右耳部位的位置。而中置通道位于左耳通道和右耳通道之间,头模正前方的部位。
另外,人类的耳廓主要对高频声波起散射、反射等作用,可以增强前后定位特征差异,使得人类更好地定位声源的前后位置。并且普通耳廓的尺寸 约为6.5cm,耳廓对声源定位主要是在5~6kHz以上的频段起作用。
在本申请实施例中,为了增强耳廓对声源定位的作用,在标准中国人声学头模的基础上,采用了夸张双耳。具体来讲,本申请实施例中所采用的夸张双耳尺寸约为13cm,近似于普通双耳的二部。采用夸张双耳后,夸张双耳的耳廓可以对2~3kHz以上频段起作用,进而使得耳廓对声源定位的作用扩展到了更低的频段。
从左耳通道接收到的音频信号为左输入通道信号,从右耳通道接收到的音频信号为右输入通道信号,从中置通道信号接收到的音频信号为中置通道信号。
为了方便描述,假设左输入通道信号为xL(t),中置通道信号为xC(t),右输入通道信号为xR(t)。在接收了xL(t)、xC(t)和xR(t)后,执行S102,确定声源与头模之间的声源方位角。进而根据声源方位角,在S103中,将中置通道信号分别与声源方位角对应的夸张耳左耳头相关脉冲响应(英文:Head Related Impulse Response;简称:HRIR)和夸张耳右耳HRIR进行卷积。
可选的,在本申请实施例中,在S103之前,还包括:
根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定所述声源的方位;
当确定所述声源的方位位于所述头模的前方时,才将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,并且将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积。
具体来讲,由于将前方声源误判为后方声源的可能性,高于将后方声源误判为前方声源的可能性,因此,本申请实施例中,在执行S103之前,会先确定声源的方位。
为介绍本申请实施例中的声源的方位,请参考图3,为本申请实施例中头模的简化示意图(俯视)。图3中的圆形表示头模,假设头模的半径为a,声源方位角为θ。图3中L表示左耳通道的位置,R表示右耳通道的位置,C表示中置通道的位置。以头模的中心为原点,顺时针建立直角坐标系。那么,当声源的方位位于头模的正前方时,θ=0°(或360°);当声源的方位位于头模的正右方时,θ=90°;当声源的方位位于头模的正后方时,θ=180°;当声源的方位位于头模的正左方时,θ=270°。
在确定声源的方位位于头模的前方时,即声源在[0°,90°],或[270°,360°)的范围内才会执行S103。而当声源的方位位于头模的后方时,即声源在[90°,180°],或(180°,270°]的范围内,可以采用本申请实施例中的音频信号处理方法进行处理,也可以采用现有技术中的方法进行处理,对此本申请不做具体限制。
其中,根据左输入通道、中置通道信号和右输入通道信号确定声源的方位,包括:
确定所述左输入通道信号和所述右输入通道信号之间的第一时延差,所述左输入通道信号和所述中置通道信号之间的第二时延差,以及所述右输入通道信号和所述中置通道信号之间的第三时延差;
根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围、所述第二时延差以及所述第三时延差,确定所述声源的方位。
具体来讲,在确定声源的方位和声源方位角时,需要先获得左输入通道信号、右输入通道信号和中置通道信号间每两个信号之间的时差。
由于左耳通道、右耳通道和中置通道位于头模上的不同位置,因此,声 源发出的声音信号到达三个通道的时间就会有所不同,进而导致每两个通道所采集的音频信号存在时间差。在本申请实施例中,确定两个通道信号的时差采用频域相关法计算。下面将详细介绍如何确定左输入通道信号和右输入通道信号之间的第一时延差ITDLR。而确定左输入通道信号和中置通道信号之间的第二时延差ITDLC,以及右输入通道信号和中置通道信号之间的第三时延差ITDRC的方法与确定ITDLR的方法类似,因此就不再一一赘述了。
首先,对左输入通道信号xL(t)进行傅里叶变化,获得左输入通道信号的傅里叶函系数HL(f)。对右输入通道信号xR(t)进行傅里叶变化,获得右输入通道的傅里叶系数HR(f)。并进一步计算获得HR(f)的共轭
Figure PCTCN2016072017-appb-000001
接着,通过公式1获得双耳头相关变换函数(英文:Head Related Transfer Function;简称:HRTF)之间的互相关函数ΦLR(τ):
Figure PCTCN2016072017-appb-000002
  (公式1)
最终得到的ΦLR(τ)绝对值大等于0小等于1。
由于两个通道间的时差对声源定位所起的作用,主要在低频段,因此本申请实施例中获得低频范围,如f≤3kHz,|τ|≤1ms,或f≤4kHz,|τ|≤1.2ms内的ΦLR(τ)的最大值ΦLRmax)。最后,确定最大值ΦLRmax)对应的τ=τmax为第一时差ITDLR。换言之,ITDLR=τmax。其中,将低频范围确定为f≤2.24kHz且|τ|≤1ms为较佳选择。
与确定ITDLR的方法类似,本申请所属领域的普通技术人员根据本申请公开的上述过程可以确定第二时延差ITDLC和第三时延差ITDRC
接下来,为了确定声源的方位,需要根据第一时延差和头模的尺寸来确定判断因子。在本申请实施例中,头模的尺寸可以为头模的半径,周长,体 积等,对此本申请不做具体限制。在下文中以半径为例进行介绍。具体来讲,根据如下公式获得判断因子:
Figure PCTCN2016072017-appb-000003
其中,m为判断因子,c为声速,a为头模的半径。
相应的,所述根据判断因子的值所在的范围,确定所述声源的方位包括:
当m≥0,且ITDLC大于ITDRC时,确定所述声源的方位为位于所述头模的前方;
当m≥0,且ITDLC小于或等于ITDRC时,确定所述声源的方位为位于所述头模的后方;
当m<0,且ITDLC小于ITDRC时,确定所述声源的方位为位于所述头模的前方;
当m<0,且ITDLC大于或等于ITDRC时,确定所述声源的方位为位于所述头模的后方。
在本申请实施例中,确定声源的方位时,具体为比较ITDLC和ITDRC的绝对值大小。
m≥0,声源的方位位于头模的右侧,具体为声源的方位角在[0°,180°]的区域;m<0,声源的方位位于头模的左侧,具体为声源的方位角在[180°,360°]的范围区域。
而在S102中根据左输入通道信号、中置通道信号和右输入通道信号确定声源方位角,包括:
根据第一时延差和所述头模的尺寸确定第一可能声源方位角,根据第二时延差和所述头模的尺寸确定第二可能声源方位角,根据第三时延差和所述头模的尺寸确定第三可能声源方位角;
所述第一时延差为所述左输入通道信号和所述右输入通道信号之间的时差,所述第二时延差为所述左输入通道信号和所述中置通道信号之间的时差,第三时延差为所述右输入通道信号和所述中置通道信号之间的时差;
根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围,从所述第一可能声源方位角、所述第二可能声源方位角或所述第三可能声源方位角中确定所述声源方位角。
具体来讲,在本申请实施例中,通过公式(2)计算第一可能声源方位角θLR,通过公式(3)计算第二声源可能方位角θLC,通过公式(4)计算第三可能声源方位角θLC
Figure PCTCN2016072017-appb-000004
  (公式2)
Figure PCTCN2016072017-appb-000005
  (公式3)
Figure PCTCN2016072017-appb-000006
  (公式4)
通过公式(2)-公式(4)计算获得的第一可能声源方位角θLR、第二可能声源方位角θLC和第三可能声源方位角θRC均有可能为实际的声源方位角θe。所以接下来,将根据头模的尺寸与ITDLR确定出的判断因子m。然后,根据m的值所在的范围从θLR、θLC和θRC中确定出声源方位角θe
其中,确定判断因子m的方式与上文类似,即
Figure PCTCN2016072017-appb-000007
这里就不再赘述了。根据m的值所在范围,从θLR、θLC或θRC中确定出声源方位角θe,包括以下4种情况:
(1)当
Figure PCTCN2016072017-appb-000008
时,确定第一可能声源方位角为声源方位角,即确定θe=θLR
(2)当
Figure PCTCN2016072017-appb-000009
时,确定第三可能声源方位角为声源方位角,即确定 θe=θRC
(3)当
Figure PCTCN2016072017-appb-000010
时,确定第一可能声源方位角为声源方位角,即确定θe=θLR
(4)当
Figure PCTCN2016072017-appb-000011
时,确定所述第二可能声源方位角为所述声源方位角,即确定θe=θLC
由于中置通道位于头模的前方,因此中置通道信号携带较多在前方声源定位特征信息。为了使左输出通道信号和右输出通道信号携带更多的前方声源定位特征信息,本申请实施例中,若判断出声源位于头模的前方时,将执行S103。
具体来讲,不同的声源方位角对应着不同的HRIR。所以,当确定出声源方位角θe后,则读取θe对应的夸张耳左耳HRIR信号he_le,t)和夸张耳右耳HRIR信号he_Re,t)。其中,夸张耳左耳HRIR信号he_le,t)和夸张耳右耳HRIR信号he_le,t)均为时域信号。并且本申请实施例中的夸张耳左耳HRIR信号he_le,t)和夸张耳右耳HRIR信号的数据为标准头模左右耳HRIR的2倍。
读取he_le,t)和he_Re,t)之后,按照公式(5)将左输入通道信号xL(t)与he_le,t)进行卷积,从而获得辅助左通道信号xCL(t)。以及按照公式(6)将右输入通道信号xR(t)与he_Re,t)进行卷积,从而获得辅助右通道信号xCR(t)。
具体为:
Figure PCTCN2016072017-appb-000012
  (公式5)
Figure PCTCN2016072017-appb-000013
  (公式6)。
在具体实现过程中,可以同时获得xCL(t)和xCR(t),也可以先获得xCL(t),再获得xCR(t),或者先获得xCR(t),再获得xCL(t),本申请对此不做具体限制。
接下来,在S104中,利用左输入通道信号和辅助左通道信号,获得左输 出通道信息。以及利用右输入通道信号和辅助右通道信号,获得右输出通道信息。进而就将辅助左通道信号所携带的前方声源定位特征信息加入左输出通道信号,将辅助右通道信号所携带的前方声源定位特征信息加入左右输出通道信号。
具体来讲,在本申请实施例中,获得左输出通道信号和右输出通道信号的方式有多种,下面将列举五种。在具体实现过程中,包括但不限于以下五种。
第一种:
按照公式(7),将左输入通道信号和辅助左输入通过信号合成,进而获得左输出通道信号xLout(t),以及将右输入通道信号和辅助右通道信号合成,进而获得右输出通道信号xRout(t)。
xLout(t)=xL(t)+xCL(t),xRout(t)=xR(t)+xCR(t)  公式(7)。
第二种:
对所述辅助左通道信号和所述辅助右通道信号进行时延调整,获得时延调整后的辅助左通道信号和时延调整后的辅助右通道信号;
将所述时延调整后的辅助左通道信号与所述左输入通道信号进行合成,从而获得所述左输出通道信号,将所述时延调整后的辅助右通道信号与所述右输入信号进行合成,从而获得所述右输出通道信号。
其中,所述对所述辅助左通道信号和所述辅助右通道信号进行时延调整,获得时延调整后的辅助左通道信号和时延调整后的辅助右通道信号,包括:
获取第四时延差和第五时延差,所述第四时延差为所述辅助左通道信号和所述左输入通道信号之间时延差,所述第五时延差为所述辅助右通道信号和所述右输入通道信号之间时延差;
当所述声源的方位位于所述头模的左侧时,确定所述第四时延差为对齐时延差;当所述声源的方位位于所述头模的右侧时,确定所述第五时延差为对齐时延差;
将预设的强化定位延时时差减去所述对齐时延差的差值作为最终补偿时差;
利用所述最终补偿时差对所述辅助左通道信号和所述辅助右通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号和所述时延调整后的辅助右通道信号,所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终补偿时差;或
将所述强化定位延时时差减去所述第四时延差的差值作为最终左侧补偿时差;将所述强化定位延时时差减去所述第五时延差的差值作为最终右侧补偿时差;
利用所述最终左侧补偿时差对所述辅助左通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号,以及利用所述最终右侧补偿时差对所述辅助右通道信号进行时延调整,从耳获得所述时延调整后的辅助右通道信号,使得所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终左侧补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终右侧补偿时差。
具体来讲,由于中置通道信号和左输入通道信号存在时差,因此中置通道信号和左输入通道信号卷积获得的辅助左通道信号与左输入通道信号之间也可能存在时差,因此在合成前获取辅助左通道信号和左输入通道信号之间的第四时延差τ′Lmax。其中,计算获得第四时延差τ′Lmax的方式与通过公式1计算 获得左右输入通道信号之间的第一时延差的方式类似。并通过类似的方式获得辅助右通道信号和右输入通道信号之间的第五时延差τ′Rmax
然后,当声源的方位位于头模的左侧时,确定第四时延差τ′Lmax为对齐时差,而当声源的方位位于头模的右侧时,则确定第五时延差τ′Rmax为对齐时差,如公式(8)所示。
具体来讲,由于本申请实施例中的声源的方位位于头模的前方,所以当[270°,360°]时,本申请实施例中的声源的方位既位于头模的前方,又位于头模的左侧;当[0°,90°]时,本申请实施例中的声源的方位既位于头模的前方,又位于头模的右侧。
Figure PCTCN2016072017-appb-000014
  (公式8);
其中,τ′max为对齐时延差。
进一步,依据优先效应,当两个声音信号之间领先和滞后时差超过1ms时,在相对较短的时间内,这两个声音在人类的听觉感知上仍是一个声音。但是,感知的声源的位置取决于领先的声音信号。这种效应被称为优先效应,也叫哈斯效应。因此,为了用户在听到左输出通道信号和右输出通道信号时,使用户更准确地判断出声源位于前方,将对齐时差τ′max和强化定位延时时差τ0的差值作为最终补偿时差τ′。并利用最终补偿时差对辅助左通道信号和辅助右通道信号进行时延调整。本申请实施例中通过公式(9)确定最终补偿时差τ′。
τ′=τ0-τ′max  (公式9)
即最终补偿时差τ′为强化定位延时时差τ0减去对齐时差τ′max的差值。根据优先效应可知,当两个信号的时差超过1ms时会出现优先效应,因此,本发明实施例中的0<τ0<10ms,例如1ms,1.2ms,1.21ms等。
最后,利用最终补偿时差对辅助左通道信号和辅助右通道信号进行相同 的时延调整。在本申请实施例中,具体为按照公式(10)将辅助左通道信号辅助右通道信号的时序提前τ′。那么,所获得的时延调整后的辅助左通道信号时序上领先左输入通道信号τ′,时延调整后的辅助右通道信号时序上领先右输入通道信号τ′。
x'CL(t)=xCL(t+τ′),x'CR(t)=xCR(t+τ′)  (公式10);
x'CL(t)为时延调整后的辅助左通道信号,x'RL(t)为时延调整后的辅助右通道信号。
另外,还可以对辅助左通道和辅助右通道进行不同的时延调整。具体来讲,将强化定位延时时差τ0减去所述第四时延差τ′Lmax的差值作为最终左侧补偿时差τ′L;将强化定位延时时差τ0减去第五时延差τ′Rmax的差值作为最终右侧补偿时差τ′R,即
τ′R=τ0-τ′Rmax,τ′L=τ0-τ′Lmax  (公式11),
其中,0<τ0<10ms。
然后,可以按照公式(12)对辅助左通道信号进行时延调整,时延调整后的辅助左通道信号时序上超前于左输入通道信号τ′L;以及对辅助右通道信号进行时延调整,时延调整后的辅助右通道信号时序上超前于右输入通道信号τ′R
x'CL(t)=xCL(t+τ′L),x'CR(t)=xCR(t+τ′R)  (公式12);
最后,按照公式(13),将左输入通道信号和时延调整后的辅助左通道信号合成,进而获得左输出通道信号,以及将右输入通道信号和时延调整后的辅助右通道信号合成,进而获得右输出通道信号。其中,公式(13)中的x'CL(t)和x'CR(t)为通过公式(11)或公式(12)获得。
xLout(t)=xL(t)+x'CL(t),xRout(t)=xR(t)+x'CR(t)  (公式13)
第三种:
获得时延调整后的辅助左通道信号和时延调整后的辅助右通道信号之后,将所述时延调整后的辅助左通道信号与所述左输入通道信号进行合成,从而获得所述左输出信号,将所述时延调整后的辅助右通道信号与所述右输入信号进行合成,从而获得所述右输出信号,包括:
将所述时延处理后的辅助左通道信号和所述左输入通道信号,以加权和的方式进行合成,从而获得所述左输出通道信号,将所述时延处理后的辅助右通道信号和所述右输入通道信号,以加权和的方式进行合成,进而获得所述右输出通道信号。
具体来讲,对辅助左通道信号和辅助右通道信号的时延调整与第二种方式中时延调整类似,这里就不再赘述了。
在本申请实施例中,为了避免辅助左(右)通道信号过分夸大前后定位特征差异而引起音色上的明显失真,因此在本申请实施例中,将按照加权和的方式进行合成。
具体来讲,可以按照公式(14),将时延调整后的辅助左通道信号和时延调整后的辅助右通道信号均乘以第一加权系数,进而获得加权后的辅助左通道信号和加权后的辅助右通道信号。其中,本申请实施中的第一加权系数为大于0小于1之间的任意常数。
x"CL(t)=M1×x'CL(t),x"CR(t)=M1×x'CR(t)  (公式14);
其中,x”CL(t)为加权后的辅助左通道信号,x”CR(t)为加权后的辅助右通道信号,M1为第一加权系数,且0<M1<1。
然后将左输入通道信号和加权后的辅助左通道信号合成,从而获得左输出通道信号,将右输入通道信号和加权后的辅助右通道信号合成,从而获得 右输出通道信号。即
xLout(t)=xL(t)+x”CL(t),xRout(t)=xR(t)+x”CR(t)  (公式15)。
可选的,左输入通道信号和右输入通道信号也可以乘以第二加权系数后,再合成左输出通道信号和右输出通道信号。具体来讲,按照公式16将左输入通道信号和右输入通道信号均乘以第二加权系数,进而获得加权后的左输入通道信号和加权后的右输入通道信号。其中,本申请实施中的第二加权系数为大于0小于1之间的任意常数,且第二加权系数与第一加权系数可以相等也可以不相等。
x"L(t)=M2×xL(t),x"R(t)=M2×xR(t)  (公式16)。
其中,x"L(t)为加权后的左输入通道信号,x"R(t)为加权后的右输入通道信号,M2为第二加权系数,且0<M2<1。
最后按照公式(17)将加权后的左输入通道信号和加权后的辅助左通道信号合成,从而获得左输出通道信号,将加权后的右输入通道信号和加权后的辅助右通道信号合成,从而获得右输出通道信号。即
xLout(t)=x”L(t)+x”CL(t),xRout(t)=x”R(t)+x”CR(t)  (公式17)。
第四种:
对所述左输入通道信号和所述右输入通道信号进行时延调整,获得时延调整后的左输入通道信号和时延调整后的右输入通道信号;
将所述时延调整后的左通道信号与所述辅助左输入通道信号进行合成,从而获得所述左输出信号,将所述时延调整后的右通道信号与所述辅助右输入信号进行合成,从而获得所述右输出信号。
其中,所述对所述左输入通道信号和所述右输入通道信号进行时延调整,获得时延调整后的左输入通道信号和时延调整后的右输入通道信号,包括:
获取第四时延差和第五时延差;其中,所述第四时延差为所述辅助左通道信号和所述左输入通道信号之间时延差,所述第五时延差为所述辅助右通道信号和所述右输入通道信号之间时延差;
当所述声源的方位位于所述头模的左侧时,确定所述第四时延差为所述对齐时延差;当所述声源的方位位于所述头模的右侧时,确定所述第五时延差为所述对齐时延差;
将预设的强化定位延时时差减去所述对齐时延差的差值作为最终补偿时差;
利用所述最终补偿时差对所述左输入通道信号和所述右输入通道信号进行时延调整,获得所述时延调整后的左输入通道信号和所述时延调整后的右输入通道信号,使得所述时延调整后的左输入通道信号时序上滞后于所述辅助左通道信号的时差为所述最终补偿时差,所述时延调整后的右输入通道信号时序上滞后于所述辅助右通道信号的时差为所述最终补偿时差;或
将所述强化定位延时时差减去所述第四时延差的差值作为所述最终左侧补偿时差;将所述强化定位延时时差减去所述第五时延差的差值作为所述最终右侧补偿时差;
利用所述最终左侧补偿时差对所述左输入通道信号进行时延调整,获得所述时延调整后的左输入通道信号,以及利用所述最终右侧补偿时差对所述右输入通道信号进行时延调整,获得所述时延调整后的右输入通道信号,使得所述时延调整后的左输入通道信号时序上滞后于所述辅助左通道信号的时差为所述最终左侧补偿时差,所述时延调整后的右输入通道信号时序上滞后于所述辅助右通道信号的时差为所述最终右侧补偿时差。
在第四种方式中,获得最终补偿时差,或者获得最终左侧补偿时差和最 终右侧补偿时差的方式,与前文中第三种方式类似,这里就不再赘述了。
接下来,按照公式(18)对左输入道信号和右输入通道信号进行时延调整,时延调整后的左输入通道信号在时序上滞后于辅助左通道信号τ′,时延调整后的右输入通道信号时序上滞后于辅助右通道信号τ′。
x′L(t)=xL(t-τ′),x′R(t)=xR(t-τ′)  (公式18);
x′L(t)为时延调整后的左输入通道信号,x′R(t)为时延调整后的右输入通道信号。
或者,按照公式(19)对左输入道信号和右输入通道信号进行时延调整,时延调整后的左输入通道信号在时序上滞后于辅助左通道信号τ′L,时延调整后的右输入通道信号时序上滞后于辅助右通道信号τ′R
x′L(t)=xL(t-τ′L),x′R(t)=xR(t-τ′R)  (公式19)。
最后,按照公式(20),将时延调整后的左输入通道信号和辅助左输入通道信号合成,进而获得左输出通道信号,以及将时延调整后的右输入通道信号和辅助右通道信号合成,进而获得右输出通道信号。
xLout(t)=xL'(t)+xCL(t),xRout(t)=x'R(t)+xCR(t)  (公式20)。
第五种:
获得时延调整后的左输入通道信号和时延调整后的右输入通道信号之后,将所述时延调整后的辅助左通道信号与所述左输入通道信号进行合成,从而获得所述左输出信号,将所述时延调整后的辅助右通道信号与所述右输入信号进行合成,从而获得所述右输出信号,包括:
将所述辅助左通道信号和所述时延处理后的左输入通道信号,以加权和的方式进行合成,从而获得所述左输出通道信号,将所述辅助右通道信号和所述时延处理后的右输入通道信号,以加权和的方式进行合成,进而获得所 述右输出通道信号。
具体来讲,可以将辅助左通道信号和辅助右通道信号均乘以第三加权系数,进而获得加权后的辅助左通道信号和加权后的辅助右通道信号。其中,本申请实施中的第三加权系数为大于0小于1之间的任意常数。
x"CL(t)=M3×xCL(t),x"CR(t)=M3×xCR(t)  (公式21)
其中,x”CL(t)为加权后的辅助左通道信号,x”CR(t)为加权后的辅助右通道信号,M3为第三加权系数,且0<M3<1。
然后按照公式(22),将时延调整后的左输入通道信号和加权后的辅助左通道信号合成,从而获得左输出通道信号,将时延调整后的右输入通道信号和加权后的辅助右通道信号合成,从而获得右输出通道信号,即
xLout(t)=x'L(t)+x”CL(t),xRout(t)=x'R(t)+x”CR(t)  (公式22)。
可选的,时延调整后的左输入通道信号和时延调整后的右输入通道信号也可以乘以第四加权系数后,再合成左输出通道信号和右输出通道信号。具体来讲,按照公式(23),将时延调整后的左输入通道信号和时延调整后的右输入通道信号均乘以第四加权系数,进而获得加权后的左输入通道信号和加权后的右输入通道信号。其中,本申请实施中的第四加权系数为大于0小于1之间的任意常数,且第三加权系数与第四加权系数可以相等也可以不相等。
x"L(t)=M4×x'L(t),x"R(t)=M4×x'R(t)  (公式23)。
其中,x"L(t)为加权后的左输入通道信号,x"R(t)为加权后的右输入通道信号,M2为第二加权系数,且0<M2<1。
最后,按照公式(24)将加权后的左输入通道信号和加权后的辅助左通道信号合成,从而获得左输出通道信号,将加权后的右输入通道信号和加权 后的辅助右通道信号合成,从而获得右输出通道信号,即
xLout(t)=x”L(t)+x”CL(t),xRout(t)=x”R(t)+x”CR(t)  (公式24)。
本申请第二方面提供了一种音频信号处理的装置,如图4所示,包括:
接收单元401,用于接收双耳音频采集设备的采集的左输入通道信号、中置通道信号和右输入通道信号,其中,所述左输入通道信号、所述中置通道信号和所述右输入通道信号分别与所述双耳音频采集设备的左耳通道、中置通道和右耳通道对应,所述中置通道位于所述左耳通道和所述右耳通道之间;
确定单元402,用于根据所述接收单元401接收到的所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备的头模之间的声源方位角;
卷积单元403,用于将所述接收单元401接收的所述中置通道信号与所述确定单元402所确定的所述声源方位角对应的夸张耳左耳头相关脉冲响应HRIR进行卷积,从而获得辅助左通道信号;将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积,从而获得辅助右通道信号;
输出信号获得单元404,用于利用所述接收单元401接收的所述左输入通道信号和所述卷积单元403提供的所述辅助左通道信号获得左输出通道信号,利用所述接收单元401接收的所述右输入通道信号和所述卷积单元403提供的所述辅助右通道信号获得右输出通道信号。
可选的,所述确定单元402还用于:
在所卷积单元403将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,以及所述将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积之前,根据所述接收单元401接收的所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定所述声源的方位;当所 述确定单元402确定所述声源的方位位于所述头模的前方时,通知所述卷积单元403将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,并且将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积。
可选的,所述确定单元402用于:
确定所述左输入通道信号和所述右输入通道信号之间的第一时延差,所述左输入通道信号和所述中置通道信号之间的第二时延差,以及所述右输入通道信号和所述中置通道信号之间的第三时延差;根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围、所述第二时延差以及所述第三时延差,确定所述声源的方位。
可选的,所述输出信号获得单元404用于:
对所述卷积单元403提供的所述辅助左通道信号和所述辅助右通道信号进行时延调整,获得时延调整后的辅助左通道信号和时延调整后的辅助右通道信号;将所述时延调整后的辅助左通道信号与所述接收单元401接收的所述左输入通道信号进行合成,从而获得所述左输出通道信号,将所述时延调整后的辅助右通道信号与所述右输入信号进行合成,从而获得所述右输出通道信号。
可选的,所述输出信号获得单元404用于:
获取第四时延差和第五时延差,所述第四时延差为所述辅助左通道信号和所述左输入通道信号之间时延差,所述第五时延差为所述辅助右通道信号和所述右输入通道信号之间时延差;
当所述声源的方位位于所述头模的左侧时,确定所述第四时延差为对齐时延差;当所述声源的方位位于所述头模的右侧时,确定所述第五时延差为 对齐时延差;
将预设的强化定位延时时差减去所述对齐时延差的差值作为最终补偿时差;
利用所述最终补偿时差对所述卷积单元403提供的所述辅助左通道信号和所述辅助右通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号和所述时延调整后的辅助右通道信号,所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终补偿时差;或
将所述强化定位延时时差减去所述第四时延差的差值作为最终左侧补偿时差;将所述强化定位延时时差减去所述第五时延差的差值作为最终右侧补偿时差;
利用所述最终左侧补偿时差对所述卷积单元403提供的所述辅助左通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号,以及利用所述卷积单元403提供的所述最终右侧补偿时差对所述辅助右通道信号进行时延调整,从耳获得所述时延调整后的辅助右通道信号,使得所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终左侧补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终右侧补偿时差。
可选的,所述输出信号获得单元404用于:
将所述时延处理后的辅助左通道信号和所述接收单元401接收的所述左输入通道信号,以加权和的方式进行合成,从而获得所述左输出通道信号,将所述时延处理后的辅助右通道信号和所述接收单元401接收的所述右输入 通道信号,以加权和的方式进行合成,进而获得所述右输出通道信号。
可选的,所述输出信号获得单元404用于:
对所述接收单元401接收的所述左输入通道信号和所述右输入通道信号进行时延调整,获得时延调整后的左输入通道信号和时延调整后的右输入通道信号;
将所述时延调整后的左通道信号与所述卷积单元403提供的所述辅助左输入通道信号进行合成,从而获得所述左输出信号,将所述时延调整后的右通道信号与所述卷积单元403提供的所述辅助右输入信号进行合成,从而获得所述右输出信号。
可选的,所述输出信号获得单元404用于:
获取第四时延差和第五时延差;其中,所述第四时延差为所述辅助左通道信号和所述左输入通道信号之间时延差,所述第五时延差为所述辅助右通道信号和所述右输入通道信号之间时延差;
当所述声源的方位位于所述头模的左侧时,确定所述第四时延差为所述对齐时延差;当所述声源的方位位于所述头模的右侧时,确定所述第五时延差为所述对齐时延差;
将预设的强化定位延时时差减去所述对齐时延差的差值作为最终补偿时差;
利用所述最终补偿时差对所述接收单元401接收的所述左输入通道信号和所述右输入通道信号进行时延调整,获得所述时延调整后的左输入通道信号和所述时延调整后的右输入通道信号,使得所述时延调整后的左输入通道信号时序上滞后于所述辅助左通道信号的时差为所述最终补偿时差,所述时延调整后的右输入通道信号时序上滞后于所述辅助右通道信号的时差为所述 最终补偿时差;或
将所述强化定位延时时差减去所述第四时延差的差值作为所述最终左侧补偿时差;将所述强化定位延时时差减去所述第五时延差的差值作为所述最终右侧补偿时差;
利用所述最终左侧补偿时差对所述接收单元401接收的所述左输入通道信号进行时延调整,获得所述时延调整后的左输入通道信号,以及利用所述最终右侧补偿时差对所述接收单元401接收的所述右输入通道信号进行时延调整,获得所述时延调整后的右输入通道信号,使得所述时延调整后的左输入通道信号时序上滞后于所述辅助左通道信号的时差为所述最终左侧补偿时差,所述时延调整后的右输入通道信号时序上滞后于所述辅助右通道信号的时差为所述最终右侧补偿时差。
可选的,所述输出信号获得单元404用于:
将所述卷积单元403提供的所述辅助左通道信号和所述时延处理后的左输入通道信号,以加权和的方式进行合成,从而获得所述左输出通道信号,将所述卷积单元403提供的所述辅助右通道信号和所述时延处理后的右输入通道信号,以加权和的方式进行合成,进而获得所述右输出通道信号。
可选的,所述确定单元402用于:
根据第一时延差和所述头模的尺寸确定第一可能声源方位角,根据第二时延差和所述头模的尺寸确定第二可能声源方位角,根据第三时延差和所述头模的尺寸确定第三可能声源方位角;所述第一时延差为所述左输入通道信号和所述右输入通道信号之间的时差,所述第二时延差为所述左输入通道信号和所述中置通道信号之间的时差,第三时延差为所述右输入通道信号和所述中置通道信号之间的时差;根据所述第一时延差以及所述头模的尺寸确定 判断因子,根据所述判断因子的值所在的范围,从所述第一可能声源方位角、所述第二可能声源方位角或所述第三可能声源方位角中确定所述声源方位角。
本申请第三方面提供了一种电子设备,图5所示的电子设备涉及到的术语的含义以及具体实现,可以参考前述图1至图4以及实施例的相关描述。
请参考图5,该设备包括:
接收器501,用于接收双耳音频采集设备的采集的左输入通道信号、中置通道信号和右输入通道信号,其中,所述左输入通道信号、所述中置通道信号和所述右输入通道信号分别与所述双耳音频采集设备的左耳通道、中置通道和右耳通道对应,所述中置通道位于所述左耳通道和所述右耳通道之间;
处理器503,用于根据所述接收器501接收到的所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备的头模之间的声源方位角;将所述中置通道信号与所述声源方位角对应的夸张耳左耳头相关脉冲响应HRIR进行卷积,从而获得辅助左通道信号;将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积,从而获得辅助右通道信号;利用所述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号。
可选的,处理器503还用于:
在所述将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,以及所述将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积之前,根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定所述声源的方位;当确定所述声源的方位位于所述头 模的前方时,所述处理器才将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,并且将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积。
可选的,所述处理器503用于:
确定所述左输入通道信号和所述右输入通道信号之间的第一时延差,所述左输入通道信号和所述中置通道信号之间的第二时延差,以及所述右输入通道信号和所述中置通道信号之间的第三时延差;
根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围、所述第二时延差以及所述第三时延差,确定所述声源的方位。
可选的,所述处理器503用于:
对所述辅助左通道信号和所述辅助右通道信号进行时延调整,获得时延调整后的辅助左通道信号和时延调整后的辅助右通道信号;
将所述时延调整后的辅助左通道信号与所述左输入通道信号进行合成,从而获得所述左输出通道信号,将所述时延调整后的辅助右通道信号与所述右输入信号进行合成,从而获得所述右输出通道信号。
可选的,所述处理器503用于:
获取第四时延差和第五时延差,所述第四时延差为所述辅助左通道信号和所述左输入通道信号之间时延差,所述第五时延差为所述辅助右通道信号和所述右输入通道信号之间时延差;
当所述声源的方位位于所述头模的左侧时,确定所述第四时延差为对齐时延差;当所述声源的方位位于所述头模的右侧时,确定所述第五时延差为对齐时延差;
将预设的强化定位延时时差减去所述对齐时延差的差值作为最终补偿时差;
利用所述最终补偿时差对所述辅助左通道信号和所述辅助右通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号和所述时延调整后的辅助右通道信号,所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终补偿时差;或
将所述强化定位延时时差减去所述第四时延差的差值作为最终左侧补偿时差;将所述强化定位延时时差减去所述第五时延差的差值作为最终右侧补偿时差;
利用所述最终左侧补偿时差对所述辅助左通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号,以及利用所述最终右侧补偿时差对所述辅助右通道信号进行时延调整,从耳获得所述时延调整后的辅助右通道信号,使得所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终左侧补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终右侧补偿时差。
可选的,所述处理器503用于:
将所述时延处理后的辅助左通道信号和所述左输入通道信号,以加权和的方式进行合成,从而获得所述左输出通道信号,将所述时延处理后的辅助右通道信号和所述右输入通道信号,以加权和的方式进行合成,进而获得所述右输出通道信号。
可选的,所述处理器503用于:
对所述左输入通道信号和所述右输入通道信号进行时延调整,获得时延 调整后的左输入通道信号和时延调整后的右输入通道信号;
将所述时延调整后的左通道信号与所述辅助左输入通道信号进行合成,从而获得所述左输出信号,将所述时延调整后的右通道信号与所述辅助右输入信号进行合成,从而获得所述右输出信号。
可选的,所述处理器503用于:
获取第四时延差和第五时延差;其中,所述第四时延差为所述辅助左通道信号和所述左输入通道信号之间时延差,所述第五时延差为所述辅助右通道信号和所述右输入通道信号之间时延差;
当所述声源的方位位于所述头模的左侧时,确定所述第四时延差为所述对齐时延差;当所述声源的方位位于所述头模的右侧时,确定所述第五时延差为所述对齐时延差;
将预设的强化定位延时时差减去所述对齐时延差的差值作为最终补偿时差;
利用所述最终补偿时差对所述左输入通道信号和所述右输入通道信号进行时延调整,获得所述时延调整后的左输入通道信号和所述时延调整后的右输入通道信号,使得所述时延调整后的左输入通道信号时序上滞后于所述辅助左通道信号的时差为所述最终补偿时差,所述时延调整后的右输入通道信号时序上滞后于所述辅助右通道信号的时差为所述最终补偿时差;或
将所述强化定位延时时差减去所述第四时延差的差值作为所述最终左侧补偿时差;将所述强化定位延时时差减去所述第五时延差的差值作为所述最终右侧补偿时差;
利用所述最终左侧补偿时差对所述左输入通道信号进行时延调整,获得所述时延调整后的左输入通道信号,以及利用所述最终右侧补偿时差对所述 右输入通道信号进行时延调整,获得所述时延调整后的右输入通道信号,使得所述时延调整后的左输入通道信号时序上滞后于所述辅助左通道信号的时差为所述最终左侧补偿时差,所述时延调整后的右输入通道信号时序上滞后于所述辅助右通道信号的时差为所述最终右侧补偿时差。
可选的,所述处理器503用于:
将所述辅助左通道信号和所述时延处理后的左输入通道信号,以加权和的方式进行合成,从而获得所述左输出通道信号,将所述辅助右通道信号和所述时延处理后的右输入通道信号,以加权和的方式进行合成,进而获得所述右输出通道信号。
可选的,所述处理器503用于:
根据第一时延差和所述头模的尺寸确定第一可能声源方位角,根据第二时延差和所述头模的尺寸确定第二可能声源方位角,根据第三时延差和所述头模的尺寸确定第三可能声源方位角;
所述第一时延差为所述左输入通道信号和所述右输入通道信号之间的时差,所述第二时延差为所述左输入通道信号和所述中置通道信号之间的时差,第三时延差为所述右输入通道信号和所述中置通道信号之间的时差;
根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围,从所述第一可能声源方位角、所述第二可能声源方位角或所述第三可能声源方位角中确定所述声源方位角。
其中,在图5中,总线架构(用总线500来代表),总线500可以包括任意数量的互联的总线和桥,总线500将包括由处理器503代表的一个或多个处理器和存储器504代表的存储器的各种电路链接在一起。总线500还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起, 这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口505在总线500和接收器501和发送器502之间提供接口。接收器501和发送器502可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器503负责管理总线500和通常的处理,而存储器504可以被用于存储处理器503在执行操作时所使用的数据。
前述实施例中描述的音频信息处理方法的各种变化方式和具体实例同样适用于本实施例的音频信息处理设备,通过前述对音频信息处理方法和音频信息处理装置执行过程的详细描述,本领域技术人员可以清楚的知道本实施例中音频信息设备的实施方法,所以为了说明书的简洁,在此不再详述。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在本发明实施例的技术方案中,接收双耳音频采集设备的采集的左输入通道信号、中置通道信号和右输入通道信号,其中,所述左输入通道信号、所述中置通道信号和所述右输入通道信号分别与所述双耳音频采集设备的左耳通道、中置通道和右耳通道对应,所述中置通道位于所述左耳通道和所述右耳通道之间;根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备的头模之间的声源方位角;将所述中置通道信号与所述声源方位角对应的夸张耳左耳头相关脉冲响应HRIR进行卷积,从而获得辅助左通道信号;将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积,从而获得辅助右通道信号;利用所述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号。由于中置通道位 于左右耳通道之间,中置通道信号带有更多前方的声源定位特征信息,因此将中置通道信号与左输入通道信号和右输入通道信号分别卷积,进而获得的辅助左通道信号和辅助右通道信号中也会带有前方的声源定位特征信号。进一步利用辅助左通道信号和左输入通道信号获得左输出通道信号,以及利用辅助右通道信号和右输入通道信号获得右输出通道信号。从而本发明实施例中的左输出通道信号和右输出通道信号较现有技术而言,带有更多前方的声源定位特征信息。所以,当用户听到本发明实施例输出的音频信号后,就会更加准确地判断出声源是位于前方,进而降低了将前方声源误判为后方声源的可能性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

  1. 一种音频信号处理的方法,其特征在于,包括:
    接收双耳音频采集设备的采集的左输入通道信号、中置通道信号和右输入通道信号,其中,所述左输入通道信号、所述中置通道信号和所述右输入通道信号分别与所述双耳音频采集设备的左耳通道、中置通道和右耳通道对应,所述中置通道位于所述左耳通道和所述右耳通道之间;
    根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备的头模之间的声源方位角;
    将所述中置通道信号与所述声源方位角对应的夸张耳左耳头相关脉冲响应HRIR进行卷积,从而获得辅助左通道信号;
    将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积,从而获得辅助右通道信号;
    利用所述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号。
  2. 如权利要求1所述的方法,其特征在于,在所述将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,以及所述将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积之前,所述方法还包括:
    根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定所述声源的方位;
    当确定所述声源的方位位于所述头模的前方时,才将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,并且将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积。
  3. 如权利要求2所述的方法,其特征在于,所述根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定所述声源的方位,包括:
    确定所述左输入通道信号和所述右输入通道信号之间的第一时延差,所述左输入通道信号和所述中置通道信号之间的第二时延差,以及所述右输入通道信号和所述中置通道信号之间的第三时延差;
    根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围、所述第二时延差以及所述第三时延差,确定所述声源的方位。
  4. 如权利要求1-3任一项所述的方法,其特征在于,所述利用所述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号,包括:
    对所述辅助左通道信号和所述辅助右通道信号进行时延调整,获得时延调整后的辅助左通道信号和时延调整后的辅助右通道信号;
    将所述时延调整后的辅助左通道信号与所述左输入通道信号进行合成,从而获得所述左输出通道信号,将所述时延调整后的辅助右通道信号与所述右输入信号进行合成,从而获得所述右输出通道信号。
  5. 如权利要求4所述的方法,其特征在于,所述对所述辅助左通道信号和所述辅助右通道信号进行时延调整,获得时延调整后的辅助左通道信号和时延调整后的辅助右通道信号,包括:
    获取第四时延差和第五时延差,所述第四时延差为所述辅助左通道信号和所述左输入通道信号之间时延差,所述第五时延差为所述辅助右通道信号和所述右输入通道信号之间时延差;
    当所述声源的方位位于所述头模的左侧时,确定所述第四时延差为对齐 时延差;当所述声源的方位位于所述头模的右侧时,确定所述第五时延差为对齐时延差;
    将预设的强化定位延时时差减去所述对齐时延差的差值作为最终补偿时差;
    利用所述最终补偿时差对所述辅助左通道信号和所述辅助右通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号和所述时延调整后的辅助右通道信号,所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终补偿时差;或
    将所述强化定位延时时差减去所述第四时延差的差值作为最终左侧补偿时差;将所述强化定位延时时差减去所述第五时延差的差值作为最终右侧补偿时差;
    利用所述最终左侧补偿时差对所述辅助左通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号,以及利用所述最终右侧补偿时差对所述辅助右通道信号进行时延调整,从耳获得所述时延调整后的辅助右通道信号,使得所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终左侧补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终右侧补偿时差。
  6. 如权利要求5所述的方法,其特征在于,所述将所述时延调整后的辅助左通道信号与所述左输入通道信号进行合成,从而获得所述左输出信号,将所述时延调整后的辅助右通道信号与所述右输入信号进行合成,从而获得所述右输出信号,包括:
    将所述时延处理后的辅助左通道信号和所述左输入通道信号,以加权和 的方式进行合成,从而获得所述左输出通道信号,将所述时延处理后的辅助右通道信号和所述右输入通道信号,以加权和的方式进行合成,进而获得所述右输出通道信号。
  7. 如权利要求1-3任一项所述的方法,其特征在于,所述利用所述左输入通道信号和所述辅助左通道信号获得左输出通道信号,利用所述右输入通道信号和所述辅助右通道信号获得右输出通道信号,包括:
    对所述左输入通道信号和所述右输入通道信号进行时延调整,获得时延调整后的左输入通道信号和时延调整后的右输入通道信号;
    将所述时延调整后的左通道信号与所述辅助左输入通道信号进行合成,从而获得所述左输出信号,将所述时延调整后的右通道信号与所述辅助右输入信号进行合成,从而获得所述右输出信号。
  8. 如权利要求1-7任一项所述的方法,其特征在于,所述根据所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备对应的头模之间的声源方位角,包括:
    根据第一时延差和所述头模的尺寸确定第一可能声源方位角,根据第二时延差和所述头模的尺寸确定第二可能声源方位角,根据第三时延差和所述头模的尺寸确定第三可能声源方位角;
    所述第一时延差为所述左输入通道信号和所述右输入通道信号之间的时差,所述第二时延差为所述左输入通道信号和所述中置通道信号之间的时差,第三时延差为所述右输入通道信号和所述中置通道信号之间的时差;
    根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围,从所述第一可能声源方位角、所述第二可能声源方位角或所述第三可能声源方位角中确定所述声源方位角。
  9. 一种音频信号处理的装置,其特征在于,包括:
    接收单元,用于接收双耳音频采集设备的采集的左输入通道信号、中置通道信号和右输入通道信号,其中,所述左输入通道信号、所述中置通道信号和所述右输入通道信号分别与所述双耳音频采集设备的左耳通道、中置通道和右耳通道对应,所述中置通道位于所述左耳通道和所述右耳通道之间;
    确定单元,用于根据所述接收单元接收到的所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定声源与所述双耳音频采集设备的头模之间的声源方位角;
    卷积单元,用于将所述接收单元接收的所述中置通道信号与所述确定单元所确定的所述声源方位角对应的夸张耳左耳头相关脉冲响应HRIR进行卷积,从而获得辅助左通道信号;将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积,从而获得辅助右通道信号;
    输出信号获得单元,用于利用所述接收单元接收的所述左输入通道信号和所述卷积单元提供的所述辅助左通道信号获得左输出通道信号,利用所述接收单元接收的所述右输入通道信号和所述卷积单元提供的所述辅助右通道信号获得右输出通道信号。
  10. 如权利要求9所述的装置,其特征在于,所述确定单元还用于:
    在所卷积单元将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,以及所述将所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积之前,根据所述接收单元接收的所述左输入通道信号、所述中置通道信号和所述右输入通道信号,确定所述声源的方位;当所述确定单元确定所述声源的方位位于所述头模的前方时,通知所述卷积单元将所述中置通道信号与所述声源方位角对应的夸张耳左耳HRIR进行卷积,并且将 所述中置通道信号与所述声源方位角对应的夸张耳右耳HRIR进行卷积。
  11. 如权利要求10所述的装置,其特征在于,所述确定单元用于:
    确定所述左输入通道信号和所述右输入通道信号之间的第一时延差,所述左输入通道信号和所述中置通道信号之间的第二时延差,以及所述右输入通道信号和所述中置通道信号之间的第三时延差;根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围、所述第二时延差以及所述第三时延差,确定所述声源的方位。
  12. 如权利要求9-11任一项所述的装置,其特征在于,所述输出信号获得单元用于:
    对所述卷积单元提供的所述辅助左通道信号和所述辅助右通道信号进行时延调整,获得时延调整后的辅助左通道信号和时延调整后的辅助右通道信号;将所述时延调整后的辅助左通道信号与所述接收单元接收的所述左输入通道信号进行合成,从而获得所述左输出通道信号,将所述时延调整后的辅助右通道信号与所述接收单元接收的所述右输入信号进行合成,从而获得所述右输出通道信号。
  13. 如权利要求12所述的装置,其特征在于,所述输出信号获得单元用于:
    获取第四时延差和第五时延差,所述第四时延差为所述辅助左通道信号和所述左输入通道信号之间时延差,所述第五时延差为所述辅助右通道信号和所述右输入通道信号之间时延差;
    当所述声源的方位位于所述头模的左侧时,确定所述第四时延差为对齐时延差;当所述声源的方位位于所述头模的右侧时,确定所述第五时延差为对齐时延差;
    将预设的强化定位延时时差减去所述对齐时延差的差值作为最终补偿时差;
    利用所述最终补偿时差对所述卷积单元提供的所述辅助左通道信号和所述辅助右通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号和所述时延调整后的辅助右通道信号,所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终补偿时差;或
    将所述强化定位延时时差减去所述第四时延差的差值作为最终左侧补偿时差;将所述强化定位延时时差减去所述第五时延差的差值作为最终右侧补偿时差;
    利用所述最终左侧补偿时差对所述卷积单元提供的所述辅助左通道信号进行时延调整,从而获得所述时延调整后的辅助左通道信号,以及利用所述最终右侧补偿时差对所述卷积单元提供的所述辅助右通道信号进行时延调整,从耳获得所述时延调整后的辅助右通道信号,使得所述时延调整后的辅助左通道信号时序上领先所述左输入通道信号的时差为所述最终左侧补偿时差,所述时延调整后的辅助右通道信号时序上领先所述右输入通道信号的时差为所述最终右侧补偿时差。
  14. 如权利要求13所述的装置,其特征在于,所述输出信号获得单元用于:
    将所述时延处理后的辅助左通道信号和所述接收单元接收的所述左输入通道信号,以加权和的方式进行合成,从而获得所述左输出通道信号,将所述时延处理后的辅助右通道信号和所述接收单元接收的所述右输入通道信 号,以加权和的方式进行合成,进而获得所述右输出通道信号。
  15. 如权利要求9-11任一项所述的装置,其特征在于,所述输出信号获得单元用于:
    对所述接收单元接收的所述左输入通道信号和所述右输入通道信号进行时延调整,获得时延调整后的左输入通道信号和时延调整后的右输入通道信号;将所述时延调整后的左通道信号与所述卷积单元提供的所述辅助左输入通道信号进行合成,从而获得所述左输出信号,将所述时延调整后的右通道信号与所述卷积单元提供的所述辅助右输入信号进行合成,从而获得所述右输出信号。
  16. 如权利要求9-15任一项所述的装置,其特征在于,所述确定单元用于:
    根据第一时延差和所述头模的尺寸确定第一可能声源方位角,根据第二时延差和所述头模的尺寸确定第二可能声源方位角,根据第三时延差和所述头模的尺寸确定第三可能声源方位角;
    所述第一时延差为所述左输入通道信号和所述右输入通道信号之间的时差,所述第二时延差为所述左输入通道信号和所述中置通道信号之间的时差,第三时延差为所述右输入通道信号和所述中置通道信号之间的时差;
    根据所述第一时延差以及所述头模的尺寸确定判断因子,根据所述判断因子的值所在的范围,从所述第一可能声源方位角、所述第二可能声源方位角或所述第三可能声源方位角中确定所述声源方位角。
PCT/CN2016/072017 2015-04-24 2016-01-25 一种音频信号处理的方法和装置 WO2016169310A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510201303.4 2015-04-24
CN201510201303.4A CN104853283A (zh) 2015-04-24 2015-04-24 一种音频信号处理的方法和装置

Publications (1)

Publication Number Publication Date
WO2016169310A1 true WO2016169310A1 (zh) 2016-10-27

Family

ID=53852573

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/072017 WO2016169310A1 (zh) 2015-04-24 2016-01-25 一种音频信号处理的方法和装置

Country Status (2)

Country Link
CN (1) CN104853283A (zh)
WO (1) WO2016169310A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
CN104853283A (zh) * 2015-04-24 2015-08-19 华为技术有限公司 一种音频信号处理的方法和装置
CN105246001B (zh) * 2015-11-03 2018-08-28 中国传媒大学 双耳录音耳机重放系统及方法
WO2017097324A1 (en) * 2015-12-07 2017-06-15 Huawei Technologies Co., Ltd. An audio signal processing apparatus and method
CN106358118B (zh) * 2016-09-14 2020-05-05 腾讯科技(深圳)有限公司 一种卷积音频生成方法及音频设备
CN112954579B (zh) * 2021-01-26 2022-11-18 腾讯音乐娱乐科技(深圳)有限公司 现场听音效果的重现方法及装置
CN113267249A (zh) * 2021-05-12 2021-08-17 杭州仁牧科技有限公司 基于大数据的多通道噪声分析系统及分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101065990A (zh) * 2004-09-16 2007-10-31 松下电器产业株式会社 声像定位装置
CN101960866A (zh) * 2007-03-01 2011-01-26 杰里·马哈布比 音频空间化及环境模拟
CN102984638A (zh) * 2011-08-23 2013-03-20 奥迪康有限公司 使好耳效应最大化的方法和双耳听音系统
US20130294605A1 (en) * 2012-05-01 2013-11-07 Sony Mobile Communications, Inc. Sound image localization apparatus
CN104284286A (zh) * 2013-07-04 2015-01-14 Gn瑞声达A/S 个体hrtf的确定
CN104853283A (zh) * 2015-04-24 2015-08-19 华为技术有限公司 一种音频信号处理的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101065990A (zh) * 2004-09-16 2007-10-31 松下电器产业株式会社 声像定位装置
CN101960866A (zh) * 2007-03-01 2011-01-26 杰里·马哈布比 音频空间化及环境模拟
CN102984638A (zh) * 2011-08-23 2013-03-20 奥迪康有限公司 使好耳效应最大化的方法和双耳听音系统
US20130294605A1 (en) * 2012-05-01 2013-11-07 Sony Mobile Communications, Inc. Sound image localization apparatus
CN104284286A (zh) * 2013-07-04 2015-01-14 Gn瑞声达A/S 个体hrtf的确定
CN104853283A (zh) * 2015-04-24 2015-08-19 华为技术有限公司 一种音频信号处理的方法和装置

Also Published As

Publication number Publication date
CN104853283A (zh) 2015-08-19

Similar Documents

Publication Publication Date Title
WO2016169310A1 (zh) 一种音频信号处理的方法和装置
CN106576203B (zh) 确定和使用房间优化传输函数
US10142761B2 (en) Structural modeling of the head related impulse response
EP2661912B1 (en) An audio system and method of operation therefor
US9961474B2 (en) Audio signal processing apparatus
JP6824155B2 (ja) 音声再生システム及び方法
US9769589B2 (en) Method of improving externalization of virtual surround sound
KR101764175B1 (ko) 입체 음향 재생 방법 및 장치
JP2016507986A (ja) バイノーラルのオーディオ処理
US11871209B2 (en) Spatialized audio relative to a peripheral device
US20200107149A1 (en) Binaural Sound Source Localization
US11221820B2 (en) System and method for processing audio between multiple audio spaces
US10652686B2 (en) Method of improving localization of surround sound
US20230276188A1 (en) Surround Sound Location Virtualization
US20160044432A1 (en) Audio signal processing apparatus
US20170223475A1 (en) Sound image direction sense processing method and apparatus
EP4214535A2 (en) Methods and systems for determining position and orientation of a device using acoustic beacons
US20240056760A1 (en) Binaural signal post-processing
KR20160136716A (ko) 오디오 신호 처리 방법 및 장치
US10735885B1 (en) Managing image audio sources in a virtual acoustic environment
Avendano Virtual spatial sound
KR20150081541A (ko) 사용자의 머리전달함수 기반 음향 조절 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16782458

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16782458

Country of ref document: EP

Kind code of ref document: A1