WO2020066542A1 - 音響オブジェクト抽出装置及び音響オブジェクト抽出方法 - Google Patents

音響オブジェクト抽出装置及び音響オブジェクト抽出方法 Download PDF

Info

Publication number
WO2020066542A1
WO2020066542A1 PCT/JP2019/035099 JP2019035099W WO2020066542A1 WO 2020066542 A1 WO2020066542 A1 WO 2020066542A1 JP 2019035099 W JP2019035099 W JP 2019035099W WO 2020066542 A1 WO2020066542 A1 WO 2020066542A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
acoustic
spectrum
sound
similarity
Prior art date
Application number
PCT/JP2019/035099
Other languages
English (en)
French (fr)
Inventor
ロヒス マース
スリカンス ナギセティ
チョンスン リム
江原 宏幸
明久 川村
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to EP19864541.8A priority Critical patent/EP3860148B1/en
Priority to US17/257,413 priority patent/US11488573B2/en
Priority to JP2020548325A priority patent/JP7405758B2/ja
Publication of WO2020066542A1 publication Critical patent/WO2020066542A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • G10K11/341Circuits therefor
    • G10K11/343Circuits therefor using frequency variation or different frequencies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Definitions

  • the present disclosure relates to an audio object extraction device and an audio object extraction method.
  • the non-limiting embodiment of the present disclosure contributes to providing an audio object extraction device and an audio object extraction method capable of improving the extraction performance of an audio object sound.
  • An acoustic object extraction device generates a first acoustic signal by beamforming in a direction of arrival of a signal from an acoustic object with respect to a first microphone array, and generates the first acoustic signal with respect to a second microphone array.
  • a beam forming processing circuit that generates a second acoustic signal by beam forming in a direction of arrival of a signal from an object, and based on a similarity between a spectrum of the first acoustic signal and a spectrum of the second acoustic signal.
  • an extraction circuit for extracting a signal including a common component corresponding to the audio object from the first audio signal and the second audio signal, wherein the extraction circuit includes the first audio signal and the second audio signal.
  • a sound object extraction method generates a first sound signal by beamforming in a direction of arrival of a signal from a sound object with respect to a first microphone array, and generates the first sound signal with respect to a second microphone array.
  • a second acoustic signal is generated by beamforming in a direction of arrival of a signal from an object, and the first acoustic signal is generated based on a similarity between a spectrum of the first acoustic signal and a spectrum of the second acoustic signal.
  • a signal including a common component corresponding to the audio object is extracted, and the spectra of the first audio signal and the second audio signal are divided into a plurality of frequency sections, The similarity is calculated for each of the frequency sections.
  • FIG. 1 is a block diagram illustrating a configuration example of a part of an acoustic object extraction device according to an embodiment.
  • 1 is a block diagram illustrating a configuration example of an acoustic object extraction device according to an embodiment. The figure which shows an example of the positional relationship of a microphone array and an acoustic object.
  • FIG. 2 is a block diagram showing an example of the internal configuration of a common component extraction unit according to one embodiment.
  • FIG. 2 is a diagram illustrating a configuration example of a subband according to one embodiment.
  • FIG. 4 is a diagram illustrating an example of a conversion function according to one embodiment.
  • a system according to the present embodiment includes at least an acoustic object extraction device 100.
  • the acoustic object extraction device 100 extracts a signal (for example, a spatial object sound) of a target acoustic object and a position of the acoustic object using a plurality of acoustic beamformers. Then, information about the acoustic object (including, for example, signal information and position information) is output to another device (for example, a sound field reproducing device) (not shown). For example, the sound field reproducing device reproduces (renders) an acoustic object using information about the acoustic object output from the acoustic object extracting device 100 (for example, see Non-Patent Documents 1 and 2).
  • information on the sound object may be compressed and encoded, and transmitted to the sound field reproduction device through a transmission channel.
  • FIG. 1 is a block diagram showing a partial configuration of acoustic object extraction apparatus 100 according to the present embodiment.
  • the beamforming processing units 103-1 and 103-2 generate a first acoustic signal by beamforming in a direction of arrival of a signal from the acoustic object to the first microphone array.
  • a second acoustic signal is generated by beamforming the signal from the acoustic object to the second microphone array in the direction of arrival.
  • the common component extraction unit 106 extracts a signal including a common component corresponding to the sound object from the first sound signal and the second sound signal based on the similarity between the spectrum of the first sound signal and the spectrum of the second sound signal. Extract.
  • the common component extraction unit 106 divides the spectra of the first audio signal and the second audio signal into a plurality of frequency sections (for example, called subbands or segments), and calculates the similarity for each frequency section. .
  • FIG. 2 is a block diagram illustrating a configuration example of the acoustic object extraction device 100 according to the present embodiment.
  • the acoustic object extracting apparatus 100 includes a microphone array 101-1 and 101-2, an arrival direction estimating unit 102-1 and 102-2, a beamforming processing unit 103-1 and 103-2, and a correlation check.
  • a unit 104, a triangulation unit 105, and a common component extraction unit 106 are included.
  • the microphone array 101-1 acquires (eg, records) a multi-channel audio signal (or a sound audio signal), converts the audio signal into a digital signal (digital multi-channel audio signal), and obtains an arrival direction estimating unit 102. -1 and the beamforming processing unit 103-1.
  • the microphone array 101-2 acquires (eg, records) a multi-channel audio signal, converts the audio signal into a digital signal (digital multi-channel audio signal), and obtains an arrival direction estimating unit 102-2 and a beamforming processing unit. Output to 103-2.
  • the microphone arrays 101-1 and 101-2 are, for example, HOA (High-order Ambisonics) microphones (Ambisonics microphones). For example, as shown in FIG. 3, between the position of the microphone array 101-1 (represented as “M 1 ” in FIG. 3) and the position of the microphone array 101-2 (represented as “M 2 ” in FIG. 3). (Distance between microphone arrays) is represented by “d”.
  • HOA High-order Ambisonics
  • the direction-of-arrival estimating unit 102-1 estimates the direction of arrival of the acoustic object signal with respect to the microphone array 101-1 using the digital multi-channel acoustic signal input from the microphone array 101-1 (in other words, DOA (Direction of Arrival)). ) Estimation).
  • DOA Direction of Arrival
  • the arrival direction estimation unit 102-1 as shown in FIG. 3, the arrival direction information (D m1,1 indicating the arrival direction of I-number of audio object for the microphone array 101-1 (M 1), ..., D m1, I ) are output to the beamforming processing unit 103-1 and the triangulation unit 105.
  • the arrival direction estimating unit 102-2 estimates the arrival direction of the acoustic object signal with respect to the microphone array 101-2 using the digital multi-channel acoustic signal input from the microphone array 101-2. For example, the arrival direction estimation unit 102-2, as shown in FIG. 3, the arrival direction information (D M2,1 indicating the arrival direction of I-number of audio object for the microphone array 101-2 (M 2), ..., D m2, I ) are output to the beamforming processing unit 103-2 and the triangulation unit 105.
  • D M2,1 indicating the arrival direction of I-number of audio object for the microphone array 101-2 (M 2), ..., D m2, I ) are output to the beamforming processing unit 103-2 and the triangulation unit 105.
  • the beamforming processing unit 103-1 forms beams in each arrival direction based on the arrival direction information (D m1,1 ,..., D m1, I ) input from the arrival direction estimation unit 102-1. A beam forming process is performed on the digital multi-channel sound signal input from the array 101-1.
  • the beamforming processing unit 103-1 generates a first acoustic signal (S ′ m1 ) in each arrival direction (for example, I directions) generated by beamforming in the arrival direction of the acoustic object signal with respect to the microphone array 101-1. , 1 ,..., S ′ m1, I ) are output to the correlation confirmation unit 104 and the common component extraction unit 106.
  • the beamforming processing unit 103-2 forms beams in the respective arrival directions based on the arrival direction information (D m2,1 ,..., D m2, I ) input from the arrival direction estimation unit 102-2, and A beam forming process is performed on the digital multi-channel sound signal input from the array 101-2.
  • the beamforming processing unit 103-2 generates a second acoustic signal (S ′ m2 ) in each direction of arrival (for example, I directions) generated by beamforming in the direction of arrival of the acoustic object signal with respect to the microphone array 101-2. , 1 ,..., S ′ m2, I ) are output to the correlation confirmation unit 104 and the common component extraction unit 106.
  • Correlation checking section 104 receives the first acoustic signal (S ′ m1,1 ,..., S ′ m1, I ) input from beamforming processing section 103-1 and the second audio signal input from beamforming processing section 103-2.
  • the correlation between the two acoustic signals (S ′ m2,1 ,..., S ′ m2, I ) is confirmed (in other words, a correlation test).
  • the correlation confirmation unit 104 outputs combination information (for example, C 1 ,..., C I ) indicating a combination that is a signal of the same acoustic object to the triangulation unit 105 and the common component extraction unit 106.
  • the sound signal corresponding to the i-th sound object (i is any one of 1 to I) is represented by “S ′ m1, ci [0] ".
  • the sound signal corresponding to the i-th sound object (i is any value from 1 to I) is referred to as “S ' m2, ci [1] '.
  • the combination information C i of the first audio signal and second audio signal corresponding to the i-th audio object is ⁇ ci [0], ci [ 1] ⁇ composed.
  • Triangulation unit 105 Triangulation unit 105, arrival direction information input from the arrival direction estimation unit 102-1 (D m1,1, ..., D m1, I), arrival direction information (D inputted from the arrival direction estimation unit 102-2 m2,1 ,..., D m2, I ), the input distance information between microphone arrays (d), and the combination information (C 1 to C I ) input from the correlation confirmation unit 104, using the acoustic object ( For example, the position of I acoustic objects) is calculated.
  • the triangulation section 105 outputs position information (for example, p 1 ,..., P I ) indicating the calculated position.
  • the common component extraction unit 106 receives the first acoustic signals (S ′ m1,1 ,..., S ′ m1, I ) input from the beamforming processing unit 103-1 and the first audio signals input from the beamforming processing unit 103-2.
  • S ′ m2,1 ,..., S ′ m2, I Of the two acoustic signals (S ′ m2,1 ,..., S ′ m2, I ), from the two acoustic signals of the combination indicated by the combination information (C 1 to C I ) input from the correlation confirmation unit 104, A component common to the two acoustic signals (in other words, a signal including a common component corresponding to each acoustic object) is extracted.
  • the common component extraction unit 106 outputs the extracted acoustic object signals (S ′ 1 ,..., S ′ I ).
  • other acoustic objects (not shown), noises, and the like are mixed in addition to the acoustic object.
  • the common component extraction unit 106 causes the components of the audio object to be extracted to remain in the spectra of the first audio signal and the second audio signal by multiplying the spectrum gain (in other words, weighting processing), which will be described later. Attenuate components of acoustic objects or noise.
  • the position information (p 1 ,..., P I ) output from the triangulation unit 105 and the acoustic object signals (S ′ 1 ,..., S ′ I ) output from the common component extraction unit 106 include, for example, sound. It is output to a field reproduction device (not shown) and used for reproduction (rendering) of an acoustic object.
  • FIG. 4 is a block diagram showing an example of the internal configuration of the common component extraction unit 106.
  • common component extraction section 106 includes time-frequency conversion sections 161-1 and 161-2, division sections 162-1 and 162-2, similarity calculation section 163, spectrum gain calculation section 164, A configuration including multiplication units 165-1 and 165-2, spectrum reconstruction unit 166, and frequency-time conversion unit 167 is adopted.
  • the time-frequency conversion unit 161-1 for example, the first acoustic signal S ′ m1, ci [0] (corresponding to ci [0] indicated in the combination information C i (i is any one of 1 to I) t) is input.
  • the time-frequency conversion unit 161-1 converts the first acoustic signal S ′ m1, ci [0] (t) (time-domain signal) into a frequency-domain signal (spectrum).
  • the time-frequency conversion unit 161-1 outputs the obtained spectrum S ′ m1, ci [0] (k, n) of the first acoustic signal to the division unit 162-1.
  • K indicates a frequency index (for example, a frequency bin number), and n indicates a time index (for example, a frame number when an audio signal is framed at a predetermined time interval).
  • the time-frequency conversion unit 161-2 supplies the second acoustic signal S ′ m2, ci [1] (corresponding to ci [1] shown in the combination information C i (i is any one of 1 to I)) t) is input.
  • the time-frequency conversion unit 161-2 converts the second acoustic signal S ′ m2, ci [1] (t) (time-domain signal) into a frequency-domain signal (spectrum).
  • the time-frequency conversion unit 161-2 outputs the obtained spectrum S ′ m2, ci [1] (k, n) of the second acoustic signal to the division unit 162-2.
  • time-frequency conversion processing in the time-frequency conversion units 161-1 and 161-2 may be, for example, Fourier transform processing (for example, SFFT (Short-time Fast Fourier Transform: short-time Fourier transform)) or modified discrete Cosine transform (MDCT (Modified Discrete Cosine Transform)) may be used.
  • Fourier transform processing for example, SFFT (Short-time Fast Fourier Transform: short-time Fourier transform)
  • MDCT Modified Discrete Cosine Transform
  • the dividing unit 162-1 divides the spectrum S ′ m1, ci [0] (k, n) of the first acoustic signal input from the time-frequency converting unit 161-1 into a plurality of frequency divisions (hereinafter “subbands”). ).
  • the dividing unit 162-1 generates a subband spectrum (SB m1, ci [0] (sb, s) composed of the spectrum S ′ m1, ci [0] (k, n) of the first acoustic signal included in each subband. n)) is output to the similarity calculation section 163 and the multiplication section 165-1.
  • sb indicates a subband number.
  • Dividing section 162-2 divides spectrum S ′ m2, ci [1] (k, n) of the second acoustic signal input from time-frequency converting section 161-2 into a plurality of subbands. Dividing section 162-2 generates a subband spectrum (SB m2, ci [1] (sb, 2) composed of spectrum S ′ m2, ci [1] (k, n) of the second acoustic signal included in each subband. n)) is output to the similarity calculation section 163 and the multiplication section 165-2.
  • SB m2, ci [1] (sb, 2) composed of spectrum S ′ m2, ci [1] (k, n) of the second acoustic signal included in each subband. n)
  • FIG. 5 shows a spectrum S ′ m1, ci [0] (k, n) of the first sound signal and a spectrum S ′ m2,2 of the second sound signal corresponding to the i-th sound object in the frame of frame number n .
  • Each sub-band shown in FIG. 5 is composed of a Segment composed of four frequency components (for example, frequency bin).
  • some of the frequency components included in the adjacent subbands overlap.
  • common component extraction section 106 superimposes and adds frequency components at both ends of adjacent subbands at the time of spectrum synthesis (at the time of reconstruction). (Overlap and Add), the connectivity (continuity) between subbands can be improved.
  • the subband configuration shown in FIG. 5 is an example, and the number of subbands (in other words, the number of divisions), the number of frequency components forming the subband (in other words, the subband size), and the like are shown in FIG. Not limited to value. Further, FIG. 5 illustrates the case where one frequency component overlaps in adjacent subbands, but the number of frequency components overlapping between subbands is not limited to one, and may be two or more.
  • the subband spectrum is multiplied by a left-right symmetric window in which the subband size (or subband width) is an odd number of frequency components (samples) and the center frequency component of the odd number of frequency components is 1.0. May be defined as the subband.
  • the sub-band width (for example, the number of frequency components) is set to 2n + 1.
  • the frequency components of 0 to n ⁇ 1 and the frequency components of n + 1 to 2n in the sub-band are set to a range overlapping with the adjacent sub-band, and The subband may be shifted by one frequency component.
  • the gain calculated for each subband is multiplied only by the n component (in other words, the center frequency component). That is, the gain for the frequency components 0 to n ⁇ 1 and n + 1 to 2n in each subband is calculated from the corresponding other subband (in other words, the subband where each frequency component is located at the center).
  • the spectrum in the range overlapping with the adjacent subband is used only for the gain calculation, and the superposition addition at the time of spectrum reconstruction is not necessary.
  • the number of frequency components overlapping between subbands may be variably set according to, for example, the characteristics of the input signal.
  • similarity calculation section 163 calculates a similarity between the subband spectrum of the first audio signal input from division section 162-1 and the subband spectrum of the second audio signal input from division section 162-2. Calculate the degree.
  • the similarity calculator 163 outputs similarity information indicating the similarity calculated for each subband to the spectrum gain calculator 164.
  • An example of the similarity is a Hermitian angle between the subband spectrum of the first audio signal and the subband spectrum of the second audio signal.
  • the subband spectrum (complex spectrum) of the first acoustic signal is represented as “s 1 ”
  • the subband spectrum (complex spectrum) of the second acoustic signal is represented as “s 2 ”.
  • the Hermite angle ⁇ H is expressed by the following equation.
  • the Hermitian angle theta H is small, the degree of similarity between subband spectrum s 1 and subband spectrum s 2 is high, similar enough Hermitian angle theta H is large, the sub-band spectrum s 1 and subband spectrum s 2 The degree is low.
  • Another example of a similarity, normalized cross-correlation of the sub-band spectrum s 1 and s 2 e.g.,
  • the similarity of the sub-band spectrum s 1 and subband spectrum s 2 is high, as the value of the normalized cross-correlation is low, the sub-band spectrum s 1 and subband spectrum s The similarity with 2 is low.
  • the similarity is not limited to the Hermite angle and the normalized cross-correlation, but may be another parameter.
  • the spectrum gain calculation unit 164 calculates a similarity (for example, Hermitian angle ⁇ H or regularity) indicated in the similarity information input from the similarity calculation unit 163 based on a weighting function (or a conversion function). Is converted into a spectral gain (in other words, a weighting coefficient).
  • the spectrum gain calculation section 164 outputs the spectrum gain Gain (sb, n) calculated for each sub-band to the multiplication sections 165-1 and 165-2.
  • the multiplication unit 165-1 adds the spectrum gain Gain input from the spectrum gain calculation unit 164 to the sub-band spectrum SB m1, ci [0] (sb, n) of the first audio signal input from the division unit 162-1. (sb, n) is multiplied (weighted), and the multiplied subband spectrum SB ′ m1, ci [0] (sb, n) is output to the spectrum reconstruction unit 166.
  • the multiplication unit 165-2 adds the spectrum gain Gain input from the spectrum gain calculation unit 164 to the subband spectrum SB m2, ci [1] (sb, n) of the second audio signal input from the division unit 162-2. (sb, n) is multiplied (weighted), and the multiplied subband spectrum SB ′ m2, ci [1] (sb, n) is output to the spectrum reconstruction unit 166.
  • the conversion function f ( ⁇ H ) exp ( ⁇ H 2 / 2 ⁇ 2 )
  • the spectral gain (gain value) is higher (for example, approaches 1), and as the Hermite angle ⁇ H is larger (the similarity is higher). The lower the), the lower the spectral gain (eg, approaches zero).
  • the common component extraction unit 106 retains the subband spectral components by weighting using a higher value of the spectrum gain for a subband having a higher similarity, and reduces the spectral gain of a lower value for a subband having a lower similarity.
  • the weighting used attenuates the subband spectrum.
  • the common component extraction unit 106 extracts a common component in the spectra of the first audio signal and the second audio signal.
  • the common component extraction unit 106 makes the value of x or ⁇ (in other words, a parameter for adjusting the gradient of the conversion function) variable and controls it adaptively, for example, to extract signal components other than the acoustic object to be extracted. Can be controlled.
  • spectrum reconstructing section 166 includes subband spectrum SB ′ m1, ci [0] (sb, n) input from multiplication section 165-1 and subband spectrum SB input from multiplication section 165-2.
  • ' m1, ci [1] (sb, n) is used to reconstruct the complex Fourier spectrum of the acoustic object (the i-th object), and the obtained complex Fourier spectrum S' i (k, n) is frequency- Output to the time conversion unit 167.
  • the frequency-time conversion unit 167 converts the complex Fourier spectrum S ′ i (k, n) (frequency domain signal) of the acoustic object input from the spectrum reconstruction unit 166 into a time domain signal.
  • the frequency-time conversion unit 167 outputs the obtained sound object signal S ′ i (t).
  • the frequency-time conversion process in the frequency-time conversion unit 167 may be, for example, an inverse Fourier transform process (for example, ISFFT (Inverse @ SFFT)) or an inverse modified discrete cosine transform (IMDCT (Inverse @ MDCT)).
  • ISFFT Inverse @ SFFT
  • IMDCT inverse modified discrete cosine transform
  • the beamforming processing units 103-1 and 103-2 generate the first acoustic signal by beamforming the microphone array 101-1 in the direction of arrival of the signal from the acoustic object.
  • a second acoustic signal is generated by beamforming in the direction of arrival of a signal from the acoustic object with respect to the microphone array 101-2
  • the common component extraction unit 106 generates a second acoustic signal between the spectrum of the first acoustic signal and the spectrum of the second acoustic signal.
  • a signal including a common component corresponding to the sound object is extracted from the first sound signal and the second sound signal based on the similarity.
  • the common component extraction unit 106 divides the spectra of the first audio signal and the second audio signal into a plurality of subbands, and calculates the similarity for each subband.
  • the sound object extraction device 100 corresponds to the sound object from the sound signals generated by the plurality of beamformers based on the spectrum shape in subband units of the spectrum of the sound signal obtained by the plurality of beams.
  • Common components can be extracted.
  • the acoustic object extraction device 100 can extract the common component based on the similarity in consideration of the fine structure of the spectrum.
  • the unit for calculating the similarity in FIG. 5 is a sub-band unit including four frequency components. Therefore, in FIG. 5, the acoustic object extraction device 100 calculates the similarity of the spectrum shape in the minute band composed of four frequency components, and calculates the spectrum gain according to the similarity of the spectrum shape.
  • the unit for calculating the similarity is one frequency component unit (for example, see Patent Document 1)
  • the spectrum gain is calculated based on the amplitude ratio of the spectrum in each frequency component.
  • the normalized cross-correlation between one frequency component is always 1.0, which is meaningless in measuring the similarity.
  • the cross spectrum is normalized by the power spectrum of the beamformer output signal. That is, in Patent Literature 1, a spectrum gain corresponding to an amplitude ratio between two beamformer output signals is calculated.
  • an extraction method based on the difference (or similarity) between the spectrum shapes in each frequency component is used instead of the amplitude difference (or amplitude ratio) in each frequency component. Accordingly, even when two sounds having specific frequency components having the same amplitude are input, the acoustic object extraction device 100 can determine that the sound is different from the target object sound if the spectral shapes are not similar. Therefore, the performance of extracting the sound object sound can be improved.
  • the unit for calculating the similarity is one frequency component unit
  • the information on the difference between the target acoustic object sound and the sound other than the target is the information on the one frequency component. You can only get the magnitude of the amplitude.
  • the unit for calculating the similarity is one frequency component unit
  • the frequency component of the sound that is not the target is extracted as the frequency component of the target acoustic object sound, and the true target As a frequency component at the position of the sound object sound.
  • acoustic object extraction apparatus 100 calculates a low similarity if the entire spectrum shape of a plurality of (for example, four) spectra constituting the subband does not match. For this reason, in the acoustic object extraction device 100, the difference in the value of the spectrum gain calculated between the part where the spectrum shape matches and the part where the spectrum shape does not match easily occurs, and a common frequency component (in other words, a similar frequency component) is generated. It becomes more emphasized (remains). Therefore, in the acoustic object extraction device 100, even in the case described above, there is a high possibility that the sound different from the target and the target acoustic object sound can be distinguished.
  • the acoustic object extraction device 100 extracts the common component in units of sub-bands, in other words, in units of fine spectral shapes.
  • the subjective quality is set by appropriately setting the size of the subband (in other words, the bandwidth for calculating the similarity of the spectrum shape) according to the characteristics such as the sampling frequency of the input signal. Can be improved.
  • the acoustic object extraction device 100 uses a non-linear function (for example, see FIG. 6) as a conversion function for converting a spectrum gain from a similarity.
  • the acoustic object extraction device 100 sets a parameter (for example, the above-described value of x or ⁇ ) for adjusting the gradient of the conversion function, so that the gradient of the conversion function (in other words, the degree of residual noise components and the like). Can be controlled.
  • the parameter for example, the value of x or ⁇
  • the parameter is set so that the spectral gain is rapidly reduced when the degree of similarity is slightly reduced (so that the gradient of the conversion function becomes steep).
  • the combination of the first audio signal and second audio signal to be extraction of the common components in a common component extraction unit 106 the combination information C i (e.g., ci [0] and ci [ 1]) has been described.
  • the combination (correspondence) of the first acoustic signal and a second signal corresponding to the same audio object in the audio signal may be specified by other methods than the method using the combination information C i.
  • the sound signals may be sorted in the order corresponding to each of the plurality of sound objects.
  • the first acoustic signal and the second acoustic signal are output from the beamforming processing units 103-1 and 103-2 in the order corresponding to the same acoustic object.
  • the common component extraction unit 106 may perform the common component extraction processing in the order of the acoustic signals output from the beamforming processing units 103-1 and 103-2. Therefore, in this case, combination information C i is unnecessary.
  • the acoustic object extracting apparatus 100 includes two microphone arrays has been described, but the acoustic object extracting apparatus 100 may include three or more microphone arrays.
  • each functional block used in the description of the above embodiment is partially or entirely realized as an LSI which is an integrated circuit, and each process described in the above embodiment is partially or wholly performed. It may be controlled by one LSI or a combination of LSIs.
  • the LSI may be composed of individual chips, or may be composed of one chip so as to include some or all of the functional blocks.
  • the LSI may include data input and output.
  • the LSI may be called an IC, a system LSI, a super LSI, or an ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit, a general-purpose processor, or a dedicated processor. Further, a programmable FPGA (Field Programmable Gate Array) or a reconfigurable processor capable of reconfiguring connection and setting of circuit cells inside the LSI after manufacturing the LSI may be used.
  • the present disclosure may be implemented as digital processing or analog processing. Furthermore, if an integrated circuit technology that replaces the LSI appears due to the progress of the semiconductor technology or another technology derived therefrom, the functional blocks may be naturally integrated using the technology. Application of biotechnology, etc. is possible.
  • the present disclosure can be implemented in any type of device, device, or system having a communication function (collectively, a communication device).
  • communication devices include phones (mobile phones, smartphones, etc.), tablets, personal computers (PCs) (laptops, desktops, notebooks, etc.), cameras (digital still / video cameras, etc.). ), Digital players (digital audio / video players, etc.), wearable devices (wearable cameras, smart watches, tracking devices, etc.), game consoles, digital book readers, telehealth telemedicine (remote health) Care / medicine prescription) devices, vehicles or mobile vehicles with communication capabilities (automobiles, airplanes, ships, etc.), and combinations of the various devices described above.
  • the communication device is not limited to a portable or movable device, and may be any type of device, device, system, such as a smart home device (a home appliance, a lighting device, a smart meter, Measurement equipment, control panels, etc.), vending machines, and any other "things" that can exist on an IoT (Internet of Things) network.
  • a smart home device a home appliance, a lighting device, a smart meter, Measurement equipment, control panels, etc.
  • vending machines and any other "things” that can exist on an IoT (Internet of Things) network.
  • IoT Internet of Things
  • Communication includes not only data communication by cellular systems, wireless LAN systems, communication satellite systems, etc., but also data communication by combinations of these.
  • the communication device also includes devices such as a controller and a sensor that are connected or connected to a communication device that performs the communication function described in the present disclosure.
  • devices such as a controller and a sensor that are connected or connected to a communication device that performs the communication function described in the present disclosure.
  • a controller or a sensor that generates a control signal or a data signal used by a communication device that performs a communication function of the communication device is included.
  • the communication device includes infrastructure equipment, such as a base station, an access point, and any other device, device, or system that communicates with or controls the above-described various types of devices. .
  • infrastructure equipment such as a base station, an access point, and any other device, device, or system that communicates with or controls the above-described various types of devices.
  • a sound object extraction device generates a first sound signal by beamforming in a direction of arrival of a signal from a sound object with respect to a first microphone array, and generates the first sound signal with respect to a second microphone array.
  • a beamforming processing circuit that generates a second acoustic signal by beamforming in a direction of arrival of a signal from the first and second acoustic signals, based on a similarity between a spectrum of the first acoustic signal and a spectrum of the second acoustic signal.
  • An extraction circuit for extracting a signal including a common component corresponding to the audio object from the first audio signal and the second audio signal, wherein the extraction circuit includes the first audio signal and the Dividing the spectrum of the second audio signal into a plurality of frequency sections, and calculating the similarity for each of the frequency sections; To.
  • the extraction circuit calculates a weighting coefficient corresponding to the similarity for each frequency section, and calculates the weighting coefficient as the spectrum of the first audio signal and the spectrum.
  • the parameter for adjusting the gradient of the conversion function that multiplies the spectrum of the second audio signal and converts the similarity into the weighting coefficient is variable.
  • a sound object extraction method generates a first sound signal by beamforming in a direction of arrival of a signal from a sound object with respect to a first microphone array, and generates the first sound signal with respect to a second microphone array.
  • a second acoustic signal is generated by beamforming in a direction of arrival of a signal from the first acoustic signal, and the first acoustic signal is generated based on the similarity between the spectrum of the first acoustic signal and the spectrum of the second acoustic signal. Extracting a signal including a common component corresponding to the sound object from the signal and the second sound signal, wherein a spectrum of the first sound signal and the second sound signal is divided into a plurality of frequency sections; The similarity is calculated for each frequency section.
  • One embodiment of the present disclosure is useful for a sound field navigation system.
  • REFERENCE SIGNS LIST 100 acoustic object extraction device 101-1, 101-2 microphone array 102-1, 102-2 arrival direction estimation unit 103-1, 103-2 beamforming processing unit 104 correlation confirmation unit 105 triangulation unit 106 common component extraction unit 161 -1, 161-2 Time-frequency conversion unit 162-1, 162-2 Division unit 163 Similarity calculation unit 164 Spectrum gain calculation unit 165-1, 165-2 Multiplication unit 166 Spectrum reconstruction unit 167 Frequency-time conversion unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

音響オブジェクト音の抽出性能を向上することができる音響オブジェクト抽出装置。音響オブジェクト抽出装置(100)において、ビームフォーミング処理部(103-1),(103-2)は、マイクロホンアレイ(101-1)に対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、マイクロホンアレイ(101-2)に対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成し、共通成分抽出部(106)は、第1の音響信号のスペクトルと第2の音響信号のスペクトルとの類似度に基づいて、第1の音響信号及び第2の音響信号から、音響オブジェクトに対応する共通成分を含む信号を抽出する。共通成分抽出部(106)は、第1の音響信号及び第2の音響信号のスペクトルを複数の周波数区間に分割し、周波数区間毎に類似度を算出する。

Description

音響オブジェクト抽出装置及び音響オブジェクト抽出方法
 本開示は、音響オブジェクト抽出装置及び音響オブジェクト抽出方法に関する。
 複数の音響ビームフォーマを用いて音響オブジェクト(例えば、空間オブジェクト音と呼ぶ)を抽出する方法に、例えば、2つの音響ビームフォーマから入力される信号を、フィルタバンクを用いてスペクトル領域に変換し、スペクトル領域においてクロススペクトル密度に基づいて音響オブジェクトに対応する信号を抽出する方法が提案されている(例えば、特許文献1を参照)。
特表2014-502108号公報
Zheng, Xiguang, Christian Ritz, and Jiangtao Xi. "Collaborative blind source separation using location informed spatial microphones." IEEE signal processing letters  (2013): 83-86. Zheng, Xiguang, Christian Ritz, and Jiangtao Xi. "Encoding and communicating navigable speech soundfields." Multimedia Tools and Applications 75.9 (2016): 5183-5204.
 しかしながら、音響オブジェクト音を抽出する方法についての検討は十分ではない。
 本開示の非限定的な実施例は、音響オブジェクト音の抽出性能を向上することができる音響オブジェクト抽出装置及び音響オブジェクト抽出方法の提供に資する。
 本開示の一実施例に係る音響オブジェクト抽出装置は、第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、第2のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成するビームフォーミング処理回路と、前記第1の音響信号のスペクトルと前記第2の音響信号のスペクトルとの類似度に基づいて、前記第1の音響信号及び前記第2の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出する抽出回路と、を具備し、前記抽出回路は、前記第1の音響信号及び前記第2の音響信号のスペクトルを複数の周波数区間に分割し、前記周波数区間毎に前記類似度を算出する。
 本開示の一実施例に係る音響オブジェクト抽出方法は、第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、第2のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成し、前記第1の音響信号のスペクトルと前記第2の音響信号のスペクトルとの類似度に基づいて、前記第1の音響信号及び前記第2の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出し、前記第1の音響信号及び前記第2の音響信号のスペクトルは複数の周波数区間に分割され、前記類似度は前記周波数区間毎に算出される。
 なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本開示の一実施例によれば、音響オブジェクト音の抽出性能を向上することができる。
 本開示の一態様における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
一実施の形態に係る音響オブジェクト抽出装置の一部の構成例を示すブロック図 一実施の形態に係る音響オブジェクト抽出装置の構成例を示すブロック図 マイクロホンアレイ及び音響オブジェクトの位置関係の一例を示す図 一実施の形態に係る共通成分抽出部の内部構成例を示すブロック図 一実施の形態に係るサブバンドの構成例を示す図 一実施の形態に係る変換関数の一例を示す図
 以下、本開示の実施の形態について図面を参照して詳細に説明する。
 [システムの概要]
 本実施の形態に係るシステム(例えば、音響ナビゲーションシステム)は、少なくとも、音響オブジェクト抽出装置100を備える。
 本実施の形態に係るシステムでは、例えば、音響オブジェクト抽出装置100は、複数の音響ビームフォーマを用いて、ターゲットとなる音響オブジェクトの信号(例えば、空間オブジェクト音)、及び、音響オブジェクトの位置を抽出し、音響オブジェクトに関する情報(例えば、信号情報及び位置情報を含む)を、他の装置(例えば、音場再生装置)(図示せず)に出力する。例えば、音場再生装置は、音響オブジェクト抽出装置100から出力される音響オブジェクトに関する情報を用いて、音響オブジェクトの再生(レンダリング)を行う(例えば、非特許文献1及び2を参照)。
 なお、音場再生装置と音響オブジェクト抽出装置100とが離れた場所に設けられる場合、音響オブジェクトに関する情報は、圧縮及び符号化され、伝送チャネルを通じて音場再生装置へ伝送されてもよい。
 図1は、本実施の形態に係る音響オブジェクト抽出装置100の一部の構成を示すブロック図である。図1に示す音響オブジェクト抽出装置100において、ビームフォーミング処理部103-1,103-2は、第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1音響信号を生成し、第2のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2音響信号を生成する。共通成分抽出部106は、第1音響信号のスペクトルと第2音響信号のスペクトルとの類似度に基づいて、第1音響信号及び第2音響信号から、音響オブジェクトに対応する共通成分を含む信号を抽出する。このとき、共通成分抽出部106は、第1音響信号及び第2音響信号のスペクトルを複数の周波数区間(例えば、サブバンド又はセグメントと呼ぶ)に分割し、周波数区間毎に上記類似度を算出する。
 [音響オブジェクト抽出装置の構成]
 図2は、本実施の形態に係る音響オブジェクト抽出装置100の構成例を示すブロック図である。図2において、音響オブジェクト抽出装置100は、マイクロホンアレイ101-1,101-2と、到来方向推定部102-1,102-2と、ビームフォーミング処理部103-1,103-2と、相関確認部104と、三角測量部105と、共通成分抽出部106と、を含む。
 マイクロホンアレイ101-1は、マルチチャネルの音響信号(又は、音声音響信号)を取得(例えば、録音)し、音響信号をデジタル信号(デジタルマルチチャネル音響信号)に変換して、到来方向推定部102-1及びビームフォーミング処理部103-1に出力する。
 マイクロホンアレイ101-2は、マルチチャネルの音響信号を取得(例えば、録音)し、音響信号をデジタル信号(デジタルマルチチャネル音響信号)に変換して、到来方向推定部102-2及びビームフォーミング処理部103-2に出力する。
 マイクロホンアレイ101-1及びマイクロホンアレイ101-2は、例えば、HOA(High-order Ambisonics)マイク(アンビソニックスマイクロホン)である。例えば、図3に示すように、マイクロホンアレイ101-1の位置(図3では「M1」と表す)と、マイクロホンアレイ101-2の位置(図3では「M2」と表す)との間の距離(マイクロホンアレイ間距離)を「d」で表す。
 到来方向推定部102-1は、マイクロホンアレイ101-1から入力されるデジタルマルチチャネル音響信号を用いて、マイクロホンアレイ101-1に対する音響オブジェクト信号の到来方向を推定(換言すると、DOA(Direction of Arrival) estimation)する。例えば、到来方向推定部102-1は、図3に示すように、マイクロホンアレイ101-1(M1)に対するI個の音響オブジェクトの到来方向を示す到来方向情報(Dm1,1,…,Dm1,I)をビームフォーミング処理部103-1及び三角測量部105に出力する。
 到来方向推定部102-2は、マイクロホンアレイ101-2から入力されるデジタルマルチチャネル音響信号を用いて、マイクロホンアレイ101-2に対する音響オブジェクト信号の到来方向を推定する。例えば、到来方向推定部102-2は、図3に示すように、マイクロホンアレイ101-2(M2)に対するI個の音響オブジェクトの到来方向を示す到来方向情報(Dm2,1,…,Dm2,I)をビームフォーミング処理部103-2及び三角測量部105に出力する。
 ビームフォーミング処理部103-1は、到来方向推定部102-1から入力される到来方向情報(Dm1,1,…,Dm1,I)に基づいて各到来方向へのビームを形成し、マイクロホンアレイ101-1から入力されるデジタルマルチチャネル音響信号に対してビームフォーミング処理を行う。ビームフォーミング処理部103-1は、マイクロホンアレイ101-1に対する音響オブジェクト信号の到来方向へのビームフォーミングによって生成される、各到来方向(例えば、I個の方向)の第1音響信号(S'm1,1,…,S'm1,I)を相関確認部104及び共通成分抽出部106に出力する。
 ビームフォーミング処理部103-2は、到来方向推定部102-2から入力される到来方向情報(Dm2,1,…,Dm2,I)に基づいて各到来方向へのビームを形成し、マイクロホンアレイ101-2から入力されるデジタルマルチチャネル音響信号に対してビームフォーミング処理を行う。ビームフォーミング処理部103-2は、マイクロホンアレイ101-2に対する音響オブジェクト信号の到来方向へのビームフォーミングによって生成される、各到来方向(例えば、I個の方向)の第2音響信号(S'm2,1,…,S'm2,I)を相関確認部104及び共通成分抽出部106に出力する。
 相関確認部104は、ビームフォーミング処理部103-1から入力される第1音響信号(S'm1,1,…,S'm1,I)と、ビームフォーミング処理部103-2から入力される第2音響信号(S'm2,1,…,S'm2,I)との間の相関を確認(換言すると、correlation test)する。相関確認部104は、相関の確認結果に基づいて、第1音響信号及び第2音響信号において、同一の音響オブジェクトi(i=1~Iの何れか)の信号である組み合わせを特定する。相関確認部104は、同一の音響オブジェクトの信号である組み合わせを示す組み合わせ情報(例えば、C1,…,CI)を、三角測量部105及び共通成分抽出部106に出力する。
 例えば、第1音響信号(S'm1,1,…,S'm1,I)のうち、i番目(iは1~Iの何れかの値)の音響オブジェクトに対応する音響信号を「S'm1,ci[0]」と表す。同様に、第2音響信号(S'm2,1,…,S'm2,I)のうち、i番目(iは1~Iの何れかの値)の音響オブジェクトに対応する音響信号を「S'm2,ci[1]」と表す。この場合、i番目の音響オブジェクトに対応する第1音響信号及び第2音響信号の組み合わせ情報Ciは{ci[0], ci[1]}で構成される。
 三角測量部105は、到来方向推定部102-1から入力される到来方向情報(Dm1,1,…,Dm1,I)、到来方向推定部102-2から入力される到来方向情報(Dm2,1,…,Dm2,I)、入力されるマイクロホンアレイ間距離情報(d)、及び、相関確認部104から入力される組み合わせ情報(C1~CI)を用いて、音響オブジェクト(例えば、I個の音響オブジェクト)の位置を算出する。三角測量部105は、算出した位置を示す位置情報(例えば、p1,…,pI)を出力する。
 例えば、図3において、第1番目(i=1)の音響オブジェクトの位置p1は、マイクロホンアレイ間距離dと、マイクロホンアレイ101-1(M1)に対する第1番目の音響オブジェクト信号の到来方向Dm1,c1[0]と、マイクロホンアレイ101-2(M2)に対する第1番目の音響オブジェクト信号の到来方向Dm2,c1[1]と、を用いた三角測量(triangulation)によって算出される。他の音響オブジェクトの位置についても同様である。
 共通成分抽出部106は、ビームフォーミング処理部103-1から入力される第1音響信号(S'm1,1,…,S'm1,I)及びビームフォーミング処理部103-2から入力される第2音響信号(S'm2,1,…,S'm2,I)のうち、相関確認部104から入力される組み合わせ情報(C1~CI)に示される組み合わせの2つの音響信号から、当該2つの音響信号に共通する成分(換言すると、各音響オブジェクトに対応する共通成分を含む信号)を抽出する。共通成分抽出部106は、抽出した音響オブジェクト信号(S'1,…,S'I)を出力する。
 例えば、図3において、マイクロホンアレイ101-1(M1)から第1番目(i=1)の音響オブジェクトへの方向(実線矢印)の第1音響信号には、抽出対象である第1番目の音響オブジェクト以外に、他の音響オブジェクト(図示せず)又は雑音等が混ざっている可能性がある。同様に、図3において、マイクロホンアレイ101-2(M2)から第1番目(i=1)の音響オブジェクトへの方向(破線矢印)の第2音響信号には、抽出対象である第1番目の音響オブジェクト以外に、他の音響オブジェクト(図示せず)又は雑音等が混ざっている可能性がある。なお、第1番目の音響オブジェクト以外の他の音響オブジェクトについても同様である。
 共通成分抽出部106は、第1音響信号及び第2音響信号のスペクトル(換言すると、複数の音響ビームフォーマの出力)において共通成分を抽出し、第1番目(i=1)の音響オブジェクト信号S'1を出力する。例えば、共通成分抽出部106は、後述するスペクトルゲインの乗算(換言すると、重み付け処理)によって、第1音響信号及び第2音響信号のスペクトルにおいて、抽出対象の音響オブジェクトの成分を残留させ、他の音響オブジェクト又は雑音の成分を減衰させる。
 三角測量部105から出力される位置情報(p1,…,pI)、及び、共通成分抽出部106から出力される音響オブジェクト信号(S'1,…,S'I)は、例えば、音場再生装置(図示せず)に出力され、音響オブジェクトの再生(レンダリング)に用いられる。
 [共通成分抽出部106の動作]
 次に、図1に示す共通成分抽出部106の動作の詳細について説明する。
 図4は、共通成分抽出部106の内部構成例を示すブロック図である。図4において、共通成分抽出部106は、時間-周波数変換部161-1,161-2と、分割部162-1,162-2と、類似度算出部163と、スペクトルゲイン算出部164と、乗算部165-1,165-2と、スペクトル再構成部166と、周波数-時間変換部167と、を含む構成を採る。
 時間-周波数変換部161-1には、例えば、組み合わせ情報Ci(iは1~Iの何れか)に示されるci[0]に対応する第1音響信号S'm1,ci[0](t)が入力される。時間-周波数変換部161-1は、第1音響信号S'm1,ci[0](t)(時間領域信号)を周波数領域の信号(スペクトル)に変換する。時間-周波数変換部161-1は、得られた第1音響信号のスペクトルS'm1,ci[0](k, n)を分割部162-1に出力する。
 なお、kは周波数インデックス(例えば、周波数bin番号)を示し、nは時間インデックス(例えば、音響信号を所定の時間間隔でフレーミングしたときのフレーム番号)を示す。
 時間-周波数変換部161-2には、例えば、組み合わせ情報Ci(iは1~Iの何れか)に示されるci[1]に対応する第2音響信号S'm2,ci[1](t)が入力される。時間-周波数変換部161-2は、第2音響信号S'm2,ci[1](t)(時間領域信号)を周波数領域の信号(スペクトル)に変換する。時間-周波数変換部161-2は、得られた第2音響信号のスペクトルS'm2,ci[1](k, n)を分割部162-2に出力する。
 なお、時間-周波数変換部161-1,161-2における時間-周波数変換処理は、例えば、フーリエ変換処理(例えば、SFFT(Short-time Fast Fourier Transform:短時間フーリエ変換))でもよく、修正離散コサイン変換(MDCT(Modified Discrete Cosine Transform))でもよい。
 分割部162-1は、時間-周波数変換部161-1から入力される第1音響信号のスペクトルS'm1,ci[0](k, n)を複数の周波数区分(以下、「サブバンド」と呼ぶ)に分割する。分割部162-1は、各サブバンドに含まれる第1音響信号のスペクトルS'm1,ci[0](k, n)で構成されるサブバンドスペクトル(SBm1,ci[0](sb, n))を類似度算出部163及び乗算部165-1に出力する。
 なお、sbはサブバンド番号を示す。
 分割部162-2は、時間-周波数変換部161-2から入力される第2音響信号のスペクトルS'm2,ci[1](k, n)を複数のサブバンドに分割する。分割部162-2は、各サブバンドに含まれる第2音響信号のスペクトルS'm2,ci[1](k, n)で構成されるサブバンドスペクトル(SBm2,ci[1](sb, n))を類似度算出部163及び乗算部165-2に出力する。
 図5は、フレーム番号nのフレームにおける、第i番目の音響オブジェクトに対応する第1音響信号のスペクトルS'm1,ci[0](k, n)及び第2音響信号のスペクトルS'm2,ci[1](k, n)を複数のサブバンドに分割する例を示す。
 図5に示す各サブバンドは、4つの周波数成分(例えば、周波数bin)から成るSegmentで構成される。
 具体的には、サブバンド番号sb=0のサブバンド(Segment 1)におけるサブバンドスペクトル(SBm1,ci[0](0, n)、SBm2,ci[1](0, n))は、周波数インデックスk=0~3の4つのスペクトル(S'm1,ci[0](k, n)、S'm2,ci[1](k, n))で構成される。同様に、サブバンド番号sb=1のサブバンド(Segment 2)におけるサブバンドスペクトル(SBm1,ci[0](1, n)、SBm2,ci[1](1, n))は、周波数インデックスk=3~6の4つのスペクトル(S'm1,ci[0](k, n)、S'm2,ci[1](k, n))で構成される。また、サブバンド番号sb=2のサブバンド(Segment 3)におけるサブバンドスペクトル(SBm1,ci[0](2, n)、SBm2,ci[1](2, n))は、周波数インデックスk=6~9の4つのスペクトル(S'm1,ci[0](k, n)、S'm2,ci[1](k, n))で構成される。
 ここで、図5に示すように、隣接するサブバンドにそれぞれ含まれる周波数成分の一部は重複(overlap)する。例えば、サブバンド番号sb=0及びsb=1のサブバンド間では、周波数インデックスk=3のスペクトル(S'm1,ci[0](3, n)、S'm2,ci[1](3, n))が重複している。また、サブバンド番号sb=1及びsb=2のサブバンド間では、周波数インデックスk=6のスペクトル(S'm1,ci[0](6, n)、S'm2,ci[1](6, n))が重複している。
 このように、隣接するサブバンド間において一部の周波数成分を重複させることにより、共通成分抽出部106は、スペクトルの合成時(再構成時)において隣接するサブバンドの両端の周波数成分を重畳加算(Overlap and Add)して、サブバンド間の接続性(連続性)を改善できる。
 なお、図5に示すサブバンド構成は一例であって、サブバンド数(換言すると、分割数)、サブバンドを構成する周波数成分の数(換言すると、サブバンドサイズ)等は、図5に示す値に限定されない。また、図5では、隣接するサブバンドにおいて1つの周波数成分が重複する場合について説明したが、サブバンド間で重複する周波数成分の数は1つに限定されず、2つ以上でもよい。
 また、例えば、サブバンドサイズ(又はサブバンド幅)を奇数個の周波数成分(サンプル)とし、奇数個の周波数成分のうち中心の周波数成分を1.0とする左右対称窓をサブバンドスペクトルに乗算したものを上記サブバンドと定義してもよい。
 または、サブバンド幅(例えば、周波数成分の数)を2n+1とし、例えば、サブバンド内の0~n-1の周波数成分及びn+1~2nの周波数成分を隣接サブバンドと重複する範囲とし、隣接するサブバンドは1周波数成分ずつずらしたものとしてもよい。また、各サブバンドで算出されるゲインはn成分(換言すると、中心の周波数成分)のみに乗算される。すなわち、各サブバンドにおける0~n-1及びn+1~2nの周波数成分に対するゲインは、対応する他のサブバンド(換言すると、各周波数成分が中心に位置するサブバンド)から算出される。この場合、隣接サブバンドと重複する範囲のスペクトルはゲイン算出にのみ用いられ、スペクトルの再構成時の重畳加算は必要なくなる。
 また、サブバンド間で重複する周波数成分の数は、例えば、入力信号の特徴等に応じて可変に設定されてもよい。
 図4において、類似度算出部163は、分割部162-1から入力される第1音響信号のサブバンドスペクトルと、分割部162-2から入力される第2音響信号のサブバンドスペクトルとの類似度を算出する。類似度算出部163は、サブバンド毎に算出した類似度を示す類似度情報をスペクトルゲイン算出部164に出力する。
 例えば、図5では、類似度算出部163は、サブバンド番号sb=0のサブバンドにおいて、サブバンドスペクトルSBm1,ci[0](0, n)と、サブバンドスペクトルSBm2,ci[1](0, n)との類似度を算出する。換言すると、類似度算出部163は、サブバンド番号sb=0のサブバンドでは、第1音響信号の4つのスペクトルS'm1,ci[0](0, n)、S'm1,ci[0](1, n)、S'm1,ci[0](2, n)及びS'm1,ci[0](3, n)によって構成されるスペクトル形状(換言すると、ベクトル成分)と、第2音響信号の4つのスペクトルS'm2,ci[1](0, n)、S'm2,ci[1](1, n)、S'm2,ci[1](2, n)及びS'm2,ci[1](3, n)によって構成されるスペクトル形状(換言すると、ベクトル成分)と、の類似度を算出する。
 類似度算出部163は、サブバンド番号sb=1及び2のサブバンドについても同様にして類似度をそれぞれ算出する。このように、類似度算出部163は、第1音響信号及び第2音響信号のスペクトルを分割した複数のサブバンド毎に類似度を算出する。
 類似度の一例は、第1音響信号のサブバンドスペクトルと第2音響信号のサブバンドスペクトルとのエルミート角(Hermitian Angle)である。例えば、各サブバンドにおける、第1音響信号のサブバンドスペクトル(複素スペクトル)を「s1」と表し、第2音響信号のサブバンドスペクトル(複素スペクトル)を「s2」と表す。この場合、エルミート角θHは、次式で表される。
Figure JPOXMLDOC01-appb-M000001
 例えば、エルミート角θHが小さいほど、サブバンドスペクトルs1とサブバンドスペクトルs2との類似度は高く、エルミート角θHが大きいほど、サブバンドスペクトルs1とサブバンドスペクトルs2との類似度は低い。
 また、類似度の他の例は、サブバンドスペクトルs1及びs2の正規化相互相関(例えば、||s1 *s2|/(||s1||・||s2||)|)である。例えば、正規化相互相関の値が大きいほど、サブバンドスペクトルs1とサブバンドスペクトルs2との類似度は高く、正規化相互相関の値が小さいほど、サブバンドスペクトルs1とサブバンドスペクトルs2との類似度は低い。
 なお、類似度は、エルミート角及び正規化相互相関に限定されず、他のパラメータでもよい。
 図4において、スペクトルゲイン算出部164は、例えば、重み付け関数(又は変換関数)に基づいて、類似度算出部163から入力される類似度情報に示される類似度(例えば、エルミート角θH又は正規化相互相関)をスペクトルゲイン(換言すると、重み付け係数)に変換する。スペクトルゲイン算出部164は、サブバンド毎に算出されるスペクトルゲインGain(sb, n)を乗算部165-1,165-2に出力する。
 乗算部165-1は、分割部162-1から入力される第1音響信号のサブバンドスペクトルSBm1,ci[0](sb, n)に、スペクトルゲイン算出部164から入力されるスペクトルゲインGain(sb, n)を乗算し(重み付けし)、乗算後のサブバンドスペクトルSB'm1,ci[0](sb, n)をスペクトル再構成部166に出力する。
 乗算部165-2は、分割部162-2から入力される第2音響信号のサブバンドスペクトルSBm2,ci[1](sb, n)に、スペクトルゲイン算出部164から入力されるスペクトルゲインGain(sb, n)を乗算し(重み付けし)、乗算後のサブバンドスペクトルSB'm2,ci[1](sb, n)をスペクトル再構成部166に出力する。
 例えば、スペクトルゲイン算出部164は、変換関数f(θH)=cosxH)を用いて、類似度(例えば、エルミート角)をスペクトルゲインに変換してもよい。または、スペクトルゲイン算出部164は、変換関数f(θH)=exp(-θH 2/2σ2)を用いて、類似度(例えば、エルミート角)をスペクトルゲインに変換してもよい。
 例えば、図6に示すように、変換関数f(θH)=cosxH)においてx=10(すなわち、cos10H))の場合の特性と、変換関数f(θH)=exp(-θH 2/2σ2)においてσ=0.3の場合の特性とはほぼ同様の特性となる。なお、変換関数f(θH)=cosxH)におけるxの値は10に限定されず、他の値でもよい。また、変換関数f(θH)=exp(-θH 2/2σ2)におけるσの値は0.3に限定されず、他の値でもよい。
 図6に示すように、エルミート角θHが小さいほど(類似度が高いほど)、スペクトルゲイン(gain value)は高くなり(例えば、1に近づき)、エルミート角θHが大きいほど(類似度が低いほど)、スペクトルゲインは低くなる(例えば、0に近づく)。
 よって、共通成分抽出部106は、類似度が高いサブバンドほど、高い値のスペクトルゲインを用いた重み付けにより、サブバンドスペクトル成分を残留させ、類似度が低いサブバンドほど、低い値のスペクトルゲインを用いた重み付けにより、サブバンドスペクトルを減衰させる。これにより、共通成分抽出部106は、第1音響信号及び第2音響信号のスペクトルにおける共通成分を抽出する。
 なお、変換関数f(θH)=cosxH)ではxの値が大きいほど、又は、変換関数f(θH)=exp(-θH 2/2σ2)ではσの値が小さいほど、変換係数f(θH)の勾配が急になる。換言すると、θHが0から離れる距離(θHの変化量)が同じであれば、xの値が大きいほど又はσの値が小さいほど、変換係数f(θH)はより0に近くなり、サブバンドスペクトルは減衰されやすくなる。よって、xの値が大きいほど又はσの値が小さいほど、例えば、類似度が少しでも低くなると、スペクトルゲインが急速に小さくなり、対応するサブバンドの信号成分の減衰度合いがより大きくなる。
 例えば、xの値が大きい場合又はσの値が小さい場合(変換関数の勾配が急になる場合)、サブバンドスペクトルにおいて少しでもターゲット以外の信号が混入していれば、類似度が低くなり、当該サブバンドスペクトルに対する減衰度合いは強くなる。よって、xの値が大きい場合又はσの値が小さい場合には、ターゲットとなる音響オブジェクト信号の抽出よりも、ターゲット以外の信号(例えば、雑音等)の減衰を優先的に行うことができる。
 一方、xの値が小さい場合又はσの値が大きい場合(変換関数の勾配が緩い場合)、サブバンドスペクトルにターゲット以外の信号が混入していると、類似度は低くなるものの、当該サブバンドスペクトルに対する減衰度合いは弱くなる。よって、xの値が小さい場合又はσの値が大きい場合には、雑音等を減衰させることよりも、ターゲットとなる音響オブジェクト信号の保護を優先的に行うことができる。
 このように、x又はσの値に応じて、抽出対象となる音響オブジェクトの信号成分の保護と、抽出対象以外の信号成分の低減との間にはトレードオフの関係がある。よって、共通成分抽出部106は、x又はσの値(換言すると変換関数の勾配を調整するパラメータ)を可変とし、適応的に制御することにより、例えば、抽出対象となる音響オブジェクト以外の信号成分の残留度合いを制御できる。
 また、ここでは、類似度情報がエルミート角を示す場合について説明したが、類似度情報が正規化相互相関を示す場合についても同様に変換関数を適用してもよい。すなわち、共通成分抽出部106は、正規化相互相関C12=||s1 *s2|/(||s1||・||s2||)|として、変換関数f(C12)=(C12))を用いてもよい。
 図4において、スペクトル再構成部166は、乗算部165-1から入力されるサブバンドスペクトルSB'm1,ci[0](sb, n)及び乗算部165-2から入力されるサブバンドスペクトルSB'm1,ci[1](sb, n)を用いて、音響オブジェクト(i番目のオブジェクト)の複素フーリエスペクトルを再構成し、得られた複素フーリエスペクトルS'i(k, n)を周波数-時間変換部167に出力する。
 周波数-時間変換部167は、スペクトル再構成部166から入力される音響オブジェクトの複素フーリエスペクトルS'i(k, n)(周波数領域信号)を時間領域信号に変換する。周波数-時間変換部167は、得られた音響オブジェクト信号S'i(t)を出力する。
 なお、周波数-時間変換部167における周波数-時間変換処理は、例えば、逆フーリエ変換処理(例えば、ISFFT(Inverse SFFT))でもよく、逆修正離散コサイン変換(IMDCT(Inverse MDCT))でもよい。
 以上、共通成分抽出部106における動作について説明した。
 このように、音響オブジェクト抽出装置100において、ビームフォーミング処理部103-1,103-2は、マイクロホンアレイ101-1に対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1音響信号を生成し、マイクロホンアレイ101-2に対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2音響信号を生成し、共通成分抽出部106は、第1音響信号のスペクトルと第2音響信号のスペクトルとの類似度に基づいて、第1音響信号及び第2音響信号から、音響オブジェクトに対応する共通成分を含む信号を抽出する。この際、共通成分抽出部106は、第1音響信号及び第2音響信号のスペクトルを複数のサブバンドに分割し、サブバンド毎に類似度を算出する。
 これにより、音響オブジェクト抽出装置100は、複数のビームによって得られる音響信号のスペクトルのうちのサブバンド単位のスペクトル形状に基づいて、複数のビームフォーマによって生成された音響信号から、音響オブジェクトに対応する共通成分を抽出できる。換言すると、音響オブジェクト抽出装置100は、スペクトルの微細構造を考慮した類似度に基づいて、共通成分の抽出をできる。
 例えば、本実施の形態において、上述したように、図5では類似度が算出される単位は、4個の周波数成分を含むサブバンド単位である。よって、図5では、音響オブジェクト抽出装置100は、4個の周波数成分から構成される微小バンド内のスペクトル形状の類似度を算出し、スペクトル形状の類似度に応じてスペクトルゲインを算出する。
 一方で、仮に、類似度を算出する単位が1つの周波数成分単位である場合(例えば、特許文献1を参照)、スペクトルゲインは、各周波数成分におけるスペクトルの振幅比に基づいて算出されることになる。1つの周波数成分同士での正規化相互相関は常に1.0となり、類似度を測る上では意味がない。このため、例えば、特許文献1ではクロススペクトルをビームフォーマ出力信号のパワースペクトルで正規化している。つまり、特許文献1では、2つのビームフォーマ出力信号の振幅比に相当するスペクトルゲインが算出される。
 本実施の形態では、各周波数成分における振幅差(又は、振幅比)ではなく、各周波数成分におけるスペクトル形状の差(又は、類似度)に基づく抽出方法を用いる。これにより、音響オブジェクト抽出装置100は、特定の周波数成分が同じ振幅である2つの音が入力された場合でも、スペクトル形状が似ていない場合には、ターゲットとなるオブジェクト音とは異なると判断できるので、音響オブジェクト音の抽出性能を向上することができる。
 これに対して、類似度を算出する単位が1つの周波数成分単位である場合には、ターゲットとなる音響オブジェクト音と、ターゲット以外の他の音との違いに関する情報は、当該1つの周波数成分における振幅の大きさの差しか得られない。
 例えば、2つのビームフォーマ出力におけるターゲットとしている音響オブジェクト音ではない互いに異なる2つの音の信号レベル比が、ターゲットの位置から到来する音の信号レベル比と同様のケースでは、これらの振幅比が同様になる。このため、ターゲットの位置から到来した音であるのか、同様の振幅比となる異なる位置から到来した音であるのか、を区別して取り扱うことができない。
 この場合、仮に、類似度を算出する単位が1つの周波数成分単位である場合には、ターゲットではない音の周波数成分が、ターゲットとしている音響オブジェクト音の周波数成分として抽出されてしまい、真にターゲットとしている音響オブジェクト音の位置の周波数成分として混入してしまうことになる。
 これに対して、本実施の形態では、音響オブジェクト抽出装置100は、サブバンドを構成する複数(例えば、4つ)のスペクトル全体のスペクトル形状が一致しないと低い類似度を算出する。このため、音響オブジェクト抽出装置100では、スペクトル形状が一致する部分と一致しない部分とで算出されるスペクトルゲインの値に差がつきやすくなり、共通する周波数成分(換言すると、類似する周波数成分)がより強調される(残る)ようになる。よって、音響オブジェクト抽出装置100では、前述のケースにおいてもターゲットと異なる音と、ターゲットとしている音響オブジェクト音とを区別できる可能性が高くなる。
 このように、本実施の形態では、音響オブジェクト抽出装置100は、サブバンド単位、換言すると、微細スペクトル形状の単位で共通成分の抽出を行うので、特定の周波数成分においてターゲットとなる音響オブジェクト音と、ターゲットとは異なる音との区別をつけられずにターゲットではない音の周波数成分がターゲットとする音響オブジェクト音に混入してしまうことを回避できる。よって、本実施の形態によれば、音響オブジェクト音の抽出性能を向上することができる。
 例えば、音響オブジェクト抽出装置100では、入力信号のサンプリング周波数等の特徴に応じて、サブバンドのサイズ(換言すると、スペクトル形状の類似度を算出するバンド幅)を適切に設定することにより、主観品質の改善を図ることができる。
 また、本実施の形態では、音響オブジェクト抽出装置100は、類似度からスペクトルゲインを変換する変換関数として非線形関数(例えば、図6を参照)を用いる。このとき、音響オブジェクト抽出装置100は、変換関数の勾配を調整するパラメータ(例えば、上述したx又はσの値)を設定することにより、変換関数の勾配(換言すると、雑音成分などの残留度合い)を制御できる。
 これにより、本実施の形態では、例えば、類似度が少しでも小さくなるとスペクトルゲインが急速に小さくなるように(変換関数の勾配が急になるように)、パラメータ(例えばx又はσの値)を調整することにより、ターゲット信号以外の信号を大きく減衰できるので,ターゲット以外の信号成分をノイズとした場合のSN比を改善できる。
 以上、本開示の実施の形態について説明した。
 なお、上記実施の形態では、共通成分抽出部106において共通成分の抽出処理の対象となる第1音響信号及び第2音響信号の組み合わせについて、組み合わせ情報Ci(例えば、ci[0]及びci[1])を用いる場合について説明した。しかし、第1音響信号及び第2音響信号において同一の音響オブジェクトに対応する信号の組み合わせ(対応付け)は、組み合わせ情報Ciを用いる方法以外の他の方法によって特定されてもよい。例えば、ビームフォーミング処理部103-1及びビームフォーミング処理部103-2の双方において、複数の音響オブジェクトのそれぞれに対応する順に音響信号がソーティングされてもよい。これにより、ビームフォーミング処理部103-1及びビームフォーミング処理部103-2からは、同一の音響オブジェクトに対応した順に、第1音響信号及び第2音響信号がそれぞれ出力される。この場合、共通成分抽出部106は、ビームフォーミング処理部103-1及びビームフォーミング処理部103-2から出力される音響信号の順に、共通成分の抽出処理を行えばよい。よって、この場合、組み合わせ情報Ciは不要である。
 また、上記実施の形態では、音響オブジェクト抽出装置100がマイクロホンアレイを2つ備える場合について説明したが、音響オブジェクト抽出装置100はマイクロホンアレイを3つ以上備えてもよい。
 また、本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるLSIとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのLSI又はLSIの組み合わせによって制御されてもよい。LSIは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。LSIはデータの入力と出力を備えてもよい。LSIは、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。集積回路化の手法はLSIに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 本開示は、通信機能を持つあらゆる種類の装置、デバイス、システム(通信装置と総称)において実施可能である。通信装置の、非限定的な例としては、電話機(携帯電話、スマートフォン等)、タブレット、パーソナル・コンピューター(PC)(ラップトップ、デスクトップ、ノートブック等)、カメラ(デジタル・スチル/ビデオ・カメラ等)、デジタル・プレーヤー(デジタル・オーディオ/ビデオ・プレーヤー等)、着用可能なデバイス(ウェアラブル・カメラ、スマートウオッチ、トラッキングデバイス等)、ゲーム・コンソール、デジタル・ブック・リーダー、テレヘルス・テレメディシン(遠隔ヘルスケア・メディシン処方)デバイス、通信機能付きの乗り物又は移動輸送機関(自動車、飛行機、船等)、及び上述の各種装置の組み合わせがあげられる。
 通信装置は、持ち運び可能又は移動可能なものに限定されず、持ち運びできない又は固定されている、あらゆる種類の装置、デバイス、システム、例えば、スマート・ホーム・デバイス(家電機器、照明機器、スマートメーター又は計測機器、コントロール・パネル等)、自動販売機、その他IoT(Internet of Things)ネットワーク上に存在し得るあらゆる「モノ(Things)」をも含む。
 通信には、セルラーシステム、無線LANシステム、通信衛星システム等によるデータ通信に加え、これらの組み合わせによるデータ通信も含まれる。
 また、通信装置には、本開示に記載される通信機能を実行する通信デバイスに接続又は連結される、コントローラやセンサ等のデバイスも含まれる。例えば、通信装置の通信機能を実行する通信デバイスが使用する制御信号やデータ信号を生成するような、コントローラやセンサが含まれる。
 また、通信装置には、上記の非限定的な各種装置と通信を行う、あるいはこれら各種装置を制御する、インフラストラクチャ設備、例えば、基地局、アクセスポイント、その他あらゆる装置、デバイス、システムが含まれる。
 本開示の実施例に係る音響オブジェクト抽出装置は、第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、第2のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成するビームフォーミング処理回路と、前記第1の音響信号のスペクトルと前記第2の音響信号のスペクトルとの類似度に基づいて、前記第1の音響信号及び前記第2の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出する抽出回路と、を具備し、前記抽出回路は、前記第1の音響信号及び前記第2の音響信号のスペクトルを複数の周波数区間に分割し、前記周波数区間毎に前記類似度を算出する。
 本開示の実施例に係る音響オブジェクト抽出装置において、隣接する前記周波数区間にそれぞれ含まれる周波数成分の一部が重複する。
 本開示の実施例に係る音響オブジェクト抽出装置において、前記抽出回路は、前記類似度に応じた重み付け係数を前記周波数区間毎に算出し、前記重み付け係数を、前記第1の音響信号のスペクトル及び前記第2の音響信号のスペクトルにそれぞれ乗算し、前記類似度を前記重み付け係数に変換する変換関数の勾配を調整するパラメータは可変である。
 本開示の実施例に係る音響オブジェクト抽出方法は、第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、第2のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成し、前記第1の音響信号のスペクトルと前記第2の音響信号のスペクトルとの類似度に基づいて、前記第1の音響信号及び前記第2の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出し、前記第1の音響信号及び前記第2の音響信号のスペクトルは複数の周波数区間に分割され、前記類似度は前記周波数区間毎に算出される。
 2018年9月26日出願の特願2018-180688の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本開示の一実施例は、音場ナビゲーションシステムに有用である。
 100 音響オブジェクト抽出装置
 101-1,101-2 マイクロホンアレイ
 102-1,102-2 到来方向推定部
 103-1,103-2 ビームフォーミング処理部
 104 相関確認部
 105 三角測量部
 106 共通成分抽出部
 161-1,161-2 時間-周波数変換部
 162-1,162-2 分割部
 163 類似度算出部
 164 スペクトルゲイン算出部
 165-1,165-2 乗算部
 166 スペクトル再構成部
 167 周波数-時間変換部

Claims (4)

  1.  第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、第2のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成するビームフォーミング処理回路と、
     前記第1の音響信号のスペクトルと前記第2の音響信号のスペクトルとの類似度に基づいて、前記第1の音響信号及び前記第2の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出する抽出回路と、
     を具備し、
     前記抽出回路は、前記第1の音響信号及び前記第2の音響信号のスペクトルを複数の周波数区間に分割し、前記周波数区間毎に前記類似度を算出する、
     音響オブジェクト抽出装置。
  2.  隣接する前記周波数区間にそれぞれ含まれる周波数成分の一部が重複する、
     請求項1に記載の音響オブジェクト抽出装置。
  3.  前記抽出回路は、前記類似度に応じた重み付け係数を前記周波数区間毎に算出し、前記重み付け係数を、前記第1の音響信号のスペクトル及び前記第2の音響信号のスペクトルにそれぞれ乗算し、
     前記類似度を前記重み付け係数に変換する変換関数の勾配を調整するパラメータは可変である、
     請求項1に記載の音響オブジェクト抽出装置。
  4.  第1のマイクロホンアレイに対する音響オブジェクトからの信号の到来方向へのビームフォーミングによって第1の音響信号を生成し、第2のマイクロホンアレイに対する前記音響オブジェクトからの信号の到来方向へのビームフォーミングによって第2の音響信号を生成し、
     前記第1の音響信号のスペクトルと前記第2の音響信号のスペクトルとの類似度に基づいて、前記第1の音響信号及び前記第2の音響信号から、前記音響オブジェクトに対応する共通成分を含む信号を抽出し、
     前記第1の音響信号及び前記第2の音響信号のスペクトルは複数の周波数区間に分割され、前記類似度は前記周波数区間毎に算出される、
     音響オブジェクト抽出方法。
PCT/JP2019/035099 2018-09-26 2019-09-06 音響オブジェクト抽出装置及び音響オブジェクト抽出方法 WO2020066542A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP19864541.8A EP3860148B1 (en) 2018-09-26 2019-09-06 Acoustic object extraction device and acoustic object extraction method
US17/257,413 US11488573B2 (en) 2018-09-26 2019-09-06 Acoustic object extraction device and acoustic object extraction method
JP2020548325A JP7405758B2 (ja) 2018-09-26 2019-09-06 音響オブジェクト抽出装置及び音響オブジェクト抽出方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018180688 2018-09-26
JP2018-180688 2018-09-26

Publications (1)

Publication Number Publication Date
WO2020066542A1 true WO2020066542A1 (ja) 2020-04-02

Family

ID=69953426

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/035099 WO2020066542A1 (ja) 2018-09-26 2019-09-06 音響オブジェクト抽出装置及び音響オブジェクト抽出方法

Country Status (4)

Country Link
US (1) US11488573B2 (ja)
EP (1) EP3860148B1 (ja)
JP (1) JP7405758B2 (ja)
WO (1) WO2020066542A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113311391A (zh) * 2021-04-25 2021-08-27 普联国际有限公司 基于麦克风阵列的声源定位方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003284185A (ja) * 2002-03-27 2003-10-03 Sony Corp ステレオマイクロホン装置
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
JP2007235358A (ja) * 2006-02-28 2007-09-13 Nippon Telegr & Teleph Corp <Ntt> 収音装置、プログラム及びこれを記録した記録媒体
JP2014502108A (ja) 2010-12-03 2014-01-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音響三角測量方式による空間的に選択的な音の取得のための装置および方法
JP2016127459A (ja) * 2015-01-05 2016-07-11 沖電気工業株式会社 収音装置、プログラム及び方法
JP2018132737A (ja) * 2017-02-17 2018-08-23 沖電気工業株式会社 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法
JP2018180688A (ja) 2017-04-05 2018-11-15 富士通株式会社 更新処理プログラム、装置、及び方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3548706B2 (ja) * 2000-01-18 2004-07-28 日本電信電話株式会社 ゾーン別収音装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003284185A (ja) * 2002-03-27 2003-10-03 Sony Corp ステレオマイクロホン装置
JP2004289762A (ja) * 2003-01-29 2004-10-14 Toshiba Corp 音声信号処理方法と装置及びプログラム
JP2007235358A (ja) * 2006-02-28 2007-09-13 Nippon Telegr & Teleph Corp <Ntt> 収音装置、プログラム及びこれを記録した記録媒体
JP2014502108A (ja) 2010-12-03 2014-01-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音響三角測量方式による空間的に選択的な音の取得のための装置および方法
JP2016127459A (ja) * 2015-01-05 2016-07-11 沖電気工業株式会社 収音装置、プログラム及び方法
JP2018132737A (ja) * 2017-02-17 2018-08-23 沖電気工業株式会社 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法
JP2018180688A (ja) 2017-04-05 2018-11-15 富士通株式会社 更新処理プログラム、装置、及び方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHENG, XIGUANGCHRISTIAN RITZJIANGTAO XI: "Collaborative blind source separation using location informed spatial microphones", IEEE SIGNAL PROCESSING LETTERS, 2013, pages 83 - 86, XP011475409, DOI: 10.1109/LSP.2012.2229977
ZHENG, XIGUANGCHRISTIAN RITZJIANGTAO XI: "Encoding and communicating navigable speech soundfields", MULTIMEDIA TOOLS AND APPLICATIONS, vol. 75, no. 9, 2016, pages 5183 - 5204, XP035924708, DOI: 10.1007/s11042-015-2989-3

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113311391A (zh) * 2021-04-25 2021-08-27 普联国际有限公司 基于麦克风阵列的声源定位方法、装置、设备及存储介质

Also Published As

Publication number Publication date
EP3860148B1 (en) 2023-11-01
JP7405758B2 (ja) 2023-12-26
JPWO2020066542A1 (ja) 2021-09-16
EP3860148A1 (en) 2021-08-04
EP3860148A4 (en) 2021-11-17
US11488573B2 (en) 2022-11-01
US20210183356A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
US10382849B2 (en) Spatial audio processing apparatus
JP6526083B2 (ja) 源信号分離のためのシステム及び方法
US20210089967A1 (en) Data training in multi-sensor setups
CN103426435B (zh) 具有移动约束的通过独立分量分析的源分离
US10873814B2 (en) Analysis of spatial metadata from multi-microphones having asymmetric geometry in devices
CN109791769A (zh) 使用自适应捕捉从麦克风阵列生成空间音频信号格式
WO2019187589A1 (ja) 音源方向推定装置、音源方向推定方法、プログラム
JP6987075B2 (ja) オーディオ源分離
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
JP5123595B2 (ja) 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法
KR20170129697A (ko) 마이크로폰 어레이 스피치 강화 기법
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
Pujol et al. BeamLearning: An end-to-end deep learning approach for the angular localization of sound sources using raw multichannel acoustic pressure data
WO2020066542A1 (ja) 音響オブジェクト抽出装置及び音響オブジェクト抽出方法
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
Ding et al. Joint estimation of binaural distance and azimuth by exploiting deep neural networks
CN111505569B (zh) 声源定位方法以及相关设备、装置
US11445324B2 (en) Audio rendering method and apparatus
Al-Ali et al. Enhanced forensic speaker verification performance using the ICA-EBM algorithm under noisy and reverberant environments
Moon et al. Multi-channel audio source separation using azimuth-frequency analysis and convolutional neural network
Jiang et al. A Complex Neural Network Adaptive Beamforming for Multi-channel Speech Enhancement in Time Domain
CN113808606B (zh) 语音信号处理方法和装置
Yamamoto et al. Direction Estimation of Instrumental Sound Sources Using Regression Analysis by Convolutional Neural Network
Cho et al. Underdetermined audio source separation from anechoic mixtures with long time delay
Khalil et al. Efficient speaker identification from speech transmitted over Bluetooth based system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19864541

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020548325

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019864541

Country of ref document: EP

Effective date: 20210426