WO2024053353A1 - 信号処理装置、及び、信号処理方法 - Google Patents
信号処理装置、及び、信号処理方法 Download PDFInfo
- Publication number
- WO2024053353A1 WO2024053353A1 PCT/JP2023/029675 JP2023029675W WO2024053353A1 WO 2024053353 A1 WO2024053353 A1 WO 2024053353A1 JP 2023029675 W JP2023029675 W JP 2023029675W WO 2024053353 A1 WO2024053353 A1 WO 2024053353A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- amplitude
- cross
- spectrum
- weighting
- weighting coefficient
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 27
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000001228 spectrum Methods 0.000 claims abstract description 208
- 238000001514 detection method Methods 0.000 claims abstract description 19
- 230000003595 spectral effect Effects 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 description 45
- 238000000034 method Methods 0.000 description 45
- 238000004260 weight control Methods 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000005314 correlation function Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000002087 whitening effect Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Definitions
- the present disclosure relates to a signal processing device and a signal processing method.
- stereo signals there is a coding technique for stereo audio audio signals (hereinafter also referred to as stereo signals) (for example, see Patent Document 1).
- ITD inter-channel time difference
- Non-limiting embodiments of the present disclosure contribute to providing a signal processing device and a signal processing method that can improve ITD estimation performance in stereo signal encoding.
- a signal processing device includes a control circuit that varies a weighting coefficient based on the amplitude of a cross spectrum of the stereo signal according to a parameter related to the stereo signal; and a detection circuit that detects an inter-channel time difference of the stereo signal based on a cross spectrum.
- ITD estimation performance in stereo signal encoding can be improved.
- FIG. 1 A diagram showing an example of the configuration of an audio acoustic signal transmission system.
- Block diagram showing a configuration example of the ITD analysis encoding unit Flowchart showing an example of ITD analysis encoding process
- Block diagram showing a configuration example of the ITD analysis encoding unit Flowchart showing an example of ITD analysis encoding process
- Block diagram showing a configuration example of the ITD analysis encoding unit Flowchart showing an example of ITD analysis encoding process
- FIG. 1 A diagram showing an example of the configuration of an audio acoustic signal transmission system.
- stereo signals One of the encoding methods for stereo signals is based on the inter-channel time difference (ITD) for stereo signals including the L channel (Left channel or L-ch) and the R channel (Right channel or R-ch).
- ITD inter-channel time difference
- the interchannel time difference (ITD) of a stereo signal is a parameter related to the time difference between the arrival of sound between the L channel and the R channel.
- ITD estimation or detection
- FFT Fast Fourier Transform
- ICC inter-channel cross correlation
- IFFT inverse fast Fourier transform
- GCC-PHAT generalized cross-correlation phase transform
- CSP cross-power spectrum phase analysis
- a cross spectrum calculated from the FFT spectrum of a pair of channel signals included in a stereo signal is weighted by the reciprocal of the amplitude of the cross spectrum.
- the ITD is estimated based on the time lag with respect to the peak position of the inter-channel cross-correlation (ICC) in the time domain obtained by IFFT of the weighted cross spectrum.
- ICC inter-channel cross-correlation
- ITD estimation using the GCC-PHAT method is characterized by whitening the cross spectrum by weighting the cross spectrum with the reciprocal of the cross spectrum amplitude, and estimating ITD using the phase component (e.g. phase information) of the cross spectrum. shall be.
- the stereo signal may include many frequency components with zero amplitude.
- An example of a case where a stereo signal contains many frequency components with zero amplitude is a case where the stereo signal has high tonality.
- ITD estimation using the GCC-PHAT method may not be appropriate for weighting (for example, whitening) the frequency components with zero amplitude by the reciprocal of the amplitude component. is possible. In this case, the estimation performance of the ITD may deteriorate (eg, the ITD may become zero).
- a method will be described for improving ITD estimation performance and encoding performance even when a stereo signal contains many frequency components with zero amplitude.
- One non-limiting example of the present disclosure describes an ITD estimation method that is robust to cases where an input signal (e.g., a stereo signal) contains many frequency components with zero amplitude (e.g., when tonality is high).
- an input signal e.g., a stereo signal
- weighting based on cross-spectral amplitude is adaptively changed according to parameters related to the stereo signal (e.g., maximum cross-spectral amplitude, spectral flatness measurement (SFM), etc.) (or make it different). This makes it possible to improve the ITD estimation performance even when the stereo signal contains many frequency components with zero amplitude (for example, when the tonality is high).
- SFM spectral flatness measurement
- FIG. 1 is a diagram showing an example of the configuration of a transmission system for audio signals or acoustic signals (for example, referred to as audio/acoustic signals).
- FIG. 1(a) shows a configuration example of an audio/acoustic signal encoding device (hereinafter referred to as “encoding device”)
- FIG. 1(b) shows an example of the configuration of an audio/acoustic signal decoding device (hereinafter referred to as “decoding device”).
- An example of the configuration of (call) is shown below.
- the encoding device 10 shown in FIG. 1A includes, for example, an input section 11, an A/D conversion section 12, an ITD analysis encoding section 13, a time difference adjustment section 14, a stereo encoding section 15, and a multiplexing section 16. may be provided.
- the input unit 11 converts an input audio acoustic signal (for example, air vibration) into an electrical signal (for example, an analog signal), and outputs the analog signal to the A/D conversion unit 12, for example.
- an input audio acoustic signal for example, air vibration
- an electrical signal for example, an analog signal
- the A/D conversion unit 12 converts, for example, an analog signal input from the input unit 11 into a digital signal, and outputs the digital signal to the ITD analysis encoding unit 13 and the time difference adjustment unit 14.
- the encoding device 10 may include a plurality (for example, two) of at least one of the input section 11 and the A/D conversion section 12 in order to handle stereo signals.
- the ITD analysis encoding unit 13 estimates and encodes the inter-channel time difference (ITD) of the stereo signal input from the A/D conversion unit 12.
- the ITD analysis encoding unit 13 outputs the estimated ITD (for example, the ITD obtained by decoding the encoding result) to the time difference adjustment unit 14 and outputs the ITD encoding result to the multiplexing unit 16.
- the ITD analysis encoding unit 13 may perform a process of identifying a time lag with respect to a peak position of inter-channel cross-correlation in a time domain obtained by IFFTing a cross spectrum calculated from an FFT spectrum of a pair of channel signals of a stereo signal.
- the ITD analysis encoding unit 13 may perform weighting based on the reciprocal of the amplitude of the cross spectrum when estimating the ITD, for example. An example of processing in the ITD analysis encoding unit 13 will be described later.
- the time difference adjustment unit 14 uses the ITD input from the ITD analysis encoding unit 13 to perform processing (for example, time).
- the adjusted stereo signal is then output to the stereo encoder 15.
- the stereo encoding unit 15 encodes the time-adjusted stereo signal input from the time difference adjustment unit 14 and outputs the encoding result to the multiplexing unit 16.
- the stereo encoding unit 15 includes, for example, a conversion unit (for example, an FFT unit) that converts a signal from a time domain to a frequency domain signal, a stereo information extraction unit, a downmix unit, and an encoding unit. Good (not shown).
- a conversion unit for example, an FFT unit
- the conversion unit converts the stereo signals (for example, L channel signal and R channel signal) input to the stereo encoding unit 15 from time domain to frequency domain data (for example, FFT spectrum) for each channel, and Output to the information extraction section and downmix section.
- stereo signals for example, L channel signal and R channel signal
- frequency domain data for example, FFT spectrum
- the stereo information extraction unit may extract stereo information based on the FFT spectrum of each channel, for example.
- the stereo information extraction section parameterizes the stereo signal using binaural cues such as inter-channel level difference (ILD), ICC, and inter-channel phase difference (IPD), and downmixes the stereo signal.
- the data may be output to the encoder and encoder.
- the downmix section modifies at least one FFT spectrum of the L channel and the R channel based on, for example, the FFT spectrum of each channel output from the conversion section and the parameters of the binaural cue output from the stereo information extraction section. (or operation) and perform downmix processing to generate a Mid signal (for example, also referred to as an M signal) and a Side signal (for example, also referred to as an S signal).
- a Mid signal for example, also referred to as an M signal
- a Side signal for example, also referred to as an S signal
- M indicates the Mid signal
- S indicates the Side signal
- L' indicates the modified FFT spectrum of the L channel
- R' indicates the modified FFT spectrum of the R channel.
- the encoding unit encodes the M signal and S signal output from the downmix unit and the parameters of the binaural cue output from the stereo information extraction unit, and sends the encoded data to the stereo encoding unit 15. Output as an output signal.
- the stereo encoding unit 15 is not limited to the above-mentioned encoding method, and, for example, uses standardized encoding methods such as Moving Picture Experts Group (MPEG), 3rd Generation Partnership Project (3GPP), or International Telecommunication Union Telecommunication Standardization Sector (ITU-T). may be equipped with various audio-acoustic codecs.
- MPEG Moving Picture Experts Group
- 3GPP 3rd Generation Partnership Project
- ITU-T International Telecommunication Union Telecommunication Standardization Sector
- the multiplexing unit 16 combines encoded data inputted from the stereo encoding unit 15 (for example, referred to as stereo encoded information) and encoded data inputted from the ITD analysis encoding unit 13 (for example, referred to as ITD encoded information). ) and transmits the multiplexed encoded information to the decoding device 20 via a communication network or a storage medium (not shown).
- the decoding device 20 shown in FIG. 1B may include, for example, a separating section 21, an ITD decoding section 22, a stereo decoding section 23, a time difference adjusting section 24, a D/A converting section 25, and an output section 26.
- the separating unit 21 receives encoded information via a communication network or a storage medium (not shown), separates multiplexed encoded information, and outputs ITD encoded information to the ITD decoding unit 22, for example. , outputs the stereo encoded information to the stereo decoding section 23.
- the ITD decoding unit 22 decodes the ITD from the ITD encoded information input from the separation unit 21 and outputs the decoded ITD (hereinafter referred to as decoded ITD) to the time difference adjustment unit 24.
- the stereo decoding unit 23 decodes a stereo signal from the stereo encoded information input from the separation unit 21 and outputs the decoded stereo signal (hereinafter referred to as a decoded stereo signal) to the time difference adjustment unit 24.
- the stereo decoding unit 23 may include, for example, a decoding unit, an upmix unit, a stereo information synthesis unit, and a conversion unit (for example, an IFFT unit) that converts a signal from a frequency domain to a time domain signal (not shown). ).
- a decoding unit for example, an upmix unit, a stereo information synthesis unit, and a conversion unit (for example, an IFFT unit) that converts a signal from a frequency domain to a time domain signal (not shown).
- the decoding unit decodes the input stereo encoding information using a decoding method corresponding to the encoding method used on the encoding device 10 side, and decodes, for example, the M signal, the S signal, and the parameters of the binaural cue. is output to the upmix section and stereo information synthesis section.
- the decoder may comprise various standardized audio-acoustic codecs, such as MPEG, 3GPP or ITU-T, for example.
- the upmix unit may perform upmix processing, for example, based on the M signal and S signal input from the decoding unit.
- the stereo information synthesis unit uses, for example, the binaural cue parameters input from the decoding unit and the L' signal and R' signal of the FFT spectrum input from the upmix unit.
- the L signal and the R signal of the FFT spectrum may be output to the converting section by performing the operation opposite to that of the information extracting section).
- the conversion unit converts, for example, the L signal and R signal of the FFT spectrum into digital signals of the L channel and R channel of the time domain for each channel, and converts the digital signal into the output signal of the stereo decoding unit 23 (for example, the decoded stereo signal).
- the time difference adjustment unit 24 uses the decoded ITD input from the ITD decoding unit 22 to adjust the inter-channel time difference (for example, to adjust the time difference between the channels) for the decoded stereo signal input from the stereo decoding unit 23 (for example, to adjust the time difference between the channels).
- the decoded stereo signal after time adjustment is output to the D/A converter 25.
- the D/A converter 25 converts the digital signal input from the time difference adjuster 24 into an audio/acoustic signal (analog signal), and outputs it to the output unit 26.
- the output unit 26 converts the analog signal input from the D/A converter 25 into air vibration via a speaker, and outputs the converted signal.
- the decoding device 20 may include a plurality (for example, two) of at least one of the D/A conversion section 25 and the output section 26 in order to handle stereo signals.
- FIG. 2 is a block diagram showing a configuration example of the ITD analysis encoding unit 13.
- FIG. 3 is a flowchart showing an example of the operation of the ITD analysis encoding unit 13 shown in FIG. 2.
- the ITD analysis encoding unit 13 weights the cross spectrum using, for example, the reciprocal of the amplitude of the cross spectrum.
- the ITD analysis encoding unit 13 (for example, corresponding to a signal processing device) shown in FIG. ), an IFFT section 105, and an ITD detection section 106 (for example, corresponding to a detection circuit).
- time-domain stereo signals eg, L channel (represented by l, for example) and R channel (represented by r, for example)
- the FFT unit 101 converts, for example, a time domain channel signal into a frequency domain signal (hereinafter referred to as "FFT spectrum") (for example, S11 in FIG. 3).
- FFT section 101 outputs information regarding the FFT spectrum to cross spectrum calculation section 102.
- the method for converting a time domain signal into a frequency domain signal is not limited to FFT, and other methods may be used.
- the cross spectrum calculation unit 102 calculates a cross spectrum based on the FFT spectrum of each channel input from the FFT unit 101 (for example, S12 in FIG. 3).
- Cross spectrum calculation section 102 outputs information regarding the obtained cross spectrum to amplitude calculation section 103 and cross spectrum weighting section 104.
- the amplitude calculation unit 103 calculates the amplitude of the cross spectrum (or referred to as an amplitude spectrum) based on the information regarding the cross spectrum input from the cross spectrum calculation unit 102, and calculates the amplitude spectrum of the cross spectrum based on the information regarding the amplitude spectrum of the cross spectrum. It is output to spectrum weighting section 104.
- the cross-spectrum weighting unit 104 calculates the reciprocal of the amplitude spectrum of the cross spectrum input from the amplitude calculation unit 103, and sets the reciprocal of the amplitude spectrum as a weighting coefficient. Then, the cross-spectrum weighting section 104 weights the cross-spectrum input from the cross-spectrum calculation section 102 using a weighting coefficient (for example, the reciprocal of the cross-spectrum amplitude) (for example, S13 in FIG. 3). Cross spectrum weighting section 104 outputs the weighted cross spectrum to IFFT section 105.
- a weighting coefficient for example, the reciprocal of the cross-spectrum amplitude
- the IFFT unit 105 converts, for example, the cross spectrum weighted by the cross spectrum weighting unit 104 from a frequency domain signal to a time domain signal (for example, S14 in FIG. 3).
- the IFFT unit 105 outputs it to the ITD detection unit 106 as a weighted cross-correlation function (for example, a whitened cross-correlation function).
- a weighted cross-correlation function for example, a whitened cross-correlation function
- the ITD detection unit 106 detects (or estimates) the ITD based on the cross-correlation function (for example, also referred to as a whitening cross-correlation function) output from the IFFT unit 105 (for example, S14 in FIG. 3). .
- the cross-correlation function for example, also referred to as a whitening cross-correlation function
- ⁇ 1,2 ( ⁇ ) indicates a cross spectrum.
- Wg indicates a weighting coefficient, and is expressed as in the following equation (1-2).
- the ITD analysis encoding unit 13 shown in FIG. 2 detects the ITD based on the cross spectrum weighted using the weighting coefficient Wg based on the cross spectrum amplitude
- the cross spectrum is calculated using the weighting coefficient Wg based on the reciprocal of the cross spectrum amplitude.
- the weighting may not be appropriate and the estimation performance of ITD may deteriorate.
- FIG. 4 is a block diagram showing a configuration example of the ITD analysis encoding unit 13a according to the present embodiment.
- the ITD analysis encoding unit 13a (for example, corresponding to a signal processing device) shown in FIG. 4 has a maximum amplitude detection unit 111 added, and a cross
- the spectral weighting section 104 replaces the cross-spectral weighting section 112 (eg, corresponding to a control circuit).
- components different from the maximum amplitude detection unit 111 and the cross-spectral weighting unit 112 may be the same as those in FIG. 2, for example.
- FIG. 5 is a flowchart showing an example of the operation of the ITD analysis encoding unit 13a shown in FIG. 4.
- the same processes as those in FIG. 3 are denoted by the same reference numerals, and the description thereof will be omitted.
- the maximum amplitude detection unit 111 detects the maximum value of the amplitude of the cross spectrum (for example, referred to as maximum amplitude) based on the amplitude spectrum of the cross spectrum of the current frame input from the amplitude calculation unit 103 ( S21 shown in FIG. 5).
- the maximum amplitude detection section 111 outputs information regarding the maximum amplitude of the detected cross spectrum to the cross spectrum weighting section 112.
- the cross-spectrum weighting unit 112 sets a weighting coefficient (or calculate. Then, the cross spectrum weighting unit 112 weights the cross spectrum input from the cross spectrum calculation unit 102 using a weighting coefficient (for example, S22 in FIG. 5).
- Cross spectrum weighting section 112 outputs the weighted cross spectrum to IFFT section 105.
- the maximum amplitude detection unit 111 uses information regarding the position of the maximum amplitude of the cross spectrum (for example, information indicating which spectral component has the maximum amplitude) instead of information regarding the maximum amplitude of the cross spectrum to the cross spectrum weighting unit. It may also be output to 112.
- the cross-spectrum weighting section 112 converts the amplitude spectrum corresponding to the position of the maximum amplitude input from the maximum amplitude detection section 111 among the amplitude spectra of the cross spectrum input from the amplitude calculation section 103 into the maximum amplitude of the cross spectrum. You may decide to
- the cross-correlation function AdpCSP 1,2 ( ⁇ ) obtained in the IFFT section 105 is expressed as the following equation (2-1).
- ⁇ 1,2 ( ⁇ ) indicates a cross spectrum.
- AdpWg indicates a weighting coefficient, and is expressed as in the following equation (2-2).
- the value of C may be set to a constant of approximately 1/10,000 to 1/100,000 of the maximum amplitude of the cross spectrum.
- the weight control coefficient C shown in equation (2-2) is sufficiently small for a component (for example, a peak component) with a large amplitude
- the weight control coefficient C shown in equation (2-2) is large for components with small amplitude
- the weighting coefficient AdpWg shown in equation (2-2) is approximately the reciprocal of the amplitude for a component (for example, a peak component) with a large amplitude
- may have a value of approximately zero for components close to zero (eg, zero amplitude components).
- the formula for calculating the weighting coefficient AdpWg (for example, formula (2-2)) can be changed from the formula (1-2) to a small extent (for example, by adding only the weight control coefficient C), and the cross-spectral weighting
- the section 112 can weight the cross spectrum according to the maximum amplitude of the cross spectrum.
- the ITD analysis encoding unit 13a changes the weighting coefficient for the cross spectrum depending on the maximum amplitude of the cross spectrum.
- the ITD analysis encoding unit 13a can whiten the cross spectrum by weighting a component with a large amplitude with a value approximately equal to the reciprocal of the cross spectrum amplitude. Further, for example, the ITD analysis encoding unit 13a weights a component with a small amplitude with a value smaller than the reciprocal of the cross-spectral amplitude, so that the amplitude component can be further reduced (for example, suppressed or weakened). ). As a result, even when the stereo signal contains many frequency components with zero amplitude (for example, when the tonality is high), the ITD analysis encoding unit 13a can appropriately weight the cross spectrum, and estimate the ITD. Accuracy can be improved.
- the stereo signal contains many frequency components with zero amplitude, it is possible to improve the ITD estimation accuracy and improve the encoding performance.
- CrSpMax indicates the maximum amplitude of the cross spectrum detected by the maximum amplitude detection section 111.
- ⁇ and ⁇ are coefficients for adjusting the influence (eg, degree) of weighting strength.
- the coefficient ⁇ can take a positive value.
- the smaller the value of the coefficient ⁇ the smaller the weighting coefficient AdpWg becomes, making it easier to weaken frequency components with zero amplitude.
- the larger the value of the coefficient ⁇ the larger the weighting coefficient AdpWg.
- ⁇ >10 it is equivalent to weighting without using the weight control coefficient C (for example, equation (1-2)).
- C for example, equation (1-2)
- the coefficient ⁇ can take a positive value.
- the method of calculating C and the method of calculating D are not limited to the above-mentioned example.
- FIG. 6 is a block diagram showing a configuration example of the ITD analysis encoding unit 13b according to the present embodiment.
- the ITD analysis encoding unit 13b (corresponding to a signal processing device, for example) shown in FIG.
- the weighting unit 112 is replaced by a cross-spectral weighting unit 122 (for example, corresponding to a control circuit).
- a cross-spectral weighting unit 122 for example, corresponding to a control circuit.
- components different from the SFM calculation unit 121 and the cross-spectral weighting unit 122 may be the same as those in FIG. 2 or FIG. 4, for example.
- FIG. 7 is a flowchart showing an example of the operation of the ITD analysis encoding unit 13b shown in FIG. 6.
- the same processes as those in FIG. 5 are denoted by the same reference numerals, and the description thereof will be omitted.
- the SFM calculation unit 121 calculates the spectral flatness (SFM) based on the FFT spectrum of each channel input from the FFT unit 101 (for example, S31 in FIG. 7). For example, the stronger the tonality or periodicity of the input signal, the lower the SFM (for example, see Patent Document 1 regarding SFM).
- the SFM calculation unit 121 outputs information regarding the calculated SFM to the cross-spectral weighting unit 122.
- the cross-spectrum weighting section 122 applies, for example, the amplitude spectrum of the cross spectrum input from the amplitude calculation section 103, the maximum amplitude of the cross spectrum input from the maximum amplitude detection section 111, and the SFM input from the SFM calculation section 121. Based on this, weighting coefficients are set (or calculated). Then, the cross spectrum weighting unit 122 weights the cross spectrum input from the cross spectrum calculation unit 102 using a weighting coefficient (for example, S32 in FIG. 7). Cross spectrum weighting section 122 outputs the weighted cross spectrum to IFFT section 105.
- a weighting coefficient for example, S32 in FIG. 7
- the cross-correlation function AdpCSP 1,2 ( ⁇ ) obtained in the IFFT section 105 is expressed as the following equation (3-1).
- ⁇ 1,2 ( ⁇ ) indicates a cross spectrum.
- AdpWg indicates a weighting coefficient, and is expressed as in the following equation (3-2).
- the flatter the FFT spectrum of a stereo signal (or the lower the tonality), the closer the sfm is to 1.0, and the less flat the FFT spectrum of the stereo signal (or the higher the tonality), the sfm has a value close to 0. Therefore, for example, in equation (3-2), the flatter the FFT spectrum of the stereo signal (or the lower the tonality), the closer (1-sfm) is to 0, and the more the FFT spectrum of the stereo signal becomes The less flat (or the higher the tone), the closer (1-sfm) is to 1.0.
- the coefficient C may be the same weighting control coefficient as in the first embodiment.
- Equation (3-2) the higher the tonality (the smaller sfm), the greater the influence of the weight control coefficient C on the setting of the weighting coefficient AdpWg, and the weighting coefficient AdpWg is The value of AdpWg is controlled to approach the value shown in -2). Therefore, the higher the tonality, the smaller the weighting factor AdpWg for a component with a small amplitude (for example, a zero amplitude component), and the more the component in the cross spectrum is reduced (for example, weakened).
- the formula for calculating the weighting coefficient AdpWg (for example, formula (3-2)) can be changed from formula (1-2) to a small extent (for example, only the addition of weight control coefficient C and spectral flatness sfm) ), the cross-spectral weighting unit 122 can weight the cross-spectrum according to the maximum amplitude of the cross-spectrum and the flatness (or tonality) of the spectrum.
- the ITD analysis encoding unit 13b changes the weighting coefficient for the cross spectrum depending on the maximum amplitude of the cross spectrum and the spectral flatness of the stereo signal.
- the ITD analysis encoding unit 13b can whiten the cross spectrum by weighting the stereo signal with low tonality with a value approximately equal to the reciprocal of the cross spectrum amplitude. Further, for example, the ITD analysis encoding unit 13b weights the stereo signal with high tonality according to the magnitude of the amplitude (for example, the maximum amplitude of the cross spectrum), and weights the component with a small amplitude of the cross spectrum. can be further reduced (eg, suppressed or attenuated).
- the ITD analysis encoding unit 13b can appropriately weight the cross spectrum, and estimate the ITD. Accuracy can be improved. Further, the ITD analysis encoding unit 13b can stably perform ITD estimation according to tonality based on spectral flatness (SFM), and can improve ITD estimation accuracy.
- SFM spectral flatness
- the stereo signal contains many frequency components with zero amplitude, it is possible to improve the ITD estimation accuracy and improve the encoding performance.
- the cross-spectral weighting unit 122 may compare the spectral flatness degree sfm and the threshold Th, and change the weighting coefficient for each frame process.
- the cross-spectral weighting unit 122 sets a first weighting coefficient when the spectral flatness sfm is greater than or equal to the threshold Th, and sets a second weighting coefficient smaller than the first weighting coefficient when the spectral flatness sfm is less than the threshold Th. may be set.
- the threshold Th for example, when the tonality is high, components with small amplitudes can be reduced by weighting.
- the cross-spectral weighting unit 122 may set the following weighting coefficients.
- the cross-spectral weighting section 122 may set the following weighting coefficients.
- the cross-spectral weighting unit 122 may set the following weighting coefficients.
- the cross-spectral weighting section 122 may set the following weighting coefficients.
- the cross-spectral weighting unit 122 may set the following weighting coefficients.
- the cross-spectral weighting unit 122 may set the following weighting coefficients.
- the cross-spectral weighting section 122 may set the following weighting coefficients.
- FIG. 8 is a flowchart illustrating an example of the operation of the ITD analysis encoding unit 13b according to the second modification.
- FIG. 8 the same processes as those in FIG. 3, FIG. 5, or FIG. 7 are given the same reference numerals, and their explanations will be omitted.
- the cross-spectral weighting unit 122 weights the cross-spectrum using a weighting coefficient based on the reciprocal of the cross-spectral amplitude, for example, as shown in equation (1-2) (S42).
- the cross-spectral weighting unit 122 calculates the cross-spectral amplitude, the maximum amplitude of the cross-spectrum, and Cross-spectrum weighting is performed using weighting coefficients based on SFM (S44). Note that the weighting in the process of S44 is not limited to this, and may be weighted based on a weighting coefficient based on the amplitude of the cross spectrum and the maximum amplitude of the cross spectrum, for example, as in equation (2-2).
- the cross-spectral weighting unit 122 calculates, for example, the number of digits of the cross-spectrum amplitude and the digit of the maximum amplitude of the cross-spectrum in addition to the cross-spectrum amplitude, the maximum amplitude of the cross-spectrum, and SFM.
- the cross spectrum is weighted using a weighting coefficient based on the difference in amplitude (hereinafter also referred to as the digit difference in amplitude) (S45).
- the cross-spectral weighting unit 122 applies uniform weighting to all cross-spectrums in each frame.
- the cross-spectral weighting unit 122 may apply weighting individually to each spectral component (for example, spectral bin) within each frame, for example.
- ⁇ D, where D 10 ⁇ ), may be made different.
- the cross-spectral weighting unit 122 may set the value of ⁇ to be smaller (for example, set the weight control coefficient C to be larger) and set the weighting coefficient to be smaller as the digit difference in amplitude is larger.
- Th2 is not limited to 0.2, and may be any other value.
- the cross-spectral weighting unit 122 may set a weighting coefficient for each spectral bin ( ⁇ ) and weight the cross-spectrum based on the set weighting coefficient. .
- the cross-spectrum weighting unit 122 calculates the value of ⁇ . May be set to 5.
- the weight control coefficient C
- ⁇ 10 ⁇ 5 is set.
- the cross-spectral weighting unit 122 may set (or replace) the value of ⁇ to 4.
- the weight control coefficient C
- ⁇ 10 ⁇ 4 is set.
- the cross-spectral weighting unit 122 may be set (or replaced) to 3.
- the weight control coefficient C
- ⁇ 10 ⁇ 3 is set.
- FIG. 8 describes a case in which weighting is performed in the process of S45 using the cross spectrum amplitude, the maximum amplitude of the cross spectrum, the SFM, and the difference in the number of digits of amplitude
- the present invention is not limited to this.
- the cross-spectral weighting unit 122 may perform weighting using the cross-spectral amplitude, the maximum amplitude of the cross-spectrum, and the digit difference in amplitude (for example, without using SFM).
- the cross-spectrum weighting unit 122 may perform weighting using the cross-spectrum amplitude and the digit difference between the amplitudes (for example, without using the maximum amplitude of the cross-spectrum and the SFM).
- the weight control coefficient C (value of ⁇ ) may be set according to the digit difference in amplitude.
- ⁇ is not limited to the range of 3 to 5, and may be any other value.
- the weighting coefficient is set according to the digit difference in the amplitude of the cross spectrum, but the present invention is not limited to this.
- the weighting coefficient may be set according to a value representing the difference (or ratio) between the amplitude of each spectral bin of the cross spectrum and the maximum amplitude of the cross spectrum.
- the unit for setting the weighting coefficients is not limited to the unit of spectral bins, and for example, a group including at least one spectral bin. It may be in units of
- the cross-spectral weighting unit 122 adaptively controls the weighting coefficient of the spectral bin, for example, with respect to the maximum or minimum of the spectrum (hereinafter referred to as "spectrum peak").
- the peak position of the spectrum may be detected based on the position where the sign of the difference spectrum is reversed.
- the method for detecting the peak position of the spectrum is not limited to the method based on the positive/negative inversion position of the difference spectrum, and other methods may be used.
- the peak position of the spectrum may be limited to peaks larger than a certain threshold value based on the maximum amplitude of the spectrum.
- the cross-spectral weighting unit 122 does not need to use a peak with an amplitude equal to or less than a threshold value as the peak position of the spectrum.
- the cross-spectral weighting unit 122 may set (or change or switch) a weighting coefficient as described below for each frame process, using, for example, sfm and a threshold Th for sfm. Note that the meaning of the weighting coefficient is as in the first embodiment, the second embodiment, and the modified example described above.
- the cross-spectral weighting unit 122 may set the following weighting coefficients.
- the cross-spectral weighting section 122 may set the following weighting coefficients.
- the cross-spectral weighting unit 122 may set a first weighting coefficient for the detected peak position, and may set a second weighting coefficient smaller than the first weighting coefficient for a position different from the peak position.
- the amplitude of the cross spectrum is further reduced at positions other than the peak position compared to the peak position.
- the weighting coefficient (sfm ⁇ A)/
- the cross spectrum is whitened, and at a position different from the peak position, the amplitude relative to the peak of the cross spectrum is It becomes easier to reduce small components (for example, frequency components with zero amplitude), and the accuracy of ITD estimation can be improved.
- any one of the above-mentioned multiple examples may be applied to the cross-spectral weighting coefficient other than the peak position, or the above-mentioned weighting coefficient may be applied depending on the size of the spectral peak or the size of the amplitude spectrum. Multiple instances may be switched.
- the threshold Th for sfm is not limited to one, and multiple thresholds may be set.
- the cross-spectral weighting unit 122 may apply any of the weighting coefficients described above, for example, depending on the comparison between sfm and a plurality of threshold values.
- Th-sfm may be used instead of (1-sfm).
- Th indicates a threshold value for sfm.
- Th may be set to a value in the range of 0 ⁇ Th ⁇ 1.
- the weighting coefficient AdpWg is set to the reciprocal of the cross spectrum amplitude
- the weighting coefficient AdpWg is set to a value according to the weighting control coefficient C (for example, the maximum amplitude of the cross spectrum).
- the weighting coefficient AdpWg can be appropriately set without switching the calculation formula for the weighting coefficient AdpWg by comparing sfm and Th as described above.
- ⁇ and ⁇ may be set according to sfm.
- ⁇ and ⁇ may be used as coefficients that control how small the weighting (eg, weighting coefficient) for components with small amplitudes is set.
- the larger ⁇ is, the higher the influence of the weight control coefficient C on the setting of the weighting coefficient AdpWg is, and the easier it is to reduce the weighting of components with small amplitudes.
- the smaller ⁇ is, the higher the influence of the weighting control coefficient C on the setting of the weighting coefficient AdpWg is, and it is easier to reduce the weighting of components with small amplitudes.
- At least one of ⁇ and ⁇ is not limited to the above-mentioned value, and may be any other value. Further, at least one of ⁇ and ⁇ may be a fixed value or a variable value.
- the parameter used for setting the weight control coefficient C is not limited to the maximum amplitude of the cross spectrum.
- the weight control coefficient C may be set according to at least one of the maximum amplitude, the average value, and the minimum amplitude of the cross-spectral amplitude.
- the parameter used to set the weight control coefficient C may be a fixed value that does not depend on the amplitude of the cross spectrum.
- SFM is used as a parameter for determining whether or not there are many frequency components with zero amplitude included in a stereo signal (for example, whether or not it has tonality or periodicity) is described.
- the present invention is not limited to this, and other parameters may be used.
- Each functional block used in the description of the above embodiment is partially or entirely realized as an LSI that is an integrated circuit, and each process explained in the above embodiment is partially or completely realized as an LSI, which is an integrated circuit. It may be controlled by one LSI or a combination of LSIs.
- the LSI may be composed of individual chips, or may be composed of a single chip that includes some or all of the functional blocks.
- the LSI may include data input and output.
- LSIs are sometimes called ICs, system LSIs, super LSIs, and ultra LSIs depending on the degree of integration.
- the method of circuit integration is not limited to LSI, and may be realized using a dedicated circuit, a general-purpose processor, or a dedicated processor. Furthermore, an FPGA (Field Programmable Gate Array) that can be programmed after the LSI is manufactured or a reconfigurable processor that can reconfigure the connections and settings of circuit cells inside the LSI may be used.
- FPGA Field Programmable Gate Array
- reconfigurable processor that can reconfigure the connections and settings of circuit cells inside the LSI may be used.
- the present disclosure may be implemented as digital or analog processing.
- the present disclosure can be implemented in all types of devices, devices, and systems (collectively referred to as communication devices) that have communication capabilities.
- the communication device may include a wireless transceiver and processing/control circuitry.
- the wireless transceiver may include a receiving section and a transmitting section, or both as functions.
- the wireless transceiver (transmitter, receiver) may include an RF (Radio Frequency) module and one or more antennas.
- RF modules may include amplifiers, RF modulators/demodulators, or the like.
- Non-limiting examples of communication devices include telephones (mobile phones, smart phones, etc.), tablets, personal computers (PCs) (laptops, desktops, notebooks, etc.), cameras (digital still/video cameras, etc.) ), digital players (e.g.
- digital audio/video players wearable devices (e.g. wearable cameras, smartwatches, tracking devices), game consoles, digital book readers, telehealth/telemedicine (e.g. devices (care/medicine prescriptions), vehicles or mobile vehicles with communication capabilities (cars, airplanes, ships, etc.), and combinations of the various devices described above.
- wearable devices e.g. wearable cameras, smartwatches, tracking devices
- game consoles digital book readers
- telehealth/telemedicine e.g. devices (care/medicine prescriptions), vehicles or mobile vehicles with communication capabilities (cars, airplanes, ships, etc.), and combinations of the various devices described above.
- Communication equipment is not limited to portable or movable, but also non-portable or fixed equipment, devices, systems, such as smart home devices (home appliances, lighting equipment, smart meters or It also includes measuring instruments, control panels, etc.), vending machines, and any other "things” that can exist on an Internet of Things (IoT) network.
- IoT Internet of Things
- Communication includes data communication using cellular systems, wireless LAN (Local Area Network) systems, communication satellite systems, etc., as well as data communication using a combination of these.
- Communication devices also include devices such as controllers and sensors that are connected or coupled to communication devices that perform the communication functions described in this disclosure. Examples include controllers and sensors that generate control and data signals used by communication devices to perform communication functions of a communication device.
- Communication equipment also includes infrastructure equipment, such as base stations, access points, and any other equipment, devices, or systems that communicate with or control the various equipment described above, without limitation. .
- a signal processing device includes: a control circuit that varies a weighting coefficient based on the amplitude of a cross spectrum of the stereo signal according to a parameter related to the stereo signal; and a detection circuit that detects an inter-channel time difference of the stereo signal based on a cross spectrum.
- the parameter includes a maximum value of the amplitude of the cross spectrum, and the control circuit sets the weighting coefficient based on the maximum value.
- the parameter includes the spectral flatness of the stereo signal, and the control circuit sets the weighting coefficient to be smaller as the spectral flatness is lower.
- the parameter includes spectral flatness of the stereo signal
- the control circuit sets a first weighting coefficient when the spectral flatness is equal to or greater than a threshold, is less than the threshold, a second weighting coefficient smaller than the first weighting coefficient is set.
- control circuit adjusts the weighting coefficient for each component of the cross spectrum according to a value representing a difference between an amplitude value of the component and a maximum value of the amplitude of the cross spectrum.
- the value representing the difference is a difference in number of digits between the amplitude value of the component and the maximum value
- the control circuit controls The weighting coefficients for the components are set small.
- control circuit detects a peak position of the cross spectrum, sets a first weighting coefficient for the peak position, and sets a first weighting coefficient for a position different from the peak position. A second weighting factor smaller than the first weighting factor is set.
- the parameter includes spectral flatness of the stereo signal
- the control circuit sets the second weighting coefficient based on the spectral flatness
- the signal processing device changes a weighting coefficient based on the amplitude of a cross spectrum of the stereo signal according to a parameter related to the stereo signal, and performs weighting using the weighting coefficient.
- An inter-channel time difference of the stereo signal is detected based on the cross spectrum.
- An embodiment of the present disclosure is useful for encoding systems and the like.
- Encoding device 11 Input section 12 A/D conversion section 13, 13a, 13b ITD analysis encoding section 13 14, 24 Time difference adjustment section 15 Stereo encoding section 16 Multiplexing section 20 Decoding device 21 Separation section 22 ITD decoding section 23 Stereo decoding section 25 D/A conversion section 26 Output section 101 FFT section 102 Cross spectrum calculation section 103 Amplitude calculation section 104, 112, 122 Cross spectrum weighting section 105 IFFT section 106 ITD detection section 111 Maximum amplitude detection section 121 SFM calculation section
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
信号処理装置は、ステレオ信号に関するパラメータに応じて、ステレオ信号のクロススペクトルの振幅に基づく重み付け係数を異ならせる制御回路と、重み付け係数を用いて重み付けされたクロススペクトルに基づいて、ステレオ信号のチャネル間時間差を検出する検出回路と、を具備する。
Description
本開示は、信号処理装置、及び、信号処理方法に関する。
例えば、ステレオ音声音響信号(以下、ステレオ信号とも呼ぶ)に対する符号化技術がある(例えば、特許文献1を参照)。
Charles H. Knapp and G. Clifford Carter, "The Generalized Correlation Method for Estimation of Time Delay," IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. ASSP-24, no.4, pp.320-327, 1976
ステレオ信号の符号化において、チャネル間時間差(ITD:inter-channel time difference)の推定方法について検討の余地がある。
本開示の非限定的な実施例は、ステレオ信号の符号化におけるITD推定性能を向上できる信号処理装置、及び、信号処理方法の提供に資する。
本開示の一実施例に係る信号処理装置は、ステレオ信号に関するパラメータに応じて、前記ステレオ信号のクロススペクトルの振幅に基づく重み付け係数を異ならせる制御回路と、前記重み付け係数を用いて重み付けされた前記クロススペクトルに基づいて、前記ステレオ信号のチャネル間時間差を検出する検出回路と、を具備する。
なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本開示の一実施例によれば、ステレオ信号の符号化におけるITD推定性能を向上できる。
本開示の一実施例における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
以下、本開示の実施の形態について図面を参照して詳細に説明する。
ステレオ信号の符号化方法の一つに、Lチャネル(Left channel又はL-ch)及びRチャネル(Right channel又はR-ch)を含むステレオ信号に対するチャネル間時間差(ITD:inter-channel time difference)によってステレオ信号をパラメータ化する方法がある。
ステレオ信号のチャネル間時間差(ITD)は、LチャネルとRチャネルとの間の音が到達する時間差に関するパラメータである。例えば、ITDの推定(又は、検出)では、ステレオ信号に含まれるチャネル信号のペアの高速フーリエ変換(FFT:Fast Fourier Transform)スペクトルに基づいてクロススペクトルが計算される。そして、クロススペクトルを逆高速フーリエ変換(IFFT:Inverse Fast Fourier Transform)した時間領域のチャネル間相互相関(ICC:inter-channel cross correlation)のピーク位置に対するタイムラグに基づいてITDが推定される。
ITDの推定方法の一つとして、GCC-PHAT(generalized cross-correlation phase transform)法がある(例えば、非特許文献1を参照)。なお、GCC-PHAT法は、CSP(cross-power spectrum phase analysis)法と呼ばれることもある。
GCC-PHAT法では、例えば、ステレオ信号に含まれるチャネル信号のペアのFFTスペクトルから計算されるクロススペクトルに対して、当該クロススペクトルの振幅の逆数で重み付けが行われる。そして、GCC-PHAT法では、重み付けされたクロススペクトルをIFFTした時間領域のチャネル間相互相関(ICC)のピーク位置に対するタイムラグに基づいてITDが推定される。
GCC-PHAT法によるITD推定では、クロススペクトルに対する当該クロススペクトル振幅の逆数による重み付けによって、クロススペクトルを白色化し、クロススペクトルの位相成分(例えば、位相情報)を利用してITDを推定することを特徴とする。
ここで、例えば、ステレオ信号にゼロ振幅の周波数成分が多く含まれる場合が有り得る。ステレオ信号にゼロ振幅の周波数成分が多く含まれる場合として、例えば、ステレオ信号のトーン性(tonality)が高い場合が挙げられる。例えば、ステレオ信号にゼロ振幅の周波数成分が多く含まれる場合において、GCC-PHAT法によるITD推定では、ゼロ振幅の周波数成分に対する、振幅成分の逆数による重み付け(例えば、白色化)が適当でなくなる場合があり得る。この場合、ITDの推定性能が劣化する可能性がある(例えば、ITDがゼロになり得る)。
本開示の非限定的な一実施例では、ステレオ信号にゼロ振幅の周波数成分が多く含まれる場合でも、ITDの推定性能を向上させ、符号化性能を向上させる方法について説明する。
本開示の非限定的な一実施例では、入力信号(例えば、ステレオ信号)がゼロ振幅の周波数成分を多く含む場合(例えば、トーン性が高い場合)に対してロバストなITD推定方法について説明する。例えば、ITD推定を行う際に、ステレオ信号に関するパラメータ(例えば、クロススペクトルの最大振幅、スペクトル平坦度(SFM:spectral flatness measurement)等)に応じて、クロススペクトル振幅に基づく重み付けを適応的に変化させる(又は、異ならせる)。これにより、ステレオ信号にゼロ振幅の周波数成分が多く含まれる場合(例えば、トーン性が高い場合)でも、ITDの推定性能を向上できる。
(実施の形態1)
[音声音響信号の伝送システムの構成例]
図1は、音声信号又は音響信号(例えば、音声音響信号と呼ぶ)の伝送システムの構成例を示す図である。図1(a)は、音声音響信号符号化装置(以下、「符号化装置」と呼ぶ)の構成例を示し、図1(b)は、音声音響信号復号装置(以下、「復号装置」と呼ぶ)の構成例を示す。
[音声音響信号の伝送システムの構成例]
図1は、音声信号又は音響信号(例えば、音声音響信号と呼ぶ)の伝送システムの構成例を示す図である。図1(a)は、音声音響信号符号化装置(以下、「符号化装置」と呼ぶ)の構成例を示し、図1(b)は、音声音響信号復号装置(以下、「復号装置」と呼ぶ)の構成例を示す。
[符号化装置の構成例]
図1(a)に示す符号化装置10は、例えば、入力部11、A/D変換部12、ITD分析符号化部13、時間差調整部14、ステレオ符号化部15、及び、多重化部16を備えてよい。
図1(a)に示す符号化装置10は、例えば、入力部11、A/D変換部12、ITD分析符号化部13、時間差調整部14、ステレオ符号化部15、及び、多重化部16を備えてよい。
入力部11は、例えば、入力される音声音響信号(例えば、空気の振動)を電気信号(例えば、アナログ信号)に変換し、アナログ信号をA/D変換部12に出力する。
A/D変換部12は、例えば、入力部11から入力されるアナログ信号をデジタル信号に変換し、デジタル信号をITD分析符号化部13及び時間差調整部14に出力する。
なお、符号化装置10において、入力部11及びA/D変換部12の少なくとも一つは、ステレオ信号を扱うために複数(例えば2つ)備えてもよい。
ITD分析符号化部13は、例えば、A/D変換部12から入力されるステレオ信号のチャネル間時間差(ITD)を推定して符号化する。ITD分析符号化部13は、推定したITD(例えば、符号化結果を復号したITD)を時間差調整部14に出力し、ITDの符号化結果を多重化部16に出力する。例えば、ITD分析符号化部13は、ステレオ信号のチャネル信号のペアのFFTスペクトルから計算されるクロススペクトルをIFFTした時間領域のチャネル間相互相関のピーク位置に対するタイムラグを特定する処理を行ってよい。また、ITD分析符号化部13は、例えば、ITD推定の際に、クロススペクトルの振幅の逆数に基づく重み付けを行ってもよい。ITD分析符号化部13における処理の例については後述する。
時間差調整部14は、ITD分析符号化部13から入力されるITDを用いて、A/D変換部12から入力されるステレオ信号のLチャネルとRチャネルとの時間差を調整する処理(例えば、時間的なずれをなくして揃える処理)を行い、調整後のステレオ信号をステレオ符号化部15に出力する。
ステレオ符号化部15は、時間差調整部14から入力される時間調整後のステレオ信号の符号化を行い、符号化結果を多重化部16に出力する。
以下、ステレオ符号化部15の内部の構成例について説明する。
ステレオ符号化部15は、例えば、信号を時間領域から周波数領域の信号に変換する変換部(例えば、FFT部)と、ステレオ情報抽出部と、ダウンミックス部と、符号化部と、を備えてよい(図示せず)。
変換部は、例えば、ステレオ符号化部15に入力されるステレオ信号(例えば、Lチャネル信号及びRチャネル信号)をチャネル毎に時間領域から周波数領域のデータ(例えば,FFTスペクトル)に変換し、ステレオ情報抽出部及びダウンミックス部へ出力する。
ステレオ情報抽出部は、例えば、各チャネルのFFTスペクトルに基づいて、ステレオ情報を抽出してよい。一例として、ステレオ情報抽出部は、チャネル間レベル差(ILD:inter-channel level difference)、ICC、チャネル間位相差(IPD:inter-channel phase difference)といったバイノーラルキューによってステレオ信号をパラメータ化し、ダウンミックス部及び符号化部へ出力してよい。
ダウンミックス部は、例えば、変換部から出力される各チャネルのFFTスペクトルと、ステレオ情報抽出部から出力されるバイノーラルキューのパラメータとに基づいて、Lチャネル及びRチャネルの少なくとも一つのFFTスペクトルを修正(又は、操作)し、ダウンミックス処理を行い、Mid信号(例えば、M信号とも呼ぶ)及びSide信号(例えば、S信号とも呼ぶ)を生成してよい。例えば、ダウンミックス部は、M=(L'+R')/2、及び、S=(L'-R')/2となるダウンミックスを行い、M信号及びS信号を符号化部へ出力してよい。ここで、MはMid信号、SはSide信号、L'は修正したLチャネルのFFTスペクトル、R'は修正したRチャネルのFFTスペクトルを示す。
符号化部は、例えば、ダウンミックス部から出力されるM信号とS信号、及び、ステレオ情報抽出部から出力されるバイノーラルキューのパラメータをそれぞれ符号化し、符号化データを、ステレオ符号化部15の出力信号として出力する。
以上、ステレオ符号化部15の内部の構成例について説明した。
なお、ステレオ符号化部15は、上述した符号化方式に限定されず、例えば、Moving Picture Experts Group(MPEG)、3rd Generation Partnership Project(3GPP)又はInternational Telecommunication Union Telecommunication Standardization Sector(ITU-T)といった標準化された種々の音声音響コーデックを備えてもよい。
多重化部16は、ステレオ符号化部15から入力される符号化データ(例えば、ステレオ符号化情報と呼ぶ)と、ITD分析符号化部13から入力される符号化データ(例えば、ITD符号化情報と呼ぶ)とを多重化して、通信網又は記憶媒体(図示せず)を介して、多重化した符号化情報を復号装置20に送信する。
[復号装置の構成例]
図1(b)に示す復号装置20は、例えば、分離部21、ITD復号部22、ステレオ復号部23、時間差調整部24、D/A変換部25、及び、出力部26を備えてよい。
図1(b)に示す復号装置20は、例えば、分離部21、ITD復号部22、ステレオ復号部23、時間差調整部24、D/A変換部25、及び、出力部26を備えてよい。
分離部21は、例えば、通信網又は記憶媒体(図示せず)を介して符号化情報を受信し、多重化された符号化情報を分離し、ITD符号化情報をITD復号部22に出力し、ステレオ符号化情報をステレオ復号部23に出力する。
ITD復号部22は、分離部21から入力されるITD符号化情報からITDを復号して、復号されたITD(以下、復号ITDと呼ぶ)を時間差調整部24に出力する。
ステレオ復号部23は、分離部21から入力されるステレオ符号化情報からステレオ信号を復号して、復号されたステレオ信号(以下、復号ステレオ信号と呼ぶ)を時間差調整部24に出力する。
以下、ステレオ復号部23の内部の構成例について説明する。
ステレオ復号部23は、例えば、復号部、アップミックス部、ステレオ情報合成部、及び、信号を周波数領域から時間領域の信号に変換する変換部(例えば、IFFT部)を備えてよい(図示せず)。
復号部は、入力されるステレオ符号化情報を、符号化装置10側で使用された符号化方式に対応する復号方式を用いて復号し、例えば、M信号とS信号、及び、バイノーラルキューのパラメータをアップミックス部及びステレオ情報合成部へ出力する。復号部は、例えば、MPEG、3GPP、又はITU-Tといった標準化された種々の音声音響コーデックを備えてもよい。
アップミックス部は、例えば、復号部から入力されるM信号及びS信号に基づいて、アップミックス処理を行ってよい。例えば、アップミックス部は、L'=M+S、R'=M-Sとなるアップミックス処理を行い、FFTスペクトルのL'信号及びR'信号をステレオ情報合成部へ出力する。
ステレオ情報合成部は、例えば、復号部から入力されるバイノーラルキューのパラメータ、及び、アップミックス部から入力されるFFTスペクトルのL'信号及びR'信号を用いて、符号化装置10(例えば、ステレオ情報抽出部)と逆の操作を行い、FFTスペクトルのL信号及びR信号を変換部へ出力してよい。
変換部は、例えば、FFTスペクトルのL信号及びR信号を、時間領域のLチャネル及びRチャネルのデジタル信号にチャネル毎に変換して、デジタル信号をステレオ復号部23の出力信号(例えば、復号ステレオ信号)として出力する。
以上、ステレオ復号部23の構成例について説明した。
時間差調整部24は、ITD復号部22から入力される復号ITDを用いて、ステレオ復号部23から入力される復号ステレオ信号に対して、チャネル間時間差の調整(例えば、時間を揃えた信号を元の時間差を有した信号に戻す処理)を行い、時間調整後の復号ステレオ信号を、D/A変換部25に出力する。
D/A変換部25は、例えば、時間差調整部24から入力されるデジタル信号を音声音響信号(アナログ信号)に変換し、出力部26に出力する。
出力部26は、D/A変換部25から入力されるアナログ信号を、例えば、スピーカを介して空気振動に変換して出力する。
なお、復号装置20は、ステレオ信号を扱うために、D/A変換部25及び出力部26の少なくとも一つを複数(例えば2つ)備えてもよい。
[ITD分析符号化部の構成例]
次に、ITD分析符号化部13の構成例について説明する。図2は、ITD分析符号化部13の構成例を示すブロック図である。また、図3は、図2に示すITD分析符号化部13の動作例を示すフローチャートである。
次に、ITD分析符号化部13の構成例について説明する。図2は、ITD分析符号化部13の構成例を示すブロック図である。また、図3は、図2に示すITD分析符号化部13の動作例を示すフローチャートである。
ITD分析符号化部13は、例えば、クロススペクトルの振幅の逆数を用いてクロススペクトルの重み付けを行う。
図2に示すITD分析符号化部13(例えば、信号処理装置に対応)は、例えば、FFT部101、クロススペクトル算出部102、振幅計算部103、クロススペクトル重み付け部104(例えば、制御回路に対応)、IFFT部105、及び、ITD検出部106(例えば、検出回路に対応)を備えてよい。
FFT部101には、例えば、時間領域のステレオ信号(例えば、Lチャネル(例えば、lで表す)、及び、Rチャネル(例えば、rで表す))が1チャネルずつ独立して入力されてよい。FFT部101は、例えば、時間領域のチャネル信号を周波数領域信号(以下、「FFTスペクトル」と呼ぶ)に変換する(例えば、図3のS11)。FFT部101は、FFTスペクトルに関する情報をクロススペクトル算出部102へ出力する。なお、時間領域信号から周波数領域信号へ変換する方法は、FFTに限定されず、他の方法でもよい。
クロススペクトル算出部102は、FFT部101から入力される各チャネルのFFTスペクトルに基づいて、クロススペクトルを計算する(例えば、図3のS12)。クロススペクトル算出部102は、得られたクロススペクトルに関する情報を振幅計算部103及びクロススペクトル重み付け部104に出力する。
振幅計算部103は、例えば、クロススペクトル算出部102から入力されるクロススペクトルに関する情報に基づいて、クロススペクトルの振幅(又は、振幅スペクトルと呼ぶ)を計算し、クロススペクトルの振幅スペクトルに関する情報をクロススペクトル重み付け部104に出力する。
クロススペクトル重み付け部104は、例えば、振幅計算部103から入力されるクロススペクトルの振幅スペクトルの逆数を計算し、振幅スペクトルの逆数を重み付け係数に設定する。そして、クロススペクトル重み付け部104は、クロススペクトル算出部102から入力されるクロススペクトルに対して、重み付け係数(例えば、クロススペクトル振幅の逆数)で重み付けを行う(例えば、図3のS13)。クロススペクトル重み付け部104は、重み付けされたクロススペクトルをIFFT部105へ出力する。
IFFT部105は、例えば、クロススペクトル重み付け部104において重み付けされたクロススペクトルを周波数領域から時間領域の信号へ変換する(例えば、図3のS14)。IFFT部105は、重み付けされた相互相関関数(例えば、白色化された相互相関関数)としてITD検出部106へ出力する。なお、周波数領域信号から時間領域信号へ変換する方法は、IFFTに限定されず、他の方法でもよい。
ITD検出部106は、例えば、IFFT部105から出力される相互相関関数(例えば、白色化相互相関関数とも呼ぶ)に基づいて、ITDを検出(又は、推定)する(例えば、図3のS14)。
例えば、IFFT部105において得られる相互相関関数CSP1,2(τ)は、次式(1-1)のように表される。
式(1-1)において、Φ1,2(ω)はクロススペクトルを示す。また、Wgは重み付け係数を示し、次式(1-2)のように表される。
式(1-2)において、|Φ1,2(ω)|は、クロススペクトルの振幅(振幅スペクトル)を示す。
このように、図2に示すITD分析符号化部13は、ステレオ信号のクロススペクトル振幅|Φ1,2(ω)|に基づく重み付け係数Wgを用いて重み付けされたクロススペクトルに基づいてITDを検出する。
上述したように、ITD分析符号化部13では、例えば、ステレオ信号にゼロ振幅の周波数成分(例えば、FFTスペクトル成分)が多く含まれる場合、クロススペクトル振幅の逆数に基づく重み付け係数Wgによるクロススペクトルの白色化において、重み付けが適当でなくなり、ITDの推定性能が低下する可能性がある。以下では、一例として、ステレオ信号にゼロ振幅の周波数成分(例えば、FFTスペクトル成分)が多く含まれる場合でもITDの推定精度を向上する方法について説明する。
図4は、本実施の形態に係るITD分析符号化部13aの構成例を示すブロック図である。
図4に示すITD分析符号化部13a(例えば、信号処理装置に対応)は、例えば、図2に示すITD分析符号化部13の構成と比較して、最大振幅検出部111が追加され、クロススペクトル重み付け部104がクロススペクトル重み付け部112(例えば、制御回路に対応)に置き換わる。図4に示すITD分析符号化部13aにおいて、最大振幅検出部111及びクロススペクトル重み付け部112と異なる構成部は、例えば、図2と同様でよい。
また、図5は、図4に示すITD分析符号化部13aの動作例を示すフローチャートである。図5において、図3と同様の処理には同様の符号を付し、その説明を省略する。
図4において、最大振幅検出部111は、振幅計算部103から入力される現フレームのクロススペクトルの振幅スペクトルに基づいて、クロススペクトルの振幅の最大値(例えば、最大振幅と呼ぶ)を検出する(図5に示すS21)。最大振幅検出部111は、検出したクロススペクトルの最大振幅に関する情報をクロススペクトル重み付け部112へ出力する。
クロススペクトル重み付け部112は、例えば、振幅計算部103から入力されるクロススペクトルの振幅スペクトル、及び、最大振幅検出部111から入力されるクロススペクトルの最大振幅に基づいて、重み付け係数を設定(又は、算出)する。そして、クロススペクトル重み付け部112は、クロススペクトル算出部102から入力されるクロススペクトルに対して、重み付け係数で重み付けを行う(例えば、図5のS22)。クロススペクトル重み付け部112は、重み付けされたクロススペクトルをIFFT部105へ出力する。
なお、最大振幅検出部111は、クロススペクトルの最大振幅に関する情報の代わりに、クロススペクトルの最大振幅の位置に関する情報(例えば、どのスペクトル成分が最大振幅であるかを示す情報)をクロススペクトル重み付け部112へ出力してもよい。この場合、クロススペクトル重み付け部112は、振幅計算部103から入力されるクロススペクトルの振幅スペクトルのうち、最大振幅検出部111から入力される最大振幅の位置に対応する振幅スペクトルをクロススペクトルの最大振幅に決定してよい。
例えば、IFFT部105において得られる相互相関関数AdpCSP1,2(τ)は、次式(2-1)のように表される。
式(2-1)において、Φ1,2(ω)はクロススペクトルを示す。また、AdpWgは重み付け係数を示し、次式(2-2)のように表される。
式(2-2)において、|Φ1,2(ω)|は、クロススペクトルの振幅(振幅スペクトル)を示し、Cは、クロススペクトルの最大振幅に応じて重み付け係数AdpWgを変化させるための重み制御係数を示す。このように、ITD分析符号化部13aは、クロススペクトルの最大振幅に応じて、クロススペクトルの振幅|Φ1,2(ω)|に基づく重み付け係数AdpWgを異ならせる。
例えば、式(2-2)において、Cの値は、クロススペクトルの最大振幅の1万分の1~10万分の1程度の定数に設定されてもよい。この場合、式(2-2)に示す重み制御係数Cは、振幅|Φ1,2(ω)|の大きい成分(例えば、ピーク成分)に対して十分に小さく、重み付け係数AdpWgの設定に対して影響を及ぼしにくい(例えば、誤差程度の値となる)。その一方で、式(2-2)に示す重み制御係数Cは、振幅|Φ1,2(ω)|の小さい成分(例えば、ゼロ振幅成分)に対して大きく、重み付け係数AdpWgの設定に対して影響を及ぼしやすくなる。このため、例えば、式(2-2)に示す重み付け係数AdpWgは、振幅|Φ1,2(ω)|の大きい成分(例えば、ピーク成分)に対して、ほぼ振幅の逆数の値となり、振幅がゼロに近い成分(例えば、ゼロ振幅成分)に対して、ほぼゼロの値となり得る。
これにより、例えば、重み付け係数AdpWgの計算式(例えば、式(2-2))は、式(1-2)からの変更を少なく抑え(例えば、重み制御係数Cの追加のみ)、クロススペクトル重み付け部112は、クロススペクトルの最大振幅に応じたクロススペクトルの重み付けが可能となる。
このように、本実施の形態では、ITD分析符号化部13aは、クロススペクトルの最大振幅に応じて、クロススペクトルに対する重み付け係数を異ならせる。
例えば、ITD分析符号化部13aは、振幅の大きい成分に対して、クロススペクトル振幅の逆数と同程度の値で重み付けを行い、クロススペクトルを白色化できる。また、例えば、ITD分析符号化部13aは、振幅の小さい成分に対して、クロススペクトル振幅の逆数よりも小さい値で重み付けを行い、振幅成分をより低減できる(例えば、抑圧できる、又は、弱められる)。これにより、ステレオ信号にゼロ振幅の周波数成分が多く含まれる場合(例えば、トーン性が高い場合)でも、ITD分析符号化部13aは、クロススペクトルの重み付けを適切に行うことができ、ITDの推定精度を向上できる。
よって、本実施の形態によれば、ステレオ信号にゼロ振幅の周波数成分が多く含まれる場合でも、ITDの推定精度を向上させ、符号化性能を向上できる。
なお、重み制御係数Cは、例えば、C=|CrSpMax|・Dで表されてもよい。ここで、CrSpMaxは、最大振幅検出部111において検出されるクロススペクトルの最大振幅を示す。また、Dは、Cの調整を行う係数であり、例えば、D=10-α又はD=2-βといった値を取り得る。例えば、α及びβは、重み付けの強さの影響(例えば、度合い)を調整するための係数である。
例えば、係数αは、正の値を取りうる。係数αの値が小さいほど、重み付け係数AdpWgは小さくなり、ゼロ振幅の周波数成分を弱めやすくなる。その一方で、係数αの値が大きいほど、重み付け係数AdpWgは大きくなる。例えば、α>10では、重み制御係数Cを用いない重み付けづけ(例えば、式(1-2))と同等となる。また、例えば、3≦α≦6の範囲の値が望ましいことが実験的に分かっている。
また、例えば、係数βは、正の値を取りうる。係数βの値が小さいほど、重み付け係数AdpWgは小さくなり、ゼロ振幅の周波数成分を弱めやすくなる。その一方で、係数βの値が大きいほど、重み付け係数AdpWgは大きくなる。例えば、10≦β≦20の範囲の値が望ましいことが実験的に分かっている。
なお、Cの算出方法、及び、Dの算出方法(例えば、α、βの設定値)は上述した例に限定されない。
(実施の形態2)
本実施の形態では、スペクトル平坦度(SFM)を用いてITD推定を行う場合について説明する。
本実施の形態では、スペクトル平坦度(SFM)を用いてITD推定を行う場合について説明する。
図6は、本実施の形態に係るITD分析符号化部13bの構成例を示すブロック図である。
図6に示すITD分析符号化部13b(例えば、信号処理装置に対応)は、例えば、図4に示すITD分析符号化部13aの構成と比較して、SFM算出部121が追加され、クロススペクトル重み付け部112がクロススペクトル重み付け部122(例えば、制御回路に対応)に置き換わる。図6に示すITD分析符号化部13bにおいて、SFM算出部121及びクロススペクトル重み付け部122と異なる構成部は、例えば、図2又は図4と同様でよい。
また、図7は、図6に示すITD分析符号化部13bの動作例を示すフローチャートである。図7において、図5と同様の処理には同様の符号を付し、その説明を省略する。
図6において、SFM算出部121は、例えば、FFT部101から入力される各チャネルのFFTスペクトルに基づいて、スペクトル平坦度(SFM)を算出する(例えば、図7のS31)。例えば、入力信号のトーン性(又は、調性、tonality)又は周期性が強いほど、SFMは低くなる(例えば、SFMについては特許文献1を参照)。SFM算出部121は、算出したSFMに関する情報をクロススペクトル重み付け部122に出力する。
クロススペクトル重み付け部122は、例えば、振幅計算部103から入力されるクロススペクトルの振幅スペクトル、最大振幅検出部111から入力されるクロススペクトルの最大振幅、及び、SFM算出部121から入力されるSFMに基づいて、重み付け係数を設定(又は、算出)する。そして、クロススペクトル重み付け部122は、クロススペクトル算出部102から入力されるクロススペクトルに対して、重み付け係数で重み付けを行う(例えば、図7のS32)。クロススペクトル重み付け部122は、重み付けされたクロススペクトルをIFFT部105へ出力する。
例えば、IFFT部105において得られる相互相関関数AdpCSP1,2(τ)は、次式(3-1)のように表される。
式(3-1)において、Φ1,2(ω)はクロススペクトルを示す。また、AdpWgは重み付け係数を示し、次式(3-2)のように表される。
式(3-2)において、|Φ1,2(ω)|は、クロススペクトルの振幅(振幅スペクトル)を示し、Cは、クロススペクトルの最大振幅に応じて重み付け係数AdpWgを変化させるための重み制御係数を示し、sfmはスペクトル平坦度を示すパラメータである。
例えば、ステレオ信号のFFTスペクトルが平坦であるほど(又は、トーン性が低いほど)、sfmは1.0に近い値となり、ステレオ信号のFFTスペクトルが平坦でないほど(又は、トーン性が高いほど)、sfmは0に近い値となる。よって、例えば、式(3-2)では、ステレオ信号のFFTスペクトルが平坦であるほど(又は、トーン性が低いほど)、(1-sfm)は0に近い値となり、ステレオ信号のFFTスペクトルが平坦でないほど(又は、トーン性が高いほど)、(1-sfm)は1.0に近い値となる。
また、式(3-2)において、係数Cは、実施の形態1と同様の重み制御係数でよい。
式(3-2)では、重み制御係数Cに(1-sfm)が乗じられる。これにより、スペクトル平坦度sfmが低いほど(例えば、トーン性が高いほど)、重み付け係数AdpWgはより小さく設定される。
例えば、式(3-2)において、トーン性が低いほど(sfmが大きいほど)、重み付け係数AdpWgの設定に対する重み制御係数Cの影響が小さくなり、重み付け係数AdpWgは、式(1-2)に示すWgの値に近づくように制御される。よって、トーン性が低いほど、振幅が小さい成分に対する重み付け係数Adpwgは大きくなり、クロススペクトルが白色化されやすくなる。
その一方で、例えば、式(3-2)において、トーン性が高いほど(sfmが小さいほど)、重み付け係数AdpWgの設定に対する重み制御係数Cの影響が大きくなり、重み付け係数AdpWgは、式(2-2)に示すAdpWgの値に近づくように制御される。よって、トーン性が高いほど、振幅が小さい成分(例えば、ゼロ振幅成分)に対する重み付け係数AdpWgは小さくなり、クロススペクトルの当該成分は低減される(例えば、弱められる)。
これにより、例えば、重み付け係数AdpWgの計算式(例えば、式(3-2))は、式(1-2)からの変更を少なく抑え(例えば、重み制御係数C及びスペクトル平坦度sfmの追加のみ)、クロススペクトル重み付け部122は、クロススペクトルの最大振幅及びスペクトルの平坦度(又は、トーン性)に応じたクロススペクトルの重み付けが可能となる。
このように、本実施の形態では、ITD分析符号化部13bは、クロススペクトルの最大振幅、及び、ステレオ信号のスペクトル平坦度に応じて、クロススペクトルに対する重み付け係数を異ならせる。
例えば、ITD分析符号化部13bは、トーン性が低いステレオ信号に対して、クロススペクトル振幅の逆数と同程度の値で重み付けを行い、クロススペクトルを白色化できる。また、例えば、ITD分析符号化部13bは、トーン性が高いステレオ信号に対して、振幅の大きさ(例えば、クロススペクトルの最大振幅)に応じた重み付けを行い、クロススペクトルの振幅が小さい成分をより低減できる(例えば、抑圧できる、又は、弱められる)。
これにより、ステレオ信号にゼロ振幅の周波数成分が多く含まれる場合(例えば、トーン性が高い場合)でも、ITD分析符号化部13bは、クロススペクトルの重み付けを適切に行うことができ、ITDの推定精度を向上できる。また、ITD分析符号化部13bは、スペクトル平坦度(SFM)に基づいて、トーン性に応じてITD推定を安定して行うことができ、ITDの推定精度を向上できる。
よって、本実施の形態によれば、ステレオ信号にゼロ振幅の周波数成分が多く含まれる場合でも、ITDの推定精度を向上させ、符号化性能を向上できる。
(実施の形態2の変形例1)
例えば、クロススペクトル重み付け部122は、スペクトル平坦度sfmと閾値Thとを比較して、フレーム処理毎に重み付け係数を異ならせてもよい。
例えば、クロススペクトル重み付け部122は、スペクトル平坦度sfmと閾値Thとを比較して、フレーム処理毎に重み付け係数を異ならせてもよい。
例えば、クロススペクトル重み付け部122は、スペクトル平坦度sfmが閾値Th以上の場合に第1重み付け係数を設定し、スペクトル平坦度sfmが閾値Th未満の場合に、第1重み付け係数より小さい第2重み付け係数を設定してよい。これにより、例えば、スペクトル平坦度sfmが閾値Th未満の場合(例えば、トーン性が高い場合)、重み付けにより、振幅の小さい成分を低減できる。
以下、重み付け係数の設定例について説明する。なお、以下の重み付け係数の意味は、上述した実施の形態1及び実施の形態2で説明した通りである。
<例1>
例えば、クロススペクトル重み付け部122は、sfm≧Thの場合、以下の重み付け係数に設定してよい。
例えば、クロススペクトル重み付け部122は、sfm≧Thの場合、以下の重み付け係数に設定してよい。
また、例えば、クロススペクトル重み付け部122は、sfm<Thの場合、以下の重み付け係数に設定してよい。
<例2>
例えば、クロススペクトル重み付け部122は、sfm≧Thの場合、以下の重み付け係数に設定してよい。
例えば、クロススペクトル重み付け部122は、sfm≧Thの場合、以下の重み付け係数に設定してよい。
また、例えば、クロススペクトル重み付け部122は、sfm<Thの場合、以下の重み付け係数に設定してよい。
(実施の形態2の変形例2)
図8は、変形例2に係るITD分析符号化部13bの動作例を示すフローチャートである。図8において、図3、図5又は図7と同様の処理には同様の符号を付し、その説明を省略する。
図8は、変形例2に係るITD分析符号化部13bの動作例を示すフローチャートである。図8において、図3、図5又は図7と同様の処理には同様の符号を付し、その説明を省略する。
クロススペクトル重み付け部122は、sfm≧Th1の場合(S41:Yes)、例えば、式(1-2)のように、クロススペクトル振幅の逆数に基づく重み付け係数でクロススペクトルの重み付けを行う(S42)。
また、クロススペクトル重み付け部122は、Th2≦sfm<Th1の場合(S41:NoかつS43:No)、例えば、式(3-2)のように、クロススペクトル振幅、クロススペクトルの最大振幅、及び、SFMに基づく重み付け係数でクロススペクトルの重み付けを行う(S44)。なお、S44の処理における重み付けは、これに限定されず、例えば、式(2-2)のように、クロススペクトルの振幅、及び、クロススペクトルの最大振幅に基づく重み付け係数に基づく重み付けでもよい。
また、クロススペクトル重み付け部122は、sfm<Th2の場合(S43:Yes)、例えば、クロススペクトル振幅、クロススペクトルの最大振幅及びSFMに加え、クロススペクトル振幅の桁数とクロススペクトルの最大振幅の桁数との差(以下、振幅の桁数差とも呼ぶ)に基づく重み付け係数でクロススペクトルの重み付けを行う(S45)。
また、例えば、S42の処理及びS44の処理では、クロススペクトル重み付け部122は、各フレーム内のクロススペクトル全てに対する一律の重み付けを適用する。その一方で、S45の処理では、クロススペクトル重み付け部122は、例えば、各フレーム内のスペクトル成分(例えば、スペクトルビン)毎に重み付けを個別に適用してもよい。
例えば、クロススペクトル重み付け部122は、振幅の桁数差(例えば、クロススペクトル最大振幅の桁数-クロススペクトル振幅の桁数)に応じて、クロススペクトルの最大振幅に応じた重み制御係数C(=|CrSpMax|・D、ただし、D=10-α)のパラメータであるαの値を異ならせてもよい。クロススペクトル重み付け部122は、例えば、振幅の桁数差が大きいほど、αの値を小さく設定し(例えば、重み制御係数Cを大きく設定し)、重み付け係数を小さく設定してもよい。
例えば、重み制御係数Cにおいて、αの値のデフォルト値をα=5に設定し、図8に示すsfmの閾値Th2をTh2=0.2に設定する場合について説明する。なお、Th2の値は0.2に限定されず、他の値でもよい。
例えば、sfm<Th2(例えば、sfm<0.2)の場合、クロススペクトル重み付け部122は、スペクトルビン(ω)毎に重み付け係数を設定し、設定した重み付け係数に基づいてクロススペクトルの重み付けを行ってよい。
例えば、ω=ω1において、振幅の桁数差が3以下の場合(例えば、クロススペクトル最大振幅の桁数-クロススペクトル振幅の桁数≦3)、クロススペクトル重み付け部122は、αの値を5に設定してよい。例えば、重み制御係数C=|CrSpMax|・10-5に設定される。
また、例えば、ω=ω2において、振幅の桁数差が3より大きく、かつ、5以下の場合(例えば、3<(クロススペクトル最大振幅の桁数-クロススペクトル振幅の桁数)≦5)、クロススペクトル重み付け部122は、αの値を4に設定(又は、置換)してよい。例えば、重み制御係数C=|CrSpMax|・10-4に設定される。これにより、デフォルト値(α=5)と比較して、重み付け係数はより小さく設定され、クロススペクトルの振幅は低減されやすくなる。
また、例えば、ω=ω3において、振幅の桁数が5より大きい場合(例えば、クロススペクトル最大振幅の桁数-クロススペクトル振幅の桁数>5)、クロススペクトル重み付け部122は、αの値を3に設定(又は、置換)してよい。例えば、重み制御係数C=|CrSpMax|・10-3に設定される。これにより、デフォルト値(α=5)及びα=4の場合と比較して、重み付け係数は更に小さく設定され、クロススペクトルの振幅はより低減されやすくなる。
このように、クロススペクトルの振幅の桁数差が大きいほど、重み付け係数をより小さく設定することにより、クロススペクトルの各成分において、ピーク(最大振幅)に対する振幅が小さい成分(例えば、ゼロ振幅の周波数成分)を重み付けにより弱めることができ、ITDの推定性能を向上できる。
なお、図8では、S45の処理において、クロススペクトル振幅、クロススペクトルの最大振幅、SFM、及び、振幅の桁数差を用いて重み付けが行われる場合について説明したが、これに限定されない。例えば、クロススペクトル重み付け部122は、クロススペクトル振幅、クロススペクトルの最大振幅、及び、振幅の桁数差を用いて(例えば、SFMを用いずに)、重み付けを行ってもよい。
または、例えば、クロススペクトル重み付け部122は、クロススペクトル振幅、及び、振幅の桁数差を用いて(例えば、クロススペクトルの最大振幅及びSFMを用いずに)、重み付けを行ってもよい。この場合、例えば、重み付け係数における重み制御係数Cとして、C=10αを適用し、振幅の桁数差に応じて、重み制御係数C(αの値)が設定されてもよい。
また、図8では、2つの閾値Th1及びTh2を用いる場合について説明したが、閾値が1つの場合、又は、閾値が3つ以上の場合についても適用可能である。
また、αの値は、3~5の範囲に限定されず、他の値でもよい。
また、変形例2では、クロススペクトルの振幅の桁数差に応じて重み付け係数を設定する例について説明したが、これに限定されない。例えば、重み付け係数は、クロススペクトルの各スペクトルビンの振幅と、クロススペクトルの最大振幅との差分(又は、比率)を表す値に応じて設定されてもよい。
また、変形例2では、一例として、スペクトルビン毎の重み付け係数の設定について説明したが、重み付け係数を設定する単位は、スペクトルビンの単位に限定されず、例えば、スペクトルビンを少なくとも一つ含むグループの単位でもよい。
(実施の形態2の変形例3)
変形例3では、クロススペクトル重み付け部122は、例えば、スペクトルの極大又は極小(以下、「スペクトルのピーク」と呼ぶ)に対して、スペクトルビンの重み付け係数を適応的に制御する。
変形例3では、クロススペクトル重み付け部122は、例えば、スペクトルの極大又は極小(以下、「スペクトルのピーク」と呼ぶ)に対して、スペクトルビンの重み付け係数を適応的に制御する。
例えば、スペクトルのピーク位置は、差分スペクトルの正負が反転する位置に基づいて検出されてもよい。なお、スペクトルのピーク位置の検出方法は、差分スペクトルの正負反転位置に基づく方法に限定されず、他の方法でもよい。
また、スペクトルのピーク位置は、スペクトルの最大振幅を基準とした或る閾値より大きいピークに限定してもよい。例えば、クロススペクトル重み付け部122は、閾値以下の振幅のピークをスペクトルのピーク位置として用いなくてもよい。
クロススペクトル重み付け部122は、例えば、sfm、及び、sfmに対する閾値Thを用いて、フレーム処理毎に、下記のように重み付け係数を設定(又は、変更、切り替え)してもよい。なお、重み付け係数の意味は、上述した実施の形態1、実施の形態2、及び、変形例の通りである。
また、例えば、クロススペクトル重み付け部122は、sfm<Thの場合、以下の重み付け係数に設定してよい。例えば、クロススペクトル重み付け部122は、検出したピーク位置に対して第1重み付け係数を設定し、ピーク位置と異なる位置に対して、第1重み付け係数より小さい第2重み付け係数を設定してよい。
このように、sfmがTh未満の場合(例えば、トーン性が高い場合)、ピーク位置では、クロススペクトルは、当該クロススペクトルの振幅の逆数によって白色化される。
また、sfmがTh未満の場合(例えば、トーン性が高い場合)、ピーク位置以外の位置では、クロススペクトルの振幅は、ピーク位置と比較してより低減される。例えば、重み付け係数=(sfm×A)/|Φ1,2(ω)|の場合、sfmが低いほど、重み付け係数が小さく設定され、クロススペクトルの振幅が低減される。また、例えば、重み付け係数=0の場合、sfmの値に依らず、クロススペクトルの振幅が0に設定される。
このように、クロススペクトルのピーク位置に基づいて重み付け係数を適応的に制御することにより、クロススペクトルのピーク位置では、クロススペクトルを白色化し、ピーク位置と異なる位置では、クロススペクトルのピークに対する振幅が小さい成分(例えば、ゼロ振幅の周波数成分)を低減しやすくなり、ITDの推定精度を向上できる。
なお、ピーク位置以外のクロススペクトルの重み付け係数には、上述した複数の例のうち何れか一つが適用されてもよく、または、スペクトルピークの大きさ又は振幅スペクトルの大きさに応じて、上述した複数の例が切り替えられてもよい。
また、sfmに対する閾値Thは、1つに限定されず、複数の閾値が設定されてもよい。クロススペクトル重み付け部122は、例えば、sfmと複数の閾値との比較に応じて、上述した重み付け係数の何れかを適用してもよい。
以上、実施の形態2の変形例について説明した。
なお、式(3-2)において、(1-sfm)の代わりに、(Th-sfm)を用いてもよい。ここで、Thは、sfmに対する閾値を示す。例えば、Thは、0<Th≦1の範囲の値に設定されてよい。一例として、Th=0.2に設定されてよい。
また、例えば、(Th-sfm)の項をσ=γ-ε×sfmで表してもよい。例えば、γ=1、ε=1の場合、σ=1-sfmで表され、式(3-2)と同様となる。また、例えば、γ=Th、ε=1の場合、σ=Th-sfmで表される。
また、例えば、(γ-ε×sfm)が0以下の場合(例えば、ε×sfm≧γの場合)には、σ=0に設定されてよい。一例として、γ=Th=0.2、ε=1の場合、(Th-sfm)が0以下の場合、すなわち、sfm≧0.2の場合、σ=0に設定される。これにより、sfm≧0.2の場合には、重み付け係数AdpWgは、式(1-2)のように、クロススペクトルの振幅|Φ1,2(ω)|の逆数に設定される。その一方で、sfm<0.2の場合には、重み付け係数AdpWgは、重み制御係数C(例えば、クロススペクトルの最大振幅)に応じた値に設定される。
このように、σ=γ-ε×sfmを用いることにより、上述したようなsfmとThとの比較による重み付け係数AdpWgの計算式の切り替えを行うことなく、重み付け係数AdpWgを適切に設定できる。
例えば、γ及びεは、sfmに応じて設定されてよい。例えば、γ及びεは、振幅の小さい成分に対する重み付け(例えば、重み付け係数)をどの程度小さく設定するかを制御する係数として使用されてよい。例えば、γが大きいほど、重み付け係数AdpWgの設定に対する重み制御係数Cの影響度は高く、振幅の小さい成分に対する重み付けを小さくしやすい。また、例えば、εが小さいほど、重み付け係数AdpWgの設定に対する重み制御係数Cの影響度は高く、振幅の小さい成分に対する重み付けを小さくしやすい。
なお、γ及びεの少なくとも一つは、上述した値に限定されず、他の値でもよい。また、γ及びεの少なくとも一つは、固定の値でもよく、可変の値でもよい。
以上、本開示の実施の形態について説明した。
なお、上記実施の形態では、クロススペクトルの最大振幅に応じた重み制御係数Cの設定について説明したが、重み制御係数Cの設定に用いるパラメータは、クロススペクトルの最大振幅に限定されない。例えば、重み制御係数Cは、クロススペクトル振幅の最大振幅、平均値、及び、最小振幅のうち少なくとも一つに応じて設定されてもよい。または、重み制御係数Cの設定に用いるパラメータは、クロススペクトルの振幅に依らない固定値でもよい。
また、上記実施の形態では、ステレオ信号に含まれるゼロ振幅の周波数成分が多いか否か(例えば、トーン性又は周期性を有するか否か)を判断するためのパラメータとして、SFMを用いる場合について説明したが、これに限定されず、他のパラメータでもよい。
以上、図面を参照しながら各種の実施形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。また、上述した各実施の形態における各構成要素を任意に組み合わせてもよい。
また、上述した実施の形態における「・・・部」という表記は、「・・・回路(circuitry)」、「・・・デバイス」、「・・・ユニット」、又は、「・・・モジュール」といった他の表記に置換されてもよい。
本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるLSIとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのLSI又はLSIの組み合わせによって制御されてもよい。LSIは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。LSIはデータの入力と出力を備えてもよい。LSIは、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
集積回路化の手法はLSIに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
本開示は、通信機能を持つあらゆる種類の装置、デバイス、システム(通信装置と総称)において実施可能である。通信装置は無線送受信機(トランシーバー)と処理/制御回路を含んでもよい。無線送受信機は受信部と送信部、またはそれらを機能として、含んでもよい。無線送受信機(送信部、受信部)は、RF(Radio Frequency)モジュールと1または複数のアンテナを含んでもよい。RFモジュールは、増幅器、RF変調器/復調器、またはそれらに類するものを含んでもよい。通信装置の、非限定的な例としては、電話機(携帯電話、スマートフォン等)、タブレット、パーソナル・コンピューター(PC)(ラップトップ、デスクトップ、ノートブック等)、カメラ(デジタル・スチル/ビデオ・カメラ等)、デジタル・プレーヤー(デジタル・オーディオ/ビデオ・プレーヤー等)、着用可能なデバイス(ウェアラブル・カメラ、スマートウオッチ、トラッキングデバイス等)、ゲーム・コンソール、デジタル・ブック・リーダー、テレヘルス・テレメディシン(遠隔ヘルスケア・メディシン処方)デバイス、通信機能付きの乗り物又は移動輸送機関(自動車、飛行機、船等)、及び上述の各種装置の組み合わせがあげられる。
通信装置は、持ち運び可能又は移動可能なものに限定されず、持ち運びできない又は固定されている、あらゆる種類の装置、デバイス、システム、例えば、スマート・ホーム・デバイス(家電機器、照明機器、スマートメーター又は計測機器、コントロール・パネル等)、自動販売機、その他IoT(Internet of Things)ネットワーク上に存在し得るあらゆる「モノ(Things)」をも含む。
通信には、セルラーシステム、無線LAN(Local Area Network)システム、通信衛星システム等によるデータ通信に加え、これらの組み合わせによるデータ通信も含まれる。
また、通信装置には、本開示に記載される通信機能を実行する通信デバイスに接続又は連結される、コントローラやセンサー等のデバイスも含まれる。例えば、通信装置の通信機能を実行する通信デバイスが使用する制御信号やデータ信号を生成するような、コントローラやセンサーが含まれる。
また、通信装置には、上記の非限定的な各種装置と通信を行う、あるいはこれら各種装置を制御する、インフラストラクチャ設備、例えば、基地局、アクセスポイント、その他あらゆる装置、デバイス、システムが含まれる。
本開示の一実施例に係る信号処理装置は、ステレオ信号に関するパラメータ に応じて、前記ステレオ信号のクロススペクトルの振幅 に基づく重み付け係数を異ならせる制御回路と、前記重み付け係数を用いて重み付けされた前記クロススペクトルに基づいて、前記ステレオ信号のチャネル間時間差を検出する検出回路と、を具備する。
本開示の一実施例において、前記パラメータは、前記クロススペクトルの振幅の最大値を含み、前記制御回路は、前記最大値に基づいて、前記重み付け係数を設定する。
本開示の一実施例において、前記パラメータは、前記ステレオ信号のスペクトル平坦度を含み、前記制御回路は、前記スペクトル平坦度が低いほど、前記重み付け係数を小さく設定する。
本開示の一実施例において、前記パラメータは、前記ステレオ信号のスペクトル平坦度を含み、前記制御回路は、前記スペクトル平坦度が閾値以上の場合に第1の重み付け係数を設定し、前記スペクトル平坦度が前記閾値未満の場合に、前記第1の重み付け係数より小さい第2の重み付け係数を設定する。
本開示の一実施例において、前記制御回路は、前記クロススペクトルの成分毎に、当該成分の振幅値と、前記クロススペクトルの振幅の最大値との差分を表す値に応じて、前記重み付け係数を設定する。
本開示の一実施例において、前記差分を表す値は、前記成分の振幅値と前記最大値との間の桁数の差であり、前記制御回路は、前記桁数の差が大きいほど、前記成分に対する前記重み付け係数を小さく設定する。
本開示の一実施例において、前記制御回路は、前記クロススペクトルのピーク位置を検出し、前記ピーク位置に対して第1の重み付け係数を設定し、前記ピーク位置と異なる位置に対して、前記第1の重み付け係数より小さい第2の重み付け係数を設定する。
本開示の一実施例において、前記パラメータは、前記ステレオ信号のスペクトル平坦度を含み、前記制御回路は、前記スペクトル平坦度に基づいて、前記第2の重み付け係数を設定する。
本開示の一実施例に係る信号処理方法において、信号処理装置は、ステレオ信号に関するパラメータに応じて、前記ステレオ信号のクロススペクトルの振幅に基づく重み付け係数を異ならせ、前記重み付け係数を用いて重み付けされた前記クロススペクトルに基づいて、前記ステレオ信号のチャネル間時間差を検出する。
2022年9月8日出願の特願2022-142899の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本開示の一実施例は、符号化システム等に有用である。
10 符号化装置
11 入力部
12 A/D変換部
13,13a,13b ITD分析符号化部13
14,24 時間差調整部
15 ステレオ符号化部
16 多重化部
20 復号装置
21 分離部
22 ITD復号部
23 ステレオ復号部
25 D/A変換部
26 出力部
101 FFT部
102 クロススペクトル算出部
103 振幅計算部
104,112,122 クロススペクトル重み付け部
105 IFFT部
106 ITD検出部
111 最大振幅検出部
121 SFM算出部
11 入力部
12 A/D変換部
13,13a,13b ITD分析符号化部13
14,24 時間差調整部
15 ステレオ符号化部
16 多重化部
20 復号装置
21 分離部
22 ITD復号部
23 ステレオ復号部
25 D/A変換部
26 出力部
101 FFT部
102 クロススペクトル算出部
103 振幅計算部
104,112,122 クロススペクトル重み付け部
105 IFFT部
106 ITD検出部
111 最大振幅検出部
121 SFM算出部
Claims (9)
- ステレオ信号に関するパラメータに応じて、前記ステレオ信号のクロススペクトルの振幅に基づく重み付け係数を異ならせる制御回路と、
前記重み付け係数を用いて重み付けされた前記クロススペクトルに基づいて、前記ステレオ信号のチャネル間時間差を検出する検出回路と、
を具備する信号処理装置。 - 前記パラメータは、前記クロススペクトルの振幅の最大値を含み、
前記制御回路は、前記最大値に基づいて、前記重み付け係数を設定する、
請求項1に記載の信号処理装置。 - 前記パラメータは、前記ステレオ信号のスペクトル平坦度を含み、
前記制御回路は、前記スペクトル平坦度が低いほど、前記重み付け係数を小さく設定する、
請求項2に記載の信号処理装置。 - 前記パラメータは、前記ステレオ信号のスペクトル平坦度を含み、
前記制御回路は、前記スペクトル平坦度が閾値以上の場合に第1の重み付け係数を設定し、前記スペクトル平坦度が前記閾値未満の場合に、前記第1の重み付け係数より小さい第2の重み付け係数を設定する、
請求項2に記載の信号処理装置。 - 前記制御回路は、前記クロススペクトルの成分毎に、当該成分の振幅値と、前記クロススペクトルの振幅の最大値との差分を表す値に応じて、前記重み付け係数を設定する、
請求項1に記載の信号処理装置。 - 前記差分を表す値は、前記成分の振幅値と前記最大値との間の桁数の差であり、
前記制御回路は、前記桁数の差が大きいほど、前記成分に対する前記重み付け係数を小さく設定する、
請求項5に記載の信号処理装置。 - 前記制御回路は、前記クロススペクトルのピーク位置を検出し、前記ピーク位置に対して第1の重み付け係数を設定し、前記ピーク位置と異なる位置に対して、前記第1の重み付け係数より小さい第2の重み付け係数を設定する、
請求項1に記載の信号処理装置。 - 前記パラメータは、前記ステレオ信号のスペクトル平坦度を含み、
前記制御回路は、前記スペクトル平坦度に基づいて、前記第2の重み付け係数を設定する、
請求項7に記載の信号処理装置。 - 信号処理装置は、
ステレオ信号に関するパラメータに応じて、前記ステレオ信号のクロススペクトルの振幅に基づく重み付け係数を異ならせ、
前記重み付け係数を用いて重み付けされた前記クロススペクトルに基づいて、前記ステレオ信号のチャネル間時間差を検出する、
信号処理方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022142899 | 2022-09-08 | ||
JP2022-142899 | 2022-09-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024053353A1 true WO2024053353A1 (ja) | 2024-03-14 |
Family
ID=90191007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2023/029675 WO2024053353A1 (ja) | 2022-09-08 | 2023-08-17 | 信号処理装置、及び、信号処理方法 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2024053353A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024202972A1 (ja) * | 2023-03-29 | 2024-10-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | チャネル間時間差推定装置、及び、チャネル間時間差推定方法 |
WO2024202997A1 (ja) * | 2023-03-29 | 2024-10-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | チャネル間時間差推定装置、及び、チャネル間時間差推定方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018131099A1 (ja) * | 2017-01-11 | 2018-07-19 | 日本電気株式会社 | 相関関数生成装置、相関関数生成方法、相関関数生成プログラムおよび波源方向推定装置 |
JP2019502966A (ja) * | 2016-01-22 | 2019-01-31 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | チャネル間時間差を推定する装置及び方法 |
JP2021519949A (ja) * | 2018-04-05 | 2021-08-12 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
WO2022012629A1 (zh) * | 2020-07-17 | 2022-01-20 | 华为技术有限公司 | 一种立体声音频信号时延估计方法及装置 |
-
2023
- 2023-08-17 WO PCT/JP2023/029675 patent/WO2024053353A1/ja unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019502966A (ja) * | 2016-01-22 | 2019-01-31 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | チャネル間時間差を推定する装置及び方法 |
WO2018131099A1 (ja) * | 2017-01-11 | 2018-07-19 | 日本電気株式会社 | 相関関数生成装置、相関関数生成方法、相関関数生成プログラムおよび波源方向推定装置 |
JP2021519949A (ja) * | 2018-04-05 | 2021-08-12 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム |
WO2022012629A1 (zh) * | 2020-07-17 | 2022-01-20 | 华为技术有限公司 | 一种立体声音频信号时延估计方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024202972A1 (ja) * | 2023-03-29 | 2024-10-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | チャネル間時間差推定装置、及び、チャネル間時間差推定方法 |
WO2024202997A1 (ja) * | 2023-03-29 | 2024-10-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | チャネル間時間差推定装置、及び、チャネル間時間差推定方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2024053353A1 (ja) | 信号処理装置、及び、信号処理方法 | |
CN104285390B (zh) | 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置 | |
JP2009522895A (ja) | バイノーラルオーディオ信号の復号 | |
US20240185869A1 (en) | Combining spatial audio streams | |
EP4082010A1 (en) | Combining of spatial audio parameters | |
WO2021130404A1 (en) | The merging of spatial audio parameters | |
TWI778073B (zh) | 用於具有時域頻道間頻寬延展之高頻帶殘值預測的音訊信號寫碼裝置、方法、包含指令的非暫時性電腦可讀媒體及設備 | |
US20210250717A1 (en) | Spatial audio Capture, Transmission and Reproduction | |
CN117083881A (zh) | 分离空间音频对象 | |
KR102697288B1 (ko) | 채널-간 위상 차이 파라미터 인코딩 방법 및 장치 | |
CN110100280B (zh) | 信道间相位差参数的修改 | |
JP2023554411A (ja) | 空間音声パラメータの量子化 | |
WO2019106221A1 (en) | Processing of spatial audio parameters | |
WO2020217781A1 (ja) | 到来方向推定装置、システム、及び、到来方向推定方法 | |
WO2024202972A1 (ja) | チャネル間時間差推定装置、及び、チャネル間時間差推定方法 | |
WO2024202997A1 (ja) | チャネル間時間差推定装置、及び、チャネル間時間差推定方法 | |
JP7405758B2 (ja) | 音響オブジェクト抽出装置及び音響オブジェクト抽出方法 | |
JP7407110B2 (ja) | 符号化装置及び符号化方法 | |
WO2022153632A1 (ja) | 信号処理装置、及び、信号処理方法 | |
RU2648632C2 (ru) | Классификатор многоканального звукового сигнала | |
WO2023153228A1 (ja) | 符号化装置、及び、符号化方法 | |
EP3513573A1 (en) | A method, apparatus and computer program for processing audio signals | |
WO2023066456A1 (en) | Metadata generation within spatial audio | |
WO2022258876A1 (en) | Parametric spatial audio rendering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23862893 Country of ref document: EP Kind code of ref document: A1 |