WO2022153632A1 - 信号処理装置、及び、信号処理方法 - Google Patents

信号処理装置、及び、信号処理方法 Download PDF

Info

Publication number
WO2022153632A1
WO2022153632A1 PCT/JP2021/038178 JP2021038178W WO2022153632A1 WO 2022153632 A1 WO2022153632 A1 WO 2022153632A1 JP 2021038178 W JP2021038178 W JP 2021038178W WO 2022153632 A1 WO2022153632 A1 WO 2022153632A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
smoothing
signal
sound source
signal processing
Prior art date
Application number
PCT/JP2021/038178
Other languages
English (en)
French (fr)
Inventor
旭 原田
宏幸 江原
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to JP2022575083A priority Critical patent/JPWO2022153632A1/ja
Priority to US18/271,795 priority patent/US20240064483A1/en
Publication of WO2022153632A1 publication Critical patent/WO2022153632A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Definitions

  • the present disclosure relates to a signal processing device and a signal processing method.
  • stereo signal a stereo audio-acoustic signal
  • Patent Document 1 a stereo audio-acoustic signal
  • the non-limiting embodiment of the present disclosure contributes to the provision of a signal processing device capable of improving the coding performance of a stereo signal when a sound source moves, and a signal processing method.
  • the signal processing device determines the degree of smoothing the interchannel correlation function based on the detection circuit that detects the time change of the time difference between channels of the stereo signal and the time change of the time difference between channels. It includes a control circuit for controlling.
  • the figure which shows the configuration example of the audio-acoustic signal transmission system Block diagram showing a configuration example of the ITD (inter-channel time difference) estimation unit Flowchart showing an example of ITD estimation processing Block diagram showing a configuration example of the ITD estimation unit Block diagram showing a configuration example of a single sound source movement detection unit
  • the figure which shows an example of the phase difference spectrum between channels Flowchart showing an example of ITD estimation processing Block diagram showing a configuration example of the ITD estimation unit Block diagram showing a configuration example of the ITD estimation unit
  • binaural cue coding for example, an inter-channel level difference (ILD) and a channel for a stereo signal including an L channel (Left channel or L-ch) and an R channel (Right channel or R-ch).
  • ILD inter-channel level difference
  • the stereo signal is parameterized by a binaural queue such as an inter-channel cross-correlation (ICC) and an inter-channel time difference (ITD).
  • ICC inter-channel cross-correlation
  • ITD inter-channel time difference
  • the time difference between channels (ITD) of a stereo signal is a parameter related to the time difference that the sound arrives between the L channel and the R channel.
  • ITD performs an inverse fast Fourier transform (IFFT:) of a frequency region interchannel correlation function (ICC) determined based on a fast Fourier transform (FFT) spectrum of a pair of channel signals contained in a stereo signal. It may be estimated based on the time lag with respect to the peak position of the ICC in the time region (Inverse Fast Fourier Transform).
  • IFFT inverse fast Fourier transform
  • ICC frequency region interchannel correlation function
  • FFT fast Fourier transform
  • Patent Document 1 In order to improve the estimation accuracy of ITD or to realize stable estimation, for example, there is a method of applying interframe smoothing processing to ICC based on Spectral Flatness Measurement (SFM) (for example). , Patent Document 1). For example, the stronger the tonality or periodicity of the input signal, the lower the SFM. For example, in Patent Document 1, in a coding apparatus, when the input signal has a stronger tonality (for example, when the SFM is lower), a stronger smoothing process is applied to the ICC. In other words, if the input signal has a stronger tonality, the ICC data of the past frame is likely to be reflected in the current frame. As a result, the accuracy of determining the peak position of the ICC in the time domain corresponding to the time lag can be improved, and the estimation accuracy of the ITD can be improved.
  • SFM Spectral Flatness Measurement
  • the stronger the applied smoothing process the more estimated the ITD (for example, the peak position of the ICC in the time domain). ) Is unlikely to change due to smoothing between frames. Therefore, for example, the application of the smoothing process may reduce the accuracy of tracking a moving sound source (in other words, the estimation accuracy of ITD).
  • FIG. 1 is a diagram showing a configuration example of a transmission system for a voice signal or an acoustic signal (for example, referred to as an audio-acoustic signal).
  • the transmission system shown in FIG. 1 may include, for example, a coding device and a decoding device.
  • the coding device may include, for example, an input device device such as a microphone (not shown), an A / D converter (not shown), and an encoder.
  • an input device device such as a microphone (not shown), an A / D converter (not shown), and an encoder.
  • the input device device outputs, for example, the input audio-acoustic signal (analog signal) to the A / D conversion device.
  • the A / D converter for example, converts an input analog signal into a digital signal and outputs it to an encoder.
  • the input device device and the A / D conversion device may be provided with a plurality (for example, two) for handling a stereo signal.
  • the encoder may include, for example, a conversion unit (for example, an FFT unit) that converts a signal from a time domain to a frequency domain signal, a stereo information extraction unit, a downmix unit, and a coding unit (not shown). ).
  • a conversion unit for example, an FFT unit
  • a stereo information extraction unit for example, a stereo information extraction unit
  • a downmix unit for example, a stereo information extraction unit
  • a coding unit not shown.
  • the conversion unit converts the stereo signal (for example, L channel signal and R channel signal) input to the encoder from the time domain to the frequency domain data (for example, FFT spectrum) for each channel, and the stereo information extraction unit and the conversion unit and the conversion unit. Output to the downmix section.
  • the stereo signal for example, L channel signal and R channel signal
  • the frequency domain data for example, FFT spectrum
  • the stereo information extraction unit may extract stereo information based on, for example, the FFT spectrum of each channel.
  • the stereo information extraction unit may parameterize the stereo signal by binaural cues such as ILD, ICC and ITD, and output it to the downmix unit and the coding unit.
  • the stereo information extraction unit may include an ITD estimation unit 10 (for example, corresponding to a signal processing device) that parameterizes the ITD.
  • the ITD estimation unit 10 estimates, for example, the time difference between channels (ITD). An example of the ITD estimation method in the ITD estimation unit 10 will be described later.
  • the downmix unit performs downmix processing based on, for example, the FFT spectrum of each channel output from the conversion unit and the parameters of the binoral queue output from the stereo information extraction unit (for example, including the estimated ITD).
  • a Mid signal also referred to as an M signal
  • a Side signal also referred to as an S signal
  • M (L'+ R) / 2
  • S (L'-R) / 2.
  • M is the Mid signal
  • S is the Side signal
  • R is the FFT spectrum of the R channel.
  • the processing of the downmix section has described an example in which the FFT spectrum of the L channel is manipulated with reference to the R channel, but the present invention is not limited to this, and for example, the FFT spectrum of the R channel is manipulated with reference to the L channel. May be good.
  • the coding unit encodes, for example, the M signal and S signal output from the downmix unit and the binaural queue parameters (including, for example, the estimated ITD) output from the stereo information extraction unit, and encodes the data. Is output.
  • the coding unit is not limited to the above-mentioned codecs, and for example, various standardized devices such as Moving Picture Experts Group (MPEG), 3rd Generation Partnership Project (3GPP), and International Telecommunication Union Telecommunication Standardization Sector (ITU-T).
  • MPEG Moving Picture Experts Group
  • 3GPP 3rd Generation Partnership Project
  • ITU-T International Telecommunication Union Telecommunication Standardization Sector
  • a voice-acoustic codec may be provided.
  • the coding device transmits the coded data output from the coding unit of the encoder to the decoding device via a communication network or a storage medium (not shown).
  • the decoding device may include, for example, a decoder, a D / A conversion device (not shown), and an output device device (not shown) such as a speaker.
  • the decoding device receives the encoded data via, for example, a communication network or a storage medium (not shown) and inputs the encoded data to the decoder.
  • the decoder may include, for example, a decoding unit, an upmix unit, a stereo information synthesis unit, and a conversion unit (for example, an IFFT unit) that converts a signal from the frequency domain to the time domain (not shown).
  • a decoding unit for example, a decoding unit, an upmix unit, a stereo information synthesis unit, and a conversion unit (for example, an IFFT unit) that converts a signal from the frequency domain to the time domain (not shown).
  • the encoded data input to the decoder is input to the decoding unit.
  • the decoding unit decodes the input encoded data using the codec used on the encoding device side, and, for example, upmixes the M signal and S signal, and the parameters of the binoral queue, and the stereo information synthesis unit. Output to.
  • the decoding unit may include various standardized audio-acoustic codecs such as MPEG, 3GPP, or ITU-T.
  • the stereo information synthesizer uses, for example, the parameters of the binoral queue (including the estimated ITD) output from the decoding unit and the L'signal of the FFT spectrum output from the upmix unit, and the encoding device (for example,).
  • the operation opposite to that of the stereo information extraction unit) may be performed to output the L signal of the FFT spectrum to the conversion unit.
  • the conversion unit converts the L signal and the R signal of the FFT spectrum into the digital signal of the L channel and the R channel in the time domain for each channel, and outputs the digital signal as the output signal of the decoder.
  • the D / A conversion device converts the digital signal output from the decoder into an audio-acoustic signal (analog signal) and outputs it to the output device device.
  • the device outputs an analog signal output from the D / A conversion device, for example, from a speaker.
  • the decoding device may include a plurality (for example, two) of at least one of the D / A conversion device and the output device device in order to handle the stereo signal.
  • FIG. 2 is a block diagram showing a configuration example of the ITD estimation unit 10.
  • FIG. 3 is a flowchart showing an operation example of the ITD estimation unit 10 shown in FIG.
  • the ITD estimation unit 10 shown in FIG. 2 may include, for example, an FFT unit 11, an ICC determination unit 12, an SFM determination unit 13, a smoothing processing unit 14, an IFFT unit 15, and an ITD detection unit 16.
  • stereo signals in the time domain may be independently input to the FFT unit 11 one by one.
  • the FFT unit 11 converts, for example, a channel signal in the time domain into a frequency domain signal (hereinafter, referred to as an FFT spectrum) (for example, S11 in FIG. 3).
  • the FFT unit 11 outputs information on the FFT spectrum to the ICC determination unit 12 and the SFM determination unit 13.
  • the method of converting the time domain signal to the frequency domain signal is not limited to the FFT, and other methods may be used.
  • the ICC determination unit 12 determines (for example, calculates) the interchannel correlation function (ICC) based on the FFT spectrum of each channel output from the FFT unit 11 (for example, S12 in FIG. 3).
  • the ICC determination unit 12 outputs information regarding the determined ICC to the smoothing processing unit 14.
  • the SFM determination unit 13 determines (for example, calculates) the spectrum flatness (SFM) based on the FFT spectrum of each channel output from the FFT unit 11 (for example, S13 in FIG. 3). The SFM determination unit 13 outputs information regarding the determined SFM to the smoothing processing unit 14.
  • the smoothing processing unit 14 sets the SFM output from the SFM determination unit 13 as a smoothing coefficient, and performs smoothing processing between ICC frames output from the ICC determination unit 12 (for example, FIG. 3). S14). For example, the lower the SFM (or smoothing coefficient), the stronger the degree (or intensity) of smoothing.
  • the smoothing processing unit 14 outputs information about the ICC after the smoothing processing to the IFFT unit 15.
  • the IFFT unit 15 converts, for example, the ICC smoothed by the smoothing processing unit 14 from the frequency domain to the time domain signal.
  • the IFFT unit 15 outputs information about the ICC in the time domain to the ITD detection unit 16.
  • the method of converting the frequency domain signal to the time domain signal is not limited to IFFT, and other methods may be used.
  • the ITD detection unit 16 detects (or estimates) the ITD based on the ICC in the time domain output from the IFFT unit 15, for example (for example, S15 in FIG. 3).
  • the stronger the tonality of the stereo signal for example, the lower the SFM
  • the stronger the degree of smoothing therefore, as described above, the ITD when the sound source moves.
  • the estimation accuracy of is reduced.
  • a method for improving the estimation accuracy of ITD even when a single sound source moves will be described.
  • FIG. 4 is a block diagram showing a configuration example of the ITD estimation unit 10a according to the present embodiment.
  • a single sound source movement detection unit 50 is added as compared with the configuration of the ITD estimation unit 10 shown in FIG.
  • the components different from the single sound source movement detection unit 50 may be the same as in FIG.
  • the single sound source movement detection unit 50 moves a single sound source of the stereo signal based on the FFT spectrum of each channel output from the FFT unit 11, for example (in other words). It has a function of detecting (time change of ITD of stereo signal) and a function of controlling smoothing in the smoothing process of the smoothing processing unit 14 (for example, controlling the degree of smoothing of ICC). good.
  • the single sound source movement detection unit 50 may detect, for example, the movement of a single sound source, for example, the time change of the ITD of the stereo signal, and control the smoothing based on the detection result of the movement of the single sound source.
  • FIG. 5 is a block diagram showing a configuration example of the single sound source movement detection unit 50.
  • the single sound source movement detection unit 50 shown in FIG. 5 includes, for example, an IPD determination unit 51, a data selection unit 52-1, a data selection unit 52-2, a first-order difference determination unit 53-1 and 53-2, and a dispersion determination unit. It may include 54-1, 54-2, and a smoothing control unit 55.
  • the IPD determination unit 51 determines the interchannel phase difference (referred to as IPD or IPD spectrum) based on, for example, the FFT spectrum (for example, FFT phase spectrum) of each of the L channel and the R channel output from the FFT unit 11 (referred to as IPD or IPD spectrum). For example, calculate).
  • the IPD determination unit 51 may determine, for example, the IPD spectrum of each frequency bin.
  • the IPD determination unit 51 outputs information about the IPD to the data selection unit 52-1 and the data selection unit 52-2.
  • IPD may be defined as, for example, the difference between the phase spectra of two channels of a stereo signal.
  • IPD time difference between channels
  • IPD time difference between channels
  • each frame increases or decreases by 0.03125 ms.
  • linear shapes including, for example, saw shapes
  • a sound source whose linear shape appears in the low frequency band and does not appear in the high frequency band is likely to move singly.
  • FIG. 6 is a diagram showing an example of the IPD spectrum.
  • the vertical axis represents the phase of the IPD spectrum
  • the horizontal axis represents the frequency bin of the IPD spectrum.
  • the IPD spectrum shown in FIG. 6 is normalized to, for example, in the range of ⁇ to + ⁇ , and is wrapped around (or folded) in the range of ⁇ to + ⁇ .
  • the higher the frequency band the larger the IPD (for example, the slope of the IPD in FIG. 6) tends to be.
  • the sound source for example, when the ITD changes with time
  • the IPD value tends to fluctuate. Therefore, as shown in FIG. 6, a component having a clear linear shape (for example, a saw shape) tends to appear in the low frequency band of the IPD spectrum, and the above-mentioned wraparound is high in the high frequency band of the IPD spectrum.
  • the single sound source movement detection unit 50 detects the movement of a single sound source, in other words, the time change of ITD, based on the shape of the IPD spectrum in each of the low frequency band and the high frequency band, for example. You can. For example, the single sound source movement detection unit 50 detects (or specifies) whether or not a linear shape (for example, the spectral shape shown in FIG. 6) appears in the phase spectrum for each of the low frequency band and the high frequency band. Therefore, it may be determined whether or not the single sound source moves (for example, the single sound source moves slowly).
  • a linear shape for example, the spectral shape shown in FIG. 6
  • the single sound source movement detection unit 50 disperses the IPD (for example, the first-order difference of the IPD spectrum) for the low frequency band of the stereo signal and the IPD for the high frequency band of the stereo signal (for example, one of the IPD spectra).
  • the movement of a single sound source eg, ITD time variation
  • the data selection unit 52-1, the first-order difference determination unit 53-1 and the dispersion determination unit 54-1 are constituent units that perform processing corresponding to the IPD spectrum (or IPD data) in the low frequency band.
  • the data selection unit 52-2, the first-order difference determination unit 53-2, and the dispersion determination unit 54-2 are constituent units that perform processing corresponding to the IPD spectrum (or IPD data) in the high frequency band.
  • the data selection unit 52-1 selects, for example, the data to be output to the first-order difference determination unit 53-1 in the subsequent stage from the IPD data in the low frequency band among the signals output from the IPD determination unit 51.
  • the single sound source movement detection unit 50 moves (or moves) the single sound source the IPD information corresponding to + ⁇ and - ⁇ when the IPD data (phase) is normalized in the range of ⁇ to + ⁇ , respectively. It does not have to be used to detect the time change of ITD).
  • the data selection unit 52-1 may select IPD data in the range of ⁇ 0.75 ⁇ to +0.75 ⁇ . In other words, as shown in FIG.
  • the data selection unit 52-1 may remove the IPD data corresponding to the wraparound (folding) portion in the IPD spectrum from the IPD data used for the movement detection of a single sound source.
  • the data selection unit 52-1 outputs the selected data to the first-order difference determination unit 53-1.
  • the first-order difference determination unit 53-1 determines, for example, the first-order difference (for example, the difference between the IPD data of adjacent frequency bins) of the IPD data in the low frequency band selected by the data selection unit 52-1 (for example). , Calculation), and output the information about the first-order difference to the distribution determination unit 54-1.
  • the difference determined (or detected) by the first-order difference determination unit 53-1 is not limited to the first-order difference.
  • the slope between IPD data may be detected by differentiating the IPD data. This point is the same for the first-order difference determination unit 53-2, which will be described later.
  • the variance determination unit 54-1 determines (for example, calculates) the variance of the first-order difference of the low frequency band output from the first-order difference determination unit 53-1, and relates to the variance of the first-order difference of the low frequency band. Information is output to the smoothing control unit 55.
  • the data selection unit 52-2 is, for example, from the IPD data in the high frequency band among the signals output from the IPD determination unit 51, the first-order difference determination unit 53-2 in the subsequent stage. Select the data to be output to. The data selection unit 52-2 outputs the selected data to the first-order difference determination unit 53-2.
  • the first-order difference determination unit 53-2 determines, for example, the first-order difference of the IPD data in the high frequency band selected by the data selection unit 52-2 (for example, calculation). ), And the information about the first-order difference is output to the distribution determination unit 54-2.
  • the variance determination unit 54-2 determines (for example, calculates) the variance of the first-order difference in the high frequency band output from the first-order difference determination unit 53-2, for example. Information on the variance of the first-order difference in the high frequency band is output to the smoothing control unit 55.
  • the dispersion determination unit 54-1 and the distribution determination unit 54-2 may thin out the IPD data output from the data selection unit 52-1 and the data selection unit 52-2, for example.
  • IPD [k] (k is a number assigned to IPD in the order of output from data selection unit 52-1 and data selection unit 52-2)
  • k 1,3,5, ..., 2m.
  • the variance determination unit 54-1 and the variance determination unit 54-1 may determine the variance based on, for example, the IPD data after decimation.
  • the amount of calculation in the distribution determination unit 54-1 and the distribution determination unit 54-2 can be reduced.
  • the method of thinning out IPD data is not limited to the above-mentioned thinning out of one or two, and other methods may be used.
  • the dispersion determination unit 54-1 and the dispersion determination unit 54-2 calculate the dispersion in a specified band (for example, 100 Hz width or 200 Hz width) near the center of at least one of the low frequency band and the high frequency band. You may.
  • the smoothing control unit 55 may, for example, disperse the first-order difference of the low frequency band output from the distribution determination unit 54-1, disperse the first-order difference of the high frequency band output from the distribution determination unit 54-2, and the variance of the first-order difference of the high frequency band.
  • the smoothing coefficient is determined (for example, calculated) based on the SFM output from the SFM determination unit 13.
  • the smoothing control unit 55 outputs information regarding the determined smoothing coefficient to the smoothing processing unit 14.
  • SFM is set as a smoothing coefficient (for example, expressed as "alpha").
  • the function Max (A, B) is a function that outputs the larger value between A and B.
  • VL indicates the dispersion of the low frequency band determined by the dispersion determination unit 54-1
  • VH indicates the dispersion of the high frequency band determined by the dispersion determination unit 54-2.
  • the dispersion VL in the low frequency band is low and high.
  • the distributed VH of the frequency band tends to be high.
  • the value of 1-VL / VH tends to be high (for example, the value is closer to 1), and the value of alpha is likely to be closer to 1.
  • the smoothing control unit 55 determines the degree (or intensity) of smoothing when the movement of a single sound source (for example, the shape of the IPD spectrum as shown in FIG. 6) is detected. Weaker than the degree of smoothing when no movement is detected.
  • the ITD detection unit 16 can estimate the ITD that reflects the instantaneous change of the ICC due to the movement of a single sound source. Therefore, the ITD estimation unit 10a can improve the ITD estimation accuracy even when a single sound source moves.
  • the smoothing control unit 55 may determine the smoothing coefficient alpha based on, for example, a comparison between the variance of the first-order difference of the IPD spectrum and the threshold value. In other words, the smoothing control unit 55 detects the movement of a single sound source based on, for example, the variance of the first-order difference of the IPD spectrum and the comparison with the threshold value, and based on the detection result of the movement of the single sound source, the smoothing control unit 55 detects the movement of the single sound source.
  • the smoothing factor alpha may be determined.
  • the smoothing control unit 55 when the distributed VL in the low frequency band and the distributed VH in the high frequency band satisfy a predetermined condition, the sound source of the stereo signal is moving singly (or the ITD changes with time).
  • the degree of smoothing may be weaker than the degree of smoothing when the conditions are not satisfied. Note that weakening the degree of smoothing may include, for example, not performing smoothing.
  • the smoothing coefficient alpha SFM may be set when the conditions of ⁇ Th1 and VH / VL> Th2 are not satisfied.
  • the variance VL of the first-order difference of the IPD spectrum of the low frequency band (for example, the linear shape) is small, and the variance VL of the first-order difference of the IPD spectrum of the high frequency band is small. Since the variance VH tends to be large, the condition that the variance VL is smaller than the threshold Th1 (VL ⁇ Th1) and the ratio of the variance VH to the variance VL is larger than the threshold Th2 (VH / VL> Th2) is satisfied. Cheap.
  • the ITD estimation unit 10a can improve the ITD estimation accuracy even when a single sound source moves.
  • Th1 and Th2 are threshold values, for example, Th1 may be set to 2.25 and Th2 may be set to 1.50.
  • the setting values of Th1 and Th2 are not limited to these, and may be other values.
  • the smoothing coefficient alpha can be switched in the determination process based on the above-mentioned threshold value every 100 ms at the shortest.
  • the smoothing control unit 55 determines the movement of a single sound source based on the shape of the IPD spectrum over the specified interval. Therefore, for example, a single sound source having a certain phase difference and a strong periodicity is not moving.
  • Smoothing processing for example, smoothing coefficient
  • the specified section is not limited to 100 ms (or 5 frames), and other values may be used.
  • the defined interval may be determined according to the mode switching period in the stereo coding system.
  • the smoothing processing unit 14 may perform smoothing processing on the ICC output from the ICC determination unit 12 using the smoothing coefficient alpha output from the single sound source movement detection unit 50.
  • the smoothing process may be executed based on the following equation (2).
  • ICCsmooth (t) [n] (1-alpha) * ICCsmooth (t-1) [n] + alpha * ICC [n] (2)
  • ICCsmooth (t) [n] indicates the nth element of the ICC to be smoothed at time t (or the tth frame), and alpha is the smoothing coefficient determined by the smoothing control unit 55.
  • ICC [n] indicates the nth element of the ICC at the current time (or current frame).
  • the ITD detection unit 16 may estimate the ITD based on, for example, an ICC in which the degree of smoothing is controlled.
  • FIG. 7 is a flowchart showing an operation example of the ITD estimation process according to the present embodiment.
  • the processing of S11 to S15 shown in FIG. 7 is the same as the processing of S11 to S15 shown in FIG.
  • the ITD estimation unit 10a calculates the IPD spectrum based on, for example, the FFT spectra of the L channel and the R channel of the stereo signal (S51).
  • the ITD estimation unit 10a calculates the first-order difference based on, for example, the IPD spectrum (S52). Further, the ITD estimation unit 10a has, for example, the variance of the first-order difference in the low frequency band (for example, VL) and the variance of the first-order difference in the high frequency band (for example, VH) based on the first-order difference of the IPD spectrum. ) Is calculated (S53).
  • the ITD estimation unit 10a determines, for example, whether or not the conditions of VL ⁇ Th1 and VH / VL> Th2 are satisfied in the specified section (for example, five consecutive frames) (S54).
  • the ITD estimation unit 10a includes the single sound source movement detection unit 50, and detects the movement of a single sound source of the stereo signal (time change of ITD).
  • the ITD estimation unit 10a controls smoothing in a plurality of frames (intervals) of the ICC based on, for example, information regarding the movement of a single sound source of a stereo signal (for example, a detection result).
  • the ITD estimation unit 10a can improve the robustness of the ITD with respect to the time change when a single sound source moves, for example.
  • the ITD estimation unit 10a can improve, for example, the accuracy of tracking a moving sound source (for example, the temporal followability of ITD). Therefore, according to the present embodiment, even when a single sound source of a stereo signal moves, the estimation accuracy of ITD can be improved and the coding performance can be improved.
  • the configuration of the single sound source movement detection unit 60 is different from that of the first embodiment, and other configurations may be the same as the configuration of the first embodiment.
  • FIG. 8 is a block diagram showing a configuration example of the single sound source movement detection unit 60 according to the present embodiment.
  • the single sound source movement detection unit 60 shown in FIG. 8 includes a data selection unit 61-1 and a data selection unit 61-2 in addition to the same configuration as the single sound source movement detection unit 50.
  • the data selection unit 61-1 may be provided between, for example, the first-order difference determination unit 53-1 and the variance determination unit 54-1.
  • the data selection unit 61-1 may select data by removing outliers from the first-order difference in the low frequency band, for example.
  • the removal of outliers may be realized, for example, by setting the upper limit value and the lower limit value (in other words, setting the boundary) of the data selected by the data selection unit 61-1 (for example, the first-order difference of the IPD spectrum). ..
  • the upper limit of the data may be set to Dmean + ⁇ / 2
  • the lower limit of the data may be set to Dmean ⁇ / 2.
  • Dmean indicates the average value of the first-order difference.
  • the data selection unit 61-2 may be provided between, for example, the first-order difference determination unit 53-2 and the dispersion determination unit 54-2, similarly to the data selection unit 61-1.
  • the data selection unit 61-2 may select data by removing outliers from the first-order difference in the high frequency band, for example.
  • the single sound source movement detection unit 60 uses, for example, a single sound source based on the mean value Dmean of the first-order difference of the IPD spectrum (for example, in the above-mentioned example, the range of -0.75 ⁇ to + 0.75 ⁇ ). Select the first-order difference data to be used to detect the movement of the ITD (for example, the time change of ITD).
  • the accuracy of the first-order difference of the IPD spectrum (for example, the slope component of IPD in the frequency domain) can be improved, so that the single sound source moves in the ITD estimation unit 10a.
  • the accuracy of determining the shape of the IPD spectrum (for example, the accuracy of detecting the movement of a single sound source) can be improved.
  • the estimation accuracy of the ITD can be improved and the coding performance can be improved as compared with the first embodiment.
  • the single sound source movement detection unit 60 may switch, for example, whether or not the data selection of the first-order difference is applied to the data selection unit 61-1 and the data selection unit 61-2.
  • smoothing control may be performed based on SFM (or information on tonality).
  • FIG. 9 is a block diagram showing a configuration example of the ITD estimation unit 10b according to the modified example.
  • the ITD estimation unit 10b shown in FIG. 9 may include a determination unit 71 in addition to the configuration of the ITD estimation unit 10a according to the first embodiment, for example.
  • the ITD estimation unit 10b may include the single sound source movement detection unit 50 of the first embodiment, or may include the single sound source movement detection unit 60 of the second embodiment.
  • smoothing control for example, determination of the smoothing coefficient alpha
  • the weaker the tonality of the stereo signal the higher the SFM tends to be, and it is difficult for the ICC to be smoothed by the SFM. Therefore, when the SFM is high (for example, when the SFM is equal to or higher than the threshold value) as in the case of a stereo signal with weak tonality, and when the SFM is low (for example, when the SFM is above the threshold value) as in the case of a stereo signal with strong tonality. Is less than the threshold value), the effect of improving the estimation accuracy of ITD by the smoothing control of the single sound source movement detection unit 50 may be low.
  • the determination unit 71 may decide not to execute the smoothing control by the single sound source movement detection unit 50, for example, when the SFM is equal to or higher than the threshold value.
  • the determination unit 71 may decide to execute the smoothing control by the single sound source movement detection unit 50, for example, when the SFM is less than the threshold value.
  • the single sound source movement detection unit 50 may perform ICC smoothing control (for example, determination of the smoothing coefficient alpha) based on the detection of the movement of the single sound source, as in the first embodiment. good.
  • smoothing control based on SFM, for example, whether or not the smoothing control based on the detection of the movement of a single sound source is applied according to the tonality of the stereo signal (in other words, whether the smoothing control is bypassed). Whether or not) can be switched. Therefore, for example, smoothing control can be simplified or made more efficient.
  • a low frequency is selected for both the low frequency band and the high frequency band as compared with the frequency band in which wraparound is likely to occur. May be done.
  • 0 to 8 kHz may be set to the low frequency band
  • 8 kHz to 16 kHz may be set to the high frequency band.
  • 0 to 2 kHz and 2 kHz to 4 kHz, 0 to 3 kHz and 3 kHz to 6 kHz, or 0 to 4 kHz and 4 kHz to 8 kHz may be used.
  • the low frequency band and high frequency band settings are not limited to these examples, and other setting values may be used.
  • a frequency band that is separated from each other may be set for the low frequency band and the high frequency band, a frequency band that partially overlaps may be set, and the bandwidths of the respective bands may be different. ..
  • the setting regarding at least one frequency band of the low frequency band and the high frequency band may be variable.
  • the frequency band setting may be determined (or changed) based on analysis results such as the type of stereo signal (eg, audio or acoustic signal), the position of the sound source, or the dominant frequency band in the signal. good.
  • the frequency band setting may be determined based on the mean value of the first-order differences of the IPD spectrum.
  • the ITD estimation unit 10a detects the movement of a single sound source of the stereo signal based on the interchannel phase difference (IPD)
  • IPD interchannel phase difference
  • Each functional block used in the description of the above embodiment is partially or wholly realized as an LSI which is an integrated circuit, and each process described in the above embodiment is partially or wholly. It may be controlled by one LSI or a combination of LSIs.
  • the LSI may be composed of individual chips, or may be composed of one chip so as to include a part or all of functional blocks.
  • the LSI may include data input and output.
  • LSIs may be referred to as ICs, system LSIs, super LSIs, and ultra LSIs depending on the degree of integration.
  • the method of making an integrated circuit is not limited to LSI, and may be realized by a dedicated circuit, a general-purpose processor, or a dedicated processor. Further, an FPGA (Field Programmable Gate Array) that can be programmed after the LSI is manufactured, or a reconfigurable processor that can reconfigure the connection and settings of the circuit cells inside the LSI may be used.
  • FPGA Field Programmable Gate Array
  • the present disclosure may be realized as digital processing or analog processing.
  • the communication device may include a wireless transceiver and a processing / control circuit.
  • the wireless transceiver may include a receiver and a transmitter, or them as functions.
  • the radio transceiver (transmitter, receiver) may include an RF (Radio Frequency) module and one or more antennas.
  • RF modules may include amplifiers, RF modulators / demodulators, or the like.
  • Non-limiting examples of communication devices include telephones (mobile phones, smartphones, etc.), tablets, personal computers (PCs) (laptops, desktops, notebooks, etc.), cameras (digital stills / video cameras, etc.).
  • Digital players digital audio / video players, etc.
  • wearable devices wearable cameras, smart watches, tracking devices, etc.
  • game consoles digital book readers
  • telehealth telemedicines remote health Care / medicine prescription
  • vehicles with communication functions or mobile transportation automobiles, airplanes, ships, etc.
  • combinations of the above-mentioned various devices can be mentioned.
  • Communication devices are not limited to those that are portable or mobile, but are not portable or fixed, any type of device, device, system, such as a smart home device (home appliances, lighting equipment, smart meters or Includes measuring instruments, control panels, etc.), vending machines, and any other "Things” that can exist on the IoT (Internet of Things) network.
  • a smart home device home appliances, lighting equipment, smart meters or Includes measuring instruments, control panels, etc.
  • vending machines and any other "Things” that can exist on the IoT (Internet of Things) network.
  • Communication includes data communication using a cellular system, wireless LAN (Local Area Network) system, communication satellite system, etc., as well as data communication using a combination of these.
  • the communication device also includes a device such as a controller or a sensor that is connected or connected to a communication device that executes the communication function described in the present disclosure.
  • a device such as a controller or a sensor that is connected or connected to a communication device that executes the communication function described in the present disclosure.
  • it includes controllers and sensors that generate control and data signals used by communication devices that perform the communication functions of the communication device.
  • Communication devices also include infrastructure equipment that communicates with or controls these non-limiting devices, such as base stations, access points, and any other device, device, or system. ..
  • the signal processing device determines the degree of smoothing the interchannel correlation function based on the detection circuit that detects the time change of the time difference between channels of the stereo signal and the time change of the time difference between channels. It is equipped with a control circuit to control.
  • an estimation circuit for estimating the time difference between channels is further provided based on the correlation function between channels whose degree of smoothing is controlled.
  • the detection circuit has a first variance of the interchannel phase difference for the first band of the stereo signal and a second channel-to-channel phase difference for the second band of the stereo signal.
  • the time change of the time difference between the channels is detected based on the variance of 2.
  • control circuit determines that the sound source of the stereo signal is moving singly when the first dispersion and the second dispersion satisfy a predetermined condition.
  • the degree of smoothing is weaker than the degree of smoothing when the conditions are not satisfied.
  • weakening the degree of smoothing includes not performing the smoothing.
  • the second band is a band higher than the first band, and the conditions are that the first variance is smaller than the first threshold and the first band is the first. This is the case where the ratio of the second variance to the variance is greater than the second threshold.
  • the detection circuit provides information on the inter-channel phase difference corresponding to + ⁇ and - ⁇ when the inter-channel phase difference of the stereo signal is normalized in the range of ⁇ to + ⁇ , respectively. It is not used to detect the time change of the time difference between channels.
  • the detection circuit is the first floor of the interchannel phase difference used to detect the time change of the interchannel time difference based on the average value of the first order difference of the interchannel phase difference of the stereo signal. Select the difference.
  • the signal processing apparatus detects the time change of the time difference between channels of the stereo signal and smoothes the interchannel correlation function based on the time change of the time difference between channels. Control the degree.
  • One embodiment of the present disclosure is useful for a coding system or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

信号処理装置は、ステレオ信号のチャネル間時間差の時間変化を検出する検出回路と、前記チャネル間時間差の時間変化に基づいて、チャネル間相関関数を平滑化する度合いを制御する制御回路と、を具備する。

Description

信号処理装置、及び、信号処理方法
 本開示は、信号処理装置、及び、信号処理方法に関する。
 例えば、ステレオ音声音響信号(以下、ステレオ信号とも呼ぶ)に対する符号化技術がある(例えば、特許文献1を参照)。
特開2020-60788号公報
 しかしながら、音源が移動する場合のステレオ信号の符号化方法について検討の余地がある。
 本開示の非限定的な実施例は、音源が移動する場合のステレオ信号の符号化性能を向上できる信号処理装置、及び、信号処理方法の提供に資する。
 本開示の一実施例に係る信号処理装置は、ステレオ信号のチャネル間時間差の時間変化を検出する検出回路と、前記チャネル間時間差の時間変化に基づいて、チャネル間相関関数を平滑化する度合いを制御する制御回路と、を具備する。
 なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本開示の一実施例によれば、音源が移動する場合のステレオ信号の符号化性能を向上できる。
 本開示の一実施例における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
音声音響信号の伝送システムの構成例を示す図 ITD(inter-channel time difference)推定部の構成例を示すブロック図 ITD推定処理の例を示すフローチャート ITD推定部の構成例を示すブロック図 単一音源移動検出部の構成例を示すブロック図 チャネル間位相差スペクトルの一例を示す図 ITD推定処理の例を示すフローチャート ITD推定部の構成例を示すブロック図 ITD推定部の構成例を示すブロック図
 以下、本開示の実施の形態について図面を参照して詳細に説明する。
 ステレオ信号の符号化の一つに、例えば、バイノーラルキュー符号化(BCC:Binaural Cue Coding)がある。バイノーラルキュー符号化では、例えば、Lチャネル(Left channel又はL-ch)及びRチャネル(Right channel又はR-ch)を含むステレオ信号に対する、チャネル間レベル差(ILD:inter-channel level difference)、チャネル間相関関数(ICC:inter-channel cross correlation)、及び、チャネル間時間差(ITD:inter-channel time difference)といったバイノーラルキューによってステレオ信号がパラメータ化される。
 例えば、ステレオ信号のチャネル間時間差(ITD)は、LチャネルとRチャネルとの間の音が到達する時間差に関するパラメータである。例えば、ITDは、ステレオ信号に含まれるチャネル信号のペアの高速フーリエ変換(FFT:Fast Fourier Transform)スペクトルに基づいて決定される周波数領域のチャネル間相関関数(ICC)を逆高速フーリエ変換(IFFT:Inverse Fast Fourier Transform)した時間領域のICCのピーク位置に対するタイムラグに基づいて推定されてよい。
 ITDの推定精度の向上、又は、安定した推定の実現のために、例えば、スペクトル平坦度(SFM:Spectral Flatness Measurement)に基づいて、ICCに対するフレーム間の平滑化処理を適用する方法がある(例えば、特許文献1を参照)。例えば、入力信号の調性(tonality)又は周期性が強いほど、SFMは低くなる。例えば、特許文献1では、符号化装置において、入力信号がより強い調性を有する場合(例えば、SFMがより低い場合)、ICCに対してより強い平滑化処理が適用される。換言すると、入力信号がより強い調性を有する場合、現フレームにおいて、過去のフレームのICCデータが反映されやすくなる。これにより、タイムラグに対応する時間領域のICCのピーク位置の判定精度を向上でき、ITDの推定精度を向上できる。
 ここで、例えば、ステレオ信号の音源の動き(例えば、移動)によって実際のITDが変化する場合でも、適用される平滑化処理が強いほど、推定されるITD(例えば、時間領域におけるICCのピーク位置)は、フレーム間の平滑化によって変化しにくい。よって、例えば、平滑化処理の適用によって、移動する音源の追跡の精度(換言すると、ITDの推定精度)が低下する可能性がある。
 本開示の一実施例では、ステレオ信号の音源が移動する場合にITDの推定精度を向上させ、符号化性能を向上させる方法について説明する。
 [音声音響信号の伝送システムの構成例]
 図1は、音声信号又は音響信号(例えば、音声音響信号と呼ぶ)の伝送システムの構成例を示す図である。
 図1に示す伝送システムは、例えば、符号化装置、及び、復号装置を備えてよい。
 [符号化装置の構成例]
 符号化装置は、例えば、マイクなどの入力デバイス装置(図示せず)、A/D変換装置(図示せず)、及び、エンコーダを備えてよい。
 入力デバイス装置は、例えば、入力される音声音響信号(アナログ信号)をA/D変換装置に出力する。A/D変換装置は、例えば、入力されるアナログ信号をデジタル信号に変換し、エンコーダに出力する。なお、符号化装置において、入力デバイス装置及びA/D変換装置の少なくとも一つは、ステレオ信号を扱うために複数(例えば、2つ)備えてもよい。
 エンコーダは、例えば、信号を時間領域から周波数領域の信号に変換する変換部(例えば、FFT部)と、ステレオ情報抽出部と、ダウンミックス部と、符号化部とを備えてよい(図示せず)。
 変換部は、例えば、エンコーダに入力されるステレオ信号(例えば、Lチャネル信号及びRチャネル信号)をチャネル毎に時間領域から周波数領域のデータ(例えば,FFTスペクトル)に変換し、ステレオ情報抽出部及びダウンミックス部へ出力する。
 ステレオ情報抽出部は、例えば、各チャネルのFFTスペクトルに基づいて、ステレオ情報を抽出してよい。一例として、ステレオ情報抽出部は、ILD、ICC及びITDといったバイノーラルキューによってステレオ信号をパラメータ化し、ダウンミックス部及び符号化部へ出力してよい。例えば、ステレオ情報抽出部は、ITDをパラメータ化するITD推定部10(例えば、信号処理装置に対応)を備えてよい。ITD推定部10は、例えば、チャネル間時間差(ITD)を推定する。なお、ITD推定部10におけるITDの推定方法の例については後述する。
 ダウンミックス部は、例えば、変換部から出力される各チャネルのFFTスペクトルと、ステレオ情報抽出部から出力されるバイノーラルキューのパラメータ(例えば、推定ITDを含む)とに基づいてダウンミックス処理を行い、Mid信号(例えば、M信号とも呼ぶ)及びSide信号(例えば、S信号とも呼ぶ)を生成してよい。例えば、LチャネルのFFTスペクトルを操作したデータを「L’」と定義すると、ダウンミックス部は、M=(L’+R)/2及びS=(L’-R)/2となるダウンミックスを行い、M信号及びS信号を符号化部へ出力してよい。ここで、MはMid信号、SはSide信号、RはRチャネルのFFTスペクトルを示す。
 なお、上記ダウンミックス部の処理は、Rチャネルを基準にLチャネルのFFTスペクトルを操作する例について説明したが、これに限らず、例えば、Lチャネルを基準にRチャネルのFFTスペクトルが操作されてもよい。
 符号化部は、例えば、ダウンミックス部から出力されるM信号とS信号、及び、ステレオ情報抽出部から出力されるバイノーラルキューのパラメータ(例えば、推定ITDを含む)をそれぞれ符号化し、符号化データを出力する。なお、符号化部は、上述したコーデックに限定されず、例えば、Moving Picture Experts Group(MPEG)、3rd Generation Partnership Project(3GPP)又はInternational Telecommunication Union Telecommunication Standardization Sector(ITU-T)といった標準化された種々の音声音響コーデックを備えてもよい。
 符号化装置は、エンコーダの符号化部から出力される符号化データを,通信網又は記憶媒体(図示せず)を介して、復号装置に送信する。
 [復号装置の構成例]
 復号装置は、例えば、デコーダ、D/A変換装置(図示せず)、及び、スピーカなどの出力デバイス装置(図示せず)を備えてよい。復号装置は、例えば、通信網又は記憶媒体(図示せず)を介して符号化データを受信し、デコーダに入力する。
 デコーダは、例えば、復号部、アップミックス部、ステレオ情報合成部、及び、信号を周波数領域から時間領域に変換する変換部(例えば、IFFT部)を備えてよい(図示せず)。
 例えば、デコーダに入力される符号化データは、復号部に入力される。復号部は、入力される符号化データを、符号化装置側で使用されたコーデックを用いて復号し、例えば、M信号とS信号、及び、バイノーラルキューのパラメータをアップミックス部及びステレオ情報合成部へ出力する。復号部は、例えば、MPEG、3GPP、又はITU-Tといった標準化された種々の音声音響コーデックを備えてもよい。
 アップミックス部は、例えば、復号部から出力されるM信号及びS信号に基づいて、アップミックス処理を行ってよい。例えば、アップミックス部は、L’=M+S,R=M-Sとなるアップミックス処理を行い、FFTスペクトルのL’信号及びR信号をステレオ情報合成部へ出力する。
 ステレオ情報合成部は、例えば、復号部から出力されるバイノーラルキューのパラメータ(推定ITDを含む)、及び、アップミックス部から出力されるFFTスペクトルのL’信号を用いて、符号化装置(例えば、ステレオ情報抽出部)と逆の操作を行い、FFTスペクトルのL信号を変換部へ出力してよい。
 変換部は、例えば、FFTスペクトルのL信号及びR信号を、時間領域のLチャネル及びRチャネルのデジタル信号にチャネル毎に変換して、デジタル信号をデコーダの出力信号として出力する。
 D/A変換装置は、例えば、デコーダから出力されるデジタル信号を音声音響信号(アナログ信号)に変換し、出力デバイス装置に出力する。
 出力デバイス装置は、D/A変換装置から出力されるアナログ信号を、例えば、スピーカから出力する。なお、復号装置は、ステレオ信号を扱うために、D/A変換装置及び出力デバイス装置の少なくとも一つを複数(例えば2つ)備えてもよい。
 [ITD推定部の構成例]
 次に、ITD推定部10の構成例について説明する。図2は、ITD推定部10の構成例を示すブロック図である。また、図3は、図2に示すITD推定部10の動作例を示すフローチャートである。
 図2に示すITD推定部10は、例えば、FFT部11、ICC決定部12、SFM決定部13、平滑化処理部14、IFFT部15及びITD検出部16を備えてよい。
 FFT部11には、例えば、時間領域のステレオ信号(例えば、Lチャネル及びRチャネル)が1チャネルずつ独立して入力されてよい。FFT部11は、例えば、時間領域のチャネル信号を周波数領域信号(以下、FFTスペクトルと呼ぶ)に変換する(例えば、図3のS11)。FFT部11は、FFTスペクトルに関する情報をICC決定部12及びSFM決定部13へ出力する。なお、時間領域信号から周波数領域信号へ変換する方法は、FFTに限定されず、他の方法でもよい。
 ICC決定部12は、FFT部11から出力される各チャネルのFFTスペクトルに基づいて、チャネル間相関関数(ICC)を決定(例えば、計算)する(例えば、図3のS12)。ICC決定部12は、決定したICCに関する情報を平滑化処理部14へ出力する。
 SFM決定部13は、FFT部11から出力される各チャネルのFFTスペクトルに基づいて、スペクトル平坦度(SFM)を決定(例えば、計算)する(例えば、図3のS13)。SFM決定部13は、決定したSFMに関する情報を平滑化処理部14へ出力する。
 平滑化処理部14は、例えば、SFM決定部13から出力されるSFMを平滑化係数に設定して、ICC決定部12から出力されるICCのフレーム間の平滑化処理を行う(例えば、図3のS14)。例えば、SFM(又は、平滑化係数)が低いほど、平滑化の度合い(又は、強度)はより強くてよい。平滑化処理部14は、平滑化処理後のICCに関する情報をIFFT部15へ出力する。
 IFFT部15は、例えば、平滑化処理部14において平滑化されたICCを周波数領域から時間領域の信号へ変換する。IFFT部15は、時間領域のICCに関する情報をITD検出部16へ出力する。なお、周波数領域信号から時間領域信号へ変換する方法は、IFFTに限定されず、他の方法でもよい。
 ITD検出部16(例えば、推定回路に対応)は、例えば、IFFT部15から出力される時間領域のICCに基づいて、ITDを検出(又は、推定)する(例えば、図3のS15)。
 図2に示すITD推定部10では、例えば、調性の強いステレオ信号ほど(例えば、SFMがより低くいほど)、平滑化の度合いが強いため、上述したように、音源が移動する場合におけるITDの推定精度が低減する可能性がある。以下では、一例として、単一の音源が移動する場合でもITDの推定精度を向上する方法について説明する。
 図4は、本実施の形態に係るITD推定部10aの構成例を示すブロック図である。
 図4に示すITD推定部10aは、例えば、図2に示すITD推定部10の構成と比較して、単一音源移動検出部50が追加される。例えば、図4に示すITD推定部10aにおいて、単一音源移動検出部50と異なる構成部は、図2と同様でよい。
 単一音源移動検出部50(例えば、検出回路及び制御回路に対応)は、例えば、FFT部11から出力される、各チャネルのFFTスペクトルに基づいて、ステレオ信号の単一音源の移動(換言すると、ステレオ信号のITDの時間変化)を検出する機能と、平滑化処理部14の平滑化処理における平滑化の制御(例えば、ICCを平滑化する度合いの制御)を行う機能と、を有してよい。
 単一音源移動検出部50は、例えば、単一音源の移動、例えば、ステレオ信号のITDの時間変化を検出し、単一音源の移動の検出結果に基づいて平滑化を制御してよい。
 図5は、単一音源移動検出部50の構成例を示すブロック図である。
 図5に示す単一音源移動検出部50は、例えば、IPD決定部51、データ選択部52-1、データ選択部52-2、一階差分決定部53-1、53-2、分散決定部54-1、54-2、及び、平滑化制御部55を備えてよい。
 IPD決定部51は、例えば、FFT部11から出力されるLチャネル及びRチャネルそれぞれのFFTスペクトル(例えば、FFT位相スペクトル)に基づいて、チャネル間位相差(IPD又はIPDスペクトルと呼ぶ)を決定(例えば、計算)する。IPD決定部51は、例えば、周波数binそれぞれのIPDスペクトルを決定してよい。IPD決定部51は、IPDに関する情報をデータ選択部52-1及びデータ選択部52-2に出力する。
 ここで、IPDは、例えば、ステレオ信号の2つのチャネルの位相スペクトル間の差として定義されてよい。例えば、チャネル間時間差(ITD)が1サンプル/フレーム程度(例えば、32kHzサンプリング、1フレーム20msの場合、毎フレーム0.03125msずつ増加または減少する場合)で変化するように、単一音源が移動する場合、IPDスペクトルにおいて、線形形状(例えば、のこぎり形状を含む)が低周波数帯域に現れ、高周波数帯域に現れない傾向がある。換言すると、IPDスペクトルにおいて、線形形状が低周波数帯域に現れ、高周波数帯域に現れない音源は、単一で移動している可能性が高い。
 図6は、IPDスペクトルの一例を示す図である。図6において、縦軸はIPDスペクトルの位相を示し、横軸はIPDスペクトルの周波数binを示す。
 なお、図6に示すIPDスペクトルは、例えば、-π~+πの範囲に正規化され、-π~+πの範囲においてラップアラウンド(又は、折り返し)される。ここで、例えば、高い周波数帯域ほど、IPD(例えば、図6におけるIPDの傾き)は大きくなる傾向がある。また、例えば、音源が移動している場合(例えば、ITDが時間変化している場合)には、IPDの値がぶれやすくなる。このため、図6に示すように、IPDスペクトルの低周波数帯域には、明確な線形形状(例えば、のこぎり形状)の成分が現れやすく、IPDスペクトルの高周波数帯域には、前述したラップアラウンドが高頻度で発生しやすく、雑音性の成分が現れやすい。換言すると、例えば、図6に示すように、明確な線形形状は、IPDスペクトルの低周波数帯域に現れやすく、IPDスペクトルの高周波数帯域に現れにくい(または、部分的に線形形状が現れることを含む)ことが分かる。
 以上より、単一音源移動検出部50は、例えば、低周波数帯域、及び、高周波数帯域のそれぞれにおけるIPDスペクトルの形状に基づいて、単一音源の移動、換言すると、ITDの時間変化を検出してよい。例えば、単一音源移動検出部50は、低周波数帯域及び高周波数帯域のそれぞれについて位相スペクトルに線形形状(例えば、図6に示すスペクトル形状)が現れるか否かを検出(又は、特定)することにより、単一音源が移動するケース(例えば、単一音源がゆっくり移動するケース)であるか否かを判定してよい。
 例えば、単一音源移動検出部50は、ステレオ信号の低周波数帯域についてのIPD(例えば、IPDスペクトルの一階差分)の分散と、ステレオ信号の高周波数帯域についてのIPD(例えば、IPDスペクトルの一階差分)の分散とに基づいて、単一音源の移動(例えば、ITDの時間変化)を検出してよい。
 図5において、例えば、データ選択部52-1、一階差分決定部53-1及び分散決定部54-1は、低周波数帯域のIPDスペクトル(又は、IPDデータ)に対応する処理を行う構成部であり、データ選択部52-2、一階差分決定部53-2及び分散決定部54-2は、高周波数帯域のIPDスペクトル(又は、IPDデータ)に対応する処理を行う構成部である。
 データ選択部52-1は、例えば、IPD決定部51から出力される信号のうち、低周波数帯域のIPDデータから、後段の一階差分決定部53-1に出力するデータを選択する。例えば、単一音源移動検出部50は、IPDデータ(位相)を-πから+πの範囲で正規化した場合の+π及び-πにそれぞれ相当するIPDの情報を、単一音源の移動(又は、ITDの時間変化)の検出に用いなくてよい。例えば、データ選択部52-1は、-0.75πから+0.75πの範囲のIPDデータを選択してよい。換言すると、データ選択部52-1は、図6に示すように、IPDスペクトルにおけるラップアラウンド(折り返し)部分に対応するIPDデータを、単一音源の移動検出に用いるIPDデータから除去してよい。データ選択部52-1は、選択したデータを一階差分決定部53-1に出力する。
 一階差分決定部53-1は、例えば、データ選択部52-1において選択された低周波数帯域のIPDデータの一階差分(例えば、隣り合う周波数binのIPDデータ間の差)を決定(例えば、計算)し、一階差分に関する情報を分散決定部54-1に出力する。なお、一階差分決定部53-1において決定(又は検出)する差分は、一階差分に限定されない。例えば、IPDデータの微分によってIPDデータ間の傾きが検出されてもよい。この点は、後述する一階差分決定部53-2についても同様である。
 分散決定部54-1は、例えば、一階差分決定部53-1から出力される低周波数帯域の一階差分の分散を決定(例えば、計算)し、低周波数帯域の一階差分の分散に関する情報を平滑化制御部55に出力する。
 データ選択部52-2は、データ選択部52-1と同様に、例えば、IPD決定部51から出力される信号のうち、高周波数帯域のIPDデータから、後段の一階差分決定部53-2に出力するデータを選択する。データ選択部52-2は、選択したデータを一階差分決定部53-2に出力する。
 一階差分決定部53-2は、一階差分決定部53-1と同様に、例えば、データ選択部52-2において選択された高周波数帯域のIPDデータの一階差分を決定(例えば、計算)し、一階差分に関する情報を分散決定部54-2に出力する。
 分散決定部54-2は、分散決定部54-1と同様に、例えば、一階差分決定部53-2から出力される高周波数帯域の一階差分の分散を決定(例えば、計算)し、高周波数帯域の一階差分の分散に関する情報を平滑化制御部55に出力する。
 ここで、分散決定部54-1及び分散決定部54-2は、例えば、データ選択部52-1及びデータ選択部52-2から出力されるIPDデータを間引いてよい。例えば、IPD[k](kは、データ選択部52-1及びデータ選択部52-2から出力される順にIPDに付与した番号)のうち、k=1,3,5,・・・,2m-1又はk=2,4,6,・・・,2mのように1つ飛ばしにIPDを間引いてもよいし、あるいは、2つ飛ばしにIPDを間引いてもよい。分散決定部54-1及び分散決定部54-1は、例えば、間引き後のIPDデータに基づいて分散を決定してよい。IPDデータの間引きにより、分散決定部54-1及び分散決定部54-2における演算量を低減できる。なお、IPDデータの間引き方法は、上述した1つ飛ばし又は2つ飛ばしの間引きに限定されず、他の方法でもよい。また、例えば、分散決定部54-1及び分散決定部54-2は、低周波数帯域及び高周波数帯域の少なくとも一方の中心付近の規定の帯域(例えば、100Hz幅又は200Hz幅)における分散を計算してもよい。
 平滑化制御部55は、例えば、分散決定部54-1から出力される低周波数帯域の一階差分の分散、分散決定部54-2から出力される高周波数帯域の一階差分の分散、及び、SFM決定部13から出力されるSFMに基づいて、平滑化係数を決定(例えば、計算)する。平滑化制御部55は、決定した平滑化係数に関する情報を平滑化処理部14に出力する。
 例えば、特許文献1では、平滑化係数(例えば、「alpha」と表す)にSFMが設定される。本実施の形態では、例えば、平滑化係数alphaは、以下の式(1)に基づいて計算されてよい。
 alpha = Max(SFM, 1-VL/VH)   (1)
 ここで、関数Max(A, B)は、AとBとの間でより大きい方の値を出力する関数である。また、VLは、分散決定部54-1によって決定された低周波数帯域の分散を示し、VHは、分散決定部54-2によって決定された高周波数帯域の分散を示す。
 例えば、図6に示すように、低周波数帯域に線形形状が現れ、高周波数帯域に線形形状が現れない音源(例えば、単一移動する音源)の場合、低周波数帯域の分散VLは低く、高周波数帯域の分散VHは高くなる傾向がある。この場合、式(1)において、1-VL/VHの値は高くなりやすく(例えば、より1に近い値になり)、alphaの値は1に近い値になりやすい。
 ここで、alpha=1の場合は、平滑化処理を適用しない場合に相当する。よって、平滑化制御部55は、例えば、単一音源の移動(例えば、図6に示すようなIPDスペクトルの形状)を検出した場合の平滑化の度合い(又は、強度)を、単一音源の移動を検出しない場合の平滑化の度合いよりも弱める。
 これにより、例えば、音源が単一移動する場合には、平滑化処理部14における平滑化処理が弱められる、換言すると、過去フレームのICCの影響が低減される。そのため、ITD検出部16は、単一音源の移動によるICCの瞬時的な変化を反映したITDを推定できる。よって、ITD推定部10aは、単一音源が移動する場合でも、ITDの推定精度を向上できる。
 または、平滑化制御部55は、例えば、IPDスペクトルの一階差分の分散と閾値との比較に基づいて、平滑化係数alphaを決定してもよい。換言すると、平滑化制御部55は、例えば、IPDスペクトルの一階差分の分散と閾値との比較に基づいて、単一音源の移動を検出し、単一音源の移動の検出結果に基づいて、平滑化係数alphaを決定してよい。
 例えば、平滑化制御部55は、低周波数帯域の分散VLと高周波数帯域の分散VHとが所定の条件を満たす場合にステレオ信号の音源が単一で移動している(又は、ITDが時間変化している)と判断し、平滑化の度合いを、条件を満たさない場合の平滑化の度合いよりも弱めてよい。なお、平滑化の度合いを弱めることは、例えば、平滑化を実行しないことを含んでもよい。
 例えば、平滑化制御部55は、規定区間(例えば、連続する5フレーム)において、VL < Th1かつVH/VL > Th2の条件を満たす場合に平滑化係数alpha=1を設定し、規定区間においてVL < Th1、かつ、VH/VL > Th2の条件を満たさない場合に平滑化係数alpha=SFMを設定してもよい。
 ここで、例えば、図6に示すIPDスペクトルの形状のケースでは、低周波数帯のIPDスペクトル(例えば、線形形状)の一階差分の分散VLは小さく、高周波数帯のIPDスペクトルの一階差分の分散VHは大きくなる傾向にあるので、分散VLが閾値Th1よりも小さく(VL < Th1)、かつ、分散VLに対する分散VHの比が閾値Th2よりも大きい(VH/VL > Th2)という条件を満たしやすい。よって、規定区間において、VL < Th1かつVH/VL > Th2の条件を満たす場合には、平滑化制御部55は、単一音源の移動を検出したと判断し、平滑化係数alpha=1、すなわち、平滑化を実行しないことを決定してよい。これにより、ITD推定部10aは、単一音源が移動する場合でも、ITDの推定精度を向上できる。
 その一方で、規定区間において、VL < Th1かつVH/VL > Th2の条件を満たさない場合、平滑化制御部55は、単一音源の移動を検出しないと判断し、平滑化係数alpha=SFMとして、平滑化の実行を決定してよい。また、平滑化制御部55は、alphaが一度alpha=1に設定された後、VL<Th1及びVH/VL>Th2の何れか一方の条件を規定区間(例えば、連続する5フレーム)において満たさない場合、例えば、単一音源の移動が完了したと判断し、alpha=SFMに設定(又は、再設定、切り替え)してよい。これにより、例えば、ITD推定部10aは、音源が移動しない場合には、調性の強い信号に対して、ICCの平滑化によりITDの推定精度を向上できる。
 なお、上述した条件のうち、VH/VL > Th2の代わりに、VL/VH < Th3(例えば、Th3=1/Th2)が適用されてもよい。ここで、Th1及びTh2は閾値であり、例えば,Th1は2.25に設定され、Th2は1.50に設定されてよい。なお、Th1及びTh2の設定値は、これらに限定されず、他の値でもよい。
 また、ここでは、一例として、1フレーム=20msを想定し、規定区間が5フレーム(例えば、100ms)の場合について説明した。この場合、上述した閾値による判定処理における平滑化係数alphaの切り替えは、最短で100ms毎に可能である。これにより、平滑化制御部55は、規定区間に亘るIPDスペクトルの形状に基づいて単一音源の移動を判断するので、例えば、ある位相差を持つ周期性の強い単一音源が移動していない場合に規定区間内の一部のフレームにおいてラップアラウンドによってVHが大きくなることによって音源の移動を検出するといった単一音源の移動の検出判断を誤り得る場合でも、平滑化処理(例えば、平滑化係数alpha)の誤った切り替えの発生を抑制できる。なお、規定区間は100ms(又は、5フレーム)に限定されず、他の値でもよい。例えば、規定区間は、ステレオ符号化システムにおけるモードの切り替え周期に応じて決定されてもよい。
 平滑化処理部14は、単一音源移動検出部50から出力される平滑化係数alphaを用いて、ICC決定部12から出力されるICCに平滑化処理を行ってよい。例えば、平滑化処理は、次式(2)に基づいて実行されてよい。
 ICCsmooth(t)[n] = (1-alpha)*ICCsmooth(t-1)[n]+alpha*ICC[n]     (2)
 ここで、ICCsmooth(t)[n]は、時間t(又は、t番目のフレーム)において平滑化されるICCのn番目の要素を示し、alphaは平滑化制御部55において決定される平滑化係数を示し、ICC[n]は、現在の時間(又は現在のフレーム)のICCのn番目の要素を示す。
 そして、ITD検出部16は、例えば、平滑化の度合いを制御されたICCに基づいて、ITDを推定してよい。
 図7は、本実施の形態に係るITD推定処理の動作例を示すフローチャートである。なお、図7に示すS11~S15の処理は、図3に示すS11~S15の処理と同様である。
 図7において、ITD推定部10aは、例えば、ステレオ信号のLチャネル及びRチャネルのそれぞれのFFTスペクトルに基づいて、IPDスペクトルを計算する(S51)。
 ITD推定部10aは、例えば、IPDスペクトルに基づいて、一階差分を計算する(S52)。また、ITD推定部10aは、例えば、IPDスペクトルの一階差分に基づいて、低周波数帯域の一階差分の分散(例えば、VL)、及び、高周波数帯域の一階差分の分散(例えば、VH)を計算する(S53)。
 ITD推定部10aは、例えば、規定区間(例えば、連続する5フレーム)においてVL < Th1かつVH/VL > Th2の条件を満たすか否かを判断する(S54)。
 条件を満たす場合(S54:Yes)、ITD推定部10aは、ICCに対する平滑化を行わない(例えば、alpha=1の設定)、又は、ICCに対して弱平滑化(例えば、式(1)に基づくalphaの設定)を行う(S55)。その一方で、条件を満たさない場合(S54:No)、例えば、単一音源が移動する可能性が低い場合、ITD推定部10aは、SFMに基づいてICCを平滑化する(S14)。
 このように、本実施の形態によれば、ITD推定部10aは、単一音源移動検出部50を備え、ステレオ信号の単一音源の移動(ITDの時間変化)を検出する。ITD推定部10aは、例えば、ステレオ信号の単一音源の移動に関する情報(例えば、検出結果)に基づいて、ICCの複数のフレーム(区間)における平滑化を制御する。
 これにより、ITD推定部10aは、例えば、単一音源が移動する場合のITDの時間変化に対するロバスト性を向上できる。換言すると、ITD推定部10aは、例えば、移動する音源の追跡の精度(例えば、ITDの時間的追従性)を向上できる。よって、本実施の形態によれば、ステレオ信号の単一音源が移動する場合でも、ITDの推定精度を向上させ、符号化性能を向上できる。
 (実施の形態2)
 本実施の形態に係るITD推定部10aは、例えば、単一音源移動検出部60の構成が実施の形態1と異なり、他の構成は、実施の形態1の構成と同様でよい。
 図8は、本実施の形態に係る単一音源移動検出部60の構成例を示すブロック図である。図8に示す単一音源移動検出部60は、単一音源移動検出部50と同様の構成に加え、データ選択部61-1、及び、データ選択部61-2を備える。
 データ選択部61-1は、例えば、一階差分決定部53-1と分散決定部54-1との間に備えられてよい。データ選択部61-1は、例えば、低周波数帯域の一階差分から外れ値を除去して、データを選択してよい。
 外れ値の除去は、例えば、データ選択部61-1において選択されるデータ(例えば、IPDスペクトルの一階差分)の上限値及び下限値の設定(換言すると、境界の設定)により実現されてよい。例えば、データの上限値はDmean+π/2に設定され、データの下限値はDmean-π/2に設定されてよい。ここで、Dmeanは一階差分の平均値を示す。
 データ選択部61-2は、データ選択部61-1と同様に、例えば、一階差分決定部53-2と分散決定部54-2との間に備えられてよい。データ選択部61-2は、例えば、高周波数帯域の一階差分から外れ値を除去して、データを選択してよい。
 このように、単一音源移動検出部60は、例えば、IPDスペクトル(例えば、上述した例では、-0.75π~+0.75πの範囲)の一階差分の平均値Dmeanに基づいて、単一音源の移動(例えば、ITDの時間変化)の検出に用いる一階差分データを選択する。
 このデータ選択(又は、外れ値の除去)により、例えば、IPDスペクトルの一階差分(例えば、周波数領域におけるIPDの傾き成分)の精度を向上できるので、ITD推定部10aにおいて、単一音源が移動する場合のIPDスペクトルの形状の判定精度(例えば、単一音源の移動の検出精度)を向上できる。これにより、本実施の形態によれば、例えば、実施の形態1と比較して、ITDの推定精度を向上でき、符号化性能を向上できる。
 なお、本実施の形態において、単一音源移動検出部60は、例えば、データ選択部61-1及びデータ選択部61-2における一階差分のデータ選択の適用の有無を切り替えてもよい。
 以上、本開示の実施の形態について説明した。
 [平滑化制御の変形例]
 例えば、平滑化制御は、SFM(又は、調性に関する情報)に基づいて行われてもよい。
 図9は、変形例に係るITD推定部10bの構成例を示すブロック図である。図9に示すITD推定部10bは、例えば、実施の形態1に係るITD推定部10aの構成に加え、判定部71を備えてよい。なお、ITD推定部10bは、実施の形態1の単一音源移動検出部50を備えてもよく、実施の形態2の単一音源移動検出部60を備えてもよい。
 図9において、判定部71は、例えば、SFM決定部13から入力されるSFMに関する情報に基づいて、単一音源移動検出部50による平滑化制御(例えば、平滑化係数alphaの決定)を行うか否かを判定してよい。
 ここで、調性の弱いステレオ信号ほど、SFMは高くなる傾向があり、SFMによってICCが平滑化されにくい。このため、調性の弱いステレオ信号の場合のようにSFMが高い場合(例えば、SFMが閾値以上の場合)には、調性の強いステレオ信号の場合のようにSFMが低い場合(例えば、SFMが閾値未満の場合)と比較して、単一音源移動検出部50の平滑化制御によるITDの推定精度の向上効果は低い可能性がある。
 そこで、判定部71は、例えば、SFMが閾値以上の場合、単一音源移動検出部50による平滑化制御を実行しないことを決定してよい。この場合、単一音源移動検出部50は、例えば、SFM決定部13から出力されるSFMを平滑化係数に設定してよい(例えば、alpha=SMF)。
 その一方で、判定部71は、例えば、SFMが閾値未満の場合、単一音源移動検出部50による平滑化制御の実行を決定してよい。この場合、単一音源移動検出部50は、例えば、実施の形態1と同様に、単一音源の移動の検出に基づくICCの平滑化制御(例えば、平滑化係数alphaの決定)を行ってもよい。
 このように、SFMに基づく平滑化制御により、例えば、ステレオ信号の調性に応じて、単一音源の移動の検出に基づく平滑化制御の適用の有無(換言すると、平滑化制御をバイパスするか否か)を切り替えられる。したがって、例えば、平滑化制御の簡素化あるいは効率化を図ることができる。
 [低周波数帯域及び高周波数帯域の設定について]
 例えば、単一音源が移動している場合には、IPDスペクトル(位相)のラップアラウンドが高周波において頻繁に発生する傾向がある。
 例えば、単一音源の移動を検出する際の低周波数帯域及び高周波数帯域の設定として、低周波数帯域及び高周波数帯域の双方に、ラップアラウンドが発生しやすい周波数帯と比較して低い周波数が選択されてよい。
 例えば、0~8kHzが低周波数帯域に設定され、8kHz~16kHzが高周波数帯域に設定されてよい。また、低周波数帯及び高周波数帯域のそれぞれの他の設定例として、0~2kHz及び2kHz~4kHz、0~3kHz及び3kHz~6kHz、又は、0~4kHz及び4kHz~8kHzでもよい。
 なお、低周波数帯及び高周波数帯域の設定は、これらの例に限定されず、他の設定値でもよい。
 また、例えば、低周波数帯と高周波数帯とには、それぞれ離れた周波数帯が設定されてもよく、一部が重複する周波数帯が設定されてもよく、それぞれの帯域幅が異なってもよい。
 また、例えば、低周波数帯域及び高周波数帯域の少なくとも一つの周波数帯域に関する設定(例えば、周波数位置及び帯域幅の少なくとも一つ)は可変でもよい。例えば、周波数帯域の設定は、ステレオ信号(例えば、音声信号又は音響信号)の種類、音源の位置、又は、信号における支配的な周波数帯域といった分析結果に基づいて決定(又は、変更)されてもよい。または、例えば、周波数帯域の設定は、IPDスペクトルの一階差分の平均値に基づいて決定されてもよい。
 以上、低周波数帯域及び高周波数帯域の設定の例について説明した。
 また、上述した各実施の形態では、ITD推定部10aは、チャネル間位相差(IPD)に基づいて、ステレオ信号の単一音源の移動を検出する場合について説明したが、ステレオ信号の単一音源の移動を検出する方法はこれに限定されず、他の方法によって単一音源の移動が検出されてもよい。
 以上、図面を参照しながら各種の実施形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。また、上述した各実施の形態における各構成要素を任意に組み合わせてもよい。
 また、上述した実施の形態における「・・・部」という表記は、「・・・回路(circuitry)」、「・・・デバイス」、「・・・ユニット」、又は、「・・・モジュール」といった他の表記に置換されてもよい。
 本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるLSIとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのLSI又はLSIの組み合わせによって制御されてもよい。LSIは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。LSIはデータの入力と出力を備えてもよい。LSIは、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 集積回路化の手法はLSIに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。
 さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 本開示は、通信機能を持つあらゆる種類の装置、デバイス、システム(通信装置と総称)において実施可能である。通信装置は無線送受信機(トランシーバー)と処理/制御回路を含んでもよい。無線送受信機は受信部と送信部、またはそれらを機能として、含んでもよい。無線送受信機(送信部、受信部)は、RF(Radio Frequency)モジュールと1または複数のアンテナを含んでもよい。RFモジュールは、増幅器、RF変調器/復調器、またはそれらに類するものを含んでもよい。通信装置の、非限定的な例としては、電話機(携帯電話、スマートフォン等)、タブレット、パーソナル・コンピューター(PC)(ラップトップ、デスクトップ、ノートブック等)、カメラ(デジタル・スチル/ビデオ・カメラ等)、デジタル・プレーヤー(デジタル・オーディオ/ビデオ・プレーヤー等)、着用可能なデバイス(ウェアラブル・カメラ、スマートウオッチ、トラッキングデバイス等)、ゲーム・コンソール、デジタル・ブック・リーダー、テレヘルス・テレメディシン(遠隔ヘルスケア・メディシン処方)デバイス、通信機能付きの乗り物又は移動輸送機関(自動車、飛行機、船等)、及び上述の各種装置の組み合わせがあげられる。
 通信装置は、持ち運び可能又は移動可能なものに限定されず、持ち運びできない又は固定されている、あらゆる種類の装置、デバイス、システム、例えば、スマート・ホーム・デバイス(家電機器、照明機器、スマートメーター又は計測機器、コントロール・パネル等)、自動販売機、その他IoT(Internet of Things)ネットワーク上に存在し得るあらゆる「モノ(Things)」をも含む。
 通信には、セルラーシステム、無線LAN(Local Area Network)システム、通信衛星システム等によるデータ通信に加え、これらの組み合わせによるデータ通信も含まれる。
 また、通信装置には、本開示に記載される通信機能を実行する通信デバイスに接続又は連結される、コントローラやセンサー等のデバイスも含まれる。例えば、通信装置の通信機能を実行する通信デバイスが使用する制御信号やデータ信号を生成するような、コントローラやセンサーが含まれる。
 また、通信装置には、上記の非限定的な各種装置と通信を行う、あるいはこれら各種装置を制御する、インフラストラクチャ設備、例えば、基地局、アクセスポイント、その他あらゆる装置、デバイス、システムが含まれる。
 本開示の一実施例に係る信号処理装置は、ステレオ信号のチャネル間時間差の時間変化を検出する検出回路と、前記チャネル間時間差の時間変化に基づいて、チャネル間相関関数を平滑化する度合いを制御する制御回路と、具備する。
 本開示の一実施例において、前記平滑化の度合いを制御された前記チャネル間相関関数に基づいて、前記チャネル間時間差を推定する推定回路を更に備える。
 本開示の一実施例において、前記検出回路は、前記ステレオ信号の第1の帯域についてのチャネル間位相差の第1の分散と、前記ステレオ信号の第2の帯域についてのチャネル間位相差の第2の分散とに基づいて、前記チャネル間時間差の時間変化を検出する。
 本開示の一実施例において、前記制御回路は、前記第1の分散と前記第2の分散とが所定の条件を満たす場合に前記ステレオ信号の音源が単一で移動していると判断し、前記平滑化の度合いを、前記条件を満たさない場合の前記平滑化の度合いよりも弱める。
 本開示の一実施例において、前記前記平滑化の度合いを弱めることは、前記平滑化を実行しないことを含む。
 本開示の一実施例において、前記第2の帯域は、前記第1の帯域よりも高い帯域であり、前記条件は、前記第1の分散が第1閾値よりも小さく、かつ、前記第1の分散に対する前記第2の分散の比が第2閾値よりも大きい場合である。
 本開示の一実施例において、前記検出回路は、前記ステレオ信号のチャネル間位相差を-πから+πの範囲で正規化した場合の+π及び-πにそれぞれ相当するチャネル間位相差の情報を、前記チャネル間時間差の時間変化の検出に用いない。
 本開示の一実施例において、前記検出回路は、前記ステレオ信号のチャネル間位相差の一階差分の平均値に基づいて、前記チャネル間時間差の時間変化の検出に用いるチャネル間位相差の一階差分を選択する。
 本開示の一実施例に係る信号処理方法において、信号処理装置は、ステレオ信号のチャネル間時間差の時間変化を検出し、前記チャネル間時間差の時間変化に基づいて、チャネル間相関関数を平滑化する度合いを制御する。
 2021年1月18日出願の63/138,648の米国仮出願の開示内容、2021年1月25日出願の63/141,198の米国仮出願の開示内容、及び、2021年5月6日出願の特願2021-078567の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本開示の一実施例は、符号化システム等に有用である。
 10,10a,10b ITD推定部
 11 FFT部
 12 ICC決定部
 13 SFM決定部
 14 平滑化処理部
 15 IFFT部
 16 ITD検出部
 50,60 単一音源移動検出部
 51 IPD決定部
 52,61 データ選択部
 53 一階差分決定部
 54 分散決定部
 55 平滑化制御部
 71 判定部

Claims (9)

  1.  ステレオ信号のチャネル間時間差の時間変化を検出する検出回路と、
     前記チャネル間時間差の時間変化に基づいて、チャネル間相関関数を平滑化する度合いを制御する制御回路と、
     具備する信号処理装置。
  2.  前記平滑化の度合いを制御された前記チャネル間相関関数に基づいて、前記チャネル間時間差を推定する推定回路を更に備えた、
     請求項1に記載の信号処理装置。
  3.  前記検出回路は、前記ステレオ信号の第1の帯域についてのチャネル間位相差の第1の分散と、前記ステレオ信号の第2の帯域についてのチャネル間位相差の第2の分散とに基づいて、前記チャネル間時間差の時間変化を検出する、
     請求項1に記載の信号処理装置。
  4.  前記制御回路は、前記第1の分散と前記第2の分散とが所定の条件を満たす場合に前記ステレオ信号の音源が単一で移動していると判断し、前記平滑化の度合いを、前記条件を満たさない場合の前記平滑化の度合いよりも弱める、
     請求項3に記載の信号処理装置。
  5.  前記前記平滑化の度合いを弱めることは、前記平滑化を実行しないことを含む、
     請求項4に記載の信号処理装置。
  6.  前記第2の帯域は、前記第1の帯域よりも高い帯域であり、前記条件は、前記第1の分散が第1閾値よりも小さく、かつ、前記第1の分散に対する前記第2の分散の比が第2閾値よりも大きい場合である、
     請求項4に記載の信号処理装置。
  7.  前記検出回路は、前記ステレオ信号のチャネル間位相差を-πから+πの範囲で正規化した場合の+π及び-πにそれぞれ相当するチャネル間位相差の情報を、前記チャネル間時間差の時間変化の検出に用いない、
     請求項1に記載の信号処理装置。
  8.  前記検出回路は、前記ステレオ信号のチャネル間位相差の一階差分の平均値に基づいて、前記チャネル間時間差の時間変化の検出に用いるチャネル間位相差の一階差分を選択する、
     請求項1に記載の信号処理装置。
  9.  信号処理装置は、
     ステレオ信号のチャネル間時間差の時間変化を検出し、
     前記チャネル間時間差の時間変化に基づいて、チャネル間相関関数を平滑化する度合いを制御する、
     信号処理方法。
PCT/JP2021/038178 2021-01-18 2021-10-15 信号処理装置、及び、信号処理方法 WO2022153632A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022575083A JPWO2022153632A1 (ja) 2021-01-18 2021-10-15
US18/271,795 US20240064483A1 (en) 2021-01-18 2021-10-15 Signal processing device and signal processing method

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US202163138648P 2021-01-18 2021-01-18
US63/138,648 2021-01-18
US202163141198P 2021-01-25 2021-01-25
US63/141,198 2021-01-25
JP2021-078567 2021-05-06
JP2021078567 2021-05-06

Publications (1)

Publication Number Publication Date
WO2022153632A1 true WO2022153632A1 (ja) 2022-07-21

Family

ID=82448306

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/038178 WO2022153632A1 (ja) 2021-01-18 2021-10-15 信号処理装置、及び、信号処理方法

Country Status (3)

Country Link
US (1) US20240064483A1 (ja)
JP (1) JPWO2022153632A1 (ja)
WO (1) WO2022153632A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130301835A1 (en) * 2011-02-02 2013-11-14 Telefonaktiebolaget L M Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
JP2015518176A (ja) * 2012-04-05 2015-06-25 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ
JP2020060788A (ja) * 2016-01-22 2020-04-16 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン チャネル間時間差を推定する装置及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130301835A1 (en) * 2011-02-02 2013-11-14 Telefonaktiebolaget L M Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
JP2015518176A (ja) * 2012-04-05 2015-06-25 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ
JP2020060788A (ja) * 2016-01-22 2020-04-16 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン チャネル間時間差を推定する装置及び方法

Also Published As

Publication number Publication date
US20240064483A1 (en) 2024-02-22
JPWO2022153632A1 (ja) 2022-07-21

Similar Documents

Publication Publication Date Title
US10714100B2 (en) Audio signal decoding
RU2596592C2 (ru) Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала
JP5625032B2 (ja) マルチチャネルシンセサイザ制御信号を発生するための装置および方法並びにマルチチャネル合成のための装置および方法
US9293146B2 (en) Intensity stereo coding in advanced audio coding
WO2011000409A1 (en) Positional disambiguation in spatial audio
MX2012009785A (es) Aparato para generar señal de mezcla descendente mejorada, metodo para generar señal de mezcla descendente mejorada y programa de computadora.
CN111489758A (zh) 解码装置、解码方法及存储介质
US8509092B2 (en) System, apparatus, method, and program for signal analysis control and signal control
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
WO2010037426A1 (en) An apparatus
EP4082009A1 (en) The merging of spatial audio parameters
EP2378515B1 (en) Audio signal decoding device and method of balance adjustment
KR20150103252A (ko) 스테레오 신호를 결정하는 방법
KR102208842B1 (ko) 오디오 신호들의 디코딩
WO2022153632A1 (ja) 信号処理装置、及び、信号処理方法
US11270710B2 (en) Encoder and encoding method
JP2006337767A (ja) 低演算量パラメトリックマルチチャンネル復号装置および方法
WO2024053353A1 (ja) 信号処理装置、及び、信号処理方法
CN117083881A (zh) 分离空间音频对象
RU2648632C2 (ru) Классификатор многоканального звукового сигнала
WO2023153228A1 (ja) 符号化装置、及び、符号化方法
WO2020217781A1 (ja) 到来方向推定装置、システム、及び、到来方向推定方法
WO2023066456A1 (en) Metadata generation within spatial audio
JP2022528881A (ja) パラメトリックマルチチャネル動作と個々のチャネル動作との間で切り替えるためのマルチチャネルオーディオエンコーダ、デコーダ、方法、およびコンピュータプログラム
KR20230158590A (ko) 공간 오디오 스트림 결합

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21919523

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022575083

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18271795

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21919523

Country of ref document: EP

Kind code of ref document: A1