WO2011048792A1 - 音響信号処理装置、音響符号化装置および音響復号装置 - Google Patents

音響信号処理装置、音響符号化装置および音響復号装置 Download PDF

Info

Publication number
WO2011048792A1
WO2011048792A1 PCT/JP2010/006180 JP2010006180W WO2011048792A1 WO 2011048792 A1 WO2011048792 A1 WO 2011048792A1 JP 2010006180 W JP2010006180 W JP 2010006180W WO 2011048792 A1 WO2011048792 A1 WO 2011048792A1
Authority
WO
WIPO (PCT)
Prior art keywords
qmf
acoustic signal
sequence
coefficient
adjustment
Prior art date
Application number
PCT/JP2010/006180
Other languages
English (en)
French (fr)
Inventor
石川 智一
則松 武志
コック セン チョン
フアン ゾウ
ハイシャン ジョン
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to EP10824645.5A priority Critical patent/EP2360688B1/en
Priority to US13/256,055 priority patent/US9026236B2/en
Priority to CN201080003682.1A priority patent/CN102257567B/zh
Priority to JP2011537131A priority patent/JP5422664B2/ja
Publication of WO2011048792A1 publication Critical patent/WO2011048792A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Definitions

  • the present invention relates to an acoustic signal processing apparatus that performs digital signal processing of an acoustic signal and an audio signal (hereinafter referred to as an acoustic signal).
  • phase vocoder As a technology for compressing and expanding an acoustic signal on a time axis.
  • the phase vocoder device disclosed in Non-Patent Document 1 applies a fast Fourier transform (FFT) or a short-time Fourier transform (STFT) to a digitized acoustic signal in the frequency domain.
  • FFT fast Fourier transform
  • STFT short-time Fourier transform
  • time expansion / contraction processing time expansion processing
  • pitch conversion processing pitch shift processing
  • Pitch is also called pitch frequency and means the pitch of the sound.
  • the time extension process is a process for expanding and contracting the time length of the acoustic signal without changing the pitch of the acoustic signal.
  • the pitch shift processing is an example of frequency modulation processing, and is processing for changing the pitch of the acoustic signal without changing the time length of the acoustic signal.
  • the pitch shift process is also called a pitch extension process.
  • the pitch shift process may include a time extension process.
  • the time extension process may include a pitch shift process.
  • the time extension processing can change the duration (reproduction time) of the input acoustic signal without changing the local spectral characteristics of the spectrum signal obtained by performing FFT on the input acoustic signal.
  • the principle is as follows.
  • An acoustic signal processing device that performs time extension processing first divides an input acoustic signal into fixed time intervals and analyzes the fixed time intervals (for example, every 1024 samples). At that time, the acoustic signal processing device processes the input acoustic signal by overlapping each time interval (for example, 128 samples) shorter than the divided time unit within the divided time unit.
  • the overlapping time interval is referred to as a hop size (Hop Size).
  • the hop size of the input signal is R a.
  • the output acoustic signal calculated by the phase vocoder process is an acoustic signal in which the time interval is overlapped by a certain number of samples.
  • the hop size of the output acoustic signal is R s .
  • R s > R a and in the case of time compression, R s ⁇ R a .
  • R s > R a a case where time expansion is performed (R s > R a ) will be described as an example.
  • the rate r of time extension is defined as in Equation 1.
  • each time block signal divided and overlapped at regular time intervals often has a temporally coherent pattern. Therefore, the acoustic signal processing device performs frequency conversion on each time block signal. Typically, the acoustic signal processing device frequency-converts each input time block signal and adjusts the phase information. Thereafter, the acoustic signal processing device returns the frequency domain signal to the time domain signal as an output time block signal.
  • the audio signal processor implements an analysis window function window length L in the overlapped time blocks per unit in hopsize R a.
  • the acoustic signal processing device converts each block into a frequency domain using FFT.
  • the frequency characteristic at the point of uR a (u ⁇ N) is calculated by Equation 2.
  • h (n) is an analysis window function
  • k indicates a frequency index
  • W L mk is Is calculated by
  • phase information of the frequency signal thus calculated that is, the phase information before adjustment is ⁇ (uR a , k).
  • the acoustic signal processing device calculates a frequency component ⁇ (uR a , k) having a frequency index k by the following method.
  • the acoustic signal processing apparatus calculates the increment ⁇ k u of the phase signals of (u ⁇ 1) R a and uR a , which are consecutive analysis points, as shown in Equation 3 Calculate according to
  • the acoustic signal processing device can calculate each frequency component ⁇ (uR a , k) according to Equation 4.
  • the acoustic signal processing device calculates the phase at the synthesis point uR s according to Equation 5.
  • the acoustic signal processing device uses the frequency signal amplitude
  • the acoustic signal processing device inserts the re-synthesized time block signal at the synthesis point uR s . Then, the acoustic signal processing device generates a time-expanded signal by performing overlap addition on the synthesized output signal and the signal synthesized and output in the previous block.
  • the overlap addition with the synthesized output of the previous block is shown in Equation 7.
  • the above three steps are also applied to the analysis point (u + 1) R a .
  • the above three steps are repeated for all input signal blocks.
  • the acoustic signal processing apparatus can calculate a signal that is time-expanded at the expansion ratio R s / R a .
  • window function h (m) needs to satisfy a power-complementary condition in order to correct modulation (temporal fluctuation) in the amplitude direction of the time-extended signal.
  • the pitch shift process is a method of changing the pitch of a signal without changing the elapsed time of the signal.
  • a simple way to change the pitch of the digital audio signal is to sample the input signal.
  • the pitch shift process can be combined with the time extension process.
  • the acoustic signal processing apparatus can also restore the time length of the original input signal after the time expansion processing.
  • the technique for calculating the pitch shift processing may generally cause a considerably worse side effect than the time-based resample processing, but details thereof will not be described in the present invention.
  • time expansion processing may be time compression processing depending on the expansion ratio. Therefore, here, the expression of time expansion indicates time expansion and contraction and includes time compression.
  • the acoustic signal processing apparatus may execute a process different from the time extension process after the time extension process.
  • the acoustic signal processing apparatus needs to convert a signal in the time domain into a signal in the analysis area.
  • an analysis area there is a QMF (Quadrature Mirror Filter) area having components in both the time axis direction and the frequency axis direction. Since the QMF region has components in both the time axis direction and the frequency axis direction, it may be referred to as a composite complex region, a composite frequency region, a subband region, or a frequency subband region.
  • QMF Quadrature Mirror Filter
  • the complex QMF filter bank is one method for converting a time domain signal into a composite complex domain having components on both the time axis and the frequency axis.
  • the QMF filter bank is typically used for parametric-based audio coding methods such as Spectral Band Replication (SBR) technology, Parametric Stereo (PS), and Spatial Audio Coding (SAC).
  • SBR Spectral Band Replication
  • PS Parametric Stereo
  • SAC Spatial Audio Coding
  • the QMF filter bank used in these encodings has a characteristic of oversampling a frequency domain signal expressed by a complex value for each subband twice. This is a specification for realizing processing of a signal in the subband frequency domain without generating aliasing distortion.
  • the QMF analysis filter bank converts the real-valued discrete-time signal x (n) of the input signal into a complex signal s k (n) in the subband frequency domain.
  • s k (n) is calculated by Equation 8.
  • p (n) is an impulse response of an L-1 order prototype filter having a low-pass characteristic.
  • is a phase parameter
  • M is the number of subbands.
  • a signal divided into subband signals by the QMF analysis filter bank is referred to as a QMF coefficient.
  • the QMF coefficient is adjusted in the parametric coding method before the synthesis process.
  • the QMF synthesis filter bank calculates the subband signal s ′ k (n) by zero-padding the leading M coefficients of the QMF coefficients (filling the values with 0). Then, the QMF synthesis filter bank calculates the time signal x ′ (n) according to Equation 9.
  • is the phase parameter
  • the linear phase prototype filter coefficient p (n) and the phase parameter composed of real values are designed so as to almost satisfy the recombinability condition of the input real value signal x (n). ing.
  • the QMF conversion is a mixed conversion between the time axis direction and the frequency axis direction. That is, it is possible to extract information indicating the frequency component included in the signal and the change in frequency over time.
  • the frequency component can be extracted for each subband and unit time.
  • the unit time is referred to as a time slot.
  • the real input signal is divided into overlapping blocks of length L and hop size M.
  • each block is converted into a form in which M complex subband signals become one time slot (upper stage in FIG. 31).
  • the L-sample signal in the time domain is converted into L complex QMF coefficients.
  • This complex QMF coefficient is composed of L / M time slots and M subbands as shown in the middle of FIG.
  • Each time slot is synthesized into M real time signals by the QMF synthesis process using the QMF coefficients of (L / M ⁇ 1) time slots before the time slot (FIG. 31). Bottom).
  • the acoustic signal processing apparatus can calculate a frequency signal at a certain moment in the QMF region by an original combination of time resolution and frequency resolution.
  • the acoustic signal processing apparatus can detect from a complex QMF coefficient block composed of L / M time slots and M subbands between phase information of a certain time slot and phase information of an adjacent time slot.
  • the phase difference can be calculated.
  • the phase difference between the phase information of a certain time slot and the phase information of an adjacent time slot is calculated by Expression 10.
  • ⁇ (n, k) ⁇ (n, k) ⁇ (n ⁇ 1, k) (Formula 10)
  • ⁇ (n, k) indicates phase information.
  • the acoustic signal may be signal processed in such a QMF region.
  • the acoustic signal processing apparatus must perform processing for converting a time domain signal into a QMF domain signal in addition to the time expansion process involving FFT and inverse FFT with a large amount of computation. Therefore, the calculation amount has further increased.
  • an object of the present invention is to provide an acoustic signal processing apparatus that can realize acoustic signal processing with a low calculation amount.
  • an acoustic signal processing device is an acoustic signal processing device that converts an input acoustic signal sequence using a predetermined adjustment coefficient, and the input acoustic signal sequence is converted into a QMF (Quadrature).
  • the adjustment unit may be configured to obtain the predetermined adjustment coefficient indicating the predetermined time expansion / contraction ratio so that the input acoustic signal string subjected to time expansion / contraction by a predetermined time expansion / contraction ratio is obtained from the adjusted QMF coefficient array.
  • the QMF coefficient sequence may be adjusted depending on
  • the adjustment unit may be configured to obtain the predetermined adjustment coefficient indicating the predetermined frequency modulation ratio so that the input acoustic signal sequence that is frequency-modulated with a predetermined frequency modulation ratio is obtained from the adjusted QMF coefficient sequence.
  • the QMF coefficient sequence may be adjusted depending on
  • the filter bank generates the QMF coefficient sequence for each time interval by sequentially converting the input acoustic signal sequence to the QMF coefficient sequence for each time interval, and the adjustment unit includes the time interval for each time interval.
  • a calculation circuit for calculating phase information for each time slot and each sub-band of the QMF coefficient sequence generated in a step, and adjusting the phase information for each time slot and each sub-band depending on the predetermined adjustment coefficient may be provided.
  • phase information of the QMF coefficient is adaptively adjusted according to the adjustment coefficient.
  • the adjustment circuit calculates a value calculated depending on the phase information of the first time slot of the QMF coefficient sequence and the predetermined adjustment coefficient for each subband, and the phase for each time slot.
  • the phase information for each time slot may be adjusted by adding to the information.
  • phase information is adaptively adjusted according to the adjustment coefficient for each time slot.
  • the calculation circuit further calculates amplitude information for each time slot and each subband of the QMF coefficient sequence generated for each time interval, and the adjustment circuit further includes for each time slot and The QMF coefficient sequence may be adjusted by adjusting the amplitude information for each subband depending on the predetermined adjustment coefficient.
  • the amplitude information of the QMF coefficient is adaptively adjusted according to the adjustment coefficient.
  • the adjustment unit may further include a band limiting unit that extracts a new QMF coefficient sequence corresponding to a predetermined bandwidth from the QMF coefficient sequence before or after adjustment of the QMF coefficient sequence.
  • the adjustment unit may adjust the QMF coefficient sequence for each subband by weighting a ratio of adjusting the QMF coefficient sequence for each subband.
  • the QMF coefficient is adaptively adjusted according to the frequency band.
  • the adjustment unit may further include a domain converter that converts the QMF coefficient sequence into a new QMF coefficient sequence having different time and frequency resolutions before or after the adjustment of the QMF coefficient sequence.
  • the QMF coefficient sequence is converted into a QMF coefficient sequence having the number of subbands corresponding to the processing.
  • the adjustment unit detects a transient component from the QMF coefficient sequence before adjustment, extracts the detected transient component from the QMF coefficient sequence before adjustment, adjusts the extracted transient component, and adjusts the adjusted transient component.
  • the QMF coefficient sequence may be adjusted by returning the component to the adjusted QMF coefficient sequence.
  • the acoustic signal processing device further supports a higher frequency band than the frequency band corresponding to the QMF coefficient sequence before adjustment using a predetermined conversion coefficient from the adjusted QMF coefficient sequence.
  • a high-frequency generation unit that generates a high-frequency coefficient sequence that is a new QMF coefficient sequence to be performed, and a missing band that is a frequency band in which the high-frequency coefficient sequence is not generated by the high-frequency generation unit among the high frequency bands
  • a high frequency complementing unit that complements the coefficient using the high frequency coefficient sequence belonging to the band adjacent to both sides of the missing band.
  • the acoustic encoding device is an acoustic encoding device that encodes a first acoustic signal sequence, and the first acoustic signal sequence is processed using a QMF (Quadrature Mirror Filter) analysis filter.
  • a first filter bank for converting to a 1QMF coefficient sequence;
  • a down-sampling unit for generating a second acoustic signal sequence by down-sampling the first acoustic signal sequence; and a first encoding for the second acoustic signal sequence.
  • a second encoding unit for encoding the meter, and the second acoustic signal sequence encoded may comprise a superimposing unit for superimposing said parameters encoded.
  • the acoustic signal is encoded using the acoustic signal processing in the QMF region. Therefore, since the conventional acoustic signal processing with a large calculation amount is not used, the calculation amount is reduced.
  • the QMF coefficient obtained by the acoustic signal processing in the QMF domain is used for subsequent processing without being converted into the acoustic signal in the time domain. Therefore, the calculation amount is further reduced.
  • the acoustic decoding device is an acoustic decoding device that decodes a first acoustic signal sequence from an input bitstream, and is encoded with an encoded parameter from the input bitstream.
  • a separation unit that separates the second acoustic signal sequence, a first decoding unit that decodes the encoded parameter, a second decoding unit that decodes the encoded second acoustic signal sequence,
  • a first filter bank that converts the second acoustic signal sequence decoded by the two decoding units into a QMF coefficient sequence using a QMF (Quadrature Mirror Filter) analysis filter, and the QMF coefficient sequence depends on a predetermined adjustment coefficient Using the adjustment unit to be adjusted and the decoded parameter, from the adjusted QMF coefficient sequence, the frequency corresponding to the unadjusted QMF coefficient sequence.
  • QMF Quadrature Mirror Filter
  • a high frequency generation unit that generates a high frequency coefficient sequence that is a new QMF coefficient sequence corresponding to a high frequency band higher than several bands, the high frequency coefficient sequence, and the QMF coefficient sequence before adjustment are subjected to QMF synthesis.
  • You may provide the 2nd filter bank converted into the said 1st acoustic signal sequence of a time domain using a filter.
  • the acoustic signal is decoded using the acoustic signal processing in the QMF region. Therefore, since the conventional acoustic signal processing with a large calculation amount is not used, the calculation amount is reduced.
  • the QMF coefficient obtained by the acoustic signal processing in the QMF domain is used for subsequent processing without being converted into the acoustic signal in the time domain. Therefore, the calculation amount is further reduced.
  • the acoustic signal processing method is an acoustic signal processing method for converting an input acoustic signal sequence using a predetermined adjustment coefficient, and the input acoustic signal sequence is converted into a QMF (Quadrature Mirror Filter) analysis filter. And a conversion step for converting into a QMF coefficient sequence, and an adjustment step for adjusting the QMF coefficient sequence depending on the predetermined adjustment coefficient.
  • QMF Quadrature Mirror Filter
  • the acoustic signal processing device is realized as an acoustic signal processing method.
  • An acoustic encoding method is an acoustic encoding method for encoding a first acoustic signal sequence, and the first acoustic signal sequence is processed using a QMF (Quadrature Mirror Filter) analysis filter.
  • QMF Quadrature Mirror Filter
  • An encoding step a second conversion step for converting the second acoustic signal sequence into a second QMF coefficient sequence using a QMF analysis filter, and an adjustment for adjusting the second QMF coefficient sequence depending on a predetermined adjustment coefficient
  • a parameter used for decoding is calculated.
  • the parameter and the second encoding step of encoding, and the second acoustic signal sequence encoded may comprise a superimposing step for superimposing the said parameters encoded.
  • the acoustic encoding device is realized as an acoustic encoding method.
  • the acoustic decoding method is an acoustic decoding method for decoding a first acoustic signal sequence from an input bitstream, and is encoded with an encoded parameter from the input bitstream.
  • the acoustic decoding device is realized as an acoustic decoding method.
  • the program according to the present invention may be a program for causing a computer to execute the steps included in the acoustic signal processing method.
  • the acoustic signal processing method according to the present invention is realized as a program.
  • the program according to the present invention may be a program for causing a computer to execute the steps included in the acoustic encoding method.
  • the acoustic encoding method according to the present invention is realized as a program.
  • the program according to the present invention may be a program for causing a computer to execute the steps included in the acoustic decoding method.
  • the acoustic decoding method according to the present invention is realized as a program.
  • An integrated circuit according to the present invention is an integrated circuit that converts an input acoustic signal sequence using a predetermined adjustment coefficient, and the input acoustic signal sequence is converted into a QMF (Quadrature Mirror Filter) analysis filter, You may provide the filter bank converted into a QMF coefficient sequence, and the adjustment part which adjusts the said QMF coefficient sequence depending on the said predetermined adjustment coefficient.
  • QMF Quadrature Mirror Filter
  • the acoustic signal processing device is realized as an integrated circuit.
  • An integrated circuit is an integrated circuit that encodes a first acoustic signal sequence, and the first acoustic signal sequence is converted into a first QMF coefficient sequence using a QMF (Quadrature Mirror Filter) analysis filter.
  • a first filter bank to convert; a downsampling unit for generating a second acoustic signal sequence by downsampling the first acoustic signal sequence; and a first encoding unit for encoding the second acoustic signal sequence;
  • a second filter bank that converts the second acoustic signal sequence into a second QMF coefficient sequence using a QMF analysis filter; an adjustment unit that adjusts the second QMF coefficient sequence depending on a predetermined adjustment coefficient; and
  • a parameter used for decoding is generated by comparing the first QMF coefficient sequence and the adjusted second QMF coefficient sequence, and the parameter is encoded.
  • a second encoding unit for reduction, and the second acoustic signal sequence encoded may comprise a superimposing unit for superimposing said parameters encoded.
  • the acoustic encoding device is realized as an integrated circuit.
  • An integrated circuit is an integrated circuit that decodes a first acoustic signal sequence from an input bit stream, and is encoded with encoded parameters from the input bit stream.
  • a separation unit that separates the second acoustic signal sequence, a first decoding unit that decodes the encoded parameter, a second decoding unit that decodes the encoded second acoustic signal sequence, and the second decoding
  • a first filter bank for converting the second acoustic signal sequence decoded by the unit into a QMF coefficient sequence using a QMF (Quadrature Mirror Filter) analysis filter, and making the QMF coefficient sequence dependent on a predetermined adjustment coefficient
  • the adjustment unit to adjust and the decoded parameter the frequency band corresponding to the QMF coefficient sequence before adjustment from the adjusted QMF coefficient sequence
  • a high-frequency generation unit that generates a high-frequency coefficient sequence that is a new QMF coefficient sequence corresponding to a higher high-frequency band, the high-frequency coefficient sequence, and the QMF coefficient sequence before adjustment, a Q
  • the acoustic decoding device is realized as an integrated circuit.
  • acoustic signal processing can be realized with a low calculation amount.
  • FIG. 1 is a configuration diagram illustrating an acoustic signal processing device according to the first embodiment.
  • FIG. 2 is an explanatory diagram showing a time extension process according to the first embodiment.
  • FIG. 3 is a configuration diagram illustrating the acoustic decoding device.
  • FIG. 4 is a configuration diagram illustrating the frequency modulation circuit according to the first embodiment.
  • FIG. 5A is an explanatory diagram showing a QMF coefficient block according to Embodiment 2.
  • FIG. 5B is a diagram showing an energy distribution for each time slot in the QMF region.
  • FIG. 5C is a diagram showing an energy distribution for each subband in the QMF region.
  • FIG. 6A is an explanatory diagram showing a first pattern of time extension processing according to a transient component.
  • FIG. 6B is an explanatory diagram showing a second pattern of the time extension process according to the transient component.
  • FIG. 6C is an explanatory diagram showing a third pattern of the time extension process according to the transient component.
  • FIG. 7A is an explanatory diagram illustrating transient component extraction processing according to Embodiment 2.
  • FIG. 7B is an explanatory diagram showing transient component insertion processing according to Embodiment 2.
  • FIG. 8 is a diagram showing a linear relationship between the transient position and the QMF phase transition ratio.
  • FIG. 9 is a flowchart of the time extension process according to the second embodiment.
  • FIG. 10 is a flowchart of a modification of the time extension process according to the second embodiment.
  • FIG. 11 is an explanatory diagram showing time extension processing according to the third embodiment.
  • FIG. 12 is an explanatory diagram showing time extension processing according to the fourth embodiment.
  • FIG. 13 is a configuration diagram illustrating an acoustic signal processing device according to the fifth embodiment.
  • FIG. 14 is a configuration diagram illustrating a first modification of the acoustic signal processing device according to the fifth embodiment.
  • FIG. 15 is a configuration diagram illustrating a second modification of the acoustic signal processing device according to the fifth embodiment.
  • FIG. 16A is a diagram illustrating an output subjected to pitch shift processing by resampling processing.
  • FIG. 16B is a diagram illustrating an output expected by the time extension processing.
  • FIG. 16C is a diagram illustrating an erroneous output due to the time extension processing.
  • FIG. 17 is a configuration diagram illustrating an acoustic signal processing device according to the sixth embodiment.
  • FIG. 18 is a conceptual diagram illustrating QMF region conversion processing according to the sixth embodiment.
  • FIG. 19 is a flowchart of frequency modulation processing according to the sixth embodiment.
  • FIG. 20A is a diagram showing the amplitude response of the QMF prototype filter.
  • FIG. 20B is a diagram illustrating a relationship between frequency and amplitude.
  • FIG. 21 is a configuration diagram illustrating an acoustic encoding device according to the sixth embodiment.
  • FIG. 22 is an explanatory diagram showing evaluation of sound quality.
  • FIG. 23A is a configuration diagram illustrating an acoustic signal processing device according to the seventh embodiment.
  • FIG. 23A is a configuration diagram illustrating an acoustic signal processing device according to the seventh embodiment.
  • FIG. 23B is a flowchart illustrating processing of the acoustic signal processing device according to the seventh embodiment.
  • FIG. 24 is a configuration diagram illustrating a modification of the acoustic signal processing device according to the seventh embodiment.
  • FIG. 25 is a configuration diagram illustrating an acoustic encoding device according to the seventh embodiment.
  • FIG. 26 is a flowchart illustrating processing of the acoustic encoding device according to the seventh embodiment.
  • FIG. 27 is a configuration diagram illustrating an acoustic decoding device according to the seventh embodiment.
  • FIG. 28 is a flowchart illustrating processing of the acoustic decoding device according to the seventh embodiment.
  • FIG. 24 is a configuration diagram illustrating a modification of the acoustic signal processing device according to the seventh embodiment.
  • FIG. 25 is a configuration diagram illustrating an acoustic encoding device according to the seventh embodiment.
  • FIG. 26 is a flowchart illustrating processing of the acou
  • FIG. 29 is a configuration diagram illustrating a modification of the acoustic decoding device according to the seventh embodiment.
  • FIG. 30A is an explanatory diagram illustrating a state of an acoustic signal before time extension processing.
  • FIG. 30B is an explanatory diagram illustrating a state of the acoustic signal after the time extension processing.
  • FIG. 31 is an explanatory diagram showing a QMF analysis process and a QMF synthesis process.
  • Embodiment 1 The acoustic signal processing apparatus according to Embodiment 1 implements time expansion processing by performing QMF conversion, phase adjustment, and inverse QMF conversion on an input acoustic signal.
  • FIG. 1 is a configuration diagram of an acoustic signal processing device according to the first embodiment.
  • the QMF analysis filter bank 901 converts the input acoustic signal into a QMF coefficient X (m, n).
  • m indicates a subband index
  • n indicates a time slot index.
  • the adjustment circuit 902 adjusts the QMF coefficient obtained by the conversion.
  • Expression 11 expresses each QMF coefficient before adjustment using each amplitude and phase.
  • r (m, n) indicates amplitude information
  • a (m, n) indicates phase information.
  • the adjustment circuit 902 converts the phase information a (m, n) into phase information. Adjust to.
  • the adjustment circuit 902 calculates a new QMF coefficient according to Equation 12 based on the phase information after adjustment and the amplitude information r (m, n) before adjustment.
  • the QMF synthesis filter bank 903 converts the new QMF coefficient calculated by Equation 12 into a time signal.
  • a method for adjusting the phase information will be described.
  • the QMF-based time extension process includes the following steps.
  • the time extension process includes (1) a step of adjusting phase information and (2) a step of executing overlap addition in the QMF domain based on the addition theorem of QMF conversion.
  • the QMF analysis filter bank 901 converts a real value time signal of 2L samples into 2L QMF coefficients configured by 2L / M time slots and M subbands. That is, the QMF analysis filter bank 901 converts a 2L-sample real-valued time signal into a QMF coefficient in the synthesized frequency domain.
  • the QMF coefficient calculated by the QMF conversion is easily affected by the analysis window function before adjusting the phase information.
  • conversion to a QMF coefficient is realized by the following three steps.
  • the analysis window function h (n) (window length L) is converted for the QMF region, so that the analysis window function H ( ⁇ , k) for the QMF region (L / M time slots and M Of subbands) is calculated.
  • the original QMF coefficient is composed of L / M timeslots and L / M + 1 QMF blocks in which the hop sizes overlap each time slot.
  • the adjustment circuit 902 adjusts the phase information of each QMF block before adjustment to reliably prevent the phase information from becoming discontinuous, and configures a new QMF block. That is, when the ⁇ -th and ⁇ + 1-th QMF blocks overlap, the phase information of the new QMF block needs to ensure continuity at the ⁇ ⁇ s sample points (s is an expansion coefficient). In the time domain, this corresponds to ensuring continuity at the jump point ⁇ ⁇ M ⁇ s ( ⁇ N).
  • the new phase information ⁇ u (n) (k) differs depending on where the new QMF block after time expansion is rearranged.
  • the adjustment circuit 902 can calculate the QMF coefficient of the new QMF block by using the amplitude information of the original QMF block as the amplitude information of the new QMF block.
  • printcard ( ⁇ ) indicates the conversion of ⁇ and is defined as in Expression 16.
  • Mod (a, b) indicates a remainder obtained by dividing a by b.
  • phase difference information ⁇ u (k) in the above-described phase adjustment method is calculated by Expression 17.
  • the QMF synthesis filter bank 903 does not have to apply the QMF synthesis process to each new QMF block in order to reduce the amount of time expansion processing. Instead, the QMF synthesis filter bank 903 overlaps the new QMF block and applies the QMF synthesis process to the obtained signal.
  • the QMF synthesis filter bank 903 can generate a final time-expanded acoustic signal by applying a QMF synthesis filter to the Y (u, k). It is clear from the range of the time index u of Y (u, k) that the original signal can be subjected to the time expansion process of s times.
  • the adjustment circuit 902 performs phase adjustment and amplitude adjustment in the QMF region.
  • the QMF synthesis filter bank 903 converts the QMF coefficient subjected to the phase vocoder processing in the QMF domain into a time domain signal. Thereby, a time-domain acoustic signal expanded by s times is obtained. Further, the QMF coefficient may be more convenient due to signal processing subsequent to the time expansion processing. For example, some acoustic processing such as band expansion processing based on the SBR technique may be performed on the QMF coefficient that has been subjected to phase vocoder processing in the QMF region. Then, after the subsequent signal processing, the QMF synthesis filter bank 903 may be configured to convert it into a time domain acoustic signal.
  • the configuration shown in FIG. 3 is an example of such a combination.
  • This is an example of an acoustic decoding device that combines phase vocoder processing in the QMF region and acoustic signal band expansion technology. Below, the structure of the acoustic decoding apparatus using a phase vocoder process is demonstrated.
  • the separation unit 1201 separates the input bit stream into parameters for generating a high frequency band and encoded information for decoding a low frequency band.
  • the parameter decoding unit 1207 decodes a parameter for generating a high frequency band.
  • the decoding unit 1202 decodes the low-frequency component acoustic signal from the coding information for low-frequency decoding.
  • the QMF analysis filter bank 1203 converts the decoded acoustic signal into an acoustic signal in the QMF region.
  • the frequency modulation circuit 1205 and the time extension circuit 1204 perform the phase vocoder process on the acoustic signal in the QMF region. Thereafter, the high frequency band generation circuit 1206 generates a high frequency component signal using the parameters for high frequency band generation.
  • the outline adjustment circuit 1208 adjusts the frequency outline of the high frequency component.
  • the QMF synthesis filter bank 1209 converts the low frequency component and high frequency component acoustic signals in the QMF domain into time domain acoustic signals.
  • the low-frequency component encoding process or decoding process may use an audio encoding system such as MPEG-AAC system or MPEG-Layer3, or an audio encoding system such as ACELP. May be.
  • the adjustment circuit 902 may perform a weighting operation for each subband index of the QMF block in calculating the adjusted QMF coefficient according to Equation 12. Thereby, the adjustment circuit 902 can also modulate with a modulation coefficient having a different value for each subband index. For example, in a subband index corresponding to a high frequency, there is an acoustic signal whose distortion becomes large when extended. The adjustment circuit 902 may use a modulation coefficient that reduces such an acoustic signal.
  • the acoustic signal processing device may further include another QMF analysis filter bank after the QMF analysis filter bank 901. Only the QMF analysis filter bank 901 may have low frequency resolution in the low band. In that case, even if phase vocoder processing is performed on an acoustic signal containing a large amount of low frequency components, a sufficient effect cannot be obtained.
  • another QMF analysis filter bank for analyzing the low frequency portion (for example, half of all QMF blocks included in the output of the QMF analysis filter bank 901) is used. Also good. Thereby, the frequency resolution is improved twice.
  • the adjustment circuit 902 performs the phase vocoder process in the QMF region as described above. As a result, the effect of reducing the calculation amount and the memory consumption is increased while maintaining the sound quality.
  • FIG. 4 is a diagram showing an example of a configuration for improving the resolution of the QMF region.
  • the QMF synthesis filter bank 2401 once synthesizes the input acoustic signal with a QMF synthesis filter. Thereafter, the QMF analysis filter bank 2402 calculates a QMF coefficient with a QMF analysis filter having a double resolution.
  • a phase vocoder processing circuit (first time expansion circuit 2403, second time expansion circuit) that performs double time expansion and double, triple, or quadruple pitch shift processing on a signal in the QMF region having double resolution.
  • a time extension circuit 2404 and a third time extension circuit 2405) are configured in parallel.
  • each phase vocoder processing circuit unifies and performs phase vocoder processing with different expansion ratios at twice the resolution.
  • the merge circuit 2406 then synthesizes the phase vocoder processed signal.
  • the phase vocoder process using the QMF filter does not require the use of an FFT process with a large amount of calculation compared to the STFT-based phase vocoder process. Therefore, there is a remarkable effect that the calculation amount can be greatly reduced.
  • the acoustic signal processing device according to Embodiment 2 includes the same components as those of the acoustic signal processing device according to Embodiment 1 shown in FIG. And in order to avoid the influence by the discontinuity of the above-mentioned phase information, calculation of phase information is performed by the following two types of methods.
  • the adjustment circuit 902 adjusts the phase information in each adjusted QMF block so that the phase information is continuous between consecutive time slots in the block.
  • the phase information adjustment method assumes that the phase information has changed from the pre-adjustment QMF block according to the strong tonality component.
  • a transient signal is a non-stationary signal, such as when there is a sharp attack sound in the time domain.
  • the time expansion / contraction process involving the adjustment of the phase information according to the first embodiment is performed with a signal having a strong tonality. It is transformed into time expansion / contraction processing that can handle both transient signals.
  • the adjustment circuit 902 detects a transient component included in the transient signal in the QMF region in order to exclude a time expansion / contraction process that is potentially problematic.
  • FIG. 5A is an explanatory diagram for explaining a case where time expansion is performed on a QMF block X (u, k) (2L / M time slots, M subbands) calculated by QMF conversion.
  • the first method is a method for detecting a transient state according to the change in energy value for each QMF block
  • the second method is a method for detecting a change in amplitude value for each QMF block on the frequency axis. .
  • the first detection method is as follows. As shown in FIG. 5B, adjustment circuit 902 calculates energy values E 0 to E 2L / M ⁇ 1 for each time slot of each QMF block.
  • FIG. 5C is a diagram illustrating energy values for each subband.
  • the second detection method is as follows. If the amplitude in all time slots and subbands included in the QMF block is A (u, k), for each time slot, the outline of the amplitude information is Is calculated as With predetermined threshold values T 1 and T 2 , F i > T 1 , , A transient component is detected in the i-th time slot.
  • phase information expansion process is corrected for a new QMF block including the u 0 th time slot.
  • the modification of the decompression process has two purposes. One is to avoid processing of the u 0th time slot in arbitrary phase information expansion processing. The other is to maintain continuity within and between QMF blocks if the u 0th time slot is bypassed without being processed. In order to achieve these two purposes, the phase information expansion process is modified as follows.
  • phase ⁇ u (m) (k) is as follows.
  • phase ⁇ u (m) (k) is (FIG. 6A).
  • phase ⁇ 0 (m) (k) is (FIG. 6B).
  • the phase ⁇ 1 (m) (k) is Is calculated by
  • phase ⁇ 0 (m) (k) is (FIG. 6C).
  • the phase ⁇ 1 (m) (k) is Is calculated by
  • the adjustment circuit 902 may perform the decompression process after removing the transient signal component from the QMF block, and return the transient signal removed earlier to the decompressed QMF block.
  • the QMF block signal X (u, k) calculated by QMF conversion (assuming that it has L / M time slots and M subbands) is time-extended, and the above transient A case where a transient signal is detected in the u 0th time slot in the signal detection method will be described.
  • the time extension of each block is performed in the following steps.
  • Adjustment circuit 902 removes the u 0 th time slot component from QMF block, u 0 th time slot "0" stuffed taken out, or the "interpolation" process.
  • the adjustment circuit 902 expands the signal of the new QMF block to s ⁇ L / M time slots according to the expansion method.
  • the adjustment circuit 902 inserts the signal of the time slot removed in (1) above into the position of the block expanded in (2) (position of the s ⁇ u 0th time slot).
  • the above method is also a simple example in the case where the s ⁇ u 0th time slot is not an appropriate position for the transient response component. This is because the time resolution of QMF conversion is low.
  • the position of the transient response component (hereinafter referred to as the transient position) is preferably specified by two steps of detecting each of the amplitude component and phase transition information of the signal of each QMF block. A case where an impulse component exists only at time t 0 will be described.
  • the impulse component is a typical example of a transient response component.
  • the adjustment circuit 902 roughly estimates the transient position t 0 by calculating the amplitude information of each QMF block in the QMF region.
  • the adjustment circuit 902 determines that (n 0 ⁇ 5) ⁇ 64 ⁇ 32 ⁇ t 0 ⁇ (n 0 ⁇ 5) ) ⁇ Assuming 64 + 32, the transient position t 0 is estimated.
  • N 0 -5) indicates that the QMF analysis filter bank 901 is delayed by five time slots.
  • the adjustment circuit 902 can accurately determine the transient position only by the amplitude analysis.
  • the adjustment circuit 902 can determine the transient position t 0 more efficiently by using the phase information in the QMF region.
  • the phase transition ratio is It is.
  • unwrap (P) is a function that circulates the radian phase P by 2 ⁇ and corrects a change of ⁇ or more.
  • C 0 is a constant.
  • ⁇ t is the distance between the transient position t 0, time slot nearest the left to the transient position t 0 (temporally past), or, the n 0 th time slot. That is, ⁇ t is calculated by Equation 19.
  • Equation 20 The example of the above parameter is a value as shown by Equation 20.
  • FIG. 8 is a diagram showing a linear relationship between the transient position t 0 and the QMF phase transition ratio g 0 . As shown in FIG. 8, as long as n 0 (index of the time slot with the highest energy) is fixed, t 0 and g 0 are associated one-to-one.
  • this method is a technique for handling transient components during the time expansion process in the QMF region. Compared with the simple method described above, this method has the following advantages. That is, this method can accurately detect the transient position of the original signal. In addition, this method can also detect a time slot in which a transient component that is time-extended exists together with appropriate phase information. Details of this method are described below. In addition, the procedure of this method is also shown as a flowchart in FIG.
  • the QMF analysis filter bank 901 receives the input time signal time signal x (n) (S2001).
  • the QMF analysis filter bank 901 calculates the QMF block X (m, k) from the time signal x (n) that is the target of time expansion (S2002).
  • the amplitude of X (m, k) is r (m, k) and the phase information is ⁇ (m, k).
  • the optimum time expansion method is as follows.
  • the adjustment circuit 902 detects the time slot m 0 where the transient signal exists, based on the energy distribution, using Equation 21 (S2003).
  • the adjustment circuit 902 includes the phase transition ratio of the time slot in which the transient response is conspicuous among the time slots in which the transient response exists. Is estimated (S2004). In other words, the adjustment circuit 902 includes the time slot phase angle ⁇ 0 and the phase transition ratio. Is estimated.
  • the adjustment circuit 902 determines the transient position t 0 according to Equation 23 (S2005).
  • K 0.0491.
  • the adjustment circuit 902 determines a region in a transient state according to Equation 24 (S2006).
  • the adjustment circuit 902 uses the scalar value to reduce the QMF coefficient in accordance with Expression 25 within the region in the transient state (S2007).
  • the adjustment circuit 902 performs normal time expansion processing on the QMF block that is not in a transient state (S2008).
  • the adjustment circuit 902 calculates a new time slot and phase transition ratio at the transient position s ⁇ t 0 as follows.
  • ceil is a process of rounding up to the nearest integer.
  • the adjustment circuit 902 calculates the distance between the transient position and the position on the left (temporally in the past) closest to the new time slot according to Equation 26.
  • ⁇ t 1 s ⁇ t 0- (m 1 -5) ⁇ 64 + 32 (Formula 26) ⁇ Iii>
  • the adjustment circuit 902 calculates a new phase transition ratio by Expression 27.
  • the adjustment circuit 902 newly synthesizes the QMF coefficient in the time slot m 1 where the transient response is conspicuous.
  • the adjustment circuit 902 calculates the phase information by Expression 28 based on the new phase transition ratio and the phase difference (S2010).
  • the adjustment circuit 902 calculates a new QMF coefficient using Expression 29 (S2011).
  • the adjustment circuit 902 determines a new transient region using Expression 30 (S2013).
  • the adjustment circuit 902 re-synthesizes the QMF block coefficient configured by the time slot adjusted in this way according to Equation 32.
  • the adjustment circuit 902 outputs the QMF block that has been subjected to the time expansion processing (S2012).
  • the above (a) to (d) executed for detecting the transient position may be directly replaced with a transient response detection method in the time domain.
  • a transient position detection unit (not shown) for detecting a transient position in the time domain is arranged in front of the QMF analysis filter bank 901.
  • a typical procedure as a transient response detection method in the time domain is as follows.
  • the transient position detection unit includes the transient response component in the i-th segment. It is determined that it is a transient segment.
  • R 1 and R 2 are predetermined threshold values.
  • the QMF synthesis filter bank 903 converts the QMF coefficient subjected to the phase vocoder processing in the QMF domain into a time domain signal. Thereby, a time-domain acoustic signal expanded by s times is obtained. Further, the QMF coefficient may be more convenient due to signal processing subsequent to the time expansion processing. For example, some acoustic processing such as band expansion processing based on the SBR technique may be performed on the QMF coefficient that has been subjected to phase vocoder processing in the QMF region. Then, after the subsequent signal processing, the QMF synthesis filter bank 903 may be configured to convert it into a time domain acoustic signal.
  • the configuration shown in FIG. 3 is an example of such a combination.
  • This is an example of an acoustic decoding device that combines phase vocoder processing in the QMF region and acoustic signal band expansion technology. Below, the structure of the acoustic decoding apparatus using a phase vocoder process is demonstrated.
  • the separation unit 1201 separates the input bit stream into parameters for high frequency generation and encoded information for low frequency decoding.
  • the parameter decoding unit 1207 decodes a parameter for generating a high frequency band.
  • the decoding unit 1202 decodes the low-frequency component acoustic signal from the coding information for low-frequency decoding.
  • the QMF analysis filter bank 1203 converts the decoded acoustic signal into an acoustic signal in the QMF region.
  • the frequency modulation circuit 1205 and the time extension circuit 1204 perform the phase vocoder process on the acoustic signal in the QMF region. Thereafter, the high frequency band generation circuit 1206 generates a high frequency component signal using the parameters for high frequency band generation.
  • the outline adjustment circuit 1208 adjusts the frequency outline of the high frequency component.
  • the QMF synthesis filter bank 1209 converts the low frequency component and high frequency component acoustic signals in the QMF domain into time domain acoustic signals.
  • the low-frequency component encoding process or decoding process may use an audio encoding system such as MPEG-AAC system or MPEG-Layer3, or an audio encoding system such as ACELP. May be.
  • the acoustic signal processing device may further include another QMF analysis filter bank after the QMF analysis filter bank 901. Only the QMF analysis filter bank 901 may have low frequency resolution in the low band. In that case, even if phase vocoder processing is performed on an acoustic signal containing a large amount of low frequency components, a sufficient effect cannot be obtained.
  • another QMF analysis filter bank for analyzing the low frequency portion (for example, half of all QMF blocks included in the output of the QMF analysis filter bank 901) is used. Also good. Thereby, the frequency resolution is improved twice.
  • the adjustment circuit 902 performs the phase vocoder process in the QMF region as described above. As a result, the effect of reducing the calculation amount and the memory consumption amount is increased while maintaining the sound quality.
  • FIG. 4 is a diagram showing an example of a configuration for improving the resolution of the QMF region.
  • the QMF synthesis filter bank 2401 once synthesizes the input acoustic signal with a QMF synthesis filter. Thereafter, the QMF analysis filter bank 2402 calculates a QMF coefficient with a QMF analysis filter having a double resolution.
  • a phase vocoder processing circuit (first time expansion circuit 2403, second time expansion circuit) that performs double time expansion and double, triple, or quadruple pitch shift processing on a signal in the QMF region having double resolution.
  • a time extension circuit 2404 and a third time extension circuit 2405) are configured in parallel.
  • each phase vocoder processing circuit unifies and performs phase vocoder processing with different expansion ratios at twice the resolution.
  • the merge circuit 2406 then synthesizes the phase vocoder processed signal.
  • the acoustic signal processing device may have the following configuration.
  • the adjustment circuit 902 may adjust flexibly according to the tonality (acoustic harmonic structure size) of the input acoustic signal and the transient characteristics of the acoustic signal.
  • the adjustment circuit 902 may adjust the phase information by detecting a transient signal in the coefficient of the QMF region.
  • the adjustment circuit 902 may adjust the phase information so as to ensure the continuity of the phase information and so that the transient signal component of the coefficient in the QMF region does not change.
  • the adjustment circuit 902 may adjust the phase information by returning the QMF coefficient related to the transient signal component avoiding the time expansion / contraction to the QMF coefficient obtained by expanding or compressing the transient signal component.
  • the acoustic signal processing device may further include a detection unit that detects a transient characteristic of the input signal and an attenuator that performs a process of weakening the transient component detected by the detection unit.
  • the attenuator is provided before the phase is adjusted.
  • the adjustment circuit 902 expands the transient component subjected to the weakening process after the time expansion process.
  • the attenuator may weaken the transient component by adjusting the amplitude value of the coefficient in the frequency domain.
  • the adjustment circuit 902 may extend the time-extended transient component by increasing the frequency domain amplitude and adjusting the phase of the time-extended transient component.
  • Embodiment 3 The acoustic signal processing apparatus according to Embodiment 3 realizes time expansion and frequency modulation processing by performing QMF conversion on the input acoustic signal and performing phase adjustment and amplitude adjustment on the QMF coefficient. .
  • the acoustic signal processing device includes the same components as those of the acoustic signal processing device according to Embodiment 1 shown in FIG.
  • the QMF analysis filter bank 901 converts an input acoustic signal into a QMF coefficient X (m, n).
  • the adjustment circuit 902 adjusts the QMF coefficient.
  • the QMF coefficient X (m, n) before adjustment is expressed as in Expression 33 using the amplitude and phase.
  • the phase information a (m, n) is adjusted by the adjustment circuit 902, It becomes.
  • the adjustment circuit 902 calculates a new QMF coefficient according to the equation 34 based on the adjusted phase information and the original amplitude information r (m, n).
  • the QMF synthesis filter bank 903 converts the new QMF coefficient calculated by Equation 34 into a time signal.
  • the acoustic signal processing apparatus according to Embodiment 3 may output a new QMF coefficient as it is to another subsequent acoustic signal processing apparatus without performing the QMF synthesis filter.
  • the subsequent acoustic signal processing apparatus executes, for example, acoustic signal processing based on the SBR technique.
  • a difference from the first embodiment is that, as shown in FIG. 11, when the time expansion coefficient is s, (s ⁇ 1) virtual time slots are inserted after the time slot of the original QMF region. That is.
  • phase difference ⁇ n (k) is also calculated by Expression 36.
  • the amplitude information of the inserted time slot is configured with a value that linearly complements (interpolates) between the previous time slot and the subsequent time slot so as to be continuous at the inserted boundary. For example, assuming that the original QMF block is an (k), the amplitude information of the inserted virtual time slot is linearly complemented by Expression 37.
  • the QMF synthesis filter bank 903 converts the new QMF block configured by inserting the virtual time slot in this way into a signal in the time domain as in the first embodiment. Thereby, a time-expanded signal is calculated.
  • the acoustic signal processing apparatus according to Embodiment 3 may output a new QMF coefficient as it is to the subsequent acoustic signal processing apparatus without performing the QMF synthesis filter bank.
  • the acoustic signal processing apparatus also does not use the FFT calculation, and realizes the same effect with an overwhelmingly small calculation amount compared to the STFT-based phase vocoder process.
  • Embodiment 4 The acoustic signal processing device according to Embodiment 4 performs QMF conversion on the input acoustic signal and performs phase adjustment on the QMF coefficient. Then, the acoustic signal processing device according to the fourth embodiment realizes the time extension process by processing the original QMF block for each subband.
  • the acoustic signal processing device includes the same components as those of the acoustic signal processing device according to the first embodiment shown in FIG.
  • the QMF analysis filter bank 901 converts an input acoustic signal into a QMF coefficient X (m, n).
  • the adjustment circuit 902 adjusts the QMF coefficient.
  • the QMF coefficient X (m, n) before adjustment is expressed as in Expression 38 using the amplitude and phase.
  • the phase information a (m, n) is adjusted by the adjustment circuit 902. It becomes.
  • the adjustment circuit 902 calculates a new QMF coefficient according to Equation 39 based on the adjusted phase information and the original amplitude information r (m, n).
  • the QMF synthesis filter bank 903 converts the new QMF coefficient calculated by Equation 39 into a time signal.
  • the acoustic signal processing apparatus according to Embodiment 4 may output a new QMF coefficient as it is to another subsequent acoustic signal processing apparatus without performing the QMF synthesis filter.
  • the subsequent acoustic signal processing apparatus executes, for example, acoustic signal processing based on the SBR technique.
  • the STFT-based time extension method is applicable to the time characteristics of the QMF block.
  • Embodiment 1 The difference from Embodiment 1 is that the original QMF block is time-extended for each subband as shown in FIG.
  • the original QMF block is composed of L / M time slots and M subbands.
  • Each QMF block is composed of M scalar values, and each scalar value is composed of L / M coefficients of time-dependent information.
  • the STFT-based time extension method is directly applied to the scalar value of each subband. That is, the adjustment circuit 902 continuously performs FFT conversion on the scalar value of each subband, adjusts the phase information, and performs inverse FFT. As a result, the adjustment circuit 902 calculates a scalar value of a new subband. Since this time expansion process is executed for each subband, the amount of calculation is not large.
  • the adjustment circuit 902 repeats the above processing for each hop size R a.
  • time expansion is realized such that the subbands of the original QMF block include 2 ⁇ L / M coefficients.
  • the adjustment circuit 902 can convert the original QMF block into a double-length QMF block by repeating the above steps.
  • the QMF synthesis filter bank 903 synthesizes the new QMF block thus obtained into a time signal.
  • the acoustic signal processing apparatus according to Embodiment 4 can extend the time of the original time signal to a time signal having a length twice that of the original time signal.
  • the acoustic signal processing method according to Embodiment 4 is referred to as a subband-based time expansion method.
  • Table 1 is a comparison table in which the amount of calculation (complexity measurement) is arranged.
  • QMF analysis filter bank 1001 converts an input acoustic signal into a QMF coefficient in order to realize both time expansion and contraction and frequency modulation. Then, adjustment circuit 1002 adjusts the phase of the obtained QMF coefficient as in the first to fourth embodiments.
  • the QMF domain converter 1003 converts the adjusted QMF coefficient into a new QMF coefficient.
  • the band pass filter 1004 performs band limitation in the QMF region as necessary. Band limiting is necessary to reduce aliasing distortion.
  • the QMF synthesis filter bank 1005 converts the new QMF coefficients into a time domain signal.
  • the acoustic signal processing apparatus may output a new QMF coefficient as it is to another subsequent acoustic signal processing apparatus without performing the QMF synthesis filter.
  • the subsequent acoustic signal processing apparatus executes, for example, acoustic signal processing based on the SBR technique. The above is the outline of the fifth embodiment.
  • the configuration shown in FIG. 14 is a configuration that realizes time expansion / contraction processing and frequency modulation processing of the target acoustic signal by converting the phase and amplitude of the QMF region.
  • the QMF analysis filter bank 1801 converts an acoustic signal into a QMF coefficient in order to realize both time expansion and contraction and frequency modulation.
  • the frequency modulation circuit 1803 performs frequency modulation processing on the QMF coefficient thus obtained in the QMF region.
  • the band limiting filter 1802 that is a band pass filter may limit the band to remove aliasing distortion before the frequency modulation processing.
  • the frequency modulation circuit 1803 performs frequency modulation processing by successively applying the phase conversion processing and the amplitude conversion processing to a plurality of QMF blocks. Then, the time expansion circuit 1804 performs time expansion / contraction processing of the QMF coefficient generated by the frequency modulation processing.
  • the time expansion / contraction process is realized by the same method as in the first embodiment.
  • the frequency modulation circuit 1803 and the time extension circuit 1804 are sequentially connected is described, the connection order thereof is not limited thereto. That is, after the time expansion circuit 1804 executes the time expansion / contraction process, the frequency modulation circuit 1803 may perform the frequency modulation process.
  • the QMF synthesis filter bank 1805 converts the QMF coefficient subjected to the frequency modulation process and the time expansion / contraction process into a new acoustic signal.
  • the new acoustic signal becomes a signal expanded and contracted in the time axis direction and the frequency axis direction as compared with the original acoustic signal.
  • the acoustic signal processing apparatus shown in FIG. 14 may also output a new QMF coefficient as it is to another acoustic signal processing apparatus in the subsequent stage without applying the QMF synthesis filter.
  • the subsequent acoustic signal processing apparatus executes, for example, acoustic signal processing based on the SBR technique.
  • the configuration of the acoustic signal processing device according to the fifth embodiment is a configuration obtained by adding frequency modulation processing by pitch extension processing to the configuration of the acoustic signal processing device according to those embodiments.
  • pitch expansion process that is, the method of resampling (thinning out) a time expanded signal cannot be applied to the frequency modulation process as it is.
  • the acoustic signal processing device shown in FIG. 14 realizes pitch expansion processing on the QMF region after processing by the QMF analysis filter bank 1801.
  • a predetermined signal component in the time domain (a sine wave component at a specific frequency) becomes a signal of two different QMF subbands. Therefore, after that, it is difficult to perform pitch conversion by separating correct signal components for both frequency and amplitude from one QMF coefficient block.
  • the acoustic signal processing device may be modified to a configuration in which the pitch extension processing is performed earlier. That is, as shown in FIG. 15, the time domain input signal is resampled before the QMF analysis filter bank.
  • the resampling unit 500 resamples the acoustic signal
  • the QMF analysis filter bank 504 converts the acoustic signal into a QMF coefficient
  • the time expansion circuit 505 adjusts the QMF coefficient.
  • the resampling unit 500 shown in FIG. 15 includes the following three modules. That is, the resampling unit 500 includes (1) an M-times upsampling unit 501, (2) a low-pass filter 502 for suppressing aliasing distortion, and (3) a D-times downsampling unit 503. That is, the resampling unit 500 resamples the input original signal by a factor of M / D before processing by the QMF analysis filter bank 504. By doing so, the resampling unit 500 multiplies the frequency components in the entire QMF region by M / D times.
  • FIG. 16A is a diagram illustrating an output subjected to pitch extension processing.
  • the vertical axis in FIG. 16A indicates the frequency axis, and the horizontal axis indicates the time axis.
  • the acoustic signal processing apparatus uses a resampling process to pitch twice (thick black line in FIG. 16A) and three times (thin black line in FIG. 16A) a signal including a low frequency (the thickest black line in FIG. 16A). A decompressed signal is generated. If there is a shift in the time domain, the double pitch expansion process signal has a delay time of d 0 time, and the triple pitch expansion process signal has a delay time of d 1 hour.
  • the acoustic signal processing apparatus doubles the original signal, the signal having the double frequency band, and the signal having the triple frequency band by 2 times, 3 times, and 4 times, respectively. Stretch time.
  • the acoustic signal processing device can generate a synthesized signal of these signals as a high-band signal as shown in FIG. 16B.
  • the delay amount mismatch is also pitch-extended as shown in FIG. 16C, so that a problem of delay amount mismatch may occur in the high-band signal.
  • the plurality of delay circuits described above perform time adjustment so as to reduce the time lag.
  • the low-pass filter 502 may be realized by a polyphase filter bank.
  • the low-pass filter 502 may be realized in the FFT region based on the convolution principle in order to reduce the amount of calculation.
  • the amount of calculation in the subsequent QMF analysis filter bank 504 and the time expansion circuit 505 is a process necessary for the resampling process. Greater than the amount. Therefore, the calculation amount is reduced by changing the order of the time extension and resampling processing.
  • the resampling unit 500 is provided in the preceding stage of the QMF analysis filter bank 504. This is to prevent deterioration in sound quality that occurs when a pitch extension process is performed on a specific sound source (for example, a single sine wave).
  • a pitch extension process for example, a single sine wave.
  • the sine wave signal included in the original acoustic signal is separated into a plurality of QMF blocks. Therefore, when the pitch shift process is performed on the signal, the original sine wave signal is diffused to many QMF blocks.
  • the special sound source such as a single sine wave is resampled with the above-described configuration.
  • almost only a single sine wave is input to the pitch shift processing of a general acoustic signal. Therefore, the resampling process that increases the amount of calculation may be omitted.
  • the acoustic signal processing device may be configured to directly perform pitch extension processing on the QMF coefficients obtained by the QMF analysis filter bank 504.
  • the quality of the sound signal subjected to the pitch extension processing may be slightly inferior for a special sound source such as a single sine wave.
  • the acoustic signal processing apparatus having such a configuration can maintain sufficient quality with respect to other general acoustic signals. In view of this, by omitting the resampling process, a processing unit having a very large processing amount can be omitted. Therefore, the entire processing amount is reduced.
  • the acoustic signal processing device may be configured in an appropriate combination according to the application.
  • the acoustic signal processing apparatus performs time expansion and contraction and frequency modulation processing in the QMF region, as in the fifth embodiment.
  • the sixth embodiment is different from the fifth embodiment in that the resampling process used in the fifth embodiment is not used.
  • the acoustic signal processing device includes the components of the acoustic signal processing device shown in FIG.
  • the acoustic signal processing device shown in FIG. 13 performs both time expansion / contraction processing and frequency modulation processing. Therefore, the QMF analysis filter bank 1001 converts the acoustic signal into a QMF coefficient. Then, the adjustment circuit 1002 adjusts the phase of the obtained QMF coefficient as described in the first to fourth embodiments.
  • the QMF domain converter 1003 converts the adjusted QMF coefficient into a new QMF coefficient.
  • the band pass filter 1004 performs band limitation in the QMF region as necessary. Band limiting is necessary to reduce aliasing distortion.
  • the QMF synthesis filter bank 1005 converts the new QMF coefficients into a time domain signal.
  • the acoustic signal processing device may output a new QMF coefficient as it is to another subsequent acoustic signal processing device without performing the QMF synthesis filter.
  • the subsequent acoustic signal processing apparatus executes, for example, acoustic signal processing based on the SBR technique.
  • the above is the overall configuration of the sixth embodiment.
  • the acoustic signal processing device performs processing different from that of the fifth embodiment regarding the frequency modulation processing by the pitch extension processing.
  • the method of resampling the time domain acoustic signal to perform frequency modulation processing by expanding and contracting the pitch is very simple.
  • a low-pass filter necessary for suppressing aliasing distortion is necessary for the configuration. Therefore, a delay occurs due to the low-pass filter.
  • a low-pass filter with a large order is required to increase the accuracy of the resampling process.
  • the delay of the filter becomes large.
  • the acoustic signal processing device includes a QMF domain converter 603 that converts the configuration of coefficients in the QMF domain. Then, a pitch shift process different from the resampling process is executed by the QMF region converter 603.
  • the QMF analysis filter bank 601 calculates a QMF coefficient from the input time signal. Similar to the first to fifth embodiments, the time extension circuit 602 extends the calculated QMF coefficient with time. The QMF domain converter 603 performs pitch expansion processing on the time-expanded QMF coefficient.
  • the QMF domain converter 603 does not newly use a QMF synthesis filter and a QMF analysis filter, but converts a QMF coefficient of a certain QMF domain into a QMF domain of a different QMF domain having different frequency and time resolutions. Direct conversion to coefficients.
  • the QMF domain converter 603 converts a QMF block made up of M subbands and L / M time slots into N subbands and L / N blocks. It becomes possible to convert to a new QMF block composed of time slots.
  • the QMF domain converter 603 can change the number of time slots and the number of subbands.
  • the time and frequency resolution of the output signal is changed from the input signal. Therefore, in order to realize both the time expansion process and the pitch expansion process at the same time, a new time expansion coefficient needs to be calculated. For example, if the desired time expansion coefficient is s and the desired pitch expansion coefficient is w, the new time expansion coefficient is Calculated by
  • FIG. 17 is a diagram showing a configuration for realizing both time extension processing and pitch extension processing.
  • the acoustic signal processing apparatus shown in FIG. 17 is configured in the order of time expansion processing (time expansion circuit 602) and pitch expansion processing (QMF region converter 603).
  • the acoustic signal processing device may be configured to perform the pitch expansion process first and then perform the time expansion process.
  • the QMF analysis filter bank 601 calculates a QMF block composed of M subbands and L / M time slots from L samples.
  • the time extension circuit 602 calculates M subbands and QMF coefficients from the QMF coefficients calculated in this way.
  • a QMF block composed of a number of time slots is calculated.
  • the QMF domain converter 603 converts the decompressed QMF block into another QMF block composed of w ⁇ M subbands and s ⁇ L / M time slots (w> 1. If 0, the smallest M subbands will be the final output signal).
  • the processing of the QMF domain converter 603 corresponds to mathematically compressing the arithmetic processing of the QMF synthesis filter bank and the QMF analysis filter bank.
  • the acoustic signal processing device is configured to include a delay circuit when performing computation using the QMF synthesis filter bank and the QMF analysis filter bank.
  • P M and P wM represent prototype functions of the QMF analysis filter bank and the QMF synthesis filter bank, respectively.
  • the acoustic signal processing apparatus processes as follows.
  • the acoustic signal processing device detects the frequency component of the signal included in the QMF block before the expansion processing.
  • the acoustic signal processing device shifts the frequency by a predetermined conversion coefficient.
  • a simple method for frequency shifting is to multiply the transform coefficient by the pitch of the input signal.
  • the acoustic signal processing device forms a new QMF block with a desired shift frequency component.
  • the acoustic signal processing device calculates the frequency component ⁇ (n, k) of the signal using Equation 41 for the QMF block calculated by the QMF conversion.
  • printcard ( ⁇ ) indicates the fundamental frequency at ⁇ .
  • ⁇ (n, k) ⁇ (n, k) ⁇ (n ⁇ 1, k), which indicates the phase difference between two QMF components in the same subband k. ing.
  • the desired fundamental frequency after expansion is calculated as P 0 ⁇ ⁇ (n, k) using a conversion coefficient P 0 (assuming P 0 > 1).
  • pitch expansion and compression also called shift
  • the essence of pitch expansion and compression is to build a desired frequency component on the QMF block after the shift.
  • the pitch shift process is also realized by the following steps.
  • the acoustic signal processing device initializes the shifted QMF block (S1301).
  • the acoustic signal processing device sets the phase ⁇ (n, k) and the amplitude r 1 (n, k) in all QMF blocks to 0.
  • P 0 ⁇ ⁇ (n, j)) is mapped (S1305).
  • the acoustic signal processing device reconstructs the phase and amplitude of the new block (n, q (n)) (S1306).
  • the acoustic signal processing apparatus calculates a new amplitude according to Equation 42.
  • the acoustic signal processing device calculates a new phase using Equation 43.
  • df (n) P 0 ⁇ ⁇ (n, j) ⁇ q (n) and ⁇ (n, q (n)) are “included”.
  • the acoustic signal processing device adds 2 ⁇ multiple times to guarantee ⁇ ⁇ ⁇ (n, q (n)) ⁇ .
  • the acoustic signal processing apparatus uses the subband index for the desired frequency component P 0 ⁇ ⁇ (n, j). Are mapped to the subbands calculated by Expression 44 (S1307).
  • the acoustic signal processing device is a new block Are reconstructed (S1308). Then, the acoustic signal processing device calculates a new amplitude by Expression 45.
  • the acoustic signal processing device calculates a new phase using Equation 46.
  • the acoustic signal processing apparatus Since the acoustic signal processing apparatus once processes all the subband signals included in the range [k lb , k ub ] and then P 0 > 1, the value included in the new QMF block is “0”. May be.
  • the acoustic signal processing apparatus linearly complements each phase information so as to be “non-zero” for such a block. Further, the acoustic signal processing device complements each amplitude based on the phase information (S1310).
  • the acoustic signal processing device converts the amplitude and phase information of the new QMF block into a block signal of a complex coefficient (S1311).
  • a signal with strong sinusoidal tonality may generate signal components of two different QMF subbands, as shown in (c) and (e) above.
  • the relationship between the amplitudes of these two subbands depends on the prototype filter of the QMF analysis filter bank (QMF conversion).
  • FIG. 20A is a diagram showing the amplitude response of the prototype filter p (n) (filter length 640 samples). In order to achieve almost complete reconstruction, its amplitude response decays rapidly outside the frequency [ ⁇ 0.5, 0.5].
  • the coefficients of the complex QMF analysis filter bank having M bands are Is defined as
  • FIG. 20B is a diagram showing the thinned frequency response.
  • the amplitude characteristic of the (k ⁇ 1) th subband is indicated by a broken line on the left side of FIG. 20B
  • the amplitude characteristic of the (k + 1) th subband is indicated by a broken line on the right side of FIG. 20B.
  • the subband amplitude F (df) is a symmetric function at ⁇ 1 ⁇ df ⁇ 1, It is represented by
  • phase adjustment and amplitude adjustment are performed in the QMF region.
  • the acoustic signal processing device converts the QMF coefficient subjected to the phase vocoder process in the QMF domain into a time domain signal by the QMF synthesis filter bank. Thereby, a time-domain acoustic signal expanded by s times is obtained.
  • the QMF coefficient may be used in another acoustic signal processing apparatus in the subsequent stage.
  • another acoustic signal processing apparatus in the subsequent stage may perform some acoustic processing such as band expansion processing based on the SBR technique on the coefficient of the QMF block subjected to the phase vocoder processing in the QMF region.
  • another acoustic signal processing apparatus in the subsequent stage may convert the QMF coefficient into a time domain acoustic signal by the QMF synthesis filter bank.
  • the configuration shown in FIG. 3 is an example of such a combination.
  • This is an example of an acoustic decoding device that combines phase vocoder processing in the QMF region and acoustic signal band expansion technology. Below, the structure of the acoustic decoding apparatus using a phase vocoder process is demonstrated.
  • the separation unit 1201 separates the input bit stream into parameters for high frequency generation and encoded information for low frequency decoding.
  • the parameter decoding unit 1207 decodes a parameter for generating a high frequency band.
  • the decoding unit 1202 decodes the low-frequency component acoustic signal from the coding information for low-frequency decoding.
  • the QMF analysis filter bank 1203 converts the decoded acoustic signal into an acoustic signal in the QMF region.
  • the frequency modulation circuit 1205 and the time extension circuit 1204 perform the phase vocoder process on the acoustic signal in the QMF region. Thereafter, the high frequency band generation circuit 1206 generates a high frequency component signal using the parameters for high frequency band generation.
  • the outline adjustment circuit 1208 adjusts the frequency outline of the high frequency component.
  • the QMF synthesis filter bank 1209 converts the low frequency component and high frequency component acoustic signals in the QMF domain into time domain acoustic signals.
  • the low-frequency component encoding process or decoding process may use an audio encoding system such as MPEG-AAC system or MPEG-Layer3, or an audio encoding system such as ACELP. May be.
  • the modulation coefficient r (m, n) may be weighted for each subband index (m, n) of the QMF block.
  • the QMF coefficient is modulated by the modulation coefficient having a different value for each subband index. For example, in a subband index corresponding to a high frequency, there is a case where distortion of an acoustic signal becomes large when it is expanded. For such a subband index, an expansion coefficient that reduces the expansion ratio is used.
  • the acoustic signal processing device may further include another QMF analysis filter bank after the QMF analysis filter bank. Only the first QMF analysis filter bank may have low frequency resolution in the low band. In that case, even if phase vocoder processing is performed on an acoustic signal containing a large amount of low frequency components, a sufficient effect cannot be obtained.
  • the second QMF analysis filter bank for analyzing the low frequency portion for example, half of all QMF blocks included in the output of the first QMF analysis filter bank. Even if is used. Thereby, the frequency resolution is improved twice.
  • the effect of reducing the calculation amount and the memory consumption amount can be enhanced while maintaining the sound quality.
  • FIG. 4 is a diagram showing an example of a configuration for improving the resolution of the QMF region.
  • the QMF synthesis filter bank 2401 once synthesizes the input acoustic signal with a QMF synthesis filter. Thereafter, the QMF analysis filter bank 2402 calculates a QMF coefficient with a QMF analysis filter having a double resolution.
  • a phase vocoder processing circuit (first time expansion circuit 2403, second time expansion circuit) that performs double time expansion and double, triple, or quadruple pitch shift processing on a signal in the QMF region having double resolution.
  • a time extension circuit 2404 and a third time extension circuit 2405) are configured in parallel.
  • each phase vocoder processing circuit can unify phase vocoder processing with different expansion ratios at twice the resolution.
  • the merge circuit 2406 then synthesizes the phase vocoder processed signal.
  • FIG. 21 is a configuration diagram illustrating an acoustic encoding device that encodes an acoustic signal using time expansion processing and pitch expansion processing.
  • the acoustic encoding device shown in FIG. 21 performs frame processing on the acoustic signal divided for each predetermined number of samples.
  • the downsampling unit 1102 generates a signal including only a low frequency component by downsampling the acoustic signal.
  • the encoding unit 1103 generates encoded information by encoding an audio signal including only the low frequency band using an audio encoding method typified by MPEG-AAC, MPEG-Layer3, or AC3.
  • the QMF analysis filter bank 1104 converts an acoustic signal including only a low frequency component into a QMF coefficient.
  • the QMF analysis filter bank 1101 converts an acoustic signal including all band components into QMF coefficients.
  • the time extension circuit 1105 and the frequency modulation circuit 1106 adjust the signal (QMF coefficient) obtained by converting the acoustic signal including only the low frequency component into the QMF region as shown in the above-described embodiments, Generate virtual QMF coefficients for the region.
  • the parameter calculation unit 1107 calculates the outline information of the high frequency component by comparing the virtual high frequency QMF coefficient with the QMF coefficient (actual QMF coefficient) including all the band components.
  • the superimposing unit 1108 superimposes the calculated outline information on the encoded information.
  • FIG. 3 is a diagram showing a configuration of the acoustic decoding device.
  • the acoustic decoding device shown in FIG. 3 is a device that receives the encoded information encoded by the above-described acoustic encoding device and decodes it into an acoustic signal.
  • Separating section 1201 separates the received encoded information into first encoded information and second encoded information.
  • the parameter decoding unit 1207 converts the second encoded information into high-frequency QMF coefficient outline information.
  • the decoding unit 1202 decodes an acoustic signal including only a low frequency component from the first encoded information.
  • the QMF analysis filter bank 1203 converts the decoded acoustic signal into QMF coefficients including only low frequency components.
  • the time expansion circuit 1204 and the frequency modulation circuit 1205 adjust the time and pitch with respect to the QMF coefficient including only the low frequency component, as shown in the above-described embodiments. Thereby, a virtual QMF coefficient including a high frequency component is generated.
  • the outline adjustment circuit 1208 and the high frequency generation circuit 1206 adjust the virtual QMF coefficient including the high frequency component based on the outline information included in the received second encoded information.
  • the QMF synthesis filter bank 1209 synthesizes the adjusted QMF coefficient and the low-frequency QMF coefficient. Then, the QMF synthesis filter bank 1209 converts the obtained synthesis QMF coefficient into a time domain acoustic signal including both a low frequency component and a high frequency component by a QMF synthesis filter.
  • the acoustic encoding device transmits the time expansion / contraction ratio as encoded information.
  • the acoustic decoding device decodes the acoustic signal using the time expansion / contraction ratio.
  • the acoustic encoding device can change the time expansion / contraction ratio variously for each frame. Therefore, the control of the high frequency component becomes flexible. Therefore, high coding efficiency is achieved.
  • FIG. 22 is a diagram showing the results of a sound quality comparison experiment using a conventional SFTF-based time expansion circuit and frequency modulation circuit and using a QMF-based time expansion circuit and frequency modulation circuit. is there.
  • the result shown in FIG. 22 is based on an experiment under the condition of a bit rate of 16 kbps and a monaural signal.
  • this result is based on the evaluation by the MUSHRA (Multiple Stimulus with Hidden Reference and Anchor) method.
  • MUSHRA Multiple Stimulus with Hidden Reference and Anchor
  • the vertical axis indicates the sound quality difference from the STFT method
  • the horizontal axis indicates a plurality of sound sources having different acoustic characteristics.
  • the QMF-based method can be encoded and decoded with substantially the same sound quality as compared with the SFTF-based method.
  • the sound source used in this experiment is a sound source that is particularly susceptible to degradation when encoded and decoded. Therefore, it is obvious that encoding and decoding are performed with respect to other general acoustic signals while having equivalent performance.
  • the acoustic signal processing device performs time expansion processing and pitch expansion processing in the QMF region.
  • the acoustic signal processing according to the present invention is realized using a QMF filter as compared with the classic STFT-based time expansion processing and pitch expansion processing. Therefore, the acoustic signal processing according to the present invention does not need to use an FFT with a large calculation amount, and can achieve the same effect with a smaller calculation amount.
  • a processing delay occurs because it is necessary to perform processing based on the hop size.
  • the processing delay of the QMF filter is very short. Therefore, the acoustic signal processing apparatus according to the present invention also has an excellent advantage that the processing delay can be extremely reduced.
  • FIG. 23A is a configuration diagram illustrating an acoustic signal processing device according to the seventh embodiment.
  • the acoustic signal processing device shown in FIG. 23A includes a filter bank 2601 and an adjustment unit 2602.
  • the filter bank 2601 performs the same operation as the QMF analysis filter bank 901 shown in FIG.
  • the adjustment unit 2602 performs the same operation as the adjustment circuit 902 and the like illustrated in FIG.
  • the acoustic signal processing device illustrated in FIG. 23A converts the input acoustic signal sequence using a predetermined adjustment coefficient.
  • the predetermined adjustment coefficient corresponds to one of a time expansion / contraction ratio, a frequency modulation ratio, and a ratio obtained by combining them.
  • FIG. 23B is a flowchart showing processing of the acoustic signal processing device shown in FIG. 23A.
  • the filter bank 2601 converts the input acoustic signal sequence into a QMF coefficient sequence using a QMF analysis filter (S2601).
  • the adjustment unit 2602 adjusts the QMF coefficient sequence depending on a predetermined adjustment coefficient (S2602).
  • the adjustment unit 2602 depends on an adjustment coefficient indicating a predetermined time expansion / contraction ratio so that an input acoustic signal string that is time-expanded at a predetermined time expansion / contraction ratio is obtained from the adjusted QMF coefficient sequence.
  • the phase information and amplitude information of the QMF coefficient sequence are adjusted.
  • the adjustment unit 2602 indicates a predetermined frequency modulation ratio so that an input acoustic signal sequence that is frequency-modulated (pitch-shifted) by a predetermined frequency modulation ratio is obtained from the adjusted QMF coefficient sequence.
  • the phase information and amplitude information of the QMF coefficient sequence are adjusted depending on the adjustment coefficient.
  • FIG. 24 is a block diagram showing a modification of the acoustic signal processing device shown in FIG. 23A.
  • the acoustic signal processing device illustrated in FIG. 24 includes a high-frequency generation unit 2705 and a high-frequency complementing unit 2706 in addition to the acoustic signal processing device illustrated in FIG. 23A.
  • the adjustment unit 2602 includes a band limiting unit 2701, a calculation circuit 2702, an adjustment circuit 2703, and a region converter 2704.
  • the filter bank 2601 generates a QMF coefficient sequence at regular time intervals by sequentially converting the input acoustic signal sequence into a QMF coefficient sequence at regular time intervals.
  • the calculation circuit 2702 calculates phase information and amplitude information for each time slot and each subband of the QMF coefficient sequence generated at regular time intervals.
  • the adjustment circuit 2703 adjusts the phase information and the amplitude information of the QMF coefficient sequence by adjusting the phase information for each time slot and each subband depending on a predetermined adjustment coefficient.
  • the band limiting unit 2701 operates in the same manner as the band limiting filter 1802 shown in FIG. That is, the band limiting unit 2701 takes out a new QMF coefficient sequence corresponding to a predetermined bandwidth from the QMF coefficient sequence before adjusting the QMF coefficient sequence.
  • the domain converter 2704 operates in the same manner as the QMF domain converter shown in FIG. That is, after the adjustment of the QMF coefficient sequence, the domain converter 2704 converts the QMF coefficient sequence into new QMF coefficient sequences having different time and frequency resolutions.
  • the band limiting unit 2701 may extract a new QMF coefficient sequence corresponding to a predetermined bandwidth from the QMF coefficient sequence after adjusting the QMF coefficient sequence. Further, the domain converter 2704 may convert the QMF coefficient sequence into new QMF coefficient sequences having different time and frequency resolutions before the adjustment of the QMF coefficient sequence.
  • the high frequency generation unit 2705 operates in the same manner as the high frequency generation circuit 1206 shown in FIG. That is, the high frequency generation unit 2705 uses a predetermined conversion coefficient from the adjusted QMF coefficient sequence, and uses a predetermined conversion coefficient to generate a new QMF corresponding to a higher frequency band than the frequency band corresponding to the unadjusted QMF coefficient sequence. A high frequency coefficient sequence that is a coefficient sequence is generated.
  • the high frequency interpolation unit 2706 operates in the same manner as the outline adjustment circuit 1208 shown in FIG. That is to say, the high frequency complementing unit 2706, among the high frequency bands, the missing band coefficients, which are frequency bands for which the high frequency coefficient sequence was not generated by the high frequency generating unit 2705, belong to the bands adjacent to both sides of the missing band. Complement using domain coefficient sequence.
  • FIG. 25 is a configuration diagram illustrating an acoustic encoding device according to the seventh embodiment. 25 includes a downsampling unit 2802, a first filter bank 2801, a second filter bank 2804, a first encoding unit 2803, a second encoding unit 2807, an adjustment unit 2806, and a superposition unit 2808. Is provided.
  • the acoustic encoding device shown in FIG. 25 operates in the same manner as the acoustic encoding device shown in FIG.
  • the components shown in FIG. 25 correspond to the components shown in FIG.
  • the downsampling unit 2802 operates in the same manner as the downsampling unit 1102.
  • the first filter bank 2801 operates in the same manner as the QMF analysis filter bank 1101.
  • the second filter bank 2804 operates in the same manner as the QMF analysis filter bank 1104.
  • the first encoding unit 2803 performs the same operation as the encoding unit 1103.
  • the second encoding unit 2807 performs the same operation as the parameter calculation unit 1107.
  • the adjustment unit 2806 operates in the same manner as the time expansion circuit 1105.
  • the superimposing unit 2808 operates in the same manner as the superimposing unit 1108.
  • FIG. 26 is a flowchart showing processing of the acoustic encoding device shown in FIG.
  • the first filter bank 2801 converts the acoustic signal sequence into a QMF coefficient sequence using a QMF analysis filter (S2901).
  • the downsampling unit 2802 generates a new acoustic signal sequence by downsampling the acoustic signal sequence (S2902).
  • the first encoding unit 2803 encodes the generated new acoustic signal sequence (S2903).
  • the second filter bank 2804 converts the generated new acoustic signal sequence into a second QMF coefficient sequence using a QMF analysis filter (S2904).
  • the adjustment unit 2806 adjusts the second QMF coefficient sequence depending on a predetermined adjustment coefficient (S2905).
  • the predetermined adjustment coefficient corresponds to any one of the time expansion / contraction ratio, the frequency modulation ratio, and a combination ratio thereof.
  • the second encoding unit 2807 generates a parameter used for decoding by comparing the first QMF coefficient sequence and the adjusted second QMF coefficient sequence, and encodes the generated parameter (S2906).
  • the superimposing unit 2808 superimposes the encoded acoustic signal sequence and the encoded parameter (S2907).
  • FIG. 27 is a configuration diagram illustrating an acoustic decoding device according to the seventh embodiment.
  • the acoustic decoding apparatus shown in FIG. 27 includes a separation unit 3001, a first decoding unit 3007, a second decoding unit 3002, a first filter bank 3003, a second filter bank 3009, an adjustment unit 3004, and a high frequency generation unit 3006. .
  • the acoustic decoding device shown in FIG. 27 operates in the same manner as the acoustic decoding device shown in FIG.
  • the components shown in FIG. 27 correspond to the components shown in FIG.
  • the separation unit 3001 operates in the same manner as the separation unit 1201.
  • the first decoding unit 3007 performs the same operation as the parameter decoding unit 1207.
  • the second decoding unit 3002 performs the same operation as the decoding unit 1202.
  • the first filter bank 3003 operates in the same manner as the QMF analysis filter bank 1203.
  • the second filter bank 3009 operates in the same manner as the QMF synthesis filter bank 1209.
  • the adjustment unit 3004 performs the same operation as the time expansion circuit 1204.
  • the high frequency generator 3006 operates in the same manner as the high frequency generator 1206.
  • FIG. 28 is a flowchart showing the processing of the acoustic decoding device shown in FIG.
  • the separation unit 3001 separates the encoded parameter and the encoded acoustic signal sequence from the input bitstream (S3101).
  • the first decoding unit 3007 decodes the encoded parameter (S3102).
  • the second decoding unit 3002 decodes the encoded acoustic signal sequence (S3103).
  • the first filter bank 3003 converts the acoustic signal sequence decoded by the second decoding unit 3002 into a QMF coefficient sequence using a QMF analysis filter (S3104).
  • the adjustment unit 3004 adjusts the QMF coefficient sequence depending on a predetermined adjustment coefficient (S3105).
  • the predetermined adjustment coefficient corresponds to any one of the time expansion / contraction ratio, the frequency modulation ratio, and a combination ratio thereof.
  • the high frequency generation unit 3006 uses a parameter decoded from the adjusted QMF coefficient sequence, and is a new QMF coefficient sequence corresponding to a high frequency band higher than the frequency band corresponding to the QMF coefficient.
  • a domain coefficient sequence is generated (S3106).
  • the second filter bank 3009 converts the QMF coefficient sequence and the high frequency coefficient sequence into a time domain acoustic signal sequence using a QMF synthesis filter.
  • FIG. 29 is a block diagram showing a modified example of the acoustic decoding device shown in FIG.
  • the acoustic decoding apparatus shown in FIG. 29 includes a decoding unit 2501, a QMF analysis filter bank 2502, a frequency modulation circuit 2503, a combining unit 2504, a high frequency reconstruction unit 2505, and a QMF synthesis filter bank 2506.
  • the decoding unit 2501 decodes the acoustic signal from the bit stream.
  • the QMF analysis filter bank 2502 converts the decoded acoustic signal into QMF coefficients.
  • the frequency modulation circuit 2503 performs frequency modulation processing on the QMF coefficient.
  • the frequency modulation circuit 2503 includes the components shown in FIG. As shown in FIG. 4, in the frequency modulation processing, time expansion processing is executed internally.
  • the combining unit 2504 combines the QMF coefficient obtained from the QMF analysis filter bank 2502 and the QMF coefficient obtained from the frequency modulation circuit 2503.
  • the high frequency reconstruction unit 2505 reconstructs the QMF coefficient corresponding to the high frequency from the combined QMF coefficient.
  • the QMF synthesis filter bank 2506 converts the QMF coefficient obtained from the high frequency reconstruction unit 2505 into an acoustic signal.
  • the acoustic signal processing apparatus can reduce the amount of calculation compared to the STFT-based phase vocoder process.
  • the acoustic signal processing apparatus outputs a signal in the QMF region, inefficiency of region conversion can be eliminated in parametric encoding processing such as SBR technology or Parametric Stereo.
  • the acoustic signal processing apparatus can also reduce the memory capacity necessary for the region conversion calculation.
  • the present invention is not limited to these embodiments.
  • Forms obtained by subjecting those embodiments to modifications conceivable by those skilled in the art, and other forms realized by arbitrarily combining components in these embodiments are also included in the present invention.
  • another processing unit may execute a process executed by a specific processing unit.
  • the order in which the processes are executed may be changed, or a plurality of processes may be executed in parallel.
  • the present invention can be realized not only as an acoustic signal processing device, an acoustic encoding device, or an acoustic decoding device, but also as a method including steps of processing means constituting the acoustic signal processing device, the acoustic encoding device, or the acoustic decoding device. it can. And this invention is realizable as a program which makes a computer perform the step contained in those methods. Furthermore, the present invention can be realized as a computer-readable recording medium such as a CD-ROM in which the program is recorded.
  • the plurality of components included in the acoustic signal processing device, the acoustic encoding device, or the acoustic decoding device may be realized as an LSI (Large Scale Integration) that is an integrated circuit. These components may be individually made into one chip, or may be made into one chip so as to include a part or all of them. Although referred to here as an LSI, it may be referred to as an IC (Integrated Circuit), a system LSI, a super LSI, or an ultra LSI depending on the degree of integration.
  • IC Integrated Circuit
  • the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • the acoustic signal processing apparatus is useful for audio recorders, audio players, mobile phones, and the like.

Abstract

 低い演算量で、時間伸縮処理または周波数変調処理のような音響信号処理を実現できる音響信号処理装置を提供する。音響信号処理装置は、所定の調整係数を用いて、入力音響信号列を変換する音響信号処理装置であって、入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換するフィルタバンク(2601)と、QMF係数列を所定の調整係数に依存させて調整する調整部(2602)とを備える。

Description

音響信号処理装置、音響符号化装置および音響復号装置
 本発明は、音響信号および音声信号(以下、音響信号と呼ぶ)をデジタル信号処理する音響信号処理装置に関するものである。
 音響信号を時間軸上で、圧縮したり伸張したりする技術として、フェーズボコーダー(Phase Vocoder)という技術がある。非特許文献1に開示されているフェーズボコーダー装置は、デジタル化した音響信号に高速フーリエ変換(FFT:Fast Fourier Transform)または短時間フーリエ変換(STFT:Short Time Fourier Transform)を適用し、周波数領域で、時間方向の伸縮処理(時間伸張処理)、および、ピッチ変換処理(ピッチシフト処理)などを実現している。
 ピッチは、ピッチ周波数とも呼ばれ、音の高さを意味する。時間伸張処理は、音響信号のピッチを変えずに音響信号の時間長を伸縮する処理である。ピッチシフト処理は、周波数変調処理の例であり、音響信号の時間長を変えずに音響信号のピッチを変える処理である。ピッチシフト処理は、ピッチ伸張処理とも呼ばれる。
 音響信号の再生速度が単純に変更された場合、音響信号の時間長およびピッチの両方が変更される。一方、ピッチを変えずに時間伸縮された音響信号の再生速度が変更されることにより、音響信号の時間長が元に戻り、音響信号のピッチのみが変換される場合もある。そのため、ピッチシフト処理には、時間伸張処理が含まれる場合がある。逆に、時間伸張処理には、ピッチシフト処理が含まれる場合もある。このように時間伸張処理とピッチシフト処理とは、対応する関係を有する。
 時間伸張処理は、入力音響信号をFFTして得られたスペクトル信号の局所的なスペクトル特性を変えることなく、入力音響信号の継続時間(再生時間)を変化させることが出来る。その原理は以下の通りである。
 (a)時間伸張処理を実行する音響信号処理装置は、まず、入力音響信号を一定時間間隔に分割して、一定時間間隔毎(たとえば1024サンプル毎)に解析する。その際、音響信号処理装置は、分割した時間単位内で、分割時間単位よりも短い時間間隔(たとえば128サンプル)毎にオーバーラップさせて入力音響信号を処理する。ここでは、オーバーラップさせる時間間隔をホップサイズ(Hop Size)と呼ぶことにする。
 図30Aでは、入力信号のホップサイズは、Raである。また、フェーズボコーダー処理によって算出される出力音響信号も、時間間隔が一定サンプル数だけオーバーラップされた音響信号になる。図30Bでは、出力音響信号のホップサイズは、Rsである。時間伸張する場合は、Rs>Raとなり、時間圧縮する場合は、Rs<Raとなる。ここでは、時間伸張する場合(Rs>Ra)を例にとって説明する。時間伸張の割合rを式1のように定義する。
Figure JPOXMLDOC01-appb-M000001
 (b)上述のように、一定時間間隔毎に分割され、オーバーラップされた状態の各時間ブロック信号は、時間的にコヒーレント(Coherent)なパターンを有している場合が多い。そこで、音響信号処理装置は、各時間ブロック信号に周波数変換を施す。典型的には、音響信号処理装置は、入力の各時間ブロック信号を周波数変換し、位相情報を調整する。その後、音響信号処理装置は、出力の時間ブロック信号として、周波数領域の信号を時間領域の信号に戻す。
 上記の原理に従って、これまでの古典的なフェーズボコーダー装置は、STFTを用いて、周波数領域への変換を行い、周波数領域でのさまざまな調整処理の後、短時間フーリエ逆変換を行っていた。そして、これにより、時間変換およびピッチシフト処理を実現していた。次に、STFTベースの処理について、説明する。
 (1)解析
 まず、音響信号処理装置は、ホップサイズRaでオーバーラップされた時間ブロック単位毎に窓長Lの解析窓関数を実行する。具体的には、音響信号処理装置は、各ブロックを、FFTを用いて周波数領域に変換する。たとえば、uRa(u∈N)という点における周波数特性は、式2によって算出される。
Figure JPOXMLDOC01-appb-M000002
 
 ここで、h(n)は解析窓関数であり、kは、周波数インデックスを示し、範囲としてはk=0,…,L-1である。また、WL mkは、
Figure JPOXMLDOC01-appb-M000003
により算出される。
 (2)調整
 このようにして算出された周波数信号の位相情報、すなわち、調整前の位相情報は、φ(uRa,k)であるとする。調整フェーズにおいて、音響信号処理装置は、周波数インデックスがkである周波数成分ω(uRa,k)を次の方法で算出する。
 まず、周波数成分ω(uRa,k)を算出するため、音響信号処理装置は、連続する解析点である(u-1)RaとuRaの位相信号の増加分Δφk uを式3に従って算出する。
Figure JPOXMLDOC01-appb-M000004
 
 時間間隔Raで増加分Δφk uが算出されるため、音響信号処理装置は、各周波数成分ω(uRa,k)を式4に従って計算することができる。
Figure JPOXMLDOC01-appb-M000005
 
 次に、音響信号処理装置は、合成点uRsにおける位相を、式5によって計算する。
 ψ(uRs,k)=ψ((u-1)Rs,k)+Rs・ω(uRa,k)   (式5)
 (3)再合成
 音響信号処理装置は、FFTにより算出された周波数信号の振幅|X(uRa,k)|と、調整後の位相ψ(uRs,k)とをすべての周波数インデックスに対して算出する。そして、音響信号処理装置は、逆FFT変換を用いて、周波数信号を時間信号に再合成する。再合成は、式6に従って実行される。
Figure JPOXMLDOC01-appb-M000006
 音響信号処理装置は、再合成された時間ブロック信号を、合成点uRsに挿入する。そして、音響信号処理装置は、合成出力された信号と、前のブロックで合成出力された信号とをオーバーラップ加算することで、時間伸張信号を生成する。前ブロックの合成出力とのオーバーラップ加算は、式7に示される。
Figure JPOXMLDOC01-appb-M000007
 
 上記の3つのステップは、解析点(u+1)Raに関しても、施される。そして、上記の3つのステップは、すべての入力信号ブロックに対して繰り返される。この結果として、音響信号処理装置は、伸張比Rs/Raで時間伸張した信号を算出することが出来る。
 なお、時間伸張された信号の振幅方向のモジュレーション(時間的な揺らぎ)を補正するため、窓関数h(m)は、電力補償(power-complemntary)条件を満たす必要がある。
 時間伸張に対応する処理として、ピッチシフト処理がある。ピッチシフト処理は、信号の経過時間を変えることなく信号のピッチを変える方法である。デジタル音響信号のピッチを変える簡単な方法は、入力信号を間引く(resample)ことである。ピッチシフト処理は、時間伸張処理とも組み合わせることが可能である。例えば、音響信号処理装置は、時間伸張処理の後で、元の入力信号の時間長にresampleすることも可能である。
 一方で、ピッチシフト処理を直接そのまま計算する手法も存在する。ピッチシフト処理を計算する手法は、一般的に、時間軸でのresample処理よりもかなり悪い副作用を発生する場合があるが、本発明ではその詳細は述べない。
 なお、時間伸張の処理は、伸張比により、時間圧縮の処理になる場合がある。そのため、ここでは、時間伸張の表現は、時間伸縮を示し、時間圧縮を含む。
Improved Phase Vocoder Time-Scale Modification of Audio(IEEE Trans ASP Vol.7 No.3,May 1989)
 しかしながら、上述のように、FFTおよび逆FFTで構成する古典的なフェーズボコーダー装置で高品質な時間伸張を実現するためには、細かいホップサイズを設定する必要がある。したがって、結果的にFFTおよび逆FFTを膨大な回数実施することが必要であり、演算量が大きい。
 また、音響信号処理装置は、時間伸張処理の後、時間伸張処理とは異なる処理を実行する場合がある。この場合、音響信号処理装置は、時間領域の信号を解析用の領域の信号へ変換する必要がある。例えば、このような解析用の領域として、時間軸方向と周波数軸方向との両方に成分を有するQMF(Quadrature Mirror Filter)領域がある。QMF領域は、時間軸方向と周波数軸方向との両方に成分を有するため、合成複素領域、合成周波数領域、サブバンド領域、または、周波数サブバンド領域等とも呼ばれることもある。
 一般的に、複素QMFフィルタバンクは、時間領域の信号を、時間軸と周波数軸との両方に成分を持つ合成複素領域へと変換する手法の一つである。QMFフィルタバンクは、典型的には、Spectral Band Replication(SBR)技術、Parametric Stereo(PS)、および、Spatial Audio Coding(SAC)などのパラメトリックベースのオーディオ符号化方法に用いられている。これらの符号化で用いられているQMFフィルタバンクは、サブバンド毎に複素数の値で表現される周波数領域の信号を2倍にオーバーサンプリングするような特性を持つ。これは、折り返し歪みを発生させずに、サブバンド周波数領域の信号を処理することを実現するための仕様である。
 以下に、もう少し詳しく述べる。QMF解析フィルタバンクは、入力信号の実数値の離散時間信号x(n)をサブバンド周波数領域の複素信号sk(n)に変換する。sk(n)は、式8によって算出される。
Figure JPOXMLDOC01-appb-M000008
 ここで、p(n)は、low-pass特性を持つL-1次のプロトタイプフィルタのインパルス応答である。αは位相パラメータ、Mはサブバンド数である。また、kは、サブバンドのインデックスを示しており、k=0,1,…,M-1である。
 ここでは、QMF解析フィルタバンクによってサブバンド領域の信号に分割された信号をQMF係数と呼ぶ。QMF係数は、パラメトリック符号化手法において、合成処理の前段階で、調整されることが多い。
 QMF合成フィルタバンクは、QMF係数の先頭のM個の係数をゼロパディングする(値を0で埋める)ことによって、サブバンド信号s’k(n)を算出する。そして、QMF合成フィルタバンクは、式9に従って時間信号x’(n)を算出する。
Figure JPOXMLDOC01-appb-M000009
 ここで、βは位相パラメータを示す。
 以上のケースでは、入力の実数値信号x(n)の再合成可能条件(perfect reconstruction)をほぼ満たすように、実数値で構成された線形位相プロトタイプフィルタ係数p(n)および位相パラメータが設計されている。
 上述のように、QMF変換は、時間軸方向と周波数軸方向との混合の変換である。すなわち、信号に含まれる周波数成分と、時間毎の周波数の変化を示す情報を抽出することが可能である。そして、周波数成分は、サブバンドおよび単位時間毎に抽出することができる。ここでは、単位時間のことをタイムスロットと呼ぶことにする。
 図31に詳しく図示する。実数の入力信号は、長さLおよびホップサイズMのオーバーラップされたブロックに分割される。QMF解析処理では、各ブロックは、M個の複素サブバンド信号が1個のタイムスロットになった形へと変換される(図31の上段)。こうして、時間領域のLサンプルの信号が、L個の複素QMF係数へと変換される。この複素QMF係数は、図31の中段で示すように、L/M個のタイムスロットおよびM個のサブバンドで構成される。各タイムスロットは、当該タイムスロットよりも前の(L/M-1)個のタイムスロットのQMF係数を用いて、QMF合成処理で、M個の実数時間信号へと合成される(図31の下段)。
 上述のSTFTと同様に、音響信号処理装置は、時間分解能と周波数分解能の本来の組み合わせによって、ある瞬間の周波数信号をQMF領域で算出することが可能である。
 また、音響信号処理装置は、L/M個のタイムスロットおよびM個のサブバンドで構成されている複素QMF係数ブロックから、あるタイムスロットの位相情報と隣接するタイムスロットの位相情報との間の位相差を算出することができる。例えば、あるタイムスロットの位相情報と隣接するタイムスロットの位相情報との間の位相差は、式10で算出される。
 Δφ(n,k)=φ(n,k)-φ(n-1,k)   (式10)
 ここで、φ(n,k)は、位相情報を示す。nは、タイムスロットインデックスを示し、n=0,1,…,L/M-1である。kは、サブバンドインデックスを示し、k=0,1,…,M-1である。
 時間伸張処理された後に、音響信号が、このようなQMF領域で信号処理される場合がある。しかし、この場合、音響信号処理装置は、演算量が大きいFFTおよび逆FFTを伴う時間伸張処理に加えて、時間領域の信号をQMF領域の信号へ変換する処理をしなければならない。よって、演算量がさらに増加していた。
 そこで、本発明は、低い演算量で、音響信号処理を実現できる音響信号処理装置を提供することを目的とする。
 上記課題を解決するため、本発明に係る音響信号処理装置は、所定の調整係数を用いて、入力音響信号列を変換する音響信号処理装置であって、前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換するフィルタバンクと、前記QMF係数列を前記所定の調整係数に依存させて調整する調整部とを備える。
 これにより、音響信号処理がQMF領域で実行される。したがって、演算量の大きな従来の音響信号処理が用いられないため、演算量が低減する。
 また、前記調整部は、調整された前記QMF係数列から、所定の時間伸縮比で時間伸縮された前記入力音響信号列が得られるように、前記所定の時間伸縮比を示す前記所定の調整係数に依存させて、前記QMF係数列を調整してもよい。
 これにより、音響信号の時間伸縮に相当する処理がQMF領域で実行される。したがって、演算量の大きな従来の時間伸縮処理が用いられないため、演算量が低減する。
 また、前記調整部は、調整された前記QMF係数列から、所定の周波数変調比で周波数変調された前記入力音響信号列が得られるように、前記所定の周波数変調比を示す前記所定の調整係数に依存させて、前記QMF係数列を調整してもよい。
 これにより、音響信号の周波数変調に相当する処理がQMF領域で実行される。したがって、演算量の大きな従来の周波数変調処理が用いられないため、演算量が低減する。
 また、前記フィルタバンクは、前記入力音響信号列を時間間隔毎に前記QMF係数列へ逐次変換することにより、前記時間間隔毎の前記QMF係数列を生成し、前記調整部は、前記時間間隔毎に生成された前記QMF係数列のタイムスロット毎およびサブバンド毎に位相情報を算出する算出回路と、前記タイムスロット毎および前記サブバンド毎の前記位相情報を前記所定の調整係数に依存させて調整することにより、前記QMF係数列を調整する調整回路とを備えてもよい。
 これにより、QMF係数の位相情報が、調整係数に応じて、適応的に調整される。
 また、前記調整回路は、前記サブバンド毎に、前記QMF係数列の最初のタイムスロットの前記位相情報と、前記所定の調整係数とに依存させて算出した値を、前記タイムスロット毎の前記位相情報に加算することにより、前記タイムスロット毎の前記位相情報を調整してもよい。
 これにより、位相情報が、タイムスロット毎に、調整係数に応じて、適応的に調整される。
 また、前記算出回路は、さらに、前記時間間隔毎に生成された前記QMF係数列の前記タイムスロット毎および前記サブバンド毎に振幅情報を算出し、前記調整回路は、さらに、前記タイムスロット毎および前記サブバンド毎の前記振幅情報を前記所定の調整係数に依存させて調整することにより、前記QMF係数列を調整してもよい。
 これにより、QMF係数の振幅情報が、調整係数に応じて、適応的に調整される。
 また、前記調整部は、さらに、前記QMF係数列の調整前または調整後に、前記QMF係数列から、予め定められた帯域幅に対応する新たなQMF係数列を取り出す帯域制限部を備えてもよい。
 これにより、必要な周波数帯域のQMF係数のみが得られる。
 また、前記調整部は、前記QMF係数列を調整する割合をサブバンド毎に重み付けして、前記サブバンド毎に前記QMF係数列を調整してもよい。
 これにより、周波数帯域に応じて、適応的に、QMF係数が調整される。
 また、前記調整部は、さらに、前記QMF係数列の調整前または調整後に、前記QMF係数列を時間および周波数の分解能が異なる新たなQMF係数列に変換する領域変換器を備えてもよい。
 これにより、QMF係数列が、処理に応じたサブバンド数を有するQMF係数列に変換される。
 また、前記調整部は、調整前の前記QMF係数列から過渡成分を検出し、検出した前記過渡成分を調整前の前記QMF係数列から取り出し、取り出した前記過渡成分を調整し、調整した前記過渡成分を調整後の前記QMF係数列に戻すことにより、前記QMF係数列を調整してもよい。
 これにより、時間伸張処理に不適切な過渡成分による影響が抑制される。
 また、前記音響信号処理装置は、さらに、調整後の前記QMF係数列から、予め定められた変換係数を用いて、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、前記高周波数帯域のうち、前記高域生成部によって前記高域係数列が生成されなかった周波数帯域である欠落帯域の係数を前記欠落帯域の両側に隣接する帯域に属する前記高域係数列を用いて補完する高域補完部とを備えてもよい。
 これにより、高周波数帯域に対応するQMF係数が得られる。
 また、本発明に係る音響符号化装置は、第1音響信号列を符号化する音響符号化装置であって、前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1フィルタバンクと、前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリング部と、前記第2音響信号列を符号化する第1符号化部と、前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2フィルタバンクと、前記第2QMF係数列を所定の調整係数に依存させて調整する調整部と、前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化部と、符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳部とを備えてもよい。
 これにより、QMF領域での音響信号処理を用いて、音響信号が符号化される。したがって、演算量の大きな従来の音響信号処理が用いられないため、演算量が低減する。また、QMF領域での音響信号処理により得られたQMF係数は、時間領域の音響信号に変換されることなく、後段の処理に用いられる。したがって、さらに、演算量が低減する。
 また、本発明に係る音響復号装置は、入力されたビットストリームから、第1音響信号列を復号する音響復号装置であって、入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離部と、符号化された前記パラメータを復号する第1復号部と、符号化された前記第2音響信号列を復号する第2復号部と、前記第2復号部によって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1フィルタバンクと、前記QMF係数列を所定の調整係数に依存させて調整する調整部と、復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2フィルタバンクとを備えてもよい。
 これにより、QMF領域での音響信号処理を用いて、音響信号が復号される。したがって、演算量の大きな従来の音響信号処理が用いられないため、演算量が低減する。また、QMF領域での音響信号処理により得られたQMF係数は、時間領域の音響信号に変換されることなく、後段の処理に用いられる。したがって、さらに、演算量が低減する。
 また、本発明に係る音響信号処理方法は、所定の調整係数を用いて、入力音響信号列を変換する音響信号処理方法であって、前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換する変換ステップと、前記QMF係数列を前記所定の調整係数に依存させて調整する調整ステップとを含んでもよい。
 これにより、本発明に係る音響信号処理装置が、音響信号処理方法として実現される。
 また、本発明に係る音響符号化方法は、第1音響信号列を符号化する音響符号化方法であって、前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1変換ステップと、前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリングステップと、前記第2音響信号列を符号化する第1符号化ステップと、前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2変換ステップと、前記第2QMF係数列を所定の調整係数に依存させて調整する調整ステップと、前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化ステップと、符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳ステップとを含んでもよい。
 これにより、本発明に係る音響符号化装置が、音響符号化方法として実現される。
 また、本発明に係る音響復号方法は、入力されたビットストリームから、第1音響信号列を復号する音響復号方法であって、入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離ステップと、符号化された前記パラメータを復号する第1復号ステップと、符号化された前記第2音響信号列を復号する第2復号ステップと、前記第2復号ステップによって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1変換ステップと、前記QMF係数列を所定の調整係数に依存させて調整する調整ステップと、復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成ステップと、前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2変換ステップとを含んでもよい。
 これにより、本発明に係る音響復号装置が、音響復号方法として実現される。
 また、本発明に係るプログラムは、前記音響信号処理方法に含まれるステップをコンピュータに実行させるためのプログラムであってもよい。
 これにより、本発明に係る音響信号処理方法が、プログラムとして実現される。
 また、本発明に係るプログラムは、前記音響符号化方法に含まれるステップをコンピュータに実行させるためのプログラムであってもよい。
 これにより、本発明に係る音響符号化方法が、プログラムとして実現される。
 また、本発明に係るプログラムは、前記音響復号方法に含まれるステップをコンピュータに実行させるためのプログラムであってもよい。
 これにより、本発明に係る音響復号方法が、プログラムとして実現される。
 また、本発明に係る集積回路は、所定の調整係数を用いて、入力音響信号列を変換する集積回路であって、前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換するフィルタバンクと、前記QMF係数列を前記所定の調整係数に依存させて調整する調整部とを備えてもよい。
 これにより、本発明に係る音響信号処理装置が、集積回路として実現される。
 また、本発明に係る集積回路は、第1音響信号列を符号化する集積回路であって、前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1フィルタバンクと、前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリング部と、前記第2音響信号列を符号化する第1符号化部と、前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2フィルタバンクと、前記第2QMF係数列を所定の調整係数に依存させて調整する調整部と、前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化部と、符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳部とを備えてもよい。
 これにより、本発明に係る音響符号化装置が、集積回路として実現される。
 また、本発明に係る集積回路は、入力されたビットストリームから、第1音響信号列を復号する集積回路であって、入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離部と、符号化された前記パラメータを復号する第1復号部と、符号化された前記第2音響信号列を復号する第2復号部と、前記第2復号部によって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1フィルタバンクと、前記QMF係数列を所定の調整係数に依存させて調整する調整部と、復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2フィルタバンクとを備えてもよい。
 これにより、本発明に係る音響復号装置が、集積回路として実現される。
 本発明により、低い演算量で、音響信号処理を実現できる。
図1は、実施の形態1に係る音響信号処理装置を示す構成図である。 図2は、実施の形態1に係る時間伸張処理を示す説明図である。 図3は、音響復号装置を示す構成図である。 図4は、実施の形態1に係る周波数変調回路を示す構成図である。 図5Aは、実施の形態2に係るQMF係数ブロックを示す説明図である。 図5Bは、QMF領域でのタイムスロット毎のエネルギー分布を示す図である。 図5Cは、QMF領域でのサブバンド毎のエネルギー分布を示す図である。 図6Aは、過渡成分に応じた時間伸張処理の第1パターンを示す説明図である。 図6Bは、過渡成分に応じた時間伸張処理の第2パターンを示す説明図である。 図6Cは、過渡成分に応じた時間伸張処理の第3パターンを示す説明図である。 図7Aは、実施の形態2に係る過渡成分抽出処理を示す説明図である。 図7Bは、実施の形態2に係る過渡成分挿入処理を示す説明図である。 図8は、過渡位置とQMF位相遷移割合との線形関係を示す図である。 図9は、実施の形態2に係る時間伸張処理のフローチャートである。 図10は、実施の形態2に係る時間伸張処理の変形例のフローチャートである。 図11は、実施の形態3に係る時間伸張処理を示す説明図である。 図12は、実施の形態4に係る時間伸張処理を示す説明図である。 図13は、実施の形態5に係る音響信号処理装置を示す構成図である。 図14は、実施の形態5に係る音響信号処理装置の第1変形例を示す構成図である。 図15は、実施の形態5に係る音響信号処理装置の第2変形例を示す構成図である。 図16Aは、リサンプリング処理によりピッチシフト処理された出力を示す図である。 図16Bは、時間伸張処理により期待される出力を示す図である。 図16Cは、時間伸張処理により誤った出力を示す図である。 図17は、実施の形態6に係る音響信号処理装置を示す構成図である。 図18は、実施の形態6に係るQMF領域変換処理を示す概念図である。 図19は、実施の形態6に係る周波数変調処理のフローチャートである。 図20Aは、QMFプロトタイプフィルタの振幅応答を示す図である。 図20Bは、周波数と振幅との関係を示す図である。 図21は、実施の形態6に係る音響符号化装置を示す構成図である。 図22は、音質の評価を示す説明図である。 図23Aは、実施の形態7に係る音響信号処理装置を示す構成図である。 図23Bは、実施の形態7に係る音響信号処理装置の処理を示すフローチャートである。 図24は、実施の形態7に係る音響信号処理装置の変形例を示す構成図である。 図25は、実施の形態7に係る音響符号化装置を示す構成図である。 図26は、実施の形態7に係る音響符号化装置の処理を示すフローチャートである。 図27は、実施の形態7に係る音響復号装置を示す構成図である。 図28は、実施の形態7に係る音響復号装置の処理を示すフローチャートである。 図29は、実施の形態7に係る音響復号装置の変形例を示す構成図である。 図30Aは、時間伸張処理前の音響信号の状態を示す説明図である。 図30Bは、時間伸張処理後の音響信号の状態を示す説明図である。 図31は、QMF解析処理およびQMF合成処理を示す説明図である。
 以下、本発明の実施の形態を、図面を参照しながら説明する。
 (実施の形態1)
 実施の形態1に係る音響信号処理装置は、入力された音響信号に対して、QMF変換を行い、位相調整を行い、逆QMF変換を施すことで、時間伸張処理を実現する。
 図1は、実施の形態1に係る音響信号処理装置の構成図である。まず、はじめに、QMF解析フィルタバンク901は、入力された音響信号をQMF係数X(m,n)に変換する。ここで、mは、サブバンドインデックスを示し、nは、タイムスロットインデックスを示す。調整回路902は、変換で得られたQMF係数を調整する。以下、調整回路902での調整に関して説明する。式11は、調整前の各QMF係数を、それぞれの振幅および位相を用いて表現している。
Figure JPOXMLDOC01-appb-M000010
 r(m、n)は、振幅情報を示し、a(m、n)は、位相情報を示す。調整回路902は、位相情報a(m,n)を位相情報
Figure JPOXMLDOC01-appb-M000011
に調整する。調整回路902は、調整後の位相情報と調整前の振幅情報r(m,n)によって、新しいQMF係数を式12に従って計算する。
Figure JPOXMLDOC01-appb-M000012
 最後に、QMF合成フィルタバンク903は、式12で計算された新しいQMF係数を時間信号に変換する。以下に、位相情報を調整する手法に関して説明する。
 実施の形態1において、QMFベースの時間伸張処理は、次に示すステップで構成される。すなわち、時間伸張処理は、(1)位相情報を調整するステップと、(2)QMF変換の加法定理に基づいて、QMF領域でのオーバーラップ加算を実行するステップとで、構成される。
 以下は、時間伸張に関する説明で、2Lサンプルの実数値の時間信号を伸張係数sで時間伸張を行う場合の例である。QMF解析フィルタバンク901は、例えば、2Lサンプルの実数値の時間信号を、2L/M個の時間スロットおよびM個のサブバンドで構成される2L個のQMF係数に変換する。すなわち、QMF解析フィルタバンク901は、2Lサンプルの実数値の時間信号を合成周波数領域のQMF係数に変換する。
 STFTベースの時間伸張方法と同じように、QMF変換によって算出されるQMF係数は、位相情報を調整する前段で、解析窓関数の影響を受けやすい。実施の形態1では、QMF係数への変換を下記の3ステップで実現する。
 (1)解析窓関数h(n)(窓長L)がQMF領域用に変換されることにより、QMF領域用の解析窓関数H(ν,k)(L/M個のタイムスロットと、M個のサブバンドで構成)が算出される。
 (2)算出された解析窓関数H(ν,k)は、
Figure JPOXMLDOC01-appb-M000013
によって、簡易化される。
 (3)QMF解析フィルタバンク901は、X(m,k)=X(m,k)・H0(w)(ここで、w=mod(m,L/M)、mod()は剰余を算出する演算である)によって、QMF係数を算出する。
 元々のQMF係数は、図2の上段に示すようにL/M個のタイムスロットで、ホップサイズが1タイムスロット毎にオーバーラップされたL/M+1個のQMFブロックで構成される。
 調整回路902は、位相情報が非連続になることを確実に避けるため、調整前の各QMFブロックの位相情報を調整し、新しいQMFブロックを構成する。つまり、μ番目とμ+1番目のQMFブロックがオーバーラップしている場合に新しいQMFブロックの位相情報はμ・sサンプル点において連続性を確保する必要がある(sは伸張係数)。これは、時間領域で言うと、ジャンプポイントμ・M・s(μ∈N)における連続性を確保することに相当する。
 調整回路902は、調整前の各QMFブロックの位相情報φu(k)を、複素数であるQMF係数X(u,k)(タイムスロットインデックスu=0,…,2L/M-1、サブバンドインデックスk=0,1,…,M-1)から算出する。図2の中段に示すように、調整回路902は、各QMFブロックを、タイムスロットが古い順番から演算して、新しいQMFブロックを生成する。各QMFブロックは、それぞれ、異なる模様で図示されている。図2は、2タイムスロット分のホップサイズでずらして処理する場合を示している。
 n番目(n=1,…,L/M+1)の新しいQMFブロックの位相情報は、ψu (n)(k)(タイムスロットインデックスu=0,…,L/M-1、サブバンドインデックスk=0,1,…,M-1)として表現される。新しい位相情報ψu (n)(k)は、時間伸張後の新しいQMFブロックが、どこに再配置されるかで異なる。
 1番目のQMFブロックX(1)(u,k)(u=0,…,L/M-1)が再配置される際、そのQMFブロックの新しい位相情報ψu (1)(k)は、調整前のQMFブロックの位相情報φu(k)と同じとする。すなわち、新しい位相情報ψu (1)(k)は、ψu (1)(k)=φu(k)(u=0,…,L/M-1、k=0,1,…,M-1)で算出される。
 2番目のQMFブロックX(2)(u,k)(u=0,…,L/M-1)は、sタイムスロットのホップサイズだけ移動して再配置される(図2は、2タイムスロットの場合を示している)。この場合、ブロックの先頭の周波数成分は、1番目の新しいQMFブロックX(1)(u,k)のs番目のタイムスロットと連続している必要がある。従って、X(2)(u,k)の1番目のタイムスロットの周波数成分は、元々のQMFブロックの2番目のタイムスロットの周波数成分と一致させる。すなわち、新しい位相情報ψ0 (2)(k)は、ψ0 (2)(k)=ψ0 (1)(k)+Δφ1(k)で算出される。
 1番目のタイムスロットの位相情報が変わったため、残りの位相情報も、元々のQMFブロックの位相情報に応じて調整される。すなわち、新しい位相情報ψu (2)(k)は、ψu (2)(k)=ψu-1 (2)(k)+Δφu+1(k)(u=0,…,L/M-1)で算出される。
 ここで、Δφu(k)は、Δφu(k)=φu(k)-φu-1(k)で算出され、調整前のQMFブロックの位相差である。
 調整回路902は、以上のプロセスをL/M+1回繰り返して、調整後のQMFブロックを生成する。すなわち、m番目(m=3,…,L/M+1)の新しいQMFブロックの調整後の位相情報ψu (m)(k)は、式13および式14で算出される。
 ψ0 (m)(k)=ψ0 (m-1)(k)+Δφm-1(k)   (式13)
 ψu (m)(k)=ψu-1 (m)(k)+Δφm+u-1(k)(u=1,…,L/M-1) (式14)
 調整回路902は、新しいQMFブロックの振幅情報に元々のQMFブロックの振幅情報を用いることで、新しいQMFブロックのQMF係数を算出することが可能になる。
 調整回路902は、QMF領域の偶数番目のサブバンドと奇数番目のサブバンドとで異なる調整方法により、位相情報を調整してもよい。例えば、調波構造が強い(トナリティの強い)音響信号では、QMF領域において、周波数成分毎に位相差情報(Δφ(n,k)=φ(n,k)-φ(n-1,k))が異なる。この場合、調整回路902は、瞬時周波数成分ω(n,k)を式15により決定する。
Figure JPOXMLDOC01-appb-M000014
 ここで、princarg(α)は、αの変換を示し、式16のように定義される。
 princarg(α)=mod(α+π,-2π)+π  (式16)
 mod(a,b)は、aをbで割った余りを示す。
 これらをまとめると、上記の位相調整方法における、位相差情報Δφu(k)は、式17により算出される。
Figure JPOXMLDOC01-appb-M000015
 更に、QMF合成フィルタバンク903は、時間伸張処理の演算量を削減するため、QMF合成処理を新しいQMFブロックの各々に対して適用しなくてもよい。その代わり、QMF合成フィルタバンク903は、新しいQMFブロックをオーバーラップ加算し、得られた信号に対して、QMF合成処理を適用する。
 STFTベースの伸張処理と同じように、QMF変換によって算出されるQMF係数は、オーバーラップ加算する前段階で、合成窓関数の影響を受けやすい。そこで、上述の解析窓関数と同様に、合成窓関数は、X(n+1)(u,k)=X(n+1)(u,k)・H0(w)(ここでw=mod(u,L/M))によって実現する。
 QMF変換では加法定理が成立するため、L/M+1個のすべてのQMFブロックはsタイムスロットのホップサイズでオーバーラップ加算することが可能である。オーバーラップ加算の結果であるY(u,k)は、式18で算出される。
 Y(ns+u,k)=Y(ns+u,k)+X(n+1)(u,k)(n=0,…,L/M、u=1,…,L/M,k=0,1,…,M-1)   (式18)
 QMF合成フィルタバンク903は、最終的な時間伸張後の音響信号を、上記Y(u,k)にQMF合成フィルタを適用することで、生成することが可能である。元の信号に対して、s倍の時間伸張処理を施すことができることは、Y(u,k)の時間インデックスuの範囲からも明らかである。
 上述の式12に示したように、実施の形態1では、調整回路902は、QMF領域で位相調整および振幅調整を行う。これまでにも述べているとおり、QMF解析フィルタバンク901は、単位時間毎に区切られた音響信号をQMFフィルタで逐次QMF係数(QMFブロック)に変換する。そして、調整回路902は、予め指定された伸張率(s倍、たとえばs=2,3,4など)に応じて隣り合うQMFブロック毎の位相および振幅の連続性を保持するように、各QMFブロックの振幅および位相を調整する。これにより、フェーズボコーダー処理が実現される。
 QMF合成フィルタバンク903は、QMF領域でフェーズボコーダー処理されたQMF係数を、時間領域の信号へ変換する。これにより、s倍に伸張された時間領域の音響信号が得られる。また、時間伸張処理の後段の信号処理によって、QMF係数の方が、都合が良い場合がある。例えば、QMF領域でフェーズボコーダー処理されたQMF係数に、SBR技術に基づく帯域拡大処理など、何らかの音響処理が施されてもよい。そして、後段の信号処理の後、QMF合成フィルタバンク903は、時間領域の音響信号に変換する構成を取っても良い。
 図3に示された構成は、そのような組み合わせの一例である。これは、QMF領域でのフェーズボコーダー処理と、音響信号の帯域拡大技術とを組み合わせた音響復号装置の一例である。以下に、フェーズボコーダー処理を用いた音響復号装置の構成を説明する。
 分離部1201は、入力のビットストリームを、高域生成のためのパラメータと、低域復号のための符号化情報とに分離する。パラメータ復号部1207は、高域生成のためのパラメータを復号する。復号部1202は、低域復号のための符号化情報から、低域成分の音響信号を復号する。QMF解析フィルタバンク1203は、復号された音響信号をQMF領域の音響信号に変換する。
 周波数変調回路1205および時間伸張回路1204は、QMF領域の音響信号に、前記フェーズボコーダー処理を施す。その後、高域生成回路1206は、高域生成のためのパラメータを用いて高域周波数成分の信号を生成する。概形調整回路1208は、高域成分の周波数概形を調整する。QMF合成フィルタバンク1209は、QMF領域における低域成分および高域成分の音響信号を時間領域の音響信号へ変換する。
 なお、上記低域成分の符号化処理または復号処理には、MPEG-AAC方式、MPEG-Layer3などの音響符号化方式が用いられてもよいし、あるいは、ACELPなどの音声符号化方式が用いられてもよい。
 また、調整回路902は、QMF領域でフェーズボコーダー処理を行う際、式12による調整後のQMF係数の算出に、QMFブロックのサブバンドインデックス毎に重み付け演算を行ってもよい。これにより、調整回路902は、サブバンドインデックス毎に異なる値を持つ変調係数で変調することも可能である。たとえば、高域周波数に対応するサブバンドインデックスにおいて、伸張時に歪みが大きくなる音響信号がある。調整回路902は、そういう音響信号を小さくするような変調係数を用いてもよい。
 さらに、QMF領域でフェーズボコーダー処理をする別の構成として、音響信号処理装置は、QMF解析フィルタバンク901の後段に、さらに、別のQMF解析フィルタバンクを備えてもよい。QMF解析フィルタバンク901のみでは低域の周波数分解能が低い場合がある。その場合、低域成分を多く含む音響信号にフェーズボコーダー処理を施しても、十分な効果が得られない。
 そこで、低域成分の周波数分解能を向上させるため、低域部分(たとえば、QMF解析フィルタバンク901の出力に含まれる全QMFブロックの半分)を解析するための別のQMF解析フィルタバンクが用いられてもよい。これにより、周波数分解能が2倍に向上する。その上で、調整回路902は、上述のような、QMF領域でのフェーズボコーダー処理を施す。これにより、音質を維持したまま、演算量およびメモリ消費量の削減効果が高くなる。
 図4は、QMF領域の分解能を向上させる構成の例を示す図である。QMF合成フィルタバンク2401は、入力の音響信号を一旦QMF合成フィルタで合成する。その後、QMF解析フィルタバンク2402は、2倍の解像度のQMF解析フィルタで、QMF係数を算出する。2倍の分解能になったQMF領域の信号に対して、2倍の時間伸張と、2倍、3倍または4倍のピッチシフト処理を行うフェーズボコーダー処理回路(第1時間伸張回路2403、第2時間伸張回路2404および第3時間伸張回路2405)が並列に構成される。
 そして、各フェーズボコーダー処理回路は、2倍の解像度で、伸張割合の異なるフェーズボコーダー処理を統一的に行う。そして、マージ回路2406は、フェーズボコーダー処理された信号を合成する。
 QMFフィルタによるフェーズボコーダー処理は、上記からもわかるように、STFTベースのフェーズボコーダー処理と比較して、演算量の大きなFFT処理を用いる必要がない。そのため、演算量を大幅に削減できるという顕著な効果が存在する。
 (実施の形態2)
 実施の形態2として、実施の形態1に記載のブロックベースによる時間軸伸張方法を拡張する形態を述べる。実施の形態2に係る音響信号処理装置は、図1に示された実施の形態1に係る音響信号処理装置と同様の構成要素を備える。そして、上述の位相情報の不連続による影響を避けるため、位相情報の算出は、下記の2種類の方法で行われる。
 (a)調整回路902は、調整後のQMFブロックにおいて、オーバーラップしているタイムスロットの位相情報がブロック間で連続するように、位相情報を調整する。すなわち、調整回路902は、ψ0 (m)(k)=ψ0 (m-1)(k)+Δφm-1(k)により、位相情報を調整する。
 (b)調整回路902は、調整後の各QMFブロックにおいて、ブロック内で連続しているタイムスロット間で位相情報が連続するように、位相情報を調整する。すなわち、調整回路902は、ψu (m)(k)=ψu-1 (m)(k)+Δφm+u-1(k)(ここで、u=1,…,L/M-1)により、位相情報を調整する。
 上記では、位相情報の調整方法は、トナリティの強い成分に応じて、位相情報が調整前のQMFブロックから変化していると仮定している。
 しかしながら、実際には、上述の仮定は常に正しいとは限らない。典型的には、元の信号が音響的に過渡的な信号の場合、上述の仮定は正しくない。過渡信号は、時間領域で鋭いアタック音がある場合など、非定常な形式の信号である。位相情報と周波数成分の間に一定の関係を仮定することで、次のことが分かる。すなわち、トナリティの強い成分が離散的に大量に含まれており、かつ、短い時間間隔の間に間隔の広い周波数成分が含まれているような場合、過渡信号を処理することが困難である。結果として、伸縮処理により、知覚できる音響的な歪みを有する出力信号が、生成されることになってしまう。
 実施の形態2では、過渡信号を多く含む信号を伸張処理する際に発生する上記の問題に対処するため、実施の形態1に係る位相情報の調整を伴う時間伸縮処理が、トナリティの強い信号と過渡信号との両方に対応可能な時間伸縮処理に変形される。
 まず初めに、調整回路902は、潜在的に問題になりそうな時間伸縮処理を除外するため、過渡信号に含まれる過渡成分をQMF領域で検出する。
 過渡状態を検出する手法は、様々な手法があり、数多くの文献で開示されている。実施の形態2では、QMFブロックでの過渡応答を検出する2つの簡単な手法が示される。
 図5Aは、QMF変換により算出されたQMFブロックX(u,k)(2L/M個のタイムスロット、M個のサブバンド)に対して時間伸張する場合に関して説明するための説明図である。1つめの手法は、前記QMFブロック毎のエネルギー値の変化に応じて過渡状態を検出する方法であり、2つめの手法は、周波数軸でQMFブロック毎の振幅値の変化を検出する方法である。
 1つめの検出方法は、次の通りである。調整回路902は、図5Bに示されるように、各QMFブロックのタイムスロット毎にエネルギー値E0~E2L/M-1を算出する。図5Cは、サブバンド毎のエネルギー値を示す図である。調整回路902は、タイムスロット毎にエネルギー値の差分をdEu=Eu+1-Eu(ここでu=0,…,2L/M-2)として算出する。所定の閾値T0により、もし、
Figure JPOXMLDOC01-appb-M000016
である場合、i番目のタイムスロットにおいて過渡成分が検出される。
 2つめの検出方法は、次の通りである。QMFブロックに含まれるすべてのタイムスロットおよびサブバンドでの振幅がA(u,k)である場合、各タイムスロットについて、振幅情報の概形は、
Figure JPOXMLDOC01-appb-M000017
として計算される。所定の閾値T1とT2により、Fi>T1であり、
Figure JPOXMLDOC01-appb-M000018
である場合、i番目のタイムスロットにおいて過渡成分が検出される。
 もし、u0番目のタイムスロットで過渡成分が検出された場合、上記の位相情報の伸張処理は、u0番目のタイムスロットを含む新しいQMFブロックに対して、修正される。
 伸張処理の修正は、2つの目的を持っている。1つは、任意の位相情報伸張処理においてu0番目のタイムスロットの処理をさけるためである。もう1つは、仮にu0番目のタイムスロットが何も処理されずにバイパスされている場合、QMFブロック内およびQMFブロック間の連続性を保持するためである。これら2つの目的を達成するために、前記の位相情報伸張処理は次のように修正される。
 m番目の新しいQMFブロック(m=2,…,L/M+1)において、その位相ψu (m)(k)は、次のようになる。
 (a)m<u0<m+L/M-1の場合、QMFブロック内の位相情報の連続性を担保するために、位相ψu (m)(k)は、
Figure JPOXMLDOC01-appb-M000019
で算出される(図6A)。
 (b)m=u0かつmod(u0,s)=0の場合、任意の位相情報処理からu0番目のタイムスロットの処理を避けるために、位相ψ0 (m)(k)は、
Figure JPOXMLDOC01-appb-M000020
で算出される(図6B)。また、QMFブロック間での位相情報の連続性を担保するために、位相ψ1 (m)(k)は、
Figure JPOXMLDOC01-appb-M000021
で算出される。
 (c)m=u0かつmod(u0,s)≠0の場合、任意の位相情報処理からu0番目のタイムスロットの処理を避けるために、位相ψ0 (m)(k)は、
Figure JPOXMLDOC01-appb-M000022
で算出される(図6C)。また、QMFブロック間の位相情報の連続性を担保するために、位相ψ1 (m)(k)は、
Figure JPOXMLDOC01-appb-M000023
で算出される。
 実際のところ、音響的観点から、上記の過渡信号に対する伸張処理は、好ましくない場合も多い。調整回路902は、過渡信号を伸張処理しない代わりに、QMFブロックから過渡信号成分を取り除いたうえで伸張処理を施し、伸張処理したQMFブロックに対して、さきほど取り除いた過渡信号を戻してもよい。
 図7Aおよび図7Bには、上述の処理が示されている。ここでは、QMF変換によって算出されたQMFブロック信号X(u,k)(L/M個のタイムスロットおよびM個のサブバンドを有すると仮定)が時間伸張される場合で、かつ、上記の過渡信号検出方法でu0番目のタイムスロットで過渡信号が検出されている場合を説明する。各ブロックの時間伸張は、次のステップで実施される。
 (1)調整回路902は、u0番目のタイムスロット成分をQMFブロックから取り除き、取り出したu0番目のタイムスロットを“0”詰め、あるいは、“内挿”処理をする。
 (2)調整回路902は、新しいQMFブロックの信号を、上記伸張方法に従って、s・L/M個のタイムスロットへ伸張する。
 (3)調整回路902は、上記(1)で取り除いたタイムスロットの信号を、上記(2)で伸張したブロックの位置(s・u0番目のタイムスロットの位置)に挿入する。
 ここで、上記の手法は、s・u0番目のタイムスロットが過渡応答成分に対する適切な位置でない場合の単純な例でもある。それは、QMF変換の時間分解能が低いためである。
 より高音質な時間伸張回路を実現するためには、上記の単純化された例を拡張することが必要になる。そして、過渡応答成分の正確な位置が必要になる。実際には、QMF領域のいくつかの情報、たとえば、振幅情報および位相遷移情報などは、過渡応答成分の正確な位置を特定するために有用である。
 過渡応答成分の位置(以下では、過渡位置と呼ぶ)は、各QMFブロックの信号の振幅成分および位相遷移情報のそれぞれを検出する2つのステップによって特定されることが好ましい。t0時刻でのみにインパルス成分が存在する場合を説明する。インパルス成分は、過渡応答成分の典型的な例である。
 まず、調整回路902は、QMF領域で各QMFブロックの振幅情報を算出することで、過渡位置t0の大まかな推定を行う。
 上記のQMF変換の手続きを考慮すると、次のことが分かる。すなわち、解析窓処理をしているため、インパルス成分はQMF領域の複数のタイムスロットにわたって、影響を与える。これらのタイムスロットの振幅値の分布を解析することで、次の2つの場合が存在することが分かった。
 (1)n0番目のタイムスロットが、より高いエネルギー(振幅値の自乗)を持っている場合、調整回路902は、(n0-5)・64-32<t0<(n0-5)・64+32として、過渡位置t0を推定する。
 (2)n0-1番目とn0番目のタイムスロットがほぼ同じエネルギーである場合、調整回路902は、t0=(n0-5)・64-32として、過渡位置t0を推定する。
 (n0-5)は、QMF解析フィルタバンク901で5つのタイムスロット分だけ遅延させておくことを示している。また、上記(2)の場合、調整回路902は、過渡位置を振幅解析のみによって正確に決定することができる。
 そして、上記(1)の場合、調整回路902は、QMF領域の位相情報を用いることで、更に効率的に過渡位置t0を決定することができる。
 以下、n0番目のタイムスロット内の位相情報φ(n0,k)(k=0,1,…,M-1)を解析する場合について説明する。2πで巡回(ラウンド)する位相情報φ(n0,k)の遷移割合は、過渡位置t0と、過渡位置t0に最も近い左(時間的に過去)のタイムスロット、あるいは、n0番目のタイムスロットの中間の位置との間に完全線形関係を有しなければならない。つまり、k・Δt=C0-g0が成立する。ここで、位相遷移割合は、
Figure JPOXMLDOC01-appb-M000024
である。
 unwrap(P)は、ラジアン位相Pを2πで巡回させ、π以上の変化を修正する関数である。C0は定数である。
 Δtは、過渡位置t0と、過渡位置t0に最も近い左(時間的に過去)のタイムスロット、または、n0番目のタイムスロットとの距離である。つまり、Δtは、式19によって算出される。
Figure JPOXMLDOC01-appb-M000025
 上記のパラメータの例は、式20によって示されるような値である。
Figure JPOXMLDOC01-appb-M000026
 図8は、過渡位置t0とQMF位相遷移割合g0との間にある線形関係を示す図である。図8に示されているように、n0(最もエネルギーが高いタイムスロットのインデックス)が固定である限り、t0とg0とは、一対一に対応づけられる。
 上記に基づいて、別の例を説明する。それは、QMF領域において、時間伸張処理をしている間に過渡成分を扱う手法である。上述の簡易手法と比較すると、本手法は、次の点に利点がある。すなわち、本手法は、元々の信号の過渡位置を正確に検出することができる。また、本手法は、時間伸張された過渡成分が存在するタイムスロットも、適切な位相情報とともに検出することができる。本手法の詳細を次に記載する。なお、本手法の手順は、図9にフローチャートとしても示される。
 QMF解析フィルタバンク901は、入力された時間信号時間信号x(n)を受け取る(S2001)。QMF解析フィルタバンク901は、時間伸張の対象となる時間信号x(n)から、QMFブロックX(m,k)を計算する(S2002)。ここで、X(m,k)の振幅はr(m,k)であり、位相情報はφ(m,k)であるとする。このQMFブロックに過渡成分の信号が含まれる場合、最適な時間伸張手法は次の通りである。
 (a)調整回路902は、過渡信号の存在するタイムスロットm0を、エネルギー分布に基づいて、式21により、検出する(S2003)。
Figure JPOXMLDOC01-appb-M000027
 (b)調整回路902は、過渡応答が存在するタイムスロットのうち、過渡応答が目立つタイムスロットの位相遷移割合
Figure JPOXMLDOC01-appb-M000028
を推定する(S2004)。すなわち、調整回路902は、タイムスロットの位相角ω0と位相遷移割合
Figure JPOXMLDOC01-appb-M000029
を推定する。
 (c)調整回路902は、多項式残差を式22で算出する。
Figure JPOXMLDOC01-appb-M000030
 (d)調整回路902は、過渡位置t0を式23に従って決定する(S2005)。
Figure JPOXMLDOC01-appb-M000031
 
 ここで、定数Kは、K=0.0491である。
 (e)調整回路902は、過渡状態にある領域を式24に従って決定する(S2006)。
Figure JPOXMLDOC01-appb-M000032
 調整回路902は、スカラー値を用いて、過渡状態にある領域内でQMF係数を式25に従って小さくする(S2007)。
Figure JPOXMLDOC01-appb-M000033
 αは、小さい値であって、たとえばα=0.001である。
 (f)調整回路902は、過渡状態にないQMFブロックに対して通常の時間伸張処理を施す(S2008)。
 (g)調整回路902は、次のように、過渡位置s・t0における新しいタイムスロットおよび位相遷移割合を計算する。
 <i>調整回路902は、時間伸張したタイムスロットインデックスm1をm1=ceil((s・t0-32)/64)+5により算出する(S2009)。ここで、ceilは、最も近い整数に切り上げる処理である。
 <ii>調整回路902は、過渡位置と、新しいタイムスロットの最も近い左(時間的に過去)の位置との距離を式26に従って算出する。
  Δt1=s・t0-(m1-5)・64+32   (式26)
 <iii>調整回路902は、新しい位相遷移割合を式27で算出する。
Figure JPOXMLDOC01-appb-M000034
 (h)調整回路902は、過渡応答の目立つタイムスロットm1でのQMF係数を新たに合成する。
 タイムスロットm1の振幅は、伸張前のタイムスロットm0の振幅を継承している。調整回路902は、位相情報を新しい位相遷移割合と位相差に基づいて式28によって算出する(S2010)。
Figure JPOXMLDOC01-appb-M000035
 そして、調整回路902は、新しいQMF係数を式29で算出する(S2011)。
Figure JPOXMLDOC01-appb-M000036
 (i)調整回路902は、新しい過渡領域を式30で決定する(S2013)。
Figure JPOXMLDOC01-appb-M000037
 (j)新しく決定した過渡領域
Figure JPOXMLDOC01-appb-M000038
に複数のタイムスロットが含まれる場合、調整回路902は、それらのタイムスロットの位相を式31により再調整する(S2015)。
Figure JPOXMLDOC01-appb-M000039
 そして、調整回路902は、このようにして調整したタイムスロットで構成されるQMFブロック係数を、式32に従って再合成する。
Figure JPOXMLDOC01-appb-M000040
 最後に、調整回路902は、時間伸張処理されたQMFブロックを出力する(S2012)。
 演算量の観点では、過渡位置を検出するために実行される上記の(a)~(d)は、直接時間領域での過渡応答検出手法で置き換えられてもよい。たとえば、時間領域で過渡位置を検出するための過渡位置検出部(図示せず)が、QMF解析フィルタバンク901の前段に配置される。そして、時間領域での過渡応答検出手法として典型的な手順は、次の通りである。
 (1)過渡位置検出部は、時間信号x(n)(n=0,1,…,N・L0-1)を、長さL0のN個のセグメントに分割する。
 (2)過渡位置検出部は、各セグメントでのエネルギーを
Figure JPOXMLDOC01-appb-M000041
として計算する。
 (3)過渡位置検出部は、全体のセグメントでのエネルギーをElt(i)=α・Elt(i-1)+(1-α)・Es(i)に従って計算する。
 (4)もし、Es(i)/Elt(i)>R1であり、Es(i)>R2であれば、過渡位置検出部は、i番目のセグメントは過渡応答成分を含んでいる過渡セグメントであるとして判断する。ここで、R1およびR2は、所定の閾値である。
 (5)過渡位置検出部は、最終的な過渡位置の概算の位置として、過渡セグメントの真ん中の位置をt0=(i+0.5)・L0によって算出する。
 もし、時間領域の過渡成分検出を用いる場合、図9のフローチャートは、図10のように変更される。
 なお、実施の形態1と同様に、実施の形態2に係る音響信号処理をQMF領域での別の音響処理と組み合わせる構成も可能である。例えば、QMF解析フィルタバンク901は、単位時間毎に区切られた音響信号をQMFフィルタで逐次QMF係数(QMFブロック)に変換する。そして、調整回路902は、予め指定された伸張率(s倍、たとえばs=2,3,4など)に応じて隣り合うQMFブロック毎の位相および振幅の連続性を保持するように、各QMFブロックの振幅および位相を調整する。これにより、フェーズボコーダー処理が実現される。
 QMF合成フィルタバンク903は、QMF領域でフェーズボコーダー処理されたQMF係数を、時間領域の信号へ変換する。これにより、s倍に伸張された時間領域の音響信号が得られる。また、時間伸張処理の後段の信号処理によって、QMF係数の方が、都合が良い場合がある。例えば、QMF領域でフェーズボコーダー処理されたQMF係数に、SBR技術に基づく帯域拡大処理など、何らかの音響処理が施されてもよい。そして、後段の信号処理の後、QMF合成フィルタバンク903は、時間領域の音響信号に変換する構成を取っても良い。
 図3に示された構成は、そのような組み合わせの一例である。これは、QMF領域でのフェーズボコーダー処理と、音響信号の帯域拡大技術とを組み合わせた音響復号装置の一例である。以下に、フェーズボコーダー処理を用いた音響復号装置の構成を説明する。
 分離部1201は、入力のビットストリームを高域生成のためのパラメータと低域復号のための符号化情報とに分離する。パラメータ復号部1207は、高域生成のためのパラメータを復号する。復号部1202は、低域復号のための符号化情報から、低域成分の音響信号を復号する。QMF解析フィルタバンク1203は、復号された音響信号をQMF領域の音響信号に変換する。
 周波数変調回路1205および時間伸張回路1204は、QMF領域の音響信号に、前記フェーズボコーダー処理を施す。その後、高域生成回路1206は、高域生成のためのパラメータを用いて高域周波数成分の信号を生成する。概形調整回路1208は、高域成分の周波数概形を調整する。QMF合成フィルタバンク1209は、QMF領域における低域成分および高域成分の音響信号を時間領域の音響信号へ変換する。
 なお、上記低域成分の符号化処理または復号処理には、MPEG-AAC方式、MPEG-Layer3などの音響符号化方式が用いられてもよいし、あるいは、ACELPなどの音声符号化方式が用いられてもよい。
 さらに、QMF領域でフェーズボコーダー処理する別の構成として、音響信号処理装置は、QMF解析フィルタバンク901の後段に、さらに、別のQMF解析フィルタバンクを備えてもよい。QMF解析フィルタバンク901のみでは低域の周波数分解能が低い場合がある。その場合、低域成分を多く含む音響信号にフェーズボコーダー処理を施しても、十分な効果が得られない。
 そこで、低域成分の周波数分解能を向上させるため、低域部分(たとえば、QMF解析フィルタバンク901の出力に含まれる全QMFブロックの半分)を解析するための別のQMF解析フィルタバンクが用いられてもよい。これにより、周波数分解能が2倍に向上する。その上で、調整回路902は、上述のような、QMF領域でのフェーズボコーダー処理を施す。これにより、音質を維持したまま、演算量およびメモリ消費量の削減の効果が高くなる。
 図4は、QMF領域の分解能を向上させる構成の例を示す図である。QMF合成フィルタバンク2401は、入力の音響信号を一旦QMF合成フィルタで合成する。その後、QMF解析フィルタバンク2402は、2倍の解像度のQMF解析フィルタで、QMF係数を算出する。2倍の分解能になったQMF領域の信号に対して、2倍の時間伸張と、2倍、3倍または4倍のピッチシフト処理を行うフェーズボコーダー処理回路(第1時間伸張回路2403、第2時間伸張回路2404および第3時間伸張回路2405)が並列に構成される。
 そして、各フェーズボコーダー処理回路は、2倍の解像度で、伸張割合の異なるフェーズボコーダー処理を統一的に行う。そして、マージ回路2406は、フェーズボコーダー処理された信号を合成する。
 なお、実施の形態2に係る音響信号処理装置は、下記に示す構成を備えてもよい。
 調整回路902は、入力の音響信号のトナリティ(音響調波構造の大きさ)と音響信号の過渡特性に応じて、柔軟に調整してもよい。調整回路902は、QMF領域の係数に過渡信号を検出することによって位相情報を調整してもよい。調整回路902は、位相情報の連続性を確保するように、かつ、QMF領域の係数の過渡信号成分が変化しないように、位相情報を調整してもよい。調整回路902は、時間伸縮を避けた過渡信号成分に関連したQMF係数を、過渡信号成分を伸張または圧縮したQMF係数に戻すことによって、位相情報を調整してもよい。
 音響信号処理装置は、さらに、入力信号の過渡特性を検出する検出部と、検出部によって検出した過渡成分を弱める処理を施すアッテネーターとを備えてもよい。アッテネーターは、位相が調整される前段に備えられる。調整回路902は、時間伸張処理をした後で、弱める処理を施した過渡成分を拡張する。アッテネーターは、周波数領域の係数の振幅値を調整することにより、過渡成分を弱めてもよい。
 調整回路902は、時間伸張した過渡成分について、周波数領域の振幅を増加させ、位相を調整することで、時間伸張した過渡成分を拡張してもよい。
 (実施の形態3)
 実施の形態3に係る音響信号処理装置は、入力された音響信号に対して、QMF変換を行い、QMF係数に対して位相調整および振幅調整を行うことにより、時間伸張および周波数変調処理を実現する。
 実施の形態3に係る音響信号処理装置は、図1に示された実施の形態1に係る音響信号処理装置と同様の構成要素を備える。QMF解析フィルタバンク901は、入力の音響信号をQMF係数X(m,n)に変換する。調整回路902は、QMF係数を調整する。調整前のQMF係数X(m,n)は、振幅および位相を用いて、式33のように表現される。
Figure JPOXMLDOC01-appb-M000042
 位相情報a(m,n)は、調整回路902で調整されて、
Figure JPOXMLDOC01-appb-M000043
となる。調整回路902は、調整後の位相情報と元の振幅情報r(m,n)によって、新しいQMF係数を式34に従って計算する。
Figure JPOXMLDOC01-appb-M000044
 最後に、QMF合成フィルタバンク903は、式34で計算された新しいQMF係数を時間信号に変換する。なお、実施の形態3に係る音響信号処理装置は、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。
 実施の形態1と異なる点は、図11に示すように、時間伸張係数がsである場合、元々のQMF領域のタイムスロットの後ろに、(s-1)個の仮想タイムスロットが挿入されることである。
 この場合、調整回路902は、元々の音響信号のピッチを維持する必要がある。また、調整回路902は、位相情報を聴感的な音質劣化を避けるように算出する必要がある。たとえば、元々のQMFブロックの位相情報をφn(k)(タイムスロットインデックスn=1,…,L/M、サブバンドインデックスk=0,1,…,M-1)とすると、調整回路902は、上記仮想タイムスロットにおける調整後の新しい位相情報を、式35で算出する。
 ψq(k)=ψq-1(k)+Δφn(k)
 (q=s・(n-1)+1,…,s・n、n=1,…,L/M)   (式35)
 ここで、実施の形態1と同様に、位相差Δφn(k)は、Δφn(k)=φn(k)-φn-1(k)で算出される。
 また、位相差Δφn(k)は、式36でも算出される。
Figure JPOXMLDOC01-appb-M000045
 挿入されるタイムスロットの振幅情報は、挿入される境界部で連続になるように、前のタイムスロットと後ろのタイムスロットの間を線形補完(内挿)する値で構成される。たとえば、元のQMFブロックをan(k)とすると、挿入される仮想タイムスロットの振幅情報は、式37により線形補完される。
Figure JPOXMLDOC01-appb-M000046
 QMF合成フィルタバンク903は、このようにして仮想タイムスロットを挿入することにより構成された新しいQMFブロックを実施の形態1と同様に時間領域の信号へと変換する。これにより、時間伸張された信号が算出される。なお、上述の通り、実施の形態3に係る音響信号処理装置は、QMF合成フィルタバンクを施さずに、新しいQMF係数をそのまま後段の音響信号処理装置に出力しても良い。
 実施の形態3に係る音響信号処理装置も、FFT演算を用いておらず、STFTベースのフェーズボコーダー処理に比べて圧倒的に少ない演算量で同等の効果を実現する。
 (実施の形態4)
 実施の形態4に係る音響信号処理装置は、入力された音響信号に対して、QMF変換を行い、QMF係数に対して位相調整を行う。そして、実施の形態4に係る音響信号処理装置は、元のQMFブロックをサブバンド毎に処理することで、時間伸張処理を実現する。
 実施の形態4に係る音響信号処理装置は、図1に示された実施の形態1に係る音響信号処理装置と同様の構成要素を備える。QMF解析フィルタバンク901は、入力の音響信号をQMF係数X(m,n)に変換する。調整回路902は、QMF係数を調整する。調整前のQMF係数X(m,n)は、振幅および位相を用いて、式38のように表現される。
Figure JPOXMLDOC01-appb-M000047
 位相情報a(m,n)は、調整回路902で調整されて
Figure JPOXMLDOC01-appb-M000048
となる。調整回路902は、調整後の位相情報と元の振幅情報r(m,n)によって、新しいQMF係数を式39に従って計算する。
Figure JPOXMLDOC01-appb-M000049
 最後に、QMF合成フィルタバンク903は、式39で計算された新しいQMF係数を時間信号に変換する。なお、実施の形態4に係る音響信号処理装置は、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。
 QMF変換には、入力された音響信号を、時間特性を持つ合成周波数領域に変換する作用がある。従って、STFTベースの時間伸張手法は、QMFブロックの時間特性に対して適用可能である。
 実施の形態1と異なる点は、図12に示すように、元のQMFブロックをサブバンド毎に時間伸張する点である。
 元のQMFブロックは、L/M個のタイムスロットとM個のサブバンドで構成されている。各QMFブロックがM個のスカラー値で構成されていて、各スカラー値は経時情報をL/M個の係数で構成されている。
 実施の形態4では、STFTベースの時間伸張手法が、各サブバンドのスカラー値に対して直接適用される。すなわち、調整回路902は、各サブバンドのスカラー値を連続してFFT変換し、位相情報を調整し、逆FFTを施す。これにより、調整回路902は、新しいサブバンドのスカラー値を算出する。なお、この時間伸張処理は、サブバンド毎に実行されるため、演算量は大きくない。
 たとえば、時間伸張係数が2である場合(音響信号を2倍の時間に伸張する場合)、調整回路902は、ホップサイズRa毎に上記の処理を繰り返す。その結果として、元のQMFブロックのサブバンドが2・L/M個の係数を含むような、時間伸張が実現される。調整回路902は、上記のステップを繰り返すことにより、元のQMFブロックを2倍の長さのQMFブロックに変換することが出来る。
 QMF合成フィルタバンク903は、こうして得られた新しいQMFブロックを時間信号へと合成する。これにより、実施の形態4に係る音響信号処理装置は、元の時間信号をその2倍の長さを持つ時間信号へと時間伸張することができる。なお、ここでは、実施の形態4に係る音響信号処理方法をサブバンドベースの時間伸張手法と呼ぶことにする。
 以上、3つの異なる手法を用いた時間伸張処理が、複数の実施の形態に基づいて、述べられた。表1は、それらの演算量(複雑性評価:Complexity Measurement)の大小を整理された比較表である。
Figure JPOXMLDOC01-appb-T000001
 3つの時間伸張手法はどれも、古典的なSTFTベースの時間伸張手法よりも演算量が非常に少ないことが分かる。これは、STFTベースの時間伸張手法では、内部的にループする処理が行われているためである。QMFベースでは、そのようなループ処理が行われない。
 (実施の形態5)
 実施の形態5では、実施の形態1~4と同じように、QMF領域での時間伸張が実現される。異なる点は、図13に示すように、QMF領域にてQMF係数を調整する点である。
 QMF解析フィルタバンク1001は、時間伸縮および周波数変調の両方を実現するため、入力音響信号をQMF係数へと変換する。そして、調整回路1002は、実施の形態1~4と同様に、得られたQMF係数の位相調整を行う。
 そして、QMF領域変換器1003は、調整されたQMF係数を新しいQMF係数に変換する。バンドパスフィルタ1004は、必要に応じて、QMF領域で、帯域制限を実施する。帯域制限は、折り返し歪みを低減させる際に必要である。最後に、QMF合成フィルタバンク1005は、新しいQMF係数を時間領域の信号へと変換する。
 なお、実施の形態5に係る音響信号処理装置は、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。以上が、実施の形態5の概要である。
 図14に示された構成は、QMF領域の位相および振幅を変換処理することで、対象とする音響信号の時間伸縮処理および周波数変調処理を実現する構成である。
 まず、QMF解析フィルタバンク1801は、時間伸縮および周波数変調の両方を実現するため、音響信号をQMF係数に変換する。周波数変調回路1803は、こうして得られたQMF係数に対して、QMF領域にて、周波数変調処理を実施する。バンドパスフィルタである帯域制限フィルタ1802は、周波数変調処理の前に、折り返し歪みを除去するために帯域制限をかける場合がある。
 そして、周波数変調回路1803は、位相変換処理および振幅変換処理を複数のQMFブロックに対して連続して適用することにより、周波数変調処理を行う。そして、時間伸張回路1804は、周波数変調処理によって生成されたQMF係数の時間伸縮処理を行う。時間伸縮処理は、実施の形態1等と同様の方法で実現される。
 なお、周波数変調回路1803と時間伸張回路1804とが順に接続された構成が記載されているが、それらの接続順序はこれに限らない。すなわち、時間伸張回路1804が時間伸縮処理を実行した後、周波数変調回路1803が周波数変調処理を施しても良い。
 最後に、QMF合成フィルタバンク1805は、周波数変調処理と時間伸縮処理とが施されたQMF係数を新たな音響信号に変換する。新たな音響信号は、元の音響信号と比較して、時間軸方向および周波数軸方向に伸縮された信号になる。
 なお、図14に示された音響信号処理装置も、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。
 実施の形態1~4では、時間伸張手法が示された。実施の形態5に係る音響信号処理装置の構成は、それらの実施の形態に係る音響信号処理装置の構成に、ピッチ伸張処理による周波数変調処理を加えた構成である。時間あるいは周波数を理想的な状態に調整するためのいくつかの手法がある。しかし、古典的なピッチ伸張処理、すなわち、時間伸張された信号をリサンプリングする(間引く)方法は、そのままでは、周波数変調処理に適用することができない。
 図14に示された音響信号処理装置は、QMF解析フィルタバンク1801による処理の後、QMF領域上でピッチ伸張処理を実現する。QMF解析フィルタバンク1801の処理により、時間領域の所定の信号成分(特定周波数における正弦波成分)が、2つの異なるQMFサブバンドの信号となる。そのため、その後に、1つのQMF係数ブロックから、周波数と振幅との両方について、正しい信号成分を分離して、ピッチ変換することは困難になる。
 従って、実施の形態5に係る音響信号処理装置は、ピッチ伸張処理がより前に実施される構成に変形されてもよい。すなわち、図15に示すように、QMF解析フィルタバンクの前段で、時間領域の入力信号をリサンプリングする構成とする。図15では、リサンプリング部500が音響信号をリサンプリングし、QMF解析フィルタバンク504が音響信号をQMF係数に変換し、時間伸張回路505がQMF係数を調整する。
 図15に示されたリサンプリング部500は、次の3つのモジュールから構成されている。すなわち、リサンプリング部500は、(1)M倍のアップサンプリング部501、(2)折り返し歪みを抑制するためのローパスフィルタ502、(3)D倍のダウンサンプリング部503を備える。つまり、リサンプリング部500は、QMF解析フィルタバンク504の処理の前に、入力の元信号を、係数M/D倍にリサンプリングする。そうすることで、リサンプリング部500は、全体のQMF領域の周波数成分を、M/D倍にする。
 複数回のピッチ伸張処理が必要な場合、たとえば、2倍と3倍の両方のピッチ伸張処理が必要な場合、次のような処理が最良である。異なる倍率のリサンプリング処理を整合させるためには、それぞれのリサンプリング処理に応じて異なる遅延量をもつ複数の遅延回路が必要である。それらの遅延回路は、2倍または3倍にピッチ伸張処理された出力信号が合成される前に、時間調整を実施する。
 以下、低域を含んだ信号を、2倍もしくは3倍のピッチ伸張処理によって、周波数帯域を拡張する場合を説明する。これを実現するため、音響信号処理装置は、まずリサンプリング処理を実施する。図16Aは、ピッチ伸張処理された出力を示す図である。図16Aの縦軸は、周波数軸を示し、横軸は、時間軸を示す。
 音響信号処理装置は、リサンプリング処理により、低域を含んだ信号(図16Aの最も太い黒線)の2倍(図16Aの太い黒線)および3倍(図16Aの薄い黒線)のピッチ伸張処理した信号を生成する。もし、時間領域でずれが生じている場合、2倍のピッチ伸張処理信号には、d0時間の遅延時間があり、3倍のピッチ伸張処理信号には、d1時間の遅延時間がある。
 音響信号処理装置は、高帯域の信号を得るため、元の信号、2倍の周波数帯域を持つ信号、および、3倍の周波数帯域を持つ信号を、それぞれ、2倍、3倍および4倍に時間伸張する。その結果、音響信号処理装置は、それらの信号の合成信号を図16Bに示すように高帯域の信号として生成することが可能である。
 なお、時間ずれが生じている場合、図16Cに示すように遅延量の不一致もそのままピッチ伸張されるため、高帯域信号には、遅延量不一致の問題が発生する場合もある。上述の複数の遅延回路は、時間ずれを低減させるように、時間調整を実施する。
 上記のリサンプリング方法をそのまま実施しても良い。しかし、更に上記処理の演算量を削減するために、ローパスフィルタ502は、ポリフェーズフィルタバンクによって実現されてもよい。ローパスフィルタ502の次数が高い場合、演算量を削減するために、畳み込み原理に基づいて、FFT領域でローパスフィルタ502が実現されても良い。
 更には、M/D<1.0である場合、つまり、ピッチ伸張処理によってピッチが高くなる場合、後段のQMF解析フィルタバンク504と時間伸張回路505における演算量が、リサンプリング処理に必要な処理量よりも大きい。そのため、時間伸張およびリサンプリング処理の順番を入れ替えることにより、演算量が削減される。
 また、図15では、リサンプリング部500がQMF解析フィルタバンク504の前段に設けられている。これは、特定音源(たとえば単一正弦波など)に対して、ピッチ伸張処理を施した場合に発生する音質劣化を最小限に防ぐためである。QMF解析フィルタバンク504の処理後にピッチシフト処理が実施される場合、元の音響信号に含まれる正弦波信号が、複数のQMFブロックに分離された状態になる。そのため、その信号に対してピッチシフト処理が施された場合、元の正弦波信号が多数のQMFブロックに拡散してしまう。
 すなわち、単一正弦波などの特殊音源には、上述の構成でリサンプリング処理が行われた方がよい。しかし、一般の音響信号のピッチシフト処理に、単一正弦波のみが入力されることは、ほぼ無いに等しい。そのため、演算量の増大要因となるリサンプリング処理は、省略されてもよい。
 また、音響信号処理装置は、QMF解析フィルタバンク504によって得られたQMF係数に対して直接ピッチ伸張処理を施す構成であってもよい。この構成の場合、ピッチ伸張処理が施された音響信号の品質は、単一正弦波などの特殊音源では若干劣る場合がある。しかし、このような構成を有する音響信号処理装置は、それ以外の一般的な音響信号に対して、十分な品質を保持することが可能である。そのことを鑑みて、リサンプリング処理を省くことによって、処理量の非常に大きな処理部が省かれる。したがって、全体の処理量が削減される。
 そして、音響信号処理装置は、適用用途に合わせて、適切な組み合わせで構成されてもよい。
 (実施の形態6)
 実施の形態6に係る音響信号処理装置は、実施の形態5と同じように、QMF領域での時間伸縮および周波数変調処理を行う。実施の形態6では、実施の形態5で用いられたリサンプリング処理を用いない点が、実施の形態5とは異なる点である。実施の形態6に係る音響信号処理装置は、図13に示された音響信号処理装置の構成要素を備える。
 図13に示された音響信号処理装置は、時間伸縮処理および周波数変調処理の両方を行う。そのため、QMF解析フィルタバンク1001は、音響信号をQMF係数へと変換する。そして、調整回路1002は、得られたQMF係数を、実施の形態1~4に記載されたように、位相調整を行う。
 そして、QMF領域変換器1003は、調整されたQMF係数を新しいQMF係数に変換する。バンドパスフィルタ1004は、必要に応じて、QMF領域で、帯域制限を実施する。帯域制限は、折り返し歪みを低減させる際に必要である。最後に、QMF合成フィルタバンク1005は、新しいQMF係数を時間領域の信号へと変換する。
 なお、実施の形態6に係る音響信号処理装置は、QMF合成フィルタを施さずに、新しいQMF係数をそのまま後段の別の音響信号処理装置に出力しても良い。後段の音響信号処理装置は、たとえば、SBR技術に基づく音響信号処理などを実行する。以上が、実施の形態6の全体構成である。
 実施の形態6に係る音響信号処理装置は、ピッチ伸張処理による周波数変調処理に関して、実施の形態5とは異なる処理を行う。
 ピッチを伸縮することで周波数変調処理を施すために、時間領域の音響信号をリサンプリングする手法は非常に単純である。しかし、折り返し歪みを抑制するために必要なローパスフィルタが構成上必要である。そのため、ローパスフィルタにより遅延が発生する。一般的には、リサンプリング処理の精度を高めるためには次数の大きなローパスフィルタが必要である。一方、次数が大きいとフィルタの遅延が大きくなる。
 そこで、図17に示された実施の形態6に係る音響信号処理装置は、QMF領域で係数の構成を変換するQMF領域変換器603を備える。そして、QMF領域変換器603によって、リサンプリング処理とは異なるピッチシフト処理が実行される。
 QMF解析フィルタバンク601は、入力の時間信号からQMF係数を算出する。実施の形態1~5と同様に、時間伸張回路602は、算出したQMF係数を時間伸張する。QMF領域変換器603は、時間伸張されたQMF係数にピッチ伸張処理を施す。
 図18に示すように、QMF領域変換器603は、新たにQMF合成フィルタおよびQMF解析フィルタを用いずに、あるQMF領域のQMF係数を、周波数および時間の分解能がそれぞれ異なる別のQMF領域のQMF係数へと直接変換するものである。図18で示されているように、QMF領域変換器603は、M個のサブバンドおよびL/M個のタイムスロットで構成されるあるQMFブロックを、N個のサブバンドとL/N個のタイムスロットで構成される新しいQMFブロックに変換することが可能となる。
 QMF領域変換器603は、タイムスロット数およびサブバンド数を変えることができる。そして、その出力信号の時間および周波数の分解能は、入力信号から変更される。そのため、時間伸張処理およびピッチ伸張処理の両方を同時に実現するためには、新しい時間伸張係数が、算出される必要がある。たとえば、所望の時間伸張係数をs、所望のピッチ伸張係数をwとすると、新しい時間伸張係数は、
Figure JPOXMLDOC01-appb-M000050
で計算される。
 図17は、時間伸張処理とピッチ伸張処理の両方を実現する構成を示す図である。なお、図17に示された音響信号処理装置は、時間伸張処理(時間伸張回路602)とピッチ伸張処理(QMF領域変換器603)との順序で構成されている。しかし、音響信号処理装置は、先にピッチ伸張処理を行い、その後に時間伸張処理を行う構成であっても良い。ここでは、L個の入力サンプルがあることを想定している。
 QMF解析フィルタバンク601は、L個のサンプルからM個のサブバンドおよびL/M個のタイムスロットで構成するQMFブロックを算出する。時間伸張回路602は、このようにして算出したQMFブロックの各QMF係数から、M個のサブバンドおよび
Figure JPOXMLDOC01-appb-M000051
個のタイムスロットで構成するQMFブロックを算出する。最後に、QMF領域変換器603は、伸張されたQMFブロックをw・M個のサブバンドおよびs・L/M個のタイムスロットで構成される別のQMFブロックへと変換する(w>1.0の場合、最も小さいM個のサブバンドが最終的な出力信号になる)。
 QMF領域変換器603の処理は、QMF合成フィルタバンクおよびQMF解析フィルタバンクの演算処理を数学的に圧縮することに相当する。音響信号処理装置は、QMF合成フィルタバンクおよびQMF解析フィルタバンクを用いて演算する場合、内部に遅延回路を包含する構成になる。それに比べて、QMF領域変換器603を備える音響信号処理装置は、演算遅延および演算量を削減することができる。たとえば、音響信号処理装置は、サブバンドインデックスがSk(k=0,…,M-1)であるサブバンドを、サブバンドインデックスSl(l=0,…,wM-1)に変換する場合、式40の計算を実行する。
Figure JPOXMLDOC01-appb-M000052
 ここで、PMとPwMはそれぞれ、QMF解析フィルタバンクとQMF合成フィルタバンクのプロトタイプ関数を表している。
 次に、ピッチシフト処理の別の例に関して述べる。上記に述べたピッチシフト処理と違い、音響信号処理装置は、下記の通りに処理する。
 (a)音響信号処理装置は、伸張処理前のQMFブロックに含まれる信号の周波数成分を検出する。
 (b)音響信号処理装置は、所定の変換係数によって周波数をシフトする。周波数シフトするための単純な方法は、前記変換係数を入力信号のピッチに乗算する方法である。
 (c)音響信号処理装置は、所望のシフト周波数成分での新しいQMFブロックを構成する。
 音響信号処理装置は、QMF変換によって算出したQMFブロックに対し、信号の周波数成分ω(n,k)を式41により算出する。
Figure JPOXMLDOC01-appb-M000053
 ここで、princarg(α)はαにおける基礎周波数を示す。また、Δφ(n,k)は、Δφ(n,k)=φ(n,k)-φ(n-1,k)であり、同一サブバンドkにおける、2つのQMF成分の位相差を示している。
 所望の伸張後の基礎周波数は、変換係数P0(P0>1と仮定する)を用いてP0・ω(n,k)として算出される。
 ピッチの伸張および圧縮(あわせてシフトと呼ぶ)の本質は、所望の周波数成分を、シフト後のQMFブロック上に構築することである。ピッチシフト処理は、図19に示すように、下記のステップでも実現される。
 (a)まず、音響信号処理装置は、シフト後のQMFブロックを初期化する(S1301)。音響信号処理装置は、すべてのQMFブロックにおける位相ψ(n,k)および振幅r1(n,k)を0に設定する。
 (b)次に、音響信号処理装置は、サブバンドを変換係数P0分だけ繰り上げることで、サブバンドの境界を決定する(S1302)。P0>1の場合、音響信号処理装置は、折り返し歪みを避けるため、低い方のサブバンド境界klbをklb=0として算出し、高い方のサブバンド境界kubをkub=floor(M/P0)として算出する。
 これは、すべての周波数成分が
Figure JPOXMLDOC01-appb-M000054
に含まれているからである。
 (c)音響信号処理装置は、[klb,kub]にあるj番目のサブバンドに対して、シフト処理後の周波数P0・ω(n,j)をインデックスq(n)=round(P0・ω(n,j))にマッピングする(S1305)。
 (d)音響信号処理装置は、新しいブロック(n,q(n))の位相および振幅を再構築する(S1306)。ここで、音響信号処理装置は、新しい振幅を式42により算出する。
Figure JPOXMLDOC01-appb-M000055
 関数F()は後ほど述べる。
 音響信号処理装置は、新しい位相を、式43により算出する。
Figure JPOXMLDOC01-appb-M000056
 ここでは、df(n)=P0・ω(n,j)-q(n)およびψ(n,q(n))が“包含された”調整が前提である。音響信号処理装置は、-π≦ψ(n,q(n))<πを保証するため、複数回、2πを加算している。
 (e)音響信号処理装置は、所望の周波数成分P0・ω(n,j)についてのサブバンドインデックス
Figure JPOXMLDOC01-appb-M000057
を式44により算出したサブバンドにマッピングする(S1307)。
Figure JPOXMLDOC01-appb-M000058
 (f)音響信号処理装置は、新しいブロック
Figure JPOXMLDOC01-appb-M000059
の位相および振幅を再構築する(S1308)。そして、音響信号処理装置は、新しい振幅を式45により算出する。
Figure JPOXMLDOC01-appb-M000060
 関数F()は後ほど述べる。
 音響信号処理装置は、新しい位相を式46により算出する。
Figure JPOXMLDOC01-appb-M000061
Figure JPOXMLDOC01-appb-M000062
は“包含された”調整が前提である。音響信号処理装置は、
Figure JPOXMLDOC01-appb-M000063
を保証するため、複数回、2πを加算している。
 (g)音響信号処理装置が、[klb,kub]の範囲に含まれるすべてのサブバンド信号を一旦処理した後、P0>1であるため、新しいQMFブロックに含まれる値が“0”になる場合がある。音響信号処理装置は、このようなブロックに対して、各々の位相情報を“非0”なるように線形補完する。また、音響信号処理装置は、各々の振幅を位相情報に基づいて補完する(S1310)。
 (h)音響信号処理装置は、新しいQMFブロックの振幅および位相情報を複素係数のブロック信号に変換する(S1311)。
 上記の振幅調整および補完に関しては、ここでは説明を省略する。それら両方が、QMF領域における信号の周波数成分と振幅との間にある関係性に関しているからである。
 正弦的なトナリティの強い信号は、上記(c)および(e)で示されたように、2つの異なるQMFサブバンドの信号成分を発生させるかもしれない。解析の結果、それら2つのサブバンドにおける振幅の関係は、QMF解析フィルタバンク(QMF変換)のプロトタイプフィルタに依存している。
 たとえば、QMF解析フィルタバンク(QMF変換)は、MPEGSurroundおよびHE-AAC方式で用いられているフィルタバンクであることを前提とする。図20Aは、プロトタイプフィルタp(n)(フィルタ長640サンプル)の振幅応答を示す図である。ほぼ完全に再構築性を達成するため、その振幅応答は、周波数[-0.5,0.5]の外側では急激に減衰している。そのプロトタイプフィルタを基準として、M個のバンド数をもつ複素QMF解析フィルタバンクの係数は、
Figure JPOXMLDOC01-appb-M000064
として定義される。
 この場合、複素フィルタバンクは、k番目のサブバンドにおいて、周波数の中央がk+1/2になるように、構成されている。図20Bは、間引かれた周波数応答を示す図である。便宜上、k-1番目のサブバンドの振幅特性は、図20Bの左側に折れ線で示されており、k+1番目のサブバンドの振幅特性は、図20Bの右側に折れ線で示されている。
 図20Bに示されているように、周波数f0(k-1≦f0<k+1)の成分について、もし、0<df=f0-(k+1/2)<1であるなら、k番目とk+1番目のサブバンドの2つのブロックがそれぞれ提供される。また、-1<df=f0-(k+1/2)<0である場合、k-1番目とk番目のサブバンドの2つのブロックが提供される(上記(e)参照)。それに応じた振幅は、周波数f0とk番目のサブバンドの中央周波数との差、および、サブバンドフィルタの振幅に依存する。
 サブバンドの振幅F(df)は、-1≦df<1において対称の関数であって、
Figure JPOXMLDOC01-appb-M000065
で表される。
 2つのブロックが同じ周波数に存在するため、それらの位相差は
Figure JPOXMLDOC01-appb-M000066
を満たす必要がある(上記(f)参照)。
 以上より、振幅の補完処理は、線形補完として扱うべきではないことがわかる。その代わり、信号の周波数成分と振幅情報との間にある関係が上記のようになるべきである。
 上述したように、実施の形態6では、QMF領域での位相調整および振幅調整が行われる。これまでにも述べているとおり、音響信号処理装置は、単位時間毎に区切られた音響信号をQMFフィルタバンクで逐次QMF領域の係数(QMFブロック)に変換する。そして、音響信号処理装置は、予め指定された伸張率(s倍、たとえばs=2,3,4など)に応じて隣り合うQMFブロック毎の位相および振幅の連続性を保持するように、各QMFブロックの振幅および位相を調整する。これにより、音響信号処理装置は、フェーズボコーダー処理を実現する。
 音響信号処理装置は、QMF領域でフェーズボコーダー処理されたQMF係数を、QMF合成フィルタバンクで時間領域の信号へ変換する。これにより、s倍に伸張された時間領域の音響信号が得られる。また、後段の別の音響信号処理装置で、QMF係数が用いられる場合がある。このような場合、後段の別の音響信号処理装置が、QMF領域でフェーズボコーダー処理されたQMFブロックの係数に、SBR技術に基づく帯域拡大処理など、何らかの音響処理を施してもよい。そして、そのような後段の別の音響信号処理装置が、QMF合成フィルタバンクでQMF係数を時間領域の音響信号に変換しも良い。
 図3に示された構成は、そのような組み合わせの一例である。これは、QMF領域でのフェーズボコーダー処理と、音響信号の帯域拡大技術を組み合わせた音響復号装置の一例である。以下に、フェーズボコーダー処理を用いた音響復号装置の構成を説明する。
 分離部1201は、入力のビットストリームを高域生成のためのパラメータと低域復号のための符号化情報とへ分離する。パラメータ復号部1207は、高域生成のためのパラメータを復号する。復号部1202は、低域復号のための符号化情報から、低域成分の音響信号を復号する。QMF解析フィルタバンク1203は、復号された音響信号をQMF領域の音響信号に変換する。
 周波数変調回路1205および時間伸張回路1204は、QMF領域の音響信号に、前記フェーズボコーダー処理を施す。その後、高域生成回路1206は、高域生成のためのパラメータを用いて高域周波数成分の信号を生成する。概形調整回路1208は、高域成分の周波数概形を調整する。QMF合成フィルタバンク1209は、QMF領域における低域成分および高域成分の音響信号を時間領域の音響信号へと変換する。
 なお、上記低域成分の符号化処理または復号処理には、MPEG-AAC方式、MPEG-Layer3などの音響符号化方式が用いられてもよいし、あるいは、ACELPなどの音声符号化方式が用いられてもよい。
 また、QMF領域でフェーズボコーダー処理が行われる場合に、変調係数r(m,n)について、QMFブロックのサブバンドインデックス(m,n)毎に重み付けが行われてもよい。これにより、QMF係数が、サブバンドインデックス毎に異なる値を持つ変調係数で変調される。たとえば、高域周波数に対応するサブバンドインデックスにおいて、伸張した際に音響信号の歪みが大きくなる場合がある。そのようなサブバンドインデックスに対して、伸張の割合を小さくなるような伸張係数が用いられる。
 さらに、QMF領域でフェーズボコーダー処理する別の構成として、音響信号処理装置は、QMF解析フィルタバンクの後段に、さらに別のQMF解析フィルタバンクを備えてもよい。第1のQMF解析フィルタバンクのみでは低域の周波数分解能が低い場合がある。その場合、低域成分を多く含む音響信号にフェーズボコーダー処理を施しても、十分な効果が得られない。
 そこで、低域成分の周波数分解能を向上させるために、低域部分(たとえば、第1のQMF解析フィルタバンクの出力に含まれる全QMFブロックの半分)を解析するための第2のQMF解析フィルタバンクが用いられてもより。これにより、周波数分解能が2倍に向上する。その上で、上述のQMF領域でのフェーズボコーダー処理が施されることで、音質を維持したまま、演算量およびメモリ消費量の削減効果が高められる。
 図4は、QMF領域の分解能を向上させる構成の例を示す図である。QMF合成フィルタバンク2401は、入力の音響信号を一旦QMF合成フィルタで合成する。その後、QMF解析フィルタバンク2402は、2倍の解像度のQMF解析フィルタで、QMF係数を算出する。2倍の分解能になったQMF領域の信号に対して、2倍の時間伸張と、2倍、3倍または4倍のピッチシフト処理を行うフェーズボコーダー処理回路(第1時間伸張回路2403、第2時間伸張回路2404および第3時間伸張回路2405)が並列に構成される。
 そして、各フェーズボコーダー処理回路は、2倍の解像度で、伸張割合の異なるフェーズボコーダー処理を統一的に行える。そして、マージ回路2406は、フェーズボコーダー処理された信号を合成する。
 これまで説明してきた時間伸張処理およびピッチ伸張処理を、音響信号の符号化装置に用いる例に関して、以下に説明する。
 図21は、時間伸張処理およびピッチ伸張処理を用いて、音響信号を符号化する音響符号化装置を示す構成図である。図21に示された音響符号化装置は、一定数のサンプル毎に分割した音響信号をフレーム処理する。
 まず初めに、ダウンサンプリング部1102は、音響信号をダウンサンプリングすることにより、低域の周波数成分のみを含む信号を生成する。符号化部1103は、その低域のみ含んだ音響信号をMPEG-AAC、MPEG-Layer3またはAC3方式などで代表される音響符号化方式を用いて符号化することにより、符号化情報を生成する。また、同時に、QMF解析フィルタバンク1104は、低域成分のみを含む音響信号をQMF係数に変換する。一方、QMF解析フィルタバンク1101は、全帯域成分を含む音響信号をQMF係数に変換する。
 時間伸張回路1105および周波数変調回路1106は、低域成分のみを含む音響信号をQMF領域に変換した信号(QMF係数)を、上述の複数の実施の形態で示されたように調整して、高域の仮想的なQMF係数を生成する。
 パラメータ算出部1107は、上記の仮想的な高域QMF係数と、全帯域成分を含むQMF係数(実際のQMF係数)とを比較することで、高域成分の概形情報を算出する。重畳部1108は、算出された概形情報を符号化情報に重畳する。
 図3は、音響復号装置の構成を示す図である。図3に示された音響復号装置は、上述の音響符号化装置で符号化された符号化情報を受信して音響信号へ復号する装置である。分離部1201は、受信した符号化情報を、第1の符号化情報と、第2の符号化情報とに分離する。パラメータ復号部1207は、第2の符号化情報を高域のQMF係数の概形情報へ変換する。一方で、復号部1202は、第1の符号化情報から、低域成分のみを含む音響信号を復号する。QMF解析フィルタバンク1203は、復号された音響信号を、低域成分のみを含むQMF係数へ変換する。そして、時間伸張回路1204および周波数変調回路1205は、その低域成分のみを含むQMF係数に対して、上述の複数の実施の形態で示されたように、時間およびピッチを調整する。これにより、高域成分を含む仮想的なQMF係数が生成される。
 概形調整回路1208および高域生成回路1206は、高域成分を含む仮想的なQMF係数を、受信した第2の符号化情報に含まれる概形情報に基づいて、調整する。QMF合成フィルタバンク1209は、調整されたQMF係数と低域のQMF係数とを合成する。そして、QMF合成フィルタバンク1209は、得られた合成QMF係数をQMF合成フィルタで、低域成分と高域成分の両方を含んだ時間領域の音響信号へ変換する。
 このようにして、音響符号化装置は、時間伸縮比を符号化情報として伝送する。音響復号装置は、時間伸縮比を用いて、音響信号を復号する。これにより、音響符号化装置は、フレーム毎に時間伸縮比を様々に変化させることができる。よって、高域成分の制御が柔軟になる。したがって、高い符号化効率が達成される。
 図22は、従来のSFTFベースの時間伸張回路および周波数変調回路を用いた場合と、QMFベースの時間伸張回路および周波数変調回路を用いた場合とで、音質比較実験を行った結果を示す図である。図22に示された結果は、ビットレートが16kbps、モノラル信号の条件での実験に基づいている。また、この結果は、MUSHRA(Multiple Stimuli with Hidden Reference and Anchor)法による評価に基づいている。
 図22において、縦軸はSTFT方式との音質差を示しており、横軸は異なる音響特性を持つ複数の音源を示している。図22からわかるように、SFTFベースの方式と比較してもQMFベースの方式がほぼ同等の音質で符号化および復号できていることがわかる。本実験で用いられた音源は、符号化および復号した際に劣化が特に起こりやすい音源である。そのため、それ以外の一般的な音響信号に対しても、同等の性能を有しつつ、符号化および復号が行われることは、明白である。
 このように、本発明に係る音響信号処理装置は、QMF領域において、時間伸張処理およびピッチ伸張処理を行う。本発明に係る音響信号処理は、古典的なSTFTベースの時間伸張処理およびピッチ伸張処理に比べ、QMFフィルタを用いて実現されている。そのため、本発明に係る音響信号処理は、演算量の大きいFFTを使用する必要がなく、同等の効果をより少ない演算量で実現することができる。また、STFTベースでは、ホップサイズによる処理を実施する必要があるため、処理遅延が発生する。QMFベースでは、QMFフィルタの処理遅延が非常に短い。そのため、本発明に係る音響信号処理装置は、処理遅延を非常に小さくすることができるという優れた利点も備えている。
 (実施の形態7)
 図23Aは、実施の形態7に係る音響信号処理装置を示す構成図である。図23Aに示された音響信号処理装置は、フィルタバンク2601と調整部2602とを備える。フィルタバンク2601は、図1に示されたQMF解析フィルタバンク901等と同様の動作を行う。調整部2602は、図1に示された調整回路902等と同様の動作を行う。そして、図23Aに示された音響信号処理装置は、所定の調整係数を用いて、入力音響信号列を変換する。ここで、所定の調整係数は、時間伸縮比、周波数変調比、および、それらを組み合わせた比率のいずれかに相当する。
 図23Bは、図23Aに示された音響信号処理装置の処理を示すフローチャートである。フィルタバンク2601は、入力音響信号列を、QMF解析フィルタを用いて、QMF係数列へ変換する(S2601)。調整部2602は、QMF係数列を所定の調整係数に依存させて調整する(S2602)。
 例えば、調整部2602は、調整されたQMF係数列から、予め定められた時間伸縮比で時間伸縮された入力音響信号列が得られるように、予め定められた時間伸縮比を示す調整係数に依存させて、QMF係数列の位相情報および振幅情報を調整する。あるいは、調整部2602は、調整されたQMF係数列から、予め定められた周波数変調比で周波数変調(ピッチシフト)された入力音響信号列が得られるように、予め定められた周波数変調比を示す調整係数に依存させて、QMF係数列の位相情報および振幅情報を調整する。
 図24は、図23Aに示された音響信号処理装置の変形例を示す構成図である。図24に示された音響信号処理装置は、図23Aに示された音響信号処理装置に加えて、高域生成部2705および高域補完部2706を備える。また、調整部2602は、帯域制限部2701、算出回路2702、調整回路2703および領域変換器2704を備える。
 フィルタバンク2601は、入力音響信号列を一定時間間隔毎にQMF係数列へ逐次変換することにより、一定時間間隔毎のQMF係数列を生成する。算出回路2702は、一定時間間隔毎に生成されたQMF係数列のタイムスロット毎およびサブバンド毎に位相情報および振幅情報を算出する。調整回路2703は、タイムスロット毎およびサブバンド毎の位相情報を所定の調整係数に依存させて調整することにより、QMF係数列の位相情報および振幅情報を調整する。
 帯域制限部2701は、図14に示された帯域制限フィルタ1802と同様の動作をする。すなわち、帯域制限部2701は、QMF係数列の調整前に、QMF係数列から、予め定められた帯域幅に対応する新たなQMF係数列を取り出す。領域変換器2704は、図17に示されたQMF領域変換器と同様の動作をする。すなわち、領域変換器2704は、QMF係数列の調整後に、QMF係数列を時間および周波数の分解能がそれぞれ異なる新たなQMF係数列に変換する。
 なお、帯域制限部2701は、QMF係数列の調整後に、QMF係数列から、予め定められた帯域幅に対応する新たなQMF係数列を取り出してもよい。また、領域変換器2704は、QMF係数列の調整前に、QMF係数列を時間および周波数の分解能がそれぞれ異なる新たなQMF係数列に変換してもよい。
 高域生成部2705は、図3に示された高域生成回路1206と同様の動作をする。すなわち、高域生成部2705は、調整後のQMF係数列から、予め定められた変換係数を用いて、調整前のQMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する。
 高域補完部2706は、図3に示された概形調整回路1208と同様の動作をする。すなわち、高域補完部2706は、高周波数帯域のうち、高域生成部2705によって高域係数列が生成されなかった周波数帯域である欠落帯域の係数を欠落帯域の両側に隣接する帯域に属する高域係数列を用いて補完する。
 図25は、実施の形態7に係る音響符号化装置を示す構成図である。図25に示された音響符号化装置は、ダウンサンプリング部2802、第1フィルタバンク2801、第2フィルタバンク2804、第1符号化部2803、第2符号化部2807、調整部2806および重畳部2808を備える。図25に示された音響符号化装置は、図21に示された音響符号化装置と同様の動作をする。そして、図25に示された構成要素は、図21に示された構成要素に対応する。
 すなわち、ダウンサンプリング部2802は、ダウンサンプリング部1102と同様の動作をする。第1フィルタバンク2801は、QMF解析フィルタバンク1101と同様の動作をする。第2フィルタバンク2804は、QMF解析フィルタバンク1104と同様の動作をする。第1符号化部2803は、符号化部1103と同様の動作をする。第2符号化部2807は、パラメータ算出部1107と同様の動作をする。調整部2806は、時間伸張回路1105と同様の動作をする。重畳部2808は、重畳部1108と同様の動作をする。
 図26は、図25に示された音響符号化装置の処理を示すフローチャートである。
 まず、第1フィルタバンク2801は、音響信号列を、QMF解析フィルタを用いて、QMF係数列に変換する(S2901)。次に、ダウンサンプリング部2802は、音響信号列をダウンサンプリングすることにより、新たな音響信号列を生成する(S2902)。次に、第1符号化部2803は、生成された新たな音響信号列を符号化する(S2903)。次に、第2フィルタバンク2804は、生成された新たな音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する(S2904)。
 次に、調整部2806は、第2QMF係数列を所定の調整係数に依存させて調整する(S2905)。所定の調整係数は、上述の通り、時間伸縮比、周波数変調比、および、それらを組み合わせた比率のいずれかに相当する。
 次に、第2符号化部2807は、第1QMF係数列と、調整された第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、生成したパラメータを符号化する(S2906)。次に、重畳部2808は、符号化された音響信号列と、符号化されたパラメータとを重畳する(S2907)。
 図27は、実施の形態7に係る音響復号装置を示す構成図である。図27に示された音響復号装置は、分離部3001、第1復号部3007、第2復号部3002、第1フィルタバンク3003、第2フィルタバンク3009、調整部3004および高域生成部3006を備える。図27に示された音響復号装置は、図3に示された音響復号装置と同様の動作をする。そして、図27に示された構成要素は、図3に示された構成要素に対応する。
 すなわち、分離部3001は、分離部1201と同様の動作をする。第1復号部3007は、パラメータ復号部1207と同様の動作をする。第2復号部3002は、復号部1202と同様の動作をする。第1フィルタバンク3003は、QMF解析フィルタバンク1203と同様の動作をする。第2フィルタバンク3009は、QMF合成フィルタバンク1209と同様の動作をする。調整部3004は、時間伸張回路1204と同様の動作をする。高域生成部3006は、高域生成回路1206と同様の動作をする。
 図28は、図27に示された音響復号装置の処理を示すフローチャートである。
 まず、分離部3001は、入力されたビットストリームから、符号化されたパラメータと符号化された音響信号列とを分離する(S3101)。次に、第1復号部3007は、符号化されたパラメータを復号する(S3102)。次に、第2復号部3002は、符号化された音響信号列を復号する(S3103)。次に、第1フィルタバンク3003は、第2復号部3002によって復号された音響信号列を、QMF解析フィルタを用いて、QMF係数列に変換する(S3104)。
 次に、調整部3004は、QMF係数列を所定の調整係数に依存させて調整する(S3105)。所定の調整係数は、上述の通り、時間伸縮比、周波数変調比、および、それらを組み合わせた比率のいずれかに相当する。
 次に、高域生成部3006は、調整されたQMF係数列から、復号されたパラメータを用いて、QMF係数に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する(S3106)。次に、第2フィルタバンク3009は、QMF係数列と高域係数列とを、QMF合成フィルタを用いて、時間領域の音響信号列に変換する。
 図29は、図27に示された音響復号装置の変形例を示す構成図である。図29に示された音響復号装置は、復号部2501、QMF解析フィルタバンク2502、周波数変調回路2503、結合部2504、高周波再構築部2505およびQMF合成フィルタバンク2506を備える。
 復号部2501は、ビットストリームから、音響信号を復号する。QMF解析フィルタバンク2502は、復号された音響信号をQMF係数に変換する。周波数変調回路2503は、QMF係数に周波数変調処理を施す。この周波数変調回路2503は、図4に示された構成要素を備える。図4に示されたように、周波数変調処理において、内部的に時間伸張処理が実行される。そして、結合部2504は、QMF解析フィルタバンク2502から得られるQMF係数と、周波数変調回路2503から得られるQMF係数とを結合する。高周波再構築部2505は、結合されたQMF係数から、高域に対応するQMF係数を再構築する。QMF合成フィルタバンク2506は、高周波再構築部2505から得られるQMF係数を音響信号に変換する。
 本発明に係る音響信号処理装置は、STFTベースのフェーズボコーダー処理に比べて、演算量の削減が可能となる。また、音響信号処理装置は、QMF領域で信号を出力するため、SBR技術またはParametricStereoなどのパラメトリック符号化処理において、領域変換の非効率性を解消することができる。そして、音響信号処理装置は、領域変換の演算に必要なメモリの容量も削減できる。
 以上、本発明に係る音響信号処理装置、音響符号化装置および音響復号装置について、複数の実施の形態に基づいて説明したが、本発明はこれらの実施の形態に限定されるものではない。これらの実施の形態に対して当業者が思いつく変形を施して得られる形態、および、これらの実施の形態における構成要素を任意に組み合わせて実現される別の形態も本発明に含まれる。
 例えば、特定の処理部が実行する処理を別の処理部が実行してもよい。また、処理を実行する順番が変更されてもよいし、複数の処理が並行して実行されてもよい。
 また、本発明は、音響信号処理装置、音響符号化装置または音響復号装置として実現できるだけでなく、音響信号処理装置、音響符号化装置または音響復号装置を構成する処理手段をステップとする方法として実現できる。そして、本発明は、それらの方法に含まれるステップをコンピュータに実行させるプログラムとして実現できる。さらに、本発明は、そのプログラムを記録したCD-ROM等のコンピュータ読み取り可能な記録媒体として実現できる。
 また、音響信号処理装置、音響符号化装置または音響復号装置に含まれる複数の構成要素は、集積回路であるLSI(Large Scale Integration)として実現されてもよい。これらの構成要素は、個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC(Integrated Circuit)、システムLSI、スーパーLSIまたはウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。プログラムすることが可能なFPGA(Field Programmable Gate Array)、または、LSI内部の回路セルの接続および設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて、音響信号処理装置、音響符号化装置または音響復号装置に含まれる構成要素の集積回路化を行ってもよい。
 本発明に係る音響信号処理装置は、オーディオレコーダ、オーディオプレーヤー、携帯電話等に有用である。
 500 リサンプリング部
 501 アップサンプリング部
 502 ローパスフィルタ
 503、1102、2802 ダウンサンプリング部
 504、601、901、1001、1101、1104、1203、1801、2402、2502 QMF解析フィルタバンク
 505、602、1105、1204、1804 時間伸張回路
 603、1003 QMF領域変換器
 902、1002、2703 調整回路
 903、1005、1209、1805、2401、2506 QMF合成フィルタバンク
 1004 バンドパスフィルタ
 1103 符号化部
 1106、1205、1803、2503 周波数変調回路
 1107 パラメータ算出部
 1108、2808 重畳部
 1201、3001 分離部
 1202、2501 復号部
 1206 高域生成回路
 1207 パラメータ復号部
 1208 概形調整回路
 1802 帯域制限フィルタ
 2403 第1時間伸張回路
 2404 第2時間伸張回路
 2405 第3時間伸張回路
 2406 マージ回路
 2504 結合部
 2505 高周波再構築部
 2601 フィルタバンク
 2602、2806、3004 調整部
 2701 帯域制限部
 2702 算出回路
 2704 領域変換器
 2705、3006 高域生成部
 2706 高域補完部
 2801、3003 第1フィルタバンク
 2803 第1符号化部
 2804、3009 第2フィルタバンク
 2807 第2符号化部
 3002 第2復号部
 3007 第1復号部
 

Claims (22)

  1.  所定の調整係数を用いて、入力音響信号列を変換する音響信号処理装置であって、
     前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換するフィルタバンクと、
     前記QMF係数列を前記所定の調整係数に依存させて調整する調整部とを備える
     音響信号処理装置。
  2.  前記調整部は、調整された前記QMF係数列から、所定の時間伸縮比で時間伸縮された前記入力音響信号列が得られるように、前記所定の時間伸縮比を示す前記所定の調整係数に依存させて、前記QMF係数列を調整する
     請求項1に記載の音響信号処理装置。
  3.  前記調整部は、調整された前記QMF係数列から、所定の周波数変調比で周波数変調された前記入力音響信号列が得られるように、前記所定の周波数変調比を示す前記所定の調整係数に依存させて、前記QMF係数列を調整する
     請求項1に記載の音響信号処理装置。
  4.  前記フィルタバンクは、前記入力音響信号列を時間間隔毎に前記QMF係数列へ逐次変換することにより、前記時間間隔毎の前記QMF係数列を生成し、
     前記調整部は、
     前記時間間隔毎に生成された前記QMF係数列のタイムスロット毎およびサブバンド毎に位相情報を算出する算出回路と、
     前記タイムスロット毎および前記サブバンド毎の前記位相情報を前記所定の調整係数に依存させて調整することにより、前記QMF係数列を調整する調整回路とを備える
     請求項1~3のいずれか1項に記載の音響信号処理装置。
  5.  前記調整回路は、前記サブバンド毎に、前記QMF係数列の最初のタイムスロットの前記位相情報と、前記所定の調整係数とに依存させて算出した値を、前記タイムスロット毎の前記位相情報に加算することにより、前記タイムスロット毎の前記位相情報を調整する
     請求項4に記載の音響信号処理装置。
  6.  前記算出回路は、さらに、前記時間間隔毎に生成された前記QMF係数列の前記タイムスロット毎および前記サブバンド毎に振幅情報を算出し、
     前記調整回路は、さらに、前記タイムスロット毎および前記サブバンド毎の前記振幅情報を前記所定の調整係数に依存させて調整することにより、前記QMF係数列を調整する
     請求項4または請求項5に記載の音響信号処理装置。
  7.  前記調整部は、さらに、前記QMF係数列の調整前または調整後に、前記QMF係数列から、予め定められた帯域幅に対応する新たなQMF係数列を取り出す帯域制限部を備える
     請求項1~6のいずれか1項に記載の音響信号処理装置。
  8.  前記調整部は、前記QMF係数列を調整する割合をサブバンド毎に重み付けして、前記サブバンド毎に前記QMF係数列を調整する
     請求項1~7のいずれか1項に記載の音響信号処理装置。
  9.  前記調整部は、さらに、前記QMF係数列の調整前または調整後に、前記QMF係数列を時間および周波数の分解能が異なる新たなQMF係数列に変換する領域変換器を備える
     請求項1~8のいずれか1項に記載の音響信号処理装置。
  10.  前記調整部は、調整前の前記QMF係数列から過渡成分を検出し、検出した前記過渡成分を調整前の前記QMF係数列から取り出し、取り出した前記過渡成分を調整し、調整した前記過渡成分を調整後の前記QMF係数列に戻すことにより、前記QMF係数列を調整する
     請求項1~9のいずれか1項に記載の音響信号処理装置。
  11.  前記音響信号処理装置は、さらに、
     調整後の前記QMF係数列から、予め定められた変換係数を用いて、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、
     前記高周波数帯域のうち、前記高域生成部によって前記高域係数列が生成されなかった周波数帯域である欠落帯域の係数を前記欠落帯域の両側に隣接する帯域に属する前記高域係数列を用いて補完する高域補完部とを備える
     請求項1~10のいずれか1項に記載の音響信号処理装置。
  12.  第1音響信号列を符号化する音響符号化装置であって、
     前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1フィルタバンクと、
     前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリング部と、
     前記第2音響信号列を符号化する第1符号化部と、
     前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2フィルタバンクと、
     前記第2QMF係数列を所定の調整係数に依存させて調整する調整部と、
     前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化部と、
     符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳部とを備える
     音響符号化装置。
  13.  入力されたビットストリームから、第1音響信号列を復号する音響復号装置であって、
     入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離部と、
     符号化された前記パラメータを復号する第1復号部と、
     符号化された前記第2音響信号列を復号する第2復号部と、
     前記第2復号部によって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1フィルタバンクと、
     前記QMF係数列を所定の調整係数に依存させて調整する調整部と、
     復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、
     前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2フィルタバンクとを備える
     音響復号装置。
  14.  所定の調整係数を用いて、入力音響信号列を変換する音響信号処理方法であって、
     前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換する変換ステップと、
     前記QMF係数列を前記所定の調整係数に依存させて調整する調整ステップとを含む
     音響信号処理方法。
  15.  第1音響信号列を符号化する音響符号化方法であって、
     前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1変換ステップと、
     前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリングステップと、
     前記第2音響信号列を符号化する第1符号化ステップと、
     前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2変換ステップと、
     前記第2QMF係数列を所定の調整係数に依存させて調整する調整ステップと、
     前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化ステップと、
     符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳ステップとを含む
     音響符号化方法。
  16.  入力されたビットストリームから、第1音響信号列を復号する音響復号方法であって、
     入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離ステップと、
     符号化された前記パラメータを復号する第1復号ステップと、
     符号化された前記第2音響信号列を復号する第2復号ステップと、
     前記第2復号ステップによって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1変換ステップと、
     前記QMF係数列を所定の調整係数に依存させて調整する調整ステップと、
     復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成ステップと、
     前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2変換ステップとを含む
     音響復号方法。
  17.  請求項14に記載の音響信号処理方法に含まれるステップをコンピュータに実行させるための
     プログラム。
  18.  請求項15に記載の音響符号化方法に含まれるステップをコンピュータに実行させるための
     プログラム。
  19.  請求項16に記載の音響復号方法に含まれるステップをコンピュータに実行させるための
     プログラム。
  20.  所定の調整係数を用いて、入力音響信号列を変換する集積回路であって、
     前記入力音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列へ変換するフィルタバンクと、
     前記QMF係数列を前記所定の調整係数に依存させて調整する調整部とを備える
     集積回路。
  21.  第1音響信号列を符号化する集積回路であって、
     前記第1音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、第1QMF係数列に変換する第1フィルタバンクと、
     前記第1音響信号列をダウンサンプリングすることにより、第2音響信号列を生成するダウンサンプリング部と、
     前記第2音響信号列を符号化する第1符号化部と、
     前記第2音響信号列を、QMF解析フィルタを用いて、第2QMF係数列に変換する第2フィルタバンクと、
     前記第2QMF係数列を所定の調整係数に依存させて調整する調整部と、
     前記第1QMF係数列と、調整された前記第2QMF係数列とを比較することで、復号に用いられるパラメータを生成し、前記パラメータを符号化する第2符号化部と、
     符号化された前記第2音響信号列と、符号化された前記パラメータとを重畳する重畳部とを備える
     集積回路。
  22.  入力されたビットストリームから、第1音響信号列を復号する集積回路であって、
     入力された前記ビットストリームから、符号化されたパラメータと符号化された第2音響信号列とに分離する分離部と、
     符号化された前記パラメータを復号する第1復号部と、
     符号化された前記第2音響信号列を復号する第2復号部と、
     前記第2復号部によって復号された前記第2音響信号列を、QMF(Quadrature Mirror Filter)解析フィルタを用いて、QMF係数列に変換する第1フィルタバンクと、
     前記QMF係数列を所定の調整係数に依存させて調整する調整部と、
     復号された前記パラメータを用いて、調整後の前記QMF係数列から、調整前の前記QMF係数列に対応する周波数帯域よりも高い高周波数帯域に対応する新たなQMF係数列である高域係数列を生成する高域生成部と、
     前記高域係数列、および、調整前の前記QMF係数列を、QMF合成フィルタを用いて、時間領域の前記第1音響信号列に変換する第2フィルタバンクとを備える
     集積回路。
PCT/JP2010/006180 2009-10-21 2010-10-19 音響信号処理装置、音響符号化装置および音響復号装置 WO2011048792A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP10824645.5A EP2360688B1 (en) 2009-10-21 2010-10-19 Apparatus, method and program for audio signal processing
US13/256,055 US9026236B2 (en) 2009-10-21 2010-10-19 Audio signal processing apparatus, audio coding apparatus, and audio decoding apparatus
CN201080003682.1A CN102257567B (zh) 2009-10-21 2010-10-19 音响信号处理装置、音响编码装置及音响解码装置
JP2011537131A JP5422664B2 (ja) 2009-10-21 2010-10-19 音響信号処理装置、音響符号化装置および音響復号装置

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2009242603 2009-10-21
JP2009-242603 2009-10-21
JP2010-005282 2010-01-13
JP2010005282 2010-01-13
JP2010059784 2010-03-16
JP2010-059784 2010-03-16

Publications (1)

Publication Number Publication Date
WO2011048792A1 true WO2011048792A1 (ja) 2011-04-28

Family

ID=43900037

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/006180 WO2011048792A1 (ja) 2009-10-21 2010-10-19 音響信号処理装置、音響符号化装置および音響復号装置

Country Status (6)

Country Link
US (1) US9026236B2 (ja)
EP (2) EP2704143B1 (ja)
JP (1) JP5422664B2 (ja)
CN (1) CN102257567B (ja)
TW (1) TWI509596B (ja)
WO (1) WO2011048792A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013521536A (ja) * 2010-03-09 2013-06-10 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ信号用の位相ボコーダに基づく帯域幅拡張方法における改善された振幅応答及び時間的整列のための装置及び方法
JP2014041240A (ja) * 2012-08-22 2014-03-06 Pioneer Electronic Corp タイムスケーリング方法、ピッチシフト方法、オーディオデータ処理装置およびプログラム
JP2015508911A (ja) * 2012-02-27 2015-03-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御
CN109410966A (zh) * 2013-04-05 2019-03-01 杜比国际公司 音频编码器和解码器
JP2020512597A (ja) * 2017-03-31 2020-04-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法
US11373666B2 (en) 2017-03-31 2022-06-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for post-processing an audio signal using a transient location detection

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5807453B2 (ja) * 2011-08-30 2015-11-10 富士通株式会社 符号化方法、符号化装置および符号化プログラム
RU2608447C1 (ru) * 2013-01-29 2017-01-18 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
CN110265047B (zh) 2013-04-05 2021-05-18 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
US9609451B2 (en) * 2015-02-12 2017-03-28 Dts, Inc. Multi-rate system for audio processing
CN106297813A (zh) * 2015-05-28 2017-01-04 杜比实验室特许公司 分离的音频分析和处理
US9613628B2 (en) 2015-07-01 2017-04-04 Gopro, Inc. Audio decoder for wind and microphone noise reduction in a microphone array system
CN106454449A (zh) * 2016-10-25 2017-02-22 深圳芯智汇科技有限公司 主音箱、从音箱及路由器控制同步播放音频的方法
CN108429713B (zh) * 2017-02-13 2020-06-16 大唐移动通信设备有限公司 一种数据压缩方法及装置
US10726828B2 (en) * 2017-05-31 2020-07-28 International Business Machines Corporation Generation of voice data as data augmentation for acoustic model training
US20190074805A1 (en) * 2017-09-07 2019-03-07 Cirrus Logic International Semiconductor Ltd. Transient Detection for Speaker Distortion Reduction
CN111093302B (zh) * 2019-11-26 2023-05-12 深圳市奋达科技股份有限公司 音箱灯光控制方法和音箱
US11317203B2 (en) * 2020-08-04 2022-04-26 Nuvoton Technology Corporation System for preventing distortion of original input signal
TWI763207B (zh) * 2020-12-25 2022-05-01 宏碁股份有限公司 聲音訊號處理評估方法及裝置
US20230143318A1 (en) * 2021-11-09 2023-05-11 Landis+Gyr Innovations, Inc. Sampling rate converter with line frequency and phase locked loops for energy metering

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007126015A1 (ja) * 2006-04-27 2007-11-08 Panasonic Corporation 音声符号化装置、音声復号化装置、およびこれらの方法
WO2008102527A1 (ja) * 2007-02-20 2008-08-28 Panasonic Corporation マルチチャンネル復号装置、マルチチャンネル復号方法、プログラム及び半導体集積回路
JP2010078915A (ja) * 2008-09-26 2010-04-08 Fujitsu Ltd オーディオ復号方法、装置、及びプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3785189T2 (de) 1987-04-22 1993-10-07 Ibm Verfahren und Einrichtung zur Veränderung von Sprachgeschwindigkeit.
JP3491425B2 (ja) * 1996-01-30 2004-01-26 ソニー株式会社 信号符号化方法
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US20030182106A1 (en) * 2002-03-13 2003-09-25 Spectral Design Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal
US7627056B1 (en) * 2002-03-29 2009-12-01 Scientific Research Corporation System and method for orthogonally multiplexed signal transmission and reception on a non-contiguous spectral basis
US7160619B2 (en) 2003-10-14 2007-01-09 Advanced Energy Technology Inc. Heat spreader for emissive display device
CA2566366C (en) 2004-05-19 2013-08-06 Matsushita Electric Industrial Co. Ltd. Audio signal encoder and audio signal decoder
WO2006003891A1 (ja) 2004-07-02 2006-01-12 Matsushita Electric Industrial Co., Ltd. 音声信号復号化装置及び音声信号符号化装置
WO2006027038A2 (en) * 2004-09-09 2006-03-16 Fujitsu Siemens Computers, Inc. Computer arrangement for providing services for clients over a network
NZ562188A (en) 2005-04-01 2010-05-28 Qualcomm Inc Methods and apparatus for encoding and decoding an highband portion of a speech signal
US8892448B2 (en) 2005-04-22 2014-11-18 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
ATE448638T1 (de) 2006-04-13 2009-11-15 Fraunhofer Ges Forschung Audiosignaldekorrelator
DE602007013415D1 (de) 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
US7647229B2 (en) * 2006-10-18 2010-01-12 Nokia Corporation Time scaling of multi-channel audio signals
KR101513028B1 (ko) * 2007-07-02 2015-04-17 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
JP5010743B2 (ja) 2008-07-11 2012-08-29 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル傾斜で制御されたフレーミングを使用して帯域拡張データを計算するための装置及び方法
EP3751570B1 (en) * 2009-01-28 2021-12-22 Dolby International AB Improved harmonic transposition
CN103038819B (zh) * 2010-03-09 2015-02-18 弗兰霍菲尔运输应用研究公司 用以使用补丁边界对准处理输入音频信号的装置及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007126015A1 (ja) * 2006-04-27 2007-11-08 Panasonic Corporation 音声符号化装置、音声復号化装置、およびこれらの方法
WO2008102527A1 (ja) * 2007-02-20 2008-08-28 Panasonic Corporation マルチチャンネル復号装置、マルチチャンネル復号方法、プログラム及び半導体集積回路
JP2010078915A (ja) * 2008-09-26 2010-04-08 Fujitsu Ltd オーディオ復号方法、装置、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Improved Phase Vocoder Time - Scale Modification of Audio", IEEE TRANS ASP, vol. 7, no. 3, May 1989 (1989-05-01)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013521536A (ja) * 2010-03-09 2013-06-10 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ信号用の位相ボコーダに基づく帯域幅拡張方法における改善された振幅応答及び時間的整列のための装置及び方法
JP2015508911A (ja) * 2012-02-27 2015-03-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御
US10818304B2 (en) 2012-02-27 2020-10-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Phase coherence control for harmonic signals in perceptual audio codecs
JP2014041240A (ja) * 2012-08-22 2014-03-06 Pioneer Electronic Corp タイムスケーリング方法、ピッチシフト方法、オーディオデータ処理装置およびプログラム
CN109410966A (zh) * 2013-04-05 2019-03-01 杜比国际公司 音频编码器和解码器
CN109410966B (zh) * 2013-04-05 2023-08-29 杜比国际公司 音频编码器和解码器
US11830510B2 (en) 2013-04-05 2023-11-28 Dolby International Ab Audio decoder for interleaving signals
JP2020512597A (ja) * 2017-03-31 2020-04-23 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法
US11373666B2 (en) 2017-03-31 2022-06-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for post-processing an audio signal using a transient location detection
US11562756B2 (en) 2017-03-31 2023-01-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
JP7261173B2 (ja) 2017-03-31 2023-04-19 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法

Also Published As

Publication number Publication date
TW201137859A (en) 2011-11-01
JP5422664B2 (ja) 2014-02-19
US20120022676A1 (en) 2012-01-26
US9026236B2 (en) 2015-05-05
CN102257567A (zh) 2011-11-23
JPWO2011048792A1 (ja) 2013-03-07
EP2704143B1 (en) 2015-01-07
EP2704143A3 (en) 2014-04-02
EP2360688B1 (en) 2018-12-05
EP2360688A1 (en) 2011-08-24
TWI509596B (zh) 2015-11-21
EP2704143A2 (en) 2014-03-05
EP2360688A4 (en) 2013-09-04
CN102257567B (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
JP5422664B2 (ja) 音響信号処理装置、音響符号化装置および音響復号装置
JP6701429B2 (ja) 高調波転換
CA3107943C (en) Improved subband block based harmonic transposition
RU2582061C2 (ru) Способ расширения ширины полосы, устройство расширения ширины полосы, программа, интегральная схема и устройство декодирования аудио
CA2966469A1 (en) Improved harmonic transposition
AU2023202547B2 (en) Improved Subband Block Based Harmonic Transposition
RU2800676C1 (ru) Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
RU2772356C2 (ru) Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
AU2019240701B2 (en) Improved Subband Block Based Harmonic Transposition

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080003682.1

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10824645

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2010824645

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2011537131

Country of ref document: JP

Ref document number: 2010824645

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13256055

Country of ref document: US