WO2007010771A1 - 信号処理装置 - Google Patents

信号処理装置 Download PDF

Info

Publication number
WO2007010771A1
WO2007010771A1 PCT/JP2006/313655 JP2006313655W WO2007010771A1 WO 2007010771 A1 WO2007010771 A1 WO 2007010771A1 JP 2006313655 W JP2006313655 W JP 2006313655W WO 2007010771 A1 WO2007010771 A1 WO 2007010771A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
mixing
filter
value
frequency band
Prior art date
Application number
PCT/JP2006/313655
Other languages
English (en)
French (fr)
Inventor
Shuji Miyasaka
Yosiaki Takagi
Takeshi Norimatsu
Akihisa Kawamura
Kojiro Ono
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to EP06768017A priority Critical patent/EP1906705B1/en
Priority to US11/995,571 priority patent/US8284961B2/en
Priority to JP2007525949A priority patent/JP4921365B2/ja
Priority to CN2006800256399A priority patent/CN101223820B/zh
Publication of WO2007010771A1 publication Critical patent/WO2007010771A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Definitions

  • the present invention relates to a signal processing apparatus for decoding a signal obtained by down-mixing a plurality of signals and a code signal obtained by encoding information for separating the signal into an original signal.
  • the present invention also relates to a technique for decoding a code signal obtained by encoding the presence of a multi-channel with a small amount of information by encoding a phase difference between signals and a level ratio.
  • Spatial Codec spatial coding
  • Non-patent Document 1 a technique disclosed in Parametric Coding for High Quality Audio (Non-patent Document 1) standardized by the MPEG audio system is used. Among them, the process of decoding a signal that has been compressed and encoded with a small amount of information by encoding a phase difference between channels or a level ratio is described.
  • FIG. 1 is a diagram showing a processing process of a conventional signal processing device disclosed in Non-Patent Document 1.
  • the input signal S is a signal obtained by downmixing what was originally a 2ch signal into a monaural signal.
  • the input signal S is input to a processing module called de-correlation, and an output signal D is obtained.
  • the first is delay processing. This is a process of delaying the input signal by a predetermined time. The delayed signal is then subjected to a second process called All Pass Filter. This process is a process of decorrelating the input signal and giving a reverberation component to the input signal.
  • the coefficients hll, hl2, h21, and h22 are the original values obtained from the input monaural signal.
  • the power that is a value determined by the level ratio L between the two channels and the phase difference ⁇ .
  • r represents the correlation between the original 2ch signals.
  • arctan ((l-L) / (l + L) * tan ( ⁇ / 2))
  • h22 lZ (l + L * L) ° 5 * sin (S ⁇ 2).
  • the above equation is a method developed from the method for obtaining the Mixing coefficient described in Non-Patent Document 1, and is a method for obtaining the Mixing coefficient in SpatialCodec that is currently being prepared for formulation in the MPEG standard.
  • Non-patent literature l ISOZlEC 14496-3: 2001 / FDAM 2: 2004 (E) Disclosure of the invention
  • the input signal is very time-varying (for example, the moment of attack of a metallic percussion instrument)
  • delay and reverberation components are added in the decorrelation process.
  • the signal after decorrelation loses its sharpness.
  • the signal after decorrelation is added to the input signal S by the subsequent mixing process, and as a result, the output signal loses the sharpness of the input signal.
  • the decorrelation process is composed of a filter with a long tap number and a filter in order to add a reverberation component, so that the amount of calculation is very large.
  • the level ratio and the information power coefficient hi 1, hl2, h21, h22 of the phase difference are obtained by arccos O, arctan O, tan (), sin (), cos () Since it is a process in which multiple trigonometric functions are related in a complicated manner, this also requires a very large amount of computation.
  • the present invention has been made in view of the above-described conventional problems, and a monophonic signal force is also provided with a sense of spatial expansion when generating a 2ch signal, which is favorable.
  • the first object is to provide a signal processing apparatus that can obtain a stereo signal, and at the same time, can realize the sharpness of temporal fluctuation of sound and the localization of sound images.
  • a second object of the present invention is to reduce the amount of computation of decorrelation processing.
  • the present invention reduces the amount of processing for obtaining the coefficients hl l, hl2, h21, h22. Is the third purpose.
  • a mixing coefficient determining means and a mixing means for mixing the first signal and the second signal based on the degree of mixing determined by the mixing coefficient determining means, the generating means comprising: Low-frequency band signal power in the first signal First filter means for generating a low-frequency band signal in the second signal, and high-frequency band signal power in the first signal
  • the second signal A second fibre that produces a high frequency signal at
  • the first filter means is a filter means for decorrelating the input signal with a delay means and an all-pass filter and adding a reverberation component to the complex signal
  • the second filter means is a filter means different from the first filter means.
  • the processing amount required by the second filter means is less than the processing amount required by the first filter processing means, and the sense of spread obtained by the second filter means is reduced to the first. It is possible to reduce the feeling of spread obtained by the filter processing means. Therefore, when the signal power that is monauralized also generates a 2ch signal, it is possible to shape the temporal fluctuation of the sound and to firmly locate the sound image, and to feel the spatial spread in the low band. As a result, a good stereo signal can be obtained.
  • the second filter means may be an all-pass filter for a real signal. it can.
  • the second filter means is an orthogonal rotation filter that rotates the phase by 90 degrees or -90 degrees. Can be characterized.
  • the mixing coefficient determining means obtains four mixing coefficient values hi1, hl2, h21, h22. And the angle obtained by dividing the parallelogram ⁇ by the diagonal of the parallelogram where the angle between two adjacent sides is the ⁇ and the length ratio is the L is A, When the value determined according to the level ratio L is dl and d2, the mixing coefficient determination means obtains the value of hi 1 as dl * cos (A) and sets the value of hi 2 as d2 *. It is also possible to obtain cos (B), obtain the value of h21 as dl * sin (A) or d2 * sin (B), and obtain the value of h22 as —h21.
  • the mixing coefficient determination means obtains four mixing coefficient values hll, hl2, h21, h22.
  • the real part 3 ⁇ 4: 1 the imaginary part is il
  • the real part is r2
  • the imaginary part is i2
  • the mixing means uses hl l * rl + h21 * r2 as the real part of the first output signal, hl l * il + h2 l * i2 as the imaginary part of the first output signal, hl2 * rl + h22 * r2 is the real part of the second output signal, and hl2 * il + h22 * i2 is the imaginary part of the second output signal.
  • the complex signal can be processed by the mixing means.
  • the mixing coefficient determination means obtains four mixing coefficient values hl l, hl2, h21, and h22.
  • the mixing means has one hl l * rl + h21 * r2 It is also possible to use the output signal hl2 * rl + h22 * r2 as the second output signal.
  • the present invention can be realized as a signal processing method that can be realized as such a signal processing device, and has a characteristic means included in the signal processing device such as NAGKO as a step. It can also be realized as a program that causes a computer to execute steps. Needless to say, such a program can be distributed via a recording medium such as a CD-ROM or a transmission medium such as the Internet. Furthermore, the characteristic means provided in such a signal processing apparatus may be realized as an integrated LSI. The invention's effect
  • the signal processing device of the present invention when the signal having the monaural signal is also generated as a 2ch signal, the sharpness of the temporal variation of the sound and the sound image Therefore, it is possible to realize the stereotaxy, giving a sense of spatial expansion in a low band, and obtaining a good stereo signal.
  • the monaural signal power can also be converted into a multi-channel signal (for example, 5.lch). It can be generated satisfactorily.
  • a 2ch signal power can generate a multi-channel signal (eg, 5. lch) well.
  • FIG. 1 is a diagram showing a basic configuration of a conventional technique.
  • FIG. 2 is a diagram showing a configuration of a signal processing device according to the first embodiment.
  • FIG. 3 is a diagram for explaining a spatial codec targeted by the signal processing device 1.
  • FIG. 4 is a diagram for explaining level ratio information and phase difference information using parallelograms.
  • FIG. 5 is a diagram showing a configuration example of the table 41 shown in FIG.
  • FIG. 6 is a block diagram showing another configuration example of the generation unit.
  • FIG. 7 is a diagram showing another configuration of the signal processing device in the embodiment of the configuration for receiving the code key data indicating the acoustic feature quantity.
  • FIG. 8 is a diagram showing a configuration of a signal processing device according to the second embodiment.
  • FIG. 2 is a functional block diagram showing the configuration of the signal processing device according to the first embodiment.
  • the decoding unit 10 is also shown.
  • the signal processing apparatus 1 encodes a first encoded signal obtained by encoding a signal obtained by down-mixing two audio signals and a value determined according to the level ratio L between the two audio signals.
  • a bit stream composed of a second code signal that is level ratio information and a third code signal that is phase difference information obtained by encoding a value determined according to the phase difference ⁇ between the two audio signals As shown in FIG. 2, the device includes a feature amount detection unit 20, a generation unit 30, a mixing coefficient determination unit 40, and a mixing unit 50.
  • the generation unit 30 includes a delay unit 301, a first filter 302, a second filter 303, and a synthesis unit 304.
  • the mixing coefficient determination unit 40 has three tables 41, 42, and 43 for obtaining the mixing coefficients h11, hl2, and h21 from the level ratio information and the phase difference information, respectively.
  • Decoding unit 10 decodes the first encoded signal to generate a first signal.
  • the generation unit 30 generates the first signal force second signal.
  • the mixing coefficient determination unit 40 determines a mixing coefficient from the second encoded signal and the third encoded signal.
  • the mixing unit 50 mixes the first signal and the second signal based on the degree of mixing determined by the mixing coefficient determination unit 40.
  • the delay unit 301 delays the first signal by N (N> 0) unit time.
  • the first filter 302 checks the output signal of the delay unit 301.
  • the second filter 303 processes the output signal of the delay unit 301. To do.
  • the feature amount detection unit 20 detects the acoustic feature amount of the first signal.
  • the synthesizer 304 synthesizes the second signal from the output signal of the first filter 302 and the output signal of the second filter 303 according to the acoustic feature amount.
  • the spatial audio encoder uses a complex operation to convert the downmix signal S and the level ratio c from the 2ch music signals of L and R. And find the phase difference ⁇ .
  • the downmix signal S is further encoded by an encoding device based on the MPEG AAC standard.
  • the level ratio c is encoded as the second sign signal.
  • the generation unit 30 In the decoding process, the generation unit 30 generates a decorrelate signal D that is orthogonal to the downmix signal S and has a reverberation feeling as shown in FIG. !, Generate with calculation amount.
  • the mixing unit 50 mixes the downmix signal S and the decorrelate signal D, and performs the calculation of 2 channels of L and R less than the conventional one. Generate by quantity.
  • decoding section 10 decodes the first encoded signal and generates the first signal.
  • the first code signal is a monaural signal obtained by down-mixing two audio signals, and is encoded by, for example, an MPEG AAC encoder.
  • the decoding unit 10 performs the process until the PCM signal obtained by decoding such an AAC standard encoded signal is converted into a frequency signal having a plurality of frequency band powers. In the following description, processing for a signal in one specific band among the signals in such a plurality of frequency bands will be described.
  • the generation unit 30 generates the second signal from the first signal, which is performed as follows. That is, the delay unit 301 of the generation unit 30 first delays the first signal by N (N> 0) unit time. Next, the first filter 302 performs a filtering process on the output signal of the delay unit 301. The For example, as this processing, an All Pass Filter whose degree is P order is executed. The All Pass Filter has an effect of decorrelating the input signal and adding a reverberation component. All
  • the Pass Filter can be processed by any known method.
  • the All Pass Filter described in Section 8. 6. 4. 5. 2 of Non-Patent Document 1 described above can be used. Good.
  • the second filter 303 performs an All Pass Filter process on the output signal of the delay unit 301 with the order being less than the Pth order.
  • the second filter 303 may perform a process of rotating the phase by 90 degrees instead of the delay unit 301 or the All Pass Filter.
  • the process of rotating the phase by 90 degrees does not accompany any reverberation components generated by the All Pass Filter process, and the input signal can be decorrelated, so it is extremely useful when eliminating reverberation components. .
  • the output signal from the first filter 302 and the output signal from the second filter 303 generated in this manner are processed by the synthesis unit 304, and a second signal is generated.
  • This process is as follows. That is, the feature amount detection unit 20 detects the acoustic feature amount of the first signal, and outputs the output signal from the first filter 302 and the output signal from the second filter 303 according to the feature amount. Determine the mixing ratio.
  • the acoustic feature amount is a feature amount that is large when the first signal is abruptly fluctuating, and the synthesis unit 304 has the first feature amount when the acoustic feature amount is small. Only the output signal of the filter 302 may be output, or the output signal of the first filter 302 may be increased and the output signal of the second filter 303 may be mixed slightly. On the other hand, when the acoustic feature quantity is large, only the output signal of the second filter 303 is output, or the output signal of the first filter 302 is reduced, and the output signal of the second filter 303 is reduced. You may mix and output a lot.
  • the acoustic feature quantity may be a feature quantity that becomes large when strong energy is concentrated in a specific frequency band of the first signal.
  • a combination of such feature amounts may be used.
  • the acoustic feature amount is a feature amount that represents the sharpness of temporal variation in sound and the sense of localization as the force of the sound image.
  • the first filter 302 is an all pass filter of order P, and is a filter that gives the sound a sense of reverberation. Therefore, when such a feeling of reverberation is unnecessary, that is, the sharpness of temporal fluctuations of the sound and the sound image. This is because when a strong sense of localization is required, it is necessary to reduce the reverberation by reducing the order of the All Pass Filter.
  • the second signal and the first signal generated by the generation unit 30 in this way are mixed by the mixing unit 50. The operation will be described below.
  • the mixing coefficient determination unit 40 determines a mixing coefficient from the second encoded signal and the third encoded signal.
  • the second encoded signal is a value that is determined according to the level ratio L between the two original audio signals
  • the third encoded signal is between the two original audio signals.
  • the value determined according to the phase difference ⁇ is sign.
  • a method of obtaining the mixing coefficients hi 1, hl2, h21, h22 from such level ratio information and phase difference information is performed as follows.
  • the downmixed and monauralized signal is converted according to the phase difference and level ratio of the original two signals. It can be separated into two mathematically accurate signals for the reason shown in Fig. 4.
  • the parallel four sides where the angle between the two adjacent sides is ⁇ and the length ratio is L In the form XYZW, the angle YXZ obtained by dividing by the diagonal line is A, and the angle WXZ is B.
  • the diagonal length XZ is mathematically ((1 + 2 * L * cos (0) + L * L ) "It is calculated as 0.5.
  • d2 l / ((l + L * L) "0.5).
  • the magnitude of the downmix signal is corrected according to the phase difference ⁇ .
  • phase difference ⁇ of the original two signals is 90 degrees
  • the magnitude of the downmix signal is not corrected, but if the phase difference ⁇ of the original two signals is less than 90 degrees, the downmix The correction is made so that the magnitude of the signal is reduced.
  • the downmix signal is corrected so as to increase in magnitude. This is because even if the absolute value of the input signal is the same, if the phase difference of the input signal is greater than 90 degrees, the size of the downmix signal is relative to when the phase difference of the input signal is 90 degrees. It is because it becomes small automatically.
  • the third encoded signal is a signal obtained by encoding a value determined according to the phase difference ⁇ between the two original audio signals.
  • Encoding signal The signal is often a signal indicating the correlation r between the two original audio signals.
  • Non-Patent Document 1 this is the case in Non-Patent Document 1, and so is the Spatial Codec currently being standardized by MPEG.
  • the correlation r can be regarded as cos (0).
  • the correlation r of the two signals is, for example, 1, that is, the phase difference ⁇ force SO, cos ( ⁇ ) is 1, and the correlation r represents cos (0). ing. Also, when the correlation r between the two signals is, for example, 0, that is, when the phase difference ⁇ is 90 degrees, cos (0) is 0, and the correlation r represents cos (0). Yes. Furthermore, when the correlation r of the two signals is, for example, 1, that is, when the phase difference is ⁇ power, cos (0) is 1, and the current function r force cos (0) is expressed. !
  • the mixing coefficient determination unit 40 includes only three tables in FIG. 2 (or FIG. 8 in the second embodiment).
  • a table 41 (42, 43) for obtaining a mixing coefficient hi 1 (hi 2, h21) using q ⁇ and qL as addresses may be configured.
  • the calculation for obtaining h22 and the force h22 that does not require a table may be obtained by calculation or using a table, and the calculation and table for h21 may be unnecessary.
  • the mixing unit 50 uses the mixing coefficients hl l, h21, hl2, and h22 thus generated, the first signal and the second signal are mixed by the mixing unit 50.
  • the method is as follows.
  • the real part 1 when the first signal is represented by a complex number il the imaginary part is il
  • the real part when the second signal is represented by a complex number is r2
  • the imaginary part is i2.
  • l * rl + h21 * r2 is the real part of the first output signal
  • hl l * il + h21 * i2 is the imaginary part of the first output signal
  • hl2 * rl + h22 * r2 is the second
  • the first signal and the second signal generated from the first signal are mixed in two degrees of mixing (a combination of hl l and h21).
  • a signal processing device for generating two signals by mixing in a combination of hl2 and h22) and generating means for generating a second signal from the first signal
  • the mixing coefficient determining means for determining the degree of mixing and the mixing degree determined by the mixing coefficient determining means Based on the first signal and the second signal, and the generating means delays the first signal by N (N> 0) unit time, and the output of the delay means
  • a complex All Pass Filter that processes the signal and a second filter means that is not a Complex All Pass Filter are provided.
  • the second filter means is configured to generate a sound from the signal generated by the delay means and the complex All Pass Filter. If there is a sense of spread, a signal with less reverberation is generated, and the first signal is a signal that fluctuates sharply, or a signal that has a strong energy concentration in a specific frequency band. If the output signal of the processing means is mixed with the second signal in a large amount, a 2-channel signal is generated from the monaural signal, giving a spatial spread and a good stereo signal. At the same time Sharp pods, so that the localization can also be realized that the firm and of the sound image.
  • the second filter means is a process that rotates the phase of the input by 90 degrees or -90 degrees, so that the reverberation component can be made very small, and the signal uncorrelated with the input is very small. V, it can be made with computational complexity.
  • the second filter means By setting the second filter means to an All Pass Filter for real numbers, it is possible to give a reverberation feeling to a sound source that requires a reverberation feeling and reduce the amount of calculation. Become.
  • hl2 d2 * (l + L * r) / ((l + L 2 + 2 * L * r) 05 )
  • h21 dl * (1—r 2 ). 5 / ((l + L 2 + 2 * L * r) 05 )
  • hll, hl2, h21, and h22 are all obtained from only the phase difference information and the level ratio information, and the force is given by the quantized sign signal so that the quantization is performed. If the values of hll, hl2, h21, and h2 2 calculated in advance are stored in a table using the values (integer values) as indexes, those values can be easily obtained. Of course, h22 can be obtained as h21, so it goes without saying that a table for h22 can be dispensed with.
  • the generation unit 31 includes a delay unit 301, a first filter 302, a synthesis unit 304, a delay unit 305, and a third filter 306.
  • the first signal S output from the decoding unit 10 is covered by the delay unit 301 and the second filter 303. It was.
  • the first signal S output from the decoding unit 10 is covered by the delay unit 305 and the third filter 306.
  • the second delay unit 305 delays the first signal by n (N> n ⁇ 0) unit time.
  • the third filter 306 rotates the phase of the input signal by 90 degrees if it is 90 degrees.
  • the delay unit 301 and the first filter 302 have the effect of giving a sense of reverberation if the sound has a spatial spread. When a strong sense of localization is required, it is necessary to reduce the amount of delay and the amount of reverberation.
  • the second delay unit 305 having a delay amount smaller than that of the delay unit 301 is used, and further, a third filter with less reverberation is used.
  • the delay amount of the second delay unit 305 may be zero. That is, the second delay unit 305 may be omitted.
  • the third filter 306 is a force that rotates the phase of the input signal 90 degrees or -90 degrees. This is a very small amount of computation, and can generate a signal that is uncorrelated with the input signal and does not have a delay. It is highly convenient as a means of generating a signal that is uncorrelated with the input signal and sharp.
  • the configuration diagram in that case is as shown in FIG.
  • the only difference between FIG. 2 and FIG. 7 is that a feature amount receiving unit 21 is provided instead of the feature amount detecting unit 20.
  • the feature amount receiving unit 21 receives data obtained by encoding the acoustic feature amount of the input signal as the fourth encoded signal.
  • the fourth sign signal is true if strong energy is concentrated in a specific frequency band, and is false if it is not.
  • the generation unit 30 is a short filter with a filter tap length for a signal having a small reverberation component (that is, having a small delay amount or no delay).
  • a signal with a lot of reverberation components i.e., a large amount of delay, a filter tap length longer than the signal, a signal processed by a filter
  • processing as intended on the encoder side can be performed, so that a high-quality signal can be generated.
  • the compositing unit 304 need only function as a selector.
  • the second embodiment is significantly different from the first embodiment in that the first embodiment sequentially adapts the method of generating the second signal according to the sequentially input signals.
  • the low frequency band signal greatly contributes to the spread of sound and the high frequency band signal spreads to the sound. Considering the fact that it does not contribute much to the feeling, the generation means is changed between the low and high ranges from the viewpoint of reducing the amount of computation.
  • FIG. 8 is a diagram showing a configuration of the signal processing device according to Embodiment 2 of the present invention. The parts corresponding to the configurations of the signal processing apparatuses 1 and 2 are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the signal processing apparatus 3 encodes a first encoded signal obtained by encoding a signal obtained by downmixing two audio signals and a value determined according to the level ratio L between the two audio signals.
  • FIG. 8 shows a signal processing device that decodes a bit stream consisting of a second encoded signal and a third encoded signal that encodes a value determined according to the phase difference ⁇ between the two audio signals.
  • the generator 32, the mixing coefficient determining unit 40, and the mixing unit 50 that generate the first signal force and the second signal are provided.
  • the first signal is a frequency signal having a plurality of frequency band forces
  • the generation unit 32 processes the signals in each frequency band independently as shown in FIG.
  • the power to process the signal by the delay unit 301 and the first filter 302 is high frequency.
  • the signal may be processed only by the processing unit 307 configured by a filter or the like.
  • the delay amount for the signal in the low frequency band may be the same or larger than that in the higher frequency signal.
  • the filter order of the first filter 302 with respect to the signal in the low frequency band is the same or larger than that of the higher frequency (force zone 307). It may be.
  • the filter means (processing unit 307) having a band higher than the predetermined band may be a process of rotating the input signal by 90 degrees or -90 degrees.
  • the first filter 302 for the signal in the low frequency band processes the signal by the delay unit 301 and the complex All Pass Filter unit, and the filter unit for the signal in the high frequency band (processing unit 307).
  • the signal may be processed by delay means and real All Pass Filter means.
  • the generation unit 32 generates the second signal from the first signal, which is performed as follows. That is, among the multiple frequency bands constituting the first signal, for the low frequency band (for example, 0 to 2 or 3 kHz), the signal is delayed by a preset value N unit time, and so on. The delayed signal is subjected to All Pass Fi Iter processing of complex power of order power.
  • the All Pass Filter process may be performed by any method known in the art, but for example, as described in the above section 8. 6. 4. 5. 2 of Non-Patent Document 1. All Pass Filter is sufficient.
  • n (N ⁇ n ⁇ 0) a value n (N ⁇ n ⁇ 0) equal to or smaller than N
  • the signal is delayed only by this amount, and the processing of the All Pass Filter of the order p (P ⁇ p ⁇ 0) is performed on the signal delayed in this way.
  • it may be a processing process in which the input signal obtained by the All Pass Filterer process is rotated 90 degrees or -90 degrees.
  • real All Pass Filter processing may be used.
  • the lower frequency band signal gives more delay and longer filter taps to the complex filter with more delay and reverberation, and the higher frequency band signal has less delay and shorter! Process with complex number filters or real filters.
  • signals in the low frequency band generally contribute greatly to the reverberation and spread of the sound, and signals in the high frequency band have a sharp sound. This is because of the fact that it contributes greatly to Of course, when the perceptual characteristics of hearing are analyzed precisely for each fine frequency band and based on the result, the value is necessarily limited to the method of decreasing the value from low to high as shown above. Shouldn't be. Heavy here What is important is that each frequency band is controlled independently.
  • the first signal and the second signal generated by the first signal force are mixed in two degrees of mixing (in combination of hi 1 and h21).
  • the generating means for generating the second signal from the first signal includes mixing coefficient determining means for determining the degree of mixing, and mixing means for mixing the first signal and the second signal based on the degree of mixing determined by the mixing coefficient determining means.
  • a delay means for delaying a relatively large value N (N> 0) unit time, and a complex All Pass filter with a relatively large order P
  • the first signal is relatively high for the high frequency band signal.
  • Small value n A delay means that delays by unit time (or no delay at all), and a real All Pass Filter with a relatively small value P order (or just rotate the input signal 90 degrees or -90 degrees) )
  • n A delay means that delays by unit time (or no delay at all), and a real All Pass Filter with a relatively small value P order (or just rotate the input signal 90 degrees or -90 degrees)
  • a spatial spread is given and a good stereo signal is obtained, and at the same time the sound is temporally generated. Sharpness of fluctuations and sound image localization can be realized, and the power can also simplify the high-frequency signal processing, thereby contributing to the reduction of the amount of computation.
  • the processing method (delay amount and filter order) of each frequency band signal is fixed regardless of the nature of the input signal, but of course it is not necessary to limit to this. It may be switched appropriately according to the input signal.
  • the frequency band below the frequency band T performs delay and All Pass Filter processing
  • the frequency band above T has zero delay
  • the filter processing rotates the input signal 90 degrees or -90 degrees.
  • the value of ⁇ may be appropriately switched according to the input signal.
  • the level ratio of the original two signals before downmixing is L
  • the down mix The value of cos (0) is represented by the correlation coefficient r of the original two signals before the mixing, and the mixing coefficients hi 1, h21, hl2, and h22 are determined by L and r.
  • hl2 d2 * (l + L * r) Z ((l + L 2 + 2 * L * r) 05 )
  • h21 dl * (1—r 2 ). 5 / ((l + L 2 + 2 * L * r) 05 )
  • the surround feeling of the reproduced sound field is increased by controlling (changing) the phase difference and level ratio of the two signals.
  • Japanese Patent Application 2005-161602 For example, to increase the surround sound field by multiplying the level ratio by 1.2 and opening the phase difference by ⁇ 4, the above r and L are changed as follows: r 'and L' When applied to the above equation as L!:, L, the reproduced sound reproduced by the signal processing apparatus in the present embodiment has a greater surround feeling.
  • Embodiments 1 and 2 the processing for separating a monaural signal obtained by downmixing two signals into two signals has been described.
  • the present invention is not necessarily limited to processing related to two signals. For example, for a signal that was originally 5.lch (front left (Lf), front right (Rf), rear left (Ls), rear left (Rs), center (C), deep bass (LFE)) ,
  • the signal that downmixes Ls and Rs is S, CL, a signal that is a downmix of C and LFE
  • the processing shown in this embodiment may be used for each separation process when the monaural signal M obtained as above is separated through the reverse of the above process.
  • the signal processing apparatus can decode a code signal representing a phase difference or level ratio between a plurality of channels with a very small number of bits while maintaining acoustic characteristics, and has a small amount. Since it can be processed with a large amount of computation, it can be applied to music broadcasting services and music distribution services at low bit rates and its receiving devices such as mobile phones and digital audio players.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

  信号処理装置(1)は、2つの信号をダウンミックスして得られた第1の信号から、第2の信号を生成する生成部(32)と、2つの信号間のレベル比を表す値Lと、位相差を表す値θとに基づいて、第1の信号と第2の信号とを混合するための混合の度合を決定する混合係数決定部(40)と、混合係数決定部(40)で決定された混合の度合に基づいて、第1の信号と第2の信号とを混合する混合部(50)とを備える。生成部(32)は、第1の信号における低い周波数帯域の信号から前記第2の信号における低い周波数帯域の信号を生成する第1のフィルタ(302)と、第1の信号における高い周波数帯域の信号から第2の信号における高い周波数帯域の信号を生成する第2のフィルタ手段(加工部307)とを有し、第1のフィルタ(302)は、複素数の信号に対して、遅延部(301)とオールパスフィルタとによって入力の信号を無相関化すると共に、残響成分を付加するフィルタ手段であり、加工部(307)は、第1のフィルタ(302)と異なるフィルタ手段である。 

Description

明 細 書
信号処理装置
技術分野
[0001] 本発明は、複数の信号をダウンミックスした信号とそれをもとの信号に分離するため の情報を符号ィ匕した符号ィ匕信号を復号ィ匕するための信号処理装置に関し、特に、信 号間の位相差や、レベル比を符号ィ匕することによって少な 、情報量でマルチチャン ネルの臨場感を符号化した符号ィ匕信号を復号ィ匕する技術に関する。
背景技術
[0002] 近年、 Spatial Codec (空間的符号化) t 、われる技術開発が行われて 、る。これ は、非常に少ない情報量でマルチチャンネルの臨場感を圧縮'符号ィ匕することを目 的としている。例えば、既にデジタルテレビの音声方式として広く用いられているマル チチャンネルコーデックである AAC方式力 5. lch当り 512kbpsや、 384kbpsとい うビットレー卜を要するのに対し、 Spatial Codecでは、 128kbpsや、 64kbps,さら に 48kbpsと 、つた非常に少な 、ビットレートでマルチチャンネル信号を圧縮'符号ィ匕 することを目 旨して ヽる。
[0003] そのための技術として、例えば、 MPEGオーディオ方式で規格化された Parametr ic Coding for High Quality Audio (非特許文献 1)で開示された技術が用い られている。その中で、チャンネル間の位相差や、レベル比を符号化することによつ て少な ヽ情報量で臨場感を圧縮符号ィ匕した信号を復号ィ匕する過程が述べられて ヽ る。
[0004] 図 1は、非特許文献 1に開示された従来の信号処理装置の処理過程を示す図であ る。
[0005] まず、入力信号 Sは、元々は 2chの信号であったものをモノラル信号にダウンミック スしたものである。入力信号 Sは、デコリレーション(De— correlation)と呼ばれる処 理モジュールに入力され、出力信号 Dを得る。
[0006] デコリレーションの処理過程は、非特許文献 1の 8. 6. 4. 5. 2節 Calculate dec orrelated signal に詳しく述べられているので詳しい説明は省略する力 デコリレ ーシヨンは、大きく 2つの処理で構成されている。
[0007] 1つ目は遅延の処理である。これは入力信号を予め定められた時間分、遅延させる 処理である。その後、遅延した信号は、 All Pass Filterという 2つ目の処理にかけ られる。この処理は入力信号を無相関化するとともに、入力信号に残響成分 (reverb eration)を与える処理である。
[0008] さて、そのようにして生成された信号 Dと、入力信号 Sとは、混合 (Mixing) t 、われ る処理〖こ力けられる。この処理も、非特許文献 1の 8.6.4.6.2 Mixingに詳しく述 ベられているので詳しい説明は省略する力 2つの信号 Sと Dとに、係数 hi 1, hl2, h21, h22が掛けられ、それぞれ合算され、出力の Lch信号、 Rch信号を得る。その 式は図内に示した通りである。
[0009] ここで、係数 hll, hl2, h21, h22は、入力のモノラル信号のもとになつた、元々の
2chの信号間のレベル比 Lや、位相差 Θによって決まる値である力 現在 MPEG規 格で策定準備中の方式では以下のような式で求められる。
[0010] Θ =arccos(r)
ここで、 rは元々の 2chの信号間の相関を表す。
[0011] δ =arctan((l-L)/(l+L) *tan( Θ /2))
としたとき、
hll=LZ(l+L*L)°5*cos(S + θ/2)、
h21=LZ(l+L*L)°5*sin(S + θ/2),
hl2=lZ(l+L*L)°5*cos(S— θ/2),
h22=lZ(l+L*L)°5*sin(S - ΘΖ2)となる。
[0012] 上記の式は、非特許文献 1に記載された Mixing係数の求め方を発展させた方法 であり、現在 MPEG規格で策定準備中の SpatialCodecでの Mixing係数の求め方 である。
[0013] このような処理をすることによって、 decorrelationにおける遅延の処理と残響成分 の付加との効果で、モノラル化された信号力も 2chの信号を生成する際に、空間的な 広がり間が与えられ、良好なステレオ信号が得られる。
非特許文献 l:ISOZlEC 14496-3:2001/FDAM 2: 2004(E) 発明の開示
発明が解決しょうとする課題
[0014] しかしながら、上記のような方法には、以下のような課題がある。
[0015] すなわち、入力の信号が非常に時間変動の激しいものであった場合 (例えば、金 属系の打楽器のアタックの瞬間などの場合)、 decorrelationの処理内の、遅延と残 響成分の付加との効果で、 decorrelation後の信号はそのシャープさを失ってしまう 。さらにその decorrelation後の信号が、後段の Mixingの処理によって、入力の信 号 Sと合算されるので、結果として、出力信号は、入力信号のシャープさを失ってしま うこととなる。
[0016] また同様に、入力の信号の周波数成分が特定の周波数帯域に偏って存在する場 合 (例えば 1種類の楽器の音色が連続的に続いているような場合)、本来、非常にし つ力りとした定位の音像が結ばれるべきである力 decorrelationの処理内の、遅延 と残響成分の付加との効果で、 decorrelation後の信号はそのしつ力りとした定位の 音像がぼやけてしまう。さらにその decorrelation後の信号力 後段の Mixingの処 理によって、入力の信号 Sと合算されるので、結果として、出力信号の音像がぼやけ てしまうこととなる。
[0017] また、 decorrelationの処理は、残響成分を付加するためにタップ数の長 、フィル タで構成されるので演算量が非常に大きい。
[0018] また、レベル比や、位相差の情報力 係数 hi 1, hl2, h21, h22を求める処理は、 上記したように、 arccos O , arctan O , tan () , sin () , cos ()と ヽぅ複数の三角関数 を複雑に関係付けた処理であるので、これも非常に大きな演算量を要する。
[0019] 本発明は、このような従来の問題点に鑑みてなされたものであって、モノラル化され た信号力も 2chの信号を生成する際に、空間的な広がり感が与えられ、良好なステレ ォ信号が得られると同時に、音の時間的変動のシャープさや、音像のしっかりとした 定位も実現できる信号処理装置を提供することを第 1の目的とする。
[0020] また、本発明は、 decorrelationの処理の演算量を削減することを第 2の目的とする
[0021] また、本発明は、係数 hl l, hl2, h21, h22を求める処理の演算量を削減すること を第 3の目的とする。
課題を解決するための手段
[0022] 上記第 1の目的を達成するために、本発明に係る信号処理装置においては、 2つ の信号をダウンミックスして得られた第 1の信号から、第 2の信号を生成する生成手段 と、前記 2つの信号間のレベル比を表す値 Lと、位相差を表す値 Θとに基づいて、前 記第 1の信号と前記第 2の信号とを混合するための混合の度合を決定する混合係数 決定手段と、前記混合係数決定手段で決定された混合の度合に基づいて、前記第 1の信号と前記第 2の信号とを混合する混合手段とを備え、前記生成手段は、前記第 1の信号における低い周波数帯域の信号力 前記第 2の信号における低い周波数 帯域の信号を生成する第 1のフィルタ手段と、前記第 1の信号における高い周波数 帯域の信号力 前記第 2の信号における高い周波数帯域の信号を生成する第 2のフ ィルタ手段とを有し、前記第 1のフィルタ手段は、複素数の信号に対して、遅延手段と オールパスフィルタとによって入力の信号を無相関化すると共に、残響成分を付加す るフィルタ手段であり、前記第 2のフィルタ手段は、前記第 1のフィルタ手段と異なるフ ィルタ手段であることを特徴とする。
[0023] これにより、第 2のフィルタ手段が必要とする処理量を第 1のフィルタ処理手段が必 要とする処理量よりも少なぐかつ第 2のフィルタ手段によって得られる広がり感を第 1 のフィルタ処理手段によって得られる広がり感よりも少なくすることが可能となる。した がって、モノラル化された信号力も 2chの信号を生成する際に、音の時間的変動のシ ヤープさや、音像のしっかりとした定位も実現可能となり、低い帯域における空間的な 広がり感が与えられ、良好なステレオ信号が得られることとなる。
[0024] また、上記第 2の目的を達成するために、本発明に係る信号処理装置においては、 前記第 2のフィルタ手段は、実数の信号に対するオールパスフィルタであることを特 徴とすることができる。
[0025] これにより、モノラルィ匕された信号から 2chの信号を生成する際に、空間的な広がり 間が与えられ、良好なステレオ信号が得られると同時に、高域の信号処理を簡素化 できるので、音の時間的変動のシャープさや、音像のしっかりとした定位も実現可能 となり、し力も演算量も削減することできる。 [0026] また、上記第 2の目的を達成するために、本発明に係る信号処理装置においては、 前記第 2のフィルタ手段は、位相を 90度あるいは— 90度回転させる直交回転フィル タであることを特徴とすることができる。
[0027] これにより、モノラルィ匕された信号から 2chの信号を生成する際に、空間的な広がり 間が与えられ、良好なステレオ信号が得られると同時に、音の時間的変動のシヤー プさや、音像のしっかりとした定位も実現できることとなり、し力も演算量も削減するこ とでさる。
[0028] また、上記第 3の目的を達成するために、本発明に係る信号処理装置においては、 前記混合係数決定手段は、 4つの混合係数の値 hi 1, hl2, h21, h22を求めるもの であり、隣り合う 2辺の成す角度が前記 Θで、長さの比が前記 Lであるところの平行四 辺形の前記 Θが当該平行四辺形の対角線によって分割されて得られる角度を A、 B とし、前記レベル比 Lに応じて決まる値を dl、 d2としたとき、前記混合係数決定手段 は、前記 hi 1の値を dl* cos (A)として求め、前記 hi 2の値を d2* cos (B)として求 め、前記 h21の値を dl*sin(A)、または、 d2*sin(B)として求め、前記 h22の値を —h21として求めることを特徴とすることもできる。
[0029] これにより、 4つの混合係数を求める際、実質的に 3つの混合係数を求めるだけで 済むこととなる。
[0030] また、上記第 3の目的を達成するために、本発明に係る信号処理装置においては、 前記 Θを表す量子化値を q Θ、前記 Lを表す量子化値を qLとしたとき、前記混合係 数決定手段は、前記量子化値 q Θと前記量子化値 qLとを受け取り、受け取った q Θと をそれぞれ、 cos Θを表す値 rと、: Lとに変換し、前記、 hll, hl2, h21, h22を hi l = dl* (L+r)/((l+L2 + 2*L*r)°5)、hl2 = d2* (l+L*r)/((l+L2+2 * L * r) °-5)、 h21 =dl * (1-r2) ° V ((l+L2+2*L*r) 0·5)、 h22=— h21として 求めることを特徴としてもよ!、。
[0031] これにより、混合係数を求める際、三角関数の処理が不要となる。
[0032] また、上記第 3の目的を達成するために、本発明に係る信号処理装置においては、 前記 Θを表す量子化値を q Θ、前記 Lを表す量子化値を qLとしたとき、前記混合係 数決定手段は、前記 q Θと前記 qLとをアドレスとするテーブルを有し、当該テーブル を用いて前記 hl l, hl2, h21を求め、前記 h22は、 h22=— h21として求めることを 特徴とすることちでさる。
[0033] これにより、 4つの混合係数を求める際、テーブル引きで求めることができ、しかも、 3つのテーブルだけで済むこととなる。
[0034] また、上記第 3の目的を達成するために、本発明に係る信号処理装置においては、 前記混合係数決定手段は、 4つの混合係数の値 hl l, hl2, h21, h22を求めるもの であり、前記第 1の信号を複素数で表現したときの実数部 ¾:1、虚数部を ilとし、前 記第 2の信号を複素数で表現したときの実数部を r2、虚数部を i2、としたとき、前記 混合手段は、 hl l *rl +h21 *r2を 1つ目の出力信号の実数部とし、 hl l * il +h2 l * i2を 1つ目の出力信号の虚数部とし、 hl2 *rl +h22 *r2を 2つ目の出力信号 の実数部とし、 hl2 * il +h22 * i2を 2つ目の出力信号の虚数部とすることを特徴と することちでさる。
[0035] これにより、混合手段によって複素数の信号に対する処理が行えることとなる。
[0036] また、上記第 3の目的を達成するために、本発明に係る信号処理装置においては、 前記混合係数決定手段は、 4つの混合係数の値 hl l, hl2, h21, h22を求めるもの であり、前記第 1の信号を実数で表現した値を rl、前記第 2の信号を実数で表現した 値を r2としたとき、前記混合手段は、 hl l *rl +h21 *r2を 1つ目の出力信号とし、 hl2 *rl +h22 * r2を 2つ目の出力信号とすることを特徴とすることもできる。
[0037] これにより、混合手段によって実数の信号に対する処理が行えることとなる。
[0038] なお、本発明は、このような信号処理装置として実現することができるだけでなぐこ のような信号処理装置が備える特徴的な手段をステップとする信号処理方法として実 現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりす ることもできる。そして、そのようなプログラムは、 CD—ROM等の記録媒体やインタ 一ネット等の伝送媒体を介して配信することができるのはいうまでもない。さらに、この ような信号処理装置が備える特徴的な手段を一体ィ匕した LSIとして実現してもよい。 発明の効果
[0039] 以上の説明から明らかなように、本発明に係る信号処理装置によれば、モノラルィ匕 された信号力も 2chの信号を生成する際に、音の時間的変動のシャープさや、音像 のしつ力りとした定位も実現可能となり、低い帯域における空間的な広がり感が与えら れ、良好なステレオ信号が得られることになる。
[0040] 勿論、モノラル化された信号から 2chの信号を生成する本発明の処理を複数段接 続すること〖こよって、モノラルィ匕された信号力もマルチチャネルの信号 (例えば 5. lc h)を良好に生成できることになる。同様に、 2chィ匕された信号力もマルチチャネルの 信号 (例えば 5. lch)を良好に生成できることになる。
[0041] よって、本発明により、携帯電話機や携帯情報端末への音楽コンテンツの配信や、 視聴が普及してきた今日における本願発明の実用的価値は極めて高い。
図面の簡単な説明
[0042] [図 1]図 1は、従来の技術の基本構成を示す図である。
[図 2]図 2は、本実施の形態 1における信号処理装置の構成を示す図である。
[図 3]図 3は、信号処理装置 1が対象とする Spatial Codecについて説明するための 図である。
[図 4]図 4は、レベル比情報と位相差情報を平行四辺形を用いて説明する図である。
[図 5]図 5は、図 2に示されるテーブル 41の構成例を示す図である。
[図 6]図 6は、生成部の他の構成例を示すブロック図である。
[図 7]図 7は、音響的特徴量を示す符号ィ匕データを受信する構成の実施の形態にお ける信号処理装置の他の構成を示す図である。
[図 8]図 8は、本実施の形態 2における信号処理装置の構成を示す図である。
符号の説明
[0043] 1, 2, 3 信号処理装置
10 復号化部
20 特徴量検出部
21 特徴量受信部
30, 31, 32 生成部
40 混合係数決定部
41, 42, 43 テーブル
50 混合部 301 遅延部
302 第 1のフィルタ
303 第 2のフイノレタ
304 合成部
305 第 2の遅延部
306 第 3のフイノレタ
307 加工部
発明を実施するための最良の形態
[0044] 以下、本発明の実施の形態 1における信号処理装置について、図面を参照しなが ら説明する。
[0045] (実施の形態 1)
図 2は、本実施の形態 1における信号処理装置の構成を示す機能ブロック図である 。なお、同図には復号ィ匕部 10も併せて図示されている。
[0046] 信号処理装置 1は、 2つのオーディオ信号をダウンミックスした信号を符号ィ匕した第 1の符号化信号と、 2つのオーディオ信号間のレベル比 Lに応じて決まる値を符号ィ匕 したレベル比情報である第 2の符号ィ匕信号と、 2つのオーディオ信号間の位相差 Θ に応じて決まる値を符号ィ匕した位相差情報である第 3の符号ィ匕信号とからなるビット ストリームをデコードする装置であり、図 2に示されるように、特徴量検出部 20と、生成 部 30と、混合係数決定部 40と、混合部 50とを備える。
[0047] 生成部 30は、遅延部 301と、第 1のフィルタ 302と、第 2のフィルタ 303と、合成部 3 04とを有する。混合係数決定部 40は、レベル比情報と位相差情報とから混合係数 h 11, hl2, h21をそれぞれ求めるための 3つのテーブル 41, 42, 43を有する。
[0048] 復号ィ匕部 10は、第 1の符号化信号を復号化し第 1の信号を生成する。生成部 30は 、第 1の信号力 第 2の信号を生成する。混合係数決定部 40は、第 2の符号化信号 と第 3の符号化信号とから混合係数を決定する。混合部 50は、混合係数決定部 40 で決定された混合の度合に基づいて、第 1の信号と第 2の信号とを混合する。遅延部 301は、第 1の信号を N (N>0)単位時間遅延させる。第 1のフィルタ 302は、遅延部 301の出力信号をカ卩ェする。第 2のフィルタ 303は、遅延部 301の出力信号を加工 する。特徴量検出部 20は、第 1の信号の音響的特徴量を検出する。合成部 304は、 音響的特徴量に応じて、第 1のフィルタ 302の出力信号と第 2のフィルタ 303の出力 信号とから第 2の信号を合成する。
[0049] 以上のように構成された信号処理装置の動作について以下説明する力 その前に 、本願の信号処理装置 1が対象とする Spatial Codecについて、 L, Rの 2chを例と して説明する。
[0050] エンコードプロセスにおいては、図 3 (a)〖こ示されるように、スペーシャルオーディォ エンコーダは、複素演算により、 L, Rの 2chの音楽信号から、ダウンミックス信号 S、レ ベル比 cおよび位相差 Θを求める。ダウンミックス信号 Sは、 MPEG方式 AAC規格に よる符号化装置でさらに符号化される。また、レベル比 cは第 2の符号ィ匕信号として符 号化される。位相差 Θは例えば r(r=COS ( 0 ) )に変換され、この rが第 3の符号化信 号として符号化される。
[0051] デコードプロセスにおいては、生成部 30は、図 3 (b)に示されるようにダウンミックス 信号 Sに対して直交し、かつ残響感を伴う信号であるデコリレート信号 Dを、従来より も少な!、演算量で生成する。
[0052] 混合部 50は、混合係数決定部 40により決定された混合係数に基づ ヽて、ダウンミ ックス信号 Sとデコリレート信号 Dとを混ぜ合わせ、 L, Rの 2chを従来よりも少ない演 算量で生成する。
[0053] より詳しくは、まず、復号化部 10は、第 1の符号化信号を復号化し、第 1の信号を生 成する。ここで第 1の符号ィ匕信号は、 2つのオーディオ信号をダウンミックスしたモノラ ル信号を符号ィ匕したものであり、例えば、 MPEG方式 AAC規格のエンコーダで符号 化されたものである。ここでは、このような AAC規格の符号化信号を復号化して得ら れた PCM信号を複数の周波数帯域力もなる周波数信号に変換するところまで、当 該復号化部 10で行うものとする。以下の説明では、そのような複数の周波数帯域の 信号のうちある特定の 1つの帯域の信号に対する処理を説明する。
[0054] 生成部 30は、第 1の信号から第 2の信号を生成するが、それは以下のようにして行 う。すなわち、生成部 30の遅延部 301は、まず、第 1の信号を N (N>0)単位時間遅 延させる。次に、第 1のフィルタ 302は、遅延部 301の出力信号にフィルタ処理を施 す。例えばこの処理として、次数が P次の All Pass Filterを実施する。 All Pass Filterは、入力の信号を無相関化すると共に残響成分を付加する効果を有する。 All
Pass Filterの処理は、従来から知られているどのような方法でもよいが、例えば、 前述の非特許文献 1の 8. 6. 4. 5. 2節の中で述べられている All Pass Filterでよ い。
[0055] 一方、第 2のフィルタ 303は、遅延部 301の出力信号に対し、次数が P次より少ない All Pass Filterの処理を実施する。
[0056] また、第 2のフィルタ 303は、遅延部 301や、 All Pass Filterに代えて、位相を 90 度回転させる処理を行うようにしてもよい。位相を 90度回転させる処理は、 All Pass Filterの処理によって生じる残響の成分を一切伴わず、入力の信号を無相関化で きるので、残響成分を排除したい場合、極めて有用に作用するものである。
[0057] このようにして生成された第 1のフィルタ 302からの出力信号と第 2のフィルタ 303か らの出力信号とは、合成部 304によって処理され、第 2の信号が生成される。この過 程は以下のようなものである。すなわち、特徴量検出部 20は、第 1の信号の音響的 特徴量を検出し、その特徴量に応じて、第 1のフィルタ 302からの出力信号と、第 2の フィルタ 303からの出力信号とを混ぜ合わせる比率を決定する。
[0058] 例えば、音響的特徴量は、第 1の信号が急峻に変動している場合大となる特徴量 であり、合成部 304は、音響的特徴量が小である場合は、第 1のフィルタ 302の出力 信号だけを出力する、あるいは、第 1のフィルタ 302の出力信号を多めに、第 2のフィ ルタ 303の出力信号を少なめに混ぜ合わせて出力してもよい。反対に、音響的特徴 量が大である場合は、第 2のフィルタ 303の出力信号だけを出力する、あるいは、第 1 のフィルタ 302の出力信号を少なめに、第 2のフィルタ 303の出力信号を多めに混ぜ 合わせて出力してもよい。
[0059] ここで、音響的特徴量は、第 1の信号が特定の周波数帯域に強いエネルギーが集 中している場合大となる特徴量であってもよい。あるいは、そのような特徴量の組み合 わせであってもよい。
[0060] ここで重要なことは、音響的特徴量が、音の時間的変動のシャープさや、音像のし つ力りとした定位感を表す特徴量であるということである。なぜならば、第 1のフィルタ 302は、次数が P次の All Pass Filterであり、音に残響感を与えるフィルタである ので、そのような残響感が不要である場合、すなわち音の時間的変動のシャープさ や、音像のしつ力りとした定位感が必要な場合は、 All Pass Filterの次数を少なく することで残響感を減らす必要があるからである。
[0061] さて、このようにして、生成部 30で生成された第 2の信号と第 1の信号とは、混合部 50で混合されるが、その動作を以下説明する。
[0062] まず、混合係数決定部 40で、第 2の符号化信号と第 3の符号化信号とから混合係 数を決定する。第 2の符号ィ匕信号は、元々の 2つのオーディオ信号間のレベル比 L に応じて決まる値を符号ィ匕したものであり、第 3の符号化信号は元々の 2つのオーデ ィォ信号間の位相差 Θに応じて決まる値を符号ィ匕したものである。このようなレベル 比情報と位相差情報とから混合係数 hi 1, hl2, h21, h22を求める方法は、以下の ように行う。
[0063] すなわち、隣り合う 2辺の成す角度が Θで、長さの比が Lであるところの平行四辺形 の Θが当該平行四辺形の対角線によって分割されて得られる角度を A、 Bとし、レべ ノレ itLに応じて決まる値を dl、 d2としたとき、 hll = dl水 cos(A)、 h21 = dl水 sin( A)、 hl2 = d2*cos(— B)、 h22 = d2*sin(— B)、とする。上記にお!/、て、 dl、 d2 の値を、 dl=LZ((l + 2*L*cos( 0 )+L*L)'0.5)、 d2= lZ ( (1 + 2 *L * c os ( Θ ) +L * L) "0.5)とする。このようにすることによって、ダウンミックスされモノラ ル化された信号を、元々の 2つの信号の位相差とレベル比とに応じて、数学的に正 確にもとの 2つの信号に分離できるのである。その理由を図 4に示した。隣り合う 2辺 の成す角度が Θで、長さの比が Lであるところの平行四辺形 XYZWにおいて、その 対角線によって分割されて得られる角度 YXZを A、角度 WXZを Bとした。対角線の 長さ XZは、数学的に((1 + 2 *L* cos ( 0 ) +L*L) "0.5として求められる。この性 質に基づ \ /、て、上記 dlと d2とを、 dl=L/((l + 2*L*cos( Θ )+L*L)"0.5)、 d2=lZ((l + 2*L*cos( 0 )+L*L)'0.5)とする。
[0064] 上記において、 dl、 d2の値を、
dl=L/((l + 2*L*cos( Θ )+L*L)"0.5)、
d2=lZ((l + 2*L*cos( θ ) +L*L) "0.5)としたが、 dl=L/((l+L*L)"0. 5)、
d2=l/((l+L*L)"0. 5)とする場合もある。
[0065] それは、元々の 2つの信号をダウンミックスする際、位相差 Θに応じて、ダウンミック ス信号の大きさを補正して 、る場合である。
[0066] 例えば、元々の 2つの信号の位相差 Θが 90度の場合、ダウンミックス信号の大きさ を補正しないが、元々の 2つの信号の位相差 Θが 90度より小さい場合、ダウンミック ス信号の大きさが小さくなるように補正するというものである。
[0067] これは、入力信号の大きさの絶対値が同じであっても、入力信号の位相差が 90度 より小さい場合は、入力信号の位相差が 90度の場合よりダウンミックス信号の大きさ は相対的に大きくなるからである。
[0068] 逆に、元々の 2つの信号の位相差 Θが 90度より大きい場合は、ダウンミックス信号 の大きさが大きくなるように補正する。これは、入力信号の大きさの絶対値が同じであ つても、入力信号の位相差が 90度より大きい場合は、入力信号の位相差が 90度の 場合よりダウンミックス信号の大きさは相対的に小さくなるからである。
[0069] つまり cos ( Θ )の値に応じて、ダウンミックス信号の大きさが補正されて 、る場合は、 上記 dl, d2の値を、
dl=L/((l + 2*L*cos( Θ )+L*L)"0. 5)、
d2=lZ((l + 2*L*cos( θ ) +L*L) "0. 5)としないで、
dl=L/((l+L*L)"0. 5)、
d2=l/((l+L*L)"0. 5)とする。
[0070] 一方、 cos (A)、 sin (A)、 cos (B)、 sin (B)は、平行四辺形の数学的性質によって cos (A) = (L + cos Θ )/((l+L2 + 2Lcos θ )0·5)
sin (A) = sin0 Z((l+L2 + 2*L*cos0)05)
cos(B) = (1 +L cos 0)/((l+L2 + 2Lcos0)°-5)
sin(B) = (L*sin0)Z((l+L2+2*L*cos0)。5)として求められる。
[0071] さてここで、本実施の形態では、第 3の符号化信号を、元々の 2つのオーディオ信 号間の位相差 Θに応じて決まる値を符号ィ匕した信号としているが、第 3の符号化信 号は、元々の 2つのオーディオ信号間の相関 rを示す信号である場合が多い。
[0072] 例えば、非特許文献 1におけるものでもそうであるし、現在 MPEG規格化中の Spat ialCodecでもそうである。相関 rは、すなわち cos ( 0 )とみなすことができる。
[0073] なぜならば、 2つの信号の相関 rが例えば 1である場合、すなわちそれは、位相差 Θ 力 SOである場合であり、 cos( Θ )は 1となり、相関 rが cos( 0 )を表している。また、 2つ の信号の相関 rが例えば 0である場合、すなわちそれは、位相差 Θが 90度である場 合であり、 cos( 0 )は 0となり、相関 rが cos( 0 )を表している。さらにまた、 2つの信号 の相関 rが例えば 1である場合、すなわちそれは、位相差 Θ力 度である場合で あり、 cos( 0 )は 1となり、ネ目関 r力 cos( 0 )を表して! /、る。
[0074] このように考えれば、相関 rが cos ( Θ )とみなせることが理解される。従って、上記式 より、
cos (A) = (L+r) / ( (1 +L2+ 2 * L * r) 0·5)
cos(B) = (l+L*r)Z((l+L2 + 2*L*r)05)
sin ( A) = ( 1— r2) °V ( ( 1 + L2 + 2 * L * r) 0·5)
sin(B) = (L* (1-r2) °5)/((l+L2 + 2*L*r)°5)として算出できる。これによ つて、上記全ての式の右辺に三角関数が存在せず、極めて計算が容易になる。
[0075] 求める hll, h21, hl2, h22は、
hll = dl*cos(A)、
h21 = dl*sin(A)
hl2 = d2*cos(— B)
1122
Figure imgf000015_0001
— 8)でぁり、上記で示した dl, d2の関係より明ら力なように、 h22 =— h21となるので、 h22の値は、 h21の値の符号反転のみで求められることになる
[0076] また、上記 dl, d2, cos (A), sin (A), cos(B), sin (B)は全て、 Lと rによって求め られるので、 hll, h21, hl2, h22も、 Lと rによって求められることとなり、従って、 と rとをインデックスとするテーブルに、予め計算された dl* cos (A), dl*sin(A), d2 *cos(— B), d2*sin(— B)の値を格納しておくことによって、 hll, h21, hl2, h2 2を求めることができる。 [0077] 本実施の形態では、 Lと!:はそれぞれ、第 2の符号化信号、第 3の符号ィ匕信号として 符号化、あるいは量子化されたものであるので、その符号ィ匕値あるいは量子化値そ のものをインデックスとしてテーブルを引けばょ 、ことは 、うまでもな!/、。
[0078] 勿論そのとき、 h22に関するテーブルが不要であることはいうまでもない。 h22= - h21という関係力 簡単に求められるからである。図 2 (あるいは実施の形態 2におけ る図 8)において混合係数決定部 40がテーブルを 3つだけ備えているのはこのため である。
[0079] 例えば、図 5に示されるように、 q Θ、 qLをアドレスとして混合係数 hi 1 (hi 2, h21) を求めるテーブル 41 (42, 43)を構成してもよい。
[0080] 上記では、 h22を求める計算や、テーブルが不要とした力 h22を、計算や、テー ブルを用いて求めて、 h21に関する計算やテーブルを不要としてもよ 、ことは 、うま でもない。
[0081] さて、このよう【こして、生成された混合係数 hl l, h21, hl2, h22を用!ヽて、第 1の 信号と第 2の信号とが、混合部 50で混合される。その方法は以下の通りである。
[0082] すなわち、第 1の信号を複素数で表現したときの実数部 1、虚数部を il、第 2の 信号を複素数で表現したときの実数部を r2、虚数部を i2としたとき、 hl l *rl +h21 *r2を 1つ目の出力信号の実数部とし、 hl l * il +h21 * i2を 1つ目の出力信号の 虚数部とし、 hl2 *rl +h22 *r2を 2つ目の出力信号の実数部とし、 hl2 * il +h2 2 * i2を 2つ目の出力信号の虚数部とする。
[0083] 第 2の信号はデコリレーション後の信号である力 decorrelationの処理は演算量 が大き 、ので、複素数での処理でなく実数の処理で行うことで演算量を少なくしても よい。その場合、 hl l *rl +h21 *r2を 1つ目の出力信号とし、 hl2 *rl +h22 *r 2を 2つ目の出力信号とすればょ 、。
[0084] 以上のように本実施の形態によれば、第 1の信号と、第 1の信号から生成した第 2の 信号とを、 2通りの混合の度合 (hl lと h21の組み合わせで混合する場合と、 hl2と h 22の組み合わせで混合する場合の 2通り)で混合することで 2つの信号を生成する信 号処理装置において、第 1の信号から第 2の信号を生成する生成手段と、混合の度 合を決定する混合係数決定手段と、混合係数決定手段で決定された混合の度合に 基づいて、第 1の信号と第 2の信号とを混合する混合手段とを有し、生成手段は、第 1の信号を N(N>0)単位時間遅延させる遅延手段と、遅延手段の出力信号を加工 する複素数の All Pass Filterと、複素数の All Pass Filterでない第 2のフィルタ 手段とを備え、第 2のフィルタ手段を、遅延手段と複素数 All Pass Filterとのよつて 生成される信号より音の広がり感ゃ残響感の少ない信号を生成するようにし、第 1の 信号が急峻に変動しているような信号であったり、特定の周波数帯域に強いエネル ギ一が集中している信号であったりした場合、第 2の信号に加工手段の出力信号を 多めに混ぜ合わせることによって、モノラル化された信号から 2chの信号を生成する 際に、空間的な広がり間が与えられ、良好なステレオ信号が得られると同時に、音の 時間的変動のシャープさや、音像のしっかりとした定位も実現できることとなる。
[0085] また、第 2のフィルタ手段を、入力の位相を 90度あるいは、― 90度回転させる処理 とすることで、残響成分を非常に小さくでき、しかも入力と無相関な信号を非常に少な V、演算量で作ることができる。
[0086] また、第 2のフィルタ手段を、実数に対する All Pass Filterとすることによって、残 響感を必要とする音源に対して残響感を与えることができるとともに、演算量を削減 でさることとなる。
[0087] また、混合係数 hi 1, h21, hl2, h22を
hll = dl* (L+r)/((l+L2 + 2*L*r)05)
hl2 = d2* (l+L*r)/((l+L2 + 2*L*r)05)
h21 = dl* (1— r2)。5/((l+L2 + 2*L*r)05)
h22=—h21として求めることによって、複雑な三角関数の処理を一切用いなくて 済むので、演算量やメモリを非常に少なくすることができる。
[0088] また、 hll, hl2, h21, h22は、全て、位相差情報、レベル比情報のみから求めら れ、し力も、それらは量子化された符号ィ匕信号で与えられるので、その量子化値 (整 数値)そのものをインデックスとしたテーブルに予め計算された hll, hl2, h21, h2 2の値を格納しておけば、容易にそれらの値を求めることができる。勿論、 h22は、 h21として求めればよいので、 h22のためのテーブルは不要とできることはいうまでも ない。 [0089] なお、音の時間的変動のシャープさや、音像のしつ力りとした定位感が必要な場合 は、 All Pass Filterの次数を少なくすることで残響感を減らす観点からいえば、生 成部 30に代えて、図 6に示される生成部 31の構成であってもよい。ここで生成部 31 の構成部分のうち、生成部 30の構成と対応する部分に同じ番号を付し、その詳細な 説明を省略する。
[0090] この生成部 31は、遅延部 301と、第 1のフィルタ 302と、合成部 304との他、遅延部 305と、第 3のフィルタ 306を備えて構成される。
[0091] ここで、図 2に示される生成部 30においては、復号ィ匕部 10から出力された第 1の信 号 Sを遅延部 301および第 2のフィルタ 303でカ卩ェするようにしていた。これに対して 図 6の生成部 31では、復号ィ匕部 10から出力された第 1の信号 Sを遅延部 305と第 3 のフィルタ 306とでカ卩ェするようにして!/、る。
[0092] 第 2の遅延部 305は、第 1の信号を n (N>n≥0)単位時間遅延させる。第 3のフィ ルタ 306は、入力信号の位相を 90度ある 、は― 90度回転させる。
[0093] 遅延部 301や第 1のフィルタ 302は、音の空間的広がり感ゃ残響感を与える効果が あるが、それらが不要な場合、すなわち、音の時間的変動のシャープさや、音像のし つ力りとした定位感が必要である場合、遅延の量を少なくしたり、残響の量を少なくし たりすることが必要である。
[0094] そのような場合は、遅延量が遅延部 301より小さい第 2の遅延部 305を用い、さらに 、残響感が少ない第 3のフィルタを用いる。第 2の遅延部 305の遅延量は 0でもよい。 すなわち第 2の遅延部 305はなくてもよい。第 3のフィルタ 306は入力信号の位相を 9 0度あるいは- 90度回転させるものである力 これは非常に少ない演算量で、入力信 号と無相関でしかも遅延を伴わない信号が生成できるので、入力信号と無相関でし 力もシャープな信号を生成する手段として利便性が高い。
[0095] ここで、生成される信号が入力信号 (第 1の信号)と無相関であることは非常に重要 である。なぜならば、もし相関の高い信号であれば、後段の混合部 50による処理によ つて第 1の信号と混合される際に、単にモノラル的な音 (ステレオ感のない音)になつ てしまうからである。
[0096] このようにして得られたフィルタ 302からの出力信号と、第 3のフィルタ 306とは、合 成部 304において、音響的特徴量に応じて合成されるがその方法は前述と同じでよ い。
[0097] このようにすることで、残響感ゃ音の広がり感が不要な場合は、シャープで定位がし つかりとした音を生成することができる。
[0098] なお、本実施の形態では、音響的特徴量は、特徴量検出部 20によって検出される ものとしたが、必ずしもその必要はなぐ音響的特徴量を予め符号ィ匕したデータを受 信するようにしてちょい。
[0099] その場合の構成図は、図 7のようになる。図 2と図 7との違いは、特徴量検出部 20の 代わりに、特徴量受信部 21を備えていることだけである。特徴量受信部 21は、第 4の 符号化信号として、入力信号の音響的特徴量を符号化したデータを受信する。例え ば、第 4の符号ィ匕信号は、特定の周波数帯域に強いエネルギーが集中している場合 真となり、そうでない場合に偽となる符号ィ匕信号である。生成部 30は、第 4の符号ィ匕 信号が真である場合は、残響成分の少な ヽ信号 (すなわち遅延量の少な 、ある 、は 遅延のな 、信号に対しフィルタタップ長の短 ヽフィルタで処理された信号か、位相を 90度回転させた信号)を生成し、そうでない場合は、残響成分の多い信号 (すなわち 遅延量の多 、信号に対しフィルタタップ長の長 、フィルタで処理した信号)を生成す る。そうすることによって、符号ィ匕装置側で意図した通りの処理が実施できるので、高 音質な信号を生成できることとなる。この場合、合成部 304は、単にセレクタだけの機 能で済むことは 、うまでもな 、。
[0100] (実施の形態 2)
以下本発明の実施の形態 2における信号処理装置 3について図面を参照しながら 説明する。
[0101] ここで、本実施の形態 2が、実施の形態 1と大きく異なる点は、実施の形態 1が、逐 次入力される信号に応じて、第 2の信号の生成の方法を逐次適応していたのに対し て、本実施の形態 2では、低域の周波数帯域の信号は音の残響感ゃ広がり感に大き く寄与し、高域の周波数帯域の信号は音の残響感ゃ広がり感にそれほど大きく寄与 しないことを考慮し、演算量削減の観点で、低域と高域とで生成手段を変更するとこ ろである。 [0102] 図 8は、本発明の実施の形態 2における信号処理装置の構成を示す図である。な お、信号処理装置 1, 2の構成と対応する部分に同じ番号を付し、その詳細な説明を 省略する。
[0103] 本信号処理装置 3は、 2つのオーディオ信号をダウンミックスした信号を符号ィ匕した 第 1の符号化信号と、 2つのオーディオ信号間のレベル比 Lに応じて決まる値を符号 化した第 2の符号化信号と、 2つのオーディオ信号間の位相差 Θに応じて決まる値を 符号化した第 3の符号化信号と、からなるビットストリームをデコードする信号処理装 置であり、図 8に示されるように、第 1の信号力 第 2の信号を生成する生成部 32と、 混合係数決定部 40と、混合部 50とを備える。
[0104] ここで、第 1の信号は、複数の周波数帯域力 なる周波数信号であり、生成部 32は 、図 8に示したように、それぞれの周波数帯域の信号を独立に処理して第 2の信号を 生成するものであり、例えば、低域の周波数帯域 (例えば、 0〜2or3kHz)の信号に 対しては、遅延部 301と第 1のフィルタ 302とによって信号を処理する力 高域の周 波数帯域 (例えば、 2or3〜20kHz)の信号に対しては、フィルタ等によって構成され る加工部 307のみによって信号を処理するように構成してもよ ヽ。
[0105] また、低域の周波数帯域の信号に対する遅延量は、それより高域のものと比較して 、同じか、それよりも大きい値となるようにしてもよい。また、低域の周波数帯域の信号 に対する第 1のフィルタ 302のフィルタ次数は、それより高域 (力卩ェ部 307)のものと比 較して、同じか、それよりも大きい値になるようにしてもよい。また、所定の帯域より高 い帯域のフィルタ手段 (加工部 307)は、入力信号を 90度か、—90度回転させる処 理であってもよい。また、低域の周波数帯域の信号に対する第 1のフィルタ 302は、 遅延部 301と複素数の All Pass Filter手段とによって信号を処理し、高域の周波 数帯域の信号に対するフィルタ手段 (加工部 307)は、遅延手段と実数の All Pass Filter手段とによって信号を処理するようにしてもょ 、。
[0106] 以上のように構成された信号処理装置 3の動作につ 、て以下説明する。
[0107] まず、復号化部 10で、第 1の符号化信号を復号化し、第 1の信号を生成する。ここ で第 1の符号化信号は、 2つのオーディオ信号をダウンミックスしたモノラル信号を符 号ィ匕したものであり、例えば、 MPEG方式 AAC規格のエンコーダで符号ィ匕されたも のである。ここでは、このような AAC規格の符号化信号を復号化して得られた PCM 信号を複数の周波数帯域力 なる周波数信号に変換するところまで、当該復号化部 10で行うものとする。
[0108] 生成部 32では、第 1の信号から第 2の信号を生成するが、それは以下のようにして 行う。すなわち、第 1の信号を構成する複数の周波数帯域のうち、低域 (例えば、 0〜 2or3kHz)の周波数帯域については、予め設定された値 N単位時間だけ信号を遅 延させ、そのようにして遅延させた信号に対し、次数力 次の複素数の All Pass Fi Iterの処理を実施する。ここで、 All Pass Filterの処理は従来力も知られているど のような方法でもよいが、例えば、前述の非特許文献 1の 8. 6. 4. 5. 2節の中で述 ベられている All Pass Filterでよい。
[0109] また、上で述べた周波数帯域より高い周波数帯域 (例えば、 2or3〜20kHz)の信 号に対しては、 Nと同じかそれより小さい値 n (N≥n≥0)の時間単位分だけ信号を遅 延させ、そのようにして遅延させた信号に対し、次数が Pと同じかそれより小さい値 p ( P≥p≥0)次の All Pass Filterの加工処理を実施する。あるいは、 All Pass Filt erの処理でなぐ入力信号を 90度か- 90度回転させる加工処理であってもよい。ある いは、実数の All Pass Filterの処理であってもよい。
[0110] 要するに、低い周波数帯域の信号ほど多くの遅延と長いフィルタタップ数の複素数 フィルタとで、音の広がり感と残響感を多く与え、高い周波数帯域の信号ほど少ない 遅延と短!ヽフィルタタップ数の複素数フィルタあるいは実数フィルタと処理をする。
[0111] このようにする理由は、一般に、低域の周波数帯域の信号は音の残響感ゃ広がり 感に大きく寄与し音場の生成に大きな影響を与えるので十分な演算量を用いて処理 し、高域成分については、残響感ゃ広がり感にそれほど大きく寄与しないので、演算 量削減の観点力 処理を簡素化するという意図がある。
[0112] また、このようにするもう 1つの理由は、一般に、低域の周波数帯域の信号は音の残 響感ゃ広がり感に大きく寄与し、高域の周波数帯域の信号は音のシャープさに大き く寄与することを考慮したためである。勿論、細かい周波数帯域毎に精密に聴覚の 知覚特性を分析しその結果に基づいた場合、必ずしも上記のように、低域から高域 に 、くに従って短調に値が減少すると 、う方法に限定されるべきではな 、。ここで重 要なことは、各周波数帯域毎に独立に制御されるということである。
[0113] さて、このようにして生成された第 2の信号と、第 1の信号とは、混合係数決定部 40 で決定された混合係数を用いて、混合部 50で混合されるが、その動作は、前述の実 施の形態 1で示したものと同じでよい。
[0114] 以上のように、本実施の形態によれば、第 1の信号と、第 1の信号力 生成した第 2 の信号とを、 2通りの混合の度合 (hi 1と h21の組み合わせで混合する場合と、 hl2と h22の組み合わせで混合する場合の 2通り)で混合することで 2つの信号を生成する 信号処理装置において、第 1の信号から第 2の信号を生成する生成手段と、混合の 度合を決定する混合係数決定手段と、混合係数決定手段で決定された混合の度合 に基づいて、第 1の信号と第 2の信号とを混合する混合手段とを有し、生成手段は、 第 1の信号のうち、低い周波数帯域の信号については、比較的大きな値 N (N>0) 単位時間遅延させる遅延手段と、比較的大きな値 Pの次数を持つ複素数の All Pas s Filterとで信号を生成し、第 1の信号のうち、高い周波数帯域の信号については、 比較的小さな値 n単位時間遅延させる遅延手段と (あるいは全然遅延させな 、)、比 較的小さな値 Pの次数を持つ実数の All Pass Filterと(あるいは入力信号を 90度 あるいは- 90度回転させるだけ)で信号を生成するようにすることによって、モノラル 化された信号から 2chの信号を生成する際に、空間的な広がり間が与えられ、良好 なステレオ信号が得られると同時に、音の時間的変動のシャープさや、音像のしっか りとした定位も実現できることとなり、し力も、高域の信号処理を簡素化できるので、演 算量削減にも資することができる。
[0115] なお、実施の形態 2では、入力信号の性質にかかわらず、各周波数帯域信号の処 理の方法 (遅延量とフィルタ次数)は固定としたが、勿論このように限定する必要はな ぐ入力信号に応じて適宜切り替えてもよい。例えば、周波数帯域 T以下の周波数帯 域は遅延と All Pass Filterの処理を行い、 Tより上の周波数帯域は、遅延は 0で、 フィルタの処理は、入力信号を 90度あるいは- 90度回転させるだけの処理にするよう にしておき、上記 Τの値を、入力信号に応じて適宜切り替えてもよい。
[0116] なお、上述の実施の形態 1, 2では、混合係数 hl l, h21, hl2, h22を求める式に おいて、ダウンミックスする前の元々の 2つの信号のレベル比を Lとし、ダウンミックス する前の元々の 2つの信号の相関係数 rをもって cos( 0 )を代表させる値とし、当該 L と rとによって、混合係数 hi 1, h21, hl2, h22を
hll = dl* (L+r)/((l+L2 + 2*L*r)05)
hl2 = d2* (l+L*r)Z((l+L2 + 2*L*r)05)
h21 = dl* (1— r2)。5/((l+L2 + 2*L*r)05)
h22=-h21
として求めた力 rと Lは、必ずしも、元々の 2つの信号の間の関係を示すものでなく とも当該式は適用できる。
[0117] 例えば、近年広く研究開発が行われているバーチャルサラウンドの技術では、 2つ の信号の位相差と、レベル比を制御する(変更する)ことで、再生音場のサラウンド感 を増すことができるとされている(例えば特願 2005— 161602)。例えば、レベル比を 1.2倍し、位相差を πΖ4開力せることによって再生音場のサラウンド感を増そうとす る場合、上記 rと Lとを、下記のように変更した r'と L'とを改めて!:、 Lとして、上記の式 に適用すれば、本実施の形態における信号処理装置によって再生された再生音は サラウンド'感が増すこととなる。
[0118] すなわち、
L'=l. 2水 L
r,
Figure imgf000023_0001
— (1 r*r) "0. 5*sin(7cZ4)
で求められる L'と r'を改めて!:、 Lとする。ここで、 r'を求める式は、
cos( Θ + π/ ) =cos( θ )水 cos(7c/4) sin( θ )水 sin(7c/4)
の関係(三角関数の加法定理)から求めている力 S、位相角を回転させる方法として は、他のどのようなものであってもよい。
[0119] また、本実施の形態 1, 2では、 2つの信号をダウンミックスしたモノラル信号を 2つの 信号に分離する処理を示したが、本願発明は、必ずしも 2つの信号に関する処理に 限定されない。例えば、元々は 5. lch (前方左 (Lf)、前方右 (Rf)、後方左 (Ls)、後 方左 (Rs)、センター (C)、重低音 (LFE) )であった信号に対し、
Lfと Rfとをダウンミックスした信号を F、
Lsと Rsとをダウンミックスした信号を S、 Cと LFEとをダウンミックスした信号を CL、
Fと CLとをダウンミックスした信号を FCL、
FCLと Sとをダウンミックスした信号を M、
として求めたモノラル信号 Mを、上記過程の逆の過程を迪つて分離する際の、それ ぞれの分離過程にぉ ヽて、本実施の形態で示した処理過程を用いてもょ ヽ。
[0120] 勿論、複数のチャンネルの信号を少ないチャンネルにする上記の処理過程は、単 なる一例に過ぎず、例えば、
Lfと Lsとをダウンミックスした信号を L、
Rfと Rsとをダウンミックスした信号を R、
Cと LFEとをダウンミックスした信号を CL、
Lと Rとをダウンミックスした信号を LR、
LRと CLをダウンミックスした信号を M、
としてモノラル信号 Mを求め、その逆の過程で分離してもよ!/、ことは 、うまでもな!/、。 産業上の利用可能性
[0121] 本発明に係る信号処理装置は、複数チャンネル間の位相差やレベル比を非常に 少ないビット数で表現した符号ィ匕信号を、音響的特性を維持して復号でき、しかも少 な 、演算量で処理できるので、低ビットレートでの音楽放送サービスや音楽配信サー ビス、およびその受信機器、例えば携帯電話機や、デジタルオーディオプレーヤ等 に適用できる。

Claims

請求の範囲
[1] 2つの信号をダウンミックスして得られた第 1の信号から、第 2の信号を生成する生 成手段と、
前記 2つの信号間のレベル比を表す値 Lと、位相差を表す値 Θとに基づいて、前記 第 1の信号と前記第 2の信号とを混合するための混合の度合を決定する混合係数決 定手段と、
前記混合係数決定手段で決定された混合の度合に基づ!/ヽて、前記第 1の信号と前 記第 2の信号とを混合する混合手段とを備え、
前記生成手段は、
前記第 1の信号における低い周波数帯域の信号から前記第 2の信号における低い 周波数帯域の信号を生成する第 1のフィルタ手段と、
前記第 1の信号における高い周波数帯域の信号から前記第 2の信号における高い 周波数帯域の信号を生成する第 2のフィルタ手段とを有し、
前記第 1のフィルタ手段は、複素数の信号に対して、遅延手段とオールパスフィル タとによって入力の信号を無相関化すると共に、残響成分を付加するフィルタ手段で あり、
前記第 2のフィルタ手段は、前記第 1のフィルタ手段と異なるフィルタ手段である ことを特徴とする信号処理装置。
[2] 前記第 2のフィルタ手段は、実数の信号に対するオールパスフィルタである
ことを特徴とする請求項 1記載の信号処理装置。
[3] 前記第 2のフィルタ手段は、位相を 90度あるいは— 90度回転させる直交回転フィ ルタである
ことを特徴とする請求項 1記載の信号処理装置。
[4] 前記混合係数決定手段は、 4つの混合係数の値 hi 1, hl2, h21, h22を求めるも のであり、
隣り合う 2辺の成す角度が前記 Θで、長さの比が前記 Lであるところの平行四辺形 の前記 Θが当該平行四辺形の対角線によって分割されて得られる角度を A、 Bとし、 前記レベル比 Lに応じて決まる値を dl、 d2としたとき、 前記混合係数決定手段は、
前記 hi 1の値を dl * cos (A)として求め、
前記 hi 2の値を d2 * cos (B)として求め、
前記 h21の値を dl*sin(A)、または、 d2 * sin(B)として求め、
前記 h22の値を h21として求める
ことを特徴とする請求項 1記載の信号処理装置。
[5] 前記 Θを表す量子化値を q Θ、前記 Lを表す量子化値を qLとしたとき、
前記混合係数決定手段は、
前記量子化値 q Θと前記量子化値 qLとを受け取り、当該受け取った q Θと qLをそれ ぞれ、 cos Θを表す値 rと、 Lと〖こ変換し、
前記、 hll, hl2, h21, h22を
hll = dl* (L+r)/((l+L2 + 2*L*r)05)
hl2 = d2* (l+L*r)/((l+L2 + 2*L*r)05)
h21 = dl* (1— r2)。5/((l+L2 + 2*L*r)05)
h22=-h21
として求める
ことを特徴とする請求項 4記載の信号処理装置。
[6] 前記 Θを表す量子化値を q Θ、前記 Lを表す量子化値を qLとしたとき、
前記混合係数決定手段は、
前記 q Θと前記 qLとをアドレスとするテーブルを有し、
当該テーブルを用いて前記 hll, hi 2, h21を求め、
前記 h22は、 h22=— h21として求める
ことを特徴とする請求項 4記載の信号処理装置。
[7] 前記混合係数決定手段は、 4つの混合係数の値 hll, hl2, h21, h22を求めるも のであり、
前記第 1の信号を複素数で表現したときの実数部を rl、虚数部を ilとし、 前記第 2の信号を複素数で表現したときの実数部を r2、虚数部を i2、としたとき、 前記混合手段は、 hl l *rl +h21 *r2を 1つ目の出力信号の実数部とし、
hl l * il +h21 * i2を 1つ目の出力信号の虚数部とし、
hl2 * rl +h22 * r2を 2つ目の出力信号の実数部とし、
hl2 * il +h22 * i2を 2つ目の出力信号の虚数部とする
ことを特徴とする請求項 1記載の信号処理装置。
[8] 前記混合係数決定手段は、 4つの混合係数の値 hl l, hl2, h21, h22を求めるも のであり、
前記第 1の信号を実数で表現した値を rl、前記第 2の信号を実数で表現した値を!: 2としたとき、
前記混合手段は、
hl l *rl +h21 *r2を 1つ目の出力信号とし、
hl2 *rl +h22 *r2を 2つ目の出力信号とする
ことを特徴とする請求項 1記載の信号処理装置。
[9] 2つの信号をダウンミックスして得られた第 1の信号から、第 2の信号を生成する生 成ステップと、
前記 2つの信号間のレベル比を表す値 Lと、位相差を表す値 Θとに基づいて、前記 第 1の信号と前記第 2の信号とを混合するための混合の度合を決定する混合係数決 定ステップと、
前記混合係数決定ステップで決定された混合の度合に基づ!/ヽて、前記第 1の信号 と前記第 2の信号とを混合する混合ステップとを含み、
前記生成ステップは、
前記第 1の信号における低い周波数帯域の信号から前記第 2の信号における低い 周波数帯域の信号を生成する第 1のフィルタステップと、
前記第 1の信号における高い周波数帯域の信号から前記第 2の信号における高い 周波数帯域の信号を生成する第 2のフィルタステップとを有し、
前記第 1のフィルタステップは、複素数の信号に対して、遅延ステップとオールパス フィルタステップとによって入力の信号を無相関化すると共に、残響成分を付加する フイノレタステップであり、 前記第 2のフィルタステップは、前記第 1のフィルタステップと異なるフィルタステップ である
ことを特徴とする信号処理方法。
PCT/JP2006/313655 2005-07-15 2006-07-10 信号処理装置 WO2007010771A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP06768017A EP1906705B1 (en) 2005-07-15 2006-07-10 Signal processing device
US11/995,571 US8284961B2 (en) 2005-07-15 2006-07-10 Signal processing device
JP2007525949A JP4921365B2 (ja) 2005-07-15 2006-07-10 信号処理装置
CN2006800256399A CN101223820B (zh) 2005-07-15 2006-07-10 信号处理装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005207755 2005-07-15
JP2005-207755 2005-07-15
JP2006097023 2006-03-31
JP2006-097023 2006-03-31

Publications (1)

Publication Number Publication Date
WO2007010771A1 true WO2007010771A1 (ja) 2007-01-25

Family

ID=37668653

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/313655 WO2007010771A1 (ja) 2005-07-15 2006-07-10 信号処理装置

Country Status (5)

Country Link
US (1) US8284961B2 (ja)
EP (1) EP1906705B1 (ja)
JP (1) JP4921365B2 (ja)
CN (1) CN101223820B (ja)
WO (1) WO2007010771A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010534012A (ja) * 2007-07-19 2010-10-28 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 強化された知覚的品質を備えたステレオ信号を生成する方法及び装置
US7933415B2 (en) 2002-04-22 2011-04-26 Koninklijke Philips Electronics N.V. Signal synthesizing
US8524504B2 (en) 2007-08-31 2013-09-03 Vivacta Limited Sensor
US8655649B2 (en) 2009-04-03 2014-02-18 Ntt Docomo, Inc. Speech encoding/decoding device
CN112995856A (zh) * 2019-12-15 2021-06-18 新唐科技股份有限公司 音频处理装置与音频处理方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609684B (zh) * 2008-06-19 2012-06-06 展讯通信(上海)有限公司 解码语音信号的后处理滤波器
TWI413109B (zh) * 2008-10-01 2013-10-21 Dolby Lab Licensing Corp 用於上混系統之解相關器
CN102388417B (zh) * 2009-03-17 2015-10-21 杜比国际公司 基于自适应地可选择的左/右或中央/侧边立体声编码和参数立体声编码的组合的高级立体声编码
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
CN102157149B (zh) 2010-02-12 2012-08-08 华为技术有限公司 立体声信号下混方法、编解码装置和编解码系统
JP6061121B2 (ja) * 2011-07-01 2017-01-18 ソニー株式会社 オーディオ符号化装置、オーディオ符号化方法、およびプログラム
CN105007250B (zh) * 2014-04-18 2018-06-19 普天信息技术有限公司 一种纠正上行频率偏差的方法及装置
US10932078B2 (en) * 2015-07-29 2021-02-23 Dolby Laboratories Licensing Corporation System and method for spatial processing of soundfield signals
EP3329485B1 (en) * 2015-07-29 2020-08-26 Dolby Laboratories Licensing Corporation System and method for spatial processing of soundfield signals
CN106843051B (zh) * 2017-02-17 2019-05-03 上海星秒光电科技有限公司 一种fpga延时装置及方法
CN110740404B (zh) * 2019-09-27 2020-12-25 广州励丰文化科技股份有限公司 一种音频相关性的处理方法及音频处理装置
CN110740416B (zh) * 2019-09-27 2021-04-06 广州励丰文化科技股份有限公司 一种音频信号处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003090206A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Signal synthesizing
JP2005161602A (ja) 2003-12-01 2005-06-23 Fuji Xerox Co Ltd インクジェット記録ヘッドの駆動回路、インクジェット記録ヘッド、及びインクジェットプリンタ

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4646612A (en) * 1984-07-24 1987-03-03 Nippon Gakki Seizo Kabushiki Kaisha Musical tone signal generating apparatus employing sampling of harmonic coefficients
US6757659B1 (en) * 1998-11-16 2004-06-29 Victor Company Of Japan, Ltd. Audio signal processing apparatus
WO2006022124A1 (ja) * 2004-08-27 2006-03-02 Matsushita Electric Industrial Co., Ltd. オーディオデコーダ、方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003090206A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Signal synthesizing
JP2005161602A (ja) 2003-12-01 2005-06-23 Fuji Xerox Co Ltd インクジェット記録ヘッドの駆動回路、インクジェット記録ヘッド、及びインクジェットプリンタ

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1906705A4

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8798275B2 (en) 2002-04-22 2014-08-05 Koninklijke Philips N.V. Signal synthesizing
US7933415B2 (en) 2002-04-22 2011-04-26 Koninklijke Philips Electronics N.V. Signal synthesizing
US8064624B2 (en) 2007-07-19 2011-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for generating a stereo signal with enhanced perceptual quality
JP4944245B2 (ja) * 2007-07-19 2012-05-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 強化された知覚的品質を備えたステレオ信号を生成する方法及び装置
JP2010534012A (ja) * 2007-07-19 2010-10-28 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 強化された知覚的品質を備えたステレオ信号を生成する方法及び装置
US8524504B2 (en) 2007-08-31 2013-09-03 Vivacta Limited Sensor
US9460734B2 (en) 2009-04-03 2016-10-04 Ntt Docomo, Inc. Speech decoder with high-band generation and temporal envelope shaping
US9064500B2 (en) 2009-04-03 2015-06-23 Ntt Docomo, Inc. Speech decoding system with temporal envelop shaping and high-band generation
US8655649B2 (en) 2009-04-03 2014-02-18 Ntt Docomo, Inc. Speech encoding/decoding device
US9779744B2 (en) 2009-04-03 2017-10-03 Ntt Docomo, Inc. Speech decoder with high-band generation and temporal envelope shaping
US10366696B2 (en) 2009-04-03 2019-07-30 Ntt Docomo, Inc. Speech decoder with high-band generation and temporal envelope shaping
CN112995856A (zh) * 2019-12-15 2021-06-18 新唐科技股份有限公司 音频处理装置与音频处理方法
JP2021097406A (ja) * 2019-12-15 2021-06-24 新唐科技股▲ふん▼有限公司 オーディオ処理装置及びオーディオ処理方法
KR20210076855A (ko) * 2019-12-15 2021-06-24 누보톤 테크놀로지 코포레이션 에너지 및 위상-상관된 오디오 채널 믹서
KR102478252B1 (ko) * 2019-12-15 2022-12-15 누보톤 테크놀로지 코포레이션 에너지 및 위상-상관된 오디오 채널 믹서
JP7256164B2 (ja) 2019-12-15 2023-04-11 新唐科技股▲ふん▼有限公司 オーディオ処理装置及びオーディオ処理方法

Also Published As

Publication number Publication date
JPWO2007010771A1 (ja) 2009-01-29
EP1906705A1 (en) 2008-04-02
US20090122182A1 (en) 2009-05-14
CN101223820B (zh) 2011-05-04
US8284961B2 (en) 2012-10-09
JP4921365B2 (ja) 2012-04-25
CN101223820A (zh) 2008-07-16
EP1906705B1 (en) 2013-04-03
EP1906705A4 (en) 2011-09-28

Similar Documents

Publication Publication Date Title
WO2007010771A1 (ja) 信号処理装置
US8036904B2 (en) Audio encoder and method for scalable multi-channel audio coding, and an audio decoder and method for decoding said scalable multi-channel audio coding
US9865270B2 (en) Audio encoding and decoding
AU2005204715B2 (en) Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
EP1977417B1 (en) Method and system for decoding a multi-channel signal
TWI393119B (zh) 多通道編碼器、編碼方法、電腦程式產品及多通道解碼器
TWI413108B (zh) 音訊解碼器、接收機與傳輸系統、音訊解碼方法、用於發射及接收音訊信號之方法及相關電腦程式產品與音訊播放裝置
EP1905006B1 (en) Generation of multi-channel audio signals
CN101253556B (zh) 能量整形装置以及能量整形方法
WO2006108543A9 (en) Temporal envelope shaping of decorrelated signal
WO2006022190A9 (ja) オーディオエンコーダ
JPWO2006022124A1 (ja) オーディオデコーダ、方法及びプログラム
CN111316353A (zh) 确定空间音频参数编码和相关联的解码
JP2024023412A (ja) 音場関連のレンダリング
CN112133316A (zh) 空间音频表示和渲染
TW202103144A (zh) 用於產生輸出降混表示的設備、方法或電腦程式

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680025639.9

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006768017

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007525949

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11995571

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE