WO2006004048A1 - オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプログラム - Google Patents

オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプログラム Download PDF

Info

Publication number
WO2006004048A1
WO2006004048A1 PCT/JP2005/012221 JP2005012221W WO2006004048A1 WO 2006004048 A1 WO2006004048 A1 WO 2006004048A1 JP 2005012221 W JP2005012221 W JP 2005012221W WO 2006004048 A1 WO2006004048 A1 WO 2006004048A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
information
channel
auxiliary information
encoding
Prior art date
Application number
PCT/JP2005/012221
Other languages
English (en)
French (fr)
Inventor
Kazuhiro Iida
Mineo Tsushima
Yoshiaki Takagi
Naoya Tanaka
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US10/589,818 priority Critical patent/US20070160236A1/en
Priority to JP2006519623A priority patent/JPWO2006004048A1/ja
Publication of WO2006004048A1 publication Critical patent/WO2006004048A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Definitions

  • Audio signal encoding apparatus Audio signal decoding apparatus, method, and program
  • the present invention relates to an audio signal encoding device, decoding device, method, and program.
  • Patent Document 1 US Published Patent US2003 / 0035553 "Backwards- compatible Perceptual Coding of Spatial Cues
  • Patent Document 2 US Published Patent US2003 / 0219130 "Coherence-based Audio Coding and Synthesis"
  • the present invention solves the above-described problem, and an audio signal encoding apparatus for improving encoding efficiency when encoding a multi-channel signal, and decoding the code obtained from the apparatus. It is an object of the present invention to provide an audio signal decoding apparatus that can be used.
  • the audio signal encoding device of the present invention represents the original sound signal of each of a plurality of channels, the mixed signal information representing the overall characteristics of the original sound signal, and the feature amount based on the relationship between the individual original sound signals.
  • An audio signal encoding device for encoding auxiliary information wherein the mixed signal encoding means for generating the mixed signal information by encoding the mixed signal obtained by mixing the original sound signal, and the original sound signal Based on the above, the feature amount is calculated, and when channel information indicating the playback position of the sound of each channel is given, the relationship of the arrangement of the playback positions indicated by the given channel information
  • a different encoding method is determined according to the auxiliary information, and the auxiliary information for generating the auxiliary information is encoded by encoding the feature amount calculated using the determined encoding method.
  • the auxiliary information generation means stores in advance a plurality of tables that define quantization points at which different quantization accuracies can be obtained, and the feature value is stored in the channel of the plurality of tables.
  • the encoding may be performed by quantizing to a quantization point defined by one according to the arrangement relationship of each reproduction position indicated by the information.
  • the auxiliary information generating means may calculate at least one of a level difference and a phase difference between the original sound signals and use it as the feature amount, and further, based on the calculated level difference and phase difference. Then, the direction of the sound image estimated to be perceived by the listener may be calculated as the feature amount.
  • the auxiliary information generating means defines a first table that defines a quantization point that is provided symmetrically from the front direction of the listener, and a quantization point that is provided asymmetrically from the left direction of the listener
  • the channel information indicates the left front and left rear of the listener
  • the feature value is quantized to a quantization point defined by the second table.
  • the sign may be given by.
  • the auxiliary information generation means may calculate the similarity between the original sound signals and use it as the feature quantity. Also, the auxiliary information generation means may use the cross-correlation value between the original sound signals or the absolute value thereof as the similarity. Further, based on the calculated similarity, at least one of a feeling of spread of sound image and a feeling of distance estimated by the listener may be calculated as the feature amount.
  • the audio signal decoding device of the present invention is characterized by the mixed signal information representing the overall characteristics of the original sound signals of each of a plurality of channels and the relationship between the individual original sound signals.
  • An audio signal decoding device that decodes auxiliary information representing the amount into a reproduction signal of each of the plurality of channels, and is provided with channel information indicating a reproduction position as viewed from a listener of audio of each channel
  • a decoding method switching means for determining a different decoding method in accordance with the relationship between the arrangements of the reproduction positions indicated by the given channel information, and the auxiliary information using the determined decoding method.
  • Inter-signal information decoding means for decoding into feature quantities, the mixed signal information, and the Signal synthesizing means for generating a reproduction signal for each of the plurality of channels using the decoded feature quantity.
  • the auxiliary information is a value corresponding to the arrangement relationship of each reproduction position indicated by the channel information among a plurality of tables defining quantization points at which different quantization accuracy can be obtained.
  • the inter-signal information decoding means stores the plurality of tables in advance, and the channel information of the plurality of tables is encoded. Decode the auxiliary information into the feature amount using one corresponding to the arrangement relationship of the reproduction positions indicated by.
  • the feature amount represents at least one of a level difference, a phase difference between the original sound signals, and a direction of a sound image estimated to be perceived by the listener.
  • the feature amount represents at least one of a level difference, a phase difference, a similarity, and a direction of sound image estimated to be perceived by a listener, a sense of spread, and a sense of distance. It is good.
  • the signal synthesizing unit may generate an audio signal represented by the mixed signal information when the feature value represents at least one of a level difference, a phase difference, and a similarity between the original sound signals.
  • the reproduction signal may be generated by giving a level difference, a phase difference, and similarity according to the feature amount.
  • the present invention can be realized as a method including steps executed by characteristic means included in such an apparatus as well as being realized as such an audio signal encoding apparatus and audio signal decoding apparatus. It can also be realized as a program that causes a computer to execute these steps. And such a program It goes without saying that the ram can be distributed via a recording medium such as a CD-ROM or a transmission medium such as the Internet.
  • the audio signal encoding device and decoding device of the present invention when generating auxiliary information for separating a reproduction signal that approximates an original sound signal from a mixed signal obtained by mixing the original sound signal. It is possible to achieve signal separation to the extent that there is no sense of incongruity and to generate very small auxiliary information by using the characteristics of the direction perception of human sound sources, the sense of spread, and the sense of distance. It becomes possible.
  • FIG. 2 is a diagram illustrating an example of a positional relationship between a listener and a sound source indicated by channel information.
  • FIG. 3 is a functional block diagram showing an example of a configuration of an auxiliary information generation unit.
  • FIG. 6 is a functional block diagram showing another example of the configuration of the auxiliary information generation unit.
  • FIG. 7 is a diagram schematically illustrating an example of a table used for quantization of correlation between signals, similarity between signals, and spread feeling estimation value.
  • FIG. 10 is a functional block diagram illustrating an example of a configuration of a signal separation processing unit. Explanation of symbols
  • FIG. 1 is a block diagram showing an example of a functional configuration of the audio signal encoding device of the present invention.
  • This audio signal encoding apparatus encodes the first input signal 201 and the second input signal 202 given by an external force to obtain mixed signal information 206 and is indicated by channel information 207 given from the outside.
  • This is a device that obtains auxiliary information 205 using a different encoding method depending on the relationship of the audio reproduction position of each channel, and includes a mixed signal encoding unit 203 and an auxiliary information generation unit 204.
  • the mixed signal information 206 and the auxiliary information 205 are information decoded by the audio signal decoding device described later into signals approximating the first input signal 201 and the second input signal 202, respectively, and the channel information 207 Is information indicating which direction force of each decoded signal is reproduced as viewed from the listener.
  • FIG. 2 is a diagram illustrating an example of a positional relationship between a sound source for signal reproduction and a listener. This example shows the arrangement direction seen from the listener of each speaker that is the sound source of each channel when 5-channel playback is performed. For example, it is shown that a front L channel speaker and a front R channel speaker are arranged 30 ° to the left and right from the front of the listener. These two speakers are also used for stereo playback.
  • the channel information 207 signifies the sound to be reproduced from the front L channel speaker and the front R channel speaker, specifically, counterclockwise with the front of the listener as 0 °. It is expressed by the angle of the sound source such as + 30 ° (front L channel speaker) and 30 ° (front R channel speaker). In addition, in practical terms, the angle of the sound source of each channel is determined in advance using fine angle information such as 30 °, and the same thing can be expressed simply by the channel names such as the front L channel and front R channel. it can.
  • the channel information 207 is appropriately supplied to the audio signal encoding apparatus from an external apparatus that knows which channel's audio is encoded.
  • the first input signal 201 and the second input signal 202 are stereo originals.
  • channel information 207 indicating the front L channel and the front R channel is given.
  • the front L channel and the rear L channel are respectively used as the first input signal 201 and the second input signal 202.
  • channel information 207 indicating the front L channel and rear L channel is given.
  • the auxiliary information generating unit 204 uses the channel information 207 from the first input signal 201, the second input signal 202, the mixed signal generated by the mixed signal encoding unit 203, and the mixed signal information 206, using the channel information 207. 205 is generated.
  • the auxiliary information 205 is information for separating from the mixed signal a signal that is as close as possible to the first input signal 201 and the second input signal 202 that are original sound signals before mixing.
  • the auxiliary signal 205 can be used to separate the first input signal 201 before mixing from the mixed signal and the same signal as the second input signal 202, but to the extent that there is no difference. These signals may be separated. Even if there is a difference in hearing, the auxiliary information is included in the scope of the present invention as long as the auxiliary information is information for signal separation.
  • the auxiliary information generation unit 204 By using the channel information 207, the auxiliary information generation unit 204 generates auxiliary information with a small amount of information that can separate a signal that does not cause a sense of incongruity. For this purpose, the auxiliary information generation unit 204 switches the method of encoding the auxiliary information, specifically, the quantization accuracy of the code ⁇ according to the channel information 207.
  • FIG. 3 is a block diagram illustrating a functional configuration of the auxiliary information generation unit according to the first embodiment.
  • the auxiliary information generation unit is a unit that generates auxiliary information 205A that is encoded differently according to channel information 207 from the first input signal 201 and the second input signal 202.
  • the auxiliary information 205A is calculated by the inter-signal level difference calculation unit 303, the inter-signal phase difference calculation unit 304, and the perceived direction estimation unit 305. This is information obtained by quantizing and signing at least one of the perceived direction estimation values.
  • the first input signal 201 and the second input signal 202 are input to the inter-signal level difference calculation unit 303 and the inter-signal phase difference calculation unit 304.
  • the inter-signal level difference calculation unit 303 calculates the energy difference between the first input signal 201 and the second input signal 202.
  • the signal may be divided into a plurality of frequency bands, and each signal may be calculated, or one may be calculated for all bands. Further, the time unit to be calculated is not particularly limited.
  • the energy difference can be expressed as an exponential function value often used in audio expression, for example, dB, but not necessarily limited.
  • the inter-signal phase difference calculation unit 304 calculates the cross-correlation between the signals of the first input signal 201 and the second input signal 202, and based on the cross-correlation value, the phase difference that increases the value. Is calculated.
  • a phase difference calculation method is known to those skilled in the art.
  • the phase that gives the maximum cross-correlation value does not necessarily have to be a phase difference. This is because when the cross-correlation is calculated based on a digital signal, it is a discrete value, so the phase difference can also be obtained as a discrete value.
  • the solution is based on the cross-correlation value distribution. It may be the phase difference estimated by interpolation.
  • the inter-signal level difference obtained as an output from the inter-signal level difference calculator 303, the inter-signal phase difference obtained as an output from the inter-signal phase difference calculator 304, and the channel information 207 are: This is input to the perceptual direction estimation unit 305.
  • the perceptual direction estimation unit 305 is based on the channel information 207, the inter-signal level difference calculation unit 303, and the inter-signal level difference obtained as an output, and the inter-signal phase difference calculation unit 304 outputs the inter-signal phase difference.
  • the direction of the sound image perceived by the listener is estimated.
  • the direction perceived by the listener when presenting acoustic signals from two speakers is determined by the arrangement of the two speakers and the level difference and phase difference of the 2ch signal.
  • spatial sound I Enns browser elutriation, Masayuki Morimoto Toshiyuki Goto, ed., Kajima publishing (198b there ⁇ , spatial Hearing: The Psychophysics of Human sound Localiza tion ", revised edition, MIT Press, 1997)
  • the estimation unit 305 estimates the perceived direction of the sound image by the listener, and outputs a perceived direction estimation value representing the estimation result to the code unit 306.
  • the encoding unit 306 quantizes at least one of the inter-signal level difference, the inter-signal phase difference, and the perceived direction estimation value with different accuracy depending on the channel information 207 and the perceived direction estimation value. Further, the auxiliary information 205A obtained by performing the sign ⁇ is output.
  • the perceptual discrimination characteristics of listeners are bilaterally symmetric with respect to the front direction, the perceptual discrimination characteristics in the front direction are sensitive, and tend to be insensitive toward the front L channel direction (or front R channel direction). There is.
  • the listener's perceptual discrimination characteristics are asymmetrical in the front direction, counterclockwise to the back direction, and the perceptual discrimination characteristics in the front direction are responsive and tend to become insensitive as the back channel is applied.
  • the sign key unit 306 when the perceived direction estimation value obtained from the perceived direction estimation unit 305 indicates a direction in which the perceptual discrimination characteristic is sensitive, The phase difference and the perceived direction estimate are quantized finely, and conversely, when the perceptual discrimination characteristic shows an insensitive direction, it is quantized roughly as compared with a sensitive direction.
  • the encoding unit 306 performs symmetrical quantization in the left-right direction with respect to the perceptual direction, and indicates the front L channel and the back L channel. In this case, quantization that is asymmetric in the front-rear direction with respect to the perceptual direction is performed.
  • the sign unit 306 In order to switch the quantization accuracy as described above, for example, the sign unit 306 previously holds a plurality of tables for converting input values into quantized values, from which a channel is converted. One corresponding to the information 207 is used.
  • FIG. 4 is a diagram schematically illustrating an example of a table that is stored in advance in the code key unit 306 and is used for quantization of the perceived direction estimation value.
  • Each table shows an example of the quantization point of the perceived direction estimation value, (A) is an example for the front L channel and front R channel, and (B) is for the rear L channel and front L channel. It is an example.
  • the sign key unit 306 When the channel information 207 indicates the front L channel and the front R channel, the sign key unit 306 generates a perceptual direction estimation value based on the table in FIG. In the vicinity of the sensitive frontal direction, it is quantized with little effort, and the perceptual discrimination characteristics are quantized roughly in the left-right direction, which is relatively insensitive.
  • the perceived direction estimation value is calculated based on the table in FIG. 4B in the vicinity of the front direction where the perceptual discrimination characteristics are relatively sensitive. It quantizes with a lot of force, and it quantizes roughly as it moves toward the back direction where the perceptual discrimination characteristics are relatively insensitive.
  • FIG. 5 is a diagram schematically showing an example of a table used for quantization of the inter-signal level difference and the inter-signal phase difference.
  • Each table shows an example of the quantization point of the inter-signal level difference and inter-signal phase difference for which the predetermined normality is made, and (A) is an example of the table for the front L channel and the front R channel. Yes, (B) is an example of a table for the rear L channel and the front L channel.
  • the sign key unit 306 indicates that the perceived direction estimation value is relatively sensitive to the perceptual discrimination characteristics based on the table in FIG. In the case of showing the vicinity in the front direction, the level difference between signals and the phase difference between signals are finely quantized, and the level difference between signals and Roughly quantize the phase difference between signals.
  • the perceived direction estimation value is a relatively sensitive frontal direction neighborhood of the perceptual discrimination characteristics.
  • the level difference between signals and the phase difference between signals are finely quantized.
  • the level difference between signals and the phase difference between signals are roughly quantized as the perceived direction estimation value moves toward the relatively insensitive back direction of the perceptual discrimination characteristics.
  • both the tables in FIG. 4 and FIG. 5 show a specific example of a configuration for switching the coding method according to the channel information 207 that is a feature of the present invention. It is not intended to limit the distribution of points to what is shown.
  • the present invention includes a case where a table representing another distribution of quantization points reflecting the listener's perceptual discrimination characteristics is used, such as when the channel information 207 indicates a rear L channel and a rear R channel.
  • the sign key unit 306 reflects the discrimination ability related to the perceived direction of the sound image of the listener based on the channel information 207 and the perceived direction estimated value obtained from the perceived direction estimating unit 305.
  • Quantization accuracy i.e., quantization accuracy that becomes finer in the front direction from the left and right to the back direction
  • FIG. 6 is a block diagram illustrating a functional configuration of the auxiliary information generation unit according to the second embodiment.
  • the auxiliary information generating unit according to the second embodiment is a unit that generates auxiliary information 205B encoded according to channel information 207 from the first input signal 201 and the second input signal 202, and provides an inter-signal correlation.
  • a degree calculation unit 401, a spread feeling estimation unit 402, and a sign key unit 403 are included.
  • the auxiliary information 205B includes at least one of the inter-signal correlation calculated by the inter-signal correlation calculating unit 401, the inter-signal similarity, and the expanded feeling estimated value calculated by the expanded feeling estimating unit 402. This is information obtained by quantizing and coding one.
  • the first input signal 201 and the second input signal 202 are input to the inter-signal correlation calculation unit 401.
  • is a term for correcting a phase shift between both ears, and is known to those skilled in the art.
  • the signal may be divided into a plurality of frequency bands and calculated for each of them, or one may be calculated for all bands. Further, the time unit to be calculated is not particularly limited.
  • the spread feeling estimation unit 402 estimates the degree of spread of the sound image perceived by the listener from the channel information 207 and the similarity between signals obtained as an output from the inter-signal correlation calculation unit 401.
  • the extent of the sound image perceived by the listener is expressed by appropriately quantifying the magnitude and smallness as psychological quantities.
  • Encoding section 403 quantizes at least one of the correlation between signals, the similarity between signals, and the estimated spread feeling with different accuracy in accordance with the channel information 207, and further The auxiliary information 205B obtained by the conversion is output.
  • the sign key 403 quantifies the channel information 207 force in the case of indicating the front L channel and the front R channel and in the case of indicating the front L channel and the back L channel with different accuracy. To implement.
  • the sign unit 403 In order to switch the quantization accuracy as described above, for example, the sign unit 403 previously holds a plurality of tables for converting input values into quantized values, from which a channel is converted. One corresponding to the information 207 is used.
  • FIG. 7 schematically shows an example of a table used for quantization of inter-signal correlation, inter-signal similarity, and extended S-sense estimation value held in advance in the sign key unit 403.
  • FIG. 7 schematically shows an example of a table used for quantization of inter-signal correlation, inter-signal similarity, and extended S-sense estimation value held in advance in the sign key unit 403.
  • FIG. 7 schematically shows an example of a table used for quantization of inter-signal correlation, inter-signal similarity, and extended S-sense estimation value held in advance in the sign key unit 403.
  • FIG. 7 schematically shows an example of a table used for quantization of inter-signal correlation, inter-signal similarity, and extended S-sense estimation value held in advance in the sign key unit 403.
  • FIG. 7 schematically shows an example of a table used for quantization of inter-signal correlation, inter-signal similarity, and extended S-sense estimation value held in advance in the sign key unit 403.
  • FIG. 7 schematic
  • the sign key unit 403 shows the correlation between signals, the similarity between signals, and the sense of spread. If the estimated values are relatively quantized and the channel information 207 indicates the rear L channel and the front L channel, the correlation between signals, similarity between signals, and The spread feeling estimation value is quantized relatively roughly.
  • FIG. 8 is a block diagram illustrating a functional configuration of the auxiliary information generation unit according to the third embodiment.
  • the auxiliary information generation unit is a unit that generates auxiliary information 205C encoded according to channel information 207 from the first input signal 201 and the second input signal 202.
  • the degree-of-interest calculation unit 401, the distance sensation estimation unit 502, and the sign key unit 503 are included.
  • the first input signal 201 and the second input signal 202 are input to the inter-signal correlation calculation unit 401.
  • the inter-signal correlation calculation unit 401 the cross-correlation value of the signals of the first input signal 201 and the second input signal 202 and the similarity (coherence) between the signals based on each input signal are described above. Calculate according to Equation 1 above. [0088] When calculating the similarity, the signal may be divided into a plurality of frequency bands and may be calculated for each of them, or one may be calculated for all bands. Further, the time unit to be calculated is not particularly limited.
  • the similarity between signals obtained as an output from inter-signal correlation calculation section 401 and channel information 207 are input to distance sense estimation section 502.
  • the distance sensation estimation unit 502 estimates the degree of distance perception of the sound image perceived by the listener from the channel information 207 and the similarity between signals obtained as an output from the inter-signal correlation calculation unit 401.
  • the sense of distance of the sound image perceived by the listener is expressed by appropriately quantifying the distance and proximity perceived as psychological quantities.
  • the distance sensation estimation unit 502 estimates, for example, the distance sensation of the sound image perceived by the listener based on this knowledge, and outputs a distance sensation estimation value representing the estimation result to the sign key unit 503.
  • Encoding section 503 quantizes at least one of the inter-signal correlation, inter-signal similarity, and distance sense estimation value with different accuracy according to the above-described channel information 207, and further performs encoding. Auxiliary information 205C obtained by issue is output.
  • the encoding unit 503 performs different quantization depending on whether the channel information 207 indicates the front L channel and the front R channel or not when the channel information 207 indicates the front L channel and the back L channel. carry out.
  • the sign unit 503 holds, in advance, a plurality of tables for converting input values into quantized values, from which a channel is converted.
  • One corresponding to the information 207 is used.
  • a table a table similar to the table described in FIG. 7 can be used, and detailed description thereof is omitted here.
  • the sign key unit 503 is based on the channel information 207, and the quantization accuracy that reflects the discrimination ability related to the sense of distance to the sound image felt by the listener (that is, is fine in the front direction).
  • the quantization accuracy that becomes rougher from the left and right to the back direction is determined, and at least one of the correlation between signals, the similarity between signals, and the sense of distance is quantized with the determined quantization accuracy. Sign.
  • the code key method configured in this way it is possible to execute the code key based on the characteristic of the sense of distance of the human sound image, and to efficiently execute the code key.
  • the audio signal encoding apparatus is configured by combining the audio signal encoding apparatus according to the first, second, and third embodiments.
  • the audio signal encoding apparatus has all the configurations shown in FIG. 3, FIG. 6, and FIG. 8, and is based on two input signal levels, a signal level difference, a signal phase difference, and a signal. Inter-correlation (similarity) is calculated, based on channel information, the direction of perception, spread, and distance are estimated, and the quantization method and quantization table are switched according to the channel information. Encoding is performed.
  • Example 4 any two of Examples 1 to 3 may be combined.
  • FIG. 9 is a block diagram showing an example of a functional configuration of the audio signal decoding apparatus of the present invention.
  • the audio signal decoding apparatus includes a first output signal 105 and a second output signal that approximate the original sound signal from the mixed signal information 206, auxiliary information 205, and channel information 207 generated by the audio signal encoding apparatus.
  • 106 includes a mixed signal decoding unit 102 and a signal separation processing unit 103.
  • the present invention does not limit the specific method of transferring the mixed signal information 206, the auxiliary information 205, and the channel information 207 from the audio signal encoding device to the audio signal decoding device.
  • the mixed signal information 206, the auxiliary information 205, and the channel information 207 are multiplexed and transmitted in one broadcast stream, and the audio signal decoding apparatus receives the broadcast stream and demultiplexes the mixed stream signal.
  • mixed signal information 206, auxiliary information 205, and channel information 207 are stored in the recording medium, and the audio signal decoding apparatus receives the mixed signal information 206, auxiliary information from the recording medium. 205 and channel information 207 may be read out.
  • transmission of the channel information 207 is omitted by predetermining the prescribed values and the prescribed order between the audio signal encoding device and the audio signal decoding device. Is also possible.
  • the mixed signal decoding unit 102 decodes the mixed signal information 206 represented in the code data format into an audio signal format, and sends the decoded audio signal to the signal separation processing unit 103. Output.
  • the mixed signal decoding unit 102 performs inverse conversion of the mixed signal code unit 203 in the above-described audio signal encoding device.
  • the mixed signal encoding unit 203 stores the mixed signal information 206.
  • the mixed signal decoding unit 102 also performs the inverse transformation defined in AAC to obtain the audio signal.
  • the format of the audio signal is selected such as a signal format on the time axis, a signal format on the frequency axis, and a format expressed on both the time and frequency axes. In the present invention, the format is limited. do not do.
  • the signal separation processing unit 103 Based on the auxiliary information 205 and the channel information 207, the signal separation processing unit 103 outputs the first output signal 105 and the second output signal 106 from the audio signal output from the mixed signal decoding unit 102. Generate and output.
  • FIG. 10 is a block diagram showing a functional configuration of the signal separation processing unit 103 according to this embodiment.
  • the signal separation processing unit 103 decodes the auxiliary information 205 using different decoding methods depending on the channel information 207, and uses the decoding result to output the first output signal 105 and the second output signal.
  • 106 includes a decoding method switching unit 705, an inter-signal information decoding unit 706, and a signal synthesis unit 707.
  • the decoding key method switching unit 705 switches the decoding key method to the inter-signal information decoding unit 706 based on the channel information 207. Instruct.
  • the inter-signal information decoding unit 706 decodes the auxiliary information 702 into inter-signal information using the decoding method switched according to the instruction from the decoding method switching unit 705.
  • This inter-signal information is the inter-signal level difference, the inter-signal phase difference, the inter-signal correlation, etc. described in the first to third embodiments.
  • the inter-signal information decoding unit 706 can switch the decoding method by switching the table representing the quantization points, like the code unit in the audio signal encoding device.
  • the decoding method may be switched by switching the inverse quantization function or the decoding key procedure itself.
  • the signal synthesis unit 707 obtains the inter-signal level difference, inter-signal phase difference, and inter-signal correlation represented by the inter-signal information from the audio signal that is the output signal of the mixed signal decoding unit 704.
  • a first output signal 105 and a second output signal 106 are generated.
  • two signals obtained by duplicating the audio signal are given half of the inter-signal level difference in the opposite direction, and half of the inter-signal phase difference is given in the opposite direction.
  • t which is a well-known method, is used as appropriate, in which the two signals after the level difference and the phase difference are added are mixed according to the degree of correlation between the signals.
  • this decoding method is used to generate an n-channel audio signal into an audio signal of more than n channels by simply converting a 1-channel audio signal into a 2-channel audio signal.
  • a 1-channel audio signal into a 2-channel audio signal.
  • it is effective when obtaining a 6-channel audio signal from a 2-channel audio signal or obtaining a 6-channel audio signal from a 1-channel audio signal.

Abstract

 混入信号符号化部203および補助情報生成部204からなるオーディオ信号符号化装置であって、ある一定の予め定められた方法によって加算した混入信号を生成し、その混入信号を符号化し、混入信号情報206を出力する混入信号符号化部203と、第1入力信号201と、第2入力信号202、および、混入信号符号化部203で作られた混入信号と混入信号情報206を用いて補助情報205を生成する補助情報生成部204とを備える。補助情報生成部204は、人間の音源の方向知覚の特性や、拡がり感、および距離感に関する特徴を用いて、補助情報205を効率よく量子化する。                                                                               

Description

明 細 書
オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプ ログラム
技術分野
[0001] 本発明は、オーディオ信号の符号化装置、復号化装置、方法、および、プログラム に関するものである。
背景技術
[0002] 従来のオーディオ信号符号化方法、および、復号化方法としては、公知なものとし て ISO/IECの国際標準方式、通称 MPEG方式などが挙げられる。現在、幅広い応用 を持ち、低ビットレート時でも高音質な符号ィ匕方式として、 ISO/IEC 13818— 7、通 称 MPEG2 AAC (Advanced Audio Coding)などがあげられる。本方式の拡張規格も 複数規格化が現在なされて ヽる。
[0003] その一つとして、空間音響情報 (Spatial Cue Information)もしくは、聴覚的音響情報 (Binaural Cue)と呼ばれる情報を利用する技術がある。このような技術の例としては、 I SO国際標準規格である MPEG-4 Audio (ISO/IEC 14496-3)において定められたパラ メトリックステレオ (Parametric Stereo)方式がある。また、別の例として、米国公開特許 US2003/00355OJ Backwards-compatible Perceptual Coding of Spatial Cues,にお いて開示される方式がある。(非特許文献 1参照)。また、別の方式も提案されている( 例えば、特許文献 1、特許文献 2等参照)。
非特許文献 1 : ISO/IEC 14496-3:2001 AMD2 "Parametric Coding for High Quality Audio
特許文献 1 :米国公開特許 US2003/0035553 "Backwards- compatible Perceptual Cod ing of Spatial Cues
特許文献 2 :米国公開特許 US2003/0219130 "Coherence- based Audio Coding and S ynthesis"
発明の開示
発明が解決しょうとする課題 [0004] しかしながら、従来のオーディオ信号符号化方法、および、復号化方法では、例え ば背景技術に記載の AACなどでは、マルチチャンネルの信号を符号ィ匕する際に、チ ヤンネル間の相関を十分に生力しきれていないため、低ビットレートイ匕することが困難 であった。チャンネル間の相関を用いて符号ィ匕を実施する場合においても、人間の 音源の方向知覚の特性や、拡がり感に関する特徴をもちいることで得られる符号ィ匕 効率の向上などの効果を、十分に量子化と符号化に活かしきれて!/、な 、と 、う課題 かあつた。
[0005] また従来の方法では、マルチチャンネルの信号を符号ィ匕したものを復号ィ匕する際 に、 2つのスピーカやヘッドホンなどで再生する場合において、一度、すべてのチヤ ンネルを復号ィ匕し、その後、ダウンミクスなどの方法を用いて、前記 2つのスピーカや ヘッドホンで再生すべきオーディオ信号を加算により生成しなければならな力つた。 このことは 2つのスピーカやヘッドホンで再生する場合に、多くの計算量や計算用の ノ ッファを要し、ひいては、それを実装する DSPなどの計算手段の消費電力やコスト を高める原因となった。
[0006] 本発明は、上記課題を解決するものであって、マルチチャンネルの信号を符号ィ匕 する際の符号化効率を向上するオーディオ信号符号化装置、その装置から得られた 符号を復号ィ匕するオーディオ信号復号ィ匕装置を提供することを目的とする。
課題を解決するための手段
[0007] 本発明のオーディオ信号符号化装置は、複数のチャンネルそれぞれの原音信号を 、前記原音信号の全体的な特徴を表す混入信号情報と、個々の原音信号間の関係 に基づく特徴量を表す補助情報とに符号化するオーディオ信号符号化装置であつ て、前記原音信号を混入して得た混入信号を符号化することによって前記混入信号 情報を生成する混入信号符号化手段と、前記原音信号に基づ!ヽて前記特徴量を算 出すると共に、各チャンネルの音声のリスナー力 みた再生位置を示すチャンネル情 報が与えられると、与えられたチャンネル情報によって示される各再生位置の配置の 関係に応じて異なる符号化方法を決定し、前記決定された符号化方法を用いて前 記算出された特徴量を符号化することによって前記補助情報を生成する補助情報生 成手段とを備える。 [0008] また、前記補助情報生成手段は、異なる量子化精度が得られる量子化点を定義す る複数のテーブルを予め記憶しており、前記特徴量を、前記複数のテーブルのうち の前記チャンネル情報によって示される各再生位置の配置の関係に応じた一つによ つて定義される量子化点に量子化することによって符号ィ匕してもよい。
[0009] また、前記補助情報生成手段は、前記原音信号間のレベル差及び位相差の少なく とも一方を算出して前記特徴量としてもよぐさらに、前記算出されたレベル差及び位 相差に基づいて、リスナーが知覚すると推定される音像の方向を算出して前記特徴 量としてもよい。
[0010] また、前記補助情報生成手段は、リスナーの正面方向から左右対称に設けられる 量子化点を定義する第 1のテーブルと、リスナーの左方向から前後非対称に設けら れる量子化点を定義する第 2のテーブルとを予め記憶しており、前記チャンネル情報 力 Sリスナーの左前方と右前方とを示す場合には、前記特徴量を前記第 1のテーブル によって定義される量子化点に量子化することによって符号ィ匕し、前記チャンネル情 報がリスナーの左前方と左後方とを示す場合には、前記特徴量を前記第 2のテープ ルによって定義される量子化点に量子化することによって符号ィ匕してもよい。
[0011] また、前記補助情報生成手段は、前記原音信号間の類似度を算出して前記特徴 量としてもよぐまた、前記原音信号間の相互相関値、又はその絶対値を、前記類似 度として算出してもよぐさらに、前記算出された類似度に基づいて、リスナーが知覚 すると推定される音像の拡がり感及び距離感の少なくとも一方を算出して前記特徴 量としてもよい。
[0012] 上記課題を解決するため、本発明のオーディオ信号復号化装置は、複数のチャン ネルそれぞれの原音信号の全体的な特徴を表す混入信号情報と、個々の原音信号 間の関係に基づく特徴量を表す補助情報とを、前記複数のチャンネルそれぞれの再 生信号に復号化するオーディオ信号復号化装置であって、各チャンネルの音声のリ スナ一からみた再生位置を示すチャンネル情報が与えられると、与えられたチャンネ ル情報によって示される各再生位置の配置の関係に応じて異なる復号化方法を決 定する復号化方式切り替え手段と、前記決定された復号化方法を用いて前記補助 情報を前記特徴量に復号化する信号間情報復号手段と、前記混入信号情報と前記 復号化された特徴量とを用いて、前記複数のチャンネルそれぞれの再生信号を生成 する信号合成手段とを備える。
[0013] また、前記補助情報は、前記特徴量を、異なる量子化精度が得られる量子化点を 定義する複数のテーブルのうち前記チャンネル情報によって示される各再生位置の 配置の関係に応じた一つによって定義される量子化点に量子化することによって符 号化されており、前記信号間情報復号手段は、前記複数のテーブルを予め記憶して おり、前記複数のテーブルのうちの前記チャンネル情報によって示される各再生位 置の配置の関係に応じた一つを用いて、前記補助情報を前記特徴量に復号化して ちょい。
[0014] また、前記特徴量は、前記原音信号間のレベル差、位相差、及び、リスナーが知覚 すると推定される音像の方向の少なくとも一つを表し、前記信号間情報復号手段は、 リスナーの正面方向から左右対称に設けられる量子化点を定義する第 1のテーブル と、リスナーの左方向から前後非対称に設けられる量子化点を定義する第 2のテープ ルとを予め記憶しており、前記チャンネル情報がリスナーの左前方と右前方とを示す 場合には、前記第 1のテーブルを用いて前記補助情報を前記特徴量に復号化し、前 記チャンネル情報がリスナーの左前方と左後方とを示す場合には、前記第 2のテー ブルを用いて前記補助情報を前記特徴量に復号化してもょ ヽ。
[0015] また、前記特徴量は、前記原音信号間のレベル差、位相差、類似性、及び、リスナ 一が知覚すると推定される音像の方向、拡がり感、並びに距離感の少なくとも一つを 表すとしてもよい。
[0016] また、前記信号合成手段は、前記特徴量が、前記原音信号間のレベル差、位相差 、及び類似性の少なくとも一つを表す場合に、前記混入信号情報によって表される 音声信号に前記特徴量に応じたレベル差、位相差、及び類似性を与えることによつ て、前記再生信号を生成してもよい。
[0017] また、本発明は、このようなオーディオ信号符号化装置及びオーディオ信号復号化 装置として実現できるだけでなぐこのような装置が備える特徴的な手段によって実行 される処理をステップとする方法として実現することも、また、それらのステップをコン ピュータに実行させるプログラムとして実現することもできる。そして、そのようなプログ ラムは、 CD— ROM等の記録媒体やインターネット等の伝送媒体を介して配信でき ることはいうまでもない。
発明の効果
[0018] 本発明のオーディオ信号符号化装置及び復号化装置によれば、原音信号を混入 して得られる混入信号から原音信号を近似する再生信号を分離するための補助情 報を生成する際に、人間の音源の方向知覚の特性、拡がり感、及び距離感に関する 特徴をもちいることによって、聴感上、違和感がない程度に信号の分離を達成でき、 かつ非常に小さな補助情報を生成することが可能となる。
[0019] また、マルチチャンネルの原音信号から、前記混入信号として、左右 2チャンネルの ダウンミクス信号を得るように構成すれば、 2チャンネル信号の再生系を有するスピー 力やヘッドホンでの再生においては、補助情報を処理することなぐ前記ダウンミクス 信号を復号するだけで、低演算量で高音質なステレオ再生が可能となる。
図面の簡単な説明
[0020] [図 1]図 1は、本発明の実施の形態に係るオーディオ信号符号化装置の機能的な構 成の一例を示すブロック図である。
[図 2]図 2は、チャンネル情報が示すリスナーと音源の位置関係の一例を表す図であ る。
[図 3]図 3は、補助情報生成部の構成の一例を示す機能ブロック図である。
[図 4]図 4 (A)及び (B)は、知覚方向推定値の量子化に用いられるテーブルの一例を 模式的に表す図である。
[図 5]図 5 (A)及び (B)は、信号間レベル差及び信号間位相差の量子化に用いられ るテーブルの一例を模式的に表す図である。
[図 6]図 6は、補助情報生成部の構成の他の一例を示す機能ブロック図である。
[図 7]図 7は、信号間相関度、信号間類似度、及び拡がり感推定値の量子化に用いら れるテーブルの一例を模式的に表す図である。
[図 8]図 8は、補助情報生成部の構成のさらに他の一例を示す機能ブロック図である [図 9]図 9は、本発明の実施の形態に係るオーディオ信号復号ィ匕装置の全体構成の 機能的な構成の一例を示すブロック図である。
[図 10]図 10は、信号分離処理部の構成の一例を示す機能ブロック図である。 符号の説明
混入信号復号化部
103 信号分離処理部
105 第 1出力信号
106 第 2出力信号
201 第 1入力信号
202 第 2入力信号
203 混入信号符号化部
204 補助情報生成部
205 補助情報
206 混入信号情報
207 チャンネル情報
303 信号間レベル差算出部
304 信号間位相差算出部
305 知覚方向推定部
306 符号化部
401 信号間相関度算出部
402 拡がり感推定部
403 符号化部
502 距離感推定部
503 符号化部
702 補助情報
704 混入信号復号化部
705 復号化方法切り替え部
706 信号間情報復号部
707 信号合成部 発明の実施するための最良の形態
[0022] 以下、本発明の実施の形態について、図面を参照しながら説明する。
[0023] (オーディオ信号符号化装置)
図 1は、本発明のオーディオ信号符号化装置の機能的な構成の一例を示すブロッ ク図である。このオーディオ信号符号化装置は、外部力 与えられる第 1入力信号 20 1及び第 2入力信号 202を符号ィ匕して、混入信号情報 206を得ると共に、外部から与 えられるチャンネル情報 207によって示される各チャンネルの音声の再生位置の配 置の関係に応じて異なる符号ィ匕方法を用いて補助情報 205を得る装置であり、混入 信号符号ィ匕部 203及び補助情報生成部 204からなる。
[0024] 混入信号情報 206及び補助情報 205は、後述するオーディオ信号復号化装置に よって、第 1入力信号 201及び第 2入力信号 202それぞれを近似する信号に復号さ れる情報であり、チャンネル情報 207は、復号されるそれぞれの信号がリスナーから 見てどの方向力 再生されるかを表す情報である。
[0025] 図 2は、信号再生用の音源とリスナーとの間の位置関係の一例を示す図である。こ の例は、 5チャンネル再生を行う場合に各チャンネルの音源となるスピーカそれぞれ のリスナーから見た配置方向を示している。例えば、フロント Lチャンネルスピーカ及 びフロント Rチャンネルスピーカが、リスナーの正面からそれぞれ左右 30° の方向に 配置されることが示されている。この 2つのスピーカは、ステレオ再生にも用いられる。
[0026] チャンネル情報 207は、例えば、フロント Lチャンネルスピーカ及びフロント Rチャン ネルスピーカから再生されるべき音声を符号ィ匕することを、具体的に、リスナーの正 面を 0° として反時計回りに + 30° (フロント Lチャンネルスピーカ)及び 30° (フロ ント Rチャンネルスピーカ)といった音源の配置角度によって表す。また、実用的には 30° といった細かな角度情報ではなぐ各チャンネルの音源の配置角度を予め定め た上で、単にフロント Lチャンネル、フロント Rチャンネルといったチャンネノレ名によつ て同じことを表すこともできる。
[0027] チャンネル情報 207は、どのチャンネルの音声を符号化するかを知っている外部の 装置から適切に、本オーディオ信号符号化装置に与えられる。
[0028] 一つの典型例として、第 1入力信号 201及び第 2入力信号 202としてステレオの原 音信号が与えられ、そこからモノラルの混入信号と補助情報とを生成する場合には、 フロント Lチャンネル及びフロント Rチャンネルを示すチャンネル情報 207が与えられ る。
[0029] 別の典型例として、 5チャンネルの原音信号力 左右 2チャンネルの混入信号を生 成する際に、第 1入力信号 201及び第 2入力信号 202としてそれぞれフロント Lチヤ ンネル及びリア Lチャンネルの信号を与えられ、そこから左チャンネルの混入信号と 補助情報とを生成する場合には、フロント Lチャンネル及びリア Lチャンネルを示すチ ヤンネル情報 207が与えられる。
[0030] 再び図 1を参照して、第 1入力信号 201、および、第 2入力信号 202は、混入信号 符号ィ匕部 203と補助情報生成部 204へと入力される。混入信号符号ィ匕部 203では、 ある一定の予め定められた方法によって第 1入力信号 201、および、第 2入力信号 2 02を加算することによって混入信号を生成し、その混入信号を符号ィ匕して得られた 混入信号情報 206を出力する。この符号化には、適宜周知の技術を用いることがで きるが、一例としては、背景技術の項で述べた AACなどの方法を用いてもよい。
[0031] 補助情報生成部 204では、第 1入力信号 201、第 2入力信号 202、混入信号符号 化部 203で作られた混入信号、及び混入信号情報 206から、チャンネル情報 207を 用いて補助情報 205を生成する。
[0032] ここで、補助情報 205は、混入信号から、混入前の原音信号である第 1入力信号 2 01及び第 2入力信号 202それぞれに聴感上できるだけ近い信号を分離するための 情報である。補助情報 205を用いて、混入信号から混入前の第 1入力信号 201と、 第 2入力信号 202と完全に同じ信号を分離できてもょ 、し、聞 、たところ差がな 、よう な程度の信号を分離できるのでもよい。聞いて差があつたとしても、その補助情報が 信号分離のための情報である限り、本発明の範疇に含まれる。
[0033] 補助情報生成部 204は、チャンネル情報 207を用いることによって、聴感上違和感 のない程度の信号を分離可能な補助情報を、少ない情報量で生成する。そのために 、補助情報生成部 204は、チャンネル情報 207に応じて、補助情報を符号化する方 法、具体的には符号ィ匕の量子化精度を切り替える。
[0034] 以下、補助情報生成部 204のいくつかの実施例について、詳細に説明する。 [0035] (実施例 1)
実施例 1に係る補助情報生成部について図 3から図 5を用いて説明する。
[0036] 図 3は、実施例 1の補助情報生成部の機能的な構成を示すブロック図である。
[0037] 実施例 1の補助情報生成部は、第 1入力信号 201及び第 2入力信号 202から、チ ヤンネル情報 207に応じて異なる符号化がなされた補助情報 205Aを生成する部で あり、信号間レベル差算出部 303、信号間位相差算出部 304、知覚方向推定部 305 、及び符号ィ匕部 306からなる。
[0038] 補助情報 205Aは、信号間レベル差算出部 303で算出される信号間レベル差、信 号間位相差算出部 304で算出される信号間位相差、知覚方向推定部 305で算出さ れる知覚方向推定値のうちの少なくとも一つを量子化し符号ィ匕して得られる情報であ る。
[0039] 第 1入力信号 201と、第 2入力信号 202とは、信号間レベル差算出部 303、および 、信号間位相差算出部 304へ入力される。
[0040] 信号間レベル差算出部 303では、第 1入力信号 201と、第 2入力信号 202との信号 のエネルギー差を算出する。エネルギー差を算出する場合において、信号を複数の 周波数バンドに区切って、その各々について算出してもよいし、全帯域で 1つ算出し てもよい。また、算出する時間単位も特に限定しない。エネルギー差を表現する方法 としても、オーディオ表現でよく用いられる指数関数値、たとえば dBとして差を表現し てもよ 、し、必ずしも限定しな 、。
[0041] 信号間位相差算出部 304では、第 1入力信号 201と第 2入力信号 202との信号間 の相互相関を算出し、その相互相関値をもとに、その値が大きくなる位相差を算出す る。このような位相差算出方法は、当該技術者には公知である。また、必ずしも相互 相関値の最大値をあたえる位相を位相差にしなくてもいい。それは、相互相関はデ ジタル信号をもとに算出する場合、離散値であるがゆえに、位相差についても離散値 で得られるからで、その解決手段としては、相互相関値の分布をもとに、補間により推 定される位相差であってもよ ヽ。
[0042] 信号間レベル差算出部 303から出力として得られる信号間レベル差、信号間位相 差算出部 304から出力として得られる信号間位相差、およびチャンネル情報 207は、 知覚方向推定部 305へ入力される。
[0043] 知覚方向推定部 305は、前記チャンネル情報 207と、信号間レベル差算出部 303 力も出力として得られる信号間レベル差、信号間位相差算出部 304から出力として 得られる信号間位相差から、リスナーが知覚する音像の方向を推定する。
[0044] 一般に, 2個のスピーカから音響信号を提示した際にリスナーが知覚する方向は, 2個のスピーカの配置と, 2ch信号のレベル差および位相差で決定されることが知ら れている(「空間音響」,ィエンスブラウエルト,森本政之,後藤敏幸編著,鹿島出版 会 (198b ある ヽ ί , Spatial Hearing: The Psychophysics of Human Sound Localiza tion", revised edition, MIT Press, 1997) 0知覚方向推定部 305は、例えばこの知見 に基づいて、リスナーによる音像の知覚方向を推定し、その推定結果を表す知覚方 向推定値を符号ィ匕部 306へ出力する。
[0045] 符号化部 306は、信号間レベル差、信号間位相差、及び知覚方向推定値のうちの 少なくとも一つを、前述のチャンネル情報 207と知覚方向推定値に応じて異なる精度 で量子化し、さらに符号ィ匕を実施して得た補助情報 205Aを出力する。
[0046] 従来、リスナーの知覚弁別特性につ!、て、次のことが知られて 、る。一般に、リスナ 一の知覚弁別特性は正面方向に対して左右対称であり、正面方向の知覚弁別特性 が敏感で、フロント Lチャンネル方向(もしくはフロント Rチャンネル方向)に向かうにし たがって、鈍感になる傾向がある。また一般に、リスナーの知覚弁別特性は正面方向 力 反時計回りに背面方向まで前後非対称であり、正面方向の知覚弁別特性が敏 感で、バックチャンネルに向力うにしたがって、鈍感になる傾向がある。
[0047] 符号ィ匕部 306は、このことを考慮して、知覚方向推定部 305から得られた知覚方向 推定値が、知覚弁別特性が敏感な方向を示す場合には信号間レベル差、信号間位 相差、及び知覚方向推定値を細かく量子化し、逆に、知覚弁別特性が鈍感な方向を 示す場合には敏感な方向を示す場合にくらべて、荒く量子化する。
[0048] つまり、符号化部 306は、チャンネル情報 207力 フロント Lチャンネルと Rチャンネ ルを示す場合は、知覚方向に関して左右方向に対称な量子化を実施し、フロント L チャンネルとバック Lチャンネルを示す場合は、知覚方向に関して前後方向に非対称 な量子化を実施する。 [0049] このような量子化精度の切り替えを行うために、符号ィ匕部 306は、一例として、入力 値を量子化値へ変換する複数のテーブルを予め保持しておき、その中からチャンネ ル情報 207に応じた一つを用いる。
[0050] 図 4は、符号ィ匕部 306に予め保持される、知覚方向推定値の量子化に用いられる テーブルの一例を模式的に表す図である。何れのテーブルも知覚方向推定値の量 子化点の一例を表しており、 (A)はフロント Lチャンネル及びフロント Rチャンネル用 の一例であり、 (B)はリア Lチャンネル及びフロント Lチャンネル用の一例である。
[0051] 符号ィ匕部 306は、チャンネル情報 207がフロント Lチャンネル及びフロント Rチャン ネルを示す場合、図 4 (A)のテーブルに基づいて、知覚方向推定値を、知覚弁別特 性が比較的敏感な正面方向の近傍では細力べ量子化し、知覚弁別特性が比較的鈍 感な左右方向に向かうにつれて荒く量子化する。
[0052] また、チャンネル情報 207がリア Lチャンネル及びフロント Lチャンネルを示す場合、 図 4 (B)のテーブルに基づいて、知覚方向推定値を、知覚弁別特性が比較的敏感な 正面方向の近傍では細力べ量子化し、知覚弁別特性が比較的鈍感な背面方向に向 力うにつれて荒く量子化する。
[0053] 図 5は、信号間レベル差及び信号間位相差の量子化に用いられるテーブルの一例 を模式的に表す図である。何れのテーブルも所定の正規ィ匕がなされた信号間レベル 差及び信号間位相差の量子化点の一例を表しており、 (A)はフロント Lチャンネル及 びフロント Rチャンネル用のテーブルの一例であり、 (B)はリア Lチャンネル及びフロ ント Lチャンネル用のテーブルの一例である。
[0054] 符号ィ匕部 306は、チャンネル情報 207がフロント Lチャンネル及びフロント Rチャン ネルを示す場合、図 5 (A)のテーブルに基づいて、知覚方向推定値が知覚弁別特 性の比較的敏感な正面方向の近傍を示す場合には、信号間レベル差及び信号間 位相差を細かく量子化し、知覚方向推定値が知覚弁別特性の比較的鈍感な左右方 向に向かうにつれて、信号間レベル差及び信号間位相差を荒く量子化する。
[0055] また、チャンネル情報 207がリア Lチャンネル及びフロント Lチャンネルを示す場合、 図 5 (B)のテーブルに基づ 、て、知覚方向推定値が知覚弁別特性の比較的敏感な 正面方向の近傍を示す場合には、信号間レベル差及び信号間位相差を細かく量子 化し、知覚方向推定値が知覚弁別特性の比較的鈍感な背面方向に向かうにつれて 、信号間レベル差及び信号間位相差を荒く量子化する。
[0056] なお、図 4及び図 5のテーブルは何れも、本発明の特徴であるチャンネル情報 207 に応じて符号ィ匕方法を切り替えるための構成の一具体例を示したものであり、量子化 点の分布を図示される内容に限定することを意図していない。チャンネル情報 207が 、リア Lチャンネル及びリア Rチャンネルを示す場合など、リスナーの知覚弁別特性を 反映した量子化点の他の分布を表すテーブルを用いる場合も本発明に含まれる。
[0057] このテーブルを切り替える構成の他に、例えば量子化の関数や、符号化の手続き そのものを切り替えることによって、チャンネル情報 207に応じた符号ィ匕方法の切り 替えを実現することも考えられる。
[0058] 以上説明したように、符号ィ匕部 306は、チャンネル情報 207と知覚方向推定部 305 力も得られる知覚方向推定値とにもとづいて、リスナーの音像の知覚方向に関する弁 別能力が反映された量子化精度 (つまり、正面方向には細かぐ左右から背面方向 に向力 につれて荒くなる量子化精度)を決定し、信号間レベル差、信号間位相差、 及び知覚方向推定値のうちの少なくとも一つを量子化し符号化する。
[0059] これにより、量子化精度を切り替えない場合に比べてより少ない情報量で表された 補助情報を得ることが可能となる。
量子化精度の決定にぉ ヽては、音源が静止して ヽる場合の聴覚心理モデルに基 づいて量子化テーブルや、量子化の関数を作成し量子化を実施してもよいし、実際 の音源において、音像が移動することを考慮して、その音像の移動スピードや、量子 化対象としている周波数帯域の特性に応じて、量子化精度を変えてもよい。特に時 間分解能を適応的に変えることで、音源が静止している場合のモデルにあてはめて 量子化し符号ィ匕することが可能となる。
[0060] このように構成された符号ィ匕方法を用いれば、人間の音の知覚方向の特性に基づ いた符号ィ匕を実施でき、効率よく符号ィ匕を実施できる。
[0061] (実施例 2)
実施例 2に係る補助情報生成部について図 6および図 7を用いて説明する。
[0062] 図 6は、実施例 2の補助情報生成部の機能的な構成を示すブロック図である。 [0063] 実施例 2の補助情報生成部は、第 1入力信号 201及び第 2入力信号 202から、チ ヤンネル情報 207に応じて符号化された補助情報 205Bを生成する部であり、信号 間相関度算出部 401、拡がり感推定部 402、及び符号ィ匕部 403からなる。
[0064] ここで、補助情報 205Bは、信号間相関度算出部 401で算出される信号間相関度 、信号間類似度、拡がり感推定部 402で算出される拡がり感推定値のうちの少なくと も一つを量子化し符号ィ匕して得られる情報である。
[0065] 第 1入力信号 201と、第 2入力信号 202とは、信号間相関度算出部 401へ入力され る。
[0066] 信号間相関度算出部 401では、第 1入力信号 201と、第 2入力信号 202との信号 の相互相関値と各々の入力信号をもとに信号間の類似度 (コヒーレンス)を、例えば 次に示す式 1
(式 1)
ICC = ∑ (x* (y+ τ ) ) / (∑ χ*χ - ∑y*y) "0. 5 などに従って算出する。
[0067] τは、両耳間の位相ずれを補正するための項であり、当業者には公知である。
[0068] 類似度を算出する場合において、信号を複数の周波数バンドに区切って、その各 々について算出してもよいし、全帯域で 1つ算出してもよい。また、算出する時間単 位も特に限定しない。
[0069] 信号間相関度算出部 401から出力として得られる信号間の類似度、およびチャン ネル情報 207は、拡がり感推定部 402へ入力される。
[0070] 拡がり感推定部 402は、前記チャンネル情報 207と、信号間相関度算出部 401か ら出力として得られる信号間の類似度から、リスナーが知覚する音像の拡がりの程度 を推定する。ここでは、リスナーが知覚する音像の拡がりの程度は、心理量としての 大きさや小ささを適宜数値化して表現されるものとする。
[0071] 一般に,音の拡がり感は,リスナーの両耳に入力される音響信号の音圧レベルと両 耳間相関度で説明できることが知られている (特許第 3195491号および特許第 321 4255号)。ここで,両耳間相関度 (DICC)とチャンネル間相関度 (ICCC)は、次の式 2 で表される関係にある。
[0072] (式 2) DICC = ICCC * Clr
ここで, Clrは HIと Hrの相関度であり, HIはスピーカなどの音源からリスナーの左耳 までの伝達関数, Hrはスピーカなどの音源からリスナーの右耳までの伝達関数であ る。ここで,リスニングルームなどのようにスピーカ配置が左右対称である場合 Clrは 1 とみなせるので,音像の拡がり感は信号間相関度と音圧レベルで予測することができ る。拡がり感推定部 402は、例えばこの知見に基づいて、リスナーが感じる音の拡が り感を推定し、その推定結果を表す拡がり感推定値を符号ィ匕部 403へ出力する。
[0073] 符号化部 403は、信号間相関度、信号間類似度、及び拡がり感推定値のうちの少 なくとも一つを、前述のチャンネル情報 207に応じて異なる精度で量子化し、さらに 符号化して得た補助情報 205Bを出力する。
[0074] 従来、両耳間相関度が同じでも,リスナーに到来する直接音の方向がリスナーの正 面ではない場合は,直接音が正面力も到来する場合と比較して拡がり感が減少する こと力 S知りれて ヽる ( Relation between Auditory Source Widtn in Various bound Fiel ds and Degree of Interaural Cross— Correlation , M. Morimoto, K. Iida, and Y. Furu e, Applied Acoustics, 38 (1993) 291—301)。
[0075] これは、音声の再生が、フロント Lチャンネルとフロント Rチャンネルから行われる場 合に比べて、フロント Lチャンネルとバック Lチャンネルから行われる場合には、再生 音の拡がり感に対するリスナーの弁別能力が劣ることを意味している。
[0076] 符号ィ匕部 403は、このことを考慮して、チャンネル情報 207力 フロント Lチャンネル 及びフロント Rチャンネルを示す場合と、フロント Lチャンネル及びバック Lチャンネル を示す場合とで、異なる精度で量子化を実施する。
[0077] このような量子化精度の切り替えを行うために、符号ィ匕部 403は、一例として、入力 値を量子化値へ変換する複数のテーブルを予め保持しておき、その中からチャンネ ル情報 207に応じた一つを用いる。
[0078] 図 7は、符号ィ匕部 403に予め保持される、信号間相関度、信号間類似度、及び拡 力 Sり感推定値の量子化に用いられるテーブルの一例を模式的に表す図である。何れ のテーブルも、所定の正規化がなされた信号間相関度、類似度、拡がり感推定値の 量子化点の一例を表しており、 (A)はフロント Lチャンネル及びフロント Rチャンネル 用の一例であり、 (B)はリア Lチャンネル及びフロント Lチャンネル用の一例である。
[0079] 符号ィ匕部 403は、チャンネル情報 207がフロント Lチャンネル及びフロント Rチャン ネルを示す場合、図 7 (A)のテーブルに基づいて、信号間相関度、信号間類似度、 及び拡がり感推定値を、比較的細力べ量子化し、チャンネル情報 207がリア Lチャン ネル及びフロント Lチャンネルを示す場合、図 7 (B)のテーブルに基づいて、信号間 相関度、信号間類似度、及び拡がり感推定値を、比較的荒く量子化する。
[0080] 以上説明したように、符号ィ匕部 403は、チャンネル情報 207に基づいて、リスナー の拡がり感に対する弁別能力が反映された量子化精度(つまり、正面方向には細か ぐ左右から背面方向へ向かうにつれて荒くなる量子化精度)を決定し、決定された 量子化精度で信号間相関度、信号間類似度、及び拡がり感推定値のうちの少なくと も一つを量子化し符号化する。
[0081] このように構成された符号ィヒ方法を用いれば、人間の音像の拡がり感の特性に基 づ 、た符号ィ匕を実施でき、効率よく符号ィ匕を実施できる。
[0082] (実施例 3)
実施例 3に係る補助情報生成部について図 8を用いて説明する。
[0083] 図 8は、実施例 3に係る補助情報生成部の機能的な構成を示すブロック図である。
[0084] 実施例 3の補助情報生成部は、第 1入力信号 201、第 2入力信号 202から、チャン ネル情報 207に応じて符号化された補助情報 205Cを生成する部であり、信号間相 関度算出部 401、距離感推定部 502、及び符号ィ匕部 503からなる。
[0085] ここで、補助情報 205Cは、信号間相関度算出部 401で算出される信号間相関度 、信号間類似度、距離感推定部 502で算出される距離感推定値のうちの少なくとも 一つを量子化し符号ィ匕して得られる情報である。
[0086] 第 1入力信号 201と、第 2入力信号 202とは、信号間相関度算出部 401へ入力され る。
[0087] 信号間相関度算出部 401では、第 1入力信号 201と、第 2入力信号 202との信号 の相互相関値と各々の入力信号をもとに信号間の類似度 (コヒーレンス)を前述した 式 1などに従って算出する。 [0088] 類似度を算出する場合において、信号を複数の周波数バンドに区切って、その各 々について算出してもよいし、全帯域で 1つ算出してもよい。また、算出する時間単 位も特に限定しない。
[0089] 信号間相関度算出部 401から出力として得られる信号間の類似度、およびチャン ネル情報 207は、距離感推定部 502へ入力される。
[0090] 距離感推定部 502は、前記チャンネル情報 207と、信号間相関度算出部 401から 出力として得られる信号間の類似度から、リスナーが知覚する音像の距離感の程度 を推定する。ここでは、リスナーが知覚する音像の距離感の程度は、心理量として感 じられる遠さや近さを適宜数値化して表現されるものとする。
[0091] 従来、リスナーが知覚する音像の距離感と、前述した式 1によって算出される信号 間相関度算出部 401からの出力値 (類似度)の正負の符号との間に関係があること が知られている。このことは、「2チャンネル音響信号の相関係数と音像の質:日本音 響学会誌 39卷 4号(1983)」(黒住幸一ら)に記載されている。距離感推定部 502 は、例えばこの知見に基づいて、リスナーが知覚する音像の距離感を推定し、その推 定結果を表す距離感推定値を符号ィ匕部 503へ出力する。
[0092] 符号化部 503は、信号間相関度、信号間類似度、及び距離感推定値のうちの少な くとも一つを、前述のチャンネル情報 207に応じて異なる精度で量子化し、さらに符 号ィ匕して得た補助情報 205Cを出力する。
[0093] 再生音の距離感に関しても、音声の再生が、フロント Lチャンネルとフロント Rチャン ネルから行われる場合と、フロント Lチャンネルとバック Lチャンネルから行われる場合 とで、リスナーの弁別能力が異なることが予想される。
[0094] 符号化部 503は、このことを考慮して、チャンネル情報 207が、フロント Lチャンネル 及びフロント Rチャンネルを示す場合と、フロント Lチャンネル及びバック Lチャンネル を示す場合とで、異なる量子化を実施する。
[0095] このような量子化精度の切り替えを行うために、符号ィ匕部 503は、一例として、入力 値を量子化値へ変換する複数のテーブルを予め保持しておき、その中からチャンネ ル情報 207に応じた一つを用いる。このようなテーブルには、図 7で説明したテープ ルと同様のテーブルが使えるため、ここでは詳細な説明を省略する。 [0096] 以上説明したように、符号ィ匕部 503は、チャンネル情報 207に基づいて、リスナー が感じる音像までの距離感に関する弁別能力が反映された量子化精度 (つまり、正 面方向には細かぐ左右から背面方向に向かうにつれて荒くなる量子化精度)を決定 し、決定された量子化精度で、信号間相関度、信号間類似度、及び距離感推定値 のうちの少なくとも一つを量子化し符号ィ匕する。
[0097] このように構成された符号ィ匕方法を用いれば、人間の音像の距離感の特性に基づ いた符号ィ匕を実施でき、効率よく符号ィ匕を実施できる。
[0098] (実施例 4)
実施例 4のオーディオ信号符号化装置は、実施例 1と実施例 2、および実施例 3の オーディオ信号符号ィ匕装置を組み合わせて構成されるものである。
[0099] 実施例 4のオーディオ信号符号化装置は、図 3、図 6、および図 8に示される構成の 全てを兼ね備え、 2つの入力信号カゝら信号間レベル差、信号間位相差、信号間相関 度 (類似度)を算出し、チャンネル情報に基づいて、知覚方向および拡がり感、およ び距離感を推定し、チャンネル情報に応じて、量子化方法や量子化テーブルを切り 替えて、符号化を実施する。
[0100] なお、実施例 4では、実施例 1から実施例 3のうち、いずれかの 2つを組み合わせて ちょい。
[0101] (オーディオ復号化装置)
図 9は、本発明のオーディオ信号復号化装置の機能的な構成の一例を示すブロッ ク図である。このオーディオ信号復号化装置は、前述のオーディオ信号符号化装置 によって生成される混入信号情報 206、補助情報 205、及びチャンネル情報 207か ら、原音信号を近似する第 1出力信号 105及び第 2出力信号 106を復号する装置で あり、混入信号復号ィ匕部 102及び信号分離処理部 103からなる。
[0102] 本発明は、オーディオ信号符号化装置からオーディオ信号復号化装置へ、混入信 号情報 206、補助情報 205、及びチャンネル情報 207を移送する具体的な方法を限 定しないが、一例としては、混入信号情報 206、補助情報 205、及びチャンネル情報 207が、一つの放送ストリームに多重化されて送信され、オーディオ信号復号化装置 は、その放送ストリームを受信して多重分離することによって、混入信号情報 206、補 助情報 205、及びチャンネル情報 207を得るとしてもよ 、。
[0103] また、例えば、混入信号情報 206、補助情報 205、及びチャンネル情報 207が、記 録媒体に蓄積されており、オーディオ信号復号化装置は、その記録媒体から、混入 信号情報 206、補助情報 205、及びチャンネル情報 207を読み出すとしてもよい。
[0104] なお、チャンネル情報 207につ 、ては、オーディオ信号符号化装置とオーディオ信 号復号ィ匕装置の間でその規定値や規定の順番を予め取り決めておくことによって、 伝送を省略することも考えられる。
[0105] 混入信号復号ィ匕部 102は、符号ィ匕データの形式で表される混入信号情報 206を、 オーディオ信号の形式へと復号し、復号されたオーディオ信号を信号分離処理部 10 3へ出力する。混入信号復号ィ匕部 102は、前述のオーディオ信号符号化装置におけ る混入信号符号ィ匕部 203の逆変換を行うものであり、例えば、混入信号符号化部 20 3が混入信号情報 206を AACに従って生成する場合には、混入信号復号ィ匕部 102 もまた AACに定められる逆変換を行って前記オーディオ信号を得る。前記オーディ ォ信号の形式は、時間軸上の信号形式、周波数軸上の信号形式、及び時間と周波 数の両軸で表現される形式など力 選択されるものとし、本発明ではその形式を限定 しない。
[0106] 信号分離処理部 103は、混入信号復号ィ匕部 102から出力されるオーディオ信号か ら、補助情報 205及びチャンネル情報 207に基づいて、第 1出力信号 105と第 2出力 信号 106とを生成し、出力する。
[0107] 以下、信号分離処理部 103の詳細について説明する。
[0108] 図 10は、この実施例に係る信号分離処理部 103の機能的な構成を示すブロック図 である。
[0109] 信号分離処理部 103は、チャンネル情報 207に応じて異なる復号ィ匕方法を用いて 補助情報 205を復号ィ匕し、その復号結果を用いて第 1出力信号 105及び第 2出力信 号 106を生成する部であり、復号化方法切り替え部 705、信号間情報復号部 706、 及び信号合成部 707からなる。
[0110] 復号ィ匕方法切り替え部 705は、チャンネル情報 207を入力されると、そのチャンネ ル情報 207に基づいて、信号間情報復号部 706に対して復号ィ匕方法の切り替えを 指示する。
[0111] 信号間情報復号部 706は、復号化方法切り替え部 705からの指示に従って切り替 えた復号ィ匕方法を用いて、補助情報 702を信号間情報に復号ィ匕する。この信号間 情報は、実施例 1から実施例 3で説明した、信号間レベル差、信号間位相差、信号 間相関度などである。信号間情報復号部 706は、オーディオ信号符号化装置におけ る符号ィ匕部と同様に、量子化点を表すテーブルを切り替えることによって復号ィ匕方法 を切り替えることができる。他にも、例えば量子化の逆関数や、復号ィ匕の手続きその ものを切り替えることによって復号ィ匕方法を切り替えてもよい。
[0112] 信号合成部 707は、混入信号復号ィ匕部 704の出力信号であるオーディオ信号から 、前記信号間情報によって表される信号間レベル差、信号間位相差、及び信号間相 関度を持った第 1出力信号 105と第 2出力信号 106とを生成する。この生成には、前 記オーディオ信号を複製して得た 2つの信号に、前記信号間レベル差の半分をそれ ぞれ逆方向に与え、前記信号間位相差の半分をそれぞれ逆方向に与え、さらに、レ ベル差及び位相差を付与後の 2つの信号を前記信号間相関度に応じて混入する、 t 、つた周知の方法を適宜用いればょ 、。
[0113] このように構成された復号ィ匕方法を用いれば、チャンネル情報を反映した効率のよ Vヽ復号化方法が達成でき、高音質な複数信号を得ることが可能となる。
[0114] また、この復号化方法は、 1チャンネルのオーディオ信号を 2チャンネルのオーディ ォ信号にすることだけでなぐ nチャンネルのオーディオ信号を、 nより多いチャンネル のオーディオ信号に生成することに用いることが可能である。たとえば、 2チャンネル のオーディオ信号から 6チャンネルのオーディオ信号を得る場合や、 1チャンネルの オーディオ信号から 6チャンネルのオーディオ信号を得る場合などでも有効である。 産業上の利用可能性
[0115] また、本発明のオーディオ信号復号化装置、オーディオ信号符号化装置、及びそ れらの方法は、オーディオ符号ィ匕されたビットストリームを伝送するシステム、例えば、 放送コンテンツの伝送システム、 DVDや SDカードなどの蓄積媒体に音声情報を記 録、再生するシステム、携帯電話に代表される通信機器に AVコンテンツを伝送する システムなどに利用できる。また、インターネット上でやりとりされる電子データとして、 オーディオ信号を伝送するシステムにお 、ても利用できる。

Claims

請求の範囲
[1] 複数のチャンネルそれぞれの原音信号を、前記原音信号の全体的な特徴を表す 混入信号情報と、個々の原音信号間の関係に基づく特徴量を表す補助情報とに符 号化するオーディオ信号符号化装置であって、
前記原音信号を混入して得た混入信号を符号化することによって前記混入信号情 報を生成する混入信号符号化手段と、
前記原音信号に基づいて前記特徴量を算出すると共に、各チャンネルの音声のリ スナ一からみた再生位置を示すチャンネル情報が与えられると、与えられたチャンネ ル情報によって示される各再生位置の配置の関係に応じて異なる符号化方法を決 定し、前記決定された符号ィ匕方法を用いて前記算出された特徴量を符号ィ匕すること によって前記補助情報を生成する補助情報生成手段と
を備えることを特徴とするオーディオ信号符号ィ匕装置。
[2] 前記補助情報生成手段は、異なる量子化精度が得られる量子化点を定義する複 数のテーブルを予め記憶しており、前記特徴量を、前記複数のテーブルのうちの前 記チャンネル情報によって示される各再生位置の配置の関係に応じた一つによって 定義される量子化点に量子化することによって符号化する
ことを特徴とする請求項 1に記載のオーディオ信号符号ィ匕装置。
[3] 前記補助情報生成手段は、前記原音信号間のレベル差及び位相差の少なくとも 一方を算出して前記特徴量とする
ことを特徴とする請求項 1に記載のオーディオ信号符号ィ匕装置。
[4] 前記補助情報生成手段は、前記原音信号間のレベル差及び位相差の両方を算出 し、前記算出されたレベル差及び位相差に基づいて、リスナーが知覚すると推定され る音像の方向を算出して前記特徴量とする
ことを特徴とする請求項 3に記載のオーディオ信号符号ィ匕装置。
[5] 前記補助情報生成手段は、リスナーの正面方向から左右対称に設けられる量子化 点を定義する第 1のテーブルと、リスナーの左方向から前後非対称に設けられる量子 化点を定義する第 2のテーブルとを予め記憶しており、前記チャンネル情報がリスナ 一の左前方と右前方とを示す場合には、前記特徴量を前記第 1のテーブルによって 定義される量子化点に量子化することによって符号ィ匕し、前記チャンネル情報がリス ナ一の左前方と左後方とを示す場合には、前記特徴量を前記第 2のテーブルによつ て定義される量子化点に量子化することによって符号化する
ことを特徴とする請求項 3に記載のオーディオ信号符号ィ匕装置。
[6] 前記補助情報生成手段は、前記原音信号間の類似度を算出して前記特徴量とす る
ことを特徴とする請求項 1に記載のオーディオ信号符号ィ匕装置。
[7] 前記補助情報生成手段は、前記原音信号間の相互相関値、又はその絶対値を、 前記類似度として算出する
ことを特徴とする請求項 6に記載のオーディオ信号符号化装置。
[8] 前記補助情報生成手段は、前記算出された類似度に基づいて、リスナーが知覚す ると推定される音像の拡がり感及び距離感の少なくとも一方を算出して前記特徴量と する
ことを特徴とする請求項 6に記載のオーディオ信号符号化装置。
[9] 複数のチャンネルそれぞれの原音信号の全体的な特徴を表す混入信号情報と、 個々の原音信号間の関係に基づく特徴量を表す補助情報とを、前記複数のチャン ネルそれぞれの再生信号に復号化するオーディオ信号復号化装置であって、 各チャンネルの音声のリスナー力 みた再生位置を示すチャンネル情報が与えら れると、与えられたチャンネル情報によって示される各再生位置の配置の関係に応じ て異なる復号化方法を決定する復号化方式切り替え手段と、
前記決定された復号化方法を用いて前記補助情報を前記特徴量に復号化する信 号間情報復号手段と、
前記混入信号情報と前記復号化された特徴量とを用いて、前記複数のチャンネル それぞれの再生信号を生成する信号合成手段と
を備えることを特徴とするオーディオ信号復号ィ匕装置。
[10] 前記補助情報は、前記特徴量を、異なる量子化精度が得られる量子化点を定義す る複数のテーブルのうち前記チャンネル情報によって示される各再生位置の配置の 関係に応じた一つによって定義される量子化点に量子化することによって符号ィ匕さ れており、
前記信号間情報復号手段は、前記複数のテーブルを予め記憶しており、前記複数 のテーブルのうちの前記チャンネル情報によって示される各再生位置の配置の関係 に応じた一つを用いて、前記補助情報を前記特徴量に復号化する
ことを特徴とする請求項 9に記載のオーディオ信号復号ィ匕装置。
[11] 前記特徴量は、前記原音信号間のレベル差、位相差、及び、リスナーが知覚すると 推定される音像の方向の少なくとも一つを表し、
前記信号間情報復号手段は、リスナーの正面方向から左右対称に設けられる量子 化点を定義する第 1のテーブルと、リスナーの左方向から前後非対称に設けられる量 子化点を定義する第 2のテーブルとを予め記憶しており、前記チャンネル情報がリス ナ一の左前方と右前方とを示す場合には、前記第 1のテーブルを用いて前記補助情 報を前記特徴量に復号化し、前記チャンネル情報がリスナーの左前方と左後方とを 示す場合には、前記第 2のテーブルを用いて前記補助情報を前記特徴量に復号ィ匕 する
ことを特徴とする請求項 10に記載のオーディオ信号復号ィ匕装置。
[12] 前記特徴量は、前記原音信号間のレベル差、位相差、類似性、及び、リスナーが 知覚すると推定される音像の方向、拡がり感、並びに距離感の少なくとも一つを表す ことを特徴とする請求項 9に記載のオーディオ信号復号ィ匕装置。
[13] 前記信号合成手段は、前記特徴量が、前記原音信号間のレベル差、位相差、及 び類似性の少なくとも一つを表す場合に、前記混入信号情報によって表される音声 信号に前記特徴量に応じたレベル差、位相差、及び類似性を与えることによって、前 記再生信号を生成する
ことを特徴とする請求項 12に記載のオーディオ信号復号ィ匕装置。
[14] 複数のチャンネルそれぞれの原音信号を、前記原音信号の全体的な特徴を表す 混入信号情報と、個々の原音信号間の関係に基づく特徴量を表す補助情報とに符 号化するオーディオ信号符号化方法であって、
前記原音信号を混入して得た混入信号を符号化することによって前記混入信号情 報を生成する混入信号符号化ステップと、 前記原音信号に基づいて前記特徴量を算出すると共に、各チャンネルの音声のリ スナ一からみた再生位置を示すチャンネル情報が与えられると、与えられたチャンネ ル情報によって示される各再生位置の配置の関係に応じて異なる符号化方法を決 定し、前記決定された符号ィ匕方法を用いて前記算出された特徴量を符号ィ匕すること によって前記補助情報を生成する補助情報生成ステップと
を含むことを特徴とするオーディオ信号符号ィ匕方法。
[15] 複数のチャンネルそれぞれの原音信号の全体的な特徴を表す混入信号情報と、 個々の原音信号間の関係に基づく特徴量を表す補助情報とを、前記複数のチャン ネルそれぞれの再生信号に復号ィ匕するオーディオ信号復号ィ匕方法であって、 各チャンネルの音声のリスナー力 みた再生位置を示すチャンネル情報が与えら れると、与えられたチャンネル情報によって示される各再生位置の配置の関係に応じ て異なる復号化方法を決定する復号化方式切り替えステップと、
前記決定された復号化方法を用いて前記補助情報を前記特徴量に復号化する信 号間情報復号ステップと、
前記混入信号情報と前記復号化された特徴量とを用いて、前記複数のチャンネル それぞれの再生信号を生成する信号合成ステップと
を含むことを特徴とするオーディオ信号復号ィ匕方法。
[16] 複数のチャンネルそれぞれの原音信号を、前記原音信号の全体的な特徴を表す 混入信号情報と、個々の原音信号間の関係に基づく特徴量を表す補助情報とに符 号ィ匕するための、コンピュータ実行可能なプログラムであって、
前記原音信号を混入して得た混入信号を符号化することによって前記混入信号情 報を生成する混入信号符号化ステップと、
前記原音信号に基づいて前記特徴量を算出すると共に、各チャンネルの音声のリ スナ一からみた再生位置を示すチャンネル情報が与えられると、与えられたチャンネ ル情報によって示される各再生位置の配置の関係に応じて異なる符号化方法を決 定し、前記決定された符号ィ匕方法を用いて前記算出された特徴量を符号ィ匕すること によって前記補助情報を生成する補助情報生成ステップと
をコンピュータに実行させることを特徴とするプログラム。
[17] 複数のチャンネルそれぞれの原音信号の全体的な特徴を表す混入信号情報と、 個々の原音信号間の関係に基づく特徴量を表す補助情報とを、前記複数のチャン ネルそれぞれの再生信号に復号ィ匕するためのコンピュータ実行可能なプログラムで あって、
各チャンネルの音声のリスナー力 みた再生位置を示すチャンネル情報が与えら れると、与えられたチャンネル情報によって示される各再生位置の配置の関係に応じ て異なる復号化方法を決定する復号化方式切り替えステップと、
前記決定された復号化方法を用いて前記補助情報を前記特徴量に復号化する信 号間情報復号ステップと、
前記混入信号情報と前記復号化された特徴量とを用いて、前記複数のチャンネル それぞれの再生信号を生成する信号合成ステップと
をコンピュータに実行させることを特徴とするプログラム。
[18] 請求項 16及び請求項 17の少なくとも一方に記載のプログラムを格納していることを 特徴とするコンピュータ読み取り可能な記録媒体。
PCT/JP2005/012221 2004-07-06 2005-07-01 オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプログラム WO2006004048A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/589,818 US20070160236A1 (en) 2004-07-06 2005-07-01 Audio signal encoding device, audio signal decoding device, and method and program thereof
JP2006519623A JPWO2006004048A1 (ja) 2004-07-06 2005-07-01 オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-199819 2004-07-06
JP2004199819 2004-07-06

Publications (1)

Publication Number Publication Date
WO2006004048A1 true WO2006004048A1 (ja) 2006-01-12

Family

ID=35782852

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/012221 WO2006004048A1 (ja) 2004-07-06 2005-07-01 オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプログラム

Country Status (4)

Country Link
US (1) US20070160236A1 (ja)
JP (1) JPWO2006004048A1 (ja)
CN (1) CN1922655A (ja)
WO (1) WO2006004048A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007221216A (ja) * 2006-02-14 2007-08-30 Oki Electric Ind Co Ltd ミックスダウン方法およびミックスダウン装置
JP2007310087A (ja) * 2006-05-17 2007-11-29 Mitsubishi Electric Corp 音声符号化装置及び音声復号装置
WO2009025023A1 (ja) * 2007-08-20 2009-02-26 Pioneer Corporation 音像定位予測装置及び音像定位制御システム並びに音像定位予測方法及び音像定位制御方法
KR20140047005A (ko) * 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
JP2018534625A (ja) * 2015-11-20 2018-11-22 クアルコム,インコーポレイテッド 複数のオーディオ信号の符号化
JP2022505964A (ja) * 2018-10-26 2022-01-14 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 方向性音量マップベースのオーディオ処理

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2623551T3 (es) * 2005-03-25 2017-07-11 Iii Holdings 12, Llc Dispositivo de codificación de sonido y procedimiento de codificación de sonido
WO2009050896A1 (ja) * 2007-10-16 2009-04-23 Panasonic Corporation ストリーム合成装置、復号装置、方法
US20110282674A1 (en) * 2007-11-27 2011-11-17 Nokia Corporation Multichannel audio coding
CN101350931B (zh) 2008-08-27 2011-09-14 华为终端有限公司 音频信号的生成、播放方法及装置、处理系统
CN103718466B (zh) 2011-08-04 2016-08-17 杜比国际公司 通过使用参量立体声改善fm立体声无线电接收器
CN103812824A (zh) * 2012-11-07 2014-05-21 中兴通讯股份有限公司 音频多编码传输方法及相应装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08275300A (ja) * 1995-03-30 1996-10-18 Yamaha Corp 音場制御装置
JP2000505266A (ja) * 1996-07-12 2000-04-25 フラオホッフェル―ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. ステレオ音響スペクトル値の符号化・解読方法
JP2000295698A (ja) * 1999-04-08 2000-10-20 Matsushita Electric Ind Co Ltd バーチャルサラウンド装置
JP2002229598A (ja) * 2001-02-01 2002-08-16 Matsushita Electric Ind Co Ltd ステレオ符号化信号復号化装置及び復号化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4222623C2 (de) * 1992-07-10 1996-07-11 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern von digitalisierten Tonsignalen
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08275300A (ja) * 1995-03-30 1996-10-18 Yamaha Corp 音場制御装置
JP2000505266A (ja) * 1996-07-12 2000-04-25 フラオホッフェル―ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. ステレオ音響スペクトル値の符号化・解読方法
JP2000295698A (ja) * 1999-04-08 2000-10-20 Matsushita Electric Ind Co Ltd バーチャルサラウンド装置
JP2002229598A (ja) * 2001-02-01 2002-08-16 Matsushita Electric Ind Co Ltd ステレオ符号化信号復号化装置及び復号化方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007221216A (ja) * 2006-02-14 2007-08-30 Oki Electric Ind Co Ltd ミックスダウン方法およびミックスダウン装置
JP2007310087A (ja) * 2006-05-17 2007-11-29 Mitsubishi Electric Corp 音声符号化装置及び音声復号装置
WO2009025023A1 (ja) * 2007-08-20 2009-02-26 Pioneer Corporation 音像定位予測装置及び音像定位制御システム並びに音像定位予測方法及び音像定位制御方法
JP5031840B2 (ja) * 2007-08-20 2012-09-26 パイオニア株式会社 音像定位予測装置及び音像定位制御システム並びに音像定位予測方法及び音像定位制御方法
US9836269B2 (en) 2012-10-11 2017-12-05 Electronics And Telecommunications Research Institute Device and method for generating audio data, and device and method for playing audio data
JP2015534656A (ja) * 2012-10-11 2015-12-03 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute オーディオデータ生成装置及び方法、オーディオデータ再生装置及び方法
KR20140047005A (ko) * 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
US10282160B2 (en) 2012-10-11 2019-05-07 Electronics And Telecommunications Research Institute Apparatus and method for generating audio data, and apparatus and method for playing audio data
KR102149411B1 (ko) * 2012-10-11 2020-08-31 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
JP2018534625A (ja) * 2015-11-20 2018-11-22 クアルコム,インコーポレイテッド 複数のオーディオ信号の符号化
JP2019207430A (ja) * 2015-11-20 2019-12-05 クアルコム,インコーポレイテッド 複数のオーディオ信号の符号化
US10586544B2 (en) 2015-11-20 2020-03-10 Qualcomm Incorporated Encoding of multiple audio signals
US11094330B2 (en) 2015-11-20 2021-08-17 Qualcomm Incorporated Encoding of multiple audio signals
JP2022505964A (ja) * 2018-10-26 2022-01-14 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 方向性音量マップベースのオーディオ処理

Also Published As

Publication number Publication date
JPWO2006004048A1 (ja) 2008-04-24
US20070160236A1 (en) 2007-07-12
CN1922655A (zh) 2007-02-28

Similar Documents

Publication Publication Date Title
WO2006004048A1 (ja) オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプログラム
JP5694279B2 (ja) 符号化装置
JP5081838B2 (ja) オーディオ符号化及び復号
RU2618383C2 (ru) Кодирование и декодирование аудиообъектов
Faller Coding of spatial audio compatible with different playback formats
JP5134623B2 (ja) 複数のパラメータ的に符号化された音源を合成するための概念
JP4589962B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
JP6039516B2 (ja) 多チャンネルオーディオ信号処理装置、多チャンネルオーディオ信号処理方法、圧縮効率向上方法及び多チャンネルオーディオ信号処理システム
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
JP5638037B2 (ja) オーディオソースのパラメトリックジョイント符号化
TWI415111B (zh) 空間解碼器單元、空間解碼器裝置、音訊系統、消費型電子裝置、產生一對雙耳輸出聲道之方法及電腦可讀媒體
JP2010515099A5 (ja)
MX2011000371A (es) Uso eficaz de la informacion de fase en la codificacion y decodificacion de audio.
KR20090053958A (ko) 멀티 채널 파라미터 변환 장치 및 방법
WO2005122639A1 (ja) 音響信号符号化装置および音響信号復号装置
WO2005112002A1 (ja) オーディオ信号符号化装置及びオーディオ信号復号化装置
JP2009531955A (ja) フィルタ適応周波数分解能
CN112005560B (zh) 使用元数据处理音频信号的方法和设备
KR20080078907A (ko) 양 귀 오디오 신호들의 복호화 제어
WO2006011367A1 (ja) オーディオ信号符号化装置および復号化装置
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
Breebaart et al. 19th INTERNATIONAL CONGRESS ON ACOUSTICS MADRID, 2-7 SEPTEMBER 2007

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 2006519623

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007160236

Country of ref document: US

Ref document number: 10589818

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 200580005519.8

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWP Wipo information: published in national office

Ref document number: 10589818

Country of ref document: US

122 Ep: pct application non-entry in european phase