WO2005122639A1 - 音響信号符号化装置および音響信号復号装置 - Google Patents

音響信号符号化装置および音響信号復号装置 Download PDF

Info

Publication number
WO2005122639A1
WO2005122639A1 PCT/JP2005/010811 JP2005010811W WO2005122639A1 WO 2005122639 A1 WO2005122639 A1 WO 2005122639A1 JP 2005010811 W JP2005010811 W JP 2005010811W WO 2005122639 A1 WO2005122639 A1 WO 2005122639A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
channel
downmix
coefficient table
unit
Prior art date
Application number
PCT/JP2005/010811
Other languages
English (en)
French (fr)
Inventor
Yoshiaki Takagi
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to EP05748600A priority Critical patent/EP1768451A4/en
Priority to US11/570,471 priority patent/US20080052089A1/en
Publication of WO2005122639A1 publication Critical patent/WO2005122639A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Definitions

  • the present invention relates to an audio signal encoding device that encodes a multi-channel signal and an audio signal decoding device that decodes an encoded signal.
  • an audio encoder sound signal encoding device
  • R & D converting a multi-channel signal into a signal with a reduced number of channels is generally referred to as downmitting.
  • a multi-channel encoder and a multi-channel decoder based on the MPEG2 audio standard have been researched and developed. This multi-channel encoder performs the following operations:
  • the first encoded signal and the second encoded signal are encoded as a second encoded signal, respectively.
  • the conventional inexpensive decoder (decoding device) for reproducing two-channel signals is capable of decoding only the first encoded signal L0 R0.
  • the multi-channel decoder is capable of performing the following operations, that is,
  • the original multi-channel signal L R 1 r is decoded from the first coded signal LO RO and the second coded signal 10 rO using [0006].
  • a sub-stream of a signal L0 R0 down-mixed into two channels by inputting a multi-channel signal and a down-mixed signal L0 A signal for returning R0 to a multi-channel signal
  • a 10 rO sub-stream After encoding into two sub-streams, a 10 rO sub-stream, a multi-channel encoder that multiplexes them into one stream, and two encoders that encode the multiplexed stream
  • the signal is divided into sub-streams that have been down-mixed, and the down-mixed signal L0 R0 is decoded into one of the two channels.
  • the 2-channel decoder performs the decoding process on the down-mixed 2-channel signal. At the same time as the sub-channel of the signal L0 R0 downmixed into two channels.
  • a multi-channel decoder that can decode the original multi-channel signal using two sub-streams: a stream and a sub-stream of 10 rO to convert the down-mixed signal L0 R0 back to a multi-channel signal.
  • an acoustic signal decoding apparatus constituting a conventional 2-channel decoder and a multi-channel decoder when reproducing a down-mixed 2-channel signal after reproducing the original spatial information.
  • Fig. 7 shows a block diagram of this.
  • a down-converted signal obtained by down-mixing a multi-channel signal having a predetermined number of channels is referred to as a “down-mix signal”.
  • the audio signal decoding device 70 includes a demultiplexing unit 71 that extracts a bitstream B power downmix encoded signal and an auxiliary information encoded signal, and the downmix code A first decoding unit 72 that generates down-mix signals LO and RO, which are audio signals in the frequency domain of two channels from the dangling signal, and a second decoding unit 73 that generates auxiliary information 10 and rO from the encoded auxiliary information signal.
  • a high-quality 2-channel audio system that has a function simulation unit 77 and reproduces the original spatial information that can be viewed with headphones, etc., by performing spatial information synthesis processing calculations in the head-related transfer function simulation unit 77.
  • Signals L1 and R1 can be obtained.
  • Patent Document 1 Japanese Patent Application Publication No. 2002-541524
  • the decoded downmix signal is downmixed by a predetermined matrix operation at each sample time, so that the spatial information of the original multi-channel signal is lost. Has been done. Therefore, when trying to reproduce a high-quality two-channel signal that reproduces the original spatial information, that is, when reproducing a two-channel signal that has been subjected to virtual surround processing, the sound signal decoding device described above is used. Then, once the multi-channel signal was decoded using the first coded signals L0 and R0 and the second coded signals 10 and rO, it was simulated in the coefficient table 76 by the head-related transfer function simulating unit 77. There is a problem that spatial information needs to be filtered based on the head-related transfer function, and a great deal of arithmetic processing must be spent on this filtering.
  • the present invention has been made in order to solve such a conventional problem, and an audio signal code that generates encoded information that can reproduce the original multi-channel spatial information simply by reproducing a downmix signal. It is an object of the present invention to provide an audio signal decoding apparatus that reproduces the original multi-channel spatial information simply by reproducing a downmix signal from a video signal and a video signal.
  • An audio signal encoding apparatus includes a time-frequency conversion unit that converts an N-channel signal into a frequency domain, and a two-channel signal that downmixes the N-channel frequency domain signal.
  • First signal output means for generating a downmix signal
  • second signal output means for generating auxiliary information for converting the downmix signal back to a multi-channel signal
  • a first encoding means for encoding the downmix signal.
  • a first encoding unit that generates a signal
  • a second encoding unit that encodes the auxiliary information to generate a second encoded signal, and multiplexes the first encoded signal and the second encoded signal.
  • a multiplexing means and a coefficient table in which coefficients for realizing transfer characteristics are described for each frequency, wherein N is an integer of 3 or more, and the coefficient table is a square matrix of NXN,
  • the channel includes a coefficient represented by a 2 XN matrix that simulates the head transfer characteristic at the time of reproduction, and the remaining coefficients represented by the (N-2) XN matrix are the coefficients represented by the 2 XN matrix.
  • the first signal output means is configured to down-mix the N-channel frequency domain signal to the two-channel signal according to the coefficient table, and the second signal output means includes The auxiliary information of the downmix signal is generated according to the coefficient table.
  • the downmix signal becomes a signal that has been filtered with a desired transfer function. Even when only the first encoded signal is reproduced, the spatial information of the multi-channel signal is reflected and the second mixed signal is reflected.
  • the original multi-channel signal is An encoded signal to be reproduced can be generated.
  • the audio signal encoding apparatus of the present invention includes a plurality of the coefficient tables each including a coefficient that realizes the different transfer characteristic, and further includes a coefficient table selecting unit that selects the coefficient table according to a use.
  • the multiplexing unit multiplexes, together with the first coded signal and the second coded signal, an index indicating the coefficient table selected by the coefficient table selecting unit. It may have the configuration described.
  • the coefficient table is selected in accordance with the purpose, and an index for specifying the selected coefficient table is multiplexed. Can be transmitted to.
  • the audio signal decoding device is characterized in that: the demultiplexing means for extracting only the downmix code in the bit stream generated by the audio signal encoding device; and the downmix code.
  • Decoding means for generating an audio signal in the frequency domain of two channels from the frequency domain, and frequency-time conversion means for generating an audio signal in the time domain from the audio signal in the frequency domain.
  • the audio signal decoding apparatus of the present invention includes: a demultiplexing unit that extracts a bit stream power downmix code and an auxiliary information code generated by the audio signal encoding apparatus; First decoding means for generating a downmix signal that is an audio signal in the frequency domain of a channel, second decoding means for generating auxiliary information from the auxiliary information code, and a signal from the downmix signal and the auxiliary information.
  • Inverse mixing means for generating a multi-channel signal
  • frequency-to-time conversion means for generating a time-domain audio signal from the multi-channel signal, and a 2 ⁇ N matrix simulating head transfer characteristics during multi-channel reproduction.
  • NXN square matrix A coefficient table which is an inverse matrix, and wherein the inverse mixing means generates the multi-channel signal using the coefficient table.
  • the downmix signal and the auxiliary information are extracted and decoded, and the downmix signal and the auxiliary information are extracted using a coefficient table that is an inverse matrix of a matrix that simulates the head-related transfer characteristics. Since the multi-channel signal is generated from the signal, the original multi-channel signal can be reproduced even if the down-mix signal is a signal including a transfer characteristic.
  • the audio signal decoding device of the present invention includes an output channel switching means for selectively switching between outputting the downmix signal and outputting the multi-channel signal, and the frequency-time converting means includes The signal power selectively output to the output channel switching means may be configured to generate the audio signal in the time domain.
  • the acoustic signal encoding device of the present invention may be configured so that the coefficient table includes a coefficient simulating a spatial transfer characteristic.
  • the present invention provides first signal output means for downmixing an N-channel frequency domain signal to generate a two-channel downmix signal, and auxiliary information for returning the downmix signal to a multi-channel signal.
  • a second signal output unit for generating, a multiplexing unit for multiplexing the first encoded signal generated by encoding the downmix signal and a second encoded signal generated by encoding the auxiliary information,
  • a coefficient table in which coefficients for realizing characteristics are described for each frequency, wherein N is an integer of 3 or more, and the first signal output means and the second signal output means perform the information processing according to the coefficient table.
  • the downmix signal becomes a signal filtered with a desired transfer function.
  • FIG. 1 is a block diagram of an audio signal encoding device according to a first embodiment of the present invention.
  • FIG. 3 is a block diagram of an audio signal encoding device according to a second embodiment of the present invention.
  • FIG. 4 is a block diagram of an audio signal decoding device according to a third embodiment of the present invention.
  • FIG. 5 is a block diagram of an audio signal decoding device according to a fourth embodiment of the present invention.
  • FIG. 6 is a block diagram of an audio signal decoding device according to a fifth embodiment of the present invention.
  • FIG. 7 is a block diagram of a conventional acoustic signal decoding apparatus that reproduces spatial information using an encoded signal.
  • the audio signal coding apparatus 10 includes a time-frequency conversion unit 11 for converting an N-channel multi-channel signal into a frequency domain signal, A first signal output section 12 for downmixing the frequency domain signal of the channel to generate a downmix signal of two channels, and a first note for encoding the downmix signal; A first encoding unit 13 for generating an encoded signal; a second signal output unit 14 for generating auxiliary information for returning the downmix signal to the original N-channel multi-channel signal; and encoding the auxiliary information.
  • a second encoding unit 15 that generates a second encoded signal, a multiplexing unit 16 that multiplexes the first encoded signal and the second encoded signal, and a coefficient that realizes transfer characteristics.
  • a coefficient table 17 described for each frequency is provided.
  • N is an integer of 3 or more, and the coefficient table 17 is stored in a storage medium such as a memory (not shown).
  • the input N-channel multi-channel signals are four-channel signals of a front left sound signal L, a front right sound signal R, a rear left sound signal 1, and a rear right sound signal r. Power.
  • the time-frequency converter 11 converts the input four-channel signals L, R, 1, and r into a method represented by a Fourier transform, a discrete cosine transform, a sub-band filter, or the like. To convert it into a signal in the frequency domain.
  • the first signal output unit 12 expresses the frequency-domain signal converted by the time-frequency conversion unit 11 by using a coefficient stored in the coefficient table 17 and expressed by an equation (Equation 3). Downmix by calculation.
  • the coefficients a, b, c, and d used here are the head-related transfer functions shown in FIG. 2, and are represented by a 2 ⁇ N matrix.
  • a front left speaker 61, a front right speaker 62, a rear left speaker 63, and a rear right speaker 64 are provided for a listener's head 65.
  • L is output from the front left speaker.
  • R is the signal output from the right front speaker, 1 is the signal output from the left rear speaker, r is the signal output from the right rear speaker, Le is the signal reaching the left ear, and Re is , Indicates the signal reached the right ear.
  • the coefficient a is a transfer characteristic from the front left speaker 61 to the left ear
  • the coefficient b is a transfer characteristic from the front right speaker 62 to the left ear
  • the coefficient c is a transfer characteristic from the rear left speaker 63 to the left ear
  • the coefficient d is a transfer characteristic from the right rear speaker 64 to the left ear, and a set of these is called a “head-related transfer function”.
  • the first encoding unit 13 encodes the downmix signals LO and RO output from the first signal output unit 12, and performs the first encoding. Generate a signal.
  • the encoding performed by the first encoding unit 13 may be, for example, an encoding method defined by the MPEG standard or the like.
  • the second signal output unit 14 calculates the frequency domain signal converted by the time-frequency conversion unit 11 using the coefficients stored in the coefficient table 17 using an operation represented by the following equation (Formula 4).
  • auxiliary information 10, rO for returning the down-mixed signal to a multi-channel signal is generated.
  • the coefficients a, b, c, and d used here are represented by (N ⁇ 2) ⁇ N, that is, a 2 ⁇ N matrix in the present embodiment.
  • the second encoding unit 15 encodes the auxiliary information 10 and rO output from the second signal output unit 14 to generate a second encoded signal.
  • the encoding method by the second encoding unit 15 may be the encoding method defined by the MPEG standard or the like, like the first encoding unit 13.
  • the multiplexing unit 16 compares the first encoded signal generated by the first encoding unit 13 with the second encoded signal. And multiplexes the second encoded signal generated by the encoding unit 15 to generate one bit stream B.
  • Equation (Equation 7) is obtained
  • Equation 9 Equation 9
  • Equation 10 Equation 10
  • a coefficient table 17 including a coefficient represented by a 2 ⁇ N matrix that simulates head transfer characteristics during multi-channel signal reproduction, and a coefficient table A first signal output unit 12 for downmixing the N-channel frequency domain signal to generate a two-channel downmix signal according to 17 and a second signal output unit for generating auxiliary information for returning the downmix signal to a multi-channel signal
  • the downmix signal becomes a signal that has been filtered with a desired transfer function, and the spatial information of the multi-channel signal is reflected even when only the first encoded signal is reproduced.
  • an encoded signal capable of reproducing the original multi-channel signal can be generated.
  • audio signal coding apparatus 20 includes a time-frequency conversion unit 21 that converts an N-channel multi-channel signal into a frequency domain signal, and a converted N-frequency signal.
  • a first signal output unit 22 for downmixing the channel frequency domain signal to generate a two-channel downmix signal, and a first encoding unit 23 for encoding the downmix signal to generate a first encoded signal;
  • Multi-channel downmix signal A second signal output unit 24 for generating auxiliary information for returning to a signal; a second encoding unit 25 for encoding the auxiliary information to generate a second encoded signal; and a first signal output unit 22 according to purpose.
  • a coefficient table selecting section 26 for selecting a transfer function to be used in the second signal output section 24, a plurality of coefficient table groups 27 in which coefficients for realizing various transfer characteristics are described for each frequency, and a coefficient table A third encoding unit 28 that generates a third encoded signal serving as an index for specifying the coefficient table selected by the selecting unit 26; the first encoded signal, the second encoded signal, and the third encoded signal.
  • a multiplexing unit 29 for multiplexing the encoded signal.
  • N is an integer of 3 or more
  • the coefficient table group 27 is shown in the figure, and is assumed to be stored in a storage medium such as a memory.
  • time-frequency conversion unit 21, the first signal output unit 22, the first encoding unit 23, the second signal output unit 24, and the second encoding unit 25 perform the time-frequency conversion described in the first embodiment. It is the same as the unit 11, the first signal output unit 12, the first encoding unit 13, the second signal output unit 14, and the second encoding unit 15, respectively.
  • the input N-channel multi-channel signals are divided into four-channel signals of a front left sound signal L, a front right sound signal R, a rear left sound signal 1, and a rear right sound signal r. Power.
  • the time-frequency converter 21 converts the input four-channel signals into frequency-domain signals using a method represented by a Fourier transform, a discrete cosine transform, a sub-band filter, or the like. Convert.
  • the coefficient table selecting section 26 selects, from the plurality of coefficient table groups 27, a coefficient table in which the coefficients constituting the transfer characteristics to be simulated in the first signal output section 22 are described.
  • the plurality of coefficient table groups 27 include various coefficients that simulate the head transfer characteristics during reproduction. This makes it possible to select an appropriate coefficient table according to the size of the user's head, such as when using headphones or two speakers, so that, for example, whether the user is an adult or a child, This makes it possible to reproduce 2-channel signals that have been subjected to simple virtual surround processing.
  • the plurality of coefficient tables 27 may include a space transfer coefficient that simulates a space transfer characteristic of a space where sound is heard only with a head transfer coefficient to be simulated. This allows you to use two speakers. For example, it is possible to reproduce 2-channel signals that have been subjected to appropriate virtual surround processing according to the size of the room.
  • the first signal output unit 22 converts the frequency-domain signal converted by the time-frequency conversion unit 21 using the coefficient stored in the coefficient table selected by the coefficient table selection unit 26,
  • the downmix is performed by the calculation of
  • the coefficients a, b, c, d used here are represented by a 2 ⁇ N matrix.
  • first encoding unit 23 encodes the downmix signal output from first signal output unit 22, and generates a first encoded signal.
  • the encoding performed by the first encoding unit 23 may be an encoding method defined by the MPEG standard or the like, similarly to the first encoding unit 13 in the first embodiment.
  • the second signal output unit 24 uses the frequency-domain signal converted by the time-frequency conversion unit 21 by using the coefficient stored in the coefficient table selected by the coefficient table selection unit 26,
  • auxiliary information for returning the downmixed signal to a multi-channel signal is generated.
  • the coefficients a, b, c, and d used here are represented by (N ⁇ 2) XN, that is, 2 ⁇ N matrix in the present embodiment! /.
  • the second encoding unit 25 encodes the auxiliary information output from the second signal output unit 24 to generate a second encoded signal.
  • the encoding performed by the second encoding unit 25 may be an encoding system defined by the MPEG standard or the like, similarly to the first encoding unit 23.
  • the index n such as a table number, by which the coefficient selected by the coefficient table selecting section 26 can refer to a force simulating what kind of transfer characteristic is set by the third encoding section 28 to the third It is described as an encoded signal.
  • multiplexing section 29 outputs the first encoded signal generated by first encoding section 23, the second encoded signal generated by second encoding section 25, and the third encoded signal.
  • the bit stream B is generated by multiplexing the third encoded signal generated by the unit 28.
  • a plurality of coefficient table groups 27 in which coefficients for realizing various transfer characteristics are described for each frequency, and the plurality of coefficient tables
  • a third encoding unit 28 that generates a third encoded signal serving as an index for identifying the coefficient table selected by the coefficient table selecting unit 26.
  • FIG. 4 a configuration diagram of an audio signal decoding device according to a third embodiment of the present invention is shown in FIG. 4 and described.
  • audio signal decoding apparatus 30 converts a downmix signal from bit stream B in which a first encoded signal and a second encoded signal are multiplexed.
  • a demultiplexing unit 31 that extracts only the first encoded signal and a second encoded signal from the first encoded signal;
  • a decoding unit 32 that generates a first signal that is an audio signal in the frequency domain of a channel, and a frequency-time conversion unit 33 that generates audio signals L ′ and R ′ in the first signal time domain.
  • the first coded signal is a signal in which a downmix signal is coded
  • the second coded signal is auxiliary information for returning the downmix signal to a multi-channel signal. Is an encoded signal.
  • the demultiplexing unit 31 converts the bit stream B (the first encoded signal and the second encoded signal) generated by the audio signal encoding apparatus according to the first or second embodiment. Signal is multiplexed) and only the first encoded signal is extracted.
  • the decoding unit 32 decodes the first encoded signal that is the downmix code extracted by the demultiplexing unit 31, and the two-channel downmix signal is described in the frequency domain. Generate the first signals LO and RO.
  • the frequency-time conversion unit 33 converts the first signals LO and RO, which are audio signals in the frequency domain, generated by the decoding unit 32, into Fourier transform, discrete cosine transform, subband filters, and the like.
  • the audio signal is converted into a time-domain audio signal by using the technique described below.
  • the demultiplexing unit 31 that extracts only the downmix code from the bit stream in which the downmix signal and the auxiliary information are multiplexed, and the downmix code
  • a decoding unit 32 for generating a two-channel frequency domain audio signal from the base station, extracting and decoding only the downmix signal and performing no decoding process on the auxiliary information, thereby reducing the amount of computation. Can reproduce the downmix signal.
  • audio signal decoding apparatus 40 converts a downmix signal from bit stream B in which the first encoded signal and the second encoded signal are multiplexed. Extract the encoded first encoded signal and the second encoded signal encoded with the auxiliary information A demultiplexing unit 41, a first decoding unit 42 for generating down-mix signals LO and RO, which are audio signals in the frequency domain of the first encoded signal 2 channels, and an auxiliary signal from the second encoded signal; Information 10, a second decoding unit 43 for generating rO, an inverse mixing unit 44 for generating a multi-channel signal from the downmix signal and the auxiliary information, and a time-domain audio signal L, A frequency-time conversion unit 45 that generates R, 1, and r, and a coefficient that is an inverse matrix of a square matrix of NXN including a coefficient represented by an XN matrix that simulates head transfer characteristics during multi-channel signal reproduction With table 46.
  • the coefficient table 46 is illustrated, and is stored in a storage medium such
  • the demultiplexing unit 41 converts the first encoded signal and the second encoded signal from the bit stream generated by the audio signal encoding device according to the first or second embodiment. Extract the signal and.
  • the first decoding unit 42 decodes the first encoded signal, which is the downmix code extracted by the demultiplexing unit 41, and the two-channel downmix signal is described in the frequency domain. Generate the first signal LO, RO.
  • the second decoding unit 43 decodes the second coded signal that is the auxiliary information code extracted by the demultiplexing unit 41, and generates an auxiliary signal for generating a multi-channel signal from the first signal.
  • a second signal 10, rO, is generated as information.
  • the inverse mixing section 44 performs a coefficient table processing on the first signals LO and RO generated by the first decoding section 42 and the second signals 10 and rO generated by the second decoding section 43.
  • a matrix operation using 46 multi-channel signals L, R, 1, and r are obtained.
  • the coefficients arranged in the coefficient table 46 are inverse matrices of the matrix described in the first embodiment. For example, in a case where signals of four channels are down-mixed, an equation (number) Using the determinant expressed by (13), it is possible to extract the original four-channel signals, L, R, 1, and r.
  • Equation 14 Equation 14
  • one coefficient table 46 is stored in the storage medium, but the present invention is not limited to this, and a plurality of coefficient tables are stored in the storage medium. Needless to say, it may be stored.
  • the inverse mixing unit 44 reduces the power of the third encoding signal included in the bit stream. It is possible to extract an index n indicating the coefficient used at the time of mixing, and select an appropriate coefficient table from a plurality of coefficient tables based on the index n.
  • the frequency-time conversion unit 45 uses a method typified by a Fourier transform, a discrete cosine transform, a sub-band filter, or the like, for each of the frequency-domain multi-channel signals output from the inverse mixing unit 44. To convert them into time domain audio signals L, R, 1, r.
  • demultiplexing section 41 that extracts a bit stream power downmix code and an auxiliary information code, and a multichannel signal based on the downmix signal and the auxiliary information.
  • a coefficient table 46 which is an inverse matrix of a matrix including a coefficient represented by a 2 ⁇ N matrix simulating a head transfer characteristic at the time of reproducing a multi-channel signal. 44 generates the multi-channel signal using the coefficient table 46, so that the original multi-channel signal can be reproduced even if the downmix signal is a signal including a transfer characteristic.
  • the audio signal decoding apparatus 50 converts the first code obtained by coding the downmix signal from the bit stream B in which the first coded signal and the second coded signal are multiplexed.
  • Demultiplexing section 51 for extracting a second encoded signal in which the encoded signal and the auxiliary information are encoded, and a down-mix signal LO which is an audio signal in the frequency domain of two channels from the first encoded signal.
  • RO a second decoding unit 53 for generating auxiliary information 10 and rO from the second encoded signal, and a multi-channel signal from the downmix signal and the auxiliary information.
  • An inverse mixing section 54, an output channel switching section 55 for selectively outputting the downmix signal or the multi-channel signal, and a signal selectively output to the output channel switching section 55 Includes a frequency-time conversion unit 56 that generates a time-domain audio signal from it, and a coefficient represented by a 2 XN matrix that is the inverse matrix of a square matrix of NXN that simulates head transfer characteristics during multichannel playback
  • a coefficient table 57 is provided.
  • the coefficient table 57 is stored in a storage medium such as a memory as shown in FIG.
  • the demultiplexing section 51 converts the bit stream B generated by the audio signal coding apparatus according to the first or second embodiment into a first code signal and a second code.
  • the first decoding unit 52 outputs the first downmix code extracted by the demultiplexing unit 51. Decode the encoded signal to generate first signals LO and RO in which a two-channel downmix signal is described in the frequency domain.
  • second decoding section 53 decodes a second encoded signal that is an auxiliary information code extracted by demultiplexing section 51, and generates an auxiliary signal for generating a multi-channel signal from the first signal.
  • a second signal 10, rO, is generated as information.
  • the inverse mixing unit 54 generates a coefficient table for the first signals LO and RO generated by the first decoding unit 52 and the second signals 10 and rO generated by the second decoding unit 53.
  • a multi-channel signal is obtained by performing a matrix operation using 57.
  • the coefficients arranged in the coefficient table 57 are inverse matrices of the matrix described in the first embodiment. For example, in a case where signals of four channels are down-mixed, an equation (number) The original four-channel signal, L, R, 1, and r, can be extracted by the determinant expressed by (15).
  • x and y are represented by mathematical formulas (Formula 16).
  • one coefficient table 57 is stored in the storage medium.
  • the present invention is not limited to this, and a plurality of coefficient tables may be stored in the storage medium. Needless to say, it may be stored.
  • the inverse mixing unit 54 when reproducing the bit stream B generated by the audio signal encoding device according to the second embodiment, the inverse mixing unit 54 outputs the third encoded signal included in the bit stream B.
  • the force it is possible to extract an index n indicating the coefficient used at the time of downmixing, and to select an appropriate coefficient table from a plurality of coefficient tables based on the index n.
  • the output channel switching unit 55 outputs the frequency domain downmix signals LO and RO output from the first decoding unit 52, and outputs the frequency domain downmix signals LO and RO from the inverse mixing unit 54. Selects whether to output channel signals L, R, 1, r. Whether to output the frequency-domain downmix signals LO and RO output from the first decoding unit 52, and whether to output the frequency-domain multi-channel signals L, R, 1, and r output from the inverse mixing unit 54
  • the setting of the output channel switching unit 55 is, for example, to output the signals LO and RO output from the first decoding unit 52 when using headphones or 2-channel speed, and to reverse when using a 4-channel speaker.
  • a detection unit for detecting a device connected to the output side is provided, and when it is detected that a headphone or a two-channel speaker is connected to the output side, the output channel switching unit 55 is operated to operate the first channel.
  • the signals LO and RO output from the decoding unit 52 are output, and it is detected that a 4-channel speaker is connected. If the signal is output, the output channel switching unit 55 may be operated to output the signals L, R, 1, r output from the inverse mixing unit 54.
  • the frequency-time conversion unit 56 converts the frequency-domain signals L, R, 1, r, or LO, RO, which are switched and output to the output channel switching unit 55, into the time-domain audio signals, respectively. Convert to
  • the demultiplexing unit 51 that extracts the bit stream power and the downmix code and the auxiliary information code, and the multichannel signal from the downmix signal and the auxiliary information.
  • An inverse mixing unit 54 for generating the output signal
  • an output channel switching unit 55 for selectively switching between outputting the downmix signal and the multichannel signal
  • a signal output to the output channel switching unit 55 By providing a frequency-time conversion unit 56 that generates a time-domain audio signal, for example, when a headphone or two speakers are used, a 2-channel downmix signal is reproduced. For example, four speakers are used. In this case, the operation of reproducing a multi-channel signal can be realized by common components.
  • the present invention is not limited to this example in which the number of channels of a multi-channel signal is four. If the number of channels of the multi-channel signal is three or more, the multi-channel signal of any number may be used.
  • the present invention is generally widely used, for example. Needless to say! /.
  • the audio signal encoding device and the audio signal decoding device convert the downmix signal into a signal obtained by filtering with a desired transfer function, and reproduce only the first encoded signal. Even in such a case, the spatial information of the multi-channel signal is reflected, and the use of the second encoded signal has the effect that the original multi-channel signal can be reproduced. And decodes the encoded downmix signal to reflect the spatial information or the original 2-channel signal. Since the multi-channel signal can be restored, it can be applied to portable equipment that requires particularly small equipment, such as inexpensive decoders and headphones.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

ここに開示された音響信号符号化装置は、マルチチャンネル再生時の頭部伝達特性を模擬する2×Nの行列で表される係数を含む係数テーブル17と、この係数テーブル17にしたがってNチャンネルの周波数領域信号をダウンミックスして2チャンネルのダウンミックス信号を生成する第1信号出力部12と、前記ダウンミックス信号をマルチチャンネル信号に戻す補助情報を生成する第2信号出力部14とを備えることにより、ダウンミックス信号が所望の伝達関数でフィルタ処理された信号となり、第1符号化信号のみで、マルチチャンネル信号の空間情報が反映され、且つ、第2符号化信号を用いることにより元のマルチチャンネル信号が再現できることとなる。

Description

明 細 書
音響信号符号化装置および音響信号復号装置
技術分野
[0001] 本発明は、マルチチャンネル信号を符号ィ匕する音響信号符号ィ匕装置および符号 化された信号を復号する音響信号復号装置に関する。
背景技術
[0002] 従来から、マルチチャンネル信号を安価な再生装置、とりわけヘッドフォンなどに接 続した 2チャンネルの再生装置で再生することができるような符号ィ匕信号を生成する オーディオエンコーダ (音響信号符号化装置)の研究開発が行われて 、る。マルチ チャンネル信号をチャンネル数の削減された信号に変換することを一般的にダウンミ ッタスと呼ぶ。例えば、 MPEG2オーディオ規格(ISO 13818— 3)に準拠したマルチ チャンネル用エンコーダとマルチチャンネル用デコーダが研究開発されて 、る。この マルチチャンネル用エンコーダは、以下の演算、すなわち
[0003] [数 1]
L0 = L + l
R0 = R + r
= -ι
(L、 R、 1、 rは、それぞれ受聴者に対する左前スピーカ、右前スピーカ、左後スピー 力、右後スピーカから出力される信号を示す。 )
を用いてマルチチャンネル信号 L、 R、 1、 rを 2つのスピーカまたはヘッドフォンなど で再生できるように 2チャンネルにダウンミックスした信号 L0、 R0と、このダウンミックス された信号 L0、 R0をマルチチャンネル信号に戻すための信号 10、 rOとを分けて、そ れぞれ第 1符号化信号、第 2符号ィ匕信号として符号ィ匕するようになつている。一方、 従来の安価な 2チャンネル信号再生用のデコーダ (復号装置)は上記第 1符号化信 号 L0 R0のみを復号する力 マルチチャンネル用デコーダは、以下の演算、すなわ ち
[0005] [数 2]
= 0 + /0 = + r0
Figure imgf000004_0001
[0006] を用いて第 1符号化信号 LO RO、第 2符号化信号 10 rOから元のマルチチャンネ ル信号 L R 1 rを復号するようになっている。
[0007] また、 DVDオーディオのような媒体上のマルチチャンネル信号を扱うものとして、マ ルチチャンネル信号を入力し、 2チャンネルにダウンミックスした信号 L0 R0のサブ ストリームと、このダウンミックスされた信号 L0 R0をマルチチャンネル信号に戻すた めの信号 10 rOのサブストリームとの 2つのサブストリームに符号化した後に、一つの ストリームに多重化するマルチチャンネル用エンコーダと、多重化されたストリームを 2 つの符号ィ匕されたサブストリームに分割し、一方の 2チャンネルにダウンミックスした 信号 L0 R0のサブストリームを復号することによって 2チャンネル用デコーダがダウ ンミックスされた 2チャンネルの信号の復号ィ匕処理を実行できるようすると同時に、 2チ ヤンネルにダウンミックスした信号 L0 R0のサブストリームと、このダウンミックスされた 信号 L0 R0をマルチチャンネル信号に戻すための信号 10 rOのサブストリームとの 2 つのサブストリームを用いて元のマルチチャンネル信号を復号できるようにしたマル チチャンネル用デコーダが開示されて 、る(例えば特許文献 1参照)。 [0008] さらに、元の空間情報を再現した上で、ダウンミックスされた 2チャンネル信号を再 生しようとした場合の従来の 2チャンネル用デコーダおよびマルチチャンネル用デコ ーダを構成する音響信号復号装置のブロック図を、図 7に示す。ここで所定の数のチ ヤンネル数のマルチチャンネル信号からダウンミックスにより変換されたチャンネル数 の削減された信号を「ダウンミックス信号」と呼ぶものとする。
[0009] 図 7に示すように、音響信号復号装置 70は、ビットストリーム B力 ダウンミックス符 号ィ匕信号および補助情報符号ィ匕信号を抽出する逆多重化部 71と、前記ダウンミック ス符号ィ匕信号から 2チャンネルの周波数領域のオーディオ信号であるダウンミックス 信号 LO、 ROを生成する第 1復号部 72と、前記補助情報符号化信号から補助情報 10 、 rOを生成する第 2復号部 73と、前記ダウンミックス信号 LO、 ROと前記補助情報 10、 rOとからマルチチャンネル信号を生成する逆ミックス部 74と、前記マルチチャンネル 信号力 時間領域のオーディオ信号 L'、 R'、 1'、 r'を生成する周波数時間変換部 75 と、マルチチャンネル信号再生時の頭部伝達特性を模擬する 2 X Nの行列で表され る係数を含む N X Nの正方行列の逆行列である係数テーブル 76と、周波数時間変 換部 75に生成された時間領域のオーディオ信号を係数テーブル 76により頭部伝達 関数に基づ 、て空間情報をフィルタ処理して 2チャンネルのオーディオ信号 Ll、 R1 を生成する頭部伝達関数模擬部 77とを備え、頭部伝達関数模擬部 77にお 、て空 間情報の合成処理演算を行うことによりヘッドフォンなどで視聴可能な元の空間情報 を再現した高品質の 2チャンネルのオーディオ信号 L 1、 R1を得られるようになつてい る。
特許文献 1:特表 2002— 541524号公報
発明の開示
発明が解決しょうとする課題
[0010] し力しながら、 MPEG2オーディオ規格では、復号されたダウンミックス信号は、各 サンプル時刻ごとに所定のマトリックス演算によってダウンミックスされているので、も ともとのマルチチャンネル信号の空間情報が失われている。したがって、元の空間情 報を再現した高品質の 2チャンネル信号を再生しょうとする場合、つまり、仮想サラウ ンド処理を施した 2チャンネル信号を再生する場合、上記の音響信号復号装置のよう に、一旦、第 1符号化信号 L0、 R0と第 2符号ィ匕信号 10、 rOとを用いてマルチチャン ネル信号を復号した後、頭部伝達関数模擬部 77により係数テーブル 76に模擬され た頭部伝達関数に基づ 、て空間情報をフィルタ処理する必要があり、このフィルタ処 理に多大の演算処理を費やさなければならな 、と 、う問題があった。
[0011] 本発明は、このような従来の問題を解決するためになされたもので、ダウンミックス 信号を再生するだけで元のマルチチャンネルの空間情報が再生できる符号化情報 を生成する音響信号符号ィ匕装置および符号ィ匕情報カゝらダウンミックス信号を再生す るだけで元のマルチチャンネルの空間情報を再生する音響信号復号装置を提供す ることを目的とする。
課題を解決するための手段
[0012] 本発明の第 1の態様に係る音響信号符号化装置は、 Nチャンネルの信号を周波数 領域に変換する時間周波数変換手段と、前記 Nチャンネルの周波数領域信号をダ ゥンミックスして 2チャンネルのダウンミックス信号を生成する第 1信号出力手段と、前 記ダウンミックス信号をマルチチャンネル信号に戻すための補助情報を生成する第 2 信号出力手段と、前記ダウンミックス信号を符号化し第 1符号ィ匕信号を生成する第 1 符号化手段と、前記補助情報を符号化し第 2符号化信号を生成する第 2符号化手段 と、前記第 1符号化信号と前記第 2符号化信号とを多重化する多重化手段と、伝達 特性を実現する係数が周波数毎に記述された係数テーブルとを備え、前記 Nは 3以 上の整数であり、前記係数テーブルは、 N X Nの正方行列であり、マルチチャンネル 再生時の頭部伝達特性を模擬する 2 X Nの行列で表される係数を含み、残りの(N— 2) X Nの行列で表される係数は前記 2 X Nの行列で表される係数を符号反転および 並び替えした値によって構成され、前記第 1信号出力手段は、前記係数テーブルに したがって前記 Nチャンネルの周波数領域信号を前記 2チャンネルの信号にダウンミ ッタスし、前記第 2信号出力手段は、前記係数テーブルにしたがって前記ダウンミック ス信号の前記補助情報を生成することを特徴とした構成を有している。
[0013] この構成により、ダウンミックス信号が所望の伝達関数でフィルタ処理された信号と なり、第 1符号化信号のみを再生した場合でも、マルチチャンネル信号の空間情報 が反映され、且つ、第 2符号ィ匕信号を用いることにより元のマルチチャンネル信号を 再現する符号化信号を生成することができる。
[0014] また、本発明の音響信号符号化装置は、異なる前記伝達特性を実現する係数から 構成される前記係数テーブルを複数備え、さらに、前記係数テーブルを用途に応じ て選択する係数テーブル選択手段とを備え、前記多重化手段は、前記第 1符号化信 号と前記第 2符号化信号とともに、前記係数テーブル選択手段に選択された前記係 数テーブルを示す指標を多重化することを特徴とした構成を有しても良い。
[0015] この構成により、目的に応じて前記係数テーブルを選択し、選択した係数テーブル を特定する指標を多重化するので、マルチチャンネル再生時に必要な係数の種類を 、少ないビット使用量で復号装置に伝達することができる。
[0016] さらに、本発明の第 2の態様に係る音響信号復号装置は、前記音響信号符号化装 置によって生成されたビットストリーム力もダウンミックス符号のみを抽出する逆多重 化手段と、前記ダウンミックス符号から 2チャンネルの周波数領域のオーディオ信号 を生成する復号手段と、前記周波数領域のオーディオ信号から時間領域のオーディ ォ信号を生成する周波数時間変換手段とを備えたことを特徴とした構成を有している
[0017] この構成により、ダウンミックス信号と補助情報とが多重化されたビットストリームから ダウンミックス符号のみを抽出し、前記ダウンミックス符号から 2チャンネルの周波数 領域のオーディオ信号を生成して、ダウンミックス信号のみを復号し、補助情報に対 しての復号処理を行わな 、ので、少な 、演算量でダウンミックス信号を再生すること ができる。
[0018] さらに、本発明の音響信号復号装置は、前記音響信号符号化装置によって生成さ れたビットストリーム力 ダウンミックス符号および補助情報符号を抽出する逆多重化 手段と、前記ダウンミックス符号から 2チャンネルの周波数領域のオーディオ信号で あるダウンミックス信号を生成する第 1の復号手段と、前記補助情報符号から補助情 報を生成する第 2の復号手段と、前記ダウンミックス信号と前記補助情報とからマル チチャンネル信号を生成する逆ミックス手段と、前記マルチチャンネル信号から時間 領域のオーディオ信号を生成する周波数時間変換手段と、マルチチャンネル再生時 の頭部伝達特性を模擬する 2 X Nの行列で表される係数を含む N X Nの正方行列の 逆行列である係数テーブルとを備え、前記逆ミックス手段は、前記係数テーブルを用 V、て前記マルチチャンネル信号を生成することを特徴とした構成を有しても良!、。
[0019] この構成により、ビットストリーム力 ダウンミックス符号および補助情報符号を抽出、 復号し、頭部伝達特性を模擬する行列の逆行列である係数テーブルを用いて、ダウ ンミックス信号と補助情報とからマルチチャンネル信号を生成するので、ダウンミック ス信号が伝達特性を含む信号であっても、元のマルチチャンネル信号を再生するこ とがでさる。
[0020] さらに、本発明の音響信号復号装置は、前記ダウンミックス信号を出力するか前記 マルチチャンネル信号を出力するかを選択的に切り替える出力チャンネル切替え手 段を備え、前記周波数時間変換手段は、前記出力チャンネル切替え手段に選択出 力された信号力 前記時間領域のオーディオ信号を生成することを特徴とした構成 を有しても良い。
[0021] この構成により、前記ダウンミックス信号を出力するか前記マルチチャンネル信号を 出力するかを選択的に切り替え、この出力選択された信号力 時間領域のオーディ ォ信号を生成するので、 2チャンネルのダウンミックス信号の再生とマルチチャンネル 信号の再生とを、共通の構成要素で実現することができる。
[0022] さらに、本発明の音響信号符号化装置は、前記係数テーブルは、空間伝達特性を 模擬する係数が含まれる構成を有しても良 ヽ。
[0023] この構成により、 2つのスピーカを使用する場合など、部屋の大きさに応じて適切な 仮想サラウンド処理を施した 2チャンネルの信号を再生することが可能となる。
発明の効果
[0024] 本発明は、 Nチャンネルの周波数領域信号をダウンミックスして 2チャンネルのダウ ンミックス信号を生成する第 1信号出力手段と、前記ダウンミックス信号をマルチチヤ ンネル信号に戻すための補助情報を生成する第 2信号出力手段と、前記ダウンミック ス信号を符号化し生成した第 1符号ィ匕信号と前記補助情報を符号化し生成した第 2 符号化信号とを多重化する多重化手段と、伝達特性を実現する係数が周波数毎に 記述された係数テーブルとを備え、前記 Nは 3以上の整数であり、前記第 1信号出力 手段および前記第 2信号出力手段は、前記係数テーブルにしたがって前記情報を 生成することにより、ダウンミックス信号が所望の伝達関数でフィルタ処理された信号 となり、第 1符号ィ匕信号のみを再生した場合でも、マルチチャンネル信号の空間情報 が反映され、且つ、第 2符号ィ匕信号を用いることにより元のマルチチャンネル信号を 再現することができるという効果を有する音響信号符号ィ匕装置および音響信号復号 装置を提供することができるものである。
図面の簡単な説明
[0025] [図 1]本発明の第 1の実施の形態に係る音響信号符号化装置のブロック図
[図 2]頭部伝達関数を説明するための受聴者とスピーカの配置図
[図 3]本発明の第 2の実施の形態に係る音響信号符号化装置のブロック図 圆 4]本発明の第 3の実施の形態に係る音響信号復号装置のブロック図
[図 5]本発明の第 4の実施の形態に係る音響信号復号装置のブロック図
[図 6]本発明の第 5の実施の形態に係る音響信号復号装置のブロック図
[図 7]従来の符号化信号により空間情報を再現する音響信号復号装置のブロック図 符号の説明
[0026] 10、 20 音響信号符号化装置
11、 21 時間周波数変換部
12、 22 第 1信号出力部
13、 23 第 1符号化部
14、 24 第 2信号出力部
15、 25 第 2符号化部
16、 29 多重化部
17、 27 係数テーブル群
26 係数テーブル選択部
28 第 3符号化部
30、 40、 50 音響信号復号装置
31、 41、 51 逆多重化部
32 復号部
33、 45、 56 周波数時間変換部 42、 52 第 1復号部
43、 53 第 2復号部
44、 54 逆ミックス部
46、 57 係数テーブル
55 出力チャンネル切替え部
61 左前スピーカ
62 右前スピーカ
63 左後スピーカ
64 右後スピーカ
65 受聴者の頭部
70 音響信号復号装置
71 逆多重化部
72 第 1復号部
73 第 2復号部
74 逆ミックス部
75 周波数時間変換部
76 係数テーブル
77 頭部伝達関数模擬部
発明を実施するための最良の形態
[0027] 以下、本発明の実施の形態における音響信号符号化装置および音響信号復号装 置について、図面を用いて説明する。
[0028] (第 1の実施の形態)
まず、本発明の第 1の実施の形態における音響信号符号化装置の構成を図 1を参 照して説明する。
[0029] 図 1に示すように、本実施の形態に係る音響信号符号ィ匕装置 10は、 Nチャンネル のマルチチャンネル信号を周波数領域信号に変換する時間周波数変換部 11と、変 換された Nチャンネルの周波数領域信号をダウンミックスして 2チャンネルのダウンミ ックス信号を生成する第 1信号出力部 12と、前記ダウンミックス信号を符号化し第 1符 号化信号を生成する第 1符号化部 13と、前記ダウンミックス信号を元の Nチャンネル のマルチチャンネル信号に戻すための補助情報を生成する第 2信号出力部 14と、 前記補助情報を符号化し第 2符号化信号を生成する第 2符号化部 15と、前記第 1符 号ィ匕信号と前記第 2符号ィ匕信号とを多重化する多重化部 16と、伝達特性を実現する 係数が周波数毎に記述された、係数テーブル 17とを備えている。ここで Nは 3以上の 整数とし、係数テーブル 17は図示されていないメモリなどの記憶媒体に記憶されて いるものとする。
[0030] 以上のように構成された音響信号符号ィ匕装置 10の動作について、以下に説明す る。本実施の形態では理解を容易にするため、入力する Nチャンネルのマルチチヤ ンネル信号は、前方左側音響信号 L、前方右側音響信号 R、後方左側音響信号 1、 後方右側音響信号 rの 4チャンネルの信号力 構成されるものとする。
[0031] まず、時間周波数変換部 11は、入力された 4チャンネルの信号 L、 R、 1、 rをそれぞ れ、フーリエ変換や、離散コサイン変換や、サブバンドフィルタ等に代表される手法を 用いて、周波数領域の信号に変換する。
[0032] 次に、第 1信号出力部 12は、時間周波数変換部 11に変換された周波数領域の信 号を、係数テーブル 17に格納された係数を用い、数式 (数 3)で表される演算によつ てダウンミックスする。
[0033] [数 3]
L
a c a d R aL + cR + bl + dr
c a d b I cL + aR + dl + br
r
[0034] ここで用いられる係数 a、 b、 c、 dは、図 2に示される頭部伝達関数で、 2 X Nの行列 で表されている。
[0035] 図 2において、受聴者の頭部 65に対して、左前スピーカ 61、右前スピーカ 62、左 後スピーカ 63、右後スピーカ 64が設置されている。 Lは、左前スピーカから出力され る信号、 Rは、右前スピーカから出力される信号、 1は、左後スピーカから出力される 信号、 rは、右後スピーカから出力される信号、 Leは、左耳に到達した信号、 Reは、 右耳に到達した信号を示す。
[0036] 係数 aは、左前スピーカ 61から左耳への伝達特性であり、係数 bは、右前スピーカ 6 2から左耳への伝達特性であり、係数 cは、左後スピーカ 63から左耳への伝達特性で あり、係数 dは、右後スピーカ 64から左耳への伝達特性であり、これらを一組にしたも のを「頭部伝達関数」という。
[0037] 音響信号符号化装置 10の動作説明に戻り、第 1符号化部 13は、第 1信号出力部 1 2から出力されたダウンミックス信号 LO、 ROを符号ィ匕し、第 1符号化信号を生成する 。ここで、第 1符号ィ匕部 13による符号ィ匕は、例えば、 MPEG規格などで規定された符 号化方式でも良い。
[0038] また、第 2信号出力部 14は、時間周波数変換部 11に変換された周波数領域の信 号を、係数テーブル 17に格納される係数を用い、数式 (数 4)で表される演算によつ て、前記ダウンミックスされた信号をマルチチャンネル信号に戻すための補助情報 10 、 rOを生成する。
[0039] [数 4]
L
a c b —d R aL + cR - bl - dr c a d b I cL -- aR - dl -- br
r
[0040] ここで用いられる係数 a、 b、 c、 dは(N— 2) X N、すなわち本実施の形態では 2 X N の行列で表されている。
[0041] 次に、第 2符号化部 15は、第 2信号出力部 14から出力された補助情報 10、 rOを符 号化し、第 2符号化信号を生成する。第 2符号ィ匕部 15による符号ィ匕は、上記第 1符 号ィ匕部 13と同様に、 MPEG規格などで規定された符号ィ匕方式でも良 、。
[0042] そして、多重化部 16は、第 1符号化部 13に生成された第 1符号化信号と、第 2符号 化部 15に生成された第 2符号ィ匕信号とを多重化し、 1つのビットストリーム Bを生成す る。
[0043] よって、前記ビットストリーム Bに記述されて 、る情報は、数式 (数 5)の行列式で表さ れる。
[0044] [数 5] a c b d L aL + cR + ϋί + dr
c a d b R cL + aR+ dl + br
a c -b -d I aL-- cR-bl - dr
c a -d b r cL + aR - dl--br
[0045] ここで Hfを数式 (数 6)のように定義したとき、
[0046] [数 6]
Figure imgf000013_0001
[0047] 数式 (数 7)が得られる
[0048] [数 7]
Figure imgf000014_0001
[0049] ただし、(数 8)の逆行列が存在するため、受信側では、数式 (数 9)により元の 4チヤ ンネルの信号、 L、 R、 1、 rを抽出することが可能となる。
[0050] [数 8]
Figure imgf000014_0002
Figure imgf000014_0003
[0051] [数 9]
L ax -ex ax - cx
R -ex ax - cx ax
1 by -dy -by dy /。 r -dy by dy -by [0052] ここで x、 yは数式(数 10)で表される,
[0053] [数 10]
Figure imgf000015_0001
Figure imgf000015_0002
[0054] 上記のように、本実施の形態によれば、マルチチャンネル信号再生時の頭部伝達 特性を模擬する 2 X Nの行列で表される係数を含む係数テーブル 17と、この係数テ 一ブル 17にしたがって Nチャンネルの周波数領域信号をダウンミックスして 2チャン ネルのダウンミックス信号を生成する第 1信号出力部 12と、前記ダウンミックス信号を マルチチャンネル信号に戻すための補助情報を生成する第 2信号出力部 14とを備 えることにより、ダウンミックス信号が所望の伝達関数でフィルタ処理された信号となり 、第 1符号ィ匕信号のみを再生した場合でも、マルチチャンネル信号の空間情報が反 映され、且つ、第 2符号ィ匕信号を用いることにより元のマルチチャンネル信号が再現 できる符号ィ匕信号を生成することができることとなる。
[0055] (第 2の実施の形態)
次に、本発明の第 2の実施の形態における音響信号符号化装置の構成図を図 3に 示し、説明する。
[0056] 図 3に示すように、本実施の形態に係る音響信号符号ィ匕装置 20は、 Nチャンネル のマルチチャンネル信号を周波数領域信号に変換する時間周波数変換部 21と、変 換された Nチャンネルの周波数領域信号をダウンミックスして 2チャンネルのダウンミ ックス信号を生成する第 1信号出力部 22と、前記ダウンミックス信号を符号化し第 1符 号化信号を生成する第 1符号化部 23と、前記ダウンミックス信号をマルチチャンネル 信号に戻すための補助情報を生成する第 2信号出力部 24と、前記補助情報を符号 化し第 2符号化信号を生成する第 2符号化部 25と、目的に応じて第 1信号出力部 22 および第 2信号出力部 24で使用する伝達関数を選択する係数テーブル選択部 26と 、各種の伝達特性を実現するための係数が周波数毎に記述された複数の係数テー ブル群 27と、係数テーブル選択部 26が選択した係数テーブルを特定する指標とな る第 3符号化信号を生成する第 3符号化部 28と、前記第 1符号化信号と前記第 2符 号ィ匕信号と前記第 3符号ィ匕信号とを多重化する多重化部 29とを備えて 、る。ここで Nは 3以上の整数とし、係数テーブル群 27は図示されて 、な 、メモリなどの記憶媒体 に記憶されているものとする。また、時間周波数変換部 21、第 1信号出力部 22、第 1 符号化部 23、第 2信号出力部 24、第 2符号化部 25は、上記第 1の実施の形態で示 した時間周波数変換部 11、第 1信号出力部 12、第 1符号化部 13、第 2信号出力部 1 4、第 2符号ィ匕部 15とそれぞれ同様のものである。
[0057] 以上のように構成された音響信号符号ィ匕装置 20の動作について、以下に説明す る。本実施の形態では理解を容易にするため、入力する Nチャンネルのマルチチヤ ンネル信号を、前方左側音響信号 L、前方右側音響信号 R、後方左側音響信号 1、 後方右側音響信号 rの 4チャンネルの信号力 構成されるものとする。
[0058] まず、時間周波数変換部 21は、入力された 4チャンネルの信号をそれぞれ、フーリ ェ変換や、離散コサイン変換や、サブバンドフィルタ等に代表される手法を用いて、 周波数領域の信号に変換する。
[0059] 次に、係数テーブル選択部 26は、第 1信号出力部 22において模擬せんとする伝 達特性を構成する係数が記述された係数テーブルを、複数の係数テーブル群 27の 中から選択する。複数の係数テーブル群 27には再生時の頭部伝達特性を模擬する 各種係数が含まれている。これによりヘッドフォンや 2つのスピーカを使用する場合な ど、使用者の頭部の大きさに応じて適切な係数テーブルを選択することができるため 、例えば使用者が大人の場合でも子供の場合でも適切な仮想サラウンド処理を施し た 2チャンネルの信号を再生することが可能となる。さらに複数の係数テーブル群 27 には、模擬しょうとする頭部伝達係数だけでなぐ音響を聞く空間の空間伝達特性を 模擬する空間伝達係数が含まれても良い。これにより、 2つのスピーカを使用する場 合など、部屋の大きさに応じて適切な仮想サラウンド処理を施した 2チャンネルの信 号を再生することが可能となる。
[0060] その後、第 1信号出力部 22は、時間周波数変換部 21に変換された周波数領域の 信号を、係数テーブル選択部 26によって選択された係数テーブルに格納された係 数を用い、
[0061] [数 11]
L
a c a d R aL + cR + bl + dr
c a d b I cL + aR + dl + br
r
[0062] の演算によってダウンミックスする。ここで用いられる係数 a、 b、 c、 dは 2 X Nの行列で 表されている。
[0063] 次に、第 1符号ィ匕部 23は、第 1信号出力部 22から出力されたダウンミックス信号を 符号化し、第 1符号化信号を生成する。ここで、第 1符号ィ匕部 23による符号ィ匕は、上 記第 1の実施の形態における第 1符号ィ匕部 13と同様に、 MPEG規格などで規定さ れた符号化方式でも良い。
[0064] また、第 2信号出力部 24は、時間周波数変換部 21に変換された周波数領域の信 号を、係数テーブル選択部 26によって選択された係数テーブルに格納された係数 を用い、
[0065] [数 12]
L
a c b —d R aL + cR - bl - dr c a d b I cL + aR - dl + br
r [0066] の演算によって、前記ダウンミックスされた信号をマルチチャンネル信号に戻すため の補助情報を生成する。ここで用いられる係数 a、 b、 c、 dは (N— 2) X N、すなわち 本実施の形態では 2 X Nの行列で表されて!/、る。
[0067] 次に、第 2符号化部 25は、第 2信号出力部 24から出力された補助情報を符号化し 、第 2符号化信号を生成する。第 2符号ィ匕部 25による符号ィ匕は、上記第 1符号化部 2 3と同様に、 MPEG規格などで規定された符号ィ匕方式でも良い。
[0068] さらに、第 3符号ィ匕部 28によって、係数テーブル選択部 26で選択された係数がど のような伝達特性を模擬した力を参照可能とする、テーブル番号などの指標 nが第 3 符号化信号として記述される。
[0069] そして、多重化部 29は、第 1符号化部 23に生成された第 1符号化信号と、第 2符号 化部 25に生成された第 2符号化信号と、第 3符号ィ匕部 28に生成された第 3符号ィ匕信 号とを多重化し、 1つのビットストリーム Bを生成する。
[0070] 上記のように、本実施の形態によれば、各種の伝達特性を実現するための係数が 周波数毎に記述された複数の係数テーブル群 27と、目的に応じて前記複数の係数 テーブル群 27から所定の係数テーブルを選択する係数テーブル選択部 26と、選択 された係数テーブルにしたがって Nチャンネルの周波数領域信号をダウンミックスし て 2チャンネルのダウンミックス信号を生成する第 1信号出力部 22と、係数テーブル 選択部 26が選択した係数テーブルを特定する指標となる第 3符号化信号を生成す る第 3符号ィ匕部 28とを備え、前記第 1符号ィ匕信号に加えて、ダウンミックス時に使用 した係数テーブルを示す指標をビットストリーム上に配置することにより、マルチチヤ ンネル再生時に必要な係数の種類を、少な 、ビット使用量で復号装置に伝達するこ とがでさることとなる。
[0071] (第 3の実施の形態)
次に、本発明の第 3の実施の形態における音響信号復号装置の構成図を図 4に示 し、説明する。
[0072] 図 4に示すように、本実施の形態に係る音響信号復号装置 30は、第 1符号化信号 と第 2符号ィ匕信号とが多重化されたビットストリーム Bからダウンミックス信号が符号ィ匕 された第 1符号ィ匕信号のみを抽出する逆多重化部 31と、前記第 1符号化信号から 2 チャンネルの周波数領域のオーディオ信号である第 1信号を生成する復号部 32と、 前記第 1信号力 時間領域のオーディオ信号 L'、R'を生成する周波数時間変換部 3 3とを備えている。
[0073] ここで、第 1符号化信号とは、ダウンミックス信号が符号化されている信号であり、第 2符号化信号とは、前記ダウンミックス信号をマルチチャンネル信号に戻すための補 助情報が符号化されて 、る信号である。
[0074] 以上のように構成された音響信号復号装置 30の動作について、以下に説明する。
[0075] まず、逆多重化部 31は、上記第 1または第 2の実施の形態に記載の音響信号符号 化装置によって生成されたビットストリーム B (第 1符号ィ匕信号と第 2符号ィ匕信号とが 多重化されている)から、第 1符号ィ匕信号のみを抽出する。
[0076] 次に、復号部 32は、逆多重化部 31に抽出されたダウンミックス符号である第 1符号 化信号を復号して、 2チャンネルのダウンミックス信号が周波数領域で記述されて 、 る第 1信号 LO、 ROを生成する。
[0077] そして、周波数時間変換部 33は、復号部 32に生成された周波数領域のオーディ ォ信号である第 1信号 LO、 ROを、フーリエ変換や、離散コサイン変換や、サブバンド フィルタ等に代表される手法を用いて、時間領域のオーディオ信号に変換する。
[0078] 上記のように、本実施の形態によれば、ダウンミックス信号と補助情報とが多重化さ れたビットストリーム力もダウンミックス符号のみを抽出する逆多重化部 31と、前記ダ ゥンミックス符号から 2チャンネルの周波数領域のオーディオ信号を生成する復号部 32とを備え、ダウンミックス信号のみを抽出して復号し、補助情報に対しての復号処 理を行わな 、ことにより、少な 、演算量でダウンミックス信号を再生することができるこ ととなる。
[0079] (第 4の実施の形態)
以下、本発明の第 4の実施の形態における音響信号復号装置の構成図を図 5に示 し、説明する。
[0080] 図 5に示すように、本実施の形態に係る音響信号復号装置 40は、第 1符号化信号 と第 2符号ィ匕信号とが多重化されたビットストリーム Bから、ダウンミックス信号が符号 化された第 1符号化信号および補助情報が符号化された第 2符号化信号を抽出する 逆多重化部 41と、前記第 1符号ィ匕信号力 2チャンネルの周波数領域のオーディオ 信号であるダウンミックス信号 LO、 ROを生成する第 1復号部 42と、前記第 2符号化信 号から補助情報 10、 rOを生成する第 2復号部 43と、前記ダウンミックス信号と前記補 助情報とからマルチチャンネル信号を生成する逆ミックス部 44と、前記マルチチャン ネル信号から時間領域のオーディオ信号 L、 R、 1、 rを生成する周波数時間変換部 4 5と、マルチチャンネル信号再生時の頭部伝達特性を模擬する 2 X Nの行列で表さ れる係数を含む N X Nの正方行列の逆行列である係数テーブル 46とを備えて 、る。 係数テーブル 46は図示されて 、な 、メモリなどの記憶媒体に記憶されて 、るものと する。
[0081] 以上のように構成された音響信号復号装置 40の動作について、以下に説明する。
[0082] まず、逆多重化部 41は、上記第 1または第 2の実施の形態に記載の音響信号符号 化装置によって生成されたビットストリームから、第 1符号ィ匕信号と第 2符号ィ匕信号と をそれぞれ抽出する。
[0083] 次に、第 1復号部 42は、逆多重化部 41に抽出されたダウンミックス符号である第 1 符号ィ匕信号を復号して、 2チャンネルのダウンミックス信号が周波数領域で記述され ている第 1信号 LO、 ROを生成する。
[0084] また、第 2復号部 43は、逆多重化部 41に抽出された補助情報符号である第 2符号 化信号を復号して、前記第 1信号からマルチチャンネル信号を生成するための補助 情報となる第 2信号 10、 rOを生成する。
[0085] その後、逆ミックス部 44は、第 1復号部 42に生成された第 1信号 LO、 ROと、第 2復 号部 43に生成された第 2信号 10、 rOとに対して係数テーブル 46を用いた行列演算 を行うことにより、マルチチャンネル信号 L、 R、 1、 rを得る。ここで、係数テーブル 46に 配置されている係数は、上記第 1の実施の形態で記述した行列の逆行列であり、例 えば 4チャンネルの信号がダウンミックスされて 、る場合では、数式 (数 13)で表され る行列式により元の 4チャンネルの信号、 L、 R、 1、 rを抽出することが可能となる。
[0086] [数 13]
Figure imgf000021_0001
[0087] ここで x、 yは数式(数 14)で表される。
[0088] [数 14]
1
Figure imgf000021_0002
1
Figure imgf000021_0003
[0089] また、本実施の形態では、記憶媒体には一つの係数テーブル 46が記憶されていとし ているが、本発明はこれに限定されるものではなぐ記憶媒体には複数の係数テー ブルが記憶されていても良いことは言うまでもない。この場合、上記第 2の実施の形 態に記載の音響信号符号ィ匕装置によって生成されたビットストリームを再生する際に 、逆ミックス部 44はビットストリームに含まれる第 3符号ィ匕信号力 ダウンミックス時に 使用した係数を示す指標 nを取り出し、この指標 nに基づ ヽて複数の係数テーブルか ら適切な係数テーブルを選択することが可能である。
[0090] そして、周波数時間変換部 45では、逆ミックス部 44より出力された周波数領域のマ ルチチャンネル信号をそれぞれ、フーリエ変換や、離散コサイン変換や、サブバンド フィルタ等に代表される手法を用いて、時間領域のオーディオ信号 L、 R、 1、 rに変換 する。 [0091] 上記のように、本実施の形態によれば、ビットストリーム力 ダウンミックス符号およ び補助情報符号を抽出する逆多重化部 41と、ダウンミックス信号と補助情報とからマ ルチチャンネル信号を生成する逆ミックス部 44と、マルチチャンネル信号再生時の 頭部伝達特性を模擬する 2 X Nの行列で表される係数を含む行列の逆行列である係 数テーブル 46とを備え、逆ミックス部 44が係数テーブル 46を用いて、前記マルチチ ヤンネル信号を生成することにより、ダウンミックス信号が伝達特性を含む信号であつ ても、元のマルチチャンネル信号を再生することができる。
[0092] (第 5の実施の形態)
以下、本発明の第 5の実施の形態における音響信号復号装置の構成図を図 6に示 し、説明する。
[0093] 図 6に示すように、音響信号復号装置 50は、第 1符号化信号と第 2符号化信号とが 多重化されたビットストリーム Bから、ダウンミックス信号が符号化された第 1符号化信 号および補助情報が符号化された第 2符号ィ匕信号を抽出する逆多重化部 51と、前 記第 1符号ィ匕信号から 2チャンネルの周波数領域のオーディオ信号であるダウンミツ タス信号 LO、 ROを生成する第 1復号部 52と、前記第 2符号化信号から補助情報 10、 rOを生成する第 2復号部 53と、前記ダウンミックス信号と前記補助情報とからマルチ チャンネル信号を生成する逆ミックス部 54と、前記ダウンミックス信号を出力するか前 記マルチチャンネル信号を出力するかを選択的に切り替える出力チャンネル切替え 部 55と、前記出力チャンネル切替え部 55に選択出力された信号から時間領域のォ 一ディォ信号を生成する周波数時間変換部 56と、マルチチャンネル再生時の頭部 伝達特性を模擬する N X Nの正方行列の逆行列である 2 X Nの行列で表される係数 を含む係数テーブル 57とを備えて 、る。係数テーブル 57は図示されて ヽな 、メモリ などの記憶媒体に記憶されて 、るものとする。
[0094] 以上のように構成された音響信号復号装置 50の動作について、以下に説明する。
[0095] まず、逆多重化部 51は、上記第 1または第 2の実施の形態に記載の音響信号符号 化装置によって生成されたビットストリーム Bから、第 1符号ィ匕信号と第 2符号ィ匕信号と をそれぞれ抽出する。
[0096] 次に、第 1復号部 52は、逆多重化部 51に抽出されたダウンミックス符号である第 1 符号ィ匕信号を復号して、 2チャンネルのダウンミックス信号が周波数領域で記述され ている第 1信号 LO、 ROを生成する。
[0097] また、第 2復号部 53は、逆多重化部 51に抽出された補助情報符号である第 2符号 化信号を復号して、前記第 1信号からマルチチャンネル信号を生成するための補助 情報となる第 2信号 10、 rOを生成する。
[0098] その後、逆ミックス部 54は、第 1復号部 52に生成された第 1信号 LO、 ROと、第 2復 号部 53に生成された第 2信号 10、 rOとに対して係数テーブル 57を用いた行列演算 を行うことにより、マルチチャンネル信号を得る。ここで、係数テーブル 57に配置され ている係数は、上記第 1の実施の形態で記述した行列の逆行列であり、例えば 4チヤ ンネルの信号がダウンミックスされて 、る場合では、数式 (数 15)で表される行列式に より元の 4チャンネルの信号、 L、 R、 1、 rを抽出することが可能となる。
[0099] [数 15]
L ax - ex ax - cx
R - ex ax - cx ax
1 by - dy - by dy /。
r - dy by dy - by 、
[0100] ここで x、yは数式(数 16)で表される。
[0101] [数 16] 1
Figure imgf000024_0001
1
— 一 ' 2 j 2
2(b —— d )
[0102] また、本実施の形態では、記憶媒体には一つの係数テーブル 57が記憶されていとし ているが、本発明はこれに限定されるものではなぐ記憶媒体には複数の係数テー ブルが記憶されていても良いことは言うまでもない。この場合、上記第 2の実施の形 態に記載の音響信号符号ィ匕装置によって生成されたビットストリーム Bを再生する際 に、逆ミックス部 54はビットストリーム Bに含まれる第 3符号ィ匕信号力もダウンミックス時 に使用した係数を示す指標 nを取り出し、この指標 nに基づ ヽて複数の係数テーブル カゝら適切な係数テーブルを選択することが可能である。
[0103] さら〖こ、出力チャンネル切替え部 55では、第 1復号部 52より出力された周波数領域 のダウンミックス信号 LO、 ROを出力する力、逆ミックス部 54より出力された周波数領 域のマルチチャンネル信号 L、 R、 1、 rを出力するかを選択的に切り替える。第 1復号 部 52より出力された周波数領域のダウンミックス信号 LO、 ROを出力する力、逆ミック ス部 54より出力された周波数領域のマルチチャンネル信号 L、 R、 1、 rを出力するか の出力チャンネル切替え部 55の設定は、例えばヘッドフォンや 2チャンネルのスピー 力を使用する場合は第 1復号部 52より出力された信号 LO、 ROを出力し、 4チャンネ ルのスピーカを使用する場合は逆ミックス部 54から出力された信号 L、 R、 1、 rを出力 するなど、用途に応じて切り替えることができる。例えば、出力側に接続された機器を 検出する検出部を設け、ヘッドフォンや 2チャンネルのスピーカが出力側に接続され たことが検出された場合は、出力チャンネル切替え部 55を操作して、第 1復号部 52 より出力された信号 LO、 ROを出力し、 4チャンネルのスピーカが接続されたことが検 出された場合は、出力チャンネル切替え部 55を操作して、逆ミックス部 54から出力さ れた信号 L、 R、 1、 rを出力するようにしても良い。ここで、ダウンミックス信号 LO、 ROを 出力する場合、第 2復号部 53と逆ミックス部 54と係数テーブル 57を保存するメモリな どの動作は停止させ、消費電力を削減することが望ましい。
[0104] そして、周波数時間変換部 56では、出力チャンネル切替え部 55に切り替えられ出 力された周波数領域の信号 L、 R、 1、 r、または LO、 ROを、それぞれ時間領域のォー ディォ信号に変換する。
[0105] 上記のように、本実施の形態によれば、ビットストリーム力もダウンミックス符号およ び補助情報符号を抽出する逆多重化部 51と、ダウンミックス信号と補助情報とからマ ルチチャンネル信号を生成する逆ミックス部 54と、前記ダウンミックス信号を出力する か前記マルチチャンネル信号を出力するかを選択的に切り替える出力チャンネル切 替え部 55と、出力チャンネル切替え部 55に出力選択された信号から時間領域のォ 一ディォ信号を生成する周波数時間変換部 56とを備えることにより、例えばヘッドフ オンや 2つスピーカを使用する場合は 2チャンネルのダウンミックス信号を再生し、例 えば 4つのスピーカを使用する場合はマルチチャンネル信号を再生する動作を、共 通の構成要素で実現することができる。
[0106] また、上記の各実施の形態では説明の簡単ィ匕のため、マルチチャンネル信号のチ ヤンネル数として 4チャンネルの場合を例としてあげた力 本発明はこれに限定される ものではなく、マルチチャンネル信号のチャンネル数は 3以上の場合であれば如何な るチャンネル数のマルチチャンネル信号でも良ぐ本発明は例えば一般的に広く普 及して 、る 5. 1チャンネルでも適応可能であることは言うまでもな!/、。
産業上の利用可能性
[0107] 以上のように、本発明にかかる音響信号符号化装置および音響信号復号装置は、 ダウンミックス信号が所望の伝達関数でフィルタ処理された信号となり、第 1符号化信 号のみを再生した場合でも、マルチチャンネル信号の空間情報が反映され、且つ、 第 2符号ィ匕信号を用いることにより元のマルチチャンネル信号を再現することができ るという効果を有し、マルチチャンネル信号をダウンミックスして符号ィ匕し、符号化され たダウンミックス信号を復号して空間情報が反映された 2チャンネル信号または元の マルチチャンネル信号を復元することができるので、安価なデコーダやヘッドフォン など、特に機器の小型化が必要な携帯機器に応用できる。

Claims

請求の範囲
[1] Nチャンネルの信号を周波数領域に変換する時間周波数変換手段と、
前記 Nチャンネルの周波数領域信号をダウンミックスして 2チャンネルのダウンミック ス信号を生成する第 1信号出力手段と、
前記ダウンミックス信号をマルチチャンネル信号に戻すための補助情報を生成する 第 2信号出力手段と、
前記ダウンミックス信号を符号ィ匕し第 1符号ィ匕信号を生成する第 1符号ィ匕手段と、 前記補助情報を符号化し第 2符号化信号を生成する第 2符号化手段と、 前記第 1符号化信号と前記第 2符号化信号とを多重化する多重化手段と、 伝達特性を実現する係数が周波数毎に記述された係数テーブルとを備え、 前記 Nは 3以上の整数であり、前記係数テーブルは、 N X Nの正方行列であり、マ ルチチャンネル再生時の頭部伝達特性を模擬する 2 X Nの行列で表される係数と、 前記 2 X Nの行列で表される係数を符号反転および並び替えした (N— 2) X Nの行 列で表される値を含み、
前記第 1信号出力手段は、前記係数テーブルにしたがって前記 Nチャンネルの周 波数領域信号を前記 2チャンネルの信号にダウンミックスし、
前記第 2信号出力手段は、前記係数テーブルにしたがって前記ダウンミックス信号 の前記補助情報を生成することを特徴とする音響信号符号化装置。
[2] 異なる前記伝達特性を実現する係数から構成される前記係数テーブルを複数備え、 さらに、前記係数テーブルを用途に応じて選択する係数テーブル選択手段とを備 え、
前記多重化手段は、前記第 1符号化信号と前記第 2符号化信号とともに、前記係 数テーブル選択手段に選択された前記係数テーブルを示す指標を多重化すること を特徴とする請求項 1に記載の音響信号符号化装置。
[3] 請求項 1または請求項 2に記載の音響信号符号ィ匕装置によって生成されたビットスト リーム力 ダウンミックス符号のみを抽出する逆多重化手段と、
前記ダウンミックス符号から 2チャンネルの周波数領域のオーディオ信号を生成す る復号手段と、 前記周波数領域のオーディオ信号から時間領域のオーディオ信号を生成する周 波数時間変換手段とを備えたことを特徴とする音響信号復号装置。
[4] 請求項 1または請求項 2に記載の音響信号符号ィ匕装置によって生成されたビットスト リームからダウンミックス符号および補助情報符号を抽出する逆多重化手段と、 前記ダウンミックス符号から 2チャンネルの周波数領域のオーディオ信号であるダウ ンミックス信号を生成する第 1の復号手段と、
前記補助情報符号から補助情報を生成する第 2の復号手段と、
前記ダウンミックス信号と前記補助情報とからマルチチャンネル信号を生成する逆ミ ックス手段と、
前記マルチチャンネル信号から時間領域のオーディオ信号を生成する周波数時間 変換手段と、
マルチチャンネル再生時の頭部伝達特性を模擬する 2 X Nの行列で表される係数 を含む N X Nの正方行列の逆行列である係数テーブルとを備え、
前記逆ミックス手段は、前記係数テーブルを用いて前記マルチチャンネル信号を 生成することを特徴とする音響信号復号装置。
[5] 前記ダウンミックス信号を出力するか前記マルチチャンネル信号を出力するかかを選 択的に切り替ええる出力チャンネル切替え手段を備え、
前記周波数時間変換手段は、前記出力チャンネル切替え手段に選択出力された 信号力 前記時間領域のオーディオ信号を生成することを特徴とした請求項 4に記 載の音響信号復号装置。
[6] 前記係数テーブルは、空間伝達特性を模擬する係数が含まれることを特徴とする請 求項 2に記載の音響信号符号化装置。
PCT/JP2005/010811 2004-06-14 2005-06-13 音響信号符号化装置および音響信号復号装置 WO2005122639A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP05748600A EP1768451A4 (en) 2004-06-14 2005-06-13 ACOUSTIC SIGNAL ENCODING DEVICE AND ACOUSTIC SIGNAL DECODING DEVICE
US11/570,471 US20080052089A1 (en) 2004-06-14 2005-06-13 Acoustic Signal Encoding Device and Acoustic Signal Decoding Device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004175656A JP2005352396A (ja) 2004-06-14 2004-06-14 音響信号符号化装置および音響信号復号装置
JP2004-175656 2004-06-14

Publications (1)

Publication Number Publication Date
WO2005122639A1 true WO2005122639A1 (ja) 2005-12-22

Family

ID=35503542

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/010811 WO2005122639A1 (ja) 2004-06-14 2005-06-13 音響信号符号化装置および音響信号復号装置

Country Status (4)

Country Link
US (1) US20080052089A1 (ja)
EP (1) EP1768451A4 (ja)
JP (1) JP2005352396A (ja)
WO (1) WO2005122639A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008542815A (ja) * 2005-05-26 2008-11-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
JP2009531886A (ja) * 2006-03-24 2009-09-03 ドルビー スウェーデン アクチボラゲット 多チャンネル信号のパラメータ表現からの空間ダウンミックスの生成
CN102292768B (zh) * 2009-01-20 2013-03-27 Lg电子株式会社 用于处理音频信号的装置及其方法
US8620008B2 (en) 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
US8577686B2 (en) * 2005-05-26 2013-11-05 Lg Electronics Inc. Method and apparatus for decoding an audio signal
US8214221B2 (en) 2005-06-30 2012-07-03 Lg Electronics Inc. Method and apparatus for decoding an audio signal and identifying information included in the audio signal
WO2007027055A1 (en) 2005-08-30 2007-03-08 Lg Electronics Inc. A method for decoding an audio signal
RU2419249C2 (ru) * 2005-09-13 2011-05-20 Кониклейке Филипс Электроникс Н.В. Аудиокодирование
EP1974347B1 (en) * 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
JP4951985B2 (ja) * 2006-01-30 2012-06-13 ソニー株式会社 音声信号処理装置、音声信号処理システム、プログラム
KR100921453B1 (ko) 2006-02-07 2009-10-13 엘지전자 주식회사 부호화/복호화 장치 및 방법
CA2646278A1 (en) * 2006-02-09 2007-08-16 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
CN101390443B (zh) 2006-02-21 2010-12-01 皇家飞利浦电子股份有限公司 音频编码和解码
KR100829560B1 (ko) 2006-08-09 2008-05-14 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 방법 및 장치,멀티채널이 다운믹스된 신호를 2 채널로 출력하는 복호화방법 및 장치
MX2009002795A (es) * 2006-09-18 2009-04-01 Koninkl Philips Electronics Nv Codificacion y decodificacion de objetos de audio.
RU2452043C2 (ru) 2007-10-17 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудиокодирование с использованием понижающего микширования
WO2009072685A1 (en) 2007-12-06 2009-06-11 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP5400059B2 (ja) * 2007-12-18 2014-01-29 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
JP2011002574A (ja) * 2009-06-17 2011-01-06 Nippon Hoso Kyokai <Nhk> 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
JP5345024B2 (ja) * 2009-08-28 2013-11-20 日本放送協会 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
JP5680391B2 (ja) * 2010-12-07 2015-03-04 日本放送協会 音響符号化装置及びプログラム
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
KR102076022B1 (ko) 2015-04-30 2020-02-11 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 신호 처리 장치 및 방법
US10269360B2 (en) * 2016-02-03 2019-04-23 Dolby International Ab Efficient format conversion in audio coding
CN110853658B (zh) * 2019-11-26 2021-12-07 中国电影科学技术研究所 音频信号的下混方法、装置、计算机设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000156038A (ja) * 1998-11-16 2000-06-06 Victor Co Of Japan Ltd 音声符号化装置、記録媒体、音声復号化装置及び音声伝送方法並びにコンピュータ記録媒体
JP2001195096A (ja) * 1998-11-16 2001-07-19 Victor Co Of Japan Ltd 音声符号化装置
JP2002217841A (ja) * 2001-01-15 2002-08-02 Sony Corp オーディオ信号再生装置及び方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3263484B2 (ja) * 1993-06-07 2002-03-04 三洋電機株式会社 音声帯域分割復号化装置
US5438623A (en) * 1993-10-04 1995-08-01 The United States Of America As Represented By The Administrator Of National Aeronautics And Space Administration Multi-channel spatialization system for audio signals
JP2766466B2 (ja) * 1995-08-02 1998-06-18 株式会社東芝 オーディオ方式、その再生方法、並びにその記録媒体及びその記録媒体への記録方法
JPH09224300A (ja) * 1996-02-16 1997-08-26 Sanyo Electric Co Ltd 音像位置の補正方法及び装置
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
DE19721487A1 (de) * 1997-05-23 1998-11-26 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Fehlerverschleierung bei Mehrkanaltonsignalen
JPH1132400A (ja) * 1997-07-14 1999-02-02 Matsushita Electric Ind Co Ltd デジタル信号再生装置
US6757659B1 (en) * 1998-11-16 2004-06-29 Victor Company Of Japan, Ltd. Audio signal processing apparatus
US8577686B2 (en) * 2005-05-26 2013-11-05 Lg Electronics Inc. Method and apparatus for decoding an audio signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000156038A (ja) * 1998-11-16 2000-06-06 Victor Co Of Japan Ltd 音声符号化装置、記録媒体、音声復号化装置及び音声伝送方法並びにコンピュータ記録媒体
JP2001195096A (ja) * 1998-11-16 2001-07-19 Victor Co Of Japan Ltd 音声符号化装置
JP2002217841A (ja) * 2001-01-15 2002-08-02 Sony Corp オーディオ信号再生装置及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1768451A4 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008542815A (ja) * 2005-05-26 2008-11-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
JP2009531886A (ja) * 2006-03-24 2009-09-03 ドルビー スウェーデン アクチボラゲット 多チャンネル信号のパラメータ表現からの空間ダウンミックスの生成
CN102292768B (zh) * 2009-01-20 2013-03-27 Lg电子株式会社 用于处理音频信号的装置及其方法
US8620008B2 (en) 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US9484039B2 (en) 2009-01-20 2016-11-01 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US9542951B2 (en) 2009-01-20 2017-01-10 Lg Electronics Inc. Method and an apparatus for processing an audio signal

Also Published As

Publication number Publication date
EP1768451A4 (en) 2009-02-25
JP2005352396A (ja) 2005-12-22
EP1768451A1 (en) 2007-03-28
US20080052089A1 (en) 2008-02-28

Similar Documents

Publication Publication Date Title
WO2005122639A1 (ja) 音響信号符号化装置および音響信号復号装置
US20200335115A1 (en) Audio encoding and decoding
KR101158698B1 (ko) 복수-채널 인코더, 입력 신호를 인코딩하는 방법, 저장 매체, 및 인코딩된 출력 데이터를 디코딩하도록 작동하는 디코더
JP4943418B2 (ja) スケーラブルマルチチャネル音声符号化方法
JP5185340B2 (ja) マルチチャネルオーディオ信号を表示するための装置と方法
JP5592974B2 (ja) 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現
KR100888474B1 (ko) 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN101356573B (zh) 对双耳音频信号的解码的控制
WO2005112002A1 (ja) オーディオ信号符号化装置及びオーディオ信号復号化装置
KR20060060052A (ko) 호환성 다중-채널 코딩/디코딩
KR20160033734A (ko) 렌더러 제어 공간 업믹스
JP5483813B2 (ja) マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法
WO2006011367A1 (ja) オーディオ信号符号化装置および復号化装置
MX2008010631A (es) Codificacion y decodificacion de audio
MX2008009565A (en) Apparatus and method for encoding/decoding signal

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11570471

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWE Wipo information: entry into national phase

Ref document number: 2005748600

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2005748600

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11570471

Country of ref document: US