WO2022097236A1 - 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 - Google Patents

音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 Download PDF

Info

Publication number
WO2022097236A1
WO2022097236A1 PCT/JP2020/041399 JP2020041399W WO2022097236A1 WO 2022097236 A1 WO2022097236 A1 WO 2022097236A1 JP 2020041399 W JP2020041399 W JP 2020041399W WO 2022097236 A1 WO2022097236 A1 WO 2022097236A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
sound signal
signal
decoded sound
nth
Prior art date
Application number
PCT/JP2020/041399
Other languages
English (en)
French (fr)
Inventor
亮介 杉浦
健弘 守谷
優 鎌本
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2022560570A priority Critical patent/JP7537512B2/ja
Priority to PCT/JP2020/041399 priority patent/WO2022097236A1/ja
Priority to US18/032,536 priority patent/US20240119947A1/en
Publication of WO2022097236A1 publication Critical patent/WO2022097236A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Definitions

  • the present invention relates to a technique for post-processing a sound signal obtained by decoding a code.
  • Patent Document 1 As a technique for encoding / decoding a stereo sound signal by efficiently using a monaural code and a stereo code, there is a technique of Patent Document 1.
  • a monaural code representing a monaural signal and a stereo code representing a difference between a stereo signal from a monaural signal are obtained on the coding side, and a decoding process corresponding to the coding side is performed on the decoding side.
  • Discloses a scalable coding / decoding method for obtaining a monaural decoded sound signal and a stereo decoded sound signal see FIGS. 7 and 8).
  • the technique of Patent Document 2 is a technique of encoding, transmitting, and decoding a sound signal by terminals connected to two lines having different priorities.
  • Patent Document 2 discloses a technique in which a code for ensuring the minimum quality is included in a packet having a high priority and transmitted, and a code other than the code is included in a packet having a low priority and transmitted (the technique is disclosed. See FIG. 1 and so on).
  • the transmitting side should include the monaural code in the packet having high priority and the stereo code in the packet having low priority. Just do it.
  • the receiving side when only the packet with high priority arrives, the monaural decoded sound signal is obtained by using only the monaural code, and the priority is added to the packet with high priority. If a low packet is also arriving, a stereo decoded sound signal can be obtained using both the monaural code and the stereo code.
  • the monaural coding / decoding method and the stereo coding / decoding method that are independent of each other are used. Cases are also assumed. Further, it is assumed that one line having the same priority uses a monaural coding / decoding method and a stereo coding / decoding method that are independent of each other. In these cases, the receiving side uses only the stereo code to obtain the stereo decoded sound signal regardless of whether or not the monaural code has arrived in addition to the stereo code.
  • the stereo sound signal output by the device on the receiving side is output even if the monaural code and the stereo code derived from the same sound signal are input.
  • the information contained in the monaural code is not utilized in the process of obtaining the signal. Therefore, in the present invention, when there is a sound signal obtained from a different code that is different from the code that is the source of obtaining the decoded sound signal and is a code derived from the same sound signal, the different code is used. The purpose is to improve the decoded sound signal by using the sound signal obtained from.
  • One aspect of the present invention is the nth channel decoded sound signal ⁇ X n (n is each integer of 1 or more and N or less) which is the decoded sound signal of each channel of the stereo obtained by decoding the stereo code CS for each frame.
  • the monaural decoded sound signal ⁇ X M which is a monaural decoded sound signal obtained by decoding a monaural code CM having a code different from the stereo code CS, and the sound of each channel of the stereo.
  • Decoded sound common signal estimation step to obtain decoded sound common signal ⁇ Y M , which is a signal common to channels, and common signal purification weight ⁇ M and monaural decoded sound signal ⁇ X M for each frame and corresponding sample t.
  • the nth channel upmixed common signal which is a signal obtained by upmixing the decoded sound common signal ⁇ Y M for each channel by the upmix processing using the channel-to-channel relationship information, which is the information indicating the relationship between the channels ⁇ .
  • the refined common signal upmix processing using the decoded sound common signal upmix step for obtaining Y Mn and the information indicating the relationship between the refined common signal ⁇ Y M and the stereo channel for each frame is performed.
  • the nth channel upmixed refined signal ⁇ Y Mn which is a signal upmixed from the signal ⁇ Y M for each channel, is obtained.
  • the nth channel separation coupling weight estimation step for obtaining the product value as the nth channel separation coupling weight ⁇ n , and the nth channel decoded sound signal ⁇ X n for each channel n for each frame and for each corresponding sample t.
  • the value ⁇ n ⁇ obtained by multiplying the sample value ⁇ x n (t) of the nth channel separation coupling weight ⁇ n by the sample value ⁇ y Mn (t) of the nth channel upmixed common signal ⁇ Y Mn .
  • ⁇ y Mn (t) is subtracted and the nth channel separation coupling weight ⁇ n is multiplied by the nth channel upmixed purified signal ⁇ sample value of Y Mn ⁇ y Mn (t) ⁇ n ⁇
  • the different code is used.
  • the decoded sound signal can be improved by using the sound signal obtained from the code.
  • the coding device 500 to which the application is applied includes a downmix unit 510, a monaural coding unit 520, and a stereo coding unit 530.
  • the coding device 500 encodes a sound signal in the time domain of the input 2-channel stereo, for example, in a frame unit having a predetermined time length of 20 ms, obtains a monaural code CM and a stereo code CS, which will be described later, and outputs the sound signal.
  • the sound signal in the time region of the 2-channel stereo input to the coding device is, for example, a digital sound signal or sound obtained by collecting sounds such as voice and music with two microphones and performing AD conversion.
  • each part described above performs the following processing for each frame.
  • the frame length is 20ms and the sampling frequency is 32kHz.
  • T is 640.
  • the first channel input sound signal and the second channel input sound signal input to the coding apparatus 500 are input to the downmix unit 510.
  • the downmix unit 510 obtains and outputs a downmix signal, which is a signal obtained by mixing the first channel input sound signal and the second channel input sound signal, from the first channel input sound signal and the second channel input sound signal.
  • the downmix unit 510 obtains a downmix signal by, for example, the following first method or second method.
  • the downmix unit 510 performs the following steps S510B-1 to S510B-3.
  • the downmix unit 510 obtains the time difference ⁇ between channels from the first channel input sound signal and the second channel input sound signal (step S510B-1).
  • the time difference ⁇ between channels is information indicating how long the same sound signal is included in the first channel input sound signal or the second channel input sound signal.
  • the downmix unit 510 may obtain the channel-to-channel time difference ⁇ by any well-known method, and may be obtained, for example, by the method exemplified in the channel-to-channel relationship information estimation unit 1132 described later in the second embodiment.
  • the downmix unit 510 uses the method exemplified in the channel-to-channel relationship information estimation unit 1132 described later in the second embodiment, the same sound signal is included in the first channel input sound signal before the second channel input sound signal. If so, the inter-channel time difference ⁇ becomes a positive value, and if the same sound signal is included in the second channel input sound signal before the first channel input sound signal, the inter-channel time difference ⁇ is negative. It becomes a value.
  • the downmix unit 510 correlates the sample sequence of the first channel input sound signal with the sample sequence of the second channel input sound signal located behind the sample sequence by the time difference ⁇ between channels. Is obtained as the inter-channel correlation coefficient ⁇ (step S510B-2).
  • the first channel input sound signal and the second channel input sound signal are weighted so that the input sound signal of the preceding channel in 2 (T) ⁇ is included more as the interchannel correlation coefficient ⁇ is larger.
  • a downmix signal is obtained and output on average (step S510B-3).
  • the downmix unit 510 uses a weight determined by the interchannel correlation coefficient ⁇ for each corresponding sample number t to provide a first channel input sound signal x 1 (t) and a second channel input sound signal x 2 .
  • the downmix signal output by the downmix unit 510 is input to the monaural coding unit 520.
  • Any coding method may be used, for example, a coding method such as the 3GPP EVS standard may be used.
  • the first channel input sound signal and the second channel input sound signal input to the coding apparatus 500 are input to the stereo coding unit 530.
  • Any coding method may be used, for example, a stereo coding method corresponding to the stereo decoding method of the MPEG-4 AAC standard may be used, or the input first channel input sound signal and the signal may be used.
  • a coding method that encodes each of the second channel input sound signals independently may be used.
  • the stereo code CS may be obtained by combining all the codes obtained by the coding.
  • the monaural code CM is the code obtained by the monaural coding unit 520 as described above and the stereo code CS is the code obtained by the stereo coding unit 530 as described above, the monaural code CM and the stereo code CS are It is a different code that does not include duplicate codes. That is, the monaural code CM is a code different from the stereo code CS, and the stereo code CS is a code different from the monaural code CM.
  • the decoding device 600 to which the application is applied includes a monaural decoding unit 610 and a stereo decoding unit 620.
  • the decoding device 600 decodes the input monaural code CM in frame units having the same time length as the corresponding coding device 500 to obtain and output a monaural decoded sound signal which is a decoded sound signal in the monaural time region.
  • the input stereo code CS is decoded to obtain and output the first channel decoded sound signal and the second channel decoded sound signal which are the decoded sound signals in the time region of the two-channel stereo.
  • each part described above performs the following processing for each frame.
  • the monaural code CM input to the decoding device 600 is input to the monaural decoding unit 610.
  • the predetermined decoding method a decoding method corresponding to the coding method used in the monaural coding unit 520 of the corresponding coding device 500 is used.
  • the number of bits of the monaural code CM is b M.
  • the stereo code CS input to the decoding device 600 is input to the stereo decoding unit 620.
  • the stereo decoding unit 620 decodes the stereo code CS, which is a code different from the monaural code CM, without using the information obtained by decoding the monaural code CM or the monaural code CM, and the first channel decoding sound. Obtain the signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2 .
  • a decoding method corresponding to the coding method used in the stereo coding unit 530 of the corresponding coding device 500 is used.
  • the total number of bits of the stereo code CS is b S.
  • the monaural code CM is the same sound signal as the sound signal from which the stereo code CS is derived (that is, the first channel input sound input to the coding device 500). Although it is a code derived from the signal X 1 and the second channel input sound signal X 2 ), it is the code from which the first channel decoded sound signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2 are obtained (that is, It is a code different from the stereo code CS).
  • the sound signal purification apparatus of the first embodiment improves the decoded sound signal of each channel of stereo by using the monaural decoded sound signal obtained from the code different from the code which was the source of obtaining the decoded sound signal. It is a thing.
  • the sound signal refining apparatus of the first embodiment will be described with reference to an example in which the number of stereo channels is 2.
  • the sound signal purification device 1101 of the first embodiment has a first channel purification weight estimation unit 1111-1, a first channel signal purification unit 1121-1, and a second channel purification weight estimation unit 1111-2. And the second channel signal purification unit 1121-2.
  • the sound signal purification device 1101 is a sound signal obtained by improving the decoded sound signal of the channel from the monaural decoded sound signal and the decoded sound signal of the channel for each stereo channel, for example, in a frame unit of a predetermined time length of 20 ms. Obtains and outputs a certain refined decoded sound signal.
  • the decoded sound signal of each channel input to the sound signal refining device 1101 in frame units is, for example, the information obtained by the stereo decoding unit 620 of the above-mentioned decoding device 600 decoding the monaural code CM and the monaural code CM.
  • the information obtained by decoding the stereo code CS by the monaural decoding unit 610 of the above-mentioned decoding device 600 and the stereo code CS are used.
  • the monaural decoded sound signal of the T sample obtained by decoding the monaural code CM of the b M bit, which is a code different from the stereo code CS, ⁇ X M ⁇ x M (1), ⁇ x M (2) , ..., ⁇ x M (T) ⁇ .
  • the monaural code CM is a code derived from the same sound signal as the sound signal derived from the stereo code CS (that is, the first channel input sound signal X 1 and the second channel input sound signal X 2 input to the coding apparatus 500). However, it is a code different from the code from which the first channel decoded sound signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2 are obtained (that is, the stereo code CS). Assuming that the channel number n (channel index n) of the first channel is 1 and the channel number n of the second channel is 2, the sound signal purification apparatus 1101 will perform the steps S1111-n exemplified in FIG. 2 for each frame. Step S1121-n is performed for each channel.
  • each part / step marked with “-n” corresponds to each channel, and specifically, "-n” is replaced with “-n”.
  • those with "n” in the subscripts indicate that there are those corresponding to each channel number, and specifically, There are those corresponding to the first channel with “1” instead of "n” and those corresponding to the second channel with "2” instead of "n”.
  • the nth channel purification weight estimation unit 1111-n obtains and outputs the nth channel purification weight ⁇ n (step 1111-n).
  • the nth channel purification weight estimation unit 1111-n obtains the nth channel purification weight ⁇ n by a method based on the principle of minimizing the quantization error described later. The principle of minimizing the quantization error and the method based on this principle will be described later.
  • the nth channel decoding sound signal ⁇ X n ⁇ x input to the sound signal purification apparatus 1101 in the nth channel purification weight estimation unit 1111-n, as shown by a single point chain line in FIG.
  • the nth channel purification weight ⁇ n obtained by the nth channel purification weight estimation unit 1111-n is a value of 0 or more and 1 or less. However, since the nth channel purification weight estimation unit 1111-n obtains the nth channel purification weight ⁇ n for each frame by the method described later, the nth channel purification weight ⁇ n becomes 0 or 1 in all frames. There is no.
  • the nth channel purification weight ⁇ n is greater than 0 and less than 1. In other words, in at least one of all frames, the nth channel purification weight ⁇ n is greater than 0 and less than 1.
  • the nth channel signal purification unit 1121-n is a value ⁇ n ⁇ obtained by multiplying the nth channel purification weight ⁇ n by the sample value ⁇ x M (t) of the monaural decoded sound signal ⁇ X M for each corresponding sample t.
  • ⁇ x M (t) is multiplied by the value obtained by subtracting the nth channel purification weight ⁇ n from 1 (1- ⁇ n ) and the sample value ⁇ x n (t) of the nth channel decoded sound signal ⁇ X n .
  • the principle of minimizing the quantization error will be described.
  • the number of bits used for coding the input sound signal of each channel may not be explicitly determined. It will be described assuming that the number of bits used for encoding the n-channel input sound signal X n is b n .
  • the outline of the number of code bits and the signal in the processing of each part of each device described above is as follows.
  • Encode n (T) ⁇ to get the code of b n bits.
  • the nth channel signal purification unit 1121-n of the sound signal purification apparatus 1101 sets the nth channel purification weight ⁇ n and the sample value ⁇ x M (t) of the monaural decoded sound signal ⁇ X M for each corresponding sample t.
  • Multiplied value ⁇ n ⁇ ⁇ x M (t), value obtained by subtracting the nth channel purification weight ⁇ n from 1 (1- ⁇ n ), and sample value ⁇ x n of the nth channel decoded sound signal ⁇ X n ( The value obtained by multiplying t) by (1- ⁇ n ) ⁇ ⁇ x n (t) and the value obtained by adding ⁇ x n (t) (1- ⁇ n ) ⁇ ⁇ x n (t) + ⁇ n ⁇ ⁇
  • the sound signal purification device 1101 should be designed so that the energy of the quantization error of the nth channel refined decoded sound signal ⁇ X n obtained by the above processing is small.
  • the energy of the quantization error (hereinafter, also referred to as “quantization error caused by coding”) of the decoded signal obtained by encoding / decoding the input signal is approximately the energy of the input signal. It tends to be proportional and exponentially smaller with respect to the value of the number of bits for each sample used for coding. Therefore, the average energy per sample of the quantization error caused by the coding of the input sound signal X n of the nth channel can be estimated by the following equation (1) using the positive number ⁇ n 2 . Further, the average energy per sample of the quantization error caused by the coding of the downmix signal X M can be estimated by the following equation (2) using the positive number ⁇ M 2 .
  • the case obtained by the above corresponds to this condition.
  • Multiply each sample value of the decoded sound signal of the nth channel ⁇ X n ⁇ x n (1), ⁇ x n (2), ..., ⁇ x n (T) ⁇ by (1- ⁇ n ).
  • the nth channel refined decoded sound signal ⁇ X n ⁇ x n (1), ⁇ x n (2), ..., ⁇ x n (T) ⁇ to minimize the energy of the quantization error
  • the n-channel purification weight ⁇ n is obtained by the following equation (5).
  • the nth channel purification weight estimation unit 1111-n may obtain the nth channel purification weight ⁇ n by the equation (5).
  • the first example is an example in which the nth channel purification weight ⁇ n is obtained by the above-mentioned principle of minimizing the quantization error.
  • the nth channel purification weight estimation unit 1111-n of the first example has a sample number T per frame, a bit number b n corresponding to the nth channel among the bits of the stereo code CS, and a bit of the monaural code CM.
  • the nth channel purification weight ⁇ n is obtained by equation (5). Since the method by which the nth channel purification weight estimation unit 1111-n specifies the number of bits b n and the number of bits b M is common to all the examples, it will be described after the seventh specific example.
  • the second example is an example of obtaining the nth channel purification weight ⁇ n having characteristics similar to the nth channel purification weight ⁇ n obtained in the first example.
  • the nth channel purification weight estimation unit 1111-n of the second example uses at least the number of bits b n corresponding to the nth channel of the number of bits of the stereo code CS and the number of bits b M of the monaural code CM to be 0. Greater than 1 and 0.5 when b n and b M are equal, more b n than b M is closer to 0 than 0.5, and more b M is more than 0.5 than 0.5 A value close to 1 is obtained as the nth channel purification weight ⁇ n .
  • X M (2), ..., x M (T) ⁇ is an example of obtaining the nth channel purification weight ⁇ n in consideration of the case where they cannot be regarded as the same sequence.
  • the nth channel purification weight estimation unit 1111-n of the third example uses the normalized internal product value r n obtained by the equation (6) to set the nth channel purification weight ⁇ n to the following equation (7). ).
  • the nth channel purification weight estimation unit 1111-n performs steps S1111--3-n from step S1111-1-n shown in FIG.
  • the nth channel purification weight estimation unit 1111-n obtains the internal product value r n normalized by Eq. (6) from the nth channel decoded sound signal ⁇ X n and the monaural decoded sound signal ⁇ X M (step). S1111-1-n).
  • the nth channel purification weight estimation unit 1111-n also has a sample number T per frame, a bit number b n corresponding to the nth channel among the bits of the stereo code CS, and a bit number b of the monaural code CM.
  • the correction coefficient c n is obtained from M and the following equation (8) (step S1111-2-n).
  • the nth channel purification weight estimation unit 1111-n then multiplied the normalized inner product value r n obtained in step S1111-1-n by the correction coefficient c n obtained in step S1111-2-n.
  • the value c n ⁇ r n is obtained as the nth channel purification weight ⁇ n (step S1111-3-n).
  • the nth channel purification weight estimation unit 1111-n of the third example has a sample number T per frame, a bit number b n corresponding to the nth channel among the bits of the stereo code CS, and a monaural code CM.
  • the correction coefficient c n obtained by Eq. (8) using the number of bits b M of, and the normalized internal product value r n for the monaural decoded sound signal ⁇ X M of the nth channel decoded sound signal ⁇ X n . , Is multiplied to obtain the value c n ⁇ r n as the nth channel purification weight ⁇ n .
  • the fourth example is an example of obtaining the nth channel purification weight ⁇ n having characteristics similar to the nth channel purification weight ⁇ n obtained in the third example.
  • the nth channel purification weight estimation unit 1111-n of the fourth example corresponds to the nth channel of the nth channel decoded sound signal ⁇ X n , the monaural decoded sound signal ⁇ X M , and the number of bits of the stereo code CS.
  • the fifth example is an example in which a value considering the input value of the past frame is used instead of the normalized inner product value of the third example.
  • the abrupt fluctuation between frames of the nth channel purification weight ⁇ n is reduced, and the noise generated in the purified decoded sound signal due to the fluctuation is reduced.
  • the nth channel purification weight estimation unit 1111-n of the fifth example has the following steps S1111-11-1n to S11111-13-n and the same step S1111- as the third example. 2-n and steps S1111-3-n are performed.
  • ⁇ n is a predetermined value larger than 0 and less than 1, and is stored in advance in the nth channel purification weight estimation unit 1111-n.
  • the nth channel purification weight estimation unit 1111-n uses the obtained inner product value E n (0) as the “inner product value E n (-1) used in the previous frame” in the next frame. It is stored in the nth channel purification weight estimation unit 1111-n.
  • ⁇ M is a value larger than 0 and less than 1 and is predetermined, and is stored in advance in the nth channel purification weight estimation unit 1111-n.
  • the nth channel purification weight estimation unit 1111-n uses the obtained monaural decoded sound signal energy E M (0) as "energy E M (-1) of the monaural decoded sound signal used in the previous frame". Stored in the nth channel purification weight estimation unit 1111-n for use in the next frame. Since the value of E M (0) is the same in both the first purification weight estimation unit 1111-1 and the second purification weight estimation unit 1111-2, the first purification weight estimation unit 1111-1 and the second purification weight estimation are performed. It is also possible to obtain EM (0) in any one of parts 1111-2 and use the obtained EM (0) in the other nth purification weight estimation unit 1111-n.
  • the nth channel purification weight estimation unit 1111-n has the inner product value En (0) used in the current frame obtained in step S1111-11-1n and the current frame obtained in step S11111-12- n .
  • the normalized inner product value r n is obtained by the following equation (11) (step S11111-13-n).
  • the nth channel purification weight estimation unit 1111-n also obtains a correction coefficient c n according to the equation (8) (step S1111-2-n).
  • the nth channel purification weight estimation unit 1111-n is then multiplied by the normalized inner product value r n obtained in step S1111-13-n and the correction coefficient c n obtained in step S1111-2-n.
  • the value c n ⁇ r n is obtained as the nth channel purification weight ⁇ n (step S1111-3-n).
  • the nth channel purification weight estimation unit 1111-n of the fifth example has each sample value ⁇ x n (t) of the nth channel decoded sound signal ⁇ X n and each sample value ⁇ X M of the monaural decoded sound signal ⁇ X n.
  • the inner product value E n (0) obtained by Eq. (9) using x M (t) and the inner product value E n (-1) of the previous frame, and each sample value of the monaural decoded sound signal ⁇ X M ⁇ x.
  • the energy E M (0) of the monaural decoded sound signal obtained by the equation (10) using M (t) and the energy E M (-1) of the monaural decoded sound signal of the previous frame is used in the equation (11). ),
  • the normalized internal product value r n the number of samples T per frame, the number of bits corresponding to the nth channel of the number of bits of the stereo code CS b n , and the number of bits b M of the monaural code CM.
  • the correction coefficient c n obtained by Eq. (8) is multiplied by the value c n ⁇ r n to be obtained as the nth channel purification weight ⁇ n .
  • the variation between frames of the nth channel purification weight ⁇ n obtained by the obtained inner product value r n and the normalized inner product value r n becomes smaller.
  • the monaural decoded sound signal Includes both the component of the first channel input sound signal and the component of the second channel input sound signal. Therefore, the larger the value used as the first channel purification weight ⁇ 1 , the more the sound derived from the input sound signal of the second channel, which should not be heard originally, is included in the first channel refined decoded sound signal. There is a problem that it can be heard.
  • the nth channel purification weight estimation unit 1111-n of the sixth example sets a value smaller than the nth channel purification weight ⁇ n of each channel obtained by each of the above-mentioned examples to the nth channel purification. Obtained as a weight ⁇ n .
  • the nth channel purification weight estimation unit 1111-n of the sixth example based on the third example or the fifth example has the normalized inner product value r n and the correction coefficient c n described in the third example, or the correction coefficient c n.
  • the nth channel is the value ⁇ ⁇ c n ⁇ r n obtained by multiplying the normalized inner product value r n and the correction coefficient c n described in the five examples by ⁇ , which is a predetermined value larger than 0 and less than 1. Obtained as a purification weight ⁇ n .
  • the nth channel purification weight estimation unit 1111-n of the seventh example is a channel which is a correlation coefficient between the first channel decoded sound signal and the second channel decoded sound signal instead of the predetermined value of the sixth example.
  • the intercorrelation coefficient ⁇ the larger the correlation between the first channel decoded sound signal and the second channel decoded sound signal, the smaller the energy of the quantization error of the purified decoded sound signal, and the first priority is given.
  • the sound signal purification device 1101 of the seventh example also includes the channel-to-channel relationship information estimation unit 1131 as shown by the broken line in FIG. At least the first channel decoded sound signal input to the sound signal refining device 1101 and the second channel decoded sound signal input to the sound signal purifying device 1101 are input to the channel-to-channel relationship information estimation unit 1131.
  • the inter-channel relationship information estimation unit 1131 of the seventh example obtains and outputs the inter-channel correlation coefficient ⁇ by using at least the first channel decoded sound signal and the second channel decoded sound signal (step S1131).
  • the interchannel correlation coefficient ⁇ is the correlation coefficient between the first channel decoded sound signal and the second channel decoded sound signal, and is a sample sequence of the first channel decoded sound signal ⁇ x 1 (1), ⁇ x 1 (2). ), ..., ⁇ x 1 (T) ⁇ and the sample sequence of the second channel decoded sound signal ⁇ x 2 (1), ⁇ x 2 (2), ..., ⁇ x 2 (T) ⁇
  • the correlation coefficient ⁇ 0 may be used, or the correlation coefficient considering the time difference, for example, the sample sequence of the first channel decoding sound signal and the second channel decoding in which only the ⁇ sample is displaced after the sample sequence.
  • the correlation coefficient ⁇ ⁇ of the sample sequence of the sound signal may be used.
  • the inter-channel relationship information estimation unit 1131 may obtain the inter-channel correlation coefficient ⁇ by any well-known method, and is described by the inter-channel relationship information estimation unit 1132 of the second embodiment described later. You may get it. Depending on the method of obtaining the inter-channel correlation coefficient ⁇ , as shown by the alternate long and short dash line in FIG. 1, the monaural decoded sound signal input to the sound signal refining device 1101 is also input to the inter-channel relationship information estimation unit 1131. To.
  • the sound signal obtained by AD conversion of the sound picked up by the microphone for the first channel arranged in a certain space is the first channel input sound signal X 1 , and the second channel arranged in the space.
  • the sound signal obtained by AD conversion of the sound picked up by the microphone is the second channel input sound signal X 2
  • the first sound source that mainly emits sound in the space concerned.
  • This is information corresponding to the difference (so-called arrival time difference) between the arrival time of the channel microphone and the arrival time of the sound source to the second channel microphone.
  • this ⁇ is referred to as a time difference between channels.
  • the channel-to-channel relationship information estimation unit 1131 transfers the channel-to-channel time difference ⁇ to the first channel decoded sound signal ⁇ X 1 and the second channel input sound signal X 2 , which are decoded sound signals corresponding to the first channel input sound signal X 1 . It may be obtained from the second channel decoded sound signal ⁇ X 2 , which is the corresponding decoded sound signal, by any well-known method, and may be obtained by the method described by the channel-to-channel relationship information estimation unit 1132 of the second embodiment. good.
  • the above-mentioned correlation coefficient ⁇ ⁇ is a sound signal that reaches the microphone for the first channel from the sound source and is picked up, and a sound signal that reaches the microphone for the second channel from the sound source and is picked up. This is information corresponding to the correlation coefficient of and.
  • the nth channel purification weight estimation unit 1111-n of the seventh example replaces the steps S1111-3-n of the third example and the fifth example with the step S1111-1-n of the third example or the step of the fifth example.
  • ⁇ ⁇ c n ⁇ r n is obtained as the nth channel purification weight ⁇ n (step S1111-3'-n).
  • the nth channel purification weight estimation unit 1111-n of the seventh example has the normalized internal product value r n and the correction coefficient c n described in the third example, or the normalized one described in the fifth example.
  • the nth channel purification weight estimation unit 1111-n obtains the nth channel purification weight ⁇ n in the 3rd to 7th examples
  • the nth channel decoding sound signal ⁇ X n and the monaural decoding sound signal ⁇ X instead of M
  • the signal obtained by filtering each of these may be used.
  • the filter may be, for example, a predetermined low-pass filter or a linear prediction filter using a linear prediction coefficient obtained by analyzing the nth channel decoded sound signal ⁇ X n and the monaural decoded sound signal ⁇ X M.
  • each frequency component of the nth channel decoded sound signal ⁇ X n and the monaural decoded sound signal ⁇ X M can be weighted, which is audibly important when determining the nth channel purification weight ⁇ n .
  • the contribution of various frequency components can be increased.
  • the number of bits b M of the monaural code CM may be stored in a storage unit (not shown) in the nth channel purification weight estimation unit 1111-n.
  • the monaural decoding unit 610 may output the number of bits b M of the monaural code CM so that the number of bits b M is input to the nth channel purification weight estimation unit 1111-n.
  • the nth channel purification weight estimation unit 1111-n The number of bits b n corresponding to the nth channel of the number of bits of the stereo code CS may be stored in a storage unit (not shown).
  • the stereo decoding unit 620 When the number of bits b n corresponding to the nth channel of the number of bits of the stereo code CS in the decoding method used by the stereo decoding unit 620 may differ depending on the frame, the stereo decoding unit 620 outputs the number of bits b n . In this way, the number of bits b n may be input to the nth channel purification weight estimation unit 1111-n.
  • the nth channel purification weight estimation unit 1111-n may be used. For example, the value obtained by the following first method or second method may be used as b n .
  • the nth channel purification weight estimation unit 1111 may be stored in a storage unit (not shown) in ⁇ n, and the number of bits b s of the stereo code CS in the decoding method used by the stereo decoding unit 620 may differ depending on the frame.
  • the stereo decoding unit 620 may output the number of bits b S so that the number of bits b S is input to the nth channel purification weight estimation unit 1111-n.
  • the nth channel purification weight estimation unit 1111-n is a value obtained by dividing the number of bits b s of the stereo code CS by the number of channels (that is, in the case of 2-channel stereo, b s / 2 and b s 2). Use 1) as b n . That is, when the number of bits b s of the stereo code CS in the decoding method used by the stereo decoding unit 620 is the same for all frames, the stereo code is stored in the storage unit (not shown) in the nth channel purification weight estimation unit 1111-n.
  • the value obtained by dividing the number of bits b S of CS by the number of channels may be stored as the number of bits b n .
  • the number of bits b s of the stereo code CS in the decoding method used by the stereo decoding unit 620 may differ depending on the frame, the value obtained by dividing the number of bits b s by the number of channels b s by the nth channel purification weight estimation unit 1111-n. Should be obtained as b n .
  • the nth channel purification weight estimation unit 1111-n is a value obtained by dividing the number of bits b s of the stereo code CS by the number of channels using the decoded sound signals of all channels input to the sound signal purification apparatus 1101. , The value proportional to the logarithmic value of the ratio of the energy of the decoded sound signal ⁇ X n of the nth channel to the synergistic average of the energy of the decoded sound signal of all channels is obtained as b n .
  • the nth channel purification weight estimation unit 1111-n uses the energy e 1 of the first channel decoded sound signal ⁇ X 1 and the energy e 2 of the second channel decoded sound signal ⁇ X 2 .
  • the number of bits b n may be obtained by the following equation (12).
  • the sound signal purification device 1101 uses the channel-to-channel correlation coefficient ⁇
  • the stereo decoding unit 620 of the decoding device 600 obtains the channel-to-channel correlation coefficient ⁇
  • the sound signal purification device 1101 has the channel-to-channel relationship information.
  • the inter-channel correlation coefficient ⁇ obtained by the stereo decoding unit 620 of the decoding device 600 is input to the sound signal refining device 1101 without the estimation unit 1131, and the sound signal refining device 1101 is input between the input channels.
  • the correlation coefficient ⁇ may be used.
  • the channel-to-channel relationship information code CC obtained and output by the channel-to-channel relationship information coding unit (not shown) provided in the coding device 500 described above can be used between channels.
  • the code representing the correlation coefficient ⁇ is included, the sound signal purification device 1101 does not have the channel-to-channel relationship information estimation unit 1131 and represents the channel-to-channel correlation coefficient ⁇ included in the channel-to-channel relationship information code CC.
  • the code is input to the sound signal purification device 1101, and the sound signal purification device 1101 is provided with an inter-channel relationship information decoding unit (not shown), and the inter-channel relationship information decoding unit represents a channel-to-channel correlation coefficient ⁇ . May be decoded to obtain the interchannel correlation coefficient ⁇ and output.
  • the sound signal purification device of the second embodiment also obtains the decoded sound signal of each stereo channel from a code different from the code from which the decoded sound signal is obtained. It is improved by using the obtained monaural decoded sound signal.
  • the difference between the sound signal purification device of the second embodiment and the sound signal purification device of the first embodiment is that a signal obtained by upmixing the monaural decoded sound signal for each channel is used instead of the monaural decoded sound signal itself.
  • the sound signal refining device of the second embodiment will be described focusing on the differences from the sound signal refining device of the first embodiment by using an example in which the number of stereo channels is two.
  • the sound signal purification device 1102 of the second embodiment includes the channel-to-channel relationship information estimation unit 1132, the monaural decoded sound upmix unit 1172, the first channel purification weight estimation unit 112-1, and the first channel signal. It includes a purification unit 1122-1, a second channel purification weight estimation unit 1112-2, and a second channel signal purification unit 1122-2.
  • the sound signal purification device 1102 performs step S1132 and step S1172, and steps S1112-n and step S1122-n for each channel for each frame as illustrated in FIG.
  • the channel-to-channel relationship information estimation unit 1132 includes a first channel decoded sound signal ⁇ X 1 input to the sound signal refining device 1102, a second channel decoded sound signal ⁇ X 2 input to the sound signal refining device 1102, and the second channel decoded sound signal ⁇ X 2. Is at least entered.
  • the channel-to-channel relationship information estimation unit 1132 obtains and outputs channel-to-channel relationship information using at least the first channel decoded sound signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2 (step S1132).
  • the channel-to-channel relationship information is information representing the relationship between stereo channels.
  • inter-channel relationship information examples are inter-channel time difference ⁇ and inter-channel correlation coefficient ⁇ .
  • the inter-channel relationship information estimation unit 1132 may obtain a plurality of types of inter-channel relationship information, for example, an inter-channel time difference ⁇ and an inter-channel correlation coefficient ⁇ .
  • the time difference ⁇ between channels is such that the sound signal obtained by AD conversion of the sound picked up by the microphone for the first channel arranged in a certain space is the first channel input sound signal X 1 and is arranged in the space. Assuming that the sound signal obtained by AD conversion of the sound picked up by the microphone for two channels is the second channel input sound signal X 2 , from the sound source that mainly emits sound in the space. This is information corresponding to the difference (so-called arrival time difference) between the arrival time of the microphone for the first channel and the arrival time of the microphone for the second channel from the sound source.
  • the channel-to-channel time difference ⁇ is also a positive value with respect to one of the sound signals. Negative values are also possible.
  • the channel-to-channel relationship information estimation unit 1132 transfers the channel-to-channel time difference ⁇ to the first channel decoded sound signal ⁇ X 1 and the second channel input sound signal X 2 , which are decoded sound signals corresponding to the first channel input sound signal X 1 . Obtained from the corresponding decoded sound signal, the second channel decoded sound signal ⁇ X 2 .
  • the inter-channel time difference ⁇ obtained by the inter-channel relationship information estimation unit 1132 is how long the same sound signal is included in the first channel decoded sound signal ⁇ X 1 or the second channel decoded sound signal ⁇ X 2 .
  • Information that represents. if the same sound signal is included in the first channel decoded sound signal ⁇ X 1 before the second channel decoded sound signal ⁇ X 2 , it is also said that the first channel precedes, and the same.
  • the sound signal is included in the second channel decoded sound signal ⁇ X 2 before the first channel decoded sound signal ⁇ X 1 , it is also said that the second channel precedes.
  • the channel-to-channel relationship information estimation unit 1132 may obtain the channel-to-channel time difference ⁇ by any well-known method. For example, the inter-channel relationship information estimation unit 1132 decodes the first channel for each candidate sample number ⁇ cand from predetermined ⁇ max to ⁇ min (for example, ⁇ max is a positive number and ⁇ min is a negative number).
  • a value indicating the magnitude of the correlation between the sample sequence of the sound signal ⁇ X 1 and the sample sequence of the second channel decoded sound signal ⁇ X 2 located at a position shifted behind the sample sequence by the number of candidate samples ⁇ cand (referred to as a correlation value) is calculated, and the number of candidate samples ⁇ cand at which the correlation value ⁇ cand is maximized is obtained as the time difference between channels ⁇ . That is, in this example, the time difference ⁇ between channels is a positive value when the first channel precedes, and the time difference ⁇ between channels is a negative value when the second channel precedes.
  • of the time difference between channels ⁇ is the number of samples
  • the inter-channel relationship information estimation unit 1132 calculates the correlation value ⁇ cand using only the samples in the frame, if ⁇ cand is a positive value, the second channel decoded sound signal ⁇ X 2 From the partial sample column ⁇ x 2 (1 + ⁇ cand ), ⁇ x 2 (2 + ⁇ cand ), ..., ⁇ x 2 (T) ⁇ and the number of candidate samples ⁇ cand With the partial sample sequence ⁇ x 1 (1), ⁇ x 1 (2), ..., ⁇ x 1 (T- ⁇ cand ) ⁇ of the first channel decoded sound signal ⁇ X 1 in the previously displaced position.
  • the absolute value of the correlation coefficient of is calculated as the correlation value ⁇ cand , and if ⁇ cand is a negative value, the partial sample sequence of the first channel decoded sound signal ⁇ X 1 ⁇ x 1 (1- ⁇ cand) ), ⁇ X 1 (2- ⁇ cand ), ..., ⁇ x 1 (T) ⁇ and the second channel located ahead of the relevant partial sample row by the number of candidate samples ( - ⁇ cand ). Correlate the absolute value of the correlation coefficient with the partial sample sequence ⁇ x 2 (1), ⁇ x 2 (2), ..., ⁇ x 2 (T + ⁇ cand ) ⁇ of the decoded sound signal ⁇ X 2 . It may be calculated as the value ⁇ cand .
  • the estimation unit 1132 may store sample sequences of decoded sound signals of past frames in a storage unit (not shown) in the channel-to-channel relationship information estimation unit 1132 for a predetermined number of frames.
  • the correlation value ⁇ cand may be calculated using the information of the phase of the signal as follows.
  • the frequency spectrum f 2 (k) at each frequency k from 0 to T-1 is obtained by Fourier transform as in Eq. (22).
  • the channel-to-channel relationship information estimation unit 1132 uses the frequency spectra f 1 (k) and f 2 (k) of each frequency k from 0 to T-1 to each frequency k according to the following equation (23).
  • the spectrum ⁇ (k) of the phase difference in is obtained.
  • the channel-to-channel relationship information estimation unit 1132 then performs an inverse Fourier transform on the spectrum of the phase difference from 0 to T-1, and the number of each candidate sample from ⁇ max to ⁇ min as shown in the following equation (24). Obtain the phase difference signal ⁇ ( ⁇ cand ) for ⁇ cand.
  • the channel-to-channel relationship information estimation unit 1132 obtains the absolute value of the phase difference signal ⁇ ( ⁇ cand ) for each candidate sample number ⁇ cand as the correlation value ⁇ cand .
  • the channel-to-channel relationship information estimation unit 1132 obtains the number of candidate samples ⁇ cand at which the correlation value ⁇ cand , which is the absolute value of the phase difference signal ⁇ ( ⁇ cand ), is maximum, as the channel-to-channel time difference ⁇ .
  • the channel-to-channel relationship information estimation unit 1132 uses the absolute value of the phase difference signal ⁇ ( ⁇ cand ) as it is as the correlation value ⁇ cand , for example, the absolute value of the phase difference signal ⁇ ( ⁇ cand ) for each ⁇ cand .
  • a normalized value may be used, such as the relative difference from the average of the absolute values of the phase difference signals obtained for each of the plurality of candidate samples before and after ⁇ cand with respect to the value.
  • the inter-channel relationship information estimation unit 1132 obtains an average value by the following equation (25) for each ⁇ cand using a predetermined positive number ⁇ range , and the obtained average value ⁇ .
  • the normalized correlation value obtained by the following equation (26) using c ( ⁇ cand ) and the phase difference signal ⁇ ( ⁇ cand ) may be obtained as ⁇ cand .
  • the normalized correlation value obtained by Eq. (26) is a value of 0 or more and 1 or less, ⁇ cand is so close to 1 that the time difference between channels is plausible, and ⁇ cand is not plausible as the time difference between channels. It is a value showing the property close to 0.
  • the channel-to-channel relationship information estimation unit 1132 further obtains the first channel decoded sound signal. Correlation value between the sample sequence and the sample sequence of the second channel decoded sound signal located behind the sample sequence by the time difference between channels ⁇ , that is, the number of each candidate sample from ⁇ max to ⁇ min ⁇ cand The maximum value of the correlation value ⁇ cand calculated for is output as the interchannel correlation coefficient ⁇ .
  • the inter-channel relationship information estimation unit 1132 may obtain the inter-channel correlation coefficient ⁇ by using the monaural decoded sound signal as well.
  • the monaural decoded sound signal input to the sound signal refining device 1102 is also input to the channel-to-channel relationship information estimation unit 1132.
  • the monaural decoded sound signal ⁇ X M is converted into the first channel decoded sound signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2
  • the inter-channel relationship information estimation unit 1132 may obtain the weight w cand that minimizes the value obtained by the following equation (27) among the w cands of -1 or more and 1 or less as the inter-channel correlation coefficient ⁇ . ..
  • the correlation between channels is high, that is, when the first channel input sound signal input to the coding device 500 and the second channel input sound signal input to the coding device 500 have similar waveforms if the time difference is matched.
  • the monaural decoded sound signal is the preceding channel of the first channel decoded sound signal and the second channel decoded sound signal. It contains many signals that are time-synchronized with the decoded sound signal.
  • the interchannel correlation coefficient ⁇ obtained by the equation (27) is a value close to 1 when the sound signal included in the first channel decoded sound signal precedes, and is used in the second channel decoded sound signal.
  • the value is close to -1, and the lower the correlation between channels, the smaller the absolute value.
  • the weight w cand that minimizes the value obtained by the equation (27) can be used as the interchannel correlation coefficient ⁇ .
  • the channel-to-channel relationship information estimation unit 1132 can obtain the inter-channel correlation coefficient ⁇ without obtaining the inter-channel time difference ⁇ .
  • the channel-to-channel relationship information used by the monaural decoded sound upmix unit 1172 is information representing the relationship between stereo channels, and may be one type or a plurality of types.
  • the monaural decoded sound upmix unit 1172 includes information indicating the time difference between channels ⁇ or the number of samples
  • the upmix processing may be performed using the information indicating which channel of the above is preceding.
  • sample number of samples for the absolute value of the time difference between channels ⁇ , number of samples for the size represented by the time difference ⁇ between channels
  • ) ⁇ to the second channel upmixed monaural decoded sound signal ⁇ X M2 ⁇ x M2 (1), Output as ⁇ x M2 (2), ..., ⁇ x
  • the monaural decoded sound upmix unit 1172 when the second channel precedes (that is, when the time difference ⁇ between channels is a negative value, or when either the first channel or the second channel precedes. If the information indicating whether or not is preceded by the second channel), the monaural decoded sound signal is
  • the monaural decoded sound upmix unit 1172 uses the input monaural decoded sound signal as it is for the above-mentioned channel having the shorter arrival time of the first channel and the second channel, and the upmixed monaural decoding of the channel.
  • the monaural decoded sound upmix unit 1172 uses the monaural decoded sound signal of the past frame in order to obtain a signal in which the monaural decoded sound signal is delayed, it is stored in a storage unit (not shown) in the monaural decoded sound upmix unit 1172. Stores monaural decoded sound signals input in past frames for a predetermined number of frames.
  • the nth channel purification weight estimation unit 1112-n obtains and outputs the nth channel purification weight ⁇ n (step S1112-n).
  • the nth channel purification weight estimation unit 1112-n obtains the nth channel purification weight ⁇ n by the same method as the method based on the principle of minimizing the quantization error described in the first embodiment.
  • the nth channel purification weight ⁇ n obtained by the nth channel purification weight estimation unit 1112-n is a value of 0 or more and 1 or less.
  • the nth channel purification weight estimation unit 1112-n obtains the nth channel purification weight ⁇ n for each frame by the method described later, the nth channel purification weight ⁇ n becomes 0 or 1 in all frames. There is no. That is, there is a frame in which the nth channel purification weight ⁇ n is greater than 0 and less than 1. In other words, in at least one of all frames, the nth channel purification weight ⁇ n is greater than 0 and less than 1.
  • the nth channel purification weight estimation unit 1112-n is monaural in the method based on the principle of minimizing the quantization error described in the first embodiment.
  • the decoded sound signal ⁇ X M is used
  • the nth channel upmixed monaural decoded sound signal ⁇ X Mn is used instead of the monaural decoded sound signal ⁇ X M to obtain the nth channel purification weight ⁇ n .
  • the nth channel purification weight estimation unit 1112-n uses the value obtained based on the monaural decoded sound signal ⁇ X M in the method based on the principle of minimizing the quantization error described in the first embodiment.
  • the value obtained based on the nth channel upmixed monaural decoded sound signal ⁇ X Mn is used instead of the value obtained based on the monaural decoded sound signal ⁇ X M.
  • the nth channel purification weight estimation unit 1112-n replaces the energy E M (0) of the monaural decoded sound signal of the current frame with the energy E Mn of the nth channel upmixed monaural decoded sound signal of the current frame.
  • the energy E Mn (-1) of the nth channel upmixed monaural decoded sound signal of the previous frame is used instead of the energy E M (-1) of the monaural decoded sound signal of the previous frame.
  • the nth channel purification weight estimation unit 1112-n of the first example has a sample number T per frame, a bit number b n corresponding to the nth channel among the bits of the stereo code CS, and a bit of the monaural code CM.
  • the nth channel purification weight ⁇ n is obtained by the following equation (2-5).
  • the nth channel purification weight estimation unit 1112-n of the second example uses at least the number of bits b n corresponding to the nth channel of the number of bits of the stereo code CS and the number of bits b M of the monaural code CM. Is greater than 0 and less than 1, 0.5 when b n and b M are equal, and more than b n is closer to 0 than 0.5, and b M is more than b n . A value closer to 1 than 0.5 is obtained as the nth channel purification weight ⁇ n .
  • the nth channel purification weight estimation unit 1112-n of the third example has a sample number T per frame, a bit number b n corresponding to the nth channel among the bits of the stereo code CS, and a bit of the monaural code CM. With the number b M and The value c n ⁇ obtained by multiplying the correction coefficient c n obtained by r n is obtained as the nth channel purification weight ⁇ n .
  • the nth channel purification weight estimation unit 1112-n of the third example obtains the nth channel purification weight ⁇ n by performing steps S1112-333-n from the following steps S1112-31-n, for example.
  • the nth channel purification weight estimation unit 1112-n also has a sample number T per frame, a bit number b n corresponding to the nth channel among the bits of the stereo code CS, and a bit number b of the monaural code CM.
  • the correction coefficient c n is obtained by the equation (2-8) (step S1112-32-n).
  • the nth channel purification weight estimation unit 1112-n is then multiplied by the normalized inner product value r n obtained in step S1112-31-n and the correction coefficient c n obtained in step S1112-32-n.
  • the value c n ⁇ r n is obtained as the nth channel purification weight ⁇ n (step S1112-33-n).
  • the number of bits corresponding to the nth channel among the number of bits of the stereo code CS is b n
  • the number of bits of the monaural code CM is b M , which is 0.
  • the value is 1 or less, and the higher the correlation between the nth channel decoded sound signal ⁇ X n and the nth channel upmixed monaural decoded sound signal ⁇ X Mn , the closer to 1, and the lower the correlation.
  • R n which is closer to 0, is greater than 0 and less than 1, 0.5 when b n and b M are the same, and b n is closer to 0 than 0.5 when b n is greater than b M.
  • the nth channel purification weight estimation unit 1112-n of the fifth example obtains the nth channel purification weight ⁇ n by performing steps S1112-55-n from the following steps S1112-51-n, for example.
  • ⁇ n is a predetermined value larger than 0 and less than 1, and is stored in advance in the nth channel purification weight estimation unit 1112-n.
  • the nth channel purification weight estimation unit 1112-n uses the obtained inner product value E n (0) as the “inner product value E n (-1) used in the previous frame” in the next frame. It is stored in the nth channel purification weight estimation unit 1112-n.
  • ⁇ X Mn ⁇ x Mn (1), ⁇ x Mn (2), ..., ⁇ x Mn .
  • E Mn (-1) of the nth channel upmixed monaural decoded sound signal used in the previous frame the following equation (2-10) is used in the current frame.
  • the energy E Mn (0) of the nth channel upmixed monaural decoded sound signal to be used is obtained (step S1112-52-n).
  • ⁇ Mn is a value larger than 0 and less than 1 and is predetermined, and is stored in advance in the nth channel purification weight estimation unit 1112-n.
  • the nth channel purification weight estimation unit 1112-n uses the energy E Mn (0) of the obtained nth channel upmixed monaural decoded sound signal as "the nth channel upmixed monaural decoding used in the previous frame.” It is stored in the nth channel purification weight estimation unit 1112-n for use in the next frame as the energy of the sound signal E Mn (-1) ”.
  • the nth channel purification weight estimation unit 1112-n uses the inner product value En (0) used in the current frame obtained in step S1112-51- n and the current frame obtained in step S1112-52-n.
  • the normalized internal product value r n is obtained by the following equation (2-11) (step S1112-53-n). ..
  • the nth channel purification weight estimation unit 1112-n also obtains a correction coefficient c M by the equation (2-8) (step S1112-54-n).
  • the nth channel purification weight estimation unit 1112-n is then multiplied by the normalized inner product value r n obtained in step S1112-53-n and the correction coefficient c n obtained in step S1112-54-n.
  • the value c n ⁇ r n is obtained as the nth channel purification weight ⁇ n (step S1112-55-n).
  • the nth channel purification weight estimation unit 1112-n of the fifth example has each sample value ⁇ x n (t) of the nth channel decoded sound signal ⁇ X n and the nth channel upmixed monaural decoded sound signal ⁇ X.
  • the inner product value E n (0) obtained by Eq. (2-9) using each sample value of Mn ⁇ x Mn (t) and the inner product value E n (-1) of the previous frame, and the nth channel upmix.
  • Equation (2-10) using each sample value of the completed monaural decoded sound signal ⁇ X Mn ⁇ x Mn (t) and the energy E Mn (-1) of the upmixed monaural decoded sound signal of the nth channel of the previous frame.
  • the correction coefficient c n obtained by Eq. (2-8) using the number of bits b n corresponding to the nth channel of the number of bits of the stereo code CS and the number of bits b M of the monaural code CM.
  • the obtained value c n ⁇ r n is obtained as the nth channel purification weight ⁇ n .
  • the nth channel purification weight estimation unit 1112-n of the sixth example has the normalized inner product value r n and the correction coefficient c n described in the third example, or the normalized inner product value described in the fifth example.
  • the nth channel purification weight estimation unit 1112-n of the seventh example has the normalized inner product value r n and the correction coefficient c n described in the third example, or the normalized inner product value described in the fifth example.
  • the nth channel signal purification unit 1122-n sets the nth channel purification weight ⁇ n and the sample value ⁇ x Mn (t) of the nth channel upmixed monaural decoded sound signal ⁇ X Mn for each corresponding sample t.
  • the sound signal refining device of the third embodiment also obtains the decoded sound signal of each stereo channel with the reference numeral from which the decoded sound signal is obtained. It is improved by using a monaural decoded sound signal obtained from a code different from the above.
  • the difference between the sound signal purification device of the third embodiment and the sound signal purification device of the second embodiment is that the channel-to-channel relationship information is obtained not from the decoded sound signal but from the code.
  • the difference between the sound signal refining device of the third embodiment and the sound signal refining device of the second embodiment will be described by using an example in which the number of stereo channels is 2.
  • the sound signal purification device 1103 of the third embodiment includes the channel-to-channel relationship information decoding unit 1143, the monaural decoding sound upmix unit 1172, the first channel purification weight estimation unit 112-1, and the first channel signal. It includes a purification unit 1122-1, a second channel purification weight estimation unit 1112-2, and a second channel signal purification unit 1122-2.
  • the sound signal purification device 1103 performs step S1143 and step S1172, and steps S1112-n and step S1122-n for each channel for each frame as illustrated in FIG.
  • the difference between the sound signal refining device 1103 of the third embodiment and the sound signal refining device 1102 of the second embodiment is that the inter-channel relationship information decoding unit 1143 is provided in place of the inter-channel relationship information estimation unit 1132 in step S1132. Instead, step S1143 is performed. Further, the channel-to-channel relationship information code CC of each frame is also input to the sound signal purification device 1103 of the third embodiment.
  • the inter-channel relationship information code CC may be a code obtained and output by the inter-channel relationship information coding unit (not shown) included in the above-mentioned coding device 500, or may be a code obtained and output by the above-mentioned stereo coding unit 530 of the coding device 500. It may be a code included in the stereo code CS obtained and output by.
  • the difference between the sound signal purification device 1103 of the third embodiment and the sound signal purification device 1102 of the second embodiment will be described.
  • the channel-to-channel relationship information code CC input to the sound signal purification device 1103 is input to the channel-to-channel relationship information decoding unit 1143.
  • the channel-to-channel relationship information decoding unit 1143 decodes the channel-to-channel relationship information code CC to obtain and output the channel-to-channel relationship information (step S1143).
  • the inter-channel relationship information obtained by the inter-channel relationship information decoding unit 1143 is the same as the inter-channel relationship information obtained by the inter-channel relationship information estimation unit 1132 of the second embodiment.
  • the inter-channel relationship information code CC is a code included in the stereo code CS
  • the same inter-channel relationship information obtained in step S1143 is obtained by decoding in the stereo decoding unit 620 of the decoding device 600. .. Therefore, when the inter-channel relationship information code CC is a code included in the stereo code CS, the inter-channel relationship information obtained by the stereo decoding unit 620 of the decoding device 600 is input to the sound signal purification device 1103 of the third embodiment.
  • the sound signal purification device 1103 of the third embodiment may not include the channel-to-channel relationship information decoding unit 1143 and may not perform step S1143.
  • the code included in the stereo code CS among the channel-to-channel relationship information code CC is used as the stereo decoding unit of the decoding device 600.
  • the channel-to-channel relationship information decoding unit 1143 of the sound signal purification device 1103 of the third embodiment is configured so that the channel-to-channel relationship information obtained by decoding by 620 is input to the sound signal purification device 1103 of the third embodiment.
  • the code not included in the stereo code CS among the channel-to-channel relationship information codes CC may be decoded to obtain and output the channel-to-channel relationship information that has not been input to the sound signal purification device 1103. ..
  • the sound signal purification device 1103 of the third embodiment when the code corresponding to a part of the channel-to-channel relationship information used by each part of the sound signal purification device 1103 is not included in the channel-to-channel relationship information code CC, the sound signal purification device 1103 of the third embodiment is used. Also includes an inter-channel relationship information estimation unit 1132, and the inter-channel relationship information estimation unit 1132 may also perform step S1132. In this case, the channel-to-channel relationship information estimation unit 1132 cannot obtain the channel-to-channel relationship information code CC among the channel-to-channel relationship information used by each unit of the sound signal purification device 1103 in step S1132. The related information may be obtained and output in the same manner as in step S1132 of the second embodiment.
  • the sound signal purification device of the fourth embodiment also obtains the decoded sound signal of each stereo channel with the reference numeral from which the decoded sound signal is obtained. It is improved by using a monaural decoded sound signal obtained from a code different from the above.
  • the sound signal refining device of the fourth embodiment will be described with reference to the above-mentioned sound signal refining device of each embodiment by using an example in which the number of stereo channels is 2.
  • the sound signal refining apparatus 1201 of the fourth embodiment includes the decoded sound common signal estimation unit 1251, the common signal purification weight estimation unit 1211, the common signal purification unit 1221, and the first channel separation / coupling weight estimation unit 1281. -1, the first channel separation coupling unit 1291-1, the second channel separation coupling weight estimation unit 1281-2, and the second channel separation coupling unit 1291-2 are included.
  • the sound signal purification device 1201 decodes the decoded sound common signal, which is a signal common to all channels of the stereo decoded sound, from the decoded sound common signal and the monaural decoded sound signal, for example, in a frame unit of a predetermined time length of 20 ms.
  • a refined common signal which is a sound signal with an improved sound common signal
  • the decoded sound signal of the channel is obtained from the decoded sound common signal, the refined common signal, and the decoded sound signal of the channel.
  • the decoded sound signal of each channel input to the sound signal refining device 1201 in frame units is, for example, the information obtained by the stereo decoding unit 620 of the above-mentioned decoding device 600 decoding the monaural code CM and the monaural code CM.
  • the information obtained by decoding the stereo code CS by the monaural decoding unit 610 of the above-mentioned decoding device 600 and the stereo code CS are used.
  • the monaural decoded sound signal of the T sample obtained by decoding the monaural code CM of the b M bit, which is a code different from the stereo code CS, ⁇ X M ⁇ x M (1), ⁇ x M (2) , ..., ⁇ x M (T) ⁇ .
  • the monaural code CM is a code derived from the same sound signal as the sound signal derived from the stereo code CS (that is, the first channel input sound signal X 1 and the second channel input sound signal X 2 input to the coding apparatus 500). However, it is a code different from the code from which the first channel decoded sound signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2 are obtained (that is, the stereo code CS). Assuming that the channel number n of the first channel is 1 and the channel number n of the second channel is 2, the sound signal refining apparatus 1201 will perform steps S1251, step S1211, and step S1221 for each frame as illustrated in FIG. , Step S1281-n and step S1291-n for each channel.
  • the decoded sound common signal estimation unit 1251 may use, for example, any of the following methods.
  • the decoded sound common signal estimation unit 1251 first performs a weighted average of the decoded sound signals of all channels of stereo (weights of the decoded sound signals ⁇ X 1 , ..., ⁇ X N of all channels from the first to the Nth channels).
  • a weighting coefficient that minimizes the difference between the attached average) and the monaural decoded sound signal is obtained (step S1251A-1).
  • the decoded sound common signal estimation unit 1251 obtains w cand having the smallest value obtained by the following equation (41) among w cands of -1 or more and 1 or less as the weighting coefficient w.
  • the decoded sound common signal estimation unit 1251 uses the weighting coefficient obtained in step S1251A-1 to perform a weighted average of the decoded sound signals of all the stereo channels (decoded sound signals of all channels from the first to the Nth channels).
  • the decoded sound common signal estimation unit 1251 obtains the decoded sound common signal ⁇ y M (t) by the following equation (42) for each sample number t.
  • the second method is a method corresponding to the case where the downmix unit 510 of the coding apparatus 500 obtains the downmix signal in [[second method for obtaining the downmix signal]].
  • the decoded sound common signal estimation unit 1251 obtains the decoded sound common signal ⁇ Y M by performing step S1251B described later.
  • the sound signal purification device 1201 obtains the channel-to-channel correlation coefficient ⁇ used in step S1251B described later and the preceding channel information, as shown by the broken line in FIG.
  • the estimation unit 1231 is also included, and the channel-to-channel relationship information estimation unit 1231 performs the following step S1231 before the decoded sound common signal estimation unit 1251 performs step S1251B.
  • the channel-to-channel relationship information estimation unit 1231 includes a first channel decoded sound signal ⁇ X 1 input to the sound signal purification device 1201 and a second channel decoded sound signal ⁇ X 2 input to the sound signal purification device 1201. Is at least entered.
  • the channel-to-channel relationship information estimation unit 1231 obtains the channel-to-channel correlation coefficient ⁇ and the preceding channel information as channel-to-channel relationship information by using at least the first channel decoded sound signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2 . Output (step S1231).
  • the inter-channel correlation coefficient ⁇ is a correlation coefficient between the first channel decoded sound signal and the second channel decoded sound signal.
  • the leading channel information is information indicating which of the first channel and the second channel is leading.
  • the inter-channel relationship information estimation unit 1231 performs steps S1231-1 to S1231-1 below.
  • the channel-to-channel relationship information estimation unit 1231 obtains the channel-to-channel time difference ⁇ by the method exemplified in the description of the channel-to-channel relationship information estimation unit 1132 of the second embodiment (step S1231-1).
  • the channel-to-channel relationship information estimation unit 1231 has a correlation value between the first channel decoded sound signal and the sample sequence of the second channel decoded sound signal located at a position shifted behind the sample sequence by the time difference ⁇ between channels. That is, the maximum value of the correlation values ⁇ cand calculated for each candidate sample number ⁇ cand from ⁇ max to ⁇ min is obtained and output as the interchannel correlation coefficient ⁇ (step S1231-2).
  • the inter-channel relationship information estimation unit 1231 When the inter-channel relationship information estimation unit 1231 also has a positive value, the inter-channel relationship information estimation unit 1231 obtains and outputs information indicating that the first channel is ahead as the preceding channel information, and outputs the inter-channel time difference. When ⁇ is a negative value, information indicating that the second channel is leading is obtained and output as leading channel information (step S1231-3). When the inter-channel relationship information estimation unit 1231 has an inter-channel time difference ⁇ of 0, the inter-channel relationship information estimation unit 1231 may obtain and output information indicating that the first channel is ahead as the preceding channel information, or may output the second channel. The information indicating that is preceded may be obtained and output as the preceding channel information, but the information indicating that none of the channels may be preceded may be obtained and output as the preceding channel information.
  • the decoded sound common signal estimation unit 1251 includes a first channel decoded sound signal ⁇ X 1 input to the sound signal refining device 1201 and a second channel decoded sound signal ⁇ X 2 input to the sound signal refining device 1201.
  • the inter-channel correlation coefficient ⁇ output by the inter-channel relationship information estimation unit 1231 and the preceding channel information output by the inter-channel relationship information estimation unit 1231 are input.
  • the decoded sound common signal estimation unit 1251 sets the decoded sound common signal ⁇ Y M to the decoded sound signal of the preceding channel of the first channel decoded sound signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2 .
  • the decoding sound common signal ⁇ Y M is obtained by weighting and averaging the first channel decoded sound signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2 so that the larger the inter-channel correlation coefficient ⁇ is, the larger it is included. And output (S1251B).
  • the decoded sound common signal estimation unit 1251 uses a weight determined by the interchannel correlation coefficient ⁇ for each corresponding sample number t to decode the first channel decoded sound signal ⁇ x 1 (t) and the second channel.
  • the weighted addition of the sound signal ⁇ x 2 (t) may be used as the decoded sound common signal ⁇ y M (t).
  • the decoded sound common signal estimation unit 1251 is each sample when the preceding channel information is information indicating that the first channel precedes, that is, when the first channel precedes.
  • ⁇ y M (t) ((1- ⁇ ) / 2) ⁇ ⁇ x 1 (t) + ((1) The sequence of + ⁇ ) / 2) ⁇ ⁇ x 2 (t) may be obtained as the decoded sound common signal ⁇ Y M.
  • the preceding channel information indicates that none of the channels is preceded by the decoded sound common signal estimation unit 1251, the first channel decoded sound signal ⁇ x 1 (t) and the first channel decoded sound signal ⁇ x 1 (t) for each sample number t.
  • ⁇ y M (t) ( ⁇ x 1 (t) + ⁇ x 2 (t)) / 2, which is the average of the two-channel decoded sound signals ⁇ x 2 (t), as the decoded sound common signal ⁇ y M (t).
  • ⁇ y M (t) ( ⁇ x 1 (t) + ⁇ x 2 (t)) / 2 is obtained. It may be obtained as the decoded sound common signal ⁇ Y M.
  • the common signal purification weight estimation unit 1211 obtains and outputs the common signal purification weight ⁇ M (step 1211).
  • the common signal purification weight estimation unit 1211 obtains the common signal purification weight ⁇ M by the same method as the method based on the principle of minimizing the quantization error described in the first embodiment.
  • the common signal purification weight ⁇ M obtained by the common signal purification weight estimation unit 1211 is a value of 0 or more and 1 or less.
  • the common signal purification weight ⁇ M does not become 0 or 1 in all frames. That is, there is a frame in which the common signal purification weight ⁇ M is greater than 0 and less than 1. In other words, in at least one of all frames, the common signal purification weight ⁇ M is greater than 0 and less than 1.
  • the common signal purification weight estimation unit 1211 is the nth channel decoding in the method based on the principle of minimizing the quantization error described in the first embodiment.
  • the sound signal ⁇ X n is used
  • the principle of minimizing the quantization error described in the first embodiment by using the decoded sound common signal ⁇ Y M instead of the nth channel decoded sound signal ⁇ X n is used.
  • the place where the number of bits b n corresponding to the nth channel of the number of bits of the stereo code CS is used corresponds to the common signal among the number of bits of the stereo code CS instead of the number of bits b n .
  • the common component signal weight ⁇ M is obtained by using the number of bits b m . That is, in the first to seventh examples below, the number of bits b m corresponding to the common signal among the number of bits b M of the monaural code CM and the number of bits of the stereo code CS is used. Since the method for specifying the number of bits b M of the monaural code CM is the same as that of the first embodiment, the method for specifying the number of bits b m corresponding to the common signal among the number of bits of the stereo code CS is described from the first example. This will be described before the seventh example is described.
  • the common signal purification weight estimation unit 1211 uses a value obtained by multiplying the number of bits b s of the stereo code CS by a value larger than a predetermined value and less than 1 as b m . That is, when the number of bits b s of the stereo code CS in the decoding method used by the stereo decoding unit 620 is the same for all frames, the bits of the stereo code CS are stored in the storage unit (not shown) in the common signal purification weight estimation unit 1211.
  • the value obtained by multiplying the number b S by a predetermined value greater than 0 and less than 1 may be stored as the number of bits b m .
  • the common signal purification weight estimation unit 1211 has the number of bits b s , which is larger than a predetermined number of 0 and less than 1.
  • the value obtained by multiplying the value by the value should be obtained as b m .
  • the common signal purification weight estimation unit 1211 may use the reciprocal of the number of channels as a value larger than a predetermined value of 0 and less than 1. That is, the common signal purification weight estimation unit 1211 may use the value obtained by dividing the number of bits b s of the stereo code CS by the number of channels as b m .
  • the common signal purification weight estimation unit 1211 may estimate b m for each frame using the interchannel correlation coefficient ⁇ .
  • the common signal purification weight estimation unit 1211 obtains a value closer to the number of bits b s as b m as the interchannel correlation coefficient ⁇ is closer to 1, and the interchannel correlation coefficient ⁇ is obtained.
  • the sound signal purification device 1201 also includes the channel-to-channel relationship information estimation unit 1231 as shown by the broken line in FIG. 9 in order to obtain the inter-channel correlation coefficient ⁇ , and the channel-to-channel relationship.
  • the information estimation unit 1231 has the interchannel correlation coefficient ⁇ as described above in the explanation part of [[second method for obtaining the decoded sound common component signal]] and the explanation part of the channel-to-channel relationship information estimation unit 1132 of the second embodiment. To get.
  • the common signal purification weight estimation unit 1211 of the first example includes the number of samples T per frame, the number of bits corresponding to the common signal among the number of bits of the stereo code CS, and the number of bits b M of the monaural code CM . , To obtain the common signal purification weight ⁇ M by the following equation (4-5).
  • the common signal purification weight estimation unit 1211 of the second example uses at least the number of bits b m corresponding to the common signal among the number of bits of the stereo code CS and the number of bits b M of the monaural code CM from 0. Greater than 1 value, 0.5 when b m and b M are equal, closer to 0 than 0.5 when b m is greater than b M , and 1 more than 0.5 when b M is greater than b m A value close to is obtained as the common signal purification weight ⁇ M.
  • the common signal purification weight estimation unit 1211 of the third example includes the number of samples T per frame, the number of bits corresponding to the common signal among the number of bits of the stereo code CS, and the number of bits b M of the monaural code CM . Using, The value c M ⁇ r M obtained by multiplying the correction coefficient c M obtained by Get as M.
  • the common signal purification weight estimation unit 1211 of the third example obtains the common signal purification weight ⁇ M by performing steps S1211-333-n from the following steps S1211-13-1n, for example.
  • ⁇ X M ⁇ x M (1), ⁇ x M (2), ..., ⁇ x M (T) ⁇
  • the decoded sound common signal ⁇ Y M monaural by the following equation (4-6)
  • a normalized internal product value r M for the decoded sound signal ⁇ X M is obtained (step S1211-131-n).
  • the common signal purification weight estimation unit 1211 also determines the number of samples T per frame, the number of bits corresponding to the common signal among the number of bits of the stereo code CS, and the number of bits b M of the monaural code CM .
  • the correction coefficient c M is obtained by the equation (4-8) (step S1211-32-n).
  • the common signal purification weight estimation unit 1211 then multiplies the normalized inner product value r M obtained in step S1211-131-n by the correction coefficient c M obtained in step S1211-32-n, and the value c M.
  • ⁇ r M is obtained as a common signal purification weight ⁇ M (step S1211-333-n).
  • the number of bits corresponding to the common signal among the number of bits of the stereo code CS is b m
  • the number of bits of the monaural code CM is b M , which is 0 or more and 1 or less.
  • the common signal purification weight estimation unit 1211 of the fifth example obtains the common signal purification weight ⁇ M by performing steps S1211-55 from the following steps S121-51.
  • the signal ⁇ X M ⁇ x M (1), ⁇ x M (2), ..., ⁇ x M (T) ⁇ and the internal product value E m (-1) used in the previous frame.
  • the internal product value E m (0) used in the current frame is obtained (step S121-51).
  • ⁇ m is a predetermined value larger than 0 and less than 1, and is stored in advance in the common signal purification weight estimation unit 1211.
  • the common signal purification weight estimation unit 1211 uses the obtained inner product value E m (0) as the “inner product value E m (-1) used in the previous frame” in the next frame, so that the common signal purification can be performed. It is stored in the weight estimation unit 1211.
  • ⁇ M is a value larger than 0 and less than 1 and is predetermined, and is stored in advance in the common signal purification weight estimation unit 1211.
  • the common signal purification weight estimation unit 1211 uses the obtained monaural decoded sound signal energy E M (0) as the “monaural decoded sound signal energy E M (-1) used in the previous frame” in the next frame. It is stored in the common signal purification weight estimation unit 1211 for use in.
  • the common signal purification weight estimation unit 1211 determines the inner product value Em (0) used in the current frame obtained in step S121-51 and the monaural decoded sound signal used in the current frame obtained in step S1211-52. Using the energy E M (0), the normalized inner product value r M is obtained by the following equation (4-11) (step S1211-53).
  • the common signal purification weight estimation unit 1211 also obtains a correction coefficient c M by the equation (4-8) (step S121-54). The common signal purification weight estimation unit 1211 then calculates a value c M ⁇ r M obtained by multiplying the normalized inner product value r M obtained in step S1211-53 by the correction coefficient c M obtained in step S1211-54. Obtained as a common signal purification weight ⁇ M (step S1211-55).
  • the common signal purification weight estimation unit 1211 of the fifth example has each sample value ⁇ y M (t) of the decoded sound common signal ⁇ Y M and each sample value ⁇ x M (t) of the monaural decoded sound signal ⁇ X M. And the inner product value E m (0) obtained by Eq. (4-9) using the inner product value E m (-1) of the previous frame, and each sample value ⁇ x M (t) of the monaural decoded sound signal ⁇ X M. ) And the energy E M (0) of the monaural decoded sound signal obtained by Eq. (4-10) using the energy E M (-1) of the monaural decoded sound signal of the previous frame, and the equation (4-).
  • the correction coefficient c M obtained by Eq. (4-8) is multiplied by the value c M ⁇ r M to be obtained as the common signal purification weight ⁇ M.
  • the common signal purification weight estimation unit 1211 of the sixth example has the normalized inner product value r M and the correction coefficient c M described in the third example, or the normalized inner product value r M described in the fifth example.
  • the common signal purification weight estimation unit 1211 of the seventh example has the normalized inner product value r M and the correction coefficient c M described in the third example, or the normalized inner product value r M described in the fifth example.
  • the common signal purification weight is a value obtained by multiplying the correction coefficient c M and the inter-channel correlation coefficient ⁇ , which is the correlation coefficient between the first channel decoded sound signal and the second channel decoded sound signal, ⁇ ⁇ c M ⁇ r M. Obtained as ⁇ M.
  • the sound signal purification device 1201 of the seventh example also includes the channel-to-channel relationship information estimation unit 1231 as shown by the broken line in FIG.
  • the inter-channel correlation coefficient ⁇ is obtained as described above in the description of [2nd method for obtaining the decoded sound common component signal]] and the description of the channel-relationship information estimation unit 1132 of the second embodiment.
  • the common signal purification unit 1221 multiplies the common signal purification weight ⁇ M by the sample value ⁇ x M (t) of the monaural decoded sound signal ⁇ X M for each corresponding sample t, and the value ⁇ M ⁇ ⁇ x M (t).
  • the nth channel separation coupling weight estimation unit 1281-n is derived from the nth channel decoded sound signal ⁇ X n and the decoded sound common signal ⁇ Y M , and the nth channel decoded sound signal ⁇ X n is the decoded sound common signal ⁇ Y M.
  • the normalized inner product value for is obtained as the nth channel separation bond weight ⁇ n (step S1281-n). Specifically, the nth channel separation bond weight ⁇ n is as shown in Eq. (43).
  • the nth channel separation coupling unit 1291-n is common to the nth channel separation coupling weight ⁇ n and the decoding sound from the sample value ⁇ x n (t) of the nth channel decoding sound signal ⁇ X n for each corresponding sample t. Subtract the value ⁇ n ⁇ ⁇ y M (t) multiplied by the sample value ⁇ y M (t) of the signal ⁇ Y M , and subtract the nth channel separation coupling weight ⁇ n and the sample value of the purified common signal ⁇ Y M.
  • the sound signal purification device 1201 uses the channel-to-channel relationship information and the stereo decoding unit 620 of the decoding device 600 obtains at least one of the channel-to-channel relationship information used by the sound signal purification device 1201, the decoding device.
  • the channel-to-channel relationship information obtained by the stereo decoding unit 620 of 600 may be input to the sound signal purification device 1201, and the sound signal purification device 1201 may use the input channel-to-channel relationship information.
  • the sound signal purification device 1201 uses the channel-to-channel relationship information
  • the sound signal is output to the channel-to-channel relationship information code CC obtained and output by the channel-to-channel relationship information coding unit (not shown) included in the coding device 500 described above.
  • the code representing the channel-to-channel relationship information used by the sound signal purification device 1201 included in the channel-to-channel relationship information code CC is assigned to the sound signal purification device 1201.
  • the sound signal purification device 1201 is provided with an inter-channel relationship information decoding unit (not shown) so that the inter-channel relationship information decoding unit decodes a code representing the inter-channel relationship information to obtain the inter-channel relationship information. May be output.
  • the sound signal purification device 1201 when all the channel-to-channel relationship information used by the sound signal purification device 1201 is input to the sound signal purification device 1201 or obtained by the channel-to-channel relationship information decoding unit, the sound signal purification device 1201 has the channel-to-channel relationship information.
  • the relationship information estimation unit 1231 may not be provided.
  • the sound signal purification device of the fifth embodiment like the sound signal purification device of the fourth embodiment, obtains the decoded sound signal of each stereo channel from a code different from the code from which the decoded sound signal is obtained. It is improved by using the obtained monaural decoded sound signal.
  • the difference between the sound signal purification device of the fifth embodiment and the sound signal purification device of the fourth embodiment is that a signal obtained by upmixing the monaural decoded sound signal for each channel is used instead of the monaural decoded sound signal itself. Instead of using the decoded sound common signal itself, a signal obtained by upmixing the decoded sound common signal for each channel is used.
  • the sound signal purification device 1202 of the fifth embodiment includes the channel-to-channel relationship information estimation unit 1232, the decoded sound common signal estimation unit 1251, the common signal purification weight estimation unit 1211, the common signal purification unit 1221, and the decoding.
  • the sound signal purification apparatus 1202 includes step S1232, step S1251, step S1211, step S1221, step S1262 and step S1272, and step S1282-n and step S1292-n for each channel. And do.
  • the channel-to-channel relationship information estimation unit 1232 includes a first channel decoded sound signal ⁇ X 1 input to the sound signal purification device 1202, a second channel decoded sound signal ⁇ X 2 input to the sound signal purification device 1202, and the second channel decoded sound signal ⁇ X 2. Is at least entered.
  • the channel-to-channel relationship information estimation unit 1232 obtains and outputs channel-to-channel relationship information using at least the first channel decoded sound signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2 (step S1232).
  • the channel-to-channel relationship information is information representing the relationship between stereo channels.
  • Examples of inter-channel relationship information are inter-channel time difference ⁇ , inter-channel correlation coefficient ⁇ , and preceding channel information.
  • the channel-to-channel relationship information estimation unit 1232 may obtain a plurality of types of channel-to-channel relationship information, for example, the channel-to-channel time difference ⁇ , the channel-to-channel correlation coefficient ⁇ , and the preceding channel information.
  • a method for the inter-channel relationship information estimation unit 1232 to obtain the inter-channel time difference ⁇ and a method for obtaining the inter-channel correlation coefficient ⁇ for example, the method described above in the description of the inter-channel relationship information estimation unit 1132 of the second embodiment is used. You can use it.
  • the channel-to-channel relationship information estimation unit 1232 obtains the preceding channel information.
  • the inter-channel relationship information estimation unit 1232 to obtain the preceding channel information, for example, the method described above in the description of the inter-channel relationship information estimation unit 1231 of the fourth embodiment may be used.
  • the channel-to-channel time difference ⁇ obtained by the method described above in the explanation of the channel-to-channel relationship information estimation unit 1132 includes information representing the number of samples
  • the inter-channel relationship information estimation unit 1232 when the inter-channel relationship information estimation unit 1232 also obtains and outputs the preceding channel information, it replaces the inter-channel time difference ⁇ . Therefore, information representing the number of samples
  • the decoded sound common signal estimation unit 1251 obtains and outputs the decoded sound common component signal ⁇ Y M , similarly to the decoded sound common signal estimation unit 1251 of the fourth embodiment (step S1251).
  • the common signal purification weight estimation unit 1211 obtains and outputs the common signal purification weight ⁇ M , similarly to the common signal purification weight estimation unit 1211 of the fourth embodiment (step 1211).
  • the common signal purification unit 1221 Similar to the common signal purification unit 1221 of the fourth embodiment, the common signal purification unit 1221 obtains and outputs the purified common signal ⁇ YM (step S1221 ).
  • the decoded sound common signal upmix unit 1262 may obtain the nth channel upmixed common signal ⁇ Y Mn by, for example, the first method or the second method below.
  • the decoded sound common signal upmix unit 1262 replaces the monaural decoded sound signal ⁇ X M with the decoded sound common signal ⁇ Y M in the same processing as the monaural decoded sound upmix unit 1172 of the second embodiment, and is the nth channel upmix.
  • the nth channel upmixed common signal ⁇ Y Mn is obtained.
  • the signal that the decoded sound common signal is delayed by
  • the decoded sound common signal upmix unit 1262 is a signal in which the decoded sound common signal is delayed by
  • ) ⁇ is upmixed to the first channel
  • Output as the second channel upmixed common signal ⁇ Y M2 ⁇ y M2 (1), ⁇ y M2 (2), ..., ⁇ y M2 (T) ⁇ .
  • the decoded sound common signal upmix unit 1262 takes the weighted average of the decoded sound common signal ⁇ Y M and the decoded sound signal ⁇ X n of each channel in consideration of the correlation between the channels, and raises the nth channel.
  • the second method is to obtain a mixed common signal ⁇ Y Mn .
  • the purified common signal upmix unit 1272 reads the monaural decoded sound signal ⁇ X M as the purified common signal ⁇ Y M in the same process as the monaural decoded sound upmix unit 1172 of the second embodiment, and reads the nth channel upmix.
  • the finished monaural decoded sound signal ⁇ X Mn may be read as the nth channel upmixed refined signal ⁇ Y Mn .
  • the nth channel separation coupling weight estimation unit 1282-n is composed of the nth channel decoded sound signal ⁇ X n and the nth channel upmixed common signal ⁇ Y Mn , and the nth channel of the nth channel decoded sound signal ⁇ X n .
  • the normalized internal product value for the upmixed common signal ⁇ Y Mn is obtained and output as the nth channel separation coupling weight ⁇ n (step S1282-n).
  • the nth channel separation bond weight ⁇ n is as shown in Eq. (52).
  • the nth channel separation coupling unit 1292-n has the nth channel separation coupling weight ⁇ n and the nth channel from the sample value ⁇ x n (t) of the nth channel decoded sound signal ⁇ X n for each corresponding sample t.
  • the sound signal refining device of the sixth embodiment also obtains the decoded sound signal of each stereo channel with the reference numeral from which the decoded sound signal is obtained. It is improved by using a monaural decoded sound signal obtained from a code different from the above.
  • the difference between the sound signal purification device of the sixth embodiment and the sound signal purification device of the fifth embodiment is that the channel-to-channel relationship information is obtained not from the decoded sound signal but from the code.
  • the difference between the sound signal refining device of the sixth embodiment and the sound signal refining device of the fifth embodiment will be described with reference to an example in which the number of stereo channels is two.
  • the sound signal purification device 1203 of the sixth embodiment includes the channel-to-channel relationship information decoding unit 1243, the decoded sound common signal estimation unit 1251, the common signal purification weight estimation unit 1211, the common signal purification unit 1221, and the decoding.
  • the second channel separation coupling part 1292-2 is the channel separation coupling part 1292-2.
  • the sound signal purification apparatus 1203 includes step S1243, step S1251, step S1211, step S1221, step S1262 and step S1272, and step S1282-n and step S1292-n for each channel, as illustrated in FIG. And do.
  • the difference between the sound signal refining device 1203 of the sixth embodiment and the sound signal refining device 1202 of the fifth embodiment is that the inter-channel relationship information decoding unit 1243 is provided in place of the inter-channel relationship information estimation unit 1232, and the step S1232 is performed. Instead, step S1243 is performed.
  • the channel-to-channel relationship information code CC of each frame is also input to the sound signal purification device 1203 of the sixth embodiment.
  • the inter-channel relationship information code CC may be a code obtained and output by the inter-channel relationship information coding unit (not shown) included in the above-mentioned coding device 500, or may be a code obtained and output by the above-mentioned stereo coding unit 530 of the coding device 500. It may be a code included in the stereo code CS obtained and output by.
  • the difference between the sound signal purification device 1203 of the sixth embodiment and the sound signal purification device 1202 of the fifth embodiment will be described.
  • the channel-to-channel relationship information code CC input to the sound signal refining device 1203 is input to the channel-to-channel relationship information decoding unit 1243.
  • the channel-to-channel relationship information decoding unit 1243 decodes the channel-to-channel relationship information code CC to obtain and output the channel-to-channel relationship information (step S1243).
  • the inter-channel relationship information obtained by the inter-channel relationship information decoding unit 1243 is the same as the inter-channel relationship information obtained by the inter-channel relationship information estimation unit 1232 of the fifth embodiment.
  • the inter-channel relationship information code CC is a code included in the stereo code CS
  • the same inter-channel relationship information obtained in step S1243 is obtained by decoding in the stereo decoding unit 620 of the decoding device 600. .. Therefore, when the inter-channel relationship information code CC is a code included in the stereo code CS, the inter-channel relationship information obtained by the stereo decoding unit 620 of the decoding device 600 is input to the sound signal purification device 1203 of the sixth embodiment.
  • the sound signal purification device 1203 of the sixth embodiment may not include the channel-to-channel relationship information decoding unit 1243 and may not perform step S1243.
  • the code included in the stereo code CS among the channel-to-channel relationship information code CC is used as the stereo decoding unit of the decoding device 600.
  • the channel-to-channel relationship information decoding unit 1243 of the sound signal purification device 1203 of the sixth embodiment is configured so that the channel-to-channel relationship information obtained by decoding by 620 is input to the sound signal purification device 1203 of the sixth embodiment.
  • the code not included in the stereo code CS among the channel-to-channel relationship information codes CC may be decoded to obtain and output the channel-to-channel relationship information that has not been input to the sound signal purification device 1203. ..
  • the sound signal purification device 1203 of the sixth embodiment may be used. Also includes an inter-channel relationship information estimation unit 1232, and the inter-channel relationship information estimation unit 1232 may also perform step S1232.
  • the inter-channel relationship information estimation unit 1232 obtains inter-channel relationship information that cannot be obtained by decoding the inter-channel relationship information code CC among the inter-channel relationship information used by each unit of the sound signal purification device 1203. It may be obtained and output in the same manner as in step S1232 of the fifth embodiment.
  • the sound signal purification device of the seventh embodiment Similar to the sound signal purification devices of the first to sixth embodiments, the sound signal purification device of the seventh embodiment also obtains the decoded sound signal of each stereo channel with the reference numeral from which the decoded sound signal is obtained. It is improved by using a monaural decoded sound signal obtained from a code different from the above.
  • the sound signal refining device of the seventh embodiment will be described with reference to the above-mentioned sound signal refining device of each embodiment by using an example in which the number of stereo channels is 2.
  • the sound signal purification device 1301 of the seventh embodiment includes the channel-to-channel relationship information estimation unit 1331, the decoded sound common signal estimation unit 1351, the decoded sound common signal upmix unit 1361, and the monaural decoded sound upmix unit. 1371, 1st channel purification weight estimation unit 1311-1, 1st channel signal purification unit 1321-1, 1st channel separation / coupling weight estimation unit 1381-1, 1st channel separation / coupling unit 1391-1 and 2nd channel purification weight. It includes an estimation unit 1311-2, a second channel signal purification unit 1321-2, a second channel separation / coupling weight estimation unit 1381-2, and a second channel separation / coupling unit 1391-2.
  • the sound signal purification device 1301 is a signal obtained by upmixing a decoded sound common signal, which is a signal common to all channels of stereo decoded sound, for each stereo channel, for example, in a frame unit of a predetermined time length of 20 ms.
  • the upmixed monaural decoded sound signal obtained by upmixing the upmixed common signal and the monaural decoded sound signal, and the refined upmixed signal which is an improved sound signal of the upmixed common signal are obtained. Then, from the decoded sound signal, the upmixed common signal, and the refined upmixed signal, a refined decoded sound signal which is an improved sound signal of the decoded sound signal is obtained and output.
  • the decoded sound signal of each channel input to the sound signal refining device 1301 in frame units is, for example, the information obtained by the stereo decoding unit 620 of the above-mentioned decoding device 600 decoding the monaural code CM and the monaural code CM.
  • the information obtained by decoding the stereo code CS by the monaural decoding unit 610 of the above-mentioned decoding device 600 and the stereo code CS are used.
  • the monaural decoded sound signal of the T sample obtained by decoding the monaural code CM of the b M bit, which is a code different from the stereo code CS, ⁇ X M ⁇ x M (1), ⁇ x M (2) , ..., ⁇ x M (T) ⁇ .
  • the monaural code CM is a code derived from the same sound signal as the sound signal derived from the stereo code CS (that is, the first channel input sound signal X 1 and the second channel input sound signal X 2 input to the coding apparatus 500). However, it is a code different from the code from which the first channel decoded sound signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2 are obtained (that is, the stereo code CS).
  • the sound signal refining apparatus 1301 performs steps S1331, step S1351 and step S1361 for each frame as illustrated in FIG. Step S1371, step S1311-n, step S1321-n, step S1381-n, and step S1391-n for each channel are performed.
  • channel-to-channel relationship information estimation unit 1331 In the channel-to-channel relationship information estimation unit 1331, a first channel decoded sound signal ⁇ X 1 input to the sound signal purification device 1301 and a second channel decoded sound signal ⁇ X 2 input to the sound signal purification device 1301 are provided. Is at least entered.
  • the channel-to-channel relationship information estimation unit 1331 obtains and outputs channel-to-channel relationship information using at least the first channel decoded sound signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2 (step S1331).
  • the channel-to-channel relationship information is information representing the relationship between stereo channels.
  • Examples of inter-channel relationship information are inter-channel time difference ⁇ , inter-channel correlation coefficient ⁇ , and preceding channel information.
  • the channel-to-channel relationship information estimation unit 1331 may obtain a plurality of types of channel-to-channel relationship information, for example, the channel-to-channel time difference ⁇ , the channel-to-channel correlation coefficient ⁇ , and the preceding channel information.
  • a method for the inter-channel relationship information estimation unit 1331 to obtain the inter-channel time difference ⁇ and a method for obtaining the inter-channel correlation coefficient ⁇ for example, the method described above in the description of the inter-channel relationship information estimation unit 1132 of the second embodiment is used. You can use it.
  • the channel-to-channel relationship information estimation unit 1331 obtains the preceding channel information.
  • the method described above in the description of the inter-channel relationship information estimation unit 1231 of the fourth embodiment may be used.
  • the channel-to-channel time difference ⁇ obtained by the method described above in the explanation of the channel-to-channel relationship information estimation unit 1132 includes information representing the number of samples
  • the inter-channel relationship information estimation unit 1331 when the inter-channel relationship information estimation unit 1331 also obtains and outputs the preceding channel information, it replaces the inter-channel time difference ⁇ . Therefore, information representing the number of samples
  • the decoded sound common signal estimation unit 1351 to obtain the decoded sound common signal ⁇ Y M , for example, the method described above in the description of the decoded sound common signal estimation unit 1251 of the fourth embodiment may be used.
  • the decoded sound common signal upmix unit 1361 may perform the same processing as the decoded sound common signal upmix unit 1262 of the fifth embodiment. That is, for example, the first method or the second method described above in the description of the decoded sound common signal upmix unit 1262 of the fifth embodiment may be performed.
  • the decoded sound common signal upmix unit 1262 performs the second method, as shown by a broken line in FIG. 15, the first channel decoded sound signal and the sound signal refining device input to the sound signal refining device 1301.
  • the second channel decoded sound signal input to 1301 is also input to the decoded sound common signal upmix unit 1361.
  • the monaural decoded sound upmix unit 1371 may perform the same processing as the monaural decoded sound upmix unit 1172 of the second embodiment.
  • the nth channel purification weight estimation unit 1311-n obtains and outputs the nth channel purification weight ⁇ Mn (step 1311-n).
  • the nth channel purification weight estimation unit 1311-n obtains the nth channel purification weight ⁇ Mn by the same method as the method based on the principle of minimizing the quantization error described in the first embodiment.
  • the nth channel purification weight ⁇ Mn obtained by the nth channel purification weight estimation unit 1311-n is a value of 0 or more and 1 or less.
  • the nth channel purification weight estimation unit 1311-n obtains the nth channel purification weight ⁇ Mn for each frame by the method described later, the nth channel purification weight ⁇ Mn becomes 0 or 1 in all frames. There is no. That is, there is a frame in which the nth channel purification weight ⁇ Mn is greater than 0 and less than 1. In other words, in at least one of all frames, the nth channel purification weight ⁇ Mn is greater than 0 and less than 1.
  • the n-channel purification weight estimation unit 1311-n is the method based on the principle of minimizing the quantization error described in the first embodiment.
  • the n-channel decoded sound signal ⁇ X n is used, the n-channel upmixed common signal ⁇ Y Mn is used instead of the n-channel decoded sound signal ⁇ X n , and the quantum described in the first embodiment is used.
  • the monaural decoded sound signal ⁇ X M is used in the method based on the principle of minimizing the conversion error, the nth channel upmixed monaural decoded sound signal ⁇ X Mn is used instead of the monaural decoded sound signal ⁇ X M.
  • the number of bits b n corresponding to the nth channel of the number of bits of the stereo code CS is used.
  • the nth channel purification weight ⁇ Mn is obtained by using the number of bits b m corresponding to the common signal among the number of bits of the stereo code CS instead of n. That is, in the first to seventh examples below, the number of bits b m corresponding to the common signal among the number of bits b M of the monaural code CM and the number of bits of the stereo code CS is used.
  • the method for specifying the number of bits b m of the monaural code CM is the same as that of the first embodiment, and the method of specifying the number of bits b m corresponding to the common signal among the number of bits of the stereo code CS is the same as that of the fourth embodiment. It is the same.
  • the nth channel purification weight estimation unit 1311- n of the first example has the number of samples T per frame, the number of bits corresponding to the common signal among the number of bits of the stereo code CS, and the number of bits of the monaural code CM.
  • the nth channel purification weight ⁇ Mn is obtained by the following formula (7-5). Since the nth channel purification weight ⁇ Mn obtained in the first example has the same value in all channels, the sound signal purification device 1301 replaces the nth channel purification weight estimation unit 1311-n of each channel with the nth channel purification weight estimation unit 1311-n.
  • a purification weight estimation unit 1311 common to all channels may be provided, and the purification weight estimation unit 1311 may obtain the nth channel purification weight ⁇ Mn common to all channels by the equation (7-5).
  • the nth channel purification weight estimation unit 1311-n of the second example uses at least the number of bits b m corresponding to the common signal among the number of bits of the stereo code CS and the number of bits b M of the monaural code CM. , Greater than 0 and less than 1, 0.5 when b m and b M are equal, more b m than b M is closer to 0 than 0.5, and more b M is more than b m A value closer to 1 than 0.5 is obtained as the nth channel purification weight ⁇ Mn .
  • the sound signal purification device 1301 is assigned to the nth channel purification weight estimation unit 1311-n of each channel.
  • the purification weight estimation unit 1311 common to all channels may be provided so that the purification weight estimation unit 1311 obtains the nth channel purification weight ⁇ Mn common to all channels satisfying the above-mentioned conditions.
  • the nth channel purification weight estimation unit 1311- n of the third example has the number of samples T per frame, the number of bits corresponding to the common signal among the number of bits of the stereo code CS, and the number of bits of the monaural code CM.
  • b M The value c obtained by multiplying the correction coefficient c n obtained by n ⁇ r n is obtained as the nth channel purification weight ⁇ Mn .
  • the nth channel purification weight estimation unit 1311-n of the third example obtains the nth channel purification weight ⁇ Mn by performing steps S1311-333-n from the following steps S1311-3-1n, for example.
  • nth channel upmixed monaural decoded sound signal ⁇ X Mn ⁇ x Mn (1), ⁇ x Mn (2), ..., ⁇ x Mn (T) ⁇ -In 6) ⁇
  • a normalized internal product value r n for the nth channel upmixed monaural decoded sound signal ⁇ X Mn of the nth channel upmixed common signal ⁇ Y Mn is obtained (step S1311-131-n).
  • the nth channel purification weight estimation unit 1311-n also has a sample number T per frame, a bit number b m corresponding to a common signal among the bits of the stereo code CS, and a bit number b M of the monaural code CM.
  • the correction coefficient c n is obtained by the equation (7-8) (step S1311-32-n).
  • the nth channel purification weight estimation unit 1311-n then multiplied the normalized inner product value r n obtained in step S1311-13-1n with the correction coefficient c n obtained in step S1311-32-n.
  • the value c n ⁇ r n is obtained as the nth channel purification weight ⁇ Mn (step S1311-3-n).
  • the number of bits corresponding to the common signal among the number of bits of the stereo code CS is b m
  • the number of bits of the monaural code CM is b M , which is 0 or more.
  • the value is 1 or less, and the higher the correlation between the nth channel upmixed common signal ⁇ Y Mn and the nth channel upmixed monaural decoded sound signal ⁇ X Mn , the closer to 1 and the lower the correlation.
  • R n which is closer to 0, is greater than 0 and less than 1, 0.5 when b m and b M are the same, and closer to 0 than 0.5 when b m is greater than b M.
  • the nth channel purification weight estimation unit 1311-n of the fifth example obtains the nth channel purification weight ⁇ Mn by performing steps S1311-55-n from the following steps S1311-51-n.
  • ⁇ n is a predetermined value larger than 0 and less than 1, and is stored in advance in the nth channel purification weight estimation unit 1311-n.
  • the nth channel purification weight estimation unit 1311-n uses the obtained inner product value E n (0) as the “inner product value E n (-1) used in the previous frame” in order to use it in the next frame. It is stored in the nth channel purification weight estimation unit 1311-n.
  • ⁇ X Mn ⁇ x Mn (1), ⁇ x Mn (2), ..., ⁇ x Mn .
  • E Mn (-1) of the nth channel upmixed monaural decoded sound signal used in the previous frame the following equation (7-10) is used in the current frame.
  • the energy E Mn (0) of the nth channel upmixed monaural decoded sound signal to be used is obtained (step S1311-52-n).
  • ⁇ Mn is a value larger than 0 and less than 1 and is predetermined, and is stored in advance in the nth channel purification weight estimation unit 1311-n.
  • the nth channel purification weight estimation unit 1311-n uses the energy E Mn (0) of the obtained nth channel upmixed monaural decoded sound signal as “the nth channel upmixed monaural decoding used in the previous frame”. It is stored in the nth channel purification weight estimation unit 1311-n for use in the next frame as the energy of the sound signal E Mn (-1) ”.
  • the nth channel purification weight estimation unit 1311-n uses the inner product value En (0) used in the current frame obtained in step S1311-51- n and the current frame obtained in step S1311-52-n.
  • the normalized internal product value r n is obtained by the following equation (7-11) (step S1311-53-n). ..
  • the nth channel purification weight estimation unit 1311-n also obtains a correction coefficient c n by the equation (7-8) (step S1311-54-n).
  • the nth channel purification weight estimation unit 1311-n then multiplied the normalized inner product value r n obtained in step S1311-53-n with the correction coefficient c n obtained in step S1311-54-n.
  • the value c n ⁇ r n is obtained as the nth channel purification weight ⁇ Mn (step S1311-55-n).
  • the nth channel purification weight estimation unit 1311-n of the fifth example has each sample value ⁇ y Mn (t) of the nth channel upmixed common signal ⁇ Y Mn and the nth channel upmixed monaural decoded sound signal.
  • the inner product value E n (0) obtained by Eq. (7-9) using each sample value ⁇ x Mn (t) of ⁇ X Mn and the inner product value E n (-1) of the previous frame, and the nth channel.
  • the nth channel purification weight estimation unit 1311-n of the sixth example has the normalized inner product value r n and the correction coefficient c n described in the third example, or the normalized inner product value described in the fifth example.
  • the nth channel purification weight estimation unit 1311-n of the seventh example has the normalized inner product value r n and the correction coefficient c n described in the third example, or the normalized inner product value described in the fifth example.
  • the value ⁇ ⁇ c n ⁇ r n obtained by multiplying r n , the correction coefficient c n , and the interchannel correlation coefficient ⁇ obtained by the interchannel relationship information estimation unit 1331 is obtained as the nth channel purification weight ⁇ M n .
  • the nth channel signal purification unit 1321-n sets the nth channel purification weight ⁇ Mn and the sample value ⁇ x Mn (t) of the nth channel upmixed monaural decoded sound signal ⁇ X Mn for each corresponding sample t.
  • the nth channel separation coupling weight estimation unit 1381-n is the nth channel of the nth channel decoded sound signal ⁇ X n from the nth channel decoded sound signal ⁇ X n and the nth channel upmixed common signal ⁇ Y Mn .
  • the normalized internal product value for the upmixed common signal ⁇ Y Mn is obtained and output as the nth channel separation coupling weight ⁇ n (step S1381-n).
  • the nth channel separation bond weight ⁇ n is as shown in Eq. (71).
  • ⁇ Y Mn ⁇ y Mn (1), ⁇ y Mn (2), ...
  • nth channel separation coupling unit 1391-n has the nth channel separation coupling weight ⁇ n and the nth channel from the sample value ⁇ x n (t) of the nth channel decoded sound signal ⁇ X n for each corresponding sample t.
  • the sound signal purification device of the eighth embodiment also obtains the decoded sound signal of each stereo channel from a code different from the code from which the decoded sound signal is obtained. It is improved by using the obtained monaural decoded sound signal.
  • the difference between the sound signal purification device of the eighth embodiment and the sound signal purification device of the seventh embodiment is that the channel-to-channel relationship information is obtained not from the decoded sound signal but from the code.
  • the difference between the sound signal refining device of the eighth embodiment and the sound signal refining device of the seventh embodiment will be described with reference to an example in which the number of stereo channels is two.
  • the sound signal purification device 1302 of the eighth embodiment has an interchannel relationship information decoding unit 1342, a decoded sound common signal estimation unit 1351, a decoded sound common signal upmix unit 1361, and a monaural decoded sound upmix unit. 1371, 1st channel purification weight estimation unit 1311-1, 1st channel signal purification unit 1321-1, 1st channel separation / coupling weight estimation unit 1381-1, 1st channel separation / coupling unit 1391-1 and 2nd channel purification weight.
  • the sound signal purification apparatus 1302 includes steps S1342, step S1351, step S1361 and step S1371, and steps S1311-n, S1321-n and step S1381-n for each channel. Step S1391-n and so on.
  • the difference between the sound signal purification device 1302 of the eighth embodiment and the sound signal purification device 1301 of the seventh embodiment is that the inter-channel relationship information decoding unit 1342 is provided in place of the inter-channel relationship information estimation unit 1331 in step S1331. Instead, step S1342 is performed.
  • the channel-to-channel relationship information code CC of each frame is also input to the sound signal purification device 1302 of the eighth embodiment.
  • the inter-channel relationship information code CC may be a code obtained and output by the inter-channel relationship information coding unit (not shown) included in the above-mentioned coding device 500, or may be a code obtained and output by the above-mentioned stereo coding unit 530 of the coding device 500. It may be a code included in the stereo code CS obtained and output by.
  • the difference between the sound signal purification device 1302 of the eighth embodiment and the sound signal purification device 1301 of the seventh embodiment will be described.
  • the channel-to-channel relationship information code CC input to the sound signal refining device 1302 is input to the channel-to-channel relationship information decoding unit 1342.
  • the channel-to-channel relationship information decoding unit 1342 decodes the channel-to-channel relationship information code CC to obtain and output the channel-to-channel relationship information (step S1342).
  • the inter-channel relationship information obtained by the inter-channel relationship information decoding unit 1342 is the same as the inter-channel relationship information obtained by the inter-channel relationship information estimation unit 1331 of the seventh embodiment.
  • the inter-channel relationship information code CC is a code included in the stereo code CS
  • the same inter-channel relationship information obtained in step S1342 is obtained by decoding in the stereo decoding unit 620 of the decoding device 600. .. Therefore, when the inter-channel relationship information code CC is a code included in the stereo code CS, the inter-channel relationship information obtained by the stereo decoding unit 620 of the decoding device 600 is input to the sound signal purification device 1302 of the eighth embodiment.
  • the sound signal purification device 1302 of the eighth embodiment may not be provided with the channel-to-channel relationship information decoding unit 1342 so that the step S1342 may not be performed.
  • the code included in the stereo code CS among the channel-to-channel relationship information code CC is used as the stereo decoding unit of the decoding device 600.
  • the channel-to-channel relationship information decoding unit 1342 of the sound signal purification device 1302 of the eighth embodiment is configured so that the channel-to-channel relationship information obtained by decoding by 620 is input to the sound signal purification device 1302 of the eighth embodiment.
  • the code not included in the stereo code CS among the channel-to-channel relationship information codes CC may be decoded to obtain and output the channel-to-channel relationship information that has not been input to the sound signal purification device 1302. ..
  • the sound signal purification device 1302 of the eighth embodiment may be used. Also includes an inter-channel relationship information estimation unit 1331, and the inter-channel relationship information estimation unit 1331 may also perform step S1331. In this case, the channel-to-channel relationship information estimation unit 1331 cannot obtain the channel-to-channel relationship information code CC among the channel-to-channel relationship information used by each unit of the sound signal purification device 1302 in step S1331. The related information may be obtained and output in the same manner as in step S1331 of the seventh embodiment.
  • the phase of the high frequency component is rotated with respect to the input sound signal due to the distortion due to the coding process. Since the coding / decoding method obtained by obtaining the monaural decoded sound signal and the coding / decoding method obtained by obtaining the decoded sound signal of each stereo channel are different coding / decoding methods, the monaural decoding unit 610 is obtained.
  • the high frequency components of the monaural decoded sound signal and the decoded sound signal of each stereo channel obtained by the stereo decoding unit 620 have a small correlation, and the time region in the signal purification unit of the sound signal purification device and the separation / coupling unit of each channel described above.
  • the weighted addition process in may reduce the energy of the high frequency component, which causes the purified decoded sound signal of each channel to be reduced. It may be heard muffled.
  • the sound signal high frequency compensation device of the ninth embodiment eliminates this muffled sound by compensating for the high frequency energy by using the high frequency component of the signal before the signal refining process.
  • the reason why the sound signal may be heard muffled due to the decrease in the energy of the high frequency component is obtained by performing the signal refining process in the time region by the above-mentioned sound signal refining device on the decoded sound signal of each channel.
  • the sound signal obtained by performing signal processing in a time region other than the signal purification processing by the above-mentioned sound signal refining device for the decoded sound signal of each channel may be heard in muffled. be.
  • the sound signal high frequency compensation device of the ninth embodiment the high frequency component of the signal before the signal processing in the time domain is obtained regardless of whether or not the signal purification processing is performed in the time domain by the sound signal purification device described above. By using it to compensate for high-frequency energy, it is possible to eliminate muffled sound.
  • the purified decoded sound signal obtained by applying the signal purification processing by the above-mentioned sound signal purification device to the decoded sound signal of each channel but also the signal processing in the time region is applied to the decoded sound signal of each channel.
  • the sound signal obtained by the above is also referred to as a refined decoded sound signal for convenience, and the example of the sound signal high frequency compensation device of the ninth embodiment when the number of stereo channels is two is used. explain.
  • the sound signal high frequency compensation device 201 of the ninth embodiment includes the first channel high frequency compensation gain estimation unit 211-1, the first channel high frequency compensation unit 221-1 and the second channel high frequency.
  • the compensation gain estimation unit 211-2 and the second channel high frequency compensation unit 221-2 are included.
  • the sound signal high frequency compensator 201 includes a first channel refined decoded sound signal ⁇ X 1 and a second channel refined decoded sound signal ⁇ X 2 output by any of the above-mentioned sound signal refining devices, and a decoding device 600.
  • the first channel decoded sound signal ⁇ X 1 and the second channel decoded sound signal ⁇ X 2 output by the stereo decoding unit 620 of the above are input.
  • the sound signal high frequency compensator 201 purifies the channel by using the purified decoded sound signal of the channel and the decoded sound signal of the channel for each channel of stereo, for example, in a frame unit of a predetermined time length of 20 ms.
  • a compensated decoded sound signal of the channel which is a sound signal in which the high frequency energy of the completed decoded sound signal is compensated, is obtained and output.
  • the sound signal high frequency compensator 201 performs the step S211- Illustrated in FIG. 20 for each frame. n and step S221-n are performed for each channel.
  • the high frequency band here is a band that is not a low frequency band (so-called “low frequency band”) whose phase is maintained to some extent by the coding process.
  • the sound signal high frequency compensation device 201 may treat, for example, a component having a frequency of about 2 kHz or more as a high frequency.
  • the sound signal high frequency range compensator 201 divides the frequency band that may be included in each signal into two components having a frequency higher than a predetermined frequency. It may be treated as a high frequency range. This also applies to the following embodiments and modifications.
  • the first channel refined decoded sound signal ⁇ X 1 and the second channel refined decoded sound signal ⁇ X 2 input to the sound signal high frequency compensation device 201 are signals output by any of the above-mentioned sound signal purifying devices.
  • the first channel decoding sound signal ⁇ X 1 and the second channel decoding sound signal ⁇ X 2 output by the stereo decoding unit 620 of the decoding device 600 are subjected to signal processing in the time region. It may be the first channel refined decoded sound signal ⁇ X 1 and the second channel refined decoded sound signal ⁇ X 2 which are the obtained sound signals. This also applies to the subsequent embodiments and modifications.
  • Nth channel high frequency compensation gain estimation unit 211-n [Nth channel high frequency compensation gain estimation unit 211-n]
  • the nth channel high frequency compensation gain estimation unit 211-n obtains and outputs the nth channel high frequency compensation gain ⁇ n from the nth channel decoded sound signal ⁇ X n and the nth channel refined decoded sound signal ⁇ X n .
  • the nth channel high frequency compensation gain ⁇ n is the high frequency energy of the nth channel compensated decoded sound signal ⁇ X'n obtained by the nth channel high frequency compensation unit 221-n, which will be described later, and the nth channel decoded sound signal.
  • ⁇ X n is a value to approach the high-frequency energy. The method by which the nth channel high frequency compensation gain estimation unit 211-n obtains the nth channel high frequency compensation gain ⁇ n will be described later.
  • the nth channel high frequency compensation unit 221-n multiplies the high frequency component of the nth channel purified decoded sound signal ⁇ X n and the nth channel decoded sound signal ⁇ X n by the nth channel high frequency compensation gain ⁇ n .
  • Nth channel compensated decoded sound signal ⁇ X'n ⁇ x'n (1), ⁇ x'n (2), ..., ⁇ x'n (T) ⁇ And output it (step S221-n).
  • a high-pass filter whose pass band is a predetermined frequency or higher that divides the frequency band that may be included in each signal into two may be used. For example, a component having a frequency of 2 kHz or higher may be used as a high-pass filter. In the case of handling as, a high-pass filter having a pass band of 2 kHz or higher may be used.
  • the nth channel high frequency compensation gain estimation unit 211-n obtains the nth channel high frequency compensation gain ⁇ n by, for example, the first method or the second method described below.
  • the high frequency energy of the nth channel refined decoded sound signal ⁇ X n is the high frequency of the nth channel decoded sound signal ⁇ X n .
  • the nth channel high frequency compensation gain estimation unit 211-n sets the high frequency energy ⁇ EX n of the nth channel purified decoded sound signal ⁇ X n to the high energy of the nth channel decoded sound signal ⁇ X n .
  • the square root of the value (1- ⁇ EX n / ⁇ EX n ) obtained by subtracting the value divided by ⁇ EX n from 1 is obtained as the nth channel high frequency compensation gain ⁇ n . That is, the nth channel high frequency compensation gain estimation unit 211-n has the high frequency energy ⁇ EX n of the nth channel purified decoded sound signal ⁇ X n and the high frequency of the nth channel decoded sound signal ⁇ X n .
  • the nth channel high frequency compensation gain ⁇ n is obtained by the following equation (91).
  • the high-frequency component of the n-channel compensated signal ⁇ X'n and the high-frequency component of the n-channel purified decoded sound signal ⁇ X n cancel each other out. Therefore, there is a possibility that the high frequency energy of the nth channel compensated decoded sound signal ⁇ X'n is not as close as expected to the high frequency energy of the nth channel decoded sound signal ⁇ X n .
  • the energy in the high frequency band of the nth channel compensated decoded sound signal ⁇ X'n is used in the high frequency band of the nth channel decoded sound signal ⁇ X n .
  • the second method is to bring it closer to energy.
  • the nth channel high frequency compensation gain estimation unit 211-n performs the following steps S211-21-n to step S211-23-n, for example, so that the nth channel high frequency compensation gain ⁇ n To get.
  • the nth channel high frequency compensation gain estimation unit 211-n first passes the nth channel decoded sound signal ⁇ Xn through a high-pass filter having the same characteristics as that used by the nth channel high frequency compensation unit 221-n.
  • the nth channel high frequency compensation gain estimation unit 211-n then sets the sample value ⁇ x n (t) of the nth channel refined decoded sound signal ⁇ X n and the nth channel compensation for each corresponding sample t.
  • the high frequency energy ⁇ EX n of the nth channel refined decoded sound signal ⁇ X n is the high frequency of the nth channel decoded sound signal ⁇ X n .
  • the smaller the energy ⁇ EX n the larger the value, and the difference between the high-frequency energy of the nth channel purified decoded sound signal ⁇ X n and the high frequency energy of the nth channel provisional addition signal ⁇ X " n .
  • the n-channel high-frequency compensation gain estimation unit 211-n has the high-frequency energy ⁇ EX n of the n-channel decoded sound signal ⁇ X n and the high-frequency energy ⁇ EX of the n-channel purified decoded sound signal ⁇ X n .
  • the nth channel high frequency compensation gain ⁇ n is obtained by the following equation (92).
  • ⁇ ⁇ n 2 is a value obtained by the following formula (92a)
  • ⁇ n is a value obtained by the following formula (92b).
  • ⁇ X " n high frequency energy ⁇ EX" n minus channel n refined decoded sound signal ⁇ X n high frequency energy ⁇ EX n ( ⁇ EX " n- ⁇ EX n ) is the nth Since it is equal to the high-frequency energy ⁇ EX n of the channel-decoded sound signal ⁇ X n , ⁇ n becomes 0, and the n-th channel high-frequency compensation gain ⁇ n obtained by Eq.
  • the nth channel compensation signal Since it is assumed that the high frequency component of X'n and the high frequency component of the nth channel refined decoded sound signal ⁇ X n cause some cancellation of energy due to the addition, in the second method, the nth It can be said that the channel high frequency compensation gain estimation unit 211-n obtains a value larger than the value obtained by the equation (91) as the nth channel high frequency compensation gain ⁇ n .
  • the nth channel high frequency compensation gain estimation unit 211-n obtains the nth channel high frequency compensation gain ⁇ n by the following equation (93) or the following equation (94) instead of the equation (92). May be good.
  • a in the formula (94) is a predetermined positive value, and it is desirable that the value is in the vicinity of 1.
  • the nth channel high frequency compensation gain estimation unit 211-n steps the same nth channel compensation signal ⁇ X'n used by the nth channel high frequency compensation unit 221-n. Obtained in S211-21-n. Therefore, the nth channel high frequency compensation gain estimation unit 211-n outputs the nth channel compensation signal ⁇ X'n obtained in step S211-21-n so that the nth channel high frequency compensation unit 221- n is output.
  • the nth channel compensation signal ⁇ X output by the nth channel high frequency compensation gain estimation unit 211-n ' n may be entered.
  • the nth channel high frequency compensation unit 221-n may not perform high-pass filter processing for obtaining the nth channel compensation signal ⁇ X'n.
  • the nth channel high frequency compensation unit 221- n outputs the nth channel compensation signal ⁇ X'n obtained by the high-pass filter processing so that the nth channel high frequency compensation gain estimation unit 211-n is output.
  • the nth channel compensation signal ⁇ X'n output by the nth channel high-pass compensation unit 221- n may also be input to.
  • the nth channel high frequency compensation gain estimation unit 211-n may not perform high-pass filter processing for obtaining the nth channel compensation signal ⁇ X'n.
  • the signal high-pass compensation device 201 is provided with a high-pass filter unit (not shown), and the high-pass filter unit passes the nth channel decoded sound signal ⁇ X n through the high-pass filter to obtain the nth channel compensation signal ⁇ X'n.
  • the nth channel compensation signal ⁇ X'n is input to the nth channel high-pass compensation gain estimation unit 211-n and the nth channel high-pass compensation unit 221-n so that the nth channel high-pass filter is input.
  • the compensation gain estimation unit 211-n and the nth channel high frequency compensation unit 221-n may not perform the high-pass filter processing for obtaining the nth channel compensation signal ⁇ X'n. That is, the signal high frequency compensation device 201 uses the signal obtained by passing the nth channel decoded sound signal ⁇ X n through the high-pass filter as the nth channel compensation signal ⁇ X'n, and is the nth channel high frequency compensation gain estimation unit 211-n. Any configuration may be adopted as long as it can be used by the nth channel high frequency compensation unit 221-n.
  • the monaural decoding sound signal obtained by the monaural decoding unit 610 of the decoding device 600 ⁇ X M nth channel monaural decoded sound upmix signal based on X M ⁇ X Mn has higher sound quality and higher frequency than the nth channel decoded sound signal ⁇ X n obtained by the stereo decoding unit 620 of the decoding device 600. It may be suitable as a signal used for compensation.
  • the nth channel monaural decoded sound upmix signal ⁇ X Mn is compensated for the high frequency.
  • the sound signal high frequency compensation device of the tenth embodiment is used for.
  • the sound signal high frequency compensator of the tenth embodiment will be described mainly on the differences from the sound signal high frequency compensator of the ninth embodiment by using an example in which the number of stereo channels is two. ..
  • the sound signal high frequency compensation device 202 of the tenth embodiment has a first channel high frequency compensation gain estimation unit 212-1, a first channel high frequency compensation unit 222-1 and a second channel high frequency.
  • the compensation gain estimation unit 212-2 and the second channel high frequency compensation unit 222-2 are included.
  • the sound signal high frequency compensator 202 includes a first channel refined decoded sound signal ⁇ X 1 and a second channel refined decoded sound signal ⁇ X 2 output by any of the above-mentioned sound signal refining devices, and a decoding device 600.
  • the signal ⁇ X M1 and the second channel upmixed monaural decoded sound signal ⁇ X M2 are input.
  • the sound signal purification device when the sound signal purification device is provided with a monaural decoded sound upmix unit and obtains the upmixed monaural decoded sound signal ⁇ X Mn of each channel, the upmix of each channel obtained by the monaural decoded sound upmix unit is obtained.
  • the completed monaural decoded sound signal ⁇ X Mn is output by the sound signal refiner so as to be input to the sound signal high frequency compensation device 202.
  • the case where the sound signal refining device does not include the monaural decoded sound upmix unit will be described later in a modified example of the tenth embodiment.
  • the sound signal high frequency compensator 202 is, for example, in a frame unit of a predetermined time length of 20 ms, for each channel of stereo, the purified decoded sound signal of the channel, the decoded sound signal of the channel, and the upmixed monaural of the channel.
  • the decoded sound signal is used to obtain and output a compensated decoded sound signal of the channel, which is a sound signal in which the high frequency energy of the purified decoded sound signal of the channel is compensated.
  • the sound signal high frequency compensator 202 performs the step S212- Illustrated in FIG. 20 for each frame. n and step S222-n are performed for each channel.
  • Nth channel high frequency compensation gain estimation unit 212-n [Nth channel high frequency compensation gain estimation unit 212-n]
  • the nth channel high frequency compensation gain estimation unit 212-n obtains the nth channel high frequency compensation gain ⁇ n by using at least the nth channel decoded sound signal ⁇ X n and the nth channel refined decoded sound signal ⁇ X n . And output (step S212-n).
  • the nth channel high frequency compensation gain estimation unit 212-n obtains the nth channel high frequency compensation gain ⁇ n by, for example, the first method described in the ninth embodiment or the second method described below.
  • the second method replaces the process of obtaining the nth channel compensation signal ⁇ X'n from the nth channel decoded sound signal ⁇ X n in the second method of the ninth embodiment, and replaces the process of obtaining the nth channel upmix.
  • This is a method of obtaining the nth channel compensation signal ⁇ X'n from the completed monaural decoded sound signal ⁇ X Mn . Therefore, when the second method is used, as shown by the broken line in FIG. 21, the nth channel high frequency compensation gain estimation unit 212-n is input to the sound signal high frequency compensation device 202.
  • the n-channel upmixed monaural decoded sound signal ⁇ X Mn is also input.
  • the nth channel high frequency compensation gain estimation unit 212-n performs the following step S212-21-n instead of the step S211-21-n of the second method of the ninth embodiment, for example. Then, by performing the same steps S211-22-n and step S211-23-n as in the second method of the ninth embodiment, the nth channel high frequency compensation gain ⁇ n is obtained.
  • the nth channel high frequency compensation gain estimation unit 212-n first uses the nth channel upmixed monaural decoded sound signal ⁇ X Mn as a high-pass filter having the same characteristics as that used by the nth channel high frequency compensation unit 222-n.
  • Nth channel high frequency compensation unit 222-n The nth channel high frequency compensation unit 222-n is replaced with the nth channel decoded sound signal ⁇ X n used by the nth channel high frequency compensation unit 221-n of the ninth embodiment, and the nth channel upmixed monaural is used.
  • the nth channel compensated decoded sound signal ⁇ X'n is obtained by using the decoded sound signal ⁇ X Mn .
  • the nth channel upmixed monaural decoded sound signal input to the signal high frequency compensation device 202 ⁇ X Mn ⁇ x Mn (1), ⁇ x Mn (2).
  • the nth channel high frequency compensation unit 222-n has the nth channel high frequency compensation gain for the high frequency components of the nth channel refined decoded sound signal ⁇ X n and the nth channel upmixed monaural decoded sound signal ⁇ X Mn .
  • ⁇ x'n (t) ⁇ x n ( t) + ⁇ n ⁇ ⁇ x'n (t).
  • the nth channel high-pass compensation gain estimation unit 212-n uses the method exemplified in [[second method for obtaining the n-channel high-pass compensation gain ⁇ n ]].
  • one of the nth channel high frequency compensation gain estimation unit 212-n and the nth channel high frequency compensation unit 222-n passes the nth channel upmixed monaural decoded sound signal ⁇ X Mn through a high-pass filter.
  • the n -channel compensation signal ⁇ X'n is obtained and output, and the other is the n-channel compensation obtained by the other without high-pass filtering to obtain the n -channel compensation signal ⁇ X'n.
  • the signal ⁇ X'n may be used.
  • the signal high frequency compensation device 202 is provided with a high-pass filter unit (not shown), and the high-pass filter unit passes the nth channel upmixed monaural decoded sound signal ⁇ X Mn through the high-pass filter to pass the nth channel compensation signal ⁇ X'.
  • the nth channel high frequency compensation gain estimation unit 212-n and the nth channel high frequency compensation unit 222-n are subjected to high-pass filter processing to obtain the nth channel compensation signal ⁇ X'n so that n is obtained and output.
  • the nth channel compensation signal ⁇ X'n obtained by the high-pass filter unit may be used without performing the above.
  • the signal high frequency compensation device 202 estimates the nth channel high frequency compensation gain by using the signal obtained by passing the nth channel upmixed monaural decoded sound signal ⁇ X Mn through the high-pass filter as the nth channel compensation signal ⁇ X'n. Any configuration may be adopted as long as the configuration can be used by the unit 212-n and the nth channel high frequency compensation unit 222-n.
  • the sound signal refining device is provided with the monaural decoded sound upmix unit to obtain the upmixed monaural decoded sound signal ⁇ X Mn of each channel has been described, but the sound signal refining device has the monaural decoded sound.
  • the sound signal purification apparatus 202 uses the upmixed monaural decoding of each channel used in the tenth embodiment.
  • the monaural decoded sound signal ⁇ X M output by the monaural decoding unit 610 of the decoding device 600 may be used. Further, even when the sound signal purification device is provided with a monaural decoded sound upmix unit to obtain an upmixed monaural decoded sound signal ⁇ X Mn of each channel, the sound signal purification device 202 is used in the tenth embodiment. Instead of the upmixed monaural decoded sound signal ⁇ X Mn of each channel, the monaural decoded sound signal ⁇ X M output by the monaural decoding unit 610 of the decoding device 600 may be used.
  • the sound signal high frequency compensation device 203 of the eleventh embodiment includes the first channel signal selection unit 233-1, the first channel high frequency compensation gain estimation unit 213-1 and the first channel high frequency compensation. It includes a unit 223-1, a second channel signal selection unit 233-2, a second channel high frequency compensation gain estimation unit 213-2, and a second channel high frequency compensation unit 223-2.
  • the sound signal high frequency compensator 203 includes a first channel refined decoded sound signal ⁇ X 1 and a second channel refined decoded sound signal ⁇ X 2 output by any of the above-mentioned sound signal refining devices, and a decoding device 600.
  • the signal ⁇ X M1 and the second channel upmixed monaural decoded sound signal ⁇ X M2 and the bit rate information are input.
  • the bit rate information includes information corresponding to the bit rates of the monaural coding unit 520 and the monaural decoding unit 610 for each frame, and information corresponding to the bit rates per channel of the stereo coding unit 530 and the stereo decoding unit 620.
  • the information corresponding to the bit rates of the monaural coding unit 520 and the monaural decoding unit 610 for each frame is, for example, the number of bits b M of the monaural code CM of each frame.
  • the information corresponding to the bit rates of the stereo coding unit 530 and the stereo decoding unit 620 for each frame is, for example, the number of bits b n of each channel in the number of bits b s of the stereo code CS of each frame.
  • Bit rate information may be stored in advance in a storage unit (not shown) and a storage unit (not shown) in the second channel signal selection unit 233-2.
  • the sound signal high frequency compensator 203 is, for example, in a frame unit of a predetermined time length of 20 ms, for each stereo channel, the refined decoded sound signal of the channel, the decoded sound signal of the channel, and the upmixed monaural of the channel.
  • the compensated decoded sound signal of the channel which is a sound signal in which the high frequency energy of the purified decoded sound signal of the channel is compensated, is obtained and output.
  • the sound signal high frequency compensator 203 performs step S233-, which is exemplified in FIG. 23, for each frame. n, step S213-n, and step S223-n are performed for each channel.
  • the bit rate information when the bit rate information is stored in advance in a storage unit (not shown) in the nth channel signal selection unit 233-n, the bit rate information may not be input.
  • the bit rate per channel of the stereo coding unit 530 and the stereo decoding unit 620 when the bit rate per channel of the stereo coding unit 530 and the stereo decoding unit 620 is higher than the bit rate of the monaural coding unit 520 and the monaural decoding unit 610, that is, b.
  • nth channel signal selection unit 233-n when the bit rates of the monaural coding unit 520 and the monaural decoding unit 610 and the bit rates of the stereo coding unit 530 and the stereo decoding unit 620 are the same, that is, b.
  • the nth channel decoded sound signal ⁇ X n ⁇ x n (1), ⁇ x n (2), ..., ⁇ x n (T) ⁇
  • Nth channel high frequency compensation gain estimation unit 213-n [Nth channel high frequency compensation gain estimation unit 213-n]
  • the nth channel high frequency compensation gain estimation unit 213-n obtains the nth channel high frequency compensation gain ⁇ n by using at least the nth channel decoded sound signal ⁇ X n and the nth channel refined decoded sound signal ⁇ X n . And output (step S213-n).
  • the nth channel high frequency compensation gain estimation unit 213-n obtains the nth channel high frequency compensation gain ⁇ n by, for example, the first method described in the ninth embodiment or the second method described below.
  • the nth channel high frequency compensation gain estimation unit 213-n has the nth channel obtained by the nth channel signal selection unit 233-n.
  • the nth channel high frequency compensation gain estimation unit 213-n performs the following step S213-21-n instead of the step S211-21-n of the second method of the ninth embodiment, for example.
  • the nth channel high frequency compensation unit 223-n obtains the nth channel compensated decoded sound signal ⁇ X'n by using the nth channel selection signal ⁇ X Sn .
  • the nth channel selection signal ⁇ X Sn ⁇ x Sn (1), ⁇ x Sn (2),.
  • ⁇ X n ⁇ x n (1), ⁇ x n (2), ..., ⁇ x n (T) ⁇ and the nth channel high frequency compensation gain ⁇ n output by the nth channel high frequency compensation gain estimation unit 213-n are input.
  • the nth channel high frequency compensation unit 223-n multiplied the high frequency component of the nth channel refined decoded sound signal ⁇ X n and the nth channel selection signal ⁇ X Sn by the nth channel high frequency compensation gain ⁇ n .
  • the nth channel high-pass compensation gain estimation unit 213-n exemplifies [[second method for obtaining the n-channel high-pass compensation gain ⁇ n ]].
  • either one of the nth channel high frequency compensation gain estimation unit 213-n and the nth channel high frequency compensation unit 223-n passes the nth channel selection signal ⁇ X Sn through a high-pass filter.
  • the n -channel compensation signal ⁇ X'n is obtained and output, and the other is the n-channel compensation obtained by the other without high-pass filtering to obtain the n -channel compensation signal ⁇ X'n.
  • the signal ⁇ X'n may be used.
  • the signal high-pass compensation device 203 is provided with a high-pass filter unit (not shown), and the high-pass filter unit passes the nth channel selection signal ⁇ X Sn through the high-pass filter to obtain the nth channel compensation signal ⁇ X'n and outputs the signal.
  • the nth channel high frequency compensation gain estimation unit 213-n and the nth channel high frequency compensation unit 223-n do not perform high-pass filter processing to obtain the nth channel compensation signal ⁇ X'n.
  • the nth channel compensation signal ⁇ X'n obtained by the high-pass filter unit may be used.
  • the signal high frequency compensation device 203 uses the signal obtained by passing the nth channel selection signal ⁇ X Sn through the high-pass filter as the nth channel compensation signal ⁇ X'n with the nth channel high frequency compensation gain estimation unit 213-n. Any configuration may be adopted as long as it can be used by the nth channel high frequency compensation unit 223-n.
  • the sound signal refining device is provided with the monaural decoded sound upmix unit to obtain the upmixed monaural decoded sound signal ⁇ X Mn of each channel has been described, but the sound signal refining device has the monaural decoded sound.
  • the sound signal purification apparatus 203 uses the upmixed monaural decoding of each channel used in the eleventh embodiment.
  • the monaural decoded sound signal ⁇ X M output by the monaural decoding unit 610 of the decoding device 600 may be used. Further, even when the sound signal purification device is provided with a monaural decoded sound upmix unit to obtain an upmixed monaural decoded sound signal ⁇ X Mn of each channel, the sound signal purification device 203 is used in the eleventh embodiment. Instead of the upmixed monaural decoded sound signal ⁇ X Mn of each channel, the monaural decoded sound signal ⁇ X M output by the monaural decoding unit 610 of the decoding device 600 may be used.
  • each of the above-described embodiments and modifications for the sake of simplicity, the example of handling two channels has been described. However, the number of channels is not limited to this, and may be 2 or more. Assuming that the number of channels is N (N is an integer of 2 or more), each of the above-described embodiments and modifications can be implemented by replacing 2 of the number of channels with N. Specifically, in each of the above-described embodiments and modifications, each part / step marked with "-n" includes N items corresponding to each channel from 1 to N, and is a subscript.
  • n such as, by including N ways corresponding to each channel number from 1 to N, the number of channels N sound signal refiner and the number of channels It can be an N sound signal high frequency compensator.
  • the portion including the processing exemplified by using the inter-channel time difference ⁇ and the inter-channel correlation coefficient ⁇ is limited to two channels. There is.
  • the sound signal refining device Since the sound signal refining device according to any one of the first to eighth embodiments and each modification is a device for processing the sound signal obtained by decoding, it can be said to be a sound signal post-processing device. That is, as illustrated in FIG. 24, any one of the sound signal purification devices 1101, 1102, 1103, 1201, 1202, 1203, 1301, 1302 of the first to eighth embodiments and each modification is after the sound signal. It can also be said that it is a processing device 301 (see also FIG. 25). Further, as illustrated in FIG. 24, any one of the sound signal purification devices 1101, 1102, 1103, 1201, 1202, 1203, 1301, 1302 of the first to eighth embodiments and each modification is used for sound signal purification. It can be said that the device included as a unit is the sound signal post-processing device 301.
  • the sound signal purification device of any of the first to eighth embodiments and each modification is combined with the sound signal high frequency compensation device of any of the ninth to eleventh embodiments and each modification. Since the device is also a device that processes the sound signal obtained by decoding, it can be said to be a sound signal post-processing device. That is, as illustrated in FIG. 26, any one of the sound signal purification devices 1101, 1102, 1103, 1201, 1202, 1203, 1301, 1302 of the first to eighth embodiments and each modification, and the ninth embodiment. From the embodiment, it can be said that the device that combines any of the sound signal high frequency compensation devices 201, 202, and 203 of the eleventh embodiment and each modification is the sound signal post-processing device 302 (see also FIG. 27).
  • any one of the sound signal purification devices 1101, 1102, 1103, 1201, 1202, 1203, 1301, 1302 of the first to eighth embodiments and each modification is used for sound signal purification.
  • the sound signal post-processing device 302 includes as a unit and includes any of the sound signal high frequency compensation devices 201, 202, and 203 of the ninth embodiment to the eleventh embodiment and each modification as the sound signal high frequency compensation device 302. It can be said that there is.
  • the sound signal refining device can be included in the sound signal decoding device together with the monaural decoding unit 610 and the stereo decoding unit 620. That is, as illustrated in FIG. 28, the monaural decoding unit 610, the stereo decoding unit 620, and the sound signal purification devices 1101, 1102, 1103, 1201, 1202 of the first to eighth embodiments and each modification.
  • the sound signal decoding device 601 may be configured to include any of 1203, 1301, and 1302 (see also FIG. 29). Further, as illustrated in FIG.
  • the sound signal decoding device 601 may be configured to include any of 1203, 1301, and 1302 as the sound signal refining unit.
  • the sound signal purification device of any of the first to eighth embodiments and each modification is combined with the sound signal high frequency compensation device of any of the ninth to eleventh embodiments and each modification.
  • the sound signal decoding device 602 is configured to include any of 1203, 1301, 1302, and any of the sound signal high frequency compensation devices 201, 202, and 203 of the ninth to eleventh embodiments and each modification. (See also FIG. 31).
  • the sound signal purification devices 1101, 1102, 1103, 1201, 1202 of the first to eighth embodiments and each modification are made.
  • 1,203, 1301, 1302 is included as a sound signal refining unit, and any of the sound signal high frequency compensator 201, 202, 203 of the ninth to eleventh embodiments and each modification is included in the sound signal high frequency.
  • the sound signal decoding device 602 may be configured to be included as a compensation unit.
  • the program that describes this processing content can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium is, for example, a non-temporary recording medium, specifically, a magnetic recording device, an optical disk, or the like.
  • this program is carried out, for example, by selling, transferring, renting, etc. a portable recording medium such as a DVD or CD-ROM in which the program is recorded.
  • the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program for example, first transfers a program recorded on a portable recording medium or a program transferred from a server computer to an auxiliary recording unit 5050, which is its own non-temporary storage device. Store. Then, at the time of executing the process, the computer reads the program stored in the auxiliary recording unit 5050, which is its own non-temporary storage device, into the storage unit 5020, and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from the portable recording medium into the storage unit 5020 and execute the process according to the program, and further, the program may be executed from the server computer to this computer. Each time the computer is transferred, the processing according to the received program may be executed sequentially.
  • ASP Application Service Provider
  • the program in this embodiment includes information used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property that regulates the processing of the computer, etc.).
  • the present device is configured by executing a predetermined program on a computer, but at least a part of these processing contents may be realized in terms of hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

復号音信号を得る元となった符号とは異なる符号であり、かつ、同じ音信号に由来する符号である別符号、から得られた音信号がある場合に、その別符号から得られた音信号を用いて復号音信号を改善する技術を提供する。各チャネルの復号音信号をダウンミックスして得た信号(以下、復号音共通信号という)について、モノラル復号音信号を用いて信号精製することにより、精製済共通信号を生成し、各チャネルでは、復号音信号から、復号音共通信号をアップミックスして得た信号を減算して、精製済共通信号をアップミックスして得た信号を加算することにより、精製済復号音信号を生成する。

Description

音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
 本発明は、符号を復号して得た音信号を後処理する技術に関する。
 モノラル符号とステレオ符号を効率良く用いてステレオ音信号を符号化/復号する技術としては、特許文献1の技術がある。特許文献1には、モノラル信号を表すモノラル符号と、ステレオ信号のモノラル信号からの差分を表すステレオ符号と、を符号化側で得て、復号側では符号化側に対応する復号処理を行うことでモノラル復号音信号とステレオ復号音信号を得るスケーラブル符号化/復号方式が開示されている(図7と8を参照)。
 優先度が異なる2つの回線に接続された端末で音信号を符号化して伝送して復号する技術としては、特許文献2の技術がある。特許文献2には、最低限の品質を確保するための符号を優先度が高いパケットに含めて伝送し、それ以外の符号を優先度が低いパケットに含めて伝送する技術が開示されている(図1などを参照)。
 特許文献2のシステムで特許文献1のスケーラブル符号化/復号方式を用いる場合には、送信側で、モノラル符号を優先度が高いパケットに含め、ステレオ符号を優先度が低いパケットに含めるようにすればよい。このようにすることで、受信側では、優先度が高いパケットのみが到着している場合にはモノラル符号のみを用いてモノラル復号音信号を得て、優先度が高いパケットに加えて優先度が低いパケットも到着している場合にはモノラル符号とステレオ符号の両方を用いてステレオ復号音信号を得ることができる。
国際公開第2006/070751号 特開2005-117132号公報
 優先度が異なる2つの回線に接続された端末で通信を行う場合には、スケーラブル符号化/復号方式を用いるのではなく、互いに独立したモノラル符号化/復号方式とステレオ符号化/復号方式を用いるケースも想定される。また、優先度が同じ1つの回線で互いに独立したモノラル符号化/復号方式とステレオ符号化/復号方式を用いるケースも想定される。これらのケースでは、受信側では、ステレオ符号に加えてモノラル符号も到着しているか否かに関わらず、ステレオ復号音信号を得るためにはステレオ符号のみを用いることなる。すなわち、モノラル復号と独立したステレオ復号を受信側で行うケースでは、同じ音信号に由来する互いに独立したモノラル符号とステレオ符号が入力されていたとしても、受信側の装置が出力するステレオの音信号を得る処理にモノラル符号に含まれる情報が生かされていないという課題がある。
 そこで本発明では、復号音信号を得る元となった符号とは異なる符号であり、かつ、同じ音信号に由来する符号である別符号、から得られた音信号がある場合に、その別符号から得られた音信号を用いて復号音信号を改善することを目的とする。
 本発明の一態様は、フレームごとに、ステレオ符号CSを復号して得たステレオの各チャネルの復号音信号である第nチャネル復号音信号^Xn(nは1以上N以下の各整数)と、前記ステレオ符号CSとは異なる符号であるモノラル符号CMを復号して得たモノラルの復号音信号であるモノラル復号音信号^XMと、を少なくとも用いて、前記ステレオの前記各チャネルの音信号である第nチャネル精製済復号音信号~Xnを得る音信号精製方法であって、前記第nチャネル復号音信号^Xnは、前記モノラル符号CMを復号して得た情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して得たものであり、フレームごとに、1以上N以下の全ての第nチャネル復号音信号^Xnを少なくとも用いて、前記ステレオの全チャネルに共通する信号である復号音共通信号^YMを得る復号音共通信号推定ステップと、フレームごとに、対応するサンプルtごとに、共通信号精製重みαMと前記モノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αM×^xM(t)と、前記共通信号精製重みαMを1から減算した値(1-αM)と前記復号音共通信号^YMのサンプル値^yM(t)とを乗算した値(1-αM)×^yM(t)と、を加算した値~yM(t)=(1-αM)×^yM(t)+αM×^xM(t)による系列を精製済共通信号~YMとして得る共通信号精製ステップと、フレームごとに、前記復号音共通信号^YMと、ステレオのチャネル間の関係を表す情報であるチャネル間関係情報と、を用いたアップミックス処理により、前記復号音共通信号^YMを各チャネル用にアップミックスした信号である第nチャネルアップミックス済共通信号^YMnを得る復号音共通信号アップミックスステップと、フレームごとに、前記精製済共通信号~YMと、ステレオのチャネル間の関係を表す情報と、を用いたアップミックス処理により、前記精製済共通信号~YMを各チャネル用にアップミックスした信号である第nチャネルアップミックス済精製済信号~YMnを得る精製済共通信号アップミックスステップと、前記各チャネルnについて、フレームごとに、前記第nチャネル復号音信号^Xnの前記第nチャネルアップミックス済共通信号^YMnに対する正規化された内積値を第nチャネル分離結合重みβnとして得る第nチャネル分離結合重み推定ステップと、前記各チャネルnについて、フレームごとに、対応するサンプルtごとに、前記第nチャネル復号音信号^Xnのサンプル値^xn(t)から、前記第nチャネル分離結合重みβnと前記第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値βn×^yMn(t)を減算し、前記第nチャネル分離結合重みβnと前記第nチャネルアップミックス済精製済信号~YMnのサンプル値~yMn(t)とを乗算した値βn×~yMn(t)を加算した値~xn(t)=^xn(t)-βn×^yMn(t)+βn×~yMn(t)による系列を前記第nチャネル精製済復号音信号~Xnとして得る第nチャネル分離結合ステップと、を含む。
 本発明によれば、復号音信号を得る元となった符号とは異なる符号であり、かつ、同じ音信号に由来する符号である別符号、から得られた音信号がある場合に、その別符号から得られた音信号を用いて復号音信号を改善することができる。
音信号精製装置1101の例を示すブロック図である。 音信号精製装置1101の処理の例を示す流れ図である。 第nチャネル精製重み推定部1111-nの処理の例を示す流れ図である。 第nチャネル精製重み推定部1111-nの処理の例を示す流れ図である。 音信号精製装置1102の例を示すブロック図である。 音信号精製装置1102の処理の例を示す流れ図である。 音信号精製装置1103の例を示すブロック図である。 音信号精製装置1103の処理の例を示す流れ図である。 音信号精製装置1201の例を示すブロック図である。 音信号精製装置1201の処理の例を示す流れ図である。 音信号精製装置1202の例を示すブロック図である。 音信号精製装置1202の処理の例を示す流れ図である。 音信号精製装置1203の例を示すブロック図である。 音信号精製装置1203の処理の例を示す流れ図である。 音信号精製装置1301の例を示すブロック図である。 音信号精製装置1301の処理の例を示す流れ図である。 音信号精製装置1302の例を示すブロック図である。 音信号精製装置1302の処理の例を示す流れ図である。 音信号高域補償装置201の例を示すブロック図である。 音信号高域補償装置201/202の処理の例を示す流れ図である。 音信号高域補償装置202の例を示すブロック図である。 音信号高域補償装置203の例を示すブロック図である。 音信号高域補償装置203の処理の例を示す流れ図である。 音信号後処理装置301の例を示すブロック図である。 音信号後処理装置301の処理の例を示す流れ図である。 音信号後処理装置302の例を示すブロック図である。 音信号後処理装置302の処理の例を示す流れ図である。 音信号復号装置601の例を示すブロック図である。 音信号復号装置601の処理の例を示す流れ図である。 音信号復号装置602の例を示すブロック図である。 音信号復号装置602の処理の例を示す流れ図である。 符号化装置500と復号装置600の例を示すブロック図である。 本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。
 各実施形態の説明に先立って、この明細書における表記方法について説明する。
 ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
 <発明の適用先となる符号化装置と復号装置>
 まず、各実施形態を説明する前に、発明の適用先となる符号化装置と復号装置について、ステレオのチャネル数が2である場合の例を用いて説明する。
 ≪符号化装置500≫
 適用先となる符号化装置500は、図32に例示する通り、ダウンミックス部510とモノラル符号化部520とステレオ符号化部530を含む。符号化装置500は、例えば20msの所定の時間長のフレーム単位で、入力された2チャネルステレオの時間領域の音信号を符号化して、後述するモノラル符号CMとステレオ符号CSを得て出力する。符号化装置に入力される2チャネルステレオの時間領域の音信号は、例えば、音声や音楽などの音を2個のマイクロホンそれぞれで収音してAD変換して得られたディジタルの音声信号又は音響信号であり、左チャネルの入力音信号である第一チャネル入力音信号と右チャネルの入力音信号である第二チャネル入力音信号から成る。符号化装置500が出力する符号であるモノラル符号CMとステレオ符号CSは復号装置600へ入力される。符号化装置500は、各フレームについて上述した各部が以下の処理を行う。例えば、フレーム長は20msであり、サンプリング周波数は32kHzである。フレーム当たりのサンプル数をTとすると、この例であれば、Tは640である。
 [ダウンミックス部510]
 ダウンミックス部510には、符号化装置500に入力された第一チャネル入力音信号と第二チャネル入力音信号が入力される。ダウンミックス部510は、第一チャネル入力音信号と第二チャネル入力音信号から、第一チャネル入力音信号と第二チャネル入力音信号が混合された信号であるダウンミックス信号を得て出力する。ダウンミックス部510は、例えば、下記の第1の方法や第2の方法でダウンミックス信号を得る。
[[ダウンミックス信号を得る第1の方法]]
 第1の方法では、ダウンミックス部510は、第一チャネル入力音信号X1={x1(1), x1(2), ..., x1(T)}と第二チャネル入力音信号X2={x2(1), x2(2), ..., x2(T)}の対応するサンプルごとのサンプル値の平均値による系列をダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}として得る(ステップS510A)。すなわち、各サンプル番号(各サンプルのインデックス)をtとすると、xM(t)=(x1(t)+x2(t))/2である。
[[ダウンミックス信号を得る第2の方法]]
 第2の方法では、ダウンミックス部510は、以下のステップS510B-1からステップS510B-3を行う。
 ダウンミックス部510は、まず、第一チャネル入力音信号と第二チャネル入力音信号から、チャネル間時間差τを得る(ステップS510B-1)。チャネル間時間差τは、同じ音信号が第一チャネル入力音信号と第二チャネル入力音信号のどちらにどれくらい先に含まれているかを表す情報である。ダウンミックス部510は、チャネル間時間差τを周知の何れの方法で求めてもよく、例えば、第2実施形態で後述するチャネル間関係情報推定部1132に例示した方法で求めればよい。第2実施形態で後述するチャネル間関係情報推定部1132に例示した方法をダウンミックス部510が用いると、同じ音信号が第二チャネル入力音信号よりも先に第一チャネル入力音信号に含まれている場合にはチャネル間時間差τは正の値となり、同じ音信号が第一チャネル入力音信号よりも先に第二チャネル入力音信号に含まれている場合にはチャネル間時間差τは負の値となる。
 ダウンミックス部510は、次に、第一チャネル入力音信号のサンプル列と、チャネル間時間差τ分だけ当該サンプル列より後にずれた位置にある第二チャネル入力音信号のサンプル列と、の相関値をチャネル間相関係数γとして得る(ステップS510B-2)。
 ダウンミックス部510は、次に、ダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}に、第一チャネル入力音信号X1={x1(1), x1(2), ..., x1(T)}と第二チャネル入力音信号X2={x2(1), x2(2), ..., x2(T)}のうちの先行しているチャネルの入力音信号のほうが、チャネル間相関係数γが大きいほど大きく含まれるように、第一チャネル入力音信号と第二チャネル入力音信号を重み付け平均してダウンミックス信号を得て出力する(ステップS510B-3)。例えば、ダウンミックス部510は、対応する各サンプル番号tに対して、チャネル間相関係数γで定まる重みを用いて第一チャネル入力音信号x1(t)と第二チャネル入力音信号x2(t)を重み付け加算したものをダウンミックス信号xM(t)とすればよい。具体的には、ダウンミックス部510は、チャネル間時間差τが正の値である場合、すなわち第一チャネルが先行している場合には、xM(t)=((1+γ)/2)×x1(t)+((1-γ)/2)×x2(t)を、チャネル間時間差τが負の値である場合、すなわち第二チャネルが先行している場合には、xM(t)=((1-γ)/2)×x1(t)+((1+γ)/2)×x2(t)を、ダウンミックス信号xM(t)として得ればよい。ダウンミックス部510は、チャネル間時間差τが0である場合、すなわち何れのチャネルも先行していない場合には、各サンプル番号tについて、第一チャネル入力音信号x1(t)と第二チャネル入力音信号x2(t)を平均したxM(t)=(x1(t)+x2(t))/2をダウンミックス信号xM(t)とすればよい。
 [モノラル符号化部520]
 モノラル符号化部520には、ダウンミックス部510が出力したダウンミックス信号が入力される。モノラル符号化部520は、入力されたダウンミックス信号を所定の符号化方式でbMビットで符号化してモノラル符号CMを得て出力する。すなわち、入力されたTサンプルのダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}からbMビットのモノラル符号CMを得て出力する。符号化方式としては、どのようなものを用いてもよく、例えば3GPP EVS規格のような符号化方式を用いればよい。
[ステレオ符号化部530]
 ステレオ符号化部530には、符号化装置500に入力された第一チャネル入力音信号と第二チャネル入力音信号が入力される。ステレオ符号化部530は、第一チャネル入力音信号と第二チャネル入力音信号を所定の符号化方式で合計bsビットで符号化してステレオ符号CSを得て出力する。すなわち、Tサンプルの第一チャネル入力音信号X1={x1(1), x1(2), ..., x1(T)}と、Tサンプルの第二チャネル入力音信号X2={x2(1), x2(2), ..., x2(T)}と、から合計bSビットのステレオ符号CSを得て出力する。符号化方式としては、どのようなものを用いてもよく、例えばMPEG-4 AAC規格のステレオ復号方式に対応するステレオ符号化方式を用いてもよいし、入力された第一チャネル入力音信号と第二チャネル入力音信号それぞれを独立して符号化する符号化方式を用いてもよい。何れの符号化方式を用いた場合でも、符号化により得られた符号を全て合わせたものをステレオ符号CSとすればよい。
 モノラル符号CMは上述した通りにモノラル符号化部520が得た符号であり、ステレオ符号CSは上述した通りにステレオ符号化部530が得た符号であるので、モノラル符号CMとステレオ符号CSは、重複した符号を含まない異なる符号である。すなわち、モノラル符号CMはステレオ符号CSとは異なる符号であり、ステレオ符号CSはモノラル符号CMとは異なる符号である。
≪復号装置600≫
 適用先となる復号装置600は、図32に例示する通り、モノラル復号部610とステレオ復号部620を含む。復号装置600は、対応する符号化装置500と同じ時間長のフレーム単位で、入力されたモノラル符号CMを復号してモノラルの時間領域の復号音信号であるモノラル復号音信号を得て出力し、入力されたステレオ符号CSを復号して2チャネルステレオの時間領域の復号音信号である第一チャネル復号音信号と第二チャネル復号音信号を得て出力する。復号装置600は、各フレームについて上述した各部が以下の処理を行う。
[モノラル復号部610]
 モノラル復号部610には、復号装置600に入力されたモノラル符号CMが入力される。モノラル復号部610は、モノラル符号CMを所定の復号方式で復号してモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}を得て出力する。すなわち、モノラル復号部610は、ステレオ符号CSを復号して得られた情報もステレオ符号CSも用いずに、ステレオ符号CSとは異なる符号であるモノラル符号CMを復号して、モノラル復号音信号^XMを得る。所定の復号方式としては、対応する符号化装置500のモノラル符号化部520で用いた符号化方式に対応する復号方式を用いる。モノラル符号CMのビット数はbMである。
[ステレオ復号部620]
 ステレオ復号部620には、復号装置600に入力されたステレオ符号CSが入力される。ステレオ復号部620は、ステレオ符号CSを所定の復号方式で復号して、左チャネルの復号音信号である第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と、右チャネルの復号音信号である第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}と、を得て出力する。すなわち、ステレオ復号部620は、モノラル符号CMを復号して得られた情報もモノラル符号CMも用いずに、モノラル符号CMとは異なる符号であるステレオ符号CSを復号して、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を得る。所定の復号方式としては、対応する符号化装置500のステレオ符号化部530で用いた符号化方式に対応する復号方式を用いる。ステレオ符号CSの合計ビット数はbSである。
 符号化装置500と復号装置600は上述した通りに動作するので、モノラル符号CMは、ステレオ符号CSが由来する音信号と同じ音信号(すなわち、符号化装置500に入力された第一チャネル入力音信号X1と第二チャネル入力音信号X2)に由来する符号ではあるが、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を得る元となった符号(すなわち、ステレオ符号CS)とは異なる符号である。
<第1実施形態>
 第1実施形態の音信号精製装置は、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。以下、第1実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて説明する。
≪音信号精製装置1101≫
 第1実施形態の音信号精製装置1101は、図1に例示する通り、第一チャネル精製重み推定部1111-1と第一チャネル信号精製部1121-1と第二チャネル精製重み推定部1111-2と第二チャネル信号精製部1121-2を含む。音信号精製装置1101は、例えば20msの所定の時間長のフレーム単位で、ステレオの各チャネルについて、モノラル復号音信号と当該チャネルの復号音信号から、当該チャネルの復号音信号を改善した音信号である精製済復号音信号を得て出力する。音信号精製装置1101にフレーム単位で入力される各チャネルの復号音信号は、例えば、上述した復号装置600のステレオ復号部620が、モノラル符号CMを復号して得られた情報もモノラル符号CMも用いずに、モノラル符号CMとは異なる符号であるbSビットのステレオ符号CSを復号して得たTサンプルの第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}とTサンプルの第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}である。音信号精製装置1101にフレーム単位で入力されるモノラルの復号音信号は、例えば、上述した復号装置600のモノラル復号部610が、ステレオ符号CSを復号して得られた情報もステレオ符号CSも用いずに、ステレオ符号CSとは異なる符号であるbMビットのモノラル符号CMを復号して得たTサンプルのモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}である。モノラル符号CMは、ステレオ符号CSが由来する音信号と同じ音信号(すなわち、符号化装置500に入力された第一チャネル入力音信号X1と第二チャネル入力音信号X2)に由来する符号ではあるが、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を得る元となった符号(すなわち、ステレオ符号CS)とは異なる符号である。第一チャネルのチャネル番号n(チャネルのインデックスn)を1とし、第二チャネルのチャネル番号nを2とすると、音信号精製装置1101は、各フレームについて、図2に例示するステップS1111-nとステップS1121-nを各チャネルについて行う。すなわち、以降では、特に断りがない限りは、“-n”が付された各部/各ステップは、各チャネルに対応するものが存在し、具体的には、“-n”に代えて“-1”が付された第一チャネル用の各部/各ステップと、“-n”に代えて“-2”が付された第二チャネルの各部/各ステップと、が存在する。同様に、以降では、特に断りがない限りは、添え字などに“n”との記載が付されているものは、各チャネル番号に対応するものが存在することを表し、具体的には、“n”に代えて“1”が付された第一チャネルに対応するものと、“n”に代えて“2”が付された第二チャネルに対応するものと、が存在する。
[第nチャネル精製重み推定部1111-n]
 第nチャネル精製重み推定部1111-nは、第nチャネル精製重みαnを得て出力する(ステップ1111-n)。第nチャネル精製重み推定部1111-nは、後述する量子化誤差を最小化する原理に基づく方法で第nチャネル精製重みαnを得る。量子化誤差を最小化する原理とこの原理に基づく方法については後述する。第nチャネル精製重み推定部1111-nには、必要に応じて、図1に一点鎖線で示すように、音信号精製装置1101に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号精製装置1101に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、が入力される。第nチャネル精製重み推定部1111-nが得る第nチャネル精製重みαnは、0以上1以下の値である。ただし、第nチャネル精製重み推定部1111-nは、フレームごとに後述する方法で第nチャネル精製重みαnを得るので、全てのフレームで第nチャネル精製重みαnが0や1になることはない。すなわち、第nチャネル精製重みαnが0より大きく1未満の値となるフレームが存在する。言い換えると、全てのフレームのうちの少なくとも何れかのフレームでは、第nチャネル精製重みαnは0より大きく1未満の値である。
[第nチャネル信号精製部1121-n]
 第nチャネル信号精製部1121-nには、音信号精製装置1101に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号精製装置1101に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、第nチャネル精製重み推定部1111-nが出力した第nチャネル精製重みαnと、が入力される。第nチャネル信号精製部1121-nは、対応するサンプルtごとに、第nチャネル精製重みαnとモノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αn×^xM(t)と、第nチャネル精製重みαnを1から減算した値(1-αn)と第nチャネル復号音信号^Xnのサンプル値^xn(t)とを乗算した値(1-αn)×^xn(t)と、を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得て出力する(ステップS1121-n)。すなわち、~xn(t)=(1-αn)×^xn(t)+αn×^xM(t)である。
[量子化誤差を最小化する原理]
 以下、量子化誤差を最小化する原理について説明する。ステレオ符号化部530とステレオ復号部620で用いる符号化方式/復号方式次第では、各チャネルの入力音信号の符号化に用いるビット数は陽に定まっていないこともあり得るが、以下では、第nチャネルの入力音信号Xnの符号化に用いるビット数がbnであるとして説明する。
 上述した各装置の各部の処理における符号のビット数と信号の概要は以下の通りである。音信号精製装置1101の適用先となる符号化装置500のステレオ符号化部530は、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}を符号化してbnビットの符号を得る。音信号精製装置1101の適用先となる符号化装置500のモノラル符号化部520は、ダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}を符号化してbMビットの符号を得る。音信号精製装置1101の適用先となる復号装置600のステレオ復号部620は、bnビットの符号から第nチャネルの復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}を得る。音信号精製装置1101の適用先となる復号装置600のモノラル復号部610は、bMビットの符号からモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}を得る。音信号精製装置1101の第nチャネル信号精製部1121-nは、対応するサンプルtごとに、第nチャネル精製重みαnとモノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αn×^xM(t)と、第nチャネル精製重みαnを1から減算した値(1-αn)と第nチャネル復号音信号^Xnのサンプル値^xn(t)とを乗算した値(1-αn)×^xn(t)と、を加算した値~xn(t)=(1-αn)×^xn(t)+αn×^xM(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得る。音信号精製装置1101は、以上の処理で得られる第nチャネル精製済復号音信号~Xnが有する量子化誤差のエネルギーが小さくなるように設計されるべきである。
 入力信号を符号化・復号して得られる復号信号が有する量子化誤差(以下、便宜的に「符号化により生じる量子化誤差」ともいう)のエネルギーは、多くの場合、入力信号のエネルギーにおおよそ比例し、符号化に用いるサンプルごとのビット数の値に対して指数的に小さくなる傾向にある。したがって、第nチャネルの入力音信号Xnの符号化により生じる量子化誤差のサンプルあたりの平均エネルギーは正の数σn 2を用いて下記の式(1)のように推定できる。また、ダウンミックス信号XMの符号化により生じる量子化誤差のサンプルあたりの平均エネルギーは正の数σM 2を用いて下記の式(2)のように推定できる。
Figure JPOXMLDOC01-appb-M000007

Figure JPOXMLDOC01-appb-M000008
 ここで仮に、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}が同一の系列とみなせるほど各サンプル値が近い値となっているとする。例えば、第1チャネルの入力音信号X1={x1(1), x1(2), ..., x1(T)}と第2チャネルの入力音信号X2={x2(1), x2(2), ..., x2(T)}が、背景雑音や反響が多くない環境下で、2個のマイクロホンから等距離にある音源が発した音を収音して得たものであるケースなどが、この条件に相当する。第nチャネルの復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}の各サンプル値に(1-αn)を乗算して得た値からなる信号のエネルギーはダウンミックス信号のエネルギーの(1-αn)2倍で表せることから、式(1)のσn 2は上記のσM 2を用いて(1-α)2×σM 2と置き換えることができるため、第nチャネルの復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}の各サンプル値に(1-αn)を乗算して得た値の系列{(1-αn)×^xn(1), (1-αn)×^xn(2), ..., (1-αn)×^xn(T)}が有する量子化誤差のサンプルあたりの平均エネルギーは下記の式(3)のように推定できる。
Figure JPOXMLDOC01-appb-M000009

また、モノラル復号音信号^XMの各サンプル値にαnを乗算して得た値の系列{αn×xM(1), αn×xM(2), ..., αn×xM(T)}が有する量子化誤差のサンプルあたりの平均エネルギーは、下記の式(4)のように推定できる。
Figure JPOXMLDOC01-appb-M000010
 第nチャネルの入力音信号の符号化により生じる量子化誤差と、ダウンミックス信号の符号化により生じる量子化誤差と、が互いに相関を持たないと仮定すると、第nチャネル精製済復号音信号~Xn={~xn(1), ~xn (2), ..., ~xn(T)}が有する量子化誤差のサンプルあたりの平均エネルギーは式(3)と式(4)の和で推定される。第nチャネル精製済復号音信号~Xn={~xn(1), ~xn (2), ..., ~xn(T)}が有する量子化誤差のエネルギーを最小化する第nチャネル精製重みαnは、下記の式(5)のように求められる。
Figure JPOXMLDOC01-appb-M000011
 つまり、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}が同一の系列とみなせるほど各サンプル値が近い値となっている条件において第nチャネル精製済復号音信号が有する量子化誤差を最小化するためには、第nチャネル精製重み推定部1111-nは第nチャネル精製重みαnを式(5)で求めればよい。
[量子化誤差を最小化する原理に基づく方法]
 以下、上述した量子化誤差を最小化する原理に基づいて第nチャネル精製重みαnを得る方法の具体例を説明する。
[[第1例]]
 第1例は、上述した量子化誤差を最小化する原理によって第nチャネル精製重みαnを得る例である。第1例の第nチャネル精製重み推定部1111-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて、式(5)により第nチャネル精製重みαnを得る。第nチャネル精製重み推定部1111-nがビット数bnとビット数bMを特定する方法は全ての例で共通するので、最後の具体例である第7例の後で説明する。
[[第2例]]
 第2例は、第1例で得られる第nチャネル精製重みαnと類似する特徴をもつ第nチャネル精製重みαnを得る例である。第2例の第nチャネル精製重み推定部1111-nは、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnとモノラル符号CMのビット数bMを少なくとも用いて、0より大きく1未満の値であり、bnとbMが等しいときには0.5であり、bnがbMよりも多いほど0.5より0に近い値であり、bMがbnよりも多いほど0.5より1に近い値を、第nチャネル精製重みαnとして得る。
[[第3例]]
 第3例は、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}が同一の系列とみなせない場合も考慮して第nチャネル精製重みαnを得る例である。第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}が同一の系列とみなせるほどには各サンプル値が近い値を有しない場合には、上述した重み付き平均(1-αn)×^xn(t)+αn×^xM(t)により得られる信号は、量子化誤差がない場合でも第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とは異なる波形となってしまう。したがって、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}に全く相関がない場合には、上述した重み付き平均の処理を行わずに、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}をそのまま第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}としたほうが、精度を維持できる。
 したがって、第nチャネルの入力音信号Xn={xn(1), xn(2), ..., xn(T)}とダウンミックス信号XM={xM(1), xM(2), ..., xM(T)}が同一の系列とみなせない場合も考慮すると、第nチャネル信号精製部1121-nは、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}とモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}の間の相関に応じて、相関が高いほど上記の式(5)で得られる値に近く、相関が低いほど0に近い値である第nチャネル精製重みαnに基づいた重み付き平均(1-αn)×^xn(t)+αn×^xM(t)により第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}を得られるようにするとよい。上記の相関としては、例えば、下記の式(6)で表されるように、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}のモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}に対する正規化された内積値rnを用いることができる。
Figure JPOXMLDOC01-appb-M000012
 そこで、第3例の第nチャネル精製重み推定部1111-nは、式(6)により得られる正規化された内積値rnを用いて、第nチャネル精製重みαnを下記の式(7)により得る。
Figure JPOXMLDOC01-appb-M000013

例えば、第nチャネル精製重み推定部1111-nは、図3に示すステップS1111-1-nからステップS1111-3-nを行う。第nチャネル精製重み推定部1111-nは、まず、第nチャネル復号音信号^Xnとモノラル復号音信号^XMから、式(6)により正規化された内積値rnを得る(ステップS1111-1-n)。第nチャネル精製重み推定部1111-nは、また、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、から下記の式(8)により補正係数cnを得る(ステップS1111-2-n)。
Figure JPOXMLDOC01-appb-M000014

第nチャネル精製重み推定部1111-nは、次に、ステップS1111-1-nで得た正規化された内積値rnとステップS1111-2-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαnとして得る(ステップS1111-3-n)。すなわち、第3例の第nチャネル精製重み推定部1111-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて式(8)により得られる補正係数cnと、第nチャネル復号音信号^Xnのモノラル復号音信号^XMに対する正規化された内積値rnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
[[第4例]]
 第4例は、第3例で得られる第nチャネル精製重みαnと類似する特徴をもつ第nチャネル精製重みαnを得る例である。第4例の第nチャネル精製重み推定部1111-nは、第nチャネル復号音信号^Xnと、モノラル復号音信号^XMと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を少なくとも用いて、0以上1以下の値であり、第nチャネル復号音信号^Xnとモノラル復号音信号^XMの間の相関が高いほど1に近い値であり、当該相関が低いほど0に近い値であるrnと、0より大きく1未満の値であり、bnとbMが同じであるときには0.5であり、bnがbMよりも多いほど0.5より0に近く、bnがbMよりも少ないほど0.5より1に近い値である補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
[[第5例]]
 第5例は、第3例の正規化された内積値に代えて、過去のフレームの入力の値も考慮した値を用いる例である。第5例は、第nチャネル精製重みαnのフレーム間の急激な変動を少なくして、当該変動に由来して精製済復号音信号に生じるノイズを低減するものである。例えば、第5例の第nチャネル精製重み推定部1111-nは、図4に示す通り、下記のステップS1111-11-nからステップS1111-13-nと、第3例と同様のステップS1111-2-nとステップS1111-3-nと、を行う。
 第nチャネル精製重み推定部1111-nは、まず、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、前のフレームで用いた内積値En(-1)と、を用いて、下記の式(9)により、現在のフレームで用いる内積値En(0)を得る(ステップS1111-11-n)。
Figure JPOXMLDOC01-appb-M000015

ここで、εnは、0より大きく1未満の予め定めた値であり、第nチャネル精製重み推定部1111-n内に予め記憶されている。なお、第nチャネル精製重み推定部1111-nは、得た内積値En(0)を、「前のフレームで用いた内積値En(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1111-n内に記憶する。
 第nチャネル精製重み推定部1111-nは、また、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、前のフレームで用いたモノラル復号音信号のエネルギーEM(-1)と、を用いて、下記の式(10)により、現在のフレームで用いるモノラル復号音信号のエネルギーEM(0)を得る(ステップ1111-12-n)。
Figure JPOXMLDOC01-appb-M000016

ここで、εMは、0より大きく1未満で予め定めた値であり、第nチャネル精製重み推定部1111-n内に予め記憶されている。なお、第nチャネル精製重み推定部1111-nは、得たモノラル復号音信号のエネルギーEM(0)を、「前のフレームで用いたモノラル復号音信号のエネルギーEM(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1111-n内に記憶する。なお、第1精製重み推定部1111-1でも第2精製重み推定部1111-2でもEM(0)の値は同じであるため、第1精製重み推定部1111-1と第2精製重み推定部1111-2の何れか一方でEM(0)を得て、得たEM(0)をもう一方の第n精製重み推定部1111-nで用いるようにしてもよい。
 第nチャネル精製重み推定部1111-nは、次に、ステップS1111-11-nで得た現在のフレームで用いる内積値En(0)と、ステップS1111-12-nで得た現在のフレームで用いるモノラル復号音信号のエネルギーEM(0)を用いて、正規化された内積値rnを下記の式(11)で得る(ステップS1111-13-n)。
Figure JPOXMLDOC01-appb-M000017
 第nチャネル精製重み推定部1111-nは、また、式(8)により補正係数cnを得る(ステップS1111-2-n)。第nチャネル精製重み推定部1111-nは、次に、ステップS1111-13-nで得た正規化された内積値rnとステップS1111-2-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαnとして得る(ステップS1111-3-n)。
 すなわち、第5例の第nチャネル精製重み推定部1111-nは、第nチャネル復号音信号^Xnの各サンプル値^xn(t)とモノラル復号音信号^XMの各サンプル値^xM(t)と前フレームの内積値En(-1)とを用いて式(9)により得られる内積値En(0)と、モノラル復号音信号^XMの各サンプル値^xM(t)と前フレームのモノラル復号音信号のエネルギーEM(-1)とを用いて式(10)により得られるモノラル復号音信号のエネルギーEM(0)と、を用いて式(11)により得られる正規化された内積値rnと、フレーム当たりのサンプル数Tとステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnとモノラル符号CMのビット数bMとを用いて式(8)により得られる補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
 なお、上記のεn及びεMは、1に近いほど正規化された内積値rnには過去のフレームの第nチャネル復号音信号とモノラル復号音信号の影響が含まれやすくなり、正規化された内積値rnや、正規化された内積値rnにより得られる第nチャネル精製重みαnのフレーム間の変動は小さくなる。
 [[第6例]]
 例えば、第一チャネル入力音信号に含まれている音声や音楽などの音と、第二チャネル入力音信号に含まれている音声や音楽などの音と、が異なる場合には、モノラル復号音信号には第一チャネル入力音信号の成分も第二チャネル入力音信号の成分も含まれる。このため、第一チャネル精製重みα1として大きな値を用いるほど、第一チャネル精製済復号音信号の中に本来聴こえるはずのない第二チャネルの入力音信号に由来する音が含まれているように聴こえてしまうという課題がある。同様に、第二チャネル精製重みα2として大きな値を用いるほど、第二チャネル精製済復号音信号の中に本来聴こえるはずのない第一チャネルの入力音信号に由来する音が含まれているように聴こえてしまうという課題がある。そこで、聴覚品質を考慮して、第6例の第nチャネル精製重み推定部1111-nは、上述した各例により求まる各チャネルの第nチャネル精製重みαnより小さい値を、第nチャネル精製重みαnとして得る。例えば、第3例または第5例に基づく第6例の第nチャネル精製重み推定部1111-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、0より大きく1未満の予め定めた値であるλとを乗算した値λ×cn×rnを第nチャネル精製重みαnとして得る。
 [[第7例]]
 第6例で説明した聴覚品質の課題が生じるのは第一チャネル入力音信号と第二チャネル入力音信号の相関が小さいときであって、この課題は第一チャネル入力音信号と第二チャネル入力音信号の相関が大きいときにはあまり生じない。そこで、第7例の第nチャネル精製重み推定部1111-nは、第6例の予め定めた値に代えて、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であるチャネル間相関係数γを用いて、第一チャネル復号音信号と第二チャネル復号音信号の相関が大きいほど、精製済復号音信号が有する量子化誤差のエネルギーを小さくすることを優先し、第一チャネル復号音信号と第二チャネル復号音信号の相関が小さいほど、聴覚品質の劣化を抑えることを優先する。以下、第7例が第3例及び第5例と異なる点について説明する。
 [[[第7例のチャネル間関係情報推定部1131]]]
 第7例の音信号精製装置1101は、図1に破線で示すようにチャネル間関係情報推定部1131も含む。チャネル間関係情報推定部1131には、音信号精製装置1101に入力された第一チャネル復号音信号と、音信号精製装置1101に入力された第二チャネル復号音信号と、が少なくとも入力される。第7例のチャネル間関係情報推定部1131は、第一チャネル復号音信号と第二チャネル復号音信号を少なくとも用いてチャネル間相関係数γを得て出力する(ステップS1131)。チャネル間相関係数γは、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であり、第一チャネル復号音信号のサンプル列{^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号のサンプル列{^x2(1), ^x2(2), ..., ^x2(T)}の相関係数γ0であってもよいし、時間差を考慮した相関係数、例えば、第一チャネル復号音信号のサンプル列と、τサンプルだけ当該サンプル列より後にずれた位置にある第二チャネル復号音信号のサンプル列と、の相関係数γτであってもよい。なお、チャネル間関係情報推定部1131は、チャネル間相関係数γを、周知の何れの方法で得てもよいし、後述する第2実施形態のチャネル間関係情報推定部1132で説明する方法で得てもよい。なお、チャネル間相関係数γを得る方法次第では、図1に二点鎖線で示すように、音信号精製装置1101に入力されたモノラル復号音信号も、チャネル間関係情報推定部1131に入力される。
 このτは、ある空間に配置した第一チャネル用のマイクロホンで収音した音をAD変換して得られた音信号が第一チャネル入力音信号X1であり、当該空間に配置した第二チャネル用のマイクロホンで収音した音をAD変換して得られた音信号が第二チャネル入力音信号X2である、と仮定したときの、当該空間で主に音を発している音源から第一チャネル用のマイクロホンへの到達時間と、当該音源から第二チャネル用のマイクロホンへの到達時間と、の差(いわゆる到来時間差)に相当する情報である。以降では、このτをチャネル間時間差と呼ぶ。チャネル間関係情報推定部1131は、チャネル間時間差τを、第一チャネル入力音信号X1に対応する復号音信号である第一チャネル復号音信号^X1と第二チャネル入力音信号X2に対応する復号音信号である第二チャネル復号音信号^X2とから、周知の何れの方法で求めてもよく、第2実施形態のチャネル間関係情報推定部1132で説明する方法などで求めればよい。すなわち、上述した相関係数γτは、音源から第一チャネル用のマイクロホンに到達して収音された音信号と、当該音源から第二チャネル用のマイクロホンに到達して収音された音信号と、の相関係数に相当する情報である。
 [[[第7例の第nチャネル精製重み推定部1111-n]]]
 第7例の第nチャネル精製重み推定部1111-nは、第3例と第5例のステップS1111-3-nに代えて、第3例のステップS1111-1-nまたは第5例のステップSS1111-13-nで得た正規化された内積値rnと、ステップS1111-2-nで得た補正係数cnと、ステップS1131で得たチャネル間相関係数γと、を乗算した値γ×cn×rnを第nチャネル精製重みαnとして得る(ステップS1111-3’-n)。すなわち、第7例の第nチャネル精製重み推定部1111-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であるチャネル間相関係数γと、を乗算した値γ×cn×rnを第nチャネル精製重みαnとして得る。
 なお、第nチャネル精製重み推定部1111-nは、第3例から第7例で第nチャネル精製重みαnを得る際に、第nチャネル復号音信号^Xnやモノラル復号音信号^XMの代わりに、これらのそれぞれにフィルタにかけて得られる信号を用いてもよい。当該フィルタは、例えば予め定めたローパスフィルタでもよいし、第nチャネル復号音信号^Xnやモノラル復号音信号^XMを分析して得られる線形予測係数を用いた線形予測フィルタでもよい。フィルタにかけることで、第nチャネル復号音信号^Xnやモノラル復号音信号^XMの各周波数成分に重みをかけることができ、第nチャネル精製重みαnを求めるときに聴感的に重要な周波数成分の寄与を大きくすることができる。
[モノラル符号CMのビット数bMを特定する方法]
 モノラル復号部610が用いる復号方式におけるモノラル符号CMのビット数bMが全てのフレームで同じである場合には(すなわち、モノラル復号部610が用いる復号方式が固定ビットレートの復号方式である場合には)、第nチャネル精製重み推定部1111-n内の図示しない記憶部にモノラル符号CMのビット数bMを記憶しておけばよい。モノラル復号部610が用いる復号方式におけるモノラル符号CMのビット数bMがフレームによって異なることがある場合には(すなわち、モノラル復号部610が用いる復号方式が可変ビットレートの復号方式である場合には)、モノラル復号部610がモノラル符号CMのビット数bMを出力するようにして、ビット数bMが第nチャネル精製重み推定部1111-nに入力されるようにすればよい。
[ステレオ符号CSのビット数のうちのビット数bnを特定する方法]
 ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnが全てのフレームで同じである場合には、第nチャネル精製重み推定部1111-n内の図示しない記憶部にステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnを記憶しておけばよい。ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnがフレームによって異なることがある場合には、ステレオ復号部620がビット数bnを出力するようにして、ビット数bnが第nチャネル精製重み推定部1111-nに入力されるようにすればよい。ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnが陽に定まっていない場合には、第nチャネル精製重み推定部1111-nは、例えば、下記の第1の方法や第2の方法により得た値をbnとして用いればよい。なお、第1の方法でも第2の方法でも、ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsが全てのフレームで同じである場合には、第nチャネル精製重み推定部1111-n内の図示しない記憶部にステレオ符号CSのビット数bSを記憶しておけばよく、ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsがフレームによって異なることがある場合には、ステレオ復号部620がビット数bSを出力するようにして、ビット数bSが第nチャネル精製重み推定部1111-nに入力されるようにすればよい。
 [[ステレオ符号CSのビット数のうちのビット数bnを特定する第1の方法]]
 第nチャネル精製重み推定部1111-nは、ステレオ符号CSのビット数bsをチャネル数で除算して得られる値(すなわち、2チャネルステレオの場合には、bs/2、bsの2分の1)をbnとして用いる。すなわち、ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsが全てのフレームで同じである場合には、第nチャネル精製重み推定部1111-n内の図示しない記憶部にステレオ符号CSのビット数bSをチャネル数で除算して得た値をビット数bnとして記憶しておけばよい。ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsがフレームによって異なることがある場合には、第nチャネル精製重み推定部1111-nがビット数bsをチャネル数で除算した値をbnとして得るようにすればよい。
 [[ステレオ符号CSのビット数のうちのビット数bnを特定する第2の方法]]
 第nチャネル精製重み推定部1111-nは、音信号精製装置1101に入力された全チャネルの復号音信号を用いて、ステレオ符号CSのビット数bsをチャネル数で除算して得た値と、第nチャネルの復号音信号^Xnのエネルギーと全チャネルの復号音信号のエネルギーの相乗平均との比の対数値に比例する値と、を加算した値をbnとして得る。一般にステレオ符号化では、各チャネルの入力音信号に対して各信号のエネルギーの対数値に比例したビット数を割り当てることで効率よく圧縮を行うことができる。このことから、ステレオ符号化部530が用いる符号化方式とステレオ復号部620が用いる復号方式においてもステレオ符号CSにおいて前述したビット数の割り当てがされていると想定してビット数bnを推定するのが第2の方法である。より具体的には、例えば、第nチャネル精製重み推定部1111-nは、第1チャネル復号音信号^X1のエネルギーe1と第2チャネルの復号音信号^X2のエネルギーe2を用いた下記の式(12)によりビット数bnを得ればよい。
Figure JPOXMLDOC01-appb-M000018
[第1実施形態の変形例]
 音信号精製装置1101がチャネル間相関係数γを用いる場合でも、復号装置600のステレオ復号部620がチャネル間相関係数γを得た場合には、音信号精製装置1101にはチャネル間関係情報推定部1131を備えずに、復号装置600のステレオ復号部620が得たチャネル間相関係数γが音信号精製装置1101に入力されるようにして、音信号精製装置1101は入力されたチャネル間相関係数γを用いるようにしてもよい。
 また、音信号精製装置1101がチャネル間相関係数γを用いる場合でも、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力したチャネル間関係情報符号CCにチャネル間相関係数γを表す符号が含まれる場合には、音信号精製装置1101にはチャネル間関係情報推定部1131を備えずに、チャネル間関係情報符号CCに含まれるチャネル間相関係数γを表す符号が音信号精製装置1101に入力されるようにして、音信号精製装置1101には図示しないチャネル間関係情報復号部を備えて、チャネル間関係情報復号部がチャネル間相関係数γを表す符号を復号してチャネル間相関係数γを得て出力するようにしてもよい。
<第2実施形態>
 第2実施形態の音信号精製装置も、第1実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第2実施形態の音信号精製装置が第1実施形態の音信号精製装置と異なる点は、モノラルの復号音信号そのものではなく、モノラルの復号音信号を各チャネル用にアップミックスした信号を用いることである。以下、第2実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第1実施形態の音信号精製装置と異なる点を中心に説明する。
≪音信号精製装置1102≫
 第2実施形態の音信号精製装置1102は、図5に例示する通り、チャネル間関係情報推定部1132とモノラル復号音アップミックス部1172と第一チャネル精製重み推定部1112-1と第一チャネル信号精製部1122-1と第二チャネル精製重み推定部1112-2と第二チャネル信号精製部1122-2を含む。音信号精製装置1102は、各フレームについて、図6に例示する通り、ステップS1132とステップS1172と、各チャネルについてのステップS1112-nとステップS1122-nと、を行う。
[チャネル間関係情報推定部1132]
 チャネル間関係情報推定部1132には、音信号精製装置1102に入力された第一チャネル復号音信号^X1と、音信号精製装置1102に入力された第二チャネル復号音信号^X2と、が少なくとも入力される。チャネル間関係情報推定部1132は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いてチャネル間関係情報を得て出力する(ステップS1132)。チャネル間関係情報は、ステレオのチャネル間の関係を表す情報である。チャネル間関係情報の例は、チャネル間時間差τ、チャネル間相関係数γ、である。チャネル間関係情報推定部1132は、複数種類のチャネル間関係情報を得てもよく、例えばチャネル間時間差τとチャネル間相関係数γを得てもよい。
 チャネル間時間差τは、ある空間に配置した第一チャネル用のマイクロホンで収音した音をAD変換して得られた音信号が第一チャネル入力音信号X1であり、当該空間に配置した第二チャネル用のマイクロホンで収音した音をAD変換して得られた音信号が第二チャネル入力音信号X2である、と仮定したときの、当該空間で主に音を発している音源から第一チャネル用のマイクロホンへの到達時間と、当該音源から第二チャネル用のマイクロホンへの到達時間と、の差(いわゆる到来時間差)に相当する情報である。なお、到来時間差だけではなく、どちらのマイクロホンに早く到達しているかに相当する情報もチャネル間時間差τに含めるために、チャネル間時間差τは、何れか一方の音信号を基準として正の値も負の値も取り得るものとする。チャネル間関係情報推定部1132は、チャネル間時間差τを、第一チャネル入力音信号X1に対応する復号音信号である第一チャネル復号音信号^X1と第二チャネル入力音信号X2に対応する復号音信号である第二チャネル復号音信号^X2とから得る。すなわち、チャネル間関係情報推定部1132が得るチャネル間時間差τは、同じ音信号が第一チャネル復号音信号^X1と第二チャネル復号音信号^X2のどちらにどれくらい先に含まれているかを表す情報である。以下では、同じ音信号が第二チャネル復号音信号^X2よりも第一チャネル復号音信号^X1に先に含まれている場合には、第一チャネルが先行しているともいい、同じ音信号が第一チャネル復号音信号^X1よりも第二チャネル復号音信号^X2に先に含まれている場合には、第二チャネルが先行しているともいう。
 チャネル間関係情報推定部1132は、チャネル間時間差τを周知の何れの方法で求めてもよい。例えば、チャネル間関係情報推定部1132は、予め定めたτmaxからτminまで(例えば、τmaxは正の数、τminは負の数)の各候補サンプル数τcandについて、第一チャネル復号音信号^X1のサンプル列と、候補サンプル数τcand分だけ当該サンプル列より後にずれた位置にある第二チャネル復号音信号^X2のサンプル列と、の相関の大きさを表す値(以下、相関値という)γcandを計算して、相関値γcandが最大となる候補サンプル数τcandをチャネル間時間差τとして得る。すなわち、この例では、第一チャネルが先行している場合にはチャネル間時間差τは正の値であり、第二チャネルが先行している場合にはチャネル間時間差τは負の値である。すなわち、チャネル間時間差τの絶対値|τ|は、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|であり、先行しているチャネルがもう一方のチャネルに対してどれくらい先行しているかを表す値(先行しているサンプル数)である。また、チャネル間時間差τが正の値であるか負の値であるかは、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報である。したがって、チャネル間関係情報推定部1132は、チャネル間時間差τに代えて、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報と、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報と、を得てもよい。
 例えば、チャネル間関係情報推定部1132は、フレーム内のサンプルのみを用いて相関値γcandを計算する場合には、τcandが正の値の場合には、第二チャネル復号音信号^X2の部分サンプル列{^x2(1+τcand), ^x2(2+τcand), ..., ^x2(T)}と、候補サンプル数τcand分だけ当該部分サンプル列より前にずれた位置にある第一チャネル復号音信号^X1の部分サンプル列{^x1(1), ^x1(2), ..., ^x1(T-τcand)}と、の相関係数の絶対値を相関値γcandとして計算し、τcandが負の値の場合には、第一チャネル復号音信号^X1の部分サンプル列{^x1(1-τcand), ^x1(2-τcand), ..., ^x1(T)}と、候補サンプル数(-τcand)分だけ当該部分サンプル列より前にずれた位置にある第二チャネル復号音信号^X2の部分サンプル列{^x2(1), ^x2(2), ..., ^x2(T+τcand)}と、の相関係数の絶対値を相関値γcandとして計算すればよい。もちろん、相関値γcandを計算するために現在のフレームの復号音信号のサンプル列に連続する過去の復号音信号の1個以上のサンプルも用いてもよく、この場合には、チャネル間関係情報推定部1132は、過去のフレームの復号音信号のサンプル列を予め定めたフレーム数分だけチャネル間関係情報推定部1132内の図示しない記憶部に記憶しておくようにすればよい。
 また例えば、相関係数の絶対値に代えて、以下のように信号の位相の情報を用いて相関値γcandを計算してもよい。この例においては、チャネル間関係情報推定部1132は、まず、第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}を下記の式(21)のようにフーリエ変換することにより、0からT-1の各周波数kにおける周波数スペクトルf1(k)を得る。
Figure JPOXMLDOC01-appb-M000019

チャネル間関係情報推定部1132は、また、第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}を下記の式(22)のようにフーリエ変換することにより、0からT-1の各周波数kにおける周波数スペクトルf2(k)を得る。
Figure JPOXMLDOC01-appb-M000020

チャネル間関係情報推定部1132は、次に、0からT-1の各周波数kの周波数スペクトルf1(k)とf2(k)を用いて、下記の式(23)により、各周波数kにおける位相差のスペクトルφ(k)を得る。
Figure JPOXMLDOC01-appb-M000021

チャネル間関係情報推定部1132は、次に、0からT-1の位相差のスペクトルを逆フーリエ変換することにより、下記の式(24)のようにτmaxからτminまでの各候補サンプル数τcandについて位相差信号ψ(τcand)を得る。
Figure JPOXMLDOC01-appb-M000022

ここで得られた位相差信号ψ(τcand)の絶対値は、第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}の時間差の尤もらしさに対応したある種の相関を表すものである。そこで、チャネル間関係情報推定部1132は、次に、各候補サンプル数τcandに対する位相差信号ψ(τcand)の絶対値を相関値γcandとして得る。チャネル間関係情報推定部1132は、次に、位相差信号ψ(τcand)の絶対値である相関値γcandが最大となる候補サンプル数τcandをチャネル間時間差τとして得る。
 なお、チャネル間関係情報推定部1132は、相関値γcandとして位相差信号ψ(τcand)の絶対値をそのまま用いることに代えて、例えば各τcandについて位相差信号ψ(τcand)の絶対値に対するτcand前後にある複数個の候補サンプル数それぞれについて得られた位相差信号の絶対値の平均との相対差のように、正規化された値を用いてもよい。具体的には、チャネル間関係情報推定部1132は、各τcandについて、予め定めた正の数τrangeを用いて、下記の式(25)により平均値を得て、得られた平均値ψccand)と位相差信号ψ(τcand)を用いて下記の式(26)により得られる正規化された相関値をγcandとして得てもよい。
Figure JPOXMLDOC01-appb-M000023

Figure JPOXMLDOC01-appb-M000024

なお、式(26)により得られる正規化された相関値は、0以上1以下の値であり、τcandがチャネル間時間差として尤もらしいほど1に近く、τcandがチャネル間時間差として尤もらしくないほど0に近い性質を示す値である。
 予め定めた各候補サンプル数は、τmaxからτminまでの各整数値であってもよいし、τmaxからτminまでの間にある分数値や小数値を含んでいてもよいし、τmaxからτminまでの間にある何れかの整数値を含まないでもよい。また、τmax=-τminであってもよいし、そうでなくてもよい。また、何れかのチャネルが必ず先行しているような特殊な復号音信号を対象とする場合には、τmaxもτminも正の数としたり、τmaxもτminも負の数としたりしてもよい。
 なお、音信号精製装置1102が第1実施形態で説明した第7例で第nチャネル精製重みαnを得る場合には、チャネル間関係情報推定部1132は、さらに、第一チャネル復号音信号のサンプル列と、チャネル間時間差τ分だけ当該サンプル列より後にずれた位置にある第二チャネル復号音信号のサンプル列と、の相関値、すなわち、τmaxからτminまでの各候補サンプル数τcandについて計算した相関値γcandのうちの最大値、をチャネル間相関係数γとして出力する。
 また例えば、チャネル間関係情報推定部1132は、モノラル復号音信号も用いてチャネル間相関係数γを得てもよい。この場合には、図5に二点鎖線で示すように、音信号精製装置1102に入力されたモノラル復号音信号も、チャネル間関係情報推定部1132に入力される。チャネル間関係情報推定部1132は、第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と、第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}と、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}を用いて、モノラル復号音信号^XMを第一チャネル復号音信号^X1と第二チャネル復号音信号^X2との重み付き和で近似するとしたときの最も適切な重みをチャネル間相関係数γとして得てもよい。つまり、チャネル間関係情報推定部1132は、-1以上1以下のwcandのうち下記の式(27)により得られる値が最小となる重みwcandをチャネル間相関係数γとして得てもよい。
Figure JPOXMLDOC01-appb-M000025

チャネル間の相関が高い場合、つまり、符号化装置500に入力された第一チャネル入力音信号と符号化装置500に入力された第二チャネル入力音信号が時間差を合わせれば似た波形である場合には、符号化装置500のダウンミックス部510において効率よくダウンミックスがされていると想定すると、モノラル復号音信号は、第一チャネル復号音信号と第二チャネル復号音信号のうち先行するチャネルの復号音信号と時間的に同期する信号を多く含む。したがって、式(27)により得られるチャネル間相関係数γは、第一チャネル復号音信号に含まれる音信号が先行している場合には1に近い値であり、第二チャネル復号音信号に含まれる音信号が先行している場合には-1に近い値であり、チャネル間の相関が低いほど絶対値が小さくなる。このことから、式(27)により得られる値が最小となる重みwcandをチャネル間相関係数γとして用いることができる。なお、この方法では、チャネル間関係情報推定部1132は、チャネル間時間差τを得ずにチャネル間相関係数γを得ることが可能である。
[モノラル復号音アップミックス部1172]
 モノラル復号音アップミックス部1172には、音信号精製装置1102に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、チャネル間関係情報推定部1132が出力したチャネル間関係情報と、が入力される。モノラル復号音アップミックス部1172は、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}とチャネル間関係情報を用いたアップミックス処理を行うことにより、モノラル復号音信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}を得て出力する(ステップS1172)。モノラル復号音アップミックス部1172が用いるチャネル間関係情報は、ステレオのチャネル間の関係を表す情報であり、1種類であっても複数種類であってもよい。モノラル復号音アップミックス部1172は、例えば以下のように、チャネル間時間差τ、または、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報と第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報と、を用いたアップミックス処理を行えばよい。
[[チャネル間時間差τを用いたアップミックス処理の例]]
 モノラル復号音アップミックス部1172は、第一チャネルが先行している場合(すなわち、チャネル間時間差τが正の値である場合、または、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報が第一チャネルが先行していることを表す場合)には、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}をそのまま第一チャネルアップミックス済モノラル復号音信号^XM1={^xM1(1), ^xM1(2), ..., ^xM1(T)}として出力し、モノラル復号音信号を|τ|サンプル(チャネル間時間差τの絶対値分のサンプル数、チャネル間時間差τが表す大きさ分のサンプル数)遅らせた信号{^xM(1-|τ|), ^xM(2-|τ|), ..., ^xM(T-|τ|)}を第二チャネルアップミックス済モノラル復号音信号^XM2={^xM2(1), ^xM2(2), ..., ^xM2(T)}として出力する。モノラル復号音アップミックス部1172は、第二チャネルが先行している場合(すなわち、チャネル間時間差τが負の値である場合、または、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報が第二チャネルが先行していることを表す場合)には、モノラル復号音信号を|τ|サンプル遅らせた信号{^xM(1-|τ|), ^xM(2-|τ|), ..., ^xM(T-|τ|)}を第一チャネルアップミックス済モノラル復号音信号^XM1={^xM1(1), ^xM1(2), ..., ^xM1(T)}として出力し、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}をそのまま第二チャネルアップミックス済モノラル復号音信号^XM2={^xM2(1), ^xM2(2), ..., ^xM2(T)}として出力する。モノラル復号音アップミックス部1172は、何れのチャネルも先行していない場合(すなわち、チャネル間時間差τが0である場合、または、第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報が何れのチャネルも先行していないことを表す場合)には、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}をそのまま第一チャネルアップミックス済モノラル復号音信号^XM1={^xM1(1), ^xM1(2), ..., ^xM1(T)}と第二チャネルアップミックス済モノラル復号音信号^XM2={^xM2(1), ^xM2(2), ..., ^xM2(T)}として出力する。すなわち、モノラル復号音アップミックス部1172は、第一チャネルと第二チャネルのうちの上述した到達時間が短いほうのチャネルについては、入力されたモノラル復号音信号をそのまま当該チャネルのアップミックス済モノラル復号音信号として出力し、第一チャネルと第二チャネルのうちの上述した到達時間が長いほうのチャネルについては、入力されたモノラル復号音信号をチャネル間時間差τの絶対値|τ|だけ遅らせた信号を当該チャネルのアップミックス済モノラル復号音信号として出力する。なお、モノラル復号音アップミックス部1172ではモノラル復号音信号を遅延させた信号を得るために過去のフレームのモノラル復号音信号を用いることから、モノラル復号音アップミックス部1172内の図示しない記憶部には、過去のフレームで入力されたモノラル復号音信号を予め定めたフレーム数分だけ記憶しておく。
[第nチャネル精製重み推定部1112-n]
 第nチャネル精製重み推定部1112-nは、第nチャネル精製重みαnを得て出力する(ステップS1112-n)。第nチャネル精製重み推定部1112-nは、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法と同様の方法で、第nチャネル精製重みαnを得る。第nチャネル精製重み推定部1112-nが得る第nチャネル精製重みαnは、0以上1以下の値である。ただし、第nチャネル精製重み推定部1112-nは、フレームごとに後述する方法で第nチャネル精製重みαnを得るので、全てのフレームで第nチャネル精製重みαnが0や1になることはない。すなわち、第nチャネル精製重みαnが0より大きく1未満の値となるフレームが存在する。言い換えると、全てのフレームのうちの少なくとも何れかのフレームでは、第nチャネル精製重みαnは0より大きく1未満の値である。
 具体的には、下記の第1例から第7例のように、第nチャネル精製重み推定部1112-nは、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法においてモノラル復号音信号^XMを用いている箇所は、モノラル復号音信号^XMに代えて第nチャネルアップミックス済モノラル復号音信号^XMnを用いて、第nチャネル精製重みαnを得る。当然ながら、第nチャネル精製重み推定部1112-nは、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法においてモノラル復号音信号^XMに基づいて得られる値を用いている箇所は、モノラル復号音信号^XMに基づいて得られる値に代えて第nチャネルアップミックス済モノラル復号音信号^XMnに基づいて得られる値を用いる。例えば、第nチャネル精製重み推定部1112-nは、現在のフレームのモノラル復号音信号のエネルギーEM(0)に代えて現在のフレームの第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を用い、前のフレームのモノラル復号音信号のエネルギーEM(-1)に代えて前のフレームの第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)を用いる。
[[第1例]]
 第1例の第nチャネル精製重み推定部1112-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて、下記の式(2-5)により第nチャネル精製重みαnを得る。
Figure JPOXMLDOC01-appb-M000026
[[第2例]]
 第2例の第nチャネル精製重み推定部1112-nは、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を少なくとも用いて、0より大きく1未満の値であり、bnとbMが等しいときには0.5であり、bnがbMよりも多いほど0.5より0に近い値であり、bMがbnよりも多いほど0.5より1に近い値を、第nチャネル精製重みαnとして得る。
[[第3例]]
 第3例の第nチャネル精製重み推定部1112-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて
Figure JPOXMLDOC01-appb-M000027

より得られる補正係数cnと、第nチャネル復号音信号^Xnの第nチャネルアップミックス済モノラル復号音信号^XMnに対する正規化された内積値rnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
 第3例の第nチャネル精製重み推定部1112-nは、例えば、下記のステップS1112-31-nからステップS1112-33-nを行うことで第nチャネル精製重みαnを得る。第nチャネル精製重み推定部1112-nは、まず、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}から、下記の式(2-6)により第nチャネル復号音信号^Xnの第nチャネルアップミックス済モノラル復号音信号^XMnに対する正規化された内積値rnを得る(ステップS1112-31-n)。
Figure JPOXMLDOC01-appb-M000028

第nチャネル精製重み推定部1112-nは、また、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnと、モノラル符号CMのビット数bMと、を用いて、式(2-8)により補正係数cnを得る(ステップS1112-32-n)。第nチャネル精製重み推定部1112-nは、次に、ステップS1112-31-nで得た正規化された内積値rnとステップS1112-32-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαnとして得る(ステップS1112-33-n)。
[[第4例]]
 第4例の第nチャネル精製重み推定部1112-nは、ステレオ符号CSのビット数のうちの第nチャネルに相当するビット数をbnとし、モノラル符号CMのビット数をbMとして、0以上1以下の値であり、第nチャネル復号音信号^Xnと第nチャネルアップミックス済モノラル復号音信号^XMnの間の相関が高いほど1に近い値であり、当該相関が低いほど0に近い値であるrnと、0より大きく1未満の値であり、bnとbMが同じであるときには0.5であり、bnがbMよりも多いほど0.5より0に近く、bnがbMよりも少ないほど0.5より1に近い値である補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
[[第5例]]
 第5例の第nチャネル精製重み推定部1112-nは、例えば、下記のステップS1112-51-nからステップS1112-55-nを行うことで第nチャネル精製重みαnを得る。
 第nチャネル精製重み推定部1112-nは、まず、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、前のフレームで用いた内積値En(-1)と、を用いて、下記の式(2-9)により、現在のフレームで用いる内積値En(0)を得る(ステップS1112-51-n)。
Figure JPOXMLDOC01-appb-M000029

ここで、εnは、0より大きく1未満の予め定めた値であり、第nチャネル精製重み推定部1112-n内に予め記憶されている。なお、第nチャネル精製重み推定部1112-nは、得た内積値En(0)を、「前のフレームで用いた内積値En(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1112-n内に記憶する。
 第nチャネル精製重み推定部1112-nは、また、第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、前のフレームで用いた第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)と、を用いて、下記の式(2-10)により、現在のフレームで用いる第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を得る(ステップS1112-52-n)。
Figure JPOXMLDOC01-appb-M000030

ここで、εMnは、0より大きく1未満で予め定めた値であり、第nチャネル精製重み推定部1112-n内に予め記憶されている。なお、第nチャネル精製重み推定部1112-nは、得た第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を、「前のフレームで用いた第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1112-n内に記憶する。
 第nチャネル精製重み推定部1112-nは、次に、ステップS1112-51-nで得た現在のフレームで用いる内積値En(0)と、ステップS1112-52-nで得た現在のフレームで用いる第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を用いて、正規化された内積値rnを下記の式(2-11)で得る(ステップS1112-53-n)。
Figure JPOXMLDOC01-appb-M000031
 第nチャネル精製重み推定部1112-nは、また、式(2-8)により補正係数cMを得る(ステップS1112-54-n)。第nチャネル精製重み推定部1112-nは、次に、ステップS1112-53-nで得た正規化された内積値rnとステップS1112-54-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαnとして得る(ステップS1112-55-n)。
 すなわち、第5例の第nチャネル精製重み推定部1112-nは、第nチャネル復号音信号^Xnの各サンプル値^xn(t)と第nチャネルアップミックス済モノラル復号音信号^XMnの各サンプル値^xMn(t)と前フレームの内積値En(-1)とを用いて式(2-9)により得られる内積値En(0)と、第nチャネルアップミックス済モノラル復号音信号^XMnの各サンプル値^xMn(t)と前フレームの第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)とを用いて式(2-10)により得られる第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)と、を用いて式(2-11)により得られる正規化された内積値rnと、フレーム当たりのサンプル数Tとステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnとモノラル符号CMのビット数bMとを用いて式(2-8)により得られる補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαnとして得る。
[[第6例]]
 第6例の第nチャネル精製重み推定部1112-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、0より大きく1未満の予め定めた値であるλと、を乗算した値λ×cn×rnを第nチャネル精製重みαnとして得る。
[[第7例]]
 第7例の第nチャネル精製重み推定部1112-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であるチャネル間相関係数γと、を乗算した値γ×cn×rnを第nチャネル精製重みαnとして得る。
[第nチャネル信号精製部1122-n]
 第nチャネル信号精製部1122-nには、音信号精製装置1102に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、モノラル復号音アップミックス部1172が出力した第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、第nチャネル精製重み推定部1112-nが出力した第nチャネル精製重みαnと、が入力される。第nチャネル信号精製部1122-nは、対応するサンプルtごとに、第nチャネル精製重みαnと第nチャネルアップミックス済モノラル復号音信号^XMnのサンプル値^xMn(t)とを乗算した値αn×^xMn(t)と、第nチャネル精製重みαnを1から減算した値(1-αn)と第nチャネル復号音信号^Xnのサンプル値^xn(t)とを乗算した値(1-αn)×^xn(t)と、を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn (2), ..., ~xn(T)}として得て出力する(ステップS1122-n)。すなわち、~xn(t)=(1-αn)×^xn(t)+αn×^xMn(t)である。
<第3実施形態>
 第3実施形態の音信号精製装置も、第1実施形態と第2実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第3実施形態の音信号精製装置が第2実施形態の音信号精製装置と異なる点は、チャネル間関係情報を復号音信号からではなく符号から得ることである。以下、第3実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第2実施形態の音信号精製装置と異なる点を説明する。
≪音信号精製装置1103≫
 第3実施形態の音信号精製装置1103は、図7に例示する通り、チャネル間関係情報復号部1143とモノラル復号音アップミックス部1172と第一チャネル精製重み推定部1112-1と第一チャネル信号精製部1122-1と第二チャネル精製重み推定部1112-2と第二チャネル信号精製部1122-2を含む。音信号精製装置1103は、各フレームについて、図8に例示する通り、ステップS1143とステップS1172と、各チャネルについてのステップS1112-nとステップS1122-nと、を行う。第3実施形態の音信号精製装置1103が第2実施形態の音信号精製装置1102と異なる点は、チャネル間関係情報推定部1132に代えてチャネル間関係情報復号部1143を備えて、ステップS1132に代えてステップS1143を行うことである。また、第3実施形態の音信号精製装置1103には、各フレームのチャネル間関係情報符号CCも入力される。チャネル間関係情報符号CCは、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力した符号であってもよいし、上述した符号化装置500のステレオ符号化部530が得て出力したステレオ符号CSに含まれる符号であってもよい。以下、第3実施形態の音信号精製装置1103が第2実施形態の音信号精製装置1102と異なる点について説明する。
[チャネル間関係情報復号部1143]
 チャネル間関係情報復号部1143には、音信号精製装置1103に入力されたチャネル間関係情報符号CCが入力される。チャネル間関係情報復号部1143は、チャネル間関係情報符号CCを復号してチャネル間関係情報を得て出力する(ステップS1143)。チャネル間関係情報復号部1143が得るチャネル間関係情報は、第2実施形態のチャネル間関係情報推定部1132が得るチャネル間関係情報と同じである。
[第3実施形態の変形例]
 チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、ステップS1143で得られるのと同じチャネル間関係情報が、復号装置600のステレオ復号部620内で復号により得られている。したがって、チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、復号装置600のステレオ復号部620が得たチャネル間関係情報が第3実施形態の音信号精製装置1103に入力されるようにして、第3実施形態の音信号精製装置1103はチャネル間関係情報復号部1143を備えずにステップS1143を行わないようにしてもよい。
 また、チャネル間関係情報符号CCの一部だけがステレオ符号CSに含まれる符号である場合には、チャネル間関係情報符号CCのうちのステレオ符号CSに含まれる符号を復号装置600のステレオ復号部620が復号して得たチャネル間関係情報が第3実施形態の音信号精製装置1103に入力されるようにして、第3実施形態の音信号精製装置1103のチャネル間関係情報復号部1143は、ステップS1143として、チャネル間関係情報符号CCのうちのステレオ符号CSに含まれない符号を復号して、音信号精製装置1103に入力されなかったチャネル間関係情報を得て出力するようにすればよい。
 また、音信号精製装置1103の各部が用いるチャネル間関係情報のうちの一部に対応する符号がチャネル間関係情報符号CCに含まれない場合には、第3実施形態の音信号精製装置1103にはチャネル間関係情報推定部1132も備えて、チャネル間関係情報推定部1132がステップS1132も行うようにすればよい。この場合には、チャネル間関係情報推定部1132は、ステップS1132として、音信号精製装置1103の各部が用いるチャネル間関係情報のうちのチャネル間関係情報符号CCを復号しても得られないチャネル間関係情報を、第2実施形態のステップS1132と同様に得て出力すればよい。
<第4実施形態>
 第4実施形態の音信号精製装置も、第1実施形態から第3実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。以下、第4実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、上述した各実施形態の音信号精製装置を適宜参照して説明する。
 第4実施形態の音信号精製装置1201は、図9に例示する通り、復号音共通信号推定部1251と共通信号精製重み推定部1211と共通信号精製部1221と第一チャネル分離結合重み推定部1281-1と第一チャネル分離結合部1291-1と第二チャネル分離結合重み推定部1281-2と第二チャネル分離結合部1291-2を含む。音信号精製装置1201は、例えば20msの所定の時間長のフレーム単位で、ステレオの復号音の全チャネルに共通する信号である復号音共通信号について、復号音共通信号とモノラル復号音信号から、復号音共通信号を改善した音信号である精製済共通信号を得て、ステレオの各チャネルについて、復号音共通信号と精製済共通信号と当該チャネルの復号音信号とから、当該チャネルの復号音信号を改善した音信号である精製済復号音信号を得て出力する。音信号精製装置1201にフレーム単位で入力される各チャネルの復号音信号は、例えば、上述した復号装置600のステレオ復号部620が、モノラル符号CMを復号して得られた情報もモノラル符号CMも用いずに、モノラル符号CMとは異なる符号であるbSビットのステレオ符号CSを復号して得たTサンプルの第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}とTサンプルの第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}である。音信号精製装置1201にフレーム単位で入力されるモノラルの復号音信号は、例えば、上述した復号装置600のモノラル復号部610が、ステレオ符号CSを復号して得られた情報もステレオ符号CSも用いずに、ステレオ符号CSとは異なる符号であるbMビットのモノラル符号CMを復号して得たTサンプルのモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}である。モノラル符号CMは、ステレオ符号CSが由来する音信号と同じ音信号(すなわち、符号化装置500に入力された第一チャネル入力音信号X1と第二チャネル入力音信号X2)に由来する符号ではあるが、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を得る元となった符号(すなわち、ステレオ符号CS)とは異なる符号である。第一チャネルのチャネル番号nを1とし、第二チャネルのチャネル番号nを2とすると、音信号精製装置1201は、各フレームについて、図10に例示する通り、ステップS1251とステップS1211とステップS1221と、各チャネルについてのステップS1281-nとステップS1291-nと、を行う。
[復号音共通信号推定部1251]
 復号音共通信号推定部1251には、音信号精製装置1201に入力された第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}が少なくとも入力される。復号音共通信号推定部1251は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いて、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}を得て出力する(ステップS1251)。復号音共通信号推定部1251は、例えば、下記の何れかの方法を用いればよい。
[[復号音共通信号を得る第1の方法]]
 第1の方法では、復号音共通信号推定部1251は、音信号精製装置1201に入力されたモノラル復号音信号^XMも用いて、復号音共通信号^YMを得て出力する。すなわち、第1の方法を用いる場合には、復号音共通信号推定部1251には、音信号精製装置1201に入力された第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}とモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}が入力される。復号音共通信号推定部1251は、まず、ステレオの全チャネルの復号音信号の重み付き平均(第1から第Nまでの全チャネルの復号音信号^X1, ..., ^XNの重み付き平均)とモノラル復号音信号の差が最小となる重み係数を得る(ステップS1251A-1)。例えば、復号音共通信号推定部1251は、-1以上1以下のwcandのうち下記の式(41)により得られる値が最小となるwcandを重み係数wとして得る。
Figure JPOXMLDOC01-appb-M000032

復号音共通信号推定部1251は、次に、ステップS1251A-1で得た重み係数を用いたステレオの全チャネルの復号音信号の重み付き平均(第1から第Nまでの全チャネルの復号音信号^X1, ..., ^XNの重み付き平均)を復号音共通信号として得る(ステップS1251A-2)。例えば、復号音共通信号推定部1251は、各サンプル番号tについて、下記の式(42)により復号音共通信号^yM(t)を得る。
Figure JPOXMLDOC01-appb-M000033
[[復号音共通信号を得る第2の方法]]
 第2の方法は、符号化装置500のダウンミックス部510が[[ダウンミックス信号を得る第2の方法]]でダウンミックス信号を得た場合に対応する方法である。第2の方法では、復号音共通信号推定部1251は、後述するステップS1251Bを行うことで復号音共通信号^YMを得る。第2の方法を用いる場合には、音信号精製装置1201は、後述するステップS1251Bで用いるチャネル間相関係数γと先行チャネル情報を得るために、図9に破線で示すようにチャネル間関係情報推定部1231も含み、復号音共通信号推定部1251がステップS1251Bを行う前にチャネル間関係情報推定部1231が下記のステップS1231を行う。
 [[[チャネル間関係情報推定部1231]]]
 チャネル間関係情報推定部1231には、音信号精製装置1201に入力された第一チャネル復号音信号^X1と、音信号精製装置1201に入力された第二チャネル復号音信号^X2と、が少なくとも入力される。チャネル間関係情報推定部1231は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いてチャネル間相関係数γと先行チャネル情報をチャネル間関係情報として得て出力する(ステップS1231)。チャネル間相関係数γは、第一チャネル復号音信号と第二チャネル復号音信号の相関係数である。先行チャネル情報は、第一チャネルと第二チャネルの何れが先行しているかを表す情報である。例えば、チャネル間関係情報推定部1231は、下記のステップS1231-1からステップS1231-3を行う。
 チャネル間関係情報推定部1231は、まず、第2実施形態のチャネル間関係情報推定部1132の説明箇所で例示した方法でチャネル間時間差τを得る(ステップS1231-1)。チャネル間関係情報推定部1231は、次に、第一チャネル復号音信号と、チャネル間時間差τ分だけ当該サンプル列より後にずれた位置にある第二チャネル復号音信号のサンプル列と、の相関値、すなわち、τmaxからτminまでの各候補サンプル数τcandについて計算した相関値γcandのうちの最大値、をチャネル間相関係数γとして得て出力する(ステップS1231-2)。チャネル間関係情報推定部1231は、また、チャネル間時間差τが正の値である場合には、第一チャネルが先行していることを表す情報を先行チャネル情報として得て出力し、チャネル間時間差τが負の値である場合には、第二チャネルが先行していることを表す情報を先行チャネル情報として得て出力する(ステップS1231-3)。チャネル間関係情報推定部1231は、チャネル間時間差τが0である場合には、第一チャネルが先行していることを表す情報を先行チャネル情報として得て出力してもよいし、第二チャネルが先行していることを表す情報を先行チャネル情報として得て出力してもよいが、何れのチャネルも先行していないことを表す情報を先行チャネル情報として得て出力するとよい。
 [[[復号音共通信号推定部1251]]]
 復号音共通信号推定部1251には、音信号精製装置1201に入力された第一チャネル復号音信号^X1と、音信号精製装置1201に入力された第二チャネル復号音信号^X2と、チャネル間関係情報推定部1231が出力したチャネル間相関係数γと、チャネル間関係情報推定部1231が出力した先行チャネル情報と、が入力される。復号音共通信号推定部1251は、復号音共通信号^YMに、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2のうちの先行しているチャネルの復号音信号のほうが、チャネル間相関係数γが大きいほど大きく含まれるように、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を重み付け平均して復号音共通信号^YMを得て出力する(S1251B)。
 例えば、復号音共通信号推定部1251は、対応する各サンプル番号tに対して、チャネル間相関係数γで定まる重みを用いて第一チャネル復号音信号^x1(t)と第二チャネル復号音信号^x2(t)を重み付け加算したものを復号音共通信号^yM(t)とすればよい。具体的には、復号音共通信号推定部1251は、先行チャネル情報が第一チャネルが先行していることを表す情報である場合、すなわち、第一チャネルが先行している場合には、各サンプル番号tについて、^yM(t)=((1+γ)/2)×^x1(t)+((1-γ)/2)×^x2(t)を復号音共通信号^yM(t)として得ればよい。すなわち、復号音共通信号推定部1251は、第一チャネルが先行している場合には、^yM(t)=((1+γ)/2)×^x1(t)+((1-γ)/2)×^x2(t)による系列を復号音共通信号^YMとして得ればよい。復号音共通信号推定部1251は、先行チャネル情報が第二チャネルが先行していることを表す情報である場合、すなわち、第二チャネルが先行している場合には、各サンプル番号tについて、^yM(t)=((1-γ)/2)×^x1(t)+((1+γ)/2)×^x2(t)を復号音共通信号^yM(t)として得ればよい。すなわち、復号音共通信号推定部1251は、第二チャネルが先行している場合には、^yM(t)=((1-γ)/2)×^x1(t)+((1+γ)/2)×^x2(t)による系列を復号音共通信号^YMとして得ればよい。なお、復号音共通信号推定部1251は、先行チャネル情報が何れのチャネルも先行していないことを表す場合には、各サンプル番号tについて、第一チャネル復号音信号^x1(t)と第二チャネル復号音信号^x2(t)を平均した^yM(t)=(^x1(t)+^x2(t))/2を復号音共通信号^yM(t)として得ればよい。すなわち、復号音共通信号推定部1251は、何れのチャネルも先行していない場合には、^yM(t)=(^x1(t)+^x2(t))/2による系列を復号音共通信号^YMとして得ればよい。
[共通信号精製重み推定部1211]
 共通信号精製重み推定部1211は、共通信号精製重みαMを得て出力する(ステップ1211)。共通信号精製重み推定部1211は、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法と同様の方法で、共通信号精製重みαMを得る。共通信号精製重み推定部1211が得る共通信号精製重みαMは、0以上1以下の値である。ただし、共通信号精製重み推定部1211は、フレームごとに後述する方法で共通信号精製重みαMを得るので、全てのフレームで共通信号精製重みαMが0や1になることはない。すなわち、共通信号精製重みαMが0より大きく1未満の値となるフレームが存在する。言い換えると、全てのフレームのうちの少なくとも何れかのフレームでは、共通信号精製重みαMは0より大きく1未満の値である。
 具体的には、下記の第1例から第7例のように、共通信号精製重み推定部1211は、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法において第nチャネル復号音信号^Xnを用いている箇所は、第nチャネル復号音信号^Xnに代えて復号音共通信号^YMを用いて、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法においてステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnを用いている箇所は、ビット数bnに代えてステレオ符号CSのビット数のうちの共通信号に相当するビット数bmを用いて、共通成分信号重みαMを得る。すなわち、下記の第1例から第7例ではモノラル符号CMのビット数bMとステレオ符号CSのビット数のうちの共通信号に相当するビット数bmを用いる。モノラル符号CMのビット数bMを特定する方法は第1実施形態と同じであるので、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmを特定する方法を第1例から第7例を説明する前に説明する。共通信号精製重み推定部1211には、必要に応じて、図9に一点鎖線で示すように、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、音信号精製装置1101に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、が入力される。
[ステレオ符号CSのビット数のうちのビット数bmを特定する方法]
 [[ステレオ符号CSのビット数のうちのビット数bmを特定する第1の方法]]
 共通信号精製重み推定部1211は、ステレオ符号CSのビット数bsと予め定めた0より大きく1未満の値とを乗算した値をbmとして用いる。すなわち、ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsが全てのフレームで同じである場合には、共通信号精製重み推定部1211内の図示しない記憶部にステレオ符号CSのビット数bSと予め定めた0より大きく1未満の値とを乗算した値をビット数bmとして記憶しておけばよい。ステレオ復号部620が用いる復号方式におけるステレオ符号CSのビット数bsがフレームによって異なることがある場合には、共通信号精製重み推定部1211がビット数bsと予め定めた0より大きく1未満の値とを乗算した値をbmとして得るようにすればよい。例えば、共通信号精製重み推定部1211は、チャネル数の逆数を予め定めた0より大きく1未満の値として用いればよい。すなわち、共通信号精製重み推定部1211は、ステレオ符号CSのビット数bsをチャネル数で除算した値をbmとして用いてもよい。
 [[ステレオ符号CSのビット数のうちのビット数bmを特定する第2の方法]]
 共通信号精製重み推定部1211は、チャネル間相関係数γを用いてフレーム毎にbmを推定してもよい。チャネル間の相関が高い場合には、ステレオ符号CSのビット数bSのうちの大半がチャネル間で共通する信号成分を表現するために用いられ、チャネル間の相関が低い場合には、チャネル数に対して均等に近いビット数が用いられていると予想される。したがって、第2の方法においては、共通信号精製重み推定部1211は、チャネル間相関係数γが1に近いほど、ビット数bsに近い値をbmとして得て、チャネル間相関係数γが0に近いほど、bsをチャネル数で除算した値に近い値をbmとして得るようにすればよい。なお、第2の方法を用いる場合には、音信号精製装置1201は、チャネル間相関係数γを得るために図9に破線で示すようにチャネル間関係情報推定部1231も含み、チャネル間関係情報推定部1231は[[復号音共通成分信号を得る第2の方法]]の説明箇所や第2実施形態のチャネル間関係情報推定部1132の説明箇所で上述したようにチャネル間相関係数γを得る。
[[第1例]]
 第1例の共通信号精製重み推定部1211は、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を用いて、下記の式(4-5)により共通信号精製重みαMを得る。
Figure JPOXMLDOC01-appb-M000034
[[第2例]]
 第2例の共通信号精製重み推定部1211は、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を少なくとも用いて、0より大きく1未満の値であり、bmとbMが等しいときには0.5であり、bmがbMよりも多いほど0.5より0に近い値であり、bMがbmよりも多いほど0.5より1に近い値を、共通信号精製重みαMとして得る。
[[第3例]]
 第3例の共通信号精製重み推定部1211は、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMとを用いて、
Figure JPOXMLDOC01-appb-M000035

により得られる補正係数cMと、復号音共通信号^YMのモノラル復号音信号^XMに対する正規化された内積値rMと、を乗算した値cM×rMを共通信号精製重みαMとして得る。
 第3例の共通信号精製重み推定部1211は、例えば、下記のステップS1211-31-nからステップS1211-33-nを行うことで共通信号精製重みαMを得る。共通信号精製重み推定部1211は、まず、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}とモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}から、下記の式(4-6)により復号音共通信号^YMのモノラル復号音信号^XMに対する正規化された内積値rMを得る(ステップS1211-31-n)。
Figure JPOXMLDOC01-appb-M000036

共通信号精製重み推定部1211は、また、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を用いて、式(4-8)により補正係数cMを得る(ステップS1211-32-n)。共通信号精製重み推定部1211は、次に、ステップS1211-31-nで得た正規化された内積値rMとステップS1211-32-nで得た補正係数cMとを乗算した値cM×rMを共通信号精製重みαMとして得る(ステップS1211-33-n)。
[[第4例]]
 第4例の共通信号精製重み推定部1211は、ステレオ符号CSのビット数のうちの共通信号に相当するビット数をbmとし、モノラル符号CMのビット数をbMとして、0以上1以下の値であり、復号音共通信号^YMとモノラル復号音信号^XMの間の相関が高いほど1に近い値であり、当該相関が低いほど0に近い値であるrMと、0より大きく1未満の値であり、bmとbMが同じであるときには0.5であり、bmがbMよりも多いほど0.5より0に近く、bmがbMよりも少ないほど0.5より1に近い値である補正係数cMと、を乗算した値cM×rMを共通信号精製重みαMとして得る。
[[第5例]]
 第5例の共通信号精製重み推定部1211は、下記のステップS1211-51からステップS1211-55を行うことで共通信号精製重みαMを得る。
 共通信号精製重み推定部1211は、まず、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、前のフレームで用いた内積値Em(-1)と、を用いて、下記の式(4-9)により、現在のフレームで用いる内積値Em(0)を得る(ステップS1211-51)。
Figure JPOXMLDOC01-appb-M000037

ここで、εmは、0より大きく1未満の予め定めた値であり、共通信号精製重み推定部1211内に予め記憶されている。なお、共通信号精製重み推定部1211は、得た内積値Em(0)を、「前のフレームで用いた内積値Em(-1)」として次のフレームで用いるために、共通信号精製重み推定部1211内に記憶する。
 共通信号精製重み推定部1211は、また、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、前のフレームで用いたモノラル復号音信号のエネルギーEM(-1)と、を用いて、下記の式(4-10)により、現在のフレームで用いるモノラル復号音信号のエネルギーEM(0)を得る(ステップS1211-52)。
Figure JPOXMLDOC01-appb-M000038

ここで、εMは、0より大きく1未満で予め定めた値であり、共通信号精製重み推定部1211内に予め記憶されている。なお、共通信号精製重み推定部1211は、得たモノラル復号音信号のエネルギーEM(0)を、「前のフレームで用いたモノラル復号音信号のエネルギーEM(-1)」として次のフレームで用いるために、共通信号精製重み推定部1211内に記憶する。
 共通信号精製重み推定部1211は、次に、ステップS1211-51で得た現在のフレームで用いる内積値Em(0)と、ステップS1211-52で得た現在のフレームで用いるモノラル復号音信号のエネルギーEM(0)を用いて、正規化された内積値rMを下記の式(4-11)で得る(ステップS1211-53)。
Figure JPOXMLDOC01-appb-M000039
 共通信号精製重み推定部1211は、また、式(4-8)により補正係数cMを得る(ステップS1211-54)。共通信号精製重み推定部1211は、次に、ステップS1211-53で得た正規化された内積値rMとステップS1211-54で得た補正係数cMとを乗算した値cM×rMを共通信号精製重みαMとして得る(ステップS1211-55)。
 すなわち、第5例の共通信号精製重み推定部1211は、復号音共通信号^YMの各サンプル値^yM(t)とモノラル復号音信号^XMの各サンプル値^xM(t)と前フレームの内積値Em(-1)とを用いて式(4-9)により得られる内積値Em(0)と、モノラル復号音信号^XMの各サンプル値^xM(t)と前フレームのモノラル復号音信号のエネルギーEM(-1)とを用いて式(4-10)により得られるモノラル復号音信号のエネルギーEM(0)と、を用いて式(4-11)により得られる正規化された内積値rMと、フレーム当たりのサンプル数Tとステレオ符号CSのビット数のうちの共通信号に相当するビット数bmとモノラル符号CMのビット数bMとを用いて式(4-8)により得られる補正係数cMと、を乗算した値cM×rMを共通信号精製重みαMとして得る。
[[第6例]]
 第6例の共通信号精製重み推定部1211は、第3例で説明した正規化された内積値rMと補正係数cM、または、第5例で説明した正規化された内積値rMと補正係数cM、と、0より大きく1未満の予め定めた値であるλと、を乗算した値λ×cM×rMを共通信号精製重みαMとして得る。
[[第7例]]
 第7例の共通信号精製重み推定部1211は、第3例で説明した正規化された内積値rMと補正係数cM、または、第5例で説明した正規化された内積値rMと補正係数cM、と、第一チャネル復号音信号と第二チャネル復号音信号の相関係数であるチャネル間相関係数γと、を乗算した値γ×cM×rMを共通信号精製重みαMとして得る。第7例の音信号精製装置1201は、チャネル間相関係数γを得るために図9に破線で示すようにチャネル間関係情報推定部1231も含み、チャネル間関係情報推定部1231は、[[復号音共通成分信号を得る第2の方法]]の説明箇所や第2実施形態のチャネル間関係情報推定部1132の説明箇所で上述したようにチャネル間相関係数γを得る。
[共通信号精製部1221]
 共通信号精製部1221には、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、音信号精製装置1201に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、共通信号精製重み推定部1211が出力した共通信号精製重みαMと、が入力される。共通信号精製部1221は、対応するサンプルtごとに、共通信号精製重みαMとモノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αM×^xM(t)と、共通信号精製重みαMを1から減算した値(1-αM)と復号音共通信号^YMのサンプル値^yM(t)とを乗算した値(1-αM)×^yM(t)と、を加算した値~yM(t)による系列を精製済共通信号~YM={~yM(1), ~yM(2), ..., ~yM(T)}として得て出力する(ステップS1221)。すなわち、~yM(t)=(1-αM)×^yM(t)+αM×^xM(t)である。
[第nチャネル分離結合重み推定部1281-n]
 第nチャネル分離結合重み推定部1281-nには、音信号精製装置1201に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、が入力される。第nチャネル分離結合重み推定部1281-nは、第nチャネル復号音信号^Xnと復号音共通信号^YMとから、第nチャネル復号音信号^Xnの復号音共通信号^YMに対する正規化された内積値を第nチャネル分離結合重みβnとして得る(ステップS1281-n)。第nチャネル分離結合重みβnは、具体的には式(43)の通りである。
Figure JPOXMLDOC01-appb-M000040
[第nチャネル分離結合部1291-n]
 第nチャネル分離結合部1291-nには、音信号精製装置1201に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、共通信号精製部1221が出力した精製済共通信号~YM={~yM(1), ~yM(2), ..., ~yM(T)}と、第nチャネル分離結合重み推定部1281-nが出力した第nチャネル分離結合重みβnと、が入力される。第nチャネル分離結合部1291-nは、対応するサンプルtごとに、第nチャネル復号音信号^Xnのサンプル値^xn(t)から、第nチャネル分離結合重みβnと復号音共通信号^YMのサンプル値^yM(t)とを乗算した値βn×^yM(t)を減算し、第nチャネル分離結合重みβnと精製済共通信号~YMのサンプル値~yM(t)とを乗算した値βn×~yM(t)を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得て出力する(ステップS1291-n)。すなわち、~xn(t)=^xn(t)-βn×^yM(t)+βn×~yM(t)である。
[第4実施形態の変形例]
 音信号精製装置1201がチャネル間関係情報を用いる場合であって、音信号精製装置1201が用いるチャネル間関係情報の少なくとも何れかを復号装置600のステレオ復号部620が得た場合には、復号装置600のステレオ復号部620が得たチャネル間関係情報が音信号精製装置1201に入力されるようにして、音信号精製装置1201は入力されたチャネル間関係情報を用いるようにしてもよい。
 また、音信号精製装置1201がチャネル間関係情報を用いる場合であって、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力したチャネル間関係情報符号CCに音信号精製装置1201が用いるチャネル間関係情報の少なくとも何れかが含まれる場合には、チャネル間関係情報符号CCに含まれる音信号精製装置1201が用いるチャネル間関係情報を表す符号が音信号精製装置1201に入力されるようにして、音信号精製装置1201には図示しないチャネル間関係情報復号部を備えて、チャネル間関係情報復号部がチャネル間関係情報を表す符号を復号してチャネル間関係情報を得て出力するようにしてもよい。
 すなわち、音信号精製装置1201が用いる全てのチャネル間関係情報が、音信号精製装置1201に入力されるかチャネル間関係情報復号部で得らえた場合には、音信号精製装置1201にはチャネル間関係情報推定部1231を備えないでよい。
<第5実施形態>
 第5実施形態の音信号精製装置は、第4実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第5実施形態の音信号精製装置が第4実施形態の音信号精製装置と異なる点は、モノラル復号音信号そのものではなく、モノラル復号音信号を各チャネル用にアップミックスした信号を用いることと、復号音共通信号そのものではなく、復号音共通信号を各チャネル用にアップミックスした信号を用いること、である。以下、第5実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第4実施形態の音信号精製装置と異なる点を中心に、上述した各実施形態の音信号精製装置を適宜参照して、説明する。
≪音信号精製装置1202≫
 第5実施形態の音信号精製装置1202は、図11に例示する通り、チャネル間関係情報推定部1232と復号音共通信号推定部1251と共通信号精製重み推定部1211と共通信号精製部1221と復号音共通信号アップミックス部1262と精製済共通信号アップミックス部1272と第一チャネル分離結合重み推定部1282-1と第一チャネル分離結合部1292-1と第二チャネル分離結合重み推定部1282-2と第二チャネル分離結合部1292-2を含む。音信号精製装置1202は、各フレームについて、図12に例示する通り、ステップS1232とステップS1251とステップS1211とステップS1221とステップS1262とステップS1272と、各チャネルについてのステップS1282-nとステップS1292-nと、を行う。
[チャネル間関係情報推定部1232]
 チャネル間関係情報推定部1232には、音信号精製装置1202に入力された第一チャネル復号音信号^X1と、音信号精製装置1202に入力された第二チャネル復号音信号^X2と、が少なくとも入力される。チャネル間関係情報推定部1232は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いてチャネル間関係情報を得て出力する(ステップS1232)。チャネル間関係情報は、ステレオのチャネル間の関係を表す情報である。チャネル間関係情報の例は、チャネル間時間差τ、チャネル間相関係数γ、先行チャネル情報、である。チャネル間関係情報推定部1232は、複数種類のチャネル間関係情報を得てもよく、例えばチャネル間時間差τとチャネル間相関係数γと先行チャネル情報を得てもよい。チャネル間関係情報推定部1232がチャネル間時間差τを得る方法とチャネル間相関係数γを得る方法としては、例えば、第2実施形態のチャネル間関係情報推定部1132の説明箇所で上述した方法を用いればよい。復号音共通信号推定部1251が先行チャネル情報を用いる場合には、チャネル間関係情報推定部1232は先行チャネル情報を得る。チャネル間関係情報推定部1232が先行チャネル情報を得る方法としては、例えば、第4実施形態のチャネル間関係情報推定部1231の説明箇所で上述した方法を用いればよい。なお、チャネル間関係情報推定部1132の説明箇所で上述した方法で得たチャネル間時間差τには、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報と第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報とが含まれているので、チャネル間関係情報推定部1232が先行チャネル情報も得て出力する場合には、チャネル間時間差τに代えて、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報を得て出力してもよい。
 [復号音共通信号推定部1251]
 復号音共通信号推定部1251は、第4実施形態の復号音共通信号推定部1251と同様に、復号音共通成分信号^YMを得て出力する(ステップS1251)。
[共通信号精製重み推定部1211]
 共通信号精製重み推定部1211は、第4実施形態の共通信号精製重み推定部1211と同様に、共通信号精製重みαMを得て出力する(ステップ1211)。
[共通信号精製部1221]
 共通信号精製部1221は、第4実施形態の共通信号精製部1221と同様に、精製済共通信号~YMを得て出力する(ステップS1221)。
[復号音共通信号アップミックス部1262]
 復号音共通信号アップミックス部1262には、復号音共通信号推定部1251が出力した復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、チャネル間関係情報推定部1232が出力したチャネル間関係情報と、が少なくとも入力される。復号音共通信号アップミックス部1262は、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}とチャネル間関係情報を少なくとも用いたアップミックス処理を行うことにより、復号音共通信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}を得て出力する(ステップS1262)。復号音共通信号アップミックス部1262は、例えば以下の第1の方法または第2の方法で第nチャネルアップミックス済共通信号^YMnを得ればよい。
[[第nチャネルアップミックス済共通信号を得る第1の方法]
 復号音共通信号アップミックス部1262は、第2実施形態のモノラル復号音アップミックス部1172と同じ処理を、モノラル復号音信号^XMを復号音共通信号^YMと読み替え、第nチャネルアップミックス済モノラル復号音信号^XMnを第nチャネルアップミックス済共通信号^YMnと読み替えて行うことで、第nチャネルアップミックス済共通信号^YMnを得る。すなわち、復号音共通信号アップミックス部1262は、第一チャネルが先行している場合には、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}をそのまま第一チャネルアップミックス済共通信号^YM1={^yM1(1), ^yM1(2), ..., ^yM1(T)}として出力し、復号音共通信号を|τ|サンプル遅らせた信号{^yM(1-|τ|), ^yM(2-|τ|), ..., ^yM(T-|τ|)}を第二チャネルアップミックス済共通信号^YM2={^yM2(1), ^yM2(2), ..., ^yM2(T)}として出力する。復号音共通信号アップミックス部1262は、第二チャネルが先行している場合には、復号音共通信号を|τ|サンプル遅らせた信号{^yM(1-|τ|), ^yM(2-|τ|), ..., ^yM(T-|τ|)}を第一チャネルアップミックス済共通信号^YM1={^yM1(1), ^yM1(2), ..., ^yM1(T)}として出力し、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}をそのまま第二チャネルアップミックス済共通信号^YM2={^yM2(1), ^yM2(2), ..., ^yM2(T)}として出力する。復号音共通信号アップミックス部1262は、何れのチャネルも先行していない場合には、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}をそのまま第一チャネルアップミックス済共通信号^YM1={^yM1(1), ^yM1(2), ..., ^yM1(T)}と第二チャネルアップミックス済共通信号^YM2={^yM2(1), ^yM2(2), ..., ^yM2(T)}として出力する。
[[第nチャネルアップミックス済共通信号を得る第2の方法]
 チャネル間の相関が小さい場合には、第1の方法のような復号音共通信号^YMへの時間差の付与だけでは、良好な第nチャネルアップミックス済共通信号^YMnを得られないことがある。そこで、復号音共通信号アップミックス部1262が、チャネル間の相関を考慮して、復号音共通信号^YMと各チャネルの復号音信号^Xnとの重み付き平均をとって第nチャネルアップミックス済共通信号^YMnを得るのが第2の方法である。第2の方法では、復号音共通信号アップミックス部1262は、第1の方法で得られる第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}それぞれを暫定第nチャネルアップミックス済共通信号Y'Mn={y'Mn(1), y'Mn(2), ..., y'Mn(T)}として(すなわち、第1の方法と同じ処理を、第nチャネルアップミックス済共通信号^YMnを暫定第nチャネルアップミックス済共通信号Y'Mnと読み替えて行うことで暫定第nチャネルアップミックス済共通信号Y'Mn={y'Mn(1), y'Mn(2), ..., y'Mn(T)}を得て)、対応するサンプルtごとに、第nチャネル復号音^xn(t)と暫定第nチャネルアップミックス済共通信号y'Mn(t)とチャネル間相関係数γを用いて以下の式(51)により得られる^yMn(n)による系列を第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}として得る。
Figure JPOXMLDOC01-appb-M000041

なお、復号音共通信号アップミックス部1262が第2の方法を行う場合には、図11に破線で示すように、音信号精製装置1202に入力された第一チャネル復号音信号と音信号精製装置1202に入力された第二チャネル復号音信号も復号音共通成分アップミックス部1262に入力される。
[精製済共通信号アップミックス部1272]
 精製済共通信号アップミックス部1272には、共通信号精製部1221が出力した精製済共通信号~YM={~yM(1), ~yM(2), ..., ~yM(T)}と、チャネル間関係情報推定部1232が出力したチャネル間関係情報と、が入力される。精製済共通信号アップミックス部1272は、精製済共通信号~YM={~yM(1), ~yM(2), ..., ~yM(T)}とチャネル間関係情報を用いたアップミックス処理を行うことにより、精製済共通信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済精製済信号~YMn={~yMn(1), ~yMn(2), ..., ~yMn(T)}を得て出力する(ステップS1272)。精製済共通信号アップミックス部1272は、第2実施形態のモノラル復号音アップミックス部1172と同じ処理を、モノラル復号音信号^XMを精製済共通信号~YMと読み替え、第nチャネルアップミックス済モノラル復号音信号^XMnを第nチャネルアップミックス済精製済信号~YMnと読み替えて行えばよい。
[第nチャネル分離結合重み推定部1282-n]
 第nチャネル分離結合重み推定部1282-nには、音信号精製装置1202に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号アップミックス部1262が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、が入力される。第nチャネル分離結合重み推定部1282-nは、第nチャネル復号音信号^Xnと第nチャネルアップミックス済共通信号^YMnとから、第nチャネル復号音信号^Xnの第nチャネルアップミックス済共通信号^YMnに対する正規化された内積値を第nチャネル分離結合重みβnとして得て出力する(ステップS1282-n)。第nチャネル分離結合重みβnは、具体的には式(52)の通りである。
Figure JPOXMLDOC01-appb-M000042
[第nチャネル分離結合部1292-n]
 第nチャネル分離結合部1292-nには、音信号精製装置1202に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号アップミックス部1262が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、精製済共通信号アップミックス部1272が出力した第nチャネルアップミックス済精製済信号~YMn={~yMn(1), ~yMn(2), ..., ~yMn(T)}と、第nチャネル分離結合重み推定部1282-nが出力した第nチャネル分離結合重みβnと、が入力される。第nチャネル分離結合部1292-nは、対応するサンプルtごとに、第nチャネル復号音信号^Xnのサンプル値^xn(t)から、第nチャネル分離結合重みβnと第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値βn×^yMm(t)を減算し、第nチャネル分離結合重みβnと第nチャネルアップミックス済精製済信号~YMnのサンプル値~yMn(t)とを乗算した値βn×~yMn(t)を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得て出力する(ステップS1292-n)。すなわち、~xn(t)=^xn(t)-βn×^yMn(t)+βn×~yMn(t)である。
<第6実施形態>
 第6実施形態の音信号精製装置も、第4実施形態と第5実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第6実施形態の音信号精製装置が第5実施形態の音信号精製装置と異なる点は、チャネル間関係情報を復号音信号からではなく符号から得ることである。以下、第6実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第5実施形態の音信号精製装置と異なる点を説明する。
≪音信号精製装置1203≫
 第6実施形態の音信号精製装置1203は、図13に例示する通り、チャネル間関係情報復号部1243と復号音共通信号推定部1251と共通信号精製重み推定部1211と共通信号精製部1221と復号音共通信号アップミックス部1262と精製済共通信号アップミックス部1272と第一チャネル分離結合重み推定部1282-1と第一チャネル分離結合部1292-1と第二チャネル分離結合重み推定部1282-2と第二チャネル分離結合部1292-2を含む。音信号精製装置1203は、各フレームについて、図14に例示する通り、ステップS1243とステップS1251とステップS1211とステップS1221とステップS1262とステップS1272と、各チャネルについてのステップS1282-nとステップS1292-nと、を行う。第6実施形態の音信号精製装置1203が第5実施形態の音信号精製装置1202と異なる点は、チャネル間関係情報推定部1232に代えてチャネル間関係情報復号部1243を備えて、ステップS1232に代えてステップS1243を行うことである。また、第6実施形態の音信号精製装置1203には、各フレームのチャネル間関係情報符号CCも入力される。チャネル間関係情報符号CCは、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力した符号であってもよいし、上述した符号化装置500のステレオ符号化部530が得て出力したステレオ符号CSに含まれる符号であってもよい。以下、第6実施形態の音信号精製装置1203が第5実施形態の音信号精製装置1202と異なる点について説明する。
[チャネル間関係情報復号部1243]
 チャネル間関係情報復号部1243には、音信号精製装置1203に入力されたチャネル間関係情報符号CCが入力される。チャネル間関係情報復号部1243は、チャネル間関係情報符号CCを復号してチャネル間関係情報を得て出力する(ステップS1243)。チャネル間関係情報復号部1243が得るチャネル間関係情報は、第5実施形態のチャネル間関係情報推定部1232が得るチャネル間関係情報と同じである。
[第6実施形態の変形例]
 チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、ステップS1243で得られるのと同じチャネル間関係情報が、復号装置600のステレオ復号部620内で復号により得られている。したがって、チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、復号装置600のステレオ復号部620が得たチャネル間関係情報が第6実施形態の音信号精製装置1203に入力されるようにして、第6実施形態の音信号精製装置1203はチャネル間関係情報復号部1243を備えずにステップS1243を行わないようにしてもよい。
 また、チャネル間関係情報符号CCの一部だけがステレオ符号CSに含まれる符号である場合には、チャネル間関係情報符号CCのうちのステレオ符号CSに含まれる符号を復号装置600のステレオ復号部620が復号して得たチャネル間関係情報が第6実施形態の音信号精製装置1203に入力されるようにして、第6実施形態の音信号精製装置1203のチャネル間関係情報復号部1243は、ステップS1243として、チャネル間関係情報符号CCのうちのステレオ符号CSに含まれない符号を復号して、音信号精製装置1203に入力されなかったチャネル間関係情報を得て出力するようにすればよい。
 また、音信号精製装置1203の各部が用いるチャネル間関係情報のうちの一部に対応する符号がチャネル間関係情報符号CCに含まれない場合には、第6実施形態の音信号精製装置1203にはチャネル間関係情報推定部1232も備えて、チャネル間関係情報推定部1232がステップS1232も行うようにすればよい。この場合には、チャネル間関係情報推定部1232は、音信号精製装置1203の各部が用いるチャネル間関係情報のうちのチャネル間関係情報符号CCを復号しても得られないチャネル間関係情報を、第5実施形態のステップS1232と同様に得て出力すればよい。
<第7実施形態>
 第7実施形態の音信号精製装置も、第1実施形態から第6実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。以下、第7実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、上述した各実施形態の音信号精製装置を適宜参照して説明する。
 第7実施形態の音信号精製装置1301は、図15に例示する通り、チャネル間関係情報推定部1331と復号音共通信号推定部1351と復号音共通信号アップミックス部1361とモノラル復号音アップミックス部1371と第一チャネル精製重み推定部1311-1と第一チャネル信号精製部1321-1と第一チャネル分離結合重み推定部1381-1と第一チャネル分離結合部1391-1と第二チャネル精製重み推定部1311-2と第二チャネル信号精製部1321-2と第二チャネル分離結合重み推定部1381-2と第二チャネル分離結合部1391-2を含む。音信号精製装置1301は、例えば20msの所定の時間長のフレーム単位で、ステレオの各チャネルについて、ステレオの復号音の全チャネルに共通する信号である復号音共通信号をアップミックスして得た信号であるアップミックス済共通信号と、モノラル復号音信号をアップミックスして得たアップミックス済モノラル復号音信号と、からアップミックス済共通信号を改善した音信号である精製済アップミックス済信号を得て、復号音信号とアップミックス済共通信号と精製済アップミックス済信号とから、復号音信号を改善した音信号である精製済復号音信号を得て出力する。音信号精製装置1301にフレーム単位で入力される各チャネルの復号音信号は、例えば、上述した復号装置600のステレオ復号部620が、モノラル符号CMを復号して得られた情報もモノラル符号CMも用いずに、モノラル符号CMとは異なる符号であるbSビットのステレオ符号CSを復号して得たTサンプルの第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}とTサンプルの第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}である。音信号精製装置1301にフレーム単位で入力されるモノラルの復号音信号は、例えば、上述した復号装置600のモノラル復号部610が、ステレオ符号CSを復号して得られた情報もステレオ符号CSも用いずに、ステレオ符号CSとは異なる符号であるbMビットのモノラル符号CMを復号して得たTサンプルのモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}である。モノラル符号CMは、ステレオ符号CSが由来する音信号と同じ音信号(すなわち、符号化装置500に入力された第一チャネル入力音信号X1と第二チャネル入力音信号X2)に由来する符号ではあるが、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を得る元となった符号(すなわち、ステレオ符号CS)とは異なる符号である。第一チャネルのチャネル番号nを1とし、第二チャネルのチャネル番号nを2とすると、音信号精製装置1301は、各フレームについて、図16に例示する通り、ステップS1331とステップS1351とステップS1361とステップS1371と、各チャネルについてのステップS1311-nとステップS1321-nとステップS1381-nとステップS1391-nと、を行う。
[チャネル間関係情報推定部1331]
 チャネル間関係情報推定部1331には、音信号精製装置1301に入力された第一チャネル復号音信号^X1と、音信号精製装置1301に入力された第二チャネル復号音信号^X2と、が少なくとも入力される。チャネル間関係情報推定部1331は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いてチャネル間関係情報を得て出力する(ステップS1331)。チャネル間関係情報は、ステレオのチャネル間の関係を表す情報である。チャネル間関係情報の例は、チャネル間時間差τ、チャネル間相関係数γ、先行チャネル情報、である。チャネル間関係情報推定部1331は、複数種類のチャネル間関係情報を得てもよく、例えばチャネル間時間差τとチャネル間相関係数γと先行チャネル情報を得てもよい。チャネル間関係情報推定部1331がチャネル間時間差τを得る方法とチャネル間相関係数γを得る方法としては、例えば、第2実施形態のチャネル間関係情報推定部1132の説明箇所で上述した方法を用いればよい。復号音共通信号推定部1351が先行チャネル情報を用いる場合には、チャネル間関係情報推定部1331は先行チャネル情報を得る。チャネル間関係情報推定部1331が先行チャネル情報を得る方法としては、例えば、第4実施形態のチャネル間関係情報推定部1231の説明箇所で上述した方法を用いればよい。なお、チャネル間関係情報推定部1132の説明箇所で上述した方法で得たチャネル間時間差τには、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報と第一チャネルと第二チャネルの何れのチャネルが先行しているかを表す情報とが含まれているので、チャネル間関係情報推定部1331が先行チャネル情報も得て出力する場合には、チャネル間時間差τに代えて、第一チャネルと第二チャネルの時間差に対応するサンプル数|τ|を表す情報を得て出力してもよい。
[復号音共通信号推定部1351]
 復号音共通信号推定部1351には、音信号精製装置1301に入力された第一チャネル復号音信号^X1={^x1(1), ^x1(2), ..., ^x1(T)}と第二チャネル復号音信号^X2={^x2(1), ^x2(2), ..., ^x2(T)}が少なくとも入力される。復号音共通信号推定部1351は、第一チャネル復号音信号^X1と第二チャネル復号音信号^X2を少なくとも用いて、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}を得て出力する(ステップS1351)。復号音共通信号推定部1351が復号音共通信号^YMを得る方法としては、例えば、第4実施形態の復号音共通信号推定部1251の説明箇所で上述した方法を用いればよい。
[復号音共通信号アップミックス部1361]
 復号音共通信号アップミックス部1361には、復号音共通信号推定部1351が出力した復号音共通成分信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}と、チャネル間関係情報推定部1331が出力したチャネル間関係情報と、が少なくとも入力される。復号音共通信号アップミックス部1361は、復号音共通信号^YM={^yM(1), ^yM(2), ..., ^yM(T)}とチャネル間関係情報を少なくとも用いたアップミックス処理を行うことにより、復号音共通信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}を得て出力する(ステップS1361)。復号音共通信号アップミックス部1361は、第5実施形態の復号音共通信号アップミックス部1262と同じ処理を行えばよい。すなわち、例えば、第5実施形態の復号音共通信号アップミックス部1262の説明箇所で上述した第1の方法または第2の方法を行えばよい。なお、復号音共通信号アップミックス部1262が第2の方法を行う場合には、図15に破線で示すように、音信号精製装置1301に入力された第一チャネル復号音信号と音信号精製装置1301に入力された第二チャネル復号音信号も復号音共通信号アップミックス部1361に入力される。
[モノラル復号音アップミックス部1371]
 モノラル復号音アップミックス部1371には、音信号精製装置1301に入力されたモノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}と、チャネル間関係情報推定部1331が出力したチャネル間関係情報と、が入力される。モノラル復号音アップミックス部1371は、モノラル復号音信号^XM={^xM(1), ^xM(2), ..., ^xM(T)}とチャネル間関係情報を用いたアップミックス処理を行うことにより、モノラル復号音信号を各チャネル用にアップミックスした信号である第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}を得て出力する(ステップS1371)。モノラル復号音アップミックス部1371は、第2実施形態のモノラル復号音アップミックス部1172と同じ処理を行えばよい。
[第nチャネル精製重み推定部1311-n]
 第nチャネル精製重み推定部1311-nは、第nチャネル精製重みαMnを得て出力する(ステップ1311-n)。第nチャネル精製重み推定部1311-nは、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法と同様の方法で、第nチャネル精製重みαMnを得る。第nチャネル精製重み推定部1311-nが得る第nチャネル精製重みαMnは、0以上1以下の値である。ただし、第nチャネル精製重み推定部1311-nは、フレームごとに後述する方法で第nチャネル精製重みαMnを得るので、全てのフレームで第nチャネル精製重みαMnが0や1になることはない。すなわち、第nチャネル精製重みαMnが0より大きく1未満の値となるフレームが存在する。言い換えると、全てのフレームのうちの少なくとも何れかのフレームでは、第nチャネル精製重みαMnは0より大きく1未満の値である。
 具体的には、下記の第1例から第7例のように、第nチャネル精製重み推定部1311-nは、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法において第nチャネル復号音信号^Xnを用いている箇所は、第nチャネル復号音信号^Xnに代えて第nチャネルアップミックス済共通信号^YMnを用いて、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法においてモノラル復号音信号^XMを用いている箇所は、モノラル復号音信号^XMに代えて第nチャネルアップミックス済モノラル復号音信号^XMnを用いて、第1実施形態で説明した量子化誤差を最小化する原理に基づく方法においてステレオ符号CSのビット数のうちの第nチャネルに相当するビット数bnを用いている箇所は、ビット数bnに代えてステレオ符号CSのビット数のうちの共通信号に相当するビット数bmを用いて、第nチャネル精製重みαMnを得る。すなわち、下記の第1例から第7例ではモノラル符号CMのビット数bMとステレオ符号CSのビット数のうちの共通信号に相当するビット数bmを用いる。モノラル符号CMのビット数bMを特定する方法は第1実施形態と同じであり、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmを特定する方法は第4実施形態と同じである。第nチャネル精製重み推定部1311-nには、必要に応じて、図15に一点鎖線で示すように、復号音共通信号アップミックス部1361が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、モノラル復号音アップミックス部1371が出力した第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、が入力される。
[[第1例]]
 第1例の第nチャネル精製重み推定部1311-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を用いて、下記の式(7-5)により第nチャネル精製重みαMnを得る。
Figure JPOXMLDOC01-appb-M000043

なお、第1例で得られる第nチャネル精製重みαMnは全てのチャネルで同じ値であるので、音信号精製装置1301が、各チャネルの第nチャネル精製重み推定部1311-nに代えて、全てのチャネルに共通する精製重み推定部1311を備えて、精製重み推定部1311が式(7-5)により全てのチャネルに共通する第nチャネル精製重みαMnを得るようにしてもよい。
[[第2例]]
 第2例の第nチャネル精製重み推定部1311-nは、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を少なくとも用いて、0より大きく1未満の値であり、bmとbMが等しいときには0.5であり、bmがbMよりも多いほど0.5より0に近い値であり、bMがbmよりも多いほど0.5より1に近い値を、第nチャネル精製重みαMnとして得る。なお、第2例で得られる第nチャネル精製重みαMnは全てのチャネルで同じ値であってもよいので、音信号精製装置1301が、各チャネルの第nチャネル精製重み推定部1311-nに代えて、全てのチャネルに共通する精製重み推定部1311を備えて、精製重み推定部1311が上述した条件を満たす全てのチャネルに共通する第nチャネル精製重みαMnを得るようにしてもよい。
[[第3例]]
 第3例の第nチャネル精製重み推定部1311-nは、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMとを用いて、
Figure JPOXMLDOC01-appb-M000044

により得られる補正係数cnと、第nチャネルアップミックス済共通信号^YMnの第nチャネルアップミックス済モノラル復号音信号^XMnに対する正規化された内積値rnと、を乗算した値cn×rnを第nチャネル精製重みαMnとして得る。
 第3例の第nチャネル精製重み推定部1311-nは、例えば、下記のステップS1311-31-nからステップS1311-33-nを行うことで第nチャネル精製重みαMnを得る。第nチャネル精製重み推定部1311-nは、まず、第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}から、下記の式(7-6)により第nチャネルアップミックス済共通信号^YMnの第nチャネルアップミックス済モノラル復号音信号^XMnに対する正規化された内積値rnを得る(ステップS1311-31-n)。
Figure JPOXMLDOC01-appb-M000045

第nチャネル精製重み推定部1311-nは、また、フレーム当たりのサンプル数Tと、ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、モノラル符号CMのビット数bMと、を用いて、式(7-8)により補正係数cnを得る(ステップS1311-32-n)。第nチャネル精製重み推定部1311-nは、次に、ステップS1311-31-nで得た正規化された内積値rnとステップS1311-32-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαMnとして得る(ステップS1311-33-n)。
[[第4例]]
 第4例の第nチャネル精製重み推定部1311-nは、ステレオ符号CSのビット数のうちの共通信号に相当するビット数をbmとし、モノラル符号CMのビット数をbMとして、0以上1以下の値であり、第nチャネルアップミックス済共通信号^YMnと第nチャネルアップミックス済モノラル復号音信号^XMnの間の相関が高いほど1に近い値であり、当該相関が低いほど0に近い値であるrnと、0より大きく1未満の値であり、bmとbMが同じであるときには0.5であり、bmがbMよりも多いほど0.5より0に近く、bmがbMよりも少ないほど0.5より1に近い値である補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαMnとして得る。
[[第5例]]
 第5例の第nチャネル精製重み推定部1311-nは、下記のステップS1311-51-nからステップS1311-55-nを行うことで第nチャネル精製重みαMnを得る。
 第nチャネル精製重み推定部1311-nは、まず、第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、前のフレームで用いた内積値En(-1)と、を用いて、下記の式(7-9)により、現在のフレームで用いる内積値En(0)を得る(ステップS1311-51-n)。
Figure JPOXMLDOC01-appb-M000046

ここで、εnは、0より大きく1未満の予め定めた値であり、第nチャネル精製重み推定部1311-n内に予め記憶されている。なお、第nチャネル精製重み推定部1311-nは、得た内積値En(0)を、「前のフレームで用いた内積値En(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1311-n内に記憶する。
 第nチャネル精製重み推定部1311-nは、また、第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、前のフレームで用いた第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)と、を用いて、下記の式(7-10)により、現在のフレームで用いる第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を得る(ステップS1311-52-n)。
Figure JPOXMLDOC01-appb-M000047

ここで、εMnは、0より大きく1未満で予め定めた値であり、第nチャネル精製重み推定部1311-n内に予め記憶されている。なお、第nチャネル精製重み推定部1311-nは、得た第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を、「前のフレームで用いた第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)」として次のフレームで用いるために、第nチャネル精製重み推定部1311-n内に記憶する。
 第nチャネル精製重み推定部1311-nは、次に、ステップS1311-51-nで得た現在のフレームで用いる内積値En(0)と、ステップS1311-52-nで得た現在のフレームで用いる第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)を用いて、正規化された内積値rnを下記の式(7-11)で得る(ステップS1311-53-n)。
Figure JPOXMLDOC01-appb-M000048
 第nチャネル精製重み推定部1311-nは、また、式(7-8)により補正係数cnを得る(ステップS1311-54-n)。第nチャネル精製重み推定部1311-nは、次に、ステップS1311-53-nで得た正規化された内積値rnとステップS1311-54-nで得た補正係数cnとを乗算した値cn×rnを第nチャネル精製重みαMnとして得る(ステップS1311-55-n)。
 すなわち、第5例の第nチャネル精製重み推定部1311-nは、第nチャネルアップミックス済共通信号^YMnの各サンプル値^yMn(t)と第nチャネルアップミックス済モノラル復号音信号^XMnの各サンプル値^xMn(t)と前フレームの内積値En(-1)とを用いて式(7-9)により得られる内積値En(0)と、第nチャネルアップミックス済モノラル復号音信号^XMnの各サンプル値^xMn(t)と前フレームの第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(-1)とを用いて式(7-10)により得られる第nチャネルアップミックス済モノラル復号音信号のエネルギーEMn(0)と、を用いて式(7-11)により得られる正規化された内積値rnと、フレーム当たりのサンプル数Tとステレオ符号CSのビット数のうちの共通信号に相当するビット数bmとモノラル符号CMのビット数bMとを用いて式(7-8)により得られる補正係数cnと、を乗算した値cn×rnを第nチャネル精製重みαMnとして得る。
[[第6例]]
 第6例の第nチャネル精製重み推定部1311-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、0より大きく1未満の予め定めた値であるλと、を乗算した値λ×cn×rnを第nチャネル精製重みαMnとして得る。
[[第7例]]
 第7例の第nチャネル精製重み推定部1311-nは、第3例で説明した正規化された内積値rnと補正係数cn、または、第5例で説明した正規化された内積値rnと補正係数cn、と、チャネル間関係情報推定部1331が得たチャネル間相関係数γと、を乗算した値γ×cn×rnを第nチャネル精製重みαMnとして得る。
[第nチャネル信号精製部1321-n]
 第nチャネル信号精製部1321-nには、復号音共通信号アップミックス部1361が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、モノラル復号音アップミックス部1371が出力した第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、第nチャネル精製重み推定部1311-nが出力した第nチャネル精製重みαMnと、が入力される。第nチャネル信号精製部1321-nは、対応するサンプルtごとに、第nチャネル精製重みαMnと第nチャネルアップミックス済モノラル復号音信号^XMnのサンプル値^xMn(t)とを乗算した値αMn×^xMn(t)と、第nチャネル精製重みαMnを1から減算した値(1-αMn)と第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値(1-αMn)×^yMn(t)と、を加算した値~yMn(t)による系列を第nチャネル精製済アップミックス済信号~YMn={~yMn(1), ~yMn(2), ..., ~yMn(T)}として得て出力する(ステップS1321-n)。すなわち、~yMn(t)=(1-αMn)×^yMn(t)+αMn×^xMn(t)である。
[第nチャネル分離結合重み推定部1381-n]
 第nチャネル分離結合重み推定部1381-nには、音信号精製装置1301に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号アップミックス部1361が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、が入力される。第nチャネル分離結合重み推定部1381-nは、第nチャネル復号音信号^Xnと第nチャネルアップミックス済共通信号^YMnとから、第nチャネル復号音信号^Xnの第nチャネルアップミックス済共通信号^YMnに対する正規化された内積値を第nチャネル分離結合重みβnとして得て出力する(ステップS1381-n)。第nチャネル分離結合重みβnは、具体的には式(71)の通りである。
Figure JPOXMLDOC01-appb-M000049
[第nチャネル分離結合部1391-n]
 第nチャネル分離結合部1391-nには、音信号精製装置1301に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、復号音共通信号アップミックス部1361が出力した第nチャネルアップミックス済共通信号^YMn={^yMn(1), ^yMn(2), ..., ^yMn(T)}と、第nチャネル信号精製部1321-nが出力した第nチャネル精製済アップミックス済信号~YMn={~yMn(1), ~yMn(2), ..., ~yMn(T)}と、第nチャネル分離結合重み推定部1381-nが出力した第nチャネル分離結合重みβnと、が入力される。第nチャネル分離結合部1391-nは、対応するサンプルtごとに、第nチャネル復号音信号^Xnのサンプル値^xn(t)から、第nチャネル分離結合重みβnと第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値βn×^yMm(t)を減算し、第nチャネル分離結合重みβnと第nチャネル精製済アップミックス済信号~YMnのサンプル値~yMn(t)とを乗算した値βn×~yMn(t)を加算した値~xn(t)による系列を第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}として得て出力する(ステップS1391-n)。すなわち、~xn(t)=^xn(t)-βn×^yMn(t)+βn×~yMn(t)である。
<第8実施形態>
 第8実施形態の音信号精製装置も、第7実施形態の音信号精製装置と同様に、ステレオの各チャネルの復号音信号を、当該復号音信号を得る元となった符号とは異なる符号から得られたモノラルの復号音信号を用いて改善するものである。第8実施形態の音信号精製装置が第7実施形態の音信号精製装置と異なる点は、チャネル間関係情報を復号音信号からではなく符号から得ることである。以下、第8実施形態の音信号精製装置について、ステレオのチャネルの個数が2である場合の例を用いて、第7実施形態の音信号精製装置と異なる点を説明する。
≪音信号精製装置1302≫
 第8実施形態の音信号精製装置1302は、図17に例示する通り、チャネル間関係情報復号部1342と復号音共通信号推定部1351と復号音共通信号アップミックス部1361とモノラル復号音アップミックス部1371と第一チャネル精製重み推定部1311-1と第一チャネル信号精製部1321-1と第一チャネル分離結合重み推定部1381-1と第一チャネル分離結合部1391-1と第二チャネル精製重み推定部1311-2と第二チャネル信号精製部1321-2と第二チャネル分離結合重み推定部1381-2と第二チャネル分離結合部1391-2を含む。音信号精製装置1302は、各フレームについて、図18に例示する通り、ステップS1342とステップS1351とステップS1361とステップS1371と、各チャネルについてのステップS1311-nとステップS1321-nとステップS1381-nとステップS1391-nと、を行う。第8実施形態の音信号精製装置1302が第7実施形態の音信号精製装置1301と異なる点は、チャネル間関係情報推定部1331に代えてチャネル間関係情報復号部1342を備えて、ステップS1331に代えてステップS1342を行うことである。また、第8実施形態の音信号精製装置1302には、各フレームのチャネル間関係情報符号CCも入力される。チャネル間関係情報符号CCは、上述した符号化装置500が備える図示しないチャネル間関係情報符号化部が得て出力した符号であってもよいし、上述した符号化装置500のステレオ符号化部530が得て出力したステレオ符号CSに含まれる符号であってもよい。以下、第8実施形態の音信号精製装置1302が第7実施形態の音信号精製装置1301と異なる点について説明する。
[チャネル間関係情報復号部1342]
 チャネル間関係情報復号部1342には、音信号精製装置1302に入力されたチャネル間関係情報符号CCが入力される。チャネル間関係情報復号部1342は、チャネル間関係情報符号CCを復号してチャネル間関係情報を得て出力する(ステップS1342)。チャネル間関係情報復号部1342が得るチャネル間関係情報は、第7実施形態のチャネル間関係情報推定部1331が得るチャネル間関係情報と同じである。
[第8実施形態の変形例]
 チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、ステップS1342で得られるのと同じチャネル間関係情報が、復号装置600のステレオ復号部620内で復号により得られている。したがって、チャネル間関係情報符号CCがステレオ符号CSに含まれる符号である場合には、復号装置600のステレオ復号部620が得たチャネル間関係情報が第8実施形態の音信号精製装置1302に入力されるようにして、第8実施形態の音信号精製装置1302はチャネル間関係情報復号部1342を備えずにステップS1342を行わないようにしてもよい。
 また、チャネル間関係情報符号CCの一部だけがステレオ符号CSに含まれる符号である場合には、チャネル間関係情報符号CCのうちのステレオ符号CSに含まれる符号を復号装置600のステレオ復号部620が復号して得たチャネル間関係情報が第8実施形態の音信号精製装置1302に入力されるようにして、第8実施形態の音信号精製装置1302のチャネル間関係情報復号部1342は、ステップS1342として、チャネル間関係情報符号CCのうちのステレオ符号CSに含まれない符号を復号して、音信号精製装置1302に入力されなかったチャネル間関係情報を得て出力するようにすればよい。
 また、音信号精製装置1302の各部が用いるチャネル間関係情報のうちの一部に対応する符号がチャネル間関係情報符号CCに含まれない場合には、第8実施形態の音信号精製装置1302にはチャネル間関係情報推定部1331も備えて、チャネル間関係情報推定部1331がステップS1331も行うようにすればよい。この場合には、チャネル間関係情報推定部1331は、ステップS1331として、音信号精製装置1302の各部が用いるチャネル間関係情報のうちのチャネル間関係情報符号CCを復号しても得られないチャネル間関係情報を、第7実施形態のステップS1331と同様に得て出力すればよい。
<第9実施形態>
 入力音信号を符号化・復号して得られる復号音信号は、符号化処理による歪みによって高い周波数成分の位相が入力音信号に対して回転している。モノラル復号音信号を得た符号化/復号方式とステレオの各チャネルの復号音信号を得た符号化/復号方式とは独立した異なる符号化/復号方式であることから、モノラル復号部610が得たモノラル復号音信号とステレオ復号部620が得たステレオの各チャネルの復号音信号の高域成分は相関が小さく、上述した音信号精製装置の信号精製部や各チャネルの分離結合部における時間領域での重み付き加算の処理(以下、便宜的に「時間領域での信号精製処理」という)により高域成分のエネルギーが低下してしまうことがあり、これにより各チャネルの精製済復号音信号がこもって聴こえる場合がある。信号精製処理前の信号の高域成分を用いて高域のエネルギーを補償することでこのこもりを解消するのが、第9実施形態の音信号高域補償装置である。
 なお、高域成分のエネルギーの低下によって音信号がこもって聴こえる場合があるのは、上述した音信号精製装置による時間領域での信号精製処理を各チャネルの復号音信号に対して施して得た精製済復号音信号に限られず、上述した音信号精製装置による信号精製処理以外の時間領域での信号処理を各チャネルの復号音信号に対して施して得られた音信号もこもって聴こえる場合がある。第9実施形態の音信号高域補償装置では、上述した音信号精製装置による時間領域での信号精製処理であるか否かに関わらず、時間領域での信号処理前の信号の高域成分を用いて高域のエネルギーを補償することで、こもりを解消することができる。
 以下では、上述した音信号精製装置による信号精製処理を各チャネルの復号音信号に対して施して得た精製済復号音信号に限らず、時間領域での信号処理を各チャネルの復号音信号に対して施して得られた音信号も便宜的に精製済復号音信号と呼んで、第9実施形態の音信号高域補償装置について、ステレオのチャネルの個数が2である場合の例を用いて説明する。
≪音信号高域補償装置201≫
 第9実施形態の音信号高域補償装置201は、図19に例示する通り、第一チャネル高域補償利得推定部211-1と第一チャネル高域補償部221-1と第二チャネル高域補償利得推定部211-2と第二チャネル高域補償部221-2を含む。音信号高域補償装置201には、上述した何れかの音信号精製装置が出力した第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2と、復号装置600のステレオ復号部620が出力した第一チャネル復号音信号^X1と第二チャネル復号音信号^X2と、が入力される。音信号高域補償装置201は、例えば20msの所定の時間長のフレーム単位で、ステレオの各チャネルについて、当該チャネルの精製済復号音信号と当該チャネルの復号音信号を用いて、当該チャネルの精製済復号音信号の高域のエネルギーを補償した音信号である当該チャネルの補償済復号音信号を得て出力する。第一チャネルのチャネル番号n(チャネルのインデックスn)を1とし、第二チャネルのチャネル番号nを2とすると、音信号高域補償装置201は、各フレームについて、図20に例示するステップS211-nとステップS221-nを各チャネルについて行う。なお、ここでいう高域とは、符号化処理によっても位相がある程度は維持される低い周波数の帯域(いわゆる「低域」)、ではない帯域のことである。高域は、低域と比べて、入力音信号と復号音信号の位相が違っていても、聴感上の差異は知覚されにくいため、符号化処理により約2kHz以上の成分は位相が回転していることが多い。したがって、音信号高域補償装置201は、例えば、周波数が約2kHz以上の成分を高域として扱えばよい。ただし、約2kHz以上を高域とするのは必須ではなく、音信号高域補償装置201は、各信号に含まれる可能性がある周波数帯域を2つに分割する予め定めた周波数以上の成分を高域として扱えばよい。これは以降の実施形態や変形例でも同様である。なお、音信号高域補償装置201に入力される第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2が上述した何れかの音信号精製装置が出力した信号であるのは必須ではなく、復号装置600のステレオ復号部620が出力した第一チャネル復号音信号^X1と第二チャネル復号音信号^X2に対して時間領域の信号処理を施して得られた音信号である第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2であればよい。これも以降の実施形態や変形例でも同様である。
[第nチャネル高域補償利得推定部211-n]
 第nチャネル高域補償利得推定部211-nには、音信号高域補償装置201に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置201に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、が入力される。第nチャネル高域補償利得推定部211-nは、第nチャネル復号音信号^Xnと第nチャネル精製済復号音信号~Xnから第nチャネル高域補償利得ρnを得て出力する(ステップS211-n)。第nチャネル高域補償利得ρnは、後述する第nチャネル高域補償部221-nが得る第nチャネル補償済復号音信号~X'nの高域のエネルギーを、第nチャネル復号音信号^Xnの高域のエネルギーに、近付けるための値である。第nチャネル高域補償利得推定部211-nが第nチャネル高域補償利得ρnを得る方法については後述する。
[第nチャネル高域補償部221-n]
 第nチャネル高域補償部221-nには、信号高域補償装置201に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置201に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、第nチャネル高域補償利得推定部211-nが出力した第nチャネル高域補償利得ρnと、が入力される。第nチャネル高域補償部221-nは、第nチャネル精製済復号音信号~Xnと、第nチャネル復号音信号^Xnの高域成分に第nチャネル高域補償利得ρnを乗算した信号と、を加算した信号を第nチャネル補償済復号音信号~X'n={~x'n(1), ~x'n(2), ..., ~x'n(T)}として得て出力する(ステップS221-n)。
 例えば、第nチャネル高域補償部221-nは、第nチャネル復号音信号^Xnをハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得て、対応するサンプルtごとに、第nチャネル精製済復号音信号~Xnのサンプル値~xn(t)と、第nチャネル高域補償利得ρnと第nチャネル補償用信号^X'nのサンプル値^x'n(t)とを乗算した値ρn×x'n(t)と、を加算した値~x'n(t)による系列を第nチャネル補償済復号音信号~X'n={~x'n(1), ~x'n(2), ..., ~x'n(T)}として得て出力する。すなわち、~x'n(t)=~xn(t)+ρn×^x'n(t)である。ハイパスフィルタとしては、各信号に含まれる可能性がある周波数帯域を2つに分割する予め定めた周波数以上を通過帯域とするハイパスフィルタを用いればよく、例えば、周波数が2kHz以上の成分を高域として扱う場合には、2kHz以上を通過帯域とするハイパスフィルタを用いればよい。
[第nチャネル高域補償利得推定部211-nが第nチャネル高域補償利得ρnを得る方法]
 第nチャネル高域補償利得推定部211-nは、例えば下記の第1の方法や第2の方法で第nチャネル高域補償利得ρnを得る。
[[第nチャネル高域補償利得ρnを得る第1の方法]]
 第1の方法では、第nチャネル高域補償利得推定部211-nは、第nチャネル精製済復号音信号~Xnの高域のエネルギーが第nチャネル復号音信号^Xnの高域のエネルギーよりも小さいほど大きな値の第nチャネル高域補償利得ρnを得る。例えば、第nチャネル高域補償利得推定部211-nは、第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnを第nチャネル復号音信号^Xnの高域のエネルギー^EXnで除算した値を1から減算した値(1-~EXn/^EXn)の平方根を第nチャネル高域補償利得ρnとして得る。すなわち、第nチャネル高域補償利得推定部211-nは、第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnと、第nチャネル復号音信号^Xnの高域のエネルギー^EXnと、を用いて下記の式(91)により第nチャネル高域補償利得ρnを得る。
Figure JPOXMLDOC01-appb-M000050
[[第nチャネル高域補償利得ρnを得る第2の方法]]
 信号をハイパスフィルタに通すと、信号の各周波数成分の位相が回転する。そのため、第nチャネル補償用信号^X'nと第nチャネル精製済復号音信号~Xnでは高域成分の位相が合わず、第1の方法で得た第nチャネル高域補償利得ρnを用いて第nチャネル高域補償部221-nが各サンプルtについて~x'n(t)=~xn(t)+ρn×^x'n(t)との加算をして第nチャネル補償済復号音信号~X'nを得ても、第nチャネル補償用信号^X'nの高域成分と第nチャネル精製済復号音信号~Xnの高域成分が打ち消し合うことで、第nチャネル補償済復号音信号~X'nの高域のエネルギーが第nチャネル復号音信号^Xnの高域のエネルギーに想定していたほど近付かない可能性がある。そこで、上述した加算で高域成分が打ち消し合うことがあったとしても、第nチャネル補償済復号音信号~X'nの高域のエネルギーを第nチャネル復号音信号^Xnの高域のエネルギーに近付けられるようにしたのが第2の方法である。第2の方法では、第nチャネル高域補償利得推定部211-nは、例えば下記のステップS211-21-nからステップS211-23-nを行うことで、第nチャネル高域補償利得ρnを得る。
 第nチャネル高域補償利得推定部211-nは、まず、第nチャネル復号音信号^Xnを第nチャネル高域補償部221-nが用いるのと同じ特性のハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得る(ステップS211-21-n)。第nチャネル高域補償利得推定部211-nは、次に、対応するサンプルtごとに、第nチャネル精製済復号音信号~Xnのサンプル値~xn(t)と、第nチャネル補償用信号^X'nのサンプル値^x'n(t)と、を加算した値~x"n(t)による系列を第nチャネル暫定加算信号~X"n={~x"n(1), ~x"n(2), ..., ~x"n(T)}として得る(ステップS211-22-n)。すなわち、~x"n(t)=~xn(t)+^x'n(t)である。第nチャネル高域補償利得推定部211-nは、次に、第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnが第nチャネル復号音信号^Xnの高域のエネルギー^EXnよりも小さいほど大きな値であり、かつ、第nチャネル精製済復号音信号~Xnの高域のエネルギーと第nチャネル暫定加算信号~X"nの高域のエネルギーとの差が第nチャネル復号音信号^Xnの高域のエネルギー^EXnよりも小さいほど大きな値である、第nチャネル高域補償利得ρnを得る(ステップS211-23-n)。例えば、第nチャネル高域補償利得推定部211-nは、第nチャネル復号音信号^Xnの高域のエネルギー^EXnと、第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnと、第nチャネル暫定加算信号~X"nの高域のエネルギー~EX"nから第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnを減算した値(~EX"n-~EXn)と、を用いて、下記の式(92)により第nチャネル高域補償利得ρnを得る。
Figure JPOXMLDOC01-appb-M000051

ただし、^ρn 2は下記の式(92a)により得られる値であり、μnは下記の式(92b)により得られる値である。
Figure JPOXMLDOC01-appb-M000052

Figure JPOXMLDOC01-appb-M000053
 もし、第nチャネル補償用信号^X'nの高域成分と第nチャネル精製済復号音信号~Xnの高域成分が加算によりエネルギーを打ち消し合わない場合には、第nチャネル暫定加算信号~X"nの高域のエネルギー~EX"nから第nチャネル精製済復号音信号~Xnの高域のエネルギー~EXnを減算した値(~EX"n-~EXn)は第nチャネル復号音信号^Xnの高域のエネルギー^EXnと等しくなるため、μnは0となり、式(92)で得られる第nチャネル高域補償利得ρnは[[第nチャネル高域補償利得ρnを得る第1の方法]]の式(91)で得られる第nチャネル高域補償利得ρnと等しくなる。また、第nチャネル補償用信号^X'nの高域成分と第nチャネル精製済復号音信号~Xnの高域成分が加算によりエネルギーを打ち消し合うほどμnは0より大きな値となり、式(92)で得られる第nチャネル高域補償利得ρnは[[第nチャネル高域補償利得ρnを得る第1の方法]]の式(91)で得られる第nチャネル高域補償利得ρnよりも大きな値となる。したがって、第nチャネル補償用信号^X'nの高域成分と第nチャネル精製済復号音信号~Xnの高域成分は加算によりエネルギーの何らかの打ち消し合いは生じると想定されることからすると、第2の方法では、第nチャネル高域補償利得推定部211-nは、式(91)で得られる値より大きな値を第nチャネル高域補償利得ρnとして得ているともいえる。
 なお、第nチャネル高域補償利得推定部211-nは、式(92)に代えて、下記の式(93)や下記の式(94)で第nチャネル高域補償利得ρnを得てもよい。式(94)のAは予め定めた正の値であり、1の近傍の値であることが望ましい。
Figure JPOXMLDOC01-appb-M000054

Figure JPOXMLDOC01-appb-M000055
 上述した第2の方法の例では、第nチャネル高域補償部221-nが用いるのと同じ第nチャネル補償用信号^X'nを第nチャネル高域補償利得推定部211-nがステップS211-21-nで得ている。したがって、第nチャネル高域補償利得推定部211-nがステップS211-21-nで得た第nチャネル補償用信号^X'nを出力するようにして、第nチャネル高域補償部221-nには、信号高域補償装置201に入力された第nチャネル復号音信号^Xnに代えて、第nチャネル高域補償利得推定部211-nが出力した第nチャネル補償用信号^X'nが入力されるようにしてもよい。この場合には、第nチャネル高域補償部221-nは第nチャネル補償用信号^X'nを得るハイパスフィルタ処理は行わないでよい。また逆に、第nチャネル高域補償部221-nがハイパスフィルタ処理により得た第nチャネル補償用信号^X'nを出力するようにして、第nチャネル高域補償利得推定部211-nには、第nチャネル高域補償部221-nが出力した第nチャネル補償用信号^X'nも入力されるようにしてもよい。この場合には、第nチャネル高域補償利得推定部211-nは、第nチャネル補償用信号^X'nを得るハイパスフィルタ処理は行わないでよい。もちろん、信号高域補償装置201に図示しないハイパスフィルタ部を備えて、ハイパスフィルタ部が第nチャネル復号音信号^Xnをハイパスフィルタに通して第nチャネル補償用信号^X'nを得て出力し、第nチャネル高域補償利得推定部211-nと第nチャネル高域補償部221-nに第nチャネル補償用信号^X'nが入力されるようにして、第nチャネル高域補償利得推定部211-nと第nチャネル高域補償部221-nが第nチャネル補償用信号^X'nを得るハイパスフィルタ処理を行わないようにしてもよい。すなわち、信号高域補償装置201は、第nチャネル復号音信号^Xnをハイパスフィルタに通した信号を第nチャネル補償用信号^X'nとして第nチャネル高域補償利得推定部211-nと第nチャネル高域補償部221-nが用いることができる構成であれば、どのような構成を採用してもよい。
<第10実施形態>
 符号化装置500のモノラル符号化部520がステレオ符号化部530の各チャネルよりも高いビットレートで符号化を行っている場合には、復号装置600のモノラル復号部610が得たモノラル復号音信号^XMを基にした第nチャネルモノラル復号音アップミックス信号^XMnのほうが、復号装置600のステレオ復号部620が得た第nチャネル復号音信号^Xnよりも音質が高く、高域の補償に用いる信号として適している場合がある。そこで、第9実施形態の音信号高域補償装置が高域の補償に用いた第nチャネル復号音信号^Xnに代えて第nチャネルモノラル復号音アップミックス信号^XMnを高域の補償に用いるのが第10実施形態の音信号高域補償装置である。以下、第10実施形態の音信号高域補償装置について、ステレオのチャネルの個数が2である場合の例を用いて、第9実施形態の音信号高域補償装置と異なる点を中心に説明する。
≪音信号高域補償装置202≫
第10実施形態の音信号高域補償装置202は、図21に例示する通り、第一チャネル高域補償利得推定部212-1と第一チャネル高域補償部222-1と第二チャネル高域補償利得推定部212-2と第二チャネル高域補償部222-2を含む。音信号高域補償装置202には、上述した何れかの音信号精製装置が出力した第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2と、復号装置600のステレオ復号部620が出力した第一チャネル復号音信号^X1と第二チャネル復号音信号^X2と、上述した何れかの音信号精製装置が出力した第一チャネルアップミックス済モノラル復号音信号^XM1と第二チャネルアップミックス済モノラル復号音信号^XM2と、が入力される。
 すなわち、音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合に、モノラル復号音アップミックス部が得た各チャネルのアップミックス済モノラル復号音信号^XMnを音信号精製装置が出力して音信号高域補償装置202に入力されるようにする。なお、音信号精製装置がモノラル復号音アップミックス部を備えない場合については第10実施形態の変形例で後述する。
 音信号高域補償装置202は、例えば20msの所定の時間長のフレーム単位で、ステレオの各チャネルについて、当該チャネルの精製済復号音信号と当該チャネルの復号音信号と当該チャネルのアップミックス済モノラル復号音信号を用いて、当該チャネルの精製済復号音信号の高域のエネルギーを補償した音信号である当該チャネルの補償済復号音信号を得て出力する。第一チャネルのチャネル番号n(チャネルのインデックスn)を1とし、第二チャネルのチャネル番号nを2とすると、音信号高域補償装置202は、各フレームについて、図20に例示するステップS212-nとステップS222-nを各チャネルについて行う。
[第nチャネル高域補償利得推定部212-n]
 第nチャネル高域補償利得推定部212-nには、音信号高域補償装置202に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置202に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、が少なくとも入力される。第nチャネル高域補償利得推定部212-nは、第nチャネル復号音信号^Xnと第nチャネル精製済復号音信号~Xnを少なくとも用いて第nチャネル高域補償利得ρnを得て出力する(ステップS212-n)。第nチャネル高域補償利得推定部212-nは、例えば第9実施形態で説明した第1の方法や下記の第2の方法で第nチャネル高域補償利得ρnを得る。
[[第nチャネル高域補償利得ρnを得る第2の方法]]
 第2の方法は、第9実施形態の第2の方法で第nチャネル復号音信号^Xnから第nチャネル補償用信号^X'nを得ていた処理に代えて、第nチャネルアップミックス済モノラル復号音信号^XMnから第nチャネル補償用信号^X'nを得る処理を行う方法である。このため、第2の方法を用いる場合には、図21に破線で示したように、第nチャネル高域補償利得推定部212-nには、音信号高域補償装置202に入力された第nチャネルアップミックス済モノラル復号音信号^XMnも入力される。第2の方法では、第nチャネル高域補償利得推定部212-nは、例えば、第9実施形態の第2の方法のステップS211-21-nに代えて下記のステップS212-21-nを行ってから、第9実施形態の第2の方法と同じステップS211-22-nとステップS211-23-nを行うことで、第nチャネル高域補償利得ρnを得る。すなわち、第nチャネル高域補償利得推定部212-nは、まず、第nチャネルアップミックス済モノラル復号音信号^XMnを第nチャネル高域補償部222-nが用いるのと同じ特性のハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得て(ステップS212-21-n)、次に第9実施形態の第2の方法の説明箇所で上述したステップS211-22-nとステップS211-23-nを行う。
[第nチャネル高域補償部222-n]
 第nチャネル高域補償部222-nは、第9実施形態の第nチャネル高域補償部221-nが用いた第nチャネル復号音信号^Xnに代えて、第nチャネルアップミックス済モノラル復号音信号^XMnを用いて第nチャネル補償済復号音信号~X'nを得る。第nチャネル高域補償部222-nには、信号高域補償装置202に入力された第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、音信号高域補償装置202に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、第nチャネル高域補償利得推定部212-nが出力した第nチャネル高域補償利得ρnと、が入力される。第nチャネル高域補償部222-nは、第nチャネル精製済復号音信号~Xnと、第nチャネルアップミックス済モノラル復号音信号^XMnの高域成分に第nチャネル高域補償利得ρnを乗算した信号と、を加算した信号を第nチャネル補償済復号音信号~X'n={~x'n(1), ~xn' (2), ..., ~x'n(T)}として得て出力する(ステップS222-n)。
 例えば、第nチャネル高域補償部222-nは、第nチャネルアップミックス済モノラル復号音信号^XMnをハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得て、対応するサンプルtごとに、第nチャネル精製済復号音信号~Xnのサンプル値~xn(t)と、第nチャネル高域補償利得ρnと第nチャネル補償用信号^X'nのサンプル値^x'n(t)とを乗算した値ρn×x'n(t)と、を加算した値~x'n(t)による系列を第nチャネル補償済復号音信号~X'n={~x'n(1), ~x'n(2), ..., ~x'n(T)}として得て出力する。すなわち、~x'n(t)=~xn(t)+ρn×^x'n(t)である。
 なお、第9実施形態と同様に、第nチャネル高域補償利得推定部212-nが[[第nチャネル高域補償利得ρnを得る第2の方法]]に例示した方法を用いる場合には、第nチャネル高域補償利得推定部212-nと第nチャネル高域補償部222-nの何れか一方が第nチャネルアップミックス済モノラル復号音信号^XMnをハイパスフィルタに通して第nチャネル補償用信号^X'nを得て出力するようにして、もう一方では、第nチャネル補償用信号^X'nを得るハイパスフィルタ処理を行わずに、他方が得た第nチャネル補償用信号^X'nを用いるようにしてもよい。また、信号高域補償装置202に図示しないハイパスフィルタ部を備えて、ハイパスフィルタ部が第nチャネルアップミックス済モノラル復号音信号^XMnをハイパスフィルタに通して第nチャネル補償用信号^X'nを得て出力するようにして、第nチャネル高域補償利得推定部212-nと第nチャネル高域補償部222-nは、第nチャネル補償用信号^X'nを得るハイパスフィルタ処理を行わずに、ハイパスフィルタ部が得た第nチャネル補償用信号^X'nを用いるようにしてもよい。すなわち、信号高域補償装置202は、第nチャネルアップミックス済モノラル復号音信号^XMnをハイパスフィルタに通した信号を第nチャネル補償用信号^X'nとして第nチャネル高域補償利得推定部212-nと第nチャネル高域補償部222-nが用いることができる構成であれば、どのような構成を採用してもよい。
[第10実施形態の変形例]
 第10実施形態では音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合について説明したが、音信号精製装置がモノラル復号音アップミックス部を備えずに各チャネルのアップミックス済モノラル復号音信号^XMnを得ていない場合には、音信号精製装置202は、第10実施形態で用いた各チャネルのアップミックス済モノラル復号音信号^XMnに代えて、復号装置600のモノラル復号部610が出力したモノラル復号音信号^XMを用いればよい。また、音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合でも、音信号精製装置202は、第10実施形態で用いた各チャネルのアップミックス済モノラル復号音信号^XMnに代えて、復号装置600のモノラル復号部610が出力したモノラル復号音信号^XMを用いてもよい。
<第11実施形態>
 第nチャネル復号音信号^Xnと第nチャネルアップミックス済モノラル復号音信号^XMnの何れを高域の補償に用いるかをビットレートに応じて選択してもよい。この形態を第11実施形態として、ステレオのチャネルの個数が2である場合の例を用いて、第9実施形態の音信号高域補償装置及び第10実施形態の音信号高域補償装置と異なる点を中心に説明する。
≪音信号高域補償装置203≫
 第11実施形態の音信号高域補償装置203は、図22に例示する通り、第一チャネル信号選択部233-1と第一チャネル高域補償利得推定部213-1と第一チャネル高域補償部223-1と第二チャネル信号選択部233-2と第二チャネル高域補償利得推定部213-2と第二チャネル高域補償部223-2を含む。音信号高域補償装置203には、上述した何れかの音信号精製装置が出力した第一チャネル精製済復号音信号~X1と第二チャネル精製済復号音信号~X2と、復号装置600のステレオ復号部620が出力した第一チャネル復号音信号^X1と第二チャネル復号音信号^X2と、上述した何れかの音信号精製装置が出力した第一チャネルアップミックス済モノラル復号音信号^XM1と第二チャネルアップミックス済モノラル復号音信号^XM2と、ビットレート情報と、が入力される。
 ビットレート情報は、各フレームについてのモノラル符号化部520とモノラル復号部610のビットレートに対応する情報と、ステレオ符号化部530とステレオ復号部620のチャネル当たりのビットレートに対応する情報、である。各フレームについてのモノラル符号化部520とモノラル復号部610のビットレートに対応する情報は、例えば、各フレームのモノラル符号CMのビット数bMである。各フレームについてのステレオ符号化部530とステレオ復号部620のビットレートに対応する情報は、例えば、各フレームのステレオ符号CSのビット数bsのうちの各チャネルのビット数bnである。なお、ビット数bMやビット数bnが全てのフレームで同じである場合には、音信号高域補償装置203にビットレート情報を入力する必要は無く、第一チャネル信号選択部233-1内の図示しない記憶部と第二チャネル信号選択部233-2内の図示しない記憶部にビットレート情報を予め記憶しておけばよい。
 音信号高域補償装置203は、例えば20msの所定の時間長のフレーム単位で、ステレオの各チャネルについて、当該チャネルの精製済復号音信号と当該チャネルの復号音信号と当該チャネルのアップミックス済モノラル復号音信号とビットレート情報を用いて、当該チャネルの精製済復号音信号の高域のエネルギーを補償した音信号である当該チャネルの補償済復号音信号を得て出力する。第一チャネルのチャネル番号n(チャネルのインデックスn)を1とし、第二チャネルのチャネル番号nを2とすると、音信号高域補償装置203は、各フレームについて、図23に例示するステップS233-nとステップS213-nとステップS223-nを各チャネルについて行う。
 [第nチャネル信号選択部233-n]
 第nチャネル信号選択部233-nには、音信号高域補償装置203に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置203に入力された第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}と、音信号高域補償装置203に入力されたビットレート情報が入力される。ただし、第nチャネル信号選択部233-n内の図示しない記憶部にビットレート情報が予め記憶されている場合には、ビットレート情報は入力されなくてよい。第nチャネル信号選択部233-nは、ステレオ符号化部530とステレオ復号部620のチャネル当たりのビットレートのほうがモノラル符号化部520とモノラル復号部610のビットレートよりも高い場合、すなわち、bnがbMより大きい場合には、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}を選択して第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}として出力し、ステレオ符号化部530とステレオ復号部620のチャネル当たりのビットレートのほうがモノラル符号化部520とモノラル復号部610のビットレートよりも低い場合、すなわち、bnがbMより小さい場合には、第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}を選択して第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}として出力する(ステップS233-n)。第nチャネル信号選択部233-nは、モノラル符号化部520とモノラル復号部610のビットレートとステレオ符号化部530とステレオ復号部620のチャネル当たりのビットレートが同じである場合、すなわち、bMとbnが同じ値である場合には、第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と第nチャネルアップミックス済モノラル復号音信号^XMn={^xMn(1), ^xMn(2), ..., ^xMn(T)}の何れを選択して第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}として出力してもよい。
[第nチャネル高域補償利得推定部213-n]
 第nチャネル高域補償利得推定部213-nには、音信号高域補償装置203に入力された第nチャネル復号音信号^Xn={^xn(1), ^xn(2), ..., ^xn(T)}と、音信号高域補償装置203に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、が少なくとも入力される。第nチャネル高域補償利得推定部213-nは、第nチャネル復号音信号^Xnと第nチャネル精製済復号音信号~Xnを少なくとも用いて第nチャネル高域補償利得ρnを得て出力する(ステップS213-n)。第nチャネル高域補償利得推定部213-nは、例えば第9実施形態で説明した第1の方法や下記の第2の方法で第nチャネル高域補償利得ρnを得る。
[[第nチャネル高域補償利得ρnを得る第2の方法]]
 第2の方法を用いる場合には、図22に破線で示したように、第nチャネル高域補償利得推定部213-nには、第nチャネル信号選択部233-nが得た第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}も入力される。第2の方法では、第nチャネル高域補償利得推定部213-nは、例えば、第9実施形態の第2の方法のステップS211-21-nに代えて下記のステップS213-21-nを行ってから、第9実施形態の第2の方法と同じステップS211-22-nとステップS211-23-nを行うことで、第nチャネル高域補償利得ρnを得る。すなわち、第nチャネル高域補償利得推定部213-nは、まず、第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}を第nチャネル高域補償部223-nが用いるのと同じ特性のハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得て(ステップS213-21-n)、次に第9実施形態の第2の方法の説明箇所で上述したステップS211-22-nとステップS211-23-nを行う。
[第nチャネル高域補償部223-n]
 第nチャネル高域補償部223-nは、第nチャネル選択信号^XSnを用いて第nチャネル補償済復号音信号~X'nを得る。第nチャネル高域補償部223-nには、第nチャネル信号選択部233-nが得た第nチャネル選択信号^XSn={^xSn(1), ^xSn(2), ..., ^xSn(T)}と、音信号高域補償装置203に入力された第nチャネル精製済復号音信号~Xn={~xn(1), ~xn(2), ..., ~xn(T)}と、第nチャネル高域補償利得推定部213-nが出力した第nチャネル高域補償利得ρnと、が入力される。第nチャネル高域補償部223-nは、第nチャネル精製済復号音信号~Xnと、第nチャネル選択信号^XSnの高域成分に第nチャネル高域補償利得ρnを乗算した信号と、を加算した信号を第nチャネル補償済復号音信号~X'n={~x'n(1), ~xn' (2), ..., ~x'n(T)}として得て出力する(ステップS223-n)。
 例えば、第nチャネル高域補償部223-nは、第nチャネル選択信号^XSnをハイパスフィルタに通して第nチャネル補償用信号^X'n={^x'n(1), ^x'n(2), ..., ^x'n(T)}を得て、対応するサンプルtごとに、第nチャネル精製済復号音信号~Xnのサンプル値~xn(t)と、第nチャネル高域補償利得ρnと第nチャネル補償用信号^X'nのサンプル値^x'n(t)とを乗算した値ρn×x'n(t)と、を加算した値~x'n(t)による系列を第nチャネル補償済復号音信号~X'n={~x'n(1), ~x'n(2), ..., ~x'n(T)}として得て出力する。すなわち、~x'n(t)=~xn(t)+ρn×^x'n(t)である。
 なお、第9実施形態及び第10実施形態と同様に、第nチャネル高域補償利得推定部213-nが[[第nチャネル高域補償利得ρnを得る第2の方法]]に例示した方法を用いる場合には、第nチャネル高域補償利得推定部213-nと第nチャネル高域補償部223-nの何れか一方が第nチャネル選択信号^XSnをハイパスフィルタに通して第nチャネル補償用信号^X'nを得て出力するようにして、もう一方では、第nチャネル補償用信号^X'nを得るハイパスフィルタ処理を行わずに、他方が得た第nチャネル補償用信号^X'nを用いるようにしてもよい。また、信号高域補償装置203に図示しないハイパスフィルタ部を備えて、ハイパスフィルタ部が第nチャネル選択信号^XSnをハイパスフィルタに通して第nチャネル補償用信号^X'nを得て出力するようにして、第nチャネル高域補償利得推定部213-nと第nチャネル高域補償部223-nは、第nチャネル補償用信号^X'nを得るハイパスフィルタ処理を行わずに、ハイパスフィルタ部が得た第nチャネル補償用信号^X'nを用いるようにしてもよい。すなわち、信号高域補償装置203は、第nチャネル選択信号^XSnをハイパスフィルタに通した信号を第nチャネル補償用信号^X'nとして第nチャネル高域補償利得推定部213-nと第nチャネル高域補償部223-nが用いることができる構成であれば、どのような構成を採用してもよい。
[第11実施形態の変形例]
 第11実施形態では音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合について説明したが、音信号精製装置がモノラル復号音アップミックス部を備えずに各チャネルのアップミックス済モノラル復号音信号^XMnを得ていない場合には、音信号精製装置203は、第11実施形態で用いた各チャネルのアップミックス済モノラル復号音信号^XMnに代えて、復号装置600のモノラル復号部610が出力したモノラル復号音信号^XMを用いればよい。また、音信号精製装置がモノラル復号音アップミックス部を備えて各チャネルのアップミックス済モノラル復号音信号^XMnを得ている場合でも、音信号精製装置203は、第11実施形態で用いた各チャネルのアップミックス済モノラル復号音信号^XMnに代えて、復号装置600のモノラル復号部610が出力したモノラル復号音信号^XMを用いてもよい。
<第12実施形態>
 第12実施形態として、上述した各実施形態及び変形例に基づく様々な形態を説明する。
[チャネル数]
 上述した各実施形態及び変形例では、説明を簡単化するために、2個のチャネルを扱う例で説明した。しかし、チャネル数はこの限りではなく2以上であればよい。このチャネル数をN(Nは2以上の整数)とすると、上述した各実施形態及び変形例は、チャネル数の2をNと読み替えて実施することができる。具体的には、上述した各実施形態及び変形例において、“-n”が付された各部/各ステップは、1からNまでの各チャネルに対応するN個のものを含めるようにし、添え字などの“n”との記載が付されているものは、1からNまでの各チャネル番号に対応するN通りのものを含めるようにすることで、チャネル数Nの音信号精製装置やチャネル数Nの音信号高域補償装置とすることができる。ただし、上述した音信号精製装置の各実施形態及び変形例のうちのチャネル間時間差τやチャネル間相関係数γを用いて例示した処理を含む部分については、2個のチャネルに限定されることがある。
[音信号後処理装置]
 第1実施形態から第8実施形態及び各変形例の何れかの音信号精製装置は、復号により得られた音信号を処理する装置であるので、音信号後処理装置であるといえる。すなわち、図24に例示するように、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかが音信号後処理装置301であるともいえる(図25もあわせて参照)。また、図24に例示するように、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかを音信号精製部として含む装置が音信号後処理装置301であるともいえる。
 同様に、第1実施形態から第8実施形態及び各変形例の何れかの音信号精製装置と第9実施形態から第11実施形態及び各変形例の何れかの音信号高域補償装置を組み合わせた装置も、復号により得られた音信号を処理する装置であるので、音信号後処理装置であるといえる。すなわち、図26に例示するように、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかと、第9実施形態から第11実施形態及び各変形例の音信号高域補償装置201、202、203の何れかと、を組み合わせた装置が音信号後処理装置302であるともいえる(図27もあわせて参照)。また、図26に例示するように、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかを音信号精製部として含み、第9実施形態から第11実施形態及び各変形例の音信号高域補償装置201、202、203の何れかを音信号高域補償部として含む装置が音信号後処理装置302であるともいえる。
[音信号復号装置]
 第1実施形態から第8実施形態及び各変形例の何れかの音信号精製装置は、モノラル復号部610とステレオ復号部620とともに音信号復号装置に含めることができる。すなわち、図28に例示するように、モノラル復号部610と、ステレオ復号部620と、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかと、を含むように音信号復号装置601を構成してもよい(図29もあわせて参照)。また、図28に例示するように、モノラル復号部610とステレオ復号部620に加えて、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかを音信号精製部として含むように音信号復号装置601を構成してもよい。
 同様に、第1実施形態から第8実施形態及び各変形例の何れかの音信号精製装置と第9実施形態から第11実施形態及び各変形例の何れかの音信号高域補償装置を組み合わせたものも、モノラル復号部610とステレオ復号部620とともに音信号復号装置に含めることができる。すなわち、図30に例示するように、モノラル復号部610と、ステレオ復号部620と、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかと、第9実施形態から第11実施形態及び各変形例の音信号高域補償装置201、202、203の何れかと、を含むように音信号復号装置602を構成してもよい(図31もあわせて参照)。また、図30に例示するように、モノラル復号部610とステレオ復号部620に加えて、第1実施形態から第8実施形態及び各変形例の音信号精製装置1101、1102、1103、1201、1202、1203、1301、1302の何れかを音信号精製部として含み、第9実施形態から第11実施形態及び各変形例の音信号高域補償装置201、202、203の何れかを音信号高域補償部として含むように音信号復号装置602を構成してもよい。
[プログラム及び記録媒体]
 上述した各装置の各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図33に示すコンピュータ5000の記憶部5020に読み込ませ、演算処理部5010、入力部5030、出力部5040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部5050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部5050に格納されたプログラムを記憶部5020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部5020に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。さらに、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、実行の順を入れ替えてもよい場合には、記載の順とは逆順に時系列に実行されるとしてもよい。

Claims (17)

  1. フレームごとに、ステレオ符号CSを復号して得たステレオの各チャネルの復号音信号である第nチャネル復号音信号^Xn(nは1以上N以下の各整数)と、前記ステレオ符号CSとは異なる符号であるモノラル符号CMを復号して得たモノラルの復号音信号であるモノラル復号音信号^XMと、を少なくとも用いて、前記ステレオの前記各チャネルの音信号である第nチャネル精製済復号音信号~Xnを得る音信号精製方法であって、
    前記第nチャネル復号音信号^Xnは、前記モノラル符号CMを復号して得た情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して得たものであり、
    フレームごとに、1以上N以下の全ての第nチャネル復号音信号^Xnを少なくとも用いて、前記ステレオの全チャネルに共通する信号である復号音共通信号^YMを得る復号音共通信号推定ステップと、
    フレームごとに、対応するサンプルtごとに、共通信号精製重みαMと前記モノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αM×^xM(t)と、前記共通信号精製重みαMを1から減算した値(1-αM)と前記復号音共通信号^YMのサンプル値^yM(t)とを乗算した値(1-αM)×^yM(t)と、を加算した値~yM(t)=(1-αM)×^yM(t)+αM×^xM(t)による系列を精製済共通信号~YMとして得る共通信号精製ステップと、
    フレームごとに、前記復号音共通信号^YMと、ステレオのチャネル間の関係を表す情報であるチャネル間関係情報と、を用いたアップミックス処理により、前記復号音共通信号^YMを各チャネル用にアップミックスした信号である第nチャネルアップミックス済共通信号^YMnを得る復号音共通信号アップミックスステップと、
    フレームごとに、前記精製済共通信号~YMと、ステレオのチャネル間の関係を表す情報と、を用いたアップミックス処理により、前記精製済共通信号~YMを各チャネル用にアップミックスした信号である第nチャネルアップミックス済精製済信号~YMnを得る精製済共通信号アップミックスステップと、
    前記各チャネルnについて、フレームごとに、前記第nチャネル復号音信号^Xnの前記第nチャネルアップミックス済共通信号^YMnに対する正規化された内積値を第nチャネル分離結合重みβnとして得る第nチャネル分離結合重み推定ステップと、
    前記各チャネルnについて、フレームごとに、対応するサンプルtごとに、前記第nチャネル復号音信号^Xnのサンプル値^xn(t)から、前記第nチャネル分離結合重みβnと前記第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値βn×^yMn(t)を減算し、前記第nチャネル分離結合重みβnと前記第nチャネルアップミックス済精製済信号~YMnのサンプル値~yMn(t)とを乗算した値βn×~yMn(t)を加算した値~xn(t)=^xn(t)-βn×^yMn(t)+βn×~yMn(t)による系列を前記第nチャネル精製済復号音信号~Xnとして得る第nチャネル分離結合ステップと、
    を含むことを特徴とする音信号精製方法。
  2. 請求項1に記載の音信号精製方法であって、
    前記チャネル数Nは2であり、
    前記チャネル間関係情報には、第1チャネルと第2チャネルのチャネル間の時間差に対応するサンプル数|τ|を表す情報と、第1チャネルと第2チャネルの何れが先行しているかを表す情報が含まれており、
    前記復号音共通信号アップミックスステップは、
    第1チャネルが先行している場合には、前記復号音共通信号をそのまま前記第1チャネルアップミックス済共通信号^YM1として得て、前記復号音共通信号を|τ|サンプル遅らせた信号を前記第2チャネルアップミックス済共通信号^YM2として得て、
    第2チャネルが先行している場合には、前記復号音共通信号を|τ|サンプル遅らせた信号を前記第1チャネルアップミックス済共通信号^YM1として得て、前記復号音共通信号をそのまま前記第2チャネルアップミックス済共通信号^YM2として得る
    ことを特徴とする音信号精製方法。
  3. 請求項1に記載の音信号精製方法であって、
    前記チャネル数Nは2であり、
    前記チャネル間関係情報には、第1チャネルと第2チャネルのチャネル間の時間差に対応するサンプル数|τ|を表す情報と、第1チャネルと第2チャネルの何れが先行しているかを表す情報と、前記第1チャネル復号音信号と前記第2チャネル復号音信号の相関係数であるチャネル間相関係数γが含まれており、
    前記復号音共通信号アップミックスステップは、
    第1チャネルが先行している場合には、前記復号音共通信号をそのまま暫定第1チャネルアップミックス済共通信号Y'M1として、前記復号音共通信号を|τ|サンプル遅らせた信号を暫定第2チャネルアップミックス済共通信号Y'M2として、
    第2チャネルが先行している場合には、前記復号音共通信号を|τ|サンプル遅らせた信号を暫定第1チャネルアップミックス済共通信号Y'M1として、前記復号音共通信号をそのまま暫定第2チャネルアップミックス済共通信号Y'M2として、
    前記各チャネルnについて、前記暫定第nチャネルアップミックス済共通信号Y'Mnのサンプル値y'Mn(t)と、前記第nチャネル復号音信号^Xnのサンプル値^xn(t)と、前記チャネル間相関係数γと、に基づく^yMN(t)=(1-γ)×^xn(t)+γ×y'Mn(t)による系列を前記第nチャネルアップミックス済共通信号^YMnとして得る
    ことを特徴とする音信号精製方法。
  4. 請求項1から3の何れかに記載の音信号精製方法であって、
    前記復号音共通信号推定ステップは、
    第1から第Nまでの全チャネルの前記復号音信号^X1, ..., ^XNの重み付き平均と前記モノラル復号音信号^XMの差が最小となる重み係数を得て、
    得た前記重み係数を用いた第1から第Nまでの全チャネルの前記復号音信号^X1, ..., ^XNの重み付き平均を前記復号音共通信号^YMとして得る
    ことを特徴とする音信号精製方法。
  5. 請求項1から3の何れかに記載の音信号精製方法であって、
    前記チャネル数Nは2であり、
    前記復号音共通信号推定ステップは、
    前記第1チャネル復号音信号^X1のサンプル値^x1(t)と、前記第2チャネル復号音信号^X2のサンプル値^x2(t)と、第1チャネルと第2チャネルのチャネル間相関係数γと、を用いて、
    第1チャネルと第2チャネルの何れが先行しているかを表す情報に基づいて、
    第1チャネルが先行している場合には、^yM(t)=((1+γ)/2)×^x1(t)+((1-γ)/2)×^x2(t)による系列を前記復号音共通信号^YMとして得て、
    第2チャネルが先行している場合には、^yM(t)=((1-γ)/2)×^x1(t)+((1+γ)/2)×^x2(t)による系列を前記復号音共通信号^YMとして得て、
    何れのチャネルも先行していない場合には、^yM(t)=(^x1(t)+^x2(t))/2による系列を前記復号音共通信号^YMとして得る
    ことを特徴とする音信号精製方法。
  6. 請求項1から5の何れかに記載の音信号精製方法であって、
    フレームごとに、
    前記フレーム当たりのサンプル数Tと、前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、前記モノラル符号CMのビット数bMと、を用いて、
    Figure JPOXMLDOC01-appb-M000001

    により前記共通信号精製重みαMを得る共通信号精製重み推定ステップ
    を更に含むことを特徴とする音信号精製方法。
  7. 請求項1から5の何れかに記載の音信号精製方法であって、
    フレームごとに、
    前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、前記モノラル符号CMのビット数bMと、を少なくとも用いて、0より大きく1未満の値であり、bmとbMが等しいときには0.5であり、bmがbMよりも多いほど0.5より0に近い値であり、bMがbmよりも多いほど0.5より1に近い値を、前記共通信号精製重みαMとして得る共通信号精製重み推定ステップ
    を更に含むことを特徴とする音信号精製方法。
  8. 請求項1から5の何れかに記載の音信号精製方法であって、
    フレームごとに、
    前記復号音共通信号^YMの前記モノラル復号音信号^XMに対する正規化された内積値rMと、
    前記フレーム当たりのサンプル数Tと、前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、前記モノラル符号CMのビット数bMと、を用いて
    Figure JPOXMLDOC01-appb-M000002

    より得られる補正係数cMと、
    を乗算した値cM×rMを前記共通信号精製重みαMとして得る共通信号精製重み推定ステップ
    を更に含むことを特徴とする音信号精製方法。
  9. 請求項1から5の何れかに記載の音信号精製方法であって、
    フレームごとに、
    前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数をbmとし、前記モノラル符号CMのビット数をbMとして、
    前記復号音共通信号^YMと前記モノラル復号音信号^XMの間の相関が高いほど1に近い値であり、前記相関が低いほど0に近い値であるrMと、
    0より大きく1未満の値であり、bmとbMが同じであるときには0.5であり、bmがbMよりも多いほど0.5より0に近く、bmがbMよりも少ないほど0.5より1に近い値である補正係数cMと、を乗算した値cM×rMを前記共通信号精製重みαMとして得る共通信号精製重み推定ステップ
    を更に含むことを特徴とする音信号精製方法。
  10. 請求項1から5の何れかに記載の音信号精製方法であって、
    Tは前記フレーム当たりのサンプル数であり、εmとεMはそれぞれ0より大きく1未満の値であり、
    フレームごとに、
    前記復号音共通信号^YMの各サンプル値^yM(t)と前記モノラル復号音信号^XMの各サンプル値^xM(t)と前フレームの内積値Em(-1)とを用いて
    Figure JPOXMLDOC01-appb-M000003

    により得られる内積値Em(0)と、
    前記モノラル復号音信号^XMの各サンプル値^xM(t)と前フレームの前記モノラル復号音信号のエネルギーEM(-1)とを用いて
    Figure JPOXMLDOC01-appb-M000004

    により得られる前記モノラル復号音信号のエネルギーEM(0)と、を用いて
    Figure JPOXMLDOC01-appb-M000005

    により得られる正規化された内積値rMと、
    前記フレーム当たりのサンプル数Tと、前記ステレオ符号CSのビット数のうちの共通信号に相当するビット数bmと、前記モノラル符号CMのビット数bMとを用いて
    Figure JPOXMLDOC01-appb-M000006

    により得られる補正係数cMと、
    を乗算した値cM×rMを前記共通信号精製重みαMとして得る共通信号精製重み推定ステップ
    を更に含むことを特徴とする音信号精製方法。
  11. 請求項8または10に記載の音信号精製方法であって、
    前記共通信号精製重み推定ステップは、
    前記正規化された内積値rMと、前記補正係数cMと、0より大きく1未満の予め定めた値であるλと、を乗算した値λ×cM×rMを前記共通信号精製重みαMとして得る
    ことを特徴とする音信号精製方法。
  12. 請求項8または10に記載の音信号精製方法であって、
    前記チャネル数Nは2であり、
    前記共通信号精製重み推定ステップは、
    前記正規化された内積値rMと、前記補正係数cMと、前記第1チャネル復号音信号と前記第2チャネル復号音信号の相関係数であるチャネル間相関係数γと、を乗算した値γ×cM×rMを前記共通信号精製重みαMとして得る
    ことを特徴とする音信号精製方法。
  13. 請求項1から12の何れかに記載の音信号精製方法を音信号精製ステップとして含む音信号復号方法であって、
    前記モノラル符号CMを復号して得られた情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して前記各チャネルnの前記第nチャネル復号音信号^Xnを得るステレオ復号ステップと、
    前記モノラル符号CMを復号して前記モノラル復号音信号^XMを得るモノラル復号ステップと、
    を更に含むことを特徴とする音信号復号方法。
  14. フレームごとに、ステレオ符号CSを復号して得たステレオの各チャネルの復号音信号である第nチャネル復号音信号^Xn(nは1以上N以下の各整数)と、前記ステレオ符号CSとは異なる符号であるモノラル符号CMを復号して得たモノラルの復号音信号であるモノラル復号音信号^XMと、を少なくとも用いて、前記ステレオの前記各チャネルの音信号である第nチャネル精製済復号音信号~Xnを得る音信号精製装置であって、
    前記第nチャネル復号音信号^Xnは、前記モノラル符号CMを復号して得た情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して得たものであり、
    フレームごとに、1以上N以下の全ての第nチャネル復号音信号^Xnを少なくとも用いて、前記ステレオの全チャネルに共通する信号である復号音共通信号^YMを得る復号音共通信号推定部と、
    フレームごとに、対応するサンプルtごとに、共通信号精製重みαMと前記モノラル復号音信号^XMのサンプル値^xM(t)とを乗算した値αM×^xM(t)と、前記共通信号精製重みαMを1から減算した値(1-αM)と前記復号音共通信号^YMのサンプル値^yM(t)とを乗算した値(1-αM)×^yM(t)と、を加算した値~yM(t)=(1-αM)×^yM(t)+αM×^xM(t)による系列を精製済共通信号~YMとして得る共通信号精製部と、
    フレームごとに、前記復号音共通信号^YMと、ステレオのチャネル間の関係を表す情報であるチャネル間関係情報と、を用いたアップミックス処理により、前記復号音共通信号^YMを各チャネル用にアップミックスした信号である第nチャネルアップミックス済共通信号^YMnを得る復号音共通信号アップミックス部と、
    フレームごとに、前記精製済共通信号~YMと、ステレオのチャネル間の関係を表す情報と、を用いたアップミックス処理により、前記精製済共通信号~YMを各チャネル用にアップミックスした信号である第nチャネルアップミックス済精製済信号~YMnを得る精製済共通信号アップミックス部と、
    前記各チャネルnについて、フレームごとに、前記第nチャネル復号音信号^Xnの前記第nチャネルアップミックス済共通信号^YMnに対する正規化された内積値を第nチャネル分離結合重みβnとして得る第nチャネル分離結合重み推定部と、
    前記各チャネルnについて、フレームごとに、対応するサンプルtごとに、前記第nチャネル復号音信号^Xnのサンプル値^xn(t)から、前記第nチャネル分離結合重みβnと前記第nチャネルアップミックス済共通信号^YMnのサンプル値^yMn(t)とを乗算した値βn×^yMn(t)を減算し、前記第nチャネル分離結合重みβnと前記第nチャネルアップミックス済精製済信号~YMnのサンプル値~yMn(t)とを乗算した値βn×~yMn(t)を加算した値~xn(t)=^xn(t)-βn×^yMn(t)+βn×~yMn(t)による系列を前記第nチャネル精製済復号音信号~Xnとして得る第nチャネル分離結合部と、
    を含むことを特徴とする音信号精製装置。
  15. 請求項14に記載の音信号精製装置を音信号精製部として含む音信号復号装置であって、
    前記モノラル符号CMを復号して得られた情報も前記モノラル符号CMも用いずに、前記ステレオ符号CSを復号して前記各チャネルnの前記第nチャネル復号音信号^Xnを得るステレオ復号部と、
    前記モノラル符号CMを復号して前記モノラル復号音信号^XMを得るモノラル復号部と、
    を更に含むことを特徴とする音信号復号装置。
  16. 請求項1から12の何れかに記載の音信号精製方法または請求項13に記載の音信号復号方法をコンピュータに実行させるためのプログラム。
  17. 請求項1から12の何れかに記載の音信号精製方法または請求項13に記載の音信号復号方法をコンピュータに実行させるためのプログラムを記録した記録媒体。
PCT/JP2020/041399 2020-11-05 2020-11-05 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体 WO2022097236A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022560570A JP7537512B2 (ja) 2020-11-05 2020-11-05 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
PCT/JP2020/041399 WO2022097236A1 (ja) 2020-11-05 2020-11-05 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
US18/032,536 US20240119947A1 (en) 2020-11-05 2020-11-05 Sound signal refinement method, sound signal decode method, apparatus thereof, program, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/041399 WO2022097236A1 (ja) 2020-11-05 2020-11-05 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
WO2022097236A1 true WO2022097236A1 (ja) 2022-05-12

Family

ID=81457031

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/041399 WO2022097236A1 (ja) 2020-11-05 2020-11-05 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体

Country Status (3)

Country Link
US (1) US20240119947A1 (ja)
JP (1) JP7537512B2 (ja)
WO (1) WO2022097236A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005117132A (ja) * 2003-10-03 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> 音声信号パケット通信方法、音声信号パケット送信方法、受信方法、これらの装置、そのプログラムおよび記録媒体
JP2005202052A (ja) * 2004-01-14 2005-07-28 Nec Corp チャンネル数可変オーディオ配信システム、オーディオ配信装置、オーディオ受信装置
WO2007116809A1 (ja) * 2006-03-31 2007-10-18 Matsushita Electric Industrial Co., Ltd. ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005117132A (ja) * 2003-10-03 2005-04-28 Nippon Telegr & Teleph Corp <Ntt> 音声信号パケット通信方法、音声信号パケット送信方法、受信方法、これらの装置、そのプログラムおよび記録媒体
JP2005202052A (ja) * 2004-01-14 2005-07-28 Nec Corp チャンネル数可変オーディオ配信システム、オーディオ配信装置、オーディオ受信装置
WO2007116809A1 (ja) * 2006-03-31 2007-10-18 Matsushita Electric Industrial Co., Ltd. ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法

Also Published As

Publication number Publication date
US20240119947A1 (en) 2024-04-11
JP7537512B2 (ja) 2024-08-21
JPWO2022097236A1 (ja) 2022-05-12

Similar Documents

Publication Publication Date Title
WO2021181976A1 (ja) 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
WO2022097244A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2021181974A1 (ja) 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
WO2022097236A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097239A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097235A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097237A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097238A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097233A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097241A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097242A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097240A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2022097234A1 (ja) 音信号精製方法、音信号復号方法、これらの装置、プログラム及び記録媒体
WO2022097243A1 (ja) 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体
WO2023032065A1 (ja) 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム
WO2024142357A1 (ja) 音信号処理装置、音信号処理方法、プログラム
WO2024142360A1 (ja) 音信号処理装置、音信号処理方法、プログラム
WO2024142359A1 (ja) 音信号処理装置、音信号処理方法、プログラム
WO2024142358A1 (ja) 音信号処理装置、音信号処理方法、プログラム
WO2021181472A1 (ja) 音信号符号化方法、音信号復号方法、音信号符号化装置、音信号復号装置、プログラム及び記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20960789

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022560570

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18032536

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20960789

Country of ref document: EP

Kind code of ref document: A1