WO2008072524A1 - オーディオ信号符号化方法及び復号化方法 - Google Patents

オーディオ信号符号化方法及び復号化方法 Download PDF

Info

Publication number
WO2008072524A1
WO2008072524A1 PCT/JP2007/073503 JP2007073503W WO2008072524A1 WO 2008072524 A1 WO2008072524 A1 WO 2008072524A1 JP 2007073503 W JP2007073503 W JP 2007073503W WO 2008072524 A1 WO2008072524 A1 WO 2008072524A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
subframe
encoding
value
frame
Prior art date
Application number
PCT/JP2007/073503
Other languages
English (en)
French (fr)
Inventor
Mineo Tsushima
Akihisa Kawamura
Original Assignee
Panasonic Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corporation filed Critical Panasonic Corporation
Priority to JP2008549262A priority Critical patent/JP5238512B2/ja
Priority to US12/438,915 priority patent/US8160890B2/en
Publication of WO2008072524A1 publication Critical patent/WO2008072524A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Definitions

  • the present invention relates to an audio signal encoding method and decoding method.
  • Conventional audio signal encoding and decoding methods include known ISO / IEC international standard systems, commonly known as the Moving Picture Experts Group (MPEG) system, and the like.
  • MPEG Moving Picture Experts Group
  • ISO / IEC14496-3 commonly known as MPEG-4 GA (General Audio Coding) (see Non-Patent Document 1), etc.
  • MPEG-4 GA General Audio Coding
  • One example is a low-delay technique that reduces the delay in encoding and decoding.
  • Patent Document 1 it is a low delay AAC (Advanced Audio Coding) system defined in the International Standard for 130/1 ⁇ 4? 4—4 Audio (ISO / IEC 14496-3).
  • AAC Advanced Audio Coding
  • Patent Document 2 there are techniques described in Patent Document 1 and Non-Patent Document 2.
  • Non-Patent Document 2 a conventional audio signal encoding method and decoding method described in Non-Patent Document 2 will be described.
  • FIG. 1 is a configuration diagram of a conventional audio signal encoding device.
  • the audio signal encoding apparatus 100 shown in the figure is an apparatus that is particularly characterized in reducing processing delay and delay.
  • the audio signal encoding apparatus 100 includes an auditory redundancy removing unit 101 and an information amount redundancy removing unit 102.
  • the auditory redundancy removing unit 101 removes auditory redundancy from the input audio signal. That is, a component that is not perceived by a person is removed from the audio signal based on the auditory characteristics of the person.
  • the auditory redundancy removing unit 101 includes an auditory model 103, a prefilter unit 104, and a quantization unit 105.
  • the auditory model 103 is an important element for determining sound quality deterioration of an encoded audio signal, and a person using a technique known to those skilled in the art such as successive masking or simultaneous masking. Sounds of frequency components that are not perceived and their levels are selected. As a result, the power of the frequency component sound perceived by humans in each frequency band is adaptively calculated for the input audio signal.
  • the auditory model 103 outputs to the prefilter unit 104 information indicating whether or not the prefilter unit 104 is used based on the calculated result. At the same time, this information is included in the encoded sequence of the audio signal that is the output signal of the audio signal encoding device and output.
  • the auditory model 103 is an auditory model described in, for example, MPEG-1 Layer III (commonly known as MP3) standard.
  • the input digital audio signal sequence is first input to the auditory model 103.
  • the pre-filter unit 104 is information indicating which filter input from the auditory model 103 is used, specifically, the level at which the sound of the frequency component perceived by a person is in each band, Based on the value indicating, the filter removes the sound of the component that is not perceived by humans from the input digital audio signal sequence. As a result, the pre-filter unit 104 outputs an audio signal sequence from which components that are not perceived by humans are removed. As described in Non-Patent Document 2, the prefilter unit 104 includes a plurality of linear prediction filters.
  • the quantization unit 105 performs quantization on the audio signal sequence input from the prefilter unit 104 by rounding off values less than or equal to an integer value, and outputs an audio signal sequence having an integer value. .
  • the auditory redundancy removing unit 101 applies to the input audio signal sequence.
  • the information-based redundancy removing unit 102 increases coding efficiency by removing information-based redundancy from the audio signal sequence input from the auditory redundancy removing unit 101.
  • the information redundancy removing unit 102 includes a lossless encoding unit 106.
  • the lossless encoding unit 106 has been conventionally proposed and is configured by a technique such as Huffman encoding, which is a technique known to those skilled in the art.
  • the audio signal sequence input to the lossless encoding unit 106 is converted to an integer value by the preceding quantization unit 105.
  • the lossless encoding unit 106 such as Huffman encoding increases the encoding efficiency by removing the redundancy of the information amount with respect to the integer value.
  • the conventional audio signal encoding apparatus 100 is configured with the force that the prefilter unit 104 uses! /, Such as a linear prediction coefficient, specifically, what kind of linear prediction coefficient is used. Both the information indicating whether the data has been generated and the audio signal sequence (information) encoded by the lossless encoding unit 106 are output as encoded sequences.
  • FIG. 2 is a configuration diagram of a conventional audio signal decoding apparatus.
  • the audio signal decoding apparatus 200 in the figure decodes the encoded audio signal.
  • the audio signal decoding apparatus 200 includes a lossless decoding unit 201 and a post filter unit 202.
  • the lossless decoding unit 201 decodes the audio signal sequence by lossless decoding with respect to the encoded sequence output from the lossless encoding unit 106.
  • the post filter unit 202 configures a post filter (an inverse filter of the filter used in the pre filter unit 104) from the decoded linear prediction coefficient sequence.
  • the audio signal sequence which is the result obtained by performing post-filtering on the audio signal sequence losslessly decoded by the lossless decoding unit 201, is finally output.
  • Non-patent literature 1 ISO / IEC 14496-3: 2005 "General Audio Coding"
  • Non-Patent Document 2 Research Paper “Perceptual Audio Coding Using Adaptive Pre— and Post— Filters and Lossless” (IEEE Transaction on Speech and Audio Processing, vol. 10, No. 6, September 2002) Disclosure of Invention
  • Low Delay AAC which is an MPEG standard
  • the delay is about 60 ms, and further improvements are about 40 ms.
  • the delay can be suppressed to about several tens of ms, but there is a problem that it is difficult to reduce the rate.
  • the process of quantizing the input audio signal by the quantization unit 105 is performed for each frame. For this reason, when an audio signal sequence having a large variation in time is input, there is a problem that the quantization noise (sound quality degradation due to encoding) by the quantization unit 105 cannot be controlled appropriately. In addition, there is a problem that the lossless encoding unit 106 cannot ensure sufficient encoding efficiency.
  • the present invention has been made to solve the above-mentioned problems.
  • the present invention further improves coding efficiency and improves sound quality associated with coding. It is an object of the present invention to provide an audio signal encoding method and decoding method that can reduce degradation.
  • an audio signal encoding method of the present invention is an audio signal encoding method for encoding an audio signal, and is included in a frame obtained by dividing the audio signal into a plurality of samples.
  • a determination step for determining whether to encode for each subframe obtained by dividing the frame into two or more based on an audio signal to be encoded, and a determination to determine that encoding should not be performed for each subframe.
  • a frame processing step for determining a first value indicating a characteristic of the audio signal of the frame for each frame, and encoding the audio signal using the determined first value; When it is determined that encoding is to be performed for each subframe, a second value indicating the characteristics of the audio signal of the subframe is set for each subframe.
  • a subframe processing step that encodes the audio signal using the determined second, and in the subframe processing step, the second frame determined for each subframe is determined. It is determined whether or not all the values are the same, and if all the second values are the same, at least one of the second values is set as a different value as an exception process. Encode the Dio signal.
  • useless encoding means that the encoded data obtained by dividing each subframe and the encoded data obtained by dividing each frame have the same meaning.
  • the encoded data obtained by dividing each subframe usually has a larger number of bits than the encoded data obtained by dividing each frame. That is, if the same thing is shown, the coded data obtained by dividing each frame is preferable because the number of bits is reduced.
  • an identification code for identifying whether the second value is the same value or a different value between adjacent subframes is encoded for all subframes.
  • all the identification codes indicate that all the second values are the same, as the exception processing, at least one of the second values is set to a different value.
  • the signal may be encoded.
  • the audio signal may be encoded by regarding that the second value is monotonically increasing or monotonically decreasing between adjacent subframes! /
  • the first value and the second value may be gain values used for normalization of the audio signal or values that determine quantization accuracy.
  • the audio signal decoding method of the present invention is an audio signal decoding method for decoding an encoded sequence of an audio signal encoded by the audio signal encoding method described above, wherein the encoded sequence is Includes a decoding step of decoding the encoded sequence by identifying that the exception processing is executed.
  • the audio signal encoding method and decoding method of the present invention are realized as an apparatus.
  • the present invention can be implemented as a program that causes a computer to execute each step of each method and a computer-readable recording medium that records the program.
  • FIG. 1 is a configuration diagram of a conventional audio signal encoding device.
  • FIG. 2 is a configuration diagram of a conventional audio signal decoding apparatus.
  • FIG. 3 is a configuration diagram of an audio signal encoding device according to the present embodiment.
  • FIG. 4 is a diagram showing an input audio signal sequence of one frame divided into subframes.
  • FIG. 5 is a diagram illustrating an example of a code stream structure.
  • FIG. 6 is a diagram illustrating an example of a bitstream syntax.
  • FIG. 7 is a flowchart showing the operation of the audio signal encoding device according to the present embodiment.
  • FIG. 8 is a diagram showing an example of an audio signal sequence that can be an exception process.
  • FIG. 9 is a configuration diagram of an audio signal decoding device according to the present embodiment.
  • FIG. 10 is a diagram illustrating an example of a conventional bitstream syntax.
  • FIG. 11 is a diagram illustrating an example of a bit stream syntax.
  • FIG. 12 is a diagram showing an example of an audio signal sequence that can be an exception process.
  • FIG. 13 is a diagram illustrating an example of an audio signal sequence that can be an exception process.
  • the audio signal encoding apparatus selects a frame encoding mode for encoding for each frame and a subframe encoding mode for encoding for each subframe obtained by further dividing the frame into two or more. Can do. Further, in the subframe coding mode, information indicating the gain force S determined for each subframe, the force having the same value and the force having different values between temporally continuous subframes is encoded. . If the determined gain value is the same for all subframes, it is the same as when one gain value is determined for each frame, so normal processing (with the same gain value for all subframes). Exception processing different from the encoding processing in the case of being considered to be present is performed. In the present embodiment, the gain represents a ratio when a certain amplitude of the audio signal is 1, and is a value used for normalization of the audio signal.
  • FIG. 3 is a configuration diagram of the audio signal encoding device according to the present embodiment.
  • the audio signal encoding apparatus 300 in the figure includes a determination unit 301, a frame processing unit 310, and a subframe processing unit 320.
  • Frame processing section 310 corresponds to conventional audio signal encoding apparatus 100 shown in FIG. Auditory included in the frame processing unit 310
  • the redundancy removing unit 311 and the information-based redundancy removing unit 312 correspond to the auditory redundancy removing unit 101 and the information-based redundancy removing unit 102 in FIG.
  • the auditory model 313, the prefilter unit 314, and the quantization unit 315 included in the auditory redundancy removing unit 311 are respectively the auditory model 103, the prefilter unit 104, and the quantization unit 105 of FIG. It corresponds to.
  • the lossless encoding unit 316 included in the information redundancy removing unit 312 corresponds to the lossless encoding unit 106 in FIG. Therefore, the description of the same components is omitted here, and different points are mainly described.
  • the determination unit 301 determines whether or not to encode for each subframe, so that either the frame processing unit 310 or the subframe processing unit 320 can receive audio. Decide whether to output a signal sequence.
  • the determination unit 301 should perform encoding for each frame by detecting the maximum amplitude (energy) for each subframe of the input audio signal sequence (frame). It is determined whether encoding is to be performed for each subframe (encoding mode) or subframe encoding mode.
  • the input audio signal sequence is output to the frame processing unit 310.
  • the subframe coding mode is selected, the input audio signal sequence is output to the subframe processing unit 320.
  • the subframe processing unit 320 performs encoding for each subframe on the input audio signal sequence.
  • the subframe processing unit 320 includes an auditory redundancy removing unit 321 and an information redundancy removing unit 322.
  • the information-based redundancy removing unit 322 and the lossless coding unit 326 included in the information-based redundancy removing unit 322 are the information-based redundancy removing unit 102, the lossless coding unit 106 shown in FIG. It corresponds to. Therefore, description of the information redundancy removing unit 102 and the lossless encoding unit 106 is omitted here, and the auditory redundancy removing unit 321 is described.
  • the auditory redundancy removing unit 321 removes auditory redundancy for each subframe.
  • the auditory redundancy removing unit 321 includes an auditory modeler 323, a pre-inletter unit 324, and a subframe quantizing unit 325.
  • the auditory model 323 and the prefilter unit 324 have the same configurations as the auditory model 103 and the prefilter unit 104 in FIG. 1, respectively. Therefore, the description of the auditory model 323 and the prefilter unit 324 is omitted here, and the subframe quantum is omitted.
  • the conversion unit 325 will be described.
  • the subframe quantization unit 325 divides one frame of the audio signal into two or more subframes for the audio signal ⁇ IJ input from the prefilter unit 324, and sets a gain for each subframe. Multiply and perform quantization.
  • the audio signal sequence input to subframe quantization section 325 is y (i), and the gain is
  • Equation 1 For Gp, the relationship shown in Equation 1 is obtained for the value x (i) to be quantized.
  • x (i) is derived from the relationship shown in Equation 1 by determining the gain Gp.
  • x (i) is a real value
  • the subframe quantization unit 325 quantizes the real value x (i) into an integer value. Then, the quantized x (i) is output to the lossless encoding unit 326.
  • Fig. 4 is a diagram showing that an input audio signal sequence of one frame is divided into four subframes.
  • the horizontal axis represents time and the vertical axis represents the amplitude of the audio signal.
  • the number of samples per frame is not particularly limited, but 128 samples are taken as an example. A case where an audio signal sequence of one frame is uniformly divided into four subframes every 32 samples is shown. The present invention is not concerned with the number of subframes and the length of each subframe being uniform.
  • the amplitude of subframe 2 and subframe 3 is larger than the amplitude of subframe 1 and subframe 4. For this reason, when all subframes are uniformly quantized to integer values, the amplitude of subframe 1 and subframe 4 can be obtained by taking a gain value that reduces the amplitude value of subframe 2 and subframe 3. There is a possibility that sound quality will deteriorate due to frequent zeros. In addition, if the gain value is set so as to ensure the amplitude values of subframe 1 and subframe 4, the values of subframe 2 and subframe 3 increase, resulting in poor coding efficiency, resulting in bit The rate can be high.
  • the subframe quantization unit 325 refers to any or all of the audio signal ⁇ ⁇ ⁇ ⁇ ⁇ !] Corresponding to the input original sound, the output result of the prefilter unit 324, and the output of the auditory model 323. It may be used as For example, in order to improve sound quality in a subframe having a small amplitude preceding the large amplitude based on the amplitude value of the original sound, regardless of the amplitude value of the audio signal sequence input from the prefilter unit 324, A sufficiently large gain may be secured.
  • FIG. 5 is a diagram illustrating an example of an encoded stream structure.
  • the beginning of a stream storing gain information indicates gain configuration information indicating how the gain is stored.
  • gain configuration information indicating how the gain is stored.
  • value power S "0” a case where a single gain is given to a plurality of subframes is shown.
  • the value is "1” it indicates the case where two or more gain values are given to multiple subframes.
  • the setting of the gain configuration information is performed by the determination unit 301.
  • the determination unit 301 uses a common gain value in subframes for the input audio signal of one frame (set the value to “0”), and uses a different gain value for each subframe. To use (set the value to "1").
  • a value of 0 at the beginning of the gain configuration information indicates execution of the frame coding mode.
  • a value of 1 at the beginning of the gain configuration information indicates that sub Indicates that the frame coding mode is to be executed.
  • the value is “1"
  • “z” is subframe 3 and subframe
  • the value is “0.”
  • the gain values of subframe 3 and subframe 4 are different Takes a value of "1”.
  • the value indicating the interrelationship between the subframes when the gain value at the top of the gain configuration information is 1 "is set by the subframe quantization unit 325. Of course,” 0 “and ' 1 "may have the opposite meaning. In other words, “0” indicates that the gain value is different between temporally continuous subframes, and “1” is the same gain value between temporally continuous subframes. A case may be indicated.
  • Gain configuration information is set as described above. If the gain configuration information power is 0 ", there is only one gain parameter. In addition, if the gain configuration information power is S, for example,” 1010 ", there are two gain parameters. Specifically, the gain values of subframe 1 and subframe 2 are the same, the gain values of subframe 2 and subframe 3 are different, and the gain values of subframe 3 and subframe 4 are different. The straight is the same straight.
  • gain configuration information is "1000"
  • the normal meaning described above has a gain value of 2 or more, however, all gains from subframe 1 to subframe 4 Are defined to have the same value.
  • gain configuration information power 0 "and” 1000 “means that there is a single gain in one frame (all subframes), that is, at least 3 bits to indicate the same information.
  • the determination unit 301 selects the subframe encoding mode and performs the processing by dividing the subframe, the case where the frame encoding mode is executed, A similar result may be output, because in this case, the coding efficiency will deteriorate as a result.
  • the gain of the subframe is defined as, for example, monotonically increasing (or monotonically decreasing).
  • the value gl follows, and then the value d elta—followed by gx.
  • the direct gl is a value obtained by encoding the gain obtained using the maximum amplitude of the audio signal included in subframe 1.
  • the value delta—gx is the value obtained by encoding the difference between the gain of subframe X—1 and the gain of subframe X.
  • X is an integer value of 2 or more, and the maximum value of X is the number of subframes (4 in Fig. 5).
  • G1 and delta-Gx are derived by performing a decoding process described later on the value gl and the value delta-gx, respectively.
  • G1 is a value indicating the gain of subframe 1.
  • delt a— Gx is the value indicating the difference between the gain of subframe x— 1 and the gain of subframe x.
  • the encoding process When there is one gain value in one frame, in the encoding process, only the encoded value gl follows the gain configuration information.
  • the gain G1 is derived from the value gl.
  • delta—g3 and delta—g4 are decoded, and gains G3 and G4 are calculated sequentially.
  • FIG. 6 is an example of the bit stream syntax, and more specifically shows an example of the encoded stream structure of FIG.
  • the one written on the “syntax” side is an example of bitstream syntax
  • “number of bits” is an example of the number of bits used at that time. What is written in bold font in italics in synt ax S, should be encoded as a bitstream. Those written in italics that are not bold font are variables that retain their values once read as a bitstream. NumGainBits, numMonoDeltaBits, and numDeltaBits described in terms of the number of bits are assigned an integer value at the time of implementation.
  • bs-multi-gain is flag information for identifying the force with a single gain and whether the sub-frames are composed of at least two different values.
  • the top value of the gain configuration information in Fig. 5 is shown.
  • the gain is unity.
  • bs-multi-gain force S i indicates that it consists of at least two different values in multiple subframes
  • bs one same one gain [num] (or num—first suff, frame (hereinafter referred to as num—1 suff, frame) and num subframe (hereinafter num)
  • num first suff, frame
  • num subframe hereinafter num
  • bs—same—gain [num] is 1 Indicates that the gain is different.
  • bs—gain [0] is a value used to derive the gain.
  • Gain is single
  • the gain value derived using bs—gain [0] is the gain value of all subframes. If multiple subframes consist of at least two different values (bs—multi—gain is 1), the gain value derived using bs—gain [0] is the gain of the first subframe. Value.
  • bs In a frame where the same—gain [num] is 0, the gain difference between the num—1 subframe and the num subframe is derived in order from the frame with the smallest num (or the gain of the num subframe) The value to be derived) is encoded as bs—delta [num]!
  • FIG. 7 is a flowchart showing the operation of the audio signal encoding device according to the present embodiment.
  • the determination unit 301 receives the frame encoding processing mode and One of the subframe coding modes is selected (S101). That is, bs-multi-gain in Fig. 6 is determined.
  • the frame coding mode is selected (No in S101)
  • the audio signal sequence is output to the frame processing unit 310.
  • bs-multi-gain is set to 0 in the frame processing unit 310.
  • the subframe processing unit 320 sets bs-multi-gain to 1.
  • the determination unit 301 detects a change in the audio signal sequence using the maximum amplitude of the audio signal sequence. When there is almost no variation in the audio signal, for example, when the maximum amplitude is below a certain threshold value, quantization and encoding should be performed for each frame, and the audio signal sequence is output to the frame processing unit 310. Conversely, if the maximum amplitude is greater than a certain threshold value, quantization and encoding should be performed for each subframe, and the audio signal sequence is output to the subframe processing unit 320. Since the audio signal sequence in the example of FIG. 4 has a large variation, it is output to the subframe processing unit 320, and is quantized and encoded for each subframe.
  • subframe quantization section 325 determines the gain for each subframe and detects the correlation between the determined gains (S 102). Specifically, it is detected whether the gain value determined for each subframe is the same value or a different value. That is, values corresponding to “x”, “V”, and “z” in FIG. 5 are detected.
  • the detected correlation (gain value for each subframe) is determined (S 103). If the determined gain force S is at least two different values in multiple subframes (
  • a difference between the gain value determined for each subframe and the gain value of the first subframe is calculated.
  • FIG. 8 is a diagram illustrating an example of an audio signal sequence in which exception processing may occur. Such an audio signal sequence is generated when fading into a musical sound or the like from a sound close to noise.
  • determination section 301 can determine that the fluctuation of the audio signal is large by using the maximum amplitude for each subframe, and the subframe coding mode. Select.
  • the subframe quantization unit 325 determines the gain value by determining the audio signal sequence included in the subframe based on the energy level. In the example shown in FIG. 8, the energy of subframe 1 to subframe 4 is substantially equal. Therefore, the gain value is a single equal value in all subframes. That is, the gain configuration information is “1000”.
  • subframes 1 to 4 are determined as one frame, and are simply selected. One gain value is determined. As a result, the same result as when the frame coding mode is selected is output even though the subframe coding mode is selected. That is, it is useless that the subframe coding mode is selected.
  • FIG. 10 shows an example of conventional bitstream syntax, and this syntax constitutes a plurality of modules called grouping in the AAC scheme.
  • this syntax when window-sequence is equivalent to EIGHT-SHORT-SEQUENCE, it is a grouping of 8 MDCT (Modified Discrete Cosine Transform) coefficient sequences. Whether V or Crab groups are configured is indicated by the bitstream variable scale—factor—grouping (7 bits). Specifically, information indicating whether eight MDCT coefficient sequences form a group with the previous MDCT coefficient sequence is encoded in 7 bits, one bit each.
  • MDCT Modified Discrete Cosine Transform
  • the definition is that eight MDCT coefficient sequences are encoded and decoded as one group. In other words, there is no shift to another process such as a monotonic increase in gain. As in the present embodiment, in the case where waste occurs as a result, exception processing for preventing the occurrence of waste is not executed.
  • FIG. 9 is a configuration diagram of the audio signal decoding apparatus according to the present embodiment.
  • the audio signal decoding apparatus 400 in the figure decodes the encoded audio signal.
  • the audio signal decoding apparatus 400 includes a lossless decoding unit 401, a post filter unit 402, and a gain amplifying unit 403.
  • Lossless decoding section 401 and post filter section 402 correspond to lossless decoding section 201 and post filter section 202 in FIG. Therefore, the description of the lossless decoding unit 401 and the post filter unit 402 is omitted, and the gain amplifying unit 403 is described.
  • the gain amplifying unit 403 amplifies the decoded audio signal for each subframe with respect to the audio signal input from the post filter unit 402.
  • an exception process is performed on an encoding pattern that can be wasted at the time of encoding, so that it can be effectively used. Can do. As a result, while maintaining the advantages of low-delay processing, it is possible to suppress deterioration in sound quality and achieve highly efficient encoding.
  • the number of subframes monotonically increasing may be encoded as shown in FIG.
  • FIG. 11 is an example of a bit stream syntax different from that in FIG. 6, and more specifically shows an example of the encoded stream structure in FIG.
  • the one written on the "syntax" side is an example of the bitstream syntax
  • "number of bits” is an example of the number of bits used at that time.
  • What is written in italic bold font should be encoded as a bitstream.
  • bitstream syntax in FIG. 11 can encode the number of subframes that monotonically increase when exception processing is performed. Thereby, encoding efficiency can be improved.
  • determination section 301 uses the maximum amplitude of the audio signal to select the frame coding mode and the subframe coding mode. However, instead of the maximum amplitude, determination section 301 selects the audio signal. Energy may be used.
  • FIG. 12 is a diagram showing an example of an audio signal sequence in which exception processing may occur.
  • an audio signal sequence in the case of a sound source played with a stringed instrument or a percussion instrument is shown.
  • the intensity per note is the same, but the number of subframes is different, so an audio signal sequence as shown in Fig. 12 is obtained.
  • determining section 301 selects a subframe coding mode based on the fact that the energy variation for each subframe is large.
  • the subframe quantization unit 325 determines the gain value by determining the audio signal ⁇ IJ included in the subframe with the maximum amplitude.
  • the maximum amplitudes of subframe 1 to subframe 4 are substantially equal. Therefore, the gain value is a single equal value in all subframes. That is, the gain configuration information is “1000”.
  • the subframe quantization unit 325 executes the exception processing as in the case of FIG.
  • the determination unit 301 makes a determination using energy and selects a subframe coding mode, there may be a case where the bit rate cannot be increased due to a limitation. In this case, as a result, it is unavoidable to select one with a small bit consumption in each subframe, and the same encoding process is selected in each subframe. In this case as well, the gain configuration information is “1000”. As a result, as in the case of FIGS. 8 and 12, the subframe quantization unit 325 executes exception processing.
  • temporally frames that are temporally encoded are encoded in the subframe encoding mode to ensure continuity in the connection between frames.
  • subframe coding must be selected for the current frame due to coding rules.
  • the gain configuration information becomes “1000”.
  • the subframe quantizing unit 325 executes exception processing.
  • Gp Gp-l + delta Gp
  • p is an integer of 2 or more.
  • differential encoding or the like is used in encoding of two or more gains, but the difference information is not used, and the second and subsequent gains are not sub-directed without using the direct subframe. Use a value that can directly decode the value of the lemma.
  • audio signal encoding apparatus 300 has a frame processing unit as shown in FIG.
  • encoding and decoding are performed on quantization accuracy information that affects the encoding efficiency when performing lossless encoding. That is, the difference from Embodiment 1 is that the target of encoding and decoding is quantization accuracy information that is not gain.
  • description of the same points as in the first embodiment will be omitted, and different points will be mainly described.
  • An apparatus that performs the audio signal encoding method of the present embodiment is the audio signal encoding apparatus shown in FIG. 3 as in the first embodiment.
  • subframe quantization section 325 quantizes quantization accuracy information. For example, for audio signals that are important for hearing, the quantization accuracy information Rp is set to a small value in order to maintain sufficient quantization accuracy.
  • z (i) is derived by determining the quantization accuracy information Rp.
  • the subframe quantization unit 325 quantizes the real value z (i) to an integer value. Then, the quantized z (i) is output to the lossless encoding unit 326.
  • Equation 1 As can be seen by comparing Equation 1 and Equation 2 shown in Embodiment 1, the gain Gp becomes the quantization accuracy information Rp, and accordingly, the x (i) force S z (i). Only. Other modules such as the lossless encoder 326 and the auditory model 323 are not changed.
  • the quantization accuracy information Rp is reduced with respect to the audio signal of an important sample for suppressing the sound quality degradation and audio.
  • the absolute value of the result z (i) can be increased. As a result, it is possible to reduce the influence of the quantization error that occurs in the quantization process for converting to a real force integer value.
  • the audio signal encoding method and decoding method of the present embodiment can be applied to an audio signal encoding and decoding method having time-frequency conversion. This is the difference from Embodiments 1 and 2 in that they are so-called time domain encoding and decoding methods that do not mainly involve time-frequency conversion processing.
  • the first application is an application to a system in a batch orthogonal transform method having a plurality of transform lengths represented by MPEG2-AAC.
  • a frame is formed for each sample of the input audio signal, and the samples of the frame are collectively orthogonally transformed to generate a frequency spectrum sequence. Toll is quantized and encoded. Switch between one batch orthogonal transform for one frame and multiple batch orthogonal transforms that are temporally continuous for one frame.
  • the second application is an application to a system in a batch orthogonal transform method having a single transform length, represented by Low Delay AAC.
  • a frame is constructed for each sample of the input audio signal, the samples of the frame are collectively orthogonally transformed to generate a frequency spectrum sequence, and the spectrum is quantized and coded. It is to become.
  • One orthogonal transform is applied to one frame.
  • temporal variation information is not related to orthogonal transform.
  • a plurality of temporal subframes are configured in advance, and a plurality of temporal gain information is quantized and encoded. Use subframes. In the decoding process, a plurality of subframes may be used to correct one frame of audio signal decoded by the batch orthogonal transform using the temporal gain information.
  • a frequency spectrum sequence obtained from one orthogonal transform is divided into a plurality of subbands (corresponding to subframes on the time axis) on the frequency axis, and representatives for each subband are obtained.
  • the third application is the application to the system in the polyphase filter system that constitutes the time-frequency matrix, represented by the QMF (Quadrature Mirror Filter) filter.
  • QMF Quadadrature Mirror Filter
  • a time signal sequence force S composed of a plurality of samples in a plurality of frequency subbands can be obtained. Therefore, multiple frequency sub-bars in a time sample
  • the coding method described in Embodiment 1 may be applied to the gain of the signal of the second signal. Further, in the first embodiment, a certain frequency subband is selected, and the representative gains grouped one by one or several for a time signal sequence composed of a plurality of samples of the frequency subband are described. The encoding method may be applied.
  • the fourth application is an application in a system in which a batch orthogonal transformation represented by DCT is added as an additional process in addition to the polyphase filter method which is the third application.
  • the output of the polyphase filter method is the same as that of the third application, but the subband frequency interval is large! /, Etc.! Insufficient frequency resolution. Therefore, in order to improve the frequency resolution of the low-frequency components, orthogonal transform such as discrete cosine transform (DCT transform) is used for the time signal sequence corresponding to the low-frequency components in the output from the polyphase filter. Thus, the time frequency conversion is performed to improve the frequency resolution of the low band.
  • DCT transform discrete cosine transform
  • This fourth application can be realized by a combination of the second and third applications.
  • the same method as the second application can be used.
  • the third method can be applied to increase the coding efficiency as well.
  • the encoding target is divided into several groups (for example, a frame on the time axis and a band on the frequency axis).
  • groups for example, a frame on the time axis and a band on the frequency axis.
  • subgroups for example, subframes on the time axis and subbands on the frequency axis
  • a process that regards the gain value or the like as monotonously increasing or monotonically decreasing is used as the exception process, but any process other than the normal process may be used.
  • a process may be considered in which the gain value and the like are alternately taken from two values of large and small for each subframe.
  • it may be processing that assumes that the gain directly varies according to a predetermined rule for each subframe.
  • the gain value or the value that determines the quantization accuracy is quantized and encoded, but the target of quantization and encoding is not limited to these.
  • Other values relating to the encoding of the audio signal may be quantized and encoded.
  • the audio signal encoding method and decoding method of the present invention can be applied to all applications to which the audio encoding and decoding methods are conventionally applied. It can be used especially for transmission of broadcast content, applications that are recorded and played back on storage media such as DVDs and SD cards, and AV content that is transmitted to communication devices such as mobile phones. It is also useful when transmitting audio signals as electronic data exchanged over the Internet.

Abstract

 低遅延を実現することができるだけでなく、符号化効率を高め、かつ、符号化に伴う音質の劣化を削減する。  オーディオ信号を符号化するオーディオ信号符号化方法であって、複数のサンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、フレームを2以上に分割したサブフレーム毎に符号化すべきか否かをフレーム毎に判断する判断ステップと、サブフレーム毎に符号化すべきと判断された場合に、サブフレーム毎に、該サブフレームのオーディオ信号の特性を示す値を決定し、決定された値を用いてオーディオ信号を符号化するサブフレーム処理ステップとを含み、サブフレーム処理ステップでは、サブフレーム毎に決定された値が全て同じであるか否かを判定し、値が全て同じである場合、例外処理として決定された値が示すオーディオ信号の特性とは異なる特性を用いて、前記オーディオ信号を符号化する。

Description

明 細 書
オーディオ信号符号化方法及び複号化方法
技術分野
[0001] 本発明は、オーディオ信号の符号化方法及び復号化方法に関するものである。
背景技術
[0002] 従来のオーディオ信号符号化方法及び復号化方法としては、公知なものとして IS O/IECの国際標準方式、通称 MPEG (Moving Picture Experts Group)方 式などが挙げられる。現在、幅広い応用を持ち、低ビットレート時でも高音質な符号 化方式として、 ISO/IEC14496— 3、通称 MPEG— 4 GA (General Audio C oding) (非特許文献 1参照)などがあげられる。本方式の拡張規格も複数規格化が 現在なされている。
[0003] その一つとして、符号化及び復号化における遅延を小さくする低遅延技術がある。
例ぇば、130/1£じ国際標準規格でぁる^1?£0— 4 Audio (ISO/IEC 14496 —3)において定められた Low Delay AAC (Advanced Audio Coding)方式 力 る。また、別の例としては、特許文献 1及び非特許文献 2に記載の技術がある。
[0004] 以下では、非特許文献 2に記載された従来のオーディオ信号符号化方法及び復号 化方法について説明する。
[0005] 図 1は、従来のオーディオ信号符号化装置の構成図である。同図のオーディオ信 号符号化装置 100は、特に、処理に力、かる遅延を小さくすることを特徴とする装置で ある。オーディオ信号符号化装置 100は、聴覚的冗長性除去部 101と、情報量的冗 長性除去部 102とを備える。
[0006] 聴覚的冗長性除去部 101は、入力されたオーディオ信号から、聴覚的な冗長性を 除去する。すなわち、人が有する聴覚の特性に基づいてオーディオ信号から人が知 覚しない成分を除去する。聴覚的冗長性除去部 101は、聴覚モデル 103と、プレフィ ルタ部 104と、量子化部 105とを備える。
[0007] 聴覚モデル 103は、符号化されたオーディオ信号の音質劣化を決定する重要な要 素であり、継時マスキングや同時マスキングなど当業者には公知な技術を用いて、人 に知覚されない周波数成分の音及びそのレベルを選別する。その結果、人に知覚さ れる周波数成分の音が各周波数帯域においてどのレベルであるの力、を入力された オーディオ信号に対して適応的に算出する。聴覚モデル 103は、算出した結果に基 づレ、てプレフィルタ部 104力 、かなるフィルタを用レ、るかを示す情報をプレフィルタ部 104に出力する。同時に、この情報をオーディオ信号符号化装置の出力信号である オーディオ信号の符号化列に含めて出力する。聴覚モデル 103は、例えば、 MPEG - 1 Layer III (通称 MP3)の規格書に記載のある聴覚モデルである。入力される デジタルオーディオ信号列は、まず聴覚モデル 103に入力される。
[0008] プレフィルタ部 104は、聴覚モデル 103から入力されるいかなるフィルタを用いるか を示す情報、具体的には、人に知覚される周波数成分の音が各帯域においてどのレ ベルである力、を示す値を基に、入力されたデジタルオーディオ信号列から人に知覚 されないレベルの成分の音をフィルタによって除去する。これにより、プレフィルタ部 1 04は、人が知覚しない成分を除去したオーディオ信号列を出力する。プレフィルタ部 104は、非特許文献 2にあるように、複数の線形予測フィルタで構成する。
[0009] 量子化部 105は、プレフィルタ部 104から入力されるオーディオ信号列に対して、 整数値以下の値を四捨五入することで量子化を行レ、、整数値のオーディオ信号列を 出力する。
[0010] 以上のように、聴覚的冗長性除去部 101は、入力されるオーディオ信号列に対して
、人が知覚しない成分を除去し、整数値に量子化したオーディオ信号列を出力する
[0011] 情報量的冗長性除去部 102は、聴覚的冗長性除去部 101から入力されるオーディ ォ信号列から、情報量的な冗長性を除去することによって、符号化効率を高める。情 報量的冗長性除去部 102は、ロスレス符号化部 106を備える。
[0012] ロスレス符号化部 106は、従来から提案されており、当業者には公知の技術である ハフマン符号化などの手法で構成される。ロスレス符号化部 106へ入力されるォー ディォ信号列は、前段の量子化部 105によって、整数値化されている。このため、ハ フマン符号化などのロスレス符号化部 106は、その整数値化された値に対して、情報 量的な冗長性を取り除くことによって符号化効率が高まることになる。 [0013] 以上の構成により、従来のオーディオ信号符号化装置 100は、プレフィルタ部 104 で!/、かなるプレフィルタが使用された力、、具体的には、どのような線形予測係数で構 成されたのかを示す情報と、ロスレス符号化部 106で符号化されたオーディオ信号 列 (情報)との両方を符号化列として出力する。
[0014] 続!/、て、従来のオーディオ信号復号化装置につ!/、て説明する。
[0015] 図 2は、従来のオーディオ信号復号化装置の構成図である。同図のオーディオ信 号復号化装置 200は、符号化されたオーディオ信号を復号化する。オーディオ信号 復号化装置 200は、ロスレス復号化部 201と、ポストフィルタ部 202とを備える。
[0016] ロスレス復号化部 201は、ロスレス符号化部 106が出力する符号化列に対してロス レス復号によりオーディオ信号列を復号化する。
[0017] ポストフィルタ部 202では、復号化された線形予測係数列から、ポストフィルタ(プレ フィルタ部 104で用いられたフィルタの逆フィルタ)を構成する。ロスレス復号化部 20 1でロスレス復号されたオーディオ信号列に対してポストフィルタを施すことで得られ た結果であるオーディオ信号列を最終的に出力する。
[0018] 以上のように図 1及び図 2に示すオーディオ信号符号化装置及びオーディオ信号 復号化装置を用いることで、 AAC等の符号化及び復号化方法を用いるよりも遅延が 小さくなる。これは、 AAC等の方式が有する 1フレームが 1024サンプルなどの一括 直交変換部分に要する遅延がなくなり、対して、プレフィルタやポストフィルタの消費 する遅延が小さいことから、結果的に低遅延化することが可能になるためである。 特許文献 1: WO2005/078705号公報
非特許文献 1: ISO/IEC 14496 - 3: 2005"General Audio Coding"
非特許文献 2 :学会論文" Perceptual Audio Coding Using Adaptive Pre— and Post— Filters and Lossless し ompression" (IEEE Transaction on Speech and Audio Processing, vol. 10, No. 6 , September 2002) 発明の開示
発明が解決しょうとする課題
[0019] しかしながら、上記従来のオーディオ信号符号化方法及び復号化方法では、以下 の課題がある。 [0020] 例えば、 MPEG規格である Low Delay AACなどでは、 AAC方式を用いた技術 としては低遅延である力 それでも遅延は 60ms程度であり、さらなる改良を加えたも のでも 40ms程度である。双方向のコミュニケーションで使用する際には、遅延が十 分に小さレ、とは言えな!/、と!/、う課題があった。
[0021] 一方、非特許文献 2に記載の技術では、遅延は 10数 ms程度に抑えられるが、低レ ート化が難しいという課題がある。さらに、入力されるオーディオ信号に対して、量子 化部 105が量子化する処理は、フレーム毎に処理される。このため、時間的に大きな 変動を有するオーディオ信号列が入力された場合、量子化部 105による量子化ノィ ズ (符号化にともなう音質劣化)が適切に制御できないという課題がある。また、十分 な符号化効率をロスレス符号化部 106で確保できないという課題がある。
[0022] そこで、本発明は、上記課題を解決するためになされたものであり、低遅延を実現 すること力 Sできるだけでなく、さらに、符号化効率を高め、かつ、符号化に伴う音質の 劣化を削減することができるオーディオ信号符号化方法及び復号化方法を提供する ことを目白勺とする。
課題を解決するための手段
[0023] 上記課題を解決するため、本発明のオーディオ信号符号化方法は、オーディオ信 号を符号化するオーディオ信号符号化方法であって、前記オーディオ信号を複数の サンプル毎に分割したフレームに含まれるオーディオ信号に基づいて、前記フレー ムを 2以上に分割したサブフレーム毎に符号化すべきか否かを前記フレーム毎に判 断する判断ステップと、前記サブフレーム毎に符号化すべきでないと判断された場合 に、前記フレーム毎に、該フレームのオーディオ信号の特性を示す第 1の値を決定し 、決定された前記第 1の値を用いて前記オーディオ信号を符号化するフレーム処理 ステップと、前記サブフレーム毎に符号化すべきと判断された場合に、前記サブフレ ーム毎に、該サブフレームのオーディオ信号の特性を示す第 2の値を決定し、決定さ れた前記第 2の を用いて前記オーディオ信号を符号化するサブフレーム処理ステ ップとを含み、前記サブフレーム処理ステップでは、前記サブフレーム毎に決定され た前記第 2の値が全て同じであるか否かを判定し、前記第 2の値が全て同じである場 合、例外処理として前記第 2の値の少なくとも 1つは異なる値とすることで、前記ォー ディォ信号を符号化する。
[0024] これにより、低遅延を実現することができるだけでなぐさらに、符号化効率を高め、 かつ、符号化に伴う音質の劣化を削減することができる。さらに、例外的な処理を実 行させる機能を有しており、符号化の無駄を活用することができる。ここで、符号化の 無駄とは、サブフレーム毎に分割して得られた符号化データと、フレーム毎に分割し て得られた符号化データとが同一の意味を示していることをいう。サブフレーム毎に 分割して得られた符号化データは、フレーム毎に分割して得られた符号化データより ビット数カ 、通常、多くなる。すなわち、同一のことを示すのであれば、フレーム毎に 分割して得られた符号化データの方が、ビット数が少なくすむので好ましい。
[0025] また、前記サブフレーム処理ステップでは、隣接するサブフレーム間で前記第 2の 値が同じ値であるか異なる値であるかを識別する識別符号を、全てのサブフレーム 間に対して符号化し、全ての前記識別符号が、全ての前記第 2の値が同じであること を示す場合に、前記例外処理として前記第 2の値の少なくとも 1つは異なる値とするこ とで、前記オーディオ信号を符号化してもよい。
[0026] これにより、符号化効率を高めることができる。
[0027] また、前記例外処理では、前記第 2の値が、隣接するサブフレーム間にお!/、て単調 増加又は単調減少するものとみなすことで、前記オーディオ信号を符号化してもよ!/、
[0028] また、前記第 1の値及び前記第 2の値は、前記オーディオ信号の正規化に用いら れるゲイン値、又は、量子化精度を決定する値としてもよい。
[0029] また、本発明のオーディオ信号復号化方法は、上述のオーディオ信号符号化方法 によって符号化されたオーディオ信号の符号化列を復号化するオーディオ信号復号 化方法であって、前記符号化列が前記サブフレーム処理で符号化されて!/、る場合、 前記例外処理が実行されてレ、ることを識別することで、前記符号化列を復号化する 復号化ステップを含む。
[0030] これにより、例外処理を含んだ符号化処理が実行された符号化列に対して、適した 復号化を実施することができる。
[0031] また、本発明のオーディオ信号符号化方法及び復号化方法は、装置として実現す ること力 Sできる。さらに、本発明は、それぞれの方法の各ステップをコンピュータに実 行させるプログラム、及び、該プログラムを記録するコンピュータ読み取り可能な記録 媒体として実現すること力 Sできる。
発明の効果
[0032] 本発明のオーディオ信号符号化方法及び復号化方法では、低遅延を実現すること ができるだけでなぐさらに、符号化効率を高め、かつ、符号化に伴う音質の劣化を 肖 IJ減すること力でさる。
図面の簡単な説明
[0033] [図 1]図 1は、従来のオーディオ信号符号化装置の構成図である。
[図 2]図 2は、従来のオーディオ信号復号化装置の構成図である。
[図 3]図 3は、本実施の形態のオーディオ信号符号化装置の構成図である。
[図 4]図 4は、入力された 1フレームのオーディオ信号列をサブフレームに分割したこ とを示す図である。
[図 5]図 5は、符号ストリーム構造の一例を示す図である。
[図 6]図 6は、ビットストリームシンタックスの一例を示す図である。
[図 7]図 7は、本実施の形態のオーディオ信号符号化装置の動作を示すフローチヤ ートである。
[図 8]図 8は、例外処理となりうるオーディオ信号列の一例を示す図である。
[図 9]図 9は、本実施の形態のオーディオ信号復号化装置の構成図である。
[図 10]図 10は、従来のビットストリームシンタックスの一例を示す図である。
[図 11]図 11は、ビットストリームシンタックスの一例を示す図である。
[図 12]図 12は、例外処理となりうるオーディオ信号列の一例を示す図である。
[図 13]図 13は、例外処理となりうるオーディオ信号列の一例を示す図である。
符号の説明
[0034] 100、 300 オーディオ信号符号化装置
101、 311、 321 聴覚的冗長性除去部
102、 312、 322 情報量的冗長性除去部
103、 313、 323 聴覚モデル 104、 314、 324 プレフイノレタ部
105、 315 量子化部
106、 316、 326 ロスレス符号化部
200、 400 オーディオ信号復号化装置
201、 401 ロスレス復号化部
202、 402 ポストフイノレタ部
301 判断部
310 フレーム処理部
320 サブフレーム処理部
325 サブフレーム量子化部
403 ゲイン増幅部
発明を実施するための最良の形態
[0035] 以下、本発明の実施の形態について、図面を参照しながら説明する。
[0036] (実施の形態 1)
本実施の形態のオーディオ信号符号化装置は、フレーム毎に符号化するフレーム 符号化モードと、フレームをさらに 2以上に分割したサブフレーム毎に符号化するサ ブフレーム符号化モードとを選択することができる。さらに、サブフレーム符号化モー ドにおいて、サブフレーム毎に決定されたゲイン 力 S、時間的に連続するサブフレー ム間で同じ値である力、、異なる値である力、を示す情報を符号化する。決定されたゲイ ン値が全てのサブフレームで同じ値である場合、フレーム毎に 1つのゲイン値を決定 した場合と同様であるため、通常の処理(全てのサブフレームでゲイン値を同じ値で あるとみなした場合の符号化処理)とは異なる例外処理を行う。なお、本実施の形態 において、ゲインは、オーディオ信号のある振幅を 1としたときの比を表すものであり、 オーディオ信号の正規化に用いられる値である。
[0037] 図 3は、本実施の形態のオーディオ信号符号化装置の構成図である。
[0038] 同図のオーディオ信号符号化装置 300は、判断部 301と、フレーム処理部 310と、 サブフレーム処理部 320とを備える。なお、フレーム処理部 310は、図 1に示す従来 のオーディオ信号符号化装置 100に相当する。フレーム処理部 310が備える聴覚的 冗長性除去部 311と、情報量的冗長性除去部 312とは、それぞれ、図 1の聴覚的冗 長性除去部 101と、情報量的冗長性除去部 102とに相当する。また、聴覚的冗長性 除去部 311が備える聴覚モデル 313と、プレフィルタ部 314と、量子化部 315とは、 それぞれ、図 1の聴覚モデル 103と、プレフィルタ部 104と、量子化部 105とに相当 する。情報量的冗長性除去部 312が備えるロスレス符号化部 316は、図 1のロスレス 符号化部 106に相当する。したがって、ここでは同じ構成要素については説明を省 略し、異なる点を中心に説明する。
[0039] 判断部 301は、フレームに含まれるオーディオ信号に基づいて、サブフレーム毎に 符号化するべきか否かを判断することで、フレーム処理部 310とサブフレーム処理部 320とのいずれにオーディオ信号列を出力するかを決定する。
[0040] 具体的には、判断部 301は、入力されたオーディオ信号列に対して、サブフレーム 毎に最大振幅 (エネルギー)を検出することで、フレーム毎に符号化を行うべき(フレ ーム符号化モード)か、サブフレーム毎に符号化を行うべき(サブフレーム符号化モ ード)かを判断する。フレーム符号化モードが選択された場合は、入力されたオーデ ィォ信号列をフレーム処理部 310に出力する。サブフレーム符号化モードが選択さ れた場合は、入力されたオーディオ信号列をサブフレーム処理部 320に出力する。
[0041] サブフレーム処理部 320は、入力されたオーディオ信号列に対して、サブフレーム 毎に符号化を実行する。サブフレーム処理部 320は、聴覚的冗長性除去部 321と、 情報量的冗長性除去部 322とを備える。なお、情報量的冗長性除去部 322、及び、 該情報量的冗長性除去部 322が備えるロスレス符号化部 326は、図 1の情報量的冗 長性除去部 102とロスレス符号化部 106とに相当する。したがって、ここでは、情報量 的冗長性除去部 102とロスレス符号化部 106とについては説明を省略し、聴覚的冗 長性除去部 321につ!/、て説明する。
[0042] 聴覚的冗長性除去部 321は、サブフレーム毎に聴覚的な冗長性を除去する。聴覚 的冗長性除去部 321は、聴覚モデノレ 323と、プレフイノレタ部 324と、サブフレーム量 子化部 325とを備える。なお、聴覚モデル 323とプレフィルタ部 324とは、それぞれ、 図 1の聴覚モデル 103とプレフィルタ部 104と同じ構成である。したがって、ここでは、 聴覚モデル 323とプレフィルタ部 324とについては説明を省略し、サブフレーム量子 化部 325について説明する。
[0043] サブフレーム量子化部 325は、プレフィルタ部 324から入力されるオーディオ信号 歹 IJに対して、 1フレームのオーディオ信号を 2以上のサブフレームに分けて、サブフレ ーム毎に、ゲインを乗じて量子化を実施する。
[0044] サブフレーム量子化部 325に入力されるオーディオ信号列を y (i)として、ゲインを
Gpとした場合、量子化の対象となる値 x (i)について、式 1で示すような関係が得られ
[0045] (式 1) y (i) = Gp X x (i)
[0046] 式 1のような関係から、ゲイン Gpを決定することで、 x (i)が導出される。一般に、 x (i )は実数値であり、サブフレーム量子化部 325は、実数値である x (i)を整数値に量子 化する。そして、量子化された x (i)をロスレス符号化部 326へ出力する。
[0047] 図 4は、入力された 1フレームのオーディオ信号列を 4つのサブフレームに分割した ことを示す図である。図 4において、横軸に時間、縦軸にオーディオ信号の振幅を示 した。 1フレームのサンプル数を、特に限定しないが一例として、 128個のサンプルと した。 1フレームのオーディオ信号列を、 32個のサンプル毎に 4つのサブフレームに 均一に分割した場合を示した。なお、本発明は、サブフレームの数や各サブフレーム の長さが均一であることに拘らない。
[0048] 図 4の場合、サブフレーム 2及びサブフレーム 3の振幅がサブフレーム 1及びサブフ レーム 4の振幅と比較して大きい。このため、全てのサブフレームを均一に整数値に 量子化する場合、サブフレーム 2及びサブフレーム 3の振幅値を小さくするようなゲイ ンの値を取ると、サブフレーム 1及びサブフレーム 4の振幅値にゼロが頻出して、音質 劣化が発生する可能性がある。また、サブフレーム 1及びサブフレーム 4の振幅値を 確保するようにゲインの値を取ると、サブフレーム 2及びサブフレーム 3の値が大きく なることで、符号化効率が悪くなり、結果的にビットレートが高くなる可能性がある。
[0049] 以上のことから、図 4の場合は、サブフレーム 1及びサブフレーム 4に対して、サブフ レーム 2及びサブフレーム 3のサブフレーム量子化(設定すべきゲインの値)を切り替 えた方が音質劣化を抑え、かつ、符号化効率を高められる可能性がある。
[0050] 音質劣化を抑え、かつ、符号化効率を高める符号化を実施可能とするため、図 3に 示すように、サブフレーム量子化部 325は、入力された原音に相当するオーディオ信 号歹 !]、プレフィルタ部 324の出力結果、及び、聴覚モデル 323の出力のいずれか、 又は、全てを参照として用いてもよい。例えば、プレフィルタ部 324から入力されたォ 一ディォ信号列の振幅値の大小に関わらず、原音の振幅値に基づいて大振幅の前 にある小振幅を有するサブフレームでは、音質向上のために十分に大きなゲインを 確保してもよい。
[0051] 図 5は、符号化ストリーム構造の一例を示す図である。
[0052] ゲイン情報を格納するストリームの最初は、ゲインがどのように格納されるかを示す ゲインコンフィグレーション情報を示す。同図に示す例では、値力 S"0"の場合には、複 数のサブフレームに対して、ゲインがただ 1つの値を与える場合を示す。値が" 1 "の 場合には、複数のサブフレームに対して、ゲインが 2つ以上の値が与えられる場合を 示す。ゲインコンフィグレーション情報の設定は、判断部 301によって行われる。判断 部 301は、入力された 1フレームのオーディオ信号に対して、サブフレームで共通の ゲインの値を利用する力、 (値を" 0"に設定)、サブフレーム毎に異なるゲインの値を利 用するか (値を" 1 "に設定)を選択する。
[0053] すなわち、ゲインコンフィグレーション情報の先頭の値力 0"であることは、フレーム 符号化モードを実行することを示す。ゲインコンフィグレーション情報の先頭の値が" 1 "であることは、サブフレーム符号化モードを実行することを示す。
[0054] ゲインコンフィグレーション情報の先頭の値力 である場合に" 1 "に続く値として、 図 5に示すように、サブフレームの数力 つである場合、サブフレームより 1つ少ない 3 つの値" x"、 'V"、 "ζ"を格納する構造を有する。これらの" x"、 "y"、 "z"は、サブフレ ーム間の相互関係を示す値である。当然ながらサブフレームの数は 4に限定されな い。 "X"はサブフレーム 1とサブフレーム 2のゲインの値が同じ値である場合に、 "0"を 値としてとる。サブフレーム 1とサブフレーム 2のゲインの値が異なる場合には";!"を値 としてとる。 "y"はサブフレーム 2とサブフレーム 3のゲインの値が同じ値である場合に "0"を値としてとる。サブフレーム 2とサブフレーム 3のゲインの値が異なる場合には" 1"を値としてとる。 "z "はサブフレーム 3とサブフレーム 4のゲインの値が同じ値である 場合に" 0"を値としてとる。サブフレーム 3とサブフレーム 4のゲインの値が異なる場合 には "1"を値としてとる。ゲインコンフィグレーション情報の先頭の値力 1"である場合 に続くサブフレーム間の相互関係を示す値の設定は、サブフレーム量子化部 325に よって行われる。なお、当然ながら、 "0"ど '1"は反対の意味を持たせてもよい。すな わち、 "0"が時間的に連続するサブフレーム間でのゲインの値が異なる場合を示し、 "1 "が時間的に連続するサブフレーム間でのゲインの値が同じ値である場合を示し てもよい。
[0055] 以上のようにしてゲインコンフィグレーション情報を設定する。ゲインのコンフィグレ ーシヨン情報力 0"の場合は、ゲインのパラメタは全部で 1つしかない。また、ゲインの コンフィグレーション情報力 S、例えば" 1010"の場合は、ゲインのパラメタは 2つである 。具体的には、サブフレーム 1とサブフレーム 2のゲインの値が同じ値で、サブフレー ム 2とサブフレーム 3のゲインの値は異なる値で、サブフレーム 3とサブフレーム 4のゲ インのィ直が同じィ直となる。
[0056] なお、特異的に、ゲインのコンフィグレーション情報が" 1000"となる場合が考えら れる。この場合、通常の処理とは異なる例外的な処理を実行するものとする。このよう に例外的な処理を設けた理由は、以下の通りである。
[0057] ゲインのコンフィグレーション情報が" 1000"となる場合は、上記に述べた通常の意 味として捉えるとゲインの値が 2以上あり、しかしながら、サブフレーム 1からサブフレ ーム 4の全てのゲインの値が同じと定義されてしまう。つまり、ゲインコンフィグレーショ ン情報力 0"と" 1000"とは、 1つのフレーム(全てのサブフレーム)で単一のゲインを 有することを意味する。つまり、同じ情報を示すために、少なくとも 3ビットが無駄にな る。このように、判断部 301がサブフレーム符号化モードを選択し、サブフレーム毎に 分割して処理を行った場合であっても、フレーム符号化モードを実行した場合と、同 様の結果が出力されることがある。この場合、結果的に、符号化効率が悪くなつてし まうためである。
[0058] 通常の処理とは異なる例外的な処理として、サブフレームのゲインは、例えば、単 調増加(又は、単調減少)と定義する。
[0059] なお、符号化ストリームにおいて、ゲインコンフィグレーション情報に続ぐ実際のサ ブフレームのゲインを導出する符号化列については、まず、値 glが続き、さらに、値 d elta— gxが続く。ィ直 glは、サブフレーム 1に含まれるオーディオ信号の最大振幅など を利用して求められたゲインを符号化することで得られる値である。値 delta— gxは、 サブフレーム X— 1のゲインとサブフレーム Xのゲインとの差を符号化することで得られ る値である。 Xは 2以上の整数値であり、 Xの最大値はサブフレーム数(図 5では 4)で ある。
[0060] 値 gl及び値 delta— gxに対して、後述する復号化処理を行うことで、それぞれ、 G1 及び delta— Gxが導出される。 G1は、サブフレーム 1のゲインを示す値である。 delt a— Gxは、サブフレーム x— 1のゲインとサブフレーム xのゲインとの差を示す値であ
[0061] 1つのフレームでゲインの値が 1つの場合は、符号化処理では、符号化された値 gl のみがゲインコンフィグレーション情報に続く。復号化処理では、値 glからゲイン G1 を導出し、 G1 =G2 = G3 = G4とする。 1つのフレームでゲインの値が 2つ以上の異 なる値である場合は、符号化処理では、値 glに続いて、値 delta— g2、 delta— g3、 delta— g4が続く。復号化処理では、まず、値 glからゲイン G1を導出する。続いて、 delta— g2を復号化した値である delta— G2から、 G2 = G1 + delta— G2を算出す る。以下、 delta— g3及び delta— g4を復号化し、順次、ゲイン G3及び G4を算出す
[0062] 図 6はビットストリームシンタックスの一例であり、図 5の符号化ストリーム構造例をよ り具体的に示したものである。 "syntax"側に書かれたものがビットストリームシンタック スの一例で、 "number of bits"がその際に使用されるビット数の一例である。 synt axにボールドフォントのイタリック体で記載されたもの力 S、ビットストリームとして符号化 されるべきものである。ボールドフォントでないイタリック体で記載されたものは、一度 ビットストリームとして読み込まれた場合にその値を保持した変数である。ビット数で記 載のある numGainBits、 numMonoDeltaBits及び numDeltaBitsは、実装の際 に、ある整数値があてがわれる。
[0063] 図 6において、 bs— multi— gainは、ゲインが単一であるの力、、複数のサブフレー ムで少なくとも 2つ以上の異なる値からなるのかを識別するフラグ情報である。すなわ ち、図 5のゲインコンフィグレーション情報の先頭の値を示す。例として、図 5と同様に 、 bs― multi― gainが 0であれば'、ゲインは単一であることを示す。 bs― multi― gain 力 S iであれば複数のサブフレームで少なくとも 2つ以上の異なる値からなることを示す
[0064」 bs一 same一 gain[num」(ま、 num— 1番目のサフ、、フレーム (以下、 num— 1サフ、、フ レームと記す)のゲインと、 num番目のサブフレーム(以下、 numサブフレームと記す )のゲインとが同一であるかどうかを識別するフラグ情報である。すなわち、図 5のゲイ ンコンフィグレーション情報の "x"、 "y"、 "z "を示す。例として、 bs— same— gain [nu m]が 0である場合は、 num— 1サブフレームと numサブフレームのゲインが同一であ ることを示す。 bs— same— gain [num]が 1である場合は、違う値のゲインであること を示す。
[0065] bs— gain[0]は、ゲインを導出するために用いられる値である。ゲインが単一である
(bs— multi— gainが 0である)場合は、 bs— gain[0]を用いて導出されるゲイン値が 、全てのサブフレームのゲイン値である。複数のサブフレームで少なくとも 2つ以上の 異なる値からなる(bs— multi— gainが 1である)場合は、 bs— gain[0]を用いて導出 されるゲイン値は、最初のサブフレームのゲイン値である。
[0066] bs— same— gain[num]が 0であるフレームにおいては、 numが小さなフレームか ら順に、 num— 1サブフレームと numサブフレームのゲインの差を導出(又は、 num サブフレームのゲイン値を導出)する値を、 bs— delta [num]として符号化して!/、る。
[0067] 図 6に示す syntaxでは、 bs— same— gain [num]が全て 0である場合に備え、例 外処理を行う記載がなされている。ここでは、例外処理として、ゲインが単調増加する ことを意味している。したがって、あるサブフレームとその直前のサブフレームとの差 分を導出する値を bs— mono— deltaとして符号化している。すなわち、 bs— mono —deltaは、単調増加の増加割合を導出するための値である。よって、単調増加の増 加量を直接符号化してもよぐまた、間接的にテーブルなどから導出してもよい。
[0068] 次に、本実施の形態のオーディオ信号符号化装置の動作について説明する。
[0069] 図 7は、本実施の形態のオーディオ信号符号化装置の動作を示すフローチャート である。
[0070] 判断部 301は、オーディオ信号列が入力されると、フレーム符号化処理モード及び サブフレーム符号化モードのいずれかを選択する(S 101)。すなわち、図 6の bs— m ulti— gainを決定する。フレーム符号化モードが選択された場合(S 101で No)、ォ 一ディォ信号列をフレーム処理部 310へ出力する。この場合、フレーム処理部 310 において、 bs— multi— gainが 0と設定される。サブフレーム符号化モードが選択さ れた場合(S 101で Yes)、オーディオ信号列をサブフレーム処理部 320へ出力する 。この場合、サブフレーム処理部 320において、 bs— multi— gainが 1と設定される。
[0071] 具体的には、判断部 301は、オーディオ信号列の最大振幅を用いてオーディオ信 号列の変動を検出する。オーディオ信号に変動がほとんどない場合、例えば、最大 振幅がある閾値以下である場合は、フレーム毎で量子化及び符号化するべきであり 、オーディオ信号列をフレーム処理部 310へ出力する。逆に、最大振幅がある閾値よ り大きい場合は、サブフレーム毎で量子化及び符号化するべきであり、オーディオ信 号列をサブフレーム処理部 320へ出力する。図 4の例のオーディオ信号列は変動が 大きいために、サブフレーム処理部 320へ出力され、サブフレーム毎に量子化及び 符号化される。
[0072] サブフレーム符号化モードが選択された場合(S 101で Yes)、サブフレーム量子化 部 325は、サブフレーム毎にゲインを決定し、決定されたゲインの相互関係を検出す る(S 102)。具体的には、サブフレーム毎に決定されたゲイン値が同じ値であるか、 異なる値であるかを検出する。すなわち、図 5の "x"、 'V"、 "z"に相当する値を検出 する。
[0073] 次に、検出された相互関係(サブフレーム毎のゲインの値)を判断する(S 103)。決 定されたゲイン力 S、複数のサブフレームで少なくとも 2つ以上の異なる値である場合(
S 103で Yes)、サブフレーム毎にゲインを導出する(S 104)。
[0074] 具体的には、サブフレーム毎に決定されたゲインの値に対して、 1番目のサブフレ ームのゲインの値との差を算出する。
[0075] 決定されたゲイン力 S、全てのサブフレームで同じ値である場合(S 103で No)、例外 処理を実行する(S 105)。ここでは、例外処理の一例として、決定されたゲインが単 調増加(又は単調減少)するものとみなす。
[0076] 図 8は、例外処理が起こる可能性があるオーディオ信号列の一例を示す図である。 なお、このようなオーディオ信号列は、ノイズに近い音から楽音などにフェードインす る場合などに生じる。
[0077] 同図に示すオーディオ信号列が入力されると、判断部 301は、サブフレーム毎の最 大振幅を用いることでオーディオ信号の変動が大きいと判断することができ、サブフ レーム符号化モードを選択する。このとき、サブフレーム量子化部 325は、サブフレ ームに含まれるオーディオ信号列をエネルギーレベルで判断することでゲイン値を決 定するものとする。図 8に示す例では、サブフレーム 1〜サブフレーム 4のエネルギー は、ほぼ等しい。したがって、ゲイン値は全てのサブフレームで単一の等しい値となる 。つまり、ゲインコンフィグレーション情報は" 1000"となる。
[0078] なお、仮に図 8に示すオーディオ信号列に対して、判断部 301でフレーム符号化モ ードが選択されたとすると、サブフレーム 1〜サブフレーム 4を 1つのフレームとして判 断され、単一のゲイン値が決定される。これにより、サブフレーム符号化モードを選択 したにもかかわらず、フレーム符号化モードが選択された場合と同じ結果が出力され る。すなわち、サブフレーム符号化モードが選択されたことが無駄になる。
[0079] 以上のように、サブフレーム符号化モードが選択されたことが無駄になることを防ぐ ために、ゲインコンフィグレーション情報が" 1000"となった場合に、例外処理として、 ゲインが単調増加するものとみなして、サブフレーム毎にゲインの量子化及び符号化 処理を実行する。
[0080] なお、選択処理(S101)において、フレーム符号化モードが選択された場合(S10 1で No)、フレーム毎で 1つのゲインを決定し、決定されたゲインを量子化及び符号 化する(S106)。
[0081] 1つのフレームに対して、上記の処理(S10;!〜 S106)が終了すると、次のフレーム に対して、同じ処理を繰り返す。
[0082] 以上のように、本実施の形態では、サブフレーム符号化モードが選択された場合で あっても、フレーム符号化モードが選択された場合と同様の結果が生じる場合に、例 外的な処理を行う。これにより、処理が無駄になることを防ぐことができる。
[0083] ここで、本実施の形態との違いを明確にするために、従来のビットストリームシンタツ [0084] 図 10は、従来のビットストリームシンタックスの一例であり、このシンタックスは AAC 方式における複数のグルーピングと呼ばれるモジュールを構成するものである。この シンタックスにおいて、 window— sequenceが EIGHT— SHORT— SEQUENCE と同値になった場合に、 8つの MDCT (Modified Discrete Cosine Transform )係数列を何組かにグルーピングする構成である。 V、かにグループが構成されるかは ビットストリーム変数である scale— factor— grouping (7ビット)で示される。具体的 には、 8つの MDCT係数列が 1つ前の MDCT係数列とグループを構成するか否か を示す情報が各 1ビットずつの計 7ビットで符号化されるものである。全てのビットで同 じグループとして構成される情報が示された場合では、 8つの MDCT係数列が 1つ のグループとされ符号化及び復号化される定義となっているだけである。すなわち、 ゲインの単調増加などの別の処理に移ることはない。本実施の形態のように、結果的 に無駄が生じる場合に、無駄の発生を防ぐための例外処理を実行することはない。
[0085] 続いて、本実施の形態のオーディオ信号復号化方法を用いた装置について説明 する。
[0086] 図 9は、本実施の形態のオーディオ信号復号化装置の構成図である。同図のォー ディォ信号復号化装置 400は、符号化されたオーディオ信号を復号化する。オーデ ィォ信号復号化装置 400は、ロスレス復号化部 401と、ポストフィルタ部 402と、ゲイ ン増幅部 403とを備える。なお、ロスレス復号化部 401と、ポストフィルタ部 402とは、 図 1のロスレス復号化部 201と、ポストフィルタ部 202とに相当する。したがって、ロス レス復号化部 401と、ポストフィルタ部 402とについては説明を省略し、ゲイン増幅部 403について説明する。
[0087] ゲイン増幅部 403は、ポストフィルタ部 402から入力されるオーディオ信号に対して 、サブフレーム毎に、復号化されたオーディオ信号を増幅する。
[0088] 以上のように、本実施の形態のオーディオ信号符号化方法及び復号化方法によれ ば、符号化時に無駄となりうる符号化パターンに対して例外処理を行うことで、有効 に利用することができる。これにより、低遅延処理の利点を維持しつつ、音質劣化を 抑え、かつ、高効率な符号化を達成することが可能となる。
[0089] 以上、本実施の形態のオーディオ信号符号化方法及び復号化方法について説明 したが、以上の実施の形態に限定されることなぐ種々の変更が可能であり、それらも 本発明の範囲内に包含されるものであることは言うまでもない。
[0090] 例えば、例外処理として、サブフレームが単調増加するとみなせる場合において、 図 11に示すように、単調増加するサブフレームの個数を符号化してもよ!/、。
[0091] 図 11は、図 6とは異なる形態のビットストリームシンタックスの一例であり、図 5の符 号化ストリーム構造例をより具体的に示したものである。 "syntax"側に書かれたもの がビットストリームシンタックスの一例で、 "number of bits"がその際に使用される ビット数の一例である。 syntaxに、ボールドフォントのイタリック体で記載されたものが 、ビットストリームとして符号化されるべきものである。ボールドフォントでないイタリック 体で記載されたものは、一度ビットストリームとして読み込まれた場合にその値を保持 した変数である。ビット数で己載のある numGainBits、 numSubFrBits、 numMon oDeltaBits及び numDeltaBitsは、実装の際に、ある整数値があてがわれる。
[0092」 こお!/、て、 bs一 multi一 gain、 bs一 same一 gain[num」及び bs一 gain [0」(ま
、図 6の bs一 multi一 gain、 bs一 same一 gain[num]及び bs一 gain[0]と | じであ^) 。よって、これらについての説明は省略する。
[0093] 図 11において、図 6と同様に bs— same— gain[num]がすべて 0である場合にお いては、単調増加を意味している。 bs— num— contは、いくつのサブフレームが単 調増加するのかを導出する値である。そして、単調増加する個数のサブフレームに お!/、ては、あるサブフレームとその直前にサブフレームとの差分を導出する値を bs— mono— deltaとして符号化している。例えば、全サブフレーム数が 8つで、 bs— num —contによって 3つが単調増加であると導出される場合、サブフレーム 1からサブフ レーム 2、サブフレーム 2からサブフレーム 3、サブフレーム 3からサブフレーム 4と bs —mono— deltaで導出される差分値でゲインは単調増加する。それ以降のサブフレ ーム、つまり、サブフレーム 5からサブフレーム 8は、例えば、サブフレーム 4と同一の ィ直をとるとする。
[0094] 一方、 bs— same— gain[num]が 0であるフレームにおいては、 numが小さなフレ ームから順に、 num— 1サブフレームのゲインと numサブフレームのゲインとの差を 導出(又は、 numサブフレームのゲイン値を導出)する値を、 bs delta [num]として 符号化している。
[0095] 以上のように、図 11のビットストリームシンタックスでは、例外処理を実施する場合に おいて単調増加するサブフレームの個数を符号化することができる。これにより、符 号化効率を高めることができる。
[0096] また、本実施の形態では、判断部 301は、オーディオ信号の最大振幅を用いて、フ レーム符号化モードとサブフレーム符号化モードとを選択したが、最大振幅ではなく 、オーディオ信号のエネルギーを用いてもよい。
[0097] この場合であっても、図 12に示すようなオーディオ信号列が入力された場合、例外 処理を行う必要がある。図 12は、例外処理が起こる可能性があるオーディオ信号列 の一例を示す図であり、例えば、弦楽器又は打楽器で演奏された音源の場合のォー ディォ信号列をしめす。弦楽器又は打楽器の場合、一音あたりの強度 (最大振幅)は 同じであるが、サブフレームに入る数が違うため、図 12に示すようなオーディオ信号 列が得られる。
[0098] 図 12に示すように、判断部 301は、サブフレーム毎のエネルギーの変動が大きいこ と力、ら、サブフレーム符号化モードを選択する。このとき、サブフレーム量子化部 325 は、サブフレームに含まれるオーディオ信号歹 IJを最大振幅で判断することでゲイン値 を決定するものとする。図 12に示す例では、サブフレーム 1〜サブフレーム 4の最大 振幅はほぼ等しい。したがって、ゲイン値は全てのサブフレームで単一の等しい値と なる。つまり、ゲインコンフィグレーション情報は" 1000"となる。これにより、サブフレ ーム量子化部 325は、図 8の場合と同様に、例外処理を実行することとなる。
[0099] また、判断部 301は、エネルギーを用いて判定し、サブフレーム符号化モードを選 択した場合であっても、制限によりビットレートを上げることができない場合が考えられ る。この場合、結果的に、各サブフレームでビット消費の小さいものを選択せざるを得 なくなり、各サブフレームで同じ符号化処理を選択する。この場合も、ゲインコンフイダ レーシヨン情報は" 1000"となる。これにより、図 8及び図 12の場合と同様に、サブフ レーム量子化部 325は、例外処理を実行することになる。
[0100] また、図 13に示すように、 AACなどの方式では、フレーム間の接続における連続 性確保のため、時間的に前後するフレームがサブフレーム符号化モードで符号化さ れて!/、る場合、符号化の規程により現フレームもサブフレーム符号化を選択せざるを 得なくなる。これにより、現フレームのオーディオ信号列に変動がほとんどないのであ れば、ゲインコンフィグレーション情報は" 1000"となる。これにより、サブフレーム量 子化部 325は、例外処理を実行することとなる。
[0101] また、本実施の形態では、ゲインの値を導出する際に、ゲインの値が予め用意され たテーブルなどで定義されていてもよい。この場合は、 Gl =table (gl)などの方法 で復号化される場合もあり、その場合は、 G2 = table (gl + g2)や、 G2 = table (gl) + table2 (g2)などとして復号化される場合もある。
[0102] ゲインのコンフィグレーション情報によって、単調増加(単調減少)と定義された場合 においては、 G2力、ら G4のィ直は、 Gp = Gp- l + delta Gp、 Gp = table (gp - 1 + g p)、又は、 Gp = table (gp—l) +tablep (gp)などのように復号化される。この場合 p は 2以上の整数である。
[0103] また、 2つ以上のゲインの符号化において、差分符号化などを用いたが、差分情報 を用いず、 2つ目以降のゲインについて、前サブフレームのィ直を用いずにそのサブフ レームの値を直接復号化できる値を用いてもょレ、。
[0104] また、本実施の形態では、フレーム毎での処理とサブフレーム毎の処理とを明確に 分けて示すために、オーディオ信号符号化装置 300は、図 3に示すようにフレーム処 理部 310とサブフレーム処理部 320とを備えるとした力 例えば、聴覚モデル 313と 聴覚モデル 323、プレフィルタ部 314とプレフィルタ部 324、及び、ロスレス符号化部 316とロスレス符号化部 326とは、それぞれ共通としてもよい。
[0105] (実施の形態 2)
本実施の形態のオーディオ信号符号化方法及び復号化方法では、ロスレス符号化 を行う際の符号化効率に影響を与える量子化精度情報に対して、符号化及び復号 化を行う。すなわち、符号化及び復号化の対象がゲインではなぐ量子化精度情報 であるのが実施の形態 1と異なる点である。本実施の形態では、実施の形態 1と同じ 点は説明を省略し、異なる点を中心に説明する。
[0106] 本実施の形態のオーディオ信号符号化方法を実施する装置は、実施の形態 1と同 様に図 3に示すオーディオ信号符号化装置である。 [0107] 本実施の形態において、サブフレーム量子化部 325は、量子化精度情報を量子化 する。例えば、聴感上、重要なサンプルのオーディオ信号に対しては、十分な量子 化精度を保持するために、量子化精度情報 Rpを小さな値に設定する。
[0108] サブフレーム量子化部 325に入力されるオーディオ信号を、 y(i)として、量子化精 度情報を Rpとした場合、量子化の対象となる z (i)について、式 2で示すような関係が 得られる。
[0109] (式 2) y(i) = Rp X z (i)
[0110] 式 2のような関係から、量子化精度情報 Rpを決定することで、 z (i)が導出される。一 般に、 z (i)は実数値であるので、サブフレーム量子化部 325は、実数値である z (i)を 整数値に量子化する。そして、量子化された z (i)をロスレス符号化部 326へ出力する
[0111] 実施の形態 1に示した式 1と式 2を比較して判るように、ゲイン Gpが量子化精度情 報 Rpになり、それに伴い x(i)力 Sz (i)になっただけである。それ以外のモジュール、例 えばロスレス符号化部 326や聴覚モデル 323などに変更はない。
[0112] 以上のように、本実施の形態のオーディオ信号符号化方法及び復号化方法では、 音質劣化を抑え、聴感上、重要なサンプルのオーディオ信号に対して、量子化精度 情報 Rpを小さな値に設定することで、結果 z (i)の絶対値を大きくすることができる。こ れにより、実数力 整数値に変換する量子化の過程で生じる量子化誤差の影響を小 さくすることが可能となる。
[0113] (実施の形態 3)
本実施の形態のオーディオ信号符号化方法及び復号化方法は、時間周波数変換 を有するオーディオ信号符号化及び復号化方法へ適用することができる。この点が、 実施の形態 1及び 2が、主に時間周波数変換処理を伴わない、いわゆる時間領域の 符号化及び復号化方法であったこととの相違点である。
[0114] 1つ目の適用は、 MPEG2— AACに代表される、複数の変換長を有する一括直交 変換方式における系への適用である。
[0115] この系では、入力されたオーディオ信号をあるサンプルごとにフレームを構成し、そ のフレームのサンプルを一括直交変換して周波数スペクトル列を生成し、そのスぺク トルを量子化及び符号化するものである。 1フレームに対して 1つの一括直交変換す る場合と、 1フレームに対して時間的に連続な複数の一括直交変換する場合とを切り 替えて使用する。
[0116] 1フレームに対して、時間的に連続な複数の一括直交変換をして、各々の一括直 交変換から周波数スペクトル列を得るとき、各々の周波数スペクトル列に対する代表 ゲインに対して、実施の形態 1で述べた符号化方法を適用することで、符号化効率を 高めることが可能となる。
[0117] 2つ目の適用は、 Low Delay AACに代表される、単一の変換長を有する一括 直交変換方式における系への適用である。
[0118] この系では、入力されたオーディオ信号をあるサンプルごとにフレームを構成し、そ のフレームのサンプルを一括直交変換して周波数スペクトル列を生成し、そのスぺク トルを量子化及び符号化するものである。 1フレームに対して 1つの直交変換を施す ものである。
[0119] したがって、 1フレームに対して 1つの直交変換しかないため、 1フレーム内の時間 的な変動を得られない。この場合は、時間的な変動情報を直交変換とは関係なぐ 別途、予め時間的な複数のサブフレームを構成しておいて、その時間的なゲイン情 報を量子化し符号化するのに複数のサブフレームを用いる。復号化のプロセスでは 、一括直交変換で復号化された 1フレームのオーディオ信号に対して、前記の時間 的なゲイン情報で補正するなどに複数のサブフレームを用いてもょレ、。
[0120] 若しくは、 1つの直交変換から得られる周波数スペクトル列に対して、周波数軸上で 、複数のサブバンド(時間軸上のサブフレームに相当する)に分割して、各々のサブ バンドに対する代表ゲインに対して、実施の形態 1で述べた符号化方法を適用する ことで、符号化効率を高めることも可能である。
[0121] 3つ目の適用は、 QMF (Quadrature Mirror Filter)フィルタに代表される、時 間周波数マトリクスを構成するポリフェーズフィルター方式における系への適用である
[0122] この系では、複数の周波数サブバンドにおける複数サンプルからなる時間信号列 力 S得られるものである。したがって、ある時間サンプルにおける複数の周波数サブバ ンドの信号のゲインに対して、実施の形態 1で述べた符号化方法を適用してもよい。 また、ある周波数サブバンドを選んで、その周波数サブバンドの複数サンプルからな る時間信号列に対して、 1つ毎又は幾つか毎に、グルーピングした代表ゲインに対し て、実施の形態 1で述べた符号化方法を適用してもよい。
[0123] 4つ目の適用は、 3つ目の適用であるポリフェーズフィルター方式に加えて、追加処 理として、 DCTに代表される一括直交変換を加えた系における適用である。
[0124] この系では、ポリフェーズフィルター方式での出力は 3つ目の適用と同様であるが、 サブバンドの周波数間隔が大き!/、場合などにお!/、ては、特に低域成分の周波数分 解能が不足する。したがって、低域周波数成分の周波数分解能を向上させるため、 ポリフェーズフィルターからの出力のうち、低域周波数成分に相当する時間信号列に 対して、離散コサイン変換 (DCT変換)などの直交変換を用いて、時間周波数変換し 、低域の周波数分解能を向上させるものである。
[0125] この 4つ目の適用では、前記 2つ目と 3つ目の適用の組み合わせで実現でき、例え ば、低域においては、 2つ目の適用と同様の手法をとり、高域においては、 3つ目の 手法を適用することができ、同様に符号化効率を高めることができる。
[0126] 以上、オーディオ信号符号化方法及び復号化方法における時間周波数変換を有 する様々な系においても、基本的に実施の形態 1と同様の符号化方法及び復号化 方法を用いれば、符号化効率を高めることができる。上記ではゲインの符号化につ いて、述べたが、量子化精度に置き換えて実施の形態 2と同様の符号化方法及び復 号化方法を実施しても、同じように符号化効率の向上が期待できる。
[0127] 以上のように、本実施の形態のオーディオ信号符号化方法及び復号化方法は、符 号化対象をいくつかのグループ(例えば、時間軸上のフレーム及び周波数軸上のバ ンド)に分割して符号化する場合に、さらに、 1つのグループを複数のサブグループ( 例えば、時間軸上のサブフレーム及び周波数軸上のサブバンド)に分割して、サブグ ループ毎に符号化する場合に適用することができる。
[0128] 以上、本発明のオーディオ信号符号化方法及び復号化方法について、実施の形 態に基づいて説明した力 本発明は、この実施の形態に限定されるものではない。 本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施し たものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、 本発明の範囲内に含まれる。
[0129] 例えば、本実施の形態では、例外処理としてゲイン値などを単調増加又は単調減 少するものとみなす処理を用いたが、通常の処理でなければいかなる処理であって もよい。例えば、サブフレーム毎にゲイン値などが大小 2つの値を交互にとるとみなす 処理でもよい。また、サブフレーム毎にゲインィ直などがあらかじめ定められた規則に 従って変動するとみなす処理でもよレ、。
[0130] また、本実施の形態では、ゲイン値又は量子化精度を決定する値を量子化及び符 号化するとしたが、量子化及び符号化の対象はこれらに限られない。オーディオ信 号の符号化に関する他の値を量子化及び符号化するとしてもよい。
[0131] 本発明のオーディオ信号符号化方法及び復号化方法に含まれるステップをコンビ ユータに実行させるプログラムとして実現したり、そのプログラムを記録したコンビユー タ読み取り可能な CD— ROMなどの記録媒体として実現したり、そのプログラムを示 す情報、データ又は信号として実現したりすることもできる。そして、それらプログラム 、情報、データ及び信号は、インターネット等の通信ネットワークを介して配信してもよ い。
産業上の利用可能性
[0132] 本発明のオーディオ信号符号化方法及び復号化方法は、従来からオーディオ符 号化及び復号化方法が適用されていたあらゆるアプリケーションにおいて、適用可 能である。特に放送コンテンツの伝送、 DVDや SDカードなどの蓄積媒体に記録さ れ再生される応用、携帯電話に代表される通信機器に AVコンテンツを伝送する場 合などに用いることができる。また、インターネット上でやりとりされる電子データとして 、オーディオ信号を伝送する場合においても有用である。

Claims

請求の範囲
[1] オーディオ信号を符号化するオーディオ信号符号化方法であって、
前記オーディオ信号を複数のサンプル毎に分割したフレームに含まれるオーディ ォ信号に基づレ、て、前記フレームを 2以上に分割したサブフレーム毎に符号化すベ きか否かを前記フレーム毎に判断する判断ステップと、
前記サブフレーム毎に符号化すべきと判断された場合に、前記サブフレーム毎に、 該サブフレームのオーディオ信号の特性を示す値を決定し、決定された前記値を用 いて前記オーディオ信号を符号化するサブフレーム処理ステップとを含み、
前記サブフレーム処理ステップでは、
前記サブフレーム毎に決定された前記値が全て同じであるか否かを判定し、前記 値が全て同じである場合、例外処理として前記値が示すオーディオ信号の特性とは 異なる特性を用いて、前記オーディオ信号を符号化する
ことを特徴とするオーディオ信号符号化方法。
[2] 前記サブフレーム処理ステップでは、
隣接するサブフレーム間で前記値が同じ値であるか異なる値であるかを識別する 識別符号を、全てのサブフレーム間に対して符号化し、
全ての前記識別符号が、全ての前記値が同じであることを示す場合に、前記例外 処理として前記値が示すオーディオ信号の特性とは異なる特性を用いて、前記ォー ディォ信号を符号化する
ことを特徴とする請求項 1記載のオーディオ信号符号化方法。
[3] 前記例外処理では、前記値が、隣接するサブフレーム間において単調増加するも のとみなすことで、前記オーディオ信号を符号化する
ことを特徴とする請求項 1記載のオーディオ信号符号化方法。
[4] 前記例外処理では、前記値が、隣接するサブフレーム間において単調減少するも のとみなすことで、前記オーディオ信号を符号化する
ことを特徴とする請求項 1記載のオーディオ信号符号化方法。
[5] 前記値は、前記オーディオ信号の正規化に用いられるゲイン値である
ことを特徴とする請求項;!〜 4のいずれか 1項に記載のオーディオ信号符号化方法 [6] 前記値は、量子化精度を決定する値である
ことを特徴とする請求項;!〜 4のいずれか 1項に記載のオーディオ信号符号化方法
[7] 請求項 1記載のオーディオ信号符号化方法によって符号化されたオーディオ信号 の符号化列を復号化するオーディオ信号復号化方法であって、
前記符号化列が前記サブフレーム処理で符号化されて!/、る場合、前記例外処理 が実行されてレ、ることを識別することで、前記符号化列を復号化する復号化ステップ を含む
ことを特徴とするオーディオ信号復号化方法。
[8] オーディオ信号を符号化するオーディオ信号符号化装置であって、
前記オーディオ信号を複数のサンプル毎に分割したフレームに含まれるオーディ ォ信号に基づレ、て、前記フレームを 2以上に分割したサブフレーム毎に符号化すベ きか否かを前記フレーム毎に判断する判断手段と、
前記サブフレーム毎に符号化すべきと判断された場合に、前記サブフレーム毎に、 該サブフレームのオーディオ信号の特性を示す値を決定し、決定された前記値を用 いて前記オーディオ信号を符号化するサブフレーム処理手段とを備え、
前記サブフレーム処理手段は、
前記サブフレーム毎に決定された前記値が全て同じであるか否かを判定し、前記 値が全て同じである場合、例外処理として前記値が示すオーディオ信号の特性とは 異なる特性を用いて、前記オーディオ信号を符号化する
ことを特徴とするオーディオ信号符号化装置。
[9] 請求項 9記載のオーディオ信号符号化装置によって符号化されたオーディオ信号 の符号化列を復号化するオーディオ信号復号化装置であって、
前記符号化列が前記サブフレーム処理で符号化されて!/、る場合、前記例外処理 が実行されて!/、ることを識別することで、前記符号化列を復号化する復号化手段を 備える
ことを特徴とするオーディオ信号復号化装置。 [[1100]] オオーーデディィオオ信信号号をを符符号号化化すするるオオーーデディィオオ信信号号符符号号化化方方法法ををココンンピピュューータタにに実実行行ささ せせるるププロロググララムムででああっってて、、
前前記記オオーーデディィオオ信信号号をを複複数数ののササンンププルル毎毎にに分分割割ししたたフフレレーームムにに含含ままれれるるオオーーデディィ ォォ信信号号にに基基づづレレ、、てて、、前前記記フフレレーームムをを 22以以上上にに分分割割ししたたササブブフフレレーームム毎毎にに符符号号化化すすベベ ききかか否否かかをを前前記記フフレレーームム毎毎にに判判断断すするる判判断断スステテッッププとと、、
前前記記ササブブフフレレーームム毎毎にに符符号号化化すすべべききとと判判断断さされれたた場場合合にに、、前前記記ササブブフフレレーームム毎毎にに、、 該該ササブブフフレレーームムののオオーーデディィオオ信信号号のの特特性性をを示示すす値値をを決決定定しし、、決決定定さされれたた前前記記値値をを用用 いいてて前前記記オオーーデディィオオ信信号号をを符符号号化化すするるササブブフフレレーームム処処理理スステテッッププととをを含含みみ、、
前前記記ササブブフフレレーームム処処理理スステテッッププでではは、、
前前記記ササブブフフレレーームム毎毎にに決決定定さされれたた前前記記値値がが全全てて同同じじででああるるかか否否かかをを判判定定しし、、前前記記 値値がが全全てて同同じじででああるる場場合合、、例例外外処処理理ととししてて前前記記値値がが示示すすオオーーデディィオオ信信号号のの特特性性ととはは 異異ななるる特特性性をを用用いいてて、、前前記記オオーーデディィオオ信信号号をを符符号号化化すするる
Figure imgf000028_0001
[[1111]] 請請求求項項 1100記記載載ののププロロググララムムをを記記録録すするるココンンピピュューータタ読読みみ取取りり可可能能なな記記録録媒媒体体。。
PCT/JP2007/073503 2006-12-13 2007-12-05 オーディオ信号符号化方法及び復号化方法 WO2008072524A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008549262A JP5238512B2 (ja) 2006-12-13 2007-12-05 オーディオ信号符号化方法及び復号化方法
US12/438,915 US8160890B2 (en) 2006-12-13 2007-12-05 Audio signal coding method and decoding method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-335399 2006-12-13
JP2006335399 2006-12-13

Publications (1)

Publication Number Publication Date
WO2008072524A1 true WO2008072524A1 (ja) 2008-06-19

Family

ID=39511545

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/073503 WO2008072524A1 (ja) 2006-12-13 2007-12-05 オーディオ信号符号化方法及び復号化方法

Country Status (3)

Country Link
US (1) US8160890B2 (ja)
JP (1) JP5238512B2 (ja)
WO (1) WO2008072524A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014504075A (ja) * 2010-11-30 2014-02-13 クゥアルコム・インコーポレイテッド 拡張シグマデルタ変調の実施

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830063A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for decoding an encoded audio signal

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002026738A (ja) * 2000-07-11 2002-01-25 Mitsubishi Electric Corp オーディオデータ復号処理装置および方法、ならびにオーディオデータ復号処理プログラムを記録したコンピュータ読取可能な記録媒体
JP2003332914A (ja) * 2001-08-23 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号符号化方法、復号化方法、これらの装置及びプログラム
JP2005049429A (ja) * 2003-07-30 2005-02-24 Sharp Corp 符号化装置及びそれを用いた情報記録装置
JP2005165183A (ja) * 2003-12-05 2005-06-23 Matsushita Electric Ind Co Ltd 無線通信装置
JP2005260373A (ja) * 2004-03-09 2005-09-22 Ricoh Co Ltd 画像復号装置、画像復号方法、プログラム及び情報記録媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
EP1292036B1 (en) 2001-08-23 2012-08-01 Nippon Telegraph And Telephone Corporation Digital signal decoding methods and apparatuses
DE102004007191B3 (de) 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
US7752039B2 (en) * 2004-11-03 2010-07-06 Nokia Corporation Method and device for low bit rate speech coding
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
PL3288027T3 (pl) * 2006-10-25 2021-10-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób do generowania wartości podpasm audio o wartościach zespolonych

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002026738A (ja) * 2000-07-11 2002-01-25 Mitsubishi Electric Corp オーディオデータ復号処理装置および方法、ならびにオーディオデータ復号処理プログラムを記録したコンピュータ読取可能な記録媒体
JP2003332914A (ja) * 2001-08-23 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号符号化方法、復号化方法、これらの装置及びプログラム
JP2005049429A (ja) * 2003-07-30 2005-02-24 Sharp Corp 符号化装置及びそれを用いた情報記録装置
JP2005165183A (ja) * 2003-12-05 2005-06-23 Matsushita Electric Ind Co Ltd 無線通信装置
JP2005260373A (ja) * 2004-03-09 2005-09-22 Ricoh Co Ltd 画像復号装置、画像復号方法、プログラム及び情報記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014504075A (ja) * 2010-11-30 2014-02-13 クゥアルコム・インコーポレイテッド 拡張シグマデルタ変調の実施

Also Published As

Publication number Publication date
US8160890B2 (en) 2012-04-17
US20100042415A1 (en) 2010-02-18
JP5238512B2 (ja) 2013-07-17
JPWO2008072524A1 (ja) 2010-03-25

Similar Documents

Publication Publication Date Title
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
US8010348B2 (en) Adaptive encoding and decoding with forward linear prediction
RU2455709C2 (ru) Способ и устройство для обработки аудиосигнала
JP3592473B2 (ja) 周波数領域内のlpc予測による時間領域内での知覚ノイズ整形
CN1918632B (zh) 音频编码
JP2019080347A (ja) パラメトリック・マルチチャネル・エンコードのための方法
US8041563B2 (en) Apparatus for coding a wideband audio signal and a method for coding a wideband audio signal
KR101162275B1 (ko) 오디오 신호 처리 방법 및 장치
EP2159790B1 (en) Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
EP1335353A2 (en) Decoding apparatus, encoding apparatus, decoding method and encoding method
JP2010020346A (ja) 音声信号および音楽信号を符号化する方法
US20100010810A1 (en) Post filter and filtering method
IL201469A (en) Formulation of a temporary envelope for spatial drilling using WIENER DOMAIN filter for frequency
US9008811B2 (en) Methods and systems for adaptive time-frequency resolution in digital data coding
KR20010021226A (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
US20100268542A1 (en) Apparatus and method of audio encoding and decoding based on variable bit rate
CN114550732B (zh) 一种高频音频信号的编解码方法和相关装置
KR20060113999A (ko) 정보 신호의 양자화 방법 및 장치
CN1918631B (zh) 音频编码设备、方法和音频解码设备、方法
JP2007504503A (ja) 低ビットレートオーディオ符号化
KR100378796B1 (ko) 디지탈 오디오 부호화기 및 복호화 방법
KR100668319B1 (ko) 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치
US20080133250A1 (en) Method and Related Device for Improving the Processing of MP3 Decoding and Encoding
WO2008072524A1 (ja) オーディオ信号符号化方法及び復号化方法
JP4721355B2 (ja) 符号化データの符号化則変換方法および装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07850127

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008549262

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12438915

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07850127

Country of ref document: EP

Kind code of ref document: A1