WO2006008932A1 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
WO2006008932A1
WO2006008932A1 PCT/JP2005/011998 JP2005011998W WO2006008932A1 WO 2006008932 A1 WO2006008932 A1 WO 2006008932A1 JP 2005011998 W JP2005011998 W JP 2005011998W WO 2006008932 A1 WO2006008932 A1 WO 2006008932A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
encoded data
data
code
signal
Prior art date
Application number
PCT/JP2005/011998
Other languages
English (en)
French (fr)
Inventor
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to ES05755783.7T priority Critical patent/ES2634511T3/es
Priority to CN200580024433XA priority patent/CN1989549B/zh
Priority to EP05755783.7A priority patent/EP1768106B8/en
Priority to JP2006528766A priority patent/JPWO2006008932A1/ja
Priority to EP17169131.4A priority patent/EP3276619B1/en
Priority to US11/658,150 priority patent/US8670988B2/en
Publication of WO2006008932A1 publication Critical patent/WO2006008932A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • the present invention relates to a speech coding apparatus and speech coding method, and in particular, a speech coding apparatus and speech used for transmitting code format data having different format types in a voiced section and a silent section.
  • the present invention relates to an encoding method.
  • the audio signal includes an audio component having a predetermined level or higher. Silence means that the audio signal does not contain audio components above a predetermined level. If the audio signal contains only a noise component that is different from the audio component, the audio signal is recognized as silence.
  • One such transmission technique is called DTX control (see Non-Patent Document 1 and Non-Patent Document 2, for example).
  • the speech / silence determination unit 11 uses a unit of a predetermined length section (corresponding to the frame length). For voice signals separated by, whether or not there is sound is determined for each section.
  • the code data generated by the speech encoding unit 12 is output from the DTX control unit 13 as a sound frame.
  • the sound frame is output together with the frame type information for notifying the transmission of the sound frame.
  • a sound frame has a format composed of Nv-bit information.
  • the comfort noise encoding unit 14 performs silence frame encoding.
  • Silent frame coding is coding for obtaining a signal simulating ambient noise in a silent section on the decoding side, and is a code that is performed with a smaller amount of information, that is, the number of bits compared to a voiced section.
  • the codeh data generated by the silent frame code ⁇ is a so-called SID (Silence It is output from the DTX control unit 13 as a Descriptor frame. At this time, the SID frame is output together with the frame type information for notifying the transmission of the SID frame.
  • the SID frame has a format composed of information of Nuv bits (Nuv and Nv) as shown in FIG. 2B, for example.
  • the encoded information is not transmitted except when the SID frame is transmitted in the silent period. In other words, transmission of silent frames is omitted.
  • the frame type information for notifying transmission of the silent frame is output from the DTX control unit 13. In this way, in DTX control, control is performed so that discontinuous transmission is performed, so the amount of information transmitted through the transmission path, the amount of information decoded on the decoding side, is reduced in the silent section. Is done.
  • Non-Patent Reference 2 "Mandatory speech codec speech processing iunctions Adaptive Multi -Rate (AMR) speech codec; Source controlled rate operation, 3rd Generation Part nership Project, TS26.093
  • the speech decoding apparatus decodes the received encoded data. I can't.
  • An object of the present invention is to allow a decoding side to freely select a speech decoding mode corresponding to a control method used in association with a speech code, and the decoding side does not support the control method. It is also intended to provide a speech coding apparatus and speech coding method that can generate decodable data. Means for solving the problem
  • the speech encoding apparatus of the present invention outputs first encoded data corresponding to an audio signal including an audio component and second encoded data corresponding to an audio signal not including the audio component.
  • a speech encoding apparatus that encodes an input speech signal in units of predetermined intervals
  • An encoding unit that generates data; a determination unit that determines whether or not the input audio signal includes the audio component; and a determination that the audio component is not included in the encoded data.
  • the speech decoding apparatus includes a first decoding unit that decodes encoded data combined with noise data to generate a first decoded speech signal, and a second decoding unit that decodes only the noise data.
  • a configuration having second decoding means for generating an audio signal and selection means for selecting one of the first decoded audio signal and the second decoded audio signal is adopted.
  • the speech encoding method of the present invention outputs first encoded data corresponding to an audio signal including an audio component and second encoded data corresponding to an audio signal not including the audio component.
  • a synthesis step for obtaining the first encoded data and the second encoded data.
  • the speech decoding method of the present invention includes a first decoding step of decoding encoded data obtained by synthesizing noise data to generate a first decoded speech signal, and a second decoding by decoding only the noise data.
  • the decoding side can freely select a speech decoding mode corresponding to the control method used in association with the speech code, and the decoding side does not support the control method. Both can generate decodable data.
  • FIG. 1 is a block diagram showing an example of the configuration of a conventional speech coding apparatus.
  • FIG. 2 is a diagram showing an example of a conventional voiced frame configuration and a conventional so-called SID frame configuration.
  • FIG. 3 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 1 of the present invention.
  • FIG. 4A is a block diagram showing an example of the configuration of the speech decoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 4B is a block diagram showing another example of the configuration of the speech decoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 5 is a diagram showing an example of a format type according to the first embodiment of the present invention.
  • FIG. 6 is a diagram showing a modification of the format type according to the first embodiment of the present invention.
  • FIG. 7 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 2 of the present invention.
  • FIG. 8 is a block diagram showing a configuration of a speech code key unit according to Embodiment 2 of the present invention.
  • FIG. 9 is a block diagram showing a configuration of a first code candidate generating unit according to Embodiment 2 of the present invention.
  • FIG. 10 is an operation explanatory diagram of a first code candidate generation unit according to Embodiment 2 of the present invention.
  • FIG. 11A is a block diagram showing a configuration of a scalable coding apparatus according to Embodiment 3 of the present invention.
  • FIG. 11B is a block diagram showing a configuration of a scalable decoding device according to Embodiment 3 of the present invention.
  • FIG. 3 is a block diagram showing the configuration of the speech coding apparatus according to Embodiment 1 of the present invention.
  • FIG. 4A is a block diagram showing an example of the configuration of the speech decoding apparatus according to the present embodiment
  • FIG. 4B is a block diagram showing another example of the configuration of the speech decoding apparatus according to the present embodiment.
  • the speech coding apparatus 100 includes a speech coding unit 102, a bit embedding unit 104, a sound / silence determination unit 106, a frame type determination unit 108, and a silence parameter analysis / code unit 110.
  • Voice coding unit 102 codes an input voice signal in a unit (frame) of a predetermined length, and generates coded data composed of a plurality of (for example, Nv) bit coded bit strings.
  • the voice code key unit 102 arranges the code key sequence of Nv bits obtained at the time of the code key so that the format of the generated code key data is always the same. ⁇ of data Generate. Also, the number of bits of the code key data is predetermined.
  • the sound / silence determination unit 106 determines whether or not the input sound signal includes a power component for each of the sections described above, and sets the sound / silence determination flag indicating the determination result to the frame type determination unit 108 and the sound Output to parameter analysis 'sign part 110'.
  • the frame type determination unit 108 uses the input voice / silence determination flag to convert the encoded data generated by the voice encoding unit 102 into three types of frames: (a) a voice frame. , (B) Silent frame (with embedding), or (c) Silent frame (without embedding).
  • the sound / silence determination flag indicates sound
  • (a) the sound frame is determined. If the sound / silence determination flag indicates silence, it is determined to be (b) silence frame (with embedding) or (c) silence frame (without embedding).
  • the sound / silence determination flag indicating silence is continuous, in other words, when the silence period is continued, only frames (encoded data) in a certain period are (b) silence frames ( (Embedded) is determined, and the others are determined as (c) silent frames (not embedded). Or, if the sound / silence determination flag indicating silence is continuous, it is determined only when the signal characteristics of the input audio signal are converted to (b) silence frame (embedded), and the others are (c) silence frame. (No embedding). By doing so, the load of the embedding process in the bit embedding unit 104 can be reduced. The determined result is output as frame type information.
  • the frame type information is information notified to the silence parameter analysis / encoding unit 110 and the bit embedding unit 104, and is also information transmitted together with the encoded data.
  • Silence parameter analysis / encoding section 110 when the input speech signal is determined to be silent by the utterance / silence determination section 106, that is, in the silent section, the silence parameter encoded data as simulated noise data is Generate.
  • the information obtained by averaging the signal characteristics of the input audio signal in continuous silence sections is used as a silence parameter.
  • Examples of information included in the silence parameter include spectral outline information obtained by LPC (Linear Predictive Coding) analysis, energy of the audio signal, and gain information of the driving sound source signal in LPC spectrum synthesis.
  • the silence parameter analysis / code unit 110 encodes the silence parameter with the number of bits (for example, Nuv bits) that is smaller than the input voice signal in the voiced section, and generates silence parameter encoded data. That is, the number of bits of the silence parameter code data is smaller than the number of bits of the input voice signal encoded by the voice code unit 102 (Nuv to Nv).
  • the generated silent parameter code key data is output when the frame type information output from the frame type determination unit 108 indicates a silent frame (embedded).
  • the bit embedding unit 104 outputs a voice frame or a silent frame (no embedment) when the frame type information output from the frame type determination unit 108 indicates a sound frame or a silent frame (embedding not considered).
  • the signed frame is output as it is. Therefore, the format of the code key data output in this case is the same as the format of the code key data generated by the voice code key unit 102 as shown in FIG.
  • the code code data output from the speech code key unit 102 includes Silence Parameter Analysis ⁇
  • the silence parameter code data output from the encoder 110 is embedded.
  • code key data in which silence parameter code key data is embedded is output. Therefore, the encoded data output in this case is a silent parameter code code at a predetermined position in the code data generated by the voice code key unit 102, as shown in FIG. It has a format type with embedded data.
  • the silent parameter code data is embedded in the code data
  • the code data can be transmitted without changing the frame size of the code data.
  • the silence parameter encoded data is embedded at a predetermined position of the encoded data, it is possible to simplify the control process when embedding the silence meter code key data.
  • the bit embedding unit 104 replaces the Nuv bit arranged at a predetermined position among the ⁇ bits of the code key data with silence parameter code key data composed of Nuv bits.
  • silence parameter code data can be transmitted instead of some bits of the code data obtained by the code.
  • the encoded data Both the remaining bits of the data and the silence parameter code data can be transmitted.
  • the bit embedding unit 104 overwrites the Nuv bit arranged at a predetermined position among the Nv bits of the encoded data with the silence parameter code data consisting of the Nuv bits. In this way, a part of the bits of the code key data obtained by the code key can be erased and the silent parameter code key data can be transmitted. In addition, since a part of the code data consisting of Nv bits is overwritten with the silence parameter encoded data, both the remaining bits of the encoded data and the silence parameter code data can be transmitted.
  • bit replacement or overwriting has a low impact on the quality of the decoded speech signal even if these are performed, the bit of low importance is added to the code bit sequence obtained at the time of code key. This is especially effective when there is
  • the bit embedding unit 104 synthesizes the silence parameter encoded data and the encoded data by embedding or adding the silence parameter encoded data.
  • frame format switching control is performed so that code data having different types of formats is acquired depending on whether or not this synthesis is performed.
  • the frame format type is different depending on whether silence parameter code data is combined with code data or not, and the basic frame configuration remains unchanged.
  • a data series can be transmitted.
  • the frame size of the code data changes, so it is preferable to transmit information on the frame size together with the code data in an arbitrary format.
  • silence parameter encoded data is embedded at a predetermined position of encoded data.
  • the method of embedding silence parameter encoded data is not limited to the above.
  • the bit embedding unit 104 adaptively determines the position where the silence parameter encoded data is embedded every time embedding is performed. Also good. In this case, the position of the bit to be replaced or the position of the bit to be overwritten can be adaptively changed according to the sensitivity and importance of each bit.
  • the speech decoding device 150a has a configuration that does not have a function corresponding to the frame format switching control of the speech encoding device 100, but the speech decoding device 150b has a configuration that has the function.
  • Speech decoding apparatus 150a shown in Fig. 4A has speech decoding section 152.
  • the speech decoding unit 152 receives the code data transmitted from the speech coding apparatus 100 via the transmission path. Also, the received code key data is decoded on a frame basis. More specifically, a decoded audio signal is generated by decoding the encoded data constituting the received encoded data.
  • the received code key data includes the code key data whose format changes depending on whether the silent parameter code key data is synthesized. However, since the encoded data is continuously transmitted without changing the basic frame configuration, the speech decoding apparatus 150a that does not support the frame format switching control can receive the encoded signal received from the speech encoding apparatus 100. Data can be decrypted.
  • Speech decoding apparatus 150b shown in FIG. 4B includes switch 154, silence parameter extraction section 156, frame type determination section 158, in addition to speech decoding section 152 identical to that provided in speech decoding apparatus 150a. And a silent frame decoding unit 160.
  • Silence parameter extraction section 156 extracts silence parameter encoded data synthesized with encoded data transmitted as a silence frame (embedded) from the encoded data constituting the received encoded data.
  • Frame type determination unit 158 receives the frame type information transmitted from speech coding apparatus 100, and determines which of the three types of received frame data corresponds to the received frame data. . The determination result is notified to the switch 154 and the silent frame decoding unit 160.
  • Silence frame decoding section 160 decodes only the silence parameter code data extracted by silence parameter extraction section 156 when the information indicated in the frame type information is a silence frame. This allows information contained in the silence parameter (for example, Spectrum outline information and energy). Then, using the acquired information, a decoded speech signal is generated in all silence frames including a silence frame (with embedding) and a silence frame (without embedding).
  • Switch 154 switches the output of speech decoding apparatus 150b in accordance with the determination result notified from frame type determination unit 158.
  • the connection is controlled so that the decoded speech signal generated by the speech decoding unit 152 becomes the output of the speech decoding device 150b. That is, as shown in FIG. 4B, the connection with the output of speech decoding apparatus 150b is switched to the a side.
  • the connection is controlled so that the decoded voice signal generated by the silent frame decoding unit 160 becomes the output of the voice decoding device 150b. That is, the connection is switched to the connection power level side with the output of the audio decoding device 150b.
  • connection switching control described above is performed to switch the decoding target according to the frame type of the encoded data to be transmitted.
  • the switch 154 can always fix the connection with the output of the speech decoding apparatus 150b to the a side without performing control depending on the frame type of the encoded data to be transmitted.
  • the speech decoding apparatus 150b itself selects whether to perform connection switching control depending on the frame type or to always fix the connection. By doing so, the speech decoding apparatus 150b can either decode the encoded data while the silence parameter code data is synthesized or can selectively decode the synthesized silence parameter. You can choose freely.
  • Speech encoding section 102 performs speech encoding of the input speech signal to generate encoded data. Also, the frame type of the input audio signal is determined.
  • the silent parameter code key data is not embedded in the bit embedding unit 104, and as a result, as shown in FIG. ) Is obtained.
  • the code data is determined to be a silent frame (without embedding)
  • the silent parameter encoded data is not embedded, and as a result, the encoded data in the format shown in FIG. To be acquired.
  • the encoded data is determined to be a silence frame (with embedding)
  • silence parameter code data is embedded, and as a result, code data of the format shown in Fig. 5 (B) is obtained. Is done.
  • the speech component is synthesized by synthesizing the silence parameter code key data only with the code key data as a silence frame (with embedding) in the encoded data.
  • the encoded data corresponding to the audio signal including the audio data and the encoded data corresponding to the audio signal not including the audio component that is, to synthesize the silence parameter encoded data into the encoded data.
  • the encoded data having the same frame configuration while having different format types can be transmitted continuously. For this reason, when encoded data generated in a mode in which silence parameter encoded data is combined with encoded data is transmitted to the decoding side, the encoded data is not transmitted on the decoding side.
  • the sound parameter encoded data can be decoded with being synthesized.
  • the decoding side decodes the code key data while the silence parameter code key data is synthesized, and selectively decodes the synthesized silence parameter encoded data. You can freely choose either That is, on the encoding side, the decoding side can freely select a speech decoding mode corresponding to the control method used in association with the speech encoding.
  • FIG. 7 is a block diagram showing the configuration of the speech coding apparatus according to Embodiment 2 of the present invention.
  • speech coding apparatus 200 described in the present embodiment has the same basic configuration as speech coding apparatus 100 described in Embodiment 1, and therefore, the same reference numerals are used for the same components. And detailed description thereof is omitted. Also, since the encoded data transmitted from speech coding apparatus 200 can be decoded by speech decoding apparatuses 150a and 150b described in Embodiment 1, the description of speech decoding apparatus is omitted here.
  • Speech coding apparatus 200 has a configuration in which speech coding section 202 is provided instead of speech coding section 102 and bit embedding section 104 provided in speech coding apparatus 100.
  • Speech code encoding unit 202 executes an operation combining the operation of speech encoding unit 102 and the operation of bit embedding unit 104.
  • CELP Code Excited Linear Prediction
  • speech code input unit 202 includes LPC analysis unit 204, first encoding candidate generation unit 206, LPC quantization unit 208, adaptive code gain codebook 210, adaptive codebook 212, multiplication 2 14, adder 216, fixed codebook 218, multiplier 220, second code key candidate generation unit 222, synthesis filter 224, subtractor 226, weighting error minimization unit 228, silence parameter encoded data division Part 230 and multiplexing part 232.
  • the LPC analysis unit 204 performs linear prediction analysis using the input speech signal !, and outputs the analysis result, that is, the LPC coefficient, to the LPC quantization unit 208.
  • the LPC quantization unit 208 uses the LPC coefficient output from the LPC analysis unit 204 based on the code key candidate value and the code key candidate code output from the first encoded candidate generation unit 206. Quantize the vector. Then, the LPC quantization code obtained as a result of vector quantization is output to multiplexing section 232. The LPC quantization unit 208 obtains a decoded LPC coefficient from the LPC coefficient, and outputs the decoded LPC coefficient to the synthesis filter 224.
  • first code key candidate generation section 206 has code book 242 and search range limit section 244, and performs LPC quantization when performing voice code key input signal input.
  • An encoding candidate value and an encoding candidate code used for vector quantization of the LPC coefficient performed by unit 208 are generated and output to LPC quantization unit 208.
  • Codebook 242 holds in advance a list of code key candidate values and code key candidate codes that can be used in LPC quantization section 208 when a voice signal is encoded.
  • the search range restriction unit 244 generates a code key candidate value and a coding candidate code that are used by the LPC quantization unit 208 when coding the input speech signal. More specifically, when the frame type information from the frame type determination unit 108 indicates “sound frame” or “silent frame (not embedded)”, the search range restriction unit 244 stores the code book 242 in advance.
  • the search range is not limited to the encoding candidate value and the code key candidate code that are held.
  • the search range restriction unit 244 The search range is limited for the encoding candidate value and the encoding candidate code. In the limited search range, mask bits are assigned based on the number of bits of the division parameter code obtained from the silence parameter code key data division unit 230, and the division parameter code is embedded according to the mask bit assignment. Is determined by
  • the synthesis filter 224 performs filter synthesis using the decoded LPC coefficient output from the LPC quantization unit 208 and the driving sound source output from the adder 216, and outputs the synthesized signal to the subtractor 226. To do.
  • the subtractor 226 calculates an error signal between the synthesized signal output from the synthesis filter 224 and the input audio signal, and outputs the error signal to the weighting error minimizing unit 228.
  • Weighting error minimizing section 228 performs auditory weighting on the error signal output from subtractor 226, and calculates distortion between the input audio signal and the synthesized signal in the auditory weighting region. Then, a signal to be generated from adaptive codebook 212, fixed codebook 218, and second code key candidate generation unit 222 is determined so that this distortion is minimized.
  • weighting error minimizing section 228 selects an adaptive excitation lag that minimizes distortion from adaptive codebook 212. Also, a fixed excitation vector that minimizes distortion is selected from fixed codebook 218. Also, a quantized adaptive excitation gain that minimizes distortion is selected from adaptive code gain codebook 210. Also, the quantized fixed excitation gain is selected from the second code key candidate generation unit 222.
  • Adaptive codebook 212 has a noffer, stores the drive sound source previously output by adder 216 in the noffer, and uses the signal output from weighting error minimizing section 228. A sample of one frame from the specified cutout position is cut out by the buffer power and output to the multiplier 214 as an adaptive sound source vector. Also, an adaptive excitation lag code indicating the determination result is output to multiplexing section 232. The adaptive codebook 212 updates the driving sound source stored in the buffer every time the driving sound source output from the adder 216 is received.
  • Adaptive code gain codebook 210 determines a quantized adaptive excitation gain based on the signal output from weighting error minimizing section 228, and outputs this to multiplier 214. In addition, a quantized adaptive excitation gain code indicating the determination result is output to multiplexing section 232.
  • Multiplier 214 multiplies the adaptive adaptive excitation vector output from adaptive codebook 212 by the quantized adaptive excitation gain output from adaptive code gain codebook 210 and adds the multiplication result to adder 21. Output to 6.
  • Fixed codebook 218 determines a vector having a shape specified by the signal output from weighting error minimizing section 228 as a fixed excitation vector, and outputs it to multiplier 220. In addition, a fixed excitation vector code indicating the determination result is output to multiplexing section 232.
  • Multiplier 220 multiplies the fixed excitation vector output from fixed codebook 218 by the quantized fixed excitation gain output from second code key candidate generation section 222 and adds the multiplication result to adder 2 16. Output to.
  • Adder 216 adds the adaptive excitation vector output from multiplier 214 and the fixed excitation vector output from multiplier 220, and adds the drive excitation as the addition result to synthesis filter 224 and adaptive codebook. Output to 212.
  • Silence parameter encoded data dividing section 230 divides the silence parameter code data output from silence parameter analysis / encoding section 110.
  • the silence parameter encoded data is divided for each number of bits of the quantization code in which the silence parameter code data is embedded.
  • the LPC quantization code for each frame and the quantization fixed excitation gain code for each subframe are designated as the quantization codes to be embedded. Therefore, the silence parameter encoded data dividing unit 230 divides the silence parameter encoded data into (1 + number of subframes), and obtains the number of divided parameter codes.
  • Second encoding candidate generation section 222 has a fixed code gain codebook, and generates a quantized fixed excitation gain candidate to be multiplied by a fixed excitation vector when speech encoding is performed. More specifically, when the frame type information from the frame type determination unit 108 indicates “sound frame” or “silent frame (not embedded)”, the second code key candidate generation unit 222 The search range is not restricted for quantized fixed excitation gain candidates stored in the fixed code gain codebook in advance. On the other hand, when the frame type information indicates “silent frame (with embedding)”, the second code key candidate generation unit 222 limits the search range for the quantized fixed excitation gain candidates.
  • the limited search range is obtained by assigning mask bits based on the number of bits of the division parameter code obtained from the silent parameter coded data division unit 230 and embedding the division parameter code according to the mask bit assignment. Determined. In this manner, the quantization fixed sound source gain candidate is generated. And Then, among the generated quantized fixed sound source gain candidates, the one specified based on the signal from the weighting error minimizing unit 228 is determined as the quantized fixed sound source gain to be multiplied by the fixed sound source vector, This is output to the multiplier 220. Also, the quantized fixed excitation gain code indicating the determination result is output to multiplexing section 232.
  • Multiplexer 232 includes LPC quantized code from LPC quantizer 208, quantized adaptive excitation gain code from adaptive code gain code book 210, and adaptive excitation vector noise from adaptive code book 212.
  • the code, the fixed excitation vector code from the fixed codebook 218, and the quantized fixed excitation gain code from the second encoding candidate generation unit 222 are multiplexed. Code multiplexing data is obtained by this multiplexing.
  • search range limiting operation in speech coding unit 202 will be described.
  • search range limiting operation in the first code key candidate generation unit 206 will be described as an example.
  • codebook 242 stores in combination code of 16 types of code index i and code vector C [i] corresponding to each code index i, as shown in FIG. Are stored as encoding candidate codes and encoding candidate values.
  • the search range restriction unit 244 does not restrict the search range. 16 candidate combinations are output to the LPC quantizer 208.
  • the search range limiting unit 244 uses the bit of the divided parameter code obtained from the silent parameter code / data dividing unit 230. Assign mask bits to code index i based on the number.
  • a predetermined number of code bit bits including a bit number having a bit sensitivity lower than a predetermined level and a code bit having the lowest bit sensitivity or the bit sensitivity is set as a target for replacement and masking. For example, if the quantized value of a scalar value corresponds to the sign in ascending order, the LSB (least significant bit) force is also assigned a mask bit. By performing such mask bit assignment, the search range is limited. That is, the codebook is preliminarily limited on the premise of embedding. For this reason, it is possible to prevent the deterioration of the code performance due to the embedding.
  • the search parameter belonging to the limited search range is specified by embedding the division parameter code in the bits masked by the mask bit assignment.
  • the search range is limited to the original 16 candidate powers to 4 candidates. The combined force of these four candidates is output to the SLPC quantizer 208.
  • optimal quantization is performed based on the premise of embedding silence parameter encoded data. That is, a predetermined number of bits having a sensitivity of a predetermined level or less, or a predetermined number of bits including the bit with the lowest sensitivity among a plurality of bits constituting the codeh data as a silent frame, and mask bit allocation and This is the target of embedding the division parameter code. For this reason, the influence on the quality of the decoded speech can be reduced, and the code performance when the division parameter code embedding is performed can be improved.
  • the CELP code key is used as the voice code key.
  • the use of the CELP code key is not a requirement of the present invention. Even if the method is used, the same effect as described above can be realized.
  • the silence parameters may be the same as those used for normal speech code parameters.
  • the quantization code of the LPC parameter is the same as the quantization code of the LPC parameter used by the LPC quantization unit 208 or a part thereof. Make it a thing. In this way, it is possible to improve quantization performance when embedding (replacement, overwriting, etc.) of silence parameter encoded data.
  • the LPC quantization code and the quantized fixed excitation gain code are the code data to be embedded with the silence parameter code data.
  • the encoded data to be embedded is not limited to these, and encoded data other than these may be adopted as the embedded object.
  • FIG. 11A and FIG. 11B are block diagrams respectively showing a scalable coding apparatus and a scalable decoding apparatus according to Embodiment 9 of the present invention.
  • a case will be described in which each device described in Embodiment 1 (or Embodiment 2) is applied to a core layer of a speech codec having a band scalable function as a scalable configuration. To do.
  • a scalable coding apparatus 300 shown in FIG. 11A includes a downsampling unit 302, a speech coding apparatus 100, a local decoding unit 304, an upsampling unit 306, and an enhancement layer coding unit 308.
  • Down-sampling section 302 down-samples the input audio signal into a signal in the core layer band.
  • Speech coding apparatus 100 has the same configuration as that described in Embodiment 1, and generates down-sampled input speech signal power code key data and frame type information and outputs them. To do.
  • the generated encoded data is output as core layer code data.
  • Local decoding section 304 performs local decoding on the core layer code data to obtain a core layer decoded speech signal.
  • Up-sampling section 306 up-samples the decoded audio signal of the core layer into a signal in the enhancement layer band.
  • the enhancement layer coding unit 308 performs enhancement layer coding on the input speech signal having the enhancement layer signal band, and generates and outputs enhancement layer coded data.
  • Scalable decoding apparatus 350 shown in FIG. 11B includes speech decoding apparatus 150b, up-sampling section 352, and enhancement layer decoding section 354.
  • Speech decoding apparatus 150b has the same configuration as that described in Embodiment 1, and decodes from core layer code data and frame type information transmitted from scalable coding apparatus 300. An audio signal is generated and output as a core layer decoded signal.
  • Up-sampling section 352 up-samples the core layer decoded signal into an enhancement layer band signal.
  • the enhancement layer decoding unit 354 decodes the enhancement layer encoded data transmitted from the scalable coding apparatus 300 to obtain an enhancement layer decoded signal. Then, by multiplexing the up-sampled core layer decoded signal into the enhancement layer decoded signal, a core layer + enhancement layer decoded signal is generated and output.
  • scalable coding apparatus 300 may include speech coding apparatus 200 described in Embodiment 2, instead of speech coding apparatus 100 described above.
  • scalable decoding apparatus 350 having the above configuration will be described below. Assume that frame format switching control is not performed in the core layer. In this case, the core layer + enhancement layer decoded signal can always be obtained. It is also assumed that only the core layer is set to be decoded, and frame format switching control is performed in the core layer. In this case, a decoded signal having the highest coding efficiency and a low bit rate can be obtained. In addition, it is assumed that the silent frame is set to decode only the core layer with frame format switching control, and the voice frame is set to decode the core layer + enhancement layer. In this case, intermediate voice quality and transmission efficiency can be realized compared to the above two cases.
  • a plurality of types of decoded speech signals can be freely selected on the decoding side (or on the network) without depending on the setting state of control on the encoding side. Can be decrypted.
  • each functional block used in the description of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • IC integrated circuit
  • LSI system LSI
  • super LSI non-linear LSI depending on the difference in power integration
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. It is also possible to use a field programmable gate array (FPGA) that can be programmed after LSI manufacture and a reconfigurable processor that can reconfigure the connection and settings of circuit cells inside the LSI.
  • FPGA field programmable gate array
  • the speech coding apparatus and speech coding method of the present invention are useful for transmitting code format data of different format types in a voiced section and a silent section.

Abstract

 音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させるとともに、復号側がその制御方式に対応していなくとも復号可能なデータを生成することができる音声符号化装置を提供する。音声符号化装置(100)は、音声成分を含む音声信号に対応する符号化データと音声成分を含まない音声信号に対応する符号化データとを出力する。音声符号化部(102)は、入力音声信号を所定区間単位で符号化し符号化データを生成する。有音無音判定部(106)は、入力音声信号が音声成分を含むか否かを所定区間毎に判定する。ビット埋め込み部(104)は、音声符号化部(102)によって生成された符号化データのうち無音区間の入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、音声成分を含む音声信号に対応する符号化データと音声成分を含まない音声信号に対応する符号化データとを取得する。

Description

明 細 書
音声符号化装置および音声符号化方法
技術分野
[0001] 本発明は、音声符号化装置および音声符号化方法に関し、特に、有音区間と無音 区間とで異なるフォーマットタイプの符号ィ匕データを伝送するのに用いられる音声符 号化装置および音声符号化方法に関する。
背景技術
[0002] IP (Internet Protocol)ネットワーク上での音声データ通信にお 、て、有音区間と無 音区間とで異なるフォーマットタイプの符号ィ匕データを伝送することがある。有音とは
、音声信号が所定レベル以上の音声成分を含むことである。無音とは、音声信号が 所定レベル以上の音声成分を含まな 、ことである。音声信号が音声成分とは異なる 雑音成分のみを含む場合、その音声信号は無音と認識される。このような伝送技術 の一つに、 DTX制御と呼ばれるものがある(例えば、非特許文献 1および非特許文 献 2参照)。
[0003] 例えば図 1に示す音声符号ィ匕装置 10が DTX制御を伴うモードで音声符号ィ匕を行 う場合、有音無音判定部 11で、所定長の区間 (フレーム長に相当)の単位で区切ら れた音声信号に対して、その区間毎に有音か無音かの判定が行われる。そして、有 音と判定された場合つまり有音区間の場合、音声符号化部 12で生成された符号ィ匕 データは、有音フレームとして DTX制御部 13から出力される。このとき、有音フレー ムは、有音フレームの伝送を通知するためのフレームタイプ情報とともに出力される。 有音フレームは、例えば図 2 (A)に示すように、 Nvビットの情報で構成されたフォー マットを有する。
[0004] 一方、無音と判定された場合つまり無音区間の場合は、快適雑音符号化部 14で無 音フレーム符号化が行われる。無音フレーム符号化は、無音区間における周囲騒音 を模擬した信号を復号側で得るための符号化であり、有音区間に比べて少ない情報 量つまりビット数で行われる符号ィ匕である。無音フレーム符号ィ匕によって生成された 符号ィヒデータは、連続する無音区間において一定の周期で、いわゆる SID (Silence Descriptor)フレームとして DTX制御部 13から出力される。このとき、 SIDフレームは 、 SIDフレームの伝送を通知するためのフレームタイプ情報とともに出力される。また 、 SIDフレームは、例えば図 2 (B)〖こ示すように、 Nuvビット(Nuvく Nv)の情報で構 成されたフォーマットを有する。
[0005] また、無音区間において SIDフレームが伝送されるとき以外は、符号化情報の伝送 が行われない。換言すれば、無音フレームの伝送が省略される。ただし、無音フレー ムの伝送を通知するためのフレームタイプ情報だけが DTX制御部 13から出力される 。このように、 DTX制御では、不連続な伝送が行われるような制御が行われるので、 伝送路を介して伝送される情報量ゃ復号側で復号される情報量は、無音区間にお いて低減される。
[0006] これに対して、 DTX制御を伴わな 、モードで音声符号ィ匕を行う場合は、音声信号 は常に有音であるものとして扱われ、その結果、符号化データの伝送が常に連続的 に行われる。したがって、 DTX制御機能を有する従来の音声符号化装置では、音声 符号ィ匕のモードを、 DTX制御を伴うモード (DTX制御あり)または DTX制御を伴わな V、モード (DTX制御なし)の 、ずれかに予め設定した上で、音声符号化を行う。
特干文献 1: Mandatory speech CODEし speech processing functions; AMR spee ch CODEC; General description , 3rd Generation Partnership Project, TS2b.071 非特許文献 2: " Mandatory speech codec speech processing iunctionsAdaptive Multi -Rate (AMR) speech codec; Source controlled rate operation , 3rd Generation Part nership Project, TS26.093
発明の開示
発明が解決しょうとする課題
[0007] し力しながら、上記従来の音声符号化装置においては、 DTX制御ありの場合と DT X制御なしの場合とで、出力される符号ィ匕データ系列に違いが生じる。例えば、 DTX 制御なしのモードでは、符号ィ匕データを構成する符号ィ匕データのフォーマットは 1タ イブである。これに対し、 DTX制御ありのモードでは、実際に伝送される符号化デー タのフォーマットは 2タイプである力 実質的に存在するフォーマットは 3タイプである 。このような違いに伴って、符号ィ匕側で DTX制御を行う場合、復号側では DTX制御 ありの音声符号ィ匕に対応したモードで音声復号を行う必要があり、また、符号化側で DTX制御を行わな 、場合、 DTX制御なしの音声符号ィ匕に対応したモードで音声復 号を行う必要がある。換言すれば、復号側で設定される音声復号のモードは、符号 化側で設定される音声符号化のモードに拘束されるため、復号側は音声復号のモー ドを自由に選択できない。
[0008] すなわち、 DTX制御対応の音声復号装置に対して、 DTX制御なしのモードで生 成された符号化データを伝送したとすると、ある符号化データの元の音声信号が無 音だったとしても、ネットワーク上で、無音区間において復号する情報量を低減するこ とができない、すなわち、伝送効率の向上を図ることができず、またその音声復号装 置は処理負荷を軽減することができない。一方、 DTX制御ありのモードで生成された 符号化データを伝送したとすると、音声復号装置でのサービス (例えば、全区間を有 音として復号することで得られる高音質受信モード)の選択の自由度が制限されてし まつ。
[0009] また、 DTX制御対応でな ヽ音声復号装置に対して、 DTX制御ありのモードで得ら れた符号化データを伝送すると、その音声復号装置は、受信した符号化データを復 号することができない。
[0010] したがって、例えば、音声符号化装置が、 DTX制御対応のものと DTX制御対応で な 、ものとを含む複数の音声復号装置に対してマルチキャストを行う場合、 DTX制 御ありのモードで音声符号ィ匕を行っても、 DTX制御なしのモードで音声符号ィ匕を行 つても、上記のいずれかの問題が発生する。
[0011] 本発明の目的は、音声符号ィ匕に伴って用いられる制御方式に対応した音声復号 のモードを復号側に自由に選択させることができるとともに、復号側がその制御方式 に対応していなくとも復号可能なデータを生成することができる音声符号ィ匕装置およ び音声符号ィ匕方法を提供することである。 課題を解決するための手段
[0012] 本発明の音声符号化装置は、音声成分を含む音声信号に対応する第一の符号化 データと前記音声成分を含まない音声信号に対応する第二の符号ィ匕データとを出 力する音声符号化装置であって、入力音声信号を所定区間単位で符号化し符号ィ匕 データを生成する符号化手段と、前記入力音声信号が前記音声成分を含むか否か を前記所定区間毎に判定する判定手段と、前記符号化データのうち、前記音声成分 を含まないと判定された無音区間の前記入力音声信号力 生成されたもののみに対 して雑音データの合成を行うことにより、前記第一の符号ィヒデータと前記第二の符号 化データとを取得する合成手段と、を有する構成を採る。
[0013] 本発明の音声復号装置は、雑音データを合成された符号化データを復号し第一の 復号音声信号を生成する第一の復号手段と、前記雑音データのみを復号し第二の 復号音声信号を生成する第二の復号手段と、前記第一の復号音声信号および前記 第二の復号音声信号の 1ヽずれか一方を選択する選択手段と、を有する構成を採る。
[0014] 本発明の音声符号化方法は、音声成分を含む音声信号に対応する第一の符号化 データと前記音声成分を含まない音声信号に対応する第二の符号ィ匕データとを出 力する音声符号化方法であって、入力音声信号を所定区間単位で符号化し符号ィ匕 データを生成する符号化ステップと、前記入力音声信号が前記音声成分を含むか否 かを前記所定区間毎に判定する判定ステップと、前記符号化データのうち、前記音 声成分を含まないと判定された無音区間の前記入力音声信号力 生成されたものの みに対して雑音データの合成を行うことにより、前記第一の符号ィヒデータと前記第二 の符号化データとを取得する合成ステップと、を有するようにした。
[0015] 本発明の音声復号方法は、雑音データを合成された符号化データを復号し第一の 復号音声信号を生成する第一の復号ステップと、前記雑音データのみを復号し第二 の復号音声信号を生成する第二の復号ステップと、前記第一の復号音声信号およ び前記第二の復号音声信号の!/、ずれか一方を選択する選択ステップと、を有するよ うにした。
発明の効果
[0016] 本発明によれば、音声符号ィ匕に伴って用いられる制御方式に対応した音声復号の モードを復号側に自由に選択させることができるとともに、復号側がその制御方式に 対応していなくとも復号可能なデータを生成することができる。
図面の簡単な説明
[0017] [図 1]従来の音声符号ィ匕装置の構成の一例を示すブロック図 [図 2]従来の有音フレームの構成の一例および従来のいわゆる SIDフレームの構成 の一例を示す図
[図 3]本発明の実施の形態 1に係る音声符号ィ匕装置の構成を示すブロック図
[図 4A]本発明の実施の形態 1に係る音声復号装置の構成の一例を示すブロック図
[図 4B]本発明の実施の形態 1に係る音声復号装置の構成の他の例を示すブロック図
[図 5]本発明の実施の形態 1のフォーマットタイプの例を示す図
[図 6]本発明の実施の形態 1のフォーマットタイプの変形例を示す図
[図 7]本発明の実施の形態 2に係る音声符号ィ匕装置の構成を示すブロック図
[図 8]本発明の実施の形態 2に係る音声符号ィ匕部の構成を示すブロック図
[図 9]本発明の実施の形態 2に係る第 1符号ィ匕候補生成部の構成を示すブロック図
[図 10]本発明の実施の形態 2に係る第 1符号ィ匕候補生成部の動作説明図
[図 11A]本発明の実施の形態 3に係るスケーラブル符号ィ匕装置の構成を示すブロッ ク図
[図 11B]本発明の実施の形態 3に係るスケーラブル復号装置の構成を示すブロック図 発明を実施するための最良の形態
[0018] 以下、本発明の実施の形態について、図面を用いて詳細に説明する。
[0019] (実施の形態 1)
図 3は、本発明の実施の形態 1に係る音声符号ィ匕装置の構成を示すブロック図で ある。また、図 4Aは、本実施の形態に係る音声復号装置の構成の一例を示すブロッ ク図であり、図 4Bは、本実施の形態に係る音声復号装置の構成の他の例を示すブ ロック図である。
[0020] まず、図 3に示す音声符号化装置 100の構成について説明する。音声符号化装置 100は、音声符号化部 102、ビット埋め込み部 104、有音無音判定部 106、フレーム タイプ判定部 108および無音パラメータ分析'符号ィ匕部 110を有する。
[0021] 音声符号ィ匕部 102は、入力音声信号を所定長の区間 (フレーム)単位で符号ィ匕し、 複数 (例えば、 Nv)ビットの符号化ビット列から成る符号化データを生成する。音声符 号ィ匕部 102は、生成される符号ィ匕データのフォーマットが常に同じになるように、符 号ィ匕のときに得られた Nvビットの符号ィ匕ビット列を配置することにより符号ィ匕データの 生成を行う。また、符号ィ匕データのビット数は予め定められている。
[0022] 有音無音判定部 106は、入力音声信号が音声成分を含む力否かを、前述の区間 毎に判定し、この判定結果を示す有音無音判定フラグをフレームタイプ判定部 108 および無音パラメータ分析'符号ィ匕部 110に出力する。
[0023] フレームタイプ判定部 108は、入力された有音無音判定フラグを用いて、音声符号 化部 102で生成された符号化データを、 3種類のフレームタイプ、すなわち、(a)有 音フレーム、 (b)無音フレーム (埋込みあり)、(c)無音フレーム (埋込みなし)のいず れかに決定する。
[0024] より具体的には、有音無音判定フラグが有音を示す場合は、(a)有音フレームに決 定する。また、有音無音判定フラグが無音を示す場合は、(b)無音フレーム (埋込み あり)または(c)無音フレーム (埋込みなし)に決定する。
[0025] さらに、無音を示す有音無音判定フラグが連続する場合、換言すれば、無音区間 が続 、て 、る場合、一定周期毎のフレーム (符号化データ)だけを (b)無音フレーム( 埋込みあり)に決定し、それ以外を (c)無音フレーム (埋込みなし)に決定する。あるい は、無音を示す有音無音判定フラグが連続する場合、入力音声信号の信号特性が 変換したときだけを (b)無音フレーム (埋込みあり)に決定し、それ以外を (c)無音フレ ーム(埋込みなし)に決定する。こうすることで、ビット埋め込み部 104での埋め込み 処理の負荷を軽減することができる。決定された結果は、フレームタイプ情報として出 力される。フレームタイプ情報は、無音パラメータ分析'符号ィ匕部 110およびビット埋 め込み部 104に通知される情報であり、且つ、符号化データとともに伝送される情報 でもある。
[0026] 無音パラメータ分析 ·符号化部 110は、入力音声信号が有音無音判定部 106によ つて無音と判定された場合つまり無音区間の場合、模擬雑音データとしての無音パ ラメータ符号化データを生成する。
[0027] より具体的には、連続する無音区間において入力音声信号の信号特性を平均化 することにより得られる情報を無音パラメータとする。無音パラメータに含まれる情報と しては、例えば、 LPC (Linear Predictive Coding)分析により得られるスペクトル概形 情報、音声信号のエネルギー、 LPCスペクトル合成における駆動音源信号の利得情 報などが挙げられる。無音パラメータ分析'符号ィ匕部 110は、無音パラメータを、有音 区間の入力音声信号よりも少な 、ビット数 (例えば、 Nuvビット)で符号化して無音パ ラメータ符号化データを生成する。つまり、無音パラメータ符号ィヒデータのビット数は 、音声符号ィ匕部 102により符号化される入力音声信号のビット数よりも少ない (Nuv く Nv)。生成された無音パラメータ符号ィ匕データは、フレームタイプ判定部 108から 出力されたフレームタイプ情報が無音フレーム (埋込みあり)を示している場合に、出 力される。
[0028] ビット埋め込み部 104は、フレームタイプ判定部 108から出力されたフレームタイプ 情報が有音フレームまたは無音フレーム (埋込みなし)を示して 、る場合は、音声符 号ィ匕部 102から出力された符号ィ匕フレームをそのまま出力する。したがって、この場 合に出力される符号ィ匕データのフォーマットは、図 5 (A)に示すように、音声符号ィ匕 部 102によって生成された符号ィ匕データのフォーマットと同一である。
[0029] 一方、フレームタイプ判定部 108から出力されたフレームタイプ情報が無音フレー ム(埋込みあり)を示している場合は、音声符号ィ匕部 102から出力された符号ィ匕デ一 タに、無音パラメータ分析 ·符号化部 110から出力された無音パラメータ符号ィ匕デ一 タを埋め込む。そして、無音パラメータ符号ィ匕データが埋め込まれた符号ィ匕データを 出力する。したがって、この場合に出力される符号化データは、図 5 (B)に示すように 、音声符号ィ匕部 102によって生成された符号ィ匕データ内の所定の位置に無音パラメ ータ符号ィ匕データが埋め込まれたフォーマットタイプを有する。
[0030] このように、符号ィ匕データに無音パラメータ符号ィ匕データを埋め込むため、符号ィ匕 データのフレームサイズを変えずに、符号ィ匕データの伝送を行うことができる。さらに 、符号化データの所定の位置に無音パラメータ符号化データを埋め込むため、無音 ノ メータ符号ィ匕データを埋め込むときの制御処理を簡略ィ匕することができる。
[0031] より具体的には、ビット埋め込み部 104は、符号ィ匕データの Ννビットのうち所定の 位置に配置された Nuvビットを、 Nuvビットから成る無音パラメータ符号ィ匕データで置 き換える。こうすることで、符号ィ匕によって得られた符号ィ匕データの一部のビットの代 わりに、無音パラメータ符号ィ匕データを伝送することができる。また、 Nvビットから成る 符号化データの一部を無音パラメータ符号化データで置き換えるため、符号化デー タの残りのビットおよび無音パラメータ符号ィ匕データの両方を伝送することができる。
[0032] あるいは、ビット埋め込み部 104は、符号化データの Nvビットのうち所定の位置に 配置された Nuvビットを、 Nuvビットから成る無音パラメータ符号ィ匕データで上書きす る。こうすることで、符号ィ匕によって得られた符号ィ匕データの一部のビットを消去して、 無音パラメータ符号ィ匕データを伝送することができる。また、 Nvビットから成る符号ィ匕 データの一部を無音パラメータ符号化データで上書きするため、符号化データの残 りのビットおよび無音パラメータ符号ィ匕データの両方を伝送することができる。
[0033] ビットの置き換えまたは上書きを行うことは、これらを行っても復号音声信号の品質 に与える影響が低い場合や、符号ィ匕のときに得られた符号ィ匕ビット列に低重要度の ビットがある場合などに、とりわけ有効である。
[0034] また、本実施の形態では、符号ィ匕のときに得られたビットの置き換えまたは上書きを 行うことにより無音パラメータ符号ィ匕データを埋め込む場合について説明した。ただ し、無音パラメータ符号ィ匕データを埋め込む代わりに、図 6に示すように、符号化のと きに得られた Nvビットのビット列の後端に Nuvビットの無音パラメータ符号ィ匕データを 付加しても良い。つまり、ビット埋め込み部 104は、無音パラメータ符号化データの埋 め込みや付加を行うことで、無音パラメータ符号化データと符号化データとを合成す る。これにより、この合成を行う場合と行わない場合とで、異なるタイプのフォーマット を持つ符号ィ匕データが取得されるようなフレームフォーマット切り替え制御が行われ る。こうすることによって、無音パラメータ符号ィ匕データが符号ィ匕データに合成された 場合と合成されない場合とでフレームフォーマットのタイプは異なる力 基本的なフレ ーム構成は不変のままで、符号ィ匕データ系列を伝送することができる。
[0035] また、無音パラメータ符号ィ匕データの付加を行う場合は、符号ィ匕データのフレーム サイズが変わるので、符号ィ匕データとともにフレームサイズに関する情報を、任意の 形式で伝送することが好ま ヽ。
[0036] また、本実施の形態では、無音パラメータ符号化データを符号化データの所定の 位置に埋め込む場合について説明した。ただし、無音パラメータ符号化データの埋 め込み方は前述のものに限定されない。例えば、ビット埋め込み部 104は、無音パラ メータ符号化データが埋め込まれる位置を、埋め込みを行うたびに適応的に定めて も良い。この場合、置換対象となるビットの位置または上書き対象となるビットの位置 を、各ビットの感度や重要度などに応じて適応的に変更することができる。
[0037] 次に、図 4Aおよび図 4Bに示す音声復号装置 150a、 150bの構成について説明 する。音声復号装置 150aは、音声符号ィ匕装置 100のフレームフォーマット切り替え 制御に対応する機能を有しない構成となっているが、音声復号装置 150bは、その機 能を有する構成となって ヽる。
[0038] 図 4Aに示す音声復号装置 150aは、音声復号部 152を有する。
[0039] 音声復号部 152は、音声符号ィ匕装置 100から伝送路を介して伝送された符号ィ匕デ ータを受信する。また、受信符号ィ匕データに対してフレーム単位で復号を行う。より具 体的には、受信符号化データを構成する符号化データを復号することにより、復号音 声信号を生成する。受信符号ィ匕データには、無音パラメータ符号ィ匕データが合成さ れて 、る力否かによってフォーマットの変化する符号ィ匕データが含まれて 、る。しか し、基本的なフレーム構成の変化しな 、符号化データが連続的に伝送されるので、 フレームフォーマット切り替え制御対応でない音声復号装置 150aは、音声符号ィ匕装 置 100から受信した符号ィ匕データを復号することができる。
[0040] 図 4Bに示す音声復号装置 150bは、音声復号装置 150aに設けられたものと同一 の音声復号部 152の他に、切り替え器 154、無音パラメータ抽出部 156、フレームタ ィプ判定部 158および無音フレーム復号部 160を有する。
[0041] 無音パラメータ抽出部 156は、受信符号化データを構成する符号化データのうち 無音フレーム (埋込みあり)として伝送された符号化データに合成された無音パラメ一 タ符号化データを抽出する。
[0042] フレームタイプ判定部 158は、音声符号ィ匕装置 100から伝送されたフレームタイプ 情報を受信し、受信した符号ィ匕データが 3種類のフレームタイプの中のどれに該当 するかを判定する。判定の結果は、切り替え器 154および無音フレーム復号部 160 に通知される。
[0043] 無音フレーム復号部 160は、フレームタイプ情報に示された情報が無音フレームで あった場合に、無音パラメータ抽出部 156によって抽出された無音パラメータ符号ィ匕 データのみを復号する。これによつて、無音パラメータに含まれている情報 (例えば、 スペクトル概形情報やエネルギーなど)を取得する。そして、取得した情報を用いて、 無音フレーム (埋込みあり)および無音フレーム (埋込みなし)を含む全ての無音フレ ームにおける復号音声信号を生成する。
[0044] 切り替え器 154は、フレームタイプ判定部 158から通知された判定結果に従って、 音声復号装置 150bの出力を切り替える。例えば、フレームタイプ情報に示された情 報が有音フレームであった場合は、音声復号部 152によって生成された復号音声信 号が音声復号装置 150bの出力となるように、接続を制御する。つまり、図 4Bに示す ように、音声復号装置 150bの出力との接続が a側に切り替えられる。一方、示された 情報が無音フレームの場合は、無音フレーム復号部 160によって生成された復号音 声信号が音声復号装置 150bの出力となるように、接続を制御する。つまり、音声復 号装置 150bの出力との接続力 ¾側に切り替えられる。
[0045] 前述の接続切り替え制御は、伝送される符号化データのフレームタイプによって復 号対象を切り替えるために行われる。ただし、切り替え器 154は、伝送される符号ィ匕 データのフレームタイプに依存した制御を行わず、音声復号装置 150bの出力との接 続を a側に常時固定することもできる。音声復号装置 150bは、フレームタイプに依存 した接続切り替え制御を行うか、または、接続の常時固定を行うか、を自ら選択する。 こうすることにより、音声復号装置 150bは、無音パラメータ符号ィ匕データが合成され たままの状態で符号化データを復号することと、合成された無音パラメータを選択的 に復号することと、のいずれかを自由に選択することができる。
[0046] 次いで、上記構成を有する音声符号化装置 100での無音パラメータ符号化データ 埋め込み動作にっ 、て説明する。
[0047] 音声符号化部 102では、入力音声信号の音声符号化を行い、符号化データを生 成する。また、入力音声信号のフレームタイプ判定を行う。
[0048] そして、フレームタイプ判定の結果、符号化データが有音フレームに決定された場 合は、ビット埋め込み部 104での無音パラメータ符号ィ匕データ埋め込みは行われず 、その結果、図 5 (A)に示すフォーマットの符号化データが取得される。また、符号ィ匕 データが無音フレーム (埋込みなし)に決定された場合も、無音パラメータ符号化デ ータ埋め込みは行われず、その結果、図 5 (A)に示すフォーマットの符号化データが 取得される。一方、符号化データが無音フレーム (埋込みあり)に決定された場合は、 無音パラメータ符号ィ匕データ埋め込みが行われ、その結果、図 5 (B)に示すフォーマ ットの符号ィ匕データが取得される。
[0049] このように、本実施の形態によれば、符号化データのうち、無音フレーム (埋込みあ り)としての符号ィ匕データのみに無音パラメータ符号ィ匕データを合成することにより、 音声成分を含む音声信号に対応する符号ィ匕データと音声成分を含まない音声信号 に対応する符号化データとを取得する、つまり符号化データに無音パラメータ符号化 データを合成するため、復号側に対して、異なるフォーマットタイプを有していながら 同様のフレーム構成を有する符号化データを連続的に伝送することができる。このた め、無音パラメータ符号ィ匕データが符号ィ匕データに合成されるようなモードで生成さ れた符号化データが復号側に伝送された場合に、復号側では、符号化データを、無 音パラメータ符号化データが合成されたままの状態で復号することができる。すなわ ち、符号化側では、音声符号ィ匕に伴って用いられる制御方式に復号側が対応してい なくとも復号可能なデータを生成することができる。さらに、前述の場合において、復 号側では、無音パラメータ符号ィ匕データが合成されたままの状態で符号ィ匕データを 復号することと、合成された無音パラメータ符号化データを選択的に復号することと、 のいずれかを自由に選択することができる。すなわち、符号化側では、音声符号ィ匕 に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択さ せることができる。
[0050] (実施の形態 2)
図 7は、本発明の実施の形態 2に係る音声符号ィ匕装置の構成を示すブロック図で ある。なお、本実施の形態で説明する音声符号ィ匕装置 200は、実施の形態 1で説明 した音声符号ィ匕装置 100と同様の基本的構成を有するため、同一の構成要素には 同一の参照符号を付し、その詳細な説明を省略する。また、音声符号化装置 200か ら伝送される符号化データは、実施の形態 1で説明した音声復号装置 150a、 150b で復号することができるので、ここでは音声復号装置についての説明を省略する。
[0051] 音声符号化装置 200は、音声符号化装置 100に設けられた音声符号化部 102お よびビット埋め込み部 104の代わりに、音声符号ィ匕部 202を設けた構成を有する。 [0052] 音声符号ィ匕部 202は、音声符号化部 102の動作およびビット埋め込み部 104の動 作を組み合わせた動作を実行する。また、音声符号ィ匕部 202には、入力音声信号を 効率的に符号化することができる CELP (Code Excited Linear Prediction)符号化が 適用されている。
[0053] 音声符号ィ匕部 202は、図 8に示すとおり、 LPC分析部 204、第 1符号化候補生成 部 206、 LPC量子化部 208、適応符号利得符号帳 210、適応符号帳 212、乗算器 2 14、加算器 216、固定符号帳 218、乗算器 220、第 2符号ィ匕候補生成部 222、合成 フィルタ 224、減算器 226、重み付け誤差最小化部 228、無音パラメータ符号化デ ータ分割部 230および多重化部 232を有する。
[0054] LPC分析部 204は、入力音声信号を用いて線形予測分析を行!、、その分析結果 つまり LPC係数を LPC量子化部 208に出力する。
[0055] LPC量子化部 208は、 LPC分析部 204から出力された LPC係数を、第 1符号化候 補生成部 206から出力された符号ィ匕候補値および符号ィ匕候補符号に基づいて、ベ タトル量子化する。そして、ベクトル量子化の結果として得られた LPC量子化符号を 多重化部 232に出力する。また、 LPC量子化部 208は、 LPC係数から復号化 LPC 係数を得て、この復号化 LPC係数を合成フィルタ 224に出力する。
[0056] 第 1符号ィ匕候補生成部 206は、図 9に示すように、符号帳 242および探索範囲制 限部 244を有し、入力音声信号の音声符号ィ匕を行うときに LPC量子化部 208で行わ れる LPC係数のベクトル量子化に用いられる、符号化候補値および符号化候補符 号を生成し、これらを LPC量子化部 208に出力する。
[0057] 符号帳 242は、音声信号を符号ィ匕するときに LPC量子化部 208で用いられ得る符 号ィ匕候補値および符号ィ匕候補符号のリストを予め保持している。探索範囲制限部 24 4は、入力音声信号を符号ィ匕するときに LPC量子化部 208で用いられる符号ィ匕候補 値および符号化候補符号を生成する。より具体的には、フレームタイプ判定部 108か らのフレームタイプ情報が「有音フレーム」または「無音フレーム (埋込みなし)」を示し ている場合、探索範囲制限部 244は、符号帳 242に予め保持されている符号化候補 値および符号ィ匕候補符号に対して、探索範囲の制限を行わない。一方、フレームタ イブ情報が「無音フレーム (埋込みあり)」を示して 、る場合、探索範囲制限部 244は 、符号化候補値および符号化候補符号に対して、探索範囲の制限を行う。制限され た探索範囲は、無音パラメータ符号ィ匕データ分割部 230から得た分割パラメータ符 号のビット数に基づくマスクビットの割り当てを行!、且つマスクビットの割り当てに従つ て分割パラメータ符号を埋め込むことによって、定められる。
[0058] 合成フィルタ 224は、 LPC量子化部 208から出力された復号ィ匕 LPC係数と加算器 216から出力された駆動音源とを用いてフィルタ合成を行い、合成信号を減算器 22 6へ出力する。減算器 226は、合成フィルタ 224から出力された合成信号と入力音声 信号との誤差信号を算出し、重み付け誤差最小化部 228に出力する。
[0059] 重み付け誤差最小化部 228は、減算器 226から出力された誤差信号に対して聴覚 的な重み付けを行 、、聴覚重み付け領域での入力音声信号と合成信号との歪みを 算出する。そして、この歪みが最小となるように、適応符号帳 212と固定符号帳 218と 第 2符号ィ匕候補生成部 222とから生成されるべき信号を決定する。
[0060] より具体的には、重み付け誤差最小化部 228は、歪みを最小とする適応音源ラグを 適応符号帳 212から選択する。また、歪みを最小とする固定音源ベクトルを固定符号 帳 218から選択する。また、歪みを最小とする量子化適応音源利得を適応符号利得 符号帳 210から選択する。また、量子化固定音源利得を第 2符号ィ匕候補生成部 222 から選択する。
[0061] 適応符号帳 212は、ノ ッファを有し、過去に加算器 216によって出力された駆動音 源をそのノ ッファに記憶しており、重み付け誤差最小化部 228から出力される信号に よって特定される切り出し位置から 1フレーム分のサンプルをバッファ力 切り出し、 適応音源ベクトルとして乗算器 214へ出力する。また、決定結果を示す適応音源ラグ 符号を多重化部 232に出力する。また、適応符号帳 212は、加算器 216から出力さ れた駆動音源を受けるたびにバッファに記憶された駆動音源のアップデートを行う。
[0062] 適応符号利得符号帳 210は、重み付け誤差最小化部 228から出力される信号に 基づいて、量子化適応音源利得を決定し、これを乗算器 214に出力する。また、この 決定結果を示す量子化適応音源利得符号を多重化部 232に出力する。
[0063] 乗算器 214は、適応符号利得符号帳 210から出力された量子化適応音源利得を、 適応符号帳 212から出力された適応音源ベクトルに乗じ、その乗算結果を加算器 21 6に出力する。
[0064] 固定符号帳 218は、重み付け誤差最小化部 228から出力された信号によって特定 される形状を有するベクトルを固定音源ベクトルとして決定し、乗算器 220へ出力す る。また、この決定結果を示す固定音源ベクトル符号を多重化部 232に出力する。
[0065] 乗算器 220は、第 2符号ィ匕候補生成部 222から出力された量子化固定音源利得を 、固定符号帳 218から出力された固定音源ベクトルに乗じ、その乗算結果を加算器 2 16に出力する。
[0066] 加算器 216は、乗算器 214から出力された適応音源ベクトルと乗算器 220から出 力された固定音源ベクトルとを加算し、その加算結果である駆動音源を合成フィルタ 224および適応符号帳 212に出力する。
[0067] 無音パラメータ符号化データ分割部 230は、無音パラメータ分析'符号化部 110か ら出力された無音パラメータ符号ィ匕データを分割する。無音パラメータ符号化データ は、無音パラメータ符号ィ匕データが埋め込まれる量子化符号のビット数毎に分割され る。また、本実施の形態では、フレーム単位の LPC量子化符号およびサブフレーム 単位の量子化固定音源利得符号を埋め込み対象の量子化符号に指定している。こ のため、無音パラメータ符号化データ分割部 230は、無音パラメータ符号化データを (1 +サブフレーム数)分に分割し、その個数分の分割パラメータ符号を得る。
[0068] 第 2符号化候補生成部 222は、固定符号利得符号帳を有し、音声符号化を行うと きに固定音源ベクトルに乗算する量子化固定音源利得の候補を生成する。より具体 的には、フレームタイプ判定部 108からのフレームタイプ情報が「有音フレーム」また は「無音フレーム (埋込みなし)」を示して 、る場合、第 2符号ィ匕候補生成部 222は、 予め固定符号利得符号帳に格納されている、量子化固定音源利得候補に対して、 探索範囲の制限を行わない。一方、フレームタイプ情報が「無音フレーム (埋込みあ り)」を示している場合、第 2符号ィ匕候補生成部 222は、量子化固定音源利得候補に 対して、探索範囲の制限を行う。制限された探索範囲は、無音パラメータ符号化デー タ分割部 230から得た分割パラメータ符号のビット数に基づくマスクビットの割り当て を行い且つマスクビットの割り当てに従って分割パラメータ符号を埋め込むことによつ て、定められる。このようにして、量子化固定音源利得候補の生成が行われる。そし て、生成された量子化固定音源利得候補の中から、重み付け誤差最小化部 228か ら信号に基づいて特定されるものを、固定音源ベクトルに乗算すべき量子化固定音 源利得として決定し、これを乗算器 220に出力する。また、この決定結果を示す量子 化固定音源利得符号を多重化部 232に出力する。
[0069] 多重化部 232は、 LPC量子化部 208からの LPC量子化符号と、適応符号利得符 号帳 210からの量子化適応音源利得符号と、適応符号帳 212からの適応音源べタト ル符号と、固定符号帳 218からの固定音源ベクトル符号と、第 2符号化候補生成部 2 22からの量子化固定音源利得符号と、を多重化する。この多重化によって、符号ィ匕 データが得られる。
[0070] 次いで、音声符号ィ匕部 202における探索範囲制限動作について、説明する。ここ では、第 1符号ィ匕候補生成部 206での探索範囲制限動作を例にとって説明する。
[0071] 音声符号ィ匕部 202において、符号帳 242には、図 10に示すように、 16通りの符号 インデクス iと各符号インデクス iに対応する符号ベクトル C[i]との組み合わせ力 符 号化候補符号および符号化候補値としてそれぞれ格納されている。
[0072] そして、フレームタイプ判定部 108からのフレームタイプ情報が「有音フレーム」また は「無音フレーム (埋込みなし)」を示して 、る場合、探索範囲制限部 244は探索範囲 を制限せずに 16通りの候補の組み合わせを LPC量子化部 208に出力する。
[0073] 一方、フレームタイプ情報が「無音フレーム (埋込みあり)」を示して 、る場合、探索 範囲制限部 244は、無音パラメータ符号ィ匕データ分割部 230から得た分割パラメ一 タ符号のビット数に基づいて、符号インデクス iにマスクビットを割り当てる。本実施の 形態では、ビット感度が所定レベルよりも低 、所定数の符号ィ匕ビットまたはビット感度 が最も低い符号ィ匕ビットを含む所定数の符号ィ匕ビットを置き換えおよびマスクの対象 とする。例えば、スカラー値の量子化値が符号と昇順に対応している場合は、 LSB ( 最下位ビット)力もマスクビットを割り当てる。このようなマスクビット割り当てを行うこと で、探索範囲を制限する。すなわち、予め埋め込みを前提とした符号帳の制限を行う 。このため、埋め込みを行うことによる符号ィ匕性能の劣化を防止することができる。
[0074] そして、マスクビット割り当てでマスクされたビットに分割パラメータ符号を埋め込む ことによって、制限された探索範囲に属する探索候補が特定される。ここでの例示に おいては、下位の 2ビットにマスクビットが割り当てられているので、探索範囲が、元の 16通りの候補力も 4通りの候補に制限される。そして、これら 4通りの候補の組み合わ せ力 SLPC量子化部 208に出力される。
[0075] このように、本実施の形態によれば、無音パラメータ符号化データの埋め込みを前 提とした最適な量子化が行われる。すなわち、無音フレームとしての符号ィヒデータを 構成する複数のビットのうち、所定レベル以下の感度を有する所定数のビットを、また は、感度が最も低いビットを含む所定数のビットを、マスクビット割り当ておよび分割パ ラメータ符号埋め込みの対象とする。このため、復号音声の品質に与える影響を低減 することができ、分割パラメータ符号埋め込みを行った場合の符号ィ匕性能を向上する ことができる。
[0076] なお、本実施の形態では、音声符号ィ匕に CELP符号ィ匕が用いられた場合について 説明したが、 CELP符号ィ匕を用いることは本発明の要件ではなぐ他の音声符号ィ匕 方式を用いても上記と同様の作用効果を実現することができる。
[0077] また、無音パラメータの一部または全てに、通常の音声符号ィ匕パラメータと共通なも のを用いるようにしても良い。例えば、無音パラメータのうち、スペクトル概形情報に L PCパラメータが用いられる場合に、その LPCパラメータの量子化符号を、 LPC量子 化部 208で用いられる LPCパラメータの量子化符号またはその一部と同一のものに する。このようにすることで、無音パラメータ符号化データの埋め込み (置換や上書き など)を行ったときの量子化性能を向上することができる。
[0078] また、本実施の形態では、 LPC量子化符号および量子化固定音源利得符号を、 無音パラメータ符号ィ匕データを埋め込む対象の符号ィ匕データとした場合について説 明した。ただし、埋め込み対象の符号化データはこれらだけに限定されず、これら以 外の符号化データを埋め込み対象として採用しても良 、。
[0079] (実施の形態 3)
図 11 Aおよび図 11Bは、本発明の実施の形態 9に係るスケーラブル符号ィ匕装置お よびスケーラブル復号装置をそれぞれ示すブロック図である。本実施の形態では、ス ケーラブル構成として帯域スケーラブルの機能を有する音声符号ィ匕のコアレイヤに、 実施の形態 1 (または実施の形態 2)で説明した各装置を適用した場合について説明 する。
[0080] 図 11 Aに示すスケーラブル符号化装置 300は、ダウンサンプリング部 302、音声符 号化装置 100、局部復号部 304、アップサンプリング部 306および拡張レイヤ符号ィ匕 部 308を有する。
[0081] ダウンサンプリング部 302は、入力音声信号をコアレイヤの帯域の信号にダウンサ ンプリングする。音声符号化装置 100は、実施の形態 1で説明したものと同一の構成 を有するものであり、ダウンサンプリングされた入力音声信号力 符号ィ匕データおよ びフレームタイプ情報を生成し、これらを出力する。生成された符号化データは、コア レイヤ符号ィ匕データとして出力される。
[0082] 局部復号部 304は、コアレイヤ符号ィ匕データに対して局部復号を行い、コアレイヤ の復号音声信号を得る。アップサンプリング部 306は、コアレイヤの復号音声信号を 拡張レイヤの帯域の信号にアップサンプリングする。拡張レイヤ符号ィ匕部 308は、拡 張レイヤの信号帯域を有する入力音声信号に対して拡張レイヤの符号化を行 、、拡 張レイヤ符号化データを生成し、出力する。
[0083] 図 11Bに示すスケーラブル復号装置 350は、音声復号装置 150b、アップサンプリ ング部 352および拡張レイヤ復号部 354を有する。
[0084] 音声復号装置 150bは、実施の形態 1で説明したものと同一の構成を有するもので あり、スケーラブル符号ィ匕装置 300から伝送されたコアレイヤ符号ィ匕データおよびフ レームタイプ情報から、復号音声信号を生成し、これをコアレイヤ復号信号として出 力する。
[0085] アップサンプリング部 352は、コアレイヤ復号信号を拡張レイヤの帯域の信号にアツ プサンプリングする。拡張レイヤ復号部 354は、スケーラブル符号ィ匕装置 300から伝 送された拡張レイヤ符号化データを復号して、拡張レイヤ復号信号を得る。そして、 アップサンプリングされたコアレイヤ復号信号を、拡張レイヤ復号信号に多重化する ことによって、コアレイヤ +拡張レイヤ復号信号を生成し、これを出力する。
[0086] なお、スケーラブル符号ィ匕装置 300は、前述の音声符号化装置 100の代わりに、 実施の形態 2で説明した音声符号化装置 200を有しても良い。
[0087] 以下、上記構成を有するスケーラブル復号装置 350での動作について説明する。 コアレイヤにおいて、フレームフォーマット切り替え制御を行わないとする。この場合、 常に、コアレイヤ +拡張レイヤ復号信号を得ることができる。また、コアレイヤのみを 復号するように設定し、且つ、コアレイヤにおいてフレームフォーマット切り替え制御 を行うとする。この場合は、最も符号化効率の高い且つ低ビットレートの復号信号を 得ることができる。また、無音フレームでは、フレームフォーマット切り替え制御ありで コアレイヤのみを復号するように設定し、有音フレームでは、コアレイヤ +拡張レイヤ を復号するように設定したとする。この場合は、前述の二つの場合に対して中間的な 音声品質および伝送効率を実現することができる。
[0088] このように、本実施の形態によれば、複数の種類の復号音声信号を、符号化側で の制御の設定状態に依存することなぐ復号側 (またはネットワーク上)で自由に選択 して復号することができる。
[0089] なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部又は全 てを含むように 1チップィ匕されても良い。
[0090] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0091] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサ で実現しても良い。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィ ギュラブノレ ·プロセッサーを利用しても良 、。
[0092] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてありえる。
[0093] 本明細書は、 2004年 7月 23日出願の特願 2004— 216127に基づく。この内容は すべてここに含めておく。
産業上の利用可能性
[0094] 本発明の音声符号化装置および音声符号化方法は、有音区間と無音区間とで異 なるフォーマットタイプの符号ィ匕データを伝送するのに有用である。

Claims

請求の範囲
[1] 音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含ま ない音声信号に対応する第二の符号化データとを出力する音声符号化装置であつ て、
入力音声信号を所定区間単位で符号化し符号化データを生成する符号化手段と 前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判 定手段と、
前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記 入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、 前記第一の符号化データと前記第二の符号化データとを取得する合成手段と、 を有する音声符号化装置。
[2] 前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データに、前記雑 音データを埋め込む、
請求項 1記載の音声符号化装置。
[3] 前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データにおける所 定の位置に、前記雑音データを埋め込む、
請求項 1記載の音声符号化装置。
[4] 前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データのビットを、 前記雑音データで置き換える、
請求項 1記載の音声符号化装置。
[5] 前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データのビットを、 前記雑音データで上書きする、
請求項 1記載の音声符号化装置。
[6] 前記符号化手段は、
複数のビットから成る前記符号ィ匕データを生成し、
前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データを構成する 前記複数のビットの一部を、前記雑音データで置き換える、
請求項 1記載の音声符号化装置。
[7] 前記符号化手段は、
複数のビットから成る前記符号ィ匕データを生成し、
前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データを構成する 前記複数のビットの一部を、前記雑音データで上書きする、
請求項 1記載の音声符号化装置。
[8] 前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データを構成する 前記複数のビットのうち、所定レベル以下の感度を有する所定数のビットを、前記雑 音データで置き換える、
請求項 6記載の音声符号化装置。
[9] 前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データを構成する 前記複数のビットのうち、最も感度の低いビットを含む所定数のビットを、前記雑音デ ータで置き換える、
請求項 6記載の音声符号化装置。
[10] 音声信号の符号ィヒに用いられる符号ィヒ候補を記憶する記憶手段を有し、
前記符号化手段は、
前記符号化データを構成する複数のビットの 、ずれか〖こマスクビットを割り当て、前 記入力音声信号の符号ィ匕に用いられる前記符号ィ匕候補を、前記マスクビットの割り 当てに従って制限する、
請求項 1記載の音声符号化装置。
[11] 請求項 1記載の音声符号化装置を有するスケーラブル符号化装置。
[12] 雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第 一の復号手段と、
前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号手段と、 前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選 択する選択手段と、
を有する音声復号装置。
[13] 請求項 12記載の音声復号装置を有するスケーラブル復号装置。
[14] 音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含ま ない音声信号に対応する第二の符号ィヒデータとを出力する音声符号ィヒ方法であつ て、
入力音声信号を所定区間単位で符号ィ匕し符号ィ匕データを生成する符号化ステツ プと、
前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判 定ステップと、
前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記 入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、 前記第一の符号ィヒデータと前記第二の符号ィヒデータとを取得する合成ステップと、 を有する音声符号化方法。
[15] 請求項 14記載の音声符号ィ匕方法を有するスケーラブル符号ィ匕方法。
[16] 雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第 一の復号ステップと、
前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号ステツ プと、
前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選 択する選択ステップと、
を有する音声復号方法。
[17] 請求項 16記載の音声復号方法を有するスケーラブル復号方法。
PCT/JP2005/011998 2004-07-23 2005-06-29 音声符号化装置および音声符号化方法 WO2006008932A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
ES05755783.7T ES2634511T3 (es) 2004-07-23 2005-06-29 Aparato de codificación de audio y procedimiento de codificación de audio
CN200580024433XA CN1989549B (zh) 2004-07-23 2005-06-29 语音编码装置及语音编码方法
EP05755783.7A EP1768106B8 (en) 2004-07-23 2005-06-29 Audio encoding device and audio encoding method
JP2006528766A JPWO2006008932A1 (ja) 2004-07-23 2005-06-29 音声符号化装置および音声符号化方法
EP17169131.4A EP3276619B1 (en) 2004-07-23 2005-06-29 Audio encoding device and audio encoding method
US11/658,150 US8670988B2 (en) 2004-07-23 2005-06-29 Audio encoding/decoding apparatus and method providing multiple coding scheme interoperability

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-216127 2004-07-23
JP2004216127 2004-07-23

Publications (1)

Publication Number Publication Date
WO2006008932A1 true WO2006008932A1 (ja) 2006-01-26

Family

ID=35785052

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/011998 WO2006008932A1 (ja) 2004-07-23 2005-06-29 音声符号化装置および音声符号化方法

Country Status (6)

Country Link
US (1) US8670988B2 (ja)
EP (2) EP1768106B8 (ja)
JP (1) JPWO2006008932A1 (ja)
CN (1) CN1989549B (ja)
ES (1) ES2634511T3 (ja)
WO (1) WO2006008932A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011512563A (ja) * 2008-02-19 2011-04-21 シーメンス エンタープライズ コミュニケーションズ ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディートゲゼルシャフト 背景ノイズ情報を符号化する方法および手段
JP2011514561A (ja) * 2008-03-20 2011-05-06 華為技術有限公司 背景雑音生成方法および雑音処理装置
JP2013076871A (ja) * 2011-09-30 2013-04-25 Oki Electric Ind Co Ltd 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム
JP2013528832A (ja) * 2010-11-12 2013-07-11 ポリコム,インク. マルチポイント環境におけるスケーラブルオーディオ処理

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9953660B2 (en) * 2014-08-19 2018-04-24 Nuance Communications, Inc. System and method for reducing tandeming effects in a communication system
KR102362788B1 (ko) * 2015-01-08 2022-02-15 한국전자통신연구원 레이어드 디비전 멀티플렉싱을 이용한 방송 신호 프레임 생성 장치 및 방송 신호 프레임 생성 방법
CA3062640C (en) * 2015-01-08 2022-04-26 Electronics And Telecommunications Research Institute An apparatus and method for broadcast signal reception using layered divisional multiplexing

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0236628A (ja) * 1988-07-27 1990-02-06 Toshiba Corp 音声信号の送信方式及び送受信方式
JPH05122165A (ja) * 1991-10-28 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声信号伝送方法
JPH0997098A (ja) * 1995-09-29 1997-04-08 Nec Corp 無音圧縮音声符号化復号化装置
JPH09149104A (ja) * 1995-11-24 1997-06-06 Kenwood Corp 擬似背景雑音生成方法
JPH1039898A (ja) * 1996-07-22 1998-02-13 Nec Corp 音声信号伝送方法及び音声符号復号化システム
WO2000034944A1 (fr) * 1998-12-07 2000-06-15 Mitsubishi Denki Kabushiki Kaisha Decodeur sonore et procede de decodage sonore
JP2001094507A (ja) * 2000-08-11 2001-04-06 Kenwood Corp 擬似背景雑音生成方法
JP2001343984A (ja) * 2000-05-30 2001-12-14 Matsushita Electric Ind Co Ltd 有音/無音判定装置、音声復号化装置及び音声復号化方法
JP2002333900A (ja) * 2001-05-10 2002-11-22 Hitachi Ltd 音声符号化復号化方法および音声送受信装置
JP2003023683A (ja) * 2001-07-06 2003-01-24 Mitsubishi Electric Corp 音声中継伝送システム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69233794D1 (de) * 1991-06-11 2010-09-23 Qualcomm Inc Vocoder mit veränderlicher Bitrate
JP3149562B2 (ja) * 1992-09-21 2001-03-26 松下電器産業株式会社 デジタル音声伝送装置
US5664057A (en) * 1993-07-07 1997-09-02 Picturetel Corporation Fixed bit rate speech encoder/decoder
US5960389A (en) 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JP3464371B2 (ja) 1996-11-15 2003-11-10 ノキア モービル フォーンズ リミテッド 不連続伝送中に快適雑音を発生させる改善された方法
US5959560A (en) * 1997-02-07 1999-09-28 Said; Amir Data compression via alphabet partitioning and group partitioning
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
US6226607B1 (en) * 1999-02-08 2001-05-01 Qualcomm Incorporated Method and apparatus for eighth-rate random number generation for speech coders
FR1094446T (fr) * 1999-10-18 2007-01-05 Lucent Technologies Inc Enregistrement de la parole avec compression du silence et génération de bruit de confort pour appareil de communication digitale
JP2001242896A (ja) * 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
US7136810B2 (en) * 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method
JP3670217B2 (ja) * 2000-09-06 2005-07-13 国立大学法人名古屋大学 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
US6804655B2 (en) * 2001-02-06 2004-10-12 Cirrus Logic, Inc. Systems and methods for transmitting bursty-asnychronous data over a synchronous link
US20020165720A1 (en) * 2001-03-02 2002-11-07 Johnson Timothy M. Methods and system for encoding and decoding a media sequence
GB0119569D0 (en) * 2001-08-13 2001-10-03 Radioscape Ltd Data hiding in digital audio broadcasting (DAB)
ES2268112T3 (es) * 2001-11-14 2007-03-16 Matsushita Electric Industrial Co., Ltd. Codificacion y descodificacion de audio.
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
JP4292767B2 (ja) * 2002-09-03 2009-07-08 ソニー株式会社 データレート変換方法及びデータレート変換装置
US7406096B2 (en) * 2002-12-06 2008-07-29 Qualcomm Incorporated Tandem-free intersystem voice communication
JP4527369B2 (ja) * 2003-07-31 2010-08-18 富士通株式会社 データ埋め込み装置及びデータ抽出装置
JP2006135871A (ja) * 2004-11-09 2006-05-25 Fujitsu Ltd フレーム伝送装置およびフレーム受信装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0236628A (ja) * 1988-07-27 1990-02-06 Toshiba Corp 音声信号の送信方式及び送受信方式
JPH05122165A (ja) * 1991-10-28 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声信号伝送方法
JPH0997098A (ja) * 1995-09-29 1997-04-08 Nec Corp 無音圧縮音声符号化復号化装置
JPH09149104A (ja) * 1995-11-24 1997-06-06 Kenwood Corp 擬似背景雑音生成方法
JPH1039898A (ja) * 1996-07-22 1998-02-13 Nec Corp 音声信号伝送方法及び音声符号復号化システム
WO2000034944A1 (fr) * 1998-12-07 2000-06-15 Mitsubishi Denki Kabushiki Kaisha Decodeur sonore et procede de decodage sonore
JP2001343984A (ja) * 2000-05-30 2001-12-14 Matsushita Electric Ind Co Ltd 有音/無音判定装置、音声復号化装置及び音声復号化方法
JP2001094507A (ja) * 2000-08-11 2001-04-06 Kenwood Corp 擬似背景雑音生成方法
JP2002333900A (ja) * 2001-05-10 2002-11-22 Hitachi Ltd 音声符号化復号化方法および音声送受信装置
JP2003023683A (ja) * 2001-07-06 2003-01-24 Mitsubishi Electric Corp 音声中継伝送システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1768106A4 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011512563A (ja) * 2008-02-19 2011-04-21 シーメンス エンタープライズ コミュニケーションズ ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディートゲゼルシャフト 背景ノイズ情報を符号化する方法および手段
KR101364983B1 (ko) * 2008-02-19 2014-02-20 유니파이 게엠베하 운트 코. 카게 Sid 프레임을 인코딩하기 위한 방법
JP2011514561A (ja) * 2008-03-20 2011-05-06 華為技術有限公司 背景雑音生成方法および雑音処理装置
US8494846B2 (en) 2008-03-20 2013-07-23 Huawei Technologies Co., Ltd. Method for generating background noise and noise processing apparatus
US8831932B2 (en) 2010-07-01 2014-09-09 Polycom, Inc. Scalable audio in a multi-point environment
JP2013528832A (ja) * 2010-11-12 2013-07-11 ポリコム,インク. マルチポイント環境におけるスケーラブルオーディオ処理
JP2013076871A (ja) * 2011-09-30 2013-04-25 Oki Electric Ind Co Ltd 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム

Also Published As

Publication number Publication date
EP1768106B8 (en) 2017-07-19
ES2634511T3 (es) 2017-09-28
EP1768106B1 (en) 2017-05-03
EP1768106A1 (en) 2007-03-28
EP3276619A1 (en) 2018-01-31
EP1768106A4 (en) 2008-09-03
US20070299660A1 (en) 2007-12-27
CN1989549B (zh) 2011-05-18
EP3276619B1 (en) 2021-05-05
US8670988B2 (en) 2014-03-11
CN1989549A (zh) 2007-06-27
JPWO2006008932A1 (ja) 2008-05-01

Similar Documents

Publication Publication Date Title
KR101363793B1 (ko) 부호화 장치, 복호 장치 및 그 방법
KR101664434B1 (ko) 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP5046652B2 (ja) 音声符号化装置および音声符号化方法
JP5058152B2 (ja) 符号化装置および符号化方法
KR20080093450A (ko) 오디오 인코딩/디코딩에서의 인지 가중 장치
KR20070038041A (ko) 전기 통신을 위한 멀티-레이트 음성 부호화기에 있어서음성 트랜스-레이팅을 위한 방법 및 장치
JPWO2009057327A1 (ja) 符号化装置および復号装置
WO2006118179A1 (ja) 音声符号化装置および音声符号化方法
WO2006008932A1 (ja) 音声符号化装置および音声符号化方法
JP5355387B2 (ja) 符号化装置および符号化方法
JP4948401B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JPWO2007114290A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法
JP4937746B2 (ja) 音声符号化装置および音声符号化方法
JP3063668B2 (ja) 音声符号化装置及び復号装置
CN111149160A (zh) 在celp编解码器中在子帧之间分派比特预算的方法和设备
KR100467326B1 (ko) 추가 비트 할당 기법을 이용한 음성 부호화 및 복호화를위한 송수신기
JP5294713B2 (ja) 符号化装置、復号装置およびそれらの方法
RU2459283C2 (ru) Кодирующее устройство, декодирующее устройство и способ
JP2006072269A (ja) 音声符号化装置、通信端末装置、基地局装置および音声符号化方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006528766

Country of ref document: JP

REEP Request for entry into the european phase

Ref document number: 2005755783

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2005755783

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 200580024433.X

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 11658150

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005755783

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11658150

Country of ref document: US