WO2005106848A1 - スケーラブル復号化装置および拡張レイヤ消失隠蔽方法 - Google Patents

スケーラブル復号化装置および拡張レイヤ消失隠蔽方法 Download PDF

Info

Publication number
WO2005106848A1
WO2005106848A1 PCT/JP2005/007822 JP2005007822W WO2005106848A1 WO 2005106848 A1 WO2005106848 A1 WO 2005106848A1 JP 2005007822 W JP2005007822 W JP 2005007822W WO 2005106848 A1 WO2005106848 A1 WO 2005106848A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
core layer
decoded
lpc
decoding
Prior art date
Application number
PCT/JP2005/007822
Other languages
English (en)
French (fr)
Inventor
Hiroyuki Ehara
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2006512775A priority Critical patent/JPWO2005106848A1/ja
Priority to EP05734140A priority patent/EP1758099A1/en
Priority to US11/587,964 priority patent/US20080249766A1/en
Publication of WO2005106848A1 publication Critical patent/WO2005106848A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Definitions

  • the present invention relates to a scalable decoding apparatus that performs concealment processing when an enhancement layer is lost, and an enhancement layer erasure concealment method used in the apparatus.
  • packet loss may occur on the transmission path, so even if part of the transmission information is lost, decoding processing can be performed from the remaining information.
  • a scalable coding feature is desired.
  • this scalable code there is no change in the frequency band, but only the bit rate of the signal to be coded has scalability, and in the frequency band of the signal to be coded (in the frequency axis direction) There is one that gives a certainty and makes a code (see, for example, Non-Patent Document 1).
  • the latter scheme of providing scalability in the frequency band and coding will be called band-scale scalable coding.
  • Such scalable code systems have been disclosed not only for audio signals but also for audio signals in a wider band (see, for example, Patent Documents 1 and 2).
  • Such scalable coding is to hierarchically code I spoon acoustic signal comprising the code I spoon subject, DiffS e rv (Differentiated Services) Core (basic example using priority control on the network, such as the ⁇ ) information is transmitted preferentially. Then, depending on the status of the transmission path, discarding is performed in order of the information strength of higher enhancement layers. As a result, the probability that core information will be discarded in the communication network can be reduced, and degradation of call quality can be suppressed even if some code information is lost due to packet loss.
  • DiffS e rv Differentiated Services
  • Core basic example using priority control on the network, such as the ⁇
  • Patent Document 3 discloses the frame erasure concealment process of ITU-T Recommendation G. 729. As disclosed in Patent Document 3, it is standard to perform concealment processing of a lost frame by extrapolation using information decoded in the past.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 08-263096
  • Patent Document 2 Japanese Patent Application Laid-Open No. 2002-100994
  • Patent Document 3 Japanese Patent Application Laid-Open No. 09-120297
  • Non-Patent Document 1 T. Nomura et al, "A Bitrate and Bandwidth Scalable CELP Coder,” IEEE Proc. ICASSP 98, pp. 341-344, 1998
  • Non-Patent Document 2 3GPP Standard, TS 26. 190
  • decoding processing of the lost signal may be performed using the information of the core layer, but there are the following problems. That is, as described above, when not only the bit rate but also the frequency band is scalable, the decoded signal generated from the information of the core layer is a narrow band signal, whereas the information strength of both the core layer and the enhancement layer is The generated decoded signal is a wideband signal. Therefore, there is a problem that the frequency band of the decoded signal changes between the case where the decoding process is performed using only the information of the core layer and the case where the decoding process is performed using even the enhancement layer.
  • the object of the present invention is to prevent the discomfort in the subjective quality without causing frequent switching of the band of the decoded signal even when the signal of the enhancement layer is lost in the band scalable coding system.
  • Abstract A scalable decoding device and an enhancement layer erasure concealment method used in the device.
  • the scalable decoding device is a scalable decoding device for obtaining a wideband decoded signal from code information including a core layer having scalability in the frequency axis direction and an enhancement layer, Core layer decoding means for obtaining a narrow band core layer decoding signal, core layer decoding means, a conversion means for converting the frequency band of the narrow band core layer decoding signal to a wide band and obtaining a first signal, and a core layer Compensation means for generating a wide band compensation signal based on the decoded signal obtained in the past with respect to the coding information in which the enhancement layer is lost, and a frequency component corresponding to the wide band compensation signal power core layer And adding the first signal obtained by the converting means and the second signal obtained by the removing means to obtain a second signal.
  • a configuration having a, and adding means for obtaining.
  • the frequency of the decoded signal may not be switched frequently so that the subjective quality may not cause discomfort.
  • FIG. 1 is a block diagram showing a main configuration of a scalable decoding device according to Embodiment 1.
  • FIG. 2 a block diagram showing a main configuration inside a core decoder according to Embodiment 1.
  • FIG. 3 A block diagram showing the main configuration inside the extended decoder according to Embodiment 1.
  • FIG. 4 A diagram showing the flow of signals in the normal state inside the extended decoder according to Embodiment 1.
  • FIG. 5 Signal when the frame of the enhancement layer inside the extended decoder according to Embodiment 1 is lost Figure showing the flow of
  • FIG. 6 A diagram for explaining the outline of the decoding process of the scalable decoding device according to the first embodiment.
  • FIG. 7 A block diagram showing the configuration of the up-sample processing unit when the extension decoder according to Embodiment 1 is MDCT-based
  • FIG. 8 A block diagram showing the main configuration of a scalable decoding device according to Embodiment 2.
  • FIG. 9 When the scalable decoding device shown in Embodiment 1 or 2 is applied to a mobile communication system 10 is a block diagram showing the main configuration of the mobile station apparatus and base station apparatus of the present embodiment
  • Figure 10 A block diagram showing the main configuration of the scalable decoding apparatus when combining Embodiments 1 and 2
  • the core layer is a layer that performs coding and decoding of the narrowband signal.
  • FIG. 1 is a block diagram showing a main configuration of a scalable decoding device according to Embodiment 1 of the present invention.
  • the scalable decoding apparatus includes a packet analysis unit 101 for a core code packet, a core decoder (core decoding process unit) 102, an up-sample processing unit 103, and an extension code packet. , An extended decoder (extended decoding processing unit) 105, a high pass filter (HPF) 106, a switching switch (SW) 107, and an adder 108.
  • HPF high pass filter
  • SW switching switch
  • Each unit of the scalable decoding device performs the following operation.
  • Packet disassembling section 101 for the core code packet extracts core layer coding information from the core code packet on which the code information of the corer array input via packet network N is placed, and performs core decoding. While outputting (S 1) to the unit 102, the frame erasure information C 1 is output to the core decoder 102, the extension decoder 105, and the switching switch 107.
  • the coding information refers to a coded bit stream output from a coding device (not shown) on the transmission side.
  • frame loss information CI is information indicating whether a frame to be decoded is a lost frame. When the packet to be decoded is a lost packet, all frames included in this packet become a lost frame.
  • the core decoder 102 performs core layer decoding processing using the frame loss information C1 and the coding information S1 output from the packet disassembly unit 101, and outputs a core layer decoded signal (narrowband signal) S3. Do.
  • the specific contents of the core layer decoding process may be, for example, a decoding process based on a CELP model, or may be a decoding process based on waveform coding, or a transform code model using MDCT or the like. It may be decryption processing of Also, the core decoder 102 outputs part or all (S4) of the information obtained in the core layer decoding process to the extended decoder 105.
  • the information output to the enhancement decoder 105 is used for the enhancement layer decoding process.
  • the core decoder 102 outputs the signal S6 obtained in the core layer decoding process to the up-sample processing unit 103.
  • the signal S6 output to the up-sample processing unit 103 may be the decoded signal of the core layer itself or, depending on the code model of the core layer, a partial decoding parameter (for example, spectrum parameter or excitation parameter). Also good.
  • the up-sample processing unit 103 performs a process of increasing the Nyquist frequency on the decoded signal or a part of the decoding parameter or the decoded signal obtained in the decoding process output from the core decoder 102.
  • the up-sampled signal S7 is output to the extension decoder 105. Note that this upsampling process is not limited to the process on the time axis, and depending on the scalable coding algorithm, the signal after the upsampling process is output to the extended excitation decoder 122 and used during the extended excitation decoding. It is good also as composition.
  • packet decomposing section 104 for the extension code packet extracts the coding information of the enhancement layer from the extension code packet on which the coding information of the enhancement layer inputted through the packet network is carried.
  • the frame loss information C 2 is output to the extension decoder 105 and the switching switch 107 as well as being output to the extension decoder 105 (S 2).
  • Extended decoder 105 performs frame loss information C 2 and code information S 2 output from packet disassembly unit 104, and a core layer decoded signal S 3 output from core decoder 102 and core layer encoding processing.
  • Information S4 obtained in the process and from the up-sample processing unit 103 Decoding processing of the enhancement layer is performed using the signal S7 obtained by up-sampling the decoded signal of the core layer to be output, to obtain a decoding signal (wide band signal) of the enhancement layer, and output to the HPF 106 and the adder 108 (S8, S9).
  • the signal S8 output to the adder 108 and the signal S9 output to the HPF 106 may not be identical.
  • the extended decoder 105 may output the signal S7 output from the up sample processing unit 103 as it is to the adder 108 or may switch conditionally with reference to the frame erasure information C2.
  • the HPF 106 passes only the high frequency component (a band component not included in the narrow band decoded signal of the core layer) of the decoded signal S9 input from the extended decoder 105, and outputs it to the switching switch 107.
  • the switching switch (SW) 107 turns on / off the output of the signal output from the HPF 106 to the adder 108.
  • the on / off of the switch is performed by referring to the frame loss information outputted from the packet disassembling unit 101 for the core code packet and the packet disassembling unit 104 for the extension code packet. Specifically, if both the core layer and the enhancement layer are frame lost and there is a problem (a normal frame), the switch is opened and taken as an option. Also, if only the core layer is a normal frame and the enhancement layer is a lost frame, close the switch and turn it on. Furthermore, if both the core layer and the enhancement layer are lost frames, open the switch and turn it off.
  • the adder 108 adds the full-band acoustic signal directly input from the extension decoder 105 and the high-band decoded signal input from the extension decoder 105 via the HPF 106, and sets the addition result as a wideband signal. Output.
  • FIG. 2 is a block diagram showing a main configuration inside the above core decoder 102. As shown in FIG.
  • the core decoder 102 includes a parameter decoding unit 111, a core linear prediction coefficient (LPC) decoder 112, a core excitation decoder 113, and a synthesis filter 114.
  • LPC core linear prediction coefficient
  • the noramator decoding unit 111 receives code information (bit stream) S 1 of the core layer code output from the packet disassembly unit 101, LPC parameter code data (including LSP code, etc.) and a sound source.
  • the data is separated into parameter code / data (including pitch lag code, fixed excitation codebook code, gain code, etc.), and each data is decoded into various codes, and core (layer) LPC decoder 112 and core sound source It outputs to the decoder 113 respectively.
  • the core LPC decoder 112 decodes the LPC parameter code output from the parameter decoding unit 111, and outputs the decoded LPC to the synthesis filter 114 and the extension decoder 105.
  • the specific content of the decoding process is that, for example, vector quantization is used to decode coded LSP parameters and also convert powers into LPC parameters. If the frame loss information C1 output from the bucket disassembling unit 101 for the core code packet indicates that the current frame is a lost frame, the core LPC decoder 112 performs LPC compensation using frame loss compensation processing. It performs concealment processing of the parameter, and outputs LPC (compensation signal) generated by the concealment processing as decoded LPC.
  • LPC compensation signal
  • the core excitation decoder 113 performs decoding processing on various kinds of excitation parameter codes (pitch lag, fixed codebook, gain codebook and other codes) output from the parameter decoding unit 111, and decodes the excitation signal. Are output to the synthesis filter 114 and the up sample processing unit 103 (S6). Also, the core sound source decoder 113 outputs a part or all of the information S3 decoded by this decoding process to the extended decoder 105. Specifically, the pitch lag information and the pulse drive signal (fixed codebook excitation information) are output from the core excitation decoder 113 to the expansion decoder 105.
  • excitation parameter codes pitch lag, fixed codebook, gain codebook and other codes
  • the core sound source decoder 113 uses the frame loss compensation processing to generate the sound source. Parameter concealment processing is performed, and the compensated excitation signal generated by the concealment processing is output as a decoded excitation signal.
  • the synthesis filter 114 drives the linear prediction filter composed of the decoded LPC output from the core LPC decoder 112 with the decoded excitation signal output from the core excitation decoder 113 to obtain the narrowband signal S5. Output.
  • FIG. 3 is a block diagram showing the main configuration inside the extension decoder 105.
  • This extended decoder 105 includes a parameter decoding unit 121, an extended excitation decoder 122, two switching switches (123 and 126), two synthesis filters (124 and 128), an LPC conversion unit 125, and An extended LPC decoder 127 is provided.
  • the noramator decoding unit 121 receives the code information S2 of the enhancement layer from the packet disassembly unit 104, and LPC parameter code data (including LSP code etc.) and sound source parameter coded data (pitch lag) Code, fixed codebook index code, including gain code etc) , And decode to codes of various parameters, and output to the extended LPC decoder 127 and the extended excitation decoder 122, respectively.
  • LPC parameter code data including LSP code etc.
  • sound source parameter coded data pitch lag
  • fixed codebook index code including gain code etc
  • the extended LPC decoder 127 includes the decoded core LPC parameter S4 input from the core LPC decoder 112 in the core decoder 102, and the enhancement layer LPC nomometer code input from the norrometer decoding unit 111.
  • the LPC parameters for use in recombining the wideband signal are decoded and output to two combining filters (output to the combining filter 124 via the switching switch 126).
  • a model is used to predict an extended LSP (wideband LSP) from a decoded 1 ⁇ ? (Narrowband and SP) input from the core LPC decoder 112.
  • the extended LPC decoder 127 decodes the prediction error of the wideband LSP predicted from the narrowband LSP (for example, it is encoded using MA prediction vector quantization etc.), and A series of processing is performed such as adding to the wideband LSP predicted from the narrowband LSP to decode the final wideband LSP and finally converting it to an LPC.
  • the extended LPC decoder 127 uses the frame loss compensation processing.
  • the concealment process of the LPC parameters is performed, and the compensated LPC generated by the concealment process is output as a decoded LPC.
  • the decryption process may be another method
  • the LPC conversion unit 125 converts the narrowband LPC parameter S4 into a wideband LPC parameter.
  • the impulse response of the LPC synthesis filter which can obtain narrow band LSP power is up-sampled, the self-correlation is obtained from the up-sampled impulse response, and the obtained autocorrelation coefficient is made into LSP of desired order.
  • the method of conversion etc. is not limited to this.
  • the transformation between the autocorrelation coefficient R and the LPC parameter a can be realized by using the relation of (Equation 1) below.
  • the converted LPC parameters are output to the synthesis filter 124 via the changeover switch 126. Although not shown, when using a code model that decodes the extended LPC using the converted LPC parameters, the converted LPC is also output to the extended LPC decoder 127. To do.
  • the extended sound source decoder 122 receives various code information of the extended sound source parameters from the parameter decoding unit 121, and the core sound source decoder 113 decodes the core sound source parameter decoding information, the core sound source such as the decoded core sound source signal Information obtained by the decoding process is input.
  • the extended sound source decoder 122 decodes the extended sound source (wide band sound source) signal and outputs the decoded signal to the synthesis filter 124 and the synthesis filter 128 (however, the output to the synthesis filter 124 is via the switch 123). To be done).
  • this processing includes pitch lag decoding processing, adaptive codebook component decoding processing, fixed codebook component decoding processing, and gain parameters. Decoding processing etc. are included.
  • the pitch lag decoding process is performed, for example, as follows. Since the pitch lag for the expanded sound source is differentially quantized based on the pitch lag information input from the core sound source decoder 113, the expanded sound source decoder 122 is a core sound source if it is an expansion that doubles the sampling frequency. The pitch lag for the core sound source is converted to the pitch lag for the expanded sound source by doubling the pitch lag for the sound source, while the differentially quantized pitch lag (delta lag) is decoded. Then, the extended sound source decoder 122 sets the sum of the pitch lag converted for the extended sound source and the delta lag obtained by the decoding as the decoded pitch lag for the extended sound source.
  • the adaptive excitation codebook for the extended excitation decoder 122 that is, the buffer of the excitation signal generated from the extended excitation decoder 122 in the past, is used Generate adaptive codebook components and decode them.
  • the one after the sampling rate conversion of the fixed codebook inputted from the core sound source decoder 113 is used as the expanded sound source decoder 122 for the fixed codebook in the expanded sound source decoding process.
  • the extended sound source decoder 122 additionally has a fixed codebook in the extended sound source codebook, and decodes additional fixed codebook components by performing decoding processing. Decoded adaptive codebook component and fixed codebook component Each of these is multiplied by the decoded gain parameter and added up to obtain a decoded sound source signal.
  • the extended sound source decoder 122 uses the frame loss compensation processing to generate the sound source.
  • the parameter concealment process is performed, and the compensated excitation signal generated by the concealment process is output as a decoded excitation signal.
  • the switching switch 123 is a switching switch that connects either the upsample processing unit 103 or the extended sound source decoder 122 and the synthesis filter 124, and the frame loss information input from the core code packet packet disassembly unit 101 It is switched based on C 1 and frame erasure information C 2 input from the extended code packet packet disassembly unit 104. Specifically, when the core layer is a normal frame and the enhancement layer is a lost frame, the input terminal of the synthesis filter 124 is connected to the output terminal of the up-sampling processing unit 103, and in the other cases, the input of the synthesis filter 124 The terminal is connected to the output terminal of the enhanced sound source decoder 122.
  • the switching switch 126 is a switching switch that connects either one of the LPC converter 125 or the extended LPC decoder 127 to the second input terminal of the synthesis filter 124, and is input from the core code packet depacketizer 101. Switching is performed based on the frame loss information C1 to be transmitted and the frame loss information C2 input from the extension code packet depacketizing unit 104. Specifically, when the core layer is a normal frame and the enhancement layer is a lost frame, the second input terminal of the synthesis filter 124 is connected to the output terminal of the LPC conversion unit 125, and in the other cases, the synthesis is performed. The second input terminal of the filter 124 is connected to the output terminal of the enhanced LPC decoder 127.
  • the synthesis filter 124 receives filter coefficients from the extended LPC decoder 127 or the LPC conversion unit 125 through the switch 126, and the synthesis filter is configured using these filter coefficients.
  • the composed synthesis filter is driven by the sound source signal input from the enhanced sound source decoder 122 or the up-sample processing unit 103 via the switch 123, and the output signal S8 is output to the adder. Note that as long as the core layer frame is not lost, the synthesis filter 124 continues to generate an error free signal.
  • the synthesis filter 128 forms a synthesis filter with the filter coefficients input from the extended LPC decoder 127, is driven by the decoded excitation signal input from the extended excitation decoder 122, and high-passes the output signal S9. Output to filter 106.
  • the synthesis filter 128 always generates a wide band decoded signal regardless of the presence or absence of frame loss.
  • the HPF 106 is a filter that cuts off the band of the decoded signal of the core decoder 102.
  • the HPF 106 receives the output signal of the synthesis filter 128, passes only the high band component (the band expanded in the enhancement layer), and switches. Output to 107.
  • the high pass filter desirably has linear phase characteristics, but is not limited thereto.
  • the switching switch 107 is a switch that turns ON / OFF the signal input to the adder, and the frame loss information input from the core code packet depacketizing unit and the extension code packet demultiplexing unit power are input. Frame loss information, and can be switched based on. Specifically, if the core layer is a normal frame and the enhancement layer is a lost frame, the switch is closed and the output of the HPF 106 is input to the adder. Otherwise, the changeover switch 107 is open and the output of the HPF 106 is not input to the adder.
  • Adder 108 adds the decoded signal output from synthesis filter 124 and the decoded signal having only the high frequency component input to switching switch 107, and outputs the result as a final wideband decoded signal. Do.
  • the low-frequency component of the signal is important for human auditory sense, and the low-frequency component is error-free because the quality of the low-frequency component (pitch period) is largely degraded in Code LP Z decoding of CELP system. It is possible to reduce the degradation of subjective quality even if errors are mixed in the high frequency component if
  • the core layer is a bit rate scalable decoder
  • the core code packet can be divided into the number of layers in the bit rate scalable configuration.
  • the core code packet disassembly unit is also prepared according to the number of layers.
  • bit rate scalable of the core decoder 102 is the bit rate scalable of the core decoder 102. It shall be obtained only by the core decoding process. Also, if only part of the enhancement layer of the bit rate scalable enhancement layer other than the bit rate scalable core is lost, a part of the information of the bit rate scalable core and the bit rate scalable enhancement layer that has been successfully received The core decoder may be decoded using this method.
  • FIG. 4 and FIG. 5 are diagrams in which the flow of signals inside the above-described extended decoder 105 is organized.
  • Fig. 4 is a diagram showing the flow of signals when there is no frame loss, ie, normal
  • Fig. 5 is a diagram showing the flow of signals when frames of the enhancement layer are lost.
  • the NB signal indicates a narrow band signal
  • the WB signal indicates a wide band signal.
  • a signal S 101 indicated by a broken line indicates a signal when the frame loss has not occurred. However, if high band (extension layer) packets of this signal are lost on the transmission path, only low band packets are actually received. Therefore, in the present embodiment, upsampling processing or the like is performed on the low band packet signal to generate a signal S 102 (solid line signal) in which the sampling rate is wide and only the low band component remains. On the other hand, based on the signal S 103 of the (n ⁇ 1) th frame, the concealment processing is performed to generate the compensation signal S 104. By passing this signal S104 through the HPF, if only the high frequency component is extracted, it becomes a signal S105. In the adding section 108, only the low frequency component remains, and the high frequency component remains with only the high frequency component S 101, and the decoded signal S 106 is obtained by adding the low frequency component S 105.
  • the error-free (error-free) received normally The signal obtained by using the core layer code information which is the low-pass component is upsampled to generate a signal, and this signal is a signal of the entire band generated by using the error concealment processing in the enhancement layer.
  • the signals obtained by extracting only the high frequency components are added to obtain a full band decoded signal.
  • the enhancement layer can support only the sound signal band supported by the core layer. Acoustic signal bands can always be generated.
  • the sampling rate does not change as it is the wideband decoded signal, but the bandwidth of the output signal of the synthesis filter is narrow depending on the error condition of the extended filter. It spreads. That is, when the frame of the enhancement layer is lost, the bandwidth of the decoded signal is narrowed.
  • the quality of the low frequency component does not deteriorate.
  • the bandwidth of the decoded signal is lost at the decoder side. May change and you may feel uncomfortable with your hearing.
  • the bandwidth of the decoded signal changes temporally by adding the high-frequency component of the decoded signal of the enhancement layer decoded using frame erasure concealment processing to the decoded signal of the core layer decoded in the error free state. This makes it possible to obtain an aurally stable quality on the decoder side.
  • the configuration is such that adaptive decoding is performed on the enhancement layer code ⁇ Z decoding and frame loss concealment processing using the core layer decoding information, even if the enhancement layer information is lost, the core layer If the information of the above is correctly received, it is possible to obtain a high quality decoded signal.
  • priority control in the packet network can be effectively used to realize high quality acoustic communication quality.
  • the number of enhancement layers is one
  • the number of enhancement layers may be two or more (two or more types of frequency bands may be output).
  • the hierarchical structure in which the core layer further has bit rate scalability LE coder z scalable decoder even better.
  • the algorithm of code ⁇ Z decoding ⁇ ⁇ that outputs each frequency band may have a hierarchical structure with bit rate scalability.
  • the extension decoder 105 may be MDCT based.
  • FIG. 7 is a block diagram showing the configuration of the up-sample processing unit 103a when the extension decoder 105 is based on MDCT.
  • the up-sample processing unit 103 a includes an MDCT unit 131 and an order extension unit 132.
  • Core decoder 102 outputs the core decoded signal as a narrow band decoded signal and also to MDCT section 131. This corresponds to the case where the two output signals (S3, S4) of the core decoder 102 shown in FIG. 1 are identical. Also, part or all of the information obtained in the core layer decoding process is output to the enhancement decoder 105.
  • MDCT section 131 performs a modified discrete cosine transform (MDCT) process on the narrow band decoded signal output from core decoder 102, and outputs the obtained MDCT coefficients to order expanding section 132.
  • MDCT modified discrete cosine transform
  • the order extension unit 132 extends the order of the MDCT coefficients output from the MDCT unit 131 by zero padding (however, if upsampling is performed twice, the MDCT order is doubled and the increased part is Fill in with a factor of 0).
  • the expanded MDCT coefficients are output to the expanded decoder 105.
  • the extension decoder 105 generates a decoded signal of the enhancement layer by subjecting the MDCT coefficients output from the degree extension unit 132 to inverse transformation discrete cosine transform. In addition, when performing the concealment processing, the extension decoder 105 adds the extension information generated by the concealment processing to the MDCT coefficients output by the degree extension unit 132, and reversely transforms the MDCT coefficients generated by this. A cosine transform is performed to generate a decoded signal of the enhancement layer.
  • FIG. 8 is a block diagram showing a main configuration of a scalable decoding device according to Embodiment 2 of the present invention. Note that this scalable decoding device has the same basic configuration as the scalable decoding device shown in the first embodiment, and the same components are identical. The symbol is attached and the description is omitted.
  • the scalable decoding device includes mode judging section 201, and core decoder 102 and extended decoder 105 having an input / output interface to mode judging section 201 are the embodiments. Different from 1.
  • the core decoder 102 performs core layer decoding processing using the frame loss information C1 and the coding information S1 input from the packet disassembly unit 101, and generates a core layer decoded signal (narrowband signal) S6. Output. Also, it outputs a part or all of the information obtained in the core layer decoding process to the enhancement decoder 105. The information output to the enhancement decoder 105 is used for the enhancement layer decoding process. Furthermore, the signal obtained in the core layer decoding process is output to the up-sample processing unit 103 and the mode determination unit. The signal output to the up-sample processing unit 103 may be the core layer decoded signal itself, or may be a partial decoding parameter depending on the core layer code model.
  • the information output to the mode determination unit is linear prediction coefficient, pitch prediction gain, pitch lag, pitch period, signal energy, zero crossing rate, reflection coefficient, logarithmic cross section ratio, LSP parameter, normalized linear prediction residual error Etc. These parameters are generally used to classify the state of speech signal (silence, voiced steady part, noisy consonant part, rising part, transient part etc.).
  • Mode determination unit 201 classifies the signal being decoded using various types of information input from core decoder 102 (eg, noise consonant part, voiced steady part, rising part, voiced transient part, silent part) , Music signal etc.), and output the classification result to the expansion decoder 105.
  • information input from core decoder 102 eg, noise consonant part, voiced steady part, rising part, voiced transient part, silent part
  • Music signal etc. e.g, Music signal etc.
  • the extended decoder 105 is configured to receive the frame erasure information and the code information output from the packet decomposing unit 104, the information obtained in the code processing process for the core layer output from the core decoder 102, and The enhancement layer is decoded using the up-sampled core layer decoded signal input from the sample processing unit 103.
  • the extension layer coder process is performed by an extension encoder (not shown) that selectively uses a code model suitable for the mode using mode information input from the mode determination unit. If it is being performed, the decoding process also performs the same process. As described above, if the configuration of the current acoustic signal is determined in the core layer and the coding model of the enhancement layer is adaptively switched, higher quality coding Z decoding can be realized.
  • the decoded signal is output to the HPF 106 and the adder 108 as a decoded signal (wideband signal) of the enhancement layer.
  • the signal output to the adder 108 and the signal output to the HPF 106 may not be the same.
  • the signal input from the up-sample processing unit 103 may be output to the adder 108 as it is.
  • the signal to be output to the adder 108 is conditionally switched by referring to the frame erasure information (for example, generated by the signal input from the up-sample processing unit 103 and the decoding process performed in the extension decoder 105 The signal may be switched.
  • the extended decoder 105 performs frame erasure concealment processing.
  • the concealment process suitable for the mode is performed.
  • the wideband signal generated using the concealment process is output to the adder via the HPF 106 and the switch.
  • the HPF 106 transforms to the frequency domain using orthogonal transformation such as the force MDCT that can be realized with digital filters in the time domain, and uses processing that returns only the high frequency component and returns to the time domain by inverse transformation. It is good.
  • the core LPC decoder 112 is an acoustic parameter obtained in the LPC decoding process or an acoustic parameter that can obtain the decoded LPC force (eg, reflection coefficient, logarithmic cross section ratio, LSP, normal-linear-line prediction residual)
  • the pattern is output to the mode determination unit.
  • the core sound source decoder 113 is an acoustic parameter obtained in the sound source decoding process or an acoustic parameter obtained by decoding the sound source signal (for example, pitch lag, pitch period, pitch gain, pitch prediction gain, sound source signal energy, sound source Output the signal zero crossing rate etc. to the mode determination unit 201.
  • an analysis unit for analyzing the zero crossing rate and energy information of the narrowband decoded signal output from the synthesis filter may be provided to input these parameters to the mode determination unit. And better then,.
  • Mode determination section 201 includes core LPC decoder 112 and core sound source decoder 113 and other acoustic parameters (LSP, LPC, reflection coefficient, logarithmic cross section ratio, normalized linear prediction residual error, Pitch lag, pitch period, pitch gain, pitch prediction gain, sound source signal energy, sound source signal zero crossing rate, combined signal energy, combined signal zero crossing rate, etc. are input, and sound signal mode classification (silence part, noise characteristic) A consonant part, a voiced steady part, a rising part, a voiced transient part, an end, a music signal, etc.), and the classification result is outputted to the extended LPC decoder 127 and the extended sound source decoder 122, respectively.
  • the expansion decoder 105 includes a post-processing unit such as a post filter
  • the mode classification information may be output to the post-processing unit.
  • the extended LPC decoder 127 may switch the decoding process according to the various modes of the acoustic signal input from the mode determination unit 201. In this case, it is assumed that the same switching process of the code model is performed even if the extended LPC encoder (not shown) has V. Also, when frame loss occurs in the enhancement layer, frame loss concealment processing corresponding to the above mode is performed to generate a decoded extension LPC.
  • the extended sound source decoder 122 may switch the decoding process according to the various modes of the acoustic signal input from the mode determination unit 201. In this case, it is assumed that the same code model is switched even in the extended excitation encoder (not shown). If frame loss occurs in the extension layer, frame loss concealment processing corresponding to the above mode is performed to generate a decoded extension excitation signal.
  • FIG. 9 is a block diagram showing the main configuration of a mobile station apparatus and a base station apparatus when the scalable decoding device described in Embodiment 1 or 2 is applied to a mobile communication system.
  • This mobile communication system includes an audio signal transmitting device 300 and an audio signal receiving device 31.
  • the scalable decoding apparatus described in the first or second embodiment is mounted on the voice signal receiving apparatus 310.
  • Audio signal transmitting apparatus 300 includes an input device 301, an A / D converter 302, and a speech encoding device.
  • a signal processor 304 an RF modulator 305, a transmitter 306, and an antenna 307 are provided.
  • the input terminal of the AZD conversion device 302 is connected to the output terminal of the input device 301.
  • the input terminal of the speech coding device 303 is connected to the output terminal of the AZD conversion device 302.
  • the input terminal of the signal processing unit 304 is connected to the output terminal of the speech coding unit 303.
  • the input terminal of the RF modulator 305 is connected to the output terminal of the signal processor 304.
  • the input terminal of the transmitter 306 is connected to the output terminal of the RF modulator 305.
  • the antenna 307 is connected to the output terminal of the transmitter 306.
  • the input device 301 receives an audio signal, converts it into an analog audio signal which is an electric signal, and supplies the analog audio signal to the AZD conversion device 302.
  • the AZD converter 302 converts the analog voice signal from the input device 301 into a digital voice signal, and supplies this to the voice coding device 303.
  • the speech coding unit 303 codes the digital speech signal from the AZD conversion unit 302 to generate a speech code and a bit string, which are supplied to the signal processing unit 304.
  • the signal processing device 304 performs channel code processing, packet processing and transmission buffer processing on the voice code and bit string from the voice coder 303, and then RF modulates the voice code and bit string. Supply to the device 305.
  • the RF modulation unit 305 modulates the signal of the voice code / bit string subjected to channel code processing and the like from the signal processing unit 304 and supplies the modulated signal to the transmission unit 306.
  • the transmitter 306 transmits the modulated voice code signal from the RF modulator 305 as a radio wave (RF signal) via the antenna 307.
  • audio signal transmitting apparatus 300 processing is performed on a digital audio signal obtained via AZD conversion apparatus 302 in frame units of several tens of ms . If the network constituting the system is a packet network, code data of one frame or several frames are put into one packet and this packet is sent out to the packet network. If the above network is a circuit switching network, packetization processing and transmission buffer processing are unnecessary.
  • the voice signal reception device 310 includes an antenna 311, a reception device 312, an RF demodulation device 313, a signal processing device 314, a voice decoding device 315, a DZA conversion device 316, and an output device 317.
  • An input terminal of the receiving device 312 is connected to the antenna 311.
  • the input terminal of the RF demodulator 313 is connected to the output terminal of the receiver 312.
  • the input terminal of the signal processor 314 is connected to the output terminal of the RF demodulator 313.
  • the input terminal of the speech decoding unit 315 is connected to the output terminal of the signal processing unit 314.
  • DZA converter 316 The input terminal of is connected to the output terminal of the voice decoding device 315.
  • the input terminal of the output device 317 is connected to the output terminal of the DZA converter 316.
  • Receiving apparatus 312 receives a radio wave (RF signal) including voice code information via antenna 311 to generate a received voice code signal which is an analog electric signal, and outputs the RF signal as an RF signal. Feed to the demodulator 313.
  • the radio wave (RF signal) received via the antenna 311 is completely the same as the radio wave (RF signal) transmitted from the audio signal transmitting apparatus 300 unless signal attenuation or noise superposition is made in the transmission path.
  • the RF demodulator 313 demodulates the received speech code signal from the receiver 312 and supplies it to the signal processor 314.
  • a signal processing unit 314 performs jitter absorption buffering processing of the received speech code signal from the RF demodulation unit 313, packet assembling processing and channel decoding processing, etc., and the received speech coded bit sequence is a speech decoding unit.
  • the speech decoding unit 315 decodes the received speech code and bit string from the signal processing unit 314 to generate a decoded speech signal and supplies the decoded speech signal to the DZA conversion unit 316.
  • the DZA converter 316 converts the digital decoded speech signal from the speech decoder 315 into an analog decoded speech signal and supplies it to the output unit 317.
  • the output device 317 converts the analog decoded voice signal from the DZA converter 316 into air vibration and outputs it as sound waves so that it can be heard by the human ear.
  • the scalable decoding device according to the present invention is not limited to the above embodiments.
  • Embodiments 1 and 2 can be implemented in combination as appropriate.
  • FIG. 10 is a block diagram showing a main configuration of a scalable decoding device when Embodiments 1 and 2 are combined.
  • the core decoder 102 outputs the acoustic parameter obtained in the decoding process or the acoustic parameter obtained by analyzing the decoded signal to the mode determination unit 201.
  • the acoustic parameters all the various parameters as described above can be mentioned as an example.
  • Such a configuration is effective when the extension decoder 105 uses a coding algorithm using MDCT.
  • various embodiments of the present invention have been described.
  • the present invention has been described by way of example in the case of being configured by node software, the present invention can also be realized by software.
  • the algorithm of the enhancement layer loss concealment method according to the present invention is described in a programming language, and this program is stored in memory and executed by information processing means, whereby scalable decoding according to the present invention is performed. It is possible to realize the same function as the eyebrow device.
  • LSF Line Spectral Frequency
  • the core layer is described as a layer that performs code ⁇ Z decoding ⁇ of the narrowband signal. If there is a layer Y for encoding and Z-decoding a signal in a wider band than the above, it is also possible to apply the contents of the present invention with X as the core layer and Y as the enhancement layer. In this case, layer X need not necessarily be the layer that performs code “Z decoding” of the narrowest band signal, and layer X itself may be a scalable structure with multiple layers of power! .
  • Each function block employed in the description of each of the aforementioned embodiments may typically be implemented as an LSI constituted by an integrated circuit. These may be individually integrated into a single chip, or may be integrated into a single chip to include some or all of them.
  • LSI is used to refer to “IC,” “system LSI,” “super LSI,” “unorellar LSI,” etc., depending on the difference in degree of integration.
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. It is also possible to use an FPGA (Field Programmable Gate Array) that can be programmed after LSI manufacture, or a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI.
  • FPGA Field Programmable Gate Array
  • the scalable decoding device and the enhancement layer erasure concealment method according to the present invention can be applied to applications such as communication terminals in a mobile communication system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 帯域スケーラブル符号化において、拡張レイヤの信号を消失した場合でも、復号信号の帯域が頻繁に切り替わることがなく、主観品質に違和感や不快感を生じさせないスケーラブル復号化装置を開示する。フレーム消失がなかった場合、信号S101となる。しかし、高帯域パケットを消失すると、実際に受信される信号は低域パケットのみである。そこで、上記装置は、低域パケットの信号にアップサンプル処理等を施すことにより、サンプリングレートは広帯域であって低域成分のみが残った信号S102を生成する。一方、第n-1フレームの信号S103に基づいて、隠蔽処理によって補償信号S104を生成する。この信号S104をHPFに通し、高域成分のみを取り出すと信号S105となる。この低域成分のみが残った信号S101と高域成分のみが残った信号S105とを加算し、復号信号S106を得る。

Description

明 細 書
スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
技術分野
[0001] 本発明は、拡張レイヤを消失した場合に隠蔽処理を行うスケーラブル復号ィ匕装置 および当該装置で使用される拡張レイヤ消失隠蔽方法に関する。
背景技術
[0002] インターネット通信に代表されるパケット通信においては、伝送路上でパケット損失 が発生することがあるため、伝送情報の一部が消失しても、残る情報から復号処理を 可能とする 、わゆるスケーラブル符号化機能が望まれる。このスケーラブル符号ィ匕に は、周波数帯域は変えずに、符号ィ匕対象の信号のビットレートのみにスケーラビリテ ィを持たせるものと、符号化対象の信号の周波数帯域 (周波数軸方向)にスケーラビ リティを持たせて符号ィ匕するものとが存在する (例えば、非特許文献 1参照)。特に、 後者の周波数帯域にスケーラビリティを持たせて符号ィ匕する方式を帯域スケーラブ ル符号ィ匕と呼ぶことにする。
[0003] 従来の音声通信では、電話帯域 (300Hz〜3.4kHz)の狭帯域信号が用いられてき たが、近年、広帯域 (50Hz〜7kHz)の信号を符号ィ匕する方式等も標準化され (例え ば、非特許文献 2参照)、将来の高品質音声通信への利用が期待されている。
[0004] 一方、今後ネットワークのオール IP化が進むにつれ、電話帯域の音声信号用の端 末と広帯域音声用の端末とが同一のネットワーク内に混在することが予想される。ま た、現在の電話会議サービスに見られるような多地点間通信も普及すると言われて いる。このような状況を考えると、一つの符号化方式で、電話帯域の音声信号と広帯 域の音声信号との双方を符号化 Z復号化できるスケーラブル符号化方式の有効性 が高いと考えられる。
[0005] これまでにも、音声信号に限らず、さらに広帯域な音響信号に対するスケーラブル 符号ィ匕方式が開示されている (例えば、特許文献 1、 2参照)。このようなスケーラブル 符号化は、符号ィ匕対象となる音響信号を階層的に符号ィ匕するため、 DiffServ ( Differentiated Services)のようなネットワーク上での優先制御を用いてコア(基本レイ ャ)の情報を優先的に伝送する。そして、伝送路の状況によっては、より上位の拡張 レイヤの情報力 順に廃棄を行う。これにより、通信ネットワーク内でコア情報が破棄 される確率を低く抑え、パケット損失によって一部の符号ィ匕情報が失われても通話品 質の劣化を抑えることができる。
[0006] 一方、伝送路上で符号化情報が失われ、復号器側で符号化情報を受信できな 、 場合、このデータ消失の隠蔽 (補償)処理を行うことが一般的である。例えば、特許文 献 3には、 ITU— T勧告 G. 729のフレーム消失隠蔽処理が開示されている。特許文 献 3に開示されているように、過去に復号した情報を用いて外挿的に消失フレームの 隠蔽処理を行うことが標準的である。
特許文献 1:特開平 08 - 263096号公報
特許文献 2 :特開 2002— 100994号公報
特許文献 3:特開平 09— 120297号公報
非特許文献 1 :T. Nomura et al,"A Bitrateand Bandwidth Scalable CELP Coder," IEEE Proc. ICASSP98, pp.341- 344, 1998
非特許文献 2 : 3GPP規格、 TS26. 190
発明の開示
発明が解決しょうとする課題
[0007] し力しながら、スケーラブル符号化された信号の伝送にお!、て、拡張レイヤの信号 を消失した場合の復号処理にっ 、ては、標準的な技術が存在しな 、。
[0008] また、拡張レイヤの信号のみを消失した場合にコアレイヤの情報を用いて消失信号 の復号化処理を行うことも考えられるが、以下のような問題がある。すなわち、上記の ように、ビットレートだけでなく周波数帯域もスケーラブルな場合、コアレイヤの情報か ら生成された復号信号は狭帯域な信号であるのに対し、コアレイヤと拡張レイヤの双 方の情報力 生成された復号信号は広帯域な信号となる。よって、コアレイヤの情報 のみを用いて復号処理を行った場合と、拡張レイヤまでを使用して復号処理を行つ た場合とでは、復号信号の周波数帯域が変化してしまうという問題がある。かかる場 合、コアレイヤの符号ィ匕情報のみを用いて復号しても、局所的に信号帯域が狭小化 するだけであるので、著しい品質劣化にはつながらないものの、拡張レイヤの消失率 が高ぐ復号信号の帯域が狭帯域と広帯域とに頻繁に切り替わるような場合には、主 観品質に違和感ゃ不快感を生じる結果となる。
[0009] よって、本発明の目的は、帯域スケーラブル符号ィ匕において、拡張レイヤの信号を 消失した場合でも、復号信号の帯域が頻繁に切り替わることがなぐ主観品質に違和 感ゃ不快感を生じさせないスケーラブル復号ィ匕装置、および当該装置で使用される 拡張レイヤ消失隠蔽方法を提供することである。
課題を解決するための手段
[0010] 本発明のスケーラブル復号ィ匕装置は、周波数軸方向にスケーラビリティを有するコ ァレイヤと拡張レイヤとからなる符号ィ匕情報から、広帯域の復号信号を得るスケーラ ブル復号ィ匕装置であって、コアレイヤの符号ィ匕情報力も狭帯域のコアレイヤ復号信 号を得るコアレイヤ復号化手段と、前記狭帯域のコアレイヤ復号信号の周波数帯域 を広帯域に変換し、第 1信号を得る変換手段と、コアレイヤが存在し拡張レイヤが消 失された符号化情報に対し、過去に得られた復号信号に基づいて広帯域の補償信 号を生成する補償手段と、前記広帯域の補償信号力 コアレイヤに相当する周波数 成分を除去し、第 2信号を得る除去手段と、前記変換手段で得られた第 1信号と、前 記除去手段で得られた第 2信号と、を加算して広帯域の復号信号を得る加算手段と 、を具備する構成を採る。
発明の効果
[0011] 本発明によれば、帯域スケーラブル符号ィ匕において、拡張レイヤの信号を消失した 場合でも、復号信号の帯域が頻繁に切り替わることがなぐ主観品質に違和感ゃ不 快感を生じさせな 、ようにすることができる。
図面の簡単な説明
[0012] [図 1]実施の形態 1に係るスケーラブル復号ィ匕装置の主要な構成を示すブロック図 [図 2]実施の形態 1に係るコア復号器内部の主要な構成を示すブロック図
[図 3]実施の形態 1に係る拡張復号器内部の主要な構成を示すブロック図
[図 4]実施の形態 1に係る拡張復号器内部の正常時における信号の流れを示した図 [図 5]実施の形態 1に係る拡張復号器内部の拡張レイヤのフレームが消失した場合 の信号の流れを示した図 [図 6]実施の形態 1に係るスケーラブル復号ィ匕装置の復号処理の概要について説明 する図
[図 7]実施の形態 1に係る拡張復号器が MDCTベースである場合のアップサンプル 処理部の構成を示したブロック図
[図 8]実施の形態 2に係るスケーラブル復号ィ匕装置の主要な構成を示すブロック図 [図 9]実施の形態 1または 2に示したスケーラブル復号ィ匕装置を移動体通信システム に適用した場合の移動局装置および基地局装置の主要な構成を示すブロック図 [図 10]実施の形態 1および 2を組み合わせた場合のスケーラブル復号ィ匕装置の主要 な構成を示すブロック図
発明を実施するための最良の形態
[0013] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお 、ここでは、周波数帯域にスケーラビリティを持たせて階層的に入力信号の符号ィ匕 Z 復号化が行われている状況、すなわち符号ィ匕情報が周波数軸方向にスケーラビリテ ィを有する場合を例にとって説明する。かかる場合、コアレイヤは、最も狭帯域の信号 の符号化,復号化を行うレイヤである。
[0014] (実施の形態 1)
図 1は、本発明の実施の形態 1に係るスケーラブル復号ィ匕装置の主要な構成を示 すブロック図である。
[0015] 本実施の形態に係るスケーラブル復号ィ匕装置は、コア符号パケット用のパケット分 解部 101、コア復号器 (コア復号ィ匕処理部) 102、アップサンプル処理部 103、拡張 符号パケット用のパケット分解部 104、拡張復号器 (拡張復号化処理部) 105、高域 通過フィルタ(HPF) 106、切り替えスィッチ(SW) 107、および加算器 108を備える。
[0016] 本実施の形態に係るスケーラブル復号ィ匕装置の各部は以下の動作を行う。
[0017] コア符号パケット用のパケット分解部 101は、パケット網 Nを介し入力されたコアレイ ャの符号ィ匕情報が載って 、るコア符号パケットから、コアレイヤの符号化情報を取り 出してコア復号器 102へ出力(S1)すると共に、フレーム消失情報 C1をコア復号器 1 02、拡張復号器 105、および切り替えスィッチ 107へ出力する。ここで、符号化情報 とは、送信側の符号化装置(図示せず)から出力される符号化ビットストリームのことで あり、フレーム消失情報 CIとは、復号対象となるフレームが消失フレームか否かを示 す情報のことである。なお、復号対象となるパケットが消失パケットである場合は、この パケットが含む全フレームが消失フレームとなる。
[0018] コア復号器 102は、パケット分解部 101から出力されるフレーム消失情報 C1と符号 化情報 S1とを用いて、コアレイヤの復号処理を行い、コアレイヤの復号信号 (狭帯域 信号) S3を出力する。コアレイヤの復号処理の具体的内容は、例えば、 CELPモデ ルに基づく復号処理であっても良いし、波形符号化に基づく復号処理であっても良 いし、 MDCT等を用いた変換符号ィ匕モデルの復号処理であっても良い。また、コア 復号器 102は、コアレイヤの復号処理において得られる情報の一部または全て (S4) を拡張復号器 105へ出力する。拡張復号器 105へ出力された情報は、拡張レイヤの 復号処理に用いられる。さらに、コア復号器 102は、コアレイヤの復号処理において 得られる信号 S6をアップサンプル処理部 103へ出力する。アップサンプル処理部 10 3へ出力する信号 S6は、コアレイヤの復号信号そのものであってもよいし、コアレイヤ の符号ィ匕モデルによっては部分的な復号パラメータ (例えば、スペクトルパラメータや 音源パラメータ)であっても良い。
[0019] アップサンプル処理部 103は、コア復号器 102から出力される、復号信号または復 号処理過程で得られる一部の復号パラメータもしくは復号信号に対し、ナイキスト周 波数を上げる処理を行う。このアップサンプリングされた信号 S7は、拡張復号器 105 へ出力される。なお、このアップサンプリング処理は、時間軸上での処理に限定され ず、スケーラブル符号化のアルゴリズムによっては、アップサンプル処理後の信号を 拡張音源復号器 122に出力して、拡張音源復号時に利用する構成としても良い。
[0020] 一方、拡張符号パケット用のパケット分解部 104は、パケット網を介し入力された拡 張レイヤの符号ィ匕情報が乗って 、る拡張符号パケットから、拡張レイヤの符号化情 報を取り出し、拡張復号器 105へ出力(S2)すると共に、フレーム消失情報 C2を拡 張復号器 105および切り替えスィッチ 107へ出力する。
[0021] 拡張復号器 105は、パケット分解部 104から出力されるフレーム消失情報 C2およ び符号ィ匕情報 S2と、コア復号器 102から出力されるコアレイヤの復号信号 S3および コアレイヤの符号化処理過程で得られた情報 S4と、アップサンプル処理部 103から 出力されるコアレイヤの復号信号をアップサンプルした信号 S7と、を用いて拡張レイ ャの復号処理を行い、拡張レイヤの復号信号 (広帯域信号)を得て、 HPF106およ び加算器 108へ出力する(S8、 S9)。なお、加算器 108へ出力される信号 S8と HPF 106へ出力される信号 S9は同一でなくても良い。例えば、拡張復号器 105は、アツ プサンプル処理部 103から出力された信号 S7をそのまま加算器 108に出力しても良 いし、フレーム消失情報 C2を参照して条件的に切り替えても良い。
[0022] HPF106は、拡張復号器 105から入力された復号信号 S9の高域成分 (コアレイヤ の狭帯域復号信号に含まれない帯域成分)のみを通過させ、切り替えスィッチ 107 へ出力する。
[0023] 切り替えスィッチ(SW) 107は、 HPF106から出力される信号の加算器 108への出 力のオン/オフを切り換える。スィッチのオン/オフは、コア符号パケット用のパケット 分解部 101と拡張符号パケット用のパケット分解部 104とからそれぞれ出力されるフ レーム消失情報を参照することにより行われる。具体的には、コアレイヤも拡張レイヤ もフレーム消失になって ヽな ヽ(正常フレームである)場合は、スィッチを開放してォ フとする。また、コアレイヤのみ正常フレームで拡張レイヤは消失フレームである場合 は、スィッチを閉じてオンとする。さらに、コアレイヤも拡張レイヤも消失フレームであ る場合は、スィッチを開放してオフとする。
[0024] 加算器 108は、拡張復号器 105から直接入力されるフルバンドの音響信号と拡張 復号器 105から HPF106を介して入力される高帯域復号信号とを加算し、加算結果 を広帯域信号として出力する。
[0025] 図 2は、上記のコア復号器 102内部の主要な構成を示すブロック図である。
[0026] このコア復号器 102は、パラメータ復号部 111、コア線形予測係数 (LPC)復号器 1 12、コア音源復号器 113、および合成フィルタ 114を備える。
[0027] ノ ラメータ復号部 111は、パケット分解部 101から出力されたコアレイヤの符号ィ匕情 報(ビットストリーム) S 1を、 LPCパラメータ符号ィ匕データ (LSPのコード等を含む)お よび音源パラメータ符号ィ匕データ (ピッチラグのコード、固定音源符号帳のコード、ゲ インコード等を含む)に分離し、各々のデータを各種コードにまで復号し、コア(レイヤ ) LPC復号器 112およびコア音源復号器 113にそれぞれ出力する。 [0028] コア LPC復号器 112は、パラメータ復号部 111から出力された LPCパラメータのコ 一ドを復号し、復号 LPCを合成フィルタ 114および拡張復号器 105へ出力する。復 号処理の具体的な内容は、例えば、ベクトル量子化を用いて符号ィ匕された LSPパラ メータを復号して力も LPCパラメータに変換する。なお、コア符号パケット用のバケツ ト分解部 101から出力したフレーム消失情報 C1が、現フレームは消失フレームであ ることを示していたら、コア LPC復号器 112は、フレーム消失補償処理を用いて LPC ノ メータの隠蔽処理を行 、、隠蔽処理によって生成された LPC (補償信号)を復号 LPCとして出力する。
[0029] コア音源復号器 113は、パラメータ復号部 111から出力された音源パラメータの各 種コード (ピッチラグ、固定符号帳、ゲイン符号帳等のコード)に対して復号処理を施 し、復号音源信号を合成フィルタ 114およびアップサンプル処理部 103へ出力する( S6)。また、コア音源復号器 113は、この復号処理によって復号された一部または全 ての情報 S3を拡張復号器 105へ出力する。具体的には、ピッチラグ情報とパルス駆 動信号 (固定符号帳音源情報)等がコア音源復号器 113から拡張復号器 105へ出 力される。なお、コア符号パケット用のパケット分解部 101から入力されたフレーム消 失情報 C1が、現フレームは消失フレームであることを示していたら、コア音源復号器 113は、フレーム消失補償処理を用いて音源パラメータの隠蔽処理を行い、隠蔽処 理によって生成された補償音源信号を復号音源信号として出力する。
[0030] 合成フィルタ 114は、コア LPC復号器 112から出力された復号 LPCで構成された 線形予測フィルタを、コア音源復号器 113から出力された復号音源信号で駆動して 、狭帯域信号 S5を出力する。
[0031] 図 3は、拡張復号器 105内部の主要な構成を示すブロック図である。
[0032] この拡張復号器 105は、パラメータ復号部 121、拡張音源復号器 122、 2つの切り 替えスィッチ(123、 126)、 2つの合成フィルタ(124、 128)、 LPC変換部 125、およ び拡張 LPC復号器 127を備える。
[0033] ノラメータ復号部 121は、パケット分解部 104から拡張レイヤの符号ィ匕情報 S2が入 力され、 LPCパラメータ符号ィ匕データ (LSPコード等を含む)と、音源パラメータ符号 化データ(ピッチラグコード、固定符号帳インデックスコード、ゲインコード等を含む)と に分離し、各種パラメータのコードに復号し、拡張 LPC復号器 127および拡張音源 復号器 122にそれぞれ出力する。
[0034] 拡張 LPC復号器 127は、コア復号器 102内のコア LPC復号器 112から入力された 復号コア LPCパラメータ S4と、ノ ラメータ復号部 111から入力された拡張レイヤ LPC ノ ラメータコードと、を用いて広帯域信号を再合成するための LPCパラメータを復号 し、 2つの合成フィルタに出力する(合成フィルタ 124へは切り替えスィッチ 126を介 して出力する)。具体的には、コア LPC復号器 112から入カした復号1^? (狭帯域し SP)カゝら拡張 LSP (広帯域 LSP)を予測するモデルを用いる。この場合、拡張 LPC 復号器 127は、狭帯域 LSPから予測された広帯域 LSPの予測誤差の復号処理 (例 えば MA予測ベクトル量子化などを用いて符号化されて ヽる)を行 ヽ、それを狭帯域 LSPから予測された広帯域 LSPに加算して最終的な広帯域 LSPを復号し、最後に L PCに変換する、といった一連の処理を行う。
[0035] なお、拡張符号パケット用パケット分解部から入力したフレーム消失情報が、現フレ ームは消失フレームであることを示していたら、拡張 LPC復号器 127は、フレーム消 失補償処理を用いて LPCパラメータの隠蔽処理を行 、、隠蔽処理によって生成され た補償 LPCを復号 LPCとして出力する。また、復号処理は他の方法であっても良い
[0036] LPC変換部 125は、狭帯域 LPCパラメータ S4を広帯域 LPCパラメータへ変換する 。このアップサンプルの方法としては、狭帯域 LSP力 得られる LPC合成フィルタの インパルス応答をアップサンプルし、アップサンプルしたインパルス応答から自己相 関を求め、求めた自己相関係数を所望の次数の LSPに変換する方法等が挙げられ る力 これに限定されるものではない。自己相関係数 Rと LPCパラメータ aの間の変 換は両者に下記の(式 1)の関係があることを用いれば実現できる。
[数 1]
R0 R、 .
. "2
· · R0
Figure imgf000010_0001
変換された LPCパラメータは切り替えスィッチ 126を介して合成フィルタ 124に出力 される。なお、図示していないが、変換された LPCパラメータを用いて拡張 LPCの復 号を行うような符号ィ匕モデルを用いて ヽる場合は、変換された LPCを拡張 LPC復号 器 127にも出力するようにする。
[0037] 拡張音源復号器 122には、パラメータ復号部 121から拡張音源パラメータの各種コ ード情報が入力され、コア音源復号器 113からコア音源パラメータの復号情報、復号 コア音源信号等のコア音源復号処理で得られる情報が入力される。拡張音源復号器 122は、拡張音源 (広帯域音源)信号の復号処理を行い、復号信号を合成フィルタ 1 24および合成フィルタ 128へ出力する(ただし、合成フィルタ 124への出力は、スイツ チ 123を経由して行われる)。
[0038] 例えば、拡張音源復号器 122が CELP方式の復号化処理を行う場合、この処理に は、ピッチラグの復号処理、適応符号帳成分の復号処理、固定符号帳成分の復号 処理、ゲインパラメータの復号処理等が含まれる。
[0039] ピッチラグの復号処理は、例えば、次のように行われる。拡張音源用のピッチラグは 、コア音源復号器 113から入力されたピッチラグ情報を基にして差分量子化されてい るので、拡張音源復号器 122は、サンプリング周波数を 2倍にする拡張であればコア 音源用ピッチラグを 2倍にすることによってコア音源用ピッチラグを拡張音源用ピッチ ラグに変換し、一方、差分量子化されたピッチラグ (デルタラグ)を復号する。そして、 拡張音源復号器 122は、拡張音源用に変換されたピッチラグと、復号によって得られ たデルタラグとの和を拡張音源用復号ピッチラグとする。
[0040] 適応符号帳成分の復号処理では、例えば、拡張音源復号器 122用の適応符号帳 、すなわち過去に拡張音源復号器 122から生成された音源信号のバッファを用いて 拡張音源復号器 122は適応符号帳成分を生成し、これを復号する。
[0041] 固定符号帳成分の復号処理では、例えば、コア音源復号器 113から入力された固 定符号帳のサンプリングレート変換後のものを拡張音源復号器 122は拡張音源復号 処理における固定符号帳の一成分として利用する。また、拡張音源復号器 122は、 拡張音源符号帳内に固定符号帳を別途備えていて、復号処理をすることによって追 加の固定符号帳成分を復号する。復号された適応符号帳成分と固定符号帳成分と のそれぞれに、復号されたゲインパラメータを乗じて足し合わせることによって復号音 源信号が得られる。
[0042] なお、拡張符号パケット用パケット分解部から入力されたフレーム消失情報が、現フ レームは消失フレームであることを示していたら、拡張音源復号器 122は、フレーム 消失補償処理を用いて音源パラメータの隠蔽処理を行い、隠蔽処理によって生成さ れた補償音源信号を復号音源信号として出力する。
[0043] 切り替えスィッチ 123は、アップサンプル処理部 103または拡張音源復号器 122の いずれか一方と合成フィルタ 124とを接続する切り替えスィッチで、コア符号パケット 用パケット分解部 101から入力されるフレーム消失情報 C1と、拡張符号パケット用パ ケット分解部 104から入力されるフレーム消失情報 C2と、に基づいて切り替えられる 。具体的には、コアレイヤが正常フレームで拡張レイヤが消失フレームである場合、 合成フィルタ 124の入力端子はアップサンプル処理部 103の出力端子に接続され、 それ以外の場合には、合成フィルタ 124の入力端子は拡張音源復号器 122の出力 端子に接続される。
[0044] 切り替えスィッチ 126は、 LPC変換部 125または拡張 LPC復号器 127のいずれか 一方と合成フィルタ 124の第 2の入力端子とを接続する切り替えスィッチで、コア符号 パケット用パケット分解部 101から入力されるフレーム消失情報 C1と、拡張符号パケ ット用パケット分解部 104から入力されるフレーム消失情報 C2と、に基づいて切り替 えられる。具体的には、コアレイヤが正常フレームで拡張レイヤが消失フレームであ る場合、合成フィルタ 124の第 2の入力端子は LPC変換部 125の出力端子に接続さ れ、それ以外の場合には、合成フィルタ 124の第 2の入力端子は拡張 LPC復号器 1 27の出力端子に接続される。
[0045] 合成フィルタ 124は、拡張 LPC復号器 127または LPC変換部 125から、スィッチ 1 26を介してフィルタ係数が入力され、これらのフィルタ係数を用いて合成フィルタが 構成される。構成された合成フィルタは、拡張音源復号器 122またはアップサンプル 処理部 103からスィッチ 123を介して入力される音源信号で駆動され、出力信号 S8 は加算器へ出力される。なお、コアレイヤのフレームが消失しない限り、合成フィルタ 124は、誤りのない信号を生成し続ける。 [0046] 合成フィルタ 128は、拡張 LPC復号器 127から入力されるフィルタ係数で合成フィ ルタを構成し、拡張音源復号器 122から入力される復号音源信号で駆動され、出力 信号 S9を高域通過フィルタ 106へ出力する。なお、合成フィルタ 128は、フレーム消 失の有無に関わらず常に広帯域の復号信号を生成する。
[0047] HPF106は、コア復号器 102の復号信号の帯域を遮断するフィルタで、合成フィル タ 128の出力信号を入力し、高域成分 (拡張レイヤで拡張される帯域)のみを通過し てスィッチ 107へ出力する。高域通過フィルタは、直線位相特性を有することが望ま しいが、それに限定するものではない。
[0048] 切り替えスィッチ 107は、加算器への信号の入力を ONZOFFするスィッチで、コ ァ符号パケット用パケット分解部から入力されるフレーム消失情報と、拡張符号パケ ット用パケット分解部力 入力されるフレーム消失情報と、に基づいて切り替えられる 。具体的には、コアレイヤは正常フレームで拡張レイヤは消失フレームである場合に は、スィッチが閉じられて、 HPF106の出力が加算器へ入力される。それ以外の場 合には、切り替えスィッチ 107は開放され、 HPF106の出力は加算器へ入力されな い。
[0049] 加算器 108は、合成フィルタ 124から出力される復号信号と、切り替えスィッチ 107 カゝら入力される高域成分のみを有する復号信号と、を加算して最終的な広帯域復号 信号として出力する。
[0050] 合成フィルタ 128は、拡張レイヤでフレーム消失が発生したとき、すなわち、合成フ ィルタ 124の出力信号の帯域幅が狭まったときは、 HPF106で取り出された高域成 分の信号と、合成フィルタ 124で生成された狭帯域の復号信号とが加算され、出力さ れる。その結果、常に広帯域の復号信号が得られる。すなわち、復号信号の帯域幅 が変化することによる主観的違和感の発生を防止することができる。また、低域成分 については拡張レイヤの情報が失われても影響を受けないので、高品質な広帯域信 号を生成できる。人間の聴覚的に信号の低域成分は重要であると共に、 CELP方式 の符号ィ匕 Z復号ィ匕では低域成分 (ピッチ周期)がずれることによる品質劣化が大きい ので、低域成分がエラーフリーの状況になっていれば、高域成分に誤りが混入して いても主観的品質の劣化を少なくすることが可能であるからである。 [0051] なお、コアレイヤがビットレートスケーラブル復号器となっている場合は、コア符号用 パケットをビットレートスケーラブル構成の階層数に分割することができる。この場合、 コア符号用パケット分解部も階層数に応じて用意する。ビットレートスケーラブル符号 化情報のコアレイヤ (ビットレートスケーラブルコア)以外の情報がパケット網内で失わ れた場合、図 1におけるコア復号器 102から出力される各種情報は、コア復号器 102 のビットレートスケーラブルコアの復号処理のみによって得られるものとする。また、ビ ットレートスケーラブルコア以外のビットレートスケーラブル拡張レイヤの一部の拡張 レイヤのみが失われている場合は、ビットレートスケーラブルコアと正常に受信したビ ットレートスケーラブル拡張レイヤの一部の情報を利用してコア復号化器の復号処理 を行っても良い。
[0052] 図 4および図 5は、以上説明した拡張復号器 105内部における信号の流れを整理 した図である。図 4は、フレーム消失がない場合、すなわち、正常時の信号の流れを 示した図、図 5は、拡張レイヤのフレームが消失した場合の信号の流れを示した図で ある。なお、図中において、 NB信号は狭帯域信号を、 WB信号は広帯域信号を指し ている。
[0053] 次いで、上記構成を有するスケーラブル復号ィ匕装置の復号処理の概要について、 図 6に示す信号図を用いて説明する。なお、この図は、第 nフレームにおいてフレー ム消失が起こった場合を示して 、る。
[0054] 破線で示した信号 S 101は、フレーム消失がな力つた場合の信号を示している。し かし、伝送路上でこの信号の高帯域 (拡張レイヤ)パケットを消失すると、実際に受信 される信号は低域パケットのみとなる。そこで、本実施の形態では、この低域パケット の信号にアップサンプル処理等を施すことにより、サンプリングレートは広帯域であつ て低域成分のみが残った信号 S 102 (実線の信号)を生成する。一方、第 n— 1フレー ムの信号 S 103に基づいて、隠蔽処理によって補償信号 S 104を生成する。この信号 S104を HPFに通すことにより、高域成分のみを取り出すと信号 S105となる。加算部 108にお 、て、低域成分のみが残って!/、る信号 S 101と高域成分のみが残って 、る 信号 S 105とを加算することにより、復号信号 S 106が得られる。
[0055] このように、本実施の形態によれば、正常に受信したエラーフリーの(エラーのない )低域成分であるコアレイヤの符号ィ匕情報を用いて得られる信号をアップサンプリン グして信号を生成し、この信号に、拡張レイヤで誤り隠蔽処理を用いて生成した全帯 域の信号の高域成分のみを取り出した信号を加算して、全帯域復号信号を得る。
[0056] この構成を採ることにより、帯域スケーラブル音響符号ィ匕情報のコアレイヤ以外の 符号ィ匕情報が失われた場合であっても、コアレイヤのサポートする音響信号帯域だ けでなぐ拡張レイヤのサポートする音響信号帯域を常に生成することができる。
[0057] また、コアレイヤの符号ィ匕情報のみ力も得られる復号信号は、サンプリングレートは 広帯域復号信号のままで変化しないが、合成フィルタの出力信号の帯域幅が拡張レ ィャの誤り状況によって狭まったり広がったりする。すなわち、拡張レイヤのフレーム が消失した場合は、復号信号の帯域幅が狭まる。しかし、本実施の形態によれば、復 号音響信号の帯域幅が短時間のうちに変化することを防ぎ、不快感ゃ違和感が復号 音響信号に生じないようにすることができる。しかも、低域成分の品質は低下しない。
[0058] 帯域スケーラブル音響復号ィ匕にぉ 、て、パケット網でパケット転送の優先制御が行 われている場合、拡張レイヤの符号化データのみが消失すると、復号器側で復号信 号の帯域幅が変化し、聴感上不快と感じる場合がある。エラーフリーの状態で復号し たコアレイヤの復号信号に、フレーム消失隠蔽処理を用いて復号した拡張レイヤの 復号信号の高域成分を加算することにより、復号信号の帯域幅が時間的に変化する ことを回避し、聴感上安定した品質を復号器側で得ることが可能となる。
[0059] また、コアレイヤの復号情報を活用して拡張レイヤの符号ィ匕 Z復号ィ匕およびフレー ム消失隠蔽処理を適応的に切り替える構成としたので、拡張レイヤの情報が失われ ても、コアレイヤの情報を正常に受信していれば、高品質な復号信号を得ることが可 能となる。
[0060] さらに、パケット網での優先制御を有効に利用し、高品質な音響通信品質を実現で きる。
[0061] なお、本実施の形態では、拡張レイヤが 1層である場合を例にとって説明したが、 拡張レイヤの数は 2以上(出力する周波数帯域の種類が 2種類以上)であっても良い
[0062] また、コアレイヤがさらにビットレートスケーラビリティを有する階層構造 (スケ一ラブ ル符号化器 zスケーラブル復号器)を持って 、ても良 ヽ。
[0063] また、各周波数帯域を出力する符号ィ匕 Z復号ィ匕のアルゴリズムが、ビットレートスケ 一ラビリティを有する階層構造を持っていても良い。
[0064] また、拡張復号器 105は、 MDCTベースのものであっても良い。図 7は、拡張復号 器 105が MDCTベースである場合のアップサンプル処理部 103aの構成を示したブ ロック図である。
[0065] このアップサンプル処理部 103aは、 MDCT部 131および次数拡張部 132を備え る。
[0066] コア復号器 102は、コア復号信号を狭帯域復号信号として出力すると共に、 MDC T部 131へも出力する。これは、図 1に示したコア復号器 102の 2つの出力信号(S3、 S4)が同一である場合に相当する。また、コアレイヤの復号過程において得られた情 報の一部または全てを拡張復号器 105に出力する。
[0067] MDCT部 131は、コア復号器 102から出力された狭帯域復号信号に対して変形 離散余弦変換 (MDCT)処理を行って、得られる MDCT係数を次数拡張部 132へ 出力する。
[0068] 次数拡張部 132は、 MDCT部 131から出力された MDCT係数の次数を零詰めに よって拡張する(ただし、 2倍にアップサンプルする場合は、 MDCT次数を 2倍にし、 増やした部分は 0の係数で埋める)。拡張された MDCT係数は拡張復号器 105へ出 力される。
[0069] 拡張復号器 105は、次数拡張部 132から出力された MDCT係数を逆変形離散コ サイン変換することによって拡張レイヤの復号信号を生成する。また、拡張復号器 10 5は、隠蔽処理を行う場合は、次数拡張部 132の出力する MDCT係数に、隠蔽処理 によって生成された拡張情報を加え、これにより生成された MDCT係数を逆変形離 散コサイン変換することによって、拡張レイヤの復号信号を生成する。
[0070] (実施の形態 2)
図 8は、本発明の実施の形態 2に係るスケーラブル復号ィ匕装置の主要な構成を示 すブロック図である。なお、このスケーラブル復号ィ匕装置は、実施の形態 1に示したス ケーラブル復号ィ匕装置と同様の基本的構成を有しており、同一の構成要素には同一 の符号を付し、その説明を省略する。
[0071] 本実施の形態に係るスケーラブル復号ィ匕装置は、モード判定部 201を備え、モード 判定部 201への入出力インタフェースを有するコア復号器 102および拡張復号器 10 5の動作が実施の形態 1と異なる。
[0072] 次いで、上記構成を有するスケーラブル復号ィ匕装置の動作について説明する。
[0073] コア復号器 102は、パケット分解部 101から入力されるフレーム消失情報 C1と符号 化情報 S 1を用いてコアレイヤの復号処理を行 、、コアレイヤの復号信号 (狭帯域信 号) S6として出力する。また、コアレイヤの復号処理において得られる情報の一部ま たは全てを拡張復号器 105へ出力する。拡張復号器 105へ出力された情報は拡張 レイヤの復号処理に用いられる。さらに、コアレイヤの復号処理において得られる信 号をアップサンプル処理部 103およびモード判定部へ出力する。アップサンプル処 理部 103へ出力する信号は、コアレイヤの復号信号そのものであっても良いし、コア レイヤの符号ィ匕モデルによっては部分的な復号パラメータであっても良い。モード判 定部へ出力される情報は、線形予測係数、ピッチ予測利得、ピッチラグ、ピッチ周期 、信号エネルギ、零交差率、反射係数、対数断面積比、 LSPパラメータ、正規化線 形予測残差パヮ等の一般に音声信号の状態 (無音、有声定常部、雑音性子音部、 立ち上がり、過渡部等)を分類するのに使われるパラメータである。
[0074] モード判定部 201は、コア復号器 102から入力した各種情報を用いて、復号中の 信号の分類 (例えば、雑音性子音部、有声定常部、立ち上がり部、有声過渡部、無 音部、音楽信号等)を行い、この分類結果を拡張復号器 105へ出力する。ただし、分 類は、この例に限定されない。
[0075] 拡張復号器 105は、パケット分解部 104から出力されるフレーム消失情報と符号ィ匕 情報と、コア復号器 102から出力されるコアレイヤの符号ィ匕処理過程で得られた情報 と、アップサンプル処理部 103から入力されるコアレイヤの復号信号をアップサンプ ルしたものと、を用いて拡張レイヤの復号ィ匕処理を行う。なお、モード判定部から入 力したモード情報を用いて、そのモードに適した符号ィ匕モデルを選択的に使用する ような拡張符号化器 (図示せず)によって拡張レイヤの符号ィ匕処理が行われている場 合は、復号化処理も同様の処理を行う。 [0076] このようにコアレイヤで現在の音響信号の状況を判定し、拡張レイヤの符号ィ匕モデ ルを適応的に切り替える構成とすれば、より高品質な符号化 Z復号化を実現できる。
[0077] 復号信号は、拡張レイヤの復号信号 (広帯域信号)として HPF106および加算器 1 08へ出力される。なお、加算器 108へ出力される信号と HPF106へ出力される信号 は同じものでなくても良い。例えば、加算器 108にはアップサンプル処理部 103から 入力された信号をそのまま出力しても良い。また、フレーム消失情報を参照して加算 器 108へ出力する信号を条件的に切り替える(例えば、アップサンプル処理部 103 から入力された信号と、拡張復号器 105内で行われる復号処理によって生成される 信号と、を切り替える)ようにしても良い。
[0078] また、フレーム消失情報が現フレームは消失フレームであることを示していた場合、 拡張復号器 105はフレーム消失隠蔽処理を行う。この場合、モード判定部から音響 信号のモードを示す情報が入力されているので、そのモードに適した隠蔽処理を行 う。隠蔽処理を用いて生成された広帯域信号は、 HPF106とスィッチを経由して加算 器へ出力される。 HPF106は時間領域のディジタルフィルタで実現可能だ力 MDC T等の直行変換を用いて周波数領域へ変換し、高域成分のみを残して逆変換によつ て時間領域に戻すような処理を利用しても良い。
[0079] コア LPC復号器 112は、 LPCの復号処理過程で得られる音響パラメータもしくは復 号した LPC力も得られる音響パラメータ (例えば、反射係数、対数断面積比、 LSP、 正規ィ匕線型予測残差パヮ等)をモード判定部に出力する。
[0080] コア音源復号器 113は、音源復号過程で得られる音響パラメータもしくは復号した 音源信号カゝら得られる音響パラメータ (例えば、ピッチラグ、ピッチ周期、ピッチゲイン 、ピッチ予測ゲイン、音源信号エネルギ、音源信号零交差率、など)をモード判定部 2 01に出力する。
[0081] なお、図示していないが、合成フィルタから出力される狭帯域復号信号の零交差率 やエネルギ情報等を分析する分析部を設けて、これらのノ ラメータをモード判定部に 入力するようにするとさらに良 、。
[0082] モード判定部 201は、コア LPC復号器 112およびコア音源復号器 113等力ら各種 音響パラメータ (LSP、 LPC、反射係数、対数断面積比、正規化線型予測残差パヮ、 ピッチラグ、ピッチ周期、ピッチゲイン、ピッチ予測ゲイン、音源信号エネルギ、音源 信号零交差率、合成信号エネルギ、合成信号零交差率等)を入力し、音響信号のモ ード分類 (無音部、雑音性子音部、有声定常部、立ち上がり部、有声過渡部、語尾、 音楽信号等)を行い、分類結果を拡張 LPC復号器 127および拡張音源復号器 122 にそれぞれ出力する。なお、図示していないが、拡張復号器 105がポストフィルタの ような後処理部を備える場合は、この後処理部にも上記モード分類情報を出力しても 良い。
[0083] 拡張 LPC復号器 127は、モード判定部 201から入力された音響信号の各種モード に応じて復号処理を切り替えても良い。この場合、拡張 LPC符号器(図示せず)にお Vヽても同様の符号ィ匕モデルの切り替え処理が行われて 、ることを前提とする。また、 拡張レイヤでフレーム消失が生じて 、る場合は、上記モードに対応するフレーム消失 隠蔽処理を行って、復号拡張 LPCを生成する。
[0084] 拡張音源復号器 122は、モード判定部 201から入力された音響信号の各種モード に応じて復号処理を切り替えても良い。この場合、拡張音源符号器 (図示せず)にお いても同様の符号ィ匕モデルが切り替えられていることが前提である。また、拡張レイ ャでフレーム消失が生じている場合は、上記モードに対応するフレーム消失隠蔽処 理を行って、復号拡張音源信号を生成する。
[0085] (実施の形態 3)
図 9は、実施の形態 1または 2に示したスケーラブル復号ィ匕装置を移動体通信シス テムに適用した場合の移動局装置および基地局装置の主要な構成を示すブロック 図である。
[0086] この移動体通信システムは、音声信号送信装置 300および音声信号受信装置 31
0を備える。なお、音声信号受信装置 310に実施の形態 1または 2に示したスケーラ ブル復号ィ匕装置が搭載されて 、る。
[0087] 音声信号送信装置 300は、入力装置 301、 A/D変換装置 302、音声符号化装置
303、信号処理装置 304、 RF変調装置 305、送信装置 306及びアンテナ 307を有 している。
[0088] AZD変換装置 302の入力端子は、入力装置 301の出力端子に接続されている。 音声符号化装置 303の入力端子は、 AZD変換装置 302の出力端子に接続されて いる。信号処理装置 304の入力端子は、音声符号化装置 303の出力端子に接続さ れている。 RF変調装置 305の入力端子は、信号処理装置 304の出力端子に接続さ れている。送信装置 306の入力端子は、 RF変調装置 305の出力端子に接続されて いる。アンテナ 307は、送信装置 306の出力端子に接続されている。
[0089] 入力装置 301は、音声信号を受けてこれを電気信号であるアナログ音声信号に変 換し、 AZD変換装置 302に与える。 AZD変換装置 302は、入力装置 301からのァ ナログの音声信号をディジタル音声信号に変換し、これを音声符号化装置 303へ与 える。音声符号化装置 303は、 AZD変換装置 302からのディジタル音声信号を符 号ィ匕して音声符号ィ匕ビット列を生成し信号処理装置 304に与える。信号処理装置 30 4は、音声符号ィ匕装置 303からの音声符号ィ匕ビット列にチャネル符号ィ匕処理ゃパケ ットイ匕処理及び送信バッファ処理等を行った後、その音声符号ィ匕ビット列を RF変調 装置 305に与える。 RF変調装置 305は、信号処理装置 304からのチャネル符号ィ匕 処理等が行われた音声符号ィ匕ビット列の信号を変調して送信装置 306に与える。送 信装置 306は、 RF変調装置 305からの変調された音声符号ィ匕信号をアンテナ 307 を介して電波 (RF信号)として送出する。
[0090] 音声信号送信装置 300においては、 AZD変換装置 302を介して得られるディジタ ル音声信号に対して数十 msのフレーム単位で処理が行われる。システムを構成する ネットワークがパケット網である場合には、 1フレーム又は数フレームの符号ィ匕データ を 1つのパケットに入れこのパケットをパケット網に送出する。なお、上記ネットワーク が回線交換網の場合には、パケット化処理や送信バッファ処理は不要である。
[0091] 音声信号受信装置 310は、アンテナ 311、受信装置 312、 RF復調装置 313、信号 処理装置 314、音声復号化装置 315、 DZA変換装置 316及び出力装置 317を有 している。
[0092] 受信装置 312の入力端子は、アンテナ 311に接続されている。 RF復調装置 313の 入力端子は、受信装置 312の出力端子に接続されている。信号処理装置 314の入 力端子は、 RF復調装置 313の出力端子に接続されている。音声復号化装置 315の 入力端子は、信号処理装置 314の出力端子に接続されている。 DZA変換装置 316 の入力端子は、音声復号ィ匕装置 315の出力端子に接続されている。出力装置 317 の入力端子は、 DZA変換装置 316の出力端子に接続されている。
[0093] 受信装置 312は、アンテナ 311を介して音声符号ィ匕情報を含んでいる電波 (RF信 号)を受けてアナログの電気信号である受信音声符号ィ匕信号を生成し、これを RF復 調装置 313に与える。アンテナ 311を介して受けた電波 (RF信号)は、伝送路におい て信号の減衰や雑音の重畳がなければ、音声信号送信装置 300において送出され た電波 (RF信号)と全く同じものになる。
[0094] RF復調装置 313は、受信装置 312からの受信音声符号ィ匕信号を復調し信号処理 装置 314に与える。信号処理装置 314は、 RF復調装置 313からの受信音声符号ィ匕 信号のジッタ吸収バッファリング処理、パケット組みたて処理およびチャネル復号ィ匕 処理等を行い、受信音声符号化ビット列を音声復号化装置 315に与える。音声復号 化装置 315は、信号処理装置 314からの受信音声符号ィ匕ビット列の復号ィ匕処理を 行って復号音声信号を生成し DZA変換装置 316へ与える。 DZA変換装置 316は 、音声復号化装置 315からのディジタル復号音声信号をアナログ復号音声信号に変 換して出力装置 317に与える。出力装置 317は、 DZA変換装置 316からのアナ口 グ復号音声信号を空気の振動に変換し音波として人間の耳に聞こえる様に出力する
[0095] これにより、実施の形態 1または 2と同様の作用効果を有する移動局装置 (通信端 末装置)を提供することができる。
[0096] また、本発明に係るスケーラブル復号化装置は、上記各実施の形態に限定されず
、種々変更して実施することが可能である。例えば、実施の形態 1および 2は、適宜 組み合わせて実施することが可能である。
[0097] 図 10は、実施の形態 1および 2を組み合わせた場合のスケーラブル復号ィ匕装置の 主要な構成を示すブロック図である。
[0098] コア復号器 102は、復号処理過程で得られる音響パラメータもしくは復号信号を分 祈して得られる音響パラメータをモード判定部 201に出力する。音響パラメータとして は、前述のような各種パラメータ全てが例としてあげられる。このような構成は、拡張 復号器 105が MDCTを用いた符号ィ匕アルゴリズムを利用している場合に有効である [0099] 以上、本発明の様々な実施の形態について説明した。
[0100] なお、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明したが、本 発明はソフトウェアで実現することも可能である。例えば、本発明に係る拡張レイヤ消 失隠蔽方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメ モリに記憶してぉ 、て情報処理手段によって実行させることにより、本発明に係るス ケーラブル復号ィ匕装置と同様の機能を実現することができる。
[0101] また、 LSPの余弦をとつたもの、すなわち、 LSPを L (i)とした場合の cos (L (i) )を特 に LSF (Line Spectral Frequency)と呼び、 LSPと区別する場合もあるが、本明細書 では、 LSFは LSPの一形態であり、 LSPに LSFは含まれるものとして LSPという用語 を用いている。すなわち、 LSPを LSFと読み替えても良い。
[0102] また、上記各実施の形態では、コアレイヤは最も狭帯域の信号の符号ィ匕 Z復号ィ匕 を行うレイヤであるとして説明したが、ある帯域の信号を符号化 Z復号化するレイヤ X とそれよりも広 ヽ帯域の信号を符号化 Z復号化するレイヤ Yとがあった場合、 Xをコア レイヤ、 Yを拡張レイヤとして、本発明の内容を適用することも可能である。この場合、 レイヤ Xは必ずしも最も狭帯域の信号の符号ィ匕 Z復号ィ匕を行うレイヤである必要はな く、レイヤ X自体が複数のレイヤ力 成るスケーラブル構造となって 、ても良!、。
[0103] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されていても良いし、一部ま たは全てを含むように 1チップィ匕されて ヽても良!、。
[0104] また、ここでは LSIとした力 集積度の違いによって、 IC、システム LSI、スーパー L SI、ウノレ卜ラ LSI等と呼称されることちある。
[0105] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Programmable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可 能なリコンフィギユラブル ·プロセッサを利用しても良!、。
[0106] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてあり得る。
[0107] 本明細書は、 2004年 4月 30日出願の特願 2004— 136280に基づく。この内容は すべてここに含めておく。
産業上の利用可能性
[0108] 本発明に係るスケーラブル復号化装置および拡張レイヤ消失隠蔽方法は、移動体 通信システムにおける通信端末装置等の用途に適用できる。

Claims

請求の範囲
[1] 周波数軸方向にスケーラビリティを有するコアレイヤと拡張レイヤとからなる符号ィ匕 情報から、広帯域の復号信号を得るスケーラブル復号化装置であって、
コアレイヤの符号ィ匕情報力 狭帯域のコアレイヤ復号信号を得るコアレイヤ復号ィ匕 手段と、
前記狭帯域のコアレイヤ復号信号の周波数帯域を広帯域に変換し、第 1信号を得 る変換手段と、
コアレイヤが存在し拡張レイヤが消失された符号化情報に対し、過去に得られた復 号信号に基づいて広帯域の補償信号を生成する補償手段と、
前記広帯域の補償信号力 コアレイヤに相当する周波数成分を除去し、第 2信号 を得る除去手段と、
前記第 1信号および前記第 2信号を加算して広帯域の復号信号を得る加算手段と を具備するスケーラブル復号ィ匕装置。
[2] 前記コアレイヤ復号化手段は、
コアレイヤの符号ィ匕情報力もコアレイヤの復号 LPCを得るコアレイヤ LPC復号部と 、コアレイヤの符号ィ匕情報力 コアレイヤの復号音源信号を得るコアレイヤ音源信号 復号部と、を具備し、
前記変換手段は、
前記コアレイヤの復号 LPCを広帯域の LPCに次数変換する LPC変換部と、前記コ ァレイヤの復号音源信号を広帯域の音源信号にアップサンプリングするアップサンプ ル処理部と、前記 LPC変換部で広帯域に次数変換された LPCによって構成される 合成フィルタであって、前記アップサンプル処理部でアップサンプリングされた広帯 域の音源信号を駆動音源信号として前記第 1信号を合成する第 1の合成フィルタと、 を具備し、
前記補償手段は、
拡張レイヤの符号ィ匕情報力 過去に得られた拡張レイヤの復号 LPCに基づいて広 帯域の補償 LPCを生成する拡張レイヤ LPC復号部と、拡張レイヤの符号化情報から 過去に得られた拡張レイヤの復号音源信号に基づいて広帯域の補償音源信号を生 成する拡張レイヤ音源信号復号部と、前記拡張レイヤ LPC復号部で生成された補償 LPCによって構成される合成フィルタであって、前記拡張レイヤ音源信号復号部で 生成された補償音源信号を駆動音源信号として前記補償信号を合成する第 2の合 成フィルタと、を具備する、
請求項 1記載のスケーラブル復号化装置。
[3] 前記変換手段は、
前記狭帯域のコアレイヤ復号信号を変形離散コサイン変換する MDCT部と、 前記 MDCT部で得られた MDCT係数の次数を拡張して前記第 1信号を得る次数 拡張部と、
を具備する請求項 1記載のスケーラブル復号ィ匕装置。
[4] 前記補償手段は、
前記コアレイヤと拡張レイヤとからなる符号ィ匕情報のモードに従って前記補償信号 の生成方法を切り替える、
請求項 1記載のスケーラブル復号化装置。
[5] 請求項 1記載のスケーラブル復号ィ匕装置を具備する通信端末装置。
[6] 請求項 1記載のスケーラブル復号化装置を具備する基地局装置。
[7] 周波数軸方向にスケーラビリティを有するコアレイヤと拡張レイヤとからなる符号ィ匕 情報に対し、
コアレイヤの符号ィ匕情報力 狭帯域のコアレイヤ復号信号を得るステップと、 前記狭帯域のコアレイヤ復号信号の周波数帯域を広帯域に変換し、第 1信号を得 るステップと、
コアレイヤが存在し拡張レイヤが消失された符号化情報に対し、過去に得られた復 号信号に基づいて広帯域の補償信号を生成するステップと、
前記広帯域の補償信号力 コアレイヤに相当する周波数成分を除去し、第 2信号 を得るステップと、
前記第 1信号および前記第 2信号を加算して広帯域の復号信号を得るステップと、 を具備する拡張レイヤ消失隠蔽方法。
PCT/JP2005/007822 2004-04-30 2005-04-25 スケーラブル復号化装置および拡張レイヤ消失隠蔽方法 WO2005106848A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006512775A JPWO2005106848A1 (ja) 2004-04-30 2005-04-25 スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
EP05734140A EP1758099A1 (en) 2004-04-30 2005-04-25 Scalable decoder and expanded layer disappearance hiding method
US11/587,964 US20080249766A1 (en) 2004-04-30 2005-04-25 Scalable Decoder And Expanded Layer Disappearance Hiding Method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-136280 2004-04-30
JP2004136280 2004-04-30

Publications (1)

Publication Number Publication Date
WO2005106848A1 true WO2005106848A1 (ja) 2005-11-10

Family

ID=35241896

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/007822 WO2005106848A1 (ja) 2004-04-30 2005-04-25 スケーラブル復号化装置および拡張レイヤ消失隠蔽方法

Country Status (5)

Country Link
US (1) US20080249766A1 (ja)
EP (1) EP1758099A1 (ja)
JP (1) JPWO2005106848A1 (ja)
CN (1) CN1950883A (ja)
WO (1) WO2005106848A1 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007138825A1 (ja) * 2006-05-25 2007-12-06 Pioneer Corporation デジタル音声データ処理装置及び処理方法
WO2008053970A1 (fr) * 2006-11-02 2008-05-08 Panasonic Corporation Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
WO2008096862A1 (ja) * 2007-02-09 2008-08-14 Yamaha Corporation 音声処理装置
JP2009538460A (ja) * 2007-09-15 2009-11-05 ▲ホア▼▲ウェイ▼技術有限公司 高帯域信号にフレーム消失の隠蔽を行う方法および装置
JP2010508550A (ja) * 2006-11-02 2010-03-18 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル値の後処理用装置と方法及びオーディオ信号のエンコーダとデコーダ
WO2010082471A1 (ja) * 2009-01-13 2010-07-22 パナソニック株式会社 音響信号復号装置及びバランス調整方法
WO2010103855A1 (ja) * 2009-03-13 2010-09-16 パナソニック株式会社 音声復号装置及び音声復号方法
US8098727B2 (en) 2006-03-30 2012-01-17 Siemens Enterprise Communications Gmbh & Co. Kg Method and decoding device for decoding coded user data
JP4954069B2 (ja) * 2005-06-17 2012-06-13 パナソニック株式会社 ポストフィルタ、復号化装置及びポストフィルタ処理方法
US8370138B2 (en) 2006-03-17 2013-02-05 Panasonic Corporation Scalable encoding device and scalable encoding method including quality improvement of a decoded signal
JP2013512468A (ja) * 2010-04-28 2013-04-11 ▲ホア▼▲ウェイ▼技術有限公司 音声信号の切り替えの方法およびデバイス
JP2018528463A (ja) * 2015-08-18 2018-09-27 クアルコム,インコーポレイテッド 帯域幅移行期間中の信号再使用

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2040253B1 (en) * 2000-04-24 2012-04-11 Qualcomm Incorporated Predictive dequantization of voiced speech
ATE406652T1 (de) * 2004-09-06 2008-09-15 Matsushita Electric Ind Co Ltd Skalierbare codierungseinrichtung und skalierbares codierungsverfahren
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
WO2008066071A1 (en) * 2006-11-29 2008-06-05 Panasonic Corporation Decoding apparatus and audio decoding method
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
CN101471073B (zh) * 2007-12-27 2011-09-14 华为技术有限公司 一种基于频域的丢包补偿方法、装置和系统
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8706479B2 (en) * 2008-11-14 2014-04-22 Broadcom Corporation Packet loss concealment for sub-band codecs
WO2012103686A1 (en) * 2011-02-01 2012-08-09 Huawei Technologies Co., Ltd. Method and apparatus for providing signal processing coefficients
US9208796B2 (en) * 2011-08-22 2015-12-08 Genband Us Llc Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream and applications of same
RU2608447C1 (ru) * 2013-01-29 2017-01-18 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерирования расширенного по частоте сигнала, используя временное сглаживание поддиапазонов
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
CN111585702B (zh) * 2015-07-01 2023-04-25 韩国电子通信研究院 生成广播信号帧的方法
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241799A (ja) * 2002-02-15 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 音響符号化方法、復号化方法、符号化装置、復号化装置及び符号化プログラム、復号化プログラム
JP2003295900A (ja) * 2002-04-05 2003-10-15 Nippon Telegr & Teleph Corp <Ntt> 音声処理方法、音声処理装置、音声処理プログラム
JP2004102186A (ja) * 2002-09-12 2004-04-02 Matsushita Electric Ind Co Ltd 音響符号化装置及び音響符号化方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450449A (en) * 1994-03-14 1995-09-12 At&T Ipm Corp. Linear prediction coefficient generation during frame erasure or packet loss
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
ATE319162T1 (de) * 2001-01-19 2006-03-15 Koninkl Philips Electronics Nv Breitband-signalübertragungssystem
CN1326415C (zh) * 2001-06-26 2007-07-11 诺基亚公司 对音频信号进行代码变换的方法、码变换器、网元、无线通信网和通信系统
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
KR100503415B1 (ko) * 2002-12-09 2005-07-22 한국전자통신연구원 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241799A (ja) * 2002-02-15 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 音響符号化方法、復号化方法、符号化装置、復号化装置及び符号化プログラム、復号化プログラム
JP2003295900A (ja) * 2002-04-05 2003-10-15 Nippon Telegr & Teleph Corp <Ntt> 音声処理方法、音声処理装置、音声処理プログラム
JP2004102186A (ja) * 2002-09-12 2004-04-02 Matsushita Electric Ind Co Ltd 音響符号化装置及び音響符号化方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4954069B2 (ja) * 2005-06-17 2012-06-13 パナソニック株式会社 ポストフィルタ、復号化装置及びポストフィルタ処理方法
US8315863B2 (en) 2005-06-17 2012-11-20 Panasonic Corporation Post filter, decoder, and post filtering method
JP5173795B2 (ja) * 2006-03-17 2013-04-03 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
US8370138B2 (en) 2006-03-17 2013-02-05 Panasonic Corporation Scalable encoding device and scalable encoding method including quality improvement of a decoded signal
US8098727B2 (en) 2006-03-30 2012-01-17 Siemens Enterprise Communications Gmbh & Co. Kg Method and decoding device for decoding coded user data
JPWO2007138825A1 (ja) * 2006-05-25 2009-10-01 パイオニア株式会社 デジタル音声データ処理装置及び処理方法
JP4551472B2 (ja) * 2006-05-25 2010-09-29 パイオニア株式会社 デジタル音声データ処理装置及び処理方法
WO2007138825A1 (ja) * 2006-05-25 2007-12-06 Pioneer Corporation デジタル音声データ処理装置及び処理方法
WO2008053970A1 (fr) * 2006-11-02 2008-05-08 Panasonic Corporation Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
JP2010508550A (ja) * 2006-11-02 2010-03-18 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル値の後処理用装置と方法及びオーディオ信号のエンコーダとデコーダ
US8321207B2 (en) 2006-11-02 2012-11-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for postprocessing spectral values and encoder and decoder for audio signals
WO2008096862A1 (ja) * 2007-02-09 2008-08-14 Yamaha Corporation 音声処理装置
KR100998430B1 (ko) * 2007-09-15 2010-12-03 후아웨이 테크놀러지 컴퍼니 리미티드 상위대역 시그널에 대한 프레임 손실 은닉을 수행하는 방법및 장치
JP2009538460A (ja) * 2007-09-15 2009-11-05 ▲ホア▼▲ウェイ▼技術有限公司 高帯域信号にフレーム消失の隠蔽を行う方法および装置
US8200481B2 (en) 2007-09-15 2012-06-12 Huawei Technologies Co., Ltd. Method and device for performing frame erasure concealment to higher-band signal
WO2010082471A1 (ja) * 2009-01-13 2010-07-22 パナソニック株式会社 音響信号復号装置及びバランス調整方法
JP5468020B2 (ja) * 2009-01-13 2014-04-09 パナソニック株式会社 音響信号復号装置及びバランス調整方法
US8737626B2 (en) 2009-01-13 2014-05-27 Panasonic Corporation Audio signal decoding device and method of balance adjustment
WO2010103855A1 (ja) * 2009-03-13 2010-09-16 パナソニック株式会社 音声復号装置及び音声復号方法
JP2013512468A (ja) * 2010-04-28 2013-04-11 ▲ホア▼▲ウェイ▼技術有限公司 音声信号の切り替えの方法およびデバイス
JP2017033015A (ja) * 2010-04-28 2017-02-09 ▲ホア▼▲ウェイ▼技術有限公司Huawei Technologies Co.,Ltd. 音声信号の切り替えの方法およびデバイス
JP2018528463A (ja) * 2015-08-18 2018-09-27 クアルコム,インコーポレイテッド 帯域幅移行期間中の信号再使用

Also Published As

Publication number Publication date
US20080249766A1 (en) 2008-10-09
EP1758099A1 (en) 2007-02-28
CN1950883A (zh) 2007-04-18
JPWO2005106848A1 (ja) 2007-12-13

Similar Documents

Publication Publication Date Title
WO2005106848A1 (ja) スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
US7848921B2 (en) Low-frequency-band component and high-frequency-band audio encoding/decoding apparatus, and communication apparatus thereof
EP2224429B1 (en) Embedded silence and background noise compression
KR101303145B1 (ko) 계층적 오디오 신호를 코딩하기 위한 시스템, 오디오 신호를 코딩하는 방법, 컴퓨터-판독가능한 매체 및 계층적 오디오 디코더
US7277849B2 (en) Efficiency improvements in scalable audio coding
EP2038883B1 (en) Vocoder and associated method that transcodes between mixed excitation linear prediction (melp) vocoders with different speech frame rates
KR100574031B1 (ko) 음성합성방법및장치그리고음성대역확장방법및장치
US20080010062A1 (en) Adaptive encoding and decoding methods and apparatuses
WO2008104463A1 (en) Split-band encoding and decoding of an audio signal
WO2006030865A1 (ja) スケーラブル符号化装置、スケーラブル復号化装置、スケーラブル符号化方法、スケーラブル復号化方法、通信端末装置および基地局装置
JP2000305599A (ja) 音声合成装置及び方法、電話装置並びにプログラム提供媒体
WO2005066937A1 (ja) 信号復号化装置及び信号復号化方法
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
Sinder et al. Recent speech coding technologies and standards
KR100653783B1 (ko) 음성 복호화 기능이 구비된 이동통신 단말기 및 그동작방법
Choudhary et al. Study and performance of amr codecs for gsm
JP2000134162A (ja) 帯域幅拡張方法及び装置
Herre et al. Perceptual audio coding of speech signals
Kroon Speech and Audio Compression
Herre et al. 18. Perceptual Perceptual Audio Coding of Speech Signals
Schmidt et al. On the Cost of Backward Compatibility for Communication Codecs
Jax Backwards Compatible Wideband Telephony

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006512775

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2005734140

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11587964

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 200580013757.3

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWP Wipo information: published in national office

Ref document number: 2005734140

Country of ref document: EP