WO2007043642A1 - スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法 - Google Patents

スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法 Download PDF

Info

Publication number
WO2007043642A1
WO2007043642A1 PCT/JP2006/320444 JP2006320444W WO2007043642A1 WO 2007043642 A1 WO2007043642 A1 WO 2007043642A1 JP 2006320444 W JP2006320444 W JP 2006320444W WO 2007043642 A1 WO2007043642 A1 WO 2007043642A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
frame
scalable
decoding
layer
Prior art date
Application number
PCT/JP2006/320444
Other languages
English (en)
French (fr)
Inventor
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US12/089,983 priority Critical patent/US8069035B2/en
Priority to CN200680035365.1A priority patent/CN101273403B/zh
Priority to JP2007539997A priority patent/JP5142723B2/ja
Priority to EP06811732A priority patent/EP1933304A4/en
Publication of WO2007043642A1 publication Critical patent/WO2007043642A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the present invention relates to a scalable encoding device, a scalable decoding device, and a method thereof.
  • the present invention relates to a scalable coding apparatus, a scalable decoding apparatus, and methods thereof.
  • a voice code having a scalable configuration is desired for traffic control and multicast communication on the network.
  • a scalable configuration is a configuration in which speech data can be decoded even from partial encoded data on the receiving side.
  • a hierarchical code for input audio signals on the transmission side extends from a lower layer including a core layer to a higher layer including an extension layer.
  • the encoded data layered into a plurality of layers is transmitted.
  • the lower layer power can also be decoded using code data up to an arbitrary layer (for example, see Non-Patent Document 1).
  • resistance to packet loss can be enhanced by suppressing the loss rate of the code data in the lower layer including the core layer rather than the higher layer.
  • error compensation can be performed using previously received code key data (for example, non-patent (Ref. 2).
  • code key data for example, non-patent (Ref. 2).
  • the code data of the lower layer including the core layer is lost due to packet loss and cannot be received.
  • the receiving side can perform decoding by performing error compensation using code data of past frames received in the past. Therefore, the quality degradation of the decoded signal when packet loss occurs can be suppressed to some extent.
  • Non-patent literature l ISO / IEC 14496-3: 2001
  • E Prt-3 Audio (MPEG-4) Subpart-3 Speech Coding (CELP)
  • Non-Patent Document 2 ISO / IEC 14496-3: 2001 (E) Prt-3 Audio (MPEG-4) Subpart-1 Main An nexl .B (Informative) Error Protection tool
  • An object of the present invention is to suppress quality deterioration of a decoded signal even when core layer encoded data is lost and error correction cannot be performed with high accuracy by a method using code data of a past frame.
  • a scalable code decoder, a scalable decoder, and a method thereof are provided.
  • the scalable coding apparatus is a scalable coding apparatus that includes at least a lower layer and a higher layer, and performs low-layer encoded data by performing coding in the lower layer.
  • Low-order layer encoding means high-order layer code encoding means for generating high-order layer code data by performing encoding in the high-order layer, and replication for generating duplicate data of the low-order layer encoded data
  • a replacement means for replacing a part of the higher layer encoded data with the duplicate data.
  • the scalable decoding device of the present invention is a scalable decoding device including at least a lower layer and a higher layer, and the separation of separating the duplicated data of the lower layer code data with high layer code data strength.
  • FIG. 1 is a block diagram showing the main configuration of a scalable coding apparatus according to Embodiment 1.
  • FIG. 2 is a flowchart showing a procedure of replacement determination processing of a replacement determination unit according to Embodiment 1.
  • FIG. 3 Enhancement layer code key data power Diagram for explaining the details of replacement with core layer code key data
  • FIG. 4 is a block diagram showing the main configuration of the scalable decoding apparatus according to Embodiment 1.
  • FIG. 5 shows the procedures of error compensation processing and decoding processing in the core layer decoding unit and enhancement layer decoding unit according to Embodiment 1. Flow diagram shown
  • FIG. 6 is a diagram for explaining the decoding processing according to the first embodiment.
  • FIG. 7 A block diagram showing the main configuration of the scalable coding apparatus according to Embodiment 2.
  • FIG. 8 Processing in which part of enhancement layer code data is replaced with extracted core layer code data Illustration for explanation
  • FIG. 9 is a block diagram showing the main configuration of the scalable decoding apparatus according to Embodiment 2.
  • FIG. 10 shows the procedures of error compensation processing and decoding processing in the core layer decoding unit and enhancement layer decoding unit according to Embodiment 2. Flow diagram shown
  • FIG. 11 is a block diagram showing the main configuration of the scalable coding apparatus according to Embodiment 3.
  • FIG. 12 is a block diagram showing the main configuration of the scalable decoding apparatus according to Embodiment 3. Flow chart showing a sequence of decryption processing according to embodiment 3
  • FIG. 1 is a block diagram showing the main configuration of scalable coding apparatus 100 according to Embodiment 1 of the present invention.
  • the scalable coding apparatus 100 employs a configuration consisting of two layers of a core layer and an enhancement layer, and performs a scalable coding process on an input audio signal in units of audio frames.
  • the mth frame A case where an audio signal I (m) of m is input will be described as an example.
  • the core layer coding unit 101 performs coding processing on a signal that is a core component of the input speech signal, and generates core layer coded data.
  • the core signal is, for example, a wideband speech signal whose input speech signal has a 7 kHz bandwidth, and in the case of band scalable coding, this wideband signal power is also of the telephone bandwidth (3.4 kHz) width generated by bandwidth limitation. A signal.
  • the core layer coding unit 101 performs core layer coding processing using the input speech signal I (m), and generates the m-th frame coarrayer coded data Ec (m).
  • the generated Ec (m) is input to the delay unit 106 and also to the replacement unit 105. That is, the data input to the replacement unit 105 is duplicate data of the data input to the delay unit 106.
  • the core layer coding unit 101 may be configured to generate core layer coding data by performing coding processing on the input speech signal itself.
  • the enhancement layer code key unit 102 obtains a decoded signal by locally decoding Ec (m) input from the core layer code key unit 101, and compares the decoded signal with the input speech signal. Of the input speech signal, it can be expressed by Ec (m), but the remaining signal components (for example, coding error signal component in the core layer, in the case of band scalable coding, it was not coded in the core layer) The high-band signal component, etc.) is grasped, and this component is subjected to encoding processing to generate enhancement layer encoded data. On the decoding side, the quality of the decoded signal can be improved by performing decoding using the extension layer encoded data in addition to the core layer encoded data.
  • the enhancement layer code unit 102 generates the enhancement layer encoded data Ee (m) of the m-th frame using the input speech signal I (m) and Ec (m) input from the core layer code unit 101. To do.
  • replacement determination section 103 receives input speech signal I (m), Ec (m) input from core layer code section 101, and Ee input from enhancement layer code section 102. (m) is used to determine whether to replace the enhancement layer coded data Ee (m-1) of the (m-1) th frame with the core layer code data Ec (m) of the mth frame. Process. The replacement determination unit 103 sends a replacement determination flag flag (m-1) indicating the determination result to the replacement units 105 and 105. And the enhancement layer multiplexing unit 107.
  • Delay section 104 receives m-th frame enhancement layer code data Ee (m) from enhancement layer code section 102, and (m-1) th frame enhancement layer encoded data Ee. Output (m— 1). That is, Ee (m ⁇ 1) output from the delay unit 104 is the extended layer encoded data of the (m ⁇ 1) th frame input from the enhancement layer encoding unit 102 in the encoding process one frame before. Ee (m-1) is delayed by one frame and output in the m-th frame encoding process.
  • the replacement unit 105 performs replacement processing based on the value of the replacement determination flag flag (m ⁇ 1) input from the replacement determination unit 103. That is, when flag (m ⁇ 1) is 0, Ee (m ⁇ 1) input from delay section 104 is output to enhancement layer multiplexing section 107 as it is. On the other hand, in the case of flag (m—1) force Si, the substitution unit 105 receives the content of Ee (m—1) to which the delay unit 104 force is also input, and Ec (m) input from the core layer code unit 101. And output to enhancement layer multiplexing section 107.
  • Delay section 106 receives Ec (m) input from core layer encoding section 101, and outputs Ec (m -1). That is, Ec (m ⁇ 1) output from the delay unit 106 is the coarrayer encoded data Ec (m ⁇ 1) of the (m ⁇ 1) th frame input from the core layer encoding unit 101 in the code processing of the previous frame. — 1) is delayed by one frame and output in the m-th frame encoding process.
  • Enhancement layer multiplexing section 107 receives replacement determination flag flag (m-1) input from replacement determination section 103, and enhancement layer code key data Ee (m-1) input from replacement section 105. Multiplexing processing is performed for them.
  • Transmitting section 108 has core layer code key data Ec (m ⁇ 1) input from delay section 106 and enhancement layer code key data Ee (m ⁇ 1) input from enhancement layer multiplexing section 107. And the replacement determination flag flag (m-1) are multiplexed and transmitted to the scalable decoding device 200 (see FIG. 4).
  • the scalable coding apparatus 100 has the (m-1) th frame core layer code data Ec (m-1) delayed by one frame compared to the input speech signal I (m). ) And enhancement layer encoded data Ee (m-1) are transmitted to scalable decoding apparatus 200.
  • the contents of the enhancement layer encoded data Ee (m-1) is the enhancement layer encoded data Ee (m-1) of the (m-1) frame itself, or the core layer encoded data of the mth frame.
  • Ec (m) That is, when the (m ⁇ l) th frame is the current frame, the mth frame is a future frame, and the scalable coding apparatus 100 converts the enhancement layer coded data of the current frame into the core layer code data of the future frame.
  • the scalable decoding apparatus 100 uses the copy data of the core layer encoded data of the current frame as an extension layer of the past frame.
  • the sign key data is replaced and transmitted to the scalable decoding apparatus 200.
  • FIG. 2 is a flowchart showing the procedure of the replacement determination process of replacement determination section 103.
  • step (hereinafter abbreviated as “ST”) the replacement determination unit 103 analyzes the input audio signal to determine the power and pitch analysis parameters of the input audio signal (pitch period, pitch prediction) Gain), LPC spectrum and other characteristic parameter changes are calculated. For example, for each frame, the difference between the power of the input voice signal and the power of the input voice signal of the past frame is calculated and used as a parameter representing the degree of change of the input voice signal.
  • replacement determination section 103 determines whether or not the degree of change in the input audio signal calculated in ST2001 is greater than or equal to a predetermined value.
  • the decoding side uses the encoded data of the past frame to exceed a predetermined level. Error compensation cannot be performed with quality. Therefore, if the degree of change in the input speech signal is greater than or equal to a predetermined value (ST2002: YES), the decoding side must be able to perform error compensation with a quality of a predetermined level or higher using the code data of the past frame. Then, the replacement determination unit 103 proceeds to the process of ST2006. On the other hand, when the degree of change of the input audio signal is not equal to or greater than the predetermined value (ST2002: NO), replacement determination section 103 proceeds to the process of ST2003.
  • replacement determination section 103 calculates coding distortion when only the core layer coding process is performed and coding distortion when performing even the enhancement layer coding process.
  • replacement determination section 103 performs a product of a decoded signal by enhancement layer code processing. It is determined whether or not the quality improvement degree is below a predetermined level. Specifically, if the difference between the two code distortions calculated in ST2003 is less than or equal to a predetermined value, it is determined that the degree of quality improvement of the decoded signal by the enhancement layer encoding process is less than or equal to a predetermined level ( ST2 004: YES). At this time, replacement determination section 103 proceeds to the process of ST2006. On the other hand, the degree of quality improvement of the decoded signal by the extended layer coding process is not below a predetermined level! In the case (ST 2004: NO), the replacement determination unit 103 proceeds to the process of ST2005.
  • replacement determination section 103 sets replacement determination flag flag (m ⁇ 1) to 0 indicating “no replacement”. In ST2006, replacement determination section 103 sets replacement determination flag flag (m 1) to 1 indicating “with replacement”.
  • the replacement determination unit 103 determines whether or not the enhancement layer code key data Ee (m-1) is replaced with the core layer code key data Ec (m) of the next frame. If the code data of the m-th frame is lost, whether or not the decoding side can perform error compensation with a quality of a predetermined level or more using the code data of the past frame, m-1) It is determined whether or not the quality improvement degree of the decoded signal by the frame enhancement layer code processing is below a predetermined level.
  • FIG. 3 is a diagram for explaining the details of the replacement of the enhancement layer code key data force with the core layer code key data in the scalable code key apparatus 100.
  • a description will be given by taking as an example processing for input audio signals in the (m ⁇ 3) to (m + 1) th frames.
  • the first line shows the input audio signal for each frame
  • the second and third lines are the core layer encoded data generated by the core layer encoding unit 101 and the enhancement layer, respectively.
  • generates are shown.
  • the core layer code data and the extended layer encoded data transmitted from the transmission unit 108 to the scalable decoding device 200 assuming that the replacement unit 105 is not provided.
  • the encoded data transmitted from the transmitting unit 108 to the scalable decoding apparatus 200 is the code generated by the core layer code key unit 101 and the enhancement layer code key unit 102 in the code key processing one frame before. This is data.
  • the sixth line is the value of the replacement determination flag indicating the determination result of the replacement determination unit 103.
  • the replacement unit 105 performs replacement processing based on the value of the replacement determination flag.
  • 2 shows core layer code data and enhancement layer coded data transmitted from transmitting section 108 to scalable decoding apparatus 200.
  • the replacement determination flag flag (m ⁇ l) is force Si, it is replaced with Ee (m ⁇ i; n3 ⁇ 4Ec (m).
  • the data in the second column is the same as the data in the seventh row and the third column, and the data in the eighth row and the fourth column are the same as the data in the seventh row and the fifth column, that is, using Ec (m) as a backup. If the replacement determination unit 103 determines in advance that transmission to the scalable decoding apparatus 200 is necessary, the replacement unit 105 performs processing for replacing Ee (m ⁇ 1) with Ec (m).
  • FIG. 4 is a block diagram showing the main configuration of scalable decoding apparatus 200.
  • the scalable decoding device 200 has a configuration consisting of two layers, a core layer and an enhancement layer.
  • Receiving section 201 has multiplexed core layer code key data Ec (n), enhancement layer code key data Ee (n), and replacement determination flag flag (n) from scalable code key apparatus 100. Receives encoded data.
  • Enhancement layer demultiplexing section 202 demultiplexes the data input from receiving section 201 and multiplexed with enhancement layer encoded data Ee (n) and replacement decision flag flag (n). Then, the enhancement layer encoded data Ee (n) and the replacement judgment flag flag (n) are separated.
  • switching section 203 Based on the value of replacement determination flag flag (n) input from enhancement layer demultiplexing section 202, switching section 203 performs enhancement layer code key data Ee (input from enhancement layer demultiplexing section 202) Determine whether the content of n) is Ee (n) itself, or the core layer encoded data Ec (n + 1) of the next frame. Based on the determination result, the switching unit 203 outputs the core layer code key data Ec (n + 1) to the delay unit 204 when the replacement determination flag flag (n) is 1, and the replacement determination flag flag (n) If 0, enhancement layer encoded data Ee (n) is output to enhancement layer decoding section 206.
  • enhancement layer code key data Ee input from enhancement layer demultiplexing section 202
  • Delay section 204 receives the (n + 1) th frame core layer encoded data Ec (n
  • the core layer decoding unit 205 Based on the packet mouth flag to which the packet loss detection unit (not shown) is also input, the core layer decoding unit 205, when there is no packet loss, the coarrayer encoded data Ec ( n), and the permutation determination flag flag (n) input from the enhancement layer demultiplexing unit 202 is used to perform decoding processing to generate a core layer decoded signal Dc (n).
  • the core layer decoding unit 205 replaces the core layer code data Ec (n) input from the reception unit 201 with the core layer code data Ec ( Perform decryption using n). Details of the processing in the core layer decoding unit 205 will be described later.
  • the enhancement layer decoding unit 206 Based on the packet mouth flag to which the packet loss detection unit (not shown) is also input, the enhancement layer decoding unit 206, when there is no packet loss, the enhancement layer encoded data input from the switching unit 203 Ee (n), replacement determination flag f lag (n) input from enhancement layer demultiplexing section 202, core layer code key data Ec (n) input from core layer decoding section 205, and core layer decoding section 205 Decoding processing is performed using the core layer decoded signal Dc (n) input from, and an enhancement layer decoded signal De (n) is output. When packet loss occurs, enhancement layer decoding section 206 performs error compensation using enhancement layer code key data received in the past and compensation data generated by core layer decoding section 205.
  • FIG. 5 is a flowchart showing procedures of error compensation processing and decoding processing in the core layer decoding unit 205 and enhancement layer decoding unit 206.
  • the core layer decoding unit 205 determines in ST5001 whether or not the nth frame code data has been lost. If it is determined that the frame has not been lost (ST5001: NO), core layer decoding section 205 proceeds to the process of ST5002, and if it is determined that the frame has been lost (ST5001: YES), the process proceeds to ST5006.
  • core layer decoding section 205 performs core layer decoding processing using core layer code key data Ec (n) input from receiving section 201, and generates core layer decoded signal Dc (n).
  • enhancement layer decoding section 206 determines whether replacement determination flag flag (n) is 1 or not Determine whether or not. When it is determined in ST5003 that the value of replacement determination flag flag (n) is 1 (ST5003: YES), enhancement layer decoding section 206 proceeds to the processing of ST5005, and the value of replacement determination flag flag (n) is 0. If it is determined that (ST5003: NO), go to ST5004
  • enhancement layer decoding section 206 performs enhancement layer decoding processing using enhancement layer code key data Ee (n), and generates enhancement layer decoded signal De (n).
  • enhancement layer decoding section 206 since enhancement layer decoding section 206 does not receive enhancement layer encoded data Ee (n) from switching section 203, core layer encoded data Ec (n), core layer decoded signal Dc (n), the extended layer encoded data Ee (n—1) of the (n ⁇ 1) th frame received in the decoding process one frame before and the enhancement layer decoded signal of the (n ⁇ 1) frame De (n 1) is used to perform error compensation processing and decoding processing to generate an n-th frame enhancement layer decoded signal De (n).
  • core layer decoding section 205 determines whether or not the value of replacement determination flag flag (n ⁇ 1) of the previous frame is 1. If it is determined that the value of flag (n-1) is 1 (ST5006: YES), the enhancement layer coding of the (n-1) th frame received in the decoding process one frame before is performed. It can be determined that the content of data Ee (n-1) is the core layer encoded data Ec (n) of the nth frame. Therefore, core layer decoding section 205 proceeds to the process of ST5007.
  • core layer decoding section 205 performs core layer decoding processing using core layer code key data Ec (n) of the nth frame received in the decoding processing one frame before, and performs core layer decoded signal Dc (n) Is generated.
  • enhancement layer decoding section 206 performs core layer decoded signal Dc (n) and enhancement layer code key data Ee (n-1) of the previous frame, that is, the (n-1) th frame. Then, the enhancement layer decoded signal De (n ⁇ 1) is used to perform error compensation processing and decoding processing to generate an nth frame enhancement layer decoded signal De (n).
  • the core layer decoding unit 205 proceeds to the process of ST5009.
  • core layer decoding section 205 receives the previous layer, that is, core layer code key data Ec (n-1) and core layer decoded signal Dc (n-1) of the (n-l) th frame. Then, error compensation processing and decoding processing are performed to generate a core layer decoded signal Dc (n) of the nth frame.
  • enhancement layer decoding section 206 performs the previous layer, that is, the (n-1) th frame core layer code data Ec (n-1) and the core layer decoded signal Dc (n-1) And the enhancement layer code key data Ee (n-l) and the enhancement layer decoded signal De (n-l) are used to perform error compensation processing and decoding processing, and the enhancement layer decoding of the nth frame Generate signal De (n).
  • FIG. 6 is a diagram for explaining the decoding process in scalable decoding apparatus 200.
  • the data that is basically the same as the data shown in FIG. 3 is used, the encoded data received by the scalable decoding device 200 is added, and the frames lost due to packet loss are shown separately.
  • the ninth line shows the core layer encoded data received by the scalable decoding apparatus 200
  • the tenth line shows the enhancement layer encoded data received by the scalable decoding apparatus 200.
  • an example in which the code data of the (m ⁇ 3) -th frame and the m-th frame is lost is shown.
  • the decoding process procedure in the core layer decoding unit 205 and enhancement layer decoding unit 206 is as follows.
  • scalable decoding apparatus 200 When scalable decoding apparatus 200 receives the code data of the (m ⁇ 4) th frame or the (m ⁇ 2) th frame, the decoding process is performed in the sequence of ST5001, ST5002, ST5003, and ST5004.
  • scalable decoding apparatus 200 When scalable decoding apparatus 200 receives encoded data of the (m ⁇ 1) th frame, error compensation processing and decoding processing are performed according to the procedures of ST5001, ST5002, ST5003, and ST5005.
  • scalable decoding apparatus 200 When scalable decoding apparatus 200 receives the encoded data of the (m ⁇ 3) th frame, it performs error compensation processing and decoding processing according to the procedures of ST5001, ST5006, ST5009, and ST5010. Do it.
  • scalable decoding apparatus 200 When scalable decoding apparatus 200 receives m-th frame code data, it performs error compensation processing and decoding processing according to the procedures of ST 5001, ST5006, ST5007, and ST5008.
  • scalable coding apparatus 100 needs to transmit a backup of core layer code data for each frame in advance to scalable decoding apparatus 200.
  • the enhancement layer encoded data that is one frame before (previous frame) before the current frame (current frame) is encoded with the core layer encoded data. Replace.
  • scalable coding apparatus 100 replaces the enhancement layer code data of the past frame with the core layer code data and transmits the result to scalable decoding apparatus 200. Therefore, when the scalable decoding apparatus 200 cannot receive the code data of the current frame due to the packet loss, the scalable decoding apparatus 200 performs decoding using the core layer code data of the current frame received in the past frame decoding process. Since the processing can be performed, it is possible to suppress the quality degradation of the decoded signal without increasing the bit rate.
  • scalable coding apparatus 100 performs enhancement layer coded data for a frame that is determined not to be transmitted in advance to scalable decoding apparatus 200 as a backup of core layer coded data of a future frame.
  • the (current frame data) is transmitted as it is to the scalable decoding apparatus 200 without being replaced with the core layer encoded data (future frame data) after one frame. Therefore, the scalable decoding device 200 can improve the quality of the decoded signal because the core layerer can also perform the decoding process up to the extension layer using the code data of the current frame when packet loss does not occur. It can be made.
  • the replacement determination unit 103 determines that the replacement of the sign key data is performed if one of the determination conditions of ST2002 or ST2004 is satisfied. Force in the example It may be determined that the replacement of the sign data is performed only when these two conditions are satisfied at the same time.
  • replacement determination section 103 in order to determine whether or not the decoding side is capable of performing error compensation with quality of a predetermined level or higher using encoded data of past frames, replacement determination section 103 has In the example, it is determined whether the degree of change of the input audio signal is greater than or equal to a predetermined value (ST2002). However, assuming that the replacement determination unit 103 lost the frame due to packet loss, The determination may be made by performing error compensation processing and decoding processing using the above-described code key data.
  • the process proceeds to ST2006 and is not equal to or greater than the predetermined value. In this case, the process proceeds to ST2 005.
  • the code when only the core layer code processing is performed in ST2003 of the replacement determination process in order to determine the degree of quality improvement of the decoded signal by the enhancement layer encoding process.
  • SNR may be calculated instead of force-coding distortion, which is an example of calculating encoding distortion and encoding distortion when performing up to enhancement layer encoding processing.
  • replacement determination section 103 may determine whether or not the difference between the two SNRs calculated in ST2003 is equal to or less than a predetermined value.
  • the coding distortion when only the core layer coding processing is performed, and the enhancement layer coding
  • the difference between the encoding distortion and the encoding distortion when the processing is performed (ST2003 and ST2004) is used.
  • the scalable encoding device 100 is a device that realizes frequency band scalable, It is also possible to calculate the bias of the signal band, that is, the ratio of the energy of the low-frequency signal to be processed by the core layer coding unit 101 to the energy of the signal in the entire band.
  • permutation determining section 103 uses input speech signal I (m), core layer code key data Ec (m), and enhancement layer code key data Ee (m).
  • I input speech signal
  • Ee enhancement layer code key data
  • the decoded speech signal obtained by core layer coding and enhancement layer coding and the parameters obtained during the coding process are used.
  • a meter may be used, and instead of Ec (m) and Ee (m), a decoded speech signal obtained by core layer coding and enhancement layer coding or a parameter obtained during the coding process may be used.
  • a decoded speech signal obtained by core layer coding and enhancement layer coding or a parameter obtained during the coding process may be used.
  • ST5005 enhancement layer error compensation processing and decoding processing of decoding processing
  • core layer decoded signal Dc (n) enhancement layer decoded signal De (n-1)
  • the decoding parameters obtained in (1) may be used.
  • ST5008, ST5009, and ST5010 may perform error compensation processing and decoding processing using decoding parameters instead of decoded signals.
  • scalable coding apparatus 100 and scalable decoding apparatus 200 adopt a configuration with two hierarchical powers is taken as an example, but the present invention is not limited to this. You may adopt a powerful structure with more than 3 levels.
  • the case where scalable coding apparatus 100 transmits, to the decoding side, code data that is delayed by one frame compared to the input speech signal is taken as an example.
  • the coded data delayed by two frames or more may be transmitted to the decoding side. That is, the enhancement layer code key data may be replaced with the core layer code key data of two or more frames later.
  • bursty packet loss occurs, and error compensation processing and decoding processing can be performed with a quality of a predetermined level or higher even if two or more frames are continuously lost.
  • the number of bits of coarrayer encoded data Ec (m) generated by scalable encoder 100 and the number of bits of enhancement layer encoded data Ee (m-1) For example, if the number of bits of the enhancement layer code data Ee (m-1) is greater than the number of bits of the core layer code data Ec (m), then Ee (m-1) You can replace a part of with Ec (m). In such a case, the remaining part of Ee (m ⁇ 1) that has not been replaced may or may not be used for the decoding process of scalable decoding apparatus 200.
  • FIG. 7 is a block diagram showing the main configuration of scalable coding apparatus 300 according to Embodiment 2 of the present invention.
  • the scalable coding apparatus 300 has the same basic configuration as the scalable coding apparatus 100 (see FIG. 1) according to Embodiment 1, and the same components are denoted by the same reference numerals. The description is omitted.
  • the scalable coding apparatus 300 is different from the scalable coding apparatus 100 in that it further includes an extraction unit 309.
  • the replacement unit 305 of the scalable coding apparatus 300 and the replacement unit 105 of the scalable coding apparatus 100 are different in part of the processing, and different symbols are attached to indicate this.
  • Extraction section 309 has a large contribution to the code quality from Ec (m) input from core layer code section 101, and extracts the extracted core layer code data Eca (m ) Is generated.
  • Ec Code Excited Linear Prediction
  • LPC Linear Prediction Coefficient
  • replacement unit 305 When the value of replacement determination flag flag (m-1) input from replacement determination unit 103 is 0, replacement unit 305 extends Ee (m-1) input from delay unit 104 as it is. Output to layer multiplexing section 107.
  • flag (m—1) when flag (m—1) is 1, the replacement unit 305 extracts part of Ee (m—1) input from the delay unit 104 and extracts core layer code data Eca input from the extraction unit 309. Replace with (m) and output to enhancement layer multiplexing section 107.
  • FIG. 8 shows that the scalable coding apparatus 300 has a portion of the enhancement layer encoded data Ee (m-1) of the (m-1) th frame extracted core layer encoded data Eca ( FIG. 10 is a diagram for explaining a process replaced with m).
  • the frame length is 20 ms
  • the bit rate of the core layer encoded data is 8 kbps (160-bit Z frame)
  • the bit rate of the enhancement layer encoded data is kbps (80-bit Z frame).
  • the extraction unit 309 also extracts the extracted core layer code key data Eca (m) from the 160-bit Ec (m) internal force. That is, in the case of the CELP encoding method, LPC parameters, adaptive codebook lag, and gain are extracted from Ec (m).
  • the replacement unit 305 extracts a part of the enhancement layer code key data Ee (m-1) that contributes greatly to the coding quality, that is, extraction. Align enhancement layer code key data Eea (m—1) with lkbps (20-bit Z frame) To extract.
  • the 20 bits of Eea (m—1) (per frame) are 80 bits of Ee (m—1) (per frame) and 60 bits of Eca (m) (per frame). )
  • the replacement unit 305 replaces parts other than Eea (m-1) in Ee (m-1) with Eca (m).
  • the data output from the replacement unit 305 to the enhancement layer multiplexing unit 107 is a set of Ee a (m ⁇ l) and Eca (m).
  • the extraction method of Eea (m ⁇ 1) in replacement unit 305 is the same as the extraction method of Eca (m) in extraction unit 309.
  • the enhancement layer code data of the (m ⁇ 1) th frame is replaced using the entire core layer encoded data of the mth frame.
  • a part of the enhancement layer encoded data Ee (m ⁇ 1) of the (m ⁇ 1) th frame is replaced with a part of the core layer encoded data Ec (m) of the mth frame.
  • FIG. 9 is a block diagram showing the main configuration of scalable decoding apparatus 400 according to the present embodiment.
  • Scalable decoding apparatus 400 has the same basic configuration as scalable decoding apparatus 200 (see FIG. 4) according to Embodiment 1, and the same components are denoted by the same reference numerals. Description is omitted.
  • Switching unit 403, core layer decoding unit 405, and enhancement layer decoding unit 406 of scalable decoding device 400 are part of the processing of switching unit 203, core layer decoding unit 205, and enhancement layer decoding unit 206 of scalable decoding device 200, respectively. There are differences, and different symbols are used to indicate them.
  • Switching section 403 based on the value of replacement determination flag flag (n) input from enhancement layer demultiplexing section 202, enhances layer code key data Ee (input from enhancement layer demultiplexing section 202) n) Determine whether the contents are Ee (n) itself, or whether it is a set of extracted enhancement layer encoded data Eea (n) and extracted core layer encoded data Eca (n + 1) of the next frame. Switch the output destination. Specifically, when replacement determination flag flag (n) is 1, switching section 403 outputs Eca (n + 1) to delay section 204 and outputs Eea (n) to enhancement layer decoding section 406. . On the other hand, when replacement determination flag flag (n) is 0, switching section 403 outputs enhancement layer encoded data Ee (n) to enhancement layer decoding section 406.
  • Core layer decoding section 405, enhancement layer decoding section 406, and scalable decoding apparatus 200 Differences in processing between the core layer decoding unit 205 and the enhancement layer decoding unit 206 will be described with reference to the flowchart of FIG.
  • FIG. 10 is a flowchart showing the procedures of error compensation processing and decoding processing in core layer decoding section 405 and enhancement layer decoding section 406. This figure has basically the same steps as those in the flowchart (FIG. 5) for explaining error compensation processing and decoding processing in core layer decoding section 205 and enhancement layer decoding section 206 according to Embodiment 1. The same step is denoted by the same reference numeral, and the description thereof is omitted. In FIG. 10, the steps different from FIG. 5 are ST9005 and ST9007.
  • the portion of Eea (n) that is not the whole of the enhancement layer code data E e (n) of the nth frame is replaced with the core layer encoded data of the next frame.
  • the enhancement layer decoding section 406 performs enhancement layer decoding processing using Eea (n) and generates an enhancement layer decoded signal De (n).
  • core layer decoding section 405 performs core layer decoding processing using extracted core layer encoded data Eca (n) received in the decoding processing one frame before, and outputs core layer decoded signal Dc (n). Generate.
  • the enhancement layer code data which is not the entire enhancement layer code data, is encoded on the code key side in the core layer code data of the next frame. It is possible to perform enhancement layer decoding using the data of the strong part of the enhancement layer code key data that is not replaced on the decoding side, by replacing it with the data limited to the part that greatly contributes to the key quality. it can. Therefore, the quality of the decoded signal can be improved.
  • the core layer code key data used for the replacement is limited to the part where the contribution to the code key quality is large, this implementation is also performed when the bit rate of the core layer code key is larger than the enhancement layer code key. By applying this form, it is possible to suppress degradation of the decoded signal.
  • enhancement layer decoding section 406 uses force Eea (n) as an example of performing enhancement layer decoding processing using Eea (n).
  • decoding processing may be performed using the enhancement layer code key data Ee (n-1) and the enhancement layer decoded signal De (n-1) of the (n-1) th frame!
  • the extraction unit 309 uses the same extraction method for all frames as an example.
  • the force is used by using a different extraction method adapted to each frame.
  • Information regarding the extraction method may be separately transmitted to the scalable decoding device 400. Thereby, quality degradation of the decoded signal generated in scalable decoding apparatus 400 can be further suppressed.
  • the enhancement layer code key data of the current frame is replaced with the core layer copy data of the next frame (or subsequent frames) on the code key side. Therefore, one extra frame (or more than one frame) will be delayed on the sign side.
  • the code layer side replaces the enhancement layer code key data of the current frame with the core layer copy data of the previous frame.
  • FIG. 11 is a block diagram showing the main configuration of scalable coding apparatus 500 according to Embodiment 3 of the present invention.
  • the scalable coding apparatus 500 partially has the same configuration as the scalable coding apparatus 300 shown in Embodiment 2 (see FIG. 7), and the same components have the same reference numerals. The description is omitted.
  • scalable coding apparatus 500 When scalable coding apparatus 500 is compared with scalable coding apparatus 300, delay sections 104 and 106 are deleted, and delay section 501 is added instead. This will be described in detail below.
  • Core layer encoded data Ec (m) of the m-th frame which is the output of core layer encoding section 101, is directly output to transmitting section 108.
  • the m-th frame enhancement layer code key data Ee (m) which is the output of the enhancement layer code key unit 102, is directly output to the replacement unit 502.
  • the extracted core layer code key data Eca (m) which is the output of the extraction unit 309, is the delay unit 5 This is delayed by one frame through 01 and output to the replacement unit 502 as the extracted core layer code data Eca (m-1) of the m-1st frame.
  • Replacement determining section 503 receives, in replacement section 502, an input speech signal, core layer code key data input from core layer code key section 101, and enhancement layer code input from enhancement layer code key section 102. Whether or not a part of the enhancement layer encoded data E e (m) of the mth frame is replaced with a part of the core layer encoded data Ec (m ⁇ 1) of the m ⁇ 1st frame The replacement determination process is performed. Specifically, when the m ⁇ 1th frame code data is lost, the replacement determination unit 503 uses the code data of the past frame as a result of the decoding side decoding the decoded signal of the m ⁇ lth frame.
  • the replacement determination unit 503 determines to perform the replacement.
  • Replacement determination section 503 outputs replacement determination flag flag (m) indicating the determination result of the m-th frame to replacement section 502 and enhancement layer multiplexing section 107.
  • replacement determination flag flag (m) When the value of replacement determination flag flag (m) input from replacement determination section 503 is 0, that is, when it is determined that there is no replacement, replacement section 502 uses Ee (m) as it is for the enhancement layer multiplexing. To the conversion unit 107. On the other hand, when flag (m) is 1, that is, when it is determined that there is a replacement, replacement unit 502 replaces a part of Ee (m) with extracted core layer code key data Eca (m-1). And output to enhancement layer multiplexing section 107.
  • Replacement determination flag flag (m) and enhancement layer code key data Ee (m) are multiplexed in enhancement layer multiplexing section 107 and transmitted to the decoding side via transmission section 108.
  • scalable coding apparatus 500 performs delay after extraction by extraction unit 309 from core layer code key data Ec (m) when replacement determination flag flag (m) is 1.
  • the replacement unit 502 extracts a part of the data described as a configuration in which a part of the enhancement layer code data Ee (m) is replaced. It is also possible to replace part or all of Ee (m) with data Ec (m-1) obtained by delaying the entire core layer encoded data Ec (m) by one frame!
  • enhancement layer coding section 102 when replacement determination flag flag (m) is 1, enhancement layer coding section 102
  • a part of the enhancement layer encoded data Ee (m) encoded in this way is replaced with the extracted core layer encoded data Eca (m-1) in the replacement unit 502, but the replacement determination flag f lag
  • the enhancement layer code key unit 102 has a code smaller by the number of bits corresponding to the extracted core layer code key data Eca (m—1) than when flag (m) is 0.
  • the enhancement layer coding is performed with the number of bits, and the resulting enhancement layer coding data Eep (m) and the extracted core layer coding data Eca (m—1) are added to the enhancement layer multiplexing unit 107. You may make it output to.
  • scalable decoding apparatus 600 according to the present embodiment corresponding to scalable coding apparatus 500 will be described.
  • FIG. 12 is a block diagram showing the main configuration of scalable decoding apparatus 600.
  • the same components as those of scalable decoding apparatus 400 (see FIG. 9) shown in the second embodiment are denoted by the same reference numerals, and the description thereof is omitted.
  • switching section 403a uses enhancement layer code key data Ee (input from enhancement layer demultiplexing section 202) n) Determine whether the content is Ee (n) itself, or whether it is a set of extracted enhancement layer encoded data Eea (n) and extracted core layer encoded data Eca (n—1) of the previous frame. , Switch the output destination. Specifically, when the replacement determination flag flag (n) is 1, the switching unit 403a changes the set of Eea (n) and Eca (n-1) to the previous frame core layer decoding unit 601 and the enhancement layer decoding. Output to part 406.
  • Ee enhancement layer code key data
  • Core layer decoding section 405 switches the processing based on the packet loss flag. If there is no packet loss in the nth frame, core layer decoding section 405 performs the decoding processing using core layer code key data Ec (n). Do. On the other hand, when packet loss occurs in the nth frame, error compensation processing is performed using previously received core layer code data, and a core layer decoded signal Dc (n) is generated.
  • the previous frame core layer decoding unit 601 uses both the packet loss flag and the substitution determination flag flag (n) to cause a packet loss in the n-th frame and to deal with the code data. It is determined whether or not the partial replacement has been performed, and if the condition is satisfied, the extracted core layer encoded data Eca (n—1) of the n ⁇ 1st frame input from the switching unit 403a, the core layer Using the core layer code data of the nth frame input from the decoding unit 405 and the core layer code data before the nth frame input from the core layer decoding unit 405, the n ⁇ 1th frame is used. A core layer decoded signal Dc_r (n— 1) of the frame is generated.
  • Delay section 602 delays n-th frame core layer decoded signal Dc (n) output from core layer decoding section 405 by one frame to obtain decoded signal Dc (n-1) of n-1st frame. This is output to the selection unit 603.
  • the selection unit 603 When the core layer decoded signal Dc-r (n-1) is output from the previous frame core layer decoding unit 601, the selection unit 603 outputs this signal as a core layer decoded signal.
  • the core layer decoded signal Dc (n ⁇ 1) is output from the delay unit 602, it is output as a decoded signal.
  • Enhancement layer decoding section 406 switches the processing based on the packet loss flag, and performs normal decoding processing when there is no packet entry, and outputs enhancement layer decoded signal De (n).
  • packet loss occurs, error compensation is performed using enhancement layer code key data received in the past and compensation data generated by the core layer decoding unit 405.
  • the normal decoding process is more specifically performed by the enhancement layer code key data Ee (n) or the extracted enhancement layer coded data Eea (n) input from the switching unit 403a or the enhancement layer demultiplexing unit 202.
  • permutation determination flag flag (n) core layer code data Ec (n) input from core layer decoding section 405, and core layer decoded signal Dc (n) input from core layer decoding section 405 Decryption processing is performed. [0106] Based on the packet loss flag and replacement determination flag flag (n), the previous frame enhancement layer decoding unit 604 generates a packet loss in the (n-1) th frame and performs partial replacement in the encoded data.
  • the enhancement layer error compensation is performed to A layer decoded signal De_r (n— 1) is generated.
  • Delay section 605 delays n-th frame enhancement layer decoded signal De (n) output from enhancement layer decoding section 406 by one frame, and outputs an (n-1) th frame decoded signal De (n-1). Then, this is output to the selection unit 606.
  • the selection unit 606 When the enhancement layer decoded signal De-r (n-1) is output from the previous frame enhancement layer decoding unit 604, the selection unit 606 outputs this signal as the enhancement layer decoded signal; In this case, that is, when enhancement layer decoded signal De (n ⁇ 1) is output from delay section 605, this is output as a decoded signal.
  • FIG. 13 is a flowchart showing a series of procedures for the decoding process of scalable decoding apparatus 600 according to the present embodiment.
  • scalable decoding apparatus 600 determines in core layer decoding section 405 and enhancement layer decoding section 406 whether or not the nth frame code data has been lost based on the packet loss flag (ST3010).
  • the core layer decoding unit 405 receives! /, And the core layer encoded data Ec (n-1) of the (n-1) th frame Then, error compensation processing and decoding processing using core layer decoded signal Dc (n-1) are performed, and core layer decoded signal Dc (n) of the nth frame is generated (ST3020).
  • the enhancement layer decoding unit 406 performs the (n ⁇ 1) th frame core layer encoded data Ec (n ⁇ 1), the core layer decoded signal Dc (n ⁇ 1), the enhancement layer encoded data Ee (n ⁇ 1), Then, error compensation processing and decoding processing using enhancement layer decoded signal De (n ⁇ 1) are performed, and enhancement layer decoded signal De (n) of the nth frame is generated (ST3030).
  • the n ⁇ 1th frame enhancement layer decoded signal De (n ⁇ 1) that has passed through is output (ST3040).
  • scalable decoding apparatus 600 uses core layer encoded data Ec (n) of nth frame in core layer decoding section 405.
  • the core layer decoding process used is performed to generate a core layer decoded signal Dc (n) of the nth frame (ST3050).
  • enhancement layer decoding section 406 uses enhancement layer code key data Ee (n) of the nth frame. An enhancement layer decoding process is performed, and an enhancement layer decoded signal De (n) of the nth frame is generated (ST3070).
  • One frame of the enhancement layer decoded signal De (n-1) is output (ST3080).
  • enhancement layer decoding section 406 performs extraction enhancement layer code key data Eea (n ) Is performed, and the enhancement layer decoded signal De (n) of the nth frame is generated (ST3090).
  • the core layer decoding section 405 When it is determined in ST3100 that there is no loss in the encoded data of the n ⁇ 1st frame, the core layer decoding section 405 generates the coarrayer decoded signal Dc (n ⁇ lth frame that has passed through the delay section 602. n ⁇ 1) and the enhancement layer decoded signal De (n ⁇ 1) of the n 1st frame generated by enhancement layer decoding section 406 and passing through delay section 605 are each output (ST3110).
  • the previous frame core layer decoding unit 601 When it is determined in ST3100 that there is a loss in the sign key data of the n-1st frame
  • the previous frame core layer decoding unit 601 generates the core layer decoded signal Dc_r (n-1) of the n-1st frame using the extracted core layer encoded data Eca (n-1) of the n-1st frame.
  • the previous frame enhancement layer decoding section 604 uses the compensation data generated by the enhancement layer compensation processing of the (n ⁇ 1) th frame of the enhancement layer decoding section 406, and uses the compensation data generated in the ( n ⁇ 1) th frame. (n— 1) is generated.
  • the generated core layer decoded signal D c_r (n ⁇ 1) and enhancement layer decoded signal De_r (n ⁇ 1) are respectively output as decoded signals of the n ⁇ 1th frame via selection sections 603 and 606 (ST3120). ).
  • the decoding state data required in the decoding process of the previous frame core layer decoding unit 601 is input from the core layer decoding unit 405 has been described as an example, but the previous frame core layer decoding unit 601 and the core layer
  • the decryption unit 405 may input / output decryption state data that needs to be used and updated during both decryption processes.
  • both decoding state data may be input / output between the previous frame enhancement layer decoding unit 604 and the enhancement layer decoding unit 406.
  • the present embodiment is optimal for the case described below. That is, when the CELP code key is used as the core layer coding and the MDCT with a transform length twice as long as the code frame is used as the transform coding, in the scalable decoding device, compared with the core layer decoding process.
  • the enhancement layer decoding process an extra frame is delayed.
  • the delay power of the algorithm required for the code layer Z decoding process of the enhancement layer is necessarily larger than the delay of the algorithm required for the code layer Z decoding process of the core layer.
  • the extra delay on the decoding side is kept within the range of the delay of one frame caused by the algorithm originally required in the enhancement layer decoding process.
  • the enhancement layer decoding unit 406 of the scalable decoding device 600 has the n ⁇ 1th frame of the enhancement layer decoded signal De (n— delayed by one frame as a result of the decoding process of the nth frame. 1) will always be generated and output. Therefore, the delay unit 605 described in this embodiment is not necessary in the above case.
  • this embodiment uses CELP code encoding as core layer encoding, and uses the enhancement layer encoding Z decoding as in the case where transform code encoding is used as the encoding of the extension layer.
  • Delay power of the algorithm required for processing It is optimal when the delay time of the algorithm required for the core layer code decoding process is larger.
  • the scalable coding apparatus, the scalable decoding apparatus, and the methods according to the present invention are not limited to the above-described embodiments, and can be implemented with various modifications.
  • the scalable encoding device and the scalable decoding device according to the present invention can be mounted on a communication terminal device and a base station device in a mobile communication system, thereby having the same effects as described above.
  • a communication terminal device, a base station device, and a mobile communication system can be provided.
  • the present invention can be implemented with software.
  • the algorithm of the scalable coding method and the scalable decoding method according to the present invention is described in a programming language, the program is stored in a memory, and is executed by an information processing means. Functions similar to those of the scalable coding apparatus and the scalable decoding apparatus can be realized.
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include some or all of them.
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. It is also possible to use a field programmable gate array (FPGA) that can be programmed after LSI manufacturing, or a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI.
  • FPGA field programmable gate array
  • the scalable coding apparatus, the scalable decoding apparatus, and these methods according to the present invention can be applied to uses such as speech coding.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 ビットレートを増加させることなく、復号信号の品質劣化を抑えることができるスケーラブル符号化装置等を開示する。この装置において、コアレイヤ符号化部(101)と拡張レイヤ符号化部(102)とは、音声フレーム単位で入力信号に対して符号化を行う。過去のフレームから現フレームの入力信号の変化度合いが所定値以上であるか、または過去のフレームにおいて拡張レイヤ符号化処理による復号信号の品質改善度合いが所定レベル以下であると置換判定部(103)が判定する場合、置換部(105)は、現フレームのコアレイヤ符号化データで過去のフレームの拡張レイヤ符号化データの一部を置換する。即ち、送信部(108)は、現フレームのコアレイヤ符号化データをバックアップとして、前もって復号側に伝送する。

Description

明 細 書
スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法 技術分野
[0001] 本発明は、スケーラブル符号ィ匕装置、スケーラブル復号装置、およびこれらの方法 に関する。
背景技術
[0002] IPネットワーク上での音声データ通信において、ネットワーク上のトラフィック制御や マルチキャスト通信実現のために、スケーラブルな構成を有する音声符号ィ匕が望ま れている。スケーラブルな構成とは、受信側で部分的な符号化データからでも音声デ 一タの復号が可能な構成を 、う。
[0003] スケーラブル符号ィ匕においては、送信側で入力音声信号に対しての階層的な符号 ィ匕により、コアレイヤを含む低位レイヤ(lower layer)力ら拡張レイヤを含む高位レイヤ (higher layer)まで複数に階層化された符号化データを伝送する。受信側では低位 レイヤ力も任意の階層までの符号ィ匕データを用いて復号を行うことができる(例えば、 非特許文献 1参照)。
[0004] なお、 IPネットワーク上でのパケットロスに対する制御として、高位レイヤよりもコアレ ィャを含む低位レイヤの符号ィ匕データの損失率を抑えることによって、パケットロスへ の耐性を高めることができる。
[0005] それでもコアレイヤを含む低位レイヤの符号ィ匕データが損失することを避けられな い場合は、過去に受信した符号ィ匕データを用いて誤り補償を行うことができる (例え ば、非特許文献 2参照)。つまり、入力音声信号に対しフレーム単位でスケーラブル 符号ィ匕を行って得られた階層化符号ィ匕データの内、コアレイヤを含む低位レイヤの 符号ィ匕データがパケットロスにより損失され受信できな力つた場合、受信側は過去に 受信した過去のフレームの符号ィ匕データを用いて誤り補償を行い、復号を行うことが できる。従って、パケットロスが発生した場合の復号信号の品質劣化をある程度抑え ることがでさる。
非特許文献 l : ISO/IEC 14496-3:2001(E) Prt- 3 Audio(MPEG- 4) Subpart- 3 Speech Coding(CELP)
非特許文献 2 : ISO/IEC 14496-3:2001(E) Prt- 3 Audio(MPEG- 4) Subpart- 1 Main An nexl .B(Informative) Error Protection tool
発明の開示
発明が解決しょうとする課題
[0006] し力しながら、例えば音声信号の立ち上がり部のような変化が大きい音声信号のコ ァレイヤ符号化データを損失した場合は、上記のように過去のフレームの符号ィ匕デ ータを用いて誤り補償を行っても、その補償の精度が著しく低下し、受信側の復号音 声の品質は劣化してしまうという問題がある。
[0007] 本発明の目的は、コアレイヤ符号化データを損失し、過去のフレームの符号ィ匕デ ータを用いる方法では精度良く誤り補償を行うことができない場合でも、復号信号の 品質劣化を抑えることができるスケーラブル符号ィ匕装置、スケーラブル復号装置、お よびこれらの方法を提供することである。
課題を解決するための手段
[0008] 本発明のスケーラブル符号ィ匕装置は、少なくとも低位レイヤと高位レイヤとからなる スケーラブル符号ィ匕装置であって、前記低位レイヤにおける符号ィ匕を行って低位レ ィャ符号化データを生成する低位レイヤ符号化手段と、前記高位レイヤにおける符 号ィ匕を行って高位レイヤ符号ィ匕データを生成する高位レイヤ符号ィ匕手段と、前記低 位レイヤ符号化データの複製データを生成する複製手段と、前記高位レイヤ符号化 データの一部を前記複製データで置換する置換手段と、を具備する構成を採る。
[0009] 本発明のスケーラブル復号装置は、少なくとも低位レイヤと高位レイヤとからなるス ケーラブル復号装置であって、高位レイヤ符号ィ匕データ力も低位レイヤ符号ィ匕デ一 タの複製データを分離する分離手段と、フレーム損失を検出する検出手段と、フレー ム損失を検出した場合、前記複製データを復号して第 1復号データを生成する低位 レイヤ復号手段と、フレーム損失を検出した場合、前記第 1復号データを用いて損失 フレームの補償を行い、第 2復号データを生成する高位レイヤ復号手段と、を具備す る構成を採る。 発明の効果
[0010] 本発明によれば、ビットレートを増加させることなく誤り補償を行って、復号信号の品 質劣化を抑えることができる。
図面の簡単な説明
[0011] [図 1]実施の形態 1に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 2]実施の形態 1に係る置換判定部の置換判定処理の手順を示すフロー図
[図 3]拡張レイヤ符号ィ匕データ力 コアレイヤ符号ィ匕データへの置換の詳細を説明す る為の図
[図 4]実施の形態 1に係るスケーラブル復号装置の主要な構成を示すブロック図 [図 5]実施の形態 1に係るコアレイヤ復号部および拡張レイヤ復号部における誤り補 償処理および復号処理の手順を示すフロー図
[図 6]実施の形態 1に係る復号処理を説明する為の図
[図 7]実施の形態 2に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 8]拡張レイヤ符号ィ匕データの一部が抽出コアレイヤ符号ィ匕データへと置換される 処理について説明する為の図
[図 9]実施の形態 2に係るスケーラブル復号装置の主要な構成を示すブロック図 [図 10]実施の形態 2に係るコアレイヤ復号部および拡張レイヤ復号部における誤り補 償処理および復号処理の手順を示すフロー図
[図 11]実施の形態 3に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 12]実施の形態 3に係るスケーラブル復号装置の主要な構成を示すブロック図 [図 13]実施の形態 3に係る復号処理の一連の手順を示すフロー図
発明を実施するための最良の形態
[0012] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
[0013] (実施の形態 1)
図 1は、本発明の実施の形態 1に係るスケーラブル符号ィ匕装置 100の主要な構成 を示すブロック図である。スケーラブル符号ィ匕装置 100は、コアレイヤと拡張レイヤと の 2階層からなる構成を採り、入力される音声信号に対して音声フレームの単位でス ケーラブル符号化処理を行う。以下、スケーラブル符号ィ匕装置 100に第 mフレーム( mは整数)の音声信号 I (m)が入力される場合を例にとって説明する。
[0014] コアレイヤ符号ィ匕部 101は、入力音声信号のコア成分となる信号に対して符号ィ匕 処理を行い、コアレイヤ符号化データを生成する。コア成分となる信号とは、例えば、 入力音声信号が 7kHz帯域幅を有する広帯域音声信号で、帯域スケーラブル符号 化の場合、この広帯域信号力も帯域制限によって生成される電話帯域 (3. 4kHz)幅 の信号をいう。復号側では、このコアレイヤ符号ィ匕データだけを用いて復号を行って も、ある程度の復号信号の品質を保証することができる。コアレイヤ符号ィ匕部 101は、 入力音声信号 I (m)を用いてコアレイヤ符号ィ匕処理を行 、、第 mフレームのコアレイ ャ符号化データ Ec (m)を生成する。生成される Ec (m)は、遅延部 106に入力される と共に、置換部 105にも入力される。即ち、置換部 105に入力されるデータは遅延部 106に入力されるデータの複製データとなっている。なお、コアレイヤ符号ィ匕部 101 は、入力音声信号そのものに対して符号ィ匕処理を行うことによりコアレイヤ符号ィ匕デ ータを生成する構成としても良 ヽ。
[0015] 拡張レイヤ符号ィ匕部 102は、コアレイヤ符号ィ匕部 101から入力される Ec (m)を局 部復号して復号信号を得、この復号信号と入力音声信号とを比較することにより、入 力音声信号のうち Ec (m)で表現しきれて 、な 、残りの信号成分 (例えば、コアレイヤ での符号化誤差信号成分、帯域スケーラブル符号化の場合はコアレイヤで符号化さ れなかった高帯域信号成分等)を把握し、この成分に対して符号化処理を行い、拡 張レイヤ符号化データを生成する。復号側では、コアレイヤ符号化データに加え、拡 張レイヤ符号ィ匕データを用いて復号を行うことによって、復号信号の品質を向上させ ることができる。拡張レイヤ符号ィ匕部 102は入力音声信号 I (m)とコアレイヤ符号ィ匕部 101から入力される Ec (m)とを用いて、第 mフレームの拡張レイヤ符号化データ Ee ( m)を生成する。
[0016] 置換判定部 103は、置換部 105において、入力音声信号 I (m)、コアレイヤ符号ィ匕 部 101から入力される Ec (m)、および拡張レイヤ符号ィ匕部 102から入力される Ee (m )を用いて、第 (m— 1)フレームの拡張レイヤ符号化データ Ee (m- 1)を第 mフレー ムのコアレイヤ符号ィ匕データ Ec (m)で置換する力否かの置換判定処理を行う。置換 判定部 103は、この判定結果を示す置換判定フラグ flag (m- 1)を置換部 105およ び拡張レイヤ多重化部 107へ出力する。
[0017] 遅延部 104は、拡張レイヤ符号ィ匕部 102から第 mフレームの拡張レイヤ符号ィ匕デ ータ Ee (m)が入力され、第 (m— 1)フレームの拡張レイヤ符号化データ Ee (m— 1) を出力する。即ち、遅延部 104が出力する Ee (m— 1)は、 1フレーム前の符号化処 理において拡張レイヤ符号ィ匕部 102から入力された第 (m— 1)フレームの拡張レイ ャ符号化データ Ee (m— 1)を 1フレーム遅延させ、第 mフレームの符号化処理にお いて出力したものである。
[0018] 置換部 105は、置換判定部 103から入力される置換判定フラグ flag (m—1)の値に 基づき置換処理を行う。即ち、 flag (m—1)が 0である場合は、遅延部 104から入力さ れる Ee (m—1)をそのまま拡張レイヤ多重化部 107に出力する。一方、 flag (m—1) 力 Siである場合、置換部 105は遅延部 104力も入力される Ee (m—1)の中身をコアレ ィャ符号ィ匕部 101から入力される Ec (m)で置換して、拡張レイヤ多重化部 107に出 力する。
[0019] 遅延部 106は、コアレイヤ符号ィ匕部 101から入力される Ec (m)が入力され、 Ec (m —1)を出力する。即ち、遅延部 106が出力する Ec (m—1)は 1フレーム前の符号ィ匕 処理においてコアレイヤ符号ィ匕部 101から入力された第 (m— 1)フレームのコアレイ ャ符号化データ Ec (m— 1)を 1フレーム遅延させ、第 mフレームの符号化処理にお いて出力したものである。
[0020] 拡張レイヤ多重化部 107は、置換判定部 103から入力される置換判定フラグ flag ( m—1)、および置換部 105から入力される拡張レイヤ符号ィ匕データ Ee (m—1)に対 して多重化処理を行う。
[0021] 送信部 108は、遅延部 106から入力されるコアレイヤ符号ィ匕データ Ec (m—1)、拡 張レイヤ多重化部 107から入力される拡張レイヤ符号ィ匕データ Ee (m— 1)、および 置換判定フラグ flag (m- 1)を多重化してスケーラブル復号装置 200 (図 4参照)に 送信する。
[0022] 上記のようにスケーラブル符号ィ匕装置 100は、入力音声信号 I (m)に比べて 1フレ ーム遅延された第 (m— 1)フレームのコアレイヤ符号ィ匕データ Ec (m— 1)および拡 張レイヤ符号化データ Ee (m- 1)をスケーラブル復号装置 200に送信する。なお、 拡張レイヤ符号化データ Ee (m— 1)の中身は第 (m— 1)フレームの拡張レイヤ符号 化データ Ee (m— 1)そのものである力 或!、は第 mフレームのコアレイヤ符号化デー タ Ec (m)である。即ち、第 (m—l)フレームを現フレームとする場合、第 mフレームは 未来のフレームとなり、スケーラブル符号ィ匕装置 100は現フレームの拡張レイヤ符号 化データを未来のフレームのコアレイヤ符号ィ匕データの複製データで置換して、スケ 一ラブル復号装置 200に伝送する。言い換えると、第 mフレームを現フレームとする 場合、第 (m—l)フレームは過去のフレームとなり、スケーラブル符号ィ匕装置 100は 現フレームのコアレイヤ符号化データの複製データで過去のフレームの拡張レイヤ 符号ィ匕データを置換して、スケーラブル復号装置 200に伝送する。
[0023] 図 2は、置換判定部 103の置換判定処理の手順を示すフロー図である。
[0024] ステップ(以下、「ST」と省略する) 2001において、置換判定部 103は入力音声信 号に対して分析を行って、入力音声信号のパワー、ピッチ分析パラメータ (ピッチ周 期、ピッチ予測ゲイン)、 LPCスペクトルなどの特性パラメータの変化度合いを算出す る。例えばフレーム単位で、入力音声信号のパワーと過去のフレームの入力音声信 号のパワーとの差を算出し、入力音声信号の変化度合いを表すパラメータとする。
[0025] ST2002において置換判定部 103は、 ST2001において算出された入力音声信 号の変化度合いが所定値以上である力否かを判定する。音声信号の立ち上がり部、 無声非定常子音部など非定常信号における、過去のフレーム力 の信号の変化が 大きいフレームを損失した場合、復号側は過去のフレームの符号化データを用いて 所定レベル以上の品質で誤り補償を行うことができない。従って、入力音声信号の変 化度合いが所定値以上である場合 (ST2002 : YES)は、復号側が過去のフレーム の符号ィ匕データを用いて所定レベル以上の品質で誤り補償を行うことができないと判 定し、置換判定部 103は ST2006の処理に進む。一方、入力音声信号の変化度合 いが所定値以上でない場合(ST2002 :NO)、置換判定部 103は ST2003の処理 に進む。
[0026] ST2003において、置換判定部 103はコアレイヤ符号化処理のみを行った場合の 符号化歪みと、拡張レイヤ符号化処理まで行った場合の符号化歪みとを算出する。
[0027] ST2004において、置換判定部 103は拡張レイヤ符号ィ匕処理による復号信号の品 質改善度合いが所定レベル以下である力否かを判定する。具体的には、 ST2003に おいて算出された 2つの符号ィ匕歪みの差が所定値以下であれば、拡張レイヤ符号 化処理による復号信号の品質改善度合いが所定レベル以下であると判定する(ST2 004 : YES)。このとき、置換判定部 103は ST2006の処理に進む。一方、拡張レイ ャ符号化処理による復号信号の品質改善度合!ヽが所定レベル以下でな!、場合 (ST 2004 : NO)、置換判定部 103は ST2005の処理に進む。
[0028] ST2005において、置換判定部 103は置換判定フラグ flag (m—1)を「置換なし」 を示す 0に設定する。 ST2006〖こおいて、置換判定部 103は置換判定フラグ flag (m 1)を「置換あり」を示す 1に設定する。
[0029] 上記のように、置換判定部 103は、拡張レイヤ符号ィ匕データ Ee (m— 1)を次フレー ムのコアレイヤ符号ィ匕データ Ec (m)で置換する力否かの判定条件として、第 mフレ ームの符号ィ匕データを損失した場合に、復号側が過去のフレームの符号ィ匕データを 用いて所定レベル以上の品質で誤り補償を行うことができる力否か、または第 (m—1 )フレームの拡張レイヤ符号ィ匕処理による復号信号の品質改善度合 、が所定レベル 以下であるか否かを判断する。
[0030] 図 3は、スケーラブル符号ィ匕装置 100における、拡張レイヤ符号ィ匕データ力もコア レイヤ符号ィ匕データへの置換の詳細を説明する為の図である。ここでは、第 (m—3) 〜第 (m+ 1)フレームの入力音声信号に対する処理を例にとって説明する。
[0031] この図において、 1行目(1段目)はフレーム毎の入力音声信号を示し、 2行目と 3行 目はそれぞれコアレイヤ符号化部 101が生成するコアレイヤ符号化データ、および 拡張レイヤ符号化部 102が生成する拡張レイヤ符号化データを示す。
[0032] 4行目と 5行目はそれぞれ、置換部 105を設けな力 たと仮定する場合の、送信部 108がスケーラブル復号装置 200に伝送するコアレイヤ符号ィ匕データおよび拡張レ ィャ符号化データを示す。図示されるように、送信部 108がスケーラブル復号装置 2 00に伝送する符号化データは、コアレイヤ符号ィ匕部 101および拡張レイヤ符号ィ匕部 102が 1フレーム前の符号ィ匕処理において生成した符号ィ匕データである。
[0033] 6行目は置換判定部 103の判定結果を示す置換判定フラグの値である。 7行目と 8 行目はそれぞれ、置換部 105が置換判定フラグの値に基づき置換処理を行った場 合、送信部 108がスケーラブル復号装置 200に伝送するコアレイヤ符号ィ匕データお よび拡張レイヤ符号化データを示す。図示されるように置換判定フラグ flag (m—l) 力 Siである場合、 Ee (m—i;n¾Ec (m)に置換される。図中の矢印が示すように置換 の結果、第 8行第 2列のデータは第 7行第 3列のデータと同一になり、第 8行第 4列の データは第 7行第 5列のデータと同一になる。即ち、 Ec (m)をバックアップとして前も つて、スケーラブル復号装置 200に伝送する必要があると置換判定部 103が判定す る場合、置換部 105は Ec (m)で Ee (m— 1)を置換する処理を施す。
[0034] 図 4は、スケーラブル復号装置 200の主要な構成を示すブロック図である。スケーラ ブル復号装置 200は、コアレイヤと拡張レイヤの 2階層からなる構成を採る。以下、ス ケーラブル復号装置 200がスケーラブル符号ィ匕装置 100から第 nフレームの符号ィ匕 データを受信し、復号処理を行う場合について説明する。ここで nと mとは「n=m—l 」の関係にあるとする。
[0035] 受信部 201は、スケーラブル符号ィ匕装置 100から、コアレイヤ符号ィ匕データ Ec (n) 、拡張レイヤ符号ィ匕データ Ee (n)、および置換判定フラグ flag (n)が多重化された符 号化データを受信する。
[0036] 拡張レイヤ逆多重化部 202は、受信部 201から入力される、拡張レイヤ符号化デ ータ Ee (n)と置換判定フラグ flag (n)とが多重化されたデータに対し逆多重化処理を 行 ヽ、拡張レイヤ符号化データ Ee (n)と置換判定フラグ flag (n)とを分離する。
[0037] 切替部 203は、拡張レイヤ逆多重化部 202から入力される置換判定フラグ flag (n) の値に基づき、拡張レイヤ逆多重化部 202から入力される拡張レイヤ符号ィ匕データ Ee (n)の中身が Ee (n)そのものである力、それとも次フレームのコアレイヤ符号化デ ータ Ec (n+ 1)であるか判定する。切替部 203はその判定結果に基づき、置換判定 フラグ flag (n)が 1である場合、コアレイヤ符号ィ匕データ Ec (n+ 1)を遅延部 204に出 力し、置換判定フラグ flag (n)が 0である場合、拡張レイヤ符号化データ Ee (n)を拡 張レイヤ復号部 206に出力する。
[0038] 遅延部 204は、切替部 203から第(n+ 1)フレームのコアレイヤ符号化データ Ec (n
+ 1)が入力され、第 nフレームのコアレイヤ符号ィ匕データ Ec (n)を出力する。即ち、 遅延部 204が出力する Ec (n)は、 1フレーム前の復号処理において切替部 203から 入力された第 nフレームのコアレイヤ符号ィ匕データ Ec (n)を、 1フレーム遅延させ、第 (n+ 1)フレームの復号処理において出力したものである。
[0039] コアレイヤ復号部 205は、パケットロス検出部(図示せず)力も入力されるパケット口 スフラグに基づいて、パケットロスがない場合は、受信部 201から入力されるコアレイ ャ符号化データ Ec (n)、および拡張レイヤ逆多重化部 202から入力される置換判定 フラグ flag (n)を用いて復号処理を行い、コアレイヤ復号信号 Dc (n)を生成する。ま た、パケットロスが発生した場合、コアレイヤ復号部 205は、受信部 201から入力され るコアレイヤ符号ィ匕データ Ec (n)の代わりに、遅延部 204から入力されるコアレイヤ 符号ィ匕データ Ec (n)を用いて復号処理を行う。コアレイヤ復号部 205における処理 の詳細については後述する。
[0040] 拡張レイヤ復号部 206は、パケットロス検出部(図示せず)力も入力されるパケット口 スフラグに基づいて、パケットロスがない場合は、切替部 203から入力される拡張レイ ャ符号化データ Ee (n)、拡張レイヤ逆多重化部 202から入力される置換判定フラグ f lag (n)、コアレイヤ復号部 205から入力されるコアレイヤ符号ィ匕データ Ec (n)、およ びコアレイヤ復号部 205から入力されるコアレイヤ復号信号 Dc (n)を用いて復号処 理を行い、拡張レイヤ復号信号 De (n)を出力する。また、パケットロスが発生した場 合、拡張レイヤ復号部 206は、過去に受信した拡張レイヤ符号ィ匕データとコアレイヤ 復号部 205で生成される補償データとを用いて誤り補償を行う。
[0041] 図 5は、コアレイヤ復号部 205および拡張レイヤ復号部 206における誤り補償処理 および復号処理の手順を示すフロー図である。
[0042] ST5001にお!/、て、コアレイヤ復号部 205はパケットロスフラグに基づき、第 nフレ ームの符号ィ匕データを損失したか否かを判定する。フレームを損失しな力つたと判定 する場合(ST5001 :NO)、コアレイヤ復号部 205は ST5002の処理に進み、フレー ムを損失したと判定する場合(ST5001: YES)は ST5006に進む。
[0043] ST5002において、コアレイヤ復号部 205は受信部 201から入力されるコアレイヤ 符号ィ匕データ Ec (n)を用いて、コアレイヤ復号処理を行い、コアレイヤ復号信号 Dc ( n)を生成する。
[0044] ST5003において、拡張レイヤ復号部 206は置換判定フラグ flag (n)が 1であるか 否かを判定する。 ST5003において置換判定フラグ flag (n)の値が 1であると判定す る場合(ST5003 :YES)、拡張レイヤ復号部 206は ST5005の処理に進み、置換判 定フラグ flag (n)の値が 0であると判定する場合(ST5003 :NO)は ST5004に進む
[0045] ST5004において、拡張レイヤ復号部 206は拡張レイヤ符号ィ匕データ Ee (n)を用 Vヽて拡張レイヤ復号処理を行!ヽ、拡張レイヤ復号信号 De (n)を生成する。
[0046] ST5005〖こおいて、拡張レイヤ復号部 206は切替部 203から拡張レイヤ符号化デ ータ Ee (n)が入力されないため、コアレイヤ符号ィ匕データ Ec (n)、コアレイヤ復号信 号 Dc (n)、 1フレーム前の復号処理にぉ 、て受信した第 (n— 1)フレームの拡張レイ ャ符号化データ Ee (n— 1)、および第 (n— 1)フレームの拡張レイヤ復号信号 De (n 1)を用いて、誤り補償処理および復号処理を行い、第 nフレームの拡張レイヤ復 号信号 De (n)を生成する。
[0047] ST5006において、コアレイヤ復号部 205は 1つ前のフレームの置換判定フラグ fla g (n- 1)の値が 1であるか否かを判定する。 flag (n- 1)の値が 1であると判定された 場合(ST5006: YES)は、 1フレーム前の復号処理にぉ 、て受信された第 (n— 1)フ レームの拡張レイヤ符号化データ Ee (n— 1)の中身は第 nフレームのコアレイヤ符号 化データ Ec (n)であることが判定できる。従って、コアレイヤ復号部 205は ST5007 の処理に進む。
[0048] ST5007において、コアレイヤ復号部 205は 1フレーム前の復号処理において受 信した第 nフレームのコアレイヤ符号ィ匕データ Ec (n)を用いてコアレイヤ復号処理を 行い、コアレイヤ復号信号 Dc (n)を生成する。
[0049] ST5008において、拡張レイヤ復号部 206は、コアレイヤ復号信号 Dc (n)と、 1つ 前のフレーム、即ち第 (n— 1)フレームの拡張レイヤ符号ィ匕データ Ee (n— 1)と、拡張 レイヤ復号信号 De (n—1)とを用いて、誤り補償処理および復号処理を行い、第 nフ レームの拡張レイヤ復号信号 De (n)を生成する。
[0050] 一方、 ST5006において flag (n—l)の値力 Oであると判定された場合(ST5006 :
NO)、 1フレーム前の復号処理において受信された、第 (n— 1)フレームの拡張レイ ャ符号化データ Ee (n— 1)の中身は、第 nフレームのコアレイヤ符号化データ Ec (n) ではなく Ee (n- 1)そのものであると判定できるため、コアレイヤ復号部 205は ST50 09の処理に進む。
[0051] ST5009において、コアレイヤ復号部 205は 1つ前のフレーム、即ち第(n—l)フレ ームのコアレイヤ符号ィ匕データ Ec (n- 1)およびコアレイヤ復号信号 Dc (n- 1)を用 いて、誤り補償処理および復号処理を行い、第 nフレームのコアレイヤ復号信号 Dc ( n)を生成する。
[0052] ST5010において、拡張レイヤ復号部 206は 1つ前のフレーム、即ち第(n— 1)フ レームのコアレイヤ符号ィ匕データ Ec (n— 1)と、コアレイヤ復号信号 Dc (n— 1)と、拡 張レイヤ符号ィ匕データ Ee (n—l)と、拡張レイヤ復号信号 De (n—l)とを用いて、誤 り補償処理および復号処理を行 、、第 nフレームの拡張レイヤ復号信号 De (n)を生 成する。
[0053] この図 6は、スケーラブル復号装置 200における復号処理を説明する為の図である 。ここでは、図 3に示したデータと基本的に同一のデータを用い、スケーラブル復号 装置 200が受信する符号化データを追加して示し、パケットロスにより損失したフレー ムを区別して示す点が図 3と相違する。即ち、第 9行目はスケーラブル復号装置 200 が受信するコアレイヤ符号化データを示し、第 10行目はスケーラブル復号装置 200 が受信する拡張レイヤ符号化データを示す。なお、ここでは、第 (m— 3)フレームお よび第 mフレームの符号ィ匕データを損失して 、る例を示して 、る。
[0054] 図 6に示すデータを用いる場合、コアレイヤ復号部 205および拡張レイヤ復号部 20 6における復号処理の手順は以下の通りである。
[0055] スケーラブル復号装置 200が第 (m—4)フレームまたは第 (m— 2)フレームの符号 ィ匕データを受信する場合、 ST5001、 ST5002、 ST5003、 ST5004の手順で復号 処理を行う。
[0056] スケーラブル復号装置 200が第 (m— 1)フレームの符号化データを受信する場合 は、 ST5001, ST5002, ST5003, ST5005の手順で誤り補償処理および復号処 理を行う。
[0057] スケーラブル復号装置 200が第 (m— 3)フレームの符号化データを受信する場合 は、 ST5001, ST5006, ST5009, ST5010の手順で誤り補償処理および復号処 理を行う。
[0058] スケーラブル復号装置 200が第 mフレームの符号ィ匕データを受信する場合は、 ST 5001、 ST5006, ST5007, ST5008の手順で誤り補償処理および復号処理を行う
[0059] このように、本実施の形態によれば、スケーラブル符号ィ匕装置 100は、各フレーム に対してコアレイヤ符号ィ匕データのバックアップを前もってスケーラブル復号装置 20 0に伝送する必要がある力否かの判定を行い、必要があると判定される特定のフレー ムに対しては、コアレイヤ符号化データで当該フレーム(現フレーム)よりも 1フレーム 前 (過去のフレーム)の拡張レイヤ符号化データを置換する。
[0060] 即ち、過去のフレームの符号ィ匕データを用いて所定レベル以上の品質で誤り補償 を行うことができない場合、または、過去のフレームにおいて拡張レイヤ符号ィ匕処理 による復号信号の品質改善度合 、が所定レベル以下である場合、スケーラブル符号 化装置 100はコアレイヤ符号ィ匕データで過去のフレームの拡張レイヤ符号ィ匕データ を置換してスケーラブル復号装置 200に伝送する。従って、スケーラブル復号装置 2 00はパケットロスにより現フレームの符号ィ匕データを受信できない場合、過去のフレ 一ムの復号処理にぉ 、て受信された現フレームのコアレイヤ符号ィ匕データを用いて 復号処理を行うことができるため、ビットレートを増カロさせることなぐ復号信号の品質 劣化を抑えることができる。
[0061] また、スケーラブル符号化装置 100は、未来のフレームのコアレイヤ符号化データ をバックアップとして前もってスケーラブル復号装置 200に伝送する必要がないと判 定されたフレームに対しては、拡張レイヤ符号化データ(現フレームのデータ)を 1フ レーム後のコアレイヤ符号化データ(未来のフレームのデータ)で置換せずそのまま スケーラブル復号装置 200に伝送する。従って、スケーラブル復号装置 200は、パケ ットロスが発生しな力つた場合、現フレームの符号ィ匕データを用いてコアレイヤカも拡 張レイヤまでの復号処理を行うことができるため、復号信号の品質を向上させることが できる。
[0062] なお、本実施の形態においては、 ST2002または ST2004の何れ力 1つの判定条 件が満たされれば、符号ィ匕データの置換を行うと置換判定部 103が判定する場合を 例にとっている力 これらの 2つの条件が同時に満たされる場合のみに符号ィ匕データ の置換を行うと判定するようにしても良 、。
[0063] また、本実施の形態においては、復号側が過去のフレームの符号化データを用い て所定レベル以上の品質で誤り補償を行うことができる力否か判定するために、置換 判定部 103が入力音声信号の変化度合いが所定値以上であるかを判定する場合を 例にとっているが(ST2002)、置換判定部 103がパケットロスによりフレームを損失し たことを想定して、実際に過去のフレームの符号ィ匕データを用いて誤り補償処理およ び復号処理を行うことにより判定を行っても良い。即ち、生成された復号信号と入力 音声信号との間の誤差の大きさを示す数値が所定値以上である、すなわち誤差が所 定値以上に大きい場合は、 ST2006の処理に進み、所定値以上でない場合は ST2 005の処理に進む。
[0064] また、本実施の形態においては、拡張レイヤ符号化処理による復号信号の品質改 善度合いを判定するために置換判定処理の ST2003において、コアレイヤ符号ィ匕処 理のみを行った場合の符号化歪みと、拡張レイヤ符号化処理まで行った場合の符号 化歪みを算出する場合を例にとっている力 符号ィ匕歪みの代わりに SNRを算出して も良い。このような場合 ST2004において、置換判定部 103は ST2003において算 出された 2つの SNRの差が所定値以下である否かを判定すれば良い。
[0065] また、本実施の形態においては、拡張レイヤ符号化処理による復号信号の品質改 善度合 ヽを判定するために、コアレイヤ符号化処理のみを行った場合の符号化歪み と、拡張レイヤ符号化処理まで行った場合の符号化歪みと、の差を算出する場合を 例にとっているが(ST2003および ST2004)、スケーラブル符号化装置 100が周波 数帯域スケーラブルを実現する装置である場合は、入力音声信号の帯域の偏り、即 ち、コアレイヤ符号ィ匕部 101の処理対象となる低域の信号のエネルギーの全帯域の 信号のエネルギーに対する比率を算出しても良 、。
[0066] また、本実施の形態においては、置換判定部 103において、入力音声信号 I (m)、 コアレイヤ符号ィ匕データ Ec (m)、および拡張レイヤ符号ィ匕データ Ee (m)を用いる場 合を例にとって説明した力 Ec (m)および Ee (m)にカ卩えて、コアレイヤ符号ィ匕およ び拡張レイヤ符号化により得られる復号音声信号や符号化処理過程で得られるパラ メータを用いるようにしても良いし、 Ec (m)および Ee (m)の代わりに、コアレイヤ符号 化および拡張レイヤ符号化により得られる復号音声信号や符号化処理過程で得られ るパラメータを用いるようにしても良 、。
[0067] また、本実施の形態にお!ヽては、復号処理の ST5005 (拡張レイヤ誤り補償処理お よび復号処理)において、コアレイヤ復号信号 Dc (n)、拡張レイヤ復号信号 De (n— 1)を用いる場合を例にとっている力 Dc (n)、 De (n—1)ではなぐ第 nフレームのコ アレイャ復号処理で得られた復号パラメータ、および第 (n— 1)フレームの拡張レイヤ 復号処理で得られた復号パラメータを用いても良い。同様に ST5008、 ST5009、 S T5010においても、復号信号の代わりに復号パラメータを用 V、て誤り補償処理およ び復号処理を行っても良 ヽ。
[0068] また、本実施の形態にお!ヽては、スケーラブル符号ィ匕装置 100およびスケーラブル 復号装置 200が 2階層力もなる構成を採る場合を例にとっているが、これに限定され るものではなぐ 3階層以上力 なる構成を採っても良い。
[0069] また、本実施の形態においては、スケーラブル符号化装置 100が入力音声信号に 比べ 1フレーム遅延された符号ィ匕データを復号側に送信する場合を例にとっている 力 これに限定されるものではなぐ 2フレーム以上遅延された符号ィヒデータを復号 側に送信しても良い。即ち、拡張レイヤ符号ィ匕データを 2フレーム以上後のフレーム のコアレイヤ符号ィ匕データで置換しても良い。これにより、バースト的なパケットロスが 発生し、 2フレーム以上のフレームを連続して損失しても、所定レベル以上の品質で 誤り補償処理および復号処理を行うことができる。
[0070] また、本実施の形態においては、スケーラブル符号ィ匕装置 100が生成するコアレイ ャ符号化データ Ec (m)のビット数と拡張レイヤ符号ィ匕データ Ee (m— 1)のビット数と が同一である場合を例にとっている力 拡張レイヤ符号ィ匕データ Ee (m— 1)のビット 数がコアレイヤ符号ィ匕データ Ec (m)のビット数より大き 、場合は、 Ee (m— 1)の一部 を Ec (m)で置換すれば良い。このような場合、 Ee (m— 1)の置換されなかった残りの 一部はスケーラブル復号装置 200の復号処理に使われても良ぐ使われなくても良 い。
[0071] (実施の形態 2) 図 7は、本発明の実施の形態 2に係るスケーラブル符号ィ匕装置 300の主要な構成 を示すブロック図である。スケーラブル符号ィ匕装置 300は、実施の形態 1に係るスケ ーラブル符号ィ匕装置 100 (図 1参照)と同様の基本的構成を有しており、同一の構成 要素には同一の符号を付し、その説明を省略する。スケーラブル符号ィ匕装置 300は 、抽出部 309をさらに具備する点において、スケーラブル符号ィ匕装置 100と相違する 。なお、スケーラブル符号ィ匕装置 300の置換部 305と、スケーラブル符号ィ匕装置 100 の置換部 105とは処理の一部に相違点があり、それを示すために異なる符号を付す
[0072] 抽出部 309は、コアレイヤ符号ィ匕部 101から入力される Ec (m)の中から符号ィ匕品 質への寄与が大き 、部分を抽出して抽出コアレイヤ符号ィ匕データ Eca (m)を生成す る。例えば CELP (Code Excited Linear Prediction)符号化方式の場合、 Ec (m)の中 から、 LPC (線形予測係数)パラメータ、適応符号帳ラグ、およびゲインを抽出する。
[0073] 置換部 305は、置換判定部 103から入力される置換判定フラグ flag (m— 1)の値が 0である場合は、遅延部 104から入力される Ee (m- 1)をそのまま拡張レイヤ多重化 部 107に出力する。一方、 flag (m— 1)が 1である場合、置換部 305は遅延部 104か ら入力される Ee (m— 1)の一部を抽出部 309から入力される抽出コアレイヤ符号ィ匕 データ Eca (m)で置換して、拡張レイヤ多重化部 107に出力する。
[0074] 図 8は、スケーラブル符号化装置 300にお!/、て、第(m— 1)フレームの拡張レイヤ 符号化データ Ee (m— 1)の一部が抽出コアレイヤ符号ィ匕データ Eca (m)へと置換さ れる処理について説明する為の図である。
[0075] ここでは、フレーム長が 20msで、コアレイヤ符号化データのビットレートが 8kbps (1 60ビット Zフレーム)で、拡張レイヤ符号化データのビットレート力 kbps (80ビット Z フレーム)である場合を例にとって説明する。抽出部 309は、 160ビットの Ec (m)の内 力も抽出コアレイヤ符号ィ匕データ Eca (m)を抽出する。即ち、 CELP符号化方式の 場合は Ec (m)の中から、 LPCパラメータ、適応符号帳ラグ、およびゲインを抽出する 。抽出する Eca (m)を例えば 3kbps (60ビット Zフレーム)とする場合、置換部 305は 拡張レイヤ符号ィ匕データ Ee (m— 1)の内、符号化品質への寄与が大きい部分、即ち 抽出拡張レイヤ符号ィ匕データ Eea (m—1)を lkbps (20ビット Zフレーム)に合わせ て抽出する。 Eea (m—1)のビット数の 20ビット(フレーム当たり)は、 Ee (m—1)のビ ット数の 80ビット(フレーム当たり)と Eca (m)のビット数の 60ビット(フレーム当たり)と の差である。置換部 305は Ee (m— 1)の内、 Eea (m— 1)以外の部分を Eca (m)で 置換する。従って、置換部 305が拡張レイヤ多重化部 107に出力するデータは、 Ee a (m—l)と Eca (m)とのセットである。ここで、置換部 305における Eea (m— 1)の抽 出方法は、抽出部 309における Eca (m)の抽出方法と同様である。
[0076] 上記のように、実施の形態 1においては、第 (m— 1)フレームの拡張レイヤ符号ィ匕 データを第 mフレームのコアレイヤ符号化データ全体を用いて置換するのに対して、 本実施の形態にぉ 、ては、第 (m— 1)フレームの拡張レイヤ符号化データ Ee (m— 1 )の一部分を第 mフレームのコアレイヤ符号化データ Ec (m)の一部分を用いて置換 する。
[0077] 図 9は、本実施の形態に係るスケーラブル復号装置 400の主要な構成を示すプロ ック図である。
[0078] スケーラブル復号装置 400は、実施の形態 1に係るスケーラブル復号装置 200 (図 4参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、 その説明を省略する。スケーラブル復号装置 400の切替部 403、コアレイヤ復号部 4 05、および拡張レイヤ復号部 406はそれぞれ、スケーラブル復号装置 200の切替部 203、コアレイヤ復号部 205、および拡張レイヤ復号部 206と処理の一部に相違点 があり、それを示すために異なる符号を付す。
[0079] 切替部 403は、拡張レイヤ逆多重化部 202から入力される置換判定フラグ flag (n) の値に基づき、拡張レイヤ逆多重化部 202から入力される拡張レイヤ符号ィ匕データ Ee (n)の中身が Ee (n)そのものである力、それとも抽出拡張レイヤ符号化データ Eea (n)と次フレームの抽出コアレイヤ符号化データ Eca (n+ 1)とのセットであるかを判 断し、出力先を切り替える。具体的には、置換判定フラグ flag (n)が 1である場合、切 替部 403は、 Eca (n+ 1)を遅延部 204に出力し、 Eea (n)を拡張レイヤ復号部 406 に出力する。一方、置換判定フラグ flag (n)が 0である場合、切替部 403は拡張レイ ャ符号化データ Ee (n)を拡張レイヤ復号部 406に出力する。
[0080] コアレイヤ復号部 405および拡張レイヤ復号部 406と、スケーラブル復号装置 200 のコアレイヤ復号部 205および拡張レイヤ復号部 206との処理上の相違点について は、図 10のフロー図を用いて説明する。
[0081] 図 10は、コアレイヤ復号部 405および拡張レイヤ復号部 406における誤り補償処 理および復号処理の手順を示すフロー図である。この図は、実施の形態 1に係るコア レイヤ復号部 205および拡張レイヤ復号部 206における誤り補償処理および復号処 理を説明するフロー図(図 5)と基本的に同様のステップを有しており、同一のステツ プには同一の符号を付し、その説明を省略する。図 10において、図 5と相違するステ ップは ST9005および ST9007である。
[0082] スケーラブル符号ィ匕装置 300において、第 nフレームの拡張レイヤ符号ィ匕データ E e (n)全体が次フレームのコアレイヤ符号化データで置換されるのではなぐ Eea (n) の部分は置換されずスケーラブル復号装置 400に伝送される為、 ST9005において 、拡張レイヤ復号部 406は Eea (n)を用いて拡張レイヤ復号処理を行い、拡張レイヤ 復号信号 De (n)を生成する。
[0083] ST9007において、コアレイヤ復号部 405は 1フレーム前の復号処理において受 信された抽出コアレイヤ符号化データ Eca (n)を用いてコアレイヤ復号処理を行!ヽ、 コアレイヤ復号信号 Dc (n)を生成する。
[0084] このように、本実施の形態によれば、符号ィ匕側で拡張レイヤ符号ィ匕データ全体では なぐ拡張レイヤ符号ィ匕データの一部分だけを次フレームのコアレイヤ符号ィ匕データ のうち符号ィ匕品質への寄与が大きい部分に限定したデータを用いて置換することに よって、復号側では拡張レイヤ符号ィ匕データの置換されな力つた部分のデータを用 いて拡張レイヤ復号を行うことができる。従って、復号信号の品質を向上させることが できる。また、置換に用いるコアレイヤ符号ィ匕データとして符号ィ匕品質への寄与が大 き ヽ部分に限定することで、拡張レイヤ符号ィ匕よりコアレイヤ符号ィ匕のビットレートが 大きい場合にも、本実施の形態を適用して、復号信号の劣化を抑えることができる。
[0085] なお、本実施の形態では、符号化側で、拡張レイヤ符号化データ全体ではなく拡 張レイヤ符号ィ匕データの一部分だけを置換する構成を例にとって説明したが、拡張 レイヤ符号ィ匕データの全体を次フレームのコアレイヤ符号ィ匕データのうち符号ィ匕品 質への寄与が大き 、部分に限定したデータを用いて置換するようにしても良 、。 [0086] また、本実施の形態では、復号処理の ST9005にお 、て、拡張レイヤ復号部 406 は Eea (n)を用いて拡張レイヤ復号処理を行う場合を例にとっている力 Eea (n)に 加え、第 (n— 1)フレームの拡張レイヤ符号ィ匕データ Ee (n— 1)および拡張レイヤ復 号信号 De (n— 1)も用いて復号処理を行っても良!、。
[0087] また、本実施の形態においては、抽出部 309がすべてのフレームに対して同様の 抽出方法を用いる場合を例にとっている力 各フレームに適応して異なる抽出方法を 用いて、用いられた抽出方法に関する情報をスケーラブル復号装置 400に別途送信 しても良い。これにより、スケーラブル復号装置 400において生成される復号信号の 品質劣化をさらに抑えることができる。
[0088] (実施の形態 3)
実施の形態 1、 2では、符号ィ匕側において現フレームの拡張レイヤ符号ィ匕データを 次フレーム (または次フレーム以降)のコアレイヤ複製データで置換した。よって、符 号ィ匕側で 1フレーム(または 1フレーム以上)余分に遅延することとなる。一方、本実施 の形態では、符号ィ匕側にて、現フレームの拡張レイヤ符号ィ匕データをこれよりも前の フレームのコアレイヤ複製データで置換する構成を採る。この構成を採ることにより、 符号化側での余分な遅延が発生しな 、代わりに復号側で 1フレーム余分に遅延する こととなる。
[0089] 図 11は、本発明の実施の形態 3に係るスケーラブル符号ィ匕装置 500の主要な構成 を示すブロック図である。スケーラブル符号ィ匕装置 500は、実施の形態 2に示したス ケーラブル符号ィ匕装置 300 (図 7参照)と一部が同様の構成を有しており、同一の構 成要素には同一の符号を付し、その説明を省略する。
[0090] スケーラブル符号ィ匕装置 500をスケーラブル符号ィ匕装置 300と比較すると、遅延部 104、 106が削除され、代わりに遅延部 501が追加されている点が大きく異なる。以 下詳細に説明する。
[0091] コアレイヤ符号化部 101の出力である第 mフレームのコアレイヤ符号化データ Ec ( m)は、送信部 108へ直接出力される。また、拡張レイヤ符号ィ匕部 102の出力である 第 mフレームの拡張レイヤ符号ィ匕データ Ee (m)は、置換部 502へ直接出力される。 さらに、抽出部 309の出力である抽出コアレイヤ符号ィ匕データ Eca (m)は、遅延部 5 01を介すことにより 1フレーム遅延され、第 m—1フレームの抽出コアレイヤ符号ィ匕デ ータ Eca (m—1)として、置換部 502へ出力される。
[0092] 置換判定部 503は、置換部 502において、入力音声信号、コアレイヤ符号ィ匕部 10 1から入力されるコアレイヤ符号ィ匕データ、および拡張レイヤ符号ィ匕部 102から入力 される拡張レイヤ符号ィ匕データを用いて、第 mフレームの拡張レイヤ符号ィ匕データ E e (m)の一部を第 m— 1フレームのコアレイヤ符号化データ Ec (m— 1)の一部で置換 するか否かの置換判定処理を行う。具体的には、置換判定部 503は、第 m— 1フレ ームの符号ィ匕データを損失した場合に、復号側が過去フレームの符号ィ匕データを用 いて当該第 m—lフレームの復号信号に対して所定レベル以上の品質で誤り補償を 行うことができな 、か、または第 mフレームの拡張レイヤ符号ィ匕処理による復号信号 の品質改善具合が所定レベル以下であるかを判断し、これらの判定条件に該当する 場合に置換判定部 503は、上記置換を行うと判定する。置換判定部 503は、第 mフ レームの判定結果を示す置換判定フラグ flag (m)を置換部 502および拡張レイヤ多 重化部 107へ出力する。
[0093] 置換部 502は、置換判定部 503から入力される置換判定フラグ flag (m)の値が 0で ある場合、すなわち置換なしと判定された場合は、 Ee (m)をそのまま拡張レイヤ多重 化部 107へ出力する。一方、 flag (m)が 1である場合、すなわち、置換ありと判定され た場合は、置換部 502は、 Ee (m)の一部を抽出コアレイヤ符号ィ匕データ Eca (m— 1 )で置換して拡張レイヤ多重化部 107へ出力する。
[0094] 置換判定フラグ flag (m)および拡張レイヤ符号ィ匕データ Ee (m)は、拡張レイヤ多 重化部 107において多重化され、送信部 108を介して復号側へ送信される。
[0095] なお、ここでは、スケーラブル符号ィ匕装置 500が、置換判定フラグ flag (m)が 1の場 合に、コアレイヤ符号ィ匕データ Ec (m)から抽出部 309にて抽出された後に遅延され た抽出コアレイヤ符号ィ匕データ Eca (m- 1)で、置換部 502にて拡張レイヤ符号ィ匕 データ Ee (m)の一部を置換する構成として説明した力 一部のデータを抽出するこ となくコアレイヤ符号化データ Ec (m)全体を 1フレーム遅延させたデータ Ec (m— 1) で Ee (m)の一部または全てを置換する構成としても良!、。
[0096] また、ここでは、置換判定フラグ flag (m)が 1の場合に、拡張レイヤ符号化部 102に て符号化された拡張レイヤ符号化データ Ee (m)の一部を、置換部 502にて抽出コア レイヤ符号化データ Eca (m- 1)で置換する構成として説明したが、置換判定フラグ f lag (m)が 1の場合に、拡張レイヤ符号ィ匕部 102にて、 flag (m)が 0の場合に比べて 抽出コアレイヤ符号ィ匕データ Eca (m—1)に相当するビット数だけ少ない符号ィ匕ビッ ト数で、拡張レイヤ符号ィ匕を行い、その結果得られた拡張レイヤ符号ィ匕データ Eep ( m)と抽出コアレイヤ符号ィ匕データ Eca (m—1)を拡張レイヤ多重化部 107に出力す るようにしても良い。
[0097] また、ここでは、置換判定部 503での判定の結果、置換判定フラグ flag (m)が 1の 場合のみ、置換部 502で Ee (m)の一部を抽出コアレイヤ符号ィ匕データ Eca (m— 1) で置換する構成として説明したが、置換判定部 503での判定結果によらず、常に置 換部 502で Ee (m)の一部を抽出コアレイヤ符号化データ Eca (m— 1)で置換するよ うにしても良い。
[0098] 次 、で、スケーラブル符号化装置 500に対応する、本実施の形態に係るスケーラ ブル復号装置 600について説明する。
[0099] 図 12は、スケーラブル復号装置 600の主要な構成を示すブロック図である。なお、 実施の形態 2に示したスケーラブル復号装置 400 (図 9参照)と同一の構成要素には 同一の符号を付し、その説明を省略する。また、ここでは、スケーラブル符号ィ匕装置 5 00から送信された第 nフレームの符号化データを受信し、復号処理を行う場合を例 にとつて説明する。 nと mとは「n=m」の関係にある。
[0100] 切替部 403aは、拡張レイヤ逆多重化部 202から入力される置換判定フラグ flag (n )の値に基づき、拡張レイヤ逆多重化部 202から入力される拡張レイヤ符号ィ匕データ Ee (n)の中身が Ee (n)そのものである力、それとも抽出拡張レイヤ符号化データ Eea (n)と前フレームの抽出コアレイヤ符号化データ Eca (n— 1)とのセットであるかを判 断し、出力先を切り替える。具体的には、切替部 403aは、置換判定フラグ flag (n)が 1である場合、 Eea (n)と Eca (n— 1)とのセットを前フレームコアレイヤ復号部 601お よび拡張レイヤ復号部 406へ出力する。一方、置換判定フラグ flag (n)が 0である場 合、切替部 403aは拡張レイヤ符号化データ Ee (n)を拡張レイヤ復号部 406へ出力 する。 [0101] コアレイヤ復号部 405は、パケットロスフラグに基づいて処理を切り替え、第 nフレー ムにお 、てパケットロスがな 、場合、コアレイヤ符号ィ匕データ Ec (n)を用いて復号処 理を行う。一方、第 nフレームにおいてパケットロスが発生した場合、過去に受信した コアレイヤ符号ィ匕データを用いて誤り補償処理を行 ヽ、コアレイヤ復号信号 Dc (n)を 生成する。
[0102] 前フレームコアレイヤ復号部 601は、パケットロスフラグと置換判定フラグ flag (n)の 双方を用いて、第 n—lフレームでパケットロスが発生し、かつ、符号ィ匕データにおい て一部置換が行われた力否かを判断し、当該条件に該当する場合には、切替部 40 3aから入力される第 n— 1フレームの抽出コアレイヤ符号化データ Eca (n— 1)、コア レイヤ復号部 405から入力される第 nフレームのコアレイヤ符号ィ匕データ、および同 じくコアレイヤ復号部 405から入力される第 nフレームより前のコアレイヤ符号ィ匕デ一 タを用いて、第 n— 1フレームのコアレイヤ復号信号 Dc_r (n— 1)を生成する。
[0103] 遅延部 602は、コアレイヤ復号部 405から出力される第 nフレームのコアレイヤ復号 信号 Dc (n)を 1フレーム遅延させて第 n— 1フレームの復号信号 Dc (n— 1)とした後 、これを選択部 603へ出力する。
[0104] 選択部 603は、前フレームコアレイヤ復号部 601からコアレイヤ復号信号 Dc—r (n— 1)が出力されてくる場合は、この信号をコアレイヤ復号信号として出力し、そうでない 場合、すなわち遅延部 602からコアレイヤ復号信号 Dc (n—1)が出力されてくる場合 は、これを復号信号として出力する。
[0105] 拡張レイヤ復号部 406は、パケットロスフラグに基づ 、て処理を切り替え、パケット口 スがな ヽ場合は通常の復号処理を行って拡張レイヤ復号信号 De (n)を出力する。ま た、パケットロスが発生した場合は、過去に受信した拡張レイヤ符号ィ匕データとコアレ ィャ復号部 405で生成される補償データとを用いて誤り補償を行う。通常の復号処理 は、より詳細には、切替部 403aから入力される拡張レイヤ符号ィ匕データ Ee (n)もしく は抽出拡張レイヤ符号化データ Eea (n)、拡張レイヤ逆多重化部 202から入力され る置換判定フラグ flag (n)、コアレイヤ復号部 405から入力されるコアレイヤ符号ィ匕デ ータ Ec (n)、およびコアレイヤ復号部 405から入力されるコアレイヤ復号信号 Dc (n) を用いて復号処理が行われる。 [0106] 前フレーム拡張レイヤ復号部 604は、パケットロスフラグおよび置換判定フラグ flag (n)に基づき、第 n—1フレームでパケットロスが発生し、かつ、符号化データにおい て一部置換が行われた力否かを判断し、当該条件に該当する場合には、前フレーム コアレイヤ復号部 601から入力される第 n— 1フレームのコアレイヤ符号化データ、コ アレイャ復号信号、拡張レイヤ復号部 406から入力される第 nフレームの拡張レイヤ 符号ィ匕データ、および同じく拡張レイヤ復号部 406から入力される第 nフレームより前 の拡張レイヤ符号ィ匕データを用いて、拡張レイヤの誤り補償を行い、拡張レイヤ復号 信号 De_r (n— 1)を生成する。
[0107] 遅延部 605は、拡張レイヤ復号部 406から出力される第 nフレームの拡張レイヤ復 号信号 De (n)を 1フレーム遅延させて第 n— 1フレームの復号信号 De (n— 1)とした 後、これを選択部 606へ出力する。
[0108] 選択部 606は、前フレーム拡張レイヤ復号部 604から拡張レイヤ復号信号 De—r(n —1)が出力されてくる場合は、この信号を拡張レイヤ復号信号として出力し、そうで ない場合、すなわち遅延部 605から拡張レイヤ復号信号 De (n—1)が出力されてく る場合は、これを復号信号として出力する。
[0109] 図 13は、本実施の形態に係るスケーラブル復号装置 600の上記復号処理の一連 の手順を示すフロー図である。
[0110] まず、スケーラブル復号装置 600は、コアレイヤ復号部 405および拡張レイヤ復号 部 406において、パケットロスフラグに基づき、第 nフレームの符号ィ匕データを損失し たか否かを判定する(ST3010)。
[0111] ST3010において第 nフレームの符号ィ匕データの損失ありと判定された場合、コア レイヤ復号部 405にお!/、て、第 n— 1フレームのコアレイヤ符号化データ Ec (n— 1) およびコアレイヤ復号信号 Dc (n- 1)を用いた誤り補償処理および復号処理が行わ れ、第 nフレームのコアレイヤ復号信号 Dc (n)が生成される(ST3020)。また、拡張 レイヤ復号部 406で、第 n— 1フレームのコアレイヤ符号化データ Ec (n— 1)、コアレ ィャ復号信号 Dc (n— 1)、拡張レイヤ符号化データ Ee (n— 1)、および拡張レイヤ復 号信号 De (n- 1)を用いた誤り補償処理および復号処理が行われ、第 nフレームの 拡張レイヤ復号信号 De (n)が生成される (ST3030)。 [0112] コアレイヤ復号部 405で生成され、遅延部 602を経た第 n— 1フレーム、すなわち 1 フレーム前のコアレイヤ復号信号 Dc (n— 1)と、拡張レイヤ復号部 406で生成され、 遅延部 605を経た第 n— 1フレームの拡張レイヤ復号信号 De (n— 1)とが各々出力さ れる(ST3040)。
[0113] 一方、 ST3010において第 nフレームの符号ィ匕データに損失なしと判定された場合 、スケーラブル復号装置 600は、コアレイヤ復号部 405において、第 nフレームのコア レイヤ符号化データ Ec (n)を用いたコアレイヤ復号処理を行 、、第 nフレームのコア レイヤ復号信号 Dc (n)を生成する(ST3050)。
[0114] 次に、拡張レイヤ復号部 406において、第 nフレームの置換判定フラグ flag (n)が 1 であるか否かが判定される(ST3060)。
[0115] ST3060において置換判定フラグ flag (n)の値が 0の場合、すなわち「置換なし」の 場合、拡張レイヤ復号部 406で第 nフレームの拡張レイヤ符号ィ匕データ Ee (n)を用 いた拡張レイヤ復号処理が行われ、第 nフレームの拡張レイヤ復号信号 De (n)が生 成される(ST3070)。
[0116] コアレイヤ復号部 405で生成され、遅延部 602を経た第 n— 1フレームのコアレイヤ 復号信号 Dc (n— 1)と、拡張レイヤ復号部 406で生成され、遅延部 605を経た第 n— 1フレームの拡張レイヤ復号信号 De (n- 1)とが各々出力される(ST3080)。
[0117] 一方、 ST3060において、置換判定フラグ flag (n)の値が 1の場合、すなわち「置換 あり」の場合、拡張レイヤ復号部 406で第 nフレームの抽出拡張レイヤ符号ィ匕データ Eea (n)を用いた拡張レイヤ復号処理が行われ、第 nフレームの拡張レイヤ復号信号 De (n)が生成される (ST3090)。
[0118] かかる場合さらに、前フレームコアレイヤ復号部 601において、第 n— 1フレームの 符号ィ匕データが損失されたか否かが判定される(ST3100)。
[0119] ST3100において第 n— 1フレームの符号化データに損失がないと判定された場 合、コアレイヤ復号部 405で生成され、遅延部 602を経た第 n—lフレームのコアレイ ャ復号信号 Dc (n— 1)と、拡張レイヤ復号部 406で生成され、遅延部 605を経た第 n 1フレームの拡張レイヤ復号信号 De (n- 1)とが各々出力される(ST3110)。
[0120] ST3100において第 n—1フレームの符号ィ匕データに損失があると判定された場合 、前フレームコアレイヤ復号部 601で、第 n—lフレームの抽出コアレイヤ符号化デー タ Eca (n- 1)を用いて、第 n— 1フレームのコアレイヤ復号信号 Dc_r (n— 1)が生成 される。また、前フレーム拡張レイヤ復号部 604で、拡張レイヤ復号部 406の第 n—1 フレームの拡張レイヤ補償処理で生成される補償データを用いて、第 n— 1フレーム の拡張レイヤ復号信号 De— r (n— 1)が生成される。生成されたコアレイヤ復号信号 D c_r (n- 1)および拡張レイヤ復号信号 De_r(n— 1)は、それぞれ選択部 603、 606を 介して、第 n— 1フレームの復号信号として出力される(ST3120)。
[0121] なお、ここでは、前フレームコアレイヤ復号部 601の復号処理において必要となる 復号状態データをコアレイヤ復号部 405から入力する場合を例にとって説明したが、 前フレームコアレイヤ復号部 601およびコアレイヤ復号部 405の間で、双方の復号 処理の過程で使用及び更新が必要となる復号状態データを入出力し合うようにして も良い。同様に、前フレーム拡張レイヤ復号部 604および拡張レイヤ復号部 406の 間で、双方の復号状態データを入出力し合うようにしても良い。
[0122] また、第 n— 1フレームの拡張レイヤ復号信号 De_r (n— 1)として、前フレームコアレ ィャ復号部 601にお!/、て第 n— 1フレームの抽出コアレイヤ符号化データ Eca (n—1 )を用いて復号された第 n— 1フレームの低位レイヤ復号信号 Dc_r (n— 1)と同一の 信号としても良い。
[0123] 以上説明したように、本実施の形態によれば、符号ィ匕側にて、現フレームの拡張レ ィャ符号ィ匕データをそれより前のフレームのコアレイヤ複製データで置換するため、 符号ィヒ側での余分な遅延は発生しな 、代わりに復号側で 1フレーム余分に遅延する ようになる。
[0124] よって、本実施の形態は、次に説明するようなケースに最適である。すなわち、コア レイヤ符号化として CELP符号ィ匕を用い、変換符号化として変換長が符号ィ匕フレー ムの 2倍であるような MDCTを用いる場合、スケーラブル復号装置では、コアレイヤ の復号処理に比べて拡張レイヤの復号処理において 1フレーム余分に遅延が発生 する。すなわち、拡張レイヤの符号ィ匕 Z復号処理に要するアルゴリズムの遅延力 コ ァレイヤの符号ィ匕 Z復号処理に要するアルゴリズムの遅延よりも必然的に大きくなる [0125] かかる場合、本実施の形態の構成によれば、復号側で余分に生じる遅延を、拡張 レイヤの復号処理で元々必要なアルゴリズムに起因する 1フレームの遅延の範囲内 に収めることにより、見かけ上遅延の発生を抑えることができる。例えば、上記のケー スにおいては、スケーラブル復号装置 600の拡張レイヤ復号部 406において、第 nフ レームの復号処理の結果、 1フレーム遅延された第 n— 1フレームの拡張レイヤ復号 信号 De (n—1)が必ず生成され出力されることとなる。よって、本実施の形態で説明 した遅延部 605は上記ケースにおいて不要となる。
[0126] このように、本実施の形態は、コアレイヤ符号化として CELP符号ィ匕を用い、拡張レ ィャの符号化として変換符号ィ匕を用いる場合のように、拡張レイヤの符号化 Z復号 処理に要するアルゴリズムの遅延力 コアレイヤの符号ィ匕 Z復号処理に要するアル ゴリズムの遅延よりも大きくなる場合に最適である。
[0127] 以上、本発明の各実施の形態について説明した。
[0128] 本発明に係るスケーラブル符号ィ匕装置、スケーラブル復号装置、およびこれらの方 法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。
[0129] 本発明に係るスケーラブル符号化装置およびスケーラブル復号装置は、移動体通 信システムにおける通信端末装置および基地局装置に搭載することが可能であり、こ れにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体 通信システムを提供することができる。
[0130] なお、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明したが、本 発明をソフトウェアで実現することも可能である。例えば、本発明に係るスケーラブル 符号ィ匕方法およびスケーラブル復号方法のアルゴリズムをプログラミング言語によつ て記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させる ことにより、本発明に係るスケーラブル符号ィ匕装置およびスケーラブル復号装置と同 様の機能を実現することができる。
[0131] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部または 全てを含むように 1チップィ匕されても良い。
[0132] また、ここでは LSIとした力 集積度の違いによって、 IC、システム LSI、スーパー L SI、ウノレ卜ラ LSI等と呼称されることちある。
[0133] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Pro grammable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能な リコンフィギユラブル ·プロセッサを利用しても良 、。
[0134] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてあり得る。
[0135] 本明細書は、 2005年 10月 14日出願の特願 2005— 300777および 2005年 12月
28日出願の特願 2005— 379335【こ基づく。これらの内容 ίますべてここ【こ含めておく 産業上の利用可能性
[0136] 本発明に係るスケーラブル符号ィ匕装置、スケーラブル復号装置、およびこれらの方 法は音声符号ィ匕等の用途に適用することができる。

Claims

請求の範囲
[1] 少なくとも低位レイヤと高位レイヤとからなるスケーラブル符号ィ匕装置であって、 前記低位レイヤにおける符号ィ匕を行って低位レイヤ符号ィ匕データを生成する低位 レイヤ符号化手段と、
前記高位レイヤにおける符号ィ匕を行って高位レイヤ符号ィ匕データを生成する高位 レイヤ符号化手段と、
前記低位レイヤ符号化データの複製データを生成する複製手段と、
前記高位レイヤ符号化データの一部を前記複製データで置換する置換手段と、 を具備するスケーラブル符号ィ匕装置。
[2] 前記置換手段は、
特定フレームの低位レイヤ符号ィ匕データの前記複製データを用いて、当該特定フ レームよりも前または後のフレームの前記高位レイヤ符号ィ匕データを置換する、 請求項 1記載のスケーラブル符号化装置。
[3] 所定の判定条件に従って特定フレームを判定する判定手段をさらに具備し、 前記置換手段は、
前記判定手段で判定された特定フレームの前記複製データを用いて前記置換を 行う、
請求項 2記載のスケーラブル符号化装置。
[4] 前記判定手段は、
音声信号の立ち上がり部を含むフレーム、無声非定常子音部を含むフレーム、また は非定常信号の音声フレームを前記特定フレームと判定する、
請求項 3記載のスケーラブル符号化装置。
[5] 前記判定手段は、
入力信号の特性を示すパラメータの変化幅が所定レベル以上であるフレームを前 記特定フレームと判定する、
請求項 3記載のスケーラブル符号化装置。
[6] 前記判定手段は、
前記パラメータとして、音声信号のパワー、ピッチ周期、ピッチ予測ゲイン、または L PCパラメータを用いる、
請求項 5記載のスケーラブル符号化装置。
[7] 前記判定手段は、
前記低位レイヤ符号ィヒデータ力 の復号データに含まれる符号ィヒ歪みと、前記低 位レイヤ符号ィヒデータおよび前記高位レイヤ符号ィヒデータの双方からの復号データ に含まれる符号化歪みと、を比較することにより、前記高位レイヤ符号ィ匕データの符 号化歪み減少に対する寄与を判断し、当該寄与が所定レベル以下のフレームを前 記特定フレームと判定する、
請求項 3記載のスケーラブル符号化装置。
[8] 前記判定手段は、
入力信号の低域エネルギーが全域エネルギーに占める割合を求め、当該割合が 所定レベル以上のフレームを前記特定フレームと判定する、
請求項 3記載のスケーラブル符号化装置。
[9] 前記特定フレームの低位レイヤ符号ィ匕データから、一部のデータを抽出する抽出 手段をさらに具備し、
前記複製手段は、
前記一部のデータの複製データを生成する、
請求項 2記載のスケーラブル符号化装置。
[10] 前記抽出手段は、
前記一部のデータとして、 LPCパラメータ、適応符号帳ラグ、およびゲインを含むデ ータを抽出する、
請求項 9記載のスケーラブル符号化装置。
[11] 前記置換手段は、
前記特定フレームよりも前または後のフレームの高位レイヤ符号ィ匕データのうち、 一部のデータを前記複製データで置換する、
請求項 2記載のスケーラブル符号化装置。
[12] 前記置換手段は、
前記一部のデータとして、 LPCパラメータ、適応符号帳ラグ、ゲインのいずれもが含 まれな!/ヽデータを選択する、
請求項 11記載のスケーラブル符号ィ匕装置。
[13] 少なくとも低位レイヤと高位レイヤとからなるスケーラブル復号装置であって、
高位レイヤ符号化データから低位レイヤ符号化データの複製データを分離する分 離手段と、
フレーム損失を検出する検出手段と、
フレーム損失を検出した場合、前記複製データを復号して第 1復号データを生成 する低位レイヤ復号手段と、
フレーム損失を検出した場合、前記第 1復号データを用いて損失フレームの補償を 行い、第 2復号データを生成する高位レイヤ復号手段と、
を具備するスケーラブル復号装置。
[14] 前記分離手段は、
損失フレームよりも前または後のフレームの高位レイヤ符号ィ匕データ力 前記複製 データを分離する、
請求項 13記載のスケーラブル復号装置。
[15] 請求項 1記載のスケーラブル符号化装置を具備する通信端末装置。
[16] 請求項 13記載のスケーラブル復号装置を具備する通信端末装置。
[17] 請求項 1記載のスケーラブル符号化装置を具備する基地局装置。
[18] 請求項 13記載のスケーラブル復号装置を具備する基地局装置。
[19] コアレイヤ符号ィ匕データのバックアップデータを拡張レイヤ符号ィ匕データの一部と 置換する、
ことを特徴とするスケーラブル符号化方法。
[20] 少なくとも低位レイヤと高位レイヤとからなるスケーラブル符号ィ匕装置において使用 されるスケーラブル符号ィ匕方法であって、
前記低位レイヤにおける符号ィ匕を行って低位レイヤ符号ィ匕データを生成する工程 と、
前記高位レイヤにおける符号ィ匕を行って高位レイヤ符号ィ匕データを生成する工程 と、 前記低位レイヤ符号化データの複製データを生成する工程と、
前記高位レイヤ符号化データの一部を前記複製データで置換する工程と、 を具備するスケーラブル符号化方法。
少なくとも低位レイヤと高位レイヤとからなるスケーラブル復号装置において使用さ れるスケーラブル復号方法であって、
高位レイヤ符号化データから低位レイヤ符号化データの複製データを分離するェ 程と、
フレーム損失を検出する工程と、
フレーム損失を検出した場合、前記複製データを復号して第 1復号データを生成 する工程と、
フレーム損失を検出した場合、前記第 1復号データを用いて損失フレームの補償を 行い、第 2復号データを生成する工程と、
を具備するスケーラブル復号方法。
PCT/JP2006/320444 2005-10-14 2006-10-13 スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法 WO2007043642A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US12/089,983 US8069035B2 (en) 2005-10-14 2006-10-13 Scalable encoding apparatus, scalable decoding apparatus, and methods of them
CN200680035365.1A CN101273403B (zh) 2005-10-14 2006-10-13 可扩展编码装置、可扩展解码装置以及其方法
JP2007539997A JP5142723B2 (ja) 2005-10-14 2006-10-13 スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法
EP06811732A EP1933304A4 (en) 2005-10-14 2006-10-13 DIMENSIONABLE CODING APPARATUS, DIMENSIONABLE DECODING APPARATUS AND METHODS OF USING SAME

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005-300777 2005-10-14
JP2005300777 2005-10-14
JP2005-379335 2005-12-28
JP2005379335 2005-12-28

Publications (1)

Publication Number Publication Date
WO2007043642A1 true WO2007043642A1 (ja) 2007-04-19

Family

ID=37942863

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/320444 WO2007043642A1 (ja) 2005-10-14 2006-10-13 スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法

Country Status (5)

Country Link
US (1) US8069035B2 (ja)
EP (1) EP1933304A4 (ja)
JP (1) JP5142723B2 (ja)
CN (1) CN101273403B (ja)
WO (1) WO2007043642A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101414412B1 (ko) * 2008-05-09 2014-07-01 노키아 코포레이션 오디오 신호의 인코딩 장치, 오디오 신호의 디코딩 장치, 오디오 신호의 인코딩 방법, 스케일러블 인코딩 오디오 신호의 디코딩 방법, 인코더, 디코더, 전자기기 및 컴퓨터 판독가능한 기록 매체
JP2019193083A (ja) * 2018-04-24 2019-10-31 日本電信電話株式会社 検知システムおよび検知方法

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
JPWO2008066071A1 (ja) * 2006-11-29 2010-03-04 パナソニック株式会社 復号化装置および復号化方法
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
EP2313885B1 (en) * 2008-06-24 2013-02-27 Telefonaktiebolaget L M Ericsson (PUBL) Multi-mode scheme for improved coding of audio
US9387280B2 (en) * 2008-09-05 2016-07-12 Synovis Orthopedic And Woundcare, Inc. Device for soft tissue repair or replacement
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
KR20120000055A (ko) * 2009-03-13 2012-01-03 파나소닉 주식회사 음성 부호화 장치, 음성 복호 장치, 음성 부호화 방법 및 음성 복호 방법
US8281227B2 (en) * 2009-05-18 2012-10-02 Fusion-10, Inc. Apparatus, system, and method to increase data integrity in a redundant storage system
CN101989429B (zh) * 2009-07-31 2012-02-01 华为技术有限公司 转码方法、装置、设备以及系统
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
CN103229234B (zh) 2010-11-22 2015-07-08 株式会社Ntt都科摩 音频编码装置、方法以及音频解码装置、方法
KR101418227B1 (ko) * 2010-11-24 2014-07-09 엘지전자 주식회사 스피치 시그널 부호화 방법 및 복호화 방법
WO2013155488A2 (en) * 2012-04-12 2013-10-17 Harvard Bioscience, Inc. Elastic scaffolds for tissue growth
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241799A (ja) * 2002-02-15 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 音響符号化方法、復号化方法、符号化装置、復号化装置及び符号化プログラム、復号化プログラム
WO2004081918A1 (fr) * 2003-03-04 2004-09-23 France Telecom Sa Procede et dispositif de reconstruction spectrale d’un signal audio
JP2005222014A (ja) * 2004-01-08 2005-08-18 Matsushita Electric Ind Co Ltd 信号復号化装置及び信号復号化方法
WO2005086138A1 (ja) * 2004-03-05 2005-09-15 Matsushita Electric Industrial Co., Ltd. エラー隠蔽装置およびエラー隠蔽方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
GB9820655D0 (en) * 1998-09-22 1998-11-18 British Telecomm Packet transmission
DE19860531C1 (de) 1998-12-30 2000-08-10 Univ Muenchen Tech Verfahren zur Übertragung codierter digitaler Signale
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US6614370B2 (en) 2001-01-26 2003-09-02 Oded Gottesman Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation
CN1266673C (zh) * 2002-03-12 2006-07-26 诺基亚有限公司 可伸缩音频编码的有效改进
KR100528325B1 (ko) * 2002-12-18 2005-11-15 삼성전자주식회사 비트율 조절이 가능한 스테레오 오디오 부호화 및복호화방법 및 그 장치
KR100917464B1 (ko) * 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
WO2004097796A1 (ja) * 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
SE527669C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Förbättrad felmaskering i frekvensdomänen
CN101006495A (zh) * 2004-08-31 2007-07-25 松下电器产业株式会社 语音编码装置、语音解码装置、通信装置以及语音编码方法
JP4937753B2 (ja) 2004-09-06 2012-05-23 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
WO2006028009A1 (ja) * 2004-09-06 2006-03-16 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置および信号消失補償方法
CN102103860B (zh) 2004-09-17 2013-05-08 松下电器产业株式会社 频谱包络信息量化装置及方法、频谱包络信息解码装置及方法
BRPI0518133A (pt) 2004-10-13 2008-10-28 Matsushita Electric Ind Co Ltd codificador escalável, decodificador escalável, e método de codificação escalável
WO2006049205A1 (ja) 2004-11-05 2006-05-11 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置およびスケーラブル符号化装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241799A (ja) * 2002-02-15 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 音響符号化方法、復号化方法、符号化装置、復号化装置及び符号化プログラム、復号化プログラム
WO2004081918A1 (fr) * 2003-03-04 2004-09-23 France Telecom Sa Procede et dispositif de reconstruction spectrale d’un signal audio
JP2005222014A (ja) * 2004-01-08 2005-08-18 Matsushita Electric Ind Co Ltd 信号復号化装置及び信号復号化方法
WO2005086138A1 (ja) * 2004-03-05 2005-09-15 Matsushita Electric Industrial Co., Ltd. エラー隠蔽装置およびエラー隠蔽方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1933304A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101414412B1 (ko) * 2008-05-09 2014-07-01 노키아 코포레이션 오디오 신호의 인코딩 장치, 오디오 신호의 디코딩 장치, 오디오 신호의 인코딩 방법, 스케일러블 인코딩 오디오 신호의 디코딩 방법, 인코더, 디코더, 전자기기 및 컴퓨터 판독가능한 기록 매체
JP2019193083A (ja) * 2018-04-24 2019-10-31 日本電信電話株式会社 検知システムおよび検知方法
JP7119537B2 (ja) 2018-04-24 2022-08-17 日本電信電話株式会社 検知システムおよび検知方法

Also Published As

Publication number Publication date
JP5142723B2 (ja) 2013-02-13
CN101273403B (zh) 2012-01-18
JPWO2007043642A1 (ja) 2009-04-16
US8069035B2 (en) 2011-11-29
EP1933304A1 (en) 2008-06-18
CN101273403A (zh) 2008-09-24
EP1933304A4 (en) 2011-03-16
US20090030677A1 (en) 2009-01-29

Similar Documents

Publication Publication Date Title
WO2007043642A1 (ja) スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法
JP7245856B2 (ja) 符号化器、復号器ならびに隠蔽を増強するためのパラメータを使用してオーディオ内容を符号化および復号するための方法
EP1959431B1 (en) Scalable coding apparatus and scalable coding method
US8630864B2 (en) Method for switching rate and bandwidth scalable audio decoding rate
RU2496156C2 (ru) Маскирование ошибки передачи в цифровом аудиосигнале в иерархической структуре декодирования
US10504525B2 (en) Adaptive forward error correction redundant payload generation
WO2005106848A1 (ja) スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
KR102171293B1 (ko) 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
Atti et al. Improved error resilience for VOLTE and VOIP with 3GPP EVS channel aware coding
JP2000357999A (ja) 復号装置及び方法、並びにプログラム提供媒体
WO2006120931A1 (ja) 符号化装置、復号化装置及びこれらの方法
JP2001265397A (ja) 入力信号をボコーディングする方法と装置
EP1387351B1 (en) Speech encoding device and method having TFO (Tandem Free Operation) function
Zhong et al. Speech coding and transmission for improved automatic recognition
JPH10154999A (ja) 音声符号化装置および音声復号化装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680035365.1

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2007539997

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 12089983

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2006811732

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE