WO2010103854A2 - 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法 - Google Patents

音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法 Download PDF

Info

Publication number
WO2010103854A2
WO2010103854A2 PCT/JP2010/001792 JP2010001792W WO2010103854A2 WO 2010103854 A2 WO2010103854 A2 WO 2010103854A2 JP 2010001792 W JP2010001792 W JP 2010001792W WO 2010103854 A2 WO2010103854 A2 WO 2010103854A2
Authority
WO
WIPO (PCT)
Prior art keywords
encoding
speech
decoding
lower layer
decoded signal
Prior art date
Application number
PCT/JP2010/001792
Other languages
English (en)
French (fr)
Other versions
WO2010103854A3 (ja
Inventor
森井利幸
江原宏幸
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to US13/255,810 priority Critical patent/US20110320193A1/en
Priority to EP10750610A priority patent/EP2407964A2/en
Priority to JP2011503737A priority patent/JPWO2010103854A1/ja
Publication of WO2010103854A2 publication Critical patent/WO2010103854A2/ja
Publication of WO2010103854A3 publication Critical patent/WO2010103854A3/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Definitions

  • the present invention relates to a speech encoding device, a speech decoding device, a speech encoding method, and a speech decoding method.
  • IP Internet Protocol
  • MPEG Motion Picture Experts Group
  • CELP Code Excited Linear Prediction
  • MPEG standard ACC MPEG standard ACC, MP3, etc.
  • MPEG standard ACC MPEG standard ACC, MP3, etc.
  • This codec is a codec in which the frequency band to be covered is hierarchical, and the quantization error of the lower layer is encoded by the upper layer.
  • Patent Document 1 discloses a hierarchical coding method in which a lower layer quantization error is encoded in an upper layer, and a method of performing a wider frequency band encoding from lower to higher using sampling conversion. Is disclosed.
  • a plurality of enhancement layers are prepared on top of a core codec, and a configuration in which encoding distortion of a lower layer (lower layer) is encoded by an upper layer (upper layer) and transmitted is common. is there.
  • the signals input to each layer have a correlation, it is effective to improve the encoding accuracy to efficiently encode the upper layer using the encoding information from the lower layer.
  • the decoder also performs decoding at the upper layer using the lower layer encoding information.
  • Patent Document 2 discloses a method of using various encoded information of lower layers in each layer based on CELP.
  • Patent Document 2 discloses a scalable codec that has two layers of a core and an extension, a multi-stage type that encodes a differential signal in the extension layer, and a frequency scalable that changes the frequency band of speech. It is disclosed.
  • it is lower layer layer information sent from block 15 to block 17 that greatly contributes to performance. With this information, the extended encoder can perform more accurate encoding.
  • codecs with better coding accuracy may be developed one after another, and there is a need to use cheaper codecs from the viewpoint of commercialization. There is sex.
  • the present invention has been made in view of such a point, and even when the core encoder and the core decoder of each layer are replaced with different core encoders and core decoders, encoding is performed in the extension encoder.
  • a speech encoding device, speech decoding device, speech encoding method, and speech decoding method capable of performing encoding and decoding with high accuracy by enabling the use of an appropriate codec each time The purpose is to provide.
  • a speech encoding apparatus is a speech encoding device that hierarchically encodes speech signals using lower layer layer information in an upper layer, and generates a code by encoding the speech signals.
  • the structure which comprises these is taken.
  • the speech decoding apparatus is a speech encoding apparatus that inputs and decodes encoded information generated by hierarchically encoding speech signals using lower layer encoding side layer information in the upper layer in the speech encoding apparatus.
  • a decoding device wherein a first decoding means for decoding a code related to a lower layer in the encoded information to generate a first decoded signal, and an input of the first decoded signal for analysis processing and correction processing And a second decoded signal by decoding the code related to the upper layer of the encoded information using the lower layer decoding side layer information. And a second decryption means for generating.
  • the speech encoding method of the present invention is a speech encoding method for hierarchically encoding speech signals using lower layer information in the upper layer, and the step of generating a code by encoding the speech signals Decoding the code to generate a decoded signal; detecting a coding residual between the speech signal and the decoded signal; and performing analysis processing and correction processing on the decoded signal, A step of generating lower layer layer information; and a step of encoding the encoding residual using the audio signal and the lower layer layer information.
  • the speech decoding method of the present invention is a speech decoding method for decoding encoded information generated by hierarchically encoding speech signals using lower layer encoding side layer information in an upper layer in a speech encoding device.
  • the core encoder and core decoder of each layer are respectively replaced with different core encoders and core decoders, encoding can be performed in the extension encoder, Since an appropriate codec can be used each time, highly accurate encoding and decoding can be performed.
  • Diagram showing the analysis window using the prefetch section The figure which shows the analysis window which concerns on Embodiment 1 of this invention.
  • the block diagram which shows the structure of the core encoder of patent document 2 The block diagram which shows the structure of the auxiliary analysis part which concerns on Embodiment 2 of this invention.
  • FIG. 1 is a block diagram showing a configuration of speech encoding apparatus 100 according to Embodiment 1 of the present invention.
  • the speech encoding apparatus 100 includes a frequency adjustment unit 101, a core encoder 102, a core decoder 104, a frequency adjustment unit 105, an addition unit 106, an auxiliary analysis unit 107, and an extension encoder 108. Mainly composed. Each configuration will be described in detail below.
  • the frequency adjusting unit 101 down-samples the input audio signal and outputs the obtained audio signal (narrowband audio signal) to the core encoder 102.
  • the frequency adjustment unit 101 then picks up every other signal and stores it in a memory (thus decimating one in two) to obtain a signal of 8 kHz sampling.
  • the core encoder 102 can be appropriately replaced with a different core encoder and core decoder together with the core decoder 104 described later, encodes the audio signal input from the frequency adjustment unit 101, and converts the obtained code into The data is output to the transmission path 103 and the core decoder 104.
  • the transmission path 103 transmits the code obtained by the core encoder 102 and the code obtained by the extension encoder 108 to a speech decoding apparatus to be described later.
  • the core decoder 104 can be appropriately replaced together with the core encoder 102, and obtains a decoded signal by performing decoding using the code input from the core encoder 102. Then, the core decoder 104 outputs the obtained decoded signal to the frequency adjustment unit 105 and the auxiliary analysis unit 107.
  • the frequency adjustment unit 105 up-samples the decoded signal input from the core decoder 104 to the sampling rate of the audio signal input to the frequency adjustment unit 101, and outputs the result to the addition unit.
  • the adding unit 106 inverts the polarity of the decoded signal input from the frequency adjusting unit 105 and adds it to the audio signal input to the frequency adjusting unit 101 to obtain an encoding residual. That is, the adding unit 106 subtracts the decoded signal from the audio signal input to the frequency adjusting unit 101. Then, the adding unit 106 outputs the encoding residual obtained by this processing to the extension encoder 108.
  • the auxiliary analysis unit 107 analyzes the decoded speech signal input from the core decoder 104 to obtain lower layer information. Then, the auxiliary analysis unit 107 outputs the obtained lower layer information to the extension encoder 108.
  • the lower layer information is a decoded LPC (Linear (Prediction Coefficient) parameter obtained by encoding an LPC parameter obtained by LPC analysis and further decoding the encoded LPC parameter.
  • the decoded LPC parameter indicates the outline of the low frequency spectrum of the speech signal, and is an effective parameter for predicting the spectrum remaining in the low frequency spectrum in the extension encoder 108.
  • the amount of calculation is increased and the code needs to be transmitted, resulting in an increase in cost.
  • the auxiliary analysis unit 107 assumes that the LPC parameter obtained by performing LPC analysis on the decoded speech signal obtained by the core decoder 104 approximates the decoded LPC parameter. Output. Details of the configuration of the auxiliary analysis unit 107 will be described later.
  • the extension encoder 108 inputs the speech signal input to the speech encoding device 100, the encoding residual obtained by the addition unit 106, and the lower layer information obtained by the auxiliary analysis unit 107. Then, the extension encoder 108 performs efficient encoding residual encoding using information obtained from the audio signal and lower layer information, and outputs the obtained code to the transmission path 103. .
  • FIG. 2 is a block diagram illustrating a configuration of the auxiliary analysis unit 107.
  • the layer information of the lower layer is assumed to be an LPC parameter.
  • the auxiliary analysis unit 107 mainly includes a correction parameter storage unit 201, an LPC analysis unit 202, and a correction processing unit 203.
  • the correction parameter storage unit 201 stores correction parameters. A method for setting correction parameters will be described later.
  • the LPC analysis unit 202 performs LPC analysis on the decoded speech signal input from the core decoder 104 to obtain LPC parameters. Then, the LPC analysis unit 202 outputs the LPC parameters to the correction processing unit 203.
  • the correction processing unit 203 reads the correction parameters stored in the correction parameter storage unit 201, and corrects the LPC parameters input from the LPC analysis unit 202 using the read parameters. Then, the modification processing unit 203 outputs the modified LPC parameter to the extension encoder 108 as a decoded LPC parameter.
  • FIG. 3 is a block diagram showing a configuration of speech decoding apparatus 300.
  • the speech decoding apparatus 300 mainly includes a core decoder 302, a frequency adjusting unit 303, an auxiliary analyzing unit 304, an extended decoder 305, and an adding unit 306. Each configuration will be described in detail below.
  • the core decoder 302 obtains the synthesized sound A by decoding the code obtained from the transmission path 301. Further, the core decoder 302 outputs the synthesized sound A to the frequency adjustment unit 303 and the auxiliary analysis unit 304. At this time, the core decoder 302 performs auditory adjustment and outputs the synthesized sound A.
  • the frequency adjusting unit 303 performs upsampling on the synthesized sound A input from the core decoder 302 and outputs the synthesized sound A after the upsampling to the adding unit 306.
  • the auxiliary analysis unit 304 performs a part of the encoding process on the synthesized sound A input from the core decoder 302 to obtain lower layer information, and sends the obtained lower layer information to the extension decoder 305. Output.
  • the auxiliary analysis unit 304 has the same configuration as FIG.
  • the extended decoder 305 decodes the code acquired from the transmission path 301 using the lower layer layer information input from the auxiliary analysis unit 304 to obtain a synthesized sound. Then, extended decoder 305 outputs the obtained synthesized sound to addition section 306.
  • the extended decoder 305 can obtain a synthesized sound of good quality by performing decoding using lower layer layer information corresponding to the speech decoding apparatus 300.
  • the adding unit 306 adds the synthesized sound A after upsampling obtained from the frequency adjusting unit 303 and the synthesized sound obtained from the extension decoder 305 to obtain the synthesized sound B, and outputs the obtained synthesized sound B. .
  • FIG. 4 is a diagram illustrating an analysis window (window function) using a prefetch interval.
  • the LPC analysis unit 202 may perform LPC analysis of the same order using this analysis window.
  • a delay corresponding to the prefetch section occurs. In this embodiment, setting is made so that analysis is performed only in the frame section of the decoded speech signal without using the prefetch section.
  • FIG. 5 is a diagram showing an example of an analysis window used in the present embodiment. That is, in this embodiment, as shown in FIG. 5, an asymmetric window up to immediately before the prefetch section is used. Specifically, good performance can be obtained by using a Hanning window in the first half and a sine window in the second half. The ratio of the length of each window is determined by adjusting with reference to the encoding residual (encoding distortion) input to the extension encoder 108. By setting such an analysis window, it is possible to prevent the auxiliary analyzer 107 from generating a delay. Note that the auxiliary analysis unit 304 can also prevent delays by using an asymmetric window in the same manner as the auxiliary analysis unit 107.
  • the characteristics of the input speech and the decoded speech are changed due to the encoding and decoding, and the characteristics of the analysis window are changed as shown in FIG. Corrections are made to the two changes so that the extended encoder 108 can perform more accurate encoding.
  • the correction amount is expressed as a difference of LSP (line spectrum pair). The procedure is shown below.
  • correction processing for maintaining the LSP conversion and the ascending order shown above is a general processing disclosed in most textbooks and standards that describe the speech codec algorithm based on the CELP method. Omitted.
  • the correction parameter is a parameter that depends on the core encoder 102 and the core decoder 104, and is obtained by learning after the core encoder 102 and the core decoder 104 are mounted.
  • speech data for correction parameter learning (which is arbitrary but preferably covers all variations of the spectrum) is input to the speech coding apparatus 100 as a speech signal.
  • LPC parameters obtained by the analysis in the LPC analysis unit of the core encoder 102 converted to LSP (hereinafter referred to as “parameter A”) are collected.
  • an LSP (hereinafter referred to as “parameter B”) obtained by analyzing the decoded speech signal obtained through the core encoder 102 and the core decoder 104 in the LPC analysis unit 202 of the auxiliary analysis unit 107. To collect. This process is performed for a large number of corrected parameter learning speech data, and parameters A and B are collected. Then, when the collection is completed, the parameters A and B that minimize the cost function of Equation (2) are obtained using all the parameters.
  • the correction parameters obtained by the equation (3) are stored in the correction parameter storage unit 201 of the auxiliary analysis unit 107 and the correction parameter storage unit (not shown) of the auxiliary analysis unit 304.
  • FIG. 6 is a block diagram showing the configuration of the core encoder described in Patent Document 2. Since each component of the core encoder in FIG. 6 is described in Patent Document 2, the description thereof is omitted.
  • a signal line L1 that connects an LPC analyzer that performs LPC analysis and performs quantization and inverse quantization and an extension encoder conveys layer information of a lower layer in the present embodiment.
  • the auxiliary analyzers 107 and 304 may have the same configuration as the core encoder shown in FIG. However, since only the LPC parameter is lower layer layer information, most blocks of the core encoder of FIG. 6 are not necessary, and the auxiliary analysis units 107 and 304 need only have the configuration of FIG.
  • the signal input from the core decoder 104 to the auxiliary analyzer 107 and the signal input from the core decoder 302 to the auxiliary analyzer 304 are decoded signals, which are the same on both the encoder side and the decoder side. As a result, only the analysis can be obtained corresponding to the LPC parameters.
  • the present embodiment even when the lower layer is replaced with a new core encoder and core decoder, layer information of the lower layer similar to that before the replacement can be obtained. As a result, even when the core encoder and core decoder of each layer are replaced, it is possible to perform encoding in the extension encoder, and an appropriate codec can be used each time. High encoding and decoding can be performed. Further, according to the present embodiment, since analysis is performed by setting a window that does not include a prefetch section, a delay associated with analysis can be suppressed. Further, according to the present embodiment, the characteristics of the input speech and the decoded speech are changed due to the encoding and decoding, and the window characteristics are changed using the correction parameters. to correct. As a result, the parameter obtained by analyzing the input speech signal can be statistically approximated, and encoding with higher accuracy can be performed.
  • FIG. 7 is a block diagram showing a configuration of auxiliary analysis unit 700 according to Embodiment 2 of the present invention.
  • the speech encoding apparatus has the same configuration as that of FIG. 1 except that the auxiliary analysis unit 107 is replaced with the auxiliary analysis unit 700, the description thereof is omitted.
  • each structure other than the auxiliary analysis part 700 is demonstrated using the reference number of FIG.
  • the auxiliary analysis unit 700 mainly includes a correction parameter storage unit 701, a correction processing unit 702, and an LPC analysis unit 703.
  • the correction parameter storage unit 701 stores correction parameters. A method for setting correction parameters will be described later.
  • the correction processing unit 702 reads the correction parameters stored in the correction parameter storage unit 701, and corrects the decoded signal input from the core decoder 104 using the read correction parameters. Then, the correction processing unit 702 outputs the corrected decoded signal to the LPC analysis unit 703.
  • the LPC analysis unit 703 performs LPC analysis on the decoded signal input from the correction processing unit 702 to obtain LPC parameters. Then, the LPC analysis unit 703 outputs the LPC parameters to the extension encoder 108.
  • the speech decoding apparatus has the same configuration as that of FIG. 3 except that the auxiliary analysis unit 304 has the configuration of the auxiliary analysis unit of FIG.
  • correction by MA Moving Average filtering
  • filtering is performed using the correction parameters stored in the correction parameter storage unit 701. An example of this is shown in equation (4).
  • the modified decoded speech signal obtained by the equation (4) is output to the LPC analysis unit 703.
  • the difference from the correction of the LPC parameter in the first embodiment is that in this embodiment, the calculation for converting to the LSP parameter does not have to be performed, but the difference in the LPC analysis window cannot be corrected. It is.
  • the correction parameters are obtained by prior learning after replacing the codec.
  • the input signal is correction parameter learning speech data similar to that of the first embodiment.
  • the difference from Embodiment 1 is that a signal input to core encoder 102 (hereinafter referred to as “C signal”) and a decoded speech signal input to auxiliary analysis unit 700 (hereinafter referred to as “D signal”). Is to collect.
  • a C signal and a D signal that minimize the cost function F in the equation (5) are obtained using a large number of collected signals. At this time, it is necessary to completely match the phases (sample timings) of the two signals.
  • the correction parameters obtained from the equation (6) are stored in the correction parameter storage units 701 on the encoder side and the decoding side.
  • the present embodiment even when the lower layer is replaced with a new core encoder and core decoder, layer information of the lower layer similar to that before the replacement can be obtained. As a result, even when the core encoder and core decoder of each layer are replaced, it is possible to perform encoding in the extension encoder, and an appropriate codec can be used each time. High encoding and decoding can be performed. Further, according to the present embodiment, since analysis is performed by setting a window that does not include a prefetch section, a delay associated with analysis can be suppressed. Further, according to the present embodiment, the fact that the characteristics of the input speech and the decoded speech have changed due to the encoding and decoding is corrected using the correction parameter. As a result, the parameter obtained by analyzing the input speech signal can be statistically approximated, and encoding with higher accuracy can be performed.
  • the correction processing units 203 and 702 perform correction using LSP addition.
  • the present invention is not limited to this, and the linear sum, matrix multiplication, or matrix is not limited thereto. May be used.
  • the LPC system parameters such as LPC spectrum, PARCOR (Partial-Auto Correlation), ISP (Immittance Spectral-Pair), or autocorrelation coefficients can be realized in the same manner as parameters to be corrected. Obviously, the present invention does not depend on the correction method or the parameters to be corrected.
  • the correction processing units 203 and 702 are filtered by the MA type.
  • the present invention is not limited to this, and the IIR (InfiniteInImpulse Response) type is also used for the AR (Auto Regressive) type.
  • the present invention does not depend on the shape of the filter.
  • the correction processing units 203 and 702 perform filtering.
  • the present invention is not limited to this, and addition of an amplifier (amplitude), gain addition, and the like. May be used. This is because the present invention does not depend on the correction processing method.
  • the scalable codec with the core layer replaced is used.
  • the present invention is not limited to this, and a switch and a conventional codec may be added to the configuration. At this time, the codec replaced with the conventional codec may be switched by a switch.
  • the decoding LPC parameter is used as the encoding information.
  • the present invention is not limited to this, and the present invention can be realized in the case of other parameters as well.
  • the total power or the band power obtained with a relatively small amount of calculation from the input speech, the gain representing the period or the degree of periodicity obtained by pitch analysis, and the like can be mentioned.
  • the parameters obtained by moving the CELP encoder of FIG. 6 such as the probability codebook gain to the end are difficult to use because of the large amount of calculation.
  • an encoding method for directly encoding a time series signal such as CELP is used as the core encoder, but the present invention is not limited to this, and the MDCT ( Conversion coding such as spectrum coding by Modified Discrete Cosine Transform) or waveform coding such as ADPCM (Adaptive Differential Pulse Code Modulation) may be used. Also, from this, it is clear that in the present invention, any new codec may be used. If it is desired to pass the spectrum encoding to the expansion unit in the form of a spectrum, the input of the auxiliary analysis units 107 and 304 is a spectrum. It is clear that the present invention does not depend on the original codec and the coding method of the codec to be replaced.
  • the present invention is not limited to this and is currently being standardized and in the process of considering standardization.
  • a large number of layers of three or more may be used, such as the number of layers of a scalable codec at a practical stage.
  • the ITU-T standard G.729.1 has as many as 12 layers. Even in this case, it is apparent that the present invention is effective. This is because the present invention does not depend on the number of layers.
  • the replacement of the core codec has been described.
  • the present invention is not limited to this, and it is obvious that the present invention can be used for the replacement of the extension layer.
  • the encoding information of the enhancement layer is used in a higher layer, if the auxiliary codec composed of a part of the enhancement layer before replacing the decoded signal of the replaced layer is used, the replacement is performed in the same manner as in the present invention. I can do it.
  • the present invention is not limited to this, and the present invention is effective even when the frequency does not change. This is because the present invention does not depend on the presence or absence of the frequency adjustment unit.
  • Embodiment 1 and Embodiment 2 is an illustration of a preferred embodiment of the present invention, and the scope of the present invention is not limited to this.
  • the present invention can be applied to any system as long as the system includes an encoding device.
  • the speech encoding apparatus and speech decoding apparatus described in Embodiment 1 and Embodiment 2 above can be mounted on a communication terminal apparatus and base station apparatus in a mobile communication system. Thereby, it is possible to provide a communication terminal device, a base station device, and a mobile communication system having the same effects as described above.
  • the present invention is not limited to this, and can be realized with software.
  • the algorithm according to the present invention in a programming language, storing the program in a memory and executing it by the information processing means, the same function as the speech encoding apparatus according to the present invention is realized. Can do.
  • each functional block of the first embodiment and the second embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • the LSI may be referred to as an IC, a system LSI, a super LSI, or an ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
  • the speech encoding apparatus, speech decoding apparatus, speech encoding method, and speech decoding method according to the present invention are particularly suitable for a scalable codec having a multilayer structure.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 各レイヤのコア符号化器及びコア復号器を入れ替えた場合でも、拡張符号化器において符号化を可能にすることができるとともに、都度適切なコーデックを使用することにより、精度の高い符号化を行うことができる音声符号化装置。この音声符号化装置(100)は、下位層のレイヤ情報を上位層で使用して音声信号を階層的に符号化する。また、この音声符号化装置(100)では、コア符号化器(102)は、音声信号を符号化して符号を生成する。コア復号器(104)は、コア符号化器(102)で生成された符号を復号して復号信号を生成する。加算部(106)は、音声信号とコア復号器(104)で生成された復号信号との符号化残差を検出する。補助分析部(107)は、復号信号を入力して分析処理及び修正処理を行い、下位層のレイヤ情報を生成する。拡張符号化器(108)は、音声信号と下位層のレイヤ情報とを用いて符号化残差を符号化する。

Description

音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
 本発明は、音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法に関する。
 移動体通信においては伝送帯域の有効利用のために音声または画像のディジタル情報の圧縮符号化が必須である。その中でも携帯電話で広く利用されている音声コーデック(符号化/復号化)技術に対する期待は大きく、圧縮率の高い従来の高効率符号化に更によりよい音質の要求が強まっている。
 近年、多層構造を持つスケーラブルコーデックは、より効率的で高品質の音声コーデックとしてIP(Internet Protocol)通信網に用いられ、ITU-T(International Telecommunication Union - Telecommunication Standardization Sector)やMPEG(Moving Picture Experts Group)で標準化が検討されている。
 20年前に確立された音声の発声機構をモデル化してベクトル量子化を応用した基本方式であるCELP(Code Excited Linear Prediction)によって大きく性能を向上させた音声符号化技術や、オーディオ符号化で用いられてきた変換符号化技術(MPEG標準ACCやMP3等)により音声・楽音符号化技術は大きく前進し、高品質の通信や音楽鑑賞が可能になった。さらに近年はオールIP化、シームレス化またはブロードバンド化を睨み、音声からオーディオまでをカバーするようなスケーラブルコーデックの開発や標準化(ITU-T SG16 WP3)も進んでいる。このコーデックは、カバーする周波数帯域が階層的になっており、下位層の量子化誤差を上位層で符号化するコーデックである。
 特許文献1には、下位層の量子化誤差を上位層で符号化する階層型符号化の方法、及びサンプリング変換を用いて下位から上位に向かってより広い周波数帯域の符号化を行っていく方法について開示されている。
 ここで、スケーラブルコーデックでは、コアコーデックの上に拡張レイヤが複数準備されており、下位層(下位レイヤ)の符号化歪みを上位層(上位レイヤ)で符号化して伝送するという構成が一般的である。この際、各層に入力される信号に相関があるために、下位層からの符号化情報を用いて、上位層で効率よく符号化することは符号化の精度向上に有効である。なお、この場合、復号器でも下位層の符号化情報を用いて上位層で復号化する。
 特許文献2には、CELPを基本方式とする各レイヤで下位層の様々な符号化情報を利用する方法について開示されている。また、特許文献2には、コアと拡張の2階層を有し、拡張レイヤでは差分信号を符号化するマルチステージ型であり、音声の周波数帯域が変わる周波数スケーラブルであるという特徴を持つスケーラブルコーデックが開示されている。特許文献2の符号化装置において、性能に大きく貢献するのが、ブロック15からブロック17へ送られる下位層レイヤ情報である。この情報によって拡張符号化器ではより精度の高い符号化が出来る。
 また、符号化アルゴリズムは年々進歩しており、より符号化精度の良いコーデックが次々と開発される可能性があり、また事業化の観点から費用の安いコーデックを使用するというニーズが産まれてくる可能性がある。
特開平8-263096号公報 特開2006-72026号公報
 しかしながら、従来の装置においては、各レイヤのコア符号化器及びコア復号器を入れ替えた場合、拡張符号化器は、入れ替える前のコア復号器から受け取る下位層レイヤ情報を前提に開発されているので、拡張符号化器における符号化ができなくなるという問題がある。
 本発明はかかる点に鑑みてなされたものであり、各レイヤのコア符号化器及びコア復号器を異なるコア符号化器及びコア復号器にそれぞれ入れ替えた場合でも、拡張符号化器において符号化を可能にすることができるとともに、都度適切なコーデックを使用することができることにより、精度の高い符号化及び復号を行うことができる音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法を提供することを目的とする。
 本発明の音声符号化装置は、下位層のレイヤ情報を上位層で使用して音声信号を階層的に符号化する音声符号化装置であって、前記音声信号を符号化して符号を生成する第1の符号化手段と、前記符号を復号して復号信号を生成する復号手段と、前記音声信号と前記復号信号との符号化残差を検出する検出手段と、前記復号信号を入力し、分析処理及び修正処理を行うことにより前記下位層のレイヤ情報を生成する分析手段と、前記音声信号と前記下位層のレイヤ情報とを用いて前記符号化残差を符号化する第2の符号化手段と、を具備する構成を採る。
 本発明の音声復号装置は、音声符号化装置において下位層の符号化側レイヤ情報を上位層で使用して音声信号を階層的に符号化して生成された符号化情報を入力して復号する音声復号装置であって、前記符号化情報のうち下位層に関する符号を復号して第1の復号信号を生成する第1の復号手段と、前記第1の復号信号を入力し、分析処理及び修正処理を行うことにより下位層の復号側レイヤ情報を生成する分析手段と、前記符号化情報のうち上位層に関する符号を、前記下位層の復号側レイヤ情報を用いて復号することにより第2の復号信号を生成する第2の復号手段と、を具備する構成を採る。
 本発明の音声符号化方法は、下位層のレイヤ情報を上位層で使用して音声信号を階層的に符号化する音声符号化方法であって、前記音声信号を符号化して符号を生成するステップと、前記符号を復号して復号信号を生成するステップと、前記音声信号と前記復号信号との符号化残差を検出するステップと、前記復号信号に関して、分析処理及び修正処理を行うことにより前記下位層のレイヤ情報を生成するステップと、前記音声信号と前記下位層のレイヤ情報とを用いて前記符号化残差を符号化するステップと、を具備するようにした。
 本発明の音声復号方法は、音声符号化装置において下位層の符号化側レイヤ情報を上位層で使用して音声信号を階層的に符号化して生成された符号化情報を復号する音声復号方法であって、前記符号化情報のうち下位層に関する符号を復号して第1の復号信号を生成するステップと、前記第1の復号信号に関して、分析処理及び修正処理を行うことにより下位層の復号側レイヤ情報を生成するステップと、前記符号化情報のうち上位層に関する符号を、前記下位層の復号側レイヤ情報を用いて復号することにより第2の復号信号を生成するステップと、を具備するようにした。
 本発明によれば、各レイヤのコア符号化器及びコア復号器を異なるコア符号化器及びコア復号器にそれぞれ入れ替えた場合でも、拡張符号化器において符号化を可能にすることができるとともに、都度適切なコーデックを使用することができることにより、精度の高い符号化及び復号を行うことができる。
本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図 本発明の実施の形態1に係る補助分析部の構成を示すブロック図 本発明の実施の形態1に係る音声復号装置の構成を示すブロック図 先読み区間を用いた分析窓を示す図 本発明の実施の形態1に係る分析窓を示す図 特許文献2のコア符号化器の構成を示すブロック図 本発明の実施の形態2に係る補助分析部の構成を示すブロック図
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
 (実施の形態1)
 図1は、本発明の実施の形態1に係る音声符号化装置100の構成を示すブロック図である。
 音声符号化装置100は、周波数調整部101と、コア符号化器102と、コア復号器104と、周波数調整部105と、加算部106と、補助分析部107と、拡張符号化器108とから主に構成される。以下に、各構成について、詳細に説明する。
 周波数調整部101は、入力した音声信号をダウンサンプリングし、得られる音声信号(狭帯域音声信号)をコア符号化器102へ出力する。ダウンサンプリングの方法は様々あり、低域透過(Low-pass)フィルタを通過させて間引く方法が一例としてあげられる。例えば、16kHzサンプリングの入力音声を8kHzサンプリングに変換する場合は、4kHz(8kHzサンプリングのナイキスト周波数)以上の周波数成分が極小さくなるような低域透過フィルタを掛ける。そして、周波数調整部101は、その後1つ置きに信号をピックアップして(2つに1つを間引いたことになる)メモリに格納することにより8kHzサンプリングの信号が得られる。
 コア符号化器102は、後述するコア復号器104と共に、それぞれ異なるコア符号化器及びコア復号器に適宜置き換え可能であり、周波数調整部101から入力した音声信号を符号化し、得られた符号を伝送路103とコア復号器104へ出力する。
 伝送路103は、コア符号化器102にて得られた符号及び拡張符号化器108にて得られた符号を後述する音声復号装置に伝送する。
 コア復号器104は、コア符号化器102と共に適宜置き換え可能であり、コア符号化器102から入力した符号を用いて復号を行うことにより復号化信号を得る。そして、コア復号器104は、得られた復号化信号を周波数調整部105及び補助分析部107へ出力する。
 周波数調整部105は、コア復号器104から入力した復号化信号に対して、周波数調整部101に入力する音声信号のサンプリングレートにまでアップサンプリングを行い、加算部106へ出力する。アップサンプリングの方法は様々あり、サンプルの間に0を挿入してサンプル数を増やし、低域透過(Low-pass)フィルタによって周波数成分を調整してから、パワーを調整するという方法が一例として挙げられる。
 加算部106は、周波数調整部105から入力した復号化信号の極性を反転して、周波数調整部101に入力する音声信号と加算することにより、符号化残差を得る。すなわち、加算部106は、周波数調整部101に入力する音声信号から復号化信号を減ずる。そして、加算部106は、この処理で得られた符号化残差を拡張符号化器108へ出力する。
 補助分析部107は、コア復号器104から入力した復号化音声信号に対して分析を行い、下位層のレイヤ情報を得る。そして、補助分析部107は、得られた下位層のレイヤ情報を拡張符号化器108へ出力する。ここで、下位層のレイヤ情報は、LPC分析して得られたLPCパラメータを符号化し、更に符号化したLPCパラメータを復号することによって得られる復号化LPC(Linear Prediction Coefficient)パラメータである。復号化LPCパラメータは、音声信号の低域スペクトルの概形を示すものであり、拡張符号化器108において低域のスペクトルに残留するスペクトルを予測するのに有効なパラメータである。ただし、実際に符号化と復号を行うと計算量が多くなる上に符号を伝送する必要もあり、コストの増大を招く。従って、本実施の形態においては、補助分析部107は、コア復号器104により得られた復号音声信号に対してLPC分析を行って得られたLPCパラメータを、復号化LPCパラメータに近似したものとして出力する。なお、補助分析部107の構成の詳細については後述する。
 拡張符号化器108は、音声符号化装置100に入力した音声信号と、加算部106において得られた符号化残差と、補助分析部107において得られた下位層のレイヤ情報とを入力する。そして、拡張符号化器108は、音声信号から得られる情報と下位層のレイヤ情報とを利用して符号化残差の効率的な符号化を行い、得られた符号を伝送路103へ出力する。
 次に、補助分析部107の構成について、図2を用いて説明する。図2は、補助分析部107の構成を示すブロック図である。なお、図2の説明においては、下位層のレイヤ情報をLPCパラメータとする。
 補助分析部107は、修正パラメータ格納部201と、LPC分析部202と、修正処理部203とから主に構成される。
 修正パラメータ格納部201は、修正用のパラメータを格納する。なお、修正用のパラメータの設定方法については後述する。
 LPC分析部202は、コア復号器104から入力した復号化音声信号に対してLPC分析を行い、LPCパラメータを得る。そして、LPC分析部202は、LPCパラメータを修正処理部203へ出力する。
 修正処理部203は、修正パラメータ格納部201に格納している修正用のパラメータを読み出し、読み出したパラメータを用いて、LPC分析部202から入力したLPCパラメータの修正を行う。そして、修正処理部203は、修正したLPCパラメータを復号化LPCパラメータとして拡張符号化器108へ出力する。
 以上で、音声符号化装置100の構成の説明を終える。
 次に、音声復号装置300の構成について、図3を用いて説明する。図3は、音声復号装置300の構成を示すブロック図である。
 音声復号装置300は、コア復号器302と、周波数調整部303と、補助分析部304と、拡張復号器305と、加算部306とから主に構成される。以下に、各構成について、詳細に説明する。
 コア復号器302は、伝送路301から得た符号を復号して合成音Aを得る。また、コア復号器302は、合成音Aを周波数調整部303及び補助分析部304へ出力する。この際、コア復号器302は、聴感的な調整を行って合成音Aとして出力する。
 周波数調整部303は、コア復号器302から入力した合成音Aに対してアップサンプリングを行い、アップサンプリング後の合成音Aを加算部306へ出力する。
 補助分析部304は、コア復号器302から入力した合成音Aに対して符号化処理の一部を行って下位層のレイヤ情報を取得し、取得した下位層のレイヤ情報を拡張復号器305へ出力する。ここで、補助分析部304は、図2と同一構成を有する。
 拡張復号器305は、補助分析部304から入力した下位層のレイヤ情報を用いて、伝送路301から取得した符号を復号して合成音を得る。そして、拡張復号器305は、得られた合成音を加算部306へ出力する。拡張復号器305は、音声復号装置300に対応した下位層のレイヤ情報を利用して復号を行うことにより、良好な品質の合成音を得ることができる。
 加算部306は、周波数調整部303から得られたアップサンプリング後の合成音Aと拡張復号器305から得られた合成音とを加算して合成音Bを求め、求めた合成音Bを出力する。
 以上で、音声復号装置300の構成の説明を終える。
 次に、LPC分析部202におけるLPC分析について説明する。
 LPC分析では一般に先読み区間(未来の入力音声)を用いた分析窓を用いる。図4は、先読み区間を用いた分析窓(窓関数)を示す図である。
 窓の種類としては、ハミング窓、ハニング窓、サイン窓またはブラックマンハリス窓などが挙げられる。したがって、LPC分析部202では、この分析窓を用いて、同じ次数のLPC分析を行えばよい。しかし、補助分析部107において、図4の分析窓を用いた場合には、先読み区間分の遅延が発生してしまう。本実施の形態では、先読み区間を使用せずに、復号化音声信号のフレーム区間のみで分析するように設定する。
 図5は、本実施の形態で用いる分析窓の一例を示す図である。即ち、本実施の形態では、図5に示すように、先読み区間の直前までの非対称窓を用いる。具体的には、前半をハニング窓にするとともに、後半をサイン窓にすることにより、良好な性能を得ることができる。各窓の長さの割合については、拡張符号化器108に入力する符号化残差(符号化歪み)を参照しながら調整して決定する。このような分析窓を設定することにより、補助分析部107での遅延発生を防ぐことができる。なお、補助分析部304についても、補助分析部107と同様に非対称窓を用いることにより、遅延発生を防ぐことができる。
 次に、修正処理部203における処理について説明する。
 修正処理部203では、符号化と復号化を受けて入力音声と復号化音声の特性が変化していることと、図5に示すように分析窓の特性が変化していることとの、2つの変化に対する修正を行い、拡張符号化器108でより精度の高い符号化ができるようにする。
 本実施の形態ではLSP(line spectrum pair)の差分として補正分を表すこととする。手順を以下に示す。
 1)LPC分析部202において得られたLPCパラメータをLSPへ変換する。
 2)(1)式に示すように、修正パラメータ格納部201の修正用のパラメータと修正前のLSPとを加算して修正後のLSPを求める。
Figure JPOXMLDOC01-appb-M000001
 3)LSPの昇順関係が保たれるように補正を行う。
 4)LSPを逆変換することによりLPCパラメータに戻す。
 上記に示すLSP変換や昇順関係を保つ補正処理については、CELP方式に基づく音声コーデックのアルゴリズムが記載されている教科書や規格書の殆どに開示されている一般的な処理であるので、その説明を省略する。
 次に、修正パラメータ格納部201に格納される修正用のパラメータの設定方法について説明する。
 修正用のパラメータは、コア符号化器102及びコア復号器104に依存するパラメータであり、コア符号化器102及びコア復号器104を実装した後に学習により求める。
 まず、修正パラメータ学習用音声データ(任意であるが、スペクトルのあらゆるヴァリエーションを網羅していることが望ましい)を音声符号化装置100に音声信号として入力する。そして、コア符号化器102のLPC分析部における分析で得られるLPCパラメータをLSPに変換したもの(以下「パラメータA」と記載する)を収集する。また、コア符号化器102及びコア復号器104を経て得られた復号化音声信号を、補助分析部107のLPC分析部202において分析することにより得られるLSP(以下「パラメータB」と記載する)を収集する。このプロセスを多数の修正パラメータ学習用音声データについて行い、パラメータA、Bを収集する。そして、収集が終了した際に、全てのパラメータを用いて、(2)式のコスト関数を最小にするパラメータA及びパラメータBを求める。
Figure JPOXMLDOC01-appb-M000002
 また、(2)式より求めたパラメータA及びパラメータBを用いて、(3)式より修正用のパラメータを求める。
Figure JPOXMLDOC01-appb-M000003
 そして、補助分析部107の修正パラメータ格納部201、及び補助分析部304の図示しない修正パラメータ格納部に、(3)式で求めた修正用のパラメータを格納する。
 上記の設定方法は、入れ替えるコーデックが決まってから学習を行うので、入れ替えてすぐ音声通信を行うことができない。想定されるコーデック毎に予め求めておいてコーデックと共に用意しておき、入れ替えた時に修正パラメータ格納部201の内容を書き換えるなどの方法を取ることができれば、より簡便にコーデックを入れ替えることができる。
 次に、補助分析部107、304が図2の構成を有する理由について、図6を用いて説明する。
 図6は、特許文献2に記載されているコア符号化器の構成を示すブロック図である。なお、図6のコア符号化器の各構成については、特許文献2に記載されているので、その説明を省略する。
 図6において、LPC分析を行い、量子化及び逆量子化を行うLPC分析部と拡張符号化器とを接続する信号線L1は、本実施の形態における下位層のレイヤ情報を伝えるものである。
 従って、補助分析部107、304は、図6に示すコア符号化器と同一構成にしても良い。しかし、LPCパラメータだけが下位層レイヤ情報であるので、図6のコア符号化器の殆どのブロックは必要がなくなり、補助分析部107、304は、図2の構成だけでよいことになる。
 図2のLPC分析部202は、図6におけるLPC分析部の機能である分析、符号化、及び復号のうち、分析だけを行う。コア復号器104から補助分析部107に入力する信号、及びコア復号器302から補助分析部304に入力する信号は復号された信号であって、これは符号化器側でも復号器側でも同じであるので、分析するだけでLPCパラメータに相当するものが得られる。
 このように、本実施の形態によれば、下位層を新たなコア符号化器及びコア復号器と入れ替えた場合でも、入れ替える前と同様の下位層のレイヤ情報を得ることができる。この結果、各レイヤのコア符号化器及びコア復号器を入れ替えた場合でも、拡張符号化器において符号化を可能にすることができるとともに、都度適切なコーデックを使用することができることにより、精度の高い符号化及び復号を行うことができる。また、本実施の形態によれば、先読み区間を含まない窓を設定して分析を行うので、分析に伴う遅延を抑制することができる。また、本実施の形態によれば、符号化と復号化を受けて入力音声と復号化音声の特性が変化していることと窓特性が変化していることとを修正用のパラメータを用いて補正する。この結果、入力した音声信号を分析して得られたパラメータに統計的により近づけることができ、より精度の高い符号化を行うことができる。
 (実施の形態2)
 図7は、本発明の実施の形態2に係る補助分析部700の構成を示すブロック図である。なお、本実施の形態において、音声符号化装置は、補助分析部107を補助分析部700に置き換える以外は図1と同一構成であるので、その説明を省略する。また、本実施の形態において、補助分析部700以外の各構成については、図1の参照番号を用いて説明する。
 補助分析部700は、修正パラメータ格納部701と、修正処理部702と、LPC分析部703とから主に構成される。
 修正パラメータ格納部701は、修正用のパラメータを格納する。なお、修正用のパラメータの設定方法については後述する。
 修正処理部702は、修正パラメータ格納部701に格納している修正用のパラメータを読み出し、読み出した修正用のパラメータを用いて、コア復号器104から入力した復号化信号を修正する。そして、修正処理部702は、修正した復号化信号をLPC分析部703へ出力する。
 LPC分析部703は、修正処理部702から入力した復号化信号に対してLPC分析を行い、LPCパラメータを得る。そして、LPC分析部703は、LPCパラメータを拡張符号化器108へ出力する。
 なお、本実施の形態において、音声復号装置は、補助分析部304を図7の補助分析部の構成にする以外は図3と同一構成であるので、その説明を省略する。
 次に、修正処理部702における処理について説明する。
 本実施の形態においては、MA(Moving Average)フィルタリングによる修正を行うものとする。この場合、修正パラメータ格納部701に格納された修正用のパラメータを用いてフィルタリングを行う。この一例を(4)式に示す。
Figure JPOXMLDOC01-appb-M000004
 そして、(4)式により得られた修正された復号化音声信号をLPC分析部703へ出力する。
 上記の実施の形態1におけるLPCパラメータの修正との違いは、本実施の形態では、LSPパラメータに変換する計算を行わなくていい代わりに、LPC分析窓の違いを修正することが出来ないということである。
 次に、修正用のパラメータの設定方法について説明する。
 修正用のパラメータは、コーデックを入れ替えた後の事前の学習で求める。入力信号は実施の形態1と同様の修正パラメータ学習用音声データである。実施の形態1と異なるのは、コア符号化器102に入力する信号(以下「C信号」と記載する)と補助分析部700に入力する復号化音声信号(以下「D信号」と記載する)を収集することである。収集された多数の信号を用いて、(5)式のコスト関数Fを最小にするC信号とD信号とを求める。この際には、2つの信号の位相(サンプルタイミング)を完全に一致させることが必要である。
Figure JPOXMLDOC01-appb-M000005
 また、(5)式より求めた信号C及び信号Dを用いて、(6)式より修正用のパラメータを求める。
Figure JPOXMLDOC01-appb-M000006
 そして、(6)式より求めた修正用のパラメータを符号化器側及び復号側の修正パラメータ格納部701に格納する。
 このように、本実施の形態によれば、下位層を新たなコア符号化器及びコア復号器と入れ替えた場合でも、入れ替える前と同様の下位層のレイヤ情報を得ることができる。この結果、各レイヤのコア符号化器及びコア復号器を入れ替えた場合でも、拡張符号化器において符号化を可能にすることができるとともに、都度適切なコーデックを使用することができることにより、精度の高い符号化及び復号を行うことができる。また、本実施の形態によれば、先読み区間を含まない窓を設定して分析を行うので、分析に伴う遅延を抑制することができる。また、本実施の形態によれば、符号化と復号化を受けて入力音声と復号化音声の特性が変化していることを修正用のパラメータを用いて補正する。この結果、入力した音声信号を分析して得られたパラメータに統計的により近づけることができ、より精度の高い符号化を行うことができる。
 なお、上記の実施の形態1及び実施の形態2において、修正処理部203、702ではLSPの加算を用いて修正を行ったが、本発明はこれに限らず、線形和、マトリクスの乗算またはマトリクスの和算を用いてもよい。また、修正を行うパラメータとして、LPCスペクトルやPARCOR(Partial Auto Correlation)、ISP(Immittance Spectral Pair)等のLPC系パラメータ、または自己相関係数でも全く同様に実現できる。本発明は修正方法や修正を行うパラメータには依存しないことは明らかである。
 また、上記の実施の形態1及び実施の形態2において、修正処理部203、702のフィルタリングはMA型で行ったが、本発明はこれに限らず、IIR(Infinite Impulse Response)型でもAR(Auto Regressive )型でもよい。本発明はフィルタの形状には依存しないことは明らかである。
 また、上記の実施の形態1及び実施の形態2において、修正処理部203、702では、フィルタリングを行ったが、本発明はこれに限らず、アンプ(アンプリチュード)の加算や、ゲインの加算などを用いてもよい。本発明は修正の処理の方法に依存しないからである。
 また、上記の実施の形態1及び実施の形態2において、コアレイヤを入れ替えたスケーラブルコーデックを用いたが、本発明はこれに限らず、構成にスイッチと従来のコーデックを追加してもよい。そして、この際、従来のコーデックと入れ替えたコーデックとをスイッチにより切り替えるようにしても良い。
 また、上記の実施の形態1及び実施の形態2において、符号化情報として復号化LPCパラメータを用いたが、本発明はこれに限らず、他のパラメータの場合でも同様に本発明を実現できることは明らかである。例えば、入力音声から比較的少ない計算量で求められる全域パワーまたは帯域パワー、ピッチ分析で得られる周期または周期性の度合いを表すゲインなどが挙げられる。ただし、確率的符号帳のゲインなど、図6のCELP符号化器を最後まで動かして得られるパラメータは、その計算量の多さから実装上使用し難いことは自明である。
 また、上記の実施の形態1及び実施の形態2において、コア符号化器としてCELPの様な時系列信号をそのまま符号化する符号化方式を用いたが、本発明はこれに限らず、MDCT(Modified Discrete Cosine Transform)によるスペクトル符号化などの転換符号化でもよいし、ADPCM(Adaptive Differential Pulse Code Modulation)のような波形符号化でもよい。また、これより、本発明では、入れ替える新しいコーデックの形態はどのようなものでもよいことは明らかである。スペクトル符号化でスペクトルの形態のまま拡張部に渡したい場合は、補助分析部107、304の入力はスペクトルになるので、それに対応するように入力系を変えればよい。本発明は元々のコーデック、及び入れ替えるコーデックの符号化方式に依存しないことは明らかである。
 また、上記の実施の形態1及び実施の形態2において、簡潔な説明を行うために階層数が2つの場合について示したが、本発明はこれに限らず、現在の標準化済み、標準化の検討途上、または実用段階のスケーラブルコーデックの階層数のように、3つ以上の多数の階層数でも良い。例えば、ITU-T標準G.729.1では12もの階層数がある。この場合にでも本発明は有効であることは明らかである。本発明は階層数には依存しないからである。
 また、上記の実施の形態1及び実施の形態2において、コアコーデックの入れ替えについて示したが、本発明はこれに限らず、拡張レイヤの入れ替えにも使用できることは明らかである。拡張レイヤの符号化情報を更に上位層で使用する場合は、入れ替えたレイヤの復号化信号を入れ替える前の拡張レイヤの一部から構成した補助コーデックを用いれば、本発明と全く同様に入れ替えを行うことが出来る。
 また、上記の実施の形態1及び実施の形態2において、周波数スケーラブルコーデックの場合を示したが、本発明はこれに限らず、周波数が変わらない場合でも本発明は有効である。本発明は周波数調整部の有無に依存しないからである。
 また、上記の実施の形態1及び実施の形態2の説明は、本発明の好適な実施の形態の例証であり、本発明の範囲はこれに限定されることはない。本発明は、符号化装置を有するシステムであればどのような場合にも適用することができる。
 また、上記の実施の形態1及び実施の形態2において説明した音声符号化装置および音声復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能である。これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
 また、上記の実施の形態1及び実施の形態2においては、ハードウェアで構成する場合を例に説明したが、本発明はこれに限らず、ソフトウェアで実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置等と同様の機能を実現することができる。
 また、上記の実施の形態1及び実施の形態2の各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。ここで、LSIは、集積度の違いによって、IC、システムLSI、スーパーLSIまたはウルトラLSI等と呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
 さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
 2009年3月13日出願の特願2009-60791の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明にかかる音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法は、特に多層構造を有するスケーラブルコーデックに好適である。

Claims (7)

  1.  下位層のレイヤ情報を上位層で使用して音声信号を階層的に符号化する音声符号化装置であって、
     前記音声信号を符号化して符号を生成する第1の符号化手段と、
     前記符号を復号して復号信号を生成する復号手段と、
     前記音声信号と前記復号信号との符号化残差を検出する検出手段と、
     前記復号信号を入力し、分析処理及び修正処理を行うことにより前記下位層のレイヤ情報を生成する分析手段と、
     前記音声信号と前記下位層のレイヤ情報とを用いて前記符号化残差を符号化する第2の符号化手段と、
     を具備する音声符号化装置。
  2.  前記分析手段は、先読み区間を含まない窓関数を用いた前記分析処理を行う、
     請求項1記載の音声符号化装置。
  3.  前記分析手段は、前記復号信号に対して前記分析処理を行うことにより下位層に関するパラメータを生成し、前記下位層に関するパラメータに対して、前記音声信号から前記復号信号に至るまでの特性の変化に基づく前記修正処理を行うことにより前記下位層のレイヤ情報を生成する、
     請求項1記載の音声符号化装置。
  4.  前記分析手段は、前記復号信号に対して、前記音声信号から前記復号信号に至るまでの特性の変化に基づく前記修正処理を行うことにより修正復号信号を生成し、前記修正復号信号に対して前記分析処理を行うことにより前記下位層のレイヤ情報を生成する、
     請求項1記載の音声符号化装置。
  5.  音声符号化装置において下位層の符号化側レイヤ情報を上位層で使用して音声信号を階層的に符号化して生成された符号化情報を入力して復号する音声復号装置であって、
     前記符号化情報のうち下位層に関する符号を復号して第1の復号信号を生成する第1の復号手段と、
     前記第1の復号信号を入力し、分析処理及び修正処理を行うことにより下位層の復号側レイヤ情報を生成する分析手段と、
     前記符号化情報のうち上位層に関する符号を、前記下位層の復号側レイヤ情報を用いて復号することにより第2の復号信号を生成する第2の復号手段と、
     を具備する音声復号装置。
  6.  下位層のレイヤ情報を上位層で使用して音声信号を階層的に符号化する音声符号化方法であって、
     前記音声信号を符号化して符号を生成するステップと、
     前記符号を復号して復号信号を生成するステップと、
     前記音声信号と前記復号信号との符号化残差を検出するステップと、
     前記復号信号に関して、分析処理及び修正処理を行うことにより前記下位層のレイヤ情報を生成するステップと、
     前記音声信号と前記下位層のレイヤ情報とを用いて前記符号化残差を符号化するステップと、
     を具備する音声符号化方法。
  7.  音声符号化装置において下位層の符号化側レイヤ情報を上位層で使用して音声信号を階層的に符号化して生成された符号化情報を復号する音声復号方法であって、
     前記符号化情報のうち下位層に関する符号を復号して第1の復号信号を生成するステップと、
     前記第1の復号信号に関して、分析処理及び修正処理を行うことにより下位層の復号側レイヤ情報を生成するステップと、
     前記符号化情報のうち上位層に関する符号を、前記下位層の復号側レイヤ情報を用いて復号することにより第2の復号信号を生成するステップと、
     を具備する音声復号方法。
PCT/JP2010/001792 2009-03-13 2010-03-12 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法 WO2010103854A2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/255,810 US20110320193A1 (en) 2009-03-13 2010-03-12 Speech encoding device, speech decoding device, speech encoding method, and speech decoding method
EP10750610A EP2407964A2 (en) 2009-03-13 2010-03-12 Speech encoding device, speech decoding device, speech encoding method, and speech decoding method
JP2011503737A JPWO2010103854A1 (ja) 2009-03-13 2010-03-12 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009060791 2009-03-13
JP2009-060791 2009-03-13

Publications (2)

Publication Number Publication Date
WO2010103854A2 true WO2010103854A2 (ja) 2010-09-16
WO2010103854A3 WO2010103854A3 (ja) 2011-03-03

Family

ID=42728897

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/001792 WO2010103854A2 (ja) 2009-03-13 2010-03-12 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法

Country Status (5)

Country Link
US (1) US20110320193A1 (ja)
EP (1) EP2407964A2 (ja)
JP (1) JPWO2010103854A1 (ja)
KR (1) KR20120000055A (ja)
WO (1) WO2010103854A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021036342A (ja) * 2015-10-08 2021-03-04 ドルビー・インターナショナル・アーベー 圧縮された音または音場表現のための層構成の符号化
US11373660B2 (en) 2015-10-08 2022-06-28 Dolby International Ab Layered coding for compressed sound or sound field represententations
US11955130B2 (en) 2015-10-08 2024-04-09 Dolby International Ab Layered coding and data structure for compressed higher-order Ambisonics sound or sound field representations

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6082703B2 (ja) * 2012-01-20 2017-02-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声復号装置及び音声復号方法
WO2015174912A1 (en) * 2014-05-15 2015-11-19 Telefonaktiebolaget L M Ericsson (Publ) Audio signal classification and coding

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263096A (ja) 1995-03-24 1996-10-11 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
JP2006072026A (ja) 2004-09-02 2006-03-16 Matsushita Electric Ind Co Ltd 音声符号化装置、音声復号化装置及びこれらの方法
JP2009060791A (ja) 2006-03-30 2009-03-26 Ajinomoto Co Inc L−アミノ酸生産菌及びl−アミノ酸の製造法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4218134B2 (ja) * 1999-06-17 2009-02-04 ソニー株式会社 復号装置及び方法、並びにプログラム提供媒体
JP2003280694A (ja) * 2002-03-26 2003-10-02 Nec Corp 階層ロスレス符号化復号方法、階層ロスレス符号化方法、階層ロスレス復号方法及びその装置並びにプログラム
EP1619664B1 (en) * 2003-04-30 2012-01-25 Panasonic Corporation Speech coding apparatus, speech decoding apparatus and methods thereof
JP2005062410A (ja) * 2003-08-11 2005-03-10 Nippon Telegr & Teleph Corp <Ntt> 音声信号の符号化方法
CN101044552A (zh) * 2004-10-27 2007-09-26 松下电器产业株式会社 语音编码装置和语音编码方法
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8069035B2 (en) * 2005-10-14 2011-11-29 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, and methods of them

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08263096A (ja) 1995-03-24 1996-10-11 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
JP2006072026A (ja) 2004-09-02 2006-03-16 Matsushita Electric Ind Co Ltd 音声符号化装置、音声復号化装置及びこれらの方法
JP2009060791A (ja) 2006-03-30 2009-03-26 Ajinomoto Co Inc L−アミノ酸生産菌及びl−アミノ酸の製造法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021036342A (ja) * 2015-10-08 2021-03-04 ドルビー・インターナショナル・アーベー 圧縮された音または音場表現のための層構成の符号化
US11373660B2 (en) 2015-10-08 2022-06-28 Dolby International Ab Layered coding for compressed sound or sound field represententations
JP7110304B2 (ja) 2015-10-08 2022-08-01 ドルビー・インターナショナル・アーベー 圧縮された音または音場表現のための層構成の符号化
US11955130B2 (en) 2015-10-08 2024-04-09 Dolby International Ab Layered coding and data structure for compressed higher-order Ambisonics sound or sound field representations
US12020714B2 (en) 2015-10-08 2024-06-25 Dolby International Ab Layered coding for compressed sound or sound field represententations

Also Published As

Publication number Publication date
JPWO2010103854A1 (ja) 2012-09-13
KR20120000055A (ko) 2012-01-03
WO2010103854A3 (ja) 2011-03-03
US20110320193A1 (en) 2011-12-29
EP2407964A2 (en) 2012-01-18

Similar Documents

Publication Publication Date Title
JP4708446B2 (ja) 符号化装置、復号装置およびそれらの方法
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
JP5722040B2 (ja) スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術
JP6692948B2 (ja) 異なるサンプリングレートを有するフレーム間の移行による音声信号の線形予測符号化および復号のための方法、符号器および復号器
RU2584463C2 (ru) Кодирование звука с малой задержкой, содержащее чередующиеся предсказательное кодирование и кодирование с преобразованием
JP4954069B2 (ja) ポストフィルタ、復号化装置及びポストフィルタ処理方法
JP5413839B2 (ja) 符号化装置および復号装置
JP4771674B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JP5404412B2 (ja) 符号化装置、復号装置およびこれらの方法
JP4679513B2 (ja) 階層符号化装置および階層符号化方法
WO2010103854A2 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
JPH1055199A (ja) 音声符号化並びに復号化方法及びその装置
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
WO2009125588A1 (ja) 符号化装置および符号化方法
JPWO2008066071A1 (ja) 復号化装置および復号化方法
US11114106B2 (en) Vector quantization of algebraic codebook with high-pass characteristic for polarity selection
JP5236033B2 (ja) 音声符号化装置、音声復号装置およびそれらの方法
JPWO2008018464A1 (ja) 音声符号化装置および音声符号化方法
JP3748081B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
WO2011048810A1 (ja) ベクトル量子化装置及びベクトル量子化方法
JP3748083B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3770899B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP4087823B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10750610

Country of ref document: EP

Kind code of ref document: A2

ENP Entry into the national phase

Ref document number: 2011503737

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20117021171

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13255810

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010750610

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE