WO2008072671A1 - 音声復号化装置およびパワ調整方法 - Google Patents

音声復号化装置およびパワ調整方法 Download PDF

Info

Publication number
WO2008072671A1
WO2008072671A1 PCT/JP2007/073968 JP2007073968W WO2008072671A1 WO 2008072671 A1 WO2008072671 A1 WO 2008072671A1 JP 2007073968 W JP2007073968 W JP 2007073968W WO 2008072671 A1 WO2008072671 A1 WO 2008072671A1
Authority
WO
WIPO (PCT)
Prior art keywords
coefficient
signal
post filter
amplitude ratio
output signal
Prior art date
Application number
PCT/JP2007/073968
Other languages
English (en)
French (fr)
Inventor
Toshiyuki Morii
Masahiro Oshikiri
Original Assignee
Panasonic Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corporation filed Critical Panasonic Corporation
Priority to US12/517,603 priority Critical patent/US20100332223A1/en
Priority to EP07859788A priority patent/EP2096631A4/en
Priority to BRPI0720266-0A priority patent/BRPI0720266A2/pt
Priority to JP2008549343A priority patent/JPWO2008072671A1/ja
Publication of WO2008072671A1 publication Critical patent/WO2008072671A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers

Definitions

  • the present invention relates to an audio decoding apparatus and a power adjustment method for decoding an encoded audio signal.
  • a post-filter is generally applied to the synthesized sound before output. Most of the standard codecs for mobile phones use this post filter.
  • CELP post-filters use pole-zero type (ARMA type) pole enhancement filters, high frequency band enhancement filters, and pitch filters using LPC parameters.
  • Patent Documents 1 and 2 disclose a technique that uses a smoothing coefficient so that the power is gradually adjusted for each sample after obtaining the adjustment coefficient.
  • the smoothing coefficient is ⁇
  • (l- ⁇ ) is the acceleration coefficient.
  • Patent Document 1 JP-A-9 190195
  • Patent Document 2 JP-A-9 127996
  • the filter gain of the post filter is large at a place where the power rises at the rising edge of the sound, the output signal of the post filter tends to be abruptly larger than the input signal. In this case, The adjustment factor for power must be adapted quickly.
  • the input / output ratio of the post filter fluctuates significantly over time, it is necessary to make a quick adjustment.
  • sound quality distortion due to a rapid change in the adjustment coefficient becomes a problem in sections where the input / output fluctuations of the input / output of the post filter are small and in steady speech sections such as vowels. .
  • An object of the present invention is to provide a speech decoding apparatus and a power adjustment method capable of obtaining a good synthesized sound with a stable volume.
  • the speech decoding apparatus includes a post filter that filters a signal having a subframe length at a predetermined sample timing interval, and an amplitude ratio or a path ratio between an input signal and an output signal of the post filter.
  • the first calculated value and the second calculated value that is the fluctuation amount of the first calculated value for each subframe, and smoothing based on the first calculated value and the second calculated value
  • Smoothing coefficient setting means for setting a coefficient for each subframe, adjustment coefficient setting means for setting an adjustment coefficient for each sample based on the first calculated value and the smoothing coefficient, and the output signal of the post filter in the output signal
  • a power adjustment means for obtaining a decoded speech signal by multiplying by the adjustment coefficient.
  • the power adjustment method of the present invention is a method of adjusting the output signal of a post filter that filters a subframe length signal at a predetermined sample timing interval, and the input signal and output of the post filter
  • the first calculated value which is the amplitude ratio or the signal ratio with the signal
  • a step of calculating the second calculated value which is a variation amount of the first calculated value, for each subframe, and a smoothing coefficient is set for each subframe based on the first calculated value and the second calculated value.
  • the power when the post filter greatly changes the power, the power can be quickly adjusted when the temporal fluctuation of the power ratio becomes large. For steady intervals such as vowels, smooth power adjustment without discontinuity can be realized. Therefore, according to the present invention, a good synthesized sound can be obtained with a stable volume.
  • FIG. 1 is a block diagram showing a configuration of a voice encoding apparatus that transmits encoded data to a voice decoding apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a speech decoding apparatus according to an embodiment of the present invention.
  • FIG. 3 is a flowchart for explaining an algorithm for adjusting the power of the speech decoding apparatus according to the embodiment of the present invention.
  • FIG. 4 is a flowchart for explaining a power adjustment algorithm of a speech decoding apparatus according to an embodiment of the present invention.
  • FIG. 1 is a block diagram showing a configuration of a speech encoding apparatus that transmits encoded data to the speech decoding apparatus according to the present embodiment.
  • the pre-processing unit 101 performs a waveform shaping process and a pre-facility process on the input audio signal to improve the performance of the high-pass filter process that removes the DC component and the subsequent encoding process.
  • the signal (Xin) is output to the LPC analysis unit 102 and the addition unit 105.
  • the LPC analysis unit 102 performs linear prediction analysis using Xin, and the analysis result (linear prediction coefficient) Is output to the LPC quantization unit 103.
  • the LPC quantization unit 103 performs a quantization process on the linear prediction coefficient (LPC) output from the LPC analysis unit 102, outputs the quantized LPC to the synthesis filter 104, and multiplexes a code (U is multiplexed) representing the quantized LPC. Output to part 114.
  • LPC linear prediction coefficient
  • the synthesis filter 104 generates a synthesized signal by performing filter synthesis on a driving sound source output from an adder 111 described later using a filter coefficient based on the quantized LPC, and adds the synthesized signal to the adder 105. Output to.
  • Adder 105 calculates the error signal by inverting the polarity of the combined signal and adding it to Xin, and outputs the error signal to auditory weighting unit 112.
  • Adaptive excitation codebook 106 stores in the buffer the driving excitation that was output in the past by addition section 111, and one frame from the past driving excitation specified by the signal output from parameter determination section 113. Are extracted as adaptive sound source vectors and output to the multiplier 109.
  • Gain codebook 107 outputs the gain of the adaptive excitation vector and the gain of the fixed excitation vector specified by the signal output from parameter determining section 113 to multiplication section 109 and multiplication section 110, respectively.
  • Fixed excitation codebook 108 stores a plurality of predetermined excitation source vectors in a buffer, and multiplies a pulse source vector having a shape specified by the signal output from parameter determining unit 113 by a diffusion vector.
  • the fixed sound source vector obtained in this way is output to multiplication section 110.
  • Multiplying section 109 multiplies the gain output from gain codebook 107 by the adaptive excitation vector output from adaptive excitation codebook 106 and outputs the result to adding section 111.
  • Multiplication section 110 multiplies the gain output from gain codebook 107 by the fixed excitation vector output from fixed excitation codebook 108 and outputs the result to addition section 111.
  • Adder 111 receives the adaptive excitation vector and fixed excitation vector after gain multiplication from multiplication unit 109 and multiplication unit 110, respectively, adds these vectors, and adds the drive sound source that is the addition result to the synthesis filter.
  • 104 and adaptive excitation codebook 106 receives the adaptive excitation vector and fixed excitation vector after gain multiplication from multiplication unit 109 and multiplication unit 110, respectively, adds these vectors, and adds the drive sound source that is the addition result to the synthesis filter.
  • 104 and adaptive excitation codebook 106 The driving sound source input to the adaptive sound source code book 106 is stored in the buffer.
  • the auditory weighting unit 112 performs auditory weighting on the error signal output from the adding unit 105. Then, it is output to the parameter determination unit 113 as coding distortion.
  • the parameter determination unit 113 searches for the adaptive excitation vector, the fixed excitation vector and the quantization gain code that minimizes the coding distortion output from the perceptual weighting unit 112, and searches for the searched adaptive excitation source.
  • a code (A) representing a vector, a code (F) representing a fixed excitation vector, and a code (G) representing a quantization gain are output to the multiplexing unit 114.
  • Multiplexer 114 receives code (L) representing quantized LPC from LPC quantizer 103, code (A) representing adaptive excitation vector, parameter representing fixed excitation vector from parameter determining unit 113 (F) and a code (G) representing the quantization gain are input, and the information is multiplexed and output as encoded information.
  • FIG. 2 is a block diagram showing a configuration of the speech decoding apparatus according to the present embodiment.
  • the encoded information is separated into individual codes (L, A, G, F) by the multiplexing / separating unit 201.
  • Code representing quantization LPC U is output to LPC decoding section 202
  • code (A) representing adaptive sound source vector is output to adaptive excitation codebook 203
  • code (G) representing quantization gain is gain code
  • the code (F) that is output to the book 204 and represents the fixed excitation vector is output to the fixed excitation codebook 205.
  • the LPC decoding unit 202 decodes the quantized LSP parameter from the code (L) representing the quantized LPC, re-converts the obtained quantized LSP parameter into the quantized LPC parameter, and combines the synthesized finalizer parameters. 209 ⁇ output.
  • Adaptive excitation codebook 203 stores the past driving excitation used in synthesis filter 209, and from the past driving excitation specified by the adaptive codebook lag corresponding to code (A) representing the adaptive excitation vector. A sample for one frame is taken out as an adaptive excitation vector and output to the multiplication unit 206. In addition, adaptive excitation codebook 203 updates the stored driving excitation with the driving excitation output from addition section 208.
  • Gain codebook 204 decodes the adaptive excitation vector gain and fixed excitation vector gain specified by the code (G) representing the quantization gain, and outputs the adaptive excitation vector gain to multiplication section 206.
  • the gain of the fixed sound source vector is output to the multiplication unit 207.
  • Fixed excitation codebook 205 stores a plurality of predetermined excitation source vectors in a buffer, and generates a pulse excitation vector having a shape specified by code (F) representing the fixed excitation vector. Generate a fixed sound source vector obtained by multiplying the diffusion vector, and output to the multiplication unit 207
  • Multiplying section 206 multiplies the adaptive excitation vector by a gain and outputs the result to adding section 208.
  • Multiplier 207 multiplies the fixed sound source vector by the gain and outputs the result to adder 208.
  • Adder 208 adds the adaptive excitation vector after gain multiplication output from multipliers 206 and 207 and the fixed excitation vector to generate a drive excitation, and generates this as synthesis filter 209 and adaptive excitation codebook Output to 203.
  • the synthesis filter 209 performs filter synthesis of the driving sound source output from the addition unit 208 using the filter coefficients decoded by the LPC decoding unit 202, and obtains an obtained signal (hereinafter referred to as “first synthesis”).
  • Signal is output to the post filter 210 and the amplitude ratio / variation calculation unit 211.
  • the post-filter 210 performs processing for improving the subjective quality of the voice such as formant enhancement and pitch enhancement for the signal output from the synthesis filter 209. Processing for improving the quality is performed, and the obtained signal (hereinafter referred to as “second synthesized signal”) is output to the amplitude ratio / variation calculation unit 211 and the power adjustment unit 214.
  • second synthesized signal the obtained signal
  • pitch analysis may be omitted, and a filter created using the adaptive codebook lag of adaptive excitation codebook 203 and the gain of the adaptive excitation vector may be applied.
  • Amplitude ratio and change amount calculation section 211 has an amplitude ratio between the first synthesized signal that is the input signal of post filter 210 and the second synthesized signal that is the output signal of post filter 210, and the fluctuation amount of this amplitude ratio. Is calculated for each subframe, the calculated amplitude ratio is output to the smoothing coefficient setting unit 212 and the adjustment coefficient setting unit 213, and the fluctuation amount of the calculated amplitude ratio is output to the smoothing coefficient setting unit 212.
  • Smoothing coefficient setting section 212 sets the smoothing coefficient for each subframe using the amplitude ratio between the first combined signal and the second combined signal and the fluctuation amount of the amplitude ratio, and sets the smoothing The coefficient is output to the adjustment coefficient setting unit 213.
  • the adjustment coefficient setting unit 213 sets the adjustment coefficient for each sample using the amplitude ratio between the first combined signal and the second combined signal and the smoothing coefficient, and the set adjustment coefficient is used as the power adjustment unit 214. Output to.
  • the noise adjustment unit 214 adjusts the power of the second synthesized signal by multiplying the second synthesized signal by the adjustment coefficient to obtain a final decoded speech signal.
  • the first synthesized signal and the second synthesized signal at all sampling timings are input in subframe units (ST302), the first synthesized signal part p0, the second synthesized signal part pl, and the sample value n. Is initialized to 0 (ST303), and then the first synthesized signal ⁇ and the second synthesized signal pl of the current subframe are obtained (ST304, ST305, ST306).
  • the smoothing coefficient ⁇ is set for each case according to the amplitude ratio g of the current subframe.
  • the smoothing coefficient ⁇ is set closer to 1.0 as the amplitude ratio g of the current subframe is closer to 1.0.
  • the acceleration coefficient (1 ⁇ ) becomes closer to 0.0 as the smoothing coefficient ⁇ becomes closer to 1.0.
  • the smoothing coefficient ⁇ is multiplied by the stationarity scale 0 to obtain a new smoothing coefficient ⁇ (ST3 20).
  • the smoothing factor ⁇ is reduced (the acceleration factor (1 ⁇ ) is increased) when the fluctuations in time are large, and the performance is quickly increased. Can be adjusted!
  • an adjustment coefficient g is calculated based on the obtained amplitude ratio g of the current subframe and the smoothing coefficient ⁇ . Specifically, a new adjustment coefficient is obtained by adding the adjustment coefficient g of the previous sample multiplied by the smoothing coefficient ⁇ and the amplitude ratio g of the current subframe multiplied by the acceleration coefficient (1 ⁇ ). Calculate g. Then, the final synthesized speech signal q [n] is obtained by multiplying the second composite signal pfti] by the adjustment coefficient g (ST321, ST322, ST323, ST324).
  • the above processing is repeated for the next subframe (ST326).
  • the adjustment factor g used last is used as it is in the next subframe.
  • the amplitude ratio g of the current subframe obtained in ST308 or ST309 is used as the amplitude ratio g of the previous subframe in the processing of the next subframe.
  • the power can be quickly adjusted when the post filter greatly changes the power or the amplitude ratio fluctuates with time. Therefore, smooth adjustment without discontinuity can be achieved in sections where there are no fluctuations in the frequency or in sections that are steady in time. Therefore, according to the present embodiment, a good synthesized sound can be obtained with a stable volume.
  • the present invention is in other cases where the sampling frequency and the subframe length are not limited. Even if it exists, it is effective.
  • the sampling is double 16kHz sampling
  • the subframe unit is 80 samples, and good performance can be obtained by setting the smoothing coefficient to a larger value.
  • the smoothing coefficient constant ⁇ 0.9, 0.96, 0.99, 0.999 ⁇ in this embodiment is ⁇ 0.95, 0.98, 0.993, 0.999 ⁇ .
  • the power described for the case where the amplitude ratio is referred to in the determination of the smoothing coefficient or the stationarity scale is not limited to this, and the power ratio is used instead of the amplitude ratio. However, the same effect can be obtained.
  • the power ratio has a strong correlation with the square of the amplitude ratio.
  • the power for calculating the square root of the ratio of the sum of squares of two signals to obtain the adjustment coefficient of the current subframe is not limited to this, and the sum of the absolute values of the signals is not limited to this. The same effect can be obtained even if the ratio of is used.
  • the power shown for the power adjustment unit for adjusting the fluctuation of the input / output power of the post filter is not limited to the post filter, and there is a power fluctuation in the input / output. It is effective in the case. For example, even in phonological enhancement processing used in hearing aids and the like, it is necessary to adjust the sound so that the sound does not fluctuate suddenly. can do.
  • the present invention is effective even with the force S used for CELP and other codecs. This is because the power adjustment unit of the present invention is used for the post-processing of the decoder process and does not depend on the type of codec.
  • the power for generating the fixed excitation vector by multiplying the pulse excitation vector by the diffusion vector in the fixed excitation codebook is not limited to this, and the Norse excitation vector itself is used as the fixed excitation source. It can be a vector.
  • the speech decoding apparatus can be mounted on a communication terminal apparatus and a base station apparatus in a mobile communication system, and thereby has a similar effect to the above.
  • a base station apparatus, and a mobile communication system can be provided.
  • the present invention can also be realized by software.
  • the ability to realize the same function as the speech decoding apparatus according to the present invention by describing the algorithm according to the present invention in a programming language, storing the program in a memory, and causing the information processing means to execute the algorithm. it can.
  • Each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. [0064] Although LSI is used here, depending on the degree of integration, IC, system LSI, super L
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • FPGA Field Programmable Gate Array
  • the present invention is suitable for use in a speech decoding apparatus that decodes an encoded speech signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 安定した音量で良好な合成音を得る音声復号化装置。この音声復号化装置では、ポストフィルタ(210)は、合成フィルタ(209)の出力信号に対して音声の主観的な品質を改善する処理や定常雑音の主観的品質を改善する処理を行う。振幅比・変化量算出部(211)は、ポストフィルタ(210)の入力信号と出力信号との振幅比、およびこの振幅比の変動量をサブフレーム毎に算出する。平滑化係数設定部(212)は、ポストフィルタ(210)の入力信号と出力信号との振幅比およびこの振幅比の変動量を用いて平滑化係数をサブフレーム毎に設定する。調整係数設定部(213)は、ポストフィルタ(210)の入力信号と出力信号との振幅比および平滑化係数を用いて調整係数をサンプル毎に設定する。パワ調整部(214)は、調整係数をポストフィルタ(210)の出力信号に乗ずることにより、ポストフィルタ(210)の出力信号のパワを調整する。

Description

明 細 書
音声複号化装置およびパヮ調整方法
技術分野
[0001] 本発明は、符号化された音声信号を復号化する音声復号化装置およびパヮ調整 方法に関する。
背景技術
[0002] 移動体通信においては、電波などの伝送路容量や記憶媒体の有効利用を図るた め、音声や画像のディジタル情報に対して圧縮符号化を行うことが必須であり、これ までに多くの符号化/複号化方式が開発されてきた。
[0003] その中で、音声符号化技術は、音声の発声機構をモデル化してベクトル量子化を 巧みに応用した基本方式「CELP」 (Code Excited Linear Prediction)によって性能が 大きく向上した。また、オーディオ符号化等の楽音符号化技術は、変換符号化技術( MPEG標準 ACCや MP3等)により性能が大きく向上した。
[0004] ここで、低ビットレートの復号器の後処理として、合成音に対して出力前にポストフィ ルタを掛けるのが一般的である。携帯電話用の標準コーデックの殆どでこのポストフ ィルタが使用されている。 CELPのポストフィルタでは、 LPCパラメータを用いた極零 型 (ARMA型)の極強調フィルタ、高周波数帯域強調フィルタ、ピッチフィルタが使用 される。
[0005] ただし、ポストフィルタにより強調する処理を行うと、ポストフィルタの入力信号に対し て出力信号のパヮが変動する。このため、ポストフィルタの出力信号のパヮを入力信 号と整合させるように調整する必要がある。
[0006] このポストフィルタの出力信号のパヮ調整は、ポストフィルタの入力信号と出力信号 とのパヮ比を求め、そのパヮ比を基に調整係数を求め、ポストフィルタの出力信号に 調整係数を乗ずることにより行われる。
[0007] 特許文献 1や特許文献 2には、調整係数を求めた後、サンプル毎に徐々にパヮが 調整されるように平滑化係数を用いる技術が開示されている。なお、平滑化係数を α とした場合、 (l - α )は加速係数となる。 特許文献 1:特開平 9 190195号公報
特許文献 2:特開平 9 127996号公報
発明の開示
発明が解決しょうとする課題
[0008] 音声の立ち上がりの部分などでパヮが立ち上がる場所ではポストフィルタもフィルタ 利得が大きいのでポストフィルタの出力信号のパヮは入力信号のパヮよりも急激に大 きくなる傾向があり、この場合にはパヮの調整係数は早く適応しなければならない。ま た、ポストフィルタの入出力のパヮ比が時間的に大きく変動する場合も速やかな調整 が必要である。一方、ポストフィルタの入出力のパヮ変動が小さい区間や、母音等の 定常的な音声区間では調整係数を急速に変えることによる音質的歪の方が問題とな るので、ゆっくり適応させることが望ましい。
[0009] しかしながら、上記いずれの従来技術も、平滑化係数は固定であり、状況に応じて 調整係数の変化の度合いが一定である。したがって、従来技術では、安定した音量 で良好な合成音を得ることができなレ、。
[0010] 本発明の目的は、安定した音量で良好な合成音を得ることができる音声復号化装 置およびパヮ調整方法を提供することである。
課題を解決するための手段
[0011] 本発明の音声復号化装置は、サブフレーム長の信号に対して所定のサンプルタイ ミング間隔でフィルタをかけるポストフィルタと、前記ポストフィルタの入力信号と出力 信号との振幅比あるいはパヮ比である第 1計算値、およびこの第 1計算値の変動量で ある第 2計算値をサブフレーム毎に算出する算出手段と、前記第 1計算値および前 記第 2計算値に基づいて平滑化係数をサブフレーム毎に設定する平滑化係数設定 手段と、前記第 1計算値および前記平滑化係数に基づいて調整係数をサンプル毎 に設定する調整係数設定手段と、前記ポストフィルタの出力信号に前記調整係数を 乗ずることにより復号音声信号を得るパヮ調整手段と、を具備する構成を採る。
[0012] 本発明のパヮ調整方法は、サブフレーム長の信号に対して所定のサンプルタイミン グ間隔でフィルタをかけるポストフィルタの出力信号のパヮ調整方法であって、前記 ポストフィルタの入力信号と出力信号との振幅比あるいはパヮ比である第 1計算値、 およびこの第 1計算値の変動量である第 2計算値をサブフレーム毎に算出するステツ プと、前記第 1計算値および前記第 2計算値に基づいて平滑化係数をサブフレーム 毎に設定するステップと、前記第 1計算値および前記平滑化係数に基づいて調整係 数をサンプル毎に設定するステップと、前記ポストフィルタの出力信号に前記調整係 数を乗ずるステップと、を具備する方法を採る。
発明の効果
[0013] 本発明によれば、ポストフィルタによりパヮが大きく変化する場合ゃパヮ比の時間的 変動が大きくなる場合にすばやくパヮを調整することができ、またポストフィルタによる ノ ヮ変動が小さい区間や母音等の定常的な区間については不連続感の無いスムー ズなパヮ調整を実現することができる。したがって、本発明によれば、安定した音量で 良好な合成音を得ることができる。
図面の簡単な説明
[0014] [図 1]本発明の一実施の形態に係る音声復号化装置に符号化データを送信する音 声符号化装置の構成を示すブロック図
[図 2]本発明の一実施の形態に係る音声復号化装置の構成を示すブロック図
[図 3]本発明の一実施の形態に係る音声復号化装置のパヮ調整のアルゴリズムを説 明するフロー図
[図 4]本発明の一実施の形態に係る音声復号化装置のパヮ調整のアルゴリズムを説 明するフロー図 発明を実施するための最良の形態
[0015] 以下、本発明の一実施の形態について、図面を用いて説明する。
[0016] 図 1は、本実施の形態に係る音声復号化装置に符号化データを送信する音声符 号化装置の構成を示すブロック図である。
[0017] 前処理部 101は、入力音声信号に対し、 DC成分を取り除くハイパスフィルタ処理 や後続する符号化処理の性能改善につながるような波形整形処理やプリェンファシ ス処理を行い、これらの処理後の信号 (Xin)を LPC分析部 102および加算部 105に 出力する。
[0018] LPC分析部 102は、 Xinを用いて線形予測分析を行い、分析結果 (線形予測係数) を LPC量子化部 103に出力する。 LPC量子化部 103は、 LPC分析部 102から出力 された線形予測係数(LPC)の量子化処理を行い、量子化 LPCを合成フィルタ 104 に出力するとともに量子化 LPCを表す符号 (Uを多重化部 114に出力する。
[0019] 合成フィルタ 104は、量子化 LPCに基づくフィルタ係数により、後述する加算部 11 1から出力される駆動音源に対してフィルタ合成を行うことにより合成信号を生成し、 合成信号を加算部 105に出力する。
[0020] 加算部 105は、合成信号の極性を反転させて Xinに加算することにより誤差信号を 算出し、誤差信号を聴覚重み付け部 112に出力する。
[0021] 適応音源符号帳 106は、過去に加算部 111によって出力された駆動音源をバッフ ァに記憶し、ノ ラメータ決定部 113から出力された信号により特定される過去の駆動 音源から 1フレーム分のサンプルを適応音源ベクトルとして切り出して乗算部 109に 出力する。
[0022] ゲイン符号帳 107は、ノ ラメータ決定部 113から出力された信号によって特定され る適応音源ベクトルのゲインと固定音源ベクトルのゲインとをそれぞれ乗算部 109と 乗算部 110とに出力する。
[0023] 固定音源符号帳 108は、所定形状のノ ルス音源ベクトルをバッファに複数記憶し、 ノ ラメータ決定部 113から出力された信号によって特定される形状を有するパルス音 源ベクトルに拡散ベクトルを乗算して得られた固定音源ベクトルを乗算部 110に出力 する。
[0024] 乗算部 109は、ゲイン符号帳 107から出力されたゲインを、適応音源符号帳 106か ら出力された適応音源ベクトルに乗じて、加算部 111に出力する。乗算部 110は、ゲ イン符号帳 107から出力されたゲインを、固定音源符号帳 108から出力された固定 音源ベクトルに乗じて、加算部 111に出力する。
[0025] 加算部 111は、利得乗算後の適応音源ベクトルと固定音源ベクトルとをそれぞれ乗 算部 109と乗算部 110とから入力し、これらをベクトル加算し、加算結果である駆動 音源を合成フィルタ 104および適応音源符号帳 106に出力する。なお、適応音源符 号帳 106に入力された駆動音源は、バッファに記憶される。
[0026] 聴覚重み付け部 112は、加算部 105から出力された誤差信号に対して聴覚的な重 み付けをおこない符号化歪みとしてパラメータ決定部 113に出力する。
[0027] ノ ラメータ決定部 113は、聴覚重み付け部 112から出力された符号化歪みを最小 とする適応音源ベクトル、固定音源べ外ル及び量子化利得の符号を探索し、探索さ れた適応音源ベクトルを表す符号 (A)、固定音源ベクトルを表す符号 (F)及び量子 化利得を表す符号 (G)を多重化部 114に出力する。
[0028] 多重化部 114は、 LPC量子化部 103から量子化 LPCを表す符号 (L)を入力し、パ ラメータ決定部 113から適応音源ベクトルを表す符号 (A)、固定音源ベクトルを表す 符号 (F)および量子化利得を表す符号 (G)を入力し、これらの情報を多重化して符 号化情報として出力する。
[0029] 図 2は、本実施の形態に係る音声復号化装置の構成を示すブロック図である。図 2 において、符号化情報は、多重化分離部 201によって個々の符号 (L、 A、 G、 F)に 分離される。量子化 LPCを表す符号 (Uは LPC復号化部 202に出力され、適応音 源ベクトルを表す符号 (A)は適応音源符号帳 203に出力され、量子化利得を表す 符号 (G)はゲイン符号帳 204に出力され、固定音源ベクトルを表す符号 (F)は固定 音源符号帳 205に出力される。
[0030] LPC復号化部 202は、量子化 LPCを表す符号 (L)から量子化 LSPパラメータを復 号化し、得られた量子化 LSPパラメータを量子化 LPCパラメータに再変換し、合成フ イノレ夕 209〖こ出力する。
[0031] 適応音源符号帳 203は、合成フィルタ 209で使用された過去の駆動音源を記憶し 、適応音源ベクトルを表す符号 (A)に対応する適応符号帳ラグで指定される過去の 駆動音源から 1フレーム分のサンプルを適応音源ベクトルとして取り出して乗算部 20 6に出力する。また、適応音源符号帳 203は、加算部 208から出力された駆動音源 により、記憶されている駆動音源を更新する。
[0032] ゲイン符号帳 204は、量子化利得を表す符号 (G)で指定される適応音源べクトノレ のゲインと固定音源ベクトルのゲインを復号化し、適応音源ベクトルのゲインを乗算 部 206に出力し、固定音源ベクトルのゲインを乗算部 207に出力する。
[0033] 固定音源符号帳 205は、所定形状のノ ルス音源ベクトルをバッファに複数記憶し、 固定音源ベクトルを表す符号 (F)で指定される形状を有するパルス音源ベクトルに 拡散ベクトルを乗算して得られた固定音源ベクトルを生成し、乗算部 207に出力する
[0034] 乗算部 206は、適応音源ベクトルにゲインを乗算して、加算部 208に出力する。乗 算部 207は、固定音源ベクトルにゲインを乗算して、加算部 208に出力する。
[0035] 加算部 208は、乗算部 206、 207から出力された利得乗算後の適応音源ベクトルと 固定音源ベクトルとの加算を行って駆動音源を生成し、これを合成フィルタ 209及び 適応音源符号帳 203に出力する。
[0036] 合成フィルタ 209は、 LPC復号化部 202によって復号化されたフィルタ係数を用い て、加算部 208から出力された駆動音源のフィルタ合成を行い、得られた信号 (以下 、「第 1合成信号」という)をポストフィルタ 210および振幅比 ·変化量算出部 211に出 力する。
[0037] ポストフィルタ 210は、合成フィルタ 209から出力された信号に対して、ホルマント強 調やピッチ強調と!/、つたような音声の主観的な品質を改善する処理や、定常雑音の 主観的品質を改善する処理などを施し、得られた信号 (以下、「第 2合成信号」という) を振幅比 ·変化量算出部 211およびパヮ調整部 214に出力する。なお、ポストフィノレ タ 210では、計算量を下げるために、ピッチ分析を省略し、適応音源符号帳 203の 適応符号帳ラグと適応音源ベクトルのゲインを利用して作成したフィルタをかける場 合もある。
[0038] 振幅比 ·変化量算出部 211は、ポストフィルタ 210の入力信号である第 1合成信号 とポストフィルタ 210の出力信号である第 2合成信号との振幅比、およびこの振幅比 の変動量をサブフレーム毎に算出し、算出した振幅比を平滑化係数設定部 212およ び調整係数設定部 213に出力し、算出した振幅比の変動量を平滑化係数設定部 2 12に出力する。
[0039] 平滑化係数設定部 212は、第 1合成信号と第 2合成信号との振幅比およびこの振 幅比の変動量を用いて平滑化係数をサブフレーム毎に設定し、設定した平滑化係 数を調整係数設定部 213に出力する。
[0040] 調整係数設定部 213は、第 1合成信号と第 2合成信号との振幅比、および平滑化 係数を用いて調整係数をサンプル毎に設定し、設定した調整係数をパヮ調整部 214 に出力する。
[0041] ノ^調整部 214は、調整係数を第 2合成信号に乗ずることにより、第 2合成信号の パヮを調整し、最終的な復号音声信号を得る。
[0042] 次に、本実施の形態に係る音声復号化装置のパヮ調整のアルゴリズムについて図
3、図 4を用いて説明する。なお、図 3、図 4に示すアルゴリズムに用いられる値を、以 下の記号により表す。また、図 3、図 4では、定数の数値を、一般的な電話用低ビット レートコ一デックで用いられる単位であるサンプリングレート: 8kHz、サブフレーム長: 5msのものとしている。
n :サンプル値
ρθ :第 1合成信号のパヮ
l :第 2合成信号のパヮ
g :現サブフレームの振幅比
g :前サブフレームの振幅比
g :調整係数
:平滑化係数
β :定常性尺度
sy[n] :サンプル nにおける第 1合成信号
p£n] :サンプル nにおける第 2合成信号
q[n] :復号音声信号
[0043] まず、音声復号化装置が動作を始める前に調整係数 gと前サブフレームの振幅比 g
を 1. 0に初期ィ匕する(ST300, ST301)。
[0044] 次に、サブフレーム単位で全サンプリングタイミングの第 1合成信号および第 2合成 信号を入力し(ST302)、第 1合成信号のパヮ p0、第 2合成信号のパヮ plおよびサン プル値 nを 0に初期化してから(ST303)、現サブフレームの第 1合成信号のパヮ ρθ および第 2合成信号 plのパヮを求める(ST304, ST305, ST306)。
[0045] そして、第 1合成信号のパヮ ρθあるいは第 2合成信号 plのうち 1つでも 0であれば(S T307 : YES)例外モードに入り、現サブフレームの振幅比 gに過去からアップデート されてきた調整係数 gの値を代入し、平滑化係数 αを 1. 0とする(ST308)。なお、こ の ST308の 2つの処理は、どちらか一方だけを行えばよい。
[0046] 一方、第 1合成信号のパヮ ρθおよび第 2合成信号 piのいずれも 0でなければ(ST3 07 : NO)、第 1合成信号のパヮ ρθを第 2合成信号 piで割り、その平方根を取ることに よって、現サブフレームの振幅比 gを求める(ST309)。なお、 ST303, ST304, ST
305, ST306, ST307, ST309のき分を数式に表すと以下の式(1)になる。
國 gs = ただし分母が 0の時に 1 ' ' ' ( I )
Figure imgf000010_0001
[0047] 次に、現サブフレームの振幅比 gの大きさで平滑化係数 αを場合分けで設定する
。図 4では、設定例として 4通りを示した。すなわち、 g < 0. 4または g 〉2. 5の場合 には α =0· 9と設定する(ST310 :YES, ST311)。また、上記以外の場合であって g < 0. 6または g > 1. 7の場合には α =0. 96と設定する(ST310 : NO, ST312 :
YES, ST313)。また、上記 2つの以外の場合であって g < 0. 8または g > 1. 3の場 合には α =0. 99と設定する(ST312 : NO, ST314 :YES, ST315)。また、上記 3 つのいずれの場合でも無い場合には α =0· 998と設定する(ST314 : NO, ST316
)。
[0048] ここで、現サブフレームの振幅比 gが 1. 0に近いほど平滑化係数 αを 1. 0に近く設 定する。なお、平滑化係数 αが 1. 0に近くなるほど加速係数(1 α )は逆に 0. 0に 近くなる。この過程は本発明の重要な要素であり、この設定により、ポストフィルタ処 理により大きくパヮが変化する場合には速やかにパヮが調整され、またパヮがあまり 変化しない場合にはより滑らかに調整される。
[0049] 次に、前サブフレームの振幅比 g と現サブフレームの振幅比 gとの差の絶対値 |g g Iが所定の閾値より大きい場合には定常性尺度 øを小さく設定し、所定の閾値 以下の場合には定常性尺度 βを大きく設定する。図 4では、設定例として、 |g g I
上 が 0. 5より大きい場合には /3 =0. 95と設定し、 0. 5以下の場合には /3 = 1. 0と設 定する(ST317, ST318, ST319)。
[0050] そして、平滑化係数 αに定常性尺度 0を乗じて新たな平滑化係数 αを得る(ST3 20)。このように、定常性尺度 /3を平滑化係数 αに乗ずることにより、時間的に変動 が大きい場合に平滑化係数 αを小さくし (加速係数(1 α )を大きくし)、速やかにパ ヮを調整できると!/、う効果がある。
[0051] 次に、求められた現サブフレームの振幅比 gと平滑化係数 αに基づいて調整係数 gを算出する。具体的には、前サンプルの調整係数 gに平滑化係数《を乗じたものと 、現サブフレームの振幅比 gに加速係数(1 α )を乗じたものと、を加算して新たな 調整係数 gを算出する。そして、第 2合成信号 pfti]に調整係数 gを乗じて、最終的な 復号音声信号 q[n]を得る(ST321 , ST322, ST323, ST324)。
[0052] そして、得られた 1サブフレーム分の復号音声信号 q[n]を出力する(ST325)。
[0053] 以上の処理を次のサブフレームについても繰り返す(ST326)。なお、最後に用い た調整係数 gは次のサブフレームにそのまま使用される。また、 ST308または ST30 9で求められた現サブフレームの振幅比 gは、次のサブフレームの処理において、前 サブフレームの振幅比 g として使用される。
s-1
[0054] このように、本実施の形態によれば、ポストフィルタによりパヮが大きく変化する場合 や振幅比が時間的に大きく変動する場合には速やかにパヮ調整をすることができ、 またポストフィルタでパヮ変動がない区間や時間的に定常的な区間では不連続感の 無いスムーズなパヮ調整を実現することができる。したがって、本実施の形態によれ ば、安定した音量で良好な合成音を得ることができる。
[0055] なお、本実施の形態ではサンプリング周波数 8kHz、サブフレーム長 5ms (40サン プル)を基準として定数などを設定した力 本発明はサンプリング周波数やサブフレ ーム長について制限はなぐ他の場合であっても有効である。例えば、サンプリング が倍の 16kHzサンプリングである場合には、サブフレーム単位は 80サンプルであり、 平滑化係数の値はより大きく設定することにより良好な性能が得られる。例えば、本 実施の形 の平滑ィ匕係数の定数 {0. 9、 0. 96、 0. 99、 0. 998 }は {0. 95、 0. 98、 0. 993、 0. 999} ίこ、定常十生尺度 {0. 95、 1. 0} (ま {0. 97、 1. 0}程度 ίこ設定するこ とによりサンプリングレートに適応した良好な性能が得られる。
[0056] また、本実施の形態では、平滑化係数や定常性尺度の判定に振幅比を参照する 場合について説明した力 本発明はこれに限られず振幅比の代わりにパヮ比を用い ても同様の効果を得ることができる。なお、パヮ比は振幅比の 2乗と強い相関関係が ある。
[0057] 一方、本実施の形態では、現サブフレームの調整係数を求めるために 2つの信号 の 2乗和の比の平方根を計算した力 本発明はこれに限られず、信号の絶対値の和 の比を用いても同様の効果を得ることができる。
[0058] また、本実施の形態では、ポストフィルタの入出力のパヮの変動を調整するための パヮ調整部について示した力 本発明はポストフィルタに限らず、入出力にパヮの変 動がある場合に有効である。例えば、補聴器等で用いられる音韻強調処理において もパヮが急に変動しないようにパヮ調整が必要であり、その場合でも本発明は極めて 有効であり、聞き取り易く耳にスムーズな音質の音声聴覚を実現することができる。
[0059] また、本実施の形態では CELPに対して用いた力 S、他のコーデックであっても本発 明が有効である。なぜなら、本発明のパヮ調整部はデコーダ処理の後処理に用いら れており、コーデックの種類に依存しないからである。
[0060] また、本実施の形態では、固定音源符号帳においてパルス音源ベクトルに拡散べ タトルを乗算して固定音源ベクトルを生成した力 本発明はこれに限られず、ノ ルス 音源ベクトルそのものを固定音源ベクトルとしても良い。
[0061] また、本発明に係る音声復号化装置は、移動体通信システムにおける通信端末装 置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果 を有する通信端末装置、基地局装置、および移動体通信システムを提供することが できる。
[0062] また、ここでは、本発明をハードウェアで構成する場合を例にとって説明した力 本 発明をソフトウェアで実現することも可能である。例えば、本発明に係るアルゴリズム をプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報 処理手段によって実行させることにより、本発明に係る音声復号化装置と同様の機能 を実現すること力できる。
[0063] また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路で ある LSIとして実現される。これらは個別に 1チップ化されても良いし、一部または全 てを含むように 1チップ化されても良い。 [0064] また、ここでは LSIとしたが、集積度の違いによって、 IC、システム LSI、スーパー L
SI、ウノレ卜ラ LSI等と呼称されることもある。
[0065] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Pro grammable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能な リコンフィギユラブル .プロセッサを利用しても良!/、。
[0066] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行って も良い。ノ ィォ技術の適用等が可能性としてあり得る。
[0067] 2006年 12月 13曰出願の特願 2006— 336272の曰本出願に含まれる明細書、図 面および要約書の開示内容は、すべて本願に援用される。
産業上の利用可能性
[0068] 本発明は、符号化された音声信号を復号化する音声復号化装置等に用いるに好 適である。

Claims

請求の範囲
[1] サブフレーム長の信号に対して所定のサンプルタイミング間隔でフィルタをかけるポ ストフィルタと、
前記ポストフィルタの入力信号と出力信号との振幅比あるいはパヮ比である第 1計 算値、およびこの第 1計算値の変動量である第 2計算値をサブフレーム毎に算出す る算出手段と、
前記第 1計算値および前記第 2計算値に基づいて平滑化係数をサブフレーム毎に 設定する平滑化係数設定手段と、
前記第 1計算値および前記平滑化係数に基づいて調整係数をサンプル毎に設定 する調整係数設定手段と、
前記ポストフィルタの出力信号に前記調整係数を乗ずることにより復号音声信号を 得るパヮ調整手段と、
を具備する音声復号化装置。
[2] 前記平滑化係数設定手段は、前記第 1計算値が 1. 0に近いほど前記平滑化係数 を 1. 0に近く設定する請求項 1に記載の音声復号化装置。
[3] 前記調整係数設定手段は、前サンプルの前記調整係数に前記平滑化係数を乗じ た値と、 1. 0から前記平滑化係数を減じた加速係数を前記第 1計算値に乗じた値と、 を加算して新たな調整係数を算出する請求項 1に記載の音声復号化装置。
[4] サブフレーム長の信号に対して所定のサンプルタイミング間隔でフィルタをかけるポ ストフィルタの出力信号のパヮ調整方法であって、
前記ポストフィルタの入力信号と出力信号との振幅比あるいはパヮ比である第 1計 算値、およびこの第 1計算値の変動量である第 2計算値をサブフレーム毎に算出す 前記第 1計算値および前記第 2計算値に基づいて平滑化係数をサブフレーム毎に 前記第 1計算値および前記平滑化係数に基づいて調整係数をサンプル毎に設定 前記ポストフィルタの出力信号に前記調整係数を乗ずるステップと、 を具備するパヮ調整方法。
PCT/JP2007/073968 2006-12-13 2007-12-12 音声復号化装置およびパワ調整方法 WO2008072671A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US12/517,603 US20100332223A1 (en) 2006-12-13 2007-12-12 Audio decoding device and power adjusting method
EP07859788A EP2096631A4 (en) 2006-12-13 2007-12-12 TONE DECODING DEVICE AND POWER ADJUSTMENT METHOD
BRPI0720266-0A BRPI0720266A2 (pt) 2006-12-13 2007-12-12 Dispositivo de decodificação de aúdio e método de ajuste de potência
JP2008549343A JPWO2008072671A1 (ja) 2006-12-13 2007-12-12 音声復号化装置およびパワ調整方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-336272 2006-12-13
JP2006336272 2006-12-13

Publications (1)

Publication Number Publication Date
WO2008072671A1 true WO2008072671A1 (ja) 2008-06-19

Family

ID=39511688

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/073968 WO2008072671A1 (ja) 2006-12-13 2007-12-12 音声復号化装置およびパワ調整方法

Country Status (5)

Country Link
US (1) US20100332223A1 (ja)
EP (1) EP2096631A4 (ja)
JP (1) JPWO2008072671A1 (ja)
BR (1) BRPI0720266A2 (ja)
WO (1) WO2008072671A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689488A (zh) * 2019-08-22 2020-01-14 稿定(厦门)科技有限公司 图像调色方法、介质、设备及装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5245622B2 (ja) * 2008-07-31 2013-07-24 富士通株式会社 ノイズ検出装置及びノイズ検出方法
CN105551497B (zh) 2013-01-15 2019-03-19 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
US9728200B2 (en) 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
US9042462B2 (en) 2013-04-24 2015-05-26 Commscope Technologies Llc Differential signal transmission
US9620134B2 (en) 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
US10083708B2 (en) 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
US10614816B2 (en) 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
US9384746B2 (en) 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
US10163447B2 (en) 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07160296A (ja) * 1993-12-10 1995-06-23 Nec Corp 音声復号装置
JPH09127996A (ja) 1995-10-26 1997-05-16 Sony Corp 音声復号化方法及び装置
JPH09138697A (ja) * 1995-09-14 1997-05-27 Toshiba Corp ホルマント強調方法
JPH09190195A (ja) 1995-09-18 1997-07-22 Toshiba Corp 音声信号のスペクトル形状調整方法および装置
JPH10214100A (ja) * 1997-01-31 1998-08-11 Sony Corp 音声合成方法
JP2000305598A (ja) * 1990-02-23 2000-11-02 Toshiba Corp 適応ポストフィルタ

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3076086B2 (ja) * 1991-06-28 2000-08-14 シャープ株式会社 音声合成装置用ポストフィルタ
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
EP0763818B1 (en) * 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
US5890138A (en) * 1996-08-26 1999-03-30 Bid.Com International Inc. Computer auction system
US6092041A (en) * 1996-08-22 2000-07-18 Motorola, Inc. System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder
JPH1084284A (ja) * 1996-09-06 1998-03-31 Sony Corp 信号再生方法および装置
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
AU2001285936A1 (en) * 2000-09-08 2002-03-22 Koninklijke Philips Electronics N.V. Audio signal processing with adaptive noise-shaping modulation
CN1210690C (zh) * 2000-11-30 2005-07-13 松下电器产业株式会社 音频解码器和音频解码方法
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
CA2566368A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
CN101006495A (zh) * 2004-08-31 2007-07-25 松下电器产业株式会社 语音编码装置、语音解码装置、通信装置以及语音编码方法
CN101023470A (zh) * 2004-09-17 2007-08-22 松下电器产业株式会社 语音编码装置、语音解码装置、通信装置及语音编码方法
JP4732730B2 (ja) * 2004-09-30 2011-07-27 パナソニック株式会社 音声復号装置
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US20090018824A1 (en) * 2006-01-31 2009-01-15 Matsushita Electric Industrial Co., Ltd. Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000305598A (ja) * 1990-02-23 2000-11-02 Toshiba Corp 適応ポストフィルタ
JPH07160296A (ja) * 1993-12-10 1995-06-23 Nec Corp 音声復号装置
JPH09138697A (ja) * 1995-09-14 1997-05-27 Toshiba Corp ホルマント強調方法
JPH09190195A (ja) 1995-09-18 1997-07-22 Toshiba Corp 音声信号のスペクトル形状調整方法および装置
JPH09127996A (ja) 1995-10-26 1997-05-16 Sony Corp 音声復号化方法及び装置
JPH10214100A (ja) * 1997-01-31 1998-08-11 Sony Corp 音声合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2096631A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689488A (zh) * 2019-08-22 2020-01-14 稿定(厦门)科技有限公司 图像调色方法、介质、设备及装置

Also Published As

Publication number Publication date
US20100332223A1 (en) 2010-12-30
BRPI0720266A2 (pt) 2014-01-28
JPWO2008072671A1 (ja) 2010-04-02
EP2096631A1 (en) 2009-09-02
EP2096631A4 (en) 2012-07-25

Similar Documents

Publication Publication Date Title
WO2008072671A1 (ja) 音声復号化装置およびパワ調整方法
US8069040B2 (en) Systems, methods, and apparatus for quantization of spectral envelope representation
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
JPWO2008072701A1 (ja) ポストフィルタおよびフィルタリング方法
EP2282309A2 (en) Sub-band voice with multi-stage codebooks and redundant coding
JP4679513B2 (ja) 階層符号化装置および階層符号化方法
RU2636685C2 (ru) Решение относительно наличия/отсутствия вокализации для обработки речи
MX2007011102A (es) Tramas que distorsionan el tiempo dentro del vocoder modificando el residuo.
CA2659197A1 (en) Time-warping frames of wideband vocoder
JP2003501675A (ja) 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置
JP6644848B2 (ja) ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法
EP3079151A1 (en) Audio encoder and method for encoding an audio signal
EP1872364A1 (en) Source coding and/or decoding
JPWO2007037359A1 (ja) 音声符号化装置および音声符号化方法
JPWO2008072732A1 (ja) 音声符号化装置および音声符号化方法
JPWO2008001866A1 (ja) 音声符号化装置及び音声符号化方法
WO2007129726A1 (ja) 音声符号化装置及び音声符号化方法
WO2012053146A1 (ja) 符号化装置及び符号化方法
WO2011048810A1 (ja) ベクトル量子化装置及びベクトル量子化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07859788

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008549343

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2007859788

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 12517603

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: PI0720266

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20090612