JPWO2008018464A1 - 音声符号化装置および音声符号化方法 - Google Patents
音声符号化装置および音声符号化方法 Download PDFInfo
- Publication number
- JPWO2008018464A1 JPWO2008018464A1 JP2008528833A JP2008528833A JPWO2008018464A1 JP WO2008018464 A1 JPWO2008018464 A1 JP WO2008018464A1 JP 2008528833 A JP2008528833 A JP 2008528833A JP 2008528833 A JP2008528833 A JP 2008528833A JP WO2008018464 A1 JPWO2008018464 A1 JP WO2008018464A1
- Authority
- JP
- Japan
- Prior art keywords
- adaptive
- sound source
- codebook
- search
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 123
- 230000003044 adaptive effect Effects 0.000 claims abstract description 286
- 238000001914 filtration Methods 0.000 claims abstract description 95
- 230000008569 process Effects 0.000 claims abstract description 65
- 230000005284 excitation Effects 0.000 claims description 82
- 239000000284 extract Substances 0.000 claims description 6
- 239000013598 vector Substances 0.000 abstract description 52
- 238000012545 processing Methods 0.000 description 48
- 238000004458 analytical method Methods 0.000 description 20
- 238000013139 quantization Methods 0.000 description 18
- 230000015572 biosynthetic process Effects 0.000 description 17
- 238000003786 synthesis reaction Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 238000010295 mobile communication Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000002194 synthesizing effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
適応符号帳の性能を改良し、復号音声の品質を向上させる音声符号化装置。この音声符号化装置では、適応符号帳(113)は、内部バッファに格納されている適応コードベクトルの中から比較部(117)から指定されたものを切り出してフィルタリング部(101)およびスイッチング部(121)へ出力する。フィルタリング部(101)は、適応音源信号に所定のフィルタリング処理を施し、得られる適応コードベクトルをスイッチング部(121)へ出力する。スイッチング部(121)は、比較部(117)からの指示に応じて、適応符号帳(113)の探索を行っている場合には適応符号帳(113)から直接出力される適応コードベクトルをゲイン調整部(115)へ出力し、適応音源探索後の固定音源探索を行っている場合にはフィルタリング部(101)から出力されるフィルタリング処理が施された後の適応コードベクトルをゲイン調整部(115)へ出力する。
Description
本発明は、適応符号帳を用いる音声符号化装置および音声符号化方法に関する。
移動体通信において、伝送帯域の有効利用のために、音声や画像等のディジタル情報の圧縮符号化が必須である。その中でも、携帯電話で広く利用される音声コーデック(符号化/復号化)技術に対する期待は大きく、圧縮率の高い従来の高効率符号化に加え、より良い音質への要求が強まっている。また、音声通信は携帯電話の基本機能であるため標準化が必須であり、それに伴う知的財産権の価値の大きさゆえに世界各国の企業において研究開発が盛んに行われている。
約20年前に確立された音声の発声機構をモデル化してベクトル量子化を巧みに応用した音声符号化の基本方式「CELP(Code Excited Linear Prediction)」は、復号音声の品質を大きく向上させた。また、代数的符号帳(Algebraic Codebook、例えば非特許文献1に記載)の様な少数パルスによる固定音源を用いた技術の登場で一段とその性能を向上させた。
しかし、CELPにおいて、スペクトル包絡情報については、LSP(Line Spectrum Pair)等のパラメータと予測VQ(Vector Quantization)等の高能率符号化法が開発され、固定符号帳については、上記代数的符号帳のような高効率符号化法が開発されてきたが、適応符号帳だけはその性能を向上させる取組みは少ない。
そのため、近年、CELPの音質向上が頭打ちの状態であったが、これを解消するために、特許文献1には、適応符号帳のコードベクトル(以下、適応音源と呼ぶ)の周波数帯域を入力の音響信号に適応させたフィルタにより制限し、その周波数帯域制限されたコードベクトルを合成信号の生成に用いる技術が開示されている。
特開2003−29798号公報
Salami, Laflamme, Adoul, "8kbit/s ACELP Coding of Speech with 10ms Speech-Frame : a Candidate for CCITT Standardization", IEEE Proc. ICASSP94, pp.II-97n
特許文献1に開示の技術は、入力の音響信号に適応させたフィルタを用いた周波数帯域制限により、モデルが表現しようとする成分の周波数帯域に合うように帯域を適応的に制御する。しかしながら、特許文献1に開示の技術によっては、不要な成分に基づく歪みの発生が抑えられるのみであり、適応音源に基づいて生成される合成信号は、入力音声信号に聴感重み付け合成フィルタの逆フィルタを掛けたものであって、適応音源が理想音源(歪みが最小化された理想的な音源)に精度良く類似することにはならない。
例えば、歪み最小化という観点から適応符号帳の探索方法に工夫を施して適応符号帳を改良すれば、統計的な歪みの削減がなされるという効果が得られるはずであるが、特許文献1には、この点について何ら開示がない。
本発明の目的は、かかる点に鑑みてなされたものであり、適応符号帳の性能を改良し、復号音声の品質を向上させることができる音声符号化装置および音声符号化方法を提供することである。
本発明の音声符号化装置は、適応音源探索および固定音源探索を行う音源探索手段と、適応音源を格納し、前記適応音源の一部を切り出す適応符号帳と、前記適応符号帳から切り出された適応音源に所定のフィルタリング処理を施すフィルタリング手段と、複数の固定音源を格納し、前記音源探索手段から指定された固定音源を取り出す固定符号帳と、を具備し、前記音源探索手段は、適応音源探索時には前記適応符号帳から切り出された適応音源を用いて探索を行い、固定音源探索時には前記フィルタリング処理が施された後の適応音源を用いて探索する構成を採る。
本発明によれば、別の音声符号化等の処理によって求まったラグを用いて適応音源信号を求める場合にその適応音源信号に対してラグのずれから生ずる典型的な劣化を補うことができる。これにより、適応符号帳の性能を改良し、復号音声の品質を向上させることができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、本明細書では、音声符号化方式としてCELPが使用されている構成を例にとって説明を行う。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置の主要な構成を示すブロック図である。実線は、音声信号、各種パラメータ等の入出力を表している。また破線は、制御信号の入出力を表している。
図1は、本発明の実施の形態1に係る音声符号化装置の主要な構成を示すブロック図である。実線は、音声信号、各種パラメータ等の入出力を表している。また破線は、制御信号の入出力を表している。
本実施の形態に係る音声符号化装置は、フィルタリング部101と、LPC分析部112と、適応符号帳113と、固定符号帳114と、ゲイン調整部115と、ゲイン調整部120と、加算器119と、LPC合成部116と、比較部117と、パラメータ符号化部118と、スイッチング部121と、から主に構成される。
本実施の形態に係る音声符号化装置の各部は、以下の動作を行う。
LPC分析部112は、入力される音声信号V1に対し、自己相関分析、LPC分析を行なうことによってLPC係数を得、得られるLPC係数の符号化を行なってLPC符号を得る。この符号化は、PARCOR係数、LSP、ISP等の量子化しやすいパラメータに変換した後、過去の復号化パラメータを用いた予測処理やベクトル量子化を用いて量子化を行うことによりなされる。また、LPC分析部112は、得られるLPC符号を復号化して復号化LPC係数も得る。そして、LPC分析部112は、LPC符号をパラメータ符号化部118に出力し、復号化LPC係数をLPC合成部116に出力する。
適応符号帳113は、内部バッファに格納されている適応コードベクトル(または適応音源)の中で、比較部117から指定されたものを切り出し(抽出し)、切り出された適応コードベクトルをフィルタリング部101およびスイッチング部121へ出力する。また、適応符号帳113は、音源サンプルのインデクス(音源の符号)をパラメータ符号化部118に出力する。
フィルタリング部101は、適応符号帳113から出力される適応音源信号に所定のフィルタリング処理を施し、得られる適応コードベクトルをスイッチング部121へ出力する。なお、このフィルタリング処理の詳細については後述する。
スイッチング部121は、比較部117からの指示に応じて、ゲイン調整部115への入力を選択する。具体的には、スイッチング部121は、適応符号帳113の探索(適応音源探索)を行っている場合には、適応符号帳113から直接出力される適応コードベクトルを選択し、適応音源探索後の固定音源探索を行っている場合には、フィルタリング部101から出力されるフィルタリング処理が施された後の適応コードベクトルを選択する。
固定符号帳114は、内部バッファに格納されている固定コードベクトル(または固定音源)の中で、比較部117から指定されたものを取り出し、ゲイン調整部120へ出力する。また、固定符号帳114は、音源サンプルのインデクス(音源の符号)をパラメータ符号化部118に出力する。
ゲイン調整部115は、スイッチング部121で選択された、フィルタリング処理が施された後の適応コードベクトル、あるいは、適応符号帳113から直接出力された適応コードベクトルのいずれかに対し、比較部117から指定されるゲインを乗じてゲイン調整を行い、ゲイン調整後の適応コードベクトルを加算器119へ出力する。
ゲイン調整部120は、固定符号帳114から出力される固定コードベクトルに対し、比較部117から指定されるゲインを乗じてゲイン調整を行い、ゲイン調整後の固定コードベクトルを加算器119へ出力する。
加算器119は、ゲイン調整部115およびゲイン調整部120から出力されるコードベクトル(音源ベクトル)を加算して音源ベクトルを得、これをLPC合成部116へ出力する。
LPC合成部116は、加算部119から出力される音源ベクトルに対してLPCパラメータを用いた全極型フィルタによって合成を行い、得られる合成信号を比較部117へ出力する。ただし、実際の符号化においては、ゲイン調整前の2つの音源ベクトル(適応音源、固定音源)に対して、LPC分析部112で得られた復号化LPC係数によってフィルタリングを行なって2つの合成信号を得る。これは、より効率的に音源の符号化を行うためである。なお、LPC合成部116における音源探索の際のLPC合成では、線形予測係数、高域強調フィルタ、長期予測係数(入力音声の長期予測分析を行なうことによって得られる係数)等を用いた聴感重み付けフィルタを使用する。
比較部117は、LPC合成部116で得られる合成信号と入力音声信号V1との距離を算出し、2つの符号帳(適応符号帳113、固定符号帳114)からの出力ベクトルとゲイン調整部115で乗じるゲインとを制御することによって、最も距離が近くなる2つの音源の符号の組み合わせを探索する。ただし、実際の符号化においては、LPC合成部116で得られた2つの合成信号と入力音声信号との関係を分析し、2つの合成信号の最適値(最適ゲイン)の組み合わせを求め、その最適ゲインによってゲイン調整部115でゲインの調整をされたそれぞれの合成信号を加算して総合合成信号を得、その総合合成信号と入力音声信号との距離計算を行なう。適応符号帳113および固定符号帳114の全ての音源サンプルに対してゲイン調整部115およびLPC合成部116を動作させることによって得られる多くの合成信号と入力音声信号との距離計算を行ない、得られる距離を比較し、最も小さくなる音源サンプルのインデクスを求める。比較部117は、最終的に得られた2つの符号帳のインデクス(符号)と、これらのインデクスに対応する2つの合成信号と、入力音声信号とをパラメータ符号化部118へ出力する。
パラメータ符号化部118は、2つの合成信号と入力音声信号との間の相関を用いてゲインの符号化を行なうことによってゲイン符号を得る。そして、パラメータ符号化部118は、ゲイン符号、LPC符号、2つの符号帳113,114の音源サンプルのインデクス(音源の符号)をまとめて伝送路へ出力する。また、パラメータ符号化部118は、ゲイン符号と音源の符号に対応する2つの音源サンプル(適応音源はフィルタリング部101において変更が加えられている)とを用いて音源信号を復号化し、復号信号を適応符号帳113に格納する。この際、古い音源サンプルを破棄する。すなわち、適応符号帳113の復号化音源データを未来から過去にメモリシフトし、メモリから溢れ出る古いデータは破棄し、未来の空き部分に、復号化で作成した音源信号を格納する。この処理は適応符号帳の状態更新と呼ばれる(この処理は、図1におけるパラメータ符号化部118から適応符号帳113へ伸びているラインによって実現される)。
なお、本実施の形態において、音源探索は、適応符号帳および固定符号帳を同時に最適化するのは必要な演算量が膨大で事実上不可能であるので、各符号帳について1つずつ符号を決めていくというオープンループ探索を行う。すなわち、適応音源だけの合成信号と入力音声信号とを比較することによって適応符号帳の符号を得、次にこの適応符号帳からの音源を固定して、固定符号帳からの音源サンプルを制御し、最適ゲインの組み合わせによって多くの総合合成信号を得、それと入力音声とを比較することによって固定符号帳の符号を決定する。以上の様な手順により、現存の小型プロセッサ(DSP等)で探索が実現できる。
また、適応符号帳113および固定符号帳114における音源探索は、符号化の一般的な処理単位区間であるフレームを更に細かく分けたサブフレームにおいて行う。
次いで、フィルタリング部101を主に用いた適応音源信号の変更処理について、図2および図3を用いて、より詳細に説明する。
図2は、適応符号帳113における適応音源信号の切り出し処理の概要を示す図である。フィルタリング部101には、この切り出された適応音源信号が入力される。以下の式(1)は、適応音源信号の切り出し処理を数式で表現したものである。
図3は、適応音源信号のフィルタリング処理の概要を説明するための図である。フィルタリング部101は、入力されるラグに従って、適応符号帳から切り出された適応音源信号に対して線形フィルタリングを行う。本実施の形態では、MA(Moving Average:移動平均)型のマルチタップのフィルタリング処理を施す。フィルタ係数としては、設計段階で求まる固定係数を用いる。また、このフィルタリングでは、上述の適応音源信号と適応符号帳113とを用いる。まず、適応音源信号のサンプル毎に、そこからLサンプル前の適応符号帳113内のサンプルを基準として前後Mサンプルの範囲のサンプルの値にフィルタ係数を乗ずることによって得られる値の積和を取り、それを適応音源信号の当該サンプルの値に加算して、新たな値を得る。これが「変換後の適応音源信号」となる。
なお、Lが短い場合、フィルタの−Mから+Mの範囲が適応符号帳113に格納されている適応音源の範囲から外に出てしまう場合があるが、+Mの部分が外に出るような場合は、切り出した適応音源(本実施の形態に係るフィルタリング処理の対象になっているもの)が適応符号帳113に格納されている適応音源の末尾に接続されているものとして扱うことにより、上記フィルタリング処理を支障なく実行することができる。また−Mの部分は、外に出ないように十分な長さの適応音源を適応符号帳113に格納しておくことにより対応する。
そして、本実施の形態に係る音声符号化装置は、適応符号帳113から直接出力される適応音源信号、および、上記変更後の適応音源信号を用いて、入力音声信号の符号化を行う。この変更処理を数式で表現すると以下の式(2)となる。式(2)の右辺第2項がフィルタリング処理を表している。
MA型マルチタップフィルタのフィルタ係数として用いる固定係数は、切り出された適応音源に同じフィルタリングを行った際にその結果が理想音源に最も近づく様な値に、設計段階で設定される。これは、多くの学習用音声データサンプルに対して、変更された適応音源と理想音源の差分をコスト関数として、フィルタ係数の偏微分により得られる連立1次方程式を解くことによって算出される。コスト関数Eを以下の式(3)に示す。
なお、充分多い学習用データに基づいて上記統計的処理によってフィルタ係数を求め、この求まったフィルタ係数によるフィルタリング処理を行うようにすれば、符号化歪みが平均的に小さくなることは、上記に示した当該係数の算出過程から明らかである。
また、ラグLは、音声を符号化することを考慮し、人間の有声音の基本周期を考慮し、限られたビット数で最も良い符号化性能が得られるような範囲に設計段階で予め設定する。
フィルタのタップ数の上限値M(よって、フィルタのタップ数の範囲は−M〜+M)は、その基本周期の最小値以下に設定することが望ましい。なぜなら、その周期を有するサンプルでは、1周期後の波形に強い相関があるために学習でフィルタ係数をうまく求めることができない傾向があるからである。なお、上限値がMの場合のフィルタ次数は2M+1となる。
次いで、本実施の形態に係る音声符号化方法のうち、特に適応音源探索、固定音源探索、およびゲイン量子化の処理手順について、図4に示すフロー図を用いて説明する。
全ての符号を閉ループ(Closed Loop)で求めるのは膨大な計算量が必要となるため、本実施の形態に係る音声符号化方法では、適応符号帳の探索、固定符号帳の探索、ゲインの量子化の順番で符号が決められていく。まず、比較部117の制御の下、適応符号帳113の探索を行い(ST1010)、LPC合成部116から出力される合成信号の符号化歪みを最小化するような適応音源信号の探索が行われる。次に、フィルタリング部101におけるフィルタリング処理により後述の適応音源信号の変換が行われ(ST1020)、この変換後の適応音源信号を用いて、比較部117の制御の下、固定符号帳114の探索を行い(ST1030)、LPC合成部116から出力される合成信号の符号化歪みを最小化するような固定音源信号の探索が行われる。そして、最適な適応音源および固定音源が求まった後に、比較部117の制御の下、ゲインの量子化が行われる(ST1040)。
すなわち、図4に示すように、本実施の形態に係る音声符号化方法では、フィルタリングは、適応符号帳の探索後にその結果として得られる適応音源信号に対して行われる。図1に示したスイッチング部121はこの処理を実現するために設けられたものである。なお、本実施の形態では、ゲイン調整部115の前段に2入力1出力のスイッチング部121を配置したが、その代わりに、1入力2出力のスイッチング部を適応符号帳113の次段に配置し、比較部117の指示により、出力をフィルタリング部101を通してゲイン調整部115へ入力するか、あるいは、出力を直接ゲイン調整部115へ入力するかを選択するような構成としても良い。
このように、本実施の形態によれば、適応符号帳の探索が終わり復号化された適応音源を得た後、適応符号帳をフィルタの初期状態とし、ラグを基準位置としたフィルタリングを行い、適応音源を変更する。すなわち、適応符号帳探索により一旦求まった適応音源信号に対し、この適応音源信号をフィルタの初期状態とした上で、さらにフィルタリング処理を施して、適応音源探索により求まった適応音源にラグ(音声信号の調波構造)を考慮した変更を加える。これにより、適応音源が改良され、統計的に、より理想音源に近い適応音源を得ることができ、より符号化歪みの小さい、より良好な合成信号を得ることができる。すなわち、復号音声の品質を向上させることができる。
なお、本発明における適応音源信号の変更処理の発想は、ラグを基準としたフィルタリングにより適応音源信号のピッチ構造をより明確にすることができ、また、より理想音源に近づくような統計的学習でフィルタ係数を求めていることにより適応符号帳に格納される音源信号の典型的な劣化を補うことができるという2つの効果を、フィルタという少ない計算量・メモリ容量の手段で得ることにある。同じ様な発想を用いたものには音響コーデックの帯域拡張技術(MPEG4のSBR(Spectrum Band Replication))が挙げられるが、本発明には、時間軸で行うためによりリソースが少なくて済むという長所と、従来の高効率符号化法CELPの枠組みの中で実現できることにより、より高品質の音声が得られるという長所がある。
(実施の形態2)
図5は、本発明の実施の形態2に係る音声符号化装置の主要な構成を示すブロック図である。なお、この音声符号化装置は、実施の形態1に示した音声符号化装置と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。また、基本動作は同一であるが詳細な点で違いがある構成要素には、同一の番号にアルファベットの小文字を付した符号を付して区別し、適宜説明を加える。
図5は、本発明の実施の形態2に係る音声符号化装置の主要な構成を示すブロック図である。なお、この音声符号化装置は、実施の形態1に示した音声符号化装置と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。また、基本動作は同一であるが詳細な点で違いがある構成要素には、同一の番号にアルファベットの小文字を付した符号を付して区別し、適宜説明を加える。
本実施の形態が実施の形態1と異なる点は、本実施の形態に係る音声符号化装置の外部からラグL2が入力される点である。この構成は、特に最近ITU−TやMPEGで標準化が進んでいるスケーラブルコーデック(多層コーデック)で見られる構成である。ここで例として示しているのは、低次のレイヤで符号化された情報をより高次レイヤで使用する場合、低次レイヤが高次よりもサンプリングレートが低い場合もあるが、基本方式がCELPである場合は適応符号帳のラグを利用することができる。本実施の形態2ではラグをそのまま使用する場合について示す(この場合、このレイヤではビット数0で適応符号帳が使用できることになる)。
本実施の形態に係る音声符号化装置において、適応符号帳113aの音源の符号(ラグ)は、外部から供給される。これは例として、本実施の形態に係る音声符号化装置とは別の音声符号化装置で得られたラグを受け取る場合や、ピッチ分析器(音声をより聞きやすくするピッチ強調器等に含まれる)で得られたラグを受け取る場合が挙げられる。すなわち、同一の音声信号を入力として、別の用途のために分析処理または符号化処理を行った結果、得られたラグを別の音声符号化処理においてそのまま用いる場合である。また、スケーラブルコーデック(階層型符号化、ITU−T標準G.729EV等)の様に、階層別に符号化が行われる場合、下位層のラグを上位層で受け取る場合にも本実施の形態に係る構成を適用することができる。
図6は、本実施の形態に係る適応音源探索、固定音源探索、およびゲイン量子化の処理手順について示すフロー図である。
本実施の形態に係る音声符号化装置は、上記別の音声符号化装置やピッチ分析器における他の適応符号帳探索により得られたラグL2を取得し(ST2010)、このラグに基づいて、適応符号帳113aにおいて適応音源信号の切り出しを行い(ST2020)、フィルタリング部101は、この切り出された適応音源信号を、既述のフィルタリング処理により変換する(ST1020)。ST1020以降の処理手順は、実施の形態1の図4に示した手順と同一である。
このように、本実施の形態によれば、別の音声符号化等の処理によって求まったラグを用いて適応音源信号を求める場合にその適応音源信号に対してラグのずれから生ずる典型的な劣化を補うことができる。これにより、適応音源が改良され、復号音声の品質を向上させることができる。
特に、本発明は、本実施の形態に示されるように、外部からラグが供給された場合により高い効果を発揮する。なぜなら、外部から供給されたラグは内部で探索により求められたラグとはズレがある場合が容易に想定されるが、かかる場合、学習によって、そのズレの統計的性質をこのフィルタ係数に含めることができるからである。そして、フィルタリングによって変更された適応音源信号と固定符号帳で求めた固定音源信号により適応符号帳はより性能が上がるようにアップデートされるので、より高品質な音声を伝送することができる。
以上、本発明の各実施の形態について説明した。
なお、本発明に係る音声符号化装置および音声符号化方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。
例えば、実施の形態1、2では、適応音源信号をMA(移動平均)型フィルタのフィルタリングにより変更したが、同様の計算量で同じ効果を挙げられる方法として、ラグL毎に固定の波形を格納しておき、与えられたラグLによってその固定波形を引き出し適応音源信号に加算するという方法も挙げられる。この加算処理を以下の式(4)に示す。
上記加算を用いた適応音源信号の変更処理でも、ラグLに応じた処理により、実施の形態1、2で開示したフィルタリング処理と同様の効果を得ることができる。
また、実施の形態1、2では、適応音源を切り出した後、フィルタリング処理を施す構成を例にとって説明したが、この処理は、フィルタリング処理を施しながら音源を抽出する処理と数学的に等価の場合があることは明らかである。それは、式(1)および式(2)においてフィルタ係数を1増加させれば、式(1)が無くても式(2)だけで本実施の形態に係る変更後の適応音源が表現できることから明らかである。
また、実施の形態1、2では、フィルタとしてMA型フィルタを用いる構成を例にとって説明したが、これはIIRフィルタや他の非線形フィルタを用いても良く、かかる場合にMA型フィルタと同様の作用効果が得られることは明らかである。MA型以外のフィルタでもその係数を含む理想音源との差のコスト関数は表現でき、その解法も明らかだからである。
また、実施の形態1、2では、基本的な符号化方式としてCELPを用いる構成を例にとって説明したが、その他の符号化方式であっても音源符号帳を用いる符号化方式であれば適用できることは明らかである。なぜなら、本発明に係るフィルタリング処理は、音源符号帳のコードベクトルの抽出後に処理が施されるため、スペクトル包絡の分析方法がLPCかFFTかフィルタバンクかといったことに依存しないからである。
また、実施の形態1、2では、フィルタリング処理を施す範囲として、過去から未来にかけてラグを基準位置として、すなわちラグの切り出し位置を中心として対称にする構成を例にとって説明したが、これは非対称としても本発明が適用できることは明らかである。係数の抽出やフィルタリングの効果にフィルタリング処理の範囲は何ら影響を及ぼさないからである。
また、実施の形態2では、外部から得られるラグをそのまま用いる構成を例にとって説明したが、外部から得られるラグを利用して低ビットレートの符号化を実現するということもできることは明らかである。例えば、外部から得られるラグと、実施の形態2に係る音声符号化装置とは別の音声符号化装置内部で得られるラグとの差分を、より少ないビット数で符号化すれば(一般的に「デルタラグの符号化」と呼ばれる)、より良好な品質の合成信号を得ることができる。
また、実施の形態2から明らかな様に、本発明は、符号化対象の入力信号を一旦ダウンサンプリングし、その低サンプリング信号からラグを求め、それを利用して元の高サンプリング領域でコードベクトルを得るという、符号化処理の途中でサンプリングレートの変換を介す構成の場合にも適用することができる。これにより、低サンプリング信号で処理を行うので演算量を削減することができる。これは、外部からラグを得るという構成から明らかである。
また、符号化処理の途中でサンプリングレートの変換を介す構成の場合と同様に、本発明は、サブバンド型の符号化にも適用することができる。例えば、低域で求められたラグを高域で使用することができる。これは外部からラグを得るという構成から明らかである。
なお、実施の形態1、2で用いた図1と図5において、比較部117からの制御信号は出力が1本で、各制御先に対して同様の信号が送信されているように記載されているが、これに限らず、制御先ごとに異なる適切な制御信号を出力しても良い。
また、本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2006年8月8日出願の特願2006−216148の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係る音声符号化装置および音声符号化方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。
本発明は、適応符号帳を用いる音声符号化装置および音声符号化方法に関する。
移動体通信において、伝送帯域の有効利用のために、音声や画像等のディジタル情報の圧縮符号化が必須である。その中でも、携帯電話で広く利用される音声コーデック(符号化/復号化)技術に対する期待は大きく、圧縮率の高い従来の高効率符号化に加え、より良い音質への要求が強まっている。また、音声通信は携帯電話の基本機能であるため標準化が必須であり、それに伴う知的財産権の価値の大きさゆえに世界各国の企業において研究開発が盛んに行われている。
約20年前に確立された音声の発声機構をモデル化してベクトル量子化を巧みに応用した音声符号化の基本方式「CELP(Code Excited Linear Prediction)」は、復号音声の品質を大きく向上させた。また、代数的符号帳(Algebraic Codebook、例えば非特許文献1に記載)の様な少数パルスによる固定音源を用いた技術の登場で一段とその性能を向上させた。
しかし、CELPにおいて、スペクトル包絡情報については、LSP(Line Spectrum Pair)等のパラメータと予測VQ(Vector Quantization)等の高能率符号化法が開発され、固定符号帳については、上記代数的符号帳のような高効率符号化法が開発されてきたが、適応符号帳だけはその性能を向上させる取組みは少ない。
そのため、近年、CELPの音質向上が頭打ちの状態であったが、これを解消するために、特許文献1には、適応符号帳のコードベクトル(以下、適応音源と呼ぶ)の周波数帯域を入力の音響信号に適応させたフィルタにより制限し、その周波数帯域制限されたコードベクトルを合成信号の生成に用いる技術が開示されている。
特開2003−29798号公報
Salami, Laflamme, Adoul, "8kbit/s ACELP Coding of Speech with 10ms Speech-Frame : a Candidate for CCITT Standardization", IEEE Proc. ICASSP94, pp.II-97n
特許文献1に開示の技術は、入力の音響信号に適応させたフィルタを用いた周波数帯域制限により、モデルが表現しようとする成分の周波数帯域に合うように帯域を適応的に制御する。しかしながら、特許文献1に開示の技術によっては、不要な成分に基づく歪みの発生が抑えられるのみであり、適応音源に基づいて生成される合成信号は、入力音声信号に聴感重み付け合成フィルタの逆フィルタを掛けたものであって、適応音源が理想音源(歪みが最小化された理想的な音源)に精度良く類似することにはならない。
例えば、歪み最小化という観点から適応符号帳の探索方法に工夫を施して適応符号帳を改良すれば、統計的な歪みの削減がなされるという効果が得られるはずであるが、特許文献1には、この点について何ら開示がない。
本発明の目的は、かかる点に鑑みてなされたものであり、適応符号帳の性能を改良し、復号音声の品質を向上させることができる音声符号化装置および音声符号化方法を提供することである。
本発明の音声符号化装置は、適応音源探索および固定音源探索を行う音源探索手段と、適応音源を格納し、前記適応音源の一部を切り出す適応符号帳と、前記適応符号帳から切り出された適応音源に所定のフィルタリング処理を施すフィルタリング手段と、複数の固定音源を格納し、前記音源探索手段から指定された固定音源を取り出す固定符号帳と、を具備し、前記音源探索手段は、適応音源探索時には前記適応符号帳から切り出された適応音源を用いて探索を行い、固定音源探索時には前記フィルタリング処理が施された後の適応音源を用いて探索する構成を採る。
本発明によれば、別の音声符号化等の処理によって求まったラグを用いて適応音源信号を求める場合にその適応音源信号に対してラグのずれから生ずる典型的な劣化を補うことができる。これにより、適応符号帳の性能を改良し、復号音声の品質を向上させることができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、本明細書では、音声符号化方式としてCELPが使用されている構成を例にとって説明を行う。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置の主要な構成を示すブロック図である。実線は、音声信号、各種パラメータ等の入出力を表している。また破線は、制御信号の入出力を表している。
図1は、本発明の実施の形態1に係る音声符号化装置の主要な構成を示すブロック図である。実線は、音声信号、各種パラメータ等の入出力を表している。また破線は、制御信号の入出力を表している。
本実施の形態に係る音声符号化装置は、フィルタリング部101と、LPC分析部112と、適応符号帳113と、固定符号帳114と、ゲイン調整部115と、ゲイン調整部120と、加算器119と、LPC合成部116と、比較部117と、パラメータ符号化部118と、スイッチング部121と、から主に構成される。
本実施の形態に係る音声符号化装置の各部は、以下の動作を行う。
LPC分析部112は、入力される音声信号V1に対し、自己相関分析、LPC分析を行なうことによってLPC係数を得、得られるLPC係数の符号化を行なってLPC符号を得る。この符号化は、PARCOR係数、LSP、ISP等の量子化しやすいパラメータに変換した後、過去の復号化パラメータを用いた予測処理やベクトル量子化を用いて量子化を行うことによりなされる。また、LPC分析部112は、得られるLPC符号を復号化して復号化LPC係数も得る。そして、LPC分析部112は、LPC符号をパラメータ符号化部118に出力し、復号化LPC係数をLPC合成部116に出力する。
適応符号帳113は、内部バッファに格納されている適応コードベクトル(または適応音源)の中で、比較部117から指定されたものを切り出し(抽出し)、切り出された適応コードベクトルをフィルタリング部101およびスイッチング部121へ出力する。また、適応符号帳113は、音源サンプルのインデクス(音源の符号)をパラメータ符号化部118に出力する。
フィルタリング部101は、適応符号帳113から出力される適応音源信号に所定のフィルタリング処理を施し、得られる適応コードベクトルをスイッチング部121へ出力する。なお、このフィルタリング処理の詳細については後述する。
スイッチング部121は、比較部117からの指示に応じて、ゲイン調整部115への入力を選択する。具体的には、スイッチング部121は、適応符号帳113の探索(適応音源探索)を行っている場合には、適応符号帳113から直接出力される適応コードベクトルを選択し、適応音源探索後の固定音源探索を行っている場合には、フィルタリング部101から出力されるフィルタリング処理が施された後の適応コードベクトルを選択する。
固定符号帳114は、内部バッファに格納されている固定コードベクトル(または固定音源)の中で、比較部117から指定されたものを取り出し、ゲイン調整部120へ出力する。また、固定符号帳114は、音源サンプルのインデクス(音源の符号)をパラメータ符号化部118に出力する。
ゲイン調整部115は、スイッチング部121で選択された、フィルタリング処理が施された後の適応コードベクトル、あるいは、適応符号帳113から直接出力された適応コードベクトルのいずれかに対し、比較部117から指定されるゲインを乗じてゲイン調整を行い、ゲイン調整後の適応コードベクトルを加算器119へ出力する。
ゲイン調整部120は、固定符号帳114から出力される固定コードベクトルに対し、比較部117から指定されるゲインを乗じてゲイン調整を行い、ゲイン調整後の固定コードベクトルを加算器119へ出力する。
加算器119は、ゲイン調整部115およびゲイン調整部120から出力されるコードベクトル(音源ベクトル)を加算して音源ベクトルを得、これをLPC合成部116へ出力する。
LPC合成部116は、加算部119から出力される音源ベクトルに対してLPCパラメータを用いた全極型フィルタによって合成を行い、得られる合成信号を比較部117へ出力する。ただし、実際の符号化においては、ゲイン調整前の2つの音源ベクトル(適応音源、固定音源)に対して、LPC分析部112で得られた復号化LPC係数によってフィルタリングを行なって2つの合成信号を得る。これは、より効率的に音源の符号化を行うためである。なお、LPC合成部116における音源探索の際のLPC合成では、線形予測係数、高域強調フィルタ、長期予測係数(入力音声の長期予測分析を行なうことによって得られる係数)等を用いた聴感重み付けフィルタを使用する。
比較部117は、LPC合成部116で得られる合成信号と入力音声信号V1との距離を算出し、2つの符号帳(適応符号帳113、固定符号帳114)からの出力ベクトルとゲイン調整部115で乗じるゲインとを制御することによって、最も距離が近くなる2つの音源の符号の組み合わせを探索する。ただし、実際の符号化においては、LPC合成部116で得られた2つの合成信号と入力音声信号との関係を分析し、2つの合成信号の最
適値(最適ゲイン)の組み合わせを求め、その最適ゲインによってゲイン調整部115でゲインの調整をされたそれぞれの合成信号を加算して総合合成信号を得、その総合合成信号と入力音声信号との距離計算を行なう。適応符号帳113および固定符号帳114の全ての音源サンプルに対してゲイン調整部115およびLPC合成部116を動作させることによって得られる多くの合成信号と入力音声信号との距離計算を行ない、得られる距離を比較し、最も小さくなる音源サンプルのインデクスを求める。比較部117は、最終的に得られた2つの符号帳のインデクス(符号)と、これらのインデクスに対応する2つの合成信号と、入力音声信号とをパラメータ符号化部118へ出力する。
適値(最適ゲイン)の組み合わせを求め、その最適ゲインによってゲイン調整部115でゲインの調整をされたそれぞれの合成信号を加算して総合合成信号を得、その総合合成信号と入力音声信号との距離計算を行なう。適応符号帳113および固定符号帳114の全ての音源サンプルに対してゲイン調整部115およびLPC合成部116を動作させることによって得られる多くの合成信号と入力音声信号との距離計算を行ない、得られる距離を比較し、最も小さくなる音源サンプルのインデクスを求める。比較部117は、最終的に得られた2つの符号帳のインデクス(符号)と、これらのインデクスに対応する2つの合成信号と、入力音声信号とをパラメータ符号化部118へ出力する。
パラメータ符号化部118は、2つの合成信号と入力音声信号との間の相関を用いてゲインの符号化を行なうことによってゲイン符号を得る。そして、パラメータ符号化部118は、ゲイン符号、LPC符号、2つの符号帳113,114の音源サンプルのインデクス(音源の符号)をまとめて伝送路へ出力する。また、パラメータ符号化部118は、ゲイン符号と音源の符号に対応する2つの音源サンプル(適応音源はフィルタリング部101において変更が加えられている)とを用いて音源信号を復号化し、復号信号を適応符号帳113に格納する。この際、古い音源サンプルを破棄する。すなわち、適応符号帳113の復号化音源データを未来から過去にメモリシフトし、メモリから溢れ出る古いデータは破棄し、未来の空き部分に、復号化で作成した音源信号を格納する。この処理は適応符号帳の状態更新と呼ばれる(この処理は、図1におけるパラメータ符号化部118から適応符号帳113へ伸びているラインによって実現される)。
なお、本実施の形態において、音源探索は、適応符号帳および固定符号帳を同時に最適化するのは必要な演算量が膨大で事実上不可能であるので、各符号帳について1つずつ符号を決めていくというオープンループ探索を行う。すなわち、適応音源だけの合成信号と入力音声信号とを比較することによって適応符号帳の符号を得、次にこの適応符号帳からの音源を固定して、固定符号帳からの音源サンプルを制御し、最適ゲインの組み合わせによって多くの総合合成信号を得、それと入力音声とを比較することによって固定符号帳の符号を決定する。以上の様な手順により、現存の小型プロセッサ(DSP等)で探索が実現できる。
また、適応符号帳113および固定符号帳114における音源探索は、符号化の一般的な処理単位区間であるフレームを更に細かく分けたサブフレームにおいて行う。
次いで、フィルタリング部101を主に用いた適応音源信号の変更処理について、図2および図3を用いて、より詳細に説明する。
図2は、適応符号帳113における適応音源信号の切り出し処理の概要を示す図である。フィルタリング部101には、この切り出された適応音源信号が入力される。以下の式(1)は、適応音源信号の切り出し処理を数式で表現したものである。
図3は、適応音源信号のフィルタリング処理の概要を説明するための図である。フィルタリング部101は、入力されるラグに従って、適応符号帳から切り出された適応音源信
号に対して線形フィルタリングを行う。本実施の形態では、MA(Moving Average:移動平均)型のマルチタップのフィルタリング処理を施す。フィルタ係数としては、設計段階で求まる固定係数を用いる。また、このフィルタリングでは、上述の適応音源信号と適応符号帳113とを用いる。まず、適応音源信号のサンプル毎に、そこからLサンプル前の適応符号帳113内のサンプルを基準として前後Mサンプルの範囲のサンプルの値にフィルタ係数を乗ずることによって得られる値の積和を取り、それを適応音源信号の当該サンプルの値に加算して、新たな値を得る。これが「変換後の適応音源信号」となる。
号に対して線形フィルタリングを行う。本実施の形態では、MA(Moving Average:移動平均)型のマルチタップのフィルタリング処理を施す。フィルタ係数としては、設計段階で求まる固定係数を用いる。また、このフィルタリングでは、上述の適応音源信号と適応符号帳113とを用いる。まず、適応音源信号のサンプル毎に、そこからLサンプル前の適応符号帳113内のサンプルを基準として前後Mサンプルの範囲のサンプルの値にフィルタ係数を乗ずることによって得られる値の積和を取り、それを適応音源信号の当該サンプルの値に加算して、新たな値を得る。これが「変換後の適応音源信号」となる。
なお、Lが短い場合、フィルタの−Mから+Mの範囲が適応符号帳113に格納されている適応音源の範囲から外に出てしまう場合があるが、+Mの部分が外に出るような場合は、切り出した適応音源(本実施の形態に係るフィルタリング処理の対象になっているもの)が適応符号帳113に格納されている適応音源の末尾に接続されているものとして扱うことにより、上記フィルタリング処理を支障なく実行することができる。また−Mの部分は、外に出ないように十分な長さの適応音源を適応符号帳113に格納しておくことにより対応する。
そして、本実施の形態に係る音声符号化装置は、適応符号帳113から直接出力される適応音源信号、および、上記変更後の適応音源信号を用いて、入力音声信号の符号化を行う。この変更処理を数式で表現すると以下の式(2)となる。式(2)の右辺第2項がフィルタリング処理を表している。
MA型マルチタップフィルタのフィルタ係数として用いる固定係数は、切り出された適応音源に同じフィルタリングを行った際にその結果が理想音源に最も近づく様な値に、設計段階で設定される。これは、多くの学習用音声データサンプルに対して、変更された適応音源と理想音源の差分をコスト関数として、フィルタ係数の偏微分により得られる連立1次方程式を解くことによって算出される。コスト関数Eを以下の式(3)に示す。
なお、充分多い学習用データに基づいて上記統計的処理によってフィルタ係数を求め、この求まったフィルタ係数によるフィルタリング処理を行うようにすれば、符号化歪みが平均的に小さくなることは、上記に示した当該係数の算出過程から明らかである。
また、ラグLは、音声を符号化することを考慮し、人間の有声音の基本周期を考慮し、限られたビット数で最も良い符号化性能が得られるような範囲に設計段階で予め設定する
。
。
フィルタのタップ数の上限値M(よって、フィルタのタップ数の範囲は−M〜+M)は、その基本周期の最小値以下に設定することが望ましい。なぜなら、その周期を有するサンプルでは、1周期後の波形に強い相関があるために学習でフィルタ係数をうまく求めることができない傾向があるからである。なお、上限値がMの場合のフィルタ次数は2M+1となる。
次いで、本実施の形態に係る音声符号化方法のうち、特に適応音源探索、固定音源探索、およびゲイン量子化の処理手順について、図4に示すフロー図を用いて説明する。
全ての符号を閉ループ(Closed Loop)で求めるのは膨大な計算量が必要となるため、本実施の形態に係る音声符号化方法では、適応符号帳の探索、固定符号帳の探索、ゲインの量子化の順番で符号が決められていく。まず、比較部117の制御の下、適応符号帳113の探索を行い(ST1010)、LPC合成部116から出力される合成信号の符号化歪みを最小化するような適応音源信号の探索が行われる。次に、フィルタリング部101におけるフィルタリング処理により後述の適応音源信号の変換が行われ(ST1020)、この変換後の適応音源信号を用いて、比較部117の制御の下、固定符号帳114の探索を行い(ST1030)、LPC合成部116から出力される合成信号の符号化歪みを最小化するような固定音源信号の探索が行われる。そして、最適な適応音源および固定音源が求まった後に、比較部117の制御の下、ゲインの量子化が行われる(ST1040)。
すなわち、図4に示すように、本実施の形態に係る音声符号化方法では、フィルタリングは、適応符号帳の探索後にその結果として得られる適応音源信号に対して行われる。図1に示したスイッチング部121はこの処理を実現するために設けられたものである。なお、本実施の形態では、ゲイン調整部115の前段に2入力1出力のスイッチング部121を配置したが、その代わりに、1入力2出力のスイッチング部を適応符号帳113の次段に配置し、比較部117の指示により、出力をフィルタリング部101を通してゲイン調整部115へ入力するか、あるいは、出力を直接ゲイン調整部115へ入力するかを選択するような構成としても良い。
このように、本実施の形態によれば、適応符号帳の探索が終わり復号化された適応音源を得た後、適応符号帳をフィルタの初期状態とし、ラグを基準位置としたフィルタリングを行い、適応音源を変更する。すなわち、適応符号帳探索により一旦求まった適応音源信号に対し、この適応音源信号をフィルタの初期状態とした上で、さらにフィルタリング処理を施して、適応音源探索により求まった適応音源にラグ(音声信号の調波構造)を考慮した変更を加える。これにより、適応音源が改良され、統計的に、より理想音源に近い適応音源を得ることができ、より符号化歪みの小さい、より良好な合成信号を得ることができる。すなわち、復号音声の品質を向上させることができる。
なお、本発明における適応音源信号の変更処理の発想は、ラグを基準としたフィルタリングにより適応音源信号のピッチ構造をより明確にすることができ、また、より理想音源に近づくような統計的学習でフィルタ係数を求めていることにより適応符号帳に格納される音源信号の典型的な劣化を補うことができるという2つの効果を、フィルタという少ない計算量・メモリ容量の手段で得ることにある。同じ様な発想を用いたものには音響コーデックの帯域拡張技術(MPEG4のSBR(Spectrum Band Replication))が挙げられるが、本発明には、時間軸で行うためによりリソースが少なくて済むという長所と、従来の高効率符号化法CELPの枠組みの中で実現できることにより、より高品質の音声が得られるという長所がある。
(実施の形態2)
図5は、本発明の実施の形態2に係る音声符号化装置の主要な構成を示すブロック図である。なお、この音声符号化装置は、実施の形態1に示した音声符号化装置と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。また、基本動作は同一であるが詳細な点で違いがある構成要素には、同一の番号にアルファベットの小文字を付した符号を付して区別し、適宜説明を加える。
図5は、本発明の実施の形態2に係る音声符号化装置の主要な構成を示すブロック図である。なお、この音声符号化装置は、実施の形態1に示した音声符号化装置と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。また、基本動作は同一であるが詳細な点で違いがある構成要素には、同一の番号にアルファベットの小文字を付した符号を付して区別し、適宜説明を加える。
本実施の形態が実施の形態1と異なる点は、本実施の形態に係る音声符号化装置の外部からラグL2が入力される点である。この構成は、特に最近ITU−TやMPEGで標準化が進んでいるスケーラブルコーデック(多層コーデック)で見られる構成である。ここで例として示しているのは、低次のレイヤで符号化された情報をより高次レイヤで使用する場合、低次レイヤが高次よりもサンプリングレートが低い場合もあるが、基本方式がCELPである場合は適応符号帳のラグを利用することができる。本実施の形態2ではラグをそのまま使用する場合について示す(この場合、このレイヤではビット数0で適応符号帳が使用できることになる)。
本実施の形態に係る音声符号化装置において、適応符号帳113aの音源の符号(ラグ)は、外部から供給される。これは例として、本実施の形態に係る音声符号化装置とは別の音声符号化装置で得られたラグを受け取る場合や、ピッチ分析器(音声をより聞きやすくするピッチ強調器等に含まれる)で得られたラグを受け取る場合が挙げられる。すなわち、同一の音声信号を入力として、別の用途のために分析処理または符号化処理を行った結果、得られたラグを別の音声符号化処理においてそのまま用いる場合である。また、スケーラブルコーデック(階層型符号化、ITU−T標準G.729EV等)の様に、階層別に符号化が行われる場合、下位層のラグを上位層で受け取る場合にも本実施の形態に係る構成を適用することができる。
図6は、本実施の形態に係る適応音源探索、固定音源探索、およびゲイン量子化の処理手順について示すフロー図である。
本実施の形態に係る音声符号化装置は、上記別の音声符号化装置やピッチ分析器における他の適応符号帳探索により得られたラグL2を取得し(ST2010)、このラグに基づいて、適応符号帳113aにおいて適応音源信号の切り出しを行い(ST2020)、フィルタリング部101は、この切り出された適応音源信号を、既述のフィルタリング処理により変換する(ST1020)。ST1020以降の処理手順は、実施の形態1の図4に示した手順と同一である。
このように、本実施の形態によれば、別の音声符号化等の処理によって求まったラグを用いて適応音源信号を求める場合にその適応音源信号に対してラグのずれから生ずる典型的な劣化を補うことができる。これにより、適応音源が改良され、復号音声の品質を向上させることができる。
特に、本発明は、本実施の形態に示されるように、外部からラグが供給された場合により高い効果を発揮する。なぜなら、外部から供給されたラグは内部で探索により求められたラグとはズレがある場合が容易に想定されるが、かかる場合、学習によって、そのズレの統計的性質をこのフィルタ係数に含めることができるからである。そして、フィルタリングによって変更された適応音源信号と固定符号帳で求めた固定音源信号により適応符号帳はより性能が上がるようにアップデートされるので、より高品質な音声を伝送することができる。
以上、本発明の各実施の形態について説明した。
なお、本発明に係る音声符号化装置および音声符号化方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。
例えば、実施の形態1、2では、適応音源信号をMA(移動平均)型フィルタのフィルタリングにより変更したが、同様の計算量で同じ効果を挙げられる方法として、ラグL毎に固定の波形を格納しておき、与えられたラグLによってその固定波形を引き出し適応音源信号に加算するという方法も挙げられる。この加算処理を以下の式(4)に示す。
上記加算を用いた適応音源信号の変更処理でも、ラグLに応じた処理により、実施の形態1、2で開示したフィルタリング処理と同様の効果を得ることができる。
また、実施の形態1、2では、適応音源を切り出した後、フィルタリング処理を施す構成を例にとって説明したが、この処理は、フィルタリング処理を施しながら音源を抽出する処理と数学的に等価の場合があることは明らかである。それは、式(1)および式(2)においてフィルタ係数を1増加させれば、式(1)が無くても式(2)だけで本実施の形態に係る変更後の適応音源が表現できることから明らかである。
また、実施の形態1、2では、フィルタとしてMA型フィルタを用いる構成を例にとって説明したが、これはIIRフィルタや他の非線形フィルタを用いても良く、かかる場合
にMA型フィルタと同様の作用効果が得られることは明らかである。MA型以外のフィルタでもその係数を含む理想音源との差のコスト関数は表現でき、その解法も明らかだからである。
にMA型フィルタと同様の作用効果が得られることは明らかである。MA型以外のフィルタでもその係数を含む理想音源との差のコスト関数は表現でき、その解法も明らかだからである。
また、実施の形態1、2では、基本的な符号化方式としてCELPを用いる構成を例にとって説明したが、その他の符号化方式であっても音源符号帳を用いる符号化方式であれば適用できることは明らかである。なぜなら、本発明に係るフィルタリング処理は、音源符号帳のコードベクトルの抽出後に処理が施されるため、スペクトル包絡の分析方法がLPCかFFTかフィルタバンクかといったことに依存しないからである。
また、実施の形態1、2では、フィルタリング処理を施す範囲として、過去から未来にかけてラグを基準位置として、すなわちラグの切り出し位置を中心として対称にする構成を例にとって説明したが、これは非対称としても本発明が適用できることは明らかである。係数の抽出やフィルタリングの効果にフィルタリング処理の範囲は何ら影響を及ぼさないからである。
また、実施の形態2では、外部から得られるラグをそのまま用いる構成を例にとって説明したが、外部から得られるラグを利用して低ビットレートの符号化を実現するということもできることは明らかである。例えば、外部から得られるラグと、実施の形態2に係る音声符号化装置とは別の音声符号化装置内部で得られるラグとの差分を、より少ないビット数で符号化すれば(一般的に「デルタラグの符号化」と呼ばれる)、より良好な品質の合成信号を得ることができる。
また、実施の形態2から明らかな様に、本発明は、符号化対象の入力信号を一旦ダウンサンプリングし、その低サンプリング信号からラグを求め、それを利用して元の高サンプリング領域でコードベクトルを得るという、符号化処理の途中でサンプリングレートの変換を介す構成の場合にも適用することができる。これにより、低サンプリング信号で処理を行うので演算量を削減することができる。これは、外部からラグを得るという構成から明らかである。
また、符号化処理の途中でサンプリングレートの変換を介す構成の場合と同様に、本発明は、サブバンド型の符号化にも適用することができる。例えば、低域で求められたラグを高域で使用することができる。これは外部からラグを得るという構成から明らかである。
なお、実施の形態1、2で用いた図1と図5において、比較部117からの制御信号は出力が1本で、各制御先に対して同様の信号が送信されているように記載されているが、これに限らず、制御先ごとに異なる適切な制御信号を出力しても良い。
また、本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である
LSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
LSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2006年8月8日出願の特願2006−216148の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係る音声符号化装置および音声符号化方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。
Claims (5)
- 適応音源探索および固定音源探索を行う音源探索手段と、
適応音源を格納し、前記適応音源の一部を切り出す適応符号帳と、
前記適応符号帳から切り出された適応音源に所定のフィルタリング処理を施すフィルタリング手段と、
複数の固定音源を格納し、前記音源探索手段から指定された固定音源を取り出す固定符号帳と、を具備し、
前記音源探索手段は、適応音源探索時には前記適応符号帳から切り出された適応音源を用いて探索を行い、固定音源探索時には前記フィルタリング処理が施された後の適応音源を用いて探索する音声符号化装置。 - 前記適応符号帳は、前記音源探索手段の指示に従って前記適応音源の一部を切り出す請求項1記載の音声符号化装置。
- 前記適応符号帳は、外部からの指示に従って前記適応音源の一部を切り出す請求項1記載の音声符号化装置。
- 前記音源探索手段は、前記フィルタリング処理が施された後の適応音源と前記固定符号帳から取り出された固定音源とをゲイン調整して加算し、加算結果を用いて固定音源探索を行う請求項1記載の音声符号化装置。
- 適応符号帳に格納された適応音源に対して適応音源探索を行う工程と、
前記適応音源探索の結果を用いて前記適応符号帳から前記適応音源の一部を切り出す工程と、
前記適応符号帳から切り出された適応音源に所定のフィルタリング処理を施す工程と、
固定符号帳に格納された複数の固定音源に対して、前記フィルタリング処理が施された後の適応音源を用いて固定音源探索を行う工程と、
を具備する音声符号化方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006216148 | 2006-08-08 | ||
JP2006216148 | 2006-08-08 | ||
PCT/JP2007/065452 WO2008018464A1 (fr) | 2006-08-08 | 2007-08-07 | dispositif de codage audio et procédé de codage audio |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2008018464A1 true JPWO2008018464A1 (ja) | 2009-12-24 |
Family
ID=39032994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008528833A Ceased JPWO2008018464A1 (ja) | 2006-08-08 | 2007-08-07 | 音声符号化装置および音声符号化方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8112271B2 (ja) |
EP (1) | EP2051244A4 (ja) |
JP (1) | JPWO2008018464A1 (ja) |
WO (1) | WO2008018464A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2862715C (en) * | 2009-10-20 | 2017-10-17 | Ralf Geiger | Multi-mode audio codec and celp coding adapted therefore |
PL3364411T3 (pl) | 2009-12-14 | 2022-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie do kwantyzacji wektorowej, urządzenie do kodowania głosu, sposób kwantyzacji wektorowej i sposób kodowania głosu |
JP6516099B2 (ja) * | 2015-08-05 | 2019-05-22 | パナソニックIpマネジメント株式会社 | 音声信号復号装置および音声信号復号方法 |
US10109284B2 (en) | 2016-02-12 | 2018-10-23 | Qualcomm Incorporated | Inter-channel encoding and decoding of multiple high-band audio signals |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04270400A (ja) * | 1991-02-26 | 1992-09-25 | Nec Corp | 音声符号化方式 |
JPH0561499A (ja) * | 1990-09-18 | 1993-03-12 | Fujitsu Ltd | 音声符号化・復号化方式 |
JPH09120299A (ja) * | 1995-06-07 | 1997-05-06 | At & T Ipm Corp | 適応コードブックに基づく音声圧縮システム |
JP2003029798A (ja) * | 2001-07-13 | 2003-01-31 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号符号化方法、音響信号復号方法、これらの装置、これらのプログラム及びその記録媒体 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2051304C (en) * | 1990-09-18 | 1996-03-05 | Tomohiko Taniguchi | Speech coding and decoding system |
US5179594A (en) * | 1991-06-12 | 1993-01-12 | Motorola, Inc. | Efficient calculation of autocorrelation coefficients for CELP vocoder adaptive codebook |
US5187745A (en) * | 1991-06-27 | 1993-02-16 | Motorola, Inc. | Efficient codebook search for CELP vocoders |
JPH06138896A (ja) | 1991-05-31 | 1994-05-20 | Motorola Inc | 音声フレームを符号化するための装置および方法 |
US5173941A (en) * | 1991-05-31 | 1992-12-22 | Motorola, Inc. | Reduced codebook search arrangement for CELP vocoders |
US5265190A (en) * | 1991-05-31 | 1993-11-23 | Motorola, Inc. | CELP vocoder with efficient adaptive codebook search |
JPH09204198A (ja) | 1996-01-26 | 1997-08-05 | Kyocera Corp | 適応コードブック探索方法 |
JPH09319399A (ja) | 1996-05-27 | 1997-12-12 | Nec Corp | 音声符号化装置 |
EP1085504B1 (en) * | 1996-11-07 | 2002-05-29 | Matsushita Electric Industrial Co., Ltd. | CELP-Codec |
CA2300077C (en) * | 1998-06-09 | 2007-09-04 | Matsushita Electric Industrial Co., Ltd. | Speech coding apparatus and speech decoding apparatus |
CN1296888C (zh) * | 1999-08-23 | 2007-01-24 | 松下电器产业株式会社 | 音频编码装置以及音频编码方法 |
US6678651B2 (en) * | 2000-09-15 | 2004-01-13 | Mindspeed Technologies, Inc. | Short-term enhancement in CELP speech coding |
JP3426207B2 (ja) * | 2000-10-26 | 2003-07-14 | 三菱電機株式会社 | 音声符号化方法および装置 |
JP2006216148A (ja) | 2005-02-03 | 2006-08-17 | Alps Electric Co Ltd | ホログラフィー記録装置,ホログラフィー再生装置及びその方法並びにホログラフィー媒体 |
-
2007
- 2007-08-07 JP JP2008528833A patent/JPWO2008018464A1/ja not_active Ceased
- 2007-08-07 US US12/376,640 patent/US8112271B2/en active Active
- 2007-08-07 WO PCT/JP2007/065452 patent/WO2008018464A1/ja active Application Filing
- 2007-08-07 EP EP07792121A patent/EP2051244A4/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0561499A (ja) * | 1990-09-18 | 1993-03-12 | Fujitsu Ltd | 音声符号化・復号化方式 |
JPH04270400A (ja) * | 1991-02-26 | 1992-09-25 | Nec Corp | 音声符号化方式 |
JPH09120299A (ja) * | 1995-06-07 | 1997-05-06 | At & T Ipm Corp | 適応コードブックに基づく音声圧縮システム |
JP2003029798A (ja) * | 2001-07-13 | 2003-01-31 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号符号化方法、音響信号復号方法、これらの装置、これらのプログラム及びその記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
EP2051244A4 (en) | 2010-04-14 |
US8112271B2 (en) | 2012-02-07 |
EP2051244A1 (en) | 2009-04-22 |
US20100179807A1 (en) | 2010-07-15 |
WO2008018464A1 (fr) | 2008-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7171355B1 (en) | Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals | |
US20070271102A1 (en) | Voice decoding device, voice encoding device, and methods therefor | |
US20100010810A1 (en) | Post filter and filtering method | |
JP4679513B2 (ja) | 階層符号化装置および階層符号化方法 | |
JPWO2008018464A1 (ja) | 音声符号化装置および音声符号化方法 | |
US11114106B2 (en) | Vector quantization of algebraic codebook with high-pass characteristic for polarity selection | |
JP5687706B2 (ja) | 量子化装置及び量子化方法 | |
EP1187337B1 (en) | Speech coding processor and speech coding method | |
JP5159318B2 (ja) | 固定符号帳探索装置および固定符号帳探索方法 | |
US20100049508A1 (en) | Audio encoding device and audio encoding method | |
JPWO2007037359A1 (ja) | 音声符号化装置および音声符号化方法 | |
WO2012053146A1 (ja) | 符号化装置及び符号化方法 | |
JP2013101212A (ja) | ピッチ分析装置、音声符号化装置、ピッチ分析方法および音声符号化方法 | |
JP2013055417A (ja) | 量子化装置及び量子化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100324 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120424 |
|
A045 | Written measure of dismissal of application [lapsed due to lack of payment] |
Free format text: JAPANESE INTERMEDIATE CODE: A045 Effective date: 20120828 |