JPWO2008018464A1

JPWO2008018464A1 - 音声符号化装置および音声符号化方法

Info

Publication number: JPWO2008018464A1
Application number: JP2008528833A
Authority: JP
Inventors: 利幸森井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2006-08-08
Filing date: 2007-08-07
Publication date: 2009-12-24
Also published as: EP2051244A4; US8112271B2; EP2051244A1; US20100179807A1; WO2008018464A1

Abstract

適応符号帳の性能を改良し、復号音声の品質を向上させる音声符号化装置。この音声符号化装置では、適応符号帳（１１３）は、内部バッファに格納されている適応コードベクトルの中から比較部（１１７）から指定されたものを切り出してフィルタリング部（１０１）およびスイッチング部（１２１）へ出力する。フィルタリング部（１０１）は、適応音源信号に所定のフィルタリング処理を施し、得られる適応コードベクトルをスイッチング部（１２１）へ出力する。スイッチング部（１２１）は、比較部（１１７）からの指示に応じて、適応符号帳（１１３）の探索を行っている場合には適応符号帳（１１３）から直接出力される適応コードベクトルをゲイン調整部（１１５）へ出力し、適応音源探索後の固定音源探索を行っている場合にはフィルタリング部（１０１）から出力されるフィルタリング処理が施された後の適応コードベクトルをゲイン調整部（１１５）へ出力する。

Description

本発明は、適応符号帳を用いる音声符号化装置および音声符号化方法に関する。

移動体通信において、伝送帯域の有効利用のために、音声や画像等のディジタル情報の圧縮符号化が必須である。その中でも、携帯電話で広く利用される音声コーデック（符号化／復号化）技術に対する期待は大きく、圧縮率の高い従来の高効率符号化に加え、より良い音質への要求が強まっている。また、音声通信は携帯電話の基本機能であるため標準化が必須であり、それに伴う知的財産権の価値の大きさゆえに世界各国の企業において研究開発が盛んに行われている。

約２０年前に確立された音声の発声機構をモデル化してベクトル量子化を巧みに応用した音声符号化の基本方式「ＣＥＬＰ（Code Excited Linear Prediction）」は、復号音声の品質を大きく向上させた。また、代数的符号帳（Algebraic Codebook、例えば非特許文献１に記載）の様な少数パルスによる固定音源を用いた技術の登場で一段とその性能を向上させた。

しかし、ＣＥＬＰにおいて、スペクトル包絡情報については、ＬＳＰ（Line Spectrum Pair）等のパラメータと予測ＶＱ（Vector Quantization）等の高能率符号化法が開発され、固定符号帳については、上記代数的符号帳のような高効率符号化法が開発されてきたが、適応符号帳だけはその性能を向上させる取組みは少ない。

そのため、近年、ＣＥＬＰの音質向上が頭打ちの状態であったが、これを解消するために、特許文献１には、適応符号帳のコードベクトル（以下、適応音源と呼ぶ）の周波数帯域を入力の音響信号に適応させたフィルタにより制限し、その周波数帯域制限されたコードベクトルを合成信号の生成に用いる技術が開示されている。
特開２００３−２９７９８号公報 Salami, Laflamme, Adoul, "8kbit/s ACELP Coding of Speech with 10ms Speech-Frame : a Candidate for CCITT Standardization", IEEE Proc. ICASSP94, pp.II-97n

特許文献１に開示の技術は、入力の音響信号に適応させたフィルタを用いた周波数帯域制限により、モデルが表現しようとする成分の周波数帯域に合うように帯域を適応的に制御する。しかしながら、特許文献１に開示の技術によっては、不要な成分に基づく歪みの発生が抑えられるのみであり、適応音源に基づいて生成される合成信号は、入力音声信号に聴感重み付け合成フィルタの逆フィルタを掛けたものであって、適応音源が理想音源（歪みが最小化された理想的な音源）に精度良く類似することにはならない。

例えば、歪み最小化という観点から適応符号帳の探索方法に工夫を施して適応符号帳を改良すれば、統計的な歪みの削減がなされるという効果が得られるはずであるが、特許文献１には、この点について何ら開示がない。

本発明の目的は、かかる点に鑑みてなされたものであり、適応符号帳の性能を改良し、復号音声の品質を向上させることができる音声符号化装置および音声符号化方法を提供することである。

本発明の音声符号化装置は、適応音源探索および固定音源探索を行う音源探索手段と、適応音源を格納し、前記適応音源の一部を切り出す適応符号帳と、前記適応符号帳から切り出された適応音源に所定のフィルタリング処理を施すフィルタリング手段と、複数の固定音源を格納し、前記音源探索手段から指定された固定音源を取り出す固定符号帳と、を具備し、前記音源探索手段は、適応音源探索時には前記適応符号帳から切り出された適応音源を用いて探索を行い、固定音源探索時には前記フィルタリング処理が施された後の適応音源を用いて探索する構成を採る。

本発明によれば、別の音声符号化等の処理によって求まったラグを用いて適応音源信号を求める場合にその適応音源信号に対してラグのずれから生ずる典型的な劣化を補うことができる。これにより、適応符号帳の性能を改良し、復号音声の品質を向上させることができる。

本発明の実施の形態１に係る音声符号化装置の主要な構成を示すブロック図適応音源信号の切り出し処理の概要を示す図適応音源信号のフィルタリング処理の概要を説明するための図実施の形態１に係る適応音源探索、固定音源探索、およびゲイン量子化の処理手順について示すフロー図実施の形態２に係る音声符号化装置の主要な構成を示すブロック図実施の形態２に係る適応音源探索、固定音源探索、およびゲイン量子化の処理手順について示すフロー図

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、本明細書では、音声符号化方式としてＣＥＬＰが使用されている構成を例にとって説明を行う。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声符号化装置の主要な構成を示すブロック図である。実線は、音声信号、各種パラメータ等の入出力を表している。また破線は、制御信号の入出力を表している。

本実施の形態に係る音声符号化装置は、フィルタリング部１０１と、ＬＰＣ分析部１１２と、適応符号帳１１３と、固定符号帳１１４と、ゲイン調整部１１５と、ゲイン調整部１２０と、加算器１１９と、ＬＰＣ合成部１１６と、比較部１１７と、パラメータ符号化部１１８と、スイッチング部１２１と、から主に構成される。

本実施の形態に係る音声符号化装置の各部は、以下の動作を行う。

ＬＰＣ分析部１１２は、入力される音声信号Ｖ１に対し、自己相関分析、ＬＰＣ分析を行なうことによってＬＰＣ係数を得、得られるＬＰＣ係数の符号化を行なってＬＰＣ符号を得る。この符号化は、ＰＡＲＣＯＲ係数、ＬＳＰ、ＩＳＰ等の量子化しやすいパラメータに変換した後、過去の復号化パラメータを用いた予測処理やベクトル量子化を用いて量子化を行うことによりなされる。また、ＬＰＣ分析部１１２は、得られるＬＰＣ符号を復号化して復号化ＬＰＣ係数も得る。そして、ＬＰＣ分析部１１２は、ＬＰＣ符号をパラメータ符号化部１１８に出力し、復号化ＬＰＣ係数をＬＰＣ合成部１１６に出力する。

適応符号帳１１３は、内部バッファに格納されている適応コードベクトル（または適応音源）の中で、比較部１１７から指定されたものを切り出し（抽出し）、切り出された適応コードベクトルをフィルタリング部１０１およびスイッチング部１２１へ出力する。また、適応符号帳１１３は、音源サンプルのインデクス（音源の符号）をパラメータ符号化部１１８に出力する。

フィルタリング部１０１は、適応符号帳１１３から出力される適応音源信号に所定のフィルタリング処理を施し、得られる適応コードベクトルをスイッチング部１２１へ出力する。なお、このフィルタリング処理の詳細については後述する。

スイッチング部１２１は、比較部１１７からの指示に応じて、ゲイン調整部１１５への入力を選択する。具体的には、スイッチング部１２１は、適応符号帳１１３の探索（適応音源探索）を行っている場合には、適応符号帳１１３から直接出力される適応コードベクトルを選択し、適応音源探索後の固定音源探索を行っている場合には、フィルタリング部１０１から出力されるフィルタリング処理が施された後の適応コードベクトルを選択する。

固定符号帳１１４は、内部バッファに格納されている固定コードベクトル（または固定音源）の中で、比較部１１７から指定されたものを取り出し、ゲイン調整部１２０へ出力する。また、固定符号帳１１４は、音源サンプルのインデクス（音源の符号）をパラメータ符号化部１１８に出力する。

ゲイン調整部１１５は、スイッチング部１２１で選択された、フィルタリング処理が施された後の適応コードベクトル、あるいは、適応符号帳１１３から直接出力された適応コードベクトルのいずれかに対し、比較部１１７から指定されるゲインを乗じてゲイン調整を行い、ゲイン調整後の適応コードベクトルを加算器１１９へ出力する。

ゲイン調整部１２０は、固定符号帳１１４から出力される固定コードベクトルに対し、比較部１１７から指定されるゲインを乗じてゲイン調整を行い、ゲイン調整後の固定コードベクトルを加算器１１９へ出力する。

加算器１１９は、ゲイン調整部１１５およびゲイン調整部１２０から出力されるコードベクトル（音源ベクトル）を加算して音源ベクトルを得、これをＬＰＣ合成部１１６へ出力する。

ＬＰＣ合成部１１６は、加算部１１９から出力される音源ベクトルに対してＬＰＣパラメータを用いた全極型フィルタによって合成を行い、得られる合成信号を比較部１１７へ出力する。ただし、実際の符号化においては、ゲイン調整前の２つの音源ベクトル（適応音源、固定音源）に対して、ＬＰＣ分析部１１２で得られた復号化ＬＰＣ係数によってフィルタリングを行なって２つの合成信号を得る。これは、より効率的に音源の符号化を行うためである。なお、ＬＰＣ合成部１１６における音源探索の際のＬＰＣ合成では、線形予測係数、高域強調フィルタ、長期予測係数（入力音声の長期予測分析を行なうことによって得られる係数）等を用いた聴感重み付けフィルタを使用する。

比較部１１７は、ＬＰＣ合成部１１６で得られる合成信号と入力音声信号Ｖ１との距離を算出し、２つの符号帳（適応符号帳１１３、固定符号帳１１４）からの出力ベクトルとゲイン調整部１１５で乗じるゲインとを制御することによって、最も距離が近くなる２つの音源の符号の組み合わせを探索する。ただし、実際の符号化においては、ＬＰＣ合成部１１６で得られた２つの合成信号と入力音声信号との関係を分析し、２つの合成信号の最適値（最適ゲイン）の組み合わせを求め、その最適ゲインによってゲイン調整部１１５でゲインの調整をされたそれぞれの合成信号を加算して総合合成信号を得、その総合合成信号と入力音声信号との距離計算を行なう。適応符号帳１１３および固定符号帳１１４の全ての音源サンプルに対してゲイン調整部１１５およびＬＰＣ合成部１１６を動作させることによって得られる多くの合成信号と入力音声信号との距離計算を行ない、得られる距離を比較し、最も小さくなる音源サンプルのインデクスを求める。比較部１１７は、最終的に得られた２つの符号帳のインデクス（符号）と、これらのインデクスに対応する２つの合成信号と、入力音声信号とをパラメータ符号化部１１８へ出力する。

パラメータ符号化部１１８は、２つの合成信号と入力音声信号との間の相関を用いてゲインの符号化を行なうことによってゲイン符号を得る。そして、パラメータ符号化部１１８は、ゲイン符号、ＬＰＣ符号、２つの符号帳１１３，１１４の音源サンプルのインデクス（音源の符号）をまとめて伝送路へ出力する。また、パラメータ符号化部１１８は、ゲイン符号と音源の符号に対応する２つの音源サンプル（適応音源はフィルタリング部１０１において変更が加えられている）とを用いて音源信号を復号化し、復号信号を適応符号帳１１３に格納する。この際、古い音源サンプルを破棄する。すなわち、適応符号帳１１３の復号化音源データを未来から過去にメモリシフトし、メモリから溢れ出る古いデータは破棄し、未来の空き部分に、復号化で作成した音源信号を格納する。この処理は適応符号帳の状態更新と呼ばれる（この処理は、図１におけるパラメータ符号化部１１８から適応符号帳１１３へ伸びているラインによって実現される）。

なお、本実施の形態において、音源探索は、適応符号帳および固定符号帳を同時に最適化するのは必要な演算量が膨大で事実上不可能であるので、各符号帳について１つずつ符号を決めていくというオープンループ探索を行う。すなわち、適応音源だけの合成信号と入力音声信号とを比較することによって適応符号帳の符号を得、次にこの適応符号帳からの音源を固定して、固定符号帳からの音源サンプルを制御し、最適ゲインの組み合わせによって多くの総合合成信号を得、それと入力音声とを比較することによって固定符号帳の符号を決定する。以上の様な手順により、現存の小型プロセッサ（ＤＳＰ等）で探索が実現できる。

また、適応符号帳１１３および固定符号帳１１４における音源探索は、符号化の一般的な処理単位区間であるフレームを更に細かく分けたサブフレームにおいて行う。

次いで、フィルタリング部１０１を主に用いた適応音源信号の変更処理について、図２および図３を用いて、より詳細に説明する。

図２は、適応符号帳１１３における適応音源信号の切り出し処理の概要を示す図である。フィルタリング部１０１には、この切り出された適応音源信号が入力される。以下の式（１）は、適応音源信号の切り出し処理を数式で表現したものである。

図３は、適応音源信号のフィルタリング処理の概要を説明するための図である。フィルタリング部１０１は、入力されるラグに従って、適応符号帳から切り出された適応音源信号に対して線形フィルタリングを行う。本実施の形態では、ＭＡ（Moving Average：移動平均）型のマルチタップのフィルタリング処理を施す。フィルタ係数としては、設計段階で求まる固定係数を用いる。また、このフィルタリングでは、上述の適応音源信号と適応符号帳１１３とを用いる。まず、適応音源信号のサンプル毎に、そこからＬサンプル前の適応符号帳１１３内のサンプルを基準として前後Ｍサンプルの範囲のサンプルの値にフィルタ係数を乗ずることによって得られる値の積和を取り、それを適応音源信号の当該サンプルの値に加算して、新たな値を得る。これが「変換後の適応音源信号」となる。

なお、Ｌが短い場合、フィルタの−Ｍから＋Ｍの範囲が適応符号帳１１３に格納されている適応音源の範囲から外に出てしまう場合があるが、＋Ｍの部分が外に出るような場合は、切り出した適応音源（本実施の形態に係るフィルタリング処理の対象になっているもの）が適応符号帳１１３に格納されている適応音源の末尾に接続されているものとして扱うことにより、上記フィルタリング処理を支障なく実行することができる。また−Ｍの部分は、外に出ないように十分な長さの適応音源を適応符号帳１１３に格納しておくことにより対応する。

そして、本実施の形態に係る音声符号化装置は、適応符号帳１１３から直接出力される適応音源信号、および、上記変更後の適応音源信号を用いて、入力音声信号の符号化を行う。この変更処理を数式で表現すると以下の式（２）となる。式（２）の右辺第２項がフィルタリング処理を表している。

ＭＡ型マルチタップフィルタのフィルタ係数として用いる固定係数は、切り出された適応音源に同じフィルタリングを行った際にその結果が理想音源に最も近づく様な値に、設計段階で設定される。これは、多くの学習用音声データサンプルに対して、変更された適応音源と理想音源の差分をコスト関数として、フィルタ係数の偏微分により得られる連立１次方程式を解くことによって算出される。コスト関数Ｅを以下の式（３）に示す。

なお、充分多い学習用データに基づいて上記統計的処理によってフィルタ係数を求め、この求まったフィルタ係数によるフィルタリング処理を行うようにすれば、符号化歪みが平均的に小さくなることは、上記に示した当該係数の算出過程から明らかである。

また、ラグＬは、音声を符号化することを考慮し、人間の有声音の基本周期を考慮し、限られたビット数で最も良い符号化性能が得られるような範囲に設計段階で予め設定する。

フィルタのタップ数の上限値Ｍ（よって、フィルタのタップ数の範囲は−Ｍ〜＋Ｍ）は、その基本周期の最小値以下に設定することが望ましい。なぜなら、その周期を有するサンプルでは、１周期後の波形に強い相関があるために学習でフィルタ係数をうまく求めることができない傾向があるからである。なお、上限値がＭの場合のフィルタ次数は２Ｍ＋１となる。

次いで、本実施の形態に係る音声符号化方法のうち、特に適応音源探索、固定音源探索、およびゲイン量子化の処理手順について、図４に示すフロー図を用いて説明する。

全ての符号を閉ループ（Closed Loop）で求めるのは膨大な計算量が必要となるため、本実施の形態に係る音声符号化方法では、適応符号帳の探索、固定符号帳の探索、ゲインの量子化の順番で符号が決められていく。まず、比較部１１７の制御の下、適応符号帳１１３の探索を行い（ＳＴ１０１０）、ＬＰＣ合成部１１６から出力される合成信号の符号化歪みを最小化するような適応音源信号の探索が行われる。次に、フィルタリング部１０１におけるフィルタリング処理により後述の適応音源信号の変換が行われ（ＳＴ１０２０）、この変換後の適応音源信号を用いて、比較部１１７の制御の下、固定符号帳１１４の探索を行い（ＳＴ１０３０）、ＬＰＣ合成部１１６から出力される合成信号の符号化歪みを最小化するような固定音源信号の探索が行われる。そして、最適な適応音源および固定音源が求まった後に、比較部１１７の制御の下、ゲインの量子化が行われる（ＳＴ１０４０）。

すなわち、図４に示すように、本実施の形態に係る音声符号化方法では、フィルタリングは、適応符号帳の探索後にその結果として得られる適応音源信号に対して行われる。図１に示したスイッチング部１２１はこの処理を実現するために設けられたものである。なお、本実施の形態では、ゲイン調整部１１５の前段に２入力１出力のスイッチング部１２１を配置したが、その代わりに、１入力２出力のスイッチング部を適応符号帳１１３の次段に配置し、比較部１１７の指示により、出力をフィルタリング部１０１を通してゲイン調整部１１５へ入力するか、あるいは、出力を直接ゲイン調整部１１５へ入力するかを選択するような構成としても良い。

このように、本実施の形態によれば、適応符号帳の探索が終わり復号化された適応音源を得た後、適応符号帳をフィルタの初期状態とし、ラグを基準位置としたフィルタリングを行い、適応音源を変更する。すなわち、適応符号帳探索により一旦求まった適応音源信号に対し、この適応音源信号をフィルタの初期状態とした上で、さらにフィルタリング処理を施して、適応音源探索により求まった適応音源にラグ（音声信号の調波構造）を考慮した変更を加える。これにより、適応音源が改良され、統計的に、より理想音源に近い適応音源を得ることができ、より符号化歪みの小さい、より良好な合成信号を得ることができる。すなわち、復号音声の品質を向上させることができる。

なお、本発明における適応音源信号の変更処理の発想は、ラグを基準としたフィルタリングにより適応音源信号のピッチ構造をより明確にすることができ、また、より理想音源に近づくような統計的学習でフィルタ係数を求めていることにより適応符号帳に格納される音源信号の典型的な劣化を補うことができるという２つの効果を、フィルタという少ない計算量・メモリ容量の手段で得ることにある。同じ様な発想を用いたものには音響コーデックの帯域拡張技術（ＭＰＥＧ４のＳＢＲ（Spectrum Band Replication））が挙げられるが、本発明には、時間軸で行うためによりリソースが少なくて済むという長所と、従来の高効率符号化法ＣＥＬＰの枠組みの中で実現できることにより、より高品質の音声が得られるという長所がある。

（実施の形態２）
図５は、本発明の実施の形態２に係る音声符号化装置の主要な構成を示すブロック図である。なお、この音声符号化装置は、実施の形態１に示した音声符号化装置と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。また、基本動作は同一であるが詳細な点で違いがある構成要素には、同一の番号にアルファベットの小文字を付した符号を付して区別し、適宜説明を加える。

本実施の形態が実施の形態１と異なる点は、本実施の形態に係る音声符号化装置の外部からラグＬ２が入力される点である。この構成は、特に最近ＩＴＵ−ＴやＭＰＥＧで標準化が進んでいるスケーラブルコーデック（多層コーデック）で見られる構成である。ここで例として示しているのは、低次のレイヤで符号化された情報をより高次レイヤで使用する場合、低次レイヤが高次よりもサンプリングレートが低い場合もあるが、基本方式がＣＥＬＰである場合は適応符号帳のラグを利用することができる。本実施の形態２ではラグをそのまま使用する場合について示す（この場合、このレイヤではビット数０で適応符号帳が使用できることになる）。

本実施の形態に係る音声符号化装置において、適応符号帳１１３ａの音源の符号（ラグ）は、外部から供給される。これは例として、本実施の形態に係る音声符号化装置とは別の音声符号化装置で得られたラグを受け取る場合や、ピッチ分析器（音声をより聞きやすくするピッチ強調器等に含まれる）で得られたラグを受け取る場合が挙げられる。すなわち、同一の音声信号を入力として、別の用途のために分析処理または符号化処理を行った結果、得られたラグを別の音声符号化処理においてそのまま用いる場合である。また、スケーラブルコーデック（階層型符号化、ＩＴＵ−Ｔ標準Ｇ．７２９ＥＶ等）の様に、階層別に符号化が行われる場合、下位層のラグを上位層で受け取る場合にも本実施の形態に係る構成を適用することができる。

図６は、本実施の形態に係る適応音源探索、固定音源探索、およびゲイン量子化の処理手順について示すフロー図である。

本実施の形態に係る音声符号化装置は、上記別の音声符号化装置やピッチ分析器における他の適応符号帳探索により得られたラグＬ２を取得し（ＳＴ２０１０）、このラグに基づいて、適応符号帳１１３ａにおいて適応音源信号の切り出しを行い（ＳＴ２０２０）、フィルタリング部１０１は、この切り出された適応音源信号を、既述のフィルタリング処理により変換する（ＳＴ１０２０）。ＳＴ１０２０以降の処理手順は、実施の形態１の図４に示した手順と同一である。

このように、本実施の形態によれば、別の音声符号化等の処理によって求まったラグを用いて適応音源信号を求める場合にその適応音源信号に対してラグのずれから生ずる典型的な劣化を補うことができる。これにより、適応音源が改良され、復号音声の品質を向上させることができる。

特に、本発明は、本実施の形態に示されるように、外部からラグが供給された場合により高い効果を発揮する。なぜなら、外部から供給されたラグは内部で探索により求められたラグとはズレがある場合が容易に想定されるが、かかる場合、学習によって、そのズレの統計的性質をこのフィルタ係数に含めることができるからである。そして、フィルタリングによって変更された適応音源信号と固定符号帳で求めた固定音源信号により適応符号帳はより性能が上がるようにアップデートされるので、より高品質な音声を伝送することができる。

以上、本発明の各実施の形態について説明した。

なお、本発明に係る音声符号化装置および音声符号化方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。

例えば、実施の形態１、２では、適応音源信号をＭＡ（移動平均）型フィルタのフィルタリングにより変更したが、同様の計算量で同じ効果を挙げられる方法として、ラグＬ毎に固定の波形を格納しておき、与えられたラグＬによってその固定波形を引き出し適応音源信号に加算するという方法も挙げられる。この加算処理を以下の式（４）に示す。

上記処理では、ＲＯＭ（Read Only Memory）に記録されている加算用固定波形は正規化されているので、適応音源信号にゲインを合わせるために、以下の式（５）に示すゲインを乗ずる。

加算用固定波形は、以下の式（６）に示すコスト関数の最小化によりラグ毎に予め求められ、格納される。

上記加算を用いた適応音源信号の変更処理でも、ラグＬに応じた処理により、実施の形態１、２で開示したフィルタリング処理と同様の効果を得ることができる。

また、実施の形態１、２では、適応音源を切り出した後、フィルタリング処理を施す構成を例にとって説明したが、この処理は、フィルタリング処理を施しながら音源を抽出する処理と数学的に等価の場合があることは明らかである。それは、式（１）および式（２）においてフィルタ係数を１増加させれば、式（１）が無くても式（２）だけで本実施の形態に係る変更後の適応音源が表現できることから明らかである。

また、実施の形態１、２では、フィルタとしてＭＡ型フィルタを用いる構成を例にとって説明したが、これはＩＩＲフィルタや他の非線形フィルタを用いても良く、かかる場合にＭＡ型フィルタと同様の作用効果が得られることは明らかである。ＭＡ型以外のフィルタでもその係数を含む理想音源との差のコスト関数は表現でき、その解法も明らかだからである。

また、実施の形態１、２では、基本的な符号化方式としてＣＥＬＰを用いる構成を例にとって説明したが、その他の符号化方式であっても音源符号帳を用いる符号化方式であれば適用できることは明らかである。なぜなら、本発明に係るフィルタリング処理は、音源符号帳のコードベクトルの抽出後に処理が施されるため、スペクトル包絡の分析方法がＬＰＣかＦＦＴかフィルタバンクかといったことに依存しないからである。

また、実施の形態１、２では、フィルタリング処理を施す範囲として、過去から未来にかけてラグを基準位置として、すなわちラグの切り出し位置を中心として対称にする構成を例にとって説明したが、これは非対称としても本発明が適用できることは明らかである。係数の抽出やフィルタリングの効果にフィルタリング処理の範囲は何ら影響を及ぼさないからである。

また、実施の形態２では、外部から得られるラグをそのまま用いる構成を例にとって説明したが、外部から得られるラグを利用して低ビットレートの符号化を実現するということもできることは明らかである。例えば、外部から得られるラグと、実施の形態２に係る音声符号化装置とは別の音声符号化装置内部で得られるラグとの差分を、より少ないビット数で符号化すれば（一般的に「デルタラグの符号化」と呼ばれる）、より良好な品質の合成信号を得ることができる。

また、実施の形態２から明らかな様に、本発明は、符号化対象の入力信号を一旦ダウンサンプリングし、その低サンプリング信号からラグを求め、それを利用して元の高サンプリング領域でコードベクトルを得るという、符号化処理の途中でサンプリングレートの変換を介す構成の場合にも適用することができる。これにより、低サンプリング信号で処理を行うので演算量を削減することができる。これは、外部からラグを得るという構成から明らかである。

また、符号化処理の途中でサンプリングレートの変換を介す構成の場合と同様に、本発明は、サブバンド型の符号化にも適用することができる。例えば、低域で求められたラグを高域で使用することができる。これは外部からラグを得るという構成から明らかである。

なお、実施の形態１、２で用いた図１と図５において、比較部１１７からの制御信号は出力が１本で、各制御先に対して同様の信号が送信されているように記載されているが、これに限らず、制御先ごとに異なる適切な制御信号を出力しても良い。

また、本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。

また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。

２００６年８月８日出願の特願２００６−２１６１４８の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明に係る音声符号化装置および音声符号化方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。

比較部１１７は、ＬＰＣ合成部１１６で得られる合成信号と入力音声信号Ｖ１との距離を算出し、２つの符号帳（適応符号帳１１３、固定符号帳１１４）からの出力ベクトルとゲイン調整部１１５で乗じるゲインとを制御することによって、最も距離が近くなる２つの音源の符号の組み合わせを探索する。ただし、実際の符号化においては、ＬＰＣ合成部１１６で得られた２つの合成信号と入力音声信号との関係を分析し、２つの合成信号の最
適値（最適ゲイン）の組み合わせを求め、その最適ゲインによってゲイン調整部１１５でゲインの調整をされたそれぞれの合成信号を加算して総合合成信号を得、その総合合成信号と入力音声信号との距離計算を行なう。適応符号帳１１３および固定符号帳１１４の全ての音源サンプルに対してゲイン調整部１１５およびＬＰＣ合成部１１６を動作させることによって得られる多くの合成信号と入力音声信号との距離計算を行ない、得られる距離を比較し、最も小さくなる音源サンプルのインデクスを求める。比較部１１７は、最終的に得られた２つの符号帳のインデクス（符号）と、これらのインデクスに対応する２つの合成信号と、入力音声信号とをパラメータ符号化部１１８へ出力する。

図３は、適応音源信号のフィルタリング処理の概要を説明するための図である。フィルタリング部１０１は、入力されるラグに従って、適応符号帳から切り出された適応音源信
号に対して線形フィルタリングを行う。本実施の形態では、ＭＡ（Moving Average：移動平均）型のマルチタップのフィルタリング処理を施す。フィルタ係数としては、設計段階で求まる固定係数を用いる。また、このフィルタリングでは、上述の適応音源信号と適応符号帳１１３とを用いる。まず、適応音源信号のサンプル毎に、そこからＬサンプル前の適応符号帳１１３内のサンプルを基準として前後Ｍサンプルの範囲のサンプルの値にフィルタ係数を乗ずることによって得られる値の積和を取り、それを適応音源信号の当該サンプルの値に加算して、新たな値を得る。これが「変換後の適応音源信号」となる。

また、ラグＬは、音声を符号化することを考慮し、人間の有声音の基本周期を考慮し、限られたビット数で最も良い符号化性能が得られるような範囲に設計段階で予め設定する
。

以上、本発明の各実施の形態について説明した。

また、実施の形態１、２では、フィルタとしてＭＡ型フィルタを用いる構成を例にとって説明したが、これはＩＩＲフィルタや他の非線形フィルタを用いても良く、かかる場合
にＭＡ型フィルタと同様の作用効果が得られることは明らかである。ＭＡ型以外のフィルタでもその係数を含む理想音源との差のコスト関数は表現でき、その解法も明らかだからである。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である
ＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

Claims

適応音源探索および固定音源探索を行う音源探索手段と、
適応音源を格納し、前記適応音源の一部を切り出す適応符号帳と、
前記適応符号帳から切り出された適応音源に所定のフィルタリング処理を施すフィルタリング手段と、
複数の固定音源を格納し、前記音源探索手段から指定された固定音源を取り出す固定符号帳と、を具備し、
前記音源探索手段は、適応音源探索時には前記適応符号帳から切り出された適応音源を用いて探索を行い、固定音源探索時には前記フィルタリング処理が施された後の適応音源を用いて探索する音声符号化装置。
前記適応符号帳は、前記音源探索手段の指示に従って前記適応音源の一部を切り出す請求項１記載の音声符号化装置。
前記適応符号帳は、外部からの指示に従って前記適応音源の一部を切り出す請求項１記載の音声符号化装置。
前記音源探索手段は、前記フィルタリング処理が施された後の適応音源と前記固定符号帳から取り出された固定音源とをゲイン調整して加算し、加算結果を用いて固定音源探索を行う請求項１記載の音声符号化装置。
適応符号帳に格納された適応音源に対して適応音源探索を行う工程と、
前記適応音源探索の結果を用いて前記適応符号帳から前記適応音源の一部を切り出す工程と、
前記適応符号帳から切り出された適応音源に所定のフィルタリング処理を施す工程と、
固定符号帳に格納された複数の固定音源に対して、前記フィルタリング処理が施された後の適応音源を用いて固定音源探索を行う工程と、
を具備する音声符号化方法。