WO2012053149A1

WO2012053149A1 - 音声分析装置、量子化装置、逆量子化装置、及びこれらの方法

Info

Publication number: WO2012053149A1
Application number: PCT/JP2011/005147
Authority: WO
Inventors: 利幸森井
Original assignee: パナソニック株式会社
Priority date: 2010-10-22
Filing date: 2011-09-13
Publication date: 2012-04-26

Abstract

　スプリットＶＱにおいて分割された各ベクトルにおいて、音響特性の分析を可能とすることができる音声分析装置。この装置において、パラメータ分析部（２０１）は、音声信号に対するパラメータ分析を行って、次数１から次数Ｍ（ただし、Ｍ＜Ｎ、Ｍは正の整数、Ｎは２以上の整数）までの線形予測係数を得て、ＬＳＰ分析部（２０２）は、線形予測係数を変換して第１のパラメータを得て、パラメータ分析部（２０３）は、線形予測係数を用いたパラメータ分析を行って、次数（Ｍ＋１）から次数Ｎまでの反射係数を算出し、反射係数を用いた行列の計算により、多項式を要素とする正方行列を得て、多項式抽出部（２０４）は、正方行列に対して所定のベクトルを乗ずることで、正方行列を、２つの多項式を要素とするベクトルに変換し、ＬＳＰ分析部（２０５）は、２つの多項式を用いた方程式から第２のパラメータを算出する。

Description

音声分析装置、量子化装置、逆量子化装置、及びこれらの方法

　本発明は、音声分析装置、量子化装置、逆量子化装置、及びこれらの方法に関する。

　移動体通信においては伝送帯域の有効利用のために音声又は画像のディジタル情報の圧縮符号化が必須である。その中でも携帯電話で広く利用されている音声コーデック（符号化／復号）技術に対する期待は大きく、圧縮率の高い従来の高効率符号化に対して更により高音質の要求が強まっている。また、音声通信は公衆で使用されるため、標準化が必須であり、それに伴う知的財産権の価値の大きさゆえに世界各国の企業において研究開発が盛んに行われている。

　近年、音声及び音楽の双方を符号化できるコーデックは、ＩＴＵ－Ｔ（International Telecommunication Union - Telecommunication Standardization Sector）及びＭＰＥＧ（Moving Picture Experts Group）で標準化が検討されており、より効率的で高品質の音声コーデックが求められている。

　２０年前に確立された音声の発声機構をモデル化してベクトル量子化を応用した基本方式であるＣＥＬＰ（Code Excited Linear Prediction）によって、音声符号化技術は大きく性能を向上させた。ＩＴＵ－Ｔ標準Ｇ．７２９、Ｇ．７２２．２、ＥＴＳＩ標準ＡＭＲ（Adaptive Multi-Rate）、ＡＭＲ－ＷＢ（Wide Band）、又は、３ＧＰＰ２標準ＶＭＲ－ＷＢ（Variable-Rate Multimode Wideband）等の多くの国際規格では、ＣＥＬＰは標準方式として採用されている。

　上記ＣＥＬＰの主要な技術は、スペクトルの概形を低ビットレートで符号化できる、ＬＰＣ（Linear Prediction Coefficient）分析技術、及び、ＬＰＣ分析により得られたパラメータ（線形予測係数（ＬＰＣ）等）の量子化技術である。特に、近年の標準方式のほとんどに使用されているのは線スペクトルによる量子化であり、代表的なものとして、ＬＳＰ（Line Spectral Pair）と、ＬＳＰを更に改良したＩＳＰ（Immittance Spectral Pair）とがある（例えば、非特許文献１及び非特許文献２を参照）。ＬＳＰ及びＩＳＰの双方とも補間性が良く、ベクトル量子化（Vector Quantization：ＶＱ）との親和性が高いので、これらを符号化に用いることにより、低ビットレートでスペクトル情報を伝送することができる。ＬＳＰ及びＩＳＰという線スペクトルパラメータとＶＱとによって、ＣＥＬＰを基本方式とする音声符号化（コーデック）の性能は格段に向上した。

　最近では、「より高音質に」というニーズに対応するために、広帯域信号（１６ｋｂｐｓサンプリング）又は超広帯域信号（３２ｋｂｐｓサンプリング）を符号化するコーデックが求められており、ＩＴＵ－Ｔ、ＭＰＥＧ及び３ＧＰＰ等で標準化が進んでいる。広帯域又は超広帯域のディジタル信号を符号化するために線形予測係数（ＬＰＣ）を用いる場合、符号化装置では、例えば１６次以上の次数の多いＬＳＰ又はＩＳＰを量子化する必要がある。そこで、量子化対象（符号化対象）であるターゲットベクトルを複数に分割し、それぞれをベクトル量子化するという「スプリットベクトル量子化（スプリットＶＱ：Split Vector Quantization）」が用いられる。スプリットＶＱは、これまでの標準方式でも用いられている一般的な方法である。例えば、スプリットＶＱでは、１６次のパラメータベクトルを前半８サンプルと、後半８サンプルとに分割して、それぞれに対してＶＱを行う。

　特に、次数が多い場合には最初からスプリットＶＱを用いることになる。ここで、ＬＳＰ及びＩＳＰという線スペクトルパラメータは大きさが昇順になっており、その値は周波数領域で表されるので、スプリットＶＱでは、ＬＳＰ又はＩＳＰの周波数成分を複数に分割してそれぞれを独立に量子化することになる。

　また、特許文献１には、人間の声帯（声門）から開口部までの声道を１つの音響管として、符号化対象である声道を開口部側と声帯（声門）側とに分断する発想に基づく符号化技術が開示されている。具体的には、特許文献１では、符号化対象のうち開口部に近い部分に対してＬＳＰを用いて符号化して訂正ビットを付加することで当該部分を保護する。一方、符号化対象のうち声帯に近い部分に対してＰＡＲＣＯＲ（Partial Auto Correlation）を用いて符号化する。そして、開口部側と声帯側とを最後に合成する。

特開平６－２０４９８３号公報

菅村，板倉，「線スペクトル対（ＬＳＰ）音声分析合成方式による音声情報圧縮」，電子情報通信学会誌 J64-A，No.8，pp.599-606，1981/8（N.Sugamura, and F.Itakura, "Speech data compression by LSP speech analysis-synthesis technique," Trans. of IEICE, Vol.J64-A, No.8, pp.599-606 (1981-8)） Bistritz, Peller, "IMMITTANCE SPECTORAL PAIRS (ISP) FOR SPEECH ENCODING" IEEE, ICASSP’93, pp.II-9 - II12

　しかしながら、ＬＳＰ及びＩＳＰという線スペクトルパラメータは、高帯域領域と低帯域領域との間で相関がある。そのため、前述した次数に基づくスプリットＶＱを行うと、量子化効率が劣化してしまうという問題がある。量子化においては、１本の音響管として量子化すると計算量が多いため、上述のように、スプリットＶＱを用いて量子化することが多い。この場合、計算量は削減されるが、相関が高いはずの２つのベクトルであるのに、従来はその特性（相関）を考慮せずに音響管を分割していたため、量子化効率が劣化していたのである。この問題を解決するために、スプリットＶＱにおいてＬＳＰ又はＩＳＰの次数に基づく分割方法ではなく、より相関が小さくなる分割方法が必要になる。

　また、特許文献１のように、ＰＡＲＣＯＲを用いて符号化すると、ＬＳＰ及びＩＳＰと比較して量子化効率が悪くなる。よって、たとえ伝送誤りに強くとも量子化性能が劣化するのでは実用性に欠ける。すなわち、量子化対象を分割した後のそれぞれの部分から抽出したパラメータを効率良く量子化することは性能向上のためには不可欠であり、従来のように、音響管の情報に対する量子化効率が良いＬＳＰ及びＩＳＰ等による量子化を行うことが望ましい。すなわち、従来においては、音響管の特性を分析するときに、音響管を分割し、開口部に近い部分については例えば特許文献１に示すＬＳＰ分析を行ったが、声帯に近い部分については、実質的には音響特性について分析されていなかった。

　本発明の目的は、スプリットＶＱを行うために分割された各ベクトルそれぞれにおいて音響特性を分析することが可能である音声分析装置及び音声分析方法を提供することである。さらに、この音声分析装置を用いることにより、量子化性能の良い量子化／逆量子化を実現できる量子化装置、逆量子化装置及びこれらの方法を提供することである。

　本発明の一態様に係る音声分析装置は、音声信号を分析して、次数１から次数Ｎ（ただし、Ｎは２以上の整数）までのＮ次のフィルタのフィルタ係数を表すパラメータを決定する音声分析装置であって、前記音声信号に対するパラメータ分析を行って、次数１から次数Ｍ（ただし、Ｍ＜Ｎ、Ｍは正の整数）までの線形予測係数を得る第１分析手段と、前記線形予測係数を変換して第１のパラメータを得る第２分析手段と、前記線形予測係数を用いたパラメータ分析を行って、次数（Ｍ＋１）から次数Ｎまでの反射係数を算出し、前記反射係数を用いた行列の計算により、多項式を要素とする正方行列を得る第３分析手段と、前記正方行列に対して所定のベクトルを乗ずることで、前記正方行列を、２つの多項式を要素とするベクトルに変換する変換手段と、前記２つの多項式を用いた方程式から第２のパラメータを算出する第４分析手段と、を具備する構成を採る。

　本発明の一態様に係る量子化装置は、上記音声分析装置と、前記第１のパラメータを量子化して第１の符号を得る第１量子化手段と、前記第２のパラメータを量子化して第２の符号を得る第２量子化手段と、を具備する構成を採る。

　本発明の一態様に係る逆量子化装置は、上記量子化装置により生成された、前記第１の符号と前記第２の符号とを入力して逆量子化する逆量子化装置であって、前記第１の符号を復号するとともに、次数１から次数Ｍまでのフィルタ特性を表す２つの多項式を要素とする第１復号ベクトルを生成する第１復号手段と、前記第２の符号を復号するとともに、次数（Ｍ＋１）から次数Ｎまでのフィルタ特性を表す２つの多項式を要素とする第２復号ベクトルを生成する第２復号手段と、前記第２復号ベクトルを用いて多項式を要素とする復号正方行列を得る行列生成手段と、前記第１復号ベクトルに対して前記復号正方行列を乗ずることにより、前記Ｎ次のフィルタのフィルタ係数を求める全体復号手段と、を具備する構成を採る。

　本発明の一態様に係る音声分析方法は、音声信号を分析して、次数１から次数Ｎ（ただし、Ｎは２以上の整数）までのＮ次のフィルタのフィルタ係数を表すパラメータを決定する音声分析方法であって、前記音声信号に対するパラメータ分析を行って、次数１から次数Ｍ（ただし、Ｍ＜Ｎ、Ｍは正の整数）までの線形予測係数を得る第１分析ステップと、前記線形予測係数を変換して第１のパラメータを得る第２分析ステップと、前記線形予測係数を用いたパラメータ分析を行って、次数（Ｍ＋１）から次数Ｎまでの反射係数を算出し、前記反射係数を用いた行列の計算により、多項式を要素とする正方行列を得る第３分析ステップと、前記正方行列に対して所定のベクトルを乗ずることで、前記正方行列を、２つの多項式を要素とするベクトルに変換する変換ステップと、前記２つの多項式を用いた方程式から第２のパラメータを算出する第４分析ステップと、を有する。

　本発明の一態様に係る量子化方法は、上記音声分析方法により得られた前記第１のパラメータを量子化して第１の符号を得る第１量子化ステップと、上記音声分析方法により得られた前記第２のパラメータを量子化して第２の符号を得る第２量子化ステップと、を有する。

　本発明の一態様に係る逆量子化方法は、上記量子化方法により得られた、前記第１の符号と前記第２の符号とを入力して逆量子化する逆量子化方法であって、前記第１の符号を復号するとともに、次数１から次数Ｍまでのフィルタ特性を表す２つの多項式を要素とする第１復号ベクトルを生成する第１復号ステップと、前記第２の符号を復号するとともに、次数（Ｍ＋１）から次数Ｎまでのフィルタ特性を表す２つの多項式を要素とする第２復号ベクトルを生成する第２復号ステップと、前記第２復号ベクトルを用いて多項式を要素とする復号正方行列を得る行列生成ステップと、前記第１復号ベクトルに対して前記復号正方行列を乗ずることにより、前記Ｎ次のフィルタのフィルタ係数を求める全体復号ステップと、を有する。

　本発明の音声分析装置及び音声分析方法によれば、スプリットＶＱにおいて分割された各ベクトルにおいて、音響特性の分析を可能とする。また、本発明の量子化装置、逆量子化装置、及びこれらの方法によれば、スプリットＶＱにおいて分割された各ベクトルにおいて、量子化性能の良い量子化／逆量子化を実現できる。

本発明の一実施の形態に係るＣＥＬＰ符号化装置の構成を示すブロック図本発明の一実施の形態に係る音声分析装置及び量子化装置の構成を示すブロック図本発明の一実施の形態に係るＣＥＬＰ復号装置の構成を示すブロック図本発明の一実施の形態に係る逆量子化装置の構成を示すブロック図

　以下、本発明の実施の形態について、図面を参照して詳細に説明する。

　図１は、本実施の形態に係るＣＥＬＰ符号化装置１００の構成を示すブロック図である。

　図１において、ＣＥＬＰ符号化装置１００は、声道情報と音源情報とからなる音声信号を、声道情報については、ＬＰＣパラメータ（線形予測係数）を求めることにより符号化し、音源情報については、予め記憶されている音声モデルのいずれを用いるかを特定するインデックスを求めることにより符号化する。すなわち、音源情報については、適応符号帳１０３及び固定符号帳１０４でどのような音源ベクトル（コードベクトル）を生成するかを特定するインデックス（符号）を求めることにより符号化する。

　具体的には、ＣＥＬＰ符号化装置１００の各部は以下の動作を行う。

　ＬＰＣ分析部１０１は、音声信号に対して線形予測分析（ＬＰＣ分析）を施し、スペクトル包絡情報であるＬＰＣパラメータを求め、求めたＬＰＣパラメータをＬＰＣ量子化部１０２及び聴感重み付け部１１１に出力する。

　ＬＰＣ量子化部１０２は、ＬＰＣ分析部１０１から出力されたＬＰＣパラメータを量子化する。そして、ＬＰＣ量子化部１０２は、得られた量子化ＬＰＣパラメータをＬＰＣ合成フィルタ１０９に出力し、量子化ＬＰＣパラメータのインデックス（符号）をＣＥＬＰ符号化装置１００の外部へ出力する。

　一方、適応符号帳１０３は、ＬＰＣ合成フィルタ１０９で使用された過去の駆動音源を記憶しており、後述する歪み最小化部１１２から指示されたインデックスに対応する適応符号帳ラグに従って、記憶している駆動音源から１サブフレーム分の音源ベクトルを生成する。この音源ベクトルは、適応符号帳ベクトルとして乗算器１０６に出力される。

　固定符号帳１０４は、所定形状の音源ベクトルを複数個予め記憶しており、歪み最小化部１１２から指示されたインデックスに対応する音源ベクトルを、固定符号帳ベクトルとして乗算器１０７に出力する。ここで、固定符号帳１０４は代数的音源であり、代数的符号帳を用いた場合について説明する。代数的音源とは、多くの標準コーデックに採用されている音源である。

　なお、上記の適応符号帳１０３は、有声音のように周期性の強い成分を表現するために使われる。一方、固定符号帳１０４は、白色雑音のように周期性の弱い成分を表現するために使われる。

　ゲイン符号帳１０５は、歪み最小化部１１２からの指示に従って、適応符号帳１０３から出力される適応符号帳ベクトル用のゲイン（適応符号帳ゲイン）、及び固定符号帳１０４から出力される固定符号帳ベクトル用のゲイン（固定符号帳ゲイン）を生成し、それぞれ乗算器１０６、１０７に出力する。

　乗算器１０６は、ゲイン符号帳１０５から出力された適応符号帳ゲインを、適応符号帳１０３から出力された適応符号帳ベクトルに乗じ、乗算後の適応符号帳ベクトルを加算器１０８に出力する。

　乗算器１０７は、ゲイン符号帳１０５から出力された固定符号帳ゲインを、固定符号帳１０４から出力された固定符号帳ベクトルに乗じ、乗算後の固定符号帳ベクトルを加算器１０８に出力する。

　加算器１０８は、乗算器１０６から出力された適応符号帳ベクトルと、乗算器１０７から出力された固定符号帳ベクトルとを加算し、加算後の音源ベクトルを駆動音源としてＬＰＣ合成フィルタ１０９に出力する。

　ＬＰＣ合成フィルタ１０９は、ＬＰＣ量子化部１０２から出力された量子化ＬＰＣパラメータをフィルタ係数とし、適応符号帳１０３及び固定符号帳１０４で生成される音源ベクトルを駆動音源としたフィルタ関数、すなわち、ＬＰＣ合成フィルタを用いて合成信号を生成する。この合成信号は、加算器１１０に出力される。

　加算器１１０は、ＬＰＣ合成フィルタ１０９で生成された合成信号を音声信号から減算することによって誤差信号を算出し、この誤差信号を聴感重み付け部１１１に出力する。なお、この誤差信号が符号化歪みに相当する。

　聴感重み付け部１１１は、ＬＰＣ分析部１０１から入力されるＬＰＣパラメータを用いて、加算器１１０から出力された符号化歪みに対して聴感的な重み付けを施し、歪み最小化部１１２に出力する。

　歪み最小化部１１２は、聴感重み付け部１１１から出力された符号化歪みが最小となるような、適応符号帳１０３、固定符号帳１０４及びゲイン符号帳１０５の各インデックス（符号）をサブフレームごとに求め、これらのインデックスを符号化情報としてＣＥＬＰ符号化装置１００の外部に出力する。より詳細には、上記の適応符号帳１０３及び固定符号帳１０４に基づいて合成信号を生成し、この信号の符号化歪みを求める一連の処理は閉ループ制御（帰還制御）となっており、歪み最小化部１１２は、各符号帳に指示するインデックスを１サブフレーム内において様々に変化させることによって各符号帳を探索し、最終的に得られる、符号化歪みを最小とする各符号帳のインデックスを出力する。

　なお、符号化歪みが最小となる際の駆動音源は、サブフレームごとに適応符号帳１０３へフィードバックされる。適応符号帳１０３は、このフィードバックにより、記憶されている駆動音源を更新する。

　次に、ＣＥＬＰ符号化装置１００（符号化器）でのＬＰＣ分析及びＬＰＣ量子化の詳細について説明する。

　まず、ＬＳＰとＩＳＰとの違いについて本発明者が着目した点について説明する。

　同一ビット数で表されるＬＳＰとＩＳＰとにおいては、ＬＳＰよりもＩＳＰの方がスペクトル歪をより少なく抑えて量子化することが可能である。

　ただし、ＩＳＰは、人間の声帯（声門）から開口部までの声道を１つの音響管としたとき、声帯（声門）における１つのパラメータをＰＡＲＣＯＲで表し（例えば、反射係数（ＰＡＲＣＯＲ係数））、当該１つのパラメータよりも開口部側の他の部分をＬＳＰで表わしたパラメータである。

　非特許文献１によればＬＳＰはＰＡＲＣＯＲよりも量子化性能が明らかに良い（少ないビット数でスペクトルを精度良く量子化できる）にも関わらず、ＩＳＰでは、１つのパラメータをＰＡＲＣＯＲで表現することで、ＬＳＰのみの場合と比較して量子化性能を向上させることができる。

　このように１つのパラメータをＰＡＲＣＯＲで表現することが量子化性能の向上につながる理由としては、声帯（声門）に近い部分をＬＳＰで表現する部分として含めないことで、ベクトル量子化で用いる符号帳のコードベクトルの分布が良くなるという現象が挙げられる。

　また、定性的には、音響管における開口部に近い部分は音韻性を表しており変動が激しいのに対し、声帯（声門）に近い部分は比較的定常的に個人性を表しているという傾向を仮説として導くことができる。従って、開口部に近い部分と声帯（声門）に近い部分とは統計的に相関が小さいと考えられる。

　よって、音響管を分断して得られたパラメータ（相関が小さいパラメータ）に対して独立にＶＱを行うことで、全体に対してＶＱを行うよりも計算量を低減でき、かつ、量子化性能が劣化しない可能性がある。

　本発明者は、音響管モデルによる声道の分析を考察し、声帯（声門）に近い部分における音響管の切断面に対して開口部と同じ条件を適用することにより、声帯（声門）に近い部分に対して、ＰＡＲＣＯＲでＶＱを行うのではなく、ＬＳＰでＶＱを行うことができるという方法があることを発見した。音響管を複数のＬＳＰで量子化できれば、量子化性能の向上が更に望める。

　以上のように、本発明では、ＬＰＣ分析を行う対象である声道を物理的に分断し、分断されたそれぞれの区間の声道から得られたパラメータを効率良く量子化する。

　以下、本実施の形態に係るパラメータ分析及び量子化の詳細について説明する。

　図２は、本実施の形態に係る音声分析装置及び量子化装置を構成する、ＬＰＣ分析部１０１及びＬＰＣ量子化部１０２の内部構成を示すブロック図である。図２に示すように、ＬＰＣ分析部１０１は、パラメータ分析部２０１、ＬＳＰ分析部２０２、パラメータ分析部２０３、多項式抽出部２０４及びＬＳＰ分析部２０５を備える。また、図２に示すように、ＬＰＣ量子化部１０２は、ＬＳＰ量子化部２０６、ＬＳＰ量子化部２０７、ＬＳＰ復号部２０８、ＬＳＰ復号部２０９、多項式復号部２１０及び全体復号部２１１を備える。

　図２において、パラメータ分析部２０１は、入力音声（入力される音声信号）に対して自己相関分析を行うことによって自己相関係数を抽出し、抽出した自己相関係数を用いてＬＰＣ分析を行う。例えば、パラメータ分析部２０１は、自己相関係数を用いたDurbin-Levinsonの再帰法によるパラメータ分析処理において、音響管モデルによる声道を分断した際の開口部側のαパラメータ（分断したい部分までの開口部からのαパラメータ（線形予測係数））を得る。

　Levinson-Durbinの再帰法（例えば、マーケル、グレイ共著、鈴木訳「音声の線形予測」、3.3.4章、3.3.5章、pp.65-67、1978年11月、コロナ社）では、人間の声帯から開口部までの声道を１つの音響管でモデル化し、音の発生する方向と逆方向、つまり、開口部から声帯への方向にパラメータ分析が行われる。これを漸化式で示すと次式（１）のようになる。

　ここで、Ａ_ｎ（ｚ）は線形予測係数（ＬＰＣ）を係数とする多項式を示し、開口部から声帯（つまり、奥の方向）に向かって進む式である。また、Ｂ_ｎ（ｚ）は線形予測係数（ＬＰＣ）を係数とする多項式を示し、声帯（つまり、奥）から開口部に向かって進む式である。また、ｋ_ｎは反射係数（ＰＡＲＣＯＲ係数）を示し、ｚ^－１は変数（Ｚ変換されたフィルタの変数に対応）を示す。

　分析する最大次数をＮ（Ｎは２以上の整数）とし、開口部側において、開口部から分断部分までの次数をＭ（Ｍ＜Ｎ、Ｍは正の整数）とする。つまり、声道の特性は、低次側を開口部とし、高次側を声帯とするＮ次のフィルタで表される。すなわち、Ｎ次のフィルタは、音響管としてモデル化され、且つ、開口部を次数１とし、声帯（声門）を次数Ｎとする、声道の特性を表すように設計されている。この場合、パラメータ分析部２０１は、Ａ_Ｍ（ｚ）の多項式の係数からαパラメータを得る。すなわち、パラメータ分析部２０１は、Ｎ次のフィルタのうち、次数１～Ｍまでの各サンプル（つまり、開口部側）において、入力音声（音声信号）に対するパラメータ分析処理を行って、次数１～Ｍまでのαパラメータ（線形予測係数）を得る。

　そして、ＬＳＰ分析部２０２は、パラメータ分析部２０１で得られたαパラメータを用いてＬＳＰを求める。以下、ＬＳＰ分析部２０２で得られるＬＳＰを「ＬＳＰ１」と呼ぶ。

　ＬＳＰを求める方法については非特許文献１に詳細な記載がある。このＬＳＰを求める方法を式（１）に対応させて表すと、式（１）における分析対象の次数（例えば、次数Ｍ）よりも１つ多い次数（例えば、次数（Ｍ＋１））の反射係数（ｋ_Ｍ＋１）を１（完全閉塞）及び－１（完全開放）と仮定したときのＡ_Ｍ＋１（ｚ）をそれぞれ、式（２）に示すＰ（ｚ）及びＲ（ｚ）とする。ＬＳＰ分析部２０２は、Ｐ（ｚ）及びＲ（ｚ）の解を求めることによってＬＳＰ１（次数１～ＭまでのＬＳＰ）を求める。

　つまり、Ｐ（ｚ）及びＲ（ｚ）はＬＳＰ１を求めるための多項式を表す。式（２）に示す２式（Ｐ（ｚ）及びＲ（ｚ））は無損失系のフィルタとなり、これらの解は複素平面における単位円上に存在する。また、ＬＳＰ分析部２０２は、互いの解が円周上に交互に現れるという性質を利用して、例えば、ニュートン　ラフソン法によって解を求めることができる。求められた解がＬＳＰ１となる。すなわち、ＬＳＰ１は、声道を開口部から次数Ｍで分断した際の開口部側のパラメータである。

　一方、パラメータ分析部２０３は、パラメータ分析部２０１で求めた自己相関係数と開口部側のαパラメータ（次数１～Ｍ）とを受けて、パラメータ分析部２０１で行ったDurbin-Levinsonの再帰法によるパラメータ分析（開口部から次数Ｍまでのパラメータ分析処理）を引き継いで、そのままパラメータ分析を行い、次数Ｍよりも先（すなわち、次数（Ｍ＋１）～次数Ｎ）の反射係数（つまり、ｋ_Ｍ＋１，ｋ_Ｍ＋２，…，ｋ_Ｎ）を得る。Ａ_Ｎ（ｚ）、Ａ_Ｍ（ｚ）及び次数Ｍよりも先の反射係数（ｋ_Ｍ＋１，ｋ_Ｍ＋２，…，ｋ_Ｎ）との関係は、式（１）に基づいて、式（３）のように表される。また、パラメータ分析部２０３は、Ａ_Ｎ（ｚ）の係数をＬＰＣパラメータとして聴感重み付け部１１１へ送る。

　従って、声道を分断した際の、声帯側（次数（Ｍ＋１）から声帯（次数Ｎ））の音響管の特性は、上記反射係数（ｋ_Ｍ＋１，ｋ_Ｍ＋２，…，ｋ_Ｎ）と変数ｚ^－１とから成る正方行列を全て掛け合わせた２次元の多項式を要素とする正方行列で表される。すなわち、パラメータ分析部２０３は、Ｎ次のフィルタのうち、次数（Ｍ＋１）～Ｎまでのサンプルにおいて、入力音声（音声信号）に対するパラメータ分析処理を行って、次数（Ｍ＋１）～Ｎまでの反射係数（ｋ_Ｍ＋１，ｋ_Ｍ＋２，…，ｋ_Ｎ）を算出する。そして、パラメータ分析部２０３は、反射係数（ｋ_Ｍ＋１，ｋ_Ｍ＋２，…，ｋ_Ｎ）、次数（Ｍ＋１）のパラメータ分析を漸化式で表す２つの多項式（Ａ_Ｍ（ｚ），Ｂ_Ｍ（ｚ））、及び、次数Ｎのパラメータ分析を漸化式で表す２つの多項式（Ａ_Ｎ（ｚ），Ｂ_Ｎ（ｚ））を要素とする正方行列（つまり、声帯側の音響管の特性（フィルタ特性）を表す正方行列。式（３））を算出する。

　因みに、Ｍ＝Ｎ－１のときがＩＳＰ（非特許文献２参照）の場合に相当する。すなわち、反射係数ｋ_Ｎ、及び、開口部から次数Ｍ（＝Ｎ－１）までの部分（反射係数ｋ_１～ｋ_Ｍ）をそれぞれＬＳＰに変換すればＩＳＰが得られることに注意されたい。

　次いで、多項式抽出部２０４は、声帯側の分断した切り口（つまり、次数（Ｍ＋１））に、開口部（次数＝１）の条件であるＡ_０＝１，Ｂ_０＝ｚ^－１をベクトルとして適用（乗算）する。具体的には、式（３）において、声帯側の分断した切り口、つまり、次数（Ｍ＋１）に対応する多項式Ａ_Ｍ（ｚ），Ｂ_Ｍ（ｚ）を、それぞれＡ_Ｍ（ｚ）＝１，Ｂ_Ｍ（ｚ）＝ｚ^－１とする。これにより、式（３）に示す声帯側の音響管の特性を示す４つの多項式（Ａ_Ｎ（ｚ），Ｂ_Ｎ（ｚ），Ａ_Ｍ（ｚ），Ｂ_Ｍ（ｚ））を、式（４）に示す２つの多項式（Ｑ（ｚ），Ｓ（ｚ））に纏めることができる。

　このように、多項式抽出部２０４は、パラメータ分析部２０３で算出された正方行列（式（３））に含まれる次数（Ｍ＋１）に対応する多項式に対して、次数１でのパラメータ分析に用いた初期値（Ａ_０＝１，Ｂ_０＝ｚ^－１）を適用することで、式（３）に示す正方行列を、式（４）に示す２つの多項式Ｑ（ｚ），Ｓ（ｚ）を要素とするベクトルに変換する。

　ここで着目すべき重要な点は、式（４）に示すＱ（ｚ），Ｓ（ｚ）の各多項式は、式（２）に示すＡ_Ｍ（ｚ），Ｂ_Ｍ（ｚ）と同様に扱うことができ、式（２）のようにしてＱ（ｚ）とＳ（ｚ）との和及び差を算出することで、無損失系の多項式を得ることができるという点である。

　そこで、ＬＳＰ分析部２０５は、多項式抽出部２０４から入力される多項式を用いてＬＳＰを求める。以下、ＬＳＰ分析部２０５で得られるＬＳＰを「ＬＳＰ２」と呼ぶ。例えば、ＬＳＰ分析部２０５は、式（５）に示す多項式Ｕ（ｚ）及びＶ（ｚ）を用いてＬＳＰ２を求める。

　すなわち、ＬＳＰ分析部２０５は、２つの多項式Ｑ（ｚ），Ｓ（ｚ）を用いて、ＬＳＰ２（次数（Ｍ＋１）～ＮまでのＬＳＰ）を求める。つまり、Ｕ（ｚ）及びＶ（ｚ）はＬＳＰ２を求めるための無損失系の多項式を表す。なお、上記着目すべき重要な点については、上記反射係数ｋと変数ｚ^－１との２次元正方行列の１つ１つが独立であることから理論的に明らかであるので、その証明を省略する。

　以下、一例として、Ｍ＝Ｎ－１の場合について説明する。

　この場合、式（４）は式（６）で表される。

　そこで、ＬＳＰ分析部２０５は、式（６）を用いて式（５）を計算して、式（７）に示す２つの多項式Ｕ（ｚ），Ｖ（ｚ）を得る。

　式（７）に示す２つの多項式Ｕ（ｚ），Ｖ（ｚ）において、±１については除外し、２次式の解を求めると、式（８）のようになる。

　安定したＬＰＣフィルタにおける反射係数の特性（－１＜ｋ_Ｎ＜１）より、式（８）における平方根の中は常に負の値となり、複素平面におけるそれぞれの解の値は単位円上に存在することが証明される。

　以上、Ｍ＝Ｎ－１（Ｎ－Ｍ＝１）の場合について説明した。なお、（Ｎ－Ｍ）が２以上の場合についても上記同様である。

　以上のように符号化器では、声道を分断するのと等価な分析を行うことで、２つのＬＳＰ（ＬＳＰ１及びＬＳＰ２）を得ることができる。ＬＳＰ分析部２０２で生成されたＬＳＰ１は、ＬＳＰ量子化部２０６に出力される。ＬＳＰ分析部２０５で生成されたＬＳＰ２は、ＬＳＰ量子化部２０７に出力される。

　ＬＳＰ量子化部２０６及びＬＳＰ量子化部２０７は、ＬＳＰ１及びＬＳＰ２をそれぞれ独立に量子化し、各ＬＳＰの符号（ＬＳＰ１符号及びＬＳＰ２符号）を得る。ＬＳＰ１符号及びＬＳＰ２符号は、ＬＳＰ符号としてＣＥＬＰ符号化装置１００の外部に出力される。また、ＬＳＰ１符号及びＬＳＰ２符号は、それぞれＬＳＰ復号部２０８及びＬＳＰ復号部２０９に入力される。

　ＬＳＰ復号部２０８は、ＬＳＰ１符号を復号し、更に、声道を分断したときの開口部側の音響管を表す２つの多項式を求める。

　ＬＳＰ復号部２０９は、ＬＳＰ２符号を復号し、更に、声道を分断したときの声帯側の音響管を表す２つの多項式を求める。

　多項式復号部２１０は、ＬＳＰ復号部２０９で求めた２つの多項式を用いて、２次の正方行列を求める。

　全体復号部２１１は、多項式復号部２１０で求めた正方行列を、ＬＳＰ復号部２０８で求めた多項式に乗ずることにより、全体のフィルタ（全極型フィルタ）の多項式（合成フィルタのフィルタ係数）を求め、量子化ＬＰＣパラメータとしてＬＰＣ合成フィルタ１０９へ出力する。

　上述の、２つのＬＳＰ符号を入力してフィルタ係数である量子化ＬＰＣパラメータを出力する、という構成は、後述する逆量子化装置（ＣＥＬＰ復号装置３００のＬＰＣ逆量子化部３０１）と同様である。よって、この構成に関する詳細な説明は後述する。

　このようにして、符号化器側では、声道を分断した際の声帯側の部分及び開口部側の部分の双方でＬＳＰを用いてＶＱを行うことで少ない計算量で、かつ、精度の高い量子化を行うことができる。

　次に、本実施の形態に係るＣＥＬＰ復号装置３００について説明する。図３は、本実施の形態に係るＣＥＬＰ復号装置３００の主要な構成を示すブロック図である。

　図３において、ＣＥＬＰ復号装置３００には、ＣＥＬＰ符号化装置１００（図１）から伝送される情報が入力される。この情報には、ＬＳＰ符号（例えば、ＬＳＰ１符号及びＬＳＰ２符号）及び符号化情報が含まれる。また、符号化情報には、ＣＥＬＰ符号化装置１００において符号化歪みが最小となるような、適応符号帳１０３、固定符号帳１０４及びゲイン符号帳１０５の各インデックスが（符号）含まれる。

　ＬＰＣ逆量子化部３０１は、逆量子化装置として機能し、入力されるＬＳＰ符号を逆量子化して、量子化ＬＰＣパラメータを得て、量子化ＬＰＣパラメータをフィルタ係数としてＬＰＣ合成フィルタ３０８に出力する。

　適応符号帳３０２は、入力される符号化情報により特定される切り出し位置から１フレーム分のサンプルをバッファより切り出し、切り出した音源ベクトルを適応符号帳ベクトルとして乗算器３０５に出力する。ここで、適応符号帳３０２は、加算器３０７から駆動音源が入力されるたびにバッファの内容を更新する。

　ゲイン符号帳３０３は、入力される符号化情報が示す適応符号帳ゲインと固定符号帳ゲインとを特定し、適応符号帳ゲインを乗算器３０５に出力し、固定符号帳ゲインを乗算器３０６に出力する。

　固定符号帳３０４は、入力される符号化情報が示す音源ベクトルを固定符号帳ベクトルとして乗算器３０６に出力する。

　乗算器３０５は、適応符号帳３０２から入力される適応符号帳ベクトルに、ゲイン符号帳３０３から入力される適応符号帳ゲインを乗じて加算器３０７に出力する。

　乗算器３０６は、固定符号帳３０４から入力される固定符号帳ベクトルに、ゲイン符号帳３０３から入力される固定符号帳ゲインを乗じて加算器３０７に出力する。

　加算器３０７は、乗算器３０５から入力されるゲイン乗算後の適応符号帳ベクトルと、乗算器３０６から入力されるゲイン乗算後の固定符号帳ベクトルとを加算して駆動音源を生成する。そして、加算器３０７は、生成された駆動音源をＬＰＣ合成フィルタ３０８及び適応符号帳３０２に出力する。ここで、適応符号帳３０２に入力される駆動音源は、適応符号帳３０２のバッファに記憶される。

　ＬＰＣ合成フィルタ３０８は、加算器３０７から入力される駆動音源と、ＬＰＣ逆量子化部３０１で復号されたフィルタ係数とを用いて合成処理を行い、生成される合成信号を音声信号として出力する。

　次に、図４は、本実施の形態に係る逆量子化装置である、ＬＰＣ逆量子化部３０１の内部構成を示すブロック図である。

　図４において、ＬＳＰ復号部４０１は、符号化器側から入力されるＬＳＰ符号の中からＬＳＰ１に関わる部分の符号（ＬＳＰ１符号）を復号し、更に、声道を分断したときの開口部側の音響管を表す２つの多項式（Ａ_Ｍ（ｚ），Ｂ_Ｍ（ｚ））を求める。

　ＬＳＰ復号部４０２は、符号化器側から入力されるＬＳＰ符号の中からＬＳＰ２に関わる部分の符号（ＬＳＰ２符号）を復号し、更に、声道を分断したときの声帯側の音響管を表す２つの多項式（式（４）に示すＱ（ｚ），Ｓ（ｚ））を求める。

　多項式復号部４０３は、ＬＳＰ復号部４０２で求めたＱ（ｚ），Ｓ（ｚ）を用いて、式（３）に示す多項式を要素とした２次の正方行列を求める。

　全体復号部４０４は、多項式復号部４０３で求めた正方行列を、ＬＳＰ復号部４０１で求めた多項式に乗ずることにより、全体のフィルタ（全極型フィルタ）の多項式（合成フィルタ）を求める。

　ただし、多項式復号部４０３においてＱ（ｚ），Ｓ（ｚ）を用いて正方行列を求める方法としては、Ｑ（ｚ），Ｓ（ｚ）を合成フィルタの式として、音響管のステップダウン過程（例えば、マーケル、グレイ共著、鈴木訳「音声の線形予測」、5.2.2章、pp.114-117、1978年11月、コロナ社）を適用することによって実現できる。すなわち、２つの多項式から再帰的に反射係数を１つずつ求めていくことができる。そして、求められた反射係数ｋと変数ｚ^－１の正方行列とを最後に掛け合わせることによって２次の正方行列が求められる。そして、全体復号部４０４では、上記２次の正方行列と多項式（Ａ_Ｍ（ｚ），Ｂ_Ｍ（ｚ））とを掛けることによって、全体の多項式（合成フィルタ）を求めることができる。ステップダウン過程の適用については、符号化器側で、反射係数から求められた多項式を量子化してＬＳＰ２を求めたことを考慮すると、理論的には適用可能であることは明らかであるので、その証明を省略する。

　このように、復号器側では、音響管モデルによる声道を分断した各部分で得られた各ＬＳＰ符号を逆量子化した後に、元の１つの全極型フィルタの多項式に戻す。

　以上のように、本実施の形態では、符号化器側においてＬＰＣ分析を行う際、音響管としての声道を物理的に分断した場合と等価のパラメータ分析を行う。また、符号化器側では、分析されたパラメータの内、開口部に近い部分からＬＳＰ１を抽出し、声帯に近い部分に対しては、その分断された音響管の切り口における条件として開口部と同様の条件を適用する。これによって、フィルタを表し、多項式が要素である正方行列を、２つの多項式が要素であるベクトルに変換する。この２つの多項式は、開口部から声帯（声門）までのパラメータ分析を表す式と、逆の関係となる式となるので、開口部に近い部分と同様にして、２つの多項式からＬＳＰ２を抽出する。そして、２つのＬＳＰ（ＬＳＰ１、ＬＳＰ２）をそれぞれ独立に量子化する。

　すなわち、声道を物理的に分断するのと等価な分析により、音韻情報を表す部分（開口部に近い部分）と、個人性を表す部分（声帯に近い部分）とに分けることができ、それぞれから相互相関の低いパラメータを抽出することができる。更に、それぞれのパラメータに対して効率が良いパラメータ抽出及び量子化（例えば、ＬＳＰ及びＩＳＰ等による量子化）を適用できる。よって、本実施の形態によれば、スプリットＶＱにおいて分割された各ベクトルにおいて、量子化効率が良いＬＳＰ又はＩＳＰを用いることで、従来のスプリットＶＱよりも少ない計算量で、かつ、量子化性能の良い量子化を実現できる。

　なお、上記実施の形態では、声道を２分割する場合について説明したが、これに限らず、声道を何分割にでも容易に分割する場合にも本発明を適用することができる。例えば、声帯に近い部分（範囲）で求められた反射係数を纏めて多項式を作ることで、当該範囲における音響管の量子化を行うことができる。これより、声道をいくつにでも分割できることになる。すなわち、式（３）に示す反射係数ｋと変数ｚ^－１とから成る正方行列を、声道の分割単位毎に部分集合に分けて掛け合わせるだけで、声道を分断した各フィルタの他項式が得られる。

　また、上記実施の形態ではＣＥＬＰを用いた場合を一例として説明したが、ＣＥＬＰに限らず、ベクトル量子化を用いたスペクトルの量子化方法であれば本発明を適用することができる。例えば、ＭＤＣＴ（Modified Discrete Cosine Transform）又はＱＭＦ（Quadrature Mirror Filter）を用いたスペクトル量子化方法に対して本発明を適用してもよい。また、帯域拡張技術における低周波数領域のスペクトルの中から類似するスペクトル形状を探索するアルゴリズムに対して本発明を適用することで、そのアルゴリズムの計算量削減に応用することもできる。つまり、本発明はＬＰＣ分析を用いる符号化方式の全てに適用することができる。

　また、上記実施の形態では、音声信号をＬＳＰに変換して符号化する場合について説明したが、音声信号を、ＩＳＰ及びＰＡＲＣＯＲ等を混在させたパラメータに変換して符号化する場合でも本発明は有効であることは明らかである。これは、上記実施の形態におけるＬＳＰ量子化の代わりに別の量子化法を用いればよいからである。つまり、本発明の本質は、声道の分断、及び、各パラメータを独立に符号化することにあり、パラメータの符号化形態には依存しないからである。

　また、上記実施の形態では、線形予測係数を求める方法として、自己相関係数を用いたが、これに限定されない。例えば、共分散を用いた共分散法により線形予測係数を求めることも可能である。

　また、上記実施の形態では、装置に入力される信号として音声信号を用いて説明したが、音楽信号、音響信号、等の種々の信号を用いても本発明は実現可能である。

　また、上記実施の形態においては、ハードウェアで構成する場合を例に説明したが、本発明はこれに限らず、ハードウェアとの連係においてソフトウェアでも実現することも可能である。例えば、本発明に係るアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置等と同様の機能を実現することができる。

　また、上記実施の形態の各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。ここで、ＬＳＩは、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩまたはウルトラＬＳＩ等と呼称されることもある。

　また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）、または、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブルプロセッサを利用しても良い。

　さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。

　２０１０年１０月２２日出願の特願２０１０－２３７４２１の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

　本発明にかかる音声分析装置、量子化装置、逆量子化装置、及びこれらの方法は、特にＣＥＬＰを用いた音声コーデックに好適である。

　１００　ＣＥＬＰ符号化装置
　１０１　ＬＰＣ分析部
　１０２　ＬＰＣ量子化部
　１０３、３０２　適応符号帳
　１０４、３０４　固定符号帳
　１０５、３０３　ゲイン符号帳
　１０６、１０７、３０５、３０６　乗算器
　１０８、１１０、３０７　加算器
　１０９、３０８　ＬＰＣ合成フィルタ
　１１１　聴感重み付け部
　１１２　歪み最小化部
　２０１、２０３　パラメータ分析部
　２０２、２０５　ＬＳＰ分析部
　２０４　多項式抽出部
　２０６、２０７　ＬＳＰ量子化部
　３００　ＣＥＬＰ復号装置
　３０１　ＬＰＣ逆量子化部
　２０８、２０９、４０１、４０２　ＬＳＰ復号部
　２１０、４０３　多項式復号部
　２１１、４０４　全体復号部

Claims

　音声信号を分析して、次数１から次数Ｎ（ただし、Ｎは２以上の整数）までのＮ次のフィルタのフィルタ係数を表すパラメータを決定する音声分析装置であって、
　前記音声信号に対するパラメータ分析を行って、次数１から次数Ｍ（ただし、Ｍ＜Ｎ、Ｍは正の整数）までの線形予測係数を得る第１分析手段と、
　前記線形予測係数を変換して第１のパラメータを得る第２分析手段と、
　前記線形予測係数を用いたパラメータ分析を行って、次数（Ｍ＋１）から次数Ｎまでの反射係数を算出し、前記反射係数を用いた行列の計算により、多項式を要素とする正方行列を得る第３分析手段と、
　前記正方行列に対して所定のベクトルを乗ずることで、前記正方行列を、２つの多項式を要素とするベクトルに変換する変換手段と、
　前記２つの多項式を用いた方程式から第２のパラメータを算出する第４分析手段と、
　を具備する音声分析装置。
　前記Ｎ次のフィルタは、
　音響管としてモデル化され、且つ、開口部を次数１とし、声帯を次数Ｎとする、声道の特性を表すように設計された、
　請求項１記載の音声分析装置。
　請求項１記載の音声分析装置と、
　前記第１のパラメータを量子化して第１の符号を得る第１量子化手段と、
　前記第２のパラメータを量子化して第２の符号を得る第２量子化手段と、
　を具備する量子化装置。
　請求項３記載の量子化装置により生成された、前記第１の符号と前記第２の符号とを入力して逆量子化する逆量子化装置であって、
　前記第１の符号を復号するとともに、次数１から次数Ｍまでのフィルタ特性を表す２つの多項式を要素とする第１復号ベクトルを生成する第１復号手段と、
　前記第２の符号を復号するとともに、次数（Ｍ＋１）から次数Ｎまでのフィルタ特性を表す２つの多項式を要素とする第２復号ベクトルを生成する第２復号手段と、
　前記第２復号ベクトルを用いて多項式を要素とする復号正方行列を得る行列生成手段と、
　前記第１復号ベクトルに対して前記復号正方行列を乗ずることにより、前記Ｎ次のフィルタのフィルタ係数を求める全体復号手段と、
　を具備する逆量子化装置。
　音声信号を分析して、次数１から次数Ｎ（ただし、Ｎは２以上の整数）までのＮ次のフィルタのフィルタ係数を表すパラメータを決定する音声分析方法であって、
　前記音声信号に対するパラメータ分析を行って、次数１から次数Ｍ（ただし、Ｍ＜Ｎ、Ｍは正の整数）までの線形予測係数を得る第１分析ステップと、
　前記線形予測係数を変換して第１のパラメータを得る第２分析ステップと、
　前記線形予測係数を用いたパラメータ分析を行って、次数（Ｍ＋１）から次数Ｎまでの反射係数を算出し、前記反射係数を用いた行列の計算により、多項式を要素とする正方行列を得る第３分析ステップと、
　前記正方行列に対して所定のベクトルを乗ずることで、前記正方行列を、２つの多項式を要素とするベクトルに変換する変換ステップと、
　前記２つの多項式を用いた方程式から第２のパラメータを算出する第４分析ステップと、
　を具備する音声分析方法。
　請求項５記載の音声分析方法により得られた前記第１のパラメータを量子化して第１の符号を得る第１量子化ステップと、
　前記請求項５記載の音声分析方法により得られた前記第２のパラメータを量子化して第２の符号を得る第２量子化ステップと、
　を具備する量子化方法。
　請求項６記載の量子化方法により得られた、前記第１の符号と前記第２の符号とを入力して逆量子化する逆量子化方法であって、
　前記第１の符号を復号するとともに、次数１から次数Ｍまでのフィルタ特性を表す２つの多項式を要素とする第１復号ベクトルを生成する第１復号ステップと、
　前記第２の符号を復号するとともに、次数（Ｍ＋１）から次数Ｎまでのフィルタ特性を表す２つの多項式を要素とする第２復号ベクトルを生成する第２復号ステップと、
　前記第２復号ベクトルを用いて多項式を要素とする復号正方行列を得る行列生成ステップと、
　前記第１復号ベクトルに対して前記復号正方行列を乗ずることにより、前記Ｎ次のフィルタのフィルタ係数を求める全体復号ステップと、
　を具備する逆量子化方法。