JPWO2010098130A1

JPWO2010098130A1 - トーン判定装置およびトーン判定方法

Info

Publication number: JPWO2010098130A1
Application number: JP2011501521A
Authority: JP
Inventors: 佐藤　薫; 薫佐藤; 利幸森井; 江原　宏幸; 宏幸江原
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2009-02-27
Filing date: 2010-02-26
Publication date: 2012-08-30
Also published as: MX2011008605A; WO2010098130A1; CN102334156A; KR20110132339A; EP2402938A1; RU2011135735A; US20110301946A1; BRPI1008915A2

Abstract

現フレームの周波数成分と前フレームの周波数成分との相関により入力信号のトーン性を判定するトーン判定装置において、計算量を低減させることができるトーン判定装置。この装置において、ベクトル結合部（１０４）は、前フレームのＳＤＦＴ係数の一部と、前フレームのダウンサンプリング後のＳＤＦＴ係数の一部とを結合して新たなＳＤＦＴ係数を生成するとともに、現フレームのＳＤＦＴ係数の一部と、現フレームのダウンサンプリング後のＳＤＦＴ係数の一部とを結合して新たなＳＤＦＴ係数を生成し、相関分析部（１０５）は、ＳＤＦＴ係数のフレーム間での相関を求めるとともに、現フレームのパワーを一定の帯域毎に求め、帯域決定部（１０６）は、パワーが最大となる帯域を決定し、決定した帯域の位置情報をシフト情報として出力し、トーン判定部（１０７）は、相関分析部（１０５）から入力される相関の値に応じて入力信号のトーン性を判定する。

Description

本発明は、トーン判定装置およびトーン判定方法に関する。

ディジタル無線通信や、インターネット通信に代表されるパケット通信、または、音声蓄積などの分野においては、電波などの伝送路の容量や記憶媒体の有効利用を図るため、音声信号の符号化／復号化技術が不可欠であり、これまでに多くの音声符号化／復号化方式が開発されてきた。その中で、ＣＥＬＰ（Code Excited Linear Prediction）方式の音声符号化／復号化方式が主流の方式として実用化されている。

ＣＥＬＰ方式の音声符号化装置は、予め記憶された音声モデルに基づいて入力音声をコード化する。具体的には、ＣＥＬＰ方式の音声符号化装置は、ディジタル化された音声信号を１０〜２０ｍｓ程度のフレームに区切り、フレーム毎に音声信号の線形予測分析を行い、線形予測係数と線形予測残差ベクトルを求め、線形予測係数と線形予測残差ベクトルをそれぞれ個別に符号化する。

また、入力信号に応じてビットレートを変更する可変レート符号化装置も実現されている。可変レート符号化装置では、入力信号が主に音声情報を多く含む場合には高いビットレートで入力信号を符号化し、入力信号が主に雑音情報を多く含む場合には低いビットレートで入力信号を符号化することが可能である。すなわち、重要な情報を多く含む場合には高品質な符号化により、復号化装置側で再生される出力信号の高品質化を図る一方で、重要性が低い場合には低品質な符号化に抑えることにより、電力、伝送帯域等を節約することができる。このように、入力信号の特徴（例えば、有声性、無声性、トーン性等）を検出し、検出結果に応じて符号化方法を変更することにより、入力信号の特徴に適した符号化を行うことができ、符号化性能を向上させることができる。

入力信号が音声情報であるか、雑音情報であるかを分類する方法としてＶＡＤ（Voice Active Detector）がある。具体的には、（１）入力信号を量子化してクラス分類を行い、クラス情報から音声情報／雑音情報を分類する方法、（２）入力信号の基本周期を求め、基本周期の長さだけ遡った信号と現信号との相関の高さに応じて音声情報／雑音情報を分類する方法、（３）入力信号の周波数成分の時間変動を調べ、変動情報に応じて音声情報／雑音情報を分類する方法等がある。

また、ＳＤＦＴ（Shifted Discrete Fourier Transform）により入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との相関の高さに応じて入力信号のトーン性を分類する技術がある（例えば、特許文献１）。上記特許文献１開示の技術では、トーン性に応じて周波数帯域拡張の方法を切り替えることにより、符号化性能の向上を図っている。

国際公開第２００７／０５２０８８号

しかしながら、上記特許文献１開示のようなトーン判定装置、すなわち、ＳＤＦＴにより入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との相関により入力信号のトーン性を検出するトーン判定装置においては、すべての周波数帯域を考慮して相関を求めているため、計算量が大きくなってしまうという課題があった。

本発明の目的は、入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との相関により入力信号のトーン性を判定するトーン判定装置およびトーン判定方法において、計算量を低減させることである。

本発明のトーン判定装置は、周波数変換された入力信号のベクトル系列長を短縮する短縮処理を行う短縮手段と、ベクトル系列長短縮後のベクトル系列を用いて相関を求める相関手段と、前記相関を用いて前記入力信号のトーン性を判定する判定手段と、を具備する構成を採る。

本発明によれば、トーン判定に要する計算量を低減させることができる。

本発明の実施の形態１に係るトーン判定装置の主要な構成を示すブロック図本発明の実施の形態１に係るＳＤＦＴ係数の結合処理の様子を表す図本発明の実施の形態１に係る相関分析部の内部構成を示すブロック図本発明の実施の形態１に係る帯域決定部の内部構成を示すブロック図本発明の実施の形態２に係るトーン判定装置の主要な構成を示すブロック図本発明の実施の形態２に係るＳＤＦＴ係数の分割処理およびダウンサンプリング処理の様子を表す図本発明の実施の形態３に係る符号化装置の主要な構成を示すブロック図本発明の実施の形態４に係るトーン判定装置の主要な構成を示すブロック図本発明の実施の形態４に係るＳＤＦＴ係数の結合処理の様子を表す図本発明の実施の形態５に係る符号化装置の主要な構成を示すブロック図

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

（実施の形態１）
図１は、本実施の形態に係るトーン判定装置１００の主要な構成を示すブロック図である。ここでは、トーン判定装置１００が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。入力信号は、音声信号であっても楽音信号であってもよい。

図１において、周波数変換部１０１は、ＳＤＦＴを用いて入力信号の周波数変換を行い、周波数変換により求められる周波数成分であるＳＤＦＴ係数をダウンサンプリング部１０２とバッファ１０３とに出力する。

ダウンサンプリング部１０２は、周波数変換部１０１から入力されるＳＤＦＴ係数に対してダウンサンプリング処理を行い、ＳＤＦＴ係数の系列長を短縮する。次いで、ダウンサンプリング部１０２は、ダウンサンプリング後のＳＤＦＴ係数をバッファ１０３に出力する。

バッファ１０３は、前フレームのＳＤＦＴ係数と、前フレームのダウンサンプリング後のＳＤＦＴ係数とを内部に格納しており、これら２つのＳＤＦＴ係数をベクトル結合部１０４に出力する。次いで、バッファ１０３は、周波数変換部１０１から現フレームのＳＤＦＴ係数を入力されるとともに、ダウンサンプリング部１０２から現フレームのダウンサンプリング後のＳＤＦＴ係数を入力され、これらの２つのＳＤＦＴ係数をベクトル結合部１０４に出力する。次いで、バッファ１０３は、内部に格納されている前フレームの上記２つのＳＤＦＴ係数（前フレームのＳＤＦＴ係数と、前フレームのダウンサンプリング後のＳＤＦＴ係数）と、現フレームの上記２つのＳＤＦＴ係数（現フレームのＳＤＦＴ係数と、現フレームのダウンサンプリング後のＳＤＦＴ係数）とをそれぞれ入れ替えることにより、ＳＤＦＴ係数を更新する。

ベクトル結合部１０４は、バッファ１０３から前フレームのＳＤＦＴ係数と、前フレームのダウンサンプリング後のＳＤＦＴ係数と、現フレームのＳＤＦＴ係数と、現フレームのダウンサンプリング後のＳＤＦＴ係数とを入力されるとともに、帯域決定部１０６からシフト情報を入力される。次いで、ベクトル結合部１０４は、前フレームのＳＤＦＴ係数の一部と、前フレームのダウンサンプリング後のＳＤＦＴ係数の一部とを結合して新たなＳＤＦＴ係数（前フレーム結合ＳＤＦＴ係数）を生成し、この新たなＳＤＦＴ係数を相関分析部１０５に出力する。また、ベクトル結合部１０４は、現フレームのＳＤＦＴ係数の一部と、現フレームのダウンサンプリング後のＳＤＦＴ係数の一部とを結合して新たなＳＤＦＴ係数（現フレーム結合ＳＤＦＴ係数）を生成し、この新たなＳＤＦＴ係数を相関分析部１０５に出力する。この際、どのように結合するのかは、上記シフト情報に応じて決定される。

相関分析部１０５は、ベクトル結合部１０４から前フレーム結合ＳＤＦＴ係数と、現フレーム結合ＳＤＦＴ係数とを入力され、ＳＤＦＴ係数のフレーム間での相関を求め、求めた相関をトーン判定部１０７に出力する。また、相関分析部１０５は、現フレームのパワーを一定の帯域毎に求め、現フレームの帯域毎のパワーをパワー情報として帯域決定部１０６に出力する。上記パワーは、相関を求める過程で得られる付随的な二次生成物であるため、パワーを求めるための計算を別途行う必要は無い。

帯域決定部１０６は、パワーが最大となる帯域は入力信号のトーン性の判定において重要な帯域であるため、相関分析部１０５から入力されるパワー情報を用いてパワーが最大となる帯域を決定し、決定した帯域の位置情報をシフト情報としてベクトル結合部１０４に出力する。

トーン判定部１０７は、相関分析部１０５から入力される相関の値に応じて入力信号のトーン性を判定する。次いで、トーン判定部１０７は、トーン判定装置１００の出力としてトーン情報を出力する。

次に、トーン判定対象となる入力信号の次数が２Ｎ次（Ｎは１以上の整数）である場合を例にとって、トーン判定装置１００の動作について説明する。なお、以下の説明では、入力信号をｘ（ｉ）（ｉ＝０，１，…，２Ｎ−１）と記す。

周波数変換部１０１は、入力信号ｘ（ｉ）（ｉ＝０，１，…，２Ｎ−１）を入力され、下記の式（１）に従って周波数変換を行い、得られたＳＤＦＴ係数Ｙ（ｋ）（ｋ＝０，１，…，Ｎ）をダウンサンプリング部１０２とバッファ１０３とに出力する。

ここで、ｈ（ｎ）は窓関数であり、ＭＤＣＴ窓関数等が使用される。また、ｕは時間シフトの係数、ｖは周波数シフトの係数であり、例えば、ｕ＝（Ｎ＋１）／２、ｖ＝１／２のように設定される。

ダウンサンプリング部１０２は、周波数変換部１０１からＳＤＦＴ係数Ｙ（ｋ）（ｋ＝０，１，…，Ｎ）を入力され、下記の式（２）に従ってダウンサンプリング処理を行う。

ここで、ｎ＝ｍ×２が成り立ち、ｍは１からＮ／２−１までの値をとる。ｍ＝０の場合は、ダウンサンプリングを行わずにＹ＿ｒｅ（０）＝Ｙ（０）としてもよい。ここで、フィルタ係数［ｊ０，ｊ１，ｊ２，ｊ３］には折り返し歪みが生じないように設計された低域通過フィルタ係数を設定する。例えば、入力信号のサンプリング周波数が３２０００Ｈｚであるとき、ｊ０＝０.１９５、ｊ１＝０.３、ｊ２＝０.３、ｊ３＝０.１９５に設定すると良好な結果が得られることが判っている。

次いで、ダウンサンプリング部１０２は、ダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｒｅ（ｋ）（ｋ＝０，１，…，Ｎ／２−１）をバッファ１０３に出力する。

バッファ１０３は、周波数変換部１０１からＳＤＦＴ係数Ｙ（ｋ）（ｋ＝０，１，…，Ｎ）を入力されるとともに、ダウンサンプリング部１０２からダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｒｅ（ｋ）（ｋ＝０，１，…，Ｎ／２−１）を入力される。次いで、バッファ１０３は、内部に格納されている前フレームのＳＤＦＴ係数Ｙ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｎ）と、前フレームのダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｒｅ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｎ／２−１）とをベクトル結合部１０４に出力する。次いで、バッファ１０３は、現フレームのＳＤＦＴ係数Ｙ（ｋ）（ｋ＝０，１，…，Ｎ）と、現フレームのダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｒｅ（ｋ）（ｋ＝０，１，…，Ｎ／２−１）とをベクトル結合部１０４に出力する。次いで、バッファ１０３は、現フレームのＳＤＦＴ係数Ｙ（ｋ）（ｋ＝０，１，…，Ｎ）をＹ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｎ）として内部に格納し、現フレームのダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｒｅ（ｋ）（ｋ＝０，１，…，Ｎ／２−１）をＹ＿ｒｅ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｎ／２−１）として内部に格納する。すなわち、現フレームのＳＤＦＴ係数と前フレームのＳＤＦＴ係数とを入れ替えることにより、バッファの更新を行う。

ベクトル結合部１０４は、バッファ１０３から現フレームのＳＤＦＴ係数Ｙ（ｋ）（ｋ＝０，１，…，Ｎ）と、現フレームのダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｒｅ（ｋ）（ｋ＝０，１，…，Ｎ／２−１）と、前フレームのＳＤＦＴ係数Ｙ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｎ）と、前フレームのダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｒｅ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｎ／２−１）とを入力されるとともに、帯域決定部１０６からシフト情報ＳＨを入力される。次いで、ベクトル結合部１０４は、下記の式（３）に従って現フレームのＳＤＦＴ係数の結合を行う。

同様に、ベクトル結合部１０４は、下記の式（４）に従って前フレームのＳＤＦＴ係数の結合を行う。

ここで、ＬＨは、結合に用いるＳＤＦＴ係数Ｙ（ｋ）（ｋ＝０，１，…，Ｎ）の長さ、または、結合に用いるＹ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｎ）の長さである。

ベクトル結合部１０４での上記の結合処理の様子を表すと図２に示すようになる。

図２に示すように、結合後のＳＤＦＴ係数には基本的にダウンサンプリング後のＳＤＦＴ係数（（１）と（３））が用いられ、シフト情報ＳＨを先頭として長さＬＨの範囲に相当するＳＤＦＴ係数（（２））が、（１）と（２）の間に挿入されて結合が行われる。図２の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲同士を表している。すなわち、図２に示すように、シフト情報ＳＨとは、ＳＤＦＴ係数Ｙ（ｋ）（ｋ＝０，１，…，Ｎ）またはＳＤＦＴ係数Ｙ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｎ）を、どの周波数帯域から抜き出すのかを指示する値である。ここで、抜き出す範囲の長さであるＬＨは、定数として適した値を予め設定しておく。ＬＨを長くすると結合後のＳＤＦＴ係数が長くなるため、後の相関を求める処理において計算量が大きくなる一方で、求める相関がより正確になる。従って、計算量と相関の正確さとのトレードオフを考慮して、ＬＨを決めるとよい。また、ＬＨを適応的に変化させることも可能である。

次いで、ベクトル結合部１０４は、現フレームの結合後のＳＤＦＴ係数Ｙ＿ｃｏ（ｋ）（ｋ＝０，１，…，Ｋ）と、前フレームの結合後のＳＤＦＴ係数Ｙ＿ｃｏ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｋ）とを相関分析部１０５に出力する。ここで、Ｋ＝（Ｎ＋ＬＨ）／２−１である。

図３は、本実施の形態に係る相関分析部１０５の内部構成を示すブロック図である。

図３において、誤差パワー計算部２０１は、ベクトル結合部１０４から現フレームの結合後のＳＤＦＴ係数Ｙ＿ｃｏ（ｋ）（ｋ＝０，１，…，Ｋ）と前フレームの結合後のＳＤＦＴ係数Ｙ＿ｃｏ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｋ）とを入力され、下記の式（５）に従って誤差パワーＳＳを求める。

次いで、誤差パワー計算部２０１は、求めた誤差パワーＳＳを除算部２０４に出力する。

パワー計算部２０２は、ベクトル結合部１０４から現フレームの結合後のＳＤＦＴ係数Ｙ＿ｃｏ（ｋ）（ｋ＝０，１，…，Ｋ）を入力され、下記の式（６）に従って、各ｋにおけるパワーＳＡ（ｋ）を求める。

次いで、パワー計算部２０２は、求めたパワーＳＡ（ｋ）をパワー情報として加算部２０３と帯域決定部１０６（図１）とに出力する。

加算部２０３は、パワー計算部からパワーＳＡ（ｋ）を入力され、下記の式（７）に従って、パワーＳＡ（ｋ）の総和であるパワーＳＡを求める。

次いで、加算部２０３は、求めたパワーＳＡを除算部２０４に出力する。

除算部２０４は、誤差パワー計算部２０１から誤差パワーＳＳを入力されるとともに、加算部２０３からパワーＳＡを入力される。次いで、除算部２０４は、下記の式（８）に従って、相関Ｓを求め、求めた相関Ｓを相関情報としてトーン判定部１０７（図１）に出力する。

図４は、本実施の形態に係る帯域決定部１０６の内部構成を示すブロック図である。

図４において、重み係数格納部３０１は、相関分析部１０５（図１）がパワー情報として出力するパワーＳＡ（ｋ）に乗算する重み係数Ｗ（ｋ）（ｋ＝０，１，…，Ｎ）を格納しており、この重み係数を長さＫに短縮してＷａ（ｋ）（ｋ＝０，１，…，Ｋ）として乗算部３０２に出力する。短縮の方法は、ｋ＜ＳＨまたはＳＨ＋ＬＨ−１＜ｋに相当する範囲において、Ｗ（ｋ）を１つおきに間引けばよい。ここで、重み係数Ｗ（ｋ）（ｋ＝０，１，…，Ｎ）を、低域の範囲では１.０に設定し、高域の範囲では０.９に設定する等して、低域の範囲をより重要視することが可能である。

乗算部３０２は、相関分析部１０５（図１）からパワー情報としてパワーＳＡ（ｋ）を入力されるとともに、重み係数格納部３０１から重み係数Ｗａ（ｋ）（ｋ＝０，１，…，Ｋ）を入力される。次いで、乗算部３０２は、下記の式（９）に従って、重み係数を乗じた重み付きパワーＳＷ（ｋ）（ｋ＝０，１，…，Ｋ）を求め、この重み付きパワーを最大パワー探索部３０３に出力する。

また、重み係数格納部３０１および乗算部３０２による重み付け処理を省くことも可能である。重み付け処理を省くことにより、式（９）に必要な乗算を無くすることができ、更なる計算量削減が可能となる。

最大パワー探索部３０３は、乗算部３０２から重み付きパワーＳＷ（ｋ）（ｋ＝０，１，…，Ｋ）を入力され、すべてのｋの中から重み付きパワーＳＷ（ｋ）が最大となるｋを探し出し、探し出したｋをシフト数決定部３０４に出力する。

シフト数決定部３０４は、最大パワー探索部３０３から重み付きパワーＳＷ（ｋ）が最大となるｋを入力され、このｋに相当する周波数と一致するＳＨの値を求め、このＳＨの値をシフト情報としてベクトル結合部１０４（図１）に出力する。

図１に示すトーン判定部１０７は、相関分析部１０５から相関Ｓを入力され、相関Ｓの値に応じてトーン性を決定し、決定したトーン性をトーン情報として出力する。具体的には、トーン判定部１０７は、閾値Ｔと相関Ｓとを比較し、Ｔ＞Ｓが成り立つ場合は現フレームを「トーン」と判定し、成り立たない場合は現フレームを「非トーン」と判定すればよい。閾値Ｔの値は、学習により統計的に適した値を求めておけばよい。また、上記特許文献１に開示されている方法でトーン性を判定してもよい。また、複数の閾値を設定し、段階的にトーンの度合いを判定してもよい。

このように、本実施の形態によれば、相関を求める前にダウンサンプリングを行って処理フレーム（ベクトル系列）を短縮するため、相関の計算に用いる処理フレーム（ベクトル系列）の長さが従来に比べて短くなる。よって、本実施の形態によれば、入力信号のトーン性の判定に要する計算量を低減することができる。

また、本実施の形態によれば、入力信号のトーン性を判定するために重要な区間（すなわち、入力信号のトーン性を判定するために重要な周波数帯域）ではダウンサンプリングを行わず、処理フレーム（ベクトル系列）を短縮せずにそのまま用いてトーン判定を行うため、トーン判定の性能劣化を抑えることができる。

なお、トーン判定によるトーン性の分類は通常２〜３種類程度（例えば、上記説明では「トーン」と「非トーン」の２種類）と少なく、細かい精度の判定結果が要求される訳ではない。よって、処理フレーム（ベクトル系列）を短縮しても、最終的に、処理フレーム（ベクトル系列）を短縮しないときと同様の分類結果に収束する可能性が高い。

また、入力信号のトーン性を判定するために重要な周波数帯域は、代表的には、周波数成分のパワーが大きな周波数帯域であると考えられる。よって、本実施の形態では、周波数成分のパワーが最も大きくなる周波数を探索し、次のフレームのトーン判定処理において、ダウンサンプリングを行わない範囲をパワーが最も大きい周波数近辺とした。これにより、トーン判定の性能劣化をさらに抑えることができる。なお、本実施の形態では、入力信号のトーン性の判定において、パワーが最大となる帯域を重要な周波数帯域と決定したが、パワーが予め設定された条件に該当する周波数帯域を重要な周波数帯域と決定すればよい。

（実施の形態２）
図５は、本実施の形態に係るトーン判定装置５００の主要な構成を示すブロック図である。ここでは、トーン判定装置５００が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。なお、図５において、図１（実施の形態１）と同一の構成部には同一符号を付す。

図５において、周波数変換部１０１は、ＳＤＦＴを用いて入力信号の周波数変換を行い、周波数変換により求められたＳＤＦＴ係数をバーク尺度分割部５０１に出力する。

バーク尺度分割部５０１は、周波数変換部１０１から入力されるＳＤＦＴ係数を、バーク尺度に基づいて予め設定されている分割割合に従って分割し、分割されたＳＤＦＴ係数をダウンサンプリング部５０２に出力する。ここで、バーク尺度とは、Ｅ．ツヴィッカー（Zwicker,E.）により提案された音響心理学的尺度であり、人間の聴覚の臨界帯域（critical band）を求めたものである。バーク尺度分割部５０１における分割は、互いに隣接する２つの臨界帯域の境界に相当する周波数の値を用いて行うことができる。

ダウンサンプリング部５０２は、バーク尺度分割部５０１から入力される分割されたＳＤＦＴ係数に対してダウンサンプリング処理を行い、ＳＤＦＴ係数の系列長を短縮する。この際、ダウンサンプリング部５０２は、分割されたＳＤＦＴ係数毎に異なるダウンサンプリング処理を行う。次いで、ダウンサンプリング部５０２は、ダウンサンプリング後のＳＤＦＴ係数をバッファ５０３に出力する。

バッファ５０３は、前フレームのダウンサンプリング後のＳＤＦＴ係数を内部に格納しており、これを相関分析部５０４に出力する。また、バッファ５０３は、ダウンサンプリング部５０２から入力される、現フレームのダウンサンプリング後のＳＤＦＴ係数を相関分析部５０４に出力する。そして、バッファ５０３は、内部に格納されている前フレームのダウンサンプリング後のＳＤＦＴ係数と、新たに入力された現フレームのダウンサンプリング後のＳＤＦＴ係数とを入れ替えることにより、ＳＤＦＴ係数を更新する。

相関分析部５０４は、バッファ５０３から前フレームのＳＤＦＴ係数と、現フレームのＳＤＦＴ係数とを入力され、ＳＤＦＴ係数のフレーム間での相関を求め、求めた相関をトーン判定部１０７に出力する。

トーン判定部１０７は、相関分析部５０４から入力される相関の値に応じて入力信号のトーン性を判定する。次いで、トーン判定部１０７は、トーン判定装置５００の出力としてトーン情報を出力する。

次に、トーン判定対象となる入力信号の次数が２Ｎ次である場合を例にとって、図６を用いて、トーン判定装置５００の動作について説明する。

バーク尺度分割部５０１は、周波数変換部１０１からＳＤＦＴ係数Ｙ（ｋ）（ｋ＝０，１，…，Ｎ）を入力され、バーク尺度に基づいた分割割合でＳＤＦＴ係数Ｙ（ｋ）（ｋ＝０，１，…，Ｎ）を分割する。例えば、入力信号のサンプリング周波数が３２０００Ｈｚであるとき、バーク尺度分割部５０１は、下記の式（１０）に示すように、ＳＤＦＴ係数Ｙ（ｋ）（ｋ＝０，１，…，Ｎ）を、バーク尺度に基づく割合（ｂａ：ｂｂ：ｂｃ）で、Ｙ＿ｂ＿ａ（ｋ），Ｙ＿ｂ＿ｂ（ｋ），Ｙ＿ｂ＿ｃ（ｋ）の３つの区間に３分割することができる（図６）。

ここで、ｂａ＝ＩＮＴ（０.０５７５×Ｎ），ｂｂ＝ＩＮＴ（０.１９６９×Ｎ）−ｂａ，ｂｃ＝Ｎ−ｂｂ−ｂａである。また、ＩＮＴは、括弧内の計算結果の整数部分をとることを意味する。また、分割割合は、互いに隣接する２つの臨界帯域の境界に相当する周波数に基づいて、０〜９２０Ｈｚ，９２０〜３１５０Ｈｚ，３１５０〜１６０００Ｈｚの３帯域に分割する場合を一例として挙げている。この３帯域の割合は、（０.０５７５：０.１３９４：０.８０３１）となる。なお、分割数および分割割合は、こられの値に限られず、適宜変更してもよい。

次いで、バーク尺度分割部５０１は、分割されたＳＤＦＴ系列Ｙ＿ｂ＿ａ（ｋ）（ｋ＝０，１，…，ｂａ−１），Ｙ＿ｂ＿ｂ（ｋ）（ｋ＝０，１，…，ｂｂ−１），Ｙ＿ｂ＿ｃ（ｋ）（ｋ＝０，１，…，ｂｃ）をダウンサンプリング部５０２に出力する。

ダウンサンプリング部５０２は、バーク尺度分割部５０１から入力される分割されたＳＤＦＴ係数Ｙ＿ｂ＿ａ（ｋ）（ｋ＝０，１，…，ｂａ−１），Ｙ＿ｂ＿ｂ（ｋ）（ｋ＝０，１，…，ｂｂ−１），Ｙ＿ｂ＿ｃ（ｋ）（ｋ＝０，１，…，ｂｃ）に対して、下記の式（１１）に従ってダウンサンプリング処理を行う。

ここでは、ｎ＝ｍ×２が成り立ち、ｍは１からｂｂ／２−１までの値をとる。ｍ＝０の場合は、ダウンサンプリングを行わずにＹ＿ｂ＿ｂ＿ｒｅ（０）＝Ｙ＿ｂ＿ｂ（０）としてもよい。ここで、フィルタ係数［ｊ０，ｊ１，ｊ２，ｊ３］には、折り返し歪みが生じないように設計された低域通過フィルタ係数を設定する。

また、ここでは、ｓ＝ｒ×３が成り立ち、ｓは１からｂｃ／３−１までの値をとる。ｒ＝０の場合は、ダウンサンプリングを行わずにＹ＿ｂ＿ｃ＿ｒｅ（０）＝Ｙ＿ｂ＿ｃ（０）としてもよい。ここで、フィルタ係数［ｉ０，ｉ１，ｉ２，ｉ３］には、折り返し歪みが生じないように設計された低域通過フィルタ係数を設定する。

すなわち、ｂａ区間のＳＤＦＴ係数Ｙ＿ｂ＿ａ（ｋ）（ｋ＝０，１，…，ｂａ−１）についてはダウンサンプリングを行わずにそのままの値を残し、ｂｂ区間のＳＤＦＴ係数Ｙ＿ｂ＿ｂ（ｋ）（ｋ＝０，１，…，ｂｂ−１）についてはＳＤＦＴ係数の長さが２分の１となるようにダウンサンプリングを行い、ｂｃ区間のＳＤＦＴ係数Ｙ＿ｂ＿ｃ（ｋ）（ｋ＝０，１，…，ｂｃ）についてはＳＤＦＴ係数の長さが３分の１となるようにダウンサンプリングを行う（図６）。なお、図６の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲を表している。

このように、バーク尺度に従ってＳＤＦＴ係数を低域、中域、高域の３区間に分割し、低域の区間ではＳＤＦＴ係数をそのまま残し、中域の区間では２分の１にダウンサンプリングされたＳＤＦＴ係数を求め、高域の区間では３分の１にダウンサンプリングされたＳＤＦＴ係数を求める。これにより、音響心理的特性に基づいた尺度でＳＤＦＴ係数のサンプル数を減少させることができる。

なお、バーク尺度に基づいた分割個数は３個に限らず、２個または４個以上の分割数であってもよい。

また、ダウンサンプリングの方法も上記の方法に限らず、本発明が適用される形態に応じて適したダウンサンプリング方法を用いてもよい。

次いで、ダウンサンプリング部５０２は、ＳＤＦＴ係数Ｙ＿ｂ＿ａ（ｋ）（ｋ＝０，１，…，ｂａ−１）と、ダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｂ＿ｂ＿ｒｅ（ｋ）（ｋ＝０，１，…，ｂｂ／２−１），Ｙ＿ｂ＿ｃ＿ｒｅ（ｋ）（ｋ＝０，１，…，ｂｃ／３−１）と、をバッファ５０３に出力する。

バッファ５０３は、ダウンサンプリング部５０２からＳＤＦＴ係数Ｙ＿ｂ＿ａ（ｋ）（ｋ＝０，１，…，ｂａ−１）と、ダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｂ＿ｂ＿ｒｅ（ｋ）（ｋ＝０，１，…，ｂｂ／２−１），Ｙ＿ｂ＿ｃ＿ｒｅ（ｋ）（ｋ＝０，１，…，ｂｃ／３−１）と、を入力される。

次いで、バッファ５０３は、内部に格納されている前フレームのＳＤＦＴ係数Ｙ＿ｂ＿ａ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，ｂａ−１）と、前フレームのダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｂ＿ｂ＿ｒｅ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，ｂｂ／２−１），Ｙ＿ｂ＿ｃ＿ｒｅ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，ｂｃ／３−１）と、を相関分析部５０４に出力する。

次いで、バッファ５０３は、現フレームのＳＤＦＴ係数Ｙ＿ｂ＿ａ（ｋ）（ｋ＝０，１，…，ｂａ−１）と、現フレームのダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｂ＿ｂ＿ｒｅ（ｋ）（ｋ＝０，１，…，ｂｂ／２−１），Ｙ＿ｂ＿ｃ＿ｒｅ（ｋ）（ｋ＝０，１，…，ｂｃ／３−１）と、を相関分析部５０４に出力する。

次いで、バッファ５０３は、現フレームのＳＤＦＴ係数Ｙ＿ｂ＿ａ（ｋ）（ｋ＝０，１，…，ｂａ−１）をＹ＿ｂ＿ａ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，ｂａ−１）として内部に格納し、現フレームのダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｂ＿ｂ＿ｒｅ（ｋ）（ｋ＝０，１，…，ｂｂ／２−１），Ｙ＿ｂ＿ｃ＿ｒｅ（ｋ）（ｋ＝０，１，…，ｂｃ／３−１）をＹ＿ｂ＿ｂ＿ｒｅ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，ｂｂ／２−１），Ｙ＿ｂ＿ｃ＿ｒｅ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，ｂｃ／３−１）として内部に格納する。すなわち、バッファ５０３は、現フレームのＳＤＦＴ係数と前フレームのＳＤＦＴ係数とを入れ替えることにより、ＳＤＦＴ係数を更新する。

相関分析部５０４は、バッファ５０３から現フレームのＳＤＦＴ係数Ｙ＿ｂ＿ａ（ｋ）（ｋ＝０，１，…，ｂａ−１）と、現フレームのダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｂ＿ｂ＿ｒｅ（ｋ）（ｋ＝０，１，…，ｂｂ／２−１），Ｙ＿ｂ＿ｃ＿ｒｅ（ｋ）（ｋ＝０，１，…，ｂｃ／３−１）と、前フレームのＳＤＦＴ係数Ｙ＿ｂ＿ａ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，ｂａ−１）と、前フレームのダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｂ＿ｂ＿ｒｅ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，ｂｂ／２−１），Ｙ＿ｂ＿ｃ＿ｒｅ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，ｂｃ／３−１）と、を入力される。

次いで、相関分析部５０４は、下記の式（１２）〜（１４）に従って相関Ｓを求め、求めた相関Ｓを相関情報としてトーン判定部１０７に出力する。

ここで、式（１２）および式（１３）の第２項において、総和に対して２を乗算しているのはサンプル数が２分の１に減少されているからであり、また、式（１２）および式（１３）の第３項において、総和に対して３を乗算しているのはサンプル数が３分の１に減少されているからである。このように、ダウンサンプリングによりサンプル数が減少されている場合、それに応じた定数を乗ずることで、相関の計算に対する各項の寄与を一律にすることができる。

また、本実施の形態によれば、人間の音響心理的特性に基づいた尺度を用いて設定される割合で周波数成分を分割することにより、ダウンサンプリングによるサンプル数の減少の度合いを段階的に強めていくことができる。これにより、人間の音響心理的に重要度の低い区間では特にサンプル数を減少させることが可能となり、更なる計算量の低減が可能となる。

なお、本実施の形態では、ＳＤＦＴ係数を分割する際に用いる尺度としてバーク尺度を用いたが、人間の音響心理的特性に基づいた尺度で適切なものであれば、他の尺度を用いてもよい。

（実施の形態３）
図７は、本実施の形態に係る符号化装置４００の主要な構成を示すブロック図である。ここでは、符号化装置４００が、入力信号のトーン性を判定し、判定結果に応じて符号化方法を切り替える場合を例にとって説明する。

図７に示す符号化装置４００は、上記実施の形態１に係るトーン判定装置１００（図１）または上記実施の形態２に係るトーン判定装置５００（図５）を備える。

図７において、トーン判定装置１００，５００は、上記実施の形態１または上記実施の形態２において説明したように、入力信号からトーン情報を得る。次いで、トーン判定装置１００，５００は、トーン情報を選択部４０１に出力する。また、このトーン情報は、必要に応じて符号化装置４００の外部に出力してもよい。例えばこのトーン情報は、図示しない復号化装置において、復号化方法を切り替えるための情報として用いられる。図示しない復号化装置では、後述の選択部４０１が選択する符号化方法により生成される符号を復号化するために、選択された符号化方法に対応する復号化方法が選択される。

選択部４０１は、トーン判定装置１００，５００よりトーン情報を入力され、トーン情報に応じて入力信号の出力先を選択する。例えば、選択部４０１は、入力信号が「トーン」である場合には入力信号の出力先として符号化部４０２を選択し、入力信号が「非トーン」である場合には入力信号の出力先として符号化部４０３を選択する。符号化部４０２と符号化部４０３とは、互いに異なる符号化方法により入力信号を符号化するものである。よって、このような選択により、入力信号のトーン性に応じて、入力信号の符号化に用いる符号化方法を切り替えることができる。

符号化部４０２は、入力信号を符号化し、符号化により生成される符号を出力する。符号化部４０２に入力される入力信号は「トーン」であるため、符号化部４０２は、楽音の符号化に適している周波数変換符号化により入力信号を符号化する。

符号化部４０３は、入力信号を符号化し、符号化により生成される符号を出力する。符号化部４０３に入力される入力信号は「非トーン」であるため、符号化部４０３は、音声の符号化に適しているＣＥＬＰ符号化により入力信号を符号化する。

なお、符号化部４０２，４０３が符号化に用いる符号化方法は上記のものに限定されず、従来の符号化方法の中から最も適しているものを適宜用いてもよい。

また、本実施の形態では符号化部が２つである場合を一例として説明したが、互いに異なる符号化方法により符号化を行う符号化部が３つ以上あってもよい。この場合、段階的に判定されるトーンの度合いに応じて、３つ以上の符号化部のうちいずれかの符号化部を選択すればよい。

また、本実施の形態では入力信号が音声信号および／または楽音信号であるとして説明したが、本発明はその他の信号に対しても上記と同様にして実施することが可能である。

このようして、本実施の形態によれば、入力信号のトーン性に応じた最適な符号化方法により入力信号を符号化することができる。

（実施の形態４）
図８は、本実施の形態に係るトーン判定装置６００の主要な構成を示すブロック図である。ここでは、トーン判定装置６００が、入力信号のトーン性を判定し、判定結果を出力する場合を例にとって説明する。なお、図８において、図１（実施の形態１）と同一の構成部には同一符号を付し、その説明を省略する。

図８において、倍音成分算出部６０１は、後述する図１０に示すＣＥＬＰ符号化器７０２から入力されるピッチラグを用いて倍音成分を算出し、算出した倍音成分を示す情報（倍音成分情報）をベクトル結合部６０２に出力する。

ベクトル結合部６０２は、バッファ１０３から前フレームのＳＤＦＴ係数と、前フレームのダウンサンプリング後のＳＤＦＴ係数と、現フレームのＳＤＦＴ係数と、現フレームのダウンサンプリング後のＳＤＦＴ係数とを入力される。また、ベクトル結合部６０２は、倍音成分算出部６０１から倍音成分情報を入力される。次いで、ベクトル結合部６０２は、前フレームのＳＤＦＴ係数の一部と、前フレームのダウンサンプリング後のＳＤＦＴ係数の一部とを結合して新たなＳＤＦＴ係数を生成し、生成したＳＤＦＴ係数を相関分析部６０３に出力する。また、ベクトル結合部６０２は、現フレームのＳＤＦＴ係数の一部と、現フレームのダウンサンプリング後のＳＤＦＴ係数の一部とを結合して新たなＳＤＦＴ係数を生成し、生成したＳＤＦＴ係数を相関分析部６０３に出力する。この際、ベクトル結合部６０２がどのような結合を行うかは、倍音成分情報に応じて決定される。

相関分析部６０３は、ベクトル結合部６０２から前フレームの結合後のＳＤＦＴ係数と、現フレームの結合後のＳＤＦＴ係数とを入力され、ＳＤＦＴ係数のフレーム間での相関を求め、求めた相関をトーン判定部１０７に出力する。

トーン判定部１０７は、相関分析部６０３から相関を入力され、この相関の値に応じて入力信号のトーン性を判定する。次いで、トーン判定部１０７は、トーン判定装置６００の出力としてトーン情報を出力する。

次に、トーン判定対象となる入力信号の次数が２Ｎ次である場合を例にとって、図９を用いて、トーン判定装置６００の動作について説明する。

倍音成分算出部６０１は、後述する図１０に示すＣＥＬＰ符号化器７０２からピッチラグを入力する。ここで、ピッチラグとは、入力信号の基本となる周期（周波数）成分のことであり、時間領域では、ピッチ周期、基本周期等と呼ばれ、周波数領域では、ピッチ周波数、基本周波数等と呼ばれることもある。一般に、ＣＥＬＰ符号化器では、適応音源ベクトルを生成する際にピッチラグが求められる。適応音源ベクトルは、過去に生成された音源系列（適応音源符号帳）の中から、入力信号の周期的な成分として最も適切な部分をフレーム（サブフレーム）の長さだけ切り出されたものである。ピッチラグとは、現時刻から何サンプル遡って適応音源ベクトルを切り出すのかを指示する値であるとも言える。後述する図１０に示すように、符号化装置が、ＣＥＬＰ符号化を行った後にさらに高域の成分を符号化するような構成を採る場合、ＣＥＬＰ符号化器７０２内で求められるピッチラグをそのまま倍音成分算出部６０１に入力すればよく、ピッチラグを求めるための新たな処理を追加する必要はない。

次に、倍音成分算出部６０１は、入力されたピッチラグを用いて基本周波数を求める。例えば、入力が１６０００ＨｚであるＣＥＬＰ符号化器でピッチラグを求めている場合、下記の式（１５）により基本周波数Ｐを求めることができる。

ここで、ｐｌはピッチラグであり、適応音源符号帳から適応音源ベクトルを切り出す際の、切り出す部分の先頭位置に相当する。例えば、現時刻から４０サンプルだけ遡った位置から適応音源ベクトルが切り出された場合（ｐｌ＝４０）、式（１５）により、その基本周波数Ｐは４００Ｈｚであることがわかる。

次に、倍音成分算出部６０１は、基本周波数Ｐの整数倍（２×Ｐ，３×Ｐ，４×Ｐ，…）の倍音成分を求め、基本周波数Ｐと倍音成分情報とをベクトル結合部６０２に出力する。この際、倍音成分算出部６０１は、トーン判定に用いるＳＤＦＴ係数の周波数帯域に相当する倍音成分情報のみを出力すればよい。例えば、トーン判定に用いるＳＤＦＴ係数の周波数帯域が８０００〜１２０００Ｈｚであり、基本周波数Ｐが４００Ｈｚである場合、倍音成分算出部６０１は、周波数帯域８０００〜１２０００Ｈｚに含まれる倍音成分（８０００，８４００，８８００，…，１２０００）のみを出力すればよい。また、すべての倍音成分情報を出力するのではなく、周波数の低い方から数個のみ（例えば、８０００，８４００，８８００の３個のみ）に限定して出力してもよい。また、偶数番目の倍音成分情報（例えば、８０００，８８００，９６００，…）のみ、または、奇数番目の倍音成分情報（例えば、８４００，９２００，１００００，…）のみを出力するということも可能である。

また、倍音成分算出部６０１が出力する倍音成分情報はピッチラグｐｌの値に応じて一意に定まる。そこで、前もってすべてのピッチラグｐｌについて倍音成分情報を求めておきメモリに格納しておけば、倍音成分情報を求める上記のような処理を行わなくても、メモリを参照すれば出力すべき倍音成分情報がわかるので、倍音成分情報を求めるための計算量の増加を回避することができる。

ベクトル結合部６０２は、バッファ１０３から、現フレームのＳＤＦＴ係数Ｙ（ｋ）（ｋ＝０，１，…，Ｎ）と、現フレームのダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｒｅ（ｋ）（ｋ＝０，１，…，Ｎ／２−１）と、前フレームのＳＤＦＴ係数Ｙ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｎ）と、前フレームのダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｒｅ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｎ／２−１）とを入力されるとともに、倍音成分算出部６０１から倍音成分情報（Ｐ，２×Ｐ，３×Ｐ，…）を入力される。

次いで、ベクトル結合部６０２は、倍音成分情報を用いて現フレームのＳＤＦＴ係数の結合を行う。具体的には、ベクトル結合部６０２は、倍音成分に相当する周波数帯域の近傍ではダウンサンプリングしていないＳＤＦＴ係数を選び、倍音成分に相当しない周波数帯域ではダウンサンプリング後のＳＤＦＴ係数を選び、それらのＳＤＦＴ係数を結合させる。例えば、倍音成分情報として２×Ｐのみを入力され、２×Ｐの周波数に相当するＳＤＦＴ係数がＹ（ＰＨ）であり、Ｙ（ＰＨ）の近傍の範囲（長さＬＨ）においてはダウンサンプリングしていないＳＤＦＴ係数が選択される場合、ベクトル結合部６０２は、下記の式（１６）に従ってＳＤＦＴ係数の結合を行う。

同様に、ベクトル結合部６０２は、下記の式（１７）に従って前フレームのＳＤＦＴ係数の結合を行う。

ベクトル結合部６０２での上記の結合処理の様子を表すと図９に示すようになる。

図９に示すように、結合後のＳＤＦＴ係数には基本的にダウンサンプリング後のＳＤＦＴ係数（（１）と（３））が用いられ、倍音成分の周波数ＰＨを中心として長さＬＨの範囲に相当するＳＤＦＴ係数（（２））が（１）と（３）の間に挿入されて結合が行われる。図９の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲同士を表している。すなわち、図９に示すように、倍音成分の周波数ＰＨの近傍は重要であると考え、倍音成分の周波数ＰＨの近傍には、ダウンサンプリングしていないＳＤＦＴ係数をそのまま使うこととしている。ここで、抜き出す範囲の長さであるＬＨは、定数として適した値を予め設定しておく。ＬＨを長くすると結合後のＳＤＦＴ係数が長くなるため、後の相関を求める処理において計算量が大きくなるが、一方で、求める相関がより正確になる。従って、計算量と相関の正確さとのトレードオフを考慮して、ＬＨを決めるとよい。また、ＬＨを適応的に変化させることも可能である。

また、倍音成分情報として複数の倍音成分がベクトル結合部６０２に入力された場合、複数の倍音成分の周波数の近傍において、図９の（２）に示すように、ダウンサンプリングしていないＳＤＦＴ係数を複数抜き出して結合に用いるとよい。

次いで、ベクトル結合部６０２は、現フレームの結合後のＳＤＦＴ係数Ｙ＿ｃｏ（ｋ）（ｋ＝０，１，…，Ｋ）と、前フレームの結合後のＳＤＦＴ係数Ｙ＿ｃｏ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｋ）とを相関分析部６０３に出力する。ここで、Ｋ＝（Ｎ＋ＬＨ）／２−１である。

相関分析部６０３は、ベクトル結合部６０２から現フレームの結合後のＳＤＦＴ係数Ｙ＿ｃｏ（ｋ）（ｋ＝０，１，…，Ｋ）と前フレームの結合後のＳＤＦＴ係数Ｙ＿ｃｏ＿ｐｒｅ（ｋ）（ｋ＝０，１，…，Ｋ）とを入力され、式（５）〜（８）に従って相関Ｓを求め、求めた相関Ｓを相関情報としてトーン判定部１０７に出力する。

このように、本実施の形態によれば、倍音成分に相当する周波数近傍以外の周波数帯域では、ダウンサンプリングによるベクトル系列長の短縮を行うため、入力信号のトーン性の判定に要する計算量を低減することができる。また、音楽、特に楽器の弦や楽器管内の空気の振動には、通常、基本的な周波数成分の他に周波数が２倍、３倍等の整数倍の倍音成分が一緒に含まれている（調波構造）。このような場合でも、本実施の形態によれば、倍音成分に相当する周波数近傍の範囲ではベクトル系列長の短縮をせずにそのままトーン性の判定に用いる。そのため、トーン性の判定において重要となる調波構造が考慮され、ダウンサンプリングによる情報量欠落によるトーン性判定性能の劣化を防ぐことができる。

（実施の形態５）
図１０は、本実施の形態に係る符号化装置７００の主要な構成を示すブロック図である。ここでは、符号化装置７００が、入力信号のトーン性を判定し、判定結果に応じて符号化方法を切り替える場合を例にとって説明する。なお、図１０において、図７（実施の形態３）と同一の構成部には同一符号を付し、その説明を省略する。

図１０に示す符号化装置７００は、上記実施の形態４に係るトーン判定装置６００（図８）を備える。

図１０において、ダウンサンプリング部７０１は、入力信号のダウンサンプリングを行い、ダウンサンプリング後の入力信号をＣＥＬＰ符号化器７０２に出力する。例えば、ダウンサンプリング部７０１への入力信号が３２０００Ｈｚである場合、その入力信号がＣＥＬＰ符号化器７０２への入力信号として最適な周波数帯域となるように、１６０００Ｈｚにダウンサンプリングされることが多い。

ＣＥＬＰ符号化器７０２は、ダウンサンプリング部７０１から入力されたダウンサンプリング後の入力信号をＣＥＬＰ符号化する。ＣＥＬＰ符号化器７０２は、ＣＥＬＰ符号化の結果得られる符号をＣＥＬＰ復号化器７０３に出力するとともに、符号化装置７００の符号化結果の一部として符号化装置７００の外部に出力する。また、ＣＥＬＰ符号化器７０２は、ＣＥＬＰ符号化の過程において得られるピッチラグをトーン判定装置６００に出力する。

トーン判定装置６００は、上記実施の形態４において説明したように、入力信号とピッチラグとからトーン情報を得る。次いで、トーン判定装置６００は、トーン情報を選択部４０１に出力する。なお、実施の形態３と同様に、このトーン情報は、必要に応じて符号化装置７００の外部に出力してもよい。

ＣＥＬＰ復号化器７０３は、ＣＥＬＰ符号化器７０２から入力される符号をＣＥＬＰ復号化する。ＣＥＬＰ復号化器７０３は、ＣＥＬＰ復号化の結果得られる復号化信号をアップサンプリング部７０４に出力する。

アップサンプリング部７０４は、ＣＥＬＰ復号化器７０３から入力される復号化信号をアップサンプリングして加算器７０５に出力する。例えば、ダウンサンプリング部７０１への入力信号が３２０００Ｈｚである場合、アップサンプリング部７０４は、アップサンプリングにより３２０００Ｈｚの復号化信号を得る。

加算器７０５は、入力信号からアップサンプリング後の復号化信号を減算し、減算後の残差信号を選択部４０１に出力する。このように、ＣＥＬＰ符号化器７０２により符号化された信号成分を入力信号から差し引くことにより、ＣＥＬＰ符号化器７０２で符号化しなかった高周波数帯域側の信号成分を、次の符号化過程の符号化対象とすることができる。

符号化部４０２は、残差信号を符号化し、符号化により生成される符号を出力する。符号化部４０２に入力される入力信号は「トーン」であるため、符号化部４０２は、楽音の符号化に適している符号化方法により残差信号を符号化する。

符号化部４０３は、残差信号を符号化し、符号化により生成される符号を出力する。符号化部４０３に入力される入力信号は「非トーン」であるため、符号化部４０３は、音声の符号化に適している符号化方法により残差信号を符号化する。

なお、本実施の形態では符号化部が２つである場合を一例として説明したが、互いに異なる符号化方法により符号化を行う符号化部を３つ以上あってもよい。この場合、段階的に判定されるトーンの度合いに応じて、３つ以上の符号化部のうちいずれかの符号化部を選択すればよい。

このようにして、本実施の形態によれば、入力信号のトーン性に応じた最適な符号化方法により入力信号を符号化することができる。

また、ピッチラグの情報を得ることができる構成であれば、本実施の形態で説明した構成に限らず、種々形態を変更しても上記同様の効果を得ることができる。

以上、本発明の実施の形態について説明した。

なお、入力信号の周波数変換は、ＳＤＦＴ以外の周波数変換、例えば、ＤＦＴ（離散フーリエ変換）、ＦＦＴ（高速フーリエ変換）、ＤＣＴ（離散コサイン変換）、ＭＤＣＴ（修正離散コサイン変換）等により行ってもよい。

また、上記実施の形態に係るトーン判定装置および符号化装置は、音声や楽音等の伝送が行われる移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記同様の作用効果を有する通信端末装置および基地局装置を提供することができる。

また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るトーン判定方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るトーン判定装置と同様の機能を実現することができる。

また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部またはすべてを含むように１チップ化されてもよい。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。

２００９年２月２７日出願の特願２００９−０４６５１７、２００９年５月１８日出願の特願２００９−１２０１１２および２００９年１０月１３日出願の特願２００９−２３６４５１の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明は、音声符号化および音声復号化等の用途に適用することができる。

国際公開第２００７／０５２０８８号

しかしながら、上記特許文献１開示のようなトーン判定装置、すなわち、ＳＤＦＴにより入力信号の周波数成分を求め、現フレームの周波数成分と前フレームの周波数成分との
相関により入力信号のトーン性を検出するトーン判定装置においては、すべての周波数帯域を考慮して相関を求めているため、計算量が大きくなってしまうという課題があった。

バッファ１０３は、前フレームのＳＤＦＴ係数と、前フレームのダウンサンプリング後のＳＤＦＴ係数とを内部に格納しており、これら２つのＳＤＦＴ係数をベクトル結合部１０４に出力する。次いで、バッファ１０３は、周波数変換部１０１から現フレームのＳＤ
ＦＴ係数を入力されるとともに、ダウンサンプリング部１０２から現フレームのダウンサンプリング後のＳＤＦＴ係数を入力され、これらの２つのＳＤＦＴ係数をベクトル結合部１０４に出力する。次いで、バッファ１０３は、内部に格納されている前フレームの上記２つのＳＤＦＴ係数（前フレームのＳＤＦＴ係数と、前フレームのダウンサンプリング後のＳＤＦＴ係数）と、現フレームの上記２つのＳＤＦＴ係数（現フレームのＳＤＦＴ係数と、現フレームのダウンサンプリング後のＳＤＦＴ係数）とをそれぞれ入れ替えることにより、ＳＤＦＴ係数を更新する。

ここで、ｈ（ｎ）は窓関数であり、ＭＤＣＴ窓関数等が使用される。また、ｕは時間シフトの係数、ｖは周波数シフトの係数であり、例えば、ｕ＝（Ｎ＋１）／２、ｖ＝１／２
のように設定される。

バーク尺度分割部５０１は、周波数変換部１０１から入力されるＳＤＦＴ係数を、バーク尺度に基づいて予め設定されている分割割合に従って分割し、分割されたＳＤＦＴ係数をダウンサンプリング部５０２に出力する。ここで、バーク尺度とは、Ｅ．ツヴィッカー（Zwicker,E.）により提案された音響心理学的尺度であり、人間の聴覚の臨界帯域（critical band）を求めたものである。バーク尺度分割部５０１における分割は、互いに隣接
する２つの臨界帯域の境界に相当する周波数の値を用いて行うことができる。

バッファ５０３は、ダウンサンプリング部５０２からＳＤＦＴ係数Ｙ＿ｂ＿ａ（ｋ）（ｋ＝０，１，…，ｂａ−１）と、ダウンサンプリング後のＳＤＦＴ係数Ｙ＿ｂ＿ｂ＿ｒｅ（ｋ）（ｋ＝０，１，…，ｂｂ／２−１），Ｙ＿ｂ＿ｃ＿ｒｅ（ｋ）（ｋ＝０，１，…，
ｂｃ／３−１）と、を入力される。

図７において、トーン判定装置１００，５００は、上記実施の形態１または上記実施の形態２において説明したように、入力信号からトーン情報を得る。次いで、トーン判定装置１００，５００は、トーン情報を選択部４０１に出力する。また、このトーン情報は、必要に応じて符号化装置４００の外部に出力してもよい。例えばこのトーン情報は、図示しない復号化装置において、復号化方法を切り替えるための情報として用いられる。図示
しない復号化装置では、後述の選択部４０１が選択する符号化方法により生成される符号を復号化するために、選択された符号化方法に対応する復号化方法が選択される。

ベクトル結合部６０２は、バッファ１０３から前フレームのＳＤＦＴ係数と、前フレームのダウンサンプリング後のＳＤＦＴ係数と、現フレームのＳＤＦＴ係数と、現フレームのダウンサンプリング後のＳＤＦＴ係数とを入力される。また、ベクトル結合部６０２は、倍音成分算出部６０１から倍音成分情報を入力される。次いで、ベクトル結合部６０２は、前フレームのＳＤＦＴ係数の一部と、前フレームのダウンサンプリング後のＳＤＦＴ係数の一部とを結合して新たなＳＤＦＴ係数を生成し、生成したＳＤＦＴ係数を相関分析部６０３に出力する。また、ベクトル結合部６０２は、現フレームのＳＤＦＴ係数の一部
と、現フレームのダウンサンプリング後のＳＤＦＴ係数の一部とを結合して新たなＳＤＦＴ係数を生成し、生成したＳＤＦＴ係数を相関分析部６０３に出力する。この際、ベクトル結合部６０２がどのような結合を行うかは、倍音成分情報に応じて決定される。

次に、倍音成分算出部６０１は、基本周波数Ｐの整数倍（２×Ｐ，３×Ｐ，４×Ｐ，…）の倍音成分を求め、基本周波数Ｐと倍音成分情報とをベクトル結合部６０２に出力する。この際、倍音成分算出部６０１は、トーン判定に用いるＳＤＦＴ係数の周波数帯域に相当する倍音成分情報のみを出力すればよい。例えば、トーン判定に用いるＳＤＦＴ係数の周波数帯域が８０００〜１２０００Ｈｚであり、基本周波数Ｐが４００Ｈｚである場合、倍音成分算出部６０１は、周波数帯域８０００〜１２０００Ｈｚに含まれる倍音成分（８０００，８４００，８８００，…，１２０００）のみを出力すればよい。また、すべての倍音成分情報を出力するのではなく、周波数の低い方から数個のみ（例えば、８０００，８４００，８８００の３個のみ）に限定して出力してもよい。また、偶数番目の倍音成分
情報（例えば、８０００，８８００，９６００，…）のみ、または、奇数番目の倍音成分情報（例えば、８４００，９２００，１００００，…）のみを出力するということも可能である。

図９に示すように、結合後のＳＤＦＴ係数には基本的にダウンサンプリング後のＳＤＦＴ係数（（１）と（３））が用いられ、倍音成分の周波数ＰＨを中心として長さＬＨの範囲に相当するＳＤＦＴ係数（（２））が（１）と（３）の間に挿入されて結合が行われる。図９の破線は、ダウンサンプリング前後で、同じ周波数帯域に相当する範囲同士を表している。すなわち、図９に示すように、倍音成分の周波数ＰＨの近傍は重要であると考え、倍音成分の周波数ＰＨの近傍には、ダウンサンプリングしていないＳＤＦＴ係数をそのまま使うこととしている。ここで、抜き出す範囲の長さであるＬＨは、定数として適した
値を予め設定しておく。ＬＨを長くすると結合後のＳＤＦＴ係数が長くなるため、後の相関を求める処理において計算量が大きくなるが、一方で、求める相関がより正確になる。従って、計算量と相関の正確さとのトレードオフを考慮して、ＬＨを決めるとよい。また、ＬＨを適応的に変化させることも可能である。

以上、本発明の実施の形態について説明した。

また、上記実施の形態に係るトーン判定装置および符号化装置は、音声や楽音等の伝送
が行われる移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記同様の作用効果を有する通信端末装置および基地局装置を提供することができる。

Claims

周波数変換された入力信号のベクトル系列長を短縮する短縮処理を行う短縮手段と、
ベクトル系列長短縮後のベクトル系列を用いて相関を求める相関手段と、
前記相関を用いて前記入力信号のトーン性を判定する判定手段と、
を具備するトーン判定装置。
前記周波数変換された入力信号のベクトル系列と前記ベクトル系列長短縮後のベクトル系列とを結合して結合ベクトル系列を生成する結合手段、をさらに具備し、
前記相関手段は、前記結合ベクトル系列を用いて相関を求める、
請求項１記載のトーン判定装置。
前記短縮手段は、前記短縮処理をダウンサンプリング処理により行う、
請求項１記載のトーン判定装置。
前記入力信号の一定の周波数帯域毎のパワーを用いて、前記トーン性の判定において予め設定された条件に該当する周波数帯域を決定する決定手段、をさらに具備し、
前記短縮手段は、前記予め設定された条件に該当する周波数帯域以外の周波数帯域において前記短縮処理を行う、
請求項１記載のトーン判定装置。
前記決定手段は、前記相関手段が前記相関を求める過程で得られる前記一定の周波数帯域毎のパワーを用いて前記予め設定された条件に該当する周波数帯域を決定する、
請求項４記載のトーン判定装置。
前記周波数変換後の信号のベクトル系列を、人間の音響心理的特性に基づいた尺度を用いて設定される割合で分割する分割手段、をさらに具備し、
前記短縮手段は、分割後のベクトル系列のベクトル系列長を短縮する前記短縮処理を行う、
請求項１記載のトーン判定装置。
前記分割手段は、前記尺度としてバーク尺度を用いる、
請求項６記載のトーン判定装置。
ＣＥＬＰ（Code Excited Linear Prediction）符号化において求められるピッチラグを用いて倍音成分を算出する倍音成分算出手段、をさらに具備し、
前記結合手段は、前記倍音成分を用いて前記周波数変換された入力信号のベクトル系列と前記ベクトル系列長短縮後のベクトル系列とを結合する、
請求項２記載のトーン判定装置。
前記結合手段は、前記倍音成分に相当しない周波数帯域にある前記ベクトル系列長短縮後のベクトル系列を前記周波数変換された入力信号のベクトル系列に結合する、
請求項８記載のトーン判定装置。
請求項１記載のトーン判定装置と、
前記入力信号を互いに異なる符号化方法を用いて符号化する複数の符号化手段と、
前記判定手段での判定結果に応じて、前記入力信号の符号化を行う符号化手段を前記複数の符号化手段の中から選択する選択手段と、
を具備する符号化装置。
請求項８記載のトーン判定装置と、
前記入力信号をＣＥＬＰ符号化し、ピッチラグを求めるとともにＣＥＬＰ復号化信号を生成し、前記入力信号と前記ＣＥＬＰ復号化信号との残差信号を生成するＣＥＬＰ符号化手段と、
前記残差信号を互いに異なる符号化方法を用いて符号化する複数の符号化手段と、
前記判定手段での判定結果に応じて、前記残差信号の符号化を行う符号化手段を前記複数の符号化手段の中から選択する選択手段と、
を具備する符号化装置。
請求項１記載のトーン判定装置を具備する通信端末装置。
請求項１記載のトーン判定装置を具備する基地局装置。
周波数変換された入力信号のベクトル系列長を短縮する短縮処理を行う短縮工程と、
ベクトル系列長短縮後のベクトル系列を用いて相関を求める相関工程と、
前記相関を用いて前記入力信号のトーン性を判定する判定工程と、
を具備するトーン判定方法。