WO2010070770A1

WO2010070770A1 - 音声帯域拡張装置及び音声帯域拡張方法

Info

Publication number: WO2010070770A1
Application number: PCT/JP2008/073236
Authority: WO
Inventors: 遠藤　香緒里
Original assignee: 富士通株式会社
Priority date: 2008-12-19
Filing date: 2008-12-19
Publication date: 2010-06-24
Also published as: US20110282655A1; US8781823B2; EP2360687A1; JPWO2010070770A1; JP5423684B2; EP2360687A4

Abstract

　入力信号を周波数変換してスペクトルを算出する周波数変換手段と、前記スペクトルを用いて、前記スペクトルの低域成分から高域成分を生成するための写像関数を算出する写像関数算出手段と、前記写像関数に基づいて前記スペクトルの帯域よりも高域のスペクトルを生成し、生成した前記高域のスペクトルと前記周波数変換手段により算出されたスペクトルとを統合することにより、前記周波数変換手段により算出されたスペクトルの帯域よりも広帯域のスペクトルを生成する広帯域スペクトル生成手段と、前記広帯域のスペクトルを周波数逆変換して出力信号を算出する周波数逆変換手段とを備える音声帯域拡張装置を用いる。

Description

音声帯域拡張装置及び音声帯域拡張方法

　本発明は、狭帯域の音声信号から広帯域の音声信号を生成する音声帯域拡張装置及び音声帯域拡張方法に関する。

　従来から、伝送のために帯域が狭くなった音声信号の帯域を受話側で擬似的に拡張する技術が研究されている。

　帯域を拡張する技術として、まず、音声信号を線形予測分析により音源信号とスペクトル包絡とに分離し、音源信号を全波整流や半波整流などの非線形処理で歪ませて高域信号を生成することで広帯域化する。また、予め学習しておいた狭帯域のスペクトル包絡から広帯域のスペクトル包絡への写像関数を用いてスペクトル包絡を広帯域化する。そして、広帯域化したスペクトル包絡と音源信号とを合成して広帯域信号を生成する技術が知られている。

　また、音声信号を線形予測分析により音源信号とスペクトル包絡とに分離し、音源信号の基本周波数を求め、基本周波数の整数倍の周波数だけ高域と低域に音源信号をシフトさせて広帯域化する技術が知られている。
特開平０９－１０１７９８号公報特開平０９－０５５７７８号公報

　しかしながら、予め学習によって算出した狭帯域信号から広帯域信号を生成する写像関数は、数多くのデータを用いて平均的な写像関係を学習したものである。よって、平均的な写像関数は、適用する音声信号に対する最適値とは異なり、高音質の広帯域信号を得ることができない。さらに、高音質化を図ろうとすれば、様々な音声信号を記憶しなければならないため、データベースの容量が増大する。

　また、音源信号を非線形処理し、基本周波数の整数倍だけ狭帯域の周波数成分を低・高域にシフトして広帯域化する方法では、実際の声は、狭帯域の周波数成分を単純にシフトしたものとは異なるため高音質の広帯域信号を得ることができない。

　開示の音声帯域拡張装置は、入力信号を周波数変換してスペクトルを算出する周波数変換手段と、前記スペクトルを用いて、前記スペクトルの低域成分から高域成分を生成するための写像関数を算出する写像関数算出手段と、前記写像関数に基づいて前記スペクトルの帯域よりも高域のスペクトルを生成し、生成した前記高域のスペクトルと前記周波数変換手段により算出されたスペクトルとを統合することにより、前記周波数変換手段により算出されたスペクトルの帯域よりも広帯域のスペクトルを生成する広帯域スペクトル生成手段と、前記広帯域のスペクトルを周波数逆変換して出力信号を算出する周波数逆変換手段とを備える。

　開示の実施形態によれば、狭帯域信号のスペクトルから写像関数を算出し、算出した写像関数を用いて狭帯域よりも高域のスペクトルを生成して広帯域化することにより、広帯域信号の高音質化を図ることができる。

実施形態１にかかる音声帯域拡張装置の主要機能構成例を示すブロック図である。広帯域スペクトル生成手段の主要機能構成例を示すブロック図である。高域のスペクトルを生成する処理の概念図である。平滑化処理の一例を示す図である。実施形態１にかかる音声帯域拡張処理の一例を示すフローチャートである。実施形態２にかかる音声帯域拡張装置の主要機能構成例を示すブロック図である。評価値と誤差との関係の一例を示す図である。広帯域スペクトル生成手段の主要機能構成例を示すブロック図である。実施形態２にかかる音声帯域拡張処理の一例を示すフローチャートである。実施形態３にかかる音声帯域拡張装置の主要機能構成例を示すブロック図である。広帯域スペクトル生成手段の主要機能構成例を示すブロック図である。狭帯域信号のパワースペクトルを示す図である。音源信号を広帯域化する例を示す図である。スペクトル包絡を広帯域化する例を示す図である。音源信号とスペクトル包絡との合成処理の一例を示す図である。実施形態３にかかる音声帯域拡張処理の一例を示すフローチャートである。実施形態４にかかる音声帯域拡張装置の主要機能構成例を示すブロック図である。広帯域スペクトル生成手段の主要機能構成例を示すブロック図である。実施形態４にかかる音声帯域拡張処理の一例を示すフローチャートである。

符号の説明

　１１　周波数変換手段
　１２，３２　写像関数算出手段
　１３，２２，３３，４２　広帯域スペクトル生成手段
　１４　周波数逆変換手段
　２１，４１　写像関数評価手段
　３１　音源・包絡分離手段
　１３１　高域スペクトル生成手段
　１３２，２２２，３３２，４２２　統合手段
　２２１　スペクトル修正手段
　３３１，４２１　高域分離情報生成手段
　３３３，４２３　音源・包絡合成手段

　以下、図面に基づいて実施形態について説明する。

　［実施形態１］
　＜機能構成＞
　図１は、実施形態１にかかる音声帯域拡張装置１の主要機能構成例を示すブロック図である。図１に示すように、音声帯域拡張装置１は、周波数変換手段１１、写像関数算出手段１２、広帯域スペクトル生成手段１３、周波数逆変換手段１４を含む。

　周波数変換手段１１は、ネットワークなどを介して送信された音声の入力信号（以下、狭帯域信号ともいう）を取得し、時間周波数変換（以下、周波数変換という）を行って周波数情報（以下、スペクトルという）を算出する。なお、周波数変換は、フーリエ変換や離散コサイン変換などの技術を用いて行う。また、入力信号を３００Ｈｚ～３４００Ｈｚの狭帯域の信号として説明するが、この帯域に限られるものではない。次に、周波数変換手段１１は、算出したスペクトルを写像関数算出手段１２及び広帯域スペクトル生成手段１３に出力する。

　写像関数算出手段１２は、周波数変換手段１１から取得したスペクトルに対して、低域成分から高域成分を生成するための写像関数を算出する。以下、写像関数の一例を説明する。式（１）は、スペクトルの写像関数のモデルを示す。

　ここで、スペクトルの推定値と実際のスペクトルy(x_i)との誤差を式（２）により算出する。

　モデルのパラメータa，bは、狭帯域信号のスペクトルy(x_i)を用いて、式（２）（３）（４）より算出する。ここで、ピッチ周波数θは以下の式で算出する。

θ= freq/a_max　　　　（６）
x：入力信号
M：相関係数を算出する区間の長さ（サンプル）
a：相関係数を算出する信号の開始位置
corr(a)：ずらし位置がaの場合の相関係数
a_max：最大相関係数に対応するa
i：信号のインデックス(サンプル)
freq：サンプリング周波数(Hz)
　以上、モデルのパラメータa，bを算出することで、入力信号のスペクトルに対して低域成分から高域成分を生成するための写像関数を算出することができる。なお、モデルについては一例を示したにすぎず、上記モデルに限定されるものではない。また、写像関数算出手段１２は、算出した写像関数を広帯域スペクトル生成手段１３に出力する。

　広帯域スペクトル生成手段１３は、周波数変換手段１１から狭帯域信号のスペクトルを取得し、また、写像関数算出手段１２から写像関数を取得する。次に、広帯域スペクトル生成手段１３は、取得したスペクトルと写像関数とを用いて狭帯域信号の帯域よりも広帯域のスペクトルを生成する。広帯域スペクトル生成手段１３の詳細については図２を用いて説明する。広帯域スペクトル生成手段１３は、生成した広帯域のスペクトルを周波数逆変換手段１４に出力する。

　図２は、広帯域スペクトル生成手段１３の主要機能構成例を示すブロック図である。図２に示すように、広帯域スペクトル生成手段１３は、高域スペクトル生成手段１３１、統合手段１３２を含む。

　高域スペクトル生成手段１３１は、写像関数算出手段１２から取得した写像関数に対して狭帯域よりも高域の周波数を入力することで、狭帯域のスペクトルよりも高域のスペクトルを生成する。

　統合手段１３２は、高域スペクトル生成手段１３１により生成された高域のスペクトルと狭帯域のスペクトルとを統合することで、広帯域のスペクトルを生成する。ここで、狭帯域信号を広帯域化する例について説明する。前提として、狭帯域信号のスペクトルが０～Ｔの帯域数の情報を持ち、これを２倍の０～２Ｔの帯域数に拡大する例について説明する。

　まず、狭帯域信号のスペクトルを、広帯域のスペクトルの狭帯域成分に設定する。
S_w[i] = S_n[i]    i= 0,...,T-1　　　（７）
　広帯域のスペクトルの高域成分に、写像関数を用いて生成したスペクトルを設定する。
S_w[i] = S_f[i]    i= T,...,2T-1　　　（８）
　ナイキスト周波数の成分は０とする。
S_w[2T] = 0   　　　　　　　　　　　　（９）
S_w[i]：i番目の周波数帯域の広帯域のスペクトル
S_n[i]：i番目の周波数帯域の狭帯域のスペクトル
S_f[i]：写像関数を適用して生成されたi番目の周波数帯域のスペクトル
　以上より、狭帯域のスペクトルの帯域数を例えば２倍にして広帯域のスペクトルを生成することができる。

　次に、図１に戻り、周波数逆変換手段１４は、広帯域スペクトル生成手段１３から広帯域のスペクトルを取得し、取得した広帯域のスペクトルに対して周波数時間変換（周波数逆変換）を行い時間領域の出力信号を算出する。

　ここで、図３に示す具体例を用いて高域のスペクトルを生成する例について説明する。図３は、高域のスペクトルを生成する処理の概念図である。図３に示すように、０～４ｋＨｚの狭帯域信号から４～８ｋＨｚの高域のスペクトルを生成する処理について説明する。

　図３に示す例において、まず、狭帯域信号のスペクトルの帯域（例えば０～４ｋＨｚ）から高域（例えば４～８ｋＨｚ）のスペクトルを生成するための写像関数を算出する。次に、高域（４～８ｋＨｚ）の周波数を写像関数に入力することで高域（４～８ｋＨｚ）のスペクトルを生成する。次に、狭帯域信号（０～４ｋＨｚ）のスペクトルと、生成した高域（４～８ｋＨｚ）のスペクトルとを統合して、広帯域（０～８ｋＨｚ）のスペクトルを生成することができる。

　ここで、高域のスペクトルを統合する際に、単に統合するだけでなく、以下のような平滑化処理を加えてもよい。この平滑化処理については図４を用いて説明する。図４は、平滑化処理の一例を示す図である。図４に示すように、狭帯域信号の高域の部分のスペクトルを写像関数で生成する（１点鎖線）。次に、もともとの狭帯域信号の高域のスペクトルが、生成されたスペクトル（１点鎖線）に徐々になるように変更することで、境界（４ｋＨｚ）を滑らかにつなぐようにしてもよい。

　具体的には、狭帯域信号の高域のスペクトルが、写像関数を用いて生成されたスペクトルに徐々になるよう重み係数を決定しておく。次に、この重み係数を用いて高域のスペクトルと生成されたスペクトルとの加重平均をとればよい。これにより、境界でスペクトルが不連続になることによる異音の発生を防止することができる。

　＜動作＞
　実施形態１にかかる音声帯域拡張装置１の処理について説明する。図５は、実施形態１にかかる音声帯域拡張処理の一例を示すフローチャートである。ステップＳ１１において、周波数変換手段１１は、時間領域の入力信号に対して周波数変換（時間周波数変換）を行い、周波数領域のスペクトルを算出する。

　次のステップＳ１２において、写像関数算出手段１２は、周波数変換手段１１により算出されたスペクトルを用いて、スペクトルの低域成分から高域成分を生成するための写像関数を算出する。具体的には前述した通りであり、写像関数となるモデルを与えて、そのパラメータを算出する。

　次のステップＳ１３において、広帯域スペクトル生成手段１３は、周波数変換手段１１により生成されたスペクトルと、写像関数算出手段１２により算出された写像関数とを用いて、狭帯域よりも広帯域のスペクトルを生成する。具体的には、まず、高域スペクトル生成手段１３１により、写像関数に狭帯域よりも高域の周波数を入力して高域のスペクトルを生成する。次に、統合手段１３２により、狭帯域のスペクトルと高域スペクトル生成手段１３１により生成された高域のスペクトルとを統合することで広帯域のスペクトルを生成する。

　次のステップＳ１４において、周波数逆変換手段１４は、広帯域スペクトル生成手段１３により生成された広帯域のスペクトルに対して周波数逆変換（周波数時間変換）を行い、時間領域の出力信号を算出する。

　以上、実施形態１によれば、狭帯域信号のスペクトルを用いて写像関数を算出し、算出した写像関数を用いて高域のスペクトルを生成して広帯域化することができる。よって、広帯域信号の高音質化を図ることができる。また、入力信号に適合した写像関数を求めることができ、入力信号のスペクトル特性に応じた高域のスペクトルを生成することができる。

　また、スペクトルの統合を行う際、平滑化処理を行うようにすれば、スペクトル統合の境界において不連続なスペクトルの発生を防止し、境界においても滑らかなスペクトルを生成することができる。

　［実施形態２］
　次に、実施形態２にかかる音声帯域拡張装置２について説明する。実施形態２では、算出した写像関数を評価することで、算出された高域のスペクトルの寄与度や採否を評価に基づいて決定することができる。

　＜機能構成＞
　図６は、実施形態２にかかる音声帯域拡張装置２の主要機能構成例を示すブロック図である。図６に示す機能において、図１に示す機能と同様の機能のものは同じ符号を付し、その説明を省略する。

　図６に示すように、音声帯域拡張装置２は、周波数変換手段１１、写像関数算出手段１２、写像関数評価手段２１、広帯域スペクトル生成手段２２、周波数逆変換１４を含む。以下、写像関数評価手段２１、広帯域スペクトル生成手段２２について説明する。

　写像関数評価手段２１は、写像関数算出手段１２により算出された写像関数の性能について評価を行う。例えば、以下のようにして評価値を算出することで写像関数の評価を行う。写像関数評価手段２１は、入力信号を周波数変換したスペクトルと、写像関数を適用して生成したスペクトルとの誤差Vを式（１０）により算出する。

　また、写像関数評価手段２１は、式（１０）を用いて算出した誤差Ｖから評価値を求める。例えば、図７を用いて誤差から評価値を算出する。図７は、評価値と誤差との関係の一例を示す図である。

　図７に示すように、評価値は０以上１以下の値であり、また、評価値は誤差が大きくなるにつれて小さくなるような関数を予め設定しておく。また、関数の代わりに評価値と誤差との対応テーブルを設定してもよい。

　なお、図７に示す評価値と誤差との関係は一例を示すものであり、誤差が大きくなるにつれて評価値が小さくなる関係を満たせばよい。また、誤差が所定値以上大きくなった場合は評価値を０にするなどの条件を加えてもよい。また、誤差の逆数を評価値とする等してもよい。誤差を用いて算出された評価値は、写像関数と共に広帯域スペクトル生成手段２２に出力される。

　図６に戻り、広帯域スペクトル生成手段２２は、狭帯域信号のスペクトルと、写像関数と、評価値とを用いて広帯域化されたスペクトルを生成する。広帯域スペクトル生成手段２２の詳細については図８を用いて説明する。

　図８は、広帯域スペクトル生成手段２２の主要機能構成例を示すブロック図である。図８に示すように、広帯域スペクトル生成手段２２は、高域スペクトル生成手段１３１、スペクトル修正手段２２１、統合手段２２２を含む。図８に示す機能において、図２に示す機能と同様の機能のものは同じ符号を付し、その説明を省略する。

　スペクトル修正手段２２１は、高域スペクトル生成手段１３１により生成された高域のスペクトルに対し、写像関数評価手段２１により算出された評価値を用いて修正する。例えば、評価値を高域のスペクトルに乗算する式（１１）を用いて修正を行う。
S'w[i] = α × Sw[i] (11)
Sw[i]：写像関数を適用して生成した高域のスペクトル
α：写像関数の評価値
S'w[i]：評価値を用いて修正した高域のスペクトル
　写像関数の評価値αは、前述した通り写像関数で生成したスペクトルと狭帯域のスペクトルとの誤差から評価値を算出する関数（又は対応テーブル等）により求める（図７参照）。

　次に、統合手段２２２は、基本的には図２で説明した統合手段１３２と同様である。異なるところは、統合する高域のスペクトルに、スペクトル修正手段２２１により修正された高域のスペクトルを用いるところである。これにより、評価値が小さい写像関数を用いて生成された高域のスペクトルは、統合後の広帯域のスペクトルにおいて影響を与えないようにすることができる。

　＜動作＞
　実施形態２にかかる音声帯域拡張装置２の処理について説明する。図９は、実施形態２にかかる音声帯域拡張処理の一例を示すフローチャートである。図９に示す処理において、図５に示す処理と同様の処理を行うものは同じ符号を付し、その説明を省略する。

　ステップＳ２１において、写像関数評価手段２１は、写像関数算出手段１２により算出された写像関数の性能について評価する。評価については前述した通り、狭帯域のスペクトルと写像関数を用いて生成されたスペクトルとの誤差を求め、この誤差から評価値を算出することで写像関数の評価を行う。

　次のステップＳ２２において、広帯域スペクトル生成手段２２は、まず、写像関数を適用することにより生成された高域のスペクトルに対して、写像関数評価手段２１により算出された評価値を用いて修正を加える。修正については前述した通り、評価値をスペクトルに乗算して修正を行う。次に、広帯域スペクトル生成手段２２は、狭帯域のスペクトルと、修正された高域のスペクトルとを統合して広帯域のスペクトルを生成する。このとき、実施形態１において説明した平滑化処理を加えてもよい。

　以上、実施形態２によれば、算出された写像関数の評価値を算出し、この評価値に基づいて、写像関数を用いて生成された高域のスペクトルを修正することができる。つまり、性能が悪い写像関数を用いて生成された高域のスペクトルは、統合後の広帯域のスペクトルにおいて影響を与えないようにすることができる。

　［実施形態３］
　次に、実施形態３にかかる音声帯域拡張装置３について説明する。実施形態３では、周波数変換後のスペクトルに対して音源信号、スペクトル包絡に分離するところが上記各実施形態とは異なる。

　＜機能構成＞
　図１０は、実施形態３にかかる音声帯域拡張装置３の主要機能構成例を示すブロック図である。図１０に示す機能において、図１に示す機能と同様の機能のものは同じ符号を付し、その説明を省略する。

　図１０に示すように、音声帯域拡張装置３は、周波数変換手段１１、音源・包絡分離手段３１、写像関数算出手段３２、広帯域スペクトル生成手段３３、周波数逆変換１４を含む。以下、音源・包絡分離手段３１、写像関数算出手段３２、広帯域スペクトル生成手段３３について説明する。

　音源・包絡分離手段３１は、周波数変換手段１１により算出されたスペクトルを音源信号とスペクトル包絡とに分離する。この分離処理は、線形予測分析やケプストラムリフタなどの技術により行われる。なお、分離された音源信号及び／又はスペクトル包絡を分離情報と呼ぶことにする。また、音源・包絡分離手段３１は、分離された分離情報を写像関数算出手段３２及び広帯域スペクトル生成手段３３に出力する。

　写像関数算出手段３２は、音源・包絡分離手段３１により分離された分離情報に対して、低域成分から高域成分を生成するための写像関数を算出する。ここで、写像関数を算出する分離情報として、音源信号及びスペクトル包絡、音源信号のみ、スペクトル包絡のみの３パターンがある。以下、これらを順に説明する。

　（音源信号及びスペクトル包絡の場合）
　写像関数算出手段３２は、音源信号及びスペクトル包絡それぞれに対して写像関数を算出する。音源信号の写像関数については、上記実施形態で説明したようにスペクトルに対する算出の仕方と同様であるため、ここでは説明を省略する。以下、スペクトル包絡に対する写像関数の算出について説明する。

　まず、スペクトル包絡の写像関数として、下記のモデル（１２）を与える。

　ここで、スペクトル包絡のパワースペクトル推定値と、実際のスペクトル包絡のパワースペクトルz(x_i)との誤差を式（１３）により算出する。

　モデルのパラメータc，d，eは、狭帯域信号のスペクトル包絡のパワースペクトルz(x_i)を用いて、式（１３）、（１４）、（１５）、（１６）より算出される。これより、モデルのパラメータc，d，eを算出することで、スペクトル包絡に対しての低域成分から高域成分への写像関数を算出することができる。なお、モデルについては一例を示したにすぎず、上記モデルに限定されるものではない。また、写像関数算出手段３２は、算出した音源信号及びスペクトル包絡それぞれの写像関数を広帯域スペクトル生成手段３３に出力する。

　（音源信号のみの場合）
　写像関数算出手段３２は、音源信号に対して低域成分から高域成分への写像関数を算出する。音源信号の写像関数については、上記実施形態で説明したようにスペクトルに対する算出の仕方と同様であるため、ここでは説明を省略する。また、写像関数算出手段３２は、算出した音源信号の写像関数を広帯域スペクトル生成手段３３に出力する。

　（スペクトル包絡のみの場合）
　写像関数算出手段３２は、スペクトル包絡に対して低域成分から高域成分への写像関数を算出する。スペクトル包絡の写像関数については、前述した通りモデルを与えて、そのパラメータを算出することで写像関数を算出することができる。また、写像関数算出手段３２は、算出したスペクトル包絡の写像関数を広帯域スペクトル生成手段３３に出力する。

　広帯域スペクトル生成手段３３は、音源・包絡分離手段３１により分離された分離情報と、写像関数算出手段３２により算出された写像関数とを用いて、狭帯域よりも広帯域の分離情報を生成する。次に、広帯域スペクトル生成手段３３は、生成した広帯域の分離情報に基づいて広帯域のスペクトルを生成する。ここで、広帯域スペクトル生成手段３３の詳細について図１１を用いて説明する。

　図１１は、広帯域スペクトル生成手段３３の主要機能構成例を示すブロック図である。図１１に示すように、広帯域スペクトル生成手段３３は、高域分離情報生成手段３３１、統合手段３３２、音源・包絡合成手段３３３を含む。

　高域分離情報生成手段３３１は、算出された写像関数と狭帯域よりも高域の周波数とを用いて、狭帯域よりも高域の分離情報を生成する。ここで、分離情報は前述した通り、音源信号及びスペクトル包絡、音源信号のみ、スペクトル包絡のみの３パターンあるので、それぞれの場合に場合分けして高域分離情報生成手段３３１の機能を説明する。

　（音源信号及びスペクトル包絡の場合）
　高域分離情報生成手段３３１は、写像関数算出手段３２により算出された音源信号、スペクトル包絡それぞれの写像関数に対して、狭帯域よりも高域の周波数を入力して高域の音源信号及びスペクトル包絡を生成する。次に、高域分離情報生成手段３３１は、生成した高域の音源信号及びスペクトル包絡を統合手段３３２に出力する。

　（音源信号のみの場合）
　高域分離情報生成手段３３１は、写像関数算出手段３２により算出された音源信号の写像関数に対して、狭帯域よりも高域の周波数を入力して高域の音源信号を生成する。また、高域分離情報生成手段３３１は、スペクトル包絡の写像関数は算出されていないため、従来技術と同様に、予め学習された写像関数を用いたり低域を繰り返したりするなどして高域のスペクトル包絡を生成する。次に、高域分離情報生成手段３３１は、生成した高域の音源信号及びスペクトル包絡を統合手段３３２に出力する。

　（スペクトル包絡のみの場合）
　高域分離情報生成手段３３１は、写像関数算出手段３２により算出されたスペクトル包絡の写像関数に対して、狭帯域よりも高域の周波数を入力して高域のスペクトル包絡を生成する。また、高域分離情報生成手段３３１は、音源信号の写像関数は算出されていないため、従来技術と同様に、予め学習された写像関数を用いたり低域を繰り返したりするなどして高域の音源信号を生成する。次に、高域分離情報生成手段３３１は、生成した高域の音源信号及びスペクトル包絡を統合手段３３２に出力する。

　統合手段３３２は、狭帯域の音源信号と、高域分離情報生成手段３３１により生成された高域の音源信号とを統合する。また、統合手段３３２は、狭帯域のスペクトル包絡と高域分離情報生成手段３３１により生成された高域のスペクトル包絡とを統合する。統合方法については実施形態１の統合手段１３２で前述した通りである。統合された音源信号及びスペクトル包絡は音源・包絡合成手段３３３に出力される。

　音源・包絡合成手段３３３は、統合されて広帯域化された音源信号及びスペクトル包絡を合成し、広帯域のスペクトルを生成する。具体的には、広帯域の音源信号のスペクトルと広帯域のスペクトル包絡のスペクトルとを用いて式（１７）により広帯域信号のスペクトルを算出する。
Sw[i] = SRw[i] × EVw[i] (17)
Sw[i]：i番目の広帯域信号のスペクトル
SRw [i]：i番目の広帯域の音源信号のスペクトル
EVw [i]：i番目の広帯域のスペクトル包絡のスペクトル
　なお、ここでは統合手段３３２、音源・包絡合成手段３３３の順に処理する例について説明したが、先に音源・包絡合成手段３３３により合成を行い、次に、統合手段３３２により統合を行うように構成してもよい。この場合、まず、音源・包絡合成手段３３３は、狭帯域の音源信号及びスペクトル包絡を合成する。また、音源・包絡分離手段３３は、高域分離情報生成手段３３１により生成された高域の音源信号及びスペクトル包絡を合成する。次に、統合手段３３２は、合成後における狭帯域のスペクトルと高域のスペクトルとを統合すればよい。また、統合手段３３３により統合を行う際に、前述した平滑化処理を行うようにしてもよい。

　ここで、図１２Ａ～図１２Ｃ及び図１３を用いて、分離情報が音源信号及びスペクトル包絡の場合についての統合、合成処理について具体的に説明する。

　図１２Ａは、狭帯域信号のパワースペクトルを示す図である。この狭帯域信号のパワースペクトルを音源信号とスペクトル包絡とに分離したことを図１２Ｂ、図１２Ｃにそれぞれ示す。

　図１２Ｂは、音源信号を広帯域化する例を示す図である。図１２Ｂに示すように、０～４ｋＨｚの音源信号を用いて低域成分から高域成分を生成するための写像関数が算出され、算出された写像関数を用いて４～８ｋＨｚの音源信号が生成される。生成された音源信号は、狭帯域の音源信号と統合され、広帯域化された音源信号Ａとなる。

　図１２Ｃは、スペクトル包絡を広帯域化する例を示す図である。図１２Ｃに示すように、０～４ｋＨｚのスペクトル包絡を用いて低域成分から高域成分を生成するための写像関数が算出され、算出された写像関数を用いて４～８ｋＨｚのスペクトル包絡が生成される。生成されたスペクトル包絡は、狭帯域のスペクトル包絡と統合され、広帯域化されたスペクトル包絡Ｂとなる。

　図１３は、音源信号とスペクトル包絡との合成処理の一例を示す図である。図１３に示すように、図１２Ｂ、図１２Ｃにそれぞれ示す音源信号Ａとスペクトル包絡Ｂとを合成することにより、広帯域化されたスペクトルが生成される。これより、音源・包絡分離手段３１を備える構成であっても、入力信号のスペクトルに基づいて写像関数を算出することができ、現入力信号に適した高域のスペクトルを生成することができる。

　＜動作＞
　実施形態３にかかる音声帯域拡張装置３の処理について説明する。図１４は、実施形態３にかかる音声帯域拡張処理の一例を示すフローチャートである。図１４に示す処理において、図５に示す処理と同様の処理を行うものは同じ符号を付し、その説明を省略する。

　ステップＳ３１において、音源・包絡分離手段３１は、周波数変換後のスペクトルを、音源信号とスペクトル包絡とに分離する。

　次のステップＳ３２において、写像関数算出手段３２は、音源・包絡分離手段３１により分離された分離情報を用いて低域成分から高域成分を生成するための写像関数を算出する。具体的には前述した通りであり、写像関数となるモデルを与えて、そのパラメータをに算出する。なお、写像関数を算出するパターンとしては、音源信号及びスペクトル包絡の写像関数、音源信号のみの写像関数、スペクトル包絡のみの写像関数の３パターンがある。

　次のステップＳ３３において、広帯域スペクトル生成手段３３は、まず、写像関数算出手段３２により算出された写像関数を用いて、狭帯域よりも高域の分離情報を生成する。このとき、音源信号及びスペクトル包絡に写像関数が算出されていた場合は、それぞれの写像関数を用いて高域の音源信号及びスペクトル包絡を生成する。また、音源信号のみに写像関数が算出されていた場合は、音源信号の写像関数を用いて高域の音源信号を生成する。スペクトル包絡については、従来技術を用いて高域のスペクトル包絡を生成する。また、スペクトル包絡のみに写像関数が算出されていた場合は、スペクトル包絡の写像関数を用いて高域のスペクトル包絡を生成する。音源信号については、従来技術を用いて高域の音源信号を生成する。

　次に、広帯域スペクトル生成手段３３は、生成された高域の音源信号、スペクトル包絡をそれぞれ、狭帯域の音源信号、スペクトル包絡に統合する。次に、統合された音源信号及びスペクトル包絡を合成することで、広帯域化されたスペクトルを生成する。このとき、実施形態１において説明した平滑化処理を加えてもよい。

　以上、実施形態３によれば、狭帯域信号のスペクトルから音源信号、スペクトル包絡に分離し、分離した分離情報を用いて低域成分から高域成分を生成するための写像関数を算出することができる。また、算出した写像関数を用いて高域のスペクトルを生成して広帯域化することにより、広帯域信号の高音質化を図ることができる。また、入力信号に適合した写像関数を求めることができ、入力信号のスペクトル特性に応じた高域のスペクトルを生成することができる。

　［実施形態４］
　次に、実施形態４にかかる音声帯域拡張装置４について説明する。実施形態４では、分離情報に基づいて算出された写像関数を評価することで、算出された高域のスペクトルの寄与度や採否を評価に基づいて決定することができる。

　＜機能構成＞
　図１５は、実施形態４にかかる音声帯域拡張装置４の主要機能構成例を示すブロック図である。図１５に示す機能において、図１及び図１０に示す機能と同様の機能のものは同じ符号を付し、その説明を省略する。

　図１５に示すように、音声帯域拡張装置４は、周波数変換手段１１、音源・包絡分離手段３１、写像関数算出手段３２、写像関数評価手段４１、広帯域スペクトル生成手段４２、周波数逆変換１４を含む。以下、写像関数評価手段４１、広帯域スペクトル生成手段４２について説明する。

　写像関数評価手段４１は、写像関数算出手段３２により算出された写像関数の性能の評価を行う。評価の仕方は実施形態２の写像関数評価手段２１と同様に行う。つまり、音源信号のみに対して写像関数が算出されていれば、音源信号の写像関数を用いて生成された音源信号と、狭帯域の音源信号との誤差を算出し、誤差から評価値を求めることで写像関数の評価を行う。

　この評価は、スペクトル包絡のみの写像関数が算出されている場合、音源信号、スペクトル包絡それぞれの写像関数が算出されている場合も同様に行われる。

　広帯域スペクトル生成手段４２は、写像関数評価手段４１から取得した評価値と写像関数、及び、音源・包絡分離手段３１から取得した狭帯域の音源信号及びスペクトル包絡を用いて広帯域のスペクトルを生成する。ここで、広帯域スペクトル生成手段４２の詳細について図１６を用いて説明する。

　図１６は、広帯域スペクトル生成手段４２の主要機能構成例を示すブロック図である。図１６に示す機能において、図１１に示す機能と同様の機能のものは同じ符号を付し、その説明を省略する。図１６に示すように、広帯域スペクトル生成手段４２は、高域分離情報生成手段３３１、高域分離情報修正手段４２１、統合手段４２２、音源・包絡合成手段４２３を含む。

　高域分離情報修正手段４２１は、高域分離情報生成手段３３１により生成された狭帯域よりも高域の分離情報に対して、写像関数の評価値を用いて修正を加える。ここで、分離情報は前述した通り、音源信号及びスペクトル包絡、音源信号のみ、スペクトル包絡のみの３パターンあるので、それぞれの場合に場合分けして高域分離情報修正手段４２１の機能を説明する。

　（音源信号及びスペクトル包絡の場合）
　高域分離情報修正手段４２１は、高域分離情報生成手段３３１により生成された高域の音源信号、スペクトル包絡を、それぞれの写像関数の評価値を用いて修正する。まず、音源信号の修正について説明する。

　音源信号の写像関数を用いて生成された高域の音源信号に対し、音源信号の写像関数の評価値を用いて式（１８）により修正を加える。
SR'w[i] = β　×　SRw[i] (18)
SRw[i]：音源信号の写像関数を適用して生成した高域の音源信号
SR'w[i]：評価値を用いて修正した高域の音源信号
β：音源信号の写像関数の評価値
　写像関数の評価値βは、写像関数で算出した音源信号と狭帯域信号の音源信号との誤差から評価値を算出する関数（又は対応テーブル）により求める。

　次に、スペクトル包絡の修正について説明する。スペクトル包絡の写像関数を適用して生成した高域のスペクトル包絡に対し、スペクトル包絡の写像関数の評価値を用いて式（１９）により修正を加える。
SE'w[i] = γ　×　SEw[i] (1９)
SEw[i]：スペクトル包絡の写像関数を適用して生成した高域のスペクトル包絡
SE'w[i]：評価値を用いて修正した高域のスペクトル包絡
γ：スペクトル包絡の写像関数の評価値
　写像関数の評価値γは、前述した通り写像関数を用いて生成されたスペクトル包絡と狭帯域信号のスペクトル包絡との誤差から評価値を算出する関数（又は対応テーブル）により求める。

　これより、音源信号及びスペクトル包絡それぞれの評価値を用いて修正した高域の音源信号及びスペクトル包絡を生成することができる。次に、高域分離情報修正手段３３１は、修正した高域の音源信号、スペクトル包絡を統合手段４２２に出力する。

　（音源信号のみの場合）
　高域分離情報修正手段４２１は、高域分離情報生成手段３３１により生成された音源信号を、音源信号の写像関数の評価値を用いて修正する。修正の仕方は前述した通りである。ここで、スペクトル包絡の写像関数は算出されていないので、高域のスペクトル包絡については修正しない。次に、高域分離情報生成手段３３１は、修正した高域の音源信号、修正していない高域のスペクトル包絡を統合手段３３２に出力する。

　（スペクトル包絡のみの場合）
　高域分離情報修正手段４２１は、高域分離情報生成手段３３１により生成されたスペクトル包絡を、スペクトル包絡の写像関数の評価値を用いて修正する。修正の仕方は前述した通りである。ここで、音源信号の写像関数は算出されていないので、高域の音源信号については修正しない。次に、高域分離情報生成手段３３１は、修正した高域のスペクトル包絡、修正していない高域の音源信号を統合手段３３２に出力する。

　統合手段４２２は、狭帯域の音源信号と、高域分離情報修正手段４２１により出力された高域の音源信号とを統合する。また、統合手段３３２は、狭帯域のスペクトル包絡と高域分離情報修正手段４２１により出力された高域のスペクトル包絡とを統合する。統合方法については実施形態１の統合手段１３２で前述した通りである。統合された音源信号及びスペクトル包絡は音源・包絡合成手段４２３に出力される。

　音源・包絡合成手段４２３は、統合されて広帯域化された音源信号及びスペクトル包絡を合成し、広帯域のスペクトルを生成する。

　なお、ここでは統合手段４２２、音源・包絡合成手段４２３の順に処理する例について説明したが、先に音源・包絡合成手段４２３により合成を行い、次に、統合手段４２２により統合を行うように構成してもよい。この場合、まず、音源・包絡合成手段４２３は、狭帯域の音源信号及びスペクトル包絡を合成する。また、音源・包絡合成手段４２３は、高域分離情報修正手段４２１により出力された高域の音源信号及びスペクトル包絡を合成する。次に、統合手段４２２は、合成後における狭帯域のスペクトルと高域のスペクトルとを統合すればよい。

　また、統合手段４２３により統合を行う際に、前述した平滑化処理を行うようにしてもよい。以上より、分離情報を用いて算出された写像関数を評価することで、算出された高域のスペクトルの寄与度や採否を評価に基づいて決定することができる。

　＜動作＞
　実施形態４にかかる音声帯域拡張装置４の処理について説明する。図１７は、実施形態４にかかる音声帯域拡張処理の一例を示すフローチャートである。図１７に示す処理において、図５及び図１４に示す処理と同様の処理を行うものは同じ符号を付し、その説明を省略する。

　ステップＳ４１において、写像関数評価手段４１は、写像関数算出手段３２により算出された写像関数の性能を評価する。評価については、前述した通り写像関数の評価値を算出することで評価とする。

　次のステップＳ４２において、広帯域スペクトル生成手段４２は、まず、写像関数算出手段３２により算出された写像関数を用いて、狭帯域よりも高域の分離情報を生成する。このとき、音源信号及びスペクトル包絡に写像関数が算出された場合は、それぞれの写像関数を用いて高域の音源信号及びスペクトル包絡を生成する。また、音源信号のみに写像関数が算出された場合は、音源信号の写像関数を用いて高域の音源信号を生成する。スペクトル包絡については、従来技術を用いて高域のスペクトル包絡を生成する。また、スペクトル包絡のみに写像関数が算出された場合は、スペクトル包絡の写像関数を用いて高域のスペクトル包絡を生成する。音源信号については、従来技術を用いて高域の音源信号を生成する。

　次に、広帯域スペクトル生成手段４２は、写像関数算出手段３２により算出された写像関数を用いて生成された音源信号及び／又はスペクトル包絡に対し、写像関数の評価値を用いて修正を加える。従来技術を適用して生成された音源信号又はスペクトル包絡がある場合、この音源信号又はスペクトル包絡については修正を加えない。

　次に、広帯域スペクトル生成手段４２は、高域の音源信号、スペクトル包絡をそれぞれ、狭帯域の音源信号、スペクトル包絡に統合する。また、広帯域スペクトル生成手段４２は、統合された音源信号及びスペクトル包絡を合成することで、広帯域化されたスペクトルを生成する。このとき、実施形態１において説明した平滑化処理を加えてもよい。

　以上、実施形態４によれば、スペクトルを音源信号、スペクトル包絡に分離する場合、分離情報に基づいて算出された写像関数を評価することができる。また、生成された高域のスペクトルの寄与度や採否を評価に基づいて決定することができる。

　［変形例］
　前述した各実施形態における変形例について説明する。各実施形態では、写像関数に関してモデルを与えてそのパラメータを算出することで写像関数を算出することにしていたが、ここでは、線形予測係数を算出する。以下、線形予測係数の求め方について説明する。

　式（２０）のAは狭帯域信号のスペクトルを並べた行列、bは行列Aの第一行よりも周波数のインデックスがq大きいスペクトルを並べた列ベクトルである。線形予測係数pは、Aの逆行列を算出し、式（２３）により算出できる。Aの逆行列は、一般化逆行列など既知の方法によって求める。

　線形予測係数pは、狭帯域信号の低域のスペクトルを入力とし、それよりもqだけ高域のスペクトルを予測する係数となっている。
Ap=b　　　　（20）
A：m×oの行列（狭帯域信号のスペクトルを並べた行列）
p：線形予測係数（m次元列ベクトル）
b：行列Aの第一行よりも周波数のインデックスがq大きいスペクトルを並べた列ベクトル（o次元列ベクトル）

s_t：周波数のインデックスがtのスペクトル

　次に、算出した線形予測係数を用いて高域のスペクトルを算出する例について説明する。入力信号（狭帯域信号）のスペクトルよりも高域のスペクトルは、式（２４）の行列A'に線形予測係数を乗算することで生成される。
A'p=b' （24）
A'：m×oの行列（狭帯域信号のスペクトルを並べた行列）
p：線形予測係数（m次元列ベクトル）
b'：高域のスペクトル（o次元列ベクトル）
　式（２４）より、行列Ａ'の第一行よりも周波数のインデックスがq大きいスペクトルが算出される。線形予測係数を用いて生成した高域のスペクトルは次の通りである。

　線形予測係数で算出できる範囲(t～t-o+2q)は、算出結果(b')を設定し、算出できない範囲(t -o+2q～2T-1)は0とする。
S_f[t-o+1+q+i]　= b'[i] i=0,,,,q-1　　　　（25）
S_f[t-o+2q+i]　= 0 i=0,,,,2T-1-t+o-2q　　（26）
S_f[i]：線形予測係数を用いて生成したi番目のスペクトル
t：線形予測係数を適用する狭帯域スペクトルの最大周波数のインデックス
　狭帯域信号のスペクトルと、狭帯域よりも高域のスペクトルとの統合は、各実施形態で説明した統合と同様に行えばよい。また、スペクトルの線形予測係数を算出する例について説明したが、音源信号、スペクトル包絡の線形予測係数についても同様にして算出することができる。

　これより、線形予測係数を算出して高域のスペクトルを生成する方が、モデルを与えてそのパラメータを算出するよりも、モデルを与える必要がないため、入力信号のスペクトル特性に柔軟に対応して高域のスペクトルを生成することができる。

　また、前述した各実施形態で説明した音声帯域拡張処理内容をコンピュータに実行させるためのプログラムとし、このプログラムをサーバ等からインストールして、コンピュータに実行させることにより前述した音声帯域拡張処理を実現させることも可能である。

　また、このプログラムを記録媒体（ＣＤ－ＲＯＭやＳＤカード等）に記録し、このプログラムが記録された記録媒体をコンピュータや携帯端末に読み取らせて、前述した音声帯域拡張処理を実現させることも可能である。なお、記録媒体は、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的，電気的或いは磁気的に記録する記録媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。また、開示の音声帯域拡張装置は、携帯端末やＩＰ電話機などの機器に対して適用することができる。

　以上、実施形態について詳述したが、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された範囲内において、種々の変形及び変更が可能である。

Claims

　入力信号を周波数変換してスペクトルを算出する周波数変換手段と、
　前記スペクトルを用いて、前記スペクトルの低域成分から高域成分を生成するための写像関数を算出する写像関数算出手段と、
　前記写像関数に基づいて前記スペクトルの帯域よりも高域のスペクトルを生成し、生成した前記高域のスペクトルと前記周波数変換手段により算出されたスペクトルとを統合することにより、前記周波数変換手段により算出されたスペクトルの帯域よりも広帯域のスペクトルを生成する広帯域スペクトル生成手段と、
　前記広帯域のスペクトルを周波数逆変換して出力信号を算出する周波数逆変換手段と
　を備える音声帯域拡張装置。
　前記写像関数に基づいて生成されたスペクトルと、前記周波数変換手段により算出されたスペクトルとの誤差を用いて写像関数の評価値を算出する評価手段とを更に備え、
　前記広帯域スペクトル生成手段は、
　前記評価値を用いて前記高域のスペクトルを修正する請求項１記載の音声帯域拡張装置。
　前記周波数変換手段により算出されたスペクトルを音源信号とスペクトル包絡とに分離する分離手段とを更に備え、
　前記写像関数算出手段は、
　前記分離手段により分離された分離情報を用いて、前記分離情報の低域成分から高域成分を生成するための写像関数を算出し、
　前記広帯域スペクトル生成手段は、
　前記写像関数に基づいて前記スペクトルの帯域よりも高域の分離情報を生成し、生成した前記高域の分離情報と前記分離手段により分離された分離情報とを統合し、統合した分離情報に基づいて前記広帯域のスペクトルを生成する請求項１記載の音声帯域拡張装置。
　前記写像関数に基づいて生成された分離情報と、前記分離手段により分離された分離情報との誤差を用いて写像関数の評価値を算出する評価値算出手段とを更に備え、
　前記広帯域スペクトル生成手段は、
　前記評価値を用いて前記高域の分離情報を修正する請求項３記載の音声帯域拡張装置。
　前記分離情報は、前記音源信号及び／又は前記スペクトル包絡である請求項３記載の音声帯域拡張装置。
　前記写像関数は、線形予測係数を算出する関数である請求項１乃至５いずれか１項に記載の音声帯域拡張装置。
　前記広帯域スペクトル生成手段は、
　前記写像関数と前記スペクトルの帯域よりも高域の周波数とを用いて、前記スペクトルの帯域よりも高域のスペクトルを生成する高域スペクトル生成手段と、
　前記高域のスペクトルと前記周波数変換手段により算出されたスペクトルとを統合する統合手段とを備える請求項１記載の音声帯域拡張装置。
　前記統合手段は、
　前記周波数変換手段により算出されたスペクトルの高域成分が、前記写像関数を用いて生成したスペクトルに徐々になるよう平滑化処理を行う請求項７記載の音声帯域拡張装置。
　入力信号を周波数変換してスペクトルを算出する周波数変換段階と、
　前記スペクトルを用いて前記スペクトルの低域成分から高域成分を生成するための写像関数を算出する写像関数算出段階と、
　前記写像関数に基づいて前記スペクトルの帯域よりも高域のスペクトルを生成し、生成した前記高域のスペクトルと前記周波数変換段階により算出されたスペクトルとを統合することにより、前記周波数変換段階により算出されたスペクトルの帯域よりも広帯域のスペクトルを生成する広帯域スペクトル生成段階と、
　前記広帯域のスペクトルを周波数逆変換して出力信号を算出する周波数逆変換段階と
　を有する音声帯域拡張方法。