WO2004040555A1

WO2004040555A1 - 音声強調装置

Info

Publication number: WO2004040555A1
Application number: PCT/JP2002/011332
Authority: WO
Inventors: Masanao Suzuki; Masakiyo Tanaka; Yasuji Ota; Yoshiteru Tsuchinaga
Original assignee: Fujitsu Limited
Priority date: 2002-10-31
Filing date: 2002-10-31
Publication date: 2004-05-13
Also published as: JPWO2004040555A1; JP4219898B2; CN1669074A; EP1557827A1; EP1557827A4; EP1557827B1; EP1557827B8; US7152032B2; CN100369111C; US20050165608A1

Abstract

フレーム間での増幅率の急激な変化が軽減し、雑音感の少ない良好な音質を実現するために、入力音声を音源特性と声道特性とに分離し、音源特性と声道特性を個別に強調し、その後合成して出力する音声強調装置が提供される。前記音声強調装置は、一の特徴として入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、前記信号合成手段により合成した音声を出力する。

Description

m

発明の背景

技術分野

本発明は、周囲の背景雑音がある環境において、携帯電話等における受話音声を聞きやすくする音声強調装置に関する。

従来の技術

近年、携帯電話が普及し、様々な場所で使われている。携帯電話は静かな場所だけでなく、空港や駅のホームのように周囲に雑音があるような騒がしい環境で使用されることが多い。このため、周囲の雑音によって携帯電話の受話音声が聞き取りにくくなるという問題がある。

雑音環境下での受話音声を聞きやすくする最も簡単な方法は、雑音レベルに応じて受話音量を大きくすることである。ところが、受話音量を大きくし過ぎると、携帯電話のスピーカへの入力が過大になり音声が歪んでしまい、かえって音質が劣化する場合がある。また、受話音量を大きくすると聴取者（ユーザ）の聴覚への負担が大きくなり健康上好ましくないという問題もある。

一般に、周囲雑音が大きくなると音声の明瞭度が不足して聞き取りにくくなる。そこで、音声の高域成分を一定の割合で増幅することにより明瞭度を改善する方法が考えられる。ところが、この方法では音声の高域成分だけでなく、受話音声に含まれる雑音（送話側の雑音）成分も同時に強調してしまうため音質が劣化するという問題がある。

ここで、一般に音声の周波数スペクトルには、ピークが存在し、これをホルマントと呼んでいる。図 1に音声の周波数スペクトルの例を示す。図 1はスぺクトルに 3つのピーク（ホルマント）が存在する場合を示している。周波数の低い方から順に第 1ホルマント、第 2ホルマント、第 3ホルマントと呼び、各ホルマントのピーク周波数か (1),か (2),か (3)をホルマント周波数と呼ぶ。

一般に、音声のスペクトルは周波数が高くなるにつれて振幅（電力）が小さくなる性質がある。更に、音声の明瞭度はホルマントと密接な関係があり、高次の (第 2、第 3の）ホルマントを強調することにより音声の明瞭度を改善できることが知られている。

図 2にスぺクトル強調の例を示す。図 2 (a)の実線及ぴ図 2 (b)の点線は強調する前の音声スぺクトルを表す。また、図 2 (b)の実線は強調後の音声スぺクトルを表す。図 2 (b)では、高次ホルマントの振幅を大きくすることによりスぺクトル全体の傾きが平坦になっており、これにより音声全体の明瞭度を改善することできる。

かかる高次のホルマントを強調することにより明瞭度を改善する方法として、帯域分割フィル夕を用いる方法（日本特許出願公開平 4— 3 2 8 7 9 8号公報）が知られている。この帯域フィル夕を用いる方法では、帯域分割フィルタにより音声を複数の周波数帯域に分割し、各周波数帯域を個別に増幅 ·減衰させる方法である。ところが、この方法では、分割された周波数帯域内に音声のホルマントが必ず入るという保証がないため、ホルマント以外の成分をも強調してしまい、逆に明瞭度が劣化する恐れがある。

さらに、上記の帯域フィルタを用いる従来方法における問題点を解決する方法として、音声スペクトルの凸部と凹部を増幅 ·減衰する方法'（日本特許出願公開 2 0 0 0 - 1 1 7 5 7 3号公報）がある。図 3にこの従来技術のプロヅク図を示す。この方法では、入力音声のスぺクトルをスぺクトル推定部 1 0 0により求め、求めたスペクトルから凸部帯域（山）と凹部帯域（谷）決定部 1 0 1により、凸部帯域と凹部帯域を求め、凸部帯域と凹部帯域に対する増幅率（又は減衰率）を算出する。

次に、フィル夕構成部 1 0 2により前記増幅率（又は減衰率）を実現する係数をフィル夕部 1 0 3に与え、入力音声を前記フィル夕部 1 0 3に入力することによりスペクトル強調を実現する。 .

つまり、帯域フィル夕を用いる従来方法では、音声スペクトルの山と谷を個別に増幅 ·減衰することにより音声強調を実現している。

上記の従来技術において、音量を大きくする方法では、音量を大きくするとスピー力への入力が過大となり再生音が歪む場合がある。また、受話音量を大きくすると、聴取者（ユーザ）の聴覚への負担が増し健康上好ましくない。

また、高域強調フィル夕を用いる従来方法において、単なる高域強調では、音声以外の雑音の高域が強調されるため雑音感が増すため、必ずしも明瞭度の改善には結びつかない。

さらに、帯域分割フィルタを用いる従来方法では、分割された周波数帯域内に音声のホルマントが必ず入るという保証がない。したがって、ホルマント以外の成分を強調してしまい、逆に明瞭度が劣化する場合がある。また、入力音声を音源特性と声道特性に分離せずに増幅するため、音源特性の歪が大きくなるという問題がある。

図 4に音声の生成モデルを示す。音声の生成過程は、音源（声帯） 1 1 0で発生された音源信号が調音系（声道） 1 1 1に入力され、声道 1 1 1において声道特性が付加された後、最終的に唇 1 1 2から音声波形となって出力される（「音声の高能率符号化」、 69頁〜 71頁、中田和男著、森北出版参照）。

ここで、音源特性と声道特性は全く異なった特性であるが、上記の帯域分割フィル夕を用いる従来技術では音声を音源特性と声道特性とに分離せずに音声を直接増幅する。このため、音源特性の歪みが大きくなり雑音感が増し明瞭度が劣化するという問題がある。図 5、図 6に例を示す。図 5は強調処理をする前の入力音声スペクトルである。また、図 6は帯域分割フィル夕を用いる方法で図 5の入力音声を強調処理した時のスペクトルである。図 6において、 2 kHz 以上の高域成分についてはスぺクトルの概形を保ちつつ振幅が増幅されている。ところが、 500Hz〜2kHz の部分（図 6中、丸で囲った部分）については、強調前の図 5のスベクトルと大きく異なり、音源特性が崩れていることが判る。

このように、帯域分割フィルタを用いる従来方法では、音源特性の歪が大きくなり音質が劣化する恐れがある。

また、上記のスペクトルの凸部 ·凹部を増幅する方法においては、次のような問題点が存在する。

第 1に上記の帯域分割フィルタを用いる従来方法と同様に、音声を音源特性と声道特性とに分離せずに音声自体を直接強調するため、音源特性の歪みが大きくなり雑音感が増し、明瞭度が劣化するという問題がある。

第 2に、音声信号（入力信号）から求めた L P C (線形予測係数）スペクトル又は F F T (周波数フーリエ変換）スペトルに対して直接ホルマント強調を行う。このため、入力音声をフレーム毎に処理する場合には、フレーム間で強調の度合い (増幅率 .減衰率）が変化する。したがって、フレーム間での増幅率 .減衰率が急激に変化すると、スぺクトルの変動により雑音感が増すという問題がある。かかる現象を鳥瞰スペクトル図で説明する。図 7に入力音声（強調前）のスぺクトルを示す。また、図 8にフレーム単位でスペクトルを強調した時の音声スぺクトルを示す。特に、図 7及び図 8は、時間的に連続するフレームの音声スぺクトルを並べて表示したものである。図 7、図 8より、高次ホルマントが強調されていることがわかる。ただし、図 8の 0.95秒前後および 1.03秒前後において、強調後のスペクトルに不連続性が生じている。すなわち、図 7の強調前スぺクトルではホルマント周波数は滑らかに変化しているが、図 8ではホルマントが不連続に変化している。このホルマントの不連続性は、実際に処理音声を聞いた時には雑音感として感知される。

第 3に、上記の第 2の問題点である、不連続性の問題を解決する方法として、フレーム長を大きくする方法が考えられる。フレーム長を長くすると時間的に変動の少ない平均的なスペクトル特性が得られる。ところが、フレーム長を長くすると遅延時間が大きくなるという問題がある。携帯電話などの通信用途では、遅延時間はできるだけ小さくする必要がある。したがって、通信用途ではフレーム長を大きくする方法は望ましくない。発明の概要

本発明の目的は、以上のような従来の技術における問題点に鑑みて考案されたものであり、音声の明瞭度を高めて聞き易くする音声強調方法及びこれを適用するに音声強調装置を提供することにある。

かかる本発明の目的を達成する音声強調装置は、第 1の態様として、入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、前記信号合成手段により合成した音声を出力することを特徴とする。

本発明の上記目的を達成する音声強調装置は、第 2の態様として、現フレームの入力音声から自己相関関数を求める自己相関算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、前記自己相関関数の加重平均から逆フィルタ係数を算出する第 1のフィル夕係数算出部と、前記逆フィル夕係数により構成される逆フィルタと、前記逆フィル夕係数から周波数スぺクトルを算出するスぺクトル算出部と、前記算出された周波数スぺクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、前記算出された周波数スペクトル、前記推定された前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、前記増幅率に基づいて前記算出された周波数スペクトルを変化させ、変化された周波数スぺクトルを求めるスぺクトル強調部と、前記変化された周波数スぺクトルから合成フィルタ係数を算出する第 2のフィル夕係数算出部と、前記合成フィル夕係数から構成される合成フィルタを有し、前記入力音声を前記逆フィル夕に入力して残差信号を求め、前記残差信号を前記合成フィル夕に入力して出力音声を求めることを特徴とする。

本発明の上記目的を達成する音声強調装置は、第 3の態様として、現フレームの入力音声信号を線形予測係数を分析して自己相関関数と線形予測係数を求める線形予測係数分析部と、前記係数により構成される逆フィル夕と、前記線形予測係数から周波数スぺクトルを求める第 1のスぺクトル算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、前記現フレームの自己相関と過去フレームの自己相関関数の加重平均を求める平均自己相関算出部と、前記自己相関関数の加重平均から平均フィルタ係数を算出する第 1のフィル夕係数算出部と、前記平均フィル夕係数から平均周波数スぺクトルを求める第 2のスぺクトル算出部と、前記平均スぺクトルからホルマント周波数とホルマント振幅を求めるホルマント推定部と、前記平均スペクトル、前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、前記増幅率に基づいて前記第 1のスぺクトル算出部で算出された周波数スぺクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、前記変化された周波数スぺクトルから合成フィル夕係数を算出する第 2のフィル夕係数算出部と、前記合成フィル夕係数から構成される合成フィル夕を有し、前記入力信号を前記逆フィル夕に入力して残差信号を求め、前記残差信号を前記合成フィル夕に入力して出力音声を求めることを特徴とする。

本発明の上記目的を達成する音声強調装置は、第 4の態様として、現フレームの入力音声から自己相関関数を求める自己相関算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、前記自己相関関数の加重平均から逆フィル夕係数を算出する第 1のフィル夕係数算出部と、前記逆フィル夕係数により構成される逆フィル夕と、前記逆フィル夕係数から周波数スぺクトルを算出するスぺクトル算出部と、前記周波数スぺクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、前記周波数スぺクトル、前記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、前記仮増幅率ど前フレームの増幅率との差分増幅率を算出する差分算出部と、前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を有し、前記現フレームの増幅率に基づいて前記周波数スペクトルを変化させ、変化された周波数スぺクトルを求めるスぺクトル強調部と、前記変化された周波数スぺクトルから合成フィル夕係数を算出する第 2のフィル夕係数算出部と、前記合成フィル夕係数から構成される合成フィル夕と、残差信号からピッチ強調係数を算出するピツチ強調係数算出部と、前記ピッチ強調係数により構成されるピッチ強調フィル夕を有し、前記入力音声を前記逆フィル夕に入力して残差信号を求め、前記残差信号を前記ピッチ強調フィル夕に入力してピツチ周期性が強調された残差信号を求め、前強調された記残差信号を前記合成フィル夕に入力して出力音声を求めることを特徴とする。

本発明の上記目的を達成する音声強調装置は、第 5の態様として、入力音声信号の一部の周波数帯域を強調する強調フィル夕と、前記強調フィルタにより強調された入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、前記信号合成手段により合成した音声を出力することを特徴とする。

本発明の上記目的を達成する音声強調装置は、第 6の態様として、入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合 ^¾する信号合成部と、前記信号合成手段合成信号の一部の周波数帯域を強調するフィル夕とを有することを特徴とする。

本発明の更なる特徴は、以下に図面に従い説明される発明の実施の形態例から更に明らかになる。図面の簡単な説明

図 1は、音声の周波数スペクトルの例を示す図である。

図 2は、強調前及び強調後の音声の周波数スペクトルの例を示す図である。図 3は、日本特許出願公開 2 0 0 0— 1 1 7 5 7 3号公報に記載の従来技術のプロック図を示す。

図 4は、音声の生成モデルを示す図である。

図 5は、入力音声のスペクトルの例を示す図である。

図 6は、フレーム単位で強調した時のスペクトルの例を示す図である。

図 7は、入力音声（強調前）のスペクトルを示す図である。

図 8は、フレーム単位でスぺクトルを強調した時の音声スぺクトルを示す図である。

図 9は、本発明の原理図を示す図である。図 1 0は、本発明の第 1の実施例構成ブロックを示す図である。

図 1 1は、図 1 0の実施例における増幅率算出部 6の処理を示すフロー図である。

図 1 2は、図 1 0の実施例におけるホルマント E ( ）の振幅を基準電力 Pmv— re/に合わせるときの様子を示す図である。

図 1 3は、ホルマント間の周波数における増幅率 (りを補間曲線 R ( ，りにより求めることを説明する図である。

図 1 4は、本発明の第 2の実施例構成ブロックを示す図である。

図 1 5は、本発明の第 3の実施例構成ブロックを示す図である。

図 1 6は、本発明の第 4の実施例構成ブロックを示す図である。

図 1 7は、本発明の第 5の実施例構成プロヅクを示す図である。

図 1 8は、本発明の第 6の実施例構成ブロックを示す図である。

図 1 9は、本発明により強調されたスぺクトルを示す図である。

図 2 0は、本発明の更にフレーム間で増幅率が大きく変動すると雑音感が増すという問題を解決する原理構成図である。

図 2 1は、本発明の更にフレーム間で增幅率が大きく変動すると雑音感が増すという問題を解決する別の原理構成図である。

図 2 2は、図 2 0の原理図に従う本明の実施例構成プロヅクを示す図である。発明を実施するための最良の形態

以下、図面に従い本発明の実施例を説明する。

図 9は、本発明の原理を示す図であり、本発明は、分離部 2 0により入力音声を音源特性と声道特性とに分離し、音源特性と声道特性を個別に強調し、その後合成部 2 1で合成して出力することを特徴とする。図 9における処理を以下に説明する。

時間軸領域において、所定のサンプリング周波数でサンプリングされた振幅値を有する入力音声信号ぶ (w)，（0≤" < N)，ここで、 Nはフレーム長であり、かかる入力音声信号: から分離部 2 0の平均スぺクトル算出部 1により平均スぺクトル ¾?丄 (り，（0≤ / < N_f )を算出する。このために、線形予測回路である平均スペクトル算出部 1において、先ず現フレームの自己相関関数を算出する。次に、前記現フレームの自己相関関数と過去フレームの自己相関関数との加重平均により平均自己相関を求める。この前記平均自己相関から平均スペクトルり， /く^^)を求める。また、 N_fはスぺクトルのデータ点数であり、 N≤N_Fヒする。尚、 (りを現フレームの入力音声から算出される LPCスぺクトル又は FFTスぺクトルと、過去の入力音声から算出される LPCスぺクトル又は FFTスぺクトルとの加重平均として算出してもよい。次に、スぺクトル _ι (りを分離部 2 0内の第 1のフィル夕係数算出部 2に入力して逆フィルタ係数 " り，！）を求める。ここで、は逆フィル夕 3のフィル夕次数である。

入力音声を前記求められた逆フィルタ係数《 )で構成される分離部 2 0 内の逆フィルタ 3に入力して残差信号? ·(《),(〇≤w<N)を求める。これにより入力音声を音源特性である残差信号 r ( と、声道特性であるスぺクトル _ι(/)とに分離することができる。

残差信号 r ( は、ピッチ強調部 4に入力され、そこでピッチ周期性が強調された残差信号が求められる。

一方、特徴抽出部としてのホルマント推定部 5に声道特性であるスぺクトル s_Pl(l) を入力し、ホルマント周波数か ( )，（l≤A:≤A:_max)およびホルマント振幅 flm;?( :),(l≤ :≤A_max)を推定する。ここで、 _maxは推定するホルマントの個数である。 A:_maxの値は任意であるが、サンプリング周波数が 8kHz の音声に対しては max =4又は 5とすることができる。

ついで、スペクトル _ι (りとホルマント周波数か ( ）およびホルマント振幅を増幅率算出部 6に入力し、スぺクトル _ι(Ζ)に対する増幅率 (りを算出する。

スペクトル _ι (りと増幅率 (りをスペクトル強調部 7へ入力し、強調されたスベクトル ₂ (りを求める。この強調されたスペクトル ₂ (りを、合成部 2 1を構成する合成フィル夕 9の係数を求める第 2のフィルタ係数算出部 8へ入力して合成フィルタ係数 α₂(ί·),(1≤ί·≤;?₂)を求める。ここで、 ₂は合成フィルタ 9のフィル夕次数である。上記のピッチ強調部 4によるピッチ強調後の残差信号を合成フィルタ係数《₂(りにより構成される合成フィルタ 9へ入力し、出力音声 y("), (0≤w < N)を求める。これにより、強調処理された音源特性と声道特性が合成される。

上記に説明した通り、本発明では入力音声を音源特性（残差信号）と声道特性 (スペクトル包絡）とに分離するため、それそれの特 f生に適した強調処理を行うことができる。すなわち、音源特性に対してはピッチ周期性を強調し、声道特性に対してはホルマントを強調することにより音声の明瞭度を改善できる。

また、声道特性として音声の長時間特性を用いることにより、フレーム間での増幅率の急激な変化が軽減されるため、雑音感の少ない良好な音質を実現できる。特に、現フレームの入力信号から算出した自己相関と、過去フレームの入力信号から算出した自己相関関数との加重平均を用いることにより、遅延時間を増加させることなく時間変動の少ない平均的なスぺクトル特性を得ることができる。このため、スペクトル強調に用いる増幅率の急激な変化が抑えられ、音声強調による雑音感を抑えることができる。

次に、図 9に示した本発明の原理を適用する実施例について、以下に説明する。図 1 0は、本発明に従う第 1の実施例構成のブロック図である。

図において、図 9の原理図との比較において、ピヅチ強調部 4が省略されている。

更に、分離部 2 0の実施例構成として、分離部 2 0内の平均スペクトル算出部 1をフィル夕係数算出部 2の前後に分割し、フィルタ係数算出部 2の前段で、現フレームの入力音声信号 ( ，（0≤« < N)を自己相関算出部 1 0に入力し、そこで現フレームの自己相関関数 c( )( )，（0≤ί≤ )を式（1 )により求める。ここで、 Nはフレーム長である。また、は現フレームのフレーム番号であり、は後述する逆フィルタ 3の次数である。

N-1

ac(m)(i) = χ(η) ·χ(η - i), (0≤i≤ ρ_γ) ( 1 )

n=i

更に、分離部 2 0において、ノヅファ部 1 1から直前の Lフレームにおける自 3相関関数 flc(m - ) ),（1≤ ≤ ，0≤ ≤/ が出力される。次に自己相関算出部 1 0で求めた現フレームの自己相関関数" c(m) (りと前記バッファ部 1 1からの過去の自己相関とから、平均自己相関算出部 1 2により平均自己相関 c_AE (りを求める。

ここで、平均自己相関 i?c_AE(i')の求め方は任意であるが、例えば式（2 ) の加重平均を用いることができる。ここで、 w:は重み係数である。

1 ¹

ac_AVE ( -—― Wj ,ac( 一 ) (り， (0≤i≤ _Pl) ( 2 )

+丄 =0

ここで、バヅファ部 1 1の状態更新を次のように行う。まず、バヅファ部 1 1 内に格納されている過去の自己相関関数の中で時間的に最も古い ) ）を廃棄する。次に、現フレームで算出したをバッファ部 1 1に格納する。更に、分離部 2 0において、平均自己相関算出部 1 2により求めた平均自己相関 fl ^ (りからレビンソン ·アルゴリズム等の公知の方法により第 1のフィルタ係数算出部 2において、逆フィルタ係数 (), (1≤ ί≤ )を求める。

入力音声; c ( は、フィルタ係数 (りで構成される逆フィル夕 3に入力して音源特性として残差信号 r( ), ≤«< ）を（3 )式により求める。 r(n) = χ{ή) + α_χ( x(n -ϊ), (0≤n<N) ( 3 )

i=l

一方、分離部 2 0において、フィル夕係数算出部 2の後段に置かれるスぺクトル算出部 1一 2において、フィル夕係数算出部 2で求められた係数）を下記の（4)式によりフーリエ変換して声道特性として LP Cスぺクトル _ι (りを求める。

ここで、 N_fはスペクトルのデータ点数である。サンプリング周波数を E_sとすると、 LP Cスぺクトル Ζ)の周波数分解能はとなる。変数 Πまスぺクトルのインデックスであり離散周波数を表す。 /を周波数 [Hz] に換算すると

となる。また、 int[x]は変数 Xを整数化することを意味する（以下の説明においても同様である）。上記の通り、分離部 2 0により入力音声を音源信号（残差信号 r ( ， (0≤n<N)) と声道特性（L P Cスペクトル _ι(Ζ)) とに分離することができる。

ついで、図 9において説明したように、特徴抽出部の一例としてホルマント推定部 5にスペクトル _ι(Ζ) を入力し、ホルマント周波数か ( )，（1≤ ≤ :_max)およぴホルマント振幅" ( )，（1≤ ≤ _max)を推定する。ここで、 ;_maxは推定するホルマントの個数である。 _maxの値は任意であるが、サンプリング周波数が 8 kHz の音声に対しては A_max =4又は 5とすることができる。

ホルマント推定の方法としては、逆フィル夕係数りを係数とする高次方程式の根から求める方法や、周波数スぺクトルのピークからホルマントを推定するピークピッキング法などの公知の方法を用いることができる。ホルマント周波数の低い方から順にか (1)，か (2)，Κ,か ( :_max)とする。尚、ホルマントのバンド幅に閾値を設け、バンド幅が閾値以下となる周波数だけをホルマント周波数としてもよい。

更に、ホルマント推定部 5において、ホルマント周波数か ( ）を離散ホルマント周波数か Z ( ） = int [か (） 'N_f/i ] に変換する。また、スペクトル（か Z(ん)）をホルマント振幅 amp k、とする。

かかるスぺクトル ζ) と離散ホルマント周波数か /( ）およびホルマント振幅 amp ( ）を増幅率算出部 6に入力し、スぺクトル (りに対する増幅率 5(りを算出する。

増幅率算出部 6の処理は、図 1 1の処理フローに示すように基準電力の算出（処理工程 P l)、ホルマント増幅率の算出（処理工程 P 2)、及び増幅率の補間（処理工程 P 3) の順に処理を行う。以下、各処理について順に説明する。

処理工程 P 1 ：スぺクトル _ι(Ζ)から基準電力 Pmv— re/を算出する。算出方法は任意であるが、例えば、全周波数帯域の平均電力や低域周波数の平均電力を基準電力として用いることができる。全周波数帯域の平均電力を基準電力として用いる場合、 Pow— re/は次式（5 ) で表される。

Pow_ref =— Ψ ( 5 )

N f &

処理工程 P 2 ：ホルマント ( ）の振幅を基準電力 re/に合わせるための増幅率を次式（6 ) により求める。

G(k、 = Pow_ref /amp(k) (0≤n<N_F) ( 6 ) 図 1 2にホルマント E(jt)の振幅を基準電力 — re/に合わせるときの様子が示されている。更に、図 1 2において、ホルマント間の周波数における増幅率）を補間曲線 R ( ,/)により求める。補間曲線 R ( ，/)の形状は任意であるが、例えば一次関数や二次関数などを用いることができる。図 1 3に補間曲線 ? ( ，りとして、二次曲線を用いた場合の例を示す。補間曲線 R ( Z)を式（7 )のように定義する。ここで、， b，cは補間曲線の形状を決定するパラメ一夕である。

R(k,l) = a'l² +b'l + c ( 7 ) 図 1 3に示すように、かかる補間曲線において隣り合うホルマント F ( ）と E ( +1)の間に増幅率の極小点を設定する。ここで、極小点の設定方法は任意であるが、例えば周波数 (か Z (り +か/ ( +1))/²を極小点とし、その時の増幅率を G ( ）と設定することができる。ここで、 }は定数であり、 0<y <lとする。補間曲線 ? ( ，りがホルマント E (）と E ( +1)及び極小点を通ると仮定すると式（8 ),( 9 )，（ 1 0 )が成り立つ。

G(k) = a - fpl kf + b - Jpl(k) + c ( 8 ) G(k + l)^a- fpl(k + lf +b- Jpl(k + l) + c ( 9 ) y, = ". (勵 +₂ ⁺¹))² + ( ) _{+ c} ( 1 0 ) 式（ 8 ),( 9 )，（ 1 0 )を連立方程式として解くとパラメ一夕 , b，cが求められ、補間曲線 ? ( ，りが決定される。ついで、補間曲線/? ( ,りに基づいて E(Ar)と E(ifc + 1)の間のスぺクトルに対する増幅率) を求める。

更に、上記の隣接のホルマント間の補間曲線 i? ( ，りを求めることと、隣接のホルマント間のスぺクトルに対する増幅率 j8 ）を求める処理を全てのホルマントに対して行う。

尚、図 1 2において、第 1ホルマントよりも低い周波数については、第 1 ホルマントに対する増幅率 G(l)を用いる。また、最高次のホルマントよりも高い周波数については、最高次のホルマントに対する増幅率 G ( _max；)を用いる。以上をまとめると式（ 1 1 )のようになる。 G(l), (I <か /(1))

β (り ( 1 1 )

G ( ( くり図 1 0に戻り説明すると、スペクトル Ζ) と増幅率 3(りをスペクトル強調部 7へ入力し、強調されたスぺクトル ₂(/)を式（ 1 2 ) により求める。

sp₂(l) = fi(l)-s_Pl(l), (0≤1<N_F) ( 1 2 ) ついで、強調されたスぺクトル ₂ ）を第 2のフィル夕係数算出部 8へ入力する。第 2のフィルタ係数算出部 8では、強調されたスペクトル ₂(Ζ)の逆フーリェ変換から自己相関関数な c₂(りを求め、 c₂(りからレビンソン ·アルゴリズム等の公知の方法により合成フィル夕係数《₂(り，（1≤ζ·≤;?₂)を求める。ここで、 /?₂は合成フィル夕次数である。

更に、逆フィルタ 3の出力である残差信号 r ( を係数 (りにより構成される合成フィル夕 9へ入力し、式（ 1 3 ) に示すように出力音声: w), (0≤"<N)を求める。 y{ri) = r{ri)一 a₂(i) y(n一り， (0≤n<N) ( 1 3 )

ΐ=1

以上説明の通り、図 1 0の実施例では入力音声を音源特性と声道特性とに分離し、声道特性のみを強調することが可能である。これにより、従来技術で問題となっていた声道特性と音源特性を同時に強調する場合に発生するスぺクトル歪を抑え、かつ明瞭度を改善することができる。また、図 1 0の実施の形態例ではピヅチ強調部 4が省略されているが、図 9に示す原理図に従い、ピヅチ強調部 4を逆フィルタ 3の出力側に配置して、残差信号 r ( に対し、ピヅチ強調処理を行うことも可能である。

尚、本実施例ではスぺクトル _ι (りに対する増幅率を 1スぺクトル点数単位で求めるが、スペクトルを複数の周波数帯域に分割し、各帯域別に個別の増幅率を持つようにしてもよい。

図 1 4に本発明の第 2の実施例の構成ブロック図を示す。本実施例は、現フレームの入力音声から求めた LP C係数を逆フィルタの係数とする点が、図 1 0に示した第 1の実施例と異なり、その他は第 1の実施例と同じである。

一般に、現フレームの入力信号 X ( から残差信号 rO)を求める場合には、第 1 の実施例のように平均的な周波数特性を持った L P C係数を使用する場合よりも、現フレームの入力信号から求めた L P C係数を逆フィルタ 3の係数として用いた方が予測利得は高く、声道特性と音源特性を精度良く分離できる。

そこで、第 2の実施例では、現フレームの入力音声を L P C分析部 1 3により、 L P C分析し、得られた L P C係数 (り，（l s i^ A)を逆フィル夕 3の係数として用いる。

L P C係数 (りから第 2のスぺクトル算出部 1― 2 Bによりスぺクトル）を求める。スペクトル _ι (りの算出方法は第 1の実施例の式（4 )と同じである。次に第 1のスぺクトル算出部 1― 2 Αにより平均スぺクトルを求め、この平均スぺクトルからホルマント推定部 5において、ホルマント周波数か ( ）及びホルマント振幅 mp(A:)を求める。

次に、先の実施例と同様であり、スペクトル ¾^ (りとホルマント周波数か (）及びホルマント振幅 a p ( ）から増幅率算出部 6により増幅率を求め、この増幅率を元にスぺクトル強調部 7で、スぺクトル強調を行い強調されたスぺクトル 2 ）を求める。強調されたスぺクトル ₂(Ζ)から合成フィル夕 9に設定される合成フィル夕係数ひ ₂ (りを求め、残差信号 r ( をこの合成フィル夕 9に入力して出力音声 _y ( が得られる。

以上第 2の実施例について説明した通り、本実施例においても先の実施例の構成と同様に、現フレームの声道特性と音源特性を精度よく分離し、平均スぺクトルに基づいて声道特性を滑らかに強調処理することにより明瞭度を改善することができる。

次に、図 1 5により本発明の第 3の実施例を説明する。第 3の実施例では、自動利得制御部（A G C部） 1 4を設け、合成フィル夕 9の合成出力）; ( の振幅を制御する点が第 1の実施例と異なり、その他の構成は第 1の実施例と同じである。入力音声信号 ( と最終的な出力音声信号 z ( の電力比が 1となるように A

0〇部1 4により利得の調整を行う。 A G C部 1 4として任意の方法が可能であるが、例えば以下のような方法を用いることができる。まず、入力音声信号 x(n)と合成出力 y(n)から式（ 1 4 )により振幅比。を求める。ここで、 Nはフレーム長である。

N-1

5 )²

«=0 ―

8₀ N-1 ( 1 4 )

5 (")²

«=0 次式（1 5 ) により利得制御値 GW«(w)を求める。ここで、 λは定数である。

GWw ( = (1— A).G"w("—l) + A'g。，（0≤".≤N— 1) ( 1 5 ) 最終的な出力音声信号 z(n)は次式（ 1 6 ) により求められる。

z(n) = Gain{n) ' y{n) , (0≤η≤Ν-ΐ) ( 1 6 ) 以上説明の通り、本実施例においても入力音声 x(n)を音源特性と声道特性とに分離し、声道特性のみを強調することが可能である。これにより、従来技術で問題となっていた声道特性と音源特性を同時に強調する場合に発生するスぺクトル歪を抑え、かつ明瞭度を改善することができる。

また、スぺクトル強調によって出力音声の振幅が入力信号に比べて過度に大きくならないように利得調整することにより、滑らかで自然性の高い出力音声を得ることができる。

図 1 6は、本発明の第 4の実施例のブロック図を示す。本実施例は、図 9の原理図に従い、逆フィルタ 3の出力である残差信号 ro)に対してピッチ強調処理をする点が第 1の実施例とは異なり、その他の構成は第 1の実施例と同じである。ピッチ強調フィル夕 4によるピヅチ強調の方法は任意であるが、例えばピツチ係数算出部 4- 1を設け、以下のような方法を用いることができる。

まず、現フレームの残差信号の自己相関 rscor(i)を式（ 1 7 )により求め、自己相関 racor(i)が最大となるピッチラグ Γを求める。ここで、 ag^及びはそれそれ、ピッチラグの下限と上限である。

N-1

rscor(i) - ^ r(n) (Π一 i), ( ag^≤ i≤ Lag ) ( 1 7 )

n=i

次に、ピッチラグ Γの近傍における残差信号 r«:or(r - 1), rscor(T), rscor(T + 1) から自己相関法によりピヅチ予測係数 (り, (i = -1,0，1)を求める。ピヅチ予測係数の算出方法は、レビンソン ·アルゴリズムなどの公知の方法で求めることができる。，

次に、逆フィル夕出力 r(w)をピッチ強調フィル夕 4に入力し、ピヅチ周期性が強調された音声: を求める。ピヅチ強調フィル夕 4として式 ·（ 1 8 )の伝達関数で表されるフィル夕を用いることができる。ここで、は重み係数である。

Q(z) = ( 1 8 ) l₊g_p pc(i)-z-^ 尚、ピヅチ強調フィル夕 4としてここでは I I Rフィルタを用いたが、 F I R フィルタなどの任意のフィル夕を用いることができる。

以上説明の通り、第 4の実施例によればピッチ強調フィルタ 4を付加することにより残差信号に含まれるピッチ周期成分を強調することができ、第 1の実施例に比べて音声の明瞭度を更に改善することができる。

図 1 7に本発明の第 5の実施例の構成ブロック図を示す。前フレームの増幅率を保持しておく第 2のバッファ部 1 5を備えている点が第 1の実施例と異なり、その他は第 1の実施例と同じである。

本実施例では、スペクトル算出部 1 -2のからスペクトル _ι(Ζ) とホルマント周波数か ( ）および振幅 ampij から増幅率算出部 6において仮の増幅率 _s„ (/) を求める。

仮の増幅率の算出方法は、第 1の実施例における増幅率 8(りの算出方法と同じである。次に、仮の増幅率 _s„ (りとバヅファ部 1 5から出力される前フレ —ム増幅率 S— (りから現フレームの増幅率) S(Z)を求める。ここで、前フレーム增幅率 — ₀W (りは前フレームにおいて算出された最終的な増幅率である。増幅率を求める手順は以下の通りである。

(1)仮増幅率 8 ^(りと前フレーム増幅率 jS—oW (りとの差分

= β_ρ∞ (l)-p—o!d(l)を算出する。

(2)差分があらかじめ定められた閾値 A_raよりも大きい場合は、

β(1) = β ） + とする。 (3 )差分が閾値 A よりも小さい場合は、）= ₅„(/)とする。

(4)最終的に求められたをバッファ部 1 5へ入力し、前フレーム増幅率 — oW(Z)を更新する。

第 5の実施例において、前フレーム増幅率 —oW (りを参照して増幅率 3 (りを求める部分以外は第 1の実施例と同じであるので、第 5の実施例動作についての更なる説明を省略する。

以上説明した通り、本実施例ではスぺクトル強調に使用する増幅率を求める際に、前フレームにおける増幅率を選択的に用いることにより、フレーム間で増幅率が急激に変化しないようにすることにより、スぺクトル強調による雑音感の増加を抑えつつ明瞭度を改善することができる。

図 1 8に本発明の第 6の実施例の構成ブロック図を示す。本実施例は、先の第 1及び第 3乃至第 5の実施例を組み合わせた場合の構成を示している。重複する部分は他の実施例と同じであるので、説明を省略する。

図 1 9は、上記の実施例により強調された音声スペクトルを示す図である。図 1 9のスペクトルを、図 7に示す強調前の入力音声スペクトルと、図 8に示すフレーム単位で強調したスぺクトルを比較すると本発明の効果が明瞭である。

すなわち、高次ホルマントが強調された図 8において、 0.95秒前後および 1 .03 秒前後において、強調後のスペクトルに不連続性が生じているが、図 1 9に示す音声スペクトルでは、ピーク変動が抑えられ、その不連続性が改善されていることが分かる。これによりホルマントの不連続性による、実際に処理音声を聞いた時の雑音感は生じないものとなる。

ここで、図 9の本発明の原理図に基づく、先の第 1〜第 6の各実施例により、入力音声を音源特性と声道特性とに分離し、声道特性と音源特性を個別に強調することが可能である。これにより、音声自体を強調する従来技術で問題となっていたスペクトルの歪を抑えることができ、明瞭度を改善することができる。

しかし、上記各実施例に共通して、次のような問題が未だ生じる場合がある。すなわち、上記各実施例において、音声のスペクトルを強調する場合、フレーム間で増幅率が大きく変動すると雑音感が増すという問題がある。一方、雑音感を抑えるために増幅率の変動を小さくなるように制御すると、スぺクトル強調の度合いが不十分となり、明瞭度の改善が十分でないという問題がある。

従って、本発明は更にかかる不都合を解消する場合、本発明により図 2 0，図 2 1の原理構成が適用される。図 2 0、図 2 1に示す原理構成は、動的フィル夕 Iと固定フィル夕 Πの 2段構成としている点に特徴を有する。

更に、図 2 0の構成では動的フィル夕 Iの後に固定フィルタ IIを置く場合の原理図を示しているが、図 2 1の構成のように固定フィル夕 IIを動的フィル夕 Iの前段に置いてもよい。ただし、図 2 1の構成の場合には、入力音声を分析することにより動的フィル夕 Iで使用するパラメ一夕を算出する。

動的フィル夕 Iは、先に説明した図 9に示す原理に従う構成を用いるものである。図 2 0、図 2 1では、図 9に示す原理構成の概略を示している。すなわち、動的フィル夕 Iは、入力音声を音源特性と、声道特性に分離する分離機能部 2 0、声道特性からホルマント特徴を抽出する特徴抽出機能部 5、特徴抽出機能部 5から得られるホルマント特徴に基づき増幅率を算出する増幅率算出機能部 6、算出された増幅率に対応して声道特性のスぺクトルを強調するスぺクトル機能部 7及ぴ、音源特性とスペクトル強調された声道特性を合成する合成機能部 2 1を有している。

固定フィルタ IIは、所定範囲の周波数幅において、一定の通過帯域を有するフィル夕特性を有している。固定フィル夕 IIで強調する周波数帯域は任意であるが、例えば 2 kHz以上の高域周波数帯域や 1 kHz〜 3 kHzの中間帯域成分を強調する帯域強調フィル夕を用いることができる。

固定フィル夕 IIにより一部の周波数帯域を増幅し、動的フィル夕 Iによりホルマントを強調する。固定フィル夕 IIの増幅率は固定であるため、フレーム間における増幅率の変動はない。このような構成にすることにより、動的フィルタ Iによる過度の強調を防ぎ、かつ明瞭度を改善することができる。

図 2 2は、図 2 0の原理図に基づく本発明の更なる実施例構成のブロック図である。この実施例は、動的フィル夕 Iとして、先に説明した第 3の実施例構成を用いている。従って、その再度の詳細説明は省略する。

この実施例では動的フィルタ Iにより入力音声を音源特性と声道特性とに分離し、声道特性のみを強調する。これにより、従来技術で問題となっていた声道特性と音源特性を同時に強調する場合に発生するスぺクトル歪を抑え、かつ明瞭度を改善することができる。また、スペクトル強調によって出力音声の振幅が入力信号に比べて過度に大きくならないように A G C部 1 4により利得調整することにより、滑らかで自然性の高い出力音声を得ることができる。

更に、固定フィル夕 IIにより一部の周波数帯域を一定の割合で増幅することにより、雑音感が少なく、明瞭度の高い音声を得ることができる。産業上の利用可能性

以上図面に従い説明した通り、本発明により声道特性と音源特性を個別に強調することが可能である。これにより、音声自体を強調する従来技術で問題となつていたスぺクトルの歪を抑えることができ、明瞭度を改善することができる。また、声道特性を強調する際に、平均スペクトルに基づいて強調することにより、フレーム間での増幅率の急激な変化が軽減されるため、雑音感の少ない良好な音質を実現できる。

かかる点から本発明は、携帯電話における好ましい音声通話を可能できるので、更なる携帯電話の普及に寄与することが可能である。

なお、本発明を上記実施例に従い説明したが、かかる実施例は本発明の理解のためのものであり、本発明の保護の範囲は、これら実施例に限定されるものではない。すなわち、請求項に記載の要件と均等の範囲にある場合も、本発明の保護の範囲に含まれるものである。

Claims

請求の範囲

1 . 入力音声信号を音源特性と声道特性とに分離する信号分離部と、

前記声道特性から特徴情報を抽出する特徴抽出部と、

前記声道特性と前記特徴情報とから前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、

前記信号合成手段により合成した音声を出力することを特徴とする音声強調装

2 . 入力音声信号を音源特性と声道特性とに分離する信号分離部と、

俞記声道特性から特徴情報を抽出する特徴抽出部と、

前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、

前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、

前記信号合成手段により合成した音声を出力することを特徴とする音声強調装置。

3 . 請求項 2において、

前記信号分離手段は、入力音声を線形予測分析して得られる線形予測（L P C ) 係数により構成されるフィルタであることを特徴とする音声強調装置。

4 . 請求項 3において、

前記線形予測係数は、入力音声から算出した自己相関関数の平均から求められることを特徴とする音声強調装置。

5 . 請求項 3において、

前記線形予測係数は、現フレームの入力音声から算出した自己相関関数と、過去のフレームの入力音声から算出した自己相関関数との加重平均から求められることを特徴とする音声強調装置。

6 . 請求項 3において、

前記線形予測係数は、現フレームの入力音声から算出した線形予測係数と、過去のフレームの入力音声から算出した線形予測係数との加重平均から求められることを特徴とする音声強調装置。

7 . 請求項 2において、

前記声道特性は、前記入力音声を線形予測分析して得られる線形予測係数から算出される線形予測スぺクトル、又は入力音声のフーリエ変換から求められるパワースぺクトルであることを特徴とする音声強調装置。

8 . 請求項 2において、

前記特徴抽出部は、前記入力音声を線形予測分析して得られる線形予測係数から極配置を求め、前記極配置からホルマント周波数とホルマント振幅又はホルマントのバンド幅を求めることを特徴とする音声強調装置。

9 . 請求項 2において、

前記特徴抽出部は、線形予測スペクトル又は前記パワースペクトルからホルマント周波数とホルマント振幅又はホルマントのバンド幅を求めることを特徴とする音声強調装置。

1 0 . 請求項 8又は、 9において、

前記声道特性修正部は、前記ホルマント振幅の平均振幅を求め、前記平均振幅に応じて前記ホルマント振幅又はホルマントのバンド幅を変化させることを特徴とする音声強調装置。

1 1 . 請求項 8又は、 9において、前記声道特性修正部は、線形予測スぺクトル又は前記パワースぺクトルの平均振幅を求め、前記平均振幅に応じて前記ホルマント振幅又はホルマントのバンド幅を変化させることを特徴とする音声強調装置。

1 2 . 請求項 2において、

前記合成部からの前記出力音声の振幅は、自動利得制御部により制御されることを特徴とする音声強調装置。

1 3 . 請求項 2において、

更に、前記音源特性である残差信号に対してピッチ強調を行うピッチ強調部を有することを特徴とする音声強調装置。

1 . 請求項 2において、

前記声道特性修正部は、現フレームにおける仮増幅率を求める計算部を有し、前フレームの増幅率と現フレームの仮増幅率との差分又は比を求め、前記差分又は比があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分又は比が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とすることを特徴とする音声強調装置。

1 5 . 現フレームの入力音声から自己相関関数を求める自己相関算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバヅファ部と、

前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、

前記自己相関関数の加重平均から逆フィル夕係数を算出する第 1のフィルタ係数算出部と、

前記逆フィルタ係数により構成される逆フィル夕と、

前記逆フィルタ係数から周波数スぺクトルを算出するスぺクトル算出部と、前記算出された周波数スぺクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、

前記算出された周波数スぺクトル、前記推定された前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、

前記増幅率に基づいて前記算出された周波数スペクトルを変化させ、変化された周波数スぺクトルを求めるスぺクトル強調部と、

前記変化された周波数スぺクトルから合成フィル夕係数を算出する第 2のフィル夕係数算出部と、

前記合成フィル夕係数から構成される合成フィルタを有し、

前記入力音声を前記逆フィル夕に入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。

1 6 . 現フレームの入力音声信号を線形予測係数を分析して自己相関関数と線形予測係数を求める線形予測係数分析部と、

前記係数により構成される逆フィル夕と、

前記線形予測係数から周波数スぺクトルを求める第 1のスぺクトル算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバヅファ部と、

前記現フレームの自己相関と過去フレームの自己相関関数の加重平均を求める平均自己相関算出部と、

前記自己相関関数の加重平均から平均フィル夕係数を算出する第 1のフィル夕係数算出部と、

前記平均フィル夕係数から平均周波数スぺクトルを求める第 2のスぺクトル算出部と、

前記平均スぺクトルからホルマント周波数とホルマント振幅を求めるホルマント推定部と、

前記平均スぺクトル、前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、

前記増幅率に基づいて前記第 1のスぺクトル算出部で算出された周波数スぺクトルを変化させ、変化された周波数スぺクトルを求めるスぺクトル強調部と、前記変化された周波数スぺクトルから合成フィルタ係数を算出する第 2のフィル夕係数算出部と、

前記合成フィル夕係数から構成される合成フィル夕を有し、

前記入力信号を前記逆フィルタに入力し残差信号を求め、前記残差信号を前記合成フィル夕に入力して出力音声を求めることを特徴とする音声強調装置。

1 7 . 請求項 1 5において、

更に、前記合成フィルタ出力の振幅を制御する自動利得制御部を有し、前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィル夕に入力して再生音声を求め、前記再生音声を前記自動利得制御部に入力して出力音声を求めることを特徴とする音声強調装置。

1 8 . 請求項 1 5において、

更に、前記残差信号からピッチ強調係数を算出するピッチ強調係数算出部と、前記ピッチ強調係数により構成されるピッチ強調フィル夕を有し、

前記入力音声を前記逆フィルタに入力して求められた残差信号を前記ピッチ強調フィル夕に入力してピッチ周期性が強調された残差信号を求め、前記ピッチ周期性が強調された残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。

1 9 . 請求項 1 5において、前記増幅率算出部は、

スぺクトル算出部で前記逆フィル夕係数から算出された周波数スぺクトル、前記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、

前記仮増幅率と前フレームの増幅率との差分を算出する差分算出部と、前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を有することを特徴とする音声強調装置。

2 0 . 現フレームの入力音声から自己相関関数を求める自己相関算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバヅファ部と、

前記自己相関関数の加重平均から逆フィル夕係数を算出する第 1のフィル夕係数算出部と、

前記逆フィル夕係数により構成される逆フィル夕と、

前記逆フィルタ係数から周波数スぺクトルを算出するスぺクトル算出部と、前記周波数スぺクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、

前記周波数スぺクトル、前記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、

前記仮増幅率と前フレームの増幅率との差分増幅率を算出する差分算出部と、前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を有し、

前記現フレームの増幅率に基づいて前記周波数スぺクトルを変化させ、変化された周波数スぺクトルを求めるスぺクトル強調部と、

前記合成フィルタ係数から構成される合成フィル夕と、

残差信号からピッチ強調係数を算出するピ、ソチ強調係数算出部と、

前記ピッチ強調係数により構成されるピッチ強調フィル夕を有し、

前記入力音声を前記逆フィル夕に入力して残差信号を求め、前記残差信号を前記ピッチ強調フィル夕に入力してピッチ周期性が強調された残差信号を求め、前強調された記残差信号を前記合成フィル夕に入力して出力音声を求めることを特徴とする音声強調装置。

2 1 . 入力音声信号の一部の周波数帯域を強調する強調フィル夕と

前記強調フィル夕により強調された入力音声信号を音源特性と声道特性とに分離する信号分離部と、

前記声道特性から特徴情報を抽出する特徴抽出部と、

前記信号合成手段により合成した音声を出力することを特徴とする音声強調装置 2 2 . 入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、

前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成部と、

前記信号合成手段合成信号の一部の周波数帯域を強調するフィル夕とを有することを特徴とする音声強調装置。