JPWO2004040555A1 - 音声強調装置 - Google Patents

音声強調装置 Download PDF

Info

Publication number
JPWO2004040555A1
JPWO2004040555A1 JP2004547997A JP2004547997A JPWO2004040555A1 JP WO2004040555 A1 JPWO2004040555 A1 JP WO2004040555A1 JP 2004547997 A JP2004547997 A JP 2004547997A JP 2004547997 A JP2004547997 A JP 2004547997A JP WO2004040555 A1 JPWO2004040555 A1 JP WO2004040555A1
Authority
JP
Japan
Prior art keywords
vocal tract
unit
amplification factor
speech
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004547997A
Other languages
English (en)
Other versions
JP4219898B2 (ja
Inventor
鈴木 政直
政直 鈴木
田中 正清
正清 田中
大田 恭士
恭士 大田
土永 義照
義照 土永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2004040555A1 publication Critical patent/JPWO2004040555A1/ja
Application granted granted Critical
Publication of JP4219898B2 publication Critical patent/JP4219898B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

フレーム間での増幅率の急激な変化が軽減し、雑音感の少ない良好な音質を実現するために、入力音声を音源特性と声道特性とに分離し、音源特性と声道特性を個別に強調し、その後合成して出力する音声強調装置が提供される。前記音声強調装置は、一の特徴として入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、前記信号合成手段により合成した音声を出力する。

Description

発明の背景
本発明は、周囲の背景雑音がある環境において、携帯電話等における受話音声を聞きやすくする音声強調装置に関する。
近年、携帯電話が普及し、様々な場所で使われている。携帯電話は静かな場所だけでなく、空港や駅のホームのように周囲に雑音があるような騒がしい環境で使用されることが多い。このため、周囲の雑音によって携帯電話の受話音声が聞き取りにくくなるという問題がある。
雑音環境下での受話音声を聞きやすくする最も簡単な方法は、雑音レベルに応じて受話音量を大きくすることである。ところが、受話音量を大きくし過ぎると、携帯電話のスピーカへの入力が過大になり音声が歪んでしまい、かえって音質が劣化する場合がある。また、受話音量を大きくすると聴取者(ユーザ)の聴覚への負担が大きくなり健康上好ましくないという問題もある。
一般に、周囲雑音が大きくなると音声の明瞭度が不足して聞き取りにくくなる。そこで、音声の高域成分を一定の割合で増幅することにより明瞭度を改善する方法が考えられる。ところが、この方法では音声の高域成分だけでなく、受話音声に含まれる雑音(送話側の雑音)成分も同時に強調してしまうため音質が劣化するという問題がある。
ここで、一般に音声の周波数スペクトルには、ピークが存在し、これをホルマントと呼んでいる。図1に音声の周波数スペクトルの例を示す。図1はスペクトルに3つのピーク(ホルマント)が存在する場合を示している。周波数の低い方から順に第1ホルマント、第2ホルマント、第3ホルマントと呼び、各ホルマントのピーク周波数fp(1),fp(2),fp(3)をホルマント周波数と呼ぶ。
一般に、音声のスペクトルは周波数が高くなるにつれて振幅(電力)が小さくなる性質がある。更に、音声の明瞭度はホルマントと密接な関係があり、高次の(第2、第3の)ホルマントを強調することにより音声の明瞭度を改善できることが知られている。
図2にスペクトル強調の例を示す。図2(a)の実線及び図2(b)の点線は強調する前の音声スペクトルを表す。また、図2(b)の実線は強調後の音声スペクトルを表す。図2(b)では、高次ホルマントの振幅を大きくすることによりスペクトル全体の傾きが平坦になっており、これにより音声全体の明瞭度を改善することできる。
かかる高次のホルマントを強調することにより明瞭度を改善する方法として、帯域分割フィルタを用いる方法(日本特許出願 公開平4−328798号公報)が知られている。この帯域フィルタを用いる方法では、帯域分割フィルタにより音声を複数の周波数帯域に分割し、各周波数帯域を個別に増幅・減衰させる方法である。ところが、この方法では、分割された周波数帯域内に音声のホルマントが必ず入るという保証がないため、ホルマント以外の成分をも強調してしまい、逆に明瞭度が劣化する恐れがある。
さらに、上記の帯域フィルタを用いる従来方法における問題点を解決する方法として、音声スペクトルの凸部と凹部を増幅・減衰する方法(日本特許出願 公開2000−117573号公報)がある。図3にこの従来技術のブロック図を示す。この方法では、入力音声のスペクトルをスペクトル推定部100により求め、求めたスペクトルから凸部帯域(山)と凹部帯域(谷)決定部101により、凸部帯域と凹部帯域を求め、凸部帯域と凹部帯域に対する増幅率(又は減衰率)を算出する。
次に、フィルタ構成部102により前記増幅率(又は減衰率)を実現する係数をフィルタ部103に与え、入力音声を前記フィルタ部103に入力することによりスペクトル強調を実現する。
つまり、帯域フィルタを用いる従来方法では、音声スペクトルの山と谷を個別に増幅・減衰することにより音声強調を実現している。
上記の従来技術において、音量を大きくする方法では、音量を大きくするとスピーカへの入力が過大となり再生音が歪む場合がある。また、受話音量を大きくすると、聴取者(ユーザ)の聴覚への負担が増し健康上好ましくない。
また、高域強調フィルタを用いる従来方法において、単なる高域強調では、音声以外の雑音の高域が強調されるため雑音感が増すため、必ずしも明瞭度の改善には結びつかない。
さらに、帯域分割フィルタを用いる従来方法では、分割された周波数帯域内に音声のホルマントが必ず入るという保証がない。したがって、ホルマント以外の成分を強調してしまい、逆に明瞭度が劣化する場合がある。また、入力音声を音源特性と声道特性に分離せずに増幅するため、音源特性の歪が大きくなるという問題がある。
図4に音声の生成モデルを示す。音声の生成過程は、音源(声帯)110で発生された音源信号が調音系(声道)111に入力され、声道111において声道特性が付加された後、最終的に唇112から音声波形となって出力される(「音声の高能率符号化」、69頁〜71頁、中田和男著、森北出版 参照)。
ここで、音源特性と声道特性は全く異なった特性であるが、上記の帯域分割フィルタを用いる従来技術では音声を音源特性と声道特性とに分離せずに音声を直接増幅する。このため、音源特性の歪みが大きくなり雑音感が増し明瞭度が劣化するという問題がある。図5、図6に例を示す。図5は強調処理をする前の入力音声スペクトルである。また、図6は帯域分割フィルタを用いる方法で図5の入力音声を強調処理した時のスペクトルである。図6において、2kHz以上の高域成分についてはスペクトルの概形を保ちつつ振幅が増幅されている。ところが、500Hz〜2kHzの部分(図6中、丸で囲った部分)については、強調前の図5のスペクトルと大きく異なり、音源特性が崩れていることが判る。
このように、帯域分割フィルタを用いる従来方法では、音源特性の歪が大きくなり音質が劣化する恐れがある。
また、上記のスペクトルの凸部・凹部を増幅する方法においては、次のような問題点が存在する。
第1に上記の帯域分割フィルタを用いる従来方法と同様に、音声を音源特性と声道特性とに分離せずに音声自体を直接強調するため、音源特性の歪みが大きくなり雑音感が増し、明瞭度が劣化するという問題がある。
第2に、音声信号(入力信号)から求めたLPC(線形予測係数)スペクトル又はFFT(周波数フーリエ変換)スペトルに対して直接ホルマント強調を行う。このため、入力音声をフレーム毎に処理する場合には、フレーム間で強調の度合い(増幅率・減衰率)が変化する。したがって、フレーム間での増幅率・減衰率が急激に変化すると、スペクトルの変動により雑音感が増すという問題がある。
かかる現象を鳥瞰スペクトル図で説明する。図7に入力音声(強調前)のスペクトルを示す。また、図8にフレーム単位でスペクトルを強調した時の音声スペクトルを示す。特に、図7及び図8は、時間的に連続するフレームの音声スペクトルを並べて表示したものである。図7、図8より、高次ホルマントが強調されていることがわかる。ただし、図8の0.95秒前後および1.03秒前後において、強調後のスペクトルに不連続性が生じている。すなわち、図7の強調前スペクトルではホルマント周波数は滑らかに変化しているが、図8ではホルマントが不連続に変化している。このホルマントの不連続性は、実際に処理音声を聞いた時には雑音感として感知される。
第3に、上記の第2の問題点である、不連続性の問題を解決する方法として、フレーム長を大きくする方法が考えられる。フレーム長を長くすると時間的に変動の少ない平均的なスペクトル特性が得られる。ところが、フレーム長を長くすると遅延時間が大きくなるという問題がある。携帯電話などの通信用途では、遅延時間はできるだけ小さくする必要がある。したがって、通信用途ではフレーム長を大きくする方法は望ましくない。
発明の概要
本発明の目的は、以上のような従来の技術における問題点に鑑みて考案されたものであり、音声の明瞭度を高めて聞き易くする音声強調方法及びこれを適用するに音声強調装置を提供することにある。
かかる本発明の目的を達成する音声強調装置は、第1の態様として、入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、前記信号合成手段により合成した音声を出力することを特徴とする。
本発明の上記目的を達成する音声強調装置は、第2の態様として、現フレームの入力音声から自己相関関数を求める自己相関算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、前記自己相関関数の加重平均から逆フィルタ係数を算出する第1のフィルタ係数算出部と、前記逆フィルタ係数により構成される逆フィルタと、前記逆フィルタ係数から周波数スペクトルを算出するスペクトル算出部と、前記算出された周波数スペクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、前記算出された周波数スペクトル、前記推定された前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、前記増幅率に基づいて前記算出された周波数スペクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、前記変化された周波数スペクトルから合成フィルタ係数を算出する第2のフィルタ係数算出部と、前記合成フィルタ係数から構成される合成フィルタを有し、前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする。
本発明の上記目的を達成する音声強調装置は、第3の態様として、現フレームの入力音声信号を線形予測係数を分析して自己相関関数と線形予測係数を求める線形予測係数分析部と、前記係数により構成される逆フィルタと、前記線形予測係数から周波数スペクトルを求める第1のスペクトル算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、前記現フレームの自己相関と過去フレームの自己相関関数の加重平均を求める平均自己相関算出部と、前記自己相関関数の加重平均から平均フィルタ係数を算出する第1のフィルタ係数算出部と、前記平均フィルタ係数から平均周波数スペクトルを求める第2のスペクトル算出部と、前記平均スペクトルからホルマント周波数とホルマント振幅を求めるホルマント推定部と、前記平均スペクトル、前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、前記増幅率に基づいて前記第1のスペクトル算出部で算出された周波数スペクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、前記変化された周波数スペクトルから合成フィルタ係数を算出する第2のフィルタ係数算出部と、前記合成フィルタ係数から構成される合成フィルタを有し、前記入力信号を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする。
本発明の上記目的を達成する音声強調装置は、第4の態様として、現フレームの入力音声から自己相関関数を求める自己相関算出部と、前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、前記自己相関関数の加重平均から逆フィルタ係数を算出する第1のフィルタ係数算出部と、前記逆フィルタ係数により構成される逆フィルタと、前記逆フィルタ係数から周波数スペクトルを算出するスペクトル算出部と、前記周波数スペクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、前記周波数スペクトル、前記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、前記仮増幅率と前フレームの増幅率との差分増幅率を算出する差分算出部と、前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を有し、前記現フレームの増幅率に基づいて前記周波数スペクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、前記変化された周波数スペクトルから合成フィルタ係数を算出する第2のフィルタ係数算出部と、前記合成フィルタ係数から構成される合成フィルタと、残差信号からピッチ強調係数を算出するピッチ強調係数算出部と、前記ピッチ強調係数により構成されるピッチ強調フィルタを有し、前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記ピッチ強調フィルタに入力してピッチ周期性が強調された残差信号を求め、前強調された記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする。
本発明の上記目的を達成する音声強調装置は、第5の態様として、入力音声信号の一部の周波数帯域を強調する強調フィルタと、前記強調フィルタにより強調された入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、前記信号合成手段により合成した音声を出力することを特徴とする。
本発明の上記目的を達成する音声強調装置は、第6の態様として、入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成部と、前記信号合成手段合成信号の一部の周波数帯域を強調するフィルタとを有することを特徴とする。
本発明の更なる特徴は、以下に図面に従い説明される発明の実施の形態例から更に明らかになる。
図1は、音声の周波数スペクトルの例を示す図である。
図2は、強調前及び強調後の音声の周波数スペクトルの例を示す図である。
図3は、日本特許出願 公開2000−117573号公報に記載の従来技術のブロック図を示す。
図4は、音声の生成モデルを示す図である。
図5は、入力音声のスペクトルの例を示す図である。
図6は、フレーム単位で強調した時のスペクトルの例を示す図である。
図7は、入力音声(強調前)のスペクトルを示す図である。
図8は、フレーム単位でスペクトルを強調した時の音声スペクトルを示す図である。
図9は、本発明の原理図を示す図である。
図10は、本発明の第1の実施例構成ブロックを示す図である。
図11は、図10の実施例における増幅率算出部6の処理を示すフロー図である。
図12は、図10の実施例におけるホルマントF(k)の振幅を基準電力Pow_refに合わせるときの様子を示す図である。
図13は、ホルマント間の周波数における増幅率β(l)を補間曲線R(k,l)により求めることを説明する図である。
図14は、本発明の第2の実施例構成ブロックを示す図である。
図15は、本発明の第3の実施例構成ブロックを示す図である。
図16は、本発明の第4の実施例構成ブロックを示す図である。
図17は、本発明の第5の実施例構成ブロックを示す図である。
図18は、本発明の第6の実施例構成ブロックを示す図である。
図19は、本発明により強調されたスペクトルを示す図である。
図20は、本発明の更にフレーム間で増幅率が大きく変動すると雑音感が増すという問題を解決する原理構成図である。
図21は、本発明の更にフレーム間で増幅率が大きく変動すると雑音感が増すという問題を解決する別の原理構成図である。
図22は、図20の原理図に従う本発明の実施例構成ブロックを示す図である。
以下、図面に従い本発明の実施例を説明する。
図9は、本発明の原理を示す図であり、本発明は、分離部20により入力音声を音源特性と声道特性とに分離し、音源特性と声道特性を個別に強調し、その後合成部21で合成して出力することを特徴とする。図9における処理を以下に説明する。
時間軸領域において、所定のサンプリング周波数でサンプリングされた振幅値を有する入力音声信号x(n),(0n<N),ここで、Nはフレーム長であり、かかる入力音声信号x(n)から分離部20の平均スペクトル算出部1により平均スペクトルsp(l),(0l<N)を算出する。
このために、線形予測回路である平均スペクトル算出部1において、先ず現フレームの自己相関関数を算出する。次に、前記現フレームの自己相関関数と過去フレームの自己相関関数との加重平均により平均自己相関を求める。この前記平均自己相関から平均スペクトルsp(l),(0l<N)を求める。また、Nはスペクトルのデータ点数であり、Nとする。尚、sp(l)を現フレームの入力音声から算出されるLPCスペクトル又はFFTスペクトルと、過去の入力音声から算出されるLPCスペクトル又はFFTスペクトルとの加重平均として算出してもよい。
次に、スペクトルsp(l)を分離部20内の第1のフィルタ係数算出部2に入力して逆フィルタ係数α(i),(1)を求める。ここで、pは逆フィルタ3のフィルタ次数である。
入力音声x(n)を前記求められた逆フィルタ係数α(i)で構成される分離部20内の逆フィルタ3に入力して残差信号r(n),(0n<N)を求める。これにより入力音声を音源特性である残差信号r(n)と、声道特性であるスペクトルsp(l)とに分離することができる。
残差信号r(n)は、ピッチ強調部4に入力され、そこでピッチ周期性が強調された残差信号s(n)が求められる。
一方、特徴抽出部としてのホルマント推定部5に声道特性であるスペクトルsp(l)を入力し、ホルマント周波数fp(k),(1max)およびホルマント振幅amp(k),(1max)を推定する。ここで、kmaxは推定するホルマントの個数である。kmaxの値は任意であるが、サンプリング周波数が8kHzの音声に対してはkmax=4又は5とすることができる。
ついで、スペクトルsp(l)とホルマント周波数fp(k)およびホルマント振幅amp(k)を増幅率算出部6に入力し、スペクトルsp(l)のに対する増幅率β(l)を算出する。
スペクトルsp(l)と増幅率β(l)をスペクトル強調部7へ入力し、強調されたスペクトルsp(l)を求める。この強調されたスペクトルsp(l)を、合成部21を構成する合成フィルタ9の係数を求める第2のフィルタ係数算出部8へ入力して合成フィルタ係数α(i),(1)を求める。ここで、pは合成フィルタ9のフィルタ次数である。
上記のピッチ強調部4によるピッチ強調後の残差信号s(n)を合成フィルタ係数α(i)により構成される合成フィルタ9へ入力し、出力音声y(n),(0n<N)を求める。これにより、強調処理された音源特性と声道特性が合成される。
上記に説明した通り、本発明では入力音声を音源特性(残差信号)と声道特性(スペクトル包絡)とに分離するため、それぞれの特性に適した強調処理を行うことができる。すなわち、音源特性に対してはピッチ周期性を強調し、声道特性に対してはホルマントを強調することにより音声の明瞭度を改善できる。
また、声道特性として音声の長時間特性を用いることにより、フレーム間での増幅率の急激な変化が軽減されるため、雑音感の少ない良好な音質を実現できる。特に、現フレームの入力信号から算出した自己相関と、過去フレームの入力信号から算出した自己相関関数との加重平均を用いることにより、遅延時間を増加させることなく時間変動の少ない平均的なスペクトル特性を得ることができる。このため、スペクトル強調に用いる増幅率の急激な変化が抑えられ、音声強調による雑音感を抑えることができる。
次に、図9に示した本発明の原理を適用する実施例について、以下に説明する。
図10は、本発明に従う第1の実施例構成のブロック図である。
図において、図9の原理図との比較において、ピッチ強調部4が省略されている。
更に、分離部20の実施例構成として、分離部20内の平均スペクトル算出部1をフィルタ係数算出部2の前後に分割し、フィルタ係数算出部2の前段で、現フレームの入力音声信号x(n),(0n<N)を自己相関算出部10に入力し、そこで現フレームの自己相関関数ac(m)(i),(0)を式(1)により求める。ここで、Nはフレーム長である。また、mは現フレームのフレーム番号であり、pは後述する逆フィルタ3の次数である。
Figure 2004040555
更に、分離部20において、バッファ部11から直前のLフレームにおける自己相関関数ac(m−j)(i),(1L,0)が出力される。次に自己相関算出部10で求めた現フレームの自己相関関数ac(m)(i)と前記バッファ部11からの過去の自己相関とから、平均自己相関算出部12により平均自己相関acAVE(i)を求める。
ここで、平均自己相関acAVE(i)の求め方は任意であるが、例えば式(2)の加重平均を用いることができる。ここで、wは重み係数である。
Figure 2004040555
ここで、バッファ部11の状態更新を次のように行う。まず、バッファ部11内に格納されている過去の自己相関関数の中で時間的に最も古いac(m−L)(i)を廃棄する。次に、現フレームで算出したac(m)(i)をバッファ部11に格納する。
更に、分離部20において、平均自己相関算出部12により求めた平均自己相関acAVE(i)からレビンソン・アルゴリズム等の公知の方法により第1のフィルタ係数算出部2において、逆フィルタ係数α(i),(1)を求める。
入力音声x(n)は、フィルタ係数α(i)で構成される逆フィルタ3に入力して音源特性として残差信号r(n),(0n<N)を(3)式により求める。
Figure 2004040555
一方、分離部20において、フィルタ係数算出部2の後段に置かれるスペクトル算出部1−2において、フィルタ係数算出部2で求められた係数α(i)を下記の(4)式によりフーリエ変換して声道特性としてLPCスペクトルsp(l)を求める。
Figure 2004040555
ここで、Nはスペクトルのデータ点数である。サンプリング周波数をFとすると、LPCスペクトルsp(l)の周波数分解能はF/Nとなる。変数lはスペクトルのインデックスであり離散周波数を表す。lを周波数[Hz]に換算するとint[l・F/N][Hz]となる。また、int[x]は変数xを整数化することを意味する(以下の説明においても同様である)。
上記の通り、分離部20により入力音声を音源信号(残差信号r(n),(0n<N))と声道特性(LPCスペクトルsp(l))とに分離することができる。
ついで、図9において説明したように、特徴抽出部の一例としてホルマント推定部5にスペクトルsp(l)を入力し、ホルマント周波数fp(k),(1max)およびホルマント振幅amp(k),(1max)を推定する。ここで、kmaxは推定するホルマントの個数である。kmaxの値は任意であるが、サンプリング周波数が8kHzの音声に対してはkmax=4又は5とすることができる。
ホルマント推定の方法としては、逆フィルタ係数α(i)を係数とする高次方程式の根から求める方法や、周波数スペクトルのピークからホルマントを推定するピークピッキング法などの公知の方法を用いることができる。ホルマント周波数の低い方から順にfp(1),fp(2),K,fp(kmax)とする。尚、ホルマントのバンド幅に閾値を設け、バンド幅が閾値以下となる周波数だけをホルマント周波数としてもよい。
更に、ホルマント推定部5において、ホルマント周波数fp(k)を離散ホルマント周波数fpl(k)=int[fp(k)・N/F]に変換する。また、スペクトルsp(fpl(k))をホルマント振幅amp(k)とする。
かかるスペクトルsp(l)と離散ホルマント周波数fpl(k)およびホルマント振幅amp(k)を増幅率算出部6に入力し、スペクトルsp(l)に対する増幅率β(l)を算出する。
増幅率算出部6の処理は、図11の処理フローに示すように基準電力の算出(処理工程P1)、ホルマント増幅率の算出(処理工程P2)、及び増幅率の補間(処理工程P3)の順に処理を行う。以下、各処理について順に説明する。
処理工程P1:スペクトルsp(l)から基準電力Pow_refを算出する。算出方法は任意であるが、例えば、全周波数帯域の平均電力や低域周波数の平均電力を基準電力として用いることができる。全周波数帯域の平均電力を基準電力として用いる場合、Pow_refは次式(5)で表される。
Figure 2004040555
処理工程P2:ホルマントF(k)の振幅を基準電力Pow_refに合わせるための増幅率G(k)を次式(6)により求める。
Figure 2004040555
図12にホルマントF(k)の振幅を基準電力Pow_refに合わせるときの様子が示されている。更に、図12において、ホルマント間の周波数における増幅率β(l)を補間曲線R(k,l)により求める。補間曲線R(k,l)の形状は任意であるが、例えば一次関数や二次関数などを用いることができる。図13に補間曲線R(k,l)として、二次曲線を用いた場合の例を示す。補間曲線R(k,l)を式(7)のように定義する。ここで、a,b,cは補間曲線の形状を決定するパラメータである。
Figure 2004040555
図13に示すように、かかる補間曲線において隣り合うホルマントF(k)とF(k+1)の間に増幅率の極小点を設定する。ここで、極小点の設定方法は任意であるが、例えば周波数(fpl(k)+fpl(k+1))/2を極小点とし、その時の増幅率をγ・G(k)と設定することができる。ここで、γは定数であり、0<γ<1とする。
補間曲線R(k,l)がホルマントF(k)とF(k+1)及び極小点を通ると仮定すると式(8),(9),(10)が成り立つ。
Figure 2004040555
式(8),(9),(10)を連立方程式として解くとパラメータa,b,cが求められ、補間曲線R(k,l)が決定される。ついで、補間曲線R(k,l)に基づいてF(k)とF(k+1)の間のスペクトルに対する増幅率β(l)を求める。
更に、上記の隣接のホルマント間の補間曲線R(k,l)を求めることと、隣接のホルマント間のスペクトルに対する増幅率β(l)を求める処理を全てのホルマントに対して行う。
尚、図12において、第1ホルマントF(1)よりも低い周波数については、第1ホルマントに対する増幅率G(1)を用いる。また、最高次のホルマントよりも高い周波数については、最高次のホルマントに対する増幅率G(kmax)を用いる。以上をまとめると式(11)のようになる。
Figure 2004040555
図10に戻り説明すると、スペクトルsp(l)と増幅率β(l)をスペクトル強調部7へ入力し、強調されたスペクトルsp(l)を式(12)により求める。
Figure 2004040555
ついで、強調されたスペクトルsp(l)を第2のフィルタ係数算出部8へ入力する。第2のフィルタ係数算出部8では、強調されたスペクトルsp(l)の逆フーリエ変換から自己相関関数ac(i)を求め、ac(i)からレビンソン・アルゴリズム等の公知の方法により合成フィルタ係数α(i),(1)を求める。ここで、pは合成フィルタ次数である。
更に、逆フィルタ3の出力である残差信号r(n)を係数α(i)により構成される合成フィルタ9へ入力し、式(13)に示すように出力音声y(n),(0n<N)を求める。
Figure 2004040555
以上説明の通り、図10の実施例では入力音声を音源特性と声道特性とに分離し、声道特性のみを強調することが可能である。これにより、従来技術で問題となっていた声道特性と音源特性を同時に強調する場合に発生するスペクトル歪を抑え、かつ明瞭度を改善することができる。また、図10の実施の形態例ではピッチ強調部4が省略されているが、図9に示す原理図に従い、ピッチ強調部4を逆フィルタ3の出力側に配置して、残差信号r(n)に対し、ピッチ強調処理を行うことも可能である。
尚、本実施例ではスペクトルsp(l)に対する増幅率を1スペクトル点数単位で求めるが、スペクトルを複数の周波数帯域に分割し、各帯域別に個別の増幅率を持つようにしてもよい。
図14に本発明の第2の実施例の構成ブロック図を示す。本実施例は、現フレームの入力音声から求めたLPC係数を逆フィルタの係数とする点が、図10に示した第1の実施例と異なり、その他は第1の実施例と同じである。
一般に、現フレームの入力信号x(n)から残差信号r(n)を求める場合には、第1の実施例のように平均的な周波数特性を持ったLPC係数を使用する場合よりも、現フレームの入力信号から求めたLPC係数を逆フィルタ3の係数として用いた方が予測利得は高く、声道特性と音源特性を精度良く分離できる。
そこで、第2の実施例では、現フレームの入力音声をLPC分析部13により、LPC分析し、得られたLPC係数α(i),(1)を逆フィルタ3の係数として用いる。
LPC係数α(i)から第2のスペクトル算出部1−2Bによりスペクトルsp(l)を求める。スペクトルsp(l)の算出方法は第1の実施例の式(4)と同じである。
次に第1のスペクトル算出部1−2Aにより平均スペクトルを求め、この平均スペクトルからホルマント推定部5において、ホルマント周波数fp(k)及びホルマント振幅amp(k)を求める。
次に、先の実施例と同様であり、スペクトルsp(l)とホルマント周波数fp(k)及びホルマント振幅amp(k)から増幅率算出部6により増幅率β(l)を求め、この増幅率を元にスペクトル強調部7で、スペクトル強調を行い強調されたスペクトルsp(l)を求める。強調されたスペクトルsp(l)から合成フィルタ9に設定される合成フィルタ係数α(i)を求め、残差信号r(n)をこの合成フィルタ9に入力して出力音声y(n)が得られる。
以上第2の実施例について説明した通り、本実施例においても先の実施例の構成と同様に、現フレームの声道特性と音源特性を精度よく分離し、平均スペクトルに基づいて声道特性を滑らかに強調処理することにより明瞭度を改善することができる。
次に、図15により本発明の第3の実施例を説明する。第3の実施例では、自動利得制御部(AGC部)14を設け、合成フィルタ9の合成出力y(n)の振幅を制御する点が第1の実施例と異なり、その他の構成は第1の実施例と同じである。
入力音声信号x(n)と最終的な出力音声信号z(n)の電力比が1となるようにAGC部14により利得の調整を行う。AGC部14として任意の方法が可能であるが、例えば以下のような方法を用いることができる。
まず、入力音声信号x(n)と合成出力y(n)から式(14)により振幅比gを求める。ここで、Nはフレーム長である。
Figure 2004040555
次式(15)により利得制御値Gain(n)を求める。ここで、λは定数である。
Figure 2004040555
最終的な出力音声信号z(n)は次式(16)により求められる。
Figure 2004040555
以上説明の通り、本実施例においても入力音声x(n)を音源特性と声道特性とに分離し、声道特性のみを強調することが可能である。これにより、従来技術で問題となっていた声道特性と音源特性を同時に強調する場合に発生するスペクトル歪を抑え、かつ明瞭度を改善することができる。
また、スペクトル強調によって出力音声の振幅が入力信号に比べて過度に大きくならないように利得調整することにより、滑らかで自然性の高い出力音声を得ることができる。
図16は、本発明の第4の実施例のブロック図を示す。本実施例は、図9の原理図に従い、逆フィルタ3の出力である残差信号r(n)に対してピッチ強調処理をする点が第1の実施例とは異なり、その他の構成は第1の実施例と同じである。
ピッチ強調フィルタ4によるピッチ強調の方法は任意であるが、例えばピッチ係数算出部4−1を設け、以下のような方法を用いることができる。
まず、現フレームの残差信号の自己相関rscor(i)を式(17)により求め、自己相関rscor(i)が最大となるピッチラグTを求める。ここで、Lagmin及びLagmaxはそれぞれ、ピッチラグの下限と上限である。
Figure 2004040555
次に、ピッチラグTの近傍における残差信号rscor(T−1),rscor(T),rscor(T+1)から自己相関法によりピッチ予測係数pc(i),(i=−1,0,1)を求める。ピッチ予測係数の算出方法は、レビンソン・アルゴリズムなどの公知の方法で求めることができる。
次に、逆フィルタ出力r(n)をピッチ強調フィルタ4に入力し、ピッチ周期性が強調された音声y(n)を求める。ピッチ強調フィルタ4として式(18)の伝達関数で表されるフィルタを用いることができる。ここで、gは重み係数である。
Figure 2004040555
尚、ピッチ強調フィルタ4としてここではIIRフィルタを用いたが、FIRフィルタなどの任意のフィルタを用いることができる。
以上説明の通り、第4の実施例によればピッチ強調フィルタ4を付加することにより残差信号に含まれるピッチ周期成分を強調することができ、第1の実施例に比べて音声の明瞭度を更に改善することができる。
図17に本発明の第5の実施例の構成ブロック図を示す。前フレームの増幅率を保持しておく第2のバッファ部15を備えている点が第1の実施例と異なり、その他は第1の実施例と同じである。
本実施例では、スペクトル算出部1−2のからスペクトルsp(l)とホルマント周波数fp(k)および振幅amp(k)から増幅率算出部6において仮の増幅率βpsu(l)を求める。
仮の増幅率βpsu(l)の算出方法は、第1の実施例における増幅率β(l)の算出方法と同じである。次に、仮の増幅率βpsu(l)とバッファ部15から出力される前フレーム増幅率β_old(l)から現フレームの増幅率β(l)を求める。ここで、前フレーム増幅率β_old(l)は前フレームにおいて算出された最終的な増幅率である。
増幅率β(l)を求める手順は以下の通りである。
(1)仮増幅率βpsu(l)と前フレーム増幅率β_old(l)との差分
Δβ=βpsu(l)−β_old(l)を算出する。
(2)差分Δβがあらかじめ定められた閾値ΔTHよりも大きい場合は、
β(l)=β_old(l)+ΔTHとする。
(3)差分Δβが閾値ΔTHよりも小さい場合は、β(l)=βpsu(l)とする。
(4)最終的に求められたβ(l)をバッファ部15へ入力し、前フレーム増幅率
β_old(l)を更新する。
第5の実施例において、前フレーム増幅率β_old(l)を参照して増幅率β(l)を求める部分以外は第1の実施例と同じであるので、第5の実施例動作についての更なる説明を省略する。
以上説明した通り、本実施例ではスペクトル強調に使用する増幅率を求める際に、前フレームにおける増幅率を選択的に用いることにより、フレーム間で増幅率が急激に変化しないようにすることにより、スペクトル強調による雑音感の増加を抑えつつ明瞭度を改善することができる。
図18に本発明の第6の実施例の構成ブロック図を示す。本実施例は、先の第1及び第3乃至第5の実施例を組み合わせた場合の構成を示している。重複する部分は他の実施例と同じであるので、説明を省略する。
図19は、上記の実施例により強調された音声スペクトルを示す図である。図19のスペクトルを、図7に示す強調前の入力音声スペクトルと、図8に示すフレーム単位で強調したスペクトルを比較すると本発明の効果が明瞭である。
すなわち、高次ホルマントが強調された図8において、0.95秒前後および1.03秒前後において、強調後のスペクトルに不連続性が生じているが、図19に示す音声スペクトルでは、ピーク変動が抑えられ、その不連続性が改善されていることが分かる。これによりホルマントの不連続性による、実際に処理音声を聞いた時の雑音感は生じないものとなる。
ここで、図9の本発明の原理図に基づく、先の第1〜第6の各実施例により、入力音声を音源特性と声道特性とに分離し、声道特性と音源特性を個別に強調することが可能である。これにより、音声自体を強調する従来技術で問題となっていたスペクトルの歪を抑えることができ、明瞭度を改善することができる。
しかし、上記各実施例に共通して、次のような問題が未だ生じる場合がある。すなわち、上記各実施例において、音声のスペクトルを強調する場合、フレーム間で増幅率が大きく変動すると雑音感が増すという問題がある。一方、雑音感を抑えるために増幅率の変動を小さくなるように制御すると、スペクトル強調の度合いが不十分となり、明瞭度の改善が十分でないという問題がある。
従って、本発明は更にかかる不都合を解消する場合、本発明により図20,図21の原理構成が適用される。図20、図21に示す原理構成は、動的フィルタIと固定フィルタIIの2段構成としている点に特徴を有する。
更に、図20の構成では動的フィルタIの後に固定フィルタIIを置く場合の原理図を示しているが、図21の構成のように固定フィルタIIを動的フィルタIの前段に置いてもよい。ただし、図21の構成の場合には、入力音声を分析することにより動的フィルタIで使用するパラメータを算出する。
動的フィルタIは、先に説明した図9に示す原理に従う構成を用いるものである。図20、図21では、図9に示す原理構成の概略を示している。すなわち、動的フィルタIは、入力音声を音源特性と、声道特性に分離する分離機能部20、声道特性からホルマント特徴を抽出する特徴抽出機能部5、特徴抽出機能部5から得られるホルマント特徴に基づき増幅率を算出する増幅率算出機能部6、算出された増幅率に対応して声道特性のスペクトルを強調するスペクトル機能部7及び、音源特性とスペクトル強調された声道特性を合成する合成機能部21を有している。
固定フィルタIIは、所定範囲の周波数幅において、一定の通過帯域を有するフィルタ特性を有している。固定フィルタIIで強調する周波数帯域は任意であるが、例えば2kHz以上の高域周波数帯域や1kHz〜3kHzの中間帯域成分を強調する帯域強調フィルタを用いることができる。
固定フィルタIIにより一部の周波数帯域を増幅し、動的フィルタIによりホルマントを強調する。固定フィルタIIの増幅率は固定であるため、フレーム間における増幅率の変動はない。このような構成にすることにより、動的フィルタIによる過度の強調を防ぎ、かつ明瞭度を改善することができる。
図22は、図20の原理図に基づく本発明の更なる実施例構成のブロック図である。この実施例は、動的フィルタIとして、先に説明した第3の実施例構成を用いている。従って、その再度の詳細説明は省略する。
この実施例では動的フィルタIにより入力音声を音源特性と声道特性とに分離し、声道特性のみを強調する。これにより、従来技術で問題となっていた声道特性と音源特性を同時に強調する場合に発生するスペクトル歪を抑え、かつ明瞭度を改善することができる。また、スペクトル強調によって出力音声の振幅が入力信号に比べて過度に大きくならないようにAGC部14により利得調整することにより、滑らかで自然性の高い出力音声を得ることができる。
更に、固定フィルタIIにより一部の周波数帯域を一定の割合で増幅することにより、雑音感が少なく、明瞭度の高い音声を得ることができる。
以上図面に従い説明した通り、本発明により声道特性と音源特性を個別に強調することが可能である。これにより、音声自体を強調する従来技術で問題となっていたスペクトルの歪を抑えることができ、明瞭度を改善することができる。
また、声道特性を強調する際に、平均スペクトルに基づいて強調することにより、フレーム間での増幅率の急激な変化が軽減されるため、雑音感の少ない良好な音質を実現できる。
かかる点から本発明は、携帯電話における好ましい音声通話を可能できるので、更なる携帯電話の普及に寄与することが可能である。
なお、本発明を上記実施例に従い説明したが、かかる実施例は本発明の理解のためのものであり、本発明の保護の範囲は、これら実施例に限定されるものではない。すなわち、請求項に記載の要件と均等の範囲にある場合も、本発明の保護の範囲に含まれるものである。

Claims (22)

  1. 入力音声信号を音源特性と声道特性とに分離する信号分離部と、
    前記声道特性から特徴情報を抽出する特徴抽出部と、
    前記声道特性と前記特徴情報とから前記声道特性を修正する声道特性修正部と、
    前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、
    前記信号合成手段により合成した音声を出力することを特徴とする音声強調装置。
  2. 入力音声信号を音源特性と声道特性とに分離する信号分離部と、
    前記声道特性から特徴情報を抽出する特徴抽出部と、
    前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、
    前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、
    前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、
    前記信号合成手段により合成した音声を出力することを特徴とする音声強調装置。
  3. 請求項2において、
    前記信号分離手段は、入力音声を線形予測分析して得られる線形予測(LPC)係数により構成されるフィルタであることを特徴とする音声強調装置。
  4. 請求項3において、
    前記線形予測係数は、入力音声から算出した自己相関関数の平均から求められることを特徴とする音声強調装置。
  5. 請求項3において、
    前記線形予測係数は、現フレームの入力音声から算出した自己相関関数と、過去のフレームの入力音声から算出した自己相関関数との加重平均から求められることを特徴とする音声強調装置。
  6. 請求項3において、
    前記線形予測係数は、現フレームの入力音声から算出した線形予測係数と、過去のフレームの入力音声から算出した線形予測係数との加重平均から求められることを特徴とする音声強調装置。
  7. 請求項2において、
    前記声道特性は、前記入力音声を線形予測分析して得られる線形予測係数から算出される線形予測スペクトル、又は入力音声のフーリエ変換から求められるパワースペクトルであることを特徴とする音声強調装置。
  8. 請求項2において、
    前記特徴抽出部は、前記入力音声を線形予測分析して得られる線形予測係数から極配置を求め、前記極配置からホルマント周波数とホルマント振幅又はホルマントのバンド幅を求めることを特徴とする音声強調装置。
  9. 請求項2において、
    前記特徴抽出部は、線形予測スペクトル又は前記パワースペクトルからホルマント周波数とホルマント振幅又はホルマントのバンド幅を求めることを特徴とする音声強調装置。
  10. 請求項8又は、9において、
    前記声道特性修正部は、前記ホルマント振幅の平均振幅を求め、前記平均振幅に応じて前記ホルマント振幅又はホルマントのバンド幅を変化させることを特徴とする音声強調装置。
  11. 請求項8又は、9において、
    前記声道特性修正部は、線形予測スペクトル又は前記パワースペクトルの平均振幅を求め、前記平均振幅に応じて前記ホルマント振幅又はホルマントのバンド幅を変化させることを特徴とする音声強調装置。
  12. 請求項2において、
    前記合成部からの前記出力音声の振幅は、自動利得制御部により制御されることを特徴とする音声強調装置。
  13. 請求項2において、
    更に、前記音源特性である残差信号に対してピッチ強調を行うピッチ強調部を有することを特徴とする音声強調装置。
  14. 請求項2において、
    前記声道特性修正部は、現フレームにおける仮増幅率を求める計算部を有し、前フレームの増幅率と現フレームの仮増幅率との差分又は比を求め、前記差分又は比があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分又は比が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とすることを特徴とする音声強調装置。
  15. 現フレームの入力音声から自己相関関数を求める自己相関算出部と、
    前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、
    前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、
    前記自己相関関数の加重平均から逆フィルタ係数を算出する第1のフィルタ係数算出部と、
    前記逆フィルタ係数により構成される逆フィルタと、
    前記逆フィルタ係数から周波数スペクトルを算出するスペクトル算出部と、
    前記算出された周波数スペクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、
    前記算出された周波数スペクトル、前記推定された前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、
    前記増幅率に基づいて前記算出された周波数スペクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、
    前記変化された周波数スペクトルから合成フィルタ係数を算出する第2のフィルタ係数算出部と、
    前記合成フィルタ係数から構成される合成フィルタを有し、
    前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。
  16. 現フレームの入力音声信号を線形予測係数を分析して自己相関関数と線形予測係数を求める線形予測係数分析部と、
    前記係数により構成される逆フィルタと、
    前記線形子測係数から周波数スペクトルを求める第1のスペクトル算出部と、
    前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、
    前記現フレームの自己相関と過去フレームの自己相関関数の加重平均を求める平均自己相関算出部と、
    前記自己相関関数の加重平均から平均フィルタ係数を算出する第1のフィルタ係数算出部と、
    前記平均フィルタ係数から平均周波数スペクトルを求める第2のスペクトル算出部と、
    前記平均スペクトルからホルマント周波数とホルマント振幅を求めるホルマント推定部と、
    前記平均スペクトル、前記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、
    前記増幅率に基づいて前記第1のスペクトル算出部で算出された周波数スペクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、
    前記変化された周波数スペクトルから合成フィルタ係数を算出する第2のフィルタ係数算出部と、
    前記合成フィルタ係数から構成される合成フィルタを有し、
    前記入力信号を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。
  17. 請求項15において、
    更に、前記合成フィルタ出力の振幅を制御する自動利得制御部を有し、前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記合成フィルタに入力して再生音声を求め、前記再生音声を前記自動利得制御部に入力して出力音声を求めることを特徴とする音声強調装置。
  18. 請求項15において、
    更に、前記残差信号からピッチ強調係数を算出するピッチ強調係数算出部と、
    前記ピッチ強調係数により構成されるピッチ強調フィルタを有し、
    前記入力音声を前記逆フィルタに入力して求められた残差信号を前記ピッチ強調フィルタに入力してピッチ周期性が強調された残差信号を求め、前記ピッチ周期性が強調された残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。
  19. 請求項15において、前記増幅率算出部は、
    スペクトル算出部で前記逆フィルタ係数から算出された周波数スペクトル、前記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、
    前記仮増幅率と前フレームの増幅率との差分を算出する差分算出部と、
    前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を有することを特徴とする音声強調装置。
  20. 現フレームの入力音声から自己相関関数を求める自己相関算出部と、
    前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバッファ部と、
    前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均自己相関算出部と、
    前記自己相関関数の加重平均から逆フィルタ係数を算出する第1のフィルタ係数算出部と、
    前記逆フィルタ係数により構成される逆フィルタと、
    前記逆フィルタ係数から周波数スペクトルを算出するスペクトル算出部と、
    前記周波数スペクトルからホルマント周波数とホルマント振幅を推定するホルマント推定部と、
    前記周波数スペクトル、前記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、
    前記仮増幅率と前フレームの増幅率との差分増幅率を算出する差分算出部と、
    前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレームの増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を有し、
    前記現フレームの増幅率に基づいて前記周波数スペクトルを変化させ、変化された周波数スペクトルを求めるスペクトル強調部と、
    前記変化された周波数スペクトルから合成フィルタ係数を算出する第2のフィルタ係数算出部と、
    前記合成フィルタ係数から構成される合成フィルタと、
    残差信号からピッチ強調係数を算出するピッチ強調係数算出部と、
    前記ピッチ強調係数により構成されるピッチ強調フィルタを有し、
    前記入力音声を前記逆フィルタに入力して残差信号を求め、前記残差信号を前記ピッチ強調フィルタに入力してピッチ周期性が強調された残差信号を求め、前強調された記残差信号を前記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。
  21. 入力音声信号の一部の周波数帯域を強調する強調フィルタと
    前記強調フィルタにより強調された入力音声信号を音源特性と声道特性とに分離する信号分離部と、
    前記声道特性から特徴情報を抽出する特徴抽出部と、
    前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、
    前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、
    前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、
    前記信号合成手段により合成した音声を出力することを特徴とする音声強調装置。
  22. 入力音声信号を音源特性と声道特性とに分離する信号分離部と、
    前記声道特性から特徴情報を抽出する特徴抽出部と、
    前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、
    前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、
    前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成部と、
    前記信号合成手段合成信号の一部の周波数帯域を強調するフィルタとを有することを特徴とする音声強調装置。
JP2004547997A 2002-10-31 2002-10-31 音声強調装置 Expired - Fee Related JP4219898B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2002/011332 WO2004040555A1 (ja) 2002-10-31 2002-10-31 音声強調装置

Publications (2)

Publication Number Publication Date
JPWO2004040555A1 true JPWO2004040555A1 (ja) 2006-03-02
JP4219898B2 JP4219898B2 (ja) 2009-02-04

Family

ID=32260023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004547997A Expired - Fee Related JP4219898B2 (ja) 2002-10-31 2002-10-31 音声強調装置

Country Status (5)

Country Link
US (1) US7152032B2 (ja)
EP (1) EP1557827B8 (ja)
JP (1) JP4219898B2 (ja)
CN (1) CN100369111C (ja)
WO (1) WO2004040555A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4076887B2 (ja) * 2003-03-24 2008-04-16 ローランド株式会社 ボコーダ装置
EP1619666B1 (en) * 2003-05-01 2009-12-23 Fujitsu Limited Speech decoder, speech decoding method, program, recording medium
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
EP1850328A1 (en) * 2006-04-26 2007-10-31 Honda Research Institute Europe GmbH Enhancement and extraction of formants of voice signals
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
US8050434B1 (en) 2006-12-21 2011-11-01 Srs Labs, Inc. Multi-channel audio enhancement system
US8255222B2 (en) 2007-08-10 2012-08-28 Panasonic Corporation Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
PL2232700T3 (pl) 2007-12-21 2015-01-30 Dts Llc System regulacji odczuwanej głośności sygnałów audio
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
CN101981612B (zh) * 2008-09-26 2012-06-27 松下电器产业株式会社 声音分析装置以及声音分析方法
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
WO2011004579A1 (ja) * 2009-07-06 2011-01-13 パナソニック株式会社 声質変換装置、音高変換装置および声質変換方法
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
WO2011025462A1 (en) * 2009-08-25 2011-03-03 Nanyang Technological University A method and system for reconstructing speech from an input signal comprising whispers
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
US8204742B2 (en) 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
WO2012026092A1 (ja) * 2010-08-23 2012-03-01 パナソニック株式会社 音声信号処理装置及び音声信号処理方法
EP2737479B1 (en) 2011-07-29 2017-01-18 Dts Llc Adaptive voice intelligibility enhancement
JP2013073230A (ja) * 2011-09-29 2013-04-22 Renesas Electronics Corp オーディオ符号化装置
JP5667963B2 (ja) * 2011-11-09 2015-02-12 日本電信電話株式会社 音声強調装置とその方法とプログラム
CN102595297B (zh) * 2012-02-15 2014-07-16 嘉兴益尔电子科技有限公司 数字式助听器增益控制优化方法
JP5745453B2 (ja) * 2012-04-10 2015-07-08 日本電信電話株式会社 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
CN102779527B (zh) * 2012-08-07 2014-05-28 无锡成电科大科技发展有限公司 基于窗函数共振峰增强的语音增强方法
US9805738B2 (en) * 2012-09-04 2017-10-31 Nuance Communications, Inc. Formant dependent speech signal enhancement
CN104464746A (zh) * 2013-09-12 2015-03-25 索尼公司 语音滤波方法、装置以及电子设备
CN104143337B (zh) * 2014-01-08 2015-12-09 腾讯科技(深圳)有限公司 一种提高音频信号音质的方法和装置
WO2017098307A1 (zh) * 2015-12-10 2017-06-15 华侃如 基于谐波模型和声源-声道特征分解的语音分析合成方法
CN106970771B (zh) * 2016-01-14 2020-01-14 腾讯科技(深圳)有限公司 音频数据处理方法和装置
WO2018084305A1 (ja) * 2016-11-07 2018-05-11 ヤマハ株式会社 音声合成方法
US11594241B2 (en) * 2017-09-26 2023-02-28 Sony Europe B.V. Method and electronic device for formant attenuation/amplification
JP6991041B2 (ja) * 2017-11-21 2022-01-12 ヤフー株式会社 生成装置、生成方法、および生成プログラム
JP6962269B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
CN109346058A (zh) * 2018-11-29 2019-02-15 西安交通大学 一种语音声学特征扩大系统
JP7461192B2 (ja) 2020-03-27 2024-04-03 株式会社トランストロン 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム
CN115206142B (zh) * 2022-06-10 2023-12-26 深圳大学 一种基于共振峰的语音训练方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
JP2588004B2 (ja) 1988-09-19 1997-03-05 日本電信電話株式会社 後処理フィルタ
JP2626223B2 (ja) * 1990-09-26 1997-07-02 日本電気株式会社 音声符号化装置
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
JP2899533B2 (ja) * 1994-12-02 1999-06-02 株式会社エイ・ティ・アール人間情報通信研究所 音質改善装置
JP3235703B2 (ja) * 1995-03-10 2001-12-04 日本電信電話株式会社 ディジタルフィルタのフィルタ係数決定方法
JP2993396B2 (ja) * 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JPH09160595A (ja) 1995-12-04 1997-06-20 Toshiba Corp 音声合成方法
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
KR100269255B1 (ko) 1997-11-28 2000-10-16 정선종 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
US6073092A (en) * 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
US6098036A (en) * 1998-07-13 2000-08-01 Lockheed Martin Corp. Speech coding system and method including spectral formant enhancer
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles

Also Published As

Publication number Publication date
US7152032B2 (en) 2006-12-19
EP1557827B1 (en) 2014-10-01
WO2004040555A1 (ja) 2004-05-13
CN100369111C (zh) 2008-02-13
EP1557827A4 (en) 2008-05-14
EP1557827A1 (en) 2005-07-27
CN1669074A (zh) 2005-09-14
JP4219898B2 (ja) 2009-02-04
US20050165608A1 (en) 2005-07-28
EP1557827B8 (en) 2015-01-07

Similar Documents

Publication Publication Date Title
JP4219898B2 (ja) 音声強調装置
JP5917518B2 (ja) 知覚スペクトルアンバランス改善のための音声信号動的補正
JP4649546B2 (ja) 補聴器
JP5127754B2 (ja) 信号処理装置
JP4836720B2 (ja) ノイズサプレス装置
JP4018571B2 (ja) 音声強調装置
JPH01288199A (ja) 補聴器用信号処理システム
JP2004061617A (ja) 受話音声処理装置
WO2014129233A1 (ja) 音声強調装置
JP2008309955A (ja) ノイズサプレス装置
CN117321681A (zh) 嘈杂环境中的语音优化
JP3269669B2 (ja) 聴覚補償装置
JP3306784B2 (ja) 骨導マイクロホン出力信号再生装置
JP2012181561A (ja) 信号処理装置
JP4922427B2 (ja) 信号補正装置
JPH09311696A (ja) 自動利得調整装置
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
KR100746680B1 (ko) 음성 강조 장치
JP5046233B2 (ja) 音声強調処理装置
JPH07146700A (ja) ピッチ強調方法および装置ならびに聴力補償装置
JP4227421B2 (ja) 音声強調装置および携帯端末
JP2905112B2 (ja) 環境音分析装置
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
JP2005331783A (ja) 音声強調装置,音声強調方法および通信端末
JP4739887B2 (ja) オーディオ再生装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4219898

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131121

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees