WO2003098597A1

WO2003098597A1 - Dispositif d'extraction de noyau syllabique et progiciel associe

Info

Publication number: WO2003098597A1
Application number: PCT/JP2003/001954
Authority: WO
Inventors: Nick Campbell; Parham Mokhtari
Original assignee: Japan Science And Technology Agency; Advanced Telecommunication Research Institute International
Priority date: 2002-05-16
Filing date: 2003-02-21
Publication date: 2003-11-27
Also published as: US7627468B2; JP3673507B2; JP2003330478A; CA2483607A1; CA2483607C; US20050246168A1

Description

明細書音節核の抽出装置およびそのプログラム製品

技術分野

この発明は、一般的には音声波形からその特徴を高レ、信頼 I"生で示す部分を抽出するための技術に関し、特に、音声波形の発生源の状態を高い信頼性で推定するために有効な領域を、音声波形から抽出するための技術に関する。背景技術

[用語の定義 1]

最初に、この節で使用される用語について定義する。

「緊張音」（p r e s s e d s o u n d ) とは、発声の際に声門が緊張しているために声門を気流が通過しにくく、かつ通過をする際の気流の加速度が大きくなるように発声される音のことをいう。この場合、声門気流波形はサインカーブから大きく変形し、その微分波形の傾きが局部的に大きくなる。音声がこうした特徴を有する場合、「緊張性」の音声であると呼ぶことにする。

「気息音」（b r e a t hy s o un d) とは、発声の際に声門に緊張がないために気流が通過しやすく、その結果声門気流波形がサインカーブに近くなるように発声される音をいう。この場合、声門気流波形の微分波形の傾きが局部的に大きくなることはない。音声がこうした特徴を有する場合、「気息性」の音声であると呼ぶことにする。

「地声」（モーダル、 mo d a l) とは、緊張音と気息音との中間の発声のことをヽう。

「AQ指数」（Am 1 i t u d e Q u o t i e n t ) とは、声門（声帯）気流の波形のピークツーピークの振幅を、声門気流の波形の微分の振幅の最小値で除した値のことをいう。

[従来の技術] 音声認識と並んで重要な音声研究分野に、音声合成がある。最近の信号処理技術の発達により、音声合成が既に多くの分野で利用されている。し力、し、今までの音声合成は単にテキスト情報を音声化しているだけともいえ、人間が発話する際のような微妙な感情の表現までは行なえない。

たとえば、人間が発話する際には、怒り、喜び、および悲しみなどの情報が、発話内容以外の情報、つまり声色などにより伝達される。このように発話に付随する、言語以外の情報をパラ言語情報と呼ぶ。これらはテキスト情報のみでは表わせない情報である。しかし従来の'音声合成では、こうしたパラ言語情報を伝達することは難しかった。マンマシンインタフェースをより効率的なものとするためには、テキスト情報だけではなくパラ言語情報も音声合成の際に伝えられるようにすることが望ましい。

こうした問題を解決するために、種々の発話スタイルで連続的に音声合成を行なおうとする試みがある。ひとつの具体的な方策として次のようなものがある。すなわち、発話を録音してデータ処理可能な形でデータベース化し、さらにその中で所望の特徴 (怒り、喜び、悲しみなど）を表わすと思われる発話単位にそれらの特徴を示すラベルを付ける。音声合成の際には所望のパラ言語情報に対応したラベルが付けられた音声を利用する。

し力し、十分な広さの発話スタイルをカバーできるようにデータベースを構築しょうとすれば、膨大な量の録音音声を処理しなければならない。そのために、自動的にオペレータの介在なく確実にそうした特徴の抽出とラベル付け処理とを行なえるようにする必要がある。

以下、パラ言語情報の一例を挙げる。発話スタイルの一つとして、緊張音と気息音という区別がある。緊張音では声門が緊張しているために、どちらかというと強い発声となる。一方気息音では、音声はサインカープに近く、強いという印象はない。したがって緊張音と気息音という区別も発話スタイルの一つとして重要であり、その程度を数量化できれば、パラ言語情報として利用できる可能性が緊張音と気息音との音質を区別する音響学的な指標については、今までにも数多くの研究がなされてきた。たとえば文末にリストした参考文献 1を参照されたい。し力し、そうした研究の多くは、持続的に安定して母音を発音している間に録音された発話（または歌）を対象としたものに限定されていた。実際、膨大な量の発話の録音データから得られた音響測定データに基づいて、緊張性と気息性との程度を信頼性高く計量しなければならないというのは非常に大きな問題であり、かつ実現された場合には非常に有用となるであろう。

スぺクトルドメインでの音源の属性を推定しょうとする様々な手段が提案されて来たが、それよりも直接的な推定が、声門気流の波形とその導関数との組み合わせによって得られるはずである。そうした推定の一例が文末の参考文献 2において提案された A Q指数である。

参考文献 2では、 A Q指数の一つの利点として、音圧レベル（S P L ) から比較的独立していること、およびその値が主として発音の質的なものに依存していることがあげられている。他の利点として考えられるのは、このパラメータが純粋に振幅ドメインのものであって、種々の発話スタイルに応じた、推定された声門波形の時間ドメインの特徴量を測定する際の誤差源に対して比較的免疫性があることである。また、参考文献 2の著者らによれば、様々な発音スタイルで「a」という母音を持続して発音した場合、 4人の男性と 4人の女性との全てに対して、発音を気息性のものから緊張性に変えていくにしたがって、 A Q指数の値は単調に減少したとのことである（参考文献 2の第 1 3 6頁）。したがって A Q指数は、ここで我々が解決しようとしている問題に関して有効である可能性が高い。ただし、 A Q指数が有効となるためには、次の条件が満足される必要がある。

1 ) 録音された通常の発話について、ロバストでかつ信頼性高く A Q指数を測定できること、および

2 ) そうした条件で測定された知覚上の特徴が顕著な部分を確認することができること。

このような条件を満足させるためには、自然に発話された音声などの物理量を表わす音声波形から、いかにして信頼性高く音声波形の特徴を表わすパラメータを抽出できるかが重要である。特に音声の場合のように、発話が話者によりその細部まで完全にはコントロールされているわけでない場合、また様々な人が様々なスタイルで発話する場合には、パラメータを抽出すべき部分として信頼性がおける場所と、そうでない場所とが存在することが考えられる。そのため、音声波形のうちのどの部分を処理対象とするかが重要である。またそのために、日本語のように音節が発音の単位となる場合、音節の中心部（仮にこれを「音節核」と呼ぶ。）を誤りなく抽出できるようにすることが必要である。発明の開示

したがって、本発明の目的は、音声波形の特徴を高い信頼性で示す部分を自動的な処理で決定することを可能とすることである。本発明の他の目的は、音声波形の特徴を高い信頼性で示す部分をオペレータの介在なく決定することを可能とすることである。本発明のさらに他の目的は、音節核を高い信頼性で自動的に抽出できるようにすることである。

本発明の第 1の局面は、複数個の節に分解可能な、物理的量を表わす音声波形のデータに基づいて、音声波形の特徴を高い信頼性で示す部分を決定するための装置と、そうした装置としてコンピュータを動作させるプログラムに関する。この装置は、データから音声波形のうちの所定周波数領域のエネルギーの時間軸上の分布を算出し、当該分布および音声波形のピッチに基づいて、音声波形の各節のうち、音声波形の発生源によって安定して発生されている領域を抽出するための抽出手段と、データから音声波形のスペクトルの時間軸上の分布を算出し、当該スペクトルの時間軸上の分布に基づいて、音声波形のうち、その変化が発生源により良好に制御されている領域を推定するための推定手段と、推定手段の出力と、発生源によって安定して発生されている領域として抽出手段により抽出され、かつ発生源によってその変化が良好に制御されていると推定手段によって推定された領域を音声波形の高信頼性部分として決定するための手段とを含む。

抽出手段による抽出結果と、推定手段による推定結果との双方に基づいて音声波形の高信頼性部分を決定するので、決定結果がより確実なものとなる。

抽出手段は、データに基づいて、音声波形の各区間が有声区間か否かを判定するための有声判定手段と、音声波形の所定周波数領域のエネルギーの時間軸上の分布の波形の極小部で音声波形を節に分離するための手段と、音声波形のうち、各節内で、当該節内のエネルギーのピークを含み、かつ有声判定手段により有声区間であると判定された区間であって、かつ所定周波数領域のエネルギーが所定のしきレ、値以上である領域を抽出するための手段とを含んでもよレ、。

有声と判定された区間であって、かつ所定周波数領域のエネルギーが所定のしきい値以上である領域が抽出されるので、発話者が安定して発声している区間を確実に抽出できる。

また好ましくは、推定手段は、音声波形に対する #泉形予測分析を行ないフオルマント周波数の推定値を出力するための線形予測手段と、データを用いて、線形予測手段によるフォルマント周波数の推定値の非信頼性の時間軸上の分布を算出するための第 1の算出手段と、線形予測手段の出力に基づいて、音声波形の時間軸上のスぺクトル変化の局所的な分散の、時間軸上の分布を算出するための第 2 の算出手段と、第 1の算出手段により算出されたフォルマント周波数の推定値の非信頼性の時間軸上の分布と、第 2の算出手段により算出された音声波形のスぺクトル変化の局所的な分散の時間軸上の分布との双方に基づいて、音声波形の変化が発生源により良好に制御されている領域を推定するための手段とを含む。フォルマント周波数の推定値の非信頼性と、音声波形の時間軸上のスぺクトル変化の局所的な分散との双方に基づいて、音声波形の変化が発生源により良好に制御されている領域が推定される。振動変化の発生源（たとえば発話者）が明確な意図をもって振動を制御している領域が推定できるので、そうした領域から振動の特徴量を算出すれば、算出された特徴量の信頼性が高くなることが期待できる。

決定するための手段は、推定手段により音声波形の変化が発生源により良好に制御されていると推定された領域のうち、抽出手段により抽出された領域に含まれる領域を音声波形の高信頼性部分として決定するための手段を含んでもよい。音声波形の変化が発生源により良好に制御されていると推定された領域であつて、かつ発生源により音声波形が安定に発生されているもののみを高信頼性部分として決定する。したがって真に信頼性が高い部分を抽出できる。

本発明の他の局面は、音声信号を擬似音節に分離し、さらに各擬似音節の核部分を抽出するための擬似音節核抽出装置と、そうした装置としてコンピュータを動作させるプログラムとに関する。この擬似音節核抽出装置は、音声信号の各区間が有声区間か否かを判定するための有声判定手段と、音声信号の所定周波数領域のエネルギーの時間的な分布の波形の極小部で音声信号を擬似音節に分離するための手段と、音声信号のうち、各擬似音節内でのエネルギーのピークを含み、かつ有声判定手段により有声区間であると判定された区間であって、かつ所定周波数領域のエネルギーが所定のしきい値以上である領域を当該擬似音節の核として抽出するための手段とを含む。

有声区間であると判定された区間であって、かつ所定周波数領域のエネルギーが所定のしきい値以上である領域が擬似音節の核として抽出されるので、発話者が安定して発声しているときの音声を抽出することができる。

本発明のさらに他の局面は、音声信号の特徴を高い信頼性で示す部分を決定するための装置と、そうした装置としてコンピュータを動作させるプログラムとに関する。当該装置は、音声信号に対する線形予測分析を行なうための線形予測手段と、線形予測手段によるフォルマントの推定値と、音声信号とに基づいて、フオルマントの推定値の非信頼性の時間軸上の分布を算出するための第 1の算出手段と、線形予測手段による/線形予測分析の結果に基づいて、音声信号のスぺクトル変化の局所的な分散の時間軸上の分布を算出するための第 2の算出手段と、第 1の算出手段により算出されたフォルマント周波数の推定値の非信頼性の時間軸上の分布と、第 2の算出手段により算出された音声波形のスぺクトル変化の局所的な分散の時間軸上の分布との双方に基づいて、音声波形の変化が発生源により良好に制御されている領域を推定するための手段とを含む。

フォルマントの推定値の非信頼性の時間軸上の分布も、音声信号のスぺクトル変化の局所的な分散の時間軸上の分布も、その極小部ではいずれも音声信号のうちでその発生源により音声波形の発生が良好に制御されている部分を示す。これらの双方を用いて領域を推定するので、音声波形の発生が良好に制御されている部分を信頼性高く特定することができる。図面の簡単な説明

第 1図は、本発明の一実施例のプログラムを実行するコンピュータシステムの外観を示す図である。

第 2図は、第 1図に示すコンピュータシステムのプロック図である。

第 3図は、本発明の一実施例のプログラムの全体構成をプロック図形式で示す図である。

第 4図は、音声データの構成を模式的に示す図である。

第 5図は、第 3図に示す音響'韻律分析部 9 2のブロック図である。

第 6図は、第 3図に示すケプストラム分析部 9 4のプロック図である。

第 7図は、第 6図に示す規格化および統合部 1 4 4のプロック図である。第 8図は、第 3図に示すフォルマントの最適化部 9 8のプロック図である。第 9図は、第 3図に示す A Q指数計算部 1 0 0のブロック図である。

第 1 0図は、本発明の一実施例のプログラムによる表示例を示す図である。第 1 1図は、音声データのうち、緊張音と判断される一時点での声門気流波形の推定値、声門気流波形の微分の推定値、および推定された声門気流波形のスぺクトルを示す図である。

第 1 2図は、音声データのうち、気息音と判断される一時点での声門気流波形の推定値、声門気流波形の微分の推定値、および推定された声門気流波形のスぺクトルを示す図である。

第 1 3図は、感知された気息性と音響的に測定された A Q指数との間の関連を示す散布図である。発明を実施するための最良の形態

以下に述べる本発明の実施例は、コンピュータおよびコンピュータ上で動作するソフトウェアにより実現される。もちろん、以下に述べる機能の一部又は全部を、ソフトウェアでなくハードウェアで実現することも可能である。

[用語の定義 2 ] .

以下、本実施例の説明で使用される用語について定義する。

「擬似音節」とは、音声信号から所定の信号処理によって決定される信号の切れ目のことを指し、日本語音声の場合の音節を推定したものに対応する。

「ソノラントエネルギー」とは、音声信号のうちで、所定周波数（たとえば 6 0Hz〜3 kHzの周波数領域）のエネノレギーのことをいい、デシベルで表わされる。

「信頼性の中心」（c e n t e r o f r e l i a b i l i t y) とは、音声波形に対する信号処理の結果、音声波形のうちで、対象となる音声波形の特徴を信頼性高く抽出することができるとみなされることとなった領域のことをいう。

「ディップ」とは、グラフなどの図形がくびれた部分のことをいう。特に、時間の関数として変化するような値の時間軸上の分布により形成される波形のうち、極小値に対応する部分をいう。

「非信頼性」とは、信頼性のなさを表わす尺度のことをいう。非信頼性は信頼性の逆の概念である。

第 1図に、本実施例で利用されるコンピュータシステム 20の外観図を、第 2 図にコンピュータシステム 20のプロック図を、それぞれ示す。なおここに示すコンピュータシステム 20はあくまで一例であり、この他にも種々の構成が可能である。

第 1図を参照して、コンピュータシステム 20は、コンピュータ 40と、いずれもこのコンピュータ 40に接続されたモニタ 42、キーボード 46、およびマウス 48を含む。コンピュータ 40にはさらに、 CD— ROM (C om a c t D i s c R e a d-On l y Memo r y) ドライブ 50と、 FD (F i e x i b l e D i s k) ドライブ 5 2とが内蔵されている。

第 2図を参照して、コンピュータシステム 20はさらに、コンピュータ 40に接続されるプリンタ 44を含むが、これは第 1図には示していない。またコンビユータ 40はさらに、 CD— ROMドライブ 50および FDドライブ 5 2に接続されたバス 6 6と、いずれもバス 6 6に接続された中央演算装置（C e n t r a 1 P r o c e s s i n g Un i t : CPU) 56、コンピュータ 40のブートアッププログラムなどを記憶した ROM (R e a d— On 1 y Me mo r y) 58、 CPU 5 6が使用する作業エリアおよび CPU 56により実行されるプログラムの格納エリアを提供する RAM (R a n d om A c c e s s Me mo r y) 6 0、および後述する音声データベースを格納したハードディスク 5 4を含む。以下に述べる実施例のシステムを実現するソフトウェアは、たとえば、 C D— R OM 6 2のような記録媒体上に記録されて流通し、 C D— R OMドライブ 5 0 のような読取装置を介してコンピュータ 4 0に読込まれ、ハードディスク 5 4に格納される。 C P U 5 6がこのプログラムを実行する際には、ハードディスク 5 4からこのプログラムを読み出して R AM 6 0に格納し、図示しないプログラムカウンタによって指定されるァドレスから命令を読出して実行する。 C P U 5 6 は、処理対象のデータをハードディスク 5 4から読出し、処理結果を同じくハードディスク 5 4に格納する。

コンピュータシステム 2 0の動作自体は周知であるので、ここではその詳細については繰り返さない。

なお、ソフトウアの流通形態は上記したように記憶媒体に固定された形には限定されない。たとえば、ネットワークを通じて接続された他のコンピュータからデータを受取る形で流通することもあり得る。また、ソフトウェアの一部が予めハードディスク 5 4中に格納されており、ソフトウェアの残りの部分をネットワーク経由でハードディスク 5 4に取込んで実行時に統合するような形の流通形態もあり得る。

一般的に、現代のプログラムはコンピュータのオペレーティングシステム（O S ) によって提供される汎用の機能を利用し、それらを所望の目的にしたがって組織ィヒした形態で実行することにより前記した所望の目的を達成する。したがつて、以下に述べる本実施例の各機能のうち、 O Sまたはサードパーティが提供する汎用的な機能を含まず、それら汎用的な機能の実行順序の組合せだけを指定するプログラム（群）であっても、それらを利用して全体的として所望の目的を達成する制御構造を有するプログラム（群）である限り、それらが本発明の技術的範囲に含まれることは明らかである。

本実施例のプログラムを装置とみなして機能的に示したのが第 3図以下のプロック図である。第 3図を参照して、この装置 8 0は、ハードディスク 5 4に格納された音声データ 8 2に対して以下に説明する処理を行なって、音声データに含まれる各処理単位（たとえば音節）ごとに前述した A Q指数を算出し出力するためのものである。なお、音声データは後述するように 1フレーム 3 2 m s e cとなるように予めフレーム化されている。

装置 80は、音声データに対して高速フーリエ変換（F a s t F o u r i e r T r a n s f o rm : FFT) を行なう F F T処理部 90と、 F F T処理部 90の出力を用い、音声データにより表わされる音声波形のうちの 60Hz〜3 kHzの周波数領域のエネルギーの時間的変化および音声のピッチの変化に基づいて、音声データにより表わされる音声波形の各音節のうち、話者の発声機構によって安定して発生されている領域（これを以後「擬似音節核」と呼ぶ。 ) とを抽出する音響 ·韻律分析部 92と、音声データ 82に対してケプストラム分析を行ない、さらに、 F FT処理部 90の出力を用いてケプストラム分析の結果音声スぺクトルの変化が少なく、音声データの特徴を信頼性高く抽出できると思われる部分（これを「高信頼性 '小変動部の中心」または「高信頼'小変動の中心」または単に「信頼性の中心」と呼ぶ。）を推定するためのケプストラム分析部 94 とを含む。

装置 80はさらに、ケプストラム分析部 94の出力する高信頼性 '小変動部の中心の中で、音響'韻律分析部 92の出力する擬似音節核の中にあるものだけを擬似音節中心として抽出するための擬似音節中心の抽出部 96と、擬似音節中心の抽出部 96によつて抽出された擬似音節中心に対応する音声データに対して、フォルマントの初期推定と最適化処理とを行なって最終的なフォルマントの推定値を出力するためのフォルマントの最適化部 98と、音声データに対して、フォルマントの最適化部 98から出力されるフォルマント値を用いた適応的フィルタ処理などの信号処理を行なって声門気流波形の微分を推定し、さらにそれを積分することによつて声門気流波形を推定し、それらに基づいて A Q指数を計算するための AQ指数計算部 100とを含む。

第 4図は、音声データの構成を模式的に示す図である。第 4図を参照して、音声データ波形 102は、それぞれ 32ms e cごとのフレームに分けられ、かつ前後のフレーム間では 8 m s e cごとにずらしてデジタノレ化されている。そして、後述する処理では、たとえばある時点 t 0では第 1のフレームを先頭として処理をし、次の時点 t 1では 8ms e cずれた次の第 2のフレームを先頭として処理をする、という形で処理を行なっていく。第 5図は、第 3図に示す音響 ·韻律分析部 9 2のブロック図である。第 5図を参照して、音響'韻律分析部 9 2は、音声波形から測定される音源のピッチを用いて、処理対象のフレームが有声区間か否かを判定する（この方法については参考文献 3を参照）ためのピッチ判定部 1 1 0と、 F FT処理部 90の出力に基づいて所定周波数領域（60Hz〜3 kH z) のソノラントエネルギの時間軸上の波形分布を算出するためのソノラントエネルギ算出部 1 1 2と、ソノラントエネノレギ算出部 1 1 2によって算出されるソノラントエネルギの時間軸上の分布波形の輪郭に対して凸包ァルゴリズムを適用することにより、ソノラントエネルギの時間軸上の分布波形の輪郭の中のディップを検出して、入力音声を擬似音節に分割する（この方法については参考文献 4および 5を参照）ためのディップ検出部 1 14と、ディップ検出部 1 14によって得られた擬似音節中の、ソノラントェネルギの最大値（SEpeak) が得られる点を起点として、その左右に、ソノラントエネルギが所定のしきい値（0. 8xSEpeak) より大きく、かつピッチ判定部 1 1 0によって有声区間であると判定されたフレームであって、かつ同じ擬似音節中のフレームを 1フレームずつ広げていくことにより、擬似音節核を出力するための有声'エネルギ判定部 1 1 6とを含む。

第 6図は、第 3図に示すケプストラム分析部 94のブロック図である。第 6図を参照して、ケプストラム分析部 94は、音声データ 8 2の音声波形に対して選択的/線形予測（S e l e c t i v e L i n e a r P r e d i c t i o n : S LP) 分析を行なって、 S LPケプストラム係数 _{C f},iを出力するための線形予測分析部 1 3 0と、このケプストラム係数に基づいて先頭の 4つのフォルマントの周波数と帯域との初期推定値を算出するためのフォルマント推定部 1 3 2とを含む。フォルマント推定部 1 3 2は、参考文献 6により提案された線形ケプストラム一フォルマントマッピングを利用し、かつ同じデータのサブセットを使用して注意深く測定された母音フォルマントに対するマッピングを学習させてある。この学習については、参考文献 7を参照されたい。

ケプストラム分析部 94はさらに、推定されたフォルマント周波数などに基づいてケプストラム係数 Ci^simpを再計算するためのケプストラム再生成部 1 3 6と、 F FT処理部 90の出力に対して対数変換およびコサイン逆変換（I DCT) を行なって F F Tケプストラム係数を算出するための対数変換および逆 D C T部 1 4 0と、ケプストラム再生成部 1 3 6により計算されたケプストラム係数 C ^mp と、対数変換および逆 D C T部 1 4 0により計算された F F Tケプストラム係数 C严との間の差を表わす値として次の式により定義されるケプストラム距離 d _f ² を計算し、フォルマント推定部 1 3 2によって推定されたフォルマント周波数などの値の非信頼性を表わす指標として出力するためのケプストラム距離計算部 1 4 2とをさらに含む。

d} = Sum, {/² . (cf^mp - c ⁷ Y } (1)

フォルマント推定部 1 3 2、ケプストラム再生成部 1 3 6、ケプストラム距離計算部 1 4 2、および対数変換および逆 D C T部 1 4 0により、線形予測分析の結果に基づいて推定されたフォルマント周波数などの値の非信頼性が算出される。ケプストラム分析部 9 4はさらに、線形予測分析部 1 3 0の出力するケプストラム係数から Δケプストラムを算出する為の Δケプストラム算出部 1 3 4と、 Δ ケプストラム算出部 1 3 4の出力する Δ ケプストラムに基づいて、各フレームごとに、そのフレームを含む 5フレームのスペクトル変化の大きさの分散を算出する為のフレーム間分散算出部 1 3 8とを含む。フレーム間分散算出部 1 3 8の出力は、局所的なスぺクトルの動きの時間軸上の分布波形の輪郭を表わすものとなり、その極小値は、参考文献 8で提案されている調音音声学理論にならっていえば、制御された動き C M (Controlled Movement) を示すものと考えることができる。

さらにケプストラム分析部 9 4は、ケプストラム距離計算部 1 4 2の出力するフォルマント周波数の推定値の非信頼性を示す値と、フレーム間分散算出部 1 3 8の出力する各フレームごとの局所的なフレーム間分散値とを受け、両者の値を規格化し統合して、フレームごとの音声信号の非信頼性を示す値の時間軸上の分布波形として出力するための規格化および統合部 1 4 4と、規格化および統合部 1 4 4の出力する非信頼性の値の時間軸上の分布波形により形成される波形の輪郭のディップを凸包アルゴリズムにより検出して、信頼性の中心候補として出力するための信頼性の中心候補出力部 1 4 6とを含む。

第 7図は、第 6図に示す規格化および統合部 1 4 4のブロック図である。第 7 図を参照して、規格化および統合部 1 4 4は、ケプストラム距離計算部 1 4 2により出力されたケプストラム距離を [ 0， 1 ] の値に規格化するための第 1の規格化部 1 6 0と、フレーム間分散算出部 1 3 8が各フレームごとに算出するフレーム間分散の値を [ 0， 1 ] の値に規格化するための第 2の規格化部 1 6 2と、局所的なフレーム間分散の値の時間軸上の位置を、ケプストラム距離計算部 1 4 2の出力するケプストラム距離のサンプリングタイミングと一致させるように線形補間処理を行なうための補間処理部 1 6 4と、第 1の規格化部 1 6 0の出力と補間処理部 1 6 4の出力とを 1フレームごとに平均して出力するための平均計算部 1 6 6とを含む。平均計算部 1 6 6の出力は、統合された値の時間軸上の分布波形の輪郭を表わす。信頼性の中心候補出力部 1 4 6によってこの波形の輪郭のディップ（極小部）を検出することにより、非信頼性が最も低い部分 (信頼性が最も高い部分）を信頼性の中心の候補として特定することができる。

第 8図は、第 3図に示すフォルマントの最適化部 9 8のブロック図である。第 8図を参照して、フォルマントの最適化部 9 8は、音声波形に対して F F T処理を行なうための F F T処理部 1 8 0と、 F F T処理部 1 8 0の出力に対して対数変換およびコサイン逆変換を行なうための対数変換および逆 D C T部 1 8 2と、対数変換および逆 D C T部 1 8 2の出力する F F Tケプストラム係数と、後述するフオルマントの推定値との間の距離を計算するためのケプストラム距離計算部 1 8 4と、信頼性の中心候補の各々における第 1〜第 4のフォルマント周波数の初期推定値を初期値とし、ケプストラム距離計算部 1 8 4が計算する距離を最小にするように山登り法によってフォルマントの推定値を最適化するための距離最小化処理部 1 8 6とを含む。距離最小化処理部 1 8 6によって最適化されたフォルマント推定値がフォルマントの最適化部 9 8の出力として A Q指数計算部 1 0 0に与えられる。

第 9図を参照して、 A Q指数計算部 1 0 0は、音声信号のうちで音節中心に相当する位置の 6 4 m s e cの部分のうち、 7 0 H z以上の周波数成分のみを選択的に通過させるためのハイパスフィルタ 2 0 0と、ハイパスフィルタ 2 0 0の出力のうち、最適化された第 4フォルマント周波数とその帯域との和以下の周波数成分のみを選択的に通過させるための適応的ローパスフィルタ 2 0 2と、適応的ローパスフィルタ 2 0 2の出力に対し、第 1〜第 4フォルマント周波数を用いた適応的逆フィルタ処理を行なうための適応的逆フィルタ 2 0 4とを含む。適応的逆フィルタ 2 0 4の出力は、声門気流波形の微分波形となる。

A Q指数計算部 1 0 0はさらに、適応的逆フィルタ 2 0 4の出力を積分して声門気流波形を出力するための積分回路 2 0 6と、積分回路 2 0 6の出力のピークツーピークの最大振幅を検出するための最大ピーク間振幅検出回路 2 0 8と、適応的逆フィルタ 2 0 4の出力の負のピークの最大振幅を検出するための最大の負のピーク振幅検出回路 2 1 0と、最大の負のピーク振幅検出回路 2 1 0の出力に対する最大ピーク間振幅検出回路 2 0 8の出力の比を算出するための比計算回路 2 1 2とを含む。比計算回路 2 1 2の出力が A Q指数である。

以上に説明した装置は以下のように動作する。まず、使用された音声データ 8 2について説明する。この音声データは参考文献 9で使用されたものであり、日本語のネイティブスピー力である女性の 3つの物語の朗読を録音して作成されたものである。この物語は、怒りと、喜びと、悲しみという感情を引き起こすように予め作成されていたものである。物語の各々は 4 0 0文の長さ（おおよそ 3 0， 0 0 0音素）以上の発話を含む。各発話は別々の音声波形ファイルに格納され処理された。

各文の発話データは F F T処理部 9 0による F F T処理の後、以下のようにして処理される。処理は大きく見て二つの系統に分かれ実行される。第 1の系統は音響'韻律分析部 9 2で行なわれる音響韻律的な処理であり、他の系統はケプストラム分析部 9 4が行なう音響音声学的な処理である。

音響韻律的な系統の処理では、第 5図に示すソノラントエネルギ算出部 1 1 2 によって 6 O H z〜3 k H z周波数領域のソノラントエネルギが算出される。ソノラントエネルギ算出部 1 1 2の出力する一文の発話データの全体波形の輪郭から、ディップ検出部 1 1 4が凸包アルゴリズムによりディップを検出する。このディップにより、この発話文は擬似音節に分割される。

有声.エネルギ判定部 1 丄 6は、擬似音節の中でソノラントエネルギが最大 ( S Epeak) となる点を見つける。この点が擬似音節核の初期点である。有声' エネルギ判定部 1 1 6はさらに、この擬似音節核の初期点から始めて、その左右に向かい、ソノラントエネルギが 0 . 8 X S Epeak以下のフレーム、またはピッチ判定部 1 1 0が有声でないと判定したフレーム、または擬似音節の外のフレームに出会うまで、擬似音節核の範囲を広げる。こうして擬似音節核の境界が決定される。この情報は擬似音節中心の抽出部 9 6に与えられる。なお、ここでしきい値として 0 . 8の値を用いているが、これは単なる例であって，応用によりこのしきレ、値を適切な値に代える必要がある。

第 6図を参照して、入力された一つの発話文に対して線形予測分析部 1 3 0が線形予測分析を行ない、 S L Pケプストラム係数を出力する。 Δケプストラム算出部 1 3 4がこの S L Pケプストラム係数に基づいて Δ ケプストラムを算出し、フレーム間分散算出部 1 3 8に与える。フレーム間分散算出部 1 3 8は、この Δ ケプストラム係数に基づき、各フレームごとに、そのフレームを含む 5フレームの中での局所的なスぺクトル変化の分散を計算する。この分散が小さいほど発話者の発声が発話者によりょく制御されていると考えられ、逆にこの分散が大きいと話者による制御がよくされていないと考えられるので、フレーム間分散算出部 1 3 8の出力は発話者の発声が信頼されない程度（非信頼性）を表わすと考えられる。

第 6図をさらに参照して、フォルマント推定部 1 3 2は、線形ケプストラムフオルマントマッピングを用い、 S L Pケプストラム係数に基づいて第 1〜第 4フオルマントの周波数と帯域とを推定する。ケプストラム再生成部 1 3 6は、フォルマント推定部 1 3 2により推定された第 1〜第 4フォルマントに基づいて逆にケプストラム係数を算出しケプストラム距離計算部 1 4 2に与える。対数変換および逆 D C T部 1 4 0は、フォルマント推定部 1 3 2およびケプストラム再生成部 1 3 6が処理したのと同じフレームのもとの音声データに対して対数変換およびコサイン逆変換を行なって F F Tケプストラム係数を算出しケプストラム距離計算部 1 4 2に与える。ケプストラム距離計算部 1 4 2は、ケプストラム再生成部 1 3 6からのケプストラム係数と対数変換および逆 D C T部 1 4 0からのケプストラム係数との間の距離を前述の式（1 ) にしたがって計算する。この結果得られるのは、フォルマント推定部 1 3 2が推定したフォルマントの非信頼性を示す値の時間軸上の分布を表わす波形と考えられる。ケプストラム距離計算部 1 4 2は、この結果を規格化および統合部 1 4 4に与える。

第 7図を参照して、規格化および統合部 1 4 4の第 1の規格化部 1 6 0は、第 6図のケプストラム距離計算部 1 4 2の出力する、フォルマントの推定値から算出された各フレームごとの非信頼性値を [ 0 , 1 ] の範囲に正規化して平均計算部 1 6 6に与える。第 2の規格化部 1 6 2は、第 6図のフレーム間分散算出部 1 3 8が出力する、フレームごとに計算された局所的なフレーム間分散の値を [ 0， 1 ] の範囲に正規化して補間処理部 1 6 4に与える。補間処理部 1 6 4は、第 2 の規格化部 1 6 2の各値に対し、第 1の規格化部 1 6 0の出力する各フレームのサンプリングボイントに対応する値が得られるように線形補間処理を行なって平均計算部 1 6 6に与える。平均計算部 1 6 6は、フレームごとに、第 1の規格化部 1 6 0の出力と補間処理部 1 6 4の出力とを正規化し、その結果を時間軸上の非信頼性の分布を示す統合された波形として信頼性の中心候補出力部 1 4 6に出力する。

信頼性の中心候捕出力部 1 4 6は、凸包ァルゴリズムにより、規格化およぴ統合部 1 4 4の出力する統合された波形の輪郭のディップを検出して、そのフレームを特定する情報を第 3図の擬似音節中心の抽出部 9 6に対して信頼性の中心の候補として出力する。

第 3図に示す擬似音節中心の抽出部 9 6は、第 6図に示す信頼性の中心候補出力部 1 4 6から与えられた信頼性の中心の中で、音響'韻律分析部 9 2から与えられた擬似音節核の中にあるもののみを擬似音節中心として抽出する。

以上の処理によって、音声データのうちで音声データの特徴を抽出する、または音声データをラベル付けするために適した高信頼性 '小変動領域を示す情報が得られたことになる。したがって、この情報によって特定されるフレームについて所望の処理を行なえばよい。本実施例の装置では、擬似音節中心の抽出部 9 6 はこの情報をフォルマントの最適化部 9 8に与え、フォルマントの最適化部 9 8 はこの情報を用いて、以下のようにして擬似音節中心における A Q指数を算出する。

なお、本実施例の装置では、擬似音節中心の長さは連続する 5フレームとする。 1フレームは 3 2 m s e。であり、連続するフレームは互いに 8 m s e cずつずれているから、 5フレームの全体では 6 4 m s e cの音声期間に相当する。これらの擬似音節中心における A Q指数は、第 9図の A Q指数計算部 1 0 0中で得られる声門気流の波形により直接計算することができる。しカゝし、声門気流の推定自体、もともとのフォルマントに相当する声道の共振によつて影響されており、その信頼性は共振の影響をもとの音声波形の 6 4 m s e cのデータから取り除くことができるかに依存している。したがって、そのような計算によって得られた A Q指数は信頼できないものとなる。

一方、擬似音節中心におけるフォルマントは、スペクトルがよく一致しているという意味で、既によい推定となっているが、本実施例の装置では、さらに以下のようにしてフォルマント周波数を最適化する。

すなわち、第 8図を参照して、 F F T処理部 1 8 0は音声波形に対してフレームごとに F F T処理を行なう。対数変換および逆 D C T部 1 8 2は F F T処理部 1 8 0の出力に対して対数変換およびコサイン逆変換を行なう。ケプストラム距離計算部 1 8 4は、対数変換および逆 D C T部 1 8 2の出力するケプストラム係数と距離最小化処理部 1 8 6から与えられるケプストラム係数の推定との間の距離を計算する。距離最小化処理部 1 8 6は、フォルマントの推定値を表わすケブストラム係数の値を起点として、ケプストラム距離計算部 1 8 4により計算される距離が最小値となるように山登り法によって距離最小化処理部 1 8 6から与えられたケプストラム係数の値をさらに最適化し、最小値が得られるときのフォルマント推定値を出力する。

A Q指数計算部 1 0 0の内部構成は第 9図に示されており、この第 9図を参照して、擬似音節中心における音声データはまずハイパスフィルタ 2 0 0を通り、その結果 7 O H z以下の低周波数の雑音が除去される。さらに適応的ローバスフィルタ 2 0 2によって第 4フォルマントより高い周波数領域のスぺクトル情報が除去される。そして、適応的逆フィルタ 2 0 4によって第 1〜第 4フォルマントによる影響が除去される。

その結果、適応的逆フィルタ 2 0 4の出力は声門気流の波形の微分のよい推定値となる。これを積分回路 2 0 6で積分することにより声門気流の波形の推定値が得られる。最大ピーク間振幅検出回路 2 0 8によって声門気流の波形のピークツーピークの振幅の最大値を検出する。最大の負のピーク振幅検出回路 2 1 0によって声門気流の微分波形のサイクル内での負の最大の振幅を検出する。最大ピーク間振幅検出回路 2 0 8の出力の、最大の負のピーク振幅検出回路 2 1 0の出力に対する比を比計算回路 2 1 2で計算することにより、擬似音節中心における A Q指数が得られる。

こうして得られた A Q指数は、各擬似音節中心におけるもとの音声データの特徴（緊張音 -気息音の間の度合い）を信頼性高くあらわしている。これら各擬似音節中心に対して A Q指数を計算し、さらにこれら得られた A Q指数を補間することにより、擬似音節中心以外の部分の A Q指数を推定することもできる。そうすることにより、音声データのうち、一定の A Q指数を示す部分に、当該 A Q指数に対応した適切なラベルをパラ言語情報として付けておき、音声合成の際には、所望の A Q指数を有する音声データを使用すれば、単なるテキストだけでなく、パラ言語情報をも含んだ形での音声合成を行なうことが可能になる。

第 1 0図〜第 1 2図に、本実施例の装置をコンピュータにより実現した際の画面表示例を示す。

第 1 0図を参照して、このプログラムによる表示ウィンドウには、音声データ波形 2 4 0と、音声データに対して付された音声ラベル 2 4 2と、基本周波数の波形の時間軸上の分布波形の輪郭 2 4 4と、ソノラントエネルギの変動の時間軸上の分布波形の輪郭 2 4 6と、 Δケプストラムから計算されたスぺクトル変化の局所的な分散の時間軸上の分布波形の輪郭 2 4 8と、フオルマントー F F Tケプストラム距離の時間軸上の分布波形の輪郭 2 5 0と、スぺクトル変化の局所的な分散の分布波形の輪郭 2 4 8およびフォルマント一ケプストラム距離の分布波形の輪郭 2 5 0を統合した波形である非信頼性の時間軸上の分布波形の輪郭 2 5 2 と、上述のようにして算出された擬似音節中心での声門の A Q指数 2 5 4と、各擬似音節中心で推定された声道の面積関数 2 5 6とが示されている。

音声データ波形 2 4 0の表示領域に示された太レ、縦線 2 3 2と、ソノラントェネルギの変動の輪郭 2 4 6の表示領域に示された太い縦線とは擬似音節の境界を示す。音声データ波形 2 4 0の表示領域に示された細い縦線 2 3 0と、ソノラントエネルギの変動の輪郭 2 4 6および基本周波数の波形輪郭 2 4 4の表示領域に示された細い縦線は擬似音節核の境界を示す。

非信頼性の波形 2 5 2の表示領域に示された縦線は波形の極小値部分（ディップ）であり、そこを中心として A Q指数が計算されている部分が最も信頼性の高い部分である。なお A Q指数が計算された期間および値は横棒で示されており、横棒の縦位置が高いほど緊張音に近く、低いほど気息音に近い。

第 1 1図には、第 1 0図の左側の点線のボックス 2 6 2で示される時点での声門気流波形の推定値 2 7 0と、その微分波形 2 7 2と、推定された声門気流波形のスぺクトル 2 7 4とが示されている。第 1 0図のボックス 2 6 2に対応する時点では A Q指数 2 5 4は高く、すなわちこの時点の発声は緊張音に近い。第 1 1 図に示すとおり、このときの声門気流の波形はのこぎり形に近く、サインゥエーブの波形からは遠く異なっている。また、微分波形は鋭く変化している。

第 1 2図には、第 1 0図の点 f泉のポックス 2 6 0で示される時点での声門気流波形の推定値 2 8 0と、その微分波形 2 8 2と、推定された声門気流波形のスぺクトル 2 8 4とが示されている。第 1 0図のボックス 2 6 0に対応する時点では A Q指数 2 5 4は低く、すなわちこの時点の発声は気息音に近い。第 1 2図に示すとおり、このときの声門気流の波形はきれいなサインカーブに近い。微分波形も緩やかなものとなっている。

上に述べた装置を用い、前述した音声データを実際に処理して擬似音節中心を抽出し、各擬似音節中心に対して A Q指数を算出する一方、それらの擬似音節中心に対応する音を人間が聞いたときに感ずる感想と、 A Q指数との相関を以下のようにして調査した。

上記した装置を用いて抽出された信頼性の中心は 2 2， 0 0 0個であり、その各々について対応する声門気流波形および A Q指数と、もとの音声波形の RM S (R o o t M e a n S q u a r e ) エネルギ（ d B ) とを算出した。これら信頼性の中心のうち、同一の音節核中に存在しかつ互いの A Q指数がほぼ一致しているものをまとめ、さらにそれら信頼性の中心のうち、統合された非信頼性の値が 0 . 2以上のものを棄却することにより、聴覚刺激として使用可能と思われる音節核の数は 1 5， 0 0 0をわずかに超えたものとなった。

このデータセットに対して算出された統計情報に基づき、知覚上の評価を行なうために 6 0の刺激からなるサブセットを選択した。具体的には、前述した 3つの感情を表わすデータベースの各々について、極めて低い、または極めて高い、または各感情に対する A Q指数の平均値マイナスその分布の標準偏差（σ) 近辺、または A Q指数の平均値プラス標準偏差近辺、の 4つのカテゴリのいずれかに A Q指数が属するような信頼性の中心を含む音節核を 5つずつ選択した。

このようにして選択された 6 0個の擬似音節核の時間的長さは 3 2 m s e cから 5 6 O m s e cの範囲であり、その平均は 1 7 1 m s e cであった。通常の聴覚的能力を有する 1 1人の被験者が、これら短時間の刺激の各々について聴覚的評価を行なった。被験者は静粛なオフィス環境で、高音質のヘッドフォンを用い、各刺激を必要な回数だけ聞き、各刺激について、それぞれ「気息性」および「強さ」とだけ説明した二つのスケールにしたがい、 7段階で採点した。各被験者の採点は各々比例により [ 0 , 1 ] の範囲に正規化され、正規化した点数に基づいて、 6 0個の刺激の各々についての 1 1人の被験者全ての気息性および強さに関する平均値を算出した。

第 1 3図は、上のようにして調べた気息性と、音響的に測定した A Q指数の値とを比較する散布図である。これら 6 0対の値に対する線形相関係数は 0 . 7 7 であった。この相関は必ずしも高いものではないが、刺激に対する A Qの測定値が高くなれば、その刺激に対して感じられる気息性も平均すれば高くなるという明らかな傾向があることを裏付けるものといえる。第 1 3図の散布図上で想定されるべストフイツトの直線から最も遠い位置に存在する点のいくつかをより詳細に調べると、誤差の原因として次のようなものが浮かび上がる。すなわち、動的制約が欠如しているために生ずる、 5つのフレーム中でのフォルマントの非連続性、 5つのフレームに含まれていない音節核の一部において生ずる高い気息性、および 5つのフレーム中の母音部分に対して、隣接した鼻音がおよぼす強い影響などである。

さらに、第 1 3図からは、中位から下位の A Q指数を有する刺激に対しては、気息性の感じ方が広いことに気づく。これは、気息性が低い刺激に気息性に関する点数をつけることが難しく、むしろ地声または緊張音的な発音という側面から点数付けしたほうがよりよく特徴を表わせるのではないか、という直感的な理解を裏付けるものと思われる。

ここでは図としては示していないが、強さの感じ方を、同じ信頼性の中心において測定された RM Sエネルギと比較するための散布図も作成した。その相関係数は 0 . 8 3となり、より高度な重み付けを用いて強さの感じ方を測定しているわけではないにもかかわらず、その関係の強さを裏付けるものとなっている。以上のように本実施例では、音響'韻律的分析と、ケプストラム分析とを組合せて、（ i ) 録音された自然な発声中の擬似音節の信頼性の中心の位置を決定するための、（ i i ) 参考文献 2で提案された A Q指数により定量化された音源の属性を測定するための、全くオペレータが介在する必要がない方法および装置を実現した。そして、その方法および装置を用いて行なった音声知覚の実験の結果は、擬似音節核中で知覚された気息性と強い相関を持つ、頑健性をもって測定できる値としての A Q指数の重要性を確認するものであった。実際、前述したような誤差源が存在しているにもかかわらず、 A Q指数と気息性の知覚との間に見出された相関により、音質パラメータとしての A Q指数をさらに研究する必要があることを確認することができた。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすベての変更を含む。

[参考文献]

丄) Sundberg, J. (1987) . The science of the singing voice, Northern Illinois University Press, Delcalb, Illinois.

( 2 ) Alku, P. & Vilkman, E. (1996) . "Amplitude domain quotient for characterization of the glottal volume velocity waveform estimated by inverse filtering", SpeechComm. , 18 (2)， 131 - 138.

( 3 ) .Hermes, D. (1988) . "Measurement of pitch by subharmonic summation", J. Acoust.

Soc. Am. 83 (1)， 257-264.

( 4 ) Merrael stein, P. (1975) , 、、 Automatic segmentation of speech into syllabic units", J. Acoust. Soc. Am. 58 (4)， 880-883.

( 5 ) Lea, W. A. (1980) . "Prosodic aids to speech recognition", in Lea, W. A. (ed. ) , Trends in Speech Recognition, Prentice-Hall, New Jersey, 166-205.

( 6 ) Broad, D. J. & Clermont, F. (1989) . "Formant estimation by linear transformation of the LPC cepstrum", J. Acoust. Soc. Am. 86 (5)， 2013-2017.

( 7 ) Mokhtari, P. , Iida, A. & Campbell, N. (2001) . "Some articulatory correlates of emotion variability in speech ： a preliminary study on spoken Japanese vowels", Proc. Int. Conf. on SpeechProcess. , Taejon, Korea, 431-436.

( 8 ) Peterson, G. E. , & Shoup, J. E. (1966) . 、、A physiological theory of phonetics", J. Speech Hear. Res. 9， 5 - 67.

( 9 ) Iida, A. , Campbell, N. , Iga, S. , Higuchi, F. & Yasumura, M. (1998) . "Acoustic nature and perceptual testing of corpora of emotional speech", Proc. 5th Int. Conf. on Spoken Lang. Process.， 1559-1562. 産業上の利用可能性

この方法および装置により、発声単位に対するパラ言語的なラベル付けを、ォペレータの介在なく自動的に行なってデータベースを構築することが容易になる。そのように所望のラベル付けがされた発声単位のデータベースを用いて音声の連続合成を行なうことにより、緊張音から地声、さらに気息的な発音までの範囲にわたる幅広い発声スタイルを用いた自然な音声合成を使用した

フェースを実現することが可能となる。

Claims

請求の範囲

1 . 音声波形のデータに基づいて、前記音声波形の特徴を高い信頼性で示す部分を決定するための装置であって、

前記データから前記音声波形のうちの所定周波数領域のエネルギーの時間軸上の分布を算出し、当該分布および前記音声波形のピッチに基づいて、前記音声波形の各節のうち、前記音声波形の発生源によって安定して発生されている領域を抽出するための抽出手段と、

前記データから前記音声波形のスぺクトルの時間軸上の分布を算出し、当該スぺクトルの時間軸上の分布に基づいて、前記音声波形のうち、その変化が前記発生源により良好に制御されている領域を推定するための推定手段と、

前記推定手段の出力と、前記発生源によって安定して発生されている領域として前記抽出手段により抽出され、力、つ前記発生源によってその変化が良好に制御されていると前記推定手段によつて推定された領域を前記音声波形の高信頼性部分として決定するための手段とを含む、音声波形の特徴を高い信頼性で示す部分を決定するための装置。

2 . 前記抽出手段は、

前記データに基づいて、前記音声波形の各区間が有声区間か否かを判定するための有声判定手段と、

前記音声波形の前記所定周波数領域のエネルギーの時間軸上の分布の波形の極小部で前記音声波形を節に分離するための手段と、

前記音声波形のうち、各節内で、当該節内のエネルギーのピークを含み、かつ前記有声判定手段により有声区間であると判定された区間であって、かつ前記所定周波数領域のエネルギーが所定のしきい値以上である領域を抽出するための手段とを含む、請求項 1に記載の装置。

3 . 前記推定手段は、

前記音声波形に対する線形予測分析を行ないフォルマント周波数の推定値を出力するための線形予測手段と、

前記データを用いて、前記線形予測手段によるフォルマント周波数の推定値の非信頼性の時間軸上の分布を算出するための第 1の算出手段と、前記線形予測手段の出力に基づいて、前記音声波形の時間軸上のスぺクトル変化の局所的な分散の、時間軸上の分布を算出するための第 2の算出手段と、前記第 1の算出手段により算出された前記フォルマント周波数の推定値の非信頼性の時間軸上の分布と、前記第 2の算出手段により算出された前記音声波形のスぺクトル変化の局所的な分散の時間軸上の分布との双方に基づいて、前記音声波形の変化が前記発生源により良好に制御されている領域を推定するための手段とを含む、請求項 1に記載の装置。

4 . 前記決定するための手段は、前記推定手段により前記音声波形の変化が前記発生源により良好に制御されていると推定された領域のうち、前記抽出手段により抽出された領域に含まれる領域を前記音声波形の高信頼性部分として決定するための手段を含む、請求項 1に記載の装置。

5 . 音声信号を擬似音節に分離し、さらに各擬似音節の核部分を抽出するための擬似音節核抽出装置であって、

前記音声信号の各区間が有声区間か否かを判定するための有声判定手段と、前記音声信号の所定周波数領域のエネルギ一の時間的な分布の波形の極小部で前記音声信号を擬似音節に分離するための手段と、

前記音声信号のうち、各擬似音節内でのエネルギーのピークを含み、かつ前記有声判定手段により有声区間であると判定された区間である領域を当該擬似音節の核として抽出するための手段とを含む、擬似音節核抽出装置。

6 . 前記抽出するための手段は、前記音声信号のうち、各擬似音節内でのェネルギ一のピークを含み、かつ前記有声判定手段により有声区間であると判定された区間であって、かつ前記所定周波数領域のエネノレギ一が所定のしきい値以上である領域を当該擬似音節の核として抽出するための手段を含む、請求項 5に記載の擬似音節核抽出装置。

7 . 音声信号の特徴を高い信頼性で示す部分を決定するための装置であって、前記音声信号に対する線形予測分析を行なうための線形予測手段と、

前記線形予測手段によるフォルマントの推定値と、前記音声信号とに基づいて、前記フォルマントの推定値の非信頼性の時間軸上の分布を算出するための第 1の算出手段と、

前記線形予測手段による線形予測分析の結果に基づいて、前記音声信号のスぺクトル変化の局所的な分散の時間軸上の分布を算出するための第 2の算出手段と、前記第 1の算出手段により算出された前記フォルマント周波数の推定値の非信頼性の時間軸上の分布と、前記第 2の算出手段により算出された前記音声波形のスぺクトル変化の局所的な分散の時間軸上の分布との双方に基づいて、前記音声波形の変化が前記発生源により良好に制御されている領域を推定するための手段とを含む、音声信号の特徴を高い信頼性で示す部分を決定するための装置。

8 . コンピュータ上で実行されると、音声波形のデータに基づいて、前記音声波形の特徴を高い信頼性で示す部分を決定するための装置としてコンピュータを動作させるプログラム製品であって、前記装置は、

+前記データから前記音声波形のスぺクトルの時間軸上の分布を算出し、当該スベクトルの時間軸上の分布に基づいて、前記音声波形のうち、その変化が前記発生源により良好に制御されている領域を推定するための推定手段と、

前記推定手段の出力と、前記発生源によって安定して発生されている領域として前記抽出手段により抽出され、力つ前記発生源によってその変化が良好に制御されていると前記推定手段によつて推定された領域を前記音声波形の高信頼性部分として決定するための手段とを含む、プログラム製品。

9 . 前記抽出手段は、

前記音声波形のうち、各節内で、当該節内のエネルギーのピークを含み、かつ前記有声判定手段により有声区間であると判定された区間であって、かつ前記所定周波数領域のエネルギーが所定のしきい値以上である領域を抽出するための手段とを含む、請求項 8に記載のプログラム製品。

1 0 . 前記推定手段は、

前記音声波形に対する線形予測分析を行ないフォルマント周波数の推定を出力するための線形予測手段と、

前記データを用いて、前記線形予測手段によるフォルマント周波数の推定値の非信頼性の時間軸上の分布を算出するための第 1の算出手段と、

前記線形予測手段の出力に基づいて、前記音声波形の時間軸上のスぺクトル変化の局所的な分散の、時間軸上の分布を算出するための第 2の算出手段と、前記第 1の算出手段により算出された前記フォルマント周波数の推定値の非信頼性の時間軸上の分布と、前記第 2の算出手段により算出された前記音声波形のスぺクトル変化の局所的な分散の時間軸上の分布との双方に基づいて、前記音声波形の変化が前記発生源により良好に制御されている領域を推定するための手段とを含む、請求項 8に記載のプロダラム製品。

1 1 . 前記決定するための手段は、前記推定手段により前記音声波形の変化が前記発生源により良好に制御されていると推定された領域のうち、前記抽出手段により抽出された領域に含まれる領域を前記音声波形の高信頼性部分として決定するための手段を含む、請求項 8に記載のプログラム製品。

1 2 . コンピュータ上で実行されると、音声信号を擬似音節に分離し、さらに各擬似音節の核部分を抽出するための擬似音節核抽出装置としてコンピュータを動作させるプログラム製品であって、前記擬似音節核抽出装置は、

前記音声信号の各区間が有声区間か否かを判定するための有声判定手段と、前記音声信号の所定周波数領域のエネルギーの時間的な分布の波形の極小部で前記音声信号を擬似音節に分離するための手段と、

前記音声信号のうち、各擬似音節内でのエネルギーのピークを含み、かつ前記有声判定手段により有声区間であると判定された区間であって、かつ前記所定周波数領域のエネルギーが所定のしきい値以上である領域を当該擬似音節の核として抽出するための手段とを含む、プログラム製品。

1 3 . 音声信号の特徴を高い信頼性で示す部分を決定するための装置としてコンピュータを動作させるプログラム製品であって、前記装置は、前記音声信号に対する線形予測分析を行なうための線形予測手段と、

前記線形予測手段による線形予測分析の結果に基づいて、前記音声信号のスぺクトル変化の局所的な分散の時間軸上の分布を算出するための第 2の算出手段と、前記第 1の算出手段により算出された前記フォルマント周波数の推定値の非信頼性の時間軸上の分布と、前記第 2の算出手段により算出された前記音声波形のスペクトル変化の局所的な分散の時間軸上の分布との双方に基づいて、前記音声波形の変化が前記発生源により良好に制御されている領域を推定するための手段とを含む、音声信号の特徴を高い信頼性で示す部分を決定するためのプログラム製品。

1 4 . 音声波形のデータに基づいて、前記音声波形の特徴を高い信頼性で示す部分を決定する方法であって、

前記データから前記音声波形のうちの所定周波数領域のエネルギーの時間軸上の分布を算出し、当該分布および前記音声波形のピッチに基づいて、前記音声波形の各節のうち、前記音声波形の発生源によって安定して発生されている領域を抽出するステップと、

前記データから前記音声波形のスペクトルの時間軸上の分布を算出し、当該スベクトルの時間軸上の分布に基づいて、前記音声波形のうち、その変化が前記宪生源により良好に制御されている領域を推定するステップと、

前記推定するステツプの出力と、前記発生源によつて安定して発生されている領域として前記抽出するステップにおいて抽出され、かつ前記発生源によってその変化が良好に制御されていると前記推定するステップにおいて推定された領域を前記音声波形の高信頼性部分として決定するステップとを含む、方法。

1 5 . 前記抽出するステップは、

前記データに基づいて、前記音声波形の各区間が有声区間か否かを判定するステツプと、前記音声波形の前記所定周波数領域のエネルギーの時間軸上の分布の波形の極小部を検出し、当該極小部で前記音声波形を節に分離するステツプと、

前記音声波形のうち、各節内で、当該節内のエネギ一のピークを含み、かつ前記有声判定手段により有声区間であると判定された区間であって、かつ前記所定周波数領域のエネルギーが所定のしきい値以上である領域を抽出するステップとを含む、請求項 1 4に記載の方法。 '

1 6 . 前記推定するステツプは、

前記音声波形に対する線形予測分析を行ないフォルマント周波数の推定値を出力するステップと、

前記データを用いて、前記推定値を出力するステップにより推定されたフオルマント周波数の非信頼性の時間軸上の分布を算出するステップと、

算出された前記フォルマント周波数の非信頼性の時間軸上の分布に基づいて、前記音声波形の時間軸上のスぺクトル変化の局所的な分散の、時間軸上の分布を算出するステップと、

前記算出された前記フォルマント周波数の非信頼性の時間軸上の分布と、算出された前記音声波形のスぺクトル変化の局所的な分散の時間軸上の分布との双方に基づいて、前記音声波形の変化が前記発生源により良好に制御されている領域を推定するステップとを含む、請求項 1 4に記載の方法。

1 7 . 前記決定するステップは、前記推定するステップにおいて前記音声波形の変化が前記発生源により良好に制御されていると推定された領域のうち、前記抽出するステップにより抽出された領域に含まれる領域を前記音声波形の高信頼性部分として決定するステップを含む、請求項 1 4に記載の方法。

1 8 . 音声信号を擬似音節に分離し、さらに各擬似音節の核部分を抽出する方法であって、

前記音声信号の各区間が有声区間か否かを判定するステップと、

前記音声信号の所定周波数領域のエネルギーの時間的な分布の波形の極小部で前記音声信号を擬似音節に分離するステップと、

前記音声信号のうち、各擬似音節内でのエネルギーのピークを含み、かつ前記判定するステツプにおいて有声区間であると判定された区間である領域を当該擬似音節の核として抽出するステップとを含む、方法。

1 9 . 前記抽出するステップは、前記音声信号のうち、各擬似音節内でのェネルギ一のピークを含み、かつ前記判定するステップにおいて有声区間であると判定された区間であって、かつ前記所定周波数領域のエネルギーが所定のしきい値以上である領域を当該擬似音節の核として抽出するステップを含む、請求項 1 8に記載の方法。