JPWO2004049304A1 - 音声合成方法および音声合成装置 - Google Patents

音声合成方法および音声合成装置 Download PDF

Info

Publication number
JPWO2004049304A1
JPWO2004049304A1 JP2004555020A JP2004555020A JPWO2004049304A1 JP WO2004049304 A1 JPWO2004049304 A1 JP WO2004049304A1 JP 2004555020 A JP2004555020 A JP 2004555020A JP 2004555020 A JP2004555020 A JP 2004555020A JP WO2004049304 A1 JPWO2004049304 A1 JP WO2004049304A1
Authority
JP
Japan
Prior art keywords
waveform
pitch
speech
dft
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004555020A
Other languages
English (en)
Other versions
JP3660937B2 (ja
Inventor
釜井 孝浩
孝浩 釜井
加藤 弓子
弓子 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP3660937B2 publication Critical patent/JP3660937B2/ja
Publication of JPWO2004049304A1 publication Critical patent/JPWO2004049304A1/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

言語処理部(31)は、対話処理部(20)からのテキストを解析して発音およびアクセントの情報に変換する。韻律生成部(32)は、対話処理部(20)からの制御信号に応じた抑揚パターンを生成する。波形DB(34)には、あらかじめ録音された波形データとそれに対し付与されたピッチマークのデータとが記憶されている。波形切り出し部(33)は、波形DB(34)から所望のピッチ波形を切り出す。位相操作部(35)は、波形切り出し部(33)によって切り出されたピッチ波形の位相スペクトルを定型化することにより位相揺らぎを除去し、その後、対話処理部(20)からの制御信号に応じて高域の位相成分のみをランダムに拡散させることによって位相揺らぎを付与する。こうしてできたピッチ波形は波形重畳部(36)によって所望の間隔で並べられ、重ね合わせて配置される。

Description

この発明は、音声を人工的に生成する方法および装置に関する。
近年、デジタル技術を応用した情報機器の高機能化・複雑化が急速に進んでいる。このようなデジタル情報機器を利用者が簡易に扱えるようにするためのユーザ・インタフェースの1つに音声対話型インタフェースがある。音声対話型インタフェースは、利用者との間で音声による情報のやりとり(対話)を行うことによって所望の機器操作を実現するものであり、カーナビゲーションシステムやデジタルテレビなどに搭載され始めている。
音声対話型インタフェースにより実現される対話は、感情を持っている利用者(人間)と感情を持っていないシステム(機械)との間の対話である。ゆえに、いかなる状況においてもいわゆる棒読み調の合成音声で対応したのでは利用者が違和感や不快感を感じてしまう。音声対話型インタフェースを使い心地のよいものにするためには、利用者に違和感や不快感を感じさせない自然な合成音声で対応しなければならない。そのためには、それぞれの状況にふさわしい感情が入った合成音声を生成する必要がある。
現在までのところ、音声による感情表現の研究はピッチの変化パターンに注目するものが中心である。喜怒哀楽を表すイントネーションの研究がたくさんなされている。図29に示すように、同じ文面(この例では「お早いお帰りですね。」という文面)でピッチパターンを変えた場合に聞いた人がどのように感じるかを調べる研究が多い。
この発明の目的は、合成音声の自然さを向上させることができる音声合成方法および音声合成装置を提供することである。
この発明による音声合成方法はステップ(a)〜(c)を備える。ステップ(a)では、第1の揺らぎ成分を含む音声波形から当該第1の揺らぎ成分を除去する。ステップ(b)では、ステップ(a)によって第1の揺らぎ成分が除去された音声波形に第2の揺らぎ成分を付与する。ステップ(c)では、ステップ(b)によって第2の揺らぎ成分が付与された音声波形を用いて合成音声を生成する。
好ましくは、上記第1および第2の揺らぎ成分は位相揺らぎである。
好ましくは、上記ステップ(b)では、ステップ(c)によって生成される合成音声において表現すべき感情に応じたタイミングおよび/または重み付けで第2の揺らぎ成分を付与する。
この発明による音声合成装置は手段(a)〜(c)を備える。手段(a)は、第1の揺らぎ成分を含む音声波形から当該第1の揺らぎ成分を除去する。手段(b)は、手段(a)によって第1の揺らぎ成分が除去された音声波形に第2の揺らぎ成分を付与する。手段(c)は、手段(b)によって第2の揺らぎ成分が付与された音声波形を用いて合成音声を生成する。
好ましくは、上記第1および第2の揺らぎ成分は位相揺らぎである。
好ましくは、上記音声合成装置は手段(d)をさらに備える。手段(d)は、第2の揺らぎ成分を付与するタイミングおよび/または重み付けを制御する。
上記音声合成方法および音声合成装置では、第2の揺らぎ成分を付与することによりささやき声を効果的に実現することができる。これにより、合成音声の自然さを向上させることができる。
また、音声波形に含まれている第1の揺らぎ成分を除去した後にあらためて第2の揺らぎ成分を与えるため、合成音声のピッチ変更時に発生するざらつき感を抑制することができ、合成音声のブザー音的音質を低減することができる。
図1は、第1の実施形態による音声対話型インタフェースの構成を示すブロック図である。
図2は、音声波形データ、ピッチマーク、ピッチ波形を示す図である。
図3は、ピッチ波形が準対称波形に変換される様子を示す図である。
図4は、位相操作部の内部構成を示すブロック図である。
図5は、ピッチ波形の切り出しから、位相操作済みピッチ波形が重ね合わせられて合成音に変換されるまで様子を示す図である。
図6は、ピッチ波形の切り出しから、位相操作済みピッチ波形が重ね合わせられて合成音に変換されるまで様子を示す図である。
図7は、文面「お前たちがねぇ」についてのサウンドスペクトログラムである。(a)は原音、(b)は揺らぎが付与されていない合成音声、(c)は「お前たち」の「え」の箇所に揺らぎが付与された合成音声のサウンドスペクトログラムである。
図8は、「お前たち」の「え」の部分のスペクトルを示す図である(原音)。
図9は、「お前たち」の「え」の部分のスペクトルを示す図である。(a)は揺らぎが付与された合成音声、(b)は揺らぎが付与されていない合成音声である。
図10は、合成音声に与える感情の種類と揺らぎを付与するタイミングおよび周波数領域との対応関係の一例を示す図である。
図11は、合成音声に強い謝罪の感情を込める場合に付与される揺らぎの量を示す図である。
図12は、図1に示した音声対話型インタフェースをデジタルテレビに搭載した場合に利用者との間で行われる対話の例を示す図である。
図13は、いかなる状況においてもいわゆる棒読み調の合成音声で対応した場合の利用者との対話の流れを示す図である。
図14(a)は、位相操作部の変形例を示すブロック図である。(b)は、位相揺らぎ付与部の実現例を示すブロック図である。
図15は、位相揺らぎ付与部の別の実現例である回路のブロック図である。
図16は、第2の実施形態における音声合成部の構成を示す図である。
図17(a)は、代表ピッチ波形DBに蓄積される代表ピッチ波形を生成する装置の構成を示すブロック図である。(b)は、(a)に示した位相揺らぎ除去部の内部構成を示すブロック図である
図18(a)は、第3の実施形態における音声合成部の構成を示すブロック図である。(b)は、代表ピッチ波形DBに蓄積される代表ピッチ波形を生成する装置の構成を示すブロック図である。
図19は、正規化部および変形部における時間長変形の様子を示す図である。
図20(a)は、第4の実施形態における音声合成部の構成を示すブロック図である。(b)は、代表ピッチ波形DBに蓄積される代表ピッチ波形を生成する装置の構成を示すブロック図である。
図21は、聴感補正曲線の一例を示す図である。
図22は、第5の実施形態における音声合成部の構成を示すブロック図である。
図23は、第6の実施形態における音声合成部の構成を示すブロック図である。
図24は、代表ピッチ波形DBに蓄積される代表ピッチ波形およびパラメータメモリに蓄積される声道パラメータを生成する装置の構成を示すブロック図である。
図25は、第7の実施形態における音声合成部の構成を示すブロック図である。
図26は、代表ピッチ波形DBに蓄積される代表ピッチ波形およびパラメータメモリに蓄積される声道パラメータを生成する装置の構成を示すブロック図である。
図27は、第8の実施形態における音声合成部の構成を示すブロック図である。
図28は、代表ピッチ波形DBに蓄積される代表ピッチ波形およびパラメータメモリに蓄積される声道パラメータを生成する装置の構成を示すブロック図である。
図29(a)は、通常の音声合成規則で生成したピッチパターンを示す図である。(b)は、皮肉に聞こえるように変化させたピッチパターンを示す図である。
以下、この発明の実施の形態を図面を参照して詳しく説明する。なお、図中同一または相当部分には同一の符号を付し、その説明は繰り返さない。
(第1の実施形態)
<音声対話型インタフェースの構成>
第1の実施形態による音声対話型インタフェースの構成を図1に示す。このインタフェースはデジタル情報機器(たとえばデジタルテレビやカーナビゲーションシステムなど)と利用者との間に介在し、利用者との間で音声による情報のやりとり(対話)を行うことによって利用者の機器操作を支援する。このインタフェースは、音声認識部10と、対話処理部20と、音声合成部30とを備える。
音声認識部10は、利用者が発声した音声を認識する。
対話処理部20は、音声認識部10による認識結果に応じた制御信号をデジタル情報機器に与える。また、音声認識部10による認識結果および/またはデジタル情報機器からの制御信号に応じた応答文(テキスト)とその応答文に与える感情を制御する信号とを音声合成部30に与える。
音声合成部30は、対話処理部20からのテキストおよび制御信号に基づいて規則合成方式により合成音声を生成する。音声合成部30は、言語処理部31と、韻律生成部32と、波形切り出し部33と、波形データベース(DB)34と、位相操作部35と、波形重畳部36とを備える。
言語処理部31は、対話処理部20からのテキストを解析して発音およびアクセントの情報に変換する。
韻律生成部32は、対話処理部20からの制御信号に応じた抑揚パターンを生成する。
波形DB34には、あらかじめ録音された波形データとそれに対し付与されたピッチマークのデータとが記憶されている。その波形とピッチマークの例を図2に示す。
波形切り出し部33は、波形DB34から所望のピッチ波形を切り出す。このとき典型的にはHanning窓関数(中央でのゲインが1で両端に向けて滑らかに0近傍に収束する関数)を用いて切り出す。その様子を図2に示す。
位相操作部35は、波形切り出し部33によって切り出されたピッチ波形の位相スペクトルを定型化し、その後、対話処理部20からの制御信号に応じて高域の位相成分のみをランダムに拡散させることによって位相揺らぎを付与する。次に、位相操作部35の動作について詳しく述べる。
まず、位相操作部35は波形切り出し部33から入力されたピッチ波形をDFT(Discrete Fourier Transform)し、周波数領域の信号に変換する。入力されるピッチ
数1において添え字iはピッチ波形の番号、S(n)はピッチ波形先頭からn
ここで、S(0)からS(N/2−1)までは正の周波数成分を表し、S(N/2)からS(N−1)は負の周波数成分を表す。また、S(0)は0Hzすなわち直流成分を表す。各周波数成分S(k)は複素数であるので数3のように表すことができる。
ここで、Re(c)は複素数cの実数部を、Im(c)はcの虚数部を表す。位相操作部3
ここでρ(k)は周波数kにおける位相スペクトルの値で、ピッチ番号iとは独立なkのみの関数である。すなわち、ρ(k)は全てのピッチ波形に対して同じものを用いる。これにより全てのピッチ波形の位相スペクトルは同一のものとなるため、位相揺らぎは除去される。典型的にはρ(k)は定数0でよい。このようにすれば位相成分が完全に除去される。
次に、位相操作部35は後半の処理として対話処理部20からの制御信号に応じて適当な境界周波数ωを決め、ωよりも高い周波数の成分に位相の揺らぎを与える。たとえば数5のように位相成分をランダマイズすることにより位相を拡散する。
ここで、φはランダムな値である。また、kは境界周波数ωに対応する周波数成分の番号である。
の様子を図3に示す。
位相操作部35の内部構成を図4に示す。すなわちDFT部351が設けられ、その出力は位相定型化部352に接続されている。位相定型化部352の出力は位相拡散部353に接続されており、その出力はIDFT部354に接続されている。DFT部351は数1から数2への変換、位相定型化部352は数3から数4への変換、位相拡散部353は数5の変換、IDFT部354は数6から数7への変換を行う。
こうしてできた位相操作済みピッチ波形は波形重畳部36によって所望の間隔で並べられ、重ね合わせて配置される。この時、所望の振幅になるように振幅調整を行うこともある。
以上に説明した波形の切り出しから重ね合わせまでの様子を図5および図6に示す。図5はピッチを変えないケース、図6はピッチを変えるケースを示す。また図7〜図9には、文面「お前たちがねぇ」について、原音、揺らぎが付与されていない合成音声、「お前」の「え」の箇所に揺らぎが付与された合成音声のスペクトル表示を示す。
<位相揺らぎを付与するタイミングおよび周波数領域の例>
図1に示したインタフェースでは、位相操作部35により揺らぎを付与するタイミングおよび周波数領域を対話処理部20において制御することによりさまざまな感情が合成音声に与えられる。合成音声に与える感情の種類と揺らぎを付与するタイミングおよび周波数領域との対応関係の一例を図10に示す。また、図11には、「すみません、おっしゃっていることがわかりません。」という合成音声に強い謝罪の感情を込める場合に付与される揺らぎの量を示す。
<対話の例>
このように図1に示した対話処理部20は、合成音声に与える感情の種類を状況に応じて決定し、その感情の種類に応じたタイミングおよび周波数領域で位相揺らぎを付与するように位相操作部35を制御する。これにより、利用者との間で行われる対話が円滑になる。
図1に示した音声対話型インタフェースをデジタルテレビに搭載した場合に利用者との間で行われる対話の例を図12に示す。番組の選択を利用者に促す場合には、楽しそうな感情(中くらいの喜び)を込めた合成音声「見たい番組をどうぞ」を生成する。これに対して利用者は、希望する番組を機嫌良く発声する(「じゃあ、スポーツがいいな」)。この利用者の発声を音声認識部10で認識し、その結果を利用者に確認するための合成音声「ニュースですね」を生成する。この合成音声にも楽しそうな感情(中くらいの喜び)を込める。認識結果が誤っているため利用者は、希望する番組を再度発声する(「いや、スポーツだよ」)。ここでは1回目の誤認識であるため利用者の感情は特に変化しない。この利用者の発声を音声認識部10で認識し、その結果から、前回の認識結果が誤りであったと対話処理部20が判断する。そして、再度の認識結果を利用者に確認するための合成音声「すみません、経済番組でしょうか」を音声合成部30に生成させる。ここでは2度目の確認となるため、申し訳なさそうな感情(中くらいの謝罪)を合成音声に込める。またもや認識結果が誤っているけれども、申し訳なさそうな合成音声であるため利用者は不快感を感じることなく普通の感情で三たび希望の番組を発声する(「いやいや、スポーツ」)。この発声に対して音声認識部10において適切な認識ができなかったと対話処理部20が判断する。2回続けて認識に失敗したため対話処理部20は、音声ではなくリモコンのボタン操作で番組を選択するよう利用者を促すための合成音声「すみません、おっしゃっていることが分かりませんのでボタンで選んでいただけませんか」を音声合成部30に生成させる。ここでは前回よりもさらに申し訳なさそうな感情(強い謝罪)を合成音声に込める。すると利用者は不快感を感じることなくリモコンのボタンで番組を選択する。
状況に応じて適切な感情を合成音声に持たせた場合の利用者との対話の流れは以上のようになる。これに対して、いかなる状況においてもいわゆる棒読み調の合成音声で対応した場合の利用者との対話の流れは図13に示すようになる。このように無表情・無感情な合成音声で対応した場合、誤認識を繰り返すにつれ利用者は不快感を強く感じるようになる。不快感が強まるにつれ利用者の声も変化し、その結果、音声認識部10での認識精度も低くなる。
<効果>
感情を表現するために人間が使う方法は多種多様である。たとえば顔の表情や身振り手振りがそうであり、音声においては抑揚パターンやスピード、間の取り方などありとあらゆる方法がある。しかも、人間はそれら全てを駆使して表現力を発揮しているのであって、ピッチパターンの変化だけで感情を表現しているのではない。したがって、効果的な感情表現を音声合成で行うためには、ピッチパターン以外にも様々な表現方法を利用することが必要である。感情を込めて話された音声を観察するとささやき声が実に効果的に使われている。ささやき声は雑音成分を多く含んでいる。雑音を生成するための方法として大きく次の2つの方法がある。
1.雑音を足しあわせる方法
2.位相をランダムに変調する(揺らぎを与える)方法
1の方法は簡単だが音質が良くない。一方、2の方法は音質が良く最近脚光をあびている。そこで第1の実施形態では2の方法を用いてささやき声(雑音を含んだ合成音声)を効果的に実現し、合成音声の自然さを向上させている。
また、自然の音声波形から切り出されたピッチ波形を用いているため、自然音声が持つスペクトルの微細構造を再現できる。さらに、ピッチ変更時に発生するざらつき感は、位相定型化部352によって自然の音声波形が本来持つ揺らぎ成分を除去することによって抑制することができ、その一方で揺らぎの除去によって発生するブザー音的音質に関しては、位相拡散部353で改めて高域成分に位相揺らぎを与えることによって低減できる。
<変形例>
ここでは位相操作部35において、1)DFT、2)位相定型化、3)高域位相拡散、4)IDFTという手順で処理を行った。しかし、位相定型化と高域位相拡散を同時に行う必要はなく、諸条件によりIDFTを行ってから高域位相拡散に相当する処理を改めて施す方が便利な場合がある。このような場合には位相操作部35での処理を、1)DFT、2)位相定型化、3)IDFT、4)位相揺らぎ付与という手順に置き換える。この場合における位相操作部35の内部構成を図14(a)に示す。この構成の場合、位相拡散部353は省略され、代わりに時間領域の処理を行う位相揺らぎ付与部355がIDFT部354の後に接続されている。位相揺らぎ付与部355は図14(b)のように構成することにより実現できる。また、完全な時間領域での処理として図15に示す構成で実現しても構わない。この実現例での動作を以下に説明する。
数8は2次のオールパス回路の伝達関数である。
この回路を用いるとωを中心に数9のピークを持った群遅延特性を得ることができる。
そこで、ωを適当に高い周波数範囲に設定し、ピッチ波形毎にrの値を0<r<1の範囲でランダムに変えることによって位相特性に揺らぎを与えることができる。数8および数9においてTはサンプリング周期である。
(第2の実施形態)
第1の実施形態では位相定型化と高域位相拡散を別々のステップで行った。このことを応用すると、一旦位相定型化により整形されたピッチ波形に何らかの別の操作を加えることが可能となる。第2の実施形態では、一旦整形されたピッチ波形をクラスタリングすることによりデータ記憶容量の削減を行うことを特徴とする。
第2の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図16に示す音声合成部40を備える。その他の構成要素は図1に示したものと同様である。図16に示す音声合成部40は、言語処理部31と、韻律生成部32と、ピッチ波形選択部41と、代表ピッチ波形データベース(DB)42と、位相揺らぎ付与部355と、波形重畳部36とを備える。
代表ピッチ波形DB42には、図17(a)に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図17(a)に示す装置では、波形DB34が設けられ、その出力は波形切り出し部33に接続されている。この両者の動作は第1の実施形態とまったく同じである。次に、その出力は位相揺らぎ除去部43に接続されており、この段階でピッチ波形は変形される。位相揺らぎ除去部43の構成を図17(b)に示す。こうして整形された全てのピッチ波形はピッチ波形DB44に一旦蓄積される。全てのピッチ波形の整形が行われると、ピッチ波形DB44に蓄積されたピッチ波形はクラスタリング部45によって似た波形のクラスタに分けられ、各クラスタの代表波形(例えば、クラスタの重心に最も近い波形)のみが代表ピッチ波形DB42に蓄積される。
そして、ピッチ波形選択部41によって所望のピッチ波形形状に最も近い代表ピッチ波形が選択され、位相揺らぎ付与部355に入力され、高域の位相に揺らぎが付与された上で波形重畳部36において合成音声に変換される。
以上のように位相揺らぎ除去によるピッチ波形整形処理を行うことにより、ピッチ波形同士が似た波形になる確率が上がり、結果としてクラスタリングによる記憶容量の削減効果が大きくなると考えられる。すなわち、ピッチ波形データを蓄積するために必要な記憶容量(DB42の記憶容量)を削減することができる。典型的には位相成分を全て0にすることによりピッチ波形は対称化し、波形が似たものになる確率が上がることが直感的に理解できる。
クラスタリングの手法は数多く存在するが、一般にクラスタリングはデータ間の距離尺度を定義して、距離が近いデータ同士を一つのクラスタにまとめる操作であるため、ここではその手法は限定されない。距離尺度としてはピッチ波形同士のユークリッド距離などを利用すればよい。クラスタリング手法の例としては文献「Classification and Regression Trees」(Leo Breiman著、CRC Press、ISBN:0412048418)に記載されているものがある。
(第3の実施形態)
クラスタリングによる記憶容量の削減効果、すなわちクラスタリング効率を上げるには、位相揺らぎ除去によるピッチ波形整形以外に振幅および時間長の正規化を行うことが効果的である。第3の実施形態では、ピッチ波形を蓄積する際に、振幅および時間長を正規化するステップを設ける。また、ピッチ波形を読み出す際に振幅および時間長を合成音に合わせて適当に変換する構成とする。
第3の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図18(a)に示す音声合成部50を備える。その他の構成要素は図1に示したものと同様である。図18(a)に示す音声合成部50は、図16に示した音声合成部40の構成要素に加えて変形部51をさらに備える。変形部51はピッチ波形選択部41と位相揺らぎ付与部355との間に設けられる。
代表ピッチ波形DB42には、図18(b)に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図18(b)に示す装置は、図17(a)に示した装置の構成要素に加えて正規化部52をさらに備える。正規化部52は位相揺らぎ除去部43とピッチ波形DB44との間に設けられる。正規化部52は、入力された整形済みピッチ波形を強制的に特定の長さ(例えば200サンプル)および特定の振幅(例えば30000)に変換する。したがって、正規化部52に入力されるあらゆる整形済みピッチ波形は、正規化部52から出力される時にはすべて同じ長さおよび同じ振幅にそろえられる。このため、代表ピッチ波形DB42に蓄積される波形も全て同じ長さおよび同じ振幅である。
ピッチ波形選択部41によって選択されたピッチ波形も当然同じ長さ同じ振幅であるので、変形部51において音声合成の目的に応じた長さおよび振幅に変形される。
正規化部52および変形部51においては、例えば時間長の変形に対しては図19に示すように線形補間を用いればよく、振幅の変形には各サンプルの値に定数を乗算すればよい。
第3の実施形態によれば、ピッチ波形のクラスタリング効率が上がり、第2の実施形態に比べて同じ音質であればより記憶容量が削減でき、同じ記憶容量であればより音質が向上する。
(第4の実施形態)
第3の実施形態ではクラスタリング効率を上げるためにピッチ波形に対して整形処理、振幅および時間調の正規化を実施する方法を示した。第4の実施形態ではさらに異なる方法でのクラスタリング効率向上方法を示す。
ここまでの実施形態ではクラスタリングの対象は時間領域でのピッチ波形であった。すなわち、位相揺らぎ除去部43は、ステップ1)ピッチ波形をDFTにより周波数領域の信号表現に変換、ステップ2)周波数領域上での位相揺らぎを除去、ステップ3)IDFTにより再び時間領域の信号表現に戻す、という方法で波形整形を行う。この後、クラスタリング部45が整形されたピッチ波形をクラスタリングする。
一方、音声合成時処理では位相揺らぎ付与部355の図14(b)での実現形態では、ステップ1)ピッチ波形をDFTにより周波数領域の信号表現に経間、ステップ2)周波数領域上で高域の位相を拡散、ステップ3)IDFTにより再び時間領域の信号表現に戻す、という処理を行っている。
ここで明らかなように、位相揺らぎ除去部43のステップ3と位相揺らぎ付与部355のステップ1は互いに逆の変換であり、クラスタリングを周波数領域で実施することにより省略することができる。
このようなアイデアに基づき構成した第4の実施形態を図20に示す。図18で位相揺らぎ除去部43が設けられていた部分はDFT部351、位相定型化部352に置き換えられている。その出力は正規化部へと接続されている。図18での正規化部52、ピッチ波形DB44、クラスタリング部45、代表ピッチ波形DB42、選択部41、変形部51はそれぞれ正規化部52b、ピッチ波形DB44b、クラスタリング部45b、代表ピッチ波形DB42b、選択部41b、変形部51bに置き換えられている。また、やはり図18で位相揺らぎ付与部355が設けられていた部分は位相拡散部353とIDFT部354に置き換えられている。
正規化部52bのように添え字にbが付けられた構成要素は図18の構成で行っていたことを周波数領域での処理に置き換えることを意味している。その具体的な処理を以下に説明する。
正規化部52bはピッチ波形を周波数領域で振幅正規化する。すなわち、正規化部52bから出力されるピッチ波形は周波数領域で全て同じ振幅に揃えられる。例えば、ピッチ波形を数2のように周波数領域で表現した場合、数10で表される値が同じになるように揃える処理を行う。
ピッチ波形DB44bはDFTされたピッチ波形を周波数領域の表現のままで記憶する。クラスタリング部45bはやはリピッチ波形を周波数領域の表現のままでクラスタリングする。クラスタリングのためにはピッチ波形間の距離D(i,j)を定義する必要があるが、例えば数11のように定義すればよい。
ここで、w(k)は周波数重み付け関数である。周波数重み付けを行うことにより、周波数による聴覚の感度の差を距離計算に反映させることができ、より音質を高めることが可能になる。例えば、聴覚の感度が非常に低い周波数帯での差異は知覚されないため、この周波数帯でのレベル差は距離の計算に含めなくても良い。さらに、文献「新版聴覚と音声」(社団法人電子通信学会1970年)の第2部聴覚の心理、2.8.2等ノイジネス曲線、図2.55(147ページ)に紹介されている聴感補正曲線などを用いるとさらに良い。同書に掲載されている聴感補正曲線の例を図21に示す。
また、第3の実施形態と比べDFT、IDFTのステップが一回ずつ削減されるため、計算コストが軽減するというメリットがある。
(第5の実施形態)
音声を合成する場合、音声波形に何らかの変形を加えることが必要である。すなわち、元の音声とは異なる韻律に変換する必要がある。第1〜第3の実施形態では音声波形を直接変形している。その手段として、ピッチ波形切り出しと波形重畳を用いている。しかし、音声を一旦分析し、パラメータに置き換えてから再び合成しなおすという、いわゆるパラメトリックな音声合成法を用いることによって、韻律の変形を行った時に発生する劣化を小さくすることができる。第5の実施形態では、一旦音声波形を分析し、パラメータと音源波形に分離する方法を提供する。
第5の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図22に示す音声合成部60を備える。その他の構成要素は図1に示したものと同様である。図22に示す音声合成部60は、言語処理部31と、韻律生成部32と、分析部61と、パラメータメモリ62と、波形DB34と、波形切り出し部33と、位相操作部35と、波形重畳部36と、合成部63とを備える。
分析部61は、波形DB34からの音声波形を声道と声帯の二つの成分すなわち声道パラメータと音源波形とに分離する。分析部61によって分けられた二つの成分のうち、声道パラメータはパラメータメモリ62に記憶され、音源波形は波形切り出し部33に入力される。波形切り出し部33の出力は位相操作部35を介して波形重畳部36に入力される。位相操作部35の構成は図4と同様である。波形重畳部36の出力は、位相定型化および位相拡散された音源波形を目的の韻律に変形したものである。この波形が合成部63に入力される。合成部63は、それにパラメータ記憶部62から出力されたパラメータを適用して音声波形に変換する。
分析部61および合成部63はいわゆるLPC分析合成系等でよいが、声道と声帯の特性を精度良く分離できるものがよく、好ましくは文献「An Improved Speech Analysis−Synthesis Algorithm based on the Autoregressive with Exogenous Input Speech Production Model」(大塚他、ICSLP2000)に示されたARX分析合成系の利用が適している。
このような構成にすることで、韻律の変形量を大きくしても音質の劣化が少なく、さらに自然な揺らぎを持った良好な音声を合成できる。
なお、位相操作部35に第1の実施形態におけるのと同様の変形を施してもよい。
(第6の実施形態)
第2の実施形態では、整形された波形をクラスタリングすることでデータ記憶容量を削減する方法を示した。第5の実施形態に対しても同様のアイデアが適用できる。
第6の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図23に示す音声合成部70を備える。その他の構成要素は図1に示したものと同様である。また、図23に示す代表ピッチ波形DB71には、図24に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図23および図24に示す構成では、図16および図17(a)に示した構成に対して分析部61とパラメータメモリ62と合成部63が追加されている。このような構成にすることで、第5の実施形態に比べてデータ記憶容量が削減でき、さらに分析と合成を行うことにより第2の実施形態に比べて韻律変形による音質劣化を少なくすることが可能となる。
また、この構成の利点として、音声波形を分析することにより音源波形に変換、すなわち音声から音韻情報を除去しているため、クラスタリングの効率は音声波形の場合よりも数段優れている。すなわち、クラスタリング効率の面からも第2の実施形態に比べて少ないデータ記憶容量あるいは高い音質が期待できる。
(第7の実施形態)
第3の実施形態では、ピッチ波形の時間長および振幅を正規化することによりクラスタリング効率を上げ、これによりデータ記憶容量を削減する方法を示した。第6の実施形態に対しても同様のアイデアが適用できる。
第7の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図25に示す音声合成部80を備える。その他の構成要素は図1に示したものと同様である。また、図25に示す代表ピッチ波形DB71には、図26に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図25および図26に示す構成では、図23および図24に示した構成に対して正規化部52と変形部51が追加されている。このような構成にすることで、第6の実施形態に比べてクラスタリング効率が向上し、同程度の音質でも少ないデータ記憶容量にすることが可能であり、また、同じ記憶容量であればより良い音質の合成音声が生成できる。
また、第6の実施形態と同様、音声から音韻情報を除去することにより、クラスタリング効率がより一層高まり、さらに高音質あるいは小さい記憶容量を実現することができる。
(第8の実施形態)
第4の実施形態ではピッチ波形を周波数領域でクラスタリングすることによりクラスタリング効率を向上する方法を示した。第7の実施形態に対しても同様のアイデアが適用できる。
第8の実施形態によるインタフェースは、図25に示した位相揺らぎ付与部355に代えて図27に示す位相拡散部353およびIDFT部354を備える。また、代表ピッチ波形DB71、選択部41、変形部51はそれぞれ代表ピッチ波形DB71b、選択部41b、変形部51bに置き換えられる。また、代表ピッチ波形DB71bには図28に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図28の装置は図26に示した装置の位相揺らぎ除去部43に代えてDFT部351と位相定型化部352を備える。また、正規化部52、ピッチ波形DB72、クラスタリング部45、代表ピッチ波形DB71はそれぞれ正規化部52b、ピッチ波形DB72b、クラスタリング部45b、代表ピッチ波形DB71bに置き換えられる。添え字bが付けられた構成要素は第4の実施形態で説明したのと同様に周波数領域での処理を行うことを意味している。
このように構成することで第7の実施形態に以下の新たな効果を加えた効果が発揮される。すなわち、周波数領域でのクラスタリングによって第4の実施形態で説明したのと同様、周波数重み付けを行うことにより聴覚の感度の差を距離計算に反映させることが可能となり、より音質を高めることが可能になる。また、第7の実施形態と比べDFT、IDFTのステップが一回ずつ削減されるための計算コストが軽減する。
なお、以上に説明した第1〜第8の実施形態では、位相拡散の方法として数1〜数7に示した方法および数8〜数9に示した方法を用いたが、これ以外の方法、たえば特開平10−97287号公報に開示された方法、文献「An Improved Speech Analysis−Synthesis Algorithm based on the Autoregressive with Exogenous Input Speech Production Model」(大塚他、ICSLP2000)に開示された方法などを用いても構わない。
また、波形切り出し部33ではHanning窓関数を用いると記したが、他の窓関数(例えばHamming窓関数、Blackman窓関数など)を用いてもよい。
また、ピッチ波形を周波数領域と時間領域の相互に変換する方法としてDFTおよびIDFTを用いたが、FFT(Fast Fourier Transform)およびIFFT(Inverse Fast Fourier Transform)を用いてもよい。
また、正規化部52および変形部51の時間長変形として線形補間を用いたが、他の方法(たとえば2次補間、スプライン補間など)を用いてもよい。
また、位相揺らぎ除去部43と正規化部52の接続順序、および変形部51と位相揺らぎ付与部355の接続順序はいずれも逆にしてもよい。
なお、第5から第7の実施の形態において、分析対象となる原音声の性質については特に触れなかったが、原音声の質によっては分析手法毎に様々な音質劣化が発生する。例えば、上記で例示したARX分析合成系においては、分析対象音声がささやき成分を強く持っている場合に分析精度が低下し、ゲロゲロと言った滑らかではない合成音を生む問題がある。ここに、本発明を適用することでゲロゲロ感が軽減し、滑らかな音質になることを発明者は発見した。この理由は明らかではないが、ささやき成分が強い音声の場合、分析誤差が音源波形に集約され、その結果ランダムな位相成分が音源波形に過度に付加されているのではないかと考えられる。すなわち、本発明により音源波形から位相揺らぎ成分を一旦除去することにより、分析誤差を効果的に除去できたのではないかと考えられる。もちろんこの場合でも改めてランダムな位相成分を付与することにより、原音に含まれていたささやき成分を再現することが可能である。
また、数4におけるρ(k)に関して、具体例は定数0を用いた場合を中心に説明したが、定数0に限る必要はない。ρ(k)は全てのピッチ波形に対して同じものであれば何でも良く、例えばkの1次関数や2次関数、その他のどんなkの関数でも良い。
この発明は、音声を人工的に生成する方法および装置に関する。
近年、デジタル技術を応用した情報機器の高機能化・複雑化が急速に進んでいる。このようなデジタル情報機器を利用者が簡易に扱えるようにするためのユーザ・インタフェースの1つに音声対話型インタフェースがある。音声対話型インタフェースは、利用者との間で音声による情報のやりとり(対話)を行うことによって所望の機器操作を実現するものであり、カーナビゲーションシステムやデジタルテレビなどに搭載され始めている。
音声対話型インタフェースにより実現される対話は、感情を持っている利用者(人間)と感情を持っていないシステム(機械)との間の対話である。ゆえに、いかなる状況においてもいわゆる棒読み調の合成音声で対応したのでは利用者が違和感や不快感を感じてしまう。音声対話型インタフェースを使い心地のよいものにするためには、利用者に違和感や不快感を感じさせない自然な合成音声で対応しなければならない。そのためには、それぞれの状況にふさわしい感情が入った合成音声を生成する必要がある。
現在までのところ、音声による感情表現の研究はピッチの変化パターンに注目するものが中心である。喜怒哀楽を表すイントネーションの研究がたくさんなされている。図29に示すように、同じ文面(この例では「お早いお帰りですね。」という文面)でピッチパターンを変えた場合に聞いた人がどのように感じるかを調べる研究が多い。
特許第2674280号公報 特開平10−97287号公報 特公平2−8320号公報 Takahiro Ohtsuka, Hideki Kasuya, "AN IMPROVED SPEECH ANALYSIS-SYNTHESIS ALGORITH BASED ON THE AUTOREGRESSIVE WITH EXOGENOUS INPUTSPEECH PRODUCTION MODEL", ICSLP2000, Paper Number 01329, Oct. 16-20, 2000, BEIJING, CHINA
この発明の目的は、合成音声の自然さを向上させることができる音声合成方法および音声合成装置を提供することである。
この発明による音声合成方法はステップ(a)〜(c)を備える。ステップ(a)では、第1の揺らぎ成分を含む音声波形から当該第1の揺らぎ成分を除去する。ステップ(b)では、ステップ(a)によって第1の揺らぎ成分が除去された音声波形に第2の揺らぎ成分を付与する。ステップ(c)では、ステップ(b)によって第2の揺らぎ成分が付与された音声波形を用いて合成音声を生成する。
好ましくは、上記第1および第2の揺らぎ成分は位相揺らぎである。
好ましくは、上記ステップ(b)では、ステップ(c)によって生成される合成音声において表現すべき感情に応じたタイミングおよび/または重み付けで第2の揺らぎ成分を付与する。
この発明による音声合成装置は手段(a)〜(c)を備える。手段(a)は、第1の揺らぎ成分を含む音声波形から当該第1の揺らぎ成分を除去する。手段(b)は、手段(a)によって第1の揺らぎ成分が除去された音声波形に第2の揺らぎ成分を付与する。手段(c)は、手段(b)によって第2の揺らぎ成分が付与された音声波形を用いて合成音声を生成する。
好ましくは、上記第1および第2の揺らぎ成分は位相揺らぎである。
好ましくは、上記音声合成装置は手段(d)をさらに備える。手段(d)は、第2の揺らぎ成分を付与するタイミングおよび/または重み付けを制御する。
上記音声合成方法および音声合成装置では、第2の揺らぎ成分を付与することによりささやき声を効果的に実現することができる。これにより、合成音声の自然さを向上させることができる。
また、音声波形に含まれている第1の揺らぎ成分を除去した後にあらためて第2の揺らぎ成分を与えるため、合成音声のピッチ変更時に発生するざらつき感を抑制することができ、合成音声のブザー音的音質を低減することができる。
以下、この発明の実施の形態を図面を参照して詳しく説明する。なお、図中同一または相当部分には同一の符号を付し、その説明は繰り返さない。
(第1の実施形態)
<音声対話型インタフェースの構成>
第1の実施形態による音声対話型インタフェースの構成を図1に示す。このインタフェースはデジタル情報機器(たとえばデジタルテレビやカーナビゲーションシステムなど)と利用者との間に介在し、利用者との間で音声による情報のやりとり(対話)を行うことによって利用者の機器操作を支援する。このインタフェースは、音声認識部10と、対話処理部20と、音声合成部30とを備える。
音声認識部10は、利用者が発声した音声を認識する。
対話処理部20は、音声認識部10による認識結果に応じた制御信号をデジタル情報機器に与える。また、音声認識部10による認識結果および/またはデジタル情報機器からの制御信号に応じた応答文(テキスト)とその応答文に与える感情を制御する信号とを音声合成部30に与える。
音声合成部30は、対話処理部20からのテキストおよび制御信号に基づいて規則合成方式により合成音声を生成する。音声合成部30は、言語処理部31と、韻律生成部32と、波形切り出し部33と、波形データベース(DB)34と、位相操作部35と、波形重畳部36とを備える。
言語処理部31は、対話処理部20からのテキストを解析して発音およびアクセントの情報に変換する。
韻律生成部32は、対話処理部20からの制御信号に応じた抑揚パターンを生成する。
波形DB34には、あらかじめ録音された波形データとそれに対し付与されたピッチマークのデータとが記憶されている。その波形とピッチマークの例を図2に示す。
波形切り出し部33は、波形DB34から所望のピッチ波形を切り出す。このとき典型的にはHanning窓関数(中央でのゲインが1で両端に向けて滑らかに0近傍に収束する関数)を用いて切り出す。その様子を図2に示す。
位相操作部35は、波形切り出し部33によって切り出されたピッチ波形の位相スペクトルを定型化し、その後、対話処理部20からの制御信号に応じて高域の位相成分のみをランダムに拡散させることによって位相揺らぎを付与する。次に、位相操作部35の動作について詳しく述べる。
まず、位相操作部35は波形切り出し部33から入力されたピッチ波形をDFT(Discrete Fourier Transform)し、周波数領域の信号に変換する。入力されるピッチ波形をベクトルsiで数1のように表す。
数1において添え字iはピッチ波形の番号、si(n)はピッチ波形先頭からn番目のサンプル値である。これをDFTにより周波数領域のベクトルSiに変換する。周波数領域のベクトルSiを数2で表す。
ここで、Si(0)からSi(N/2-1)までは正の周波数成分を表し、Si(N/2)からSi(N-1)は負の周波数成分を表す。また、Si(0)は0Hzすなわち直流成分を表す。各周波数成分Si(k)は複素数であるので数3のように表すことができる。
ここで、Re(c)は複素数cの実数部を、Im(c)はcの虚数部を表す。位相操作部35は前半の処理として数3のSi(k)を数4により^Si(k)に変換する。
ここでρ(k)は周波数kにおける位相スペクトルの値で、ピッチ番号iとは独立なkのみの関数である。すなわち、ρ(k)は全てのピッチ波形に対して同じものを用いる。これにより全てのピッチ波形の位相スペクトルは同一のものとなるため、位相揺らぎは除去される。典型的にはρ(k)は定数0でよい。このようにすれば位相成分が完全に除去される。
次に、位相操作部35は後半の処理として対話処理部20からの制御信号に応じて適当な境界周波数ωkを決め、ωkよりも高い周波数の成分に位相の揺らぎを与える。たとえば数5のように位相成分をランダマイズすることにより位相を拡散する。
ここで、φはランダムな値である。また、kは境界周波数ωkに対応する周波数成分の番号である。
こうして得られた`Si(h)からなるベクトル`Siを数6のように定義する。
このベクトル`SiをIDFT(Inverse Discrete Fourier Transform)により時間領域信号に変換することにより数7のベクトル`siを得る。
数7のベクトル`siは位相が定型化された上に高域にのみ位相揺らぎが与えられた位相操作済みピッチ波形である。数4のρ(k)が定数0の場合は数7のベクトル`siは準対称波形となる。その様子を図3に示す。
位相操作部35の内部構成を図4に示す。すなわちDFT部351が設けられ、その出力は位相定型化部352に接続されている。位相定型化部352の出力は位相拡散部353に接続されており、その出力はIDFT部354に接続されている。DFT部351は数1から数2への変換、位相定型化部352は数3から数4への変換、位相拡散部353は数5の変換、IDFT部354は数6から数7への変換を行う。
こうしてできた位相操作済みピッチ波形は波形重畳部36によって所望の間隔で並べられ、重ね合わせて配置される。この時、所望の振幅になるように振幅調整を行うこともある。
以上に説明した波形の切り出しから重ね合わせまでの様子を図5および図6に示す。図5はピッチを変えないケース、図6はピッチを変えるケースを示す。また図7〜図9には、文面「お前たちがねぇ」について、原音、揺らぎが付与されていない合成音声、「お前」の「え」の箇所に揺らぎが付与された合成音声のスペクトル表示を示す。
<位相揺らぎを付与するタイミングおよび周波数領域の例>
図1に示したインタフェースでは、位相操作部35により揺らぎを付与するタイミングおよび周波数領域を対話処理部20において制御することによりさまざまな感情が合成音声に与えられる。合成音声に与える感情の種類と揺らぎを付与するタイミングおよび周波数領域との対応関係の一例を図10に示す。また、図11には、「すみません、おっしゃっていることがわかりません。」という合成音声に強い謝罪の感情を込める場合に付与される揺らぎの量を示す。
<対話の例>
このように図1に示した対話処理部20は、合成音声に与える感情の種類を状況に応じて決定し、その感情の種類に応じたタイミングおよび周波数領域で位相揺らぎを付与するように位相操作部35を制御する。これにより、利用者との間で行われる対話が円滑になる。
図1に示した音声対話型インタフェースをデジタルテレビに搭載した場合に利用者との間で行われる対話の例を図12に示す。番組の選択を利用者に促す場合には、楽しそうな感情(中くらいの喜び)を込めた合成音声「見たい番組をどうぞ」を生成する。これに対して利用者は、希望する番組を機嫌良く発声する(「じゃあ、スポーツがいいな」)。この利用者の発声を音声認識部10で認識し、その結果を利用者に確認するための合成音声「ニュースですね」を生成する。この合成音声にも楽しそうな感情(中くらいの喜び)を込める。認識結果が誤っているため利用者は、希望する番組を再度発声する(「いや、スポーツだよ」)。ここでは1回目の誤認識であるため利用者の感情は特に変化しない。この利用者の発声を音声認識部10で認識し、その結果から、前回の認識結果が誤りであったと対話処理部20が判断する。そして、再度の認識結果を利用者に確認するための合成音声「すみません、経済番組でしょうか」を音声合成部30に生成させる。ここでは2度目の確認となるため、申し訳なさそうな感情(中くらいの謝罪)を合成音声に込める。またもや認識結果が誤っているけれども、申し訳なさそうな合成音声であるため利用者は不快感を感じることなく普通の感情で三たび希望の番組を発声する(「いやいや、スポーツ」)。この発声に対して音声認識部10において適切な認識ができなかったと対話処理部20が判断する。2回続けて認識に失敗したため対話処理部20は、音声ではなくリモコンのボタン操作で番組を選択するよう利用者を促すための合成音声「すみません、おっしゃっていることが分かりませんのでボタンで選んでいただけませんか」を音声合成部30に生成させる。ここでは前回よりもさらに申し訳なさそうな感情(強い謝罪)を合成音声に込める。すると利用者は不快感を感じることなくリモコンのボタンで番組を選択する。
状況に応じて適切な感情を合成音声に持たせた場合の利用者との対話の流れは以上のようになる。これに対して、いかなる状況においてもいわゆる棒読み調の合成音声で対応した場合の利用者との対話の流れは図13に示すようになる。このように無表情・無感情な合成音声で対応した場合、誤認識を繰り返すにつれ利用者は不快感を強く感じるようになる。不快感が強まるにつれ利用者の声も変化し、その結果、音声認識部10での認識精度も低くなる。
<効果>
感情を表現するために人間が使う方法は多種多様である。たとえば顔の表情や身振り手振りがそうであり、音声においては抑揚パターンやスピード、間の取り方などありとあらゆる方法がある。しかも、人間はそれら全てを駆使して表現力を発揮しているのであって、ピッチパターンの変化だけで感情を表現しているのではない。したがって、効果的な感情表現を音声合成で行うためには、ピッチパターン以外にも様々な表現方法を利用することが必要である。感情を込めて話された音声を観察するとささやき声が実に効果的に使われている。ささやき声は雑音成分を多く含んでいる。雑音を生成するための方法として大きく次の2つの方法がある。
1.雑音を足しあわせる方法
2.位相をランダムに変調する(揺らぎを与える)方法
1の方法は簡単だが音質が良くない。一方、2の方法は音質が良く最近脚光をあびている。そこで第1の実施形態では2の方法を用いてささやき声(雑音を含んだ合成音声)を効果的に実現し、合成音声の自然さを向上させている。
また、自然の音声波形から切り出されたピッチ波形を用いているため、自然音声が持つスペクトルの微細構造を再現できる。さらに、ピッチ変更時に発生するざらつき感は、位相定型化部352によって自然の音声波形が本来持つ揺らぎ成分を除去することによって抑制することができ、その一方で揺らぎの除去によって発生するブザー音的音質に関しては、位相拡散部353で改めて高域成分に位相揺らぎを与えることによって低減できる。
<変形例>
ここでは位相操作部35において、1)DFT、2)位相定型化、3)高域位相拡散、4)IDFTという手順で処理を行った。しかし、位相定型化と高域位相拡散を同時に行う必要はなく、諸条件によりIDFTを行ってから高域位相拡散に相当する処理を改めて施す方が便利な場合がある。このような場合には位相操作部35での処理を、1)DFT、2)位相定型化、3)IDFT、4)位相揺らぎ付与という手順に置き換える。この場合における位相操作部35の内部構成を図14(a)に示す。この構成の場合、位相拡散部353は省略され、代わりに時間領域の処理を行う位相揺らぎ付与部355がIDFT部354の後に接続されている。位相揺らぎ付与部355は図14(b)のように構成することにより実現できる。また、完全な時間領域での処理として図15に示す構成で実現しても構わない。この実現例での動作を以下に説明する。
数8は2次のオールパス回路の伝達関数である。
この回路を用いるとωcを中心に数9のピークを持った群遅延特性を得ることができる。
そこで、ωcを適当に高い周波数範囲に設定し、ピッチ波形毎にrの値を0<r<1の範囲でランダムに変えることによって位相特性に揺らぎを与えることができる。数8および数9においてTはサンプリング周期である。
(第2の実施形態)
第1の実施形態では位相定型化と高域位相拡散を別々のステップで行った。このことを応用すると、一旦位相定型化により整形されたピッチ波形に何らかの別の操作を加えることが可能となる。第2の実施形態では、一旦整形されたピッチ波形をクラスタリングすることによりデータ記憶容量の削減を行うことを特徴とする。
第2の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図16に示す音声合成部40を備える。その他の構成要素は図1に示したものと同様である。図16に示す音声合成部40は、言語処理部31と、韻律生成部32と、ピッチ波形選択部41と、代表ピッチ波形データベース(DB)42と、位相揺らぎ付与部355と、波形重畳部36とを備える。
代表ピッチ波形DB42には、図17(a)に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図17(a)に示す装置では、波形DB34が設けられ、その出力は波形切り出し部33に接続されている。この両者の動作は第1の実施形態とまったく同じである。次に、その出力は位相揺らぎ除去部43に接続されており、この段階でピッチ波形は変形される。位相揺らぎ除去部43の構成を図17(b)に示す。こうして整形された全てのピッチ波形はピッチ波形DB44に一旦蓄積される。全てのピッチ波形の整形が行われると、ピッチ波形DB44に蓄積されたピッチ波形はクラスタリング部45によって似た波形のクラスタに分けられ、各クラスタの代表波形(例えば、クラスタの重心に最も近い波形)のみが代表ピッチ波形DB42に蓄積される。
そして、ピッチ波形選択部41によって所望のピッチ波形形状に最も近い代表ピッチ波形が選択され、位相揺らぎ付与部355に入力され、高域の位相に揺らぎが付与された上で波形重畳部36において合成音声に変換される。
以上のように位相揺らぎ除去によるピッチ波形整形処理を行うことにより、ピッチ波形同士が似た波形になる確率が上がり、結果としてクラスタリングによる記憶容量の削減効果が大きくなると考えられる。すなわち、ピッチ波形データを蓄積するために必要な記憶容量(DB42の記憶容量)を削減することができる。典型的には位相成分を全て0にすることによりピッチ波形は対称化し、波形が似たものになる確率が上がることが直感的に理解できる。
クラスタリングの手法は数多く存在するが、一般にクラスタリングはデータ間の距離尺度を定義して、距離が近いデータ同士を一つのクラスタにまとめる操作であるため、ここではその手法は限定されない。距離尺度としてはピッチ波形同士のユークリッド距離などを利用すればよい。クラスタリング手法の例としては文献「Classification and Regression Trees」(Leo Breiman著、CRC Press、ISBN: 0412048418)に記載されているものがある。
(第3の実施形態)
クラスタリングによる記憶容量の削減効果、すなわちクラスタリング効率を上げるには、位相揺らぎ除去によるピッチ波形整形以外に振幅および時間長の正規化を行うことが効果的である。第3の実施形態では、ピッチ波形を蓄積する際に、振幅および時間長を正規化するステップを設ける。また、ピッチ波形を読み出す際に振幅および時間長を合成音に合わせて適当に変換する構成とする。
第3の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図18(a)に示す音声合成部50を備える。その他の構成要素は図1に示したものと同様である。図18(a)に示す音声合成部50は、図16に示した音声合成部40の構成要素に加えて変形部51をさらに備える。変形部51はピッチ波形選択部41と位相揺らぎ付与部355との間に設けられる。
代表ピッチ波形DB42には、図18(b)に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図18(b)に示す装置は、図17(a)に示した装置の構成要素に加えて正規化部52をさらに備える。正規化部52は位相揺らぎ除去部43とピッチ波形DB44との間に設けられる。正規化部52は、入力された整形済みピッチ波形を強制的に特定の長さ(例えば200サンプル)および特定の振幅(例えば30000)に変換する。したがって、正規化部52に入力されるあらゆる整形済みピッチ波形は、正規化部52から出力される時にはすべて同じ長さおよび同じ振幅にそろえられる。このため、代表ピッチ波形DB42に蓄積される波形も全て同じ長さおよび同じ振幅である。
ピッチ波形選択部41によって選択されたピッチ波形も当然同じ長さ同じ振幅であるので、変形部51において音声合成の目的に応じた長さおよび振幅に変形される。
正規化部52および変形部51においては、例えば時間長の変形に対しては図19に示すように線形補間を用いればよく、振幅の変形には各サンプルの値に定数を乗算すればよい。
第3の実施形態によれば、ピッチ波形のクラスタリング効率が上がり、第2の実施形態に比べて同じ音質であればより記憶容量が削減でき、同じ記憶容量であればより音質が向上する。
(第4の実施形態)
第3の実施形態ではクラスタリング効率を上げるためにピッチ波形に対して整形処理、振幅および時間調の正規化を実施する方法を示した。第4の実施形態ではさらに異なる方法でのクラスタリング効率向上方法を示す。
ここまでの実施形態ではクラスタリングの対象は時間領域でのピッチ波形であった。すなわち、位相揺らぎ除去部43は、ステップ1)ピッチ波形をDFTにより周波数領域の信号表現に変換、ステップ2)周波数領域上での位相揺らぎを除去、ステップ3)IDFTにより再び時間領域の信号表現に戻す、という方法で波形整形を行う。この後、クラスタリング部45が整形されたピッチ波形をクラスタリングする。
一方、音声合成時処理では位相揺らぎ付与部355の図14(b)での実現形態では、ステップ1)ピッチ波形をDFTにより周波数領域の信号表現に経間、ステップ2)周波数領域上で高域の位相を拡散、ステップ3)IDFTにより再び時間領域の信号表現に戻す、という処理を行っている。
ここで明らかなように、位相揺らぎ除去部43のステップ3と位相揺らぎ付与部355のステップ1は互いに逆の変換であり、クラスタリングを周波数領域で実施することにより省略することができる。
このようなアイデアに基づき構成した第4の実施形態を図20に示す。図18で位相揺らぎ除去部43が設けられていた部分はDFT部351、位相定型化部352に置き換えられている。その出力は正規化部へと接続されている。図18での正規化部52、ピッチ波形DB44、クラスタリング部45、代表ピッチ波形DB42、選択部41、変形部51はそれぞれ正規化部52b、ピッチ波形DB44b、クラスタリング部45b、代表ピッチ波形DB42b、選択部41b、変形部51bに置き換えられている。また、やはり図18で位相揺らぎ付与部355が設けられていた部分は位相拡散部353とIDFT部354に置き換えられている。
正規化部52bのように添え字にbが付けられた構成要素は図18の構成で行っていたことを周波数領域での処理に置き換えることを意味している。その具体的な処理を以下に説明する。
正規化部52bはピッチ波形を周波数領域で振幅正規化する。すなわち、正規化部52bから出力されるピッチ波形は周波数領域で全て同じ振幅に揃えられる。例えば、ピッチ波形を数2のように周波数領域で表現した場合、数10で表される値が同じになるように揃える処理を行う。
ピッチ波形DB44bはDFTされたピッチ波形を周波数領域の表現のままで記憶する。クラスタリング部45bはやはりピッチ波形を周波数領域の表現のままでクラスタリングする。クラスタリングのためにはピッチ波形間の距離D(i,j)を定義する必要があるが、例えば数11のように定義すればよい。
ここで、w(k)は周波数重み付け関数である。周波数重み付けを行うことにより、周波数による聴覚の感度の差を距離計算に反映させることができ、より音質を高めることが可能になる。例えば、聴覚の感度が非常に低い周波数帯での差異は知覚されないため、この周波数帯でのレベル差は距離の計算に含めなくても良い。さらに、文献「新版聴覚と音声」(社団法人電子通信学会1970年)の第2部聴覚の心理、2.8.2等ノイジネス曲線、図2.55(147ページ)に紹介されている聴感補正曲線などを用いるとさらに良い。同書に掲載されている聴感補正曲線の例を図21に示す。
また、第3の実施形態と比べDFT、IDFTのステップが一回ずつ削減されるため、計算コストが軽減するというメリットがある。
(第5の実施形態)
音声を合成する場合、音声波形に何らかの変形を加えることが必要である。すなわち、元の音声とは異なる韻律に変換する必要がある。第1〜第3の実施形態では音声波形を直接変形している。その手段として、ピッチ波形切り出しと波形重畳を用いている。しかし、音声を一旦分析し、パラメータに置き換えてから再び合成しなおすという、いわゆるパラメトリックな音声合成法を用いることによって、韻律の変形を行った時に発生する劣化を小さくすることができる。第5の実施形態では、一旦音声波形を分析し、パラメータと音源波形に分離する方法を提供する。
第5の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図22に示す音声合成部60を備える。その他の構成要素は図1に示したものと同様である。図22に示す音声合成部60は、言語処理部31と、韻律生成部32と、分析部61と、パラメータメモリ62と、波形DB34と、波形切り出し部33と、位相操作部35と、波形重畳部36と、合成部63とを備える。
分析部61は、波形DB34からの音声波形を声道と声帯の二つの成分すなわち声道パラメータと音源波形とに分離する。分析部61によって分けられた二つの成分のうち、声道パラメータはパラメータメモリ62に記憶され、音源波形は波形切り出し部33に入力される。波形切り出し部33の出力は位相操作部35を介して波形重畳部36に入力される。位相操作部35の構成は図4と同様である。波形重畳部36の出力は、位相定型化および位相拡散された音源波形を目的の韻律に変形したものである。この波形が合成部63に入力される。合成部63は、それにパラメータ記憶部62から出力されたパラメータを適用して音声波形に変換する。
分析部61および合成部63はいわゆるLPC分析合成系等でよいが、声道と声帯の特性を精度良く分離できるものがよく、好ましくは文献「An Improved Speech Analysis-Synthesis Algorithm based on the Autoregressive with Exogenous Input Speech Production Model」(大塚他、ICSLP2000)に示されたARX分析合成系の利用が適している。
このような構成にすることで、韻律の変形量を大きくしても音質の劣化が少なく、さらに自然な揺らぎを持った良好な音声を合成できる。
なお、位相操作部35に第1の実施形態におけるのと同様の変形を施してもよい。
(第6の実施形態)
第2の実施形態では、整形された波形をクラスタリングすることでデータ記憶容量を削減する方法を示した。第5の実施形態に対しても同様のアイデアが適用できる。
第6の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図23に示す音声合成部70を備える。その他の構成要素は図1に示したものと同様である。また、図23に示す代表ピッチ波形DB71には、図24に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図23および図24に示す構成では、図16および図17(a)に示した構成に対して分析部61とパラメータメモリ62と合成部63が追加されている。このような構成にすることで、第5の実施形態に比べてデータ記憶容量が削減でき、さらに分析と合成を行うことにより第2の実施形態に比べて韻律変形による音質劣化を少なくすることが可能となる。
また、この構成の利点として、音声波形を分析することにより音源波形に変換、すなわち音声から音韻情報を除去しているため、クラスタリングの効率は音声波形の場合よりも数段優れている。すなわち、クラスタリング効率の面からも第2の実施形態に比べて少ないデータ記憶容量あるいは高い音質が期待できる。
(第7の実施形態)
第3の実施形態では、ピッチ波形の時間長および振幅を正規化することによりクラスタリング効率を上げ、これによりデータ記憶容量を削減する方法を示した。第6の実施形態に対しても同様のアイデアが適用できる。
第7の実施形態によるインタフェースは、図1に示した音声合成部30に代えて図25に示す音声合成部80を備える。その他の構成要素は図1に示したものと同様である。また、図25に示す代表ピッチ波形DB71には、図26に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図25および図26に示す構成では、図23および図24に示した構成に対して正規化部52と変形部51が追加されている。このような構成にすることで、第6の実施形態に比べてクラスタリング効率が向上し、同程度の音質でも少ないデータ記憶容量にすることが可能であり、また、同じ記憶容量であればより良い音質の合成音声が生成できる。
また、第6の実施形態と同様、音声から音韻情報を除去することにより、クラスタリング効率がより一層高まり、さらに高音質あるいは小さい記憶容量を実現することができる。
(第8の実施形態)
第4の実施形態ではピッチ波形を周波数領域でクラスタリングすることによりクラスタリング効率を向上する方法を示した。第7の実施形態に対しても同様のアイデアが適用できる。
第8の実施形態によるインタフェースは、図25に示した位相揺らぎ付与部355に代えて図27に示す位相拡散部353およびIDFT部354を備える。また、代表ピッチ波形DB71、選択部41、変形部51はそれぞれ代表ピッチ波形DB71b、選択部41b、変形部51bに置き換えられる。また、代表ピッチ波形DB71bには図28に示す装置(音声対話型インタフェースとは別個独立の装置)によって得られた代表ピッチ波形があらかじめ蓄積される。図28の装置は図26に示した装置の位相揺らぎ除去部43に代えてDFT部351と位相定型化部352を備える。また、正規化部52、ピッチ波形DB72、クラスタリング部45、代表ピッチ波形DB71はそれぞれ正規化部52b、ピッチ波形DB72b、クラスタリング部45b、代表ピッチ波形DB71bに置き換えられる。添え字bが付けられた構成要素は第4の実施形態で説明したのと同様に周波数領域での処理を行うことを意味している。
このように構成することで第7の実施形態に以下の新たな効果を加えた効果が発揮される。すなわち、周波数領域でのクラスタリングによって第4の実施形態で説明したのと同様、周波数重み付けを行うことにより聴覚の感度の差を距離計算に反映させることが可能となり、より音質を高めることが可能になる。また、第7の実施形態と比べDFT、IDFTのステップが一回ずつ削減されるための計算コストが軽減する。
なお、以上に説明した第1〜第8の実施形態では、位相拡散の方法として数1〜数7に示した方法および数8〜数9に示した方法を用いたが、これ以外の方法、たえば特開平10−97287号公報に開示された方法、文献「An Improved Speech Analysis-Synthesis Algorithm based on the Autoregressive with Exogenous Input Speech Production Model」(大塚他、ICSLP2000)に開示された方法などを用いても構わない。
また、波形切り出し部33ではHanning窓関数を用いると記したが、他の窓関数(例えばHamming窓関数、Blackman窓関数など)を用いてもよい。
また、ピッチ波形を周波数領域と時間領域の相互に変換する方法としてDFTおよびIDFTを用いたが、FFT(Fast Fourier Transform)およびIFFT(Inverse Fast Fourier Transform)を用いてもよい。
また、正規化部52および変形部51の時間長変形として線形補間を用いたが、他の方法(たとえば2次補間、スプライン補間など)を用いてもよい。
また、位相揺らぎ除去部43と正規化部52の接続順序、および変形部51と位相揺らぎ付与部355の接続順序はいずれも逆にしてもよい。
なお、第5から第7の実施の形態において、分析対象となる原音声の性質については特に触れなかったが、原音声の質によっては分析手法毎に様々な音質劣化が発生する。例えば、上記で例示したARX分析合成系においては、分析対象音声がささやき成分を強く持っている場合に分析精度が低下し、ゲロゲロと言った滑らかではない合成音を生む問題がある。ここに、本発明を適用することでゲロゲロ感が軽減し、滑らかな音質になることを発明者は発見した。この理由は明らかではないが、ささやき成分が強い音声の場合、分析誤差が音源波形に集約され、その結果ランダムな位相成分が音源波形に過度に付加されているのではないかと考えられる。すなわち、本発明により音源波形から位相揺らぎ成分を一旦除去することにより、分析誤差を効果的に除去できたのではないかと考えられる。もちろんこの場合でも改めてランダムな位相成分を付与することにより、原音に含まれていたささやき成分を再現することが可能である。
また、数4におけるρ(k)に関して、具体例は定数0を用いた場合を中心に説明したが、定数0に限る必要はない。ρ(k)は全てのピッチ波形に対して同じものであれば何でも良く、例えばkの1次関数や2次関数、その他のどんなkの関数でも良い。
第1の実施形態による音声対話型インタフェースの構成を示すブロック図である。 音声波形データ、ピッチマーク、ピッチ波形を示す図である。 ピッチ波形が準対称波形に変換される様子を示す図である。 位相操作部の内部構成を示すブロック図である。 ピッチ波形の切り出しから、位相操作済みピッチ波形が重ね合わせられて合成音に変換されるまで様子を示す図である。 ピッチ波形の切り出しから、位相操作済みピッチ波形が重ね合わせられて合成音に変換されるまで様子を示す図である。 文面「お前たちがねぇ」についてのサウンドスペクトログラムである。(a)は原音、(b)は揺らぎが付与されていない合成音声、(c)は「お前たち」の「え」の箇所に揺らぎが付与された合成音声のサウンドスペクトログラムである。 「お前たち」の「え」の部分のスペクトルを示す図である(原音)。 「お前たち」の「え」の部分のスペクトルを示す図である。(a)は揺らぎが付与された合成音声、(b)は揺らぎが付与されていない合成音声である。 合成音声に与える感情の種類と揺らぎを付与するタイミングおよび周波数領域との対応関係の一例を示す図である。 合成音声に強い謝罪の感情を込める場合に付与される揺らぎの量を示す図である。 図1に示した音声対話型インタフェースをデジタルテレビに搭載した場合に利用者との間で行われる対話の例を示す図である。 いかなる状況においてもいわゆる棒読み調の合成音声で対応した場合の利用者との対話の流れを示す図である。 (a)は、位相操作部の変形例を示すブロック図である。(b)は、位相揺らぎ付与部の実現例を示すブロック図である。 位相揺らぎ付与部の別の実現例である回路のブロック図である。 第2の実施形態における音声合成部の構成を示す図である。 (a)は、代表ピッチ波形DBに蓄積される代表ピッチ波形を生成する装置の構成を示すブロック図である。(b)は、(a)に示した位相揺らぎ除去部の内部構成を示すブロック図である (a)は、第3の実施形態における音声合成部の構成を示すブロック図である。(b)は、代表ピッチ波形DBに蓄積される代表ピッチ波形を生成する装置の構成を示すブロック図である。 正規化部および変形部における時間長変形の様子を示す図である。 (a)は、第4の実施形態における音声合成部の構成を示すブロック図である。(b)は、代表ピッチ波形DBに蓄積される代表ピッチ波形を生成する装置の構成を示すブロック図である。 聴感補正曲線の一例を示す図である。 第5の実施形態における音声合成部の構成を示すブロック図である。 第6の実施形態における音声合成部の構成を示すブロック図である。 代表ピッチ波形DBに蓄積される代表ピッチ波形およびパラメータメモリに蓄積される声道パラメータを生成する装置の構成を示すブロック図である。 第7の実施形態における音声合成部の構成を示すブロック図である。 代表ピッチ波形DBに蓄積される代表ピッチ波形およびパラメータメモリに蓄積される声道パラメータを生成する装置の構成を示すブロック図である。 第8の実施形態における音声合成部の構成を示すブロック図である。 代表ピッチ波形DBに蓄積される代表ピッチ波形およびパラメータメモリに蓄積される声道パラメータを生成する装置の構成を示すブロック図である。 (a)は、通常の音声合成規則で生成したピッチパターンを示す図である。(b)は、皮肉に聞こえるように変化させたピッチパターンを示す図である。
この発明による音声合成方法はステップ(a)〜(c)を備える。ステップ(a)では、位相揺らぎ成分を含む音声波形から当該位相揺らぎ成分のみを除去する。ステップ(b)では、ステップ(a)によって位相揺らぎ成分が除去された音声波形に高域の位相揺らぎ成分のみを付与する。ステップ(c)では、ステップ(b)によって高域の位相揺らぎ成分が付与された音声波形を用いて合成音声を生成する。
好ましくは、上記ステップ(b)では、ステップ(c)によって生成される合成音声において表現すべき感情に応じたタイミングおよび/または重み付けで高域の位相揺らぎ成分を付与する。
この発明による音声合成装置は手段(a)〜(c)を備える。手段(a)は、位相揺らぎ成分を含む音声波形から当該位相揺らぎ成分のみを除去する。手段(b)は、手段(a)によって位相揺らぎ成分が除去された音声波形に高域の位相揺らぎ成分のみを付与する。手段(c)は、手段(b)によって高域の位相揺らぎ成分が付与された音声波形を用いて合成音声を生成する。
好ましくは、上記音声合成装置は手段(d)をさらに備える。手段(d)は、高域の位相揺らぎ成分を付与するタイミングおよび/または重み付けを制御する。
上記音声合成方法および音声合成装置では、高域の位相揺らぎ成分のみを付与することによりささやき声を効果的に実現することができる。これにより、合成音声の自然さを向上させることができる。
また、音声波形に含まれている位相揺らぎ成分のみを除去した後にあらためて高域の位相揺らぎ成分のみを与えるため、合成音声のピッチ変更時に発生するざらつき感を抑制することができ、合成音声のブザー音的音質を低減することができる。

Claims (16)

  1. 第1の揺らぎ成分を含む音声波形から当該第1の揺らぎ成分を除去するステップ(a)と、
    前記ステップ(a)によって第1の揺らぎ成分が除去された音声波形に第2の揺らぎ成分を付与するステップ(b)と、
    前記ステップ(b)によって第2の揺らぎ成分が付与された音声波形を用いて合成音声を生成するステップ(c)とを備える
    ことを特徴とする音声合成方法。
  2. 請求項1において、
    前記第1および第2の揺らぎ成分は位相揺らぎである
    ことを特徴とする音声合成方法。
  3. 請求項1において、
    前記ステップ(b)では、
    前記ステップ(c)によって生成される合成音声において表現すべき感情に応じたタイミングおよび/または重み付けで前記第2の揺らぎ成分を付与する
    ことを特徴とする音声合成方法。
  4. 音声波形をピッチ周期単位で所定の窓関数を用いて切り出し、
    前記切り出された音声波形である第1のピッチ波形の第1のDFT(Discrete Fourier Transform)を求め、
    前記第1のDFTの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第2のDFTに変換し、
    前記第2のDFTの所定の境界周波数より高い周波数成分の位相を乱数系列によって変形することにより第3のDFTに変換し、
    前記第3のDFTをIDFT(Inverse Discrete Fourier Transform)により第2のピッチ波形に変換し、
    前記第2のピッチ波形を所望の間隔で再配置して重ね合わせることにより音声のピッチ周期を変更する
    ことを特徴とする音声合成方法。
  5. 音声波形をピッチ周期単位で所定の窓関数を用いて切り出し、
    前記切り出された音声波形である第1のピッチ波形の第1のDFTを求め、
    前記第1のDFTの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第2のDFTに変換し、
    前記第2のDFTをIDFTにより第2のピッチ波形に変換し、
    前記第2のピッチ波形を所定の境界周波数より高い周波数範囲の位相を乱数系列によって変形することにより第3のピッチ波形に変換し、
    前記第3のピッチ波形を所望の間隔で再配置して重ね合わせることにより音声のピッチ周期を変更する
    ことを特徴とする音声合成方法。
  6. あらかじめ音声波形をピッチ周期単位で所定の窓関数を用いて切り出し、
    前記切り出された音声波形である第1のピッチ波形の第1のDFTを求め、
    前記第1のDFTの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第2のDFTに変換し、
    前記第2のDFTをIDFTにより第2のピッチ波形に変換する操作を繰り返すことによりピッチ波形群を作成しておき、
    前記ピッチ波形群をクラスタリングし、
    前記クラスタリングされた各クラスタに対し代表ピッチ波形を作成し、
    前記代表ピッチ波形を所定の境界周波数より高い周波数範囲の位相を乱数系列によって変形することにより第3のピッチ波形に変換し、
    前記第3のピッチ波形を所望の間隔で再配置して重ね合わせることにより音声のピッチ周期を変更する
    ことを特徴とする音声合成方法。
  7. あらかじめ音声波形をピッチ周期単位で所定の窓関数を用いて切り出し、
    前記切り出された音声波形である第1のピッチ波形の第1のDFTを求め、
    前記第1のDFTの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第2のDFTに変換する操作を繰り返すことによりDFT群を作成しておき、
    前記DFT群をクラスタリングし、
    前記クラスタリングされた各クラスタに対し代表DFTを作成し、
    前記代表DFTを所定の境界周波数より高い周波数範囲の位相を乱数系列によって変形した上でIDFTにより第2のピッチ波形に変換し、
    前記第2のピッチ波形を所望の間隔で再配置して重ね合わせることにより音声のピッチ周期を変更する
    ことを特徴とする音声合成方法。
  8. あらかじめ音声波形をピッチ周期単位で所定の窓関数を用いて切り出し、
    前記切り出された音声波形である第1のピッチ波形の第1のDFTを求め、
    前記第1のDFTの各周波数成分の位相を周波数のみを変数とする所望の関数の値又は定数値に変換することにより第2のDFTに変換し、
    前記第2のDFTをIDFTにより第2のピッチ波形に変換する操作を繰り返すことによりピッチ波形群を作成しておき、
    前記ピッチ波形群に対して振幅及び時間長を正規化して正規化ピッチ波形群に変換し、
    前記正規化ピッチ波形群をクラスタリングし、
    前記クラスタリングされた各クラスタに対し代表ピッチ波形を作成し、
    前記代表ピッチ波形を所望の振幅及び時間長に変換するとともに所定の境界周波数より高い周波数範囲の位相を乱数系列によって変形することにより第3のピッチ波形に変換し、
    前記第3のピッチ波形を所望の間隔で再配置して重ね合わせることにより音声のピッチ周期を変更する
    ことを特徴とする音声合成方法。
  9. 音声波形を声道モデルおよび声帯音源モデルによって分析し、
    前記分析によって得られた声道特性を前記音声波形から除去することにより声帯音源波形を推定し、
    前記声帯音源波形をピッチ周期単位で所定の窓関数を用いて切り出し、
    前記切り出された声帯音源波形である第1のピッチ波形の第1のDFTを求め、
    前記第1のDFTの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第2のDFTに変換し、
    前記第2のDFTの所定の境界周波数より高い周波数成分の位相を乱数系列によって変形することにより第3のDFTに変換し、
    前記第3のDFTをIDFTにより第2のピッチ波形に変換し、
    前記第2のピッチ波形を所望の間隔で再配置して重ね合わせることにより声帯音源のピッチ周期を変更し、
    前記ピッチ周期を変更した声帯音源に対し声道特性を付与して音声を合成する
    ことを特徴とする音声合成方法。
  10. 音声波形を声道モデルおよび声帯音源モデルによって分析し、
    前記分析によって得られた声道特性を前記音声波形から除去することにより声帯音源波形を推定し、
    前記声帯音源波形をピッチ周期単位で所定の窓関数を用いて切り出し、
    前記切り出された声帯音源波形である第1のピッチ波形の第1のDFTを求め、
    前記第1のDFTの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第2のDFTに変換し、
    前記第2のDFTをIDFTにより第2のピッチ波形に変換し、
    前記第2のピッチ波形を所定の境界周波数より高い周波数範囲の位相を乱数系列によって変形することにより第3のピッチ波形に変換し、
    前記第3のピッチ波形を所望の間隔で再配置して重ね合わせることにより声帯音源のピッチ周期を変更し、
    前記ピッチ周期を変更した声帯音源に対し声道特性を付与して音声を合成する
    ことを特徴とする音声合成方法。
  11. あらかじめ音声波形を声道モデルおよび声帯音源モデルによって分析し、
    前記分析によって得られた声道特性を前記音声波形から除去することにより声帯音源波形を推定し、
    前記声帯音源波形をピッチ周期単位で所定の窓関数を用いて切り出し、
    前記切り出された声帯音源波形である第1のピッチ波形の第1のDFTを求め、
    前記第1のDFTの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第2のDFTに変換し、
    前記第2のDFTをIDFTにより第2のピッチ波形に変換する操作を繰り返すことによりピッチ波形群を作成しておき、
    前記ピッチ波形群をクラスタリングし、
    前記クラスタリングされた各クラスタに対し代表ピッチ波形を作成し、
    前記代表ピッチ波形を所定の境界周波数より高い周波数範囲の位相を乱数系列によって変形することにより第3のピッチ波形に変換し、
    前記第3のピッチ波形を所望の間隔で再配置して重ね合わせることにより声帯音源のピッチ周期を変更し、
    前記ピッチ周期を変更した声帯音源に対し声道特性を付与して音声を合成する
    ことを特徴とする音声合成方法。
  12. あらかじめ音声波形を声道モデルおよび声帯音源モデルによって分析し、
    前記分析によって得られた声道特性を前記音声波形から除去することにより声帯音源波形を推定し、
    前記声帯音源波形をピッチ周期単位で所定の窓関数を用いて切り出し、
    前記切り出された声帯音源波形である第1のピッチ波形の第1のDFTを求め、
    前記第1のDFTの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第2のDFTに変換する操作を繰り返すことによりDFT群を作成しておき、
    前記DFT群をクラスタリングし、
    前記クラスタリングされた各クラスタに対し代表DFTを作成し、
    前記代表DFTを所定の境界周波数より高い周波数範囲の位相を乱数系列によって変形した上でIDFTにより第2のピッチ波形に変換し、
    前記第2のピッチ波形を所望の間隔で再配置して重ね合わせることにより声帯音源のピッチ周期を変更し、
    前記ピッチ周期を変更した声帯音源に対し声道特性を付与して音声を合成する
    ことを特徴とする音声合成方法。
  13. あらかじめ音声波形を声道モデルおよび声帯音源モデルによって分析し、
    前記分析によって得られた声道特性を前記音声波形から除去することにより声帯音源波形を推定し、
    前記声帯音源波形をピッチ周期単位で所定の窓関数を用いて切り出し、
    前記切り出された声帯音源波形である第1のピッチ波形の第1のDFTを求め、
    前記第1のDFTの各周波数成分の位相を周波数のみを変数とする所望の関数の値または定数値に変換することにより第2のDFTに変換し、
    前記第2のDFTをIDFTにより第2のピッチ波形に変換する操作を繰り返すことによりピッチ波形群を作成しておき、
    前記ピッチ波形群に対して振幅及び時間長を正規化して正規化ピッチ波形群に変換し、
    前記正規化ピッチ波形群をクラスタリングし、
    前記クラスタリングされた各クラスタに対し代表ピッチ波形を作成し、
    前記代表ピッチ波形を所望の振幅および時間長に変換するとともに所定の境界周波数より高い周波数範囲の位相を乱数系列によって変形することにより第3のピッチ波形に変換し、
    前記第3のピッチ波形を所望の間隔で再配置して重ね合わせることにより声帯音源のピッチ周期を変更し、
    前記ピッチ周期を変更した声帯音源に対し声道特性を付与して音声を合成する
    ことを特徴とする音声合成方法。
  14. 第1の揺らぎ成分を含む音声波形から当該第1の揺らぎ成分を除去する手段(a)と、
    前記手段(a)によって第1の揺らぎ成分が除去された音声波形に第2の揺らぎ成分を付与する手段(b)と、
    前記手段(b)によって第2の揺らぎ成分が付与された音声波形を用いて合成音声を生成する手段(c)とを備える
    ことを特徴とする音声合成装置。
  15. 請求項14において、
    前記第1および第2の揺らぎ成分は位相揺らぎである
    ことを特徴とする音声合成装置。
  16. 請求項14において、
    前記第2の揺らぎ成分を付与するタイミングおよび/または重み付けを制御する手段(d)をさらに備える
    ことを特徴とする音声合成装置。
JP2004555020A 2002-11-25 2003-11-25 音声合成方法および音声合成装置 Expired - Fee Related JP3660937B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2002341274 2002-11-25
JP2002341274 2002-11-25
PCT/JP2003/014961 WO2004049304A1 (ja) 2002-11-25 2003-11-25 音声合成方法および音声合成装置

Publications (2)

Publication Number Publication Date
JP3660937B2 JP3660937B2 (ja) 2005-06-15
JPWO2004049304A1 true JPWO2004049304A1 (ja) 2006-03-30

Family

ID=32375846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004555020A Expired - Fee Related JP3660937B2 (ja) 2002-11-25 2003-11-25 音声合成方法および音声合成装置

Country Status (5)

Country Link
US (1) US7562018B2 (ja)
JP (1) JP3660937B2 (ja)
CN (1) CN100365704C (ja)
AU (1) AU2003284654A1 (ja)
WO (1) WO2004049304A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768701B2 (en) * 2003-01-24 2014-07-01 Nuance Communications, Inc. Prosodic mimic method and apparatus
US20070129946A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C High quality speech reconstruction for a dialog method and system
CN101606190B (zh) * 2007-02-19 2012-01-18 松下电器产业株式会社 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法
WO2009044525A1 (ja) * 2007-10-01 2009-04-09 Panasonic Corporation 音声強調装置および音声強調方法
JP5189858B2 (ja) * 2008-03-03 2013-04-24 アルパイン株式会社 音声認識装置
CN101983402B (zh) * 2008-09-16 2012-06-27 松下电器产业株式会社 声音分析装置、方法、系统、合成装置、及校正规则信息生成装置、方法
DK2242045T3 (da) * 2009-04-16 2012-09-24 Univ Mons Talesyntese og kodningsfremgangsmåder
JPWO2012035595A1 (ja) * 2010-09-13 2014-01-20 パイオニア株式会社 再生装置、再生方法及び再生プログラム
JP6011039B2 (ja) * 2011-06-07 2016-10-19 ヤマハ株式会社 音声合成装置および音声合成方法
WO2013011634A1 (ja) * 2011-07-19 2013-01-24 日本電気株式会社 波形処理装置、波形処理方法および波形処理プログラム
ITTO20120054A1 (it) * 2012-01-24 2013-07-25 Voce Net Di Ciro Imparato Metodo e dispositivo per il trattamento di messaggi vocali.
KR101402805B1 (ko) * 2012-03-27 2014-06-03 광주과학기술원 음성분석장치, 음성합성장치, 및 음성분석합성시스템
CN103543979A (zh) * 2012-07-17 2014-01-29 联想(北京)有限公司 一种输出语音的方法、语音交互的方法及电子设备
US9147393B1 (en) * 2013-02-15 2015-09-29 Boris Fridman-Mintz Syllable based speech processing method
FR3013884B1 (fr) * 2013-11-28 2015-11-27 Peugeot Citroen Automobiles Sa Dispositif de generation d'un signal sonore representatif de la dynamique d'un vehicule et induisant une illusion auditive
JP6347536B2 (ja) * 2014-02-27 2018-06-27 学校法人 名城大学 音合成方法及び音合成装置
CN104485099A (zh) * 2014-12-26 2015-04-01 中国科学技术大学 一种合成语音自然度的提升方法
CN108320761B (zh) * 2018-01-31 2020-07-03 重庆与展微电子有限公司 音频录制方法、智能录音设备及计算机可读存储介质
CN108741301A (zh) * 2018-07-06 2018-11-06 北京奇宝科技有限公司 一种口罩
CN111199732B (zh) * 2018-11-16 2022-11-15 深圳Tcl新技术有限公司 一种基于情感的语音交互方法、存储介质及终端设备
US11468879B2 (en) * 2019-04-29 2022-10-11 Tencent America LLC Duration informed attention network for text-to-speech analysis
CN110189743B (zh) * 2019-05-06 2024-03-08 平安科技(深圳)有限公司 波形拼接中的拼接点平滑方法、装置及存储介质
CN113066476B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5265486A (en) * 1975-11-26 1977-05-30 Toa Medical Electronics Granule measuring device
JPS5848917B2 (ja) 1977-05-20 1983-10-31 日本電信電話株式会社 音声スペクトル変化率の平滑化方法
US4194427A (en) * 1978-03-27 1980-03-25 Kawai Musical Instrument Mfg. Co. Ltd. Generation of noise-like tones in an electronic musical instrument
JPS58168097A (ja) 1982-03-29 1983-10-04 日本電気株式会社 音声合成装置
JP2674280B2 (ja) * 1990-05-16 1997-11-12 松下電器産業株式会社 音声合成装置
JP3398968B2 (ja) * 1992-03-18 2003-04-21 ソニー株式会社 音声分析合成方法
US5933808A (en) * 1995-11-07 1999-08-03 The United States Of America As Represented By The Secretary Of The Navy Method and apparatus for generating modified speech from pitch-synchronous segmented speech waveforms
JP3266819B2 (ja) 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
US6112169A (en) * 1996-11-07 2000-08-29 Creative Technology, Ltd. System for fourier transform-based modification of audio
JPH10232699A (ja) * 1997-02-21 1998-09-02 Japan Radio Co Ltd Lpcボコーダ
JP3410931B2 (ja) * 1997-03-17 2003-05-26 株式会社東芝 音声符号化方法及び装置
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
JP3576800B2 (ja) * 1997-04-09 2004-10-13 松下電器産業株式会社 音声分析方法、及びプログラム記録媒体
JPH11102199A (ja) * 1997-09-29 1999-04-13 Nec Corp 音声通信装置
JP3495275B2 (ja) * 1998-12-25 2004-02-09 三菱電機株式会社 音声合成装置
JP4455701B2 (ja) * 1999-10-21 2010-04-21 ヤマハ株式会社 音声信号処理装置および音声信号処理方法
JP3468184B2 (ja) * 1999-12-22 2003-11-17 日本電気株式会社 音声通信装置及びその通信方法
JP2002091475A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法

Also Published As

Publication number Publication date
AU2003284654A1 (en) 2004-06-18
CN1692402A (zh) 2005-11-02
US20050125227A1 (en) 2005-06-09
WO2004049304A1 (ja) 2004-06-10
US7562018B2 (en) 2009-07-14
CN100365704C (zh) 2008-01-30
JP3660937B2 (ja) 2005-06-15

Similar Documents

Publication Publication Date Title
JP3660937B2 (ja) 音声合成方法および音声合成装置
US10535336B1 (en) Voice conversion using deep neural network with intermediate voice training
US8280738B2 (en) Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
US10008218B2 (en) Blind bandwidth extension using K-means and a support vector machine
CN105957515B (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
JP2004522186A (ja) 音声合成器の音声固有化
JP2004525412A (ja) 合成された音声の了解度を改善するためのランタイム合成装置適合方法およびシステム
JP4170217B2 (ja) ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム
JP2008233672A (ja) マスキングサウンド生成装置、マスキングサウンド生成方法、プログラムおよび記録媒体
JP6821970B2 (ja) 音声合成装置および音声合成方法
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
Govind et al. Dynamic prosody modification using zero frequency filtered signal
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP6343895B2 (ja) 音声制御装置、音声制御方法およびプログラム
Saitou et al. Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice.
JP3706112B2 (ja) 音声合成装置及びコンピュータプログラム
KR102455709B1 (ko) 인공지능 기반 합성음성의 평가 자동화 방법 및 장치
WO2013018092A1 (en) Method and system for speech processing
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
Geethashree et al. Transformation of Emotion by Modifying Prosody and Spectral Energy Using Discrete Wavelet Transform
Panayiotou et al. Overcoming Complex Speech Scenarios in Audio Cleaning for Voice-to-Text
Jayasinghe Machine Singing Generation Through Deep Learning
JP2024135351A (ja) 会話文生成装置、会話文生成システムおよび会話文生成方法
JP2001312300A (ja) 音声合成装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050318

R150 Certificate of patent or registration of utility model

Ref document number: 3660937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080325

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090325

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100325

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110325

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110325

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120325

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130325

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130325

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140325

Year of fee payment: 9

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees