JPWO2009044596A1 - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents

音声合成装置、音声合成方法および音声合成プログラム Download PDF

Info

Publication number
JPWO2009044596A1
JPWO2009044596A1 JP2009535999A JP2009535999A JPWO2009044596A1 JP WO2009044596 A1 JPWO2009044596 A1 JP WO2009044596A1 JP 2009535999 A JP2009535999 A JP 2009535999A JP 2009535999 A JP2009535999 A JP 2009535999A JP WO2009044596 A1 JPWO2009044596 A1 JP WO2009044596A1
Authority
JP
Japan
Prior art keywords
pattern
original utterance
pitch
standard
pitch pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009535999A
Other languages
English (en)
Other versions
JP5387410B2 (ja
Inventor
康行 三井
康行 三井
玲史 近藤
玲史 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009535999A priority Critical patent/JP5387410B2/ja
Publication of JPWO2009044596A1 publication Critical patent/JPWO2009044596A1/ja
Application granted granted Critical
Publication of JP5387410B2 publication Critical patent/JP5387410B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Abstract

音声合成装置は、少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成部(104)と、生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択部(106)と、生成されたピッチパタンが表す韻律を再現するように、選択された単位波形データを編集して合成音声を生成する音声波形生成部(107)とを備える。

Description

本発明は、ピッチパタン目標データに基づいて韻律を生成し、生成された韻律を再現するように合成音声を生成する音声合成装置、音声合成方法および音声合成プログラムに関するものである。
テキスト音声合成技術では、韻律制御が合成音の自然性に大きく影響することが知られている。極力人間に近い自然な合成音を生成するために、韻律制御、特にピッチパタン生成方法が開示されている。例えば特開2005−292708号公報には、まずピッチパタン候補を生成し、当該ピッチパタン候補の一部を代替パタンで置換することによりピッチパタンを生成し、音声を合成する方法が開示されている。
また、特開2001−249678号公報には、入力テキストと全部ないしは一部のテキストが一致するデータベース内のイントネーションデータを用いて、合成音声を生成する技術が開示されている。
また、特許第3235747号公報には、周期性を有する有声部分に関しては実音声の分析処理によって得られた各1ピッチ周期分に対応する音声波形データを使用し、周期性の無い無声部分に関しては実音声をそのまま音声波形データとして使用し、合成音声を生成する技術が開示されている。以下、特開2005−292708号公報、特開2001−249678号公報、特許第3235747号公報に開示された技術を第1の関連例と呼ぶ。
また、テキスト音声合成技術、特に波形編集方式による音声合成技術では、韻律を生成し、その韻律を再現するように単位波形を編集して全体の波形を構成する。その際、収録された音声からのピッチ周波数の変更により、生成される合成音の音質が低下することが知られている。この音質劣化を防ぐために、例えば、CHATRと呼ばれる音声合成方式のように、波形のピッチ周波数情報を変更せずに接続することで、高音質な合成音を生成する方法が文献「ニック・キャンベル,アラン・ブラック,“CHATR:自然音声波形接続型任意音声合成システム”,信号処理学会技術報告,vol.96,no.39,p.45−52,1996」に開示されている。以下、この文献に開示された方法を第2の関連例と呼ぶ。
第1の関連例では、波形の音質劣化について全く考慮されていないため、生成された韻律を再現しようとすると、音質が劣化してしまうという問題点があった。
また、第2の関連例では、収録された波形をそのまま接続するため、非常に高音質であるが、ピッチパタンの形状を変更しないため、思い通りの韻律が再現できず、生成される合成音の韻律の安定性が非常に低くなるという問題点があった。
本発明は、上記課題を解決するためになされたもので、韻律の自然性と安定性を保ち、かつ音質の高い合成音声を生成することができる音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。
本発明の音声合成装置は、少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成手段と、前記生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して前記元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択手段と、前記生成されたピッチパタンが表す韻律を再現するように、前記選択された単位波形データを編集して合成音声を生成する音声波形生成手段とを備えることを特徴とするものである。
また、本発明の音声合成方法は、少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成ステップと、前記生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して前記元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択ステップと、前記生成されたピッチパタンが表す韻律を再現するように、前記選択された単位波形データを編集して合成音声を生成する音声波形生成ステップとを備えることを特徴とするものである。
また、本発明の音声合成プログラムは、少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成ステップと、前記生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して前記元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択ステップと、前記生成されたピッチパタンが表す韻律を再現するように、前記選択された単位波形データを編集して合成音声を生成する音声波形生成ステップとを、コンピュータに実行させることを特徴とするものである。
本発明によれば、標準パタンと元発話パタンとを組み合わせてピッチパタンを生成し、かつ元発話パタン部分では対応する元発話単位波形データを使用し、収録音声におけるピッチパタンを忠実に再現するため、各アクセント句および文全体の韻律の自然性と安定性を保ち、かつ音質の高い合成音声を生成することができる。
図1は、本発明の第1実施例に係る音声合成装置の構成を示すブロック図である。 図2は、本発明の第1実施例に係る音声合成装置の動作を示すフローチャートである。 図3は、本発明の第2実施例に係る音声合成装置の構成を示すブロック図である。 図4は、本発明の第3実施例に係る音声合成装置の構成を示すブロック図である。 図5は、本発明の第4実施例に係る音声合成装置の概要を示すブロック図である。 図6は、本発明の第4実施例におけるピッチパタン生成部の構成例を示すブロック図である。 図7は、本発明の第4実施例におけるピッチパタン生成部の動作を示すフローチャートである。 図8は、本発明の第4実施例において標準パタンと元発話パタンを接続する例を示す図である。 図9は、本発明の第4実施例におけるピッチパタンの節点位置を表す概念図である。 図10は、本発明の第5実施例におけるピッチパタン生成部の構成例を示すブロック図である。 図11は、本発明の第5実施例におけるピッチパタン生成部の動作を示すフローチャートである。
[第1実施例]
以下、本発明を実施するための最良の実施例について図面を参照して説明する。なお、全ての図面において同様な構成要素には同様の符号を付し、適宜説明を省略する。
図1は本発明の第1実施例に係る音声合成装置の構成を示すブロック図、図2は図1の音声合成装置の動作を示すフローチャートである。
図1を参照すると、本実施例に係る音声合成装置は、ピッチパタン生成部104と、単位波形選択部106と、音声波形生成部107とを備えている。
以下、図1および図2を参照して、本実施例の動作について説明する。
ピッチパタン生成部104は、ピッチパタン生成に必要な情報であるピッチパタン目標データが入力されると(図2ステップS101)、このピッチパタン目標データに基づいて、予め用意された標準パタンと元発話パタンとを組み合わせてピッチパタンを生成する(ステップS102)。ピッチパタン目標データは、少なくとも音節、音素、単語等からなる音韻情報を含む。標準パタンは、音声の少なくとも1つ以上のピッチパタンの概形を近似的に表現するものである。元発話パタンは、収録音声のピッチパタンを忠実に再現するものである。
単位波形選択部106は、ピッチパタン生成部104で生成されたピッチパタンに基づいて、単位波形データを選択する(ステップS103)。このとき、単位波形選択部106は、ピッチパタン生成部104で生成されたピッチパタン内において、元発話パタンで構成されている部分については、対応する元発話単位波形データを選択し、収録音声におけるピッチパタンを忠実に再現する。標準パタンで構成されている部分については、いかなる単位波形を使用しても構わない。単位波形データは、収録音声から予め生成される。ここで、単位波形とは、合成音を構成する最小単位となる音声波形を指す。
音声波形生成部107は、ピッチパタン生成部104で生成されたピッチパタンおよび単位波形選択部106で選択された単位波形データに基づいて、音声波形データを生成する(ステップS104)。この音声波形の生成は、単位波形をピッチパタンに基づいて並べ波形重畳していけばよい。
本実施例によれば、標準パタンと元発話パタンとを組み合わせてピッチパタンを生成し、かつ元発話パタン部分では対応する単位波形を使用し、収録音声におけるピッチパタンを忠実に再現するため、安定性と自然性の高い合成音を生成することが可能となる。
[第2実施例]
続いて、本発明の第2実施例について説明する。図3は本発明の第2実施例に係る音声合成装置の構成を示すブロック図である。本実施例は、第1実施例をより具体的に説明するものである。
図3を参照すると、本実施例に係る音声合成装置は、ピッチパタン目標データ入力部101と、標準パタン記憶部102と、元発話パタン記憶部103と、ピッチパタン生成部104と、単位波形記憶部105と、単位波形選択部106と、音声波形生成部107とを備えている。
本実施例においても音声合成装置の全体的な動作は第1実施例と同様であるので、図2および図3を参照して本実施例の動作について説明する。
標準パタン記憶部102には、音声の少なくとも1つ以上のピッチパタンの概形を近似的に表現する標準パタンが予め記憶されている。
元発話パタン記憶部103には、収録音声のピッチパタンを忠実に再現する元発話パタンが予め記憶されている。
単位波形記憶部105には、収録音声から生成された単位波形データが予め記憶されている。この単位波形は、少なくとも前記元発話パタンに対応する元発話単位波形を含む。
ピッチパタン目標データ入力部101は、ピッチパタン生成に必要な情報であるピッチパタン目標データをピッチパタン生成部104に入力する(図2ステップS101)。
ピッチパタン生成部104は、ピッチパタン目標データに基づいて、標準パタン記憶部102に記憶されている標準パタンと元発話パタン記憶部103に記憶されている元発話パタンとを組み合わせてピッチパタンを生成する(ステップS102)。
単位波形選択部106は、ピッチパタン生成部104で生成されたピッチパタンに基づいて、単位波形記憶部103に記憶されている単位波形データを選択する(ステップS103)。
音声波形生成部107は、ピッチパタン生成部104で生成されたピッチパタンおよび単位波形選択部106で選択された単位波形データに基づいて、音声波形データを生成する(ステップS104)。
こうして、本実施例によれば、第1実施例と同様の効果を得ることができる。
[第3実施例]
続いて、本発明の第3実施例について、図面を参照して説明する。図4は本発明の第3実施例に係る音声合成装置の構成を示すブロック図である。
図4を参照すると、本実施例に係る音声合成装置は、第2実施例の構成に加えて、標準単位波形記憶部109を備え、さらに単位波形記憶部105の代わりに元発話単位波形記憶部108を備え、単位波形選択部106の代わりに単位波形選択部106aを備えるものである。
本実施例においても音声合成装置の全体的な動作は第1実施例と同様であるので、図2および図4を用いて本実施例の動作について説明する。
元発話単位波形記憶部108には、元発話パタンに対応する元発話単位波形データが予め記憶されている。
標準単位波形記憶部109には、標準パタンに対応する標準単位波形データが予め記憶されている。
ピッチパタン目標データ入力部101とピッチパタン生成部104の動作は、第1実施例と同じである(ステップS101,S102)。
単位波形選択部106aは、ピッチパタン生成部104で生成されたピッチパタンに基づいて、元発話単位波形記憶部108および標準単位波形記憶部109に記憶されている単位波形データを選択する(ステップS103)。このとき、単位波形選択部106aは、ピッチパタン生成部104で生成されたピッチパタン内において、元発話パタンで構成されている部分については、元発話単位波形記憶部108に記憶されている対応する元発話単位波形データを選択し、収録音声におけるピッチパタンを忠実に再現する。また、単位波形選択部106aは、生成されたピッチパタン内において、標準パタンで構成されている部分については、標準単位波形記憶部109に記憶されている標準単位波形データを選択する。
音声波形生成部107の動作は、第1実施例と同じである(ステップS104)。こうして、本実施例によれば、元発話パタン部分と標準パタン部分で使用する単位を区別できるため、それぞれのパタンにより最適な単位を選択することができる。
[第4実施例]
続いて、本発明の第4実施例について説明する。図5は本発明の第4実施例に係る音声合成装置の概要を示すブロック図である。本実施例は、第2実施例のより具体的な例を示すものである。
言語解析部301は、言語解析用データベース306を用いて入力テキストデータを解析し、アクセント句ごとにピッチパタン目標データと継続時間長データを作成する。このときの言語解析には、既存の形態素解析手法を用いる。
ピッチパタン目標データは、アクセント句ごとの、音節列、音素、単語等の音韻情報を少なくとも含む。さらに、ピッチパタン目標データは、ポーズ位置、モーラ数、アクセント型、アクセント句の区切り、文中におけるアクセント句の位置等の情報を含むものであってもよい。
本実施例におけるピッチパタン生成部104の詳細な構成例を図6に示し、このピッチパタン生成部104の動作を図7に示す。ピッチパタン生成部104は、元発話パタン選択部303と、標準パタン選択部304と、パタン接続部305とから構成される。
元発話パタン選択部303は、ピッチパタン目標データおよび元発話パタン記憶部103内に記憶されている元発話パタンの音韻情報やアクセント位置等を利用して、ピッチパタン内で使用される元発話パタンを選択する(図7ステップS201)。
元発話パタン選択部303による元発話パタンの選択方法について、具体例を用いて説明する。
元発話パタン記憶部103には、元発話パタンおよび発声内容を示す音節列データが記憶されている。元発話パタンは、収録音声のピッチ周波数の微細変化を含むピッチパタンを忠実に再現するパタンであり、時刻情報とピッチ周波数の数値とを持つ節点により表現される。また、元発話パタン記憶部103には、元発話パタンとして、「稼動していなければ(かどーしていな”ければ)」という発話内容の収録音声を表現する元発話パタンが記憶されているものとする。ここで、「”」は標準語におけるアクセント位置を示している。
元発話パタン選択部303は、元発話パタン記憶部103に記憶されている音節列情報に基づいて元発話パタンを検索し、ピッチパタン目標データと一致する元発話パタンを選択する。例えば、テキストデータとして「作動していなかった」が入力されたとすると、ピッチパタン目標データが示す音節列は「さどーしていな”かった」となる。元発話パタン選択部303は、元発話パタン記憶部103内の元発話パタンデータから、音節列およびアクセント位置がピッチパタン目標データと一致する部分を検索する。
前記の例の場合、「かどーしていな”ければ」の「どーしていな”」の部分が音節列およびアクセント位置の両方が一致しているため、検索結果として該当し、元発話パタンとして使用できる。このようにして、当該アクセント句内の元発話パタンが選択される。なお、アクセント句内において元発話パタンが使用される区間が決定されると、当該アクセント句内のその他の区間では標準パタンが使用されることになるので、標準パタンが使用される区間も同時に決定されることになる。
標準パタン記憶部102は、標準パタンを記憶している。標準パタンは、元発話パタンと比較して大幅に節点が少なく、音節列に依存しない標準的なピッチパタンを表現するパタンである。標準パタンは、元発話パタンと同様に、時刻情報とピッチ周波数の数値とを持つ節点により表現される。
標準パタン選択部304は、元発話パタン選択部303で決定された標準パタンの区間で使用する標準パタンを、標準パタン記憶部102内に記憶されている標準パタンの中から選択する(ステップS202)。標準パタン選択部304は、ピッチパタン目標データに含まれるアクセント句のモーラ数とアクセント型とに基づいて、一致する標準パタンを選択する。
パタン接続部305は、元発話パタン選択部303によって選択された元発話パタンと標準パタン選択部304によって選択された標準パタンとを接続し、当該アクセント句のピッチパタンを生成する(ステップS203)。標準パタンを変形することで、元発話パタンと標準パタンとが滑らかに接続される。
図8に、前記「作動していなかった(さどーしていなかった)」の例について、標準パタンと元発話パタンの接続例を示す。図8において、700は標準パタン、701は元発話パタンである。図8に示すとおり、先頭の「さ」および末尾の「かった」が標準パタン区間となり、「どーしていな」が元発話パタン区間となっており、標準パタンと元発話パタンが端点で滑らかに接続されている。標準パタンと元発話パタンの接続方法としては、標準パタンの端点ピッチ周波数とこれに接続する元発話パタンの端点ピッチ周波数とが一致するようにピッチ周波数軸方向に標準パタンを平行移動させる方法が考えられる。
また、図9に、ピッチパタンの節点位置を表す概念図を示す。図9のピッチパタン上に配置された黒点70は、ピッチパタンを表現する節点を表している。また、800は標準パタン区間、801は元発話パタン区間である。図9を参照すると、標準パタン区間では節点が疎であるのに対し、元発話パタン区間では非常に密に節点が配置される。したがって、標準パタン区間においては、節点間のピッチパタンについて補間をする必要があるが、元発話パタン区間においては、補間せずに収録音声を再現する。パタン接続部305による標準パタンの補間の方法としては、スプライン関数による補間等が考えられる。
継続時間長生成部302は、言語解析部301で生成された継続時間長データに基づいて、音節列の継続時間長を生成する。
単位波形選択部106は、継続時間長生成部302で生成された継続時間長データとピッチパタン生成部104で生成されたピッチパタンとを含む韻律データに基づいて、単位波形記憶部105内に記憶された単位波形データを選択する。ここで、ピッチパタン内の元発話パタン区間については、対応する単位波形データを選択する。したがって、単位を選択する際には、元発話パタン区間の単位波形との接続を考慮して標準パタン区間の単位が選択されることになる。
音声波形生成部107は、生成された韻律を再現するように、単位波形選択部106で選択された単位波形データを編集し、合成音を生成する。
本実施例を用いれば、元発話パタン区間では対応する元発話波形単位を、収録音声が再現されるように用い、その他の区間ではピッチパタンの概形を損なわないように標準パタンを用いるため、安定したピッチパタンを生成し、収録音声に匹敵する高い自然性と音質を持つ合成音を生成することが可能となる。
本実施例では、元発話パタン記憶部103に元発話パタンの音節列情報が記憶されているが、単位波形記憶部105に音節列情報が記憶されていてもよいし、元発話パタン記憶部103と対応する図示しない別のデータベース(単位波形音節列情報記憶部)に音節列情報が記憶されていてもよい。このように元発話パタン記憶部103以外に元発話パタンの音節列情報が記憶されている場合、元発話パタン選択部303は、単位波形記憶部105または単位波形音節列情報記憶部を参照して音節列を決定する。
また、本実施例では、標準パタンと元発話パタンを、音節を最小単位として区切っているが、音素や半音素を最小単位として区切っても構わない。半音素のように細かい単位を用いれば、より柔軟に元発話パタン区間と標準パタン区間の接続箇所を設定することができる。
また、標準パタンと元発話パタンの区切りが、単位波形記憶部105に記憶されている最小単位と同一の区切りとなる必要はない。例えば単位波形記憶部105には、半音素を最小単位とする単位波形が記憶されているのに対し、元発話パタンと標準パタンの切り替わりは、音節を最小単位として行われても構わない。
さらに、本実施例では、標準パタンと元発話パタンの接続の際に、標準パタンを変形(ピッチ周波数軸方向の平行移動)することで滑らかに接続しているが、元発話パタンを変形しても構わない。元発話パタンを変形すれば、標準パタンの変形だけでは標準パタンと元発話パタンを滑らかに接続できない場合にも対応することができる。
また、本実施例では、標準パタン記憶部102を備え、標準パタンを時刻情報とピッチ周波数の値で記憶しているが、標準パタン記憶部102を持たずに、F0生成過程モデル(藤崎モデル)等のモデルを用いて、標準パタンを生成しても構わない。
[第5実施例]
続いて、本発明の第5実施例について説明する。本実施例の音声合成装置は全体として第4実施例と同様の構成を持ち、ピッチパタン生成部104内の構成と動作のみが異なる。したがって、ピッチパタン生成部104の詳細な構成例のみを、図10を参照して説明する。
本実施例のピッチパタン生成部104は、元発話パタン選択部303aと、標準パタン選択部304aと、パタン接続部305aと、元発話パタン候補検索部307と、ピッチパタン決定部308とから構成される。本実施例のピッチパタン生成部104の動作を図11に示す。
元発話パタン候補検索部307は、ピッチパタン目標データと元発話パタン記憶部103に記憶されている音節列情報に基づいて、ピッチパタン目標データと一致する元発話パタンの候補を検索する(図11ステップS301)。このとき、元発話パタン候補検索部307は、元発話パタン記憶部103内に、該当する複数の元発話パタンが記憶されていた場合、該当する全ての候補を標準パタン選択部304aおよび元発話パタン選択部303aに出力する。本実施例では、複数の元発話パタンが候補として検索されたものとする。
元発話パタン選択部303aは、元発話パタン候補検索部307で検索された全ての元発話パタンを元発話パタンの候補として選択する(ステップS302)。第4実施例で説明したとおり、元発話パタン選択部303aによって元発話パタンが使用される区間が決定されると、標準パタンが使用される区間も同時に決定されることになる。
標準パタン選択部304aは、元発話パタン選択部303aで決定された標準パタンの区間で使用する標準パタンの候補を、標準パタン記憶部102内に記憶されている標準パタンの中から選択する(ステップS303)。標準パタン選択部304aの動作は、第4実施例の標準パタン選択部304と同様である。標準パタン選択部304aは、標準パタンの候補の選択を元発話パタン選択部303aで選択された元発話パタンの候補の各々について行う。
パタン接続部305aは、元発話パタン選択部303aによって選択された元発話パタンの候補と標準パタン選択部304aによって選択された標準パタンの候補とを接続し、ピッチパタンの候補を生成する(ステップS304)。パタン接続部305aの動作は、第4実施例のパタン接続部305と同様である。ただし、ここでは元発話パタンを変形(ピッチ周波数軸方向の平行移動)することで元発話パタンと標準パタンを接続している。パタン接続部305aは、このようなピッチパタン候補の生成を、元発話パタンの候補とこれに対応する標準パタンの候補との組み合わせの各々について行う。
ピッチパタン決定部308は、パタン接続部305aで生成された複数のピッチパタン候補の中から、予め設定された選択基準に従って最適なピッチパタンを決定する(ステップS305)。最適なピッチパタンの選択基準について、詳細に説明する。ピッチパタン生成の観点からは、標準パタンと元発話パタンを滑らかに接続し、かつ目標とするピッチパタンを生成するために、元発話パタンのピッチ周波数を変更する必要がある。しかし、単位波形のピッチ周波数を変更して波形を編集すると、編集後の波形の音質が劣化することが広く知られている。したがって、音質の観点からは、元発話パタン区間のピッチ周波数の変更量は極力少なくすべきである。そこで、複数のピッチパタン候補の中から最適なピッチパタンを決定する選択基準として、「元発話パタン区間のピッチ周波数変更量が最も少ないピッチパタン候補を最適なピッチパタンとする」という選択基準を用いる。
本実施例を用いれば、元発話パタン記憶部103に条件に合致する元発話パタンが複数存在している場合、その中から最もピッチ周波数変更量の少ない元発話パタンを使用したピッチパタンを選択するため、さらに高い自然性と音質を持つ合成音を生成することが可能となる。
本実施例では、パタン接続部305aにおいて、実際に複数のピッチパタンを生成してから、ピッチパタン決定部308において、1つのピッチパタンを決定しているが、実際にピッチパタンを生成しなくても構わない。例えば、元発話パタンの端点におけるピッチ周波数の変更量のみを計算し、変更量が最も少ないピッチパタンを選択する方法等も考えられる。
また、本実施例では、元発話パタン候補検索部307において、元発話パタンの候補数を制限することも考えられる。制限方法としては、音節列の長さが短い元発話パタン候補を除外する方法や、目標ピッチ周波数を計算し、目標ピッチ周波数に対する差分値が大きい元発話パタン候補を除外する方法等がある。これにより、計算負荷を軽減することが可能となる。
また、最適なピッチパタンの選択基準として、「生成されるアクセント句のピッチパタンの形状が、アクセント句の標準パタンの形状に類似するピッチパタン候補がより適したピッチパタンである」という基準をさらに追加することも考えられる。この基準を用いれば、生成されたピッチパタンの概形が、標準的なピッチパタンから大きく外れるという問題を防ぐことが可能となる。ここで、パタン形状は、パタンの形状を簡単に示した情報、例えば、始点、最高点、終点の3点のピッチ周波数と時刻情報により表される概形を用いて類似度を判定しても良い。このように簡略化した概形を選択基準に用いれば、計算負荷を軽減することが可能となる。
なお、第1実施例〜第5実施例において、ピッチパタン生成部104は、アクセント句の標準パタンを先に選択しておき、後に標準パタンの一部を元発話パタンに置換するようにしてもよい。
第1実施例〜第5実施例で説明した音声合成装置は、CPU、記憶装置およびインタフェースを備えたコンピュータとこれらのハードウェア資源を制御するプログラムによって実現することができる。これらのコンピュータのCPUは、記憶装置に格納されたプログラムに従って第1実施例〜第5実施例で説明した処理を実行する。
以上、上記実施例を参照して本発明を説明したが、本発明は、上記実施例だけに限定されるものではない。本発明の構成や詳細は、上記実施例を適宜組み合わせて用いてもよく、さらに本発明の請求の範囲内において、適宜変更することもできる。
この出願は、2007年10月5日に出願された日本出願特願2007−261704号を基礎とする優先権を主張し、その開示の内容を全てここに取り込む。
本発明は、音声合成技術に適用することができる。

Claims (17)

  1. 少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成手段と、
    前記生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して前記元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択手段と、
    前記生成されたピッチパタンが表す韻律を再現するように、前記選択された単位波形データを編集して合成音声を生成する音声波形生成手段とを備えることを特徴とする音声合成装置。
  2. 請求項1記載の音声合成装置において、
    前記単位波形選択手段は、前記標準パタンを使用する区間においては前記元発話単位波形とは別の単位波形データを選択することを特徴とする音声合成装置。
  3. 請求項1記載の音声合成装置において、
    さらに、前記元発話パタンとこの元発話パタンに対応する音節列情報とを記憶する元発話パタン記憶手段を備え、
    前記ピッチパタン生成手段は、
    少なくとも前記ピッチパタン目標データと前記元発話パタン記憶手段に記憶された音節列情報に基づいて前記元発話パタンを選択する元発話パタン選択手段と、
    前記標準パタンを使用する区間において前記ピッチパタン目標データに基づいて前記標準パタンを選択する標準パタン選択手段と、
    前記元発話パタン選択手段によって選択された元発話パタンと前記標準パタン選択手段によって選択された標準パタンとを接続して前記ピッチパタンを生成するパタン接続手段とからなることを特徴とする音声合成装置。
  4. 請求項1記載の音声合成装置において、
    前記ピッチパタン生成手段は、前記元発話単位波形データの特徴量に基づいて、前記標準パタンと前記元発話パタンの構成を決定するものであり、
    前記元発話単位波形データの特徴量として、少なくともピッチ周波数を含むことを特徴とする音声合成装置。
  5. 請求項4記載の音声合成装置において、
    前記ピッチパタン生成手段は、前記元発話パタン区間において、単位波形データの特徴量の変更量が最小になるように前記標準パタンと前記元発話パタンの構成を決定することを特徴とする音声合成装置。
  6. 請求項1記載の音声合成装置において、
    前記ピッチパタン生成手段は、アクセント句全体の標準パタンの一部を元発話パタンに置換することを特徴とする音声合成装置。
  7. 請求項1記載の音声合成装置において、
    さらに、入力テキストデータを言語解析し、前記ピッチパタン目標データを作成する言語解析手段を備えることを特徴とする音声合成装置。
  8. 請求項1記載の音声合成装置において、
    さらに、前記元発話パタンとこの元発話パタンに対応する音節列情報とを記憶する元発話パタン記憶手段を備え、
    前記ピッチパタン生成手段は、
    少なくとも前記ピッチパタン目標データと前記元発話パタン記憶手段に記憶された音節列情報に基づいて、前記ピッチパタン目標データと一致する元発話パタンの候補を検索する元発話パタン候補検索手段と、
    この元発話パタン候補検索手段で検索された全ての元発話パタンを元発話パタンの候補として選択する元発話パタン選択手段と、
    前記標準パタンを使用する区間において前記ピッチパタン目標データに基づいて前記標準パタンの候補を選択する標準パタン選択手段と、
    前記元発話パタン選択手段によって選択された元発話パタンの候補と前記標準パタン選択手段によって選択された標準パタンの候補とを接続して前記ピッチパタンの候補を生成するパタン接続手段と、
    このパタン接続手段で生成された複数のピッチパタン候補の中から、予め設定された選択基準に従って最適なピッチパタンを決定するピッチパタン決定手段とからなることを特徴とする音声合成装置。
  9. 少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成ステップと、
    前記生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して前記元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択ステップと、
    前記生成されたピッチパタンが表す韻律を再現するように、前記選択された単位波形データを編集して合成音声を生成する音声波形生成ステップとを備えることを特徴とする音声合成方法。
  10. 請求項9記載の音声合成方法において、
    前記単位波形選択ステップは、前記標準パタンを使用する区間においては前記元発話単位波形とは別の単位波形データを選択することを特徴とする音声合成方法。
  11. 請求項9記載の音声合成方法において、
    前記ピッチパタン生成ステップは、
    少なくとも前記ピッチパタン目標データと元発話パタン記憶手段に記憶された元発話パタンの音節列情報に基づいて前記元発話パタンを選択する元発話パタン選択ステップと、
    前記標準パタンを使用する区間において前記ピッチパタン目標データに基づいて前記標準パタンを選択する標準パタン選択ステップと、
    前記元発話パタン選択ステップによって選択された元発話パタンと前記標準パタン選択ステップによって選択された標準パタンとを接続して前記ピッチパタンを生成するパタン接続ステップとからなることを特徴とする音声合成方法。
  12. 請求項9記載の音声合成方法において、
    前記ピッチパタン生成ステップは、前記元発話単位波形データの特徴量に基づいて、前記標準パタンと前記元発話パタンの構成を決定するステップを含むものであり、
    前記元発話単位波形データの特徴量として、少なくともピッチ周波数を含むことを特徴とする音声合成方法。
  13. 請求項12記載の音声合成方法において、
    前記ピッチパタン生成ステップは、前記元発話パタン区間において、単位波形データの特徴量の変更量が最小になるように前記標準パタンと前記元発話パタンの構成を決定することを特徴とする音声合成方法。
  14. 請求項9記載の音声合成方法において、
    前記ピッチパタン生成ステップは、アクセント句全体の標準パタンの一部を元発話パタンに置換するステップを含むことを特徴とする音声合成方法。
  15. 請求項9記載の音声合成方法において、
    さらに、前記ピッチパタン生成ステップの前に、入力テキストデータを言語解析し、前記ピッチパタン目標データを作成する言語解析ステップを備えることを特徴とする音声合成方法。
  16. 請求項9記載の音声合成方法において、
    前記ピッチパタン生成ステップは、
    少なくとも前記ピッチパタン目標データと元発話パタン記憶手段に記憶された元発話パタンの音節列情報に基づいて、前記ピッチパタン目標データと一致する元発話パタンの候補を検索する元発話パタン候補検索ステップと、
    この元発話パタン候補検索ステップで検索された全ての元発話パタンを元発話パタンの候補として選択する元発話パタン選択ステップと、
    前記標準パタンを使用する区間において前記ピッチパタン目標データに基づいて前記標準パタンの候補を選択する標準パタン選択ステップと、
    前記元発話パタン選択ステップによって選択された元発話パタンの候補と前記標準パタン選択ステップによって選択された標準パタンの候補とを接続して前記ピッチパタンの候補を生成するパタン接続ステップと、
    このパタン接続ステップで生成された複数のピッチパタン候補の中から、予め設定された選択基準に従って最適なピッチパタンを決定するピッチパタン決定ステップとからなることを特徴とする音声合成方法。
  17. 少なくとも音節、音素、単語等からなる音韻情報を含むピッチパタン目標データに基づいて、ピッチパタンの概形を近似的に表現する標準パタンと収録音声のピッチパタンを表現する元発話パタンとを組み合わせてピッチパタンを生成するピッチパタン生成ステップと、
    前記生成されたピッチパタンに基づいて単位波形データを選択し、この選択に際して前記元発話パタンを使用する区間においてはこの元発話パタンと対応する元発話単位波形データを選択する単位波形選択ステップと、
    前記生成されたピッチパタンが表す韻律を再現するように、前記選択された単位波形データを編集して合成音声を生成する音声波形生成ステップとを、コンピュータに実行させることを特徴とする音声合成プログラム。
JP2009535999A 2007-10-05 2008-08-28 音声合成装置、音声合成方法および音声合成プログラム Expired - Fee Related JP5387410B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009535999A JP5387410B2 (ja) 2007-10-05 2008-08-28 音声合成装置、音声合成方法および音声合成プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007261704 2007-10-05
JP2007261704 2007-10-05
PCT/JP2008/065381 WO2009044596A1 (ja) 2007-10-05 2008-08-28 音声合成装置、音声合成方法および音声合成プログラム
JP2009535999A JP5387410B2 (ja) 2007-10-05 2008-08-28 音声合成装置、音声合成方法および音声合成プログラム

Publications (2)

Publication Number Publication Date
JPWO2009044596A1 true JPWO2009044596A1 (ja) 2011-02-03
JP5387410B2 JP5387410B2 (ja) 2014-01-15

Family

ID=40526025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009535999A Expired - Fee Related JP5387410B2 (ja) 2007-10-05 2008-08-28 音声合成装置、音声合成方法および音声合成プログラム

Country Status (4)

Country Link
US (1) US20100223058A1 (ja)
JP (1) JP5387410B2 (ja)
KR (2) KR101495410B1 (ja)
WO (1) WO2009044596A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5393546B2 (ja) * 2010-03-15 2014-01-22 三菱電機株式会社 韻律作成装置及び韻律作成方法
WO2012169844A2 (ko) * 2011-06-08 2012-12-13 주식회사 내일이비즈 전자책 데이터 음성 합성 장치 및 그 방법

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3083640B2 (ja) * 1992-05-28 2000-09-04 株式会社東芝 音声合成方法および装置
JPH0887297A (ja) * 1994-09-20 1996-04-02 Fujitsu Ltd 音声合成システム
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP3667950B2 (ja) * 1997-09-16 2005-07-06 株式会社東芝 ピッチパターン生成方法
JP3576066B2 (ja) * 1999-03-25 2004-10-13 松下電器産業株式会社 音声合成システム、および音声合成方法
JP2001034284A (ja) * 1999-07-23 2001-02-09 Toshiba Corp 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
KR100417092B1 (ko) * 2001-05-03 2004-02-11 (주)디지텍 음성합성 방법
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
US7529661B2 (en) * 2002-02-06 2009-05-05 Broadcom Corporation Pitch extraction methods and systems for speech coding using quadratically-interpolated and filtered peaks for multiple time lag extraction
US20090030552A1 (en) * 2002-12-17 2009-01-29 Japan Science And Technology Agency Robotics visual and auditory system
JP4287664B2 (ja) * 2003-02-06 2009-07-01 パナソニック株式会社 音声合成装置
JP4264030B2 (ja) * 2003-06-04 2009-05-13 株式会社ケンウッド 音声データ選択装置、音声データ選択方法及びプログラム
US8103505B1 (en) * 2003-11-19 2012-01-24 Apple Inc. Method and apparatus for speech synthesis using paralinguistic variation
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
CN100583237C (zh) * 2004-06-04 2010-01-20 松下电器产业株式会社 声音合成装置
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
WO2006104988A1 (en) * 2005-03-28 2006-10-05 Lessac Technologies, Inc. Hybrid speech synthesizer, method and use
US20060259303A1 (en) * 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
JP4738057B2 (ja) * 2005-05-24 2011-08-03 株式会社東芝 ピッチパターン生成方法及びその装置
US8165882B2 (en) 2005-09-06 2012-04-24 Nec Corporation Method, apparatus and program for speech synthesis
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
CN102341842B (zh) * 2009-05-28 2013-06-05 国际商业机器公司 用于语者调适的基频移动量学习装置和方法及基频生成装置和方法

Also Published As

Publication number Publication date
JP5387410B2 (ja) 2014-01-15
WO2009044596A1 (ja) 2009-04-09
US20100223058A1 (en) 2010-09-02
KR101395459B1 (ko) 2014-05-14
KR20120124076A (ko) 2012-11-12
KR20100065357A (ko) 2010-06-16
KR101495410B1 (ko) 2015-02-25

Similar Documents

Publication Publication Date Title
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP5471858B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP4130190B2 (ja) 音声合成システム
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
WO2005109399A1 (ja) 音声合成装置および方法
JP6561499B2 (ja) 音声合成装置および音声合成方法
JP2006330200A (ja) ピッチパターン生成方法及びその装置
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
JP2006309162A (ja) ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JP2008139631A (ja) 音声合成方法、装置、プログラム
JP4639932B2 (ja) 音声合成装置
KR102072627B1 (ko) 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
US20120239404A1 (en) Apparatus and method for editing speech synthesis, and computer readable medium
JP6669081B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
WO2014061230A1 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP2005321520A (ja) 音声合成装置及びそのプログラム
JPH06318094A (ja) 音声規則合成装置
JP4630038B2 (ja) 音声波形データベース構築方法、この方法を実施する装置およびプログラム
JP3437472B2 (ja) 音声合成方法とその装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130923

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees