WO2014203329A1

WO2014203329A1 - 音声応答装置および応答音声生成方法

Info

Publication number: WO2014203329A1
Application number: PCT/JP2013/066698
Authority: WO
Inventors: 充海老原
Original assignee: 三菱電機株式会社
Priority date: 2013-06-18
Filing date: 2013-06-18
Publication date: 2014-12-24

Abstract

　録音音声をその録音時期で分類し、当該分類毎に発話速度と発話音量を設定して音声合成パラメータ記憶部４に登録しておく。録音音声と合成音声が混在した応答音声を生成する際、音声合成部６は当該録音音声の分類に対応した発話速度と発話音量に基づいて合成音声を生成する。

Description

音声応答装置および応答音声生成方法

　この発明は、合成音声と録音音声が混在した応答音声を生成する音声応答装置および応答音声生成方法に関する。

　従来、規則音声合成により生成された合成音声とあらかじめ録音された録音音声とを組み合わせて入力文字列に対応する応答音声を生成し出力する音声応答装置があった（例えば、特許文献１参照）。

特開平５－２７７８９号公報

　上記特許文献１のような音声応答装置では、出力される合成音声の速度および音量が録音音声の速度および音量と異なっていると、応答音声全体として聞き取りにくくなるため、両者の速度と音量を同程度にする必要がある。また、録音音声は収録された条件、例えば時期などによって速度と音量が異なるため、条件毎に合成音声の速度と音量を調整する必要がある。

　しかしながら、上記特許文献１のような音声応答装置では、録音音声が収録された時期などの条件に応じて合成音声の速度および音量を調整することができないため、応答音声が聞き取りにくいという課題があった。

　この発明は、上記のような課題を解決するためになされたもので、合成音声と録音音声が混在した応答音声を聞き取りやすくすることを目的とする。

　この発明の音声応答装置は、入力された文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列とを取得する応答音声生成用文字列解析部と、録音音声識別文字列に対応付けて、録音音声識別文字列の録音音声、および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部と、応答音声生成用文字列解析部により取得された録音音声識別文字列を検索キーとして録音音声記憶部を検索し、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得部と、音声合成に使用する発話速度および発話音量の少なくとも一方を、録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部と、録音音声取得部により取得された録音音声分類情報を検索キーとして音声合成パラメータ記憶部を検索し、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得部と、音声合成パラメータ取得部により取得された発話速度および発話音量の少なくとも一方に基づいて、応答音声生成用文字列解析部により取得された音声合成対象文字列の合成音声を生成する音声合成部と、録音音声取得部により取得された録音音声と音声合成部により生成された合成音声を組み合わせて応答音声を生成する音声出力制御部とを備えるものである。

　この発明の音声応答装置は、入力された文字列に対応する応答音声を生成し、出力装置との間で通信を行って当該応答音声を出力させるものであって、入力された文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列とを取得する応答音声生成用文字列解析部と、録音音声識別文字列に対応付けて、録音音声識別文字列の録音音声、および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部と、応答音声生成用文字列解析部により取得された録音音声識別文字列を検索キーとして録音音声記憶部を検索し、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得部と、音声合成に使用する発話速度および発話音量の少なくとも一方を、録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部と、録音音声取得部により取得された録音音声分類情報を検索キーとして音声合成パラメータ記憶部を検索し、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得部と、音声合成パラメータ取得部により取得された発話速度および発話音量の少なくとも一方に基づいて、応答音声生成用文字列解析部により取得された音声合成対象文字列の合成音声を生成する音声合成部と、録音音声取得部により取得された録音音声と音声合成部により生成された合成音声を組み合わせて応答音声を生成し、通信により出力装置から当該応答音声を出力させる音声出力制御部とを備えるものである。

　この発明の応答音声生成方法は、入力された文字列に対応する応答音声を生成して、出力装置から出力させるものであって、応答音声生成用文字列解析部が、入力された文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列とを取得する応答音声生成用文字列解析ステップと、録音音声識別文字列に対応付けて、録音音声識別文字列の録音音声、および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部に対して、録音音声取得部が、応答音声生成用文字列解析ステップで取得された録音音声識別文字列を検索キーとした検索を行い、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得ステップと、音声合成使用する発話速度および発話音量の少なくとも一方を、録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部に対して、音声合成パラメータ取得部が、録音音声取得ステップで取得された録音音声分類情報を検索キーとした検索を行い、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得ステップと、音声合成部が、音声合成パラメータ取得ステップで取得された発話速度および発話音量の少なくとも一方に基づいて、応答音声生成用文字列解析ステップで取得された音声合成対象文字列の合成音声を生成する音声合成ステップと、音声出力制御部が、録音音声取得ステップで取得された録音音声と音声合成ステップで生成された合成音声を組み合わせて応答音声を生成して出力装置から出力させる音声出力制御ステップとを備えるものである。

　この発明によれば、録音音声の属する分類ごとに発話速度および発話音量の少なくとも一方を記憶しておき、応答音声生成時に、録音音声の分類に対応した発話速度および発話音量の少なくとも一方に基づいて合成音声を生成して当該録音音声に組み合わせることにより、合成音声と録音音声の速度および音量の少なくとも一方が同程度になり、応答音声が聞き取りやすくなる。

この発明の実施の形態１に係る音声応答装置の一例を示すブロック図である。実施の形態１に係る音声応答装置の録音音声記憶部の一例を示す図である。実施の形態１に係る音声応答装置の音声合成パラメータ記憶部の一例を示す図である。実施の形態１に係る音声応答装置の処理を示すフローチャートである。実施の形態１に係る音声応答装置の音声合成パラメータを生成する構成例を示すブロック図である。図５の原録音音声記憶部の一例を示す図である。図５の音声合成部特徴記憶部の一例を示す図であり、図７（ａ）は発話速度、図７（ｂ）は発話音量の表である。この発明の実施の形態２に係る音声応答装置の音声合成パラメータを生成する構成例を示すブロック図である。この発明の実施の形態３に係る音声応答装置の音声合成パラメータを生成する構成例を示すブロック図である。実施の形態３に係る音声応答装置の音声合成パラメータ（発話速度）を決定する処理を示すフローチャートである。実施の形態３に係る音声応答装置の音声合成パラメータ（発話音量）を決定する処理を示すフローチャートである。この発明の実施の形態４に係る音声応答装置の一例を示すブロック図である。実施の形態４に係る音声応答装置のユーザ発話を録音音声記憶部に登録する処理を示すフローチャートである。実施の形態４に係る音声応答装置の音声合成パラメータ（発話速度）を音声合成パラメータ記憶部に登録する処理を説明するフローチャートである。実施の形態４に係る音声応答装置の音声合成パラメータ（発話音量）を音声合成パラメータ記憶部に登録する処理を説明するフローチャートである。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、この発明の実施の形態１に係る音声応答装置の一例を示すブロック図である。この音声応答装置は、応答音声生成用文字列解析部１、録音音声記憶部２、録音音声取得部３、音声合成パラメータ記憶部４、音声合成パラメータ取得部５、音声合成部６、音声出力制御部７、制御部８、スピーカ９を備えている。

　応答音声生成用文字列解析部１に入力される文字列（以下、応答音声生成用文字列）は、後述する音声合成部６での合成音声生成の対象となる文字列（以下、音声合成対象文字列）と、録音音声を識別するために録音音声毎に割当てられる固有の録音音声識別文字列（以下、録音音声ＩＤ）とで構成される。
　具体的には、例えば、音声合成対象文字列を“＜”“＞”で指定し、録音音声ＩＤを“｛”“｝”で指定することとし、「＜○○くうこう＞｛２００｝」というような応答音声生成用文字列を入力とする。
　応答音声生成用文字列が入力されると、応答音声生成用文字列解析部１は、当該文字列の構造を解析し、音声合成対象文字列と録音音声ＩＤを取得する。

　録音音声記憶部２は、録音音声と、当該録音音声が属する分類情報（以下、録音音声分類情報）とを、録音音声ＩＤに対応付けて記憶している。

　図２に、録音音声記憶部２の一例を示す。
　録音音声は、例えばナレータなどに所定の文言を発話してもらい、当該発話音声をマイクで集音し取得されたアナログデータを、例えばＡＤＰＣＭ（Ａｄａｐｔｉｖｅ　Ｄｉｆｆｅｒｅｎｔｉａｌ　Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）により変換したデジタルデータである。
　例えば、録音音声ＩＤ「２００」の録音音声分類情報は「２」、録音音声「Ｇ」は発話文字列「をもくてきちにせっていします」を収録した音声データである。
　録音音声は、収録した期間により分類され、同じ時期に録音されたものには同一の録音音声分類情報が割り当てられる。なお、期間ではなく収録した日などで分類してもよい。

　録音音声取得部３は、後述する制御部８からの指示を受けて、応答音声生成用文字列解析部１により取得された録音音声ＩＤを検索キーとして録音音声記憶部２を検索し、検索キーに一致する録音音声ＩＤに対応付けられている録音音声と録音音声分類情報を取得する。

　音声合成パラメータ記憶部４は、後述する音声合成部６に対して設定される発話速度と発話音量とを、録音音声分類情報に対応付けて記憶している。この音声合成パラメータ記憶部４は、後述する音声合成パラメータ計算部１０によりオフラインで生成されるものである。
　なお、以降の説明では音声合成パラメータは、音声合成部６に対して設定される発話速度および発話音量とするが、いずれか一方でもよい。

　図３に、音声合成パラメータ記憶部４の一例を示す。
　録音音声分類情報に対する発話速度と発話音量は、後述する音声合成パラメータ計算部１０により算出されたものである。
　なお、この例では音声合成部６の音声合成パラメータとして発話速度および発話音量の両方を音声合成パラメータ記憶部４に記憶させているが、いずれか一方を記憶させる構成でもよい。

　音声合成パラメータ取得部５は、後述する制御部８からの指示を受けて、録音音声取得部３により取得された録音音声分類情報を検索キーとして音声合成パラメータ記憶部４を検索し、検索キーに一致する録音音声分類情報に対応付けられている発話速度と発話音量を取得する。

　音声合成部６は、後述する制御部８からの指示を受けて、応答音声生成用文字列解析部１により取得された音声合成対象文字列に基づいて、後述する制御部８により設定された発話速度と発話音量となるよう合成音声を生成する。音声合成については、例えば「音声情報処理」（古井貞煕著、森北出版、１９９８年）の第４章に開示されている方法を用いて行う。

　音声出力制御部７は、後述する制御部８からの指示を受けて、録音音声取得部３により取得された録音音声と音声合成部６により生成された合成音声を、応答音声生成用文字列解析部１により解析された構造に対応させて出力するよう、スピーカ９に対して指示出力する。

　制御部８は、音声応答装置全体を制御する。具体的には以下の処理を行う。
　制御部８から録音音声取得部３に対して、録音音声ＩＤに対応付けられている録音音声と録音音声分類情報を取得するよう指示出力する。
　また、制御部８から音声合成パラメータ取得部５に対して、録音音声取得部３により取得された録音音声分類情報に対応付けられている発話速度と発話音量を取得するよう指示出力する。さらに制御部８は、音声合成パラメータ取得部５により取得された発話速度と発話音量を音声合成部６に対して設定すると共に、音声合成部６に対して音声合成対象文字列から合成音声を生成するよう指示出力する。
　また、制御部８は、録音音声取得部３により取得された録音音声と音声合成部６により生成された合成音声を音声出力制御部７へ出力する。さらに制御部８は、音声出力制御部７に対して、録音音声取得部３により取得された録音音声と音声合成部６により生成された合成音声を、応答音声生成用文字列解析部１により解析された応答音声生成用文字列の構造に対応させて出力するよう指示出力する。

　次に、図４に示すフローチャートを用いて、実施の形態１に係る音声応答装置の処理を説明する。
　まず、応答音声生成用文字列解析部１に応答音声生成用文字列が入力されると、応答音声生成用文字列解析部１は、当該文字列の構成を解析し、音声合成対象文字列と録音音声ＩＤを取得する（ステップＳＴ１）。
　次に、制御部８は、応答音声生成用文字列解析部１により取得された録音音声ＩＤを検索キーとした検索を行うよう録音音声取得部３に対して指示し、当該指示を受けた録音音声取得部３がその録音音声ＩＤを検索キーとして録音音声記憶部２を検索し、検索キーと一致する録音音声ＩＤに対応付けられた録音音声と録音音声分類情報を取得する（ステップＳＴ２）。

　続いて、制御部８は、録音音声取得部３により取得された録音音声分類情報を検索キーとした検索を行うよう音声合成パラメータ取得部５に対して指示し、当該指示を受けた音声合成パラメータ取得部５がその録音音声分類情報を検索キーとして音声合成パラメータ記憶部４を検索し、検索キーと一致する録音音声分類情報に対応付けられた発話速度と発話音量を取得する（ステップＳＴ３）。

　そして、制御部８は、音声合成パラメータ取得部５により取得された発話速度と発話音量を、音声合成部６に設定する（ステップＳＴ４）。

　その後、制御部８は、応答音声生成用文字列解析部１により取得された音声合成対象文字列の合成音声生成を音声合成部６に対して指示し、当該指示を受けた音声合成部６が、音声合成パラメータ取得部５により取得されて制御部８により設定された発話速度と発話音量となるよう、音声合成対象文字列の合成音声を生成する（ステップＳＴ５）。

　最後に、制御部８は、録音音声取得部３により取得された録音音声と音声合成部６により生成された合成音声を、応答音声生成用文字列解析部１により解析された応答音声生成用文字列における音声合成対象文字列と録音音声ＩＤの構造に対応付けて応答音声を生成するよう音声出力制御部７に対して指示し、当該指示を受けた音声出力制御部７が、それら録音音声と合成音声から応答音声を生成して、スピーカ９から出力させる（ステップＳＴ６）。

　具体的な例を挙げて説明すると、例えば、「＜○○くうこう＞｛２００｝」という応答音声生成用文字列が応答音声生成用文字列解析部１に入力されると、応答音声生成用文字列解析部１は、当該文字列の構造を解析し、音声合成対象文字列「○○くうこう」と録音音声ＩＤ「２００」を取得する（ステップＳＴ１）。

　次に、録音音声取得部３は録音音声ＩＤ「２００」を検索キーとして録音音声記憶部２を検索し、録音音声分類情報「２」と録音音声「Ｇ」を取得する（ステップＳＴ２）。
　続いて、音声合成パラメータ取得部５は、録音音声取得部３により取得された録音音声分類情報「２」を検索キーとして、音声合成パラメータ記憶部４を検索し、発話速度「２」と発話音量「４」を取得する（ステップＳＴ３）。
　そして、制御部８は、音声合成部６に対して発話速度「２」と発話音量「４」を設定する（ステップＳＴ４）。

　その後、音声合成部６は、設定された発話速度と発話音量となるように、音声合成対象文字列「○○くうこう」の合成音声を生成する（ステップＳＴ５）。
　最後に、音声出力制御部７は、応答音声生成用文字列内で指定されている音声合成対象文字列「○○くうこう」に対応する合成音声と、録音音声ＩＤ「２００」に対応する録音音声「Ｇ」（発話文字列「をもくてきちにせっていします」）を、応答音声生成用文字列の構造に対応付けて出力するようスピーカ９に指示出力する（ステップＳＴ６）。その結果、「○○空港を目的地に設定します」という応答音声がスピーカ９から出力される。

　なお、ステップＳＴ３にて音声合成パラメータ取得部５が、発話速度か発話音量のいずれか一方を音声合成パラメータ記憶部４から取得し、ステップＳＴ４にて制御部８が、取得された発話速度か発話音量のいずれか一方を音声合成部６に設定し、ステップＳＴ５にて音声合成部６が、設定された発話速度か発話音量のいずれか一方となるよう合成音声を生成する構成にしてもよい。

　次に、図５に示すブロック図を参照して、音声合成パラメータ記憶部４の音声合成パラメータを生成する方法について説明する。なお、図５に示すブロック図の構成を音声応答装置内に設けてもよいし、あるいは、音声応答装置とは別に設けて、生成した音声合成パラメータを音声応答装置の音声合成パラメータ記憶部４に登録してもよい。

　図６に、原録音音声記憶部２ａの一例を示す。原録音音声記憶部２ａは、録音音声記憶部２に記憶している録音音声ＩＤ、録音音声分類情報、および録音音声に対して、さらに発話文字列を追加したものであり、この発話文字列は、録音音声ＩＤに対応付けて記憶されている。
　ここで、発話文字列とは、ナレータ等により発話された内容を表す文字列である。

　音声合成パラメータ計算部１０は、原録音音声記憶部２ａに記憶されている情報に基づいて、録音音声分類情報の分類毎に、対応する発話速度と発話音量を計算する。
　音声合成部特徴記憶部１１は、例えば図７（ａ）に示すように、音声合成部６に対して設定可能な発話速度と後述する１モーラあたりの継続時間長とを対応付けて記憶している。また、図７（ｂ）に示すように、音声合成部６に対して設定可能な発話音量とゲインとを対応付けて記憶している。

　初めに、発話速度の決定方法について説明する。
　まず、音声合成パラメータ計算部１０は、原録音音声記憶部２ａを参照して、同一の分類に属する録音音声と当該録音音声に対応すると発話文字列とを用いて、その分類における１モーラあたりの平均継続時間長Ｔを算出する。
　ここで、モーラ（ｍｏｒａ）とは「拍」をいい、日本語の仮名文字単位に相当するものである。例えば、「発話」は、「は」、「つ」および「わ」の３個のモーラで表される。

　具体的には、同一の分類に属する録音音声の個数をＮ、各録音音声の時間長をｔ_１，ｔ_２，・・・，ｔ_Ｎ、各録音音声に対応する発話文字列のモーラ数をＬ_１，Ｌ_２，・・・，Ｌ_Ｎとし、音声合成パラメータ計算部１０が以下の式（１）を計算する。

　次に、音声合成パラメータ計算部１０は、音声合成部特徴記憶部１１（図７（ａ）の表）を参照して、上式（１）で算出された平均継続時間長Ｔに対応する発話速度を決定する。
　このように決定された発話速度を、録音音声分類情報に対する発話速度として音声合成パラメータ記憶部４に格納する。

　音声合成パラメータ計算部１０は、同様にして他の分類についても、１モーラあたりの平均継続時間長を算出し、対応する発話速度を決定し、音声合成パラメータ記憶部４に録音音声分類情報に対応付けて格納する。

　なお、各録音音声の時間長と発話文字列のモーラ数については周知の方法で算出すればよいため説明を省略する。
　また、各録音音声の時間長と発話文字列のモーラ数はあらかじめ算出されたものを用いてもよいし、音声合成パラメータ計算部１０で算出してもよい。
　さらに、ここでは、音声合成部６の音声合成単位がモーラであるため、１モーラあたりの平均継続時間長から発話速度を決定したが、音声合成単位は任意でよく、任意の音声合成単位あたりの平均継続時間長から発話速度を決定すればよい。

　次に、具体的な例を挙げて説明する。ここでは、図６の録音音声分類情報「１」に対する発話速度を決定する。
　ここで、録音音声「Ａ」の時間長を１４００ｍｓ、録音音声「Ｂ」の時間長を１４７０ｍｓとする。発話文字列「にでんわします」「をとうろくする」のモーラ数はそれぞれ「７」であるので、上式（１）に当てはめると、１モーラあたりの平均継続時間長Ｔは、（１４００／７＋１４７０／７）／２＝２０５ｍｓとなる。
　そして、図７（ａ）の表を参照すると、１モーラあたりの平均継続時間長２０５ｍｓに対応する発話速度は「３」と決定される。

　続いて、発話音量の決定方法について説明する。
　まず、音声合成パラメータ計算部１０は、原録音音声記憶部２ａから同一の分類に属する録音音声を取得し、録音音声毎に平均ゲインを算出する。そして、録音音声毎の平均ゲインの和を録音音声数で割ったものを、当該分類に対応する平均ゲインとする。
　次に、音声合成パラメータ計算部１０は、音声合成部特徴記憶部１１（図７（ｂ）の表）を参照して、算出した平均ゲインに対応する発話音量を決定する。
　音声合成パラメータ計算部１０は、録音音声の分類毎に上述した処理を行い、決定された発話音量を録音音声分類情報に対応付けて音声合成パラメータ記憶部４に格納する。
　なお、録音音声の平均ゲインの算出方法は周知の技術であるため説明を省略する。

　以上より、実施の形態１によれば、音声応答装置は、応答音声生成用文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列（録音音声ＩＤ）とを取得する応答音声生成用文字列解析部１と、録音音声識別文字列に対応付けて、録音音声識別文字列の録音音声および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部２と、応答音声生成用文字列解析部１により取得された録音音声識別文字列を検索キーとして録音音声記憶部２を検索し、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得部３と、音声合成に使用する発話速度および発話音量の少なくとも一方を録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部４と、録音音声取得部３により取得された録音音声分類情報を検索キーとして音声合成パラメータ記憶部４を検索し、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得部５と、音声合成パラメータ取得部５により取得された発話速度および発話音量の少なくとも一方に基づいて、応答音声生成用文字列解析部１により取得された音声合成対象文字列の合成音声を生成する音声合成部６と、録音音声取得部３により取得された録音音声と音声合成部６により生成された合成音声を組み合わせて応答音声を生成する音声出力制御部７と、音声出力制御部７により生成された応答音声を出力するスピーカ９とを備える構成にした。
　以上のように、録音音声をその録音時期に分類し、当該分類毎に音声合成時に設定する速度と音量を決定し、応答音声生成時に、録音音声の分類に対応した速度と音量で合成音声を生成するようにしたので、合成音声の速度と音量が録音音声の速度と音量と同程度になり、応答音声が聞き取りやすくなる。

　また、実施の形態１によれば、録音音声の時間長および当該録音音声に対応する発話文字列を用いて、同一の分類に属する録音音声の音声合成単位あたりの平均継続時間長を算出して、発話速度を決定する構成にした。このため、同時期に録音された録音音声の平均的な速度で合成音声を生成でき、応答音声が聞き取りやすくなる。

　また、実施の形態１によれば、同一の分類に属する録音音声の平均ゲインを算出して、発話音量を決定する構成にした。このため、同時期に録音された録音音声の平均的な音量で合成音声を生成でき、応答音声が聞き取りやすくなる。

　なお、実施の形態１では、音声応答装置がスピーカ９を一体に備える構成例を説明したが、音声応答装置のうちの図１に破線で囲んだ部分をサーバ装置として構成し、スピーカ（出力装置）９をユーザ側に設置してサーバ装置との間で通信を行って、サーバ装置から出力装置へ応答音声を送信する構成にしてもよい。また、スマートフォン、タブレットＰＣ（パーソナルコンピュータ）、携帯電話等の携帯情報端末を音声応答装置として使用する場合に、その携帯情報端末を音声応答装置として機能させるためにインストールされるアプリケーションプログラムであってもよい。

実施の形態２．
　図８は、この発明の実施の形態２に係る音声応答装置の音声合成パラメータ記憶部４が記憶する音声合成パラメータの生成に係る構成の一例を示すブロック図であり、上記実施の形態１の図５と比べて、新たに音声認識部１２を備える。
　原録音音声記憶部２ａと音声合成部特徴記憶部１１については、上記実施の形態１と同様のため説明を省略する。

　上記実施の形態１の方法で録音音声分類情報に対する発話速度を決定する場合、例えば、録音音声にポーズが含まれていると、１モーラあたりの平均継続時間長が長くなってしまうため、適切な発話速度にならないことがある。
　例えば図６の録音音声「Ａ」と録音音声「Ｂ」において、「に」と「でんわします」の間、「を」と「とうろくする」の間にそれぞれ３６０ｍｓのポーズがあり、各モーラの時間長が先の例の場合と同一であるとすると、録音音声「Ａ」の時間長は１７６０ｍｓ、録音音声「Ｂ」の時間長は１８３０ｍｓとなる。モーラ数はそれぞれ「７」であるから、上式（１）より、１モーラあたりの平均継続時間長を算出すると２５６ｍｓ（小数点以下切捨て）となり、発話速度は「４」となる。

　そこで、実施の形態２では、原録音音声記憶部２ａに格納された録音音声を、音声認識部１２で例えばＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）を用いた音声認識方法によって認識し、音声合成パラメータ計算部１０は、認識処理の際に算出される音素毎の継続時間長を用いて、同一の録音音声分類における１モーラあたりの平均継続時間長を算出する。
　なお、音声認識部１２による音声認識処理（例えば、上述した古井貞煕著「音声情報処理」の第５章を参照）、および音素毎の継続時間長の算出については周知の技術であるため説明を省略する。

　具体的には、同一の録音音声分類情報が付された同一の分類に属する録音音声の個数をＮ、１個の録音音声を認識した結果出力される音素の個数をＭ、音素毎の継続時間長をｌ_１，ｌ_２，・・・，ｌ_Ｍ、録音音声に対応する発話文字列のモーラ数をＬとし、音声合成パラメータ計算部１０が、まず、以下の式（２）により各録音音声における１モーラあたりの平均継続時間長ｔを算出する。

　その後、以下の式（３）により、同一の分類に属する録音音声における１モーラあたりの平均継続時間長Ｔを算出する。

　次に、音声合成パラメータ計算部１０は、音声合成部特徴記憶部１１（図７（ａ）の表）を参照して、上式（３）で算出された平均継続時間長Ｔに対応する発話速度を決定する。
　音声合成パラメータ計算部１０は、このように決定された発話速度を、録音音声分類情報に対する発話速度として音声合成パラメータ記憶部４に格納する。
　音声合成パラメータ計算部１０は、同様にして他の分類についても、１モーラあたりの音声の平均継続時間長Ｔを算出し、対応する発話速度を決定し、音声合成パラメータ記憶部４に録音音声分類に対応付けて格納する。

　なお、ここでは、音声認識部１２の音声認識単位が音素、音声合成部６の音声合成単位がモーラであるため、音素毎の継続時間長と１モーラあたりの平均継続時間長から発話速度を決定したが、音声認識単位と音声合成単位は任意でよく、任意の音声認識単位の継続時間長と任意の音声合成単位あたりの平均継続時間長から発話速度を決定すればよい。

　発話音量の決定方法については上記実施の形態１と同一であるため説明を省略する。

　以上より、実施の形態２によれば、録音音声を認識処理して得られる当該録音音声に対応する発話文字列および当該認識単位ごとの継続時間長を用いて、同一の分類に属する録音音声の音声合成単位あたりの平均継続時間長を算出して、発話速度を決定する構成にした。このため、録音音声に含まれるポーズの時間を除外して音声合成単位（１モーラ）あたりの音声の平均継続時間を算出してより適切な発話速度を決定することができ、応答音声が聞き取りやすくなる。

実施の形態３．
　図９は、この発明の実施の形態３に係る音声応答装置の音声合成パラメータ記憶部４が記録する音声合成パラメータの生成に係る構成の一例を示すブロック図である。
　音声合成パラメータ計算部１０は、各録音音声分類情報に対応する、後述する参照音声の時間長と、当該参照音声の平均ゲインと、当該参照音声に対応する文字列とを入力とし、音声合成部６を用いて音声合成パラメータを算出する。

　ここで、参照音声とは、録音音声分類情報毎に用意されている録音音声のデジタルデータであり、例えばナレータが録音音声を収録する時期ごとに、録音音声に対応する文字列に加えて所定の文字列（参照音声に対応する文字列）を発話してもらい、その音声を録音して録音音声と同じ分類に属する参照音声にする。そして、参照音声の発話速度を、その参照音声が属する分類の発話速度とみなす。

　初めに、録音音声分類情報「１」に対応する参照音声の時間長と参照音声に対応する文字列が音声合成パラメータ計算部１０に入力されたものとして、図１０のフローチャートを用いて、発話速度の決定処理を説明する。

　音声合成パラメータ計算部１０は、まず、音声合成部６に対して、デフォルトの発話速度を指定し、入力された文字列（参照音声に対応する文字列）から合成音声を生成するよう指示出力する（ステップＳＴ１１）。続いて、音声合成部６は、当該指示を受けて指定された発話速度で合成音声を生成する（ステップＳＴ１２）。そして、音声合成パラメータ計算部１０は、当該生成された合成音声を取得し、その時間長を算出する（ステップＳＴ１３）。

　その後、音声合成パラメータ計算部１０は、当該算出された時間長と参照音声の時間長の差が所定値以下（または、未満）であるか否か判定する（ステップＳＴ１４）。当該差が所定値以下（または、未満）である場合（ステップＳＴ１４「ＹＥＳ」）は、音声合成パラメータ記憶部４の録音音声分類情報「１」に対応付けて、デフォルトの発話速度を格納し（ステップＳＴ１５）、処理を終了する。一方、当該差が所定値以下（または、未満）でない場合（ステップＳＴ１４「ＮＯ」）は、音声合成部６に対して指定する発話速度を変更した上で、再度、参照音声に対応する文字列の合成音声を生成するよう指示出力し（ステップＳＴ１６）、ステップＳＴ１２の処理へ戻る。

　録音音声分類情報毎に上述した処理を行うことで、音声合成パラメータ記憶部４の発話速度を生成することができる。録音音声に対応する文字列が分類ごとに異なっていたとしても、参照音声に対応する文字列を分類によらず同一にすることでより正確な発話速度を算出可能となる。

　なお、初めにデフォルトの発話速度を指定する（ステップＳＴ１１）としたが、例えば、最も早い（または最も遅い）発話速度から順に指定してもよい。
　また、音声合成パラメータ計算部１０へ参照音声の時間長が入力されるようにしたが、参照音声を入力とし、音声合成パラメータ計算部１０が、周知の技術を用いて時間長を算出し、それを用いてもよい。

　続いて、録音音声分類情報「１」に対応する参照音声の平均ゲインと参照音声に対応する文字列が音声合成パラメータ計算部１０に入力されたものとして、図１１のフローチャートを用いて、発話音量の決定処理を説明する。

　音声合成パラメータ計算部１０は、まず、音声合成部６に対して、デフォルトの発話音量を指定し、入力された文字列（参照音声に対応する文字列）から合成音声を生成するよう指示出力する（ステップＳＴ２１）。続いて、音声合成部６は、当該指示を受けて指定された発話音量で合成音声を生成する（ステップＳＴ２２）。そして、音声合成パラメータ計算部１０は、当該生成された合成音声を取得し、当該合成音声の平均ゲインを算出する（ステップＳＴ２３）。

　その後、音声合成パラメータ計算部１０は、当該算出された平均ゲインと参照音声の平均ゲインの差が所定値以下（または、未満）であるか否か判定する（ステップＳＴ２４）。当該差が所定値以下（または、未満）である場合（ステップＳＴ２４「ＹＥＳ」）は、音声合成パラメータ記憶部４の録音音声分類情報「１」に対応付けて、デフォルトの発話音量を格納し（ステップＳＴ２５）、処理を終了する。一方、当該差が所定値以下（または、未満）でない場合（ステップＳＴ２４「ＮＯ」）は、音声合成部６に対して指定する発話音量を変更した上で、再度、参照音声に対応する文字列の合成音声を生成するよう指示出力し（ステップＳＴ２６）、ステップＳＴ２２の処理へ戻る。

　録音音声分類情報毎に上述した処理を行うことで、音声合成パラメータ記憶部４の発話音量を生成することができる。録音音声に対応する文字列が分類ごとに異なっていたとしても、参照音声に対応する文字列を分類によらず同一にすることでより正確な発話音量を算出可能となる。

　なお、初めにデフォルトの発話音量を指定する（ステップＳＴ２１）としたが、例えば、最も大きい（または最も小さい）発話音量から順に指定してもよい。
　また、音声合成パラメータ計算部１０へ参照音声の平均ゲインが入力されるようにしたが、参照音声を入力とし、音声合成パラメータ計算部１０が、周知の技術を用いて平均ゲインを算出し、それを用いてもよい。

　以上より、実施の形態３によれば、発話速度を、録音音声と同じ規則に従って分類された参照音声の時間長と、当該参照音声に対応する文字列を入力として音声合成部６より生成された合成音声の時間長との差が所定値以下（または所定値未満）となるように決定する構成にした。このため、録音音声と同じ時期に録音された参照音声に最も近い発話速度を決定することができ、応答音声が聞き取りやすくなる。

　また、実施の形態３によれば、発話音量を、録音音声と同じ規則に従って分類された参照音声のゲインと、当該参照音声に対応する文字列を入力として前音声合成部６により生成された合成音声のゲインとの差が所定値以下（または所定値未満）となるように決定する構成にした。このため、録音音声と同じ時期に録音された参照音声に最も近い発話音量を決定することができ、応答音声が聞き取りやすくなる。

実施の形態４．
　図１２は、この発明の実施の形態４に係る音声応答装置の一例を示すブロック図であり、図１と同一または相当の部分については同一の符号を付し説明を省略する。
　この音声応答装置はナビゲーション装置などに組み込まれ、当ナビゲーション装置のユーザにより発話された音声を録音し、録音音声記憶部２に録音音声として追加するとともに、当該発話された音声を認識した結果に基づいて音声合成パラメータを計算して音声合成パラメータ記憶部４に追加する。そして、応答音声生成用文字列の解析結果に応じて、当該録音音声と合成音声が混在した応答音声を生成する際、当該音声合成パラメータを用いて合成音声を生成し出力するようにしたものである。

　音声取得部１３は、マイクにより取得されたユーザ発話、すなわち、入力された音声を取り込み、例えば例えばＰＣＭ（Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）によりＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換する。

　音声情報登録部１４は、音声取得部１３により取得された音声データに録音音声ＩＤと録音音声分類情報を割り当てるとともに、録音音声ＩＤに対応付けて当該音声データと録音音声分類情報を録音音声記憶部２に登録する。
　録音音声分類情報の割り当ては任意でよく、例えば、同じ日に取得された音声データに同一の録音音声分類情報を割り当てたり、音声データ毎に異なる録音音声分類情報を割り当てたりする。

　次に、図１３～図１５に示すフローチャートを用いて、実施の形態４による音声応答装置の処理を説明する。
　図１３は、ユーザにより発話された音声を録音音声記憶部２に登録する際のフローチャートである。
　まず、音声取得部１３は、マイクにより集音されたユーザ発話、すなわち、入力された音声を取り込み、例えばＰＣＭによりＡ／Ｄ変換し、音声情報登録部１４が、音声取得部１３により取得された音声データに録音音声ＩＤと録音音声分類情報を割り当てる（ステップＳＴ３１）。次に、音声情報登録部１４は、録音音声分類情報に対応付けて当該音声データと当該録音音声ＩＤを録音音声記憶部２に登録する（ステップＳＴ３２）。

　図１４は、音声取得部１３により取得されたユーザ発話の音声データを用いて発話速度を決定し、音声合成パラメータ記憶部４に登録する際のフローチャートである。ここでは、音声データ毎に異なる録音音声分類情報が割り当てられているものとする。
　まず、音声認識部１２は、音声取得部１３により取得された音声データを認識し、認識結果として音素毎の継続時間長と認識結果文字列を出力する（ステップＳＴ４１）。
　次に、音声合成パラメータ計算部１０は、音声認識部１２により出力された音素毎の継続時間長と認識結果文字列を用いて１モーラあたりの平均継続時間長を算出する（ステップＳＴ４２）。そして、音声合成パラメータ計算部１０は、音声合成部特徴記憶部１１を参照して当該平均継続時間長に対応する発話速度を決定し（ステップＳＴ４３）、音声情報登録部１４により割り当てられた録音音声分類情報と同一の録音音声分類情報に対応付けて、決定した発話速度を音声合成パラメータ記憶部４に登録する（ステップＳＴ４４）。

　ここで、音声合成パラメータ計算部１０による１モーラあたりの平均継続時間長の算出方法は、上記実施の形態２の式（２）と同様であるため説明を省略する。なお、認識結果文字列のモーラ数は、音声合成パラメータ計算部１０で、周知の方法を用いて算出されるものとする。

　図１５は、音声取得部１３により取得されたユーザ発話の音声データを用いて発話音量を決定し、音声合成パラメータ記憶部４に登録する際のフローチャートである。ここでは、音声データ毎に異なる録音音声分類情報が割り当てられているものとする。
　まず、音声合成パラメータ計算部１０は、音声取得部１３により取得された音声データの平均ゲインを算出する（ステップＳＴ５１）。
　次に、音声合成パラメータ計算部１０は、音声合成部特徴記憶部１１を参照して、算出した平均ゲインに対応する発話音量を決定する（ステップＳＴ５２）。そして、音声合成パラメータ計算部１０は、音声情報登録部１４により割り当てられた録音音声分類情報と同一の録音音声分類情報に対応付けて、当該発話音量を音声合成パラメータ記憶部４に登録する（ステップＳＴ５３）。

　なお、録音音声の平均ゲインの算出方法は周知の技術であるため説明を省略する。
　また、音声合成パラメータ計算部１０は、音声合成パラメータとして発話速度および発話音量のいずれか一方のみを決定して音声合成パラメータ記憶部４に登録してもよい。さらに、発話速度および発話音量の決定方法は、上記実施の形態１，２のいずれの方法を使用しても構わない。

　以上より、実施の形態４によれば、音声応答装置においてユーザの発話した音声を録音音声として使用する場合に、音声合成パラメータ計算部１０が、ユーザ発話の音声データを用いて発話速度および発話音量の少なくとも一方を決定し、音声合成部６は、音声合成パラメータ計算部１０により決定された発話速度および発話音量の少なくとも一方に基づいて合成音声を生成する構成にした。このため、ユーザにより追加録音された録音音声について音声合成パラメータを決定し、当該録音音声と合成音声が混在した応答音声を生成する際に、当該録音音声に対応する音声合成パラメータを使用して生成された合成音声を用いるようにしたので、応答音声が聞き取りやすくなる。

　なお、実施の形態４では、音声応答装置がスピーカ９および音声取得部１３を一体に備える構成例を説明したが、音声応答装置のうちの図１２に破線で囲んだ部分をサーバ装置として構成し、音声取得部１３およびスピーカ９を有する入出力装置をユーザ側に設置してサーバ装置との間で通信を行って、入出力装置からサーバ装置へユーザ音声を送信すると共に、サーバ装置から入出力装置へ応答音声を送信する構成にしてもよい。また、携帯情報端末を音声応答装置として使用する場合に、その携帯情報端末を音声応答装置として機能させるためにインストールされるアプリケーションプログラムであってもよい。

　なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
　また、上記説明では日本語に対応した音声応答装置を例にしたが、日本語以外の言語に対応することも可能である。

　以上のように、この発明に係る音声応答装置は、録音音声の分類に対応した発話速度および発話音量の少なくとも一方に基づいて合成音声を生成して当該録音音声に組み合わせた応答音声を生成するようにしたので、合成音声と録音音声の混在する応答音声を出力するナビゲーション装置などに用いるのに適している。

　１　応答音声生成用文字列解析部、２　録音音声記憶部、２ａ　原録音音声記憶部、３　録音音声取得部、４　音声合成パラメータ記憶部、５　音声合成パラメータ取得部、６　音声合成部、７　音声出力制御部、８　制御部、９　スピーカ、１０　音声合成パラメータ計算部、１１　音声合成部特徴記憶部、１２　音声認識部、１３　音声取得部、１４　音声情報登録部。

Claims

　入力された文字列に対応する応答音声を生成して出力する音声応答装置において、
　前記入力された文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列とを取得する応答音声生成用文字列解析部と、
　前記録音音声識別文字列に対応付けて、前記録音音声識別文字列の録音音声、および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部と、
　前記応答音声生成用文字列解析部により取得された録音音声識別文字列を検索キーとして前記録音音声記憶部を検索し、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得部と、
　音声合成に使用する発話速度および発話音量の少なくとも一方を、前記録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部と、
　前記録音音声取得部により取得された録音音声分類情報を検索キーとして前記音声合成パラメータ記憶部を検索し、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得部と、
　前記音声合成パラメータ取得部により取得された発話速度および発話音量の少なくとも一方に基づいて、前記応答音声生成用文字列解析部により取得された音声合成対象文字列の合成音声を生成する音声合成部と、
　前記録音音声取得部により取得された録音音声と前記音声合成部により生成された合成音声を組み合わせて応答音声を生成する音声出力制御部とを備えることを特徴とする音声応答装置。
　前記発話速度は、録音音声の時間長および当該録音音声に対応する発話文字列を用いて、同一の分類に属する録音音声の音声合成単位あたりの平均継続時間長を算出することにより決定されることを特徴とする請求項１記載の音声応答装置。
　前記発話音量は、録音音声を用いて、同一の分類に属する録音音声の平均ゲインを算出することにより決定されることを特徴とする請求項１記載の音声応答装置。
　前記発話速度は、録音音声を認識処理して得られる当該録音音声に対応する発話文字列および当該認識単位ごとの継続時間長を用いて、同一の分類に属する録音音声の音声合成単位あたりの平均継続時間長を算出することにより決定されることを特徴とする請求項１記載の音声応答装置。
　前記発話速度は、録音音声と同じ規則に従って分類された参照音声の時間長と、当該参照音声に対応する文字列を入力として前記音声合成部により生成された合成音声の時間長との差が所定値以下となるように決定されることを特徴とする請求項１記載の音声応答装置。
　前記発話音量は、録音音声と同じ規則に従って分類された参照音声のゲインと、当該参照音声に対応する文字列を入力として前記音声合成部により生成された合成音声のゲインとの差が所定値以下となるように決定されることを特徴とする請求項１記載の音声応答装置。
　ユーザが発話した音声を録音音声として使用する場合に、当該ユーザが発話した音声を用いて前記発話速度および前記発話音量の少なくとも一方を決定する音声合成パラメータ計算部を備え、
　前記音声合成部は、前記音声合成パラメータ計算部により決定された発話速度および発話音量の少なくとも一方に基づいて合成音声を生成することを特徴とする請求項１記載の音声応答装置。
　入力された文字列に対応する応答音声を生成し、出力装置との間で通信を行って当該応答音声を出力させる音声応答装置において、
　前記入力された文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列とを取得する応答音声生成用文字列解析部と、
　前記録音音声識別文字列に対応付けて、前記録音音声識別文字列の録音音声、および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部と、
　前記応答音声生成用文字列解析部により取得された録音音声識別文字列を検索キーとして前記録音音声記憶部を検索し、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得部と、
　音声合成に使用する発話速度および発話音量の少なくとも一方を、前記録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部と、
　前記録音音声取得部により取得された録音音声分類情報を検索キーとして前記音声合成パラメータ記憶部を検索し、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得部と、
　前記音声合成パラメータ取得部により取得された発話速度および発話音量の少なくとも一方に基づいて、前記応答音声生成用文字列解析部により取得された音声合成対象文字列の合成音声を生成する音声合成部と、
　前記録音音声取得部により取得された録音音声と前記音声合成部により生成された合成音声を組み合わせて応答音声を生成し、通信により前記出力装置から当該応答音声を出力させる音声出力制御部とを備えることを特徴とする音声応答装置。
　入力された文字列に対応する応答音声を生成して、出力装置から出力させる応答音声生成方法において、
　応答音声生成用文字列解析部が、前記入力された文字列を解析して、音声合成の対象になる音声合成対象文字列と録音音声に固有の録音音声識別文字列とを取得する応答音声生成用文字列解析ステップと、
　前記録音音声識別文字列に対応付けて、前記録音音声識別文字列の録音音声、および当該録音音声の属する分類を表す録音音声分類情報を記憶している録音音声記憶部に対して、録音音声取得部が、前記応答音声生成用文字列解析ステップで取得された録音音声識別文字列を検索キーとした検索を行い、当該検索キーと一致する録音音声識別文字列に対応付けられた録音音声および録音音声分類情報を取得する録音音声取得ステップと、
　音声合成に使用に使用する発話速度および発話音量の少なくとも一方を、前記録音音声分類情報に対応付けて記憶している音声合成パラメータ記憶部に対して、音声合成パラメータ取得部が、前記録音音声取得ステップで取得された録音音声分類情報を検索キーとした検索を行い、当該検索キーと一致する録音音声分類情報に対応付けられた発話速度および発話音量の少なくとも一方を取得する音声合成パラメータ取得ステップと、
　音声合成部が、前記音声合成パラメータ取得ステップで取得された発話速度および発話音量の少なくとも一方に基づいて、前記応答音声生成用文字列解析ステップで取得された音声合成対象文字列の合成音声を生成する音声合成ステップと、
　音声出力制御部が、前記録音音声取得ステップで取得された録音音声と前記音声合成ステップで生成された合成音声を組み合わせて応答音声を生成して前記出力装置から出力させる音声出力制御ステップとを備えることを特徴とする応答音声生成方法。