WO2016063879A1

WO2016063879A1 - 音声合成装置および方法

Info

Publication number: WO2016063879A1
Application number: PCT/JP2015/079594
Authority: WO
Inventors: 嘉山　啓; 松原　弘明
Original assignee: ヤマハ株式会社
Priority date: 2014-10-20
Filing date: 2015-10-20
Publication date: 2016-04-28
Also published as: US20170221470A1; US10789937B2; CN107077840A; US10217452B2; EP3211637A4; US20190139535A1; EP3211637A1; CN107077840B; JP2016080944A; EP3211637B1; JP6446993B2

Abstract

　話者（利用者）が発した音声に対して回答音声を自動的に発生する技術の改良であり、発話音声の音高に応じて回答音声の音高を制御することを特徴とする。話者が発した発話（例えば問い掛け）の音声信号を受信し（１０２）、該発話の代表的区間の音高（例えば最高音高）を検出する（１０６）。該発話に対する回答の音声データを適宜に取得し（１１０，１２４）、かつ、取得された前記回答の音声データに基づく音高（例えば平均音高）を取得する（１１２）。前記取得された音高を、前記代表的区間の音高に対して特定の関係を持つ目標音高までシフトするための、音高シフト量を決定する（１１４）。前記回答の音声データに基づき該回答の音声を合成する際に、合成する前記回答の音声の音高を前記音高シフト量に応じてシフトする（１１６）。

Description

音声合成装置および方法

　本発明は、音声合成装置および方法に関し、さらには該方法を実行するためのプログラムを記憶した記憶媒体に関する。

　近年、音声合成技術としては、次のようなものが提案されている。すなわち、利用者の話調や声質に対応した音声を合成出力することによって、より人間らしく発音する技術（例えば特許文献１参照）や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術（例えば特許文献２参照）が提案されている。また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている（例えば特許文献３参照）。

特開２００３－２７１１９４号公報特許第４４９５９０７号公報特許第４８３２０９７号公報

　ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声による問い掛けに対し、当該問い掛けに対する相槌などの回答を音声合成により出力する対話システムを想定してみる。この想定では、音声合成によって出力される音声が、利用者に、いかにも機械が喋っている感じを与えるときがある、という問題が指摘されている。

　本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、問い掛けに対する回答を自動的に音声合成する場合に、利用者に不自然な感じを与えず、また、聴感上の品質劣化を防止して音声を合成することが可能な音声合成装置を提供することにあり、さらにはそのような音声合成方法、及び該方法を実行するためのプログラムを記憶した記憶媒体を提供しようとするものである。

　まず、利用者による問い掛けに対する回答を音声合成で出力するマン・マシンのシステムを検討するにあたって、まず、人同士では、どのような対話がなされるかについて、言語的情報以外の情報、とりわけ対話を特徴付ける音高（周波数）に着目して考察する。人同士の対話として、一方の人（ａとする）による発話（問い掛け、あるいは問いなど）に対し、他方の人（ｂとする）が返答する場合について検討する。この場合において、ａが問い掛けを発したとき、ａだけなく、当該問い掛けに対して回答しようとするｂも、当該問い掛けのうちの、特定区間における音高を強い印象で残していることが多い。ｂは、同意や、賛同、肯定などの意で回答するときには、印象に残っている問い掛けの音高に対し、当該回答を特徴付ける部分の音高が、特定の関係、具体的には協和音程の関係となるように発声する。当該回答を聞いたａは、自己の問い掛けについて印象に残っている音高と当該問い掛けに対する回答を特徴付ける部分の音高とが上記関係にあるので、ｂの回答に対して心地良く、安心するような好印象を抱くことになる、と考えられる。このように人同士の対話では、問い掛けの音高と回答の音高とは無関係ではなく、上記のような関係がある、と考察できる。このような考察を踏まえて、利用者による問い掛けに対する回答を音声合成で出力（返答）する対話システムを検討したときに、当該音声合成について上記目的を達成するために、次のような構成とした。

　すなわち、上記目的を達成するために、本発明に係る音声合成装置は、発話の音声信号を受信する受信部と、前記受信した音声信号に基づき、前記発話の代表的区間の音高を検出する音高検出部と、前記発話に対する回答の音声データを取得する回答取得部と、取得された前記回答の音声データに基づく音高を取得する音高取得部と、前記取得された音高を、前記代表的区間の音高に対して特定の関係を持つ目標音高までシフトするための、音高シフト量を決定する音高シフト量決定部と、前記回答の音声データに基づき該回答の音声を合成する回答合成部であって、該回答合成部は、合成する前記回答の音声の音高を前記音高シフト量に応じてシフトするように構成されているものと、を具備する。

　これによれば、受信した発話の代表的区間の音高を検出し、該代表的区間の音高に対して特定の関係を持つ目標音高に応じて音高シフト量を決定し、合成する回答の音声の音高を該音高シフト量に応じてシフトするので、受信した発話の音声（例えば利用者が発した問い掛け）に対する回答の音声を、該発話（問い掛け）の音高に対して特定の関係を持つ音高で合成することができるので、不自然でなく、かつ、高品質な回答音声を合成（再生）することができる。なお、本発明において、話者（利用者）から受信される発話の音声信号は、１センテンスあるいは１乃至数フレーズ又は一声等の比較的短い言語音声からなる。

　なお、回答には、受信した発話の内容（問い掛け）に対する具体的な答えに限られず、相槌（間投詞）も含まれる。また、回答には、人による声のほかにも、「ワン」（bowwow）、「ニャー」（meow）などの動物の鳴き声も含まれる。すなわち、ここでいう回答や音声とは、人が発する声のみならず、動物の鳴き声を含む概念である。

　受信した発話音声の代表的区間の音高とは、受信した発話音声の音高的特徴を代表するものを指す。例えば、発話音声の趣旨を強く印象づける区間の音高であり、具体的には、音量が所定値以上である区間の最高音高や、発話音声（問い）の末尾区間の音高であってよい。

　前記音高取得部によって取得される前記回答の音声データに基づく音高とは、例えば該回答の音声データを標準的音高帯域で再生したときの特徴的な部分での音高であってよく、例えば、特徴的な部分とは語頭部分の音高、音量が最も高い部分での音高のほか、平均音高などであってよい。

　一実施例において、前記音高シフト量決定部は、前記代表的区間の音高に対して協和音程をなす音高を前記目標音高として定めるようにしてよい。協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、２音間の周波数比（振動数比）が単純なものほど高い。

　一実施例において、前記音高シフト量決定部は、前記目標音高が前記取得された音高から所定範囲内に収まるように該目標音高を定めるようにしてよい。音声データを音高シフト量だけシフトする場合に、そのシフト量が大きければ、劣化するが、前記目標音高が前記取得された音高から所定範囲内に収まるように該目標音高を定めることにより、そのような劣化を防止することができる。また、一実施例において、前記音高シフト量決定部は、前記目標音高が前記取得された音高から所定範囲内に収まるように該目標音高をオクターブ単位で調整するようにしてよい。

　一実施例において、前記音高検出部は、前記受信した音声信号の音量が所定値以上である区間における最高音高を、前記代表的区間の音高として検出するようにしてよい。このときの所定値以上であることの判別において、ヒステリシス特性を持たせて判別しても良いし、音高が検出可能であることを条件として追加してもよい。

　本発明は、上述したような装置の発明のみならず方法の発明としても構成され具体化され得る。また、本発明は、コンピュータ又はＤＳＰ（デジタル信号処理器）のようなプロセッサによって実行可能なソフトウェアプログラムとして、また、そのようなソフトウェアプログラムを記憶した非一過性のコンピュータ読み取り可能な記憶媒体としても、構成され具体化され得る。その場合、該プログラムは該記憶媒体内においてユーザに提供され、それから該ユーザのコンピュータ内にインストールされるか、若しくは、サーバ装置から通信ネットワークを介してクライアントのコンピュータに配信され、それから該クライアントのコンピュータ内にインストールされるようになっていてよい。更に、本発明において使用されるプロセッサとは、任意のソフトウェアプログラムを起動させることができるコンピュータ又はその他の汎用プロセッサのみを言うのではなく、ハードウェアで組み立てられた専用ロジック回路を具備した専用プロセッサであってもよい。

　以下、本発明の実施形態について図面を参照して詳細に説明する。

実施形態に係る音声合成装置の構成を示すブロック図である。

音声合成装置の動作を示すフローチャートである。

利用者による問いと、音声合成装置による回答との音高例を示す図である。

応用例の前提を説明するための図である。

応用例（その１）における処理の要部を示す図である。

応用例（その２）における処理の要部を示す図である。

応用例（その３）における処理の要部を示す図である。

応用例（その４）の動作概要を示す図である。

　図１は、本発明の実施形態に係る音声合成装置１０の構成を示す図である。この音声合成装置１０は、例えば、ぬいぐるみに組み込まれて、話者（利用者）が当該ぬいぐるみに問い掛けを発したときに、相槌などの回答を自動的に音声合成して出力するように構成されている。音声合成装置１０は、ＣＰＵ（Central Processing Unit）や、音声受信部１０２、スピーカ１４２等を有し、当該ＣＰＵが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。詳細には、音声合成装置１０では、音声特徴量取得部１０６、回答選択部１１０、回答音高取得部１１２、音高シフト量決定部１１４および回答合成部１１６が構築される。

　なお、特に図示しないが、このほかにも音声合成装置１０は、表示部や操作入力部なども有し、管理者又は利用者が装置の状況を確認したり、装置に対して各種の操作を入力したり、各種の設定などができるようになっている。また、音声合成装置１０は、ぬいぐるみのような玩具に限られず、いわゆるペットロボットや、携帯電話機のような端末装置、タブレット型のパーソナルコンピュータなどであっても良い。

　音声受信部１０２は、詳細については省略するが、話者（利用者）が発した音声信号を受信し、該音声信号を電気信号に変換するマイクロフォンと、変換された音声信号をデジタル信号に変換するＡ／Ｄ変換器とで構成される。

　音声特徴量取得部１０６（音高検出部）は、音声受信部１０２で受信さけた音声信号（デジタル信号に変換された音声信号）を解析処理して、当該音声信号を発話区間および非発話区間に分別するとともに、発話区間のうち、有声区間における特定区間の音高を検出し、当該音高を示すデータを回答選択部１１０および音高シフト量決定部１１４に供給する。ここで、発話区間とは、例えば音声信号の音量が閾値以上となる区間をいい、反対に、非発話区間とは、音声信号の音量が閾値未満となる区間をいう。また、有声区間とは、発話区間のうち、音声信号の音高（ピッチ）が検出可能な区間をいう。音高が検出可能な区間とは、音声信号に周期的な部分があって、その部分が検出可能であることを意味する。

　なお、音声特徴量取得部１０６（音高検出部）により前記受信した音声信号の音高を検出する対象となる前記特定区間とは、該音声信号により示された発話の代表的区間である。この特定区間（代表的区間）としては、発話（例えば問い掛け）の特徴を代表する区間であれば、発話区間の全部又は一部であってもよい。一例として、前記受信した音声信号の有声区間のうちの末尾区間を該特定区間（代表的区間）とし、検出すべき音高として、当該末尾区間における最高音高を検出するものとしている。一例として、該末尾区間とは、有声区間の終了時点と該終了時点から所定時間（例えば１８０ｍｓｅｃ）遡った時点との間の区間、つまり有声区間の末尾の所定時間幅（例えば１８０ｍｓｅｃ）からなる区間である。有声区間については後述するように、音声信号の音量を２つ（または３つ以上）の閾値で判別しても良い。また、該特定区間（代表的区間）における最高音高に限らず、最低音高あるいは平均音高等を検出するようにしてもよい。

　回答ライブラリ１２４は、利用者による発話（例えば問い掛け）に対する各種の回答の音声データを、予め複数記憶する。この音声データは、モデルとなる適宜の人物の音声を録音したものからなり、例えば、「はい」、「いいえ」、「そう」、「うん」、「ふーん」、「なるほど」のような、質問に対する一般的な若しくは典型的な返事や相槌など、複数種の回答パターンからなっていてよい。回答の音声データは、例えばｗａｖやｍｐ３などの適宜のフォーマットで記憶され、標準で再生したときの該回答音声波形１周期又は複数周期毎の音高と、それらの平均音高が予め求められて、その平均音高（回答に基づく音高）を示すデータが当該音声データに対応付けられて回答ライブラリ１２４に記憶されている。なお、ここでいう標準で再生とは、音声データを録音時の条件（サンプリング周波数）と同じ条件で再生する、という意味である。

　回答選択部１１０（回答取得部）は、音声特徴量取得部１０６から前記代表的区間の音高を示すデータが出力された場合、当該音声に対する回答の音声データを、回答ライブラリ１２４から１つを選択し、当該選択した回答の音声データを、対応付けられた平均音高を示すデータとともに、読み出して出力する。回答選択部１１０が、複数の回答音声データのうち、１つの回答音声データをどのようなルールで選択するかの手法については、例えばランダムで選択してもよいし、発話（問い掛け）の代表的区間の音高に対して平均音高が最も近い回答音声データを選択するようにしてもよい。なお、その場合、本実施形態において、選択される回答については、利用者の発した問い掛けの意味内容が考慮されないことになるが、この音声合成装置１０を、利用者が発した問い掛けに対し、回答として単なる相槌等を返す装置としてみれば、これで十分である。しかし、それに限らず、図１において破線で示されるように言語解析部１０８を設けて、当該言語解析部１０８により前記受信された音声信号で規定される発話（例えば問い掛け）の意味内容を解析し、回答選択部１１０が、データベース等を介して当該発話（問い掛け）の意味内容にふさわしい回答を選択若しくは作成するように構成してもよい。

　回答音高取得部１１２は、取得された前記回答の音声データに基づく音高（代表的音高）を取得するように構成されている。一例として、回答音高取得部１１２は、回答選択部１１０で読み出されたデータのうち、回答の平均音高を示すデータを抜き出して、前記回答の音声データに基づく音高（代表的音高）として取得する。回答音高取得部１１２によって取得した前記回答の平均音高を示すデータは音高シフト量決定部１１４に供給される。

　音高シフト量決定部１１４は、前記回答音高取得部１１２によって取得された音高（回答の平均音高）を、前記代表的区間の音高に対して特定の関係を持つ目標音高までシフトするための、音高シフト量を決定する。好ましい実施例において、前記音高シフト量決定部１１４は、前記目標音高が前記取得された音高（回答の平均音高）から所定範囲内に収まるように該目標音高を定める。すなわち、音高シフト量決定部１１４は、音声特徴量取得部１０６から出力された音声信号における前記代表的区間の音高と、回答音高取得部１１２から出力された前記回答の平均音高との差から、回答の音声データを再生する際における音高を制御するための音高シフト量を、後述するようなやり方で決定する。

　回答合成部１１６は、回答ライブラリ１２４から読み出された回答の音声データに基づき該回答の音声を再生（合成）するもので、その際に、再生（合成）する前記回答の音声の音高を前記音高シフト量決定部１１４で決定され前記音高シフト量に応じてシフトする。なお、音高がシフトされた回答音声信号は、図示省略したＤ／Ａ変換部によってアナログ信号に変換された後、スピーカ１４２によって音響変換されて空間的に出力される。

　なお、前記回答音高取得部１１２が取得する前記回答の音声データに基づく音高（代表的音高）は、前記回答の平均音高に限らず、他のタイプの音高であってもよい。例えば、音高の中間値でもよいし、回答音声データの所定の一部区間の平均音高でもよく、それを対応する回答音声データに対応づけて前記回答ライブラリ１２４に予め記憶しておき、音高シフト量決定部１１４における音高シフト量の決定のために用いるようにしてよい。

　次に、音声合成装置１０の動作について説明する。図２は、音声合成装置１０における処理動作の一例を示すフローチャートである。はじめに、音声合成装置１０が適用されたぬいぐるみに対して、利用者が音声で問い掛けを発したときに、このフローチャートで示される処理が起動される。なお、ここでは便宜的に、利用者の発話音声（問い掛け）の音高に対して回答の音声データの音高が高い場合を例にとって説明する。

　まず、ステップＳａ１１において、音声受信部１０２によって受信された音声信号が音声特徴量取得部１０６に供給される。次に、ステップＳａ１２において、音声特徴量取得部１０６は、音声受信部１０２からの音声信号に対して解析処理、すなわち利用者が発した発話（すなわち、問い若しくは問い掛け）の代表的区間の音高を検出する処理を実行する。ステップＳａ１３において、回答合成部１１６によって回答が再生中であるか否かが判別される。

　回答が再生中でなければ（ステップＳａ１３の判別結果が「Ｎｏ」であれば）、音声特徴量取得部１０６は、音声受信部１０２からの音声信号の問い（発話）が終了したか否かを判別する（ステップＳａ１４）。なお、問いが終了したか否かについては、具体的には、例えば、音声信号の音量が所定の閾値未満となった状態が所定時間継続したか否かで判別される。

　問いが終了していなければ（ステップＳａ１４の判別結果が「Ｎｏ」であれば）、処理手順がステップＳａ１１に戻り、これにより、音声特徴量取得部１０６は、音声受信部１０２からの音声信号の解析処理を継続する。

　問いが終了していれば（ステップＳａ１４の判別結果が「Ｙｅｓ」であれば）、音高シフト量決定部１１４は、回答選択部１１０により選択された回答の音声データを再生する際の音高シフト量を、後述するように決定する（ステップＳａ１５）。

　そして、音高シフト量決定部１１４は、決定した音高シフト量を回答合成部１１６に通知して、回答選択部１１０により選択された回答の音声データの再生を指示する（ステップＳａ１６）。この指示にしたがって回答合成部１１６は、当該音声データを、音高シフト量決定部１１４で決定された音高シフト量だけシフトして再生する（ステップＳａ１７）。

　なお、ステップＳａ１３において、回答合成部１１６によって回答が再生中であると判別される場合（ステップＳａ１３の判別結果が「Ｙｅｓ」となる場合）とは、ある問いに応じて回答を再生中に、次の問いが利用者によって発せられた場合などである。この場合、処理手順は、ステップＳａ１４、Ｓａ１１という経路を戻らず、ステップＳａ１７に移行するので、回答の再生が優先されることになる。

　図３は、図２におけるステップＳａ１５の処理、すなわち回答の音声データの音高シフト量を決定する処理の詳細を示すフローチャートである。なお、この処理が実行されるための前提は、回答合成部１１６が回答を再生中でなく（ステップＳａ１３の判別結果が「Ｎｏ」）、かつ、利用者により問いの入力が終了している（ステップＳａ１４の判別結果が「Ｙｅｓ」）、ことである。まず、ステップＳｂ１１において、前記音声特徴量取得部１０６により問い（発話）の代表的区間の音高を検出する。

　一方、回答選択部１１０は、利用者による問いに対する回答の音声データを、回答ライブラリ１２４から選択し、当該選択した回答の音声データと、当該音声データに対応付けられた平均音高を示すデータとを読み出す。回答音高取得部１１２は、該読み出されたデータのうちの平均音高を示すデータを、前記回答の音声データに基づく音高（代表的音高）として取得する（ステップＳｂ１２）。

　次に、音高シフト量決定部１１４は、前記音声特徴量取得部１０６（ステップＳｂ１１）により検出された前記問い（発話）の代表的区間の音高に対して、所定の関係（例えば５度下）にある音高を、音声データで回答する際の目標音高として仮決定する（ステップＳｂ１３）。

　続いて、音高シフト量決定部１１４は、前記回答音高取得部１１２により取得された前記回答の平均音高から、前記仮決定した目標音高（ステップＳｂ１３のほか、後述するステップＳｂ１６、Ｓｂ１８で変更された音高を含む）までの音高シフト量を算出する（ステップＳｂ１４）。音高シフト量決定部１１４は、回答の平均音高を音高シフト量だけシフトした場合の目標音高（シフト後の目標音高）が下限閾値よりも低いか否かを判別する（ステップＳｂ１５）。ここで、下限閾値とは、回答の平均音高に対して、どれだけ低い音高まで許容するのかを示す閾値であり、詳細について後述する。

　シフト後の目標音高が下限閾値よりも低ければ（ステップＳｂ１５の判別結果が「Ｙｅｓ」であれば）、音高シフト量決定部１１４は、仮決定した回答の目標音高を１オクターブ引き上げて、当該１オクターブ上げた音高を、音声データで回答する際の目標音高として再度仮決定する（ステップＳｂ１６）。なお、この後、処理手順がステップＳｂ１４に戻り、再度、音高シフト量が算出されて、ステップＳｂ１５、Ｓｂ１７の判別が実行されることになる。

　一方、シフト後の目標音高が下限閾値よりも低くなければ（ステップＳｂ１５の判別結果が「Ｎｏ」であれば）、音高シフト量決定部１１４は、当該シフト後の目標音高が上限閾値よりも高いか否かを判別する（ステップＳｂ１７）。ここで、上限閾値とは、回答の平均音高に対して、どれだけ高い音高まで許容するのかを示す閾値であり、詳細については後述する。

　シフト後の目標音高が上限閾値よりも高ければ（ステップＳｂ１７の判別結果が「Ｙｅｓ」であれば）、音高シフト量決定部１１４は、仮決定した回答の目標音高を１オクターブ引き下げて、当該１オクターブ下げた目標音高を、音声データで回答する際の目標音高として再度仮決定する（ステップＳｂ１８）。なお、この後、処理手順がステップＳｂ１４に戻り、再度、音高シフト量が算出されて、ステップＳｂ１５、Ｓｂ１７の判別が実行されることになる。

　シフト後の目標音高が上限閾値よりも高くなければ（ステップＳｂ１７の判別結果が「Ｎｏ」であれば）、当該シフト後の目標音高が、下限閾値以上であって上限閾値以下の所定の音高範囲内に収まっていることを意味する。このため、音高シフト量決定部１１４は、処理手順をステップＳｂ１９に移行させ、現時点において仮決定の段階にある目標音高を本決定として、それに対応する音高シフト量を回答合成部１１６に通知する。

　図４は、利用者によって音声入力された問い（発話）と、音声合成装置１０により合成される回答との関係を、音高を縦軸に、時間を横軸にとって例示した図である。この図において、符号Ｔ１で示される実線は、利用者による問いの音高変化を簡易的に直線で示している。符号Ｐ１は、この問いＴ１における特定区間の音高である。また、図において、符号Ａ１で示される実線は、問いＴ１に対して選択された回答の音声データを標準で再生したときの音高変化を簡易的に示す図であり、符号Ｐ２は、その平均音高である。

　問いＴ１に対して、回答Ａ１の音高をシフトさせずに再生すると、機械的な感じを受けやすい。このため、本実施形態では、第１に、問いＴ１の特徴的で印象的な部分である代表的区間（語尾）の音高Ｐ１に対して、協和音程の例えば５度下の関係にある音高Ｐ２－１となるように、回答Ａ１をシフトさせた回答Ａ１－１で再生しようとする。なお、符号Ｄ１は、音高Ｐ１と音高Ｐ２－１との音高差である。ただし、回答Ａ１に対する回答Ａ１－１の音高シフト量Ｄ２が大きすぎると、音高シフトした回答Ａ１－１を再生したときに聴感上の品質が劣化する。特に、問いの特定区間の音高と回答の平均音高とが大きく離れている場合（例えば、問いを発する利用者が男性で、回答のモデルが女性である場合）、音高を低くする方向にシフトさせて再生すると、不自然になりやすく、また、著しく劣化しやすい。

　そこで、本実施形態では、第２に、回答合成部１１６で合成させる回答の目標音高が音高Ｐ１に対して特定の関係となることを維持しつつ、元の回答Ａ１の平均音高Ｐ２に対して、所定の音高範囲に収まるまで、回答Ａ１－１の音高Ｐ２－１を、オクターブ単位で段階的にシフトさせる構成となっている。図４の例において、回答Ａ１－４は、回答Ａ１の音高Ｐ２を基準にした音高範囲に収まるまで、回答Ａ１－１から回答Ａ１－２、回答Ａ１－３を経て、３オクターブ高めた例である。

　図４において、回答Ａ１の平均音高Ｐ２を基準にして設定される音高範囲のうち、当該平均音高Ｐ２から、下限閾値Ｐth_Lまでの音高差分量が符号Ｔ_Lで規定され、上限閾値Ｐth_Hまでの音高差分量が符号Ｔ_Hで規定される。すなわち、下限閾値Ｐth_Lは、回答Ａ１の平均音高Ｐ２を基準にして音高差分量Ｔ_Lで規定される相対値であり、同様に、上限閾値Ｐth_Hは、平均音高Ｐ２を基準にして音高差分量Ｔ_Hで規定される相対値である。回答ライブラリ１２４に記憶された回答の音声データは複数存在するので、回答の音高範囲を規定する下限閾値Ｐth_Lおよび上限閾値Ｐth_Hについては、回答毎に異なることになるが、このように平均音高Ｐ２を基準にして音高差分量で相対的に規定することによって、回答の音声データ毎に下限閾値Ｐth_Lおよび上限閾値Ｐth_Hを予め対応付けて記憶させる必要がない。

　なお、音高Ｐ２－１は、問いＴ１の音高Ｐ１に対して協和音程の関係にあり、音高Ｐ２－４は、当該音高Ｐ２－１に対して３オクターブの上の関係にある。このため、音高Ｐ２－４の周波数と、音高Ｐ２－１の周波数とは、整数比の関係が維持されていることになるので、音高Ｐ１と音高Ｐ２－４とについても、ほぼ協和音程の関係が維持されることになる。

　また例えば、回答Ａ１－２を本決定して再生して良い場合もある。しかし、Ａ１－２のように回答Ａ１－１よりも１オクターブ上にシフトしただけでは、元の回答Ａ１からのシフト量が大きく、なおも不自然であったり、聴感上の品質劣化の程度が看過できなったりすることがあるので、上述のように所定の音高範囲に収まるように制御している。

　本実施形態によれば、利用者が発した問いに対する回答を、機械的ではなく、調子が不自然でもなく、かつ、聴感上の品質の劣化を防いで、合成（再生）することができる。また、回答の音声データに、当該回答は女性であるのか、男性であるのかを示す属性情報を付与して、当該属性情報に応じて音高のシフト量を決定する必要もない。

　本実施形態では、次に例示するように回答を合成することで、怒りの回答、気のない回答など、感情を伴った回答を合成することができる。なお、図５は、次の各用語を説明するための図であり、図５（ａ）（ｂ）において横軸は時間であり、（ａ）において縦軸は音高であり、（ｂ）において縦軸は音量である。図において、符号Ａｖは、回答Ａ１の音高変化幅であり、符号ｄは、問いＴ１の終了から回答Ａ１が再生開始されるまでの時間であり、符号Ａｄは、回答Ａ１の再生時間である。また、符号Ｔｇは、問いＴ１における音量の時間的変化を示し、符号Ａｇは、回答Ａ１における音量の時間的変化を示す。

　例えば、図６に示される応用例（その１）では、回答Ａ１の再生速度を高めて回答Ａ１１のように再生し、問いＴ１の終了から回答Ａ１１が再生開始されるまでの時間ｄ１１を、時間ｄよりも短くし、かつ、回答Ａ１１の音量Ａｇ１１を音量Ａｇよりも大きくしている。これによって、怒りを表現した回答を、出力することができる。なお、回答Ａ１１の再生速度が高められているので、当該回答Ａ１１の再生時間Ａｄ１１は、回答Ａ１の再生時間Ａｄよりも短くなっている。

　また例えば、図７に示される応用例（その２）では、回答Ａ１の再生速度を遅くして回答Ａ１２のように再生し、問いＴ１の終了から回答Ａ１２が再生開始されるまでの時間ｄ１２を、時間ｄよりも長くし、かつ、回答Ａ１２の音量Ａｇ１２を音量Ａｇよりも小さくしている。これによって、いわゆる、気のない感情を表現した回答を、出力することができる。なお、回答Ａ１２の再生速度が遅くなっているので、当該回答Ａ１２の再生時間Ａｄ１２は、回答Ａ１の再生時間Ａｄより長くなっている。

　加えて、図８に示される応用例（その３）では、回答Ａ１に対して末尾に向かって音高が上昇するように回答Ａ１３のように再生することによって、すなわち、回答Ａ１３が音高変化幅Ａｖ１３だけ上昇するように再生している。これによって、発話（問い）に対して逆に問い掛けるような回答を出力することができる。

　このように感情を伴った回答を合成する際に、問いＴ１に対する回答の音高変化幅（高低方向含む）や、問いＴ１の終了から回答が再生開始されるまでの時間、回答の再生音量、回答の再生速度などについては、利用者等が上記操作入力部などを介して設定できる構成としてもよい。また、怒りの回答、気のない回答、問い掛けるような回答の種類を利用者が選択できる構成としてもよい。

　また、利用者により発せられた発話（問い掛け）の音声信号から、発話区間、有声区間等を次のように検出しても良い。図９は、応用例（その４）において、発話区間、非発話区間および有声区間の検出と、音量の閾値との関係を示す図である。この図では、利用者が発した発話（問い掛け）について、音高の時間的変化が（ａ）に、音量の時間的変化が（ｂ）に、それぞれ示される。詳細には、音高および音量が徐々に上昇し、途中から下降に転じる様子が示されている。

　ここで、閾値Ｔhvg_Hは、音声信号から音高（ピッチ）が検出可能な場合であって、問いの音量が上昇方向であるときに適用され、音量が当該閾値Ｔhvg_H以上になったときに発話区間および有声区間の開始と検出される。閾値Ｔhvg_Lは、音声信号から音高が検出可能な場合であって、問いの音量が下降方向であるときに適用され、音量が当該閾値Ｔhvg_L未満になったときに有声区間の終了と検出される。

　発話においては、音量が閾値Ｔhvg_L未満になっても、音量の揺れ戻しなどがある。そこで、この図の例では、問いの音声信号から音高が検出できる下限の閾値Ｔhuvgを用意し、問いの音量が下降方向である場合であって、当該音量が閾値Ｔhvg_L未満になった後、さらに閾値Ｔhuvg未満になったときに、発話区間が終了（非発話区間の開始）と検出している。なお、閾値Ｔhvg_H、Ｔhvg_L、Ｔhuvgについては、
　Ｔhvg_H＞Ｔhvg_L＞Ｔhuvg
という関係にある。

　閾値Ｔhvg_H、Ｔhvg_Lによって検出した有声区間における音高の最高値を、発話（問い掛け）における前記代表的区間の音高として検出してもよい。また、このようにして検出される有声区間は、比較的短い時間であれば、音声信号としてノイズを拾ってしまうことが想定される。このため、有声区間として検出されることの条件として、音声信号から音高が検出可能な場合であって、問いの音量が上昇方向であるときに、閾値Ｔhvg_H以上になってから所定時間以経過したことを要件としてもよい。

　非有声（無声）区間は、比較的短い時間であれば、発話（問い掛け）が終了していないことが想定されるので、無声区間として検出されることの条件として、音声信号から音高が検出可能な場合であって、問いの音量が下降方向であるときに、閾値Ｔhvg_L未満になってから所定時間経過したことを要件としてもよい。もちろん、音量が閾値Ｔhvg_H以上になってから所定時間以経過したことを要件として検出した有声区間の後に、音量が閾値Ｔhvg_L未満になってから所定時間経過したことを要件として無声区間を検出したときに、先の有声区間での音高の最高値を、問いにおける特定区間の音高として検出してもよい。

　なお、話者（利用者）による発話（問い掛け）において、代表的区間として設定した有声区間の末尾区間が無声音（端的にいえば、発声の際に声帯の振動を伴わない音）である場合、直前の有声音部分から、当該無声音部分の音高を推定するようにしてもよい。また、上記実施例では、有声区間の末尾区間を、話者（利用者）による発話（問い掛け）の代表的区間として設定したが、これに限らない。例えば語頭区間であってもよいし、発話（問い掛け）のうち、どの部分の区間を代表的区間として設定するかについて、利用者が任意に設定できる構成としてもよい。また、有声区間の検出のために音量および音高の２つを用いるのではなく、いずれか一方を用いて検出してもよいし、どれを用いて有声区間の検出をするのかを利用者が選択できるようにしてもよい。

　変形例として、回答ライブラリ１２４に記憶する回答の音声データについて、人物Ａ、Ｂ、Ｃ、・のように複数人にわたって、同一内容の回答音声を記憶させてもよい。人物Ａ、Ｂ、Ｃ、・については例えば有名人、タレント、歌手などとして、各人物毎に音声データをライブラリ化するとよい。このようにライブラリ化する場合、メモリーカードなどの媒体を介して回答の音声データを回答ライブラリ１２４に格納させてもよいし、音声合成装置１０にネットワーク接続機能を持たせて、特定のサーバから回答の音声データをダウンロードし、回答ライブラリ１２４に格納させてもよい。メモリーカードやサーバから回答の音声データを入手する場合、無償であってもよいし、有償であってもよい。一方で、話者（利用者）が発話（問い）を発するに際して、どの人物をモデルとして回答して欲しいのかを、利用者が操作入力部等によって選択可能な構成としてもよいし、あるいは、各種条件（日、週、月など）毎にランダムで回答音声モデルを決定する構成としてもよい。

　また、変形例として、回答の音声データとして、音声受信部１０２のマイクロフォンを介して、利用者自身や、当該利用者の家族、知人の音声を録音したもの（または別途の装置によってデータ化したもの）をライブラリ内に記録するようにしてもよい。このように身近な人物の音声で回答がなされると、発話（問い）を発したときに、あたかも当該人物と対話しているかのような感覚を得ることができる。

　また、変形例として、回答音声は、動物（イヌ、ネコなど）などの鳴き声からなっていてもよいし、動物の種類や犬種などを適宜選択可能な構成としてもよい。このように回答を動物の鳴き声とすることで、あたかも当該動物と対話しているかのような、一種の癒しの効果を得ることができる。

　変形例として、回答音高取得部１１２が、回答選択部１１０により決定された回答の音声データを解析して、当該音声データを標準で再生したときの平均音高を取得し、この音高を示すデータを音高シフト量決定部１１４に供給する構成としてもよい。この構成によれば、回答の音声データに基づく音高を示すデータを該回答の音声データに、予め対応付けて回答ライブラリ１２４に記憶させておく必要がなくなる。

　なお、上記実施形態では、話者（利用者）による発話（問い掛け）の音高に対して回答の音声データの音高帯域が高くなる場合を例にとって説明したが、逆に、話者（利用者）による発話（問い掛け）の音高に対して回答の音声データの音高帯域を低くするように構成してもよい。また、上記実施例では、音声入力部（受信部）１０２によって受信される発話の音声の話者が利用者であるとしているが、これに限らず、第三者あるいは自動音声発生装置が話者であってもよい。例えば、話者が発する音声は、通信ネットワークを介して第三者から発生されたものであってもよいし、あるいは別の音声合成装置から発生されたものであってもよい。

Claims

　発話の音声信号を受信する受信部と、
　前記受信した音声信号に基づき、前記発話の代表的区間の音高を検出する音高検出部と、
　前記発話に対する回答の音声データを取得する回答取得部と、
　取得された前記回答の音声データに基づく音高を取得する回答音高取得部と、
　前記取得された音高を、前記代表的区間の音高に対して特定の関係を持つ目標音高までシフトするための、音高シフト量を決定する音高シフト量決定部と、
　前記回答の音声データに基づき該回答の音声を合成する回答合成部であって、該回答合成部は、合成する前記回答の音声の音高を前記音高シフト量に応じてシフトするように構成されているものと、
を具備する音声合成装置。
　前記音高シフト量決定部は、前記目標音高が前記取得された音高から所定範囲内に収まるように該目標音高を定める、請求項１に記載の音声合成装置。
　前記音高シフト量決定部は、前記目標音高が前記取得された音高から所定範囲内に収まるように該目標音高をオクターブ単位で調整する、請求項２に記載の音声合成装置。
　前記音高検出部は、前記受信した音声信号の音量が所定値以上である区間における最高音高を、前記代表的区間の音高として検出する、請求項１乃至３のいずれかに記載の音声合成装置。
　前記音高検出部は、前記受信した音声信号の末尾区間における音高を前記代表的区間の音高として検出する、請求項１乃至４のいずれかに記載の音声合成装置。
　前記音高シフト量決定部は、前記代表的区間の音高に対して協和音程をなす音高を前記目標音高として定める、請求項１乃至５のいずれかに記載の音声合成装置。
　前記音高シフト量決定部は、前記代表的区間の音高に対して５度下音程をなす音高を前記目標音高として定める、請求項６に記載の音声合成装置。
　前記回答合成部は、合成する前記回答の音声の再生速度を可変制御するように、更に構成されている、請求項１乃至７のいずれかに記載の音声合成装置。
　前記回答合成部は、合成する前記回答の音声の音量を可変制御するように、更に構成されている、請求項１乃至８のいずれかに記載の音声合成装置。
　前記回答合成部は、合成する前記回答の音声の音高を時間的に制御するように、更に構成されている、請求項１乃至９のいずれかに記載の音声合成装置。
　発話の音声信号を受信することと、
　前記受信した音声信号に基づき、前記発話の代表的区間の音高を検出することと、
　前記発話に対する回答の音声データを取得することと、
　取得された前記回答の音声データに基づく音高を取得することと、
　前記取得された音高を、前記代表的区間の音高に対して特定の関係を持つ目標音高までシフトするための、音高シフト量を決定することと、
　前記回答の音声データに基づき該回答の音声を合成し、かつ、合成する前記回答の音声の音高を前記音高シフト量に応じてシフトすること、
からなる音声合成方法。
　非一過性のコンピュータ読み取り可能な記憶媒体であって、音声合成方法を実行するためにプロセッサ実行可能な命令群を内容としており、前記方法は、
　発話の音声信号を受信することと、
　前記受信した音声信号の代表的区間の音高を検出することと、
　前記発話に対する回答の音声データを取得することと、
　取得された前記回答の音声データに基づく音高を取得することと、
　前記取得された音高を、前記代表的区間の音高に対して特定の関係を持つ目標音高までシフトするための、音高シフト量を決定することと、
　前記回答の音声データに基づき該回答の音声を合成し、かつ、合成する前記回答の音声の音高を前記音高シフト量に応じてシフトすること、
からなる前記記憶媒体。