WO2018164278A1

WO2018164278A1 - 音声対話方法および音声対話装置

Info

Publication number: WO2018164278A1
Application number: PCT/JP2018/009354
Authority: WO
Inventors: 嘉山　啓; 松原　弘明; 純也浦
Original assignee: ヤマハ株式会社
Priority date: 2017-03-09
Filing date: 2018-03-09
Publication date: 2018-09-13
Also published as: JP2018146906A; US20190392814A1; JP6911398B2; CN110431622A

Abstract

音声対話装置（１００）は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部（４３）と、音高調整部（４３）が調整した先行音声の再生を指示する第１再生指示部（４５）と、第１再生指示部（４５）による先行音声の再生後における対話音声の再生を指示する第２再生指示部（４７）とを具備する。

Description

音声対話方法および音声対話装置

　本発明は、音声対話に関する。

　利用者による発話に対する応答（例えば質問に対する回答）の音声を再生することで利用者との対話を実現する音声対話の技術が従来から提案されている。例えば特許文献１には、利用者の発話音声に対する音声認識で発話内容を解析し、解析結果に応じた応答音声を合成および再生する技術が開示されている。

日本国特開２０１２－１２８４４０号公報

　しかし、特許文献１を含む既存の技術のもとでは、現実の人間同士の対話の傾向を忠実に反映した自然な音声対話を実現することは実際には困難であり、機械的で不自然な印象を利用者が感取し得るという問題がある。以上の事情を考慮して、本発明は、自然な音声対話の実現を目的とする。

　以上の課題を解決するために、本発明の好適な態様に係る音声対話方法は、対話のための対話音声の韻律に応じて、当該対話音声に先行して再生される先行音声の韻律を調整する韻律調整ステップと、前記韻律調整ステップにおいて調整した前記先行音声の再生を指示する第１再生指示ステップと、前記第１再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第２再生指示ステップとを含む。

　本発明の好適な態様に係る音声対話装置は、対話のための対話音声の韻律に応じて、当該対話音声に先行して再生される先行音声の韻律を調整する韻律調整部と、前記韻律調整部が調整した前記先行音声の再生を指示する第１再生指示部と、前記第１再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第２再生指示部とを具備する。

第１実施形態における音声対話装置の構成図である。第１実施形態における間投詞音声および応答音声の説明図である。第１実施形態における制御装置が実行する処理のフローチャートである。第２実施形態における発話音声，２個の間投詞音声および応答音声の説明図である。第２実施形態における制御装置が実行する処理のフローチャートである。

＜第１実施形態＞
　図１は、本発明の第１実施形態に係る音声対話装置１００の構成図である。第１実施形態の音声対話装置１００は、利用者Ｕが発音した音声（以下「発話音声」という）Ｖｘに対する応答の音声（以下「応答音声」という）Ｖｚを再生する音声対話システムである。例えば携帯電話機やスマートフォン等の可搬型の情報処理装置、または、パーソナルコンピュータ等の情報処理装置が音声対話装置１００として利用され得る。また、動物等の外観を模擬した玩具（例えば動物のぬいぐるみ等の人形）やロボットの形態で音声対話装置１００を実現することも可能である。

　発話音声（ｓｐｅｅｃｈ　ｓｏｕｎｄ）Ｖｘは、例えば問掛け（質問）および話掛けを含む発話の音声であり、応答音声（対話音声の例示）Ｖｚは、問掛けに対する回答または話掛けに対する受応えを含む応答の音声である。第１実施形態の応答音声（対話音声）Ｖｚは、１個以上の語句で構成される特定の意味を持った音声である。例えば、発話音声Ｖｘ「学校の場所をおしえて？」に対する応答音声Ｖｚは、「三丁目の角」が想定され得る。ここで、現実の人間同士の対話において、発話者の発話音声と対話相手が発音する応答音声との間には、対話相手により何らかの音声（典型的には間投詞の音声）が発声されるという傾向がある。したがって、発話音声Ｖｘの直後に応答音声Ｖｚが再生されると利用者Ｕに機械的で不自然な印象を与える。そこで、第１実施形態の音声対話装置１００は、図２に例示される通り、発話音声Ｖｘの発生（例えば発話音声Ｖｘの発音終了時）から応答音声Ｖｚの再生（例えば応答音声Ｖｚの再生開始時）までの期間（以下「待機期間」という）Ｑ内に、間投詞の音声（以下「間投詞音声」という）Ｖｙを再生する。つまり、間投詞音声（先行音声の例示）Ｖｙは、応答音声（対話音声）Ｖｚに先行して再生される音声である。

　間投詞音声（先行音声）Ｖｙは、間投詞を意味する音声である。間投詞は、他の文節から独立して利用されて活用のない自立語（感動詞または感嘆詞）である。具体的には、発話に対する相づちを表す「うん（ｕｎ）」および「ええ（ｅｅ）」等の語句（英語では“ａｈａ”または“ｒｉｇｈｔ”）、言淀み（応答の停滞）を表す「え～と（ｅｔｏ）」および「あの～（ａｎｏ）」等の語句（英語では“ｕｍ”または“ｅｒ”）、応答（質問に対する肯定または否定）を表す「はい（ｈａｉ）」および「いいえ（ｉｉｅ）」等の語句（英語では“ｙｅｓ”または“ｎｏ”）、話者の感動を表す「ああ（ａａ）」および「おお（ｏｏ）」等の語句（英語では“ａｈ”または“ｗｏｏ”）、ならびに、発話に対する問返し（聞き直し）を意味する「え？（ｅ）」「なに？（ｎａｎｉ）」等の語句（英語では“ｐａｒｄｏｎ？”または“ｓｏｒｒｙ？”）が、間投詞として例示され得る。

　応答音声（対話音声）Ｖｚは、発話音声Ｖｘに対する必要的な応答と位置付けられるのに対し、間投詞音声（先行音声）Ｖｙは応答音声Ｖｚに先立って補足的（補助的）ないし追加的に発音される任意的な応答（対話において省略され得る応答）と位置付けられる。間投詞音声Ｖｙは、応答音声Ｖｚには含まれない別個の音声であるとも換言され得る。図２に例示される通り、第１実施形態では、「学校の場所をおしえて？」という問掛けの発話音声Ｖｘに対して、「え～と」という言淀みを表す間投詞音声Ｖｙが再生され、間投詞音声Ｖｙに後続して「三丁目の角」という回答の応答音声Ｖｚが再生される場合を例示する。

　第１実施形態の音声対話装置１００は、図１に例示される通り、収音装置２０と記憶装置２２と制御装置２４と放音装置２６とを具備する。収音装置２０（例えばマイクロホン）は、利用者Ｕの発話音声Ｖｘを表す信号（以下「発話信号」という）Ｘを生成する。なお、収音装置２０が生成した発話信号Ｘをアナログからデジタルに変換するＡ／Ｄ変換器の図示は便宜的に省略した。放音装置２６（例えばスピーカまたはヘッドホン）は、制御装置２４から供給される信号に応じた音を再生する。第１実施形態の放音装置２６は、間投詞音声Ｖｙと応答音声Ｖｚとを制御装置２４の指示により再生する。

　記憶装置２２は、制御装置２４が実行するプログラムや制御装置２４が使用する各種のデータを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは、複数の記録媒体の組合せが記憶装置２２として任意に採用され得る。具体的には、記憶装置２２は、言淀みの間投詞音声Ｖｙを表す音声信号Ｙ１を記憶する。以下の説明では、言淀み「え～と」を表す任意の韻律の間投詞音声Ｖｙを表す音声信号Ｙ１が記憶装置２２に記憶された場合を例示する。本実施例では、韻律として音高を用いる。音声信号Ｙ１は、事前に収録され、例えばｗａｖ形式等の任意の形式の音声ファイルとして記憶装置２２に記憶される。

　制御装置２４は、音声対話装置１００の各要素を統括的に制御する演算処理装置（例えばＣＰＵ）である。制御装置２４は、記憶装置２２に記憶されたプログラムを実行することで、利用者Ｕとの対話を成立させるための複数の機能（応答生成部４１，音高調整部４３（韻律調整部），第１再生指示部４５および第２再生指示部４７）を実現する。なお、制御装置２４の機能を複数の装置（すなわちシステム）で実現した構成、または、制御装置２４の機能の一部を専用の電子回路が分担する構成も採用され得る。

　図１の応答生成部４１は、発話音声Ｖｘに対する応答音声Ｖｚを生成する。第１実施形態の応答生成部４１は、発話信号Ｘに対する音声認識と、当該音声認識の結果を利用した音声合成とにより、応答音声Ｖｚを表す応答信号Ｚを生成する。具体的には、応答生成部４１は、第１に、収音装置２０が生成した発話信号Ｘに対する音声認識で発話音声Ｖｘの内容（以下「発話内容」という）を特定する。第１実施形態では、発話音声Ｖｘ「学校の場所をおしえて？」の発話内容が特定される。発話信号Ｘの音声認識には、例えばＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）等の音響モデルと言語的な制約を示す言語モデルとを利用した認識技術等の公知の技術が任意に採用され得る。

　応答生成部４１は、第２に、特定した発話内容（音韻）の意味を解析し、発話内容に対応する応答の文字列（以下「応答文字列」という）を生成する。応答文字列の生成には、公知の自然言語処理技術が任意に採用され得る。第１実施形態では、発話音声Ｖｘ「学校の場所をおしえて？」に対応する応答文字列「三丁目の角」が生成され得る。応答生成部４１は、第３に、生成した応答文字列を発音した音声（すなわち応答音声Ｖｚ）を表す応答信号Ｚを生成する。応答信号Ｚの生成には、公知の音声合成技術が任意に採用され得る。例えば、特定の発声者の収録音声から事前に採取された複数の音声素片の集合から応答文字列に対応する音声素片を順次選択し、当該音声素片を時間軸上で相互に連結することで応答信号Ｚが生成される。応答信号Ｚが表す応答音声Ｖｚの音高は、例えば応答文字列の内容または音声合成処理の内容に応じて変化し得る。生成された応答信号Ｚは、第２再生指示部４７により放音装置２６に供給される。なお、応答信号Ｚを生成する方法は、音声合成技術には限定されない。例えば、発話内容が相違する複数の応答信号Ｚを記憶装置２２に記憶させ、当該複数の応答信号Ｚのうち特定した発話内容に応じた応答信号Ｚを選択して放音装置２６に供給する構成も好適に採用され得る。複数の応答信号Ｚの各々は、事前に収録され、例えばｗａｖ形式等の任意の形式の音声ファイルとして記憶装置２２に記憶される。

　ここで、現実の人間が複数の音声を順次に発声する場合、各々の音声の音高は相互に影響を受ける。例えば、先行する音声の音高は後続する音声の音高に依存する。特に、間投詞音声と応答音声とを発話者が順次に発声する場合に、間投詞音声の音高が直後の応答音声の音高に依存するという傾向がある。そこで、第１実施形態では、応答音声Ｖｚの音高に応じた音高の間投詞音声Ｖｙを再生させる。

　図１の音高調整部４３は、応答音声Ｖｚの音高Ｐｚに応じて間投詞音声Ｖｙの音高を調整する。第１実施形態の音高調整部４３は、記憶装置２２に記憶された音声信号Ｙ１の音高を、応答音声Ｖｚの音高Ｐｚに応じて調整することで、間投詞音声Ｖｙの音声信号Ｙ２を生成する。

　図１の第１再生指示部４５は、待機期間Ｑ内に、音高調整部４３により音高が調整された間投詞音声Ｖｙの再生を指示する。具体的には、第１再生指示部４５は、間投詞音声Ｖｙ「え～と」の音声信号Ｙ２を放音装置２６に供給する。図２に例示される通り、発話音声Ｖｘの終点ｔｘから応答音声Ｖｚの再生が開始される時点ｔＺまでの待機期間Ｑ内の途中の時点ｔＹにおいて、間投詞音声Ｖｙの再生が指示される。

　第２再生指示部４７は、第１再生指示部４５による間投詞音声Ｖｙの再生後における応答音声Ｖｚの再生を指示する。具体的には、第２再生指示部４７は、間投詞音声Ｖｙの再生後（典型的には間投詞音声Ｖｙの再生直後）に、応答生成部４１が生成した応答信号Ｚを放音装置２６に供給する。

　放音装置２６は、第１再生指示部４５から供給された音声信号Ｙ２が表わす間投詞音声Ｖｙ「え～と」と、第２再生指示部４７から供給された応答信号Ｚが表わす応答音声Ｖｚ「三丁目の角」とを順次に再生する。なお、音声信号Ｙ２と応答信号Ｚとをデジタルからアナログに変換するＤ／Ａ変換器の図示は便宜的に省略した。以上の説明から理解される通り、利用者Ｕが発話音声Ｖｘ「学校の場所をおしえて？」を発声すると、言淀みを表す間投詞音声Ｖｙ「え～と」が再生され、間投詞音声Ｖｙの再生に後続して応答音声Ｖｚ「三丁目の角」が再生される。

　図３は、第１実施形態の制御装置２４が実行する処理のフローチャートである。例えば利用者Ｕの発話音声Ｖｘの終了を契機として図３の処理が開始される。

　図３の処理を開始すると、応答生成部４１は、発話音声Ｖｘ「学校の場所をおしえて？」を表す発話信号Ｘを収音装置２０から取得し、当該発話信号Ｘに対する音声認識で発話内容を特定する（ＳＡ１）。応答生成部４１は、特定した発話内容の意味を解析し、発話内容に対応する応答文字列「三丁目の角」を生成する（ＳＡ２）。応答生成部４１は、生成した応答文字列「三丁目の角」を発音した応答音声Ｖｚを表す応答信号Ｚを生成する（ＳＡ３）。

　音高調整部４３は、応答音声Ｖｚの音高Ｐｚを特定する（ＳＡ４）。音高Ｐｚは、図２に例示される通り、例えば、応答音声Ｖｚのうち終点ｔｚを含む末尾区間Ｅｚ内の音高の最低値（以下「最低音高」という）Ｐｚｍｉｎである。末尾区間Ｅｚは、例えば応答音声Ｖｚのうち終点ｔｚ以前の所定長（例えば数秒）にわたる一部の区間である。例えば、図２から理解される通り、平叙文「三丁目の角」の応答音声Ｖｚでは終点ｔｚにかけて音高が単調に低下する傾向がある。したがって、応答音声Ｖｚの終点ｔｚでの音高（最低音高Ｐｚｍｉｎ）が音高Ｐｚとして特定される。なお、末尾区間Ｅｚは、応答音声Ｖｚのうち終点ｔｚを含む所定の割合の区間に限定されない。例えば、応答音声Ｖｚのうち終点ｔｚを含む所定の割合の区間を末尾区間Ｅｚとして画定することも可能である。また、応答音声Ｖｚのうち終点ｔｚの近傍の時点（終点ｔｚよりも過去の時点）を終点として末尾区間Ｅｚを画定する（すなわち応答音声Ｖｚのうち終点ｔｚの近傍の区間を除外して末尾区間Ｅｚを特定する）ことも可能である。以上の例示から理解される通り、末尾区間Ｅｚは、応答音声Ｖｚのうち終点ｔｚ付近の区間として包括的に表現される。

　音高調整部４３は、応答音声Ｖｚ「三丁目の角」について特定した音高Ｐｚ（最低音高Ｐｚｍｉｎ）に応じて間投詞音声Ｖｙ「え～と」の音高を調整する（ＳＡ５）。現実の対話の場合、発話者の発話音声に対して対話相手が発声する間投詞音声の終点付近の音高は、間投詞音声の直後に対話相手により発声される応答音声の終点付近の最低音高と一致する傾向がある。そこで、第１実施形態の音高調整部４３は、応答音声Ｖｚ「三丁目の角」について特定した音高Ｐｚに間投詞音声Ｖｙ「え～と」の音高が一致するように調整する。具体的には、音高調整部４３は、間投詞音声Ｖｙを表す音声信号Ｙ１のうち時間軸上の特定の時点（以下「目標点」という）τｙでの音高が応答音声Ｖｚの音高Ｐｚに一致するように当該間投詞音声Ｖｙの音高を調整することで、間投詞音声Ｖｙを表す音声信号Ｙ２を生成する。目標点τｙの好適例は、間投詞音声Ｖｙの終点ｔｙである。具体的には、音高調整部４３は、図２に例示される通り、間投詞音声Ｖｙ「え～と」を表す音声信号Ｙ１の終点ｔｙの音高が応答音声Ｖｚの音高Ｐｚに一致するように音声信号Ｙ１の全区間にわたる音高を調整（ピッチシフト）することで、音声信号Ｙ２を生成する。なお、音高の調整には公知の技術が任意に採用され得る。また、目標点τｙは、間投詞音声Ｖｙの終点ｔｙに限定されない。例えば、間投詞音声Ｖｙの始点（時点ｔＹ）を目標点τｙとして音高を調整することも可能である。

　第１再生指示部４５は、待機期間Ｑ内に、音高調整部４３が生成した音声信号Ｙ２を放音装置２６に供給することで、音高を調整した間投詞音声Ｖｙ「え～と」の再生を指示する（ＳＡ６）。第２再生指示部４７は、間投詞音声Ｖｙ「え～と」の再生後に、応答生成部４１が生成した応答信号Ｚを放音装置２６に供給することで、応答音声Ｖｚ「三丁目の角」の再生を指示する（ＳＡ７）。以上に説明した処理により、利用者Ｕによる発話音声Ｖｘ「学校の場所をおしえて？」に対して、間投詞音声Ｖｙ「え～と」と応答音声Ｖｚ「三丁目の角」とが順次に再生される音声対話が実現される。

　以上に説明した通り、第１実施形態では、発話音声Ｖｘに対する応答音声Ｖｚの再生の前に間投詞音声Ｖｙが再生される。したがって、発話者の発話音声と対話相手が発声する応答音声との間に対話相手による何らかの音声（典型的には間投詞音声）が発声されるという現実の対話の傾向を模擬した自然な音声対話を実現することができる。また、第１実施形態では、応答音声Ｖｚの音高に応じて間投詞音声Ｖｙの音高が調整されるので、間投詞音声の音高が当該間投詞音声の直後に発声される応答音声の音高の影響を受けるという現実の発話者の傾向を模擬した自然な音声対話を実現することが可能である。

＜第２実施形態＞
　本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

　第１実施形態の音声対話装置１００は、発話音声Ｖｘから応答音声Ｖｚの再生までの待機期間Ｑ内に間投詞音声（先行音声の例示）Ｖｙを再生する。それに対して、第２実施形態の音声対話装置１００は、図４に例示される通り、待機期間Ｑ内に、第１実施形態と同様の間投詞音声（先行音声の例示）Ｖｙの再生に加えて、間投詞音声Ｖｙの再生の前に他の間投詞音声（初期音声の例示）Ｖｗを再生する。つまり、間投詞音声（初期音声）Ｖｗは、間投詞音声（先行音声）Ｖｙに先行して再生される音声である。以上の説明から理解される通り、待機期間Ｑ内に間投詞音声Ｖｗと間投詞音声Ｖｙとが順次に再生される。間投詞音声Ｖｗは、間投詞音声Ｖｙと同様に間投詞を意味する音声である。第２実施形態の間投詞音声Ｖｗの発話内容（音韻）は、間投詞音声Ｖｙの発話内容とは相違する。

　現実の対話の場面では、発話者の発話内容によっては、応答音声の発声までに複数の間投詞音声が対話相手により発声される場合がある。例えば、現実の対話では、発話音声「学校の場所をおしえて？」が発声される場合、発話音声に対する相づちを表す「うん」の間投詞音声と言淀み「え～と」を表す間投詞音声とを順次に発声してから、応答音声「三丁目の角」が発声される。以上の傾向を考慮して、第２実施形態の音声対話装置１００は、前述の通り、待機期間Ｑ内に複数の間投詞音声Ｖｗ，Ｖｙを再生する。第２実施形態では、相づちを表す間投詞音声Ｖｗ「うん」と、言淀みを表す間投詞音声Ｖｙ「え～と」とを待機期間Ｑ内に順次に再生させる場合を例示する。

　また、現実の対話において、発話者の発話音声から対話相手の応答音声Ｖｚまでに、複数の間投詞音声が対話相手により発声される場合、発話音声の直後に発声される音声の音高は発話音声の音高に依存し、応答音声の直前に発声される音声の音高は応答音声の音高に依存するという傾向がある。以上の傾向を前提として、第２実施形態では、発話音声Ｖｘの音高に応じた音高の間投詞音声Ｖｗと、応答音声Ｖｚの音高に応じた音高の間投詞音声Ｖｙとを再生する。

　第２実施形態の音声対話装置１００は、第１実施形態と同様に、収音装置２０と記憶装置２２と制御装置２４と放音装置２６とを具備する。第２実施形態の収音装置２０は、第１実施形態と同様に、利用者Ｕの発話音声Ｖｘを表す発話信号Ｘを生成する。第２実施形態の記憶装置２２は、第１実施形態と同様の間投詞音声Ｖｙ「え～と」を表す音声信号Ｙ１に加えて、所定の音高の間投詞音声Ｖｗ「うん」を表す音声信号Ｗ１を記憶する。

　第２実施形態の制御装置２４は、第１実施形態と同様に、利用者Ｕとの対話を成立させるための複数の機能（応答生成部４１，音高調整部４３，第１再生指示部４５および第２再生指示部４７）を実現する。第２実施形態の応答生成部４１は、第１実施形態と同様に、発話音声Ｖｘ「学校の場所をおしえて？」に対する応答音声Ｖｚ「三丁目の角」を生成する。具体的には、応答生成部４１は、発話音声Ｖｘ「学校の場所をおしえて？」の発話信号Ｘに対する音声認識により発話内容を特定し、発話内容に対する応答文字列を表す応答信号Ｚを生成する。

　第２実施形態の音高調整部４３（韻律調整部）は、利用者Ｕの発話音声Ｖｘの音高Ｐｘに応じて間投詞音声Ｖｗの音高を調整するとともに、応答音声Ｖｚの音高Ｐｚに応じて間投詞音声Ｖｙの音高を調整する。間投詞音声Ｖｗの音高の調整については、音高調整部４３は、記憶装置２２に記憶された音声信号Ｗ１の音高を、発話音声Ｖｘの音高Ｐｘに応じて調整することで、間投詞音声Ｖｗの音声信号Ｗ２を生成する。なお、間投詞音声Ｖｙの音高の調整については、音高調整部４３は、第１実施形態と同様に、音声信号Ｙ１が表す初期的な間投詞音声Ｖｙ「え～と」を応答音声Ｖｚの音高Ｐｚに応じて調整することで、間投詞音声Ｖｙ「え～と」を表す音声信号Ｙ２を生成する。

　第２実施形態の第１再生指示部４５は、待機期間Ｑ内に、音高調整部４３により音高が調整された間投詞音声Ｖｗ「うん」および間投詞音声Ｖｙ「え～と」の再生を指示する、つまり間投詞音声Ｖｗを表す音声信号Ｗ２と間投詞音声Ｖｙを表す音声信号Ｙ２とを放音装置２６に供給する。具体的には、第１再生指示部４５は、図４の待機期間Ｑにおける間投詞音声Ｖｗの再生と、待機期間Ｑのうちの間投詞音声Ｖｗの再生後における間投詞音声Ｖｙの再生とを指示する。

　第２実施形態の第２再生指示部４７は、第１実施形態と同様に、間投詞音声Ｖｙの再生後に応答生成部４１が生成した応答信号Ｚを放音装置２６に供給することで、間投詞音声Ｖｙの再生後における応答音声Ｖｚの再生を指示する。

　放音装置２６は、第１再生指示部４５から供給された音声信号Ｗ２が表す間投詞音声Ｖｗ「うん」と音声信号Ｙ２が表わす間投詞音声Ｖｙ「え～と」とを順次に再生した後に、第２再生指示部４７から供給された応答信号Ｚが表わす応答音声Ｖｚ「三丁目の角」を再生する。発話音声Ｖｘの終点ｔｘから応答音声Ｖｚの再生が開始される時点ｔＺまでの待機期間Ｑ内の途中の時点ｔＷにおいて、間投詞音声Ｖｗの再生が指示され、終点ｔｗから時点ｔＺまでの期間の途中の時点ｔＹにおいて間投詞音声Ｖｙの再生が指示される。以上の説明から理解される通り、利用者Ｕが発話音声Ｖｘ「学校の場所をおしえて？」を発声すると、相づちを表す間投詞音声Ｖｗ「うん」と言淀みを表す間投詞音声Ｖｙ「え～と」との再生に後続して応答音声Ｖｚ「三丁目の角」が再生される。

　図５は、第２実施形態の制御装置２４が実行する処理のフローチャートである。第２実施形態では、第１実施形態で例示したスッテップＳＡ１～ＳＡ７に、間投詞音声Ｖｗを再生させるための処理（ＳＢ１～ＳＢ３）を追加する。処理の開始から応答信号Ｚを生成する処理（ＳＡ３）までは第１実施形態と同様である。

　音高調整部４３は、収音装置２０が生成した発話信号Ｘから発話音声Ｖｘ「学校の場所をおしえて？」の音高Ｐｘを特定する（ＳＢ１）。音高Ｐｘは、図４に例示される通り、例えば、発話音声Ｖｘのうち終点ｔｘを含む末尾区間Ｅｘ内の音高の最低値（以下「最低音高」という）Ｐｘｍｉｎである。末尾区間Ｅｘは、例えば発話音声Ｖｘのうち終点ｔｘ以前の所定長（例えば数秒）にわたる一部の区間である。例えば、図４から理解される通り、疑問文の発話音声Ｖｘ「学校の場所をおしえて？」では終点ｔｘの近傍にて音高が上昇する傾向がある。したがって、発話音声Ｖｘの音高の推移が低下から上昇に転換する極小点での音高（最低音高Ｐｘｍｉｎ）が音高Ｐとして特定される。なお、末尾区間Ｅｘは、発話音声Ｖｘのうち終点ｔｘを含む所定の割合の区間に限定されない。例えば、発話音声Ｖｘのうち終点ｔｘを含む所定の割合の区間を末尾区間Ｅｘとして画定することも可能である。また、発話音声Ｖｘのうち終点ｔｘの近傍の時点（終点ｔｘよりも過去の時点）を終点として末尾区間Ｅｘを画定する（すなわち発話音声Ｖｘのうち終点ｔｘの近傍の区間を除外して末尾区間Ｅｘを特定する）ことも可能である。以上の例示から理解される通り、末尾区間Ｅｘは、発話音声Ｖｘのうち終点ｔｘ付近の区間として包括的に表現される。

　音高調整部４３は、発話音声Ｖｘ「学校の場所をおしえて？」について特定した音高Ｐｘ（最低音高Ｐｘｍｉｎ）応じて間投詞音声Ｖｗ「うん」の音高を調整する（ＳＢ２）。具体的には、第２実施形態の音高調整部４３は、発話音声Ｖｘについて特定した最低音高Ｐｘｍｉｎに間投詞音声Ｖｗの音声信号Ｗ１のうち時間軸上の特定の時点（以下「目標点」という）τｗでの音高が一致するように当該間投詞音声Ｖｗの音高を調整することで、間投詞音声Ｖｗ「うん」を表す音声信号Ｗ２を生成する。目標点τｗの好適例は、間投詞音声Ｖｗを構成する複数のモーラのうち特定のモーラ（典型的には最後のモーラ）の始点である。例えば、「うん」という間投詞音声Ｖｗの音声信号Ｗ１を想定すると、図４から理解される通り、音声信号Ｗ１のうち最後のモーラである「ん」の始点の音高が最低音高Ｐｘｍｉｎに一致するように音声信号Ｗ１の全区間にわたる音高を調整（ピッチシフト）することで、間投詞音声Ｖｗの音声信号Ｗ２が生成される。なお、音高の調整には公知の技術が任意に採用され得る。また、目標点τｗは、間投詞音声Ｖｗのうち最後のモーラの始点に限定されない。例えば、間投詞音声Ｖｗの始点（時点ｔＷ）や終点ｔｗを目標点τｗとして音高を調整することも可能である。

　第１再生指示部４５は、待機期間Ｑ内に、音高調整部４３が生成した音声信号Ｗ２を放音装置２６に供給することで、音高を調整した間投詞音声Ｖｗ「うん」の再生を指示する（ＳＢ３）。間投詞音声Ｖｗの再生が指示された後に、間投詞音声Ｖｙの音高の調整および再生の指示（ＳＡ４～ＳＡ６）と、応答音声Ｖｚの再生の指示（ＳＡ７）とが、第１実施形態と同様に順次実行される。

　第２実施形態においても第１実施形態と同様の効果が実現される。第２実施形態では、待機期間Ｑ内に複数の間投詞音声Ｖｗ，Ｖｙが再生されるので、現実の対話をより適切に模擬した音声対話の実現が可能である。また、第２実施形態では、発話音声Ｖｘの直後に再生される間投詞音声Ｖｗは発話音声Ｖｘの音高Ｐｘに応じた音高で再生され、応答音声Ｖｚの直前に再生される間投詞音声Ｖｙは応答音声Ｖｚの音高Ｐｚに応じた音高で再生されるので、より現実の対話に近い自然な音声対話を模擬できる。

＜変形例＞
　以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、間投詞音声Ｖｙの再生後に発話音声Ｖｘに対する応答音声Ｖｚを再生したが、利用者Ｕが発話音声Ｖｘを発声していない状態で、音声対話装置１００が間投詞音声Ｖｙおよび応答音声Ｖｚを再生することも想定され得る。つまり、発話音声Ｖｘは省略され得る。音声対話装置１００は、例えば、間投詞音声Ｖｙ「え～と」の再生後に、利用者Ｕに質問をする音声「今日の天気は？」を再生する。また、利用者Ｕが入力機器により入力した文字列に対する応答を表す応答音声Ｖｚを再生する構成も採用され得る。以上の説明から理解される通り、間投詞音声Ｖｙの再生後に再生される音声は、発話音声Ｖｘに対する応答の音声には限定されず、対話のための（つまり対話を構成する）対話音声として包括的に表現される。前述の各形態における応答音声Ｖｚは、対話音声の例示である。

（２）前述の各形態では、応答音声Ｖｚの再生前に間投詞音声Ｖｙを再生したが、応答音声Ｖｚの再生前に再生する音声の内容は以上の例示（つまり間投詞）に限定されない。例えば応答音声Ｖｚの再生前に特定の意味を持つ音声（例えば複数の語句で構成される文章）が再生されることも想定され得る。以上の説明から理解される通り、応答音声Ｖｚの再生前に再生される音声は、応答音声Ｖｚに先行して再生される先行音声として包括的に表現され、間投詞音声Ｖｙは先行音声の例示である。なお、第２実施形態の間投詞音声Ｖｗについても、間投詞音声Ｖｙの再生前に間投詞音声Ｖｗを再生したが、間投詞音声Ｖｙの再生前に再生する音声の内容は以上の例示（つまり間投詞）に限定されない。間投詞音声Ｖｙの再生前に再生される音声は、間投詞を表す音声には限定されず、間投詞音声Ｖｙに先行して再生される初期音声として包括的に表現される。前述の各形態における間投詞音声Ｖｗは、初期音声の例示である。

（３）第２実施形態では、２個の間投詞音声Ｖｗ，Ｖｙを待機期間Ｑ内に再生させたが、３個以上の音声を待機期間Ｑ内に再生させる構成も採用され得る。待機期間Ｑ内の音声の総数に関わらず、発話音声Ｖｘの直後に再生される音声が発話音声Ｖｘの音高Ｐｘに応じて調整され、応答音声Ｖｚの直前の音声が応答音声Ｖｚの音高Ｐｚに応じて調整する構成が好適である。以上の構成によれば、前述の各形態と同様に、より現実の対話に近い自然な音声対話を模擬できるという効果は担保される。なお、待機期間Ｑ内に再生される複数の音声の内容（音韻）の異同は不問である。

（４）前述の各形態では、間投詞音声Ｖｙのうち目標点τｙの音高を応答音声Ｖｚの末尾区間Ｅｚ内の最低音高Ｐｚｍｉｎに一致させる構成を例示したが、間投詞音声Ｖｙの目標点τｙでの音高と応答音声Ｖｚの音高Ｐｚとの関係は以上の例示（両者が一致する関係）に限定されない。例えば、間投詞音声Ｖｙの目標点τｙでの音高を、応答音声Ｖｚの音高Ｐｚに所定の調整値（オフセット）を加算または減算した音高に一致させることも可能である。調整値は、事前に選定された固定値（例えば最低音高Ｐｚｍｉｎに対して５度等の音程に相当する数値）または利用者Ｕからの指示に応じた可変値である。なお、第２実施形態においても、間投詞音声Ｖｗの目標点τｗでの音高と発話音声Ｖｘの最低音高Ｐｘｍｉｎとの関係は両者が一致する関係に限定されない。第２実施形態において調整値をオクターブの整数倍に相当する数値に設定した構成を採用する場合、最低音高Ｐｘｍｉｎをオクターブシフトした音高の間投詞音声Ｖｗが再生される。なお、調整値を適用するか否かを利用者Ｕからの指示に応じて切替えることも可能である。

（５）前述の各形態では、応答音声Ｖｚの末尾区間Ｅｚの最低音高Ｐｚｍｉｎに応じて間投詞音声Ｖｙの音高を調整したが、応答音声Ｖｚにおける任意の時点の音高Ｐｚが間投詞音声Ｖｙの音高の調整に利用され得る。ただし、現実の対話に近い自然な音声対話の実現という観点からは、応答音声Ｖｚの末尾区間（つまり終点ｔｚ付近）Ｅｚの音高Ｐｚ（特に最低音高Ｐｚｍｉｎ）に応じて調整する構成が好適に採用され得る。なお、第２実施形態においても、発話音声Ｖｘにおける任意の時点の音高Ｐｘが間投詞音声Ｖｗの音高の調整に利用され得る。

（６）前述の各形態において、発話音声Ｖｘに応じて、間投詞音声Ｖｙの再生を指示するか否かを第１再生指示部４５が決定する構成も好適に採用され得る。例えば発話内容に応じて間投詞音声Ｖｙの再生を指示するか否かを決定することも可能である。第１再生指示部４５は、例えば、発話内容が疑問文である場合は間投詞音声Ｖｙの再生を指示するのに対して、発話内容が平叙文である場合は間投詞音声Ｖｙの再生を指示しない。また、発話音声Ｖｘの時間長に応じて間投詞音声Ｖｙの再生を指示するか否かを決定することも可能である。第１再生指示部４５は、例えば、発話音声Ｖｘの時間長が所定値を上回る場合は間投詞音声Ｖｙの再生を指示するのに対して、発話音声Ｖｘの時間長が所定値を下回る場合は間投詞音声Ｖｙの再生を指示しない。

　また、応答音声Ｖｚに応じて間投詞音声Ｖｙの再生を指示するか否かを第１再生指示部４５が決定する構成も好適に採用され得る。例えば応答音声Ｖｚの内容に応じて間投詞音声Ｖｙの再生を指示するか否かを決定することも可能である。第１再生指示部４５は、例えば、応答音声Ｖｚの内容が複数の語句で構成される文章である場合は間投詞音声Ｖｙの再生を指示するのに対して、応答音声Ｖｚの内容が１つの語句（例えば指示代名詞「そこ」）で構成される場合は間投詞音声Ｖｙの再生を指示しない。また、応答音声Ｖｚの時間長に応じて間投詞音声Ｖｙの再生を指示するか否かを決定することも可能である。第１再生指示部４５は、例えば、応答音声Ｖｚの時間長が所定値を上回る場合は間投詞音声Ｖｙの再生を指示するのに対して、応答音声Ｖｚの時間長が所定値を下回る場合は間投詞音声Ｖｙの再生を指示しない。以上の説明から理解される通り、発話音声Ｖｘまたは応答音声Ｖｚに応じて、間投詞音声Ｖｙの再生を指示するか否かを決定する構成も好適に採用され得る。以上の構成によれば、発話音声Ｖｘおよび応答音声Ｖｚに依存せずに常に先行音声が再生される構成と比較して、より現実の対話に近い自然な音声対話を模擬できる。なお、第２実施形態においては、発話音声Ｖｘまたは応答音声Ｖｚに応じて、間投詞音声Ｖｗの再生を指示するか否かを決定することも可能である。

（７）前述の各形態では、待機期間Ｑ内の途中の時点ｔＹにおいて間投詞音声Ｖｙの再生を指示したが、間投詞音声Ｖｙの再生を指示する時点ｔＹを発話音声Ｖｘまたは応答音声Ｖｚの時間長に応じて可変に設定することも可能である。例えば、発話音声Ｖｘまたは応答音声Ｖｚの時間長が長い場合（例えば複数の語句から構成される文章を表す応答音声Ｖｚの場合）は、応答音声Ｖｚの再生が開始される時点ｔＺに近い時点ｔＹを設定するのに対して、発話音声Ｖｘまたは応答音声Ｖｚの時間長が短い場合（例えば１つの語句を表す応答音声Ｖｚの場合）は、発話音声Ｖｘの終点ｔｘに近い時点ｔＹを設定する。

　ここで、利用者Ｕの発話音声Ｖｘの発声と音声対話装置１００の応答音声Ｖｚの再生とは、現実の人間同士の対話と同様に、往復して複数回実行され得る。そこで、待機期間Ｑ内の途中の時点ｔＹを応答音声Ｖｚの終点ｔｚから、次の発話音声Ｖｘが利用者により開始される時点ｔＸまでの時間長に応じて可変に設定することも可能である。以上の構成によれば、利用者Ｕの発話のペースで音声対話装置１００との対話が実現できるという利点がある。なお、間投詞音声Ｖｙの再生を指示する時点ｔＹを対話毎に無作為に設定する構成も採用され得る。

（８）前述の各形態では、記憶装置２２に記憶された音声信号Ｙ１の音高を、応答音声Ｖｚの音高Ｐｚに応じて調整することで、間投詞音声Ｖｙの音声信号Ｙ２を生成する構成を例示したが、間投詞音声Ｖｙを表す音声信号Ｙ２を生成する方法は以上の例示に限定されない。例えば、間投詞「え～と」の文字列を発話した音声（すなわち間投詞音声Ｖｙ）を表す音声信号Ｙ２を公知の音声合成技術により生成する構成も好適に採用され得る。具体的には、音高調整部４３は、応答音声Ｖｚの音高Ｐｚに応じて調整した音高の間投詞音声Ｖｙを表す音声信号Ｙ２を生成する。つまり、記憶装置２２への音声信号Ｙ１の記憶は省略され得る。以上の説明から理解される通り、応答音声Ｖｚの音高Ｐｚに応じて間投詞音声Ｖｙの音高を調整する方法（つまり間投詞音声Ｖｙの音声信号Ｙ２を生成する方法）は任意である。なお、第２実施形態の間投詞音声Ｖｗの音声信号Ｗ２の生成についても、間投詞「うん」の文字列を発話した音声（すなわち間投詞音声Ｖｗ）を表す音声信号Ｗ２を発話音声Ｖｘの音高Ｐｘに応じた音高で、公知の音声合成技術により生成することも可能である。すなわち、発話音声Ｖｘの音高Ｐｘに応じて間投詞音声Ｖｗの音高を調整する方法（つまり間投詞音声Ｖｗの音声信号Ｗ２を生成する方法）は任意である。

（９）前述の各形態では、応答音声Ｖｚの音高Ｐｚに応じて間投詞音声Ｖｙの音高を調整したが、調整対象となる間投詞音声Ｖｙの韻律の種類は音高に限定されない。韻律（プロソディ）は、音声の受聴者が知覚し得る言語学的および音声学的な特性であり、言語の一般的な表記（例えば韻律を表す特別な表記を除いた表記）のみからでは把握できない性質を意味する。韻律は、発話者の意図または感情を受聴者に想起ないし推測させ得る特性とも換言され得る。具体的には、音量，抑揚（音声の調子の変化もしくはイントネーション），音調（音声の高低もしくは強弱），音長（発話長），話速，リズム（音調の時間的な変化の構造），またはアクセント（高低もしくは強弱のアクセント）等の種々の特徴が、韻律の概念には包含され得るが、韻律の典型例は音高である。応答音声Ｖｚの韻律に応じて間投詞音声Ｖｙの韻律を調整する構成であれば、自然な音声対話を実現することが可能である。なお、発話音声Ｖｘの音高Ｐｘに応じて間投詞音声Ｖｗの音高を調整する第２実施形態についても、調整対象となる間投詞音声Ｖｗの韻律の種類は音高に限定されない。

（１０）前述の各形態で例示した音声対話装置１００は、前述の通り、制御装置２４と音声対話用のプログラムとの協働で実現され得る。音声対話用のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）の記録媒体であり、ＣＤ－ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。

（１１）本発明は、前述の各形態に係る音声対話装置１００の動作方法（音声対話方法）としても特定され得る。音声対話方法の動作主体となるコンピュータ（音声対話装置１００）は、例えば単体のコンピュータまたは複数のコンピュータで構成されるシステムである。具体的には、本発明の好適な態様の音声対話方法は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、音高調整ステップが調整した先行音声の再生を指示する第１再生指示ステップと、第１再生指示ステップによる先行音声の再生後における対話音声の再生を指示する第２再生指示ステップとを含む。

（１２）以上に例示した形態から、例えば以下の構成が把握される。
＜態様１＞
　本発明の好適な態様（態様１）に係る音声対話方法は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、前記音高調整ステップにおいて調整した前記先行音声の再生を指示する第１再生指示ステップと、前記第１再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第２再生指示ステップとを含む。現実の人間が複数の音声を順次に発声する場合、各々の音声の音高が相互に影響を受ける（つまり先行する音声の音高は後続する音声の音高に依存する）という傾向がある。以上の方法では、対話音声の再生に先立って、対話音声の音高に応じて音高を調整した先行音声が再生されるので、前述の傾向を模擬した自然な音声対話を実現することが可能である。

＜態様２＞
　態様１の好適例（態様２）に係る音声対話方法において、前記対話音声は、発話音声に対する応答音声であり、前記先行音声は、間投詞の音声であり、前記第１再生指示ステップでは、前記発話音声から前記応答音声の再生までの待機期間内に前記先行音声の再生を指示する。現実の人間同士の対話において、発話者の発話音声と対話相手が発音する応答音声との間には、対話相手による何らかの音声（典型的には間投詞）が発声されるという傾向がある。発話音声に対する応答音声の再生の前に間投詞の音声が再生される以上の方法によれば、現実の対話の傾向を模擬した自然な音声対話を実現することができる。また、間投詞音声と応答音声とを発話者が順次に発声する場合に、間投詞音声の音高が直後の応答音声の音高に依存するという傾向は顕著である。したがって、発話音声に対する応答音声の再生の前に間投詞の音声が再生される以上の方法によれば、自然な音声対話を実現できるという前述の効果は特に有効である。

＜態様３＞
　態様１または態様２の好適例（態様３）に係る音声対話方法において、前記音高調整ステップでは、前記対話音声のうち終点付近の音高に応じて前記先行音声の音高を調整する。以上の方法では、対話音声のうち終点付近の音高に応じた音高の先行音声が再生されるから、現実の対話に近い自然な音声対話を実現できるという効果は格別に顕著である。

＜態様４＞
　態様３の好適例（態様４）に係る音声対話方法において、前記音高調整ステップでは、前記対話音声のうち終点付近の最低音高に前記先行音声の終点の音高が一致するように調整する。以上の方法では、対話音声の終点付近の最低音高に先行音声の終点の音高が一致するように先行音声が再生されるので、現実の対話に近い自然な音声対話を実現できるという効果は格別に顕著である。

＜態様５＞
　態様２の好適例（態様５）に係る音声対話方法において、前記第１再生指示ステップでは、前記発話音声または前記対話音声に応じて、前記先行音声の再生を指示するか否かを決定することを含む。以上の方法では、発話音声または対話音声に応じて、先行音声を再生させるか否かが決定するから、発話音声および対話音声によらず常に先行音声が再生される方法と比較して、より現実の対話に近い自然な音声対話を模擬できる。

＜態様６＞
　態様５の好適例（態様６）に係る音声対話方法において、前記第１再生指示ステップでは、前記発話音声または前記対話音声の時間長に応じて、前記先行音声の再生を指示するか否かを決定する。以上の方法では、発話音声または対話音声の時間長に応じて、先行音声の再生の有無が決定する。

＜態様７＞
　態様２の好適例（態様７）に係る音声対話方法において、前記第１再生指示ステップでは、前記待機期間のうち前記発話音声または前記対話音声の時間長に応じた時点において前記先行音声の再生を指示する。以上の方法では、待機期間のうち発話音声または対話音声の時間長に応じた時点において先行音声が再生されるので、先行音声が再生さされる時点が発話音声または対話音声の時間長に関わらず変化しない構成と比較して、利用者に機械的に印象を与えることを低減することができる。

＜態様８＞
　態様２の好適例（態様８）に係る音声対話方法において、前記音高調整ステップでは、前記発話音声の音高に応じて、前記先行音声に先行して再生される初期音声の音高を調整し、前記第１再生指示ステップでは、前記待機期間における前記調整後の前記初期音声の再生と、前記待機期間のうち当該初期音声の再生後における前記先行音声の再生とを指示する。以上の方法では、発話音声から先行音声の再生までの期間に、発話音声の音高に応じた音高の初期音声が再生されるので、より現実の対話に近い自然な音声対話を模擬できる。

＜態様９＞
　本発明の好適な態様（態様９）に係る音声対話装置は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部と、前記音高調整部が調整した前記先行音声の再生を指示する第１再生指示部と、前記第１再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第２再生指示部とを具備する。現実の人間が複数の音声を順次に発声する場合、各々の音声の音高が相互に影響を受ける（つまり先行する音声の音高は後続する音声の音高に依存する）という傾向がある。以上の構成では、対話音声の再生に先立って、対話音声の音高に応じて音高を調整した先行音声が再生されるので、前述の傾向を模擬した自然な音声対話を実現することが可能である。

　本出願は、２０１７年３月９日に出願された日本特許出願（特願２０１７－０４４５５７）に基づくものであり、ここに参照として取り込まれる。

　本発明によれば、自然な音声対話が実現されるため、有用である。

１００……音声対話装置
２０……収音装置
２２……記憶装置
２４……制御装置
２６……放音装置
４１……応答生成部
４３……音高調整部
４５……第１再生指示部
４７……第２再生指示部

Claims

　対話のための対話音声の韻律に応じて、当該対話音声に先行して再生される先行音声の韻律を調整する韻律調整ステップと、
　前記韻律調整ステップにおいて調整した前記先行音声の再生を指示する第１再生指示ステップと、
　前記第１再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第２再生指示ステップと
　を含む音声対話方法。
　前記対話音声は、発話音声に対する応答音声であり、
　前記先行音声は、間投詞の音声であり、
　前記第１再生指示ステップでは、前記発話音声から前記応答音声の再生までの待機期間内に前記先行音声の再生を指示する
　請求項１の音声対話方法。
　前記韻律は、音高を含み、
　前記韻律調整ステップでは、前記対話音声の音高に応じて前記先行音声の音高を調整する
　請求項１の音声対話方法。
　前記韻律調整ステップでは、前記対話音声のうち末尾区間の音高に応じて前記先行音声の音高を調整する
　請求項３の音声対話方法。
　前記韻律調整ステップでは、前記対話音声のうち前記末尾区間の最低音高に前記先行音声の終点の音高が一致するように調整する
　請求項４の音声対話方法。
　前記第１再生指示ステップでは、前記発話音声または前記対話音声に応じて、前記先行音声の再生を指示するか否かを決定することを含む
　請求項２の音声対話方法。
　前記第１再生指示ステップでは、前記発話音声または前記対話音声の時間長に応じて、前記先行音声の再生を指示するか否かを決定する
　請求項６の音声対話方法。
　前記第１再生指示ステップでは、前記待機期間のうち前記発話音声または前記対話音声の時間長に応じた時点において前記先行音声の再生を指示する
　請求項２の音声対話方法。
　前記韻律調整ステップでは、前記発話音声の韻律に応じて、前記先行音声に先行して再生される初期音声の韻律を調整し、
　前記第１再生指示ステップでは、前記待機期間における前記調整後の前記初期音声の再生と、前記待機期間のうち当該初期音声の再生後における前記先行音声の再生とを指示する
　請求項２の音声対話方法。
　対話のための対話音声の韻律に応じて、当該対話音声に先行して再生される先行音声の韻律を調整する韻律調整部と、
　前記韻律調整部が調整した前記先行音声の再生を指示する第１再生指示部と、
　前記第１再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第２再生指示部と
　を具備する音声対話装置。