WO2017200075A1 - 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム - Google Patents
対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム Download PDFInfo
- Publication number
- WO2017200075A1 WO2017200075A1 PCT/JP2017/018790 JP2017018790W WO2017200075A1 WO 2017200075 A1 WO2017200075 A1 WO 2017200075A1 JP 2017018790 W JP2017018790 W JP 2017018790W WO 2017200075 A1 WO2017200075 A1 WO 2017200075A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- utterance
- word
- dialogue
- dialog
- meaning
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Abstract
対話システムが行う対話方法は、対話システムが、発話を生成する発話生成ステップと、対話システムが、発話生成ステップが生成した発話の少なくとも一部を曖昧化する、または/および、発話生成ステップが生成した発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話を変換後発話として得る発話決定ステップと、対話システムが、発話決定ステップが得た変換後発話を提示する発話提示ステップと、を含む。
Description
この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語を用いて対話を行う技術に関する。
近年、人とコミュニケーションを行うロボットの研究開発が進展しており、様々な現場で実用化されてきている。例えば、コミュニケーションセラピーの現場において、ロボットが孤独感を抱える人の話し相手となる利用形態がある。具体的には、老人介護施設においてロボットが入居者の傾聴役となることで、入居者の孤独感を癒す役割を担うことができると共に、ロボットとの会話している姿を見せ、入居者とその家族や介護士など周りの人々との会話のきっかけを作ることができる。また、例えば、コミュニケーション訓練の現場において、ロボットが練習相手となる利用形態がある。具体的には、外国語学習施設においてロボットが外国語学習者の練習相手となることで、外国語学習を効率的に進めることができる。また、例えば、情報提示システムとしての応用において、ロボット同士の対話を聞かせることを基本としながら、時折人に話しかけることで、退屈させずに人を対話に参加させ、人が受け入れやすい形で情報を提示することができる。具体的には、街中の待ち合わせ場所やバス停、駅のホームなどで人が時間を持て余している際や、自宅や教室などで対話に参加する余裕がある際に、ニュースや商品紹介、蘊蓄及び知識紹介、教育(例えば、子供の保育及び教育、大人への一般教養教授、モラル啓発など)など、効率的な情報提示が期待できる。さらに、例えば、情報収集システムとしての応用において、ロボットが人に話しかけながら情報を収集する利用形態がある。ロボットとのコミュニケーションにより対話感を保持できるため、人に聴取されているという圧迫感を与えずに情報収集することができる。具体的には、個人情報調査や市場調査、商品評価、推薦商品のための趣向調査などに応用することが想定されている。このように人とロボットのコミュニケーションは様々な応用が期待されており、ユーザとより自然に対話を行うロボットの実現が期待される。また、スマートフォンの普及により、LINE(登録商標)のように、複数ユーザでほぼリアルタイムにチャットを行うことにより、ユーザ間での会話を楽しむチャットサービスも実施されている。このチャットサービスにユーザとロボットとの会話の技術を適用すれば、チャット相手となるユーザがいなくても、ユーザとより自然に会話を行うチャットサービスの実現が可能となる。本明細書では、これらのサービスで用いられるロボットやチャット相手などのユーザの対話相手となるハードウェアやユーザの対話相手となるハードウェアとしてコンピュータを機能させるためのコンピュータソフトウェアなどを総称してエージェントと呼ぶこととする。エージェントは、ユーザの対話相手となるものであるため、ロボットやチャット相手などのように擬人化されていたり、人格化されていたり、性格や個性を有していたりするものであってもよい。
これらのサービスの実現のキーとなるのは、ハードウェアやコンピュータソフトウェアにより実現されるエージェントが人間と自然に対話を行うことができる技術である。
対話システムの従来技術として非特許文献1,2が知られている。非特許文献1では、所定のシナリオに沿って発話を生成する。また、非特許文献1では、人の発話に依らず、「そっか」や「ふーん」等の相槌や曖昧な回答を示す発話を生成する。非特許文献2では、一つ以上前の人または対話システムの発話からのみに基づいて次の発話を生成する。
有本庸浩,吉川雄一郎,石黒浩,「複数体のロボットによる音声認識なし対話の印象評価」,日本ロボット学会学術講演会,2016
杉山弘晃、目黒豊美、東中竜一郎、南泰浩、「任意の話題を持つユーザ発話に対する係り受けと用例を利用した応答文の生成」,人工知能学会論文誌,2015, 30(1), 183-194.
人と対話システムとの対話を継続することで(i)メンタルヘルスケアができる、(ii)エンターテイメントになる、(iii)コミュニケーションの練習になる、(iv)対話システムへの親近感が増す、等の効果を得ることができる。
しかしながら、非特許文献1のように所定のシナリオに沿って発話を生成するのでは、想定外の質問に答えられず、会話が続かない。また、非特許文献1では、質問したロボットが人間の返答に対して、「そっか」などの曖昧なレスポンスにとどめる。そのように人の発話を促した後は、別のロボットが少し話題をずらした発話をする。このようにすることで、人に、自分の発話が無視された感じを与えないようにしている。しかし、「そっか」などの曖昧なレスポンスが続くと、人は自分の発言を流されてばかりいると感じてしまい、会話が続かない。非特許文献2のように応答文を生成するのでは、1問1答になってしまい、会話が続かない。
本発明は、対話システムの発話の一部をいったん曖昧なものにして、その曖昧な部分を確認させる対話をするための発話を差し込ませることで、対話のターン数を増やすことができる対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、対話システムが行う対話方法は、対話システムが、発話を生成する発話生成ステップと、対話システムが、発話生成ステップが生成した発話の少なくとも一部を曖昧化する、または/および、発話生成ステップが生成した発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話を変換後発話として得る発話決定ステップと、対話システムが、発話決定ステップが得た変換後発話を提示する発話提示ステップと、を含む。
上記の課題を解決するために、本発明の他の態様によれば、対話システムが行う対話方法は、対話システムが、所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話を提示する第1発話提示ステップと、対話システムが、第1の発話を提示した後に、第1の発話を一意に解釈できていないことが読み取れる発話である第2の発話を提示する第2発話提示ステップと、を含む。
上記の課題を解決するために、本発明の他の態様によれば、対話システムが行う対話方法は、対話システムが、所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話を提示する第1発話提示ステップと、対話システムが、第1の発話を提示した後に、第1の発話を1つの意味に特定するための質問を含む発話である第2の発話を提示する第2発話提示ステップと、を含む。
上記の課題を解決するために、本発明の他の態様によれば、対話システムが行う対話方法は、対話システムが、少なくとも一部が曖昧化された発話、または/および、意味を有さない語を含む発話、を提示する第1の発話提示ステップと、対話システムが、第1の発話提示ステップによる提示の後に、曖昧化された部分に対応する具体内容を含む発話、または/および、意味を有さない語の部分に対応する意味を有する語を含む発話、を提示する第2の発話提示ステップと、を含む。
上記の課題を解決するために、本発明の他の態様によれば、対話シナリオ生成方法において、対話システムが行う対話に用いる対話シナリオを対話シナリオ生成装置が生成する。対話シナリオ生成方法において、対話シナリオ生成装置が、所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話と、第1の発話を提示した後に提示する発話であり、第1の発話を一意に解釈できていないことが読み取れる発話である第2の発話と、を含む対話シナリオを生成する。
上記の課題を解決するために、本発明の他の態様によれば、対話シナリオ生成方法において、対話システムが行う対話に用いる対話シナリオを対話シナリオ生成装置が生成する。対話シナリオ生成方法において、対話シナリオ生成装置が、所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話と、第1の発話を提示した後に提示する発話であり、第1の発話を1つの意味に特定するための質問を含む発話である第2の発話と、を含む対話シナリオを生成する。
上記の課題を解決するために、本発明の他の態様によれば、対話シナリオ生成方法において、対話システムが行う対話に用いる対話シナリオを対話シナリオ生成装置が生成する。対話シナリオ生成方法において、対話シナリオ生成装置が、少なくとも一部が曖昧化された発話、または/および、意味を有さない語を含む発話である第1の発話と、第1の発話を提示した後に提示する発話であり、曖昧化された部分に対応する具体内容を含む発話、または/および、意味を有さない語の部分に対応する意味を有する語を含む発話、である第2の発話と、を含む対話シナリオを生成する。
上記の課題を解決するために、本発明の他の態様によれば、対話システムは、発話を生成する発話生成部と、発話生成部が生成した発話の少なくとも一部を曖昧化する、または/および、発話生成ステップが生成した発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話を変換後発話として得る発話決定部と、発話決定部が得た変換後発話を提示する発話提示部と、を含む。
上記の課題を解決するために、本発明の他の態様によれば、対話システムは、所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話を提示する第1発話提示部と、第1の発話を提示した後に、第1の発話を一意に解釈できていないことが読み取れる発話である第2の発話を提示する第2発話提示部と、を含む。
上記の課題を解決するために、本発明の他の態様によれば、対話システムは、所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話を提示する第1発話提示部と、第1の発話を提示した後に、第1の発話を1つの意味に特定するための質問を含む発話である第2の発話を提示する第2発話提示部と、を含む。
上記の課題を解決するために、本発明の他の態様によれば、対話システムは、少なくとも一部が曖昧化された発話、または/および、意味を有さない語を含む発話、を提示した後に、曖昧化された部分に対応する具体内容を含む発話、または/および、意味を有さない語の部分に対応する意味を有する語を含む発話、を提示する提示部を含む。
上記の課題を解決するために、本発明の他の態様によれば、対話シナリオ生成装置は、対話システムが行う対話に用いる対話シナリオを生成する。対話シナリオ生成装置は、所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話と、第1の発話を提示した後に提示する発話である、第1の発話を一意に解釈できていないことが読み取れる発話である第2の発話と、を含む対話シナリオを生成する。
上記の課題を解決するために、本発明の他の態様によれば、対話シナリオ生成装置は、対話システムが行う対話に用いる対話シナリオを生成する。対話シナリオ生成装置は、所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話と、第1の発話を提示した後に提示する発話であり、第1の発話を1つの意味に特定するための質問を含む発話である第2の発話と、を含む対話シナリオを生成する。
上記の課題を解決するために、本発明の他の態様によれば、対話シナリオ生成装置は、対話システムが行う対話に用いる対話シナリオを生成する。対話シナリオ生成装置は、少なくとも一部が曖昧化された発話、または/および、意味を有さない語を含む発話である第1の発話と、第1の発話を提示した後に提示する発話であり、曖昧化された部分に対応する具体内容を含む発話、または/および、意味を有さない語の部分に対応する意味を有する語を含む発話、である第2の発話と、を含む対話シナリオを生成する。
本発明によれば、対話のターン数を増やすことができるという効果を奏する。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<本発明の実施形態のポイント>
本発明の実施形態では、ユーザと対話する対話システムであって、複数のロボットであるロボットR1とロボットR2とを備える対話システムに、対話システムが生成した発話文(元の発話文)をそのまま発話させるのではなく、元の発話文の少なくとも一部を曖昧化する、または/および、元の発話文に含まれる語を当該語の意味を有さない語に置き換えることにより生成した文(以下、これらの方法により生成した文を「曖昧化した文」ともいう)に変換し、変換した文をあるロボットに発話させる。そしてその後に、一意に解釈できていないことを表出する文を他のロボットに発話させる、または/および、曖昧化した文を発話したロボットに元の発話文を発話させる(言い直しさせる)。ロボットが一意に解釈できていないことを表出する発話をすると、ユーザはその発話から、ロボットが一意に解釈できていないことを読み取ることができる。すなわち、一意に解釈できていないことを表出する文とは、一意に解釈できていないことが読み取れる文である。このようにすれば、対話システムが生成する発話文を増やさずに、ユーザに納得感を与えるロボットの発話を増やすことができ、結果としてユーザと対話システムとの対話のターンを増やすことができる。曖昧化した文とは、例えば、元の発話文の一部を(i)指示語で置換した文、(ii)言い間違った語で置換した文、あるいは(iii)省略した文等である。なお、(i)指示語で置換した文の場合、すなわち、元の発話文を提示することなく元の発話文の一部を指示語で置換した文を提示した場合には、指示語が何を意味するのかにより、2つ以上の意味に解釈される。(ii)言い間違った語で置換した文の場合、すなわち、元の発話文を提示することなく元の発話文の一部を言い間違った語で置換した文を提示した場合には、少なくとも(a)前後の文脈を考慮して、言い間違いのない本来の意味に解釈可能な文と、(b)言い間違った語で置換した文との2つの意味に解釈される。なお、言い間違った語が元の言葉とあまりにも違うと、対話感に影響が出るので、以下に例示するように、元の言葉と一音違う意味のある言葉等、音が似ていている語を言い間違った語として用いることが望ましい。(iii)省略した文の場合、すなわち、元の発話文を提示することなく元の発話文の一部を省略した文を提示した場合には、省略した部分に何が補われるのかにより、2つ以上の意味に解釈される。以下、元の発話文と変換した発話文の例を示す。
元の発話文:「『車』、燃費が大事だよね」
(i)指示語で置換した文:「『あれ』、燃費が大事だよね」
(ii)言い間違った語で置換した文:「『くるみ』、燃費が大事だよね」
(iii)省略した文:「『省略』燃費が大事だよね」
本発明の実施形態では、ユーザと対話する対話システムであって、複数のロボットであるロボットR1とロボットR2とを備える対話システムに、対話システムが生成した発話文(元の発話文)をそのまま発話させるのではなく、元の発話文の少なくとも一部を曖昧化する、または/および、元の発話文に含まれる語を当該語の意味を有さない語に置き換えることにより生成した文(以下、これらの方法により生成した文を「曖昧化した文」ともいう)に変換し、変換した文をあるロボットに発話させる。そしてその後に、一意に解釈できていないことを表出する文を他のロボットに発話させる、または/および、曖昧化した文を発話したロボットに元の発話文を発話させる(言い直しさせる)。ロボットが一意に解釈できていないことを表出する発話をすると、ユーザはその発話から、ロボットが一意に解釈できていないことを読み取ることができる。すなわち、一意に解釈できていないことを表出する文とは、一意に解釈できていないことが読み取れる文である。このようにすれば、対話システムが生成する発話文を増やさずに、ユーザに納得感を与えるロボットの発話を増やすことができ、結果としてユーザと対話システムとの対話のターンを増やすことができる。曖昧化した文とは、例えば、元の発話文の一部を(i)指示語で置換した文、(ii)言い間違った語で置換した文、あるいは(iii)省略した文等である。なお、(i)指示語で置換した文の場合、すなわち、元の発話文を提示することなく元の発話文の一部を指示語で置換した文を提示した場合には、指示語が何を意味するのかにより、2つ以上の意味に解釈される。(ii)言い間違った語で置換した文の場合、すなわち、元の発話文を提示することなく元の発話文の一部を言い間違った語で置換した文を提示した場合には、少なくとも(a)前後の文脈を考慮して、言い間違いのない本来の意味に解釈可能な文と、(b)言い間違った語で置換した文との2つの意味に解釈される。なお、言い間違った語が元の言葉とあまりにも違うと、対話感に影響が出るので、以下に例示するように、元の言葉と一音違う意味のある言葉等、音が似ていている語を言い間違った語として用いることが望ましい。(iii)省略した文の場合、すなわち、元の発話文を提示することなく元の発話文の一部を省略した文を提示した場合には、省略した部分に何が補われるのかにより、2つ以上の意味に解釈される。以下、元の発話文と変換した発話文の例を示す。
元の発話文:「『車』、燃費が大事だよね」
(i)指示語で置換した文:「『あれ』、燃費が大事だよね」
(ii)言い間違った語で置換した文:「『くるみ』、燃費が大事だよね」
(iii)省略した文:「『省略』燃費が大事だよね」
対話のターンを増やすために、本実施形態の対話システムにおいては、あるロボットR1に発話させるために生成された発話文を、曖昧化した文に変換し、曖昧化した文をロボットR1が発話する。そして、ロボットR1による曖昧化した文の発話の後に、曖昧化した文の内容を確認する発話文を別のロボットR2が発話する。ただし、対話システムにロボットR1一体しか含まれない場合は、ロボットR1による曖昧化した文の発話の後に、ロボットR1自身が曖昧化した文の内容を確認する発話文を発話してもよい。
なお、ユーザと対話システムとの対話中の任意のタイミングで曖昧化した文の発話を挿入してよいが、対話が長くなりすぎないように留意する必要がある。元の発話をそのまま発しても、ユーザがロボットの発話を理解あるいはそれに共感を持ちにくいと判断される場合に曖昧化した文の発話を挿入すると特に効果的である。例えば、(A)対話システムが話題を転換する(例えば、シナリオ対話を開始する)タイミング、(B)対話システムの発話に対するユーザの返答が対話システムの予測する返答からはずれているとき、(C)対話システムが話題の変化を検出したとき、などにロボットに曖昧化した文の発話させるとよい。対話システムが話題の変化を検出する方法としては、例えば、対話中の文や単語を利用して、(a)word2vecを利用した話題語間の距離、(b)文全体の単語をword2vecにかけて平均を取った場合の文間距離、(c)単語のcos類似度などを求め、距離が所定の値以上の場合またはcos類似度が所定の値以下の場合(要は、二つの発話が関連していない、または、二つの発話の関連が薄いことを所定の指標が示している場合)、話題が変化したと判定する方法がある。上述の(A)~(C)等のタイミングは、ユーザが対話システムの発話内容を理解しづらくなるタイミングであるため、ロボットR1に曖昧化した文を発話させて、ロボットR1とロボットR2との間の対話を挿入することで、人と対話システムとの間の対話のターン数を増やすとともに、人に対話システムの発話内容の理解を促すことができる。
前述のように、元の発話文を(i)指示語で置換した文、(ii)言い間違った語で置換した文、(iii)省略した文、に変換するときの、指示語の対象となる語、言い間違いの対象となる語、省略の対象となる語に特に限定はないが、例えば、主要な語を対象とする。例えば、tf-idf(文書中の単語に関する重み)に基づき、元の発話文に含まれる語のうちの重みの大きい語を対象となる語として選択してもよい。また、元の発話文に含まれる語のうちで、他の語との関係で、上位概念となる語を対象となる語として選択してもよい。例えば、元の発話文に『セダン』と『車』とが含まれる場合、語『セダン』との関係で、上位概念となる語『車』を対象となる語として選択することができる。
以下、対話の例を示す。以下の対話の例は、発話t(1)、発話t(2)、・・・の順に発話されているものとする。なお、X→YはXからYに対して発話していることを意味し、『 』内に指示語、言い間違い、省略の何れかを示す。
(例1:指示語)
発話t(1):ロボットR1→ロボットR2:僕、『あれ』、セダンが好きなんだよね
発話t(2):ロボットR2→ロボットR1:それって車の話?
発話t(3):ロボットR1→ロボットR2:そう、車。僕、車、セダンがすきなんだよね
発話t(1):ロボットR1→ロボットR2:僕、『あれ』、セダンが好きなんだよね
発話t(2):ロボットR2→ロボットR1:それって車の話?
発話t(3):ロボットR1→ロボットR2:そう、車。僕、車、セダンがすきなんだよね
(例2:省略)
発話t(1):ロボットR1→ロボットR2:僕、『省略』セダンが好きなんだよね
発話t(2):ロボットR2→ロボットR1:それって何の話?
発話t(3):ロボットR1→ロボットR2:うん、車。僕、車、セダンがすきなんだよね
発話t(1):ロボットR1→ロボットR2:僕、『省略』セダンが好きなんだよね
発話t(2):ロボットR2→ロボットR1:それって何の話?
発話t(3):ロボットR1→ロボットR2:うん、車。僕、車、セダンがすきなんだよね
(例3:言い間違い)
発話t(1):ロボットR1→ロボットR2:僕、『くるみ』、セダンが好きなんだよね
発話t(2):ロボットR2→ロボットR1:え、何の話?
発話t(3):ロボットR1→ロボットR2:ごめん、車。僕、車、セダンがすきなんだよね
発話t(1):ロボットR1→ロボットR2:僕、『くるみ』、セダンが好きなんだよね
発話t(2):ロボットR2→ロボットR1:え、何の話?
発話t(3):ロボットR1→ロボットR2:ごめん、車。僕、車、セダンがすきなんだよね
なお、例1~3では、曖昧化した発話t(1)の直後に対話システムが行う発話(この例ではロボットR2の発話t(2))は、曖昧化した発話である第1の発話t(1)の曖昧化されている部分を1つの意味に特定する語を含む発話である。しかし、曖昧化した発話t(1)の直後に対話システムが行う発話は、このような発話に限らず、一意に解釈できていないことの表出する発話、すなわち、一意に解釈できていないことが読み取れる発話、であればよく、例えば、次のような発話でもよい。
(例4:言い間違い)
発話t(1):ロボットR1→ロボットR2:僕、『くるみ』、セダンが好きなんだよね
発話t(2):ロボットR2→ロボットR1:ごめん、意味が分からない。
発話t(3):ロボットR1→ロボットR2:ごめん、車。僕、車、セダンがすきなんだよね
発話t(1):ロボットR1→ロボットR2:僕、『くるみ』、セダンが好きなんだよね
発話t(2):ロボットR2→ロボットR1:ごめん、意味が分からない。
発話t(3):ロボットR1→ロボットR2:ごめん、車。僕、車、セダンがすきなんだよね
この例では、ロボットR2の発話「ごめん、意味が分からない。」は、曖昧化した発話である第1の発話t(1)の曖昧化されている部分を1つの意味に特定する語を含む発話とは言えないが、ロボットR2の発話t(2)の対象となった発話をしたロボットであるロボットR1が曖昧化した発話を特定する語を発話せざるを得ないようにする発話である。例1~4の曖昧化した発話t(1)の直後に対話システムが行う発話t(2)は、まとめると、一意に解釈できていないことの表出する発話と言え、別の言い方をすると、一意に解釈できていないことが読み取れる発話と言え、さらに別の言い方をすると、1つの意味に特定する語を含む発話をさせるための発話と言える。
なお、上述の対話の例には、発話を誰に対して行っているかを記載してあるが、発話を誰に対して行うかを限定する必要はない。例えば、例1はロボットR1とロボットR2との間の対話であるが、ロボットR1とロボットR2と人との間の対話であってもよい。なお、発話を誰に対して行っているかを限定する場合には、例えば、ロボットの頭部や視線の動きにより発話の対象となる相手が誰であるかを表出するようにすればよい。
<第一実施形態>
図1は第一実施形態に係る対話システム100の機能ブロック図を、図2は第一実施形態に係る対話システム100の処理フローを示す。
図1は第一実施形態に係る対話システム100の機能ブロック図を、図2は第一実施形態に係る対話システム100の処理フローを示す。
対話システム100は、ロボットR1、R2と、対話装置190と、を含む。対話装置190は、音声合成部110と、発話生成部150と、発話決定部120とを含む。ロボットR1は提示部101-1を含み、ロボットR2は提示部101-2を含む。提示部101-1、101-2は、ロボットR1、R2の周囲に音響信号を発するものであり、例えばスピーカである。
対話システム100は、ユーザである人が2体のロボットであるR1とR2と対話するためのものであり、対話装置190が生成した発話音声(合成音声データ)をロボットR1、R2が発話するものである。以下、対話システム100が行う動作の流れを説明する。
発話生成部150は、発話文(テキストデータ)を生成し(S1)、発話決定部120及び音声合成部110に出力する。以下、この発話文をオリジナル発話文ともいう。発話生成部150内には、例えば、非特許文献2に記載された「雑談対話システム」と呼ばれる対話システムのように、入力された単語をトリガーとして、あらかじめ記述しておいたルールに従って発話のテキストを生成して出力する対話システムが備えられている。事前に設定された単語に基づき発話生成部150内に備えられた当該対話システムが、オリジナル発話文を生成して出力する。
または、発話生成部150内には、例えば、非特許文献1に記載された「シナリオ対話システム」と呼ばれる対話システムのように、事前に設定された単語が対話システム内に予め記憶されたシナリオの選択肢に対応する場合に、その選択肢に対応して予め記憶された発話のテキストを選択して出力する対話システムが備えられている。発話生成部150内に備えられた当該対話システムが予め記憶しているテキストからオリジナル発話文を選択して出力する。ここで、事前に設定された単語に基づいてオリジナル発話文を生成する例で説明したが、事前に単語を設定していなくてもよい。例えば、オリジナル発話文生成時点が継続中の対話の一時点である場合には、事前に設定した単語に代わり、オリジナル発話文生成時点より前の対話中の単語(トピック等)を用いてもよい。
発話決定部120は、発話生成部150から入力されたオリジナル発話文を受け取り、オリジナル発話文の少なくとも一部を曖昧化することにより生成した発話文を変換後発話文(テキストデータ)として得(S2)、音声合成部110に出力する。なお、前述の発話文の少なくとも一部を(i)指示語で置換する処理、(ii)言い間違った語で置換する処理、あるいは、(iii)省略する処理、が発話文を曖昧化することに相当する。なお、発話文の少なくとも一部を言い間違った語に置換する処理とは、発話文に含まれる語を当該語の意味を有さない語に置換する処理とも言える。
音声合成部110は、発話決定部120から入力された変換後発話文(テキストデータ)に対して音声合成を行い合成音声データを得て(S3)、得られた合成音声データをロボットR1の提示部101-1に出力する。
提示部101-1は、音声合成部110から入力された変換後発話文の合成音声データに対応する音声を再生する、すなわち、変換後発話文をロボットR1の発話として提示する(S4)。合成音声データの提示先として、変換後発話文の合成音声データに対応する音声を再生したロボット自身を提示先とする場合には、独り言を話しているように処理を行えばよい。
発話生成部150は、発話決定部120から入力された変換後発話文の内容を確認する発話文(以下、「確認発話文」ともいう)を生成し(S6)、音声合成部110へ出力する。なお、確認発話文は、変換後発話文を1つの意味に特定するための質問を含む。
確認発話文とは、例えば、(i)正しい内容を特定して確認を行う発話文、(ii)内容を何ら特定せずに確認を行う発話文、(iii)間違った内容を特定して確認を行う発話文、である。例えば、(i)正しい内容を特定して確認を行う発話文としては「それって、XXのこと?」(ここではXXは正しい内容であり、変換後発話文を1つの意味に特定する語である)との発話文、(ii)内容を何ら特定せずに確認を行う発話文としては「何のこと?」との発話文、(iii)間違った内容を特定して確認を行う発話文としては「それって、YYのこと?」「YYって言った?」「YYって何のこと?」(ここではYYは間違いである)などの発話文が有り得る。発話生成部150が(i)から(iii)の何れの種類の確認発話文を具体的にどのように生成するかは、発話生成部150内で予め定めておいてもよいし、発話生成部150外から対話システムの運用者が指定できるようにしておいてもよい。また、正しい内容は、発話生成部150が生成したオリジナル発話文と発話決定部120が生成した変換後発話文とに基づいて、発話決定部120が曖昧化した部分に対応する語をオリジナル発話文から取得することにより決定する。間違った内容は、発話生成部150が生成したオリジナル発話文と発話決定部120が生成した変換後発話文とに基づいて、発話決定部120が曖昧化した部分に対応する語をオリジナル発話文から取得して、取得した語に基づいて生成すればよい。なお、確認発話文は、変換後発話文を1つの意味に特定するための質問を含むが、変換後発話文を1つの意味に特定するものではない。
音声合成部110は、発話生成部150から入力された確認発話文に対して音声合成を行い合成音声データを得て(S7)、得られた合成音声データをロボットR2の提示部101-2に出力する。
提示部101-2は、音声合成部110から入力された確認発話文の合成音声データに対応する音声を再生する、すなわち、確認発話文をロボットR2の発話として提示する(S8)。
発話生成部150は、さらに、確認発話文に応答する発話文(以下、「応答発話文」ともいう)を生成し(S9)、音声合成部110へ出力する。なお、応答発話文は、確認発話文に含まれる質問の回答であり、かつ、変換後発話文を1つの意味に特定する語を含む。
音声合成部110は、発話生成部150から入力された応答発話文に対して音声合成を行い合成音声データを得て(S10)、得られた合成音声データをロボットR1の提示部101-1に出力する。なお、確認発話文が(i)正しい内容を特定して確認を行う発話文である場合には、応答発話文は、確認内容を肯定した上で、正しい内容を復唱する発話文などであり、例えば、「うん、XX」である。確認発話文が(ii)内容を何ら特定せずに確認を行う発話文である場合や(iii)間違った内容を特定して確認を行う発話文である場合には、応答発話文は、正しい内容を確認する発話文などであり、例えば、「XX」である。
提示部101-1は、音声合成部110から入力された応答発話文の合成音声データに対応する音声を再生する、すなわち、応答発話文をロボットR1の発話として提示する(S11)。
音声合成部110は、発話生成部150から入力されたオリジナル発話文に対して音声合成を行い合成音声データを得て(S12)、得られた合成音声データをロボットR1の提示部101-1に出力する。
提示部101-1は、音声合成部110から入力されたオリジナル発話文の合成音声データに対応する音声を再生する、すなわち、オリジナル発話文をロボットR1の発話として提示する(S13)。
<各部の処理について>
以下では、対話システム100の各部の処理を中心に説明する。なお、ここでは、各発話文の音声合成を、対話の開始よりも前に行う例を示す。
以下では、対話システム100の各部の処理を中心に説明する。なお、ここでは、各発話文の音声合成を、対話の開始よりも前に行う例を示す。
[ロボットR1、R2]
ロボットR1とR2は、ユーザと対話するためのものであり、ユーザの近くに配置され、対話装置190が生成した発話を行う。
ロボットR1とR2は、ユーザと対話するためのものであり、ユーザの近くに配置され、対話装置190が生成した発話を行う。
[発話生成部150]
発話生成部150は、オリジナル発話文を生成し、発話決定部120及び音声合成部110に出力する。
発話生成部150は、オリジナル発話文を生成し、発話決定部120及び音声合成部110に出力する。
また、発話生成部150は、発話決定部120で得た変換後発話文とオリジナル発話文を用いて、発話決定部120が曖昧化した部分を求め、曖昧化した部分を確認するための確認発話文を生成し、音声合成部110に出力する。発話決定部120が曖昧化した部分は、変換後発話文とオリジナル発話文との差分から求めることができる。なお、発話決定部120から曖昧化した部分を示す情報を受け取る構成としてもよい。
さらに、発話生成部150は、確認発話文に対する応答発話文を生成し、音声合成部110に出力する。
なお、オリジナル発話文、確認発話文、応答発話文を音声合成部110に出力する際には、それぞれの発話文に発話順を表す情報を付加して出力する。例えば、確認発話文の発話順がN+2であり、応答発話文の発話順がN+3であり、オリジナル発話文の発話順がN+4である。Nは0以上の整数の何れかである。確認発話文、応答発話文、オリジナル発話文の発話順は連続している必要はないが、順序は入れ替わらないものとする。発話生成部150は、確認発話文、応答発話文、オリジナル発話文を発話するロボットも決定してもよく、この場合には、発話するロボットを表す情報も音声合成部110に出力する。
[発話決定部120]
発話決定部120は、発話生成部150で生成したオリジナル発話文を受け取り、オリジナル発話文の少なくとも一部を曖昧化することにより生成した発話文を変換後発話文として得、音声合成部110に出力する。また、発話決定部120は、変換後発話文または曖昧化した部分を示す情報を発話生成部150に出力する。
発話決定部120は、発話生成部150で生成したオリジナル発話文を受け取り、オリジナル発話文の少なくとも一部を曖昧化することにより生成した発話文を変換後発話文として得、音声合成部110に出力する。また、発話決定部120は、変換後発話文または曖昧化した部分を示す情報を発話生成部150に出力する。
なお、変換後発話文を音声合成部110に出力する際に、変換後発話文に発話順を表す情報を付加して出力する。変換後発話文の発話順は例えばN+1であり、確認発話文、応答発話文、オリジナル発話文より前である。発話決定部120は、変換後発話文を発話するロボットも決定してもよく、この場合には、発話するロボットを表す情報も音声合成部110に出力する。
[音声合成部110]
音声合成部110は、発話生成部150から入力された確認発話文、応答発話文、オリジナル発話文、及び、発話決定部120から入力された変換後発話文に対する音声合成を行って、合成音声データを得て、得られた合成音声データをロボットR1の提示部101-1またはロボットR2の提示部101-2に出力する。発話決定部120は、発話順を表す情報に従って、合成音声データを出力する。よって、本実施形態では、変換後発話文、確認発話文、応答発話文、オリジナル発話文の順に合成音声データを出力する。発話決定部120から発話文と共に当該発話文を発話するロボットを表す情報が入力された場合には、当該情報に対応するロボットの提示部に対して合成音声データを出力する。
音声合成部110は、発話生成部150から入力された確認発話文、応答発話文、オリジナル発話文、及び、発話決定部120から入力された変換後発話文に対する音声合成を行って、合成音声データを得て、得られた合成音声データをロボットR1の提示部101-1またはロボットR2の提示部101-2に出力する。発話決定部120は、発話順を表す情報に従って、合成音声データを出力する。よって、本実施形態では、変換後発話文、確認発話文、応答発話文、オリジナル発話文の順に合成音声データを出力する。発話決定部120から発話文と共に当該発話文を発話するロボットを表す情報が入力された場合には、当該情報に対応するロボットの提示部に対して合成音声データを出力する。
[提示部101-1、101-2]
提示部101-1、101-2は、音声合成部110から入力された合成音声データに対応する音声を再生する。これにより、ユーザはロボットR1またはR2の発話を受聴することになり、ユーザと対話システム100との対話が実現される。
提示部101-1、101-2は、音声合成部110から入力された合成音声データに対応する音声を再生する。これにより、ユーザはロボットR1またはR2の発話を受聴することになり、ユーザと対話システム100との対話が実現される。
<効果>
以上の構成により、対話のターン数を増やすことができる。
以上の構成により、対話のターン数を増やすことができる。
対話システムと人との会話において、対話システムの発話が人の予測や共感を超えた文脈のものと解釈されるものとなってしまう場合がある。例えば、対話システムの発話が突然で、急には、その発話意図が理解できない場合である。本実施形態では、文の一部をいったん曖昧なものにして、その曖昧性を確認させる対話をするための発話を別のロボットに差し込ませている。対話システムがこのような発話を差し込むことで、人が対話システムの発話意図を理解しやすくなる。
<第二実施形態>
図3は第二実施形態に係る対話システム100の機能ブロック図を、図4は第二実施形態に係る対話システム100の処理フローを示す。
図3は第二実施形態に係る対話システム100の機能ブロック図を、図4は第二実施形態に係る対話システム100の処理フローを示す。
第二実施形態の対話システム100は、第一実施形態の対話システム100と同様に、ロボットR1、R2と、対話装置190と、を含む。第二実施形態の対話装置190が第一実施形態の対話装置190と異なるのは、発話終了検出部140も含むことである。第二実施形態のロボットR1が第一実施形態のロボットR1と異なるのは、入力部102-1も含むことであり、第二実施形態のロボットR2が第一実施形態のロボットR2と異なるのは、入力部102-2も含むことである。入力部102-1、102-2は、ロボットの周囲で発せられた音響信号を収音するものであり、例えばマイクロホンである。入力部はユーザが発話した発話音声を収音可能とすればよいので、入力部102-1、102-2の何れか一方を備えないでもよい。また、ユーザの近傍などの、ロボットR1,R2とは異なる場所に設置されたマイクロホンを入力部とし、入力部102-1、102-2の双方を備えない構成としてもよい。
以下、第二実施形態の対話システム100が行う動作の流れを、第一実施形態の対話システム100が行う動作の流れと異なる点を中心に説明する。
まず、第二実施形態の対話システム100は、ステップS1~S4を行う。
ステップS4による変換後発話文の提示後に、入力部102-1、102-2の少なくとも何れかにおいて収音されたユーザの発話に対応する音声データは、発話終了検出部140に出力される。
発話終了検出部140は、入力部102-1、102-2の少なくとも何れかから収音された取得した音声データを用いて、ユーザの発話の終了を検出するか、または、ユーザの発話がないまま予め定めた時間が経過したこと、すなわち、タイムアウトしたことを検出し(S5)、発話生成部150に発話の終了、または、タイムアウトしたことを知らせる制御信号を出力する。
発話生成部150に発話終了検出部140からの制御信号が入力されると、第二実施形態の対話システム100は、ステップS6~S13を行う。
すなわち、本実施形態では、変換後発話文の提示後にユーザが発話する時間を設けているものの、対話システム100は、ユーザの発話は音声認識せずに、ユーザの発話が終了した時点、または、所定時間経過した時点で、確認発話文を提示する。なお、ユーザの発話内容が曖昧化した部分の正しい内容を含むものであろうと、間違った内容を含むものであろうと、対話システム100が提示する確認発話文と応答発話文は、上記の(i)の場合と同様のものとすればよい。例えば、対話システム100は、「それって、XXのこと?」を確認発話文として提示し、「うん、XX」を応答発話文として提示する。
以下に、本実施形態の以下、対話の例を示す。
(例5)
発話t(1):ロボットR1→ユーザ:『あれ』、どんなタイプが好き?
発話t(2):ユーザ→ロボットR1:え、何?
発話t(3):ロボットR2→ロボットR1:それって車の話?
発話t(4):ロボットR1→ロボットR2:そう、車。車、どんなタイプが好き?
例5は、ロボットR1が変換後発話文t(1)を発話し、ロボットR1が変換後発話文t(1)を発話した後にユーザの発話を受け付ける時間を設ける。ユーザの発話t(2)が終了した時点でロボットR2が確認発話文t(3)を発話する。次にロボットR1が発話t(4)として応答発話文とオリジナル発話文を発話する例である。
(例5)
発話t(1):ロボットR1→ユーザ:『あれ』、どんなタイプが好き?
発話t(2):ユーザ→ロボットR1:え、何?
発話t(3):ロボットR2→ロボットR1:それって車の話?
発話t(4):ロボットR1→ロボットR2:そう、車。車、どんなタイプが好き?
例5は、ロボットR1が変換後発話文t(1)を発話し、ロボットR1が変換後発話文t(1)を発話した後にユーザの発話を受け付ける時間を設ける。ユーザの発話t(2)が終了した時点でロボットR2が確認発話文t(3)を発話する。次にロボットR1が発話t(4)として応答発話文とオリジナル発話文を発話する例である。
なお、本実施形態では、対話システム100が提示する確認発話文と応答発話文はユーザの発話内容には依存しないため、本実施形態の対話システム100は音声認識する機能を備えなくてよい。
<第三実施形態>
図5は第三実施形態に係る対話システム100の機能ブロック図を、図6は第三実施形態に係る対話システム100の処理フローを示す。
図5は第三実施形態に係る対話システム100の機能ブロック図を、図6は第三実施形態に係る対話システム100の処理フローを示す。
第三実施形態の対話システム100は、第二実施形態の対話システム100と同様に、ロボットR1、R2と、対話装置190と、を含む。第三実施形態の対話装置190が第二実施形態の対話装置190と異なるのは、発話終了検出部140を含まず、音声認識部141を含むことである。
以下、第三実施形態の対話システム100が行う動作の流れを、第二実施形態の対話システム100が行う動作の流れと異なる点を中心に説明する。
まず、第三実施形態の対話システム100は、ステップS1~S4を行う。
ステップS4による変換後発話文の提示後に、入力部102-1、102-2の少なくとも何れかにおいて収音されたユーザの発話に対応する音声データは、音声認識部141に出力される。
音声認識部141は、入力部102-1、102-2の少なくとも何れかから収音された音声データを音声認識して、音声認識結果の発話文(ユーザの発話に対応する発話文)を得て(S51)、音声認識結果の発話文を発話生成部150に出力する。
発話生成部150は、音声認識結果の発話文が生成した確認発話文と同一の内容であるか否かを判断し(S52)、音声認識結果の発話文が生成した確認発話文と同一の内容である場合には、第三実施形態の対話システム100は、ステップS6~S8を行わずに、ステップS9~S13を行い、音声認識結果の発話文が生成した確認発話文と同一の内容ではない場合には、第三実施形態の対話システム100は、ステップS6~S13を行う。すなわち、第三実施形態の対話システム100は、ユーザが曖昧化した文の内容を確認する発話文を発話した場合には、曖昧化した文の内容を確認する発話文を発話せず、ユーザの発話の後に応答発話文を発話する。
なお、本実施形態では対話システム100による変換後発話文の提示後にユーザの発話を受け付ける例について説明したが、対話システム100による何れの発話文の提示後にユーザの発話を受け付ける構成としてもよい。また、変換後発話文の提示後のユーザの発話の音声認識結果の発話文が生成した確認発話文と同一の内容ではない場合などの、ユーザの発話が対話システム100が予め想定した発話以外の発話を行った場合について説明する。そのような場合には、第一実施形態で説明した確認発話文、応答発話文、オリジナル発話文、の何れでもない発話文を対話システム100が発話してもよい。例えば、発話生成部100は、音声認識の結果が肯定してよい内容であれば「うん、XX」を応答発話文とする。一方、発話生成部100は、音声認識の結果が否定する必要のある内容であれば「ごめん、XX」を応答発話文として生成する。発話生成部100は、生成した何れかの応答発話文をロボットR1の発話として提示すればよい。
なお、対話システム100がユーザの発話を受け付ける場合には、例えば、ロボットの頭部や視線をユーザに向ける等の動きによりユーザに発話を促すようにしてもよい。
<変形例1>
上述の実施形態では、対話システムは、発話の前にロボットの発話文(オリジナル発話文、変換後発話文、確認発話文、応答発話文)を生成していたが、実際には、最初の発話をする前に、生成、音声合成を行っておき、合成音声データを図示しない記憶部に記憶しておき、実際の対話時には、所定のタイミングで各合成音声データを提示部101-1または101-2で再生する構成としてもよい。また、最初の発話をする前に、発話の前にロボットの発話文を生成し、発話文を図示しない記憶部に記憶しておき、実際の対話時には、所定のタイミングで、各発話文を音声合成して合成音声データを得て、提示部101-1または101-2で再生する構成としてもよい。
上述の実施形態では、対話システムは、発話の前にロボットの発話文(オリジナル発話文、変換後発話文、確認発話文、応答発話文)を生成していたが、実際には、最初の発話をする前に、生成、音声合成を行っておき、合成音声データを図示しない記憶部に記憶しておき、実際の対話時には、所定のタイミングで各合成音声データを提示部101-1または101-2で再生する構成としてもよい。また、最初の発話をする前に、発話の前にロボットの発話文を生成し、発話文を図示しない記憶部に記憶しておき、実際の対話時には、所定のタイミングで、各発話文を音声合成して合成音声データを得て、提示部101-1または101-2で再生する構成としてもよい。
<変形例2>
上述の実施形態では2台のロボットを含む対話システムについて説明した。しかし、上述したように発話決定部120が発話するロボットを決定しない形態などもある。そのため、対話システム100に必ずしも2台のロボットを必要としない形態がある。この形態とする場合には、対話システム100に含むロボットを1台としてもよい。また、上述したように発話決定部120が2台のロボットを発話するロボットとして決定する形態がある。この形態を対話システム100に3台以上のロボットを含む構成で動作させてもよい。
上述の実施形態では2台のロボットを含む対話システムについて説明した。しかし、上述したように発話決定部120が発話するロボットを決定しない形態などもある。そのため、対話システム100に必ずしも2台のロボットを必要としない形態がある。この形態とする場合には、対話システム100に含むロボットを1台としてもよい。また、上述したように発話決定部120が2台のロボットを発話するロボットとして決定する形態がある。この形態を対話システム100に3台以上のロボットを含む構成で動作させてもよい。
<変形例3>
対話システム100が複数台のロボットを含む構成において、どのロボットが発話しているのかをユーザが判別可能とされていれば、提示部の個数はロボットの個数と同一でなくてもよい。また、提示部はロボットに設置されていなくてもよい。どのロボットが発話しているのかをユーザが判別可能とする方法としては、合成する音声の声質をロボットごとに異ならせる、複数のスピーカを用いてロボットごとに定位を異ならせる、などの周知の技術を用いればよい。
対話システム100が複数台のロボットを含む構成において、どのロボットが発話しているのかをユーザが判別可能とされていれば、提示部の個数はロボットの個数と同一でなくてもよい。また、提示部はロボットに設置されていなくてもよい。どのロボットが発話しているのかをユーザが判別可能とする方法としては、合成する音声の声質をロボットごとに異ならせる、複数のスピーカを用いてロボットごとに定位を異ならせる、などの周知の技術を用いればよい。
<変形例4>
上述した実施形態では、エージェントとしてロボットを用いて音声による対話を行う例を説明したが、上述した実施形態のロボットは身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、この発明の対話技術はこれらに限定されず、ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態とすることも可能である。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」や「2ちゃんねる(登録商標)」のような、複数アカウントがテキストメッセージにより対話を行うグループチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に本対話システムを適用することも可能である。この形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。
上述した実施形態では、エージェントとしてロボットを用いて音声による対話を行う例を説明したが、上述した実施形態のロボットは身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、この発明の対話技術はこれらに限定されず、ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態とすることも可能である。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」や「2ちゃんねる(登録商標)」のような、複数アカウントがテキストメッセージにより対話を行うグループチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に本対話システムを適用することも可能である。この形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。
本変形例の対話装置は、図7に示すように、発話生成部150、発話決定部120、および提示部101を少なくとも備える。発話決定部120は、外部に存在する雑談対話システムおよびシナリオ対話システムと通信可能なインターフェースを備える。雑談対話システムおよびシナリオ対話システムは同様の機能を持つ処理部として対話装置内に構成しても構わない。また、発話生成部150、発話決定部120は、外部に存在する情報処理装置と通信可能なインターフェースを備え、各部の一部または同様の機能を持つ処理部を対話装置外にある情報処理装置内に構成しても構わない。
本変形例の対話装置は、例えば、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの情報処理装置である。以下、対話装置がスマートフォンであるものとして説明する。提示部101はスマートフォンが備える液晶ディスプレイである。この液晶ディスプレイにはチャットアプリケーションのウィンドウが表示され、ウィンドウ内にはグループチャットの対話内容が時系列に表示される。グループチャットとは、チャットにおいて複数のアカウントが互いにテキストメッセージを投稿し合い対話を展開する機能である。このグループチャットには、対話装置が制御する仮想的な人格に対応する複数の仮想アカウントと、ユーザのアカウントとが参加しているものとする。すなわち、本変形例は、エージェントが、対話装置であるスマートフォンの液晶ディスプレイに表示された仮想アカウントである場合の一例である。なお、第二実施形態や第三実施形態に対応する本変形例の対話装置では、スマートフォンの液晶ディスプレイに表示されたソフトウェアキーボードを入力部102とすることでユーザが発話内容を入力し、自らのアカウントを通じてグループチャットへ投稿することができる。なお、スマートフォンに搭載されたマイクロホンを入力部102として機能させ、ユーザが発声により発話内容を入力する構成としてもよい。この構成とする場合には、対話装置は発話終了検出部140または音声認識部141を備えるか、外部に存在する情報処理装置と通信可能なインターフェースを備え、発話終了検出部140または音声認識部141と同様の機能を持つ処理部を対話装置外にある情報処理装置内に構成する。また、スマートフォンに搭載されたスピーカと音声合成機能を用い、各対話システムから得た発話内容を、各仮想アカウントに対応する音声でスピーカから出力する構成としてもよい。
<変形例5>
変形例1で説明した通り、発話生成部150と発話決定部120とにより、複数のロボットを対話させるための複数の発話文を得ることができる。また、発話生成部150と発話決定部120と音声合成部110とにより、複数のロボットを対話させるための複数の発話の合成音声データを得ることができる。また、変形例4で説明した通り、生成した発話文は、ロボットではなく、コンピュータ画面上に表示されたエージェントなどの発声機構を備えないエージェントに提示させてもよい。すなわち、発話生成部150と発話決定部120とによる装置は、複数のエージェントを対話させるための複数の発話文を生成する対話シナリオ生成装置として機能させることができる。また、発話生成部150と発話決定部120と音声合成部110による装置は、複数のエージェントを対話させるための複数の発話の合成音声データを生成する対話シナリオ生成装置として機能させることができる。
変形例1で説明した通り、発話生成部150と発話決定部120とにより、複数のロボットを対話させるための複数の発話文を得ることができる。また、発話生成部150と発話決定部120と音声合成部110とにより、複数のロボットを対話させるための複数の発話の合成音声データを得ることができる。また、変形例4で説明した通り、生成した発話文は、ロボットではなく、コンピュータ画面上に表示されたエージェントなどの発声機構を備えないエージェントに提示させてもよい。すなわち、発話生成部150と発話決定部120とによる装置は、複数のエージェントを対話させるための複数の発話文を生成する対話シナリオ生成装置として機能させることができる。また、発話生成部150と発話決定部120と音声合成部110による装置は、複数のエージェントを対話させるための複数の発話の合成音声データを生成する対話シナリオ生成装置として機能させることができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、提示部が提示する発話順以外の上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、提示部が提示する発話順以外の上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例1-3、5で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。また、上記変形例4で説明した対話システムにおける各種の処理機能をコンピュータによって実現してもよい。その場合、対話システムが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
また、上記の実施形態及び変形例1-3、5で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。また、上記変形例4で説明した対話システムにおける各種の処理機能をコンピュータによって実現してもよい。その場合、対話システムが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (20)
- 対話システムが行う対話方法であって、
前記対話システムが、発話を生成する発話生成ステップと、
前記対話システムが、前記発話生成ステップが生成した発話の少なくとも一部を曖昧化する、または/および、前記発話生成ステップが生成した発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話を変換後発話として得る発話決定ステップと、
前記対話システムが、前記発話決定ステップが得た変換後発話を提示する発話提示ステップと、を含む、
対話方法。 - 対話システムが行う対話方法であって、
前記対話システムが、所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話を提示する第1発話提示ステップと、
前記対話システムが、前記第1の発話を提示した後に、前記第1の発話を一意に解釈できていないことが読み取れる発話である第2の発話を提示する第2発話提示ステップと、を含む、
対話方法。 - 対話システムが行う対話方法であって、
前記対話システムが、所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話を提示する第1発話提示ステップと、
前記対話システムが、前記第1の発話を提示した後に、前記第1の発話を1つの意味に特定するための質問を含む発話である第2の発話を提示する第2発話提示ステップと、を含む、
対話方法。 - 請求項2または3記載の対話方法であって、
前記対話システムが、前記第2の発話を提示した後に、前記第2の発話に対して応答する発話であり、かつ、前記第1の発話を1つの意味に特定する語を含む発話である第3の発話を提示する第3発話提示ステップと、を更に含む、
対話方法。 - 対話システムが行う対話方法であって、
前記対話システムが、少なくとも一部が曖昧化された発話、または/および、意味を有さない語を含む発話、を提示する第1の発話提示ステップと、
前記対話システムが、第1の発話提示ステップによる提示の後に、前記曖昧化された部分に対応する具体内容を含む発話、または/および、前記意味を有さない語の部分に対応する意味を有する語を含む発話、を提示する第2の発話提示ステップと、を含む、
対話方法。 - 対話システムが行う対話に用いる対話シナリオを対話シナリオ生成装置が生成する対話シナリオ生成方法であって、
前記対話シナリオ生成装置が、
所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話と、
前記第1の発話を提示した後に提示する発話であり、前記第1の発話を一意に解釈できていないことが読み取れる発話である第2の発話と、
を含む対話シナリオを生成する、
対話シナリオ生成方法。 - 対話システムが行う対話に用いる対話シナリオを対話シナリオ生成装置が生成する対話シナリオ生成方法であって、
前記対話シナリオ生成装置が、
所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話と、
前記第1の発話を提示した後に提示する発話であり、前記第1の発話を1つの意味に特定するための質問を含む発話である第2の発話と、
を含む対話シナリオを生成する、
対話シナリオ生成方法。 - 請求項6または7記載の対話シナリオ生成方法であって、
前記第2の発話を提示した後に提示する発話である、前記第2の発話に対して応答する発話であり、かつ、前記第1の発話を1つの意味に特定する語を含む発話を更に含む対話シナリオを生成する、
対話シナリオ生成方法。 - 対話システムが行う対話に用いる対話シナリオを対話シナリオ生成装置が生成する対話シナリオ生成方法であって、
前記対話シナリオ生成装置が、
少なくとも一部が曖昧化された発話、または/および、意味を有さない語を含む発話である第1の発話と、
前記第1の発話を提示した後に提示する発話であり、前記曖昧化された部分に対応する具体内容を含む発話、または/および、前記意味を有さない語の部分に対応する意味を有する語を含む発話、である第2の発話と、
を含む対話シナリオを生成する、
対話シナリオ生成方法。 - 発話を生成する発話生成部と、
前記発話生成部が生成した発話の少なくとも一部を曖昧化する、または/および、前記発話生成ステップが生成した発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話を変換後発話として得る発話決定部と、
前記発話決定部が得た変換後発話を提示する発話提示部と、を含む、
対話システム。 - 所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話を提示する第1発話提示部と、
前記第1の発話を提示した後に、前記第1の発話を一意に解釈できていないことが読み取れる発話である第2の発話を提示する第2発話提示部と、を含む、
対話システム。 - 所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話を提示する第1発話提示部と、
前記第1の発話を提示した後に、前記第1の発話を1つの意味に特定するための質問を含む発話である第2の発話を提示する第2発話提示部と、を含む、
対話システム。 - 請求項11または12記載の対話システムであって、
前記第2の発話を提示した後に、前記第2の発話に対して応答する発話であり、かつ、前記第1の発話を1つの意味に特定する語を含む発話である第3の発話を提示する第3発話提示部と、を更に含む、
対話システム。 - 少なくとも一部が曖昧化された発話、または/および、意味を有さない語を含む発話、を提示した後に、前記曖昧化された部分に対応する具体内容を含む発話、または/および、前記意味を有さない語の部分に対応する意味を有する語を含む発話、を提示する提示部を含む、
対話システム。 - 対話システムが行う対話に用いる対話シナリオを生成する対話シナリオ生成装置であって、
所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話と、
前記第1の発話を提示した後に提示する発話である、前記第1の発話を一意に解釈できていないことが読み取れる発話である第2の発話と、
を含む対話シナリオを生成する、
対話シナリオ生成装置。 - 対話システムが行う対話に用いる対話シナリオを生成する対話シナリオ生成装置であって、
所定の発話の少なくとも一部を曖昧化する、または/および、所定の発話に含まれる語を当該語の意味を有さない語に置き換えることにより生成した発話である第1の発話と、
前記第1の発話を提示した後に提示する発話であり、前記第1の発話を1つの意味に特定するための質問を含む発話である第2の発話と、
を含む対話シナリオを生成する、
対話シナリオ生成装置。 - 請求項15または16記載の対話シナリオ生成装置であって、
前記第2の発話を提示した後に提示する発話である、前記第2の発話に対して応答する発話であり、かつ、前記第1の発話を1つの意味に特定する語を含む発話を更に含む対話シナリオを生成する、
対話シナリオ生成装置。 - 対話システムが行う対話に用いる対話シナリオを生成する対話シナリオ生成装置であって、
少なくとも一部が曖昧化された発話、または/および、意味を有さない語を含む発話である第1の発話と、
前記第1の発話を提示した後に提示する発話であり、前記曖昧化された部分に対応する具体内容を含む発話、または/および、前記意味を有さない語の部分に対応する意味を有する語を含む発話、である第2の発話と、
を含む対話シナリオを生成する、
対話シナリオ生成装置。 - 請求項10から請求項14の何れかの対話システムとしてコンピュータを機能させるためのプログラム。
- 請求項15から請求項18の何れかの対話シナリオ生成装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018518374A JP6755509B2 (ja) | 2016-05-20 | 2017-05-19 | 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016-101220 | 2016-05-20 | ||
JP2016101220 | 2016-05-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017200075A1 true WO2017200075A1 (ja) | 2017-11-23 |
Family
ID=60326482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2017/018790 WO2017200075A1 (ja) | 2016-05-20 | 2017-05-19 | 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6755509B2 (ja) |
WO (1) | WO2017200075A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020027548A (ja) * | 2018-08-16 | 2020-02-20 | Kddi株式会社 | キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09131468A (ja) * | 1995-11-09 | 1997-05-20 | Matsushita Electric Ind Co Ltd | 漫才人形 |
JP2001154685A (ja) * | 1999-11-30 | 2001-06-08 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
-
2017
- 2017-05-19 JP JP2018518374A patent/JP6755509B2/ja active Active
- 2017-05-19 WO PCT/JP2017/018790 patent/WO2017200075A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09131468A (ja) * | 1995-11-09 | 1997-05-20 | Matsushita Electric Ind Co Ltd | 漫才人形 |
JP2001154685A (ja) * | 1999-11-30 | 2001-06-08 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020027548A (ja) * | 2018-08-16 | 2020-02-20 | Kddi株式会社 | キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法 |
JP6994289B2 (ja) | 2018-08-16 | 2022-01-14 | Kddi株式会社 | キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6755509B2 (ja) | 2020-09-16 |
JPWO2017200075A1 (ja) | 2018-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6719741B2 (ja) | 対話方法、対話装置、及びプログラム | |
US11183187B2 (en) | Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog | |
JP6719747B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
US11151997B2 (en) | Dialog system, dialog method, dialog apparatus and program | |
JP6719740B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
US11501768B2 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
JP6699010B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
WO2018163647A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
WO2016099827A1 (en) | Digital companions for human users | |
JP6682104B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
WO2018163646A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP6551793B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JPWO2017200081A1 (ja) | 取得方法、生成方法、それらのシステム、及びプログラム | |
Gunkel | Computational interpersonal communication: Communication studies and spoken dialogue systems | |
WO2017200075A1 (ja) | 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム | |
WO2017200077A1 (ja) | 対話方法、対話システム、対話装置、及びプログラム | |
JP6601625B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP6610965B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
US20220068283A1 (en) | Systems, methods, and apparatus for language acquisition using socio-neuorocognitive techniques | |
Kearns | It’s Time to Personalise the Voice | |
Bosdriesz | Adding Speech to Dialogues with a Council of Coaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 2018518374 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17799499 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 17799499 Country of ref document: EP Kind code of ref document: A1 |