JPWO2020136733A1 - 対話装置、対話方法及び対話プログラム - Google Patents

対話装置、対話方法及び対話プログラム Download PDF

Info

Publication number
JPWO2020136733A1
JPWO2020136733A1 JP2020561999A JP2020561999A JPWO2020136733A1 JP WO2020136733 A1 JPWO2020136733 A1 JP WO2020136733A1 JP 2020561999 A JP2020561999 A JP 2020561999A JP 2020561999 A JP2020561999 A JP 2020561999A JP WO2020136733 A1 JPWO2020136733 A1 JP WO2020136733A1
Authority
JP
Japan
Prior art keywords
dialogue
unit
data
utterance
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020561999A
Other languages
English (en)
Other versions
JP7160116B2 (ja
Inventor
恵 多比良
恵 多比良
岳 今井
岳 今井
直之 沢崎
直之 沢崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2020136733A1 publication Critical patent/JPWO2020136733A1/ja
Application granted granted Critical
Publication of JP7160116B2 publication Critical patent/JP7160116B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/18Commands or executable codes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/216Handling conversation history, e.g. grouping of messages in sessions or threads

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

対話装置(10)は、ユーザの発話の文脈に基づいて、ユーザへの発話を生成するためのデータの候補から選択した対話ブロックを基に、ユーザに対して発話を行う。また、対話装置(10)は、発話する処理と非同期で、ユーザと対話装置(10)との間の対話から抽出したキーワードに基づいて収集された第1のデータを、データの候補に追加する。ここで、第1のデータは、ICTサービスから収集したコンテンツ、及びコンテンツを基に生成された対話ブロックである。

Description

本発明は、対話装置、対話方法及び対話プログラムに関する。
従来、ユーザと音声又はテキストを用いて対話を行う対話システムが知られている。対話システムには、音声スピーカ、コミュニケーションロボット、チャットボット等がある。また、対話システムが、ユーザの興味に合わせて話題を選択する技術が提案されている。
例えば、話題の属性及び属性ごとのユーザの興味の度合いを示す重要度を含む興味データを基に対話を行う装置であって、ユーザとの対話の内容に応じて興味データを更新する装置が知られている。
特開2004−343320号公報 特開2003−044088号公報 特開2003−323388号公報
しかしながら、上記の技術では、対話の応答速度を向上させることが難しい場合がある。ここで、ユーザとの対話における話題を多様にするために、インターネットを介して提供されるICT(Information and Communication Technology)サービスから取得したコンテンツを提示することが考えられる。
インターネット上のICTサービスの数は膨大であるため、ユーザの発話を受けてからインターネット上で検索を行っていては、検索に時間がかかり、対話に短時間で応答することが難しくなる場合がある。なお、ICTサービスには、いわゆるニュースサイトやSNS(Social Networking Service)等が含まれる。
1つの側面では、対話の応答速度を向上させる対話装置、対話方法及び対話プログラムを提供することを目的とする。
1つの態様において、対話装置は、発話部及び追加部を有する。発話部は、ユーザの発話の文脈に基づいて、ユーザへの発話を生成するためのデータの候補から選択したデータを基に、ユーザに対して発話を行う。追加部は、発話部による処理と非同期で、ユーザと対話装置との間の対話から抽出したキーワードに基づいて収集された第1のデータを、データの候補に追加する。
1つの側面では、対話の応答速度を向上させることができる。
図1は、実施例1にかかる対話装置の機能構成を示す機能ブロック図である。 図2は、対話ブロック記憶部に記憶される対話ブロックの例を示す図である。 図3は、コンテンツの収集について説明する図である。 図4は、対話ブロックの追加について説明する図である。 図5は、対話の一例を示す図である。 図6は、対話装置の処理の流れを示すシーケンス図である。 図7は、ハードウェア構成例を説明する図である。
以下に、本発明にかかる対話装置、対話方法及び対話プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
実施例1に係る対話装置は、ユーザから音声又はテキスト等の入力を受け付ける。また、対話装置は、入力に応じて発話を生成し、生成した発話をユーザに対して音声又はテキスト等により出力する。これにより、対話装置は、ユーザとの対話を行う。
対話装置は、ユーザの応答に基づいて、発話を生成するためのデータを記憶領域から取得し、取得したデータを基に生成した発話を出力する発話プロセスを実行する。また、対話装置は、ユーザの応答等に基づき、発話を生成するためのデータを収集し、前述の記憶領域に追加する追加プロセスを実行する。ここで、対話装置は、対話プロセスと追加プロセスを非同期で実行することができる。つまり、対話装置は、対話プロセスの実行中であっても、並行して追加プロセスを実行することができる。
[機能構成]
図1は、実施例1にかかる対話装置の機能構成を示す機能ブロック図である。図1に示すように、対話装置10は、発話部11、追加部12及び対話ブロック記憶部13を有する。また、対話装置10は、NIC(Network Interface Card)等の通信インタフェースを介してインターネットに接続することができる。また、発話部11及び追加部12は、プロセッサ等により実現される。
対話ブロック記憶部13は、ハードディスクやメモリ等により実現される。対話ブロック記憶部13は、対話ブロック記憶部13は、発話の内容をあらかじめ定義した情報である対話ブロックを記憶する。ここで、対話ブロック記憶部13に記憶される対話ブロックは、Webサイト等のICT(Information and Communication Technology)サービスから収集したコンテンツを基に生成されたものであってもよいし、コンテンツそのものであってもよい。なお、対話ブロック記憶部13に記憶される対話ブロックは、ユーザへの発話を生成するためのデータの候補の一例である。
図2は、対話ブロックDBに記憶される対話ブロックの例を示す図である。図2のテーブルの各レコードが対話ブロックである。図2に示すように、対話ブロックは、「ブロックID」、「発話内容」、「収集先」、「後続のブロック」及び「削除優先度」等の項目を含む。なお、対話装置10は、対話ブロック記憶部13に記憶された対話ブロックのいずれかを選択し、選択した対話ブロックを基に生成した発話を出力することができる。
「ブロックID」は、対話ブロックを識別するためのIDである。「発話内容」は、生成される発話そのもの、又は発話の生成に用いられる情報である。
「収集先」は、当該対話ブロックの収集先を示す情報である。例えば、対話ブロックがWebサイトから収集されたものである場合、収集先は当該WebサイトのURLであってよい。
「後続のブロック」は、当該対話ブロックから生成された発話の後に続く発話の生成元になる対話ブロックのブロックIDである。
「削除優先度」は、対話ブロックが削除される際の優先度である。ここでは、削除優先度が大きい対話ブロックほど優先して削除される。例えば、対話装置10は、対話ブロック記憶部13のデータサイズが一定値を超えた場合、当該データサイズが一定値以下になるまで、優先度が大きい順に対話ブロックを削除していくことができる。また、削除優先度は、対話装置10によって適宜更新される。
図2の例では、ブロックIDが「B001」である対話ブロックの発話内容が「男子テニス全米オープン A選手ベスト16進出」であり、収集先として「テニスニュース」というWebサイトのURLが設定されている。また、ブロックIDが「B001」である対話ブロックの後続のブロックは「B006」であり、削除優先度は「2」である。
対話ブロックの項目は、図2に示すものに限られない。例えば、対話ブロックは、当該対話ブロックが生成された日時、当該対話ブロックが発話の生成に使用されるための条件等を示す情報を含んでいてもよい。
発話部11は、ユーザの発話の文脈に基づいて、ユーザへの発話を生成するためのデータの候補から選択したデータを基に、ユーザに対して発話を行う。発話部11は、入力部111、解釈部112、対話文脈管理部113、選択部114、実行部115及び出力部116を有する。
入力部111は、入力装置20を介して、ユーザの発話の入力を受け付ける。また、入力部111に入力される発話には、ユーザに対して出力された発話に対するユーザの反応が含まれる。
入力装置20は、ユーザが音声又はテキスト等の情報を入力するための装置である。例えば、入力装置20は、マイクロフォン、キーボード及びタッチパネルディスプレイ等である。また、入力装置20は、ユーザに関する情報を取得するためのセンサを備えていてもよい。例えば、入力装置20は、カメラ、温度計、加速度センサ等を備えていてもよい。
解釈部112は、入力部111に入力された発話の解釈を行う。例えば、解釈部112は、公知の音声認識技術を用いて音声として入力された発話を解析する。また、解釈部112は、テキストに対して形態素解析を行い、キーワードの抽出や意味の解釈を行うことができる。
さらに、解釈部112は、話題に対するユーザの興味の度合いを評価することができる。例えば、解釈部112は、ユーザの反応が肯定的なものであるか否定的なものであるかを基に、興味の度合いを評価する。
例えば、解釈部112は、ユーザの反応に「はい」及び「いいね」等の賛成の意味の単語が含まれている場合、当該反応がポジティブなものであると判定する。この場合、解釈部112は、ユーザの現在の話題に対する興味の度合いが大きいと評価する。
また、例えば、解釈部112は、ユーザの反応に「いいえ」及び「興味ない」等の反対の意味の単語が含まれている場合や、ユーザの反応が相槌だけである場合、当該反応がネガティブなものであると判定する。この場合、解釈部112は、ユーザの現在の話題に対する興味の度合いが小さいと評価する。
さらに、解釈部112は、入力装置20が備えるセンサによって取得された情報から、ユーザの反応がポジティブなものであるかネガティブなものであるかを判定してもよい。例えば、解釈部112は、カメラで撮影されたユーザの顔の表情や、マイクロフォンで収集されたユーザの声色を基に、ユーザがポジティブな反応をしたか否かを判定することができる。
対話文脈管理部113は、解釈部112による解釈の結果の保持及び当該結果の各部への提供を行う。例えば、対話文脈管理部113は、ユーザの現在の話題に対する興味の度合いの大きさ、及び現在の話題がどのジャンルのものであるかを特定するための情報を追加部12又は選択部114に提供する。また、対話文脈管理部113は、対話装置10が出力した発話の内容を出力部116から取得し、解釈の結果と併せて保持及び提供を行ってもよい。
選択部114は、対話ブロック記憶部13から対話ブロックを選択する。例えば、対話ブロック記憶部13において、選択済みの対話ブロックに対し後続のブロックが指定されている場合、選択部114は、当該後続のブロックを選択する。また、選択部114は、解釈部112による解釈の結果及び対話文脈管理部113から提供された情報を基に、ユーザの興味に合う対話ブロックを選択してもよい。
選択部114は、あらかじめ設定された選択条件を基に、対話の文脈やユーザのプロファイルに合った対話ブロックを選択する。一方で、後述する追加部12の処理により、対話ブロック記憶部13には、対話中のユーザに合わせた対話ブロックの候補が用意される。このため、選択部114が選択した対話ブロックは、対話中のユーザに合わせて特定の目的で用意されたものであり、全く意味のない発話が出力され対話が破たんする可能性は低くなる。
なお、特定の目的には、文脈に合わせることだけでなく、人間同士のような自然な対話を成立させること、話題のバランスを調整すること等が含まれる。また、追加部12の処理によれば、対話ブロック記憶部13の記憶容量の消費量を低減させることができる。
実行部115は、選択部114により選択された対話ブロックから発話を生成する。ここで、実行部115が生成する発話は、ユーザが解釈可能な文章である。なお、選択された対話ブロックに発話用の文章が含まれている場合、実行部115は、当該文章をそのまま発話としてもよい。以降の説明で、「対話ブロックを実行する」とは、実行部115が対話ブロックから発話を生成することを意味するものとする。
出力部116は、実行部115によって生成された発話を、出力装置30を介してユーザに対して出力する。このとき、出力部116は、発話を音声として出力してもよいし、テキストとして出力してもよい。なお、実行部115及び出力部116は、発話部の一例である。
出力装置30は、ユーザに対して発話を出力するための装置である。出力装置30は、発話を音声により出力してもよいし、テキストにより出力してもよい。例えば、出力装置30は、スピーカ及びディスプレイ等である。
追加部12は、発話部11による処理と非同期で、ユーザと対話装置との間の対話から抽出したキーワードに基づいて収集された第1のデータを、データの候補に追加する。非同期での処理は、発話部11と追加部12が、互いの処理の進行状況に関係なく処理を進めていくことによって実現される。また、非同期での処理は、発話部11の処理及び追加部12の処理を、互いに異なる装置又はプロセッサで実行することで実現されてもよい。また、非同期での処理は、発話部11の処理及び追加部12処理を、1つのプロセッサの互いに異なるスレッド上で実行することで実現されてもよい。
また、追加部12は、抽出部121、アプリ選択部122、調整部123、生成部124及び候補管理部125を有する。また、抽出部121は、流行話題検索部121a、興味管理部121b、拡張部121c及び協調部121dを有する。
抽出部121は、第1のデータ及び第2のデータを収集を制御する。例えば、抽出部121は、対話の内容等からコンテンツを検索するための話題を抽出する。なお、話題はキーワードとして表される。具体的には、抽出部121は、目的のコンテンツが収集されるようにアプリ選択部122を制御する。例えば、抽出部121は、アプリ選択部122に対し、キーワードをコンテンツの検索条件として指定する。
拡張部121cは、対話の文脈に合ったコンテンツ、すなわち第1のデータを検索するためのキーワードを抽出する。第1のデータは、発話を文脈に合わせることを目的とした対話ブロックの生成元のコンテンツである。一方で、前述の通り、対話ブロック記憶部13に記憶される対話ブロックには、人間同士のような自然な対話を成立させること、及び話題のバランスを調整すること等を目的とするものが含まれる。ここでは、人間同士のような自然な対話を成立させること、及び話題のバランスを調整すること等を目的とする対話ブロックを生成するためのコンテンツを、第2のデータとする。
追加部12は、所定のICTサービスにおいて流行している話題、あらかじめ設定された所定の嗜好に合致する話題、あらかじめ取得されたユーザの興味に合致する話題に関する第2のデータを、データの候補にさらに追加する。このとき、追加部12は、第1のデータの数と第2のデータの数の比が一定となるように、データの追加を行う。流行話題検索部121a、興味管理部121b、及び協調部121dは、第2のデータを収集するためのキーワードをアプリ選択部122に受け渡す。
流行話題検索部121aは、ニュースサイトやSNSから取得したトレンドのキーワードをアプリ選択部122に受け渡す。また、興味管理部121bは、対話装置10に対してあらかじめ設定され、数日から数週間おきに変更されるトピックに関するキーワードをアプリ選択部122に受け渡す。また、協調部121dは、ユーザの好み、ユーザのスケジュール及びユーザが利用しているSNSのフィード等に関するキーワードをアプリ選択部122に受け渡す。
アプリ選択部122は、コンテンツの収集先のアプリの決定、及び決定したアプリからのコンテンツの収集を行う。ここで、アプリとは、ICTサービスによって提供されるコンテンツを閲覧するためのインタフェースであって、アプリケーション及びWebサイト等を含むものとする。
アプリ選択部122は、キーワードを指定してWebサイトへのリクエストを送信することや、アプリごとの所定のAPI(Application Programming Interface)を実行すること等によりコンテンツを検索し収集する。アプリ選択部122は、抽出部121から受け渡されたキーワードを用いてコンテンツの検索を行う。
調整部123は、アプリ選択部122を制御し、抽出部121の各部から受け渡されるキーワードに基づいて収集されるコンテンツから生成される対話ブロックの数を調整する。調整部123による調整により、対話装置10の発話の傾向が決定される。
ここで、拡張部121cのキーワードに基づいて収集されたコンテンツから生成される対話ブロックを文脈の対話ブロックとする。また、流行話題検索部121aのキーワードに基づいて収集されたコンテンツから生成される対話ブロックを流行の対話ブロックとする。また、興味管理部121bのキーワードに基づいて収集されたコンテンツから生成される対話ブロックを興味の対話ブロックとする。また、協調部121dのキーワードに基づいて収集されたコンテンツから生成される対話ブロックを協調の対話ブロックとする。
例えば、対話装置10に話題提供を多めさせる場合、調整部123は、文脈の対話ブロック、流行の対話ブロック、興味の対話ブロック及び協調の対話ブロックの数の割合が、それぞれ例えば40%、20%、10%及び30%になるように調整する。
また、例えば、対話装置10に話題を継続する傾向を持たせる場合、調整部123は、文脈の対話ブロック、流行の対話ブロック、興味の対話ブロック及び協調の対話ブロックの数の割合が、それぞれ例えば60%、15%、5%及び20%になるように調整する。
生成部124は、アプリ選択部122によって収集されたコンテンツを基に対話ブロックを生成する。また、生成部124は、コンテンツそのものを対話ブロックとしてもよい。
候補管理部125は、生成部124によって生成された対話ブロックを、対話ブロック記憶部13に格納する。また、候補管理部125は、少なくとも文脈の対話ブロックの生成元のコンテンツの収集先を対話ブロックに含める。つまり、候補管理部125は、第1のデータの収集先を特定する情報を、所定の記憶領域に格納しておく。なお、候補管理部125は、コンテンツの収集先をリスト化し、対話ブロック記憶部13と異なる記憶領域に格納するようにしてもよい。
候補管理部125は、対話ブロック記憶部13の削除優先度を更新する。また、候補管理部125は、対話ブロック記憶部13に記憶されている対話ブロックの削除を行う。例えば、候補管理部125は、一定の時間周期ごとに対話ブロック記憶部13のデータサイズをチェックし、データサイズが一定値を超えている場合、当該データサイズが一定値以下になるまで、優先度が大きい順に対話ブロックを削除する。
候補管理部125は、まず、新たに追加された対話ブロックの削除優先度を、例えば「0」に設定する。そして、候補管理部125は、一定時間が経過するたびに、各対話ブロックの削除優先度を、例えば1ずつ増加させる。さらに、候補管理部125は、一定時間が経過するたびに、選択部114によって選択された対話ブロックの削除優先度を、例えば1だけ減少させる。つまり、候補管理部125は、選択部114によって1回も選択されていないデータを、選択部114によって1回以上選択されたデータより優先して削除する。なお、候補管理部125は、削除部の一例である。また、候補管理部125は、後続のブロックとして指定された対話ブロックの削除優先度を増加させないようにしてもよい。
図3は、コンテンツの収集について説明する図である。図3に示すように、アプリ選択部122は、抽出部121によるキーワードの指定、及び調整部123による調整を受けて、選択したアプリからコンテンツを収集する。そして、収集されたコンテンツを基に生成された対話ブロックは、対話ブロック記憶部13に格納される。
このとき、文脈の対話ブロック、流行の対話ブロック、協調の対話ブロック及び興味の対話ブロックの数の割合は、調整部123による調整に準じたものとなる。また、対話ブロックの中には、アプリから収集したコンテンツを基に生成されたものの他に、広告や調整を目的とする所定の対話ブロックが含まれていてもよい。
図4は、対話ブロックの追加について説明する図である。図4に示すように、対話ブロックB001に基づく発話に対し、ユーザが好反応を示したものとする。このとき、対話装置10は、文脈に合うキーワードとして、対話ブロックB001に示される男子テニスに関するキーワードを抽出する。そして、対話装置10は、キーワードを基に、男子テニスに関するコンテンツを収集する。その後、男子テニスに関するコンテンツを基に生成された対話ブロックB007が対話ブロック記憶部13に追加される。
ここで、ユーザが対話ブロックB001を基に生成された発話に対し好反応を示した後、対話ブロックB007が追加されるまでの間、対話ブロック記憶部13には、対話ブロックB001を除き、男子テニスに関する対話ブロックが存在しないことになる。このため、対話装置10は、対話ブロックB001の後続のブロックに指定されている対話ブロックB006に基づいて発話を行う。その後、対話ブロックB007が追加されると、対話装置10は、対話ブロックB006の後続のブロックに指定されている対話ブロックB006に優先して、対話ブロックB007を基に発話をすることができる。
図5は、対話の一例を示す図である。図5は、対話がテキストチャットによって行われる場合の例を示している。アイコン20aから出ている吹き出しは、ユーザの発話を表している。また、アイコン30aから出ている吹き出しは、対話装置10の発話を表している。また、対話装置10は、発話部11の処理、及び追加部12の処理を非同期で実行する。
まず、発話部11は、時刻0に、男子テニスのコンテンツを基に発話を行う(ステップS111)。時刻tに、ユーザが発話に対し肯定的な反応を示したため、追加部12は、男子テニスのコンテンツを収集し候補に追加する処理を開始する(ステップS121開始)。
一方、時刻tまで男子テニスのコンテンツが追加されないため、発話部11は、後続に指定されている女子テニスのコンテンツを基に発話を行う(ステップS112)。そして、時刻tには、追加部12による男子テニスのコンテンツが追加完了しているため(ステップS121終了)、対話装置10は、追加された男子テニスのコンテンツを基に発話を行う(ステップS113)。
このように、図5の例では、発話部11によるステップS112、及び追加部12によるステップS121が、非同期で並行して実行される。このため、対話装置10は、時刻tからtまでの間でも応答が可能であり、対話を止めることなく継続できる。
[処理の流れ]
図6を用いて、対話装置10の処理の流れを説明する。図6は、対話装置の処理の流れを示すシーケンス図である。図6に示すように、発話部11及び追加部12は、非同期で並行して処理を行う。まず、発話部11は、発話に対するユーザの応答の入力を受け付ける(ステップS211)。そして、発話部11は、ユーザの応答を解釈する(ステップS212)。このとき、解釈の結果は、追加部12に受け渡される。
次に、発話部11は、対話ブロック記憶部13から対話ブロックを選択する(ステップS213)。そして、発話部11は、選択した対話ブロックを実行し、発話を生成する(ステップS214)。さらに、発話部11は、生成した発話を出力し(ステップS215)、ステップS211に戻り、処理を繰り返す。
一方、追加部12は、受け取った解釈の結果を基に、文脈に合う話題を抽出する(ステップS221)。また、追加部12は、文脈とは直接関係のない流行、協調、興味の話題を抽出する(ステップS222)。そして、追加部12は、抽出した話題を基にコンテンツを収集する(ステップS223)。ここで、追加部12は、収集したコンテンツを基に対話ブロックを生成し、対話ブロック記憶部13に追加し(ステップS224)、ステップS221に戻り、処理を繰り返す。
図6に示すように、追加部12は、対話ブロック記憶部13の更新を行ない、発話部11は対話ブロック記憶部13の読み取りを行なう。この際に、発話部11は、追加部12により対話ブロック記憶部13が更新されるタイミングを待つことはしない。また、対話ブロック記憶部13が更新されたか否かにはかかわらず、ステップS213で対話ブロック記憶部13を参照する。したがって、発話部11によるステップS213が開始されるより前に、追加部12によって追加された対話ブロックは、ステップS213で利用可能である。
[効果]
上述したように、対話装置10は、ユーザの発話の文脈に基づいて、ユーザへの発話を生成するためのデータの候補から選択したデータを基に、ユーザに対して発話を行う。また、対話装置10は、発話する処理と非同期で、ユーザと対話装置10との間の対話から抽出したキーワードに基づいて収集された第1のデータを、データの候補に追加する。このように、対話装置10は、発話する処理の実行中であっても、非同期で対話ブロックを追加する処理を実行することができる。このため、対話装置10は、対話の応答速度を向上させることができる。
また、対話装置10は、所定のICTサービスにおいて流行している話題、あらかじめ設定された所定の嗜好に合致する話題、あらかじめ取得されたユーザの興味に合致する話題に関する第2のデータを、第1のデータの数と第2のデータの数の比が一定となるように、データの候補にさらに追加する。このように、対話装置10は、文脈に沿った発話だけでなく、話題の提示等を行うことができる。このため、対話装置10は、より多様な対話を行うことができる。
対話装置10は、第1のデータの収集先を特定する情報を、所定の記憶領域に格納する。これにより、コンテンツに基づく対話ブロックが削除された場合であっても、対話装置10は、収集先を参照してコンテンツを再度収集し、過去の話題に対応することができる。
対話装置10は、データの候補のうち、発話する処理によって1回も選択されていないデータを、発話する処理によって1回以上選択されたデータより優先して削除する。これにより、対話装置10は、選択された後、さらに選択される可能性がある対話ブロックを残しておくことができる。
対話装置10は、インターネットを介して収集されたICTサービスのコンテンツをデータの候補に追加する。これにより、対話装置10は、膨大なコンテンツの中から対話ブロックを生成するためのコンテンツを収集することができる。
なお、上記の実施例では、発話部11と追加部12の処理が非同期で行われるものとしたが、抽出部121の各部に対応するコンテンツを収集し対話ブロックを生成する処理がさらに非同期で行われてもよい。この場合、対話が行われていない場合でも、流行、協調、興味の対話ブロックがそれぞれ独立して追加されるので、対話装置10は、対話が始まった際に最新の情報に基づいた話題の提示をすることができる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
図7は、ハードウェア構成例を説明する図である。図7に示すように、対話装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図7に示した各部は、バス等で相互に接続される。
通信装置10aは、ネットワークインタフェースカード等であり、他のサーバとの通信を行う。HDD10bは、図1に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10dは、図1に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図2等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、対話装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、発話部11及び追加部12と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、発話部11及び追加部12等と同様の処理を実行するプロセスを実行する。
このように対話装置10は、プログラムを読み出して実行することで分類方法を実行する情報処理装置として動作する。また、対話装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、対話装置10によって実行されることに限定されるものではない。例えば、他のコンピュータ又はサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
このプログラムは、インターネット等のネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO(Magneto−Optical disk)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
10 対話装置
11 発話部
12 追加部
13 対話ブロック記憶部
111 入力部
112 解釈部
113 対話文脈管理部
114 選択部
115 実行部
116 出力部
121 抽出部
121a 流行話題検索部
121b 興味管理部
121c 拡張部
121d 協調部
122 アプリ選択部
123 調整部
124 生成部
125 候補管理部

Claims (7)

  1. ユーザの発話の文脈に基づいて、前記ユーザへの発話を生成するためのデータの候補から選択したデータを基に、前記ユーザに対して発話を行う発話部と、
    前記発話部による処理と非同期で、前記ユーザと対話装置との間の対話から抽出したキーワードに基づいて収集された第1のデータを、前記データの候補に追加する追加部と、
    を有することを特徴とする対話装置。
  2. 前記追加部は、所定のICTサービスにおいて流行している話題、あらかじめ設定された所定の嗜好に合致する話題、あらかじめ取得された前記ユーザの興味に合致する話題に関する第2のデータを、前記第1のデータの数と前記第2のデータの数の比が一定となるように、前記データの候補にさらに追加することを特徴とする請求項1に記載の対話装置。
  3. 前記追加部は、前記第1のデータの収集先を特定する情報を、所定の記憶領域に格納することを特徴とする請求項1に記載の対話装置。
  4. 前記データの候補のうち、前記発話部によって1回も選択されていないデータを、前記発話部によって1回以上選択されたデータより優先して削除する削除部をさらに有することを特徴とする請求項1に記載の対話装置。
  5. 前記追加部は、インターネットを介して収集されたICTサービスのコンテンツを前記データの候補に追加することを特徴とする請求項1に記載の対話装置。
  6. コンピュータが、
    ユーザの発話の文脈に基づいて、前記ユーザへの発話を生成するためのデータの候補から選択したデータを基に、前記ユーザに対して発話し、
    前記発話する処理と非同期で、前記ユーザと対話装置との間の対話から抽出したキーワードに基づいて収集された第1のデータを、前記データの候補に追加する
    処理を実行することを特徴とする対話方法。
  7. コンピュータに、
    ユーザの発話の文脈に基づいて、前記ユーザへの発話を生成するためのデータの候補から選択したデータを基に、前記ユーザに対して発話し、
    前記発話する処理と非同期で、前記ユーザと対話装置との間の対話から抽出したキーワードに基づいて収集された第1のデータを、前記データの候補に追加する
    処理を実行させることを特徴とする対話プログラム。
JP2020561999A 2018-12-25 2018-12-25 対話装置、対話方法及び対話プログラム Active JP7160116B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/047677 WO2020136733A1 (ja) 2018-12-25 2018-12-25 対話装置、対話方法及び対話プログラム

Publications (2)

Publication Number Publication Date
JPWO2020136733A1 true JPWO2020136733A1 (ja) 2021-09-27
JP7160116B2 JP7160116B2 (ja) 2022-10-25

Family

ID=71126947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020561999A Active JP7160116B2 (ja) 2018-12-25 2018-12-25 対話装置、対話方法及び対話プログラム

Country Status (4)

Country Link
US (1) US20210304732A1 (ja)
EP (1) EP3905239A4 (ja)
JP (1) JP7160116B2 (ja)
WO (1) WO2020136733A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034292A (ja) * 1999-07-26 2001-02-09 Denso Corp 単語列認識装置
JP2004343320A (ja) * 2003-05-14 2004-12-02 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US20160163311A1 (en) * 2014-12-09 2016-06-09 Microsoft Technology Licensing, Llc Communication system
JP2017037602A (ja) * 2015-08-14 2017-02-16 Psソリューションズ株式会社 対話インターフェース
JP2017049427A (ja) * 2015-09-01 2017-03-09 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
WO2017094212A1 (ja) * 2015-11-30 2017-06-08 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044088A (ja) 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
JP2003323388A (ja) 2002-05-01 2003-11-14 Omron Corp 情報提供方法および情報提供システム
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
GB2459476A (en) * 2008-04-23 2009-10-28 British Telecomm Classification of posts for prioritizing or grouping comments.
US8285652B2 (en) * 2008-05-08 2012-10-09 Microsoft Corporation Virtual robot integration with search
JP2015052745A (ja) * 2013-09-09 2015-03-19 Necパーソナルコンピュータ株式会社 情報処理装置、制御方法、及びプログラム
US10997257B2 (en) * 2015-02-06 2021-05-04 Facebook, Inc. Aggregating news events on online social networks
KR20180070659A (ko) * 2015-12-21 2018-06-26 구글 엘엘씨 메시징 애플리케이션들을 위한 자동적인 제안들 및 다른 콘텐츠
EP3211840B1 (en) * 2016-02-25 2019-05-08 Facebook Inc. Techniques for messaging bot rich communication
CA2962765A1 (en) * 2016-04-04 2017-10-04 Kik Interactive Inc. System, apparatus and method for autonomous messaging integration
JP2018072560A (ja) * 2016-10-28 2018-05-10 富士通株式会社 情報処理システム、情報処理装置及び情報処理方法
US10268680B2 (en) * 2016-12-30 2019-04-23 Google Llc Context-aware human-to-computer dialog
US10498898B2 (en) * 2017-12-13 2019-12-03 Genesys Telecommunications Laboratories, Inc. Systems and methods for chatbot generation
WO2019161207A1 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034292A (ja) * 1999-07-26 2001-02-09 Denso Corp 単語列認識装置
JP2004343320A (ja) * 2003-05-14 2004-12-02 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US20160163311A1 (en) * 2014-12-09 2016-06-09 Microsoft Technology Licensing, Llc Communication system
JP2017037602A (ja) * 2015-08-14 2017-02-16 Psソリューションズ株式会社 対話インターフェース
JP2017049427A (ja) * 2015-09-01 2017-03-09 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
WO2017094212A1 (ja) * 2015-11-30 2017-06-08 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
US20210304732A1 (en) 2021-09-30
WO2020136733A1 (ja) 2020-07-02
JP7160116B2 (ja) 2022-10-25
EP3905239A4 (en) 2021-12-29
EP3905239A1 (en) 2021-11-03

Similar Documents

Publication Publication Date Title
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
US8954849B2 (en) Communication support method, system, and server device
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
CN107832286A (zh) 智能交互方法、设备及存储介质
JP6884947B2 (ja) 対話システム及びそのためのコンピュータプログラム
JP6860010B2 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
CN107797984A (zh) 智能交互方法、设备及存储介质
CN107040452B (zh) 一种信息处理方法、装置和计算机可读存储介质
JP2006201870A (ja) 対話処理装置
JP6804763B2 (ja) 対話システム、対話装置及びそのためのコンピュータプログラム
WO2020098756A1 (zh) 一种基于情感的语音交互方法、存储介质及终端设备
Kaushik et al. Automatic sentiment detection in naturalistic audio
WO2023184942A1 (zh) 语音交互方法、装置及电器
CN109710799B (zh) 语音交互方法、介质、装置和计算设备
CN113761268A (zh) 音频节目内容的播放控制方法、装置、设备和存储介质
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质
CN116958342A (zh) 虚拟形象的动作生成方法、动作库的构建方法及装置
WO2015040751A1 (ja) 音声選択支援装置、音声選択方法、およびプログラム
CN117786095A (zh) 基于一致性判别的可控新闻稿件生成方法、设备及介质
CN110524547B (zh) 会话装置、机器人、会话装置控制方法以及存储介质
CN109377988B (zh) 用于智能音箱的交互方法、介质、装置和计算设备
JP7160116B2 (ja) 対話装置、対話方法及び対話プログラム
CN111490929A (zh) 视频片段推送方法、装置、电子设备、存储介质
JP6821542B2 (ja) 複数種の対話を続けて実施可能な対話制御装置、プログラム及び方法
JP2014109998A (ja) 対話装置及びコンピュータ対話方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220926

R150 Certificate of patent or registration of utility model

Ref document number: 7160116

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150