JPWO2020090148A1

JPWO2020090148A1 - 対話システム

Info

Publication number: JPWO2020090148A1
Application number: JP2020554756A
Authority: JP
Inventors: 友理子尾▲崎▼; 昂宗橋本
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2018-10-30
Filing date: 2019-06-19
Publication date: 2021-09-02
Anticipated expiration: 2039-06-19
Also published as: JP7093844B2; WO2020090148A1

Abstract

ユーザ端末からの問合せに対する応答を提供する対話システムの対話装置は、問合せに係る過去の音声認識の内容をユーザ毎に記憶する情報ＤＢと、問合せに係るユーザ端末を識別する電話番号を含む問合せ情報をユーザ端末から取得する入力部と、情報ＤＢの問合せテーブルを参照することにより、問合せ情報に含まれる電話番号によって特定されるユーザ端末の過去の音声認識の内容を特定し、特定した過去の音声認識の内容に基づいて、応答内容を決定する応答内容決定部と、応答内容決定部によって決定された応答内容に従って問合せに対応する応答を提供する出力部及び転送部と、を備える。

Description

本発明の一側面は、対話システムに関する。

従来、例えばコールセンター等において、ユーザからの問合せに対し音声自動対応にて適切な振り分け先に振り分けた後に、オペレータによる対応を行うシステムが採用されている（例えば特許文献１参照）。

特開２０１０−２１２８５２号公報

近年、上述したようなコールセンター等のシステムにおいて、音声又はテキストを利用してユーザと対話を行うチャットボットの導入が進められている。チャットボットが用いられることにより、ユーザとの対話をとおして適切な応答（又はオペレータへの転送）を行うことができる。

ここで、通常、チャットボットは、問合せ(電話)を行う各ユーザに対して同じ対応を行う。このことにより、あるユーザにとっては無駄である説明・質問等が繰り返し行われたり、ユーザに無駄な操作を求めてしまうおそれがある。このことで、問合せを行ったユーザの満足度を低減させてしまうおそれがある。

本発明の一側面は上記実情に鑑みてなされたものであり、各ユーザに合った応答を提供することにより、ユーザの満足度を向上させることを目的とする。

本発明の一態様に係る対話システムは、ユーザからの問合せに対する応答を提供する対話システムであって、問合せに係る過去の音声認識の内容をユーザ毎に記憶する記憶部と、問合せに係るユーザを識別するユーザ識別情報を含む問合せ情報をユーザから取得する取得部と、記憶部を参照することにより、問合せ情報に含まれるユーザ識別情報によって特定されるユーザの過去の音声認識の内容を特定し、特定した過去の音声認識の内容に基づいて、応答内容を決定する決定部と、決定部によって決定された応答内容に従って問合せに対応する応答を提供する応答提供部と、を備える。

本発明の一態様に係る対話システムでは、ユーザからの問合せ情報が取得されると共に、該ユーザの過去の音声認識の内容に基づいて、問合せに対する応答内容が決定される。過去の音声認識の内容としては、例えば、音声認識の成否や音声の特徴等が含まれるところ、このような情報を有効活用して応答内容を決定することにより、応答時間を短縮すると共にユーザが求めている応答（ユーザに合った応答）を提供し易くなり、問合せを行ったユーザの満足度を向上させることができる。

記憶部は、過去の音声認識の内容として、過去の音声認識の成否をユーザ毎に記憶しており、決定部は、記憶部を参照し、問合せ情報に含まれるユーザ識別情報によって特定されるユーザについて、過去の音声認識の失敗率又は失敗回数が所定値より大きい場合には、音声認識をユーザに求めない応答を行うように、応答内容を決定してもよい。これにより、音声認識に失敗し易いユーザに対しては、音声認識以外の方法（例えば音声案内に沿ったボタンプッシュ、或いはオペレータへの転送等）により応答を提供することができる。このことで、音声認識が行えない（或いは行うことが得意でない）ユーザの満足度を向上させることができる。

記憶部は、過去の音声認識の内容として、過去の音声認識に要した時間をユーザ毎に記憶しており、決定部は、記憶部を参照し、問合せ情報に含まれるユーザ識別情報によって特定されるユーザについて、過去の音声認識に要した時間が所定時間より長い場合には、音声認識をユーザに求めない応答を行うように、応答内容を決定してもよい。音声認識に時間を要しているユーザは、音声認識を行うことが得意でない（音声認識を行いたくない）ユーザであると推測される。このため、このようなユーザについては音声認識以外の方法により応答を提供することによって、ユーザの満足度を向上させることができる。

記憶部は、過去の音声認識の内容として、過去の音声認識における音声の特徴をユーザ毎に記憶しており、決定部は、記憶部を参照し、問合せ情報に含まれるユーザ識別情報によって特定されるユーザについて、過去の音声認識における音声の特徴に応じて応答内容を決定してもよい。例えば、音声の特徴から、言語、方言、世代、話し方等を特定することができる。このため、例えばこのような音声の特徴に沿ったオペレータに転送する等の応答を行うことによって、ユーザの満足度を向上させることができる。

記憶部は、過去の音声認識の内容として、過去の音声認識によって導かれた過去の問合せ内容を記憶しており、決定部は、記憶部を参照し、問合せ情報に含まれるユーザ識別情報によって特定されるユーザについて、過去の問合せ内容に応じて応答内容を決定してもよい。このように、過去の問合せ内容を活用して応答内容を決定することにより、例えば過去に既に取得済みの情報をユーザに質問する（聞き返しを行う）等の応答が行われることを回避することができ、応答時間を短縮し、ユーザの満足度を向上させることができる。

本発明の一側面によれば、各ユーザに合った応答を提供することにより、ユーザの満足度を向上させることができる。

本実施形態に係る対話システムに含まれる対話装置の機能構成を示すブロック図である。情報ＤＢに記憶されている問合せテーブルの一例を示す図である。対話装置が行う処理を示すフローチャートである。対話装置のハードウェア構成を示す図である。

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。

図１は、本実施形態に係る対話システム１に含まれる対話装置１０の機能構成を示すブロック図である。図１に示す対話システム１は、ユーザ端末５０（ユーザ）と対話装置１０とが対話を行うことにより、ユーザ端末５０からの問合せに対する応答を提供するシステムである。対話システム１は、例えばコールセンター等に導入されるシステムである。本実施形態では、ユーザ端末５０からの着信を対話装置１０が受信することにより、ユーザ端末５０と対話装置１０との対話が開始される。対話システム１は、対話装置１０と、オペレータ端末８０とを含んで構成されている。

オペレータ端末８０は、例えばコールセンター等のオペレータが操作する端末であり、対話装置１０を介して受信するユーザ端末５０からの問合せに対して、オペレータの操作に応じた応答（回答）をユーザ端末５０に提供する。オペレータ端末８０は、例えば音声通話によってユーザ端末５０に応答（オペレータの音声）を提供する。なお、オペレータ端末８０は、例えばテキストメッセージ等をユーザ端末５０に送信することによってユーザ端末５０に応答を提供するものであってもよい。ユーザ端末５０は、音声通話及び無線通信が可能な端末であり、例えばスマートフォン等である。

対話装置１０は、ユーザ端末５０からの問合せに対する応答を提供する装置であり、いわゆるチャットボットを利用した装置である。チャットボットとは、チャットとボットとを組み合わせた用語であり、例えば人工知能等を活用して、ユーザと対話を行いながらユーザからの問合せに対する応答を提供する自動対話プログラムである。本実施形態では、対話装置１０は、ユーザ端末５０からの着信を契機として、ユーザ端末５０から問合せを受信し、必要に応じてユーザ端末５０に問合せに係る質問（聞き返し）を行い、オペレータ端末８０と協同して或いは単独で、ユーザ端末５０に応答を提供する（詳細は後述）。

図１に示されるように、対話装置１０は、入力部１１（取得部）と、応答内容決定部１２（決定部）と、情報ＤＢ１３（記憶部）と、出力部１４（応答提供部）と、転送部１５（応答提供部）と、応対記録部１６と、を備えている。

入力部１１は、ユーザ端末５０からの着信を受けることにより、ユーザ端末５０から問合せ情報を取得する。入力部１１は、ユーザ端末５０からの着信を受け、ユーザ端末５０の電話番号を取得する。また、入力部１１は、ユーザ端末５０から問合せの内容を取得する。入力部１１は、ユーザ端末５０から着信があった際に行われる音声認識の結果、又は、音声ガイダンスに従ってユーザ端末５０において入力される入力結果（番号入力結果）に応じて、ユーザ端末５０から問合せの内容を取得する。なお、音声認識は、従来から周知の技術を用いることによって行われる。音声認識は、対話装置１０において行われてもよいし、外部装置（不図示）によって行われその結果を対話装置１０が取得するものであってもよい。また、音声ガイダンスに従った番号入力は、従来から周知のＩＶＲ（Interactive Voice Response）の技術を用いることができる。このようにして、入力部１１は、ユーザ端末５０から電話番号及び問合せの内容を取得する。そして、入力部１１は、電話番号及び問合せの内容を含んだ問合せ情報を応答内容決定部１２に出力する。このように、問合せ情報には、問合せに係るユーザを識別するユーザ識別情報として、電話番号が含まれている。なお、本実施形態ではユーザ識別情報が電話番号であるとして説明するがこれに限定されず、ユーザ識別情報はユーザ端末５０（すなわちユーザ）を識別可能な他の情報であってもよい。

応答内容決定部１２は、入力部１１から入力される問合せ情報に基づき、応答内容を決定する。応答内容決定部１２は、最初に、問合せ情報に音声認識の結果が含まれているか否かを判定する。上述したように、入力部１１がユーザ端末５０からの着信を受けた際に音声認識が行われている場合には、問合せ情報に音声認識の結果が含まれている。応答内容決定部１２は、問合せ情報に音声認識の結果が含まれている場合には、具体的な内容（音声認識の内容）を特定する。音声認識の内容とは、例えば音声認識の成否、音声認識に要した時間、音声認識における音声の特徴、音声認識によって導かれるユーザ端末５０の問合せ内容等である。音声認識における音声の特徴とは、ユーザの音声から推定される言語（日本語、英語等）、方言（どの地方の言葉）、世代、又は話し方（早い、ゆっくり等）等である。応答内容決定部１２は、特定した音声認識の内容に基づき、情報ＤＢ１３の問合せテーブルＴＢを更新する。情報ＤＢ１３は、問合せに係る過去の音声認識の内容を含む、過去情報をユーザ毎に記憶している。ユーザ毎とは、例えば、電話番号毎、ユーザ端末の情報（端末製造番号）毎、ユーザからテキスト又は音声で入力されたユーザ識別ＩＤ毎等を含むものである。

図２は、情報ＤＢ１３に記憶されている問合せテーブルＴＢの一例を示す図である。図２に示されるように、問合せテーブルＴＢでは、電話番号（ユーザ端末５０を識別するユーザ識別情報）に関連付けて、音声認識成功回数と、音声認識失敗回数と、音声認識発話時間と、言語情報と、問合せ内容と、対応オペレータと、クレーム有無とが記憶されている。音声認識成功回数（又は失敗回数）は、例えば、該当のユーザ端末５０について音声認識が成功した（又は失敗した）回数の累計である。音声認識発話時間は、例えば一度の音声認識に要した時間であり、複数回音声認識を行っているユーザ端末５０については、音声認識の平均時間とされてもよいし最長時間とされてもよい。言語情報は、音声認識における音声の特徴に関する各種情報であり、例えばユーザの音声から推定される言語（日本語、英語等）、方言（どの地方の言葉）、世代、又は話し方（早い、ゆっくり等）等である。問合せ内容は、過去に行われた音声認識によって特定した問合せの内容、音声ガイダンスに従って行われたユーザ端末５０における入力によって特定した問合せの内容、又は、オペレータ端末８０における応対によって特定した問合せの内容である。対応オペレータは、過去に行われたオペレータ端末８０による対応において対応したオペレータを特定する情報である。このような対応オペレータの情報が記録されていることにより、前回と同じオペレータ端末８０に繋ぐ等が可能となり、ユーザ満足度を向上させることができる。クレーム有無は、過去に行われたオペレータ端末８０による対応において該当のユーザ端末５０のユーザからクレームがあったか否かを示す情報である。このようなクレーム有無の情報が記録されていることにより、例えば、クレームが多いユーザ端末５０については専用のオペレータ端末８０（高スキルのオペレータ端末８０）に繋ぐなどを行うことが可能となり、ユーザ満足度を向上させることができる。応答内容決定部１２は、問合せ情報に音声認識の成否が含まれている場合には問合せテーブルＴＢの音声認識成功回数（又は失敗回数）を更新し、音声認識に要した時間が含まれている場合には問合せテーブルＴＢの音声認識発話時間を更新し、音声の特徴が含まれている場合には問合せテーブルＴＢの言語情報を更新し、問合せ内容が含まれている場合には問合せテーブルＴＢの問合せ内容を更新する。

応答内容決定部１２は、情報ＤＢ１３の問合せテーブルＴＢを参照することにより、問合せ情報に含まれる電話番号によって特定されるユーザ端末５０の過去の音声認識の内容を特定し、特定した過去の音声認識の内容に基づいて、応答内容を決定する。

応答内容決定部１２は、情報ＤＢ１３の問合せテーブルＴＢを参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末５０について、過去の音声認識の失敗率又は失敗回数が所定値より大きい場合には、音声認識をユーザ端末５０に求めない応答を行うように、応答内容を決定してもよい。失敗回数は、問合せテーブルＴＢの音声認識失敗回数が参照されることにより取得される。また、失敗率は、問合せテーブルＴＢの音声認識失敗回数及び音声認識成功回数から導かれる。

また、応答内容決定部１２は、情報ＤＢ１３の問合せテーブルＴＢを参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末５０について、過去の音声認識に要した時間が所定時間より長い場合には、音声認識をユーザ端末５０に求めない応答を行うように、応答内容を決定してもよい。音声認識に要した時間は、問合せテーブルＴＢの音声認識発話時間が参照されることにより取得される。

また、応答内容決定部１２は、情報ＤＢ１３の問合せテーブルＴＢを参照し、問合せ情報に含まれる電話番号によって特定されるユーザについて、過去の音声認識における音声の特徴に応じて応答内容を決定してもよい。音声の特徴は、問合せテーブルＴＢの言語情報が参照されることにより取得される。応答内容決定部１２は、例えば、音声の特徴から、ユーザの言語（日本語、英語等）、方言（どの地方の言葉）、世代、又は話し方（早い、ゆっくり等）等を特定し、特定した特徴に応じたオペレータのオペレータ端末８０に転送されるように、応答内容を決定する。

また、応答内容決定部１２は、情報ＤＢ１３の問合せテーブルＴＢを参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末５０について、過去の問合せ内容に応じて応答内容を決定してもよい。過去の問合せの内容は、問合せテーブルＴＢの問合せ内容が参照されることにより取得される。応答内容決定部１２は、例えば過去の音声認識等によって既に取得済みの情報については、出力部１４からユーザ端末５０に聞き返しの質問が行われないように、応答内容を決定する。

応答内容決定部１２は、応答内容に基づき、情報ＤＢ１３の問合せテーブルＴＢの情報を利用して応答を生成しない場合、または、情報ＤＢ１３の問合せテーブルＴＢの情報を利用して応答を生成したいが該当のユーザ端末５０について問合せテーブルＴＢの情報が格納されていない場合には、問合せテーブルＴＢの情報を用いずに応答を生成する。この場合には、応答内容決定部１２は、例えば、所定のシナリオに沿ってユーザ端末５０に聞き返しの質問（ユーザ端末５０の問合せを深掘りするための質問）を行う（出力部１４が質問を行う）応答を生成してもよいし、音声認識を行う応答を生成してもよいし、転送部１５がオペレータ端末８０に接続する応答（どのオペレータ端末８０にどのタイミングで接続する等の情報を含む）を生成してもよい。応答内容決定部１２は、情報ＤＢ１３の問合せテーブルＴＢの情報を利用して応答を生成する場合、問合せテーブルＴＢを参照して応答を生成する。

応答内容決定部１２は、応答を生成すると、出力部１４又は転送部１５に応答提供指示を出力する。出力部１４に出力される応答提供指示には、例えば、生成された応答が含まれている。転送部１５に出力される応答提供指示には、例えば、生成された応答と、応答内容を決定するに際して用いられた情報（問合せ情報、該当ユーザ端末５０に係る問合せテーブルＴＢの情報等）とが含まれている。

出力部１４は、応答内容決定部１２によって決定された応答内容に従って問合せに対する応答をユーザ端末５０に提供する。出力部１４は、応答内容決定部１２から応答提供指示を受け、該応答提供指示に含まれている応答をユーザ端末５０に出力する。出力部１４から出力される応答は、例えば音声又はテキストメッセージによりユーザ端末５０に提供されてもよい。

転送部１５は、応答内容決定部１２から応答提供指示を受け、オペレータ端末８０に応答依頼を指示することにより、オペレータ端末８０と協同して、ユーザ端末５０に応答を提供する。転送部１５は、応答提供指示に含まれている応答に示されたオペレータ端末８０に、応答依頼を指示する。応答依頼には、例えば、応答内容を決定するに際して用いられた情報（問合せ情報、該当ユーザ端末５０に係る問合せテーブルＴＢの情報等）が含まれている。オペレータ端末８０のオペレータは、これらの情報を参照することによって、ユーザ端末５０に適切な応答を提供してもよい。

応対記録部１６は、オペレータ端末８０におけるユーザ端末５０との応対記録を情報ＤＢ１３の問合せテーブルＴＢに記録（問合せテーブルＴＢを更新）する。オペレータ端末８０は、例えばオペレータからの入力に応じて、ユーザ端末５０の電話番号、ユーザ端末５０からの問合せ内容、対応オペレータ名、及びユーザ端末５０のユーザからのクレームの有無等の情報を対話装置１０に送信する。応対記録部１６は、オペレータ端末８０から送信された情報に基づき、情報ＤＢ１３の問合せテーブルＴＢを更新する。具体的には、応対記録部１６は、問合せテーブルＴＢにおける該当のユーザ端末５０について、問合せ内容、対応オペレータ、及びクレーム有無を更新する。

次に、図３のフローチャートを参照して、対話装置１０が行う処理について説明する。図３は、対話装置１０が行う処理を示すフローチャートである。なお、図３の説明においては、応答内容決定部１２が行う、広義の意味での「応答内容を決定する」処理の具体的処理として、問合せ情報に基づき応答内容を決定する処理（ステップＳ４）、情報ＤＢを利用するか否かを判定する処理（ステップＳ５及びステップＳ６）、情報ＤＢを利用して応答を生成する処理（ステップＳ７）、及び情報ＤＢを利用せずに応答を生成する処理（ステップＳ８）を例示している。

図３に示されるように、ユーザ端末５０から着信があると（ステップＳ１）、対話装置１０の応答内容決定部１２は、問合せ情報に所定の情報（具体的には、音声認識の結果）が含まれているか否かを判定する（ステップＳ２）。

ステップＳ２において問合せ情報に音声認識の結果が含まれている場合には、応答内容決定部１２は、特定した音声認識の内容に基づき、情報ＤＢ１３の問合せテーブルＴＢ（図２参照）を更新する（ステップＳ３）。具体的には、応答内容決定部１２は、問合せ情報に音声認識の成否が含まれている場合には問合せテーブルＴＢの音声認識成功回数（又は失敗回数）を更新し、音声認識に要した時間が含まれている場合には問合せテーブルＴＢの音声認識発話時間を更新し、音声の特徴が含まれている場合には問合せテーブルＴＢの言語情報を更新し、問合せ内容が含まれている場合には問合せテーブルＴＢの問合せ内容を更新する。

つづいて、応答内容決定部１２は、入力部１１から入力される問合せ情報に基づき、応答内容を決定する（ステップＳ４）。応答内容決定部１２は、例えば音声認識に係る応答を行う場合には、情報ＤＢ１３の問合せテーブルＴＢの情報を利用すると決定する。また、応答内容決定部１２は、例えば情報ＤＢ１３の情報に関係なく定型的な質問に係る応答を行う場合には、情報ＤＢ１３の問合せテーブルＴＢの情報を利用しないと決定する。。

つづいて、応答内容決定部１２は、応答内容に基づき、情報ＤＢ１３の問合せテーブルＴＢの情報（すなわち過去情報）を利用する応答であるか否かを判定する（ステップＳ５）。さらに、応答内容決定部１２は、ステップＳ５において問合せテーブルＴＢの情報を利用する応答であると判定した場合において、問合せテーブルＴＢに該当のユーザ端末５０の情報が格納されているか否かを判定する（ステップＳ６）。ステップＳ５において問合せテーブルＴＢの情報を利用する応答でないと判定した場合、又は、ステップＳ６において問合せテーブルＴＢに該当のユーザ端末５０の情報が格納されていないと判定した場合には、応答内容決定部１２は、問合せテーブルＴＢの情報（すなわち過去情報）を利用せずに応答を生成する（ステップＳ８）。一方で、ステップＳ６において問合せテーブルＴＢに該当のユーザ端末５０の情報が格納されていると判定した場合には、応答内容決定部１２は、問合せテーブルＴＢの情報（すなわち過去情報）を利用して応答を生成する（ステップＳ７）。

つづいて、応答内容決定部１２は、生成した応答がオペレータ端末８０への転送に係るものであるか否かを判定する（ステップＳ９）。ステップＳ９においてオペレータ端末８０への転送に係る応答であると判定した場合には、応答内容決定部１２が転送部１５に応答提供指示を出力し、転送部１５がオペレータ端末８０に応答依頼を指示し、オペレータ端末８０に所定の情報が転送される（ステップＳ１０）。応答依頼には、例えば、応答内容を決定するに際して用いられた情報（問合せ情報、該当ユーザ端末５０に係る問合せテーブルＴＢの情報等）が含まれている。そして、オペレータ端末８０においてユーザ端末５０の応対が行われた後に、オペレータ端末８０から応対記録部１６に応対記録が送信され、応対記録部１６によって該応対記録が情報ＤＢ１３の問合せテーブルＴＢに格納される（ステップＳ１１）。一方で、ステップＳ９においてオペレータ端末８０への転送に係る応答でないと判定した場合には、応答内容決定部１２が出力部１４に応答提供指示を出力し、出力部１４が応答をユーザ端末５０に出力する（ステップＳ１２）。

次に、本実施形態に係る対話システム１の作用効果について説明する。

ユーザ端末５０からの問合せに対する応答を提供する対話システム１の対話装置１０は、問合せに係る過去の音声認識の内容をユーザ毎に記憶する情報ＤＢ１３と、問合せに係るユーザ端末５０を識別する電話番号を含む問合せ情報をユーザ端末５０から取得する入力部１１と、情報ＤＢ１３の問合せテーブルＴＢを参照することにより、問合せ情報に含まれる電話番号によって特定されるユーザ端末５０の過去の音声認識の内容を特定し、特定した過去の音声認識の内容に基づいて、応答内容を決定する応答内容決定部１２と、応答内容決定部１２によって決定された応答内容に従って問合せに対応する応答を提供する出力部１４及び転送部１５と、を備える。

本実施形態に係る対話システム１では、ユーザ端末５０からの問合せ情報が取得されると共に、該ユーザ端末５０の過去の音声認識の内容に基づいて、問合せに対する応答内容が決定される。過去の音声認識の内容としては、例えば、音声認識の成否や音声の特徴等が含まれるところ、このような情報を有効活用して応答内容を決定することにより、応答時間を短縮すると共にユーザが求めている応答（ユーザに合った応答）を提供し易くなり、問合せを行ったユーザの満足度を向上させることができる。応答時間が短縮されることによって、ＣＰＵ等の処理部における処理負荷を軽減するという技術的効果も併せて奏する。

情報ＤＢ１３は、過去の音声認識の内容として、過去の音声認識の成否をユーザ毎に記憶しており、応答内容決定部１２は、情報ＤＢ１３を参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末５０について、過去の音声認識の失敗率又は失敗回数が所定値より大きい場合には、音声認識をユーザに求めない応答を行うように、応答内容を決定する。これにより、音声認識に失敗し易いユーザ端末５０に対しては、音声認識以外の方法（例えば音声案内に沿ったボタンプッシュ、或いはオペレータへの転送等）により応答を提供することができる。このことで、音声認識が行えない（或いは行うことが得意でない）ユーザの満足度を向上させることができる。

情報ＤＢ１３は、過去の音声認識の内容として、過去の音声認識に要した時間をユーザ毎に記憶しており、応答内容決定部１２は、情報ＤＢ１３を参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末５０について、過去の音声認識に要した時間が所定時間より長い場合には、音声認識をユーザ端末５０に求めない応答を行うように、応答内容を決定する。音声認識に時間を要しているユーザ端末５０は、音声認識を行うことが得意でない（音声認識を行いたくない）ユーザ端末５０であると推測される。このため、このようなユーザ端末５０については音声認識以外の方法により応答を提供することによって、ユーザの満足度を向上させることができる。

情報ＤＢ１３は、過去の音声認識の内容として、過去の音声認識における音声の特徴をユーザ毎に記憶しており、応答内容決定部１２は、情報ＤＢ１３を参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末５０について、過去の音声認識における音声の特徴に応じて応答内容を決定する。例えば、音声の特徴から、言語、方言、世代、話し方等を特定することができる。このため、例えばこのような音声の特徴に沿ったオペレータに転送する等の応答を行うことによって、ユーザの満足度を向上させることができる。

情報ＤＢ１３は、過去の音声認識の内容として、過去の音声認識によって導かれた過去の問合せ内容を記憶しており、応答内容決定部１２は、情報ＤＢ１３を参照し、問合せ情報に含まれる電話番号によって特定されるユーザ端末５０について、過去の問合せ内容に応じて応答内容を決定する。このように、過去の問合せ内容を活用して応答内容を決定することにより、例えば過去に既に取得済みの情報をユーザ端末５０に質問する（聞き返しを行う）等の応答が行われることを回避することができ、応答時間を短縮し、ユーザの満足度を向上させることができる。

最後に、対話システム１に含まれた対話装置１０のハードウェア構成について、図４を参照して説明する。上述の対話装置１０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。対話装置１０のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

対話装置１０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることで、プロセッサ１００１が演算を行い、通信装置１００４による通信や、メモリ１００２及びストレージ１００３におけるデータの読み出し及び／又は書き込みを制御することで実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）で構成されてもよい。例えば、対話装置１０の応答内容決定部１２等の制御機能はプロセッサ１００１で実現されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュールやデータを、ストレージ１００３及び／又は通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、対話装置１０の応答内容決定部１２等の制御機能は、メモリ１００２に格納され、プロセッサ１００１で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、１つのプロセッサ１００１で実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）などの少なくとも１つで構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本発明の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ−ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ−ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つで構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及び／又はストレージ１００３を含むデータベース、サーバその他の適切な媒体であってもよい。

通信装置１００４は、有線及び／又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

また、プロセッサ１００１やメモリ１００２などの各装置は、情報を通信するためのバス１００７で接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

また、対話装置１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つで実装されてもよい。

以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。

本明細書で説明した各態様／実施形態は、ＬＴＥ（Long Term Evolution）、ＬＴＥ−Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ−Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ−ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broad-band）、ＩＥＥＥ８０２．１１（Ｗｉ−Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-Wide Band）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

本明細書で説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：trueまたはfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

本明細書で説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

なお、本明細書で説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。

ユーザ端末は、当業者によって、移動通信端末、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。

本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)（例えば、テーブル、データベースまたは別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。

本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本明細書で「第１の」、「第２の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第１および第２の要素への参照は、２つの要素のみがそこで採用され得ること、または何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

「含む（include）」、「含んでいる（including）」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または（or）」は、排他的論理和ではないことが意図される。

本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。

本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。

１…対話システム、１０…対話装置、１１…入力部（取得部）、１３…情報ＤＢ（記憶部）、１２…応答内容決定部（決定部）、１４…出力部（応答提供部）、１５…転送部（応答提供部）、５０…ユーザ端末。

Claims

ユーザからの問合せに対する応答を提供する対話システムであって、
前記問合せに係る過去の音声認識の内容をユーザ毎に記憶する記憶部と、
前記問合せに係るユーザを識別するユーザ識別情報を含む問合せ情報をユーザから取得する取得部と、
前記記憶部を参照することにより、前記問合せ情報に含まれる前記ユーザ識別情報によって特定されるユーザの過去の音声認識の内容を特定し、特定した過去の音声認識の内容に基づいて、応答内容を決定する決定部と、
前記決定部によって決定された応答内容に従って問合せに対応する応答を提供する応答提供部と、を備える、対話システム。
前記記憶部は、前記過去の音声認識の内容として、過去の音声認識の成否をユーザ毎に記憶しており、
前記決定部は、前記記憶部を参照し、前記問合せ情報に含まれる前記ユーザ識別情報によって特定されるユーザについて、過去の音声認識の失敗率又は失敗回数が所定値より大きい場合には、音声認識をユーザに求めない応答を行うように、前記応答内容を決定する、請求項１記載の対話システム。
前記記憶部は、前記過去の音声認識の内容として、過去の音声認識に要した時間をユーザ毎に記憶しており、
前記決定部は、前記記憶部を参照し、前記問合せ情報に含まれる前記ユーザ識別情報によって特定されるユーザについて、過去の音声認識に要した時間が所定時間より長い場合には、音声認識をユーザに求めない応答を行うように、前記応答内容を決定する、請求項１又は２記載の対話システム。
前記記憶部は、前記過去の音声認識の内容として、過去の音声認識における音声の特徴をユーザ毎に記憶しており、
前記決定部は、前記記憶部を参照し、前記問合せ情報に含まれる前記ユーザ識別情報によって特定されるユーザについて、過去の音声認識における音声の特徴に応じて前記応答内容を決定する、請求項１〜３のいずれか一項記載の対話システム。
前記記憶部は、前記過去の音声認識の内容として、過去の音声認識によって導かれた過去の問合せ内容を記憶しており、
前記決定部は、前記記憶部を参照し、前記問合せ情報に含まれる前記ユーザ識別情報によって特定されるユーザについて、過去の問合せ内容に応じて前記応答内容を決定する、請求項１〜４のいずれか一項記載の対話システム。