JPWO2006040969A1 - 対話支援装置 - Google Patents

対話支援装置 Download PDF

Info

Publication number
JPWO2006040969A1
JPWO2006040969A1 JP2006540887A JP2006540887A JPWO2006040969A1 JP WO2006040969 A1 JPWO2006040969 A1 JP WO2006040969A1 JP 2006540887 A JP2006540887 A JP 2006540887A JP 2006540887 A JP2006540887 A JP 2006540887A JP WO2006040969 A1 JPWO2006040969 A1 JP WO2006040969A1
Authority
JP
Japan
Prior art keywords
utterance
dialogue
prediction
dialog
participant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006540887A
Other languages
English (en)
Other versions
JP3962766B2 (ja
Inventor
水谷 研治
研治 水谷
純幸 沖本
純幸 沖本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP3962766B2 publication Critical patent/JP3962766B2/ja
Publication of JPWO2006040969A1 publication Critical patent/JPWO2006040969A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

対話の相手がどのような相手であっても速やかに対話が完了するように対話を支援することができる対話支援装置を提供する。対話支援装置100は、対話参加者の発話を受け付け、発話を特定するための発話情報を出力する発話受付部101、発話情報により特定される発話を他の発話形態に変換する発話処理部102、他の発話形態に変換された発話情報を他の対話参加者への発話として出力する発話出力部103、対話参加者の過去の2つ以上の発話情報を発話時刻の順に並べた対話履歴を格納している対話履歴データベース104、および、対話履歴に基づいて第1発話予測情報を作成するとともに、他の対話支援装置から第2発話予測情報を取得し、第1発話予測情報および第2発話予測情報に基づいて対話支援装置100を使用する対話参加者の次の発話を予測する発話予測部105を備える。

Description

本発明は、人と人との対話を支援する対話支援装置に関するものである。
従来、一般の人々が海外旅行先等で現地の人々と対話をする際に、その異言語対話を支援することを目的として翻訳装置が開発されてきた。例えば代表的なものとして、例文や用例の対訳に基づく翻訳方式を、PDA(Personal Digital Assistance)などの小型の情報処理装置に実装した翻訳装置がある。そのような装置では、一般的な旅行会話をカバーするために数千以上の用例が用意されているので、ユーザに所望の用例をそのリストから目視で選択させるだけでは実際の使用状況における使い勝手、すなわち、ユーザビリティに問題がある。特に、用例のリストを見るための表示部が小さく、同時に見ることができる用例の数が少ない場合は、この問題は一層顕著になる。また、翻訳装置の一般的な使用状況を想定すると、相手との対話の中で数文以上の用例を使用しなければならない場合がほとんどであり、翻訳装置を介して1つの対話が完了するまでに予想以上の時間を要してしまう。そこで、人と人との対話支援を最終目的として、大量の用例リストの中からユーザに所望の用例を速やかに選択させるための、何らかの選択補助機能が必要とされている。
この問題を解決するための一方法として、見本対話モデルや会話練習履歴コーパスを利用してユーザの次の発話候補を絞り込む手法が提案されている(例えば特許文献1参照)。
特開2003−30187号公報
過去に翻訳装置のユーザが行った対話の履歴に基づく次発話候補の絞込みは、相手がその中に含まれている場合は有効である。また、事前にユーザが仮想的に対話の練習を行った履歴や典型的な対話のパターンに基づく次発話候補の絞込みは、自分が想定する対話のパターンに従う相手であれば有効である。しかしながら、対話のパターンは人によって異なるのが一般的である。例えば、レストランの予約をするために旅行者がレストランのウェイターと対話を開始する場合、旅行者の発話「席を予約したいのですが」に対して、あるウェイターは「何日ですか」という予約の日時についての発話から対話を開始する可能性もあれば、別のウェイターは「何人ですか」という予約の人数に関する発話から対話を開始する可能性もある。したがって、対話の相手によっては絞込みに失敗するだけでなく、誤った絞込みによって対話参加者を混乱させることになり、逆に対話が完了するまでに要する時間が増加するという問題がある。特に、通信インフラが整備されていない地域を旅行する場合には、ネットワークを利用せずにユーザの翻訳装置だけで解決しなければならない。
そこで、本発明は上記の事情に鑑みてなされたものであり、ネットワークが利用できない場合であっても、また対話の相手がどのような相手であっても速やかに対話が完了するように対話を支援することができる対話支援装置を提供することを目的とする。
上記目的を達成するため、本発明に係る対話支援装置は、対話参加者によって行われる対話を支援する対話支援装置であって、前記対話参加者の過去の対話履歴を格納している対話履歴データベースと、前記対話履歴データベースに格納されている前記対話履歴に基づいて第1発話予測情報を作成するとともに、他の対話支援装置から第2発話予測情報を取得し、前記第1発話予測情報および前記第2発話予測情報に基づいて、当該対話支援装置を使用する対話参加者の前記対話における次の発話を予測する発話予測手段とを備えることを特徴とする。
本発明に係る対話支援装置によれば、ユーザは次発話候補の中から用例を容易に選択することが可能になる。したがって、対話の相手を待たせることがないので対話支援装置を介した対話をスムーズに進行することができる。また、次発話候補は自分の対話履歴と相手の対話履歴だけから生成されるので、典型的な対話パターンなどの情報を装置の内外に実装する必要がなく、装置全体の実装規模を縮小することが可能になる。
図1は、本発明に係る対話支援装置の一実施の形態の構成を示すブロック図である。 図2は、2つの対話支援装置を用いて対話を行う場合の実施の形態の構成を示すブロック図である。 図3は、対話支援装置における入出力の発話と発話No.の対応関係の一例を示す図である。 図4、は対話支援装置における入出力の発話と発話No.の対応関係の一例を示す図である。 図5(a)、図5(b)は、対話履歴データベースに格納される対話履歴の一例を示す図である。 図6は、本発明に係る対話支援装置が利用される場面の一例を示す図である。 図7は、発話予測部の動作の流れを示すフローチャートである。 図8は、本発明に係る対話支援装置の表示例を示す図である。 図9は、予測スタックの作成手順を示すフローチャートである。 図10は、対話履歴の発話数を調整する動的計画法のアルゴリズムを示す図である。 図11は、対話履歴xに対して動的計画法を適用した例を示す図である。 図12(a)、図12(b)は、本発明に係る対話支援装置の表示例を示す図である。 図13(a)、図13(b)は、本発明に係る対話支援装置の表示例を示す図である。 図14(a)、図14(b)は、本発明に係る対話支援装置の表示例を示す図である。 図15(a)、図15(b)は、本発明に係る対話支援装置の表示例を示す図である。 図16(a)、図16(b)は、本発明に係る対話支援装置の表示例を示す図である。 図17(a)、図17(b)は、本発明に係る対話支援装置の表示例を示す図である。 図18(a)、図18(b)は、本発明に係る対話支援装置の表示例を示す図である。 図19は、本発明によって支援される対話を形式的に表現した図である。 図20は、新しく生成された対話d’を示す図である。 図21(a)、図21(b)は、対話履歴の類似度を定義する数式と計算の例を示す図である。 図22は、対話履歴の類似度を比較した図である。 図23は、本発明による対話を形式的に表現した図である。 図24(a)、図24(b)は、新しく生成された対話d’’と対話履歴の類似度の比較を示す図である。 図25は、対話支援装置における入出力の発話と発話No.の対応関係の一例を示す図である。 図26は、対話支援装置における入出力の発話と発話No.の対応関係の一例を示す図である。 図27(a)、図27(b)は、対話履歴データベースに格納される対話履歴の一例を示す図である。 図28は、本発明に係る対話支援装置の表示例を示す図である。 図29(a)、図29(b)は、本発明に係る対話支援装置の表示例を示す図である。 図30(a)、図30(b)は、本発明に係る対話支援装置の表示例を示す図である。 図31(a)、図31(b)は、本発明に係る対話支援装置の表示例を示す図である。 図32(a)、図32(b)は、本発明に係る対話支援装置の表示例を示す図である。 図33(a)、図33(b)は、本発明に係る対話支援装置の表示例を示す図である。 図34(a)、図34(b)は、本発明に係る対話支援装置の表示例を示す図である。 図35(a)、図35(b)は、本発明に係る対話支援装置の表示例を示す図である。 図36は、本発明によって支援される対話を形式的に表現した図である。 図37は、新しく生成された対話fを示す図である。 図38は、対話履歴の類似度を比較した図である。 図39は、本発明による対話を形式的に表現した図である。 図40(a)、図40(b)は、新しく生成された対話f’と対話履歴の類似度の比較を示す図である。 図41は、対話参加者が1台の対話支援装置を共有する様子を示す図である。 図42は、対話参加者が1台の対話支援装置を共有する様子を示す図である。 図43は、本発明に係る対話支援装置の他の実施の形態の構成を示すブロック図である。 図44は、本発明に係る対話支援装置の他の実施の形態の構成を示すブロック図である。 図45は、本発明に係る対話支援装置の他の実施の形態の構成を示すブロック図である。 図46(a)、図46(b)は、本発明に係る対話支援装置の表示例を示す図である。 図47(a)、図47(b)は、本発明に係る対話支援装置の表示例を示す図である。
符号の説明
101 発話受付部
102 発話処理部
103 発話出力部
104 対話履歴データベース
105 発話予測部
703 対話参加者1のトピック入力領域
704 対話参加者2のトピック入力領域
705 対話参加者1の対話開始ボタン
706 対話参加者2の対話開始ボタン
1101 対話参加者1の発話入力領域
1102 対話参加者2の発話入力領域
1103 対話参加者2への発話出力領域
1104 対話参加者1への発話出力領域
1105 対話参加者1への予測候補の表示領域
1106 対話参加者2への予測候補の表示領域
1107 対話参加者1の対話の予測展開ボタン
1108 対話参加者2の対話の予測展開ボタン
1801 対話参加者に提示された予測候補と対話参加者が実際に入力した発話の対の時系列
1802 対話の分岐点
2001 対話履歴dbに対する対話履歴daの類似度を定義する数式
2002 類似度計算の例
2201 対話参加者に提示された予測候補と対話参加者が実際に入力した発話の対
2401 対話参加者1の対話履歴を格納するメモリカード
2402 対話参加者2の対話履歴を格納するメモリカード
2801 対話参加者1に対するこれまでに交わした対話
2802 対話参加者1に対する今後の対話の予測展開
2803 対話参加者2に対するこれまでに交わした対話
2804 対話参加者2に対する今後の対話の予測展開
本発明の実施の形態に係る対話支援装置は、対話参加者によって行われる対話を支援する対話支援装置であって、前記対話参加者の過去の対話履歴を格納している対話履歴データベースと、前記対話履歴データベースに格納されている前記対話履歴に基づいて第1発話予測情報を作成するとともに、他の対話支援装置から第2発話予測情報を取得し、前記第1発話予測情報および前記第2発話予測情報に基づいて、当該対話支援装置を使用する対話参加者の前記対話における次の発話を予測する発話予測手段とを備えることを特徴とする。
これによって、自分の対話の履歴と相手の対話の履歴だけを利用し、その履歴に基づいて次の発話を予測することができるので、対話の相手がどのような相手であっても速やかに対話が完了するように対話を支援することができる。
ここで、前記発話予測手段は、前記対話履歴データベースに格納されている前記対話履歴の中から前記対話における対話状況が最も近い対話履歴を抽出し、抽出した前記対話履歴を前記第1発話予測情報とすることが好ましい。
また、前記発話予測手段は、前記第1発話予測情報および前記第2発話予測情報に含まれるそれぞれの対話履歴に共通して含まれ、かつ、連続する発話の集合に基づいて予測スタックを作成することが好ましい。
これによって、対話状況が最も近い対話履歴に基づいて対話参加者の次の発話を予測することができる。
また、前記対話支援装置は、さらに、前記対話参加者の発話を受け付ける発話受付手段と、前記発話受付手段により受け付けられた前記発話を他の発話形態に変換する発話処理手段と、前記発話処理手段により変換された前記他の発話形態の前記発話を出力する発話出力手段とを備えてもよい。
これによって、例えば日本語と英語とによる対話等の異言語の対話を支援することができる。
なお、本発明は、このような対話支援装置として実現することができるだけでなく、このような対話支援装置が備える特徴的な手段をステップとする対話支援方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
以下、本発明の実施の形態について、図面を参照しながら説明する。
図1は本発明に係る対話支援装置の一実施の形態の構成を示すブロック図である。
対話支援装置100は、人と人との対話を支援するための装置であり、図1に示すように発話受付部101、発話処理部102、発話出力部103、対話履歴データベース104、および発話予測部105を備えている。ここで、発話受付部101は発話受付手段に、発話処理部102は発話処理手段に、発話出力部103は発話出力手段に、発話予測部105は発話予測手段に、それぞれ相当する。
発話受付部101は、対話参加者の発話を受け付け、発話を特定するための発話情報を出力する。発話処理部102は、発話受付部101から出力された発話情報により特定される発話を他の発話形態に変換する。発話出力部103は、他の発話形態に変換された発話情報を他の対話参加者への発話として出力する。対話履歴データベース104は、対話参加者の過去の2つ以上の発話情報を発話時刻の順に並べた対話履歴を格納している。
発話予測部105は、対話履歴データベース104に格納されている対話履歴に基づいて第1発話予測情報を作成する。また、発話予測部105は、他の対話支援装置から第2発話予測情報を取得する。さらに、発話予測部105は、対話参加者が開始する対話において、第1発話予測情報および第2発話予測情報に基づいて、対話支援装置100を使用する対話参加者の次の発話を予測する。また、発話予測部105は、作成した第1発話予測情報を他の対話支援装置へ通知する。
図1に示す対話支援装置100は本発明の基本構成であり、対話参加者1人が1つの構成を使用する。対話は一般に2名で行われるので、実際に対話を行う場合には2つの対話支援装置100が用いられる。図2は2つの対話支援装置を用いて対話を行う場合の実施の形態の構成を示すブロック図である。
以下、上記のように構成された対話支援装置を用いて、異言語の対話を支援する場合の動作について説明する。ここでは、日本語を話す対話参加者1は対話支援装置100aを使用し、英語を話す対話参加者2は対話支援装置100bを使用すると仮定する。図3は対話支援装置100aにおける入出力の発話と発話No.の対応関係の一例を示す図である。
発話受付部101aは、受け付けた対話参加者1の発話を相当する発話情報に変換する。発話情報は、例えば図3における発話No.である。発話処理部102aは、対話参加者1の発話(日本語)を対話参加者2への発話(英語)に変換して文字列を出力する。例えば、発話No.1が入力されたときは、発話出力部103aに対して発話情報として文字列″May I help you?″を出力する。
対話支援装置100aと全く対称的に、対話支援装置100bの発話処理部102bは対話参加者2の発話を相当する発話情報に変換する。図4は対話支援装置100bにおける入出力の発話と発話No.の対応関係の一例を示す図である。図3と図4とでは発話No.は完全に同じであり、その処理方向が異なる。発話情報は、例えば図4の発話No.であり、発話受付部101bは対話参加者2の発話(英語)を対話参加者1への発話(日本語)に変換して文字列を出力する。例えば、発話No.1が入力されたときは、発話出力部103bに対して発話情報として文字列「いらっしゃいませ。」を出力する。以後、言語方向を考慮しながら説明を簡単にするために、対話参加者1からの発話No.1をJ1、対話参加者2からの発話No.1をE1のように略記する。
発話受付部101aは、図3の日本語のリストの部分を対話参加者1に直接選択させて、その発話No.を発話情報として出力する。また、発話受付部101bは図4の英語のリストの部分を対話参加者2に直接選択させてその発話No.を発話情報として出力する。なお、発話受付部101aまたは発話受付部101bの構成については、音声認識処理を利用して対話参加者の音声を発話No.のいずれかに射影する処理で実現してもよい。また、キーボードから発話の表記や発音に相当する文字列を入力させて、それを発話No.のいずれかに射影して実現しても良い。
図5(a)、(b)は対話履歴データベース104aおよび対話履歴データベース104bに格納される対話履歴の一例を示す図である。対話履歴とは対話参加者によって過去に交わされた発話の履歴であり、各対話参加者の発話時刻の順に並べたものである。各発話は図3または図4で定義される発話のいずれかに相当する。なお、同じ発話No.でも対話参加者の立場によって区別する必要があるので、日本語についてはJを、英語についてはEをそれぞれ発話No.の前に付与して、対話履歴における発話のラベルとして定義する。以後、説明を簡単にするために、1つの対話履歴をそのラベルの列で記述する。例えば、対話履歴d1はd1:E1,J2,E3,J4,E5,J6,E7,E8と記述する。対話履歴にはその対話を交わした対話参加者の情報と対話のトピックが記録されている。例えば対話履歴d1は、対話参加者1がJの立場で対話をしたという情報と、その対話のトピックがチェックインであったという情報が記されている。
以下、図6に示すように対話参加者1が日本人観光客で、対話参加者2が英語を話すホテルのフロントのスタッフであり、ホテルのチェックインを行うために対話を行う場合を例として説明する。
図7は発話予測部105aおよび発話予測部105bの動作の流れを示すフローチャートである。発話予測部105aと発話予測部105bは構成としては独立しているが、双方が連携して動作を行うために情報を交換する必要がある。この連係動作に必要な情報を発話予測情報と呼ぶ。
発話予測部105aおよび発話予測部105bは、まず発話予測を行うために必要な対話履歴を対話履歴データベース104aまたは対話履歴データベース104bから検索するために、対話のトピックの特定を行う(ステップS601)。発話予測部105aは対話履歴データベース104aに対して、発話予測部105bは対話履歴データベース104bに対して検索を行う。例えばPDAとして実現された図8に示すような対話支援装置100aを対話参加者1が使用し、対話支援装置100bを対話参加者2が使用する。対話のトピックはそれぞれトピック入力領域703およびトピック入力領域704を用いて、各対話参加者にタッチパネルから直接入力させることでトピックの情報を取得する。なお、対話のトピックの取得については、このような手動による方法以外にも、自動的に得られるPDAの存在環境の情報(例えば、レストラン、病院、ホテルなどの場所情報)から、自動的に連想する方法で実現してもよい。
各対話参加者によって対話開始ボタン705および対話開始ボタン706が押されると、発話予測部105aは対話参加者1に対して対話履歴d1を、発話予測部105bは対話参加者2に対して対話履歴d3を選択する。理由は、対話履歴d1と対話履歴d3の対話のトピックがホテルであるからである。対話履歴d2および対話履歴d4は対話のトピックが異なるために選択されない。そして、発話予測部105aは対話履歴d1を第1発話予測情報として発話予測部105bへ、発話予測部105bは対話履歴d3を第2発話予測情報として発話予測部105aへ通知する。
次に、発話予測部105aと発話予測部105bは、対話履歴d1:E1,J2,E3,J4,E5,J6,E7,E8と対話履歴d3:E1,E3,J4,J2,E8,E5,J6,E7を用いて予測スタックの作成を開始する(ステップS602)。
図9は予測スタックの作成手順を示すフローチャートである。なお、対話履歴は発話の列によって構成されるので、発話列は対話履歴の部分集合の意味である。
発話予測部105aおよび発話予測部105bは、それぞれの対話履歴の発話数が同じ数になるように図10に示す動的計画法で調整する(ステップS901)。例えば、図5の対話履歴d1(発話数は8)と図11の対話履歴x(発話数は6)を調整する場合、図10に示す動的計画法を対話履歴xに適用すると、対話履歴xは調整されて対話履歴x’となる。調整された対話履歴x’において、ラベルがφの発話はd1との発話数が同じ数になるように追加された空の発話である。しかし、対話履歴d1:E1,J2,E3,J4,E5,J6,E7,E8と対話履歴d3:E1,E3,J4,J2,E8,E5,J6,E7については発話数が同じ8であるので、動的計画法が適用されても結果は同じである。
次に、発話予測部105aおよび発話予測部105bは、各対話履歴について発話ブロックの決定を行う。発話ブロックとは各対話履歴に共通に含まれ、かつ、1つ以上連続する発話の集合である。ただし、各対話履歴に含まれる発話ブロックの数が最小になるような、発話数が最大の発話ブロックを決定する。すなわち、発話列A(発話列B)に含まれる発話数をmとする(ステップS902)。次に、iに1を代入する(ステップS903)。A[i]が発話列Bに存在するか否かを判定する(ステップS904)。なお、A[i]は発話列Aにおけるi番目の発話を示す。また、φについては、A[i]=φ、B[j]=φのとき、A[i]とB[j]が同じであると見なさない。この判定の結果、A[i]が発話列Bに存在する場合(ステップS904でYES)、その発話をB[j]とする(ステップS905)。そして、A[i]からA[i+n]が、発話列B[j]からB[j+n]が同じである最大のnを求めて、それぞれを1つのブロックとする(ステップS906)。次に、iにi+n+1を代入する(ステップS907)。
A[i]が発話列Bに存在するか否かの判定の結果、A[i]が発話列Bに存在しない場合(ステップS904でNO)、A[i]を1つのブロックとする(ステップS908)。そして、iにi+1を代入する(ステップS909)。
次に、i>mであるか否かを判定する(ステップS910)。i>mでない場合(ステップS907でNO)には、再びA[i]が発話列Bに存在するか否かを判定処理以降(ステップS904〜S907)を繰り返す。一方、i>mである場合(ステップS907でYES)には、処理を終了する。
以上の動作により、例えば、対話履歴d1:E1,J2,E3,J4,E5,J6,E7,E8と対話履歴d3:E1,E3,J4,J2,E8,E5,J6,E7に対しては、対話履歴d1:E1,J2,(E3,J4),(E5,J6,E7),E8および対話履歴d3:E1,(E3,J4),J2,E8,(E5,J6,E7)が得られる。括弧で囲まれた発話のラベルが1つの発話ブロックに相当する。ただし、1つの発話だけで構成される発話ブロックについては、表記を簡単にするために括弧を省略する。この対話履歴d1:E1,J2,(E3,J4),(E5,J6,E7),E8およびd3:E1,(E3,J4),J2,E8,(E5,J6,E7)が、それぞれ発話予測部105aの予測スタックJ:E1,J2,(E3,J4),(E5,J6,E7),E8、および、発話予測部105bの予測スタックE:E1,(E3,J4),J2,E8,(E5,J6,E7)となる。
なお、予測スタックの作成手順において、2つの発話が同じか否かの判定処理(ステップS901、S904、S906)を行っているが、発話情報の一致、すなわち、発話No.の一致以外にも、自然言語処理を利用して発話の表層表現(文字表現)の一致、または、内容語の一致などで判定してもよい。例えば、一方の対話履歴に発話「ありがとう。」、他方の対話履歴に発話「ありがとうございます。」の場合などは、これらの発話が異なる発話No.であったとしても表層表現が近いので2つの対話履歴に共通に含まれる発話と判定することが可能である。一方の対話履歴に発話″Thank you.″、他方の対話履歴に発話″Thank you very much.″の場合も同様である。また、一方の対話履歴に発話「これを3セット贈答用に包んで下さい。」、他方の対話履歴に発話「贈答用に3セット、これを包んで下さい。」が含まれる場合などは、内容語が(これ、包む、3セット、贈答用)と定義されていれば、共通に含まれる内容語が多いので2つの対話履歴に共通に含まれる発話と判定することが可能である。また、これらの判定方法を組み合わせて用いても構わない。このように柔軟な判定にすることで、発話No.の一致だけでは発話ブロックの数が増加する場合でも、発話ブロックの数を抑制することが可能になる。
ここで、図7に示すフローチャートの説明に戻る。
発話予測部105aおよび発話予測部105bは、予測スタックを構成した後、予測スタックが空であるか否かを判定する(ステップS603)。発話予測部105aまたは発話予測部105bが何らかの理由で適当な予測スタックを構成できず、予測スタックが空である場合は(ステップS603でYES)、発話予測部105aまたは発話予測部105bは発話予測動作を行わず終了し、相手の発話予測部105aまたは発話予測部105bの動作に従う。
一方、予測スタックが空でない場合(ステップS603でNO)、発話予測部105aおよび発話予測部105bは、予測スタックの先頭の発話を次の発話候補として表示する(ステップS604)。図12は対話が開始された時点の対話支援装置100での表示状態を示す図である。
対話参加者1は用例のリスト1101、対話参加者2は用例のリスト1102を利用して図3および図4で定義されるすべての発話の中から任意の発話を選択して他の対話参加者に伝えることが可能である。発話処理部102aで変換された発話は対話参加者2への発話出力部1103へ、発話処理部102bで変換された発話は対話参加者1への発話出力部1104へ、それぞれ出力され、例えばPDAに内蔵される音声合成処理を利用して表示と同時に読上げられる。予測表示領域1105には発話予測部105aによって予測された対話参加者1の発話、すなわち予測候補が表示される。予測表示領域1106には発話予測部105bによって予測された対話参加者2の発話、すなわち予測候補が表示される。対話参加者1または対話参加者2は、それぞれ予測表示領域1105または予測表示領域1106に表示される予測候補の発話を選択することで、用例のリスト1101または用例のリスト1102の中から所望の発話を検索して選択入力する操作を省略することが可能である。すなわち、相手への発話を迅速に入力することが可能である。
図12において発話予測部105aおよび発話予測部105bは、すでに次の発話候補として表示(ステップS604)を完了している(ステップS605)。すなわち、発話予測部105aは予測スタックJ:E1,J2,(E3,J4),(E5,J6,E7),E8の先頭の発話がEの立場の発話であり、Jの立場とは異なるので、予測表示領域1105には予測候補を表示していない。また、発話予測部105bは予測スタックE:E1,(E3,J4),J2,E8,(E5,J6,E7)の先頭の発話がEの立場の発話であり、同立場なので対話参加者2に対する予測候補としてE1:″May I help you?″を予測表示領域1106に表示している。対話参加者2は用例のリスト1102から発話を選択してもよいが、予測表示領域1106にすでに自分が発話したい内容が表示されているので、図13に示すように予測候補を選択する。E1は発話処理部102bで日本語に変換されて、対話参加者1に対して発話「いらっしゃいませ。」が伝えられる。
このとき、発話予測部105aおよび発話予測部105bは、対話参加者から発話が入力されたか否かを判定している(ステップS605)。対話参加者から発話が入力される(ステップS605でYES)と、発話予測部105aおよび発話予測部105bは、予測スタック上で一致する発話を先頭から検索(ステップS606)し、一致する発話があるか否かを判定する(ステップS607)。一致する発話がある場合(ステップS607でYES)、一致する発話が予測スタックの先頭であるか否かを判定する(ステップS608)。先頭である場合(ステップS608でYES)、予測スタックの先頭の発話を削除して予測スタックを更新する(ステップS609)。そして、発話の削除に伴って結合可能な発話ブロックが出現した場合には、予測スタックの中で結合可能な発話ブロックを結合する(ステップS611)。一方、先頭でない場合(ステップS608でNO)、一致する発話を含むブロックを予測スタックの先頭に移動後、先頭からその発話までを削除して予測スタックを更新する(ステップS610)。そして、予測スタックが空であるか否かの判定処理(ステップS603)に戻る。
上記の例では、対話参加者の発話がE1であることから、発話予測部105aおよび発話予測部105bは、予測スタックの先頭であるE1を削除し、予測スタックをJ:J2,(E3,J4),(E5,J6,E7),E8およびE:(E3,J4),J2,E8,(E5,J6,E7)と更新する。なお、予測スタックJ:J2,(E3,J4),(E5,J6,E7),E8およびE:(E3,J4),J2,E8,(E5,J6,E7)については、結合可能な発話ブロックが存在しないので、予測スタックは変化しない。そして、予測スタックはまだ空ではないので、発話予測部105aは予測スタックJ:J2,(E3,J4),(E5,J6,E7),E8の先頭の発話J2を予測候補とする。すなわち、図14に示すように予測表示領域1105にJ2:「チェックインをお願いします。」を表示する。また、発話予測部105bは予測スタックE:(E3,J4),J2,E8,(E5,J6,E7)の先頭の発話E3を予測候補として、予測表示領域1106にE3:″Have you made reservation?″を表示する。発話予測部105aおよび発話予測部105bは、対話参加者からの発話を待つ。
対話参加者1または対話参加者2は、それぞれ用例のリスト1101または用例のリスト1102から発話を選択してもよいが、予測表示領域1105または予測表示領域1106にすでに自分が発話したい内容が表示されているので予測候補から選択するのが得策である。ここで図15に示すように対話参加者2が対話参加者1よりの早く予測表示領域1106を選択すると、E3は発話処理部102bで日本語に変換されて、対話参加者1に対して発話「予約はされていますか?」が伝えられる。発話予測部105aは、対話参加者からの発話E3が予測スタックJ:J2,(E3,J4),(E5,J6,E7),E8の先頭の発話ブロックの中に存在しないので、J:(E3,J4),J2,(E5,J6,E7),E8として(ステップS610)、J:J4,J2,(E5,J6,E7),E8と更新する(ステップS609)。一方、発話予測部105bは、対話参加者からの発話E3が予測スタックE:(E3,J4),J2,E8,(E5,J6,E7)の先頭の発話ブロックの中に存在するので、E:J4,J2,E8,(E5,J6,E7)と更新する。このとき、予測スタックの中に共通して含まれる連続する発話J4,J2が存在する(ステップS611)。そこで、発話予測部105bは、J4,J2を1つの発話ブロックに結合することで、予測スタックをJ:(J4,J2),(E5,J6,E7),E8およびE:(J4,J2),E8,(E5,J6,E7)と更新する。
発話予測部105aは、同様に、予測スタックはJ:(J4,J2),(E5,J6,E7),E8およびE:(J4,J2),E8,(E5,J6,E7)となっているので、図16に示すように予測表示領域1105に予測候補J4:「はい。」を表示する。発話予測部105bは、予測表示領域1106には対話参加者の立場が異なるので予測候補を表示しない。
対話参加者1は用例のリスト1101から発話を選択してもよいが、予測表示領域1105にすでに自分が発話したい内容が表示されているので、図17に示すように予測表示領域1105を選択すると、J4は発話処理部102aで英語に変換されて、対話参加者2に対して発話″Yes.″が伝えられる。同様に、発話予測部105aおよび発話予測部105bは、予測スタックをJ:J2,(E5,J6,E7),E8およびE:J2,E8,(E5,J6,E7)と更新し、図18に示すように予測表示領域1105にJ2:「チェックインをお願いします。」を表示し、予測表示領域1106には何も表示しない。このように対話参加者1または対話参加者2は、用例のリスト1101または用例のリスト1102の中から所望の発話を検索する必要がなく、速やかに相手に意図を伝えることで、対話の所要時間が削減される。
次に、本発明の効果について客観的に説明する。図19は本実施の形態の対話支援装置100によって支援される対話を形式的に表現した図である。対話は矢印の方向に沿って進行する。実線の矩形は予測スタックの状態であり、矢印に付属する点線の矩形は対話参加者に提示された予測候補と、対話参加者が実際に入力した発話の対の時系列である。例えば、点線の矩形1801は、予測候補として予測表示領域1105に何も表示されず、予測表示領域1106にE3:″Have you made reservation?″が表示されて、対話参加者2がE3を入力し、その後、予測表示領域1105にJ4:「はい。」が表示され、予測表示領域1106には何も表示されず、対話参加者1がJ4を入力したことを示す。図19はまた、対話参加者が入力する発話に応じて予測候補が変化することも示している。特に、矢印の分岐は予測候補に対して対話参加者が入力した発話が複数であったことを示している。例えば、分岐1802は、予測候補として予測表示領域1105にJ2:「チェックインをお願いします。」、予測表示領域1106にE3:″Have you made reservation?″が表示されているときに、対話参加者1がJ2を対話参加者2よりも先に入力した場合と、対話参加者2がE3を対話参加者1よりも先に入力した場合を示す、対話の分岐点である。以下では、そのような複数の対話の進行パターンにおいて、太い矢印に沿って進行する対話を例として取り上げる。この例では、図20に示す対話d’が対話参加者の間で交わされたことになり、対話d’は図5に示す対話履歴データベースの中には存在しないので、新しく生成された対話履歴である。
ここで対話履歴の類似度を定義する。r(da|db)は対話履歴dbに対する対話履歴daの類似度であり、図21(a)の数式2001によって定義される。ただし、対話履歴daと対話履歴dbについては、図9で定義されている予測スタックの作成手順と同様の処理で発話ブロックを決定しておく。size(d)は対話履歴に含まれる発話ブロックの数であり、size(b)は発話ブロックbに含まれる発話の数である。例えば、図21(b)の類似度計算の例2002においては、対話履歴daは4つの発話ブロックから構成されるので、size(da)=4である。また、各発話ブロックに含まれる発話の数は、それぞれ、size(b1)=5,size(b2)=2,size(b3)=4,size(b4)=1であるから、r(da|db)はおよそ0.424と計算される。定性的には、rの値が大きいほど2つの対話履歴の類似度は高い。また、類似度は発話の集合の数に反比例し、共通する発話ブロックの数が少ないほど高い。また、類似度は各集合に含まれる発話数の平均に比例し、1つの発話ブロックに含まれる発話数が多いほど高い。したがって、対話参加者の対話履歴の類似度が高いほど、2人の間で交わされる対話の進行パターンが類似しているので、スムーズな対話が行われることになる。
図22に示すように、対話d’を開始する前の対話参加者の対話履歴d1と対話履歴d3の類似度は0.16である。しかし、本発明の支援によって交わされた対話d’に対する類似度はそれぞれ対話履歴d1とは0.29、対話履歴d3とは0.57である。したがって、一方の対話参加者の対話履歴に他方の対話参加者を従わせて対話をするよりも、よりスムーズな対話がなされたことは明らかである。
以下、対話参加者が予測候補を一部選択せずに対話を続行した場合にも、本発明の効果があることを示す。図23は本実施の形態の対話支援装置100によって支援される対話を形式的に表現した図である。図の解釈は図19と同様であるが、点線の矩形2201は予測表示領域1105の予測候補J2が表示され、予測表示領域1106には何も表示されていないにもかかわらず、対話参加者2は発話E5を用例のリスト1102から入力したことを示している。太い矢印に沿って進行した対話は図24に示す対話d’’であり、d’’は図5に示す対話履歴データベースの中には存在しないので、新しく生成された対話履歴である。
図24に示すように対話d’’を開始する前の対話履歴d1とd3の類似度は0.16であるが、交わされた対話に対する類似度はそれぞれ対話履歴d1とは0.33、対話履歴d3とは0.52である。したがって、対話参加者が一部の予測候補に従わなかったにもかかわらず、一方の対話参加者の対話履歴に他方の対話参加者を従わせて対話をするよりも、スムーズな対話がなされたことは明らかである。このように本発明では、対話参加者が予測候補を一部無視する場合でも、その時点からの対話の展開を可能な限り予測することで、対話参加者に対話の自由度を与えつつ、柔軟な対話支援をすることが可能である。
ここまでは、日本語を話す対話参加者1が対話支援装置100aを使用し、英語を話す対話参加者2が対話支援装置100bを使用すると仮定した場合について説明したが、以下では、中国語を話す対話参加者1は対話支援装置100aを使用し、英語を話す対話参加者2は対話支援装置100bを使用すると仮定した場合について説明する。図25は対話支援装置100aにおける入出力の発話と発話No.の対応関係の一例を示す図である。
発話受付部101aは、受け付けた対話参加者1の発話を相当する発話情報に変換する。発話情報は、例えば図25における発話No.である。発話処理部102aは、対話参加者1の発話(中国語)を対話参加者2への発話(英語)に変換して文字列を出力する。例えば、発話No.1が入力されたときは、発話出力部103aに対して発話情報として文字列″May I help you?″を出力する。
対話支援装置100aと全く対称的に、対話支援装置100bの発話処理部102bは対話参加者2の発話を相当する発話情報に変換する。図26は対話支援装置100bにおける入出力の発話と発話No.の対応関係の一例を示す図である。図25と図26とでは発話No.は完全に同じであり、その処理方向が異なる。発話情報は、例えば図26の発話No.であり、発話受付部101bは対話参加者2の発話(英語)を対話参加者1への発話(中国語)に変換して文字列を出力する。例えば、発話No.1が入力されたときは、発話出力部103bに対して発話情報として文字列
Figure 2006040969
を出力する。以後、言語方向を考慮しながら説明を簡単にするために、対話参加者1からの発話No.1をC1、対話参加者2からの発話No.1をE1のように略記する。
発話受付部101aは、図25の中国語のリストの部分を対話参加者1に直接選択させて、その発話No.を発話情報として出力する。また、発話受付部101bは図26の英語のリストの部分を対話参加者2に直接選択させてその発話No.を発話情報として出力する。なお、発話受付部101aまたは発話受付部101bの構成については、音声認識処理を利用して対話参加者の音声を発話No.のいずれかに射影する処理で実現してもよい。また、キーボードから発話の表記や発音に相当する文字列を入力させて、それを発話No.のいずれかに射影して実現しても良い。
図27(a)、(b)は対話履歴データベース104aおよび対話履歴データベース104bに格納される対話履歴の一例を示す図である。対話履歴とは対話参加者によって過去に交わされた発話の履歴であり、各対話参加者の発話時刻の順に並べたものである。各発話は図25または図26で定義される発話のいずれかに相当する。なお、同じ発話No.でも対話参加者の立場によって区別する必要があるので、中国語についてはCを、英語についてはEをそれぞれ発話No.の前に付与して、対話履歴における発話のラベルとして定義する。以後、説明を簡単にするために、1つの対話履歴をそのラベルの列で記述する。例えば、対話履歴d5はd5:E1,C2,E3,C4,E5,C6,E7,E8と記述する。対話履歴にはその対話を交わした対話参加者の情報と対話のトピックが記録されている。例えば対話履歴d5は、対話参加者1がCの立場で対話をしたという情報と、その対話のトピックがチェックインであったという情報が記されている。
以下、図6に示すように対話参加者1が中国語を話す観光客で、対話参加者2が英語を話すホテルのフロントのスタッフであり、ホテルのチェックインを行うために対話を行う場合を例として説明する。なお、発話予測部105aおよび発話予測部105bの動作の流れは上記と同様であるので、図7に示すフローチャートを用いて説明し、上記と同様の部分については説明を省略する。
発話予測部105aおよび発話予測部105bは、まず発話予測を行うために必要な対話履歴を対話履歴データベース104aまたは対話履歴データベース104bから検索するために、対話のトピックの特定を行う(ステップS601)。発話予測部105aは対話履歴データベース104aに対して、発話予測部105bは対話履歴データベース104bに対して検索を行う。例えばPDAとして実現された図28に示すような対話支援装置100aを対話参加者1が使用し、対話支援装置100bを対話参加者2が使用する。対話のトピックはそれぞれトピック入力領域703およびトピック入力領域704を用いて、各対話参加者にタッチパネルから直接入力させることでトピックの情報を取得する。
各対話参加者によって対話開始ボタン705および対話開始ボタン706が押されると、発話予測部105aは対話参加者1に対して対話履歴d5を、発話予測部105bは対話参加者2に対して対話履歴d7を選択する。理由は、対話履歴d5と対話履歴d7の対話のトピックがホテルであるからである。対話履歴d6および対話履歴d8は対話のトピックが異なるために選択されない。そして、発話予測部105aは対話履歴d5を第1発話予測情報として発話予測部105bへ、発話予測部105bは対話履歴d7を第2発話予測情報として発話予測部105aへ通知する。
次に、発話予測部105aと発話予測部105bは、対話履歴d5:E1,C2,E3,C4,E5,C6,E7,E8と対話履歴d7:E1,E3,C4,C2,E8,E5,C6,E7を用いて、上記同様に予測スタックを作成する(ステップS602)。そして、例えば、発話予測部105aは、予測スタックC:E1,C2,(E3,C4),(E5,C6,E7),E8を、発話予測部105bは、予測スタックE:E1,(E3,C4),C2,E8,(E5,C6,E7)をそれぞれ作成する。
発話予測部105aおよび発話予測部105bは、予測スタックを構成した後、予測スタックが空であるか否かを判定する(ステップS603)。発話予測部105aまたは発話予測部105bが何らかの理由で適当な予測スタックを構成できず、予測スタックが空である場合は(ステップS603でYES)、発話予測部105aまたは発話予測部105bは発話予測動作を行わず終了し、相手の発話予測部105aまたは発話予測部105bの動作に従う。
一方、予測スタックが空でない場合(ステップS603でNO)、発話予測部105aおよび発話予測部105bは、予測スタックの先頭の発話を次の発話候補として表示する(ステップS604)。図29は対話が開始された時点の対話支援装置100での表示状態を示す図である。
対話参加者1は用例のリスト1101、対話参加者2は用例のリスト1102を利用して図25および図26で定義されるすべての発話の中から任意の発話を選択して他の対話参加者に伝えることが可能である。発話処理部102aで変換された発話は対話参加者2への発話出力部1103へ、発話処理部102bで変換された発話は対話参加者1への発話出力部1104へ、それぞれ出力され、例えばPDAに内蔵される音声合成処理を利用して表示と同時に読上げられる。予測表示領域1105には発話予測部105aによって予測された対話参加者1の発話、すなわち予測候補が表示される。予測表示領域1106には発話予測部105bによって予測された対話参加者2の発話、すなわち予測候補が表示される。対話参加者1または対話参加者2は、それぞれ予測表示領域1105または予測表示領域1106に表示される予測候補の発話を選択することで、用例のリスト1101または用例のリスト1102の中から所望の発話を検索して選択入力する操作を省略することが可能である。すなわち、相手への発話を迅速に入力することが可能である。
図29において発話予測部105aおよび発話予測部105bは、すでに次の発話候補として表示(ステップS604)を完了している(ステップS605)。すなわち、発話予測部105aは予測スタックC:E1,C2,(E3,C4),(E5,C6,E7),E8の先頭の発話がEの立場の発話であり、Cの立場とは異なるので、予測表示領域1105には予測候補を表示していない。また、発話予測部105bは予測スタックE:E1,(E3,C4),C2,E8,(E5,C6,E7)の先頭の発話がEの立場の発話であり、同立場なので対話参加者2に対する予測候補としてE1:″May I help you?″を予測表示領域1106に表示している。対話参加者2は用例のリスト1102から発話を選択してもよいが、予測表示領域1106にすでに自分が発話したい内容が表示されているので、図30に示すように予測候補を選択する。E1は発話処理部102bで中国語に変換されて、対話参加者1に対して発話「いらっしゃいませ。」が伝えられる。
このとき、発話予測部105aおよび発話予測部105bは、対話参加者から発話が入力されたか否かを判定している(ステップS605)。対話参加者から発話が入力される(ステップS605でYES)と、発話予測部105aおよび発話予測部105bは、予測スタック上で一致する発話を先頭から検索(ステップS606)し、一致する発話があるか否かを判定する(ステップS607)。一致する発話がある場合(ステップS607でYES)、一致する発話が予測スタックの先頭であるか否かを判定する(ステップS608)。先頭である場合(ステップS608でYES)、予測スタックの先頭の発話を削除して予測スタックを更新する(ステップS609)。そして、発話の削除に伴って結合可能な発話ブロックが出現した場合には、予測スタックの中で結合可能な発話ブロックを結合する(ステップS611)。一方、先頭でない場合(ステップS608でNO)、一致する発話を含むブロックを予測スタックの先頭に移動後、先頭からその発話までを削除して予測スタックを更新する(ステップS610)。そして、予測スタックが空であるか否かの判定処理(ステップS603)に戻る。
上記の例では、対話参加者の発話がE1であることから、発話予測部105aおよび発話予測部105bは、予測スタックの先頭であるE1を削除し、予測スタックをC:C2,(E3,C4),(E5,C6,E7),E8およびE:(E3,C4),C2,E8,(E5,C6,E7)と更新する。なお、予測スタックC:C2,(E3,C4),(E5,C6,E7),E8およびE:(E3,C4),C2,E8,(E5,C6,E7)については、結合可能な発話ブロックが存在しないので、予測スタックは変化しない。そして、予測スタックはまだ空ではないので、発話予測部105aは予測スタックC:C2,(E3,C4),(E5,C6,E7),E8の先頭の発話C2を予測候補とする。すなわち、図31に示すように予測表示領域1105にC2:
Figure 2006040969
を表示する。また、発話予測部105bは予測スタックE:(E3,C4),C2,E8,(E5,C6,E7)の先頭の発話E3を予測候補として、予測表示領域1106にE3:″Have you made reservation?″を表示する。発話予測部105aおよび発話予測部105bは、対話参加者からの発話を待つ。
対話参加者1または対話参加者2は、それぞれ用例のリスト1101または用例のリスト1102から発話を選択してもよいが、予測表示領域1105または予測表示領域1106にすでに自分が発話したい内容が表示されているので予測候補から選択するのが得策である。ここで図32に示すように対話参加者2が対話参加者1よりの早く予測表示領域1106を選択すると、E3は発話処理部102bで中国語に変換されて、対話参加者1に対して発話
Figure 2006040969
が伝えられる。発話予測部105aは、対話参加者からの発話E3が予測スタックC:C2,(E3,C4),(E5,C6,E7),E8の先頭の発話ブロックの中に存在しないので、C:(E3,C4),C2,(E5,C6,E7),E8として(ステップS610)、C:C4,C2,(E5,C6,E7),E8と更新する(ステップS609)。一方、発話予測部105bは、対話参加者からの発話E3が予測スタックE:(E3,C4),C2,E8,(E5,C6,E7)の先頭の発話ブロックの中に存在するので、E:C4,C2,E8,(E5,C6,E7)と更新する。このとき、予測スタックの中に共通して含まれる連続する発話C4,C2が存在する(ステップS611)。そこで、発話予測部105bは、C4,C2を1つの発話ブロックに結合することで、予測スタックをC:(C4,C2),(E5,C6,E7),E8およびE:(C4,C2),E8,(E5,C6,E7)と更新する。
発話予測部105aは、同様に、予測スタックはC:(C4,C2),(E5,C6,E7),E8およびE:(C4,C2),E8,(E5,C6,E7)となっているので、図33に示すように予測表示領域1105に予測候補C4:「是。」を表示する。発話予測部105bは、予測表示領域1106には対話参加者の立場が異なるので予測候補を表示しない。
対話参加者1は用例のリスト1101から発話を選択してもよいが、予測表示領域1105にすでに自分が発話したい内容が表示されているので、図34に示すように予測表示領域1105を選択すると、C4は発話処理部102aで英語に変換されて、対話参加者2に対して発話″Yes.″が伝えられる。同様に、発話予測部105aおよび発話予測部105bは、予測スタックをC:C2,(E5,C6,E7),E8およびE:C2,E8,(E5,C6,E7)と更新し、図35に示すように予測表示領域1105にC2:
Figure 2006040969
を表示し、予測表示領域1106には何も表示しない。このように対話参加者1または対話参加者2は、用例のリスト1101または用例のリスト1102の中から所望の発話を検索する必要がなく、速やかに相手に意図を伝えることで、対話の所要時間が削減される。
次に、上記の日本語と英語の場合と同様に中国語と英語の場合の効果について客観的に説明する。図36は本実施の形態の対話支援装置100によって支援される対話(中国語と英語の場合)を形式的に表現した図である。図の解釈は図19と同様であり、例えば点線の矩形3601は、予測候補として予測表示領域1105に何も表示されず、予測表示領域1106にE3:″Have you made reservation?″が表示されて、対話参加者2がE3を入力し、その後、予測表示領域1105にC4:「是。」が表示され、予測表示領域1106には何も表示されず、対話参加者1がC4を入力したことを示す。図36はまた、対話参加者が入力する発話に応じて予測候補が変化することも示している。特に、矢印の分岐は予測候補に対して対話参加者が入力した発話が複数であったことを示している。例えば、分岐3602は、予測候補として予測表示領域1105にC2:
Figure 2006040969
、予測表示領域1106にE3:″Have you made reservation?″が表示されているときに、対話参加者1がC2を対話参加者2よりも先に入力した場合と、対話参加者2がE3を対話参加者1よりも先に入力した場合を示す、対話の分岐点である。以下では、そのような複数の対話の進行パターンにおいて、太い矢印に沿って進行する対話を例として取り上げる。この例では、図37に示す対話fが対話参加者の間で交わされたことになり、対話fは図32に示す対話履歴データベースの中には存在しないので、新しく生成された対話履歴である。
図38に示すように、対話fを開始する前の対話参加者の対話履歴d5と対話履歴d7の類似度は0.16である。しかし、本発明の支援によって交わされた対話fに対する類似度はそれぞれ対話履歴d5とは0.29、対話履歴d7とは0.57である。したがって、一方の対話参加者の対話履歴に他方の対話参加者を従わせて対話をするよりも、よりスムーズな対話がなされたことは明らかである。
次に、対話参加者が予測候補を一部選択せずに対話を続行した場合にも、本発明の効果があることを示す。図39は本実施の形態の対話支援装置100によって支援される対話(中国語と英語の場合)を形式的に表現した図である。図の解釈は図19と同様であるが、点線の矩形3901は予測表示領域1105の予測候補C2が表示され、予測表示領域1106には何も表示されていないにもかかわらず、対話参加者2は発話E5を用例のリスト1102から入力したことを示している。太い矢印に沿って進行した対話は図40(a)に示す対話f’であり、f’は図32に示す対話履歴データベースの中には存在しないので、新しく生成された対話履歴である。
図40(b)に示すように対話f’を開始する前の対話履歴d5とd7の類似度は0.16であるが、交わされた対話に対する類似度はそれぞれ対話履歴d5とは0.33、対話履歴d7とは0.52である。したがって、対話参加者が一部の予測候補に従わなかったにもかかわらず、一方の対話参加者の対話履歴に他方の対話参加者を従わせて対話をするよりも、スムーズな対話がなされたことは明らかである。このように本発明では、対話参加者が予測候補を一部無視する場合でも、その時点からの対話の展開を可能な限り予測することで、対話参加者に対話の自由度を与えつつ、柔軟な対話支援をすることが可能である。
なお、図1に示す構成に加えて履歴登録部を備え、発話処理部で対話参加者の間で交わされる発話情報をすべて記録し、対話終了時に発話処理部から対話履歴データベースに蓄積するように構成することも可能である。これによって、今後の発話予測に有効な対話履歴を自動的に増やすことが可能になる。例えば対話d’や対話d’’を対話履歴データベース104aおよび対話履歴データベース104bに蓄積する。特に、発話予測部の予測に従わずに対話がなされた場合は、対話履歴データベースに存在しない対話である場合が多く、それを蓄積することで次回の発話予測をより精度良く行うことが可能になる。
また、図41および図42に示すように対話参加者が1台の対話支援装置を共有するように構成することも可能である。対話履歴データベースをメモリカード2401、メモリカード2402で装置に挿入して利用してもよい。図43はこの場合の対話支援装置の一実施の形態の構成を示すブロック図である。対話履歴データベースは図41および図42のようにメモリカードで構成してもよいし、あるいは、通信回線でアクセス可能なネットワーク上のデータベースで構成してもよい。図43のような構成にすることで、対話支援装置のハードウェアを公共の装置として利用することが可能になる。
また、図2に示す構成の発話受付部101aと発話受付部101bに替えて、図44に示すように音声認識部401aおよび音声認識部402bを備える構成とすることもできる。この場合、音声認識部401aおよび音声認識部402bの認識対象語彙の中で、発話予測部105aおよび発話予測部105bによって予測される発話に関連する語彙については優先的に扱うことで、音声認識の精度を向上させることが可能になる。関連する語彙としては、発話予測部105aおよび発話予測部105bが出力する予測発話そのものであってもよいし、または、その予測発話に近い文であってもよいし、または、予測発話に含まれる単語であってもよいし、または、予測発話から連想される単語であってもよい。
なお、図45に示すように発話出力部502aと発話出力部502bを、相手の対話支援装置の発話出力部を利用するように実装し、相手の対話支援装置から発話処理された文字と音声を出力するようしてもよい。この場合、対話参加者は相手の発話を自分の手元の対話支援装置で見聞きすることができるので、聞き違いなどが低減されて対話がよりスムーズに進行することが可能になる。
また、図12または図35に示すボタン1107およびボタン1108は、対話参加者1および対話参加者2がそれぞれ対話の予測展開を見るためのボタンである。具体的にはこれらのボタンが押されたときに、発話予測部105aおよび発話予測部105bは、これまでに交わされた発話と現時点の予測スタックの内容をすべて表示する。ただし、各発話はそれぞれの対話参加者の言語に変換して表示する。また、対話の予測展開としては、相手の予測スタックの内容を提示する。図46は対話の予測展開の一例(日本語と英語の場合)を示す図である。これまでに交わされた発話がE1,E3,J4であり、現時点の予測スタックが、J:J2,(E5,J6,E7),E8およびE:J2,E8,(E5,J6,E7)である。対話参加者1に対しては表示領域2801にこれまで交わされた対話としてE1,E3,J4と、今後の予測展開として表示領域2802にJ2,E8,E5,J6,E7を表示する。また、対話参加者2に対しては表示領域2803にこれまでに交わされた対話としてE1,E3,J4を、表示領域2804に今後の予測展開としてJ2,E5,E6,E7,E8を表示する。
また、図47は対話の予測展開の一例(中国語と英語の場合)を示す図である。これまでに交わされた発話がE1,E3,C4であり、現時点の予測スタックが、C:C2,(E5,C6,E7),E8およびE:C2,E8,(E5,C6,E7)である。対話参加者1に対しては表示領域2801にこれまで交わされた対話としてE1,E3,C4と、今後の予測展開として表示領域2802にC2,E8,E5,C6,E7を表示する。また、対話参加者2に対しては表示領域2803にこれまでに交わされた対話としてE1,E3,C4を、表示領域2804に今後の予測展開としてC2,E5,E6,E7,E8を表示する。このような予測展開を対話参加者に提示することにより、対話参加者は相手の発話と対話の展開パターンを前もって知ることが可能になり、対話を継続する際に頭を整理することでよりスムーズな対話が可能になる。
また、本実施の形態では、一例として日本語と英語の場合と、中国語と英語の場合とを取り上げたが、仏語など他の言語についても同様に実施可能であり、本発明は言語に依存しない。
本発明にかかる対話支援装置は、対話参加者の発話を速やかに入力させる機能を有し、携帯電話や携帯端末等の翻訳アプリケーションソフトウェア等として有用である。また公共の街頭端末や案内端末等の用途にも応用できる。さらに、同言語の対話では、定型文のチャットシステムなどの用途にも応用できる。
本発明は、人と人との対話を支援する対話支援装置に関するものである。
従来、一般の人々が海外旅行先等で現地の人々と対話をする際に、その異言語対話を支援することを目的として翻訳装置が開発されてきた。例えば代表的なものとして、例文や用例の対訳に基づく翻訳方式を、PDA(Personal Digital Assistance)などの小型の情報処理装置に実装した翻訳装置がある。そのような装置では、一般的な旅行会話をカバーするために数千以上の用例が用意されているので、ユーザに所望の用例をそのリストから目視で選択させるだけでは実際の使用状況における使い勝手、すなわち、ユーザビリティに問題がある。特に、用例のリストを見るための表示部が小さく、同時に見ることができる用例の数が少ない場合は、この問題は一層顕著になる。また、翻訳装置の一般的な使用状況を想定すると、相手との対話の中で数文以上の用例を使用しなければならない場合がほとんどであり、翻訳装置を介して1つの対話が完了するまでに予想以上の時間を要してしまう。そこで、人と人との対話支援を最終目的として、大量の用例リストの中からユーザに所望の用例を速やかに選択させるための、何らかの選択補助機能が必要とされている。
この問題を解決するための一方法として、見本対話モデルや会話練習履歴コーパスを利用してユーザの次の発話候補を絞り込む手法が提案されている(例えば特許文献1参照)。
特開2003−30187号公報
過去に翻訳装置のユーザが行った対話の履歴に基づく次発話候補の絞込みは、相手がその中に含まれている場合は有効である。また、事前にユーザが仮想的に対話の練習を行った履歴や典型的な対話のパターンに基づく次発話候補の絞込みは、自分が想定する対話のパターンに従う相手であれば有効である。しかしながら、対話のパターンは人によって異なるのが一般的である。例えば、レストランの予約をするために旅行者がレストランのウェイターと対話を開始する場合、旅行者の発話「席を予約したいのですが」に対して、あるウェイターは「何日ですか」という予約の日時についての発話から対話を開始する可能性もあれば、別のウェイターは「何人ですか」という予約の人数に関する発話から対話を開始する可能性もある。したがって、対話の相手によっては絞込みに失敗するだけでなく、誤った絞込みによって対話参加者を混乱させることになり、逆に対話が完了するまでに要する時間が増加するという問題がある。特に、通信インフラが整備されていない地域を旅行する場合には、ネットワークを利用せずにユーザの翻訳装置だけで解決しなければならない。
そこで、本発明は上記の事情に鑑みてなされたものであり、ネットワークが利用できない場合であっても、また対話の相手がどのような相手であっても速やかに対話が完了するように対話を支援することができる対話支援装置を提供することを目的とする。
上記目的を達成するため、本発明に係る対話支援装置は、対話参加者によって行われる対話を支援する対話支援装置であって、前記対話参加者の過去の対話履歴を格納している対話履歴データベースと、前記対話履歴データベースに格納されている前記対話履歴に基づいて第1発話予測情報を作成するとともに、他の対話支援装置から第2発話予測情報を取得し、前記第1発話予測情報および前記第2発話予測情報に基づいて、当該対話支援装置を使用する対話参加者の前記対話における次の発話を予測する発話予測手段とを備えることを特徴とする。
本発明に係る対話支援装置によれば、ユーザは次発話候補の中から用例を容易に選択することが可能になる。したがって、対話の相手を待たせることがないので対話支援装置を介した対話をスムーズに進行することができる。また、次発話候補は自分の対話履歴と相手の対話履歴だけから生成されるので、典型的な対話パターンなどの情報を装置の内外に実装する必要がなく、装置全体の実装規模を縮小することが可能になる。
本発明の実施の形態に係る対話支援装置は、対話参加者によって行われる対話を支援する対話支援装置であって、前記対話参加者の過去の対話履歴を格納している対話履歴データベースと、前記対話履歴データベースに格納されている前記対話履歴に基づいて第1発話予測情報を作成するとともに、他の対話支援装置から第2発話予測情報を取得し、前記第1発話予測情報および前記第2発話予測情報に基づいて、当該対話支援装置を使用する対話参加者の前記対話における次の発話を予測する発話予測手段とを備えることを特徴とする。
これによって、自分の対話の履歴と相手の対話の履歴だけを利用し、その履歴に基づいて次の発話を予測することができるので、対話の相手がどのような相手であっても速やかに対話が完了するように対話を支援することができる。
ここで、前記発話予測手段は、前記対話履歴データベースに格納されている前記対話履歴の中から前記対話における対話状況が最も近い対話履歴を抽出し、抽出した前記対話履歴を前記第1発話予測情報とすることが好ましい。
また、前記発話予測手段は、前記第1発話予測情報および前記第2発話予測情報に含まれるそれぞれの対話履歴に共通して含まれ、かつ、連続する発話の集合に基づいて予測スタックを作成することが好ましい。
これによって、対話状況が最も近い対話履歴に基づいて対話参加者の次の発話を予測することができる。
また、前記対話支援装置は、さらに、前記対話参加者の発話を受け付ける発話受付手段と、前記発話受付手段により受け付けられた前記発話を他の発話形態に変換する発話処理手段と、前記発話処理手段により変換された前記他の発話形態の前記発話を出力する発話出力手段とを備えてもよい。
これによって、例えば日本語と英語とによる対話等の異言語の対話を支援することができる。
なお、本発明は、このような対話支援装置として実現することができるだけでなく、このような対話支援装置が備える特徴的な手段をステップとする対話支援方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。
以下、本発明の実施の形態について、図面を参照しながら説明する。
図1は本発明に係る対話支援装置の一実施の形態の構成を示すブロック図である。
対話支援装置100は、人と人との対話を支援するための装置であり、図1に示すように発話受付部101、発話処理部102、発話出力部103、対話履歴データベース104、および発話予測部105を備えている。ここで、発話受付部101は発話受付手段に、発話処理部102は発話処理手段に、発話出力部103は発話出力手段に、発話予測部105は発話予測手段に、それぞれ相当する。
発話受付部101は、対話参加者の発話を受け付け、発話を特定するための発話情報を出力する。発話処理部102は、発話受付部101から出力された発話情報により特定される発話を他の発話形態に変換する。発話出力部103は、他の発話形態に変換された発話情報を他の対話参加者への発話として出力する。対話履歴データベース104は、対話参加者の過去の2つ以上の発話情報を発話時刻の順に並べた対話履歴を格納している。
発話予測部105は、対話履歴データベース104に格納されている対話履歴に基づいて第1発話予測情報を作成する。また、発話予測部105は、他の対話支援装置から第2発話予測情報を取得する。さらに、発話予測部105は、対話参加者が開始する対話において、第1発話予測情報および第2発話予測情報に基づいて、対話支援装置100を使用する対話参加者の次の発話を予測する。また、発話予測部105は、作成した第1発話予測情報を他の対話支援装置へ通知する。
図1に示す対話支援装置100は本発明の基本構成であり、対話参加者1人が1つの構成を使用する。対話は一般に2名で行われるので、実際に対話を行う場合には2つの対話支援装置100が用いられる。図2は2つの対話支援装置を用いて対話を行う場合の実施の形態の構成を示すブロック図である。
以下、上記のように構成された対話支援装置を用いて、異言語の対話を支援する場合の動作について説明する。ここでは、日本語を話す対話参加者1は対話支援装置100aを使用し、英語を話す対話参加者2は対話支援装置100bを使用すると仮定する。図3は対話支援装置100aにおける入出力の発話と発話No.の対応関係の一例を示す図である。
発話受付部101aは、受け付けた対話参加者1の発話を相当する発話情報に変換する。発話情報は、例えば図3における発話No.である。発話処理部102aは、対話参加者1の発話(日本語)を対話参加者2への発話(英語)に変換して文字列を出力する。例えば、発話No.1が入力されたときは、発話出力部103aに対して発話情報として文字列"May I help you?"を出力する。
対話支援装置100aと全く対称的に、対話支援装置100bの発話処理部102bは対話参加者2の発話を相当する発話情報に変換する。図4は対話支援装置100bにおける入出力の発話と発話No.の対応関係の一例を示す図である。図3と図4とでは発話No.は完全に同じであり、その処理方向が異なる。発話情報は、例えば図4の発話No.であり、発話受付部101bは対話参加者2の発話(英語)を対話参加者1への発話(日本語)に変換して文字列を出力する。例えば、発話No.1が入力されたときは、発話出力部103bに対して発話情報として文字列「いらっしゃいませ。」を出力する。以後、言語方向を考慮しながら説明を簡単にするために、対話参加者1からの発話No.1をJ1、対話参加者2からの発話No.1をE1のように略記する。
発話受付部101aは、図3の日本語のリストの部分を対話参加者1に直接選択させて、その発話No.を発話情報として出力する。また、発話受付部101bは図4の英語のリストの部分を対話参加者2に直接選択させてその発話No.を発話情報として出力する。なお、発話受付部101aまたは発話受付部101bの構成については、音声認識処理を利用して対話参加者の音声を発話No.のいずれかに射影する処理で実現してもよい。また、キーボードから発話の表記や発音に相当する文字列を入力させて、それを発話No.のいずれかに射影して実現しても良い。
図5(a)、(b)は対話履歴データベース104aおよび対話履歴データベース104bに格納される対話履歴の一例を示す図である。対話履歴とは対話参加者によって過去に交わされた発話の履歴であり、各対話参加者の発話時刻の順に並べたものである。各発話は図3または図4で定義される発話のいずれかに相当する。なお、同じ発話No.でも対話参加者の立場によって区別する必要があるので、日本語についてはJを、英語についてはEをそれぞれ発話No.の前に付与して、対話履歴における発話のラベルとして定義する。以後、説明を簡単にするために、1つの対話履歴をそのラベルの列で記述する。例えば、対話履歴d1はd1:E1,J2,E3,J4,E5,J6,E7,E8と記述する。対話履歴にはその対話を交わした対話参加者の情報と対話のトピックが記録されている。例えば対話履歴d1は、対話参加者1がJの立場で対話をしたという情報と、その対話のトピックがチェックインであったという情報が記されている。
以下、図6に示すように対話参加者1が日本人観光客で、対話参加者2が英語を話すホテルのフロントのスタッフであり、ホテルのチェックインを行うために対話を行う場合を例として説明する。
図7は発話予測部105aおよび発話予測部105bの動作の流れを示すフローチャートである。発話予測部105aと発話予測部105bは構成としては独立しているが、双方が連携して動作を行うために情報を交換する必要がある。この連係動作に必要な情報を発話予測情報と呼ぶ。
発話予測部105aおよび発話予測部105bは、まず発話予測を行うために必要な対話履歴を対話履歴データベース104aまたは対話履歴データベース104bから検索するために、対話のトピックの特定を行う(ステップS601)。発話予測部105aは対話履歴データベース104aに対して、発話予測部105bは対話履歴データベース104bに対して検索を行う。例えばPDAとして実現された図8に示すような対話支援装置100aを対話参加者1が使用し、対話支援装置100bを対話参加者2が使用する。対話のトピックはそれぞれトピック入力領域703およびトピック入力領域704を用いて、各対話参加者にタッチパネルから直接入力させることでトピックの情報を取得する。なお、対話のトピックの取得については、このような手動による方法以外にも、自動的に得られるPDAの存在環境の情報(例えば、レストラン、病院、ホテルなどの場所情報)から、自動的に連想する方法で実現してもよい。
各対話参加者によって対話開始ボタン705および対話開始ボタン706が押されると、発話予測部105aは対話参加者1に対して対話履歴d1を、発話予測部105bは対話参加者2に対して対話履歴d3を選択する。理由は、対話履歴d1と対話履歴d3の対話のトピックがホテルであるからである。対話履歴d2および対話履歴d4は対話のトピックが異なるために選択されない。そして、発話予測部105aは対話履歴d1を第1発話予測情報として発話予測部105bへ、発話予測部105bは対話履歴d3を第2発話予測情報として発話予測部105aへ通知する。
次に、発話予測部105aと発話予測部105bは、対話履歴d1:E1,J2,E3,J4,E5,J6,E7,E8と対話履歴d3:E1,E3,J4,J2,E8,E5,J6,E7を用いて予測スタックの作成を開始する(ステップS602)。
図9は予測スタックの作成手順を示すフローチャートである。なお、対話履歴は発話の列によって構成されるので、発話列は対話履歴の部分集合の意味である。
発話予測部105aおよび発話予測部105bは、それぞれの対話履歴の発話数が同じ数になるように図10に示す動的計画法で調整する(ステップS901)。例えば、図5の対話履歴d1(発話数は8)と図11の対話履歴x(発話数は6)を調整する場合、図10に示す動的計画法を対話履歴xに適用すると、対話履歴xは調整されて対話履歴x'となる。調整された対話履歴x'において、ラベルがφの発話はd1との発話数が同じ数になるように追加された空の発話である。しかし、対話履歴d1:E1,J2,E3,J4,E5,J6,E7,E8と対話履歴d3:E1,E3,J4,J2,E8,E5,J6,E7については発話数が同じ8であるので、動的計画法が適用されても結果は同じである。
次に、発話予測部105aおよび発話予測部105bは、各対話履歴について発話ブロックの決定を行う。発話ブロックとは各対話履歴に共通に含まれ、かつ、1つ以上連続する発話の集合である。ただし、各対話履歴に含まれる発話ブロックの数が最小になるような、発話数が最大の発話ブロックを決定する。すなわち、発話列A(発話列B)に含まれる発話数をmとする(ステップS902)。次に、iに1を代入する(ステップS903)。A[i]が発話列Bに存在するか否かを判定する(ステップS904)。なお、A[i]は発話列Aにおけるi番目の発話を示す。また、φについては、A[i]=φ、B[j]=φのとき、A[i]とB[j]が同じであると見なさない。この判定の結果、A[i]が発話列Bに存在する場合(ステップS904でYES)、その発話をB[j]とする(ステップS905)。そして、A[i]からA[i+n]が、発話列B[j]からB[j+n]が同じである最大のnを求めて、それぞれを1つのブロックとする(ステップS906)。次に、iにi+n+1を代入する(ステップS907)。
A[i]が発話列Bに存在するか否かの判定の結果、A[i]が発話列Bに存在しない場合(ステップS904でNO)、A[i]を1つのブロックとする(ステップS908)。そして、iにi+1を代入する(ステップS909)。
次に、i>mであるか否かを判定する(ステップS910)。i>mでない場合(ステップS907でNO)には、再びA[i]が発話列Bに存在するか否かを判定処理以降(ステップS904〜S907)を繰り返す。一方、i>mである場合(ステップS907でYES)には、処理を終了する。
以上の動作により、例えば、対話履歴d1:E1,J2,E3,J4,E5,J6,E7,E8と対話履歴d3:E1,E3,J4,J2,E8,E5,J6,E7に対しては、対話履歴d1:E1,J2,(E3,J4),(E5,J6,E7),E8および対話履歴d3:E1,(E3,J4),J2,E8,(E5,J6,E7)が得られる。括弧で囲まれた発話のラベルが1つの発話ブロックに相当する。ただし、1つの発話だけで構成される発話ブロックについては、表記を簡単にするために括弧を省略する。この対話履歴d1:E1,J2,(E3,J4),(E5,J6,E7),E8およびd3:E1,(E3,J4),J2,E8,(E5,J6,E7)が、それぞれ発話予測部105aの予測スタックJ:E1,J2,(E3,J4),(E5,J6,E7),E8、および、発話予測部105bの予測スタックE:E1,(E3,J4),J2,E8,(E5,J6,E7)となる。
なお、予測スタックの作成手順において、2つの発話が同じか否かの判定処理(ステップS901、S904、S906)を行っているが、発話情報の一致、すなわち、発話No.の一致以外にも、自然言語処理を利用して発話の表層表現(文字表現)の一致、または、内容語の一致などで判定してもよい。例えば、一方の対話履歴に発話「ありがとう。」、他方の対話履歴に発話「ありがとうございます。」の場合などは、これらの発話が異なる発話No.であったとしても表層表現が近いので2つの対話履歴に共通に含まれる発話と判定することが可能である。一方の対話履歴に発話"Thank you."、他方の対話履歴に発話"Thank you very much."の場合も同様である。また、一方の対話履歴に発話「これを3セット贈答用に包んで下さい。」、他方の対話履歴に発話「贈答用に3セット、これを包んで下さい。」が含まれる場合などは、内容語が(これ、包む、3セット、贈答用)と定義されていれば、共通に含まれる内容語が多いので2つの対話履歴に共通に含まれる発話と判定することが可能である。また、これらの判定方法を組み合わせて用いても構わない。このように柔軟な判定にすることで、発話No.の一致だけでは発話ブロックの数が増加する場合でも、発話ブロックの数を抑制することが可能になる。
ここで、図7に示すフローチャートの説明に戻る。
発話予測部105aおよび発話予測部105bは、予測スタックを構成した後、予測スタックが空であるか否かを判定する(ステップS603)。発話予測部105aまたは発話予測部105bが何らかの理由で適当な予測スタックを構成できず、予測スタックが空である場合は(ステップS603でYES)、発話予測部105aまたは発話予測部105bは発話予測動作を行わず終了し、相手の発話予測部105aまたは発話予測部105bの動作に従う。
一方、予測スタックが空でない場合(ステップS603でNO)、発話予測部105aおよび発話予測部105bは、予測スタックの先頭の発話を次の発話候補として表示する(ステップS604)。図12は対話が開始された時点の対話支援装置100での表示状態を示す図である。
対話参加者1は用例のリスト1101、対話参加者2は用例のリスト1102を利用して図3および図4で定義されるすべての発話の中から任意の発話を選択して他の対話参加者に伝えることが可能である。発話処理部102aで変換された発話は対話参加者2への発話出力部1103へ、発話処理部102bで変換された発話は対話参加者1への発話出力部1104へ、それぞれ出力され、例えばPDAに内蔵される音声合成処理を利用して表示と同時に読上げられる。予測表示領域1105には発話予測部105aによって予測された対話参加者1の発話、すなわち予測候補が表示される。予測表示領域1106には発話予測部105bによって予測された対話参加者2の発話、すなわち予測候補が表示される。対話参加者1または対話参加者2は、それぞれ予測表示領域1105または予測表示領域1106に表示される予測候補の発話を選択することで、用例のリスト1101または用例のリスト1102の中から所望の発話を検索して選択入力する操作を省略することが可能である。すなわち、相手への発話を迅速に入力することが可能である。
図12において発話予測部105aおよび発話予測部105bは、すでに次の発話候補として表示(ステップS604)を完了している(ステップS605)。すなわち、発話予測部105aは予測スタックJ:E1,J2,(E3,J4),(E5,J6,E7),E8の先頭の発話がEの立場の発話であり、Jの立場とは異なるので、予測表示領域1105には予測候補を表示していない。また、発話予測部105bは予測スタックE:E1,(E3,J4),J2,E8,(E5,J6,E7)の先頭の発話がEの立場の発話であり、同立場なので対話参加者2に対する予測候補としてE1:"May I help you?"を予測表示領域1106に表示している。対話参加者2は用例のリスト1102から発話を選択してもよいが、予測表示領域1106にすでに自分が発話したい内容が表示されているので、図13に示すように予測候補を選択する。E1は発話処理部102bで日本語に変換されて、対話参加者1に対して発話「いらっしゃいませ。」が伝えられる。
このとき、発話予測部105aおよび発話予測部105bは、対話参加者から発話が入力されたか否かを判定している(ステップS605)。対話参加者から発話が入力される(ステップS605でYES)と、発話予測部105aおよび発話予測部105bは、予測スタック上で一致する発話を先頭から検索(ステップS606)し、一致する発話があるか否かを判定する(ステップS607)。一致する発話がある場合(ステップS607でYES)、一致する発話が予測スタックの先頭であるか否かを判定する(ステップS608)。先頭である場合(ステップS608でYES)、予測スタックの先頭の発話を削除して予測スタックを更新する(ステップS609)。そして、発話の削除に伴って結合可能な発話ブロックが出現した場合には、予測スタックの中で結合可能な発話ブロックを結合する(ステップS611)。一方、先頭でない場合(ステップS608でNO)、一致する発話を含むブロックを予測スタックの先頭に移動後、先頭からその発話までを削除して予測スタックを更新する(ステップS610)。そして、予測スタックが空であるか否かの判定処理(ステップS603)に戻る。
上記の例では、対話参加者の発話がE1であることから、発話予測部105aおよび発話予測部105bは、予測スタックの先頭であるE1を削除し、予測スタックをJ:J2,(E3,J4),(E5,J6,E7),E8およびE:(E3,J4),J2,E8,(E5,J6,E7)と更新する。なお、予測スタックJ:J2,(E3,J4),(E5,J6,E7),E8およびE:(E3,J4),J2,E8,(E5,J6,E7)については、結合可能な発話ブロックが存在しないので、予測スタックは変化しない。そして、予測スタックはまだ空ではないので、発話予測部105aは予測スタックJ:J2,(E3,J4),(E5,J6,E7),E8の先頭の発話J2を予測候補とする。すなわち、図14に示すように予測表示領域1105にJ2:「チェックインをお願いします。」を表示する。また、発話予測部105bは予測スタックE:(E3,J4),J2,E8,(E5,J6,E7)の先頭の発話E3を予測候補として、予測表示領域1106にE3:"Have you made reservation?"を表示する。発話予測部105aおよび発話予測部105bは、対話参加者からの発話を待つ。
対話参加者1または対話参加者2は、それぞれ用例のリスト1101または用例のリスト1102から発話を選択してもよいが、予測表示領域1105または予測表示領域1106にすでに自分が発話したい内容が表示されているので予測候補から選択するのが得策である。ここで図15に示すように対話参加者2が対話参加者1よりの早く予測表示領域1106を選択すると、E3は発話処理部102bで日本語に変換されて、対話参加者1に対して発話「予約はされていますか?」が伝えられる。発話予測部105aは、対話参加者からの発話E3が予測スタックJ:J2,(E3,J4),(E5,J6,E7),E8の先頭の発話ブロックの中に存在しないので、J:(E3,J4),J2,(E5,J6,E7),E8として(ステップS610)、J:J4,J2,(E5,J6,E7),E8と更新する(ステップS609)。一方、発話予測部105bは、対話参加者からの発話E3が予測スタックE:(E3,J4),J2,E8,(E5,J6,E7)の先頭の発話ブロックの中に存在するので、E:J4,J2,E8,(E5,J6,E7)と更新する。このとき、予測スタックの中に共通して含まれる連続する発話J4,J2が存在する(ステップS611)。そこで、発話予測部105bは、J4,J2を1つの発話ブロックに結合することで、予測スタックをJ:(J4,J2),(E5,J6,E7),E8およびE:(J4,J2),E8,(E5,J6,E7)と更新する。
発話予測部105aは、同様に、予測スタックはJ:(J4,J2),(E5,J6,E7),E8およびE:(J4,J2),E8,(E5,J6,E7)となっているので、図16に示すように予測表示領域1105に予測候補J4:「はい。」を表示する。発話予測部105bは、予測表示領域1106には対話参加者の立場が異なるので予測候補を表示しない。
対話参加者1は用例のリスト1101から発話を選択してもよいが、予測表示領域1105にすでに自分が発話したい内容が表示されているので、図17に示すように予測表示領域1105を選択すると、J4は発話処理部102aで英語に変換されて、対話参加者2に対して発話"Yes."が伝えられる。同様に、発話予測部105aおよび発話予測部105bは、予測スタックをJ:J2,(E5,J6,E7),E8およびE:J2,E8,(E5,J6,E7)と更新し、図18に示すように予測表示領域1105にJ2:「チェックインをお願いします。」を表示し、予測表示領域1106には何も表示しない。このように対話参加者1または対話参加者2は、用例のリスト1101または用例のリスト1102の中から所望の発話を検索する必要がなく、速やかに相手に意図を伝えることで、対話の所要時間が削減される。
次に、本発明の効果について客観的に説明する。図19は本実施の形態の対話支援装置100によって支援される対話を形式的に表現した図である。対話は矢印の方向に沿って進行する。実線の矩形は予測スタックの状態であり、矢印に付属する点線の矩形は対話参加者に提示された予測候補と、対話参加者が実際に入力した発話の対の時系列である。例えば、点線の矩形1801は、予測候補として予測表示領域1105に何も表示されず、予測表示領域1106にE3:"Have you made reservation?"が表示されて、対話参加者2がE3を入力し、その後、予測表示領域1105にJ4:「はい。」が表示され、予測表示領域1106には何も表示されず、対話参加者1がJ4を入力したことを示す。図19はまた、対話参加者が入力する発話に応じて予測候補が変化することも示している。特に、矢印の分岐は予測候補に対して対話参加者が入力した発話が複数であったことを示している。例えば、分岐1802は、予測候補として予測表示領域1105にJ2:「チェックインをお願いします。」、予測表示領域1106にE3:"Have you made reservation?"が表示されているときに、対話参加者1がJ2を対話参加者2よりも先に入力した場合と、対話参加者2がE3を対話参加者1よりも先に入力した場合を示す、対話の分岐点である。以下では、そのような複数の対話の進行パターンにおいて、太い矢印に沿って進行する対話を例として取り上げる。この例では、図20に示す対話d'が対話参加者の間で交わされたことになり、対話d'は図5に示す対話履歴データベースの中には存在しないので、新しく生成された対話履歴である。
ここで対話履歴の類似度を定義する。r(da|db)は対話履歴dbに対する対話履歴daの類似度であり、図21(a)の数式2001によって定義される。ただし、対話履歴daと対話履歴dbについては、図9で定義されている予測スタックの作成手順と同様の処理で発話ブロックを決定しておく。size(d)は対話履歴に含まれる発話ブロックの数であり、size(b)は発話ブロックbに含まれる発話の数である。例えば、図21(b)の類似度計算の例2002においては、対話履歴daは4つの発話ブロックから構成されるので、size(da)=4である。また、各発話ブロックに含まれる発話の数は、それぞれ、size(b1)=5,size(b2)=2,size(b3)=4,size(b4)=1であるから、r(da|db)はおよそ0.424と計算される。定性的には、rの値が大きいほど2つの対話履歴の類似度は高い。また、類似度は発話の集合の数に反比例し、共通する発話ブロックの数が少ないほど高い。また、類似度は各集合に含まれる発話数の平均に比例し、1つの発話ブロックに含まれる発話数が多いほど高い。したがって、対話参加者の対話履歴の類似度が高いほど、2人の間で交わされる対話の進行パターンが類似しているので、スムーズな対話が行われることになる。
図22に示すように、対話d'を開始する前の対話参加者の対話履歴d1と対話履歴d3の類似度は0.16である。しかし、本発明の支援によって交わされた対話d'に対する類似度はそれぞれ対話履歴d1とは0.29、対話履歴d3とは0.57である。したがって、一方の対話参加者の対話履歴に他方の対話参加者を従わせて対話をするよりも、よりスムーズな対話がなされたことは明らかである。
以下、対話参加者が予測候補を一部選択せずに対話を続行した場合にも、本発明の効果があることを示す。図23は本実施の形態の対話支援装置100によって支援される対話を形式的に表現した図である。図の解釈は図19と同様であるが、点線の矩形2201は予測表示領域1105の予測候補J2が表示され、予測表示領域1106には何も表示されていないにもかかわらず、対話参加者2は発話E5を用例のリスト1102から入力したことを示している。太い矢印に沿って進行した対話は図24に示す対話d''であり、d''は図5に示す対話履歴データベースの中には存在しないので、新しく生成された対話履歴である。
図24に示すように対話d''を開始する前の対話履歴d1とd3の類似度は0.16であるが、交わされた対話に対する類似度はそれぞれ対話履歴d1とは0.33、対話履歴d3とは0.52である。したがって、対話参加者が一部の予測候補に従わなかったにもかかわらず、一方の対話参加者の対話履歴に他方の対話参加者を従わせて対話をするよりも、スムーズな対話がなされたことは明らかである。このように本発明では、対話参加者が予測候補を一部無視する場合でも、その時点からの対話の展開を可能な限り予測することで、対話参加者に対話の自由度を与えつつ、柔軟な対話支援をすることが可能である。
ここまでは、日本語を話す対話参加者1が対話支援装置100aを使用し、英語を話す対話参加者2が対話支援装置100bを使用すると仮定した場合について説明したが、以下では、中国語を話す対話参加者1は対話支援装置100aを使用し、英語を話す対話参加者2は対話支援装置100bを使用すると仮定した場合について説明する。図25は対話支援装置100aにおける入出力の発話と発話No.の対応関係の一例を示す図である。
発話受付部101aは、受け付けた対話参加者1の発話を相当する発話情報に変換する。発話情報は、例えば図25における発話No.である。発話処理部102aは、対話参加者1の発話(中国語)を対話参加者2への発話(英語)に変換して文字列を出力する。例えば、発話No.1が入力されたときは、発話出力部103aに対して発話情報として文字列"May I help you?"を出力する。
対話支援装置100aと全く対称的に、対話支援装置100bの発話処理部102bは対話参加者2の発話を相当する発話情報に変換する。図26は対話支援装置100bにおける入出力の発話と発話No.の対応関係の一例を示す図である。図25と図26とでは発話No.は完全に同じであり、その処理方向が異なる。発話情報は、例えば図26の発話No.であり、発話受付部101bは対話参加者2の発話(英語)を対話参加者1への発話(中国語)に変換して文字列を出力する。例えば、発話No.1が入力されたときは、発話出力部103bに対して発話情報として文字列
Figure 2006040969
を出力する。以後、言語方向を考慮しながら説明を簡単にするために、対話参加者1からの発話No.1をC1、対話参加者2からの発話No.1をE1のように略記する。
発話受付部101aは、図25の中国語のリストの部分を対話参加者1に直接選択させて、その発話No.を発話情報として出力する。また、発話受付部101bは図26の英語のリストの部分を対話参加者2に直接選択させてその発話No.を発話情報として出力する。なお、発話受付部101aまたは発話受付部101bの構成については、音声認識処理を利用して対話参加者の音声を発話No.のいずれかに射影する処理で実現してもよい。また、キーボードから発話の表記や発音に相当する文字列を入力させて、それを発話No.のいずれかに射影して実現しても良い。
図27(a)、(b)は対話履歴データベース104aおよび対話履歴データベース104bに格納される対話履歴の一例を示す図である。対話履歴とは対話参加者によって過去に交わされた発話の履歴であり、各対話参加者の発話時刻の順に並べたものである。各発話は図25または図26で定義される発話のいずれかに相当する。なお、同じ発話No.でも対話参加者の立場によって区別する必要があるので、中国語についてはCを、英語についてはEをそれぞれ発話No.の前に付与して、対話履歴における発話のラベルとして定義する。以後、説明を簡単にするために、1つの対話履歴をそのラベルの列で記述する。例えば、対話履歴d5はd5:E1,C2,E3,C4,E5,C6,E7,E8と記述する。対話履歴にはその対話を交わした対話参加者の情報と対話のトピックが記録されている。例えば対話履歴d5は、対話参加者1がCの立場で対話をしたという情報と、その対話のトピックがチェックインであったという情報が記されている。
以下、図6に示すように対話参加者1が中国語を話す観光客で、対話参加者2が英語を話すホテルのフロントのスタッフであり、ホテルのチェックインを行うために対話を行う場合を例として説明する。なお、発話予測部105aおよび発話予測部105bの動作の流れは上記と同様であるので、図7に示すフローチャートを用いて説明し、上記と同様の部分については説明を省略する。
発話予測部105aおよび発話予測部105bは、まず発話予測を行うために必要な対話履歴を対話履歴データベース104aまたは対話履歴データベース104bから検索するために、対話のトピックの特定を行う(ステップS601)。発話予測部105aは対話履歴データベース104aに対して、発話予測部105bは対話履歴データベース104bに対して検索を行う。例えばPDAとして実現された図28に示すような対話支援装置100aを対話参加者1が使用し、対話支援装置100bを対話参加者2が使用する。対話のトピックはそれぞれトピック入力領域703およびトピック入力領域704を用いて、各対話参加者にタッチパネルから直接入力させることでトピックの情報を取得する。
各対話参加者によって対話開始ボタン705および対話開始ボタン706が押されると、発話予測部105aは対話参加者1に対して対話履歴d5を、発話予測部105bは対話参加者2に対して対話履歴d7を選択する。理由は、対話履歴d5と対話履歴d7の対話のトピックがホテルであるからである。対話履歴d6および対話履歴d8は対話のトピックが異なるために選択されない。そして、発話予測部105aは対話履歴d5を第1発話予測情報として発話予測部105bへ、発話予測部105bは対話履歴d7を第2発話予測情報として発話予測部105aへ通知する。
次に、発話予測部105aと発話予測部105bは、対話履歴d5:E1,C2,E3,C4,E5,C6,E7,E8と対話履歴d7:E1,E3,C4,C2,E8,E5,C6,E7を用いて、上記同様に予測スタックを作成する(ステップS602)。そして、例えば、発話予測部105aは、予測スタックC:E1,C2,(E3,C4),(E5,C6,E7),E8を、発話予測部105bは、予測スタックE:E1,(E3,C4),C2,E8,(E5,C6,E7)をそれぞれ作成する。
発話予測部105aおよび発話予測部105bは、予測スタックを構成した後、予測スタックが空であるか否かを判定する(ステップS603)。発話予測部105aまたは発話予測部105bが何らかの理由で適当な予測スタックを構成できず、予測スタックが空である場合は(ステップS603でYES)、発話予測部105aまたは発話予測部105bは発話予測動作を行わず終了し、相手の発話予測部105aまたは発話予測部105bの動作に従う。
一方、予測スタックが空でない場合(ステップS603でNO)、発話予測部105aおよび発話予測部105bは、予測スタックの先頭の発話を次の発話候補として表示する(ステップS604)。図29は対話が開始された時点の対話支援装置100での表示状態を示す図である。
対話参加者1は用例のリスト1101、対話参加者2は用例のリスト1102を利用して図25および図26で定義されるすべての発話の中から任意の発話を選択して他の対話参加者に伝えることが可能である。発話処理部102aで変換された発話は対話参加者2への発話出力部1103へ、発話処理部102bで変換された発話は対話参加者1への発話出力部1104へ、それぞれ出力され、例えばPDAに内蔵される音声合成処理を利用して表示と同時に読上げられる。予測表示領域1105には発話予測部105aによって予測された対話参加者1の発話、すなわち予測候補が表示される。予測表示領域1106には発話予測部105bによって予測された対話参加者2の発話、すなわち予測候補が表示される。対話参加者1または対話参加者2は、それぞれ予測表示領域1105または予測表示領域1106に表示される予測候補の発話を選択することで、用例のリスト1101または用例のリスト1102の中から所望の発話を検索して選択入力する操作を省略することが可能である。すなわち、相手への発話を迅速に入力することが可能である。
図29において発話予測部105aおよび発話予測部105bは、すでに次の発話候補として表示(ステップS604)を完了している(ステップS605)。すなわち、発話予測部105aは予測スタックC:E1,C2,(E3,C4),(E5,C6,E7),E8の先頭の発話がEの立場の発話であり、Cの立場とは異なるので、予測表示領域1105には予測候補を表示していない。また、発話予測部105bは予測スタックE:E1,(E3,C4),C2,E8,(E5,C6,E7)の先頭の発話がEの立場の発話であり、同立場なので対話参加者2に対する予測候補としてE1:"May I help you?"を予測表示領域1106に表示している。対話参加者2は用例のリスト1102から発話を選択してもよいが、予測表示領域1106にすでに自分が発話したい内容が表示されているので、図30に示すように予測候補を選択する。E1は発話処理部102bで中国語に変換されて、対話参加者1に対して発話「いらっしゃいませ。」が伝えられる。
このとき、発話予測部105aおよび発話予測部105bは、対話参加者から発話が入力されたか否かを判定している(ステップS605)。対話参加者から発話が入力される(ステップS605でYES)と、発話予測部105aおよび発話予測部105bは、予測スタック上で一致する発話を先頭から検索(ステップS606)し、一致する発話があるか否かを判定する(ステップS607)。一致する発話がある場合(ステップS607でYES)、一致する発話が予測スタックの先頭であるか否かを判定する(ステップS608)。先頭である場合(ステップS608でYES)、予測スタックの先頭の発話を削除して予測スタックを更新する(ステップS609)。そして、発話の削除に伴って結合可能な発話ブロックが出現した場合には、予測スタックの中で結合可能な発話ブロックを結合する(ステップS611)。一方、先頭でない場合(ステップS608でNO)、一致する発話を含むブロックを予測スタックの先頭に移動後、先頭からその発話までを削除して予測スタックを更新する(ステップS610)。そして、予測スタックが空であるか否かの判定処理(ステップS603)に戻る。
上記の例では、対話参加者の発話がE1であることから、発話予測部105aおよび発話予測部105bは、予測スタックの先頭であるE1を削除し、予測スタックをC:C2,(E3,C4),(E5,C6,E7),E8およびE:(E3,C4),C2,E8,(E5,C6,E7)と更新する。なお、予測スタックC:C2,(E3,C4),(E5,C6,E7),E8およびE:(E3,C4),C2,E8,(E5,C6,E7)については、結合可能な発話ブロックが存在しないので、予測スタックは変化しない。そして、予測スタックはまだ空ではないので、発話予測部105aは予測スタックC:C2,(E3,C4),(E5,C6,E7),E8の先頭の発話C2を予測候補とする。すなわち、図31に示すように予測表示領域1105にC2:
Figure 2006040969
を表示する。また、発話予測部105bは予測スタックE:(E3,C4),C2,E8,(E5,C6,E7)の先頭の発話E3を予測候補として、予測表示領域1106にE3:"Have you made reservation?"を表示する。発話予測部105aおよび発話予測部105bは、対話参加者からの発話を待つ。
対話参加者1または対話参加者2は、それぞれ用例のリスト1101または用例のリスト1102から発話を選択してもよいが、予測表示領域1105または予測表示領域1106にすでに自分が発話したい内容が表示されているので予測候補から選択するのが得策である。ここで図32に示すように対話参加者2が対話参加者1よりの早く予測表示領域1106を選択すると、E3は発話処理部102bで中国語に変換されて、対話参加者1に対して発話
Figure 2006040969
が伝えられる。発話予測部105aは、対話参加者からの発話E3が予測スタックC:C2,(E3,C4),(E5,C6,E7),E8の先頭の発話ブロックの中に存在しないので、C:(E3,C4),C2,(E5,C6,E7),E8として(ステップS610)、C:C4,C2,(E5,C6,E7),E8と更新する(ステップS609)。一方、発話予測部105bは、対話参加者からの発話E3が予測スタックE:(E3,C4),C2,E8,(E5,C6,E7)の先頭の発話ブロックの中に存在するので、E:C4,C2,E8,(E5,C6,E7)と更新する。このとき、予測スタックの中に共通して含まれる連続する発話C4,C2が存在する(ステップS611)。そこで、発話予測部105bは、C4,C2を1つの発話ブロックに結合することで、予測スタックをC:(C4,C2),(E5,C6,E7),E8およびE:(C4,C2),E8,(E5,C6,E7)と更新する。
発話予測部105aは、同様に、予測スタックはC:(C4,C2),(E5,C6,E7),E8およびE:(C4,C2),E8,(E5,C6,E7)となっているので、図33に示すように予測表示領域1105に予測候補C4:「是。」を表示する。発話予測部105bは、予測表示領域1106には対話参加者の立場が異なるので予測候補を表示しない。
対話参加者1は用例のリスト1101から発話を選択してもよいが、予測表示領域1105にすでに自分が発話したい内容が表示されているので、図34に示すように予測表示領域1105を選択すると、C4は発話処理部102aで英語に変換されて、対話参加者2に対して発話"Yes."が伝えられる。同様に、発話予測部105aおよび発話予測部105bは、予測スタックをC:C2,(E5,C6,E7),E8およびE:C2,E8,(E5,C6,E7)と更新し、図35に示すように予測表示領域1105にC2:
Figure 2006040969
を表示し、予測表示領域1106には何も表示しない。このように対話参加者1または対話参加者2は、用例のリスト1101または用例のリスト1102の中から所望の発話を検索する必要がなく、速やかに相手に意図を伝えることで、対話の所要時間が削減される。
次に、上記の日本語と英語の場合と同様に中国語と英語の場合の効果について客観的に説明する。図36は本実施の形態の対話支援装置100によって支援される対話(中国語と英語の場合)を形式的に表現した図である。図の解釈は図19と同様であり、例えば点線の矩形3601は、予測候補として予測表示領域1105に何も表示されず、予測表示領域1106にE3:"Have you made reservation?"が表示されて、対話参加者2がE3を入力し、その後、予測表示領域1105にC4:「是。」が表示され、予測表示領域1106には何も表示されず、対話参加者1がC4を入力したことを示す。図36はまた、対話参加者が入力する発話に応じて予測候補が変化することも示している。特に、矢印の分岐は予測候補に対して対話参加者が入力した発話が複数であったことを示している。例えば、分岐3602は、予測候補として予測表示領域1105にC2:
Figure 2006040969
、予測表示領域1106にE3:"Have you made reservation?"が表示されているときに、対話参加者1がC2を対話参加者2よりも先に入力した場合と、対話参加者2がE3を対話参加者1よりも先に入力した場合を示す、対話の分岐点である。以下では、そのような複数の対話の進行パターンにおいて、太い矢印に沿って進行する対話を例として取り上げる。この例では、図37に示す対話fが対話参加者の間で交わされたことになり、対話fは図32に示す対話履歴データベースの中には存在しないので、新しく生成された対話履歴である。
図38に示すように、対話fを開始する前の対話参加者の対話履歴d5と対話履歴d7の類似度は0.16である。しかし、本発明の支援によって交わされた対話fに対する類似度はそれぞれ対話履歴d5とは0.29、対話履歴d7とは0.57である。したがって、一方の対話参加者の対話履歴に他方の対話参加者を従わせて対話をするよりも、よりスムーズな対話がなされたことは明らかである。
次に、対話参加者が予測候補を一部選択せずに対話を続行した場合にも、本発明の効果があることを示す。図39は本実施の形態の対話支援装置100によって支援される対話(中国語と英語の場合)を形式的に表現した図である。図の解釈は図19と同様であるが、点線の矩形3901は予測表示領域1105の予測候補C2が表示され、予測表示領域1106には何も表示されていないにもかかわらず、対話参加者2は発話E5を用例のリスト1102から入力したことを示している。太い矢印に沿って進行した対話は図40(a)に示す対話f'であり、f'は図32に示す対話履歴データベースの中には存在しないので、新しく生成された対話履歴である。
図40(b)に示すように対話f'を開始する前の対話履歴d5とd7の類似度は0.16であるが、交わされた対話に対する類似度はそれぞれ対話履歴d5とは0.33、対話履歴d7とは0.52である。したがって、対話参加者が一部の予測候補に従わなかったにもかかわらず、一方の対話参加者の対話履歴に他方の対話参加者を従わせて対話をするよりも、スムーズな対話がなされたことは明らかである。このように本発明では、対話参加者が予測候補を一部無視する場合でも、その時点からの対話の展開を可能な限り予測することで、対話参加者に対話の自由度を与えつつ、柔軟な対話支援をすることが可能である。
なお、図1に示す構成に加えて履歴登録部を備え、発話処理部で対話参加者の間で交わされる発話情報をすべて記録し、対話終了時に発話処理部から対話履歴データベースに蓄積するように構成することも可能である。これによって、今後の発話予測に有効な対話履歴を自動的に増やすことが可能になる。例えば対話d'や対話d''を対話履歴データベース104aおよび対話履歴データベース104bに蓄積する。特に、発話予測部の予測に従わずに対話がなされた場合は、対話履歴データベースに存在しない対話である場合が多く、それを蓄積することで次回の発話予測をより精度良く行うことが可能になる。
また、図41および図42に示すように対話参加者が1台の対話支援装置を共有するように構成することも可能である。対話履歴データベースをメモリカード2401、メモリカード2402で装置に挿入して利用してもよい。図43はこの場合の対話支援装置の一実施の形態の構成を示すブロック図である。対話履歴データベースは図41および図42のようにメモリカードで構成してもよいし、あるいは、通信回線でアクセス可能なネットワーク上のデータベースで構成してもよい。図43のような構成にすることで、対話支援装置のハードウェアを公共の装置として利用することが可能になる。
また、図2に示す構成の発話受付部101aと発話受付部101bに替えて、図44に示すように音声認識部401aおよび音声認識部402bを備える構成とすることもできる。この場合、音声認識部401aおよび音声認識部402bの認識対象語彙の中で、発話予測部105aおよび発話予測部105bによって予測される発話に関連する語彙については優先的に扱うことで、音声認識の精度を向上させることが可能になる。関連する語彙としては、発話予測部105aおよび発話予測部105bが出力する予測発話そのものであってもよいし、または、その予測発話に近い文であってもよいし、または、予測発話に含まれる単語であってもよいし、または、予測発話から連想される単語であってもよい。
なお、図45に示すように発話出力部502aと発話出力部502bを、相手の対話支援装置の発話出力部を利用するように実装し、相手の対話支援装置から発話処理された文字と音声を出力するようしてもよい。この場合、対話参加者は相手の発話を自分の手元の対話支援装置で見聞きすることができるので、聞き違いなどが低減されて対話がよりスムーズに進行することが可能になる。
また、図12または図35に示すボタン1107およびボタン1108は、対話参加者1および対話参加者2がそれぞれ対話の予測展開を見るためのボタンである。具体的にはこれらのボタンが押されたときに、発話予測部105aおよび発話予測部105bは、これまでに交わされた発話と現時点の予測スタックの内容をすべて表示する。ただし、各発話はそれぞれの対話参加者の言語に変換して表示する。また、対話の予測展開としては、相手の予測スタックの内容を提示する。図46は対話の予測展開の一例(日本語と英語の場合)を示す図である。これまでに交わされた発話がE1,E3,J4であり、現時点の予測スタックが、J:J2,(E5,J6,E7),E8およびE:J2,E8,(E5,J6,E7)である。対話参加者1に対しては表示領域2801にこれまで交わされた対話としてE1,E3,J4と、今後の予測展開として表示領域2802にJ2,E8,E5,J6,E7を表示する。また、対話参加者2に対しては表示領域2803にこれまでに交わされた対話としてE1,E3,J4を、表示領域2804に今後の予測展開としてJ2,E5,E6,E7,E8を表示する。
また、図47は対話の予測展開の一例(中国語と英語の場合)を示す図である。これまでに交わされた発話がE1,E3,C4であり、現時点の予測スタックが、C:C2,(E5,C6,E7),E8およびE:C2,E8,(E5,C6,E7)である。対話参加者1に対しては表示領域2801にこれまで交わされた対話としてE1,E3,C4と、今後の予測展開として表示領域2802にC2,E8,E5,C6,E7を表示する。また、対話参加者2に対しては表示領域2803にこれまでに交わされた対話としてE1,E3,C4を、表示領域2804に今後の予測展開としてC2,E5,E6,E7,E8を表示する。このような予測展開を対話参加者に提示することにより、対話参加者は相手の発話と対話の展開パターンを前もって知ることが可能になり、対話を継続する際に頭を整理することでよりスムーズな対話が可能になる。
また、本実施の形態では、一例として日本語と英語の場合と、中国語と英語の場合とを取り上げたが、仏語など他の言語についても同様に実施可能であり、本発明は言語に依存しない。
本発明にかかる対話支援装置は、対話参加者の発話を速やかに入力させる機能を有し、携帯電話や携帯端末等の翻訳アプリケーションソフトウェア等として有用である。また公共の街頭端末や案内端末等の用途にも応用できる。さらに、同言語の対話では、定型文のチャットシステムなどの用途にも応用できる。
図1は、本発明に係る対話支援装置の一実施の形態の構成を示すブロック図である。 図2は、2つの対話支援装置を用いて対話を行う場合の実施の形態の構成を示すブロック図である。 図3は、対話支援装置における入出力の発話と発話No.の対応関係の一例を示す図である。 図4、は対話支援装置における入出力の発話と発話No.の対応関係の一例を示す図である。 図5(a)、図5(b)は、対話履歴データベースに格納される対話履歴の一例を示す図である。 図6は、本発明に係る対話支援装置が利用される場面の一例を示す図である。 図7は、発話予測部の動作の流れを示すフローチャートである。 図8は、本発明に係る対話支援装置の表示例を示す図である。 図9は、予測スタックの作成手順を示すフローチャートである。 図10は、対話履歴の発話数を調整する動的計画法のアルゴリズムを示す図である。 図11は、対話履歴xに対して動的計画法を適用した例を示す図である。 図12(a)、図12(b)は、本発明に係る対話支援装置の表示例を示す図である。 図13(a)、図13(b)は、本発明に係る対話支援装置の表示例を示す図である。 図14(a)、図14(b)は、本発明に係る対話支援装置の表示例を示す図である。 図15(a)、図15(b)は、本発明に係る対話支援装置の表示例を示す図である。 図16(a)、図16(b)は、本発明に係る対話支援装置の表示例を示す図である。 図17(a)、図17(b)は、本発明に係る対話支援装置の表示例を示す図である。 図18(a)、図18(b)は、本発明に係る対話支援装置の表示例を示す図である。 図19は、本発明によって支援される対話を形式的に表現した図である。 図20は、新しく生成された対話d'を示す図である。 図21(a)、図21(b)は、対話履歴の類似度を定義する数式と計算の例を示す図である。 図22は、対話履歴の類似度を比較した図である。 図23は、本発明による対話を形式的に表現した図である。 図24(a)、図24(b)は、新しく生成された対話d''と対話履歴の類似度の比較を示す図である。 図25は、対話支援装置における入出力の発話と発話No.の対応関係の一例を示す図である。 図26は、対話支援装置における入出力の発話と発話No.の対応関係の一例を示す図である。 図27(a)、図27(b)は、対話履歴データベースに格納される対話履歴の一例を示す図である。 図28は、本発明に係る対話支援装置の表示例を示す図である。 図29(a)、図29(b)は、本発明に係る対話支援装置の表示例を示す図である。 図30(a)、図30(b)は、本発明に係る対話支援装置の表示例を示す図である。 図31(a)、図31(b)は、本発明に係る対話支援装置の表示例を示す図である。 図32(a)、図32(b)は、本発明に係る対話支援装置の表示例を示す図である。 図33(a)、図33(b)は、本発明に係る対話支援装置の表示例を示す図である。 図34(a)、図34(b)は、本発明に係る対話支援装置の表示例を示す図である。 図35(a)、図35(b)は、本発明に係る対話支援装置の表示例を示す図である。 図36は、本発明によって支援される対話を形式的に表現した図である。 図37は、新しく生成された対話fを示す図である。 図38は、対話履歴の類似度を比較した図である。 図39は、本発明による対話を形式的に表現した図である。 図40(a)、図40(b)は、新しく生成された対話f'と対話履歴の類似度の比較を示す図である。 図41は、対話参加者が1台の対話支援装置を共有する様子を示す図である。 図42は、対話参加者が1台の対話支援装置を共有する様子を示す図である。 図43は、本発明に係る対話支援装置の他の実施の形態の構成を示すブロック図である。 図44は、本発明に係る対話支援装置の他の実施の形態の構成を示すブロック図である。 図45は、本発明に係る対話支援装置の他の実施の形態の構成を示すブロック図である。 図46(a)、図46(b)は、本発明に係る対話支援装置の表示例を示す図である。 図47(a)、図47(b)は、本発明に係る対話支援装置の表示例を示す図である。
符号の説明
101 発話受付部
102 発話処理部
103 発話出力部
104 対話履歴データベース
105 発話予測部
703 対話参加者1のトピック入力領域
704 対話参加者2のトピック入力領域
705 対話参加者1の対話開始ボタン
706 対話参加者2の対話開始ボタン
1101 対話参加者1の発話入力領域
1102 対話参加者2の発話入力領域
1103 対話参加者2への発話出力領域
1104 対話参加者1への発話出力領域
1105 対話参加者1への予測候補の表示領域
1106 対話参加者2への予測候補の表示領域
1107 対話参加者1の対話の予測展開ボタン
1108 対話参加者2の対話の予測展開ボタン
1801 対話参加者に提示された予測候補と対話参加者が実際に入力した発話の対の時系列
1802 対話の分岐点
2001 対話履歴dbに対する対話履歴daの類似度を定義する数式
2002 類似度計算の例
2201 対話参加者に提示された予測候補と対話参加者が実際に入力した発話の対
2401 対話参加者1の対話履歴を格納するメモリカード
2402 対話参加者2の対話履歴を格納するメモリカード
2801 対話参加者1に対するこれまでに交わした対話
2802 対話参加者1に対する今後の対話の予測展開
2803 対話参加者2に対するこれまでに交わした対話
2804 対話参加者2に対する今後の対話の予測展開
上記目的を達成するため、本発明に係る対話支援装置は、対話参加者によって行われる対話を支援する対話支援装置であって、前記対話参加者の過去の発話の列である対話履歴を当該対話履歴における対話のトピックに対応づけて格納している対話履歴データベースと、前記対話履歴データベースに格納されている前記対話履歴に基づいて第1発話予測情報を作成し、作成した前記第1発話予測情報を前記他の対話支援装置へ通知するとともに、他の対話支援装置から第2発話予測情報を取得し、前記第1発話予測情報および前記第2発話予測情報に基づいて、当該対話支援装置を使用する対話参加者の前記対話における次の発話を予測する発話予測手段とを備え、前記発話予測手段は、対話のトピックを示す情報を取得し、取得した情報が示す対話のトピックに対応づけられた対話履歴を前記対話履歴データベースから抽出し、抽出した前記対話履歴を前記第1発話予測情報とし、前記第1発話予測情報および前記第2発話予測情報に含まれるそれぞれの対話履歴に共通して含まれ、かつ、連続する発話の集合を1つの発話とみなすことで、前記第1発話予測情報を発話の列に再構成した予測スタックを作成し、作成した前記予測スタックの先頭の発話を前記対話参加者の次の発話として予測することを特徴とする。

Claims (17)

  1. 対話参加者によって行われる対話を支援する対話支援装置であって、
    前記対話参加者の過去の対話履歴を格納している対話履歴データベースと、
    前記対話履歴データベースに格納されている前記対話履歴に基づいて第1発話予測情報を作成するとともに、他の対話支援装置から第2発話予測情報を取得し、前記第1発話予測情報および前記第2発話予測情報に基づいて、当該対話支援装置を使用する対話参加者の前記対話における次の発話を予測する発話予測手段と
    を備えることを特徴とする対話支援装置。
  2. 前記発話予測手段は、作成した前記第1発話予測情報を前記他の対話支援装置へ通知する
    ことを特徴とする請求項1記載の対話支援装置。
  3. 前記発話予測手段は、前記対話履歴データベースに格納されている前記対話履歴の中から前記対話における対話状況が最も近い対話履歴を抽出し、抽出した前記対話履歴を前記第1発話予測情報とする
    ことを特徴とする請求項1記載の対話支援装置。
  4. 前記発話予測手段は、前記第1発話予測情報および前記第2発話予測情報に含まれるそれぞれの対話履歴に共通して含まれ、かつ、連続する発話の集合に基づいて予測スタックを作成する
    ことを特徴とする請求項3記載の対話支援装置。
  5. 前記発話予測手段は、前記予測スタックの先頭の発話を、前記対話参加者の次の発話として予測する
    ことを特徴とする請求項4記載の対話支援装置。
  6. 前記発話予測手段は、前記対話参加者の発話が前記予測スタックの発話の集合に出現する場合は、前記集合を前記予測スタックの先頭に移動し、かつ、前記予測スタックの先頭から前記発話までを前記予測スタックから削除する
    ことを特徴とする請求項4記載の対話支援装置。
  7. 前記発話予測手段は、前記対話履歴に共通して含まれる発話である否かを、発話を特定するための発話情報の一致、表層表現の一致、および内容語の一致の少なくとも1つにより判定する
    ことを特徴とする請求項4記載の対話支援装置。
  8. 前記発話予測手段は、前記第1発話予測情報および前記第2発話予測情報に含まれるそれぞれの対話履歴の発話数を、動的計画法によって発話数が同じ数になるように調整する
    ことを特徴とする請求項3記載の対話支援装置。
  9. 前記対話支援装置は、さらに、
    前記対話参加者の発話を受け付ける発話受付手段と、
    前記発話受付手段により受け付けられた前記発話を他の発話形態に変換する発話処理手段と、
    前記発話処理手段により変換された前記他の発話形態の前記発話を出力する発話出力手段と
    を備えることを特徴とする請求項1記載の対話支援装置。
  10. 前記発話受付手段は、入力される音声に対して、音声認識辞書を前記発話予測手段により予測された予測発話、前記予測発話に近い文、前記予測発話に含まれる単語、および前記予測発話から連想される単語のいずれかの範囲内に絞り込みを行った上で音声認識を行い、前記音声認識結果を前記発話として受け付ける
    ことを特徴とする請求項9記載の対話支援装置。
  11. 前記対話支援装置は、さらに、表示手段を備え、
    前記発話予測手段は、予測した予測発話を前記表示手段に表示し、
    前記発話受付手段は、前記予測発話が前記対話参加者により選択されると、前記予測発話を前記発話として受け付ける
    ことを特徴とする請求項9記載の対話支援装置。
  12. 前記対話支援装置は、さらに、表示手段を備え、
    前記発話予測手段は、前記第1発話予測情報および前記第2発話予測情報に基づいて前記対話における前記対話参加者の発話の展開を予測し、予測した発話展開を前記表示手段に表示する
    ことを特徴とする請求項9記載の対話支援装置。
  13. 前記発話予測手段は、予測した前記発話展開を他の対話支援装置へ通知する
    ことを特徴とする請求項12記載の対話支援装置。
  14. 前記対話支援装置は、さらに、
    前記対話参加者により行われた前記対話の履歴を前記対話履歴データベースへ登録する履歴登録手段
    を備えることを特徴とする請求項1記載の対話支援装置。
  15. 第1対話支援装置および第2対話支援装置を用いて対話参加者によって行われる対話を支援する対話支援システムであって、
    前記第1対話支援装置は、
    前記対話参加者の過去の対話履歴を格納している第1対話履歴データベースと、
    前記対話履歴データベースに格納されている前記対話履歴に基づいて第1発話予測情報を作成するとともに、前記第2対話支援装置から第2発話予測情報を取得し、前記第1発話予測情報および前記第2発話予測情報に基づいて、当該第1対話支援装置を使用する対話参加者の前記対話における次の発話を予測する第1発話予測手段とを備え、
    前記第2対話支援装置は、
    前記対話参加者の過去の対話履歴を格納している第2対話履歴データベースと、
    前記第2対話履歴データベースに格納されている前記対話履歴に基づいて前記第2発話予測情報を作成するとともに、前記第1対話支援装置から前記第1発話予測情報を取得し、前記第1発話予測情報および前記第2発話予測情報に基づいて、当該第2対話支援装置を使用する対話参加者の前記対話における次の発話を予測する第2発話予測手段とを備える
    ことを特徴とする対話支援システム。
  16. 対話参加者によって行われる対話を支援する対話支援方法であって、
    前記対話参加者の過去の対話履歴に基づいて第1発話予測情報を作成するとともに、他の対話支援装置から第2発話予測情報を取得し、前記第1発話予測情報および前記第2発話予測情報に基づいて、当該対話支援装置を使用する対話参加者の前記対話における次の発話を予測する発話予測ステップ
    を含むことを特徴とする対話支援方法。
  17. 対話参加者によって行われる対話を支援するためのプログラムであって、
    前記対話参加者の過去の対話履歴に基づいて第1発話予測情報を作成するとともに、他の対話支援装置から第2発話予測情報を取得し、前記第1発話予測情報および前記第2発話予測情報に基づいて、当該対話支援装置を使用する対話参加者の前記対話における次の発話を予測する発話予測ステップをコンピュータに実行させる
    ことを特徴とするプログラム。
JP2006540887A 2004-10-08 2005-10-05 対話支援装置 Expired - Fee Related JP3962766B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004296776 2004-10-08
JP2004296776 2004-10-08
PCT/JP2005/018426 WO2006040969A1 (ja) 2004-10-08 2005-10-05 対話支援装置

Publications (2)

Publication Number Publication Date
JP3962766B2 JP3962766B2 (ja) 2007-08-22
JPWO2006040969A1 true JPWO2006040969A1 (ja) 2008-05-15

Family

ID=36148264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006540887A Expired - Fee Related JP3962766B2 (ja) 2004-10-08 2005-10-05 対話支援装置

Country Status (4)

Country Link
US (2) US7346515B2 (ja)
JP (1) JP3962766B2 (ja)
CN (1) CN1842788B (ja)
WO (1) WO2006040969A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1842788B (zh) * 2004-10-08 2012-04-04 松下电器产业株式会社 对话支援装置、系统及方法
KR20060110787A (ko) * 2005-04-20 2006-10-25 가부시키가이샤 소니 컴퓨터 엔터테인먼트 회화 지원 장치
US8180625B2 (en) * 2005-11-14 2012-05-15 Fumitaka Noda Multi language exchange system
JP4197344B2 (ja) * 2006-02-20 2008-12-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声対話システム
CN101266793B (zh) * 2007-03-14 2011-02-02 财团法人工业技术研究院 通过对话回合间上下文关系来减少辨识错误的装置与方法
US20080312902A1 (en) * 2007-06-18 2008-12-18 Russell Kenneth Dollinger Interlanguage communication with verification
US8566076B2 (en) * 2008-05-28 2013-10-22 International Business Machines Corporation System and method for applying bridging models for robust and efficient speech to speech translation
JP5501581B2 (ja) * 2008-07-25 2014-05-21 シャープ株式会社 情報処理装置および情報処理方法
WO2011036769A1 (ja) 2009-09-25 2011-03-31 株式会社東芝 翻訳装置、及びプログラム
US9564120B2 (en) * 2010-05-14 2017-02-07 General Motors Llc Speech adaptation in speech synthesis
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
JP5242726B2 (ja) * 2011-03-28 2013-07-24 株式会社東芝 外国語接客支援装置、外国語接客方法及びプログラム
CN103578469A (zh) * 2012-08-08 2014-02-12 百度在线网络技术(北京)有限公司 一种展示语音识别结果的方法及装置
US9501472B2 (en) * 2012-12-29 2016-11-22 Intel Corporation System and method for dual screen language translation
EP3261087A1 (en) * 2013-09-03 2017-12-27 Panasonic Intellectual Property Corporation of America Voice interaction control method
US10049656B1 (en) 2013-09-20 2018-08-14 Amazon Technologies, Inc. Generation of predictive natural language processing models
US9600474B2 (en) * 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
JP6359327B2 (ja) * 2014-04-25 2018-07-18 シャープ株式会社 情報処理装置および制御プログラム
US20170364323A1 (en) * 2015-03-12 2017-12-21 Kabushiki Kaisha Toshiba Dialogue support apparatus, method and terminal
WO2018085760A1 (en) * 2016-11-04 2018-05-11 Semantic Machines, Inc. Data collection for a new conversational dialogue system
US10713288B2 (en) 2017-02-08 2020-07-14 Semantic Machines, Inc. Natural language content generator
US10762892B2 (en) 2017-02-23 2020-09-01 Semantic Machines, Inc. Rapid deployment of dialogue system
US11069340B2 (en) 2017-02-23 2021-07-20 Microsoft Technology Licensing, Llc Flexible and expandable dialogue system
WO2018156978A1 (en) 2017-02-23 2018-08-30 Semantic Machines, Inc. Expandable dialogue system
US11132499B2 (en) 2017-08-28 2021-09-28 Microsoft Technology Licensing, Llc Robust expandable dialogue system
US11238226B2 (en) * 2018-11-15 2022-02-01 Nuance Communications, Inc. System and method for accelerating user agent chats
US11309076B2 (en) 2018-11-21 2022-04-19 GE Precision Healthcare LLC Workflow predictive analytics engine
US11380436B2 (en) 2018-11-21 2022-07-05 GE Precision Healthcare LLC Workflow predictive analytics engine
US10839801B2 (en) * 2018-12-13 2020-11-17 Language Line Services, Inc. Configuration for remote multi-channel language interpretation performed via imagery and corresponding audio at a display-based device
US11676586B2 (en) * 2019-12-10 2023-06-13 Rovi Guides, Inc. Systems and methods for providing voice command recommendations

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5216603A (en) * 1985-11-18 1993-06-01 Action Technologies, Inc. Method and apparatus for structuring and managing human communications by explicitly defining the types of communications permitted between participants
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
JPH0877176A (ja) * 1994-09-07 1996-03-22 Hitachi Ltd 外国語翻訳装置
US5682539A (en) * 1994-09-29 1997-10-28 Conrad; Donovan Anticipated meaning natural language interface
JP3367298B2 (ja) * 1994-11-15 2003-01-14 富士ゼロックス株式会社 言語情報提供装置、言語情報提供システムおよび言語情報提供方法
US5812126A (en) * 1996-12-31 1998-09-22 Intel Corporation Method and apparatus for masquerading online
JP2000187435A (ja) * 1998-12-24 2000-07-04 Sony Corp 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
JP3822990B2 (ja) * 1999-01-07 2006-09-20 株式会社日立製作所 翻訳装置、記録媒体
US6233561B1 (en) * 1999-04-12 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method for goal-oriented speech translation in hand-held devices using meaning extraction and dialogue
TW501046B (en) * 1999-06-11 2002-09-01 Ind Tech Res Inst A portable dialogue manager
US6622119B1 (en) * 1999-10-30 2003-09-16 International Business Machines Corporation Adaptive command predictor and method for a natural language dialog system
JP3974412B2 (ja) * 2001-01-24 2007-09-12 松下電器産業株式会社 音声変換装置
US7050979B2 (en) * 2001-01-24 2006-05-23 Matsushita Electric Industrial Co., Ltd. Apparatus and method for converting a spoken language to a second language
US7251595B2 (en) * 2001-03-22 2007-07-31 Nippon Telegraph And Telephone Corporation Dialogue-type information providing apparatus, dialogue-type information providing processing method, and program and recording medium for the same
JP2003030187A (ja) * 2001-07-18 2003-01-31 Nec Corp 自動通訳システム、会話学習装置、自動通訳装置及びその方法並びにそのプログラム
JP3980331B2 (ja) * 2001-11-20 2007-09-26 株式会社エビデンス 多言語間会話支援システム
US20040172236A1 (en) * 2003-02-27 2004-09-02 Fraser Grant E. Multi-language communication system
CN1842788B (zh) * 2004-10-08 2012-04-04 松下电器产业株式会社 对话支援装置、系统及方法
CN101099147B (zh) * 2005-11-11 2010-05-19 松下电器产业株式会社 对话支持装置

Also Published As

Publication number Publication date
CN1842788A (zh) 2006-10-04
US7835914B2 (en) 2010-11-16
US20080215338A1 (en) 2008-09-04
CN1842788B (zh) 2012-04-04
US7346515B2 (en) 2008-03-18
WO2006040969A1 (ja) 2006-04-20
JP3962766B2 (ja) 2007-08-22
US20060136227A1 (en) 2006-06-22

Similar Documents

Publication Publication Date Title
JP3962766B2 (ja) 対話支援装置
JP3962767B2 (ja) 対話支援装置
JP3822990B2 (ja) 翻訳装置、記録媒体
US8949133B2 (en) Information retrieving apparatus
JP4135307B2 (ja) 音声通訳サービス方法および音声通訳サーバ
KR101583181B1 (ko) 응답 스티커 추천방법 및 컴퓨터 프로그램
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
JP2015153108A (ja) 音声会話支援装置、及び音声会話支援方法及びプログラム
JP2008083855A (ja) 機械翻訳を行う装置、システム、方法およびプログラム
JP3278222B2 (ja) 情報処理方法及び装置
BRPI0613699A2 (pt) busca de dicionário para dispositivos móveis que usa reconhecimento de escrita
JP2005043461A (ja) 音声認識方法及び音声認識装置
US20080270128A1 (en) Text Input System and Method Based on Voice Recognition
JPH08278972A (ja) 音声入力翻訳装置
JP3984642B2 (ja) 対話支援装置
JP5343744B2 (ja) 音声翻訳装置及び音声翻訳方法
JPH0778183A (ja) デ−タベ−ス検索システム
JP2017187797A (ja) テキスト生成装置、方法、及びプログラム
JP3870722B2 (ja) 翻訳装置、記録媒体
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
JP4041104B2 (ja) 翻訳装置
JP2002323969A (ja) コミュニケーション支援方法およびこの方法を用いたシステムならびに装置
JPH06261126A (ja) オペレータ支援型音声対話装置
JP2002288170A (ja) 多言語間コミュニケーション支援システム
JPH09259145A (ja) 検索方法および音声認識装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070424

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070521

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees