JPWO2007013521A1

JPWO2007013521A1 - ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム

Info

Publication number: JPWO2007013521A1
Application number: JP2007526878A
Authority: JP
Inventors: 幹生中野
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2005-07-26
Filing date: 2006-07-26
Publication date: 2009-02-12
Anticipated expiration: 2026-07-26
Also published as: WO2007013521A1; US8352273B2; US20100131277A1; JP4901736B2

Abstract

本発明は、ユーザと機械とのインタラクションを実施する装置を提供する。この装置は、インタラクションにおける複数の段階に対応する複数のドメインを有し、各ドメインは、ユーザの音声の内容を理解して音声理解結果を出力する音声理解手段を備えている。この装置は、ユーザの音声を認識する手段と、最良の音声理解結果をとるドメインを当該ドメインとして選択する手段と、当該ドメインのタスク知識を参照して音声理解結果に関連付けられたタスクを抽出する手段と、抽出されたタスクに関連付けられたサブタスク系列を求める手段と、サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新する手段と、当該ドメインの行動知識を参照して、音声理解結果およびサブタスクに関連付けられた行動またはサブタスク終了フラグを抽出する手段と、抽出された行動を機械に実行させる手段と、を備える。

Description

本発明は、ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラムに関する。

従来、ロボットまたはカー・ナビゲーションなどのような機械と、人間とのインターフェースとして、音声対話インターフェースが開発されている。対話インターフェースを有する機械は、ユーザとの対話や、対話で得られた情報に基づいて実行される自身の行動などによって、ユーザとのインタラクションを実施する。

例えば、特開2003-316385号公報には、ユーザと機械が自由に対話するために、ユーザの発話を音声認識した結果に対応したタスク(ドメイン)を複数のタスクより選んで対話シークエンスを自動生成し、さらにユーザが発話した場合は必要に応じて対応したタスクの対話シークエンスに遷移し、もとの対話シークエンスに復帰する技術が開示されている。

しかしながら、従来技術では、ユーザ発話の音声認識結果に応じてタスク（ドメイン）を選択するので、車内の雑音などによって誤った認識が行われたときなどに、想定外のタスク（ドメイン）に遷移して対話の文脈が齟齬をきたし、ユーザが戸惑う事態が考えられる。

本発明の目的は、対話の文脈を保って複数のドメインを遷移するようにユーザと機械とのインタラクションを実施することが可能な手法を提供することである。

本発明は、ユーザと機械とのインタラクションを実施する装置を提供する。この装置は、インタラクションにおける複数の段階に対応する複数のドメインを有し、該複数のドメインのそれぞれは、ユーザの音声の内容を理解して音声理解結果を出力する音声理解手段を備えている。この装置は、マイクロフォンで検出された信号からユーザの音声を認識する手段と、音声理解手段のそれぞれにユーザの音声を送り、音声理解手段のそれぞれから音声理解結果を受け取り、最良の音声理解結果をとる音声理解手段が含まれるドメインを当該ドメインとして選択する手段と、複数のドメインのそれぞれに含まれるタスク知識のうち当該ドメインのタスク知識を参照して、音声理解結果に関連付けられたタスクを抽出する手段と、タスクの種類に関連付けられる複数のサブタスクを含むサブタスク知識を参照して、前記抽出されたタスクに関連付けられたサブタスク系列を求める手段と、サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新する手段と、複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、音声理解結果および前記サブタスクに関連付けられた行動またはサブタスク終了フラグを抽出する手段と、抽出された行動を機械に実行させる手段と、を備える。

この発明により、複数のドメインに跨る人と機械のインタラクションを滑らかに実行できる。

本発明の一実施形態によると、サブタスク知識は、タスクに関連付けられる１つ以上のサブタスクに関する知識と、サブタスクに関連付けられるドメインに関する知識と、を含む。これにより、タスクを達成する間、ドメインの文脈を保持することができる。

本発明の一実施形態によると、音声理解手段のそれぞれは、対応するドメインに関連性の高い複数の文パターンを含む音声知識を参照して、音声と複数の文パターンのそれぞれとの適合度を算出し、適合度が最も高い文パターンを選択し、選択された文パターンおよび該文パターンの適合度を音声理解結果として出力する。これにより、ドメインの文脈を保つことができる。

本発明の一実施形態によると、選択する手段は、適合度に複数のドメインごとに設定された重みを乗じて信頼度を算出し、最大の信頼度をとるドメインを当該ドメインとして選択する。これにより、ドメインの文脈を保つことができる。

本発明の一実施形態によると、更新する手段は、行動またはサブタスク終了フラグを抽出する手段がサブタスク終了フラグを抽出すると、サブタスク系列における当該サブタスクの次のサブタスクを新たな当該サブタスクとして更新し、新たな当該サブタスクの属するドメインを当該ドメインとして更新する。これによりタスクを円滑に達成することができる。

さらに、本発明は、ユーザと機械とのインタラクションを実施するための方法を提供する。この方法は、マイクロフォンで検出された信号からユーザの音声を認識するステップと、インタラクションにおける複数の段階に対応する複数のドメインのそれぞれにユーザの音声を送るステップと、複数のドメインのそれぞれにおいて、音声の内容を理解して音声理解結果を出力するステップと、複数のドメインのそれぞれから音声理解結果を受け取るステップと、複数の音声理解結果のうち最良の音声理解結果をとるドメインを、当該ドメインとして選択するステップと、複数のドメインのそれぞれに含まれるタスク知識のうち当該ドメインのタスク知識を参照して、音声理解結果に関連付けられたタスクを抽出するステップと、タスクの種類に関連付けられた複数のサブタスクを含むサブタスク知識を参照して、抽出されたタスクに関連付けられたサブタスク系列を求めるステップと、サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新するステップと、複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、音声理解結果およびサブタスクに関連付けられた行動またはサブタスク終了フラグを抽出するステップと、抽出された行動を機械に実行させるステップと、を含む。

さらに、本発明は、ユーザと機械とのインタラクションを実施するためのプログラムを提供する。このプログラムは、マイクロフォンで検出された信号からユーザの音声を認識する機能と、ユーザとのインタラクションにおける複数の段階に対応する複数のドメインのそれぞれにユーザの音声を送る機能と、複数のドメインのそれぞれにおいて、音声の内容を理解して音声理解結果を出力する機能と、複数のドメインのそれぞれから、音声理解結果を受け取る機能と、複数の音声理解結果のうち最良の音声理解結果をとるドメインを、当該ドメインとして選択する機能と、複数のドメインのそれぞれに含まれるタスク知識のうち当該ドメインのタスク知識を参照して、音声理解結果に関連付けられたタスクを抽出する機能と、タスクの種類に関連付けられる複数のサブタスクを含むサブタスク知識を参照して、抽出されたタスクに関連付けられたサブタスク系列を求める機能と、サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新する機能と、複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、音声理解結果およびサブタスクに関連付けられた行動またはサブタスク終了フラグを抽出する機能と、抽出された行動を機械に実行させる機能と、をコンピュータに実現させる。このプログラムは、コンピュータ読取り可能な記録媒体に記録される。

音声インタラクティブ装置の機能ブロック図である。発話理解処理のフローチャートである。行動選択処理のフローチャートである。ステップＳ２０９の行動実行・タスク抽出処理のフローチャートである。

符号の説明

１０音声インタラクティブ装置
１１音声認識部
１３ドメイン選択部
１７行動選択部
１９行動実行部
２３タスク計画部
２５サブタスク知識
３１ａ〜３１ｎ音声理解部
３７ａ〜３７ｎ行動抽出部
４１ａ〜４１ｎタスク抽出部
４３ａ〜４３ｎタスク知識

１．概略
次に図面を参照して、この発明の実施の形態を説明する。図１は、本発明の一実施形態による音声インタラクティブ装置１０の機能ブロック図である。

音声インタラクティブ装置１０は、例えば、種々の演算を実行するＣＰＵ、演算結果を一時記憶するためのメモリ、学習結果等を記憶するＲＯＭ、データの入出力を行うインターフェース等を備えるマイクロコンピュータにより実現される。図１に示された音声インタラクティブ装置１０の各機能ブロックの一部または全部は、ソフトウェア、ファームウェア、あるいはハードウェアの何れでも実現することができる。

音声インタラクティブ装置１０は、人間と機械とのインタラクションを実施するための装置である。音声インタラクティブ装置１０は、機械に備えられたマイクロフォンなどの音声検知手段（図示せず）から人間の音声を受け取り、機械の発声手段または移動手段など（図示せず）へ動作指令を送信する。

ここで、本発明における「機械」とは、ロボット、カー・ナビゲーション、電化製品など、インターフェースに音声を用いるもののことをいう。

音声インタラクティブ装置１０は、機械の内部に組み込む形式でも、機械の外部から有線または無線で機械と通信する形式でも良い。

音声インタラクティブ装置１０は、複数のドメインａ〜ｎを備える。

ここで、本発明における「ドメイン」とは、人間と機械との間のインタラクションを構成する複数の段階（フェーズ）のことをいう。

本実施形態では、ドメインａ〜ｎは、人間の要求の種類を理解するために対話を行う「要求理解ドメイン」と、人間の要求に応えるために行動を実行する「非要求理解ドメイン」とに大別される。

「要求理解ドメイン」は、人間の発話内容を推定したり、不明な点を質問するなどの対話を通して、例えば「人を呼びに行く」というような人間からの要求を理解する。要求理解ドメインは、「人を呼びに行く」の他にも、要求の内容に応じて別々なドメインが用意されており、これら複数の要求理解ドメインの中からユーザの発話内容に最適な１つが選択される。ドメインの選択は、後述する発話理解処理によって行われる。１つの要求理解ドメインを選択することにより、ユーザの要求の内容が理解されたことになる。

「非要求理解ドメイン」は、例えば「目標位置の情報を得る」、「目標位置へ移動する」「メッセージを伝える」というような行動の内容に応じて別々なドメインが用意されている。

複数のドメインａ〜ｎは、それぞれ、音声理解部３１ａ〜ｎ、音声知識３３ａ〜ｎ、状態格納部３５ａ〜ｎ、行動抽出部３７ａ〜ｎ、行動知識３９ａ〜ｎ、タスク抽出部４１ａ〜ｎ、タスク知識４３ａ〜ｎを備える。音声知識、行動知識、およびタスク知識は、ドメインの種類に応じて関連性の高い文パターン、行動、およびタスクがそれぞれ記憶されている。

本実施形態では、階層的に「タスク」、「サブタスク」、および「行動」という言葉を使い分ける。はじめに、ドメイン選択部１３が、ユーザの発話内容に最適な要求理解ドメインを選択して、選択されたドメイン（ａ〜ｎのいずれか）（以下「当該ドメイン」という）のタスク抽出部（４１ａ〜４１ｎのいずれか）が、ユーザの要求内容を満足するためにロボットが行うべき「タスク」を抽出する。次に、タスク計画部２３が、抽出された「タスク」を行うための「サブタスク」の系列を決定する。そして、行動選択部１７が、「サブタスク」系列にしたがって、「サブタスク」を行うための「行動」を選択する。つまり、「タスク」、「サブタスク」、「行動」の内容は、タスク→サブタスク→行動の順で細分化される。

音声インタラクティブ装置１０で行われる処理は、「発話理解処理」および「行動選択処理」に分けられる。「発話理解処理」は、主に、音声認識部１１，ドメイン選択部１３，各ドメインの音声理解部３１ａ〜ｎ、当該ドメイン格納部１５によって実施される。「行動選択処理」は、主に、行動選択部１７，行動実行部１９、行動履歴格納部２１，当該ドメイン格納部１５，当該ドメインの行動抽出部（３７ａ〜３７ｎのいずれか）、タスク抽出部（４１ａ〜４１ｎのいずれか）、タスク計画部２３によって実施される。以下に、「発話理解処理」および「行動選択処理」の詳細について説明する。

２．発話理解処理
次に、図２を参照して音声インタラクティブ装置１０の発話理解処理について説明する。図２は、発話理解処理のフローチャートである。

ステップＳ１０１において、マイクロフォンなどの検知手段（図示せず）からユーザの発話が入力されると、音声認識部１１が音声を認識する。音声認識部１１は、隠れマルコフモデルなど公知の手法を用いて、単語列および各単語の認識結果の信頼度の形で音声認識結果を出力する。信頼度は、一般に０〜１の値をとる。単語列に含まれる単語のそれぞれは、複数の候補を有していても良い。雑音のある環境にいる場合は、ビームフォーミングなどの公知の手法を用いて、マイクロフォンからの入力信号から音声を抽出して、抽出された音声を認識しても良い。

ステップＳ１０３において、ドメイン選択部１３が、音声認識結果を各ドメインａ〜ｎの音声理解部３１ａ〜３１ｎへ送信する。また、ドメイン選択部１３は、音声認識結果を音声認識部１１から受け取った時刻から所定の期間（たとえば３秒間）、当該ドメイン選択部１５に発話終了フラグを立てる。

ステップＳ１０５において、各ドメインの音声理解部３１ａ〜３１ｎが、ドメイン選択部１３より入力された音声認識結果に含まれる単語列と、ドメインに応じて用意された音声知識３３ａ〜３３ｎにある文パターンとの「適合度」を算出する。

音声知識３３ａ〜３３ｎは、音声認識結果を理解するためにドメインに応じて用意された複数の「文パターン」から構成される。「文パターン」は、例えば、
「＜日にち＞の＜場所＞の＜情報種別＞を教えて」
というものある。この例示した文パターンでは、＜日にち＞、＜場所＞、＜情報種別＞という３つのカテゴリを含んでいる。各カテゴリは対応したキーワードリストを持つ。

音声認識結果に含まれる単語のそれぞれは、文パターンのカテゴリ別に用意されたキーワードと一致すると、そのカテゴリに適合される。「適合度」は、例えばある文パターンが含むカテゴリのうち、単語を適合されたカテゴリの数や割合である。

例えば、「明日の天気を教えて」という音声認識結果を、
「＜日にち＞の＜場所＞の＜情報種別＞を教えて」
という文パターンに適合させると、
＜日にち＞＝明日、＜場所＞=“空白”、＜情報種別＞＝天気
という結果となる。このとき、３つのカテゴリのうち２つのカテゴリが音声認識結果と適合しているので、適合度は「２」または「２／３」と表される。

ステップＳ１０７において、音声理解部３１ａ〜３１ｎが、最も適合度の高い文パターンを選択する。そして、選択した文パターンの各カテゴリに適合する単語を当てはめた文（以下「適合済み文パターン」という）と、この文パターンの適合度とを、「音声理解結果」として状態格納部３５ａ〜３５ｎに格納する。

「適合済み文パターン」は、上記の例に従うと、
「＜日にち＝明日＞の＜場所=“空白”＞の
＜情報種別＝天気＞を教えて」
のように表される。また、「適合済み文パターン」に各単語の信頼度を加えても良い。例えば、「明日」という単語の音声認識の信頼度を0.9、「天気」という単語の音声認識の信頼度を0.7とすると、適合済み文パターンは、
「＜日にち＝明日(0.9)＞の＜場所=“空白”(0.0)＞の
＜情報種別＝天気(0.7)＞を教えて」
のように表される。

ステップＳ１０９において、音声理解部３１ａ〜３１ｎは、選択した文パターンの適合度をドメイン選択部１３に送る。

ステップＳ１１１において、ドメイン選択部１３が、各ドメインの音声理解部３１ａ〜３１ｎから受け取った適合度から「選択信頼度」を算出する。

「選択信頼度」は、ドメイン別に設定された「重み」を適合度に乗じて算出される。

「重み」は、当該ドメイン格納部１５に格納されている当該ドメインに対して１より大きい値が設定され、他のドメインに対しては１が設定される。これは、当該ドメインの対話や行動は連続して行われる可能性が高いと仮定しているためである。当該ドメインとは、直前のユーザ発話またはサブタスクの属するドメインである。

当該ドメインのない場合は、全ての重みが等しい値（たとえば１）に設定される。

当該ドメインの重みは、要求理解ドメインであれば他ドメインより少し大きい値、非要求理解ドメインであれば大きな値としても良い。このように重み付けると、要求選択ドメインは固定されにくく、それ以外のドメインは固定されやすくなる。これは、ユーザの要求を理解するには対話の試行錯誤が求められることが多いが、ひとたび要求を理解すると、その後の対話や行動の文脈は固定されやすい、と仮定しているためである。

ステップＳ１１３において、ドメイン選択部１３は、選択信頼度が最も大きいドメインを当該ドメインとして選択し、この選択したドメインの情報を当該ドメイン格納部１５に格納する。複数のドメイン選択信頼度が同じだった場合は、当該ドメインを選択する。このようにドメインを推定すると、当該ドメインが選ばれやすくなる。選択信頼度を算出せずに、適合度が最も大きいドメインを当該ドメインとしても良い。

以上に、音声インタラクティブ装置１０の音声理解処理について説明した。

入力されたユーザ発話に対して以上の発話理解処理を行った後、当該ドメイン格納部１５には、現在のシステムが行っている対話・行動のドメインを表す「当該ドメイン」と、ユーザの発話の理解が終了したことを示す「発話終了フラグ」が格納される。

また、各ドメインの状態格納部３５ａ〜３５ｎには、最も適合度の高かった文パターンの適合済み文パターンおよび適合度を含む「音声理解結果」が格納される。

３．行動選択処理
次に、図３および図４を参照して音声インタラクティブ装置１０の行動選択処理について説明する。図３は、行動選択処理のフローチャートである。

図３に示す行動選択処理は、行動選択部１７によって、所定の周期（たとえば１００ミリ秒）で実行される。

ステップＳ２０１において、行動選択部１７は、行動履歴格納部２１を参照して、ロボットが行動を実行しているかどうかを確認する。行動履歴格納部２１は、「直前に実行された行動」、「その行動の開始時刻」、「行動の終了時刻」を記録している。行動が実行中の場合終了時刻は記録されていないので、行動選択部１７は、行動履歴格納部２１の「行動の終了時刻」の有無を確認することにより、行動が実行中かどうかを把握する。行動が実行中でない場合、ステップＳ２０３に進む。行動が実行中の場合、今回の周期の処理は終了し、次の周期まで待機する。

ステップＳ２０３において、行動選択部１７は、ロボットが行動を終了した直後かどうかを確認する。この処理は、たとえば、行動履歴格納部２１の「行動の終了時刻」を参照して、現在の時刻が「行動の終了時刻」から所定時間経過しているかを確認する。行動が終了した直後ではない場合、ステップＳ２０５に進む。行動が終了した直後だった場合、ステップＳ２０７に進む。

ステップＳ２０５において、行動選択部１７は、当該ドメイン格納部１５の発話終了フラグを参照して、ユーザの発話が終了しているかどうかを確認する。発話が終了している場合、ステップＳ２０９に進み、「行動選択・タスク抽出」処理を行う。発話が終了していない場合、今回の周期の処理は終了し、次の周期まで待機する。

ステップＳ２０７において、行動選択部１７は、行動履歴格納部２１の「直前に実行された行動」を参照して、直前の行動が「ユーザへの質問」かどうかを確認する。直前の行動が「ユーザへの質問」ではない場合、ステップＳ２０９に進み、「行動選択・タスク抽出」処理を行う。直前の行動が「ユーザへの質問」だった場合、今回の周期の処理は終了し、次の周期まで待機する。

図４は、ステップＳ２０９の行動実行・タスク抽出処理のフローチャートである。

なお、説明の便宜上、以下の処理では当該ドメインとしてドメインａが選択されている場合を扱っている。実際の処理では、当該ドメインは、ドメインａ〜ｎの中から適宜選択される。

行動実行・タスク抽出処理では以下のステップが実行される。

（１）行動選択部１７が、当該ドメイン格納部１５を参照して当該ドメインａを調べ、当該ドメインの行動抽出部３７ａに行動選択を要求する（ステップＳ３０１）。

（２）行動選択部１７より行動選択が要求されると、当該ドメインａの行動抽出部３７ａが以下の処理を行う。

（２−１）当該ドメインａが理解要求ドメインの場合（ステップＳ３０３のＹＥＳ）、
ａ）行動知識３９ａの中の行動選択規則を参照して、状態格納部３５ａの音声理解結果に対応した行動またはサブタスク終了フラグを選択する（ステップＳ３０５）。

ここで、行動選択規則とは、状態格納部３５ａ〜ｎに格納されている音声理解結果、当該サブタスク、及び行動履歴のいずれか又は全てと、行動またはサブタスク終了フラグとの関係を表したものであり、音声対話の研究分野においてアクションセレクションを行うために一般的に用いられる規則である。

行動選択規則は、例えば、「音声理解結果で文パターンに”空白”のある場合に、空白を問う行動を生成する」、「音声理解結果が良い場合(適合状態が良く適合度が高い)、サブタスク終了フラグを選択する」、「音声理解結果が良くなく、行動履歴にある直前の行動がユーザに対する質問の場合は、繰り返し要求発話生成をする」、「音声理解結果が良くなく、行動履歴にある直前の行動がユーザへの了解発話の場合は、再び発話を問う依頼発話生成」などである。

また、行動知識には、「言語生成の知識」も含まれる。選択された行動が上記の「空白を問う行動を生成する」のような発話に関するものである場合、行動と発話内容の文章とを対応付ける。

ｂ）行動が選択された場合、行動選択部１７に行動を出力する（ステップＳ３１５）。

ｃ）サブタスク終了フラグが選択された場合、行動抽出部３７ａからタスク抽出部４１ａへタスク選択が要求される（ステップＳ３０９）。

ｄ）タスク抽出部４１ａが、タスク知識４３ａの中のタスク抽出規則を参照して音声理解結果に対応したタスクを、タスク計画部２３に出力する（ステップＳ３１１）。

ここで、タスク抽出規則とは、状態格納部３５ａ〜ｎに格納されている音声理解結果と、タスク計画部に出力すべきタスクとの関係を表す規則である。例えば、「人を呼ぶ要求理解のドメインａ」には、「＜人＞を呼んできて」という文パターンの＜人＞カテゴリに単語が適合されている適合済み文パターンを含む音声理解結果に対して、＜タスク＝人を呼びに行く、人＝＜人＞＞という出力タスクが関連付けられている。

ｅ）タスク計画部２３は、サブタスク知識２５を利用してタスクをサブタスク系列に変換し、タスク計画格納部２７に格納する（ステップＳ３１３）。

ここで、サブタスク知識２５は、タスクをサブタスクに分解するための知識(規則)を持ち、サブタスクはそれぞれドメインと関連付けられている。

タスクのサブタスクへの分解は、例えば以下のように行われる。
＜タスク＝呼ぶ、人＝＜Ｘ＞＞
というタスクは、
(i) ＜サブタスク＝人の位置を知る、人＝Ｘ＞
(ii) ＜サブタスク＝人に近づく、人＝Ｘ＞
(iii)＜サブタスク＝呼ばれていることを伝える、人＝Ｘ＞
というサブタスクの系列に分解される。

また、各サブタスクは、ドメインと対応付けられており、例えばサブタスク(i)が「人の位置を知る情報取得ドメイン」と対応し、サブタスク(ii)が「移動するドメイン」と対応し、サブタスク(iii)が「呼ばれているという情報提供ドメイン」と対応するよう設定されている。

（２−２）当該ドメインが非理解要求ドメインの場合（ステップＳ３０３のＮＯ）、行動知識３９ａの中の行動選択規則（上記(2-1)のa）に詳述）を参照して、状態格納部３５ａの音声理解結果、当該サブタスク及び行動履歴に対応した行動またはサブタスク終了フラグを選択し、行動選択部１７に出力する（ステップＳ３１７）。

（３）行動抽出部３７ａより行動またはサブタスク終了フラグが入力されると（ステップＳ３１９）、行動選択部１７が、
（３−１）行動が入力された場合は、その行動を行動実行部１９に出力する（Ｓ３２９）。行動実行部１９は、行動選択部１７より行動が入力されるとそれを実行し、実行開始時間を行動履歴格納部２１に格納する。実行を終了すると、当該行動と実行終了時間を行動履歴格納部２１に格納する。

（３−２）サブタスク終了フラグが入力された場合は、当該ドメイン格納部１５の当該ドメインをクリアし、タスク計画部２３にサブタスクを要求する（ステップＳ３２１）。

ａ）タスク計画部２３が、タスク計画格納部２７を参照して、サブタスク系列がある場合は先頭のサブタスクを行動選択部１７に出力し、サブタスク系列がない場合はタスク無しフラグを行動選択部１７に出力する（ステップＳ３２３）。

ｂ）サブタスクが入力された場合は、そのサブタスクのドメイン（ａ〜ｎのいずれか）を当該ドメインとして当該ドメイン格納部１５に格納し、当該ドメインの行動抽出部（３７ａ〜３７ｎのいずれか）にそのサブタスクを出力する。当該ドメインの行動抽出部（３７ａ〜３７ｎのいずれか）は、当該サブタスクを状態格納部（３５ａ〜３５ｎのいずれか）に格納する（ステップＳ３２７）。

ｃ）タスク無しフラグが送られてきた場合は、全ての格納部のデータをクリアする（ステップＳ３３１）。

以上に図３および図４を参照して、行動選択処理について説明した。

行動選択処理が行われると、各ドメインの状態格納部３５ａ〜３５ｎには、最も適合度の高かった文パターンの適合済み文パターンおよび適合度を含む「音声理解結果」に加えて「サブタスク」が格納される。

タスク計画格納部２７には、サブタスク系列が格納される。

行動履歴格納部２１には、「直前の行動」、「行動の実行終了時間」が格納される。

また、当該ドメイン格納部１５の当該ドメインが更新される場合がある。

４．実施例
４．１概略
次に、4つのドメインａ〜ｄを持つロボットとユーザ(アンリさん)との対話を通じたインタラクションの実施例を示す。

この実施例でロボットが備える4つのドメインａ〜ｄは、「人を呼びに行く要求理解ドメインａ」、「人の位置を知る情報取得ドメインｂ」、「移動するドメインｃ」、「呼ばれているという情報提供ドメインｄ」である。

ロボットとユーザが次のような対話を行う場合を考える。

アンリさん「ジダンさんを呼んできて」
ロボット「ジダンさんはどこにいますか？」
アンリさん「ドレッシングルーム」
ロボット「ジダンさんはどこにいますか？」
アンリさん「ドレッシングルーム」
ロボット「わかりました」
（ジダンさんのところに移動を始める）
ロボット「アンリさんが呼んでいます」

このような対話の間に音声インタラクティブ装置１０で行われる処理について以下に説明する。

４．２発話理解処理
初期状態では、全ての格納部の中身は空である。

マイクロフォンよりアンリさんの発話「ジダンさんを呼んできて」が入力されると、音声認識部１１は、”ジダン”、”さん”、”を”、”呼んで”、”きて”という単語列と認識し、各単語の信頼度（０〜１）と合わせてドメイン選択部に出力する。ここでは良好な音声認識が行われ、各単語はそれぞれ高い信頼度で認識された。

ドメイン選択部１３は、単語列を各ドメインａ〜ｄの音声理解部３１ａ〜３１ｄへ送信し、当該ドメイン格納部１５に所定の期間、発話終了フラグを立てる。

音声理解部３１ａ〜３１ｄのそれぞれは、音声知識３３ａ〜３３ｄにある文パターンにこの単語列を適合させる。

例えば「人を呼びに行く要求理解ドメインａ」には、「＜人＞を＜呼んで＞きて」という文パターンがあるので、この文パターンに適合させてみる。すると、＜人＞カテゴリが有するキーワードリストと”ジダン”、”さん” が適合するため、「人＝ジダンさん」が入力され、また、＜呼んで＞が一致する。

この場合、文パターンが含む全て(2つ)のカテゴリに単語が適合しており、また”ジダン”、”さん”、”呼んで”の信頼度が高かったので、高い適合度が算出される。

「人を呼びに行く要求理解ドメインａ」の他の文パターンに適合させた結果、この文パターンの適合度が最も高かったので、適合済み文パターン「＜人＝ジダンさん＞を＜呼んで＞きて」と適合度とを音声認識結果として状態格納部３５ａに格納し、適合度をドメイン選択部１３に出力する。

他の3つのドメインｂ〜ｄも同様に処理する。

ドメイン選択部１３は、各ドメインａ〜ｄの音声理解部３１ａ〜３１ｄより入力された適合度よりドメイン選択信頼度を算出して比較し、最も大きいドメイン選択信頼度を有するドメインを当該ドメインとして当該ドメイン格納部１５に格納する。

この発話では、当該ドメイン格納部１５に当該ドメインが記録されておらず、「人を呼びに行く要求理解ドメインａ」の適合度が最大だったので、これを当該ドメインとする。

４．３タスク抽出処理
行動選択部１７は、100ミリ秒間隔で行動履歴格納部２１を参照する。

この時、行動履歴格納部２１には何も格納されていないため、ロボットは行動実行中ではなく、また行動終了直後ではないと判断する。

そして、当該ドメイン格納部１５の発話終了フラグを検出して発話終了と判断する。そこで行動選択部１７は行動選択処理を行う。

行動選択処理では、行動選択部１７が当該ドメイン格納部１５を参照し、当該ドメインである「人を呼びに行く要求理解ドメインａ」の行動抽出部３７ａに行動選択を要求する。

当該ドメインは要求理解ドメインなので、行動抽出部３７ａは、状態格納部３５ａにある音声認識結果と、行動知識３９ａにある行動抽出規則を照らし合わせる。

ここでは音声理解結果が良好なので、サブタスク終了フラグが選択される。

そこでタスク知識４３ａのタスク抽出規則と照らし合わせ、＜タスク＝呼ぶ、人＝＜人＞＞という規則を選択し、＜タスク＝呼ぶ、人＝ジダンさん＞というタスクを得て、これをタスク計画部２３に出力する。

タスク計画部２３は、上記タスクを受け、サブタスク知識２５を参照して以下のサブタスク系列に分解してタスク計画格納部２７に格納し、先頭のサブタスク(i)を行動選択部１７に出力する。

(i) ＜サブタスク＝人の位置を知る、人＝ジダンさん＞・・・・・・・ドメインｂ
(ii) ＜サブタスク＝人に近づく、人＝ジダンさん＞・・・・・・・・・・ドメインｃ
(iii) ＜サブタスク＝呼ばれていることを伝える、人＝ジダンさん＞・・ドメインｄ
行動選択部１７は、サブタスク(i)のドメインである「人の位置を知る情報取得ドメインｂ」を当該ドメイン格納部１５に格納し、当該ドメインの行動抽出部３７ｂにサブタスク(i)を出力する。

当該ドメインの行動抽出部３７ｂは、入力されたサブタスク(i)を状態格納部３７ｂに格納する。

４．４行動選択処理１
行動選択部１７は、再度（100ミリ秒後）、行動履歴格納部２１と当該ドメイン格納部１５を参照してユーザ発話終了フラグを検出し、行動選択処理を行う。

行動選択部１７は、当該ドメイン格納部１５を参照して当該ドメイン「人の位置を知る情報取得ドメインｂ」を得、当該ドメインの行動抽出部３７ｂに行動選択を要求する。

当該ドメインの行動抽出部３７ｂは、行動知識３９ｂにある行動選択規則を参照して音声理解結果とサブタスク(i)に対応する行動を選択する。

当該ドメインの状態格納部３５ｂには
「 <人=ジダンさん＞は<どこ=“空白”＞」
という音声理解結果が格納されており、サブタスクが
(i)＜サブタスク＝人の位置を知る、人＝ジダンさん＞
なので、
＜行動＝位置を尋ねる、人＝＜人＞＞
という規則を選択し、
＜行動＝位置を尋ねる、人＝ジダンさん＞
という行動を得る。

この行動を、行動知識３９ｂにある言語生成の知識を用いて
「ジダンさんはどこにいますか？」
という文に変換し、行動選択部１７に出力する。

行動選択部１７はこの行動(文)を行動実行部１９に出力する。

行動実行部１９は、「ジダンさんはどこにいますか?」と発話し、ユーザへの質問という当該行動と実行終了時間を行動履歴格納部２１に格納する。

ユーザが「ドレッシングルーム」と応答発話をすると、音声認識部１１は ”ジダンさん”と低い評価値で認識する。

ドメイン選択部１３はこの認識結果を各ドメインの音声理解部３１ａ〜３１ｄに送信し、当該ドメイン格納部１５に発話終了フラグを立てる。

この発話は評価値が低いため、全ドメインで低い適合度が算出される。

適合度が低いため、全ドメインの音声理解部は誤認識を検出し、適合度と合わせて状態格納部３５ａ〜３５ｄに格納し、適合度をドメイン選択部１３に出力する。

ドメイン選択部１３は、当該ドメイン格納部１５に格納されている当該ドメインを参照し、「人の位置を知る情報取得ドメインｂ」であることを知り、このドメインに高い重みをつけて、ドメイン選択信頼度を計算する。その結果、再び「人の位置を知る情報取得ドメインｂ」が選択されたため、当該ドメイン格納部１５の当該ドメインを更新しない。

行動選択部１７は、行動終了直後でユーザ発話終了であることを知り、行動選択処理を行う。

行動選択部１７は当該ドメイン格納部１５を参照し、当該ドメインを「人の位置を知る情報取得ドメインｂ」と知り、当該ドメインの行動抽出部３７ｂに行動選択を要求する。

当該ドメインの行動抽出部３７ｂは、状態格納部３５ｂに格納されている「誤認識」と低い適合度という音声理解結果と、行動選択規則を参照し、
＜行動＝繰り返し要求発話生成、相手＝ユーザ＞
という行動を得る。

さらに、行動抽出部３７ｂは、行動知識３９ｂにある言語生成の知識を参照して、この行動を、
「ジダンさんはどこにいますか？」
という文に変換して行動選択部１７に出力する。

行動選択部１７はこれを行動実行部１９に出力する。

行動実行部１９は、「もう一度お願いします」と発話し、ユーザへのお願い(再質問)という当該行動と実行終了時間を行動履歴格納部２１に格納する。

ユーザが再度、
「ドレッシングルーム」
と発話すると、今度は高い評価値で認識される。

同様の処理が行われ、当該ドメイン格納部１５に発話終了フラグが立ち、状態格納部３５ｂに
「 <人=ジダンさん＞は<どこ=ドレッシングルーム＞」
という適合済み文パターンが、高い適合度で音声理解結果として格納される。

当該ドメインｂの適合度が最も高いので、ドメイン選択部１３は当該ドメイン格納部１５の当該ドメインを更新しない。

行動選択部１７は、当該ドメイン格納部１５の発話終了フラグを検出して発話終了と判断し、行動選択処理を行う。

行動選択部１７は、当該ドメインが「人の位置を知る情報取得ドメインｂ」であることを知り、当該ドメインの行動抽出部３７ｂに行動選択を要求する。

行動抽出部３７ｂは、
「 <人=ジダンさん＞は<どこ=ドレッシングルーム＞」
という良好な音声理解結果と、
(i)＜サブタスク＝人の位置を知る、人＝ジダンさん＞
というサブタスクを行動選択規則と参照し、文パターンの全カテゴリに単語が適合しかつ適合度が高いことから、サブタスク終了フラグを行動選択部１７に出力する。

サブタスク終了フラグを受け、行動選択部１７は当該ドメイン格納部１５の当該ドメイン「人の位置を知る情報取得ドメインｂ」をクリアし、タスク計画部２３にサブタスクを要求する。

タスク計画部２３は、タスク計画格納部２７を参照して
(ii)＜サブタスク＝人に近づく、人＝ジダンさん＞「移動するドメインｃ」
というサブタスクを行動選択部１７に出力する。

行動選択部１７は、「移動するドメインｃ」を当該ドメインとして当該ドメイン格納部１５に格納し、当該ドメインの行動抽出部３７ｃにサブタスク(ii)を出力する。

当該ドメインの行動抽出部３７ｃは、状態格納部３５ｃにサブタスク(ii)を格納する。

４．５行動選択処理２
行動選択部１７は再度（100ミリ秒後）、行動履歴格納部２１と当該ドメイン格納部１５を参照してまだ立っている発話終了フラグを検出し、行動選択処理を行う。

行動選択部１７は、当該ドメインである「移動するドメインｃ」の行動抽出部３７ｃに行動選択を要求する。

当該ドメインの行動抽出部３７ｃは、状態格納部３５ｃにある、
「 <人=ジダンさん＞は<どこ=ドレッシングルーム＞」
という音声理解結果と、
(ii)＜サブタスク＝人に近づく、人＝ジダンさん＞
というサブタスクを行動選択規則と参照し、
＜行動＝了解発話生成後移動、位置＝＜どこ＞＞
という規則を選択して、
＜行動＝了解発話生成後移動、位置＝ドレッシングルーム＞
という行動を得、行動選択部１７に出力する。

行動選択部１７は行動実行部１９にこれを出力する。

行動実行部１９は、
「分かりました」
と発話してからロボットをドレッシングルームに移動させ、到着したら移動という当該行動と実行終了時間を行動履歴格納部２１に格納する。

４．６行動選択処理３
数分の後、行動選択部１７は行動終了を検出し、行動選択処理を行う。

当該ドメインの行動抽出部３７ｃは、状態格納部３５ｃにある、
(ii)＜サブタスク＝人に近づく、人＝ジダンさん＞
と行動履歴格納部２１の行動履歴を行動選択規則と参照してサブタスク終了フラグを選択し、行動選択部１７に出力する。

行動選択部１７は当該ドメイン格納部１５にある「移動するドメインｃ」をクリアし、タスク計画部２３にサブタスクを要求する。

タスク計画部２３は、タスク計画格納部２７を参照して
(iii)＜サブタスク＝呼ばれていることを伝える、人＝ジダンさん＞
「呼ばれているという情報の提供ドメインｄ」
というサブタスク(iii)を行動選択部１７に出力する。

行動選択部１７は「呼ばれているという情報提供ドメインｄ」を当該ドメイン格納部１５に格納し、当該ドメインの行動抽出部３７ｄに上記(iii)のサブタスクを出力する。

行動抽出部３７ｄは状態格納部３５ｄにサブタスク(iii)を格納する。

行動選択部１７は、行動履歴格納部２１を参照して行動実行直後であることを知り、行動選択処理を行う。

行動選択部１７は、当該ドメインである「呼ばれているという情報の提供ドメインｄ」の行動抽出部３７ｄに行動選択を要求する。

当該ドメインの行動抽出部３７ｄは、状態格納部３５ｄにある、
(iii)＜サブタスク＝呼ばれていることを伝える、人＝ジダンさん＞
を行動選択規則と照らし合わせ、
＜行動＝人へ情報を伝える発話生成、人＝ジダンさん＞
という行動を得る。

さらに、行動抽出部３７ｄは、行動知識３９ｄにある言語生成の知識を参照して、この行動を、
「アンリさんが呼んでいます」
という発話文に変換して行動選択部１７に出力する。

行動選択部１７はこれを行動実行部１９に出力する。

行動実行部１９は、「アンリさんが呼んでいます」と発話し、情報を伝えるという当該行動と実行終了時間を行動履歴格納部２１に格納する。

４．７行動選択処理４
行動選択部１７は、行動履歴格納部２１を参照して行動終了を知り、行動選択処理を行う。

当該ドメインの行動抽出部３７ｄは、状態格納部３５ｄにある、
(iii)＜サブタスク＝呼ばれていることを伝える、人＝ジダンさん＞
と、行動履歴を行動選択規則と照らし合わせ、サブタスク終了フラグを選択し、行動選択部１７に出力する。

行動選択部１７は当該ドメイン格納部１５にある「呼ばれているという情報の提供ドメインｄ」をクリアし、タスク計画部２３にサブタスクを要求する。

タスク計画部２３はタスク計画格納部２７を参照し、サブタスクがないのでタスク無しフラグを行動選択部１７に出力する。

行動選択部１７はタスク無しフラグを受け、全格納部のデータをクリアする。

以上にこの発明を特定の実施形態によって説明したが、この発明はこのような実施形態に限定されるものではない。

Claims

ユーザと機械とのインタラクションを実施する装置であって、
前記装置は、前記インタラクションにおける複数の段階に対応する複数のドメインを有し、該複数のドメインのそれぞれは、前記ユーザの音声の内容を理解して音声理解結果を出力する音声理解手段を備えており、
マイクロフォンで検出された信号から前記ユーザの音声を認識する手段と、
前記音声理解手段のそれぞれに前記ユーザの音声を送り、前記音声理解手段のそれぞれから前記音声理解結果を受け取り、最良の音声理解結果をとる音声理解手段が含まれるドメインを当該ドメインとして選択する手段と、
前記複数のドメインのそれぞれに含まれるタスク知識のうち前記当該ドメインのタスク知識を参照して、前記音声理解結果に関連付けられたタスクを抽出する手段と、
タスクの種類に関連付けられる複数のサブタスクを含むサブタスク知識を参照して、前記抽出されたタスクに関連付けられたサブタスク系列を求める手段と、
前記サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新する手段と、
前記複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、前記音声理解結果および前記サブタスクに関連付けられた行動またはサブタスク終了フラグを抽出する手段と、
前記抽出された行動を前記機械に実行させる手段と、
を備える装置。
前記サブタスク知識は、前記タスクに関連付けられる１つ以上のサブタスクに関する知識と、前記サブタスクに関連付けられるドメインに関する知識と、を含む、請求項１に記載の装置。
前記音声理解手段のそれぞれは、対応するドメインに関連性の高い複数の文パターンを含む音声知識を参照して、前記音声と前記複数の文パターンのそれぞれとの適合度を算出し、適合度が最も高い文パターンを選択し、前記選択された文パターンおよび該文パターンの適合度を音声理解結果として出力する、請求項１に記載の装置。
前記選択する手段は、前記適合度に前記複数のドメインごとに設定された重みを乗じて信頼度を算出し、最大の信頼度をとるドメインを当該ドメインとして選択する、請求項３に記載の装置。
前記更新する手段は、前記行動またはサブタスク終了フラグを抽出する手段がサブタスク終了フラグを抽出すると、前記サブタスク系列における当該サブタスクの次のサブタスクを新たな当該サブタスクとして更新し、新たな当該サブタスクの属するドメインを当該ドメインとして更新する、請求項１に記載の装置。
ユーザと機械とのインタラクションを実施するための方法であって、
マイクロフォンで検出された信号からユーザの音声を認識するステップと、
前記インタラクションにおける複数の段階に対応する複数のドメインのそれぞれに前記ユーザの音声を送るステップと、
前記複数のドメインのそれぞれにおいて、前記音声の内容を理解して音声理解結果を出力するステップと、
前記複数のドメインのそれぞれから前記音声理解結果を受け取るステップと、
前記複数の音声理解結果のうち最良の音声理解結果をとるドメインを、当該ドメインとして選択するステップと、
前記複数のドメインのそれぞれに含まれるタスク知識のうち前記当該ドメインのタスク知識を参照して、前記音声理解結果に関連付けられたタスクを抽出するステップと、
タスクの種類に関連付けられた複数のサブタスクを含むサブタスク知識を参照して、前記抽出されたタスクに関連付けられたサブタスク系列を求めるステップと、
前記サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新するステップと、
前記複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、前記音声理解結果および前記サブタスクに関連付けられた行動またはサブタスク終了フラグを抽出するステップと、
前記抽出された行動を前記機械に実行させるステップと、
を含む方法。
前記サブタスク知識は、前記タスクに関連付けられる１つ以上のサブタスクに関する知識と、前記サブタスクに関連付けられるドメインに関する知識と、を含む、請求項６に記載の方法。
前記出力するステップは、
対応するドメインに関連性の高い複数の文パターンを含む音声知識を参照して、前記音声と前記複数の文パターンのそれぞれとの適合度を算出するステップと、
前記適合度が最も高い文パターンを選択し、選択された文パターンおよび該文パターンの適合度を音声理解結果として出力するステップと、
を含む、請求項６に記載の方法。
前記選択するステップは、前記適合度に前記複数のドメインごとに設定された重みを乗じて信頼度を算出し、最大の信頼度をとるドメインを当該ドメインとして選択するステップを含む、請求項８に記載の方法。
前記更新するステップは、前記行動またはサブタスク終了フラグを抽出するステップにおいてサブタスク終了フラグが抽出されると、前記サブタスク系列における当該サブタスクの次のサブタスクを新たな当該サブタスクとして更新し、新たな当該サブタスクの属するドメインを当該ドメインとして更新するステップを含む、請求項６に記載の方法。
ユーザと機械とのインタラクションを実施するためのプログラムであって、
マイクロフォンで検出された信号からユーザの音声を認識する機能と、
ユーザとのインタラクションにおける複数の段階に対応する複数のドメインのそれぞれに前記ユーザの音声を送る機能と、
前記複数のドメインのそれぞれにおいて、前記音声の内容を理解して音声理解結果を出力する機能と、
前記複数のドメインのそれぞれから、前記音声理解結果を受け取る機能と、
前記複数の音声理解結果のうち最良の音声理解結果をとるドメインを、当該ドメインとして選択する機能と、
前記複数のドメインのそれぞれに含まれるタスク知識のうち前記当該ドメインのタスク知識を参照して、前記音声理解結果に関連付けられたタスクを抽出する機能と、
タスクの種類に関連付けられる複数のサブタスクを含むサブタスク知識を参照して、前記抽出されたタスクに関連付けられたサブタスク系列を求める機能と、
前記サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新する機能と、
前記複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、前記音声理解結果および前記サブタスクに関連付けられた行動またはサブタスク終了フラグを抽出する機能と、
前記抽出された行動を前記機械に実行させる機能と、
をコンピュータに実現させる、コンピュータ読取り可能な記録媒体に記録されたプログラム。
前記サブタスク知識は、前記タスクに関連付けられる１つ以上のサブタスクに関する知識と、前記サブタスクに関連付けられるドメインに関する知識と、を含む、請求項１１に記載のプログラム。
前記出力する機能は、
対応するドメインに関連性の高い複数の文パターンを含む音声知識を参照して、前記音声と前記複数の文パターンのそれぞれとの適合度を算出する機能と、
前記適合度が最も高い文パターンを選択し、選択された文パターンおよび該文パターンの適合度を音声理解結果として出力する機能と、
を含む、請求項１１に記載のプログラム。
前記選択する機能は、前記適合度に前記複数のドメインごとに設定された重みを乗じて信頼度を算出し、最大の信頼度をとるドメインを当該ドメインとして選択する機能を含む、請求項１３に記載のプログラム。
前記更新する機能は、前記行動またはサブタスク終了フラグを抽出する機能においてサブタスク終了フラグが抽出されると、前記サブタスク系列における当該サブタスクの次のサブタスクを新たな当該サブタスクとして更新し、新たな当該サブタスクの属するドメインを当該ドメインとして更新する機能を含む、請求項１１に記載のプログラム。