JPWO2007013521A1 - ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム - Google Patents

ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム Download PDF

Info

Publication number
JPWO2007013521A1
JPWO2007013521A1 JP2007526878A JP2007526878A JPWO2007013521A1 JP WO2007013521 A1 JPWO2007013521 A1 JP WO2007013521A1 JP 2007526878 A JP2007526878 A JP 2007526878A JP 2007526878 A JP2007526878 A JP 2007526878A JP WO2007013521 A1 JPWO2007013521 A1 JP WO2007013521A1
Authority
JP
Japan
Prior art keywords
subtask
domain
knowledge
task
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007526878A
Other languages
English (en)
Other versions
JP4901736B2 (ja
Inventor
幹生 中野
幹生 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JPWO2007013521A1 publication Critical patent/JPWO2007013521A1/ja
Application granted granted Critical
Publication of JP4901736B2 publication Critical patent/JP4901736B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

本発明は、ユーザと機械とのインタラクションを実施する装置を提供する。この装置は、インタラクションにおける複数の段階に対応する複数のドメインを有し、各ドメインは、ユーザの音声の内容を理解して音声理解結果を出力する音声理解手段を備えている。この装置は、ユーザの音声を認識する手段と、最良の音声理解結果をとるドメインを当該ドメインとして選択する手段と、当該ドメインのタスク知識を参照して音声理解結果に関連付けられたタスクを抽出する手段と、抽出されたタスクに関連付けられたサブタスク系列を求める手段と、サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新する手段と、当該ドメインの行動知識を参照して、音声理解結果およびサブタスクに関連付けられた行動またはサブタスク終了フラグを抽出する手段と、抽出された行動を機械に実行させる手段と、を備える。

Description

本発明は、ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラムに関する。
従来、ロボットまたはカー・ナビゲーションなどのような機械と、人間とのインターフェースとして、音声対話インターフェースが開発されている。対話インターフェースを有する機械は、ユーザとの対話や、対話で得られた情報に基づいて実行される自身の行動などによって、ユーザとのインタラクションを実施する。
例えば、特開2003-316385号公報には、ユーザと機械が自由に対話するために、ユーザの発話を音声認識した結果に対応したタスク(ドメイン)を複数のタスクより選んで対話シークエンスを自動生成し、さらにユーザが発話した場合は必要に応じて対応したタスクの対話シークエンスに遷移し、もとの対話シークエンスに復帰する技術が開示されている。
しかしながら、従来技術では、ユーザ発話の音声認識結果に応じてタスク(ドメイン)を選択するので、車内の雑音などによって誤った認識が行われたときなどに、想定外のタスク(ドメイン)に遷移して対話の文脈が齟齬をきたし、ユーザが戸惑う事態が考えられる。
本発明の目的は、対話の文脈を保って複数のドメインを遷移するようにユーザと機械とのインタラクションを実施することが可能な手法を提供することである。
本発明は、ユーザと機械とのインタラクションを実施する装置を提供する。この装置は、インタラクションにおける複数の段階に対応する複数のドメインを有し、該複数のドメインのそれぞれは、ユーザの音声の内容を理解して音声理解結果を出力する音声理解手段を備えている。この装置は、マイクロフォンで検出された信号からユーザの音声を認識する手段と、音声理解手段のそれぞれにユーザの音声を送り、音声理解手段のそれぞれから音声理解結果を受け取り、最良の音声理解結果をとる音声理解手段が含まれるドメインを当該ドメインとして選択する手段と、複数のドメインのそれぞれに含まれるタスク知識のうち当該ドメインのタスク知識を参照して、音声理解結果に関連付けられたタスクを抽出する手段と、タスクの種類に関連付けられる複数のサブタスクを含むサブタスク知識を参照して、前記抽出されたタスクに関連付けられたサブタスク系列を求める手段と、サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新する手段と、複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、音声理解結果および前記サブタスクに関連付けられた行動またはサブタスク終了フラグを抽出する手段と、抽出された行動を機械に実行させる手段と、を備える。
この発明により、複数のドメインに跨る人と機械のインタラクションを滑らかに実行できる。
本発明の一実施形態によると、サブタスク知識は、タスクに関連付けられる1つ以上のサブタスクに関する知識と、サブタスクに関連付けられるドメインに関する知識と、を含む。これにより、タスクを達成する間、ドメインの文脈を保持することができる。
本発明の一実施形態によると、音声理解手段のそれぞれは、対応するドメインに関連性の高い複数の文パターンを含む音声知識を参照して、音声と複数の文パターンのそれぞれとの適合度を算出し、適合度が最も高い文パターンを選択し、選択された文パターンおよび該文パターンの適合度を音声理解結果として出力する。これにより、ドメインの文脈を保つことができる。
本発明の一実施形態によると、選択する手段は、適合度に複数のドメインごとに設定された重みを乗じて信頼度を算出し、最大の信頼度をとるドメインを当該ドメインとして選択する。これにより、ドメインの文脈を保つことができる。
本発明の一実施形態によると、更新する手段は、行動またはサブタスク終了フラグを抽出する手段がサブタスク終了フラグを抽出すると、サブタスク系列における当該サブタスクの次のサブタスクを新たな当該サブタスクとして更新し、新たな当該サブタスクの属するドメインを当該ドメインとして更新する。これによりタスクを円滑に達成することができる。
さらに、本発明は、ユーザと機械とのインタラクションを実施するための方法を提供する。この方法は、マイクロフォンで検出された信号からユーザの音声を認識するステップと、インタラクションにおける複数の段階に対応する複数のドメインのそれぞれにユーザの音声を送るステップと、複数のドメインのそれぞれにおいて、音声の内容を理解して音声理解結果を出力するステップと、複数のドメインのそれぞれから音声理解結果を受け取るステップと、複数の音声理解結果のうち最良の音声理解結果をとるドメインを、当該ドメインとして選択するステップと、複数のドメインのそれぞれに含まれるタスク知識のうち当該ドメインのタスク知識を参照して、音声理解結果に関連付けられたタスクを抽出するステップと、タスクの種類に関連付けられた複数のサブタスクを含むサブタスク知識を参照して、抽出されたタスクに関連付けられたサブタスク系列を求めるステップと、サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新するステップと、複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、音声理解結果およびサブタスクに関連付けられた行動またはサブタスク終了フラグを抽出するステップと、抽出された行動を機械に実行させるステップと、を含む。
さらに、本発明は、ユーザと機械とのインタラクションを実施するためのプログラムを提供する。このプログラムは、マイクロフォンで検出された信号からユーザの音声を認識する機能と、ユーザとのインタラクションにおける複数の段階に対応する複数のドメインのそれぞれにユーザの音声を送る機能と、複数のドメインのそれぞれにおいて、音声の内容を理解して音声理解結果を出力する機能と、複数のドメインのそれぞれから、音声理解結果を受け取る機能と、複数の音声理解結果のうち最良の音声理解結果をとるドメインを、当該ドメインとして選択する機能と、複数のドメインのそれぞれに含まれるタスク知識のうち当該ドメインのタスク知識を参照して、音声理解結果に関連付けられたタスクを抽出する機能と、タスクの種類に関連付けられる複数のサブタスクを含むサブタスク知識を参照して、抽出されたタスクに関連付けられたサブタスク系列を求める機能と、サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新する機能と、複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、音声理解結果およびサブタスクに関連付けられた行動またはサブタスク終了フラグを抽出する機能と、抽出された行動を機械に実行させる機能と、をコンピュータに実現させる。このプログラムは、コンピュータ読取り可能な記録媒体に記録される。
音声インタラクティブ装置の機能ブロック図である。 発話理解処理のフローチャートである。 行動選択処理のフローチャートである。 ステップS209の行動実行・タスク抽出処理のフローチャートである。
符号の説明
10 音声インタラクティブ装置
11 音声認識部
13 ドメイン選択部
17 行動選択部
19 行動実行部
23 タスク計画部
25 サブタスク知識
31a〜31n 音声理解部
37a〜37n 行動抽出部
41a〜41n タスク抽出部
43a〜43n タスク知識
1.概略
次に図面を参照して、この発明の実施の形態を説明する。図1は、本発明の一実施形態による音声インタラクティブ装置10の機能ブロック図である。
音声インタラクティブ装置10は、例えば、種々の演算を実行するCPU、演算結果を一時記憶するためのメモリ、学習結果等を記憶するROM、データの入出力を行うインターフェース等を備えるマイクロコンピュータにより実現される。図1に示された音声インタラクティブ装置10の各機能ブロックの一部または全部は、ソフトウェア、ファームウェア、あるいはハードウェアの何れでも実現することができる。
音声インタラクティブ装置10は、人間と機械とのインタラクションを実施するための装置である。音声インタラクティブ装置10は、機械に備えられたマイクロフォンなどの音声検知手段(図示せず)から人間の音声を受け取り、機械の発声手段または移動手段など(図示せず)へ動作指令を送信する。
ここで、本発明における「機械」とは、ロボット、カー・ナビゲーション、電化製品など、インターフェースに音声を用いるもののことをいう。
音声インタラクティブ装置10は、機械の内部に組み込む形式でも、機械の外部から有線または無線で機械と通信する形式でも良い。
音声インタラクティブ装置10は、複数のドメインa〜nを備える。
ここで、本発明における「ドメイン」とは、人間と機械との間のインタラクションを構成する複数の段階(フェーズ)のことをいう。
本実施形態では、ドメインa〜nは、人間の要求の種類を理解するために対話を行う「要求理解ドメイン」と、人間の要求に応えるために行動を実行する「非要求理解ドメイン」とに大別される。
「要求理解ドメイン」は、人間の発話内容を推定したり、不明な点を質問するなどの対話を通して、例えば「人を呼びに行く」というような人間からの要求を理解する。要求理解ドメインは、「人を呼びに行く」の他にも、要求の内容に応じて別々なドメインが用意されており、これら複数の要求理解ドメインの中からユーザの発話内容に最適な1つが選択される。ドメインの選択は、後述する発話理解処理によって行われる。1つの要求理解ドメインを選択することにより、ユーザの要求の内容が理解されたことになる。
「非要求理解ドメイン」は、例えば「目標位置の情報を得る」、「目標位置へ移動する」「メッセージを伝える」というような行動の内容に応じて別々なドメインが用意されている。
複数のドメインa〜nは、それぞれ、音声理解部31a〜n、音声知識33a〜n、状態格納部35a〜n、行動抽出部37a〜n、行動知識39a〜n、タスク抽出部41a〜n、タスク知識43a〜nを備える。音声知識、行動知識、およびタスク知識は、ドメインの種類に応じて関連性の高い文パターン、行動、およびタスクがそれぞれ記憶されている。
本実施形態では、階層的に「タスク」、「サブタスク」、および「行動」という言葉を使い分ける。はじめに、ドメイン選択部13が、ユーザの発話内容に最適な要求理解ドメインを選択して、選択されたドメイン(a〜nのいずれか)(以下「当該ドメイン」という)のタスク抽出部(41a〜41nのいずれか)が、ユーザの要求内容を満足するためにロボットが行うべき「タスク」を抽出する。次に、タスク計画部23が、抽出された「タスク」を行うための「サブタスク」の系列を決定する。そして、行動選択部17が、「サブタスク」系列にしたがって、「サブタスク」を行うための「行動」を選択する。つまり、「タスク」、「サブタスク」、「行動」の内容は、タスク→サブタスク→行動の順で細分化される。
音声インタラクティブ装置10で行われる処理は、「発話理解処理」および「行動選択処理」に分けられる。「発話理解処理」は、主に、音声認識部11,ドメイン選択部13,各ドメインの音声理解部31a〜n、当該ドメイン格納部15によって実施される。「行動選択処理」は、主に、行動選択部17,行動実行部19、行動履歴格納部21,当該ドメイン格納部15,当該ドメインの行動抽出部(37a〜37nのいずれか)、タスク抽出部(41a〜41nのいずれか)、タスク計画部23によって実施される。以下に、「発話理解処理」および「行動選択処理」の詳細について説明する。
2.発話理解処理
次に、図2を参照して音声インタラクティブ装置10の発話理解処理について説明する。図2は、発話理解処理のフローチャートである。
ステップS101において、マイクロフォンなどの検知手段(図示せず)からユーザの発話が入力されると、音声認識部11が音声を認識する。音声認識部11は、隠れマルコフモデルなど公知の手法を用いて、単語列および各単語の認識結果の信頼度の形で音声認識結果を出力する。信頼度は、一般に0〜1の値をとる。単語列に含まれる単語のそれぞれは、複数の候補を有していても良い。雑音のある環境にいる場合は、ビームフォーミングなどの公知の手法を用いて、マイクロフォンからの入力信号から音声を抽出して、抽出された音声を認識しても良い。
ステップS103において、ドメイン選択部13が、音声認識結果を各ドメインa〜nの音声理解部31a〜31nへ送信する。また、ドメイン選択部13は、音声認識結果を音声認識部11から受け取った時刻から所定の期間(たとえば3秒間)、当該ドメイン選択部15に発話終了フラグを立てる。
ステップS105において、各ドメインの音声理解部31a〜31nが、ドメイン選択部13より入力された音声認識結果に含まれる単語列と、ドメインに応じて用意された音声知識33a〜33nにある文パターンとの「適合度」を算出する。
音声知識33a〜33nは、音声認識結果を理解するためにドメインに応じて用意された複数の「文パターン」から構成される。「文パターン」は、例えば、
「<日にち>の<場所>の<情報種別>を教えて」
というものある。この例示した文パターンでは、<日にち>、<場所>、<情報種別>という3つのカテゴリを含んでいる。各カテゴリは対応したキーワードリストを持つ。
音声認識結果に含まれる単語のそれぞれは、文パターンのカテゴリ別に用意されたキーワードと一致すると、そのカテゴリに適合される。「適合度」は、例えばある文パターンが含むカテゴリのうち、単語を適合されたカテゴリの数や割合である。
例えば、「明日 の 天気 を 教えて」という音声認識結果を、
「<日にち>の<場所>の<情報種別>を教えて」
という文パターンに適合させると、
<日にち>=明日、 <場所>=“空白”、<情報種別>=天気
という結果となる。このとき、3つのカテゴリのうち2つのカテゴリが音声認識結果と適合しているので、適合度は「2」または「2/3」と表される。
ステップS107において、音声理解部31a〜31nが、最も適合度の高い文パターンを選択する。そして、選択した文パターンの各カテゴリに適合する単語を当てはめた文(以下「適合済み文パターン」という)と、この文パターンの適合度とを、「音声理解結果」として状態格納部35a〜35nに格納する。
「適合済み文パターン」は、上記の例に従うと、
「<日にち=明日>の<場所=“空白”>の
<情報種別=天気>を教えて」
のように表される。また、「適合済み文パターン」に各単語の信頼度を加えても良い。例えば、「明日」という単語の音声認識の信頼度を0.9、「天気」という単語の音声認識の信頼度を0.7とすると、適合済み文パターンは、
「<日にち=明日(0.9)>の<場所=“空白”(0.0)>の
<情報種別=天気(0.7)>を教えて」
のように表される。
ステップS109において、音声理解部31a〜31nは、選択した文パターンの適合度をドメイン選択部13に送る。
ステップS111において、ドメイン選択部13が、各ドメインの音声理解部31a〜31nから受け取った適合度から「選択信頼度」を算出する。
「選択信頼度」は、ドメイン別に設定された「重み」を適合度に乗じて算出される。
「重み」は、当該ドメイン格納部15に格納されている当該ドメインに対して1より大きい値が設定され、他のドメインに対しては1が設定される。これは、当該ドメインの対話や行動は連続して行われる可能性が高いと仮定しているためである。当該ドメインとは、直前のユーザ発話またはサブタスクの属するドメインである。
当該ドメインのない場合は、全ての重みが等しい値(たとえば1)に設定される。
当該ドメインの重みは、要求理解ドメインであれば他ドメインより少し大きい値、非要求理解ドメインであれば大きな値としても良い。このように重み付けると、要求選択ドメインは固定されにくく、それ以外のドメインは固定されやすくなる。これは、ユーザの要求を理解するには対話の試行錯誤が求められることが多いが、ひとたび要求を理解すると、その後の対話や行動の文脈は固定されやすい、と仮定しているためである。
ステップS113において、ドメイン選択部13は、選択信頼度が最も大きいドメインを当該ドメインとして選択し、この選択したドメインの情報を当該ドメイン格納部15に格納する。複数のドメイン選択信頼度が同じだった場合は、当該ドメインを選択する。このようにドメインを推定すると、当該ドメインが選ばれやすくなる。選択信頼度を算出せずに、適合度が最も大きいドメインを当該ドメインとしても良い。
以上に、音声インタラクティブ装置10の音声理解処理について説明した。
入力されたユーザ発話に対して以上の発話理解処理を行った後、当該ドメイン格納部15には、現在のシステムが行っている対話・行動のドメインを表す「当該ドメイン」と、ユーザの発話の理解が終了したことを示す「発話終了フラグ」が格納される。
また、各ドメインの状態格納部35a〜35nには、最も適合度の高かった文パターンの適合済み文パターンおよび適合度を含む「音声理解結果」が格納される。
3.行動選択処理
次に、図3および図4を参照して音声インタラクティブ装置10の行動選択処理について説明する。図3は、行動選択処理のフローチャートである。
図3に示す行動選択処理は、行動選択部17によって、所定の周期(たとえば100ミリ秒)で実行される。
ステップS201において、行動選択部17は、行動履歴格納部21を参照して、ロボットが行動を実行しているかどうかを確認する。行動履歴格納部21は、「直前に実行された行動」、「その行動の開始時刻」、「行動の終了時刻」を記録している。行動が実行中の場合終了時刻は記録されていないので、行動選択部17は、行動履歴格納部21の「行動の終了時刻」の有無を確認することにより、行動が実行中かどうかを把握する。行動が実行中でない場合、ステップS203に進む。行動が実行中の場合、今回の周期の処理は終了し、次の周期まで待機する。
ステップS203において、行動選択部17は、ロボットが行動を終了した直後かどうかを確認する。この処理は、たとえば、行動履歴格納部21の「行動の終了時刻」を参照して、現在の時刻が「行動の終了時刻」から所定時間経過しているかを確認する。行動が終了した直後ではない場合、ステップS205に進む。行動が終了した直後だった場合、ステップS207に進む。
ステップS205において、行動選択部17は、当該ドメイン格納部15の発話終了フラグを参照して、ユーザの発話が終了しているかどうかを確認する。発話が終了している場合、ステップS209に進み、「行動選択・タスク抽出」処理を行う。発話が終了していない場合、今回の周期の処理は終了し、次の周期まで待機する。
ステップS207において、行動選択部17は、行動履歴格納部21の「直前に実行された行動」を参照して、直前の行動が「ユーザへの質問」かどうかを確認する。直前の行動が「ユーザへの質問」ではない場合、ステップS209に進み、「行動選択・タスク抽出」処理を行う。直前の行動が「ユーザへの質問」だった場合、今回の周期の処理は終了し、次の周期まで待機する。
図4は、ステップS209の行動実行・タスク抽出処理のフローチャートである。
なお、説明の便宜上、以下の処理では当該ドメインとしてドメインaが選択されている場合を扱っている。実際の処理では、当該ドメインは、ドメインa〜nの中から適宜選択される。
行動実行・タスク抽出処理では以下のステップが実行される。
(1)行動選択部17が、当該ドメイン格納部15を参照して当該ドメインaを調べ、当該ドメインの行動抽出部37aに行動選択を要求する(ステップS301)。
(2)行動選択部17より行動選択が要求されると、当該ドメインaの行動抽出部37aが以下の処理を行う。
(2−1)当該ドメインaが理解要求ドメインの場合(ステップS303のYES)、
a)行動知識39aの中の行動選択規則を参照して、状態格納部35aの音声理解結果に対応した行動またはサブタスク終了フラグを選択する(ステップS305)。
ここで、行動選択規則とは、状態格納部35a〜nに格納されている音声理解結果、当該サブタスク、及び行動履歴のいずれか又は全てと、行動またはサブタスク終了フラグとの関係を表したものであり、音声対話の研究分野においてアクションセレクションを行うために一般的に用いられる規則である。
行動選択規則は、例えば、「音声理解結果で文パターンに”空白”のある場合に、空白を問う行動を生成する」、「音声理解結果が良い場合(適合状態が良く適合度が高い)、サブタスク終了フラグを選択する」、「音声理解結果が良くなく、行動履歴にある直前の行動がユーザに対する質問の場合は、繰り返し要求発話生成をする」、「音声理解結果が良くなく、行動履歴にある直前の行動がユーザへの了解発話の場合は、再び発話を問う依頼発話生成」などである。
また、行動知識には、「言語生成の知識」も含まれる。選択された行動が上記の「空白を問う行動を生成する」のような発話に関するものである場合、行動と発話内容の文章とを対応付ける。
b)行動が選択された場合、行動選択部17に行動を出力する(ステップS315)。
c)サブタスク終了フラグが選択された場合、行動抽出部37aからタスク抽出部41aへタスク選択が要求される(ステップS309)。
d)タスク抽出部41aが、タスク知識43aの中のタスク抽出規則を参照して音声理解結果に対応したタスクを、タスク計画部23に出力する(ステップS311)。
ここで、タスク抽出規則とは、状態格納部35a〜nに格納されている音声理解結果と、タスク計画部に出力すべきタスクとの関係を表す規則である。例えば、「人を呼ぶ要求理解のドメインa」には、「<人>を呼んできて」という文パターンの<人>カテゴリに単語が適合されている適合済み文パターンを含む音声理解結果に対して、<タスク=人を呼びに行く、 人=<人>>という出力タスクが関連付けられている。
e) タスク計画部23は、サブタスク知識25を利用してタスクをサブタスク系列に変換し、タスク計画格納部27に格納する(ステップS313)。
ここで、サブタスク知識25は、タスクをサブタスクに分解するための知識(規則)を持ち、サブタスクはそれぞれドメインと関連付けられている。
タスクのサブタスクへの分解は、例えば以下のように行われる。
<タスク=呼ぶ、人=<X>>
というタスクは、
(i) <サブタスク=人の位置を知る、人=X>
(ii) <サブタスク=人に近づく、人=X>
(iii)<サブタスク=呼ばれていることを伝える、人=X>
というサブタスクの系列に分解される。
また、各サブタスクは、ドメインと対応付けられており、例えば サブタスク(i)が「人の位置を知る情報取得ドメイン」と対応し、 サブタスク(ii)が「移動するドメイン」と対応し、サブタスク(iii)が「呼ばれているという情報提供ドメイン」と対応するよう設定されている。
(2−2)当該ドメインが非理解要求ドメインの場合(ステップS303のNO)、行動知識39aの中の行動選択規則(上記(2-1)のa)に詳述)を参照して、状態格納部35aの音声理解結果、当該サブタスク及び行動履歴に対応した行動またはサブタスク終了フラグを選択し、行動選択部17に出力する(ステップS317)。
(3) 行動抽出部37aより行動またはサブタスク終了フラグが入力されると(ステップS319)、行動選択部17が、
(3−1) 行動が入力された場合は、その行動を行動実行部19に出力する(S329)。行動実行部19は、行動選択部17より行動が入力されるとそれを実行し、実行開始時間を行動履歴格納部21に格納する。実行を終了すると、当該行動と実行終了時間を行動履歴格納部21に格納する。
(3−2) サブタスク終了フラグが入力された場合は、当該ドメイン格納部15の当該ドメインをクリアし、 タスク計画部23にサブタスクを要求する(ステップS321)。
a)タスク計画部23が、タスク計画格納部27を参照して、サブタスク系列がある場合は先頭のサブタスクを行動選択部17に出力し、サブタスク系列がない場合はタスク無しフラグを行動選択部17に出力する(ステップS323)。
b)サブタスクが入力された場合は、そのサブタスクのドメイン(a〜nのいずれか)を当該ドメインとして当該ドメイン格納部15に格納し、当該ドメインの行動抽出部(37a〜37nのいずれか)にそのサブタスクを出力する。当該ドメインの行動抽出部(37a〜37nのいずれか)は、当該サブタスクを状態格納部(35a〜35nのいずれか)に格納する(ステップS327)。
c)タスク無しフラグが送られてきた場合は、全ての格納部のデータをクリアする(ステップS331)。
以上に図3および図4を参照して、行動選択処理について説明した。
行動選択処理が行われると、各ドメインの状態格納部35a〜35nには、最も適合度の高かった文パターンの適合済み文パターンおよび適合度を含む「音声理解結果」に加えて「サブタスク」が格納される。
タスク計画格納部27には、サブタスク系列が格納される。
行動履歴格納部21には、「直前の行動」、「行動の実行終了時間」が格納される。
また、当該ドメイン格納部15の当該ドメインが更新される場合がある。
4.実施例
4.1 概略
次に、4つのドメインa〜dを持つロボットとユーザ(アンリさん)との対話を通じたインタラクションの実施例を示す。
この実施例でロボットが備える4つのドメインa〜dは、「人を呼びに行く要求理解ドメインa」、「人の位置を知る情報取得ドメインb」、「移動するドメインc」、「呼ばれているという情報提供ドメインd」である。
ロボットとユーザが次のような対話を行う場合を考える。
アンリさん 「ジダンさんを呼んできて」
ロボット 「ジダンさんはどこにいますか?」
アンリさん 「ドレッシングルーム」
ロボット 「ジダンさんはどこにいますか?」
アンリさん 「ドレッシングルーム」
ロボット 「わかりました」
(ジダンさんのところに移動を始める)
ロボット 「アンリさんが呼んでいます」
このような対話の間に音声インタラクティブ装置10で行われる処理について以下に説明する。
4.2 発話理解処理
初期状態では、全ての格納部の中身は空である。
マイクロフォンよりアンリさんの発話「ジダンさんを呼んできて」が入力されると、音声認識部11は、”ジダン”、”さん”、”を”、”呼んで”、”きて”という単語列と認識し、各単語の信頼度(0〜1)と合わせてドメイン選択部に出力する。ここでは良好な音声認識が行われ、各単語はそれぞれ高い信頼度で認識された。
ドメイン選択部13は、単語列を各ドメインa〜dの音声理解部31a〜31dへ送信し、当該ドメイン格納部15に所定の期間、発話終了フラグを立てる。
音声理解部31a〜31dのそれぞれは、音声知識33a〜33dにある文パターンにこの単語列を適合させる。
例えば「人を呼びに行く要求理解ドメインa」には、「<人>を<呼んで>きて」という文パターンがあるので、この文パターンに適合させてみる。すると、<人>カテゴリが有するキーワードリストと”ジダン”、”さん” が適合するため、「人=ジダンさん」が入力され、また、 <呼んで>が一致する。
この場合、文パターンが含む全て(2つ)のカテゴリに単語が適合しており、また”ジダン”、”さん”、”呼んで”の信頼度が高かったので、高い適合度が算出される。
「人を呼びに行く要求理解ドメインa」の他の文パターンに適合させた結果、この文パターンの適合度が最も高かったので、適合済み文パターン「<人=ジダンさん>を<呼んで>きて」と適合度とを音声認識結果として状態格納部35aに格納し、適合度をドメイン選択部13に出力する。
他の3つのドメインb〜dも同様に処理する。
ドメイン選択部13は、各ドメインa〜dの音声理解部31a〜31dより入力された適合度よりドメイン選択信頼度を算出して比較し、最も大きいドメイン選択信頼度を有するドメインを当該ドメインとして当該ドメイン格納部15に格納する。
この発話では、当該ドメイン格納部15に当該ドメインが記録されておらず、「人を呼びに行く要求理解ドメインa」の適合度が最大だったので、これを当該ドメインとする。
4.3 タスク抽出処理
行動選択部17は、100ミリ秒間隔で行動履歴格納部21を参照する。
この時、行動履歴格納部21には何も格納されていないため、ロボットは行動実行中ではなく、また行動終了直後ではないと判断する。
そして、当該ドメイン格納部15の発話終了フラグを検出して発話終了と判断する。そこで行動選択部17は行動選択処理を行う。
行動選択処理では、行動選択部17が当該ドメイン格納部15を参照し、当該ドメインである「人を呼びに行く要求理解ドメインa」の行動抽出部37aに行動選択を要求する。
当該ドメインは要求理解ドメインなので、行動抽出部37aは、状態格納部35aにある音声認識結果と、行動知識39aにある行動抽出規則を照らし合わせる。
ここでは音声理解結果が良好なので、サブタスク終了フラグが選択される。
そこでタスク知識43aのタスク抽出規則と照らし合わせ、<タスク=呼ぶ、 人= <人> >という規則を選択し、<タスク=呼ぶ、人=ジダンさん>というタスクを得て、これをタスク計画部23に出力する。
タスク計画部23は、上記タスクを受け、サブタスク知識25を参照して以下のサブタスク系列に分解してタスク計画格納部27に格納し、先頭のサブタスク(i)を行動選択部17に出力する。
(i) <サブタスク=人の位置を知る、人=ジダンさん> ・・・・・・・ドメインb
(ii) <サブタスク=人に近づく、人=ジダンさん> ・・・・・・・・・・ドメインc
(iii) <サブタスク=呼ばれていることを伝える、人=ジダンさん> ・・ドメインd
行動選択部17は、サブタスク(i)のドメインである「人の位置を知る情報取得ドメインb」を当該ドメイン格納部15に格納し、当該ドメインの行動抽出部37bにサブタスク(i)を出力する。
当該ドメインの行動抽出部37bは、入力されたサブタスク(i)を状態格納部37bに格納する。
4.4 行動選択処理1
行動選択部17は、再度(100ミリ秒後)、行動履歴格納部21と当該ドメイン格納部15を参照してユーザ発話終了フラグを検出し、行動選択処理を行う。
行動選択部17は、当該ドメイン格納部15を参照して当該ドメイン「人の位置を知る情報取得ドメインb」を得、当該ドメインの行動抽出部37bに行動選択を要求する。
当該ドメインの行動抽出部37bは、行動知識39bにある行動選択規則を参照して音声理解結果とサブタスク(i)に対応する行動を選択する。
当該ドメインの状態格納部35bには
「 <人=ジダンさん>は<どこ=“空白”>」
という音声理解結果が格納されており、サブタスクが
(i)<サブタスク=人の位置を知る、人=ジダンさん>
なので、
<行動=位置を尋ねる、人=<人>>
という規則を 選択し、
<行動=位置を尋ねる、人=ジダンさん>
という行動を得る。
この行動を、行動知識39bにある言語生成の知識を用いて
「ジダンさんはどこにいますか?」
という文に変換し、行動選択部17に出力する。
行動選択部17はこの行動(文)を行動実行部19に出力する。
行動実行部19は、「ジダンさんはどこにいますか?」と発話し、ユーザへの質問という当該行動と実行終了時間を行動履歴格納部21に格納する。
ユーザが「ドレッシングルーム」と応答発話をすると、音声認識部11は ”ジダンさん”と低い評価値で認識する。
ドメイン選択部13はこの認識結果を各ドメインの音声理解部31a〜31dに送信し、当該ドメイン格納部15に発話終了フラグを立てる。
この発話は評価値が低いため、全ドメインで低い適合度が算出される。
適合度が低いため、全ドメインの音声理解部は誤認識を検出し、適合度と合わせて状態格納部35a〜35dに格納し、適合度をドメイン選択部13に出力する。
ドメイン選択部13は、当該ドメイン格納部15に格納されている当該ドメインを参照し、「人の位置を知る情報取得ドメインb」であることを知り、このドメインに高い重みをつけて、ドメイン選択信頼度を計算する。その結果、再び「人の位置を知る情報取得ドメインb」が選択されたため、当該ドメイン格納部15の当該ドメインを更新しない。
行動選択部17は、行動終了直後でユーザ発話終了であることを知り、行動選択処理を行う。
行動選択部17は当該ドメイン格納部15を参照し、当該ドメインを 「人の位置を知る情報取得ドメインb」と知り、当該ドメインの行動抽出部37bに行動選択を要求する。
当該ドメインの行動抽出部37bは、状態格納部35bに格納されている「誤認識」と低い適合度という音声理解結果と、行動選択規則を参照し、
<行動=繰り返し要求発話生成、相手=ユーザ>
という行動を得る。
さらに、行動抽出部37bは、行動知識39bにある言語生成の知識を参照して、この行動を、
「ジダンさんはどこにいますか?」
という文に変換して行動選択部17に出力する。
行動選択部17はこれを行動実行部19に出力する。
行動実行部19は、「もう一度お願いします」と発話し、ユーザへのお願い(再質問)という当該行動と実行終了時間を行動履歴格納部21に格納する。
ユーザが再度、
「ドレッシングルーム」
と発話すると、今度は高い評価値で認識される。
同様の処理が行われ、当該ドメイン格納部15に発話終了フラグが立ち、状態格納部35bに
「 <人=ジダンさん>は<どこ=ドレッシングルーム>」
という適合済み文パターンが、高い適合度で音声理解結果として格納される。
当該ドメインbの適合度が最も高いので、ドメイン選択部13は当該ドメイン格納部15の当該ドメインを更新しない。
行動選択部17は、当該ドメイン格納部15の発話終了フラグを検出して発話終了と判断し、行動選択処理を行う。
行動選択部17は、当該ドメインが「人の位置を知る情報取得ドメインb」であることを知り、当該ドメインの行動抽出部37bに行動選択を要求する。
行動抽出部37bは、
「 <人=ジダンさん>は<どこ=ドレッシングルーム>」
という良好な音声理解結果と、
(i)<サブタスク=人の位置を知る、人=ジダンさん>
というサブタスクを行動選択規則と参照し、文パターンの全カテゴリに単語が適合しかつ適合度が高いことから、サブタスク終了フラグを行動選択部17に出力する。
サブタスク終了フラグを受け、行動選択部17は当該ドメイン格納部15の当該ドメイン「人の位置を知る情報取得ドメインb」をクリアし、タスク計画部23にサブタスクを要求する。
タスク計画部23は、タスク計画格納部27を参照して
(ii)<サブタスク=人に近づく、人=ジダンさん> 「移動するドメインc」
というサブタスクを行動選択部17に出力する。
行動選択部17は、「移動するドメインc」を当該ドメインとして当該ドメイン格納部15に格納し、当該ドメインの行動抽出部37cにサブタスク(ii)を出力する。
当該ドメインの行動抽出部37cは、状態格納部35cにサブタスク(ii)を格納する。
4.5 行動選択処理2
行動選択部17は再度(100ミリ秒後)、行動履歴格納部21と当該ドメイン格納部15を参照してまだ立っている発話終了フラグを検出し、行動選択処理を行う。
行動選択部17は、当該ドメインである「移動するドメインc」の行動抽出部37cに行動選択を要求する。
当該ドメインの行動抽出部37cは、状態格納部35cにある、
「 <人=ジダンさん>は<どこ=ドレッシングルーム>」
という音声理解結果と、
(ii)<サブタスク=人に近づく、人=ジダンさん>
というサブタスクを行動選択規則と参照し、
<行動=了解発話生成後移動、位置=<どこ>>
という規則を選択して、
<行動=了解発話生成後移動、位置=ドレッシングルーム>
という行動を得、行動選択部17に出力する。
行動選択部17は行動実行部19にこれを出力する。
行動実行部19は、
「分かりました」
と発話してからロボットをドレッシングルームに移動させ、到着したら移動という当該行動と実行終了時間を行動履歴格納部21に格納する。
4.6 行動選択処理3
数分の後、行動選択部17は行動終了を検出し、行動選択処理を行う。
行動選択部17は、当該ドメインである「移動するドメインc」の行動抽出部37cに行動選択を要求する。
当該ドメインの行動抽出部37cは、状態格納部35cにある、
(ii)<サブタスク=人に近づく、人=ジダンさん>
と行動履歴格納部21の行動履歴を行動選択規則と参照してサブタスク終了フラグを選択し、行動選択部17に出力する。
行動選択部17は当該ドメイン格納部15にある「移動するドメインc」をクリアし、タスク計画部23にサブタスクを要求する。
タスク計画部23は、タスク計画格納部27を参照して
(iii)<サブタスク=呼ばれていることを伝える、人=ジダンさん>
「呼ばれているという情報の提供ドメインd」
というサブタスク(iii)を行動選択部17に出力する。
行動選択部17は「呼ばれているという情報提供ドメインd」を当該ドメイン格納部15に格納し、当該ドメインの行動抽出部37dに上記(iii)のサブタスクを出力する。
行動抽出部37dは状態格納部35dにサブタスク(iii)を格納する。
行動選択部17は、行動履歴格納部21を参照して行動実行直後であることを知り、行動選択処理を行う。
行動選択部17は、当該ドメインである「呼ばれているという情報の提供ドメインd」の行動抽出部37dに行動選択を要求する。
当該ドメインの行動抽出部37dは、状態格納部35dにある、
(iii)<サブタスク=呼ばれていることを伝える、人=ジダンさん>
を行動選択規則と照らし合わせ、
<行動=人へ情報を伝える発話生成、人=ジダンさん>
という行動を得る。
さらに、行動抽出部37dは、行動知識39dにある言語生成の知識を参照して、この行動を、
「アンリさんが呼んでいます」
という発話文に変換して行動選択部17に出力する。
行動選択部17はこれを行動実行部19に出力する。
行動実行部19は、「アンリさんが呼んでいます」と発話し、情報を伝えるという当該行動と実行終了時間を行動履歴格納部21に格納する。
4.7 行動選択処理4
行動選択部17は、行動履歴格納部21を参照して行動終了を知り、行動選択処理を行う。
行動選択部17は、当該ドメインである「呼ばれているという情報の提供ドメインd」の行動抽出部37dに行動選択を要求する。
当該ドメインの行動抽出部37dは、状態格納部35dにある、
(iii)<サブタスク=呼ばれていることを伝える、人=ジダンさん>
と、行動履歴を行動選択規則と照らし合わせ、サブタスク終了フラグを選択し、行動選択部17に出力する。
行動選択部17は当該ドメイン格納部15にある「呼ばれているという情報の提供ドメインd」をクリアし、タスク計画部23にサブタスクを要求する。
タスク計画部23はタスク計画格納部27を参照し、サブタスクがないのでタスク無しフラグを行動選択部17に出力する。
行動選択部17はタスク無しフラグを受け、全格納部のデータをクリアする。
以上にこの発明を特定の実施形態によって説明したが、この発明はこのような実施形態に限定されるものではない。


Claims (15)

  1. ユーザと機械とのインタラクションを実施する装置であって、
    前記装置は、前記インタラクションにおける複数の段階に対応する複数のドメインを有し、該複数のドメインのそれぞれは、前記ユーザの音声の内容を理解して音声理解結果を出力する音声理解手段を備えており、
    マイクロフォンで検出された信号から前記ユーザの音声を認識する手段と、
    前記音声理解手段のそれぞれに前記ユーザの音声を送り、前記音声理解手段のそれぞれから前記音声理解結果を受け取り、最良の音声理解結果をとる音声理解手段が含まれるドメインを当該ドメインとして選択する手段と、
    前記複数のドメインのそれぞれに含まれるタスク知識のうち前記当該ドメインのタスク知識を参照して、前記音声理解結果に関連付けられたタスクを抽出する手段と、
    タスクの種類に関連付けられる複数のサブタスクを含むサブタスク知識を参照して、前記抽出されたタスクに関連付けられたサブタスク系列を求める手段と、
    前記サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新する手段と、
    前記複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、前記音声理解結果および前記サブタスクに関連付けられた行動またはサブタスク終了フラグを抽出する手段と、
    前記抽出された行動を前記機械に実行させる手段と、
    を備える装置。
  2. 前記サブタスク知識は、前記タスクに関連付けられる1つ以上のサブタスクに関する知識と、前記サブタスクに関連付けられるドメインに関する知識と、を含む、請求項1に記載の装置。
  3. 前記音声理解手段のそれぞれは、対応するドメインに関連性の高い複数の文パターンを含む音声知識を参照して、前記音声と前記複数の文パターンのそれぞれとの適合度を算出し、適合度が最も高い文パターンを選択し、前記選択された文パターンおよび該文パターンの適合度を音声理解結果として出力する、請求項1に記載の装置。
  4. 前記選択する手段は、前記適合度に前記複数のドメインごとに設定された重みを乗じて信頼度を算出し、最大の信頼度をとるドメインを当該ドメインとして選択する、請求項3に記載の装置。
  5. 前記更新する手段は、前記行動またはサブタスク終了フラグを抽出する手段がサブタスク終了フラグを抽出すると、前記サブタスク系列における当該サブタスクの次のサブタスクを新たな当該サブタスクとして更新し、新たな当該サブタスクの属するドメインを当該ドメインとして更新する、請求項1に記載の装置。
  6. ユーザと機械とのインタラクションを実施するための方法であって、
    マイクロフォンで検出された信号からユーザの音声を認識するステップと、
    前記インタラクションにおける複数の段階に対応する複数のドメインのそれぞれに前記ユーザの音声を送るステップと、
    前記複数のドメインのそれぞれにおいて、前記音声の内容を理解して音声理解結果を出力するステップと、
    前記複数のドメインのそれぞれから前記音声理解結果を受け取るステップと、
    前記複数の音声理解結果のうち最良の音声理解結果をとるドメインを、当該ドメインとして選択するステップと、
    前記複数のドメインのそれぞれに含まれるタスク知識のうち前記当該ドメインのタスク知識を参照して、前記音声理解結果に関連付けられたタスクを抽出するステップと、
    タスクの種類に関連付けられた複数のサブタスクを含むサブタスク知識を参照して、前記抽出されたタスクに関連付けられたサブタスク系列を求めるステップと、
    前記サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新するステップと、
    前記複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、前記音声理解結果および前記サブタスクに関連付けられた行動またはサブタスク終了フラグを抽出するステップと、
    前記抽出された行動を前記機械に実行させるステップと、
    を含む方法。
  7. 前記サブタスク知識は、前記タスクに関連付けられる1つ以上のサブタスクに関する知識と、前記サブタスクに関連付けられるドメインに関する知識と、を含む、請求項6に記載の方法。
  8. 前記出力するステップは、
    対応するドメインに関連性の高い複数の文パターンを含む音声知識を参照して、前記音声と前記複数の文パターンのそれぞれとの適合度を算出するステップと、
    前記適合度が最も高い文パターンを選択し、選択された文パターンおよび該文パターンの適合度を音声理解結果として出力するステップと、
    を含む、請求項6に記載の方法。
  9. 前記選択するステップは、前記適合度に前記複数のドメインごとに設定された重みを乗じて信頼度を算出し、最大の信頼度をとるドメインを当該ドメインとして選択するステップを含む、請求項8に記載の方法。
  10. 前記更新するステップは、前記行動またはサブタスク終了フラグを抽出するステップにおいてサブタスク終了フラグが抽出されると、前記サブタスク系列における当該サブタスクの次のサブタスクを新たな当該サブタスクとして更新し、新たな当該サブタスクの属するドメインを当該ドメインとして更新するステップを含む、請求項6に記載の方法。
  11. ユーザと機械とのインタラクションを実施するためのプログラムであって、
    マイクロフォンで検出された信号からユーザの音声を認識する機能と、
    ユーザとのインタラクションにおける複数の段階に対応する複数のドメインのそれぞれに前記ユーザの音声を送る機能と、
    前記複数のドメインのそれぞれにおいて、前記音声の内容を理解して音声理解結果を出力する機能と、
    前記複数のドメインのそれぞれから、前記音声理解結果を受け取る機能と、
    前記複数の音声理解結果のうち最良の音声理解結果をとるドメインを、当該ドメインとして選択する機能と、
    前記複数のドメインのそれぞれに含まれるタスク知識のうち前記当該ドメインのタスク知識を参照して、前記音声理解結果に関連付けられたタスクを抽出する機能と、
    タスクの種類に関連付けられる複数のサブタスクを含むサブタスク知識を参照して、前記抽出されたタスクに関連付けられたサブタスク系列を求める機能と、
    前記サブタスク系列の先頭のサブタスクを当該サブタスクとし、当該サブタスクの属するドメインを当該ドメインとして更新する機能と、
    前記複数のドメインのそれぞれに含まれる行動知識のうち当該ドメインの行動知識を参照して、前記音声理解結果および前記サブタスクに関連付けられた行動またはサブタスク終了フラグを抽出する機能と、
    前記抽出された行動を前記機械に実行させる機能と、
    をコンピュータに実現させる、コンピュータ読取り可能な記録媒体に記録されたプログラム。
  12. 前記サブタスク知識は、前記タスクに関連付けられる1つ以上のサブタスクに関する知識と、前記サブタスクに関連付けられるドメインに関する知識と、を含む、請求項11に記載のプログラム。
  13. 前記出力する機能は、
    対応するドメインに関連性の高い複数の文パターンを含む音声知識を参照して、前記音声と前記複数の文パターンのそれぞれとの適合度を算出する機能と、
    前記適合度が最も高い文パターンを選択し、選択された文パターンおよび該文パターンの適合度を音声理解結果として出力する機能と、
    を含む、請求項11に記載のプログラム。
  14. 前記選択する機能は、前記適合度に前記複数のドメインごとに設定された重みを乗じて信頼度を算出し、最大の信頼度をとるドメインを当該ドメインとして選択する機能を含む、請求項13に記載のプログラム。
  15. 前記更新する機能は、前記行動またはサブタスク終了フラグを抽出する機能においてサブタスク終了フラグが抽出されると、前記サブタスク系列における当該サブタスクの次のサブタスクを新たな当該サブタスクとして更新し、新たな当該サブタスクの属するドメインを当該ドメインとして更新する機能を含む、請求項11に記載のプログラム。

JP2007526878A 2005-07-26 2006-07-26 ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム Expired - Fee Related JP4901736B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US70305005P 2005-07-26 2005-07-26
US60/703,050 2005-07-26
PCT/JP2006/314786 WO2007013521A1 (ja) 2005-07-26 2006-07-26 ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2007013521A1 true JPWO2007013521A1 (ja) 2009-02-12
JP4901736B2 JP4901736B2 (ja) 2012-03-21

Family

ID=37683412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007526878A Expired - Fee Related JP4901736B2 (ja) 2005-07-26 2006-07-26 ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム

Country Status (3)

Country Link
US (1) US8352273B2 (ja)
JP (1) JP4901736B2 (ja)
WO (1) WO2007013521A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658926A (zh) * 2018-11-28 2019-04-19 维沃移动通信有限公司 一种语音指令的更新方法及移动终端
JP2019079034A (ja) * 2017-10-26 2019-05-23 株式会社日立製作所 自己学習自然言語理解を伴うダイアログ・システム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
JP5715526B2 (ja) * 2010-08-12 2015-05-07 本田技研工業株式会社 対話処理装置、対話処理方法、及び対話処理プログラム
US10026394B1 (en) 2012-08-31 2018-07-17 Amazon Technologies, Inc. Managing dialogs on a speech recognition platform
JP5974903B2 (ja) * 2013-01-08 2016-08-23 株式会社ナカヨ 予定に係る音声メモ蓄積方法
US9761228B2 (en) * 2013-02-25 2017-09-12 Mitsubishi Electric Corporation Voice recognition system and voice recognition device
JP2014191549A (ja) * 2013-03-27 2014-10-06 Intelligent Wave Inc 口語解析サーバ、口語解析装置、口語解析プログラム及び口語解析方法
US20160163314A1 (en) * 2013-11-25 2016-06-09 Mitsubishi Electric Corporation Dialog management system and dialog management method
EP3324305A4 (en) * 2015-07-13 2018-12-05 Teijin Limited Information processing apparatus, information processing method, and computer program
JP6726388B2 (ja) * 2016-03-16 2020-07-22 富士ゼロックス株式会社 ロボット制御システム
JP6146703B2 (ja) * 2016-07-04 2017-06-14 株式会社ナカヨ 予定に係る音声メモ蓄積方法
JP2018167339A (ja) * 2017-03-29 2018-11-01 富士通株式会社 発話制御プログラム、情報処理装置及び発話制御方法
US20180315131A1 (en) * 2017-04-28 2018-11-01 Hrb Innovations, Inc. User-aware interview engine
JP7143665B2 (ja) * 2018-07-27 2022-09-29 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
WO2021029627A1 (en) 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. Server that supports speech recognition of device, and operation method of the server
WO2021029643A1 (en) * 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
US11532310B2 (en) 2019-08-13 2022-12-20 Samsung Electronics Co., Ltd. System and method for recognizing user's speech

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117921A (ja) 1999-10-15 2001-04-27 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
JP2001343993A (ja) 2000-05-30 2001-12-14 Atr Onsei Gengo Tsushin Kenkyusho:Kk 対話システムにおける音声認識方法、対話システムおよび対話プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001356797A (ja) 2000-06-14 2001-12-26 Nippon Telegr & Teleph Corp <Ntt> 対話制御方法及びシステム及び対話制御プログラムを格納した記憶媒体
CA2437614C (en) 2001-02-28 2011-06-14 Voice-Insight Natural language query system for accessing an information system
JP4174233B2 (ja) 2002-04-24 2008-10-29 株式会社日立製作所 音声対話システム及び音声対話方法
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP4191021B2 (ja) 2003-12-01 2008-12-03 株式会社国際電気通信基礎技術研究所 ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019079034A (ja) * 2017-10-26 2019-05-23 株式会社日立製作所 自己学習自然言語理解を伴うダイアログ・システム
CN109658926A (zh) * 2018-11-28 2019-04-19 维沃移动通信有限公司 一种语音指令的更新方法及移动终端

Also Published As

Publication number Publication date
WO2007013521A1 (ja) 2007-02-01
US8352273B2 (en) 2013-01-08
US20100131277A1 (en) 2010-05-27
JP4901736B2 (ja) 2012-03-21

Similar Documents

Publication Publication Date Title
JP4901736B2 (ja) ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム
JP6465077B2 (ja) 音声対話装置および音声対話方法
JP5386692B2 (ja) 対話型学習装置
KR100826875B1 (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
KR101622111B1 (ko) 대화 시스템 및 그의 대화 방법
US8566097B2 (en) Lexical acquisition apparatus, multi dialogue behavior system, and lexical acquisition program
JP5494468B2 (ja) 状態検出装置、状態検出方法および状態検出のためのプログラム
JP6654611B2 (ja) 成長型対話装置
JP2004090109A (ja) ロボット装置およびロボット装置の対話方法
CN110570879A (zh) 基于情绪识别的智能会话方法、装置及计算机设备
JP2011054088A (ja) 情報処理装置、情報処理方法、プログラム及び対話システム
CN110473533B (zh) 语音对话系统、语音对话方法以及程序
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
JP2019020684A (ja) 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
KR20200074690A (ko) 전자 장치 및 이의 제어 방법
JP2011215742A (ja) 対話システム、対話フローの更新方法およびプログラム
CN109065026B (zh) 一种录音控制方法及装置
US11615787B2 (en) Dialogue system and method of controlling the same
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP2018155980A (ja) 対話装置および対話方法
Loh et al. Speech recognition interactive system for vehicle
JP2004251998A (ja) 対話理解装置
JP2009116075A (ja) 音声認識装置
JP5610283B2 (ja) 外部機器制御装置、その外部機器制御方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111227

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111227

R150 Certificate of patent or registration of utility model

Ref document number: 4901736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees