WO2016121052A1

WO2016121052A1 - マルチモーダル意図理解装置およびマルチモーダル意図理解方法

Info

Publication number: WO2016121052A1
Application number: PCT/JP2015/052532
Authority: WO
Inventors: 洋一藤井; 悠介小路; 石井　純
Original assignee: 三菱電機株式会社
Priority date: 2015-01-29
Filing date: 2015-01-29
Publication date: 2016-08-04

Abstract

　ユーザの音声の入力を受け付け、当該音声の認識処理を行う音声認識部（１）およびテキスト解析部（２）と、ユーザの動作情報の入力を受け付け、当該動作情報の認識処理を行う動作認識部（３）と、音声の認識結果である意図理解結果と動作情報の認識結果である動作シンボルとの組み合わせと、当該組み合わせによって得られる前記ユーザの意図を示す統合意図理解結果とを予め定義した意図統合ルールに基づいて、動作シンボルを意図理解結果と統合可能な動作ベクトルに変換する動作ベクトル変換部（４）と、意図理解結果と動作ベクトルとを統合し、統合したデータからユーザの意図を推定する統合意図理解部（６）とを備える。

Description

マルチモーダル意図理解装置およびマルチモーダル意図理解方法

　この発明は、マルチモーダルで入力された情報からユーザの意図を推定する技術に関するものである。ここで、マルチモーダルとは多モードを意味し、例えば、入力が音声の他、映像などの異なるメディアを用いて行われる。

　近年、人間が喋る言葉を音声入力し、当該音声入力の認識結果を用いて、機器やシステムを操作する技術が注目されている。この技術は、携帯電話やカーナビなどの音声インタフェースとして利用されているが、基本的な方法としては、予めシステムが想定した音声認識結果と操作を対応付けておき、システムが想定した音声認識結果が得られた場合には、対応付けられた操作を実行する。

　さらに、上述した方法をさらに向上させた技術として、音声認識結果を直接操作に結びつけるのではなく、ユーザの発話内容からユーザの意図を理解して操作する技術が開示されている。当該技術を実現する方法の１つに、予め収集した発話文例および操作（以下、学習データと称する）を対応付け、ユーザの発話からユーザの意図を統計的学習方法によってモデル化したモデルを利用して、実際のユーザの発話に対して意図を推定する方法（以下、統計的意図理解方法と称する）がある。

　統計的意図理解方法の具体的な処理内容について説明する。まず、学習データの発話文例から学習に使うタームを抽出する。抽出したタームの集合と正解の意図を入力学習データとして、統計的学習アルゴリズムにより、各タームと正解意図との重みを学習したモデルを出力する。学習に使うタームは、発話文例を形態素解析したデータから、単語や単語列を抽出したものが一般的である。たとえば、「○○駅に行きたい」といった発話文例からは、「○○駅（固有名詞・施設）／に（助詞）／行き（動詞・連用）／たい（助動詞）」といった形態素解析結果が得られる。得られた形態素解析結果から「＄施設＄、行く」（固有名詞の施設は＄施設＄という特殊シンボルに変換、動詞は原形に変換）といったタームや、「＄施設＄＿に、に＿行き、行き＿たい」といった２連接の形態素タームを抽出する。

　結果として、「＄施設＄、行く、＄施設＄＿に、に＿行き、行き＿たい」のタームに対して「目的地設定［目的地＝＄施設＄］」（主意図が目的地設定であり、設定する目的地が＄施設＄）のように表現される正解意図を生成する。大量の発話文例から抽出したタームと正解意図とからなる学習データをもとに、モデルを作成する。モデル作成方法としては、例えば機械学習アルゴリズムを利用する。機械学習アルゴリズムは、全ての学習データに対して、最も正解意図が多く生成されるようタームと正解意図との重みを機械学習させる。従って、学習データに類似する発話から得られたタームに対しては、正解意図を出力する可能性が高いモデルが得られる。この機械学習方式としては、例えば最大エントロピー法を用いることできる。

　上述した機械学習アルゴリズムを利用して作成したモデルによって、ユーザの発話内容からユーザの意図を推定することにより、予め想定していない発話内容に対しても柔軟にユーザの意図を推定することができる。そのため、正式な言い回しを覚えていないユーザの発話であっても、適切に意図を推定し、操作を実行することが可能となる。

　一方で、ユーザは音声以外にも意図を特定するための情報を出力する場合があり、ジェスチャーや視線、周囲の状況などを含めて初めてユーザの意図が特定可能な場合がある。
　例えば、特許文献１に開示されたマルチモーダル情報統合解析装置では、ユーザが地図上の特定の場所を丸で囲みながら、「京都ホテルはこの辺りですか」という発話した場合、発話に含まれる指示語をジェスチャーの対象として紐付けを行い、「この辺り」が示す場所を丸で囲んだ場所周辺と判断してシステム応答を生成する。

　しかし、上述した特許文献１の技術では、ユーザの発話内容に指示語が含まれない場合に、ユーザ意図を推定することができないという問題があった。さらに、ユーザの明らかな意思によって行われるジェスチャー動作を紐付けるものであり、例えば車を運転中に前に身を乗り出しながら「見えないな」と発話するような、無意識、且つジェスチャーそのものが特定の指示語に対応付けることが困難な場合には、ユーザの意図を推定することができないという問題があった。

　この問題を解決する方法として、特許文献２には、指示語を含まない発話とジェスチャーの組み合わせに基づいてユーザの動作を記述する知的エージェント構築支援システムが開示されている。当該知的エージェント構築支援システムの入力メディアは、音声、キーボード、マウス、ペン、身振り、画面などで構成され、各入力メディアごとにマルチモーダルルールを定義し、指定された条件下で定義した内容が観測された場合に、該当するマルチモーダルルールが実行可能であると判定する。

特開平９－１１４６３４号公報特開平９－２５１３６８号公報

　上述した特許文献２に開示された技術では、無意識なユーザの動作であっても、マルチモーダルルールに定義されていれば、該当するマルチモーダルルールを実行することによりユーザの意図を推定することができる。しかしながら、１つのユーザ動作に対して定義されたマルチモーダルルールを実行する構成であることから、マルチモーダルルールに定義されていないコマンドを実行するためのユーザの意図は推定することはできないという課題があった。また、無意識のユーザの動作を含む、ユーザのあらゆる動作をルール化することは困難であるという課題があった。

　この発明は、上記のような課題を解決するためになされたもので、予めユーザの意図が定義されていない複数のモーダルで入力された情報の組み合わせから、ユーザの意図を推定することを目的とする。

　この発明に係るマルチモーダル意図理解装置は、ユーザの第１のモーダル情報の入力を受け付け、当該第１のモーダル情報の認識処理を行う第１のモーダル情報認識部と、ユーザの第２のモーダル情報の入力を受け付け、当該第２のモーダル情報の認識処理を行う第２のモーダル情報認識部と、第１のモーダル情報の認識結果と第２のモーダル情報の認識結果との組み合わせと、当該組み合わせによって得られるユーザの意図を示す統合意図とを予め定義した意図統合ルールに基づいて、第２のモーダル情報認識部の認識結果を、第１のモーダル情報認識部の認識結果と統合可能な情報に変換するモーダル情報変換部と、第１のモーダル情報認識部の認識結果と、モーダル情報変換部の変換結果とを統合し、統合したデータからユーザの意図を推定する統合意図理解部とを備える。

　この発明によれば、予めユーザの意図が定義されていない複数のモーダルで入力された情報の組み合わせから、ユーザの意図を推定することができる。これにより、あらゆるモーダル情報を考慮して、より多くの情報に基づいてユーザの意図を推定することができる。また、１つのモーダルで入力された情報のみを用いてユーザの意図を推定する場合と比較して、より正確にユーザの意図を推定することができる。

実施の形態１に係るマルチモーダル意図理解装置の構成を示すブロック図である。実施の形態１に係るマルチモーダル意図理解装置に定義されたユーザの意図の一例を示す図である。実施の形態１に係るマルチモーダル意図理解装置が予め学習する文例の一例を示す図である。実施の形態１に係るマルチモーダル意図理解装置の意図理解モデル蓄積部が蓄積する意図理解モデルの一例を示す図である。実施の形態１に係るマルチモーダル意図理解装置の意図統合ルール蓄積部が蓄積した意図統合ルールを示す図である。実施の形態１に係るマルチモーダル意図理解装置の動作ベクトル生成部の動作を示すフローチャートである。実施の形態１に係るマルチモーダル意図理解装置の動作ベクトル生成部の処理手順を示す説明図である。実施の形態１に係るマルチモーダル意図理解装置の動作ベクトルデータベースの一例を示す図である。実施の形態１に係るマルチモーダル意図理解装置の意図理解処理の動作を示すフローチャートである。実施の形態１に係るマルチモーダル意図理解装置の意図理解処理の手順を示す説明図である。実施の形態２に係るマルチモーダル意図理解装置の意図統合ルール蓄積部が蓄積した意図統合ルールを示す図である。実施の形態２に係るマルチモーダル意図理解装置の動作ベクトル生成部の動作を示すフローチャートである。実施の形態２に係るマルチモーダル意図理解装置の動作ベクトル生成部の処理手順を示す説明図である。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
　本実施の形態のマルチモーダル意図理解装置は２以上のモーダル情報が入力されるものである。例えば、第１のモーダル情報はユーザが発話した音声であり、第２のモーダル情報はユーザの動作、視線および生体反応などであるとする。なお、モーダルは上記以外にも適応可能である。
　以下の実施の形態１および実施の形態２では、当該マルチモーダル意図理解装置に２つのモーダル情報が入力されるものとし、第１のモーダル情報がユーザの音声であり、第２のモーダル情報がユーザの動作である場合を例に説明を行う。また、以下では当該マルチモーダル意図理解装置を車両に搭載されたナビゲーションシステムに適用した場合を例に説明する。

実施の形態１．
　図１は、実施の形態１に係るマルチモーダル意図理解装置１００の構成を示す図である。図１（ａ）はマルチモーダル意図理解装置１００の機能ブロック図を示し、図１（ｂ）はマルチモーダル意図理解装置１００のハードウェア構成図を示している。
　マルチモーダル意図理解装置１００は、音声認識部１およびテキスト解析部２（モーダル情報認識部）、動作認識部（モーダル情報認識部）３、動作ベクトル変換部（モーダル変換部）４、動作ベクトルデータベース５、統合意図理解部６、意図理解モデル蓄積部７、動作ベクトル生成部８および意図統合ルール蓄積部９で構成されている。

　音声認識部１、テキスト解析部２、動作認識部３、動作ベクトル変換部４、統合意図理解部６および動作ベクトル生成部８は、プロセッサ１００ａがメモリ１００ｂに記憶されたプログラムを実行することにより、実現される。また、複数のプロセッサおよび複数のメモリが連携して上記機能を実行してもよい。動作ベクトルデータベース５、意図理解モデル蓄積部７、および意図統合ルール蓄積部９は、メモリ１００ｂが備えているものとする。

　音声認識部１は、ユーザの発話による音声（第１のモーダル情報）を入力とし、当該入力音声の音声認識を行い、音声認識結果を出力する。テキスト解析部２は、音声認識結果についてテキスト解析を行い、解析結果からユーザの意図を示すベクトルである意図理解ベクトルを生成する。動作認識部３は、ユーザの動作を撮像した画像データなどで構成される動作情報（第２のモーダル情報）を入力とし、入力された画像データからユーザの動作を認識して動作シンボルを生成する。

　動作ベクトル変換部４は、動作ベクトルデータベース５を参照し、動作認識部３が生成した動作シンボルを動作ベクトルに変換する。動作ベクトルは、テキスト解析部２が生成する意図理解ベクトルと同一形式のベクトルである。即ち、動作ベクトル変換部４は、第２のモーダル情報の認識結果のデータ形式を第１のモーダル情報の認識結果のデータ形式に変換する処理を行う。動作ベクトルデータベース５は、動作シンボルの重みベクトルから計算される動作ベクトルを、動作シンボルに対応付けて記憶している。詳細は後述するが、図８に動作ベクトルの詳細を示している。

　統合意図理解部６は、テキスト解析部２が生成した意図理解ベクトルと、動作ベクトル変換部４が変換した動作ベクトルとを統合する統合処理部６１を備える。統合意図理解部６は、統合処理部６１が統合したベクトルからユーザの意図を推定する処理を行い、推定結果を統合意図理解結果として出力する。なお、統合したベクトルからユーザの意図を推定する処理では、意図理解モデル蓄積部７を参照して各意図のスコアを取得し、取得した各意図のスコアと、統合したベクトルのスコアとを比較する。比較によりユーザの意図に近似する意図であると算出された結果をユーザの意図であると推定する。意図理解モデル蓄積部７は、機械学習された意図理解モデルを蓄積する記憶領域である。意図理解モデルのターム（形態素または素性）は自然言語で構成され、あるタームに対して、複数のユーザの意図への重みが定義されている。詳細は後述するが、図４に意図理解モデルの詳細を示している。

　動作ベクトル生成部８は、意図理解モデル蓄積部７に蓄積された意図理解モデルと、意図統合ルール蓄積部９に蓄積された意図統合ルールとを参照し、動作ベクトルデータベース５を構成する動作ベクトルを生成する。動作ベクトル生成部８は、意図統合ルールに基づいて、ある１つの意図理解結果とある１つの動作シンボルとから、ある１つの統合意図理解結果が得られる場合に、意図理解モデルに定義されている重みから、ある動作シンボルに相当する動作ベクトルを生成する。当該動作ベクトルの生成処理を複数の動作シンボルに対して行い、データベース化することにより、動作ベクトルデータベース５が生成される。なお、動作ベクトル生成部８は、動作ベクトル変換部４が動作シンボルを動作ベクトルに変換する処理を行う前に、動作ベクトルデータベース５を生成する処理を完了しておく。意図統合ルール蓄積部９は、ある意図理解結果とある動作シンボルとの組み合わせにより、ある統合意図理解結果が生成されることを示す統合ルールを蓄積している。詳細は後述するが、図５に意図統合ルールを蓄積している。

　次に、マルチモーダル意図理解装置１００の詳細について、動作ベクトル生成処理と意図理解処理に分けて説明行う。
（ｉ）動作ベクトル生成処理
　まず、実施の形態１のマルチモーダル意図理解装置１００に予め定義されたユーザの意図について説明する。定義されたユーザの意図は、動作ベクトルを生成する際に参照する。
　図２は、実施の形態１に係るマルチモーダル意図理解装置１００に定義されたユーザの意図の一例を示す図であり、上述のようにマルチモーダル意図理解装置１００が車両に搭載されたナビゲーションシステムに適用された場合を例に示している。

　図２の番号（ａ）から（ｄ）は、エアコンの温度操作に関して定義されたユーザの意図を示している。番号（ａ）で定義された意図「エアコン温度操作［｛場所＝ＮＵＬＬ｝，｛温度＝下げる｝］」を例に説明すると、意図は「エアコン温度操作」である操作意図と、「｛場所＝ＮＵＬＬ｝」である操作場所を特定する情報と、「｛温度＝下げる｝」である変更内容で構成されている。意図は、操作意図を具体化するスロットフレームの組み合わせで表現して定義されている。なお、「ＮＵＬＬ」と記載されている項目は、値が未定であることを示している。

　また、図２の番号（ｈ）から番号（ｊ）は、画面変更に関して定義されたユーザの意図を示している。このように、マルチモーダル意図理解装置１００には、多様な意図が定義されているものとする。

　次に、図２で示した意図を正解とする文例の学習について説明する。図３は、実施の形態１に係るマルチモーダル意図理解装置１００が予め学習する文例の一例を示す図である。
　文例「温度を下げる」、「暑い」は、図２で示した番号（ａ）の意図「「エアコン温度操作［｛場所＝ＮＵＬＬ｝，｛温度＝下げる｝］」を正解とする文例である。また、文例「運転席の温度を下げて」は、図２で示した番号（ｂ）の意図「「エアコン温度操作［｛場所＝前｝，｛温度＝下げる｝］」を正解とする文例である。
　このように、マルチモーダル意図理解装置１００は、図２で示した意図を正解とする複数の文例を予め学習しているものとする。

　次に、図２で示した定義された意図と、図３で示した定義された意図を正解として学習された文例とから作成される意図理解モデルについて説明する。意図理解モデルは、例えば以下の参考文献１などに開示された最大エントロピー法を適用して、機械学習することにより作成される。この実施の形態１では、図２で示した意図を含む多様な意図を、図３で示した学習文例を用いて学習する。意図の学習では、まず、図３で示した学習文例から意図を理解するための学習に使うターム（形態素あるいは素性）を抽出する。タームの抽出方法は種々適用可能であるが、例えば、自立単語を辞書の見出し表記、および否定表現の場合には否定表現を付したもの（「見えない」の辞書の見出し表記では「見える」であるが、否定としての意味を有することから「－ＮＯＴ」を付与したもの）をタームとして抽出する。

　　　［参考文献１］
北研二著、「確率的言語モデル」、東京大学出版会（１９９９／１１）、ＩＳＢＮ　４－１３－０６５４０４－７、第６章　最大エントロピーモデル

　さらに、抽出したタームについて、重み付けを行う。重み付けは、定義された意図（例えば図２）に対して抽出したタームが重要なタームであるか否かに基づいて行う。定義された意図に対して重要なタームである場合には正の数値を付し、重要でないタームである場合には負の数値を付す。さらに、重要度に応じて正の数値あるいは負の数値の大小を変化させる。これらの数値を重み付けの値として用いてもよいし、これらの値を対数に変換したものを重み付けの値としてもよい。このように学習された意図理解モデルは、意図理解モデル蓄積部７に蓄積される。

　図４は、実施の形態１に係るマルチモーダル意図理解装置１００の意図理解モデル蓄積部７が蓄積する意図理解モデルの一例を示す図である。
　意図理解モデルは、各意図に対して、自然言語で構成された各タームの重み値が示されている。例えば、意図（ａ）（図２よりエアコン温度操作［｛場所＝ＮＵＬＬ｝，｛温度＝下げる｝］）に対して、ターム「温度」、「下げる」、「上げる」、「暑い」は、重要なタームであることから、正の大きな数値が設定されている。一方、ターム「寒い」、「後ろ」、「運転席」、「画面」などは意図（ａ）にとって重要なタームでないことから、負の小さな数値が設定されている。

　次に、意図統合ルール蓄積部９に蓄積された意図統合ルールについて説明する。図５は、実施の形態１に係るマルチモーダル意図理解装置１００の意図統合ルール蓄積部９が蓄積した意図統合ルールを示す図である。
　図５（ａ）は意図統合ルールの概要を示す説明図であり、図５（ｂ）は意図統合ルールの具体例を示す図である。
　図５（ａ）で示した意図統合ルールは、テキスト解析部２による意図理解結果Ａと、動作認識部３による動作シンボルＢが一定時間内に発生した場合に、統合意図理解結果Ｃに変換することを示している。

　図５（ａ）で示した意図統合ルールに基づいて、ユーザがある発話をある動作と共に行った場合に得られる具体的な意図統合ルールが予め学習されている。図５（ｂ）に学習された意図統合ルールの一例を示している。意図統合ルール５１は、ユーザがルームミラーを見ながら「見えないな」と発話した場合、テキスト解析部２が意図理解結果Ａとして「画面変更［｛対象＝ＮＵＬＬ｝］」を取得し、動作認識部３が一定時間内に動作シンボルＢとして「ルームミラー注視［］」を認識した場合、統合意図理解結果Ｃとして「画面変更［｛場所＝リアカメラ｝］」が得られることを示している。

　上述のように蓄積された意図理解モデルおよび意図統合ルールに基づいて生成される動作ベクトルについて説明する。
　まず、動作ベクトル生成部８による動作ベクトル生成手順について説明する。
　図６は、実施の形態１に係るマルチモーダル意図理解装置１００の動作ベクトル生成部８の動作を示すフローチャートである。
　動作ベクトル生成部８は、意図統合ルール蓄積部９に蓄積された意図統合ルールから全ての動作シンボルを抽出し（ステップＳＴ１）、動作シンボルリストを作成する（ステップＳＴ２）。ステップＳＴ２で作成した動作シンボルリストから動作シンボルを選択する（ステップＳＴ３）。

　ステップＳＴ３で選択した動作シンボルを含む意図統合ルールと、意図理解モデル蓄積部７に蓄積された意図理解モデルを参照して、ステップＳＴ３で選択した動作シンボルの重みベクトルを計算し、動作ベクトルを生成する（ステップＳＴ４）。ステップＳＴ４で生成された動作ベクトルは、ステップＳＴ３で選択した動作シンボルと共に、動作ベクトルデータベース５に格納する（ステップＳＴ５）。ステップＳＴ２で作成した動作シンボルリストを参照し、全ての動作シンボルについて処理を行ったか否か判定を行う（ステップＳＴ６）。全ての動作シンボルについて処理を行っていない場合（ステップＳＴ６；ＮＯ）、ステップＳＴ３の処理に戻り、上述した処理を繰り返す。一方、全ての動作シンボルについて処理を行った場合（ステップＳＴ６；ＹＥＳ）、処理を終了する。

　次に、図７に示した具体例を参照しながら、ステップＳＴ４の動作ベクトルの生成についてより詳細に説明する。
　図７は、実施の形態１に係るマルチモーダル意図理解装置１００の動作ベクトル生成部８の処理手順を示す説明図である。
　ステップＳＴ３として図７（ａ）に示す意図統合ルール７１から、動作シンボル７２「ルームミラー注視［］」が選択されたものとする。ステップＳＴ４として、動作ベクトル生成部８は、意図理解モデル蓄積部７に蓄積された意図理解モデルを参照し、意図理解結果Ａである意図７３「画面変更［｛対象＝ＮＵＬＬ｝］」に対応付けられた全ての重みベクトル７５と、統合意図理解結果Ｃである意図７４「画面変更［｛場所＝リアカメラ｝］」に対応付けられた全ての重みベクトル７６を取得する（図７（ｂ）参照）。

　さらに、統合意図理解結果Ｃの重みベクトル７６から、意図理解結果Ａに対する重みベクトル７５を減算し、動作シンボルＢの重みベクトル７７とする（図７（ｃ）参照）。動作シンボルＢの重みベクトル７７は、各要素の値が対数に変換されて保持されていることから、指数に逆変換され、さらに総和が１となるように変換され、動作ベクトル７８が生成する（図７（ｄ）参照）。

　ステップＳＴ５として、ステップＳＴ４で生成した動作ベクトルを、動作シンボル７２「ルームミラー注視［］」と共に、動作ベクトルデータベース５に格納する。図８に動作ベクトルデータベース５の格納例を示す。動作ベクトルデータベース５は、各動作シンボルについて、意図理解モデルを構成する各タームの動作ベクトルが対応付けられている。図８の例では、図４で示した意図理解モデルの各ターム、「温度」、「下げる」、「上げる」などについて、図７で示した動作シンボル７２の動作ベクトル７８が対応付けられている。

（ｉｉ）意図理解処理
　次に、上述のように作成された動作ベクトルデータベース５を参照して、意図理解結果を得るための意図理解処理について説明する。
　なお、以下では、マルチモーダル意図理解装置１００には音声による入力および動作による入力が行われるものとして説明を行う。音声による入力と動作による入力が存在する場合、音声入力が行われる時間と、動作入力が行われる時間とにずれが発生することが考えられる。そのため、音声入力と動作入力とを１つの入力処理と判断して処理を行う、あるいは音声入力と動作入力とを異なる入力処理と判断して処理を行うことが可能である。この実施の形態１のマルチモーダル意図理解装置１００では、周知技術を適用して、ユーザの発話開始前一定時間から発話終了後一定時間の期間が、ユーザの動作開始前一定時間から動作終了後一定時間の期間と重なる場合には、音声入力と動作入力とを１つの入力処理と判断するものとする。

　図９は、実施の形態１に係るマルチモーダル意図理解装置１００の意図理解処理の動作を示すフローチャートである。
　マルチモーダル意図理解装置１００にユーザの音声が入力されると、音声認識部１は入力された音声について音声認識処理を行い、音声認識結果を生成する（ステップＳＴ１１）。テキスト解析部２は、ステップＳＴ１１で生成された音声認識結果を意図理解ベクトルに変換し、統合意図理解部６に出力する（ステップＳＴ１２）。

　一方、マルチモーダル意図理解装置１００に動作情報が入力されると、動作認識部３は入力された動作情報から動作シンボルを取得する（ステップＳＴ１３）。動作ベクトル変換部４は、ステップＳＴ１３で動作シンボルが取得されたか否か判定を行う（ステップＳＴ１４）。動作シンボルが取得された場合（ステップＳＴ１４；ＹＥＳ）、動作ベクトル変換部４は、ステップＳＴ１３で取得された動作シンボルをキーとして動作ベクトルデータベース５内を検索する（ステップＳＴ１５）。ステップＳＴ１５の検索結果に基づいてステップＳＴ１３で取得された動作シンボルを動作ベクトルに変換し、統合意図理解部６に出力する（ステップＳＴ１６）。一方、動作シンボルが取得されなかった場合（ステップＳＴ１４；ＮＯ）、ステップＳＴ１８の処理に進む。

　統合意図理解部６の統合処理部６１は、ステップＳＴ１２で変換された意図理解ベクトルと、ステップＳＴ１６で変換された動作ベクトルが入力され場合、意図理解ベクトルに動作ベクトルを加算し、意図理解ベクトルを更新する（ステップＳＴ１７）。
　統合意図理解部６は、意図理解モデル蓄積部７を参照し、ステップＳＴ１７で更新された意図理解ベクトル、あるいは動作シンボルが取得されなかった場合にはステップＳＴ１２で変換された意図理解ベクトルに対する認識スコアを取得する（ステップＳＴ１８）。ステップＳＴ１８で取得した認識スコアのうち、最も高いスコア値を有する意図理解結果を統合意図理解結果として出力する（ステップＳＴ１９）。その後、フローチャートはステップＳＴ１１の処理に戻り、上述した処理を繰り返す。

　次に、新たな音声および動作情報が入力された場合の処理について、図１０の具体例を参照しながら、図９で示したフローチャートに基づいて説明を行う。
　図１０は、実施の形態１に係るマルチモーダル意図理解装置１００の意図理解処理の手順を示す説明図である。
　図１０ではユーザが「ルームミラーを見ながら「暑そうだね」と発話した」との発話および動作１０１を行った例を示している。マルチモーダル意図理解装置１００には、音声として「暑そうだね」との発話が入力され、動作情報１０２として「ルームミラーを見る」との情報が入力される。このとき、音声入力と動作入力は、上述のように一定間隔内で発生した１つの入力処理として処理すべきであるとマルチモーダル意図理解装置１００が判断したものとして説明を行う。

　ステップＳＴ１１として、音声認識部１は入力された音声から正しい音声認識結果１０３「暑そうだね」を取得し、ステップＳＴ１２としてテキスト解析部２は音声認識結果１０３を意図理解ベクトル１０４に変換し、統合意図理解部６に出力する。意図理解ベクトルはタームとベクトル値で構成される。意図理解ベクトルのベクトル値は、音声に特定のタームが出現する頻度を示す値である。図１０の例では、音声に出現したタームが「暑い」のみであることから、ターム「暑い」のみがベクトル値「１．０」を有し、他のタームは全てベクトル値「０．０」となる。

　一方、ステップＳＴ１３として、動作認識部３は入力された動作情報から動作シンボル１０５として「ルームミラー注視［］」を取得する。ステップＳＴ１４として、動作ベクトル変換部４は動作シンボル１０５を取得したと判定し、ステップＳＴ１５として取得した動作シンボル１０５をキーとして動作ベクトルデータベース５内を検索する。ステップＳＴ１６として該当する動作ベクトル１０６を取得し、統合意図理解部６に出力する。
　例えば、図８に示した動作ベクトルデータベース５内を、動作シンボル１０５「ルームミラー注視［］」をキーとして検索を行った場合、当該キーに相当する動作シンボルが存在し、図１０に示す動作ベクトル１０６（例えば、ターム「温度」、「下げる」、「上げる」・・・に対するベクトル値「０．０３３」、「０．０４６」、「０．０５３」・・・）が得られる。

　動作ベクトルの値は、検索のキーとした動作シンボルについて、各タームが重要であるか示す値、すなわち当該動作シンボルが取得された場合にユーザの意図として各タームが出現する頻度を示す値である。

　ステップＳＴ１７として、統合意図理解部６の統合処理部６１は、意図理解ベクトル１０４に動作ベクトル１０６を加算し、更新した意図理解ベクトル１０７を得る。意図理解ベクトル１０４と動作ベクトル１０６の加算は、予め決定した割合αで行う。具体的には、「（意図理解ベクトル）＋α・（ジェスチャーベクトル）」との計算を行う。割合αの値は、意図理解処理に用いる動作情報の重みを決定するものであり、α＝０の場合には入力された音声のみを用いて意図理解処理が行われることを示す。図１０で示した更新後の意図理解ベクトル１０７は、α＝１として意図理解ベクトル１０４と動作ベクトル１０６を加算した結果を示している。

　次に、ステップＳＴ１８として、統合意図理解部６はステップＳＴ１７で得られた意図理解ベクトル１０７と、意図理解モデル蓄積部７に蓄積された意図理解モデルを構成する各意図の重みベクトルとの内積を取り、認識スコアを取得する。図１０においてスコア１０８が認識スコアを示し、意図（ａ）から意図（ｊ）について内積結果を加算した値を示している。ステップＳＴ１９として、統合意図理解部６はステップＳＴ１８で取得した認識スコアのスコア１０８の値を参照し、最大の値を有する意図（ｃ）を統合意図理解結果１０９として出力する。図２で示した定義された意図を参照することにより、ステップＳＴ１９で統合意図理解結果１０９として出力する意図（ｃ）は「エアコン温度操作［｛場所＝後｝、｛温度＝下げる｝］」であることが分かる。

　このように、意図統合ルール蓄積部９に該当するエアコン操作に関する意図統合ルール「エアコン［｛場所＝ＮＵＬＬ｝、｛温度＝下げる｝］＋「ルームミラー注視［］」→［｛場所＝後｝、｛温度＝下げる｝］」が規定されていない場合であっても、ユーザの動作情報から動作シンボル「ルームミラーを注視［］」が取得された場合に、ユーザの動作が「後ろ」を意識した動作であると推定した統合意図理解結果「エアコン温度操作［｛場所＝後｝、｛温度＝下げる｝］」を得ることができる。

　以上のように、この実施の形態１によれば、音声認識部１の音声認識結果をテキスト解析して意図理解ベクトルを生成するテキスト解析部２と、予め意図統合ルール蓄積部９に蓄積された意図統合ルールから抽出された動作シンボルの動作ベクトルを蓄積した動作ベクトルデータベース５を参照して、動作情報から認識された動作シンボルを動作ベクトルに変換する動作ベクトル変換部４と、意図理解ベクトルと動作ベクトルとを入力としてユーザの意図理解処理を行う統合意図理解部６を備えるように構成したので、動作情報から認識された動作シンボルを、意図理解ベクトルと統合可能な情報に変換し、動作情報が示すユーザの意図を意図理解ベクトルと統合することができる。これにより、複数のモーダル情報を統合した情報からユーザの意図を推定することができ、多くの情報に基づいて、正確にユーザの意図を推定することができる。

　また、この実施の形態１によれば、動作ベクトル変換部４は、意図理解モデル蓄積部７に蓄積された自然言語で構成された意図理解モデルを構成する各タームについて動作ベクトルを記述した動作ベクトルデータベース５を参照して、動作シンボルを動作ベクトルに変換するように構成したので、入力された動作情報を自然言語で構成された意図理解モデルに記述されたタームに置き換えることができ、動作情報が意図する内容を言語的に表すことができる。これにより、意図統合ルールで定義されていない音声と動作情報との組み合わせに対しても、意図理解ベクトルと動作ベクトルとを統合することにより、統合した結果からユーザの意図を推定することができる。これにより、複数のモーダル情報を用いてユーザの意図を推定することができる。

　また、実施の形態１によれば、動作ベクトル生成部８が、意図統合ルール蓄積部９に蓄積された意図統合ルールに記述された意図理解結果と動作シンボルと統合意図理解結果の関係から、意図理解モデル蓄積部７に蓄積された意図理解モデルを参照して、動作シンボルに相当する動作ベクトルを生成した動作ベクトルを蓄積した動作ベクトルデータベース５を備えるように構成したので、意図統合ルールに定義された動作シンボルが少数であっても、動作ベクトル変換部４は近似する動作ベクトルに変換することで、動作情報が意図する内容を言語的に表すことができる。これにより、音声と動作情報が意図統合ルールに記述されていない組み合わせであった場合にも、ユーザの意図を推定することができる。

実施の形態２．
　実施の形態２では、１つの動作シンボルに対して複数の意図統合ルールが蓄積されている場合について説明する。
　なお、実施の形態２係るマルチモーダル意図理解装置１００の構成は、図１で示した実施の形態１のマルチモーダル意図理解装置１００と同一であるため、ブロック図の記載を省略する。また、実施の形態１で使用した符号と同一の符号を付して以下説明を行う。さらに、動作ベクトル生成部８の処理動作以外は、実施の形態１と同様であるため、説明を省略する。

（ｉｉｉ）動作ベクトル生成処理
　図１１は、実施の形態２に係るマルチモーダル意図理解装置１００の意図統合ルール蓄積部９が蓄積した意図統合ルールを示す図である。
　図１１（ａ）は意図統合ルールの概要を示す説明図であり、実施の形態１と同一である。意図統合ルールは、テキスト解析部２による意図理解結果Ａと、動作認識部３による動作シンボルＢが一定時間内に発生した場合に、統合意図理解結果Ｃに変換することを示している。

　一方、図１１（ｂ）は、図１１（ａ）に示した意図統合ルールに基づいて学習された意図統合ルールの具体例を示す図である。
　意図統合ルール１１１は、テキスト解析部２が意図理解結果Ａとして、変更対象は不明であるが画面変更を意図する「画面変更［｛対象＝ＮＵＬＬ｝］」を取得し、動作認識部３が音声の入力から一定時間内に動作シンボルＢとして、ルームミラーを見る動作シンボル「ルームミラー注視［］」を取得した場合、統合意図理解結果Ｃとして「画面変更［｛場所＝リアカメラ｝］」が得られることを示している。
　意図統合ルール１１１は、例えばユーザがルームミラーを見ながら「見えないな」と発話した場合などが想定される。

　意図統合ルール１１２は、テキスト解析部２が意図理解結果Ａとして、変更場所は不明であるがエアコンの温度を下げることを意図する「エアコン［｛場所＝ＮＵＬＬ｝、｛温度＝下げる｝］」を取得し、動作認識部３が音声の入力から一定時間内に動作シンボルＢとして、ルームミラーを見る動作シンボル「ルームミラー注視［］」を取得した場合、統合意図理解結果Ｃとして「エアコン［｛場所＝後｝、｛温度＝下げる｝］」が得られることを示している。
　意図統合ルール１１２は、例えばユーザがルームミラーを見ながら「暑そうだね」と発話した場合などが想定される。

　上述のように蓄積された意図統合ルールと、意図理解モデル蓄積部７に蓄積された意図理解モデルから生成される動作ベクトルについて説明する。
　まず、動作ベクトル生成部８による動作ベクトル生成手順について説明する。
　図１２は、実施の形態２に係るマルチモーダル意図理解装置１００の動作ベクトル生成部８の動作を示すフローチャートである。実施の形態１に係るマルチモーダル意図理解装置１００と同一のステップには図６で使用した符号と同一の符号を付し、説明を省略または簡略化する。
　動作ベクトル生成部８は、ステップＳＴ３で動作シンボルを選択すると、選択した動作シンボルを含む意図統合ルールと、意図理解モデル蓄積部７に蓄積された意図理解モデルを参照して、選択した動作シンボルを含む意図統合ルール毎に動作シンボルの重みベクトルを計算し、動作ベクトルを生成する（ステップＳＴ２１）。

　動作ベクトル生成部８は、ステップＳＴ２１で生成された意図統合ルール毎の動作ベクトルの相加平均を取り、ステップＳＴ３で選択した動作シンボルに対する１つの動作ベクトルを生成する（ステップＳＴ２２）。ステップＳＴ２２で生成された動作ベクトルは、ステップＳＴ３で選択した動作シンボルと共に、動作ベクトルデータベース５に格納し（ステップＳＴ５）、ステップＳＴ６の処理に進む。

　次に、図１２に示した具体例を参照しながら、ステップＳＴ２１およびステップＳＴ２２の動作ベクトルの生成についてより詳細に説明する。
　図１３は、実施の形態２に係るマルチモーダル意図理解装置１００の動作ベクトル生成部８の処理手順を示す説明図である。
　ステップＳＴ３として図１３（ａ）に示す２つの意図統合ルール１３１，１３２から、「ルームミラー注視［］」の動作シンボル１３３が選択されたものとする。ステップＳＴ２１として、動作ベクトル生成部８は、意図理解モデル蓄積部７に蓄積された意図理解モデルを参照し、意図理解結果Ａである意図１３４「画面変更［｛対象＝ＮＵＬＬ｝］」に対応付けられた全ての重みベクトルと、統合意図理解結果Ｃである意図１３５「画面変更［｛場所＝リアカメラ｝］」に対応付けられた全ての重みベクトルを取得する。さらに統合意図理解結果Ｃの重みベクトルから、意図理解結果Ａに対する重みベクトルを減算し、動作シンボルＢの重みベクトル１３６とする（図１３（ｂ）参照）。

　同様に、ステップＳＴ２１として、意図理解結果Ａである意図１３７「エアコン［｛場所＝ＮＵＬＬ｝，｛温度＝下げる｝］」に対応付けられた全ての重みベクトルと、統合意図理解結果Ｃである意図１３８「エアコン［｛場所＝後｝，｛温度＝下げる｝］」に対応付けられた全ての重みベクトルを取得する。さらに統合意図理解結果Ｃの重みベクトルから、意図理解結果Ａに対する重みベクトルを減算し、動作シンボルＢの重みベクトル１３９とする（図１３（ｃ）参照）。なお、図１３（ｂ）および図１３（ｃ）で示した重みベクトル１３６，１３９の算出方法は、実施の形態１の図７（ｂ）から図７（ｄ）で示した方法と同一である。

　ステップＳＴ２２として、動作ベクトル生成部８は、ステップＳＴ２１で生成された重みベクトル１３６と重みベクトル１３９の相加平均を取り、１つの動作ベクトル１４０を生成する（図１３（ｄ）参照）。生成した動作ベクトルは、ステップＳＴ５として動作ベクトルデータベース５に格納される。

（ｉｖ）意図理解処理
　マルチモーダル意図理解装置１００にユーザの音声および動作情報が入力されると、実施の形態１の図９のフローチャートに従って、意図理解処理を行う。ステップＳＴ１５として、動作ベクトル変換部４は、上述した図１２のフローチャートに従って生成された動作ベクトルデータベース５内の検索を行い、ステップＳＴ１６として動作ベクトルへの変換を行う。
　例えば、動作認識部３の認識結果の動作シンボルが「ルームミラー注視［］」の場合には、動作ベクトル１４０に変換し、以降実施の形態１と同様に意図を推定する。

　以上のように、この実施の形態２によれば、１つの動作シンボルに対して複数の意図統合ルールが蓄積されている場合に、意図統合ルール毎に動作シンボルの動作ベクトルを算出し、算出した複数の動作ベクトルの相加平均を、１つの動作シンボルに対する動作ベクトルとして格納した動作ベクトルデータベース５を備えるように構成したので、動作ベクトル変換部４において動作シンボルから動作ベクトルに変換する際に、動作シンボルに近似する複数の意図を含む動作ベクトルに変換することができる。これにより、動作情報が意図する内容を正確に反映した動作ベクトルと、意図理解ベクトルとを統合した情報から、ユーザの意図を推定することができる。

　上述した実施の形態１および実施の形態２では、日本語を言語とする場合を例に示したが、意図を理解するための学習に使うタームの抽出方法を、英語、ドイツ語、および中国語など種々の言語に基づいて変更することにより、様々な言語に対して本願発明のマルチモーダル意図理解装置１００を適用することができる。

　また、上述した実施の形態１および実施の形態２では、定義された意図と、当該定義された意図を正解として学習された文例から意図理解モデルを作成し、動作認識部３が認識した動作シンボルを作成された意図理解モデルを構成する自然言語で表した動作ベクトルに変換する構成示したが、意図理解モデルの構成は自然言語のテキストに限定されるものではなく、手話などの動作から意図理解モデルを作成し、その他のモーダル情報を意図理解モデルで参照可能なベクトルとして表現する構成としてもよい。

　また、上述した実施の形態１および実施の形態２では、音声認識部１を備え、入力された音声を認識する音声認識部１を備える場合を例に説明を行ったが、キーボードやタッチパネルなどの入力手段により入力されたテキストを認識するテキスト認識部を備えるように構成してもよい。また、音声認識部とテキスト認識部の双方を備えるように構成してもよい。

　また、上述した実施の形態１および実施の形態２では、テキスト解析部２において音声認識結果のテキスト解析を行い、解析結果から意図理解ベクトルを生成する構成を示したが、音声認識部１の音声認識結果がテキストのみではなく形態素単位で抽出される場合には、音声認識部１で意図理解ベクトルを生成する処理までを行い、テキスト解析部２を省略してもよい。

　また、上述した実施の形態１および実施の形態２では、意図理解モデルの作成方法として、最大エントロピー法による学習モデルを想定した場合を例に説明を行ったが、意図理解モデルの作成方法を限定するものではない。

　また、上述した実施の形態１および実施の形態２では、音声（第１のモーダル情報）および画像データ（第２のモーダル情報）を入力とする例を示したが、第３のモーダル情報、第４のモーダル情報などより多くのモーダル情報を入力として構成することができる。その場合、第２、第３、第４のモーダル情報の認識結果を意図統合ルールに基づいてデータ形式を変換する。具体的には、動作ベクトル変換部４に相当する構成を、第３のモーダル情報および第４のモーダル情報についても設け、各構成から入力されたデータを統合意図理解部６で統合し、意図推定処理を行うものとする。

　また、上述した実施の形態１および実施の形態２では、マルチモーダル意図理解装置１００が動作ベクトルデータベース５、意図理解モデル蓄積部７、動作ベクトル生成部８および意図統合ルール蓄積部９を備える構成を示したが、これらの構成を外部装置あるいは外部領域が備えるように構成してもよい。

　上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

　この発明に係るマルチモーダル意図理解装置は、複数のモーダルで構成される入力を統合して処理することが可能なため、複数のモーダル情報を取得可能なナビゲーション装置などに適用し、ユーザの意図推定の正確性向上に用いるのに適している。

　１　音声認識部、２　テキスト解析部、３　動作認識部、４　動作ベクトル変換部、５　動作ベクトルデータベース、６　統合意図理解部、７　意図理解モデル蓄積部、８　動作ベクトル生成部、９　意図統合ルール蓄積部、６１　統合処理部、１００　マルチモーダル意図理解装置、１００ａ　プロセッサ、１００ｂ　メモリ。

Claims

　ユーザの第１のモーダル情報の入力を受け付け、当該第１のモーダル情報の認識処理を行う第１のモーダル情報認識部と、
　前記ユーザの第２のモーダル情報の入力を受け付け、当該第２のモーダル情報の認識処理を行う第２のモーダル情報認識部と、
　前記第１のモーダル情報の認識結果と前記第２のモーダル情報の認識結果との組み合わせと、当該組み合わせによって得られる前記ユーザの意図を示す統合意図とを予め定義した意図統合ルールに基づいて、前記第２のモーダル情報認識部の認識結果を、前記第１のモーダル情報認識部の認識結果と統合可能な情報に変換するモーダル情報変換部と、
　前記第１のモーダル情報認識部の認識結果と、前記モーダル情報変換部の変換結果とを統合し、統合したデータから前記ユーザの意図を推定する統合意図理解部とを備えたマルチモーダル意図理解装置。
　前記第１のモーダル情報が、前記ユーザの音声であって、
　前記第１のモーダル情報認識部は、入力された前記ユーザの音声の認識処理を行って取得した音声認識結果を、素性と当該素性の出現頻度を示す情報で構成される意図理解情報に変換し、
　前記統合意図理解部は、前記第１のモーダル情報認識部が取得した意図理解情報と、前記モーダル情報変換部の変換結果とを統合する統合処理部を備え、あるユーザの意図についてある素性が出現する頻度を学習して作成された意図理解モデルを参照し、前記統合処理部が統合した統合結果が示す前記素性の出現頻度から前記ユーザの意図を推定することを特徴とする請求項１記載のマルチモーダル意図理解装置。
　前記第２のモーダル情報が、前記ユーザの動き、前記ユーザの視線および前記ユーザの生体反応のうちのいずれか、あるいはいずれか複数であって、
　前記第２のモーダ情報認識部は、入力された前記第２のモーダル情報から前記ユーザの状態を示すシンボル情報を取得し、
　前記モーダル情報変換部は、前記第２のモーダル情報認識部が取得したシンボル情報を、前記意図理解モデルを構成する各素性についての出現頻度を示した情報に変換することを特徴とする請求項２記載のマルチモーダル意図理解装置。
　前記意図統合ルールと前記意図理解モデルとに基づいて、前記ユーザの状態を示す複数のシンボル情報について、前記意図理解モデルを構成する各素性と、当該各素性の出現頻度とを対応付けて作成されたシンボル情報データベースを備え、
　前記モーダル情報変換部は、前記シンボル情報データベース内を検索し、前記第２のモーダル情報認識部が取得したシンボル情報を、前記意図理解モデルを構成する各素性についての出現頻度を示した情報に変換することを特徴とする請求項３記載のマルチモーダル意図理解装置。
　前記シンボル情報データベースは、前記意図統合ルールで定義された前記統合意図が示す前記素性の出現頻度から、前記意図理解情報が示す前記素性の出現頻度を減算して得られた減算結果を、前記シンボル情報に対応付けて記憶することを特徴とする請求項４記載のマルチモーダル意図理解装置。
　１つのシンボル情報について、複数の前記意図統合ルールが定義されている場合に、
　前記シンボル情報データベースは、前記意図統合ルール毎に定義された前記統合意図が示す前記素性の出現頻度から、前記意図理解情報が示す前記素性の出現頻度を減算し、得られた複数の減算結果の相加平均を前記シンボル情報に対応付けて記憶することを特徴とする請求項４記載のマルチモーダル意図理解装置。
　第１のモーダル情報認識部が、ユーザの第１のモーダル情報の入力を受け付け、当該第１のモーダル情報の認識処理を行うステップと、
　第２のモーダル情報認識部が、前記ユーザの第２のモーダル情報の入力を受け付け、当該第２のモーダル情報の認識処理を行うステップと、
　前記第１のモーダル情報の認識結果と前記第２のモーダル情報の認識結果との組み合わせと、当該組み合わせによって得られる前記ユーザの意図を示す統合意図とを予め定義した意図統合ルールに基づいて、モーダル情報変換部が、前記第２のモーダル情報認識部の認識結果を、前記第１のモーダル情報認識部の認識結果と統合可能な情報に変換するステップと、
　統合意図理解部が、前記第１のモーダル情報認識部の認識結果と、前記モーダル情報変換部の変換結果とを統合し、統合したデータから前記ユーザの意図を推定するステップとを備えたマルチモーダル意図理解方法。