WO2020240789A1

WO2020240789A1 - 音声対話制御装置及び音声対話制御方法

Info

Publication number: WO2020240789A1
Application number: PCT/JP2019/021599
Authority: WO
Inventors: 直哉馬場; 真宗平; 政信大澤
Original assignee: 三菱電機株式会社
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2020-12-03

Abstract

発話者位置判定部（１２）は、音声を発話した発話者の位置を判定する。音声認識部（１４）は、発話者が発話した音声の内容を認識する。意図理解部（１５）は、音声認識部（１４）により認識された音声の内容に基づいて発話者の発話の意図を理解することにより発話者が操作しようとする操作機器と操作内容を判別すると共に、音声の中から発話者の位置と操作機器との相対位置関係を示す単語を抽出する。対話管理部（１６）は、発話者位置判定部（１２）により判定された発話者の位置と意図理解部（１５）により抽出された相対位置関係を示す単語とに基づいて、意図理解部（１５）により判別された操作機器の実行場所を特定し、特定した実行場所の操作機器に操作内容に対応する動作を実行させるための制御信号を出力する。

Description

音声対話制御装置及び音声対話制御方法

　この発明は、音声対話制御装置及び音声対話制御方法に関するものである。

　従来、情報機器に対する音声による操作を制御する音声対話制御装置が開発されている。以下、情報機器を操作するための音声を、音声対話制御装置に対して発話した利用者を、「発話者」という。また、音声対話制御装置に対して発話した発話者の音声を、「発話音声」という。

　近年、例えば車両向けでは、カーナビゲーション装置の操作に留まらず、エアコン等の車両機器の操作にも、音声対話制御装置が用いられてきている。エアコン、パワーウインドウ、及びヒートシータ等、車内の各座席で独立して操作できるような機器（以下、「操作機器」という）に対して、音声対話制御装置は、発話者の要求を正確に理解するために、発話者の座席位置を把握し、機器をどの座席に対応する場所で実行させるかまで適切に制御する必要がある。以下、操作機器の動作を実行させる場所を、「操作機器の実行場所」という。

　そこで、特許文献１には、複数のマイクロホンから入力される音声信号に基づいて発話者の座席位置を判定することで、各乗員が発話音声により操作機器を適切に操作できるようにした音声対話制御装置が記載されている。この特許文献１によれば、例えば、操作機器がパワーウインドウである場合、発話者が運転席の乗員であれば運転席側のウインドウのみが開閉動作し、発話者が助手席の乗員であれば助手席側のウインドウのみが開閉動作する。

特開平１１－６５５８７号公報

　特許文献１のような従来の音声対話制御装置は、音声認識性能を担保するため、操作機器を操作するための発話コマンドが限られており、操作機器を操作する発話者が発話コマンドを覚えておく等、操作機器側の都合に合わせる必要があった。しかし、近年、音声対話制御装置は、音声認識処理の高性能化に伴い、発話者の自由な言い回しを音声認識処理することが可能となった。ただし、音声対話制御装置は、音声認識処理に関しては期待通りの結果を得られるが、その後段において発話者の発話の意図を解釈する意図認識処理において、曖昧な内容の発話に対応できず、発話者の意図通りに操作機器の動作を実行させることができない場合がある。

　特に車載の操作機器に関する音声操作においては、操作機器の実行場所の指定が曖昧な発話が発生し得る。操作機器の実行場所の指定が曖昧な発話の例として、「ヒートシータをつけて」のように発話者自身の位置を省略した内容の発話、及び、「反対側のヒートシータをつけて」のように相対表現の位置を用いた内容の発話等が挙げられる。

　特許文献１記載の音声対話制御装置は、発話者の座席位置を判定し、前者の「ヒートシータをつけて」のように発話者が自身の位置を示す内容を省略した場合に、判定した発話者の座席位置をそのまま操作機器の実行場所として補完することで相対位置表現の曖昧性を解消していた。しかし、特許文献１記載の音声対話制御装置は、後者の「反対側のヒートシータをつけて」のように「反対」等の相対位置関係を示す単語が含まれた発話に対しては、上記のように判定した発話者の座席位置を用いて操作機器の実行場所を補完することはできず、相対位置表現の曖昧性を解消することができなかった。

　この発明は、上記のような課題を解決するためになされたもので、発話者の発話音声に相対位置表現が含まれる場合でも発話者の意図通りに操作機器の動作を実行させることができる音声対話制御装置を提供することを目的とする。

　この発明に係る音声対話制御装置は、複数の実行場所それぞれで独立して動作可能な複数の操作機器に対する、音声による操作を制御する音声対話制御装置であって、音声を発話した発話者の位置を判定する発話者位置判定部と、発話者が発話した音声の内容を認識する音声認識部と、音声認識部により認識された音声の内容に基づいて発話者の発話の意図を理解することにより発話者が操作しようとする操作機器と操作内容を判別すると共に、音声の中から発話者の位置と操作機器との相対位置関係を示す単語を抽出する意図理解部と、発話者位置判定部により判定された発話者の位置と意図理解部により抽出された相対位置関係を示す単語とに基づいて、意図理解部により判別された操作機器の実行場所を特定し、特定した実行場所の操作機器に操作内容に対応する動作を実行させるための制御信号を出力する対話管理部とを備えるものである。

　この発明によれば、発話者の位置と操作機器との相対位置関係を示す単語を抽出し、発話者の位置と相対位置関係を示す単語とに基づいて操作機器の実行場所を特定するようにしたので、発話者の発話音声に相対位置表現が含まれる場合でも発話者の意図通りに操作機器の動作を実行させることができる。

実施の形態１に係る音声対話制御装置の構成例を示すブロック図である。実施の形態１に係る発話者位置判定部が有する発話者位置判定テーブルの一例を示す図である。図２Ａの発話者位置判定テーブルにより定義された前席の発話音声の到来方向の角度範囲を示す平面図である。図２Ａの発話者位置判定テーブルにより定義された後席の発話音声の到来方向の角度範囲を示す平面図である。図２Ａの発話者位置判定テーブルにより定義された発話音声の到来方向の角度範囲を示す側面図である。実施の形態１において相対位置関係を示す単語が定義されたテーブルの一例を示す図である。実施の形態１において発話者の位置と、相対位置関係を示す単語と、操作機器の実行場所との対応関係が定義された相対位置関係解釈テーブルの一例を示す図である。実施の形態１に係る音声対話制御装置のハードウェア構成の一例を示す図である。実施の形態１に係る音声対話制御装置のハードウェア構成の別の例を示す図である。実施の形態１に係る音声対話制御装置による発話者位置判定動作例を示すフローチャートである。実施の形態１に係る音声対話制御装置による車両制御装置の音声操作例を示すフローチャートである。実施の形態２に係る音声対話制御装置の構成例を示すブロック図である。実施の形態２に係る音声対話制御装置が搭載された車両の構成例を示す平面図である。実施の形態２において発話者の位置と、相対位置関係を示す単語と、操作機器の実行場所との対応関係が定義された相対位置関係解釈テーブルの一例を示す図である。実施の形態２に係る音声対話制御装置による乗員検知動作例を示すフローチャートである。実施の形態２に係る音声対話制御装置による発話者位置判定動作例を示すフローチャートである。実施の形態２に係る音声対話制御装置による車両制御装置の音声操作例を示すフローチャートである。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、実施の形態１に係る音声対話制御装置１０の構成例を示すブロック図である。実施の形態１では、音声対話制御装置１０が車両に搭載される前提で、音声対話制御装置１０を説明する。以下、音声認識の対象となる座席を「音声認識対象座席」という。音声認識対象座席に着座している乗員は、音声対話制御装置１０を利用する「利用者」に該当する。また、音声認識対象座席に着座している利用者のうち、後述するウェイクアップコマンドを発話した利用者を、「発話者」という。発話者が発話した音声を「発話音声」という。

　なお、音声対話制御装置１０は、車両に搭載されている操作機器に対する音声による操作の制御に対して適用されるだけに留まらず、会議室又は家庭の部屋等、車両以外の場所に設置されている操作機器に対する音声による操作の制御に対して適用されてもよい。

　図１に示されるように、音声対話制御装置１０は、音声入力部１１、発話者位置判定部１２、音声信号処理部１３、音声認識部１４、意図理解部１５、対話管理部１６、及び相対位置関係解釈テーブル１７を備えている。また、音声対話制御装置１０には、集音装置２０、及び車両制御装置３０が接続されている。音声対話制御装置１０、集音装置２０、及び車両制御装置３０は、車両に搭載されている。

　なお、図１では、音声入力部１１、発話者位置判定部１２、音声信号処理部１３、音声認識部１４、意図理解部１５、対話管理部１６、及び相対位置関係解釈テーブル１７の機能が、車載器である音声対話制御装置１０に集約された構成であるが、ネットワーク上のサーバ、スマートフォン等の携帯端末、車載器、ロボット、及び家電機器等に分散されてもよい。例えば、車載器が音声入力部１１を備え、ネットワーク上のサーバが発話者位置判定部１２、音声信号処理部１３、音声認識部１４、意図理解部１５、対話管理部１６、及び相対位置関係解釈テーブル１７を備える。この構成において、車載器とサーバは、無線通信により情報をやり取りする。

　集音装置２０は、Ｎ個（Ｎ≧２）のマイクロホン２０－１～２０－Ｎにより構成されている。集音装置２０は、無指向性のマイクロホン２０－１～２０－Ｎが一定間隔に配置されたアレイマイクであってもよいし、指向性のマイクロホン２０－１～２０－Ｎが各音声認識対象座席の前に配置された構成であってもよい。また、集音装置２０は、音声認識対象座席に着座する全乗員が発話する音声を集音できる位置であれば、設置場所を問わない。

　実施の形態１においては、集音装置２０は、無指向性のマイクロホン２０－１～２０－Ｎが一定間隔に配置されたアレイマイクであるものとする。集音装置２０は、マイクロホン２０－１～２０－Ｎにより集音された音声に対応するアナログ信号（以下、「アナログ音声信号」という。）Ｓ１Ａ～ＳＮＡを出力する。すなわち、アナログ音声信号Ｓ１Ａ～ＳＮＡは、マイクロホン２０－１～２０－Ｎと一対一に対応する。

　音声入力部１１は、集音装置２０により出力されたアナログ音声信号Ｓ１Ａ～ＳＮＡをアナログデジタル変換（以下、「Ａ／Ｄ変換」という。）し、Ａ／Ｄ変換後のデジタル音声信号Ｓ１Ｄ～ＳＮＤを、発話者位置判定部１２に出力する。

　発話者位置判定部１２は、発話者が発話した、音声対話制御装置１０の音声認識機能を起動するためのコマンド（以下、「ウェイクアップコマンド」という。）に対応する発話音声を用いて、この発話者の位置を判定する。発話者位置判定部１２は、例えば、まず、マイクロホンごとに、最もパワーが大きい音声信号成分の到来方向を、デジタル音声信号Ｓ１Ｄ～ＳＮＤを用いて算出する。続いて、発話者位置判定部１２は、相互相関法等のマイクロホン間の音声到来の時間差を算出する方法を用いて、集音装置２０に対して発話者が存在する角度を推定する。発話者位置判定部１２は、推定した発話者の角度を、音声信号処理部１３に出力する。

　音声信号処理部１３は、発話者位置判定部１２により推定された発話者の角度方向に指向性を持たせてその角度方向の音声を強調するような音声信号処理を、デジタル音声信号Ｓ１Ｄ～ＳＮＤを用いて実施し、音声信号処理後の音声信号Ｓを音声認識部１４に出力する。

　音声認識部１４は、音声信号処理部１３により出力された音声信号Ｓに対して音声認識処理を実行する。音声認識処理の詳細は後述する。音声認識部１４は、ウェイクアップコマンドを認識した場合、ウェイクアップコマンドを認識したことを発話者位置判定部１２に通知する。この通知を受けた発話者位置判定部１２は、音声認識部１４がウェイクアップコマンドを認識した際の発話音声の到来方向の角度を発話者に対応する角度として確定する。さらに、発話者位置判定部１２は、音声認識対象座席と発話音声の到来方向の角度範囲とが定義されたテーブルを用いて、発話者の位置を判定する。車両の場合、発話者の位置は、発話者が着座している座席とされる。

　図２Ａは、実施の形態１に係る発話者位置判定部１２が有する発話者位置判定テーブルの一例を示す図である。図２Ｂは、図２Ａの発話者位置判定テーブルにより定義された前席の発話音声の到来方向の角度範囲を示す平面図である。図２Ｃは、図２Ａの発話者位置判定テーブルにより定義された後席の発話音声の到来方向の角度範囲を示す平面図である。図２Ｄは、図２Ａの発話者位置判定テーブルにより定義された発話音声の到来方向の角度範囲を示す側面図である。発話者位置判定部１２は、図２Ａに示されるような音声認識対象座席と発話音声の到来方向の角度範囲とが定義された発話者位置判定テーブルを有する。図２Ａ～図２Ｄの例では、音声認識対象座席は、運転席ａ、助手席ｂ、後席右ｃ、及び後席左ｄである。集音装置２０が車両１の前方に設置されている場合、発話者位置判定部１２は、発話音声の到来方向の左右角度が１００度～１３５度の範囲内、かつ、前後角度が９０度～１１０度の範囲内であれば、発話者の位置が運転席ａであると判定する。なお、集音装置２０が車両１の前方に設置されている場合、図２Ｂ及び図２Ｃに示されるように左右角度のみでは運転席ａと後席右ｃの判別、及び助手席ｂと後席左ｄの判別が困難である。そのため、発話者位置判定部１２は、図２Ｄに示されるような前後角度も用いて、発話者の位置を判定する。

　発話者位置判定部１２により発話者の位置が判定された後、音声信号処理部１３は、ウェイクアップコマンド認識時と同様に、デジタル音声信号Ｓ１Ｄ～ＳＮＤを用いた音声信号処理を行うことにより、発話者の位置方向とは異なる方向から到来した音声に対応する成分（以下、「ノイズ成分」という。）を除去し、当該発話者の位置方向から到来した発話音声を強調した音声信号Ｓを音声認識部１４に出力する。

　上記ノイズ成分は、例えば、車両１の走行により発生した騒音に相当する成分、及び乗員のうちの発話者と異なる乗員により発話された音声に相当する成分等を含むものである。音声信号処理部１３におけるノイズ成分の除去方法としては、ビームフォーミング法及びスペクトルサブトラクション法等の公知の種々の方法を用いることができる。このため、音声信号処理部１３におけるノイズ成分の除去方法についての詳細な説明は省略する。

　なお、上記説明では、まず、発話者位置判定部１２が発話者の位置を判定してから、発話者の位置方向に対応する発話音声成分のみを残すように音声信号処理部１３が音声信号処理を実行するようにしたが、これに限定されない。例えば、音声対話制御装置１０が、音声信号処理部１３をＭ個、及び音声認識部１４をＭ個備え、Ｍ個の音声認識部１４の後段に発話者位置判定部１２が接続される。Ｍは、Ｎ以下の整数であり、例えば音声認識対象座席の数に対応し、Ｍ個の音声信号処理部１３及びＭ個の音声認識部１４がそれぞれ運転席用音声信号処理及び運転席用音声認識処理等のように各座席に対応する処理を行うようにする。Ｍ個の音声信号処理部１３は、各音声認識対象座席に着座している乗員が発話した音声のみを抽出したＭ個の音声信号Ｓ１～ＳＭを同時に出力する。Ｍ個の音声認識部１４は、Ｍ個の音声信号処理部１３が同時出力したＭ個の音声信号Ｓ１～ＳＭをそれぞれ音声認識処理し、音声認識結果と当該音声認識結果に対応する座席位置を出力する。発話者位置判定部１２は、音声認識部１４が出力する座席位置を利用し、発話者の位置を判定する。この構成の場合、例えば運転席の乗員と助手席の乗員が同時に発話したとしても、座席ごとに、音声認識結果と当該音声認識結果に対応する座席位置を出力可能である。

　また、集音装置２０は、各音声認識対象座席の前に配置されているＬ個（Ｌ≧１）のマイクロホン２０－１～２０－Ｌにより構成されてもよい。各音声認識対象座席の前に配置されるマイクロホン２０－１～２０－Ｌのそれぞれは、１つの指向性マイクでもよいし、２つ以上の無指向性マイクにより構成されて発話者方向を強調するように音声強調するものでもよい。この構成の場合、発話者の位置は、音声が入力されたマイクロホン２０－１～２０－Ｌの位置に基づいて判定される。

　ここで、音声認識処理について説明する。音声認識部１４は、まず、音声信号Ｓのうちの発話音声に対応する音声区間（以下、「発話区間」という。）を検出する。続いて、音声認識部１４は、当該発話区間に対し、音声認識用の特徴量を抽出し、当該特徴量を用いて音声認識を実行する。音声認識部１４は、発話区間に対する音声認識結果を意図理解部１５に出力する。

　音声認識部１４における音声認識処理には、ＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）法等の公知の種々の方法を用いることができる。このため、音声認識部１４における音声認識処理についての詳細な説明は省略する。

　意図理解部１５は、音声認識部１４からの音声認識結果に対し、意図理解処理を実行し、操作機器及び操作内容を表す意図を判別する。意図理解部１５は、例えば、「窓を開けて」という音声認識結果に対して、「ｏｐｅｎ＿ＰｏｗｅｒＷｉｎｄｏｗ」という操作機器と操作内容とをセットとした意図理解結果を、対話管理部１６に出力する。この例では、「ＰｏｗｅｒＷｉｎｄｏｗ」が操作機器であり、「ｏｐｅｎ」が操作内容である。

　図１の例では、操作機器は、例えばパワーウインドウ３１である。パワーウインドウ３１は、車両１の座席ごとに設けられており、座席ごとに独立して動作することができる。また、操作機器は、エアコン３２、ヒートシータ３３、又はディスプレイ３４等であってもよい。エアコン３２、ヒートシータ３３、及びディスプレイ３４も、車両１の座席ごとに設けられており、座席ごとに独立して動作することができる。さらに、図１の例では、座席ごとに設けられたパワーウインドウ３１、エアコン３２、ヒートシータ３３、及びディスプレイ３４の動作は、車両制御装置３０により制御される。

　図２Ｂ～図２Ｄに示されるように、例えば、操作機器の１種であるパワーウインドウ３１は、運転席ａの脇に設けられたパワーウインドウ３１ａと、助手席ｂの脇に設けられたパワーウインドウ３１ｂと、後席右ｃの脇に設けられたパワーウインドウ３１ｃと、後席左ｄの脇に設けられたパワーウインドウ３１ｄとにより構成される。パワーウインドウ３１ａ～３１ｄは、それぞれの場所で独立した動作が可能である。
　同様に、操作機器の１種であるヒートシータ３３も、運転席ａに設けられたヒートシータ３３ａと、助手席ｂに設けられたヒートシータ３３ｂと、後席右ｃに設けられたヒートシータ３３ｃと、後席左ｄに設けられたヒートシータ３３ｄとにより構成される。ヒートシータ３３ａ～３３ｄは、それぞれの場所で独立した動作が可能である。

　意図理解部１５における意図理解のために、例えば、意図と対応づく発話文例を単語単位に分割し、意図と単語との関連度を学習した学習モデルが事前に作成される。意図理解部１５は、事前に作成された当該学習モデルを用い、音声認識結果に出現した単語列との関連度が最も高い意図を選択することで、発話者の発話の意図を推定する。

　また、意図理解部１５は、音声認識結果に含まれる相対位置関係を示す単語を抽出する。意図理解部１５は、例えば、「反対の窓を開けて」という音声認識結果に対して、「ｏｐｅｎ＿ＰｏｗｅｒＷｉｎｄｏｗ，反対」という意図と相対位置関係を示す単語とを抽出する。意図理解部１５は、操作機器及び操作内容をセットとした意図と、相対位置関係を示す単語と、発話者位置判定部１２により判定された発話者の位置とを、対話管理部１６に出力する。

　意図理解部１５における相対位置関係を示す単語抽出のために、例えば、相対位置関係を示す単語が事前に定義される。図３は、実施の形態１において相対位置関係を示す単語が定義されたテーブルの一例を示す図である。意図理解部１５は、図３に示されるようなテーブルを参照し、音声認識結果に相対位置関係を示す単語が含まれている場合に当該単語を抽出する。

　対話管理部１６は、発話者位置判定部１２により判定された発話者の位置と、意図理解部１５により抽出された相対位置関係を示す単語とに基づいて、意図理解部１５により判別された操作機器に対する操作内容の実行場所を特定する。

　対話管理部１６による操作機器の実行場所特定のために、例えば、発話者の位置と、操作機器の相対位置関係を示す単語と、操作機器の実行場所との対応関係が事前に定義される。図４は、実施の形態１において発話者の位置と、相対位置関係を示す単語と、操作機器の実行場所との対応関係が定義された相対位置関係解釈テーブル１７の一例を示す図である。運転席ａの発話者が「反対側のヒートシータをつけて」と発話した場合、意図理解部１５は、「発話者の位置：運転席」、「相対位置関係を示す単語：反対」、及び「意図：ｔｕｒｎｏｎ＿ＨｅａｔＳｅａｔｅｒ」を対話管理部１６に出力する。対話管理部１６は、相対位置関係解釈テーブル１７を参照し、「発話者の位置：運転席」と「相対位置関係を示す単語：反対」とに対応する「助手席ｂ」を、操作機器の実行場所として特定する。そして、対話管理部１６は、実行場所である助手席ｂに搭載されたヒートシータ３３ｂをオンするための制御信号を、車両制御装置３０に出力する。

　なお、対話管理部１６は、発話者の位置と相対位置関係を示す単語とに基づいて特定した実行場所に対応する操作機器が存在しない場合、複数の操作機器のうちの実行場所に最も近い操作機器を選択するようにしてもよい。例えば、運転席ａの発話者が「斜め前」と発話した場合、運転席ａの「斜め前」には座席が存在せず、したがって「斜め前」の操作機器も存在しない。この場合、対話管理部１６は、車両１において運転席ａの「斜め前」に最も近い助手席ｂに設けられた操作機器を選択する。図４に示される相対位置関係解釈テーブル１７では、操作機器が存在しない実行場所については、当該実行場所に最も近い操作機器の実行場所が定義されている。

　また、対話管理部１６は、音声認識結果に相対位置関係を示す単語が含まれていない場合、又は、「ここ」等の発話者自身の位置を示す相対位置関係を示す単語が含まれている場合、発話者の位置を動作機器の実行場所として特定するようにしてもよい。

　また、対話管理部１６は、意図理解部１５により特定された実行場所の操作機器に対する操作内容が、発話者位置判定部１２により判定された発話者に許可されている場合、当該実行場所の操作機器に操作内容に対応する動作を実行させるための制御信号を出力するようにしてもよい。例えば、車両１の各座席にディスプレイ３４が設けられている場合において、ディスプレイ３４の表示切り替え等の操作内容は、発話者自身の座席に設けられているディスプレイ３４でのみ許可され、他の座席の発話者に対しては許可しないことが考えられる。当該許可に関する情報は、例えば、対話管理部１６に対して予め与えられていてもよいし、乗員により設定されてもよい。

　車両制御装置３０は、対話管理部１６からの制御信号に含まれる操作機器と操作内容とに従い、当該操作内容に対応する動作を当該操作機器に実行させる。操作機器は、上述したように、座席ごとに設けられたパワーウインドウ３１ａ～３１ｄ等である。

　次に、図５Ａ及び図５Ｂを参照し、音声対話制御装置１０のハードウェア構成について説明する。

　図５Ａは、実施の形態１に係る音声対話制御装置１０のハードウェア構成の一例を示す図である。音声対話制御装置１０における音声入力部１１、発話者位置判定部１２、音声信号処理部１３、音声認識部１４、意図理解部１５、及び対話管理部１６の機能は、メモリ１０２に格納されるプログラムを実行するプロセッサ１０１により実現される。この場合、音声入力部１１、発話者位置判定部１２、音声信号処理部１３、音声認識部１４、意図理解部１５、及び対話管理部１６の機能は、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェア又はファームウェアはプログラムとして記述され、メモリ１０２に格納される。プロセッサ１０１は、メモリ１０２に格納されたプログラムを読みだして実行することにより、各部の機能を実現する。即ち、音声対話制御装置１０は、プロセッサ１０１により実行されるときに、後述する図６Ａ及び図６Ｂのフローチャートで示されるステップが結果的に実行されることになるプログラムを格納するためのメモリ１０２を備える。また、このプログラムは、音声入力部１１、発話者位置判定部１２、音声信号処理部１３、音声認識部１４、意図理解部１５、及び対話管理部１６の手順又は方法をコンピュータに実行させるものであるとも言える。

　ここで、プロセッサ１０１とは、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、マイクロプロセッサ、マイクロコントローラ、又はＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）等である。

　メモリ１０２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）、又はフラッシュメモリ等の不揮発性もしくは揮発性の半導体メモリであってもよいし、ハードディスク又はフレキシブルディスク等の磁気ディスクであってもよいし、ＣＤ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ）又はＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）等の光ディスクである。
　相対位置関係解釈テーブル１７は、当該メモリ１０２により実現される。

　図５Ｂは、実施の形態１に係る音声対話制御装置１０のハードウェア構成の別の例を示す図である。音声対話制御装置１０における音声入力部１１、発話者位置判定部１２、音声信号処理部１３、音声認識部１４、意図理解部１５、対話管理部１６、及び相対位置関係解釈テーブル１７の機能は、専用の処理回路１００により実現されてもよい。処理回路１００は、例えば、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、ＳｏＣ（Ｓｙｓｔｅｍ－ｏｎ－ａ－Ｃｈｉｐ）、又はシステムＬＳＩ（Ｌａｒｇｅ－Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）等である。

　音声入力部１１、発話者位置判定部１２、音声信号処理部１３、音声認識部１４、意図理解部１５、対話管理部１６、及び相対位置関係解釈テーブル１７の機能は、複数の処理回路１００で実現されてもよいし、各部の機能がまとめて１つの処理回路１００で実現されてもよい。

　なお、音声入力部１１、発話者位置判定部１２、音声信号処理部１３、音声認識部１４、意図理解部１５、対話管理部１６、及び相対位置関係解釈テーブル１７の機能のうち、一部の機能がプロセッサ１０１及びメモリ１０２により実現され、残余の機能が処理回路１００により実現されてもよい。

　次に、図６Ａ及び図６Ｂを参照して、音声対話制御装置１０の動作について説明する。
　図６Ａは、実施の形態１に係る音声対話制御装置１０による発話者位置判定動作例を示すフローチャートである。図６Ｂは、実施の形態１に係る音声対話制御装置１０による車両制御装置３０の音声操作例を示すフローチャートである。

　まず、図６Ａに示される、発話者位置判定動作例について説明する。
　ステップＳＴ００１において、音声入力部１１は、集音装置２０により出力されたアナログ音声信号Ｓ１Ａ～ＳＮＡを取得してＡ／Ｄ変換し、デジタル音声信号Ｓ１Ｄ～ＳＮＤを出力する。

　ステップＳＴ００２において、発話者位置判定部１２は、デジタル音声信号Ｓ１Ｄ～ＳＮＤを用いて、最もパワーが大きい音声信号成分の到来方向を算出する。また、音声信号処理部１３は、デジタル音声信号Ｓ１Ｄ～ＳＮＤを用いて、発話者位置判定部１２により算出された音声の到来方向、つまり発話者の角度方向を強調するようにノイズ成分を除去する音声信号処理を実行し、音声信号処理後の音声信号Ｓを音声認識部１４に出力する。

　ステップＳＴ００３において、音声認識部１４は、音声信号Ｓのうちの発話区間を検出する。ステップＳＴ００４において、音声認識部１４は、検出した発話区間に対応する音声に対応する特徴量を抽出し、当該特徴量を用いて発話区間の発話音声を認識する。ステップＳＴ００５において、音声認識部１４は、当該発話区間に対する音声認識結果がウェイクアップコマンドである場合（ステップＳＴ００５“ＹＥＳ”）、ステップＳＴ００６の処理を行う。当該発話区間に対する音声認識結果がウェイクアップコマンドでない場合（ステップＳＴ００５“ＮＯ”）、音声対話制御装置１０は、ステップＳＴ００６以降の処理を行わず、再びステップＳＴ００１の処理を開始する。

　ステップＳＴ００６において、発話者位置判定部１２は、ステップＳＴ００２で算出した音声の到来方向に基づいて、ウェイクアップコマンドを発話した発話者の位置を判定する。

　続いて、図６Ｂのフローチャートに示される、車両制御装置３０の音声操作例について説明する。ここでは、運転席ａに着座している乗員がウェイクアップコマンドを発話後、続けて「反対側のヒートシータをつけて」と発話したとする。この運転席ａは、発話者位置判定部１２により発話者の位置と判定済みである。

　ステップＳＴ００７において、音声入力部１１は、集音装置２０により出力されたアナログ音声信号Ｓ１Ａ～ＳＮＡを取得してＡ／Ｄ変換し、デジタル音声信号Ｓ１Ｄ～ＳＮＤを出力する。発話者位置判定部１２は、デジタル音声信号Ｓ１Ｄ～ＳＮＤを用いて、ウェイクアップコマンドを発話した発話者の位置方向を強調するようにノイズ成分を除去する音声信号処理を実行し、音声信号処理後の音声信号Ｓを音声認識部１４に出力する。

　ステップＳＴ００８において、音声認識部１４は、音声信号Ｓのうちの発話区間を検出する。ステップＳＴ００９において、音声認識部１４は、検出した発話区間に対応する音声に対応する特徴量を抽出し、当該特徴量を用いて発話区間の発話音声を認識する。音声認識部１４は、当該発話音声の音声認識結果と、発話者位置判定部１２により判定された発話者の位置とを、意図理解部１５に出力する。

　ステップＳＴ０１０において、意図理解部１５は、音声認識結果に対して意図理解処理を実行し、操作機器と操作内容を表す意図を判別する。この例では、意図理解部１５は、「ｔｕｒｎｏｎ＿ＨｅａｔＳｅａｔｅｒ」という操作機器と操作内容とをセットとした意図を出力する。ステップＳＴ０１１において、意図理解部１５は、音声認識結果に含まれる相対位置関係を示す単語を抽出する。この例では、意図理解部１５は、「反対」という相対位置関係を示す単語を抽出する。意図理解部１５は、意図と、相対位置関係を示す単語と、発話者の位置とを、対話管理部１６に出力する。

　ステップＳＴ０１２において、対話管理部１６は、相対位置関係解釈テーブル１７を参照し、発話者の位置と相対位置関係を示す単語とに対応する操作機器の実行場所を特定する。この例では、図４に示される相対位置関係解釈テーブル１７に基づき、「発話者の位置：運転席ａ」と「相対位置関係を示す単語：反対」とに対応する操作機器の実行場所が、助手席ｂに対応する実行場所となる。

　ステップＳＴ０１３において、対話管理部１６は、実行場所である助手席ｂに搭載されたヒートシータ３３ｂをオンするための制御信号を、車両制御装置３０に出力する。

　なお、音声対話制御装置１０は、ステップＳＴ０１３の処理を終えると、再びステップＳＴ００１の処理を開始する。

　以上のように、実施の形態１に係る音声対話制御装置１０は、発話者位置判定部１２と、音声認識部１４と、意図理解部１５と、対話管理部１６とを備える。発話者位置判定部１２は、音声を発話した発話者の位置を判定する。音声認識部１４は、発話者が発話した音声の内容を認識する。意図理解部１５は、音声認識部１４により認識された音声の内容に基づいて発話者の発話の意図を理解することにより発話者が操作しようとする操作機器と操作内容を判別すると共に、音声の中から発話者の位置と操作機器との相対位置関係を示す単語を抽出する。対話管理部１６は、発話者位置判定部１２により判定された発話者の位置と意図理解部１５により抽出された相対位置関係を示す単語とに基づいて、意図理解部１５により判別された操作機器の実行場所を特定し、特定した実行場所の操作機器に操作内容に対応する動作を実行させるための制御信号を出力する。これにより、音声対話制御装置１０は、発話者の発話音声に相対位置表現が含まれる場合でも発話者の意図通りに操作機器の動作を実行させることができる。

　また、実施の形態１の対話管理部１６は、発話者の位置と相対位置関係を示す単語とに基づいて特定した実行場所に対応する操作機器が存在しない場合、複数の操作機器のうちの実行場所に最も近い操作機器を選択する。これにより、音声対話制御装置１０は、発話者が発話した相対位置関係を示す単語が適切でない場合であっても発話者の意図を汲んで操作機器の動作を実行させることができる。

　また、実施の形態１の対話管理部１６は、実行場所の操作機器に対する操作内容が、発話者位置判定部１２により判定された位置の発話者に許可されている場合、実行場所の操作機器に操作内容に対する動作を実行させるための制御信号を出力する。これにより、音声対話制御装置１０は、例えば、運転席ａに設けられている操作機器が、運転者以外の乗員の発話によって運転者の意図しない動作を行うことを防止できる。

　なお、対話管理部１６が操作機器の実行場所を特定する場合に、当該実行場所を一意に特定できないことがある。例えば、運転席ａの発話者が「後ろの窓を開けて」と発話した場合、当該発話者の意図が、後席右ｃ側のみのパワーウインドウ３１ｃを開けるのか、後席左ｄ側のみのパワーウインドウ３１ｄを開けるのか、又は、後席右ｃと後席左ｄの両方のパワーウインドウ３１ｃ，３１ｄを開けるのか曖昧であり、対話管理部１６が発話者の要求を正確に判断できない。

　上記の場合、例えば、対話管理部１６は、運転席ａの発話者の「後ろの窓を開けて」という発話の後、当該発話に対する操作機器の実行場所を特定する際に、「後席のどの窓を開けますか？」という問いかけを当該発話者に対して行ってもよい。対話管理部１６は、発話者がこの問いかけに対して発話した「後席右側」等の意思決定結果を、操作履歴として保持する。対話管理部１６は、当該発話者が一定数同じ意思決定を繰り返した場合、それ以降は問いかけを行わず、当該操作履歴を用いて操作機器の実行場所を特定する。
　例えば、運転席ａの発話者が「後席右側」という発話を３回繰り返した場合、対話管理部１６は、これ以降の運転席ａの発話者による「後ろの窓を開けて」という発話に対して問いかけを行わず、「後席右側の窓を開ける」という意図に対応する制御信号を車両制御装置３０に出力する。なお、対話管理部１６は、問いかけを、音声と表示のどちらで行なってもよい。

　このように、対話管理部１６は、発話者の過去の操作履歴と、発話者位置判定部１２により判定された発話者の位置と、意図理解部１５により抽出された相対位置関係を示す単語とに基づいて、意図理解部１５により判別された操作機器の実行場所を特定してもよい。これにより、音声対話制御装置１０は、操作機器の実行場所を一意に特定できない場合のようなより曖昧な発話に対しても、発話者が要求する実行場所の操作機器を動作させることができる。

実施の形態２．
　図７は、実施の形態２に係る音声対話制御装置１０の構成例を示すブロック図である。実施の形態２に係る音声対話制御装置１０は、図１に示された実施の形態１の音声対話制御装置１０に対して画像解析部１８と乗員検知部１９とが追加された構成である。また、実施の形態２の音声対話制御装置１０に対して、カメラ４０が接続されている。図７において図１と同一又は相当する部分は、同一の符号を付し説明を省略する。

　なお、図７では、音声入力部１１、発話者位置判定部１２、音声信号処理部１３、音声認識部１４、意図理解部１５、対話管理部１６、相対位置関係解釈テーブル１７、画像解析部１８、及び乗員検知部１９の機能が、車載器である音声対話制御装置１０に集約された構成であるが、ネットワーク上のサーバ、スマートフォン等の携帯端末、車載器、ロボット、及び家電機器等に分散されてもよい。例えば、車載器が音声入力部１１を備え、ネットワーク上のサーバが発話者位置判定部１２、音声信号処理部１３、音声認識部１４、意図理解部１５、対話管理部１６、相対位置関係解釈テーブル１７、画像解析部１８、及び乗員検知部１９を備える。この構成において、車載器とサーバは、無線通信により情報をやり取りする。

　カメラ４０は、車室内を撮像するための撮像装置である。カメラ４０は、例えば、赤外線カメラ又は可視光カメラの少なくとも一方により構成されており、少なくとも、音声認識対象座席に着座している乗員の顔を含む範囲を撮像可能な画角を有している。なお、全ての音声認識対象座席に着席している乗員の顔を精度良く撮像するために、車室内に複数のカメラ４０が設置されていてもよい。

　画像解析部１８は、一定周期（例えば、３０ＦＰＳ（Ｆｒａｍｅｓ　Ｐｅｒ　Ｓｅｃｏｎｄ）の周期）にて、カメラ４０が撮像した画像データを取得する。画像解析部１８は、取得した画像データを解析することによって、各乗員の顔及び胴体等における各パーツを検出する。そして、画像解析部１８は、検出した各パーツの位置を示す座標情報等を算出し、算出した座標情報等を特徴量として乗員検知部１９に出力する。

　乗員検知部１９は、画像解析部１８により算出された各乗員の特徴量を用いて、乗員が着座している音声認識対象座席を検知し、乗員検知結果を対話管理部１６に出力する。なお、乗員検知部１９による乗員検知には、カメラ４０が用いられているが、圧力センサ、超音波センサ、又はサーモカメラ等の乗員を検知できるセンサが用いられてもよい。また、乗員検知部１９は、これらのセンサの検知結果を組み合わせて、乗員を検知してもよい。

　なお、乗員検知部１９は、各乗員の頭部の位置及び口の開き度合い等を算出し、算出したこれらの情報を音声信号処理部１３又は発話者位置判定部１２に出力するようにしてもよい。
　音声信号処理部１３は、各乗員の頭部の位置に合わせて音声到来方向を調整し、発話者の位置方向以外からの音声をノイズ成分として除去する。
　発話者位置判定部１２は、音声認識部１４によりウェイクアップコマンドが認識された際に、乗員検知部１９からの各乗員の口の開き度合いを用いて、どの乗員が発話しているか否かを判定する。そして、発話者位置判定部１２は、発話していると判定した乗員の頭部の位置を用いて、発話者の位置を判定する。

　対話管理部１６は、実施の形態１と同様に、発話者位置判定部１２により判定された発話者の位置と、意図理解部１５により抽出された相対位置関係を示す単語とに基づいて、意図理解部１５により判別された操作機器に対する操作内容の実行場所を特定する。この際、実施の形態２では、対話管理部１６は、操作機器の実行場所特定において、乗員検知部１９により検知された乗員の着座状態を考慮する。

　図８Ａは、実施の形態２に係る音声対話制御装置１０が搭載された車両１の構成例を示す平面図である。図８Ｂは、実施の形態２において発話者の位置と操作機器との相対位置関係を示す単語と、操作機器の実行場所との対応関係が定義された相対位置関係解釈テーブル１７の一例を示す図である。なお、図８Ｂの相対位置関係解釈テーブル１７では、実施の形態１と同様に、操作機器が存在しない実行場所については、当該実行場所に最も近い操作機器の実行場所が定義されている。

　図８Ａに示されるように、車両１の後部には、後席左ｄのみに乗員が着座している状態である。この状態において運転席ａの発話者が「後ろのヒートシータをつけて」と発話した場合、実施の形態１の対話管理部１６は、操作機器の実行場所として、図８Ｂの相対位置関係解釈テーブル１７が示す通り、後席右ｃと後席左ｄを特定する。これに対し、実施の形態２の対話管理部１６は、後席左ｄに乗員（つまり、利用者）が着座していないため、後席左ｄを操作機器の実行場所の対象から除外し、後席右ｃを操作機器の実行場所として特定する。したがって、実施の形態２の対話管理部１６は、後席左ｄに搭載されたヒートシータ３３ｄをオンするための制御信号を、車両制御装置３０に出力する。

　なお、乗員検知部１９が、居眠り、寒い及び暑い等の体感温度、並びに体調不良等の乗員の状態を検知し、検知した乗員の状態を示す情報を対話管理部１６に出力するようにしてもよい。乗員検知部１９は、例えば、カメラ４０が撮像した画像データから検知された目の開き度合いに基づいて、乗員の居眠りを検知する。また、乗員検知部１９は、例えば、サーモカメラが検知した乗員表面温度に基づいて、寒い及び暑い等の体感温度を検知する。また、乗員検知部１９は、例えば、当該乗員表面温度に基づいて、乗員の発熱等の体調不良を検知する。この構成において、対話管理部１６は、乗員検知部１９により検知された乗員の状態に応じて、操作機器の実行場所を特定するようにしてもよい。

　例えば、図８Ａの例において、後席左ｄの乗員のみが居眠り状態にあるとする。この状態において運転席ａの発話者が「反対側の窓を開けて」と発話した場合、対話管理部１６は、後席左ｄの乗員の睡眠を妨げないように、後席左ｄを操作機器の実行場所の対象から除外する。そのため、対話管理部１６は、図８Ｂの相対位置関係解釈テーブル１７において運転席ａの「反対」に対応する助手席ｂと後席左ｄのうち、助手席ｂ側に設けられたパワーウインドウ３１ｂのみを開けるための制御信号を、車両制御装置３０に出力する。

　例えば、図８Ａの例において、助手席ｂの乗員が暑がっており、後席左ｄの乗員が寒がっている状態とする。この状態において運転席ａの発話者が「反対側のシートヒータをつけて」と発話した場合、対話管理部１６は、助手席ｂの暑がっている乗員を不快にさせないように、助手席ｂを操作機器の実行場所の対象から除外する。そのため、対話管理部１６は、図８Ｂの相対位置関係解釈テーブル１７において運転席ａの「反対」に対応する助手席ｂと後席左ｄのうち、後席左ｄに設けられたヒートシータ３３ｄのみをオンにするための制御信号を、車両制御装置３０に出力する。

　次に、実施の形態２に係る音声対話制御装置１０のハードウェア構成について説明する。実施の形態２に係る音声対話制御装置１０のハードウェア構成は、実施の形態１の図５Ａ及び図５Ｂに示された構成と図面上は同一であるため、図５Ａ及び図５Ｂを援用する。
　実施の形態２の音声対話制御装置１０における画像解析部１８及び乗員検知部１９の機能は、メモリ１０２に格納されるプログラムを実行するプロセッサ１０１により実現される。または、実施の形態２の音声対話制御装置１０における画像解析部１８及び乗員検知部１９の機能は、専用の処理回路１００により実現されてもよい。

　次に、図９、図１０Ａ、及び図１０Ｂを参照して、音声対話制御装置１０の動作について説明する。
　図９は、実施の形態２に係る音声対話制御装置１０による乗員検知動作例を示すフローチャートである。図１０Ａは、実施の形態２に係る音声対話制御装置１０による発話者位置判定動作例を示すフローチャートである。図１０Ｂは、実施の形態２に係る音声対話制御装置１０による車両制御装置３０の音声操作例を示すフローチャートである。

　まず、図９に示される、乗員検知動作例について説明する。
　ステップＳＴ１０１において、画像解析部１８は、一定周期にて、カメラ４０が撮像した画像データを取得する。ステップＳＴ１０２において、画像解析部１８は、取得した画像データから各乗員の顔及び胴体等における各パーツの特徴量を算出し、乗員検知部１９に出力する。

　ステップＳＴ１０３において、乗員検知部１９は、画像解析部１８により算出された各乗員の特徴量を用いて、どの音声認識対象座席に乗員が着座しているかを検知し、乗員検知結果を対話管理部１６に出力する。

　続いて、図１０Ａに示される、実施の形態２における発話者位置判定動作例について説明する。図１０Ａのフローチャートに示されるステップＳＴ２０１～ＳＴ２０６の処理は、図６Ａのフローチャートに示されるステップＳＴ００１～ＳＴ００６の処理と同じであるため、説明を省略する。

　続いて、図１０Ｂに示される、実施の形態２における車両制御装置３０の音声操作例について説明する。図１０Ｂのフローチャートに示されるステップＳＴ２０７～ＳＴ２１１の処理は、図６Ｂのフローチャートに示されるステップＳＴ００７～ＳＴ０１１の処理と同じであるため、説明を省略する。
　なお、音声対話制御装置１０は、図９のフローチャートに示される動作と、図１０Ａ及び図１０Ｂに示される動作とを、並行して行う。ここでは、対話管理部１６は、ステップＳＴ２１２の処理を行う前に、乗員検知部１９から乗員検知結果を取得済みであるものとする。

　ステップＳＴ２１２において、対話管理部１６は、相対位置関係解釈テーブル１７を参照し、発話者の位置と相対位置関係を示す単語とに対応する操作機器の実行場所を特定する。その際、対話管理部１６は、乗員検知部１９から取得した乗員検知結果を用い、操作機器の実行場所に対応する座席に乗員が着座していない場合、当該座席を操作機器の実行場所の対象から除外した上で、操作機器の実行場所を特定する。

　ステップＳＴ２１３において、対話管理部１６は、特定した実行場所の操作機器に操作内容に対応する動作を実行させるための制御信号を、車両制御装置３０に出力する。

　以上のように、実施の形態２の対話管理部１６は、発話者の位置と相対位置関係を示す単語とに基づいて特定した実行場所に利用者がいない場合、特定した当該実行場所を、操作機器の実行場所の対象から除外する。これにより、音声対話制御装置１０は、利用者がおらず操作機器の動作が必要ない実行場所に対応する操作機器を、動作させないようにすることができる。

　また、実施の形態２の対話管理部１６は、発話者の位置と相対位置関係を示す単語とに基づいて特定した実行場所にいる利用者の状態（例えば、居眠り状態）に応じて、特定した当該実行場所を、操作機器の実行場所の対象から除外する。これにより、音声対話制御装置１０は、発話者の操作内容に対応する動作を操作機器が実行した場合に、当該操作機器の実行場所にいる利用者に不快な思い（例えば、睡眠妨害）をさせることを防止することができる。

　また、実施の形態２の発話者位置判定部１２は、カメラ４０によって撮像された画像から検知される発話者の口の動きに基づいて、音声を発話した発話者の位置を判定する。カメラ４０によって撮像された画像は、音声ノイズの影響を受けない。そのため、音声対話制御装置１０は、騒音の影響を受けずに発話者の位置を判定することができる。

　なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、又は各実施の形態の任意の構成要素の省略が可能である。

　この発明に係る音声対話制御装置は、発話者の発話音声に相対位置表現が含まれる場合でも発話者の意図通りに操作機器の動作を実行させるようにしたので、車両、会議室、及び家庭の部屋等に設置されている操作機器に対する音声による操作を制御する音声対話制御装置等に用いるのに適している。

　１　車両、１０　音声対話制御装置、１１　音声入力部、１２　発話者位置判定部、１３　音声信号処理部、１４　音声認識部、１５　意図理解部、１６　対話管理部、１７　相対位置関係解釈テーブル、１８　画像解析部、１９　乗員検知部、２０　集音装置、２０－１～２０－Ｎ　マイクロホン、３０　車両制御装置、３１，３１ａ～３１ｄ　パワーウインドウ（操作機器）、３２　エアコン（操作機器）、３３，３３ａ～３３ｄ　ヒートシータ（操作機器）、３４　ディスプレイ（操作機器）、４０　カメラ（撮像装置）、１００　処理回路、１０１　プロセッサ、１０２　メモリ、ａ　運転席、ｂ　助手席、ｃ　後席右、ｄ　後席左。

Claims

　複数の実行場所それぞれで独立して動作可能な複数の操作機器に対する、音声による操作を制御する音声対話制御装置であって、
　音声を発話した発話者の位置を判定する発話者位置判定部と、
　前記発話者が発話した前記音声の内容を認識する音声認識部と、
　前記音声認識部により認識された前記音声の内容に基づいて前記発話者の発話の意図を理解することにより前記発話者が操作しようとする操作機器と操作内容を判別すると共に、前記音声の中から前記発話者の位置と前記操作機器との相対位置関係を示す単語を抽出する意図理解部と、
　前記発話者位置判定部により判定された前記発話者の位置と前記意図理解部により抽出された前記相対位置関係を示す単語とに基づいて、前記意図理解部により判別された前記操作機器の実行場所を特定し、特定した前記実行場所の前記操作機器に前記操作内容に対応する動作を実行させるための制御信号を出力する対話管理部とを備えることを特徴とする音声対話制御装置。
　前記発話者の位置と前記操作機器との相対位置関係を示す単語と、前記操作機器の実行場所との対応関係が定義されたテーブルを備え、
　前記対話管理部は、前記テーブルを参照して前記意図理解部により判別された前記操作機器の実行場所を特定することを特徴とする請求項１記載の音声対話制御装置。
　前記対話管理部は、前記発話者の位置と前記相対位置関係を示す単語とに基づいて特定した実行場所に対応する操作機器が存在しない場合、前記複数の操作機器のうちの前記実行場所に最も近い操作機器を選択することを特徴とする請求項１記載の音声対話制御装置。
　前記発話者位置判定部は、発話者が発話する音声を集音するマイクロホンの位置、発話者が発話する音声を集音するアレイマイクから得られる当該音声の到来方向、又は撮像装置によって撮像された画像から検知される発話者の口の動きに基づいて、音声を発話した発話者の位置を判定することを特徴とする請求項１記載の音声対話制御装置。
　前記対話管理部は、前記実行場所の前記操作機器に対する前記操作内容が、前記発話者位置判定部により判定された位置の前記発話者に許可されている場合、前記実行場所の前記操作機器に前記操作内容に対応する動作を実行させるための制御信号を出力することを特徴とする請求項１記載の音声対話制御装置。
　前記対話管理部は、前記発話者の過去の操作履歴と、前記発話者位置判定部により判定された前記発話者の位置と、前記意図理解部により抽出された前記相対位置関係を示す単語とに基づいて、前記意図理解部により判別された前記操作機器の実行場所を特定することを特徴とする請求項１記載の音声対話制御装置。
　前記対話管理部は、前記発話者の位置と前記相対位置関係を示す単語とに基づいて特定した実行場所に利用者がいない場合、特定した前記実行場所を、操作機器の実行場所の対象から除外することを特徴とする請求項１記載の音声対話制御装置。
　前記対話管理部は、前記発話者の位置と前記相対位置関係を示す単語とに基づいて特定した実行場所にいる利用者の状態に応じて、特定した前記実行場所を、操作機器の実行場所の対象から除外することを特徴とする請求項１記載の音声対話制御装置。
　前記対話管理部は、前記発話者の位置と前記相対位置関係を示す単語とに基づいて特定した実行場所にいる利用者が居眠り状態にある場合、前記居眠り状態にある前記利用者がいる実行場所を、操作機器の実行場所の対象から除外することを特徴とする請求項１記載の音声対話制御装置。
　複数の実行場所それぞれで独立して動作可能な複数の操作機器に対する、音声による操作を制御する音声対話制御方法であって、
　発話者位置判定部が、音声を発話した発話者の位置を判定し、
　音声認識部が、前記発話者が発話した前記音声の内容を認識し、
　意図理解部が、前記音声認識部により認識された前記音声の内容に基づいて前記発話者の発話の意図を理解することにより前記発話者が操作しようとする操作機器と操作内容を判別すると共に、前記音声の中から前記発話者の位置と前記操作機器との相対位置関係を示す単語を抽出し、
　対話管理部が、前記発話者位置判定部により判定された前記発話者の位置と前記意図理解部により抽出された前記相対位置関係を示す単語とに基づいて、前記意図理解部により判別された前記操作機器の実行場所を特定し、特定した前記実行場所に対応する前記操作機器に対して、前記意図理解部により判別された前記操作内容に対応する制御信号を出力することを特徴とする音声対話制御方法。