JPWO2019093123A1

JPWO2019093123A1 - 情報処理装置および電子機器

Info

Publication number: JPWO2019093123A1
Application number: JP2019525931A
Authority: JP
Inventors: 秀明渡辺
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-11-07
Filing date: 2018-10-24
Publication date: 2020-09-24
Anticipated expiration: 2038-10-24
Also published as: US20200090663A1; EP3567470A1; EP3567470A4; JP7215417B2; WO2019093123A1

Abstract

本技術は、どのユーザに対して応答するべきかを正しく判断することができるようにする情報処理装置および電子機器に関する。発話者特定部は、ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定し、意味解析部は、特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する。本技術は、例えば、家庭用の音声アシスタントデバイスに適用することができる。

Description

本技術は、情報処理装置および電子機器に関し、特に、どのユーザに対して応答するべきかを判断することができるようにした情報処理装置および電子機器に関する。

近年、ユーザが音声により操作を行うことができる家庭用の音声アシスタントデバイス（ホームエージェント）が提供されている。

ホームエージェントの中には、複数のユーザそれぞれのプロファイルデータに基づいて、どのユーザが発話による操作を依頼しているかを認識できるものがある。

また、特許文献１には、マイクロホンアレイに対する特定の方向からのオーディオ信号成分を抽出することで、環境の中を動いているユーザの音声を、他のユーザが話しても認識できるようにした構成が開示されている。このような構成によれば、個々のユーザのプロファイルデータを用いることなく、どのユーザに対して応答するべきかを判断することができる。

特表２００６−５０４１３０号公報

しかしながら、特許文献１の構成では、オーディオ信号のみに基づいてユーザの音声を認識するため、様々な環境音が存在する環境などにおいては、音声の認識に失敗し、どのユーザに対して応答するべきかが正しく判断されない可能性があった。

本技術は、このような状況に鑑みてなされたものであり、どのユーザに対して応答するべきかを正しく判断することができるようにするものである。

本技術の第１の側面の情報処理装置は、ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定する発話者特定部と、特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する意味解析部とを備える。

本技術の第１の側面においては、ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求が出力される。

本技術の第２の側面の電子機器は、ユーザが存在する環境の画像を取得する撮像部と、前記環境の音声を取得する音声取得部と、前記画像と前記音声に基づいて、所定の角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析が行われることで出力された前記発話者の要求に対する応答を生成する応答生成部とを備える。

本技術の第２の側面においては、ユーザが存在する環境の画像が取得され、前記環境の音声が取得され、前記画像と前記音声に基づいて、所定の角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析が行われることで出力された前記発話者の要求に対する応答が生成される。

本技術によれば、どのユーザに対して応答するべきかを正しく判断することが可能となる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した応答システムの概要について説明する図である。ホームエージェントのハードウェア構成例を示すブロック図である。ホームエージェントの機能構成例を示すブロック図である。音声セッションの詳細について説明する図である。顔トラッキング処理の流れについて説明するフローチャートである。応答生成処理の流れについて説明するフローチャートである。１人のユーザによる操作の例を示す図である。複数人のユーザによる操作での音声セッションの制御について説明する図である。音声セッションと顔トラッキングの状態管理の流れについて説明するフローチャートである。トラッキング切り替え処理の流れについて説明するフローチャートである。顔トラッキングの切り替えの例を示す図である。音声セッションと顔トラッキングの状態管理の流れについて説明するフローチャートである。応答システムの機能構成例を示すブロック図である。応答システムによる応答生成処理の流れを示す図である。コンピュータの構成例を示すブロック図である。

以下、本開示を実施するための形態（以下、実施の形態とする）について説明する。なお、説明は以下の順序で行う。

１．応答システムの概要
２．ホームエージェントの構成と動作
３．複数人のユーザによる操作の例
４．クラウドコンピューティングへの適用
５．その他

＜１．応答システムの概要＞
図１は、本技術を適用した応答システムの概要を示している。

図１には、３人のユーザ１０Ａ，１０Ｂ，１０Ｃと、本技術を適用した情報処理装置（電子機器）として、各ユーザの発話に対して応答を出力するホームエージェント２０が示されている。ホームエージェント２０は、家庭用の音声アシスタントデバイスとして構成される。

ホームエージェント２０は、ユーザ１０Ａ，１０Ｂ，１０Ｃが存在する環境の画像と音声を取得するとともに、その環境におけるセンシングを行う。ホームエージェント２０は、その画像から得られる顔やその方向、音声から得られる発話区間（発話している時間）や発話された位置、および、センシングにより得られたセンシング情報を用いて、どのユーザが発話により操作を依頼しているかを特定する。そして、ホームエージェント２０は、特定されたユーザに対する応答を生成し、出力する。

図１の例では、ユーザ１０Ａが「OK Agent.」という起動ワードを発話した後、「明日の天気を教えて」と発話することで、ホームエージェント２０に対して明日の天気を尋ねている。起動ワードは、ホームエージェント２０がユーザとの対話を開始するためのトリガとなる。

これに対して、ホームエージェント２０は、ユーザ１０Ａの発話を認識し、意味解析を行うことで、「明日は晴れです」という応答を生成し、出力している。

以下においては、上述した応答システムを実現するホームエージェント２０の詳細について説明する。

＜２．ホームエージェントの構成と動作＞
（ホームエージェントのハードウェア構成例）
図２は、本技術を適用したホームエージェント２０のハードウェア構成例を示すブロック図である。

ＣＰＵ(Central Processing Unit)５１、ＲＯＭ(Read Only Memory)５２、ＲＡＭ(Random Access Memory)５３は、バス５４により相互に接続される。

バス５４には、カメラ５５、マイクロホン（以下、マイクという）５６、センサ５７、スピーカ５８、ディスプレイ５９、入力部６０、記憶部６１、および通信部６２が接続される。

カメラ５５は、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサやＣＣＤ（Charge Coupled Device）イメージセンサなどの固体撮像素子を備え、ユーザが存在する環境を撮像することで、その環境の画像を取得する。

マイク５６は、ユーザが存在する環境の音声を取得する。

センサ５７は、人感センサやバイタルセンサなどの各種のセンサにより構成される。例えば、センサ５７は、人物（ユーザ）の存在の有無や、その人物の脈拍や呼吸などの生体情報を検知する。

スピーカ５８は、音声（合成音声）を出力する。

ディスプレイ５９は、ＬＣＤ（Liquid Crystal Display）や有機ＥＬ（Electro Luminescence）ディスプレイなどにより構成される。

入力部６０は、ディスプレイ５９に重ねて設けられたタッチパネルや、ホームエージェント２０の筐体に設けられた各種のボタンにより構成される。入力部６０は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。

記憶部６１は、不揮発性のメモリなどにより構成される。記憶部６１は、ＣＰＵ５１が実行するプログラムの他に、音声合成用のデータなどの各種のデータを記憶する。

通信部６２は、ネットワークインタフェースなどにより構成される。通信部６２は、無線や有線による通信を外部の装置との間で行う。

（ホームエージェントの機能構成例）
図３は、ホームエージェント２０の機能構成例を示すブロック図である。

図３に示されるホームエージェント２０の機能ブロックのうちの一部は、図２のＣＰＵ５１により所定のプログラムが実行されることによって実現される。

ホームエージェント２０は、撮像部７１、音声取得部７２、センシング部７３、トラッキング部７４、音声セッション生成部７５、発話者特定部７６、音声認識部７７、意味解析部７８、および応答生成部７９から構成される。

撮像部７１は、図２のカメラ５５に対応し、ユーザが存在する環境を撮像することにより、その環境の画像を取得する。ユーザが存在する環境の画像（画像データ）は、リアルタイムに取得され、トラッキング部７４と音声セッション生成部７５に供給される。

音声取得部７２は、図２のマイク５６に対応し、ユーザが存在する環境の音声を取得する。ユーザが存在する環境の音声（音声データ）もまた、リアルタイムに取得され、音声セッション生成部７５に供給される。

センシング部７３は、図２のセンサ５７に対応し、ユーザが存在する環境においてセンシングを行う。センシングにより得られたセンシング情報もまた、リアルタイムに取得され、トラッキング部７４、音声セッション生成部７５、および発話者特定部７６に供給される。

トラッキング部７４は、撮像部７１からの画像と、センシング部７３からのセンシング情報に基づいて、撮像部７１の撮像範囲におけるユーザの状態（存在の有無や動きの有無）を推定し、顔識別、顔向き検出、位置推定の各処理を行う。これらの各処理により、ユーザが誰であるのか、ユーザの顔が向いている方向、ユーザのいる位置が推定される。

また、トラッキング部７４は、上述した各処理の結果に基づいて、撮像部７１からの画像において検出されたユーザの顔をトラッキングする。トラッキングされている顔の角度方向を表すトラッキング情報は、発話者特定部７６に供給される。なお、ハードウェア上のリソースの制約により、同時にトラッキングできる顔の数には上限があるものとする。

音声セッション生成部７５は、音声取得部７２からの音声と、センシング部７３からのセンシング情報に基づいて、発話しているユーザの方向（ホームエージェント２０から見た角度方向）と発話区間を推定する。

また、音声セッション生成部７５は、発話しているユーザの角度方向に、ユーザとの対話を行うための音声セッションを生成する。これにより、音声セッションが生成された角度方向からの音声のみが取得される。音声セッション生成部７５は、取得した音声と、生成された音声セッションの角度方向を表す音声セッション情報とを対応付けて、発話者特定部７６に供給する。なお、同時にトラッキングできる顔の数の制限に従い、同時に生成できる音声セッションの数にも上限があるものとする。

発話者特定部７６は、ユーザが存在する環境の画像、音声、およびその環境におけるセンシングにより得られたセンシング情報に基づいて、所定の角度方向に存在するユーザを、発話を受け付けるべき発話者に特定する。

具体的には、発話者特定部７６は、トラッキング部７４からのトラッキング情報と、音声セッション生成部７５からの音声セッション情報に基づいて、音声セッションが生成された角度方向周辺にユーザの顔がトラッキングされているか否かを判定する。音声セッションが生成された角度方向周辺にユーザの顔がトラッキングされている場合、発話者特定部７６は、その顔のユーザを発話者に特定する。

また、発話者特定部７６は、音声セッション生成部７５からの音声のうち、発話者がいる角度方向に生成されている音声セッション（音声セッション情報）に対応付けられている音声（音声データ）を音声認識部７７に供給する。

以上のことから、トラッキング部７４、音声セッション生成部７５、および発話者特定部７６は、ユーザが存在する環境において得られた複数のモーダルに基づいて、発話を受け付けるべきユーザをトラッキングする、ユーザトラッキング部を構成すると言える。

ここでいうモーダルには、撮像部７１により取得される画像、音声取得部７２により取得される音声、センシング部７３により取得されるセンシング情報が含まれる。

音声認識部７７は、発話者特定部７６からの音声データと、広範囲な発話内容に対応する語彙があらかじめ登録された大語彙音声認識辞書に登録されている語彙（単語）とを照合することで音声認識を行う。音声認識によって得られた文字列は、意味解析部７８に供給される。

意味解析部７８は、音声認識部７７からの文字列からなる文章に対して、自然言語処理、具体的には意味解析を行うことで、発話者の要求を抽出する。発話者の要求を示す情報は、応答生成部７９に供給される。

応答生成部７９は、意味解析部７８からの情報に基づいて、発話者の要求に対する応答を生成する。生成された応答は、図２のスピーカ５８を介して出力される。

（音声セッションの詳細）
ここで、音声セッションの詳細について説明する。

上述したように、音声セッションは、発話しているユーザとの対話を行うために、そのユーザのいる角度方向に生成され、ホームエージェント２０が、そのユーザにより操作可能な状態にあることを示すものである。

音声セッションは、ユーザによる何らかの操作を行うという意思表示をトリガとして、ホームエージェント２０がそれを認識することで生成される。

そして、ホームエージェント２０は、音声セッションが生成されている角度方向からの音声に対してのみ発話解析を行い、応答を生成する。

例えば、図４に示されるように、ホームエージェント２０から見て角度方向θａにいるユーザＵａによって、トリガとして「OK Agent.」という起動ワードが発話されると、時刻ｔ１において、角度方向θａに音声セッションが生成される。

その後、ユーザＵａによって「明日の天気を教えて」と発話されると、ホームエージェント２０は、角度方向θａからの音声に対して発話解析を行い、「明日の天気を教えて」に対する応答を生成する。

また、ホームエージェント２０から見て角度方向θｂにいるユーザＵｂによって、トリガとして「OK Agent.」という起動ワードが発話されると、時刻ｔ２において、角度方向θｂに音声セッションが生成される。

その後、ユーザＵｂによって「今何時？」と発話されると、ホームエージェント２０は、角度方向θｂからの音声に対して発話解析を行い、「今何時？」に対する応答を生成する。

なお、上述したように、同時に生成できる音声セッションの数には上限があり、最大Ｎ個までとする。すでにＮ個の音声セッションが生成されている状態で、新たな音声セッションを生成しようとする場合、ホームエージェント２０は、既存の音声セッションのうちの１つを終了させ、新たな音声セッションを生成する。

（ホームエージェントの動作例）
ホームエージェント２０は、ユーザの存在する環境において、一定の時間間隔で顔のトラッキングをしながら、起動ワードをトリガとして音声セッションを生成することで、発話者を特定する。

そこで、まず、図５のフローチャートを参照して、ホームエージェント２０による顔トラッキング処理の流れについて説明する。

ステップＳ１１において、ホームエージェント２０は、センシング部７３によるセンシングを開始する。このとき、ホームエージェント２０は、撮像部７１による画像の取得も開始する。これ以降、センシング部７３によるセンシングと、撮像部７１による画像の取得は、継続的に行われるものとする。

ステップＳ１２において、トラッキング部７４は、撮像部７１により取得されている画像において、顔を検出したか否かを判定する。顔が検出されていない間、処理はステップＳ１２を繰り返し、顔が検出されると、処理はステップＳ１３に進む。

ステップＳ１３において、トラッキング部７４は、検出された顔のトラッキングを開始する。顔のトラッキングに成功すると、トラッキング部７４は、その顔についてのトラッキング情報を発話者特定部７６に供給する。

ステップＳ１４において、トラッキング部７４は、同時にトラッキングできる顔の数の上限であるＭ個の顔をトラッキングしているか否かを判定する。

Ｍ個の顔がトラッキングされておらず、まだ、トラッキングしている顔の数が上限に達していない場合、Ｍ個の顔がトラッキングされるまで、処理はステップＳ１２乃至Ｓ１４を繰り返す。

一方、Ｍ個の顔がトラッキングされると、処理はステップＳ１４を繰り返す。その間、何らかの原因でトラッキングに失敗し、トラッキングしている顔の数がＭ個を下回ると、処理はステップＳ１２に戻り、再びＭ個の顔がトラッキングされるまで、ステップＳ１２乃至Ｓ１４を繰り返す。

以上のようにして、顔のトラッキングが継続的に行われる。

次に、図６のフローチャートを参照して、応答生成処理の流れについて説明する。図６の処理は、図５のフローチャートを参照して説明した顔トラッキング処理が実行されている状態で実行される。

ステップＳ３１において、音声セッション生成部７５は、音声取得部７２からの音声に基づいて、起動ワードを検出したか否かを判定する。起動ワードが検出されていない間、処理はステップＳ３１を繰り返し、起動ワードが検出されると、処理はステップＳ３２に進む。

ステップＳ３２において、音声セッション生成部７５は、起動ワードが検出された角度方向θに音声セッションを生成する。このとき、音声セッション生成部７５は、生成された音声セッションについての音声セッション情報を、発話者特定部７６に供給する。

ステップＳ３３において、発話者特定部７６は、トラッキング部７４からのトラッキング情報と、音声セッション生成部７５からの音声セッション情報に基づいて、起動ワードが検出された角度方向θ周辺に顔がトラッキングされているか否かを判定する。

角度方向θ周辺に顔がトラッキングされていると判定された場合、処理はステップＳ３４に進む。

ステップＳ３４において、発話者特定部７６は、音声セッション情報とトラッキング情報をバインドして、角度方向θ周辺にトラッキングされている顔のユーザを、発話者に特定する。これにより、角度方向θからの音声に対する発話解析が行われるようになる。

すなわち、ステップＳ３５において、音声セッション生成部７５は、音声取得部７２からの音声に基づいて、角度方向θからの発話を検出したか否かを判定する。発話が検出されていない間、処理はステップＳ３５を繰り返す。一方、発話が検出されると、発話者特定部７６は、検出された音声（音声データ）を音声認識部７７に供給し、処理はステップＳ３６に進む。

ステップＳ３６において、音声認識部７７は、発話者特定部７６からの音声データと、大語彙音声認識辞書に登録されている語彙とを照合することで音声認識を行う。

ステップＳ３７において、意味解析部７８は、音声認識部７７による音声認識によって得られた文字列からなる文章に対して意味解析を行うことで、発話者の要求を抽出する。

ステップＳ３８において、応答生成部７９は、意味解析部７８により抽出された発話者の要求に対する応答を生成し、スピーカ５８を介して出力する。

なお、ステップＳ３３において、角度方向θ周辺に顔がトラッキングされていないと判定された場合、ステップＳ３４はスキップされ、処理はステップＳ３５に進む。ここで、角度方向θからの発話が検出された場合であっても、ホームエージェント２０は、発話内容に応じた応答を出力する。

図７は、上述した顔トラッキング処理と応答生成処理に基づいた、１人のユーザによるホームエージェント２０の操作の例を示している。

図７には、１人のユーザ１０とホームエージェント２０が示されている。

まず、＃１に示されるように、ホームエージェント２０は、ユーザ１０の顔のトラッキングを開始する（図５のステップＳ１３）。

この状態で、＃２に示されるように、ユーザ１０が「OK Agent.」と起動ワードを発話すると、ホームエージェント２０は、起動ワードを検出する（図６のステップＳ３１）。

起動ワードが検出されると、＃３に示されるように、ホームエージェント２０は、起動ワードが検出された角度方向に音声セッションを生成する（図６のステップＳ３２）。これにより、ホームエージェント２０は、ユーザ１０を発話者に特定する（図６のステップＳ３４）。

その後、＃４に示されるように、ユーザ１０が「明日の天気を教えて」と発話すると、ホームエージェント２０は、その発話を検出し、音声認識と意味解析を行うことで、ユーザ１０の要求を抽出する（図６のステップＳ３５乃至Ｓ３７）。

そして、ホームエージェント２０は、＃５に示されるように、ユーザ１０の要求に対して「明日は晴れです」という応答を生成し、出力する（図６のステップＳ３８）。

以上の処理によれば、複数人のユーザが存在する環境において、顔がトラッキングされているユーザ毎に音声セッションが生成されることにより、発話者が特定されるようになる。すなわち、様々な環境音の影響を受けることなく、複数のモーダルに基づいて発話を受け付けるべきユーザがトラッキングされるので、ホームエージェント２０は、どのユーザに対して応答するべきかを正しく判断することが可能となる。

（トリガの例）
以上においては、ホームエージェント２０に対して何らかの操作を行うという意思表示（トリガ）として、「OK Agent.」などのあらかじめ決められた言葉（起動ワード）の発話を例にして説明した。これに限らず、トリガは、撮像部７１からの画像、音声取得部７２からの音声、センシング部７３からのセンシング情報の少なくともいずれかに基づくものであってもよい。

例えば、ホームエージェント２０に向かって「手を振る」などのあらかじめ決められたジェスチャ（動作）をトリガとしてもよい。ジェスチャは、撮像部７１により取得されている画像において検出されるようにする。

また、センシング部７３からのセンシング情報に基づいた顔向き検出や視線検出によって、ユーザがホームエージェント２０を一定の時間見続けていることをトリガとしてもよい。

さらに、人感センサの機能を有するセンシング部７３からのセンシング情報に基づいた人検出によって、ユーザがホームエージェント２０から一定の距離範囲内に近づいたことをトリガとしてもよい。

＜３．複数人のユーザによる操作の例＞
ホームエージェント２０は、複数人のユーザによる操作を受け付けることができる。

（音声セッションの制御）
図８は、複数人のユーザによる操作での音声セッションの制御について説明する図である。

図８に示されるように、ホームエージェント２０から見て角度方向θａにいるユーザＵａ、角度方向θｂにいるユーザＵｂ、角度方向θｃにいるユーザＵｃ、角度方向θｄにいるユーザＵｄの４人によって、起動ワード「OK Agent.」が発話されている。これにより、角度方向θａ，θｂ，θｃ，θｄの４方向に音声セッションが生成されている。

図８の例では、ユーザＵａは、起動ワードを発話した後、「明日の天気を教えて」と発話し、続いて「最高気温は？」と発話している。その時刻はｔ１２である。

ユーザＵｂは、起動ワードを発話した後、「今何時？」と発話している。その時刻はｔ１１である。

ユーザＵｃは、起動ワードを発話した後、「美味しいレストランを教えて」と発話している。その時刻はｔ１３である。

ユーザＵｄは、起動ワードを発話した後、「メール送って」と発話している。その時刻はｔ１４である。

ここでは、同時に生成できる音声セッションの数の上限は４個であるものとする。

この状態の中で、時刻ｔ１５において、ホームエージェント２０から見て角度方向θｅにいるユーザＵｅによって、起動ワード「OK Agent.」が発話された場合、ホームエージェント２０は、４方向の音声セッションの中で、時間的に最も前に発話が検出された音声セッションを終了させる。

具体的には、ホームエージェント２０は、時刻ｔ１５において、時刻ｔ１１に発話が検出された角度方向θｂの音声セッションを終了し、新たに角度方向θｅに音声セッションを生成する。

このようにして、音声セッションの生成・終了の制御が行われる。なお、ユーザの移動がある場合にも、同様の制御が行われる。

図８の例では、時間的に最も前に発話が検出された音声セッションを終了させるものとしたが、ホームエージェント２０に対する発話の発生する確率が最も低い音声セッションを終了させればよく、他の条件に基づいて音声セッションを終了させることもできる。

例えば、人感センサの機能を有するセンシング部７３からのセンシング情報に基づいた人検出や、撮像部７１により取得されている画像における動き検出によって、動きのあるユーザの音声セッションを終了させるようにしてもよい。

また、センシング部７３からのセンシング情報に基づいた顔向き検出や視線検出、撮像部７１により取得されている画像における顔検出によって、ユーザがホームエージェント２０に顔を向けていないユーザの音声セッションを終了させるようにしてもよい。

さらに、バイタルセンサの機能を有するセンシング部７３からのセンシング情報に基づいて、寝てしまったユーザの音声セッションを終了させるようにしてもよい。

また、自身の所有するスマートフォンなどの携帯端末を操作しているユーザの音声セッションを終了させるようにしてもよい。ユーザが携帯端末を操作しているか否かの判定は、撮像部７１により取得されている画像、携帯端末上で起動しているアプリケーションの起動状態や動作状態の検知などに基づいて行うことができる。

以上のようにして、複数人のユーザによる操作での音声セッションの制御が行われる。

（音声セッションと顔トラッキングの状態管理）
上述したように、ホームエージェント２０は、顔をトラッキングしているユーザ毎に音声セッションを生成する。さらに、ホームエージェント２０は、音声セッションと顔トラッキングの状態をともに管理することで、図８を参照して説明した音声セッションの制御と連動して、顔のトラッキングを切り替えることができる。

ここで、図９のフローチャートを参照して、音声セッションと顔トラッキングの状態管理の流れについて説明する。

ステップＳ５１において、音声セッション生成部７５は、音声取得部７２からの音声に基づいて、起動ワードを検出したか否かを判定する。起動ワードが検出されていない間、処理はステップＳ５１を繰り返し、起動ワードが検出されると、処理はステップＳ５２に進む。

ステップＳ５２において、現在生成されている音声セッションとして、生成できる数の上限であるＮ個の音声セッションがあるか否かを判定する。なお、同時に生成できる音声セッションの数の上限Ｎは、同時にトラッキングできる顔の数の上限Ｍと同じ数であるものとするが、異なる数であってもよい。

Ｎ個の音声セッションがある場合、処理はステップＳ５３に進み、音声セッション生成部７５は、発話の発生する確率が最も低いと推定される音声セッションを終了する。

このとき、音声セッション生成部７５は、撮像部７１からの画像、音声取得部７２からの音声、および、センシング部７３からのセンシング情報の少なくともいずれかに基づいて、発話の発生する確率が最も低い音声セッションを推定する。例えば、図８の例と同様に、音声セッション生成部７５は、音声取得部７２からの音声に基づいて、時間的に最も前に発話が検出された音声セッションを、発話の発生する確率が最も低い音声セッションと推定し、その音声セッションを終了する。

一方、Ｎ個の音声セッションがなく、まだ、音声セッションの数が上限に達していない場合、ステップＳ５３はスキップされる。

ステップＳ５４において、音声セッション生成部７５は、起動ワードが検出された角度方向θに音声セッションを生成する。

ステップＳ５５において、トラッキング部７４は、角度方向θ周辺に顔がトラッキングされているか否かを判定する。

角度方向θ周辺に顔がトラッキングされていると判定された場合、音声セッションと顔トラッキングの状態管理の処理は終了し、図６のフローチャートのステップＳ３４以降と同様の処理が実行される。

一方、角度方向θ周辺に顔がトラッキングされていないと判定された場合、処理はステップＳ５６に進む。

ステップＳ５６において、トラッキング部７４は、トラッキング対象となる顔を切り替えるトラッキング切り替え処理を実行し、その後、図６のフローチャートのステップＳ３４以降と同様の処理が実行される。

ここで、図１０のフローチャートを参照して、トラッキング切り替え処理の詳細について説明する。

ステップＳ７１において、トラッキング部７４は、同時にトラッキングできる顔の数の上限であるＭ個の顔をトラッキングしているか否かを判定する。

Ｍ個の顔がトラッキングされている場合、処理はステップＳ７２に進み、トラッキング部７４は、撮像部７１により取得されている画像において、角度方向θ周辺に顔を検出したか否かを判定する。

角度方向θ周辺に顔が検出された場合、処理はステップＳ７３に進み、トラッキング部７４は、発話する確率が最も低いと推定されるユーザの顔のトラッキングを終了する。

このとき、トラッキング部７４は、撮像部７１からの画像と、センシング部７３からのセンシング情報の少なくともいずれかに基づいて、発話する確率が最も低いユーザを推定する。例えば、トラッキング部７４は、撮像部７１からの画像に基づいて、ホームエージェント２０から最も離れた位置にいるユーザを、発話する確率が最も低いユーザと推定し、そのユーザの顔のトラッキングを終了する。

その後、ステップＳ７４において、トラッキング部７４は、角度方向θ周辺で検出された顔のトラッキングを開始する。このとき、角度方向θ周辺で検出された顔が複数ある場合には、角度方向θに最も近い角度方向で検出された顔のトラッキングが開始されるようにする。

一方、ステップＳ７１において、Ｍ個の顔がトラッキングされていないと判定されるか、ステップＳ７２において、角度方向θ周辺に顔が検出されていないと判定された場合、新たなトラッキングが開始されることなく、処理は終了する。

図１１は、上述した処理に基づいた、起動ワードの検出に連動した顔トラッキングの切り替えの例を示している。

図１１には、５人のユーザ１０Ａ，１０Ｂ，１０Ｃ，１０Ｄ，１０Ｅとホームエージェント２０が示されている。

図１１左側の状態では、５人のユーザのうち４人のユーザ１０Ａ，１０Ｂ，１０Ｃ，１０Ｄの顔がホームエージェント２０によりトラッキングされている。図中、破線ＴＲ１乃至ＴＲ４は、顔がトラッキングされていることを表している。

図１１の例では、同時にトラッキングできる顔の数の上限は４個であるものとする。したがって、図１１左側の状態においては、ユーザ１０Ｅの顔はトラッキングされていない。

この状態で、ユーザ１０Ｅが「OK Agent.」と起動ワードを発話すると、ホームエージェント２０は、起動ワードが検出された角度方向に音声セッションを生成する。

その後、図１１右側に示されるように、ホームエージェント２０は、最も離れた位置にいるユーザ１０Ｄの顔のトラッキングを終了するとともに、起動ワードが検出された角度方向に検出されたユーザ１０Ｅの顔のトラッキング（ＴＲ４’）を開始する。

このようにして、起動ワードの検出に連動して、トラッキング対象となる顔を切り替えることができる。

以上においては、起動ワードの検出に連動したトラッキングの切り替えの例について説明したが、発話の検出に連動して、トラッキング対象となる顔を切り替えるようにすることもできる。

図１２は、発話の検出に連動して顔のトラッキングを切り替えるようにした、音声セッションと顔トラッキングの状態管理の流れについて説明するフローチャートである。

ステップＳ９１において、音声セッション生成部７５は、音声取得部７２からの音声に基づいて、角度方向θに発話を検出したか否かを判定する。発話が検出されていない間、処理はステップＳ９１を繰り返し、発話が検出されると、処理はステップＳ９２に進む。

ステップＳ９２において、トラッキング部７４は、角度方向θ周辺に顔がトラッキングされているか否かを判定する。

一方、角度方向θ周辺に顔がトラッキングされていないと判定された場合、処理はステップＳ９３に進み、トラッキング部７４は、図１０のフローチャートを参照して説明したトラッキング切り替え処理を実行する。

角度方向θに音声セッションが生成されている状態で、その角度方向θにいるユーザが一時的に移動するなどした場合、そのユーザの顔のトラッキングは終了してしまうことがある。そのような場合であっても、上述した処理によれば、新たにそのユーザの顔のトラッキングを開始することができる。

＜４．クラウドコンピューティングへの適用＞
本技術は、クラウドコンピューティングへ適用することもできる。

図１３は、クラウドコンピューティングへ適用した応答システムの機能構成例を示すブロック図である。

図１３に示されるように、ホームエージェント１２０は、撮像部１２１、音声取得部１２２、センシング部１２３、および応答生成部１２４を備えている。

ホームエージェント１２０は、撮像部１２１により取得された画像、音声取得部１２２により取得された音声、センシング部１２３により取得されたセンシング情報を、ネットワークＮＷを介して接続されるサーバ１３０に送信する。

また、ホームエージェント１２０は、サーバ１３０からネットワークＮＷを介して送信されてくる意味解析の結果に基づいて、応答生成部１２４により生成された応答を出力する。

サーバ１３０は、通信部１３１、トラッキング部１３２、音声セッション生成部１３３、発話者特定部１３４、音声認識部１３５、および意味解析部１３６を備えている。

通信部１３１は、ホームエージェント１２０からネットワークＮＷを介して送信されてくる画像、音声、センシング情報を受信する。また、通信部１３１は、意味解析部１３６による意味解析の結果を、ネットワークＮＷを介してホームエージェント１２０に送信する。

トラッキング部１３２乃至意味解析部１３６は、それぞれ、図３のトラッキング部７４乃至意味解析部７８と同一の機能を有している。

次に、図１４を参照して、図１３の応答システムによる応答生成処理の流れについて説明する。

ステップＳ１１１において、ホームエージェント１２０は、撮像部１２１、音声取得部１２２、センシング部１２３それぞれにより取得される画像、音声、センシング情報を、逐次サーバ１３０に送信する。

サーバ１３０は、ステップＳ１２１において、画像、音声、センシング情報を受信すると、ステップＳ１２２において、ホームエージェント１２０からの画像とセンシング情報に基づいて、顔のトラッキングを開始する。

サーバ１３０は、ホームエージェント１２０からの音声として、起動ワードを受信すると、ステップＳ１２３において、音声セッションを生成し、ステップＳ１２４において、発話者を特定する。

サーバ１３０は、ホームエージェント１２０からの音声として、発話（発話者による要求）を受信すると、ステップＳ１２５において、音声認識を行う。さらに、サーバ１３０は、ステップＳ１２６において、音声認識によって得られた文字列からなる文章に対して意味解析を行うことで、発話者の要求を抽出する。

そして、サーバ１３０は、ステップＳ１２７において、意味解析の結果である発話者の要求を示す情報を、ホームエージェント１２０に送信する。

ホームエージェント１２０は、ステップＳ１１２において、サーバ１３０からの発話者の要求を示す情報を受信すると、ステップＳ１１３において、発話者の要求に対する応答を生成し、図示せぬスピーカを介して出力する。

以上の処理においても、様々な環境音の影響を受けることなく発話を受け付けるべきユーザがトラッキングされるので、サーバ１３０は、どのユーザに対して応答するべきかを正しく判断することが可能となる。

＜５．その他＞
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

上述したホームエージェント２０およびサーバ１３０は、図１５に示す構成を有するコンピュータにより実現される。

ＣＰＵ１００１、ＲＯＭ１００２、ＲＡＭ１００３は、バス１００４により相互に接続されている。

バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、キーボード、マウスなどよりなる入力部１００６、ディスプレイ、スピーカなどよりなる出力部１００７が接続される。また、入出力インタフェース１００５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１００８、ネットワークインタフェースなどよりなる通信部１００９、リムーバブルメディア１０１１を駆動するドライブ１０１０が接続される。

以上のように構成されるコンピュータでは、ＣＰＵ１００１が、例えば、記憶部１００８に記憶されているプログラムを入出力インタフェース１００５およびバス１００４を介してＲＡＭ１００３にロードして実行することにより、上述した一連の処理が行われる。

ＣＰＵ１００１が実行するプログラムは、例えばリムーバブルメディア１０１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部１００８にインストールされる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

さらに、本技術は以下のような構成をとることができる。
（１）
ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定する発話者特定部と、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する意味解析部と
を備える情報処理装置。
（２）
前記発話者特定部は、前記ユーザとの対話を行うための音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの顔がトラッキングされている場合、前記ユーザを前記発話者に特定する
（１）に記載の情報処理装置。
（３）
前記画像において検出された前記ユーザの前記顔をトラッキングするトラッキング部と、
前記ユーザとの対話を開始するトリガが検出された前記角度方向に前記音声セッションを生成する音声セッション生成部と
をさらに備える
（２）に記載の情報処理装置。
（４）
前記発話者特定部は、前記画像、前記音声、および、前記環境におけるセンシングにより得られたセンシング情報に基づいて、前記発話者を特定する
（３）に記載の情報処理装置。
（５）
前記トリガは、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて検出される
（４）に記載の情報処理装置。
（６）
前記トリガは、前記音声から検出される、あらかじめ決められた文言の発話である
（５）に記載の情報処理装置。
（７）
前記トリガは、前記画像から検出される、あらかじめ決められた動作である
（５）に記載の情報処理装置。
（８）
前記音声セッション生成部は、Ｎ個の前記音声セッションを生成している状態で、前記Ｎ個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記Ｎ個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
（３）乃至（７）のいずれかに記載の情報処理装置。
（９）
前記音声セッション生成部は、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて、前記発話の発生する確率が最も低い前記音声セッションを推定する
（８）に記載の情報処理装置。
（１０）
前記音声セッション生成部は、前記音声に基づいて、時間的に最も前に前記発話が検出された前記音声セッションを終了する
（９）に記載の情報処理装置。
（１１）
前記トラッキング部は、Ｍ個の前記顔をトラッキングしている状態で、前記Ｍ個の前記顔がトラッキングされている前記角度方向とは異なる前記角度方向に前記顔が検出された場合、前記Ｍ個の前記顔のトラッキングのうち、前記発話する確率が最も低いと推定される前記ユーザの前記顔のトラッキングを終了する
（８）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
前記トラッキング部は、前記画像および前記センシング情報の少なくともいずれかに基づいて、前記発話する確率が最も低い前記ユーザを推定する
（１１）に記載の情報処理装置。
（１３）
前記トラッキング部は、前記画像に基づいて、最も離れた位置にいる前記ユーザの前記顔のトラッキングを終了する
（１２）に記載の情報処理装置。
（１４）
前記トラッキング部がトラッキングする前記顔の数Ｍと、前記音声セッション生成部が生成する前記音声セッションの数Ｎとは同じ数である
（１１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
特定された前記発話者による前記発話の音声認識を行う音声認識部
をさらに備え、
前記意味解析部は、前記発話の音声認識結果を用いて前記意味解析を行う
（１）乃至（１４）のいずれかに記載の情報処理装置。
（１６）
前記発話者の要求に対する応答を生成する応答生成部
をさらに備える
（１）乃至（１５）のいずれかに記載の情報処理装置。
（１７）
前記環境の前記画像を取得する撮像部と、
前記環境の前記音声を取得する音声取得部と
を備える
（１）乃至（１６）のいずれかに記載の情報処理装置。
（１８）
情報処理装置が、
ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在するユーザを、発話を受け付けるべき発話者に特定し、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する
情報処理方法。
（１９）
コンピュータに、
ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在するユーザを、発話を受け付けるべき発話者に特定し、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する
処理を実行させるプログラム。
（２０）
ユーザが存在する環境の画像を取得する撮像部と、
前記環境の音声を取得する音声取得部と、
前記画像と前記音声に基づいて、所定の角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析が行われることで出力された前記発話者の要求に対する応答を生成する応答生成部と
を備える電子機器。
（２１）
ユーザが存在する環境において得られた複数のモーダルに基づいて、発話を受け付けるべき前記ユーザをトラッキングするユーザトラッキング部と、
トラッキングされている前記ユーザによる前記発話の意味解析を行うことで、前記ユーザの要求を出力する意味解析部と
を備える情報処理装置。
（２２）
前記複数のモーダルは、少なくとも前記環境の画像と音声を含む
（２１）に記載の情報処理装置。

２０ホームエージェント，７１撮像部，７２音声取得部，７３センシング部，７４トラッキング部，７５音声セッション生成部，７６発話者特定部，７７音声認識部，７８意味解析部，７９応答生成部，１２０ホームエージェント，１２１撮像部，１２２音声取得部，１２３センシング部，１２４応答生成部，１３０サーバ，１３１通信部，１３２トラッキング部，１３３音声セッション生成部，１３４発話者特定部，１３５音声認識部，１３６意味解析部

Claims

ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定する発話者特定部と、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する意味解析部と
を備える情報処理装置。
前記発話者特定部は、前記ユーザとの対話を行うための音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの顔がトラッキングされている場合、前記ユーザを前記発話者に特定する
請求項１に記載の情報処理装置。
前記画像において検出された前記ユーザの前記顔をトラッキングするトラッキング部と、
前記ユーザとの対話を開始するトリガが検出された前記角度方向に前記音声セッションを生成する音声セッション生成部と
をさらに備える
請求項２に記載の情報処理装置。
前記発話者特定部は、前記画像、前記音声、および、前記環境におけるセンシングにより得られたセンシング情報に基づいて、前記発話者を特定する
請求項３に記載の情報処理装置。
前記トリガは、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて検出される
請求項４に記載の情報処理装置。
前記トリガは、前記音声から検出される、あらかじめ決められた文言の発話である
請求項５に記載の情報処理装置。
前記トリガは、前記画像から検出される、あらかじめ決められた動作である
請求項５に記載の情報処理装置。
前記音声セッション生成部は、Ｎ個の前記音声セッションを生成している状態で、前記Ｎ個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記Ｎ個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
請求項３に記載の情報処理装置。
前記音声セッション生成部は、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて、前記発話の発生する確率が最も低い前記音声セッションを推定する
請求項８に記載の情報処理装置。
前記音声セッション生成部は、前記音声に基づいて、時間的に最も前に前記発話が検出された前記音声セッションを終了する
請求項９に記載の情報処理装置。
前記トラッキング部は、Ｍ個の前記顔をトラッキングしている状態で、前記Ｍ個の前記顔がトラッキングされている前記角度方向とは異なる前記角度方向に前記顔が検出された場合、前記Ｍ個の前記顔のトラッキングのうち、前記発話する確率が最も低いと推定される前記ユーザの前記顔のトラッキングを終了する
請求項８に記載の情報処理装置。
前記トラッキング部は、前記画像および前記センシング情報の少なくともいずれかに基づいて、前記発話する確率が最も低い前記ユーザを推定する
請求項１１に記載の情報処理装置。
前記トラッキング部は、前記画像に基づいて、最も離れた位置にいる前記ユーザの前記顔のトラッキングを終了する
請求項１２に記載の情報処理装置。
前記トラッキング部がトラッキングする前記顔の数Ｍと、前記音声セッション生成部が生成する前記音声セッションの数Ｎとは同じ数である
請求項１１に記載の情報処理装置。
特定された前記発話者による前記発話の音声認識を行う音声認識部
をさらに備え、
前記意味解析部は、前記発話の音声認識結果を用いて前記意味解析を行う
請求項１に記載の情報処理装置。
前記発話者の要求に対する応答を生成する応答生成部
をさらに備える
請求項１に記載の情報処理装置。
前記環境の前記画像を取得する撮像部と、
前記環境の前記音声を取得する音声取得部と
を備える
請求項１に記載の情報処理装置。
ユーザが存在する環境の画像を取得する撮像部と、
前記環境の音声を取得する音声取得部と、
前記画像と前記音声に基づいて、所定の角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析が行われることで出力された前記発話者の要求に対する応答を生成する応答生成部と
を備える電子機器。
ユーザが存在する環境において得られた複数のモーダルに基づいて、発話を受け付けるべき前記ユーザをトラッキングするユーザトラッキング部と、
トラッキングされている前記ユーザによる前記発話の意味解析を行うことで、前記ユーザの要求を出力する意味解析部と
を備える情報処理装置。
前記複数のモーダルは、少なくとも前記環境の画像と音声を含む
請求項１９に記載の情報処理装置。