WO2012063560A1

WO2012063560A1 - 画像処理システム、画像処理方法、及び画像処理プログラムを記憶した記憶媒体

Info

Publication number: WO2012063560A1
Application number: PCT/JP2011/071801
Authority: WO
Inventors: ゆり子檜山; 智之大坂
Original assignee: 日本電気株式会社
Priority date: 2010-11-10
Filing date: 2011-09-26
Publication date: 2012-05-18
Also published as: JP5527423B2; US20130241821A1; CN103201710A; JPWO2012063560A1

Abstract

　複数人に対して画像を表示する装置であって、その画像を見ている人物にとって、より操作性の良い画像処理装置に関するものである。画像を表示する画像表示手段と、前記画像表示手段の前に集まった複数人の画像を撮像する撮像手段と、前記画像表示手段に表示された画像に対して、前記複数人のそれぞれが行なったジェスチャーを、前記撮像手段で撮像した画像から認識するジェスチャー認識手段と、前記ジェスチャー認識手段による認識結果に基づいて、表示画面を遷移させる表示制御手段と、を備えたことを特徴とする。

Description

画像処理システム、画像処理方法、及び画像処理プログラムを記憶した記憶媒体

　本発明は、不特定の人物に情報を報知するための技術に関する。

　不特定の人物に情報を報知する表示システムとして、デジタルサーネージを用いたシステムが知られている。たとえば、特許文献１には、カメラによる撮影画像から求めた注目時間と画面からの距離とに基づいて表示画面への注目度を判定し、注目している人物に応じた情報を報知する技術が開示されている。

特開2009-176254号公報

　しかしながら、上記特許文献１に記載のデジタルサイネージは、複数人に画像を表示する仕組みでありながら、その操作は、一人のユーザが画面にタッチすることによって行なわれていた。つまり、ユーザにとって操作性がよいものではなかった。

　本発明の目的は、上述の課題を解決する技術を提供することにある。

　上記目的を達成するため、本発明に係るシステムは、
　画像を表示する画像表示手段と、
　前記画像表示手段の前に集まった複数人の画像を撮像する撮像手段と、
　前記画像表示手段に表示された画像に対して、前記複数人のそれぞれが行なったジェスチャーを、前記撮像手段で撮像した画像から認識するジェスチャー認識手段と、
　前記ジェスチャー認識手段による認識結果に基づいて、表示画面を遷移させる表示制御手段と、
　を備えたことを特徴とする。

　上記目的を達成するため、本発明に係る装置は、
　画像表示手段に表示された画像に対して、画像表示手段の前に集まった複数人のそれぞれが行なったジェスチャーを、撮像手段で撮像した画像から認識するジェスチャー認識手段と、
　前記ジェスチャー認識手段による認識結果に基づいて、表示画面を遷移させる表示制御手段と、
　を備えたことを特徴とする。

　上記目的を達成するため、本発明に係る方法は、
　画像表示手段に画像を表示する画像表示ステップと、
　前記画像表示手段の前に集まった複数人の画像を撮像する撮像ステップと、
　前記画像表示手段に表示された画像に対して、前記複数人のそれぞれが行なったジェスチャーを、前記撮像ステップで撮像した画像から認識するジェスチャー認識ステップと、
　前記ジェスチャー認識ステップでの認識結果に基づいて、表示画面を遷移させる表示制御ステップと、
　を備えたことを特徴とする。

　上記目的を達成するため、本発明に係る記憶媒体は、
　画像表示手段に画像を表示する画像表示ステップと、
　前記画像表示手段の前に集まった複数人の画像から、前記複数人のそれぞれが行なったジェスチャーを認識するジェスチャー認識ステップと、
　前記ジェスチャー認識ステップでの認識結果に基づいて、表示画面を遷移させる表示制御ステップと、
　をコンピュータに実行させるプログラムを格納したことを特徴とする。

　本発明によれば、複数人に対して画像を表示する装置であって、その画像を見ている人物にとって、より操作性の良い装置を実現することができる。

本発明の第１実施形態に係る情報処理装置の構成を示すブロック図である。本発明の第２実施形態に係る情報処理装置を含む画像処理システムの構成を示すブロック図である。本発明の第２実施形態に係る情報処理装置のハードウエア構成を示すブロック図である。本発明の第２実施形態に係る撮影した手のデータの構成を示す図である。本発明の第２実施形態に係るジェスチャーＤＢの構成を示す図である。本発明の第２実施形態に係るテーブルの構成を示す図である。本発明の第２実施形態に係るテーブルの構成を示す図である。本発明の第２実施形態に係るテーブルの構成を示す図である。本発明の第２実施形態に係るテーブルの構成を示す図である。本発明の第２実施形態に係る情報処理装置の動作手順を示すフローチャートである。本発明の第３実施形態に係る情報処理装置の構成を示すブロック図である。本発明の第３実施形態に係る属性判定テーブルの構成を示す図である。本発明の第３実施形態に係る報知プログラムＤＢの構成を示す図である。本発明の第３実施形態に係る報知プログラム選択テーブルの構成を示す図である。本発明の第３実施形態に係る情報処理装置の動作手順を示すフローチャートである。本発明の第４実施形態に係る画像処理システムの構成を示すブロック図である。

　以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。

　［第１実施形態］
　本発明の第１実施形態としての画像処理システム１００について、図１を用いて説明する。画像処理システム１００は、画像を表示する画像表示部１０１と、画像表示部１０１の前に集まった複数人１０６の画像を撮像する撮像部１０２とを備える。また、画像処理システム１００は、画像表示部１０１に表示された画像に対して、複数人１０６のそれぞれが行なったジェスチャーを、撮像部１０２で撮像した画像から認識するジェスチャー認識部１０３を備える。さらに画像処理システム１００はさらに、ジェスチャー認識部１０３による認識結果に基づいて、前記画像表示部１０１の表示画面を遷移させる表示制御部１０５を備える。

　本実施形態によれば、複数人に対して画像を表示する装置であって、その画像を見ている人物にとって、より操作性の良い装置を実現することができる。

　［第２実施形態］
　本発明の第２実施形態としての画像処理システム２００について、図２乃至図７を用いて説明する。本実施形態に係る画像処理システム２００は、複数人に対して同時に画像を表示する表示装置を有する。そして、その画像表示部の前にいる複数人の、待機時間と顔のむきと手の動きとを認識してパラメータ化し、それらのパラメータを総合的に判定し、通行人全体としての表示装置（デジタルサイネージ）に対する注目度を算出する。

　《システム構成》
　図２は、第２実施形態に係る情報処理装置２１０を含む画像処理システム２００の構成を示すブロック図である。なお、図２では、独立した情報処理装置２１０を図示しているが、複数の情報処理装置２１０がネットワークを介して接続されたシステムにも拡張可能である。以下、データベースについては、ＤＢと略して記載する。

　図２の画像処理システム２００は、情報処理装置２１０と、ステレオカメラ２３０と、表示装置２４０と、スピーカ２５０と、を有する。ステレオカメラ２３０は、不特定の複数人２０４を撮影して、情報処理装置２１０に撮影した画像を送ると共に、情報処理装置２１０により制御されて対象者にフォーカスすることが可能である。表示装置２４０は、情報処理装置２１０から報知プログラムにしたがって宣伝あるいは広告メッセージなどを報知する。本実施形態では、宣伝あるいは広告メッセージの中、あるいは宣伝あるいは広告メッセージに先立って、複数人２０４に対しジェスチャーによる応答を誘引する画像を含む画面を表示する。そして、応答した人物をステレオカメラ２３０からの画像で確認すると、応答した人物とのジェスチャーによる対話が可能な画面を出力する。スピーカ２５０は、表示装置２４０の画面、あるいは応答した人物１０５とのジェスチャーによる対話を促進するための、補助音声を出力する。

　《情報処理装置の機能構成》
　情報処理装置２１０は、入出力インタフェース２１１、画像記録部２１２、手検出部２１３、ジェスチャー認識部２１４、ジェスチャーＤＢ２１５、報知プログラムＤＢ２１６、報知プログラム実行部２１７、及び出力制御部２２１を備える。さらに情報処理装置２１０は、傾向判定部２１９を備える。

　なお、情報処理装置２１０は１つの装置である必要はなく、複数の装置に機能が分散してトータルとして図２の機能を実現できればよい。以下、本実施形態における動作手順にしたがって、各機能構成部を説明する。

　入出力インタフェース２１１は、ステレオカメラ２３０、表示装置２４０、スピーカ２５０と、情報処理装置２１０との間のインタフェースを実現する。

　まず、所定の報知プログラム、あるいは初期プログラムが報知プログラム実行部２１７により実行され、出力制御部２２１及び入出力インタフェース２１１を介して、表示装置２４０、スピーカ２５０から複数人２０４に対してメッセージが報知される。このメッセージには、複数人２０４に対してジェスチャー（たとえば、手を振る動作、ジャンケンの動作、手話など）を誘引する内容が含まれてもよい。報知プログラムは、報知プログラム実行部２１７によって報知プログラムＤＢ２１６から選ばれる。報知プログラムＤＢ２１６は、対象者の属性や環境に応じて選択される複数の報知プログラムを格納している。

　次に、ステレオカメラ２３０が撮影した複数人２０４の画像が、入出力インタフェース２１１を介して画像記録部２１２に送られて、ジェスチャーが判定可能な時間の画像履歴が記録される。手検出部２１３は、ステレオカメラ２３０が撮影した複数人２０４の画像の中から手の画像を検出する。かかる手の画像の検出は、たとえば、色と形状と位置などから検出される。人物の検出を行なった後にその人物の手を検出しても良いし、手のみを直接検出しても良い。

　ジェスチャー認識部２１４は、手検出部２１３で検出した複数人２０４の画像内の手の画像の特徴（図４参照）から、ジェスチャーＤＢ２１５を参照して各手のジェスチャーを判定する。かかるジェスチャーＤＢ２１５は、手検出部２１３で検出した各手の位置や指の位置、時系列の手の動作などと、ジェスチャーとを対応付けて格納している（図５参照）。

　ジェスチャー認識部２１４による認識結果は、傾向判定部２１９に送られ、複数人２０４が全体としてどのような傾向のジェスチャーを行なったかを判定する。傾向判定部２１９は、判定結果としての傾向を、報知プログラム実行部２１７に送信する。報知プログラム実行部２１７は、複数人２０４が、全体として行なっているジェスチャーに応じて、報知プログラムＤＢ２１６から最適な報知プログラムを読み出して実行する。実行結果は、出力制御部２２１及び入出力インタフェース２１１を介して、表示装置２４０、スピーカ２５０から出力される。

　《情報処理装置内部のハードウエア構成》
　図３は、本実施形態に係る情報処理装置２１０のハードウエア構成を示すブロック図である。図３において、ＣＰＵ３１０は演算制御用のプロセッサであり、プログラムを実行することで図２の各機能構成部を実現する。ＲＯＭ３２０は、初期データ及びプログラムなどの固定データ及びプログラムを記憶する。通信制御部３３０は、ネットワークを介して外部装置と通信する。通信制御部３３０は、各種サーバなどから報知プログラムがダウンロードする。ステレオカメラ２３０や表示装置２４０などから出力された信号を、ネットワークを介して受信することができる。通信は無線でも有線でもよい。入出力ネットワーク２１１は図２と同様に、ステレオカメラ２３０や表示装置２４０などとの間のインタフェースとして機能する。

　ＲＡＭ３４０は、ＣＰＵ３１０が一時記憶のワークエリアとして使用するランダムアクセスメモリである。ＲＡＭ３４０には、本実施形態の実現に必要なデータを記憶する領域及び報知プログラムを記憶する領域が確保されている。

　ＲＡＭ３４０は、表示装置２４０に表示される表示画面データ３４１と、ステレオカメラ２３０が撮影した画像データ３４２と、ステレオカメラ２３０が撮影した画像データから検出された手のデータ３４３とを一時的に格納している。また、ＲＡＭ３４０は、撮影した各手のデータから判定したジェスチャー３４４を格納している。

　さらに、ＲＡＭ３４０は、ポイントテーブル３４５を備え、複数人２０４を撮像して得たジェスチャーの全体的な傾向や、注目すべき特定人を選択する基準となるポイントを算出して一時的に保存する。

　ＲＡＭ３４０は、また、情報処理装置２１０が実行する報知プログラム３４９の実行エリアを備えている。なお、ストレージ３５０に格納された他のプログラムも、ＲＡＭ３４０にロードされてＣＰＵ３１０により実行され、図２の各機能構成部の機能を実現する。　ストレージ３５０は、データベースや各種のパラメータ、ＣＰＵ３１０が実行するプログラムを、不揮発に記憶する大容量記憶装置である。ストレージ３５０は、まず、図２でも説明した、ジェスチャーＤＢ２１５と報知プログラムＤＢ２１６とを格納している。

　ストレージ３５０は、情報処理装置２１０が実行するメインの情報処理プログラム３５４を含む。情報処理プログラム３５４は、撮影した複数人によるジェスチャーのポイントを集計するポイント集計モジュール３５５と、報知プログラムの実行を制御する報知プログラム実行モジュール３５６とを含む。

　なお、図３には、本実施形態に必須なデータやプログラムのみが示されており、ＯＳなどの汎用のデータやプログラムは図示されていない。

　《データ構成》
　以下に、情報処理装置２１０で使用される特徴的なデータの構成を示す。

　〈撮影した手のデータの構成〉
　図４は、撮影した手のデータ３４３の構成を示す図である。

　図４には、ジェスチャーとして、「手を振る」又は「ジャンケン」を判定するために必要な手のデータの一例を示している。なお、「手話」などについても、その判定に必要な手のデータを抽出することにより、判定が可能になる。

　図４の上段４１０は、「手を振る」ジェスチャーを判定するために必要なデータ例である。４１１は、撮影された不特定の人物の手について付された各手を識別する手のＩＤである。４１２は、手の位置、ここではその高さを抽出している。４１３は、移動履歴であり、図４には「一方向」、「往復運動」、「静止（間欠）」などが抽出されている。４１４は移動距離であり、４１５は移動速度である。かかる移動距離や移動速度が、たとえば、「手を振る」ジェスチャーか、「人を呼ぶ」ジェスチャーかを判別するために使用される。４１６は、顔の方向であり、注目しているか否かの判断に使用される。４１７は、この手を持つ人物を識別する人物ＩＤであり、４１８にはこの人物ＩＤの人物がどこに居るかの人物位置が抽出される。この人物位置により、ステレオカメラ２３０のフォーカス位置が決定される。あるいは３次元表示である場合は、この人物位置への表示画面の方向が決められても良い。また、スピーカ２５０による音声の内容や指向性が調整されてもよい。なお、「手を振る」ジェスチャーを判定するデータには、指の位置データなどが記載されていないが、指の位置を追加してもよい。

　図４の下段４２０は、「ジャンケン」ジェスチャーを判定するために必要なデータ例である。４２１は、撮影された不特定の人物の手について付された各手を識別する手のＩＤである。４２２は、手の位置、ここではその高さを抽出している。４２３は、親指の３次元の位置を示す。４２４は、人差指の３次元の位置を示す。４２５は、中指の３次元の位置を示す。４２６は、小指の３次元の位置を示す。４２７は、この手を持つ人物を識別する人物ＩＤであり、４２８にはこの人物ＩＤの位置が抽出される。なお、図４の例では薬指の位置は除いたが、これを含めてもよい。さらに、指だけでなく、掌や甲のデータやさらに詳細には指の関節位置などを判定に使用すれば、正確な判定が可能になる。図４の各データを、ジェスチャーＤＢ２１５の内容とマッチングすることで、ジェスチャーが判定されることになる。

　〈ジェスチャーＤＢの構成〉
　図５は、第２実施形態に係るジェスチャーＤＢ２１５の構成を示す図である。図５も、図４に対応させて、上段５１０が「方向指示」ジェスチャーを判定するＤＢの内容、下段５２０が「ジャンケン」ジェスチャーを判定するＤＢの内容である。「手話」についても別途設けられる。

　上段５１０の５１１は、各ジェスチャーと判定する「手の高さ」の範囲が記憶されている。５１２には、移動履歴が記憶されている。５１３には、移動距離の範囲が記憶されている。５１４には、移動速度の範囲が記憶されている。５１５には、指または手の移動方向が記憶されている。５１６は、５１１から５１５の要素から判定した結果としての「ジェスチャー」が記憶されている。たとえば、第１行の条件を満たせば「右方向指示」ジェスチャーと判定される。第２行の条件を満たせば「上方向指示」ジェスチャーと判定される。第３行の条件を満たせば「判別不能」ジェスチャーと判定される。「方向指示」ジェスチャーをできるだけ正確に判別するには、どんなデータが有効であるかによって、抽出する手のデータの種類もジェスチャーＤＢ２１５の構成も、追加あるいは変更される。

　下段５２０の５２１は、各ジェスチャーと判定する「手の高さ」の範囲が記憶されている。下段５２０は「ジャンケン」の判別であるので、「手の高さ」の範囲は同じであり、この高さを外れると「ジャンケン」とは見なさない。５２２には親指位置が、５２３には人差指位置が、５２４には中指位置が、５２５には小指位置が記憶されている。なお、５２２から５２５の指の位置は、指の絶対位置ではなく指の相対位置であり、図４の指の位置のデータとの比較も相対位置の関係から「ジャンケン」のジェスチャーを判定する。図５には具体的数値は示していないが、第１行の指の位置関係は「グー」、第２行の指の位置関係は「チョキ」、第３行の指の位置関係は「パー」と判定する。「手話」については、「ジャンケン」の判定に類似して時系列の履歴を含むものとなる。

　〈認識結果テーブルの構成〉
　図６Ａは、ジェスチャー認識部２１４よる認識結果を示す認識結果テーブル６０１の構成を示す図である。図６Ａに示すように、テーブル６０１には、人物のＩＤに対応して、その認識結果としてのジェスチャー（ここでは右方向指示及び上方向指示）が示されている。

　図６Ｂは、ジェスチャー以外の人物の動作や位置や環境に応じて予め定められた注目度係数を管理する注目度係数テーブル６０２を示す図である。ここでは、人物ごとにどの程度表示装置２４０に注目しているのかを示す注目度を判定するための係数テーブルとして、滞在時間テーブル６２１と顔のむきテーブル６２２とを示している。滞在時間テーブル６２１は、表示装置２４０の前に滞在している時間を人物ごとに評価するための係数１を保存している。また、顔のむきテーブル６２２は、表示装置２４０から見た場合の顔のむきを人物ごとに評価するための係数２を保存している。その他、人物から表示装置までの距離や、足の動きなど、他のパラメータを用いて注目度を判定しても良い。

　図６Ｃは、ジェスチャー毎のポイント集計テーブル６０３を示す図である。ポイント集計テーブル６０３は、ジェスチャー認識部２１４で認識した認識結果としてのジェスチャー（ここでは右方向指示、上方向指示など）ごとに、それぞれのポイントがどのように集計されたかを示している。

　具体的には、右方向指示のジェスチャーを行なったと判定される人物のＩＤと、その人物の注目度を示す係数１、係数２と、人物毎のポイントと、ポイント集計結果を保存している。ここでは、ジェスチャー自体の基礎ポイントを１０と規定しているため、１０に係数１及び係数２を積算したものが、各人のポイントとなる。集計結果は、各人よりも小さいＩＤの人物のポイントを全て加算した値である。

　図６Ｄは、図６Ｃを用いて算出した集計結果のみを表わすテーブル６０４を示す図である。このように集計することにより、表示装置２４０の前にいる複数人が、全体としてどのようなジェスチャーを行なった傾向が強かったかを判定できる。テーブル６０４の例では、上方向指示を行なった集団のポイントが高いため、全体として上方向指示のジェスチャーをする傾向が強いと判断し、画面を上方向にスライドさせるなど、装置をその傾向に応じて制御すればよい。

　以上のように、単なる多数決だけではなく、注目度に判定した重み付けを行なって集団の総意を判定することにより、より公平な操作または今までにないデジタルサイネージを実現できる。

　《動作手順》
　図７は、画像処理システム２００の動作手順を示すフローチャートである。図３のＣＰＵ３１０がＲＡＭ３４０を使用しながらこのフローチャートに記載された処理を実行することにより図２の各機能構成部の機能を実現する。

　まず、ステップＳ７０１において、表示装置２４０に画像を表示させる。例えば不特定の人物のジェスチャーを誘引する画像を表示させる。次に、ステップＳ７０３において、ステレオカメラ２３０で撮影をして画像を取得する。ステップＳ７０５において、撮影画像から人物を検出する。次に、ステップＳ７０７において、人物毎にジェスチャーを検出する。更に、ステップＳ７０９において、検出した人物毎に滞在時間や顔のむきに基づいて「注目度」を判定する。

　更にステップＳ７１１に進んで、人物毎のポイントを算出し、ステップＳ７１３でジェスチャーごとにポイントを加算する。ステップＳ７１５では、全ての人物のジェスチャーの検出及びポイント加算が終了したか判定し、全ジェスチャーのポイント集計が終了するまで、ステップＳ７０５乃至ステップＳ７１３の処理を繰り返す。

　全ての「ジェスチャー」についてポイント集計が終了すれば、ステップＳ７１７に進んで、最高集計ポイントのジェスチャーを決定する。ステップＳ７１９では、これがデジタルサイネージの前にいる集団の総意と判断して、報知プログラムの実行処理を行なう。また、個人毎のポイントもポイント集計テーブル６０３に残っているため、最もポイントの高い人物にフォーカスを当てることも可能である。そのような人物を特定し、その後、その人物のみに向けた報知プログラムを報知プログラムＤＢ２１６から選択して実行してもよい。

　《効果》
　以上の構成によれば、１つのデジタルサイネージで、大勢の観衆とのコミュニケーションを行なうことが可能となる。例えば、交差点などに設けられた巨大画面に画像を表示して、その前にいる群衆を撮影し、その総意を汲み取ったり、その群衆全体とのコミュニケーションを行なったりすることができる。

　或いは、大学の講義や選挙演説など、聴衆のジェスチャーや注目度を判定して、モニターに表示する画像や演説内容などを変化させても良い。反応した大衆の集計ポイントによって、興味を示す人を増やすような表示や音声に切り替えていくことも可能である。

　［第３実施形態］
　次に、図８乃至図１２を用いて、本発明の第３実施形態について説明する。図８は、本実施形態に係る情報処理装置８１０の構成を示すブロック図である。第２実施形態と比較すると、ＲＡＭ３４０に、属性判定テーブル８０１と報知プログラム選択テーブル８０２とを有する点で異なる。また、ストレージ３５０に、人物認識ＤＢ８１７と属性判定モジュール８５８と報知プログラム選択モジュール８５７とを記憶する点でも異なる。

　第３実施形態では、第２実施形態に加えて、ジェスチャーにより「対象者」と判定された人物の属性（たとえば、性別や年齢）を、ステレオマメラ２３０からの画像に基づいて判断し、属性に応じた報知プログラムを選択して実行する。なお、「対象者」の属性のみでなく、服装や行動傾向、あるいはグループなのかなどを判断して、それに応じて報知プログラムを選択してもよい。本実施形態によれば、「対象者」が引き続き報知プログラムに引きつけることが可能となる。なお、第３実施形態における画像処理システム及び情報処理装置の構成は、第２実施形態と同様であるので重複する説明は省き、以下追加部分を説明する。

　属性判定テーブル８０１は、図９に示すように、顔の特徴９０１や服装の特徴９０２や身長９０３などから、それぞれの人物がどのような属性（ここでは性別９０４及び年齢９０５）を有していると考えられるか判断するためのテーブルである。

　報知プログラム選択テーブル８０２は、人物の属性に応じて、どの報知プログラムを選択するかを決定するためのテーブルである。

　人物認識ＤＢ８１７は、人物の属性を判定するために予め定められた特徴毎のパラメータが格納されている。つまり、顔や服装や身長に応じてポイントが決められており、そのポイントを総計することで、女性なのか男性なのか、どの程度の年齢層なのか判断できる構成となっている。

　属性判定モジュール８５８は、人物認識ＤＢ８１７を用いて人物毎または複数人グループの属性を判定し、属性判定テーブル８０１を生成するプログラムモジュールである。撮像画像中でジェスチャーを行なっているそれぞれの人物がどのような属性（年齢、性別など）を有するのか、あるいは、グループとしてどのような属性（カップル、親子、友人など）を有するのか判断する。

　報知プログラム選択モジュール８５７は、人物またはグループの属性に応じた報知プログラムを報知プログラムＤＢ２１６から選択する。

　図１０は、報知プログラムＤＢ２１６の構成を示す図である。図１０には、報知プログラムを識別し、読み出しのキーとなる報知プログラムＩＤ１００１が記憶されている。それぞれの報知プログラムＩＤ、図１０では「００１」「００２」から各々の報知プログラムＡ（１０１０）と報知プログラムＢ（１０２０）とが読み出し可能である。図１０の例では、報知プログラムＡは「化粧品広告」のプログラム、報知プログラムＢは「マンション広告」のプログラムと仮定する。人物認識ＤＢ８１７を使って認識された「対象者」の属性に応じた報知プログラムが報知プログラムＤＢ２１６から選択されて実行されることになる。

　図１１は、報知プログラム選択テーブル８０２の構成を示す図である。図１１の１１０１は、ジェスチャーにより「対象者」となった人物ＩＤである。１１０２は、人物認識ＤＢ８１７により認識した「対象者」の「性別」である。１１０３は、「対象者」の「年齢」である。これらの「対象者」の属性などに対応付けられて、１１０４の報知プログラムＩＤが決定される。図１１の例では、「対象者」である人物ＩＤ（００１０）の人物は性別が「女性」、「年齢」は２０～３０代と認識されたので、図１０の化粧品広告の報知プログラムＡが選択されて実行される。また、「対象者」である人物ＩＤ（０００５）の人物は性別が「男性」、「年齢」は４０～５０代と認識されたので、図１０のマンション広告の報知プログラムＢが選択されて実行される。なお、かかる報知プログラムの選択は一例であって、これに限定されない。

　図１２は、本実施形態に係る情報処理装置の動作手順を示すフローチャートである。図１２のフローチャートは、図７のフローチャートにステップＳ１２０１とＳ１２０３とを追加したものであり、他のステップは同様であるので、ここではこの２つのステップについて説明する。

　ステップＳ１２０１において、人物認識ＤＢ８１７を参照して、「対象者」の属性を認識する。次に、ステップＳ１２０３において、図１１に示した報知プログラム選択テーブル８０２にしたがって、報知プログラムを報知プログラムＤＢ２１６から選択する。

　以上の実施形態により、ジェスチャーを行なった対象者の属性に応じた広告報知を行なうことが可能となる。例えば、複数人とジャンケンを行なって勝った人に合わせた広告報知を行なうことなどが可能となる。

　［第４実施形態］
　上記第２及び第３実施形態では、１つの情報処理装置による処理として説明をした。第４実施形態においては、複数の情報処理装置がネットワークを介して報知情報サーバに接続し、報知情報サーバからダウンロードされた報知プログラムを実行する構成を説明する。本実施形態によれば、互いの情報交換が可能になると共に、報知情報サーバに情報を集中して一元的に広告・宣伝を管理することが可能になる。なお、本実施形態の情報処理装置は、第２及び第３実施形態の情報処理装置と同等の機能を有しても良いし、その機能の一部を報知情報サーバに移行してもよい。また、報知プログラムばかりでなく、状況に応じて情報処理装置の動作プログラムを報知情報サーバからダウンロードすることで、配置場所に適切なジェスチャーによる制御方法が実現される。

　第４実施形態における処理は、機能分散があったとしても、基本的には第２及び第３実施形態と同様であるので、画像処理システムの構成を説明し、詳細な機能説明は省略する。

　図１３は、本実施形態に係る画像処理システム１３００の構成を示すブロック図である。図１３において、図２と同じ参照番号は同様な機能を果たす構成要素を示している。以下、相違点を説明する。

　図１３には３つの情報処理装置１３１０が示されている。数に制限はない。これらの情報処理装置１３１０は、ネットワーク１３３０を介して、報知情報サーバ１３２０に接続される。報知情報サーバ１３２０は、ダウンロード用の報知プログラム１３２１を記憶しており、ステレオカメラ２３０で撮影された各地点の情報を受け取って、ダウンロードすべき報知プログラムを選択する。たとえば、複数の表示装置２４０が関連したジェスチャーの誘引画像を表示するなどの統合された制御が可能となる。

　なお、図１３では、情報処理装置１３１０が、特徴的な構成要素である、ジェスチャー判定部２１４、ジェスチャーＤＢ２１５、報知プログラムＤＢ２１６、報知プログラム実行部２１７を有するものとして図示した。しかし、この一部の機能を報知情報サーバ１３２０、あるいは他の装置に分散してもよい。

　［他の実施形態］
　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステム又は装置も、本発明の範疇に含まれる。

　また、本発明は、複数の機器から構成されるシステムに適用されても良いし、単体の装置に適用されても良い。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した記憶媒体、その制御プログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。

　この出願は、２０１０年１１月１０日に出願された日本国特許出願　特願２０１０－２５１６７９号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　画像を表示する画像表示手段と、
　前記画像表示手段の前に集まった複数人の画像を撮像する撮像手段と、
　前記画像表示手段に表示された表示画像に対して、前記複数人のそれぞれが行なったジェスチャーを、前記撮像手段で撮像した画像から認識するジェスチャー認識手段と、
　前記ジェスチャー認識手段による認識結果に基づいて、前記表示画面を遷移させる表示制御手段と、
　を備えたことを特徴とする画像処理システム。
　前記ジェスチャー認識手段による認識結果に基づいて、前記複数人が全体としてどのような傾向のジェスチャーを行なったかを判定する判定手段をさらに有し、
　前記表示制御手段は、前記判定手段による判定結果に応じて、前記表示画面を遷移させることを特徴とする請求項１に記載の画像処理システム。
　前記ジェスチャー認識手段による認識結果に基づいて、前記複数人中の特定の人物が行なったジェスチャーを判定する判定手段をさらに有し、
　前記表示制御手段は、前記判定手段による判定結果に応じて、表示画面を遷移させることを特徴とする請求項１に記載の画像処理システム。
　前記判定手段は、前記複数人の各人のジェスチャーについて、その各人の注目度に応じた重み付けを行なった上で前記傾向を判定することを特徴とする請求項２に記載の画像処理システム。
　前記判定手段は、前記複数人の各人のジェスチャーについて、その各人の注目度に応じた重み付けを行なった上で、予め定められた複数のグループのジェスチャーのうち、どのグループのジェスチャーを行なう傾向にあったかを判定することを特徴とする請求項２に記載の画像処理システム。
　前記複数人のそれぞれについて、前記画像表示手段の前に滞在している時間及び顔の向きに基づいて、前記注目度を算出することを特徴とする請求項４又は５に記載の画像処理システム。
　画像表示手段に表示された画像に対して、画像表示手段の前に集まった複数人のそれぞれが行なったジェスチャーを、撮像手段で撮像した画像から認識するジェスチャー認識手段と、
　前記ジェスチャー認識手段による認識結果に基づいて、表示画面を遷移させる表示制御手段と、
　を備えたことを特徴とする画像処理装置。
　画像表示手段に画像を表示する画像表示ステップと、
　前記画像表示手段の前に集まった複数人の画像を撮像する撮像ステップと、
　前記画像表示手段に表示された画像に対して、前記複数人のそれぞれが行なったジェスチャーを、前記撮像ステップで撮像した画像から認識するジェスチャー認識ステップと、
　前記ジェスチャー認識ステップでの認識結果に基づいて、表示画面を遷移させる表示制御ステップと、
　を備えたことを特徴とする画像処理方法。
　画像表示手段に画像を表示する画像表示ステップと、
　前記画像表示手段の前に集まった複数人の画像から、前記複数人のそれぞれが行なったジェスチャーを認識するジェスチャー認識ステップと、
　前記ジェスチャー認識ステップでの認識結果に基づいて、表示画面を遷移させる表示制御ステップと、
　をコンピュータに実行させることを特徴とする画像処理プログラムを記憶した記憶媒体。