WO2011043060A1

WO2011043060A1 - 追尾対象選択装置、方法、プログラム及び回路

Info

Publication number: WO2011043060A1
Application number: PCT/JP2010/005956
Authority: WO
Inventors: 康伸小倉; 物部　祐亮
Original assignee: パナソニック株式会社
Priority date: 2009-10-07
Filing date: 2010-10-05
Publication date: 2011-04-14
Also published as: CN102239687A; US20110241991A1; EP2355492A4; EP2355492B1; EP2355492A1; JPWO2011043060A1; US8432357B2; CN102239687B; JP5399502B2

Abstract

　追尾対象（１０３ｘｍ）を選択する追尾対象選択装置（１ａ）であって、入力画像（９Ｉｂ）における固定の位置（９２Ｐ）に映像（９３）を合成する合成部（３０６）と、表示部（３０７）と、前記固定の位置（９２Ｐ）に表示されている、前記映像（９２）に対して操作（１０４Ｌ２）がされた場合に、検出された被写体（３０１ｘ）を、予め定められた処理における追尾での追尾対象（１０３ｘｍ）として選択する選択部（３０８）とを備える追尾対象選択装置（１ａ）が構築される。

Description

追尾対象選択装置、方法、プログラム及び回路

　本発明は、デジタルスチルカメラ、デジタルビデオカメラ、ネットワークカメラ、セキュリティカメラなどの分野において、画像中から、追尾対象物体を、正確に選択するための技術に関する。

　近年、デジタルスチルカメラやデジタルビデオカメラ等に代表される、撮像機能を有する小型の電子機器が普及するとともに、これらの撮像機能の高機能化が進んでいる。

　例えば、これらの撮像装置は、通常、ＬＣＤ等のディスプレイを備えており、ユーザは、記録される映像を、ディスプレイで確認しながら、被写体を撮影することが可能である。現在、デジタルスチルカメラやデジタルビデオカメラの分野において、人物の顔を検出し、検出した顔に対して、自動合焦機能（ＡＦ（Ａｕｔｏ　Ｆｏｃｕｓ））や自動露光機能（ＡＥ（Ａｕｔｏ　Ｅｘｐｏｓｕｒｅ））等の、調整の処理をすることができる撮像装置や、人物の笑顔度を測定し、シャッター制御を行う撮像装置も存在する。

　しかし、顔が複数検出された場合、検出された複数の顔のうちのどの顔に対して制御を行うかを判断するのが困難である。このため、ユーザが意図しない対象に対して、制御（ＡＦの処理、ＡＥの処理など）が行われる場合がある。一方で、ユーザが意図する人物について、予め、その人物の顔画像を登録しておき、特定の人物（登録された顔画像の人物）のみを検出したり、ユーザが選択した人物・物体に対して追尾を行い、その追尾に合わせて、ＡＦ／ＡＥ制御を行う撮像装置も存在する。

　ユーザが、追尾したい人物や物体を選択する、従来の技術としては、ユーザの手入力（例えば、タッチパネル上の追尾対象物体領域に対するタッチなど）によって、追尾対象物体領域を指定し、指定された追尾対象物体領域の色特徴を抽出し、抽出された色特徴等の物体等の追尾を行う技術や、画像中から、追尾候補オブジェクトを検出し、検出した追尾候補オブジェクトを選択し、選択された追尾候補オブジェクトを、追尾オブジェクトとして設定する技術がある（例えば、特許文献１、特許文献２参照）。

　図２１は、前記特許文献１に記載された従来技術のブロック図である。

　従来技術として、図２１に示される処理の方法９Ａが挙げられる。

特開２００４－２５２７４８号公報特開２００７－７４２７９号公報

　しかしながら、前記特許文献１の方法では、追尾対象物体が、静止状態（もしくは、静止に近い状態）である必要がある。

　図２は、従来技術の課題を説明する図である。

　つまり、例えば、ムービーなどの動画の撮影環境では、被写体が動いている場合が多い。そして、このような撮影環境下において、追尾対象（ＡＥ等において行われる追尾での追尾対象）の選択を行う場合、ムービーのユーザが、ＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）等のディスプレイを見ながら、選択を行う。そして、図２の（Ａ）欄に示すように、追尾対象の選択を行った瞬間、被写体が動いてしまうことがある。つまり、例えば、被写体の映像９１として、動く前の第１の時刻において、第１の位置９１ａ１Ｐの第１の映像９１ａ１が表示される一方で、第２の時刻において、第２の位置９１ａ２Ｐの第２の映像９２ａ２が表示されることがある。つまり、こうして、映像９１が、第１の位置９１ａ１Ｐと、第２の位置９１ａ２Ｐとの間で移動（位置が変化）することがある。

　このような移動の結果、ユーザの意図とはずれた位置の物体（例えば、映像９１の位置が、第２の位置９１ａ２である第２の時刻における、第１の位置９１ａ１Ｐにある物体（図略）など）に対して、選択を行ってしまい、誤った選択に基づいた追尾を行ってしまう。

　なお、このような、映像９１の移動は、例えば、その映像９１へと写された被写体（図１４における被写体１０３ｘを参照）の、三次元空間（道路１０３Ｒを参照）における移動により生じることもある。

　一方で、デジタルカメラやムービーの撮影では、三脚を用いず、手持ちで撮影する場合も多い。このため、被写体が、三次元空間において（道路１０３Ｒにおいて）、ほぼ静止している場合であったとしても、映像９１が移動することが生じることがある。つまり、対象選択の設定の際、機器のボタン操作や、タッチパネルでの操作を行う必要がある。このため、これらの操作により、カメラ本体が動いてしまうことがある。そして、このような、カメラ本体の動きが生じる結果、被写体の位置（被写体１０３ｘの位置を参照）と、カメラの位置（撮像素子１０３の位置を参照）との間の位置関係がずれる事で、映像９１（図２）の位置が、複数の位置（位置９１ａ１Ｐ、９１ａ２Ｐなど）の間で変化してしまうことがある。つまり、こうして、カメラの動きが、誤設定の原因となってしまうことがある。

　また、特許文献２の方法では、追尾対象物の選択を、オブジェクト検出された１以上の候補の中から行う。

　しかし、図２の（Ｂ）欄に示すように、追跡対象の視認性が悪い場合（例えば、対象が、顔の場合においては、顔が小さい場合（映像９１ｂ）、後ろ（例えば、左後ろなど）を向いている場合（映像９１ｃ）など）において、ユーザが、追尾対象として選択したい物体が、どれか分からず（分かり難くて）、適切に選択をすることが困難で、選択の操作が、簡単にできないことがある。

　そこで、本発明は、上記の課題を解決するものであり、追尾対象選択の操作（タッチなど）を、簡易（簡単）にすることができ、追尾対象が静止状態にない場合や（映像９１ａなど）、視認性が悪い場合（映像９１ｂ、映像９１ｃなど）等であっても、簡単に選択できて、ひいては、（確実に）正しく選択ができるようにするための、追尾対象選択装置及びその方法並びに記憶媒体等を提供することを目的とする。

　上述の課題を解決するために、第１の追尾対象選択装置は、追尾対象を選択する追尾対象選択装置であって、入力画像（カメラなどで撮像された入力画像（第２の入力画像））から、所定の物体（予め定められた物体、当該入力画像に撮像された物体）を検出する物体検出部と、前記物体検出部により検出した前記物体を追尾し、追尾される当該物体がある追尾物体候補領域を算出する追尾部と、入力画像（第１の入力画像）における固定の位置に、前記追尾部で算出された前記追尾物体候補領域の画像（第１の入力画像に含まれる第１の映像の被写体の、第２の入力画像における第２の映像）を合成する合成部と、前記合成部で、前記画像が前記固定の位置に合成された後における、合成された当該画像が含まれる前記入力画像（合成後における第１の入力画像）を表示する表示部と、前記表示部により表示される、合成がされた後の前記入力画像における、前記固定の位置に表示されている、合成がされた前記画像に対して、ユーザにより操作（タッチの操作など）がされた場合に、前記操作がされた前記画像において検出された前記物体（例えば、人物（の顔）、車など）を、予め定められた処理（例えば、ＡＦの処理など）における追尾での前記追尾対象として選択する選択部とを備える。

　本構成によって、ユーザが、追尾させたい物体を（、複数の物体から）選択する（追尾対象選択装置に選択させる）際において、対象物体（追尾させたい物体）が動いている場合でも、対象物体候補（画像合成された画像）が、固定の位置に表示されるため、ユーザが意図する対象物体を、正確に選択することが可能となる。

　そして、第２の追尾対象選択装置は、上述の構成、作用を有し、かつ、前記追尾部で追尾している前記対象物体候補領域の前記画像から、所定の特徴を抽出する特徴抽出部と、前記特徴抽出部から抽出された前記特徴から、対象物体の所定の状態（方向（図２の映像９１ｃなどを参照）など）を算出し、算出される前記状態が、予め定められた状態か否か（正面向きの方向か否かなど）を判定する判定部と、前記判定部によって、算出された、前記対象物体候補領域の前記状態が、前記予め定められた状態であると判定された場合に、判定がされた前記追尾対象候補領域（前記追尾対象候補領域の画像）を記憶する記憶部とを備える。

　なお、例えば、領域を記憶するとは、その領域の映像を記憶することをいう。

　本構成によって、対象物体候補領域（その領域の画像）の状態（例えば、その領域に写された被写体の方向など）を判定し、記憶部に記憶し、記憶された対象物体候補領域（の画像）が、固定の位置に表示される。このため、ユーザが、対象物体を選択する時点で、撮像される、対象物体の映像（上述された、第１の入力画像における第１の映像）が、視認性が悪い映像で（図２の（Ｂ）欄などを参照）、その映像の対象物体が、ユーザが意図する対象物体か否かをユーザが判断できない（判断し難い）場合でも、ユーザが、意図する対象物体を、正確に選択することが可能となる。

　なお、本装置は、例えば、追尾装置と呼ばれてもよいし、対象選択装置と呼ばれてもよいし、物体選択装置などのその他の名前で呼ばれてもよい。

　なお、表示を行う表示部の一部などにより、この表示の制御を行う表示制御部が構成されてもよい。つまり、表示部が、この表示制御部により、当該表示部による表示を制御してもよい。

　本発明の追尾対象選択装置によれば、画像中の対象物体が動いている場合（図２の（Ａ）欄を参照）や、対象物体の映像の視認性が悪い（対象が小さい、不適切な向きであるなどによって、ユーザが、対象物体（が複数の物体のうちの何れであるか）を（簡単に）認識できない）場合（（Ｂ）欄を参照）であっても、正確に、ユーザが意図する対象物体を、選択することが可能になる。

　すなわち、操作が簡単にでき、かつ、簡単さの程度が、より十分にでき、かつ、合成がされる画像（本書類における「他方の映像」）の位置が、確実に適切できる。

図１は、本発明の実施の形態における追尾対象選択装置のブロック図である。図２は、従来技術の課題を説明する図である。図３は、本発明の実施の形態１における追尾対象選択装置の機能構成を示す機能ブロック図である。図４は、本発明の実施の形態１における追尾対象選択装置の機能構成を示す表示処理までのフローチャートである。図５は、本発明の実施の形態１における追尾対象選択装置の機能構成を示す追尾対象選択処理のフローチャートである。図６は、本発明の実施の形態１における追尾部のフローチャートである。図７は、本発明の実施の形態１における追尾部を説明するための図である。図８は、本発明の実施の形態１における特徴抽出部での、物体の向き算出を説明するための図である。図９は、本発明の実施の形態１における顔中心座標の算出を説明するための図である。図１０は、本発明の実施の形態１における鼻位置座標の算出を説明するための図である。図１１は、本発明の実施の形態１における記憶部を説明するための図である。図１２は、本発明の実施の形態１における表示部を説明するための図である。図１３は、本発明の実施の形態１における選択処理を説明するための図である。図１４は、本発明の実施の形態１における他の例を説明するための図である。図１５は、本発明の実施の形態２における追尾対象選択装置の機能構成を示す機能ブロック図である。図１６は、本発明の実施の形態２における追尾対象選択装置の機能構成を示す表示処理までのフローチャートである。図１７は、本発明の実施の形態２における表示の例を説明するための図である。図１８は、本発明の実施の形態３における追尾対象選択装置の機能構成を示す機能ブロック図である。図１９は、本発明の実施の形態３における追尾対象選択装置の機能構成を示す表示処理までのフローチャートである。図２０は、本発明の実施の形態３における表示の例を説明するための図である。図２１は、従来技術のブロック図である。図２２は、追尾対象選択装置のブロック図である。図２３は、画面を示す図である。図２４は、撮像された複数の画像を示す図である。図２５は、画面を示す図である。図２６は、複数の時刻での画面を示す図である。図２７は、小さいサイズの映像などを示す図である。図２８は、被写体の向きが、正面向きでない映像などを示す図である。

　以下、本発明の実施の形態について図面を参照しながら説明する。

　実施形態の追尾対象選択装置は、追尾対象（追尾対象１０３ｘｍ：図２２）を選択する追尾対象選択装置（追尾対象選択装置１、カメラ）であって、入力画像（例えば画像９Ｉａなど（図２２、図２４）、カメラにおいて撮像された第２の入力画像）から、所定の物体（被写体３０１ｘ）を検出する物体検出部（物体検出部３０１：図３、図２２など）と、前記物体検出部により検出した前記物体（被写体３０１ｘ）を追尾し、追尾される当該物体がある追尾物体候補領域（（画像９Ｉａに含まれる先の映像９３の）領域３０１ｘＲ）を算出する追尾部（追尾部３０２）と、入力画像（画像９Ｉｂ（図２２、図２４など）、第１の入力画像）における固定の位置（位置９２Ｐ：図２２、図１２、図１３など）に、前記追尾部で算出された前記追尾物体候補領域（領域３０１ｘＲ）の画像（先の映像９３（図２２、図２４など）、映像９２（図２２、図１２、図１３など））を合成する合成部（合成部３０６）と、前記合成部で、前記画像（映像９２（映像９３））が前記固定の位置（位置９２Ｐ）に合成された後における、合成された当該画像（映像９２）が含まれる前記入力画像（画像９Ｃ（図２２、図２４、図１２、図１３など））を表示する表示部（表示部３０７）と、前記表示部により表示される、合成がされた後の前記入力画像（画像９Ｃ）における、前記固定の位置（位置９２Ｐ）に表示されている、合成がされた前記画像（映像９２（映像９３））に対して、ユーザ（ユーザ１Ｕ：図２２）により操作（操作１０４Ｌ２（図２２、図１３など）、タッチの操作など）がされた場合に、（複数の物体（被写体Ａ～Ｃなど）のうちで、）前記操作がされた前記画像（映像９３）において検出された前記物体（被写体３０１ｘ：例えば、図１２、図１３の被写体Ｂ）を、予め定められた処理（ＡＦの処理など）における追尾での前記追尾対象（追尾対象１０３ｘｍ：図２２）として選択する選択部（選択部３０８）とを備える。

　そして、本追尾対象選択装置は、前記追尾部で追尾している前記対象物体候補領域（領域３０１ｘＲ）の前記画像（映像９３）から、所定の特徴（座標９０４（図９）など）を抽出する特徴抽出部（特徴抽出部３０３）と、前記特徴抽出部から抽出された前記特徴（座標９０４など）から、対象物体（映像９３、被写体３０１ｘ）の所定の状態（角度３Ｄ１ｂ（図１１）、方向１０３ｘ１、１０３ｘ２など）を算出し、算出される前記状態が、予め定められた状態（例えば０度（の近傍）、方向１０３ｘ２（図１２）など）か否かを判定する判定部（判定部３０４）と、前記判定部によって、算出された、前記対象物体候補領域（領域３０１ｘＲ、領域３０１ｘＲの映像９３）の前記状態（角度３Ｄ１ｂ（図１１）等）が、前記予め定められた状態（０度、方向０１３ｘ２など）であると判定された場合に、判定がされた前記追尾対象候補領域（領域３０１ｘＲ、領域３０１ｘＲの映像９３）を（合成に利用されるもの（領域、映像）として）記憶する記憶部（記憶部３０５）とを備える。

　なお、例えば、領域を記憶するとは、その領域の映像を記憶することをいう。また、表示部（表示部３０７）が、当該表示部による表示を制御してもよい。つまり、例えば、表示部の一部または全部により、この制御を行う表示制御部が構成されてもよい

　つまり、当該追尾対象選択装置は、カメラ（図１などを参照）であり、被写体（例えば図２５の被写体Ｂ）の、一方の映像（一方の映像９１）を撮像する撮像素子（撮像素子１０３：図１）を備え、前記表示部（表示部３０７）は、撮像された前記一方の映像（一方の映像９１）と共に、当該一方の映像（一方の映像９１）の被写体（被写体Ｂ）の他方の映像（他方の映像９２：図２５など）を表示し、前記選択部（選択部３０８）は、表示された前記他方の映像（他方の映像９２）に対する操作（操作９２Ｌ：図２５など）がされた場合に、撮像された前記一方の映像（一方の映像９１）の前記被写体（被写体Ｂ）を、予め定められた処理（ＡＦの処理など）における追尾での、追尾の対象（追尾対象１０３ｘｍ：図２２）として選択してもよい。

　これにより、タッチ等の操作で選択される被写体（被写体Ｂ）の映像（一方の映像９１）が、カメラ（撮像素子１０３）により撮像された映像で、様々な映像（図２，図２６～図２８などを参照）であることがあり、どのような映像であるか、予測が付かない（付き難い（ことが多い））にも関わらず、適切な動作がされる。

　つまり、被写体（図２５の被写体Ｂ）の映像として、撮像された一方の映像９１と共に、当該一方の映像９１とは異なる他方の映像９２も表示されて、表示された当該他方の映像９２に対する操作９２Ｌがされることにより、被写体（被写体Ｂ）が選択される。これにより、撮像される一方の映像９１がどのような映像であるか（図２、図２６～図２８などを参照）に関わらず、他方の映像９２への操作で足りて、選択の操作が簡単にできる。

　しかも、例えば、複数の時刻（図２６の上段の第１の時刻、下段の第２の時刻）のうちの第２の時刻（下段の時刻）での、表示される、合成された前記画像（図２６における、他方の映像９２１Ｎ（９２１））の位置（位置９２１ＰＮ）は、第１の時刻（上段の時刻）での当該他方の映像（他方の映像９２１Ｍ（９２１））の位置（位置９２１ＰＭ）と同じ位置（共通する位置９２１Ｐ）であり、異なる位置（上段での位置９２１ＰＭとは異なる他の位置（符号は省略））ではない。

　つまり、例えば、こうして、他方の映像９２Ｐの位置９２Ｐは、複数の時刻（第１の時刻、第２の時刻）の間のうちに、移動（変化）されず、静止しており、つまり、共通の位置９２Ｐ（固定位置）に固定される。

　なお、このような複数の時刻は、例えば、第１の映像９１１（図２６上段、下段）の位置が、第１の時刻での位置９１１ＰＭから、第２の時刻での位置９１１ＰＮへと移動（変化）する際における、第１の時刻および第２の時刻などである。

　これにより、他方の映像９２に対する操作がユーザによりされるのに際して、例えば、図２６の位置９１１ＰＭ（上段）および９１１ＰＮ（下段）、または、図２の位置９１ａ１Ｐおよび９１ａ２Ｐなどのような、互いに異なる複数の位置から、操作を行うべき位置を特定する必要がない。つまり、単に、第１の時刻に位置９２１ＰＭでの操作がされるのと同じく、第２の時刻にも、第１の時刻での位置９２１ＰＭと同じ位置９２１ＰＮ（共通する位置９２１Ｐ）での操作がされるだけで済む。このため、複数の位置から、位置がユーザにより特定される必要がなく、操作が、より十分に簡単にできる。

　しかも、第２の時刻（下段）での一方の映像９１１Ｎ（９１１）の位置９１１ＰＮは、第１の時刻（上段）における位置９１１ＰＭと違うにも関わらず、第２の時刻（下段）における、他方の映像９２１Ｐの位置９２１ＰＮは、第１の時刻（上段）での位置９２１ＰＭと同じ位置（位置９２１Ｐ、右下隅の場所）であり、他の位置ではない。このため、一方の映像９１１の位置が変化するにも関わらず、他方の映像９２１の、第１の時刻（上段）における位置９２１ＰＭが適切な位置（右下隅の位置）であるのと同じく、第２の時刻（下段）における位置９２１ＰＮも、適切な位置（右下隅の位置）に維持され、確実に、他方の映像９２１が、適切な位置（例えば、右下隅の位置）に表示できる。

　こうして、本装置によれば、操作が簡単にでき、かつ、簡単さの程度が、より十分にでき、かつ、合成がされる画像（他方の映像９２（９２１））の位置が、確実に適切にできて、様々な効果が両立できる。

　（実施の形態１）
　本実施の形態１では、追尾対象選択装置（追尾対象選択装置１ａ）について開示する。

　図１は、追尾対象選択装置のブロック図である。

　図３は、本実施の形態１における対象追尾選択装置の機能ブロック図である。

　図１を用いて、本形態の追尾対象選択装置の構成を説明する。

　図１において、ＣＰＵ（中央演算処理装置）１０１は、ＲＯＭ（リードオンリーメモリ：Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１０２に格納され、図４、図５（後述）に示すフローチャートに沿う処理のための画像処理プログラム（例えばコンピュータプログラム１Ｐ）を実行し、バス１１０を経由し、図３に示す各要素を制御する。

　なお、例えば、ＲＡＭ（ランダムアクセスメモリ）１０５および外部記憶装置１０６には、図３に示す記憶部３０５のための領域の他、ＣＰＵ１０１が、その処理のために必要とする一次記憶領域が確保されている。

　なお、図３に示す各処理部の処理は、例えば、ＣＰＵ１０１が、ＲＯＭ１０２に格納された画像処理プログラムを実行することにより行われる。

　本装置は、物体検出部３０１と、追尾部３０２と、特徴抽出部３０３と、判定部３０４と、記憶部３０５と、合成部３０６と、表示部３０７と、選択部３０８とを有する。

　なお、各部の動作の詳細については、後述する。

　図４は、本発明の、追尾対象候補の表示方法のフローチャートである。

　図４に示す、追尾対象候補の表示方法は、図１の装置によって実現される。なお、本実施の形態では、対象物体を、人物の顔（図７、図８などを参照）として、また、所定の状態を、顔の向き（図８の（Ａ）欄、（Ｂ）欄、図２の映像９１ｃなどを参照）として、説明する。

　ステップＳ４０１で、本装置において、撮像素子１０３から入力された画像から、物体検出部３０１は、人物の顔の位置と大きさとをそれぞれ検出する。

　ステップＳ４０２で、物体検出部３０１で検出された、人物の顔を、固有の物体として、物体追尾を行う（追尾部３０２）。

　ステップＳ４０３で、追尾された顔の顔向きを算出するための特徴を抽出する（特徴抽出部３０３）。

　ステップＳ４０４で、ステップＳ４０３で抽出された特徴から、顔の向きを推定する（例えば特徴抽出部３０３により）。

　ステップＳ４０５で、ステップＳ４０４で推定された、顔の向きが、所定の状態（例えば、正面向きの顔）との誤差が、過去の推定誤差より小さい向きか否かを判定する（判定部３０４）。

　ステップＳ４０６で、ステップＳ４０５において、過去の推定誤差より小さいと判定された場合に（Ｓ４０５：Ｙｅｓ）、記憶部３０５に、より小さいと判定された推定誤差を更新する。

　ステップＳ４０７で、ステップＳ４０６における処理と同様に、ステップＳ４０１で検出された顔画像を、その顔画像に付与されている（その顔画像に対応付けられた）固有のラベルとともに、記憶部３０５に記憶更新する（データ３Ｄ（図３）を参照）。

　ステップＳ４０８で、ステップＳ４０７で記憶された顔画像を、固定の位置（図１２、図１３の位置９２Ｐなどを参照）に表示されるように、合成部３０６で合成を行い、合成された、固定の位置における顔画像を、表示部３０７に表示する。

　物体検出部３０１は、撮像素子１０３から入力された画像（入力画像）から、ユーザが追尾したい人物の顔の候補を検出する。

　なお、詳細な検出アルゴリズムとしては、例えば、特開２００６－３５０６４５等で公開されている、ＡｄａＢｏｏｓｔアルゴリズムを用い、例えば、顔向き毎に、専用の顔向きを検出する識別器を構成して、適切な処理を実現する（後述の説明を参照）。

　なお、物体検出方法は、このアルゴリズムに限ったものではない。

　なお、非特許文献　ＰＲＭＵ　１０７（２０６）　ＰＰ２１１－２２４において、一般物体の検出に関しても、その可能性が述べられている。つまり、本技術は、対象物体を、人物の顔に限ったものではなく、対象物体を、一般物体まで広げた範囲において、適応することが可能である。

　追尾部３０２は、物体検出部３０１が、例えば、１個のシステムＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）として構成され、リアルタイム処理（例えば、１秒当たり３０回以上の処理）が可能となった場合などに適する、次のような処理をしてもよい。つまり、一度検出された物体は、次フレームでは、前フレームで検出された位置の近傍で検出される可能性が高いはずである。つまり、上述された、リアルタイム処理が可能であるケース等においては、追尾部３０２において、このような、検出位置の連続性を用いて、この連続性を用いる追尾部を実現してもよい。

　図６は、追尾部のフローチャートである。

　ステップＳ６０１で、検出された物体の位置の近傍に、１フレーム前に、物体が存在したかを判定する。

　ステップＳ６０２で、ステップＳ６０１において、１フレーム前における位置の近傍に、検出した物体が存在すると判定された場合に（Ｓ６０１：Ｙｅｓ）、検出された物体（１フレーム前における、近傍に存在した物体と同じ物体）の検出座標の履歴を更新する。

　ステップＳ６０３で、ステップＳ６０１において、１フレーム前の近傍に、検出した物体が存在しないと判定された場合に（Ｓ６０１：Ｎｏ）、検出された物体に対して、これまでに検出された物体に付与された各ラベルとは異なる、固有のラベル（新しいラベル）を付与する。

　ステップＳ６０４で、新たに検出された物体検出座標を、検出座標の履歴に、新たに追加する。

　なお、ここでの説明では、位置の連続性を用いた追尾方法を述べたが、用いられる方法は、色を用いた物体追尾方法や、顔照合を用いた物体追尾方法であってもよいし、その他の方法でもよい。

　図７は、追尾の結果を示す。

　前フレーム７０１（図７の上段）において検出された、物体の位置（位置７０２ａ、７０３ａ）から、後フレーム７０４（下段）において検出された物体の位置（位置７０５ａ、７０６ａ）へと、検出される位置が変化した場合が、図７により示される。

　そして、この場合において、既に（図７の上段の時刻から）存在して、固有のラベルが付与されているＡ（７０２）、Ｂ（７０３）については、後フレーム７０４（下段の時刻）では、次の処理がされる。つまり、行われる処理は、それぞれの物体（前フレーム７０１における、位置７０２ａの物体、位置７０３ａの物体）の位置が、新しい位置（下段における位置７０５ａ、位置７０６ａ）に変わっても、上段の時刻での、その物体のラベルと同一のラベル、つまり、変化しないラベルにより、その物体へのラベルの付与がされる処理である。これにより、図示されるように、位置７０５ａについて、Ａ（７０５）の付与がされ、位置７０６ａについて、Ｂ（７０６）の付与がされる。他方で、新たに検出された物体（７０７）は、新たにラベルＣ（新しいラベル）が付与される。

　特徴抽出部３０３の本説明では、人物の顔向きで説明する。

　図８は、本発明の実施の形態１における特徴抽出部での、物体の向きの算出の処理を説明するための図である。

　例えば、抽出する特徴（属性、性質）として、左右の目位置（例えば、図８の（Ａ）欄での、２つの目の座標８０１、８０２）、顔中心座標（例えば座標８０３）、鼻位置座標（例えば座標８０４）、顔サイズ（図８のＳｉｚｅ）の５点を抽出する。

　なお、両目の検出においては、人物顔の検出のアルゴリズムと同様のアルゴリズムにより、検出が可能である。なお、この検出で用いられる方法は、例えば、エッジベースの、コーナー検出アルゴリズムを用いた方法などでもよいし、その他の方法などでもよい。

　図９は、本発明の実施の形態１における、顔中心座標の算出の処理を説明するための図である。

　顔検出器（顔検出器３０３ａ）は、複数の顔向き検出器（検出器３０３ａ１～３０３ａ３など）から構成されており、顔が存在する１箇所において、それらの、様々な顔向きの複数の検出器（検出器３０３ａ１等）のうちのそれぞれが、位置・サイズが変わる、互いに異なる複数の候補枠を出力する（検出器３０３ａ１による３つの（複数の）枠９０１、検出器３０３ａ２による３つの枠９０２、検出器３０３ａ３による３つの枠９０３などを参照）。

　そして、出力された複数の候補枠の中心座標の平均値、サイズの平均値をそれぞれ算出し、それら複数の算出で得られる複数の情報を統合した結果として得られる中心座標が、顔中心座標となる（座標９０４）。なお、つまり、こうして、例えば、それら、検出器３０３ａ１による複数の枠９０１と、検出器３０３ａ２による複数の枠９０２と、検出器３０３ａ３による複数の枠９０３とのうちの何れもが利用されることにより、比較的精度よく、顔の中心の座標９０４が算出されてもよい。

　図１０は、本発明の実施の形態１における、鼻位置座標（座標１００４を参照）の算出の処理を説明するための図である。

　顔中心座標の処理（上述の図９など）と同様に、複数の顔向き検出器（例えば、検出器３０３ｂ１～３０３ｂ３など）のそれぞれが、位置・サイズが変わる、複数の候補枠を出力する（図９を参照）。

　そして、この、出力された候補枠に対して、その候補枠を出力した検出器に対応する処理がされる。つまり、それぞれの候補枠に対して、一定量の、その候補枠を出力した検出器に対応するオフセットを与える。なお、例えば、与えられるオフセットは、顔サイズで正規化されたオフセットである。このことにより、候補枠の中心座標を、鼻位置に補正する（図１０における、補正後の枠１００１～１００３を参照）。

　そして、オフセット量を与えられた候補枠（補正後の枠１００１～１００３）の中心座標の平均値、サイズの平均値をそれぞれ算出し、各算出で得られる情報を統合した結果の中心座標が、鼻位置座標（座標１００４）とされる。

　なお、今回の例では、鼻位置座標の算出において、各顔検出器の出力結果を用いて、算出をしたが、人物顔の検出と同様のアルゴリズムにより、検出を行っても良いし、別のアルゴリズムを用いて、位置の検出を行っても良い。

　判定部３０４の説明では、人物の顔向き判定の例を用いて、説明する。

　上述のようにして、特徴抽出部３０３により、左右の目位置座標、顔中心座標、鼻位置座標、および、顔サイズが、下記の処理がされるよも前に、既に得られている。

　そこで、まず、顔中心位置と（例えば図９の座標９０４など）、鼻位置と（図１０の座標１００４など）のそれぞれの位置のＸ成分（下記の数式１におけるFace_ｘおよびNose_ｘ）の、顔サイズ（FaceSize、下記の数式１の分母を参照）で正規化した、正規化差分量（F_ｎ、数式１の左辺を参照）を算出する。

　　　　　　　　　　　　　　　　　　　　　　　　　　　（数１）

　また、同様に、顔中心位置と（下記の数式２におけるFace_ｘを参照）、左右の目（下記の数式２におけるLEye_ｘおよびLEye_ｙ、図８を参照）の中心点（図８の座標８０５ａを参照）とのＸ成分の、顔サイズ（FaceSize、下記の数式２の分母を参照）で正規化した、正規化差分量（F_ｅ、数式２の左辺を参照）を算出する。

　　　　　　　　　　　　　　　　　　　　　　　　　　　（数２）

　それぞれの、算出された正規化差分量(F_ｎ, F_ｅ、数式１および数式２）から、その差分量に相当（対応）する、顔向きの角度(下記の数式３、４における、Dir_ｎ, Dir_ｅを参照)を、ルックアップテーブル（数式３、４におけるLUT_ｎ, LUT_ｅを参照）よりテーブル引きし、顔向き角度（Dir_ｎ, Dir_ｅ）とする。

　　　　　　　　　　　　　　　　　　　　　　　　　　　（数３）

　　　　　　　　　　　　　　　　　　　　　　　　　　　（数４）

　そして、最終的な顔向き角度としては、下記の[式５]（数式５）に示す通り、上述の数式３、４でそれぞれ算出された顔向き（Dir_ｎ、Dir_ｅ）に対して、重み(W_ｎ, W_ｅ)を掛け、足し合わせた値（Dir）を算出する。

　　　　　　　　　　　　　　　　　　　　　　　　　　　（数５）

　なお、顔向き判定においては、より多くの顔特徴点を取得してもよく、つまり、例えば、幾何学的位置関係から、顔向きを、より精度よく算出するアルゴリズムなどを用いても良い。

　そして、算出された顔向き角度が、所定の向きか否かを判定する。ここでは、例えば、説明の都合上、所定の向きを、正面の顔向き（図１２の方向１０３ｘ２などを参照）で説明する。

　そして、算出された顔向き角度が、－１０度～１０度（０度の、予め定められた近傍の角度）の場合、正面向きの顔と判定し、記憶部３０５に、正面向きの顔と判定された画像とともに、顔向き角度の算出値、付与されたラベルも記憶する（図３のデータ３Ｄを参照）。

　そして、次フレーム以降の処理においては、同一の追尾対象の顔向き算出値が、記憶している算出値（顔向き算出値）と比較した時における、より正面向きである顔の算出値（顔向き算出値）であった場合には、次の処理がされる。つまり、その処理は、記憶部に記憶している、正面向きの画像と、顔向き角度の算出値とを、上述された、同一の追尾対象の顔向き算出値が算出された画像と、その顔向き算出値とへと、それぞれ更新する処理である。

　図１１は、本発明の実施の形態１における記憶部を説明するための図である。

　先述の説明のようにして、適切な処理がされることにより、記憶部には、図１１に示すように、追尾している物体（顔）の、正面の向きの画像（画像３Ｄ１ａ～３Ｄ３ａ）と、顔向きの算出値（値（スコア）３Ｄ１ｂ～３Ｄ３ｂ）と、付与されたラベル（ラベル３Ｄ１ｃ～３Ｄ３ｃ）とがそれぞれ記憶される。なお、ラベル（ラベル３Ｄ１ｃなど）は、例えば、そのラベルが付与される画像（例えば画像３Ｄ１ａ）の被写体（被写体Ａ）を、複数の被写体（被写体Ａ～Ｃ）のうちから特定する情報などである。

　合成部３０６は、記憶部に記憶されている、追尾物体の画像のサイズを正規化し、正規化がされた後における、追尾物体の画像を、入力画像と合成する。つまり、例えば、記憶された画像から、予め定められたサイズを有し、当該予め定められたサイズへと、サイズが正規化（変更）された画像が生成されて、生成された画像が、上述の入力画像（の一部分）に合成されてもよい。

　なお、合成する場所は、撮影シーン画像の邪魔にならない場所であることが好ましく、例えば、画面の下部や上部などの四隅に合成してもよい（図１２における、合成がされる、右下隅の場所などを参照）。

　また、普段は、正規化された画像の合成がされないなどで、正規化された画像が表示されず、合成がされる前の、元々の入力画像のみを表示させておいてもよい。そして、ユーザの操作によって、正規化された画像の表示を行うことが指示された場合にのみ、任意の場所（右下隅の場所など）に、画像（正規化された画像）の合成を行い、元々の入力画像と、正規化された画像との両方が含まれる、合成後の画像が生成され、表示されてもよい。つまり、この指示がされた場合にのみ、その画像（正規化された画像）を表示させても良い。

　また、入力画像における、追尾している物体の位置（例えば、図１２における映像９１の位置）の付近に、付与された、その物体に対応するラベル（図１２における、映像９１の付近に示される「Ｂ」の文字を参照）も合成してもよい。このことによって、選択しようとしている対象物体（被写体の、正規化されて、合成された画像（映像９２を参照））と、実際の、入力画像上での位置（入力画像で、その被写体が撮像された位置（映像９１の位置））との間の対応が（比較的簡単に）取れる為、ユーザにとって分かり易くできる。

　図１２は、本発明の実施の形態１における表示部を説明するための図である。

　表示部３０７は、合成部３０６によって、入力画像と、記憶部で記憶している画像を表示させる。図１２に、記憶している画像と、入力画像を合成し、合成により生成された画像９Ｃを表示させた例を示す。

　図５は、本発明の実施の形態１における追尾対象選択装置の機能構成を示す追尾対象選択処理のフローチャートである。

　次に、追尾対象候補の選択方法の説明を、図５のフローチャートで説明する。

　ステップＳ５０１で、記憶部に記憶している、追尾対象候補の画像を、固定位置に表示する。なお、例えば、第１の時刻（例えば、図２６の上段での時刻）で表示がされると共に（Ｓ５０１ａ）、第１の時刻で表示がされる位置（例えば位置９２１ＰＭ）と同じ位置（位置９２１ＰＮ）に、第２の時刻における表示がされて、固定位置への表示がされてもよい。

　ステップＳ５０２で、ユーザの操作（合成されて表示された、上記の画像（図１２の映像９２）に対するタッチ等）によって、追尾したい対象を、固定位置からユーザが選択する（ユーザが、装置１に選択させる）。つまり、例えば、対象（例えば図１２の被写体Ｂ）が、その対象の、合成された映像（例えば図１２の映像９２ｂ）が表示された固定位置（位置９２ｂＰ）に対する操作（タッチ等）により、選択されてもよい。

　図１３は、本発明の実施の形態１における選択処理を説明するための図である。

　図１３に示すように、ユーザが、それぞれの顔画像が、固定位置（位置９２Ｐなど）で、正面を向いた顔画像（映像９２）である複数の顔画像（被写体Ａ～Ｃの３個の顔画像）の中から、追尾したい対象の顔画像をタッチして、その顔画像の対象（被写体、例えば被写体Ｂ）を選択することが可能であり、誤った対象選択が行われなくなる。

　なお、対象を選択後、選択された対象に対してのみ、追尾枠（図１３における、被写体Ｂの映像９１に付された、太線９１ｘによる枠を参照）を表示し、ＡＥ／ＡＦの制御を行う。また、対象選択後は、記憶部に記憶している画像を合成せずに、映像９２等の合成をせず、画面１０４Ｒにおける表示をしても良い。

　図１４は、本発明の実施の形態１における、他の例を説明するための図である。

　実施の形態１では、人物の顔を例にとって説明したが、図１４に示すように、人物以外の一般物体、例えば、車のような場合の形態が構成されても良い。

　また、特徴抽出部で、笑顔判定に用いる顔画像の、エッジや周波数成分を、特徴として抽出してもよい。そして、判定部において、抽出された特徴から、笑顔度を判定して、記憶部に記憶させ、スチール写真として、そのシーンを出力しても良い。つまり、例えば、複数の顔画像のうちで、その顔画像から抽出された特徴から特定される笑顔度が比較的高い顔画像が出力されて、出力される顔画像のシーンの映像が、合成された映像（映像９２参照）として出力されてもよい。

　（実施の形態２）
　図１５は、本実施の形態２における、文字情報を用いた追尾対象選択装置（装置１ｂ）の機能ブロック図である。

　本装置は、物体検出部１５０１と、追尾部１５０２と、特徴抽出部１５０３と、文字認識部１５０４と、記憶部１５０５と、合成部１５０６と、表示部１５０７と、選択部１５０８とを有する。

　各部の動作については、後で詳しく述べられる。

　図１６は、本発明の実施の形態２における追尾対象選択装置の機能構成（処理構成）を示す、表示処理までのフローチャート図である。

　実施の形態１の場合と、多くの点が同じであるため、文字認識部の処理以降の部分（Ｓ１６０４以降の部分）を特に詳しく説明する。

　ステップＳ１６０４で、追尾している対象物体候補画像から、文字認識に必要な特徴を抽出する（特徴抽出部１５０３）。

　ステップＳ１６０５で、追尾している対象物体候補が、既に文字認識できているものか否かを判定する。

　ステップＳ１６０６で、まだ文字認識が出来ていないなら、抽出した特徴より、文字認識を行う（文字認識部１５０４）。

　ステップＳ１６０７で、文字認識に成功したか否かを判定する。

　ステップＳ１６０８で、文字認識に失敗したなら（Ｓ１６０７：Ｎｏ）、追尾物体の画像を記憶する。

　ステップＳ１６０９で、文字認識に成功したなら（Ｓ１６０７：Ｙｅｓ）、認識した文字を記憶する（記憶部１５０５）。

　ステップＳ１６１０で、記憶部に記憶している追尾対象候補画像や文字を、入力画像と合成し、固定の位置（固定位置）に表示する。

　文字認識部１５０４は、追尾対象物体が持つ、固有の文字情報を認識する。例えば、認識される文字情報は、車のナンバープレートの情報のような文字情報である。

　記憶部１５０５では、追尾対象の画像と、認識した文字情報の両方（図３のデータ３Ｄを参照）を記憶する。

　合成部１５０６では、入力画像に対して、追尾対象候補画像、もしくは文字情報、もしくはそれらの両方を合成して（後述の図１７などを参照）、合成がされた後における画像（入力画像）を、表示部１５０７に表示させる。

　図１７は、本発明の実施の形態２における、表示の例を説明するための図である。

　例えば、図１７に示されるような表示がされてもよい。

　（実施の形態３）
　図１８は、本実施の形態３における、文字情報を用いた対象追尾選択装置（装置１ｃ）の機能ブロック図である。

　本装置は、物体検出部１８０１と、追尾部１８０２と、特徴抽出部１８０３と、類似度算出部１８０４と、記憶部１８０５と、合成部１８０６と、表示部１８０７と、選択部１８０８と、登録ＤＢ１８０９とを有する（ＤＢ：database）。

　図１９は、本発明の実施の形態３における追尾対象選択装置の機能構成（処理構成）を示す、表示処理までのフローチャート図である。

　実施の形態１の場合と、多くの点が同じであるため、判定部以降の部分（Ｓ１９０５以降の部分）を特に詳しく説明する。

　ステップＳ１９０５で、追尾している対象物体候補画像から抽出された特徴（特徴１８０３ａ：図１８）と、予め登録ＤＢに登録されている特徴（特徴１８０９ａ）との間のマッチングを行い、（それらの特徴の間の）類似度（類似度１８０４ａ：図１８）を算出する。

　ステップＳ１９０６で、Ｓ１９０５で算出された類似度（類似度１８０４ａ）を、過去の類似度（データ３ＤＷ（図１８）を参照）と比較して、判定する。

　ステップＳ１９０７で、ステップＳ１９０５で算出された類似度が、過去の類似度（データ３ＤＷの類似度）よりも高い値である場合に（Ｓ１９０６：Ｙｅｓ）、類似度の更新を行う。

　ステップＳ１９０８で、過去の類似度より高い値である場合において（Ｓ１９０６：Ｙｅｓ）、追尾物体を記憶更新する。

　ステップＳ１９０９で、ステップＳ１９０５で算出された類似度が、ある閾値より高いかを判定する。

　ステップＳ１９１０で、ある閾値より高い類似度であれば（Ｓ１９０９：Ｙｅｓ）、登録ＤＢに付随する付加情報も、記憶部に記憶する。

　ステップＳ１９１１で、記憶部に記憶している追尾対象候補画像と付加情報とを、それぞれ、入力画像に合成し（図１７の映像９２ｅを参照）、入力画像における固定の位置に、それらを表示する。

　登録ＤＢ１８０９は、特定の人物の顔画像と、付加情報（人物名など）とを、予め登録してあるデータベースである。

　類似度算出部１８０４では、特徴抽出部１８０３で抽出された特徴（特徴１８０３ａ：図１８）と、予め登録してある、登録ＤＢ１８０９での特徴（特徴１８０９ａ）との間のマッチングを行う。マッチングの結果の類似度（類似度１８０４ａ）が、以前の類似度（データ３ＤＷの類似度）よりも高い類似度であれば（図１９のＳ１９０６：Ｙｅｓ）、類似度と、追尾物体画像とを記憶部へ、記憶更新する。さらに、類似度が閾値を超える場合には（Ｓ１９０９：Ｙｅｓ）、登録ＤＢに付随する付加情報も、記憶部に記憶する。

　合成部１８０６では、追尾対象画像とともに、付加情報がある場合には、その付加情報も、入力画像（先述）に対して合成し、表示部で表示する。

　図２０は、本発明の実施の形態３における表示の例を説明するための図である。

　表示例を、図２０に示す。

　なお、また、本発明を、上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。

　上記の対象物体選択装置は、具体的には、中央演算処理装置（ＣＰＵ：Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、などから構成されるコンピュータシステムである。そして、前記ＲＡＭには、コンピュータプログラムが記憶されている。前記ＣＰＵが、前記コンピュータプログラムに従って動作することにより、各装置は、その機能を達成する。ここで、コンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが、複数個組み合わされて、構成されたものである。

　上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を、１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

　上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能な、ＩＣカード（ＩＣ：Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）または単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

　本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

　また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、コンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ－ＲＯＭ）、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌ　ｄｉｓｋ（ｄｉｓｃ））、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Ｂｌｕ－ｒａｙＤｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。

　また、本発明は、登録データ、前記コンピュータプログラム、または前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送する方法としてもよい。

　また、本発明は、マイクロプロセッサとメモリとを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

　また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または、前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより本発明を実施するとしてもよい。

　こうして、要するに、追尾対象をユーザが選択する際、追跡対象が動いている場合（図２の（Ａ）欄を参照）や、視認性が悪い場合（（Ｂ）欄を参照）でも、追尾対象を選択し易くすることができる。つまり、入力画像中から、所定の物体を検出する物体検出部と、前記検出された物体を、（時刻が互いに異なっても互いに）同一の物体と（特定）して、追尾を行う追尾部と、前記追尾（追跡）をしている物体から、特徴を抽出する特徴抽出部と、前記抽出した特徴から、検出物体の状態（例えば、顔の方向など）を算出し、検出物体を記憶するか否かの判定を行う判定部と、前記判定部により、記憶すると判定された物体の状態を表すスコアと、追尾している物体の画像（当該スコアにおける状態（顔の方向）での画像）とを記憶する記憶部と、入力画像に対して、前記記憶部で記憶している、物体の画像（上述のスコアの状態での画像）を、固定の位置において合成して、合成がされた後における、上述の入力画像を表示する表示部と、前記表示部の、固定の位置に表示されている検出物体を、予め定められた処理（例えば、ＡＦの処理）における追尾での追尾対象として選択する選択部からなる。

　なお、被写体は、猫、犬などのペットでもよい。そして、先述された、固定の位置（図１２の位置９２Ｐ等）に合成され、表示される画像（例えば、図１２における、他方の映像９２）は、ペットの毛並み（色、模様、毛並みのテクスチャなど）を表示する画像でもよい。

　なお、図１４の処理がされる際などにおいては、例えば、道路１０３Ｒを走る車（被写体１０３ｘ）の監視がされてもよい。

　なお、こうして、図２６に示されるように、被写体（例えば、図２６の被写体Ｂ）の、撮像された第１の映像（一方の映像９１）と共に、その被写体の、タッチ等の操作がされる第２の映像（他方の映像９２）が表示されてもよい。

　そして、図１２の方向９２ｂｄ、方向９２ｍｄにより示されるように、例えば、一の被写体（例えば、図１２の被写体Ｂ）の第２の映像（他方の映像９２ｂ）における、被写体（被写体Ｂ）の方向（方向９２ｂｄ）は、他の被写体（例えば被写体Ｃ）の第２の映像（他方の映像９２ｍ）における、被写体（被写体Ｃ）の方向（方向９２ｍｄ）と同じでもよい。

　すなわち、固定位置に表示される対象物が、必ずしも、同じ方向（向き）を向いていなくても良い。

　つまり、図１２における、被写体Ｂの他方の映像９２ｂにおける方向９２ｂｄは、被写体Ｃの他方の映像９２ｍにおける方向９２ｍｄと同じ方向である。これら、方向９２ｂｄおよび方向９２ｍｄにより示されるように、例えば、固定位置に表示される対象物が、同じ方向を向いていてもよい。

　一方で、必ずしも、この図１２での例のように、同じ方向（方向９２ｂｄおよび方向９２ｍｄを参照）を向いている必要はなく、説明の便宜上から詳しい説明（図示等）は省略されたが、違う方向を向いていても良い。

　なお、この点に関しては、図１４における、方向９２ｄｄと、方向９２ｎｄについても、同様である。

　なお、例えば、図１４に示される車Ａ～Ｃ（図１４の上部の３つの被写体１０３ｘ）の３つの第１の映像（一方の映像９１）は、それぞれ、撮像素子１０３により撮像された、道路１０３Ｒの画像９Ｉｂ（図１４）の一部でもよい。つまり、画像９Ｉｂが撮像されることにより、それぞれが、撮像された画像９Ｉｂにおける一部であり、当該画像９１ｂにおいて、当該一部に含まれる映像である複数の第１の映像（複数の一方の映像９１（図１４））が撮像されてもよい。

　こうして、例えば、前記判定部は、前記状態（写された被写体の方向など）を示すスコア（角度３Ｄ１ｂ（図１１）等）を算出し、前記記憶部は、前記追尾物体候補領域の前記画像（画像３Ｄ１ａ（図１１））とともに、算出された、当該画像の前記状態の前記スコア（角度３Ｄ１ｂ等）を記憶してもよい。

　また、前記判定部は、算出された、前記状態を示すスコア（角度３Ｄｘｂ（図１１））を、前記記憶部に予め記憶されたスコア（角度３Ｄ１ｂ）と比較して、算出された前記スコア（角度３Ｄｘｂ）と、算出された前記スコア（角度３Ｄｘｂ）により示される前記状態の前記画像（画像３Ｄｘａ）とを前記記憶部に更新するか否かを判定し、前記判定部により、更新すると判定された場合、前記記憶部に予め記憶された前記スコア（角度３Ｄ１ｂ）と、予め記憶された当該スコア（角度３Ｄ１ｂ）に対応付けて記憶された画像（画像３Ｄ１ａ）とを、算出された前記スコア（角度３Ｄｘｂ）と、算出された当該スコア（角度３Ｄｘｂ）の前記画像（画像３Ｄｘａ）とへと、それぞれ更新してもよい。

　また、前記特徴抽出部は、前記追尾物体候補領域の前記画像（映像９３：図２２など）に表れる向き（図１２の向き１０３ｘ１、向き１０３ｘ２などのうちの１つ）を示す特徴量（座標９０４（図９）など）を抽出し、前記判定部は、抽出した前記特徴量に基づいて、当該特徴量により示される前記向き（向き１０３ｘ１、向き１０３ｘ２などのうちの１つ）が、所定の向き（例えば、方向１０３ｄ（図１２）の向き）であるか否かを判定し、前記所定の向きと判定された場合に、判定がされた前記向きを示す前記特徴量が抽出された前記追尾物体候補領域（画像３Ｄｘａ（図１１）、画像３Ｄｘａがあった、図２２の領域３０１ｘＲ等）を前記記憶部に記憶させてもよい。

　また、前記追尾物体候補領域（領域３０１ｘＲ：図２２）は、人物の顔（顔８Ｆ：図８）の領域であり、前記特徴抽出部は、前記特徴量として、顔中心座標（例えば座標８０７：図８）、鼻位置座標（座標８０８）、目位置座標（座標８０５、８０６）、顔サイズ（Ｓｉｚｅ）を抽出し、前記判定部は、前記顔中心座標（座標８０７）と、前記鼻位置座標（座標８０８）との２つの座標の間の差と、前記顔中心座標（座標８０７）と、２つの前記目位置座標（座標８０５、８０６）の中心の座標（座標８０５ａ）との２つの座標の間の差との２つの前記差（符号を付けず）から、前記所定の向き（図１２の方向１０３Ｄの向き）か否かの判定（先述）をしてもよい。

　また、前記特徴抽出部は、前記追尾物体候補領域（領域３０１ｘＲ：図２２）の人物の顔表情を示す特徴量を抽出し、前記判定部は、抽出した当該特徴量に基づいて、前記人物の前記顔表情が、笑顔の表情であるか否かを判定してもよい。

　なお、笑顔の表情であるか否かの判定は、例えば、公知の技術による処理により、行われてもよい。

　また、前記特徴抽出部は、前記追尾物体候補領域（領域３０１ｘＲ）の物体から、文字認識に必要な特徴量（例えば、文字のエッジの位置、方向など）を抽出し、前記判定部は、抽出した当該特徴量に基づいて、当該物体に表れた文字の文字認識ができたか否かを判定してもよい。

　また、前記特徴抽出部は、前記追尾物体候補領域（領域３０１ｘＲ）の物体から、物体認識に必要な特徴量を抽出し、前記判定部は、前記記憶部に予め登録されている特徴と、抽出した当該特徴量により示される特徴との間のマッチングを行い、判定をしてもよい。

　なお、例えば、物体認識とは、複数の物体のうちから、追尾物体候補領域の物体と同じ物体を特定することなどをいう。

　また、前記合成部は、前記追尾物体候補領域（領域３０１ｘＲ）の画像（図２０の映像９２など）に加えて、前記判定部により得られる付加情報（ラベル（名前など）の画像９２Ｎ）も（撮像された入力画像（先述）に対して）合成してもよい。

　なお、例えば、図２６の上段の時刻における、他方の映像９２の表示は、図５のＳ５０１ａでされると共に、下段の時刻での表示は、Ｓ５０１ｂでされてもよい。

　なお、例えば、追尾対象１０３ｘｍ（図２２等）として選択される被写体を特定する選択データ３０８ｄ（図２２）が生成されることにより、生成されるデータ２０８ｄにより特定される被写体が、追尾対象１０３ｘｍとして選択されてもよい。

　そして、表示される前記他方の映像（図２５の他方の映像９２）における、前記被写体（被写体Ｂ）のサイズ（サイズ９２Ｓ）は、予め定められた閾値（閾値Ｔｈ）以上のサイズ（サイズ９２Ｓ）であり、当該閾値（閾値Ｔｈ）よりも小さいサイズ（図２の映像９１ｂのサイズ、図２７の小さいサイズ９１２Ｓなど）ではなくてもよい。

　これにより、閾値以上の大きなサイズ９２Ｓのために、ユーザが、他方の映像９２を見る際において、見られた当該他方の映像９２の被写体（例えば、図２５での被写体Ｂ）として、複数の被写体（被写体Ａ～Ｃなど）のうちから、当該被写体と同じ被写体（被写体Ｂ）が簡単に特定される。これにより、例えば、他方の映像９２に対する操作９２Ｌをするのが適切であるのがユーザにより簡単に判断されるなどして、操作が、さらに十分に簡単にできる。

　なお、閾値Ｔｈは、具体的には、例えば、写された被写体のサイズが、そのサイズ以下であると、当該サイズでの被写体の写された映像（図２の映像９１ｂ、図２７の映像９１２）に対する操作が、簡単でなく、行い難いサイズ（例えば、そのようなサイズの複数のうちの最大のものなど）などでもよい。

　そして、表示される前記他方の映像（図２５の他方の映像９２）における、前記被写体の方向（図２８の方向９２ｄ）は、予め定められた方向（図１２の方向１０３ｄ）と同じ方向（方向１０３ｘ２、撮像素子１０３（カメラ１）を向いた方向）であり、異なる方向（方向１０３ｘ１、図２８の方向９１３ｄ、図２の映像９１ｃでの方向（後ろ向きの方向、左後ろを向いた方向など）ではなくてもよい。

　なお、被写体の方向とは、例えば、被写体の正面などの、被写体が有する複数の面のうちの、その被写体の特徴が多く表れた面が向く方向（図２８の方向９２ｄ、図１４の方向９２ｄｄ等を参照）などをいう。

　そして、上述された、予め定められた方向は、例えば、撮像素子１０３を向いた方向１０３ｄ（図１２）と同じ（方向１０３ｄに近い、方向１０３ｄの近傍の）方向などである。

　これにより、被写体の正面の外観（の特徴（図２５の映像９２、図１４の映像９２等を参照））がユーザに見え易いなどにより、ユーザが、複数の被写体（例えば、図２５の被写体Ａ～Ｃ）から、他方の映像９２に写された被写体（被写体Ｂ）が、何れの被写体であるかを、より簡単に特定して、操作が、さらに十分に簡単にできる。

　なお、例えば、図２６の一方の映像９１１は、例えば、より具体的には、位置９１１ＰＭ（上段）から位置９１１ＰＮ（下段）へと移動し、かつ、写された被写体のサイズが、閾値Ｔｈ（図２５等）よりも小さいサイズであり（図２７の小さいサイズ９１２Ｓを参照）、かつ、写された被写体（被写体Ｂ）の方向が、予め定められた方向（図１２の方向１０３ｄ）とは異なる方向（方向１０３ｘ１、図２６の一方の映像９１１における、左後ろ向きの方向を参照）である映像でもよい。

　このような一方の映像９１１が撮像される際において、位置が移動せず（図２５、図２６の位置９２Ｐを参照）、大きいサイズ９２Ｓ（図２５を参照）を有し、かつ、予め定められた方向と同じ方向（図１２の方向１０３ｘ２）を有する他方の映像９２１（図２６）が表示されてもよい。

　これにより、このような一方の映像９１１が撮像される際においてさえ、操作が簡単にできて、さらに十分、確実に、操作が簡単にできる。

　そして、前記撮像素子は、前記一方の映像（図２８の一方の映像９１）である、後の映像（図２４の一方の映像（後の映像）９１）を撮像するよりも前に、当該後の映像の前記被写体（図２８の被写体Ｂ）と同じ被写体（被写体Ｂ）が写され、写された当該被写体の方向（図２４の映像９３ｘでの方向）が、前記予め定められた方向（図１２の方向１０３ｄ）と同じ方向（方向１０３ｘ２）である先の映像（図２４の先の映像９３ｘ）を撮像し、前記表示部は、撮像された前記先の映像（先の映像９３ｘ）の情報（図２４（図３）の情報３Ｄ）を利用することにより（合成部３０６（図２４、図３など）により）生成された、前記予め定められた方向と同じ方向（図１２の方向１０３ｘ２、図２８の方向９２ｄ）の前記他方の映像（図２８の他方の映像９２）を表示してもよい。

　これにより、単に、先の映像９３ｘ（図２４）が撮像されるだけで、簡単に、他方の映像９２の表示のための情報（情報３Ｄ：図２４、図３など）が利用されるのが可能になり、他方の映像９２の表示が簡単にできる。

　なお、例えば、先述のように、方向１０３ｘ２を有する、適切な先の映像９３（先の映像９３ｘ：図２４）と、方向１０３ｘ１を有する、不適切な先の映像９３とが含まれる複数の先の映像９３（図２４を参照）から、適切な先の映像９３（先の映像９３ｘ）が選択されて、利用されてもよい。

　そして、前記表示部は、前記被写体（例えば、図１７における車Ｃ）の前記一方の映像（一方の映像９１ｅ）および前記他方の映像（他方の映像９２ｅ）以外の、当該被写体（車Ｃ）のその他の映像（図１７の映像９３（図２４の先の映像９３を参照））から生成された、複数の被写体（車Ａ～Ｃ）から当該被写体（車Ｃ）を特定する文字（図１７の「奈良３３０ｘｘ－ｏｏ」、文字列９２ｅ２）を示す映像（他方の映像９２ｅ）を、前記他方の映像（他方の映像９２）として表示してもよい。

　そして、前記合成部（合成部３０６）は、前記一方の映像（一方の映像９１ｅ）および前記他方の映像（他方の映像９２ｅ）以外の前記その他の映像（図１７の映像９３）から文字認識により特定された前記文字（「奈良３３０ｘｘ－ｏｏ」、文字列９２ｅ２）が、当該その他の映像（映像９３）に対して合成された映像（他方の映像９２ｅ）を生成し、前記表示部は、生成された当該映像（他方の映像９２ｅ）を、前記他方の映像（他方の映像９２）として表示してもよい。

　これにより、ユーザが、被写体の特定を、さらに簡単にできて、操作が、さらに十分に簡単にできる。

　なお、例えば、被写体が顔８Ｆ（図８）である際などにおいて、被写体の名前などの情報の文字（文字列）が表示されてもよい。

　なお、例えば、上述の文字認識を行う文字認識部１５０４（図１５など）が設けられてもよい。そして、例えば、文字認識部１５０４は、図１５に示されるように、例えば、判定部３０４の一部でもよいし、判定部３０４の外部などに設けられてもよい。

　なお、例えば、ある局面などにおいて、一方の映像９１（先述）として、図２３の映像９Ｗが撮像されてもよい。そして、この映像９Ｗは、例えば、図２５に示される、他方の映像９２と同様に、（所定時間の間）移動せず、かつ、大きなサイズ９２Ｓを有し、かつ、写された被写体の方向が、予め定められた方向と同じ方向（図１２の方向１０３ｘ２）の映像でもよい。

　そして、撮像された一方の映像９１が、このような映像９Ｗであるか、映像９Ｗではない他の映像（図２６の一方の映像９１１、図２７の一方の映像９１２、図２８の一方の映像９１３などを参照）であるかに関わらず、一方の映像９１が撮像され、表示される際には、その一方の映像９１（映像９Ｗ、または、一方の映像９１２等の何れか）の被写体の他方の映像９２が表示されてもよい。

　これにより、映像９Ｗが撮像され、表示される際にも、他方の映像９２が表示されて、映像９Ｗではない上述の他の映像が撮像される際の処理と同じ処理がされて、処理がり簡単にできる。

　しかも、他の映像が撮像される際の表示と同じ表示がされて、より分かり易い表示ができる。

　これにより、より簡単な処理と、より分かり易い表示とが両立できる。

　なお、本カメラは、例えば、民生品のデジタルカメラなどで、購入したユーザにより望まれる時に、望まれる被写体が撮像されて、どのような被写体の映像が撮像されるか、予測が付かない（付き難い）カメラなどである。

　なお、本カメラは、例えば、道路１０３Ｒを走る車などの、偶然現れた被写体１０３ｘを撮像するカメラ（例えば監視カメラ等）などでもよい。

　また、図１３に示されるように、例えば、他方の映像９２に対する操作１０４Ｌ２がされた際において、操作１０４Ｌ２がされたことを示す表示（太線）９１Ｘが、一方の映像９１の位置９１Ｐと、他方の映像９２の位置９２Ｐとのうちで、一方の映像９１の位置９１Ｐ（の近傍）にのみ表示され、他方の映像９２の位置（の近傍）には表示されなくてもよい。

　これにより、表示が少なくされて、さらに分かり易い表示ができる。

　なお、より具体的には、例えば、固定の位置に表示される他方の映像９２として、被写体の外観の画像（図１７の画像９２ｅ１を参照）が含まれず、文字認識で特定された文字列９Ｘ１（図１７、映像９２ｅの文字列９２ｅ２を参照）のみが表された映像９Ｘが表示されることがあってもよい。

　これにより、複数の被写体（車Ａ～車Ｃ）のうちから被写体（車Ｂ）を特定する、撮像された一方の映像９１ｅと共に、その被写体（車Ｂ）を特定する（その被写体の文字列「大阪５５０　なｏｏ－ｘｘ」を示す）他方の映像９Ｘが表示されて、操作が簡単にできる。しかも、固定の位置に表示されることにより、十分に操作が簡単にできたり、表示される位置が確実に適切にできる。しかも、更には、文字列９Ｘ１のみによるシンプルな表示がされることにより、分かり易い表示がされ、より十分に適切な表示できる。

　こうして、複数の構成（表示部３０７、選択部３０８など）が組み合わせられることにより、組合わせからの相乗効果が生じる。これに対して、知られる従来例においては、これらの複数の構成のうちの全部または一部がなく、相乗効果は生じない。本技術は、このような、構成、作用、効果の点において、従来例に対して、先進性を有する。

　なお、互いに異なる複数の実施形態における複数の記載などの、互いに遠く離れた複数の箇所の複数の技術事項が、適宜組合わせられてもよい。組合わせられた形態が、併せて開示される。

　なお、図２６に示されるように、被写体Ｂの一方の映像９１（一方の映像９１１）の位置（位置９１１ＰＭ、位置９１１ＰＮ）は、第１の時刻（上段）においては、予め定められた第１の位置関係９２１ＪＭ（より右側である関係）を、他の位置（他の被写体Ａの、撮像された一方の映像９１の位置（位置９２１ＸＭ））に対して有してもよい。

　そして、一方で、他の第２の時刻（下段）においては、第２の位置関係９２１ＪＮ（より左側である関係）を（当該第２の時刻における、当該他の被写体（被写体Ａ）の映像の位置（位置９２１ＸＮ）に対して）有してもよい。

　そして、被写体Ｂの他方の映像９２（他方の映像９２１）の位置（位置９２１Ｐ）は、第１の時刻でも、第２の時刻でも、互いに同じ位置関係９２２Ｊ（より右側である関係）を他の位置（被写体Ａ（他の被写体）の、合成された他方の映像９２の位置（位置９２２Ｘ（９２２ＸＭ、９２２ＸＮ）））に対して有してもよい。

　これにより、被写体Ｂの一方の映像９１が有する位置関係が、第１の位置関係９２１ＪＭから第２の位置関係９２１ＪＮに変化しても、位置関係９２２Ｊ（より右側である関係）とは異なる他の位置関係（図略、例えばより左側である関係）の位置での操作が不要であり（下段における位置関係９２２Ｊを参照）、同じ位置関係９２２Ｊ（より右側）での操作で済んで、より確実に、操作が簡単にできる。

　なお、図１に示されるように、例えば、追尾対象選択装置（カメラ）１の一部（又は）全部は、ＣＰＵ１０１（図１）などを含んでなるコンピュータ１Ｃ（図１）でもよい。そして、このコンピュータ１Ｃにより、コンピュータプログラム１Ｐ（図１、例えば、先述された画像処理プログラム）が実行されることにより、上述の１以上の機能が実現されてもよい。そして、このコンピュータプログラム１Ｐは、例えば、ＲＯＭ１０２に記憶されてもよい。

　また、このコンピュータ１Ｃが実装されるなどして、適切な回路が構成されて、上述の１以上の機能が実装された集積回路１Ｌ（図１）が構築されてもよい。

　なお、１以上の工程が含まれてなる方法、上述のプログラムのデータ構造などが構築されてもよい。

　なお、符号７０５により、時刻ＴでのラベルＡの物体と同じ物体の、時刻Ｔ＋αでの映像が示さる。符号７０６により、時刻ＴでのラベルＢの物体と同じ物体の、時刻Ｔ＋αでの映像が示される。符号７０７により、新たに検出された物体の、ラベルＣが付与された映像が示される。符号９０１により、右７５度顔検出器により出力された顔検出候補枠が示される。符号９０２により、右３０度顔検出器により出力された顔検出候補枠が示される。符号９０３により、正面顔検出器により出力された顔検出候補枠が示される。符号１００１により、右７５度顔検出器により出力された顔検出候補枠に、オフセットを与えた結果が示される。符号１００２により、右３０度顔検出器により出力された顔検出候補枠に、オフセットを与えた結果が示される。符号１００３により、正面顔検出器により出力された顔検出候補枠に、オフセットを与えた結果が示される。符号１０４Ｌ２により、固定の位置にある物体を選択する操作が示される。

　本発明にかかる追尾対象選択装置及びその方法並びに記憶媒体は、デジタルカメラや、デジタルビデオカメラでの撮影の際に、様々なシーンの撮影において、被写体を容易に選択、追尾し、ＡＦ／ＡＥを制御することで、簡単に失敗しない撮影を行うことが可能となり、有用である。

　１０１　　ＣＰＵ
　１０２　　ＲＯＭ
　１０３　　カメラ
　１０４　　表示ディスプレイ
　１０５　　ＲＡＭ
　１０６　　外部記憶装置
　１０８　　インターフェース装置
　３０１　　物体検出部
　３０２　　追尾部
　３０３　　特徴抽出部
　３０４　　判定部
　３０５　　記憶部
　３０６　　合成部
　３０７　　表示部
　３０８　　選択部
　７０１　　時刻Ｔにおける画像フレーム
　７０２　　ラベルＡが付与された映像
　７０３　　ラベルＢが付与された映像
　７０４　　時刻Ｔ＋αにおける画像フレーム
　８０１　　正面向きの右目
　８０２　　正面向きの左目
　８０３　　正面向きの顔中心座標
　８０４　　正面向きの鼻座標
　８０５　　右向きの右目
　８０６　　右向きの左目
　８０７　　右向きの顔中心座標
　８０８　　右向きの鼻座標
　９０４　　顔中心座標
　１００４　　鼻位置座標
　１２００　　表示画面
　１２０１　　画像合成した画像
　１３０２　　選択された物体
　９Ｘ１　　認識された文字
　１８０９　　登録（ＤＢ）データベース

Claims

　追尾対象を選択する追尾対象選択装置であって、
　入力画像から、所定の物体を検出する物体検出部と、
　前記物体検出部により検出した前記物体を追尾し、追尾される当該物体がある追尾物体候補領域を算出する追尾部と、
　入力画像における固定の位置に、前記追尾部で算出された前記追尾物体候補領域の画像を合成する合成部と、
　前記合成部で、前記画像が前記固定の位置に合成された後における、合成された当該画像が含まれる前記入力画像を表示する表示部と、
　前記表示部により表示される、合成がされた後の前記入力画像における、前記固定の位置に表示されている、合成がされた前記画像に対して、ユーザにより操作がされた場合に、前記操作がされた前記画像において検出された前記物体を、予め定められた処理における追尾での前記追尾対象として選択する選択部とを備える追尾対象選択装置。
　前記追尾部で追尾している前記対象物体候補領域の前記画像から、所定の特徴を抽出する特徴抽出部と、
　前記特徴抽出部から抽出された前記特徴から、対象物体の所定の状態を算出し、算出される前記状態が、予め定められた状態か否かを判定する判定部と、
　前記判定部によって、算出された、前記対象物体候補領域の前記状態が、前記予め定められた状態であると判定された場合に、判定がされた前記追尾対象候補領域を記憶する記憶部とを備える請求項１記載の追尾対象選択装置。
　前記判定部は、前記状態を示すスコアを算出し、
　前記記憶部は、前記追尾物体候補領域の前記画像とともに、算出された、当該画像の前記状態の前記スコアを記憶する請求項２記載の追尾対象選択装置。
　前記判定部は、算出された、前記状態を示すスコアを、前記記憶部に予め記憶されたスコアと比較して、算出された前記スコアと、算出された前記スコアにより示される前記状態の前記画像とを前記記憶部に更新するか否かを判定し、
　前記判定部により、更新すると判定された場合、前記記憶部に予め記憶された前記スコアと、予め記憶された当該スコアに対応付けて記憶された画像とを、算出された前記スコアと、算出された当該スコアの前記画像とへと、それぞれ更新する請求項２記載の追尾対象選択装置。
　前記特徴抽出部は、前記追尾物体候補領域の前記画像に表れる向きを示す特徴量を抽出し、
　前記判定部は、抽出した前記特徴量に基づいて、当該特徴量により示される前記向きが、所定の向きであるか否かを判定し、
　前記所定の向きと判定された場合に、判定がされた前記向きを示す前記特徴量が抽出された前記追尾物体候補領域を前記記憶部に記憶させる請求項２記載の追尾対象選択装置。
　前記追尾物体候補領域は、人物の顔の領域であり、
　前記特徴抽出部は、前記特徴量として、顔中心座標、鼻位置座標、目位置座標、顔サイズを抽出し、
　前記判定部は、前記顔中心座標と、前記鼻位置座標との２つの座標の間の差と、前記顔中心座標と、２つの前記目位置座標の中心の座標との２つの座標の間の差との２つの前記差から、前記所定の向きか否かの判定をする請求項５記載の追尾対象選択装置。
　前記特徴抽出部は、前記追尾物体候補領域の人物の顔表情を示す特徴量を抽出し、
　前記判定部は、抽出した当該特徴量に基づいて、前記人物の前記顔表情が、笑顔の表情であるか否かを判定する請求項２記載の追尾対象選択装置。
　前記特徴抽出部は、前記追尾物体候補領域の物体から、文字認識に必要な特徴量を抽出し、
　前記判定部は、抽出した当該特徴量に基づいて、当該物体に表れた文字の文字認識ができたか否かを判定する請求項２記載の追尾対象選択装置。
　前記特徴抽出部は、前記追尾物体候補領域の物体から、物体認識に必要な特徴量を抽出し、
　前記判定部は、前記記憶部に予め登録されている特徴と、抽出した当該特徴量により示される特徴との間のマッチングを行い、判定をする請求項２記載の追尾対象選択装置。
　前記合成部は、前記追尾物体候補領域の画像に加えて、前記判定部により得られる付加情報も合成する請求項２記載の追尾対象選択装置。
　当該追尾対象選択装置は、カメラであり、
　被写体の、一方の映像を撮像する撮像素子を備え、
　前記表示部は、撮像された前記一方の映像と共に、当該一方の映像の被写体の他方の映像を表示し、
　前記選択部は、表示された前記他方の映像に対する操作がされた場合に、撮像された前記一方の映像の前記被写体を、予め定められた処理における追尾での、追尾の対象として選択し、
　複数の時刻のうちの第２の時刻での、表示される前記他方の映像の位置は、第１の時刻での当該他方の映像の位置と同じ位置である請求項１記載の追尾対象選択装置。
　表示される前記他方の映像における、前記被写体のサイズは、予め定められた閾値以上のサイズであり、当該閾値よりも小さいサイズではない請求項１１記載の追尾対象選択装置。
　表示される前記他方の映像における、前記被写体の方向は、予め定められた方向と同じ方向であり、異なる方向ではない請求項１１または１２記載の追尾対象選択装置。
　前記撮像素子は、前記一方の映像である、後の映像を撮像するよりも前に、当該後の映像の前記被写体と同じ被写体が写され、写された当該被写体の方向が、前記予め定められた方向と同じ方向である先の映像を撮像し、
　前記表示部は、撮像された前記先の映像の情報を利用することにより生成された、前記予め定められた方向と同じ方向の前記他方の映像を表示する請求項１３記載の追尾対象選択装置。
　前記表示部は、前記被写体の前記一方の映像および前記他方の映像以外の、当該被写体のその他の映像から生成された、複数の被写体から当該被写体を特定する文字を示す映像を、前記他方の映像として表示する請求項１１～１４の何れかに記載の追尾対象選択装置。
　前記合成部は、前記一方の映像および前記他方の映像以外の前記その他の映像から文字認識により特定された前記文字が、当該その他の映像に対して合成された映像を生成し、
　前記表示部は、生成された当該映像を、前記他方の映像として表示する請求項１５記載の追尾対象選択装置。
　追尾対象を選択する追尾対象選択装置に設けられる集積回路であって、
　入力画像から、所定の物体を検出する物体検出部と、
　前記物体検出部により検出した前記物体を追尾し、追尾される当該物体がある追尾物体候補領域を算出する追尾部と、
　入力画像における固定の位置に、前記追尾部で算出された前記追尾物体候補領域の画像を合成する合成部と、
　前記合成部で、前記画像が前記固定の位置に合成された後における、合成された当該画像が含まれる前記入力画像を表示部に表示させる表示制御部と、
　前記表示部により表示される、合成がされた後の前記入力画像における、前記固定の位置に表示されている、合成がされた前記画像に対して、ユーザにより操作がされた場合に、前記操作がされた前記画像において検出された前記物体を、予め定められた処理における追尾での前記追尾対象として選択する選択部とを備える集積回路。
　追尾対象を選択する追尾対象選択方法であって、
　入力画像から、所定の物体を検出する物体検出ステップと、
　前記物体検出ステップで検出した前記物体を追尾し、追尾される当該物体がある追尾物体候補領域を算出する追尾ステップと、
　入力画像における固定の位置に、前記追尾部で算出された前記追尾物体候補領域の画像を合成する合成ステップと、
　前記合成ステップで、前記画像が前記固定の位置に合成された後における、合成された当該画像が含まれる前記入力画像を表示する表示ステップと、
　前記表示ステップで表示される、合成がされた後の前記入力画像における、前記固定の位置に表示されている、合成がされた前記画像に対して、ユーザにより操作がされた場合に、前記操作がされた前記画像において検出された前記物体を、予め定められた処理における追尾での前記追尾対象として選択する選択ステップとを含む追尾対象選択方法。
　コンピュータに、追尾対象を選択させるためのコンピュータプログラムであって、
　入力画像から、所定の物体を検出する物体検出ステップと、
　前記物体検出ステップで検出した前記物体を追尾し、追尾される当該物体がある追尾物体候補領域を算出する追尾ステップと、
　入力画像における固定の位置に、前記追尾部で算出された前記追尾物体候補領域の画像を合成する合成ステップと、
　前記合成ステップで、前記画像が前記固定の位置に合成された後における、合成された当該画像が含まれる前記入力画像を表示部に表示させる表示制御ステップと、
　前記表示部により表示される、合成がされた後の前記入力画像における、前記固定の位置に表示されている、合成がされた前記画像に対して、ユーザにより操作がされた場合に、前記操作がされた前記画像において検出された前記物体を、予め定められた処理における追尾での前記追尾対象として選択する選択ステップとを前記コンピュータに実行させるためのコンピュータプログラム。