WO2021149238A1

WO2021149238A1 - 情報処理装置、情報処理方法、および情報処理プログラム

Info

Publication number: WO2021149238A1
Application number: PCT/JP2020/002481
Authority: WO
Inventors: 秀一後藤
Original assignee: ソニーグループ株式会社
Priority date: 2020-01-24
Filing date: 2020-01-24
Publication date: 2021-07-29
Also published as: EP4096209A4; US20230128043A1; EP4096209A1

Abstract

被写体を撮影し、デジタルデータに変換して撮影画像を生成する撮影部と、撮影画像の所定領域ごとに、所定領域に含まれる被写体が、撮影者が撮影したい主要被写体である確率を算出する算出部と、確率が所定の閾値を超える所定領域を有効データ領域に決定し、有効データ領域に基づいて、主要被写体領域を決定する決定部と、決定された主要被写体領域にピントを合わせるフォーカス部とを備えた、情報処理装置が提供される。これにより、主要被写体に適切にピントを合わせることができる。

Description

情報処理装置、情報処理方法、および情報処理プログラム

　本開示は、情報処理装置、情報処理方法、および情報処理プログラムに関する。

　カメラやビデオカメラなどにおいて自動的に焦点（ピント）を合わせるオートフォーカス（ＡＦ：Ａｕｔｏ　Ｆｏｃｕｓ）機能は、携帯電話やスマートフォンなどカメラ機能を搭載した端末においても備わっている場合が多い。ＡＦ機能には、例えば、ユーザがスマートフォンなどの画面にプレビュー表示された被写体に対してピントを合わせたい箇所（以下、「主要被写体」という）をタッチするなどしてピントを合わせるものがある。一方で、ユーザがカメラに対して主要被写体を明確に示さない場合、画面中央付近の被写体に自動的にピントを合わせる中央重点ＡＦが主に採用されている。

特開２０１７－００５７３８号公報

　しかしながら、中央重点ＡＦの場合、主要被写体が中央から外れている場合や、中央付近に遠近の被写体が混在している場合などに、主要被写体に適切にピントが合わせられないという課題がある。

　そこで、本開示では、主要被写体に適切にピントを合わせることができる情報処理装置、情報処理方法、および情報処理プログラムを提案する。

　本開示によれば、被写体を撮影し、デジタルデータに変換して撮影画像を生成する撮影部と、撮影画像の所定領域ごとに、所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出する算出部と、確率が所定の閾値を超える所定領域を有効データ領域に決定し、有効データ領域に基づいて、主要被写体領域を決定する決定部と、決定された主要被写体領域にピントを合わせるフォーカス部とを備えた、情報処理装置が提供される。

　また、本開示によれば、情報処理装置が、被写体を撮影し、デジタルデータに変換して撮影画像を生成し、撮影画像の所定領域ごとに、所定領域に含まれる被写体が、撮影者が撮影したい主要被写体である確率を算出し、確率が所定の閾値を超える所定領域を有効データ領域に決定し、有効データ領域に基づいて、主要被写体領域を決定し、決定された主要被写体領域にピントを合わせる処理を実行する、方法が提供される。

　また、本開示によれば、情報処理装置に、被写体を撮影し、デジタルデータに変換して撮影画像を生成し、撮影画像の所定領域ごとに、所定領域に含まれる被写体が、撮影者が撮影したい主要被写体である確率を算出し、確率が所定の閾値を超える所定領域を有効データ領域に決定し、有効データ領域に基づいて、主要被写体領域を決定し、決定された主要被写体領域にピントを合わせる処理を実行させる、プログラムが提供される。

本実施形態に係る情報処理装置１０の機能構成例を示すブロック図である。同実施形態に係る主要被写体オブジェクトの抽出の一例を示す図である。同実施形態に係る主要被写体ＭＡＰ生成のための領域分割の一例を示す図である。同実施形態に係る主要被写体ＭＡＰ生成の一例を示す図である。同実施形態に係る矩形領域検出の一例を示す図である。同実施形態に係るオブジェクトトラッキングの一例を示す図である。同実施形態に係る主要被写体ＡＦ処理の流れを示すフローチャートである。同実施形態に係る主要被写体トラッキング処理の流れを示すフローチャートである。同実施形態に係る情報処理装置１０のハードウェア構成例を示すブロック図である。

　以下に、本実施形態について図面に基づいて詳細に説明する。なお、本明細書および図面において、実質的に同一の部位には、同一の符号を付することにより重複する説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．機能構成例
　　１．２．機能の詳細
　　１．３．機能の流れ
　２．ハードウェア構成例
　３．まとめ

＜１．実施形態＞
＜＜１．１．機能構成例＞＞
　まず、本実施形態に係る情報処理装置１０の機能構成例について説明する。情報処理装置１０は、デジタルカメラやデジタルビデオカメラであってもよいし、スマートフォンやタブレットＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）などのモバイル端末であってもよい。

　図１は、本実施形態に係る情報処理装置１０の機能構成例を示すブロック図である。図１に示すように、本実施形態に係る情報処理装置１０は、記憶部１１０、撮影部１２０、表示部１３０、算出部１４０、決定部１５０、フォーカス部１６０、追跡部１７０、センサ部１８０、制御部２００を備える。

（記憶部１１０）
　本実施形態に係る記憶部１１０は、各種プログラムやデータを一時的または恒常的に記憶するための記憶領域である。例えば、記憶部１１０には、情報処理装置１０が各種機能を実行するためのプログラムやデータが記憶されてもよい。具体的な一例として、記憶部１１０には、カメラアプリケーションを実行するためのプログラムや、主要被写体を決定するための学習モデル、各種設定などを管理するための管理データなどが記憶されてよい。また、カメラアプリケーションのユーザインタフェース（ＵＩ）を介してユーザによって入力された撮影パラメータ（例えば、フォーカスや露光など、撮影のための各種パラメータ）などが記憶されてよい。もちろん、上記はあくまで一例であり、記憶部１１０に記憶されるデータの種別は特に限定されない。

（撮影部１２０）
　本実施形態に係る撮影部１２０は、制御部２００による制御に基づいて動画や写真の撮影を行う。撮影部１２０は、撮像素子、フォーカスリングやズームレンズなどを備える。撮影部１２０によって撮影された動画や写真はデジタルデータに変換され、記憶部１１０に記憶される。なお、撮影部１２０によって撮影される動画は、マイクロフォンなど音声入力部（図示せず）によって撮影中に収集される音声や環境音と共に記憶される。また、撮影部１２０によって撮影され、記憶部１１０に記憶される動画には、録画中に撮影される動画と、録画中以外の時に、表示部１３０などに被写体をプレビュー表示するための動画とがある。前者の動画は、表示部１３０に表示されるとともにＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）に一時的に記憶された後、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）に記憶される。後者の動画もＲＡＭに一時的に記憶されるが、ＲＡＭの容量がいっぱいになったら古いものから削除されていき、ＲＯＭには記憶されない。

（表示部１３０）
　本実施形態に係る表示部１３０は、制御部２００による制御に基づいて各種の視覚情報を表示する。視覚情報とは、例えば、カメラアプリケーションのＵＩや、撮影部１２０によって撮影される被写体などである。このために、表示部１３０は、液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）ディスプレイ装置など、各種のディスプレイ装置を備える。

（算出部１４０）
　本実施形態に係る算出部１４０は、撮影部１２０によって撮影された動画の１フレームの画像（撮影画像）の所定領域ごとに、当該所定領域に含まれる被写体が主要被写体である確率（主要被写体度：例えば、０～１）を算出する。ここで、主要被写体とは、撮影者が撮影したい物体（オブジェクト）である。本実施形態では、例えば、主要被写体になり得る物体を撮影した画像と主要被写体領域をマスクしたマスク画像とのセットの複数を教師データとする学習モデルを用いて、撮影された動画の中から１つの主要被写体を決定し、決定された主要被写体に対しピントを合わせる。

（決定部１５０）
　本実施形態に係る決定部１５０は、主要被写体度が所定の閾値（例えば、０．７）以上の所定領域を有効データ領域に決定し、当該有効データ領域に基づいて、１つの主要被写体領域を決定する。有効データ領域に基づいて主要被写体領域を決定する方法については後述する。

（フォーカス部１６０）
　本実施形態に係るフォーカス部１６０は、決定部１５０によって決定された主要被写体領域にピントを合わせる。また、フォーカス部１６０は、主要被写体領域が決定されない場合は、撮影画像の中央領域にピントを合わせる（中央重点ＡＦ）。

（追跡部１７０）
　本実施形態に係る追跡部１７０は、決定部１５０によって決定された主要被写体を追跡する。追跡部１７０によって主要被写体を追跡し、主要被写体がフレームアウトした場合、または主要被写体を撮影した主要被写体に対する主要被写体領域の主要被写体度が著しく低下した場合、決定部１５０によって別の主要被写体領域が決定される。

（センサ部１８０）
　本実施形態に係るセンサ部１８０は、被写体までの距離（深度、Ｄｅｐｔｈ情報ともいう）を測定する。センサ部１８０は、例えば、ＴｏＦ（Ｔｉｍｅ　ｏｆ　Ｆｌｉｇｈｔ）センサなどを備える。

（その他）
　情報処理装置１０は、図示していないが上記以外にも、各種の音や音声を出力する音声出力部を備えてもよい。音声出力部は、例えば、制御部２００による制御に基づいてカメラアプリケーションの状況に応じた音や音声を出力する（例えば、撮影開始や終了の際に音を鳴らす）。このために、音声出力部は、スピーカやアンプを備える。

（制御部２００）
　本実施形態に係る制御部２００は、情報処理装置１０が備える各構成を制御する。また制御部２００は、カメラ撮影を制御することを特徴の一つとする。撮影の制御には、撮影パラメータの調整を行うことや、撮影パラメータに基づいて、撮影部１２０が備えるフォーカスリングなどを操作することを含む。制御部２００が有する機能の詳細については後述される。

　以上、本実施形態に係る情報処理装置１０の機能構成例について説明した。なお、図１を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理装置１０の機能構成は係る例に限定されない。例えば、情報処理装置１０は、必ずしも図１に示す構成のすべてを備えなくてもよいし、表示部１３０などの各構成を情報処理装置１０とは異なる別の装置に備えることも可能である。本実施形態に係る情報処理装置１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　また、各構成要素の機能を、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｃｅｓｓｉｎｇ　Ｕｎｉｔ）などの演算装置がこれらの機能を実現する処理手順を記述した制御プログラムを記憶したＲＯＭやＲＡＭなどの記憶媒体から制御プログラムを読み出し、そのプログラムを解釈して実行することにより行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜利用する構成を変更することが可能である。また、情報処理装置１０のハードウェア構成の一例については後述される。

＜＜１．２．機能の詳細＞＞
　次に、本実施形態に係る情報処理装置１０が有する機能について詳細に説明する。本実施形態に係る情報処理装置１０の制御部２００は、撮影された動画の中から、学習モデルを用いて１つの主要被写体を決定し、決定された主要被写体に適切にピントを合わせることを特徴の１つとする。

　まず、図２を用いて、本実施形態に係る学習モデルの生成方法について説明する。本実施形態の学習モデルは、撮影画像中の主要被写体部分を特定するためのモデルである。学習モデルは、撮影画像（または撮影画像の特徴量）が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第１要素と、第１要素と第１要素の重みとに基づいて値が算出される第２要素と、を含み、入力層に入力された撮影画像（または撮影画像の特徴量）に応じて、撮影画像中の主要被写体と認識される部分を示すデータ（例えば、後述の主要被写体度を示すデータ）を出力層から出力するよう、情報処理装置１０を機能させる。

　なお、本実施形態の学習モデルを生成する生成装置（例えば、サーバ装置などの情報処理装置１０）は、いかなる学習アルゴリズムを用いて上述の学習モデルを生成してもよい。例えば、生成装置は、ニューラルネットワーク（ＮＮ：Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）、サポートベクターマシン（ＳＶＭ：Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）、クラスタリング、強化学習などの学習アルゴリズムを用いて本実施形態の学習モデルを生成してもよい。一例として、生成装置がＮＮを用いて本実施形態の学習モデルを生成するとする。この場合、学習モデルは、１つ以上のニューロンを含む入力層と、１つ以上のニューロンを含む中間層と、１つ以上のニューロンを含む出力層とを有していてもよい。

　ここで、本実施形態に係る学習モデルが「ｙ＝ａ_１＊ｘ_１＋ａ_２＊ｘ_２＋・・・＋ａ_ｉ＊ｘ_ｉ」で示す回帰モデルで実現されるとする。この場合、学習モデルが含む第１要素は、ｘ_１やｘ_２などといった入力データ（ｘ_ｉ）に対応する。また、第１要素の重みは、ｘ_ｉに対応する係数ａ_ｉに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンとみなすことができる。各モデルを単純パーセプトロンとみなした場合、第１要素は、入力層が有するいずれかのノードに対応し、第２要素は、出力層が有するノードとみなすことができる。

　また、本実施形態に係る学習モデルがＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）など、１つまたは複数の中間層を有するＮＮで実現されるとする。この場合、学習モデルが含む第１要素は、入力層または中間層が有するいずれかのノードに対応する。また、第２要素は、第１要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第１要素の重みは、第１要素と対応するノードから第２要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。

　上述した回帰モデルやＮＮなど、任意の構造を有する学習モデルを用いて、主要被写体度を算出する。より具体的には、学習モデルは、撮影画像が入力された場合に、当該撮影画像の所定領域ごとに主要被写体度を出力するように係数が設定される。本実施形態に係る学習モデルは、データの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。

　なお、上記例では、本実施形態に係る学習モデルが、撮影画像が入力された場合に、当該撮影画像の所定領域ごとに主要被写体度を出力するモデル（モデルＸとする）である例を示した。しかしながら、本実施形態に係る学習モデルは、モデルＸに対しデータの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。例えば、本実施形態に係る学習モデルは、撮影画像を入力とし、モデルＸが出力する主要被写体度を出力とする学習モデル（モデルＹとする）であってもよい。または、本実施形態に係る学習モデルは、撮影画像を入力とし、モデルＹが出力する主要被写体度を出力とする学習モデルであってもよい。

　図２は、本実施形態に係る主要被写体オブジェクトの抽出の一例を示す図である。図２の左側は、外の景色が見える窓のあるリビングにいる猫の撮影画像である。これに対し、図２の右側は、主要被写体である猫を抽出した画像である。このように、様々な撮影画像から、主要被写体になり得る、人、動植物、建築物、車や飛行機などの移動体、文字や看板、玩具、電化製品、料理、衣類、アクセサリ、天体、・・・などのオブジェクトを抽出し、主要被写体になり得るオブジェクトが写った画像と主要被写体部分をマスクしたマスク画像とを学習させることで学習モデルを生成する。このような学習モデルにより、撮影動画（画像）から適切な主要被写体を決定することができる。また、学習モデルの教師データとして、センサ部１８０によって取得される、被写体の深度を用いてもよい。これにより、被写体までの距離を考慮した学習モデルを生成することができる。また、撮影動画の過去のフレームの撮影画像を含めた時系列データを入力とするＲＮＮ（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）による深層学習を行うこともできる。

　次に、図３および４を用いて、撮影画像から主要被写体を決定するための主要被写体ＭＡＰの生成方法について説明する。図３は、本実施形態に係る主要被写体ＭＡＰ生成のための領域分割の一例を示す図である。本実施形態では、撮影画像の所定領域ごとに主要被写体度を算出し、各所定領域と主要被写体度とをマッピングした主要被写体ＭＡＰを生成することで、主要被写体領域が決定される。図３に示すように、各所定領域は、例えば、撮影画像を縦９×横１１に分割することで決定される。なお、分割する領域数は縦９×横１１に限定されず、各領域に含まれる画素（ピクセル）数は一定であっても異なってもよい。例えば、各領域に含まれる画素数が一定になるように分割し、端数の画素数分の画素は撮影画像外縁の領域に含めるようにしてもよい。

　図４は、本実施形態に係る主要被写体ＭＡＰ生成の一例を示す図である。図２での説明のように生成された学習モデルを用いて、図３において分割した撮影画像の各領域に対して主要被写体度が算出され、主要被写体ＭＡＰが生成される。図４の右側が生成された主要被写体ＭＡＰの一例である。図４の右側に示すように、主要被写体ＭＡＰには、領域ごとに算出された主要被写体度（０～１）が示されている。図４の例では、撮影画像における“花”を含んだ領域が高い主要被写体度を示している。なお、図４の例では、主要被写体度の高い領域が一箇所に集まっているが、撮影画像によっては主要被写体度の高い領域が分散したり、無かったりする場合もあり得る。

　次に、主要被写体ＭＡＰから主要被写体領域を決定するための矩形領域検出について説明する。図５は、本実施形態に係る矩形領域検出の一例を示す図である。図５の左側に示すように、主要被写体度が所定の閾値（例えば、０．７）以上の所定領域が有効データ領域に決定され、隣接する有効データ領域は合わせて１つの有効データ領域として取り扱われる。なお、図５の左側の例では、隣接する有効データ領域が合わせられ、１つの有効データ領域にまとまっているが、例えば、大きさの異なる複数の有効データ領域にまとまる場合もあり得る。また、有効データ領域は、一定時間（例えば、２秒）継続して対象領域の主要被写体度が所定の閾値以上になった場合に決定されることもできる。この場合、複数フレームの撮影画像に対してそれぞれ主要被写体ＭＡＰが生成され、複数の主要被写体ＭＡＰを時系列順に処理するなどして、有効データ領域が決定される。

　そして、図５の右側に示すように、有効データ領域に内接する矩形領域が検出される。有効データ領域が複数ある場合は、それぞれの有効データ領域において矩形領域が検出される。検出された矩形領域が主要被写体領域に決定される。なお、矩形領域の検出にあたり、矩形領域の幅や高さ、面積などに対して検出条件（例えば、上限や下限）を設けることもできる。矩形領域があまりにも小さかったり、逆に大きかったりすると、ピントを合わせるべき主要被写体領域として適切でないためである。

　また、主要被写体領域にピントを合わせるため、決定される主要被写体領域は１つである必要がある。そのため、決定される主要被写体領域が複数ある場合は、複数の主要被写体領域の中から、例えば、面積が最大であるおよび／または情報処理装置１０に対して最至近である１つの主要被写体領域が決定される。なお、最至近である主要被写体領域の決定は、ＴｏＦセンサなどのセンサ部１８０によって情報処理装置１０と各主要被写体領域との距離が測定され、最も近い主要被写体領域が決定される。または、撮影部１２０によって生成される位相差画像から取得される深度情報を用いて最も近い主要被写体領域が決定されてもよい。そして、決定された１つの主要被写体領域にピントが合わせられる。

　次に、ピントを合わせた主要被写体領域にある主要被写体の追跡について説明する。図６は、本実施形態に係るオブジェクトトラッキングの一例を示す図である。図６の例では、まず、図６の左側に示されるように、学習モデルによってバナナが主要被写体であると決定され、破線で囲まれた主要被写体が追跡部１７０によって追跡される。撮影者が情報処理装置１０を動かすなどしてカメラフレーム内で主要被写体の位置が移動しても、追跡部１７０は主要被写体（バナナ）を追跡し続け、これにより主要被写体にピントが合い続ける。しかしながら、図６の右側に示すように、主要被写体がフレームアウトした場合（主要被写体のロスト）、別の主要被写体領域（りんご）が決定され、追跡されることになる。なお、主要被写体のロストには、その他に、主要被写体が別のオブジェクトに隠れてしまった場合や、主要被写体領域の主要被写体度が著しく低下してしまった場合が考えられる。この場合も、別の主要被写体領域が決定される。なお、主要被写体のロストにはある程度の猶予を持たせることもできる。例えば、主要被写体のロストが発生したらすぐに別の主要被写体領域が決定されるのではなく、主要被写体のロストが一定時間（例えば、３秒）継続した場合に別の主要被写体領域を決定することもできる。

　＜＜１．３．機能の流れ＞＞
　次に、図７を用いて、本実施形態に係る主要被写体ＡＦ処理の手順について説明する。図７は、本実施形態に係る主要被写体ＡＦ処理の流れを示すフローチャートである。本処理は、例えば、情報処理装置１０の撮影部１２０が被写体を撮影した動画をデジタルデータに変換し、ＲＡＭに一時的に記憶したことをトリガーとして開始され、主要被写体を決定し、決定された主要被写体に対しピントを合わせる処理である。

　図７に示すように、まず、情報処理装置１０の算出部１４０は、撮影部１２０によって撮影された動画の１フレームの画像（撮影画像）の所定領域ごとに、主要被写体度を算出する（ステップＳ１０１）。所定領域は、撮影画像を予め定められた分割数（例えば、縦９×横１１）に分割することにより決定される。

　次に、情報処理装置１０の決定部１５０は、ステップＳ１０１で算出された主要被写体度が所定の閾値以上の所定領域を有効データ領域に決定する（ステップＳ１０２）。この際、撮影画像に特に主要被写体となり得る物体が含まれず、所定の閾値以上の領域が１つもなく有効データ領域を決定できない場合もあり得る。また、過去のフレームを含む所定数の撮影画像を時系列順に処理し、一定時間継続して主要被写体度が所定の閾値以上の所定領域を有効データ領域に決定することもできる。これにより、ピントを合わせるべき主要被写体が含まれたより適切な有効データ領域を決定することができる。

　決定部１５０が有効データ領域を決定できない場合（ステップＳ１０３：Ｎｏ）、撮影された動画の次のフレームの画像に対し、ステップＳ１０１から処理を繰り返す。この際、撮影画像には主要被写体となり得る物体が含まれないため、撮影画像の中央領域にピントを合わせることもできる。

　一方、決定部１５０が有効データ領域を決定できた場合（ステップＳ１０３：Ｙｅｓ）、決定部１５０は、所定の検出条件を満たす、有効データ領域に内接する矩形領域を検出し、当該矩形領域を主要被写体領域に決定する（ステップＳ１０４）。所定の検出条件を満たす矩形領域とは、例えば、矩形領域の幅および高さがそれぞれ所定の幅および所定の高さ以上の矩形領域である。そのため、検出条件を満たす矩形領域は複数存在し得、複数の主要被写体領域が決定される場合もあり得る。

　ステップＳ１０４で決定された主要被写体領域が複数ある場合（ステップＳ１０５：Ｎｏ）、決定部１５０は、複数の主要被写体領域から１つの主要被写体領域を決定する（ステップＳ１０６）。１つの主要被写体領域とは、例えば、面積が最大の主要被写体領域である。または、情報処理装置１０に対して最至近である主要被写体領域であってもよい。

　ステップＳ１０６で１つの主要被写体領域が決定されると、またはステップＳ１０４で決定された主要被写体領域が１つである場合（ステップＳ１０５：Ｙｅｓ）、情報処理装置１０のフォーカス部１６０は、決定された１つの主要被写体領域にピントを合わせる（ステップＳ１０７）。ステップＳ１０７の後、本処理は終了する。

　次に、図８を用いて、本実施形態に係る主要被写体トラッキング処理の手順について説明する。図８は、本実施形態に係る主要被写体トラッキング処理の流れを示すフローチャートである。本処理は、図７の主要被写体ＡＦ処理において主要被写体領域が決定されたことをトリガーとして開始され、ピントを合わせるべき主要被写体を追跡する処理である。

　図８に示すように、まず、情報処理装置１０の追跡部１７０は、ステップＳ１０４またはステップＳ１０６で決定された１つの主要被写体領域に含まれる主要被写体を追跡する（ステップＳ２０１）。ここでいう追跡とは、撮影者が情報処理装置１０を動かすなどして移動するカメラフレーム内の主要被写体を監視することである。すなわち、撮影部１２０によって撮影された動画のフレームごとの撮影画像における主要被写体を監視し続ける。

　次に、追跡部１７０は、追跡している主要被写体をロストしたか否かを判定する（ステップＳ２０２）。なお、過去のフレームを含む所定数の撮影画像を時系列順に処理し、一定時間継続してロストしている場合に、主要被写体をロストしたと判定することもできる。

　主要被写体をロストしていない場合（ステップＳ２０３：Ｎｏ）、ステップＳ２０１に戻り、追跡部１７０は、主要被写体を追跡する。一方、主要被写体をロストした場合（ステップＳ２０３：Ｙｅｓ）、情報処理装置１０の決定部１５０は、主要被写体度が所定の閾値以上である、追跡していた主要被写体を含む有効データ領域とは別の第２の有効データ領域を決定する（ステップＳ２０４）。

　第２の有効データ領域を決定できた場合（ステップＳ２０５：Ｙｅｓ）、図７のステップＳ１０４に進み、ステップＳ２０４で決定された第２の有効データ領域に内接する矩形領域を検出し、当該矩形領域を主要被写体領域に決定する。その後、ステップＳ１０５に進む。

　一方、所定の閾値以上の領域が１つもなく第２の有効データ領域を決定できない場合（ステップＳ２０５：Ｎｏ）、情報処理装置１０のフォーカス部１６０は、撮影画像の中央領域にピントを合わせる（ステップＳ２０６）。ステップ２０６の後、本処理は終了する。

＜２．ハードウェア構成例＞
　次に、本実施形態に係る情報処理装置１０のハードウェア構成例について説明する。図９は、本実施形態に係る情報処理装置１０のハードウェア構成例を示すブロック図である。図９を参照すると、情報処理装置１０は、例えば、プロセッサ４１１と、ＲＯＭ４１２と、ＲＡＭ４１３と、ホストバス４１４と、ブリッジ４１５と、外部バス４１６と、インターフェース４１７と、入力装置４１８と、出力装置４１９と、ストレージ４２０と、ドライブ４２１と、接続ポート４２２と、通信装置４２３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（プロセッサ４１１）
　プロセッサ４１１は、例えば、演算処理装置または制御装置として機能し、ＲＯＭ４１２、ＲＡＭ４１３、ストレージ４２０、またはリムーバブル記録媒体２０に記録された各種プログラムまたは各種データ（学習モデルを含む）に基づいて各構成要素の動作全般またはその一部を制御する。

（ＲＯＭ４１２、ＲＡＭ４１３）
　ＲＯＭ４１２は、プロセッサ４１１に読み込まれるプログラムや演算に用いるデータ（学習モデルを含む）などを格納する手段である。ＲＡＭ４１３には、例えば、プロセッサ４１１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータなどが一時的または永続的に格納される。

（ホストバス４１４、ブリッジ４１５、外部バス４１６、インターフェース４１７）
　プロセッサ４１１、ＲＯＭ４１２、ＲＡＭ４１３は、例えば、高速なデータ伝送が可能なホストバス４１４を介して相互に接続される。一方、ホストバス４１４は、例えば、ブリッジ４１５を介して比較的データ伝送速度が低速な外部バス４１６に接続される。また、外部バス４１６は、インターフェース４１７を介して種々の構成要素と接続される。

（入力装置４１８）
　入力装置４１８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、およびレバーなどが用いられる。さらに、入力装置４１８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置４１８には、マイクロフォンなどの音声入力装置が含まれる。

（出力装置４１９）
　出力装置４１９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、または有機ＥＬなどのディスプレイ装置、スピーカ、ヘッドホンなどのオーディオ出力装置、プリンタ、携帯電話、またはファクシミリなど、取得した情報を利用者に対して視覚的または聴覚的に通知することが可能な装置である。また、本実施形態に係る出力装置４１９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

（ストレージ４２０）
　ストレージ４２０は、各種のデータを格納するための装置である。ストレージ４２０としては、例えば、ハードディスクドライブ（ＨＤＤ）などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどが用いられる。

（ドライブ４２１）
　ドライブ４２１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体２０に記録された情報を読み出し、またはリムーバブル記録媒体２０に情報を書き込む装置である。

（リムーバブル記録媒体２０）
リムーバブル記録媒体２０は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディアなどである。もちろん、リムーバブル記録媒体２０は、例えば、非接触型ＩＣチップを搭載したＩＣカード、または電子機器などであってもよい。

（接続ポート４２２）
　接続ポート４２２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、または光オーディオ端子などのような外部接続機器３０を接続するためのポートである。

（外部接続機器３０）
　外部接続機器３０は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、またはＩＣレコーダなどである。

（通信装置４２３）
　通信装置４２３は、ネットワークに接続するための通信デバイスであり、例えば、有線または無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、または各種通信用のモデムなどである。

＜３．まとめ＞
　以上説明したように、情報処理装置１０は、被写体を撮影し、デジタルデータに変換して撮影画像を生成する撮影部１２０と、前記撮影画像の所定領域ごとに、前記所定領域に含まれる被写体が、撮影者が撮影したい主要被写体である確率を算出する算出部１４０と、前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、前記有効データ領域に基づいて、主要被写体領域を決定する決定部１５０と、前記決定された主要被写体領域にピントを合わせるフォーカス部１６０とを備える。

　これにより、主要被写体に適切にピントを合わせることができる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）被写体を撮影し、デジタルデータに変換して撮影画像を生成する撮影部と、
　前記撮影画像の所定領域ごとに、前記所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出する算出部と、
　前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、
　前記有効データ領域に基づいて、主要被写体領域を決定する決定部と、
　前記決定された主要被写体領域にピントを合わせるフォーカス部と
　を備えた、情報処理装置。
（２）前記算出部による前記確率の算出は、前記撮影画像を入力し、前記確率を出力する学習モデルを用いて算出される、前記（１）に記載の情報処理装置。
（３）前記決定部による前記主要被写体領域の決定は、
　隣接する前記有効データ領域を合わせ、
　前記有効データ領域に内接する矩形領域を検出し、
　前記矩形領域を前記主要被写体領域に決定する
　ことを含む、前記（１）に記載の情報処理装置。
（４）前記決定部による前記矩形領域を前記主要被写体領域に決定することは、
　幅および高さ、ならびに面積の少なくとも１つが所定の条件を満たす前記矩形領域を前記主要被写体領域に決定する
　ことを含む、前記（３）に記載の情報処理装置。
（５）前記決定部により決定される前記主要被写体領域が複数ある場合、前記決定部はさらに、複数の前記主要被写体領域の中から、面積が最大、および前記情報処理装置に対して最至近の少なくとも１つを満たす１つの第１の主要被写体領域を決定し、
　前記フォーカス部によってピントを合わせられる前記主要被写体領域は、前記第１の主要被写体領域である、前記（１）～（４）のいずれか１つに記載の情報処理装置。
（６）前記決定部による前記有効データ領域の決定は、
　前記確率が一定時間、前記所定の閾値を超える前記所定領域を前記有効データ領域に決定することを含む、前記（１）～（５）のいずれか１つに記載の情報処理装置。
（７）前記決定された主要被写体領域に含まれる前記主要被写体を追跡する追跡部をさらに備えた、前記（１）～（６）のいずれか１つに記載の情報処理装置。
（８）前記決定部はさらに、追跡している前記主要被写体がフレームアウトした場合、または追跡している前記主要被写体に対する前記主要被写体領域の前記確率が一定時間、前記所定の閾値以下になった場合、前記有効データ領域に基づいて、第２の主要被写体領域を決定する、前記（７）に記載の情報処理装置。
（９）前記フォーカス部さらに、前記第２の主要被写体領域が決定されない場合、前記撮影画像の所定の中央領域にピントを合わせる、前記（８）に記載の情報処理装置。
（１０）前記被写体までの距離を測定するセンサ部をさらに備え、
　前記決定部により決定される前記最至近である第１の主要被写体領域は、前記測定された距離に基づいて決定される、前記（５）に記載の情報処理装置。
（１１）前記撮影部はさらに、前記被写体に対する位相差画像を生成し、
　前記決定部により決定される前記最至近である第１の主要被写体領域は、前記位相差画像から取得された深度情報に基づいて決定される、前記（５）に記載の情報処理装置。
（１２）前記算出部により用いられる前記学習モデルはさらに、前記主要被写体になり得る物体までの距離が入力される、前記（２）に記載の情報処理装置。
（１３）情報処理装置が、
　被写体を撮影し、デジタルデータに変換して撮影画像を生成し、
　前記撮影画像の所定領域ごとに、前記所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出し、
　前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、
　前記有効データ領域に基づいて、主要被写体領域を決定し、
　前記決定された主要被写体領域にピントを合わせる
　処理を実行する、方法。
（１４）情報処理装置に、
　被写体を撮影し、デジタルデータに変換して撮影画像を生成し、
　前記撮影画像の所定領域ごとに、前記所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出し、
　前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、
　前記有効データ領域に基づいて、主要被写体領域を決定し、
　前記決定された主要被写体領域にピントを合わせる
　処理を実行させる、プログラム。

　１０　　情報処理装置
　１１０　記憶部
　１２０　撮影部
　１３０　表示部
　１４０　算出部
　１５０　決定部
　１６０　フォーカス部
　１７０　追跡部
　１８０　センサ部
　２００　制御部

Claims

　被写体を撮影し、デジタルデータに変換して撮影画像を生成する撮影部と、
　前記撮影画像の所定領域ごとに、前記所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出する算出部と、
　前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、前記有効データ領域に基づいて、主要被写体領域を決定する決定部と、
　前記決定された主要被写体領域にピントを合わせるフォーカス部と
　を備えた、情報処理装置。
　前記算出部による前記確率の算出は、前記撮影画像を入力し、前記確率を出力する学習モデルを用いて算出される、請求項１に記載の情報処理装置。
　前記決定部による前記主要被写体領域の決定は、
　隣接する前記有効データ領域を合わせ、
　前記有効データ領域に内接する矩形領域を検出し、
　前記矩形領域を前記主要被写体領域に決定する
　ことを含む、請求項１に記載の情報処理装置。
　前記決定部による前記矩形領域を前記主要被写体領域に決定することは、
　幅および高さ、ならびに面積の少なくとも１つが所定の条件を満たす前記矩形領域を前記主要被写体領域に決定する
　ことを含む、請求項３に記載の情報処理装置。
　前記決定部により決定される前記主要被写体領域が複数ある場合、前記決定部はさらに、複数の前記主要被写体領域の中から、面積が最大、および前記情報処理装置に対して最至近の少なくとも１つを満たす１つの第１の主要被写体領域を決定し、
　前記フォーカス部によってピントを合わせられる前記主要被写体領域は、前記第１の主要被写体領域である、請求項１に記載の情報処理装置。
　前記決定部による前記有効データ領域の決定は、
　前記確率が一定時間、前記所定の閾値を超える前記所定領域を前記有効データ領域に決定することを含む、請求項１に記載の情報処理装置。
　前記決定された主要被写体領域に含まれる前記主要被写体を追跡する追跡部をさらに備えた、請求項１に記載の情報処理装置。
　前記決定部はさらに、追跡している前記主要被写体がフレームアウトした場合、または追跡している前記主要被写体に対する前記主要被写体領域の前記確率が一定時間、前記所定の閾値以下になった場合、前記有効データ領域に基づいて、第２の主要被写体領域を決定する、請求項７に記載の情報処理装置。
　前記フォーカス部さらに、前記第２の主要被写体領域が決定されない場合、前記撮影画像の所定の中央領域にピントを合わせる、請求項８に記載の情報処理装置。
　前記被写体までの距離を測定するセンサ部をさらに備え、
　前記決定部により決定される前記最至近である第１の主要被写体領域は、前記測定された距離に基づいて決定される、請求項５に記載の情報処理装置。
　前記撮影部はさらに、前記被写体に対する位相差画像を生成し、
　前記決定部により決定される前記最至近である第１の主要被写体領域は、前記位相差画像から取得された深度情報に基づいて決定される、請求項５に記載の情報処理装置。
　前記算出部により用いられる前記学習モデルにはさらに、前記主要被写体になり得る物体までの距離が入力される、請求項２に記載の情報処理装置。
　情報処理装置が、
　被写体を撮影し、デジタルデータに変換して撮影画像を生成し、
　前記撮影画像の所定領域ごとに、前記所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出し、
　前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、
　前記有効データ領域に基づいて、主要被写体領域を決定し、
　前記決定された主要被写体領域にピントを合わせる
　処理を実行する、方法。
　情報処理装置に、
　被写体を撮影し、デジタルデータに変換して撮影画像を生成し、
　前記撮影画像の所定領域ごとに、前記所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出し、
　前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、
　前記有効データ領域に基づいて、主要被写体領域を決定し、
　前記決定された主要被写体領域にピントを合わせる
　処理を実行させる、プログラム。