WO2021024860A1

WO2021024860A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2021024860A1
Application number: PCT/JP2020/028902
Authority: WO
Inventors: 仕豪温; 西堀　一彦; 貴光後藤
Original assignee: ソニー株式会社
Priority date: 2019-08-05
Filing date: 2020-07-28
Publication date: 2021-02-11

Abstract

上記目的を達成するため、本技術の一形態に係る情報処理装置は、算出部と、画像処理部とを具備する。前記算出部は、画像内の複数の部分領域の少なくとも１つに対してサリエンシを算出する。前記画像処理部は、前記サリエンシに基づいて、前記画像に対してぼかし処理を実行する。これにより、高品質の画像を出力することが可能となる。

Description

情報処理装置、情報処理方法、及びプログラム

　本技術は、画像処理を実行可能な情報処理装置、情報処理方法、及びプログラムに関する。

　非特許文献１には、画像から人物を検出し、その検出結果に基づいて、画像に対してぼかし処理を実行する旨の技術が開示されている。

Neal Wadhw et.al., "Synthetic Depth-of-Field with a Single-Camera Mobile Phone", ACM Transactions on Graphics, Vol.37, No.4, Article 64, August 2018

　このように高品質の画像を出力することを可能とする技術が求められている。

　以上のような事情に鑑み、本技術の目的は、高品質の画像を出力することを可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、算出部と、画像処理部とを具備する。
　前記算出部は、画像内の複数の部分領域の少なくとも１つに対してサリエンシを算出する。
　前記画像処理部は、前記サリエンシに基づいて、前記画像に対してぼかし処理を実行する。

　この情報処理装置では、部分領域に対して算出されたサリエンシに基づいて、画像に対してぼかし処理が実行される。これにより、高品質の画像を出力することが可能となる。

　前記算出部は、前記複数の部分領域の各々に対して前記サリエンシを算出してもよい。この場合、前記画像処理部は、前記複数の部分領域の各々に対して、前記サリエンシに基づいてぼかし処理を実行してもよい。

　前記画像処理部は、前記サリエンシに基づいて、前記部分領域に対してぼかし強度を設定し、前記ぼかし強度に基づいて前記ぼかし処理を実行してもよい。

　前記画像処理部は、前記サリエンシが相対的に低い前記部分領域に対してぼかし強度を相対的に高く設定し、前記サリエンシが相対的に高い前記部分領域に対してぼかし強度を相対的に低く設定してもよい。

　前記画像処理部は、前記サリエンシに基づいて、前記画像に対するぼかし強度マップを生成し、前記ぼかし強度マップに基づいて前記ぼかし処理を実行してもよい。

　前記算出部は、前記画像に対するサリエンシマップを生成してもよい。この場合、前記画像処理部は、前記サリエンシマップに基づいて、前記ぼかし強度マップを生成してもよい。

　前記複数の部分領域は、前記画像に含まれる物体に対応する領域を含んでもよい。

　前記複数の部分領域は、前記画像に含まれる人物に対応する領域を含んでもよい。

　前記算出部は、前記画像を見る人間にとっての目立ちやすさを示すパラメータとして、前記サリエンシを算出してもよい。

　前記算出部は、前記部分領域の色、サイズ、コントラスト、輝度、形状、前記画像内の位置の少なくとも１つに基づいて、前記サリエンシを算出してもよい。

　前記複数の部分領域は、前記画像に含まれる物体に対応する領域を含んでもよい。この場合、前記算出部は、前記部分領域に対応する前記物体の種類、前記部分領域に対応する前記物体の状態、前記部分領域に対応する前記物体のサイズ、又は前記部分領域に対応する前記物体の前記画像内の位置、又は前記部分領域に対応する前記物体同士の前記画像の奥行方向における位置関係の少なくとも１つに基づいて、前記サリエンシを算出してもよい。

　前記複数の部分領域は、前記画像に含まれる人物に対応する領域を含んでもよい。この場合、前記算出部は、前記部分領域に対応する前記人物の状態、前記部分領域に対応する前記人物のサイズ、前記部分領域に対応する前記人物の前記画像内の位置、又は前記部分領域に対応する前記人物同士の前記画像の奥行方向における位置関係の少なくとも１つに基づいて、前記サリエンシを算出してもよい。

　前記部分領域に対応する前記人物の状態は、前記人物の姿勢、又は前記人物の顔に関する情報の少なくとも一方を含んでもよい。

　前記人物の顔に関する情報は、顔のサイズ、顔の向き、顔の表情、又は前記画像内の顔の位置の少なくとも１つを含んでもよい。

　前記情報処理装置は、さらに、ユーザの指示を受付ける受付部を具備してもよい。この場合、前記画像処理部は、前記ユーザの指示に基づいて、前記ぼかし処理を実行可能であってもよい。

　前記情報処理装置は、さらに、ユーザの指示を受付ける受付部を具備してもよい。この場合、前記画像処理部は、前記ユーザの指示に基づいて、前記ぼかし強度を設定可能であってもよい。

　前記情報処理装置は、さらに、ユーザの指示を受付ける受付部を具備してもよい。この場合、前記算出部は、前記ユーザの指示に基づいて、前記サリエンシを算出可能であってもよい。

　前記受付部は、前記部分領域を選択する指示を受付けてもよい。この場合、前記画像処理部は、選択された前記部分領域に対して、前記ぼかし処理を実行してもよい。

　本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、画像内の複数の部分領域の少なくとも１つに対してサリエンシを算出することを含む。前記サリエンシに基づいて、前記画像に対してぼかし処理が実行される。

　本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
　画像内の複数の部分領域の少なくとも１つに対してサリエンシを算出するステップ。
　前記サリエンシに基づいて、前記画像に対してぼかし処理を実行するステップ。

本技術の概要を説明するための模式図である（入力画像、ぼかし画像）。本技術に係る情報処理方法の一例を示すフローチャートである。情報処理装置の一実施形態を示す模式図である（携帯端末の外観）。情報処理装置の一実施形態を示す模式図である（携帯端末の機能ブロック）。入力画像内の物体の検出例を説明するための模式図である。セマンティックセグメンテーションの学習済モデルの生成例を説明するための模式図である。サリエンシマップの一例を示す模式図である。顔検出に基づいたサリエンシを説明するための模式図である。サリエンシマップの一例を示す模式図である。ぼかしフィルタの一例を説明するための図である。携帯端末の実施例を示すフローチャートである。携帯端末の他の実施例を示すフローチャートである。ぼかし変更指示の入力例を示す模式図である。本技術に係る情報処理装置の他の実施形態を示す模式図である。

　以下、本技術に係る実施形態を、図面を参照しながら説明する。

　＜第１の実施形態＞
　［本技術の概要］
　図１は、本技術の概要を説明するための模式図である。
　本技術は、入力される入力画像に対して、ぼかし処理を実行し、ぼかし画像として出力することが可能である。
　例えば、図１Ａに示す入力画像５には、画像の中央に人物Ｐ１が表示されており、画像の右側の下方側には、人物Ｐ２が表示されている。また画像の右側の上方側には、２人の人物（重なって並んでいるのでまとめて人物Ｐ３とする）が表示されている。すなわち入力画像５は、人物Ｐ１～Ｐ３を含む。
　中央の人物Ｐ１に対して、右側の下方側の人物Ｐ２は、人物Ｐ１よりも手前側にて撮影されている（以下、手前側の人物Ｐ２と記載する）。中央の人物Ｐ１に対して、右側の上方側の人物Ｐ３は、人物Ｐ１よりも奥側にて撮影されている（以下、奥側の人物Ｐ３と記載する）。
　また入力画像５は、人物Ｐ１～Ｐ３の他に、木、草、道路、建物等の物体を含む。また入力画像５は空も含む（空が映っている）。本開示では、画像内の空が映っている部分も、物体が映っているものとする。すなわち空も物体に含まれるものとする。もちろん、人物Ｐ１～Ｐ３も物体に含まれる。

　例えば、入力画像５は、撮影条件として被写界深度が比較的深い状態で撮影された画像であるとする。すなわち人物Ｐ１～Ｐ３、及びその他の物体を含む画像全体で、ピント（焦点）がほぼ合っている画像であるとする。
　図１Ａ及びＢでは、人物Ｐ１～Ｐ３やその他の物体において、境界となる線の太さ及び色（濃淡）により、ピントが表現されている。線が太く、色が黒いほど、その線により囲まれる人物や物体のピントが合っていることになる。
　図１Ａの入力画像５では、人物Ｐ１～Ｐ３、及びその他の物体が、ほぼピントが合っている状態となっている。

　本技術に係る情報処理装置により、本技術に係る情報処理方法及びプログラム（例えばアプリケーションプログラム）が実行され、入力画像５に対してぼかし処理が実行される。これにより撮影条件として異なる被写界深度で撮影されたような画像を、ぼかし画像として出力することが可能となる。すなわち図１Ａに示す入力画像５とはピントが合っている範囲が異なるような、ぼかし画像を出力することが可能となる。
　例えば、図１Ｂに示す例では、被写界深度が比較的浅い状態で撮影されたぼかし画像６が出力されている。具体的には、ぼかし画像６では、中央の人物Ｐ１に最もピントが合っている。そして手前側の人物Ｐ２は若干ぼやけており、ピントが合っていない状態である。また奥側の人物Ｐ３は、さらにぼやけて映っており、さらにピントが合っていない状態である。
　人物Ｐ１～Ｐ３以外の他の物体は、人物Ｐ３よりもさらにぼやけて表示されており、最もピントが合っていない状態で映っている。
　このように本技術に係る情報処理装置、情報処理方法、及びプログラムでは、入力画像５に対して所望のフォーカス表現を実現することが可能となり、高品質の画像を出力することが可能である。

　図２は、本技術に係る情報処理方法の一例を示すフローチャートである。ここでは、本技術に係る情報処理方法の基本的な流れのみを簡単に説明し、図２に示す各ステップについては後に詳しく説明する。
　画像が取得される（ステップ１０１）。
　画像内の複数の部分領域のサリエンシ（Saliency）が算出される（ステップ１０２）。
　例えば複数の部分領域の各々に対してサリエンシが算出されてもよい。あるいは、複数の部分領域のうち１つの部分領域のみに対してサリエンシが算出されてもよい。すなわち複数の部分領域の少なくとも１つに対してサリンエンシが算出される。
　ステップ１０２にて算出されたサリエンシに基づいて、ステップ１０１にて取得された画像に対して、ぼかし処理が実行される（ステップ１０３）。これにより図１Ｂで例示したような、ぼかし画像６を生成して出力することが可能となる。

　例えば複数の部分領域のうち一部の部分領域に対してほかし処理が実行されてもよいし、複数の部分領域の各々に対して、ぼかし処理が実行されてもよい。
　例えば、複数の部分領域のうちサリエンシが算出された部分領域に対して、ぼかし処理が実行されてもよい。あるいは、複数の部分領域の各々に対してサリエンシが算出されている場合、算出されたサリエンシに基づいて、複数の部分領域の各々に対してぼかし処理が実行されてもよい。
　本技術では、複数の部分領域に対して、互いに異なるぼかし処理を実行することが可能である。これにより、自然なぼかし表現等、種々のフォーカス表現を実現することが可能となる。
　なお、「ぼかし」を「ぼけ」と表現することも可能である。例えば、ぼかし処理やぼけ表現等を、ぼけ処理やぼけ表現と言うことも可能である。

　［情報処理装置の例］
　図３及び図４は、本技術の情報処理装置の一実施形態を示す模式図である。
　図３に例示するように、本技術の情報処理装置の一実施形態として、ユーザが携帯可能な携帯端末１０を用いることが可能である。携帯端末１０としては、例えばスマートフォン、タブレット端末、ウェアラブル装置、ＰＤＡ（Personal Digital Assistant）等、種々のデバイスが挙げられる。
　図４に示すように、携帯端末１０は、カメラ１１、スピーカ１２、表示部１３、操作部１４、Ｉ/Ｆ（インタフェース）部１５、通信部１６、センサ部１７、記憶部１８、及びコントローラ１９を有する。

　カメラ１１は、対象物を撮影し、その画像（画像データ）を生成することが可能である。
　本開示において、画像は、静止画像及び動画像を含む。もちろん動画像に含まれる複数のフレーム画像も、画像に含まれる。
　例えばカメラ１１として、ＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサやＣＣＤ（Charge Coupled Device）センサ等のイメージセンサを備えるデジタルカメラを用いることが可能である。その他、任意の構成が採用されてよい。
　スピーカ１２は、種々の音を出力可能である。スピーカ１２の具体的な構成は限定されない。
　表示部１３は、例えば液晶、ＥＬ（Electro-Luminescence）等を用いた表示デバイスであり、種々の画像や種々のＧＵＩ（Graphical User Interface）等が表示される。
　操作部１４は、例えばキーボード、ポインティングデバイス、その他の操作装置である。
　図３に示す例では、携帯端末１０にタッチパネル２０が設置される。タッチパネル２０は、図４に示す表示部１３及び操作部１４の両方の機能を有するデバイスとなる。
　Ｉ／Ｆ部１５は、例えばＵＳＢ（Universal Serial Bus）端子やＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）端子等の、他のデバイスや種々のケーブルが接続されるインタフェースである。
　通信部１６は、他のデバイスと通信するための通信モジュールであり、例えばＷｉＦｉ等の無線ＬＡＮ（Local Area Network）モジュールや、Bluetooth（登録商標）等の近距離無線通信用の通信モジュールが用いられる。

　センサ部１７は、マイク２２、ＩＭＵ（Inertial Measurement Unit：慣性計測センサユニット）２３、及びＧＰＳ２４を含む。
　マイク２２は、周辺で発生する音声を取得することが可能である。例えば、マイク２２により、ユーザが発話した音声や、周囲の環境音を検出して取得することが可能である。マイク２２の具体的な構成は限定されない。
　ＩＭＵ２３は、モーションセンサの１つであり、３軸における加速度と角速度とを検出することが可能である。ＩＭＵ２３の具体的な構成は限定されず、ジャイロセンサ、加速度センサ、コンパスセンサ等を含む任意の構成が採用されてよい。ＩＭＵ２３として、６軸ＩＭＵが用いられてもよいし、９軸ＩＭＵが用いられてもよい。
　ＧＰＳ２４は、携帯端末１０の位置情報を出力することが可能である。ＧＰＳ２４の具体的な構成は限定されず、任意の構成が採用されてよい。

　記憶部１８は、不揮発性の記憶デバイスであり、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等が用いられる。
　記憶部１８には、画像データ２５が記憶される。画像データ２５は、例えば、カメラ１１により撮影された画像や、図１Ｂに例示するようなぼかし処理が実行されたぼかし画像６等の、任意の画像データを含む。
　また記憶部１８には、携帯端末１０の全体の動作を制御するための制御プログラム２６が記憶される。制御プログラム２６は、本技術に係るプログラムを含む。
　制御プログラム２６を、携帯端末１０にインストールする方法は限定されない。例えば、種々の記録媒体を介してインストールが実行されてもよいし、インターネット等を介してプログラムのインストールが実行されてもよい。
　なお、本技術に係るプログラムが記録される記録媒体の種類等は限定されず、コンピュータが読み取り可能な任意の記録媒体が用いられてよい。例えば非一時的にデータを記録する任意の記録媒体が用いられてよい。

　コントローラ１９は、携帯端末１０が有する各ブロックの動作を制御する。コントローラ１９は、例えばＣＰＵやＧＰＵ等のプロセッサ、ＲＯＭやＲＡＭ等のメモリ等の、コンピュータの構成に必要なハードウェアを有する。ＣＰＵ等が記憶部１８に記録されている制御プログラム（本技術に係るプログラム）２６をＲＡＭにロードして実行することにより、本技術に係る情報処理方法が実行される。
　コントローラ１９の具体的な構成は限定されず、例えばＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）等の任意のハードウェアが用いられてもよい。

　本実施形態では、コントローラ１９のＣＰＵ等が本実施形態に係るプログラムを実行することで、機能ブロックとして、カメラ制御部２８、物体検出部２９、サリエンシ算出部３０、ぼかし強度制御部３１、及びぼかしフィルタ部３２が実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。
　なお各機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが適宜用いられてもよい。
　図４に示す各機能ブロックについては、図２に示す各ステップとともに後に詳しく説明する。

　本実施形態では、サリエンシ算出部により、算出部が実現される。
　ぼかし強度制御部３１及びぼかしフィルタ部３２により画像処理部が実現される。
　操作部１４（タッチパネル２０を含む）に入力されたユーザの操作に応じて生成される指示信号を受信するコントローラ１９により、ユーザの指示を受付ける受付部が実現される。

　［画像の取得］
　図２に示すステップ１０１の画像の取得について説明する。
　本実施形態では、図４に示すカメラ制御部２８がカメラ１１を制御することで、画像（画像データ）が取得される。
　例えばユーザにより、図３に示すタッチパネル２０等を介して、ズームやフラッシュの有無等の撮影条件に関する指示が入力される。またユーザにより、シャッタボタンが押される。シャッタボタンは、タッチパネル２０に仮想的に表示されてもよいし、携帯端末１０の側面等に物理的に構成されてもよい。
　カメラ制御部２８は、入力された撮影条件に基づいて、カメラ１１の撮影に関する各パラメータを設定する。そして、シャッタボタンの押込みに応じて、カメラ１１に撮影動作を実行させる。これにより、例えば図１Ａに示すような入力画像５が撮影される。
　撮影された画像は、例えばバッファ等に一時的に保存される。バッファは、カメラ制御部に含まれるブロックとして構成されてもよいし、記憶部１８内に構成されてもよい。

　［部分領域のサリエンシの算出］
　図２に示すステップ１０２の部分領域のサリエンシの算出について説明する。
　まず入力画像５に対して、複数の部分領域（セグメント）が設定される。
　本実施形態では、部分領域は、画像を構成する画素を基準として設定される。すなわち部分領域は、画像内の一部の画素群により規定される。なお１つの画素のみの領域も、部分領域に含まれる。従って、部分領域は、画像内の１つの画素又は所定の画素群により規定される。
　例えば、部分領域に含まれる画素の位置情報（座標）により、画像内における部分領域の位置等を規定することが可能である。

　本実施形態では、図４に示す物体検出部２９により、入力画像５内の物体が検出される。検出された各物体に対応する領域が、部分領域として設定される。すなわち本実施形態では、画像に含まれる物体（人物を含む）に対応する領域が、部分領域として設定される。
　入力画像５内の物体を検出する方法は限定されず、任意の技術（アルゴリズム等）が用いられてよい。例えばＤＮＮ（Deep Neural Network：深層ニューラルネットワーク）等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング（深層学習）を行うＡＩ（人工知能）等を用いることで、物体の検出精度を向上させることが可能となる。
　例えば物体検出部２９として、学習部及び識別部（図示は省略）が備えられる。学習部は、入力された情報（学習データ）に基づいて機械学習を行い、学習結果を出力する。また、識別部は、入力された情報と学習結果に基づいて、当該入力された情報の識別（判断や予測等）を行う。
　学習部における学習手法には、例えばニューラルネットワークやディープラーニングが用いられる。ニューラルネットワークとは、人間の脳神経回路を模倣したモデルであって、入力層、中間層（隠れ層）、出力層の３種類の層から成る。
　ディープラーニングとは、多層構造のニューラルネットワークを用いたモデルであって、各層で特徴的な学習を繰り返し、大量データの中に潜んでいる複雑なパターンを学習することができる。
　ディープラーニングは、例えば画像内のオブジェクトや音声内の単語を識別する用途として用いられる。もちろん、本実施形態に係る物体の検出に適用することも可能である。
　また、このような機械学習を実現するハードウェア構造としては、ニューラルネットワークの概念を組み込まれたニューロチップ／ニューロモーフィック・チップが用いられ得る。

　機械学習の問題設定には、教師あり学習、教師なし学習、半教師学習、強化学習、逆強化学習、能動学習、転移学習等がある。
　例えば教師あり学習は、与えられたラベル付きの学習データ（教師データ）に基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。
　また、教師なし学習は、ラベルが付いていない学習データを大量に分析して特徴量を抽出し、抽出した特徴量に基づいてクラスタリングを行う。これにより、膨大な未知のデータに基づいて傾向の分析や未来予測を行うことが可能となる。
　また、半教師学習は、教師あり学習と教師なし学習を混在させたものであって、教師あり学習で特徴量を学ばせた後、教師なし学習で膨大な訓練データを与え、自動的に特徴量を算出させながら繰り返し学習を行う方法である。
　また、強化学習は、ある環境内におけるエージェントが現在の状態を観測して取るべき行動を決定する問題を扱うものである。エージェントは、行動を選択することで環境から報酬を習得し、一連の行動を通じて報酬が最も多く得られるような方策を学習する。このように、ある環境における最適解を学習することで、人間の判断力を再現し、また、人間を超える判断力をコンピュータに習得させることが可能となる。
　また、機械学習とは異なる任意の学習アルゴリズム等が用いられてよい。所定の学習アルゴリズムに従って物体を検出することで、物体の検出精度を向上させることが可能となる。
　なお学習アルゴリズムの適用は、本開示内の任意の処理に対して実行されてよい。

　図５は、入力画像５内の物体の検出例を説明するための模式図である。
　例えば図５Ａに示すように、カメラ１１により撮影された入力画像５に対して、セマンティックセグメンテーション（Semantic Segmentation）が実行される。これにより、画像２内の各画素（各ピクセル）を、ラベル（人物、車両、木、草、道路、建物等）に関連付けることが可能となる。
　例えば図５Ａに示す例では、セマンティックセグメーションにより、画像２内に含まれる人物Ｐ１～Ｐ２、木Ｔ、草Ｇ、道路Ｒ、建物Ｂ等を、高い精度で検出することが可能となる。これら検出された物体（人物）に対応する領域が、部分領域３３として設定される。

　図６は、セマンティックセグメンテーションの学習済モデルの生成例を説明するための模式図である。
　学習用の画像データ群３５と、ラベル３６とが、学習部３７に入力される。ラベル３６は、学習用の各画像データと関連付けられた情報である。例えばこの画像データのこの画素は人物である等の情報が、ラベル３６として保存される。
　学習用の画像データにラベル３６を関連付ける方法は限定されない。例えばユーザにより手動で、画像データに対してラベル３６が設定され、学習用のデータセットが生成されてもよい。または、ネットワーク等を介して、画像データ群３５とラベル３６とが関連付けられた学習用のデータセットがダウンロードされ、学習部３７に入力されてもよい。
　学習部３７により、学習用のデータセットが用いられ、機械学習アルゴリズムに基づいて学習が実行される。学習により、セマンティックセグメンテーションを実行するためのパラメータ（係数）が更新され、学習済パラメータとして生成される。生成された学習済パラメータが組み込まれたプログラムが、学習済モデル３８として生成される。
　学習済モデル３８により、画像の入力に対してセマンティックセグメンテーションが実行され、画素レベルで物体の検出が実行される。
　なお、物体を検出するためのアルゴリズムとして、オブジェクトセグメンテーション（Object Segmentation）を用いることも可能である。その他、物体のモデル画像を用いたマッチング処理、エッジ検出、射影変換等の任意の画像認識技術が用いられてもよい。

　入力画像５から所定の種類の物体のみを検出することも可能である。例えば図５Ｂに示すように、人物のみを検出する人物検出が実行され、人物Ｐ１～Ｐ２が検出されてもよい。この場合、人物Ｐ１～Ｐ３に対応する領域が部分領域３３に相当する。また人物Ｐ１～Ｐ３以外の領域も、部分領域３３に相当する。
　人物を検出する方法は限定されない。上記で説明したような種々の検出アルゴリズムが用いられてよい。

　部分領域の設定方法として、物体検出（人物検出）以外の方法が採用されてもよい。
　例えば、所定の機種モデルのカメラにて所定の被写体深度にて撮影された場合のフォーカス表現が実現されるように、入力画像５に対して部分領域が適宜設定されてもよい。

　図４に示すサリエンシ算出部３０により、入力画像５に対して設定された部分領域３３に対してサリエンシが算出される。
　サリエンシは、人間にとっての視覚的な目立ちやすさを示すパラメータであり、人間にとっての顕著性（目立ち度）ともいえる。サリエンシは、人間にとって注目しやすさを示す視覚特徴量とも言える。
　人間は、サリエンシが高い方向へと自然発生的に（無意識のうちに）視線が誘導されやすくなる。従ってサリエンシを、人物にとって、視線の誘導のされやすさを示すパラメータと言うことも可能である。
　本実施形態では、入力画像５を見る人間にとっての目立ちやすさを示すパラメータとしてサリエンシが算出される。

　部分領域に対してサリエンシを算出する方法は限定されない。
　例えば、部分領域３３に含まれる各画素に対してサリエンシが算出され、各画素におけるサリエンシの算出結果に対して平均等の統計処理が行われ、部分領域３３に対するサリエンシとして算出されてもよい。
　統計処理としては、例えば、複数のサリエンシの算出結果（あるいは算出結果系列）の最小値、最大値、平均値、モード（最頻値）、メジアン（中央値）、偏差、分散値等を用いた種々の処理が挙げられる。あるいはこれらの値を、適宜使い分けることも可能である。
　あるいは、部分領域３３に含まれる全ての画像に対して、包括的にサリエンシが算出されてもよい。
　あるいは、部分領域３３がさらに複数の領域に分割され、その分割領域ごとにサリエンシが算出される。そして分割領域ごとのサリエンシに基づいて、部分領域３３に対するサリエンシが算出されてもよい。

　サリエンシを算出するために用いられるパラメータについて説明する。以下に説明する種々のパラメータのうち１つのパラメータが用いられてもよいし、複数のパラメータが組み合わされてもよい。
　パラメータの数が少ないほど、処理負荷の軽減や処理時間の短縮に有利である。パラメータの数が多いほど、サリエンシの算出精度の向上に有利である。
　例えば、部分領域３３の色、サイズ、コントラスト、輝度、形状、空間周波数、エッジの傾き、動き（動画像の場合）等に基づいて、サリエンシを算出することが可能である。
　また入力画像５内における部分領域３３の位置等に基づいて、サリエンシを算出することも可能である。

　また、図５Ａ及び図５Ｂに示すように、物体検出部２９により検出された物体（人物）に対応する領域が、部分領域３３として設定されているとする。
　この場合、例えば、以下のパラメータに基づいてサリエンシを算出することが可能である。なお以下では、部分領域３３に対応する物体を、単に物体と記載する場合がある。また部分領域３３に対応する人物を、単に人物と記載する場合がある。
　物体の種類…例えば、人物、道路、草、木
　物体の状態…例えば、姿勢、動作中／休止中（機械等の場合）
　物体のサイズ
　物体の入力画像５内における位置
　例えば、人間にとって目立つ種類の物体、目立つ状態の物体、大きいサイズの物体、画像の中央に映っている物体等には、相対的に高いサリエンシが算出される。逆に、人間にとって目立たない種類の物体、目立たない状態の物体、小さいサイズの物体、画像の端に映っている物体等には、相対的に低いサリエンシが算出される。
　例えば、非常に目立つ色の建物等はサリエンシが相対的に高くなる。道路等の物体はサリエンシが相対的に低くなる。画像の端に映る空等も、サリエンシは相対的に低くなる。

　物体が人物である場合には、以下のパラメータが用いられてもよい。
　人物の状態
　人物のサイズ
　人物の入力画像５内における位置
　人物の状態は、例えば、人物の姿勢や人物の顔に関する情報（顔のサイズ、顔の向き、顔の表情、入力画像５内の顔の位置等）を含む。なお入力画像５内の顔の位置は、人物の入力画像５内における位置に関連するパラメータとなる。
　例えば、人間にとって目立つ状態の人物、大きいサイズの人物、画像の中央に映っている人物等には、相対的に高いサリエンシが算出される。逆に、人間にとって目立たない状態の人物、小さいサイズの人物、画像の端に映っている人物等には、相対的に低いサリエンシが算出される。
　例えば画像の中央に大きく映る人物はサリエンシが相対的に高くなる。うつむいている人物はサリエンシが相対的に低くなる。大笑いしている人物はサリエンシが相対的に高くなり、無表情の人物はサリエンシが相対的に低くなる。

　物体検出部２９により、顔検出が実行され、顔に関する情報に基づいて、顔やその顔を含む人物のサリエンシを算出することも可能である。人の顔は特に注目されやすい部分であるので、顔検出を使うことでより注目されやすい領域を検出することが可能である。
　所定の種類の物体以外は、全てサリエンシを０にするといった処理も可能である。例えば図５Ｂに示す例において、人物Ｐ１～Ｐ３以外の領域である部分領域３３についてサリエンシを０にするといった処理も可能である。
　このような、入力画像５を見る人間にとっての目立ちやすさに関連する任意のパラメータが用いられよい。

　図７～９は、部分領域に対するサリエンシの算出例を説明するための模式図である。ここでは、図５Ｂに示す人物検出により設定された部分領域３３に対するサリエンシの算出例を説明する。具体的には、入力画像５における位置に基づくサリエンシと、人物Ｐ１～Ｐ２の顔検出に基づくサリエンシとの組み合わせによる算出方法を説明する。
　図７は、各画素に対するサリエンシを示すサリエンシマップの一例を示す模式図である。サリエンシマップは、各画素に対してサリエンシが設定された情報であり、入力画像５に対するマップとして用いられる。サリエンシマップは、分布情報とも言える。
　ここで説明を分かりやすくするために、サリエンシの値を、０～２５５の間の値となるように正規化する。すなわちサリエンシの最小値は０として算出され、サリエンシ最大値は２５５として算出されるものとする。
　その０～２５５のサリエンシを、８ビットの０～２５５の輝度値にあてはめて、グレー表現（濃淡の表現）を用いて、サリエンシマップを図示する。マップ内の輝度値最大（輝度値２５５）の白は、サリエンシが最大となる部分（画素）である。輝度値最小（輝度値０）の黒は、サリエンシが最小となる部分（画素）である。
　もちろん、サリエンシの程度を表す数値の設定方法や、正規化の方法は限定されない。

　図７Ａに示すサリエンシマップＳＭ１は、画像の中央に位置する画素のサリエンシが高い。そして、画像の端に向かって進むほどサリエンシが低くなっている。このサリエンシマップＳＭ１は、画像の中央の方が、人間は注目しやすいという見解に基づいて作成されている。
　図７Ｂに示すサリエンシマップＳＭ２は、画像の下端に位置する画素のサリエンシが高い。そして、画像の上端に向かって進むほどサリエンシは低くなっている。このサリエンシマップＳＭ２は、画像の上方は空等であり、地面の上の被写体は下方側に映っていることが多い。従って下方側の方が、人間は注目しやすいという見解に基づいて作成されている。
　図７Ｃに示すサリエンシマップＳＭ３は、図７Ａに示すサリエンシマップＳＭ１と図７Ｂに示すサリエンシマップＳＭ２とを合成したものである。例えば、同じ位置にある画素のサリエンシの平均により、サリエンシマップＳＭ３が生成される。これに限定されず、サリエンシを掛けた値を正規化するといったことが実行されてもよい。
　なお、サリエンシマップＳＭ１～ＳＭ３のいずれのみを用いて、部分領域３３に対するサリエンシを算出することも可能である。

　図８Ａは、図５Ｂに示す人物Ｐ１～Ｐ３に対する顔検出の結果を示す模式図である。図８Ａに示す例では、顔検出の結果として、人物Ｐ１の顔領域Ｆ１と、人物Ｐ２の顔領域Ｆ２と、人物Ｐ３の顔領域Ｆ３が、白い領域で表現されている。図８Ａでのグレー表現は、あくまで顔領域を示しているのみである。

　各顔領域Ｆ１～Ｆ３に対して、例えば上記した顔に関する情報（顔のサイズ、顔の向き、顔の表情、入力画像５内の顔の位置等）等に基づいて、サリエンシが算出される。これにより、顔検出に基づいたサリエンシマップ（図示は省略）が生成される。なお顔領域Ｆ１～Ｆ３以外の画素については、サリエンシは０に設定される。
　顔検出に基づいたサリエンシマップと、図７Ｃに示すサリエンシマップＳＭ３の位置に基づいたサリエンシとが組み合わされる。すなわち顔領域Ｆ１～Ｆ３に含まれる各画素において、顔に関する情報に基づいたサリエンシと、サリエンシマップＳＭ３におけるサリエンシとが組み合わされる。
　例えば、２つのサリエンシマップにおいて、同じ位置の画素に対するサリエンシ同士を掛け算する。そして、各顔領域Ｆ１～Ｆ２の各々にて、サリエンシの値を平均する。例えばこのような処理により、図８Ｂに示すような顔領域Ｆ１～Ｆ２に対してサリエンシが算出されたサリエンシマップＳＭ４が生成される。
　なお、顔に関する情報に基づいたサリエンシと、サリエンシマップＳＭ３とを組み合わせる方法は限定されず、任意に設定されてよい。

　図５Ｂに示すような人物検出により検出された人物Ｐ１～Ｐ３の部分領域３３に対して、図８Ｂに示す各顔領域Ｆ１～Ｆ３のサリエンシがそのまま適用される。すなわち顔領域Ｆ１～Ｆ３に対するサリエンシを、そのまま人物Ｐ１～Ｐ３の全体の部分領域３３のサリエンシとする。
　これにより、図９に示すようなサリエンシマップＳＭ５が生成される。なお人物Ｐ１～Ｐ３以外の画素については、サリエンシは０に設定される。
　このように位置に基づいたサリエンシと、顔検出に基づいたサリエンシとにより、人物Ｐ１～Ｐ３の部分領域３３に対するサリエンシを算出することが可能である。
　なお、人物検出と、顔検出からサリエンシマップＳＭ４までの処理とを並列に実行することで、処理時間の短縮を実現することが可能である。

　部分領域の設定及びサリエンシの算出がまとめて実行されてもよい。例えば、機械学習等が用いられる場合等において、入力画像５の入力に対して、各画素に対して、同一の部分領域に対しては同一のサリエンシとなるように、サリエンシが関連付けられてもよい。このような学習済モデルを作成することも可能である。

　［入力画像に対するぼかし処理］
　図２に示すステップ１０３のぼかし処理について説明する。
　本実施形態では、図４に示すぼかし強度制御部３１及びぼかしフィルタ部３２により、部分領域３３に対して算出されたサリエンシに基づいて、入力画像５に対してぼかし処理が実行される。
　まず、ぼかし強度制御部３１により、サリエンシに基づいて、各部分領域３３に対してぼかし強度が設定される。
　ぼかし強度は、ぼかしの強度を規定し得る任意のパラメータを含み、例えば後に説明するぼかしフィルタの形態に応じて適宜設定される。
　本実施形態では、入力画像５の各画素に対してぼかし強度が設定される。従って、部分領域３３に含まれる各画素に対してぼかし強度が設定される。図９に示すサリエンシマップＳＭ５では、同じ人物に対応する部分領域３３に含まれる画素には同じサリエンシが設定される。従って、同じ人物に対応する部分領域３３に含まれる画素には、同じぼかし強度が設定される。もちろん、そのような設定に限定される訳ではない。
　典型的には、サリエンシが相対的に低い部分領域３３に対しては、ぼかし強度が相対的に高く設定される。サリエンシが相対的に高い部分領域３３に対しては、ぼかし強度が相対的に低く設定される。
　これは、サリエンシの高いピクセルは鮮明（シャープ）に保たれるべきであり、サリエンシの低いピクセルはより強くぼやけているはずだという見解に基づいている。もちろん、サリエンシとぼかし強度の設定は、所望のフォーカス表現が実現可能なように任意に設定されてよい。

　本実施形態では、サリエンシが低い部分領域３３に対してぼかし強度が高く設定され、サリエンシが高い部分領域３３に対してぼかし強度が低く設定されるとする。
　そうすると、図９に例示するサリエンシマップＳＭ５を、最大と最小の関係が反対の関係となったぼかし強度マップと見做すことも可能である。
　ぼかし強度マップは、各画素に対してぼかし強度が設定された情報であり、入力画像５に対するマップとして用いられる。強度マップも、分布情報と言える。
　例えば図９に示す例では、マップ内の輝度値最大（輝度値２５５）の白は、ぼかし強度が最小となる部分（画素）である。輝度値最小（輝度値０）の黒は、ぼかし強度が最大となる部分（画素）である。

　ぼかし強度制御部３１は、サリエンシをぼかし強度に変換する処理を実行するとも言える。さらに言えば、ぼかし強度制御部３１は、サリエンシマップを、ぼかし強度マップに変換する処理を実行するとも言える。
　サリエンシからぼかし強度への変換、及びサリエンシマップからぼかし強度マップへの変換の具体的な方法は限定されず、線形変換、非線形変換等、任意の変換方法が用いられてよい。

　ぼかしフィルタ部３２は、部分領域３３に対して設定されたぼかし強度に基づいて、部分領域３３に対してぼかしフィルタ処理を実行する。
　本実施形態では、入力画像５の各画素に対して、ぼかしフィルタによるフィルタ処理が実行される。従って、部分領域３３に含まれる各画素に対して、ぼかしフィルタによるフィルタ処理が実行される。その際に、ぼかしアルゴリズムを制御するパラメータとして、各画素に設定されたぼかし強度が用いられる。
　従って、ぼかし強度マップに基づいて、ぼかし処理を実行することが可能である。

　図１０は、ぼかしフィルタの一例を説明するための図である。
　ぼかしフィルタとして、平均化フィルタ（Averaging Filter）を用いることが可能である。例えば、ぼかし処理の対象となるターゲット画素４０に対して、図１０に示す円形カーネル（Circular Kernel）ＣＫを設定する。そしてターゲット画素４０の画素値を、円形カーネルＣＫ内に含まれる各画素の画素値の平均に変換する。これによりぼかし処理が実行可能である。
　図１０に例示する平均化フィルタでは、ぼかし強度として、フィルタ半径ｒが設定される。すなわちぼかし強度制御部３１は、サリエンシに基づいてフィルタ半径ｒを算出する。すなわちサリエンシマップを、フィルタ半径ｒのマップに変換する。
　例えば、以下の式に示すような線形変換により、フィルタ半径ｒ（ぼかし強度）を算出することが可能である。

　ｒ：フィルタ半径
　ｓ：サリエンシ（０～２５５の値に正規化）
　Ａ（≠０）及びＢ：係数

　例えば、サリエンシが最大（２５５）の場合は、フィルタ半径ｒ（ぼかし強度）はＢで最小となり、画素の鮮明さが維持される。サリエンシが最小（０）の場合は、フィルタ半径ｒ（ぼかし強度）は、２５５Ａ＋Ｂで最大となる。画素は大きくぼかされる。
　（数１）式において、係数Ａが大きくなるほど、サリエンシの差に応じたぼかし強度の差が大きくなる。すなわち係数Ａが１の場合は、サリエンシの差がそのままぼかし強度の差となる。
　係数Ｂが０の場合は、サリエンシが最大（２５５）の場合は、フィルタ半径ｒが０となり、ターゲット画素４０の画素値は維持される。係数Ｂは、サリエンシが最大となる画素のぼかし強度を規定する基準パラメータとも言える。
　なお、サリエンシからフィルタ半径への変換方法は限定されず、任意に設定されてよい。

　図９に示すサリエンシマップＳＭ５では、中央の人物Ｐ１、手前側の人物Ｐ２、奥側の人物Ｐ３、人物以外の領域の順で、サリエンシが低くなっている。従って、図１Ｂに示すように、中央の人物Ｐ１に最もピントが合い、手前側の人物Ｐ２は若干ぼやけ、奥側の人物Ｐ３はさらにぼやけて表示される。また人物以外の領域は、さらにぼやけて表示される。この結果、自然なぼかし表現が実現された高品質な画像が生成されている。
　なお図１０に示す円形カーネルＣＫにおいて、画像の横方向に対応するＸ方向における半径と、画像の縦方向に対応するＹ方向における半径とが別々に制御可能であってもよい。すなわち、サリエンシに基づいて、Ｘ方向における半径と、Ｙ方向における半径とが、別々に算出されてもよい。これにぼかし処理の精度を向上させることが可能となり、所望のぼかし表現を実現することが可能となる。

　ぼかしフィルタの他の例として、以下のフィルタが挙げられる。
　平均化フィルタ（Averaging Filter）（平方カーネル：Square Kernel）
　　平方カーネル内に含まれる各画素の画素値の平均に変換
　　ぼかし強度：フィルタ長（ｘ方向及びｙ方向にて別々に制御可能）
　ガウシアンフィルタ（Gaussian Filter）
　　ぼかし強度：フィルタ半径（ｘ方向及びｙ方向にて別々に制御可能）
　　　　　　　　シグマ（ｘ方向及びｙ方向にて別々に制御可能）
　中央値フィルタ（Median Filter）（円形カーネル：Circular Kernel）
　　円形カーネル内に含まれる各画素の画素値の中央値に変換
　　ぼかし強度：フィルタ半径（ｘ方向及びｙ方向にて別々に制御可能）
　中央値フィルタ（Median Filter）（平方カーネル：Circular Kernel）
　　平方カーネル内に含まれる各画素の画素値の中央値に変換
　　ぼかし強度：フィルタ長（ｘ方向及びｙ方向にて別々に制御可能）
　その他、任意のぼかしフィルタが用いられてよい。例えば、事前に設計したフィルタがテーブル情報として記憶され、適宜読み出されて用いられてもよい。
　ぼかしフィルタ処理も限定されず、任意のアルゴリズムが採用されてよい。

　図１１は、本技術に係る携帯端末１０の実施例を示すフローチャートである。
　撮影者（ユーザ）がシャッターを押して写真（画像）を撮る（ステップ２０１）。撮影された入力画像５は、さらなる処理のためにバッファに保存される。
　入力画像５に対して、人物Ｐ１～Ｐ３が検出される（ステップ２０２）。
　入力画像５に対して、サリエンシマップＳＭ５が生成される（ステップ２０３）。
　サリエンシマップＳＭ５に基づいて、ぼかし強度マップが生成される（ステップ２０４）。
　ぼかし強度マップに基づいて、入力画像５がぼかされる（ステップ２０５）。
　ぼかし処理の結果生成されるぼかし画像６が、保存される（ステップ２０６）。保存されたぼかし画像６は、ユーザの指示等、あるいは自動的に、携帯端末１０のタッチパネル２０に表示される。あるいは、他の表示装置等に出力されて表示される。

　図１２は、携帯端末１０の他の実施例を示すフローチャートである。
　ステップ３０１～３０５は、図１１に示すステップ２０１～２０５と同様である。
　ステップ３０６にて、ぼかし画像６がユーザに提示される。例えば携帯端末１０のタッチパネル２０にぼかし画像６が表示される。
　ユーザからぼかし変更の指示があるか否かが判定される（ステップ３０７）。
　例えば、タッチパネル２０等を介して、ぼかし（フォーカス表現）を変更する旨の操作が入力された場合、ユーザからぼかし変更の指示がありと判定される。

　図１３は、ぼかし変更指示の入力例を示す模式図である。
　例えば図１３Ａに示すように、ぼかし変更用のＧＵＩとして、スライドバー５０が、ぼかし画像６に重畳して表示される。
　例えばユーザは、スライドバー５０をＨの方向に操作することで、画像全体のぼかしを強めることが可能である。スライドバー５０をＬの方向に操作することで、画像全体のぼかしを弱めることが可能である。
　ぼかしを変更するためのＧＵＩ等は限定されず、任意に設定されてよい。

　ユーザからぼかし変更の指示があった場合は（ステップ３０７のＹｅｓ）、その指示に基づいて、ぼかし強度マップがアップデートされる（ステップ３０８）。すなわちユーザの指示に基づいて、各画素のぼかし強度が変更される。
　例えば、図１０に例示する平均化フィルタが用いられる場合には、（数１）式の係数Ａ及びＢ（両方、あるいはいずれか一方）を制御することで、ぼかし強度を変更することが可能となる。
　例えばぼかしを強める指示が入力された場合には、係数Ａ及びＢ（両方、あるいはいずれか一方）が増加される。ぼかしを弱める指示が入力された場合には、係数Ａ及びＢ（両方、あるいはいずれか一方）が減少される。
　ステップ３０６に戻り、アップデートされたぼかし強度マップに基づいて、入力画像５がぼかされる。これにより、ユーザの指示に応じたぼかし表現を実現することが可能となる。

　図１３Ｂに示すように、ユーザにより、ぼかしを変更する対象が指定可能であってもよい。例えばぼかし画像６内の人物Ｂ２が選択される。そうすると、人物Ｂ２が選択された旨が判別可能なように表示が制御される。
　その状態で、スライドバー５０が操作されると、人物Ｂ２に対応する部分領域３３のぼかし強度がアップデートされ、入力画像５が再度ぼかされる。これにより、選択された人物Ｂ２のぼかしを変更することが可能となる。

　ユーザにより、最も鮮明に表示させたい人物が指示可能であってもよい。そして、その人物が最も鮮明に表示されるように、画像全体のぼかしが制御されてもよい。すなわち選択された人物のみのぼかしが変更される場合に限定されず、指定された人物のぼかしの変更に合わせて、他の人物のぼかしが適宜変更されてもよい。
　例えば、図１０に例示する平均化フィルタ、及び（数１）式が用いられるとする。また（数１）式の係数Ａ＝１であるとする。さらに、中央の人物Ｐ１のサリエンシが最大の２５５であり、手前側の人物Ｐ２のサリエンシが２００であったとする。
　ユーザにより手前側の人物Ｐ２が選択される。これに応じて、サリエンシが２００である人物Ｐ２に対するフィルタ半径が０となるように、係数Ｂが－５５に設定される。これにより、手前側の人物Ｐ２を最も鮮明に表示することが可能となる。一方、サリエンシが２５５であった中央の人物Ｐ１に対してはフィルタ半径が５５となり、若干ぼけて表示される。
　このように、特定の人物を鮮明に表示させつつ、画像全体のぼかし具合のバランスよく制御することも可能である。

　このように、ユーザの指示に基づいて、ぼかし処理を実行することも可能である。具体的には、ユーザに指示に基づいて、ぼかし強度を設定することが可能である。
　あるいは、ユーザの指示に基づいて、部分領域３３に対する（各画素に対する）サリエンシが算出されてもよい。例えば図１３のスライドバー５０の操作に応じて、サリエンシが変更される。これにより、画像全体のぼかしや、所定の部分領域３３のぼかしを変更することが可能である。
　部分領域３３を選択する指示に基づいて、選択された部分領域３３に対して、ぼかし処理を実行することも可能である。あるいは、選択された部分領域３３のぼかし強度やサリエンシを基準として、他の部分領域３３のぼかし強度やサリエンシが設定されてもよい。
　スライドバー５０等のぼかし変更用のＧＵＩを介した入力に限定されず、ぼかし強度やサリエンシがユーザにより直接的に入力可能であってもよい。
　その他、ユーザの指示に応じてぼかしの変更を実行すると、画像全体のぼかし具合のバランスが適切に保たれない場合等は、その旨のエラー表示が実行されてもよい。また部分領域３３の境界線に対して、境界処理が実行されてもよい。例えば、境界線に近づくにつれてぼかし強度が徐々に変化するような処理が実行されてもよい。

　図１２のステップ３０７にて、ユーザからぼかし変更の指示がない場合は（ステップ３０７のＮｏ）、ぼかし画像６が保存される（ステップ３０９）。保存されたぼかし画像６は、ユーザの指示等、あるいは自動的に、携帯端末１０のタッチパネル２０に表示される。あるいは、他の表示装置等に出力されて表示される。

　以上、本実施形態に係る携帯端末１０では、部分領域３３に対して算出されたサリエンシに基づいて、入力画像５に対してぼかし処理が実行される。これにより、高品質の画像を出力することが可能となる。

　例えばスマートフォン等のデバイスは、搭載するデジタルカメラのアパーチャ（開口部）が小さく、被写界深度が浅い画像を撮影することが難しい場合が多い。すなわち一眼レフカメラやミラーレスカメラのような、注目したい対象物に最もピントが合い他の対象物がぼけているような自然なぼかし表現を実現することが難しい場合が多い。
　例えば、ＴｏＦ（Time of Flight）カメラ等の撮影対象物までの距離（デプス）を取得可能なデバイスを搭載し、デプス情報にもとづいてぼかし処理を実行する方法が考えられる。しかしながらこの方法では、ハードウェアの追加が必要となり、コストが増大してしまう。
　また上記の非特許文献１に記載のように、画像から検出された人物の領域のみを鮮明に表示されるように、画像処理を実行する方法も考えられる。しかしながらこの方法では、人物の領域がすべて鮮明に表示されるので、不自然なぼかし表現となってしまい画像の品質が低下してしまう。

　本技術に係る情報処理装置、情報処理方法、及びプログラムでは、サリエンシに基づいてぼかし処理が実行される。これにより、以下の効果を発揮することが可能となる。
　アパーチャが小さく被写界深度が深い単眼のカメラ等でも、ユーザの意図を反映した自然なぼかし表現をポスト処理で、画像に付加することが可能となる。
　デプスセンサ等のハードウェアを追加することなく、低コストにて、自然なぼかし表現を実現することが可能となる。
　サリエンシの情報に基づいて、入力画像５内における主要な人物を判定することも可能となる。従って、注目すべき人物を十分に際立たせることが可能となり、一眼レフカメラで撮影されたようなぼかし表現を実現することが可能となる。
　カメラの光学系の特性に縛られることなく、自由にぼかし表現を実現することが可能となる。例えば、サリエンシが高い部分領域３３に対して、敢えてぼかし強度を高くするといった自由な表現も可能である。
　例えばぼかし強度を適宜設定することで、入力画像５内の主要な人物を、撮影後に自由に変更することも可能となる。例えば、入力画像５においては、ぼかしが強い人物を鮮明に表示させ、鮮明に表示されている人物をぼかす、といったことも可能となる。

　＜第２の実施形態＞
　本技術に係る第２の実施形態の情報処理装置について説明する。これ以降の説明では、上記の実施形態で説明した情報処理装置における構成及び作用と同様な部分については、その説明を省略又は簡略化する。

　サリエンシを算出するためのパラメータとして、入力画像５の奥行方向における部分領域３３同士の位置関係を用いることが可能である。
　すなわち、部分領域３３に対応する物体同士の、入力画像５の奥行方向における位置関係に基づいて、サリエンシが算出されてもよい。
　さらに言えば、部分領域３３に対応する人物同士の、入力画像５の奥行方向における位置関係に基づいて、サリエンシが算出されてもよい。
　もちろん部分領域３３に対応する物体と、部分領域３３に対応する人物との、入力画像５の奥行方向における位置関係に基づいて、サリエンシが算出されてもよい。
　以下、部分領域３３に対応する人物を例に挙げて、入力画像５の奥行方向における位置関係の推定方法の例を説明する。また入力画像５の奥行方向における位置関係を、単に前後関係という場合がある。もちろん、物体に対しても同様の推定方法が可能である。

　入力画像５内における人物の前後関係は、例えば、入力画像５の構図を解析することで取得することが可能である。例えば、顔検出を実行し、検出され顔の大きさで前後関係を推定することが可能である。
　その他、人物領域のサイズ、姿勢、オクルージョン（Occlusion）等に基づいて、人物の前後関係を推定することが可能である。
　またフォーカスぼけの情報、運動視差、色収差、空気遠近法等に基づいて、前後関係を推定することも可能である。その他、任意の推定方法が用いられてよい。

　本実施形態では、入力画像５内における物体や人物の前後関係に基づいて、サリエンシが算出される。これにより、さらに自然なほかし表現が実現可能となり、高品質の画像を出力することが可能となる。
　また、入力画像５の構図等に基づいて、前後関係を推定可能である。従ってデプスセンサ等のハードウェアを追加する必要がなく、製造コストを十分に抑えることが可能となる。なお、デプスセンサ等を用いてデプス情報を取得し、サリエンシに基づいたぼかし処理とデプス情報に基づいたぼかし処理と組み合わされてもよい。

　＜その他の実施形態＞
　本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
　サリエンシを算出するためのパラメータとして、撮影時における天気や撮影時間等の情報が用いられてもよい。
　上記では、部分領域３３として、人物に対応する領域が設定される場合を例に挙げた。もちろんこれに限定されず、動物、銅像、建物等、人物以外の物体に対しても本技術は適用可能である。
　また部分領域３３として、人物の各部位が異なる部分領域３３として設定されてもよい。例えば、手、足、頭、胸、お尻等が、異なる部分領域３３として設定され、サリエンシに基づいて、それぞれぼかし処理が実行されてもよい。

　図１４に示すように、ネットワーク１を介して、携帯端末１０、ＰＣ（Personal Computer）６０、及びサーバ装置７０が、互いに通信可能に接続されている。
　ネットワーク１は、例えばインターネットや広域通信回線網等により構築される。その他、任意のＷＡＮ（Wide Area Network）やＬＡＮ（Local Area Network）等が用いられてよく、ネットワーク１を構築するためのプロトコルは限定されない。
　このような構成において、サーバ装置７０が本技術に係る情報処理装置として機能し、本技術に係る情報処理方法、及びプログラムを実行してもよい。
　例えば、携帯端末１０により撮影された画像がサーバ装置７０に送信される。サーバ装置７０はネットワーク１を介して受信した画像を入力画像５として、サリエンシに基づいてぼかし処理を実行する。そしてぼかし画像６を携帯端末１０に送信する。もちろんＰＣ６０に、ぼかし画像６を送信することも可能である。
　同様に、携帯端末１０から画像を受信したＰＣ６０により本技術に係る情報処理方法が実行されてもよい。
　このように、撮影機能を有さない任意のコンピュータが、本技術に係る情報処理装置として構成されてもよい。

　また、ネットワーク等を介して通信可能に接続された複数のコンピュータが協働することで、本技術に係る情報処理方法が実行され、本技術に係る情報処理装置が構築されてもよい。
　例えば図１４に示す携帯端末１０により撮影された画像が入力画像５としてサーバ装置７０に送信される。サーバ装置７０により、画像内の複数の部分領域の少なくとも１つに対してサリエンシが算出される。その算出結果がＰＣ６０に送信され、ＰＣ６０により、サリエンシに基づいて、入力画像５に対してぼかし処理が実行される。
　このような構成により、本技術に係る情報処理方法が実行されてもよい。またこのような構成を、本技術に係る「情報処理システム」ということも可能である。

　すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。
　なお本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。
　例えばサリエンシの算出、画像に対するぼかし処理、ユーザの指示の受付け等は、単体のコンピュータにより実行されてもよいし、各処理が異なるコンピュータにより実行されてもよい。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
　すなわち本技術に係る情報処理方法及びプログラムは、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

　各図面を参照して説明した携帯端末、サーバ装置、ＰＣ、入力画像、出力画像、サリエンシマップ、ぼかし強度マップ等の各構成、画像取得のフロー、部分領域の設定フロー、サリエンシの算出フロー、ぼかし処理のフロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。

　本開示において、「中心」「中央」「均一」「等しい」「同じ」「直交」「平行」「対称」「延在」「軸方向」「円柱形状」「円筒形状」「リング形状」「円環形状」等の、形状、サイズ、位置関係、状態等を規定する概念は、「実質的に中心」「実質的に中央」「実質的に均一」「実質的に等しい」「実質的に同じ」「実質的に直交」「実質的に平行」「実質的に対称」「実質的に延在」「実質的に軸方向」「実質的に円柱形状」「実質的に円筒形状」「実質的にリング形状」「実質的に円環形状」等を含む概念とする。

　例えば「完全に中心」「完全に中央」「完全に均一」「完全に等しい」「完全に同じ」「完全に直交」「完全に平行」「完全に対称」「完全に延在」「完全に軸方向」「完全に円柱形状」「完全に円筒形状」「完全にリング形状」「完全に円環形状」等を基準とした所定の範囲（例えば±１０％の範囲）に含まれる状態も含まれる。

　以上説明した本技術に係る特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。

　なお、本技術は以下のような構成も採ることができる。
（１）
　画像内の複数の部分領域の少なくとも１つに対してサリエンシを算出する算出部と、
　前記サリエンシに基づいて、前記画像に対してぼかし処理を実行する画像処理部と
　を具備する情報処理装置。
（２）（１）に記載の情報処理装置であって、
　前記算出部は、前記複数の部分領域の各々に対して前記サリエンシを算出し、
　前記画像処理部は、前記複数の部分領域の各々に対して、前記サリエンシに基づいてぼかし処理を実行する
　情報処理装置。
（３）（１）又は（２）に記載の情報処理装置であって、
　前記画像処理部は、前記サリエンシに基づいて、前記部分領域に対してぼかし強度を設定し、前記ぼかし強度に基づいて前記ぼかし処理を実行する
　情報処理装置。
（４）（１）から（３）のうちいずれか１つに記載の情報処理装置であって、
　前記画像処理部は、前記サリエンシが相対的に低い前記部分領域に対してぼかし強度を相対的に高く設定し、前記サリエンシが相対的に高い前記部分領域に対してぼかし強度を相対的に低く設定する
　情報処理装置。
（５）（１）から（４）のうちいずれか１つに記載の情報処理装置であって、
　前記画像処理部は、前記サリエンシに基づいて、前記画像に対するぼかし強度マップを生成し、前記ぼかし強度マップに基づいて前記ぼかし処理を実行する
　情報処理装置。
（６）（５）に記載の情報処理装置であって、
　前記算出部は、前記画像に対するサリエンシマップを生成し、
　前記画像処理部は、前記サリエンシマップに基づいて、前記ぼかし強度マップを生成する
　情報処理装置。
（７）（１）から（６）のうちいずれか１つに記載の情報処理装置であって、
　前記複数の部分領域は、前記画像に含まれる物体に対応する領域を含む
　情報処理装置。
（８）（１）から（７）のうちいずれか１つに記載の情報処理装置であって、
　前記複数の部分領域は、前記画像に含まれる人物に対応する領域を含む
　情報処理装置。
（９）（１）から（８）のうちいずれか１つに記載の情報処理装置であって、
　前記算出部は、前記画像を見る人間にとっての目立ちやすさを示すパラメータとして、前記サリエンシを算出する
　情報処理装置。
（１０）（９）に記載の情報処理装置であって、
　前記算出部は、前記部分領域の色、サイズ、コントラスト、輝度、形状、前記画像内の位置の少なくとも１つに基づいて、前記サリエンシを算出する
　情報処理装置。
（１１）（９）又は（１０）に記載の情報処理装置であって、
　前記複数の部分領域は、前記画像に含まれる物体に対応する領域を含み、
　前記算出部は、前記部分領域に対応する前記物体の種類、前記部分領域に対応する前記物体の状態、前記部分領域に対応する前記物体のサイズ、又は前記部分領域に対応する前記物体の前記画像内の位置、又は前記部分領域に対応する前記物体同士の前記画像の奥行方向における位置関係の少なくとも１つに基づいて、前記サリエンシを算出する
　情報処理装置。
（１２）（９）から（１１）のうちいずれか１つに記載の情報処理装置であって、
　前記複数の部分領域は、前記画像に含まれる人物に対応する領域を含み、
　前記算出部は、前記部分領域に対応する前記人物の状態、前記部分領域に対応する前記人物のサイズ、前記部分領域に対応する前記人物の前記画像内の位置、又は前記部分領域に対応する前記人物同士の前記画像の奥行方向における位置関係の少なくとも１つに基づいて、前記サリエンシを算出する
　情報処理装置。
（１３）（１２）に記載の情報処理装置であって、
　前記部分領域に対応する前記人物の状態は、前記人物の姿勢、又は前記人物の顔に関する情報の少なくとも一方を含む
　情報処理装置。
（１４）（１３）に記載の情報処理装置であって、
　前記人物の顔に関する情報は、顔のサイズ、顔の向き、顔の表情、又は前記画像内の顔の位置の少なくとも１つを含む
　情報処理装置。
（１５）（１）から（１４）のうちいずれか１つに記載の情報処理装置であって、さらに、
　ユーザの指示を受付ける受付部を具備し、
　前記画像処理部は、前記ユーザの指示に基づいて、前記ぼかし処理を実行可能である
　情報処理装置。
（１６）（１）から（１５）のうちいずれか１つに記載の情報処理装置であって、さらに、
　ユーザの指示を受付ける受付部を具備し、
　前記画像処理部は、前記ユーザの指示に基づいて、前記ぼかし強度を設定可能である
　情報処理装置。
（１７）（１）から（１６）のうちいずれか１つに記載の情報処理装置であって、さらに、
　ユーザの指示を受付ける受付部を具備し、
　前記算出部は、前記ユーザの指示に基づいて、前記サリエンシを算出可能である
　情報処理装置。
（１８）（１５）から（１７）のうちいずれか１つに記載の情報処理装置であって、
　前記受付部は、前記部分領域を選択する指示を受付け、
　前記画像処理部は、選択された前記部分領域に対して、前記ぼかし処理を実行する
　情報処理装置。
（１９）
　画像内の複数の部分領域の少なくとも１つに対してサリエンシを算出し、
　前記サリエンシに基づいて、前記画像に対してぼかし処理を実行する
　ことをコンピュータシステムが実行する情報処理方法。
（２０）
　画像内の複数の部分領域の少なくとも１つに対してサリエンシを算出するステップと、
　前記サリエンシに基づいて、前記画像に対してぼかし処理を実行するステップと
　をコンピュータシステムに実行させるプログラム。

　Ｐ１～Ｐ３…人物
　ＳＭ１～ＳＭ５…サリエンシマップ
　５…入力画像
　１０…携帯端末
　１９…コントローラ
　２８…カメラ制御部
　２９…物体検出部
　３０…サリエンシ算出部
　３１…強度制御部
　３２…ぼかしフィルタ部
　３３…部分領域
　６０…ＰＣ
　７０…サーバ装置

Claims

　画像内の複数の部分領域の少なくとも１つに対してサリエンシを算出する算出部と、
　前記サリエンシに基づいて、前記画像に対してぼかし処理を実行する画像処理部と
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記算出部は、前記複数の部分領域の各々に対して前記サリエンシを算出し、
　前記画像処理部は、前記複数の部分領域の各々に対して、前記サリエンシに基づいてぼかし処理を実行する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記画像処理部は、前記サリエンシに基づいて、前記部分領域に対してぼかし強度を設定し、前記ぼかし強度に基づいて前記ぼかし処理を実行する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記画像処理部は、前記サリエンシが相対的に低い前記部分領域に対してぼかし強度を相対的に高く設定し、前記サリエンシが相対的に高い前記部分領域に対してぼかし強度を相対的に低く設定する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記画像処理部は、前記サリエンシに基づいて、前記画像に対するぼかし強度マップを生成し、前記ぼかし強度マップに基づいて前記ぼかし処理を実行する
　情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記算出部は、前記画像に対するサリエンシマップを生成し、
　前記画像処理部は、前記サリエンシマップに基づいて、前記ぼかし強度マップを生成する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記複数の部分領域は、前記画像に含まれる物体に対応する領域を含む
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記複数の部分領域は、前記画像に含まれる人物に対応する領域を含む
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記算出部は、前記画像を見る人間にとっての目立ちやすさを示すパラメータとして、前記サリエンシを算出する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記算出部は、前記部分領域の色、サイズ、コントラスト、輝度、形状、前記画像内の位置の少なくとも１つに基づいて、前記サリエンシを算出する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記複数の部分領域は、前記画像に含まれる物体に対応する領域を含み、
　前記算出部は、前記部分領域に対応する前記物体の種類、前記部分領域に対応する前記物体の状態、前記部分領域に対応する前記物体のサイズ、又は前記部分領域に対応する前記物体の前記画像内の位置、又は前記部分領域に対応する前記物体同士の前記画像の奥行方向における位置関係の少なくとも１つに基づいて、前記サリエンシを算出する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記複数の部分領域は、前記画像に含まれる人物に対応する領域を含み、
　前記算出部は、前記部分領域に対応する前記人物の状態、前記部分領域に対応する前記人物のサイズ、前記部分領域に対応する前記人物の前記画像内の位置、又は前記部分領域に対応する前記人物同士の前記画像の奥行方向における位置関係の少なくとも１つに基づいて、前記サリエンシを算出する
　情報処理装置。
　請求項１２に記載の情報処理装置であって、
　前記部分領域に対応する前記人物の状態は、前記人物の姿勢、又は前記人物の顔に関する情報の少なくとも一方を含む
　情報処理装置。
　請求項１３に記載の情報処理装置であって、
　前記人物の顔に関する情報は、顔のサイズ、顔の向き、顔の表情、又は前記画像内の顔の位置の少なくとも１つを含む
　情報処理装置。
　請求項１に記載の情報処理装置であって、さらに、
　ユーザの指示を受付ける受付部を具備し、
　前記画像処理部は、前記ユーザの指示に基づいて、前記ぼかし処理を実行可能である
　情報処理装置。
　請求項１に記載の情報処理装置であって、さらに、
　ユーザの指示を受付ける受付部を具備し、
　前記画像処理部は、前記ユーザの指示に基づいて、前記ぼかし強度を設定可能である
　情報処理装置。
　請求項１に記載の情報処理装置であって、さらに、
　ユーザの指示を受付ける受付部を具備し、
　前記算出部は、前記ユーザの指示に基づいて、前記サリエンシを算出可能である
　情報処理装置。
　請求項１５に記載の情報処理装置であって、
　前記受付部は、前記部分領域を選択する指示を受付け、
　前記画像処理部は、選択された前記部分領域に対して、前記ぼかし処理を実行する
　情報処理装置。
　画像内の複数の部分領域の少なくとも１つに対してサリエンシを算出し、
　前記サリエンシに基づいて、前記画像に対してぼかし処理を実行する
　ことをコンピュータシステムが実行する情報処理方法。
　画像内の複数の部分領域の少なくとも１つに対してサリエンシを算出するステップと、
　前記サリエンシに基づいて、前記画像に対してぼかし処理を実行するステップと
　をコンピュータシステムに実行させるプログラム。