WO2021070443A1

WO2021070443A1 - 画像処理装置と画像処理方法とプログラムおよび電子機器

Info

Publication number: WO2021070443A1
Application number: PCT/JP2020/027812
Authority: WO
Inventors: 西堀　一彦; 仕豪温; 貴光後藤
Original assignee: ソニー株式会社
Priority date: 2019-10-09
Filing date: 2020-07-17
Publication date: 2021-04-15
Also published as: US20220375040A1

Abstract

マスク生成部３１の人物領域検出部３２は、セマンティックセグメンテーションによる領域判別結果と差分領域検出結果を利用して撮像画像から注目領域を検出する。マスク生成処理部３３は、域判別結果で示された注目領域と非注目領域例えば背景領域との境界を基準として注目領域と非注目領域を含むように設定した境界再探索範領域内に、撮像画像の画素値の連続性に基づいて注目領域と非注目領域との境界を再設定して、再設定された境界を用いて注目領域マスクを生成する。フィルタ部３５は、マスク生成部３１で生成された注目領域マスクとフィルタ設定部３４で設定されたぼかしフィルタ係数を用いて、撮像画像における注目領域マスクに対応する領域のフィルタ処理を行い、背景領域をぼかした画像を生成する。アーティファクトの少ない背景ぼかしを行えるようになる。

Description

画像処理装置と画像処理方法とプログラムおよび電子機器

　この技術は、画像処理装置と画像処理方法とプログラムおよび電子機器に関し、アーティファクトの少ない背景ぼかしを行えるようにする。

　従来、撮像機能を有する電子機器、例えばスマートフォン等に搭載されたカメラでは、一眼レフカメラに比べて相対的に広い距離範囲に対して焦点が合ってしまうため、一眼レフカメラのように背景が大きくぼけた画像を得られない。このため、特許文献１では、焦点条件の異なる複数の撮像画像から被写体の距離マップを生成して、距離マップで示された距離に基づいた回数で、各被写体に対してそれぞれフィルタ処理を行い、フィルタ処理毎に生成される画像を合成して、例えば背景が大きくぼけた画像を生成することが行われている。

特開２０１５－１５９３５７号公報

　ところで、特許文献１では、焦点条件の異なる複数の撮像画像から被写体の距離マップを生成する必要があるため、撮像時に焦点条件を変えることができないカメラには適用できない。

　そこで、この技術では焦点条件を変えて撮像を行わなくとも、アーティファクトの少ない背景ぼかしを行える画像処理装置と画像処理方法とプログラムおよび電子機器を提供することを目的とする。

　この技術の第１の側面は、
　撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成するマスク生成部と、
　前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成するフィルタ部
を備える画像処理装置にある。

　この技術において、マスク生成部は、例えばセマンティックセグメンテーションによる領域判別結果を利用して撮像画像から注目領域を検出する。また、マスク生成部は、セマンティックセグメンテーションで用いた撮像画像と該撮像画像に対して注目領域の一部が異なる撮像画像との差分領域を検出して、例えば注目する被写体を撮像した撮像画像と、注目する被写体の所定部分のみが背景領域にかからない位置に移動されている被写体を撮像した撮像画像との差分領域を検出して、注目する被写体の所定部分が背景領域にかからない位置に移動されている被写体を撮像した撮像画像を用いてセマンティックセグメンテーションを行い、セマンティックセグメンテーションによって判別した注目領域に差分領域を合成して領域判別結果を生成する。

　マスク生成部は、領域判別結果で示された注目領域と非注目領域例えば背景領域との境界を基準として注目領域と非注目領域を含むように設定した境界再探索領域内に、撮像画像の画素値の連続性に基づいて注目領域と非注目領域との境界を再設定して、再設定された境界を用いて注目領域マスクを生成する。

　フィルタ部は、マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて、撮像画像における注目領域マスクに対応する領域のフィルタ処理を行い、非注目領域ぼかし画像を生成する。フィルタ部は、ぼかしフィルタ係数を異なるぼかし特性の係数に切り替え可能としてもよく、フィルタ処理のタップ数を切り替え可能としてもよい。

　フィルタ部は、注目領域フィルタ係数としてインパルス応答のフィルタ係数を設定して、ぼかしフィルタ係数にローパスフィルタ係数を設定して、注目領域マスクに基づき、フィルタ係数を注目領域では注目領域フィルタ係数に非注目領域ではぼかしフィルタ係数に切り替える。

　フィルタ部は、フィルタ係数の要素毎に、注目領域マスクと注目領域フィルタ係数とぼかしフィルタ係数に基づいて、注目領域フィルタ係数マップと非注目領域フィルタ係数マップの生成を行い、注目領域フィルタ係数マップと撮像画像に基づき注目領域画像と、非注目領域フィルタ係数マップと撮像画像に基づき非注目領域画像を生成して、フィルタ係数の要素毎の注目領域画像と非注目領域画像を画素毎に累積することでフィルタ処理を行う。

　この技術の第２の側面は、
　撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクをマスク生成部で生成することと、
　前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像をフィルタ部で生成すること
を含む画像処理方法にある。

　この技術の第３の側面は、
　撮像画像の画像処理をコンピュータで実行させるプログラムであって、
　前記撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成する手順と、
　前記注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成する手順と
を前記コンピュータで実行させるプログラムにある。

　なお、本技術のプログラムは、例えば、様々なプログラムコードを実行可能な汎用コンピュータに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、光ディスクや磁気ディスク、半導体メモリなどの記憶媒体、あるいは、ネットワークなどの通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ上でプログラムに応じた処理が実現される。

　この技術の第４の側面は、
　撮像画像を生成する撮像部と、
　前記撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成するマスク生成部と、
　前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成するフィルタ部と、
　前記非注目領域ぼかし画像を表示する表示部と
を有する電子機器にある。

電子機器の構成を例示した図である。人物領域検出部の構成を例示した図である。人物マスク生成部の構成を例示した図である。境界再設定部の構成を例示した図である。コストマップ生成部の構成を例示した図である。境界再設定部の構成を例示した図である。実施の形態の動作を例示したフローチャートである。合成モードの動作を例示した図である。マスク生成処理を説明するための図である。コストマップの生成を説明するための図である。コストマップを例示した図である。フィルタ処理に用いるフィルタ係数を例示した図である。人物領域と背景領域の境界部分のフィルタ係数を例示した図である。フィルタ処理前とフィルタ処理後の画像等を例示した図である。フィルタ処理動作を例示したフローチャート（１／２）である。フィルタ処理動作を例示したフローチャート（２／２）である。撮像画像と人物マスク画像および出力画像を例示した図である。

　以下、本技術を実施するための形態について説明する。なお、説明は以下の順序で行う。
　１．実施の形態の構成
　２．実施の形態の動作

　＜１．実施の形態の構成＞
　図１は、本技術の画像処理装置を用いた電子機器の構成を例示している。電子機器１０は、撮像部２０と画像処理部３０、表示部４０、ユーザインタフェース部５０および制御部６０を有している。電子機器１０は、撮像部２０を用いて撮像画像を取得して、画像処理部３０は取得された撮像画像における非注目領域を、ぼけを生じた画像とする画像処理を行う。

　撮像部２０は、撮像光学系２１とイメージセンサ部２２を有している。撮像光学系２１は、フォーカスレンズやズームレンズ等を用いて構成されており、被写体光学像をイメージセンサ部２２の撮像面に所望のサイズで結像させる。

　イメージセンサ部２２は、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）やＣＣＤ（Charge Coupled Device）等のイメージセンサを用いて構成されている。イメージセンサ部２２は、光電変換を行い被写体光学像に応じた画像信号を生成して画像処理部３０へ出力する。なお、イメージセンサ部２２に前処理部を設けて、撮像素子で生成された撮像信号に対してノイズ除去や利得調整等の処理、アナログ／デジタル変換処理、欠陥画素補正等を行うようにしてもよい。また、イメージセンサでカラーモザイクフィルタが用いられている場合、イメージセンサ部２２にデモザイク処理部を設けて、前処理部で処理された撮像信号を用いてデモザイク処理を行い、１画素が１つの色成分を示す撮像信号から１画素が各色成分を示す画像信号、例えば三原色の画像信号を生成してもよい。

　電子機器１０は、１回の撮像で得られた撮像画像に対して画像処理を行う通常モードと、通常モードでは注目領域（あるいは非注目領域）を精度よく検出できないため、複数種類の領域判別結果を合成して画像処理を行う合成モードを有している。合成モードでは、後述するように、例えば注目する被写体を撮像した撮像画像と、注目する被写体の所定部分が非注目領域にかからない位置に移動されている被写体を撮像した撮像画像とに基づく複数の領域検出を合成して画像処理を行う。

　画像処理部３０は、撮像部２０で生成された撮像画像の画像信号を用いてフィルタ処理を行い、撮像画像における非注目領域でぼけを生じた画像を生成する。すなわち、画像処理部３０は、撮像画像から注目領域を検出して、注目領域と非注目領域の特徴から注目領域マスクを生成する。さらに、画像処理部３０は、注目領域マスクとぼかしフィルタ係数を用いて撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成する。なお、以下の説明では、例えば注目領域は人物領域、非注目領域は背景領域とする。また、各部の動作の詳細については、実施の形態の動作において説明する。

　画像処理部３０は、マスク生成部３１、フィルタ設定部３４、フィルタ部３５を有している。また、マスク生成部３１は、人物領域検出部３２、マスク生成処理部３３を有しており、撮像画像から人物領域を検出して、人物領域と背景領域の特徴から人物マスクを生成する。

　人物領域検出部３２は、通常モードまたは合成モードで撮像動作が行われて撮像部２０から供給された画像信号を用いて撮像画像における人物領域を検出する。例えば、人物領域検出部３２はセマンティックセグメンテーション（Semantic Segmentation）を行い、撮像画像の各画素が人物領域の画素であるか背景領域の画素であるか判別することで、人物領域を検出する。また、人物領域検出部３２は、合成モードで撮像動作が行われている場合、セマンティックセグメンテーションで用いた撮像画像と、この撮像画像に対して注目領域の一部が異なる撮像画像との差分領域を検出して、セマンティックセグメンテーションで判別した注目領域と差分領域を合成して人物領域の領域判別結果を生成する。なお、後述するようにマスク生成処理部３３は人物領域判別結果を用いて人物領域と背景領域の境界を再探索することから、人物領域検出部３２は、例えば精度よりも処理速度を優先して、縮小撮像画像を用いて人物領域の検出を行う。

　図２は、人物領域検出部の構成を例示している。人物領域検出部３２は、ダウンサンプリング部３２１、セグメンテーション部３２２、リサイズ部３２３を有している。

　ダウンサンプリング部３２１は、撮像部２０から供給された画像信号のダウンサンプリングを行い、縮小撮像画像を生成する。

　セグメンテーション部３２２は、例えばＣＮＮ（Convolutional Neural Network）を行い検出対象領域のセグメンテーションマップを生成する。セグメンテーション部３２２では、事前に人物画像を用いた学習が行われており、学習結果を用いて検出対象領域のＣＮＮを行い、画素毎に人物またはそれ以外にラベリングした二値画像であるセグメンテーションマップを生成する。また、合成モードで撮像動作が行われている場合、セグメンテーション部３２２は、セマンティックセグメンテーションで用いた撮像画像と、この撮像画像に対して注目領域の一部が異なる撮像画像との差分領域を検出して、セマンティックセグメンテーションで判別した注目領域と差分領域を合成してセグメンテーションマップを生成する。

　リサイズ部３２３は、セグメンテーション部３２２で生成されたセグメンテーションマップに対して例えば補間処理を行うことで、ダウンサンプリング前のサイズにリサイズして、撮像画像における検出対象領域に対応するセグメンテーションマップとして、マスク生成処理部３３へ出力する。

　マスク生成処理部３３は、人物領域検出部３２で生成されたセグメンテーションマップに基づき、人物領域と背景領域の境界線を含む所定幅の境界再探索領域を設定する。さらに、マスク生成処理部３３は、境界再探索領域における隣接画素の色の連続性に基づき人物領域を覆い隠す人物マスクを生成する。

　図３は、人物マスク生成部の構成を例示している。なお、図３では、複数階層の解像度で処理を行うことによりマスクの安定化を図り、高精度の人物マスクを生成する構成を示している。マスク生成処理部３３は、前処理部３３１、ダウンサンプリング部３３２、マップ変換部３３３、境界再設定部３３４、アップサンプリング部３３５、境界再設定部３３６、アップサンプリング部３３７を有している。

　前処理部３３１は、前処理として人物領域検出部３２で生成されたセグメンテーションマップのノイズ除去等を行う。例えば、前処理部３３１は、セグメンテーションマップに対して平滑フィルタあるいはメディアンフィルタ等のフィルタ処理を行い、前処理後のセグメンテーションマップをダウンサンプリング部３３２へ出力する。

　ダウンサンプリング部３３２は、前処理部３３１から供給されたセグメンテーションマップおよび撮像部２０で生成された撮像画像を基底面（例えば水平および垂直とも１／４解像度）にダウンサンプリングしてマップ変換部３３３へ出力する。

　マップ変換部３３３は、人物領域検出部３２で検出された領域判別結果である二値画像のセグメンテーションマップを三値画像のマップに変換する。マップ変換部３３３は、セグメンテーションマップで示された人物領域と背景領域との境界を基準として、人物領域と背景領域を含む所定幅の境界再探索領域を設定して、例えば境界再探索領域の画素を「２」、セグメンテーションマップにおける境界再探索領域を除いた人物領域の画素を「１」、セグメンテーションマップにおける境界再探索領域を除いた背景領域の画素を「０」とした３つの領域を示すマップ（以下、「Ｔｒｉｍａｐ」という）に変換する。

　境界再設定部３３４は、マップ変換部３３３で生成されたＴｒｉｍａｐに基づいて撮像画像の画素値の連続性に関するコストマップを生成して、このコストマップに基づき人物領域と背景領域の境界を再設定して、再設定された境界を用いることで高精度のＴｒｉｍａｐを生成する。

　図４は、境界再設定部の構成を例示している。境界再設定部３３４は、コストマップ生成部３３４１とコストマップ変換処理部３３４２を有している。

　コストマップ生成部３３４１は、人物領域の画素を仮想前景ノード、背景領域の画素を仮想背景ノード、境界再探索領域の画素を未知ノードとして、仮想前景ノードと未知ノードを結ぶ経路にあるエッジのコスト、および仮想背景ノードと未知ノードを結ぶ経路にあるエッジのコストに基づきコストマップを生成してコストマップ変換処理部３３４２へ出力する。

　図５は、コストマップ生成部の構成を例示している。コストマップ生成部３３４１は、ノード設定部３３４１ａ、ノード間コスト算出部３３４１ｂ、最小コスト経路探索部３３４１ｃ、コストマップ生成処理部３３４１ｄを有している。

　ノード設定部３３４１ａは、マップ変換部３３３で生成されたＴｒｉｍａｐにおいて、例えば、境界再探索領域の画素を探索ノード、境界再探索領域に隣接する人物領域の画素または境界再探索領域から複数画素離れた位置までの範囲内にある人物領域の画素を仮想前景ノード、境界再探索領域に隣接する背景領域の画素または境界再探索領域から複数画素離れた位置までの範囲内にある背景領域の画素を仮想背景ノードとする。

　ノード間コスト算出部３３４１ｂは、撮像部２０で生成された撮像画像の画素値を用いて、隣接するノード間の画素値の連続性を示すコストを算出する。例えば、ノード間コスト算出部３３４１ｂは、ノード設定部３３４１ａで設定されたノードについて、隣接するノード間の画素値の差をノード間コストとして算出する。したがって、連続性を有する画素間ではコストが小さくなる。

　最小コスト経路探索部３３４１ｃは、ノード間コスト算出部３３４１ｂで算出されたノード間毎のコストを用いて、仮想前景ノードおよび仮想背景ノード毎に、仮想前景ノードと仮想背景ノードを結ぶ最小コストの経路を判別する。

　コストマップ生成処理部３３４１ｄは、最小コストとなる経路のコスト累積値に基づき、境界を示す画素を判別して、判別結果に基づき、撮像画像の各画素が人物領域と背景領域のいずれであるかを示すコストマップを生成してコストマップ変換処理部３３４２へ出力する。

　コストマップ変換処理部３３４２は、フィルタ処理後のコストマップで示されたコストに基づき、境界再探索領域における人物領域と背景領域の境界を再設定して、再設定した境界を用いたＴｒｉｍａｐへのマップ変換を行う。このマップ変換では、コストマップで示されたコストに基づき人物領域と背景領域の境界が再探索されており、Ｔｒｉｍａｐは後述するアップサンプリング部３３５で基底面の２倍の解像度に変換されることから、Ｔｒｉｍａｐの境界再探索領域は、マップ変換部３３３でＴｒｉｍａｐを生成する場合に比べて領域幅を狭くする。コストマップ変換処理部３３４２は、変換後のＴｒｉｍａｐをアップサンプリング部３３５へ出力する。

　アップサンプリング部３３５は、コストマップ変換処理部３３４２から供給されたＴｒｉｍａｐのアップサンプリングを行い、基底面の２倍の解像度（１／２解像度）のＴｒｉｍａｐを生成して境界再設定部３３６へ出力する。

　境界再設定部３３６は、アップサンプリング部３３５から供給されたＴｒｉｍａｐに基づいてコストマップを生成して、このコストマップを二値化処理して人物マスクを生成する。

　図６は、境界再設定部の構成を例示している。境界再設定部３３６は、コストマップ生成部３３６１と二値化処理部３３６２を有している。

　コストマップ生成部３３６１は、上述のコストマップ生成部３３４１と同様な処理を行い、コストマップを生成して二値化処理部３３６２へ出力する。

　二値化処理部３３６２は、フィルタ処理後のコストマップで示されたコストに基づき、境界再探索領域における人物領域と背景領域の境界を再設定して、人物領域と背景領域を示す二値画像の人物マスクを生成してアップサンプリング部３３７へ出力する。

　アップサンプリング部３３７は、二値化処理部３３６２から供給された人物マスクのアップサンプリングを行い、基底面の４倍の解像度、すなわち撮像部２０で取得された撮像画像と等しい解像度の人物マスクを生成してフィルタ部３５へ出力する。

　このように、撮像画像と解像度の低い人物検出結果から解像度の低いコストマップを生成して、解像度の低いコストマップから新たに解像度の高いコストマップを生成する処理を行い、撮像画像と等しい解像度の人物マスクを生成することで、解像度が低下されていない撮像画像の人物検出結果と撮像画像から撮像画像の解像度の人物マスクを生成する場合に比べて、人物マスクと他領域の境界線を滑らかとすることが可能となる。

　フィルタ設定部３４は、撮像部２０から供給された撮像画像における背景領域がぼけを生じた画像となるようにフィルタ処理を行うための係数（以下「ぼかしフィルタ係数」という）をフィルタ部３５へ出力する。フィルタ設定部３４は、予め異なるぼかし特性のぼかしフィルタ係数を有しており、ユーザの選択操作に応じて選択されたぼかしフィルタ係数をフィルタ部３５へ出力してもよい。ぼかしフィルタ係数は、背景領域が例えばレンズぼけを生じた画像となるように予め設定されていてもよい。また、フィルタ設定部３４は、人物領域のフィルタ処理に用いる人物領域フィルタ係数を設定してもよい。人物領域フィルタ係数は、例えば人物領域のエッジの鮮鋭度を低下させないように設定されている。さらに、フィルタ設定部３４は、フィルタ係数だけでなくタップ数を切り替え可能としてもよい。このように、ぼかしフィルタ係数やタップ数を切り替え可能とすることで、ユーザが所望するぼかし特性のぼかし画像が生成可能となる。

　フィルタ部３５は、マスク生成処理部３３で生成された人物マスクとフィルタ設定部３４で設定されたぼかしフィルタ係数を用いて撮像画像のフィルタ処理を行い、背景領域ぼかし画像を生成する。また、フィルタ部３５は、人物マスクとフィルタ設定部３４で設定された人物フィルタ係数を用いて撮像画像のフィルタ処理を行い、背景領域がぼかされており、人物領域は人物フィルタ係数に応じたフィルタ処理が行われた画像を生成してもよい。この場合、フィルタ部３５は、フィルタ設定部３４で設定された人物領域フィルタ係数と背景領域フィルタ係数を人物マスクに基づき制御して、撮像部２０で生成された撮像画像のフィルタ処理を行う。フィルタ部３５は、人物領域フィルタ係数と背景領域フィルタ係数と人物マスクに基づきフィルタ処理を行い、人物領域はエッジの鮮鋭度が保たれており、背景領域はレンズぼけが生じており、人物領域と背景領域の境界では、一方の領域から他方の領域への色の混入や不自然さのない撮像画像を生成する。

　図１の表示部４０は、画像処理部３０から出力された画像信号に基づき、画像処理後の撮像画像を表示する。また、表示部４０は、電子機器１０の各種設定状態や各種操作に関する表示を行う。

　ユーザインタフェース部５０は、操作スイッチや操作ボタン、タッチパネル等を用いて構成されており、電子機器１０に対して各種設定操作や指示操作が可能とされている。例えば、通常モードまたは合成モードの選択操作やぼかし状態の調整操作（ぼかしフィルタ係数やフィルタタップ数等の切り替え）等が可能とされている。

　制御部６０は、ＣＰＵ（Central Processing Unit)やＲＯＭ(Read Only Memory），ＲＡＭ（Random Access Memory）等を有している。ＲＯＭ（Read　Only　Memory）は、ＣＰＵ（Central Processing Unit）により実行される各種プログラムを記憶する。ＲＡＭ（Random　Access　Memory）は、各種パラメータ等の情報を記憶する。ＣＰＵは、ＲＯＭに記憶されている各種プログラムを実行して、ユーザインタフェース部５０におけるユーザ操作に応じた動作が電子機器１０で行われるように各部を制御する。

　なお、電子機器１０には、撮像部２０で得られた撮像画像や、画像処理部３０で画像処理が行われた撮像画像等を記録する記録部が設けられてもよい。

　＜２．実施の形態の動作＞
　次に、実施の形態の動作について説明する。図７は、実施の形態の動作を例示したフローチャートである。

　ステップＳＴ１で、電子機器は通常モードであるか判別する。電子機器１０の制御部６０は、通常モードである場合ステップＳＴ２に進み、通常モードでない場合ステップＳＴ４に進む。例えば制御部６０は通常モードを初期モードとして、通常モードの処理で人物領域の検出が精度よく行われていないためにユーザが合成モードを選択した場合、ステップＳＴ４に進む。

　ステップＳＴ２で電子機器は撮像画像を取得する。電子機器１０の撮像部２０は、制御部６０からの制御信号に基づきユーザ操作に基づくタイミングで撮像を行い、注目する人物の撮像画像を取得してステップＳＴ３に進む。

　ステップＳＴ３で電子機器は人物領域検出処理を行う。電子機器１０の画像処理部３０は、ステップＳＴ２で取得された撮像画像から人物領域を検出してステップＳＴ９に進む。

　ステップＳＴ４で電子機器は仮撮像画像を取得する。合成モードでは、例えば２回の撮像を行い、第１の撮像では注目する人物において領域認識が困難な所定部分を背景にかからない位置に移動して撮像を行うことで仮撮像画像を取得して、第２の撮像では所定部分を元の位置として撮像を行い、本撮像画像を取得する。第１の撮像と第２の撮像は、いずれを先に行ってもよい。電子機器１０の撮像部２０は、例えば第１の撮像を行い、注目する人物の所定部分が背景から外れている仮撮像画像を取得してステップＳＴ５に進む。

　ステップＳＴ５で電子機器は本撮像画像を取得する。電子機器１０の撮像部２０は、第２の撮像を行い、注目する人物の所定部分が元の位置された本撮像画像を取得してステップＳＴ６に進む。

　なお、ステップＳＴ２で撮像画像を取得するタイミング、ステップＳＴ４で仮撮像画像を取得するタイミング、ステップＳＴ５で本撮像画像を取得するタイミングは、ユーザのシャッターボタン操作に限らず、タイマー機能を用いて自動的に設定したタイミングでもよく、ユーザが所定のジェスチャ（例えばウィンク動作等）を行ったときのタイミングであってもよい。また、仮撮像画像と本撮像画像を取得する場合、１回目の撮像後にシーンチェンジを検出したとき２回目の撮像を行うようにしてもよい。

　ステップＳＴ６で電子機器は差分領域検出処理を行う。電子機器１０の画像処理部３０は、ステップＳＴ４で取得した仮撮像画像とステップＳＴ５で取得した本撮像画像から差分領域、すなわち、注目する人物における所定部分を示す画像領域を検出してステップＳＴ７に進む。

　ステップＳＴ７で電子機器は人物領域検出処理を行う。電子機器１０の画像処理部３０は、ステップＳＴ４で取得された仮撮像画像から人物領域を検出してステップＳＴ８に進む。

　ステップＳＴ８で電子機器は領域合成処理を行う。電子機器１０の画像処理部３０は、ステップＳＴ６で検出した差分領域とステップＳＴ７で検出した人物領域を合成した領域を新たに人物領域として設定してステップＳＴ９に進む。

　ステップＳＴ９で電子機器は人物領域が検出されているか判別する。電子機器１０の画像処理部３０は、人物領域が検出されている場合にステップＳＴ１０に進み、人物領域が検出されていない場合は処理を終了する。

　ステップＳＴ１０で電子機器はマスク生成処理を行う。マスク生成部３１は、上述のように人物領域の検出結果を示すセグメンテーションマップのノイズ除去や、撮像画像とノイズ除去後のセグメンテーションマップを基底面にダウンサンプリングしたのちＴｒｉｍａｐを生成する。マスク生成部３１は、Ｔｒｉｍａｐに基づいてコストマップの生成とコストマップをＴｒｉｍａｐへ変換する処理、コストマップの二値化処理を行い、撮像画像と等しい解像度の人物マスクを生成してステップＳＴ１１に進む。

　ステップＳＴ１１で電子機器はフィルタ設定処理を行う。電子機器１０の画像処理部３０は、背景領域が所望のぼけを生じた画像となるようにフィルタ処理を行う際のタップ数とぼかしフィルタ係数を設定してステップＳＴ１２に進む。なお、タップ数とぼかしフィルタ係数は例えば予め設定されていてもよく、予め設定された複数のぼかしモードからユーザによって選択されたぼかしモードのタップ数とフィルタ係数を用いてもよい。さらに、ユーザによって指定されたタップ数とフィルタ係数を用いるようにしてもよい。ぼかしモードとしては、例えば背景に含まれた点光源に円状のぼけ（玉ぼけ）を生じさせるぼかしモード、星形のぼかしを生じさせるぼかしモード、背景が人物領域に近い場合のようにぼかし量が少ないぼかしモード、背景が人物領域から離れている場合のようにぼかし量が多いぼかしモード等を用いる。

　ステップＳＴ１２で電子機器はフィルタ処理を行う。電子機器１０の画像処理部３０は、ステップＳＴ１０で生成された人物マスクとステップＳＴ１１で設定されたフィルタタップ数でぼかしフィルタ係数を用いてフィルタ処理を行いステップＳＴ１３に進む。

　ステップＳＴ１３で電子機器は処理の完了であるか判別する。電子機器１０の制御部は、ユーザからぼかし状態の再設定操作が行われた場合にはステップＳＴ１１に戻り、新たなフィルタ係数を再設定する。また、電子機器１０の制御部は、ぼかし状態の再設定操作が行われない場合に処理を終了する。

　次に、合成モードの動作について説明する。合成モードでは、セマンティックセグメンテーションで用いた撮像画像と、この撮像画像に対して人物領域の一部が異なる撮像画像との差分領域を検出して、セマンティックセグメンテーションで判別した人物領域と差分領域を合成して領域判別結果を生成する。

　図８は、合成モードの動作を例示している。図８の（ａ）は領域検出が困難な部分を含む撮像画像、図８の（ｂ）は図８の（ａ）を用いて人物領域を検出した場合を例示している。セマンティックセグメンテーション（Semantic Segmentation）では、指や手などサイズの小さい部分が広めに人物領域として検出される場合やサイズの小さな部分の一部や全部が人物領域として検出されない場合がある。なお、図８の（ｂ）では、破線で示す領域Ｈａで指先が人物領域として検出されていない場合を例示している。合成モードでは、注目する人物において、セマンティックセグメンテーションで領域認識が困難な部分である指や手などサイズの小さい部分である所定部分が背景領域にかからない位置に移動されている状態で第１の撮像を行い、例えば図８の（ｃ）に示す仮撮像画像を取得する。また、注目する人物において、所定部分が元の位置とされている状態で第２の撮像を行い、例えば図８の（ｅ）に示す本撮像画像を取得する。

　ここで、図８の（ｃ）に示す仮撮像画像を用いて例えばセマンティックセグメンテーションを行うと、図８の（ｄ）に示すように人物領域が検出される。また、図８の（ｃ）と図８（ｅ）を用いて差分領域検出処理を行うと、差分領域では背景領域にかからない位置に移動した所定部分を検出できる。したがって、差分領域検出により検出した差分領域とセマンティックセグメンテーションにより検出した図８の（ｄ）に示す人物領域を合成すれば、図８の（ｆ）に示すように、領域認識が困難な部分が人物領域と認識されないことや、広めに人物領域と認識されることがなく、精度よく人物領域を検出できるようになる。

　ところで、第１の撮像と第２の撮像を行う際に電子機器１０が固定されていない場合、例えば手持ち状態である場合、差分領域には手ぶれ等による差分が含まれる。したがって、電子機器１０の動き検出を行い、動き検出結果に基づき第２の撮像で得られた撮像画像の動き補正を行えば、差分領域に手ぶれ等による差分が含まれることを防止できる。また、背景に動体が含まれると、動体を示す画像領域が差分領域として検出されてしまう。このような場合、撮像画像を所定の帰還率で巡回してノイズや動きのレベルを落とした撮像画像を生成して差分領域を検出すれば、動体の影響を防止できる。

　次に、マスク生成処理について説明する。図９はマスク生成処理を説明するための図である。図９の（ａ）はダウンサンプリング後の撮像画像を例示している。また、図９の（ｂ）は、トリミングした画像に対応するフィルタ処理後のセグメンテーションマップを例示しており、黒色の領域は背景領域、白色領域は人物領域である。

　マスク生成処理部３３は、セグメンテーションマップにおける人物領域と背景領域の境界から、予め設定された前景側と背景側の距離だけ境界線からそれぞれ所定距離だけ離すことによって境界再探索領域を設けて、図９の（ｃ）に示すＴｒｉｍａｐを生成する。なお、黒色の領域は背景領域、白色領域は人物領域、中間輝度の領域は境界再探索領域である。

　次に、マスク生成処理部３３は、Ｔｒｉｍａｐに基づいてコストマップを生成する。図１０はコストマップの生成を説明するための図である。図１０の（ａ）に示すように、人物領域の画素は全て仮想前景ノードとし、背景領域の画素は全て仮想背景ノードとする。また、境界再探索領域の画素は未知ノードとする。図１０の（ｂ）は、人物領域と背景領域と境界探索領域の画素値を例示している。

　マスク生成処理部３３は、例えば４つの近傍画素のノードとエッジを繋いでマルコフ確率場（Markov Random Field）を形成する。このマルコフ確率場のグラフで、例えばノードＡとノードＢとの間のエッジＡＢのコストCostＡＢを式（１）に基づいて算出する。なお、式（１）において「ColorDiffＡＢ」はノードＡとノードＢの間の画素値の差分、「DistＡＢ」はノードＡとノードＢの間の距離（例えば４つの近傍画素間の距離は「１」）、「Ｊ」，「Ｋ」はコストを調整するための予め設定されたパラメータである。
　CostＡＢ＝Ｊ×（ColorDiffＡＢ＋Ｋ×DistＡＢ）・・・（１）

　マスク生成処理部３３は、仮想前景ノードと仮想背景ノードを結ぶ最小コストの経路を、例えばダイクストラ法あるいはベルマンフォード法等を用いて検出する。なお、図１０の（ｂ）では、太線で示す経路が最小コストの経路である。

　さらに、マスク生成処理部３３は、例えば背景マスクの位置のコストを「０」、人物マスクの位置のコストを「１」としたときの最小コストの経路における正規化後のコスト累積値は図１０の（ｃ）となる。したがって、正規化後のコスト累積値が判定基準値例えば「０．５」に近い二重丸で示す未知ノードを境界画素とする。なお、判定基準値は固定であってもよく、電子機器１０の特性に応じて変更可能であってもよい。

　また、仮想前景ノードおよび仮想背景ノード毎に最小コストの経路を探索して、探索した経路のコスト累積値に基づき境界画素を判別して、判別した境界画素の画素位置を境界として、撮像画像の各画素が人物領域と背景領域のいずれであるかを示すコストマップを生成する。なお、境界画素は人物領域の画素としてもよく背景領域の画素としてもよい。

　図１１はコストマップを例示している。図１１の（ａ）は、Ｔｒｉｍａｐを例示しており、ダウンサンプリング後の撮像画像とＴｒｉｍａｐを用いて生成されたコストマップを図１１の（ｂ）に例示している。このように、マスク生成処理部３３は、境界再探索領域で最短経路のコスト値に基づく新たな境界が設定されて、図９の（ｂ）に示すセクメンテ-ションマップよりも、人物領域と背景領域がさらに精度よく判別されて、人物領域と背景領域との境界線が滑らかなコストマップを生成できるようになる。

　なお、コストマップの生成は、上述の方法に限られない。例えば、前景ノードと未知ノードを用いて前景コストマップを生成して、さらに背景ノードと未知ノードを用いて背景コストマップを生成する。さらに、前景コストマップと背景コストマップの統合および正規化を行い、コストマップを生成してもよい。

　マスク生成処理部３３は、再設定された境界を基準としたＴｒｉｍａｐへのマップ変換やアップサンプリングを行い、アップサンプリング後のＴｒｉｍａｐに基づいてコストマップを生成したのち、さらにアップサンプリングを行い、撮像画像と等しい解像度の人物マスクを生成する。

　次に、フィルタ動作について説明する。画像処理部３０のフィルタ部３５は、人物マスクとぼかしフィルタ係数を用いて撮像画像のフィルタ処理を行う。フィルタ処理では、フィルタ処理のタップ数とフィルタ係数（人物フィルタ係数と背景フィルタ係数）を設定する。また、フィルタ処理では、人物フィルタ係数と背景フィルタ係数を人物マスクに基づき制御して、人物領域のエッジをシャープに保ちつつ、背景領域と人物領域の一方に他方の色が混入することがなく、人物領域と背景領域の境界が不自然に見えないようにする。

　例えばフィルタ部３５は、人物フィルタ係数としてインパルス応答のフィルタ係数を設定して、ぼかしフィルタ係数にローパスフィルタ係数を設定して、人物マスクに基づき、フィルタ係数を人物領域では人物フィルタ係数に背景領域ではぼかしフィルタ係数に切り替える。

　図１２は、フィルタ処理に用いるフィルタ係数を例示しており、例えば玉ぼけを生じさせるぼかしフィルタ係数を示している。なお、フィルタ係数は例えば１５×１５タップである。

　図１３は、人物領域と背景領域の境界部分のフィルタ係数を例示している。図１３の（ａ）は人物マスクを示しており、マスク値が「０」の画素は背景領域、マスク値が「１」の画素は人物領域の画素であることを示している。図１３の（ｂ）は背景フィルタ係数を示している。背景フィルタ係数は、例えば図１２に示すぼかしフィルタ係数が繰り返し用いられており、背景フィルタ係数の中心が人物領域と背景領域との境界における背景領域側の位置ＰＣ（太い黒枠の画素位置）とされている。図１３の（ｃ）はマスク後のフィルタ係数を例示している。

　人物マスクが図１３の（ａ）である場合、フィルタ中心が位置ＰＬの場合、全てのフィルタ係数に対応する人物マスクは「０」であるから、全ての背景フィルタ係数を撮像画像に掛けてよい。また、フィルタ中心が位置ＰＲである場合は、全ての背景フィルタ係数に対応する人物マスクは「１」であるから、全ての背景フィルタ係数は撮像画像に掛けてはいけない。フィルタ中心が位置ＰＣの場合は、背景フィルタ係数は人物領域と背景領域の境界を跨いでおり、人物マスクが「０」となる領域の背景フィルタ係数は撮像画像に掛けてよいが、人物マスクが「１」となる領域の背景フィルタ係数は撮像画像に掛けてはいけない。すなわち、図１３の（ｃ）に示すように、背景フィルタ係数は人物マスクの「１」の補数によって、人物フィルタ係数は人物マスクによって、それぞれ撮像画像の画素値への掛け算をマスクする。

　図１４はフィルタ処理前とフィルタ処理後の画像等を例示している。図１４の（ａ）は、フィルタ処理前の撮像画像を例示している。また、図１４の（ｂ）はマスク画像を例示している。ここで、マスク画像の黒色領域はマスク値が「１」の領域、白色領域はマスク値が「０」の領域である。このマスク画像を用いて図１４の（ａ）に示す撮像画像のフィルタ処理を行うと、図１４（ｃ）に示すように、フィルタ処理後の撮像画像は、マスク値が「０」の領域ではエッジをシャープに保ちつつ、マスク値が「１」の領域にぼけを生じさせた画像となる。

　図１５と図１６は、フィルタ処理動作を例示したフローチャートである。フィルタ処理動作では、フィルタ係数の要素毎に、人物マスクと人物フィルタ係数と背景フィルタ係数（ぼかしフィルタ係数）に基づいて、人物フィルタ係数マップと背景フィルタ係数マップを生成する。人物フィルタ係数マップは人物マスクと人物フィルタ係数を乗算して生成して、背景フィルタ係数マップは、人物マスクの１の補数と背景フィルタ係数を乗算して生成する。また、フィルタ処理では、人物フィルタ係数マップと撮像画像に基づき人物領域の画像と、背景フィルタ係数マップと撮像画像に基づき背景領域の画像を生成して、フィルタ係数の要素毎の人物領域の画像と背景領域の画像を画素毎に累積することでフィルタ処理後の撮像画像を生成する。フィルタ部３５は、このような人物フィルタ係数マップと背景フィルタ係数マップと背景フィルタ係数マップの生成、および人物領域の画像と背景領域の画像の生成を画面単位で行い、撮像画像を生成する。

　ステップＳＴ２１でフィルタ部は初期化を行う。フィルタ部３５は、累積画像の各画素値とゲイン配列の各ゲインを初期値「０」として、ステップＳＴ２２に進む。なお、以下の説明では、パラメータｘを「０≦ｘ＜画像水平サイズＳｈ」、パラメータｙを「０≦ｙ＜画像垂直サイズＳｖ」として、画素位置（アドレス）を［ｙ，ｘ］として示している。

　ステップＳＴ２２でフィルタ部は、垂直タップ番号（ｉ）のループを開始してステップＳＴ２３に進む。なお、パラメータｉは「０≦i＜垂直タップ数」である。

　ステップＳＴ２３でフィルタ部は、水平タップ番号（ｊ）のループを開始してステップＳＴ２４に進む。なお、パラメータｊは「０≦i＜水平タップ数」である。

　ステップＳＴ２４でフィルタ部は入力シフト画像を生成する。フィルタ部３５は、撮像画像における座標位置［ｙ＋ｉ－垂直タップ数／２，ｘ＋ｊ－水平タップ数／２］の画素値を入力シフト画像［ｙ，ｘ］の画素値とする。フィルタ部３５は、この処理を各画素位置（範囲「０≦ｘ＜Ｓｈ，０≦ｙ＜Ｓｖ」の各位置）で行うことにより入力シフト画像を生成してステップＳＴ２５に進む。

　ステップＳＴ２５でフィルタ部は人物シフトマスクを生成する。フィルタ部３５は、人物マスクの座標位置［ｙ＋ｉ－垂直タップ数／２，ｘ＋ｊ－水平タップ数／２］のマスク値を人物シフトマスク［ｙ，ｘ］のマスク値とする。フィルタ部３５は、この処理を各画素位置で行うことにより人物シフトマスクを生成してステップＳＴ２６に進む。

　ステップＳＴ２６でフィルタ部は人物フィルタ係数［ｉ，ｊ］が「０」よりも大きいか判別する。フィルタ部３５は、人物フィルタ係数［ｉ，ｊ］が「０」よりも大きい場合はステップＳＴ２７に進み、「０」である場合はステップＳＴ３０に進む。

　ステップＳＴ２７でフィルタ部は人物フィルタ係数マップを生成する。フィルタ部３５は、人物フィルタ係数［ｙ，ｘ］の係数値と人物シフトマスク［ｙ，ｘ］のマスク値の乗算を行い、乗算結果を人物フィルタ係数マップ［ｙ，ｘ］のマップ値とする。フィルタ部３５は、この処理を各画素位置で行うことにより人物フィルタ係数マップを生成してステップＳＴ２８に進む。

　ステップＳＴ２８でフィルタ部はゲイン配列を更新する。フィルタ部３５は、ゲイン配列［ｙ，ｘ］のゲイン値と人物フィルタ係数マップ［ｙ，ｘ］のマップ値を加算して、新たなゲイン配列［ｙ，ｘ］のゲイン値とする。フィルタ部３５は、この処理を各画素位置で行いゲイン配列を更新してステップＳＴ２９に進む。

　ステップＳＴ２９でフィルタ部は累積画像を更新する。フィルタ部３５は、入力シフト画像［ｙ，ｘ］の画素値と人物フィルタ係数マップ［ｙ，ｘ］のマップ値との乗算結果に累積画像［ｙ，ｘ］の画素値を加算して、加算結果を累積画像［ｙ，ｘ］の新たな画素値とする。フィルタ部３５は、この処理を各画素位置で行い累積画像を更新してステップＳＴ３０に進む。

　図１６のステップＳＴ３０でフィルタ部は背景フィルタ係数［ｉ，ｊ］が「０」よりも大きいか判別する。フィルタ部３５は、背景フィルタ係数［ｉ，ｊ］が「０」よりも大きい場合はステップＳＴ３１に進み、「０」である場合はステップＳＴ３４に進む。

　ステップＳＴ３１でフィルタ部は背景フィルタ係数マップを生成する。フィルタ部３５は、背景フィルタ係数［ｉ，ｊ］の係数値と（１‐人物シフトマスク［ｙ，ｘ］）のマスク値の乗算を行い、乗算結果を背景フィルタ係数マップ［ｙ，ｘ］のマップ値に設定する。フィルタ部３５は、この処理を各画素位置で行うことにより背景フィルタ係数マップを生成してステップＳＴ３２に進む。

　ステップＳＴ３２でフィルタ部はゲイン配列を更新する。フィルタ部３５は、ゲイン配列［ｙ，ｘ］のゲイン値と背景フィルタ係数マップ［ｙ，ｘ］のマップ値を加算して、新たなゲイン配列［ｙ，ｘ］のゲイン値とする。フィルタ部３５は、この処理を各画素位置で行いゲイン配列を更新してステップＳＴ３３に進む。

　ステップＳＴ３３でフィルタ部は累積画像を更新する。フィルタ部３５は、入力シフト画像［ｙ，ｘ］の画素値と背景フィルタ係数マップ［ｙ，ｘ］のマップ値との乗算結果に累積画像［ｙ，ｘ］の画素値を加算して、加算結果を累積画像［ｙ，ｘ］の新たな画素値とする。フィルタ部３５は、この処理を各画素位置で行い累積画像の画素値を更新してステップＳＴ３４に進む。

　ステップＳＴ３４でフィルタ部は水平タップ番号（ｊ）を更新する。フィルタ部３５は、水平タップ番号に「１」を加算して、更新後の水平タップ番号（ｊ）が水平タップ数となるまで、ステップＳＴ２３からステップＳＴ３４の処理を繰り返したのちステップＳＴ３５に進む。

　ステップＳＴ３５でフィルタ部は垂直タップ番号（ｉ）を更新する。フィルタ部３５は、垂直タップ番号に「１」を加算して、更新後の垂直タップ番号（ｉ）が垂直タップ数となるまで、ステップＳＴ２２からステップＳＴ３５の処理を繰り返したのちステップＳＴ３６に進む。

　ステップＳＴ３６でフィルタ部３５は、出力画像を生成する。フィルタ部３５は累積画像［ｙ，ｘ］の画素値をゲイン配列のゲイン値で除算して、除算結果を出力画像［ｙ，ｘ］の画素値とする。フィルタ部３５は、この処理を各画素位置で行うことにより出力画像を生成する。

　このように、図１５，１６では、人物フィルタと背景フィルタの係数毎に人物マスクを適応出来る処理フローとなっている。また、係数が「０」である場合は、フィルタ係数マップの設定およびゲイン配列と累積画像の更新がスキップされるので、処理量を削減できる。また、ＧＰＵ（Graphics Processing Unit）等の並列プロセッサを用いて、画素毎あるいはフィルタ係数の要素番号毎に処理を並列化して行うようにすれば、フィルタ処理を高速に行うことができる。

　図１７は、撮像画像と人物マスク画像および出力画像を例示している。本技術によれば、図１７の（ａ）に示す撮像画像から、セマンティックセグメンテーションによって人物領域を検出する場合に比べて精度よく人物領域が検出されている図１７の（ｂ）に示す人物マスクを生成できる。さらに人物マスクとぼかしフィルタ係数（あるいは人物マスクとぼかしフィルタ係数と人物フィルタ係数）を用いて撮像画像のフィルタ処理を行うことで、図１７の（ｃ）に示すように、背景領域のみを所望のぼかし状態とした出力画像を生成できるようになる。また、本技術によって生成された出力画像は、図１７の（ｃ）の一部を拡大して示した図１７の（ｄ）に示すように人物領域と背景領域の境界が明瞭であり、境界部分でαブレンド処理を行う従来の画像処理方法を用いた図１７の（ｅ）に示す画像に比べて、境界部分での混色（色にじみ）等を少なくできるようになる。

　このように、本技術によれば、撮像画像から非注目領域ぼかし画像を生成できるので、イメージセンサの撮像面のサイズが小さい場合や撮像光学系の被写界深度が深いために、注目領域（例えば人物領域）だけでなく非注目領域（例えば背景領域）にも焦点が合った撮像画像が得られる電子機器を用いても、一眼レフカメラを用いた場合と同様な、アーティファクトの少ない背景ぼかし画像を簡単かつ速やかに得られるようになる。また、ぼかしフィルタ係数やフィルタのタップ数が切り替え可能であることから、例えば背景をユーザの好みのぼけ状態とすることができるようになる。

　また、上述の実施の形態では、注目領域が人物を示す画像領域、非注目領域が背景を示す画像領域である場合について説明したが、注目領域は人物に限らず動物や植物、構造物等であってもよい。また、非注目領域は背景に限らず前景を示す画像領域であってもよい。

　明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させる。または、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。

　例えば、プログラムは記録媒体としてのハードディスクやＳＳＤ（Solid State Drive）、ＲＯＭ（Read Only Memory）に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory），ＭＯ（Magneto optical）ディスク，ＤＶＤ（Digital Versatile Disc）、ＢＤ（Blu-Ray Disc（登録商標））、磁気ディスク、半導体メモリカード等のリムーバブル記録媒体に、一時的または永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。

　また、プログラムは、リムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトからＬＡＮ（Local Area Network）やインターネット等のネットワークを介して、コンピュータに無線または有線で転送してもよい。コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、本明細書に記載した効果はあくまで例示であって限定されるものではなく、記載されていない付加的な効果があってもよい。また、本技術は、上述した技術の実施の形態に限定して解釈されるべきではない。この技術の実施の形態は、例示という形態で本技術を開示しており、本技術の要旨を逸脱しない範囲で当業者が実施の形態の修正や代用をなし得ることは自明である。すなわち、本技術の要旨を判断するためには、請求の範囲を参酌すべきである。

　また、本技術の画像処理装置は以下のような構成も取ることができる。
　（１）　撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成するマスク生成部と、
　前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成するフィルタ部
を備える画像処理装置。
　（２）　前記マスク生成部は、セマンティックセグメンテーションによる領域判別結果を利用して前記注目領域を検出する（１）に記載の画像処理装置。
　（３）　前記マスク生成部は、前記領域判別結果で示された前記注目領域と前記非注目領域との境界を基準として前記注目領域と前記非注目領域を含むように設定した境界再探索領域内に、前記撮像画像の画素値の連続性に基づいて前記注目領域と前記非注目領域との境界を再設定して、前記再設定された境界を用いて前記注目領域マスクを生成する（２）に記載の画像処理装置。
　（４）　前記マスク生成部は、セマンティックセグメンテーションで用いた前記撮像画像と該撮像画像に対して前記注目領域の一部が異なる撮像画像との差分領域を検出して、前記セマンティックセグメンテーションで判別した注目領域と前記差分領域を合成して前記領域判別結果を生成する（２）または（３）に記載の画像処理装置。
　（５）　前記注目領域の一部が前記撮像画像と異なる撮像画像は、注目する被写体を撮像した撮像画像であり、前記セマンティックセグメンテーションに用いる撮像画像は、前記注目する被写体の所定部分のみが前記非注目領域にかからない位置に移動されている前記被写体を撮像した撮像画像である（４）に記載の画像処理装置。
　（６）　前記非注目領域は背景領域である（１）乃至（５）のいずれかに記載の画像処理装置。
　（７）　前記フィルタ部で用いるぼかしフィルタ係数は、異なるぼかし特性のぼかしフィルタ係数に切り替え可能とする（１）乃至（６）のいずれかに記載の画像処理装置。
　（８）　前記フィルタ部は、前記フィルタ処理のタップ数を切り替え可能とする（１）乃至（８）のいずれかに記載の画像処理装置。
　（９）　前記フィルタ部は、前記注目領域マスクと注目領域フィルタ係数を用いて、前記撮像画像における前記注目領域マスクに対応する領域のフィルタ処理を行う（１）乃至（８）のいずれかに記載の画像処理装置。
　（１０）　前記フィルタ部は、前記注目領域フィルタ係数としてインパルス応答のフィルタ係数を設定して、前記ぼかしフィルタ係数にローパスフィルタ係数を設定して、前記注目領域マスクに基づき、フィルタ係数を前記注目領域では前記注目領域フィルタ係数に前記非注目領域では前記ぼかしフィルタ係数に切り替える（９）に記載の画像処理装置。
　（１１）　前記フィルタ部は、フィルタ係数の要素毎に、前記注目領域マスクと前記注目領域フィルタ係数と前記ぼかしフィルタ係数に基づいて、注目領域フィルタ係数マップと非注目領域フィルタ係数マップの生成を行い、前記注目領域フィルタ係数マップと前記撮像画像に基づき注目領域画像と、前記非注目領域フィルタ係数マップと前記撮像画像に基づき非注目領域画像を生成して、前記フィルタ係数の要素毎の前記注目領域画像と前記非注目領域画像を画素毎に累積することでフィルタ処理を行う（９）に記載の画像処理装置。

　１０・・・電子機器
　２０・・・撮像部
　２１・・・撮像光学系
　２２・・・イメージセンサ部
　３０・・・画像処理部
　３１・・・マスク生成部
　３２・・・人物領域検出部
　３３・・・マスク生成処理部
　３４・・・フィルタ設定部
　３５・・・フィルタ部
　４０・・・表示部
　５０・・・ユーザインタフェース部
　６０・・・制御部
　３２１，３３２・・・ダウンサンプリング部
　３２２・・・セグメンテーション部
　３２３・・・リサイズ部
　３３１・・・前処理部
　３３３・・・マップ変換部
　３３４，３３６・・・境界再設定部
　３３５，３３７・・・アップサンプリング部
　３３４１，３３６１・・・コストマップ生成部
　３３４１ａ・・・ノード設定部
　３３４１ｂ・・・ノード間コスト算出部
　３３４１ｃ・・・最小コスト経路探索部
　３３４１ｄ・・・コストマップ生成処理部
　３３４２・・・コストマップ変換処理部
　３３６２・・・二値化処理部

Claims

　撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成するマスク生成部と、
　前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成するフィルタ部
を備える画像処理装置。
　前記マスク生成部は、セマンティックセグメンテーションによる領域判別結果を利用して前記注目領域を検出する
請求項１に記載の画像処理装置。
　前記マスク生成部は、前記領域判別結果で示された前記注目領域と前記非注目領域との境界を基準として前記注目領域と前記非注目領域を含むように設定した境界再探索領域内に、前記撮像画像の画素値の連続性に基づいて前記注目領域と前記非注目領域との境界を再設定して、前記再設定された境界を用いて前記注目領域マスクを生成する
請求項２に記載の画像処理装置。
　前記マスク生成部は、セマンティックセグメンテーションで用いた前記撮像画像と該撮像画像に対して前記注目領域の一部が異なる撮像画像との差分領域を検出して、前記セマンティックセグメンテーションで判別した注目領域と前記差分領域を合成して前記領域判別結果を生成する
請求項２に記載の画像処理装置。
　前記注目領域の一部が前記撮像画像と異なる撮像画像は、注目する被写体を撮像した撮像画像であり、前記セマンティックセグメンテーションに用いる撮像画像は、前記注目する被写体の所定部分のみが前記非注目領域にかからない位置に移動されている前記被写体を撮像した撮像画像である
請求項４に記載の画像処理装置。
　前記非注目領域は背景領域である
請求項１に記載の画像処理装置。
　前記フィルタ部で用いるぼかしフィルタ係数は、異なるぼかし特性のぼかしフィルタ係数に切り替え可能とする
請求項１に記載の画像処理装置。
　前記フィルタ部は、前記フィルタ処理のタップ数を切り替え可能とする
請求項１に記載の画像処理装置。
　前記フィルタ部は、前記注目領域マスクと注目領域フィルタ係数を用いて、前記撮像画像における前記注目領域マスクに対応する領域のフィルタ処理を行う
請求項１に記載の画像処理装置。
　前記フィルタ部は、前記注目領域フィルタ係数としてインパルス応答のフィルタ係数を設定して、前記ぼかしフィルタ係数にローパスフィルタ係数を設定して、前記注目領域マスクに基づき、フィルタ係数を前記注目領域では前記注目領域フィルタ係数に前記非注目領域では前記ぼかしフィルタ係数に切り替える
請求項９に記載の画像処理装置。
　前記フィルタ部は、フィルタ係数の要素毎に、前記注目領域マスクと前記注目領域フィルタ係数と前記ぼかしフィルタ係数に基づいて、注目領域フィルタ係数マップと非注目領域フィルタ係数マップの生成を行い、前記注目領域フィルタ係数マップと前記撮像画像に基づき注目領域画像と、前記非注目領域フィルタ係数マップと前記撮像画像に基づき非注目領域画像を生成して、前記フィルタ係数の要素毎の前記注目領域画像と前記非注目領域画像を画素毎に累積することでフィルタ処理を行う
請求項９に記載の画像処理装置。
　撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクをマスク生成部で生成することと、
　前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像をフィルタ部で生成すること
を含む画像処理方法。
　撮像画像の画像処理をコンピュータで実行させるプログラムであって、
　前記撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成する手順と、
　前記注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成する手順と
を前記コンピュータで実行させるプログラム。
　撮像画像を生成する撮像部と、
　前記撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成するマスク生成部と、
　前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成するフィルタ部と、
　前記非注目領域ぼかし画像を表示する表示部と
を有する電子機器。