WO2021070443A1 - 画像処理装置と画像処理方法とプログラムおよび電子機器 - Google Patents

画像処理装置と画像処理方法とプログラムおよび電子機器 Download PDF

Info

Publication number
WO2021070443A1
WO2021070443A1 PCT/JP2020/027812 JP2020027812W WO2021070443A1 WO 2021070443 A1 WO2021070443 A1 WO 2021070443A1 JP 2020027812 W JP2020027812 W JP 2020027812W WO 2021070443 A1 WO2021070443 A1 WO 2021070443A1
Authority
WO
WIPO (PCT)
Prior art keywords
region
image
interest
area
filter coefficient
Prior art date
Application number
PCT/JP2020/027812
Other languages
English (en)
French (fr)
Inventor
西堀 一彦
仕豪 温
貴光 後藤
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/754,305 priority Critical patent/US20220375040A1/en
Publication of WO2021070443A1 publication Critical patent/WO2021070443A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • G06T5/75Unsharp masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Definitions

  • the person area detection unit 32 prioritizes the processing speed over the accuracy, for example. , The person area is detected using the reduced image.
  • FIG. 3 illustrates the configuration of the person mask generation unit. Note that FIG. 3 shows a configuration in which the mask is stabilized by performing processing at a resolution of a plurality of layers to generate a highly accurate person mask.
  • the mask generation processing unit 33 includes a pre-processing unit 331, a downsampling unit 332, a map conversion unit 333, a boundary resetting unit 334, an upsampling unit 335, a boundary resetting unit 336, and an upsampling unit 337.
  • step ST5 the electronic device acquires this captured image.
  • the imaging unit 20 of the electronic device 10 performs a second imaging, acquires the present captured image in which a predetermined portion of the person of interest is originally positioned, and proceeds to step ST6.
  • the person mask when the filter center is the position PL, the person mask corresponding to all the filter coefficients is "0", so all the background filter coefficients may be multiplied by the captured image. .. Further, when the center of the filter is the position PR, the person mask corresponding to all the background filter coefficients is "1", so all the background filter coefficients should not be applied to the captured image.
  • the center of the filter is the position PC, the background filter coefficient straddles the boundary between the person area and the background area, and the background filter coefficient of the area where the person mask is "0” may be applied to the captured image, but the person mask The background filter coefficient of the region of "1" should not be multiplied by the captured image. That is, as shown in FIG. 13 (c), the background filter coefficient is masked by the complement of "1" of the person mask, and the person filter coefficient is masked by the person mask to multiply the pixel value of the captured image.
  • step ST36 the filter unit 35 generates an output image.
  • the filter unit 35 divides the pixel value of the cumulative image [y, x] by the gain value of the gain array, and sets the division result as the pixel value of the output image [y, x].
  • the filter unit 35 generates an output image by performing this process at each pixel position.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)

Abstract

マスク生成部31の人物領域検出部32は、セマンティックセグメンテーションによる領域判別結果と差分領域検出結果を利用して撮像画像から注目領域を検出する。マスク生成処理部33は、域判別結果で示された注目領域と非注目領域例えば背景領域との境界を基準として注目領域と非注目領域を含むように設定した境界再探索範領域内に、撮像画像の画素値の連続性に基づいて注目領域と非注目領域との境界を再設定して、再設定された境界を用いて注目領域マスクを生成する。フィルタ部35は、マスク生成部31で生成された注目領域マスクとフィルタ設定部34で設定されたぼかしフィルタ係数を用いて、撮像画像における注目領域マスクに対応する領域のフィルタ処理を行い、背景領域をぼかした画像を生成する。アーティファクトの少ない背景ぼかしを行えるようになる。

Description

画像処理装置と画像処理方法とプログラムおよび電子機器
 この技術は、画像処理装置と画像処理方法とプログラムおよび電子機器に関し、アーティファクトの少ない背景ぼかしを行えるようにする。
 従来、撮像機能を有する電子機器、例えばスマートフォン等に搭載されたカメラでは、一眼レフカメラに比べて相対的に広い距離範囲に対して焦点が合ってしまうため、一眼レフカメラのように背景が大きくぼけた画像を得られない。このため、特許文献1では、焦点条件の異なる複数の撮像画像から被写体の距離マップを生成して、距離マップで示された距離に基づいた回数で、各被写体に対してそれぞれフィルタ処理を行い、フィルタ処理毎に生成される画像を合成して、例えば背景が大きくぼけた画像を生成することが行われている。
特開2015-159357号公報
 ところで、特許文献1では、焦点条件の異なる複数の撮像画像から被写体の距離マップを生成する必要があるため、撮像時に焦点条件を変えることができないカメラには適用できない。
 そこで、この技術では焦点条件を変えて撮像を行わなくとも、アーティファクトの少ない背景ぼかしを行える画像処理装置と画像処理方法とプログラムおよび電子機器を提供することを目的とする。
 この技術の第1の側面は、
 撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成するマスク生成部と、
 前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成するフィルタ部
を備える画像処理装置にある。
 この技術において、マスク生成部は、例えばセマンティックセグメンテーションによる領域判別結果を利用して撮像画像から注目領域を検出する。また、マスク生成部は、セマンティックセグメンテーションで用いた撮像画像と該撮像画像に対して注目領域の一部が異なる撮像画像との差分領域を検出して、例えば注目する被写体を撮像した撮像画像と、注目する被写体の所定部分のみが背景領域にかからない位置に移動されている被写体を撮像した撮像画像との差分領域を検出して、注目する被写体の所定部分が背景領域にかからない位置に移動されている被写体を撮像した撮像画像を用いてセマンティックセグメンテーションを行い、セマンティックセグメンテーションによって判別した注目領域に差分領域を合成して領域判別結果を生成する。
 マスク生成部は、領域判別結果で示された注目領域と非注目領域例えば背景領域との境界を基準として注目領域と非注目領域を含むように設定した境界再探索領域内に、撮像画像の画素値の連続性に基づいて注目領域と非注目領域との境界を再設定して、再設定された境界を用いて注目領域マスクを生成する。
 フィルタ部は、マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて、撮像画像における注目領域マスクに対応する領域のフィルタ処理を行い、非注目領域ぼかし画像を生成する。フィルタ部は、ぼかしフィルタ係数を異なるぼかし特性の係数に切り替え可能としてもよく、フィルタ処理のタップ数を切り替え可能としてもよい。
 フィルタ部は、注目領域フィルタ係数としてインパルス応答のフィルタ係数を設定して、ぼかしフィルタ係数にローパスフィルタ係数を設定して、注目領域マスクに基づき、フィルタ係数を注目領域では注目領域フィルタ係数に非注目領域ではぼかしフィルタ係数に切り替える。
 フィルタ部は、フィルタ係数の要素毎に、注目領域マスクと注目領域フィルタ係数とぼかしフィルタ係数に基づいて、注目領域フィルタ係数マップと非注目領域フィルタ係数マップの生成を行い、注目領域フィルタ係数マップと撮像画像に基づき注目領域画像と、非注目領域フィルタ係数マップと撮像画像に基づき非注目領域画像を生成して、フィルタ係数の要素毎の注目領域画像と非注目領域画像を画素毎に累積することでフィルタ処理を行う。
 この技術の第2の側面は、
 撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクをマスク生成部で生成することと、
 前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像をフィルタ部で生成すること
を含む画像処理方法にある。
 この技術の第3の側面は、
 撮像画像の画像処理をコンピュータで実行させるプログラムであって、
 前記撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成する手順と、
 前記注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成する手順と
を前記コンピュータで実行させるプログラムにある。
 なお、本技術のプログラムは、例えば、様々なプログラムコードを実行可能な汎用コンピュータに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、光ディスクや磁気ディスク、半導体メモリなどの記憶媒体、あるいは、ネットワークなどの通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ上でプログラムに応じた処理が実現される。
 この技術の第4の側面は、
 撮像画像を生成する撮像部と、
 前記撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成するマスク生成部と、
 前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成するフィルタ部と、
 前記非注目領域ぼかし画像を表示する表示部と
を有する電子機器にある。
電子機器の構成を例示した図である。 人物領域検出部の構成を例示した図である。 人物マスク生成部の構成を例示した図である。 境界再設定部の構成を例示した図である。 コストマップ生成部の構成を例示した図である。 境界再設定部の構成を例示した図である。 実施の形態の動作を例示したフローチャートである。 合成モードの動作を例示した図である。 マスク生成処理を説明するための図である。 コストマップの生成を説明するための図である。 コストマップを例示した図である。 フィルタ処理に用いるフィルタ係数を例示した図である。 人物領域と背景領域の境界部分のフィルタ係数を例示した図である。 フィルタ処理前とフィルタ処理後の画像等を例示した図である。 フィルタ処理動作を例示したフローチャート(1/2)である。 フィルタ処理動作を例示したフローチャート(2/2)である。 撮像画像と人物マスク画像および出力画像を例示した図である。
 以下、本技術を実施するための形態について説明する。なお、説明は以下の順序で行う。
 1.実施の形態の構成
 2.実施の形態の動作
 <1.実施の形態の構成>
 図1は、本技術の画像処理装置を用いた電子機器の構成を例示している。電子機器10は、撮像部20と画像処理部30、表示部40、ユーザインタフェース部50および制御部60を有している。電子機器10は、撮像部20を用いて撮像画像を取得して、画像処理部30は取得された撮像画像における非注目領域を、ぼけを生じた画像とする画像処理を行う。
 撮像部20は、撮像光学系21とイメージセンサ部22を有している。撮像光学系21は、フォーカスレンズやズームレンズ等を用いて構成されており、被写体光学像をイメージセンサ部22の撮像面に所望のサイズで結像させる。
 イメージセンサ部22は、CMOS(Complementary Metal Oxide Semiconductor)やCCD(Charge Coupled Device)等のイメージセンサを用いて構成されている。イメージセンサ部22は、光電変換を行い被写体光学像に応じた画像信号を生成して画像処理部30へ出力する。なお、イメージセンサ部22に前処理部を設けて、撮像素子で生成された撮像信号に対してノイズ除去や利得調整等の処理、アナログ/デジタル変換処理、欠陥画素補正等を行うようにしてもよい。また、イメージセンサでカラーモザイクフィルタが用いられている場合、イメージセンサ部22にデモザイク処理部を設けて、前処理部で処理された撮像信号を用いてデモザイク処理を行い、1画素が1つの色成分を示す撮像信号から1画素が各色成分を示す画像信号、例えば三原色の画像信号を生成してもよい。
 電子機器10は、1回の撮像で得られた撮像画像に対して画像処理を行う通常モードと、通常モードでは注目領域(あるいは非注目領域)を精度よく検出できないため、複数種類の領域判別結果を合成して画像処理を行う合成モードを有している。合成モードでは、後述するように、例えば注目する被写体を撮像した撮像画像と、注目する被写体の所定部分が非注目領域にかからない位置に移動されている被写体を撮像した撮像画像とに基づく複数の領域検出を合成して画像処理を行う。
 画像処理部30は、撮像部20で生成された撮像画像の画像信号を用いてフィルタ処理を行い、撮像画像における非注目領域でぼけを生じた画像を生成する。すなわち、画像処理部30は、撮像画像から注目領域を検出して、注目領域と非注目領域の特徴から注目領域マスクを生成する。さらに、画像処理部30は、注目領域マスクとぼかしフィルタ係数を用いて撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成する。なお、以下の説明では、例えば注目領域は人物領域、非注目領域は背景領域とする。また、各部の動作の詳細については、実施の形態の動作において説明する。
 画像処理部30は、マスク生成部31、フィルタ設定部34、フィルタ部35を有している。また、マスク生成部31は、人物領域検出部32、マスク生成処理部33を有しており、撮像画像から人物領域を検出して、人物領域と背景領域の特徴から人物マスクを生成する。
 人物領域検出部32は、通常モードまたは合成モードで撮像動作が行われて撮像部20から供給された画像信号を用いて撮像画像における人物領域を検出する。例えば、人物領域検出部32はセマンティックセグメンテーション(Semantic Segmentation)を行い、撮像画像の各画素が人物領域の画素であるか背景領域の画素であるか判別することで、人物領域を検出する。また、人物領域検出部32は、合成モードで撮像動作が行われている場合、セマンティックセグメンテーションで用いた撮像画像と、この撮像画像に対して注目領域の一部が異なる撮像画像との差分領域を検出して、セマンティックセグメンテーションで判別した注目領域と差分領域を合成して人物領域の領域判別結果を生成する。なお、後述するようにマスク生成処理部33は人物領域判別結果を用いて人物領域と背景領域の境界を再探索することから、人物領域検出部32は、例えば精度よりも処理速度を優先して、縮小撮像画像を用いて人物領域の検出を行う。
 図2は、人物領域検出部の構成を例示している。人物領域検出部32は、ダウンサンプリング部321、セグメンテーション部322、リサイズ部323を有している。
 ダウンサンプリング部321は、撮像部20から供給された画像信号のダウンサンプリングを行い、縮小撮像画像を生成する。
 セグメンテーション部322は、例えばCNN(Convolutional Neural Network)を行い検出対象領域のセグメンテーションマップを生成する。セグメンテーション部322では、事前に人物画像を用いた学習が行われており、学習結果を用いて検出対象領域のCNNを行い、画素毎に人物またはそれ以外にラベリングした二値画像であるセグメンテーションマップを生成する。また、合成モードで撮像動作が行われている場合、セグメンテーション部322は、セマンティックセグメンテーションで用いた撮像画像と、この撮像画像に対して注目領域の一部が異なる撮像画像との差分領域を検出して、セマンティックセグメンテーションで判別した注目領域と差分領域を合成してセグメンテーションマップを生成する。
 リサイズ部323は、セグメンテーション部322で生成されたセグメンテーションマップに対して例えば補間処理を行うことで、ダウンサンプリング前のサイズにリサイズして、撮像画像における検出対象領域に対応するセグメンテーションマップとして、マスク生成処理部33へ出力する。
 マスク生成処理部33は、人物領域検出部32で生成されたセグメンテーションマップに基づき、人物領域と背景領域の境界線を含む所定幅の境界再探索領域を設定する。さらに、マスク生成処理部33は、境界再探索領域における隣接画素の色の連続性に基づき人物領域を覆い隠す人物マスクを生成する。
 図3は、人物マスク生成部の構成を例示している。なお、図3では、複数階層の解像度で処理を行うことによりマスクの安定化を図り、高精度の人物マスクを生成する構成を示している。マスク生成処理部33は、前処理部331、ダウンサンプリング部332、マップ変換部333、境界再設定部334、アップサンプリング部335、境界再設定部336、アップサンプリング部337を有している。
 前処理部331は、前処理として人物領域検出部32で生成されたセグメンテーションマップのノイズ除去等を行う。例えば、前処理部331は、セグメンテーションマップに対して平滑フィルタあるいはメディアンフィルタ等のフィルタ処理を行い、前処理後のセグメンテーションマップをダウンサンプリング部332へ出力する。
 ダウンサンプリング部332は、前処理部331から供給されたセグメンテーションマップおよび撮像部20で生成された撮像画像を基底面(例えば水平および垂直とも1/4解像度)にダウンサンプリングしてマップ変換部333へ出力する。
 マップ変換部333は、人物領域検出部32で検出された領域判別結果である二値画像のセグメンテーションマップを三値画像のマップに変換する。マップ変換部333は、セグメンテーションマップで示された人物領域と背景領域との境界を基準として、人物領域と背景領域を含む所定幅の境界再探索領域を設定して、例えば境界再探索領域の画素を「2」、セグメンテーションマップにおける境界再探索領域を除いた人物領域の画素を「1」、セグメンテーションマップにおける境界再探索領域を除いた背景領域の画素を「0」とした3つの領域を示すマップ(以下、「Trimap」という)に変換する。
 境界再設定部334は、マップ変換部333で生成されたTrimapに基づいて撮像画像の画素値の連続性に関するコストマップを生成して、このコストマップに基づき人物領域と背景領域の境界を再設定して、再設定された境界を用いることで高精度のTrimapを生成する。
 図4は、境界再設定部の構成を例示している。境界再設定部334は、コストマップ生成部3341とコストマップ変換処理部3342を有している。
 コストマップ生成部3341は、人物領域の画素を仮想前景ノード、背景領域の画素を仮想背景ノード、境界再探索領域の画素を未知ノードとして、仮想前景ノードと未知ノードを結ぶ経路にあるエッジのコスト、および仮想背景ノードと未知ノードを結ぶ経路にあるエッジのコストに基づきコストマップを生成してコストマップ変換処理部3342へ出力する。
 図5は、コストマップ生成部の構成を例示している。コストマップ生成部3341は、ノード設定部3341a、ノード間コスト算出部3341b、最小コスト経路探索部3341c、コストマップ生成処理部3341dを有している。
 ノード設定部3341aは、マップ変換部333で生成されたTrimapにおいて、例えば、境界再探索領域の画素を探索ノード、境界再探索領域に隣接する人物領域の画素または境界再探索領域から複数画素離れた位置までの範囲内にある人物領域の画素を仮想前景ノード、境界再探索領域に隣接する背景領域の画素または境界再探索領域から複数画素離れた位置までの範囲内にある背景領域の画素を仮想背景ノードとする。
 ノード間コスト算出部3341bは、撮像部20で生成された撮像画像の画素値を用いて、隣接するノード間の画素値の連続性を示すコストを算出する。例えば、ノード間コスト算出部3341bは、ノード設定部3341aで設定されたノードについて、隣接するノード間の画素値の差をノード間コストとして算出する。したがって、連続性を有する画素間ではコストが小さくなる。
 最小コスト経路探索部3341cは、ノード間コスト算出部3341bで算出されたノード間毎のコストを用いて、仮想前景ノードおよび仮想背景ノード毎に、仮想前景ノードと仮想背景ノードを結ぶ最小コストの経路を判別する。
 コストマップ生成処理部3341dは、最小コストとなる経路のコスト累積値に基づき、境界を示す画素を判別して、判別結果に基づき、撮像画像の各画素が人物領域と背景領域のいずれであるかを示すコストマップを生成してコストマップ変換処理部3342へ出力する。
 コストマップ変換処理部3342は、フィルタ処理後のコストマップで示されたコストに基づき、境界再探索領域における人物領域と背景領域の境界を再設定して、再設定した境界を用いたTrimapへのマップ変換を行う。このマップ変換では、コストマップで示されたコストに基づき人物領域と背景領域の境界が再探索されており、Trimapは後述するアップサンプリング部335で基底面の2倍の解像度に変換されることから、Trimapの境界再探索領域は、マップ変換部333でTrimapを生成する場合に比べて領域幅を狭くする。コストマップ変換処理部3342は、変換後のTrimapをアップサンプリング部335へ出力する。
 アップサンプリング部335は、コストマップ変換処理部3342から供給されたTrimapのアップサンプリングを行い、基底面の2倍の解像度(1/2解像度)のTrimapを生成して境界再設定部336へ出力する。
 境界再設定部336は、アップサンプリング部335から供給されたTrimapに基づいてコストマップを生成して、このコストマップを二値化処理して人物マスクを生成する。
 図6は、境界再設定部の構成を例示している。境界再設定部336は、コストマップ生成部3361と二値化処理部3362を有している。
 コストマップ生成部3361は、上述のコストマップ生成部3341と同様な処理を行い、コストマップを生成して二値化処理部3362へ出力する。
 二値化処理部3362は、フィルタ処理後のコストマップで示されたコストに基づき、境界再探索領域における人物領域と背景領域の境界を再設定して、人物領域と背景領域を示す二値画像の人物マスクを生成してアップサンプリング部337へ出力する。
 アップサンプリング部337は、二値化処理部3362から供給された人物マスクのアップサンプリングを行い、基底面の4倍の解像度、すなわち撮像部20で取得された撮像画像と等しい解像度の人物マスクを生成してフィルタ部35へ出力する。
 このように、撮像画像と解像度の低い人物検出結果から解像度の低いコストマップを生成して、解像度の低いコストマップから新たに解像度の高いコストマップを生成する処理を行い、撮像画像と等しい解像度の人物マスクを生成することで、解像度が低下されていない撮像画像の人物検出結果と撮像画像から撮像画像の解像度の人物マスクを生成する場合に比べて、人物マスクと他領域の境界線を滑らかとすることが可能となる。
 フィルタ設定部34は、撮像部20から供給された撮像画像における背景領域がぼけを生じた画像となるようにフィルタ処理を行うための係数(以下「ぼかしフィルタ係数」という)をフィルタ部35へ出力する。フィルタ設定部34は、予め異なるぼかし特性のぼかしフィルタ係数を有しており、ユーザの選択操作に応じて選択されたぼかしフィルタ係数をフィルタ部35へ出力してもよい。ぼかしフィルタ係数は、背景領域が例えばレンズぼけを生じた画像となるように予め設定されていてもよい。また、フィルタ設定部34は、人物領域のフィルタ処理に用いる人物領域フィルタ係数を設定してもよい。人物領域フィルタ係数は、例えば人物領域のエッジの鮮鋭度を低下させないように設定されている。さらに、フィルタ設定部34は、フィルタ係数だけでなくタップ数を切り替え可能としてもよい。このように、ぼかしフィルタ係数やタップ数を切り替え可能とすることで、ユーザが所望するぼかし特性のぼかし画像が生成可能となる。
 フィルタ部35は、マスク生成処理部33で生成された人物マスクとフィルタ設定部34で設定されたぼかしフィルタ係数を用いて撮像画像のフィルタ処理を行い、背景領域ぼかし画像を生成する。また、フィルタ部35は、人物マスクとフィルタ設定部34で設定された人物フィルタ係数を用いて撮像画像のフィルタ処理を行い、背景領域がぼかされており、人物領域は人物フィルタ係数に応じたフィルタ処理が行われた画像を生成してもよい。この場合、フィルタ部35は、フィルタ設定部34で設定された人物領域フィルタ係数と背景領域フィルタ係数を人物マスクに基づき制御して、撮像部20で生成された撮像画像のフィルタ処理を行う。フィルタ部35は、人物領域フィルタ係数と背景領域フィルタ係数と人物マスクに基づきフィルタ処理を行い、人物領域はエッジの鮮鋭度が保たれており、背景領域はレンズぼけが生じており、人物領域と背景領域の境界では、一方の領域から他方の領域への色の混入や不自然さのない撮像画像を生成する。
 図1の表示部40は、画像処理部30から出力された画像信号に基づき、画像処理後の撮像画像を表示する。また、表示部40は、電子機器10の各種設定状態や各種操作に関する表示を行う。
 ユーザインタフェース部50は、操作スイッチや操作ボタン、タッチパネル等を用いて構成されており、電子機器10に対して各種設定操作や指示操作が可能とされている。例えば、通常モードまたは合成モードの選択操作やぼかし状態の調整操作(ぼかしフィルタ係数やフィルタタップ数等の切り替え)等が可能とされている。
 制御部60は、CPU(Central Processing Unit)やROM(Read Only Memory),RAM(Random Access Memory)等を有している。ROM(Read Only Memory)は、CPU(Central Processing Unit)により実行される各種プログラムを記憶する。RAM(Random Access Memory)は、各種パラメータ等の情報を記憶する。CPUは、ROMに記憶されている各種プログラムを実行して、ユーザインタフェース部50におけるユーザ操作に応じた動作が電子機器10で行われるように各部を制御する。
 なお、電子機器10には、撮像部20で得られた撮像画像や、画像処理部30で画像処理が行われた撮像画像等を記録する記録部が設けられてもよい。
 <2.実施の形態の動作>
 次に、実施の形態の動作について説明する。図7は、実施の形態の動作を例示したフローチャートである。
 ステップST1で、電子機器は通常モードであるか判別する。電子機器10の制御部60は、通常モードである場合ステップST2に進み、通常モードでない場合ステップST4に進む。例えば制御部60は通常モードを初期モードとして、通常モードの処理で人物領域の検出が精度よく行われていないためにユーザが合成モードを選択した場合、ステップST4に進む。
 ステップST2で電子機器は撮像画像を取得する。電子機器10の撮像部20は、制御部60からの制御信号に基づきユーザ操作に基づくタイミングで撮像を行い、注目する人物の撮像画像を取得してステップST3に進む。
 ステップST3で電子機器は人物領域検出処理を行う。電子機器10の画像処理部30は、ステップST2で取得された撮像画像から人物領域を検出してステップST9に進む。
 ステップST4で電子機器は仮撮像画像を取得する。合成モードでは、例えば2回の撮像を行い、第1の撮像では注目する人物において領域認識が困難な所定部分を背景にかからない位置に移動して撮像を行うことで仮撮像画像を取得して、第2の撮像では所定部分を元の位置として撮像を行い、本撮像画像を取得する。第1の撮像と第2の撮像は、いずれを先に行ってもよい。電子機器10の撮像部20は、例えば第1の撮像を行い、注目する人物の所定部分が背景から外れている仮撮像画像を取得してステップST5に進む。
 ステップST5で電子機器は本撮像画像を取得する。電子機器10の撮像部20は、第2の撮像を行い、注目する人物の所定部分が元の位置された本撮像画像を取得してステップST6に進む。
 なお、ステップST2で撮像画像を取得するタイミング、ステップST4で仮撮像画像を取得するタイミング、ステップST5で本撮像画像を取得するタイミングは、ユーザのシャッターボタン操作に限らず、タイマー機能を用いて自動的に設定したタイミングでもよく、ユーザが所定のジェスチャ(例えばウィンク動作等)を行ったときのタイミングであってもよい。また、仮撮像画像と本撮像画像を取得する場合、1回目の撮像後にシーンチェンジを検出したとき2回目の撮像を行うようにしてもよい。
 ステップST6で電子機器は差分領域検出処理を行う。電子機器10の画像処理部30は、ステップST4で取得した仮撮像画像とステップST5で取得した本撮像画像から差分領域、すなわち、注目する人物における所定部分を示す画像領域を検出してステップST7に進む。
 ステップST7で電子機器は人物領域検出処理を行う。電子機器10の画像処理部30は、ステップST4で取得された仮撮像画像から人物領域を検出してステップST8に進む。
 ステップST8で電子機器は領域合成処理を行う。電子機器10の画像処理部30は、ステップST6で検出した差分領域とステップST7で検出した人物領域を合成した領域を新たに人物領域として設定してステップST9に進む。
 ステップST9で電子機器は人物領域が検出されているか判別する。電子機器10の画像処理部30は、人物領域が検出されている場合にステップST10に進み、人物領域が検出されていない場合は処理を終了する。
 ステップST10で電子機器はマスク生成処理を行う。マスク生成部31は、上述のように人物領域の検出結果を示すセグメンテーションマップのノイズ除去や、撮像画像とノイズ除去後のセグメンテーションマップを基底面にダウンサンプリングしたのちTrimapを生成する。マスク生成部31は、Trimapに基づいてコストマップの生成とコストマップをTrimapへ変換する処理、コストマップの二値化処理を行い、撮像画像と等しい解像度の人物マスクを生成してステップST11に進む。
 ステップST11で電子機器はフィルタ設定処理を行う。電子機器10の画像処理部30は、背景領域が所望のぼけを生じた画像となるようにフィルタ処理を行う際のタップ数とぼかしフィルタ係数を設定してステップST12に進む。なお、タップ数とぼかしフィルタ係数は例えば予め設定されていてもよく、予め設定された複数のぼかしモードからユーザによって選択されたぼかしモードのタップ数とフィルタ係数を用いてもよい。さらに、ユーザによって指定されたタップ数とフィルタ係数を用いるようにしてもよい。ぼかしモードとしては、例えば背景に含まれた点光源に円状のぼけ(玉ぼけ)を生じさせるぼかしモード、星形のぼかしを生じさせるぼかしモード、背景が人物領域に近い場合のようにぼかし量が少ないぼかしモード、背景が人物領域から離れている場合のようにぼかし量が多いぼかしモード等を用いる。
 ステップST12で電子機器はフィルタ処理を行う。電子機器10の画像処理部30は、ステップST10で生成された人物マスクとステップST11で設定されたフィルタタップ数でぼかしフィルタ係数を用いてフィルタ処理を行いステップST13に進む。
 ステップST13で電子機器は処理の完了であるか判別する。電子機器10の制御部は、ユーザからぼかし状態の再設定操作が行われた場合にはステップST11に戻り、新たなフィルタ係数を再設定する。また、電子機器10の制御部は、ぼかし状態の再設定操作が行われない場合に処理を終了する。
 次に、合成モードの動作について説明する。合成モードでは、セマンティックセグメンテーションで用いた撮像画像と、この撮像画像に対して人物領域の一部が異なる撮像画像との差分領域を検出して、セマンティックセグメンテーションで判別した人物領域と差分領域を合成して領域判別結果を生成する。
 図8は、合成モードの動作を例示している。図8の(a)は領域検出が困難な部分を含む撮像画像、図8の(b)は図8の(a)を用いて人物領域を検出した場合を例示している。セマンティックセグメンテーション(Semantic Segmentation)では、指や手などサイズの小さい部分が広めに人物領域として検出される場合やサイズの小さな部分の一部や全部が人物領域として検出されない場合がある。なお、図8の(b)では、破線で示す領域Haで指先が人物領域として検出されていない場合を例示している。合成モードでは、注目する人物において、セマンティックセグメンテーションで領域認識が困難な部分である指や手などサイズの小さい部分である所定部分が背景領域にかからない位置に移動されている状態で第1の撮像を行い、例えば図8の(c)に示す仮撮像画像を取得する。また、注目する人物において、所定部分が元の位置とされている状態で第2の撮像を行い、例えば図8の(e)に示す本撮像画像を取得する。
 ここで、図8の(c)に示す仮撮像画像を用いて例えばセマンティックセグメンテーションを行うと、図8の(d)に示すように人物領域が検出される。また、図8の(c)と図8(e)を用いて差分領域検出処理を行うと、差分領域では背景領域にかからない位置に移動した所定部分を検出できる。したがって、差分領域検出により検出した差分領域とセマンティックセグメンテーションにより検出した図8の(d)に示す人物領域を合成すれば、図8の(f)に示すように、領域認識が困難な部分が人物領域と認識されないことや、広めに人物領域と認識されることがなく、精度よく人物領域を検出できるようになる。
 ところで、第1の撮像と第2の撮像を行う際に電子機器10が固定されていない場合、例えば手持ち状態である場合、差分領域には手ぶれ等による差分が含まれる。したがって、電子機器10の動き検出を行い、動き検出結果に基づき第2の撮像で得られた撮像画像の動き補正を行えば、差分領域に手ぶれ等による差分が含まれることを防止できる。また、背景に動体が含まれると、動体を示す画像領域が差分領域として検出されてしまう。このような場合、撮像画像を所定の帰還率で巡回してノイズや動きのレベルを落とした撮像画像を生成して差分領域を検出すれば、動体の影響を防止できる。
 次に、マスク生成処理について説明する。図9はマスク生成処理を説明するための図である。図9の(a)はダウンサンプリング後の撮像画像を例示している。また、図9の(b)は、トリミングした画像に対応するフィルタ処理後のセグメンテーションマップを例示しており、黒色の領域は背景領域、白色領域は人物領域である。
 マスク生成処理部33は、セグメンテーションマップにおける人物領域と背景領域の境界から、予め設定された前景側と背景側の距離だけ境界線からそれぞれ所定距離だけ離すことによって境界再探索領域を設けて、図9の(c)に示すTrimapを生成する。なお、黒色の領域は背景領域、白色領域は人物領域、中間輝度の領域は境界再探索領域である。
 次に、マスク生成処理部33は、Trimapに基づいてコストマップを生成する。図10はコストマップの生成を説明するための図である。図10の(a)に示すように、人物領域の画素は全て仮想前景ノードとし、背景領域の画素は全て仮想背景ノードとする。また、境界再探索領域の画素は未知ノードとする。図10の(b)は、人物領域と背景領域と境界探索領域の画素値を例示している。
 マスク生成処理部33は、例えば4つの近傍画素のノードとエッジを繋いでマルコフ確率場(Markov Random Field)を形成する。このマルコフ確率場のグラフで、例えばノードAとノードBとの間のエッジABのコストCostABを式(1)に基づいて算出する。なお、式(1)において「ColorDiffAB」はノードAとノードBの間の画素値の差分、「DistAB」はノードAとノードBの間の距離(例えば4つの近傍画素間の距離は「1」)、「J」,「K」はコストを調整するための予め設定されたパラメータである。
 CostAB=J×(ColorDiffAB+K×DistAB)・・・(1)
 マスク生成処理部33は、仮想前景ノードと仮想背景ノードを結ぶ最小コストの経路を、例えばダイクストラ法あるいはベルマンフォード法等を用いて検出する。なお、図10の(b)では、太線で示す経路が最小コストの経路である。
 さらに、マスク生成処理部33は、例えば背景マスクの位置のコストを「0」、人物マスクの位置のコストを「1」としたときの最小コストの経路における正規化後のコスト累積値は図10の(c)となる。したがって、正規化後のコスト累積値が判定基準値例えば「0.5」に近い二重丸で示す未知ノードを境界画素とする。なお、判定基準値は固定であってもよく、電子機器10の特性に応じて変更可能であってもよい。
 また、仮想前景ノードおよび仮想背景ノード毎に最小コストの経路を探索して、探索した経路のコスト累積値に基づき境界画素を判別して、判別した境界画素の画素位置を境界として、撮像画像の各画素が人物領域と背景領域のいずれであるかを示すコストマップを生成する。なお、境界画素は人物領域の画素としてもよく背景領域の画素としてもよい。
 図11はコストマップを例示している。図11の(a)は、Trimapを例示しており、ダウンサンプリング後の撮像画像とTrimapを用いて生成されたコストマップを図11の(b)に例示している。このように、マスク生成処理部33は、境界再探索領域で最短経路のコスト値に基づく新たな境界が設定されて、図9の(b)に示すセクメンテ-ションマップよりも、人物領域と背景領域がさらに精度よく判別されて、人物領域と背景領域との境界線が滑らかなコストマップを生成できるようになる。
 なお、コストマップの生成は、上述の方法に限られない。例えば、前景ノードと未知ノードを用いて前景コストマップを生成して、さらに背景ノードと未知ノードを用いて背景コストマップを生成する。さらに、前景コストマップと背景コストマップの統合および正規化を行い、コストマップを生成してもよい。
 マスク生成処理部33は、再設定された境界を基準としたTrimapへのマップ変換やアップサンプリングを行い、アップサンプリング後のTrimapに基づいてコストマップを生成したのち、さらにアップサンプリングを行い、撮像画像と等しい解像度の人物マスクを生成する。
 次に、フィルタ動作について説明する。画像処理部30のフィルタ部35は、人物マスクとぼかしフィルタ係数を用いて撮像画像のフィルタ処理を行う。フィルタ処理では、フィルタ処理のタップ数とフィルタ係数(人物フィルタ係数と背景フィルタ係数)を設定する。また、フィルタ処理では、人物フィルタ係数と背景フィルタ係数を人物マスクに基づき制御して、人物領域のエッジをシャープに保ちつつ、背景領域と人物領域の一方に他方の色が混入することがなく、人物領域と背景領域の境界が不自然に見えないようにする。
 例えばフィルタ部35は、人物フィルタ係数としてインパルス応答のフィルタ係数を設定して、ぼかしフィルタ係数にローパスフィルタ係数を設定して、人物マスクに基づき、フィルタ係数を人物領域では人物フィルタ係数に背景領域ではぼかしフィルタ係数に切り替える。
 図12は、フィルタ処理に用いるフィルタ係数を例示しており、例えば玉ぼけを生じさせるぼかしフィルタ係数を示している。なお、フィルタ係数は例えば15×15タップである。
 図13は、人物領域と背景領域の境界部分のフィルタ係数を例示している。図13の(a)は人物マスクを示しており、マスク値が「0」の画素は背景領域、マスク値が「1」の画素は人物領域の画素であることを示している。図13の(b)は背景フィルタ係数を示している。背景フィルタ係数は、例えば図12に示すぼかしフィルタ係数が繰り返し用いられており、背景フィルタ係数の中心が人物領域と背景領域との境界における背景領域側の位置PC(太い黒枠の画素位置)とされている。図13の(c)はマスク後のフィルタ係数を例示している。
 人物マスクが図13の(a)である場合、フィルタ中心が位置PLの場合、全てのフィルタ係数に対応する人物マスクは「0」であるから、全ての背景フィルタ係数を撮像画像に掛けてよい。また、フィルタ中心が位置PRである場合は、全ての背景フィルタ係数に対応する人物マスクは「1」であるから、全ての背景フィルタ係数は撮像画像に掛けてはいけない。フィルタ中心が位置PCの場合は、背景フィルタ係数は人物領域と背景領域の境界を跨いでおり、人物マスクが「0」となる領域の背景フィルタ係数は撮像画像に掛けてよいが、人物マスクが「1」となる領域の背景フィルタ係数は撮像画像に掛けてはいけない。すなわち、図13の(c)に示すように、背景フィルタ係数は人物マスクの「1」の補数によって、人物フィルタ係数は人物マスクによって、それぞれ撮像画像の画素値への掛け算をマスクする。
 図14はフィルタ処理前とフィルタ処理後の画像等を例示している。図14の(a)は、フィルタ処理前の撮像画像を例示している。また、図14の(b)はマスク画像を例示している。ここで、マスク画像の黒色領域はマスク値が「1」の領域、白色領域はマスク値が「0」の領域である。このマスク画像を用いて図14の(a)に示す撮像画像のフィルタ処理を行うと、図14(c)に示すように、フィルタ処理後の撮像画像は、マスク値が「0」の領域ではエッジをシャープに保ちつつ、マスク値が「1」の領域にぼけを生じさせた画像となる。
 図15と図16は、フィルタ処理動作を例示したフローチャートである。フィルタ処理動作では、フィルタ係数の要素毎に、人物マスクと人物フィルタ係数と背景フィルタ係数(ぼかしフィルタ係数)に基づいて、人物フィルタ係数マップと背景フィルタ係数マップを生成する。人物フィルタ係数マップは人物マスクと人物フィルタ係数を乗算して生成して、背景フィルタ係数マップは、人物マスクの1の補数と背景フィルタ係数を乗算して生成する。また、フィルタ処理では、人物フィルタ係数マップと撮像画像に基づき人物領域の画像と、背景フィルタ係数マップと撮像画像に基づき背景領域の画像を生成して、フィルタ係数の要素毎の人物領域の画像と背景領域の画像を画素毎に累積することでフィルタ処理後の撮像画像を生成する。フィルタ部35は、このような人物フィルタ係数マップと背景フィルタ係数マップと背景フィルタ係数マップの生成、および人物領域の画像と背景領域の画像の生成を画面単位で行い、撮像画像を生成する。
 ステップST21でフィルタ部は初期化を行う。フィルタ部35は、累積画像の各画素値とゲイン配列の各ゲインを初期値「0」として、ステップST22に進む。なお、以下の説明では、パラメータxを「0≦x<画像水平サイズSh」、パラメータyを「0≦y<画像垂直サイズSv」として、画素位置(アドレス)を[y,x]として示している。
 ステップST22でフィルタ部は、垂直タップ番号(i)のループを開始してステップST23に進む。なお、パラメータiは「0≦i<垂直タップ数」である。
 ステップST23でフィルタ部は、水平タップ番号(j)のループを開始してステップST24に進む。なお、パラメータjは「0≦i<水平タップ数」である。
 ステップST24でフィルタ部は入力シフト画像を生成する。フィルタ部35は、撮像画像における座標位置[y+i-垂直タップ数/2,x+j-水平タップ数/2]の画素値を入力シフト画像[y,x]の画素値とする。フィルタ部35は、この処理を各画素位置(範囲「0≦x<Sh,0≦y<Sv」の各位置)で行うことにより入力シフト画像を生成してステップST25に進む。
 ステップST25でフィルタ部は人物シフトマスクを生成する。フィルタ部35は、人物マスクの座標位置[y+i-垂直タップ数/2,x+j-水平タップ数/2]のマスク値を人物シフトマスク[y,x]のマスク値とする。フィルタ部35は、この処理を各画素位置で行うことにより人物シフトマスクを生成してステップST26に進む。
 ステップST26でフィルタ部は人物フィルタ係数[i,j]が「0」よりも大きいか判別する。フィルタ部35は、人物フィルタ係数[i,j]が「0」よりも大きい場合はステップST27に進み、「0」である場合はステップST30に進む。
 ステップST27でフィルタ部は人物フィルタ係数マップを生成する。フィルタ部35は、人物フィルタ係数[y,x]の係数値と人物シフトマスク[y,x]のマスク値の乗算を行い、乗算結果を人物フィルタ係数マップ[y,x]のマップ値とする。フィルタ部35は、この処理を各画素位置で行うことにより人物フィルタ係数マップを生成してステップST28に進む。
 ステップST28でフィルタ部はゲイン配列を更新する。フィルタ部35は、ゲイン配列[y,x]のゲイン値と人物フィルタ係数マップ[y,x]のマップ値を加算して、新たなゲイン配列[y,x]のゲイン値とする。フィルタ部35は、この処理を各画素位置で行いゲイン配列を更新してステップST29に進む。
 ステップST29でフィルタ部は累積画像を更新する。フィルタ部35は、入力シフト画像[y,x]の画素値と人物フィルタ係数マップ[y,x]のマップ値との乗算結果に累積画像[y,x]の画素値を加算して、加算結果を累積画像[y,x]の新たな画素値とする。フィルタ部35は、この処理を各画素位置で行い累積画像を更新してステップST30に進む。
 図16のステップST30でフィルタ部は背景フィルタ係数[i,j]が「0」よりも大きいか判別する。フィルタ部35は、背景フィルタ係数[i,j]が「0」よりも大きい場合はステップST31に進み、「0」である場合はステップST34に進む。
 ステップST31でフィルタ部は背景フィルタ係数マップを生成する。フィルタ部35は、背景フィルタ係数[i,j]の係数値と(1‐人物シフトマスク[y,x])のマスク値の乗算を行い、乗算結果を背景フィルタ係数マップ[y,x]のマップ値に設定する。フィルタ部35は、この処理を各画素位置で行うことにより背景フィルタ係数マップを生成してステップST32に進む。
 ステップST32でフィルタ部はゲイン配列を更新する。フィルタ部35は、ゲイン配列[y,x]のゲイン値と背景フィルタ係数マップ[y,x]のマップ値を加算して、新たなゲイン配列[y,x]のゲイン値とする。フィルタ部35は、この処理を各画素位置で行いゲイン配列を更新してステップST33に進む。
 ステップST33でフィルタ部は累積画像を更新する。フィルタ部35は、入力シフト画像[y,x]の画素値と背景フィルタ係数マップ[y,x]のマップ値との乗算結果に累積画像[y,x]の画素値を加算して、加算結果を累積画像[y,x]の新たな画素値とする。フィルタ部35は、この処理を各画素位置で行い累積画像の画素値を更新してステップST34に進む。
 ステップST34でフィルタ部は水平タップ番号(j)を更新する。フィルタ部35は、水平タップ番号に「1」を加算して、更新後の水平タップ番号(j)が水平タップ数となるまで、ステップST23からステップST34の処理を繰り返したのちステップST35に進む。
 ステップST35でフィルタ部は垂直タップ番号(i)を更新する。フィルタ部35は、垂直タップ番号に「1」を加算して、更新後の垂直タップ番号(i)が垂直タップ数となるまで、ステップST22からステップST35の処理を繰り返したのちステップST36に進む。
 ステップST36でフィルタ部35は、出力画像を生成する。フィルタ部35は累積画像[y,x]の画素値をゲイン配列のゲイン値で除算して、除算結果を出力画像[y,x]の画素値とする。フィルタ部35は、この処理を各画素位置で行うことにより出力画像を生成する。
 このように、図15,16では、人物フィルタと背景フィルタの係数毎に人物マスクを適応出来る処理フローとなっている。また、係数が「0」である場合は、フィルタ係数マップの設定およびゲイン配列と累積画像の更新がスキップされるので、処理量を削減できる。また、GPU(Graphics Processing Unit)等の並列プロセッサを用いて、画素毎あるいはフィルタ係数の要素番号毎に処理を並列化して行うようにすれば、フィルタ処理を高速に行うことができる。
 図17は、撮像画像と人物マスク画像および出力画像を例示している。本技術によれば、図17の(a)に示す撮像画像から、セマンティックセグメンテーションによって人物領域を検出する場合に比べて精度よく人物領域が検出されている図17の(b)に示す人物マスクを生成できる。さらに人物マスクとぼかしフィルタ係数(あるいは人物マスクとぼかしフィルタ係数と人物フィルタ係数)を用いて撮像画像のフィルタ処理を行うことで、図17の(c)に示すように、背景領域のみを所望のぼかし状態とした出力画像を生成できるようになる。また、本技術によって生成された出力画像は、図17の(c)の一部を拡大して示した図17の(d)に示すように人物領域と背景領域の境界が明瞭であり、境界部分でαブレンド処理を行う従来の画像処理方法を用いた図17の(e)に示す画像に比べて、境界部分での混色(色にじみ)等を少なくできるようになる。
 このように、本技術によれば、撮像画像から非注目領域ぼかし画像を生成できるので、イメージセンサの撮像面のサイズが小さい場合や撮像光学系の被写界深度が深いために、注目領域(例えば人物領域)だけでなく非注目領域(例えば背景領域)にも焦点が合った撮像画像が得られる電子機器を用いても、一眼レフカメラを用いた場合と同様な、アーティファクトの少ない背景ぼかし画像を簡単かつ速やかに得られるようになる。また、ぼかしフィルタ係数やフィルタのタップ数が切り替え可能であることから、例えば背景をユーザの好みのぼけ状態とすることができるようになる。
 また、上述の実施の形態では、注目領域が人物を示す画像領域、非注目領域が背景を示す画像領域である場合について説明したが、注目領域は人物に限らず動物や植物、構造物等であってもよい。また、非注目領域は背景に限らず前景を示す画像領域であってもよい。
 明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させる。または、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
 例えば、プログラムは記録媒体としてのハードディスクやSSD(Solid State Drive)、ROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、BD(Blu-Ray Disc(登録商標))、磁気ディスク、半導体メモリカード等のリムーバブル記録媒体に、一時的または永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、プログラムは、リムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトからLAN(Local Area Network)やインターネット等のネットワークを介して、コンピュータに無線または有線で転送してもよい。コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、本明細書に記載した効果はあくまで例示であって限定されるものではなく、記載されていない付加的な効果があってもよい。また、本技術は、上述した技術の実施の形態に限定して解釈されるべきではない。この技術の実施の形態は、例示という形態で本技術を開示しており、本技術の要旨を逸脱しない範囲で当業者が実施の形態の修正や代用をなし得ることは自明である。すなわち、本技術の要旨を判断するためには、請求の範囲を参酌すべきである。
 また、本技術の画像処理装置は以下のような構成も取ることができる。
 (1) 撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成するマスク生成部と、
 前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成するフィルタ部
を備える画像処理装置。
 (2) 前記マスク生成部は、セマンティックセグメンテーションによる領域判別結果を利用して前記注目領域を検出する(1)に記載の画像処理装置。
 (3) 前記マスク生成部は、前記領域判別結果で示された前記注目領域と前記非注目領域との境界を基準として前記注目領域と前記非注目領域を含むように設定した境界再探索領域内に、前記撮像画像の画素値の連続性に基づいて前記注目領域と前記非注目領域との境界を再設定して、前記再設定された境界を用いて前記注目領域マスクを生成する(2)に記載の画像処理装置。
 (4) 前記マスク生成部は、セマンティックセグメンテーションで用いた前記撮像画像と該撮像画像に対して前記注目領域の一部が異なる撮像画像との差分領域を検出して、前記セマンティックセグメンテーションで判別した注目領域と前記差分領域を合成して前記領域判別結果を生成する(2)または(3)に記載の画像処理装置。
 (5) 前記注目領域の一部が前記撮像画像と異なる撮像画像は、注目する被写体を撮像した撮像画像であり、前記セマンティックセグメンテーションに用いる撮像画像は、前記注目する被写体の所定部分のみが前記非注目領域にかからない位置に移動されている前記被写体を撮像した撮像画像である(4)に記載の画像処理装置。
 (6) 前記非注目領域は背景領域である(1)乃至(5)のいずれかに記載の画像処理装置。
 (7) 前記フィルタ部で用いるぼかしフィルタ係数は、異なるぼかし特性のぼかしフィルタ係数に切り替え可能とする(1)乃至(6)のいずれかに記載の画像処理装置。
 (8) 前記フィルタ部は、前記フィルタ処理のタップ数を切り替え可能とする(1)乃至(8)のいずれかに記載の画像処理装置。
 (9) 前記フィルタ部は、前記注目領域マスクと注目領域フィルタ係数を用いて、前記撮像画像における前記注目領域マスクに対応する領域のフィルタ処理を行う(1)乃至(8)のいずれかに記載の画像処理装置。
 (10) 前記フィルタ部は、前記注目領域フィルタ係数としてインパルス応答のフィルタ係数を設定して、前記ぼかしフィルタ係数にローパスフィルタ係数を設定して、前記注目領域マスクに基づき、フィルタ係数を前記注目領域では前記注目領域フィルタ係数に前記非注目領域では前記ぼかしフィルタ係数に切り替える(9)に記載の画像処理装置。
 (11) 前記フィルタ部は、フィルタ係数の要素毎に、前記注目領域マスクと前記注目領域フィルタ係数と前記ぼかしフィルタ係数に基づいて、注目領域フィルタ係数マップと非注目領域フィルタ係数マップの生成を行い、前記注目領域フィルタ係数マップと前記撮像画像に基づき注目領域画像と、前記非注目領域フィルタ係数マップと前記撮像画像に基づき非注目領域画像を生成して、前記フィルタ係数の要素毎の前記注目領域画像と前記非注目領域画像を画素毎に累積することでフィルタ処理を行う(9)に記載の画像処理装置。
 10・・・電子機器
 20・・・撮像部
 21・・・撮像光学系
 22・・・イメージセンサ部
 30・・・画像処理部
 31・・・マスク生成部
 32・・・人物領域検出部
 33・・・マスク生成処理部
 34・・・フィルタ設定部
 35・・・フィルタ部
 40・・・表示部
 50・・・ユーザインタフェース部
 60・・・制御部
 321,332・・・ダウンサンプリング部
 322・・・セグメンテーション部
 323・・・リサイズ部
 331・・・前処理部
 333・・・マップ変換部
 334,336・・・境界再設定部
 335,337・・・アップサンプリング部
 3341,3361・・・コストマップ生成部
 3341a・・・ノード設定部
 3341b・・・ノード間コスト算出部
 3341c・・・最小コスト経路探索部
 3341d・・・コストマップ生成処理部
 3342・・・コストマップ変換処理部
 3362・・・二値化処理部

Claims (14)

  1.  撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成するマスク生成部と、
     前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成するフィルタ部
    を備える画像処理装置。
  2.  前記マスク生成部は、セマンティックセグメンテーションによる領域判別結果を利用して前記注目領域を検出する
    請求項1に記載の画像処理装置。
  3.  前記マスク生成部は、前記領域判別結果で示された前記注目領域と前記非注目領域との境界を基準として前記注目領域と前記非注目領域を含むように設定した境界再探索領域内に、前記撮像画像の画素値の連続性に基づいて前記注目領域と前記非注目領域との境界を再設定して、前記再設定された境界を用いて前記注目領域マスクを生成する
    請求項2に記載の画像処理装置。
  4.  前記マスク生成部は、セマンティックセグメンテーションで用いた前記撮像画像と該撮像画像に対して前記注目領域の一部が異なる撮像画像との差分領域を検出して、前記セマンティックセグメンテーションで判別した注目領域と前記差分領域を合成して前記領域判別結果を生成する
    請求項2に記載の画像処理装置。
  5.  前記注目領域の一部が前記撮像画像と異なる撮像画像は、注目する被写体を撮像した撮像画像であり、前記セマンティックセグメンテーションに用いる撮像画像は、前記注目する被写体の所定部分のみが前記非注目領域にかからない位置に移動されている前記被写体を撮像した撮像画像である
    請求項4に記載の画像処理装置。
  6.  前記非注目領域は背景領域である
    請求項1に記載の画像処理装置。
  7.  前記フィルタ部で用いるぼかしフィルタ係数は、異なるぼかし特性のぼかしフィルタ係数に切り替え可能とする
    請求項1に記載の画像処理装置。
  8.  前記フィルタ部は、前記フィルタ処理のタップ数を切り替え可能とする
    請求項1に記載の画像処理装置。
  9.  前記フィルタ部は、前記注目領域マスクと注目領域フィルタ係数を用いて、前記撮像画像における前記注目領域マスクに対応する領域のフィルタ処理を行う
    請求項1に記載の画像処理装置。
  10.  前記フィルタ部は、前記注目領域フィルタ係数としてインパルス応答のフィルタ係数を設定して、前記ぼかしフィルタ係数にローパスフィルタ係数を設定して、前記注目領域マスクに基づき、フィルタ係数を前記注目領域では前記注目領域フィルタ係数に前記非注目領域では前記ぼかしフィルタ係数に切り替える
    請求項9に記載の画像処理装置。
  11.  前記フィルタ部は、フィルタ係数の要素毎に、前記注目領域マスクと前記注目領域フィルタ係数と前記ぼかしフィルタ係数に基づいて、注目領域フィルタ係数マップと非注目領域フィルタ係数マップの生成を行い、前記注目領域フィルタ係数マップと前記撮像画像に基づき注目領域画像と、前記非注目領域フィルタ係数マップと前記撮像画像に基づき非注目領域画像を生成して、前記フィルタ係数の要素毎の前記注目領域画像と前記非注目領域画像を画素毎に累積することでフィルタ処理を行う
    請求項9に記載の画像処理装置。
  12.  撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクをマスク生成部で生成することと、
     前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像をフィルタ部で生成すること
    を含む画像処理方法。
  13.  撮像画像の画像処理をコンピュータで実行させるプログラムであって、
     前記撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成する手順と、
     前記注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成する手順と
    を前記コンピュータで実行させるプログラム。
  14.  撮像画像を生成する撮像部と、
     前記撮像画像から注目領域を検出して、前記注目領域と前記注目領域と異なる非注目領域の特徴から注目領域マスクを生成するマスク生成部と、
     前記マスク生成部で生成された注目領域マスクとぼかしフィルタ係数を用いて前記撮像画像のフィルタ処理を行い、非注目領域ぼかし画像を生成するフィルタ部と、
     前記非注目領域ぼかし画像を表示する表示部と
    を有する電子機器。
PCT/JP2020/027812 2019-10-09 2020-07-17 画像処理装置と画像処理方法とプログラムおよび電子機器 WO2021070443A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/754,305 US20220375040A1 (en) 2019-10-09 2020-07-17 Image processing apparatus, image processing method, program, and electronic device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-185782 2019-10-09
JP2019185782 2019-10-09

Publications (1)

Publication Number Publication Date
WO2021070443A1 true WO2021070443A1 (ja) 2021-04-15

Family

ID=75437086

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/027812 WO2021070443A1 (ja) 2019-10-09 2020-07-17 画像処理装置と画像処理方法とプログラムおよび電子機器

Country Status (2)

Country Link
US (1) US20220375040A1 (ja)
WO (1) WO2021070443A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023039912A (ja) * 2021-09-09 2023-03-22 星宸科技股▲ふん▼有限公司 画像処理回路及び画像処理方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220383037A1 (en) * 2021-05-27 2022-12-01 Adobe Inc. Extracting attributes from arbitrary digital images utilizing a multi-attribute contrastive classification neural network

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240732A (ja) * 2003-02-06 2004-08-26 Konica Minolta Holdings Inc 画像合成方法、画像合成装置、画像合成プログラム及び画像記録装置
JP2008217785A (ja) * 2007-03-01 2008-09-18 Seiko Epson Corp 表示コントローラおよび画像データ変換方法
US20160337601A1 (en) * 2015-05-13 2016-11-17 Samsung Electronics Co., Ltd. Electronic device for processing image and method for controlling the same
JP2018097415A (ja) * 2016-12-08 2018-06-21 富士ゼロックス株式会社 画像処理装置、画像処理方法、画像処理システムおよびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5615088B2 (ja) * 2010-08-18 2014-10-29 キヤノン株式会社 画像処理装置及びその方法、プログラム、並びに撮像装置
US8971611B2 (en) * 2012-02-08 2015-03-03 JVC Kenwood Corporation Image process device, image process method, and image process program
US8928772B2 (en) * 2012-09-21 2015-01-06 Eastman Kodak Company Controlling the sharpness of a digital image
US9965865B1 (en) * 2017-03-29 2018-05-08 Amazon Technologies, Inc. Image data segmentation using depth data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240732A (ja) * 2003-02-06 2004-08-26 Konica Minolta Holdings Inc 画像合成方法、画像合成装置、画像合成プログラム及び画像記録装置
JP2008217785A (ja) * 2007-03-01 2008-09-18 Seiko Epson Corp 表示コントローラおよび画像データ変換方法
US20160337601A1 (en) * 2015-05-13 2016-11-17 Samsung Electronics Co., Ltd. Electronic device for processing image and method for controlling the same
JP2018097415A (ja) * 2016-12-08 2018-06-21 富士ゼロックス株式会社 画像処理装置、画像処理方法、画像処理システムおよびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023039912A (ja) * 2021-09-09 2023-03-22 星宸科技股▲ふん▼有限公司 画像処理回路及び画像処理方法

Also Published As

Publication number Publication date
US20220375040A1 (en) 2022-11-24

Similar Documents

Publication Publication Date Title
JP4429241B2 (ja) 画像処理装置及び方法
EP2424226B1 (en) Image-processing apparatus and method, and program
KR100890949B1 (ko) 이미지 데이터 처리를 위한 전자 장치 및 전자 장치에서의방법
JP5013705B2 (ja) 撮像装置,画面表示方法,焦点調整方法,露出調整方法,およびコンピュータプログラム
KR101566081B1 (ko) 화상 처리 장치, 화상 처리 방법 및 기억 매체
JP2008271240A (ja) 撮像装置、画像処理装置、撮像方法、及び画像処理方法
JP5374119B2 (ja) 距離情報取得装置、撮像装置、及びプログラム
JP2008271241A (ja) 撮像装置、画像処理装置、撮像方法、及び画像処理方法
JP6518452B2 (ja) 撮像装置及び撮像方法
JP7516471B2 (ja) 制御装置、撮像装置、制御方法およびプログラム
JP2009157647A (ja) 画像処理回路、撮像装置、方法およびプログラム
WO2021070443A1 (ja) 画像処理装置と画像処理方法とプログラムおよび電子機器
JP2010114752A (ja) 撮像装置及び撮像方法及びプログラム
JP6261205B2 (ja) 画像処理装置
US10979620B2 (en) Image processing apparatus for providing information for focus adjustment, control method of the same, and storage medium
JP2010279054A (ja) 撮像装置、画像処理装置、撮像方法、及び画像処理方法
JP2017143354A (ja) 画像処理装置及び画像処理方法
JP2008099260A (ja) 画像処理装置、電子カメラ、および画像処理プログラム
US11627245B2 (en) Focus adjustment device and focus adjustment method
KR100764414B1 (ko) Psf 선택 모듈, 디지털 자동 초점 조절 장치 및 psf선택 방법
JP2006030972A (ja) 撮像装置及び撮像方法
JP2011135409A (ja) 画像処理装置及び方法、並びにプログラム
JP2002330335A (ja) 静止画像撮像装置
JP2006293196A (ja) 焦点検出装置
JP6003974B2 (ja) 画像処理装置、画像処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20873389

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20873389

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP