WO2022157892A1

WO2022157892A1 - 画像選出装置、画像選出方法、及び、画像選出プログラム

Info

Publication number: WO2022157892A1
Application number: PCT/JP2021/002071
Authority: WO
Inventors: 弘員柿沼; 翔大山田; 秀信長田; 浩太日高
Original assignee: 日本電信電話株式会社
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2022-07-28

Abstract

画像選出装置１は、映像を構成する複数の画像について、画像内の被写体の位置及び姿勢を基に、前記被写体の被写体情報を２次元座標の位置と姿勢の種類に関する３次元空間にマッピングする３次元空間写像部１５と、前記３次元空間において複数の被写体情報が２次元座標内に位置する位置の頻度を示す頻度マップをグリッドで複数の領域に分割する格子分割部１６と、分割した領域毎に画像数を集計してリスト化した第１のリストを生成し、各領域内における姿勢の種類毎の画像数を集計してリスト化した第２のリストを生成する集計リスト生成部１７と、前記第１のリストを用いて、領域間の画像数の比率に基づき所定の選出画像数に対応する領域毎の選出画像数を決定し、前記第２のリストを用いて、姿勢の種類間の画像数の比率に基づき選出画像数決定後の各領域内における姿勢の種類毎の選出画像数を決定する選出数決定部１８と、を備える。

Description

画像選出装置、画像選出方法、及び、画像選出プログラム

　本発明は、画像選出装置、画像選出方法、及び、画像選出プログラムに関する。

　映像から被写体を抽出する技術が知られている（特許文献１参照）。教師データを用いて被写体抽出を行う場合、学習データ（例えば、入力画像と当該入力画像から被写体を抽出した正解のマスク画像のペア）が事前に作成される。その際、被写体抽出を行う対象映像から学習データとしたい画像を選出する必要がある。そこで、映像から大量の画像を選出する方法として、一定時間間隔の画像を選出する方法、ランダムに画像を選出する方法が用いられている。

特許第３９３６６６６号公報

　少ない量の学習データで精度の高い被写体抽出を実現するためには、被写体の状態（例えば、人物の姿勢や立ち位置）が多様な画像を学習データとすることが重要である。しかし、従来の画像選出方法では、一定時間間隔又はランダムに画像を選出するため、選出した画像における被写体の状態が特定の状態に偏るという課題があった。また、被写体の状態がなるべく偏らないように、人手により映像を確認しながら画像の選定を行うと、作業時間が膨大になるという課題があった。

　本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、被写体の状態が偏らないように自動で画像を選出可能な技術を提供することである。

　本発明の一態様の画像選出装置は、映像を構成する複数の画像について、画像内の被写体の位置及び姿勢を基に、前記被写体の被写体情報を２次元座標の位置と姿勢の種類に関する３次元空間にマッピングする写像部と、前記３次元空間において複数の被写体情報が２次元座標内に位置する位置の頻度を示す頻度マップをグリッドで複数の領域に分割する分割部と、分割した領域毎に画像数を集計してリスト化した第１のリストを生成し、各領域内における姿勢の種類毎の画像数を集計してリスト化した第２のリストを生成する生成部と、前記第１のリストを用いて、領域間の画像数の比率に基づき所定の選出画像数に対応する領域毎の選出画像数を決定し、前記第２のリストを用いて、姿勢の種類間の画像数の比率に基づき選出画像数決定後の各領域内における姿勢の種類毎の選出画像数を決定する決定部と、決定した領域毎及び各領域内における姿勢の種類毎の選出画像数の画像を前記映像から選出する選出部と、を備える。

　本発明の一態様の画像選出方法は、画像選出装置で行う画像選出方法において、映像を構成する複数の画像について、画像内の被写体の位置及び姿勢を基に、前記被写体の被写体情報を２次元座標の位置と姿勢の種類に関する３次元空間にマッピングするステップと、前記３次元空間において複数の被写体情報が２次元座標内に位置する位置の頻度を示す頻度マップをグリッドで複数の領域に分割するステップと、分割した領域毎に画像数を集計してリスト化した第１のリストを生成し、各領域内における姿勢の種類毎の画像数を集計してリスト化した第２のリストを生成するステップと、前記第１のリストを用いて、領域間の画像数の比率に基づき所定の選出画像数に対応する領域毎の選出画像数を決定し、前記第２のリストを用いて、姿勢の種類間の画像数の比率に基づき選出画像数決定後の各領域内における姿勢の種類毎の選出画像数を決定するステップと、決定した領域毎及び各領域内における姿勢の種類毎の選出画像数の画像を前記映像から選出するステップと、を行う。

　本発明の一態様は、画像選出装置としてコンピュータを機能させる画像選出プログラムである。

　本発明によれば、被写体の状態が偏らないように自動で画像を選出可能な技術を提供できる。

図１は、画像選出装置の構成を示すブロック図である。図２は、マッピング処理及びリスト生成処理を示すフロー図である。図３は、被写体点の３次元空間へのマッピング処理を示すイメージ図である。図４は、被写体点の３次元空間へのマッピング例を示す図である。図５は、頻度マップの例を示す図である。図６は、頻度マップのグリッド分割例を示す図である。図７は、重心リストの例を示す図である。図８は、姿勢リストの例を示す図である。図９は、画像選出処理を示すフロー図である。図１０は、分割領域毎及び分割領域内の姿勢クラス毎の選出画像数の決定例を示す図である。図１１は、画像選出装置のハードウェア構成を示すブロック図である。

　以下、図面を参照して、本発明の実施形態を説明する。図面の記載において同一部分には同一符号を付し説明を省略する。

　［発明の概要］
　本発明は、映像を構成する複数の画像について、各画像内の被写体の姿勢を所定の姿勢クラスにそれぞれ分類し、各画像内の被写体の重心位置と姿勢クラスを基に、各被写体の被写体点を２次元座標の位置と姿勢クラスに関する３次元空間にそれぞれマッピングする。そして、本発明は、複数の被写体点が２次元座標内に位置する重心位置の頻度マップをグリッドで複数の領域に分割し、領域毎の画像数を集計した重心リストと各領域内における姿勢クラス毎の画像数を集計した姿勢リストの２つの階層的なリストを生成する。

　その後、ユーザが選出したい所望の選出画像数を与えた場合、本発明は、上記重心リストを用いて、領域間の画像数の比率に基づき当該所望の選出画像数に対応する領域毎の選出画像数を決定し、上記姿勢リストを用いて、姿勢クラス間の画像数の比率に基づき各領域内における姿勢クラス毎の選出画像数を決定する。

　これにより、被写体の状態に偏りが少ない画像群を自動的に選出可能となる。映像からなるべく多様な被写体の状態を選出したいという要求があるタスクにおいて、当該多様な被写体の選出を自動で実現できるようになり、画像選出に要する作業時間を大幅に削減可能となる。なお、本タスクは、被写体抽出のための学習に限らず、他の画像処理のための学習、多様なサムネイル画像の取得等のタスクにも適用可能である。

　［画像選出装置の構成］
　図１は、本実施形態に係る画像選出装置１の構成を示すブロック図である。当該画像選出装置１は、入力部１１と、骨格推定部１２と、重心推定部１３と、姿勢推定部１４と、３次元空間写像部１５と、格子分割部１６と、集計リスト生成部１７と、選出数決定部１８と、画像選出部１９と、出力部２０と、を備える。

　入力部１１は、画像選出装置１に入力された録画映像等の入力映像を取得し、当該入力映像を構成する画像群を取得する機能を備える。

　骨格推定部１２は、画像内の被写体の各関節の座標を計算する機能を備える。

　重心推定部１３は、被写体の各関節の座標の計算結果を用いて、画像内での被写体の重心座標を計算する機能を備える。

　姿勢推定部１４は、被写体の各関節の座標の計算結果を用いて、各関節の座標の相対位置から当該被写体の姿勢を計算し、複数の姿勢クラス（姿勢の種類）の中から当該計算した姿勢に適合する姿勢クラスに当該被写体の姿勢を分類する機能を備える。

　３次元空間写像部（写像部）１５は、被写体の重心座標と姿勢クラスを基に、当該被写体の被写体点を、２次元座標の位置（ｘ軸，ｙ軸）と姿勢の種類（ｚ軸）に関する３次元空間にマッピングする機能を備える。また、３次元空間写像部１５は、当該３次元空間において複数の被写体点がｘ，ｙ座標上で位置する重心の頻度を示す頻度マップを生成する機能を備える。なお、被写体点とは、被写体に関する被写体情報の例であり、例えば黒色の点である。頻度マップ内で各被写体（被写体の重心）がどの位置にどの程度位置するかを把握できればよいため、例えば、×印、被写体の画像、「被写体」という文字情報を含む画像、文字情報のみ、等でもよい。

　格子分割部（分割部）１６は、頻度マップをグリッドで複数の領域に分割する機能を備える。

　集計リスト生成部（生成部）１７は、分割領域毎に画像数を集計してリスト化した重心リスト（第１のリスト）を生成する機能を備える。また、集計リスト生成部１７は、各分割領域内における姿勢クラス毎の画像数を集計してリスト化した姿勢リスト（第２のリスト）を生成する機能を備える。

　選出数決定部（決定部）１８は、重心リストを用いて、分割領域間の画像数の比率に基づき、ユーザが選出したいと所望する選出画像数に対応する分割領域毎の選出画像数を決定する機能を備える。また、選出数決定部１８は、姿勢リストを用いて、姿勢クラス間の画像数の比率に基づき、選出画像数決定後の各領域内における姿勢クラス毎の選出画像数を決定する機能を備える。

　画像選出部（選出部）１９は、決定した領域毎及び各領域内における姿勢クラス毎の選出画像数の画像を入力映像から選出する機能を備える。

　出力部２０は、選出した画像群を出力する機能を備える。

　［画像選出装置の動作］
　［マッピング処理及びリスト生成処理］
　図２は、被写体の３次元空間へのマッピング処理及びリスト生成処理を示すフロー図である。

　ステップＳ１；
　まず、入力部１１は、画像選出装置１に入力された入力映像を複数の画像に分解して画像群を取得する。

　ステップＳ２；
　次に、骨格推定部１２は、当該画像群から一の画像を取得し、既存の深層学習モデルを用いて当該画像内の被写体の骨格推定を行い、当該被写体の各関節のｘ，ｙ座標を取得する。

　ステップＳ３；
　次に、重心推定部１３は、被写体の各関節のｘ，ｙ座標の計算結果を用いて、画像内での被写体の重心座標（ｘ，ｙ座標）を決定する。

　ステップＳ４；
　次に、姿勢推定部１４は、被写体の各関節のｘ，ｙ座標の計算結果を用いて、各関節のｘ，ｙ座標の相対位置から当該被写体の姿勢クラスを決定する。姿勢クラスとは、例えば、１：正立している、２：しゃがんでいる、３：手を高く上げている、４：手を横に広げている、５：寝そべっている、である。

　例えば、関節の座標群を入力して姿勢の種類をクラスとして出力する姿勢クラス決定用の深層学習モデルを予め作成しておき、姿勢推定部１４は、当該姿勢クラス決定用の深層学習モデルを用いて被写体の姿勢クラスを決定する。姿勢推定部１４は、他の既存の深層学習モデルを用いて姿勢クラスを決定してもよい。その他の方法として、姿勢推定部１４は、被写体の各関節のｘ，ｙ座標の計算結果を用いることなく、既存の深層学習モデルを用いて画像から姿勢を直接推定し、姿勢クラスを決定してもよい。

　ステップＳ５；
　次に、３次元空間写像部１５は、図３に示すように、被写体の被写体点（黒色の点）を、ステップＳ３で決定した被写体の重心座標（３次元空間のｘ，ｙ座標）にマッピングし、ステップＳ４で決定した被写体の姿勢クラス（３次元空間のｚ軸上の姿勢クラス）にマッピングする。

　以降、画像選出装置１は、ステップＳ１で取得した画像群の全画像に対してステップＳ２～ステップＳ５を実行することで、図４に示すように、各画像内の被写体の被写体点を全て３次元空間にマッピングする。

　ステップＳ６；
　次に、３次元空間写像部１５は、各画像内の被写体の被写体点が全てマッピングされた３次元空間情報を用いて、各被写体点がｘ，ｙ座標上でどの位置にどの程度多く位置し、どの位置にどの程度少なく位置するかの頻度を示す重心の頻度マップを生成する。当該頻度マップの例を図５に示す。

　ステップＳ７；
　次に、格子分割部１６は、図６に示すように、ステップＳ６で生成された頻度マップをグリッドで複数の分割領域Ｄ_１～Ｄ_ｎに分割する。分割数については、例えば、ユーザが入力部１１に入力した指定分割数、予め設定された規定分割数が考えられる。

　ステップＳ８；
　次に、集計リスト生成部１７は、図６に示した分割領域Ｄ毎に、各分割領域Ｄの画像数を集計してリスト化した重心リストを生成する。重心リストの例を図７に示す。重心リストとは、被写体がどのグリッドに何枚存在しているかを画像数の多い順に示すリストである。重心リストは、一映像につき１つ生成される。

　ステップＳ９；
　最後に、集計リスト生成部１７は、各分割領域Ｄ内における姿勢クラス毎の画像数を集計してリスト化した姿勢リストを生成する。姿勢リストの例を図８の下側に示す。姿勢リストとは、各姿勢クラスの画像が各分割領域Ｄに何枚存在しているかを画像数の多い順に示すリストである。姿勢リストは、一分割領域Ｄ毎に１つ生成される。

　［画像選出処理］
　図９は、画像選出処理を示すフロー図である。

　ステップＳ１０１；
　まず、入力部１１は、ユーザが選出したいと所望する選出画像数を取得する。

　ステップＳ１０２；
　次に、選出数決定部１８は、重心リストを用いて、分割領域Ｄ間の画像数の比率に基づき、上記所望する選出画像数に対応する一分割領域Ｄあたりの選出画像数を決定する。例えば、所望する選出画像数が３０枚である場合、選出数決定部１８は、重心リストに記載された分割領域Ｄ_１，Ｄ_２，…の画像数の比率に応じ、３０枚の上限内で「分割領域Ｄ_１＝１５枚」、「分割領域Ｄ_２＝６枚」、…と決定する（図１０（ａ）参照）。

　ステップＳ１０３；
　次に、選出数決定部１８は、姿勢リストを用いて、姿勢クラス間の画像数の比率に基づき、各分割領域Ｄ内における各姿勢クラスの選出画像数を決定する。例えば、選出数決定部１８は、分割領域Ｄ_１に係る姿勢リスト内の姿勢クラス２，姿勢クラス１，…の画像数の比率に応じ、「分割領域Ｄ_１＝１５枚」の上限内で「姿勢クラス２＝６枚」、「姿勢クラス１＝５枚」、…と決定する（図１０（ｂ）参照）。

　ステップＳ１０４；
　最後に、画像選出部１９は、各分割領域Ｄの各姿勢クラスの中から、ステップＳ１０３で決定された選出画像数の画像をランダムに選出する。その後、出力部２０は、選出した画像群を外部に出力する。

　［効果］
　本実施形態によれば、画像選出装置１が、映像を構成する複数の画像について、画像内の被写体の重心位置及び姿勢クラスを基に、被写体の被写体点を２次元座標の位置と姿勢の種類に関する３次元空間にマッピングする３次元空間写像部１５と、３次元空間において複数の被写体点が２次元座標内に位置する重心位置の頻度を示す頻度マップをグリッドで複数の領域に分割する格子分割部１６と、分割した分割領域毎に画像数を集計してリスト化した重心リストを生成し、各分割領域内における姿勢クラス毎の画像数を集計してリスト化した姿勢リストを生成する集計リスト生成部１７と、重心リストを用いて、分割領域間の画像数の比率に基づき所望の選出画像数に対応する分割領域毎の選出画像数を決定し、姿勢リストを用いて、姿勢クラス間の画像数の比率に基づき選出画像数決定後の各分割領域内における姿勢クラス毎の選出画像数を決定する選出数決定部１８と、決定した分割領域毎及び各分割領域内における姿勢の種類毎の選出画像数の画像を映像から選出する画像選出部１９と、を備えるので、被写体の状態が偏らないように自動で画像を選出可能な技術を提供できる。

　［その他］
　本発明は、上記実施形態に限定されない。本発明は、本発明の要旨の範囲内で数々の変形が可能である。

　上記説明した本実施形態の画像選出装置１は、例えば、図１１に示すように、ＣＰＵ９０１と、メモリ９０２と、ストレージ９０３と、通信装置９０４と、入力装置９０５と、出力装置９０６と、を備えた汎用的なコンピュータシステムを用いて実現できる。メモリ９０２及びストレージ９０３は、記憶装置である。当該コンピュータシステムにおいて、ＣＰＵ９０１がメモリ９０２上にロードされた所定のプログラムを実行することにより、画像選出装置１の各機能が実現される。

　画像選出装置１は、１つのコンピュータで実装されてもよい。画像選出装置１は、複数のコンピュータで実装されてもよい。画像選出装置１は、コンピュータに実装される仮想マシンであってもよい。画像選出装置１用のプログラムは、ＨＤＤ、ＳＳＤ、ＵＳＢメモリ、ＣＤ、ＤＶＤなどのコンピュータ読取り可能な記録媒体に記憶できる。画像選出装置１用のプログラムは、通信ネットワークを介して配信することもできる。

　１：画像選出装置
　１１：入力部
　１２：骨格推定部
　１３：重心推定部
　１４：姿勢推定部
　１５：３次元空間写像部
　１６：格子分割部
　１７：集計リスト生成部
　１８：選出数決定部
　１９：画像選出部
　２０：出力部
　９０１：ＣＰＵ
　９０２：メモリ
　９０３：ストレージ
　９０４：通信装置
　９０５：入力装置
　９０６：出力装置

Claims

　映像を構成する複数の画像について、画像内の被写体の位置及び姿勢を基に、前記被写体の被写体情報を２次元座標の位置と姿勢の種類に関する３次元空間にマッピングする写像部と、
　前記３次元空間において複数の被写体情報が２次元座標内に位置する位置の頻度を示す頻度マップをグリッドで複数の領域に分割する分割部と、
　分割した領域毎に画像数を集計してリスト化した第１のリストを生成し、各領域内における姿勢の種類毎の画像数を集計してリスト化した第２のリストを生成する生成部と、
　前記第１のリストを用いて、領域間の画像数の比率に基づき所定の選出画像数に対応する領域毎の選出画像数を決定し、前記第２のリストを用いて、姿勢の種類間の画像数の比率に基づき選出画像数決定後の各領域内における姿勢の種類毎の選出画像数を決定する決定部と、
　決定した領域毎及び各領域内における姿勢の種類毎の選出画像数の画像を前記映像から選出する選出部と、
　を備える画像選出装置。
　画像選出装置で行う画像選出方法において、
　映像を構成する複数の画像について、画像内の被写体の位置及び姿勢を基に、前記被写体の被写体情報を２次元座標の位置と姿勢の種類に関する３次元空間にマッピングするステップと、
　前記３次元空間において複数の被写体情報が２次元座標内に位置する位置の頻度を示す頻度マップをグリッドで複数の領域に分割するステップと、
　分割した領域毎に画像数を集計してリスト化した第１のリストを生成し、各領域内における姿勢の種類毎の画像数を集計してリスト化した第２のリストを生成するステップと、
　前記第１のリストを用いて、領域間の画像数の比率に基づき所定の選出画像数に対応する領域毎の選出画像数を決定し、前記第２のリストを用いて、姿勢の種類間の画像数の比率に基づき選出画像数決定後の各領域内における姿勢の種類毎の選出画像数を決定するステップと、
　決定した領域毎及び各領域内における姿勢の種類毎の選出画像数の画像を前記映像から選出するステップと、
　を行う画像選出方法。
　請求項１に記載の画像選出装置としてコンピュータを機能させる画像選出プログラム。