WO2022157892A1 - 画像選出装置、画像選出方法、及び、画像選出プログラム - Google Patents

画像選出装置、画像選出方法、及び、画像選出プログラム Download PDF

Info

Publication number
WO2022157892A1
WO2022157892A1 PCT/JP2021/002071 JP2021002071W WO2022157892A1 WO 2022157892 A1 WO2022157892 A1 WO 2022157892A1 JP 2021002071 W JP2021002071 W JP 2021002071W WO 2022157892 A1 WO2022157892 A1 WO 2022157892A1
Authority
WO
WIPO (PCT)
Prior art keywords
images
list
posture
subject
image selection
Prior art date
Application number
PCT/JP2021/002071
Other languages
English (en)
French (fr)
Inventor
弘員 柿沼
翔大 山田
秀信 長田
浩太 日高
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/002071 priority Critical patent/WO2022157892A1/ja
Publication of WO2022157892A1 publication Critical patent/WO2022157892A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to an image selection device, an image selection method, and an image selection program.
  • Patent Document 1 A technique for extracting a subject from a video is known (see Patent Document 1).
  • learning data for example, a pair of an input image and a correct mask image obtained by extracting the subject from the input image
  • learning data for example, a pair of an input image and a correct mask image obtained by extracting the subject from the input image
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique capable of automatically selecting images so that the state of the subject is not biased.
  • An image selection device for a plurality of images constituting a video, converts subject information of a subject based on the position and orientation of the subject in the image to a three-dimensional a mapping unit that maps a space; a dividing unit that divides a frequency map indicating the frequency of positions at which a plurality of pieces of subject information are located within two-dimensional coordinates in the three-dimensional space into a plurality of regions using a grid; a generation unit for generating a first list in which the number of images is tabulated and listed, and generating a second list in which the number of images for each type of posture in each region is tabulated and listed; Using the list, determine the number of selected images for each region corresponding to the predetermined number of selected images based on the ratio of the number of images between regions, and using the second list, determine the ratio of the number of images between posture types. a determination unit that determines the number of images to be selected for each type of posture in each region after the number of images to be selected
  • An image selection method is an image selection method performed by an image selection device, in which subject information of a subject is obtained two-dimensionally based on the position and orientation of the subject in the image for a plurality of images constituting a video. a step of mapping a coordinate position and a type of posture in a three-dimensional space; and dividing a frequency map indicating the frequency of positions at which a plurality of pieces of subject information are located within the two-dimensional coordinates in the three-dimensional space into a plurality of regions with a grid.
  • a first list is generated by tabulating the number of images for each divided region, and a second list is generated by tabulating the number of images for each type of posture in each region; determining, using the first list, the number of selected images for each region corresponding to a predetermined number of selected images based on the ratio of the number of images between regions; Determining the number of selected images for each posture type in each region after determining the number of selected images based on the ratio of the number of images between types; and selecting an image of from the video.
  • One aspect of the present invention is an image selection program that causes a computer to function as an image selection device.
  • FIG. 1 is a block diagram showing the configuration of an image selection device.
  • FIG. 2 is a flow diagram showing mapping processing and list generation processing.
  • FIG. 3 is an image diagram showing a mapping process of object points to a three-dimensional space.
  • FIG. 4 is a diagram showing an example of mapping subject points to a three-dimensional space.
  • FIG. 5 is a diagram showing an example of a frequency map.
  • FIG. 6 is a diagram showing an example of grid division of the frequency map.
  • FIG. 7 is a diagram showing an example of the center-of-gravity list.
  • FIG. 8 is a diagram showing an example of a posture list.
  • FIG. 9 is a flowchart showing image selection processing.
  • FIG. 10 is a diagram showing an example of determining the number of selected images for each divided area and for each posture class in the divided area.
  • FIG. 11 is a block diagram showing the hardware configuration of the image selection device.
  • the present invention classifies the posture of a subject in each of a plurality of images that constitute a video into predetermined posture classes, and based on the center-of-gravity position and posture class of the subject in each image, the subject point of each subject is calculated. to a 3D space with respect to 2D coordinate position and pose classes, respectively. Then, the present invention divides a frequency map of barycentric positions in which a plurality of subject points are located in two-dimensional coordinates into a plurality of regions by a grid, and calculates a barycentric list in which the number of images in each region is aggregated and a posture class in each region. We generate two hierarchical lists of pose lists that tally the number of images per pose list.
  • the present invention uses the centroid list to calculate selected images for each region corresponding to the desired number of selected images based on the ratio of the number of images between regions. and using the pose list, determine the number of selected images for each pose class in each region based on the ratio of the number of images between pose classes.
  • selection of the various subjects can be automatically realized, and the work time required for image selection can be greatly reduced. Note that this task is not limited to learning for object extraction, and can be applied to tasks such as learning for other image processing and acquisition of various thumbnail images.
  • FIG. 1 is a block diagram showing the configuration of an image selection device 1 according to this embodiment.
  • the image selection device 1 includes an input unit 11, a skeleton estimation unit 12, a center-of-gravity estimation unit 13, a posture estimation unit 14, a three-dimensional space mapping unit 15, a grid division unit 16, and a tally list generation unit 17. , a selection number determination unit 18 , an image selection unit 19 , and an output unit 20 .
  • the input unit 11 has a function of acquiring an input image such as a recorded image input to the image selection device 1 and acquiring an image group forming the input image.
  • the skeleton estimation unit 12 has a function of calculating the coordinates of each joint of the subject in the image.
  • the center-of-gravity estimation unit 13 has a function of calculating the center-of-gravity coordinates of the subject in the image using the calculation results of the coordinates of each joint of the subject.
  • the posture estimating unit 14 calculates the posture of the subject from the relative positions of the coordinates of the joints using the calculated results of the coordinates of the joints of the subject, and calculates the posture of the subject from among a plurality of posture classes (posture types). It has a function of classifying the posture of the subject into a posture class that matches the posture.
  • a three-dimensional space mapping unit (mapping unit) 15 converts an object point of the object into two-dimensional coordinate position (x-axis, y-axis) and orientation type (z-axis) based on the barycentric coordinates and posture class of the object. It has a function of mapping to a three-dimensional space regarding In addition, the three-dimensional space mapping unit 15 has a function of generating a frequency map indicating the frequency of centroids of a plurality of subject points located on the x and y coordinates in the three-dimensional space.
  • the subject point is an example of subject information about the subject, and is, for example, a black point. Since it is sufficient to know where and how much each subject (the center of gravity of the subject) is located in the frequency map, for example, an X mark, an image of the subject, an image including text information "subject", only text information, etc. It's okay.
  • the grid dividing unit (dividing unit) 16 has a function of dividing the frequency map into a plurality of regions with a grid.
  • the total list generating unit (generating unit) 17 has a function of generating a center-of-gravity list (first list) in which the number of images is totaled for each divided region and listed.
  • the tally list generation unit 17 has a function of tallying the number of images for each posture class in each divided region and generating a posture list (second list).
  • a selection number determination unit (determination unit) 18 determines the number of selected images for each divided area corresponding to the number of selected images that the user desires to select based on the ratio of the number of images between divided areas using the center of gravity list. It has a function to The number-of-selection determination unit 18 also has a function of determining the number of images to be selected for each posture class in each region after the number of images to be selected is determined based on the ratio of the number of images between posture classes using the posture list.
  • the image selection unit (selection unit) 19 has a function of selecting the number of images selected for each determined region and for each posture class in each region from the input video.
  • the output unit 20 has a function of outputting the selected image group.
  • FIG. 2 is a flow chart showing mapping processing of a subject to a three-dimensional space and list generation processing.
  • Step S1 First, the input unit 11 decomposes an input video input to the image selection device 1 into a plurality of images to acquire an image group.
  • Step S2 the skeleton estimation unit 12 acquires one image from the image group, estimates the skeleton of the subject in the image using an existing deep learning model, and calculates the x and y coordinates of each joint of the subject. get.
  • Step S3 the center-of-gravity estimation unit 13 determines the center-of-gravity coordinates (x, y coordinates) of the subject in the image using the calculation results of the x, y coordinates of each joint of the subject.
  • Step S4 the posture estimation unit 14 uses the calculation results of the x, y coordinates of each joint of the subject to determine the posture class of the subject from the relative positions of the x, y coordinates of each joint.
  • Posture classes are, for example, 1: standing upright, 2: crouching, 3: arms raised, 4: arms spread out, 5: lying down.
  • a deep learning model for posture class determination that inputs a group of joint coordinates and outputs posture types as classes is created in advance, and the posture estimation unit 14 uses the deep learning model for posture class determination. determines the pose class of the subject.
  • Pose estimation unit 14 may determine the pose class using other existing deep learning models.
  • the pose estimation unit 14 directly estimates the pose from the image using an existing deep learning model without using the calculation results of the x and y coordinates of each joint of the subject, and determines the pose class. good too.
  • Step S5 Next, as shown in FIG. 3, the three-dimensional space mapping unit 15 maps the subject point (black point) of the subject to the barycentric coordinates (x, y coordinates in the three-dimensional space) of the subject determined in step S3. , and mapped to the pose class of the subject determined in step S4 (the pose class on the z-axis in the three-dimensional space).
  • the image selection device 1 executes steps S2 to S5 for all images of the image group acquired in step S1, so that all the subject points of the subject in each image are divided into three points as shown in FIG. Mapping to dimensional space.
  • Step S6 the three-dimensional space mapping unit 15 uses the three-dimensional space information in which all the subject points of the subject in each image are mapped, and determines where and how many of each subject point is located on the x and y coordinates. , generate a frequency map of centroids that indicate how often they are located at what position.
  • An example of the frequency map is shown in FIG.
  • Step S7 the grid dividing unit 16 divides the frequency map generated in step S6 into a plurality of divided regions D 1 to D n using a grid.
  • the number of divisions for example, a specified number of divisions input by the user to the input unit 11 or a prescribed number of divisions set in advance can be considered.
  • An example of the centroid list is shown in FIG.
  • the center-of-gravity list is a list showing how many images of the object exist in which grid, in descending order of the number of images. One center-of-gravity list is generated for each image.
  • An example posture list is shown at the bottom of FIG.
  • the orientation list is a list indicating how many images of each orientation class exist in each divided area D in descending order of the number of images. One posture list is generated for each divided region D.
  • FIG. 9 is a flowchart showing image selection processing.
  • Step S101 First, the input unit 11 acquires the number of selected images that the user desires to select.
  • Step S104 Finally, the image selection unit 19 randomly selects images of the number of selected images determined in step S103 from each posture class of each divided area D.
  • the output unit 20 outputs the selected image group to the outside.
  • the image selection device 1 extracts the object point of the object based on the position of the center of gravity and the orientation class of the object in the image for a plurality of images forming a video.
  • 3D space mapping unit 15 for mapping to a 3D space, and a grid division for dividing a frequency map indicating the frequency of barycenter positions where a plurality of subject points are located within 2D coordinates in the 3D space into a plurality of regions with a grid.
  • a counting list that counts the number of images for each of the divided regions and generates a list of the centroids, counts the number of images for each posture class in each divided region, and generates a list of posture lists;
  • a selection number determination unit 18 that determines the number of selected images for each posture class in each divided area after the number of selected images is determined based on the ratio of the number of images; Since the image selection unit 19 selects the number of images to be selected from the video, it is possible to provide a technique capable of automatically selecting images so that the state of the subject is not biased.
  • the image selection device 1 of this embodiment described above includes, for example, a CPU 901, a memory 902, a storage 903, a communication device 904, an input device 905, and an output device 906, as shown in FIG. It can be realized using a general-purpose computer system.
  • Memory 902 and storage 903 are storage devices.
  • each function of the image selection apparatus 1 is realized by executing a predetermined program loaded on the memory 902 by the CPU 901 .
  • the image selection device 1 may be implemented by one computer.
  • the image selection device 1 may be implemented by multiple computers.
  • the image selection device 1 may be a virtual machine implemented on a computer.
  • a program for the image selection device 1 can be stored in computer-readable recording media such as HDD, SSD, USB memory, CD, and DVD.
  • the program for image selection device 1 can also be distributed via a communication network.
  • Image selection device 11 Input unit 12: Skeleton estimation unit 13: Center of gravity estimation unit 14: Posture estimation unit 15: Three-dimensional space mapping unit 16: Grid division unit 17: Total list generation unit 18: Selection number determination unit 19: Image selection unit 20: Output unit 901: CPU 902: Memory 903: Storage 904: Communication device 905: Input device 906: Output device

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

画像選出装置1は、映像を構成する複数の画像について、画像内の被写体の位置及び姿勢を基に、前記被写体の被写体情報を2次元座標の位置と姿勢の種類に関する3次元空間にマッピングする3次元空間写像部15と、前記3次元空間において複数の被写体情報が2次元座標内に位置する位置の頻度を示す頻度マップをグリッドで複数の領域に分割する格子分割部16と、分割した領域毎に画像数を集計してリスト化した第1のリストを生成し、各領域内における姿勢の種類毎の画像数を集計してリスト化した第2のリストを生成する集計リスト生成部17と、前記第1のリストを用いて、領域間の画像数の比率に基づき所定の選出画像数に対応する領域毎の選出画像数を決定し、前記第2のリストを用いて、姿勢の種類間の画像数の比率に基づき選出画像数決定後の各領域内における姿勢の種類毎の選出画像数を決定する選出数決定部18と、を備える。

Description

画像選出装置、画像選出方法、及び、画像選出プログラム
 本発明は、画像選出装置、画像選出方法、及び、画像選出プログラムに関する。
 映像から被写体を抽出する技術が知られている(特許文献1参照)。教師データを用いて被写体抽出を行う場合、学習データ(例えば、入力画像と当該入力画像から被写体を抽出した正解のマスク画像のペア)が事前に作成される。その際、被写体抽出を行う対象映像から学習データとしたい画像を選出する必要がある。そこで、映像から大量の画像を選出する方法として、一定時間間隔の画像を選出する方法、ランダムに画像を選出する方法が用いられている。
特許第3936666号公報
 少ない量の学習データで精度の高い被写体抽出を実現するためには、被写体の状態(例えば、人物の姿勢や立ち位置)が多様な画像を学習データとすることが重要である。しかし、従来の画像選出方法では、一定時間間隔又はランダムに画像を選出するため、選出した画像における被写体の状態が特定の状態に偏るという課題があった。また、被写体の状態がなるべく偏らないように、人手により映像を確認しながら画像の選定を行うと、作業時間が膨大になるという課題があった。
 本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、被写体の状態が偏らないように自動で画像を選出可能な技術を提供することである。
 本発明の一態様の画像選出装置は、映像を構成する複数の画像について、画像内の被写体の位置及び姿勢を基に、前記被写体の被写体情報を2次元座標の位置と姿勢の種類に関する3次元空間にマッピングする写像部と、前記3次元空間において複数の被写体情報が2次元座標内に位置する位置の頻度を示す頻度マップをグリッドで複数の領域に分割する分割部と、分割した領域毎に画像数を集計してリスト化した第1のリストを生成し、各領域内における姿勢の種類毎の画像数を集計してリスト化した第2のリストを生成する生成部と、前記第1のリストを用いて、領域間の画像数の比率に基づき所定の選出画像数に対応する領域毎の選出画像数を決定し、前記第2のリストを用いて、姿勢の種類間の画像数の比率に基づき選出画像数決定後の各領域内における姿勢の種類毎の選出画像数を決定する決定部と、決定した領域毎及び各領域内における姿勢の種類毎の選出画像数の画像を前記映像から選出する選出部と、を備える。
 本発明の一態様の画像選出方法は、画像選出装置で行う画像選出方法において、映像を構成する複数の画像について、画像内の被写体の位置及び姿勢を基に、前記被写体の被写体情報を2次元座標の位置と姿勢の種類に関する3次元空間にマッピングするステップと、前記3次元空間において複数の被写体情報が2次元座標内に位置する位置の頻度を示す頻度マップをグリッドで複数の領域に分割するステップと、分割した領域毎に画像数を集計してリスト化した第1のリストを生成し、各領域内における姿勢の種類毎の画像数を集計してリスト化した第2のリストを生成するステップと、前記第1のリストを用いて、領域間の画像数の比率に基づき所定の選出画像数に対応する領域毎の選出画像数を決定し、前記第2のリストを用いて、姿勢の種類間の画像数の比率に基づき選出画像数決定後の各領域内における姿勢の種類毎の選出画像数を決定するステップと、決定した領域毎及び各領域内における姿勢の種類毎の選出画像数の画像を前記映像から選出するステップと、を行う。
 本発明の一態様は、画像選出装置としてコンピュータを機能させる画像選出プログラムである。
 本発明によれば、被写体の状態が偏らないように自動で画像を選出可能な技術を提供できる。
図1は、画像選出装置の構成を示すブロック図である。 図2は、マッピング処理及びリスト生成処理を示すフロー図である。 図3は、被写体点の3次元空間へのマッピング処理を示すイメージ図である。 図4は、被写体点の3次元空間へのマッピング例を示す図である。 図5は、頻度マップの例を示す図である。 図6は、頻度マップのグリッド分割例を示す図である。 図7は、重心リストの例を示す図である。 図8は、姿勢リストの例を示す図である。 図9は、画像選出処理を示すフロー図である。 図10は、分割領域毎及び分割領域内の姿勢クラス毎の選出画像数の決定例を示す図である。 図11は、画像選出装置のハードウェア構成を示すブロック図である。
 以下、図面を参照して、本発明の実施形態を説明する。図面の記載において同一部分には同一符号を付し説明を省略する。
 [発明の概要]
 本発明は、映像を構成する複数の画像について、各画像内の被写体の姿勢を所定の姿勢クラスにそれぞれ分類し、各画像内の被写体の重心位置と姿勢クラスを基に、各被写体の被写体点を2次元座標の位置と姿勢クラスに関する3次元空間にそれぞれマッピングする。そして、本発明は、複数の被写体点が2次元座標内に位置する重心位置の頻度マップをグリッドで複数の領域に分割し、領域毎の画像数を集計した重心リストと各領域内における姿勢クラス毎の画像数を集計した姿勢リストの2つの階層的なリストを生成する。
 その後、ユーザが選出したい所望の選出画像数を与えた場合、本発明は、上記重心リストを用いて、領域間の画像数の比率に基づき当該所望の選出画像数に対応する領域毎の選出画像数を決定し、上記姿勢リストを用いて、姿勢クラス間の画像数の比率に基づき各領域内における姿勢クラス毎の選出画像数を決定する。
 これにより、被写体の状態に偏りが少ない画像群を自動的に選出可能となる。映像からなるべく多様な被写体の状態を選出したいという要求があるタスクにおいて、当該多様な被写体の選出を自動で実現できるようになり、画像選出に要する作業時間を大幅に削減可能となる。なお、本タスクは、被写体抽出のための学習に限らず、他の画像処理のための学習、多様なサムネイル画像の取得等のタスクにも適用可能である。
 [画像選出装置の構成]
 図1は、本実施形態に係る画像選出装置1の構成を示すブロック図である。当該画像選出装置1は、入力部11と、骨格推定部12と、重心推定部13と、姿勢推定部14と、3次元空間写像部15と、格子分割部16と、集計リスト生成部17と、選出数決定部18と、画像選出部19と、出力部20と、を備える。
 入力部11は、画像選出装置1に入力された録画映像等の入力映像を取得し、当該入力映像を構成する画像群を取得する機能を備える。
 骨格推定部12は、画像内の被写体の各関節の座標を計算する機能を備える。
 重心推定部13は、被写体の各関節の座標の計算結果を用いて、画像内での被写体の重心座標を計算する機能を備える。
 姿勢推定部14は、被写体の各関節の座標の計算結果を用いて、各関節の座標の相対位置から当該被写体の姿勢を計算し、複数の姿勢クラス(姿勢の種類)の中から当該計算した姿勢に適合する姿勢クラスに当該被写体の姿勢を分類する機能を備える。
 3次元空間写像部(写像部)15は、被写体の重心座標と姿勢クラスを基に、当該被写体の被写体点を、2次元座標の位置(x軸,y軸)と姿勢の種類(z軸)に関する3次元空間にマッピングする機能を備える。また、3次元空間写像部15は、当該3次元空間において複数の被写体点がx,y座標上で位置する重心の頻度を示す頻度マップを生成する機能を備える。なお、被写体点とは、被写体に関する被写体情報の例であり、例えば黒色の点である。頻度マップ内で各被写体(被写体の重心)がどの位置にどの程度位置するかを把握できればよいため、例えば、×印、被写体の画像、「被写体」という文字情報を含む画像、文字情報のみ、等でもよい。
 格子分割部(分割部)16は、頻度マップをグリッドで複数の領域に分割する機能を備える。
 集計リスト生成部(生成部)17は、分割領域毎に画像数を集計してリスト化した重心リスト(第1のリスト)を生成する機能を備える。また、集計リスト生成部17は、各分割領域内における姿勢クラス毎の画像数を集計してリスト化した姿勢リスト(第2のリスト)を生成する機能を備える。
 選出数決定部(決定部)18は、重心リストを用いて、分割領域間の画像数の比率に基づき、ユーザが選出したいと所望する選出画像数に対応する分割領域毎の選出画像数を決定する機能を備える。また、選出数決定部18は、姿勢リストを用いて、姿勢クラス間の画像数の比率に基づき、選出画像数決定後の各領域内における姿勢クラス毎の選出画像数を決定する機能を備える。
 画像選出部(選出部)19は、決定した領域毎及び各領域内における姿勢クラス毎の選出画像数の画像を入力映像から選出する機能を備える。
 出力部20は、選出した画像群を出力する機能を備える。
 [画像選出装置の動作]
 [マッピング処理及びリスト生成処理]
 図2は、被写体の3次元空間へのマッピング処理及びリスト生成処理を示すフロー図である。
 ステップS1;
 まず、入力部11は、画像選出装置1に入力された入力映像を複数の画像に分解して画像群を取得する。
 ステップS2;
 次に、骨格推定部12は、当該画像群から一の画像を取得し、既存の深層学習モデルを用いて当該画像内の被写体の骨格推定を行い、当該被写体の各関節のx,y座標を取得する。
 ステップS3;
 次に、重心推定部13は、被写体の各関節のx,y座標の計算結果を用いて、画像内での被写体の重心座標(x,y座標)を決定する。
 ステップS4;
 次に、姿勢推定部14は、被写体の各関節のx,y座標の計算結果を用いて、各関節のx,y座標の相対位置から当該被写体の姿勢クラスを決定する。姿勢クラスとは、例えば、1:正立している、2:しゃがんでいる、3:手を高く上げている、4:手を横に広げている、5:寝そべっている、である。
 例えば、関節の座標群を入力して姿勢の種類をクラスとして出力する姿勢クラス決定用の深層学習モデルを予め作成しておき、姿勢推定部14は、当該姿勢クラス決定用の深層学習モデルを用いて被写体の姿勢クラスを決定する。姿勢推定部14は、他の既存の深層学習モデルを用いて姿勢クラスを決定してもよい。その他の方法として、姿勢推定部14は、被写体の各関節のx,y座標の計算結果を用いることなく、既存の深層学習モデルを用いて画像から姿勢を直接推定し、姿勢クラスを決定してもよい。
 ステップS5;
 次に、3次元空間写像部15は、図3に示すように、被写体の被写体点(黒色の点)を、ステップS3で決定した被写体の重心座標(3次元空間のx,y座標)にマッピングし、ステップS4で決定した被写体の姿勢クラス(3次元空間のz軸上の姿勢クラス)にマッピングする。
 以降、画像選出装置1は、ステップS1で取得した画像群の全画像に対してステップS2~ステップS5を実行することで、図4に示すように、各画像内の被写体の被写体点を全て3次元空間にマッピングする。
 ステップS6;
 次に、3次元空間写像部15は、各画像内の被写体の被写体点が全てマッピングされた3次元空間情報を用いて、各被写体点がx,y座標上でどの位置にどの程度多く位置し、どの位置にどの程度少なく位置するかの頻度を示す重心の頻度マップを生成する。当該頻度マップの例を図5に示す。
 ステップS7;
 次に、格子分割部16は、図6に示すように、ステップS6で生成された頻度マップをグリッドで複数の分割領域D~Dに分割する。分割数については、例えば、ユーザが入力部11に入力した指定分割数、予め設定された規定分割数が考えられる。
 ステップS8;
 次に、集計リスト生成部17は、図6に示した分割領域D毎に、各分割領域Dの画像数を集計してリスト化した重心リストを生成する。重心リストの例を図7に示す。重心リストとは、被写体がどのグリッドに何枚存在しているかを画像数の多い順に示すリストである。重心リストは、一映像につき1つ生成される。
 ステップS9;
 最後に、集計リスト生成部17は、各分割領域D内における姿勢クラス毎の画像数を集計してリスト化した姿勢リストを生成する。姿勢リストの例を図8の下側に示す。姿勢リストとは、各姿勢クラスの画像が各分割領域Dに何枚存在しているかを画像数の多い順に示すリストである。姿勢リストは、一分割領域D毎に1つ生成される。
 [画像選出処理]
 図9は、画像選出処理を示すフロー図である。
 ステップS101;
 まず、入力部11は、ユーザが選出したいと所望する選出画像数を取得する。
 ステップS102;
 次に、選出数決定部18は、重心リストを用いて、分割領域D間の画像数の比率に基づき、上記所望する選出画像数に対応する一分割領域Dあたりの選出画像数を決定する。例えば、所望する選出画像数が30枚である場合、選出数決定部18は、重心リストに記載された分割領域D,D,…の画像数の比率に応じ、30枚の上限内で「分割領域D=15枚」、「分割領域D=6枚」、…と決定する(図10(a)参照)。
 ステップS103;
 次に、選出数決定部18は、姿勢リストを用いて、姿勢クラス間の画像数の比率に基づき、各分割領域D内における各姿勢クラスの選出画像数を決定する。例えば、選出数決定部18は、分割領域Dに係る姿勢リスト内の姿勢クラス2,姿勢クラス1,…の画像数の比率に応じ、「分割領域D=15枚」の上限内で「姿勢クラス2=6枚」、「姿勢クラス1=5枚」、…と決定する(図10(b)参照)。
 ステップS104;
 最後に、画像選出部19は、各分割領域Dの各姿勢クラスの中から、ステップS103で決定された選出画像数の画像をランダムに選出する。その後、出力部20は、選出した画像群を外部に出力する。
 [効果]
 本実施形態によれば、画像選出装置1が、映像を構成する複数の画像について、画像内の被写体の重心位置及び姿勢クラスを基に、被写体の被写体点を2次元座標の位置と姿勢の種類に関する3次元空間にマッピングする3次元空間写像部15と、3次元空間において複数の被写体点が2次元座標内に位置する重心位置の頻度を示す頻度マップをグリッドで複数の領域に分割する格子分割部16と、分割した分割領域毎に画像数を集計してリスト化した重心リストを生成し、各分割領域内における姿勢クラス毎の画像数を集計してリスト化した姿勢リストを生成する集計リスト生成部17と、重心リストを用いて、分割領域間の画像数の比率に基づき所望の選出画像数に対応する分割領域毎の選出画像数を決定し、姿勢リストを用いて、姿勢クラス間の画像数の比率に基づき選出画像数決定後の各分割領域内における姿勢クラス毎の選出画像数を決定する選出数決定部18と、決定した分割領域毎及び各分割領域内における姿勢の種類毎の選出画像数の画像を映像から選出する画像選出部19と、を備えるので、被写体の状態が偏らないように自動で画像を選出可能な技術を提供できる。
 [その他]
 本発明は、上記実施形態に限定されない。本発明は、本発明の要旨の範囲内で数々の変形が可能である。
 上記説明した本実施形態の画像選出装置1は、例えば、図11に示すように、CPU901と、メモリ902と、ストレージ903と、通信装置904と、入力装置905と、出力装置906と、を備えた汎用的なコンピュータシステムを用いて実現できる。メモリ902及びストレージ903は、記憶装置である。当該コンピュータシステムにおいて、CPU901がメモリ902上にロードされた所定のプログラムを実行することにより、画像選出装置1の各機能が実現される。
 画像選出装置1は、1つのコンピュータで実装されてもよい。画像選出装置1は、複数のコンピュータで実装されてもよい。画像選出装置1は、コンピュータに実装される仮想マシンであってもよい。画像選出装置1用のプログラムは、HDD、SSD、USBメモリ、CD、DVDなどのコンピュータ読取り可能な記録媒体に記憶できる。画像選出装置1用のプログラムは、通信ネットワークを介して配信することもできる。
 1:画像選出装置
 11:入力部
 12:骨格推定部
 13:重心推定部
 14:姿勢推定部
 15:3次元空間写像部
 16:格子分割部
 17:集計リスト生成部
 18:選出数決定部
 19:画像選出部
 20:出力部
 901:CPU
 902:メモリ
 903:ストレージ
 904:通信装置
 905:入力装置
 906:出力装置

Claims (3)

  1.  映像を構成する複数の画像について、画像内の被写体の位置及び姿勢を基に、前記被写体の被写体情報を2次元座標の位置と姿勢の種類に関する3次元空間にマッピングする写像部と、
     前記3次元空間において複数の被写体情報が2次元座標内に位置する位置の頻度を示す頻度マップをグリッドで複数の領域に分割する分割部と、
     分割した領域毎に画像数を集計してリスト化した第1のリストを生成し、各領域内における姿勢の種類毎の画像数を集計してリスト化した第2のリストを生成する生成部と、
     前記第1のリストを用いて、領域間の画像数の比率に基づき所定の選出画像数に対応する領域毎の選出画像数を決定し、前記第2のリストを用いて、姿勢の種類間の画像数の比率に基づき選出画像数決定後の各領域内における姿勢の種類毎の選出画像数を決定する決定部と、
     決定した領域毎及び各領域内における姿勢の種類毎の選出画像数の画像を前記映像から選出する選出部と、
     を備える画像選出装置。
  2.  画像選出装置で行う画像選出方法において、
     映像を構成する複数の画像について、画像内の被写体の位置及び姿勢を基に、前記被写体の被写体情報を2次元座標の位置と姿勢の種類に関する3次元空間にマッピングするステップと、
     前記3次元空間において複数の被写体情報が2次元座標内に位置する位置の頻度を示す頻度マップをグリッドで複数の領域に分割するステップと、
     分割した領域毎に画像数を集計してリスト化した第1のリストを生成し、各領域内における姿勢の種類毎の画像数を集計してリスト化した第2のリストを生成するステップと、
     前記第1のリストを用いて、領域間の画像数の比率に基づき所定の選出画像数に対応する領域毎の選出画像数を決定し、前記第2のリストを用いて、姿勢の種類間の画像数の比率に基づき選出画像数決定後の各領域内における姿勢の種類毎の選出画像数を決定するステップと、
     決定した領域毎及び各領域内における姿勢の種類毎の選出画像数の画像を前記映像から選出するステップと、
     を行う画像選出方法。
  3.  請求項1に記載の画像選出装置としてコンピュータを機能させる画像選出プログラム。
PCT/JP2021/002071 2021-01-21 2021-01-21 画像選出装置、画像選出方法、及び、画像選出プログラム WO2022157892A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/002071 WO2022157892A1 (ja) 2021-01-21 2021-01-21 画像選出装置、画像選出方法、及び、画像選出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/002071 WO2022157892A1 (ja) 2021-01-21 2021-01-21 画像選出装置、画像選出方法、及び、画像選出プログラム

Publications (1)

Publication Number Publication Date
WO2022157892A1 true WO2022157892A1 (ja) 2022-07-28

Family

ID=82548557

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/002071 WO2022157892A1 (ja) 2021-01-21 2021-01-21 画像選出装置、画像選出方法、及び、画像選出プログラム

Country Status (1)

Country Link
WO (1) WO2022157892A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3936666B2 (ja) * 2003-02-20 2007-06-27 日本電信電話株式会社 動画像中の代表画像抽出装置,動画像中の代表画像抽出方法,動画像中の代表画像抽出プログラムおよび動画像中の代表画像抽出プログラムの記録媒体
US20130185233A1 (en) * 2012-01-16 2013-07-18 Samsung Electronics Co., Ltd. System and method for learning pose classifier based on distributed learning architecture
JP2015194927A (ja) * 2014-03-31 2015-11-05 セコム株式会社 対象識別装置
JP2019040335A (ja) * 2017-08-24 2019-03-14 三菱電機インフォメーションシステムズ株式会社 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム
JP2020119127A (ja) * 2019-01-22 2020-08-06 日本金銭機械株式会社 学習用データ生成方法、プログラム、学習用データ生成装置、および、推論処理方法
WO2020255326A1 (ja) * 2019-06-20 2020-12-24 三菱電機株式会社 学習用データ生成装置、学習用データ生成方法、学習用データ生成プログラム、学習装置、学習方法、学習プログラム、推論装置、推論方法、推論プログラム、学習システム、及び推論システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3936666B2 (ja) * 2003-02-20 2007-06-27 日本電信電話株式会社 動画像中の代表画像抽出装置,動画像中の代表画像抽出方法,動画像中の代表画像抽出プログラムおよび動画像中の代表画像抽出プログラムの記録媒体
US20130185233A1 (en) * 2012-01-16 2013-07-18 Samsung Electronics Co., Ltd. System and method for learning pose classifier based on distributed learning architecture
JP2015194927A (ja) * 2014-03-31 2015-11-05 セコム株式会社 対象識別装置
JP2019040335A (ja) * 2017-08-24 2019-03-14 三菱電機インフォメーションシステムズ株式会社 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム
JP2020119127A (ja) * 2019-01-22 2020-08-06 日本金銭機械株式会社 学習用データ生成方法、プログラム、学習用データ生成装置、および、推論処理方法
WO2020255326A1 (ja) * 2019-06-20 2020-12-24 三菱電機株式会社 学習用データ生成装置、学習用データ生成方法、学習用データ生成プログラム、学習装置、学習方法、学習プログラム、推論装置、推論方法、推論プログラム、学習システム、及び推論システム

Similar Documents

Publication Publication Date Title
US11301954B2 (en) Method for detecting collision between cylindrical collider and convex body in real-time virtual scenario, terminal, and storage medium
CN112330526B (zh) 一种人脸转换模型的训练方法、存储介质及终端设备
US8175374B2 (en) Volume recognition method and system
JP6740033B2 (ja) 情報処理装置、計測システム、情報処理方法及びプログラム
JP6425847B1 (ja) 画像処理装置、画像処理方法およびプログラム
EP2786353A1 (en) Methods and systems for capturing and moving 3d models and true-scale metadata of real world objects
JP5802247B2 (ja) 情報処理装置
CN109711472B (zh) 训练数据生成方法和装置
JP2015075429A (ja) マーカ、マーカの評価方法、情報処理装置、情報処理方法、及びプログラム
CN108737694A (zh) 照相机系统及图像提供方法
CN113344986A (zh) 点云配准结果的评估方法、装置、设备及存储介质
CN111311681A (zh) 视觉定位方法、装置、机器人及计算机可读存储介质
US20220051055A1 (en) Training data generation method and training data generation device
JP5762099B2 (ja) 姿勢認識装置、作業ロボット、姿勢認識方法、プログラム及び記録媒体
WO2022157892A1 (ja) 画像選出装置、画像選出方法、及び、画像選出プログラム
CN113989376A (zh) 室内深度信息的获取方法、装置和可读存储介质
WO2024114041A1 (zh) 定位方法、装置、机器人以及存储介质
JP2015203680A (ja) 情報処理装置、方法、プログラム
JP3950376B2 (ja) 3次元点群からの形状モデル生成方法と装置、並びに、3次元点群からの形状モデル生成プログラムと該プログラムを記録した記録媒体
JP3614709B2 (ja) 景観画像インデクス方法、装置および景観画像インデクスプログラムを記録した記録媒体
TW201006527A (en) Measuring object contour method and measuring object contour apparatus
JP2009216480A (ja) 三次元位置姿勢計測方法および装置
Ashdown et al. Robust calibration of camera-projector system for multi-planar displays
JP2003271687A (ja) 干渉モデル検出装置、方法及び記憶媒体
WO2023152977A1 (ja) 画像処理装置、画像処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21921004

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21921004

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP