WO2024024055A1 - Information processing method, device, and program - Google Patents

Information processing method, device, and program Download PDF

Info

Publication number
WO2024024055A1
WO2024024055A1 PCT/JP2022/029178 JP2022029178W WO2024024055A1 WO 2024024055 A1 WO2024024055 A1 WO 2024024055A1 JP 2022029178 W JP2022029178 W JP 2022029178W WO 2024024055 A1 WO2024024055 A1 WO 2024024055A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information
dimensional position
position information
information processing
Prior art date
Application number
PCT/JP2022/029178
Other languages
French (fr)
Japanese (ja)
Inventor
帆 楊
成幸 小田嶋
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2022/029178 priority Critical patent/WO2024024055A1/en
Publication of WO2024024055A1 publication Critical patent/WO2024024055A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

This information processing device estimates three-dimensional posture information on an object on the basis of a camera parameter and two-dimensional posture information on the object within each 2D-BBOX (420, 421) detected using a detector from images (400, 401) included in a multi-view image, calculates a refined 2D-BBOX range from two-dimensional posture information on the object obtained by reprojecting the estimated three-dimensional position information on each image (400, 401, 402), and generates each calculated 2D-BBOX range as a pseudo-label (440, 441, 442).

Description

情報処理方法、装置、及びプログラムInformation processing method, device, and program
 開示の技術は、情報処理方法、情報処理装置、及び情報処理プログラムに関する。 The disclosed technology relates to an information processing method, an information processing device, and an information processing program.
 従来、複数の異なる視点から対象物を撮影した多視点画像から、対象物を検出することが行われている。例えば、天井カメラと壁カメラとで互いに異なる方向から撮影することで、互いに異なる背景画像中の人の像を取得する画像監視装置が提案されている。この装置は、壁カメラ画像における変化領域の画素を天井カメラ画像に射影してエピポーラ線を求め、エピポーラ線のうち変化領域の画素と特徴が共通する領域を抽出し、当該領域の存在領域に基づいて射影領域を生成する。また、この装置は、射影領域と天井カメラ画像における変化領域とを合成して合成変化領域を求め、当該合成変化領域に基づいて天井カメラ画像中の人を検出する。 Conventionally, a target object has been detected from multi-view images obtained by photographing the target object from a plurality of different viewpoints. For example, an image monitoring device has been proposed that captures images of people in different background images by capturing images from different directions using a ceiling camera and a wall camera. This device projects the pixels of the changing area in the wall camera image onto the ceiling camera image to obtain an epipolar line, extracts the area of the epipolar line that has the same characteristics as the pixels of the changing area, and based on the existing area of the area. The projection area is generated using Further, this device combines the projected area and the changed area in the ceiling camera image to obtain a combined changed area, and detects a person in the ceiling camera image based on the combined changed area.
 画像から対象物を検出するために、例えば、ニューラルネットワーク等の機械学習モデルが利用される。このような機械学習モデルの機械学習を実行するためには、画像内における対象物の位置情報を示す正解ラベル付きのデータが大量に必要である。しかし、正解ラベル付きのデータを大量に用意するには膨大な作業コストがかかる。そこで、機械学習モデルで検出された対象物の位置情報を疑似ラベルとして用い、予め用意された正解ラベル付きのデータに加え、疑似ラベル付きのデータも用いて機械学習モデルの機械学習を実行する半教師あり学習の手法も提案されている。 For example, machine learning models such as neural networks are used to detect objects from images. In order to perform machine learning on such a machine learning model, a large amount of data with correct labels indicating the position information of an object in an image is required. However, preparing a large amount of data with correct answer labels requires a huge amount of work cost. Therefore, the position information of the object detected by the machine learning model is used as a pseudo label, and in addition to the data with the correct answer label prepared in advance, the data with the pseudo label is also used to perform machine learning of the machine learning model. Supervised learning methods have also been proposed.
特開2010-045501号公報Japanese Patent Application Publication No. 2010-045501
 上述したように、半教師あり学習において、機械学習モデルで検出された対象物の位置情報を疑似ラベルとして用いる場合、検出された対象物の位置情報の精度が低いと、その疑似ラベルを用いて機械学習が実行される機械学習モデルの精度も低下してしまう。特に、対象物が体操競技の選手のように、多様な姿勢を取り得る場合などには、画像から精度良く対象物の位置情報を検出することは困難である。 As mentioned above, in semi-supervised learning, when using the position information of an object detected by a machine learning model as a pseudo label, if the accuracy of the position information of the detected object is low, it may be difficult to use the pseudo label. The accuracy of the machine learning model on which machine learning is performed also decreases. In particular, when the target object can take various postures, such as a gymnast, it is difficult to accurately detect the position information of the target object from the image.
 一つの側面として、開示の技術は、画像内の対象物の位置情報を精度良く算出することを目的とする。 As one aspect, the disclosed technology aims to accurately calculate position information of an object in an image.
 一つの態様として、開示の技術は、対象物を異なる複数の視点から撮影する複数のカメラの各々で撮影された複数の画像を取得する。また、開示の技術は、前記複数の画像の各々から検出された前記対象物の2次元位置情報と、前記複数のカメラの各々のカメラパラメータとに基づいて、前記対象物の3次元位置情報を推定する。そして、開示の技術は、前記複数の画像の少なくとも1つの画像を撮影したカメラのカメラパラメータに基づいて、前記対象物の3次元位置情報を前記少なくとも1つの画像に投影し、前記少なくとも1つの画像における前記対象物の2次元位置情報を算出する。 As one aspect, the disclosed technology acquires a plurality of images taken by each of a plurality of cameras that take images of a target object from a plurality of different viewpoints. Further, the disclosed technology calculates three-dimensional position information of the object based on two-dimensional position information of the object detected from each of the plurality of images and camera parameters of each of the plurality of cameras. presume. The disclosed technology projects three-dimensional position information of the object onto the at least one image based on camera parameters of a camera that has taken at least one of the plurality of images, and projects the three-dimensional position information of the object onto the at least one image. Calculate two-dimensional position information of the object at .
 一つの側面として、画像内の対象物の位置情報を精度良く算出することができる、という効果を有する。 One aspect is that the positional information of the object in the image can be calculated with high accuracy.
本実施形態に係る情報処理装置とカメラとの接続を示す概略図である。FIG. 2 is a schematic diagram showing a connection between an information processing device and a camera according to the present embodiment. 2D-BBOXを検出する検出器の機械学習、及び2D-BBOXの検出を説明するための図である。FIG. 3 is a diagram for explaining machine learning of a detector that detects 2D-BBOX and detection of 2D-BBOX. 半教師あり学習を利用した検出器の機械学習を説明するための図である。FIG. 3 is a diagram for explaining machine learning of a detector using semi-supervised learning. 本実施形態に係る情報処理装置の機能ブロック図である。1 is a functional block diagram of an information processing device according to an embodiment. FIG. 2D-BBOXを説明するための図である。FIG. 2 is a diagram for explaining a 2D-BBOX. 対象物の2次元の姿勢情報を説明するための図である。FIG. 3 is a diagram for explaining two-dimensional posture information of a target object. 対象物の3次元の姿勢情報の画像への投影、及び対象物の2次元の姿勢情報の算出を説明するための図である。FIG. 3 is a diagram for explaining projection of three-dimensional posture information of a target object onto an image and calculation of two-dimensional posture information of the target object. 3次元の姿勢情報を投影して2次元の姿勢情報を算出することの効果を説明するための図である。FIG. 7 is a diagram for explaining the effect of calculating two-dimensional posture information by projecting three-dimensional posture information. 疑似ラベルの空間的制限による選択を説明するための図である。FIG. 6 is a diagram for explaining selection of pseudo labels based on spatial restrictions. 疑似ラベルの時間的制限による選択を説明するための図である。FIG. 6 is a diagram for explaining selection of pseudo labels based on time restrictions. 疑似ラベルの評価に基づく選択を説明するための図である。FIG. 3 is a diagram for explaining selection based on evaluation of pseudo labels. 本実施形態に係る情報処理装置として機能するコンピュータの概略構成を示す図である。1 is a diagram showing a schematic configuration of a computer functioning as an information processing device according to the present embodiment. 本実施形態に係る情報処理の一例を示すフローチャートである。3 is a flowchart illustrating an example of information processing according to the present embodiment. 本実施形態に係る情報処理装置による疑似ラベルの生成結果の一例を示す図である。FIG. 3 is a diagram illustrating an example of a pseudo label generation result by the information processing device according to the present embodiment. 本実施形態に係る情報処理装置の、体操競技の採点システムへの適用を説明するための図である。FIG. 2 is a diagram for explaining application of the information processing device according to the present embodiment to a scoring system for gymnastics competitions.
 以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。 Hereinafter, an example of an embodiment according to the disclosed technology will be described with reference to the drawings.
 図1に示すように、本実施形態に係る情報処理装置10は、各々異なる方向からの視点nにおいて対象物(図1の例では、対象物は人物)90を撮影する複数のカメラ30nの各々と接続される。図1の例では、n=0,1,2であり、視点0から撮影するカメラ300、視点1から撮影するカメラ301、及び視点2から撮影するカメラ302が情報処理装置10と接続されている。なお、情報処理装置10に接続されるカメラ30nの数は図1の例に限定されず、2台でもよいし、4台以上でもよい。 As shown in FIG. 1, the information processing apparatus 10 according to the present embodiment includes a plurality of cameras 30n each of which photographs an object (in the example of FIG. 1, the object is a person) 90 at a viewpoint n from a different direction. connected to. In the example of FIG. 1, n=0, 1, and 2, and a camera 300 that takes pictures from viewpoint 0, a camera 301 that takes pictures from viewpoint 1, and a camera 302 that takes pictures from viewpoint 2 are connected to the information processing device 10. . Note that the number of cameras 30n connected to the information processing device 10 is not limited to the example in FIG. 1, and may be two or four or more.
 カメラ30nは、対象物90が撮影範囲に収まる角度及び位置に設置される。カメラ30nで撮影された映像は順次、情報処理装置10へ入力される。なお、各カメラ30nには同期信号が送られ、各カメラ30nで撮影された映像の同期がとられる。 The camera 30n is installed at an angle and position where the object 90 falls within the photographing range. Images captured by the camera 30n are sequentially input to the information processing device 10. Note that a synchronization signal is sent to each camera 30n, and the images taken by each camera 30n are synchronized.
 情報処理装置10は、複数の異なる視点から撮影された複数の画像(以下、「多視点画像」という)の各々から検出される対象物90の2次元位置情報に基づいて、精巧化された対象物90の2次元位置情報を算出する。 The information processing device 10 generates a refined object based on two-dimensional position information of the object 90 detected from each of a plurality of images taken from a plurality of different viewpoints (hereinafter referred to as "multi-view images"). Two-dimensional position information of the object 90 is calculated.
 ここで、各画像から対象物90を検出するためには、ニューラルネットワーク等の機械学習モデルである検出器が用いられる。この検出器は、例えば、図2上図に示すように、対象物90の2次元位置情報を示す正解ラベル付きの画像を大量に用いた機械学習により生成される。図2の例では、対象物90(図2の例では、体操選手)を囲む2次元のバウンディングボックス(以下、「2D-BBOX」という)の左上の点の座標[x,y]及び右下の点の座標[x,y]を正解ラベルとしている。このような正解ラベル付きの画像を用いて機械学習が実行された検出器に対して、図2下図に示すように、ラベルなしの画像を入力することで、その画像から対象物90の位置を示す2D-BBOXが検出される。 Here, in order to detect the target object 90 from each image, a detector that is a machine learning model such as a neural network is used. For example, as shown in the upper diagram of FIG. 2, this detector is generated by machine learning using a large amount of images with correct labels indicating two-dimensional position information of the target object 90. In the example of FIG. 2, the coordinates [x 1 , y 1 ] and The coordinates [x 2 , y 2 ] of the lower right point are used as the correct label. As shown in the lower part of FIG. 2, by inputting an unlabeled image to a detector that has undergone machine learning using images with correct labels, the position of the object 90 can be determined from that image. The 2D-BBOX shown is detected.
 上述したように、検出器の機械学習を実行するために大量の正解付き画像を用意することは、膨大な作業コストを要する。そこで、図3に示すような半教師あり学習を利用して、検出器の機械学習を実行することが考えられる。具体的には、半教師あり学習では、正解ラベル付き画像で機械学習(図3中の「機械学習1」)が実行された検出器にラベルなし画像を入力して得られる検出結果を疑似ラベルとして生成する。そして、生成した疑似ラベルを基の画像に付与した疑似ラベル付き画像で検出器の機械学習(図3中の「機械学習2」)を実行する。これにより、大量の疑似ラベル付き画像を機械学習に利用することができ、正解付き画像が少ない場合でも検出器の機械学習を実行することができる。 As mentioned above, preparing a large number of images with correct answers in order to perform machine learning on the detector requires a huge amount of work cost. Therefore, it is conceivable to perform machine learning of the detector using semi-supervised learning as shown in FIG. Specifically, in semi-supervised learning, an unlabeled image is input to a detector that has undergone machine learning (“machine learning 1” in Figure 3) on an image with a correct answer label. Generate as. Machine learning of the detector ("machine learning 2" in FIG. 3) is then performed on the pseudo-labeled image in which the generated pseudo-label is added to the original image. As a result, a large amount of pseudo-labeled images can be used for machine learning, and machine learning of the detector can be performed even when there are few images with correct answers.
 しかし、単一の画像の検出結果を疑似ラベルとする場合、偽陽性及び偽陰性となる疑似ラベルを減らすことは困難である。また、偽陽性及び偽陰性ではない疑似ラベルであっても、位置のバイアスの問題が生じている場合もある。位置のバイアスとは、画像上の対象物90の実際の領域に対して、疑似ラベルが示す領域の位置がシフトしている、領域のサイズが大きい、小さい等のずれが生じていることである。さらに、特に、対象物90が体操選手のように、多様な姿勢を取り得る場合、あらゆる姿勢に関してバランスの取れた疑似ラベルを生成することは困難である。例えば、体操選手の演技中の姿勢を検出した検出結果から生成された疑似ラベルに対して、単に立っているだけの姿勢を検出した検出結果から生成された疑似ラベルの数が多過ぎる場合などである。この場合、体操選手の姿勢の多様性に応じたバランスの取れた疑似ラベルが生成されているとはいえない。 However, when the detection result of a single image is used as a false label, it is difficult to reduce the number of false labels that are false positives and false negatives. Further, even pseudo labels that are not false positives or false negatives may have a positional bias problem. Position bias refers to a deviation in the position of the area indicated by the pseudo label from the actual area of the object 90 on the image, such as a shift in the position, or a deviation in the size of the area, such as being larger or smaller. . Furthermore, especially when the object 90 can take various postures, such as a gymnast, it is difficult to generate balanced pseudo-labels for all postures. For example, when there are too many pseudo labels generated from detection results that detect a gymnast's posture while performing, there may be too many pseudo labels generated from detection results that detect a gymnast's posture while she is simply standing. be. In this case, it cannot be said that balanced pseudo-labels are generated according to the variety of postures of gymnasts.
 また、多視点画像を用いて、多視点画像に含まれる画像間の対応関係に基づいて、生成された疑似ラベルのうち、信頼度の高い疑似ラベルを選択することも考えられる。しかし、この場合、検出されている2D-BBOXから疑似ラベルを選択するため、偽陽性の疑似ラベルを減らすことはできるが、偽陰性の疑似ラベルを減らすことはできない。また、上述した位置のバイアスの問題、及び対象物90の姿勢の多様性に応じたバランスの取れた疑似ラベルが生成できない問題も残存する。 It is also conceivable to use multi-view images to select pseudo-labels with high reliability from among the generated pseudo-labels based on the correspondence between images included in the multi-view images. However, in this case, since false labels are selected from the detected 2D-BBOX, false positive false labels can be reduced, but false negative false labels cannot be reduced. Furthermore, the problem of the positional bias described above and the problem of not being able to generate a balanced pseudo label according to the diversity of postures of the object 90 remain.
 そこで、本実施形態では、偽陽性及び偽陰性の疑似ラベルを削減することができるように、画像内の対象物90の2次元位置情報を精度良く算出する。また、本実施形態では、対象物90の実際の領域に対する位置のバイアスが修正された疑似ラベルを生成する。さらに、本実施形態では、対象物90の姿勢の多様性に応じたバランスの取れた疑似ラベルを生成する。以下、本実施形態に係る情報処理装置10について、詳細に説明する。 Therefore, in this embodiment, the two-dimensional position information of the target object 90 in the image is calculated with high accuracy so that false positive and false negative false labels can be reduced. Furthermore, in this embodiment, a pseudo label is generated in which the bias of the position of the object 90 with respect to the actual area is corrected. Furthermore, in this embodiment, a well-balanced pseudo label corresponding to the diversity of postures of the object 90 is generated. The information processing device 10 according to this embodiment will be described in detail below.
 図4に示すように、情報処理装置10は、機能的には、取得部11と、推定部12と、生成部13と、選択部14と、機械学習部15とを含む。また、情報処理装置10の所定の記憶領域には、検出器22と、カメラパラメータDB(database)24とが記憶される。検出器22は、正解付き画像を訓練データとする機械学習により生成された、画像から対象物90の領域を示す2D-BBOXを検出するための機械学習モデルである。カメラパラメータDB24には、各カメラ30nの内部パラメータ及び外部パラメータが記憶されている。なお、生成部13は、開示の技術の「算出部」の一例である。 As shown in FIG. 4, the information processing device 10 functionally includes an acquisition section 11, an estimation section 12, a generation section 13, a selection section 14, and a machine learning section 15. Further, a detector 22 and a camera parameter database (DB) 24 are stored in a predetermined storage area of the information processing device 10. The detector 22 is a machine learning model for detecting a 2D-BBOX indicating the area of the target object 90 from an image, which is generated by machine learning using images with correct answers as training data. The camera parameter DB 24 stores internal parameters and external parameters of each camera 30n. Note that the generation unit 13 is an example of a “calculation unit” of the disclosed technology.
 取得部11は、複数のカメラ30nで撮影された時系列の多視点画像を取得する。 The acquisition unit 11 acquires time-series multi-view images captured by a plurality of cameras 30n.
 推定部12は、多視点画像に含まれる各画像から検出された対象物90の領域を示す2D-BBOXと、各画像を撮影した各カメラのカメラパラメータとに基づいて、対象物90の3次元位置情報を推定する。 The estimation unit 12 estimates the three-dimensional shape of the object 90 based on the 2D-BBOX indicating the area of the object 90 detected from each image included in the multi-view image and the camera parameters of each camera that captured each image. Estimate location information.
 具体的には、推定部12は、図5に示すように、カメラ30nで撮影された画像40nから、検出器22を用いて、対象物90の領域を示す2D-BBOX42nを検出する。そして、推定部12は、検出した2D-BBOX42nから対象物90である人物の1以上の部位を認識するために予め機械学習により生成された認識モデル(図示省略)を用いて、対象物90の各部位の2次元位置情報を推定する。例えば、図6に示すように、認識モデルにより、対象物90である人物の各関節等の位置(図6中の黒丸)が認識される場合、推定部12は、その各関節等の位置の座標値を、対象物90の2次元位置情報として推定する。以下では、対象物90の関節等の各部位の2次元位置情報の一群を2次元の姿勢情報という。 Specifically, as shown in FIG. 5, the estimation unit 12 uses the detector 22 to detect a 2D-BBOX 42n indicating the area of the target object 90 from the image 40n taken by the camera 30n. Then, the estimation unit 12 uses a recognition model (not shown) generated in advance by machine learning to recognize one or more parts of the person, which is the object 90, from the detected 2D-BBOX 42n. Estimate the two-dimensional position information of each part. For example, as shown in FIG. 6, when the recognition model recognizes the position of each joint, etc. of a person (object 90) (black circles in FIG. 6), the estimation unit 12 calculates the position of each joint, etc. The coordinate values are estimated as two-dimensional position information of the object 90. Hereinafter, a group of two-dimensional position information of each part such as a joint of the object 90 will be referred to as two-dimensional posture information.
 また、推定部12は、カメラパラメータDB24に記憶されたカメラ30nのカメラパラメータと、推定した対象物90の2次元の姿勢情報とを用いて、三角測量により、対象物90の各部位の3次元位置情報を推定する。以下では、対象物90の関節等の各部位の3次元位置情報の一群を3次元の姿勢情報という。認識モデルにより、対象物90である1人の人物につきn個の関節等の部位が認識される場合、3次元の姿勢情報を{[P ,P ,P ],[P ,P ,P ],・・・,[P ,P ,P ]}と表記する。 Furthermore, the estimation unit 12 uses the camera parameters of the camera 30n stored in the camera parameter DB 24 and the estimated two-dimensional posture information of the object 90 to determine the three-dimensional shape of each part of the object 90 by triangulation. Estimate location information. Hereinafter, a group of three-dimensional position information of each part of the object 90, such as joints, will be referred to as three-dimensional posture information. When the recognition model recognizes n parts such as joints for one person, which is the object 90, the three-dimensional posture information is expressed as {[P X 1 , P Y 1 , P Z 1 ], [P X 2 , P Y 2 , P Z 2 ], ..., [P X n , P Y n , P Z n ]}.
 生成部13は、図7のAに示すように、多視点画像に含まれる画像40nを撮影したカメラ30nのカメラパラメータに基づいて、対象物90の3次元の姿勢情報を画像40nに投影し、画像40nにおける、精巧化した対象物90の2次元の姿勢情報を算出する。具体的には、3次元の姿勢情報{[P ,P ,P ],[P ,P ,P ],・・・,[P ,P ,P ]}に対応する2次元の姿勢情報を{[p ,p ],[p ,p ],・・・,[p ,p ]}とする。この場合、生成部13は、下記(1)式により、2次元の姿勢情報を算出する。なお、(1)式において、Hは、カメラ30nのカメラパラメータから決定される、3次元から2次元へ射影行列である。 As shown in A of FIG. 7, the generation unit 13 projects three-dimensional posture information of the object 90 onto the image 40n based on the camera parameters of the camera 30n that captured the image 40n included in the multi-view image, Two-dimensional posture information of the refined object 90 in the image 40n is calculated. Specifically, three-dimensional posture information {[P X 1 , PY 1 , P Z 1 ], [P X 2 , PY 2 , P Z 2 ], ..., [ P n , P Z n ]}, the two-dimensional posture information corresponding to {[p x 1 , p y 1 ], [p x 2 , p y 2 ], ..., [p x n , p y n ] }. In this case, the generation unit 13 calculates two-dimensional posture information using equation (1) below. Note that in equation (1), H is a three-dimensional to two-dimensional projection matrix determined from the camera parameters of the camera 30n.
 生成部13は、図7のBに示すように、算出した2次元の姿勢情報に基づいて、対象物90の領域を示す疑似ラベル44nを生成する。具体的には、生成部13は、下記(2)式に示すように、2次元の姿勢情報に含まれる各点の2次元座標の最大値及び最小値を用いて、疑似ラベル44nの左上の点の座標[x,y]、及び右下の点の座標[x,y]を算出する。 As shown in FIG. 7B, the generation unit 13 generates a pseudo label 44n indicating the area of the target object 90 based on the calculated two-dimensional posture information. Specifically, as shown in equation (2) below, the generation unit 13 uses the maximum and minimum values of the two-dimensional coordinates of each point included in the two-dimensional posture information to generate the upper left corner of the pseudo label 44n. The coordinates of the point [x 1 , y 1 ] and the coordinates of the lower right point [x 2 , y 2 ] are calculated.
 なお、(2)式内のw及びhは、算出された2次元の姿勢情報が示す対象物90の外接矩形の幅及び高さである。座標[x,y]及び[x,y]の算出において、幅w又は高さhに定数α(例えば、α=0.05)を乗算した値を減算又は加算することで、w×hの外接矩形に所定のマージンを持たせた領域を疑似ラベル44nの範囲として算出しているものである。なお、マージンは、幅w又は高さhに定数αを乗算した値に限定されない。予め定めた所定画素分(例えば、5画素分)をマージンとして、w×hの範囲の上下及び左右方向に付加した範囲を疑似ラベル44nの範囲としてもよい。 Note that w and h in equation (2) are the width and height of the circumscribed rectangle of the object 90 indicated by the calculated two-dimensional posture information. In calculating the coordinates [x 1 , y 1 ] and [x 2 , y 2 ], by subtracting or adding the value obtained by multiplying the width w or height h by a constant α (for example, α = 0.05), An area obtained by adding a predetermined margin to a w×h circumscribed rectangle is calculated as the range of the pseudo label 44n. Note that the margin is not limited to the value obtained by multiplying the width w or the height h by the constant α. The range of the pseudo label 44n may be a range added in the vertical and horizontal directions of the w×h range, with a predetermined pixel (for example, 5 pixels) as a margin.
 このように、各画像40nの2次元の姿勢情報から3次元の姿勢情報を推定し、その3次元の姿勢情報を各画像40nに再投影して、精巧化された2次元の姿勢情報を算出することで、疑似ラベルの生成精度を向上させることができる。例えば、図8に示すように、多視点画像に画像400、401、及び402が含まれ、推定部12において、画像400及び401からは2D-BBOX420及び421が検出され、画像402からは2D-BBOX422が検出されていないとする。この場合でも、生成部13は、3次元の姿勢情報を画像402に再投影して、画像402から疑似ラベル442を生成することができる。すなわち、偽陰性の疑似ラベルを削減することができる。 In this way, three-dimensional posture information is estimated from the two-dimensional posture information of each image 40n, and the three-dimensional posture information is reprojected onto each image 40n to calculate refined two-dimensional posture information. By doing so, it is possible to improve the generation accuracy of pseudo labels. For example, as shown in FIG. 8, the multi-view image includes images 400, 401, and 402, and the estimation unit 12 detects 2D-BBOX 420 and 421 from images 400 and 401, and from image 402, 2D-BBOX 420 and 421 are detected from image 402. Assume that BBOX 422 is not detected. Even in this case, the generation unit 13 can generate the pseudo label 442 from the image 402 by reprojecting the three-dimensional posture information onto the image 402. That is, false negative false labels can be reduced.
 また、生成部13は、画像400及び401に対しても3次元の姿勢情報を再投影して疑似ラベル440及び441を生成することで、2D-BBOX420及び421に生じている位置のバイアスを修正することができる。 In addition, the generation unit 13 corrects the positional bias occurring in the 2D-BBOXs 420 and 421 by reprojecting the three-dimensional posture information on the images 400 and 401 and generating pseudo labels 440 and 441. can do.
 選択部14は、生成部13で生成された疑似ラベル44nから、検出器22の機械学習に用いる疑似ラベルを空間的制限及び時間的制限に基づいて選択する。 The selection unit 14 selects a pseudo label to be used for machine learning of the detector 22 from the pseudo labels 44n generated by the generation unit 13 based on spatial and temporal restrictions.
 具体的には、選択部14は、疑似ラベル44nを生成する際の投影元である3次元の姿勢情報が示す対象物90の3次元空間における位置(以下、「3次元位置」という)が予め定めた範囲に含まれる場合に、その疑似ラベル44nを選択する。例えば、対象物90が体操選手の場合、予め定めた範囲は、競技種目に応じた競技エリアとしてよい。より具体的には、器具を使う種目の場合、その器具を含む所定範囲、種目が床の場合、規定された演技範囲を含む所定範囲を競技エリアとして定めておけばよい。 Specifically, the selection unit 14 selects in advance the position of the object 90 in the three-dimensional space (hereinafter referred to as "three-dimensional position") indicated by the three-dimensional posture information that is the projection source when generating the pseudo label 44n. If it is included in the predetermined range, that pseudo label 44n is selected. For example, if the target object 90 is a gymnast, the predetermined range may be a competition area depending on the competition event. More specifically, in the case of an event that uses equipment, a predetermined range including the equipment may be defined as the competition area, and if the event is on the floor, a predetermined range including the prescribed performance range may be defined as the competition area.
 例えば、図9に示すように、画像400から生成された疑似ラベル440A、及び画像401から生成された疑似ラベル441Aの投影元の3次元位置46Aが競技エリア内であるとする。この場合、選択部14は、疑似ラベル440A、441Aを機械学習に用いる疑似ラベル44nとして選択する。一方、画像400から生成された疑似ラベル440B、及び画像401から生成された疑似ラベル441Bの投影元の3次元位置46Bが競技エリア外であるとする。この場合、選択部14は、疑似ラベル440B、441Bを機械学習に用いる疑似ラベル44nから除外する。これにより、選手以外の補助者、審判員等が誤って検出されている場合などに、それらの人物について生成された疑似ラベル44nを除外することができる。 For example, as shown in FIG. 9, it is assumed that the three-dimensional position 46A from which the pseudo label 440A generated from the image 400 and the pseudo label 441A generated from the image 401 are projected is within the competition area. In this case, the selection unit 14 selects the pseudo labels 440A and 441A as the pseudo labels 44n used for machine learning. On the other hand, it is assumed that the three-dimensional position 46B from which the pseudo label 440B generated from the image 400 and the pseudo label 441B generated from the image 401 are projected is outside the competition area. In this case, the selection unit 14 excludes the pseudo labels 440B and 441B from the pseudo labels 44n used for machine learning. As a result, in the case where an assistant other than a player, a referee, etc. is erroneously detected, it is possible to exclude the pseudo labels 44n generated for those persons.
 また、選択部14は、疑似ラベル44nが生成された画像の撮影時刻が予め定めた時間範囲に含まれる場合に、その疑似ラベル44nを機械学習に用いる疑似ラベル44nとして選択する。例えば、対象物90が体操選手の場合、予め定めた時間範囲は、演技の開始から終了までに対応した時間範囲としてよい。 Furthermore, when the photographing time of the image for which the pseudo label 44n has been generated is included in a predetermined time range, the selection unit 14 selects the pseudo label 44n as the pseudo label 44n to be used for machine learning. For example, if the object 90 is a gymnast, the predetermined time range may be a time range corresponding to the time from the start to the end of the performance.
 より具体的には、選択部14は、図10に示すように、一連の時系列の多視点画像の各フレームから、演技の開始に対応する開始フレーム、及び演技の終了に対応する終了フレームを特定する。器具を使う種目の場合、選択部14は、一例として、選手が競技エリアに入って、最初に足が床面から離れた瞬間の所定フレーム前のフレームを開始フレームとして特定する。また、選択部14は、選手が競技エリアから出る所定フレーム前のフレームを終了フレームとして特定する。そして、選択部14は、開始フレームから終了フレームまでを対象時間とし、対象時間に含まれるフレーム(画像40n)から生成された疑似ラベル44nを選択する。一方、選択部14は、対象時間以外の対象外のフレームから生成された疑似ラベル44nを除外する。これにより、演技開始前等に単に立っているだけの選手の姿勢に基づく疑似ラベル44nを除外することができ、選手の姿勢の多様性に応じたバランスの取れた疑似ラベル44nを選択することができる。 More specifically, as shown in FIG. 10, the selection unit 14 selects a start frame corresponding to the start of the performance and an end frame corresponding to the end of the performance from each frame of a series of time-series multi-view images. Identify. In the case of an event that uses equipment, for example, the selection unit 14 specifies, as the start frame, a frame that is a predetermined frame before the moment when the athlete enters the competition area and his or her feet first leave the floor. Furthermore, the selection unit 14 specifies a frame that is a predetermined frame before the player leaves the competition area as the end frame. Then, the selection unit 14 selects a pseudo label 44n generated from a frame (image 40n) included in the target time, with the target time being from the start frame to the end frame. On the other hand, the selection unit 14 excludes pseudo labels 44n generated from non-target frames outside the target time. As a result, it is possible to exclude pseudo labels 44n based on the posture of the athlete who is simply standing before the start of a performance, and it is possible to select a well-balanced pseudo label 44n that corresponds to the variety of postures of the athlete. can.
 また、選択部14は、生成された疑似ラベル44nの品質を評価し、評価結果が基準を満たす場合に、検出器22の機械学習に用いる疑似ラベル44nとして選択する。具体的には、選択部14は、推定部12で検出器22を用いて検出された2D-BBOX42nと、その2D-BBOX42nに基づいて生成部13で生成された疑似ラベル44nとの重複度を算出する。重複度は、例えば、重複部分の面積/疑似ラベル44nの面積としてよい。選択部14は、図11に示すように、重複度が所定の閾値以上となる疑似ラベル44nを選択し、閾値未満の疑似ラベル44nを除外する。 Furthermore, the selection unit 14 evaluates the quality of the generated pseudo label 44n, and selects it as the pseudo label 44n to be used for machine learning of the detector 22 if the evaluation result satisfies the criteria. Specifically, the selection unit 14 determines the degree of overlap between the 2D-BBOX 42n detected by the estimation unit 12 using the detector 22 and the pseudo label 44n generated by the generation unit 13 based on the 2D-BBOX 42n. calculate. The degree of overlap may be, for example, the area of the overlapped portion/the area of the pseudo label 44n. As shown in FIG. 11, the selection unit 14 selects pseudo labels 44n whose degree of overlap is greater than or equal to a predetermined threshold, and excludes pseudo labels 44n whose degree of overlap is less than the threshold.
 また、選択部14は、重複度が閾値未満の疑似ラベル44nをユーザに提示し、ユーザによる採否の判断を受け付けて、ユーザにより採用された疑似ラベル44nを、検出器22の機械学習に用いる疑似ラベル44nとして選択するようにしてもよい。これにより、生成された疑似ラベル44nの採否の判断を全てユーザが行う場合に比べ、基準を満たさない疑似ラベル44nについてのみユーザに判断させるため、ユーザの負荷を軽減することができる。 Further, the selection unit 14 presents the pseudo labels 44n whose degree of overlap is less than the threshold value to the user, accepts the user's decision to accept or reject the pseudo labels 44n, and uses the pseudo labels 44n adopted by the user as pseudo labels 44n for use in machine learning of the detector 22. It may be selected as the label 44n. As a result, compared to the case where the user makes all the decisions regarding whether or not to accept the generated pseudo labels 44n, the user is made to make a decision only about the pseudo labels 44n that do not meet the criteria, so the burden on the user can be reduced.
 機械学習部15は、選択部14で選択された疑似ラベル44nを画像40nに付加した疑似ラベル付き画像と、正解付き画像とを訓練データとして用いて、検出器22の機械学習を実行する。機械学習部15は、取得部11、推定部12、生成部13、及び選択部14の処理を繰り返し実行させ、得られた疑似ラベル44nを用いて、検出器22の機械学習を繰り返し実行する。処理を繰り返すことで、疑似ラベル付き画像の数が増加するため、検出器22による2D-BBOX42nの検出精度が向上し、疑似ラベル44nの生成精度も向上する。さらに、繰り返し処理の中で、選択部14により品質の評価結果が基準を満たす疑似ラベル44nのみを用いることで、検出器22による2D-BBOX42nの検出精度がより向上する。 The machine learning unit 15 executes machine learning of the detector 22 using the pseudo-labeled image obtained by adding the pseudo label 44n selected by the selection unit 14 to the image 40n and the correct-answered image as training data. The machine learning unit 15 causes the acquisition unit 11, the estimation unit 12, the generation unit 13, and the selection unit 14 to repeatedly execute the processing, and repeatedly executes machine learning of the detector 22 using the obtained pseudo label 44n. By repeating the process, the number of images with pseudo labels increases, so the detection accuracy of the 2D-BBOX 42n by the detector 22 improves, and the generation accuracy of the pseudo labels 44n also improves. Further, in the repeated processing, the selection unit 14 uses only the pseudo labels 44n whose quality evaluation results meet the standards, thereby further improving the detection accuracy of the 2D-BBOX 42n by the detector 22.
 情報処理装置10は、例えば、図12に示すコンピュータ50で実現されてよい。コンピュータ50は、CPU(Central Processing Unit)51と、一時記憶領域としてのメモリ52と、不揮発性の記憶装置53とを備える。また、コンピュータ50は、入力装置、表示装置等の入出力装置54と、記憶媒体59に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)装置55とを備える。また、コンピュータ50は、インターネット等のネットワークに接続される通信I/F(Interface)56を備える。CPU51、メモリ52、記憶装置53、入出力装置54、R/W装置55、及び通信I/F56は、バス57を介して互いに接続される。 The information processing device 10 may be realized, for example, by a computer 50 shown in FIG. 12. The computer 50 includes a CPU (Central Processing Unit) 51, a memory 52 as a temporary storage area, and a nonvolatile storage device 53. The computer 50 also includes an input/output device 54 such as an input device and a display device, and an R/W (Read/Write) device 55 that controls reading and writing of data to and from a storage medium 59. The computer 50 also includes a communication I/F (Interface) 56 connected to a network such as the Internet. The CPU 51, memory 52, storage device 53, input/output device 54, R/W device 55, and communication I/F 56 are connected to each other via a bus 57.
 記憶装置53は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等である。記憶媒体としての記憶装置53には、コンピュータ50を、情報処理装置10として機能させるための情報処理プログラム60が記憶される。情報処理プログラム60は、取得プロセス制御命令61と、推定プロセス制御命令62と、生成プロセス制御命令63と、選択プロセス制御命令64と、機械学習プロセス制御命令65とを有する。また、記憶装置53は、検出器22及びカメラパラメータDB24を構成する情報が記憶される情報記憶領域70を有する。 The storage device 53 is, for example, an HDD (Hard Disk Drive), an SSD (Solid State Drive), a flash memory, or the like. An information processing program 60 for causing the computer 50 to function as the information processing device 10 is stored in the storage device 53 as a storage medium. The information processing program 60 includes an acquisition process control instruction 61 , an estimation process control instruction 62 , a generation process control instruction 63 , a selection process control instruction 64 , and a machine learning process control instruction 65 . Furthermore, the storage device 53 has an information storage area 70 in which information constituting the detector 22 and camera parameter DB 24 is stored.
 CPU51は、情報処理プログラム60を記憶装置53から読み出してメモリ52に展開し、情報処理プログラム60が有する制御命令を順次実行する。CPU51は、取得プロセス制御命令61を実行することで、図4に示す取得部11として動作する。また、CPU51は、推定プロセス制御命令62を実行することで、図4に示す推定部12として動作する。また、CPU51は、生成プロセス制御命令63を実行することで、図4に示す生成部13として動作する。また、CPU51は、選択プロセス制御命令64を実行することで、図4に示す選択部14として動作する。また、CPU51は、機械学習プロセス制御命令65を実行することで、図4に示す機械学習部15として動作する。また、CPU51は、情報記憶領域70から情報を読み出して、検出器22及びカメラパラメータDB24をメモリ52に展開する。これにより、情報処理プログラム60を実行したコンピュータ50が、情報処理装置10として機能することになる。なお、プログラムを実行するCPU51はハードウェアである。 The CPU 51 reads the information processing program 60 from the storage device 53, expands it onto the memory 52, and sequentially executes control commands included in the information processing program 60. The CPU 51 operates as the acquisition unit 11 shown in FIG. 4 by executing the acquisition process control instruction 61. Further, the CPU 51 operates as the estimation unit 12 shown in FIG. 4 by executing the estimation process control instruction 62. Further, the CPU 51 operates as the generation unit 13 shown in FIG. 4 by executing the generation process control instruction 63. Further, the CPU 51 operates as the selection unit 14 shown in FIG. 4 by executing the selection process control instruction 64. Further, the CPU 51 operates as the machine learning section 15 shown in FIG. 4 by executing the machine learning process control instruction 65. Further, the CPU 51 reads information from the information storage area 70 and develops the detector 22 and camera parameter DB 24 in the memory 52. Thereby, the computer 50 that has executed the information processing program 60 functions as the information processing device 10. Note that the CPU 51 that executes the program is hardware.
 なお、情報処理プログラム60により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等で実現されてもよい。 Note that the functions realized by the information processing program 60 may be realized by, for example, a semiconductor integrated circuit, more specifically, an ASIC (Application Specific Integrated Circuit), an FPGA (Field-Programmable Gate Array), or the like.
 次に、本実施形態に係る情報処理装置10の動作について説明する。情報処理装置10に時系列の多視点画像が入力され、検出器22の機械学習の実行が指示されると、情報処理装置10において、図13に示す情報処理が実行される。なお、情報処理は、開示の技術の情報処理方法の一例である。 Next, the operation of the information processing device 10 according to this embodiment will be explained. When time-series multi-view images are input to the information processing device 10 and the detector 22 is instructed to perform machine learning, the information processing device 10 executes the information processing shown in FIG. 13. Note that the information processing is an example of an information processing method of the disclosed technology.
 ステップS11で、取得部11が、時系列の多視点画像を複数取得する。次に、ステップS12で、推定部12が、多視点画像に含まれる各画像40nから、検出器22を用いて、対象物90の領域を示す2D-BBOX42nを検出する。そして、推定部12が、検出した2D-BBOX42nから、認識モデルを用いて、対象物90の2次元の姿勢情報を推定する。次に、ステップS13で、推定部12が、カメラパラメータDB24に記憶されたカメラ30nのカメラパラメータと、推定した対象物90の2次元の姿勢情報とを用いて、三角測量により、対象物90の3次元の姿勢情報を推定する。 In step S11, the acquisition unit 11 acquires a plurality of time-series multi-view images. Next, in step S12, the estimation unit 12 uses the detector 22 to detect the 2D-BBOX 42n indicating the area of the target object 90 from each image 40n included in the multi-view image. Then, the estimation unit 12 estimates two-dimensional posture information of the object 90 from the detected 2D-BBOX 42n using the recognition model. Next, in step S13, the estimating unit 12 uses the camera parameters of the camera 30n stored in the camera parameter DB 24 and the estimated two-dimensional posture information of the object 90 to determine the shape of the object 90 by triangulation. Estimate three-dimensional posture information.
 次に、ステップS14で、生成部13が、各画像40nを撮影したカメラ30nのカメラパラメータに基づいて、対象物90の3次元の姿勢情報を各画像40nに投影し、各画像40nにおける、精巧化した対象物90の2次元の姿勢情報を算出する。そして、生成部13が、算出した2次元の姿勢情報に基づいて、疑似ラベル44nを生成する。 Next, in step S14, the generation unit 13 projects the three-dimensional posture information of the object 90 onto each image 40n based on the camera parameters of the camera 30n that captured each image 40n, and Two-dimensional posture information of the object 90 is calculated. Then, the generation unit 13 generates a pseudo label 44n based on the calculated two-dimensional posture information.
 次に、ステップS15で、選択部14が、上記ステップS14で生成された疑似ラベル44nから、検出器22の機械学習に用いる疑似ラベルを時空間的な制限に基づいて選択する。具体的には、選択部14が、疑似ラベル44nを生成する際の投影元である3次元の姿勢情報が示す対象物90の3次元位置が予め定めた範囲に含まれる場合に、その疑似ラベル44nを選択する。また、選択部14が、疑似ラベル44nが生成された画像の撮影時刻が予め定めた時間範囲に含まれる場合に、その疑似ラベル44nを選択する。 Next, in step S15, the selection unit 14 selects a pseudo label to be used for machine learning of the detector 22 from the pseudo labels 44n generated in step S14, based on spatiotemporal restrictions. Specifically, when the three-dimensional position of the object 90 indicated by the three-dimensional posture information that is the projection source when generating the pseudo label 44n is included in a predetermined range, the selection unit 14 selects the pseudo label 44n. Select 44n. Further, the selection unit 14 selects the pseudo label 44n when the photographing time of the image for which the pseudo label 44n has been generated is included in a predetermined time range.
 次に、ステップS16で、選択部14が、上記ステップS15で選択された疑似ラベル44nの品質を評価し、評価結果が基準を満たす場合に、検出器22の機械学習に用いる疑似ラベル44nとして選択する。次に、ステップS17で、機械学習部15が、上記ステップS16で選択された疑似ラベル44nを画像40nに付加した疑似ラベル付き画像と、正解付き画像とを訓練データとして用いて、検出器22の機械学習を実行する。 Next, in step S16, the selection unit 14 evaluates the quality of the pseudo label 44n selected in step S15, and if the evaluation result satisfies the criteria, selects it as the pseudo label 44n to be used for machine learning of the detector 22. do. Next, in step S17, the machine learning unit 15 uses the pseudo labeled image obtained by adding the pseudo label 44n selected in step S16 above to the image 40n and the correct answer image as training data to train the detector 22. Run machine learning.
 次に、ステップS18で、機械学習部15が、検出器22の機械学習の終了条件を満たすか否かを判定する。例えば、機械学習部15は、繰り返し回数が所定回数に到達した場合、検出器22の検出精度が所定値となった場合、検出器22の検出精度が収束した場合等に、終了条件を満たすと判定する。終了条件を満たさない場合には、ステップS11に戻り、終了条件を満たす場合には、情報処理は終了する。 Next, in step S18, the machine learning unit 15 determines whether the end condition of the machine learning of the detector 22 is satisfied. For example, when the number of repetitions reaches a predetermined number, when the detection accuracy of the detector 22 reaches a predetermined value, when the detection accuracy of the detector 22 converges, etc., the machine learning unit 15 determines that the termination condition is satisfied. judge. If the termination condition is not satisfied, the process returns to step S11, and if the termination condition is satisfied, the information processing is terminated.
 以上説明したように、本実施形態に係る情報処理装置は、多視点画像に含まれる各画像から検出された対象物の2次元位置情報と、カメラパラメータとに基づいて、対象物の3次元位置情報を推定する。そして、情報処理装置は、カメラパラメータに基づいて、対象物の3次元位置情報を各画像に投影し、精巧化された対象物の2次元位置情報を算出する。これにより、画像内の対象物の位置情報を精度良く算出することができる。また、この2次元位置情報に基づいて疑似ラベルを生成することで、疑似ラベルの偽陰性を削減し、また、疑似ラベルの位置のバイアスを修正することができる。 As described above, the information processing apparatus according to the present embodiment determines the three-dimensional position of the object based on the two-dimensional position information of the object detected from each image included in the multi-view image and the camera parameters. Estimate information. Then, the information processing device projects the three-dimensional position information of the object onto each image based on the camera parameters, and calculates refined two-dimensional position information of the object. Thereby, the positional information of the object in the image can be calculated with high accuracy. Furthermore, by generating a pseudo label based on this two-dimensional position information, it is possible to reduce false negatives of the pseudo label and correct the bias in the position of the pseudo label.
 さらに、本実施形態に係る情報処理装置は、時空間的な制限に基づいて、生成された疑似ラベルから、検出器の機械学習に用いる疑似ラベルを選択することで、対象物の姿勢の多様性に応じたバランスの取れた疑似ラベルを生成することができる。 Furthermore, the information processing device according to the present embodiment selects a pseudo label to be used for machine learning of a detector from generated pseudo labels based on spatio-temporal restrictions, thereby reducing the diversity of poses of the target object. It is possible to generate well-balanced pseudo-labels according to the
 ここで、図14に、本実施形態に係る情報処理装置による疑似ラベルの生成結果の一例を示す。図14における左3つの図は、本実施形態における半教師あり学習を適用する前の検出器により2D-BBOXを検出する手法(以下、「比較手法」という)による検出結果の一例を概略的に示す図である。また、図14における右3つの図は、本実施形態における半教師あり学習を適用した検出器により2D-BBOXを検出する手法(以下、「本手法」という)による検出結果の一例を概略的に示す図である。 Here, FIG. 14 shows an example of a pseudo label generation result by the information processing device according to the present embodiment. The left three diagrams in FIG. 14 schematically show an example of the detection results obtained by the method of detecting 2D-BBOX using the detector before applying semi-supervised learning in this embodiment (hereinafter referred to as the "comparison method"). FIG. In addition, the three diagrams on the right in FIG. 14 schematically show an example of detection results obtained by a method of detecting 2D-BBOX using a detector applying semi-supervised learning in this embodiment (hereinafter referred to as "this method"). FIG.
 図14の上段の図に示すように、比較手法では不正確であった2D-BBOXが、本手法では改善されることが分かる。また、図14の中段の図に示すように、比較手法では欠落していた2D-BBOXが、本手法では検出されることが分かる。また、図14の下段の図に示すように、比較手法では、本来の対象物である選手以外の人物を示す2D-BBOXが誤検出されているが、本手法では誤検出が解消されていることが分かる。 As shown in the upper diagram of FIG. 14, it can be seen that the 2D-BBOX, which was inaccurate in the comparison method, is improved by the present method. Furthermore, as shown in the middle diagram of FIG. 14, it can be seen that the 2D-BBOX, which was missing in the comparison method, is detected in the present method. Additionally, as shown in the bottom diagram of Figure 14, the comparison method incorrectly detected a 2D-BBOX indicating a person other than the player, which is the original target, but this method eliminates the incorrect detection. I understand that.
 また、上記実施形態に係る情報処理装置は、例えば、体操競技の採点システムへの適用が可能である。ここで、図15を参照して、体操競技の採点システムの処理の概略について説明する。 Furthermore, the information processing device according to the above embodiment can be applied to, for example, a scoring system for gymnastics competitions. Here, with reference to FIG. 15, an overview of the processing of the gymnastics scoring system will be described.
 採点システムは、多視点画像が入力されると、多視点画像に含まれる各画像から人物の領域を検出する。次に、採点システムは、人物が存在する位置が競技エリアか否か等に基づいて、検出した領域が示す人物が選手か選手以外かを判定し、選手を示す領域を特定する。採点システムは、時系列の多視点画像において、同一の選手を示す領域を対応付けることにより、選手をトラッキングする。採点システムは、トラッキングされた一連の画像の各々から、認識モデル等を用いて選手の2次元の骨格情報を認識する。採点システムは、2次元の骨格情報から、カメラパラメータを用いて3次元の骨格情報を推定する。そして、採点システムは、時系列の3次元の骨格情報に対する平滑化等の後処理を行い、演技のフェーズ(切れ目)を推定した後、技を認識する。 When a multi-view image is input, the scoring system detects a region of a person from each image included in the multi-view image. Next, the scoring system determines whether the person indicated by the detected area is a player or a non-player based on whether the position where the person is present is in the competition area, etc., and identifies the area indicating the player. The scoring system tracks players by associating regions representing the same player in time-series multi-view images. The scoring system recognizes the player's two-dimensional skeletal information from each of the series of tracked images using a recognition model or the like. The scoring system estimates three-dimensional skeletal information from two-dimensional skeletal information using camera parameters. Then, the scoring system performs post-processing such as smoothing on the time-series three-dimensional skeletal information, estimates the phases (breaks) of the performance, and then recognizes the techniques.
 上記の採点システムにおいて、人物の領域を検出する処理に、上記実施形態に係る情報処理装置で生成された疑似ラベルを用いて機械学習が実行された検出器を適用可能である。 In the scoring system described above, it is possible to apply a detector in which machine learning is performed using the pseudo labels generated by the information processing device according to the embodiment described above to the process of detecting a region of a person.
 なお、上記実施形態では、推定した3次元位置情報である3次元の姿勢情報を、多視点画像に含まれる全ての画像に投影する場合について説明したが、これに限定されない。検出器により2D-BBOXが検出されていない画像を対象にするなど、多視点画像の少なくとも1つの画像に投影するようにしてもよい。 Note that in the above embodiment, a case has been described in which three-dimensional posture information, which is estimated three-dimensional position information, is projected onto all images included in a multi-view image, but the present invention is not limited to this. The image may be projected onto at least one of the multi-view images, such as by targeting an image in which the 2D-BBOX is not detected by the detector.
 また、開示の技術は、対象物を体操選手とする場合に限定されるものではなく、他の競技の選手や、一般の歩行者等、様々な人物を対象物として適用可能である。さらに、人物以外でも、動物や車両等を対象物として適用することも可能である。 Furthermore, the disclosed technology is not limited to cases where the object is a gymnast, but can be applied to various people such as athletes of other sports and ordinary pedestrians. Furthermore, it is also possible to apply the present invention to objects other than people, such as animals and vehicles.
 また、上記実施形態では、情報処理プログラムが記憶装置に予め記憶(インストール)されているが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供されてもよい。 Furthermore, in the above embodiments, the information processing program is stored (installed) in the storage device in advance, but the information processing program is not limited thereto. The program according to the disclosed technology may be provided in a form stored in a storage medium such as a CD-ROM, DVD-ROM, or USB memory.
10   情報処理装置
11   取得部
12   推定部
13   生成部
14   選択部
15   機械学習部
22   検出器
24   カメラパラメータDB
30n カメラ
40n 画像
42n 2D-BBOX
44n 疑似ラベル
50   コンピュータ
51   CPU
52   メモリ
53   記憶装置
54   入出力装置
55   R/W装置
56   通信I/F
57   バス
59   記憶媒体
60   情報処理プログラム
61   取得プロセス制御命令
62   推定プロセス制御命令
63   生成プロセス制御命令
64   選択プロセス制御命令
65   機械学習プロセス制御命令
70   情報記憶領域
90   対象物
10 Information processing device 11 Acquisition unit 12 Estimation unit 13 Generation unit 14 Selection unit 15 Machine learning unit 22 Detector 24 Camera parameter DB
30n Camera 40n Image 42n 2D-BBOX
44n Pseudo label 50 Computer 51 CPU
52 Memory 53 Storage device 54 Input/output device 55 R/W device 56 Communication I/F
57 Bus 59 Storage medium 60 Information processing program 61 Acquisition process control instruction 62 Estimation process control instruction 63 Generation process control instruction 64 Selection process control instruction 65 Machine learning process control instruction 70 Information storage area 90 Object

Claims (20)

  1.  対象物を異なる複数の視点から撮影する複数のカメラの各々で撮影された複数の画像を取得し、
     前記複数の画像の各々から検出された前記対象物の2次元位置情報と、前記複数のカメラの各々のカメラパラメータとに基づいて、前記対象物の3次元位置情報を推定し、
     前記複数の画像の少なくとも1つの画像を撮影したカメラのカメラパラメータに基づいて、前記対象物の3次元位置情報を前記少なくとも1つの画像に投影し、前記少なくとも1つの画像における前記対象物の2次元位置情報を算出する、
     ことを含む処理をコンピュータが実行する情報処理方法。
    Obtain multiple images taken by each of multiple cameras that photograph the object from multiple different viewpoints,
    Estimating three-dimensional position information of the object based on two-dimensional position information of the object detected from each of the plurality of images and camera parameters of each of the plurality of cameras,
    Projecting three-dimensional position information of the object onto the at least one image based on camera parameters of a camera that captured at least one image of the plurality of images, and projecting three-dimensional position information of the object on the at least one image, Calculate location information,
    An information processing method in which a computer performs processing that includes
  2.  前記対象物の2次元位置情報を算出する処理は、前記対象物の領域を示す情報を算出することを含む請求項1に記載の情報処理方法。 The information processing method according to claim 1, wherein the process of calculating the two-dimensional position information of the target object includes calculating information indicating a region of the target object.
  3.  前記対象物が人物の場合、前記対象物の3次元位置情報を推定する処理は、前記対象物の2次元位置情報として、前記対象物の2次元の姿勢情報を前記複数の画像の各々から検出し、前記対象物の2次元の姿勢情報に基づいて、前記対象物の3次元の姿勢情報を推定することを含む請求項1又は請求項2に記載の情報処理方法。 When the target object is a person, the process of estimating the three-dimensional position information of the target object includes detecting two-dimensional posture information of the target object from each of the plurality of images as the two-dimensional position information of the target object. 3. The information processing method according to claim 1, further comprising estimating three-dimensional posture information of the object based on two-dimensional posture information of the object.
  4.  算出された前記対象物の2次元位置情報を疑似ラベルとして付与した画像を訓練データとして、画像から前記対象物の2次元位置情報を検出するための機械学習モデルの機械学習を実行することを含む処理を前記コンピュータが実行する請求項1又は請求項2に記載の情報処理方法。 The method includes executing machine learning of a machine learning model for detecting the two-dimensional position information of the target object from the image using an image to which the calculated two-dimensional position information of the target object is attached as a pseudo label as training data. The information processing method according to claim 1 or 2, wherein the processing is executed by the computer.
  5.  前記疑似ラベルのうち、投影元の前記対象物の3次元位置情報が、3次元空間における予め定めた範囲に含まれる前記疑似ラベルを付与した画像を、前記訓練データとする請求項4に記載の情報処理方法。 5. The training data is an image to which, among the pseudo labels, the three-dimensional positional information of the object as a projection source is included in a predetermined range in a three-dimensional space. Information processing method.
  6.  前記対象物が体操選手の場合、前記予め定めた範囲は、競技種目に応じた競技エリアである請求項5に記載の情報処理方法。 The information processing method according to claim 5, wherein when the target object is a gymnast, the predetermined range is a competition area according to a competition event.
  7.  前記疑似ラベルのうち、対応する画像の撮影時刻が予め定めた時間範囲に含まれる前記疑似ラベルを付与した画像を、前記訓練データとする請求項4に記載の情報処理方法。 5. The information processing method according to claim 4, wherein, among the pseudo-labels, images to which the pseudo-labels are attached, the photographing times of the corresponding images of which are included in a predetermined time range, are used as the training data.
  8.  前記対象物が体操選手の場合、前記予め定めた時間範囲は、演技の開始から終了までに対応した時間範囲である請求項7に記載の情報処理方法。 8. The information processing method according to claim 7, wherein when the target object is a gymnast, the predetermined time range is a time range corresponding to a time period from the start to the end of a performance.
  9.  前記疑似ラベルの生成と、前記疑似ラベルを付与した画像を訓練データとする前記機械学習モデルの機械学習とを繰り返し実行する請求項4に記載の情報処理方法。 The information processing method according to claim 4, wherein generation of the pseudo label and machine learning of the machine learning model using the image to which the pseudo label is attached as training data are repeatedly performed.
  10.  検出された前記対象物の2次元位置情報が示す領域と、生成された前記疑似ラベルが示す領域との重複度が予め定めた閾値未満の前記疑似ラベルを付与した画像を前記訓練データから除外する請求項9に記載の情報処理方法。 Exclude from the training data images to which the pseudo label is attached, in which the degree of overlap between the area indicated by the detected two-dimensional position information of the object and the area indicated by the generated pseudo label is less than a predetermined threshold. The information processing method according to claim 9.
  11.  対象物を異なる複数の視点から撮影する複数のカメラの各々で撮影された複数の画像を取得する取得部と、
     前記複数の画像の各々から検出された前記対象物の2次元位置情報と、前記複数のカメラの各々のカメラパラメータとに基づいて、前記対象物の3次元位置情報を推定する推定部と、
     前記複数の画像の少なくとも1つの画像を撮影したカメラのカメラパラメータに基づいて、前記対象物の3次元位置情報を前記少なくとも1つの画像に投影し、前記少なくとも1つの画像における前記対象物の2次元位置情報を算出する算出部と、
     を含む情報処理装置。
    an acquisition unit that acquires a plurality of images taken by each of a plurality of cameras that photograph a target object from a plurality of different viewpoints;
    an estimation unit that estimates three-dimensional position information of the target object based on two-dimensional position information of the target object detected from each of the plurality of images and camera parameters of each of the plurality of cameras;
    Projecting three-dimensional position information of the object onto the at least one image based on camera parameters of a camera that captured at least one image of the plurality of images, and projecting three-dimensional position information of the object on the at least one image, a calculation unit that calculates location information;
    Information processing equipment including.
  12.  前記算出部は、前記対象物の2次元位置情報として、前記対象物の領域を示す情報を算出する請求項11に記載の情報処理装置。 The information processing device according to claim 11, wherein the calculation unit calculates information indicating a region of the object as the two-dimensional position information of the object.
  13.  前記推定部は、前記対象物が人物の場合、前記対象物の3次元位置情報を推定する処理は、前記対象物の2次元位置情報として、前記対象物の2次元の姿勢情報を前記複数の画像の各々から検出し、前記対象物の2次元の姿勢情報に基づいて、前記対象物の3次元の姿勢情報を推定する請求項11又は請求項12に記載の情報処理装置。 When the target object is a person, the process of estimating the three-dimensional position information of the target object is performed by estimating the two-dimensional posture information of the target object as the two-dimensional position information of the target object. The information processing apparatus according to claim 11 or 12, wherein three-dimensional posture information of the object is estimated based on two-dimensional posture information of the object detected from each of the images.
  14.  算出された前記対象物の2次元位置情報を疑似ラベルとして付与した画像を訓練データとして、画像から前記対象物の2次元位置情報を検出するための機械学習モデルの機械学習を実行する機械学習部を含む請求項11又は請求項12に記載の情報処理装置。 a machine learning unit that executes machine learning of a machine learning model for detecting two-dimensional position information of the target object from an image using an image to which the calculated two-dimensional position information of the target object is attached as a pseudo label as training data; The information processing device according to claim 11 or claim 12, comprising:
  15.  前記機械学習部は、前記疑似ラベルのうち、投影元の前記対象物の3次元位置情報が、3次元空間における予め定めた範囲に含まれる前記疑似ラベルを付与した画像を、前記訓練データとする請求項14に記載の情報処理装置。 Among the pseudo labels, the machine learning unit sets, as the training data, an image to which the pseudo label is attached, in which three-dimensional position information of the object as a projection source is included in a predetermined range in a three-dimensional space. The information processing device according to claim 14.
  16.  前記対象物が体操選手の場合、前記予め定めた範囲は、競技種目に応じた競技エリアである請求項15に記載の情報処理装置。 The information processing device according to claim 15, wherein when the target object is a gymnast, the predetermined range is a competition area according to a competition event.
  17.  前記機械学習部は、前記疑似ラベルのうち、対応する画像の撮影時刻が予め定めた時間範囲に含まれる前記疑似ラベルを付与した画像を、前記訓練データとする請求項14に記載の情報処理装置。 15. The information processing apparatus according to claim 14, wherein the machine learning unit uses, as the training data, an image to which the pseudo label is attached, the shooting time of the corresponding image being included in a predetermined time range, among the pseudo labels. .
  18.  前記対象物が体操選手の場合、前記予め定めた時間範囲は、演技の開始から終了までに対応した時間範囲である請求項17に記載の情報処理装置。 18. The information processing device according to claim 17, wherein when the target object is a gymnast, the predetermined time range is a time range corresponding to from the start to the end of the performance.
  19.  前記疑似ラベルの生成と、前記疑似ラベルを付与した画像を訓練データとする前記機械学習モデルの機械学習とを繰り返し実行する請求項14に記載の情報処理装置。 The information processing apparatus according to claim 14, wherein the generation of the pseudo label and the machine learning of the machine learning model using the image to which the pseudo label is attached as training data are repeatedly executed.
  20.  対象物を異なる複数の視点から撮影する複数のカメラの各々で撮影された複数の画像を取得し、
     前記複数の画像の各々から検出された前記対象物の2次元位置情報と、前記複数のカメラの各々のカメラパラメータとに基づいて、前記対象物の3次元位置情報を推定し、
     前記複数の画像の少なくとも1つの画像を撮影したカメラのカメラパラメータに基づいて、前記対象物の3次元位置情報を前記少なくとも1つの画像に投影し、前記少なくとも1つの画像における前記対象物の2次元位置情報を算出する、
     ことを含む処理をコンピュータに実行させるための情報処理プログラム。
    Obtain multiple images taken by each of multiple cameras that photograph the object from multiple different viewpoints,
    Estimating three-dimensional position information of the object based on two-dimensional position information of the object detected from each of the plurality of images and camera parameters of each of the plurality of cameras,
    Projecting three-dimensional position information of the object onto the at least one image based on camera parameters of a camera that captured at least one image of the plurality of images, and projecting three-dimensional position information of the object on the at least one image, Calculate location information,
    An information processing program that causes a computer to perform processing that includes
PCT/JP2022/029178 2022-07-28 2022-07-28 Information processing method, device, and program WO2024024055A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/029178 WO2024024055A1 (en) 2022-07-28 2022-07-28 Information processing method, device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/029178 WO2024024055A1 (en) 2022-07-28 2022-07-28 Information processing method, device, and program

Publications (1)

Publication Number Publication Date
WO2024024055A1 true WO2024024055A1 (en) 2024-02-01

Family

ID=89705798

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/029178 WO2024024055A1 (en) 2022-07-28 2022-07-28 Information processing method, device, and program

Country Status (1)

Country Link
WO (1) WO2024024055A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014240753A (en) * 2013-06-11 2014-12-25 富士通株式会社 Distance measuring apparatus, distance measuring method, and program
WO2022003963A1 (en) * 2020-07-03 2022-01-06 富士通株式会社 Data generation method, data generation program, and information-processing device
JP2022064506A (en) * 2020-10-14 2022-04-26 Necソリューションイノベータ株式会社 Image processing device, image processing method, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014240753A (en) * 2013-06-11 2014-12-25 富士通株式会社 Distance measuring apparatus, distance measuring method, and program
WO2022003963A1 (en) * 2020-07-03 2022-01-06 富士通株式会社 Data generation method, data generation program, and information-processing device
JP2022064506A (en) * 2020-10-14 2022-04-26 Necソリューションイノベータ株式会社 Image processing device, image processing method, and program

Similar Documents

Publication Publication Date Title
RU2498404C2 (en) Method and apparatus for generating event registration entry
JP6793151B2 (en) Object tracking device, object tracking method and object tracking program
CN112819852A (en) Evaluating gesture-based motion
US10186041B2 (en) Apparatus and method for analyzing golf motion
CN112183355B (en) Effluent height detection system and method based on binocular vision and deep learning
CN110544301A (en) Three-dimensional human body action reconstruction system, method and action training system
JP7292492B2 (en) Object tracking method and device, storage medium and computer program
JP7373589B2 (en) Pose similarity discrimination model generation method and pose similarity discrimination model generation device
WO2021098616A1 (en) Motion posture recognition method, motion posture recognition apparatus, terminal device and medium
WO2009061283A2 (en) Human motion analysis system and method
CN113850865A (en) Human body posture positioning method and system based on binocular vision and storage medium
CN109902675B (en) Object pose acquisition method and scene reconstruction method and device
CN114120168A (en) Target running distance measuring and calculating method, system, equipment and storage medium
CN115100744A (en) Badminton game human body posture estimation and ball path tracking method
JP7318814B2 (en) DATA GENERATION METHOD, DATA GENERATION PROGRAM AND INFORMATION PROCESSING DEVICE
JP6583923B2 (en) Camera calibration apparatus, method and program
WO2024024055A1 (en) Information processing method, device, and program
KR20220058790A (en) Exercise posture analysis method using dual thermal imaging camera, guide method for posture correction and computer program implementing the same method
CN112233770A (en) Intelligent gymnasium management decision-making system based on visual perception
CN115841602A (en) Construction method and device of three-dimensional attitude estimation data set based on multiple visual angles
CN114092863A (en) Human body motion evaluation method for multi-view video image
JP2018180894A (en) Information processing device, information processing method, and program
JP2022019339A (en) Information processing apparatus, information processing method, and program
JP6944144B2 (en) Swing analyzer, method and program
WO2024004191A1 (en) Association method, device, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22953144

Country of ref document: EP

Kind code of ref document: A1