WO2023062760A1 - 領域検出プログラム、装置、及び方法 - Google Patents

領域検出プログラム、装置、及び方法 Download PDF

Info

Publication number
WO2023062760A1
WO2023062760A1 PCT/JP2021/037958 JP2021037958W WO2023062760A1 WO 2023062760 A1 WO2023062760 A1 WO 2023062760A1 JP 2021037958 W JP2021037958 W JP 2021037958W WO 2023062760 A1 WO2023062760 A1 WO 2023062760A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
image
area
height
detected
Prior art date
Application number
PCT/JP2021/037958
Other languages
English (en)
French (fr)
Inventor
帆 楊
成幸 小田嶋
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to JP2023553831A priority Critical patent/JPWO2023062760A1/ja
Priority to CN202180102809.3A priority patent/CN118043856A/zh
Priority to PCT/JP2021/037958 priority patent/WO2023062760A1/ja
Publication of WO2023062760A1 publication Critical patent/WO2023062760A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images

Definitions

  • the disclosed technology relates to an area detection program, an area detection device, and an area detection method.
  • a 3D model generation device that generates a 3D model of a subject from images captured by multiple cameras.
  • This device acquires a silhouette image for each viewpoint from a multi-view video, and generates a low-resolution voxel model having a first voxel size from the plurality of silhouette images by the visual volume intersection method.
  • the apparatus also classifies the low-resolution voxel models based on their features and, for each low-resolution voxel model, determines a second size that is smaller than the first size based on the classification results.
  • this apparatus generates a high-resolution voxel model having a second voxel size for each 3D bounding box of the low-resolution voxel model, and outputs a 3DCG model of the object based on the high-resolution voxel model.
  • the bounding box When using a machine learning model to detect a bounding box as an area that indicates a target person from an image, the bounding box may not be detected or may be detected incorrectly. In multi-viewpoint images for obtaining 3D information of a person, if such a bounding box is not detected or detected incorrectly in any of the images, it is difficult to obtain 3D information with high accuracy in subsequent processing. Can not.
  • the disclosed technology aims to appropriately interpolate undetected or erroneously detected bounding boxes in multi-view images.
  • the technology disclosed acquires images captured by each of a plurality of imaging devices that capture images of a person from different directions.
  • the technology disclosed inputs an acquired image to a machine learning model generated in advance by machine learning so as to detect an area of a person included in the image, and extracts an area indicating a person from each of the acquired images. to detect Then, according to the technology disclosed herein, based on the region of the person detected from the first image among the acquired images and the parameters of each of the plurality of photographing devices, the second of the acquired images is detected. interpolate the region showing the person in the image of .
  • it has the effect of being able to appropriately interpolate undetected or erroneously detected bounding boxes in multi-view images.
  • FIG. 4 is a schematic diagram showing connection between an area detection device and a camera; 3 is a functional block diagram of an area detection device; FIG. FIG. 4 is a diagram for explaining a two-dimensional bounding box; FIG. FIG. 4 is a diagram for explaining the difference in width of a two-dimensional bounding box depending on the viewpoint; FIG. 4 is a diagram for explaining identification of a three-dimensional person's center line; FIG. 4 is a diagram for explaining interpolation of a two-dimensional bounding box; FIG. 4 is a diagram for explaining the width and height of a three-dimensional bounding box; FIG. 4 is a diagram for explaining statistical information about a three-dimensional bounding box; FIG.
  • FIG. 1 is a block diagram showing a schematic configuration of a computer functioning as an area detection device
  • FIG. 6 is a flowchart showing an example of area detection processing
  • FIG. 4 is a diagram showing an example of interpolation of a two-dimensional bounding box
  • FIG. 10 is a diagram for explaining an example of a technology applied to a multi-viewpoint image in which two-dimensional bounding boxes are detected;
  • the area detection device 10 is connected to each of a plurality of cameras 30n that capture images of the gymnast 90 at viewpoints n from different directions.
  • n 1, 2, and 3
  • a camera 301 that captures images from a viewpoint 1 a camera 302 that captures images from a viewpoint 2, and a camera 303 that captures images from a viewpoint 3 are connected to the area detection device 10.
  • the number of cameras 30n connected to the area detection device 10 is not limited to the example in FIG.
  • the cameras 30n are installed at different positions within substantially the same horizontal plane at angles that allow the gymnast 90 to be captured within the shooting range. That is, the cameras 30n are arranged horizontally so as to surround the gymnast 90 .
  • “substantially in the same horizontal plane” means that the height of the camera 30n from the floor can be regarded as substantially the same, and that the difference in height from the floor of the camera 30n is equal to or less than a predetermined value.
  • Images captured by the camera 30n are sequentially input to the area detection device 10.
  • FIG. Time information is associated with each frame included in the video captured by each camera 30n, and the video captured by each camera 30n can be synchronized based on this time information.
  • the region detection device 10 functionally includes an acquisition unit 12, a detection unit 14, and an interpolation unit 16.
  • a detection model 20 is stored in a predetermined storage area of the area detection device 10 .
  • the acquisition unit 12 acquires, as multi-viewpoint images, a set of images indicated by frames corresponding to time information in the video input from the camera 30n to the area detection device 10 .
  • an image captured by the camera 30n among the images included in the multi-viewpoint image is referred to as an image 40n.
  • the detection unit 14 inputs the images 40n included in the multi-view images acquired by the acquisition unit 12 to the detection model 20, and generates two-dimensional bounding boxes (hereinafter referred to as “2D- BB”) is detected.
  • the detection model 20 is generated in advance using, as training data, images obtained by giving correct 2D-BB to images of gymnasts in various postures.
  • the detection model 20 is an example of a “machine learning model” of technology disclosed herein. For example, as shown in FIG. 3, the detection unit 14 detects the circumscribing rectangle of the area showing the gymnast 90 in the image 40n as a 2D-BB42n.
  • the interpolation unit 16 interpolates the 2D-BB 42n in the second image out of the multi-view images based on the 2D-BB 42n detected from the first image out of the multi-view images and each parameter of the camera 30n. do.
  • 2D-BB 42k is detected from image 40k taken by camera 30k at viewpoint k
  • 2D-BB 42_miss is not detected from image 40_miss taken by camera 30_miss at viewpoint _miss. do.
  • the image 40k is an example of the first image
  • the image 40_miss is an example of the second image.
  • the detection model 20 which is a machine learning model
  • the images 40n to 2D-BB42n may be undetected or erroneously detected. This is the case when part of the gymnast 90 in the image 40n is blocked by an obstacle, or when the posture of the target gymnast 90 is different from any of the gymnasts in the images used for training the detection model 20. This may occur when there is no similarity.
  • a recognition model that recognizes three-dimensional information such as skeleton information generated in advance by machine learning, a three-dimensional image of the gymnast 90 is obtained. Consider getting information.
  • 3D-BB three-dimensional bounding box 44 is a rectangular parallelepiped consisting of a horizontal plane and a vertical plane, which is the smallest rectangular parallelepiped that completely surrounds the gymnast 90 in three-dimensional space.
  • a 2D-BB 42n is obtained by projecting the 3D-BB 44 onto each image 40n at the viewpoint n of each camera 30n.
  • the height (length in the vertical direction) of the 2D-BB 42n in each image 40n is common regardless of the viewpoint of each camera 30n. do.
  • the heights of the 2D-BB42n and the 3D-BB44 are represented by lines connecting the asterisks.
  • the width (horizontal length) of the 2D-BB 42n in each image 40n differs depending on the viewpoint of each camera 30n.
  • the width of the 2D-BB421 detected from the image 401 and the width of the 2D-BB422 detected from the image 402 are different due to the difference in viewpoint. Therefore, for example, since the 2D-BB423 was not detected in the image 403, the width of the 2D-BB423 is cannot be properly determined. Therefore, the 2D-BB 423 in the image 403 cannot be interpolated.
  • the interpolation unit 16 calculates 2D-BB42_miss in image 40_miss in which 2D-BB is not detected based on the height of 2D-BB42k in image 40k in which 2D-BB is detected and each parameter of camera 30k. Determine the height of Then, the interpolation unit 16 estimates the width of the 2D-BB 42_miss in the image 40_miss in which the 2D-BB is not detected, based on the statistical information regarding the posture of the gymnast 90 and the parameters of the camera 30_miss.
  • FIG. 5 and 6 A specific description will be given with reference to FIGS. 5 and 6.
  • x k and y k are the coordinates in image 40k of the upper left corner point of 2D-BB 42k, and w and h are the width and height of 2D-BB 42k, respectively.
  • the interpolation unit 16 calculates the coordinates of the upper end point [x k +w k /2, y k ] and the coordinates of the lower end point [x k + w k /2, y k + h k ] of the vertical center line of the 2D-BB 42k. Identify. Then, the interpolation unit 16 converts the coordinates of the upper end point and the lower end point into three-dimensional coordinates using parameters of the camera 30k for converting the three-dimensional coordinates into coordinates on the image plane captured by the camera 30k. .
  • the interpolation unit 16 may convert coordinates using cv::sfm::trianglePoints defined in OpenCV (https://docs.opencv.org/3.4/d0/dbd/group__triangulation.html). .
  • the interpolation unit 16 calculates the three-dimensional coordinates of the points P3d top and P3d bot in the three-dimensional space corresponding to the upper end point and the lower end point using the parameter matrix ProjMat cam_k of the camera 30k, using the following (1) It is calculated as shown in the formula and the formula (2).
  • a line connecting P3d top and P3d bot is called a human center line.
  • the interpolation unit 16 converts the three-dimensional coordinates of P3d top and P3d bot into coordinates on image 40_miss based on the parameters of camera 30_miss. Thereby, the interpolation unit 16 calculates the coordinates of the upper end point and the lower end point of the vertical center line of 2D-BB42_miss. For example, the interpolation unit 16 uses the parameter matrix ProjMat cam_miss of the camera 30_miss and the parameter s representing the scale ratio between the three-dimensional coordinates and the size of the image 40, as shown in the following formulas (3) and (4): Perform coordinate transformation.
  • the interpolation unit 16 calculates y miss , h miss , and x miss +w miss /2 for specifying the coordinates of the upper end point and the lower end point of the vertical center line of 2D-BB42_miss based on the coordinate transformation described above. It is calculated as shown in formulas (5) to (7).
  • ymiss s x ymiss /s (5)
  • h miss s ⁇ (y miss +h miss )/sy miss (6)
  • xmiss + wmiss /2 s ⁇ ( xmiss + wmiss /2)/s (7)
  • the interpolation unit 16 identifies the line connecting the identified upper endpoint and lower endpoint as the vertical centerline of 2D-BB42_miss, and identifies the length of the centerline as the height of 2D-BB42_miss.
  • the interpolation unit 16 also estimates the width of the 2D-BB42_miss based on the specified height of the 2D-BB42_miss and the statistical information regarding the posture of the gymnast 90 .
  • the statistical information may be, for example, the average sum of the height and width of the 3D-BB 44 surrounding the gymnast in each of the different poses of the gymnast.
  • the height of the 3D-BB 44 is Height_3D
  • the larger width is Width_max_3D
  • the smaller width is Width_min_3D.
  • a full-size three-dimensional model of a gymnast is prepared for a plurality of postures (poses) obtained from motion capture, manual annotation, published data, or the like.
  • postures postures
  • three-dimensional models for M poses are prepared.
  • the 3D-BB44 is specified, Height_3D, Width_max_3D, and Width_min_3D are calculated, and the mean Mean_3D shown in the following equation (8) is calculated as statistical information.
  • Mean_3D (1/M) ⁇ M ((Width_max_3D+Width_min_3D)/2+Height_3D) (8)
  • ) x h miss (10) x miss x miss +w miss /2-w miss /2 (11)
  • the interpolation unit 16 calculates the 2D-BB42_miss specified by [x miss , y miss , w miss , h miss ] calculated by the formulas (5), (6), (10), and (11). , interpolate in image 40_miss. Then, the interpolation unit 16 puts together the interpolated 2D-BB42_miss and 2DBB42k and outputs them as a 2D-BB-detected multi-viewpoint image.
  • the area detection device 10 may be realized by, for example, a computer 50 shown in FIG.
  • the computer 50 includes a CPU (Central Processing Unit) 51 , a memory 52 as a temporary storage area, and a non-volatile storage section 53 .
  • the computer 50 also includes an input/output I/F (Interface) 54 to which external devices such as the camera 30n, an input device, and a display device are connected, and an R/W (Read /Write) section 55 .
  • the computer 50 also has a communication I/F 56 connected to a network such as the Internet.
  • the CPU 51 , memory 52 , storage section 53 , input/output I/F 54 , R/W section 55 and communication I/F 56 are connected to each other via a bus 57 .
  • the storage unit 53 may be implemented by a HDD (Hard Disk Drive), SSD (Solid State Drive), flash memory, or the like.
  • An area detection program 60 for causing the computer 50 to function as the area detection device 10 is stored in the storage unit 53 as a storage medium.
  • Region detection program 60 has an acquisition process 62 , a detection process 64 and an interpolation process 66 .
  • the storage unit 53 also has an information storage area 70 in which information forming the detection model 20 is stored.
  • the CPU 51 reads out the area detection program 60 from the storage unit 53, develops it in the memory 52, and sequentially executes the processes of the area detection program 60.
  • the CPU 51 operates as the acquisition unit 12 shown in FIG. 2 by executing the acquisition process 62 . Further, the CPU 51 operates as the detection unit 14 shown in FIG. 2 by executing the detection process 64 . Also, the CPU 51 operates as the interpolation unit 16 shown in FIG. 2 by executing the interpolation process 66 .
  • the CPU 51 also reads information from the information storage area 70 and develops the detection model 20 in the memory 52 . Thereby, the computer 50 executing the area detection program 60 functions as the area detection device 10 . Note that the CPU 51 that executes the program is hardware.
  • the function realized by the area detection program 60 can also be realized by, for example, a semiconductor integrated circuit, more specifically a GPU (Graphics Processing Unit) or ASIC (Application Specific Integrated Circuit).
  • a semiconductor integrated circuit more specifically a GPU (Graphics Processing Unit) or ASIC (Application Specific Integrated Circuit).
  • the area detection processing shown in FIG. 10 is executed in the area detection device 10.
  • FIG. Note that the area detection process is an example of the area detection method of technology disclosed herein.
  • step S10 the acquisition unit 12 acquires the multi-viewpoint image input to the area detection device 10.
  • step S12 the detection unit 14 inputs each image 40n included in the obtained multi-viewpoint images to the detection model 20, and detects the 2D-BB 42n from each of the images 40n.
  • step S14 the detection unit 14 determines whether or not there is an image 40n in which the 2D-BB 42n is not detected among the images 40n included in the multi-viewpoint images. If there is an image 40n in which the 2D-BB 42n is not detected, the process proceeds to step S16, and if not, the process proceeds to step S24.
  • step S16 the interpolating unit 16 calculates the coordinates [x k +w k /2, y k ] of the upper end point of the vertical center line of the detected 2D-BB 42k, and the coordinates [x k +w k /2 of the lower end point , y k +h k ].
  • step S18 the interpolation unit 16 converts the coordinates of the upper end point and the lower end point into three-dimensional coordinates using the parameter matrix of the camera 30k (denoted as "OK camera" in FIG. 10) to obtain points P3d top and Identify the P3d bot . Then, the interpolation unit 16 identifies the line connecting the P3d top and the P3d bot as the human center line.
  • step S20 the interpolation unit 16 converts the three-dimensional coordinates of the P3d top and the P3d bot based on the parameter matrix of the camera 30_miss (denoted as "miss camera” in FIG. 10) to the image 40_miss (" project on the "miss image”). This identifies the vertical centerline of 2D-BB42_miss and the length of the centerline as the height of 2D-BB42_miss.
  • step S22 the interpolation unit 16 estimates the width of the 2D-BB42_miss based on the specified height of the 2D-BB42_miss and statistical information regarding the posture of the gymnast 90.
  • 2D-BB42_miss specified by the vertical center line and height of 2D-BB42_miss specified in step S20 and the width of 2D-BB42_miss estimated in this step is interpolated in image 40_miss.
  • step S24 the interpolation unit 16 outputs a multi-viewpoint image in which 2D-BB42n is detected from each image 40n.
  • the detected 2D-BB 42n includes the 2D-BB interpolated in step S22.
  • step S ⁇ b>26 the acquisition unit 12 determines whether or not the next multi-viewpoint image has been input to the area detection device 10 . If the next multi-viewpoint image has been input to the area detection device 10, the process returns to step S10, and if not, the area detection process ends.
  • FIG. 11 shows an example of interpolating 2D-BB that was not detected in a multi-view image containing four images.
  • Frame: 852 is a frame number associated with each image, and corresponds to the time information in the above embodiment.
  • the missing 2D-BB in cam_id:3 included in the multi-view image of frame number 852 is interpolated as shown in the right diagram of FIG. 11 by applying this embodiment. be done.
  • the area detection device acquires a multi-viewpoint image, which is a set of images captured by each of a plurality of cameras that capture images of a person from different directions.
  • the region detection device inputs each of the images included in the acquired multi-view images to a detection model generated in advance by machine learning so as to detect the bounding box indicating the region of the person included in the image, Detect bounding boxes from each of the images. Then, the area detection device detects a bounding box in a second image out of the acquired images based on the bounding box detected from the first image out of the acquired images and the parameters of each of the plurality of cameras. Interpolate.
  • the region detector projects the detected 2D-BB from 2D to 3D using the camera's intrinsic and extrinsic parameters to identify the vertical human centerline in 3D space.
  • the area detection device is the statistical information indicating the average height and width of the 3D-BB and the length of the person's center line, which are calculated in advance from the three-dimensional models of gymnasts in various postures. Estimate the width of the 3D-BB based on the height of the 3D-BB.
  • the region detection device projects the 3D-BB, which is specified from the human center line, the height and width of the 3D-BB, from three dimensions to two dimensions using the camera's internal and external parameters, so that the image Interpolate the 2D-BB in .
  • undetected bounding boxes in multi-viewpoint images can be interpolated appropriately.
  • the 2D-BB-detected multi-viewpoint images output from the region detection device according to the present embodiment are used, for example, for learning-type skeleton recognition of gymnasts, as shown in FIG.
  • learning-type skeleton recognition of gymnasts as shown in FIG.
  • 3D joint coordinates the correct three-dimensional coordinates of each joint of the gymnast represented by the multi-view images.
  • a skeleton recognition model is generated in advance by machine learning.
  • a skeleton recognition model is, for example, a neural network or the like.
  • the machine-learned skeleton recognition model uses the multi-view image. Images are input and 3D joint coordinates are output. Then, the 3D joint coordinates output from the skeleton recognition model are used as the primary skeleton recognition results, and the 3D joint coordinates obtained by performing position search for each joint position based on constraints such as the length and positional relationship between each joint are used as the fitting results. output.
  • the present invention is not limited to this.
  • multi-viewpoint images captured by a plurality of cameras arranged in substantially the same vertical plane may provide more accurate recognition results for skeleton recognition or the like.
  • the width of the 2D-BB detected from the first image and the width of the 3D-BB are specified based on the parameters of the camera that captured the first image, and the width of the 3D-BB and the gymnast
  • the height of the 3D-BB can be estimated based on the statistical information about the three-dimensional model of .
  • the present invention is not limited to this.
  • each image included in the multi-view image is set as the first image
  • the other images are set as the second image
  • the 2D-BB detected in the first image is interpolated in the same manner as in the above embodiment. Correction may be made based on 2D-BB.
  • the detection model when the detection model outputs the reliability of the detection along with the detection of the bounding box, if the reliability of the detection is equal to or less than a predetermined value, it is handled in the same manner as the case where the 2D-BB in the above embodiment is not detected. You may do so.
  • the present invention is not limited to this.
  • the program according to the technology disclosed herein can also be provided in a form stored in a storage medium such as a CD-ROM, DVD-ROM, USB memory, or the like.
  • area detection device 10 area detection device 12 acquisition unit 14 detection unit 16 interpolation unit 20 detection models 301, 302, 303 cameras 401, 402, 403 images 421, 422 2D-BB 50 computer 51 CPU 52 memory 53 storage unit 59 storage medium 60 area detection program

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

領域検出装置は、検出された二次元バウンディングボックスを、カメラの内部及び外部パラメータを使用して二次元から三次元へ投影することにより、三次元空間における垂直方向の人物中心線を特定し、様々な姿勢の体操選手の三次元モデルから事前に算出しておいた、三次元バウンディングボックスの高さ及び幅の平均を示す統計情報と、人物中心線の長さである三次元バウンディングボックスの高さとに基づいて、三次元バウンディングボックスの幅を推定し、人物中心線、3D-BBの高さ及び幅から特定される三次元バウンディングボックスを、カメラの内部及び外部パラメータを使用して三次元から二次元へ投影することにより、画像内の2D-BBを補間する。

Description

領域検出プログラム、装置、及び方法
 開示の技術は、領域検出プログラム、領域検出装置、及び領域検出方法に関する。
 従来、人物を撮影した画像から、予め機械学習により生成された認識モデルを用いて、人物の骨格情報等、人物の三次元情報を認識する技術が存在する。このような技術において、認識処理の対象となる人物の領域を囲むバウンディングボックスを検出することが行われている。
 例えば、複数台のカメラの映像から被写体の3Dモデルを生成する3Dモデル生成装置が提案されている。この装置は、多視点映像から視点毎にシルエット画像を取得し、複数のシルエット画像から視体積交差法によりボクセルサイズが第1サイズの低解像ボクセルモデルを生成する。また、この装置は、低解像ボクセルモデルをその特徴に基づいて分類し、低解像ボクセルモデル毎に、その分類結果に基づいて第1サイズよりも小さい第2サイズを決定する。そして、この装置は、低解像ボクセルモデルの3Dバウンディングボックス毎にボクセルサイズが第2サイズの高解像ボクセルモデルを生成し、高解像ボクセルモデルに基づいて被写体の3DCGモデルを出力する。
 また、複数の視点から撮影した多視点画像から、透視投影を利用して、他の視点における対応する点を推測し、中間視点の画像を生成する技術が存在する。
特開2021-071749号公報
Hideo Saito, Makoto Kimura, Satoshi Yaguchi, Naho Inamoto, "View Interpolation of Multiple Cameras Based on Projective Geometry", 2002.
 機械学習モデルを用いて、画像から対象の人物を示す領域としてバウンディングボックスを検出する場合に、バウンディングボックスの未検出や誤検出が生じる場合がある。人物の三次元情報を取得するための多視点画像において、いずれかの画像にこのようなバウンディングボックスの未検出や誤検出が生じると、後段の処理において、精度良く三次元情報を取得することができない。
 また、例えば体操選手等のように、様々な姿勢を取り得る人物を対象とした場合、透視投影を単純に適用しただけでは、未検出又は誤検出のバウンディングボックスを適切に補間することができない場合がある。
 一つの側面として、開示の技術は、多視点画像における未検出又は誤検出のバウンディングボックスを適切に補間することを目的とする。
 一つの態様として、開示の技術は、人物を各々異なる方向から撮影する複数の撮影装置の各々が撮影した画像を取得する。また、開示の技術は、取得した画像を、画像に含まれる人物の領域を検出するように予め機械学習により生成された機械学習モデルに入力して、前記取得した画像の各々から人物を示す領域を検出する。そして、開示の技術は、前記取得した画像のうち第一の画像から検出された前記人物の領域と、前記複数の撮影装置の各々のパラメータとに基づいて、前記取得した画像のうちの第二の画像における前記人物を示す領域を補間する。
 一つの側面として、多視点画像における未検出又は誤検出のバウンディングボックスを適切に補間することができる、という効果を有する。
領域検出装置とカメラとの接続を示す概略図である。 領域検出装置の機能ブロック図である。 二次元バウンディングボックスを説明するための図である。 視点による二次元バウンディングボックスの幅の相違を説明するための図である。 三次元の人物中心線の特定を説明するための図である。 二次元バウンディングボックスの補間を説明するための図である。 三次元バウンディングボックスの幅及び高さを説明するための図である。 三次元バウンディングボックスに関する統計情報を説明するための図である。 領域検出装置として機能するコンピュータの概略構成を示すブロック図である。 領域検出処理の一例を示すフローチャートである。 二次元バウンディングボックスの補間の一例を示す図である。 二次元バウンディングボックスが検出された多視点画像の適用技術の例を説明するための図である。
 以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。以下の実施形態では、対象の人物が体操選手である場合について説明するが、開示の技術は、他の競技の選手や、一般の歩行者等、様々な人物を対象として適用可能である。
 図1に示すように、本実施形態に係る領域検出装置10は、各々異なる方向からの視点nにおいて体操選手90を撮影する複数のカメラ30nの各々と接続される。図1の例では、n=1,2,3であり、視点1から撮影するカメラ301、視点2から撮影するカメラ302、及び視点3から撮影するカメラ303が領域検出装置10と接続されている。なお、領域検出装置10に接続されるカメラ30nの数は図1の例に限定されない。
 カメラ30nは、略同一水平面内の異なる位置に、体操選手90が撮影範囲に収まる角度で設置される。すなわち、カメラ30nは、体操選手90を取り囲むように水平方向に並んで配置されている。なお、ここでは、略同一水平面内とは、カメラ30nの床面からの高さが略同一とみなせる場合であり、カメラ30nの床面からの高さの差が所定値以下になる場合をいう。カメラ30nで撮影された映像は順次領域検出装置10へ入力される。なお、各カメラ30nで撮影される映像に含まれる各フレームには時間情報が対応付けられており、この時間情報に基づいて、各カメラ30nで撮影された映像は同期をとることができる。
 図2に示すように、領域検出装置10は、機能的には、取得部12と、検出部14と、補間部16とを含む。また、領域検出装置10の所定の記憶領域には、検出モデル20が記憶される。
 取得部12は、カメラ30nから領域検出装置10に入力された映像において、時間情報が対応するフレームが示す画像のセットを多視点画像として取得する。以下では、多視点画像に含まれる画像のうち、カメラ30nで撮影された画像を画像40nとする。
 検出部14は、取得部12で取得された多視点画像に含まれる画像40nを検出モデル20に入力して、画像40nの各々から人物を示す領域として、二次元バウンディングボックス(以下、「2D-BB」とも表記する)を検出する。検出モデル20は、様々な姿勢の体操選手が写った画像に対して、正解の2D-BBが与えられた画像を訓練データとして用いて予め生成されている。なお、検出モデル20は、開示の技術の「機械学習モデル」の一例である。検出部14は、例えば図3に示すように、画像40n内における体操選手90を示す領域の外接矩形を2D-BB42nとして検出する。
 補間部16は、多視点画像のうち第一の画像から検出された2D-BB42nと、カメラ30nの各々のパラメータとに基づいて、多視点画像のうちの第二の画像における2D-BB42nを補間する。本実施形態では、視点kのカメラ30kで撮影された画像40kからは、2D-BB42kが検出され、視点_missのカメラ30_missで撮影された画像40_missからは、2D-BB42_missが検出されていないものとする。この場合、画像40kは第一の画像の一例であり、画像40_missは第二の画像の一例である。
 ここで、上記のように機械学習モデルである検出モデル20を用いる場合、画像40nから2D-BB42nが未検出又は誤検出となる場合がある。これは、画像40n内の体操選手90の一部が障害物で遮蔽されている場合や、対象の体操選手90の姿勢が、検出モデル20の訓練に用いられた画像における体操選手のいずれにも類似しない場合等に生じ得る。多視点画像に含まれる各画像40nから検出された2D-BB42n内の画像と、予め機械学習により生成された骨格情報等の三次元情報を認識する認識モデルと基づいて、体操選手90の三次元情報を取得することを考える。この場合、2D-BB42nが未検出又は誤検出の画像が多視点画像に含まれると、三次元情報の認識精度が低下してしまう。そのため、未検出又は誤検出のBB42nを補間することが望ましい。
 しかし、体操選手等のように、様々な姿勢を取り得る人物を対象とした場合、透視投影を単純に適用しただけでは、未検出又は誤検出の2D-BB42nを適切に補間することができない場合がある。図4を参照してより具体的に説明する。図4に示すように、水平面及び垂直面からなる直方体であって、三次元空間における体操選手90を完全に囲む最小の直方体を三次元バウンディングボックス(以下、「3D-BB」とも表記する)44として想定する。各カメラ30nの視点nで、3D-BB44を各画像40nに投影したものが2D-BB42nとなる。
 各カメラ30nが体操選手90を取り囲むように水平方向に並んで配置されている場合、各カメラ30nの視点によらず、各画像40nにおける2D-BB42nの高さ(垂直方向の長さ)は共通する。なお、図4において、2D-BB42n及び3D-BB44の高さを、星印を結ぶ線で表している。一方、各画像40nにおける2D-BB42nの幅(水平方向の長さ)は、各カメラ30nの視点によって異なる。図4の例では、画像401から検出された2D-BB421の幅と、画像402から検出された2D-BB422の幅とは、その視点の相違に起因して異なっている。したがって、例えば、画像403において2D-BB423が未検出であったため、従来技術のような透視投影を単純に適用して、検出済みの2D-BB421、422から補間しようとしても、2D-BB423の幅を適切に定めることができない。そのため、画像403における2D-BB423を補間することができない。
 そこで、補間部16は、2D-BBが検出されている画像40kにおける2D-BB42kの高さと、カメラ30kの各々のパラメータとに基づいて、2D-BBが検出されていない画像40_missにおける2D-BB42_missの高さを特定する。そして、補間部16は、体操選手90の姿勢に関する統計情報と、カメラ30_missのパラメータとに基づいて、2D-BBが検出されていない画像40_missにおける2D-BB42_missの幅を推定する。
 図5及び図6を参照して具体的に説明する。補間部16は、画像40kから検出された2D-BB42kを、B=[x,y,w,h]とする。x及びyは、2D-BB42kの左上角の点の画像40k内での座標、w及びhは、それぞれ2D-BB42kの幅及び高さである。また、補間部16は、画像40_missにおける2D-BB42_missを、Bmiss=[xmiss,ymiss,wmiss,hmiss]とする。すなわち、Bmissを特定することが、2D-BB42_missを補間することに相当する。なお、図5及び図6の例では、k=1,2であり、_miss=3である。
 補間部16は、2D-BB42kの垂直方向の中心線の上部端点の座標[x+w/2,y]、及下部端点の座標[x+w/2,y+h]を特定する。そして、補間部16は、三次元座標を、カメラ30kで撮影された画像平面上の座標へ変換するためのカメラ30kのパラメータを用いて、上部端点及び下部端点の座標を三次元座標に変換する。例えば、補間部16は、OpenCV(https://docs.opencv.org/3.4/d0/dbd/group__triangulation.html)で定義されたcv::sfm::trianglePointsを利用して座標を変換してよい。この場合、補間部16は、上部端点及び下部端点の各々に対応する三次元空間での点P3dtop及びP3dbotの三次元座標を、カメラ30kのパラメータ行列ProjMatcam_kを用いて、下記(1)式及び(2)式に示すように算出する。なお、三次元空間において、P3dtopとP3dbotとを結ぶ線を、人物中心線という。
P3dtop=[Xtop,Ytop,Ztop
=cv::sfm::trianglePoints({[x+w/2,y],[x+w/2,y],・・・,[x+w/2,y]},{ProjMatcam_1,ProjMatcam_2,・・・,ProjMatcam_k})   (1)
P3dbot=[Xbot,Ybot,Zbot
=cv::sfm::trianglePoints({[x+w/2,y+h],[x+w/2,y+h],・・・,[x+w/2,y+h]},{ProjMatcam_1,ProjMatcam_2,・・・,ProjMatcam_k})   (2)
 また、補間部16は、図6に示すように、P3dtop及びP3dbotの三次元座標を、カメラ30_missのパラメータに基づいて、画像40_miss上の座標に変換する。これにより、補間部16は、2D-BB42_missの垂直方向の中心線の上部端点及び下部端点の座標を算出する。例えば、補間部16は、カメラ30_missのパラメータ行列ProjMatcam_miss、及び三次元座標と画像40のサイズとのスケール比を表すパラメータsを用いて、下記(3)式及び(4)式に示すように座標変換を行う。
[s×(xmiss+wmiss/2),s×ymiss,s]
=ProjMatcam_miss×[Xtop,Ytop,Ztop,1]   (3)
[s×(xmiss+wmiss/2),s×(ymiss+hmiss),s]
=ProjMatcam_miss×[Xbot,Ybot,Zbot,1]   (4)
 補間部16は、上記の座標変換に基づいて、2D-BB42_missの垂直方向の中心線の上部端点及び下部端点の座標を特定するためのymiss、hmiss、及びxmiss+wmiss/2を下記(5)式~(7)式に示すように算出する。
miss=s×ymiss/s                  (5)
miss=s×(ymiss+hmiss)/s-ymiss       (6)
miss+wmiss/2=s×(xmiss+wmiss/2)/s   (7)
 補間部16は、特定した上部端点と下部端点とを結ぶ線を2D-BB42_missの垂直方向の中心線として特定し、その中心線の長さを2D-BB42_missの高さとして特定する。
 また、補間部16は、特定した2D-BB42_missの高さと、体操選手90の姿勢に関する統計情報とに基づいて、2D-BB42_missの幅を推定する。統計情報は、例えば、体操選手が異なる複数の姿勢をとった場合の各々における、体操選手を囲む3D-BB44の高さ及び幅の和の平均としてよい。以下では、図7に示すように、3D-BB44の高さをHeight_3D、幅のうち大きい方をWidth_max_3D、小さい方をWidth_min_3Dとする。
 統計情報についてより具体的に説明する。まず、図8に示すように、モーションキャプチャ、人手によるアノテーション、公開されているデータ等から取得される、実物大の体操選手の三次元モデルを複数の姿勢(ポーズ)について用意する。図8の例では、Mポーズ分の三次元モデルが用意されている。そして、各三次元モデルについて、3D-BB44を特定し、それぞれHeight_3D、Width_max_3D、及びWidth_min_3Dを算出し、下記(8)式に示す平均Mean_3Dを統計情報として算出しておく。
Mean_3D=(1/M)Σ((Width_max_3D+Width_min_3D)/2+Height_3D)   (8)
 補間部16は、上記統計情報Mean_3Dと、既に算出しているZtop及びZbotとを用いて、下記(9)式に示すように、対象の体操選手90の3D-BB44の幅Width_3Dを算出する。
Width_3D=Mean_3D-||Ztop-Zbot||   (9)
 3D-BBを画像上に透視投影する場合、投影された2D-BBの高さと幅との比は、投影前の3D-BBの高さと幅との比と同様である。そこで、補間部16は、算出したWidth_3Dと、既に算出しているZtop、Zbot、及びhmissとを用いて、下記(10)式に示すように、2D-BB42_missの幅wmissを算出する。さらに、補間部16は、下記(11)式に示すように、算出したwmiss及び(7)式により、xmissを算出する。
miss=(Width_3D/||Ztop-Zbot||)×hmiss   (10)
miss=xmiss+wmiss/2-wmiss/2             (11)
 補間部16は、(5)式、(6)式、(10)式、及び(11)式により算出される[xmiss,ymiss,wmiss,hmiss]で特定される2D-BB42_missを、画像40_missにおいて補間する。そして、補間部16は、補間した2D-BB42_missと、2DBB42kとをまとめて、2D-BB検出済みの多視点画像として出力する。
 領域検出装置10は、例えば図9に示すコンピュータ50で実現されてよい。コンピュータ50は、CPU(Central Processing Unit)51と、一時記憶領域としてのメモリ52と、不揮発性の記憶部53とを備える。また、コンピュータ50は、カメラ30n、入力装置、表示装置等の外部装置が接続される入出力I/F(Interface)54と、記憶媒体59に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部55とを備える。また、コンピュータ50は、インターネット等のネットワークに接続される通信I/F56を備える。CPU51、メモリ52、記憶部53、入出力I/F54、R/W部55、及び通信I/F56は、バス57を介して互いに接続される。
 記憶部53は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現されてよい。記憶媒体としての記憶部53には、コンピュータ50を、領域検出装置10として機能させるための領域検出プログラム60が記憶される。領域検出プログラム60は、取得プロセス62と、検出プロセス64と、補間プロセス66とを有する。また、記憶部53は、検出モデル20を構成する情報が記憶される情報記憶領域70を有する。
 CPU51は、領域検出プログラム60を記憶部53から読み出してメモリ52に展開し、領域検出プログラム60が有するプロセスを順次実行する。CPU51は、取得プロセス62を実行することで、図2に示す取得部12として動作する。また、CPU51は、検出プロセス64を実行することで、図2に示す検出部14として動作する。また、CPU51は、補間プロセス66を実行することで、図2に示す補間部16として動作する。また、CPU51は、情報記憶領域70から情報を読み出して、検出モデル20をメモリ52に展開する。これにより、領域検出プログラム60を実行したコンピュータ50が、領域検出装置10として機能することになる。なお、プログラムを実行するCPU51はハードウェアである。
 なお、領域検出プログラム60により実現される機能は、例えば半導体集積回路、より詳しくはGPU(Graphics Processing Unit)やASIC(Application Specific Integrated Circuit)等で実現することも可能である。
 次に、本実施形態に係る領域検出装置10の作用について説明する。領域検出装置10にカメラ30nから多視点画像が入力されると、領域検出装置10において、図10に示す領域検出処理が実行される。なお、領域検出処理は、開示の技術の領域検出方法の一例である。
 ステップS10で、取得部12が、領域検出装置10に入力された多視点画像を取得する。次に、ステップS12で、検出部14が、取得された多視点画像に含まれる各画像40nを検出モデル20に入力して、画像40nの各々から2D-BB42nを検出する。次に、ステップS14で、検出部14が、多視点画像に含まれる画像40nのうち、2D-BB42nが検出されていない画像40nが存在する否かを判定する。2D-BB42nが検出されていない画像40nが存在する場合には、ステップS16へ移行し、存在しない場合には、ステップS24へ移行する。
 ステップS16では、補間部16が、検出された2D-BB42kの垂直方向の中心線の上部端点の座標[x+w/2,y]、及下部端点の座標[x+w/2,y+h]を特定する。次に、ステップS18で、補間部16が、カメラ30k(図10では「OKカメラ」と表記)のパラメータ行列を用いて、上部端点及び下部端点の座標を三次元座標に変換した点P3dtop及びP3dbotを特定する。そして、補間部16が、P3dtopとP3dbotとを結ぶ線を人物中心線として特定する。
 次に、ステップS20で、補間部16が、P3dtop及びP3dbotの三次元座標を、カメラ30_miss(図10では「missカメラ」と表記)のパラメータ行列に基づいて、画像40_miss(図10では「miss画像」と表記)に投影する。これにより、2D-BB42_missの垂直方向の中心線が特定され、その中心線の長さが2D-BB42_missの高さとして特定される。
 次に、ステップS22で、補間部16が、特定した2D-BB42_missの高さと、体操選手90の姿勢に関する統計情報とに基づいて、2D-BB42_missの幅を推定する。これにより、上記ステップS20で特定された2D-BB42_missの垂直方向の中心線及び高さと、本ステップで推定された2D-BB42_missの幅とで特定される2D-BB42_missが画像40_missにおいて補間される。
 次に、ステップS24で、補間部16が、各画像40nから2D-BB42nが検出された多視点画像を出力する。検出された2D-BB42nには、上記ステップS22で補間された2D-BBが含まれる。次に、ステップS26で、取得部12が、次の多視点画像が領域検出装置10に入力されたか否かを判定する。次の多視点画像が領域検出装置10に入力された場合には、ステップS10に戻り、入力されていない場合には、領域検出処理は終了する。
 図11に、4つの画像を含む多視点画像において、検出されなかった2D-BBを補間した一例を示す。なお、図11において、cam_id:n(n=1,2,3,4)は、idがnのカメラで撮影された画像を表す。また、frame:852は、各画像に対応付けられたフレーム番号であり、上記実施形態の時間情報に相当する。図11左図に示すように、フレーム番号852の多視点画像に含まれるcam_id:3において欠落していた2D-BBが、本実施形態を適用することにより、図11右図に示すように補間される。
 以上説明したように、本実施形態に係る領域検出装置は、人物を各々異なる方向から撮影する複数のカメラの各々が撮影した画像のセットである多視点画像を取得する。また、領域検出装置は、取得した多視点画像に含まれる画像の各々を、画像に含まれる人物の領域を示すバウンディングボックスを検出するように予め機械学習により生成された検出モデルに入力して、画像の各々からバウンディングボックスを検出する。そして、領域検出装置は、取得した画像のうち第一の画像から検出されたバウンディングボックスと、複数のカメラの各々のパラメータとに基づいて、取得した画像のうちの第二の画像におけるバウンディングボックスを補間する。
 より具体的には、領域検出装置は、検出された2D-BBをカメラの内部及び外部パラメータを使用して二次元から三次元へ投影し、三次元空間における垂直方向の人物中心線を特定する。そして、領域検出装置は、様々な姿勢の体操選手の三次元モデルから事前に算出しておいた、3D-BBの高さ及び幅の平均を示す統計情報と、人物中心線の長さである3D-BBの高さとに基づいて、3D-BBの幅を推定する。さらに、領域検出装置は、人物中心線、3D-BBの高さ及び幅から特定される3D-BBを、カメラの内部及び外部パラメータを使用して三次元から二次元へ投影することにより、画像内の2D-BBを補間する。これにより、多視点画像における未検出のバウンディングボックスを適切に補間することができる。
 本実施形態に係る領域検出装置から出力される2D-BB検出済みの多視点画像は、例えば図12に示すように、体操選手の学習型骨格認識等に利用される。図12の例では、2D-BBが既知である多視点画像と、その多視点画像が表す体操選手の各関節の三次元座標(以下、「3D関節座標」という)の正解とのペアを訓練データとして、骨格認識モデルを事前に機械学習により生成しておく。骨格認識モデルは、例えばニューラルネットワーク等である。そして、認識対象の体操選手の多視点画像として、本実施形態に係る領域検出装置から出力された2D-BB検出済みの多視点画像が取得されると、機械学習済みの骨格認識モデルに多視点画像が入力され、3D関節座標が出力される。そして、骨格認識モデルから出力された3D関節座標を一次骨格認識結果とし、各関節間の長さや位置関係等の制約に基づいて、各関節位置の位置探索を行った3D関節座標がフィッティング結果として出力される。
 また、上記実施形態では、複数のカメラが略同一水平面に配置されている場合について説明したが、これに限定されない。例えば、選手が行う競技によっては、略同一垂直面内に配置された複数のカメラで撮影される多視点画像の方が、骨格認識等で精度の高い認識結果を得られる場合もある。この場合、第一の画像から検出された2D-BBの幅と、第一の画像を撮影したカメラのパラメータとに基づいて3D-BBの幅を特定し、3D-BBの幅と、体操選手の三次元モデルに関する統計情報とに基づいて3D-BBの高さを推定するようにすればよい。
 また、上記実施形態では、第一の画像を2D-BBが検出された画像とし、第二の画像を2D-BBが検出されなかった画像とする場合、すなわち、2D-BBが欠落している画像において2D-BBを補間する場合について説明したが、これに限定されない。例えば、多視点画像に含まれる各画像をそれぞれ第一の画像とし、他の画像を第二の画像とし、第一の画像において検出された2D-BBを、上記実施形態と同様に補間される2D-BBに基づいて補正するようにしてもよい。また、検出モデルがバウンディングボックスの検出と共に、その検出の信頼度を出力する場合、検出の信頼度が所定値以下の場合に、上記実施形態における2D-BBが検出されなかった場合と同様に扱うようにしてもよい。
 また、上記実施形態では、領域検出プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。
10   領域検出装置
12   取得部
14   検出部
16   補間部
20   検出モデル
301、302、303 カメラ
401、402、403      画像
421、422       2D-BB
50   コンピュータ
51   CPU
52   メモリ
53   記憶部
59   記憶媒体
60   領域検出プログラム

Claims (20)

  1.  人物を各々異なる方向から撮影する複数の撮影装置の各々が撮影した画像を取得し、
     取得した画像を、画像に含まれる人物の領域を検出するように予め機械学習により生成された機械学習モデルに入力して、前記取得した画像の各々から人物を示す領域を検出し、
     前記取得した画像のうち第一の画像から検出された前記人物の領域と、前記複数の撮影装置の各々のパラメータとに基づいて、前記取得した画像のうちの第二の画像における前記人物を示す領域を補間する
     ことを含む処理をコンピュータに実行させるための領域検出プログラム。
  2.  前記第一の画像は、前記取得した画像のうち、前記機械学習モデルにより前記人物を示す領域が検出された画像であり、
     前記第二の画像は、前記取得した画像のうち、前記機械学習モデルにより前記人物を示す領域が検出されていない画像である
     請求項1に記載の領域検出プログラム。
  3.  前記複数の撮影装置は、同一水平面内に配置されており、
     前記第一の画像から検出された前記人物を示す領域の高さと、前記複数の撮影装置の各々のパラメータとに基づいて特定される前記第二の画像における前記人物を示す領域の高さと、前記人物の姿勢に関する統計情報とに基づいて、前記第二の画像における前記人物を示す領域の幅を推定する
     請求項2に記載の領域検出プログラム。
  4.  前記第一の画像から検出された前記人物を示す領域の垂直方向の中心線の端点を、前記第一の画像を撮影した撮影装置の各々のパラメータに基づいて、三次元空間における人物の垂直方向の中心線の端点の座標に変換し、変換された三次元空間における座標を、前記第二の画像を撮影した撮影装置のパラメータに基づいて、第二の画像上の座標に変換して、前記第二の画像における前記人物を示す領域の高さを特定する請求項3に記載の領域検出プログラム。
  5.  前記人物の姿勢に関する統計情報は、人物が異なる複数の姿勢をとった場合の各々における、前記人物を囲む直方体の高さと幅との和の平均である請求項4に記載の領域検出プログラム。
  6.  前記三次元空間における人物の垂直方向の中心線の長さを、前記三次元空間における人物の高さとし、前記統計情報が示す平均と、前記三次元空間における人物の高さとの差を、前記三次元空間における人物の幅として推定し、前記三次元空間における人物の高さと幅との比、及び前記第二の画像における前記人物を示す領域の高さに基づいて、前記第二の画像における前記人物を示す領域の幅を推定する請求項5に記載の領域検出プログラム。
  7.  前記複数の撮影装置は、同一垂直面内に配置されており、
     前記第一の画像から検出された前記人物を示す領域の幅と、前記複数の撮影装置の各々のパラメータとに基づいて特定される前記第二の画像における前記人物を示す領域の幅と、前記人物の姿勢に関する統計情報とに基づいて、前記第二の画像における前記人物を示す領域の高さを推定する
     請求項2に記載の領域検出プログラム。
  8.  人物を各々異なる方向から撮影する複数の撮影装置の各々が撮影した画像を取得する取得部と、
     取得した画像を、画像に含まれる人物の領域を検出するように予め機械学習により生成された機械学習モデルに入力して、前記取得した画像の各々から人物を示す領域を検出する検出部と、
     前記取得した画像のうち第一の画像から検出された前記人物の領域と、前記複数の撮影装置の各々のパラメータとに基づいて、前記取得した画像のうちの第二の画像における前記人物を示す領域を補間する補間部と、
     を含む領域検出装置。
  9.  前記第一の画像は、前記取得した画像のうち、前記機械学習モデルにより前記人物を示す領域が検出された画像であり、
     前記第二の画像は、前記取得した画像のうち、前記機械学習モデルにより前記人物を示す領域が検出されていない画像である
     請求項8に記載の領域検出装置。
  10.  前記複数の撮影装置は、同一水平面内に配置されており、
     前記補間部は、前記第一の画像から検出された前記人物を示す領域の高さと、前記複数の撮影装置の各々のパラメータとに基づいて特定される前記第二の画像における前記人物を示す領域の高さと、前記人物の姿勢に関する統計情報とに基づいて、前記第二の画像における前記人物を示す領域の幅を推定する
     請求項9に記載の領域検出装置。
  11.  前記補間部は、前記第一の画像から検出された前記人物を示す領域の垂直方向の中心線の端点を、前記第一の画像を撮影した撮影装置の各々のパラメータに基づいて、三次元空間における人物の垂直方向の中心線の端点の座標に変換し、変換された三次元空間における座標を、前記第二の画像を撮影した撮影装置のパラメータに基づいて、第二の画像上の座標に変換して、前記第二の画像における前記人物を示す領域の高さを特定する請求項10に記載の領域検出装置。
  12.  前記人物の姿勢に関する統計情報は、人物が異なる複数の姿勢をとった場合の各々における、前記人物を囲む直方体の高さと幅との和の平均である請求項11に記載の領域検出装置。
  13.  前記補間部は、前記三次元空間における人物の垂直方向の中心線の長さを、前記三次元空間における人物の高さとし、前記統計情報が示す平均と、前記三次元空間における人物の高さとの差を、前記三次元空間における人物の幅として推定し、前記三次元空間における人物の高さと幅との比、及び前記第二の画像における前記人物を示す領域の高さに基づいて、前記第二の画像における前記人物を示す領域の幅を推定する請求項12に記載の領域検出装置。
  14.  前記複数の撮影装置は、同一垂直面内に配置されており、
     前記補間部は、前記第一の画像から検出された前記人物を示す領域の幅と、前記複数の撮影装置の各々のパラメータとに基づいて特定される前記第二の画像における前記人物を示す領域の幅と、前記人物の姿勢に関する統計情報とに基づいて、前記第二の画像における前記人物を示す領域の高さを推定する
     請求項9に記載の領域検出装置。
  15.  人物を各々異なる方向から撮影する複数の撮影装置の各々が撮影した画像を取得し、
     取得した画像を、画像に含まれる人物の領域を検出するように予め機械学習により生成された機械学習モデルに入力して、前記取得した画像の各々から人物を示す領域を検出し、
     前記取得した画像のうち第一の画像から検出された前記人物の領域と、前記複数の撮影装置の各々のパラメータとに基づいて、前記取得した画像のうちの第二の画像における前記人物を示す領域を補間する
     ことを含む処理をコンピュータが実行する領域検出方法。
  16.  前記第一の画像は、前記取得した画像のうち、前記機械学習モデルにより前記人物を示す領域が検出された画像であり、
     前記第二の画像は、前記取得した画像のうち、前記機械学習モデルにより前記人物を示す領域が検出されていない画像である
     請求項15に記載の領域検出方法。
  17.  前記複数の撮影装置は、同一水平面内に配置されており、
     前記第一の画像から検出された前記人物を示す領域の高さと、前記複数の撮影装置の各々のパラメータとに基づいて特定される前記第二の画像における前記人物を示す領域の高さと、前記人物の姿勢に関する統計情報とに基づいて、前記第二の画像における前記人物を示す領域の幅を推定する
     請求項16に記載の領域検出方法。
  18.  前記第一の画像から検出された前記人物を示す領域の垂直方向の中心線の端点を、前記第一の画像を撮影した撮影装置の各々のパラメータに基づいて、三次元空間における人物の垂直方向の中心線の端点の座標に変換し、変換された三次元空間における座標を、前記第二の画像を撮影した撮影装置のパラメータに基づいて、第二の画像上の座標に変換して、前記第二の画像における前記人物を示す領域の高さを特定する請求項17に記載の領域検出方法。
  19.  前記人物の姿勢に関する統計情報は、人物が異なる複数の姿勢をとった場合の各々における、前記人物を囲む直方体の高さと幅との和の平均である請求項18に記載の領域検出方法。
  20.  人物を各々異なる方向から撮影する複数の撮影装置の各々が撮影した画像を取得し、
     取得した画像を、画像に含まれる人物の領域を検出するように予め機械学習により生成された機械学習モデルに入力して、前記取得した画像の各々から人物を示す領域を検出し、
     前記取得した画像のうち第一の画像から検出された前記人物の領域と、前記複数の撮影装置の各々のパラメータとに基づいて、前記取得した画像のうちの第二の画像における前記人物を示す領域を補間する
     ことを含む処理をコンピュータに実行させるための領域検出プログラムを記憶した非一時的記憶媒体。
PCT/JP2021/037958 2021-10-13 2021-10-13 領域検出プログラム、装置、及び方法 WO2023062760A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2023553831A JPWO2023062760A1 (ja) 2021-10-13 2021-10-13
CN202180102809.3A CN118043856A (zh) 2021-10-13 2021-10-13 区域检测程序、装置以及方法
PCT/JP2021/037958 WO2023062760A1 (ja) 2021-10-13 2021-10-13 領域検出プログラム、装置、及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/037958 WO2023062760A1 (ja) 2021-10-13 2021-10-13 領域検出プログラム、装置、及び方法

Publications (1)

Publication Number Publication Date
WO2023062760A1 true WO2023062760A1 (ja) 2023-04-20

Family

ID=85987320

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/037958 WO2023062760A1 (ja) 2021-10-13 2021-10-13 領域検出プログラム、装置、及び方法

Country Status (3)

Country Link
JP (1) JPWO2023062760A1 (ja)
CN (1) CN118043856A (ja)
WO (1) WO2023062760A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002290962A (ja) * 2001-03-27 2002-10-04 Mitsubishi Electric Corp 侵入者自動追尾方法および装置並びに画像処理装置
JP2009143722A (ja) * 2007-12-18 2009-07-02 Mitsubishi Electric Corp 人物追跡装置、人物追跡方法及び人物追跡プログラム
JP2021071749A (ja) 2019-10-29 2021-05-06 Kddi株式会社 3dモデル生成装置および方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002290962A (ja) * 2001-03-27 2002-10-04 Mitsubishi Electric Corp 侵入者自動追尾方法および装置並びに画像処理装置
JP2009143722A (ja) * 2007-12-18 2009-07-02 Mitsubishi Electric Corp 人物追跡装置、人物追跡方法及び人物追跡プログラム
JP2021071749A (ja) 2019-10-29 2021-05-06 Kddi株式会社 3dモデル生成装置および方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIDEO SAITOMAKOTO KIMURASATOSHI YAGUCHINAHO INAMOTO, VIEW INTERPOLATION OF MULTIPLE CAMERAS BASED ON PROJECTIVE GEOMETRY, 2002

Also Published As

Publication number Publication date
CN118043856A (zh) 2024-05-14
JPWO2023062760A1 (ja) 2023-04-20

Similar Documents

Publication Publication Date Title
JP5328979B2 (ja) 物体認識方法、物体認識装置、自律移動ロボット
CN109215117B (zh) 基于ORB与U-net的花卉三维重建方法
US9619704B2 (en) Fast articulated motion tracking
JP6793151B2 (ja) オブジェクトトラッキング装置、オブジェクトトラッキング方法およびオブジェクトトラッキングプログラム
JP5771413B2 (ja) 姿勢推定装置、姿勢推定システム、および姿勢推定方法
US10438412B2 (en) Techniques to facilitate accurate real and virtual object positioning in displayed scenes
US11727637B2 (en) Method for generating 3D skeleton using joint-based calibration acquired from multi-view camera
WO2011075082A1 (en) Method and system for single view image 3 d face synthesis
JP2007310707A (ja) 姿勢推定装置及びその方法
JP7064257B2 (ja) 画像深度確定方法及び生き物認識方法、回路、装置、記憶媒体
JP7164045B2 (ja) 骨格認識方法、骨格認識プログラムおよび骨格認識システム
JP5366258B2 (ja) 大空間カメラ配置における幾何情報に基づく仮想視点画像生成方法およびプログラム
CN109902675B (zh) 物体的位姿获取方法、场景重构的方法和装置
JP6922348B2 (ja) 情報処理装置、方法、及びプログラム
JP6310288B2 (ja) 画像処理装置および3次元物体トラッキング方法
JP6347610B2 (ja) 画像処理装置および3次元空間情報取得方法
CN110288707B (zh) 一种三维动态建模的方法及其系统
WO2023062760A1 (ja) 領域検出プログラム、装置、及び方法
JP7230722B2 (ja) 画像処理装置及び画像処理方法
JP7059701B2 (ja) 推定装置、推定方法、及び推定プログラム
JP2007109126A (ja) 移動体分布推定装置、移動体分布推定方法及び移動体分布推定プログラム
JP2011146762A (ja) 立体モデル生成装置
JP2002077941A (ja) 奥行き画像生成装置、奥行き画像生成方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005309782A (ja) 画像処理装置
JP6641313B2 (ja) 領域抽出装置及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21960618

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023553831

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2021960618

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2021960618

Country of ref document: EP

Effective date: 20240513