WO2023119968A1 - 3次元座標算出方法及び3次元座標算出装置 - Google Patents

3次元座標算出方法及び3次元座標算出装置 Download PDF

Info

Publication number
WO2023119968A1
WO2023119968A1 PCT/JP2022/042680 JP2022042680W WO2023119968A1 WO 2023119968 A1 WO2023119968 A1 WO 2023119968A1 JP 2022042680 W JP2022042680 W JP 2022042680W WO 2023119968 A1 WO2023119968 A1 WO 2023119968A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature point
dimensional coordinate
point information
feature
points
Prior art date
Application number
PCT/JP2022/042680
Other languages
English (en)
French (fr)
Inventor
大気 関井
Original Assignee
コニカミノルタ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカミノルタ株式会社 filed Critical コニカミノルタ株式会社
Publication of WO2023119968A1 publication Critical patent/WO2023119968A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images

Definitions

  • the present disclosure relates to technology for calculating three-dimensional coordinates of an object from a captured image.
  • Object detection technology which detects objects such as people and vehicles from images captured by cameras, is used as a basic technology for applications such as surveillance camera systems and in-vehicle camera systems.
  • a technique for detecting the joint points of the skeleton of the detected object is also used as a basic technique for various applications.
  • Non-Patent Document 1 discloses a technique for detecting two-dimensional skeleton information of an object (coordinates of joint points of the object on an image) using a trained neural network.
  • Non-Patent Document 2 discloses a technique of detecting the three-dimensional coordinates of each joint point using two-dimensional skeleton information detected in each frame as input to a neural network.
  • Non-Patent Document 2 only the two-dimensional skeleton information of the target person is used to calculate the three-dimensional skeleton information (three-dimensional coordinates of each joint point) of the target person.
  • the accuracy of calculation of the target person's three-dimensional skeleton information (three-dimensional coordinates of each joint point) can be improved.
  • the present disclosure has been made in view of the above problems, and an object thereof is to provide a three-dimensional coordinate calculation method and a three-dimensional coordinate calculation apparatus capable of calculating three-dimensional coordinates with higher accuracy than conventional ones. .
  • a three-dimensional coordinate calculation method is a three-dimensional coordinate calculation method for calculating the three-dimensional coordinates of an object appearing in an image captured by a monocular camera, wherein the feature of one object is calculated from a frame of the image.
  • a feature point detection step of detecting first feature point information about a point and second feature point information about a feature point of another object; and three-dimensional coordinates including depth for the first feature point information.
  • the three-dimensional coordinates of the feature points of one object are calculated using the information of the feature points of one object and the information of the feature points of another object. It is possible to calculate three-dimensional coordinates with higher precision than calculation using only information.
  • FIG. 1 is a block diagram showing a schematic configuration of a three-dimensional coordinate calculation system 1 according to Embodiment 1;
  • FIG. FIG. 2 is a diagram showing an example of an image 111 captured by a camera 15;
  • FIG. 3A and 3B are diagrams for explaining the feature detection result data 113.
  • FIG. 4A and 4B are diagrams for explaining the feature detection result data 113.
  • FIG. FIGS. 5A and 5B are diagrams for explaining three-dimensional (3D) coordinate data.
  • 2 is a block diagram showing the configuration of DNN;
  • FIG. 3 is a schematic diagram showing an object model and coordinate axes set for the object model;
  • FIG. FIG. 4 is a diagram showing projection of points in an object model onto coordinate axes;
  • Embodiment 1 A three-dimensional coordinate calculation system 1 according to Embodiment 1 will be described below.
  • FIG. 1 is a block diagram showing the configuration of a three-dimensional coordinate calculation system 1. As shown in FIG. As shown in the figure, the three-dimensional coordinate calculation system 1 includes a camera 15 and a three-dimensional coordinate calculation device 10 .
  • the camera 15 includes an imaging element such as a CMOS (Complementary Metal-Oxide-Semiconductor field-effect transistor) image sensor or a CCD (Charge-Coupled Device) image sensor, and converts the light imaged on the imaging element into an electric signal by photoelectric conversion. It is a monocular camera that outputs an image of a predetermined size by converting to .
  • CMOS Complementary Metal-Oxide-Semiconductor field-effect transistor
  • CCD Charge-Coupled Device
  • the three-dimensional coordinate calculation device 10 includes a control section 11 and an input/output interface 12 for connecting to a camera 15 .
  • the control unit 11 includes a CPU (Central Processing Unit) 11a, a main storage device 11b, an auxiliary storage device 11c, and the like.
  • the computer programs and data stored in the auxiliary storage device 11c are loaded into the main storage device 11b, and the CPU 11a operates according to the computer programs and data loaded in the main storage device 11b, so that each processing unit (object A detector 112 and a three-dimensional coordinate calculator 114) are realized.
  • the auxiliary storage device 11c is configured by, for example, a hard disk and/or a nonvolatile semiconductor memory.
  • the auxiliary storage device 13 stores an image 111 captured by the camera 15, feature detection result data 113, three-dimensional coordinate data 115, and the like.
  • the captured image 111 is image data of a plurality of frames captured by the camera 15 .
  • FIG. 2 is an example of image data 201 of one frame of the captured image 111 that is input to the object detector 112 .
  • the object detector 112 receives the captured image 111, performs object detection processing, and outputs feature detection result data 113 as the detection result of the feature of the object.
  • the object detector 112 is a neural network that has performed machine learning to detect the features of the object to be detected.
  • An existing neural network can be used for the object detection unit 112 .
  • object detection unit 112 uses OpenPose (see Non-Patent Document 1) and YOLO (see Non-Patent Document 3).
  • OpenPose is a neural network that detects joint points of an object (feature points such as face, neck, shoulders, etc.) from image data.
  • YOLO is a neural network that detects the bounding rectangle of an object.
  • FIG. 3(a) is a diagram schematically showing feature points of an object detected by OpenPose.
  • FIG. 3A shows detection results of each feature point when image data 201 in which a person is shown is input. As shown in the figure, a predetermined number of feature points 301 are detected for each detected person.
  • FIG. 4(a) is a diagram schematically showing the circumscribed rectangle of an object detected by YOLO.
  • FIG. 4A shows the result of detection of each circumscribing rectangle when the image data 201 showing the person and the object held by the person shown in the figure is input.
  • each vertex 401 of circumscribing rectangles 401A and 401B is detected for each detected object.
  • FIG. 3B shows an example of the data structure of the feature detection result data 113 for one feature point 301.
  • FIG. 4B shows an example of the data structure of feature detection result data 113 for one feature point 401.
  • the feature detection result data 113 includes feature point ID, position information (X), position information (Y), time information, likelihood information, object category information, Contains feature point category information.
  • a feature point ID is an identifier attached to uniquely identify a plurality of feature points detected by the object detector 112 .
  • the position information (X) is information indicating the X coordinate of the detected feature point in the detection image.
  • the position information (Y) is information indicating the Y coordinate of the detected feature point in the detection image.
  • the time information is the frame number of the detected image.
  • Likelihood information is information indicating that the detected feature points are likely to be detected.
  • the object category information is information indicating the category (type) of the object to which the detected feature points belong.
  • the object category information is, for example, values identifying humans, dogs, cats, cars, and the like.
  • the feature point category information is information indicating the category (type) of the detected feature point.
  • the feature point category information is, for example, a value identifying a head joint point, a neck joint point, a shoulder joint point, an upper left vertex of a circumscribed rectangle, an upper right vertex of a circumscribed rectangle, and the like.
  • Three-dimensional coordinate calculator 114 receives a plurality of feature detection result data 113 detected from a plurality of frames, and collectively calculates estimated values of the three-dimensional coordinates of each of the input feature detection result data 113. It is a trained neural network.
  • An existing neural network can be used for the three-dimensional coordinate calculator 114 .
  • the three-dimensional coordinate calculator 114 uses PointNet (see Non-Patent Document 4).
  • PointNet is a neural network for executing a specific task with point cloud data as input.
  • the three-dimensional coordinate calculator 114 is preferably a permutation-equivariant neural network that uses point group data as input.
  • the three-dimensional coordinate calculator 114 is learned to input a plurality of feature detection result data 113 as point group data and calculate the three-dimensional coordinates of the feature detection result data 113 corresponding to the joint points of the person.
  • the three-dimensional coordinate calculator 114 receives, as training data, the feature detection result data 113 detected from the training image data, and outputs estimated three-dimensional coordinate values. Then, the error from the three-dimensional correct coordinates of the feature points obtained by measuring with a distance sensor or the like as training data is calculated using a predetermined error function. Each parameter of the neural network is learned using the steepest descent method or the like so as to reduce this error.
  • the input to the three-dimensional coordinate calculator 114 is information on the joint points of the person whose three-dimensional coordinates are to be calculated, as well as information on objects around the person (objects possessed by the person and other objects around the person). This includes information on feature points of a person, etc.).
  • the calculation of the three-dimensional coordinates is faster than calculating the three-dimensional coordinates using only the information on the joint points of the person to be calculated.
  • Three-dimensional coordinates can be calculated with precision.
  • Three-dimensional coordinate data 115 A three-dimensional coordinate calculator 114 calculates three-dimensional coordinate data 115 for each feature point detected by the object detector 112 (feature detection result data 113).
  • FIG. 5(a) is a diagram schematically showing a plurality of detected feature points 501.
  • FIG. FIG. 5B shows the data structure of the three-dimensional coordinate data 115 calculated for the detected feature point 501.
  • the three-dimensional coordinate data 115 includes feature point IDs, position information (X), position information (Y), and depth information.
  • a feature point ID is an identifier attached to uniquely identify a feature point detected by the object detector 112 .
  • the position information (X) is information indicating the X coordinate of the detected feature point in the detection image.
  • the position information (Y) is information indicating the Y coordinate of the detected feature point in the detection image.
  • Depth information is information indicating the distance from the camera 15 to the detected feature point.
  • object detector 112 and 3D coordinate calculator 114 are machine-learned deep neural networks (DNN). Any DNN may be used for the object detector 112 as long as it detects feature points from an input image and outputs point cloud data.
  • the three-dimensional coordinate calculator 114 receives point cloud data and may use any DNN as long as it is permutation-equivariant.
  • a neural network 600 shown in FIG. 6 will be described as an example of a DNN neural network.
  • a neural network is an information processing system that imitates a human neural network.
  • an engineered neuron model corresponding to a nerve cell is called a neuron U here.
  • a neural network 600 has a structure in which a large number of neurons U are connected.
  • the neural network 600 is composed of a plurality of layers 601, each of which is composed of a plurality of neurons.
  • a weight indicating the strength of connection between neurons is set between neurons in adjacent layers.
  • a multi-input single-output element is used as the neuron U.
  • the signal propagates in one direction, and the input value is multiplied by the above weight and input to the neuron U. This weight can be changed by learning. From the neuron U, the sum of the input values multiplied by the weights is transformed by the activation function and then output to each neuron U of the next layer.
  • the activation function for example, ReLU or a sigmoid function can be used.
  • the first layer is called the input layer, and data is input. For example, the pixel value of each pixel forming one image is input to each neuron U of the input layer. Position information, time information, likelihood information, object category information, and feature point information included in the point cloud data are input to each neuron U of the input layer.
  • the last layer called the output layer, is the layer that outputs the results.
  • an error is calculated using a predetermined error function (loss function) from a value indicating the correct answer (teacher data) and the output value of the neural network 600 for the training data.
  • an error backpropagation method is used in which weights between neurons are sequentially changed using the steepest descent method or the like.
  • the object detector 112 uses OpenPose for detecting the joint points of the object and YOLO for detecting the circumscribed rectangle of the object.
  • a neural network that detects specific keypoints defined in the following description as feature points may be used.
  • FIG. 7 is a diagram showing an object model 700 of a car, which is an object to be detected, and coordinate axes 701 and 702 set for the object model 700.
  • the origin of coordinate axes 701 and 702 is the center of object model 700 .
  • Coordinate axes 701 and 702 each form a predetermined declination direction in a polar coordinate system having the center of the object model 700 as the origin.
  • FIG. 8 is a diagram showing points on the object model 700 projected onto the coordinate axes 701 and 702.
  • FIG. 8 is a diagram showing points on the object model 700 projected onto the coordinate axes 701 and 702.
  • point sets 703 to 707 on the object model 700 are projected onto point sets 801 to 805 on the coordinate axis 701 .
  • point sets 703 - 707 on object model 700 are projected onto point sets 811 - 815 on coordinate axis 702 .
  • points indicating characteristic portions are in the polar coordinate system formed by the coordinate axes 701 and 702. If the declination direction of is appropriately selected, it is a point that becomes a maximum value or a minimum value in the set of points projected onto the coordinate axes 701 and 702 . Conversely, of the set of points projected onto the coordinate axes 701 and 702 , the points that are the maximum or minimum values can be said to be the points that indicate the characteristic portions of the points on the surface of the object model 700 .
  • a point and a point with a minimum value are defined as specific keypoints. In this way, for each point on the surface of the object model 700, a point that protrudes from other parts or a point that is recessed from other parts is defined as a specific key point.
  • the object detector 112 may detect the specific keypoint as a feature detection result.
  • the feature detection result data 113 includes likelihood information, object category information, and feature point category information, but may include other information. For example, information on the appearance of the object (eg, color information, etc.) may be included.
  • the object detector 112 may be one that receives a single image of one frame as input and detects the features of the object in that one frame, and consists of a plurality of frames including one frame. A plurality of images may be input and the feature of an object in one frame may be detected.
  • a three-dimensional coordinate calculation method is a three-dimensional coordinate calculation method for calculating the three-dimensional coordinates of an object appearing in an image captured by a monocular camera, and a feature point detection step of detecting first feature point information relating to feature points and second feature point information relating to feature points of another object; a three-dimensional coordinate estimating step of calculating estimated values of coordinates, wherein the three-dimensional coordinate estimating step performs the calculation of the estimated values by inputting the first feature point information and the second feature point information. It is characterized in that it is performed by a neural operation that
  • the feature points of the one object may be joint points of the skeleton of the one object.
  • the feature points of the other object may be the joint points of the skeleton of the other object or the vertices of the circumscribed rectangle.
  • the feature points of the other object are a set of points obtained by projecting a set of points indicating the boundary of the object model onto a predetermined coordinate axis when considering an object model that models the shape of the object.
  • a point that satisfies a predetermined criterion, and the predetermined coordinate axis may have a center of the object model as an origin and form a predetermined declination direction in a polar coordinate system set for the object model. .
  • the predetermined condition is the maximum value or minimum value in a positive range of points that have a maximum value and a point that has a minimum value on the coordinate axis in the projected point set. It may be assumed that
  • the feature point detection step uses a single image of one frame as an input to calculate the first feature point information and the second feature point information of the one frame, or
  • the first feature point information and the second feature point information of the one frame may be calculated by inputting a plurality of images composed of a plurality of frames including the frame of .
  • the feature point detection step may use an object detector that performs neural operations with the single image or the plurality of images as input.
  • the first feature point information and the second feature point information may include two-dimensional coordinates of feature points and time information.
  • the first feature point information and the second feature point information are likelihood information indicating that the feature point is likely to be detected, object category information indicating the type of object, feature point feature point category information indicating the type of the object, or object appearance information indicating the appearance characteristics of the object.
  • the neural operation uses a DNN (Deep Neural Network) that receives the first feature point information and the second feature point information in a point cloud data format, and uses a DNN (Deep Neural Network) to obtain a plurality of may be collectively calculated for the first feature point information.
  • DNN Deep Neural Network
  • the DNN may be Permutation-Equivariant.
  • a three-dimensional coordinate calculation device is a three-dimensional coordinate calculation device for calculating three-dimensional coordinates of an object appearing in an image captured by a camera, wherein a feature point of one object is calculated from a frame of the image. and a feature point detector for detecting first feature point information relating to a feature point of another object and second feature point information relating to a feature point of another object, and three-dimensional coordinates including depth for the first feature point information a three-dimensional coordinate estimator for calculating an estimated value, wherein the three-dimensional coordinate estimator performs the calculation of the estimated value by a neuron having the first feature point information and the second feature point information as inputs. It is characterized in that it is performed by calculation.
  • the three-dimensional coordinates of the feature points of one object are calculated using the information of the feature points of one object and the information of the feature points of another object. It is possible to calculate three-dimensional coordinates with higher precision than calculation using only information.
  • the present disclosure is useful as an object tracking device installed in a surveillance camera system or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

高精度な3次元座標の計算を行うことが可能な3次元座標算出方法を提供する。単眼カメラで撮影した映像に映っている物体の3次元座標を計算する3次元座標算出方法は、映像のフレームから一の物体の特徴点に係る第1特徴点情報と、他の物体の特徴点に係る第2特徴点情報とを、計算する特徴点検出ステップと、第1特徴点情報に対して、深度を含む3次元座標の推定値を計算する3次元座標推定ステップと、を有し、3次元座標推定ステップは、推定値の計算を、第1特徴点情報と第2特徴点情報とを用いた深度計算処理により行う。

Description

3次元座標算出方法及び3次元座標算出装置
 本開示は、撮影画像から物体の3次元座標を算出する技術に関する。
 カメラで撮影された映像から人物や車両などの物体を検出する物体検出技術は、監視カメラシステムや車載カメラシステムなどのアプリケーションの基礎技術として利用されている。また、検出した物体の骨格の関節点を検出する技術も様々なアプリケーションの基礎技術として利用されている。
 近年、物体の骨格検出技術として、ディープラーニングが使用されている。ディープラーニングを用いた物体検出方法としては、例えば、非特許文献1や非特許文献2が挙げられる。非特許文献1では、学習済みのニューラルネットワークを用いて、物体の2次元の骨格情報(物体の関節点の画像上での座標)を検出する技術が開示されている。非特許文献2では、各フレームで検出された2次元の骨格情報をニューラルネットワークの入力として、各関節点の3次元座標を検出する技術が開示されている。
Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, Yaser Sheikh, "OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", インターネット<https://arxiv.org/abs/1812.08008> Kyoungoh Lee, Inwoong Lee, Sanghoon Lee, " Propagating LSTM: 3D Pose Estimation based on Joint Interdependency", インターネット< https://openaccess.thecvf.com/content_ECCV_2018/html/Kyoungoh_Lee_Propagating_LSTM_3D_ECCV_2018_paper.html> Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, " You Only Look Once: Unified, Real-Time Object Detection", インターネット< https://arxiv.org/abs/1506.02640> Charles R. Qi, Hao Su, Kaichun Mo, Leonidas J. Guibas, " PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation", インターネット <https://openaccess.thecvf.com/content_cvpr_2017/papers/Qi_PointNet_Deep_Learning_CVPR_2017_paper.pdf>
 非特許文献2では、対象人物の2次元の骨格情報のみを用いて、対象人物の3次元の骨格情報(各関節点の3次元座標)の計算を行っている。これに対し、対象人物の近くに存在する物体の情報を用いることで、対象人物の3次元の骨格情報(各関節点の3次元座標)の計算の精度を向上させることができる可能性がある。
 本開示は、上記課題に鑑みてなされたもので、従来よりも高精度な3次元座標の計算を行うことが可能な3次元座標算出方法および3次元座標算出装置を提供することを目的とする。
 本開示の一態様の3次元座標算出方法は、単眼カメラで撮影した映像に映っている物体の3次元座標を計算する3次元座標算出方法であって、前記映像のフレームから一の物体の特徴点に係る第1特徴点情報と、他の物体の特徴点に係る第2特徴点情報と、を検出する特徴点検出ステップと、前記第1特徴点情報に対して、深度を含む3次元座標の推定値を計算する3次元座標推定ステップと、を有し、前記3次元座標推定ステップは、前記推定値の計算を、前記第1特徴点情報と前記第2特徴点情報とを入力とするニューロ演算により行うことを特徴とする。
 本開示によると、一の物体の特徴点の情報と、他の物体の特徴点の情報を用いて、一の物体の特徴点の3次元座標の計算を行うので、一の物体の特徴点の情報のみで計算を行うよりも高精度の3次元座標を計算することができる。
実施の形態1に係る3次元座標算出システム1の概略構成を示すブロック図である。 カメラ15の撮影映像111の一例を示す図である。 図3(a)(b)は、特徴検出結果データ113について説明するための図である。 図4(a)(b)は、特徴検出結果データ113について説明するための図である。 図5(a)(b)は、3次元(3D)座標データについて説明するための図である。 DNNの構成を示すブロック図である。 オブジェクトモデル及びオブジェクトモデルに対して設定される座標軸を示す模式図である。 オブジェクトモデルにおける点の座標軸への射影を示す図である。
 1.実施の形態1
 以下、実施の形態1に係る3次元座標算出システム1について説明する。
 1.1 構成
 (1)3次元座標算出システム1
 図1は、3次元座標算出システム1の構成を示すブロック図である。図に示すように、3次元座標算出システム1は、カメラ15と、3次元座標算出装置10とを備える。
 (2)カメラ15
 カメラ15は、CMOS(Complementary Metal-Oxide-Semiconductor field-effect transistor)イメージセンサーやCCD(Charge-Coupled Device)イメージセンサー等の撮像素子を備え、撮像素子上に結像した光を光電変換で電気信号に変換することにより所定サイズの画像を出力する単眼のカメラである。
 (3)3次元座標算出装置10
 3次元座標算出装置10は、制御部11と、カメラ15に接続するための入出力インターフェース12とを備える。制御部11は、CPU(Central Processing Unit)11a、主記憶装置11b、補助記憶装置11cなどから構成される。主記憶装置11bには、補助記憶装置11cに格納されたコンピュータプログラムやデータがロードされ、CPU11aが、主記憶装置11bにロードされたコンピュータプログラムやデータにしたがって動作することにより、各処理部(物体検出器112、3次元座標算出器114)を実現する。補助記憶装置11cは、一例として、ハードディスクおよび/または不揮発性の半導体メモリから構成されている。
 補助記憶装置13は、カメラ15の撮影映像111、特徴検出結果データ113、3次元座標データ115などを記憶する。
 (4)撮影映像111
 撮影映像111は、カメラ15で撮影された複数フレームの画像データである。図2は、物体検出器112の入力となる撮影映像111の一フレームの画像データ201の一例である。
 (5)物体検出器112
 物体検出器112は、撮影映像111を入力とし、物体検出処理を行い、物体の特徴の検出結果として特徴検出結果データ113を出力する。
 物体検出器112は、検出対象の物体の特徴を検出するための機械学習を行ったニューラルネットワークである。物体検出部112は、既存のニューラルネットワークを用いることができる。本実施の形態では、物体検出部112は、OpenPose(非特許文献1参照)およびYOLO(非特許文献3参照)を用いる。OpenPoseは、画像データから物体の関節点(顔・首・肩などの特徴点)を検出するニューラルネットワークである。YOLOは、物体の外接矩形を検出するニューラルネットワークである。
 図3(a)は、OpenPoseにより検出された物体の特徴点を模式的に示す図である。図3(a)は、図に示す人物が写っている画像データ201を入力とした場合の各特徴点の検出結果である。図に示すように、検出された人物毎に所定数個の特徴点301が検出される。
 図4(a)は、YOLOにより検出された物体の外接矩形を模式的に示す図である。図4(a)は、図に示す人物および人物が所持している物体が写っている画像データ201を入力とした場合の各外接矩形の検出結果である。図に示すように、検出された物体毎に外接矩形401A、401Bの各頂点401が検出される。
 (6)特徴検出結果データ113
 物体検出器112は、図3(a)、図4(a)における複数の特徴点301、401それぞれの、特徴検出結果データ113を出力する。図3(b)は、1つの特徴点301に対する特徴検出結果データ113のデータ構造の一例を示す。図4(b)は、1つの特徴点401に対する特徴検出結果データ113のデータ構造の一例を示す。
図3(b)、図4(b)に示すように、特徴検出結果データ113は、特徴点ID、位置情報(X)、位置情報(Y)、時間情報、尤度情報、物体カテゴリ情報、特徴点カテゴリ情報を含んでいる。
 特徴点IDは、物体検出器112で検出された複数の特徴点を一意に識別するために付される識別子である。
 位置情報(X)は、検出した特徴点の検出画像におけるX座標を示す情報である。
 位置情報(Y)は、検出した特徴点の検出画像におけるY座標を示す情報である。
 時間情報は、検出画像のフレーム番号である。
 尤度情報は、検出した特徴点が尤もらしく検出されていることを示す情報である。
 物体カテゴリ情報は、検出した特徴点が属する物体のカテゴリ(種別)を示す情報である。物体カテゴリ情報は、例えば、人間、犬、猫、車、などを識別する値である。
 特徴点カテゴリ情報は、検出した特徴点のカテゴリ(種別)を示す情報である。特徴点カテゴリ情報は、例えば、頭の関節点、首の関節点、肩の関節点、外接矩形の左上の頂点、外接矩形の右上の頂点などを識別する値である。
 (7)3次元座標計算器114
 3次元座標計算器114は、複数フレームから検出された複数の特徴検出結果データ113を入力として、入力された特徴検出結果データ113それぞれの3次元座標の推定値を一括して算出するための機械学習を行ったニューラルネットワークである。
 3次元座標計算器114は、既存のニューラルネットワークを用いることができる。本実施の形態では、3次元座標計算器114は、PointNet(非特許文献4参照)を用いる。PointNetは点群データを入力として、特定のタスクを実行するためのニューラルネットワークである。3次元座標計算器114としては、点群データを入力として用い、Permutation-Equivariantなニューラルネットワークであることが望ましい。
 3次元座標計算器114は、複数の特徴検出結果データ113を点群データとして入力し、人物の関節点に対応する特徴検出結果データ113の3次元座標を計算するように学習されている。
 3次元座標計算器114は、学習時、訓練データとして、訓練用画像データから検出された特徴検出結果データ113を入力として3次元座標の推定値を出力する。そして、教師データとして距離センサーで計測するなどして取得した特徴点の3次元の正解座標との誤差を、所定の誤差関数により計算する。この誤差が小さくなるように、最急降下法などを用いてニューラルネットワークの各パラメータが学習される。
 3次元座標計算器114の入力には、3次元座標の算出対象となる人物の関節点の情報などに加えて、人物の周囲の物体(人物が所持している物体や人物の周囲にいる別の人物など)の特徴点の情報も含まれる。これらの情報を用いて算出対象となる人物の関節点の3次元座標を計算するように学習することにより、算出対象となる人物の関節点の情報だけで3次元座標を計算するよりも、高精度に3次元座標を計算することができる。
 (8)3次元座標データ115
 3次元座標計算器114により、物体検出器112で検出された特徴点(特徴検出結果データ113)それぞれに対して、3次元座標データ115が算出される。
 図5(a)は、検出された複数の特徴点501を模式的に示す図である。図5(b)は、検出された特徴点501に対して算出される3次元座標データ115のデータ構造を示す。図5(b)に示すように、3次元座標データ115は、特徴点IDと位置情報(X)と位置情報(Y)と深度情報とを含む。特徴点IDは、物体検出器112で検出された特徴点を一意に識別するために付される識別子である。位置情報(X)は、検出した特徴点の検出画像におけるX座標を示す情報である。位置情報(Y)は、検出した特徴点の検出画像におけるY座標を示す情報である。深度情報は、検出した特徴点のカメラ15からの距離を示す情報である。
 1.2 DNN
 上述のように、物体検出器112および3次元座標計算器114は、機械学習を行ったディープニューラルネットワーク(DNN)である。物体検出器112は、入力画像から特徴点を検出し、点群データを出力するものであれば、任意のDNNを用いてもよい。3次元座標計算器114は、点群データを入力とし、Permutation-Equivariantであれば、任意のDNNを用いてもよい。
 DNNニューラルネットワークの一例として、図6に示すニューラルネットワーク600について、説明する。
 (1)ニューラルネットワーク600の構造
 ニューラルネットワークとは、人間の神経ネットワークを模倣した情報処理システムのことである。ニューラルネットワーク600において、神経細胞に相当する工学的なニューロンのモデルを、ここではニューロンUと呼ぶ。ニューラルネットワーク600は、ニューロンUが多数結合された構造をしている。また、ニューラルネットワーク600は、それぞれが複数のニューロンが集まった複数の層601から構成される。隣り合う層のニューロン間には、ニューロン同士のつながりの強さを示す重みが設定されている。
 ニューロンUとして、多入力1出力の素子が用いられる。信号は一方向に伝わり、入力された値に、上記の重みが乗じられて、ニューロンUに入力される。この重みは、学習によって変化させることができる。ニューロンUからは、重みが乗じられたそれぞれの入力値の総和が活性化関数による変形を受けた後、次の層の各ニューロンUに出力される。なお、活性化関数としては、例えば、ReLUやシグモイド関数を用いることができる。
 最初の層は、入力層と呼ばれ、データが入力される。例えば、1枚の画像を構成する各画素の画素値がそれぞれ入力層の各ニューロンUに入力される。また、点群データに含まれる位置情報、時間情報、尤度情報、物体カテゴリ情報、特徴点情報がそれぞれ入力層の各ニューロンUに入力される。最後の層は、出力層と呼ばれ、結果を出力する層になる。
 ニューラルネットワーク600の学習方法としては、例えば、正解を示す値(教師データ)と訓練データに対するニューラルネットワーク600の出力値とから所定の誤差関数(損失関数)を用いて誤差(損失値)を算出し、この誤差が最小となるように、最急降下法等を用いてニューロン間の重みを順次変化させていく誤差逆伝播法(バックプロパゲーション)が用いられる。
 2.補足
 以上、本発明を実施の形態に基づいて説明してきたが本発明は上述の実施の形態に限定されないのは勿論であり、以下の変形例が本発明の技術範囲に含まれることは勿論である。
 (1)上述の実施の形態において、物体検出器112は、物体の関節点を検出するOpenPoseおよび物体の外接矩形を検出するYOLOを用いるとしたが、他の特徴点を検出するニューラルネットワークを用いてもよい。
 例えば、以下の説明で定義される特定キーポイントを特徴点として検出するニューラルネットワークを用いてもよい。
 検出対象の物体を立体的にモデル化したオブジェクトモデルを考える。ここでは、検出対象の物体が車である場合について説明する。
 図7は、検出対象の物体である車のオブジェクトモデル700と、当該オブジェクトモデル700に対して設定された座標軸701、702を示す図である。ここで、座標軸701、702の原点は、オブジェクトモデル700の中心である。また、座標軸701、702は、それぞれ、オブジェクトモデル700の中心を原点として設定された極座標系において所定の偏角方向をなしている。
 オブジェクトモデル700上の点集合703~707を、座標軸701、702に射影した点について考える。
 図8は、オブジェクトモデル700上の点を座標軸701、702に射影させた点を示す図である。
 図8に示すように、オブジェクトモデル700上の点集合703~707は、座標軸701の点集合801~805に射影される。同様に、オブジェクトモデル700上の点集合703~707は、座標軸702の点集合811~815に射影される。
 オブジェクトモデル700の表面上の各点において、特徴的な部分を示す点、例えば、他の部分よりも突出している点や他の部分よりも凹んでいる点は、座標軸701や702がなす極座標系の偏角方向を適切に選べば、座標軸701、702に射影された点集合において、極大値又は極小値となる点である。逆にいうと、座標軸701、702に射影された点集合うち、極大値又は極小値となる点は、オブジェクトモデル700の表面上の各点において、特徴的な部分を示す点といえる。このように座標軸上にオブジェクトモデル700の表面上の各点を射影した点集合のうち、極大値となる点及び極小値となる点をそれぞれ求め、それらの中から正の範囲で最大値となる点と最小値となる点を特定キーポイントと定義する。このようにして、オブジェクトモデル700の表面上の各点において、他の部分よりも突出している点や他の部分よりも凹んでいる点を特定キーポイントとして定義する。
 物体検出器112は、上記特定キーポイントを特徴検出結果として検出してもよい。
 (2)上述の実施の形態において、特徴検出結果データ113は、尤度情報、物体カテゴリ情報、特徴点カテゴリ情報を含むとしているが、他の情報を含んでいてもよい。例えば、物体の外観の情報(例えば、色の情報など)が含まれていてもよい。
 (3)上述の実施の形態において、物体検出器112は、一のフレームの単一画像を入力として当該一のフレームの物体の特徴を検出するものでもよく、一のフレームを含む複数フレームからなる複数画像を入力として当該一のフレームの物体の特徴を検出するものであってもよい。
 3.その他
 本開示の一態様の3次元座標算出方法は、単眼カメラで撮影した映像に映っている物体の3次元座標を計算する3次元座標算出方法であって、前記映像のフレームから一の物体の特徴点に係る第1特徴点情報と、他の物体の特徴点に係る第2特徴点情報と、を検出する特徴点検出ステップと、前記第1特徴点情報に対して、深度を含む3次元座標の推定値を計算する3次元座標推定ステップと、を有し、前記3次元座標推定ステップは、前記推定値の計算を、前記第1特徴点情報と前記第2特徴点情報とを入力とするニューロ演算により行うことを特徴とする。
 上記3次元座標算出方法において、前記一の物体の特徴点は、当該一の物体の骨格の関節点であるとしてもよい。
 上記3次元座標算出方法において、前記他の物体の特徴点は、当該他の物体の骨格の関節点または外接矩形の頂点であるとしてもよい。
 上記3次元座標算出方法において、前記他の物体の特徴点は、当該物体の形状をモデル化したオブジェクトモデルを考えたとき、前記オブジェクトモデルの境界を示す点集合を所定の座標軸に射影した点集合の中で、所定の基準を満たす点であり、前記所定の座標軸は、前記オブジェクトモデルの中心を原点とし、前記オブジェクトモデルに対して設定される極座標系において所定の偏角方向をなすとしてもよい。
 上記3次元座標算出方法において、前記所定の条件は、前記射影した点集合の中で、前記座標軸上で極大値となる点及び極小値となる点のうち、正の範囲で最大値又は最小値となることであるとしてもよい。
 上記3次元座標算出方法において、特徴点検出ステップは、一のフレームの単一画像を入力として前記一のフレームの前記第1特徴点情報および前記第2特徴点情報を算出する、または、前記一のフレームを含む複数フレームからなる複数画像を入力として前記一のフレームの前記第1特徴点情報および前記第2特徴点情報を算出するとしてもよい。
 上記3次元座標算出方法において、特徴点検出ステップは、前記単一画像または前記複数画像を入力としたニューロ演算を行う物体検出器を用いるとしてもよい。
 上記3次元座標算出方法において、前記第1特徴点情報および前記第2特徴点情報は、特徴点の2次元座標と時刻情報とを含むとしてもよい。
 上記3次元座標算出方法において、前記第1特徴点情報および前記第2特徴点情報は、特徴点が尤もらしく検出されていることを示す尤度情報、物体の種類を示す物体カテゴリ情報、特徴点の種類を示す特徴点カテゴリ情報、物体の外観の特徴を示す物体外観情報、のいずれかを含むとしてもよい。
 上記3次元座標算出方法において、前記ニューロ演算は、点群データ形式の前記第1特徴点情報および前記第2特徴点情報を入力とするDNN(Deep Neural Network)を用いて、複数フレームに渡る複数の前記第1特徴点情報に対する前記推定値を一括して算出するとしてもよい。
 上記3次元座標算出方法において、前記DNNは、Permutation-Equivariantであるとしてもよい。
 本開示の一態様の3次元座標算出装置は、カメラで撮影した映像に映っている物体の3次元座標を計算する3次元座標算出装置であって、前記映像のフレームから一の物体の特徴点に係る第1特徴点情報と、他の物体の特徴点に係る第2特徴点情報とを、検出する特徴点検出器と、前記第1特徴点情報に対して、深度を含む3次元座標の推定値を計算する3次元座標推定器と、を有し、前記3次元座標推定器は、前記推定値の計算を、前記第1特徴点情報と前記第2特徴点情報とを入力とするニューロ演算により行うことを特徴とする。
 本開示によると、一の物体の特徴点の情報と、他の物体の特徴点の情報を用いて、一の物体の特徴点の3次元座標の計算を行うので、一の物体の特徴点の情報のみで計算を行うよりも高精度の3次元座標を計算することができる。
 本開示は、監視カメラシステムなどに搭載される物体追跡装置として有用である。
  1 3次元座標算出システム
 10 3次元座標算出装置
112 物体検出器
114 3次元座標算出器
 15 カメラ

Claims (12)

  1.  単眼カメラで撮影した映像に映っている物体の3次元座標を計算する3次元座標算出方法であって、
     前記映像のフレームから一の物体の特徴点に係る第1特徴点情報と、他の物体の特徴点に係る第2特徴点情報と、を検出する特徴点検出ステップと、
     前記第1特徴点情報に対して、深度を含む3次元座標の推定値を計算する3次元座標推定ステップと、を有し、
     前記3次元座標推定ステップは、前記推定値の計算を、前記第1特徴点情報と前記第2特徴点情報とを入力とするニューロ演算により行う
     三次元座標算出方法。
  2.  前記一の物体の特徴点は、当該一の物体の骨格の関節点である
     請求項1に記載の三次元座標算出方法。
  3.  前記他の物体の特徴点は、当該他の物体の骨格の関節点または外接矩形の頂点である
     請求項1に記載の三次元座標算出方法。
  4.  前記他の物体の特徴点は、当該物体の形状をモデル化したオブジェクトモデルを考えたとき、前記オブジェクトモデルの境界を示す点集合を所定の座標軸に射影した点集合の中で、所定の基準を満たす点であり、
     前記所定の座標軸は、前記オブジェクトモデルの中心を原点とし、前記オブジェクトモデルに対して設定される極座標系において所定の偏角方向をなす
     請求項1に記載の三次元座標算出方法。
  5.  前記所定の条件は、前記射影した点集合の中で、前記座標軸上で極大値となる点及び極小値となる点のうち、正の範囲で最大値又は最小値となることである
     請求項4に記載の三次元座標算出方法。
  6.  特徴点検出ステップは、一のフレームの単一画像を入力として前記一のフレームの前記第1特徴点情報および前記第2特徴点情報を算出する、または、前記一のフレームを含む複数フレームからなる複数画像を入力として前記一のフレームの前記第1特徴点情報および前記第2特徴点情報を算出する
     請求項1に記載の三次元座標算出方法。
  7.  特徴点検出ステップは、前記単一画像または前記複数画像を入力としたニューロ演算を行う物体検出器を用いる
     請求項6に記載の三次元座標算出方法。
  8.  前記第1特徴点情報および前記第2特徴点情報は、特徴点の2次元座標と時刻情報とを含む
     請求項1に記載の三次元座標算出方法。
  9.  前記第1特徴点情報および前記第2特徴点情報は、特徴点が尤もらしく検出されていることを示す尤度情報、物体の種類を示す物体カテゴリ情報、特徴点の種類を示す特徴点カテゴリ情報、物体の外観の特徴を示す物体外観情報、のいずれかを含む
     請求項8に記載の三次元座標算出方法。
  10.  前記ニューロ演算は、点群データ形式の前記第1特徴点情報および前記第2特徴点情報を入力とするDNN(Deep Neural Network)を用いて、複数フレームに渡る複数の前記第1特徴点情報に対する前記推定値を一括して算出する
     請求項1に記載の三次元座標算出方法。
  11.  前記DNNは、Permutation-Equivariantである
     請求項10に記載の物体追跡方法。
  12.  カメラで撮影した映像に映っている物体の3次元座標を計算する3次元座標算出装置であって、
     前記映像のフレームから一の物体の特徴点に係る第1特徴点情報と、他の物体の特徴点に係る第2特徴点情報とを、検出する特徴点検出器と、
     前記第1特徴点情報に対して、深度を含む3次元座標の推定値を計算する3次元座標推定器と、を有し、
     前記3次元座標推定器は、前記推定値の計算を、前記第1特徴点情報と前記第2特徴点情報とを入力とするニューロ演算により行う
     三次元座標算出装置。
PCT/JP2022/042680 2021-12-20 2022-11-17 3次元座標算出方法及び3次元座標算出装置 WO2023119968A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-206543 2021-12-20
JP2021206543 2021-12-20

Publications (1)

Publication Number Publication Date
WO2023119968A1 true WO2023119968A1 (ja) 2023-06-29

Family

ID=86902168

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/042680 WO2023119968A1 (ja) 2021-12-20 2022-11-17 3次元座標算出方法及び3次元座標算出装置

Country Status (1)

Country Link
WO (1) WO2023119968A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019035155A1 (ja) * 2017-08-14 2019-02-21 楽天株式会社 画像処理システム、画像処理方法、及びプログラム
CN112036267A (zh) * 2020-08-14 2020-12-04 珠海格力电器股份有限公司 一种目标检测方法、装置、设备和计算机可读存储介质
US11074711B1 (en) * 2018-06-15 2021-07-27 Bertec Corporation System for estimating a pose of one or more persons in a scene

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019035155A1 (ja) * 2017-08-14 2019-02-21 楽天株式会社 画像処理システム、画像処理方法、及びプログラム
US11074711B1 (en) * 2018-06-15 2021-07-27 Bertec Corporation System for estimating a pose of one or more persons in a scene
CN112036267A (zh) * 2020-08-14 2020-12-04 珠海格力电器股份有限公司 一种目标检测方法、装置、设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN106845487B (zh) 一种端到端的车牌识别方法
EP3516624B1 (en) A method and system for creating a virtual 3d model
Kumar et al. Monocular fisheye camera depth estimation using sparse lidar supervision
CN110135249B (zh) 基于时间注意力机制和lstm的人体行为识别方法
CN113706699B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
Mehrizi et al. Toward marker-free 3D pose estimation in lifting: A deep multi-view solution
CN112750198B (zh) 一种基于非刚性点云的稠密对应预测方法
CN112200057A (zh) 人脸活体检测方法、装置、电子设备及存储介质
CN112528902B (zh) 一种基于3d人脸模型的视频监控动态人脸识别方法及装置
CN113312973A (zh) 一种手势识别关键点特征提取方法及系统
KR20190119212A (ko) 인공신경망을 이용한 가상 피팅 시스템, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
Ramon et al. Multi-view 3D face reconstruction in the wild using siamese networks
Aldahoul et al. A comparison between various human detectors and CNN-based feature extractors for human activity recognition via aerial captured video sequences
Martínez-González et al. Residual pose: A decoupled approach for depth-based 3D human pose estimation
Darujati et al. Facial motion capture with 3D active appearance models
CN113971801A (zh) 一种基于四类多模态数据融合的目标多维度检测方法
Weinrich et al. Appearance-based 3D upper-body pose estimation and person re-identification on mobile robots
Cao et al. Leveraging convolutional pose machines for fast and accurate head pose estimation
WO2023119968A1 (ja) 3次元座標算出方法及び3次元座標算出装置
WO2022107548A1 (ja) 3次元骨格検出方法及び3次元骨格検出装置
KR102039164B1 (ko) 다중 구조 인공신경망을 이용한 가상 피팅을 수행하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
Yu et al. Visual Perception and Control of Underwater Robots
CN112949769B (zh) 一种目标检测方法及目标检测系统
CN115249269A (zh) 目标检测方法、计算机程序产品、存储介质及电子设备
JP2022095332A (ja) 学習モデル生成方法、コンピュータプログラム及び情報処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22910687

Country of ref document: EP

Kind code of ref document: A1