WO2022210005A1 - 姿勢推定システム - Google Patents

姿勢推定システム Download PDF

Info

Publication number
WO2022210005A1
WO2022210005A1 PCT/JP2022/012495 JP2022012495W WO2022210005A1 WO 2022210005 A1 WO2022210005 A1 WO 2022210005A1 JP 2022012495 W JP2022012495 W JP 2022012495W WO 2022210005 A1 WO2022210005 A1 WO 2022210005A1
Authority
WO
WIPO (PCT)
Prior art keywords
dimensional
rgb
cameras
person
unit
Prior art date
Application number
PCT/JP2022/012495
Other languages
English (en)
French (fr)
Inventor
孝三 森山
晋 亀山
翔 阮
智博 中川
太郎 綿末
Original Assignee
Johnan株式会社
株式会社tiwaki
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Johnan株式会社, 株式会社tiwaki filed Critical Johnan株式会社
Priority to US18/026,352 priority Critical patent/US20230360261A1/en
Publication of WO2022210005A1 publication Critical patent/WO2022210005A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Definitions

  • the present invention relates to a posture estimation system.
  • the posture estimation device of Patent Document 1 is configured to estimate the position of each part of a person using a three-dimensional sensor capable of measuring the position of the person in real space.
  • a three-dimensional sensor when a three-dimensional sensor is used to estimate the position of a person's part, if the person's part is hidden by an obstacle or the like, it becomes difficult to estimate the position of that part.
  • a person is imaged using an RGB-D camera, and the position (two-dimensional position) of the person's part on the RGB image is estimated.
  • the position (three-dimensional position) of a person if a person's part is hidden by an obstacle or the like, the depth information of the position of the person's part estimated on the RGB image becomes the position of the obstacle. It is difficult to calculate the position of the part that Therefore, there is room for improvement in improving the accuracy of posture estimation.
  • the present invention has been made to solve the above problems, and an object of the present invention is to provide a posture estimation system capable of improving the accuracy of posture estimation.
  • a posture estimation system estimates the posture of an object, and uses a plurality of three-dimensional cameras that capture images of the object from different angles, and two-dimensional images from each of the plurality of three-dimensional cameras.
  • An estimating unit that estimates the position of a predetermined part of an object on a two-dimensional image, and the reliability of the depth information of the position is determined based on the change over time of the depth information of the position estimated by the estimating unit.
  • a determination unit and a calculation unit that calculates the position of a predetermined portion of the object in consideration of the determination result of the determination unit.
  • the position of a predetermined part of the object is calculated in consideration of the reliability of the depth information of a plurality of three-dimensional cameras, thereby improving the accuracy of posture estimation. .
  • the estimation unit may be configured to learn the characteristics of a predetermined part of the object on the two-dimensional image and track the predetermined part.
  • a posture estimation system estimates the posture of an object, and uses three or more three-dimensional cameras that capture images of the object from different angles, and the three-dimensional images of each of the three or more three-dimensional cameras.
  • a three-dimensional position calculation unit that calculates the three-dimensional position of a predetermined part of the object based on the three-dimensional position calculation unit, and based on three or more three-dimensional positions calculated by the three-dimensional position calculation unit, and a reliability evaluation unit that evaluates the
  • the posture estimation system further includes an estimation unit that estimates the position of a predetermined part of the object on each two-dimensional image using the two-dimensional images of the three or more three-dimensional cameras, the estimation unit comprising: A three-dimensional position that is configured to learn the characteristics of a predetermined part of an object on a two-dimensional image, track the predetermined part, and is evaluated as having low reliability by a reliability evaluation unit is obtained. It may be configured to re-learn the features of a predetermined part on the two-dimensional image obtained by the three-dimensional camera, and to redo the tracking.
  • the posture estimation system of the present invention it is possible to improve the accuracy of posture estimation.
  • FIG. 1 is a block diagram showing a schematic configuration of a posture estimation system according to this embodiment
  • FIG. 4 is a flowchart for explaining the operation of the posture estimation system of this embodiment
  • posture estimation system 100 First, the configuration of posture estimation system 100 according to an embodiment of the present invention will be described with reference to FIG.
  • the posture estimation system 100 is configured, for example, to calculate the position of each part of the skeleton of a person and estimate the posture of the person.
  • skeletal parts of a person include, but are not limited to, joints such as shoulders, elbows and wrists.
  • a person is an example of the "object" of the present invention.
  • the posture estimation system 100 includes a posture estimation device 1 and RGB-D cameras 2 and 3, as shown in FIG.
  • the RGB-D cameras 2 and 3 are configured to capture an image of a person positioned in a predetermined measurement area and acquire an RGB-D image.
  • An RGB-D image includes an RGB image (color image) and a depth image, and has depth information for each pixel in the RGB image. Note that the RGB-D cameras 2 and 3 are examples of the "three-dimensional camera” of the present invention, and the RGB images are examples of the "two-dimensional image” of the present invention.
  • the RGB-D cameras 2 and 3 are provided to capture images of a person from different angles. Therefore, even if a predetermined part of a person is hidden by an obstacle or the like in one of the RGB images of the RGB-D cameras 2 and 3, the other RGB image of the RGB-D cameras 2 and 3 will show the predetermined part of the person. The part of is easier to appear. In other words, two RGB-D cameras 2 and 3 are provided in order to prevent each part of a person positioned in a predetermined measurement area from becoming a blind spot.
  • the posture estimation device 1 is configured to receive RGB-D images from the RGB-D cameras 2 and 3 and estimate the posture of a person using the RGB-D images.
  • information regarding the positions and postures of the RGB-D cameras 2 and 3 is stored in advance. It is possible to improve the accuracy of posture estimation by merging data with high reliability among the three RGB-D image data.
  • the posture estimation device 1 is configured to use the RGB image from the RGB-D camera 2 to estimate the position of each part of the person on the RGB image. Also, the posture estimation device 1 is configured to use the RGB image from the RGB-D camera 3 to estimate the position of each part of the person on the RGB image. That is, the position of each part on the two-dimensional RGB image by the RGB-D camera 2 is estimated, and the position of each part on the two-dimensional RGB image by the RGB-D camera 3 is estimated.
  • the posture estimation device 1 is configured to learn the features of each part of a person on the RGB images of the RGB-D cameras 2 and 3 and track each part. That is, each part of a person is extracted by image processing, and each extracted part (image feature) is tracked.
  • the posture estimation apparatus 1 is configured to estimate the position (two-dimensional position) of the hidden part using a known algorithm, for example, when the part of the person is hidden by an obstacle or the like.
  • the depth information of the part hidden by the obstacle does not indicate the depth of the part, but the depth of the obstacle. Therefore, using the depth information of a part hidden by an obstacle may reduce the accuracy of estimating the position (three-dimensional position) of the part. Therefore, in the present embodiment, the reliability of depth information is determined, and the position of the part is calculated in consideration of the reliability.
  • the posture estimation device 1 obtains depth information of each part from the RGB-D camera 2 based on the change over time of the depth information about the position of each part of the person estimated on the RGB image from the RGB-D camera 2. configured to determine reliability; In addition, the posture estimation device 1 calculates the depth of each part of the person estimated by the RGB-D camera 3 on the RGB image based on the change over time of the depth information about the position of each part of the person. configured to determine the reliability of the information; That is, the reliability of the depth information for each part on the RGB image input from the RGB-D camera 2 is determined, and the depth information for each part on the RGB image input from the RGB-D camera 3 is determined. The reliability of the depth information is determined. Note that the temporal change in depth information is, for example, the change in depth information during a period from a preset predetermined time ago to the present time.
  • the posture estimation apparatus 1 is configured, for example, to determine that the reliability of the depth information of a part of a person estimated on the RGB image is higher as the change over time of the depth information of the part of the person is smaller.
  • the posture estimation device 1 is configured to calculate the position (three-dimensional position) of each part of the person from the RGB-D images of the RGB-D cameras 2 and 3 using highly reliable depth information. It is That is, for each part of the person, the position (three-dimensional position) of the part is calculated using the input from the RGB-D cameras 2 and 3, whichever is more reliable. For example, if the RGB-D camera 2 is highly reliable for the left shoulder of the person, the position of the left shoulder is calculated using the RGB-D image from the RGB-D camera 2, and the position of the left shoulder is calculated by the RGB-D camera for the right shoulder of the person. 3 is highly reliable, the RGB-D image from the RGB-D camera 3 is used to calculate the position of the right shoulder.
  • the posture estimation device 1 also includes a calculation unit 11 , a storage unit 12 and an input unit 13 .
  • the calculation unit 11 is configured to control the posture estimation device 1 by executing calculation processing based on a program or the like stored in the storage unit 12 .
  • the storage unit 12 stores a program for estimating the posture of a person, the positions and postures of the RGB-D cameras 2 and 3, and the like.
  • the RGB-D cameras 2 and 3 are connected to the input unit 13, and imaging results (RGB-D images) of the RGB-D cameras 2 and 3 are input.
  • the “estimating unit”, the “determining unit”, and the “calculating unit” of the present invention are realized by executing the program stored in the storage unit 12 by the calculating unit 11 .
  • attitude estimation system 100 Operation of attitude estimation system 100 according to the present embodiment will be described with reference to FIG.
  • each part of the person (all parts to be measured) located in the measurement area is made to appear with respect to the RGB-D cameras 2 and 3, and the initial position of each part (operation start time points) are calculated accurately.
  • the features of each part of the person on the RGB images of the RGB-D cameras 2 and 3 are learned, and each part can be tracked. Note that the following flow is repeatedly performed from the start of the attitude estimation operation to the end thereof.
  • the RGB-D cameras 2 and 3 capture an image of a person positioned in the measurement area.
  • the RGB-D images acquired by the RGB-D cameras 2 and 3 are output from the RGB-D cameras 2 and 3 to the posture estimation device 1 .
  • step S2 the posture estimation device 1 estimates the position of each part of the person on the RGB image captured by the RGB-D camera 2, and estimates the position of each part of the person on the RGB image captured by the RGB-D camera 3. Position is estimated. For example, the position of each part of the person is estimated by tracking each part of the learned person on the RGB image.
  • step S3 the posture estimation device 1 detects the position of the human part estimated on the RGB image by the RGB-D camera 2 based on the change in depth information over time.
  • the reliability of the depth information for the site is determined. This determination of reliability is performed for each part of the person estimated on the RGB image by the RGB-D camera 2 . Further, based on the change over time of the depth information about the position of the part of the person estimated on the RGB image by the RGB-D camera 3 by the posture estimation device 1, the depth information of the part by the RGB-D camera 3 is obtained. reliability is determined. This determination of reliability is performed for each part of the person estimated on the RGB image by the RGB-D camera 3 .
  • step S4 the posture estimation device 1 calculates the positions (three-dimensional positions) of the parts of the person using highly reliable depth information. Specifically, the position of the human part is calculated based on the RGB-D image obtained by the camera from which highly reliable depth information is obtained. The posture of the person is estimated by performing this position calculation for each part of the person.
  • the RGB-D cameras 2 and 3 are provided, and the position of each part of the person is calculated in consideration of the reliability of the depth information of the RGB-D cameras 2 and 3. By doing so, it is possible to improve the accuracy of posture estimation. In other words, it is possible to improve the accuracy of posture estimation by not using depth information with low reliability due to hidden parts of a person.
  • the predetermined part of the person when a predetermined part of the person is out of the angle of view of one of the RGB-D cameras 2 and 3, the predetermined part is within the angle of view of the other of the RGB-D cameras 2 and 3. If so, pose estimation can be done properly.
  • the present invention is not limited to this, and the posture of an object other than a person may be estimated.
  • the posture estimation device calculates the three-dimensional position of a predetermined part of the person based on the RGB-D images (three-dimensional images) of each of the three or more RGB-D cameras, and It may be configured to assess the reliability of one or more 3D positions based on those 3D positions. For example, when three RGB-D cameras are provided, the three-dimensional position of a predetermined part based on the RGB-D images obtained by the two RGB-D cameras is the same, and the remaining one RGB-D camera has the same three-dimensional position.
  • the reliability of the three-dimensional position by the two RGB-D cameras is evaluated as high, and the remaining one RGB-D is evaluated.
  • Reliability of 3D position by camera is evaluated as low. That is, based on the three-dimensional positions of the RGB-D images of the three RGB-D cameras, it is evaluated whether each RGB-D camera appropriately captures a predetermined part. In other words, since the two RGB-D cameras properly capture the predetermined part, the three-dimensional positions of the two RGB-D cameras are the same, whereas the remaining one RGB-D camera captures the same three-dimensional position.
  • the posture estimation apparatus may also determine reliability based on the above-described change in depth information over time. That is, the posture estimation device uses the RGB image from each RGB-D camera to estimate the position of a predetermined part of the person on the RGB image, and the depth information about the estimated position of the predetermined part. It may be configured to determine the reliability of the depth information of the predetermined region by the RGB-D camera based on the change over time.
  • the posture estimation device is configured to learn the characteristics of a predetermined part of a person on each RGB image of each RGB-D camera, track the predetermined part, and is evaluated as being unreliable. Re-learn the features of a predetermined part on the two-dimensional image by the RGB-D camera (the remaining one RGB-D camera in the case of the above example) that obtained the three-dimensional position obtained, and repeat the tracking. may be configured to In other words, for the RGB-D camera that has not been able to properly capture the predetermined part, the predetermined part is re-learned and the tracking is redone. It should be noted that the "estimating unit”, “determining unit”, “calculating unit”, “three-dimensional position calculating unit”, and “reliable "Sex Evaluation Unit” is realized.
  • the reliability of depth information may be determined in consideration of other factors in addition to changes over time. For example, it may be determined that the greater the distance between a predetermined site and the site closest to the predetermined site, the higher the reliability. Further, it may be determined that the higher the image quality around a predetermined portion in the RGB image (the clearer the contrast is without blurring), the higher the reliability. Further, it may be determined that the closer the distance from the camera to the predetermined part is, the higher the reliability is.
  • the reliability of the depth information of the predetermined portion of both the RGB-D cameras 2 and 3 is low, it may be output that the predetermined portion cannot be measured. .
  • the RGB-D cameras 2 and 3 have an RGB image acquisition unit that acquires RGB images and a depth image acquisition unit that acquires depth images, which are integrally provided in one housing. Alternatively, they may be provided in separate housings.
  • the present invention can be used for a posture estimation system that estimates the posture of an object.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Processing (AREA)

Abstract

姿勢推定システムは、対象物の姿勢を推定するものであり、対象物を異なる角度から撮像する複数の三次元カメラと、複数の三次元カメラのそれぞれの二次元画像を用いて、各二次元画像上における対象物の所定の部位の位置を推定する推定部と、推定部により推定された位置の深さ情報の経時変化に基づいて、その位置の深さ情報の信頼性を判定する判定部と、判定部の判定結果を考慮して、対象物の所定の部位の位置を算出する算出部とを備える。

Description

姿勢推定システム
 本発明は、姿勢推定システムに関する。
 従来、人物の姿勢を推定する姿勢推定装置が知られている(たとえば、特許文献1参照)。
 特許文献1の姿勢推定装置は、人物の実空間での位置を計測可能な三次元センサを用いて、人物の各部位の位置を推定するように構成されている。
特開2017-68424号公報
 ここで、上記のように、三次元センサを用いて人物の部位の位置を推定する場合において、人物の部位が障害物などによって隠れると、その部位の位置を推定することが困難になる。たとえば、RGB-Dカメラを用いて人物の撮像を行い、RGB画像上における人物の部位の位置(二次元位置)を推定するとともに、その推定された位置の深さ情報を用いて、人物の部位の位置(三次元位置)を算出する場合に、人物の部位が障害物などによって隠れると、RGB画像上で推定された人物の部位の位置の深さ情報が障害物の位置となるので、隠れた部位の位置を算出することが困難である。したがって、姿勢推定の精度向上を図ることについて改善の余地がある。
 本発明は、上記の課題を解決するためになされたものであり、本発明の目的は、姿勢推定の精度向上を図ることが可能な姿勢推定システムを提供することである。
 本発明による姿勢推定システムは、対象物の姿勢を推定するものであり、対象物を異なる角度から撮像する複数の三次元カメラと、複数の三次元カメラのそれぞれの二次元画像を用いて、各二次元画像上における対象物の所定の部位の位置を推定する推定部と、推定部により推定された位置の深さ情報の経時変化に基づいて、その位置の深さ情報の信頼性を判定する判定部と、判定部の判定結果を考慮して、対象物の所定の部位の位置を算出する算出部とを備える。
 このように構成することによって、複数の三次元カメラの深さ情報の信頼性を考慮して、対象物の所定の部位の位置が算出されることにより、姿勢推定の精度向上を図ることができる。
 上記姿勢推定システムにおいて、推定部は、二次元画像上における対象物の所定の部位の特徴を学習し、その所定の部位をトラッキングするように構成されていてもよい。
 本発明による姿勢推定システムは、対象物の姿勢を推定するものであり、対象物を異なる角度から撮像する3台以上の三次元カメラと、3台以上の三次元カメラのそれぞれの三次元画像に基づいて、対象物の所定の部位の三次元位置を算出する三次元位置算出部と、三次元位置算出部により算出された3つ以上の三次元位置に基づいて、それら三次元位置の信頼性を評価する信頼性評価部とを備える。
 上記姿勢推定システムにおいて、3台以上の三次元カメラのそれぞれの二次元画像を用いて、各二次元画像上における対象物の所定の部位の位置を推定する推定部をさらに備え、推定部は、二次元画像上における対象物の所定の部位の特徴を学習し、その所定の部位をトラッキングするように構成され、かつ、信頼性評価部により信頼性が低いと評価された三次元位置が得られた三次元カメラによる二次元画像上における所定の部位の特徴を再学習し、トラッキングをやり直すように構成されていてもよい。
 本発明の姿勢推定システムによれば、姿勢推定の精度向上を図ることができる。
本実施形態による姿勢推定システムの概略構成を示したブロック図である。 本実施形態の姿勢推定システムの動作を説明するためのフローチャートである。
 以下、本発明の一実施形態を説明する。
 まず、図1を参照して、本発明の一実施形態による姿勢推定システム100の構成について説明する。
 姿勢推定システム100は、たとえば人物の骨格の各部位の位置を算出して、その人物の姿勢を推定するように構成されている。人物の骨格の部位の一例として、肩、肘および手首などの関節を挙げることができるが、それに限定されるものではない。なお、人物は、本発明の「対象物」の一例である。姿勢推定システム100は、図1に示すように、姿勢推定装置1と、RGB-Dカメラ2および3とを備えている。
 RGB-Dカメラ2および3は、所定の測定領域に位置する人物を撮像して、RGB-D画像を取得するように構成されている。RGB-D画像は、RGB画像(カラー画像)および深度画像を含んでおり、RGB画像における各ピクセルの深さ情報を有する。なお、RGB-Dカメラ2および3は本発明の「三次元カメラ」の一例であり、RGB画像は本発明の「二次元画像」の一例である。
 RGB-Dカメラ2および3は、人物を異なる角度から撮像するように設けられている。このため、RGB-Dカメラ2および3の一方のRGB画像において人物の所定の部位が障害物などによって隠れている場合であっても、RGB-Dカメラ2および3の他方のRGB画像においてその所定の部位が現れやすくなっている。すなわち、所定の測定領域に位置する人物の各部位が死角となるのを抑制するために、2台のRGB-Dカメラ2および3が設けられている。
 姿勢推定装置1は、RGB-Dカメラ2および3からRGB-D画像が入力され、そのRGB-D画像を用いて人物の姿勢を推定するように構成されている。この姿勢推定装置1では、RGB-Dカメラ2および3の位置および姿勢などに関する情報(外部パラメータ)が予め格納されており、RGB-Dカメラ2のRGB-D画像によるデータと、RGB-Dカメラ3のRGB-D画像によるデータとのうち、信頼性の高いものを採用するようにマージすることによって、姿勢推定の精度向上を図ることが可能である。
 具体的には、姿勢推定装置1は、RGB-Dカメラ2によるRGB画像を用いて、そのRGB画像上における人物の各部位の位置を推定するように構成されている。また、姿勢推定装置1は、RGB-Dカメラ3によるRGB画像を用いて、そのRGB画像上における人物の各部位の位置を推定するように構成されている。すなわち、RGB-Dカメラ2による二次元のRGB画像上の各部位の位置が推定されるとともに、RGB-Dカメラ3による二次元のRGB画像上の各部位の位置が推定されるようになっている。
 また、姿勢推定装置1は、RGB-Dカメラ2および3のそれぞれのRGB画像上における人物の各部位の特徴を学習し、その各部位をトラッキングするように構成されている。すなわち、画像処理により、人物の各部位を抽出して、その抽出された各部位(画像的特徴)が追跡されるようになっている。そして、姿勢推定装置1は、たとえば、障害物などによって人物の部位が隠れた場合に、公知のアルゴリズムを用いてその隠れた部位の位置(二次元位置)を推定するように構成されている。しかしながら、障害物によって隠されている部位の深さ情報は、その部位の深さを示すものではなく、障害物の深さを示すものである。このため、障害物によって隠されている部位の深さ情報を用いると、部位の位置(三次元位置)の推定精度が低下するおそれがある。そこで、本実施形態では、深さ情報の信頼性を判定するとともに、その信頼性を考慮して部位の位置を算出するように構成されている。
 姿勢推定装置1は、RGB-Dカメラ2によるRGB画像上において推定された人物の各部位の位置についての深さ情報の経時変化に基づいて、RGB-Dカメラ2による各部位の深さ情報の信頼性を判定するように構成されている。また、姿勢推定装置1は、RGB-Dカメラ3によるRGB画像上において推定された人物の各部位の位置についての深さ情報の経時変化に基づいて、RGB-Dカメラ3による各部位の深さ情報の信頼性を判定するように構成されている。すなわち、RGB-Dカメラ2から入力されたRGB画像上における各部位それぞれについての深さ情報の信頼性が判定されるとともに、RGB-Dカメラ3から入力されたRGB画像上における各部位それぞれについての深さ情報の信頼性が判定されるようになっている。なお、深さ情報の経時変化は、たとえば、予め設定された所定時間前から現時点までの期間における深さ情報の変化である。
 たとえば、人物の所定の部位に隠れが生じないときには、人物の移動(姿勢の変化)により、その所定の部位の深さ情報が連続的(線形的)に変化する。一方、人物の所定の部位に隠れが生じると、深さ情報が所定の部位によるものから障害物によるものとなるため、深さ情報が急変する(カメラからの距離が急に短くなる)。そこで、姿勢推定装置1は、たとえば、RGB画像上で推定された人物の部位の深さ情報の経時変化が小さいほど、その部位の深さ情報の信頼性が高いと判定するように構成されている。
 そして、姿勢推定装置1は、RGB-Dカメラ2および3のRGB-D画像から、信頼性の高い深さ情報を用いて、人物の各部位の位置(三次元位置)を算出するように構成されている。つまり、人物の各部位それぞれについて、RGB-Dカメラ2および3からの入力のうち信頼性の高い方を用いて、部位の位置(三次元位置)が算出されるようになっている。たとえば、人物の左肩についてRGB-Dカメラ2の信頼性が高い場合には、RGB-Dカメラ2からのRGB-D画像を用いて左肩の位置が算出され、人物の右肩についてRGB-Dカメラ3の信頼性が高い場合には、RGB-Dカメラ3からのRGB-D画像を用いて右肩の位置が算出される。
 また、姿勢推定装置1は、演算部11と、記憶部12と、入力部13とを含んでいる。演算部11は、記憶部12に記憶されたプログラムなどに基づいて演算処理を実行することにより、姿勢推定装置1を制御するように構成されている。記憶部12には、人物の姿勢を推定するためのプログラムや、RGB-Dカメラ2および3の位置および姿勢などが記憶されている。入力部13には、RGB-Dカメラ2および3が接続され、RGB-Dカメラ2および3の撮像結果(RGB-D画像)が入力されている。なお、演算部11が記憶部12に記憶されたプログラムを実行することにより、本発明の「推定部」、「判定部」および「算出部」が実現される。
 -姿勢推定システムの動作-
 次に、図2を参照して、本実施形態による姿勢推定システム100の動作(姿勢推定方法)について説明する。この姿勢推定動作の開始前において、測定領域に位置する人物の各部位(計測対象の全ての部位)がRGB-Dカメラ2および3に対して現れるようにして、各部位の初期位置(動作開始時点の位置)が正確に算出される。これにより、RGB-Dカメラ2および3のRGB画像上における人物の各部位の特徴が学習され、その各部位をトラッキングすることが可能になる。なお、以下のフローは、姿勢推定動作が開始されてから終了されるまで繰り返し行われる。
 まず、図2のステップS1において、RGB-Dカメラ2および3により、測定領域に位置する人物が撮像される。そして、RGB-Dカメラ2および3により取得されたRGB-D画像が、RGB-Dカメラ2および3から姿勢推定装置1に出力される。
 次に、ステップS2において、姿勢推定装置1により、RGB-Dカメラ2によるRGB画像上における人物の各部位の位置が推定されるとともに、RGB-Dカメラ3によるRGB画像上における人物の各部位の位置が推定される。たとえば、学習された人物の各部位がRGB画像上でトラッキングされることにより、人物の各部位の位置が推定される。
 次に、ステップS3において、姿勢推定装置1により、RGB-Dカメラ2によるRGB画像上において推定された人物の部位の位置についての深さ情報の経時変化に基づいて、RGB-Dカメラ2によるその部位の深さ情報の信頼性が判定される。この信頼性の判定は、RGB-Dカメラ2によるRGB画像上において推定された人物の各部位について行われる。また、姿勢推定装置1により、RGB-Dカメラ3によるRGB画像上において推定された人物の部位の位置についての深さ情報の経時変化に基づいて、RGB-Dカメラ3によるその部位の深さ情報の信頼性が判定される。この信頼性の判定は、RGB-Dカメラ3によるRGB画像上において推定された人物の各部位について行われる。
 次に、ステップS4において、姿勢推定装置1により、信頼性の高い深さ情報を用いて人物の部位の位置(三次元位置)が算出される。具体的には、信頼性の高い深さ情報が得られたカメラによるRGB-D画像に基づいて、人物の部位の位置が算出される。この位置の算出が人物の各部位について行われることにより、その人物の姿勢が推定される。
 -効果-
 本実施形態では、上記のように、RGB-Dカメラ2および3が設けられることによって、RGB-Dカメラ2および3の深さ情報の信頼性を考慮して、人物の各部位の位置が算出されることにより、姿勢推定の精度向上を図ることができる。つまり、人物の部位の隠れによる信頼性の低い深さ情報を用いないようにすることにより、姿勢推定の精度向上を図ることができる。
 また、本実施形態では、RGB-Dカメラ2および3の一方の画角から人物の所定の部位が外れた場合に、その所定の部位がRGB-Dカメラ2および3の他方の画角内であれば、姿勢推定を適切に行うことができる。
 また、本実施形態では、RGB画像上における人物の各部位の特徴を学習することによって、RGB画像上での各部位の位置の推定精度の向上を図ることができる。
 -他の実施形態-
 なお、今回開示した実施形態は、すべての点で例示であって、限定的な解釈の根拠となるものではない。したがって、本発明の技術的範囲は、上記した実施形態のみによって解釈されるものではなく、特許請求の範囲の記載に基づいて画定される。また、本発明の技術的範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれる。
 たとえば、上記実施形態では、人物の姿勢が推定される例を示したが、これに限らず、人物以外の対象物の姿勢が推定されるようにしてもよい。
 また、上記実施形態では、2台のRGB-Dカメラ2および3が設けられる例を示したが、これに限らず、3台以上のRGB-Dカメラが設けられていてもよい。この場合において、姿勢推定装置は、3台以上のRGB-DカメラのそれぞれのRGB-D画像(三次元画像)に基づいて人物の所定の部位の三次元位置を算出するとともに、算出された3つ以上の三次元位置に基づいてそれら三次元位置の信頼性を評価するように構成されていてもよい。たとえば、3台のRGB-Dカメラが設けられている場合において、2台のRGB-DカメラによるRGB-D画像に基づく所定の部位の三次元位置が同じであり、残りの1台のRGB-DカメラによるRGB-D画像に基づく所定の部位の三次元位置が異なる場合には、2台のRGB-Dカメラによる三次元位置の信頼性が高いと評価され、残りの1台のRGB-Dカメラによる三次元位置の信頼性が低いと評価される。すなわち、3台のRGB-DカメラのRGB-D画像による三次元位置に基づいて、各RGB-Dカメラが所定の部位を適切に捕らえているかが評価される。つまり、2台のRGB-Dカメラでは所定の部位が適切に捕らえられているので、その2台のRGB-Dカメラによる三次元位置が同じになるのに対して、残りの1台のRGB-Dカメラでは所定の部位が適切に捕らえられていないので、その残りの1台のRGB-Dカメラによる三次元位置が異なるものになる。このため、人物の所定の部位の位置として、信頼性の高い2台のRGB-Dカメラによる三次元位置が採用される。このように構成しても、姿勢推定の精度向上を図ることができる。さらに、姿勢推定装置は、上記した深さ情報の経時変化に基づく信頼性の判定を併せて行うようにしてもよい。すなわち、姿勢推定装置は、各RGB-DカメラによるRGB画像を用いて、そのRGB画像上における人物の所定の部位の位置を推定するとともに、推定された所定の部位の位置についての深さ情報の経時変化に基づいて、そのRGB-Dカメラによる所定の部位の深さ情報の信頼性を判定するように構成されていてもよい。また、姿勢推定装置は、各RGB-DカメラのそれぞれのRGB画像上における人物の所定の部位の特徴を学習し、その所定の部位をトラッキングするように構成され、かつ、信頼性が低いと評価された三次元位置が得られたRGB-Dカメラ(上記した例示の場合、残りの1台のRGB-Dカメラ)による二次元画像上における所定の部位の特徴を再学習し、トラッキングをやり直すように構成されていてもよい。つまり、所定の部位を適切に捕らえることができていないRGB-Dカメラについて、所定の部位を再学習してトラッキングがやり直される。なお、姿勢推定装置において演算部が記憶部に記憶されたプログラムを実行することにより、本発明の「推定部」、「判定部」、「算出部」、「三次元位置算出部」および「信頼性評価部」が実現される。
 また、上記実施形態では、深さ情報の経時変化が小さいほど信頼性が高いと判定される例を示したが、これに限らず、深さ情報の経時変化が所定範囲内である場合に信頼性が高いと判定され、深さ情報の経時変化が所定範囲外になった場合に信頼性が低いと判定されるようにしてもよい。
 また、上記実施形態において、深さ情報の信頼性は、経時変化に加えてその他の要因を考慮して判定されるようにしてもよい。たとえば、所定の部位と、その所定の部位に最も近い部位との距離が大きいほど、信頼性が高いと判定されるようにしてもよい。また、RGB画像における所定の部位の周囲の画像品質が高い(ブレがなくコントラストがはっきりしている)ほど、信頼性が高いと判定されるようにしてもよい。また、カメラから所定の部位までの距離が近いほど、信頼性が高いと判定されるようにしてもよい。
 また、上記実施形態において、RGB-Dカメラ2および3の両方の所定の部位の深さ情報の信頼性が低い場合には、所定の部位が計測不能であると出力されるようにしてもよい。
 また、上記実施形態において、RGB-Dカメラ2および3は、RGB画像を取得するRGB画像取得部と、深度画像を取得する深度画像取得部とが、1つの筐体に一体的に設けられていてもよいし、それぞれ個別の筐体に設けられていてもよい。
 本発明は、対象物の姿勢を推定する姿勢推定システムに利用可能である。
 1   姿勢推定装置
 2   RGB-Dカメラ(三次元カメラ)
 3   RGB-Dカメラ(三次元カメラ)
 100 姿勢推定システム

Claims (4)

  1.  対象物の姿勢を推定する姿勢推定システムであって、
     前記対象物を異なる角度から撮像する複数の三次元カメラと、
     前記複数の三次元カメラのそれぞれの二次元画像を用いて、各二次元画像上における前記対象物の所定の部位の位置を推定する推定部と、
     前記推定部により推定された位置の深さ情報の経時変化に基づいて、その位置の深さ情報の信頼性を判定する判定部と、
     前記判定部の判定結果を考慮して、前記対象物の所定の部位の位置を算出する算出部とを備えることを特徴とする姿勢推定システム。
  2.  請求項1に記載の姿勢推定システムにおいて、
     前記推定部は、二次元画像上における前記対象物の所定の部位の特徴を学習し、その所定の部位をトラッキングするように構成されていることを特徴とする姿勢推定システム。
  3.  対象物の姿勢を推定する姿勢推定システムであって、
     前記対象物を異なる角度から撮像する3台以上の三次元カメラと、
     前記3台以上の三次元カメラのそれぞれの三次元画像に基づいて、前記対象物の所定の部位の三次元位置を算出する三次元位置算出部と、
     前記三次元位置算出部により算出された3つ以上の三次元位置に基づいて、それら三次元位置の信頼性を評価する信頼性評価部とを備えることを特徴とする姿勢推定システム。
  4.  請求項3に記載の姿勢推定システムにおいて、
     前記3台以上の三次元カメラのそれぞれの二次元画像を用いて、各二次元画像上における前記対象物の所定の部位の位置を推定する推定部をさらに備え、
     前記推定部は、二次元画像上における前記対象物の所定の部位の特徴を学習し、その所定の部位をトラッキングするように構成され、かつ、前記信頼性評価部により信頼性が低いと評価された三次元位置が得られた三次元カメラによる二次元画像上における前記所定の部位の特徴を再学習し、トラッキングをやり直すように構成されていることを特徴とする姿勢推定システム。
PCT/JP2022/012495 2021-03-31 2022-03-18 姿勢推定システム WO2022210005A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/026,352 US20230360261A1 (en) 2021-03-31 2022-03-18 Posture estimation system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-059267 2021-03-31
JP2021059267A JP2022155843A (ja) 2021-03-31 2021-03-31 姿勢推定システム

Publications (1)

Publication Number Publication Date
WO2022210005A1 true WO2022210005A1 (ja) 2022-10-06

Family

ID=83456078

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/012495 WO2022210005A1 (ja) 2021-03-31 2022-03-18 姿勢推定システム

Country Status (3)

Country Link
US (1) US20230360261A1 (ja)
JP (1) JP2022155843A (ja)
WO (1) WO2022210005A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003329448A (ja) * 2002-05-10 2003-11-19 Komatsu Ltd 現場の3次元情報生成システム
JP2014106543A (ja) * 2012-11-22 2014-06-09 Canon Inc 画像処理装置、画像処理方法及びプログラム
JP2017097577A (ja) * 2015-11-24 2017-06-01 キヤノン株式会社 姿勢推定方法及び姿勢推定装置
JP2020106283A (ja) * 2018-12-26 2020-07-09 株式会社ネクステッジテクノロジー 3次元計測装置、3次元計測装置の校正方法、3次元計測方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003329448A (ja) * 2002-05-10 2003-11-19 Komatsu Ltd 現場の3次元情報生成システム
JP2014106543A (ja) * 2012-11-22 2014-06-09 Canon Inc 画像処理装置、画像処理方法及びプログラム
JP2017097577A (ja) * 2015-11-24 2017-06-01 キヤノン株式会社 姿勢推定方法及び姿勢推定装置
JP2020106283A (ja) * 2018-12-26 2020-07-09 株式会社ネクステッジテクノロジー 3次元計測装置、3次元計測装置の校正方法、3次元計測方法及びプログラム

Also Published As

Publication number Publication date
JP2022155843A (ja) 2022-10-14
US20230360261A1 (en) 2023-11-09

Similar Documents

Publication Publication Date Title
JP4967062B2 (ja) オプティカルフロー、運動学及び深さ情報を使用して、物体の適切な運動を推定する方法
US10068344B2 (en) Method and system for 3D capture based on structure from motion with simplified pose detection
JP3859574B2 (ja) 3次元視覚センサ
US8587666B2 (en) Object detection from image profiles within sequences of acquired digital images
KR101284798B1 (ko) 단일 카메라 영상 기반의 객체 거리 및 위치 추정 장치 및 방법
US8705894B2 (en) Image rotation from local motion estimates
JP5012615B2 (ja) 情報処理装置、および画像処理方法、並びにコンピュータ・プログラム
US8587665B2 (en) Fast rotation estimation of objects in sequences of acquired digital images
KR20140002401A (ko) 카메라 장치 및 상기 카메라 장치에서의 물체 추적 방법
EP1857978A1 (en) Method, system and computer product for deriving three-dimensional information progressivly from a streaming video sequence
CN110751685B (zh) 深度信息确定方法、确定装置、电子装置和车辆
JP6452235B2 (ja) 顔検出方法、顔検出装置、及び顔検出プログラム
Tistarelli et al. Dynamic stereo in visual navigation.
JP6288770B2 (ja) 顔検出方法、顔検出システム、および顔検出プログラム
US20230306636A1 (en) Object three-dimensional localizations in images or videos
WO2022210005A1 (ja) 姿勢推定システム
JP2006215743A (ja) 画像処理装置及び画像処理方法
JP2006227739A (ja) 画像処理装置及び画像処理方法
KR101896183B1 (ko) 카메라 모션 추정을 위한 3차원 직선 검출 방법
CN115546876B (zh) 一种瞳孔追踪方法及装置
JP2005309992A (ja) 画像処理装置および画像処理方法
JP2005267258A (ja) 顔情報計測システム
JP2023069019A (ja) 情報処理装置、情報処理システム、情報処理方法、およびプログラム
EP2352127A1 (en) Camera movement estimation
JP2023081005A (ja) 情報処理装置、情報処理方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22780221

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22780221

Country of ref document: EP

Kind code of ref document: A1