WO2007102537A1 - 姿勢推定装置および方法 - Google Patents

姿勢推定装置および方法 Download PDF

Info

Publication number
WO2007102537A1
WO2007102537A1 PCT/JP2007/054422 JP2007054422W WO2007102537A1 WO 2007102537 A1 WO2007102537 A1 WO 2007102537A1 JP 2007054422 W JP2007054422 W JP 2007054422W WO 2007102537 A1 WO2007102537 A1 WO 2007102537A1
Authority
WO
WIPO (PCT)
Prior art keywords
thinned
volume
graph
node
posture
Prior art date
Application number
PCT/JP2007/054422
Other languages
English (en)
French (fr)
Inventor
Atsushi Nakazawa
Hidenori Tanaka
Haruo Takemura
Original Assignee
Osaka University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osaka University filed Critical Osaka University
Publication of WO2007102537A1 publication Critical patent/WO2007102537A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Definitions

  • the present invention relates to posture estimation from video data.
  • a motion capture system is a device that measures the posture and motion of a human body by measuring the position of the human body with a camera or the like.
  • the motion capture system that measures human movement in real time is used for remote control of humanoid robots, computer graphics and games (3D animation), and analysis of human behavior principles and sports movements in the medical field. Widely introduced and used in many fields, social needs are great.
  • Some motion capture systems require markers attached to the surface of the human body.
  • an optical system or a magnetic system is used for the marker.
  • a marker or the like is attached to the surface of the human body, a heavy burden is placed on the human body, and there is a problem of limiting human natural movement.
  • a system has also been proposed that restores the posture of a human body from information obtained by a synoet obtained from a plurality of cameras without using a marker or the like.
  • the method using 2D images has a problem that it is vulnerable to self-occlusion.
  • the volume and 3D model are matched.
  • the human body has a problem that the number of joints is large and the calculation cost is high, and in the posture estimation, there is a problem that the result of the previous frame greatly affects the rear frame and is unstable.
  • Chi-Wei Chu et al.'S system restores the posture of the human body based on images from four cameras.
  • the volume is projected onto the Isomap space, the central axis of each part of the body is acquired, and the joint model is generated.
  • the geodesic distance in the original Euclidean space is expressed as a distance for any two points in the volume. Therefore, the arms and legs bent by the original point cloud data are linear.
  • the lunar body and other parts of the isomap space are divided to obtain each part of the body, and the central axis of the volume data is obtained by reprojecting them to the original space. Convert to clause model.
  • there is a problem that it takes time to convert volume data to Isomap space, and because it uses the geodesic distance of the point cloud, it cannot handle postures where both hands touch and form a ring. there were.
  • Non-Patent Document 1 Chi-Wei Chu, Odest Chadwicke Jenkins, Maja J Mataric, arkerless Kinematic Model and Motion Capture from Volume Sequences "(Proc. Of CVPR 200 3, vol. 2, pp.475-482, 2003)
  • An object of the present invention is to estimate a posture stably and at high speed without using a marker.
  • a posture estimation apparatus includes a volumetric force of a subject having a joint (for example, a human body), thinning means for extracting a three-dimensional thinned figure, and dividing the extracted thinned figure into a plurality of elements.
  • Each element is represented by a node, two elements are adjacent by an edge, and information about the volume corresponding to each element is used as an attribute of the node, and the graph with attribute data including the node and edge force is stored.
  • a storage means for storing a database in which the model graphs are recorded for a plurality of postures of the subject, and graph matching is performed on the obtained graph data with reference to the database, and the closest match is obtained. It comprises estimation means for determining the position of each element of the thinned figure based on the model graph and estimating the posture.
  • the thinned figure is divided into a plurality of branches at intersections included in the thinned figure, and the plurality of branches are used as the plurality of elements.
  • the attribute of the node representing the branch includes the volume of the corresponding part of the original volume before thinning to the branch and the length of the branch.
  • each element of the thinned figure is further approximated by a plurality of straight lines and the element Joint determination means for determining the position and angle of the joint included in the element and storing it as the attribute of the node in the graph data is provided.
  • a three-dimensional thinned figure is extracted from a volume of a subject having a joint
  • the extracted thinned figure is divided into a plurality of elements, Each element is represented by a node, two adjacent elements are represented by an edge, and information about the volume corresponding to each element is stored as attribute of the node, and attributed graph data consisting of nodes and edges is stored.
  • Graph matching is performed on the obtained graph data by referring to a database that records model graphs for multiple postures of the subject, and the location of each element of the skeleton is determined based on the closest model graph. Estimate posture.
  • the thinned figure is divided into a plurality of branches at intersections included in the thinned figure, and the plurality of branches are used as the plurality of elements.
  • the attribute of the node representing the branch includes the volume of the corresponding part of the original volume before thinning the branch and the length of the branch.
  • the position and angle of the joint included in the element are determined by approximating with a plurality of straight lines, and the node of the graph data is determined. Store as an attribute.
  • a posture estimation program includes: (a) extracting a three-dimensional thinned figure from a volume of a subject having a joint; and (b) extracting the thinned figure, Divided into multiple elements, each element is represented by a node, two elements are adjacent by an edge, and information about the volume corresponding to each element is attributed to that node. Steps for storing data and (i) graph matching is performed on the obtained graph data by referring to a database that records model graphs for multiple postures of the subject.
  • the posture of a human body or the like can be estimated stably and at high speed.
  • a three-dimensional volume is obtained from information (multi-viewpoint images) obtained from silhouettes from a plurality of cameras, and a thin line figure (skeleton) is obtained from the volume.
  • the thinned image is graphed, and the posture is estimated by discriminating parts by graph matching.
  • joint positions are found for each branch in the skeleton, and the human body posture is estimated more precisely.
  • the contents will be described in detail below.
  • the posture restoration subject is generally an object having a joint, but only human body posture estimation will be described below.
  • FIG. 1 shows a motion capture system according to one embodiment of the present invention.
  • the video data from the processor 10 is input to the data processor 12.
  • the data processing device 12 is, for example, a computer having a normal configuration.
  • the data processing device 12 includes a CPU 14.
  • the CPU 14 is connected to an input / output interface 16 with the camera 10, an input device 18 such as a keyboard, a display device 20, and a hard disk drive 22 that is a mass storage device.
  • the hard disk in the hard disk drive 22 includes areas for storing the motion capture program 24, the database 26, the video data 28, the volume data 30, the skeleton data 32, the attributed graph data 34, and the human body posture data 36.
  • FIG. 2 shows the flow of processing in the motion capture program 24 executed by the CPU 14.
  • this program 24 the volume obtained from the camera video data is graphed using a thinning method, and a human body with many joints is represented by a model composed of a small number of data.
  • stable posture estimation is performed using a model graph database of human body features with various topologies prepared in advance.
  • the movement of a person is photographed from multiple cameras and volume data is obtained by the visual volume intersection method.
  • the human body video data 28 is inputted from a plurality of (for example, eight) cameras 10 installed so as to surround a person (S10).
  • the camera 10 uses a normal visible light melody, so measurement can be performed easily. It is not necessary for the target person to attach markers to the human body and wear special suits.
  • volume data 30 of the entire target person is obtained using a view volume intersection method, a stereo method, a bose cell coloring method, or the like (S12).
  • each camera constructs a nonlinear distortion of the lens using a planar pattern, and then determines camera parameters using a calibration box of a known size (Kato Hirokazu, M. Billlinghurst, Asano).
  • a volume is a set of, for example, lcm X lcm X lcm botasels in a three-dimensional space, and represents the human body with approximately 100,000 botasels.
  • the volume data 30 is data representing whether or not each botasel constitutes a volume. Conventional processing is used until the volume data 30 is obtained.
  • the posture of the human body is restored as described below.
  • the volume data expresses the shape of the target person, but it is difficult to clearly understand the direction and structure of the part if the shape is round or round. If the data with this volume can be converted into a line figure when analyzing the posture, the relationship of the direction 'length' etc. will be clarified and the analysis of the structure will be easy. Therefore, first, the volume is thinned using a three-dimensional thinning method, the human body shape is converted into a skeleton, and stored as skeleton data 30 (S14). The skeleton (skeleton) obtained as a result of thinning is a figure that has been thinned in three dimensions.
  • the volume is converted into a line figure with the minimum thickness 1 that passes through the center of the volume, and the volume is extracted as the center axis of the volume.
  • the skeleton is thick except for special places such as intersections and cavities, and does not include erasable pixels other than the end points. It also preserves the topology of the original figure and passes through its center.
  • the obtained skeleton is a set of extracted botasels on the central axis. (However, in the drawing, the skeleton is shown thicker than it actually is for the sake of clarity.)
  • Skeleton data 32 is data indicating whether or not each botel cell constitutes a skeleton.
  • a skeleton structure is obtained.
  • the thinning method for example, the thinning method of Saito et al. (The Transactions of the Institute of Electronics, Information and Communication Engineers (D-II) Vol. J79-D-II, No. 10, 1996) is used.
  • Figure 3 shows the process of obtaining the right skeleton by thinning the left volume force. Thus, the volume is returned to the skeleton.
  • the topology does not change when erasing a button cell in volume data, and it is determined whether it is (erasable) (Junichiro Toriwaki, 3D digital image processing, Shosodo, Tokyo, 2002) ), Erasable objects that are not end points are deleted in order to obtain a line figure.
  • erasable Junichiro Toriwaki, 3D digital image processing, Shosodo, Tokyo, 2002
  • a skeleton which is a line figure with a thickness of 1, can consider the same feature points as a line figure in a two-dimensional image.
  • the pixels in the skeleton are classified into three types, as shown in FIG. 4, cross points, end points, and connection points.
  • the end point represents the end part of the human body part. Intersections may represent the base of the arm / foot / head connected to the torso, or may be possible because the body has contacted other parts.
  • a set of adjacent connection points (branches) separated by intersections and end points represents the position and orientation of each part.
  • Skeletons can have various topologies. If each limb of the skeleton is separated from the head and torso and the base of both arms is represented by a single intersection as shown in A and D in Figure 5, each branch is an arm / foot / Corresponds one-to-one with the head / torso. From the connection, it is clear which represents the trunk. Force When considering a general posture, a skeleton with another topology may be obtained by touching part of the body. In such a case, each branch corresponds to a part or all of a human body part, or a plurality of parts (C, E, F in FIG. 5). Also, even if people have the same posture, different crossing positions may be obtained during thinning (A and B in Fig. 5).
  • the skeleton may have a structure unrelated to the original human body posture, such as noise from the original data.
  • human skeleton data changes to various topologies due to various factors. Therefore, it is difficult to obtain the correspondence between branches and parts by a heuristic method.
  • the structure of the skeleton that can have the various topologies described above is represented by the attributed graph 34 (S16).
  • the graph representation of the skeleton is performed by representing each branch as a node of the graph and representing the connection relation of the branch as an edge.
  • the skeleton is divided into a plurality of elements, each element is represented by a node, two elements are adjacent by an edge, and information on the three-dimensional part of the volume corresponding to each element is attributed to that node. As shown, it stores graph data with attributes consisting of nodes and edges. More specifically, the skeleton is divided into a plurality of branches at the intersection of three or more curves, and each branch is a node.
  • the node attributes include a value obtained by normalizing the volume of the corresponding portion of the original volume before thinning and the length of the branch with the total value of the entire skeleton.
  • the volume of the volume belonging to the branch is calculated based on the Euclidean distance in the original volume obtained at the time of thinning.
  • the obtained graph data 34 composed of nodes and edges is simple data that does not depend on the direction or bending of each part of the human body, and is undirected data.
  • Figure 6 shows, as an example, a node (volume is represented by the size of the volume) and an edge connecting the two nodes.
  • a skeleton node is, for example, a force S consisting of a head, two hands, a torso, and two legs, which changes with posture. For example, in a state where both hands are connected, a connected hand node is found. It also has the power S to contain noise due to thinning.
  • the skeleton on the left side of Figure 6 there are three intersections.
  • each node is shown as a circle (including volume and length numbers), and the edges are shown as lines.
  • a model graph database 26 that records graph data on various postures that a person can take is prepared in advance. For this reason, for example, various postures such as the state of holding hands and lying down are actually taken, and the skeleton is obtained from the obtained volume, the element information is obtained, and the model graph with attributes is obtained.
  • the data is recorded in the model graph database 26 as data.
  • labels used as human body part information include not only arms and legs, but also those that are a combination of the parts described above and represented as one branch.
  • Figure 5 described earlier shows examples of various model poses. (If you want to target an object different from the human body, The contents of the model graph database may be changed accordingly. )
  • the graph data 34 obtained by actually photographing a plurality of human body postures is compared with the model graph in the model graph database 26, and the closest model graph is obtained by graph matching (S18). Topology determination by graph matching using a model graph database is further described below.
  • Input image force The obtained skeleton is graphed and compared with the model graph group in the model graph database. It is possible to determine the topology of the incoming cascade from the model graph determined to be the most similar, and at this time, correspondence between nodes can be obtained. Since each part of the model graph also stores human body part information, the human part of the input skeleton branch can be determined from the results of the matching of the branches by graph matching (Fig. 7). By doing this, even if the topology of the human body changes, the correspondence between the volume data and the human body part can be obtained, and the amount of information and calculation can be reduced by converting the skeleton into a graph.
  • the number of necessary model graphs is several times the number of topologies that are very few compared to the posture that a person can take Is considered sufficient.
  • the number of nodes in the force graph is small, and the model graph database is divided into subgraph groups for comparison.
  • BT Messmer and H. Bunke A New Algorithm for Error-1 olerant subgraph Isomorphism Detection, IEEE Trans, on PAMI, vol.20, pp.493-504, May 1998)
  • Costs depend on the type of work and the difference in attribute values of the target node It is necessary to define it, and here it gives by the following formula.
  • cost (sub_node (nl, n2) kl
  • cost (sub_edge (el, e2)) 0
  • n.vol represents the volume attribute value
  • n.len represents the length attribute value
  • the attribute change cost is set to 0
  • the deletion cost is set to k0.
  • the cost of changing the attribute of a node represents the dissimilarity between the parts corresponding to each node.
  • the cost is expressed by the linear sum.
  • kl and k2 are coefficients.
  • deleting a node gives a cost proportional to the volume.
  • a matching model graph can be obtained without deleting nodes or edges when matching with a graph obtained from shooting. It is done.
  • the only cost function that affects Edit-Distance is the node attribute value change cost (sub_node (nl, n2)), and the only constants to consider are the ratio of the two coefficients kl and k2.
  • the human part information is recorded in advance as attribute data in the graph data in the database 26, the human part information is also obtained from the skeleton 32 obtained by this comparison. (For example, head, hands, torso, legs, etc.) can be identified.
  • the graph structured data including the obtained part information is stored as the human body posture data 36.
  • a human part is recognized from each branch of the skeleton, and the skeleton is divided by an appropriate method such as a plurality of linear approximations using the part information.
  • each part of the skeleton is approximated by a plurality of straight lines based on the SSD (sum of squares of differences) with the skeleton curve.
  • Joints are found by this skeleton polygonal approximation (S20).
  • Figure 8 shows the left side It shows that the right-hand broken line approximation was obtained from Noreton.
  • the number of joints, the length between joints, the movable range, etc. are determined for hands, feet, etc., it is preferably estimated using a joint position existence probability model.
  • Final joint data (joint position and angle) is obtained from the divided straight lines and stored as attribute data included in the human body posture data 36.
  • each branch force joint position of the skeleton is estimated.
  • the part of the skeleton with a high curvature is a joint.
  • the number of joints and the link length are consistent.
  • FIG. 9 shows, for example, a skeleton obtained from a 291-frame moving image obtained by integrating the curvature at each position of both arms and both legs. Note that the direction and length of each branch is normalized so that the point at the tip of the arm or foot is at position 1 and the root of the torso is at position 100. Since the point sequence included in the skeleton is based on the coordinates of the botacell, smoothing with a Gaussian filter was performed as preprocessing. It can be seen that the wrist, elbow, and shoulder are detected from the arm, and the ankle, knee, and thigh are detected as the maximum point from the foot.
  • the obtained human posture is displayed on the display device 20 (S22).
  • the thinned figure (human body posture) estimated from the obtained graph is displayed in a color-coded manner on the screen of the display device 20 for each estimated part.
  • the part (branch) corresponding to the head is colored in blue
  • the part corresponding to the hand is colored in light blue.
  • the indistinguishable part is displayed in white, for example.
  • the human body posture is obtained as the final skeleton. This Can be applied to ordinary postures of human clothes (motion capture system), application to computer animation, application of motion input to robots, rehabilitation, welfare, etc.
  • the posture is estimated by applying this method to each frame of a moving image of three persons (first, second, and third subjects).
  • An experiment was conducted. Approximation processing from the input data to the joint was performed, and the stability of estimation, the ability to cope with various topologies, and the processing speed were evaluated.
  • the camera studio is covered with blue floors and curtains on 5 sides of the square, and the camera is installed on the ceiling toward the center of the 8-way force studio.
  • the image resolution is 1024 x 768 pixels, and synchronized video can be shot at a maximum of 30 fps by sending a sync signal to 8 units.
  • the common field of view of all the cameras is an area of about 2 meters in diameter and 2 meters in height, and the three subjects with different heights and weights are the subjects. Images from each camera are acquired by a personal computer connected one-to-one, and volume restoration is performed at a resolution of 2 cm.
  • posture estimation is performed using the model graph database obtained in advance and matching constants (kl, k2). went.
  • FIG. 11 and FIG. 12 show the results from the input image to the skeleton site determination.
  • Figure 1 1
  • Fig. 12 shows multiple input images of other subjects. Each input image and its skeleton region determination result are shown.
  • FIG. 13 shows the result of joint position estimation using the 291-frame skeleton of the first subject. It can be seen that the joint positions of the wrist, elbow, shoulder and ankle, knee and thigh are correctly estimated. The result of integrating the curvature in all frames is as shown in FIG.
  • the time required for each process is the volume data restoration per frame 5.
  • volume data is processed from the bottom up, no initial value is required and stable estimation can be performed.
  • volume data is directly thinned and graphed, the processing is faster than the methods using multi-joint model matching and Isomap.
  • the tracking can be restored at high speed and the stability of the tracking is low and the calculation cost is low compared to the conventional method without the marker.
  • Generality is high.
  • the volume may be obtained for the person who is usually dressed, so it is simpler and less burdensome to the person than the conventional method of wearing markers and suits. Can be restored.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

 被検体のボリュームから3次元の細線化図形を抽出する。次に、細線化図形を、複数の要素に分割し、各要素をノードで表し、2つの要素が隣り合うことをエッジで表し、各要素に対応するボリュームについての情報を当該ノードの属性として、ノードとエッジからなる属性付きグラフデータを記憶する。得られたグラフデータについて、被検体の複数の姿勢についてのモデルグラフを記録したデータベースを参照してグラフマッチングを行って、最も近いモデルグラフを基にスケルトンの各要素の部位を判定して姿勢を推定する。

Description

明 細 書
姿勢推定装置および方法
技術分野
[0001] 本発明は、映像データからの姿勢の推定に関する。
背景技術
[0002] モーションキヤプチヤシステムは、人体の位置をカメラ等で計測することで、人体の 姿勢や動作を計測する装置である。人間の動作を実時間で計測するモーションキヤ プチヤシステムは、人間型ロボットの遠隔操縦、コンピュータグラフィックスやゲーム(3 Dアニメーション)、医療分野などでの人間の行動原理やスポーツ動作の解析などの 多くの分野で広く導入され、利用されていて、社会的ニーズが大きい。
[0003] モーションキヤプチヤシステムには、人体の表面に取り付けるマーカー等を必要と するものがある。マーカーには、光学式システムや磁気的システムが用いられている 。しかし、人体の表面にマーカー等を付けるため、人体に対して大きな負担がかかり 、人間の自然な動作を制限するという問題があった。また、専用のスーツの装着が必 要なものもあるが、装着に手間がかかるという問題があった。
[0004] 一方、マーカー等を用いないで、複数のカメラから得られるシノレエツトにて得られた 情報から人体の姿勢を復元するシステムも提案されている。しかし、 2次元画像を用 レ、る手法では、 自己遮蔽に弱いという問題があった。また、 3次元画像を用いる手法 では、ボリュームと 3次元モデルとのマッチングを行う。ここで、人体は関節数が多く計 算コストが高いという問題があり、また、姿勢推定において前フレームの結果が後フレ ームに大きく影響し不安定であるという問題がある。たとえば、 Chi-Wei Chuらのシス テムでは、 4つのカメラからの画像を元に人体の姿勢を復元する。ここで、ボリューム を Isomap空間に投影し、体の各部の中心軸を取得して、関節モデルを生成している 。 Isomap空間中ではボリューム内の任意の 2点について、元のユークリッド空間での 測地線距離が距離として表される。よって元の点群データで屈曲した腕や脚が直線 状となる。この性質を利用して Isomap空間中で月同体と他の部位を分割して体の各部 位を求め、それらを元の空間に再投影することでボリュームデータの中心軸を得、関 節モデルへと変換する。しかし、ボリュームデータの Isomap空間への変換に時間がか 力るという問題や、点群の測地線距離を利用しているため、両手が触れて輪ができる ような姿勢などに対応できないという問題があった。
非特許文献 1: Chi-Wei Chu, Odest Chadwicke Jenkins, Maja J Mataric, arkerless Kinematic Model and Motion Capture from Volume Sequences" (Proc. of CVPR 200 3, vol. 2, pp.475-482, 2003)
発明の開示
発明が解決しょうとする課題
[0005] 従来は、特殊なマーカや計測装置の装着が不要なビジョンベースの人体姿勢推定
(モーションキヤプチャ)手法において、人体部位同士の接合等によるトポロジ変化に 対応できる手法はほとんど提案されていなかった。
本発明の目的は、マーカーを用いずに安定かつ高速に姿勢を推定することである 課題を解決するための手段
[0006] 本発明に係る姿勢推定装置は、関節を有する被検体 (たとえば人体)のボリューム 力 3次元の細線化図形を抽出する細線化手段と、抽出した細線化図形を、複数の 要素に分割し、各要素をノードで表し、 2つの要素が隣り合うことをエッジで表し、各 要素に対応するボリュームについての情報を当該ノードの属性として、ノードとエッジ 力 なる属性付きグラフデータを記憶するグラフ化手段と、被検体の複数の姿勢につ レ、てのモデルグラフを記録したデータベースを記憶する記憶手段と、得られたグラフ データについて、前記データベースを参照してグラフマッチングを行って、最も近い モデルグラフを基に前記細線化図形の各要素の部位を判定して姿勢を推定する推 定手段とからなる。
[0007] たとえば、前記グラフ化手段において、前記細線化図形を、その細線化図形に含ま れる交差点で複数の枝に分割して前記複数の枝を前記複数の要素とする。枝を表 すノードの属性は、当該枝への細線化の前の元のボリュームの対応部分の体積と枝 の長さを含む。
[0008] 好ましくは、さらに、細線化図形の各要素について、複数の直線で近似して当該要 素に含まれる関節の位置と角度を決定して、グラフデータにおけるノードの属性とし て記憶する関節決定手段を備える。
[0009] 本発明に係る姿勢推定方法では、 (a)関節を有する被検体のボリュームから 3次元 の細線化図形を抽出し、(b)抽出した細線化図形を、複数の要素に分割し、各要素を ノードで表し、 2つの要素が隣り合うことをエッジで表し、各要素に対応するボリューム についての情報を当該ノードの属性として、ノードとエッジからなる属性付きグラフデ ータを記憶し、(c)得られたグラフデータについて、被検体の複数の姿勢についての モデルグラフを記録したデータベースを参照してグラフマッチングを行って、最も近い モデルグラフを基にスケルトンの各要素の部位を判定して姿勢を推定する。
[0010] この姿勢推定方法にぉレ、て、たとえば、前記細線化図形を、その細線化図形に含 まれる交差点で複数の枝に分割して前記複数の枝を前記複数の要素とする。ここで 、枝を表すノードの属性は、当該枝への細線化の前の元のボリュームの対応部分の 体積と枝の長さを含む。
[0011] この姿勢推定方法において、好ましくは、さらに、細線化図形の各要素について、 複数の直線で近似して当該要素に含まれる関節の位置と角度を決定して、グラフデ ータにおけるノードの属性として記憶する。
[0012] 本発明に係る姿勢推定プログラムは、画像処理装置に、 (a)関節を有する被検体の ボリュームから 3次元の細線化図形を抽出するステップと、(b)抽出した細線化図形を 、複数の要素に分割し、各要素をノードで表し、 2つの要素が隣り合うことをエッジで 表し、各要素に対応するボリュームについての情報を当該ノードの属性として、ノード とエッジからなる属性付きグラフデータを記憶するステップと、(じ)得られたグラフデー タについて、被検体の複数の姿勢についてのモデルグラフを記録したデータベース を参照してグラフマッチングを行って、最も近レ、モデルグラフを基にスケルトンの各要 素の部位を判定して姿勢を推定するステップとを実行させるための姿勢推定プロダラ ムである。
発明の効果
[0013] 人体などの姿勢が安定かつ高速に推定できる。
図面の簡単な説明 [0014] [図 1]モーションキヤプチヤシステムのブロック図
[図 2]モーションキヤプチャプログラムの流れ図
[図 3]ボリュームから右側のスケルトンが得られる過程を示す図
[図 4]スケルトン中の特徴点と枝を示す図
[図 5]モデルグラフを求めた種々の姿勢の図
[図 6]グラフデータの 1例を表す図
[図 7]モデルグラフデータベースを用いた部位判定を示す図
[図 8]スケルトンから得られた折線近似の図
[図 9]291フレームでの曲率の合計のグラフ図
[図 10]定数 (kl,k2)の変化とグラフマッチングの成功率のグラフ
[図 11]入力画像、部位判定結果およびモデルグラフの図
[図 12]入力画像と部位判定結果の図
[図 13]種々の入力画像についての姿勢推定結果を示す図
符号の説明
[0015] 10 カメラ、 12 データ処理装置、 14 CPU, 22 大容量記憶装置、
24 モーションキヤプチャプログラム、 26 データベース、 28 映像データ、 30 ボリューム、 32 スケルトン、 34 グラフデータ、 36 人体姿勢データ
発明を実施するための最良の形態
[0016] 以下、添付の図面を参照して発明の実施の形態を説明する。
本発明では、複数のカメラからシルエットにて得られた情報(多視点画像)から 3次 元のボリューム(体積)をもとめ、ボリュームから、細線化された線図形 (スケルトン)を 求める。次に、細線化画像 (スケルトン)をグラフ化し、グラフマッチングにより部位を 判別して姿勢を推定する。さらに、スケルトンの中の各枝について関節位置を発見し て、より精細に人体姿勢を推定する。その内容について以下に詳細に説明する。な お、この姿勢復元の被検体は、一般的に関節を備える物体であるが、以下では人体 姿勢の推定のみについて説明する。
[0017] 図 1は、本発明の 1実施形態のモーションキヤプチヤシステムを示す。複数台のカメ ラ 10からの映像データがデータ処理装置 12に入力される。データ処理装置 12は、 たとえば通常の構成のコンピュータである。データ処理装置 12は、 CPU14を備え、 CPU14は、カメラ 10との入出力インタフェース 16、キーボードなどの入力装置 18、 表示装置 20および大容量記憶装置であるハードディスクドライブ 22に接続される。 ハードディスクドライブ 22内のハードディスクは、モーションキヤプチャプログラム 24、 データベース 26、映像データ 28、ボリュームデータ 30、スケルトンデータ 32、属性付 きグラフデータ 34、人体姿勢データ 36を記憶する領域を含む。
[0018] 図 2は、 CPU14により実行されるモーションキヤプチャプログラム 24における処理 の流れを示す。このプログラム 24を実行することにより、カメラ映像データより得られた ボリュームを、細線化手法を用いてグラフ構造化し、多数の関節を持つ人体を少数の データで構成されるモデルで表現する。ここで、あら力 め用意した様々なトポロジを 持つ人体形状の特徴のモデルグラフデータベースを用いて安定的に姿勢推定を行 う。まず、複数のカメラから人物の動きを撮影し視体積交差法によってボリュームデー タを求める。ここで、 Chuらの手法と同様に、得られたボリュームデータから直接多関 節構造を導出するアプローチを取る力 計算コストの力かる Isomap空間への変換を 行わず、人体ボリュームデータの細線化処理によってトポロジを保持したままスケルト ンを得る.次に、スケルトンの構造を属性付きグラフで表現する。 Chuらの手法では不 可能であった人体の様々なトポロジ変化に対応するために事例ベースの手法を導入 する。あら力じめ、人のとりうる様々な姿勢をグラフで表現し、モデルグラフデータべ ース (MGDB)として用意しておく。そして、スケルトンの構造を表す属性付きグラフと データベースとのマッチングを行って、構造の最も近レ、モデルグラフデータベース内 の候補を選び出すことで、入力データのトポロジおよび体部位の判定を行う。そして、 この判定結果と各部位における曲率から人体の関節位置を推定する。これにより、安 定かつ高速に復元処理が行え、計算コストも削減できる。
[0019] まず、人体の映像データ 28を、人を取り囲むように設置された複数 (たとえば 8台) のカメラ 10から入力する(S10)。カメラ 10としては通常の可視光力メラを使用するの で、計測が簡易に行える。対象人物は通常の服装でよぐ人体へのマーカーなどの 取り付けや特殊なスーツの着用は不必要である。 [0020] 次に、取得した映像データ 28から、視体積交差法、ステレオ法、ボタセルカラリング 法などを用いて、対象人物全体のボリューム(体積)のデータ 30を求める(S12)。ここ で、各カメラは、平面パターンを用いてレンズの非線形歪みを構成し、次に、既知の 大きさのキャリブレーションボックスを用いてカメラパラメータを求めておく(加藤博一, M. Billlinghurst,浅野浩一,橘啓八郎, "マーカー追跡に基づく拡張現実感システムと そのキャリブレーション", 日本バーチャルリアリティ学会論文誌, vol.4, no.4, pp.607- 616 Dec. 1999 ;井口征士,佐藤宏介,三次元画像計測(昭晃堂,東京, 1990))。そ して、入力画像から色相を考慮した背景差分を用いることで、対象の領域を抜き出し 、カメラパラメータを用いて対象の三次元ボリュームデータを得る。ボリュームは、 3次 元空間内のたとえば lcm X lcm X lcmのボタセルの集合であり、人体を約 10万個 のボタセルで表現する。ボリュームデータ 30とは、各ボタセルがボリュームを構成する か否かを表すデータである。ボリュームデータ 30を得るまでの処理は従来の手法を 用いている。
[0021] 次に、ボリュームデータ 30を基に、以下に説明するように、人体の姿勢を復元する 。ボリュームデータは対象人物の形状を表現しているが、太さや丸みを帯びた形状そ のままでは部位の方向や構造を明確に把握することは難しい。姿勢を解析する上で 、この体積を持ったデータを線図形に変換することができれば、方向 '長さ'接続関係 などが明らかになり、構造の解析が容易になる。そこで、まず、 3次元の細線化法を用 いて、ボリュームを細線化して、人体形状をスケルトンに変換し、スケルトンデータ 30 として記憶する(S14)。細線化の結果得られるスケルトン (骨格)とは、 3次元で細線 化された図形である。この細線化処理では、ボリュームを、その中心を通る最小の太 さ 1の線図形へ変換して、ボリュームの中心軸として抽出する。スケルトンは、交差点 、空洞等の特殊な場所を除いて太さカ^であり、端点以外には消去可能な画素を含 まない。また、原図形のトポロジを保存し、その中心を通る。得られたスケルトンは、抽 出された中心軸にあるボタセルの集合である。 (ただし、図面では、見やすくするため に、スケルトンを実際より太く示している。)スケノレトンデータ 32とは、各ボタセルがス ケルトンを構成するか否かを表すデータである。こうして、細線化によって得られたボ クセル列の接続性を評価するとスケルトンの構造が得られる。 [0022] 細線化の手法は、たとえば斎藤らの細線化手法(電子情報通信学会論文誌 (D-II) Vol. J79-D-II, No.10, 1996)を用いる。図 3は、左側のボリューム力ら細線化により右 側のスケルトンが得られる過程を示している。こうして、ボリュームは、スケルトンに還 元される。斉藤らの手法では、ボリュームデータ中のボタセルを消去したときにトポロ ジが変化しなレ、(消去可能な)ものを判定し (鳥脇純一郎、 3次元ディジタル画像処理 、昭晃堂、東京、 2002)、消去可能でかつ端点でないものを順に消去していくことで 線図形を得る。消去の順番にユークリッド距離や近傍のボタセルの個数を考慮するこ とでボリュームの向きによらず中心を通る、不必要な細かな枝(ヒゲ)の少ない線図形 を抽出できる。なお、細線化手法を用いる前処理として、ノイズ除去のためのメディア ンフィルタを適応する。
[0023] 次に、スケルトンのどの部分 (枝)が体のどの部位に相当するかを判定する。太さ 1 の線図形であるスケルトンは、 2次元画像の線図形と同様の特徴点を考えることがで きる。すなわちスケルトン中の画素は図 4のように交差点(cross points)、端点(end po ints)、接続点(connection points)の 3種に分類される。端点は人体部位の末端部分 を表す。交差点は、胴体につながつている腕/足/頭の付け根を表すものと、体が 他の部位と接触したためにできるものが考えられる。また、交差点と端点に区切られ た互いに隣り合う接続点の集合 (枝)が各部位の位置と向きを表す。
[0024] スケルトンは様々なトポロジを持ちうる。図 5の A、 Dのように、スケルトンの一つ一つ の枝が四肢が頭や胴と離れており両腕の付け根が一つの交差点で表される場合は、 各枝は腕/足/頭/胴体に 1対 1で対応する。またその接続関係から、どれが胴を 表すかは明らかである。し力 一般的な姿勢を考えると、体の一部が触れ合うことで 他のトポロジを持つスケルトンが得られることがある。このような場合、それぞれの枝は 人体部位の一部または全部、もしくは複数の部位に対応することになる(図 5の C,E, F)。また、人物が類似する同じ姿勢をとつていても、細線化の際に異なる交差点の位 置関係が得られる場合がある(図 5の A, B)。さらに、スケルトンには元のデータから 起因するノイズゃヒゲなど、本来の人体姿勢とは無関係な構造が得られる場合もある 。このように、人体のスケルトンデータは各種の要因により、様々なトポロジに変化す る。そのため、ヒューリスティックな方法で枝と部位の対応を求めるのは困難である。 [0025] 上述の様々なトポロジを持ちうるスケルトンの構造を属性付きグラフ 34で表現する( S 16)。スケルトンのグラフ表現は、その各枝をグラフのノードとして表現し枝の接続 関係をエッジと表すことで行われる。ここで、スケルトンを、複数の要素に分割し、各 要素をノードで表し、 2つの要素が隣り合うことをエッジで表し、各要素に対応するボリ ユームの 3次元部分の情報を当該ノードの属性として、ノードとエッジからなる属性付 きグラフデータを記憶する。より具体的に説明すると、スケルトンを、 3本以上の曲線 の交差点で複数の枝に分割し、各枝をノードとする。ノードの属性は、細線化の前の 元のボリュームの対応部分の体積と枝の長さをスケルトン全体での合計値で正規化 した値を含む。ここで枝に属するボリュームの体積は、細線化の際に得られる元のボ リュームでのユークリッド距離を元に計算される。そして、同じ交差点で 2つの枝が隣 り合うことをエッジ(辺)で表わす。得られたノードとエッジとからなるグラフデータ 34は 、人体の各部の向きや曲がりに依存しない単純なデータとなり、無向データである。 図 6は、 1つの例として、ノード(ボリューム部分の大きさで体積を表す)と、 2つのノー ドの間を接続するエッジを示している。スケルトンのノードは、たとえば、頭、 2本の手 、胴体、 2本の足からなる力 S、これは姿勢により変化する。たとえば両手をつないだ状 態では、つながった手のノードが見出される。また、細線化によるノイズが含まれるこ と力 Sある。図 6の左側のスケルトンでは、交差点は 3箇所にあり、右側のグラフ構造で は、各ノードが円(体積と長さの数字を含む)で示され、エッジが線で表されている。
[0026] 次に、グラフマッチングを用いて腕/足/頭/胴体等の人体部位とスケルトンの対 応を把握する方法について述べる。すでに説明したように、人の姿勢はさまざまな幾 何形状、トポロジー形状になりうるため、人のとりうるさまざまな姿勢についてのグラフ データを記録したモデルグラフデータベース 26をあらかじめ準備しておく。このため 、たとえば、両手をつないだ状態、寝そべった状態などのさまざまな姿勢を実際に撮 影して、それぞれ、得られたボリュームからスケルトンを求め、要素情報を求めて、属 性付きのモデルグラフデータとしてモデルグラフデータベース 26に記録しておく。こ こで人体部位情報として用いるラベルは腕や足などの他に、前述した複数の部位が 併合されて 1つの枝として表されているものも含む。前に説明した図 5は、さまざまな モデル姿勢の例を示している。(なお、人体とは異なる物体を対象とする場合は、この モデルグラフデータベースの内容をそれに対応して変更すればよい。 )
[0027] 実際に複数の人体姿勢を撮影して得られたグラフデータ 34を、このモデルグラフデ ータベース 26内のモデルグラフと比較し、グラフマッチングにより、最も近いモデルグ ラフを得る(S18)。モデルグラフデータベースを用いたグラフマッチングによるトポロ ジ判定について以下にさらに説明する。
[0028] 入力画像力 得られたスケルトンはグラフ化され、モデルグラフデータベース内のモ デルグラフ群と比較される。最も類似すると判断されたモデルグラフから入カスケルト ンのトポロジを判別でき、さらにこの際にノード同士の対応が得られる。またモデルグ ラフの各枝には人体の部位情報も保存されているため、グラフマッチングによる枝同 士の対応結果から入力スケルトンの枝の人体部位が判定できる(図 7)。こうすること で、人体のトポロジが変化した場合もボリュームデータと人体部位との対応が得られる 上に、スケルトンをグラフに変換して扱うことで情報量や計算量が削減できる。グラフ は人体の位置や接触関係の変わらない姿勢の変化に対して不変な表現であるため 、必要なモデルグラフ個数は人物のとりうる姿勢と比べて非常に少なぐトポロジの個 数の数倍程度で十分であると考えられる。
[0029] グラフマッチングにおいては、グラフは画像処理のノイズによるトポロジ変化や人体 形状の個人差等による属性値の違いなどが考えられるため、エラー訂正を考慮した マッチングが行われる必要がある。そのため、 Edit-Distance (編集距離)(R. Ambaue n, S. Fischer and H. Bunks, 'Graph edit distance with node splitting and merging, a nd its application to diatom identification," Proc. of International Workshop on GbR PR, pp.95-106, June-July 2003)に基づくグラフマッチング手法を用いる。これは、比 較する 2つのグラフを一致させるための編集操作列(削除、追カロ、属性変更)のうち、 コストが最小であるものを、マッチングの評価値として使用する手法である。グラフマツ チング問題は NP完全である力 グラフのノード数が小さいことと、モデルグラフデータ ベースを部分グラフ群に分割し比較する Messmerらの手法(B.T. Messmer and H. Bu nke, A New Algorithm for Error-1 olerant subgraph Isomorphism Detection, IEEE Trans, on PAMI, vol.20, pp.493-504, May 1998)を用いることで、比較的高速に処理 が行える。各編集操作には、操作の種類、対象ノードの属性値の差等によりコストを 定義する必要があり、ここでは以下の式で与える。
cost、del— node(n = n.vol
cost(del— edge(e)) = 0.1
cost(sub_node(nl,n2》 = kl |nl.vol - n2.vol| + k2 nl.len - n2.1en| cost(sub_edge(el,e2)) = 0
なお、ノード nに対して n.volは体積の属性値を、 n.lenは長さの属性値を表す。エッジ は属性を持たせていないので、属性変更のコストを 0、削除のコストを k0と定数にした 。ノードの属性変更に力かるコストは、それぞれのノードに対応する部位同士の非類 似性を表す。ここでは体積と長さ両方の差を考慮し、その線形和でコストを表現する。 kl,k2は係数である。また、ノードの体積属性が大きいものほどボリュームデータ内で 大きな構造をもつものから作られたノードであると考えられるため、ノードの削除には 体積に比例するコストを与える。
[0030] ここで、モデルグラフデータベースの中に十分な種類のモデルグラフが用意されて いれば、撮影から得られたグラフとのマッチングの際にノードやエッジの削除無しに マッチするモデルグラフが得られる。このとき、 Edit-Distanceに影響するコスト関数は ノード属性値の変更 cost(sub_node(nl,n2))のみとなり、考慮すべき定数は kl,k2の 2つ の係数の比のみとなる。
[0031] 以上に説明したグラフマッチングにより、データベース 26内のグラフデータには、人 の部位情報が属性データとして予め記録されているため、この比較により、得られた スケルトン 32からも人の部位情報 (たとえば、頭、手、胴体、足など)が判別できる。得 られた部位情報を含むグラフ構造化データは、人体姿勢データ 36として記憶してお く。様々な姿勢に対応できるモデルと部位情報を用いて、種々の人体姿勢を高速に かつ安定に復元できる。また、このデータ処理では少数のデータを扱うので、計算コ ストが削減できる。
[0032] 好ましくは、次に、スケルトンの各枝から人の部位を認識し、さらに、この部位情報を 用いて、スケルトンを複数の直線近似などの適当な方法で分割する。ここで、スケルト ン曲線との SSD (差の平方の和)を基準にスケルトンの各部位を複数の直線で近似 する。このスケルトンの折れ線近似により関節を発見する(S20)。図 8は、左側のスケ ノレトンから右側の折線近似が得られたことを示す。たとえば、手、足などにおいて、関 節の数、関節間の長さ、可動範囲などが定まっているので、好ましくは、関節位置の 存在確率モデルを用いて推定する。分割された直線から、最終的な関節データ(関 節の位置と角度)を得て、人体姿勢データ 36に含まれる属性データとして記憶する。
[0033] 関節位置の推定について、以下にさらに詳しく説明する。人体部位の対応情報に 基づき、スケルトンの各枝力 関節位置を推定する。ここで人体の骨格を考慮すると 、スケルトンの中で曲率の高い部分は関節である可能性が高い。また、時刻ごとに関 節の曲がり方に変化があっても、関節の個数やリンクの長さは一貫性を持っている、 これらを踏まえて以下のような手順で推定を行う。
(1)各フレームのスケルトンについて、枝の各位置での曲率を求める。なお、あらかじ めすべての枝の長さ(含まれる点の数)を 100に正規化する。
(2)各位置においての(1)で求めた曲率を全フレームで積算する。
(3)積算された曲率の極大となる位置を求める。
(4)各フレームのスケルトンで(3)で求めた点の位置を関節位置とする。
全フレームの曲率を足し合わせることで、曲がっていた関節のすべての情報が得ら れる。この曲率の極大値をもとに全フレームで一貫した関節の構造を得ることができ る。
[0034] 図 9に、例として 291フレームの動画から得られたスケルトンについて、両腕、両足 の各位置での曲率を積算したものを示す。なお、腕や足の先端の点が位置 1、胴体 への付け根が位置 100となるように各枝の向きと長さは正規化されている。スケルトン に含まれる点列はボタセルの座標を元にしているため、前処理としてガウシアンフィ ルタでの平滑化を行った。腕からは手首、肘、肩、足からは足首、膝、腿の部分が極 大点として検出されることがわかる。
[0035] 得られた人体姿勢を表示装置 20に表示する(S22)。得られたグラフから推定され る細線化図形 (人体姿勢)は、表示装置 20の画面に、推定された部位毎に色分けし て表示する。たとえば、頭に対応する部分 (枝)を青、手に対応する部分を水色のよう に色分けする。判別不能な部分は、たとえば白色で表示する。
[0036] 本発明では、上述のように、人体姿勢が、最終的なスケルトンとして得られる。これ は、通常の平服による人の姿勢推定装置 (モーションキヤプチヤシステム)、コンビュ ータアニメーションなどへの応用、ロボットへの動き入力の応用、リハビリテーション、 福祉分野などにぉレ、て適用できる。
[0037] 本発明の手法の有用性を検証するため、 3人の人物(第 1、第 2および第 3の被験 者)を撮影した動画の各フレームに対し本手法を適用し姿勢を推定する実験を行つ た。入力データから関節への近似処理を行い、推定の安定性、様々なトポロジへの 対応能力および処理速度を評価した。
[0038] 実験環境について説明すると、カメラスタジオは一辺 5メートノレ四方で青い床とカー テンに覆われており、天井には 8方向力 スタジオの中央に向けてカメラが設置され ている。画像解像度は 1024 X 768ピクセルで、 8台に同期信号を送ることで最大 30fps で同期した動画の撮影を行うことができる。すべてのカメラの共通視野は、直径約 2メ 一トル、高さ 2メートルの領域となっており、被験者である身長 '体重の異なる 3人の男 女がこの領域内で運動する。各々のカメラの画像は 1対 1に接続されたパーソナルコ ンピュータで取得され、 2cmの解像度でボリューム復元が行われる。
[0039] モデルグラフデータベースを作成するために、第 1の被験者に様々な姿勢をとらせ ることで得たグラフの中から 13種類のトポロジを選び、同トポロジで属性値の異なるも のも考慮して合計 23のグラフを用意した。これらには、手動で対応部位情報を付加し た。
[0040] グラフマッチングに用いる係数 (kl,k2)の値を決定するため、第 1の被験者の 1シー ケンス (644フレーム)のボリュームデータを使用した。このうち 311フレーム分のグラフを 選び、グラフマッチングを行った。(kl,k2)の値を様々に変化させ、正解率を求めた結 果、 (kl,k2) = (1.0, 0.8)のときに最大の 81.4%の正解率となった(図 10)。
[0041] 次に、 3人の被験者の動作を撮影した映像から得られたボリュームデータのシーケ ンスに対し、前もって得られたモデルグラフデータベースとマッチングの定数 (kl,k2) を用いて姿勢推定を行った。
[0042] 図 11と図 12は、入力画像からスケルトンの部位判定までの結果を示す。図 1 1は、
4つの入力画像について、各行ごとに左から、入力画像の 1つ、部位判定されたスケ ノレトン、マッチしたモデルグラフを示し、図 12は他の被験者の複数の入力画像につ いて、各入力画像とそのスケルトンの部位判定結果とを示す。
[0043] 図 11のように接触によりトポロジが変化した場合でも、対応するモデルがマッチし、 部位の判定が行えることがわかる。すなわち、様々なトポロジに対して対応できる。ま た、図 12の部位判定結果では、グラフマッチングの正解率に関して第 2の被験者の シーケンスでは 80.7%、第 3の被験者のシーケンスでは 84.5%の正解率が得られた。
[0044] 図 13は、第 1の被験者の 291フレームのスケルトンを用いて関節位置の推定を行つ た結果を示す。手首、肘、肩及び足首、膝、腿の関節位置が正しく推定されているこ とがわかる。なお、全フレームで曲率を積算した結果は図 9に示した通りである。
[0045] なお、それぞれの処理に要した時間は 1フレームあたりボリュームデータの復元に 5.
75秒、細線化に 0.62秒、スケルトンの解析とグラフ化に 0.097秒、グラフマッチングにば 059秒、関節位置の推定に 0.04秒であった。
[0046] 実験の結果、従来の手法では困難だった人体形状のトポロジの様々に変化する状 況に対して、本手法では多くのフレームにおいて部位の判定に成功することが確認 できた。また、各フレームでスケルトンの抽出処理が独立しているため、追跡の失敗 等によってそれ以降のフレームに影響が及ぶ状況が起こらず、さらに全フレームの情 報を集めることでより安定した関節位置の推定が行えることも確認できた。今後の課 題としては、部位の判定性能の向上や、関節位置推定手法の改善などがあげられる
[0047] 以上に説明したように、上述の手法では、従来は不可能だった以下の点を実現で きる。
(1)初期値問題と処理の安定性
ボリュームデータをボトムアップ的に処理するため初期値が不要であり、安定的に 推定が行える。
(2)処理の高速化
ボリュームデータを直接細線化しグラフ化するため、多関節モデルのマッチングや I somapを使う手法に比べ、処理が高速である。
(3)姿勢のトポロジ変化への対応
手と手の接合や手と胴体の接合など、姿勢のとりうる様々なトポロジをあらかじめ事 例として保持し、入力データとグラフマッチング手法により比較することで、被検体の 様々な構造変化に対応可能である。
すなわち、原理的に、マーカー非装着の従来法に比べても、計算コストが低ぐ追 跡の安定性が高くかつ高速に姿勢を復元できる。一般性が高い。また、人体姿勢復 元の場合、ボリュームは、通常の服装の対象人物について得られたものでよいため、 マーカーやスーツを着用する従来法に比べ、より簡易でありかつ人への負担がなぐ 人の姿勢を復元できる。

Claims

請求の範囲
[1] 関節を有する被検体のボリュームから 3次元の細線化図形を抽出する細線化手段 と、
抽出した細線化図形を、複数の要素に分割し、各要素をノードで表し、 2つの要素 が隣り合うことをエッジで表し、各要素に対応するボリュームについての情報を当該ノ ードの属性として、ノードとエッジからなる属性付きグラフデータを記憶するグラフィ匕 手段と、
被検体の複数の姿勢についてのモデルグラフを記録したデータベースを記憶する 記憶手段と、
得られたグラフデータについて、前記データベースを参照してグラフマッチングを行 つて、最も近いモデルグラフを基に前記細線化図形の各要素の部位を判定して姿勢 を推定する推定手段と
からなる姿勢推定装置。
[2] 前記グラフ化手段において、前記細線化図形を、その細線化図形に含まれる交差 点で複数の枝に分割して前記複数の枝を前記複数の要素とし、枝を表すノードの属 性は、当該枝への細線化の前の元のボリュームの対応部分の体積と枝の長さを含む ことを特徴とする、請求項 1に記載された姿勢推定装置。
[3] さらに、細線化図形の各要素について、複数の直線で近似して当該要素に含まれ る関節の位置と角度を決定して、グラフデータにおけるノードの属性として記憶する 関節決定手段を備えることを特徴とする、請求項 1または 2に記載された姿勢推定装 置。
[4] さらに、前記細線化図形を表示する表示装置を備えることを特徴とする、請求項 1
〜3のいずれかに記載された姿勢推定装置。
[5] 関節を有する被検体のボリュームから 3次元の細線化図形を抽出し、
抽出した細線化図形を、複数の要素に分割し、各要素をノードで表し、 2つの要素 が隣り合うことをエッジで表し、各要素に対応するボリュームについての情報を当該ノ ードの属性として、ノードとエッジからなる属性付きグラフデータを記憶し、
得られたグラフデータについて、被検体の複数の姿勢についてのモデルグラフを 記録したデータベースを参照してグラフマッチングを行って、最も近レ、モデルグラフを 基にスケルトンの各要素の部位を判定して姿勢を推定する
姿勢推定方法。
[6] 前記グラフデータの記憶において、前記細線化図形を、その細線化図形に含まれ る交差点で複数の枝に分割して前記複数の枝を前記複数の要素とし、枝を表すノー ドの属性は、当該枝への細線化の前の元のボリュームの対応部分の体積と枝の長さ を含むことを特徴とする、請求項 5に記載された姿勢推定方法。
[7] さらに、細線化図形の各要素について、複数の直線で近似して当該要素に含まれ る関節の位置と角度を決定して、グラフデータにおけるノードの属性として記憶するこ とを特徴とする、請求項 5または 6に記載された姿勢推定方法。
[8] 関節を有する被検体のボリュームから 3次元の細線化図形を抽出するステップと、 抽出した細線化図形を、複数の要素に分割し、各要素をノードで表し、 2つの要素 が隣り合うことをエッジで表し、各要素に対応するボリュームについての情報を当該ノ ードの属性として、ノードとエッジからなる属性付きグラフデータを記憶するステップと 得られたグラフデータについて、被検体の複数の姿勢についてのモデルグラフを 記録したデータベースを参照してグラフマッチングを行って、最も近レ、モデルグラフを 基にスケルトンの各要素の部位を判定して姿勢を推定するステップと
を画像処理装置に実行させるための姿勢推定プログラム。
[9] 属性付きグラフデータを記憶する前記ステップにおいて、前記細線化図形を、その 細線化図形に含まれる交差点で複数の枝に分割して前記複数の枝を前記複数の要 素とし、枝を表すノードの属性は、当該枝への細線化の前の元のボリュームの対応部 分の体積と枝の長さを含むことを特徴とする、請求項 8に記載された姿勢推定プログ ラム。
[10] さらに、細線化図形の各要素について、複数の直線で近似して当該要素に含まれ る関節の位置と角度を決定して、グラフデータにおけるノードの属性として記憶するス テツプを含むことを特徴とする、請求項 8または 9に記載された姿勢推定プログラム。
PCT/JP2007/054422 2006-03-07 2007-03-07 姿勢推定装置および方法 WO2007102537A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-060783 2006-03-07
JP2006060783 2006-03-07

Publications (1)

Publication Number Publication Date
WO2007102537A1 true WO2007102537A1 (ja) 2007-09-13

Family

ID=38474960

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/054422 WO2007102537A1 (ja) 2006-03-07 2007-03-07 姿勢推定装置および方法

Country Status (1)

Country Link
WO (1) WO2007102537A1 (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010084902A1 (ja) * 2009-01-22 2010-07-29 株式会社日立国際電気 侵入警報ビデオ処理装置
JP2011138350A (ja) * 2009-12-28 2011-07-14 National Institute Of Information & Communication Technology 対象体の解剖構造解析方法及び対象体解剖構造の表示方法並びに対象体解剖構造表示装置
CN102136139A (zh) * 2010-01-22 2011-07-27 三星电子株式会社 目标姿态分析装置及其目标姿态分析方法
JP2011203822A (ja) * 2010-03-24 2011-10-13 Sony Corp 生体認証装置、生体認証方法及びプログラム
WO2012046392A1 (ja) * 2010-10-08 2012-04-12 パナソニック株式会社 姿勢推定装置及び姿勢推定方法
JP2012133666A (ja) * 2010-12-22 2012-07-12 Sogo Keibi Hosho Co Ltd 部位認識装置、部位認識方法、及び部位認識プログラム
JP2014068714A (ja) * 2012-09-28 2014-04-21 Kitasato Institute 関節角度測定システム
JP2014522058A (ja) * 2012-06-14 2014-08-28 ソフトキネティック ソフトウェア 三次元オブジェクトのモデリング、フィッティング、およびトラッキング
JP2014522035A (ja) * 2011-07-27 2014-08-28 サムスン エレクトロニクス カンパニー リミテッド オブジェクト姿勢検索装置及び方法
WO2014138270A3 (en) * 2013-03-08 2014-12-04 Microsoft Corporation User body angle, curvature and average extremity positions extraction using depth images
CN105869181A (zh) * 2016-06-16 2016-08-17 山东大学 基于交互多模型的人体关节点分布式信息一致性估计方法
CN107220596A (zh) * 2017-05-11 2017-09-29 西安电子科技大学 基于级联纠错机制的人体姿态估计方法
JP2018015824A (ja) * 2016-07-26 2018-02-01 公立大学法人会津大学 ロボットを操作する装置、その装置において実行される方法およびプログラム。
CN109241844A (zh) * 2018-08-03 2019-01-18 百度在线网络技术(北京)有限公司 三维物体的姿态估计方法、装置、设备及存储介质
CN109676614A (zh) * 2019-03-11 2019-04-26 广东奥讯智能设备技术有限公司 机器人控制系统以及控制方法
WO2021014530A1 (en) * 2019-07-22 2021-01-28 Nec Corporation Pose identifying apparatus, pose identifying method, and non-transitory computer readable medium
CN112543936A (zh) * 2020-10-29 2021-03-23 香港应用科技研究院有限公司 用于动作识别的动作结构自注意力图卷积网络
WO2022088176A1 (en) * 2020-10-29 2022-05-05 Hong Kong Applied Science and Technology Research Institute Company Limited Actional-structural self-attention graph convolutional network for action recognition

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10124677A (ja) * 1996-10-25 1998-05-15 Nippon Telegr & Teleph Corp <Ntt> 物体の姿勢推定方法および物体の姿勢推定装置
JP2001134615A (ja) * 1999-09-08 2001-05-18 Hyundai Electronics Ind Co Ltd 3次元人体姿勢の検索方法および検索装置
JP2001338294A (ja) * 2000-05-24 2001-12-07 Monolith Co Ltd トポロジーに注目する形状解析器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10124677A (ja) * 1996-10-25 1998-05-15 Nippon Telegr & Teleph Corp <Ntt> 物体の姿勢推定方法および物体の姿勢推定装置
JP2001134615A (ja) * 1999-09-08 2001-05-18 Hyundai Electronics Ind Co Ltd 3次元人体姿勢の検索方法および検索装置
JP2001338294A (ja) * 2000-05-24 2001-12-07 Monolith Co Ltd トポロジーに注目する形状解析器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HILAGA M. ET AL.: "Topology Matching for Fully Automatic Similarity Estimation of 3D Shapes", SIGGRAPH2001, 2001, pages 203 - 212, XP001049889 *
SAITO T. ET AL.: "Euclid Kyori Henkan o Mochiita 3 Jigen Digital Gazo no Hakumenka Oyobi Saisenka no Chikujigata Algorithm to Sono Sho Seishitsu (A SEQUENTIAL THINNING ALGORITHM FOR THREE DIMENSIONAL DIGITAL PICTURES USING THE EUCLIDEAN DISTANCE TRANSFORMATION AND ITS.....)", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J79-D-2, no. 10, 25 October 1996 (1996-10-25), pages 1675 - 1685, XP008020398 *
TANAKA H. ET AL.: "Volume Data no Saisenka to Graph Matching o Mochiita Jirei Base Jintai Shisei Suitei", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, SHADAN HOJIN INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 2006, no. 51, 18 May 2006 (2006-05-18), pages 131 - 136, XP003017637 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5325899B2 (ja) * 2009-01-22 2013-10-23 株式会社日立国際電気 侵入警報ビデオ処理装置
WO2010084902A1 (ja) * 2009-01-22 2010-07-29 株式会社日立国際電気 侵入警報ビデオ処理装置
JP2011138350A (ja) * 2009-12-28 2011-07-14 National Institute Of Information & Communication Technology 対象体の解剖構造解析方法及び対象体解剖構造の表示方法並びに対象体解剖構造表示装置
CN102136139A (zh) * 2010-01-22 2011-07-27 三星电子株式会社 目标姿态分析装置及其目标姿态分析方法
JP2011203822A (ja) * 2010-03-24 2011-10-13 Sony Corp 生体認証装置、生体認証方法及びプログラム
WO2012046392A1 (ja) * 2010-10-08 2012-04-12 パナソニック株式会社 姿勢推定装置及び姿勢推定方法
US9355305B2 (en) 2010-10-08 2016-05-31 Panasonic Corporation Posture estimation device and posture estimation method
JP2012133666A (ja) * 2010-12-22 2012-07-12 Sogo Keibi Hosho Co Ltd 部位認識装置、部位認識方法、及び部位認識プログラム
JP2014522035A (ja) * 2011-07-27 2014-08-28 サムスン エレクトロニクス カンパニー リミテッド オブジェクト姿勢検索装置及び方法
JP2014522058A (ja) * 2012-06-14 2014-08-28 ソフトキネティック ソフトウェア 三次元オブジェクトのモデリング、フィッティング、およびトラッキング
JP2014068714A (ja) * 2012-09-28 2014-04-21 Kitasato Institute 関節角度測定システム
WO2014138270A3 (en) * 2013-03-08 2014-12-04 Microsoft Corporation User body angle, curvature and average extremity positions extraction using depth images
US9135516B2 (en) 2013-03-08 2015-09-15 Microsoft Technology Licensing, Llc User body angle, curvature and average extremity positions extraction using depth images
US9311560B2 (en) 2013-03-08 2016-04-12 Microsoft Technology Licensing, Llc Extraction of user behavior from depth images
US9959459B2 (en) 2013-03-08 2018-05-01 Microsoft Technology Licensing, Llc Extraction of user behavior from depth images
CN105869181A (zh) * 2016-06-16 2016-08-17 山东大学 基于交互多模型的人体关节点分布式信息一致性估计方法
CN105869181B (zh) * 2016-06-16 2018-09-18 山东大学 基于交互多模型的人体关节点分布式信息一致性估计方法
JP2018015824A (ja) * 2016-07-26 2018-02-01 公立大学法人会津大学 ロボットを操作する装置、その装置において実行される方法およびプログラム。
CN107220596B (zh) * 2017-05-11 2020-04-21 西安电子科技大学 基于级联纠错机制的人体姿态估计方法
CN107220596A (zh) * 2017-05-11 2017-09-29 西安电子科技大学 基于级联纠错机制的人体姿态估计方法
CN109241844B (zh) * 2018-08-03 2020-11-17 百度在线网络技术(北京)有限公司 三维物体的姿态估计方法、装置、设备及存储介质
CN109241844A (zh) * 2018-08-03 2019-01-18 百度在线网络技术(北京)有限公司 三维物体的姿态估计方法、装置、设备及存储介质
US11145080B2 (en) 2018-08-03 2021-10-12 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for three-dimensional object pose estimation, device and storage medium
CN109676614A (zh) * 2019-03-11 2019-04-26 广东奥讯智能设备技术有限公司 机器人控制系统以及控制方法
WO2021014530A1 (en) * 2019-07-22 2021-01-28 Nec Corporation Pose identifying apparatus, pose identifying method, and non-transitory computer readable medium
JP2022539841A (ja) * 2019-07-22 2022-09-13 日本電気株式会社 姿勢特定装置、姿勢特定方法、及びプログラム
JP7255742B2 (ja) 2019-07-22 2023-04-11 日本電気株式会社 姿勢特定装置、姿勢特定方法、及びプログラム
CN112543936A (zh) * 2020-10-29 2021-03-23 香港应用科技研究院有限公司 用于动作识别的动作结构自注意力图卷积网络
CN112543936B (zh) * 2020-10-29 2021-09-28 香港应用科技研究院有限公司 用于动作识别的动作结构自注意力图卷积网络模型
WO2022088176A1 (en) * 2020-10-29 2022-05-05 Hong Kong Applied Science and Technology Research Institute Company Limited Actional-structural self-attention graph convolutional network for action recognition

Similar Documents

Publication Publication Date Title
WO2007102537A1 (ja) 姿勢推定装置および方法
JP5931215B2 (ja) 姿勢を推定する方法及び装置
CN103778635B (zh) 用于处理数据的方法和装置
Ye et al. Accurate 3d pose estimation from a single depth image
Mori et al. Estimating human body configurations using shape context matching
Chua et al. Model-based 3D hand posture estimation from a single 2D image
Michel et al. GPU-accelerated real-time 3D tracking for humanoid locomotion and stair climbing
Heap et al. Towards 3D hand tracking using a deformable model
Petit et al. Tracking elastic deformable objects with an RGB-D sensor for a pizza chef robot
ES2402957T3 (es) Rastreo eficaz y preciso de objetos tridimensionales
CN104794737B (zh) 一种深度信息辅助粒子滤波跟踪方法
JP7427188B2 (ja) 3dポーズ取得方法及び装置
JP4878330B2 (ja) 対象物の関節構造の取得方法及び装置
JP2019096113A (ja) キーポイントデータに関する加工装置、方法及びプログラム
CN113034652A (zh) 虚拟形象驱动方法、装置、设备及存储介质
WO2006049147A1 (ja) 三次元形状推定システム及び画像生成システム
JP5526465B2 (ja) 爪位置データ検出装置及び爪位置データ検出方法、並びに爪位置データ検出プログラム
KR102371127B1 (ko) 골격의 길이 정보를 이용한 제스쳐 인식 방법 및 처리 시스템
JP7480001B2 (ja) 学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体
CN113449570A (zh) 图像处理方法和装置
JP2967086B1 (ja) 多眼画像処理による人物の三次元姿勢推定方法
Zou et al. Automatic reconstruction of 3D human motion pose from uncalibrated monocular video sequences based on markerless human motion tracking
Darujati et al. Facial motion capture with 3D active appearance models
JP2010211732A (ja) 物体認識装置および方法
JP2017122993A (ja) 画像処理装置、画像処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07737936

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP