WO2016035941A1 - 인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법 - Google Patents

인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법 Download PDF

Info

Publication number
WO2016035941A1
WO2016035941A1 PCT/KR2014/012433 KR2014012433W WO2016035941A1 WO 2016035941 A1 WO2016035941 A1 WO 2016035941A1 KR 2014012433 W KR2014012433 W KR 2014012433W WO 2016035941 A1 WO2016035941 A1 WO 2016035941A1
Authority
WO
WIPO (PCT)
Prior art keywords
pose
intersection
rubik
cube
human model
Prior art date
Application number
PCT/KR2014/012433
Other languages
English (en)
French (fr)
Inventor
조경은
엄기현
치옥용
조성재
Original Assignee
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단 filed Critical 동국대학교 산학협력단
Publication of WO2016035941A1 publication Critical patent/WO2016035941A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Definitions

  • the present invention relates to a pose recognition system using 3D spatial data of a human model and a method thereof. More specifically, when a user poses, a 3D human model that is a virtual human being receives skeleton information from an image of the pose. And a method for generating a 3D Rubik cube, which is 3D virtual space data, and recognizing a user's pose based on the intersection of a 3D human model and a 3D Rubik cube, and a recording medium and a pose recognition system thereof.
  • NUI Natural User Interface
  • the conventional method of recognizing a user's pose is to extract the skeleton information by tracking the user's movement through an RGB-D camera, and to recognize the pose by analyzing the skeleton information based on the angle of each joint or based on the relative coordinates of the joints. It is.
  • Such methods have a problem of slowing down processing speed or using a large amount of resources because a large amount of data accumulated by tracking a user's movement must be processed and a complex data operation must be performed for accuracy of recognition.
  • pose recognition technology is generally used in combination with other technologies such as game consoles or simulation devices, and thus requires a means of using less resources and accurately recognizing poses in real time.
  • the technical problem to be solved by the present invention is to provide a method for recognizing a pose of a person without being affected by different heights or shapes.
  • it provides a real-time pose recognition method that can save the pose in a simple data format, thereby reducing the amount of calculation through which to recognize the pose in real time, while guaranteeing an accurate recognition rate.
  • the present invention provides a computer-readable recording medium having recorded thereon a program for executing the above-described method on a computer.
  • a pose recognition system generates a 3D human model which is a virtual human by receiving skeleton information from a sensor that tracks a user and captures an image, and generates the 3D human model.
  • a generation unit for generating a 3D Rubik Cube consisting of one or more cross-sensing boxes and a virtual space where a human model is located;
  • An operation unit which causes the 3D human model to move along a pose taken by the user using the skeleton information;
  • a detector for detecting whether the pose intersects with the 3D human model for every intersection detection box, and generating an intersection array having one element as the intersection of each intersection detection box;
  • an identification unit for recognizing a pose by extracting pose data having the most similarity to the pose of the user from among pose data stored in a database using the crossover arrangement.
  • the cross sensing box refers to a unit space having a predetermined size in a 3D virtual space
  • the number of the cross sensing boxes constituting the 3D rubik cube is an operation range of the 3D human model. It can be determined according to.
  • the crossover arrangement may be expressed as bit data, and the size may be determined in proportion to the size of the 3D rubik cube.
  • the pose data may be defined as a pose name and an intersection value, and may have one or more intersection values for one pose.
  • the identification unit may calculate the similarity from the Hamming Distance between the intersection value of the pose of the user and the intersection value of the pose data.
  • the sensing unit may convert the intersection array into a plurality of feature data arrays, wherein the feature data arrays represent a two-dimensional area viewed from the viewpoint of the 3D Rubik cube. Can be.
  • the identification unit may select one or more of the feature data array, and calculate the similarity only for the selected feature data array.
  • the identification unit divides the 3D Rubik cube by a predetermined number for each two-dimensional area viewed at a specific time point, and adjusts an error range by setting a threshold for the divided area. You can do
  • a pose recognition method comprises the steps of receiving skeleton information; Generate a 3D human model that is a virtual human from the skeleton information, generate a 3D Rubik cube which is a virtual space in which the 3D human model is located, the 3D Rubik cube consists of one or more cross sensing boxes and the 3D human model Positioning in the center of the 3D rubik cube; When the user poses, the 3D human model is moved along the pose using the skeleton information to detect whether or not the 3D human model intersects with each of the cross detection boxes, and whether or not each cross detection box crosses. Generating an intersection array of one element; And recognizing a pose by extracting pose data having the most similarity to the pose of the user from among pose data stored in a database using the crossover arrangement.
  • the cross sensing box refers to a unit space having a predetermined size in a 3D virtual space, and the number of the cross sensing boxes constituting the 3D Rubik cube is in the range of motion of the 3D human model. Can be determined accordingly.
  • the crossing arrangement may be expressed as bit data, and the size may be determined in proportion to the size of the 3D rubik cube.
  • the pose data may be defined as a pose name and an intersection value array value, and have one or more intersection pattern values for one pose.
  • Recognizing the pose in the pose recognition method may calculate the similarity from the Hamming Distance between the crossing arrangement value of the user's pose and the arrangement arrangement value of the respective pose data.
  • the generating of the intersection array may include converting the generated intersection array into a plurality of feature data arrays, wherein the feature data array is a two-dimensional view of the 3D Rubik's cube at a specific point in time. It may be characterized by indicating an area.
  • the step of recognizing the pose may include selecting one or more of the feature data arrays and calculating similarity only with respect to the selected feature data arrays.
  • Recognizing the pose in the pose recognition method may be performed by dividing the 3D Rubik cube into a predetermined number for each two-dimensional region viewed from a specific point of view, and setting a threshold for the divided region.
  • the error range can be adjusted.
  • the following provides a computer-readable recording medium having recorded thereon a program for executing the above-described pose recognition methods on a computer.
  • the skeleton information obtained through the RGB-D camera, etc. to the 3D human model using the three-dimensional spatial data, it is possible to recognize the pose of the person without being affected by different heights or body types for each person have.
  • the 3D human model may be used instead of the actual user to learn various poses and movements.
  • 3D Rubik's cubes to store and calculate poses in a simple binary data format, the amount of computation can be reduced to ensure accurate recognition rate while real-time posing recognition.
  • FIG. 1 is a block diagram of a pose recognition system according to an exemplary embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a flow of information between a user, an RGB-D camera, and a pose recognition system.
  • FIG. 3 is a diagram showing the operating range of the body of a general person.
  • FIG. 4 illustrates an example of a 3D rubik cube and a 3D human model of a pose recognition system according to an exemplary embodiment.
  • FIG. 5 is a diagram illustrating whether or not an intersection sensing box intersects a specific pose at three types of viewpoints through a pose recognition system according to an exemplary embodiment of the present invention.
  • FIG. 6 is a diagram illustrating an example of dividing an area of a front view into four areas through a pose recognition system according to an exemplary embodiment of the present invention.
  • FIG. 7 is a diagram illustrating five kinds of poses that a user may take.
  • FIG. 8 is a flowchart illustrating a pose recognition method according to another embodiment of the present invention.
  • RGB-D camera 3 user
  • the technique of recognizing a user's pose is made by using a skeleton information obtained through a sensor such as an RGB-D camera by changing a joint angle or tracking relative coordinates.
  • a sensor such as an RGB-D camera
  • Such methods have an overhead of processing a large amount of skeleton information accumulated in real time, and have a problem in real time processing due to a complicated operation for accurately recognizing a pose.
  • pose recognition technology often functions together with other devices such as games and simulators, so using a lot of resources and time is inevitable.
  • the present invention proposes a method of recognizing a pose using an intersection of a three-dimensional space and a virtual human when the three-dimensional virtual human follows the user's pose in the three-dimensional virtual space by receiving skeleton information.
  • the pose recognition system generates a 3D human model, which is a virtual human, by receiving skeleton information from a sensor that tracks a user and captures an image, and creates a virtual space in which the 3D human model is located.
  • a generation unit for generating a 3D Rubik cube consisting of one or more cross sensing boxes; An operation unit which causes the 3D human model to move along a pose taken by the user using the skeleton information; A detector for detecting whether the pose intersects with the 3D human model for every intersection detection box, and generating an intersection array having one element as the intersection of each intersection detection box; And an identification unit for recognizing a pose by extracting pose data having the most similarity to the pose of the user from among pose data stored in a database using the crossover arrangement.
  • FIG. 1 is a block diagram illustrating a pose recognition system 1 according to an exemplary embodiment of the present invention.
  • the generation unit 10, the operation unit 20, the detection unit 30, the identification unit 40, and the database 50 are shown in FIG. ).
  • the pose recognition system 1 receives skeleton information, recognizes a user's pose, and outputs a recognized pose.
  • the generation unit 10 receives a skeleton information from a sensor that tracks a user and captures an image, generates a 3D human model which is a virtual human, and a 3D Rubik Cube which is a virtual space where the 3D human model is located. Create The 3D Rubik's Cube consists of one or more cross detection boxes.
  • a 3D human model is a virtual human (avatar) in the form of a person, located in the center of the 3D Rubik's cube, which is a three-dimensional virtual space, and moves in the 3D Rubik's cube.
  • Each posing user may have a variety of body information such as height and body type. This results in normalizing motion by projecting various users onto a generalized 3D human model.
  • the pose data is represented and stored based on whether the 3D human model and the cross sensing box intersect, the pose data is recognized without being influenced by the user.
  • Skeleton information refers to skeletal information including a user's height and can be input from a sensor that tracks a user's movement and accumulates skeleton information.
  • the sensor could be an RGB-D camera, such as Kinect developed by Microsoft.
  • 2 is a diagram showing the flow of information between the user 3, the RGB-D camera 2 and the pose recognition system 1.
  • the RGB-D camera 2 tracks the user, photographs an image including depth information, generates skeleton information through image processing, and generates the skeleton to the pose recognition system 1.
  • Send information is a diagram showing the flow of information between the user 3, the RGB-D camera 2 and the pose recognition system 1.
  • 3D Rubik's cube is a three-dimensional virtual space containing one or more cross-sensing box, it means a closed space containing the user's range of motion.
  • the cross sensing box may be defined as a unit space having a constant size in the 3D virtual space.
  • the cross sensing box may be implemented as a cube or a cube, and each cross sensing box has a binary value as to whether it intersects with a 3D human model located therein.
  • the 3D Rubik's Cube is constructed by stacking a plurality of cross sensing boxes in three dimensions.
  • the size of the 3D Rubik's cube may be determined according to the operating range of the 3D human model.
  • the horizontal length of the 3D rubik cube may be determined according to the motion range of the arm of the 3D human model
  • the vertical length of the 3D rubik cube is determined according to the motion range of the head, torso and legs of the 3D human model.
  • the 3D human model represents a normalized body as a virtual human
  • the size of the 3D Rubik's cube is not determined according to the height or the length of the arm. Therefore, both infants less than 100cm tall and adults over 180cm tall have the same pose result in the cross-sensing box if they are projected on the 3D human model by the analyzed skeleton information and pose the same pose.
  • 3 is a diagram showing the operating range of the body of a general person. 3 shows a range in which the physical motion can be performed, the size of the 3D Rubik's cube can be set using an index as shown in FIG. 3.
  • FIG. 4 illustrates an example of a 3D human model 11, a cross sensing box 12, and a 3D rubik cube 13 according to a pose recognition system 1 according to an exemplary embodiment.
  • the cross-sensing box 12 is a cube, and the cross-sensing box 12 is stacked on each of the X-axis, Y-axis, Z-axis 12 to form a 3D rubik cube (13).
  • the 3D human model 11 is represented in a virtual human form and is located at the center of the 3D rubik cube 13.
  • the operation unit 20 causes the 3D human model to move along the pose that the user takes using the skeleton information.
  • Embodiments of the present invention apply skeleton information to a 3D human model to operate in virtual space.
  • the skeletal information is analyzed and the 3D human model is fixed to the center of the 3D Rubik's cube by matching the center of the 3D human model with the center of the 3D Rubik's cube.
  • the 3D human model moves within the 3D Rubik's cube by following the relative movements of each joint in the skeleton information.
  • the detector 30 detects whether or not the user's pose intersects with the 3D human model for every intersection detection box, and generates an intersection array having one element as the intersection of each intersection detection box.
  • the cross detection box has a binary value. That is, each cross sensing box is represented by bit data, and one 3D Rubik's cube constitutes one intersecting array having the binary value of the cross sensing box as an element.
  • Each bit stores in the corresponding cross sensing box whether the body part of the 3D human model has crossed. For example, if a part of a 3D human model intersects a specific cross-sensing box, the value of the index corresponding to that box in the crossover array is set to 1. Conversely, if a particular cross detection box does not intersect the 3D human model at all, set the value of the index to zero.
  • the intersect array is sized in proportion to the size of the 3D Rubik's cube, and can be stored by expressing the intersect as bit data which is a binary value.
  • intersection array in response to a 3D Rubik cube having a size of 12 X 12 X 12, if an intersection of each intersection sensing box is an element, it may be expressed as an intersection array of 1728 elements.
  • the intersect array is represented by an array of 0 or 1, as shown in Equation 1 below.
  • the pose data is defined as a pose name and an array value of intersection or not, and in the case of Equation 1, the pose data is represented by a binary number of 1728 digits.
  • a person may have more than one crossover array value for a pose because it is difficult to take a particular pose exactly the same every time. Therefore, a specific pose is identified by a plurality of intersecting arrays.
  • Table 1 shows an example of storing pose data having a plurality of intersection array values for one pose. As shown in Table 1, pause data may be stored in a database.
  • Table 1 Pose name Pose data First 00001011101011010010 00010100001011010101 ... Second 010001010101010001 00101010010101101010 ... ... ...
  • the pose can be learned by moving only the 3D human model without the motion of the real user.
  • the recognition rate of the pose that the user takes can be ultimately increased.
  • the detector 30 may convert the intersection array into a plurality of feature data arrays.
  • the feature data array is meant to represent a two-dimensional area viewed from a 3D Rubik's cube at a specific point in time. That is, two-dimensional regions may be divided according to a viewpoint viewed from the front of the 3D Rubik cube, a viewpoint viewed from the upper surface, and a viewpoint viewed from the left or right side, and a feature data array may be generated corresponding to the two-dimensional regions.
  • the two-dimensional area is divided and converted into a feature data array in order to determine similarity in the identification unit 40 using only the feature data array to reduce the amount of computation.
  • the amount of computation in the similarity calculation is proportional to the size of the array, and multidimensional arrays can be significantly reduced in size by reducing only one dimension.
  • the identification unit 40 recognizes the pose by extracting pose data having the highest similarity to the pose of the user from the pose data stored in the database using the crossover arrangement.
  • the similarity is calculated from a Hamming Distance between a user's pose intersect array value and each pose data intersect array value.
  • Hamming distance is one of the methods of measuring how many characters have occurred during the transmission of character strings in computer communication. The shorter the hamming distance, the higher the accuracy of communication. Since the calculation of the hamming distance corresponds to a binary operation, embodiments of the present invention use the hamming distance to determine the equality of the values of the intersection or not array which is binary data. In addition to the Hamming distance, various binary operations can be used to compare values for the intersection array.
  • the detection unit 30 may convert the intersection array into a feature data array that is one or more two-dimensional binary arrays according to a viewpoint. For example, an array of cross positions of one posture may be divided into front, top, and left sides according to a viewpoint, and converted into three feature data arrays having a size of 12 X 12. Is an example showing three feature data arrays.
  • Front Data, Top Data, and Left Data are binary arrays of 144 digits, respectively, and the interstitial array P for a specific pose is represented by a set consisting of three 144 binary arrays.
  • the identification unit 50 may select one or more of the feature data arrays, and calculate the similarity only with respect to the selected feature data array. That is, when divided into three viewpoints as shown in Equation 2, a pose may be recognized at a single viewpoint or a pose may be recognized using a multiview. For example, if the pose is recognized from the front view, the feature data array may be generated only with data of the first side of the human Z axis. The Hamming distance is calculated for the arrangement whether or not each pose data corresponding to the generated feature data array intersects, and the smaller the calculated Hamming distance, the higher the similarity to the pose data.
  • recognizing a pose based on a single viewpoint is more effective than realizing a pose using multiple viewpoints and is suitable for real-time processing.
  • recognizing a pose using multiple viewpoints rather than a single viewpoint may ensure a high recognition rate. Therefore, the viewpoint may be selectively determined according to the environment in which the pose recognition system is utilized.
  • FIG. 5 is a diagram illustrating whether or not an intersection sensing box intersects a specific pose at three types of viewpoints through a pose recognition system according to an exemplary embodiment of the present invention.
  • the viewpoints of the front, top, and side are shown in order from the top.
  • two-dimensional spaces are shown for the X-axis and Y-axis, and the intersection detection box is colored in red when the intersection of the 3D human model is crossed in each intersection detection box for the pose taken by the left 3D human model.
  • the above viewpoint represents a two-dimensional space with respect to the X axis and the Z axis, and the Y axis and the Z axis which are the left side in the case of the side viewpoint.
  • the identification unit 50 divides the 3D Rubik cube into a predetermined number for each two-dimensional area viewed at a specific time point, and adjusts an error range by setting a threshold for the divided area.
  • 6 is a diagram illustrating an example of dividing an area of a front view into four areas through a pose recognition system according to an exemplary embodiment of the present invention. Threshold values may be set for each divided region.
  • the pose recognition system may recognize the motion by generating motion data with respect to the continuous pose.
  • the motion data may be defined as a change in pose over time, and may be expressed using a plurality of intersection arrays.
  • the operation data may be identified in real time by determining whether the operation data is performed according to the unit time.
  • FIG. 7 is a diagram illustrating five kinds of poses that a user may take.
  • the user may take various poses using his or her body.
  • the present invention will be described in more detail through an experiment of recognizing a pose through a pose recognition system according to an exemplary embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a pose recognition method according to another embodiment of the present invention.
  • Each step of the pose recognition method corresponds to each configuration of the pose recognition system of FIG. 1 or FIG. 2, and detailed descriptions thereof will be described below with reference to a corresponding relationship without overlapping descriptions.
  • step S110 skeleton information is received.
  • the above step means that the pose recognition system 1 receives the skeleton information from the sensor 2 of FIG. 2 and corresponds to the input arrow of FIG. 1.
  • a 3D human model which is a virtual human
  • a 3D Rubik Cube which is a virtual space in which the 3D human model is located
  • the 3D Rubik's Cube consists of one or more cross-sensing boxes and places the 3D human model in the center of the 3D Rubik's Cube.
  • the cross sensing box refers to a unit space having a predetermined size in the 3D virtual space, and the number of cross sensing boxes constituting the 3D Rubik's cube is determined according to the motion range of the 3D human model.
  • the step is a configuration corresponding to the generation unit of FIG.
  • step S130 when the user poses, the 3D human model is moved along the pose taken by the user by using the skeleton information to detect whether or not the intersection with the 3D human model is performed for every cross detection box. Then, create an intersection array with one element as the intersection of each intersection detection box.
  • Each cross detection box has a binary value, depending on whether it intersects.
  • the pose data is defined as a pose name and an intersection value, and has one or more intersection values for one pose.
  • the generated intersecting array may be converted into a plurality of feature data arrays, and the feature data arrays represent two-dimensional regions of the 3D Rubik's cube viewed from a specific viewpoint.
  • the step is a configuration corresponding to the sensing unit 30 of FIG.
  • step S140 the pose is recognized by extracting pose data having the highest similarity to the pose taken by the user from the pose data stored in the database using the crossover arrangement.
  • the similarity is calculated from a hamming distance between a user's pose intersect array value and each pose data intersect array value, and the smaller the calculated hamming distance, the higher the similarity.
  • This configuration corresponds to the determination unit 50 of FIG. 1.
  • one or more of the specific data arrays may be selected to determine the similarity only with respect to the selected feature data array.
  • the 3D Rubik cube can be divided into a predetermined number for each of the two-dimensional areas viewed from a specific time point, and a threshold value can be set for the divided areas to adjust the error range.
  • inventions of the present invention can be implemented by computer readable codes on a computer readable recording medium.
  • the computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored.
  • Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disks, optical data storage devices, and the like, which may also be implemented in the form of carrier waves (for example, transmission over the Internet). Include.
  • the computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
  • functional programs, codes and code segments for implementing the present invention can be easily inferred by programmers in the art to which the present invention belongs.
  • the skeleton information obtained through the RGB-D camera, etc. to the 3D human model using the three-dimensional spatial data, it is not affected by different heights or body types for each person and recognizes the pose of the person can do.
  • the 3D human model may be used instead of the actual user to learn various poses and movements.
  • 3D Rubik's cubes to store and calculate poses in a simple binary data format, the amount of computation can be reduced to ensure accurate recognition rate while real-time posing recognition.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 3D 인간 모델과 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법에 관한 것으로, 사용자를 추적하여 영상을 촬영하는 센서로부터 스켈레톤(skeleton) 정보를 입력받아 가상 인간인 3D 인간 모델을 생성하고, 3D 인간 모델이 위치하는 가상 공간인 3D 루빅 큐브(Rubik Cube)를 생성하는 생성부; 스켈레톤 정보를 이용하여 사용자가 취하는 포즈를 3D 인간 모델이 따라 움직이게 하는 동작부; 포즈에 대하여 모든 교차 감지 상자마다 3D 인간 모델과 교차했는지 여부를 감지하고, 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성하는 감지부; 및 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출하여 포즈를 인식하는 식별부;를 포함하는 포즈 인식 시스템을 제안한다.

Description

인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법
본 발명은 인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는 사용자가 포즈를 취하면 해당 포즈를 촬영한 영상에서 스켈레톤 정보를 입력받아 가상 인간인 3D 인간 모델과 3차원 가상 공간 데이터인 3D 루빅 큐브를 생성하고, 3D 인간 모델과 3D 루빅 큐브의 교차 여부를 기준으로 사용자의 포즈를 인식하는 방법, 그 기록매체 및 포즈 인식 시스템에 관한 것이다.
NUI(Natural User Interface)는 사람과 컴퓨터의 상호작용을 위한 새로운 인터페이스 즉, 사람의 신체를 직관적으로 움직이는 제스처로부터 직접 컴퓨터 등의 장치를 제어하는 기술이다. 사람의 제스처인 자세, 표정 등을 인식하는 기술을 중심으로 다양한 인식 수단 및 제어 수단이 연구개발되고 있다.
기존의 사용자의 포즈를 인식하는 방법은 RGB-D 카메라를 통해 사용자의 움직임을 추적하여 스켈레톤 정보를 추출하고, 각 관절의 각도를 사용하거나 관절의 상대좌표를 기반으로 스켈레톤 정보를 분석하여 포즈를 인식하는 것이다. 이와 같은 방법들은 사용자의 움직임을 추적하여 쌓이는 대용량 데이터를 처리해야 하는 동시에 인식의 정확성을 위한 복잡한 데이터 연산을 수행해야 하기 때문에 처리 속도가 느려지거나 많은 자원을 사용해야하는 문제점을 가진다. 게다가 포즈를 인식하는 기술은 게임기 혹은 시뮬레이션 장치와 같이 다른 기술과 결합되어 활용되는 것이 일반적이기 때문에 적은 자원만을 사용하고 실시간으로 정확하게 포즈를 인식할 수 있는 수단이 필요하다.
또한, 사람마다 키나 체형이 다양하기 때문에 사람의 포즈를 인식하는데 체형의 다양성을 고려할 수 있어야 한다. 따라서 사용자에 특정되지 않고 일반적인 사람들의 포즈를 인식하여 컴퓨터 등과 상호작용할 수 있는 포즈 인식 방법을 통해 자연스러운 인터페이스가 구현되어야 할 필요성이 있다.
(선행기술문헌) 한국 공개특허공보 10-2013-0111248, 2013.10.10 공개
본 발명이 해결하고자 하는 기술적 과제는, 사람마다 다른 키나 체형의 영향을 받지 않으면서 사람의 포즈를 인식하는 방법을 제공하는 것이다. 또한, 간단한 데이터 형식으로 포즈를 저장하고 이를 통해 연산량을 감소시켜 실시간으로 포즈를 인식하면서도 정확한 인식률을 보장할 수 있는 실시간 포즈 인식 방법을 제공하는 것이다. 나아가 상기된 방법을 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.
상기 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 포즈 인식 시스템은 사용자를 추적하여 영상을 촬영하는 센서로부터 스켈레톤(skeleton) 정보를 입력받아 가상 인간인 3D 인간 모델을 생성하고, 상기 3D 인간 모델이 위치하는 가상 공간이며 하나 이상의 교차 감지 상자로 구성되는 3D 루빅 큐브(Rubik Cube)를 생성하는 생성부; 상기 스켈레톤 정보를 이용하여 상기 사용자가 취하는 포즈를 상기 3D 인간 모델이 따라 움직이게 하는 동작부; 상기 포즈에 대하여 상기 모든 교차 감지 상자마다 상기 3D 인간 모델과 교차했는지 여부를 감지하고, 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성하는 감지부; 및 상기 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 상기 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출하여 포즈를 인식하는 식별부;를 포함한다.
일 실시예에 따른 포즈 인식 시스템에서, 상기 교차 감지 상자는 3차원 가상 공간에서 일정한 크기의 단위 공간을 의미하고, 상기 3D 루빅 큐브를 구성하는 상기 교차 감지 상자의 개수는 상기 3D 인간 모델의 동작 범위에 따라 결정될 수 있다.
일 실시예에 따른 포즈 인식 시스템에서, 상기 교차 여부 배열은 비트 데이터로 표현되고, 상기 3D 루빅 큐브의 크기에 비례하여 크기가 결정될 수 있다.
일 실시예에 따른 포즈 인식 시스템에서, 상기 포즈 데이터는 포즈 이름과 교차 여부 배열 값으로 정의되고, 하나의 포즈에 대하여 하나 이상의 교차 여부 배열 값을 가질 수 있다.
일 실시예에 따른 포즈 인식 시스템에서, 상기 식별부는 상기 사용자의 포즈의 교차 여부 배열 값과 상기 각 포즈 데이터의 교차 여부 배열 값에 대한 해밍 거리(Hamming Distance)로부터 유사도를 계산할 수 있다.
일 실시예에 따른 포즈 인식 시스템에서, 상기 감지부는 상기 교차 여부 배열을 복수 개의 특징 데이터 배열로 변환하되, 상기 특징 데이터 배열은 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역을 나타내는 것을 특징으로 할 수 있다.
상기된 실시예에서, 상기 식별부는 상기 특징 데이터 배열 중에서 하나 이상을 선택하고, 선택된 특징 데이터 배열에 대하여만 유사도를 계산하는 것을 특징으로 할 수 있다.
상기된 실시예에서, 상기 식별부는 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역마다 소정의 개수로 분할하고, 상기 분할된 영역에 대하여 문턱 값(threshold)을 설정하여 오차 범위를 조정하는 것을 특징으로 할 수 있다.
상기 기술적 과제를 해결하기 위하여, 본 발명의 다른 실시예에 따른 포즈 인식 방법은 스켈레톤(skeleton) 정보를 입력받는 단계; 상기 스켈레톤 정보로부터 가상 인간인 3D 인간 모델을 생성하고, 상기 3D 인간 모델이 위치하는 가상 공간인 3D 루빅 큐브를 생성하고, 상기 3D 루빅 큐브는 하나 이상의 교차 감지 상자로 구성하며 상기 3D 인간 모델을 상기 3D 루빅 큐브의 중심에 위치시키는 단계; 사용자가 포즈를 취하면 상기 스켈레톤 정보를 이용하여 상기 3D 인간 모델을 상기 포즈를 따라 움직이게 하여 상기 모든 교차 감지 상자마다 상기 3D 인간 모델과 교차했는지 여부를 감지하고, 상기 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성하는 단계; 및 상기 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 상기 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출함으로써 포즈를 인식하는 단계;를 포함한다.
다른 실시예에 따른 포즈 인식 방법에서 상기 교차 감지 상자는 3차원 가상 공간에서 일정한 크기의 단위 공간을 의미하고, 상기 3D 루빅 큐브를 구성하는 상기 교차 감지 상자의 개수는 상기 3D 인간 모델의 동작 범위에 따라 결정될 수 있다.
다른 실시예에 따른 포즈 인식 방법에서 상기 교차 여부 배열은 비트 데이터로 표현되고, 상기 3D 루빅 큐브의 크기에 비례하여 크기가 결정될 수 있다.
다른 실시예에 따른 포즈 인식 방법에서 상기 포즈 데이터는 포즈 이름과 교차 여부 배열 값으로 정의되고, 하나의 포즈에 대하여 하나 이상의 교차 여부 배열 값을 가지는 것을 특징으로 할 수 있다.
다른 실시예에 따른 포즈 인식 방법에서 상기 포즈를 인식하는 단계는 상기 사용자의 포즈의 교차 여부 배열 값과 상기 각 포즈 데이터의 교차 여부 배열 값에 대한 해밍 거리(Hamming Distance)로부터 유사도를 계산할 수 있다.
다른 실시예에 따른 포즈 인식 방법에서 상기 교차 여부 배열을 생성하는 단계는 상기 생성된 교차 여부 배열을 복수 개의 특징 데이터 배열로 변환하되, 상기 특징 데이터 배열은 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역을 나타내는 것을 특징으로 할 수 있다.
상기된 실시예에서 상기 포즈를 인식하는 단계는 상기 특징 데이터 배열 중에서 하나 이상을 선택하고, 선택된 특징 데이터 배열에 대하여만 유사도를 계산하는 것을 특징으로 할 수 있다.
다른 실시예에 따른 포즈 인식 방법에서 상기 포즈를 인식하는 단계는 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역마다 소정의 개수로 분할하고, 상기 분할된 영역에 대하여 문턱 값(threshold)을 설정하여 오차 범위를 조정할 수 있다.
한편, 이하에서는 상기된 포즈 인식 방법들을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명의 실시예들에 따르면, RGB-D 카메라 등을 통해 얻은 스켈레톤 정보를 3차원 공간 데이터를 이용하여 3D 인간 모델에 적용함으로써 사람마다 다른 키나 체형에 영향을 받지 않으며 사람의 포즈를 인식할 수 있다.
또한, 실제 사용자를 대신에 3D 인간 모델을 이용하여 다양한 포즈, 동작에 대한 학습을 수행할 수 있다. 나아가 3D 루빅 큐브를 이용하여 이진수의 간단한 데이터 형식으로 포즈를 저장하고 연산함으로써 연산량을 감소시켜 실시간으로 포즈를 인식하면서 정확한 인식률을 보장할 수 있다.
도 1은 본 발명의 일 실시예에 따른 포즈 인식 시스템의 블록도이다.
도 2는 사용자, RGB-D 카메라 및 포즈 인식 시스템 간의 정보의 흐름을 나타낸 그림이다.
도 3은 일반적인 사람의 신체의 동작 범위를 나타낸 그림이다.
도 4는 본 발명의 일 실시예에 따른 포즈 인식 시스템의 3D 루빅 큐브와 3D 인간 모델을 도시한 예이다.
도 5는 본 발명의 일 실시예에 따른 포즈 인식 시스템을 통해 3종류의 시점에서 특정 포즈에 대하여 교차 감지 상자의 교차 여부를 표시한 그림이다.
도 6은 본 발명의 일 실시예에 따른 포즈 인식 시스템을 통해 정면 시점의 영역을 4개로 분할한 예시를 나타낸 그림이다.
도 7은 사용자가 취할 수 있는 5 종류의 포즈를 나타낸 그림이다.
도 8은 본 발명의 다른 실시예에 따른 포즈 인식 방법의 흐름도이다.
<부호의 설명>
1: 포즈 인식 시스템
2: RGB-D 카메라 3: 사용자
10: 생성부 20: 동작부
30: 감지부 40: 식별부
50: 데이터 베이스
본 발명에 관한 구체적인 내용의 설명에 앞서 이해의 편의를 위해 본 발명이 해결하고자 하는 과제의 해결 방안의 개요 혹은 기술적 사상의 핵심을 우선 제시한다.
사용자의 포즈를 인식하는 기술은 RGB-D 카메라 등의 센서를 통해 얻은 스켈레톤 정보를 이용하여 관절의 각도의 변화나 상대 좌표의 추적을 통해 이루어진다. 이와 같은 방법들은 실시간으로 축적되는 대용량의 스켈레톤 정보를 처리해야하는 오버헤드를 가지고, 포즈를 정확하게 인식하기 위한 복잡한 연산 때문에 실시간 처리에 부담이 되는 문제점을 가진다. 또한, 포즈를 인식하는 기술은 게임, 시뮬레이터와 같은 다른 장치와 함께 기능하는 경우가 많기 때문에 많은 자원과 시간을 사용하면 그 활용도가 떨어질 수 밖에 없다.
나아가 사람마다 키, 체형이 상이하기 때문에 상대 좌표 등을 이용하는 기존의 방법들은 사용자가 달라지는 경우 포즈 인식 방법에 대한 조정이 필요한 문제점을 가진다. 그러나 사람마다 포즈 인식 방법을 세부적으로 조정해야하는 불편함은 포즈 인식 기술의 인간의 자연스러운 동작을 통해 하드웨어 자원을 직관적으로 제어한다는 NUI의 목적에 반하는 큰 단점이 될 수 있다.
따라서, 본 발명은 스켈레톤 정보를 입력받아 3차원 가상 공간에서 3차원 가상 인간이 사용자의 포즈를 따라하면 3차원 공간과 가상 인간과의 교차 여부를 이용하여 포즈를 인식하는 방법을 제안한다.
본 발명의 일 실시예에 따른 포즈 인식 시스템은, 사용자를 추적하여 영상을 촬영하는 센서로부터 스켈레톤(skeleton) 정보를 입력받아 가상 인간인 3D 인간 모델을 생성하고, 상기 3D 인간 모델이 위치하는 가상 공간이며 하나 이상의 교차 감지 상자로 구성되는 3D 루빅 큐브(Rubik Cube)를 생성하는 생성부; 상기 스켈레톤 정보를 이용하여 상기 사용자가 취하는 포즈를 상기 3D 인간 모델이 따라 움직이게 하는 동작부; 상기 포즈에 대하여 상기 모든 교차 감지 상자마다 상기 3D 인간 모델과 교차했는지 여부를 감지하고, 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성하는 감지부; 및 상기 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 상기 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출하여 포즈를 인식하는 식별부;를 포함한다.
도 1은 본 발명의 일 실시예에 따른 포즈 인식 시스템(1)을 나타낸 블록도로서 생성부(10), 동작부(20), 감지부(30), 식별부(40) 및 데이터 베이스(50)를 포함한다. 포즈 인식 시스템(1)은 스켈레톤 정보를 입력받아 사용자의 포즈를 인식하고 인식된 포즈를 출력하게 된다.
생성부(10)는 사용자를 추적하여 영상을 촬영하는 센서로부터 스켈레톤(skeleton) 정보를 입력받아 가상 인간인 3D 인간 모델을 생성하고, 3D 인간 모델이 위치하는 가상 공간인 3D 루빅 큐브(Rubik Cube)를 생성한다. 3D 루빅 큐브는 하나 이상의 교차 감지 상자로 구성된다.
3D 인간 모델이란 사람의 형태를 가지는 가상의 인간(avatar)으로서, 3차원 가상 공간인 3D 루빅 큐브의 중심에 위치하고 3D 루빅 큐브 내에서 움직인다. 포즈를 취하는 사용자마다 다양한 키와 체형 등의 신체 정보를 가질 수 있다. 따라서 다양한 사용자를 일반화된 3D 인간 모델에 투영시킴으로써 움직임을 정규화하는 결과를 가져오게 된다. 본 발명의 실시예들에서 포즈 데이터는 이러한 3D 인간 모델과 교차 감지 상자가 교차하는지 여부를 기준으로 표현 및 저장되기 때문에 사용자에 따라 영향을 받지 않고 포즈를 인식하게 되는 것이다.
스켈레톤 정보란 사용자의 키를 포함한 골격 정보를 말하며 사용자의 움직임을 추적하여 스켈레톤 정보를 축적하는 센서로부터 입력받을 수 있다. 예를 들어, 센서는 마이크로 소프트사에서 개발된 키넥트(Kinect) 등의 RGB-D 카메라가 될 수 있다. 도 2는 사용자(3), RGB-D 카메라(2) 및 포즈 인식 시스템(1) 간의 정보의 흐름을 나타낸 그림이다. 사용자(3)가 포즈를 취하면 RGB-D 카메라(2)는 사용자를 추적하여 깊이 정보를 포함하는 영상을 촬영하여 영상처리를 통해 스켈레톤 정보를 생성하고, 포즈 인식 시스템(1)에게 생성된 스켈레톤 정보를 보내준다.
3D 루빅 큐브는 하나 이상의 교차 감지 상자를 포함하는 3차원 가상 공간으로써, 사용자의 동작 범위를 포함하는 폐쇄 공간을 의미한다. 교차 감지 상자는 3차원 가상 공간에서 일정한 크기의 단위 공간으로 정의할 수 있다. 예를 들어 교차 감지 상자는 정육면체 또는 직육면체로 구현할 수 있으며, 각각의 교차 감지 상자는 내부에 위치한 3D 인간 모델과 교차했는지 여부에 대하여 이진 값을 가진다. 3D 루빅 큐브는 복수 개의 교차 감지 상자를 3차원으로 적층하여 구성된다. 즉, 3D 루빅 큐브의 크기, 즉 X축, Y축, Z축으로 교차 감지 상자를 몇 개 적층하는지 그 개수는 3D 인간 모델의 동작 범위에 따라 결정될 수 있다. 상세히 설명하자면 3D 인간 모델의 팔의 동작 범위에 따라 3D 루빅 큐브의 가로 길이가 결정될 수 있고, 3D 인간 모델의 머리, 몸통, 다리의 동작 범위에 따라 3D 루빅 큐브의 세로 길이가 결정되는 것이다. 다만, 3D 인간 모델은 가상의 인간으로써 정규화된 신체를 표현하기 때문에 키나 팔의 길이에 따라 3D 루빅 큐브의 크기가 결정되는 것은 아니다. 그러므로 키가 100cm 이하의 어린아이나 키가 180cm 이상인 성인인 사용자 모두 분석된 스켈레톤 정보에 의하여 3D 인간 모델에 투영되어 동일한 포즈를 취하게 되면, 교차 감지 상자에 동일한 교차 여부 결과 값을 가지게 된다.
도 3은 일반적인 사람의 신체의 동작 범위를 나타낸 그림이다. 도 3은 신체적으로 동작이 가능한 범위를 표시하고 있으므로 도 3과 같은 지표를 이용하여 3D 루빅 큐브의 크기를 설정할 수 있다.
도 4는 본 발명의 일 실시예에 따른 포즈 인식 시스템(1)에 따른 3D 인간 모델(11), 교차 감지 상자(12) 및 3D 루빅 큐브(13)를 도시한 예이다. 도 4의 경우, 교차 감지 상자(12)는 정육면체이고, X축, Y축, Z축에 각각 12개씩 교차 감지 상자(12)를 적층하여 3D 루빅 큐브(13)를 구성하였다. 3D 인간 모델(11)은 가상의 인간 형태로 표현되어 3D 루빅 큐브(13)의 중심에 위치하고 있다.
동작부(20)는 스켈레톤 정보를 이용하여 사용자가 취하는 포즈를 3D 인간 모델이 따라 움직이게 한다. 본 발명의 실시예들은 스켈레톤 정보를 3D 인간 모델에 적용시켜 가상 공간 내에서 동작하게 한다. 스켈레톤 정보를 분석하여 3D 인간 모델의 중심점과 3D 루빅 큐브의 중심점을 일치시킴으로써 3D 인간 모델을 3D 루빅 큐브의 중심에 고정시킨다. 3D 인간 모델은 스켈레톤 정보에 포함된 각 관절의 움직임에 따라 상대적인 동작을 따라함으로써 3D 루빅 큐브 안에서 움직이게 되는 것이다.
감지부(30)는 사용자의 포즈에 대하여 모든 교차 감지 상자마다 3D 인간 모델과 교차했는지 여부를 감지하고, 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성한다. 감지 여부에 따라 교차 감지 상자는 이진 값을 가진다. 즉, 각 교차 감지 상자는 비트(bit) 데이터로 표현되며 하나의 3D 루빅 큐브는 교차 감지 상자의 이진 값을 원소로 하는 하나의 교차 여부 배열을 구성한다. 각 비트는 해당 교차 감지 상자에 3D 인간 모델의 신체 일부가 교차하였는지 여부를 저장한다. 예를 들어, 3D 인간 모델의 일부가 특정 교차 감지 상자와 교차하면 교차 여부 배열에서 해당 상자에 해당하는 인덱스의 값을 1로 설정한다. 반대로 특정 교차 감지 상자가 3D 인간 모델과 전혀 교차하지 않을 경우 해당 인덱스의 값을 0으로 설정한다.
사용자의 포즈를 따라서 3D 인간 모델이 포즈를 취하면 포즈에 대한 모든 교차 여부 값을 받아서 이진수 배열인 교차 여부 배열을 생성한다. 교차 여부 배열은 3D 루빅 큐브의 크기에 비례하여 그 크기가 결정되며, 교차 여부를 이진 값인 비트 데이터로 표현하여 저장할 수 있다.
도 4의 경우 12 X 12 X 12 크기의 3D 루빅 큐브에 대응하여, 각 교차 감지 상자의 교차 여부를 하나의 원소로 하면 총 1728개의 원소로 이루어진 하나의 교차 여부 배열로 표현할 수 있다. 교차 여부 배열은 다음 수학식 1과 같이 0 또는 1의 배열로 표현된다.
수학식 1
Figure PCTKR2014012433-appb-M000001
포즈 데이터는 포즈 이름과 교차 여부 배열 값으로 정의되고, 수학식 1의 경우 1728자리의 이진수로 표현된다. 사람은 특정 포즈를 매번 완전히 똑같이 취하기 어렵기 때문에 하나의 포즈에 대하여 하나 이상의 교차 여부 배열 값을 가질 수 있다. 따라서 복수 개의 교차 여부 배열로 특정 포즈를 식별하게 된다. 표 1은 하나의 포즈에 대하여 복수 개의 교차 여부 배열 값을 가지는 포즈 데이터를 저장한 예시이다. 표 1과 같이 데이터 베이스에 포즈 데이터가 저장될 수 있을 것이다.
표 1
포즈 이름 포즈 데이터
First 00001011101011010010
00010100001011010101
...
Second 01000101010101010001
00101010010101101010
...
... ...
3D 인간 모델은 가상 공간에 존재하는 가상 인간이기 때문에 실제 사용자의 움직임없이 3D 인간 모델만 움직이게 함으로써 포즈를 학습시킬 수 있다. 동일한 포즈를 3D 인간 모델이 여러 번 수행한 결과를 포즈 데이터로 저장함으로써 궁극적으로 사용자가 취하는 포즈에 대한 인식률을 높일 수 있다.
또한, 감지부(30)는 교차 여부 배열을 복수 개의 특징 데이터 배열로 변환할 수 있다. 특징 데이터 배열은 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역을 나타내는 것을 의미한다. 즉, 3D 루빅 큐브를 정면에서 바라보는 시점, 상면에서 바라보는 시점, 왼쪽 또는 오른쪽 측면에서 바라보는 시점 등에 따라 2차원 영역을 구분할 수 있고 2차원 영역에 대응하여 특징 데이터 배열을 생성할 수 있다. 이렇게 2차원 영역을 구분하여 특징 데이터 배열로 변환하는 것은 연산량을 감소시키기 위하여 특징 데이터 배열만으로 식별부(40)에서 유사도 판단을 하기 위함이다. 유사도 계산의 연산량은 배열의 크기에 비례하고 다차원 배열은 한 차원만 줄여도 크기가 현저하게 줄어들기 때문이다.
식별부(40)는 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출하여 포즈를 인식한다. 구체적으로 사용자의 포즈의 교차 여부 배열 값과 각 포즈 데이터의 교차 여부 배열 값에 대한 해밍 거리(Hamming Distance)로부터 유사도를 계산한다. 해밍 거리는 컴퓨터 통신 등에서 문자열의 전송 도중 몇 글자에서 오류가 났는지를 측정하는 방법 중의 하나이다. 해밍 거리가 짧을 수록 통신의 정확도는 높은 것으로 볼 수 있다. 해밍 거리의 계산은 이진 연산에 해당하기 때문에 본 발명의 실시예들은 이진 데이터인 교차 여부 배열의 값의 동일성을 판단하기 위하여 해밍 거리를 사용한다. 해밍 거리 외에도 다양한 이진 연산을 이용하여 교차 여부 배열에 대한 값을 비교할 수 있을 것이다.
해밍 거리가 작을수록 유사도가 높은 것으로 볼 수 있다. 해밍 거리 값이 0이라면 교차 여부 배열 값과 해당 포즈 데이터 값이 완전히 일치하는 것으로 동일한 포즈에 해당하는 것을 의미한다. 그러나 동일한 포즈일지라도 신체적으로 완전히 동일하게 형태를 취할 수 없기 때문에 해밍 거리가 작을수록 포즈 데이터와 유사도가 높은 것으로 보아 저장된 포즈 데이터 중에서 현재 취한 포즈와 동일하거나 혹은 유사한 포즈 데이터를 추출하게 되는 것이다.
감지부(30)에 의하여 교차 여부 배열은 시점에 따라 하나 이상의 2차원 이진수 배열인 특징 데이터 배열로 변환될 수 있다. 예를 들어, 한 자세의 교차 여부 배열을 시점에 따라 정면(Front), 위(Top), 측면(Left)으로 분리하여 12 X 12 크기의 3개의 특징 데이터 배열로 변환할 수 있고, 수학식 2는 3개의 특징 데이터 배열을 나타낸 예시이다.
수학식 2
Figure PCTKR2014012433-appb-M000002
수학식 2에서 Front Data, Top Data, Left Data는 각각 144자리의 이진수 배열이고, 특정 포즈에 대한 교차 여부 배열 P는 144자리 이진수 배열 3개로 구성된 집합으로 표현된다. 이때, 식별부(50)는 특징 데이터 배열 중에서 하나 이상을 선택하고, 선택된 특징 데이터 배열에 대하여만 유사도를 계산하는 것을 특징으로 할 수 있다. 즉, 수학식 2와 같이 3가지 시점으로 구분한 경우 단일 시점에서 포즈를 인식할 수도 있고 다시점을 이용하여 포즈를 인식할 수도 있는 것이다. 예를 들어, 정면 시점에서 포즈를 인식하면 사람의 Z 축의 첫 번째 면의 데이터만으로 특징 데이터 배열을 생성하면 된다. 생성된 특징 데이터 배열과 대응되는 각 포즈 데이터의 교차 여부 배열에 대한 해밍 거리를 계산하고 계산된 해밍 거리가 작을수록 포즈 데이터와 유사도가 높은 것으로 보고 포즈를 인식하게 된다.
연산량 측면에서 단일 시점만을 기준으로 포즈를 인식하는 것이 다 시점을 이용하여 포즈를 인식하는 것보다 효과적이고 실시간 처리에 적합하다. 반면에 정확도 측면에서는 단일 시점보다 다 시점을 이용하여 포즈를 인식하는 것이 높은 인식률을 보장할 수 있을 것이다. 따라서 포즈 인식 시스템이 활용되는 환경에 따라서 선택적으로 시점을 결정하면 될 것이다.
도 5는 본 발명의 일 실시예에 따른 포즈 인식 시스템을 통해 3종류의 시점에서 특정 포즈에 대하여 교차 감지 상자의 교차 여부를 표시한 그림이다. 상단부터 순서대로 정면(Front), 위(Top), 측면(Left)의 시점을 나타내고 있다. 정면 시점의 경우 X축과 Y축에 대한 2차원 공간을 나타내고, 왼쪽의 3D 인간 모델이 취한 포즈에 대하여 각 교차 감지 상자에 3D 인간 모델과 교차한 경우 교차 감지 상자를 붉은 색으로 색칠하였다. 위 시점은 X축과 Z축에 대하여, 측면 시점의 경우 왼쪽 측면인 Y축과 Z축에 대하여 2차원 공간을 나타낸다.
포즈를 인식할 때마다, 사용자가 완전히 똑같은 포즈를 동작하기 어렵기 때문에 배열에 오차 값을 수용할 수 있도록 문턱 값(threshold)을 사용한다. 따라서 식별부(50)는 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역마다 소정의 개수로 분할하고, 분할된 영역에 대하여 문턱 값(threshold)을 설정하여 오차 범위를 조정한다. 도 6은 본 발명의 일 실시예에 따른 포즈 인식 시스템을 통해 정면 시점의 영역을 4개로 분할한 예시를 나타낸 그림이다. 각 분할된 영역마다 문턱 값을 각각 설정할 수 있다.
나아가 포즈 인식 시스템은 연속된 포즈에 대하여 동작 데이터를 생성함으로써 동작 인식을 할 수 있다. 동작 데이터는 시간에 따른 포즈의 변화로 정의할 수 있으며, 복수 개의 교차 여부 배열을 이용하여 표현할 수 있다. 단위 시간에 따라 동작 데이터 여부를 판단하여 실시간으로 동작 데이터를 식별할 수 있다.
도 7은 사용자가 취할 수 있는 5 종류의 포즈를 나타낸 그림이다. 사용자는 도 7에 도시된 포즈 외에도 자신의 신체를 이용하여 다양한 포즈를 취할 수 있다. 사용자가 도 7과 같은 포즈를 취한 경우 본 발명의 일실시예에 따른 포즈 인식 시스템을 통하여 포즈를 인식하는 실험을 통해 보다 상세히 본 발명을 설명하고자 한다.
모든 실험은 정면, 위, 왼측면에 해당하는 총 3개의 시점을 판단 대상으로 설정하고, 각 포즈마다 10번씩 실험을 수행하였다. 해당 교차 감지 상자의 개수에 비례하여 문턱 값을 설정하였다. 모든 실험에서 데이터 베이스에 저장된 학습 데이터는 10개이다.
표 2
포즈 인식률(%)
First 100
Second 90
Third 85
Fourth 60
Power 100
표 2의 경우, 교차 감지 상자를 8 X 9 X 7 개 적층하여 구성된 3D 루빅 큐브에 대하여 다수 시점 인식을 적용하고, 문턱 값은 1로 설정하였다. 100%의 인식률을 보인 포즈도 있지만, 상대적으로 낮은 60%의 인식률을 가지는 포즈도 있어 포즈마다 인식률의 차이가 있음을 알 수 있다. 즉, 해당 3D 루빅 큐브는 실험한 포즈 모두에 대하여 적절한 크기에 해당한다고 보기 어렵다.
표 3
포즈 인식률(%)
First 100
Second 88
Third 90
Fourth 95
Power 100
표 3의 경우, 교차 감지 상자를 10 X 12 X 10 개 적층하여 구성된 3D 루빅 큐브에 대하여 다수 시점 인식을 적용하고, 문턱 값은 2로 설정하였다. 교차 감지 상자를 더 많이 적층하여 더 세분화된 3D 인간 모델을 표현하게 됨으로써 전체적으로 인식률이 높아진 것을 확인할 수 있었다. 또한, 포즈에 따라 인식률의 차이가 줄어든 것으로 3D 인간 모델의 동작 범위에 적절한 루빅 큐브의 크기에 해당한다고 볼 수 있다.
표 4
포즈 인식률(%)
First 95
Second 100
Third 95
Fourth 90
Power 100
표 4의 경우, 교차 감지 상자를 14 X 18 X 14 개 적층하여 구성된 3D 루빅 큐브에 대하여 다수 시점 인식을 적용하고, 문턱 값은 3으로 설정하였다. 표 3과 같이 인식률이 높은 것으로 보아 3D 루빅 큐브의 크기가 3D 인간 모델의 동작 범위를 표현하기에 적절한 크기에 해당한다고 볼 수 있다.
표 5
포즈 인식률(%)
First 65
Second 60
Third 15
Fourth 15
Power 55
표 5의 경우, 교차 감지 상자를 21 X 27 X 21 개 적층하여 구성된 3D 루빅 큐브에 대하여 다수 시점 인식을 적용하고, 문턱 값은 4로 설정하였다. 3D 루빅 큐브의 크기가 너무 커져서 오히려 포즈 인식률이 낮아진 것을 확인할 수 있었다.
도 8은 본 발명의 다른 실시예에 따른 포즈 인식 방법의 흐름도이다. 포즈 인식 방법의 각 단계는 도 1의 포즈 인식 시스템의 각 구성 또는 도 2와 대응되는바, 구체적인 설명은 중복되어 기재하지 않고 대응관계를 중심으로 이하 설명한다.
S110 단계에서는 스켈레톤(skeleton) 정보를 입력받는다. 상기 단계는 도 2의 센서(2)로부터 포즈 인식 시스템(1)이 스켈레톤 정보를 입력받는 것을 의미하며, 도 1의 입력 화살표에 대응된다.
S120 단계에서는 스켈레톤 정보로부터 가상 인간인 3D 인간 모델을 생성하고, 3D 인간 모델이 위치하는 가상 공간인 3D 루빅 큐브(Rubik Cube)를 생성한다. 3D 루빅 큐브는 하나 이상의 교차 감지 상자로 구성하며 3D 인간 모델을 3D 루빅 큐브의 중심에 위치시킨다. 교차 감지 상자는 3차원 가상 공간에서 일정한 크기의 단위 공간을 의미하고, 3D 루빅 큐브를 구성하는 교차 감지 상자의 개수는 3D 인간 모델의 동작 범위에 따라 결정된다. 상기 단계는 도 1의 생성부에 대응되는 구성이다.
S130 단계에서는 사용자가 포즈를 취하면 스켈레톤 정보를 이용하여 3D 인간 모델을 사용자가 취한 포즈를 따라 움직이게 하여 모든 교차 감지 상자마다 상기 3D 인간 모델과 교차했는지 여부를 감지한다. 그리고 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성한다. 교차 여부에 따라서 각 교차 감지 상자는 이진 값을 가진다.
포즈 데이터는 포즈 이름과 교차 여부 배열 값으로 정의되고, 하나의 포즈에 대하여 하나 이상의 교차 여부 배열 값을 가지는 것을 특징으로 한다. 또한, 생성된 교차 여부 배열을 복수 개의 특징 데이터 배열로 변환할 수 있고, 특징 데이터 배열은 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역을 나타낸다. 상기 단계는 도 1의 감지부(30)와 대응되는 구성이다.
S140 단계에서는 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 사용자가 취한 포즈와 가장 유사도가 높은 포즈 데이터를 추출함으로써 포즈를 인식힌다. 사용자의 포즈의 교차 여부 배열 값과 각 포즈 데이터의 교차 여부 배열 값에 대한 해밍 거리(Hamming Distance)로부터 유사도를 계산하며, 계산된 해밍 거리가 작을수록 유사도가 높은 것을 특징으로 할 수 있다. 도 1의 판단부(50)와 대응되는 구성이다. 유사도 판단시 특정 데이터 배열 중에서 하나 이상을 선택하여, 선택된 특징 데이터 배열에 대하여만 유사도를 판단할 수 있다. 또한, 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역마다 소정의 개수로 분할하고, 분할된 영역에 대하여 문턱 값을 설정하여 오차 범위를 조정할 수 있다.
한편, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
상기된 본 발명의 실시예들에 따르면, RGB-D 카메라 등을 통해 얻은 스켈레톤 정보를 3차원 공간 데이터를 이용하여 3D 인간 모델에 적용함으로써 사람마다 다른 키나 체형에 영향을 받지 않으며 사람의 포즈를 인식할 수 있다.
또한, 실제 사용자를 대신에 3D 인간 모델을 이용하여 다양한 포즈, 동작에 대한 학습을 수행할 수 있다. 나아가 3D 루빅 큐브를 이용하여 이진수의 간단한 데이터 형식으로 포즈를 저장하고 연산함으로써 연산량을 감소시켜 실시간으로 포즈를 인식하면서 정확한 인식률을 보장할 수 있다.

Claims (17)

  1. 사용자를 추적하여 영상을 촬영하는 센서로부터 스켈레톤(skeleton) 정보를 입력받아 가상 인간인 3D 인간 모델을 생성하고, 상기 3D 인간 모델이 위치하는 가상 공간이며 하나 이상의 교차 감지 상자로 구성되는 3D 루빅 큐브(Rubik Cube)를 생성하는 생성부;
    상기 스켈레톤 정보를 이용하여 상기 사용자가 취하는 포즈를 상기 3D 인간 모델이 따라 움직이게 하는 동작부;
    상기 포즈에 대하여 상기 모든 교차 감지 상자마다 상기 3D 인간 모델과 교차했는지 여부를 감지하고, 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성하는 감지부; 및
    상기 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 상기 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출하여 포즈를 인식하는 식별부;를 포함하는 포즈 인식 시스템.
  2. 제 1 항에 있어서,
    상기 교차 감지 상자는 3차원 가상 공간에서 일정한 크기의 단위 공간을 의미하고, 상기 3D 루빅 큐브를 구성하는 상기 교차 감지 상자의 개수는 상기 3D 인간 모델의 동작 범위에 따라 결정되는 것을 특징으로 하는 포즈 인식 시스템.
  3. 제 1 항에 있어서,
    상기 교차 여부 배열은 비트 데이터로 표현되고, 상기 3D 루빅 큐브의 크기에 비례하여 크기가 결정되는 것을 특징으로 하는 포즈 인식 시스템.
  4. 제 1 항에 있어서,
    상기 포즈 데이터는 포즈 이름과 교차 여부 배열 값으로 정의되고, 하나의 포즈에 대하여 하나 이상의 교차 여부 배열 값을 가지는 것을 특징으로 하는 포즈 인식 시스템.
  5. 제 1 항에 있어서,
    상기 식별부는 상기 사용자의 포즈의 교차 여부 배열 값과 상기 각 포즈 데이터의 교차 여부 배열 값에 대한 해밍 거리(Hamming Distance)로부터 유사도를 계산하는 것을 특징으로 하는 포즈 인식 시스템.
  6. 제 1 항에 있어서,
    상기 감지부는 상기 교차 여부 배열을 복수 개의 특징 데이터 배열로 변환하되, 상기 특징 데이터 배열은 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역을 나타내는 것을 특징으로 하는 포즈 인식 시스템.
  7. 제 6 항에 있어서,
    상기 식별부는 상기 특징 데이터 배열 중에서 하나 이상을 선택하고, 선택된 특징 데이터 배열에 대하여만 유사도를 계산하는 것을 특징으로 하는 포즈 인식 시스템.
  8. 제 6 항에 있어서,
    상기 식별부는 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역마다 소정의 개수로 분할하고, 상기 분할된 영역에 대하여 문턱 값(threshold)을 설정하여 오차 범위를 조정하는 것을 특징으로 하는 포즈 인식 시스템.
  9. 스켈레톤(skeleton) 정보를 입력받는 단계;
    상기 스켈레톤 정보로부터 가상 인간인 3D 인간 모델을 생성하고, 상기 3D 인간 모델이 위치하는 가상 공간인 3D 루빅 큐브(Rubik Cube)를 생성하고, 상기 3D 루빅 큐브는 하나 이상의 교차 감지 상자로 구성되며 상기 3D 인간 모델을 상기 3D 루빅 큐브의 중심에 위치시키는 단계;
    사용자가 포즈를 취하면 상기 스켈레톤 정보를 이용하여 상기 3D 인간 모델을 상기 포즈를 따라 움직이게 하여 상기 모든 교차 감지 상자마다 상기 3D 인간 모델과 교차했는지 여부를 감지하고, 상기 각 교차 감지 상자의 교차 여부를 하나의 원소로 하는 교차 여부 배열을 생성하는 단계; 및
    상기 교차 여부 배열을 이용하여 데이터 베이스에 저장된 포즈 데이터 중에서 상기 사용자의 포즈와 가장 유사도가 높은 포즈 데이터를 추출함으로써 포즈를 인식하는 단계;를 포함하는 포즈 인식 방법.
  10. 제 9 항에 있어서,
    상기 교차 감지 상자는 3차원 가상 공간에서 일정한 크기의 단위 공간을 의미하고, 상기 3D 루빅 큐브를 구성하는 상기 교차 감지 상자의 개수는 상기 3D 인간 모델의 동작 범위에 따라 결정되는 것을 특징으로 하는 포즈 인식 방법.
  11. 제 9 항에 있어서,
    상기 교차 여부 배열은 비트 데이터로 표현되고, 상기 3D 루빅 큐브의 크기에 비례하여 크기가 결정되는 것을 특징으로 하는 포즈 인식 방법.
  12. 제 9 항에 있어서,
    상기 포즈 데이터는 포즈 이름과 교차 여부 배열 값으로 정의되고, 하나의 포즈에 대하여 하나 이상의 교차 여부 배열 값을 가지는 것을 특징으로 하는 포즈 인식 방법.
  13. 제 9 항에 있어서,
    상기 포즈를 인식하는 단계는
    상기 사용자의 포즈의 교차 여부 배열 값과 상기 각 포즈 데이터의 교차 여부 배열 값에 대한 해밍 거리(Hamming Distance)로부터 유사도를 계산하는 것을 특징으로 하는 포즈 인식 방법.
  14. 제 9 항에 있어서,
    상기 교차 여부 배열을 생성하는 단계는
    상기 생성된 교차 여부 배열을 복수 개의 특징 데이터 배열로 변환하되, 상기 특징 데이터 배열은 상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역을 나타내는 것을 특징으로 하는 포즈 인식 방법.
  15. 제 14 항에 있어서,
    상기 포즈를 인식하는 단계는
    상기 특징 데이터 배열 중에서 하나 이상을 선택하고, 선택된 특징 데이터 배열에 대하여만 유사도를 계산하는 것을 특징으로 하는 포즈 인식 방법.
  16. 제 9 항에 있어서,
    상기 포즈를 인식하는 단계는
    상기 3D 루빅 큐브를 특정 시점에서 바라본 2차원 영역마다 소정의 개수로 분할하고, 상기 분할된 영역에 대하여 문턱 값(threshold)을 설정하여 오차 범위를 조정하는 것을 특징으로 하는 포즈 인식 방법.
  17. 제 9 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2014/012433 2014-09-05 2014-12-17 인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법 WO2016035941A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140118934A KR101514731B1 (ko) 2014-09-05 2014-09-05 인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법
KR10-2014-0118934 2014-09-05

Publications (1)

Publication Number Publication Date
WO2016035941A1 true WO2016035941A1 (ko) 2016-03-10

Family

ID=53053985

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/012433 WO2016035941A1 (ko) 2014-09-05 2014-12-17 인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법

Country Status (2)

Country Link
KR (1) KR101514731B1 (ko)
WO (1) WO2016035941A1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194344A (zh) * 2017-05-16 2017-09-22 西安电子科技大学 自适应骨骼中心的人体行为识别方法
CN107330042A (zh) * 2017-06-27 2017-11-07 清美创联(天津)科技有限公司 魔方及通过手机扫描魔方图案获取信息的方法和系统
WO2020102977A1 (zh) * 2018-11-20 2020-05-28 深圳市欢太科技有限公司 图像处理方法及相关产品
CN111480178A (zh) * 2017-12-14 2020-07-31 富士通株式会社 技巧识别程序、技巧识别方法以及技巧识别系统
WO2020206672A1 (en) * 2019-04-12 2020-10-15 Intel Corporation Technology to automatically identify the frontal body orientation of individuals in real-time multi-camera video feeds
CN113496168A (zh) * 2020-04-02 2021-10-12 百度在线网络技术(北京)有限公司 手语数据采集方法、设备、存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102241705B1 (ko) * 2017-12-22 2021-04-19 한국전자통신연구원 멀티모달 행위 검출 장치 및 방법
CN108211355A (zh) * 2017-12-29 2018-06-29 武汉市马里欧网络有限公司 基于ar的三维魔方

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202379A (ja) * 2000-01-21 2001-07-27 Kobe University 仮想空間における仮想人物動作データブラウジング装置
KR20060097400A (ko) * 2005-03-09 2006-09-14 전남대학교산학협력단 가상의 격자형 평면을 이용한 동작 인식 방법
KR101156154B1 (ko) * 2011-03-29 2012-06-18 전남대학교산학협력단 깊이 영상을 이용한 실린더 모델 기반의 포즈 인식 시스템, 매체 및 서버 시스템
KR20140101439A (ko) * 2011-12-16 2014-08-19 유니베르지테트 추 뤼베크 포즈를 추정하기 위한 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001202379A (ja) * 2000-01-21 2001-07-27 Kobe University 仮想空間における仮想人物動作データブラウジング装置
KR20060097400A (ko) * 2005-03-09 2006-09-14 전남대학교산학협력단 가상의 격자형 평면을 이용한 동작 인식 방법
KR101156154B1 (ko) * 2011-03-29 2012-06-18 전남대학교산학협력단 깊이 영상을 이용한 실린더 모델 기반의 포즈 인식 시스템, 매체 및 서버 시스템
KR20140101439A (ko) * 2011-12-16 2014-08-19 유니베르지테트 추 뤼베크 포즈를 추정하기 위한 방법 및 장치

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194344A (zh) * 2017-05-16 2017-09-22 西安电子科技大学 自适应骨骼中心的人体行为识别方法
CN107194344B (zh) * 2017-05-16 2020-06-05 西安电子科技大学 自适应骨骼中心的人体行为识别方法
CN107330042A (zh) * 2017-06-27 2017-11-07 清美创联(天津)科技有限公司 魔方及通过手机扫描魔方图案获取信息的方法和系统
CN111480178A (zh) * 2017-12-14 2020-07-31 富士通株式会社 技巧识别程序、技巧识别方法以及技巧识别系统
CN111480178B (zh) * 2017-12-14 2024-02-20 富士通株式会社 存储技巧识别程序的存储介质、技巧识别方法以及技巧识别系统
WO2020102977A1 (zh) * 2018-11-20 2020-05-28 深圳市欢太科技有限公司 图像处理方法及相关产品
WO2020206672A1 (en) * 2019-04-12 2020-10-15 Intel Corporation Technology to automatically identify the frontal body orientation of individuals in real-time multi-camera video feeds
CN113496168A (zh) * 2020-04-02 2021-10-12 百度在线网络技术(北京)有限公司 手语数据采集方法、设备、存储介质

Also Published As

Publication number Publication date
KR101514731B1 (ko) 2015-04-28

Similar Documents

Publication Publication Date Title
WO2016035941A1 (ko) 인간 모델의 3차원 공간 데이터를 이용한 포즈 인식 시스템 및 그 방법
WO2021129064A1 (zh) 姿态获取方法、关键点坐标定位模型的训练方法和装置
CN109597485B (zh) 一种基于双指角域特征的手势交互系统及其工作方法
CN105739702B (zh) 用于自然人机交互的多姿态指尖跟踪方法
CN103279191B (zh) 一种基于手势识别技术的3d虚拟交互方法及系统
CN106598227A (zh) 基于Leap Motion和Kinect的手势识别方法
CN105528082A (zh) 三维空间及手势识别追踪交互方法、装置和系统
KR20130099317A (ko) 인터랙티브 증강현실 구현 시스템 및 증강현실 구현 방법
CN104035557B (zh) 一种基于关节活跃度的Kinect动作识别方法
CN103809733A (zh) 人机交互系统和方法
TWI475422B (zh) 手勢辨識方法與電子裝置
CN111694428A (zh) 基于Kinect的手势与轨迹远程控制机器人系统
Chen et al. Using real-time acceleration data for exercise movement training with a decision tree approach
Hongyong et al. Finger tracking and gesture recognition with kinect
WO2013025011A1 (ko) 공간 제스처 인식을 위한 신체 트래킹 방법 및 시스템
CN108305321A (zh) 一种基于双目彩色成像系统的立体人手3d骨架模型实时重建方法和装置
CN112657176A (zh) 一种结合人像行为信息的双目投影人机交互方法
CN113065505A (zh) 身体动作快速识别方法及系统
CN106249901B (zh) 一种以Android原生游戏支持体感设备操控的适配方法
Boruah et al. Development of a learning-aid tool using hand gesture based human computer interaction system
CN106502416B (zh) 一种智能识别双手手势的模拟驾驶系统及其控制方法
CN107220634A (zh) 基于改进d‑p算法与多模板匹配的手势识别方法
Su et al. Virtual keyboard: A human-computer interaction device based on laser and image processing
US20200398420A1 (en) Robot teaching device and robot system
CN106512391B (zh) 一种双手手势识别方法及基于其的模拟驾驶系统、方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14901376

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14901376

Country of ref document: EP

Kind code of ref document: A1