WO2023277586A1 - 딥러닝 기술을 이용한 모션 추적 시스템 - Google Patents

딥러닝 기술을 이용한 모션 추적 시스템 Download PDF

Info

Publication number
WO2023277586A1
WO2023277586A1 PCT/KR2022/009349 KR2022009349W WO2023277586A1 WO 2023277586 A1 WO2023277586 A1 WO 2023277586A1 KR 2022009349 W KR2022009349 W KR 2022009349W WO 2023277586 A1 WO2023277586 A1 WO 2023277586A1
Authority
WO
WIPO (PCT)
Prior art keywords
motion
data
motion data
image
value
Prior art date
Application number
PCT/KR2022/009349
Other languages
English (en)
French (fr)
Inventor
옥재윤
Original Assignee
옥재윤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220076436A external-priority patent/KR102622981B1/ko
Application filed by 옥재윤 filed Critical 옥재윤
Publication of WO2023277586A1 publication Critical patent/WO2023277586A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • An embodiment of the present invention relates to a motion tracking system using deep learning technology.
  • Modern computing and display technologies enable the development of systems for so-called Virtual Reality (VR) experiences, whose digitally reproduced images or parts perceive them as real or real. It is provided to the user in any way possible.
  • VR Virtual Reality
  • Virtual reality scenarios typically involve the presentation of digital or virtual image information that is not transparent to other real world perspective inputs.
  • a manipulation tool and a technique for estimating the posture or motion of a work object are required to express a virtual object on the work object.
  • the prior art estimates postures or motions of a manipulation tool and a work target with the camera as the origin.
  • this pose estimation technology does not require a special sensor to detect a person's posture or motion, and is purely based on video and image data. It is a deep learning technology that recognizes a person's posture or motion with only
  • This deep learning-based pose estimation technology captures the user's whole body from various angles with multiple 2D cameras as an estimation target, recognizing the motion of large joints such as the pelvis and knee of the estimation target, or recognizing the motion of the entire arm.
  • blind spots that are not captured by the camera may occur.
  • the virtual avatar may reflect the coordinate data of a completely different joint when data is lost due to this, and in this case, a problem may occur in the operation of the virtual avatar.
  • the posture or motion of a part of the body in the shooting blind spot can be supplemented with deep learning technology, it is difficult to track the posture or motion in the blind spot in real time.
  • deep learning-based pose estimation technology detects the movement of each finger included in the user's hand, or detects precise movements expressed by the hand, such as fingers bending and disappearing, or two fingers overlapping and then falling apart. There are limits to what you can't do.
  • Patent Publication No. 10-2021-0085549 published on July 8, 2021.
  • An embodiment of the present invention combines deep learning-based pose estimation technology and a wearable motion sensor to enable detailed real-time tracking and estimation of the position, posture, and motion of object joints, and interpolates the lost coordinate system through an algorithm.
  • a motion tracking system using deep learning technology receives image data captured through a plurality of cameras, extracts key points from the input image data, and extracts key points based on a deep learning algorithm.
  • Image motion for identifying location information of estimating the pose of an object by grouping it into one object through connection between key points of which location has been identified, and generating first motion data by tracking the motion of the object whose pose is estimated in real time.
  • a wearable motion data generating unit generating second motion data by tracking a motion of a corresponding body part in real time using a wearable motion sensor worn on a user's body part; and detecting an erroneous image frame having a shaking value equal to or greater than a first reference peak value in each image frame of the first motion data, correcting the shaking error of the erroneous image frame based on a deep learning algorithm, and correcting the shaking error of the erroneous image frame. and a 3D image data generating unit generating 3D image data by mapping the second motion data to 1 motion data.
  • the video motion data generation unit receives basic setting video data generated by photographing a user at a predefined basic setting location through a camera, and receives the input basic setting video data.
  • Each preferred key point for the user is extracted from the data, and the length between the preferred key points is measured respectively to generate key point length data for the user's preferred location, and the preferred key point included in the key point length data.
  • a first length, which is the length between points, and a second length, which is the length between key points included in the first motion data, are compared, and the second length is determined based on movement value information according to a change in a predefined point length.
  • a forward movement value according to the increased length is calculated, and when the second length is shorter than the first length, a backward movement value according to the shortened length is calculated, and the forward movement value and the backward movement value are calculated.
  • the user's forward and backward position change data according to each value may be generated and applied to the first motion data to correct the position value according to the user's forward and backward movement.
  • the wearable motion data generator may include at least one of a fiber bragg grating (FBG) sensor and an inertia measurement unit (IMU) sensor as well as a linear encoder sensor.
  • FBG fiber bragg grating
  • IMU inertia measurement unit
  • the 3D image data generator detects a shaking speed of an object in each image frame constituting the first motion data, compares the shaking speed of the object with the first reference peak value, and compares the shaking speed of the object with the first reference peak value.
  • an erroneous image frame detector detecting an erroneous image frame having a shaking speed;
  • a corrected image frame estimation unit extracting image frames before and after the erroneous image frame and estimating a corrected image frame to be located between the previous and subsequent image frames based on a deep learning algorithm;
  • a first motion data error correction unit correcting a shake error of the first motion data by removing the erroneous image frame and inserting the corrected image frame in the position of the removed erroneous image frame;
  • a motion data combining unit generating the 3D image data by combining the first motion data or the second motion data with the first motion data corrected by the first motion data error correcting unit.
  • a virtual experiential video is provided based on the 3D video data, and when a preset movement motion is detected for an object in the first motion data, a movement effect is provided to the virtual experiential video.
  • the moving motion animation image providing unit may further include providing an animation image by replacing the first motion data with the second motion data and providing the animation image.
  • a distance sensor may be installed in a physical space where a user's activity is possible, measure the size of the corresponding physical space, and set a user movement radius area based on the measured size of the physical space.
  • the movement motion animation image providing unit detects movement motions of walking in place and moving in position with respect to the object in the first motion data.
  • a warning signal for limiting the user's movement may be output when approaching the boundary to a preset warning distance.
  • it may further include a location sensor unit installed in a physical space where a user's activity is possible and generating location data by tracking the location of an object in the corresponding physical space.
  • an erroneous position value having a shaking value equal to or greater than a preset second reference peak value is detected, the shaking error for the erroneous position value is corrected based on a deep learning algorithm, and the corrected position It may further include a position data correction unit that applies data to the first motion data.
  • the position data correction unit detects a shaking speed for each object coordinate value constituting the position data, and compares the shaking speed for the detected object coordinate value with the second reference peak value to obtain the second reference peak value.
  • an erroneous object coordinate detector detecting an erroneous object coordinate value having a shaking speed greater than or equal to;
  • a corrected object coordinate estimation unit extracting object coordinate values before and after the error object coordinate value and estimating a corrected object coordinate value to be located between the previous and subsequent object coordinate values based on a deep learning algorithm;
  • an object coordinate error correction unit correcting a shake error of the position data by removing the erroneous object coordinate values and inserting the corrected object coordinate values into the erroneous object coordinate values;
  • a location data application unit configured to apply the first motion data to the location data or the location data to which the calibration object coordinate value is applied.
  • the present invention by combining a deep learning-based pose estimation technology and a wearable motion sensor, detailed real-time tracking and estimation of the position, posture and motion of an object's joints is possible, and the process of interpolating the lost coordinate system through an algorithm It is possible to provide a motion tracking system using deep learning technology that can estimate and infer and provide natural motion when a blind spot occurs while repeatedly learning.
  • FIG. 1 is a schematic diagram showing the overall configuration of a motion tracking system using deep learning technology according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing the overall configuration of a motion tracking system using deep learning technology according to an embodiment of the present invention.
  • FIG. 3 is a block diagram showing the configuration of a 3D image data generator according to an embodiment of the present invention.
  • FIGS. 4 and 5 are views illustrating a method of detecting an erroneous image frame and a method of interpolating a frame through a video motion data generator according to an embodiment of the present invention.
  • FIG. 6 is a diagram for explaining a movement motion input through a movement motion animation image providing unit and a method for providing an animation image accordingly, according to an embodiment of the present invention.
  • FIG. 7 is a block diagram showing the configuration of a position data correction unit according to an embodiment of the present invention.
  • FIG. 8 is a diagram illustrating a method of detecting and correcting erroneous object coordinates through a location data correction unit according to an embodiment of the present invention.
  • FIG. 9 is a diagram illustrating a method of correcting a user's front and rear movement values through an image motion data generation unit according to an embodiment of the present invention.
  • FIG. 1 is a schematic diagram showing the overall configuration of a motion tracking system using deep learning technology according to an embodiment of the present invention
  • FIG. 2 is a block diagram showing the overall configuration of a motion tracking system using deep learning technology according to an embodiment of the present invention
  • 3 is a block diagram showing the configuration of a 3D image data generator according to an embodiment of the present invention
  • FIGS. 4 and 5 are a method of detecting an error image frame through an image motion data generator according to an embodiment of the present invention. and a frame interpolation method
  • FIG. 6 is a diagram shown to explain a movement motion input through a movement motion animation image providing unit and a corresponding animation image providing method according to an embodiment of the present invention.
  • FIG. 1 is a schematic diagram showing the overall configuration of a motion tracking system using deep learning technology according to an embodiment of the present invention
  • FIG. 2 is a block diagram showing the overall configuration of a motion tracking system using deep learning technology according to an embodiment of the present invention
  • 3 is a block diagram showing the configuration of a 3
  • FIG. 8 is a diagram for explaining a method of detecting and correcting erroneous object coordinates through the location data correction unit according to an embodiment of the present invention.
  • a motion tracking system 1000 using deep learning technology includes an image motion data generator 100, a wearable motion data generator 200, a 3D image It may include at least one of a data generating unit 300, a moving motion animation image providing unit 400, a distance sensor unit 500, a position sensor unit 600, and a position data correction unit 700.
  • the video motion data generation unit 100 receives video data captured by a plurality of 2D cameras, extracts key points from the input video data, and identifies location information of the key points based on a deep learning algorithm.
  • the first motion data may be generated by estimating the pose of the object by grouping it into one object through connection between the identified key points, and tracking the motion of the object whose pose is estimated in real time.
  • synchronization is based on absolute time information included in metadata when each video data is generated. It is preferable to preprocess the process and then proceed with the process for generating the first motion data.
  • the video motion data generation unit 100 is a deep learning-based pose estimation technology that recognizes a human posture purely with video and image data without a special sensor for detecting human gestures.
  • -up)-based pose estimation (Pose Estimation) model can be used.
  • Pose Estimation a grouping technique is applied that detects the location of key points in an input image, finds connection information for the detected key points, and connects them into one object.
  • Step 1 After inputting image and video data (Step 1), extracting features (F) of the image from the input data through a deep learning convolutional neural network (CNN) (Step 2), and extracting features (F ), after extracting key points through each step, a process of connecting the extracted key points (the performance increases as the steps are repeated) can be performed (step 3).
  • each step consists of branch 1 and branch 2.
  • Branch 1 is a part that learns to locate the key point in the image
  • branch 2 is a part that connects the extracted key points to create relational information. .
  • key points of the same person can be connected (Step 4). In this case, key point information that may be adjacent may be programmed in advance.
  • connection information between key points such as a right shoulder and a connectable neck or right elbow may be programmed in advance.
  • a right shoulder and a right elbow that are most likely to be connected can be connected. Since the shoulder and elbow are a connectable combination, the connectability is measured, but the connectability between the shoulder and the right foot is not considered.
  • first motion data may be output by summing results of each body part (step 5).
  • the wearable motion data generation unit 200 may generate second motion data by tracking motion of a corresponding body part in real time using a wearable motion sensor worn on the user's body part.
  • the wearable motion data generator 200 may be manufactured in the form of a glove, for example, and worn on a user's hand.
  • a motion glove sensor may include not only a linear encoder sensor, but also a Fiber Bragg Grating (FBG) sensor, an Inertia Measurement Unit (IMU) sensor, etc.
  • Second motion data may be generated by applying a sensor.
  • the linear encoder is also referred to as a linear scale, and is a sensor that measures linear displacement.
  • a linear scale When classified according to operating principle, there are photoelectric encoders, magnetic encoders, electromagnetic induction encoders, capacitive encoders, and the like.
  • the FBG sensor that is, the fiber optic grating sensor does not corrode and has good durability, and due to the characteristics of the light source of the FBG sensor, it is not affected by specific electromagnetic waves, so there is no error for precise motion data measurement.
  • it is manufactured as a new type of shape-recognition type motion measurement sensor that can measure multiple joint motion data simultaneously with each channel of the multi-type FBG sensor, so it can be used in various industries.
  • An optical fiber constituting an FBG sensor is typically composed of a core having a different refractive index so that incident light is totally reflected, a cladding, and a jacket for protecting the core and the cladding.
  • FBG sensors can be classified into one-point, distributed, and multiple types according to the measurement range.
  • ODTR Optical Time Domain Reflectometry
  • the multi-type fiber optic sensor is a form in which two or more one-point type fiber optic sensors are installed in one fiber optic sensor, and FBG sensor (Fiber Bragg Grating Sensor, fiber optic grating sensor) corresponds to this.
  • FBG sensors can only measure 2-dimensional angles when manufactured as a single unit, but can be manufactured as sensors capable of 3-dimensional shape recognition for X, Y, and Z axes when manufactured in multiple types of three or more.
  • the minute interval between each FBG sensor becomes a very important factor for stable data measurement. Therefore, it can be said that the uniform gap maintenance and coating manufacturing method of the FBG sensor is very important for the accuracy of the sensor.
  • the IMU (Inertia Measurement Unit) sensor may be composed of various sensors, such as a geomagnetic sensor and an acceleration sensor, as well as a complex sensor having functions such as an altimeter and a gyro in one chip. Second motion data for positions and postures of body parts may be generated.
  • the 3D image data generator 300 detects an erroneous image frame having a shaking value equal to or greater than a preset first reference peak value in each image frame of the first motion data, and determines the erroneous image frame based on a deep learning algorithm.
  • 3D image data may be generated by correcting a shaking error for the motion data and mapping second motion data to the corrected first motion data.
  • the 3D image data generator 300 includes an error image frame detector 310, a corrected image frame estimator 320, a first motion data error corrector 330, and motion data as shown in FIG. At least one of the coupling parts 340 may be included.
  • the erroneous image frame detector 310 detects the object shaking speed in each image frame constituting the first motion data, compares the object shaking speed with a first reference peak value, and has an object shaking speed equal to or greater than the first reference peak value.
  • An erroneous image frame may be detected. Since the number of frames constituting the first motion data generated by the image motion data generator 100 is relatively small, an error as if the object is bouncing is often detected when viewing the image. 4, when it is assumed that there is first motion data composed of frames 1 to 4, and that the shaking speed of an object has a particularly large peak value in the frame 2 section, shaking appears in frame 2. When the peak value for speed is greater than or exceeds a preset first reference peak value, it may be determined as an erroneous image frame.
  • the corrected image frame estimator 320 may extract image frames before and after the erroneous image frame, and estimate a corrected image frame to be located between the previous and subsequent image frames based on a deep learning algorithm. Since the above-described erroneous image frame can degrade the quality of 3D image data to be finally implemented, the corresponding erroneous image frame can be deleted, and as shown in FIG. Frame 2, which is an error image frame, can be replaced.
  • the new frame 2 (Frame 2') is a corrected image frame, which is generated by estimating an image frame to be located between the previous image frame and the subsequent image frame of Frame 2, which is an error image frame. Since the interval between video frames is a very short instant, it is virtually impossible for the actual user to take action or motion that deviate from the previous and subsequent video frames between them. It can be estimated as an image frame (Frame 2').
  • the first motion data error correcting unit 330 may correct shaking errors of the first motion data by removing erroneous image frames and inserting corrected image frames in positions of the removed erroneous image frames. That is, as shown in FIGS. 4 and 5 , the correction of the erroneous image frame can be completed by replacing the corrected image frame (Frame 2′) with the erroneous image frame, Frame 2 .
  • the motion data combiner 340 combines second motion data with first motion data (when no erroneous image frames are detected) or first motion data corrected by the first motion data error correction unit 330.
  • first motion data when no erroneous image frames are detected
  • first motion data corrected by the first motion data error correction unit 330 3D image data can be generated. Accordingly, the posture and movement of large joints such as the pelvis and knee are recognized by the first motion data, and the fingers are bent and disappear by the second motion data, or two fingers are overlapped and then dropped. By recognizing precise movements, object motion tracking without blind spots is possible.
  • the movement motion animation image providing unit 400 provides a virtual experiential image based on 3D image data, and when a preset movement motion of an object in the first motion data is detected, the corresponding virtual experiential image In order to provide a moving effect, a pre-prepared animation image may be provided by replacing the first motion data and the second motion data.
  • a motion of a user walking in place or moving a position is detected in a specific video frame constituting the first motion data
  • the corresponding motion is accepted as an input value for a position movement command and a virtual space provided to the user is created. It is possible to replace the location movement image with a pre-prepared animation image and provide it.
  • a surrounding environment is configured according to the user's positional movement and output as an image. In this case, a relatively large amount of computation is required for a computer device.
  • the user when a motion such as a user's walking in place or a slight positional movement is recognized through the first motion data, the user can see when the user quickly moves from position A to position B in a so-called telephoto method.
  • a pre-prepared animated image of the surrounding environment that can be simulated in advance, there is no need to provide a virtual image that is realized and provided when the actual user moves, and accordingly, the process load of the computer can be reduced, and a separate hardware button or switch can be applied.
  • Such an animation image may be processed and provided according to the user's view of the virtual space, that is, whether it is a first-person view or a third-person view.
  • the moving motion animation image providing unit 400 enables a more effective operation of games or virtual experiential activities.
  • the movement motion animation image providing unit 400 detects movement motions of walking in place and moving in position with respect to the object in the first motion data.
  • a warning signal limiting user movement may be output.
  • the user's actual activity space is measured as an area of 5m*5m
  • an area of the physical space in which activity can be performed can be defined as the measured size or a smaller area by a certain number, and the user is located at the center of the area. If you actually walk about 2.5m to move to another location, the corresponding point reaches the boundary line and there is a possibility of being injured by bumping into a wall or partition prepared in the space. If recognized, a warning signal can be output to restrict the user's movement.
  • the distance sensor unit 500 may be installed in a physical space where a user's activity is possible, measure the size of the corresponding physical space, and set a user movement radius area based on the measured size of the physical space.
  • the distance sensor unit 500 can be applied to any means capable of measuring and recognizing the size of a physical space and a distance from a user, such as an ultrasonic sensor, a LIDAR sensor, a laser sensor, and a camera sensor.
  • the distance sensor unit 500 may detect a relative distance of a user located in a physical space in association with the moving motion animation image providing unit 400 .
  • the location sensor unit 600 is installed in a physical space where a user's activity is possible, and may generate location data by tracking the relative location of an object in the corresponding physical space.
  • the position sensor unit 600 may employ various types of sensors such as mechanical, electrical, magnetic, and optical sensors for tracking the relative position of the user (object) in a physical space in which the user performs a game or virtual experience activity.
  • the position data correction unit 700 detects an erroneous position value having a shaking value equal to or greater than a second reference peak value set in advance with respect to the object position value of the position data generated by the position sensor unit 600, and uses a deep learning algorithm. Based on this, the shaking error for the erroneous position value is corrected, and the corrected position data is applied to the first motion data so that more stable 3D image data can be generated.
  • the location data correction unit 700 includes an error object coordinate detection unit 710, a corrected object coordinate estimation unit 720, an object coordinate error correction unit 730, and a location data application unit 740. ) may include at least one of
  • the erroneous object coordinate detector 710 detects the shaking speed for each object coordinate value constituting the position data, compares the shaking speed for the detected object coordinate value with a second reference peak value, and compares the shaking speed for the detected object coordinate value with a second reference peak value or higher.
  • An error object coordinate value having shaking speed may be detected.
  • Location data for a user (object) may also consist of a plurality of frames when divided into extremely short periods of time, similar to video frames. These frames include coordinate values of objects, and these object coordinate values change within a certain range over time. That is, since the interval between frames is very short, it is virtually impossible for a real user to change a location away from previous and subsequent frames during that time.
  • the corresponding object coordinate value is the current error object coordinate value ( It can be detected by P(x,y,z)).
  • the corrected object coordinate estimation unit 720 calculates the previous object coordinate value P(x',y',z') of the error object coordinate value P(x,y,z) and Afterwards, the object coordinate values (P(x",y",z") are extracted, and the previous object coordinate values (P(x',y',z') and the subsequent object coordinate values (P(x",y",z”) are extracted based on the deep learning algorithm. It is possible to estimate the calibration object coordinate values (P(X,Y,Z)) to be located between ",y",z”)).
  • the object coordinate error correction unit 730 removes the error object coordinate values P(x,y,z), and the correction object estimated through the correction object coordinate estimation unit 720. By inserting the coordinate values (P(X,Y,Z)), shaking error for the position data can be corrected.
  • the location data application unit 740 applies first motion data to location data (when there is no position shaking error) or location data to which a calibration object coordinate value is applied, so that more stable 3D image data can be generated.
  • FIG. 9 is a diagram illustrating a method of correcting a user's front and rear movement values through an image motion data generation unit according to an embodiment of the present invention.
  • the video motion data generation unit 100 before generating the first motion data, takes a picture of a user in a predefined basic setting position through a 2D camera and generates the first motion data.
  • the basic setting position is a reference position for correcting the first motion data according to the position movement amount as the player moves forward or backward before the user, that is, the player, moves forward or backward, and means a position at which the game starts, , a basic position value may be set based on basic setting image data taken at the corresponding position.
  • the video motion data generation unit 100 extracts basic setting key points (at least three pairs of key points) for the player from the basic setting video data, respectively, as shown in (b) of FIG.
  • Key point length data for the user's default location may be generated by measuring lengths between default setting key points.
  • the standard length value may be determined by calculating an average value of lengths (r1, r2, r3) between a pair of default key points. This standard length value can be set differently according to the player's physical condition, and if a specific player starts the game without repeated registration after the initial registration, the game will start after loading and setting the corresponding key point length data. can
  • the video motion data generator 100 compares a first length, which is a length between basic set key points included in the key point length data, with a second length, which is a length between key points included in the first motion data, Based on the movement value information according to the change in the predefined point length, when the second length is longer than the first length, a forward movement value according to the longer length is calculated, and when the second length is shorter than the first length, the shortened length A backward movement value according to is calculated, forward and backward position change data of the user according to each of the forward movement value and the backward movement value may be generated and applied to the first motion data.
  • the lengths a1, a2, and a3 between each pair of key points are calculated, respectively, and the averages thereof are calculated.
  • value A can be obtained.
  • the average value A is longer than R, it means that the player moves forward, so after calculating the value of how much the average value A has increased relative to R, the forward movement distance corresponding to the value is extracted and the first Applicable to motion data.
  • the 2D position value of the key point may be stored. Compared with the 2D position value of the key point corresponding to the foot among the motion data, when it is relatively lowered, a value corresponding to how far down is extracted and applied to the first motion data, and a key corresponding to the foot among the first motion data, when compared with the 2D position value of the point, a value corresponding to how much the point has risen relatively is extracted and applied to the second motion data, so that the position value according to the forward and backward movement of the player can be additionally corrected. That is, it may be additionally used in addition to the above-described method or used independently.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Emergency Management (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 딥러닝 기술을 이용한 모션 추적 시스템에 관한 것이다. 일례로, 다수의 카메라를 통해 촬영되는 영상 데이터를 입력 받고, 입력된 영상 데이터에서 키 포인트를 추출하고, 딥러닝 알고리즘을 기반으로 해당 키 포인트의 위치 정보를 파악하고, 위치가 파악된 키 포인트 간의 연결을 통해 하나의 객체로 그룹핑하여 객체의 자세를 추정하고, 자세가 추정된 객체의 모션을 실시간 추적하여 제1 모션 데이터를 생성하는 영상 모션 데이터 생성부; 사용자의 신체 부위에 착용되는 착용형 모션 센서를 이용해 해당 신체 부위의 모션을 실시간 추적하여 제2 모션 데이터를 생성하는 착용형 모션 데이터 생성부; 및 상기 제1 모션 데이터의 각 영상 프레임에서 미리 설정된 제1 기준 피크치 이상의 흔들림 값을 갖는 오류 영상 프레임을 검출하고, 딥러닝 알고리즘을 기반으로 상기 오류 영상 프레임에 대한 흔들림 오류를 보정하고, 보정된 제1 모션 데이터에 상기 제2 모션 데이터를 매핑하여 3차원 영상 데이터를 생성하는 3차원 영상 데이터 생성부를 포함하는 딥러닝 기술을 이용한 모션 추적 시스템을 개시한다.

Description

딥러닝 기술을 이용한 모션 추적 시스템
본 발명의 실시예는 딥러닝 기술을 이용한 모션 추적 시스템에 관한 것이다.
현대의 컴퓨팅 및 디스플레이 기술들은, 소위 가상 현실(Virtual Reality, VR) 경험을 위한 시스템들의 개발을 가능하게 하며, 디지털적으로 재생된 이들의 이미지들 또는 부분들은 이들이 실제인 것 같은 또는 실제인 것으로 인식될 수 있는 방식으로 사용자에게 제공되고 있다.
가상 현실의 시나리오는, 다른 실제 세계 시각의 입력에 투명하지 않은 디지털 또는 가상 이미지 정보의 표현을 통상적으로 포함한다.
가상 현실을 구현하기 위해서는 조작 도구와 작업 대상에 가상객체를 표현하기 위하여 조작 도구와 작업 대상의 자세나 모션을 추정하는 기술이 필요하다. 이와 관련하여 종래 기술은, 카메라를 원점으로 하여 조작 도구와 작업 대상에 대한 자세나 모션을 추정한다.
그러나, 종래의 자세 또는 모션 추적 시스템을 구현하기 위한 기술 중 하나로 포즈 추정(Pose Estimation) 기술이 있으며, 이러한 포즈 추정 기술은 사람의 자세나 모션을 감지하기 위해 특수한 센서가 없이 순수하게 영상과 이미지 데이터만으로 사람의 자세나 모션을 인식하는 딥러닝 기술이다.
이러한 딥러닝 기반의 포즈 추정 기술은 다수의 2D 카메라를 다양한 각도에서 사용자의 전신을 추정 대상으로 촬영하여, 추정 대상의 골반, 무릎 등 큰 관절의 움직임을 인식하거나, 팔 전체의 동작을 인식할 수 있으나, 카메라로 통해 촬영되지 않은 사각지대가 발생될 수 있다. 이러한 경우, 관절의 좌표계를 추출할 수 없기 때문에, 그로 인한 데이터 손실 시 가상 아바타는 전혀 다른 관절의 좌표 데이터를 반영할 수 있는데 이러한 경우 가상 아바타의 동작에 문제가 발생될 수 있다. 다만, 촬영 사각지대에 대한 신체 일부에 대한 자세나 모션을 딥러닝 기술로 보완할 수 있으나, 실시간으로 사각지대에 대한 자세 또는 모션 추적이 어렵다.
또한, 딥러닝 기반의 포즈 추정 기술은 사용자의 손에 포함된 각각의 손가락들의 움직임을 감지하거나, 손가락들이 굽혀 져서 사라지거나, 두 손가락이 겹쳐졌다가 떨어지는 등, 손에 의해 표현되는 정밀한 움직임들은 감지할 수 없는 한계가 있다.
본 발명과 관련된 선행기술문헌으로는 공개특허공보 제10-2021-0085549호(공개일자: 2021년07월08일)이 있다.
본 발명의 실시예는, 딥러닝 기반의 포즈 추정 기술과 착용형 모션 센서를 결합하여 객체 관절의 위치, 자세 및 모션 등에 대한 디테일한 실시간 추적과 추정이 가능하며, 손실된 좌표계를 알고리즘을 통해 보간하는 과정을 반복 학습시키면서 사각지대 발생시 자연스러운 동작을 추정 및 유추하여 제공할 수 있는 딥러닝 기술을 이용한 모션 추적 시스템을 제공한다.
본 발명의 실시예에 따른 딥러닝 기술을 이용한 모션 추적 시스템은, 다수의 카메라를 통해 촬영되는 영상 데이터를 입력 받고, 입력된 영상 데이터에서 키 포인트를 추출하고, 딥러닝 알고리즘을 기반으로 해당 키 포인트의 위치 정보를 파악하고, 위치가 파악된 키 포인트 간의 연결을 통해 하나의 객체로 그룹핑하여 객체의 자세를 추정하고, 자세가 추정된 객체의 모션을 실시간 추적하여 제1 모션 데이터를 생성하는 영상 모션 데이터 생성부; 사용자의 신체 부위에 착용되는 착용형 모션 센서를 이용해 해당 신체 부위의 모션을 실시간 추적하여 제2 모션 데이터를 생성하는 착용형 모션 데이터 생성부; 및 상기 제1 모션 데이터의 각 영상 프레임에서 미리 설정된 제1 기준 피크치 이상의 흔들림 값을 갖는 오류 영상 프레임을 검출하고, 딥러닝 알고리즘을 기반으로 상기 오류 영상 프레임에 대한 흔들림 오류를 보정하고, 보정된 제1 모션 데이터에 상기 제2 모션 데이터를 매핑하여 3차원 영상 데이터를 생성하는 3차원 영상 데이터 생성부를 포함한다.
또한, 상기 영상 모션 데이터 생성부는, 상기 제1 모션 데이터를 생성하기 이전에, 미리 정의된 기본 설정 위치에서 있는 사용자를 카메라를 통해 촬영하여 생성된 기본 설정 영상 데이터를 입력 받고, 입력된 기본 설정 영상 데이터에서 사용자에 대한 기본 설정 키 포인트를 각각 추출하고, 해당 기본 설정 키 포인트 간의 길이를 각각 측정하여 사용자의 기본 위치에 대한 키 포인트 길이 데이터를 생성하고, 상기 키 포인트 길이 데이터에 포함된 기본 설정 키 포인트 간 길이인 제1 길이와, 상기 제1 모션 데이터에 포함된 키 포인트 간 길이인 제2 길이를 비교하고, 미리 정의된 포인트 길이 변화에 따른 이동 값 정보에 기초하여 상기 제2 길이가 상기 제1 길이보다 길어지는 경우 길어진 길이에 따른 전방 이동 값을 산출하고, 상기 제2 길이가 상기 제1 길이보다 짧아지는 경우 짧아진 길이에 따른 후방 이동 값을 산출하고, 상기 전방 이동 값과 상기 후방 이동 값 각각에 따른 사용자의 전후방 포지션 변화 데이터를 생성하고 상기 제1 모션 데이터에 적용하여 사용자의 전후방 이동에 따른 위치 값을 보정할 수 있다.
또한, 상기 착용형 모션 데이터 생성부는, 리니어 인코더(linear encoder) 센서뿐만 아니라, FBG(Fiber Bragg Grating) 센서 및 IMU(Inertia Measurement Unit) 센서 중 적어도 하나를 포함할 수 있다.
또한, 상기 3차원 영상 데이터 생성부는, 상기 제1 모션 데이터를 구성하는 각 영상 프레임 내 객체 흔들림 속도를 검출하고, 상기 객체 흔들림 속도와 상기 제1 기준 피크치 간을 비교하여 상기 제1 기준 피크치 이상의 객체 흔들림 속도를 갖는 오류 영상 프레임을 검출하는 오류 영상 프레임 검출부; 상기 오류 영상 프레임의 이전 및 이후 영상 프레임을 추출하고, 딥러닝 알고리즘 기반으로 상기 이전 및 이후 영상 프레임 사이에 위치할 보정 영상 프레임을 추정하는 보정 영상 프레임 추정부; 상기 오류 영상 프레임을 제거하고, 제거된 상기 오류 영상 프레임의 위치에 상기 보정 영상 프레임을 삽입하여 상기 제1 모션 데이터에 대한 흔들림 오류를 보정하는 제1 모션 데이터 오류 보정부; 및 상기 제1 모션 데이터 또는 상기 제1 모션 데이터 오류 보정부에 의해 보정된 제1 모션 데이터에 상기 제2 모션 데이터를 결합하여 상기 3차원 영상 데이터를 생성하는 모션 데이터 결합부를 포함할 수 있다.
또한, 상기 3차원 영상 데이터를 기반으로 가상 체험형 영상을 제공하되, 상기 제1 모션 데이터 내 객체에 대하여 미리 설정된 이동 모션을 검출할 경우, 상기 가상 체험형 영상에 이동 효과를 제공하기 위해 미리 준비된 애니메이션 영상을 상기 제1 모션 데이터와 상기 제2 모션 데이터를 대체하여 적용하여 제공하는 이동 모션 애니메이션 영상 제공부를 더 포함할 수 있다.
또한, 사용자의 활동이 가능한 물리적 공간 내 설치되어 해당 물리적 공간의 크기를 측정하고, 측정된 물리적 공간의 크기를 기반으로 사용자 이동 반경 영역을 설정하는 거리 센서부를 더 포함할 수 있다.
또한, 상기 이동 모션 애니메이션 영상 제공부는, 상기 제1 모션 데이터 내 객체에 대하여 제자리걸음 및 위치 이동하는 이동 모션을 각각 검출하되, 위치 이동하는 이동 모션의 경우 상기 거리 센서부에 의해 설정된 사용자 이동 반경 영역의 경계선에 미리 설정된 경고 거리까지 근접하면 사용자 이동을 제한하는 경고 신호를 출력할 수 있다.
또한, 사용자의 활동이 가능한 물리적 공간 내 설치되고, 해당 물리적 공간 내에서 객체의 위치를 추적하여 위치 데이터를 생성하는 위치 센서부를 더 포함할 수 있다.
또한, 상기 위치 데이터의 객체 위치값에 대하여 미리 설정된 제2 기준 피크치 이상의 흔들림 값을 갖는 오류 위치값을 검출하고, 딥러닝 알고리즘을 기반으로 상기 오류 위치값에 대한 흔들림 오류를 보정하고, 보정된 위치 데이터를 상기 제1 모션 데이터에 적용하는 위치 데이터 보정부를 더 포함할 수 있다.
또한, 상기 위치 데이터 보정부는, 상기 위치 데이터를 구성하는 각 객체 좌표값에 대한 흔들림 속도를 검출하고, 검출된 객체 좌표값에 대한 흔들림 속도와 상기 제2 기준 피크치 간을 비교하여 상기 제2 기준 피크치 이상의 흔들림 속도를 갖는 오류 객체 좌표값을 검출하는 오류 객체 좌표 검출부; 상기 오류 객체 좌표값의 이전 및 이후 객체 좌표값을 추출하고, 딥러닝 알고리즘 기반으로 상기 이전 및 이후 객체 좌표값 사이에 위치할 보정 객체 좌표값을 추정하는 보정 객체 좌표 추정부; 상기 오류 객체 좌표값을 제거하고, 제거된 상기 오류 객체 좌표값을 상기 보정 객체 좌표값을 삽입하여 상기 위치 데이터에 대한 흔들림 오류를 보정하는 객체 좌표 오류 보정부; 및 상기 위치 데이터 또는 상기 보정 객체 좌표값이 적용된 위치 데이터를 상기 제1 모션 데이터를 적용하는 위치 데이터 적용부를 포함할 수 있다.
본 발명에 따르면, 딥러닝 기반의 포즈 추정 기술과 착용형 모션 센서를 결합하여 객체 관절의 위치, 자세 및 모션 등에 대한 디테일한 실시간 추적과 추정이 가능하며, 손실된 좌표계를 알고리즘을 통해 보간하는 과정을 반복 학습시키면서 사각지대 발생시 자연스러운 동작을 추정 및 유추하여 제공할 수 있는 딥러닝 기술을 이용한 모션 추적 시스템을 제공할 수 있다.
도 1은 본 발명의 실시예에 따른 딥러닝 기술을 이용한 모션 추적 시스템의 전체 구성을 나타낸 개요도이다.
도 2는 본 발명의 실시예에 따른 딥러닝 기술을 이용한 모션 추적 시스템의 전체 구성을 나타낸 블록도이다.
도 3은 본 발명의 실시예에 따른 3차원 영상 데이터 생성부의 구성을 나타낸 블록도이다.
도 4 및 도 5는 본 발명의 실시예에 따른 영상 모션 데이터 생성부를 통한 오류 영상 프레임 검출 방법과 프레임 보간 방법을 설명하기 위해 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 이동 모션 애니메이션 영상 제공부를 통한 이동 모션 입력과 그에 따른 애니메이션 영상 제공 방법을 설명하기 위해 나타낸 도면이다.
도 7은 본 발명의 실시예에 따른 위치 데이터 보정부의 구성을 나타낸 블록도이다.
도 8은 본 발명의 실시예에 따른 위치 데이터 보정부를 통한 오류 객체 좌표 검출 및 보정 방법을 설명하기 위해 나타낸 도면이다.
도 9는 본 발명의 실시예에 따른 영상 모션 데이터 생성부를 통한 사용자의 전후방 이동 값을 보정하는 방법을 설명하기 위해 나타낸 도면이다.
도 1은 본 발명의 실시예에 따른 딥러닝 기술을 이용한 모션 추적 시스템의 전체 구성을 나타낸 개요도이고, 도 2는 본 발명의 실시예에 따른 딥러닝 기술을 이용한 모션 추적 시스템의 전체 구성을 나타낸 블록도이고, 도 3은 본 발명의 실시예에 따른 3차원 영상 데이터 생성부의 구성을 나타낸 블록도이고, 도 4 및 도 5는 본 발명의 실시예에 따른 영상 모션 데이터 생성부를 통한 오류 영상 프레임 검출 방법과 프레임 보간 방법을 설명하기 위해 나타낸 도면이고, 도 6은 본 발명의 실시예에 따른 이동 모션 애니메이션 영상 제공부를 통한 이동 모션 입력과 그에 따른 애니메이션 영상 제공 방법을 설명하기 위해 나타낸 도면이고, 도 7은 본 발명의 실시예에 따른 위치 데이터 보정부의 구성을 나타낸 블록도이며, 도 8은 본 발명의 실시예에 따른 위치 데이터 보정부를 통한 오류 객체 좌표 검출 및 보정 방법을 설명하기 위해 나타낸 도면이다.
도 1 및 도 2를 참조하면, 본 발명의 실시예에 따른 딥러닝 기술을 이용한 모션 추적 시스템(1000)은 영상 모션 데이터 생성부(100), 착용형 모션 데이터 생성부(200), 3차원 영상 데이터 생성부(300), 이동 모션 애니메이션 영상 제공부(400), 거리 센서부(500), 위치 센서부(600) 및 위치 데이터 보정부(700) 중 적어도 하나를 포함할 수 있다.
상기 영상 모션 데이터 생성부(100)는, 다수의 2D 카메라를 통해 촬영되는 영상 데이터를 입력 받고, 입력된 영상 데이터에서 키 포인트를 추출하고, 딥러닝 알고리즘을 기반으로 해당 키 포인트의 위치 정보를 파악하고, 위치가 파악된 키 포인트 간의 연결을 통해 하나의 객체로 그룹핑하여 객체의 자세를 추정하고, 자세가 추정된 객체의 모션을 실시간 추적하여 제1 모션 데이터를 생성할 수 있다. 이때, 제1 모션 데이터를 생성하기 위한 영상 데이터는 적어도 2대 이상의 2D 카메라로부터 수신됨에 따라 시간적으로 서로 동기화되지 않는 경우가 있으므로, 각 영상 데이터 생성 시 메타데이터에 포함된 절대시간정보를 기준으로 동기화 프로세스를 선 처리한 후 제1 모션 데이터를 생성하기 위한 프로세스를 진행하는 것이 바람직하다.
이러한 영상 모션 데이터 생성부(100)는 인간의 몸짓을 감지하기 위한 특수한 센서가 없이 순수하게 영상, 이미지 데이터만으로 인간의 자세를 인식하는 딥러닝 기반의 포즈 추정(Pose Estimation) 기술로 상향식 기법(Bottom-up) 기반의 포즈 추정(Pose Estimation) 모델을 이용할 수 있다. 여기서 상향식 기법은 입력 이미지에서 주요 키 포인트에 대한 위치를 검출하고, 검출된 키 포인트에 대해 서로 연결정보를 찾아 하나의 객체로 연결시키는 그룹핑 기술이 적용된다.
좀 더 구체적으로, 이미지와 비디오 데이터를 입력한 후(1단계), 입력 데이터에서 딥러닝 합성곱신경망(CNN)을 통해 이미지의 특징(F)을 추출하고(2단계), 추출된 특징(F)을 각 단계를 거치며 키 포인트를 추출한 후, 추출된 키 포인트 사이를 연결(단계를 반복할수록 성능이 높아짐)하는 과정을 수행할 수 있다(3단계). 여기서, 각각의 단계는 브랜치 1과 브랜치 2로 구성되는데, 브랜치 1은 이미지에서 키 포인트의 위치를 파악할 수 있도록 학습하는 파트이며, 브랜치 2는 추출된 키 포인트를 연결하여 관계 정보를 생성하는 파트이다. 이후 동일한 사람의 키 포인트 간을 연결할 수 있다(4단계). 이때, 인접할 수 있는 키 포인트 정보는 사전에 프로그래밍될 수 있는데, 일례로, 오른쪽 어깨와 연결 가능한 목, 오른쪽 팔꿈치 등의 키 포인트 간의 연결 정보가 사전에 프로그래밍될 수 있다. 그리고, 해당 키 포인트와 연결될 가능성이 가장 높은 키 포인트 간을 연결할 수 있으며, 일례로 오른쪽 어깨와 연결 가능성이 가장 높은 오른쪽 팔꿈치를 연결할 수 있다. 어깨와 팔꿈치는 서로 연결 가능한 조합이므로, 연결 가능성을 측정하지만, 어깨와 오른쪽 발 사이의 연결 가능성은 고려하지 않는다. 이후, 각 신체 부위에 대한 결과물을 합계하여 제1 모션 데이터를 출력할 수 있다(5단계).
상기 착용형 모션 데이터 생성부(200)는, 사용자의 신체 부위에 착용되는 착용형 모션 센서를 이용해 해당 신체 부위의 모션을 실시간 추적하여 제2 모션 데이터를 생성할 수 있다.
기존의 딥러닝 방식의 영상추적 모션 시스템은 팔이나 다리 등의 큰 관절 부위에 대해 보정 알고리즘을 통해 어느 정도의 관절 데이터 추출이 가능하지만, 손가락 관절 등 작은 관절 부위에 대해 미세한 추적은 불가능하다. 따라서, 본 실시예에서는 손가락 등의 작은 관절 부위에 대한 추적을 위해 착용형 글러브 센서 등을 이용한 별도의 솔루션을 적용하여 손가락의 각 관절에 대한 움직임과 회전값을 별도로 추출할 수 있는 하이브리드 타입의 추적 기술을 제시한다.
이를 위해 착용형 모션 데이터 생성부(200)는 일례로 글러브 형태로 제작될 수 있으며, 사용자의 손에 착용될 수 있다. 이러한 모션 글러브 센서는 리니어 인코더(linear encoder) 센서뿐만 아니라, FBG(Fiber Bragg Grating) 센서 및 IMU(Inertia Measurement Unit) 센서 등을 포함할 수 있으나, 본 실시예에서는 이에 한정하지 않고 다양한 방식의 모션 글러브 센서를 적용하여 제2 모션 데이터를 생성할 수 있다.
상기 리니어 인코더는 리니어 스케일(linear scale)이라고도 하며, 직선 변위를 측정하는 센서로 동작원리 상으로 분류하면 광전식 인코더, 자기식 인코더, 전자유도식 인코더, 용량식 인코더 등이 있다.
상기 FBG 센서 즉, 광섬유 격자 센서는 부식이 되지 않아 내구성이 좋고, FBG 센서의 광원 특성 상 특정 전자기파의 영향을 받지 않아 정밀한 모션 데이터 측정에 대한 오류가 없다. 또한, 다중형 FBG 센서의 각 채널로 동시에 다수의 관절 모션 데이터의 측정이 가능한 새로운 방식의 형상 인식형 모션 측정 센서로 제작되어 다양한 산업에 활용이 가능하다. FBG 센서를 구성하는 광섬유는 입사된 광이 전반사가 이루어지도록 굴절률이 다른 코어(Fiber Core), 클래딩(Cladding) 및 이러한 코어 및 클래딩을 보호하기 위한 재킷으로 구성되는 것이 통상적이다. FBG 센서는 측정범위에 따라 일점, 분포 및 다중형 방식으로 분류될 수 있다. 여기서, 분포형 광섬유센서로서는 ODTR(Optical Time Domain Reflectometry)이 대표적이다. 이는 단일 광섬유를 이용하여 구조물의 전체적인 거동을 측정하는 데 유용하다는 장점이 있다. 다중형 광섬유센서는 하나의 광섬유센서에 2개 이상의 일점형 광섬유센서가 설치되어 있는 형태로서 FBG센서(Fiber Bragg Grating Sensor, 광섬유격자센서)가 이에 해당된다.
이러한 FBG 센서는 단일로 제작되는 경우 2차원의 각도 측정만 가능하나 3개 이상의 다중형으로 제작되는 경우 X, Y, Z축에 대한 3차원 형상 인식이 가능한 센서로서 제작이 가능하다. 이때, 3개 이상의 FBG 센서를 하나의 튜브에 삽입한 후 코팅 제작 시 각각의 FBG 센서 간의 미세한 간격이 안정적인 데이터 측정에 있어 매우 중요한 요소가 된다. 따라서, 이러한 FBG 센서의 균일한 간극 유지 및 코팅 제조 방식이 센서의 정밀도를 위해서는 상당히 중요하다고 할 수 있다.
상기 IMU(Inertia Measurement Unit) 센서는, 지자기 센서, 가속도 센서 등의 각종 센서와 더불어 고도계, 자이로 등의 기능의 하나의 칩에 들어가 있는 복합 센서로 이루어질 수 있으며, 이러한 복합 센서를 이용하여 사용자의 각 신체부위의 위치와 자세에 대한 제2 모션 데이터를 생성할 수 있다.
상기 3차원 영상 데이터 생성부(300)는, 제1 모션 데이터의 각 영상 프레임에서 미리 설정된 제1 기준 피크치 이상의 흔들림 값을 갖는 오류 영상 프레임을 검출하고, 딥러닝 알고리즘을 기반으로 상기 오류 영상 프레임에 대한 흔들림 오류를 보정하고, 보정된 제1 모션 데이터에 제2 모션 데이터를 매핑하여 3차원 영상 데이터를 생성할 수 있다.
이를 위해 3차원 영상 데이터 생성부(300)는 도 3에 도시된 바와 같이, 오류 영상 프레임 검출부(310), 보정 영상 프레임 추정부(320), 제1 모션 데이터 오류 보정부(330) 및 모션 데이터 결합부(340) 중 적어도 하나를 포함할 수 있다.
상기 오류 영상 프레임 검출부(310)는, 제1 모션 데이터를 구성하는 각 영상 프레임 내 객체 흔들림 속도를 검출하고, 객체 흔들림 속도와 제1 기준 피크치 간을 비교하여 제1 기준 피크치 이상의 객체 흔들림 속도를 갖는 오류 영상 프레임을 검출할 수 있다. 영상 모션 데이터 생성부(100)에서 생성된 제1 모션 데이터를 구성하는 프레임의 수는 상대적으로 많지 않기 때문에, 영상을 봤을 때 객체가 마치 튀는 듯한 오류가 종종 검출된다. 이러한 문제를 도 4를 참조하여 설명하면, 프레임 1 내지 프레임 4로 구성된 제1 모션 데이터가 있고, 프레임 2 구간에서 객체의 흔들리는 속도가 유독 큰 피크 값을 갖는다고 가정했을 때, 프레임 2에서 나타나는 흔들림 속도에 대한 피크 값이 미리 설정된 제1 기준 피크치 이상이거나 초과한 경우 오류 영상 프레임으로 판정할 수 있다.
상기 보정 영상 프레임 추정부(320)는, 오류 영상 프레임의 이전 및 이후 영상 프레임을 추출하고, 딥러닝 알고리즘 기반으로 기 이전 및 이후 영상 프레임 사이에 위치할 보정 영상 프레임을 추정할 수 있다. 상술한 오류 영상 프레임은 최종적으로 구현될 3차원 영상 데이터의 품질을 저하시킬 수 있으므로, 해당 오류 영상 프레임은 삭제될 수 있으며, 도 5에 도시된 바와 같이 새로운 프레임 2(Frame 2)를 삽입해 이전 오류 영상 프레임인 프레임 2(Frame 2)를 대체할 수 있다. 여기서, 새로운 프레임 2(Frame 2')는 보정 영상 프레임으로서 오류 영상 프레임인 프레임 2(Frame 2)의 이전 영상 프레임과 이후 영상 프레임을 기반으로 그 사이에 위치할 영상 프레임을 추정하여 생성된 것으로, 영상 프레임 간의 간격은 매우 짧은 찰나의 순간이므로, 실제 사용자가 그 사이에서 이전과 이후 영상 프레임에서 벗어나는 행동이나 모션을 취하는 것이 사실상 불가능하므로, 이전과 이후 영상 프레임의 중간 값에 해당하는 영상 프레임을 보정 영상 프레임(Frame 2')으로서 추정할 수 있다.
상기 제1 모션 데이터 오류 보정부(330)는, 오류 영상 프레임을 제거하고, 제거된 오류 영상 프레임의 위치에 보정 영상 프레임을 삽입하여 상기 제1 모션 데이터에 대한 흔들림 오류를 보정할 수 있다. 즉, 도 4 및 도 5에 도시된 바와 같이 보정 영상 프레임(Frame 2')을 오류 영상 프레임인 프레임 2(Frame 2)를 대체함으로써 오류 영상 프레임에 대한 보정 작업을 완료할 수 있다.
상기 모션 데이터 결합부(340)는, 제1 모션 데이터(오류 영상 프레임이 검출되지 않은 경우) 또는 제1 모션 데이터 오류 보정부(330)에 의해 보정된 제1 모션 데이터에 제2 모션 데이터를 결합하여 3차원 영상 데이터를 생성할 수 있다. 이에 따라, 제1 모션 데이터에 의해 골반, 무릎 등 큰 관절의 자세와 움직임을 인식하고, 제2 모션 데이터에 의해 손가락들이 굽혀 져서 사라지거나, 두 손가락이 겹쳐졌다가 떨어지는 등, 손에 의해 표현되는 정밀한 움직임을 인식함으로써 사각지대 없는 객체 모션 추적이 가능하다.
상기 이동 모션 애니메이션 영상 제공부(400)는, 3차원 영상 데이터를 기반으로 가상 체험형 영상을 제공하되, 제1 모션 데이터 내 객체에 대하여 미리 설정된 이동 모션을 검출할 경우, 해당 가상 체험형 영상에 이동 효과를 제공하기 위해 미리 준비된 애니메이션 영상을 제1 모션 데이터와 제2 모션 데이터를 대체하여 적용하여 제공할 수 있다.
예를 들어, 제1 모션 데이터를 구성하는 특정 영상 프레임에서 사용자가 제자리 걸음 또는 위치를 이동하는 모션을 검출하는 경우, 해당 모션을 위치 이동 명령에 대한 입력 값으로 받아 들여 사용자에게 제공하는 가상 공간을 위치 이동하는 영상을 미리 준비된 애니메이션 영상으로 대체하여 제공할 수 있다. 종래의 가상 공간 상에서 사용자가 이동하여 위치가 이동하게 되면 사용자의 위치 이동에 맞게 주변 환경을 구성하여 영상으로 출력하게 되는데, 이러한 경우 컴퓨터 장치에 비교적 많은 연산량이 요구된다. 따라서, 본 실시예에서는 제1 모션 데이터를 통해 사용자의 제자리 걸음이나 약간의 위치 이동과 같은 모션을 인식하게 되면, 소위 텔레포토(Telephoto) 방식과 같이 사용자가 위치 A에서 위치 B로 빠르게 이동할 때 볼 수 있는 주변 환경을 미리 준비된 애니메이션 영상으로 제공함으로써 실제 사용자가 이동할 때 구현되어 제공되는 가상의 영상을 제공할 필요가 없어지고 이에 따라 컴퓨터의 프로세스 부하도 줄일 수 있으며, 별도의 하드웨어 버튼 또는 스위치를 적용하여 사용자의 위치 이동을 인식할 수 있도록 구현 가능하다. 이러한 애니메이션 영상은 사용자가 가상 공간을 보는 시점 즉, 1인칭 시점인지 또는 3인칭 시점인지에 맞게 가공되어 제공될 수 있다. 또한, 가상 현실을 즐기는 사용자는 물리적으로 제한된 공간 내에서 활동을 할 수 있는데, 이러한 환경에서는 넓은 가상 공간 상을 이동하는 것을 실제로 반영하는데 한계가 존재할 수 밖에 없으므로, 좁은 물리적 게임 또는 가상 체험 활동 공간에서 이동 모션 애니메이션 영상 제공부(400)는 보다 효과적인 게임 또는 가상 체험 활동 운영을 가능하게 한다.
한편, 이동 모션 애니메이션 영상 제공부(400)는, 제1 모션 데이터 내 객체에 대하여 제자리걸음 및 위치 이동하는 이동 모션을 각각 검출하되, 위치 이동하는 이동 모션의 경우 후술하는 거리 센서부(500)에 의해 설정된 사용자 이동 반경 영역의 경계선에 미리 설정된 경고 거리까지 근접하면 사용자 이동을 제하하는 경고 신호를 출력할 수 있다. 예를 들어, 사용자의 실제 활동 공간이 5m*5m의 넓이로 계측되는 경우, 계측된 크기 또는 그보다 일정 수치만큼 작은 넓이로 활동 가능한 물리적 공간 영역을 정의할 수 있으며, 사용자가 해당 영역의 중심 위치에서 다른 위치로 이동하기 위해 대략 2.5m를 실제 걸었다면 해당 지점이 경계선에 도달하여 해당 공간에 마련된 벽이나 칸막이 등에 부딪혀 부상을 입을 가능성이 있으므로, 거리 센서부(500)와 연동하여 해당 경계선에 도달함을 인식하면 경고신호를 출력해 사용자의 이동을 제한할 수 있다.
상기 거리 센서부(500)는, 사용자의 활동이 가능한 물리적 공간 내 설치되어 해당 물리적 공간의 크기를 측정하고, 측정된 물리적 공간의 크기를 기반으로 사용자 이동 반경 영역을 설정할 수 있다. 이러한 거리 센서부(500)는 초음파센서, 라이다센서, 레이저센서, 카메라센서 등 물리적 공간의 크기, 사용자와의 거리를 측정 및 파악할 수 있는 수단이면 모두 적용 가능하다. 이러한 거리 센서부(500)는 이동 모션 애니메이션 영상 제공부(400)와 연동하여 물리적 공간 내에 위치한 사용자의 상대적 거리를 검출할 수 있다.
상기 위치 센서부(600)는, 사용자의 활동이 가능한 물리적 공간 내 설치되고, 해당 물리적 공간 내에서 객체의 상대적 위치를 추적하여 위치 데이터를 생성할 수 있다. 위치 센서부(600)는 사용자가 게임 또는 가상 체험 활동을 하는 물리적 공간 내에서 사용자(객체)의 상대적 위치를 추적하기 위한 기계식, 전기식, 자기식, 광학식 센서 등 다양한 방식의 센서가 적용될 수 있다.
상기 위치 데이터 보정부(700)는, 위치 센서부(600)를 통해 생성된 위치 데이터의 객체 위치값에 대하여 미리 설정된 제2 기준 피크치 이상의 흔들림 값을 갖는 오류 위치값을 검출하고, 딥러닝 알고리즘을 기반으로 오류 위치값에 대한 흔들림 오류를 보정하고, 보정된 위치 데이터를 제1 모션 데이터에 적용하여 보다 안정적인 3차원 영상 데이터가 생성될 수 있도록 한다.
이를 위해 위치 데이터 보정부(700)는 도 7에 도시된 바와 같이, 오류 객체 좌표 검출부(710), 보정 객체 좌표 추정부(720), 객체 좌표 오류 보정부(730) 및 위치 데이터 적용부(740) 중 적어도 하나를 포함할 수 있다.
상기 오류 객체 좌표 검출부(710)는, 위치 데이터를 구성하는 각 객체 좌표값에 대한 흔들림 속도를 검출하고, 검출된 객체 좌표값에 대한 흔들림 속도와 제2 기준 피크치 간을 비교하여 제2 기준 피크치 이상의 흔들림 속도를 갖는 오류 객체 좌표값을 검출할 수 있다. 사용자(객체)에 대한 위치 데이터 또한 영상 프레임과 유사하게 극히 짧은 시간으로 나누어 보면, 다수의 프레임으로 구성될 수 있다. 이러한 프레임들에는 객체에 대한 좌표값이 포함되어 있는데, 이러한 객체 좌표값은 시간의 흐름에 따라 어느 범위 내에서의 변화를 갖게 된다. 즉, 프레임 간의 간격은 매우 짧은 찰나의 순간이므로, 실제 사용자가 그 사이에서 이전과 이후 프레임에서 벗어나 위치를 바꾸는 것은 사실상 불가능하다. 따라서, 각 프레임의 객체 좌표값에 대한 변화 속도를 판단할 때, 미리 설정된 제2 기준 피크치 이상 또는 이를 초과하는 흔들림 속도로 객체 좌표값이 변화하는 경우, 해당 객체 좌표값을 현재 오류 객체 좌표값(P(x,y,z))으로 검출할 수 있다.
상기 보정 객체 좌표 추정부(720)는, 도 8에 도시된 바와 같이 오류 객체 좌표값(P(x,y,z))의 이전 객체 좌표값(P(x',y',z')과 이후 객체 좌표값(P(x",y",z")을 추출하고, 딥러닝 알고리즘 기반으로 이전 객체 좌표값(P(x',y',z')과 이후 객체 좌표값(P(x",y",z")) 사이에 위치할 보정 객체 좌표값(P(X,Y,Z))을 추정할 수 있다.
상기 객체 좌표 오류 보정부(730)는, 도 8에 도시된 바와 같이 오류 객체 좌표값(P(x,y,z))을 제거하고, 보정 객체 좌표 추정부(720)를 통해 추정된 보정 객체 좌표값(P(X,Y,Z))을 삽입하여 위치 데이터에 대한 흔들림 오류를 보정할 수 있다.
상기 위치 데이터 적용부(740)는, 위치 데이터(위치 흔들림 오류가 없는 경우) 또는 보정 객체 좌표값이 적용된 위치 데이터를 제1 모션 데이터를 적용하여 보다 안정적인 3차원 영상 데이터가 생성될 수 있도록 한다.
도 9는 본 발명의 실시예에 따른 영상 모션 데이터 생성부를 통한 사용자의 전후방 이동 값을 보정하는 방법을 설명하기 위해 나타낸 도면이다.
도 9를 참조하면, 본 발명의 실시예에 따른 영상 모션 데이터 생성부(100)는, 제1 모션 데이터를 생성하기 이전에, 미리 정의된 기본 설정 위치에서 있는 사용자를 2D 카메라를 통해 촬영하여 생성된 기본 설정 영상 데이터를 입력 받을 수 있다. 여기서, 기본 설정 위치란 사용자 즉 플레이어가 게임을 하기 이전에 해당 플레이어가 전방 또는 후방으로 이동함에 따른 위치 이동량에 따른 제1 모션 데이터를 보정하게 위해 기준이 되는 위치이며 게임을 시작하는 위치를 의미하며, 해당 위치에서 촬영된 기본 설정 영상 데이터를 기반으로 기본 위치 값이 설정될 수 있다.
이를 위해, 영상 모션 데이터 생성부(100)는, 도 9의 (b)에 도시된 바와 같이 기본 설정 영상 데이터에서 플레이어에 대한 기본 설정 키 포인트(최소 3쌍의 키 포인트)를 각각 추출하고, 해당 기본 설정 키 포인트 간의 길이를 각각 측정하여 사용자의 기본 위치에 대한 키 포인트 길이 데이터를 생성할 수 있다. 도 9의 (b)와 같이 다수의 기본 설정 키 포인트를 추출하는 경우, 한 쌍의 기본 설정 키 포인트 간의 길이(r1, r2, r3)의 평균 값을 산출하여 기준 길이 값을 결정할 수 있다. 이러한 기준 길이 값은 플레이어의 신체적 조건에 따라 상이하게 설정될 수 있으며, 최초 등록되면 이후에 반복해서 등록하지 않고 특정 플레이어가 게임을 시작할 경우, 해당 키 포인트 길이 데이터를 불러와 설정한 후 게임을 시작할 수 있다.
또한, 영상 모션 데이터 생성부(100)는, 키 포인트 길이 데이터에 포함된 기본 설정 키 포인트 간 길이인 제1 길이와, 제1 모션 데이터에 포함된 키 포인트 간 길이인 제2 길이를 비교하고, 미리 정의된 포인트 길이 변화에 따른 이동 값 정보에 기초하여 제2 길이가 제1 길이보다 길어지는 경우 길어진 길이에 따른 전방 이동 값을 산출하고, 제2 길이가 제1 길이보다 짧아지는 경우 짧아진 길이에 따른 후방 이동 값을 산출하고, 전방 이동 값과 후방 이동 값 각각에 따른 사용자의 전후방 포지션 변화 데이터를 생성하여 제1 모션 데이터에 적용할 수 있다.
예를 들어, 도 9의 (a)에 도시된 바와 같이 제1 모션 데이터에 포함된 키 포인트를 각각 추출한 후 각각의 쌍으로 이루어진 키 포인트 간의 길이 a1, a2, a3를 각각 산출하고, 이들의 평균 값 A을 구할 수 있다. 이때, 평균 값 A가 R보다 길어진 경우 해당 플레이어가 전방으로 이동함을 의미하므로, 평균 값 A가 R보다 상대적으로 얼마나 증가하였는지에 대한 값을 산출한 후 해당 값과 대응되는 전방 이동 거리를 추출해 제1 모션 데이터에 적용할 수 있다.
또한, 도 9의 (c)에 도시된 바와 같이 제1 모션 데이터에 포함된 키 포인트를 각각 추출한 후 각각의 쌍으로 이루어진 키 포인트 간의 길이 b1, b2, b3를 각각 산출하고, 이들의 평균 값 B을 구할 수 있다. 이때, 평균 값 B가 R보다 짧아진 경우 해당 플레이어가 후방으로 이동함을 의미하므로, 평균 값 B가 R보다 상대적으로 얼마나 증가하였는지에 대한 값을 산출한 후 해당 값과 대응되는 후방 이동 거리를 추출해 제1 모션 데이터에 적용함으로써, 플레이어의 전후방 이동에 따른 위치 값을 추가적으로 보정할 수 있다.
이에 더하여, 도 9의 (b)에 도시된 바와 같이 기본 설정 위치에서 플레이어의 발에 해당하는 키 포인트를 추출한 후 해당 키 포인트의 2차원 위치 값을 저장할 수 있으며, 이러한 2차원 위치 값을 제1 모션 데이터 중 발에 해당하는 키 포인트의 2차원 위치 값과 비교하여 상대적으로 아래로 내려간 경우 얼마나 내려갔는지에 대응되는 값을 추출해 제1 모션 데이터에 적용하고, 제1 모션 데이터 중 발에 해당하는 키 포인트의 2차원 위치 값과 비교하여 상대적으로 위로 올라간 경우 얼마나 올라갔는지에 대응되는 값을 추출해 제2 모션 데이터에 적용함으로써 플레이어의 전후방 이동에 따른 위치 값을 추가적으로 보정할 수 있다. 즉, 상술한 방법과 더불어 추가적으로 사용하거나 또는 독립적으로 사용할 수도 있다.
**부호의 설명**
1000: 딥러닝 기술을 이용한 모션 추적 시스템
100: 영상 모션 데이터 생성부
200: 착용형 모션 데이터 생성부
300: 3차원 영상 데이터 생성부
310: 오류 영상 프레임 검출부
320: 보정 영상 프레임 추정부
330: 제1 모션 데이터 오류 보정부
340: 모션 데이터 결합부
400: 이동 모션 애니메이션 영상 제공부
500: 거리 센서부
600: 위치 센서부
700: 위치 데이터 보정부
710: 오류 객체 좌표 검출부
720: 보정 객체 좌표 추정부
730: 객체 좌표 오류 보정부
740: 위치 데이터 적용부

Claims (10)

  1. 다수의 카메라를 통해 촬영되는 영상 데이터를 입력 받고, 입력된 영상 데이터에서 키 포인트를 추출하고, 딥러닝 알고리즘을 기반으로 해당 키 포인트의 위치 정보를 파악하고, 위치가 파악된 키 포인트 간의 연결을 통해 하나의 객체로 그룹핑하여 객체의 자세를 추정하고, 자세가 추정된 객체의 모션을 실시간 추적하여 제1 모션 데이터를 생성하는 영상 모션 데이터 생성부;
    사용자의 신체 부위에 착용되는 착용형 모션 센서를 이용해 해당 신체 부위의 모션을 실시간 추적하여 제2 모션 데이터를 생성하는 착용형 모션 데이터 생성부; 및
    상기 제1 모션 데이터의 각 영상 프레임에서 미리 설정된 제1 기준 피크치 이상의 흔들림 값을 갖는 오류 영상 프레임을 검출하고, 딥러닝 알고리즘을 기반으로 상기 오류 영상 프레임에 대한 흔들림 오류를 보정하고, 보정된 제1 모션 데이터에 상기 제2 모션 데이터를 매핑하여 3차원 영상 데이터를 생성하는 3차원 영상 데이터 생성부를 포함하는 것을 특징으로 하는 딥러닝 기술을 이용한 모션 추적 시스템.
  2. 제1 항에 있어서,
    상기 영상 모션 데이터 생성부는,
    상기 제1 모션 데이터를 생성하기 이전에, 미리 정의된 기본 설정 위치에서 있는 사용자를 카메라를 통해 촬영하여 생성된 기본 설정 영상 데이터를 입력 받고, 입력된 기본 설정 영상 데이터에서 사용자에 대한 기본 설정 키 포인트를 각각 추출하고, 해당 기본 설정 키 포인트 간의 길이를 각각 측정하여 사용자의 기본 위치에 대한 키 포인트 길이 데이터를 생성하고,
    상기 키 포인트 길이 데이터에 포함된 기본 설정 키 포인트 간 길이인 제1 길이와, 상기 제1 모션 데이터에 포함된 키 포인트 간 길이인 제2 길이를 비교하고, 미리 정의된 포인트 길이 변화에 따른 이동 값 정보에 기초하여 상기 제2 길이가 상기 제1 길이보다 길어지는 경우 길어진 길이에 따른 전방 이동 값을 산출하고, 상기 제2 길이가 상기 제1 길이보다 짧아지는 경우 짧아진 길이에 따른 후방 이동 값을 산출하고, 상기 전방 이동 값과 상기 후방 이동 값 각각에 따른 사용자의 전후방 포지션 변화 데이터를 생성하고 상기 제1 모션 데이터에 적용하여 사용자의 전후방 이동에 따른 위치 값을 보정하는 것을 특징으로 하는 딥러닝 기술을 이용한 모션 추적 시스템.
  3. 제1 항에 있어서,
    상기 착용형 모션 데이터 생성부는,
    리니어 인코더(linear encoder) 센서뿐만 아니라, FBG(Fiber Bragg Grating) 센서 및 IMU(Inertia Measurement Unit) 센서 중 적어도 하나를 포함하는 것을 특징으로 하는 딥러닝 기술을 이용한 모션 추적 시스템.
  4. 제1 항에 있어서,
    상기 3차원 영상 데이터 생성부는,
    상기 제1 모션 데이터를 구성하는 각 영상 프레임 내 객체 흔들림 속도를 검출하고, 상기 객체 흔들림 속도와 상기 제1 기준 피크치 간을 비교하여 상기 제1 기준 피크치 이상의 객체 흔들림 속도를 갖는 오류 영상 프레임을 검출하는 오류 영상 프레임 검출부;
    상기 오류 영상 프레임의 이전 및 이후 영상 프레임을 추출하고, 딥러닝 알고리즘 기반으로 상기 이전 및 이후 영상 프레임 사이에 위치할 보정 영상 프레임을 추정하는 보정 영상 프레임 추정부;
    상기 오류 영상 프레임을 제거하고, 제거된 상기 오류 영상 프레임의 위치에 상기 보정 영상 프레임을 삽입하여 상기 제1 모션 데이터에 대한 흔들림 오류를 보정하는 제1 모션 데이터 오류 보정부; 및
    상기 제1 모션 데이터 또는 상기 제1 모션 데이터 오류 보정부에 의해 보정된 제1 모션 데이터에 상기 제2 모션 데이터를 결합하여 상기 3차원 영상 데이터를 생성하는 모션 데이터 결합부를 포함하는 것을 특징으로 하는 딥러닝 기술을 이용한 모션 추적 시스템.
  5. 제1 항에 있어서,
    상기 3차원 영상 데이터를 기반으로 가상 체험형 영상을 제공하되, 상기 제1 모션 데이터 내 객체에 대하여 미리 설정된 이동 모션을 검출할 경우, 상기 가상 체험형 영상에 이동 효과를 제공하기 위해 미리 준비된 애니메이션 영상을 상기 제1 모션 데이터와 상기 제2 모션 데이터를 대체하여 적용하여 제공하는 이동 모션 애니메이션 영상 제공부를 더 포함하는 것을 특징으로 하는 딥러닝 기술을 이용한 모션 추적 시스템.
  6. 제5 항에 있어서,
    사용자의 활동이 가능한 물리적 공간 내 설치되어 해당 물리적 공간의 크기를 측정하고, 측정된 물리적 공간의 크기를 기반으로 사용자 이동 반경 영역을 설정하는 거리 센서부를 더 포함하는 것을 특징으로 하는 딥러닝 기술을 이용한 모션 추적 시스템.
  7. 제6 항에 있어서,
    상기 이동 모션 애니메이션 영상 제공부는,
    상기 제1 모션 데이터 내 객체에 대하여 제자리걸음 및 위치 이동하는 이동 모션을 각각 검출하되, 위치 이동하는 이동 모션의 경우 상기 거리 센서부에 의해 설정된 사용자 이동 반경 영역의 경계선에 미리 설정된 경고 거리까지 근접하면 사용자 이동을 제한하는 경고 신호를 출력하는 것을 특징으로 하는 딥러닝 기술을 이용한 모션 추적 시스템.
  8. 제1 항에 있어서,
    사용자의 활동이 가능한 물리적 공간 내 설치되고, 해당 물리적 공간 내에서 객체의 위치를 추적하여 위치 데이터를 생성하는 위치 센서부를 더 포함하는 것을 특징으로 하는 딥러닝 기술을 이용한 모션 추적 시스템.
  9. 제8 항에 있어서,
    상기 위치 데이터의 객체 위치값에 대하여 미리 설정된 제2 기준 피크치 이상의 흔들림 값을 갖는 오류 위치값을 검출하고, 딥러닝 알고리즘을 기반으로 상기 오류 위치값에 대한 흔들림 오류를 보정하고, 보정된 위치 데이터를 상기 제1 모션 데이터에 적용하는 위치 데이터 보정부를 더 포함하는 것을 특징으로 하는 딥러닝 기술을 이용한 모션 추적 시스템.
  10. 제9 항에 있어서,
    상기 위치 데이터 보정부는,
    상기 위치 데이터를 구성하는 각 객체 좌표값에 대한 흔들림 속도를 검출하고, 검출된 객체 좌표값에 대한 흔들림 속도와 상기 제2 기준 피크치 간을 비교하여 상기 제2 기준 피크치 이상의 흔들림 속도를 갖는 오류 객체 좌표값을 검출하는 오류 객체 좌표 검출부;
    상기 오류 객체 좌표값의 이전 및 이후 객체 좌표값을 추출하고, 딥러닝 알고리즘 기반으로 상기 이전 및 이후 객체 좌표값 사이에 위치할 보정 객체 좌표값을 추정하는 보정 객체 좌표 추정부;
    상기 오류 객체 좌표값을 제거하고, 제거된 상기 오류 객체 좌표값을 상기 보정 객체 좌표값을 삽입하여 상기 위치 데이터에 대한 흔들림 오류를 보정하는 객체 좌표 오류 보정부; 및
    상기 위치 데이터 또는 상기 보정 객체 좌표값이 적용된 위치 데이터를 상기 제1 모션 데이터를 적용하는 위치 데이터 적용부를 포함하는 것을 특징으로 하는 딥러닝 기술을 이용한 모션 추적 시스템.
PCT/KR2022/009349 2021-06-30 2022-06-29 딥러닝 기술을 이용한 모션 추적 시스템 WO2023277586A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2021-0085975 2021-06-30
KR20210085975 2021-06-30
KR1020220076436A KR102622981B1 (ko) 2021-06-30 2022-06-22 딥러닝 기술을 이용한 모션 추적 시스템
KR10-2022-0076436 2022-06-22

Publications (1)

Publication Number Publication Date
WO2023277586A1 true WO2023277586A1 (ko) 2023-01-05

Family

ID=84690496

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/009349 WO2023277586A1 (ko) 2021-06-30 2022-06-29 딥러닝 기술을 이용한 모션 추적 시스템

Country Status (1)

Country Link
WO (1) WO2023277586A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180114756A (ko) * 2017-04-11 2018-10-19 한국전자통신연구원 헤드 마운티드 디스플레이의 충돌 경고 장치 및 방법
KR102118937B1 (ko) * 2018-12-05 2020-06-04 주식회사 스탠스 3d 데이터서비스장치, 3d 데이터서비스장치의 구동방법 및 컴퓨터 판독가능 기록매체
KR102124748B1 (ko) * 2019-11-22 2020-06-19 주식회사 삼우이머션 가상현실 콘텐츠를 체험하는 체험공간 내에서의 사용자의 위험 감지 및 방지방법
KR20200087027A (ko) * 2019-01-10 2020-07-20 한국전자통신연구원 근골격계 진단을 위한 동작 획득 방법 및 장치
KR20210035243A (ko) * 2018-07-23 2021-03-31 엠브이아이 헬스 인크. 물리 치료를 위한 시스템 및 방법
KR102234646B1 (ko) * 2020-03-31 2021-04-01 (주)케이넷 이엔지 가상 현실 체험 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180114756A (ko) * 2017-04-11 2018-10-19 한국전자통신연구원 헤드 마운티드 디스플레이의 충돌 경고 장치 및 방법
KR20210035243A (ko) * 2018-07-23 2021-03-31 엠브이아이 헬스 인크. 물리 치료를 위한 시스템 및 방법
KR102118937B1 (ko) * 2018-12-05 2020-06-04 주식회사 스탠스 3d 데이터서비스장치, 3d 데이터서비스장치의 구동방법 및 컴퓨터 판독가능 기록매체
KR20200087027A (ko) * 2019-01-10 2020-07-20 한국전자통신연구원 근골격계 진단을 위한 동작 획득 방법 및 장치
KR102124748B1 (ko) * 2019-11-22 2020-06-19 주식회사 삼우이머션 가상현실 콘텐츠를 체험하는 체험공간 내에서의 사용자의 위험 감지 및 방지방법
KR102234646B1 (ko) * 2020-03-31 2021-04-01 (주)케이넷 이엔지 가상 현실 체험 장치 및 방법

Similar Documents

Publication Publication Date Title
CN106980368B (zh) 一种基于视觉计算及惯性测量单元的虚拟现实交互设备
CN104536579B (zh) 交互式三维实景与数字图像高速融合处理系统及处理方法
WO2012173373A2 (ko) 가상터치를 이용한 3차원 장치 및 3차원 게임 장치
KR100361462B1 (ko) 모션 캡쳐 데이터 획득 방법
KR20230004280A (ko) 딥러닝 기술을 이용한 모션 추적 시스템
CN111353355B (zh) 动作追踪系统及方法
KR20150028181A (ko) 포인팅 방향 검출 장치 및 그 방법과, 프로그램 및 컴퓨터 판독가능한 매체
WO2013162236A1 (ko) 포인터를 표시하지 않는 투명 디스플레이 가상 터치 장치
WO2019005644A1 (en) EYE TRACKING SYSTEM WITH DETECTION AND CORRECTION OF SLIDING
JP2018119833A (ja) 情報処理装置、システム、推定方法、コンピュータプログラム、及び記憶媒体
KR20200076267A (ko) 골격의 길이 정보를 이용한 제스쳐 인식 방법 및 처리 시스템
CN114690900A (zh) 一种虚拟场景中的输入识别方法、设备及存储介质
CN114722913A (zh) 姿态检测方法、装置、电子设备及计算机可读存储介质
CN113012224A (zh) 定位初始化方法和相关装置、设备、存储介质
Yonemoto et al. A real-time motion capture system with multiple camera fusion
CN111354029A (zh) 手势深度确定方法、装置、设备及存储介质
WO2015199470A1 (ko) 머리 착용형 컬러 깊이 카메라를 활용한 손 위치 추정 장치 및 방법, 이를 이용한 맨 손 상호작용 시스템
JP2000148381A (ja) 入力画像処理方法、入力画像処理装置、及び入力画像処理プログラムを記録した記録媒体
WO2018186507A1 (ko) 가정된 캘리브레이션 모델 없이 측정된 데이터를 이용하여 캘리브레이션을 수행하는 방법 및 상기 방법을 수행하는 3차원 스캐너 캘리브레이션 시스템
WO2023277586A1 (ko) 딥러닝 기술을 이용한 모션 추적 시스템
JP2559939B2 (ja) 3次元情報入力装置
WO2019098421A1 (ko) 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법
CN115862124B (zh) 视线估计方法、装置、可读存储介质及电子设备
CN115601505B (zh) 一种人体三维姿态还原方法、装置、电子设备及存储介质
Medien Implementation of a low cost marker based infrared optical tracking system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22833641

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22833641

Country of ref document: EP

Kind code of ref document: A1