WO2015199502A1 - Apparatus and method for providing augmented reality interaction service - Google Patents

Apparatus and method for providing augmented reality interaction service Download PDF

Info

Publication number
WO2015199502A1
WO2015199502A1 PCT/KR2015/006591 KR2015006591W WO2015199502A1 WO 2015199502 A1 WO2015199502 A1 WO 2015199502A1 KR 2015006591 W KR2015006591 W KR 2015006591W WO 2015199502 A1 WO2015199502 A1 WO 2015199502A1
Authority
WO
WIPO (PCT)
Prior art keywords
coordinate system
camera
sub
depth
augmented reality
Prior art date
Application number
PCT/KR2015/006591
Other languages
French (fr)
Korean (ko)
Inventor
우운택
하태진
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to US15/322,075 priority Critical patent/US10304248B2/en
Priority claimed from KR1020150091330A external-priority patent/KR101865655B1/en
Publication of WO2015199502A1 publication Critical patent/WO2015199502A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Definitions

  • the present invention supports hand interaction with augmented virtual objects in an HMD-based wearable environment equipped with an RGB-D camera based on geometric-based registration coordinate correction using an RGB-D camera for wearable augmented reality authoring. It is about technology to do.
  • a user uses a camera to acquire image feature-camera pose information about the real space, and obtain local reference coordinates (or matched coordinates). After generating, you need to match the coordinate system of the virtual space based on this. However, since the matching coordinate system is generated at an arbitrary position, a process of manually correcting the attitude of the coordinate system is necessary.
  • a three-dimensional virtual object modeled in units of the real space may be augmented accurately in the augmented reality space through a correction process that accurately matches the scale between the real space and the augmented reality space.
  • the GPS / compass sensor-based matching method has a problem that the accuracy of matching is very low due to an error of sensor information, and the 2D object-based matching method requires a pre-learned image.
  • the object is not suitable for any three-dimensional space registration because the object is limited to a simple two-dimensional plane.
  • 3D space-based registration generates a registration coordinate system for augmentation at an arbitrary position, it is necessary to manually correct the coordinate system attitude by the user, and in order to perform such correction, the user has expertise in computer vision / graphics, etc. If this is necessary and the user inputs incorrectly, an error of matching may occur due to incorrect input.
  • Korean Patent Publication No. 10-0980202 relates to a mobile augmented reality system and method that can interact with a three-dimensional virtual object, the camera attached to the terminal, the camera of the terminal
  • the image processing unit for generating a three-dimensional virtual object on the hand the display unit for outputting the image of the three-dimensional virtual object and the hand and the interaction unit for controlling the three-dimensional virtual object in response to the movement of the hand
  • Users can access 3D virtual content anytime, anywhere using a mobile device.
  • the technology is a technique for accessing 3D virtual content using a mobile device, and does not include automatically generating and correcting a registration coordinate system for matching virtual space.
  • the real space we live in is 3d space.
  • Using the interface for the existing 2d display in this real space has a limitation because the order of space is reduced by one.
  • 3d interface technology is required to deal with virtual digital content combined in 3d space.
  • the HMD with a camera provides the user with a first-person view, unlike displays in traditional desktop environments.
  • the hand is an object without a texture.
  • a feature-based object detection / tracking algorithm from color information cannot be applied to finger posture estimation.
  • the task of detecting / tracking a hand and estimating the posture of a finger based on a camera has a challenging condition.
  • the WearTrack system is a wearable system using a magnetic tracker and an HMD equipped with a posture estimation sensor.
  • Systems such as virtual touch screen systems, AR memo, and SixthSense are characterized by 2d interaction based on a 2d image coordinate system. However, this has the disadvantage of not interacting in 3d space because it is 2d based interaction.
  • Tinmith and FingARtips attach additional markers on the glove to estimate hand posture.
  • the size of the separate sensor is very large, it is not suitable for the wearable environment from the user's point of view.
  • a feature point based approach has also been developed. This is a method of estimating finger motion by recognizing a pattern through prior learning.
  • the system locks an RGB-D camera, such as Kinect, to face, and estimates the movement of a user's hand wearing a glove with a specific pattern.
  • RGB-D camera such as Kinect
  • the Digits system demonstrates fingertip tracking for wearable devices.
  • Time of Flight (TOF) depth sensor was worn on the wrist, and the setting was performed to prevent the finger from covering up. It uses simple carving technique to classify fingers and estimate finger posture using the relationship between finger joints.
  • TOF Time of Flight
  • this method has a disadvantage in that the sensor must be attached to an additional part such as the wrist in addition to the HMD.
  • the present invention estimates the finger posture of the bare hand, and aims to estimate the posture of the finger when the finger is bent toward the camera.
  • an object of the present invention is to provide a geometric recognition-based matching coordinate system correction method and apparatus for wearable augmented reality authoring that can automatically generate / correct the matching coordinate system for matching the virtual space based on the actual measurement.
  • a process of generating reference coordinates based on a three-dimensional image including depth information obtained through a camera, and a three-dimensional image including depth information obtained through the camera Dividing a region corresponding to the predetermined object based on depth information and color space transformation of a predetermined object, separating a sub-object having a motion component from the divided region object, and separating Modeling the sub-object and a palm area associated with the sub-object based on a predetermined algorithm to detect a feature point, and based on joint information of the object provided through a predetermined user interface.
  • Process of estimating posture and controlling 3D objects for using augmented reality service Characterized in that it comprises a.
  • a registration coordinate system correction unit for generating reference coordinates (Reference Coordinates) based on a three-dimensional image including depth information obtained through the camera, and a depth information obtained through the camera
  • An object separation unit for dividing a region corresponding to the predetermined object based on depth information and color space transformation of a predetermined object from a 3D image, and a sub-object having a motion component from the object of the divided region
  • An object processor which detects a feature point by modeling the separated sub-object and the palm region associated with the sub-object based on a predetermined algorithm, and skeleton information of the object provided through a predetermined user interface.
  • Augmented reality by estimating a posture of the sub-object based on And a controller for controlling the 3D object for using the service.
  • the matching coordinate system for matching the virtual space is automatically generated / corrected based on the actual measurement, so that the matching coordinate system can be automatically generated and corrected without a correction operation by the user.
  • the present invention can be used as an underlying technology required for authoring augmented reality content in various fields such as augmented reality-based art galleries / museums, classrooms, industries, interior design, etc., because the matching coordinate system can be automatically corrected.
  • FIG. 1 is a flowchart illustrating a method for providing augmented reality interaction service according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a screen to which a user's visual distance perception improvement method is applied when interacting with a bare hand in a head wearable display-based augmented reality environment according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating an operation of correcting a coordinate coordinate system in the augmented reality interaction service providing method according to an exemplary embodiment.
  • FIG. 4 is a detailed block diagram of an operation algorithm for estimating a hand posture in a method for providing augmented reality interaction service according to an exemplary embodiment of the present invention.
  • FIG. 5 is a view illustrating a screen related to visual feedback for improving depth perception in the augmented reality interaction service providing method according to an exemplary embodiment.
  • FIG. 6 is a view illustrating a screen related to a semi-transparent gray shadow and guideline in the augmented reality interaction service providing method according to an embodiment of the present invention.
  • FIG. 7 is a view illustrating a finger joint related position vector in the augmented reality interaction service providing method according to an exemplary embodiment of the present invention.
  • FIG. 8 is a diagram illustrating a screen for an overall operation to which a method for improving visual perception of a user is applied in the augmented reality interaction service providing method according to an exemplary embodiment.
  • FIG. 9 is a diagram illustrating a registration coordinate correction correction method in the augmented reality interaction service providing method according to an embodiment of the present invention.
  • 10 is an example of candidates of a matching coordinate system in 3D space in the method of providing augmented reality interaction service according to an embodiment of the present invention.
  • FIG. 11 is an example of setting a rotation axis of a registration coordinate system in the augmented reality interaction service providing method according to an embodiment of the present invention.
  • FIG. 12 is an example of a scale correction using a distance ratio between a SLAM-based registration coordinate system and a depth camera-based registration coordinate system in a method for providing augmented reality interaction service according to an embodiment of the present invention.
  • FIG. 13 is an example of a position correction in the augmented reality interaction service providing method according to an embodiment of the present invention.
  • FIG. 14 is a view illustrating a rotation correction in a method for providing augmented reality interaction service according to an embodiment of the present invention
  • 15 is a block diagram of an apparatus for providing augmented reality interaction service according to an exemplary embodiment.
  • 16 is a block diagram of a registration coordinate system correcting unit in the apparatus for providing augmented reality interaction services according to an embodiment of the present invention.
  • the present invention relates to providing an augmented reality interaction service, and more particularly, in authoring wearable augmented reality, based on a measurement coordinate system for matching a virtual space using information obtained by an RGB-D camera.
  • Depth information and color space of a predetermined object from a three-dimensional image including depth information for automatically generating / correcting and estimating the pose of the object for interaction with the virtual object in augmented reality.
  • a finger having a motion component and a palm region associated with the finger are modeled through a predetermined algorithm to detect a feature point, and based on the skeleton information of the object provided through a predetermined user interface.
  • 3D customer for using augmented reality service by estimating the posture of the sub object By controlling the user as well as to make available a variety of 3D content, to provide a technique that enables to provide an interface which effectively controls the object in three-dimensional space for the developer.
  • the present invention can automatically generate and correct the matching coordinate system for matching the virtual space on the basis of the actual measurement, it is possible to automatically generate and correct the matching coordinate system without the correction work by the user, furthermore augmented reality-based galleries / museums, classrooms To provide a foundation technology for authoring augmented reality content in various fields such as, industrial, interior design, etc.
  • FIG. 1 is a flowchart illustrating an augmented reality interaction service providing method according to an exemplary embodiment.
  • step 110 reference coordinates are generated based on a 3D image including depth information obtained through a camera.
  • step 110 is performed by analyzing the geometry of the real space using the depth image information photographed for the real space and generating a matching coordinate system for the real space.
  • a matching coordinate system for the real space E.g., Head Mounted Display
  • a coordinate-based coordinate coordinate system based on geometric recognition for augmented reality authoring which is a method for more robustly performing an object pose estimation for interaction with a virtual object in augmented reality described below. Interface supported by.
  • step 112 depth information and color space transformation of a predetermined object are performed from a three-dimensional image including depth information acquired through the camera, and based on this, the object corresponds to the preset object in step 114. Split the area.
  • the predetermined object refers to a hand object, and according to an embodiment of the present invention, the hand object is divided through an operation of steps 112 to 114 from an RGB image and a depth image.
  • the RGB color space is converted from the RGB image to the HSV color space, and the skin color space is saturated and saturated for robust skin region division. Obtained by performing a double threshold on the (value) element.
  • the distance from the depth image by the distance (arm distance) from the camera where the hand is attached to the HMD is set as a threshold.
  • the threshold is set to 60 cm, and the segmented depth image and the color image are aligned using a known calibration.
  • step 116 the sub-object having the motion component is separated from the object in the divided region, and in step 118, the sub-object and the palm region associated with the sub-object are modeled based on a predetermined algorithm to generate a feature point.
  • the feature point includes a finger reference point and an end point of the depth information-based hand, and the end point of the hand is extracted using template matching from a pre-modeled depth template.
  • This operation is performed since the palm and the finger must be separated from each other to estimate the posture of the finger corresponding to the sub-object from the image of the divided hand.
  • the hand image utilizes a mophological operation. Your fingers and palms are separated.
  • the morphological operation is a finger and palm are separated by using erosion and dilation
  • the erosion is an operation of eroding the image from the outside
  • the dilation is inflated in contrast to the erosion
  • the erosion is repeatedly performed, the area of the finger gradually disappears.
  • the palm area can be modeled by expanding the area of the palm by performing a dilation.
  • the center point of the palm is computed through a distance transform, and the calculated center point is the basis for the finger's reference point search.
  • the finger is modeled through the operation of step 116 with the palm, the finger is modeled by the elliptic fitting.
  • the smallest distance between the points of the modeled ellipse (finger) and the center point of the palm is estimated as the reference point of the finger. This makes it possible to find the reference point of the finger even when the finger is bent to some extent.
  • the end point of the hand is detected by using depth information, not only by detecting a fitted ellipse on 2d.
  • the present invention utilizes a known Zero-mean Normalized Cross Correlation (ZNCC) in an image processing application to extract an end point of a hand.
  • ZNCC Zero-mean Normalized Cross Correlation
  • an end point of a hand may be extracted using template matching from a depth-template previously modeled.
  • the red portion of the correlation map of FIG. 6 is the portion that most closely matches the depth template. This approach shows that the fingertip position can be detected even when the finger is bent.
  • the position of the detected fingertip and finger reference point is input to the inverse kinematics algorithm in a later module.
  • step 120 the posture of the sub-object is estimated based on joint information of the object provided through a predetermined user interface to control the 3D object for using augmented reality service.
  • Inverse kinematics is a parameter of joints when a reference coordinate system and an end point position are given. parameter) to estimate the base point obtained from the camera as the origin of the reference coordinate system and set the position of the fingertip to the end point.
  • the rotation matrix of joints is estimated by applying inverse kinematics. Since there are a total of four parameters for moving the finger, there are a total of four parameters to be estimated for each finger.
  • the inverse kinematics algorithm is an inverse-kinematics algorithm based on the damped least-square-method.
  • This algorithm estimates the amount that each joint should change using the difference between the target point (the position of the fingertip obtained from the camera) and the current point (the position of the fingertip of the current model).
  • is a parameter of the rotation matrix of the finger joint
  • is a damping ratio parameter
  • L1, L2, and L3 are the length of each node of the finger.
  • the 3D object is manipulated by the operation 120.
  • the virtual object manipulation according to the present invention is performed according to the posture of a finger which can be widely used by a user.
  • the posture of the finger being targeted here is a posture mapped from the number of fingers.
  • the tong-shaped hand posture determines the position of the globe. Then, as the operation of pinching and spreading five fingers, the size of the globe was manipulated. From this interaction, a user wearing an HMD with an RGB-D camera can obtain virtual digital information by adjusting the position and size of the virtual globe, which is an augmented virtual object.
  • FIG. 4 The operation algorithm for estimating the posture of the hand for the method of providing augmented reality interaction service according to an embodiment of the present invention described above is shown in FIG. Referring to FIG. 4, the block-specific operation of FIG. 4 is as follows.
  • the hand object is split from the RGB image and the depth image (401, 402).
  • the rgb color space is converted to the HSV color space for robust skin region division.
  • This skin color space is obtained by performing a double threshold on the S and V elements.
  • the hand sets the distance to the threshold (distance) from the camera attached to the HMD, and detects the outline.
  • the palm and the fingers must be separated to estimate the pose of the finger.
  • the hand image performs morphological operations (erosion, dilation) and further associates the subtraction with the dilation, resulting in the separation of the fingers and palms (palm imgae, finger image).
  • the palm image performs distance transform and center and radius extraction for palm center position operation.
  • Palm center position radius, finger position, direction and length
  • the method for providing augmented reality interaction service automatically corrects the attitude of the coordinate system through geometry recognition-based registration coordinate system correction in authoring augmented reality content, and through the flowchart of FIG. 3. Let's take a closer look.
  • FIG. 3 is a flowchart illustrating a method for correcting a geometry-based matched coordinate system in a method for providing augmented reality interaction service according to an exemplary embodiment of the present invention.
  • the method according to the present invention receives depth image information from a depth camera, for example, an RGB-D camera, and receives a region of interest set by a user input (S310 and S320).
  • a depth camera for example, an RGB-D camera
  • the depth image information is information captured and generated by the depth camera, and may include a captured image feature, a posture information of the camera, a distance map image based on depth information, a color, and the like. Can be received after being set by the user input used.
  • the geometry of the ROI is analyzed using the received depth image information, and the first matched coordinate system based on the geometry is generated using the analyzed geometry (S330 and S340).
  • step S330 may perform a geometric analysis for predicting a plane, a tangent, a tangent, an intersection point, etc. for the ROI received from the depth camera, and step S340 may perform a geometry analysis for the analyzed real space or the ROI. Through this, the coordinate system of the real space can be generated.
  • At least one of the plane, the tangent, the tangent, and the intersection point of the region of interest is predicted by analyzing the geometry of the region of interest, and the predicted plane, the tangent, the tangent, the intersection
  • the first registration coordinate system may be generated through at least one of the above, 2) the origin and the direction are calculated through the geometric analysis of the ROI, and the front, Define one of the side and the floor, and generate a first registration coordinate system by correcting the calculated direction sign to match the predetermined left hand coordinate system of the virtual space. It may be.
  • the second registration coordinate system based on the SLAM is corrected using the generated first registration coordinate system based on the geometry, and then the most 3D object is created based on the corrected second registration coordinate system ( S350, S360).
  • the second matching coordinate system may be corrected based on the actual measurement using the distance ratio calculation of the depth camera generating the distance image information and the distance of the SLAM-based camera.
  • the origin position is used to create matching coordinates under various shape conditions having one side, two sides, and three sides. Calculate the direction and.
  • a user uses a mobile input device to determine the center location of an ROI from an RGB-D camera.
  • a radial circular cursor of 50 pixels that controls the area of the depth map image based on the determined center position of the ROI is controlled.
  • the 3D point group is reconstructed in the depth map and a local reference coordinate system, i.e., a first registration coordinate system, is generated.
  • the planes are predicted from a 3D point cloud of the region of interest.
  • the plane estimation may be defined as an optimization problem for predicting the variables a, b, c, and d of the normal vectors constituting the plane equation, as shown in Equation 3 below, random sample consensus (RANSAC) ) Can be estimated through the algorithm.
  • RANSAC random sample consensus
  • the method of determining the three degrees of freedom position in the local reference coordinate is to calculate the 3D coordinates on the intersection line close to the point v o selected by the user in the user's selection area.
  • a point (v *) that minimizes the distance between v o and v i , a point in the 3D point group, is set as the reference position of the coordinate system.
  • This equation is derived by the expansion of the Lagrange Multipliers, and the matrix value is calculated through QR decomposition.
  • the rotation of the coordinate system is used to determine two normal vectors from the predicted planes, eg, the vertical and ground planes, to determine the direction of the coordinate system, eg, the vertical and bottom planes.
  • the direction vector of the crossing line may be set by the cross product of the normal vector, and may be represented by Equation 6 below.
  • Equation 7 Equation 7
  • the least square solution based on the SVD decomposition which is an optimization technique, can be used to calculate the intersection point from the pseudo matrix, and the rotation can be set through the normal vectors of three planes.
  • the directions of the x, y, and z axes are not known exactly because the order and sign of the predicted normal vector may be changed.
  • the order of the normal vectors follows the number of point groups. This is important for graphical rendering in a left hand or right hand based rendering system.
  • the rotation of the coordinate system is aligned in consideration of the rotation information of the RGB-D camera.
  • the normal vector having the minimum angle difference with respect to the direction vector of each camera is found.
  • the normal vector determines the direction vector of the camera. For example, if the i th normal vector N i has a minimum angle difference from the forward camera vector C Front , N i may be set to the z axis.
  • other normal vectors can be defined by the x and y axes, and can correct the direction sign of the coordinates. That is, the direction vector of the camera may be determined by Equation 8 below.
  • C Side and C Ground mean a lateral camera vector and a bottom camera vector.
  • the rotation axis of the registration coordinate system may be set.
  • the scale in order to align the SLAM-based initial local reference coordinates to the depth camera coordinate system-based local reference coordinate system, the scale must be taken into account, and the size of the virtual model may be arbitrarily determined in the SLAM initialization.
  • the distance from the origin coordinate of the SLAM-based coordinate system to the RGB camera is calculated. This is the position vector size of the RGB camera pose matrix and may be expressed in virtual scale units.
  • the scale ratio ⁇ is calculated, and through this process, the scale unit in reality can be applied to augment the virtual object in the SLAM-based virtual reality space as shown in Equation 8. . Therefore, the present invention does not require manual scale correction, and the scale correction is automatically performed.
  • the scale of the SLAM coordinate system is corrected in consideration of the ratio between the scale of the SLAM coordinate system and the scale in reality.
  • Equation 11 the offset shift matrix T P may be utilized to move the RT CtoW to the RT Refine_trans , as shown in FIG. 13. It may be represented by Equation 12 below.
  • RT CtoW refers to a matrix for converting a camera coordinate system into a virtual space coordinate system in a SLAM-based virtual space
  • RT Refine_trans means a corrected local reference coordinate system
  • the virtual object may be augmented based on the coordinate system aligned on the real space scale.
  • Equation 13 the rotation of the current local coordinate system (R Curr ) relative to the rotation (R Init ) of the initial local coordinate system Compute the difference matrix (R Diff ).
  • the calculated difference matrix R Diff may be reflected to correct the RT Refine_trans , which may be reflected as in Equation 13 below.
  • the method of correcting Refine_trans RT taken from the depth estimation coordinate system in order to correct the rotation by reflecting, geometry multiplies the R -1 Curr to RT Refine_trans to offset the current camera rotation R Multiply Depth
  • rotation correction may be performed by multiplying a difference matrix R Diff to reflect camera rotation tracking information relative to initial camera rotation.
  • the present invention uses an RGB-D camera for real-time modeling of an arbitrary space that has not been previously modeled and analyzes a geometric structure, and automatically generates a matching coordinate system based on the actual measurement for wearable augmented reality authoring. This allows the user to easily and precisely augmented reality authoring without additional work on the registration coordinate correction.
  • FIGS. 15 to 16 An apparatus for providing augmented reality interaction service according to an exemplary embodiment of the present invention will be described with reference to FIGS. 15 to 16.
  • 15 is a block diagram of an apparatus for augmented reality interaction service according to an exemplary embodiment.
  • a registration coordinate system corrector 152 an object separator 154, a controller 156, and an object processor 158 are included.
  • the registration coordinate system corrector 152 generates reference coordinates based on a 3D image including depth information obtained through a camera.
  • the object separator 154 may be configured based on the depth information and the color space transformation of a predetermined object from a three-dimensional image including depth information obtained through a camera under the control of the controller 156. Splits the area corresponding to the object.
  • the object separating unit 154 converts the RGB color space of the hand image area corresponding to the predetermined object from the RGB image to the HSV color space for the area corresponding to the predetermined object, and converts the converted HSV color. Segmentation is performed based on the skin color space obtained by performing a double threshold on saturation and value in space.
  • the object separator 154 sets a distance corresponding to the distance between the hand and the camera from a depth image as a threshold value, and corresponds to a result of depth segmentation and RGB segmentation obtained from each image. Based on the intersection, segmentation of the hands is performed.
  • the object processor 158 separates a sub object having a motion component from an object of a region divided by the object separator 154 under the control of the controller 156, and is connected to the separated sub object and the sub object.
  • the palm region is modeled based on a predetermined algorithm to detect feature points.
  • the object processing unit 158 corresponds to a palm area associated with the sub object by using a morphological operation to estimate a posture of a finger corresponding to the sub object from the hand image corresponding to the object.
  • the palm region modeling is performed by separating a palm and a finger.
  • the controller 156 controls the overall operation of the apparatus for providing augmented reality interaction service 150 and estimates a posture of the sub-object based on skeleton information of an object provided through a predetermined user interface to use the augmented reality service. Control 3D objects for
  • the matched coordinate system corrector includes a receiver 160, a generator 162, an enhancer 164, an analyzer 166, and a corrector 168.
  • the receiver 160 receives depth image information from a depth camera or receives or is set or input by a user input.
  • the receiver 160 is a depth from a depth camera, for example, an RGB-D (depth) camera, attached to a glasses display device, such as a head worm display (HWD) worn on a user's head.
  • Depth images may be received, and a region of interest (ROI) in a real space set through a user input may be received.
  • the ROI may be set by user input using a mobile input device.
  • Depth image information is information captured and generated by the depth camera, and may include a photographed image feature, a posture information of the camera, a distance map image based on depth information, and color.
  • the analyzer 166 analyzes the geometry of the real space or the ROI by using the depth image information received by the receiver 160.
  • the analyzer 166 may perform a geometrical analysis for predicting a plane, a tangent, a tangent, an intersection point, and the like, of the ROI received from the depth camera.
  • the generator 162 generates a matched coordinate system for the real space through the geometric structure analysis of the real space or the ROI analyzed by the analyzer 166.
  • the generation unit 162 predicts at least one of the plane, the tangent, the tangent, and the intersection of the ROI through the geometrical analysis of the ROI, and generates the first through the at least one of the predicted plane, the tangent, the tangent, the intersection. You can create a registration coordinate system.
  • the generation unit 162 calculates the origin and direction through the geometry analysis of the ROI, and defines any one of the front, side, and bottom of the predicted plane in consideration of the relationship with the pose of the depth camera.
  • the first registration coordinate system may be generated by correcting the direction code calculated to match the predetermined left hand coordinate system of the virtual space.
  • the corrector 168 measures based on a matched coordinate system generated in advance, for example, a second matched coordinate system to match the virtual space using the matched coordinate system for the real space or the ROI generated by the generator 162. Correct with
  • the second registration coordinate system may be a registration coordinate system generated from a SLAM (Simultaneous Localization and Mapping) algorithm, and the correction unit 168 uses the distance ratio calculation of the depth camera generating the distance and depth image information of the SLAM-based camera.
  • the second registration coordinate system can be corrected based on the measured basis.
  • the augmentation unit 164 is configured to augment the virtual object based on the corrected matching coordinate system, and augment the virtual object to place the augmented virtual object in the space.
  • the augmentation unit 164 may arrange the virtual object in the space by using a user input through the mobile input device.
  • the apparatus acquires depth image information using the RGB-D camera shown in FIG. 9A, and points a place where the user positions the coordinate system using the mobile input device in an interactive manner using a mobile input device.
  • Select clouds As shown in FIG. 9B, a geometric analysis is performed on a region selected by a user, that is, a region of interest, from a distance map image included in the depth image information to predict a plane, a tangent, a tangent, an intersection point, and the like. Create a registration coordinate system for augmented reality space.
  • the origin and direction are calculated by predicting intersections, tangents, and the like through a predetermined optimization method.
  • the origin and direction are calculated by predicting intersections, tangents, and the like through a predetermined optimization method.
  • the initial registration coordinate system generated from the Simulaneous Localization and Mapping (SLAM) algorithm that is, the second registration coordinate system described above, is corrected with the previously calculated registration coordinate system, and then a camera posture is obtained to obtain a virtual image. Augment objects in real space.
  • the distance ratio of the distance unit based on the depth camera and the distance unit of the SLAM-based camera based on the initial matching coordinate system Calculate
  • the virtual object when the distance ratio is applied when augmenting the virtual object, as illustrated in FIG. 9D, the virtual object may be augmented based on the registration coordinate system by reflecting the unit scale of the real space. For example, the user may arrange the virtual object in space using the mobile input device based on the corrected coordinate system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

The present invention comprises the steps of: generating reference coordinates on the basis of a three-dimensional image including depth information acquired through a camera; dividing an area corresponding to a preconfigured object on the basis of depth information and a color space conversion of the preconfigured object from a three-dimensional image including the depth information acquired through the camera; separating a sub-object having a motion component from an object of the divided area and modeling the separated sub-object and a palm area connected to the sub-object on the basis of a preconfigured algorithm to detect a feature point; and controlling a three-dimensional object for using an augmented reality interaction service by estimating a posture of the sub-object on the basis of joint information of an object provided through a predetermined user interface.

Description

증강현실 상호 작용 서비스 제공 장치 및 방법Apparatus and method for providing augmented reality interaction service
본 발명은 착용형 증강현실 저작을 위한 RGB-D 카메라를 활용한 기하 인식 기반 정합 좌표계 보정을 기반으로 RGB-D 카메라가 부착된 HMD 기반 웨어러블 환경에서의 증강된 가상객체와의 손 상호작용을 지원하는 기술에 관한 것이다.The present invention supports hand interaction with augmented virtual objects in an HMD-based wearable environment equipped with an RGB-D camera based on geometric-based registration coordinate correction using an RGB-D camera for wearable augmented reality authoring. It is about technology to do.
사전에 모델링되어 있지 않은 현실 공간을 대상으로 증강현실 공간을 만들기 위해서는 사용자가 카메라를 이용하여 현실 공간에 대한 영상 특징-카메라 자세 정보들을 획득하고, 국소 참조 좌표계(Local reference coordinates)(또는 정합 좌표계)를 생성한 후, 이를 기준으로 가상공간의 좌표계를 정합해야 한다. 그런데 정합 좌표계가 임의 위치에 생성되기 때문에 사용자가 수동으로 좌표계의 자세를 보정하는 과정이 필요하다.In order to create an augmented reality space for a real space that is not pre-modeled, a user uses a camera to acquire image feature-camera pose information about the real space, and obtain local reference coordinates (or matched coordinates). After generating, you need to match the coordinate system of the virtual space based on this. However, since the matching coordinate system is generated at an arbitrary position, a process of manually correcting the attitude of the coordinate system is necessary.
또한 현실 공간과 증강 현실 공간 간의 스케일을 정확하게 일치시키는 보정 과정을 통해 현실 공간의 단위 예를 들어, 미터(m)로 모델링한 3차원 가상 객체를 증강현실 공간에 정확하게 증강시킬 수 있다.In addition, a three-dimensional virtual object modeled in units of the real space, for example, meters (m), may be augmented accurately in the augmented reality space through a correction process that accurately matches the scale between the real space and the augmented reality space.
기존의 정합 방법의 일 실시예로, GPS/나침반 센서 기반 정합 방법은 센서 정보의 오차로 인해 정합의 정밀도가 매우 낮은 문제점이 있으며, 2D 객체 기반 정합 방법은 사전에 학습된 이미지가 필요하며, 정합 대상이 단순한 형태의 2차원 평면에 국한되기 때문에 임의의 3차원 공간 정합에 적합하지 않은 단점이 있다.In one embodiment of the conventional matching method, the GPS / compass sensor-based matching method has a problem that the accuracy of matching is very low due to an error of sensor information, and the 2D object-based matching method requires a pre-learned image. There is a disadvantage that the object is not suitable for any three-dimensional space registration because the object is limited to a simple two-dimensional plane.
3D 공간 기반 정합은 임의의 위치에 증강을 위한 정합 좌표계가 생성되기 때문에 사용자에 의해서 수동으로 좌표계 자세를 보정하는 과정이 필요하며, 이러한 보정을 수행하기 위해서 사용자는 컴퓨터 비전/그래픽스 등과 관련된 전문적인 지식이 필요하고, 사용자가 부정확하게 입력한 경우 부정확한 입력으로 인하여 정합의 오차가 발생 할 수도 있다.Since 3D space-based registration generates a registration coordinate system for augmentation at an arbitrary position, it is necessary to manually correct the coordinate system attitude by the user, and in order to perform such correction, the user has expertise in computer vision / graphics, etc. If this is necessary and the user inputs incorrectly, an error of matching may occur due to incorrect input.
또한, 종래 증강현실 시스템에 대한 일 예로, 한국등록특허공보 제10-0980202호는 3차원 가상물체와 인터랙션이 가능한 모바일 증강현실 시스템 및 방법에 대한 것으로, 단말기에 부착된 카메라, 상기 단말기의 카메라를 이용하여 손 위에 3차원 가상물체를 생성하는 영상 처리부, 상기 3차원 가상물체 및 상기 손의 영상을 출력하는 디스플레이부 및 상기 손의 움직임에 대응하여 상기 3차원 가상물체를 제어하는 인터랙션부를 포함함으로써, 사용자가 언제 어디서나 모바일 장치를 이용하여 3차원 가상 콘텐츠에 접근할 수 있다. 이와 같이, 해당 기술은 모바일 장치를 이용하여 3차원 가상 콘텐츠로의 접근에 대한 기술로, 가상 공간을 정합하기 위한 정합 좌표계를 자동적으로 생성하고 보정하는 내용을 포함하고 있지 않다.In addition, as an example of a conventional augmented reality system, Korean Patent Publication No. 10-0980202 relates to a mobile augmented reality system and method that can interact with a three-dimensional virtual object, the camera attached to the terminal, the camera of the terminal By using the image processing unit for generating a three-dimensional virtual object on the hand, the display unit for outputting the image of the three-dimensional virtual object and the hand and the interaction unit for controlling the three-dimensional virtual object in response to the movement of the hand, Users can access 3D virtual content anytime, anywhere using a mobile device. As described above, the technology is a technique for accessing 3D virtual content using a mobile device, and does not include automatically generating and correcting a registration coordinate system for matching virtual space.
따라서, 가상 공간을 정합하기 위한 정합 좌표계를 자동적으로 생성하고 보정할 수 있는 방법의 필요성이 대두된다.Thus, there is a need for a method that can automatically generate and correct a registration coordinate system for matching virtual space.
한편, 오늘날 디지털 기술과 문화예술을 융합한, 실감형 콘텐츠와 상호작용 기술에 대한 연구는 많은 주목을 받고 있다. 특히, 컴퓨터 그래픽, 컴퓨터 비전 등의 기술을 기반으로 한 증강현실 기술이 발전함에 따라 현실세계에 가상의 디지털 콘텐츠를 결합하려는 시도들이 행해지고 있다. 또한, 카메라와 HMD가 경량화, 소형화됨에 따라, 웨어러블 컴퓨팅 기술이 가속화되고 있다. 현재 연구되고 있는 많은 사용자 인터페이스 기술들 중에, 손은 웨어러블 컴퓨팅 기술을 위한 자연스러운 기술로 주목을 받고 있다.On the other hand, research on immersive content and interaction technology, which combines digital technology and cultural art, is receiving much attention. In particular, with the development of augmented reality technology based on technologies such as computer graphics and computer vision, attempts have been made to combine virtual digital content into the real world. Also, as cameras and HMDs become lighter and smaller, wearable computing technologies are accelerating. Among the many user interface technologies currently being studied, the hand is attracting attention as a natural technology for wearable computing technology.
기존에는 사용자가 관심 있어 하는 객체,공간,상황에 대해서 디지털 정보를 얻기 위한 다양한 인터페이스 기술들이 존재한다. 이러한 인터페이스를 위한 장치로는 마우스,키보드,리모컨 등과 같이 데스크탑 기반 인터페이스가 있다. 이 인터페이스 기술은 2d 스크린상에 보여지는 디지털 기술들을 다루는데에 이용될 수 있다. 하지만 이것은 2D 디스플레이를 목적으로 두고 하기 때문에, 공간적인 측면에서 제한적이다. Conventionally, various interface technologies exist for obtaining digital information about objects, spaces, and situations of interest to users. Devices for such interfaces include desktop-based interfaces such as mice, keyboards, and remote controls. This interface technology can be used to handle the digital technologies shown on the 2d screen. However, this is limited in terms of space since it is intended for 2D display.
우리가 살고 있는 현실공간은 3d 공간이다. 이 현실 공간에서 기존의 2d 디스플레이를 위한 인터페이스를 사용하게 되면, 공간에 대한 차수가 1개가 줄어들었기 때문에, 제한을 가지고 있다.The real space we live in is 3d space. Using the interface for the existing 2d display in this real space has a limitation because the order of space is reduced by one.
따라서, 3d 공간에 결합된 가상의 디지털 콘텐츠를 다루기 위해서는 3d 인터페이스 기술이 필요한 실정이다.Therefore, 3d interface technology is required to deal with virtual digital content combined in 3d space.
카메라가 부착된 HMD는 기존의 데스크탑 환경의 디스플레이와는 달리 사용자에게 1인칭 시점과 같은 환경을 제공한다. The HMD with a camera provides the user with a first-person view, unlike displays in traditional desktop environments.
그런데, 이러한 카메라 환경에서, 맨손의 손가락 자세를 추정하는 연구는 다음과 같은 문제를 가지고 있다.However, in such a camera environment, the study of estimating the finger posture of the bare hand has the following problems.
첫번째로는, 손은 26개의 고 차원의 파라메터를 지니고 있는 객체이다( 손바닥: 6DOF, 5개의 손가락: 45= 20DOF). 이 높은 차원을 가지고 있는 손가락의 자세를 추정하기 위해서는 큰 계산량을 필요로 한다. First, the hand is an object with 26 high-dimensional parameters (palm: 6DOF, 5 fingers: 45 = 20DOF). Estimating the posture of a finger with this high dimension requires a large amount of computation.
두번째로는, 손은 텍스쳐가 존재하지 않는 객체이다. 이것은 컬러 정보로부터 특징점 기반의 객체 검출/추적 알고리즘이 손가락 자세 추정에 적용될 수 없다는 것을 의미한다. 이와 같이 카메라 기반으로 손을 검출/추적하고 손가락의 자세를 추정하는 작업은 도전적인 조건을 가지고 있다.Secondly, the hand is an object without a texture. This means that a feature-based object detection / tracking algorithm from color information cannot be applied to finger posture estimation. As described above, the task of detecting / tracking a hand and estimating the posture of a finger based on a camera has a challenging condition.
웨어트랙(WearTrack) 시스템은 자세 추정이 가능한 센서가 부착된 HMD와 별도의 마그네틱 트래커를 이용한 웨어러블 시스템이다. 가상터치 스크린 시스템, AR memo, SixthSense과 같은 시스템은 2d 이미지 좌표계를 기반으로 2d 상호작용을 하는 특징을 가진다. 하지만 이것은 2d 기반의 상호작용을 하기 때문에, 3d 공간에서 상호작용을 하지 못한다는 단점을 가지고 있다. The WearTrack system is a wearable system using a magnetic tracker and an HMD equipped with a posture estimation sensor. Systems such as virtual touch screen systems, AR memo, and SixthSense are characterized by 2d interaction based on a 2d image coordinate system. However, this has the disadvantage of not interacting in 3d space because it is 2d based interaction.
Tinmith과 FingARtips은 장갑위에 추가적인 마커를 부착하여 손의 자세를 추정한다. 그러나 별도의 센서의 크기가 매우 커서, 사용자 입장에서 볼때, 웨어러블 환경에는 적합하지 않다는 단점이 있다.Tinmith and FingARtips attach additional markers on the glove to estimate hand posture. However, since the size of the separate sensor is very large, it is not suitable for the wearable environment from the user's point of view.
특징점 기반의 접근방법 또한 개발되었다. 이것은 사전학습을 통하여 패턴을 인식함으로써 손가락의 동작을 추정하는 방식이다. 이 시스템은 키넥트와 같은 RGB-D 카메라를 손을 바라보도록 고정을 시키고, 특정한 패턴을 가지고 있는 장갑을 착용한 사용자의 손의 움직임을 추정한다. 사용자의 손가락 자세를 인식하기 위해서 부가적인 장갑이 필요하다는 단점이 있다. A feature point based approach has also been developed. This is a method of estimating finger motion by recognizing a pattern through prior learning. The system locks an RGB-D camera, such as Kinect, to face, and estimates the movement of a user's hand wearing a glove with a specific pattern. There is a disadvantage that an additional glove is required to recognize a user's finger posture.
Digits 시스템은 웨어러블 디바이스에 적합한 손끝 추적 방식을 보여준다. Time of Flight(TOF) 방식의 depth 센서를 손목에 착용하여, 손가락의 자가 가림 현상이 나타나지 않도록 셋팅을 하였다. 이것은 carving 기법을 이용하여, 간단하게 손가락을 분류하고, 손가락 관절 간의 관계를 이용하여 손가락의 자세를 추정하였다. 하지만 이 방식은, HMD외에 손목과 같은 추가적인 부위에 센서를 부착해야 한다는 단점이 있다.The Digits system demonstrates fingertip tracking for wearable devices. Time of Flight (TOF) depth sensor was worn on the wrist, and the setting was performed to prevent the finger from covering up. It uses simple carving technique to classify fingers and estimate finger posture using the relationship between finger joints. However, this method has a disadvantage in that the sensor must be attached to an additional part such as the wrist in addition to the HMD.
따라서 본 발명은 이와 같은 문제를 해결하기 위해 맨손의 손가락 자세를 추정하는 것으로, 손가락이 카메라측으로 굽는 경우 손가락의 자세를 추정하는 것을 목적으로 한다.Therefore, in order to solve such a problem, the present invention estimates the finger posture of the bare hand, and aims to estimate the posture of the finger when the finger is bent toward the camera.
또한, 본 발명은 가상공간을 정합하기 위한 정합 좌표계를 실측기반으로 자동적으로 생성/보정할 수 있는 착용형 증강현실 저작을 위한 기하 인식 기반 정합 좌표계 보정 방법 및 그 장치를 제공하는 것을 목적으로 한다.In addition, an object of the present invention is to provide a geometric recognition-based matching coordinate system correction method and apparatus for wearable augmented reality authoring that can automatically generate / correct the matching coordinate system for matching the virtual space based on the actual measurement.
본 발명의 일 견지에 따르면, 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 레퍼런스 좌표계(Reference Coordinates)를 생성하는 과정과, 상기 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 이미지로부터 기설정된 오브젝트의 깊이 정보와 색공간(color space) 변환을 기반으로 상기 기설정된 오브젝트에 대응하는 영역을 분할하는 과정과, 분할된 영역의 오브젝트로부터 모션 성분을 가지는 서브 오브젝트를 분리하고, 분리된 상기 서브 오브젝트 및 상기 서브 오브젝트에 연계된 팜(palm) 영역을 기설정된 알고리즘을 기반으로 모델링하여 특징점을 검출하는 과정과, 소정의 유저 인터페이스를 통해 제공되는 오브젝트의 관절 정보를 기반으로 상기 서브 오브젝트의 자세를 추정하여 증강현실 서비스 이용을 위한 3D객체를 제어하는 과정을 포함함을 특징으로 한다.According to an aspect of the present invention, a process of generating reference coordinates based on a three-dimensional image including depth information obtained through a camera, and a three-dimensional image including depth information obtained through the camera. Dividing a region corresponding to the predetermined object based on depth information and color space transformation of a predetermined object, separating a sub-object having a motion component from the divided region object, and separating Modeling the sub-object and a palm area associated with the sub-object based on a predetermined algorithm to detect a feature point, and based on joint information of the object provided through a predetermined user interface. Process of estimating posture and controlling 3D objects for using augmented reality service Characterized in that it comprises a.
본 발명의 다른 견지에 따르면, 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 레퍼런스 좌표계(Reference Coordinates)를 생성하는 정합 좌표계 보정부와, 상기 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 이미지로부터 기설정된 오브젝트의 깊이 정보와 색공간(color space) 변환을 기반으로 상기 기설정된 오브젝트에 대응하는 영역을 분할하는 오브젝트 분리부와, 분할된 영역의 오브젝트로부터 모션 성분을 가지는 서브 오브젝트를 분리하고, 분리된 상기 서브 오브젝트 및 상기 서브 오브젝트에 연계된 팜(palm) 영역을 기설정된 알고리즘을 기반으로 모델링하여 특징점을 검출하는 오브젝트 처리부와, 소정의 유저 인터페이스를 통해 제공되는 오브젝트의 골격 정보를 기반으로 상기 서브 오브젝트의 자세를 추정하여 증강현실 서비스 이용을 위한 3D객체를 제어하는 제어부를 포함함을 특징으로 한다.According to another aspect of the present invention, a registration coordinate system correction unit for generating reference coordinates (Reference Coordinates) based on a three-dimensional image including depth information obtained through the camera, and a depth information obtained through the camera An object separation unit for dividing a region corresponding to the predetermined object based on depth information and color space transformation of a predetermined object from a 3D image, and a sub-object having a motion component from the object of the divided region An object processor which detects a feature point by modeling the separated sub-object and the palm region associated with the sub-object based on a predetermined algorithm, and skeleton information of the object provided through a predetermined user interface. Augmented reality by estimating a posture of the sub-object based on And a controller for controlling the 3D object for using the service.
본 발명은 손가락 간의 가림이 없고, 손끝 또한 카메라로부터 항상 보이는 포즈가 되기 때문에, 큰 자가 가림이 일어나지 않으므로 고 자유도의 복잡성을 가진 손가락의 자세를 실시간으로 추정 가능한 효과가 있다.In the present invention, since there is no occlusion between the fingers and the fingertips are always visible from the camera, a large self occlusion does not occur, and thus the posture of a finger having a high degree of complexity may be estimated in real time.
또한, 본 발명에 따르면, 가상공간을 정합하기 위한 정합 좌표계를 실측기반으로 자동적으로 생성/보정함으로써, 사용자에 의한 보정 작업 없이도 정합 좌표계를 자동적으로 생성 및 보정할 수 있다.In addition, according to the present invention, the matching coordinate system for matching the virtual space is automatically generated / corrected based on the actual measurement, so that the matching coordinate system can be automatically generated and corrected without a correction operation by the user.
이와 같이, 본 발명은 정합 좌표계를 자동적으로 보정할 수 있기 때문에 증강현실 기반 미술관/박물관, 교실, 산업체, 실내 디자인 등 다양한 분야에서 증강현실 콘텐츠를 저작하는데 필요한 기반기술로서 사용될 수 있다.As described above, the present invention can be used as an underlying technology required for authoring augmented reality content in various fields such as augmented reality-based art galleries / museums, classrooms, industries, interior design, etc., because the matching coordinate system can be automatically corrected.
도 1은 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 관한 전체 흐름도이다.1 is a flowchart illustrating a method for providing augmented reality interaction service according to an embodiment of the present invention.
도 2는 본 발명의 일 실시 예에 따른 머리 착용형 디스플레이 기반 증강현실 환경에서 맨 손 상호작용 시 사용자의 시각적 거리 인지 향상 방법이 적용된 화면 예시도.FIG. 2 is a diagram illustrating a screen to which a user's visual distance perception improvement method is applied when interacting with a bare hand in a head wearable display-based augmented reality environment according to an embodiment of the present invention.
도 3은 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, 정합 좌표계 보정 방법에 대한 동작 흐름도.3 is a flowchart illustrating an operation of correcting a coordinate coordinate system in the augmented reality interaction service providing method according to an exemplary embodiment.
도 4는 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, 손의 자세를 추정하는 동작 알고리즘을 블록화한 상세 블록도.4 is a detailed block diagram of an operation algorithm for estimating a hand posture in a method for providing augmented reality interaction service according to an exemplary embodiment of the present invention.
도 5는 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, 깊이 인지 향상을 위한 시각적 피드백 관련 화면 예시도.5 is a view illustrating a screen related to visual feedback for improving depth perception in the augmented reality interaction service providing method according to an exemplary embodiment.
도 6은 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, 반투명 회색 그림자 및 가이드 라인 관련 화면 예시도.6 is a view illustrating a screen related to a semi-transparent gray shadow and guideline in the augmented reality interaction service providing method according to an embodiment of the present invention.
도 7은 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, 손가락 관절 관련 위치 벡터 관련 예시도.7 is a view illustrating a finger joint related position vector in the augmented reality interaction service providing method according to an exemplary embodiment of the present invention.
도 8은 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, 사용자의 시각적 거리 인지 향상 방법이 적용된 전체 동작에 관한 화면 예시도.8 is a diagram illustrating a screen for an overall operation to which a method for improving visual perception of a user is applied in the augmented reality interaction service providing method according to an exemplary embodiment.
도 9는 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, 정합 좌표계 보정 관련 예시도.9 is a diagram illustrating a registration coordinate correction correction method in the augmented reality interaction service providing method according to an embodiment of the present invention.
도 10은 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, 3D 공간에서의 정합 좌표계의 후보들에 대한 일 예.10 is an example of candidates of a matching coordinate system in 3D space in the method of providing augmented reality interaction service according to an embodiment of the present invention.
도 11은 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, 정합 좌표계의 회전축 설정에 대한 일 예.11 is an example of setting a rotation axis of a registration coordinate system in the augmented reality interaction service providing method according to an embodiment of the present invention.
도 12는 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, SLAM 기반의 정합 좌표계와 깊이 카메라 기반의 정합 좌표계 사이의 거리 비율을 이용한 스케일 보정에 대한 일 예.12 is an example of a scale correction using a distance ratio between a SLAM-based registration coordinate system and a depth camera-based registration coordinate system in a method for providing augmented reality interaction service according to an embodiment of the present invention.
도 13은 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, 위치 보정에 대한 일 예.13 is an example of a position correction in the augmented reality interaction service providing method according to an embodiment of the present invention.
도 14는 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, 회전 보정에 대한 일 예14 is a view illustrating a rotation correction in a method for providing augmented reality interaction service according to an embodiment of the present invention;
도 15는 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 장치에 관한 블록도.15 is a block diagram of an apparatus for providing augmented reality interaction service according to an exemplary embodiment.
도 16은 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 장치에서 정합 좌표계 보정부에 관한 블록도.16 is a block diagram of a registration coordinate system correcting unit in the apparatus for providing augmented reality interaction services according to an embodiment of the present invention.
이하 본 발명에 따른 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 하기 설명에서는 구체적인 구성 소자 등과 같은 특정 사항들이 나타나고 있는데 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들이 본 발명의 범위 내에서 소정의 변형이나 혹은 변경이 이루어질 수 있음은 이 기술 분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following description, specific details such as specific components are shown, which are provided to help a more general understanding of the present invention, and the specific details may be changed or changed within the scope of the present invention. It is self-evident to those of ordinary knowledge in Esau.
본 발명은 증강현실 상호 작용 서비스 제공에 관한 것으로, 더욱 상세하게는 착용형 증강현실을 저작하는데 있어서, RGB-D 카메라에 의해 획득된 정보를 이용하여 가상공간을 정합하기 위한 정합 좌표계를 실측기반으로 자동적으로 생성/보정하고, 이를 기반으로 증강현실에서의 가상 객체와의 상호작용을 위한 오브젝트의 자세 추정을 위해 깊이 정보를 포함하는 3차원 이미지로부터 기설정된 오브젝트의 깊이 정보와 색공간(color space) 변환을 기반으로 손 객체를 분할한 후 기설정된 알고리즘을 통해 모션 성분을 가지는 손가락 및 상기 손가락에 연계된 손바닥 영역을 모델링하여 특징점을 검출하고, 소정의 유저 인터페이스를 통해 제공되는 오브젝트의 골격 정보를 기반으로 상기 서브 오브젝트의 자세를 추정하여 증강현실 서비스 이용을 위한 3D객체를 제어함으로써 사용자에게 다양한 3D 콘텐츠를 이용 가능하게 할 뿐만 아니라, 개발자에게 3차원 공간 안의 객체를 효과적으로 제어하는 인터페이스를 제공할 수 있도록 하는 기술을 제공하고자 한다.The present invention relates to providing an augmented reality interaction service, and more particularly, in authoring wearable augmented reality, based on a measurement coordinate system for matching a virtual space using information obtained by an RGB-D camera. Depth information and color space of a predetermined object from a three-dimensional image including depth information for automatically generating / correcting and estimating the pose of the object for interaction with the virtual object in augmented reality. After dividing the hand object based on the transformation, a finger having a motion component and a palm region associated with the finger are modeled through a predetermined algorithm to detect a feature point, and based on the skeleton information of the object provided through a predetermined user interface. 3D customer for using augmented reality service by estimating the posture of the sub object By controlling the user as well as to make available a variety of 3D content, to provide a technique that enables to provide an interface which effectively controls the object in three-dimensional space for the developer.
또한, 본 발명은 가상 공간을 정합하기 위한 정합 좌표계를 실측 기반으로 자동적으로 생성/보정함으로써, 사용자에 의한 보정 작업 없이도 정합 좌표계를 자동적으로 생성 및 보정 가능하며, 나아가 증강현실 기반 미술관/박물관, 교실, 산업체, 실내 디자인 등 다양한 분야에서 증강현실 콘텐츠를 저작하는데 필요한 기반 기술을 제공하고자 한다.In addition, the present invention can automatically generate and correct the matching coordinate system for matching the virtual space on the basis of the actual measurement, it is possible to automatically generate and correct the matching coordinate system without the correction work by the user, furthermore augmented reality-based galleries / museums, classrooms To provide a foundation technology for authoring augmented reality content in various fields such as, industrial, interior design, etc.
이하, 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 대해 도 1 내지 도 8을 참조하여 자세히 살펴보기로 한다.Hereinafter, a method for providing augmented reality interaction service according to an exemplary embodiment of the present invention will be described in detail with reference to FIGS. 1 to 8.
우선, 도 1은 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 관한 전체 흐름도이다.First, FIG. 1 is a flowchart illustrating an augmented reality interaction service providing method according to an exemplary embodiment.
도 1을 참조하면, 먼저 110 과정에서는 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 레퍼런스 좌표계(Reference Coordinates)를 생성한다. Referring to FIG. 1, in step 110, reference coordinates are generated based on a 3D image including depth information obtained through a camera.
이러한 110 과정의 동작은 현실 공간에 대해 촬영된 깊이 영상 정보를 이용하여 상기 현실 공간에 대한 기하 구조를 분석하여 상기 현실 공간에 대한 정합 좌표계 생성을 통해 수행되는 되는 것으로, RGB-D 카메라 기반 착용형(예컨대, Head Mounted Display) 증강현실 저작을 위한 기하 인식 기반의 정합 좌표계 보정을 위한 것으로, 이는 후술되는 증강현실에서의 가상 객체와의 상호작용을 위한 오브젝트의 자세 추정을 보다 강건히 실시하기 위해 본 발명에 의해 지원되는 인터페이스이다.The operation of step 110 is performed by analyzing the geometry of the real space using the depth image information photographed for the real space and generating a matching coordinate system for the real space. (E.g., Head Mounted Display) for correcting a coordinate-based coordinate coordinate system based on geometric recognition for augmented reality authoring, which is a method for more robustly performing an object pose estimation for interaction with a virtual object in augmented reality described below. Interface supported by.
이어서, 112 과정에서는 상기 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 이미지로부터 기설정된 오브젝트의 깊이 정보와 색공간(color space) 변환을 수행하고, 이를 기반으로 114 과정에서 기설정된 오브젝트에 대응하는 영역을 분할한다. Subsequently, in step 112, depth information and color space transformation of a predetermined object are performed from a three-dimensional image including depth information acquired through the camera, and based on this, the object corresponds to the preset object in step 114. Split the area.
여기서, 상기 기설정된 오브젝트는 손 객체를 의미하는 것으로, 본 발명의 일 실시 예에 따라 RGB 이미지와 깊이(depth) 이미지로부터 112 내지 114 과정의 동작을 통해 손 객체가 각각 분할된다.Herein, the predetermined object refers to a hand object, and according to an embodiment of the present invention, the hand object is divided through an operation of steps 112 to 114 from an RGB image and a depth image.
보다 상세하게는 조명의 영향에 대해서, 강건한 스킨(skin)영역 분할을 위하여, RGB 이미지로부터 RGB 색공간(color space)가 HSV color space로 변환되고, 해당 스킨 컬러 스페이스는 채도(saturation)와 진하기(value) 요소에 대해서 이중 임계치(double threshold)를 수행하여 획득된다.More specifically, for robust skin region division, the RGB color space is converted from the RGB image to the HSV color space, and the skin color space is saturated and saturated for robust skin region division. Obtained by performing a double threshold on the (value) element.
또한, 깊이 이미지로부터 손이 HMD에 부착된 카메라로부터의 거리(팔거리)만큼의 거리를 임계치(threshold)로 설정한다. In addition, the distance from the depth image by the distance (arm distance) from the camera where the hand is attached to the HMD is set as a threshold.
이러한, 깊이 세스멘테이션(depth segmentation)과 RGB 세그멘테이션(rgb segmentation)의 결과의 교집합으로부터 쉽고 강건하게 손의 영역을 분할할 수 있다. 예컨대, 상기 threshold를 60cm 로 설정을 하고, 상기 세그멘테이션된 깊이 영상과, 칼라 영상은 공지의 캘리브레이션(calibration)을 활용하여 얼라이먼트(alignment) 된다.From the intersection of the result of depth segmentation and RGB segmentation, it is possible to easily and robustly divide the area of the hand. For example, the threshold is set to 60 cm, and the segmented depth image and the color image are aligned using a known calibration.
116 과정에서는 분할된 영역의 오브젝트로부터 모션 성분을 가지는 서브 오브젝트를 분리하고, 118 과정에서 분리된 상기 서브 오브젝트 및 상기 서브 오브젝트에 연계된 팜(palm) 영역을 기설정된 알고리즘을 기반으로 모델링하여 특징점을 검출한다. 이때, 상기 특징점은 손가락 기준점과 깊이 정보 기반 손의 끝점을 포함하며, 상기 손의 끝점은 기모델링된 깊이 템플릿으로부터 템플릿 매칭을 이용하여 추출된다.In step 116, the sub-object having the motion component is separated from the object in the divided region, and in step 118, the sub-object and the palm region associated with the sub-object are modeled based on a predetermined algorithm to generate a feature point. Detect. In this case, the feature point includes a finger reference point and an end point of the depth information-based hand, and the end point of the hand is extracted using template matching from a pre-modeled depth template.
이러한 동작은 분할된 손의 이미지로부터, 상기 서브 오브젝트에 대응하는 손가락의 자세를 추정하기 위하여, 손바닥과 손가락이 분리되어야 하므로 수행되는 것으로, 해당 동작에서, 손 이미지는 모콜로지컬(mophological) 연산을 활용하여 손가락과 손바닥이 분리된다. This operation is performed since the palm and the finger must be separated from each other to estimate the posture of the finger corresponding to the sub-object from the image of the divided hand. In this operation, the hand image utilizes a mophological operation. Your fingers and palms are separated.
이때, 상기 모폴로지컬 연산은 이로전(erosion) 및 딜레이션(dilation)을 활용하여 손가락과 손바닥이 분리되며, 상기 이로전은 이미지를 겉으로부터 침식시키는 작업이고, 상기 딜레이션은 이로전과 반대로 팽창시키는 작업으로, 도 2에 도시된 바와 같이, 상기 이로전을 반복적으로 수행하면, 손가락의 영역이 점점 사라진다. 그 이후 딜레이션을 수행함으로써 손바닥의 영역만큼 팽창을 시킴으로써 손바닥 영역을 모델링 할 수 있다. 손바닥의 중심점은 거리 변환(distance transform)을 통해 연산되며, 연산된 중심점은 손가락의 기준점 탐색의 기반이 된다.In this case, the morphological operation is a finger and palm are separated by using erosion and dilation, the erosion is an operation of eroding the image from the outside, the dilation is inflated in contrast to the erosion In operation, as shown in FIG. 2, when the erosion is repeatedly performed, the area of the finger gradually disappears. After that, the palm area can be modeled by expanding the area of the palm by performing a dilation. The center point of the palm is computed through a distance transform, and the calculated center point is the basis for the finger's reference point search.
또한, 상기 손가락은 손바닥과 함께 116 과정의 동작을 통해 모델링되며, 손가락은 타원피팅에 의해 모델링된다. 하기의 수학식 1에서와 같이, 모델링된 타원(손가락)의 점들과 상기 손바닥의 중심점과의 거리 중 가장 최소인 것을 손가락의 기준점으로 추정한다. 이는 손가락이 어느 정도 구부러진 상황에서도 손가락의 기준점을 강건하게 찾을 수 있다.In addition, the finger is modeled through the operation of step 116 with the palm, the finger is modeled by the elliptic fitting. As shown in Equation 1 below, the smallest distance between the points of the modeled ellipse (finger) and the center point of the palm is estimated as the reference point of the finger. This makes it possible to find the reference point of the finger even when the finger is bent to some extent.
수학식 1
Figure PCTKR2015006591-appb-M000001
Equation 1
Figure PCTKR2015006591-appb-M000001
한편, 도 5에 도시된 바와 같은 절차를 이용하면, 손가락이 손바닥쪽인 안쪽으로 굽었을 때, 손가락의 기준점은 검출이 되지만, 손가락의 끝점은 검출되지 않는다. 이는 상기 타원피팅 모델의 점들이 이미지 상의 손끝을 포함하지 않기 때문이다. 즉, 손가락을 구부릴 때에는, 손끝이 아니라 손가락의 끝쪽 마디의 점이 검출이 된다. 이러한 이유로 인버스 키네매틱(inverse kinematics)을 적용할 때 손가락의 관절의 파라미터를 추정하는데에 큰 에러가 발생한다.On the other hand, using the procedure as shown in Figure 5, when the finger is bent inward to the palm side, the reference point of the finger is detected, but the end point of the finger is not detected. This is because the points of the elliptic fitting model do not include the fingertips on the image. In other words, when the finger is bent, the point at the end of the finger is detected instead of the fingertip. For this reason, when applying inverse kinematics, a large error occurs in estimating a parameter of a finger joint.
이에, 본 발명의 일 실시 예에서는 손의 끝점을, 2d상의 피팅된 타원으로만 검출하는 것이 아닌, 깊이(depth)정보를 활용하여 검출한다. 이를 위하여 본 발명에서는 영상 처리 응용에서의 공지된 Zero-mean Normalized Cross Correlation(ZNCC) 를 활용하여, 손의 끝점을 추출한다.Thus, in one embodiment of the present invention, the end point of the hand is detected by using depth information, not only by detecting a fitted ellipse on 2d. To this end, the present invention utilizes a known Zero-mean Normalized Cross Correlation (ZNCC) in an image processing application to extract an end point of a hand.
이는, 도 6에 도시된 바와 같이 사전에 모델링한 깊이 템플릿(depth-template)로부터 템플릿 매칭(template matching)을 이용하여 손의 끝점을 추출할 수 있다. 도 6의 correlation map의 빨간 부분은, depth template와 가장 일치하는 부분이다. 이 방식은 손가락이 굽었을 때에도, 손 끝의 위치를 검출할 수 있음을 보여준다. 상기 검출된 손끝과 손가락 기준점의 위치는 이후의 모듈에서, inverse kinematics algorithm에 입력이 된다.As shown in FIG. 6, an end point of a hand may be extracted using template matching from a depth-template previously modeled. The red portion of the correlation map of FIG. 6 is the portion that most closely matches the depth template. This approach shows that the fingertip position can be detected even when the finger is bent. The position of the detected fingertip and finger reference point is input to the inverse kinematics algorithm in a later module.
마지막으로, 120 과정에서는 소정의 유저 인터페이스를 통해 제공되는 오브젝트의 관절 정보를 기반으로 상기 서브 오브젝트의 자세를 추정하여 증강현실 서비스 이용을 위한 3D객체를 제어한다.Finally, in step 120, the posture of the sub-object is estimated based on joint information of the object provided through a predetermined user interface to control the 3D object for using augmented reality service.
더욱 상세하게는, 손가락 자세 추정을 위해 본 발명에서는 상기에서 언급된 inverse kinematics를 적용하며, Inverse kinematics란, 레퍼런스(reference)좌표계와, 끝점(end point)의 위치가 주어졌을 때, 관절들의 파라미터(parameter)를 추정하는 것으로, 이를 통해 카메라로부터 얻어낸 base point를 레퍼런스 좌표계의 원점으로 지정하고, 손끝의 위치를 end point로 설정한다.More specifically, the present invention applies the above-mentioned inverse kinematics for finger posture estimation. Inverse kinematics is a parameter of joints when a reference coordinate system and an end point position are given. parameter) to estimate the base point obtained from the camera as the origin of the reference coordinate system and set the position of the fingertip to the end point.
이후, inverse kinematics를 적용하여 관절들의 로테이션 매트릭스(rotation matrix)를 추정하게 된다. 손가락을 움직이게 하는 관절의 parameter는 총 4개이므로, 손가락별 추정하게 될 parameter는 총 4개이다.Then, the rotation matrix of joints is estimated by applying inverse kinematics. Since there are a total of four parameters for moving the finger, there are a total of four parameters to be estimated for each finger.
여기서, inverse kinematics 알고리즘은 감쇠최소자승법(damped least-square-method)에 기반한 inverse-kinematics algorithm 이다.Here, the inverse kinematics algorithm is an inverse-kinematics algorithm based on the damped least-square-method.
이 알고리즘은, 목표지점(카메라로부터 얻어낸 손끝의위치), 현재지점(현재 모델의 손끝의 위치)의 차이를 이용하여 각 관절들이 변화해야 할 량을 추정한다.This algorithm estimates the amount that each joint should change using the difference between the target point (the position of the fingertip obtained from the camera) and the current point (the position of the fingertip of the current model).
도 7을 참조하면, 도 7에 도시된 바와 같이, 는 현재 손가락 끝점의 위치벡터이고, 는 이미지처리를 통해서 얻어낸 손가락의 끝점의 위치벡터이다(두 벡터의 기준좌표의 원점은 손가락의 기준점이다). θ는 손가락 관절의 회전행렬의 파라미터이고, λ는 damping ratio 파라미터이다. L1,L2,L3는 손가락 각각의 마디의 길이가 된다. Inverse kinematics 알고리즘의 최적화 문제는 하기 수학식 2와 같이 정의할 수 있으며, 예컨대, 1000으로 설정하여 이 파라미터가 높을수록, inverse kinematics 알고리즘의 안정도가 높아진다.Referring to FIG. 7, as shown in FIG. 7, is a position vector of the current finger end point, and is a position vector of the end point of the finger obtained through image processing (the origin of the reference coordinates of the two vectors is the reference point of the finger). . θ is a parameter of the rotation matrix of the finger joint, λ is a damping ratio parameter. L1, L2, and L3 are the length of each node of the finger. An optimization problem of the inverse kinematics algorithm may be defined as in Equation 2 below. For example, the higher the parameter is set to 1000, the higher the stability of the inverse kinematics algorithm is.
수학식 2
Figure PCTKR2015006591-appb-M000002
Equation 2
Figure PCTKR2015006591-appb-M000002
이후, 상술한 120 과정의 동작을 통해 3D 객체를 조작한다. 본 발명에 따른 가상 객체 조작은, 사용자의 주로 널리 쓰일 수 있는 손가락의 자세에 따라 이루어진다. 여기서 타겟팅 하고 있는 손가락의 자세는, 손가락의 개수로부터 매핑되는 자세이다.Subsequently, the 3D object is manipulated by the operation 120. The virtual object manipulation according to the present invention is performed according to the posture of a finger which can be widely used by a user. The posture of the finger being targeted here is a posture mapped from the number of fingers.
도 8에 도시된 바와 같이, 집게모양의 손 자세는 지구본의 위치를 결정한다. 그리고, 다섯개의 손가락을 오므리고 펴는 동작으로서, 지구본의 크기를 조작하였다. 이러한 상호작용으로부터, RGB-D 카메라가 부착된 HMD를 착용한 사용자는 증강된 가상의 객체인 가상의 지구본의 위치와 크기를 조절함으로써, 가상의 디지털 정보를 얻을 수 있다.As shown in FIG. 8, the tong-shaped hand posture determines the position of the globe. Then, as the operation of pinching and spreading five fingers, the size of the globe was manipulated. From this interaction, a user wearing an HMD with an RGB-D camera can obtain virtual digital information by adjusting the position and size of the virtual globe, which is an augmented virtual object.
상술한 본 발명의 일 실시 예에 따른 증강현실 상호작용 서비스 제공 방법에 대해 손의 자세를 추정하는 동작 알고리즘을 블록화하여 단계별로 살펴보면 도 4와 같다. 도 4를 참조하면, 더욱 상세하게는 도 4의 블록별 동작은 다음과 같다.The operation algorithm for estimating the posture of the hand for the method of providing augmented reality interaction service according to an embodiment of the present invention described above is shown in FIG. Referring to FIG. 4, the block-specific operation of FIG. 4 is as follows.
-손 분리(Hand Segmentation, 410)Hand Segmentation (410)
RGB 이미지와 depth 이미지로부터 손 객체가 분할된다(401, 402).The hand object is split from the RGB image and the depth image (401, 402).
먼저, 401로부터 조명의 영향에 대해서, 강건한 skin영역 분할을 위하여, rgb color space가 HSV color space로 변환된다. 이 스킨 컬러 스페이스는, S와 V 요소에 대해서 double threshold를 수행하여 얻어진다.First, for the influence of illumination from 401, the rgb color space is converted to the HSV color space for robust skin region division. This skin color space is obtained by performing a double threshold on the S and V elements.
402로부터 손이 HMD에 부착된 카메라로부터의 거리(팔거리)만큼의 거리를 threshold로 설정하고, 윤곽선을 검출한다.From 402, the hand sets the distance to the threshold (distance) from the camera attached to the HMD, and detects the outline.
401, 402로부터의 depth segmentation과 rgb segmentation의 결과의 교집합으로부터 쉽고 강건하게 손의 영역을 분할할 수 있다.From the intersection of depth segmentation and rgb segmentation results from 401 and 402, it is possible to easily and robustly segment the area of the hand.
-손바닥과 손가락 모델-Palm and finger model 링(411, 412)Rings (411, 412)
Segmentation 된 손의 이미지로부터, 손가락의 자세를 추정하기 위하여, 손바닥과 손가락이 분리되어야 한다. 이 단계에서, 손 이미지는, 모폴로지컬 연산(erosion, dilation)을 수행하고, 추가로 딜레이션에 subtraction 을 연동하여 그 결과로 손가락과 손바닥이 분리된다(palm imgae, finger image).From the image of the segmented hand, the palm and the fingers must be separated to estimate the pose of the finger. In this step, the hand image performs morphological operations (erosion, dilation) and further associates the subtraction with the dilation, resulting in the separation of the fingers and palms (palm imgae, finger image).
상기 palm image는 palm center position 동작을 위해 거리 변환(distance transform) 및 중심과 반지름 추출을 수행한다(center and radius extraction).The palm image performs distance transform and center and radius extraction for palm center position operation.
-손가락 특징 추출(414)Finger Feature Extraction (414)
손가락 이미지로부터 윤곽선 검출(contour detection), Contour detection from finger image,
타원피팅(elipse fitting), Ellipse fitting,
손가락 끝, 손바닥 기준점 검출(fingertip, finger base, orientation detection)을 통해 방향 및 오더링 개선(direction and ordering refinement)Direction and ordering refinement with fingertip, finger base, orientation detection
-이력 관리(416)History Management (416)
손바닥 중심 포지션, 반지름, 손가락 포지션, 방향 및 길이Palm center position, radius, finger position, direction and length
손실 손가락 검출Lost finger detection
-내부 손가락끝 검출(418)Internal fingertip detection (418)
영역 검색, 템플릿 매칭, 손가락끝 추출Area Search, Template Matching, Fingertip Extraction
-인버스 키네매틱(Inverse Kinematics, 420)Inverse Kinematics (420)
관절 각도 판단, 안정화Joint angle determination, stabilization
-증강 및 상호 작용(422)-Augmentation and Interaction (422)
카메라 트랙킹 및 가상 손 등록, Camera tracking and virtual hand registration,
충돌 검출 및 제스처 해석Collision Detection and Gesture Analysis
한편, 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법은 증강현실 콘텐츠를 저작함에 있어서, 기하 인식 기반 정합 좌표계 보정을 통해 좌표계의 자세를 자동적으로 보정하며, 이를 도 3의 흐름도를 통해 자세히 살펴보기로 한다.Meanwhile, the method for providing augmented reality interaction service according to an exemplary embodiment of the present invention automatically corrects the attitude of the coordinate system through geometry recognition-based registration coordinate system correction in authoring augmented reality content, and through the flowchart of FIG. 3. Let's take a closer look.
도 3은 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 있어서, 기하 인식 기반 정합 좌표계 보정 방법에 관한 동작 흐름도이다.3 is a flowchart illustrating a method for correcting a geometry-based matched coordinate system in a method for providing augmented reality interaction service according to an exemplary embodiment of the present invention.
도 3을 참조하면, 본 발명에 따른 방법은 깊이 카메라 예를 들어, RGB-D 카메라로부터 깊이 영상 정보를 수신하고, 사용자 입력에 의해 설정된 관심 영역을 수신한다(S310, S320).Referring to FIG. 3, the method according to the present invention receives depth image information from a depth camera, for example, an RGB-D camera, and receives a region of interest set by a user input (S310 and S320).
이때, 깊이 영상 정보는 깊이 카메라에 의해 촬영되고 생성되는 정보로, 촬영된 영상 특징, 카메라의 자세 정보, 깊이 정보에 의한 거리 맵 이미지, 컬러 등을 포함할 수 있으며, 관심 영역은 모바일 입력 장치를 이용한 사용자 입력에 의해 설정된 후 수신될 수 있다.In this case, the depth image information is information captured and generated by the depth camera, and may include a captured image feature, a posture information of the camera, a distance map image based on depth information, a color, and the like. Can be received after being set by the user input used.
관심 영역이 수신되면, 수신된 깊이 영상 정보를 이용하여 관심 영역에 대한 기하 구조를 분석하고, 분석된 기하 구조를 이용하여 기하 구조 기반의 제1 정합 좌표계를 생성한다(S330, S340).When the ROI is received, the geometry of the ROI is analyzed using the received depth image information, and the first matched coordinate system based on the geometry is generated using the analyzed geometry (S330 and S340).
여기서, 단계 S330은 깊이 카메라로부터 수신된 관심 영역에 대한 평면, 접선, 접면, 교점 등을 예측하는 기하 구조 분석을 수행할 수 있으며, 단계 S340은 분석된 현실 공간 또는 관심 영역에 대한 기하 구조 분석을 통해 현실 공간에 대한 정합 좌표계를 생성할 수 있는데, 1) 관심 영역에 대한 기하 구조 분석을 통해 관심 영역의 평면, 접선, 접면, 교점 중 적어도 하나를 예측하며, 예측된 평면, 접선, 접면, 교점 중 적어도 하나를 통해 제1 정합 좌표계를 생성할 수도 있고, 2) 관심 영역에 대한 기하 구조 분석을 통해 원점과 방향을 계산하고, 깊이 카메라의 자세와의 관계를 고려하여 예측된 평면에 대해 정면, 측면, 바닥 중 어느 하나를 정의하며, 가상 공간의 미리 결정된 왼손 좌표계와 일치되도록 계산된 방향 부호를 보정하여 제1 정합 좌표계를 생성할 수도 있다.Here, step S330 may perform a geometric analysis for predicting a plane, a tangent, a tangent, an intersection point, etc. for the ROI received from the depth camera, and step S340 may perform a geometry analysis for the analyzed real space or the ROI. Through this, the coordinate system of the real space can be generated. 1) At least one of the plane, the tangent, the tangent, and the intersection point of the region of interest is predicted by analyzing the geometry of the region of interest, and the predicted plane, the tangent, the tangent, the intersection The first registration coordinate system may be generated through at least one of the above, 2) the origin and the direction are calculated through the geometric analysis of the ROI, and the front, Define one of the side and the floor, and generate a first registration coordinate system by correcting the calculated direction sign to match the predetermined left hand coordinate system of the virtual space. It may be.
기하 구조 기반의 제1 정합 좌표계가 생성되면 생성된 기하 구조 기반의 제1 정합 좌표계를 이용하여 SLAM 기반의 제2 정합 좌표계를 보정한 후 보정된 제2 정합 좌표계 기반으로 가장 3D 객체를 저작한다(S350, S360).When the first registration coordinate system based on the geometry is generated, the second registration coordinate system based on the SLAM is corrected using the generated first registration coordinate system based on the geometry, and then the most 3D object is created based on the corrected second registration coordinate system ( S350, S360).
여기서, 단계 S350은 SLAM 기반 카메라의 거리와 깊이 영상 정보를 생성하는 깊이 카메라의 거리 비율 계산을 이용하여 제2 정합 좌표계를 실측 기반으로 보정할 수 있다.Here, in operation S350, the second matching coordinate system may be corrected based on the actual measurement using the distance ratio calculation of the depth camera generating the distance image information and the distance of the SLAM-based camera.
이런 본 발명에 대해 도 4 내지 도 8을 참조하여 설명하며, 깊이 기반 기하 분석을 통한 정합 좌표계 생성과 SLAM 기반 초기 정합 좌표계의 보정에 대해 설명한다.This invention will be described with reference to FIGS. 4 to 8, and the generation of a registration coordinate system through depth-based geometric analysis and correction of the SLAM-based initial registration coordinate system will be described.
먼저 깊이 기반 기하 분석을 통한 정합 좌표계 생성에 대해 설명하면 다음과 같다.First, the generation of registration coordinate system through depth-based geometric analysis will be described.
깊이 있는 정보를 사용하여 새로운 로컬 좌표를 생성하는 예를 설명하면, 도 10에 도시된 일 예와 같이, 1면과 2면, 3면을 가진 다양한 형상의 조건에서 정합 좌표를 만들기 위해, 원점 위치와 방향을 계산한다.An example of generating new local coordinates using depth information will be described. As shown in the example illustrated in FIG. 10, the origin position is used to create matching coordinates under various shape conditions having one side, two sides, and three sides. Calculate the direction and.
인터랙티브(Interactive)한 방법으로, 사용자는 모바일 입력 장치를 사용하여 RGB-D 카메라로부터 관심 영역(ROI)의 중심 위치를 결정한다. 결정된 ROI의 중심 위치를 기준으로 깊이 맵 이미지의 영역을 결정하는 50 화소의 반경 원형 커서를 제어한다. 3D 점 군은 깊이 맵에서 재구성되고, 국소 참조 좌표계 즉, 제1 정합 좌표계가 생성된다.In an interactive manner, a user uses a mobile input device to determine the center location of an ROI from an RGB-D camera. A radial circular cursor of 50 pixels that controls the area of the depth map image based on the determined center position of the ROI is controlled. The 3D point group is reconstructed in the depth map and a local reference coordinate system, i.e., a first registration coordinate system, is generated.
로컬 기준 좌표의 위치를 설정하기 위해서, 관심 영역의 3D 점 군(cloud)으로부터 평면들을 예측한다. To set the location of local reference coordinates, the planes are predicted from a 3D point cloud of the region of interest.
이때, 평면 추정은 하기 수학식 3에 나타낸 바와 같이, 평면 방정식을 구성하는 법선 벡터의 변수 a, b, c, d를 예측하는 최적화 문제로 정의될 수 있으며, 랜덤 샘플 컨센서스(RANSAC: random sample consensus) 알고리즘을 통해 해당 변수를 추정할 수 있다.In this case, the plane estimation may be defined as an optimization problem for predicting the variables a, b, c, and d of the normal vectors constituting the plane equation, as shown in Equation 3 below, random sample consensus (RANSAC) ) Can be estimated through the algorithm.
수학식 3
Figure PCTKR2015006591-appb-M000003
Equation 3
Figure PCTKR2015006591-appb-M000003
1) 1면이 있는 경우, 깊이 맵의 2D 커서 포인트를 역투영한 3차원 좌표를 로컬 참조 좌표의 위치로 설정한다. 그러나 교차선이나 모서리 등의 정보가 없기 때문에 3 자유도 회전을 알아낼 수 있는 정보가 부족하다. 그래서 평면(벽 또는 바닥)의 법선벡터 nplane으로부터 좌표계의 1 자유도 회전 만을 설정할 수 있다. 벡터 이외의 다른 회전은, 카메라의 X축 방향벡터(Vcamera's x axis)를 로컬 기준 좌표계의 X축 방향벡터에 할당하여 설정한다. 그리고, 알려지지 않은 회전 파라미터(Vunkonwn rotation)는 하기 수학식 4에 나타낸 바와 같이, 법선벡터와 X축의 외적을 통해 설정될 수 있다.1) If there is one plane, set the three-dimensional coordinates in which the 2D cursor point of the depth map is back projected to the position of the local reference coordinate. However, since there is no information such as intersecting lines or edges, there is a lack of information for finding three degrees of freedom rotation. So we can set only one degree of freedom rotation of the coordinate system from the normal vector n plane of the plane (wall or floor). The rotation other than the vector is set by assigning the camera's X axis direction vector (V camera's x axis ) to the X axis direction vector of the local reference coordinate system. The unknown rotation parameter V unkonwn rotation may be set through the cross product of the normal vector and the X axis, as shown in Equation 4 below.
수학식 4
Figure PCTKR2015006591-appb-M000004
Equation 4
Figure PCTKR2015006591-appb-M000004
2) 2개의 평면이 교차하는 경우, 로컬 기준 좌표에 3 자유도 위치를 결정하는 방법은, 사용자의 선택 영역에서 사용자가 선택한 점(vo)과 가까운 교차선 위의 3D 좌표를 계산하는 것이다. 아래 <수학식 3>에 나타낸 바와 같이, vo와 3D 점 군의 한 점인 vi 사이의 거리를 최소화하는 점(v*)을 좌표계의 기준 위치로 설정한다.2) When two planes intersect, the method of determining the three degrees of freedom position in the local reference coordinate is to calculate the 3D coordinates on the intersection line close to the point v o selected by the user in the user's selection area. As shown in Equation 3 below, a point (v *) that minimizes the distance between v o and v i , a point in the 3D point group, is set as the reference position of the coordinate system.
수학식 5
Figure PCTKR2015006591-appb-M000005
Equation 5
Figure PCTKR2015006591-appb-M000005
이 때, 두 개의 평면 방정식의 합을 최소화하는데, v1와 v2는 각각 평면π1와 π2에 있는 한 점이며, 만약 vi가 교차선분 위에 있다면 최소화 될 수 있다.At this time, the sum of the two plane equations is minimized, where v 1 and v 2 are points on planes π 1 and π 2 , respectively, and can be minimized if v i is on the intersection line.
이 방정식은 라그랑주승수(Lagrange Multipliers)의 확장에 의해 유도되고, 그 행렬 값은 QR 분해(QR decomposition)를 통해 계산된다. 좌표계의 회전은 예측된 평면들로부터 2개의 법선벡터 예를 들어, 수직 및 접지면은 좌표계의 방향 예를 들어, 수직 및 바닥 평면을 결정하기 위해 사용된다. 교차 라인의 방향 벡터는 법선벡터의 외적에 의해 설정될 수 있으며, 하기 수학식 6과 같이 나타낼 수 있다.This equation is derived by the expansion of the Lagrange Multipliers, and the matrix value is calculated through QR decomposition. The rotation of the coordinate system is used to determine two normal vectors from the predicted planes, eg, the vertical and ground planes, to determine the direction of the coordinate system, eg, the vertical and bottom planes. The direction vector of the crossing line may be set by the cross product of the normal vector, and may be represented by Equation 6 below.
수학식 6
Figure PCTKR2015006591-appb-M000006
Equation 6
Figure PCTKR2015006591-appb-M000006
3) 3면이 서로 교차하는 경우, 좌표계 원점의 위치는 3개 평면의 교차지점이다. 방정식 πv=d를 설정한다. 여기서, π는 평면의 계수로 이루어지는 행렬을 의미하며, 하기 수학식 7에 나타낸 바와 같이 πv-d의 값을 최소화함으로써, 좌표계의 기준 위치로 설정할 수 있다.3) When three planes cross each other, the coordinate system origin is the intersection of three planes. Set the equation πv = d. Here, π means a matrix consisting of coefficients of a plane, and as shown in Equation 7 below, by minimizing the value of πv-d, it can be set as a reference position of the coordinate system.
수학식 7
Figure PCTKR2015006591-appb-M000007
Equation 7
Figure PCTKR2015006591-appb-M000007
이 때, 최적화 기법인 SVD 분해 기반의 최소 제곱 솔루션은 의사 매트릭스로부터 교차점을 계산하는데 사용할 수 있으며, 회전은 3개 평면의 법선벡터를 통해 설정될 수 있다.At this time, the least square solution based on the SVD decomposition, which is an optimization technique, can be used to calculate the intersection point from the pseudo matrix, and the rotation can be set through the normal vectors of three planes.
이전 단계에서 추정 회전에서는, 예측된 법선벡터의 순서와 부호가 변할 수 있기 때문에 x, y 및 z 축의 방향을 정확히 알 수 없는데, 본 발명에서 법선벡터의 순서는 점 군의 수를 따른다. 이것은 왼손 또는 오른손 기반의 렌더링 시스템에서 그래픽 렌더링하는데 중요하다. In the estimated rotation in the previous step, the directions of the x, y, and z axes are not known exactly because the order and sign of the predicted normal vector may be changed. In the present invention, the order of the normal vectors follows the number of point groups. This is important for graphical rendering in a left hand or right hand based rendering system.
따라서, 사후 과정으로써 좌표계의 회전을 RGB-D 카메라의 회전 정보를 고려하여 정렬한다. 평면의 법선벡터와 카메라의 방향벡터(전면, 측면, 최대벡터) 사이의 각도 차이를 외적을 통해 계산한 후, 각 카메라의 방향벡터에 대해 최소 각도 차이를 가지는 법선벡터를 찾는다. 법선벡터는 카메라의 방향벡터를 결정하는데, 예를 들어, i번째 법선벡터(Ni)가 정방향 카메라 벡터(CFront)와 최소 각도 차이를 가진다면, Ni는 z 축으로 설정될 수 있다. 이 경우처럼, 다른 법선벡터는 x 및 y 축으로 정의될 수 있으며, 좌표의 방향 부호를 보정할 수 있다. 즉, 카메라의 방향벡터는 하기 수학식 8에 의해 결정될 수 있다.Therefore, as a post process, the rotation of the coordinate system is aligned in consideration of the rotation information of the RGB-D camera. After calculating the angle difference between the plane normal vector of the plane and the direction vector (front, side, maximum vector) of the camera through the cross product, the normal vector having the minimum angle difference with respect to the direction vector of each camera is found. The normal vector determines the direction vector of the camera. For example, if the i th normal vector N i has a minimum angle difference from the forward camera vector C Front , N i may be set to the z axis. As in this case, other normal vectors can be defined by the x and y axes, and can correct the direction sign of the coordinates. That is, the direction vector of the camera may be determined by Equation 8 below.
수학식 8
Figure PCTKR2015006591-appb-M000008
Equation 8
Figure PCTKR2015006591-appb-M000008
여기서, CSide와 CGround는 측방향 카메라 벡터와 바닥방향 카메라 벡터를 의미한다.Here, C Side and C Ground mean a lateral camera vector and a bottom camera vector.
이와 같은 과정을 통해 도 11에 도시된 바와 같이 정합 좌표계의 회전축을 설정할 수 있다.Through this process, as shown in FIG. 11, the rotation axis of the registration coordinate system may be set.
다음, SLAM 기반 초기 정합 좌표계의 보정에 대해 설명하면 다음과 같다.Next, the correction of the SLAM-based initial registration coordinate system will be described.
상술한 바와 같이, SLAM 기반의 초기 로컬 참조 좌표를 깊이 카메라 좌표계 기반의 국소 참조 좌표계로 정렬하기 위해서는, 스케일을 고려해야 하며, 가상 모델의 크기는 SLAM 초기화에서 임의로 결정될 수 있다.As described above, in order to align the SLAM-based initial local reference coordinates to the depth camera coordinate system-based local reference coordinate system, the scale must be taken into account, and the size of the virtual model may be arbitrarily determined in the SLAM initialization.
따라서, SLAM 기반의 좌표계 스케일을 일관성 있는 현실 공간의 스케일 단위로 변환하기 위해, SLAM 기반의 좌표계의 원점 좌표로부터 RGB 카메라까지의 거리를 계산한다. 이는 RGB 카메라 자세 행렬의 위치 벡터 크기이며, 가상 스케일 단위로 표현될 수 있다.Therefore, in order to convert the SLAM-based coordinate system scale into a unit of scale in a coherent real space, the distance from the origin coordinate of the SLAM-based coordinate system to the RGB camera is calculated. This is the position vector size of the RGB camera pose matrix and may be expressed in virtual scale units.
그 다음 깊이 카메라로부터의 깊이 길이를 계산하는데, 이것은 깊이 맵의 값이고 미터 스케일 단위로 표현될 수 있다.It then calculates the depth length from the depth camera, which is the value of the depth map and can be expressed in meters scale.
마지막으로, 수학식 7에 나타낸 바와 같이 스케일 비율(λ)을 계산하며, 이와 같은 과정을 통해 수학식 8과 같이 현실에서의 스케일 단위를 SLAM 기반 가상 현실 공간 내의 가상 객체를 증강하는데 적용할 수 있다. 따라서, 본 발명은 수동적인 스케일 보정이 필요 없으며, 이를 통해 스케일 보정이 자동으로 이루어지게 된다.Finally, as shown in Equation 7, the scale ratio λ is calculated, and through this process, the scale unit in reality can be applied to augment the virtual object in the SLAM-based virtual reality space as shown in Equation 8. . Therefore, the present invention does not require manual scale correction, and the scale correction is automatically performed.
수학식 9
Figure PCTKR2015006591-appb-M000009
Equation 9
Figure PCTKR2015006591-appb-M000009
수학식 10
Figure PCTKR2015006591-appb-M000010
Equation 10
Figure PCTKR2015006591-appb-M000010
즉, 도 12에 도시된 일 예와 같이, SLAM 좌표계의 스케일과 현실에서의 스케일 간의 비율을 고려하여 SLAM 좌표계의 스케일을 보정한다.That is, as in the example shown in FIG. 12, the scale of the SLAM coordinate system is corrected in consideration of the ratio between the scale of the SLAM coordinate system and the scale in reality.
스케일을 보정한 후, mm 단위로 SLAM 기반의 초기 국소 참조 좌표계의 위치(λPSLAM)를 계산하고, 깊이 기반 기하 구조 분석으로부터 얻은 새로운 위치(PDepth)로 SLAM 기반 좌표계 위치를 변환하기 위해 오프셋 이동 행렬(TP)을 계산한다. 오프셋 이동 행렬은 하기 수학식 11과 같이 계산될 수 있으며, 오프셋 이동 행렬 TP는 도 13에 도시된 일 예와 같이, RTCtoW을 RTRefine_trans로 이동시키는데 활용될 수 있고, 위치 보정에 대한 수학식은 하기 수학식 12와 같이 나타낼 수 있다.After calibrating the scale, calculate the position of the SLAM-based initial local reference coordinate system in mm (λP SLAM ) and shift the offset to transform the SLAM-based coordinate system position into a new position (P Depth ) obtained from the depth-based geometry analysis. Calculate the matrix T P. The offset shift matrix may be calculated as shown in Equation 11 below, and the offset shift matrix T P may be utilized to move the RT CtoW to the RT Refine_trans , as shown in FIG. 13. It may be represented by Equation 12 below.
수학식 11
Figure PCTKR2015006591-appb-M000011
Equation 11
Figure PCTKR2015006591-appb-M000011
수학식 12
Figure PCTKR2015006591-appb-M000012
Equation 12
Figure PCTKR2015006591-appb-M000012
여기서, RTCtoW는 SLAM 기반의 가상 공간에서 카메라 좌표계를 가상 공간 좌표계로 변환시키는 행렬을 의미하고, RTRefine_trans는 보정된 국소 참조 좌표계를 의미한다.Here, RT CtoW refers to a matrix for converting a camera coordinate system into a virtual space coordinate system in a SLAM-based virtual space, and RT Refine_trans means a corrected local reference coordinate system.
따라서, 현실 공간 스케일로 정렬된 좌표계를 기준으로 가상 객체를 증강시킬 수 있다.Therefore, the virtual object may be augmented based on the coordinate system aligned on the real space scale.
그리고, 도 14에 도시된 일 예와 같이, 회전 보정을 수행할 수 있으며, 이를 위해 하기 수학식 13에 나타낸 바와 같이, 초기 로컬 좌표계의 회전(RInit)에 대한 현재 로컬 좌표계의 회전(RCurr)의 차이 행렬(RDiff)을 계산한다. 이렇게 계산된 차이 행렬(RDiff)은 RTRefine_trans를 보정하는데 반영될 수 있으며, 이는 하기 수학식 13과 같이 반영될 수 있다. And, as shown in the example shown in Figure 14, it is possible to perform a rotation correction, for this purpose, as shown in Equation 13, the rotation of the current local coordinate system (R Curr ) relative to the rotation (R Init ) of the initial local coordinate system Compute the difference matrix (R Diff ). The calculated difference matrix R Diff may be reflected to correct the RT Refine_trans , which may be reflected as in Equation 13 below.
수학식 13
Figure PCTKR2015006591-appb-M000013
Equation 13
Figure PCTKR2015006591-appb-M000013
수학식 14
Figure PCTKR2015006591-appb-M000014
Equation 14
Figure PCTKR2015006591-appb-M000014
수학식 14를 통해 알 수 있듯이, RTRefine_trans를 보정하는 방법으로, 현재 카메라 회전을 상쇄시키기 위해 R-1 Curr를 RTRefine_trans에 곱하고, 기하 정보를 반영하여 회전을 보정하기 위하여 깊이 추정 좌표계에서 가져온 RDepth을 곱한다. 그리고, 초기 카메라 회전에 대한 상대적인 카메라 회전 트래킹 정보를 반영하기 위해서 차이 행렬(RDiff)를 곱함으로써, 회전 보정을 수행할 수 있다.As can be seen from the equation (14), the method of correcting Refine_trans RT, taken from the depth estimation coordinate system in order to correct the rotation by reflecting, geometry multiplies the R -1 Curr to RT Refine_trans to offset the current camera rotation R Multiply Depth In addition, rotation correction may be performed by multiplying a difference matrix R Diff to reflect camera rotation tracking information relative to initial camera rotation.
이와 같이, 본 발명은 착용형 증강 현실 저작을 위해, RGB-D 카메라를 활용하여 사전에 모델링 되어 있지 않은 임의의 공간을 실시간으로 모델링하고 기하 구조를 분석하여, 정합 좌표계를 실측 기반으로 자동적으로 생성할 수 있으며, 이를 통해 사용자는 정합 좌표계 보정에 대한 부가적인 작업 없이 쉽고 정밀하게 증강현실 저작을 할 수 있다.As described above, the present invention uses an RGB-D camera for real-time modeling of an arbitrary space that has not been previously modeled and analyzes a geometric structure, and automatically generates a matching coordinate system based on the actual measurement for wearable augmented reality authoring. This allows the user to easily and precisely augmented reality authoring without additional work on the registration coordinate correction.
이상에서는, 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 방법에 관해 살펴보았다.In the above, the method for providing augmented reality interaction service according to an embodiment of the present invention has been described.
이하, 본 발명의 일 실시 예에 따른 증강현실 상호 작용 서비스 제공 장치에 관하여 도 15 내지 도 16을 참조하여 살펴보기로 한다.Hereinafter, an apparatus for providing augmented reality interaction service according to an exemplary embodiment of the present invention will be described with reference to FIGS. 15 to 16.
도 15는 본 발명의 일 실시 예에 따른 증강현실 상호작용 서비스 장치에 관한 블록도이다.15 is a block diagram of an apparatus for augmented reality interaction service according to an exemplary embodiment.
도 15를 참조하면, 정합 좌표계 보정부(152), 오브젝트 분리부(154), 제어부(156) 및 오브젝트 처리부(158)을 포함한다.Referring to FIG. 15, a registration coordinate system corrector 152, an object separator 154, a controller 156, and an object processor 158 are included.
상기 정합 좌표계 보정부(152)는 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 레퍼런스 좌표계(Reference Coordinates)를 생성한다.The registration coordinate system corrector 152 generates reference coordinates based on a 3D image including depth information obtained through a camera.
상기 오브젝트 분리부(154)는 상기 제어부(156)의 제어 하에 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 이미지로부터 기설정된 오브젝트의 깊이 정보와 색공간(color space) 변환을 기반으로 상기 기설정된 오브젝트에 대응하는 영역을 분할한다.The object separator 154 may be configured based on the depth information and the color space transformation of a predetermined object from a three-dimensional image including depth information obtained through a camera under the control of the controller 156. Splits the area corresponding to the object.
이때, 상기 오브젝트 분리부(154)는, 상기 기설정된 오브젝트에 대응하는 영역에 대해 RGB 이미지로부터 상기 기설정된 오브젝트에 대응하는 손 이미지 영역의 RGB 색공간을 HSV 색공간으로 변환하여, 변환된 HSV 색공간에서 채도(saturation)와 진하기(value)에 대해 이중 임계치(double threshold) 수행을 통해 획득된 스킨(skin) 색공간을 기반으로 분할을 수행한다.In this case, the object separating unit 154 converts the RGB color space of the hand image area corresponding to the predetermined object from the RGB image to the HSV color space for the area corresponding to the predetermined object, and converts the converted HSV color. Segmentation is performed based on the skin color space obtained by performing a double threshold on saturation and value in space.
또한, 상기 오브젝트 분리부(154)에서는, 깊이 이미지로부터 상기 손과 카메라 간 거리에 대응하는 거리를 임계치로 설정하고, 상기 각 이미지로부터 획득된 깊이 세그멘테이션(depth segmentation)과 RGB 세그멘테이션의 결과에 대응하는 교집합을 기반으로 손의 영역 분할이 수행된다.In addition, the object separator 154 sets a distance corresponding to the distance between the hand and the camera from a depth image as a threshold value, and corresponds to a result of depth segmentation and RGB segmentation obtained from each image. Based on the intersection, segmentation of the hands is performed.
상기 오브젝트 처리부(158)는 제어부(156)의 제어 하에 상기 오브젝트 분리부(154)에서 분할된 영역의 오브젝트로부터 모션 성분을 가지는 서브 오브젝트를 분리하고, 분리된 상기 서브 오브젝트 및 상기 서브 오브젝트에 연계된 팜(palm) 영역을 기설정된 알고리즘을 기반으로 모델링하여 특징점을 검출한다.The object processor 158 separates a sub object having a motion component from an object of a region divided by the object separator 154 under the control of the controller 156, and is connected to the separated sub object and the sub object. The palm region is modeled based on a predetermined algorithm to detect feature points.
그리고, 상기 오브젝트 처리부(158)는, 상기 오브젝트에 대응하는 손 이미지로부터 상기 서브 오브젝트에 대응하는 손가락의 자세를 추정하기 위하여 모폴로지컬(mophological) 연산을 이용하여 상기 서브 오브젝트에 연계된 팜 영역에 대응하는 손바닥과 손가락 분리를 통해 상기 팜 영역 모델링을 수행한다.The object processing unit 158 corresponds to a palm area associated with the sub object by using a morphological operation to estimate a posture of a finger corresponding to the sub object from the hand image corresponding to the object. The palm region modeling is performed by separating a palm and a finger.
상기 제어부(156)은 증강현실 상호 작용 서비스 제공 장치(150)의 전반적인 동작을 제어하고, 소정의 유저 인터페이스를 통해 제공되는 오브젝트의 골격 정보를 기반으로 상기 서브 오브젝트의 자세를 추정하여 증강현실 서비스 이용을 위한 3D객체를 제어한다.The controller 156 controls the overall operation of the apparatus for providing augmented reality interaction service 150 and estimates a posture of the sub-object based on skeleton information of an object provided through a predetermined user interface to use the augmented reality service. Control 3D objects for
한편, 상기 정합 좌표계 보정부는 도 16에 도시된 바와 같이, 수신부(160), 생성부(162), 증강부(164), 분석부(166), 보정부(168)를 포함한다.Meanwhile, as shown in FIG. 16, the matched coordinate system corrector includes a receiver 160, a generator 162, an enhancer 164, an analyzer 166, and a corrector 168.
상기 수신부(160)는 깊이 카메라로부터 깊이 영상 정보를 수신하거나 사용자 입력에 의해 설정되거나 입력되는 정보를 수신한다.The receiver 160 receives depth image information from a depth camera or receives or is set or input by a user input.
이때, 수신부(160)는 사용자가 착용한 장치 예를 들어, 사용자의 머리에 착용한 HWD(Head worm display)와 같은 안경형 디스플레이장치에 부착된 깊이 카메라 예를 들어 RGB-D(depth) 카메라로부터 깊이 영상 정보(Depth image)를 수신할 수 있으며, 사용자 입력을 통해 설정된 현실 공간에서의 관심 영역(ROI; Region of Interest)을 수신할 수 있다. 여기서, 관심 영역은 모바일 입력 장치를 이용한 사용자 입력에 의해 설정될 수 있다.In this case, the receiver 160 is a depth from a depth camera, for example, an RGB-D (depth) camera, attached to a glasses display device, such as a head worm display (HWD) worn on a user's head. Depth images may be received, and a region of interest (ROI) in a real space set through a user input may be received. Here, the ROI may be set by user input using a mobile input device.
본 발명에서의 깊이 영상 정보는 깊이 카메라에 의해 촬영되고 생성되는 정보로, 촬영된 영상 특징, 카메라의 자세 정보, 깊이 정보에 의한 거리 맵 이미지, 컬러 등을 포함할 수 있다.Depth image information according to the present invention is information captured and generated by the depth camera, and may include a photographed image feature, a posture information of the camera, a distance map image based on depth information, and color.
분석부(166)는 수신부(160)로 수신된 깊이 영상 정보를 이용하여 현실 공간 또는 관심 영역에 대한 기하 구조를 분석한다.The analyzer 166 analyzes the geometry of the real space or the ROI by using the depth image information received by the receiver 160.
이때, 분석부(166)는 깊이 카메라로부터 수신된 관심 영역에 대한 평면, 접선, 접면, 교점 등을 예측하는 기하 구조 분석을 수행할 수 있다.In this case, the analyzer 166 may perform a geometrical analysis for predicting a plane, a tangent, a tangent, an intersection point, and the like, of the ROI received from the depth camera.
생성부(162)는 분석부(166)에 의해 분석된 현실 공간 또는 관심 영역에 대한 기하 구조 분석을 통해 현실 공간에 대한 정합 좌표계를 생성한다.The generator 162 generates a matched coordinate system for the real space through the geometric structure analysis of the real space or the ROI analyzed by the analyzer 166.
이때, 생성부(162)는 관심 영역에 대한 기하 구조 분석을 통해 관심 영역의 평면, 접선, 접면, 교점 중 적어도 하나를 예측하며, 예측된 평면, 접선, 접면, 교점 중 적어도 하나를 통해 제1 정합 좌표계를 생성할 수 있다.At this time, the generation unit 162 predicts at least one of the plane, the tangent, the tangent, and the intersection of the ROI through the geometrical analysis of the ROI, and generates the first through the at least one of the predicted plane, the tangent, the tangent, the intersection. You can create a registration coordinate system.
이때, 생성부(162)는 관심 영역에 대한 기하 구조 분석을 통해 원점과 방향을 계산하고, 깊이 카메라의 자세와의 관계를 고려하여 예측된 평면에 대해 정면, 측면, 바닥 중 어느 하나를 정의하며, 가상 공간의 미리 결정된 왼손 좌표계와 일치되도록 계산된 방향 부호를 보정하여 제1 정합 좌표계를 생성할 수 있다.At this time, the generation unit 162 calculates the origin and direction through the geometry analysis of the ROI, and defines any one of the front, side, and bottom of the predicted plane in consideration of the relationship with the pose of the depth camera. The first registration coordinate system may be generated by correcting the direction code calculated to match the predetermined left hand coordinate system of the virtual space.
상기 보정부(168)는 생성부(162)에 의해 생성된 현실 공간 또는 관심 영역에 대한 정합 좌표계를 이용하여 가상 공간을 정합하기 위해 미리 생성된 정합 좌표계 예를 들어, 제2 정합 좌표계를 실측 기반으로 보정한다.The corrector 168 measures based on a matched coordinate system generated in advance, for example, a second matched coordinate system to match the virtual space using the matched coordinate system for the real space or the ROI generated by the generator 162. Correct with
이때, 제2 정합 좌표계는 SLAM(Simultaneous Localization and Mapping) 알고리즘으로부터 생성된 정합 좌표계일 수 있으며, 보정부(168)는 SLAM 기반 카메라의 거리와 깊이 영상 정보를 생성하는 깊이 카메라의 거리 비율 계산을 이용하여 제2 정합 좌표계를 실측 기반으로 보정할 수 있다.In this case, the second registration coordinate system may be a registration coordinate system generated from a SLAM (Simultaneous Localization and Mapping) algorithm, and the correction unit 168 uses the distance ratio calculation of the depth camera generating the distance and depth image information of the SLAM-based camera. The second registration coordinate system can be corrected based on the measured basis.
증강부(164)는 가상 객체를 보정된 정합 좌표계를 기준으로 증강하는 구성으로, 가상 객체를 증강하여 증강된 가상 객체를 공간에 배치한다.The augmentation unit 164 is configured to augment the virtual object based on the corrected matching coordinate system, and augment the virtual object to place the augmented virtual object in the space.
이때, 증강부(164)는 모바일 입력 장치를 통한 사용자 입력을 이용하여 가상 객체를 공간에 배치할 수 있다.In this case, the augmentation unit 164 may arrange the virtual object in the space by using a user input through the mobile input device.
본 발명에 따른 장치는 도 9a에 도시된 RGB-D 카메라를 이용하여 깊이 영상 정보를 획득하고, 인터랙티브한 방식으로 사용자가 좌표계를 위치시킬 곳을 모바일 입력 장치를 이용하여 포인팅 하여 3D 점 군(Point clouds)을 선택한다. 그리고, 도 9b에 도시된 바와 같이 깊이 영상 정보에 포함된 거리 맵 이미지로부터 사용자가 선택한 영역 즉 관심 영역에 대해서, 기하 분석을 수행하여, 평면, 접선, 접면, 교점 등을 예측함으로써, 평면 형태의 증강현실 공간을 위한 정합 좌표계를 생성한다.The apparatus according to the present invention acquires depth image information using the RGB-D camera shown in FIG. 9A, and points a place where the user positions the coordinate system using the mobile input device in an interactive manner using a mobile input device. Select clouds. As shown in FIG. 9B, a geometric analysis is performed on a region selected by a user, that is, a region of interest, from a distance map image included in the depth image information to predict a plane, a tangent, a tangent, an intersection point, and the like. Create a registration coordinate system for augmented reality space.
구체적으로, 공간에서 평면이 1개, 2개, 3개 예측되는 경우, 미리 결정된 최적화 방법을 통해 교점, 접선 등을 예측하여 원점과 방향을 계산한다. 그리고 카메라의 자세 예를 들어, 정면, 측면, 상향 등의 관계를 고려하여, 해당 평면이 정면, 측면, 바닥인지 정의하고, 가상공간의 왼손 좌표계와 일치되도록 방향 부호를 보정한다.Specifically, when one, two, or three planes are predicted in space, the origin and direction are calculated by predicting intersections, tangents, and the like through a predetermined optimization method. In addition, in consideration of the relationship of the posture of the camera, for example, the front, the side, and the upside, it defines whether the plane is the front, the side, the floor, and corrects the direction code so as to match the left hand coordinate system of the virtual space.
그 다음, 도 9c에 도시된 바와 같이, SLAM(Simultaneous Localization and Mapping) 알고리즘으로부터 생성된 초기 정합 좌표계 즉, 상술한 제2 정합 좌표계를 앞서 계산한 정합 좌표계로 보정시킨 후, 카메라 자세를 획득하여 가상 객체를 현실공간에 증강시킨다. 이때, SLAM 기반으로 생성된 좌표계의 가상 스케일을 현실 공간의 스케일로 보정하기 위해서, 초기 정합 좌표계를 기준으로 SLAM 기반 카메라의 거리와 깊이 카메라를 기준으로 한 거리 단위 예를 들어, m의 거리 비율을 계산한다.Next, as shown in FIG. 9C, the initial registration coordinate system generated from the Simulaneous Localization and Mapping (SLAM) algorithm, that is, the second registration coordinate system described above, is corrected with the previously calculated registration coordinate system, and then a camera posture is obtained to obtain a virtual image. Augment objects in real space. At this time, in order to correct the virtual scale of the SLAM-based coordinate system to the scale of the real space, the distance ratio of the distance unit based on the depth camera and the distance unit of the SLAM-based camera based on the initial matching coordinate system Calculate
이와 같이, 거리 비율을 가상 객체를 증강할 때 적용하면, 도 9d에 도시된 바와 같이, 현실공간의 단위 스케일을 반영하여 가상객체를 정합 좌표계를 기준으로 증강시킬 수 있다. 예컨대, 사용자는 보정된 좌표계를 기준으로 모바일 입력 장치를 이용하여, 가상객체를 공간에 배치할 수 있다.As such, when the distance ratio is applied when augmenting the virtual object, as illustrated in FIG. 9D, the virtual object may be augmented based on the registration coordinate system by reflecting the unit scale of the real space. For example, the user may arrange the virtual object in space using the mobile input device based on the corrected coordinate system.
물론, 이와 같은 내용이 본 발명에 따른 방법에 사용되며, 이후 기술한 본 발명에 따른 방법 또한 본 발명에 따른 장치에 사용될 수 있는 것은 자명하다.Of course, this is used in the method according to the invention, and it is obvious that the method according to the invention described later can also be used in the apparatus according to the invention.
상기와 같이 본 발명에 따른 증강현실 상호작용 서비스 제공 방법 및 장치에 관한 동작이 이루어질 수 있으며, 한편 상기한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나 여러 가지 변형이 본 발명의 범위를 벗어나지 않고 실시될 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 청구범위와 청구범위의 균등한 것에 의하여 정하여져야 할 것이다.As described above, operations related to a method and apparatus for providing augmented reality interaction service according to the present invention can be made. Meanwhile, in the above description of the present invention, a specific embodiment has been described, but various modifications can be made without departing from the scope of the present invention. Can be implemented. Therefore, the scope of the present invention should not be defined by the described embodiments, but by the claims and equivalents of the claims.

Claims (18)

  1. 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 레퍼런스 좌표계(Reference Coordinates)를 생성하는 과정과,Generating reference coordinates based on a 3D image including depth information obtained through a camera;
    상기 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 이미지로부터 기설정된 오브젝트의 깊이 정보와 색공간(color space) 변환을 기반으로 상기 기설정된 오브젝트에 대응하는 영역을 분할하는 과정과,Dividing a region corresponding to the preset object based on depth information and color space transformation of the preset object from a three-dimensional image including depth information acquired through the camera;
    분할된 영역의 오브젝트로부터 모션 성분을 가지는 서브 오브젝트를 분리하고, 분리된 상기 서브 오브젝트 및 상기 서브 오브젝트에 연계된 팜(palm) 영역을 기설정된 알고리즘을 기반으로 모델링하여 특징점을 검출하는 과정과,Separating a sub object having a motion component from an object of the divided region, and detecting a feature point by modeling the separated sub object and a palm region associated with the sub object based on a predetermined algorithm;
    소정의 유저 인터페이스를 통해 제공되는 오브젝트의 관절 정보를 기반으로 상기 서브 오브젝트의 자세를 추정하여 증강현실 서비스 이용을 위한 3D객체를 제어하는 과정을 포함함을 특징으로 하는 증강현실 상호 작용 서비스 제공 방법.And estimating a posture of the sub-object based on joint information of an object provided through a predetermined user interface to control a 3D object for using augmented reality service.
  2. 제1항에 있어서, 상기 기설정된 오브젝트에 대응하는 영역을 분할하는 과정은,The method of claim 1, wherein the dividing of the area corresponding to the preset object comprises:
    RGB 이미지로부터 상기 기설정된 오브젝트에 대응하는 손 이미지 영역의 RGB 색공간을 HSV 색공간으로 변환하여, 변환된 HSV 색공간에서 채도(saturation)와 진하기(value)에 대해 이중 임계치(double threshold) 수행을 통해 획득된 스킨(skin) 색공간을 기반으로 수행됨을 특징으로 하는 증강현실 상호 작용 서비스 제공 방법. Converts the RGB color space of the hand image region corresponding to the predetermined object from the RGB image to the HSV color space, and performs a double threshold on saturation and value in the converted HSV color space. Method for providing augmented reality interaction services, characterized in that performed based on the skin (skin) color space obtained through.
  3. 제2항에 있어서, The method of claim 2,
    깊이 이미지로부터 상기 손과 카메라 간 거리에 대응하는 거리를 임계치로 설정하고, 상기 각 이미지로부터 획득된 깊이 세그멘테이션(depth segmentation)과 RGB 세그멘테이션의 결과에 대응하는 교집합을 기반으로 손의 영역 분할이 수행됨을 특징으로 하는 증강현실 상호 작용 서비스 제공 방법.The distance corresponding to the distance between the hand and the camera from the depth image is set as a threshold, and the segmentation of the hand is performed based on the intersection corresponding to the result of the depth segmentation and the RGB segmentation obtained from each image. Method for providing augmented reality interaction services characterized in that.
  4. 제1항에 있어서, 상기 레퍼런스 좌표계(Reference Coordinates)를 생성하는 과정은,The method of claim 1, wherein the generating of the reference coordinates comprises:
    현실 공간에 대해 촬영된 깊이 영상 정보를 이용하여 상기 현실 공간에 대한 기하 구조를 분석하는 과정과,Analyzing the geometry of the real space using depth image information photographed for the real space;
    상기 분석된 상기 기하 구조를 이용하여 상기 현실 공간에 대한 제1 정합 좌표계를 생성하는 과정과,Generating a first registration coordinate system for the real space by using the analyzed geometric structure;
    상기 생성된 상기 현실 공간에 대한 제1 정합 좌표계를 이용하여 가상 공간을 정합하기 위해 미리 생성된 제2 정합 좌표계를 실측 기반으로 보정하는 과정을 포함함을 특징으로 하는 증강현실 상호 작용 서비스 제공 방법.And calibrating a pre-generated second registration coordinate system on an actual basis to match the virtual space using the generated first registration coordinate system for the real space.
  5. 제1항에 있어서, The method of claim 1,
    상기 오브젝트에 대응하는 손 이미지로부터 상기 서브 오브젝트에 대응하는 손가락의 자세를 추정하기 위하여 모폴로지컬(mophological) 연산을 이용하여 상기 서브 오브젝트에 연계된 팜 영역에 대응하는 손바닥과 손가락 분리를 통해 상기 팜 영역 모델링을 수행함을 특징으로 하는 증강현실 상호 작용 서비스 제공 방법.The palm region by separating a palm and a finger corresponding to a palm region associated with the sub-object using a morphological operation to estimate a posture of a finger corresponding to the sub-object from a hand image corresponding to the object. Method for providing augmented reality interaction services, characterized in that for performing the modeling.
  6. 제5항에 있어서, The method of claim 5,
    상기 손바닥의 중심점은 거리 변환(distance transform)을 통해 연산되고, The center point of the palm is computed through a distance transform,
    하기의 수학식을 기반으로 타원피팅에 의해 상기 손가락의 모델링을 수행하여, 모델링된 타원의 점들과 상기 연산된 손바닥 중심점과의 거리 중 가장 최소인 것을 기준점으로 추정함을 특징으로 하는 증강현실 상호 작용 서비스 제공 방법.Augmented reality interaction, characterized in that by performing the modeling of the finger by the elliptic fitting based on the following equation, the minimum of the distance between the modeled ellipse points and the calculated palm center point as a reference point How we deliver the service.
    Figure PCTKR2015006591-appb-I000001
    Figure PCTKR2015006591-appb-I000001
  7. 제1항에 있어서, 상기 특징점은,The method of claim 1, wherein the feature point,
    상기 서브 오브젝트에 대응하는 손가락 기준점과 깊이 정보 기반 손의 끝점을 포함하고,A finger reference point corresponding to the sub object and an end point of a depth information-based hand,
    상기 손의 끝점은 기모델링된 깊이 템플릿으로부터 템플릿 매칭을 이용하여 추출됨을 특징으로 하는 증강현실 상호 작용 서비스 제공 방법.The hand end point is extracted using a template matching from a pre-modeled depth template.
  8. 제1항에 있어서, 상기 서브 오브젝트의 자세를 추정하는 과정은,The method of claim 1, wherein the estimating the posture of the sub object comprises:
    생성된 레퍼런스 좌표계와 끝점의 위치를 기반으로 상기 서브 오브젝트에 대응하는 손가락 관절들의 파라미터를 추정하는 Inverse kinematics를 통해 수행되는 것으로, 상기 카메라로부터 획득된 오브젝트에 대응하는 손의 끝 위치에 대응하는 목표 지점과 현재 공간에 대해 촬영된 손의 끝 위치에 대응하는 현재 지점의 차이를 이용하여 각 관절들의 변화해야할 량을 추정함을 특징으로 하는 증강현실 상호 작용 서비스 제공 방법.A target point corresponding to an end position of a hand corresponding to an object obtained from the camera, which is performed through inverse kinematics that estimates parameters of finger joints corresponding to the sub-object based on the generated reference coordinate system and the position of the end point. And estimating the amount of change of each joint using a difference between a current point corresponding to the end position of the hand photographed with respect to the current space.
  9. 제4항에 있어서, 상기 기하 구조를 분석하는 과정은,The method of claim 4, wherein the analyzing of the geometry comprises:
    깊이 카메라를 이용하여 촬영된 상기 현실 공간에 대한 깊이 영상 정보를 이용하여 상기 현실 공간에 대한 기하 구조를 분석함을 특징으로 하는 증강현실 상호 작용 서비스 제공 방법.Method for providing an augmented reality interaction service characterized in that for analyzing the geometry of the real space using the depth image information of the real space photographed using a depth camera.
  10. 제9항에 있어서,The method of claim 9,
    사용자 입력을 통해 설정된 상기 현실 공간에서의 관심 영역을 수신하는 과정을 더 포함하고,The method may further include receiving a region of interest in the real space set through a user input.
    상기 기하 구조를 분석하는 과정은,The process of analyzing the geometric structure,
    상기 깊이 영상 정보를 이용하여 상기 관심 영역에 대한 기하 구조를 분석하고,Analyze the geometry of the ROI by using the depth image information;
    상기 제1 정합 좌표계를 생성하는 과정은,Generating the first registration coordinate system,
    상기 관심 영역에 대한 기하 구조 분석을 통해 상기 관심 영역의 평면, 접선, 접면, 교점 중 적어도 하나를 예측하며, 상기 예측된 평면, 접선, 접면, 교점 중 적어도 하나를 통해 상기 제1 정합 좌표계를 생성함을 특징으로 하는 증강현실 상호 작용 서비스 제공 방법.Analyze at least one of a plane, a tangent, a tangent, and an intersection of the ROI by analyzing the geometry of the ROI, and generate the first registered coordinate system through at least one of the predicted plane, the tangent, the tangent, and the intersection. Augmented reality interaction service providing method characterized in that.
  11. 제10항에 있어서, 상기 제1 정합 좌표계를 생성하는 과정은,The method of claim 10, wherein the generating of the first registration coordinate system comprises:
    상기 관심 영역에 대한 기하 구조 분석을 통해 원점과 방향을 계산하고, 상기 깊이 카메라의 자세와의 관계를 고려하여 상기 예측된 평면에 대해 정면, 측면, 바닥 중 어느 하나를 정의하며, 상기 가상 공간의 미리 결정된 좌표계 방향과 일치되도록 상기 계산된 방향 부호를 보정하여 상기 제1 정합 좌표계를 생성함을 특징으로 하는 증강현실 상호 작용 서비스 제공 방법.Calculate the origin and direction through the geometry analysis of the region of interest, and define any one of the front, side, and bottom of the predicted plane in consideration of the relationship with the pose of the depth camera, And generating the first matched coordinate system by correcting the calculated direction code so as to match a predetermined coordinate system direction.
  12. 제4항에 있어서, 상기 제2 정합 좌표계는,The method of claim 4, wherein the second registration coordinate system,
    SLAM(Simultaneous Localization and Mapping) 알고리즘으로부터 생성된 정합 좌표계이고,A registration coordinate system generated from a Simulaneous Localization and Mapping (SLAM) algorithm,
    상기 실측 기반으로 보정하는 과정은,The process of correcting on the basis of the measurement,
    SLAM 기반 카메라의 거리와 상기 깊이 영상 정보를 생성하는 깊이 카메라의 거리 비율 계산을 이용하여 상기 제2 정합 좌표계를 실측 기반으로 보정함을 특징으로 하는 증강현실 상호 작용 서비스 제공 방법.And calibrating the second registration coordinate system based on an actual measurement by using a distance ratio of a SLAM-based camera and a distance ratio calculation of a depth camera that generates the depth image information.
  13. 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 영상을 기반으로 레퍼런스 좌표계(Reference Coordinates)를 생성하는 정합 좌표계 보정부와,A matching coordinate system corrector for generating reference coordinates based on a 3D image including depth information obtained through a camera;
    상기 카메라를 통해 획득된 깊이 정보를 포함하는 3차원 이미지로부터 기설정된 오브젝트의 깊이 정보와 색공간(color space) 변환을 기반으로 상기 기설정된 오브젝트에 대응하는 영역을 분할하는 오브젝트 분리부와,An object separation unit for dividing an area corresponding to the predetermined object based on depth information of a predetermined object and color space transformation from a three-dimensional image including depth information obtained through the camera;
    분할된 영역의 오브젝트로부터 모션 성분을 가지는 서브 오브젝트를 분리하고, 분리된 상기 서브 오브젝트 및 상기 서브 오브젝트에 연계된 팜(palm) 영역을 기설정된 알고리즘을 기반으로 모델링하여 특징점을 검출하는 오브젝트 처리부와,An object processor for separating a sub-object having a motion component from the object of the divided region, and modeling the separated sub-object and a palm region associated with the sub-object based on a predetermined algorithm to detect a feature point;
    소정의 유저 인터페이스를 통해 제공되는 오브젝트의 골격 정보를 기반으로 상기 서브 오브젝트의 자세를 추정하여 증강현실 서비스 이용을 위한 3D객체를 제어하는 제어부를 포함함을 특징으로 하는 증강현실 상호 작용 서비스 제공 장치.And a controller configured to control a 3D object for augmented reality service by estimating a posture of the sub-object based on skeletal information of the object provided through a predetermined user interface.
  14. 제13항에 있어서, 상기 오브젝트 분리부는,The method of claim 13, wherein the object separation unit,
    상기 기설정된 오브젝트에 대응하는 영역에 대해 RGB 이미지로부터 상기 기설정된 오브젝트에 대응하는 손 이미지 영역의 RGB 색공간을 HSV 색공간으로 변환하여, 변환된 HSV 색공간에서 채도(saturation)와 진하기(value)에 대해 이중 임계치(double threshold) 수행을 통해 획득된 스킨(skin) 색공간을 기반으로 분할을 수행함을 특징으로 하는 증강현실 상호 작용 서비스 제공 장치.Converts the RGB color space of the hand image area corresponding to the predetermined object from the RGB image for the area corresponding to the predetermined object to an HSV color space, so that saturation and value in the converted HSV color space. The apparatus for providing augmented reality interaction services according to claim 1, wherein segmentation is performed based on a skin color space obtained by performing a double threshold.
  15. 제14항에 있어서, 상기 오브젝트 분리부에서는,The method of claim 14, wherein in the object separation unit,
    깊이 이미지로부터 상기 손과 카메라 간 거리에 대응하는 거리를 임계치로 설정하고, 상기 각 이미지로부터 획득된 깊이 세그멘테이션(depth segmentation)과 RGB 세그멘테이션의 결과에 대응하는 교집합을 기반으로 손의 영역 분할이 수행됨을 특징으로 하는 증강현실 상호 작용 서비스 제공 장치.The distance corresponding to the distance between the hand and the camera from the depth image is set as a threshold, and the segmentation of the hand is performed based on the intersection corresponding to the result of the depth segmentation and the RGB segmentation obtained from each image. Augmented reality interaction service providing device characterized in that.
  16. 제13항에 있어서, 상기 정합 좌표계 보정부는,The method of claim 13, wherein the registration coordinate system correction unit,
    현실 공간에 대해 촬영된 깊이 영상 정보를 이용하여 상기 현실 공간에 대한 기하 구조를 분석하는 분석부와,An analysis unit for analyzing a geometry of the real space using depth image information photographed for the real space;
    상기 분석된 상기 기하 구조를 이용하여 상기 현실 공간에 대한 제1 정합 좌표계를 생성하는 생성부 및A generator configured to generate a first matched coordinate system for the real space using the analyzed geometry;
    상기 생성된 상기 현실 공간에 대한 제1 정합 좌표계를 이용하여 가상 공간을 정합하기 위해 미리 생성된 제2 정합 좌표계를 실측 기반으로 보정하는 보정부를 포함함을 특징으로 하는 증강현실 상호 작용 서비스 제공 장치.And a correction unit configured to correct, based on the measurement, a second registration coordinate system generated in advance in order to match the virtual space using the generated first registration coordinate system with respect to the real space.
  17. 제13항에 있어서, 상기 오브젝트 처리부는,The method of claim 13, wherein the object processing unit,
    상기 오브젝트에 대응하는 손 이미지로부터 상기 서브 오브젝트에 대응하는 손가락의 자세를 추정하기 위하여 모폴로지컬(mophological) 연산을 이용하여 상기 서브 오브젝트에 연계된 팜 영역에 대응하는 손바닥과 손가락 분리를 통해 상기 팜 영역 모델링을 수행함을 특징으로 하는 증강현실 상호 작용 서비스 제공 장치.The palm region by separating a palm and a finger corresponding to a palm region associated with the sub-object using a morphological operation to estimate a posture of a finger corresponding to the sub-object from a hand image corresponding to the object. Device for providing augmented reality interaction services, characterized in that for performing the modeling.
  18. 제13항에 있어서, 상기 제어부는,The method of claim 13, wherein the control unit,
    생성된 레퍼런스 좌표계와 끝점의 위치를 기반으로 상기 서브 오브젝트에 대응하는 손가락 관절들의 파라미터를 추정하는 Inverse kinematics를 통해 수행되는 것으로, 상기 카메라로부터 획득된 오브젝트에 대응하는 손의 끝 위치에 대응하는 목표 지점과 현재 공간에 대해 촬영된 손의 끝 위치에 대응하는 현재 지점의 차이를 이용하여 각 관절들의 변화해야할 량을 추정하여 상기 서브 오브젝트의 자세를 추정함을 특징으로 하는 증강현실 상호 작용 서비스 제공 장치.A target point corresponding to an end position of a hand corresponding to an object obtained from the camera, which is performed through inverse kinematics that estimates parameters of finger joints corresponding to the sub-object based on the generated reference coordinate system and the position of the end point. And estimating an amount of change of each joint by using a difference between a current point corresponding to an end position of a hand photographed with respect to a current space and estimating a posture of the sub-object.
PCT/KR2015/006591 2014-06-26 2015-06-26 Apparatus and method for providing augmented reality interaction service WO2015199502A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/322,075 US10304248B2 (en) 2014-06-26 2015-06-26 Apparatus and method for providing augmented reality interaction service

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR10-2014-0079107 2014-06-26
KR20140079107 2014-06-26
KR20150008083 2015-01-16
KR10-2015-0008083 2015-01-16
KR1020150091330A KR101865655B1 (en) 2014-06-26 2015-06-26 Method and apparatus for providing service for augmented reality interaction
KR10-2015-0091330 2015-06-26

Publications (1)

Publication Number Publication Date
WO2015199502A1 true WO2015199502A1 (en) 2015-12-30

Family

ID=54938489

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/006591 WO2015199502A1 (en) 2014-06-26 2015-06-26 Apparatus and method for providing augmented reality interaction service

Country Status (1)

Country Link
WO (1) WO2015199502A1 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105979154A (en) * 2016-06-28 2016-09-28 广东欧珀移动通信有限公司 AR shooting method and device as well as intelligent terminal
CN110322484A (en) * 2019-05-29 2019-10-11 武汉幻石佳德数码科技有限公司 The calibration method and system of the augmented reality Virtual Space of more collaborative shares
CN110597442A (en) * 2019-09-20 2019-12-20 北京华捷艾米科技有限公司 Mobile phone AR drawing method and device
CN110617802A (en) * 2019-07-26 2019-12-27 北京控制工程研究所 Satellite-borne moving target detection and speed estimation method
CN112164131A (en) * 2020-09-25 2021-01-01 北京商询科技有限公司 Internal structure tangent plane method, device and computer equipment based on Unity engine
CN112348965A (en) * 2020-10-27 2021-02-09 维沃移动通信有限公司 Imaging method, imaging device, electronic equipment and readable storage medium
CN112927330A (en) * 2021-03-17 2021-06-08 北京七维视觉传媒科技有限公司 Method and system for generating virtual human body image
WO2023130047A1 (en) * 2021-12-30 2023-07-06 Canon U.S.A., Inc. Systems and methods for virtual reality immersive calling

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100980202B1 (en) * 2008-10-30 2010-09-07 한양대학교 산학협력단 Mobile augmented reality system for interaction with 3d virtual objects and method thereof
KR20120046607A (en) * 2010-11-02 2012-05-10 한국전자통신연구원 Method for tracking finger motion based on sensorless and apparatus thereof
KR20130099317A (en) * 2012-02-29 2013-09-06 한국전자통신연구원 System for implementing interactive augmented reality and method for the same
KR20140001167A (en) * 2012-06-26 2014-01-06 한국과학기술원 Method and apparatus for providing augmented reality service in wearable computing environment
KR20140028064A (en) * 2011-06-06 2014-03-07 마이크로소프트 코포레이션 System for recognizing an open or closed hand

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100980202B1 (en) * 2008-10-30 2010-09-07 한양대학교 산학협력단 Mobile augmented reality system for interaction with 3d virtual objects and method thereof
KR20120046607A (en) * 2010-11-02 2012-05-10 한국전자통신연구원 Method for tracking finger motion based on sensorless and apparatus thereof
KR20140028064A (en) * 2011-06-06 2014-03-07 마이크로소프트 코포레이션 System for recognizing an open or closed hand
KR20130099317A (en) * 2012-02-29 2013-09-06 한국전자통신연구원 System for implementing interactive augmented reality and method for the same
KR20140001167A (en) * 2012-06-26 2014-01-06 한국과학기술원 Method and apparatus for providing augmented reality service in wearable computing environment

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105979154A (en) * 2016-06-28 2016-09-28 广东欧珀移动通信有限公司 AR shooting method and device as well as intelligent terminal
CN110322484A (en) * 2019-05-29 2019-10-11 武汉幻石佳德数码科技有限公司 The calibration method and system of the augmented reality Virtual Space of more collaborative shares
CN110322484B (en) * 2019-05-29 2023-09-08 武汉幻石佳德数码科技有限公司 Calibration method and system for multi-device shared augmented reality virtual space
CN110617802A (en) * 2019-07-26 2019-12-27 北京控制工程研究所 Satellite-borne moving target detection and speed estimation method
CN110597442A (en) * 2019-09-20 2019-12-20 北京华捷艾米科技有限公司 Mobile phone AR drawing method and device
CN110597442B (en) * 2019-09-20 2021-03-16 北京华捷艾米科技有限公司 Mobile phone AR drawing method and device
CN112164131A (en) * 2020-09-25 2021-01-01 北京商询科技有限公司 Internal structure tangent plane method, device and computer equipment based on Unity engine
CN112164131B (en) * 2020-09-25 2024-04-05 北京商询科技有限公司 Method, device and computer equipment for cutting section of internal structure based on Unity engine
CN112348965A (en) * 2020-10-27 2021-02-09 维沃移动通信有限公司 Imaging method, imaging device, electronic equipment and readable storage medium
CN112927330A (en) * 2021-03-17 2021-06-08 北京七维视觉传媒科技有限公司 Method and system for generating virtual human body image
CN112927330B (en) * 2021-03-17 2024-04-26 北京七维视觉传媒科技有限公司 Method and system for generating virtual human body image
WO2023130047A1 (en) * 2021-12-30 2023-07-06 Canon U.S.A., Inc. Systems and methods for virtual reality immersive calling

Similar Documents

Publication Publication Date Title
WO2015199502A1 (en) Apparatus and method for providing augmented reality interaction service
KR101865655B1 (en) Method and apparatus for providing service for augmented reality interaction
US10732725B2 (en) Method and apparatus of interactive display based on gesture recognition
Cipolla et al. Human-robot interface by pointing with uncalibrated stereo vision
US11308347B2 (en) Method of determining a similarity transformation between first and second coordinates of 3D features
US9734393B2 (en) Gesture-based control system
KR20160000873A (en) Hand localization system and the method using head worn RGB-D camera, user interaction system
Lee et al. 3D natural hand interaction for AR applications
WO2016028097A1 (en) Wearable device
KR20150028181A (en) Pointing-direction detecting device and its method, program and computer readable-medium
US9911230B2 (en) Method and apparatus for controlling virtual monitor
JP2018119833A (en) Information processing device, system, estimation method, computer program, and storage medium
US20160086349A1 (en) Tracking hand pose using forearm-hand model
WO2017007166A1 (en) Projected image generation method and device, and method for mapping image pixels and depth values
KR20080065032A (en) User interface system based on half-mirror using gesture recognition
WO2015199470A1 (en) Apparatus and method for estimating hand position utilizing head mounted color depth camera, and bare hand interaction system using same
Battisti et al. Seamless bare-hand interaction in mixed reality
KR101426378B1 (en) System and Method for Processing Presentation Event Using Depth Information
Terajima et al. Fast finger tracking system for in-air typing interface
WO2021002530A1 (en) Portable terminal for generating indoor structure information based on wall surface pointing, and operating method therefor
Usabiaga et al. Global hand pose estimation by multiple camera ellipse tracking
Nabati et al. Camera mouse implementation using 3D head pose estimation by monocular video camera and 2D to 3D point and line correspondences
WO2015167081A1 (en) Method and device for detecting human body part
WO2023224326A1 (en) Augmented reality device for acquiring depth information, and operating method therefor
Watanabe et al. High-speed estimation of multi-finger position and pose for input interface of the mobile devices

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15812580

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15322075

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15812580

Country of ref document: EP

Kind code of ref document: A1