WO2017065348A1 - Collaboration method using head mounted display - Google Patents

Collaboration method using head mounted display Download PDF

Info

Publication number
WO2017065348A1
WO2017065348A1 PCT/KR2015/013636 KR2015013636W WO2017065348A1 WO 2017065348 A1 WO2017065348 A1 WO 2017065348A1 KR 2015013636 W KR2015013636 W KR 2015013636W WO 2017065348 A1 WO2017065348 A1 WO 2017065348A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
user
present
hmd
hand
Prior art date
Application number
PCT/KR2015/013636
Other languages
French (fr)
Korean (ko)
Inventor
우운택
노승탁
여휘숑
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of WO2017065348A1 publication Critical patent/WO2017065348A1/en

Links

Images

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Definitions

  • the present invention relates to a collaboration system using a head mounted display. More specifically, the present invention relates to a collaboration system that can provide a collaborative environment close to the real world to participants of the collaboration system in a limited environment with a minimum of devices.
  • Mixed Reality is a technique for combining reality and virtual images.
  • the main issue of mixed reality is blurring the line between virtual and reality to provide the user with an image without a boundary between the reality and the virtual image.
  • a head mounted display is a device that enables a virtual reality experience, but until now has been used only in a high-level controlled environment such as a laboratory.
  • consumer level HMDs have become commonplace, and some devices are being offered to users at acceptable prices. Although such consumer-level HMDs still have heavy and burdensome problems, they have become an opportunity for general users to use mixed reality, just as portable devices have made augmented reality famous in the past.
  • This limited area problem can be solved with immersive display technology, for example, large two-dimensional displays that can provide a depth signal of the appearance of a remote user. For example, it is used to utilize wall-sized screens that combine spaces spaced into connected rooms.
  • a single display has a limited view angle at which the user must always look at the screen, even if the head position is tracked, and this problem is called the 2.5D problem. That is, recent remote support environments have only set up a single display in front of the user, and thus there is a problem of limiting the user's visual and viewing directions.
  • the present invention provides a method for enabling remote collaboration.
  • the present invention employs HMD as the primary display to overcome the 2.5D problem described above. With this option, the present invention aims to summon a remote user of a remote space as an avatar to the local space where the user exists.
  • the HMD has a screen just in front of the user's eyes
  • the user's head orientation is free, not limited to the front of the screen, and the user's view can be extended to local space as a whole.
  • the present invention has another object to enable actual collaboration with local and remote users in a common space.
  • the present invention relates to a collaboration method using a head mounted display device, wherein a common space in which a user in a local area and a user in a remote area can collaborate using a common object is created in an image of a virtual world.
  • Doing Obtaining an image of a real world including the common space from a stereo camera; Determining a position of a user's hand in the image of the real world from the hand tracking information obtained from a depth sensor; Generating a mask mesh existing at a position corresponding to the position of the user's hand and displayed on an image of the virtual world using the hand tracking information; Generating an avatar to be displayed on an image of the virtual world using HMD tracking information and hand tracking information of a remote space user; Combining the images of the real world and the images of the virtual world, respectively, to generate an output image in which the common space, the mask mesh, and the avatar are displayed in the image of the real world; Displaying the output image on the HMD; Provided, the collaboration method using the HMD.
  • generating the avatar generates the body motion of the avatar using the body tracking information obtained from the external camera.
  • the generating of the common space may include generating a common space using a global tracker and a global tracker, wherein the local tracker is used only for the initial setting of the common space.
  • a remote collaboration system providing a mixed reality based on HMD
  • a remote user and a local user can easily collaborate.
  • each user can maintain their local space and use the HMD to see virtual objects, virtual space within the common space, and other users summoned as avatars, so that local users share a shared virtual within the common space. Collaborate effectively with objects.
  • the present invention uses vision-based hand tracking, there is an effect of allowing direct interaction with shared objects with bare hands without additional devices or controllers.
  • FIG. 1 is a block diagram illustrating a collaboration system according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an internal configuration of a control computer according to an embodiment of the present invention.
  • FIG. 3 is a diagram for describing generating an output image of an HMD according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating an operation according to an embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating a collaboration system according to an embodiment of the present invention.
  • the collaboration system of the present invention is a control computer 100, a head mounted display (HMD) 200, a stereo camera 300, depth sensor 400, external camera ( 500 and network 600.
  • HMD 200, the stereo camera 300, the depth sensor 400, and the external camera 500 may be present in both the local space A and the remote space B.
  • the collaboration system of the present invention is very useful in that it can share a workspace and a user's motion with a user located remotely.
  • the collaborative system of the present invention may be applied to remote surgery of surgeons in local and remote spaces that conduct surgery of the same patient.
  • the primary surgeon and the patient are physically located in the local space and fellow surgeons are located in the remote space, allowing surgery to be performed using the system of the present invention.
  • the patient becomes a shared object, and movements performed by the surgeon in the remote space are tracked in real time, and can be replicated in the local surgeon's local space as a virtual character such as an avatar, thereby allowing the local surgeon to view the view angle.
  • the operation of a mirrored remote surgeon can be seen in the local space.
  • the present invention provides an HMD 200 based collaboration system.
  • the present invention will be described based on the role of each device.
  • control computer 100 controls devices such as the HMD 200, the stereo camera 300, the depth sensor 400, and the external camera 500, and obtains from the devices. Using one piece of information, the image is rendered and controlled to create a mixed reality that combines the real world and the virtual world.
  • control computer 100 is based on the information obtained from the devices of the local and remote space, the user of the local space and the user of the remote space is the same co-space Enable collaboration on That is, the control computer 100 forms the same common space in the local space and the remote space, and generates an image which displays the avatars of the user in the local space and the user in the remote space in the common space of the remote space and the remote space, respectively, It serves to output to the users HMD (200).
  • control computer 100 manages the rendering, co-space coordinate system, and enables communication on the part of the collaborator during networking.
  • FIG. 1 illustrates an embodiment in which an HMD 200, a stereo camera 300, a depth sensor 400, and an external camera 500 are provided in a local space and a remote space according to an embodiment of the present invention
  • a device is provided.
  • the external camera 500 may not exist in the remote space.
  • body tracking is not performed, only the hand gesture of the remote user based on the hand tracking is mirrored and displayed in the common space.
  • the HMD 200 is a device that can be mounted on the user's head in local and remote spaces that can provide a user with an enclosing view of an image in which virtual objects and avatars are displayed. More specifically, the HMD 200 displays the avatar of the remote space in the common space, and provides a see-through image of the hand when there is a hand between the user's eyes and the virtual object, thereby providing a common view in the common space. It is a device that can display the image of collaboration.
  • the HMD 200 may be mounted on the user's head to present an image directly in front of the user's eyes.
  • the HMD 200 used in the present invention may include a left screen and a right screen. Since the left screen and the right screen are respectively visible to the user's left eye and right eye, the user may naturally provide stereoscopic images to the user. That is, in the same way as the human eye sees, the image shown in the left eye and the right eye may be different to give a sense of depth to the image.
  • the present invention can overcome the 2.5D problem using the HMD 200. As described above, since the screen is fixed in the past, the user's head must face toward the screen to see the remote user. However, the present invention enables the collaboration with a remote user by using the HMD 200, regardless of the user's head position and orientation.
  • the present invention uses a see-through HMD 200.
  • the see-through HMD 200 can be used because the screen is located in front of the user's eyes, thereby overcoming 2.5D problems and closed handling problems.
  • the see-through HMD 200 can be further divided into optical see-through and video see-through. In an optical see-through it is possible to provide a real world image without any obscuring parts, and the virtual object can be placed on the real world view, but it can appear as if the virtual object is floating in the air.
  • the present invention employs a depth mask generation that selects the video see-through HMD 200 and uses the depth sensor 400 (or near depth camera). Therefore, realism may be given to the HMD 200 image by using the distance relationship between the virtual object and the real world.
  • a virtual object such as the avatar display of the present invention, can completely create an augmented virtual image in the user's HMD 200 without a physical substitute, such as a robot.
  • the stereo camera 300 is a camera capable of generating a stereoscopic image.
  • the stereo camera 300 captures objects in the same direction as two images by using two photographing lenses spaced apart by a distance between human eyes, thereby generating a stereoscopic image on the same principle that humans perceive objects in three dimensions. Is a camera. Due to the captured image of the stereo camera 300, it is possible to support a real world view to the user in three dimensions.
  • the stereo camera 300 may be a camera embedded or attached to the HMD (200). That is, the stereo camera 300 according to an exemplary embodiment of the present invention may generate a stereoscopic image of things that the eyes of the user equipped with the HMD 200 can see beyond the HMD 200.
  • the left image and the right image generated by the stereo camera 300 may correspond to a scene in the real world that the left and right eyes of the user equipped with the HMD 200 can see.
  • Images generated by the stereo camera 300 may be corrected by the control computer 100.
  • the images generated by the stereo camera 300 may be corrected by the control computer 100 to correctly reflect the real world.
  • the generated images of the stereo camera 300 may be used as a real world view of the image displayed by the HMD 200. That is, a virtual object such as an avatar may be displayed on an image generated by the stereo camera 300.
  • the depth sensor 400 is a device that enables hand tracking, interaction with a virtual object, and generation of a mask mesh. Using the depth sensor 400, information can be generated that knows where the user's hand is located in the real world and how the finger joints move.
  • Depth sensor 400 may be a near depth depth camera (near range depth camera). That is, it may be a camera device capable of measuring distance based on vision. In addition, the depth sensor 400 may be embedded or attached to the HMD 200 like the stereo camera 300.
  • the most common and ideal method for 3D user interaction is direct interaction with bare hands and fingers. Humans are used to using their hands throughout their daily work, and human fingers have very high degrees of freedom. However, providing hand interaction in mixed reality presents difficulties for tracking hands and fingers in real time.
  • Traditional hand tracking devices include data globes using infrared markers. These devices are very expensive and have hindered the naturalness of the user experience.
  • the present invention can track the movement of the hand using a vision based depth sensor.
  • the exocentric camera 500 may generate body motion information of the user.
  • the external camera 500 is installed in a local space or a remote space to scan the user's body motion information, so that the avatar in the local or remote space mirrors the user's body motion.
  • the network 600 connects the plurality of devices and the control computer 100.
  • the network 400 refers to a network that provides a connection path for transmitting and receiving packet data after a plurality of devices are connected to the control computer 100.
  • the network 400 may be configured regardless of a communication mode such as wired communication or wireless communication, and includes a local area network (LAN) and a metropolitan area network (MAN). ), And various networks such as a wide area network (WAN).
  • the network 400 may include, at least in part, one of the known wired and wireless data networks, without needing to be limited thereto.
  • FIG. 2 is a diagram showing the internal configuration of the control computer 100 according to an embodiment of the present invention.
  • the control computer 100 includes a control unit 101, a communication interface unit 102, a common space setting unit 110, a mask mesh generating unit 120, a hand tracking unit 130, and an avatar generating unit. 140, a calibration unit 150, and an output image generator 160.
  • the controller 101 may include the common space setting unit 110, the mask mesh generator 120, the hand tracking unit 130, the avatar generator 140, the calibration unit 150, and the output image generator 160. It is responsible for coordinating the whole process so that each can play its role.
  • the communication interface 102 may communicate with external devices, that is, the internal components of the HMD 200, the stereo camera 300, the depth sensor 400, the external camera 500, and the control computer 100. It can provide an interface.
  • the common space setting unit 110 sets a virtual common space in which a user of a local space and a remote space may collaborate in which a shared object may be located.
  • the main object of the present invention is immersive and intuitive remote collaboration using hand-based interactions. Using the summoned avatar as a representation of the remote user, the user's motion can be mirrored on a common space. In this case, a part of the user's local space becomes a common space, and the common space is a space that allows the local and remote users to share the virtual object and manipulate the virtual objects together.
  • the present invention employs a hybrid method to localize a user's HMD 200 pose and register a common space. use.
  • the hybrid method of the present invention two types of trackers are used, an outside-in global tracker and an inside-out local tracker.
  • the global tracker allows the marker to be tracked while it is in the defined space, and has more flexibility.
  • the local tracker must always have a marker in view, thus limiting the camera view direction.
  • the global tracker can remove the limitation on the user's viewpoint problem, the global tracker cannot register a common space in the user's virtual world coordinates.
  • the present invention uses a local tracker for registering local markers as the basis of a common space.
  • the present invention can provide an unlimited view using a local tracker only once in the initial setup stage and a global tracker generally in stages for the remaining remote collaboration system.
  • the common space setting unit 110 of the present invention poses a local object registered in the global tracker
  • the common space coordinate information is calculated.
  • the pose of the registered local object is the basis of the shared virtual object in the user's space.
  • the user's hand or body data is converted to local coordinates based on the underlying object pose and transmitted to the remote user's space.
  • the mask mesh generating unit 120 generates a mask mesh having the same shape as a user's hand.
  • the resulting mask mesh is set to be transparent or opaque, thus providing a solution to the occlusion handling.
  • the present invention uses a masking mesh to handle occlusion of the hand between the user's eyes and the virtual objects. Firstly, the present invention converts a depth image into a 3D point cloud and converts it to a mesh by applying simple triangulation to the 3D point cloud. The present invention can set the generated mask mesh to translucent or fully transparent by changing the shader. If the shader is translucent, the user's hand is see-through. Or, if the shader is completely transparent, it creates an empty space on the virtual image, so that the user's actual hand can be seen completely in the HMD 200 view and can hide anything behind the hand. In one embodiment of the present invention, fully transparent shaders are more preferred, which can provide an experience that is more closely related to how a person perceives the real world.
  • the hand tracking unit 130 determines the position and movement of the user's hand using the data generated from the hand tracking information.
  • the present invention uses the depth sensor 400 to perform vision-based hand tracking.
  • a device for simple hand tracking and a device for generating depth data of a hand may be used.
  • the avatar generator 140 provides an expressive method of representing a remote user.
  • the avatar generator 140 generates an avatar to be displayed in the virtual world using the head position information, the hand tracking information, and the body tracking information of the user.
  • the avatar can mirror the physical motion or the user's body motion without using physical proxy or robotic hardware to represent the remote user.
  • An advantage of the avatar method is that it makes the remote user aware that it is located in the local user's space.
  • the avatar generator 140 of the present invention may generate an avatar corresponding to both a user in a local space and a remote space.
  • the present invention uses the hand tracking results of the local user to interact with and coordinate with the virtual objects.
  • Hand tracking information and head poses are transmitted to the remote space via the network 600 in real time. In remote spaces, this information is replicated in avatar motion, allowing the user to collaborate with high accuracy.
  • a virtual avatar As local and remote users share a common space, it is simple to summon a virtual avatar as a remote user to the local space. Initialization of the avatar in the real world is completed by placing a chess board marker on the floor.
  • the chessboard marker acts as a virtual anchor to the summoned remote space and can be physically relocated by the local user as required.
  • the chessboard marker also creates a virtual floor plane that is aligned with the real world floor plane. For this reason, the summoned avatar can be properly positioned on this plane.
  • the present invention transmits only the HMD 200 pose, skeletal joint data from the body and hands connected with the other side.
  • bandwidth requirements are relatively light when compared to video conferencing systems.
  • the tracking sensor of the external camera 500 may track the full body skeleton with a certain number of joints. Using this information, the present invention can scale and control the virtual avatar according to the actual user. Thus, the avatar must mirror the real world size and body motion of the tracked user. Since the hand tracking supported by the external camera 500 is limited, the present invention relies on the depth sensor 400 for fully connected hand hand tracking. Thus, since the body tracking information is obtained from the outer core camera 500 and the hand tracking information from the depth sensor 400, the control computer 100 mixes the body tracking information and the hand tracking information as a whole and thereby displays the final. Adjust so that the results look natural when viewed from the remote side.
  • the present invention may combine the hand information obtained from the depth sensor 400 to the wrist joint position of the body information generated by the external camera 500.
  • the present invention provides for use in the forearm tracked by the external camera 500 to overcome significant instability of the wrist and elbow joints tracked by occlusion problems that occur when the hand is pointing towards the external camera 500.
  • the target of the adjustment position can be changed with the palm tracked by the depth sensor 400.
  • the calibration unit 140 corrects the distortion of the images obtained from the devices, and calibrates the images from the devices to match.
  • a user can view a virtual stereoscopic image placed on a real world background image captured by the stereo camera 300.
  • These real-world images can be originally obtained through the fisheye lens of the stereo camera 300, and thus need to be prevented and corrected for distortion.
  • One of the undistorted images is used as the input image of the local tracker.
  • the left camera image of the stereo camera 300 may be used as the input image of the local tracker.
  • the basis of the transformation of the calibration step may be represented as Trgb_L.
  • Virtual stereoscopic images are rendered by the control computer 100 based on the virtual left (Trgb_L) and virtual right (Trgb_R) camera poses, which are sub-transformations of the HMD 200 pose THMD.
  • the present invention also sets the basic depth information of the depth camera to Tdepth to manage information from the depth sensor 400 such as connected hand tracking and real world depth.
  • the present invention may use a tracker inside the HMD 200 to track the THMD that is the position or depth information of the HMD 200.
  • the present invention can calibrate the stereo camera 300 using the tools and chessboard provided.
  • some devices for example, the depth sensor 400, may be automatically calibrated.
  • calibration is performed on devices in the same module.
  • the present invention calibrate devices in other device modules, here mainly images of cameras.
  • the present invention assumes that two or more cameras in the same module are properly calibrated.
  • the images of the stereo camera 300, the depth sensor 400, and the external camera 500 may be calibrated to match.
  • the output image generator 160 combines the left image and the right image of the real world with the left image and the right image of the virtual world including the mask mesh, respectively, to generate a left image and a right image to be displayed on the HMD 200.
  • FIG 3 is a diagram for describing an output image generating unit 160 generating an output image of the HMD 200 according to an embodiment of the present invention.
  • a real world left image and a right image generated by the stereo camera 300 are combined with a virtual world left image and a right image including virtual objects such as a mask mesh and an avatar.
  • the calibration of the calibration unit 140 may be performed when combining the images.
  • FIG. 3 (b) is a photographic example showing a simulation result according to an embodiment of the present invention.
  • the real world left image L and the real world right image R are obtained from the stereo camera 300.
  • the real world left image L and the real world right image R are combined with the virtual world left image and the right image to be displayed on the HMD 200. You can see that (OUTPUT) is created.
  • the avatar, the chess board, and the sky blue transparent common space are displayed on the existing real world left image L and the real world right image R.
  • FIG. virtual objects such as avatars, chess boards, and common spaces are the result of combining images of the virtual world with real world images.
  • the shader is set to the transparent state to show the user's hand as a completely opaque state, but in another embodiment of the present invention, the mask mesh is displayed and the user's hand can be seen as the see-through state.
  • FIG. 4 is a flowchart illustrating an operation according to an embodiment of the present invention.
  • an avatar to be displayed on the image of the virtual world is generated using the HMD tracking information and the hand tracking information of the remote space user.
  • connection or connection members of the lines between the components shown in the drawings by way of example shows a functional connection and / or physical or circuit connections, in the actual device replaceable or additional various functional connections, physical It may be represented as a connection, or circuit connections.
  • such as "essential”, “important” may not be a necessary component for the application of the present invention.
  • Embodiments according to the present invention described above can be implemented in the form of program instructions that can be executed by various computer components and recorded in a computer-readable recording medium.
  • the computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. medium) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device may be modified with one or more software modules to perform the processing according to the present invention, and vice versa.

Abstract

A collaboration method using a head mounted display (HMD), according to the present invention, comprises the steps of: generating a common space, in which a user in a local area and a user in a remote area can collaborate using a common object, in an image of a virtual world; obtaining an image of a real world including the common space from a stereo camera; determining a position of a user's hand in the image of the real world from hand tracking information obtained from a depth sensor; generating a mask mesh, which is present at a position corresponding to the position of the user's hand and displayed on the image of the virtual world, by using the hand tracking information; generating an avatar to be displayed in the image of the virtual world by using an HMD tracking information and the hand tracking information of the user in the remote area; generating an output image, in which the common space, the mask mesh, and the avatar are displayed on the image of the real world, by combining the image of the real world and the image of the virtual world; and displaying the output image on the HMD.

Description

헤드 마운트 디스플레이를 이용한 협업 방법Collaboration method with head mounted display
본 발명은 헤드 마운트 디스플레이를 이용한 협업 시스템에 관한 것이다. 보다 상세하게는, 제한된 환경에서 최소한의 디바이스만으로 협업 시스템의 참여자들에게 실세계와 근접한 협업 환경을 제공할 수 있는 협업 시스템에 관한 것이다.The present invention relates to a collaboration system using a head mounted display. More specifically, the present invention relates to a collaboration system that can provide a collaborative environment close to the real world to participants of the collaboration system in a limited environment with a minimum of devices.
혼합 현실(Mixed Reality)은 현실과 가상 이미지를 결합하는 것에 관한 기술이다. 혼합 현실의 주 이슈는 가상과 현실 사이의 선을 블러링(blurring)하여 사용자에게 어떻게 현실과 가상 이미지의 경계의 경계가 없는 이미지를 제공하는 것이다. 이와 관련하여, 헤드 마운트 디스플레이(Head Mounted Display, HMD)는 가상 현실 경험을 가능하게 만들어주는 장치이지만, 현재까지는 연구실과 같은 높은 수준으로 제어되는 환경에서만 사용되어 왔다.Mixed Reality is a technique for combining reality and virtual images. The main issue of mixed reality is blurring the line between virtual and reality to provide the user with an image without a boundary between the reality and the virtual image. In this regard, a head mounted display (HMD) is a device that enables a virtual reality experience, but until now has been used only in a high-level controlled environment such as a laboratory.
최근에는, 소비자 레벨 HMD가 일반적이 되었고, 일부 디바이스들은 수용 가능한 가격에 사용자에게 제공되고 있다. 비록, 이러한 소비자 레벨의 HMD는 아직까지 무겁고 짐이 되는 문제점이 존재하지만, 휴대용 디바이스가 과거에 증강 현실을 유명하게 만든 것처럼, 일반 사용자들로 하여금 혼합 현실을 사용할 수 있게 만드는 계기가 되고 있다.In recent years, consumer level HMDs have become commonplace, and some devices are being offered to users at acceptable prices. Although such consumer-level HMDs still have heavy and burdensome problems, they have become an opportunity for general users to use mixed reality, just as portable devices have made augmented reality famous in the past.
수년 동안, 텔레컨퍼런스(teleconference) 시스템은 통신 채널들이 보이스 및 비디오로 한정되었으며, 스크린 앞의 사용자를 촬영하는 카메라를 사용하였다. 이러한 방법의 단점은 사용자는 그들의 영역을 넘지 못한다는 것이다. 따라서, 이러한 시스템은 구두 커뮤니케이션이나 아이 컨택을 사용자간의 실제 협동 작업을 지원하는 것보다 중요하게 생각하는 문제점이 있었다.For many years, teleconference systems have limited communication channels to voice and video, and have used cameras to capture users in front of the screen. The disadvantage of this method is that users do not go beyond their area. Therefore, such a system has a problem in that verbal communication or eye contact is considered more important than supporting actual cooperative work between users.
이러한 제한된 영역 문제는 몰입형(immersive) 디스플레이 기술, 예를 들어 원격 사용자의 모습의 깊이 신호를 제공할 수 있는 거대 2차원 디스플레이로 해결될 수 있다. 예를 들어, 연결된 방으로 이격된 공간을 합치는 벽 크기의 스크린을 활용하는 방법에 사용되고 있다. 그러나, 단일 디스플레이는 비록 머리 위치가 추적될지라도, 사용자가 언제나 스크린을 봐야 하는 제한된 뷰(view) 각도를 가지며, 이러한 문제점은 2.5D 문제라 불리어지고 있다. 즉, 최근의 원격 지원 환경들도 사용자 앞의 단일 디스플레이를 설정하고 있을 뿐이므로, 사용자의 시각 및 뷰 방향을 제한하는 문제점이 존재한다.This limited area problem can be solved with immersive display technology, for example, large two-dimensional displays that can provide a depth signal of the appearance of a remote user. For example, it is used to utilize wall-sized screens that combine spaces spaced into connected rooms. However, a single display has a limited view angle at which the user must always look at the screen, even if the head position is tracked, and this problem is called the 2.5D problem. That is, recent remote support environments have only set up a single display in front of the user, and thus there is a problem of limiting the user's visual and viewing directions.
본 발명은 원격 협업을 가능하게 하는 방법을 제공한다.The present invention provides a method for enabling remote collaboration.
본 발명은 상술한 2.5D 문제를 극복하기 위하여, HMD를 주 디스플레이로 채용한다. 이러한 선택으로, 본원 발명은 사용자가 존재하는 로컬 공간으로 원격 공간의 원격 사용자를 아바타로서 소환하는 것을 일 목적으로 한다.The present invention employs HMD as the primary display to overcome the 2.5D problem described above. With this option, the present invention aims to summon a remote user of a remote space as an avatar to the local space where the user exists.
또한, HMD는 사용자의 눈 바로 앞에 스크린이 존재하기 때문에, 사용자의 머리 방향이 스크린의 전면으로 제한되지 않고 자유로우며, 사용자의 뷰는 로컬 스페이스로 전체로 확장될 수 있는 것을 다른 목적으로 한다.In addition, since the HMD has a screen just in front of the user's eyes, the user's head orientation is free, not limited to the front of the screen, and the user's view can be extended to local space as a whole.
또한, 기존의 기술들은 협업이 스크린 내에서만 가능하도록 하지만, 본원 발명은 공통 공간에서 로컬 사용자와 원격 사용자와 실제 협업이 가능하도록 하는 것을 다른 목적으로 한다.In addition, while existing technologies allow collaboration to be possible only within the screen, the present invention has another object to enable actual collaboration with local and remote users in a common space.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.Representative configuration of the present invention for achieving the above object is as follows.
본 발명은 헤드 마운트 디스플레이(Head Mounted Display) 장치를 이용한 협업 방법으로서, 로컬 영역의 사용자 및 원격 영역의 사용자가 공통 오브젝트를 이용하여 협업할 수 있는 공통 공간을 가상 세계(virtual world)의 영상에 생성하는 단계; 스테레오 카메라로부터 상기 공통 공간을 포함하는 실세계(real world)의 영상을 획득하는 단계; 깊이 센서로부터 획득한 핸드 트랙킹 정보로부터 상기 실세계의 영상 내에서의 사용자의 손의 위치를 결정하는 단계; 상기 핸드 트랙킹 정보를 이용하여, 상기 사용자의 손의 위치에 대응되는 위치에 존재하며, 상기 가상 세계의 영상에 표시되는 마스크 메쉬를 생성하는 단계; 원격 공간 사용자의 HMD 트랙킹 정보 및 핸드 트랙킹 정보를 사용하여, 상기 가상 세계의 영상에 표시될 아바타를 생성하는 단계; 상기 실세계의 영상과 가상세계의 영상을 각각 결합하여, 실세계의 영상에 상기 공통 공간, 상기 마스크 메쉬 및 상기 아바타가 표시되는 출력 영상을 생성하는 단계; 상기 HMD에 상기 출력 영상을 표시하는 단계; 를 포함하는, HMD를 사용하는 협업 방법을 제공한다.The present invention relates to a collaboration method using a head mounted display device, wherein a common space in which a user in a local area and a user in a remote area can collaborate using a common object is created in an image of a virtual world. Doing; Obtaining an image of a real world including the common space from a stereo camera; Determining a position of a user's hand in the image of the real world from the hand tracking information obtained from a depth sensor; Generating a mask mesh existing at a position corresponding to the position of the user's hand and displayed on an image of the virtual world using the hand tracking information; Generating an avatar to be displayed on an image of the virtual world using HMD tracking information and hand tracking information of a remote space user; Combining the images of the real world and the images of the virtual world, respectively, to generate an output image in which the common space, the mask mesh, and the avatar are displayed in the image of the real world; Displaying the output image on the HMD; Provided, the collaboration method using the HMD.
본 발명에 있어서, 아바타를 생성하는 단계는 외심 카메라로부터 획득한 바디 트랙킹 정보를 이용하여 아바타의 바디 모션을 생성한다.In the present invention, generating the avatar generates the body motion of the avatar using the body tracking information obtained from the external camera.
본 발명에 있어서, 상기 공통 공간을 생성하는 단계는, 글로벌 트랙커(global tracker) 및 로컬 트랙커(global tracker)를 사용하여 공통 공간을 생성하되, 상기 로컬 트랙커는 공통 공간의 초기 설정 단계에만 사용된다.In the present invention, the generating of the common space may include generating a common space using a global tracker and a global tracker, wherein the local tracker is used only for the initial setting of the common space.
본 발명에 의하면, HMD기반의 혼합 현실을 제공하는 원격 협업 시스템이 제공되므로, 원격 사용자와 로컬 사용자가 용이하게 협업할 수 있다. 보다 상세히, 각 유저는 자신들의 로컬 공간을 유지하고, HMD를 이용하여 가상 오브젝트, 공통 공간 내에서의 가상 공간 및 아바타로 소환된 다른 사용자를 투시할 수 있으므로, 로컬 사용자는 공통 공간 내의 공유된 가상 오브젝트로 협업을 효과적으로 수행할 수 있다.According to the present invention, since a remote collaboration system providing a mixed reality based on HMD is provided, a remote user and a local user can easily collaborate. In more detail, each user can maintain their local space and use the HMD to see virtual objects, virtual space within the common space, and other users summoned as avatars, so that local users share a shared virtual within the common space. Collaborate effectively with objects.
추가적으로, 본원 발명은 비전(vision) 기반의 핸드 트랙킹을 사용하므로, 추가적인 디바이스 혹은 컨트롤러 없이 맨손으로 공유된 오브젝트들과 직접 상호작용 할 수 있도록 하는 효과가 존재한다.In addition, since the present invention uses vision-based hand tracking, there is an effect of allowing direct interaction with shared objects with bare hands without additional devices or controllers.
도 1은 도 1 은 본 발명의 일 실시예에 따른 협업 시스템을 설명하기 위한 블록도이다.1 is a block diagram illustrating a collaboration system according to an embodiment of the present invention.
도 2 는 본 발명의 일 실시예에 따른 제어 컴퓨터의 내부 구성을 나타낸 도면이다.2 is a diagram illustrating an internal configuration of a control computer according to an embodiment of the present invention.
도 3 은 본 발명의 일 실시예에 따라 HMD의 출력 영상을 생성하는 것을 설명하기 위한 도면이다.3 is a diagram for describing generating an output image of an HMD according to an embodiment of the present invention.
도 4 는 본 발명의 일 실시예에 따른 동작을 순서도로 설명하는 도면이다.4 is a flowchart illustrating an operation according to an embodiment of the present invention.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.DETAILED DESCRIPTION The following detailed description of the invention refers to the accompanying drawings that show, by way of illustration, specific embodiments in which the invention may be practiced. These embodiments are described in sufficient detail to enable those skilled in the art to practice the invention. It should be understood that the various embodiments of the present invention are different but need not be mutually exclusive. For example, certain shapes, structures, and characteristics described herein may be implemented with changes from one embodiment to another without departing from the spirit and scope of the invention. In addition, it is to be understood that the location or arrangement of individual components within each embodiment may be changed without departing from the spirit and scope of the invention. Accordingly, the following detailed description is not to be taken in a limiting sense, and the scope of the present invention should be taken as encompassing the scope of the claims of the claims and all equivalents thereto. Like reference numerals in the drawings indicate the same or similar elements throughout the several aspects.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, various embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily implement the present invention.
도 1 은 본 발명의 일 실시예에 따른 협업 시스템을 설명하기 위한 블록도이다.1 is a block diagram illustrating a collaboration system according to an embodiment of the present invention.
본 발명의 일 실시예에 따르면, 본원 발명의 협업 시스템은 제어 컴퓨터(100), 헤드 마운트 디스플레이(Head Mounted Display, HMD)(200), 스테레오 카메라(300), 깊이 센서(400), 외심 카메라(500) 및 네트워크(600)를 포함한다. 또한, 상기 HMD(200), 스테레오 카메라(300), 깊이 센서(400), 외심 카메라(500)는 로컬 공간(A) 및 원격 공간(B)에 모두 존재할 수 있다.According to an embodiment of the present invention, the collaboration system of the present invention is a control computer 100, a head mounted display (HMD) 200, a stereo camera 300, depth sensor 400, external camera ( 500 and network 600. In addition, the HMD 200, the stereo camera 300, the depth sensor 400, and the external camera 500 may be present in both the local space A and the remote space B.
본 발명의 협업 시스템은 원격에 위치하는 사용자와 작업 공간 및 사용자의 모션을 공유할 수 있다는 점에서 매우 유용하다. 예를 들어, 본 발명의 협업 시스템은 같은 환자의 수술을 집도하는 로컬 공간(local space) 및 원격 공간(remote space)의 외과의사들의 원격 수술에 적용될 수 있다. 로컬 공간에 주 외과의 및 환자가 물리적으로 위치하고, 원격 공간에는 동료 외과의들이 위치하여, 본 발명의 시스템을 이용하여 수술을 진행할 수 있다. 이때, 환자는 공유 오브젝트가 되고, 원격 공간의 외과의에 의해 실행된 동작은 실시간으로 추적되며, 아바타와 같은 가상 캐릭터로 주 외과의의 로컬 공간에서 복제될 수 있으므로, 로컬 외과의는 뷰(view) 각도의 제한 없이 로컬 공간에서 미러링(mirroring)된 원격 외과의의 동작을 볼 수 있다.The collaboration system of the present invention is very useful in that it can share a workspace and a user's motion with a user located remotely. For example, the collaborative system of the present invention may be applied to remote surgery of surgeons in local and remote spaces that conduct surgery of the same patient. The primary surgeon and the patient are physically located in the local space and fellow surgeons are located in the remote space, allowing surgery to be performed using the system of the present invention. At this point, the patient becomes a shared object, and movements performed by the surgeon in the remote space are tracked in real time, and can be replicated in the local surgeon's local space as a virtual character such as an avatar, thereby allowing the local surgeon to view the view angle. Without limitation, the operation of a mirrored remote surgeon can be seen in the local space.
이와 같은 유용한 협업 시스템을 구현하기 위해, 본 발명은 HMD(200) 기반의 협업 시스템을 제공한다. 이하에서는, 각 장치의 역할에 기초하여 본원 발명을 살펴보기로 한다.In order to implement such a useful collaboration system, the present invention provides an HMD 200 based collaboration system. Hereinafter, the present invention will be described based on the role of each device.
먼저, 본 발명의 일 실시예에 따른 제어 컴퓨터(100)는, HMD(200), 스테레오 카메라(300), 깊이 센서(400) 및 외심 카메라(500)와 같은 디바이스들을 제어하고, 디바이스들로부터 획득한 정보를 이용하여, 이미지를 렌더링 및 제어하여 실세계(real world)와 가상 세계(virtual world)를 결합한 혼합 현실(Mixed Reality)을 생성한다. 특히, 본 발명의 일 실시예에 따른 제어 컴퓨터(100)는 로컬 공간과 원격 공간의 디바이스들로부터 획득한 정보에 기초하여, 로컬 공간의 사용자와 원격 공간의 사용자들이 동일한 공통 공간(co-space)에서 협업할 수 있도록 한다. 즉, 제어 컴퓨터(100)는 로컬 공간 및 원격 공간에 동일한 공통 공간을 형성하고, 로컬 공간의 사용자 및 원격 공간의 사용자의 아바타를 각각 원격 공간 및 원격 공간의 공통 공간에 표시하는 영상을 생성하여, 사용자들의 HMD(200)에 출력하는 역할을 수행한다.First, the control computer 100 according to an embodiment of the present invention controls devices such as the HMD 200, the stereo camera 300, the depth sensor 400, and the external camera 500, and obtains from the devices. Using one piece of information, the image is rendered and controlled to create a mixed reality that combines the real world and the virtual world. In particular, the control computer 100 according to an embodiment of the present invention is based on the information obtained from the devices of the local and remote space, the user of the local space and the user of the remote space is the same co-space Enable collaboration on That is, the control computer 100 forms the same common space in the local space and the remote space, and generates an image which displays the avatars of the user in the local space and the user in the remote space in the common space of the remote space and the remote space, respectively, It serves to output to the users HMD (200).
또한, 제어 컴퓨터(100)는 렌더링, 공통 공간(co-space)의 좌표 시스템을 관리하고, 네트워킹 동안 협업자의 측에서 의사소통을 가능하게 한다.In addition, the control computer 100 manages the rendering, co-space coordinate system, and enables communication on the part of the collaborator during networking.
도 1 에서는 비록 본 발명의 일 실시예에 따라 로컬 공간 및 원격 공간에 HMD(200), 스테레오 카메라(300), 깊이 센서(400) 및 외심 카메라(500)가 구비된 실시예를 도시하였지만, 디바이스들의 구성은 발명의 실시예에 따라 다양하게 변형될 수 있다. 예를 들어, 원격 공간에는 외심 카메라(500)가 존재하지 않을 수 있다. 이 경우에는, 바디 트랙킹이 이루어지지 못하므로, 핸드 트랙킹에 기초한 원격 사용자의 손동작만이 미러링되어 공통 공간에 표시된다. 또한, 도 1 에서는 비록 로컬 공간에 대응하는 원격 공간을 하나만 도시하였지만, 본 발명의 다른 실시예에 의하면 복수개의 원격 공간과, 그에 따른 복수개의 원격 공간에 따른 복수명의 사용자가 있을 수 있다.Although FIG. 1 illustrates an embodiment in which an HMD 200, a stereo camera 300, a depth sensor 400, and an external camera 500 are provided in a local space and a remote space according to an embodiment of the present invention, a device is provided. These configurations can be variously modified according to the embodiment of the invention. For example, the external camera 500 may not exist in the remote space. In this case, since body tracking is not performed, only the hand gesture of the remote user based on the hand tracking is mirrored and displayed in the common space. In addition, although only one remote space corresponding to the local space is illustrated in FIG. 1, according to another embodiment of the present invention, there may be a plurality of remote spaces and a plurality of users according to the plurality of remote spaces.
이하에서는, 제어 컴퓨터(100)가 제어하는 디바이스들의 동작으로 본원의 협업 시스템을 설명하도록 한다.Hereinafter, the operation of the devices controlled by the control computer 100 to describe the collaboration system of the present application.
HMD(200)는 사용자에게 가상 오브젝트들 및 아바타가 표시되는 영상의 에워싸는 뷰(view)를 제공할 수 있는, 로컬 공간 및 원격 공간의 사용자의 머리에 장착할 수 있는 디바이스이다. 보다 구체적으로, HMD(200)는 공통 공간에 원격 공간의 아바타를 표시하는 한편, 사용자의 눈과 가상 오브젝트 사이에 손이 있는 경우에는 손의 시스루(see-through) 영상을 제공하여, 공통 공간에서 협업이 이루어지는 영상을 표시할 수 있는 디바이스이다.The HMD 200 is a device that can be mounted on the user's head in local and remote spaces that can provide a user with an enclosing view of an image in which virtual objects and avatars are displayed. More specifically, the HMD 200 displays the avatar of the remote space in the common space, and provides a see-through image of the hand when there is a hand between the user's eyes and the virtual object, thereby providing a common view in the common space. It is a device that can display the image of collaboration.
HMD(200)는 기본적으로, 사용자의 머리 부분에 장착해 사용자의 눈앞에 직접 영상을 제시할 수 있다. 본 발명에 사용되는 HMD(200)는 좌측 스크린과 우측 스크린을 포함할 수 있다. 좌측 스크린 및 우측 스크린은 각각 사용자의 왼쪽 눈 및 오른쪽 눈에 보여지므로, 자연스럽게 사용자에게 입체 영상을 제공할 수 있다. 즉, 인간의 눈이 보는 방식과 동일하게, 왼쪽 눈과 오른쪽 눈에 보여지는 영상을 달리 함으로써 영상에 깊이감을 부여할 수 있다.Basically, the HMD 200 may be mounted on the user's head to present an image directly in front of the user's eyes. The HMD 200 used in the present invention may include a left screen and a right screen. Since the left screen and the right screen are respectively visible to the user's left eye and right eye, the user may naturally provide stereoscopic images to the user. That is, in the same way as the human eye sees, the image shown in the left eye and the right eye may be different to give a sense of depth to the image.
본 발명은 HMD(200)를 이용하여 2.5D 문제를 극복할 수 있다. 상술한 바와 같이, 기존에는 스크린이 고정되어 있었기 때문에 사용자의 머리가 반드시 스크린 방향을 향해야 원격 사용자의 모습을 볼 수 있었다. 그러나, 본원 발명은 HMD(200)를 사용함으로써, 사용자의 머리 위치 및 방향에 상관없이 원격 사용자와의 협업을 가능케한다.The present invention can overcome the 2.5D problem using the HMD 200. As described above, since the screen is fixed in the past, the user's head must face toward the screen to see the remote user. However, the present invention enables the collaboration with a remote user by using the HMD 200, regardless of the user's head position and orientation.
기존의 3D 시스템에서는, 사용자의 눈과 스크린이 표시하는 가상 오브젝트 사이에 손이 존재하는 경우, 시스템은 사용자의 손이 스크린을 물리적으로 가로막기 때문에 가상 오브젝트를 볼 수 없었다. 이는 폐쇄적인 핸들링의 문제라고 칭해진다.In existing 3D systems, if a hand is present between the user's eyes and the virtual object that the screen displays, the system could not see the virtual object because the user's hand physically blocked the screen. This is called a problem of closed handling.
이러한 문제를 해결하기 위해 본 발명은 시스루 HMD(200) 를 사용한다. 시스루 HMD(200)는 스크린이 사용자의 눈 앞에 가깝게 위치하기 때문에 사용하여, 2.5D 문제 및 폐쇄적인 핸들링 문제점을 극복할 수 있다. 시스루 HMD(200) 는 옵티컬(optical) 시스루 및 비디오 시스루로 추가적으로 나뉘어 질 수 있다. 옵티컬 시스루에서는 가려지는 부분 없이 실세계의 이미지를 제공 가능하고, 가상 오브젝트는 실세계 뷰 상에 위치할 수 있지만, 가상 오브젝트가 공기 상에 떠다니는 것 같이 보일 수는 있다. In order to solve this problem, the present invention uses a see-through HMD 200. The see-through HMD 200 can be used because the screen is located in front of the user's eyes, thereby overcoming 2.5D problems and closed handling problems. The see-through HMD 200 can be further divided into optical see-through and video see-through. In an optical see-through it is possible to provide a real world image without any obscuring parts, and the virtual object can be placed on the real world view, but it can appear as if the virtual object is floating in the air.
이에, 본원 발명은 비디오 시스루 HMD(200) 를 선택하고, 깊이 센서(400)(혹은 근거리 깊이 카메라)를 사용하는 깊이 마스크 생성기(depth mask generation) 를 채용하였다. 따라서, 가상 오브젝트 및 실세계의 거리 관계를 이용하여 HMD(200) 영상에 현실감을 부여할 수 있다. 이러한 본원 발명의 접근 방법으로, 본원 발명의 아바타 표시와 같은 가상 오브젝트는 로봇과 같은 물리적인 대용품 없이 사용자의 HMD(200) 에서 증강된 가상 이미지를 완벽히 생성할 수 있다.Accordingly, the present invention employs a depth mask generation that selects the video see-through HMD 200 and uses the depth sensor 400 (or near depth camera). Therefore, realism may be given to the HMD 200 image by using the distance relationship between the virtual object and the real world. With this approach of the present invention, a virtual object, such as the avatar display of the present invention, can completely create an augmented virtual image in the user's HMD 200 without a physical substitute, such as a robot.
다음으로, 스테레오 카메라(300)(Stereoscopic Camera)는 입체 영상을 생성할 수 있는 카메라이다. 스테레오 카메라(300)는 사람의 눈 사이 간격만큼 떨어진 2 개의 촬영용 렌즈를 사용하여 같은 방향의 사물을 2 장의 화상으로 촬영함으로써, 인간이 사물을 입체적으로 인식하는 것과 동일한 원리로 입체 영상을 생성할 수 있는 카메라이다. 스테레오 카메라(300)의 촬영 영상으로 인해, 사용자에게 실세계 뷰를 입체적으로 지원하는 것이 가능하다.Next, the stereo camera 300 is a camera capable of generating a stereoscopic image. The stereo camera 300 captures objects in the same direction as two images by using two photographing lenses spaced apart by a distance between human eyes, thereby generating a stereoscopic image on the same principle that humans perceive objects in three dimensions. Is a camera. Due to the captured image of the stereo camera 300, it is possible to support a real world view to the user in three dimensions.
본 발명의 일 실시예에 있어서, 스테레오 카메라(300)는 HMD(200)에 내장 혹은 부착된 카메라일 수 있다. 즉, 본 발명의 일 실시에에 따른 스테레오 카메라(300)는 HMD(200)를 장착한 사용자의 눈이 HMD(200)를 넘어 볼 수 있는 것들을 입체 영상으로 생성할 수 있다. 예를 들어, 스테레오 카메라(300)가 생성한 좌측 영상 및 우측 영상은 HMD(200)를 장착한 사용자의 왼쪽 눈 및 오른쪽 눈이 볼 수 있는 실세계의 장면에 대응될 수 있다.In one embodiment of the invention, the stereo camera 300 may be a camera embedded or attached to the HMD (200). That is, the stereo camera 300 according to an exemplary embodiment of the present invention may generate a stereoscopic image of things that the eyes of the user equipped with the HMD 200 can see beyond the HMD 200. For example, the left image and the right image generated by the stereo camera 300 may correspond to a scene in the real world that the left and right eyes of the user equipped with the HMD 200 can see.
스테레오 카메라(300)가 생성하는 영상들은 제어 컴퓨터(100)에 의해 교정될 수 있다. 예를 들어, 스테레오 카메라(300)의 렌즈들이 어안 렌즈일 경우, 스테레오 카메라(300)가 생성한 영상들이 실세계를 올바르게 반영할 수 있도록 제어 컴퓨터(100)에 의해 교정될 수 있다.Images generated by the stereo camera 300 may be corrected by the control computer 100. For example, when the lenses of the stereo camera 300 are fisheye lenses, the images generated by the stereo camera 300 may be corrected by the control computer 100 to correctly reflect the real world.
상기 생성된 스테레오 카메라(300)의 영상들은 HMD(200)가 표시하는 영상의 실세계 뷰로서 사용될 수 있다. 즉, 스테레오 카메라(300)가 생성하는 영상 위에 아바타와 같은 가상 오브젝트가 표시될 수 있다.The generated images of the stereo camera 300 may be used as a real world view of the image displayed by the HMD 200. That is, a virtual object such as an avatar may be displayed on an image generated by the stereo camera 300.
다음으로, 깊이 센서(400)(Depth Sensor)는 핸드 트랙킹(hand tracking), 가상 오브젝트와의 상호 작용, 마스크 메쉬를 생성할 수 있도록 하는 장치이다. 깊이 센서(400)를 이용하여, 사용자의 손이 실세계 상에서 어디에 위치하는지 및 손가락 관절들은 어떻게 움직이는지 알 수 있는 정보가 생성될 수 있다.Next, the depth sensor 400 is a device that enables hand tracking, interaction with a virtual object, and generation of a mask mesh. Using the depth sensor 400, information can be generated that knows where the user's hand is located in the real world and how the finger joints move.
본 발명의 일 실시에에 따른 깊이 센서(400)는 근거리 깊이 카메라(near range Depth Camera) 일 수 있다. 즉, 비전-기반으로 거리를 측정 가능한 카메라 장치일 수 있다. 또한, 깊이 센서(400)는 스테레오 카메라(300)와 마찬가지로 HMD(200)에 내장되거나 부착될 수 있다. Depth sensor 400 according to an embodiment of the present invention may be a near depth depth camera (near range depth camera). That is, it may be a camera device capable of measuring distance based on vision. In addition, the depth sensor 400 may be embedded or attached to the HMD 200 like the stereo camera 300.
3D 사용자 상호작용을 위한 가장 일반적이고 이상적인 방법은 맨손 및 손가락을 이용한 직접적인 상호작용이다. 인간은 일상 작업을 통해 그들의 손을 사용하는 것에 익숙하고, 인간의 손가락은 매우 높은 자유도를 가진다. 그러나, 혼합 현실에서 손 상호작용을 제공하는 것은 실시간으로 손과 손가락을 트래킹하는 것에 대한 어려움이 존재한다. 기존의 손을 트래킹하는 디바이스들은 적외선 마커를 사용한 데이터 글로브 등이 있었다. 이러한 디바이스들은 매우 비싸고 사용자 경험(user experience)의 자연스러움을 저해시켰다. 따라서, 본원 발명은 비전 기반의 깊이 센서를 이용하여 손의 움직임을 트랙킹할 수 있다.The most common and ideal method for 3D user interaction is direct interaction with bare hands and fingers. Humans are used to using their hands throughout their daily work, and human fingers have very high degrees of freedom. However, providing hand interaction in mixed reality presents difficulties for tracking hands and fingers in real time. Traditional hand tracking devices include data globes using infrared markers. These devices are very expensive and have hindered the naturalness of the user experience. Thus, the present invention can track the movement of the hand using a vision based depth sensor.
다음으로, 외심 카메라(500)(exocentric camera)는 사용자의 바디 모션 정보(body motion information)를 생성할 수 있다. 본 발명의 일 실시예에 따르면, 외심 카메라(500)는 로컬 공간 혹은 원격 공간에 설치되어 사용자의 바디 모션 정보를 스캐닝하여, 로컬 공간 혹은 원격 공간의 아바타가 사용자의 바디 모션을 미러링하도록 한다.Next, the exocentric camera 500 may generate body motion information of the user. According to one embodiment of the invention, the external camera 500 is installed in a local space or a remote space to scan the user's body motion information, so that the avatar in the local or remote space mirrors the user's body motion.
한편, 네트워크(600)는 복수 개의 디바이스들 및 제어 컴퓨터(100)를 연결하는 역할을 수행한다. 즉, 네트워크(400)는 복수 개의 디바이스들이 제어 컴퓨터(100)에 접속한 후 패킷 데이터를 송수신할 수 있도록 접속 경로를 제공하는 네트워크를 의미한다. 즉, 본 발명의 일 실시예에 따른 네트워크(400)은 유선 통신이나 무선 통신과 같은 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 네트워크(LAN; Local Area Network), 도시권 네트워크(MAN; Metropolitan Area Network), 광역 네트워크(WAN; Wide Area Network) 등 다양한 네트워크로 구성될 수 있다. 그러나, 네트워크(400)은, 굳이 이에 국한될 필요 없이, 공지의 유무선 데이터 네트워크 중 하나를 그 적어도 일부에 있어서 포함할 수도 있다.Meanwhile, the network 600 connects the plurality of devices and the control computer 100. That is, the network 400 refers to a network that provides a connection path for transmitting and receiving packet data after a plurality of devices are connected to the control computer 100. That is, the network 400 according to an embodiment of the present invention may be configured regardless of a communication mode such as wired communication or wireless communication, and includes a local area network (LAN) and a metropolitan area network (MAN). ), And various networks such as a wide area network (WAN). However, the network 400 may include, at least in part, one of the known wired and wireless data networks, without needing to be limited thereto.
도 2 는 본 발명의 일 실시예에 따른 제어 컴퓨터(100)의 내부 구성을 나타낸 도면이다.2 is a diagram showing the internal configuration of the control computer 100 according to an embodiment of the present invention.
도 2 를 참조하면, 제어 컴퓨터(100)는 제어부(101), 통신 인터페이스부(102), 공통 공간 설정부(110), 마스크 메쉬 생성부(120), 핸드 트랙킹부(130), 아바타 생성부(140), 캘리브레이션부(150) 및 출력 영상 생성부(160)를 포함한다.2, the control computer 100 includes a control unit 101, a communication interface unit 102, a common space setting unit 110, a mask mesh generating unit 120, a hand tracking unit 130, and an avatar generating unit. 140, a calibration unit 150, and an output image generator 160.
먼저, 제어부(101)는 공통 공간 설정부(110), 마스크 메쉬 생성부(120), 핸드 트랙킹부(130), 아바타 생성부(140), 캘리브레이션부(150) 및 출력 영상 생성부(160)가 각 역할을 수행할 수 있도록 전체 프로세스를 조정하는 역할을 수행한다.First, the controller 101 may include the common space setting unit 110, the mask mesh generator 120, the hand tracking unit 130, the avatar generator 140, the calibration unit 150, and the output image generator 160. It is responsible for coordinating the whole process so that each can play its role.
또한, 통신 인터페이스부(102)는 외부 디바이스들, 즉 HMD(200), 스테레오 카메라(300), 깊이 센서(400), 외심 카메라(500)와 제어 컴퓨터(100)의 내부 구성들이 통신할 수 있는 인터페이스를 제공할 수 있다.In addition, the communication interface 102 may communicate with external devices, that is, the internal components of the HMD 200, the stereo camera 300, the depth sensor 400, the external camera 500, and the control computer 100. It can provide an interface.
공통 공간 설정부(110)는 공유 오브젝트가 위치할 수 있는, 로컬 공간 및 원격 공간의 사용자가 협업할 수 있는 가상의 공통 공간을 설정한다. 본원 발명의 주된 목적은 핸드-기반 상호작용을 이용한 에워싸는 (immersive) 및 직관적인 원격 협업이다. 소환된 아바타를 원격 사용자의 표시로 사용하면서, 사용자의 모션을 공통 공간 상에서 미러링할 수 있다. 이때, 사용자의 로컬 공간의 일부는 공통 공간이 되며, 공통 공간은 가상 오브젝트를 로컬 사용자 및 원격 사용자들이 공유할 수 있고 함께 가상 오브젝트들을 조종할 수 있도록 하는 공간이다.The common space setting unit 110 sets a virtual common space in which a user of a local space and a remote space may collaborate in which a shared object may be located. The main object of the present invention is immersive and intuitive remote collaboration using hand-based interactions. Using the summoned avatar as a representation of the remote user, the user's motion can be mirrored on a common space. In this case, a part of the user's local space becomes a common space, and the common space is a space that allows the local and remote users to share the virtual object and manipulate the virtual objects together.
환경적으로 묶인 센서들 및 디스플레이에 의지하지 않고, 경량 시스템에 대한 좌표 시스템을 등록하고 트랙킹하기 위해 본원 발명은 사용자의 HMD(200) 포즈(pose)를 국한시키고 공통 공간을 등록하기 위해 하이브리드 방법을 사용한다.In order to register and track a coordinate system for a lightweight system without resorting to environmentally bound sensors and displays, the present invention employs a hybrid method to localize a user's HMD 200 pose and register a common space. use.
본원 발명의 하이브리드 방법에서는, 외-내부(outside-in) 글로벌 트랙커(global tracker) 및 내-외부(inside-out) 로컬 트랙커(global tracker)의 두가지 타입의 트랙커를 사용한다. 글로벌 트랙커는 그것이 정의된 공간 안에 있는 동안 마커가 트랙킹될 수 있고, 더 많은 유연성을 가진다. 그러나, 로컬 트랙커는 마커가 항상 시야 안에 남아있어야 하고, 따라서 카메라 뷰 방향을 제한한다. 비록 글로벌 트랙커가 사용자의 뷰 포인트 문제 상의 제한을 없앨 수 있을지라도, 글로벌 트랙커는 사용자의 가상 세계 좌표 내의 공통 공간을 등록할 수 없다. 따라서, 본원 발명은 로컬 마커를 등록하기 위한 로컬 트랙커를 공통 공간의 기초로 사용한다.In the hybrid method of the present invention, two types of trackers are used, an outside-in global tracker and an inside-out local tracker. The global tracker allows the marker to be tracked while it is in the defined space, and has more flexibility. However, the local tracker must always have a marker in view, thus limiting the camera view direction. Although the global tracker can remove the limitation on the user's viewpoint problem, the global tracker cannot register a common space in the user's virtual world coordinates. Thus, the present invention uses a local tracker for registering local markers as the basis of a common space.
예를 들어, 사용자는 원격 협업 시스템을 사용하기 위한 초기 설정 스테이지에서 로컬 오브젝트만을 보면 된다. 본원 발명은 초기 설정 스테이지에서 로컬 트랙커를 한번만 사용하고, 나머지 원격 협업 시스템을 위한 스테이지들에서는 일반적으로 글로벌 트랙커를 사용하여 제한없는 뷰를 제공할 수 있다.For example, the user only needs to look at local objects in the initial setup stage to use the remote collaboration system. The present invention can provide an unlimited view using a local tracker only once in the initial setup stage and a global tracker generally in stages for the remaining remote collaboration system.
본 발명의 공통 공간 설정부(110)는 글로벌 트랙커에 등록된 로컬 오브젝트를 포즈(pose)시키면, 공통 공간 좌표 정보가 계산된다. 등록된 로컬 오브젝트의 포즈는 사용자의 공간에서 공유되는 가상 오브젝트의 기초가 된다. 사용자의 손 혹은 바디 데이터는 기초 오브젝트 포즈에 기초하는 로컬 좌표로 변환되고, 원격 사용자의 공간으로 전송된다.When the common space setting unit 110 of the present invention poses a local object registered in the global tracker, the common space coordinate information is calculated. The pose of the registered local object is the basis of the shared virtual object in the user's space. The user's hand or body data is converted to local coordinates based on the underlying object pose and transmitted to the remote user's space.
마스크 메쉬 생성부(120)는 사용자의 손과 동일한 모양의 마스크 메쉬를 생성한다. 생성된 마스크 메쉬는 투명 또는 불투명하게 설정됨으로써, 폐색 핸들링을 해결하는 방안을 제공한다.The mask mesh generating unit 120 generates a mask mesh having the same shape as a user's hand. The resulting mask mesh is set to be transparent or opaque, thus providing a solution to the occlusion handling.
폐색 핸들링은 시스루 HMD(200)에 있어 중요한 문제이다. 본원 발명은 사용자의 눈과 가상 오브젝트들 사이의 손의 폐색을 다루기 위해 마스크 메쉬(masking mesh) 를 사용한다. 첫번째로, 본원 발명은 3D 포인트 클라우드로 깊이 이미지를 전환하고, 상기 3D 포인트 클라우드에 단순 삼각 측량을 적용하여 메쉬로 전환한다. 본원 발명은 셰이더(shader) 를 변경함으로써, 생성된 마스크 메쉬를 반투명 혹은 완전투명으로 설정할 수 있다. 만약 셰이더가 반투명이라면, 사용자의 손은 시스루 상태가 된다. 혹은, 셰이더가 완전 투명 상태인 경우, 가상 이미지 상에 빈 공간을 만들어내고, 따라서 사용자의 실제 손은 HMD(200) 뷰에서 완전히 보일 수 있고, 손 뒤에 있는 어떤 것도 가릴 수 있다. 본원 발명의 일 실시예에서는, 사람이 어떻게 실세계를 인지하는지에 더 밀접하게 관련된 경험을 제공할 수 있는, 완전 투명 셰이더가 좀 더 선호된다.Occlusion handling is an important issue for the see-through HMD 200. The present invention uses a masking mesh to handle occlusion of the hand between the user's eyes and the virtual objects. Firstly, the present invention converts a depth image into a 3D point cloud and converts it to a mesh by applying simple triangulation to the 3D point cloud. The present invention can set the generated mask mesh to translucent or fully transparent by changing the shader. If the shader is translucent, the user's hand is see-through. Or, if the shader is completely transparent, it creates an empty space on the virtual image, so that the user's actual hand can be seen completely in the HMD 200 view and can hide anything behind the hand. In one embodiment of the present invention, fully transparent shaders are more preferred, which can provide an experience that is more closely related to how a person perceives the real world.
핸드 트랙킹부(130)는 핸드 트랙킹 정보로부터 생성된 데이터를 이용하여 사용자의 손의 위치 및 움직임을 결정한다.The hand tracking unit 130 determines the position and movement of the user's hand using the data generated from the hand tracking information.
상기 마스크 메쉬 생성부에서 생성된 마스크 메쉬를 HMD(200) 영상에 출력되는 손에 덧입히기 위해서는, 정확한 핸드 트랙킹이 필요하다. 상술한 바와 같이, 본원 발명은 깊이 센서(400)를 이용하여 비전 기반의 핸드 트랙킹을 수행한다. 혹은, 본 발명의 다른 실시예에 따르면, 단순 핸드 트랙킹을 위한 디바이스와, 손의 깊이 데이터를 생성하는 디바이스를 사용할 수도 있다.In order to add the mask mesh generated by the mask mesh generator to the hand output on the HMD 200 image, accurate hand tracking is required. As described above, the present invention uses the depth sensor 400 to perform vision-based hand tracking. Alternatively, according to another embodiment of the present invention, a device for simple hand tracking and a device for generating depth data of a hand may be used.
아바타 생성부(140)는 원격 사용자를 나타내는 표현적 방법을 제공하는 것으로, 사용자의 머리 위치 정보, 핸드 트랙킹 정보 및 바디 트랙킹 정보를 사용하여, 가상 세계에 표시될 아바타를 생성한다. 아바타는 원격 사용자를 나타내기 위하여 물리적 대리 혹은 로보틱 하드웨어를 사용하지 않고도, 물리적 움직임 혹은 사용자의 바디 모션을 미러링할 수 있다. 아바타 방법의 장점은 원격 사용자가 로컬 사용자의 공간에 위치한다고 인식하게 하는 것이다. 본 발명의 아바타 생성부(140)는 로컬 공간 및 원격 공간의 사용자 모두에 대응하는 아바타를 생성할 수 있다.The avatar generator 140 provides an expressive method of representing a remote user. The avatar generator 140 generates an avatar to be displayed in the virtual world using the head position information, the hand tracking information, and the body tracking information of the user. The avatar can mirror the physical motion or the user's body motion without using physical proxy or robotic hardware to represent the remote user. An advantage of the avatar method is that it makes the remote user aware that it is located in the local user's space. The avatar generator 140 of the present invention may generate an avatar corresponding to both a user in a local space and a remote space.
본원 발명은 가상 오브젝트들과 상호작용하고 조정하기 위하여 로컬 사용자의 핸드 트랙킹 결과를 사용한다. 핸드 트랙킹 정보 및 헤드 포즈는 실시간으로 네트워크(600)를 통해 원격 공간으로 전송된다. 원격 공간에서는, 이러한 정보들은 아바타 모션으로 복제되고, 사용자로 하여금 높은 정확도록 협업할 수 있도록 한다.The present invention uses the hand tracking results of the local user to interact with and coordinate with the virtual objects. Hand tracking information and head poses are transmitted to the remote space via the network 600 in real time. In remote spaces, this information is replicated in avatar motion, allowing the user to collaborate with high accuracy.
공통 공간을 로컬 사용자 및 원격 사용자가 공유함에 따라, 로컬 스페이스로 가상 아바타를 원격 사용자로서 소환하는 것이 간단해진다. 실세계 내의 아바타의 초기화는 바닥 면에 체스보드(chess board) 마커를 두는 것으로서 완료된다. 체스보드 마커는 소환된 원격 공간에 대한 가상 앵커(anchor)로 작동하며, 요구되는 바와 같이 로컬 사용자에 의해 물리적으로 재배치될 수 있다. 또한, 체스보드 마커는 실세계 바닥 평면에 정렬되는 가상 바닥 평면을 생성한다. 이런 이유로, 소환된 아바타는 이 평면 상에 적절하게 위치될 수 있다.As local and remote users share a common space, it is simple to summon a virtual avatar as a remote user to the local space. Initialization of the avatar in the real world is completed by placing a chess board marker on the floor. The chessboard marker acts as a virtual anchor to the summoned remote space and can be physically relocated by the local user as required. The chessboard marker also creates a virtual floor plane that is aligned with the real world floor plane. For this reason, the summoned avatar can be properly positioned on this plane.
네트워킹에 있어, 본원 발명은 HMD(200) 포즈(pose), 바디로부터의 골격 관절 데이터 및 다른 측과 연결된 손만을 전송한다. 따라서, 대역폭 요구량은 화상회의 시스템과 비교할 때 비교적 가볍다.In networking, the present invention transmits only the HMD 200 pose, skeletal joint data from the body and hands connected with the other side. Thus, bandwidth requirements are relatively light when compared to video conferencing systems.
외심 카메라(500)의 트랙킹 센서는 일정 수의 관절로 풀 바디 골격을 트랙킹할 수 있다. 이 정보를 사용하여, 본원 발명은 실제 사용자에 따른 가상 아바타를 스케일하고 제어할 수 있다. 따라서, 아바타는 트랙킹되는 사용자의 실세계 사이즈 및 바디 모션을 미러링해야 한다. 외심 카메라(500)에 의해 지원되는 핸드 트랙킹은 제한되어 있기 때문에, 본원 발명은 완전히 연결된 핸드 핸드 트랙킹을 위하여 깊이 센서(400)에 의존한다. 따라서, 바디 트랙킹 정보는 외심 카메라(500)로부터, 핸드 트랙킹 정보는 깊이 센서(400)로부터 획득되므로, 제어 컴퓨터(100)는 바디 트랙킹 정보와 핸드 트랙킹 정보를 혼합하고 전체로서 표시하며, 이로 인해 최종 결과가 원격 측에서 보여질 때 자연스럽게 보일 수 있도록 조정한다.The tracking sensor of the external camera 500 may track the full body skeleton with a certain number of joints. Using this information, the present invention can scale and control the virtual avatar according to the actual user. Thus, the avatar must mirror the real world size and body motion of the tracked user. Since the hand tracking supported by the external camera 500 is limited, the present invention relies on the depth sensor 400 for fully connected hand hand tracking. Thus, since the body tracking information is obtained from the outer core camera 500 and the hand tracking information from the depth sensor 400, the control computer 100 mixes the body tracking information and the hand tracking information as a whole and thereby displays the final. Adjust so that the results look natural when viewed from the remote side.
이를 위하여, 본원 발명은 깊이 센서(400)로부터 획득한 핸드 정보를 외심 카메라(500)가 생성한 바디 정보의 손목 관절 위치에 결합할 수 있다. 또한, 본원 발명은 손이 외심 카메라(500)를 향해 가리키고 있을 때 발생하는 폐색 문제에 의해 트랙킹된 손목 및 팔꿈치 관절이 상당히 불안정해 지는 것을 극복하기 위하여, 외심 카메라(500)에 의해 트랙킹된 팔뚝에서 깊이 센서(400)에 의해 트랙킹된 손바닥으로 조정 위치의 목표를 변경할 수 있다.To this end, the present invention may combine the hand information obtained from the depth sensor 400 to the wrist joint position of the body information generated by the external camera 500. In addition, the present invention provides for use in the forearm tracked by the external camera 500 to overcome significant instability of the wrist and elbow joints tracked by occlusion problems that occur when the hand is pointing towards the external camera 500. The target of the adjustment position can be changed with the palm tracked by the depth sensor 400.
캘리브레이션부(140)는 디바이스들로부터 획득된 이미지들의 왜곡을 보정하고, 각 디바이스들로부터의 이미지가 일치하도록 캘리브레이션(calibration)한다. HMD(200)를 통해서, 사용자는 스테레오 카메라(300)에 의해 캡쳐된 실세계 배경 이미지에 놓은 가상 입체 이미지를 볼 수 있다. 이러한 실세계 이미지들은 스테레오 카메라(300)의 어안 렌즈를 통해 원래 획득될 수 있으며, 따라서 왜곡 방지 및 수정이 필요하다. 왜곡되지 않은 이미지들 중 하나는 로컬 트랙커의 입력 이미지로 사용된다.The calibration unit 140 corrects the distortion of the images obtained from the devices, and calibrates the images from the devices to match. Through the HMD 200, a user can view a virtual stereoscopic image placed on a real world background image captured by the stereo camera 300. These real-world images can be originally obtained through the fisheye lens of the stereo camera 300, and thus need to be prevented and corrected for distortion. One of the undistorted images is used as the input image of the local tracker.
본원 발명의 초기 실행에서는, 로컬 트랙커의 입력 이미지로서 스테레오 카메라(300)의 좌측 카메라 이미지를 사용할 수 있다. 이때, 캘리브레이션 (calibration) 단계의 변환의 기초는 Trgb_L 이라 표시할 수 있다.In an initial implementation of the present invention, the left camera image of the stereo camera 300 may be used as the input image of the local tracker. In this case, the basis of the transformation of the calibration step may be represented as Trgb_L.
가상 입체 이미지들은 HMD(200) 포즈(THMD) 의 서브-변환인 가상 좌측 (Trgb_L) 및 가상 우측 (Trgb_R) 카메라 포즈에 기초하여 제어 컴퓨터(100)에 의해 렌더링된다. 본원 발명은 또한 연결된 핸드 트랙킹 및 실세계 깊이와 같은 깊이 센서(400)부터의 정보를 관리하기 위하여 깊이 카메라의 기본 깊이 정보를 Tdepth 로 설정한다. 또한, 본원 발명은 HMD(200) 의 위치 또는 깊이 정보인 THMD 를 트랙킹하기 위해, 본원 발명은 HMD(200) 내부의 트랙커를 사용할 수 있다.Virtual stereoscopic images are rendered by the control computer 100 based on the virtual left (Trgb_L) and virtual right (Trgb_R) camera poses, which are sub-transformations of the HMD 200 pose THMD. The present invention also sets the basic depth information of the depth camera to Tdepth to manage information from the depth sensor 400 such as connected hand tracking and real world depth. In addition, the present invention may use a tracker inside the HMD 200 to track the THMD that is the position or depth information of the HMD 200.
본원의 협업 시스템의 사용 준비 중에, 카메라들의 내부 및 외부 파라미터들을 획득하기 위하여 2 가지 단계의 캘리브레이션 프로세스가 필요한데, 이는 1) 같은 모듈 안에서의 캘리브레이션 및 2) 다른 모듈들 사이의 캘리브레이션이다.In preparation for the use of the collaboration system of the present application, two steps of calibration process are required to obtain the internal and external parameters of the cameras, 1) calibration in the same module and 2) calibration between other modules.
첫번째 스텝에서, 본원 발명은 제공되는 툴 및 체스보드를 사용하여 스테레오 카메라(300)를 캘리브레이션할 수 있다. 또한, 본 발명의 다른 일 실시예들에 따르면 일부 디바이스, 예를 들어 깊이 센서(400)는 자동적으로 캘리브레이션 될 수 있다. 또한, 상술한 바와 같이, 핸드 트랙킹을 위한 깊이 센서(400)에서 두가지 이상의 디바이스가 사용되는 것과 같은 경우, 동일 모듈 내의 디바이스들에 대해 캘리브레이션을 수행한다.In a first step, the present invention can calibrate the stereo camera 300 using the tools and chessboard provided. In addition, according to other embodiments of the present invention, some devices, for example, the depth sensor 400, may be automatically calibrated. In addition, as described above, when two or more devices are used in the depth sensor 400 for hand tracking, calibration is performed on devices in the same module.
두번째 스텝에서, 본원 발명은 다른 디바이스 모듈들 내의 디바이스들을, 본원에서는 주로 카메라들의 영상들을 캘리브레이션한다. 첫번째 스텝 후에, 본원 발명은 동일 모듈 내의 두가지 이상의 카메라가 제대로 캘리브레이션되었다고 가정한다. 본 발명에 있어서, HMD(200) 영상이 끊어짐이 없이 제공되기 위해, 스테레오 카메라(300), 깊이 센서(400), 외심 카메라(500)의 이미지들이 모두 일치되도록 캘리브레이션될 수 있다.In a second step, the present invention calibrate devices in other device modules, here mainly images of cameras. After the first step, the present invention assumes that two or more cameras in the same module are properly calibrated. In the present invention, in order to provide the HMD 200 image without interruption, the images of the stereo camera 300, the depth sensor 400, and the external camera 500 may be calibrated to match.
출력 영상 생성부(160)는 실세계의 좌측 영상 및 우측 영상과, 마스크 메쉬를 포함하는 가상세계의 좌측 영상 및 우측 영상을 각각 결합하여 HMD(200)에 표시될 좌측 영상 및 우측 영상을 생성한다.The output image generator 160 combines the left image and the right image of the real world with the left image and the right image of the virtual world including the mask mesh, respectively, to generate a left image and a right image to be displayed on the HMD 200.
도 3 은 본 발명의 일 실시예에 따라 출력 영상 생성부(160)가 HMD(200)의 출력 영상을 생성하는 것을 설명하기 위한 도면이다.3 is a diagram for describing an output image generating unit 160 generating an output image of the HMD 200 according to an embodiment of the present invention.
도 3의 (a)를 참조하면, 먼저 스테레오 카메라(300)가 생성한 실세계 좌측 영상과 우측 영상을, 마스크 메쉬 및 아바타 등의 가상 오브젝트가 포함된 가상세계 좌측 영상과 우측 영상에 각각 결합한다. 이때, 영상의 결합에 있어 상술한 바와 같이 캘리브레이션부(140)의 캘리브레이션이 수행될 수 있다Referring to FIG. 3A, first, a real world left image and a right image generated by the stereo camera 300 are combined with a virtual world left image and a right image including virtual objects such as a mask mesh and an avatar. In this case, as described above, the calibration of the calibration unit 140 may be performed when combining the images.
도 3 의 (b) 는 본 발명의 일 실시예에 따른 시뮬레이션 결과를 나타낸 사진 예시이다. 도 3 의 (b) 를 참조하면, 실세계 좌측 영상(L) 및 실세계 우측 영상(R)이 스테레오 카메라(300)로부터 획득된 것을 알 수 있다. 또한, 도 3 의 (b) 의 화살표 우측을 살펴보면, 실세계 좌측 영상(L) 및 실세계 우측 영상(R)이 가상세계 좌측 영상 및 우측 영상과 결합되어 HMD(200)에 표시될 좌측 영상 및 우측 영상(OUTPUT)이 생성된 것을 알 수 있다. 3 (b) is a photographic example showing a simulation result according to an embodiment of the present invention. Referring to FIG. 3B, it can be seen that the real world left image L and the real world right image R are obtained from the stereo camera 300. In addition, referring to the right side of the arrow of FIG. 3B, the real world left image L and the real world right image R are combined with the virtual world left image and the right image to be displayed on the HMD 200. You can see that (OUTPUT) is created.
도 3 의 (b) 의 (OUTPUT)을 살펴보면 기존의 실세계 좌측 영상(L) 및 실세계 우측 영상(R)에 아바타 및 체스 보드, 그리고 하늘색의 투명 공통 공간이 표시된 것을 알 수 있다. 상술한 바와 같이 아바타 및 체스 보드, 그리고 공통 공간과 같은 가상 오브젝트는 가상 세계의 영상이 실세계 영상에 결합된 결과이다. 본 실시예에서는 셰이더를 투명 상태로 설정하여 사용자의 손이 완전 불투명 상태로 보이는 예를 도시하였지만, 본 발명의 다른 일 실시예에서는 마스크 메쉬가 표시되고 사용자의 손이 시스루 상태로 보여질 수 있다.Referring to (OUTPUT) of FIG. 3B, the avatar, the chess board, and the sky blue transparent common space are displayed on the existing real world left image L and the real world right image R. FIG. As described above, virtual objects such as avatars, chess boards, and common spaces are the result of combining images of the virtual world with real world images. In the present embodiment, the shader is set to the transparent state to show the user's hand as a completely opaque state, but in another embodiment of the present invention, the mask mesh is displayed and the user's hand can be seen as the see-through state.
도 4 는 본 발명의 일 실시예에 따른 동작을 순서도로 설명하는 도면이다.4 is a flowchart illustrating an operation according to an embodiment of the present invention.
먼저, 로컬 영역의 사용자 및 원격 영역의 사용자가 공통 오브젝트를 이용하여 협업할 수 있는 공통 공간을 가상 세계의 영상에 생성한다. (S1)First, a common space in which a user in a local area and a user in a remote area can collaborate using a common object is created in an image of a virtual world. (S1)
다음으로, 스테레오 카메라로부터 공통 공간을 포함하는 실세계의 영상을 획득한다. (S2)Next, an image of a real world including a common space is obtained from a stereo camera. (S2)
다음으로, 깊이 센서로부터 획득한 핸드 트랙킹 정보로부터 실세계의 영상 내에서의 사용자의 손의 위치를 결정한다. (S3)Next, the position of the user's hand in the image of the real world is determined from the hand tracking information obtained from the depth sensor. (S3)
다음으로, 핸드 트랙킹 정보를 이용하여, 사용자의 손의 위치에 대응되는 위치에 존재하며, 가상 세계의 영상에 표시되는 마스크 메쉬를 생성한다. (S4)Next, by using the hand tracking information, a mask mesh existing at a position corresponding to the position of the user's hand and displayed on an image of the virtual world is generated. (S4)
다음으로, 원격 공간 사용자의 HMD 트랙킹 정보 및 핸드 트랙킹 정보를 사용하여, 가상 세계의 영상에 표시될 아바타를 생성한다. (S5)Next, an avatar to be displayed on the image of the virtual world is generated using the HMD tracking information and the hand tracking information of the remote space user. (S5)
다음으로, 실세계의 영상과 가상세계의 영상을 각각 결합하여, 실세계의 영상에 공통 공간, 마스크 메쉬 및 아바타가 표시되는 출력 영상을 생성한다. (S6)Next, an image of the real world and an image of the virtual world are respectively combined to generate an output image in which a common space, a mask mesh, and an avatar are displayed on the image of the real world. (S6)
마지막으로, HMD에 출력 영상을 표시한다. (S7)Finally, the output image is displayed on the HMD. (S7)
본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, “필수적인”, “중요하게” 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.Particular implementations described in the present invention are embodiments and do not limit the scope of the present invention in any way. For brevity of description, descriptions of conventional electronic configurations, control systems, software, and other functional aspects of the systems may be omitted. In addition, the connection or connection members of the lines between the components shown in the drawings by way of example shows a functional connection and / or physical or circuit connections, in the actual device replaceable or additional various functional connections, physical It may be represented as a connection, or circuit connections. In addition, unless specifically mentioned, such as "essential", "important" may not be a necessary component for the application of the present invention.
본 발명의 명세서(특히 특허청구범위에서)에서 “상기”의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.In the specification (particularly in the claims) of the present invention, the use of the term “above” and similar indicating terminology may correspond to both the singular and the plural. In addition, in the present invention, when the range is described, it includes the invention to which the individual values belonging to the range are applied (if not stated to the contrary), and each individual value constituting the range is described in the detailed description of the invention. Same as Finally, if there is no explicit order or contrary to the steps constituting the method according to the invention, the steps may be performed in a suitable order. The present invention is not necessarily limited to the description order of the above steps. The use of all examples or exemplary terms (eg, etc.) in the present invention is merely for the purpose of describing the present invention in detail, and the scope of the present invention is limited by the examples or exemplary terms unless defined by the claims. It doesn't happen. In addition, one of ordinary skill in the art appreciates that various modifications, combinations and changes can be made depending on design conditions and factors within the scope of the appended claims or equivalents thereof.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.Embodiments according to the present invention described above can be implemented in the form of program instructions that can be executed by various computer components and recorded in a computer-readable recording medium. The computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. medium) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be modified with one or more software modules to perform the processing according to the present invention, and vice versa.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.Although the present invention has been described by specific matters such as specific components and limited embodiments and drawings, it is provided only to help a more general understanding of the present invention, and the present invention is not limited to the above embodiments. Those skilled in the art may make various modifications and changes from this description.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention should not be limited to the above-described embodiments, and the scope of the spirit of the present invention is defined not only in the claims below, but also in the ranges equivalent to or equivalent to the claims. Will belong to.

Claims (3)

  1. 헤드 마운트 디스플레이(Head Mounted Display, HMD) 장치를 이용한 협업 방법으로서,As a collaboration method using a head mounted display (HMD) device,
    로컬 영역의 사용자 및 원격 영역의 사용자가 공통 오브젝트를 이용하여 협업할 수 있는 공통 공간을 가상 세계(virtual world)의 영상에 생성하는 단계;Generating a common space in an image of a virtual world in which a user in a local area and a user in a remote area can collaborate using a common object;
    스테레오 카메라로부터 상기 공통 공간을 포함하는 실세계(real world)의 영상을 획득하는 단계;Obtaining an image of a real world including the common space from a stereo camera;
    깊이 센서로부터 획득한 핸드 트랙킹 정보로부터 상기 실세계의 영상 내에서의 사용자의 손의 위치를 결정하는 단계;Determining a position of a user's hand in the image of the real world from the hand tracking information obtained from a depth sensor;
    상기 핸드 트랙킹 정보를 이용하여, 상기 사용자의 손의 위치에 대응되는 위치에 존재하며, 상기 가상 세계의 영상에 표시되는 마스크 메쉬를 생성하는 단계;Generating a mask mesh existing at a position corresponding to the position of the user's hand and displayed on an image of the virtual world using the hand tracking information;
    원격 공간 사용자의 HMD 트랙킹 정보 및 핸드 트랙킹 정보를 사용하여, 상기 가상 세계의 영상에 표시될 아바타를 생성하는 단계;Generating an avatar to be displayed on an image of the virtual world using HMD tracking information and hand tracking information of a remote space user;
    상기 실세계의 영상과 가상세계의 영상을 각각 결합하여, 실세계의 영상에 상기 공통 공간, 상기 마스크 메쉬 및 상기 아바타가 표시되는 출력 영상을 생성하는 단계; 및Combining the images of the real world and the images of the virtual world, respectively, to generate an output image in which the common space, the mask mesh, and the avatar are displayed in the image of the real world; And
    상기 HMD에 상기 출력 영상을 표시하는 단계;Displaying the output image on the HMD;
    를 포함하는, HMD를 사용하는 협업 방법.Including, the collaboration method using the HMD.
  2. 제 1 항에 있어서,The method of claim 1,
    상기 아바타를 생성하는 단계는 외심 카메라로부터 획득한 바디 트랙킹 정보를 이용하여 아바타의 바디 모션을 생성하는, HMD를 사용하는 협업 방법.The generating of the avatar may include generating a body motion of the avatar by using body tracking information obtained from an external camera.
  3. 제 1 항에 있어서,The method of claim 1,
    상기 공통 공간을 생성하는 단계는, 글로벌 트랙커(global tracker) 및 로컬 트랙커(global tracker)를 사용하여 공통 공간을 생성하되,The generating of the common space may include generating a common space using a global tracker and a global tracker.
    상기 로컬 트랙커는 공통 공간의 초기 설정 단계에만 사용되는, HMD를 사용하는 협업 방법.And the local tracker is used only for the initial setup phase of the common space.
PCT/KR2015/013636 2015-10-15 2015-12-14 Collaboration method using head mounted display WO2017065348A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2015-0143855 2015-10-15
KR1020150143855A KR101763636B1 (en) 2015-10-15 2015-10-15 Method for collaboration using head mounted display

Publications (1)

Publication Number Publication Date
WO2017065348A1 true WO2017065348A1 (en) 2017-04-20

Family

ID=58517342

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/013636 WO2017065348A1 (en) 2015-10-15 2015-12-14 Collaboration method using head mounted display

Country Status (2)

Country Link
KR (1) KR101763636B1 (en)
WO (1) WO2017065348A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022129646A1 (en) * 2020-12-18 2022-06-23 Technological University Dublin Virtual reality environment
US11475652B2 (en) 2020-06-30 2022-10-18 Samsung Electronics Co., Ltd. Automatic representation toggling based on depth camera field of view
WO2023211457A1 (en) * 2021-05-03 2023-11-02 Digital Multiverse, Inc. Real-virtual hybrid venue

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102082433B1 (en) 2017-10-19 2020-02-27 한국과학기술연구원 Remote collaboration system with projector-camera based robot device and head mounted display and remote interaction method using the same
KR101918262B1 (en) 2017-12-19 2018-11-13 (주) 알큐브 Method and system for providing mixed reality service
KR102325269B1 (en) * 2019-11-13 2021-11-12 주식회사 지엘 Hand tracking system using epth camera and electromyogram sensors
KR102377988B1 (en) * 2021-09-30 2022-03-24 주식회사 아진엑스텍 Method and device for assisting collaboration with robot
KR20230127734A (en) * 2022-02-25 2023-09-01 계명대학교 산학협력단 Virtual Collaboration Non-Face-To-Face Real-Time Remote Experiment System
KR102458491B1 (en) * 2022-03-17 2022-10-26 주식회사 메디씽큐 System for providing remote collaborative treatment for tagging realtime surgical video

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130293468A1 (en) * 2012-05-04 2013-11-07 Kathryn Stone Perez Collaboration environment using see through displays
KR20140020871A (en) * 2011-02-25 2014-02-19 마이크로소프트 코포레이션 User interface presentation and interactions
KR20140108428A (en) * 2013-02-27 2014-09-11 한국전자통신연구원 Apparatus and method for remote collaboration based on wearable display
WO2014164901A1 (en) * 2013-03-11 2014-10-09 Magic Leap, Inc. System and method for augmented and virtual reality
US20150215351A1 (en) * 2014-01-24 2015-07-30 Avaya Inc. Control of enhanced communication between remote participants using augmented and virtual reality

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140020871A (en) * 2011-02-25 2014-02-19 마이크로소프트 코포레이션 User interface presentation and interactions
US20130293468A1 (en) * 2012-05-04 2013-11-07 Kathryn Stone Perez Collaboration environment using see through displays
KR20140108428A (en) * 2013-02-27 2014-09-11 한국전자통신연구원 Apparatus and method for remote collaboration based on wearable display
WO2014164901A1 (en) * 2013-03-11 2014-10-09 Magic Leap, Inc. System and method for augmented and virtual reality
US20150215351A1 (en) * 2014-01-24 2015-07-30 Avaya Inc. Control of enhanced communication between remote participants using augmented and virtual reality

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475652B2 (en) 2020-06-30 2022-10-18 Samsung Electronics Co., Ltd. Automatic representation toggling based on depth camera field of view
WO2022129646A1 (en) * 2020-12-18 2022-06-23 Technological University Dublin Virtual reality environment
WO2023211457A1 (en) * 2021-05-03 2023-11-02 Digital Multiverse, Inc. Real-virtual hybrid venue

Also Published As

Publication number Publication date
KR20170044318A (en) 2017-04-25
KR101763636B1 (en) 2017-08-02

Similar Documents

Publication Publication Date Title
WO2017065348A1 (en) Collaboration method using head mounted display
US10181361B2 (en) System and method for image registration of multiple video streams
Vallino Interactive augmented reality
Azuma A survey of augmented reality
JP6364022B2 (en) System and method for role switching in a multiple reality environment
Azuma Augmented reality: Approaches and technical challenges
WO2019152617A1 (en) Calibration system and method to align a 3d virtual scene and 3d real world for a stereoscopic head-mounted display
WO2016144005A1 (en) Augmented reality image projection system
US20160225188A1 (en) Virtual-reality presentation volume within which human participants freely move while experiencing a virtual environment
Krum et al. Augmented reality using personal projection and retroreflection
US10701344B2 (en) Information processing device, information processing system, control method of an information processing device, and parameter setting method
WO2009102138A2 (en) Tabletop, mobile augmented reality system for personalization and cooperation, and interaction method using augmented reality
JP2013061937A (en) Combined stereo camera and stereo display interaction
CN104536579A (en) Interactive three-dimensional scenery and digital image high-speed fusing processing system and method
CN108830944B (en) Optical perspective three-dimensional near-to-eye display system and display method
WO2013111146A4 (en) System and method of providing virtual human on human combat training operations
Noh et al. An HMD-based Mixed Reality System for Avatar-Mediated Remote Collaboration with Bare-hand Interaction.
Caarls et al. Augmented reality for art, design and cultural heritage—system design and evaluation
WO2015008932A1 (en) Digilog space creator for remote co-work in augmented reality and digilog space creation method using same
JP2023527357A (en) Determination of angular acceleration
US11887259B2 (en) Method, system, and apparatus for full-body tracking with magnetic fields in virtual reality and augmented reality applications
TW201135583A (en) Telescopic observation method for virtual and augmented reality and apparatus thereof
JP2024512211A (en) LIDAR simultaneous localization and mapping
RU2695053C1 (en) Method and device for control of three-dimensional objects in virtual space
Jadeja et al. New era of teaching learning: 3D marker based augmented reality

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15906311

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15906311

Country of ref document: EP

Kind code of ref document: A1