WO2017222258A1 - Multilateral video communication system and method using 3d depth camera - Google Patents

Multilateral video communication system and method using 3d depth camera Download PDF

Info

Publication number
WO2017222258A1
WO2017222258A1 PCT/KR2017/006405 KR2017006405W WO2017222258A1 WO 2017222258 A1 WO2017222258 A1 WO 2017222258A1 KR 2017006405 W KR2017006405 W KR 2017006405W WO 2017222258 A1 WO2017222258 A1 WO 2017222258A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
user terminal
user
depth camera
media processing
Prior art date
Application number
PCT/KR2017/006405
Other languages
French (fr)
Korean (ko)
Inventor
남궁환식
Original Assignee
(주)해든브릿지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)해든브릿지 filed Critical (주)해든브릿지
Publication of WO2017222258A1 publication Critical patent/WO2017222258A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • H04N13/268Image signal generators with monoscopic-to-stereoscopic image conversion based on depth image-based rendering [DIBR]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/361Reproducing mixed stereoscopic images; Reproducing mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Definitions

  • the present invention relates to a system and method for implementing a multi-party video conversation using a 3D depth camera, and more particularly, to a 3D depth capable of realizing a multi-party video conversation by synthesizing user images photographed with a 3D depth camera on shared content.
  • a multi-party video chat system and method using a camera is a multi-party video chat system and method using a camera.
  • Multi-party video chats are typically performed in distance learning, video conferencing, and multi-user game environments, and it is very important to increase immersion when remote participants exchange opinions on common topics through video chats.
  • Korean Patent No. 10-0275930 discloses a screen forming method for displaying a plurality of pictures on one screen in a video conference system.
  • This document is based on the hierarchical structure of the low resolution (QCIF, 176x144) picture format and the high resolution (CIF, 352x288) picture format supported by the H.261 Recommendation, and the observation of the characteristics of the video stream generated in accordance with the H.261 Recommendation. It refers to a method of synthesizing up to four low-resolution video streams into a single high-resolution stream by setting up a separate server.
  • video streams of up to four participants are displayed on each participant's computer. While watching the screen at the same time to facilitate a smooth meeting.
  • the user terminal side when a plurality of user terminals connected to a network transmit user images extracted from a 3D depth camera to a media processing server, and synthesize the user images at the media processing server and retransmit them to the user terminal, the user terminal side performs a video conversation.
  • Multi-way video chat system and method using a 3D depth camera that enables participants in a video group to overlay a composite video on shared content so that participants in the video chat can be immersed in the same virtual background to create immersive video chat. The purpose is to provide.
  • a multi-party video chat system using a 3D depth camera includes: a plurality of user terminals photographing a user's video and transmitting the same to a remote server; And a media processing server for synthesizing the images received from the user terminal, generating a synthesized image, and retransmitting the generated synthesized image to a group of user terminals conducting a video conversation, wherein the user terminal captures a photographed object.
  • a 3D depth camera converting into an image and having distance information for each of the converted image objects;
  • An image processing module which removes a background image except a user object image from the image photographed by the 3D depth camera and replaces it with a single color virtual background image;
  • a communication module communicating with the media processing server to transmit and receive an image;
  • An image overlay module for generating an overlay image by overlaying the composite image received from the media processing server on shared content of the user terminal group; And display means for outputting the overlay image on the screen.
  • the 3D depth camera includes an RGB sensing unit for sensing RGB information of the photographic object and a distance sensing unit sensing distance information of the photographic object. It is composed.
  • the image processing module configures the virtual background image in a color different from a color constituting the user object image.
  • the image processing module configures the virtual background image in a color different from a color constituting a boundary of the user object image.
  • the media processing server encodes the composite video and retransmits it to the user terminal, and the image overlay module receives and decodes the composite video. Afterwards, the monochromatic virtual background image is removed from the composite image and is transparently processed, and the transparent image is overlaid on the shared content and rendered.
  • the shared content is a shared document or image selected by a host in distance education or video conferencing.
  • the shared content is a game screen selected by a user in a multi-user connected game environment.
  • the multi-party video chat system using the 3D depth camera further includes a data relay server for relaying video data between the user terminal and the media processing server.
  • the multi-party video chat system using the 3D depth camera further includes a content sharing server for providing the shared content.
  • a media processing server when a user's image is photographed and transmitted from a user terminal, synthesizes the images received from the user terminal to generate a composite image.
  • a multi-party video chat method for retransmitting a composite video to a group of user terminals conducting video chats comprising: (a) capturing a photographed object in a 3D depth camera installed in the user terminal; (b) removing the background image excluding the user object image from the captured image and replacing it with a solid virtual background image; (c) transmitting the image generated in step (b) to the media processing server; generating an overlay image by overlaying the composite image received from the media processing server on shared content of the user terminal group; And (e) outputting the overlay image on the screen.
  • the 3D depth camera is an RGB sensing unit for sensing the RGB information of the object, and a distance sensing unit for sensing the distance information of the object It is composed.
  • the step (b) is configured with a color different from the color constituting the user object image.
  • the step (b) comprises a color different from the color constituting the boundary of the user object image.
  • the media processing server encodes the composite video and retransmits the composite video to the user terminal, and step (d) receives the composite video.
  • step (d) receives the composite video.
  • the monochromatic virtual background image is removed from the composite image, and the transparent image is processed, and the transparent image is overlaid on the shared content and rendered.
  • the shared content is a shared document or an image selected by a host in a distance education or video conference.
  • the shared content is a game screen selected by a user in a game environment connected by a multi-user.
  • a data relay server relays video data between the user terminal and the media processing server.
  • a content sharing server provides the shared content.
  • Multi-party video chat system using a 3D depth camera the user's video using a 2D camera, and at least one of the two-way video chat by sending and receiving a 2D image with a remote server A first user terminal; At least one second user terminal for capturing an image of a user by using a 3D depth camera and transmitting and receiving a captured 3D image with a remote server to perform a multi-party video conversation; And generating a composite image by synthesizing the images transmitted from the first user terminal and the second user terminal, wherein the 2D image is the base screen of the synthesized image, and the background color of the 3D image is removed to overlap the 2D image.
  • a media processing server generating a composite image, encoding the generated composite image, and retransmitting the synthesized composite image to the first user terminal and the second user terminal, wherein the first user terminal and the second user terminal are the media processing server. Render and display the image received from.
  • a 2D image provided as a basic screen of the composite video is transferred to the 2D camera of the first user terminal by a moderator in a distance education or video conference.
  • the 3D depth camera of the second user terminal is a captured image and includes an RGB sensing unit for sensing RGB information of the photographed object and a distance sensing unit for sensing distance information of the photographed object.
  • a plurality of user terminals connected to a network transmit user images extracted from a 3D depth camera to a media processing server, and synthesize the user images in the media processing server.
  • the composite video is overlaid on the shared content and displayed to the participants in the group conducting the video conversation on the user terminal side, so that the participants in the video conversation can be placed on the same virtual background to create a high-immersion video conversation.
  • UX highly immersive user experience
  • the 3D camera user images are placed into the environment of the user using the 2D camera in the group conducting the video conversation, so that the effect of space movement can be brought to provide a realistic conversation.
  • the media processing server may increase the usability by providing compatibility for 2D camera users other than the 2D camera users to participate in such high immersion video conversation. That is, general user terminals using 2D cameras other than the 2D camera users may also maintain compatibility by allowing the media processing server to perform synthesis processing.
  • FIG. 1 is a block diagram illustrating a multi-party video chat system according to the present invention
  • FIG. 2 is a block diagram illustrating a configuration of a user terminal in the present invention.
  • FIG. 3 is a diagram illustrating that an overlay image is provided in the present invention.
  • FIG. 4 is a view showing another example of providing a composite image in the present invention.
  • means a unit for processing at least one function or operation, which may be implemented by hardware or software or a combination of hardware and software. Can be.
  • a part is electrically connected to another part, this includes not only the case where it is directly connected, but also the case where it is connected through the other structure in the middle.
  • first and second may be used to describe various components, but the components are not limited by the terms. The terms are used only for the purpose of distinguishing one component from another.
  • the second component may be referred to as the first component, and similarly, the first component may also be referred to as the second component.
  • a multi-party video chat system using a 3D depth camera of the present invention includes a plurality of user terminals 100, a data relay server 200 connected to the user terminal 100, and a network 500. , A media processing server 300, and a content sharing server 400.
  • the user terminal 100 refers to a terminal capable of accessing the Internet through a network 500 such as a PC, a laptop, a tablet, a smartphone, etc.
  • the user terminal 100 may photograph a user for a multi-party video conversation.
  • a camera in particular, means a terminal having a 3D depth camera 110 for forming a three-dimensional image.
  • the data relay server 200 transmits images from the user terminal 100 to the media processing server 300 or retransmits the image from the media processing server 300 to the user terminal 100
  • the data relay server 200 is dedicated to the image data. It is a server dedicated to data transmission when video data traffic increases, such as when there are many users participating in a video chat or when there are a plurality of video chat groups. If there are few users participating in the video chat, the data relay server 200 may not be used.
  • the media processing server 300 is a server for synthesizing and encoding video data.
  • the media processing server 300 is a server that provides a media service for integrating and processing images transmitted from a plurality of users into one video for each user terminal group for a multi-party video chat service.
  • the content sharing server 400 is a server that provides content to be shared among the plurality of user terminals 100.
  • the content sharing server 400 may be a server that provides education content to a group of user terminals.
  • the content sharing server 400 may be a server providing a game environment and matching service to users connected to the same game. have.
  • FIG. 2 is a block diagram illustrating a configuration of a user terminal in the present invention.
  • the user terminal 100 is a terminal for capturing an image of a user and transmitting the image to a remote media processing server 300, and receiving a composite image from the media processing server 300 to perform a multi-party video conversation.
  • the user terminal 100 includes a 3D depth camera 110, a key input unit 120, a microphone 130, a speaker 140, a controller 150, and a display unit ( 160, an image processing module 170, an image overlay module 180, and a communication module 190.
  • other peripherals such as a commonly known PC may be further included.
  • the 3D depth camera 110 is a means for capturing a photographed object and converting the image into an image. Unlike the general camera, the 3D depth camera 110 has distance information for each converted image object.
  • the 3D depth camera 110 includes an RGB sensing unit that senses RGB information of an object and a distance sensing unit that senses distance information of an object.
  • the RGB sensing unit detects objects constituting a photographic object, such as a CCD image sensor, and expresses the color of the object using R, G, and B values of 0 to 255.
  • the distance sensing unit senses the distance of the object to be captured, such as an infrared sensor or an ultrasonic sensor.
  • the 3D depth camera 110 is used to form a three-dimensional image, but in the present invention is used to extract the user image.
  • the key input unit 120 is a means for inputting a character when a user exchanges text with a conversation counterpart, and is a means for inputting a key input command.
  • the microphone 130 converts a user's voice signal into an electrical signal
  • the speaker 140 converts the electric signal into an audible frequency band and outputs the voice signal.
  • the microphone 130 and the speaker 140 form a handset during video conversation.
  • the controller 150 is a means for controlling the operation of the user terminal 100 and may include, for example, a motherboard and a CPU. It may also include an operating system (OS) installed in the main memory.
  • OS operating system
  • the display means 160 is a means for outputting an image to the user.
  • the display means 160 is, for example, a known display device such as an LCD or an AMOLED, and may include a touch user interface (TUI) supporting a user's touch input.
  • TTI touch user interface
  • the image processing module 170 is a means for preprocessing the image photographed by the 3D depth camera 110. As described above, the image photographed by the 3D depth camera 110 includes distance information of the object. The image processing module 170 recognizes the distance information of the object constituting the photographed object, and removes a background image except for the user object image (the user image as illustrated in FIG. 3) from the distance information. For example, Background Segmentation may be used. And the area where the background image existed is replaced with the monochrome virtual background image.
  • the user terminal A is a terminal used by a presenter of a video conference, and the user terminal A removes a background image behind the presenter and generates a first terminal image 520 coated with a solid virtual background image.
  • the user terminals B and C are terminals used by the general attendant, and the second terminal image 530 and the third terminal image 540 in which a background image behind the participant is removed and a monochromatic virtual background image is coated, as in the user terminal A.
  • the image processing module 170 configures the virtual background image with a color constituting the user object image or a color different from the color constituting the boundary of the user object image.
  • the media processing server 300 can easily identify the user object image and perform synthesis.
  • the controller 150 of each user terminal 100 transmits the images 520, 530, and 540 generated by the image processing module 170 to the media processing server 300 through the communication module 190.
  • the media processing server 300 generates a composite image 550 by synthesizing the received images as shown in FIG. 3 with respect to the user terminal groups conducting the video conversation. For example, the received images are arranged so that the user object images do not overlap, and the generated composite image is encoded and retransmitted to each user terminal 100.
  • the image overlay module 180 of the user terminal 100 overlays the received composite image on the shared content to generate an overlay image. Specifically, the image overlay module 180 receives and decodes the synthesized image. Then, the monochromatic virtual background image is removed from the synthesized image and processed to be transparent. The overlay image is generated by overlaying the transparent image on the shared content and rendering the shared image.
  • shared content means content shared by the participants who participated in the multi-party video conversation.
  • shared content is a shared document or image selected by a facilitator in a distance education or video conference.
  • the shared content is a game screen selected by the user in a game environment accessed by multi-users.
  • the presentation data including the graph created by the presenter is the shared content 510
  • the shared content 510 may be a document or an image provided directly by the user terminal 100, but may be real-time to other users who participate in the conversation.
  • the overlay image 560 is generated by overlaying the composite image 550 on the shared content 510, and the overlay image 560 is displayed through the display terminal 600 in addition to the terminal participating in the video conversation.
  • the user terminal 100 may be a terminal of a plurality of teachers who perform distance education
  • the display terminal 600 may be an unspecified student terminal that attends distance education.
  • FIG. 4 is a view showing another example of providing a composite image in the present invention. As shown in FIG. 4, some of the user terminal 100 may include a 2D camera 115.
  • the user terminal A provided with the 2D camera 105 selected as the presenter or the presenter transmits the captured 2D image to the media processing server 300.
  • General user terminals B and C equipped with a 3D depth camera transmit the captured 3D image to the media processing server 300 as described above with reference to FIG. 3.
  • the 2D image photographed through the 2D camera 115 may be encoded and transmitted to the media processing server 300 as shown in the drawing.
  • the media processing server 300 generates a composite image 550 by synthesizing the 2D image received from the user terminal A, the 3D image received from the user terminals B and C, the 2D image received from the user terminal D, and the like.
  • the 2D image of the user A declared as the presenter or presenter is used as the basic screen of the synthesized image 550.
  • the 3D image of the user terminals B and C removes the background color by using the depth information as described above.
  • the composite image may be generated by overlapping.
  • the 2D image of the general user terminal D 250 having the 2D camera is placed in a separate position of the synthesized image in the media processing server, thereby ensuring compatibility to participate in the stereoscopic video conference.
  • the image refers to removing the background color for use in the background, and sharing the video conference organizer wallpaper with the participants in the video conference so that the meeting can be effected in an environment having the same background. Can be.
  • the media processing server 300 encodes the generated composite image and retransmits it to each user terminal 100, and each user terminal 100 will render and display the image received from the media processing server 300.
  • the multi-party video chat system and method using the 3D depth camera of the present invention a plurality of user terminals connected to the network transmits the user image extracted from the 3D depth camera to the media processing server, the media processing server
  • the synthesized image is overlaid on the shared content and displayed to the participants in the group having the video conversation.
  • the participation in the video chat is placed on the same virtual background, and the virtual same background is a shared document or image, a game screen in common, and the like.
  • the present invention can provide a highly immersive user experience (UX) in various video conversation systems such as distance education, video conferencing, multi-user games, cyber model house, interactive seminar relaying, disaster / disaster response broadcasting, home shopping, etc. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

According to the present invention, a multilateral video communication system using a 3D depth camera comprises: a plurality of user terminals capturing a user's images so as to transmit the images to a remote server and carry out multilateral video communication; and a media processing server synthesizing the images received from the user terminals so as to generate a composite image, and retransmitting the generated composite image to user terminal groups that carry out video communication, wherein a user terminal comprises: a 3D depth camera imaging objects to be imaged so as to convert the same into images, and having distance information on each of the converted image objects; an image processing module for removing, excluding a user object image, a background image from the images captured by the 3D depth camera, and replacing the same with a single-colored virtual background image; a communication module for communicating with the media processing server so as to transmit and receive images; an image overlay module overlaying, on shared content of the user terminal groups, the composite image received from the media processing server so as to generate an overlay image; and a display means for outputting the overlay image on a screen.

Description

3D 깊이 카메라를 이용한 다자간 영상 대화 시스템 및 방법Multi-party Video Dialog System and Method Using 3D Depth Camera
본 발명은 3D 깊이 카메라를 이용하여 다자간 영상 대화를 구현하는 시스템 및 방법에 관한 것으로서, 보다 상세하게는 3D 깊이 카메라로 촬영된 사용자 영상들을 공유 콘텐츠 상에 합성하여 다자간 영상 대화를 구현할 수 있는 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for implementing a multi-party video conversation using a 3D depth camera, and more particularly, to a 3D depth capable of realizing a multi-party video conversation by synthesizing user images photographed with a 3D depth camera on shared content. A multi-party video chat system and method using a camera.
최근 들어 디스플레이 기술 및 통신 기술의 발달에 힘입어 다자간에 영상 대화를 구현하는 시스템 역시 크게 발전하고 있다. 종래에는 대화 참여자들을 다른 화면으로 보면서 영상 대화를 하였으며, 대화 참여자들이 많은 경우 화면을 분할하거나 토글하여 상대방들의 영상을 확인하였으나, 최근에는 대화 참여자들을 하나의 화면 상에서 확인하여 영상 대화를 할 수 있게 되었다. Recently, with the development of display technology and communication technology, a system for implementing multi-party video conversation has also been greatly developed. Conventionally, video conversations were performed while viewing the participants on different screens, and in the case of a large number of participants, the screens were divided or toggled to check the video of the other party. .
다자간 영상 대화는 통상 원격 교육, 화상 회의, 멀티 유저가 접속하는 게임 환경 등에서 수행되며, 원격의 참가자들이 영상 대화를 통해 공통의 주제에 대한 의견을 주고 받을 때 몰입도를 높이는 것은 매우 중요한 요소이다. Multi-party video chats are typically performed in distance learning, video conferencing, and multi-user game environments, and it is very important to increase immersion when remote participants exchange opinions on common topics through video chats.
한편, 대한민국 등록특허 제10-0275930호는 화상회의 시스템에서 복수의 픽쳐를 하나의 화면에 표시하기 위한 화면 형성방법을 개시하고 있다. 동 선행문헌은 H.261 권고안이 지원하는 저해상도(QCIF, 176x144) 픽쳐 형식과 고해상도(CIF, 352x288) 픽쳐 형식의 계층적 구조와 H.261 권고안에 따라 생성된 비디오 스트림의 특성의 관찰을 바탕으로 별도의 서버를 두어 4개까지의 저해상도 비디오 스트림을 하나의 고해상도 스트림으로 합성하는 방식을 언급하고 있으며, 랜이나 케이블 TV망을 통한 화상회의 시스템에서 4명까지의 참가자의 비디오 스트림을 각 참가자의 컴퓨터 화면에서 동시에 보면서 원활한 회의를 진행할 수 있도록 하고 있다.Meanwhile, Korean Patent No. 10-0275930 discloses a screen forming method for displaying a plurality of pictures on one screen in a video conference system. This document is based on the hierarchical structure of the low resolution (QCIF, 176x144) picture format and the high resolution (CIF, 352x288) picture format supported by the H.261 Recommendation, and the observation of the characteristics of the video stream generated in accordance with the H.261 Recommendation. It refers to a method of synthesizing up to four low-resolution video streams into a single high-resolution stream by setting up a separate server. In a video conferencing system using a LAN or cable TV network, video streams of up to four participants are displayed on each participant's computer. While watching the screen at the same time to facilitate a smooth meeting.
하지만, 단지 4명의 참가자를 화면을 분할하여 하나의 화면에 표시할 뿐이어서, 영상 대화에 참가하는 참가자들이 공통의 가상 공간에 존재한다는 것을 직관적으로 인식하기 어려우며, 영상 대화의 몰입도가 크게 떨어지는 문제점이 있다.However, since only four participants are displayed on one screen by dividing the screen, it is difficult to intuitively recognize that the participants participating in the video conversation exist in a common virtual space, and the immersion of the video conversation greatly decreases. There is this.
본 발명은 네트워크에 접속된 복수의 사용자 단말이 3D 깊이 카메라에서 추출된 사용자 영상을 미디어 처리 서버로 전송하고, 미디어 처리 서버에서 사용자 영상들을 합성하여 사용자 단말로 재전송하면, 사용자 단말 측에서 영상 대화를 실시하는 그룹 내 참여자들에게 공유 콘텐츠에 합성 영상을 오버레이하여 표시함으로써, 영상 대화의 참여자들이 가상의 동일 배경 속에 놓여 몰입도 높은 영상 대화를 구현할 수 있도록 한 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템 및 방법을 제공함에 그 목적이 있다.According to an embodiment of the present invention, when a plurality of user terminals connected to a network transmit user images extracted from a 3D depth camera to a media processing server, and synthesize the user images at the media processing server and retransmit them to the user terminal, the user terminal side performs a video conversation. Multi-way video chat system and method using a 3D depth camera that enables participants in a video group to overlay a composite video on shared content so that participants in the video chat can be immersed in the same virtual background to create immersive video chat. The purpose is to provide.
본 발명의 일실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템은, 사용자의 영상을 촬영하여 원격의 서버로 전송하며 다자간 영상 대화를 실시하는 복수의 사용자 단말; 및 상기 사용자 단말에서 전송받은 영상들을 합성하여 합성 영상을 생성하고 생성된 합성 영상을 영상 대화를 실시하는 사용자 단말 그룹으로 재전송하는 미디어 처리 서버를 포함하며, 상기 사용자 단말은, 피촬상물을 촬상하여 이미지로 변환하되 변환된 이미지 객체 각각에 대하여 거리 정보를 갖는 3D 깊이 카메라; 상기 3D 깊이 카메라에서 촬영된 이미지로부터 사용자 객체 이미지를 제외한 백그라운드 이미지를 제거하고 단색의 가상 배경 이미지로 대체하는 영상 처리 모듈; 상기 미디어 처리 서버와 영상을 송수신하기 위해 통신하는 통신 모듈; 상기 사용자 단말 그룹의 공유 콘텐츠 상에 상기 미디어 처리 서버로부터 수신한 상기 합성 영상을 오버레이하여 오버레이 영상을 생성하는 영상 오버레이 모듈; 및 상기 오버레이 영상을 화면에 출력하는 디스플레이수단을 포함한다.According to an embodiment of the present invention, a multi-party video chat system using a 3D depth camera includes: a plurality of user terminals photographing a user's video and transmitting the same to a remote server; And a media processing server for synthesizing the images received from the user terminal, generating a synthesized image, and retransmitting the generated synthesized image to a group of user terminals conducting a video conversation, wherein the user terminal captures a photographed object. A 3D depth camera converting into an image and having distance information for each of the converted image objects; An image processing module which removes a background image except a user object image from the image photographed by the 3D depth camera and replaces it with a single color virtual background image; A communication module communicating with the media processing server to transmit and receive an image; An image overlay module for generating an overlay image by overlaying the composite image received from the media processing server on shared content of the user terminal group; And display means for outputting the overlay image on the screen.
본 발명의 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템은, 상기 3D 깊이 카메라는 상기 피촬상물의 RGB 정보를 센싱하는 RGB 센싱부와, 상기 피촬상물의 거리 정보를 센싱하는 거리 센싱부로 구성된다.In a multi-party video chat system using a 3D depth camera according to another embodiment of the present invention, the 3D depth camera includes an RGB sensing unit for sensing RGB information of the photographic object and a distance sensing unit sensing distance information of the photographic object. It is composed.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템은, 상기 영상 처리 모듈은 상기 가상 배경 이미지를 상기 사용자 객체 이미지를 구성하는 색상과 다른 색상으로 구성한다.In a multi-party video chat system using a 3D depth camera according to another embodiment of the present invention, the image processing module configures the virtual background image in a color different from a color constituting the user object image.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템은, 상기 영상 처리 모듈은 상기 가상 배경 이미지를 상기 사용자 객체 이미지의 경계부를 구성하는 색상과 다른 색상으로 구성한다.In a multi-party video chat system using a 3D depth camera according to another embodiment of the present invention, the image processing module configures the virtual background image in a color different from a color constituting a boundary of the user object image.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템은, 상기 미디어 처리 서버는 상기 합성 영상을 인코딩하여 상기 사용자 단말로 재전송하며, 상기 영상 오버레이 모듈은 상기 합성 영상을 수신하여 디코딩 한 후에, 상기 합성 영상으로부터 단색의 가상 배경 이미지를 제거하고 투명화 처리하며, 투명화 처리된 합성 영상을 상기 공유 콘텐츠 상에 오버레이하여 렌더링 처리한다.In a multi-party video chat system using a 3D depth camera according to another embodiment of the present invention, the media processing server encodes the composite video and retransmits it to the user terminal, and the image overlay module receives and decodes the composite video. Afterwards, the monochromatic virtual background image is removed from the composite image and is transparently processed, and the transparent image is overlaid on the shared content and rendered.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템은, 상기 공유 콘텐츠는 원격 교육 또는 화상 회의에서 진행자에 의해 선택된 공유 문서 또는 이미지이다.In a multi-party video chat system using a 3D depth camera according to another embodiment of the present invention, the shared content is a shared document or image selected by a host in distance education or video conferencing.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템은, 상기 공유 콘텐츠는 멀티 유저가 접속한 게임 환경에서 사용자에 의해 선택된 게임 화면이다.In a multi-party video chat system using a 3D depth camera according to another embodiment of the present invention, the shared content is a game screen selected by a user in a multi-user connected game environment.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템은, 상기 사용자 단말과 상기 미디어 처리 서버 사이에서 영상 데이터를 중계하는 데이터 중계 서버를 더 포함한다.The multi-party video chat system using the 3D depth camera according to another embodiment of the present invention further includes a data relay server for relaying video data between the user terminal and the media processing server.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템은, 상기 공유 콘텐츠를 제공하는 콘텐츠 공유 서버를 더 포함한다.The multi-party video chat system using the 3D depth camera according to another embodiment of the present invention further includes a content sharing server for providing the shared content.
본 발명의 일실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 방법은, 사용자 단말에서 사용자의 영상을 촬영하여 전송하면 미디어 처리 서버에서 상기 사용자 단말로부터 전송받은 영상들을 합성하여 합성 영상을 생성하고 상기 합성 영상을 영상 대화를 실시하는 사용자 단말 그룹으로 재전송하는 다자간 영상 대화 방법에 있어서, (a) 상기 사용자 단말에 설치된 3D 깊이 카메라에서 피촬상물을 촬상하는 단계; (b) 촬상된 이미지로부터 사용자 객체 이미지를 제외한 백그라운드 이미지를 제거하고 단색의 가상 배경 이미지로 대체하는 단계; (c) (b)단계에서 생성된 영상을 상기 미디어 처리 서버로 전송하는 단계; (d) 상기 미디어 처리 서버로부터 수신한 합성 영상을 상기 사용자 단말 그룹의 공유 콘텐츠 상에 오버레이하여 오버레이 영상을 생성하는 단계; 및 (e) 상기 오버레이 영상을 화면에 출력하는 단계를 포함한다.In the multi-party video chat method using a 3D depth camera according to an embodiment of the present invention, when a user's image is photographed and transmitted from a user terminal, a media processing server synthesizes the images received from the user terminal to generate a composite image. A multi-party video chat method for retransmitting a composite video to a group of user terminals conducting video chats, the method comprising: (a) capturing a photographed object in a 3D depth camera installed in the user terminal; (b) removing the background image excluding the user object image from the captured image and replacing it with a solid virtual background image; (c) transmitting the image generated in step (b) to the media processing server; generating an overlay image by overlaying the composite image received from the media processing server on shared content of the user terminal group; And (e) outputting the overlay image on the screen.
본 발명의 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 방법은, 상기 3D 깊이 카메라는 상기 피촬상물의 RGB 정보를 센싱하는 RGB 센싱부와, 상기 피촬상물의 거리 정보를 센싱하는 거리 센싱부로 구성된다.In the multi-party video chat method using the 3D depth camera according to another embodiment of the present invention, the 3D depth camera is an RGB sensing unit for sensing the RGB information of the object, and a distance sensing unit for sensing the distance information of the object It is composed.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 방법은, 상기 단계(b)는 상기 가상 배경 이미지를 상기 사용자 객체 이미지를 구성하는 색상과 다른 색상으로 구성한다.In the multi-party video chat method using the 3D depth camera according to another embodiment of the present invention, the step (b) is configured with a color different from the color constituting the user object image.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 방법은, 상기 단계(b)는 상기 가상 배경 이미지를 상기 사용자 객체 이미지의 경계부를 구성하는 색상과 다른 색상으로 구성한다.In the multi-party video chat method using the 3D depth camera according to another embodiment of the present invention, the step (b) comprises a color different from the color constituting the boundary of the user object image.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 방법은, 상기 미디어 처리 서버는 상기 합성 영상을 인코딩하여 상기 사용자 단말로 재전송하며, 상기 단계(d)는, 상기 합성 영상을 수신하여 디코딩한 후에, 상기 합성 영상으로부터 단색의 가상 배경 이미지를 제거하고 투명화 처리하며, 투명화 처리된 합성 영상을 상기 공유 콘텐츠 상에 오버레이하여 렌더링 처리한다.In a multi-party video chat method using a 3D depth camera according to another embodiment of the present invention, the media processing server encodes the composite video and retransmits the composite video to the user terminal, and step (d) receives the composite video. After decoding, the monochromatic virtual background image is removed from the composite image, and the transparent image is processed, and the transparent image is overlaid on the shared content and rendered.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 방법은, 상기 공유 콘텐츠는 원격 교육 또는 화상 회의에서 진행자에 의해 선택된 공유 문서 또는 이미지이다.In a multi-party video chat method using a 3D depth camera according to another embodiment of the present invention, the shared content is a shared document or an image selected by a host in a distance education or video conference.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 방법은, 상기 공유 콘텐츠는 멀티 유저가 접속한 게임 환경에서 사용자에 의해 선택된 게임 화면이다.In a multi-party video chat method using a 3D depth camera according to another embodiment of the present invention, the shared content is a game screen selected by a user in a game environment connected by a multi-user.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 방법은, 상기 사용자 단말과 상기 미디어 처리 서버 사이에서 데이터 중계 서버가 영상 데이터를 중계한다.In a multi-party video chat method using a 3D depth camera according to another embodiment of the present invention, a data relay server relays video data between the user terminal and the media processing server.
본 발명의 또 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 방법은, 콘텐츠 공유 서버에서 상기 공유 콘텐츠를 제공한다.In a multi-party video chat method using a 3D depth camera according to another embodiment of the present invention, a content sharing server provides the shared content.
본 발명의 일실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템은, 2D 카메라를 이용하여 사용자의 영상을 촬영하며, 촬영된 2D 이미지를 원격의 서버와 송수신하여 다자간 영상 대화를 실시하는 하나 이상의 제1 사용자 단말; 3D 깊이 카메라를 이용하여 사용자의 영상을 촬영하며, 촬영된 3D 이미지를 원격의 서버와 송수신하여 다자간 영상 대화를 실시하는 하나 이상의 제2 사용자 단말; 및 상기 제1 사용자 단말 및 상기 제2 사용자 단말에서 전송받은 영상들을 합성하여 합성 영상을 생성하되, 상기 2D 이미지를 합성 영상의 기본 화면으로 하고 상기 3D 이미지의 배경색을 제거하여 상기 2D 이미지에 중첩하여 합성 영상을 생성하고, 생성된 합성 영상을 인코딩하여 상기 제1 사용자 단말과 상기 제2 사용자 단말로 재전송하는 미디어 처리 서버를 포함하며, 상기 제1 사용자 단말 및 상기 제2 사용자 단말은 상기 미디어 처리 서버로부터 수신한 영상을 렌더링하여 디스플레이한다.Multi-party video chat system using a 3D depth camera according to an embodiment of the present invention, the user's video using a 2D camera, and at least one of the two-way video chat by sending and receiving a 2D image with a remote server A first user terminal; At least one second user terminal for capturing an image of a user by using a 3D depth camera and transmitting and receiving a captured 3D image with a remote server to perform a multi-party video conversation; And generating a composite image by synthesizing the images transmitted from the first user terminal and the second user terminal, wherein the 2D image is the base screen of the synthesized image, and the background color of the 3D image is removed to overlap the 2D image. A media processing server generating a composite image, encoding the generated composite image, and retransmitting the synthesized composite image to the first user terminal and the second user terminal, wherein the first user terminal and the second user terminal are the media processing server. Render and display the image received from.
본 발명의 다른 실시예에 따른 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템은, 상기 합성 영상의 기본 화면으로 제공되는 2D 이미지는 원격 교육 또는 화상 회의에서 진행자에 의해 상기 제1 사용자 단말의 상기 2D 카메라로 촬상된 이미지이며, 상기 제2 사용자 단말의 상기 3D 깊이 카메라는 상기 피촬상물의 RGB 정보를 센싱하는 RGB 센싱부와, 상기 피촬상물의 거리 정보를 센싱하는 거리 센싱부로 구성된다.In a multi-party video chat system using a 3D depth camera according to another embodiment of the present invention, a 2D image provided as a basic screen of the composite video is transferred to the 2D camera of the first user terminal by a moderator in a distance education or video conference. The 3D depth camera of the second user terminal is a captured image and includes an RGB sensing unit for sensing RGB information of the photographed object and a distance sensing unit for sensing distance information of the photographed object.
본 발명의 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템 및 방법에 따르면, 네트워크에 접속된 복수의 사용자 단말이 3D 깊이 카메라에서 추출된 사용자 영상을 미디어 처리 서버로 전송하고, 미디어 처리 서버에서 사용자 영상들을 합성하여 사용자 단말로 재전송하면, 사용자 단말 측에서 영상 대화를 실시하는 그룹 내 참여자들에게 공유 콘텐츠에 합성 영상을 오버레이하여 표시함으로써, 영상 대화의 참여들이 가상의 동일 배경 속에 놓여 몰입도 높은 영상 대화를 구현할 수 있으며, 원격 교육, 화상 회의, 게임 중 영상 대화 등 다양한 영상 대화 시스템에서 고 몰입형 사용자 경험(UX)을 제공할 수 있는 효과가 있다.According to a multi-party video chat system and method using a 3D depth camera of the present invention, a plurality of user terminals connected to a network transmit user images extracted from a 3D depth camera to a media processing server, and synthesize the user images in the media processing server. By retransmitting to the user terminal, the composite video is overlaid on the shared content and displayed to the participants in the group conducting the video conversation on the user terminal side, so that the participants in the video conversation can be placed on the same virtual background to create a high-immersion video conversation. In addition, there is an effect that can provide a highly immersive user experience (UX) in a variety of video chat systems, such as distance learning, video conferencing, video chat in game.
또한 영상 대화를 실시하는 그룹 내 2D 카메라를 사용한 사용자의 환경 속으로 3D 카메라 사용자 영상들이 놓이게 함으로써 마치 공간 이동 효과를 가져와 현장감 높은 대화를 제공할 수 있다.In addition, the 3D camera user images are placed into the environment of the user using the 2D camera in the group conducting the video conversation, so that the effect of space movement can be brought to provide a realistic conversation.
또한 상기 미디어 처리 서버는, 상기 2D 카메라 사용자 이외의 2D 카메라 사용자들도 이러한 고 몰입도 영상대화에 참여할 수 있는 호환성을 제공하여 사용도를 높일 수 있다. 즉 상기 2D 카메라 사용자 이외의 2D 카메라를 사용하는 일반 사용자 단말도 미디어 처리 서버에서 합성 처리하게 함으로써 호환성을 유지하게 할 수 있다.In addition, the media processing server may increase the usability by providing compatibility for 2D camera users other than the 2D camera users to participate in such high immersion video conversation. That is, general user terminals using 2D cameras other than the 2D camera users may also maintain compatibility by allowing the media processing server to perform synthesis processing.
도 1은 본 발명에 따른 다자간 영상 대화 시스템을 예시한 블록도,1 is a block diagram illustrating a multi-party video chat system according to the present invention;
도 2는 본 발명에서 사용자 단말의 구성을 예시한 블록도, 및2 is a block diagram illustrating a configuration of a user terminal in the present invention, and
도 3은 본 발명에서 오버레이 영상이 제공되는 것을 예시한 도면이다.3 is a diagram illustrating that an overlay image is provided in the present invention.
도 4는 본 발명에서 합성 영상을 제공하는 다른 예를 보이는 도면이다.4 is a view showing another example of providing a composite image in the present invention.
이하에서는 첨부된 도면을 참조하여 본 발명에 따른 구체적인 실시예가 설명된다. 그러나 이는 본 발명을 특정한 실시 형태에 대하여 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 대체물을 포함하는 것으로 이해되어야 한다.Hereinafter, with reference to the accompanying drawings will be described a specific embodiment according to the present invention. However, this is not intended to limit the present invention to the specific embodiments, it should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention.
명세서 전체에 걸쳐 유사한 구성 및 동작을 갖는 부분에 대해서는 동일한 도면 부호를 붙였다. 그리고 본 발명에 첨부된 도면은 설명의 편의를 위한 것으로서, 그 형상과 상대적인 척도는 과장되거나 생략될 수 있다.The same reference numerals are used for parts having similar configurations and operations throughout the specification. And the drawings attached to the present invention is for convenience of description, the shape and relative measures may be exaggerated or omitted.
실시예를 구체적으로 설명함에 있어서, 중복되는 설명이나 당해 분야에서 자명한 기술에 대한 설명은 생략되었다. 또한, 이하의 설명에서 어떤 부분이 다른 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 기재된 구성요소 외에 구성요소를 더 포함할 수 있는 것을 의미한다.In describing the embodiments in detail, overlapping descriptions or descriptions of obvious technology in the art are omitted. In addition, in the following description, when a portion "includes" another component, it means that the component can be further included in addition to the described component unless otherwise stated.
또한, 명세서에 기재된 "~부", "~기", "~모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 어떤 부분이 다른 부분과 전기적으로 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라 그 중간에 다른 구성을 사이에 두고 연결되어 있는 경우도 포함한다.In addition, the terms "~", "~", "~ module" described in the specification means a unit for processing at least one function or operation, which may be implemented by hardware or software or a combination of hardware and software. Can be. In addition, when a part is electrically connected to another part, this includes not only the case where it is directly connected, but also the case where it is connected through the other structure in the middle.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.Terms including ordinal numbers such as first and second may be used to describe various components, but the components are not limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the second component may be referred to as the first component, and similarly, the first component may also be referred to as the second component.
도 1은 본 발명에 따른 다자간 영상 대화 시스템을 예시한 블록도이다. 도 1을 참조하면, 본 발명의 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템은 복수의 사용자 단말(100)과, 이 사용자 단말(100)과 네트워크(500)를 통해 연결되는 데이터 중계 서버(200)와, 미디어 처리 서버(300)와, 콘텐츠 공유 서버(400)로 구성된다.1 is a block diagram illustrating a multi-party video chat system according to the present invention. Referring to FIG. 1, a multi-party video chat system using a 3D depth camera of the present invention includes a plurality of user terminals 100, a data relay server 200 connected to the user terminal 100, and a network 500. , A media processing server 300, and a content sharing server 400.
사용자 단말(100)은 PC, 노트북, 태블릿, 스마트폰 등 네트워크(500)를 통해 인터넷에 접속 가능한 단말을 의미하며, 본 발명에서의 사용자 단말(100)은 다자간 영상 대화를 위해 사용자를 촬영할 수 있는 카메라, 특히, 3차원 이미지 형성을 위한 3D 깊이 카메라(110)를 구비한 단말을 의미한다.The user terminal 100 refers to a terminal capable of accessing the Internet through a network 500 such as a PC, a laptop, a tablet, a smartphone, etc. The user terminal 100 according to the present invention may photograph a user for a multi-party video conversation. A camera, in particular, means a terminal having a 3D depth camera 110 for forming a three-dimensional image.
데이터 중계 서버(200)는 사용자 단말(100)에서 미디어 처리 서버(300)로 영상들을 전송할 때, 또는, 미디어 처리 서버(300)에서 사용자 단말(100)로 영상을 재전송할 때, 영상 데이터를 전담하여 전송하는 서버로서, 영상 대화에 참여하는 사용자가 많은 경우, 또는, 복수의 영상 대화 그룹이 존재하는 경우와 같이 영상 데이터 트래픽이 증가할 때 데이터 전송을 전담하는 서버이다. 영상 대화에 참여하는 사용자가 적은 경우에는 데이터 중계 서버(200)를 사용하지 않을 수도 있다.When the data relay server 200 transmits images from the user terminal 100 to the media processing server 300 or retransmits the image from the media processing server 300 to the user terminal 100, the data relay server 200 is dedicated to the image data. It is a server dedicated to data transmission when video data traffic increases, such as when there are many users participating in a video chat or when there are a plurality of video chat groups. If there are few users participating in the video chat, the data relay server 200 may not be used.
미디어 처리 서버(300)는 영상 데이터를 합성하여 인코딩하는 서버로서, 다자간 영상 대화 서비스를 위해 복수의 사용자로부터 전송된 영상을 사용자 단말 그룹별로 하나의 영상으로 통합 처리하는 미디어 서비스를 제공하는 서버이다.The media processing server 300 is a server for synthesizing and encoding video data. The media processing server 300 is a server that provides a media service for integrating and processing images transmitted from a plurality of users into one video for each user terminal group for a multi-party video chat service.
콘텐츠 공유 서버(400)는 복수의 사용자 단말(100) 간에 공유하는 콘텐츠를 제공하는 서버이다. 예를 들어, 본 발명의 다자간 영상 대화 시스템이 원격 교육 서비스에 부가되는 형태로 제공될 때, 콘텐츠 공유 서버(400)는 사용자 단말 그룹에 교육 콘텐츠를 제공하는 서버일 수 있다. 다른 예로서, 본 발명의 다자간 영상 대화 시스템이 멀티 유저가 접속하는 게임 환경상에서 제공될 때, 콘텐츠 공유 서버(400)는 동일한 게임에 접속된 유저들에게 게임 환경과 매칭 서비스를 제공하는 서버일 수 있다.The content sharing server 400 is a server that provides content to be shared among the plurality of user terminals 100. For example, when the multi-party video chat system of the present invention is provided in the form of being added to the distance education service, the content sharing server 400 may be a server that provides education content to a group of user terminals. As another example, when the multi-party video chat system of the present invention is provided in a multi-user connected game environment, the content sharing server 400 may be a server providing a game environment and matching service to users connected to the same game. have.
도 2는 본 발명에서 사용자 단말의 구성을 예시한 블록도이다.2 is a block diagram illustrating a configuration of a user terminal in the present invention.
사용자 단말(100)은 사용자의 영상을 촬영하여 원격의 미디어 처리 서버(300)로 전송하고, 미디어 처리 서버(300)로부터 합성 영상을 수신하여 다자간 영상 대화를 실시하는 단말이다. 이러한 사용자 단말(100)은 도 2에서와 같이, 3D 깊이 카메라(110)와, 키 입력수단(120)과, 마이크(130)와, 스피커(140)와, 제어부(150)와, 디스플레이 수단(160)과, 영상 처리 모듈(170)과, 영상 오버레이 모듈(180)과, 통신 모듈(190)로 구성된다. 물론, 통상 알려진 PC와 같이 다른 주변기기들이 더 포함될 수 있다.The user terminal 100 is a terminal for capturing an image of a user and transmitting the image to a remote media processing server 300, and receiving a composite image from the media processing server 300 to perform a multi-party video conversation. As shown in FIG. 2, the user terminal 100 includes a 3D depth camera 110, a key input unit 120, a microphone 130, a speaker 140, a controller 150, and a display unit ( 160, an image processing module 170, an image overlay module 180, and a communication module 190. Of course, other peripherals such as a commonly known PC may be further included.
3D 깊이 카메라(110)는 피촬상물의 촬상하여 이미지로 변환하는 수단으로서, 일반적인 카메라와 달리 변환된 이미지 객체 각각에 대하여 거리 정보를 갖는다. 예를 들어, 3D 깊이 카메라(110)는 피촬상물의 RGB 정보를 센싱하는 RGB 센싱부와, 피촬상물의 거리 정보를 센싱하는 거리 센싱부로 구성된다. RGB 센싱부는 CCD 이미지 센서 등과 같이, 피촬상물을 구성하는 객체들을 검출하여 0 내지 255의 R, G, B 값으로 객체의 색상을 표현한다. 거리 센싱부는 적외선 센서나 초음파 센서 등과 같이, 피촬상물의 거리를 센싱한다. 통상적으로, 3D 깊이 카메라(110)는 3차원 이미지를 형성하기 위해 사용되지만, 본 발명에서는 사용자 영상을 추출하기 위해 사용된다.The 3D depth camera 110 is a means for capturing a photographed object and converting the image into an image. Unlike the general camera, the 3D depth camera 110 has distance information for each converted image object. For example, the 3D depth camera 110 includes an RGB sensing unit that senses RGB information of an object and a distance sensing unit that senses distance information of an object. The RGB sensing unit detects objects constituting a photographic object, such as a CCD image sensor, and expresses the color of the object using R, G, and B values of 0 to 255. The distance sensing unit senses the distance of the object to be captured, such as an infrared sensor or an ultrasonic sensor. Typically, the 3D depth camera 110 is used to form a three-dimensional image, but in the present invention is used to extract the user image.
키 입력수단(120)은 사용자가 대화 상대방과 문자를 주고받은 경우 문자를 입력하는 수단이며, 그밖에 키 입력 명령을 입력하기 위한 수단이다. 마이크(130)는 사용자의 음성 신호를 전기적 신호로 변환하며, 스피커(140)는 전기적 신호를 가청 주파수 대역으로 변환하여 음성 신호로 출력하는 수단이다. 마이크(130)와 스피커(140)는 영상 대화 시에 송수화부를 형성한다.The key input unit 120 is a means for inputting a character when a user exchanges text with a conversation counterpart, and is a means for inputting a key input command. The microphone 130 converts a user's voice signal into an electrical signal, and the speaker 140 converts the electric signal into an audible frequency band and outputs the voice signal. The microphone 130 and the speaker 140 form a handset during video conversation.
제어부(150)는 사용자 단말(100)의 동작을 제어하는 수단으로서, 예를 들어 마더 보드와 CPU를 포함할 수 있다. 또한, 주기억장치에 설치되는 운영체제(OS: Operation System)를 포함할 수 있다.The controller 150 is a means for controlling the operation of the user terminal 100 and may include, for example, a motherboard and a CPU. It may also include an operating system (OS) installed in the main memory.
디스플레이 수단(160)은 사용자에게 영상을 화면 출력하는 수단이다. 디스플레이 수단(160)은 예컨대, LCD, AMOLED 등 알려진 디스플레이 장치이며, 여기에 사용자의 터치 입력을 지원하는 터치 유저 인터페이스(TUI: Touch User Interface)가 포함될 수 있다.The display means 160 is a means for outputting an image to the user. The display means 160 is, for example, a known display device such as an LCD or an AMOLED, and may include a touch user interface (TUI) supporting a user's touch input.
영상 처리 모듈(170)은 3D 깊이 카메라(110)에서 촬영된 이미지를 전처리하는 수단이다. 상술한 바와 같이, 3D 깊이 카메라(110)에서 촬영된 이미지는 피촬상물의 거리 정보를 포함한다. 영상 처리 모듈(170)은 피촬상물을 구성하는 객체의 거리 정보를 인식하고, 거리 정보로부터 사용자 객체 이미지(도 3에서 예시하는 바와 같은 사용자 영상)를 제외한 백그라운드 이미지(Background Image)를 제거한다. 예컨대, 백그라운드 추출 기법(Background Segmentation)이 사용될 수 있다. 그리고 백그라운드 이미지가 존재하던 영역들을 단색의 가상 배경 이미지로 대체한다.The image processing module 170 is a means for preprocessing the image photographed by the 3D depth camera 110. As described above, the image photographed by the 3D depth camera 110 includes distance information of the object. The image processing module 170 recognizes the distance information of the object constituting the photographed object, and removes a background image except for the user object image (the user image as illustrated in FIG. 3) from the distance information. For example, Background Segmentation may be used. And the area where the background image existed is replaced with the monochrome virtual background image.
도 3을 참조하면, 사용자 단말 A는 영상 회의의 발표자가 사용하는 단말로서, 사용자 단말 A는 발표자 뒤의 배경 이미지를 제거하고 단색의 가상 배경 이미지가 입혀진 제1 단말 영상(520)을 생성한다. 사용자 단말 B와 C는 일반 참석자가 사용하는 단말로서, 사용자 단말 A에서와 같이 참석자 뒤의 배경 이미지들을 제거하고 단색의 가상 배경 이미지가 입혀진 제2 단말 영상(530) 및 제3 단말 영상(540)을 생성한다.Referring to FIG. 3, the user terminal A is a terminal used by a presenter of a video conference, and the user terminal A removes a background image behind the presenter and generates a first terminal image 520 coated with a solid virtual background image. The user terminals B and C are terminals used by the general attendant, and the second terminal image 530 and the third terminal image 540 in which a background image behind the participant is removed and a monochromatic virtual background image is coated, as in the user terminal A. Create
이때, 영상 처리 모듈(170)은 가상 배경 이미지를 사용자 객체 이미지를 구성하는 색상, 또는, 사용자 객체 이미지의 경계부를 구성하는 색상과 다른 색상으로 구성한다. 이와 같이 다른 색상으로 가상 배경 이미지를 구성함으로써, 미디어 처리 서버(300)에서 사용자 객체 이미지를 용이하게 식별하여 합성을 수행할 수 있도록 한다.In this case, the image processing module 170 configures the virtual background image with a color constituting the user object image or a color different from the color constituting the boundary of the user object image. By configuring the virtual background image in a different color as described above, the media processing server 300 can easily identify the user object image and perform synthesis.
각 사용자 단말(100)의 제어부(150)는 영상 처리 모듈(170)에서 생성된 영상(520, 530, 540)을 통신 모듈(190)을 통해 미디어 처리 서버(300)로 전송한다.The controller 150 of each user terminal 100 transmits the images 520, 530, and 540 generated by the image processing module 170 to the media processing server 300 through the communication module 190.
미디어 처리 서버(300)는 영상 대화를 실시하는 사용자 단말 그룹들에 대하여, 도 3에서와 같이 수신된 영상들을 합성하여 합성 영상(550)을 생성한다. 예를 들어, 사용자 객체 이미지가 중첩되지 않도록 수신된 영상들을 배열하고, 생성된 합성 영상을 인코딩하여 다시 각 사용자 단말(100)로 재전송한다.The media processing server 300 generates a composite image 550 by synthesizing the received images as shown in FIG. 3 with respect to the user terminal groups conducting the video conversation. For example, the received images are arranged so that the user object images do not overlap, and the generated composite image is encoded and retransmitted to each user terminal 100.
사용자 단말(100)의 영상 오버레이 모듈(180)은 수신된 합성 영상을 공유 콘텐츠 상에 오버레이하여 오버레이 영상을 생성한다. 구체적으로는, 영상 오버레이 모듈(180)이 합성 영상을 수신하여 디코딩한다. 그리고, 합성 영상으로부터 단색의 가상 배경 이미지를 제거하고 투명화 처리한다. 투명화 처리된 합성 영상을 공유 콘텐츠 상에 오버레이하여 렌더링(Rendering) 처리하는 것으로 오버레이 영상을 생성한다.The image overlay module 180 of the user terminal 100 overlays the received composite image on the shared content to generate an overlay image. Specifically, the image overlay module 180 receives and decodes the synthesized image. Then, the monochromatic virtual background image is removed from the synthesized image and processed to be transparent. The overlay image is generated by overlaying the transparent image on the shared content and rendering the shared image.
여기서, '공유 콘텐츠'라 함은 다자간 영상 대화에 참여한 참여자들이 공유하는 콘텐츠를 의미한다. 예를 들어, 공유 콘텐츠는 원격 교육 또는 화상 회의에서 진행자에 의해 선택된 공유 문서 또는 이미지이다. 다른 예로서, 공유 콘텐츠는 멀티 유저가 접속한 게임 환경에서 사용자에 의해 선택된 게임 화면이다.Here, the term "shared content" means content shared by the participants who participated in the multi-party video conversation. For example, shared content is a shared document or image selected by a facilitator in a distance education or video conference. As another example, the shared content is a game screen selected by the user in a game environment accessed by multi-users.
도 3에서는 발표자가 작성한 그래프를 포함한 발표자료가 공유 콘텐츠(510)이며, 공유 콘텐츠(510)는 사용자 단말(100)에서 직접 제공하는 문서나 이미지일 수 있겠으나, 대화에 참석하는 다른 사용자에게도 실시간으로 제공되기 위하여는 도 3에서와 같이 콘텐츠 공유 서버(400)에서 제공하는 콘텐츠인 것이 바람직하다.In FIG. 3, the presentation data including the graph created by the presenter is the shared content 510, and the shared content 510 may be a document or an image provided directly by the user terminal 100, but may be real-time to other users who participate in the conversation. In order to be provided as, it is preferable that the content provided by the content sharing server 400 as shown in FIG.
도시한 바와 같이, 공유 콘텐츠(510) 상에 합성 영상(550)을 오버레이하여 오버레이 영상(560)이 생성되었으며, 영상 대화에 참석하는 단말 이외에도 표시 단말(600)을 통해 오버레이 영상(560)이 표시될 수 있다. 예컨대, 사용자 단말(100)은 원격 교육을 실시하는 복수 선생님의 단말이고, 표시 단말(600)은 원격 교육에 참석하는 불특정 다수의 학생 단말일 수 있다.As illustrated, the overlay image 560 is generated by overlaying the composite image 550 on the shared content 510, and the overlay image 560 is displayed through the display terminal 600 in addition to the terminal participating in the video conversation. Can be. For example, the user terminal 100 may be a terminal of a plurality of teachers who perform distance education, and the display terminal 600 may be an unspecified student terminal that attends distance education.
도 4는 본 발명에서 합성 영상을 제공하는 다른 예를 보인 도면이다. 도 4에서와 같이 사용자 단말(100) 중 일부는 2D 카메라(115)를 포함할 수 있다.4 is a view showing another example of providing a composite image in the present invention. As shown in FIG. 4, some of the user terminal 100 may include a 2D camera 115.
가령, 진행자 또는 발표자로 선택된 2D 카메라(105)가 설치된 사용자 단말 A는, 촬영된 2D 영상을 미디어 처리 서버(300)로 전송한다.For example, the user terminal A provided with the 2D camera 105 selected as the presenter or the presenter transmits the captured 2D image to the media processing server 300.
3D 깊이 카메라를 장착한 일반 사용자 단말 B, C는, 앞서 도 3을 참조하여 설명한 바와 같이 촬영된 3D 영상을 미디어 처리 서버(300)로 전송한다.General user terminals B and C equipped with a 3D depth camera transmit the captured 3D image to the media processing server 300 as described above with reference to FIG. 3.
또 다른 2D 카메라(115)를 지닌 일반 사용자 단말 D가 존재하는 경우, 이를 통해 촬영된 2D 영상을 인코딩하여 미디어 처리 서버(300)로 전송할 수 있음은 도면에 도시된 바와 같다.When there is a general user terminal D having another 2D camera 115, the 2D image photographed through the 2D camera 115 may be encoded and transmitted to the media processing server 300 as shown in the drawing.
미디어 처리 서버(300)는 사용자 단말 A로부터 수신한 2D 영상과 사용자 단말 B, C로부터 수신한 3D 영상 및 사용자 단말 D로부터 수신한 2D 영상 등을 합성하여 합성 영상(550)을 생성한다. 이때, 진행자 또는 발표자로 선언된 사용자 A의 2D 영상을 합성 영상(550)의 기본 화면으로 하며, 사용자 단말 B, C의 3D 이미지는 상술한 바와 같이 깊이 정보를 이용하여 배경색을 제거하며 2D 이미지에 중첩하여 합성 영상을 생성할 수 있다. 이때, 2D 카메라를 지닌 일반 사용자 단말 D(250)의 2D 영상은 미디어 처리 서버에서 합성 영상의 별도의 위치에 놓이게 하여 입체적 영상회의에 참여할 수 있는 호환성을 보장하게 한다.The media processing server 300 generates a composite image 550 by synthesizing the 2D image received from the user terminal A, the 3D image received from the user terminals B and C, the 2D image received from the user terminal D, and the like. In this case, the 2D image of the user A declared as the presenter or presenter is used as the basic screen of the synthesized image 550. The 3D image of the user terminals B and C removes the background color by using the depth information as described above. The composite image may be generated by overlapping. In this case, the 2D image of the general user terminal D 250 having the 2D camera is placed in a separate position of the synthesized image in the media processing server, thereby ensuring compatibility to participate in the stereoscopic video conference.
여기서 상기 이미지는 배경에 이용하기 위하여 배경색을 제거한 것을 말하는 것으로 영상회의 주최자 배경화면을 영상회의 참여자들과 공유하여 동일한 배경을 갖는 환경에서 회의가 이루어지는 효과를 갖게 하기 위한 것을 말하므로 동영상 이미지를 포함할 수 있다.Here, the image refers to removing the background color for use in the background, and sharing the video conference organizer wallpaper with the participants in the video conference so that the meeting can be effected in an environment having the same background. Can be.
미디어 처리 서버(300)는 생성된 합성 영상을 인코딩하여 각 사용자 단말(100)로 재전송하며, 각 사용자 단말(100)에서는 미디어 처리 서버(300)로부터 수신한 영상을 렌더링하여 디스플레이할 것이다.The media processing server 300 encodes the generated composite image and retransmits it to each user terminal 100, and each user terminal 100 will render and display the image received from the media processing server 300.
전술한 바와 같은, 본 발명의 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템 및 방법은, 네트워크에 접속된 복수의 사용자 단말이 3D 깊이 카메라에서 추출된 사용자 영상을 미디어 처리 서버로 전송하고, 미디어 처리 서버에서 사용자 영상들을 합성하여 사용자 단말로 재전송하면, 사용자 단말 측에서 영상 대화를 실시하는 그룹 내 참여자들에게 공유 콘텐츠에 합성 영상을 오버레이하여 표시한다. 도 3을 참조하여 설명한 바와 같이, 영상 대화의 참여들이 가상의 동일 배경 속에 놓여지며, 가상의 동일 배경은 공유 문서 또는 이미지, 공통으로 진행중인 게임 화면 등이므로, 영상 대화 참여자들에게 몰입도 높은 영상 대화를 구현할 수 있다. 따라서, 본 발명은 원격 교육, 화상 회의, 멀티 유저 게임, 사이버 모델하우스, 양방향 세미나 중계, 재난/재해 대응 방송, 홈 쇼핑 등 다양한 영상 대화 시스템에서 고 몰입형 사용자 경험(UX)을 제공할 수 있다.As described above, the multi-party video chat system and method using the 3D depth camera of the present invention, a plurality of user terminals connected to the network transmits the user image extracted from the 3D depth camera to the media processing server, the media processing server When the user images are synthesized and retransmitted to the user terminal, the synthesized image is overlaid on the shared content and displayed to the participants in the group having the video conversation. As described with reference to FIG. 3, the participation in the video chat is placed on the same virtual background, and the virtual same background is a shared document or image, a game screen in common, and the like. Can be implemented. Accordingly, the present invention can provide a highly immersive user experience (UX) in various video conversation systems such as distance education, video conferencing, multi-user games, cyber model house, interactive seminar relaying, disaster / disaster response broadcasting, home shopping, etc. .
위에서 개시된 발명은 기본적인 사상을 훼손하지 않는 범위 내에서 다양한 변형예가 가능하다. 즉, 위의 실시예들은 모두 예시적으로 해석되어야 하며, 한정적으로 해석되지 않는다. 따라서 본 발명의 보호범위는 상술한 실시예가 아니라 첨부된 청구항에 따라 정해져야 하며, 첨부된 청구항에 한정된 구성요소를 균등물로 치환한 경우 이는 본 발명의 보호범위에 속하는 것으로 보아야 한다.Various modifications are possible in the invention disclosed above without departing from the basic idea. That is, the above embodiments should all be interpreted as illustrative and not restrictive. Therefore, the protection scope of the present invention should be determined according to the appended claims rather than the above-described embodiments, and if the components defined in the appended claims are replaced by equivalents, they should be regarded as belonging to the protection scope of the present invention.

Claims (21)

  1. 사용자의 영상을 촬영하여 원격의 서버로 전송하며 다자간 영상 대화를 실시하는 복수의 사용자 단말; 및A plurality of user terminals for capturing an image of a user and transmitting the image to a remote server to perform a multi-party video conversation; And
    상기 사용자 단말에서 전송받은 영상들을 합성하여 합성 영상을 생성하고 생성된 합성 영상을 영상 대화를 실시하는 사용자 단말 그룹으로 재전송하는 미디어 처리 서버를 포함하며,And a media processing server for synthesizing the images received from the user terminal to generate a synthesized image and retransmitting the generated synthesized image to a group of user terminals conducting a video conversation.
    상기 사용자 단말은,The user terminal,
    피촬상물을 촬상하여 이미지로 변환하되 변환된 이미지 객체 각각에 대하여 거리 정보를 갖는 3D 깊이 카메라;A 3D depth camera that captures a photographed object and converts the image into an image, and has distance information for each converted image object;
    상기 3D 깊이 카메라에서 촬영된 이미지로부터 사용자 객체 이미지를 제외한 백그라운드 이미지를 제거하고 단색의 가상 배경 이미지로 대체하는 영상 처리 모듈;An image processing module which removes a background image except a user object image from the image photographed by the 3D depth camera and replaces it with a single color virtual background image;
    상기 미디어 처리 서버와 영상을 송수신하기 위해 통신하는 통신 모듈;A communication module communicating with the media processing server to transmit and receive an image;
    상기 사용자 단말 그룹의 공유 콘텐츠 상에 상기 미디어 처리 서버로부터 수신한 상기 합성 영상을 오버레이하여 오버레이 영상을 생성하는 영상 오버레이 모듈; 및An image overlay module for generating an overlay image by overlaying the composite image received from the media processing server on shared content of the user terminal group; And
    상기 오버레이 영상을 화면에 출력하는 디스플레이수단을 포함하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템.And a display means for outputting the overlay image on a screen.
  2. 제1항에 있어서,The method of claim 1,
    상기 3D 깊이 카메라는 상기 피촬상물의 RGB 정보를 센싱하는 RGB 센싱부와, 상기 피촬상물의 거리 정보를 센싱하는 거리 센싱부로 구성되는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템.And the 3D depth camera comprises an RGB sensing unit for sensing the RGB information of the photographic object, and a distance sensing unit sensing the distance information of the photographic object.
  3. 제1항에 있어서,The method of claim 1,
    상기 영상 처리 모듈은 상기 가상 배경 이미지를 상기 사용자 객체 이미지를 구성하는 색상과 다른 색상으로 구성하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템.And the image processing module is configured to configure the virtual background image in a color different from a color constituting the user object image.
  4. 제1항에 있어서,The method of claim 1,
    상기 영상 처리 모듈은 상기 가상 배경 이미지를 상기 사용자 객체 이미지의 경계부를 구성하는 색상과 다른 색상으로 구성하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템.And the image processing module is configured to configure the virtual background image in a color different from a color constituting a boundary of the user object image.
  5. 제1항에 있어서,The method of claim 1,
    상기 미디어 처리 서버는 상기 합성 영상을 인코딩하여 상기 사용자 단말로 재전송하며,The media processing server encodes the composite video and retransmits it to the user terminal,
    상기 영상 오버레이 모듈은 상기 합성 영상을 수신하여 디코딩한 후에, 상기 합성 영상으로부터 단색의 가상 배경 이미지를 제거하고 투명화 처리하며, 투명화 처리된 합성 영상을 상기 공유 콘텐츠 상에 오버레이하여 렌더링 처리하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템.The image overlay module receives and decodes the composite image, and then removes and transparentizes a single virtual background image from the composite image, and overlays the transparent image on the shared content to render. Multi-party video chat system using 3D depth camera.
  6. 제5항에 있어서,The method of claim 5,
    상기 공유 콘텐츠는 원격 교육 또는 화상 회의에서 진행자에 의해 선택된 공유 문서 또는 이미지인 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템.And said shared content is a shared document or image selected by a host in distance learning or video conferencing.
  7. 제5항에 있어서,The method of claim 5,
    상기 공유 콘텐츠는 멀티 유저가 접속한 게임 환경에서 사용자에 의해 선택된 게임 화면인 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템.The shared content is a multi-party video chat system using a 3D depth camera, characterized in that the game screen selected by the user in a multi-user connected game environment.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,The method according to any one of claims 1 to 7,
    상기 사용자 단말과 상기 미디어 처리 서버 사이에서 영상 데이터를 중계하는 데이터 중계 서버를 더 포함하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템.And a data relay server for relaying image data between the user terminal and the media processing server.
  9. 제1항 내지 제7항 중 어느 한 항에 있어서,The method according to any one of claims 1 to 7,
    상기 공유 콘텐츠를 제공하는 콘텐츠 공유 서버를 더 포함하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템.And a content sharing server for providing the shared content.
  10. 사용자 단말에서 사용자의 영상을 촬영하여 전송하면 미디어 처리 서버에서 상기 사용자 단말로부터 전송받은 영상들을 합성하여 합성 영상을 생성하고 상기 합성 영상을 영상 대화를 실시하는 사용자 단말 그룹으로 재전송하는 다자간 영상 대화 방법에 있어서,When the user terminal captures the image of the user and transmits it, the media processing server synthesizes the images received from the user terminal to generate a composite image and re-transmits the synthesized image to the user terminal group having a video chat. In
    (a) 상기 사용자 단말에 설치된 3D 깊이 카메라에서 피촬상물을 촬상하는 단계;(a) photographing a photographed object in a 3D depth camera installed in the user terminal;
    (b) 촬상된 이미지로부터 사용자 객체 이미지를 제외한 백그라운드 이미지를 제거하고 단색의 가상 배경 이미지로 대체하는 단계;(b) removing the background image excluding the user object image from the captured image and replacing it with a solid virtual background image;
    (c) 단계(c)에서 생성된 영상을 상기 미디어 처리 서버로 전송하는 단계;(c) transmitting the image generated in step (c) to the media processing server;
    (d) 상기 미디어 처리 서버로부터 수신한 합성 영상을 상기 사용자 단말 그룹의 공유 콘텐츠 상에 오버레이하여 오버레이 영상을 생성하는 단계; 및generating an overlay image by overlaying the composite image received from the media processing server on shared content of the user terminal group; And
    (e) 상기 오버레이 영상을 화면 출력하는 단계를 포함하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 방법.and (e) outputting the overlay image to the screen.
  11. 제10항에 있어서,The method of claim 10,
    상기 3D 깊이 카메라는 상기 피촬상물의 RGB 정보를 센싱하는 RGB 센싱부와, 상기 피촬상물의 거리 정보를 센싱하는 거리 센싱부로 구성되는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 방법.And the 3D depth camera comprises an RGB sensing unit for sensing the RGB information of the photographic object and a distance sensing unit sensing the distance information of the photographic object.
  12. 제10항에 있어서,The method of claim 10,
    상기 단계(b)는 상기 가상 배경 이미지를 상기 사용자 객체 이미지를 구성하는 색상과 다른 색상으로 구성하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 방법.The step (b) is a multi-party video chat method using a 3D depth camera, characterized in that for configuring the virtual background image with a color different from the color constituting the user object image.
  13. 제10항에 있어서,The method of claim 10,
    상기 단계(b)는 상기 가상 배경 이미지를 상기 사용자 객체 이미지의 경계부를 구성하는 색상과 다른 색상으로 구성하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 방법.The step (b) is a multi-party video chat method using a 3D depth camera, characterized in that for configuring the virtual background image with a color different from the color constituting the boundary of the user object image.
  14. 제10항에 있어서,The method of claim 10,
    상기 미디어 처리 서버는 상기 합성 영상을 인코딩하여 상기 사용자 단말로 재전송하며,The media processing server encodes the composite video and retransmits it to the user terminal,
    상기 단계(d)는, 상기 합성 영상을 수신하여 디코딩한 후에, 상기 합성 영상으로부터 단색의 가상 배경 이미지를 제거하고 투명화 처리하며, 투명화 처리된 합성 영상을 상기 공유 콘텐츠 상에 오버레이하여 렌더링 처리하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 방법.In step (d), after receiving and decoding the composite image, removing and transparentizing a single virtual background image from the composite image, overlaying the transparent image on the shared content, and rendering the rendering process Multi-way video chat using 3D depth camera.
  15. 제14항에 있어서,The method of claim 14,
    상기 공유 콘텐츠는 원격 교육 또는 화상 회의에서 진행자에 의해 선택된 공유 문서 또는 이미지인 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 방법.And said shared content is a shared document or image selected by a host in distance learning or video conferencing.
  16. 제14항에 있어서,The method of claim 14,
    상기 공유 콘텐츠는 멀티 유저가 접속한 게임 환경에서 사용자에 의해 선택된 게임 화면인 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 방법.And said shared content is a game screen selected by a user in a multi-user connected game environment.
  17. 제10항 내지 제16항 중 어느 한 항에 있어서,The method according to any one of claims 10 to 16,
    상기 사용자 단말과 상기 미디어 처리 서버 사이에서 데이터 중계 서버가 영상 데이터를 중계하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 방법.And a data relay server relays image data between the user terminal and the media processing server.
  18. 제10항 내지 제16항 중 어느 한 항에 있어서,The method according to any one of claims 10 to 16,
    콘텐츠 공유 서버에서 상기 공유 콘텐츠를 제공하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 방법.A multi-party video chat method using a 3D depth camera, characterized by providing the shared content in a content sharing server.
  19. 2D 카메라를 이용하여 사용자의 영상을 촬영하며, 촬영된 2D 이미지를 원격의 서버와 송수신하여 다자간 영상 대화를 실시하는 하나 이상의 제1 사용자 단말;At least one first user terminal for capturing an image of a user by using a 2D camera and transmitting and receiving a photographed 2D image with a remote server to perform a multi-party video conversation;
    3D 깊이 카메라를 이용하여 사용자의 영상을 촬영하며, 촬영된 3D 이미지를 원격의 서버와 송수신하여 다자간 영상 대화를 실시하는 하나 이상의 제2 사용자 단말; 및At least one second user terminal for capturing an image of a user by using a 3D depth camera and transmitting and receiving a captured 3D image with a remote server to perform a multi-party video conversation; And
    상기 제1 사용자 단말 및 상기 제2 사용자 단말에서 전송받은 영상들을 합성하여 합성 영상을 생성하되, 상기 2D 이미지를 합성 영상의 기본 화면으로 하고 상기 3D 이미지의 배경색을 제거하여 상기 2D 이미지에 중첩하여 합성 영상을 생성하고, 생성된 합성 영상을 인코딩하여 상기 제1 사용자 단말과 상기 제2 사용자 단말로 재전송하는 미디어 처리 서버를 포함하며,A synthesized image is generated by synthesizing the images transmitted from the first user terminal and the second user terminal. The synthesized image is superimposed on the 2D image by removing the background color of the 3D image as the base screen of the synthesized image. A media processing server generating an image, encoding the synthesized composite image, and retransmitting the synthesized image to the first user terminal and the second user terminal;
    상기 제1 사용자 단말 및 상기 제2 사용자 단말은 상기 미디어 처리 서버로부터 수신한 영상을 렌더링하여 디스플레이하는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템.The first user terminal and the second user terminal is a multi-party video chat system using a 3D depth camera, characterized in that for rendering and displaying the image received from the media processing server.
  20. 제19항에 있어서,The method of claim 19,
    상기 합성 영상의 기본 화면으로 제공되는 2D 이미지는 원격 교육 또는 화상 회의에서 진행자에 의해 상기 제1 사용자 단말의 상기 2D 카메라로 촬상된 이미지이며,The 2D image provided as the basic screen of the composite image is an image captured by the host in the distance education or video conference by the 2D camera of the first user terminal,
    상기 제2 사용자 단말의 상기 3D 깊이 카메라는 상기 피촬상물의 RGB 정보를 센싱하는 RGB 센싱부와, 상기 피촬상물의 거리 정보를 센싱하는 거리 센싱부로 구성되는 것을 특징으로 하는 3D 깊이 카메라를 이용한 다자간 영상 대화 시스템.The 3D depth camera of the second user terminal includes an RGB sensing unit for sensing the RGB information of the photographic object, and a distance sensing unit sensing the distance information of the photographic object. Dialog system.
  21. 제19항에 있어서,The method of claim 19,
    상기 미디어 처리 서버는, 상기 2D 카메라 이외의 2D 카메라를 사용하는 추가적인 일반 사용자 단말의 참여가 있는 경우, 이에 대한 호환성을 유지시키는 것을 특징으로 하는 다자간 영상 대화 시스템.The media processing server, if there is the participation of the additional general user terminal using a 2D camera other than the 2D camera, multi-party video chat system, characterized in that to maintain compatibility.
PCT/KR2017/006405 2016-06-21 2017-06-19 Multilateral video communication system and method using 3d depth camera WO2017222258A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2016-0076951 2016-06-21
KR20160076951 2016-06-21
KR1020160145475A KR101784266B1 (en) 2016-06-21 2016-11-03 Multi user video communication system and method using 3d depth camera
KR10-2016-0145475 2016-11-03

Publications (1)

Publication Number Publication Date
WO2017222258A1 true WO2017222258A1 (en) 2017-12-28

Family

ID=60139196

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/006405 WO2017222258A1 (en) 2016-06-21 2017-06-19 Multilateral video communication system and method using 3d depth camera

Country Status (2)

Country Link
KR (1) KR101784266B1 (en)
WO (1) WO2017222258A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547770A (en) * 2018-12-28 2019-03-29 努比亚技术有限公司 Use the method and device of naked eye 3D Video chat, mobile terminal and storage medium
CN111901581A (en) * 2020-08-28 2020-11-06 南京星邺汇捷网络科技有限公司 Video pixel processing system and method based on 2D video to 3D effect
CN113419693A (en) * 2021-05-17 2021-09-21 广州佰锐网络科技有限公司 Multi-user track synchronous display method and system

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108055495A (en) * 2017-12-14 2018-05-18 南京美桥信息科技有限公司 A kind of visual virtual party method and system
KR102428438B1 (en) 2020-12-29 2022-08-02 주식회사 버넥트 Method and system for multilateral remote collaboration based on real-time coordinate sharing
KR20240127110A (en) * 2023-02-15 2024-08-22 라인플러스 주식회사 Method and system for taking images during video calls

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990085858A (en) * 1998-05-22 1999-12-15 윤종용 Multipoint Video Conference System and Its Implementation Method
KR20060023657A (en) * 2004-09-10 2006-03-15 주식회사 비즈모델라인 System and method for providing service of compositing image(or video), recording medium
KR20110004004A (en) * 2009-07-07 2011-01-13 (주)이티에이치 Gripper assembly for battery formation
KR101099369B1 (en) * 2011-03-17 2011-12-29 (주) 피디케이리미티드 Multi-user video conference system and method
KR101577986B1 (en) * 2015-03-24 2015-12-16 (주)해든브릿지 System for generating two way virtual reality

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990085858A (en) * 1998-05-22 1999-12-15 윤종용 Multipoint Video Conference System and Its Implementation Method
KR20060023657A (en) * 2004-09-10 2006-03-15 주식회사 비즈모델라인 System and method for providing service of compositing image(or video), recording medium
KR20110004004A (en) * 2009-07-07 2011-01-13 (주)이티에이치 Gripper assembly for battery formation
KR101099369B1 (en) * 2011-03-17 2011-12-29 (주) 피디케이리미티드 Multi-user video conference system and method
KR101577986B1 (en) * 2015-03-24 2015-12-16 (주)해든브릿지 System for generating two way virtual reality

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547770A (en) * 2018-12-28 2019-03-29 努比亚技术有限公司 Use the method and device of naked eye 3D Video chat, mobile terminal and storage medium
CN111901581A (en) * 2020-08-28 2020-11-06 南京星邺汇捷网络科技有限公司 Video pixel processing system and method based on 2D video to 3D effect
CN113419693A (en) * 2021-05-17 2021-09-21 广州佰锐网络科技有限公司 Multi-user track synchronous display method and system
CN113419693B (en) * 2021-05-17 2023-04-18 广州佰锐网络科技有限公司 Multi-user track synchronous display method and system

Also Published As

Publication number Publication date
KR101784266B1 (en) 2017-10-11

Similar Documents

Publication Publication Date Title
WO2017222258A1 (en) Multilateral video communication system and method using 3d depth camera
WO2016153161A1 (en) Two-way virtual reality realizing system
CN101939989B (en) Virtual table
JP6171263B2 (en) Remote conference system and remote conference terminal
WO2014069785A1 (en) Video conference call device and video conference output method using same
CN108028905B (en) Virtual video driver bridge system for multi-source collaboration within a network conferencing system
CN103597468A (en) Systems and methods for improved interactive content sharing in video communication systems
US11889228B2 (en) Conference device with multi-videostream capability
US20100066806A1 (en) Internet video image producing method
JP3587106B2 (en) Eye-gaze video conferencing equipment
JP4576740B2 (en) Window-shaped imaging display device and bidirectional communication method using the same
CN101764990A (en) Identifying label presentation method and system thereof as well as video providing device and video receiving device
CN111107301A (en) Video conference platform and communication method based on video conference platform
WO2022075767A1 (en) Method and device for rendering content in mobile communication system
KR20110006976A (en) Mutimedia syncronization control system for display space from experience space
WO2021187647A1 (en) Method and system for expressing avatar imitating user's motion in virtual space
WO2021187646A1 (en) Method and system for conducting conference by using avatar
WO2018124680A1 (en) Image communication method
CN211830976U (en) Video conference platform
JP3759216B2 (en) Television camera communication device and multipoint connection device
CN113726534A (en) Conference control method, conference control device, electronic equipment and storage medium
JP4223922B2 (en) TV camera communication device
JP2000287188A (en) System and unit for inter-multi-point video audio communication
EP4050890A1 (en) Conference device with multi-videostream control
KR20180092469A (en) Method for presentation broadcasting using 3d camera and web real-time communication

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17815671

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17815671

Country of ref document: EP

Kind code of ref document: A1