KR102472115B1 - 다자간 온라인 업무 협업을 위한 증강현실 기반의 화상회의를 제공하기 위한 장치 및 이를 위한 방법 - Google Patents

다자간 온라인 업무 협업을 위한 증강현실 기반의 화상회의를 제공하기 위한 장치 및 이를 위한 방법 Download PDF

Info

Publication number
KR102472115B1
KR102472115B1 KR1020210117824A KR20210117824A KR102472115B1 KR 102472115 B1 KR102472115 B1 KR 102472115B1 KR 1020210117824 A KR1020210117824 A KR 1020210117824A KR 20210117824 A KR20210117824 A KR 20210117824A KR 102472115 B1 KR102472115 B1 KR 102472115B1
Authority
KR
South Korea
Prior art keywords
coordinate vector
background
image
learning
local image
Prior art date
Application number
KR1020210117824A
Other languages
English (en)
Other versions
KR20220112655A (ko
Inventor
임지숙
하태원
Original Assignee
(주)스마트큐브
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)스마트큐브 filed Critical (주)스마트큐브
Publication of KR20220112655A publication Critical patent/KR20220112655A/ko
Application granted granted Critical
Publication of KR102472115B1 publication Critical patent/KR102472115B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8166Monomedia components thereof involving executable data, e.g. software
    • H04N21/8173End-user applications, e.g. Web browser, game

Abstract

증강 현실 기반의 화상회의를 제공하기 위한 방법은 좌표생성부가 로컬영상 중 배경으로만 이루어진 배경로컬영상으로부터 심층학습(Deep Leaning)을 통해 학습된 변환모델을 이용하여 3차원 좌표로 표현되는 배경좌표벡터를 생성하고, 로컬영상 중 객체로만 이루어진 객체로컬영상으로부터 상기 변환모델을 이용하여 3차원 좌표로 표현되는 객체좌표벡터를 생성하는 단계와, 증강부가 상기 배경로컬영상에 상기 배경좌표벡터를 매핑하고, 상기 객체로컬영상에 상기 객체좌표벡터를 매핑하는 단계와, 상기 증강부가 상기 배경좌표벡터 및 상기 객체좌표벡터의 3차원 좌표에 따라 상기 배경좌표벡터에 매핑된 배경로컬영상에 상기 객체좌표벡터에 매핑된 객체로컬영상을 정합하여 증강영상을 생성하는 단계와, 상기 증강부가 화상회의에 참여한 사용자장치에 상기 증강영상을 제공하는 단계를 포함한다.

Description

다자간 온라인 업무 협업을 위한 증강현실 기반의 화상회의를 제공하기 위한 장치 및 이를 위한 방법{Apparatus and method for providing augmented reality-based video conference for multi-party online business collaboration}
본 발명은 화상회의를 제공 기술에 관한 것으로, 보다 상세하게는, 다자간 온라인 업무 협업을 위한 증강현실(AR: augmented reality) 기반의 화상회의를 제공하기 위한 장치 및 이를 위한 방법에 관한 것이다.
증강현실(AR: augmented reality)은 현실 세계에 컴퓨터 기술로 만든 가상물체 및 정보를 융합, 보완해 주는 기술을 말한다. 현실 세계에 실시간으로 부가정보를 갖는 가상 세계를 더해 하나의 영상으로 보여준다.
한국공개특허 제2015-0099401호 (2015년 08월 31일 공개)
본 발명의 목적은 다자간 온라인 업무 협업을 위한 증강현실 기반의 화상회의를 제공하기 위한 장치 및 이를 위한 방법을 제공함에 있다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 증강 현실 기반의 화상회의를 제공하기 위한 방법은 좌표생성부가 로컬영상 중 배경으로만 이루어진 배경로컬영상으로부터 심층학습(Deep Leaning)을 통해 학습된 변환모델을 이용하여 3차원 좌표로 표현되는 배경좌표벡터를 생성하고, 로컬영상 중 객체로만 이루어진 객체로컬영상으로부터 상기 변환모델을 이용하여 3차원 좌표로 표현되는 객체좌표벡터를 생성하는 단계와, 증강부가 상기 배경로컬영상에 상기 배경좌표벡터를 매핑하고, 상기 객체로컬영상에 상기 객체좌표벡터를 매핑하는 단계와, 상기 증강부가 상기 배경좌표벡터 및 상기 객체좌표벡터의 3차원 좌표에 따라 상기 배경좌표벡터에 매핑된 배경로컬영상에 상기 객체좌표벡터에 매핑된 객체로컬영상을 정합하여 증강영상을 생성하는 단계와, 상기 증강부가 화상회의에 참여한 사용자장치에 상기 증강영상을 제공하는 단계를 포함한다.
상기 증강영상을 생성하는 단계는 상기 증강부가 객체의 위치를 조작하기 위한 입력을 수신하면, 수신된 입력에 따라 상기 객체좌표벡터의 3차원 좌표를 변경하는 단계와, 상기 증강부가 상기 객체좌표벡터의 상기 변경된 3차원 좌표에 따라 상기 배경로컬영상에 상기 객체로컬영상을 정합하여 증강영상을 생성하는 단계를 포함한다.
상기 방법은 상기 객체좌표벡터를 생성하는 단계 전, 영상처리부가 적어도 하나의 사용자장치로부터 적어도 하나의 영상을 수신하면, 수신된 영상에서 배경과 객체를 분리하여 배경로컬영상 및 객체로컬영상을 생성하는 단계를 더 포함한다.
상기 객체좌표벡터를 생성하는 단계는 상기 좌표생성부가 상기 배경로컬영상을 상기 변환모델에 입력하면, 상기 변환모델이 복수의 계층 간 가중치가 적용되는 연산을 수행하여 상기 배경좌표벡터를 생성하는 단계와, 상기 좌표생성부가 상기 객체로컬영상을 상기 변환모델에 입력하면, 상기 변환모델이 복수의 계층 간 가중치가 적용되는 연산을 수행하여 상기 객체좌표벡터를 생성하는 단계를 포함한다.
상기 방법은 배경좌표벡터로 변환하는 단계 전, 학습부가 학습용 로컬영상 및 상기 학습용 로컬영상의 모든 픽셀 각각에 대응하여 실측된 3차원 좌표로 이루어진 실측좌표벡터를 포함하는 복수의 학습 데이터를 마련하는 단계와, 상기 학습부가 상기 복수의 학습 데이터 중 적어도 일부를 이용하여 식별망 및 변환망을 포함하는 변환모델의 상기 식별망이 상기 실측좌표벡터에 대해 실측값으로 판단하고, 상기 변환망에 의해 생성된 학습용 좌표벡터에 대해 실측값을 모사한 모사값으로 판단하도록 상기 식별망의 파라미터를 수정하는 최적화를 수행하는 제1 단계와, 상기 식별망이 상기 변환망에 의해 생성된 학습용 좌표벡터를 실측값으로 판단하도록 상기 변환망의 파라미터를 수정하는 최적화를 수행하는 제2 단계를 교번으로 수행하여 변환모델을 생성하는 단계를 더 포함한다.
상기 제1 단계는 상기 학습부가 식별손실함수
Figure 112021102443168-pat00001
에 의해 산출되는 식별손실이 최대가 되도록 상기 변환망의 가중치는 수정하지 않고 상기 식별망의 가중치를 수정하는 최적화를 수행하는 단계를 포함한다. 여기서, 상기 Lds(x)는 식별손실함수이고, 상기 GT는 실측좌표벡터이고, 상기 x는 식별망에 대한 입력으로 학습용 좌표벡터 혹은 실측좌표벡터이고, 상기 D(x)는 식별망이 상기 x에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행한 결과인 식별값인 것을 특징으로 한다.
상기 제2 단계는 상기 학습부가 변환손실함수
Figure 112021102443168-pat00002
에 의해 산출되는 변환손실이 최대가 되도록 상기 식별망의 가중치는 수정하지 않고 상기 변환망의 가중치를 수정하는 최적화를 수행하는 단계를 포함한다. 여기서, 상기 Ltn(z)는 변환손실함수이고, 상기 z는 변환망에 대한 입력으로, 학습용 로컬영상이고, 상기 G(z)는 변환망이 학습용 로컬영상에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 통해 산출한 학습용 좌표벡터이고, 상기 D(G(z))는 식별망이 입력되는 상기 G(z)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행한 결과인 식별값인 것을 특징으로 한다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 증강 현실 기반의 화상회의를 제공하기 위한 장치는 로컬영상 중 배경으로만 이루어진 배경로컬영상으로부터 심층학습(Deep Leaning)을 통해 학습된 변환모델을 이용하여 3차원 좌표로 표현되는 배경좌표벡터를 생성하고, 로컬영상 중 객체로만 이루어진 객체로컬영상으로부터 상기 변환모델을 이용하여 3차원 좌표로 표현되는 객체좌표벡터를 생성하는 좌표생성부와, 상기 배경로컬영상에 상기 배경좌표벡터를 매핑하고, 상기 객체로컬영상에 상기 객체좌표벡터를 매핑하고, 상기 배경좌표벡터 및 상기 객체좌표벡터의 3차원 좌표에 따라 상기 배경좌표벡터에 매핑된 배경로컬영상에 상기 객체좌표벡터에 매핑된 객체로컬영상을 정합하여 증강영상을 생성하고, 화상회의에 참여한 사용자장치에 상기 증강영상을 제공하는 증강부를 포함한다.
본 발명에 따르면, 화상회의에 참여한 모든 사용자들 각각이 동일한 객체를 개별적으로 자신의 사이트가 배경으로 반영된 증강 현실에서 조작하여 테스트할 수 있다. 이에 따라, 화상회의에 참여한 모든 사용자들에게 해당 객체에 대해 실감나는 사용자 경험을 제공할 수 있다.
도 1은 본 발명의 실시예에 따른 증강현실 기반의 화상회의를 제공하기 위한 시스템의 구성을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 화상회의를 제공하기 위한 사용자장치의 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 증강현실 기반의 화상회의를 제공하기 위한 화상회의서버의 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 증강현실을 제공하기 위한 제어모듈의 세부 구성을 설명하기 위한 블록도이다.
도 5는 본 발명의 실시예에 따른 배경로컬영상과 객체로컬영상을 생성하는 방법을 설명하기 위한 화면 예이다.
도 6은 본 발명의 실시예에 따른 증강현실을 제공하기 위한 변환모델의 구성을 설명하기 위한 도면이다.
도 7은 본 발명의 실시예에 따른 객체로컬영상을 배경로컬영상에 정합하는 방법을 설명하기 위한 도면이다.
도 8은 본 발명의 실시예에 따른 변환모델을 생성하는 방법을 설명하기 위한 흐름도이다.
도 9는 본 발명의 실시예에 따른 변환모델의 식별망을 최적화하는 방법을 설명하기 위한 흐름도이다.
도 10은 본 발명의 실시예에 따른 변환모델의 변환망을 최적화하는 방법을 설명하기 위한 흐름도이다.
도 11은 본 발명의 실시예에 따른 증강현실 기반의 화상회의를 제공하기 위한 방법을 설명하기 위한 흐름도이다.
본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다.
먼저, 본 발명의 실시예에 따른 다자간 온라인 업무 협업을 위한 증강현실(AR: augmented reality) 기반의 화상회의를 제공하기 위한 시스템에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 증강현실 기반의 화상회의를 제공하기 위한 시스템의 구성을 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 실시예에 따른 증강현실 기반의 화상회의를 제공하기 위한 시스템(이하, '화상회의시스템'으로 축약함)은 사용자장치(10) 및 화상회의서버(20)를 포함한다.
사용자장치(10)는 카메라 기능 및 통신 기능을 포함하는 장치이다. 사용자장치(10)는 화상회의에 참여하는 사용자가 사용하는 장치이며, 사용자장치(10)가 촬영한 영상을 화상회의서버(20)로 전송할 수 있다.
화상회의서버(20)는 기본적으로, 화상회의에 참여한 복수의 사용자장치(10) 모두가 화상회의를 할 수 있도록 연결하기 위한 것이다. 특히, 화상회의서버(20)는 화상회의에 참여한 모든 사용자장치(10)와 세션을 연결하고, 이를 통해 화상회의를 제공할 수 있다.
화상회의서버(20)는 적어도 하나의 사용자장치(10)로부터 수신된 적어도 하나의 영상에서 배경을 추출한 영상인 배경로컬영상과, 객체를 추출한 영상인 객체로컬영상을 생성하고, 객체를 사용자의 조작에 따라 배경에서 사용자가 원하는 위치에 정합하여 표시되는 증강영상을 생성할 수 있다. 그러면, 화상회의서버(20)는 생성된 증강영상을 화상회의에 참여한 모든 사용자장치(10)에 제공할 수 있다. 이러한 증강영상을 생성하기 위하여, 화상회의서버(20)는 학습(Deep leanring)에 의해 생성되는 변환모델(TM)을 이용할 수 있다.
그러면, 본 발명의 실시예에 따른 화상회의를 제공하기 위한 사용자장치(10)에 대해서 설명하기로 한다. 도 2는 본 발명의 실시예에 따른 화상회의를 제공하기 위한 사용자장치의 구성을 설명하기 위한 도면이다. 도 2를 참조하면, 본 발명의 실시예에 따른 사용자장치(10)는 통신부(11), 카메라부(12), 센서부(13), 오디오부(14), 입력부(14), 표시부(15), 저장부(16) 및 제어부(17)를 포함한다.
통신부(11)는 화상회의서버(20)와 통신을 위한 것이다. 통신부(11)는 송신되는 신호의 주파수를 상승 변환 및 증폭하는 RF(Radio Frequency) 송신기(Tx) 및 수신되는 신호를 저 잡음 증폭하고 주파수를 하강 변환하는 RF 수신기(Rx)를 포함할 수 있다. 그리고 통신부(11)는 송신되는 신호를 변조하고, 수신되는 신호를 복조하는 모뎀(Modem)을 포함할 수 있다. 통신부(11)는 제어부의 제어에 따라 화상회의서버(20)로 배경 및 객체가 포함된 영상을 전송할 수 있다. 또한, 통신부(11)는 화상회의서버(20)로부터 증강현실 영상 등을 수신할 수 있다.
카메라부(12)는 영상을 촬영하기 위한 것이다. 카메라부(12)는 렌즈 및 이미지센서를 포함할 수 있다. 각 이미지센서는 피사체에서 반사되는 빛을 입력받아 전기신호로 변환한다. 이미지 센서는 CCD(Charged Coupled Device), CMOS(Complementary Metal-Oxide Semiconductor) 등을 기반으로 구현될 수 있다. 또한, 카메라부(12)는 하나 이상의 아날로그-디지털 변환기(Analog to Digital Converter)를 더 포함할 수 있으며, 이미지센서에서 출력되는 전기신호를 디지털 수열로 변환하여 제어부(17)로 출력할 수 있다.
센서부(13)는 관성을 측정하기 위한 것이다. 이러한 센서부(13)는 관성센서(Inertial Measurement Unit: IMU), 도플러속도센서(Doppler Velocity Log: DVL) 및 자세방위각센서(Attitude and Heading Reference. System: AHRS) 등을 포함한다. 센서부(13)는 사용자장치(10)의 카메라부(12)의 3차원 좌표 상의 위치 및 오일러 각을 포함하는 관성 정보를 측정하여 측정된 사용자장치(10)의 관성 정보를 제어부(17)로 제공한다.
입력부(14)는 사용자장치(10)를 제어하기 위한 사용자의 키 조작을 입력받고 입력 신호를 생성하여 제어부(17)에 전달한다. 입력부(14)는 사용자장치(10)을 제어하기 위한 각 종 키들을 포함할 수 있다. 입력부(14)는 표시부(15)가 터치스크린으로 이루어진 경우, 각 종 키들의 기능이 표시부(15)에서 이루어질 수 있으며, 터치스크린만으로 모든 기능을 수행할 수 있는 경우, 입력부(14)는 생략될 수도 있다.
표시부(15)는 사용자장치(10)의 메뉴, 입력된 데이터, 기능 설정 정보 및 기타 다양한 정보를 사용자에게 시각적으로 제공한다. 표시부(15)는 사용자장치(10)의 부팅 화면, 대기 화면, 메뉴 화면, 등의 화면을 출력하는 기능을 수행한다. 특히, 표시부(15)는 본 발명의 실시예에 따른 증강현실 영상을 화면으로 출력하는 기능을 수행한다. 이러한 표시부(15)는 액정표시장치(LCD, Liquid Crystal Display), 유기 발광 다이오드(OLED, Organic Light Emitting Diodes), 능동형 유기 발광 다이오드(AMOLED, Active Matrix Organic Light Emitting Diodes) 등으로 형성될 수 있다. 한편, 표시부(15)는 터치스크린으로 구현될 수 있다. 이러한 경우, 표시부(15)는 터치센서를 포함한다. 터치센서는 사용자의 터치 입력을 감지한다. 터치센서는 정전용량 방식(capacitive overlay), 압력식, 저항막 방식(resistive overlay), 적외선 감지 방식(infrared beam) 등의 터치 감지 센서로 구성되거나, 압력 감지 센서(pressure sensor)로 구성될 수도 있다. 상기 센서들 이외에도 물체의 접촉 또는 압력을 감지할 수 있는 모든 종류의 센서 기기가 본 발명의 터치센서로 이용될 수 있다. 터치센서는 사용자의 터치 입력을 감지하고, 터치된 위치를 나타내는 입력 좌표를 포함하는 감지 신호를 발생시켜 제어부(17)로 전송할 수 있다. 특히, 표시부(15)가 터치스크린으로 이루어진 경우, 입력부(14)의 기능의 일부 또는 전부는 표시부(15)를 통해 이루어질 수 있다.
저장부(16)는 사용자장치(10)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 특히, 저장부(16)는 카메라 파라미터 등을 저장할 수 있다. 또한, 저장부(16)에 저장되는 각 종 데이터는 사용자장치(10) 사용자의 조작에 따라, 삭제, 변경, 추가될 수 있다.
제어부(17)는 사용자장치(10)의 전반적인 동작 및 사용자장치(10)의 내부 블록들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 또한, 제어부(17)는 기본적으로, 사용자장치(10)의 각 종 기능을 제어하는 역할을 수행한다. 제어부(17)는 CPU(Central Processing Unit), BP(baseband processor), AP(application processor), GPU(Graphic Processing Unit), DSP(Digital Signal Processor) 등을 예시할 수 있다.
제어부(17)는 웹 브라우저 기반의 화상회의를 위한 애플리케이션을 실행시키고, 실행된 애플리케이션을 통해 화상회의서버(20)와 연결한다. 화상회의서버(20)와 연결된 상태에서, 제어부(17)는 사용자의 조작에 따라 카메라부(12)를 통해 촬영된 영상 혹은 기 저장된 영상을 통신부(11)를 통해 화상회의서버(20)로 전송할 수 있다. 또한, 제어부(17)는 화상회의서버(20)로부터 증강현실 영상을 수신할 수 있다. 그러면, 제어부(17)는 증강영상을 표시부(15)를 통해 표시한다. 특히, 제어부(17)는 바람직하게, 증강영상 내의 객체에 대한 터치입력을 통해 객체의 위치를 조작하는 입력을 감지하고, 이러한 입력(예컨대, 터치된 위치를 나타내는 입력 좌표)를 통신부(11)를 통해 화상회의서버(20)로 전송할 수 있다.
다음으로, 본 발명의 실시예에 따른 증강현실을 제공하기 위한 화상회의서버(20)에 대해서 설명하기로 한다. 도 3은 본 발명의 실시예에 따른 증강현실 기반의 화상회의를 제공하기 위한 화상회의서버의 구성을 설명하기 위한 도면이다. 도 3을 참조하면, 본 발명의 실시예에 따른 화상회의서버(20)는 통신모듈(21), 저장모듈(22) 및 제어모듈(23)을 포함한다.
통신모듈(21)은 네트워크를 통해 사용자장치(10)와 통신하기 위한 것이다. 통신모듈(21)은 사용자장치(10)와 데이터를 송수신 할 수 있다. 통신모듈(21)은 송신되는 신호의 주파수를 상승 변환 및 증폭하는 RF(Radio Frequency) 송신기(Tx) 및 수신되는 신호를 저 잡음 증폭하고 주파수를 하강 변환하는 RF 수신기(Rx)를 포함할 수 있다. 또한, 통신모듈(21)은 데이터를 송수신하기 위해 송신되는 신호를 변조하고, 수신되는 신호를 복조하는 모뎀(modem)을 포함할 수 있다. 이러한 통신모듈(21)은 제어모듈(23)로부터 전달 받은 데이터, 예컨대, 증강영상을 사용자장치(10)로 전송할 수 있다. 또한, 통신모듈(21)은 사용자장치(10)로부터 객체 및 배경을 포함하는 영상을 수신하고, 수신된 영상을 제어모듈(23)로 전달할 수 있다.
저장모듈(22)은 화상회의서버(20)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 저장모듈(22)은 객체로컬영상 및 배경로컬영상을 포함하는 로컬영상과, 배경좌표벡터 및 객체좌표벡터를 포함하는 좌표벡터를 저장할 수 있다. 저장모듈(22)에 저장되는 각 종 데이터는 화상회의서버(20) 관리자의 조작에 따라 등록, 삭제, 변경, 추가될 수 있다.
제어모듈(23)은 화상회의서버(20)의 전반적인 동작 및 화상회의서버(20)의 내부 블록들 간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 제어모듈(23)은 중앙처리장치(central processing unit), 디지털신호처리기(digital signal processor) 등이 될 수 있다. 또한, 제어모듈(23)은 추가로 이미지 프로세서(Image processor) 혹은 GPU(Graphic Processing Unit)를 더 구비할 수 있다.
그러면, 전술한 제어모듈(23)의 증강현실을 제공하기 위한 세부적인 구성에 대해서 보다 상세하게 설명하기로 한다. 도 4는 본 발명의 실시예에 따른 증강현실을 제공하기 위한 제어모듈의 세부 구성을 설명하기 위한 블록도이다. 도 5는 본 발명의 실시예에 따른 배경로컬영상과 객체로컬영상을 생성하는 방법을 설명하기 위한 화면 예이다. 도 6은 본 발명의 실시예에 따른 증강현실을 제공하기 위한 변환모델의 구성을 설명하기 위한 도면이다. 도 7은 본 발명의 실시예에 따른 객체로컬영상을 배경로컬영상에 정합하는 방법을 설명하기 위한 도면이다.
먼저, 도 4를 참조하면, 본 발명의 실시예에 따른 제어모듈(23)은 학습부(100), 영상처리부(200), 좌표생성부(300) 및 증강부(400)를 포함한다.
영상처리부(200)는 사용자장치(10)로부터 영상을 수신하면, 해당 영상으로부터 로컬영상을 생성한다. 로컬영상은 배경으로만 이루어진 배경로컬영상 및 객체로만 이루어진 객체로컬영상을 포함한다. 예컨대, 사용자장치(10)는 도 5의 (A)와 같은 영상을 전송할 수 있다. 그러면, 영상처리부(200)는 배경과 객체를 분리하여 도 5의 (B)와 같은 배경로컬영상 및 도 5의 (C)와 같은 객체로컬영상을 생성할 수 있다. 이때, 배경과 객체를 분리하는 방법은 AMF(Approximated Median Filtering), 가우시안혼합모델(Gaussian Mix Model), 적응적가우시안혼합모델(Adaptive Gaussian Mixture Model), 고유배경모델(Eigen-background), 배경차분모델(background subtraction) 등 다양한 방법을 예시할 수 있지만, 이에 한정되는 것은 아니며, 다양한 방법을 단독 혹은 혼합하여 사용할 수 있을 것이다. 영상처리부(200)는 적어도 하나의 사용자장치(10)가 제공하는 적어도 하나의 영상으로부터 로컬영상을 마련한다. 여기서, 로컬영상은 로컬영상 중 배경으로만 이루어진 배경로컬영상 및 로컬영상 중 객체로만 이루어진 객체로컬영상을 포함한다. 일례로, 제1 사용자장치(11)가 배경로컬영상 및 객체로컬영상을 위해 제1 영상을 화상회의서버(20)에 제공할 수 있다. 그러면, 화상회의서버(20)의 영상처리부(200)는 제1 영상으로부터 배경과 객체를 분리하여 배경로컬영상과 객체로컬영상을 생성할 수 있다. 다른 예로, 제1 사용자장치(11)가 화상회의서버(20)에 배경로컬영상을 위한 제1 영상과, 객체로컬영상을 위한 제2 영상을 제공할 수 있다. 그러면, 화상회의서버(20)의 영상처리부(200)는 제1 영상으로부터 배경을 분리하여 배경로컬영상을 생성하고, 제2 영상으로부터 객체를 분리하여 객체로컬영상을 생성할 수 있다. 또 다른 예로, 제1 사용자장치(11)가 배경로컬영상을 위한 제1 영상을 화상회의서버(20)에 제공하고, 제2 사용자장치(12)가 객체로컬영상을 위해 제2 영상을 화상회의서버(20)에 제공할 수 있다.
학습부(100)는 학습(deep learning)을 통해 변환모델(TM)을 생성한다. 구체적으로, 학습부(100)는 학습 데이터를 이용하여 변환모델(TM)이 로컬영상 중 배경으로만 이루어진 배경로컬영상이 입력되면, 배경로컬영상으로부터 배경이 3차원 좌표로 표현되는 배경좌표벡터를 생성하고, 로컬영상 중 객체로만 이루어진 객체로컬영상이 입력되면, 객체로컬영상으로부터 객체가 3차원 좌표로 표현되는 객체좌표벡터를 생성하도록 변환모델(TM)을 학습(deep learning)시킨다. 이러한 학습 방법에 대해서는 아래에서 더 상세하게 설명될 것이다.
여기서, 도 6을 참조하면, 변환모델(TM)은 변환망(TN: Transformative Network) 및 식별망(DS: discriminative Network)을 포함한다.
변환망(TN)은 인코더(EN) 및 디코더(DE)를 포함한다. 인코더(EN) 및 디코더(DE)를 포함하는 변환망(TN)은 가중치가 적용되는 복수의 연산을 수행하는 복수의 계층을 포함한다. 여기서, 복수의 계층은 컨볼루션(Convolution) 연산을 수행하는 컨볼루션계층(CL: Convolution Layer), 다운샘플링(Down Sampling) 연산을 수행하는 풀링계층(PL: Pooling Layer) 및 업샘플링(Up Sampling) 연산을 수행하는 언풀링(UL: Unpooling Layer) 계층 및 디컨불루션 연산을 수행하는 디컨불루션 계층(DL: Deconvolution Layer) 각각을 하나 이상 포함한다. 컨볼루션, 다운샘플링, 업샘플링 및 디컨불루션 연산 각각은 소정의 행렬로 이루어진 필터(커널)를 이용하며, 이러한 행렬의 원소의 값들이 가중치가 된다.
변환망(TN)은 객체로컬영상 혹은 배경로컬영상인 로컬영상이 입력되면, 입력된 로컬영상에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 로컬영상의 픽셀 각각에 대응하는 3차원 좌표를 나타내는 좌표벡터를 생성한다. 즉, 객체로컬영상이 입력된 경우, 객체를 구성하는 픽셀의 3차원 좌표를 나타내는 객체좌표벡터를 생성하고, 배경로컬영상이 입력된 경우, 배경을 구성하는 픽셀의 3차원 좌표를 나타내는 배경좌표벡터를 생성한다.
식별망(DS)은 가중치가 적용되는 복수의 연산을 수행하는 복수의 계층을 포함한다. 여기서, 복수의 계층은 입력층(IL: Input Layer), 컨벌루션(convolution) 연산 및 활성화함수에 의한 연산을 수행하는 컨벌루션층(CL: Convolution Layer), 풀링(pooling 또는 sub-sampling) 연산을 수행하는 풀링층(PL: Pooling Layer), 활성화함수에 의한 연산을 수행하는 완전연결층(FL: Fully-connected Layer) 및 활성화함수에 의한 연산을 수행하는 출력층(OL: Output Layer)을 포함한다. 여기서, 컨볼루션층(CL), 풀링층(PL) 및 완전연결층(FL) 각각은 2 이상이 될 수도 있다. 컨볼루션층(CL) 및 풀링층(PL)은 적어도 하나의 특징맵(FM: Feature Map)으로 구성된다. 특징맵(FM)은 이전 계층의 연산 결과에 대해 가중치(W)를 적용한 값을 입력받고, 입력받은 값에 대한 연산을 수행한 결과로 도출된다. 이러한 가중치(W)는 소정 크기의 가중치 행렬인 필터 혹은 커널(W)을 통해 적용된다. 전술한 컨벌루션층(CL), 완결연결층(FL) 및 출력층(OL)에서 사용되는 활성화함수는 시그모이드(Sigmoid), 하이퍼볼릭탄젠트(tanh: Hyperbolic tangent), ELU(Exponential Linear Unit), ReLU(Rectified Linear Unit), Leakly ReLU, Maxout, Minout, Softmax 등을 예시할 수 있다. 컨벌루션층(CL), 완결연결층(FL) 및 출력층(OL)에 이러한 활성화함수 중 어느 하나를 선택하여 적용할 수 있다.
식별망(DS)은 학습에만 사용되며, 식별망(DS)은 학습용으로 마련된 실측좌표벡터 및 변환망(TN)이 생성한 좌표벡터 중 어느 하나의 좌표벡터가 입력되면, 입력된 좌표벡터에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 입력된 좌표벡터가 실측값인지 혹은 실측값을 모사한 모사값인지 여부를 확률로 나타내는 식별값을 산출한다.
다시, 도 4를 참조하면, 좌표생성부(300)는 로컬영상을 심층학습(Deep Leaning)을 통해 학습된 변환모델(TM)을 이용하여 좌표벡터를 생성한다. 즉, 좌표생성부(300)가 배경로컬영상을 변환모델(TM)에 입력하면, 변환모델(TM)은 배경로컬영상으로부터 배경좌표벡터를 생성할 수 있다. 또한, 좌표생성부(300)가 객체로컬영상을 변환모델(TM)에 입력하면, 변환모델(TM)은 객체로컬영상으로부터 객체좌표벡터를 생성할 수 있다.
증강부(400)는 좌표생성부(300)가 배경좌표벡터 및 객체좌표벡터를 생성하면, 배경로컬영상에 배경좌표벡터를 매핑하고, 객체로컬영상에 객체좌표벡터를 매핑한다. 또한, 증강부(400)는 배경좌표벡터 및 객체좌표벡터의 3차원 좌표에 따라 도 7의 (가)와 같이, 배경좌표벡터에 매핑된 배경로컬영상에 도 7의 (나)와 같이, 객체좌표벡터에 매핑된 객체로컬영상을 정합하여 증강영상을 생성한다. 이때, 도 7의 (나)에 도시된 바와 같이, 사용자장치(10)로부터 객체의 위치를 조작하기 위한 입력(IN)을 수신하는 경우, 수신된 입력(IN)에 따라 객체좌표벡터의 3차원 좌표를 변경하고, 배경좌표벡터의 3차원 좌표를 기준으로 입력에 따라 변경된 객체좌표벡터의 3차원 좌표에 따라 객체로컬영상을 배경로컬영상에 정합할 수 있다. 이와 같이, 증강영상이 생성되면, 증강부(400)는 통신모듈(21)을 통해 화상회의에 참여한 모든 사용자장치(10)에 증강영상을 전송할 수 있다.
전술한 바와 같이, 본 발명은 화상회의에서 증강현실을 제공할 수 있다. 이를 위하여, 우선 학습(Deep learning)을 통해 변환모델을 생성하여야 한다. 그러면, 본 발명의 실시예에 따른 변환모델을 생성하는 방법에 대해서 설명하기로 한다. 도 8은 본 발명의 실시예에 따른 변환모델을 생성하는 방법을 설명하기 위한 흐름도이다. 도 9는 본 발명의 실시예에 따른 변환모델의 식별망을 최적화하는 방법을 설명하기 위한 흐름도이다. 도 10은 본 발명의 실시예에 따른 변환모델의 변환망을 최적화하는 방법을 설명하기 위한 흐름도이다.
도 6 및 도 8을 참조하면, 학습부(100)는 S110 단계에서 복수의 학습 데이터를 마련한다. 여기서, 학습 데이터는 학습을 위해 카메라를 통해 촬영한 영상에서 추출된 배경로컬영상 혹은 객체로컬영상인 학습용 로컬영상 및 학습용 로컬영상의 모든 픽셀 각각에 대응하여 실측된 3차원 좌표로 이루어진 실측좌표벡터를 포함한다.
그런 다음, 학습부(100)는 S120 단계에서 복수의 학습 데이터 중 적어도 일부를 이용하여 식별망(DS)을 학습시킨다. 이때, 학습부(100)는 식별망(DS)이 실측좌표벡터(GT)를 실측값으로 판단하고, 변환망(TN)에 의해 생성된 학습용 좌표벡터를 실측값을 모사한 모사값으로 판단하도록 식별망(DS)의 파라미터를 수정하는 최적화를 수행한다.
이러한 S120 단계에 대해 도 9를 참조하여 보다 자세히 설명하면 다음과 같다. 도 9를 참조하면, 학습부(100)는 S210 단계에서 변환망(TN)에 학습용 로컬영상을 입력한다. 그러면, 변환망(TN)의 인코더(EN) 및 디코더(DE)는 S220 단계에서 입력되는 학습용 로컬영상 및 카메라 파라미터에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 학습용 은닉벡터 및 학습용 좌표벡터를 순차로 산출한다.
학습부(100)는 S230 단계에서 학습용 좌표벡터 혹은 실측좌표벡터(GT)를 식별망(DS)에 입력한다. 여기서, 학습용 좌표벡터는 앞서(S220) 변환망(TN)에 의해 학습용 로컬영상으로부터 생성된 것이다.
이와 같이, 학습용 좌표벡터 혹은 실측좌표벡터(GT)가 입력되면, 식별망(DS)은 S240 단계에서 그 입력에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 식별값 D(x)을 산출한다. 여기서, 식별값은 입력된 학습용 좌표벡터 혹은 실측좌표벡터(GT)가 실측좌표벡터(GT)일 확률을 나타낸다.
식별값이 산출되면, 학습부(100)는 S250 단계에서 식별손실함수에 의해 산출되는 식별손실이 최대가 되도록 변환망(TS)의 가중치는 수정하지 않고 식별망(DS)의 가중치를 수정하는 최적화를 수행한다. 이때, 식별손실함수는 다음의 수학식 1과 같다.
Figure 112021102443168-pat00003
여기서, Lds(x)는 식별망(DS)을 학습시키기 위한 식별손실함수를 나타낸다. GT는 실측좌표벡터이며, x는 식별망(DS)에 대한 입력을 나타낸다. 이러한 입력 x는 학습용 좌표벡터 혹은 실측좌표벡터(GT)이다. 또한, D(x)는 식별값을 나타내며, 식별망(DS)이 입력 x에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행한 결과이다. 즉, 학습부(100)는 식별망(DS)에 대한 학습 시, 식별망(DS)이 실측좌표벡터(GT)를 실측값으로 판단하고, 변환망(TN)에 의해 생성된 학습용 좌표벡터를 실측값을 모사한 모사값으로 판단하도록 식별망(DS)을 학습시킨다. 다른 말로, 학습부(100)는 입력 x가 학습 데이터에 포함되는 실측좌표벡터(GT)라면, 식별망(DS)이 입력 x가 실측값일 확률을 높게 산출하도록 식별값 D(x)를 최대화하고, 반대로 입력 x가 학습 데이터에 없는 것이고 변환망(TN)에 의해 변환된 학습용 좌표벡터라면, 식별망(DS)이 입력 x가 모사값일 확률을 높게 산출하도록 1-D(x)를 최대화한다.
다시, 도 8을 참조하면, 학습부(100)는 S130 단계에서 복수의 학습 데이터 중 적어도 일부를 이용하여 변환망(TN)을 학습시킨다. 이때, 학습부(100)는 식별망(DS)이 변환망(TN)에 의해 생성된 학습용 좌표벡터를 실측값으로 판단하도록 변환망(TN)의 파라미터, 즉, 가중치를 수정하는 최적화를 수행한다.
이러한 S130 단계에 대해 도 10을 참조하여 보다 자세히 설명하면 다음과 같다. 도 10을 참조하면, 학습부(100)는 S310 단계에서 변환망(TN)에 학습용 로컬영상을 입력한다. 그러면, 변환망(TN)의 인코더(EN) 및 디코더(DE)는 S320 단계에서 입력되는 학습용 로컬영상에 대해 복수의 계층 간 가중치가 적용되는 연산을 수행하여 학습용 좌표벡터를 산출한다.
학습부(100)는 S330 단계에서 앞서(S320) 산출된 학습용 좌표벡터를 식별망(DS)에 입력한다. 이와 같이, 학습용 좌표벡터 혹은 실측좌표벡터(GT)가 입력되면, 식별망(DS)은 S340 단계에서 그 입력에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행하여 식별값을 산출한다. 여기서, 식별값은 입력된 학습용 좌표벡터가 실측값일 확률을 나타낸다.
식별값이 산출되면, 학습부(100)는 S350 단계에서 변환망(TS)이 산출한 학습용 좌표벡터가 실측값임을 나타내는 변환손실함수에 의해 산출되는 변환손실이 최대가 되도록 식별망(DS)의 가중치는 수정하지 않고 변환망(TS)의 가중치를 수정하는 최적화를 수행한다. 이때, 변환손실함수는 다음의 수학식 2와 같다.
Figure 112021102443168-pat00004
여기서, Ltn(z)는 변환망(TN)을 학습시키기 위한 변환손실함수를 나타낸다. z는 변환망(TN)에 대한 입력을 나타낸다. 이러한 입력 z는 학습용 로컬영상이다. 그리고 G(z)는 변환망(TN)이 학습용 로컬영상에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 통해 산출한 학습용 좌표벡터이다. 또한, D(G(z))는 식별값으로, 식별망(DS)이 입력되는 G(z)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행한 결과이다. 즉, 학습부(100)는 변환망(TN)에 대한 학습 시, 식별망(DS)이 변환망(TN)에 의해 생성된 학습용 좌표벡터 G(z)를 실측값으로 판단하도록 변환망(TN)을 학습시킨다. 다른 말로, 학습부(100)는 변환망(TN)에 대한 입력 z가 학습 데이터에 포함되는 학습용 로컬영상일 때, 변환망(TN)에 의해 변환된 학습용 좌표벡터 G(z)가 식별망(DS)에 의해 실측값으로 판단할 확률을 높게 산출하도록 식별값 D(G(z))를 최대화하는 방향으로 학습을 수행한다.
다시, 도 8을 참조하면, 학습부(100)는 S140 단계에서 학습 완료 조건을 만족하는지 여부를 판단한다. 학습부(100)는 복수의 학습 데이터 중 평가용 학습 데이터 세트를 통해 변환모델(TM) 전체에 대한 연산을 수행한 후, 변환망(TN)이 생성한 학습용 좌표벡터에 대한 식별망(DS)의 식별값이 기 설정된 목표 범위 이내에서 변동이 없으면, 학습 완료 조건을 만족하는 것으로 판단할 수 있다.
S140 단계의 판단 결과, 학습 완료 조건을 만족하지 못하면, 학습부(100)는 전술한 S120 단계 및 S130 단계를 반복한다. 반면, S140 단계의 판단 결과, 학습 완료 조건을 만족하면, S150 단계에서 학습을 종료한다. 이로써, 학습된 파라미터, 즉, 가중치를 가지는 변환모델(TM)이 완성된다.
한편, 추가적인 실시예에 따르면, 학습부(100)는 S120 단계 및 S130 단계의 반복 시, 식별망(DS)의 학습에 사용되는 학습 데이터의 수와 변환망(TN)의 학습에 사용되는 학습 데이터의 수를 달리 적용할 수 있다. 예컨대, 목표 범위가 0.49(49%) 내지 0.51(51%)라고 가정한다. 즉, 학습부(100)의 최종적인 목표는 식별망(DS)이 변환망(TN)에 의해 생성된 학습용 좌표벡터에 대한 식별망(DS)의 식별값이 목표 범위 0.49(49%) 내지 0.51(51%) 내의 값이고, 그 값에서 변동이 없도록 하기 위한 것이다.
특히, 상승 그래디언트 방식으로 학습이 이루어지고, 즉, 손실함수에 의한 손실이 최대가되도록 학습되고, 식별망(DS)이 먼저 학습되기 때문에 식별망(DS)의 그래디언트가 급속하게 먼저 상승한다면, 변환망(TN)의 그래디언트는 상승할 여지가 없기 때문에 학습부(100)는 식별망(DS)의 학습 데이터의 수를 변환망(TN)의 학습 데이터의 수 보다 작게 배정하여 전술한 S120 단계 및 S130 단계를 반복할 수 있다.
전술한 바와 같이, 학습이 완료되면, 학습이 완료된 변환모델(TM)을 이용하여 화상회의 중 증강현실을 제공할 수 있다. 이러한 방법에 대해 설명하기로 한다. 도 11은 본 발명의 실시예에 따른 증강현실 기반의 화상회의를 제공하기 위한 방법을 설명하기 위한 흐름도이다.
도 11을 참조하면, 먼저, 화상회의에 참여하는 복수의 사용자장치(10)와 화상회의서버(20)의 세션이 연결된 상태라고 가정한다.
영상처리부(200)는 S410 단계에서 적어도 하나의 사용자장치(10)가 제공하는 적어도 하나의 영상으로부터 로컬영상을 마련한다. 여기서, 로컬영상은 로컬영상 중 배경으로만 이루어진 배경로컬영상 및 로컬영상 중 객체로만 이루어진 객체로컬영상을 포함한다. 일례로, 제1 사용자장치(11)가 배경로컬영상 및 객체로컬영상을 위해 제1 영상을 화상회의서버(20)에 제공할 수 있다. 그러면, 화상회의서버(20)의 영상처리부(200)는 제1 영상으로부터 배경과 객체를 분리하여 배경로컬영상과 객체로컬영상을 생성할 수 있다. 다른 예로, 제1 사용자장치(11)가 화상회의서버(20)에 배경로컬영상을 위한 제1 영상과, 객체로컬영상을 위한 제2 영상을 제공할 수 있다. 그러면, 화상회의서버(20)의 영상처리부(200)는 제1 영상으로부터 배경을 분리하여 배경로컬영상을 생성하고, 제2 영상으로부터 객체를 분리하여 객체로컬영상을 생성할 수 있다. 또 다른 예로, 제1 사용자장치(11)가 배경로컬영상을 위한 제1 영상을 화상회의서버(20)에 제공하고, 제2 사용자장치(12)가 객체로컬영상을 위해 제2 영상을 화상회의서버(20)에 제공할 수 있다. 그러면, 화상회의서버(20)의 영상처리부(200)는 제1 영상으로부터 배경을 분리하여 배경로컬영상을 생성하고, 제2 영상으로부터 객체를 분리하여 객체로컬영상을 생성할 수 있다. 전술한 바와 같이 영상처리부(200)가 마련한 배경로컬영상 및 객체로컬영상은 좌표생성부(300)에 제공된다.
좌표생성부(300)는 S420 단계에서 로컬영상, 즉, 배경로컬영상 및 객체로컬영상 각각에 대해 앞서 도 8 내지 도 10을 통해 학습된 바와 같이 심층학습(Deep Leaning)을 통해 학습된 변환모델(TM)을 이용하여 좌표벡터를 도출한다.
즉, 좌표생성부(300)는 배경로컬영상을 변환모델(TM)을 이용하여 배경을 이루는 픽셀이 3차원 좌표로 표현되는 배경좌표벡터로 변환한다. 또한, 좌표생성부(300)는 객체로컬영상을 변환모델(TM)을 이용하여 객체를 구성하는 픽셀이 3차원 좌표로 표현되는 객체좌표벡터로 변환한다.
이러한 S420 단계에서, 좌표생성부(300)가 배경로컬영상 및 객체로컬영상 각각을 변환모델(TM)에 입력하면, 변환모델(TM)의 변환망(TN)은 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 수행하여 배경좌표벡터 및 객체좌표벡터 각각을 생성한다.
배경좌표벡터 및 객체좌표벡터가 생성되면, 증강부(400)는 S430 단계에서 배경로컬영상에 배경좌표벡터를 매핑하고, 객체로컬영상에 객체좌표벡터를 매핑한다. 이어서, 증강부(400)는 S440 단계에서 배경좌표벡터 및 객체좌표벡터의 3차원 좌표에 따라 배경좌표벡터에 매핑된 배경로컬영상에 객체좌표벡터에 매핑된 객체로컬영상을 정합하여 증강영상을 생성한다. 이때, 도 7에 도시된 바와 같이, 사용자장치(10)로부터 객체의 위치를 조작하기 위한 입력을 수신하는 경우, 수신된 입력에 따라 객체좌표벡터의 3차원 좌표를 변경하고, 배경좌표벡터의 3차원 좌표를 기준으로 입력에 따라 변경된 객체좌표벡터의 3차원 좌표에 따라 객체로컬영상을 배경로컬영상에 정합할 수 있다. 이와 같이, 증강영상이 생성되면, 증강부(400)는 S440 단계에서 통신부(11)를 통해 화상회의에 참여한 모든 사용자장치(10)에 증강영상을 전송한다.
한편, 앞서 설명된 본 발명의 실시예에 따른 방법은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
10: 사용자장치
20: 화상회의서버
100: 학습부
200: 영상처리부
300: 좌표생성부
400: 증강부

Claims (8)

  1. 증강 현실 기반의 화상회의를 제공하기 위한 방법에 있어서,
    좌표생성부가 로컬영상 중 배경으로만 이루어진 배경로컬영상으로부터 심층학습(Deep Leaning)을 통해 학습된 변환모델을 이용하여 3차원 좌표로 표현되는 배경좌표벡터를 생성하고, 로컬영상 중 객체로만 이루어진 객체로컬영상으로부터 상기 변환모델을 이용하여 3차원 좌표로 표현되는 객체좌표벡터를 생성하는 단계;
    증강부가 상기 배경로컬영상에 상기 배경좌표벡터를 매핑하고, 상기 객체로컬영상에 상기 객체좌표벡터를 매핑하는 단계;
    상기 증강부가 상기 배경좌표벡터 및 상기 객체좌표벡터의 3차원 좌표에 따라 상기 배경좌표벡터에 매핑된 배경로컬영상에 상기 객체좌표벡터에 매핑된 객체로컬영상을 정합하여 증강영상을 생성하는 단계; 및
    상기 증강부가 화상회의에 참여한 사용자장치에 상기 증강영상을 제공하는 단계;
    를 포함하며,
    상기 객체좌표벡터를 생성하는 단계 전,
    학습부가 학습용 로컬영상 및 상기 학습용 로컬영상의 모든 픽셀 각각에 대응하여 실측된 3차원 좌표로 이루어진 실측좌표벡터를 포함하는 복수의 학습 데이터를 마련하는 단계; 및
    상기 학습부가
    상기 복수의 학습 데이터 중 적어도 일부를 이용하여 식별망 및 변환망을 포함하는 변환모델의 상기 식별망이 상기 실측좌표벡터에 대해 실측값으로 판단하고, 상기 변환망에 의해 생성된 학습용 좌표벡터에 대해 실측값을 모사한 모사값으로 판단하도록 상기 식별망의 파라미터를 수정하는 최적화를 수행하는 제1 단계와,
    상기 식별망이 상기 변환망에 의해 생성된 학습용 좌표벡터를 실측값으로 판단하도록 상기 변환망의 파라미터를 수정하는 최적화를 수행하는 제2 단계를
    교번으로 수행하여 변환모델을 생성하는 단계;
    를 더 포함하는 것을 특징으로 하는
    화상회의를 제공하기 위한 방법.
  2. 제1항에 있어서,
    상기 증강영상을 생성하는 단계는
    상기 증강부가 객체의 위치를 조작하기 위한 입력을 수신하면, 수신된 입력에 따라 상기 객체좌표벡터의 3차원 좌표를 변경하는 단계; 및
    상기 증강부가 상기 객체좌표벡터의 상기 변경된 3차원 좌표에 따라 상기 배경로컬영상에 상기 객체로컬영상을 정합하여 증강영상을 생성하는 단계;
    를 포함하는 것을 특징으로 하는
    화상회의를 제공하기 위한 방법.
  3. 제1항에 있어서,
    상기 객체좌표벡터를 생성하는 단계 전,
    영상처리부가 적어도 하나의 사용자장치로부터 적어도 하나의 영상을 수신하면, 수신된 영상에서 배경과 객체를 분리하여 배경로컬영상 및 객체로컬영상을 생성하는 단계;
    를 더 포함하는 것을 특징으로 하는
    화상회의를 제공하기 위한 방법.
  4. 제1항에 있어서,
    상기 객체좌표벡터를 생성하는 단계는
    상기 좌표생성부가 상기 배경로컬영상을 상기 변환모델에 입력하면, 상기 변환모델이 복수의 계층 간 가중치가 적용되는 연산을 수행하여 상기 배경좌표벡터를 생성하는 단계; 및
    상기 좌표생성부가 상기 객체로컬영상을 상기 변환모델에 입력하면, 상기 변환모델이 복수의 계층 간 가중치가 적용되는 연산을 수행하여 상기 객체좌표벡터를 생성하는 단계;
    를 포함하는 것을 특징으로 하는
    화상회의를 제공하기 위한 방법.
  5. 삭제
  6. 제1항에 있어서,
    상기 제1 단계는
    상기 학습부가
    식별손실함수
    Figure 112022095573670-pat00005

    에 의해 산출되는 식별손실이 최대가 되도록 상기 변환망의 가중치는 수정하지 않고 상기 식별망의 가중치를 수정하는 최적화를 수행하는 단계
    를 포함하며,
    상기 Lds(x)는 식별손실함수이고,
    상기 GT는 실측좌표벡터이고,
    상기 x는 식별망에 대한 입력으로 학습용 좌표벡터 혹은 실측좌표벡터이고,
    상기 D(x)는 식별망이 상기 x에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행한 결과인 식별값인 것을 특징으로 하는
    화상회의를 제공하기 위한 방법.
  7. 제1항에 있어서,
    상기 제2 단계는
    상기 학습부가
    변환손실함수
    Figure 112022095573670-pat00006

    에 의해 산출되는 변환손실이 최대가 되도록 상기 식별망의 가중치는 수정하지 않고 상기 변환망의 가중치를 수정하는 최적화를 수행하는 단계;
    를 포함하며,
    상기 Ltn(z)는 변환손실함수이고,
    상기 z는 변환망에 대한 입력으로, 학습용 로컬영상이고,
    상기 G(z)는 변환망이 학습용 로컬영상에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 통해 산출한 학습용 좌표벡터이고,
    상기 D(G(z))는 식별망이 입력되는 상기 G(z)에 대해 복수의 계층 간 가중치가 적용되는 복수의 연산을 수행한 결과인 식별값인 것을 특징으로 하는
    화상회의를 제공하기 위한 방법.
  8. 증강 현실 기반의 화상회의를 제공하기 위한 장치에 있어서,
    로컬영상 중 배경으로만 이루어진 배경로컬영상으로부터 심층학습(Deep Leaning)을 통해 학습된 변환모델을 이용하여 3차원 좌표로 표현되는 배경좌표벡터를 생성하고, 로컬영상 중 객체로만 이루어진 객체로컬영상으로부터 상기 변환모델을 이용하여 3차원 좌표로 표현되는 객체좌표벡터를 생성하는 좌표생성부; 및
    상기 배경로컬영상에 상기 배경좌표벡터를 매핑하고, 상기 객체로컬영상에 상기 객체좌표벡터를 매핑하고, 상기 배경좌표벡터 및 상기 객체좌표벡터의 3차원 좌표에 따라 상기 배경좌표벡터에 매핑된 배경로컬영상에 상기 객체좌표벡터에 매핑된 객체로컬영상을 정합하여 증강영상을 생성하고, 화상회의에 참여한 사용자장치에 상기 증강영상을 제공하는 증강부;
    를 포함하며,
    학습용 로컬영상 및 상기 학습용 로컬영상의 모든 픽셀 각각에 대응하여 실측된 3차원 좌표로 이루어진 실측좌표벡터를 포함하는 복수의 학습 데이터를 마련하고,
    상기 복수의 학습 데이터 중 적어도 일부를 이용하여 식별망 및 변환망을 포함하는 변환모델의 상기 식별망이 상기 실측좌표벡터에 대해 실측값으로 판단하고, 상기 변환망에 의해 생성된 학습용 좌표벡터에 대해 실측값을 모사한 모사값으로 판단하도록 상기 식별망의 파라미터를 수정하는 최적화를 수행하는 제1 단계와, 상기 식별망이 상기 변환망에 의해 생성된 학습용 좌표벡터를 실측값으로 판단하도록 상기 변환망의 파라미터를 수정하는 최적화를 수행하는 제2 단계를 교번으로 수행하여 변환모델을 생성하는
    학습부;
    를 더 포함하는 것을 특징으로 하는
    화상회의를 제공하기 위한 장치.
KR1020210117824A 2021-02-04 2021-09-03 다자간 온라인 업무 협업을 위한 증강현실 기반의 화상회의를 제공하기 위한 장치 및 이를 위한 방법 KR102472115B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210016328 2021-02-04
KR1020210016328 2021-02-04

Publications (2)

Publication Number Publication Date
KR20220112655A KR20220112655A (ko) 2022-08-11
KR102472115B1 true KR102472115B1 (ko) 2022-11-29

Family

ID=82803157

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210117824A KR102472115B1 (ko) 2021-02-04 2021-09-03 다자간 온라인 업무 협업을 위한 증강현실 기반의 화상회의를 제공하기 위한 장치 및 이를 위한 방법

Country Status (1)

Country Link
KR (1) KR102472115B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102525984B1 (ko) * 2022-09-28 2023-04-26 주식회사 액션파워 화상 회의 제공 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101919077B1 (ko) * 2017-08-24 2018-11-16 에스케이텔레콤 주식회사 증강 현실 표시 방법 및 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9524588B2 (en) 2014-01-24 2016-12-20 Avaya Inc. Enhanced communication between remote participants using augmented and virtual reality
CN108305317B (zh) * 2017-08-04 2020-03-17 腾讯科技(深圳)有限公司 一种图像处理方法、装置及存储介质
KR102117007B1 (ko) * 2018-06-29 2020-06-09 (주)기술공감 영상에서 객체를 인식하는 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101919077B1 (ko) * 2017-08-24 2018-11-16 에스케이텔레콤 주식회사 증강 현실 표시 방법 및 장치

Also Published As

Publication number Publication date
KR20220112655A (ko) 2022-08-11

Similar Documents

Publication Publication Date Title
CN111291885B (zh) 近红外图像的生成方法、生成网络的训练方法和装置
US11232286B2 (en) Method and apparatus for generating face rotation image
JP2020507850A (ja) 画像内の物体の姿の確定方法、装置、設備及び記憶媒体
KR102472115B1 (ko) 다자간 온라인 업무 협업을 위한 증강현실 기반의 화상회의를 제공하기 위한 장치 및 이를 위한 방법
CN113242440A (zh) 直播方法、客户端、系统、计算机设备以及存储介质
CN117197388A (zh) 一种基于生成对抗神经网络和倾斜摄影的实景三维虚拟现实场景构建方法及系统
CN113627298A (zh) 目标检测模型的训练方法及检测目标对象的方法、装置
CN115866229B (zh) 多视角图像的视角转换方法、装置、设备和介质
CN111078008B (zh) 一种早教机器人的控制方法
KR102299902B1 (ko) 증강현실을 제공하기 위한 장치 및 이를 위한 방법
CN116309983B (zh) 虚拟人物模型的训练方法、生成方法、装置和电子设备
CN115619986B (zh) 场景漫游方法、装置、设备和介质
CN111531546A (zh) 一种机器人位姿估计方法、装置、设备及存储介质
KR102433646B1 (ko) 2차원 이미지 인식에 기반한 3차원 모델링 시스템 및 이를 위한 방법
JP7053195B2 (ja) 家屋異動推定装置、家屋異動学習装置、家屋異動推定方法、識別器のパラメータ生成方法及びプログラム
CN114373050A (zh) 一种基于HoloLens的化学实验教学系统及方法
CN115424346A (zh) 一种人体坐姿检测方法、装置、计算机设备及系统
Amamra et al. Real-time multiview data fusion for object tracking with RGBD sensors
KR20210095817A (ko) 얼굴 합성 이미지의 검출방법, 검출장치, 전자기기 및 저장매체
KR102472568B1 (ko) 포즈 정보와 뎁스 정보를 기초로 증강 현실을 제공하기 위한 3차원 맵을 구성하기 위한 장치 및 이를 위한 방법
KR102525583B1 (ko) 경량형 증강현실장치의 스테레오 프레임을 이용한 3차원 맵을 생성하기 위한 장치 및 이를 위한 방법
CN112911266A (zh) 基于增强现实技术的物联网实训系统的实现方法及系统
CN112446253A (zh) 一种骨架行为识别方法及装置
KR102407802B1 (ko) 인공신경망 학습 기반의 실내외 3차원 좌표 및 방위 추정 장치
CN116229583B (zh) 驱动信息生成、驱动方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right