KR102246355B1 - 하이브리드 비쥬얼 커뮤니케이션 - Google Patents

하이브리드 비쥬얼 커뮤니케이션 Download PDF

Info

Publication number
KR102246355B1
KR102246355B1 KR1020140102421A KR20140102421A KR102246355B1 KR 102246355 B1 KR102246355 B1 KR 102246355B1 KR 1020140102421 A KR1020140102421 A KR 1020140102421A KR 20140102421 A KR20140102421 A KR 20140102421A KR 102246355 B1 KR102246355 B1 KR 102246355B1
Authority
KR
South Korea
Prior art keywords
mesh model
user
updates
visual communication
visual
Prior art date
Application number
KR1020140102421A
Other languages
English (en)
Other versions
KR20150018468A (ko
Inventor
슈일러 컬런
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20150018468A publication Critical patent/KR20150018468A/ko
Application granted granted Critical
Publication of KR102246355B1 publication Critical patent/KR102246355B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2215/00Indexing scheme for image rendering
    • G06T2215/16Using real world measurements to influence rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/12Acquisition of 3D measurements of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 비쥬얼 커뮤니케이션에 관한 것이다. 본 발명의 실시 예에 따른 제 1 장치 및 제 2 장치 사이의 비쥬얼 커뮤니케이션을 지원하는 비쥬얼 커뮤니케이션 방법은, 상기 제 1 장치 사용자에 대한 3차원 메쉬 모델(3D mesh model)을 생성하기 위하여 카메라 시스템으로부터의 데이터를 이용하는 단계; 상기 제 1 장치 및 상기 제 2 장치 사이의 비쥬얼 커뮤니케이션 세션 동안에, 센서 어레이로부터 제 1 장치 사용자에 대한 얼굴 표정 및 동작의 변화를 캡쳐한 이미지 데이터를 포함하는 센서 데이터를 수신하는 단계; 3차원 메쉬 모델 업데이트를 결정하기 위하여 상기 이미지 데이터를 사용하는 단계; 상기 제 2 장치가 상기 제 1 장치 사용자의 3차원 메쉬 모델의 디스플레이를 업데이트 하도록, 상기 3차원 메쉬 모델 업데이트를 상기 제 2 장치에 전송하는 단계; 및 상기 제 1 장치에서의 디스플레이를 위하여 상기 제 2 장치로부터 2차원 비디오 스트림 또는 제 2 사용자 장치의 3차원 메쉬 모델에 대한 업데이트 중 적어도 하나를 수신하는 단계를 포함하며, 상기 3차원 메쉬 모델은 상기 제 2 장치에서 디스플레이 되도록 상기 제 2 장치에 저장될 수 있도록 구성된다. 본 발명의 실시 예에 따른 비쥬얼 커뮤니케이션 방법은 사용자의 실제 모습, 표정 변화, 실시간 동작을 보여주며 동시에 대역폭을 감소시킬 수 있다.

Description

하이브리드 비쥬얼 커뮤니케이션{HYBRID VISUAL COMMUNICATION}
본 발명은 비쥬얼 커뮤니케이션 방법 및 그 시스템에 관한 것이다.
현존하는 Skype, 구글 Hangout과 같은 비디오 커뮤니케이션(video communication) 시스템 및 서비스는 플레이어 어플리케이션들을 구동하는 장치들 사이에서 2D 비디오 스트림(video stream)을 전송한다. 이러한 비디오 커뮤니케이션 시스템은 전통적으로 오디오 스트림(audio stream)을 수반하는 압축된 순차적 이미지들의 비디오 시트림들을 장치들 사이에 전송한다. 개인 사용자를 위하여 사용되는 대부분의 비디오 커뮤니케이션 시스템은 카메라 및 디스플레이를 포함하는 컴퓨터 장치 상에서 구동되는 플레이어 어플리케이션(player application)을 필요로 한다. 컴퓨터 장치의 예로는 스크린의 상부에 카메라를 장착하는 데스크톱(desktop) 또는 랩톱(laptop) 컴퓨터가 있을 수 있으며, 또는 상면에 카메라를 장착하고 있는 모바일 폰(mobile phone)가 있을 수 있다.
현존하는 비디오 커뮤니케이션 시스템은 비디오 촬영기능에 유리한 점들을 제공함에도 불구하고 몇몇의 심각한 단점들을 가지고 있다. 예를 들어, 현존하는 비디오 커뮤니케이션 시스템은 전통적으로 높은 대역폭(bandwidth)을 필요로 하며, 다른 장치에 신호들을 보내기 전에 전체 이미지 순서들을 생성하고 압축하는데 본질적으로 높은 레이턴시(latency)를 필요로 한다. 더욱이, 낮은 레이턴시와 높은 품질의 어플리케이션을 위하여, 현존하는 비디오 커뮤니케이션 시스템은 전송을 위하여 Wi-Fi, 3G, 4G 모바일 커뮤니케이션 시스템을 넘어서는 통신 장치들을 필요로 한다.
데스크톱, 랩톱 또는 모바일 폰 상에 설치된 대부분의 비디오 커뮤니케이션 구조의 다른 문제는 사용자가 비디오를 통하여 통신하는 상대방의 모습을 내려다보고 있는 것처럼 보인다는 것인데, 이는 사용자의 응시 방향이 통상 카메라가 설치된 위치보다 아래에 있는 디스플레이이기 때문이다. 이러한 카메라와 디스플레이의 기하학적인 차이는 사용자가 상대방과 눈을 맞추고 이야기를 나누는 것을 방해한다. 이와 관련된 문제는 인물의 2D 이미지 시퀀스(sequence)를 포함하는 비디오의 전송은 해당 인물의 3D 깊이 정보(depth information)를 상실한다는 것이다.
또한 통산 아바타(avatar)라고 칭해지는 사용자의 또다른 자아 또는 캐릭터를 표현하는 그래픽 묘사를 전송하는 시스템이 존재하나, 아바타는 전통적으로 사용자의 실세 모습, 얼굴 표정, 행동 등을 통신 중에 전달하지 못한다.
따라서, 사용자의 실제 모습, 표정 변화, 실시간 동작을 보여주며 동시에 대역폭을 감소시키는 비쥬얼 커뮤니케이션 시스템에 대한 요구가 높아지고 있다.
본 발명은 사용자의 실제 모습, 표정 변화, 실시간 동작을 보여주며 동시에 대역폭을 감소시키는 비쥬얼 커뮤니케이션 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명의 실시 예에 따른 제 1 장치 및 제 2 장치 사이의 비쥬얼 커뮤니케이션을 지원하는 비쥬얼 커뮤니케이션 방법은, 상기 제 1 장치 사용자에 대한 3차원 메쉬 모델(3D mesh model)을 생성하기 위하여 카메라 시스템으로부터의 데이터를 이용하는 단계; 상기 제 1 장치 및 상기 제 2 장치 사이의 비쥬얼 커뮤니케이션 세션(visual communication session) 동안에, 센서 어레이(sensor array)로부터 제 1 장치 사용자에 대한 얼굴 표정 및 동작의 변화를 캡쳐(capture)한 이미지 데이터를 포함하는 센서 데이터를 수신하는 단계; 3차원 메쉬 모델 업데이트를 결정하기 위하여 상기 이미지 데이터를 사용하는 단계; 상기 제 2 장치가 상기 제 1 장치 사용자의 3차원 메쉬 모델의 디스플레이를 업데이트 하도록, 상기 3차원 메쉬 모델 업데이트를 상기 제 2 장치에 전송하는 단계; 및 상기 제 1 장치에서의 디스플레이를 위하여 상기 제 2 장치로부터 2차원 비디오 스트림 또는 제 2 사용자 장치의 3차원 메쉬 모델에 대한 업데이트 중 적어도 하나를 수신하는 단계를 포함하며, 상기 3차원 메쉬 모델은 상기 제 2 장치에서 디스플레이 되도록 상기 제 2 장치에 저장될 수 있도록 구성된다.
실시 예로써, 상기 센서 데이터를 수신하는 단계는, 상기 제 1 장치 사용자의 움직임 데이터(activity data), 상기 비쥬얼 커뮤니케이션 세션의 전후 맥락(context)과 관련된 다른 센서 데이터를 수신하는 단계를 포함한다.
실시 예로써, 센서 데이터 업데이트들을 제공하기 위하여 상기 다른 센서 데이터를 다운 샘플링(downsampling) 및 합산(aggregating)하는 단계를 더 포함한다.
실시 예로써, M 데이터 샘플들 전체가 일 주기 동안에 수신되고, 상기 다운 샘플링과 합산이 MxN 데이터 컨버젼을 제공하기 위하여 상기 M 데이터 샘플을 N 센서 데이터 업데이트들로 감소시키며, 상기 N은 상기 M보다 적다.
실시 예로써, 상기 제 2 장치에 상기 3차원 메쉬 모델 업데이트들의 전송을 수행하는 동안에, 상기 센서 데이터 업데이트들에 상기 3차원 메쉬 업데이트들을 삽입하는 단계를 더 포함한다.
실시 예로써, 상기 3차원 메쉬 업데이트들이 상기 제 2 장치로 전송되기 이전에 상기 3차원 메쉬 모델의 추가적인 그래픽 요소들의 디스플레이를 위하여, 상기 센서 데이터 업데이트들을 가지고 상기 3차원 메쉬 업데이트들을 증가시키는 단계를 더 포함한다.
실시 예로써, a) 상기 제 1 장치 사용자의 상기 감지된 위치 변화들의 감지로부터 계산된 상기 3차원 메쉬 모델의 상대적인 정점(vertex) 위치의 변화들, 및 b) 선택된 혼합 모양 계수들(blend shape coefficients) 또는 하나 또는 그 이상의 선택된 혼합 모양의 수치 중 적어도 하나를 이용하여 상기 3차원 메쉬 모델 업데이트들을 나타내는 단계를 더 포함한다.
실시 예로써, 상기 이미지 데이터는 상기 제 1 장치 사용자의 배경에 대한 적어도 일부의 이미지를 포함하며, 상기 비쥬얼 커뮤니케이션 세션 동안 상기 제 2 장치에서 디스플레이 될 때 상기 제 3차원 메쉬 모델이 상기 배경에 겹쳐지도록 상기 배경은 상기 제 2 장치로 전송된다.
실시 예로써, 3차원 비쥬얼 모드 동안에 상기 3차원 메쉬 모델 업데이트들을 전송하고 2차원 비디오 모드 동안에 2차원 비디오 스트림을 상기 제 2 장치에 전송하는 단계를 더 포함한다.
실시 예로써, 상기 제 1 장치 사용자가 상기 3차원 비쥬얼 모드 및 상기 2차원 비디오 모드를 선택적으로 스위치하는 것을 허용하는 단계를 더 포함한다.
실시 예로써, 상기 비쥬얼 커뮤니케이션 세션 동안에 사용 가능한 대역폭을 기초로 상기 2차원 비디오 모드 또는 상기 3차원 비쥬얼 모드를 사용자에게 제시하는 단계 및 상기 대역폭의 변경을 기초로 직접적으로 상기 2차원 모드 또는 상기 3차원 비쥬얼 모드로 변경하는 단계 중 적어도 하나를 포함한다.
실시 예로써, 상기 제 2 장치가 단지 2차원 비디오 커뮤니케이션만을 지원하는 지 또는 2차원 모드에 있는 것인지의 판단 결과에 따라, 상기 제 2 장치로부터 수신된 2차원 비디오 스트림을 상기 제 1 장치의 디스플레이에 디스플레이하는 단계를 더 포함한다.
실시 예로써, 상기 제 2 장치가 3차원 비쥬얼 커뮤니케이션을 지원하는지 또는 3차원 모드에 있는지의 판단 결과에 응답하여, 상기 제 2 장치의 3차원 메쉬 모델을 상기 제 1 장치에 디스플레이하는 단계; 상기 제 2 장치로부터 수신된 3차원 메쉬 모델 업데이트들에 응답하여 상기 제 2 장치의 상기 3차원 메쉬 모델의 디스플레이를 업데이트하는 단계; 및 상기 제 1 장치와 관련된 상기 제 1 장치 사용자의 얼굴의 움직임을 추적하고, 제 1 장치의 디스플레이 상에 상기 3차원 메쉬 모델의 다른 시각을 제공하도록 상기 제 2 장치의 상기 3차원 메쉬 모델의 디스플레이를 리오리엔트(reorient)하는 단계를 더 포함한다.
실시 예로써, 상기 제 1 장치에서 상기 제 2 장치 사용자의 3차원 메쉬 모델을 디스플레이하는 단계는, 상기 제 2 장치 사용자의 얼굴이 상기 제 1 사용자 장치 사용자를 직접적으로 바라보는 것처럼 보이도록, 상기 제 1 장치의 상기 3차원 메쉬 모델을 렌더링(rendering)하는 단계를 더 포함한다.
실시 예로써, 상기 제 2 장치로부터 상기 제 2 장치 사용자의 얼굴의 컬러 이미지를 상기 제 1 장치에서 수신하고, 상기 3차원 메쉬 모델의 폴리곤(polygon) 내의 컬러 텍스쳐(color texture)의 입도(granularity)에서 상기 컬러 이미지를 선택적으로 업데이트하는 단계를 더 포함한다.
실시 예로써, 상기 3차원 메쉬 모델은 3차원 비쥬얼 스트림으로써 상기 제 2 장치로 전송되며, 상기 방법은, 상기 제 1 장치에서 3차원 비쥬얼 모드에서 2차원 비디오 모드로의 스위치에 응답하여, 오직 상기 2차원 비디오 스트림만이 전송될 때까지 상기 3차원 메쉬 모델 업데이트들을 2차원 비디오 스트림과 점진적으로 블랜딩(blending)하고 상기 제 2 장치로 전송하는 단계를 더 포함한다.
실시 예로써, 상기 3차원 카메라 시스템은 상기 제 1 장치 사용자의 깊이 맵(depth map)을 수집하는 광원 및 3차원 센서를 포함하며, 상기 방법은, 상기 제 1 장치 사용자로 하여금 제 1 장치를 상기 제 1 장치 사용자의 머리 주변에서 움직이고, 상기 제 1 장치 사용자가 다양한 표정을 짓게 하며, 상기 제 1 사용자의 머리 및 상기 제 1 장치 사용자의 표정들을 다양한 각도에서 캡쳐하도록 유도하는 단계를 더 포함한다.
실시 예로써, 상기 3차원 메쉬 모델을 상기 제 1 장치 사용자를 확인하기 위한 서명으로 사용하는 단계를 더 포함한다.
본 발명의 실시 예에 따른 비쥬얼 커뮤니케이션 시스템 및 방법은 사용자의 실제 모습, 표정 변화, 실시간 동작을 보여주며 동시에 대역폭을 감소시킬 수 있다.
도 1은 본 발명의 실시 예에 따른 하이브리드 비쥬얼 커뮤니케이션 시스템(hybrid visual communication system)을 보여주는 블록도이다.
도 2는 둘 또는 그 이상의 장치들 사이의 하이브리드 비쥬얼 커뮤니케이션을 제공하기 위한 프로세스를 보여주는 순서도이다.
도 3은 3차원 모델 생성 요소에 의하여 형성된 사용자의 얼굴 및 머리에 대한 3차원 메쉬 모델의 예를 나타내는 도면이다.
도 4는 얼굴 표정들을 나타내는 저장될 혼합 모형들의 일 예들을 보여주는 도면이다.
도 5는 제 1 장치와 제 2 장치 사이에서 3차원 비쥬얼 모드와 2차원 비쥬얼 모드의 다양한 조합들이 수행되는 동안에 하이브리드 비쥬얼 커뮤니케이터(24)에 의하여 수행되는 프로세스(process)를 설명하기 위한 도면이다.
이하에서는 본 발명의 기술적 사상에 따른 실시 예들이 첨부된 도면을 참조하여 자세히 설명될 것이다. 본 발명의 이점 및 특징, 그리고 그것을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 통해 설명될 것이다. 그러나 본 발명은 여기에서 설명되는 실시 예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 단지, 본 실시 예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여 제공되는 것이다. 도면들에 있어서, 본 발명의 실시 예들은 도시된 특정 형태로 제한되는 것이 아니며 명확성을 기하기 위하여 과장된 것이다. 또한 명세서 전체에 걸쳐서 동일한 참조번호로 표시된 부분들은 동일한 구성요소를 나타낸다. 본 명세서에서 "및/또는"이란표현은 전후에 나열된 구성요소들 중 적어도 하나를 포함하는 의미로 사용된다. 또한, "연결되는/결합되는"이란 표현은 다른 구성요소와 직접적으로 연결되거나 다른 구성요소를 통해 간접적으로 연결되는 것을 포함하는 의미로 사용된다. 본 명세서에서 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 또한, 명세서에서 사용되는 "포함한다" 또는 "포함하는"으로 언급된 구성요소, 단계, 동작 및 소자는 하나 이상의 다른 구성요소, 단계, 동작, 소자 및 장치의 존재 또는 추가를 의미한다. 또한, 명세서에서 사용되는 "요소(component)" 또는 "모듈(module)"이라는 용어는 FPGA(field programmable gate array), ASIC(application specific integrated circuit)와 같은 소정 태스크를 수행하는 소프트웨어 또는 하드웨어 요소에 한정되는 것은 아니다. 요소 또는 모듈은 주소를 저장할 수 있는 저장 장치 내에 위치할 수도 있으며, 하나 또는 그 이상의 프로세서들에 의하여 동작을 수행할 수 있다. 따라서, 요소 또는 모듈은 소프트웨어 컴포넌트, 객체-오리엔티드 소프트웨어 컴포넌트, 클래스 컴포넌트 및 테스크 컴포넌트, 프로세스, 기능, 절차, 서브루틴, 프로그램 코드의 세그먼트, 드라이버, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조, 테이블, 어레이 등을 포함할 수 있다. 요소에서 수행되는 기능과 요소들 또는 모듈들은 조합되어 보다 적은 요소들로 구현될 수도 있으며, 분리되어 추가적인 요소 또는 모듈들을 포함하는 형태로 구현될 수도 있다.
도 1은 본 발명의 실시 예에 따른 하이브리드 비쥬얼 커뮤니케이션 시스템(hybrid visual communication system)을 보여주는 블록도이다. 시스템(10)은 네트워크(12)를 통하여 통신하는 제 1 장치(10a), 제 2 장치(10b)를 포함한다. 제 1 및 제 2 장치들(10a, 10b)은 각각 메모리(14, 14'), 적어도 하나의 프로세서(16, 16'), 입출력 장치(I/O)(18, 18'), 그리고 디스플레이(22, 22')를 포함한다.
메모리(14, 14'), 프로세서(16, 16'), 그리고 입출력 장치(18, 18')는 시스템 버스(미도시)를 통하여 서로 연결될 것이다. 메모리(14, 14')는, 예를 들어, RAM, ROM, 캐쉬(cache), 가상 메모리(virtual memory), 플래시 메모리 등과 같은 서로 다른 종류의 메모리 타입을 하나 또는 그 이상 포함할 것이다. 프로세서(16, 16')는 하나 또는 그 이상의 코어들(cores)을 포함하는 싱글 프로세서(single processor), 또는 하나 또는 그 이상의 코어들을 포함하는 멀티플 프로세서들(multiple processors)을 포함할 것이다. 입출력 장치(18, 18')는 정보를 입력하고 정보를 출력하는 요소들의 집합이다. 입출력 장치(18, 18')를 포함하는 예시적인 요소로 마이크로폰, 스피커, 네트워크(12)의 통신을 위한 무선 네트워크 인터페이스 컨트롤러(또는 이와 유사한 요소)를 포함할 수 있다. 프로세서는 하드웨어 자원들을 관리하고 기본 태스크들(basic tasks)을 수행하는 운영 체계(operating system; OS)를 실행한다. 운영 체계의 예로써 Symbian, BlackBerry OS, iOS, Windows, Android 등이 있다. 일 실시 예로, 디스플레이(22, 22')는 각각 제 1 및 제 2 장치(10a, 10b)에 통합될 수 있으며, 반면에 다른 실시 예로, 디스플레이(22, 22')는 각각 제 1 및 제 2 장치(10a, 10b)의 외부에 위치할 수 있다. 일 실시 예로, 디스플레이(22, 22')는 제 1 장치(10a)에 통합될 수도 있으며, 반면에 다른 실시 예로, 디스플레이(22, 22')는 제 1 장치(10a)의 외부에 위치할 수도 있다. 일 실시 예로, 제 1 및 제 2 장치(10a, 10b)는 노트북 또는 랩톱 컴퓨터, 태블릿, 모바일 핸드셋, 텔레비전, 셋-톱 박스, 웨어러블 컴퓨터, 게임 장치를 포함하여 어느 타입의 무선 통신 장치의 구성 성분을 포함할 수 있다.
제 1 및 제 2 장치(10a, 10b)에 대한 통신을 지원하는 네트워크(12)는 WLAN(wireless local area network), WiMAX(Worldwide Interoperability for Microwave Access)(예를 들어, 3G/4G), WAN(Wide Area Network) 또는 셀룰러 네트워크(cellular network)를 포함하여 어떤 종류의 무선 네트워크도 포함할 수 있다.
본 발명의 일 실시 예에 있어서, 제 1 및 제 2 장치(10a, 10b)는 하이브리드 비쥬얼 커뮤니케이션(hybrid visual communication)을 사용하여 통신하며, 이에 따라 각각 하이브리드 비쥬얼 커뮤니케이터(hybrid visual communicator; 또는 혼합 시각 통신기)(24, 24'), 센서 어레이(25, 25')를 더 포함한다. 일 실시 예에 있어서, 센서 어레이들(25, 25')은 어떤 숫자의 센서들(1-n)도 모두 포함할 것이다. 일 실시 예에 있어서, 구현 가능한 센서들의 종류는 3차원 카메라 시스템(26) 또는 2차원 카메라 시스템(28)과 같은 이미지 센서들, 가속계(accelerometer), 자이로스코프(gyroscope), 자력계(magnetometer)와 같은 동작 센서(activity sensor), 심장 박동 센서, 전기 피부 센서(galvanic skin sensor), 동공 확대 센서(pupil dilation sensor) EKG 센서와 같은 바이오 센서(biometric sensor), 온도계, 고도계, 빛 센서, 습도 센서, 마이크로폰 등과 같은 주변 환경 센서들(ambient condition sensor)을 포함할 것이다.
본 발명의 기술적 사상의 실시 예에 있어서, 제 1 장치(10a)는 제 2 장치(10b)와의 실시간 비쥬얼 커뮤니케이션(real-time visual communication)을 지원한다. 비쥬얼 커뮤니케이션 세션(visual communication session, 또는 시각 통신 시간) 동안에 제 1 장치(10a)의 사용자(제 1 장치 사용자)의 3차원 메쉬 모델(3D mesh model)이 생성되고, 그 후 제 2 장치(10b)에서의 재생(playback)을 위하여 다운로드 되어 제 2 장치(10b)에 저장된다. 메쉬(mesh) 또는 와이어(wire) 프레임 모델(frame model)은 3차원 컴퓨터 그래픽을 사용하여 물리 객체(예를 들어, 사용자)를 시각적으로 표현하는 것으로, 물리 객체의 에지들(edge)은 두 개의 연속하는 부드러운 표면들이 수학적으로 만나거나 또는 객체를 구성하는 정점 또는 꼭지점들이 직선 또는 곡선을 사용하여 연결됨으로써 구체화된다. 3차원 메쉬 모델을 제 2 장치(10b)에 저장하는 것은 각 비쥬얼 커뮤니케이션 세션 동안에 2차원 비디오 스트림(2D video stream) 또는 풀 3차원 메쉬 모델(full 3D mesh model)을 제 1 장치(10a)로부터 제 2 장치(10b)로 전송할 필요가 없게 만든다. 일 실시 예로, 하이브리드 비쥬얼 커뮤니케이터(24, 24')는 사용자들(예를 들어, 제 1 장치 사용자의 콘택 리스트에 포함된 사람들 등)의 3차원 메쉬 모델들을 저장하기 위한 각각 3차원 모델 데이터베이스(27, 27')를 포함할 것이다. 일 실시 예로, 3차원 메쉬 모델은 사용자의 얼굴(face) 및 머리(head)를 나타낼 수 있으며, 다른 실시 예로, 3차원 메쉬 모델은 사용자의 몸통(torso) 또는 전체 신체(body)를 나타낼 수 있다.
비쥬얼 커뮤니케이션 세션 동안에, 하이브리드 비쥬얼 커뮤니케이터(24)는 센서 어레이(25)로부터 센서 데이터(sensor data)를 수신하며, 여기에는 3차원 카메라 시스템(26)이 제 1 장치 사용자의 얼굴 표정 및 움직임, 그리고 그 배경을 캡쳐(capture)한 이미지 데이터, 비쥬얼 커뮤니케이션 세션의 전후 맥락(context)과 연관된 다른 센서 데이터 등이 포함된다. 이미지 데이터와 다른 센서 데이터는 그 후 제 2 장치(10b)에 저장되는 3차원 메쉬 모델을 만드는 3차원 메쉬 모델 업데이트들(25)을 결정하는데 사용된다. 일 실시 예로, 센서 데이터는 먼저 다운 샘플(down sample)되고 센서 데이터의 서브셋(subset)을 생성하기 위하여 종합된다. 본 발명에 따른 실시 예에 있어서, 센서 데이터의 서브셋은 센서 데이터에 대한 선택적인 변경들을 포함하며, 센서 데이터에 대한 선택적인 변경들은 본 설명에서 센서 데이터 업데이트들(31)이라 칭해진다. 일 실시 예로, 적어도 이미지 데이터 및 최적화된 센서 데이터 업데이트들이 3차원 메쉬 모델 업데이트들(25)을 결정하기 위하여 사용된다. 일 실시 예로, 이는 제 1 장치(10a) 상에서 수행될 수 있으며 단지 3차원 메쉬 모델 업데이트들(25)이 제 2 장치(10b)로 전송될 수 있다. 다른 실시 예로, 이미지 데이터는 3차원 메쉬 모델 업데이트들(25)을 결정하기 위하여 사용되며, 3차원 메쉬 모델 업데이트들(25)과 센서 데이터 업데이트들(31) 모두가 제 2 장치(10b)로 보내질 수 있다. 제 2 장치(10b)는 그 후 센서 데이터 업데이트들(31)을 이용하여 3차원 메쉬 모델 업데이트들을 증가 또는 확대시킬 것이다.
제 2 장치(10b)는 하이브리드 비쥬얼 커뮤니케이터(24')를 이용하여 제 1 장치(10a)로부터 3차원 메쉬 모델 업데이트들(25)을 수신하고 재생할 것이다. 제 2 장치(10b)는 센서 데이터 업데이트들(31)을 사용하여 이하에서 설명될 바와 같이 3차원 메쉬 모델의 디스플레이를 증가시키거나 풍부하게 할 것이다. 다만 이하의 실시 예에서, 제 2 장치(10b)는 단지 2차원 비디오 커뮤니케이션만을 지원하며 2차원 비디오 스트림(27)을 표준 2차원 카메라 시스템(28) 및 2차원 센서(29)를 통하여 전송한다. 그러나 이는 예시적인 것이며, 다른 실시 예에 있어서, 제 2 장치(10b)는 제 1 장치(10a)와의 3차원 비쥬얼 커뮤니케이션을 지원하기 위하여 3차원 카메라 시스템(26)을 포함할 수도 있다.
일 실시 예에 있어서, 3차원 메쉬 모델은 3차원 카메라 시스템(26)을 이용하여 제 1 장치 사용자의 사진을 촬영함으로써 생성될 수 있다. 결과 이미지 데이터(resulting image data)는 3차원 모델 생성 요소(3D model creation component)(34)에 의하여 디지털, 3차원 메쉬 모델을 생성하는데 사용될 것이다. 일 실시 예로, 3차원 카메라 시스템(26)은 구조화된 광원(30) 및 3차원 센서(32)를 포함할 것이다. 3차원 센서(32)는 깊이 센서(depth sensor)라 칭해질 수도 있다. 광원(28)에 의하여 객체(대상물)에 빛을 비춤으로써(예를 들어, 줄무늬 패턴 등), 3차원 센서(32)는 객체의 모양에 대한 정보 및 선택적으로는 대상의 외양(예를 들어, 색깔 등)에 대한 정보를 수집할 것이다. 다른 실시 예로, 3차원 카메라 시스템(26)은 전통적인 2차원 센서와 결합된 3차원 센서를 포함할 수도 있다. 다른 실시 예로, 3차원 카메라 시스템(26)은 ToF(time-of-flight) 카메라를 포함할 수 있으며, 이는 이미지들의 각 지점에 대하여 알려진 빛의 속도에 근거하여 거리를 계산하고, 카메라와 객체 사이의 빛 신호의 비행시간을 측정할 것이다. 그러나, 다른 실시 예로, 3차원 카메라 시스템(26)은 빛을 조사할 필요가 없는 입체카메라(stereoscopic camera)를 포함할 수 있다.
일 실시 예로, 하이브리드 비쥬얼 커뮤니케이터(24, 24') 및 3차원 모델 생성 요소(34, 34')는 소프트웨어 어플리케이션/요소들에 의하여 동작할 것이다. 다른 실시 예로, 요소들은 하드웨어와 소프트웨어의 조합으로 수행될 수 있다. 비록 하이브리드 비쥬얼 커뮤니케이터(24, 24')와 3차원 모델 생성 요소들(34, 34')이 단일 요소들(single components)로 도시되어 있지만, 각각의 기능은 보다 적거나 많은 숫자의 모듈들/요소들(modules/components)로 결합될 수 있다. 예를 들어, 일 실시 예로, 하이브리드 비쥬얼 커뮤니케이터(24)는 제 1 장치(10a)에 지엽적으로 저장될 것이며, 반면에 3차원 모델 생성 요소(34)는 외부 서버(server)에 저장될 것이다. 이러한 서버 실시 예에 있어서, 사용자의 이미지 데이터는 3차원 메쉬 모델을 생성하기 위하여 서버에 전송될 것이다. 제 2 장치(10b)와 같은 다른 장치들은 제 1 장치 사용자의 3차원 메쉬 모델을 다운받고 이를 3차원 모델 데이터베이스(27')에 저장하기 위하여 서버에 접근(access)할 것이다.
도 2는 둘 또는 그 이상의 장치들(10a, 10b) 사이의 하이브리드 비쥬얼 커뮤니케이션을 제공하기 위한 프로세스를 보여주는 순서도이다. 일 실시 예로, 프로세스는 카메라 시스템의 데이터를 이용하여 제 1 장치 사용자의 3차원 메쉬 모델을 생성하는 것으로부터 시작할 것이며, 3차원 메쉬 모델은 제 2 장치에서 이후 디스플레이 되기 위하여 제 2 장치에 저장 가능하도록 만들어질 것이다.
잘 알려진 바와 같이, 디지털 3차원 메쉬 또는 와이어 프레임은 다각형 메쉬(polygon mesh)와 관련이 있으며, 다각형 메쉬는 정점들(vertices) 또는 노드들(nodes), 에지들(edges) 및 표면들(faces)의 집합이며 3차원 컴퓨터 그래픽 및 고체 모델링(solid modeling)에서의 객체의 모양을 정의한다. 일 실시 예로, 블록(200)은 3차원 카메라 시스템(26)으로부터 수신된 데이터에 응답하여 3차원 메쉬 요소(34)에 의하여 수행될 것이다.
본 발명의 기술적 사상에 따른 실시 예에 있어서, 제 1 장치는 3차원 카메라 시스템(26), 구조화된 광원(30) 그리고 3차원 센서(32)를 가지는 모바일 핸드셋(mobile handset)을 포함하며, 제 1 장치 사용자의 깊이 맵(depth map)을 수집하기 위하여 함께 사용될 것이다. 일 실시 예로, 3차원 메쉬 모델은 사용자의 얼굴 및 머리를 생성할 것이나, 반면에 다른 실시 예에 있어서는, 3차원 메쉬 모델은 사용자의 신체(body) 또는 그에 대한 부분을 포함할 수도 있다. 사용자는 모바일 헨드셋을 사용자 주변의 다른 위치들로 이동시키도록 유도될 것이다. 예를 들어, 적어도, 하이브리드 비쥬얼 커뮤니케이션 요소(24)는 다양한 각도의 사용자의 머리 및 사용자의 얼굴 표정들을 캡쳐하도록 사용자로 하여금 해당 장치를 사용자의 머리 주위에서 움직이도록 하고 서로 다른 표정들을 짓게 할 것이다.
도 3은 3차원 모델 생성 요소(34)에 의하여 형성된 사용자의 얼굴 및 머리에 대한 3차원 메쉬 모델의 예를 나타내는 도면이다. 일 실시 예로, 제 1 장치 사용자의 3차원 메쉬 모델(300)은 중립적 위치의 3차원 모델 데이터 베이스(27')에 저장될 것이다.
3차원 모델 생성 요소(34)는 또한 서로 다른 얼굴 표정들과 선택적인 신체의 부분들을, 해당 얼굴 표정들 및 선택적인 신체 부분들의 혼합 모형(blend shapes)으로써, 혼합 모형 계수들(blend shape coefficients)의 선형 결합(linear combination)으로 저장할 것이다.
일 실시 예로, 사용자의 얼굴의 컬러 이미지 및/또는 하나 또는 그 이상의 텍스쳐 맵(texture map)은 또한 3차원 메쉬 모델과 연관될 것이다. 3차원 모델 생성 요소(34)는 이 후에 결과 데이터를 이용하여 이미지들을 사용자 얼굴 및 머리의 깊이 맵에 맞춤으로써, 적어도 인물의 얼굴 및 머리의 유연한 다각형의 메쉬 표현(mesh representation)을 생성할 것이다.
도 4는 얼굴 표정들을 나타내는 저장될 혼합 모형들의 일 예들을 보여주는 도면이다. 일 실시 예로, 혼합 모형들(blend shapes)은 미리 정해진 숫자(예를 들어, 48)의 중요 포즈들(key poses)들로써, 감정 상태 데이터베이스(29')에 저장될 것이다. 하나의 신체(body)로써, 혼합 모형들(400)은 감정 상태 베이스들(29, 29')에 저장되었을 것이다.
도 1을 참조하면, 비쥬얼 커뮤니케이션 세션이 하이브리드 비쥬얼 커뮤니케이션 요소들(24, 24')을 통하여 시작될 때, 하이브리드 비쥬얼 커뮤니케이션 요소(24)는 제 1 장치 사용자의 3차원 메쉬 모델이 제 2 장치(10b)에 저장되어 있는지의 여부를 판단하기 위하여 하이브리드 비쥬얼 커뮤니케이션 요소(24')에게 질문 요청을 할 수 있다. 만약 저장되어 있지 않다면, 3차원 메쉬 모델 (및 어떠한 관련 텍스쳐 맵)이 제 2 장치(10b)로 전송되고 이후의 커뮤니케이션 세션들을 위하여 3차원 모델 데이터베이스(27') 내에 저장될 수 있다.
일 실시 예로, 3차원 모델 생성 요소(34)는 제 1 장치(10a)로부터 분리되어 위치할 수 있으며, 이 경우에 3차원 모델 생성 요소(34)는 3차원 메쉬 모델을 서버 또는 다른 외부 컴퓨터 상에 생성하고, 이 후 3차원 메쉬 모델을 네트워크(12)를 통하여 제 1 장치(10a) 및/또는 제 2 장치(10b)에 전송할 수 있다. 또는 제 2 장치(10b)는 제 1 장치(10a)의 초기 세션이 수행되기 전이나 수행되는 동안에 서버로부터 소정 시간에 3차원 메쉬 모델을 다운로드 받을 수도 있다.
일 실시 예로, 제 1 및 제 2 장치(10a, 10b)는 3차원 비쥬얼 커뮤니케이션을 지원하며, 하이브리드 비쥬얼 커뮤니케이터들(24, 24')은 각 유저에 대한 3차원 메쉬 모델들을 제 1 및 제 2 장치(10a, 10b) 사이의 초기 요청(initial call) 동안에 서로 교환할 것이다.
도 2를 다시 참조하면, 제 1 장치(10a)와 제 2 장치(10b) 사이의 비쥬얼 커뮤니케이션 세션 동안에, 하이브리드 비쥬얼 커뮤니케이터(24)는 센서 어레이로부터 센서 데이터를 수집할 것이며, 센서 데이터는 제 1 장치 사용자의 변화하는 얼굴 표정들 및 움직임을 캡쳐한 이미지 데이터를 포함할 것이다(블록 202). 일 실시 예로, 이미지 데이터는 3차원 카메라 시스템(26) 및 광원(30)에 의하여 주기적으로 캡쳐된 제 1 장치 사용자의 깊이 맵들을 포함할 것이다.
하이브리드 비쥬얼 커뮤니케이터(24)는 대응하는 3차원 메쉬 모델 업데이트들을 결정하기 위하여 이미지 데이터를 사용한다(블록 204). 즉, 카메라 시스템(26)이 탐지한 이미지 데이터로부터 제 1 장치 사용자의 얼굴 표정 변화들 및 위치 변화들에 응답하여, 하이브리드 비쥬얼 커뮤니케이터(24)는 대응하는 3차원 메쉬 모델의 업데이트들을 결정할 것이다.
일 실시 예로, 3차원 메쉬 모델 업데이트들(25)은 제 1 장치 사용자의 위치 변화들의 감지로부터 계산된 3차원 메쉬 모델의 상대적인 정점 위치들의 변화들로 나타내어진다.
그러나, 상대적인 정점 위치의 변화들을 계산하는 것이 연산적으로 높은 비용을 요하기 때문에, 실시 예로 혼합 모형들(400)이 3차원 얼굴 표정들(예를 들어, 행복, 슬픔, 오른쪽 눈을 감는 것 등) 또는 3차원 신체 포즈들(예를 들어, 오른쪽 팔을 들어 올리는 것 등)을 나타내기 위하여 사용된다. 따라서, 다른 실시 예에 있어서, 3차원 메쉬 모델 업데이트들(25)은 그 후 선택된 혼합 모형 계수들 또는 다른 하나 또는 그 이상의 선택된 혼합 모형들의 계산에 의하여 표현될 수 있다.
비쥬얼 커뮤니케이션 세션 동안에, 하이브리드 비쥬얼 커뮤니케이터(24)는 3차원 카메라 시스템(26)에 의하여 주기적으로 캡쳐된 제 1 장치 사용자의 깊이 맵들을 수신할 것이다. 하이브리드 비쥬얼 커뮤니케이터(24)는 그 후 깊이 맵들을 감정 상태 데이터베이스(29)로부터 하나 또는 그 이상의 저장된 혼합 모형들(400)을 검색하기 위하여 사용될 것이다. 최소 오차 범위 내의 혼합 모형 또는 혼합 모형들의 계수들은 그 후 3차원 모델 업데이트들(25)로써 사용될 것이다.
3차원 메쉬 모델 업데이트들은 제 2 장치가 제 1 장치 사용자의 3차원 메쉬 모델의 디스플레이를 업데이트하도록 제 2 장치로 전송될 것이다(블록 206). 일 실시 예로, 제 2 장치에서 3차원 메쉬 모델의 디스플레이를 업데이트하는 것은 3차원 메쉬 모델 그 자체를 업데이트 하는 것, 3차원 메쉬 모델이 겹쳐지도록 놓여진 배경을 업데이트 하는 것, 또는 그것들의 조합을 포함할 것이다. 일 실시 예로, 제 1 장치로부터 제 2 장치로 전송되는 것은 비디오(video)가 아니라 데이터(data)일 것이다. 제 2 장치에서, 수신된 데이터는 디스플레이를 위하여 데이터를 프레임-투-프레임(frame-to-frame) 에니메이팅(animating)함으로써 비디오로 변경될 것이다.
일 실시 예로, 이미지 데이터는 제 1 장치 사용자의 배경의 적어도 일 부분을 포함할 것이다. 실시 예의 일 측면에 따르면, 하나 또는 그 이상의 배경 이미지들은 제 1 장치(10a)로부터 제 2 장치(10b)로 전송되며, 비쥬얼 커뮤니케이션 세션 동안에 제 2 장치(10b)에서 디스플레이 될 때에 제 2 장치(10b)에 저장된 3차원 메쉬 모델은 배경과 겹쳐지게 될 것이다. 일 실시 예로, 배경의 이미지들은 비쥬얼 커뮤니케이션 세션의 시작 단계에서 단지 한번 제 2 장치(10b)로 전송될 것이다. 배경은 그 후 3차원 메쉬 모델이 겹쳐지게 놓여지는 텍스쳐(texture) 또는 이미지로써 저장될 것이다. 다른 실시 예로, 배경의 비디오는 전송 대역폭이 문제가 되지 않는 상황에서는 제 2 장치로 스트림(stream)될 것이다.
대역폭을 더욱 줄이기 위한 일 실시 예로, 제 1 장치(10a)는 제 1 장치 사용자의 부분 변경들이 감지됨으로써, 배경의 부분들에 대한 부분 업데이트들을 제 2 장치(10b)로 전송할 것이다. 예를 들어, 제 1 장치 사용자가 머리를 돌리는 움직임을 취하는 경우에, 이전에 모호했던 배경의 부분들이 드러날 것이다. 하이브리드 비쥬얼 커뮤니케이터(24)는 그 후 이렇게 새롭게 드러난 배경의 부분들을 디스플레이를 위한 배경의 업데이트들로써 제 2 장치(10b)에 전송할 것이다.
일단 제 2 장치(10b)가 3차원 모델 업데이트들(25)을 수신하면, 사용자의 인지된 감정 상태 및/또는 신체 위치를 실시간으로 표현하기 위하여, 하이브리드 비쥬얼 커뮤니케이터(24')은 제 2 장치에서 디스플레이 되는 3차원 메쉬 모델의 재생을 애니메이트(animate), 랜더(render), 수정(modify)하기 위하여 3차원 모델 업데이트들(25)을 사용한다. 만약 3차원 모델 업데이트들(25)이 정점들에 대한 변화들을 포함한다면, 하이브리드 비쥬얼 커뮤니케이터(24')는 3차원 메쉬 모델의 정점들을 업데이트하기 위하여 3차원 모델 업데이트들(25)을 사용한다. 만약 3차원 모델 업데이트들(25)이 혼합 모형 계수들을 포함한다면, 하이브리드 비쥬얼 커뮤니케이터(24')는 감정 상태 데이터 베이스(29')로부터 혼합 모형들 또는 키 포즈들(key poses)을 선택하고 그 후 원래의 3차원 메쉬 모델의 중립 표정과 선택된 키 포즈 사이, 또는 이전의 키 포즈와 선택된 키 포즈 사이에서 보간(interpolate)을 수행하기 위하여 혼합 모형 계수들을 사용할 것이다. 일 실시 예로, 사용자의 3차원 메쉬 모델을 사용하는 하나의 실시 예는 사용자를 확인하거나 증명하기 위하여 신뢰할 수 있는 싸인(signature)으로써 3차원 메쉬 모델을 사용할 것이다.
비쥬얼 커뮤니케이션 세션 동안에, 제 1 장치는 제 2 장치로부터 제 1 장치에서의 디스플레이를 위하여 적어도 하나의 2차원 비디오 스트림(2D video stream)를 수신하거나 제 2 장치 사용자의 3차원 메쉬 모델에 대한 업데이트들을 수신할 것이다(블록 208).
일 실시 예에 따르면, 하이브리드 비쥬얼 커뮤니케이터들(24, 24')은 장치의 능력에 따라 이미지들의 표준 2차원 스트림(35)을 스트림할 수 있으며, 이러한 이유로 2차원/3차원 커뮤니케이션이라는 용어를 사용할 수 있다. 따라서 사용자는 필요한 3차원 카메라 시스템을 가지지 않고 사용자들과 보다 진보된 시스템으로 커뮤니케이션 할 수 있다.
장치가 3차원 카메라 시스템(26)을 장착했을 때, 제 1 장치는 3차원 비디오 커뮤니케이션 및 2차원 비디오 커뮤니케이션 모두를 지원할 것이다. 이와 유사하게, 제 2 장치는 3차원 비디오 커뮤니케이션 및 2차원 비디오 커뮤니케이션 모두를 지원할 것이다. 본 발명의 실시 예의 일 측면에 따르면, 하이브리드 비쥬얼 커뮤니케이터(24, 24')는 사용자가 하여금 선택적으로 3차원 비쥬얼 모드(3D visual mode) 및 2차원 비쥬얼 모드 사이에서 원하는 대로 스위치(switch)하는 것을 가능하게 할 것이다.
본 발명의 실시 예의 다른 측면에 따르면, 사용자의 3차원 메쉬 모델의 재생은 3차원 메쉬 모델의 추가적인 그래픽 요소들을 디스플레이하기 위한 센서 데이터 업데이트들(31)의 스트림들을 이용하여 증가 또는 확대화될 수 있을 것이다. 이러한 증가(augmentation)는 이하에서 설명될 바와 같이 제 1 장치(10a) 또는 제 2 장치(10b) 중 어느 하나에서 수행될 것이다.
도 2를 참조하면, 센서 어레이로부터 이미지 데이터를 수신하는 것에 더하여(블록 202), 하이브리드 비쥬얼 커뮤니케이터(24)는 비쥬얼 커뮤니케이션 세션의 전후 맥락(context), 예를 들어 제 1 사용자 장치의 활성화 데이터(activity data) 및 주변 환경들과 같은, 관련된 다른 센서 데이터를 또한 수신할 것이다.
일 실시 예로, 제 1 장치 사용자의 활성화 데이터는 하나 또는 그 이상의 가속계(accelerometer), 자이로스코프(gyroscope), 자기계(magnetometer)를 포함하며 제 1 장치 및/또는 제 1 장치 사용자의 움직임을 판단하는 동작 센서들(activity sensors), 심장 박동 센서, 전기 피부 센서(galvanic skin sensor), 동공 확대 센서(pupil dilation sensor) EKG 센서를 포함하며 제 1 장치 사용자의 바이오 데이터 및 인식된 감정 상태를 판단하는데 사용되는 바이오 센서(biometric sensor)로부터 수집될 것이다. 주변 환경 데이터는 하나 또는 그 이상의 온도계, 고도계, 빛 센서, 습도 센서, 마이크로폰 등과 같은 주변 환경 센서들(ambient condition sensor)로부터 수집될 것이다.
다른 센서 데이터는 센서 데이터 업데이트들을 제공하기 위하여 다운샘플(downsample) 되어 합산(aggregation)될 것이다(블록 212). 센서 어레이(25)를 포함하는 각 센서들은 다양한 레이트(rate)에서 서로 다른 타입들의 센서 데이터를 캡쳐할 것이다. 예를 들어, 가속계는 가속 데이터를 100Hz-200Hz에서 캡쳐할 것이며, 반면에 온도계는 온도데이터를 1Hz 또는 이보다 낮은 Hz에서 샘플링(sampling)할 것이다.
본 발명의 실시 예의 일 측면에 따르면, 높은 주파수들에서 캡쳐/샘플된 센서 데이터를 위하여, 하이브리드 비쥬얼 커뮤니케이터(24) 또는 분리된 데이터 관리자(separate data manager)는 센서 데이터를 낮은 레이트(rate)로 다운샘플 할 것이다. 몇몇의 센서 데이터 타입들을 위하여, 하이브리드 비쥬얼 커뮤니케이터(24)는 데이터 샘플들의 숫자를 더욱 줄이기 위하여 센서 데이터를 평균(average)할 것이다.
하이브리드 비쥬얼 커뮤니케이터(24)는 그 후 다양한 센서들로부터 다운샘플된 센서 데이터를 합산하여 네트워크를 통하여 전송하기에 적합하도록 전체 샘플들이 보다 적은 숫자를 갖도록 한다. 따라서, 소정 시간 주기 동안에 M 개의 전체 샘플들이 수신되었다고 가정할 때, 다운샘플링과 합산과정은 MxN 데이터 컨버젼(conversion)을 제공하도록 전체 숫자를 N 센서 데이터 업데이트들로 감소시키며, 여기서 N은 M보다 상당히 작은 숫자를 의미한다. 예를 들어, 100Hz의 주파수에서 수집된 심장 박동 데이터는, 예를 들어, 인간의 감정이 흥분, 화, 노여움을 갖게 되는지의 여부와 같은 인식된 감정을 가리키는 하나의 변수(variable)로 변환된다.
만약 센서 데이터 업데이트들(31)이 제 2 장치(10b)로 전송되는 경우에, N 데이터 센서 데이터 업데이트들(31)은 정의된 커뮤니케이션 프로토콜(communication protocol)에 따라 패킷들(packets)로 인코딩(encoding)되고 제 2 장치(10b)로 전송될 것이다. 센서 데이터 업데이트들(31)을 포함하는 패킷들은 3차원 모델 업데이트들(25) 사이에 끼워질 것이며, 3차원 모델 업데이트들(25)은 다른 주파수에서 전송될 것이다. 제 2 장치에서, 하이브리드 비쥬얼 커뮤니케이터(24')는 데이터 샘플 패킷들을 정의된 커뮤니케이션 프로토콜에 따라 디코딩(decoding)할 것이다.
제 1 및 제 2 장치들이 서로 교환될 수 있으며, 또는 사용 가능한 대역폭이 변경될 수 있는 장치의 특성에 기초하여, 3차원 모델의 확장(augmentation)은 제 1 장치(10a) 또는 제 2 장치(10b) 상에서 수행될 것이다(블록 214).
3차원 모델의 확장(augmentation)이 제 2 장치(10b)에서 수행되도록 결정되는 것에 응답하여, 센서 데이터 업데이트들(31)은 3차원 메쉬 모델 업데이트들의 전송 동안에 3차원 메쉬 모델 업데이트들 사이에 삽입될 것이다(블록 216). 이러한 실시 예에 있어서, 센서 데이터 업데이트들은 제 2 장치(10b)에서의 3차원 메쉬 모델을 보다 풍부하게 재생(또는 확장 재생)(augment playback)하기 위하여 메타데이터를 스트리밍하는 부가적 차원에서, 3차원 모델 업데이트들(25)과 함께 제 2 장치(및/또는 외부 서버)로 전송될 것이다.
3차원 메쉬 모델의 확장(augmentation)이 제 1 장치(10a) 상에서 수행되도록 결정되는 것에 응답하여, 3차원 메쉬 모델 업데이트들은 3차원 메쉬 모델의 추가적인 그래픽 요소들의 디스플레이를 위한 센서 데이터 업데이트들에 의하여 확장(또는 풍부하게 변화)(augmentation)될 것이다(블록 218).
이러한 실시 예에 있어서, 센서 데이터 업데이트들(31)은 3차원 모델 업데이트들(25)이 제 2 장치(10b)로 전송되기 이전에 사용자의 인식된 감정 상태를 확장(또는 풍부하게 변화)하기 위한 감정 상태 데이터베이스(25)로의 추가적인 입력들로써 제 1 장치(10a) 상에서 사용될 것이다. 예를 들어, 만약 센서 데이터 업데이트들(31)이 주변 온도가 상대적으로 더우며, 바이오 센서들이 사용자의 맥박이 빠르게 뛴다는 것을 가리킨다면, 제 1 장치 사용자가 땀을 흘리고 있다는 가능성이 높다는 것을 추론 가능할 것이다. 따라서, 이러한 정보는 제 2 장치(10b)에서 재생되는 동안에 3차원 메쉬 모델 상에서 땀방울을 디스플레이 하도록 사용될 것이다. 따라서, 감정 상태 데이터베이스들(29, 29')은 센서 데이터 업데이트들(31)의 현재 값에 기초하여 사용자의 다른 상태들(예를 들어, 덥거나 땀을 흘림, 추움, 신결질적임, 짜증남, 행복함, 슬픔 등)을 가리키도록 혼합 모형들과 관련된 센서 값들(sensor values)의 매트릭스를 포함할 것이다. 다른 실시 예로, 주변 센서들로부터의 데이터는 제 1 장치 사용자의 위치에서 비가 오고 있음을 가리킬 것이다. 이러한 정보는 그 후 제 2 장치에서 3차원 메쉬 모델의 재생 동안에 구름 및 빗방울을 디스플레이 하는데 사용될 것이다.
도 5는 제 1 장치(10a)와 제 2 장치(10b) 사이에서 3차원 비쥬얼 모드와 2차원 비쥬얼 모드의 다양한 조합들이 수행되는 동안에 하이브리드 비쥬얼 커뮤니케이터(24)에 의하여 수행되는 프로세스(process)를 설명하기 위한 도면이다. 초기 요청(call initiation)에 의하여, 하이브리드 비쥬얼 커뮤니케이터(24)는 현재의 선택 또는 디폴트 되어 있는 비디오 모드 셋팅을 기초로, 3차원 모드 내의 3차원 모델 업데이트들(25) (그리고 선택적으로 센서 데이터 업데이트들(31)) 또는 2차원 모드 내의 2차원 비디오 스트림(37) 중 어느 하나를 제 2 장치로 전송한다(블록 500).
일 실시 예로, 비쥬얼 모드의 현재 선택은 사용자에 의하여 수동으로 선택되거나 하이브리드 비쥬얼 커뮤니케이터(24)에 의하여 자동으로 선택될 수 있다. 예를 들어, 하이브리드 비쥬얼 커뮤니케이터(24)는 제 1 장치(10a)가 3차원 카메라 시스템을 포함하고 있는지의 여부를 판단하고 그 후 사용자로 하여금 3차원 비쥬얼 모드 또는 2차원 비디오 모드를 선택하는 것을 허용할 수 있다. (예를 들어, GUI, 메뉴 등을 통하여 구현할 수 있다) 만약 하이브리드 비쥬얼 커뮤니케이터(24)가 장치가 단지 2차원 카메라 시스템만을 포함하고 있다는 것을 발견한다면, 하이브리드 비쥬얼 커뮤니케이터(24)는 2차원 비디오 모드를 디폴트로 정할 수 있다.
또 다른 실시 예에 따라, 사용 가능한 대역폭에 기초하여 사용자에게 2차원 비디오 모드 또는 3차원 비디오 모드를 자동으로 제시할 수 있으며, 및/또는 비쥬얼 커뮤니케이션 세션 동안의 대역폭의 변화에 기초하여 직접 비디오 모드를 변경할 수도 있다.
만약 현재 선택 또는 디폴트 비쥬얼 모드 셋팅이 3차원 비쥬얼 모드라면, 하이브리드 비쥬얼 커뮤니케이터(24)는 3차원 메쉬 모델이 해당 장치에 있는지의 여부, 또는 제 2 장치가 요청자의 ID에 기초하여 3차원 메쉬 모델이 있는 지의 여부를 알아 보기 위하여 검색을 수행하고 있는지의 여부를 수행하고 있는 지의 여부를 판단하고, 만약 아니라면 제 1 장치로부터 3차원 메쉬 모델의 전송을 요청하기 위하여 제 2 장치의 상응하는 부분에게 문의한다. 만약 제 2 장치가 3차원 메쉬 모델이 제 2 장치에 존재하는 것을 나타낸다면, 하이브리드 비쥬얼 커뮤니케이터(24)는 대역폭을 절역하기 위하여 3차원 메쉬 모델을 전송하지 않아도 된다.
하이브리드 비쥬얼 커뮤니케이터(24)는 또한 제 2 장치(10b)의 현재 비쥬얼 모드를 결정한다(블록 502). 이는 제 2 장치가 제 1 장치에 제 2 장치의 현재 비디오 모드를 알려줌으로써 수행될 것이다. 이러한 교환 동작 동안에, 하이브리드 비쥬얼 커뮤니케이터들(24, 24')은 장치가 3차원 및 2차원 비디오 모드를 지원하는지 또는 단지 2차원 비디오 모드만을 지원하는지 여부에 관한 모드 능력(mode capability)을 교환할 수도 있다. 다른 실시 예에 있어서, 하이브리드 비쥬얼 커뮤니케이터(24, 24')는 장치 특성 정보를 교환할 수도 있으며, 장치 특성 정보는, 예를 들어, 메타데이터로써 이미지 센서, 광원, 대역폭 등의 정보를 포함할 수 있다.
제 2 장치가 단지 2차원 비디오 커뮤니케이션을 지원하거나 또는 2차원 비디오 모드에 있다는 판단에 응답하여, 하이브리드 비쥬얼 커뮤니케이터(24)는 제 1 장치의 디스플레이 상에 제 2 장치로부터 수신된 비디오 스트림을 디스플레이 할 것이다(블록 504).
제 2 장치가 단지 3차원 비디오 커뮤니케이션을 지원하거나 또는 3차원 비쥬얼 모드에 있다는 판단에 응답하여, 하이브리드 비쥬얼 커뮤니케이터(24)는 제 1 장치의 디스플레이 상에 이전에 제 1 장치에 저장된 제 2 장치 사용자의 3차원 메쉬 모델을 디스플레이 할 것이다(블록 506).
일 실시 예로, 블록(506)은 두 개의 서브 단계들을 포함한다. 제 1 서브 단계는 제 2 장치로부터 수신된 3차원 메쉬 모델 업데이트들에 응답하여 제 2 장치 사용자의 3차원 메쉬 모델의 디스플레이를 업데이트하는 것을 포함한다(블록 506A). 제 1 장치(10a)에서, 하이브리드 비쥬얼 커뮤니케이터(24)는 제 2 장치 사용자의 얼굴이 제 1 장치 사용자를 직접적으로 바라보는 것처럼 보이도록 제 3차원 메쉬 모델을 렌더링(rendering)할 것이다. 일단 하이브리드 비쥬얼 커뮤니케이터(24)가 포지션 업데이트들(position updates)을 수신하면, 하이브리드 비쥬얼 커뮤니케이터(24)는 제 1 장치(10a)에 부분적으로 저장되어 있는 제 2 장치 사용자의 3차원 모델의 표정 및 방향(orientation)을 수정하기 위하여 3차원 메쉬 모델 업데이트들을 사용한다. 이러한 요청 동안에, 각각의 3차원 메쉬 모델의 다각형 내의 컬러 텍스쳐(color texture)의 입도(granularity)로 전송된 각 사용자의 컬러 이미지의 부분들은 장치들 상에서 선택적으로 업데이트 될 것이다. 보다 중요하거나 활동적인 부분은 필요에 따라 보다 자주 업데이트 될 수도 있다.
다른 실시 예에 따라, 제 2 서브 단계는 제 1 장치와 관련된 제 1 장치 사용자의 얼굴 움직임을 추적하고, 제 1 장치의 디스플레이 상에서 3차원 메쉬 모델의 다른 시각을 제공하기 위하여 제 2 장치 사용자의 3차원 메쉬 모델의 디스플레이를 리오리엔팅(reorienting)하는 것을 포함한다(블록 506B).
이는 모션 시차 효과(motion parallax effect)라고 칭해지며, 실제 얼굴을 맞대고 교류하는 것과 같은 효과가 있다. 시차(parallax)는 서로 다른 시선을 따라 보여지는 객체의 분명한 포지션의 차이이며, 두 개의 선들 사이의 각도의 경도(angle of inclination)에 의하여 측정될 것이다. 이는 하이브리드 비쥬얼 커뮤니케이터(24)가 3차원 센서(32)(예를 들어, 모션 시차 3차원 센서(motion parallax 3D sensor) 또는 입체 센서(stereoscopic sensor))를 사용하여 제 1 장치 사용자의 눈의 위치를 추적하고, 제 1 장치 사용자의 눈의 위치의 변화에 응답하여 제 2 장치 사용자의 3차원 메쉬 모델의 시각(perspective)을 조종하는 것에 의하여 수행될 수 있다. 다른 실시 예에 있어서, 시선 추적기(gaze tracker)가 3차원 센서를 대신하거나 3차원 센서와 더불어 사용될 수도 있다.
제 1 장치에서 3차원 비쥬얼 모드로부터 2차원 비디오 모드로의 스위치에 응답하여, 하이브리드 비쥬얼 커뮤니케이터(24)는 오직 2차원 비디오 스트림이 전송될 때까지 점진적으로 3차원 모델 업데이트들을 2차원 비디오 스트림과 혼합하여 제 2 장치로 전송한다(블록 508).
상기의 실시 예들은 전통적인 2차원-2차원 비디오 커뮤니케이션 시스템에 비하여 장점을 갖는다. 예를 들어, 메쉬 모델 또는 혼합 모형 계수들 내의 노드들(nodes) 또는 정점들(vertices)의 포지션 업데이트들의 전송은 이미지 시퀀스들(image sequences)을 전송하는 것에 비하여 적은 대역폭을 필요로 하며, 일정 조건으로 제약된 대역폭 환경에서 좀더 부드러운 커뮤니케이션(또는 통신)을 가능하게 한다. 게다가, 새로운 이미지를 캡혀하고 이를 압축하여 이미지 시퀀스로 전송하는 것에 비하여, 사용자의 얼굴 표정의 변화 및 움직임을 해석하고 3차원 메쉬 모델 업데이트들로 전송함으로써 적은 레이턴시(latency)를 갖는다. 하나의 싱글 메쉬 노드는, 전체 이미지를 인코드/압축/전송/디코드 하는 사이클을 가짐으로써 대기하게 되는 것과는 달리, 한 순간에 업데이트 될 수 있다.
3차원 메쉬 모델들은 시청자를 내려다보지 않고 직접적으로 보는 것으로 렌더링 된다. 만약 사용자가 비디오 콜(video call)에 따라 그들의 머리를 움직인다면, 3차원 메쉬 모델은 실제 생활과 같이 다른 장치에서 새로운 정보를 가지고 새로운 시각(view)으로 놓이도록 리오리엔트 된다. 게다가, 3차원 메쉬 모델들은 잠재적으로 보안 및 암호화 분야에서 사용자의 고유의 싸인(signature)으로 사용될 수 있다. 사용자의 얼굴의 컬러 이미지들을 캡쳐하고 선택적으로 업데이트하는 것은 보안이 요구되는 환경에서 가짜 모델들을 사용하려는 시도를 무력화할 수 있다.
상술한 바와 같이, 하이브리드 비쥬얼 커뮤니케이션 시스템이 설명되었다. 그러나, 상술한 내용은 단지 실시 예들에 불과하며, 본 발명의 기술적 사상은 이에 한정되지 않음이 이해될 것이다. 또한, 본 발명의 기술적 사상은 앞서 설명된 실시 예들 이외에 다양하게 적용 및 응용될 수 있을 것이다. 예를 들어, 본 발명의 기술적 사상은 하드웨어, 소프트웨어, 프로그램 명령을 포함하는 컴퓨터 판독 가능한 매체를 사용하여 실현될 수 있을 것이다. 본 발명의 기술적 사상에 따라 구현되거나 완성된 소프트웨어는 메모리, 하드디스크, CD/DVD-ROM 등과 같은 컴퓨터 판독 가능 매체에 저장될 수 있으며, 프로세서에 의하여 실행될 수 있다. 또한 본 발명의 기술적 사상은 당업자에 의하여 다양하게 응용 및 적용될 수 있으며, 이는 모두 본 발명의 기술적 사상의 범주에 속함이 이해될 것이다.
10a: 제 1 장치
25: 센서 어레이
30: 광원
32: 3차원 센서
26: 3차원 카메라 시스템
14: 메모리
16: 프로세서
18: 입출력 장치
34: 3차원 모델 생성 요소
24: 하이브리드 비쥬얼 커뮤니케이터
27: 3차원 모델 데이터베이스
29: 감정 상태 데이터베이스
22: 디스플레이
25: 3차원 메쉬 모델 업데이트들
31: 센서 데이터 업데이트들
12: 네트워크
35: 2차원 스트림

Claims (20)

  1. 제 1 장치 및 제 2 장치 사이의 비쥬얼 커뮤니케이션을 지원하는 비쥬얼 커뮤니케이션 방법에 있어서, 상기 방법은,
    제 1 장치 사용자에 대한 3차원 메쉬 모델(3D mesh model)을 생성하기 위하여 카메라 시스템으로부터의 데이터를 이용하는 단계;
    상기 제 1 장치 및 상기 제 2 장치 사이의 비쥬얼 커뮤니케이션 세션(visual communication session) 동안에, 센서 어레이(sensor array)로부터 상기 제 1 장치 사용자에 대한 얼굴 표정 및 동작의 변화를 캡쳐(capture)한 이미지 데이터를 포함하는 센서 데이터를 수신하는 단계;
    3차원 메쉬 모델 업데이트를 결정하기 위하여 상기 이미지 데이터를 사용하는 단계;
    상기 제 2 장치가 상기 제 1 장치 사용자의 상기 3차원 메쉬 모델의 디스플레이를 업데이트 하도록, 상기 3차원 메쉬 모델 업데이트를 상기 제 2 장치에 전송하는 단계; 및
    상기 제 1 장치에서의 디스플레이를 위하여 상기 제 2 장치로부터 2차원 비디오 스트림 또는 제 2 장치 사용자의 3차원 메쉬 모델에 대한 업데이트 중 적어도 하나를 수신하는 단계를 포함하되,
    상기 제 1 장치 사용자의 3차원 메쉬 모델은 상기 제 2 장치에서 디스플레이 되도록 상기 제 2 장치에 저장될 수 있도록 구성되고,
    상기 3차원 메쉬 모델 업데이트는 a) 상기 제 1 장치 사용자의 감지된 위치 변화들로부터 계산된 상기 3차원 메쉬 모델의 상대적인 정점(vertex) 위치들에 대한 변화들, 및 b) 선택된 혼합 모양 계수들(blend shape coefficients) 또는 적어도 하나의 선택된 혼합 모양의 수치 중 적어도 하나로 표시되는 비쥬얼 커뮤니케이션 방법.
  2. 제 1 항에 있어서,
    상기 센서 데이터를 수신하는 단계는,
    상기 제 1 장치 사용자의 움직임 데이터(activity data) 및 주변 조건들을 포함하는, 상기 비쥬얼 커뮤니케이션 세션의 전후 맥락(context)과 관련된 다른 센서 데이터를 수신하는 단계를 포함하는, 비쥬얼 커뮤니케이션 방법.
  3. 제 2 항에 있어서,
    센서 데이터 업데이트들을 제공하기 위하여 상기 다른 센서 데이터를 다운 샘플링(downsampling) 및 합산(aggregating)하는 단계를 더 포함하는, 비쥬얼 커뮤니케이션 방법.
  4. 제 3 항에 있어서,
    M 데이터 샘플들 전체가 일 주기 동안에 수신되고,
    상기 다운 샘플링과 합산이 MxN 데이터 컨버젼을 제공하기 위하여 상기 M 데이터 샘플을 N 센서 데이터 업데이트들로 감소시키고,
    상기 N은 상기 M보다 적은, 비쥬얼 커뮤니케이션 방법.
  5. 제 3 항에 있어서,
    상기 제 2 장치에 상기 3차원 메쉬 모델 업데이트들의 전송을 수행하는 동안에, 상기 센서 데이터 업데이트들에 상기 3차원 메쉬 업데이트들을 삽입하는 단계를 더 포함하는, 비쥬얼 커뮤니케이션 방법.
  6. 제 3 항에 있어서,
    상기 3차원 메쉬 업데이트들이 상기 제 2 장치로 전송되기 이전에 상기 3차원 메쉬 모델의 추가적인 그래픽 요소들의 디스플레이를 위하여, 상기 센서 데이터 업데이트들을 가지고 상기 3차원 메쉬 업데이트들을 증가시키는 단계를 더 포함하는, 비쥬얼 커뮤니케이션 방법.
  7. 삭제
  8. 제 1 항에 있어서,
    상기 이미지 데이터는 상기 제 1 장치 사용자의 배경에 대한 적어도 일부의 이미지를 포함하며, 상기 비쥬얼 커뮤니케이션 세션 동안 상기 제 2 장치에서 디스플레이 될 때 상기 제 3차원 메쉬 모델이 상기 배경에 겹쳐지도록 상기 배경은 상기 제 2 장치로 전송되는, 비쥬얼 커뮤니케이션 방법.
  9. 제 1 항에 있어서,
    3차원 비쥬얼 모드 동안에 상기 3차원 메쉬 모델 업데이트들을 전송하고 2차원 비디오 모드 동안에 2차원 비디오 스트림을 상기 제 2 장치에 전송하는 단계를 더 포함하는, 비쥬얼 커뮤니케이션 방법.
  10. 제 9 항에 있어서,
    상기 제 1 장치 사용자가 상기 3차원 비쥬얼 모드 및 상기 2차원 비디오 모드를 선택적으로 스위치하는 것을 허용하는 단계를 더 포함하는, 비쥬얼 커뮤니케이션 방법.
  11. 제 9 항에 있어서,
    상기 비쥬얼 커뮤니케이션 세션 동안에 사용 가능한 대역폭을 기초로 상기 2차원 비디오 모드 또는 상기 3차원 비쥬얼 모드를 사용자에게 제시하는 단계 및 상기 대역폭의 변경을 기초로 직접적으로 상기 2차원 비디오 모드 또는 상기 3차원 비쥬얼 모드로 변경하는 단계 중 적어도 하나를 포함하는, 비쥬얼 커뮤니케이션 방법.
  12. 제 1 항에 있어서,
    상기 제 2 장치가 단지 2차원 비디오 커뮤니케이션만을 지원하는 지 또는 2차원 모드에 있는 것인지의 판단 결과에 따라, 상기 제 2 장치로부터 수신된 2차원 비디오 스트림을 상기 제 1 장치의 디스플레이에 디스플레이하는 단계를 더 포함하는, 비쥬얼 커뮤니케이션 방법.
  13. 제 1 항에 있어서,
    상기 제 2 장치가 3차원 비쥬얼 커뮤니케이션을 지원하는지 또는 3차원 모드에 있는지의 판단 결과에 응답하여,
    상기 제 2 장치의 3차원 메쉬 모델을 상기 제 1 장치에 디스플레이하는 단계;
    상기 제 2 장치로부터 수신된 3차원 메쉬 모델 업데이트들에 응답하여 상기 제 2 장치의 상기 3차원 메쉬 모델의 디스플레이를 업데이트하는 단계; 및
    상기 제 1 장치와 관련된 상기 제 1 장치 사용자의 얼굴의 움직임을 추적하고, 제 1 장치의 디스플레이 상에 상기 3차원 메쉬 모델의 다른 시각을 제공하도록 상기 제 2 장치의 상기 3차원 메쉬 모델의 디스플레이를 리오리엔트(reorient)하는 단계를 더 포함하는, 비쥬얼 커뮤니케이션 방법.
  14. 제 13 항에 있어서,
    상기 제 1 장치에서 제 2 장치 사용자의 3차원 메쉬 모델을 디스플레이하는 단계는,
    상기 제 2 장치 사용자의 얼굴이 상기 제 1 사용자 장치 사용자를 직접적으로 바라보는 것처럼 보이도록, 상기 제 1 장치의 상기 3차원 메쉬 모델을 렌더링(rendering)하는 단계를 더 포함하는, 비쥬얼 커뮤니케이션 방법.
  15. 제 14 항에 있어서,
    상기 제 2 장치로부터 상기 제 2 장치 사용자의 얼굴의 컬러 이미지를 상기 제 1 장치에서 수신하고, 상기 3차원 메쉬 모델의 폴리곤(polygon) 내의 컬러 텍스쳐(color texture)의 입도(granularity)에서 상기 컬러 이미지를 선택적으로 업데이트하는 단계를 더 포함하는, 비쥬얼 커뮤니케이션 방법.
  16. 제 1 항에 있어서,
    상기 3차원 메쉬 모델은 3차원 비쥬얼 스트림으로써 상기 제 2 장치로 전송되며,
    상기 방법은,
    상기 제 1 장치에서 3차원 비쥬얼 모드에서 2차원 비디오 모드로의 스위치에 응답하여, 오직 상기 2차원 비디오 스트림만이 전송될 때까지 상기 3차원 메쉬 모델 업데이트들을 2차원 비디오 스트림과 점진적으로 블랜딩(blending)하고 상기 제 2 장치로 전송하는 단계를 더 포함하는, 비쥬얼 커뮤니케이션 방법.
  17. 제 1 항에 있어서,
    상기 카메라 시스템은 상기 제 1 장치 사용자의 깊이 맵(depth map)을 수집하는 광원 및 3차원 센서를 포함하며,
    상기 방법은,
    상기 제 1 장치를 상기 제 1 장치 사용자의 머리 주변에서 움직이게 하고, 상기 제 1 장치 사용자가 다양한 표정을 짓게 하고, 상기 제 1 사용자의 머리 및 상기 제 1 장치 사용자의 표정들을 다양한 각도에서 캡쳐하도록 유도하는 단계를 더 포함하는 비쥬얼 커뮤니케이션 방법.
  18. 제 1 항에 있어서,
    상기 3차원 메쉬 모델을 상기 제 1 장치 사용자를 확인하기 위한 서명으로 사용하는 단계를 더 포함하는, 비쥬얼 커뮤니케이션 방법.
  19. 메모리; 및
    상기 메모리에 연결된 프로세서를 포함하며,
    상기 프로세서는:
    제 1 장치 사용자의 3차원 메쉬 모델(3D mesh model)을 생성하기 위하여 카메라 시스템으로부터의 데이터를 사용하고,
    제 1 장치 및 제 2 장치 사이의 비쥬얼 커뮤니케이션 세션(visual communication session) 동안에, 센서 어레이(sensor array)로부터 상기 제 1 장치 사용자에 대한 얼굴 표정 및 동작의 변화를 캡쳐(capture)한 이미지 데이터를 포함하는 센서 데이터를 수신하고,
    3차원 메쉬 모델 업데이트를 결정하기 위하여 상기 이미지 데이터를 사용하고,
    상기 제 2 장치가 상기 제 1 장치 사용자의 상기 3차원 메쉬 모델의 디스플레이를 업데이트 하도록, 상기 3차원 메쉬 모델 업데이트를 상기 제 2 장치에 전송하고, 그리고
    상기 제 1 장치에서의 디스플레이를 위하여 상기 제 2 장치로부터 2차원 비디오 스트림 또는 제 2 장치 사용자의 3차원 메쉬 모델에 대한 업데이트 중 적어도 하나를 수신하되,
    상기 제 1 장치 사용자의 상기 3차원 메쉬 모델은 상기 제 2 장치에서 디스플레이 되도록 상기 제 2 장치에 저장될 수 있도록 구성되고,
    상기 3차원 메쉬 모델 업데이트는 a) 상기 제 1 장치 사용자의 감지된 위치 변화들로부터 계산된 상기 3차원 메쉬 모델의 상대적인 정점(vertex) 위치들에 대한 변화들, 및 b) 선택된 혼합 모양 계수들(blend shape coefficients) 또는 적어도 하나의 선택된 혼합 모양의 수치 중 적어도 하나로 표시되는 비쥬얼 커뮤니케이션 장치.
  20. 제 1 장치 및 제 2 장치 사이의 비쥬얼 커뮤니케이션 방법을 수행하기 위한 컴퓨터 프로그램 코드들을 저장하는 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 비쥬얼 커뮤니케이션 방법은:
    제 1 장치 사용자의 3차원 메쉬 모델(3D mesh model)을 생성하기 위하여 카메라 시스템으로부터의 데이터를 사용하는 단계;
    상기 제 1 장치 및 상기 제 2 장치 사이의 비쥬얼 커뮤니케이션 세션(visual communication session) 동안에, 센서 어레이(sensor array)로부터 상기 제 1 장치 사용자에 대한 얼굴 표정 및 동작의 변화를 캡쳐(capture)한 이미지 데이터를 포함하는 센서 데이터를 수신하는 단계;
    3차원 메쉬 모델 업데이트를 결정하기 위하여 상기 이미지 데이터를 사용하는 단계;
    상기 제 2 장치가 상기 제 1 장치 사용자의 상기 3차원 메쉬 모델의 디스플레이를 업데이트 하도록, 상기 3차원 메쉬 모델 업데이트를 상기 제 2 장치에 전송하는 단계; 및
    상기 제 1 장치에서의 디스플레이를 위하여 상기 제 2 장치로부터 2차원 비디오 스트림 또는 제 2 장치 사용자의 3차원 메쉬 모델에 대한 업데이트 중 적어도 하나를 수신하는 단계를 포함하되,
    상기 제 1 장치 사용자의 상기 3차원 메쉬 모델은 상기 제 2 장치에서 디스플레이 되도록 상기 제 2 장치에 저장될 수 있도록 구성되고,
    상기 3차원 메쉬 모델 업데이트는 a) 상기 제 1 장치 사용자의 감지된 위치 변화들로부터 계산된 상기 3차원 메쉬 모델의 상대적인 정점(vertex) 위치들에 대한 변화들, 및 b) 선택된 혼합 모양 계수들(blend shape coefficients) 또는 적어도 하나의 선택된 혼합 모양의 수치 중 적어도 하나로 표시되는 컴퓨터 판독 가능 저장 매체.
KR1020140102421A 2013-08-09 2014-08-08 하이브리드 비쥬얼 커뮤니케이션 KR102246355B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361864446P 2013-08-09 2013-08-09
US61/864,446 2013-08-09
US14/052,803 2013-10-14
US14/052,803 US9325936B2 (en) 2013-08-09 2013-10-14 Hybrid visual communication

Publications (2)

Publication Number Publication Date
KR20150018468A KR20150018468A (ko) 2015-02-23
KR102246355B1 true KR102246355B1 (ko) 2021-04-30

Family

ID=52448279

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140102421A KR102246355B1 (ko) 2013-08-09 2014-08-08 하이브리드 비쥬얼 커뮤니케이션

Country Status (4)

Country Link
US (2) US9325936B2 (ko)
KR (1) KR102246355B1 (ko)
CN (1) CN104345801B (ko)
TW (1) TWI650985B (ko)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10708545B2 (en) 2018-01-17 2020-07-07 Duelight Llc System, method, and computer program for transmitting face models based on face data points
US9626564B2 (en) * 2014-11-17 2017-04-18 Intel Corporation System for enabling eye contact in electronic images
WO2016207311A1 (en) * 2015-06-24 2016-12-29 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Skinned multi-person linear model
US11893671B2 (en) 2015-09-07 2024-02-06 Sony Interactive Entertainment LLC Image regularization and retargeting system
EP3341919A4 (en) 2015-09-07 2019-04-03 Sony Interactive Entertainment America LLC PICTURE REGULATORY AND RETARGETING SYSTEM
US20180077437A1 (en) * 2016-09-09 2018-03-15 Barrie Hansen Parallel Video Streaming
US10528801B2 (en) 2016-12-07 2020-01-07 Keyterra LLC Method and system for incorporating contextual and emotional visualization into electronic communications
CN106778628A (zh) * 2016-12-21 2017-05-31 张维忠 一种基于tof深度相机的面部表情捕捉方法
KR20180089208A (ko) * 2017-01-31 2018-08-08 삼성전자주식회사 스마트 워치의 워치 페이스를 제어하는 전자 장치와 이의 동작 방법
US20180300326A1 (en) * 2017-04-17 2018-10-18 The Boeing Company Three-Dimensional Massive Model Visualization Database System
US20180357819A1 (en) * 2017-06-13 2018-12-13 Fotonation Limited Method for generating a set of annotated images
US10311624B2 (en) 2017-06-23 2019-06-04 Disney Enterprises, Inc. Single shot capture to animated vr avatar
US20190011700A1 (en) * 2017-07-05 2019-01-10 Bruce Reiner Customizable three-dimensional interactive visualization and multi-sensory system and method
US11024078B2 (en) 2017-08-07 2021-06-01 Verizon Patent And Licensing Inc. Systems and methods compression, transfer, and reconstruction of three-dimensional (3D) data meshes
US11095854B2 (en) 2017-08-07 2021-08-17 Verizon Patent And Licensing Inc. Viewpoint-adaptive three-dimensional (3D) personas
CN107590434A (zh) * 2017-08-09 2018-01-16 广东欧珀移动通信有限公司 识别模型更新方法、装置和终端设备
CN107846566A (zh) * 2017-10-31 2018-03-27 努比亚技术有限公司 一种信息处理方法、设备和计算机可读存储介质
CN115731294A (zh) 2018-05-07 2023-03-03 谷歌有限责任公司 通过面部表情操纵远程化身
US10795435B2 (en) * 2018-07-19 2020-10-06 Samsung Electronics Co., Ltd. System and method for hybrid eye tracker
US10841536B2 (en) * 2018-09-28 2020-11-17 Universal City Studios Llc Special effects communication techniques
CN110012257A (zh) * 2019-02-21 2019-07-12 百度在线网络技术(北京)有限公司 通话方法、装置及终端
US11218668B2 (en) * 2019-05-09 2022-01-04 Present Communications, Inc. Video conferencing method
US10958874B2 (en) * 2019-05-09 2021-03-23 Present Communications, Inc. Video conferencing method
JP7276968B2 (ja) * 2019-06-20 2023-05-18 Necソリューションイノベータ株式会社 3次元データ更新装置、顔向き推定装置、3次元データ更新方法およびプログラム
US10997766B1 (en) 2019-11-06 2021-05-04 XRSpace CO., LTD. Avatar motion generating method and head mounted display system
US11806162B2 (en) 2020-07-28 2023-11-07 Radix Motion Inc. Methods and systems for the use of 3D human movement data
EP4189594A1 (en) * 2020-07-28 2023-06-07 Radix Motion Inc. Methods and systems for communication and interaction using 3d human movement data
CN112818733B (zh) * 2020-08-24 2024-01-05 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质及终端
CN112190227B (zh) * 2020-10-14 2022-01-11 北京鹰瞳科技发展股份有限公司 眼底相机及其使用状态检测方法
WO2022106077A1 (en) * 2020-11-20 2022-05-27 Telefonaktiebolaget Lm Ericsson (Publ) Providing a 3d representation of a transmitting participant in a virtual meeting
US11995776B2 (en) 2021-01-19 2024-05-28 Samsung Electronics Co., Ltd. Extended reality interaction in synchronous virtual spaces using heterogeneous devices
TWI817335B (zh) * 2022-01-25 2023-10-01 宏碁股份有限公司 立體影像播放裝置及其立體影像產生方法
WO2024100028A1 (en) * 2022-11-08 2024-05-16 Nokia Technologies Oy Signalling for real-time 3d model generation

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5500671A (en) * 1994-10-25 1996-03-19 At&T Corp. Video conference system and method of providing parallax correction and a sense of presence
KR100459892B1 (ko) 2001-12-13 2004-12-03 삼성전자주식회사 3차원 얼굴 모델을 위한 텍스쳐 생성 방법 및 장치
GB2389498B (en) 2002-04-30 2005-06-29 Canon Kk Method and apparatus for generating models of individuals
JP2004199301A (ja) 2002-12-18 2004-07-15 Renesas Technology Corp 画像加工装置
AU2003304675A1 (en) 2003-12-04 2005-06-24 Telefonaktiebolaget Lm Ericsson (Publ) Video application node
CA2579903C (en) 2004-09-17 2012-03-13 Cyberextruder.Com, Inc. System, method, and apparatus for generating a three-dimensional representation from one or more two-dimensional images
US7609859B2 (en) * 2005-06-14 2009-10-27 Mitsubishi Electric Research Laboratories, Inc. Method and system for generating bi-linear models for faces
KR100912230B1 (ko) * 2005-09-16 2009-08-14 주식회사 인스프리트 대체 영상 통화 서비스 제공 방법 및 이를 위한 시스템
US20070104360A1 (en) 2005-11-09 2007-05-10 Smedia Technology Corporation System and method for capturing 3D face
FR2907298A1 (fr) 2006-10-13 2008-04-18 Michel Hospital Procede de transmission d'images d'un sujet,dispositif de transmission d'images pour la mise en oeuvre du procede,et dispositif de production d'images compatible.
KR20080050036A (ko) 2006-12-01 2008-06-05 삼성전자주식회사 백라이트 어셈블리 및 이를 갖는 표시장치
KR101409895B1 (ko) 2007-10-09 2014-06-20 엘지전자 주식회사 휴대 단말기 및 그 동작 제어방법
CN101291415B (zh) * 2008-05-30 2010-07-21 华为终端有限公司 一种三维视频通信的方法、装置及系统
US8204301B2 (en) * 2009-02-25 2012-06-19 Seiko Epson Corporation Iterative data reweighting for balanced model learning
CN101854368A (zh) * 2009-04-03 2010-10-06 吕伟伟 用于三维场景模型递进传输的方法和装置
JP5367814B2 (ja) * 2009-05-14 2013-12-11 パナソニック株式会社 映像データの伝送方法
US8369608B2 (en) * 2009-06-22 2013-02-05 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for detecting drowsy facial expressions of vehicle drivers under changing illumination conditions
US8570358B2 (en) 2009-11-06 2013-10-29 Sony Corporation Automated wireless three-dimensional (3D) video conferencing via a tunerless television device
US8315461B2 (en) 2010-01-25 2012-11-20 Apple Inc. Light source detection from synthesized objects
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US8692830B2 (en) 2010-06-01 2014-04-08 Apple Inc. Automatic avatar creation
US8818131B2 (en) 2010-08-20 2014-08-26 Adobe Systems Incorporated Methods and apparatus for facial feature replacement
KR101270780B1 (ko) * 2011-02-14 2013-06-07 김영대 가상 강의실 강의 방법 및 장치
EP2538388B1 (en) * 2011-06-20 2015-04-01 Alcatel Lucent Method and arrangement for image model construction
US8923392B2 (en) 2011-09-09 2014-12-30 Adobe Systems Incorporated Methods and apparatus for face fitting and editing applications
US8933928B2 (en) 2011-11-22 2015-01-13 Seiko Epson Corporation Multiview face content creation
US9398262B2 (en) 2011-12-29 2016-07-19 Intel Corporation Communication using avatar
US20130329985A1 (en) 2012-06-07 2013-12-12 Microsoft Corporation Generating a three-dimensional image
US20140253553A1 (en) * 2012-06-17 2014-09-11 Spaceview, Inc. Visualization of three-dimensional models of objects in two-dimensional environment
US20150002734A1 (en) * 2013-07-01 2015-01-01 Motorola Mobility Llc Electronic Device with Modulated Light Flash Operation for Rolling Shutter Image Sensor

Also Published As

Publication number Publication date
US9948887B2 (en) 2018-04-17
US20160205346A1 (en) 2016-07-14
US9325936B2 (en) 2016-04-26
CN104345801A (zh) 2015-02-11
KR20150018468A (ko) 2015-02-23
CN104345801B (zh) 2020-04-28
TWI650985B (zh) 2019-02-11
US20150042743A1 (en) 2015-02-12
TW201507413A (zh) 2015-02-16

Similar Documents

Publication Publication Date Title
KR102246355B1 (ko) 하이브리드 비쥬얼 커뮤니케이션
US9998705B2 (en) Hybrid visual communication
US11450051B2 (en) Personalized avatar real-time motion capture
WO2018153267A1 (zh) 群组视频会话的方法及网络设备
US11748931B2 (en) Body animation sharing and remixing
US20170359570A1 (en) Multi-View Interactive Digital Media Representation Lock Screen
WO2020192465A1 (zh) 一种三维对象重建方法和装置
US20150187138A1 (en) Visualization of physical characteristics in augmented reality
US11461942B2 (en) Generating and signaling transition between panoramic images
WO2022047463A1 (en) Cross-domain neural networks for synthesizing image with fake hair combined with real image
EP4272056A1 (en) Communication interface with haptic feedback response
US20220317773A1 (en) Real-time communication interface with haptic and audio feedback response
US20220319061A1 (en) Transmitting metadata via invisible light
US20220318303A1 (en) Transmitting metadata via inaudible frequencies
US20220319125A1 (en) User-aligned spatial volumes
CN111599012B (zh) 混合视觉通信
WO2022212144A1 (en) User-defined contextual spaces
JP7504968B2 (ja) アバター表示装置、アバター生成装置及びプログラム
US11429835B1 (en) Holodouble: systems and methods for low-bandwidth and high quality remote visual communication
US20240073402A1 (en) Multi-perspective augmented reality experience
US20220210551A1 (en) Selector input device to transmit audio signals
US20240143073A1 (en) Pausing device operation based on facial movement
US20220377309A1 (en) Hardware encoder for stereo stitching
WO2022245831A1 (en) Automatic media capture using biometric sensor data
WO2022245856A1 (en) Automatic media capture based on motion sensor data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right