KR101189043B1 - 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기 - Google Patents

영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기 Download PDF

Info

Publication number
KR101189043B1
KR101189043B1 KR1020110039491A KR20110039491A KR101189043B1 KR 101189043 B1 KR101189043 B1 KR 101189043B1 KR 1020110039491 A KR1020110039491 A KR 1020110039491A KR 20110039491 A KR20110039491 A KR 20110039491A KR 101189043 B1 KR101189043 B1 KR 101189043B1
Authority
KR
South Korea
Prior art keywords
video call
call service
service providing
image
user
Prior art date
Application number
KR1020110039491A
Other languages
English (en)
Inventor
강준규
Original Assignee
강준규
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강준규 filed Critical 강준규
Priority to KR1020110039491A priority Critical patent/KR101189043B1/ko
Application granted granted Critical
Publication of KR101189043B1 publication Critical patent/KR101189043B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2621Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 현실환경(Real Environment) 및 가상환경(Virtual Environment)의 혼합된 결과를 사용자에게 제공하는 증강현실(Augmented Reality)에 관한 것으로, 객체인지의 얼굴인지기술의 얼굴영역검출기술, 얼굴영역 정규화 기술, 얼굴영역 내 특징추출기술, 객체인지의 감정인지기술의 얼굴구성요소(표정분석)관계기술, 객체인지의 손동작인지, 객체인지의 동작과 행동인지기술 기반 위에 실사와 가상영상의 실시간 정합기술을 활용하여 영상통화를 하는 쌍방의 얼굴과 몸체 위에 제스처 및 표정분석을 통한 혼합된 가상의 오브젝트(문자포함)를 정합시켜 현실세계에서 볼 수 없는 다양한 혼합현실을 영상통화를 통해 구현할 수 있는 영상통화서비스 및 그 제공방법과 이를 위한 영상통화서비스 제공서버 및 제공단말기를 제공한다.

Description

영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기{Service and method for video call, server and terminal thereof}
본 발명은 현실환경(Real Environment) 및 가상환경(Virtual Environment)의 혼합된 결과를 사용자에게 제공하는 증강현실(Augmented Reality)에 관한 것으로, 특히 영상통화를 하는 쌍방의 얼굴과 몸체 위에 제스처 및 표정분석을 통한 혼합된 가상의 객체(문자 포함)를 정합시켜 다양한 혼합현실을 영상통화 화면 상에 구현할 수 있는 영상통화서비스 및 그 제공방법과 이를 위한 영상통화서비스 제공서버 및 제공단말기에 관한 것이다.
증강현실(Augmented Reality), 혹은 더 일반적으로 혼합현실(Mixed Reality) 환경이란 컴퓨터가 만들어낸 가상의 감각과 실제 감각이 혼합된 환경을 말한다. Milgram 등이 제시한 것처럼 혼합현실은 실제-가상 연속체(Reality-Virtuality continuum) 상에 위치할 수 있다(Milgram, P., Colquhoun Jr., H.: A taxonomy of real and virtual world display integration. In: Tamura, Y. (ed.) Mixed Reality, Merging Real and Virtual Worlds, pp. 1.16. Springer, Berlin (1999)). 이 연속체에서 한 환경이 실제 혹은 가상에 가까운지는 그 환경을 관리하기 위해 얼마나 많은 정보가 컴퓨터에 저장되어 있는가로 결정된다. 예를 들어, 비행기 조종석의 Head-up Display는 증강현실의 한 종류이고, 게임 속의 가상의 신체에 유명인의 얼굴의 실제 사진을 덧입히는 것은 증강가상(Augmented Virtuality) 의 한 종류로 볼 수 있다. 이외에도 이러한 시각 증강현실을 촉각에 적용한 햅틱현실(Haptic Reality), 햅틱가상(Haptic Virtuality) 등이 연구되고 있다.
증강현실은 가상현실의 한 분야로서 실제환경에 가상의 사물을 합성하여 원래의 환경에 존재하는 사물처럼 보이도록 하는 컴퓨터 그래픽 기법으로서, 증강현실은 가상의 공간과 가상의 사물만을 대상으로 하는 기존의 가상현실과 달리 현실세계의 기반에 가상의 사물을 합성하여 현실세계만으로는 얻기 어려운 부가적인 정보들을 보강해 제공할 수 있는 기술이다. 현재 증강현실 기술은 방송, 광고, 전시, 게임, 테마 파크, 군용, 교육 및 프로모션 등의 분야에서 다양한 형태로 사용되고 활발하게 개발되고 있는 상태이다.
즉, 증강현실은 실제세계와의 상호작용을 배제하고 오직 미리 구축해 놓은 가상공간 내에서의 상호작용을 처리하는 가상현실(Virtual Reality) 기술과 달리, 실시간 처리를 바탕으로 하여 미리 획득된 실제세계에 관한 정보가 단말기를 통해 입력되는 실제세계에 대한 영상에 겹쳐서 표시되어 실제세계와의 상호작용을 가능케 한다는 점에서 컴퓨터에 의해 생성된 영상만을 제공하는 가상현실과 구분된다.
이러한 증강현실 기술은 특히 통신 단말기에서 사용되는 모바일 증강현실 기술분야에서 각광받고 있는 추세로서, 현재 마커 기반의 모바일 증강현실 기술 또는 센서 기반의 모바일 증강현실 기술에 많은 연구와 투자가 이루어지고 있다. 마커 기반의 모바일 증강현실 기술은 특정 건물을 촬영할 때, 특정 건물과 대응되는 특정 기호를 같이 촬영한 후 특정 기호를 인식하여 해당하는 건물을 인식하는 기술이며, 센서 기반의 모바일 증강현실 기술은 단말기에 탑재된 GPS와 전자 나침반(Digital Compass) 등을 이용하여 단말기의 현재 위치와 바라보고 있는 방향을 유추하여 유추된 방향으로 영상에 해당하는 POI(Point of Interests) 정보를 오버레이(Overlay) 시켜주는 기술이다.
이러한 종래의 기술들은 서비스 제공자가 미리 지정해 놓은 건물이나 장소에 대한 정보만을 제공하는 것이 일반적이어서 사용자가 서비스 제공자에 의해 지정되지 않은 객체에 대한 적절한 정보를 제공해 주는 것이 불가능하고, 현재 위치와 단말기가 바라보고 있는 방향을 유추할 뿐 단말기를 통해 입력된 영상을 정확하게 인식하는 기술을 제공하지 못하고 있기 때문에, 현재 대부분의 연구가 획득한 영상 내에 존재하는 실제 물체를 정확하게 인식하고 해당 물체의 지역정보를 매핑하여 직관적이고 편리한 영상인식 기반의 증상현실을 제공하고자 하는 연구나, 단말기를 통해 입력되는 입력영상에 포함된 객체의 위치에 상기 객체의 상세정보에 접근 가능하도록 하기 위한 아이콘을 증강현실의 형태로 디스플레이하여 사용자가 편리하게 관심객체의 위치를 인지하고 해당 관심객체의 상세정보에 접근할 수 있도록 하는 등의 연구 등 제공하는 정보의 정확도와 양적인 확장에 연구가 국한되고 있다.
따라서 증강현실 기술의 개발에 편중되지 않고 증강현실 기술의 발전과 더불어 일상생활에서 통신 단말기를 사용하는데 있어서 증강현실 기술을 통해 사용자들에게 즐거움을 줄 수 있는 다양한 어플리케이션의 개발이 요망된다.
따라서 본 발명의 목적은 영상통화 시에 통화자 쌍방의 감정상태를 표현하는 가상의 객체를 통화영상과 함께 제공함으로써 영상통화에 재미를 선사할 수 있는 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기를 제공하는데 있다.
또한, 본 발명의 다른 목적은 통화자의 감정상태를 가상의 객체를 통해 통화자의 영상에 중첩시킴으로써, 통화자들의 영상통화에 더욱 현실감을 부여하는 증강현실을 경험할 수 있도록 하는 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기를 제공하는데 있다.
또한, 본 발명의 다른 목적은 통화자의 영상통화화면으로부터 통화자의 감정상태를 추출하고, 추출된 감정상태를 나타내는 가상의 객체를 통해 통화자의 영상에 중첩시킴으로써, 통화자들의 영상통화에 더욱 현실감을 부여하는 증강현실을 경험할 수 있도록 하는 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기를 제공하는데 있다.
상기와 같은 목적들을 달성하기 위한 본 발명에 따른 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기는 객체인지의 얼굴인지기술의 얼굴영역검출기술, 얼굴영역 정규화 기술, 얼굴영역 내 특징추출기술, 객체인지의 감정인지기술의 얼굴구성요소(표정분석)관계기술, 객체인지의 손동작인지, 객체인지의 동작과 행동인지기술 기반 위에 실사와 가상영상의 실시간 정합기술을 활용하여 영상통화를 하는 쌍방의 얼굴과 몸체 위에 제스처 및 표정분석을 통한 혼합된 가상의 오브젝트(문자포함)를 정합시켜 현실세계에서 볼 수 없는 다양한 혼합현실을 영상통화를 통해 구현하는 것을 특징으로 한다.
또한, 본 발명에 따른 영상통화 서비스는 본 발명은 얼굴과 몸체의 특정한 표정과 제스처의 표정분석 관계연산함수를 미리 등록하여, 표정과 제스처가 영상을 통해 전송되면, 출력되는 영상화면에서 표정과 제스처에 반응한 가상의 객체를 얼굴과 몸체 위에 실시간으로 정합시켜, 영상통화를 즐기도록 하는데 특징이 있다.
이때, 상기 제스처는 수화와 같은 단어와 어휘를 나타내는 동작이 될 수도 있고, 일반적으로 받아들여지는 감정의 표현을 위한 몸짓이나 손짓 등이 될 수 있다.
또한, 상기와 같은 목적들을 달성하기 위한 본 발명에 따른 영상통화 서비스는 촬상수단 및 디스플레이수단을 적어도 구비하는 영상통화서비스 제공단말기에 있어서, 상기 촬상수단 통해 촬영되는 사용자의 제스처 및 표정 중 적어도 어느 하나로부터 상기 사용자의 감정상태를 추출하고, 상기 추출된 감정상태에 대응하는 가상의 객체를 생성하여, 상기 사용자의 바디 및 얼굴 중 적어도 어느 하나 위에 중첩시켜, 상기 사용자와 영상통화 하는 상대방의 영상통화장치의 디스플레이수단에 표시하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 영상통화 서비스의 상기 가상의 객체는, 문자를 더 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 상기 영상통화 서비스의 상기 가상의 객체는, 상기 사용자에 의하여 변경 가능한 것을 특징으로 한다.
이때, 본 발명에 따른 상기 영상통화 서비스의 상기 가상의 객체는, 상기 감정상태에 대응하여 실시간으로 변화하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 영상통화 서비스의 상기 가상의 객체는, 상기 사용자의 바디 및 얼굴에 중첩된 위치가 변경되는 것을 특징으로 한다.
또한, 상기와 같은 목적들을 달성하기 위한 본 발명에 따른 영상통화서비스 제공방법은, 영상통화서비스 제공서버에서 영상통화서비스 제공단말기로부터 전송되는 영상정보를 수신하는 과정; 상기 영상통화서비스 제공서버가 상기 전송된 영상정보에 포함된 사용자의 제스처 및 표정 중 적어도 어느 하나로부터 상기 사용자의 감정상태를 추출하는 과정; 상기 영상통화서비스 제공서버가 기 저장된 객체 관련 정보로부터 상기 추출된 감정상태에 대응하는 객체를 색출하는 과정; 상기 색출된 객체를 상기 사용자의 바디 및 얼굴 중 적어도 어느 하나 위에 중첩시키는 과정; 및 상기 색출된 객체가 중첩된 영상을 상기 사용자와 영상통화 하는 상대방의 영상통화서비스 제공단말기에 전송하는 과정;을 포함하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 영상통화서비스 제공방법의 상기 가상의 객체는, 문자를 더 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 상기 영상통화서비스 제공방법의 상기 가상의 객체는, 상기 사용자에 의하여 변경 가능한 것을 특징으로 한다.
이때, 본 발명에 따른 상기 영상통화서비스 제공방법의 상기 가상의 객체는, 상기 감정상태에 대응하여 실시간으로 변화하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 영상통화서비스 제공방법의 상기 가상의 객체는, 상기 사용자의 바디 및 얼굴에 중첩된 위치가 변경되는 것을 특징으로 한다.
또한, 상기와 같은 목적들을 달성하기 위한 본 발명에 따른 영상통화서비스 제공서버는 영상통화서비스 제공단말기이기와 연동하는 서버 통신부; 및 상기 영상통화서비스 제공단말기로부터 수신된 영상정보로부터 사용자의 제스처 및 표정 중 적어도 어느 하나에서 상기 사용자의 감정상태를 인지하고, 상기 인지된 감정상태를 기 저장된 객체 관련 정보와 비교하여, 상기 인지된 감정상태와 매칭되는 객체를 추출하며, 상기 추출된 객체를 상기 사용자의 바디 및 얼굴 중 적어도 어느 하나 위에 중첩시켜, 상기 영상통화서비스 제공단말기이기와 통신하는 상대방 영상통화서비스 제공단말기이기로 전송하는 서버 제어부;를 포함하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 영상통화서비스 제공서버는 상기 감정상태와 대응하는 객체 관련 데이터를 저장하는 서버 저장부;를 더 포함하는 것을 특징으로 한다.
또한, 상기와 같은 목적들을 달성하기 위한 본 발명에 따른 영상통화서비스 제공단말기는, 영상통화에 따른 상대방의 영상 및 상기 영상에 중첩되는 객체를 표시하는 표시부; 영상통화서비스 제공서버와 연동하는 통신부; 영상통화에 따른 사용자의 영상정보를 획득하는 촬상부; 및 상기 촬상부에서 획득된 상기 영상정보로부터 상기 사용자의 감정상태를 인지하고, 인지된 감정상태와 관련된 감정정보를 추출하여 상기 영상통화서비스 제공서버로 전송하며, 상기 영상통화서비스 제공서버로부터 상기 영상통화에 따른 상대방의 감정정보에 대응하는 객체를 수신하여, 상기 영상통화에 따른 상대방의 영상에서 상기 수신된 객체와 연관되는 위치에 상기 수신된 객체를 중첩하여 상기 표시부에 출력하는 제어부;를 포함하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 영상통화서비스 제공단말기의 상기 표시부는, 상기 영상통화에 따른 사용자의 영상을 더 표시하는 것을 특징으로 한다.
또한, 본 발명에 따른 상기 영상통화서비스 제공단말기는 상기 객체를 적용할지 여부를 결정하는 키입력부;를 더 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 상기 영상통화서비스 제공단말기는 상기 객체를 저장하는 저장부;를 더 포함하는 것을 특징으로 한다.
상술한 바와 같이 본 발명은 현실세계에서 볼 수 없는 다양한 혼합현실을 영상통화를 통해 구현함으로써, 영상통화에 풍성한 볼거리를 제공할 수 있다.
특히, 본 발명은 영상통화 시에 통화자 쌍방의 감정상태를 표현하는 가상의 객체를 통화영상과 함께 제공함으로써 영상통화에 재미를 선사할 수 있는 효과가 있다.
또한, 본 발명은 통화자의 감정상태를 가상의 객체를 통해 통화자의 영상에 중첩시킴으로써, 통화자들의 영상통화에 더욱 현실감을 부여하는 증강현실을 경험할 수 있도록 하여 통화자들의 감정상태를 신선하게 전달할 수 있는 효과가 있다.
뿐만 아니라, 본 발명은 얼굴과 몸체의 특정한 표정과 제스처의 표정을 영상통화 화면을 통해 가상의 객체로 형상화함으로써, 사용자들에게 가상과 현실을 모두 경험할 수 있도록 하는 효과가 있다.
도 1은 본 발명의 일 실시예에 따라 증강현실을 제공하는 영상통화서비스 시스템의 개략적인 구성도,
도 2는 본 발명의 일 실시예에 따른 영상통화서비스 제공단말기의 내부 블록구성도,
도 3은 본 발명의 바람직한 실시예에 따른 영상통화서비스 제공서버의 내부 블록구성도,
도 4는 본 발명의 바람직한 실시예에 따른 영상통화서비스 제공방법을 나타낸 신호처리도,
도 5는 본 발명의 일 실시예에 따라 도 2의 단말기에서 수행되는 영상통화서비스 제공방법을 나타낸 제어흐름도,
도 6은 본 발명에 따른 영상통화서비스 제공방법의 개념도,
도 7a 및 도 7b는 본 발명의 일 실시예에 따른 영상통화서비스가 적용된 영상통화 화면을 나타낸 도면,
도 8a 및 도 8b는 본 발명의 일 실시예에 따른 영상통화서비스에 적용되는 다중카메라 네트워크 시공간 자동구성 기법의 처리절차를 도시한 도면,
도 9는 본 발명의 일 실시예에 따른 영상통화서비스에 적용되는 얼굴인지를 위한 얼굴영역검출기법에 대한 처리과정을 나타낸 도면,
도 10은 본 발명의 일 실시예에 따른 영상통화서비스에 적용되는 객체추출의 얼굴검출기술인 에이다부스트 알고리즘 적용화면을 나타낸 도면.
이하 본 발명의 바람직한 실시 예들의 상세한 설명이 첨부된 도면들을 참조하여 설명될 것이다. 도면들 중 동일한 구성들은 가능한 한 어느 곳에서든지 동일한 부호들을 나타내고 있음을 유의하여야 한다. 하기 설명에서 구체적인 특정 사항들이 나타나고 있는데, 이는 본 발명의 보다 전반적인 이해를 돕기 위해 제공된 것이다. 그리고 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따라 증강현실을 제공하는 영상통화서비스 시스템의 개략적인 구성도로서, 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 영상통화서비스 시스템은 영상통화서비스 제공단말기(100), 영상통화서비스 제공서버(200) 및 이들을 네트워크로 연결한 통신망(300)으로 구성될 수 있다.
먼저, 상기 통신망(300)은 유선 및 무선과 같은 통신 양태를 가리지 않고 구성될 수 있으며, 이동 통신망, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN: Wide Area Network), 인공 위성 통신망 등 다양한 형태로 구성될 수 있다. 보다 구체적으로, 본 발명에서 말하는 통신망(300)은 공지의 월드와이드웹(WWW: World Wide Web), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access) 또는 GSM(Global System for Mobile communications) 통신망 등을 모두 포함하는 개념인 것으로 이해되어야 한다.
다음으로, 상기 영상통화서비스 제공단말기(100)는 카메라 등의 촬영수단(내장하였거나 주변장치로 구비할 수 있는 경우를 포함하는 개념으로 이해되어야 한다)을 통하여 입력되는 입력영상에서 인지 및 추출한 사용자의 감정상태에 대응하는 객체 데이터를 추후 설명될 영상통화서비스 제공서버(200)로부터 제공받고, 상기 객체를 증강현실 기술을 통하여 영상통화 화면에 중첩하는 형태로 디스플레이하고, 사용자의 요청에 따라 상기 객체의 표시를 온/오프하거나 상기 객체의 위치나 움직임을 변경시키고, 형태를 변화시켜서 디스플레이하는 기능을 수행할 수 있다.
본 발명에서 말하는 영상통화서비스 제공단말기(100)는 통신망(300)에 접속한 후 통신할 수 있도록 하는 기능을 포함하는 디지털 기기를 의미하는 것으로서, 개인용 컴퓨터(예를 들어, 데스크탑 컴퓨터, 노트북 컴퓨터, 태블릿(tablet) 컴퓨터 등), 워크스테이션, PDA, 웹 패드, 스마트폰, 이동 전화기 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 영상통화서비스 제공단말기(200)로서 채택될 수 있다. 영상통화서비스 제공단말기(200)의 상세한 내부구성에 대해서는 후술하기로 한다.
상기 영상통화서비스 제공서버(200) 통신망(300)을 통하여 영상통화서비스 제공단말기(100) 및 다른 정보제공서버(미도시됨)와 통신함으로써 영상통화서비스 제공단말기(100)의 요청에 따라 다양한 유형의 정보를 제공하는 기능을 수행하는 기능을 수행할 수 있다. 보다 구체적으로, 영상통화서비스 제공서버(200)는 웹 컨텐츠 검색엔진(미도시됨)을 포함하여 영상통화서비스 제공단말기(100)의 요청에 대응되는 상세 정보를 검색하고 그 검색결과를 영상통화서비스 제공단말기(100)의 사용자가 브라우징할 수 있도록 제공할 수 있다. 예를 들어, 영상통화서비스 제공서버(200)는 인터넷 검색 포털 사이트의 운영서버일 수 있고, 영상통화서비스 제공서버(200)를 통하여 영상통화서비스 제공단말기(100)에 제공되는 정보는 쿼리 이미지에 매칭된 정보, 웹 사이트, 웹 문서, 지식, 블로그, 카페, 이미지, 동영상, 뉴스, 음악, 쇼핑, 지도, 책, 영화 등에 관한 다양한 정보일 수 있다. 물론, 필요에 따라 영상통화서비스 제공서버(200)의 정보검색엔진은 영상통화서비스 제공서버(200)가 아닌 다른 연산장치나 기록매체에 포함될 수도 있다. 영상통화서비스 제공서버(200)의 상세한 내부구성에 대해서도 후술하기로 한다.
이하에서는, 본 발명의 구현을 위하여 중요한 기능을 수행하는 영상통화서비스 제공단말기(100)의 내부 구성 및 각 구성요소의 기능에 대하여 살펴보기로 한다.
도 2는 본 발명의 일 실시예에 따른 영상통화서비스 제공단말기의 내부 블록구성도로서, 도 2를 참조하면, 본 발명의 일 실시예에 따른 영상통화서비스 제공단말기(100)는 제어부(110), 촬상부(120), 표시부(130), 통신부(140), 키입력부(150) 및 저장부(160)를 포함할 수 있다.
이때, 제어부(110), 촬상부(120), 표시부(130), 통신부(140), 키입력부(150) 및 저장부(160)는 그 중 적어도 일부가 영상통화서비스 제공단말기(100)와 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 영상통화서비스 제공단말기(100)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 영상통화서비스 제공단말기(100)와 통신 가능한 원격기억장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상데이터유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
먼저, 본 발명의 일 실시예에 따르면, 상기 표시부(130)는 영상통화에 따른 상대방의 영상 및 상기 영상에 중첩되는 객체를 표시하며, 상기 통신부(140)는 영상통화서비스 제공서버(200)와 연동하여 데이터 및 제어신호를 송수신한다. 이때, 상기 표시부(130)는 영상통화에 따른 사용자의 영상을 더 표시할 수도 있다. 상기 키입력부(150)는 사용자의 요청에 따라 직간접적으로 기 설정된 신호를 발생시키는 버튼이나 감지센서가 될 수 있으며, 특히 사용자의 선택에 따라 상기 영상에 중첩되는 객체를 영상통화 영상에 적용할지 여부를 결정하는 제어신호를 발생시킬 수 있다.
상기 촬상부(120)는 카메라 등의 촬영장치를 포함할 수 있으며 영상통화에 따른 사용자의 영상정보를 획득하고, 상기 제어부(110)는 상기 촬상부(120)에서 획득된 상기 영상정보로부터 상기 사용자의 감정상태를 인지하고, 인지된 감정상태와 관련된 감정정보를 추출하여 상기 영상통화서비스 제공서버(200)로 전송하며, 상기 영상통화서비스 제공서버(200)로부터 상기 영상통화에 따른 상대방의 감정정보에 대응하는 객체를 수신하여, 상기 영상통화에 따른 상대방의 영상에서 상기 수신된 객체와 연관되는 위치에 상기 수신된 객체를 중첩하여 상기 표시부(130)에 출력한다. 상기 저장부(160)는 상기 객체를 저장한다.
도 3은 본 발명의 바람직한 실시예에 따른 영상통화서비스 제공서버의 내부 블록구성도로서, 영상통화서비스 제공서버(200)는 서버 제어부(210), 서버 통신부(220) 및 서버 저장부(230)를 포함할 수 있다.
상기 서버 통신부(220)는 영상통화서비스 제공단말기(100)와 연동하여 데이터 및 제어신호를 송수신하고, 상기 서버 제어부(210)는 상기 영상통화서비스 제공단말기(100)로부터 수신된 영상정보로부터 사용자의 제스처 및 표정 중 적어도 어느 하나에서 상기 사용자의 감정상태를 인지하고, 상기 인지된 감정상태를 기 저장된 객체 관련 정보와 비교하여, 상기 인지된 감정상태와 매칭되는 객체를 추출하며, 상기 추출된 객체를 상기 사용자의 바디 및 얼굴 중 적어도 어느 하나 위에 중첩시켜, 상기 영상통화서비스 제공단말기(100)와 통신하는 상대방 영상통화서비스 제공단말기로 전송하며, 상기 서버 저장부(230)는 상기 감정상태와 대응하는 객체 관련 데이터를 저장한다. 이때, 상기 제스처는 수화와 같은 단어와 어휘를 나타내는 동작이 될 수도 있고, 일반적으로 받아들여지는 감정의 표현을 위한 몸짓이나 손짓 등이 될 수 있다.
도 4는 본 발명의 바람직한 실시예에 따른 영상통화서비스 제공방법을 나타낸 신호처리도로서, 도 4를 참조하면, 본 발명에 따른 영상통화서비스를 수행하는 두 단말인 제1단말기(100-1) 및 제2단말기(100-2)는 촬상부(120)를 통해 각각 영상을 촬영하고(401-1, 401-2), 이를 영상통화서비스 제공서버(200)에 전송한다. 이어, 영상통화서비스 제공서버(200)는 각각 수신한 촬영영상의 인물의 표정이나 제스처를 분석하고 기 준비된 표준형상모형을 참조하여, 영상(영상에 포함된 인물)의 감정상태를 인지한다(403). 이어, 영상통화서비스 제공서버(200)는 상기 403단계에서 인지된 감정상태와 대응하는 객체를 기 준비된 객체들로부터 검출하고(405), 이를 중첩할 영상통화화면의 위치를 검출하여(407), 영상통화화면에 상기 405단계에서 검출된 객체를 정합한다(409).
그리고, 영상통화서비스 제공서버(200)는 상기 409단계에서 정합된 영상을 각각 상대방의 단말기로 전송하며, 이를 수신한 제1단말기(100-1) 및 제2단말기(100-2)는 각각 이를 표시부(130)에 디스플레이한다.
전술한 도 4를 참조한 설명과 같이, 본 발명에 따른 증강현실을 제공하는 영상통화서비스 제공방법은 영상통화서비스 제공서버(200)에서 영상으로부터 감정상태를 인지하고, 객체를 추출하고, 정합할 위치를 검출하여 정합하는 일련의 상기 403단계 내지 409단계를 모두 수행할 수 있으며, 상기 403단계 내지 409단계 중 일부를 영상통화서비스 제공단말기(100)가 수행할 수도 있다.
한편, 도 5는 본 발명의 일 실시예에 따라 도 2의 단말기에서 수행되는 영상통화서비스 제공방법을 나타낸 제어흐름도로서 도 5를 참조하면, 상기 403단계 내지 409단계를 모두 영상통화서비스 제공단말기(100)가 수행할 수도 있다.
도 5에 도시된 바와 같이, 영상통화서비스 제공단말기(100)의 제어부(110)는 촬상부(120)를 제어하여 영상을 촬영하고(501), 촬영된 영상(자신을 촬영하고 있는 경우에는 자신의 영상, 영상통화를 수행하고 있는 경우에는 상대방의 단말기에서 촬영되어 전송된 영상)으로부터 인물의 감정상태를 인지한다(503). 이어, 인지된 감정상태에 대응하는 객체를 저장부(160)로부터 추출하고(505), 추출된 객체와 영상을 정합하여(507), 표시부(13)를 통하여 영상을 출력한다. 이때, 상기 저장부(160)에는 다양한 감정상태에 대응하는 각종 객체 데이터들이 기 저장되어 있을 수도 있고, 제공서버(200)를 비롯하여 관련 객체 데이터를 제공하는 서버들로부터 통신망(300)을 통하여 실시간 또는 미리 다운로드 받아 저장하여 사용할 수 있다.
도 6은 본 발명에 따른 영상통화서비스 제공방법의 개념도로서, 본 발명에 따른 영상통화서비스는 먼저, 해당 영상통화서비스 제공단말기(100-1)의 촬상부(120)에서 촬영되어 입력되는 영상 또는 통신부(140)를 통해 수신되는 상대방 영상통화서비스 제공단말기(100-2)로부터 전송된 영상을 입력받는 영상입력단계를 수행하고, 이어 인지모듈에서 객체추적의 사람추적(People Tracking), 객체추적의 카메라위상(Topology)인지, 객체인지의 얼굴인지(Face Recognition), 객체인지의 감정인지, 객체인지의 손동작인지, 객체인지의 동작과 행동인지 기법 등을 활용한 영상인지단계를 수행한다. 상기 영상인지단계에서 다양한 추적, 인지, 추출 및 검출 기법을 이용하여 찾아낸 감정상태는 표정과 제스처에 대한 표준형상모형DB 등과 감정상태를 여러 단계로 그 정도에 따라 구분한 각종 분석코드들을 의하여 분석된다. 상기 영상인지단계에서 사용되는 다양한 기법들에 대해서는 개별적으로 간략히 후술한다.
이어, 합성모형DB로부터 상기 영상인지단계에서 인지된 영상의 감정상태에 대응한 가상의 객체를 검출하는 객체검출단계가 수행된다. 상기 객체검출단계에서 검출된 객체는 영상과 실시간 정합과정(영상정합단계)을 통하여 해당 영상통화서비스 제공단말기(100-1, 2)의 표시부(130)에 각각 증강현실이 적용된 영상을 출력한다. 이에 따라, 본 발명은 현실세계에서 볼 수 없는 다양한 혼합현실을 영상통화를 통해 구현함으로써, 영상통화에 활력을 불어넣게 된다.
도 7a 및 도 7b는 본 발명의 일 실시예에 따른 영상통화서비스가 적용된 영상통화 화면을 나타낸 도면으로서, 본 발명에 따른 영상통화서비스는 자동인식 정합방식과 선택인식 정합방식을 모두 제공할 수 있다는 것을 나타내기 위한 것이다. 도 6a의 자동인식 정합방식은 촬영된 또는 수신된 영상으로부터 자동으로 표정 및 제스처를 인식하여 표시부(130)에 실시간으로 정합하는 방식이고, 도 6b의 선택인식 정합방식은 사용자가 키입력부(150) 등을 통해 표정 및 제스처를 수동으로 조작 또는 선택하여 실시간 정합을 하는 방식이다.
도 6, 도 7a 및 도 7b에 도시된 바와 같이, 본 발명에 따른 영상통화서비스는 영상통화 시에 통화자 쌍방의 감정상태를 표현하는 가상의 객체를 통화영상과 함께 제공함으로써 영상통화에 재미를 선사하게 되고, 통화자의 감정상태를 가상의 객체를 통해 통화자의 영상에 중첩시킴으로써, 통화자들의 영상통화에 더욱 현실감을 부여하는 증강현실을 경험할 수 있도록 하여 통화자들의 감정상태를 신선하게 전달할 수 있게 된다.
그러면, 이하에서 도 8a 내지 도 10을 참조하여, 본 발명에 따른 영상통화서비스 및 그 제공방법에서 적용 가능한 다양한 기법들에 대해서 설명한다.
먼저, 영상인지단계에서 수행되는 인지과정 중 하나인 사람추적(People Tracking)기법이 사용될 수 있다. 사람추적은 사람의 경우 움직임이 자유롭고 식별할 수 있는 뚜렷한 특성이 없고, 공공장소에서의 사람 추적 시 사람과 사람이 서로 겹치는 문제를 고려하여, 겹쳐진 물체인지(Occluded Object Recognition)를 수행한다. 객체간 겹침은 병합분리(merge-split)와 straight-through 방법을 활용하고, 겹침 객체의 인지는 등장, 퇴장, 연속, 병합, 분리 이벤트를 활용한다. 또한, 사람추적기법은 전술한 겹침 문제 해결 후 사람들의 위치를 좌표로 표현하여야 하므로, 위치추적을 수행한다. 객체의 크기는 카메라의 초점거리(focal length)와 같은 조정 정보를 이용하여 계산하고 실세계의 좌표로 위치를 표시한다.
한편, 사람추적기법은 다중카메라에 의해 수행될 수 있다. 중첩된 카메라의 경우 추적 알고리즘은 카메라 보정과 카메라들간의 추적된 객체들의 핸드오프의 계산이 필요하며, 이를 위해 많은 공통적인 FOV(Field Of View)를 공유하는 것이 필요하다. 객체탐지를 위한 가우시안모델을 이용하여 전경픽셀(Foreground pixel)과 배경(Background pixel)을 분리하고 분리된 전경픽셀을 토대로 동일 객체를 판단하여 카메라들 간의 링크를 찾고, 겹치지 않는 다중 카메라 구성에서 객체의 일치성을 점진적인 칼라의 유사성 학습과정을 토대로 검증한다.
CCCM을 이용해서 칼라의 유사성을 판단한 후 카메라 사이의 링크를 결정하며, 링크는 주어진 시간동안 객체의 등장과 재등장을 하기의 수학식 1의 조건부 전이 확률로 계산하여 결정한다.
Figure 112011031303668-pat00001
영상인지단계에서 수행되는 인지과정 중 하나는 카메라위상인지기법이다. 카메라위상인지는 전이시간(travel-transition)모델에 의하여 카메라의 위치를 노드로 표시하는 가시적 그래프 표현이 가능하고, 다중카메라 네트워크 시공간 자동구성 기법을 이용함으로써 일정 시간의 분석된 데이터를 이용하여 자율적으로 학습하는 방식을 사용하여 중첩 또는 비중첩 카메라에서 입력받은 영상으로부터 이미지간의 객체를 매칭하여 카메라간의 관계를 결정한다. 효과적 객체 추출 및 인식은 카메라와 움직이는 사람간의 거리에 따라 피부 영역을 그리드 기반의 추출 방법을 사용하여 개발한다. 도 8a 및 도 8b는 본 발명에 따른 영상통화서비스에 적용되는 다중카메라 네트워크 시공간 자동구성 기법에 있어서, 객체가 등장할 때 처리하는 순서와 객체가 퇴장할 때 처리하는 순서를 각각 나타낸 것이다. 다중카메라 네트워크 시공간 자동구성 기법은 당업자에게 자명한 것이므로, 이에 대한 구체적인 설명은 생략한다.
영상인지단계에서 수행되는 인지과정 중 또 하나는 얼굴인지기법으로서, 얼굴영역검출(Face Detection), 얼굴영역 정규화 및 얼굴영역 내 특징추출을 포함한다.
도 9는 본 발명의 일 실시예에 따른 영상통화서비스에 적용되는 얼굴인지를 위한 얼굴영역검출기법에 대한 처리과정을 나타낸 도면으로서, 도 9를 참조하면 얼굴영역검출기법은 (a)에서 얼굴영역을 검출하고, (b)에서 스킨(적색영역)컬러를 감지하며, (c)에서 팽창연산을 수행하여, (d)에서 라벨링(labeling)한다.
이를 더욱 상세히 설명하면, (a)단계는 전체 이미지로부터 얼굴영역을 검출하고 눈, 코, 입 영역을 찾는 Face Detection 알고리즘을 이용하여 전체 이미지로부터 얼굴영역만 검출(초기 입력이미지)하고, (b)단계는 skin color 영역 검출 및 이를 라벨링하기 위해 바이너리 이미지(binary image)로 전환(경험적 방법 활용)한 후, 팽창연산(Binary morpological Dilation)을 통해 노이즈 제거하고, 라벨링을 통한 각 영역의 중심점을 찾고 눈의 영역 구현한다.
이어, 얼굴영역검출기법의 두 번째로 얼굴영역 정규화는 고개의 기울기, 얼굴 정면 각도, 표정 등과 같은 얼굴의 다양한 변화로 인한 얼굴검출이 어려워 다른 변화가 없거나 특별한 경우에만 적용이 가능하며, 지식기반방법(knowledge-based methods)다양한 변화에 대한 규칙을 확장 또는 정규화 함으로써 해결한다.
마지막으로, 얼굴영역검출기법의 세 번째로 얼굴영역 내 특징 추출은 초기값을 설정해주면 자동으로 임의의 물체의 윤곽을 찾아내주는 Snake 모델(active contour model) 알고리즘을 이용한다. 스네이크 모델은 영상에서 특정 영역을 분할하려 할 때 많이 이용되는 기법으로서, 본 발명에서는 칼라 영상에서 얼굴과 얼굴의 특징점을 찾는 방법으로 이 알고리즘을 적용할 수 있다. 스네이크 모델은 전역적으로 정의된 cost를 최적화하는 방향으로 윤곽(contour)을 능동적으로 추출한다.
또한, 영상인지단계에서 수행되는 인지과정에서는 얼굴구성요소(표정분석)관계를 통하여 눈, 입 등의 형태와 서로간의 관계를 통해 표정을 인식할 수 있는 표정분석 관계연산함수를 사용함으로써, 웃음, 미소, 울음, 찡그림, 놀람 등 얼굴의 표정인식이 가능하며, 이를 통한 행복, 슬픔 등의 감정 추론이 가능하여, 최종적으로 감정인지 결과를 얻을 수 있다.
또한, 영상인지과정에서 수행되는 인지과정에서는 손동작인지, 즉 제스처 인식기법이 적용될 수 있다. 제스처 인식은 인식된 포즈 영상들로부터 제스처를 인식하며, 제스처 인식을 위해 HMM사용한다. HMM은 시간적으로 제약을 받는 정보의 구조를 모델링 하는데 뛰어나다. 상태전이매개변수는 순차적인 일련의 사건 발생을 모델링하고, 관측심볼확률분포는 각 사건의 특징을 유한개의 심볼로 대응하는데, 이러한 두 가지 확률과정의 결합으로 이루어진 HMM은 학습데이터를 이용해 적절한 제스처 모델을 구성한다.
인지과정에서는 인지하고자 하는 제스처와 학습이 끝난 후 생성된 HMM의 제스처모델을 비교하고 가장 유사한 제스처모델을 선택하여 결과값을 확률로 나타낸다. 학습은 각 제스처 별로 이루어지고, 해당 제스처의 HMM모델의 학습결과를 적용한다. HMM의 학습 과정은 각 숫자 별로 손동작을 이용하여 은닉 마르코프 모델을 구성하는 과정으로, EM알고리즘의 하나인 Baum-Welch 알고리즘을 이용한다. 이러한 각각의 숫자 모델에 전향 알고리즘을 적용하여 가장 높은 확률을 보이는 숫자 모델을 최종 인식 결과로 출력한다.
영상인지과정에서 수행되는 인지과정에서 적용될 수 있는 또 하나의 기법은 동작과 행동인지 기법으로서, 모션 히스토리(Motion History) 및 SVM(Support Vector Machines)기법이 사용된다. 동작은 지역적으로 이동하거나 위치가 연속적으로 변화하는 과정이며, 행동은 여러 가지 요인에 의해 발생하거나 이미 이루어진 상황이므로, 동작은 위치변화를 뜻하며 행동은 발생적인 상황측면을 뜻한다. 따라서 동작은 단시간의 모션 히스토리를 인코딩하여 움직임의 형태를 알 수 있고, 필터링된 이미지 분류기는 SVM(Support Vector Machines)을 이용하여 구축한다.
다음으로, 영상인지과정에서 수행되는 검출과정에 적용될 수 있는 검출기법으로서, 객체의 화소, 블랍 및 레벨을 검출하는 것이다. 이 검출기법은 배경의 정보를 학습한 배경모델이 구성되면 배경으로부터 전경객체를 추출하기 위하여 우선 화소 레벨에서 전경화소와 배경화소를 검출하는 단계를 수행하고, 인접 전경화소들을 연결하여 의미있는 블랍을 검출하는 과정을 거친 후, 추출된 블랍 중 관심 객체를 구분할 수 있는 블랍을 관심객체로 정의하는 객체레벨 검출단계를 수행한다. 이때, 상기 화소레벨 검출은 균일분포 배경 모델에 의한 배경차감은 전처리 과정에서 HSI컬러공간에서의 배경모델영상을 획득하기 위해 일정시간의 훈련과정을 거쳐 배경영역의 컬러값에 대한 균일 배경모델을 만들고, 블랍레벨검출은 격자이미지기법을 사용하여 낮은 해상도로 레이블링하더라도 노이즈 픽셀 등의 예기치 않은 인위적 결함이 있을 경우에도 좋은 성능을 발휘한다.
상기 객체레벨검출은 블랍레벨검출에서 추출한 블랍의 집합에서 관심객체인 얼굴과 손 영역을 검출하기 위하여 에이다부스트 알고리즘을 적용할 수 있다. 하기의 수학식 2에 에이다부스트 알고리즘을 나타내었으며, 도 10에 객체추출의 얼굴검출기술인 에이다부스트 알고리즘 적용화면을 나타내었다.
Figure 112011031303668-pat00002
상기 객체추출의 얼굴검출은 지식기반방법, 특징기반방법, 외형기반방법 등을 사용한다. 지식기반방법은 사람의 두 개의 눈, 한 개의 코, 입으로 구성되어 있고 각 요소들은 기하학적 위치 관계로 구성됨을 전제로 하여 얼굴을 검출하는 방법으로서, 이미지내의 히스토그램을 이용하는 방법을 활용한다(가로축의 히스토그램을 이용하여 눈, 코, 입의 위치 정보를 찾음).
상기 특징기반방법은 얼굴 요소, 색깔, 모양, 크기가 같은 얼굴 고유의 특징을 이용해서 얼굴 크기 및 위치를 추론하여 얼굴 영역을 검출하고, 얼굴 요소의 거리나 위치 등을 통해 얼굴 인지 아닌지를 판단하는 방법으로서, 이목구비, 텍스쳐, 피부색, 임계값, 복합특징을 이용하는 방법 등이 활용될 수 있다.
상기 외형기반 방법은 학습 영상 집합에 의해 학습된 모델을 이용해서 얼굴을 검출하는 방법으로서, 얼굴과 비얼굴의 훈련 이미지 집합을 만들어 학습시킨 후 검출한다.
다음으로, 실시간 정합과정은 실사와 가상의 영상을 실시간으로 정합하는 과정으로서, 해당 오브젝트를 호출시키는 명령키가 입력되면, 콘텐츠수행기에서 관련 오브젝트를 호출하여 렌더링처리기를 통해 영상으로 출력한다.
카메라는 렌즈나 종류에 따라 초점, 거리, 일그러짐 등 특성이 달라지므로, 이러한 카메라의 특성 값을 찾아내는 프로세스를 진행한 후 camera matrix를 얻어낼 수 있다. 이에 따라, 입력받은 영상과 camera matrix데이터를 통해 몸체의 3차원 위치상태를 구하는 계산을 하게 되며, 이렇게 얻어진 3차원 위치상태 값은 단순히 가상의 객체를 이동하고 회전하는데만 사용하는 것이 아니라 camera matrix데이터를 이용하여 2차원 평면 디스플레이에 정확하게 그려내는데 이를 정합이라 한다.
콘텐츠 수행기를 통해 표정과 제스처의 감성을 표현할 2, 3차원 오브젝트를 사전에 미리 생성, 저장하고, 렌더링처리기를 통해 3D렌더링 처리를 수행한다. 3차원 컴퓨터 그래픽스 툴을 이용하여 3차원 모델을 만들고 이것을 영화영상 등에 이용하기 위해서 2차원적 그림으로 변화시키는 과정을 렌더링이라고 한다. 즉, 장면을 이미지로 전환하는 과정이라 할 수 있으며, 실시간 정합에 빠른 처리속도를 필요로 하는 렌더링 처리가 필수적이다.
전술한 실시간 정합과정에 의해 정합된 실사와 가상의 영상은 실시간으로 접합되어 해당 디바이스의 영상 디스플레이에 출력된다. 이때, 디스플레이 될 또는 디스플레이된 영상은 해당 과정에서 저장될 수 있다. 영상저장의 일례로 H.264/AVC 등을 들 수 있다.
H.264 코덱은 국제 표준화 기구인 ITU-T와 ISO에서 공동으로 제안한 비디오 압축 기술로서 ITU-T에서 붙인 H.264라는 명칭 이외에 ISO에서 붙인 MPEG art10/ AVC 라는 명칭을 사용한다. H.264 코덱은 Floating point연산방식이 아닌 정수 연산만으로 가능해져 연산오차가 적고, 8*8블록 단위로 계산하는 MPEG-4와 달리 4*4블록 단위로 계산하므로 보다 정밀한 비교가 가능하며, 필요에 따라 16*16, 16*8, 8*16, 8*4, 4*8 등 다양한 블록크기로 적용이 가능하다.
H.264 코덱은 기존과 달리 DCT변환과정 이전에 중복성을 제거함으로써 프로세서 효율개선되고, 루프필터 방식을 적용하여 낮은 비트율에서 발생하던 격자 무늬해소 및 디코더와 엔코더가 모두 이 기능을 수행함으로써 영상을 제작했을 때의 화질과 복원 후 화질에 차이가 없으며, 바로 앞 프레임의 차이점만 이용하던 종래기술과 달리 더 이전에 나왔던 프레임과도 비교함으로써 반복된 영상에서 우수한 성능을 보인다.
또한, H.264 코덱은 다른 코덱에 비해 에러에 대한 내성이 강하고, 우수한 압축 성능으로 인해 H.264는 모바일서비스와 같은 높은 DATA압축율을 요구하는 환경에서도 최적의 서비스를 지원할 수 있어, 현재 블루레이, DVD를 사용하는 다양한 디바이스에서 H.264를 채택하고 있다.
전술한 바와 같이, 본 발명에 따른 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기는 객체인지의 얼굴인지기술의 얼굴영역검출기술, 얼굴영역 정규화 기술, 얼굴영역 내 특징추출기술, 객체인지의 감정인지기술의 얼굴구성요소(표정분석)관계기술, 객체인지의 손동작인지, 객체인지의 동작과 행동인지기술 기반 위에 실사와 가상영상의 실시간 정합기술을 활용하여 영상통화를 하는 쌍방의 얼굴과 몸체 위에 제스처 및 표정분석을 통한 혼합된 가상의 오브젝트(문자포함)를 정합시켜 현실세계에서 볼 수 없는 다양한 혼합현실을 영상통화를 통해 구현한다.
또한, 본 발명에 따른 본 발명에 따른 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기는 얼굴과 몸체의 특정한 표정과 제스처의 표정분석 관계연산함수를 미리 등록하여, 표정과 제스처가 영상을 통해 전송되면, 출력되는 영상화면에서 표정과 제스처에 반응한 가상의 객체를 얼굴과 몸체 위에 실시간으로 정합시켜, 사용자의 영상통화에 놀라운 즐거움을 준다.
한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐 아니라 이 특허청구의 범위와 균등한 것들에 의해서 정해져야 한다.

Claims (16)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 촬상수단 및 디스플레이수단을 적어도 구비하는 영상통화서비스 제공단말기를 이용한 영상통화서비스 제공방법에 있어서,
    영상통화서비스 제공서버에서 상기 영상통화서비스 제공단말기로부터 전송되는 영상정보를 수신하는 과정;
    상기 영상통화서비스 제공서버가 상기 전송된 영상정보에 포함된 사용자의 제스처 및 표정 중 적어도 어느 하나로부터 상기 사용자의 감정상태를 추출하는 과정;
    상기 영상통화서비스 제공서버가 기 저장된 객체 관련 정보로부터 상기 추출된 감정상태에 대응하는 객체를 색출하는 과정;
    상기 색출된 객체를 상기 감정상태가 추출된 상기 사용자의 바디 및 얼굴 위에 중첩시키는 과정; 및
    상기 색출된 객체가 중첩된 영상을 상기 사용자와 영상통화하는 상대방의 영상통화서비스 제공단말기에 전송하는 과정;을 포함하는 영상통화서비스 제공방법.
  7. 제 6항에 있어서, 상기 색출된 객체는,
    문자를 더 포함하는 것을 특징으로 하는 영상통화서비스 제공방법.
  8. 제 6항에 있어서, 상기 색출된 객체는,
    상기 사용자에 의하여 변경 가능한 것을 특징으로 하는 영상통화서비스 제공방법.
  9. 삭제
  10. 제 6항에 있어서, 상기 색출된 객체는,
    상기 사용자의 바디 및 얼굴에 중첩된 위치가 변경되는 것을 특징으로 하는 영상통화서비스 제공방법.
  11. 촬상수단 및 디스플레이수단을 적어도 구비하는 영상통화서비스 제공단말기와 연동하는 서버 통신부;
    상기 영상통화서비스 제공단말기로부터 수신된 영상정보로부터 사용자의 제스처 및 표정 중 적어도 어느 하나에서 상기 사용자의 감정상태를 인지하고, 상기 인지된 감정상태를 기 저장된 객체 관련 정보와 비교하여, 상기 인지된 감정상태와 매칭되는 객체를 추출하며, 상기 추출된 객체를 상기 감정상태가 추출된 상기 사용자의 바디 및 얼굴 위에 중첩시켜, 상기 서버 통신부를 통하여 상기 영상통화서비스 제공단말기와 통신하는 상대방 영상통화서비스 제공단말기로 전송하는 서버 제어부; 및
    상기 감정상태와 다응하는 객체 관련 데이터를 저장하는 서버 저장부;를 포함하는 영상통화서비스 제공서버.
  12. 삭제
  13. 영상통화에 따른 사용자 및 상대방의 영상 및 상기 영상에 중첩되는 객체를 표시하는 표시부;
    영상통화서비스 제공서버와 연동하는 통신부;
    영상통화에 따른 상기 사용자의 영상정보를 획득하는 촬상부;
    상기 촬상부에서 획득된 상기 영상정보로부터 상기 사용자의 감정상태를 인지하고, 인지된 감정상태와 관련된 감정정보를 추출하여 상기 영상통화서비스 제공서버로 전송하며, 상기 영상통화서비스 제공서버로부터 상기 영상통화에 따른 상대방의 감정정보에 대응하는 객체를 수신하여, 상기 영상통화에 따른 상대방의 영상을 추적하여 상기 수신된 객체와 연관되는 위치에 상기 수신된 객체를 중첩하여 상기 표시부에 출력하는 제어부;
    상기 객체를 적용할지 여부를 결정하는 상기 사용자의 명령을 입력받는 키입력부; 및
    상기 객체를 저장하는 저장부;를 포함하는 영상통화서비스 제공단말기.
  14. 삭제
  15. 삭제
  16. 삭제
KR1020110039491A 2011-04-27 2011-04-27 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기 KR101189043B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110039491A KR101189043B1 (ko) 2011-04-27 2011-04-27 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110039491A KR101189043B1 (ko) 2011-04-27 2011-04-27 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기

Publications (1)

Publication Number Publication Date
KR101189043B1 true KR101189043B1 (ko) 2012-10-08

Family

ID=47287633

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110039491A KR101189043B1 (ko) 2011-04-27 2011-04-27 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기

Country Status (1)

Country Link
KR (1) KR101189043B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101877850B1 (ko) * 2017-07-21 2018-07-13 김홍수 블록체인을 이용한 옐로우 페이지 기반 통화 서비스 제공 방법
CN108305317A (zh) * 2017-08-04 2018-07-20 腾讯科技(深圳)有限公司 一种图像处理方法、装置及存储介质
CN109558812A (zh) * 2018-11-13 2019-04-02 广州铁路职业技术学院(广州铁路机械学校) 人脸图像的提取方法和装置、实训系统和存储介质
CN112243583A (zh) * 2018-03-19 2021-01-19 微软技术许可有限责任公司 多端点混合现实会议

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100628756B1 (ko) 2004-09-07 2006-09-29 엘지전자 주식회사 이동단말기로 화상 통화시의 이펙트 화면 제공 장치 및방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100628756B1 (ko) 2004-09-07 2006-09-29 엘지전자 주식회사 이동단말기로 화상 통화시의 이펙트 화면 제공 장치 및방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101877850B1 (ko) * 2017-07-21 2018-07-13 김홍수 블록체인을 이용한 옐로우 페이지 기반 통화 서비스 제공 방법
CN108305317A (zh) * 2017-08-04 2018-07-20 腾讯科技(深圳)有限公司 一种图像处理方法、装置及存储介质
US11182615B2 (en) 2017-08-04 2021-11-23 Tencent Technology (Shenzhen) Company Limited Method and apparatus, and storage medium for image data processing on real object and virtual object
CN112243583A (zh) * 2018-03-19 2021-01-19 微软技术许可有限责任公司 多端点混合现实会议
CN112243583B (zh) * 2018-03-19 2023-07-07 微软技术许可有限责任公司 多端点混合现实会议
CN109558812A (zh) * 2018-11-13 2019-04-02 广州铁路职业技术学院(广州铁路机械学校) 人脸图像的提取方法和装置、实训系统和存储介质

Similar Documents

Publication Publication Date Title
TWI708152B (zh) 圖像處理方法、裝置及儲存介質
US11809998B2 (en) Maintaining fixed sizes for target objects in frames
CN106462242B (zh) 使用视线跟踪的用户界面控制
KR20120120858A (ko) 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기
CN108388882B (zh) 基于全局-局部rgb-d多模态的手势识别方法
CN116897375B (zh) 扩展现实环境中的图像捕获
CN110853073A (zh) 确定关注点的方法、装置、设备、系统及信息处理方法
CN106896925A (zh) 一种虚拟现实与真实场景融合的装置
CN106997618A (zh) 一种虚拟现实与真实场景融合的方法
CN114003190B (zh) 一种适应多场景和多设备的增强现实方法和装置
WO2024001095A1 (zh) 面部表情识别方法、终端设备及存储介质
US20230020454A1 (en) Mixed reality (mr) providing device for providing immersive mr, and control method thereof
WO2023168957A1 (zh) 姿态确定方法、装置、电子设备、存储介质及程序
KR20160049191A (ko) 헤드 마운티드 디스플레이 디바이스의 제공방법
CN111488774A (zh) 一种图像处理方法、装置和用于图像处理的装置
KR101189043B1 (ko) 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기
JP2023539865A (ja) リアルタイムなクロススペクトルオブジェクトの関連付け及び深度推定
CN114998935A (zh) 图像处理方法、装置、计算机设备及存储介质
CN111489284B (zh) 一种图像处理方法、装置和用于图像处理的装置
Liao et al. RETRACTED ARTICLE: Computer vision for facial analysis using human–computer interaction models
CN117981338A (zh) 用于底片快门滞后捕获的低功率融合
Moreira et al. Eyes and eyebrows detection for performance driven animation
Jain et al. [POSTER] AirGestAR: Leveraging Deep Learning for Complex Hand Gestural Interaction with Frugal AR Devices
CN117041670B (zh) 图像处理方法及相关设备
Brito et al. Recycling a landmark dataset for real-time facial capture and animation with low cost HMD integrated cameras

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150708

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160826

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170925

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180917

Year of fee payment: 7