KR20160049191A - 헤드 마운티드 디스플레이 디바이스의 제공방법 - Google Patents

헤드 마운티드 디스플레이 디바이스의 제공방법 Download PDF

Info

Publication number
KR20160049191A
KR20160049191A KR1020140145631A KR20140145631A KR20160049191A KR 20160049191 A KR20160049191 A KR 20160049191A KR 1020140145631 A KR1020140145631 A KR 1020140145631A KR 20140145631 A KR20140145631 A KR 20140145631A KR 20160049191 A KR20160049191 A KR 20160049191A
Authority
KR
South Korea
Prior art keywords
head
display device
mounted display
image
recognition
Prior art date
Application number
KR1020140145631A
Other languages
English (en)
Inventor
조민권
Original Assignee
조민권
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조민권 filed Critical 조민권
Priority to KR1020140145631A priority Critical patent/KR20160049191A/ko
Publication of KR20160049191A publication Critical patent/KR20160049191A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3245Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document of image modifying data, e.g. handwritten addenda, highlights or augmented reality information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 현실환경(Real Environment) 및 가상환경(Virtual Environment)의 혼합된 결과를 사용자에게 제공하는 증강현실(Augmented Reality)에 관한 것으로, 음성인식, 객체인지의 얼굴인지기술의 얼굴영역검출기술, 얼굴영역 정규화 기술, 얼굴영역 내 특징추출기술, 객체인지의 감정인지기술의 얼굴구성요소(표정분석)관계기술, 객체인지의 손동작인지, 객체인지의 동작과 행동인지기술 기반 위에 실사와 가상영상의 실시간 정합기술을 활용하여 촬상수단에 촬영되는 상대방의 얼굴과 몸체 위에 제스처 및 표정분석을 통한 혼합된 가상의 오브젝트(문자포함)를 정합시켜 현실세계에서 볼 수 없는 다양한 혼합현실을 헤드 마운티드 디스플레이 디바이스로 제공한다.

Description

헤드 마운티드 디스플레이 디바이스의 제공방법{Wearable device}
본 출원은 2014년 9월 19일자로 공개된 공개번호(KR) 10-2014-0111693 등의 헤드 마운티드 디스플레이 디바이스 활용방법에 대한 것이다.
증강현실(Augmented Reality), 혹은 더 일반적으로 혼합현실(Mixed Reality) 환경이란 컴퓨터가 만들어낸 가상의 감각과 실제 감각이 혼합된 환경을 말한다. Milgram 등이 제시한 것처럼 혼합현실은 실제-가상 연속체(Reality-Virtuality continuum) 상에 위치할 수 있다(Milgram, P., Colquhoun Jr., H.: A taxonomy of real and virtual world display integration. In: Tamura, Y. (ed.) Mixed Reality, Merging Real and Virtual Worlds, pp. 1.16. Springer, Berlin (1999)). 이 연속체에서 한 환경이 실제 혹은 가상에 가까운지는 그 환경을 관리하기 위해 얼마나 많은 정보가 컴퓨터에 저장되어 있는가로 결정된다. 예를 들어, 비행기 조종석의 Head-up Display는 증강현실의 한 종류이고, 게임 속의 가상의 신체에 유명인의 얼굴의 실제 사진을 덧입히는 것은 증강가상(Augmented Virtuality) 의 한 종류로 볼 수 있다. 이외에도 이러한 시각 증강현실을 촉각에 적용한 햅틱현실(Haptic Reality), 햅틱가상(Haptic Virtuality) 등이 연구되고 있다.
증강현실은 가상현실의 한 분야로서 실제환경에 가상의 사물을 합성하여 원래의 환경에 존재하는 사물처럼 보이도록 하는 컴퓨터 그래픽 기법으로서, 증강현실은 가상의 공간과 가상의 사물만을 대상으로 하는 기존의 가상현실과 달리 현실세계의 기반에 가상의 사물을 합성하여 현실세계만으로는 얻기 어려운 부가적인 정보들을 보강해 제공할 수 있는 기술이다. 현재 증강현실 기술은 방송, 광고, 전시, 게임, 테마 파크, 군용, 교육 및 프로모션 등의 분야에서 다양한 형태로 사용되고 활발하게 개발되고 있는 상태이다.
즉, 증강현실은 실제세계와의 상호작용을 배제하고 오직 미리 구축해 놓은 가상공간 내에서의 상호작용을 처리하는 가상현실(Virtual Reality) 기술과 달리, 실시간 처리를 바탕으로 하여 미리 획득된 실제세계에 관한 정보가 단말기를 통해 입력되는 실제세계에 대한 영상에 겹쳐서 표시되어 실제세계와의 상호작용을 가능케 한다는점에서 컴퓨터에 의해 생성된 영상만을 제공하는 가상현실과 구분된다.
이러한 증강현실 기술은 특히 통신 단말기에서 사용되는 모바일 증강현실 기술분야에서 각광받고 있는 추세로서, 현재 마커 기반의 모바일 증강현실 기술 또는 센서 기반의 모바일 증강현실 기술에 많은 연구와 투자가 이루어지고 있다. 마커 기반의 모바일 증강현실 기술은 특정 건물을 촬영할 때, 특정 건물과 대응되는 특정기호를 같이 촬영한 후 특정 기호를 인식하여 해당하는 건물을 인식하는 기술이며, 센서 기반의 모바일 증강현실 기술은 단말기에 탑재된 GPS와 전자 나침반(Digital Compass) 등을 이용하여 단말기의 현재 위치와 바라보고 있는 방향을 유추하여 유추된 방향으로 영상에 해당하는 POI(Point of Interests) 정보를 오버레이(Overlay) 시켜주는 기술이다.
이러한 종래의 기술들은 서비스 제공자가 미리 지정해 놓은 건물이나 장소에 대한 정보만을 제공하는 것이 일반적이어서 사용자가 서비스 제공자에 의해 지정되지 않은 객체에 대한 적절한 정보를 제공해 주는 것이 불가능하고, 현재 위치와 단말기가 바라보고 있는 방향을 유추할 뿐 단말기를 통해 입력된 영상을 정확하게 인식하는 기술을 제공하지 못하고 있기 때문에, 현재 대부분의 연구가 획득한 영상 내에 존재하는 실제 물체를 정확하게 인 식하고 해당 물체의 지역정보를 매핑하여 직관적이고 편리한 영상인식 기반의 증상현실을 제공하고자 하는 연구나, 단말기를 통해 입력되는 입력영상에 포함된 객체의 위치에 상기 객체의 상세정보에 접근 가능하도록 하기 위한 아이콘을 증강현실의 형태로 디스플레이하여 사용자가 편리하게 관심객체의 위치를 인지하고 해당 관심객체의 상세정보에 접근할 수 있도록 하는 등의 연구 등 제공하는 정보의 정확도와 양적인 확장에 연구가 국한되고 있다.
따라서 증강현실 기술의 개발에 편중되지 않고 증강현실 기술의 발전과 더불어 일상생활에서 통신 단말기를 사용하는데 있어서 증강현실 기술을 통해 사용자들에게 즐거움을 줄 수 있는 다양한 어플리케이션의 개발이 요망된다.
공개번호(KR) 10-2014-0111693
본 발명의 목적은 헤드 마운티드 디바이스의 촬상부에서 촬영되는 상대방(이하 상대방)의 감정상태를 가상의 객체를 통해 상대방의 영상에 중첩시킴으로써, 사용자가 상대방의 감정, 심리를 객관적으로 판단할 수 있도록 하는 헤드 마운티드 디스플레이 디바이스를 제공하는데 있다.
상기와 같은 목적들을 달성하기 위한 본 발명에 따른 헤드 마운티드 디스플레이 디바이스의 제공방법은 음성인식, 객체인지의 얼굴인지기술의 얼굴영역검출기술, 얼굴영역 정규화 기술, 얼굴영역 내 특징추출기술, 객체인지의 감정인지기술의 얼굴구성요소(표정분석)관계기술, 객체인지의 손동작인지, 객체인지의 동작과 행동인지기술 기반 위에 실사와 가상영상의 실시간 정합기술을 활용하여 헤드 마운티드 디바이스의 촬상부에서 촬영되는 상대방(이하 상대방)의 얼굴과 몸체 위에 제스처 및 표정분석을 통한 혼합된 가상의 오브젝트(문자포함)를 정합시켜 현실세계에서 볼 수 없는 다양한 혼합현실을 헤드 마운티드 디스플레이 디바이스를 통해 구현하는 것을 특징으로 한다.
또한, 본 발명에 따른 헤드 마운티드 디스플레이 디바이스는 음성, 얼굴과 몸체의 특정한 표정과 제스처의 표정분석 관계연산함수를 미리 등록하여, 유사한 음성, 표정과 제스처가 영상을 통해 전송되면, 출력되는 영상화면에서 음성, 표정과 제스처에 반응한 가상의 객체를 얼굴과 몸체 위에 실시간으로 정합데 특징이 있다.
또한, 상기와 같은 목적들을 달성하기 위한 본 발명에 따른 헤드 마운티드 디스플레이 디바이스는 촬상수단 및 디스플레이수단을 적어도 구비하는 헤드 마운티드 디스플레이 디바이스에 있어서, 상기 촬상수단 통해 촬영되는 상대방의 제스처 및 표정 중 적어도 어느 하나로부터 상기 상대방의 감정상태를 추출하고, 상기 추출된 감정상태에 대응하는 가상의 객체를 생성하여, 상기 상대방의 바디 및 얼굴 중 적어도 어느 하나 위에 중첩시켜, 사용자의 디스플레이수단에 표시하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스의 상기 가상의 객체는, 문자를 더 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스의 상기 가상의 객체는, 상기 사용자에 의하여 변경 가능한 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스의 상기 가상의 객체는, 상기 감정상태에 대응하여 실시간으로 변화하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스의 상기 가상의 객체는, 상기 상대방의 바디 및 얼굴에 중첩된 위치가 변경되는 것을 특징으로 한다.
또한, 상기와 같은 목적들을 달성하기 위한 본 발명에 따른 헤드 마운티드 디스플레이 디바이스 제공방법은, 헤드 마운티드 디스플레이 디바이스의 제공서버에서 헤드 마운티드 디스플레이 디바이스로부터 전송되는 영상정보를 수신하는 과정; 상기 헤드 마운티드 디스플레이 디바이스 제공서버가 상기 전송된 영상정보에 포함된 상대방의 제스처 및 표정 중 적어도 어느 하나로부터 상기 상대방의 감정상태를 추출하는 과정; 상기 헤드 마운티드 디스플레이 디바이스 제공서버가 기 저장된 객체 관련 정보로부터 상기 추출된 감정상태에 대응하는 객체를 색출하는 과정; 상기 색출된 객체를 상기 상대방의 바디 및 얼굴 중 적어도 어느 하나 위에 중첩시키는 과정; 및 상기 색출된 객체가 중첩된 영상을 사용자 헤드 마운티드 디스플레이 디바이스에 전송하는 과정;을 포함하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스 제공방법의 상기 가상의 객체는, 문자를 더 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스 제공방법의 상기 가상의 객체는, 상기 사용자에 의하여 변경 가능한 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스 제공방법의 상기 가상의 객체는, 상기 감정상태에 대응하여 실시간으로 변화하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스 제공방법의 상기 가상의 객체는, 상기 상대방의 바디 및 얼굴에 중첩된 위치가 변경되는 것을 특징으로 한다.
또한, 상기와 같은 목적들을 달성하기 위한 본 발명에 따른 헤드 마운티드 디스플레이 디바이스 제공서버는 헤드 마운티드 디스플레이 디바이스와 연동하는 서버 통신부; 및 상기 헤드 마운티드 디스플레이 디바이스로부터 수신된 영상정보로부터 상대방의 제스처 및 표정 중 적어도 어느 하나에서 상기 상대방의 감정상태를 인지하고, 상기 인지된 감정상태를 기 저장된 객체 관련 정보와 비교하여, 상기 인지된 감정상태와 매칭되는 객체를 추출하며, 상기 추출된 객체를 상기 상대방의 바디 및 얼굴 중 적어도 어느 하나 위에 중첩시켜, 상기 헤드 마운티드 디스플레이 디바이스로 전송하는 서버 제어부;를 포함하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스 제공서버는 상기 감정상태와 대응하는 객체 관련 데이터를 저장하는 서버 저장부;를 더 포함하는 것을 특징으로 한다.
또한, 상기와 같은 목적들을 달성하기 위한 본 발명에 따른 헤드 마운티드 디스플레이 디바이스 는, 촬영에 따른 상대방의 영상 및 상기 영상에 중첩되는 객체를 표시하는 표시부; 헤드 마운티드 디스플레이 디바이스 제공서버와 연동하는 통신부; 촬영에 따른 상대방의 영상정보를 획득하는 촬상부; 및 상기 촬상부에서 획득된 상기 영상정보로부터 상기 상대방의 감정상태를 인지하고, 인지된 감정상태와 관련된 감정정보를 추출하여 상기 헤드 마운티드 디스플레이 디바이스 제공서버로 전송하며, 상기 헤드 마운티드 디스플레이 디바이스 제공서버로부터 상기 촬영에 따른 상대방의 감정정보에 대응하는 객체를 수신하여, 상기 촬영에 따른 상대방의 영상에서 상기 수신된 객체와 연관되는 위치에 상기 수신된 객체를 중첩하여 상기 표시부에 출력하는 제어부;를 포함하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스의 상기 표시부는, 상기 촬영에 따른 상대방의 영상을 더 표시하는 것을 특징으로 한다.
또한, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스는 상기 객체를 적용할지 여부를 결정하는 키입력부;를 더 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스는 상기 객체를 저장하는 저장부;를 더 포함하는 것을 특징으로 한다.
또한, 상기와 같은 목적들을 달성하기 위한 본 발명에 따른 촬상수단, 디스플레이수단, 음성입력수단 및 음성출력수단을 적어도 구비하는 헤드 마운티드 디스플레이 디바이스에 있어서, 상기 음성입력수단을 통해 입력되는 상대방의 음성으로부터 상기 상대방의 감정상태를 추출하여, 상기 추출된 감정상태에 대응하는 가상의 제1객체를 생성하고, 상기 촬상수단 통해 촬영되는 상대방의 제스처 및 표정 중 적어도 어느 하나로부터 상기 상대방의 감정상태를 추출하고, 상기 추출된 감정상태에 대응하는 가상의 제2객체를 생성하여, 상기 사용자의 디스플레이수단에 표시되는 상기 상대방의 바디 및 얼굴 중 적어도 어느 하나 위에 상기 생성된 가상의 제1객체 및 제2객체를 각각 중첩시켜 표시하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스의 상기 가상의 제1객체 및 제2객체가 동일하면, 어느 하나만 표시하는 특징으로 한다.
또한, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스의 상기 가상의 제1객체 및 제2객체 중 적어도 어느 하나는, 문자를 더 포함하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스의 상기 가상의 제1객체 및 제2객체 중 적어도 어느 하나는, 상기 사용자에 의하여 변경 가능한 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스의 상기 가상의 제1객체 및 제2객체는 중 적어도 어느 하나는, 상기 감정상태에 대응하여 실시간으로 변화하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스의 상기 가상의 제1객체 및 제2객체는 중 적어도 어느 하나는, 상기 상대방의 바디 및 얼굴에 중첩된 위치가 변경되는 것을 특징으로 하는 한다.
또한, 상기와 같은 목적들을 달성하기 위한 본 발명에 따른 헤드 마운티드 디스플레이 디바이스 제공방법은, 헤드 마운티드 디스플레이 디바이스 제공서버에서 헤드 마운티드 디스플레이 디바이스로부터 전송되는 음성정보 및 영상정보를 수신하는 과정; 상기 헤드 마운티드 디스플레이 디바이스 제공서버가 상기 전송된 음성정보와 상기 영상정보에 포함된 상대방의 제스처 및 표정 중 적어도 어느 하나로부터 상기 상대방의 감정상태를 추출하는 과정; 상기 헤드 마운티드 디스플레이 디바이스 제공서버가 기 저장된 객체 관련 정보로부터 상기 추출된 감정상태에 대응하는 객체를 색출하는 과정; 상기 색출된 객체를 상기 상대방의 바디 및 얼굴중 적어도 어느 하나 위에 중첩시키는 과정; 및 상기 색출된 객체가 중첩된 영상을 상기 사용자의 헤드 마운티드 디스플레이 디바이스에 전송하는 과정;을 포함하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스 제공방법의 상기 가상의 제1객체 및 제2객체가 동일하면, 어느 하나만 표시하는 특징으로 한다.
또한, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스 제공방법의 상기 가상의 제1객체 및 제2객체 중 적어도 어느 하나는, 문자를 더 포함하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스 제공방법의 상기 가상의 제1객체 및 제2객체 중 적어도 어느 하나는, 상기 사용자에 의하여 변경 가능한 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스 제공방법의 상기 가상의 제1객체 및 제2객체는 중 적어도 어느 하나는, 상기 감정상태에 대응하여 실시간으로 변화하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스 제공방법의 상기 가상의 제1객체 및 제2객체는 중 적어도 어느 하나는, 상기 상대방의 바디 및 얼굴에 중첩된 위치가 변경되는 것을 특징으로 한다.
또한, 상기와 같은 목적들을 달성하기 위한 본 발명에 따른 헤드 마운티드 디스플레이 디바이스 제공서버는 헤드 마운티드 디스플레이 디바이스와 연동하는 서버 통신부; 및 상기 헤드 마운티드 디스플레이 디바이스로부터 수신된 음성정보 및 영상정보로부터 상대방의 음성, 제스처 및 표정 중 적어도 어느 하나에서 상기 상대방의 감정상태를 인지하고, 상기 인지된 감정상태를 기 저장된 객체 관련 정보와 비교하여, 상기 인지된 감정상태와 매칭되는 객체를 추출하며, 상기 추출된 객체를 상기 상대방의 바디 및 얼굴 중 적어도 어느 하나 위에 중첩시켜, 상기 헤드 마운티드 디스플레이 디바이스로 전송하는 서버 제어부;를 포함하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스 제공서버는 상기 감정상태와 대응하는 객체 관련 데이터를 저장하는 서버 저장부;를 더 포함하는 것을 특징으로 한다.
또한, 상기와 같은 목적들을 달성하기 위한 본 발명에 따른 헤드 마운티드 디스플레이 디바이스는, 상대방의 음성을 입력받아 음성정보를 획득하는 음성입력부; 촬영에 따른 상대방의 영상 및 상기 영상에 중첩되는 객체를 표시하는 표시부; 헤드 마운티드 디스플레이 디바이스 제공서버와 연동하는 통신부; 촬영에 따른 사용자의 영상정보를 획득하는 촬상부; 및 상기 음성입력부에서 획득된 음성정보 및 상기 촬상부에서 획득된 상기 영상정보로부터 상기 사용자의 감정상태를 인지하고, 인지된 감정상태와 관련된 감정정보를 추출하여 상기 헤드 마운티드 디스플레이 디바이스 제공서버로 전송하며, 상기 헤드 마운티드 디스플레이 디바이스 제공서버로부터 상기 헤드 마운티드 디스플레이 디바이스에 따른 상대방의 감정정보에 대응하는 객체를 수신하여, 상기 촬영에 따른 상대방의 영상에서 상기 수신된 객체와 연관되는 위치에 상기 수신된 객체를 중첩하여 상기 표시부에 출력하는 제어부;를 포함하는 것을 특징으로 한다.
이때, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스의 상기 표시부는, 상기 촬영에 따른 사용자의 영상을 더 표시하는 것을 특징으로 한다.
또한, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스는 상기 객체를 적용할지 여부를 결정하는 키입력부;를 더 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 상기 헤드 마운티드 디스플레이 디바이스는 상기 객체를 저장하는 저장부;를 더 포함하는 것을 특징으로 한다.
본 발명은 상대방의 감정상태를 가상의 객체를 통해 상대방의 영상에 중첩시킴으로써, 상대방의 감정상태를 신선하게 전달할 수 있는 효과가 있다.
뿐만 아니라, 본 발명은 음성, 얼굴과 몸체의 특정한 표정과 제스처의 표정을 화면을 통해 가상의 객체로 형상화함으로써, 사용자들에게 객관적으로 상대방의 감정, 심리를 추측해 볼 수 있는 효과가 있다
도 1은 본 발명의 일 실시예에 따라 증강현실을 제공하는 헤드 마운티드 디스플레이 디바이스 시스템의 개략적인 구성도,
도 2는 본 발명의 일 실시예에 따른 헤드 마운티드 디스플레이 디바이스의 내부 블록구성도,
도 3은 본 발명의 바람직한 실시예에 따른 헤드 마운티드 디스플레이 디바이스 제공서버의 내부 블록구성도,
도 4는 본 발명의 바람직한 실시예에 따른 헤드 마운티드 디스플레이 디바이스 제공방법을 나타낸 신호처리도,
도 5는 본 발명의 일 실시예에 따라 도 1의 헤드 마운티드 디스플레이 디바이스에서 수행되는 헤드 마운티드 디스플레이 디바이스 제공방법을 나타낸 제어흐름도,
도 6은 본 발명에 따른 헤드 마운티드 디스플레이 디바이스 제공방법의 개념도,
도 7은 본 발명의 일 실시예에 따른 헤드 마운티드 디스플레이 디바이스가 적용된 영상 화면을 나타낸 도면,
도 8a 및 도 8b는 본 발명의 일 실시예에 따른 헤드 마운티드 디스플레이 디바이스에 적용되는 다중카메라 네트워크 시공간 자동구성 기법의 처리절차를 도시한 도면,
도 9는 본 발명의 일 실시예에 따른 헤드 마운티드 디스플레이 디바이스에 적용되는 얼굴인지를 위한 얼굴영역검출기법에 대한 처리과정을 나타낸 도면,
도 10은 본 발명의 일 실시예에 따른 헤드 마운티드 디스플레이 디바이스에 적용되는 객체추출의 얼굴검출기술인 에이다부스트 알고리즘 적용화면을 나타낸 도면.
이하 본 발명의 바람직한 실시 예들의 상세한 설명이 첨부된 도면들을 참조하여 설명될 것이다. 도면들 중 동일한 구성들은 가능한 한 어느 곳에서든지 동일한 부호들을 나타내고 있음을 유의하여야 한다. 하기 설명에서 구체적인 특정 사항들이 나타나고 있는데, 이는 본 발명의 보다 전반적인 이해를 돕기 위해 제공된 것이다. 그리고 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따라 증강현실을 제공하는 헤드 마운티드 디스플레이 디바이스 시스템의 개략적인 구성도로서, 도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 헤드 마운티드 디스플레이 디바이스 시스템은 헤드 마운티드 디스플레이 디바이스(100), 헤드 마운티드 디스플레이 디바이스 제공서버(200) 및 이들을 네트워크로 연결한 통신망(300)으로 구성될 수 있다.
먼저, 상기 통신망(300)은 유선 및 무선과 같은 통신 양태를 가리지 않고 구성될 수 있으며, 이동 통신망, 근거리 통신망(LAN: Local Area Network), 도시권 통신망(MAN: Metropolitan Area Network), 광역 통신망(WAN:Wide Area Network), 인공 위성 통신망 등 다양한 형태로 구성될 수 있다. 보다 구체적으로, 본 발명에서 말하는 통신망(300)은 공지의 월드와이드웹(WWW: World Wide Web), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access) 또는 GSM(Global System for Mobile communications) 통신망 등을 모두 포함하는 개념인 것으로 이해되어야 한다.
다음으로, 상기 헤드 마운티드 디스플레이 디바이스(100)는 카메라 등의 촬영수단(내장하였거나 주변장치로 구비할 수 있는 경우를 포함하는 개념으로 이해되어야 한다)을 통하여 입력되는 입력영상에서 인지 및 추출한 사용자의 감정상태에 대응하는 객체 데이터를 추후 설명될 헤드 마운티드 디스플레이 디바이스 제공서버(200)로부터 제공받고, 상기 객체를 증강현실 기술을 통하여 헤드 마운티드 디스플레이 디바이스 화면에 중첩하는 형태로 디스플레이하고, 사용자의 요청에 따라 상기 객체의 표시를 온/오프하거나 상기 객체의 위치나 움직임을 변경시키고, 형태를 변화시켜서 디스플레이하는 기능을 수행할 수 있다.
본 발명에서 말하는 헤드 마운티드 디스플레이 디바이스(100)는 통신망(300)에 접속한 후 통신할 수 있도록 하는 기능을 포함하는 2014년 9월 19일자로 공개된 공개번호(KR) 10-2014-0111693 등의 웨어러블 디바이스의 기기라면 얼마든지 본 발명에 따른 헤드 마운티드 디스플레이 디바이스(100)로서 채택될 수 있다.
상기 헤드 마운티드 디스플레이 디바이스 제공서버(200) 통신망(300)을 통하여 헤드 마운티드 디스플레이 디바이스(100) 및 다른 정보제공서버(미도시됨)와 통신함으로써 헤드 마운티드 디스플레이 디바이스 (100)의 요청에 따라 다양한 유형의 정보를 제공하는 기능을 수행하는 기능을 수행할 수 있다. 보다 구체적으로, 헤드 마운티드 디스플레이 디바이스 제공서버(200)는 웹 컨텐츠 검색엔진(미도시됨)을 포함하여 헤드 마운티드 디스플레이 디바이스(100)의 요청에 대응되는 상세 정보를 검색하고 그 검색결과를 헤드 마운티드 디스플레이 디바이스(100)의 사용자가 브라우징할 수 있도록 제공할 수 있다. 예를 들어, 헤드 마운티드 디스플레이 디바이스 제공서버(200)는 인터넷 검색 포털 사이트의 운영서버일 수 있고, 헤드 마운티드 디스플레이 디바이스 제공서버(200)를 통하여 헤드 마운티드 디스플레이 디바이스(100)에 제공되는 정보는 쿼리 이미지에 매칭된 정보, 웹 사이트, 웹 문서, 지식, 블로그, 카페, 이미지, 동영상, 뉴스, 음악, 쇼핑, 지도, 책, 영화 등에 관한 다양한 정보일 수 있다. 물론, 필요에 따라 헤드 마운티드 디스플레이 디바이스 제공서버(200)의 정보검색엔진은 헤드 마운티드 디스플레이 디바이스 제공서버(200)가 아닌 다른 연산장치나 기록매체에 포함될 수도 있다. 헤드 마운티드 디스플레이 디바이스 제공서버(200)의 상세한 내부구성에 대해서 후술하기로 한다.
이하에서는, 본 발명의 구현을 위하여 중요한 기능을 수행하는 헤드 마운티드 디스플레이 디바이스(100)의 내부 구성 및 각 구성요소의 기능에 대하여 살펴보기로 한다.
도 2는 본 발명의 일 실시예에 따른 헤드 마운티드 디스플레이 디바이스의 내부 블록구성도로서, 도 2를 참조하면, 본 발명의 일 실시예에 따른 헤드 마운티드 디스플레이 디바이스(100)는 제어부(110), 촬상부(120), 표시부(130), 통신부(140), 키입력부(150), 저장부(160) 및 음성처리부(170)를 포함할 수 있다.
이때, 제어부(110), 촬상부(120), 표시부(130), 통신부(140), 키입력부(150), 저장부(160) 및 음성처리부(170)는 그 중 적어도 일부가 헤드 마운티드 디스플레이 디바이스(100)와 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 헤드 마운티드 디스플레이 디바이스(100)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 헤드 마운티드 디스플레이 디바이스(100)와 통신 가능한 원격기억장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상데이터유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
먼저, 본 발명의 일 실시예에 따르면, 상기 표시부(130)는 촬영에 따른 헤드 마운티드 디바이스의 촬상부에서 촬영되는 상대방(이하 상대방)의 영상 및 상기 영상에 중첩되는 객체를 표시하며, 상기 통신부(140)는 헤드 마운티드 디스플레이 디바이스 제공서버(200)와 연동하여 데이터 및 제어신호를 송수신한다. 이때, 상기 표시부(130)는 촬영에 따른 사용자의 영상을 더 표시할 수도 있다. 상기 키입력부(150)는 사용자의 요청에 따라 직간접적으로 기 설정된 신호를 발생시키는 버튼이나 감지센서가 될 수 있으며, 특히 사용자의 선택에 따라 상기 영상에 중첩되는 객체를 촬영 영상에 적용할지 여부를 결정하는 제어신호를 발생시킬 수 있다.
상기 촬상부(120)는 카메라 등의 촬영장치를 포함할 수 있으며 촬영에 따른 상대방의 영상정보를 획득하고, 상기 음성처리부(170)는 마이크로폰 및 스피커를 포함하여 음성을 입력 및 출력할 수 있으며, 상기 제어부(110)는 상기 음성처리부(170)에서 입력된 음성정보 및 상기 촬상부(120)에서 획득된 상기 영상정보로부터 상기 상대방의 감정상태를 인지하고, 인지된 감정상태와 관련된 감정정보를 추출하여 상기 헤드 마운티드 디스플레이 디바이스 제공서버(200)로 전송하며, 상기 헤드 마운티드 디스플레이 디바이스 제공서버(200)로부터 상기 촬영에 따른 상대방의 감정정보에 대응하는 객체를 수신하여, 상기 촬영에 따른 상대방의 영상에서 상기 수신된 객체와 연관되는 위치에 상기 수신된 객체를 중첩하여 상기 표시부(130)에 출력한다. 상기 저장부(160)는 상기 객체를 저장한다.
도 3은 본 발명의 바람직한 실시예에 따른 헤드 마운티드 디스플레이 디바이스 제공서버의 내부 블록구성도로서, 헤드 마운티드 디스플레이 디바이스 제공서버(200)는 서버 제어부(210), 서버 통신부(220) 및 서버 저장부(230)를 포함할 수 있다.
상기 서버 통신부(220)는 헤드 마운티드 디스플레이 디바이스(100)와 연동하여 데이터 및 제어신호를 송수신하고, 상기 서버 제어부(210)는 상기 헤드 마운티드 디스플레이 디바이스(100)로부터 수신된 음성정보 및 영상정보로부터 상대방의 음성, 제스처 및 표정 중 적어도 어느 하나에서 상기 상대방의 감정상태를 인지하고, 상기 인지된 감정상태를 기 저장된 객체 관련 정보와 비교하여, 상기 인지된 감정상태와 매칭되는 객체를 추출하며, 상기 추출된 객체를 상기 상대방의 바디 및 얼굴 중 적어도 어느 하나 위에 중첩시켜, 사용자의 상기 헤드 마운티드 디스플레이 디바이스(100)에 전송하며, 상기 서버 저장부(230)는 상기 감정상태와 대응하는 객체 관련 데이터를 저장한다.
도 4는 본 발명의 바람직한 실시예에 따른 헤드 마운티드 디스플레이 디바이스 제공방법을 나타낸 신호처리도로서, 도 4를 참조하면, 본 발명에 따른 헤드 마운티드 디스플레이 디바이스는 촬상부(120)를 통해 각각 영상을 촬영 및 음성처리부(170)를 통해 각각 음성을 입력받아서(401), 이를 헤드 마운티드 디스플레이 디바이스 제공서버(200)에 전송한다. 이어, 헤드 마운티드 디스플레이 디바이스 제공서버(200)는 수신한 입력음성 및 촬영영상의 인물의 음성과 표정이나 제스처를 분석하고 기 준비된 표준형상모형을 참조하여, 음성 및 영상의 감정상태를 인지한다(403). 이어, 헤드 마운티드 디스플레이 디바이스 제공서버(200)는 상기 403단계에서 인지된 감정상태와 대응하는 객체를 기 준비된 객체들로부터 검출하고(405), 이를 중첩할 화면의 위치를 검출하여(407), 화면에 상기 405단계에서 검출된 객체를 정합한다(409).
그리고, 헤드 마운티드 디스플레이 디바이스 제공서버(200)는 상기 409단계에서 정합된 영상을 사용자의 헤드 마운티드 디스플레이 디바이스(100)로 전송하며, 이를 수신한 헤드 마운티드 디스플레이 디바이스(100)는 이를 표시부(130)에 디스플레이한다.
전술한 도 4를 참조한 설명과 같이, 본 발명에 따른 증강현실을 제공하는 헤드 마운티드 디스플레이 디바이스 제공방법은 헤드 마운티드 디스플레이 디바이스 제공서버(200)에서 영상으로부터 감정상태를 인지하고, 객체를 추출하고, 정합할 위치를 검출하여 정합하는 일련의 상기 403단계 내지 409단계를 모두 수행할 수 있으며, 상기 403단계 내지 409단계 중 일부를 헤드 마운티드 디스플레이 디바이스(100)가 수행할 수도 있다.
한편, 도 5는 본 발명의 일 실시예에 따라 도 1의 헤드 마운티드 디스플레이 디바이스(100)에서 수행되는 헤드 마운티드 디스플레이 디바이스 제공방법을 나타낸 제어흐름도로서 도 5를 참조하면, 상기 403단계 내지 409단계를 모두 헤드 마운티드 디스플레이 디바이스(100)가 수행할 수 도 있다.
도 5에 도시된 바와 같이, 헤드 마운티드 디스플레이 디바이스(100)의 제어부(110)는 촬상부(120)를 제어하여 영상을 촬영함과 아울러 음성처리부(170)를 제어하여 음성을 입력받고(501), 입력된 음성 및 촬영된 영상으로부터 인물의 감정상태를 인지한다(503). 이어, 인지된 감정상태에 대응하는 객체를 저장부(160)로부터 추출하고(505), 추출된 객체와 영상을 정합하여(507), 표시부(130)를 통하여 영상을 출력한다. 이때, 상기 저장부(160)에는 다양한 감정상태에 대응하는 각종 객체 데이터들이 기 저장되어 있을 수도 있고, 제공서버(200)를 비롯하여 관련 객체 데이터를 제공하는 서버들로부터 통신망(300)을 통하여 실시간 또는 미리 다운로드 받아 저장하여 사용할 수 있다.
도 6은 본 발명에 따른 헤드 마운티드 디스플레이 디바이스 제공방법의 개념도로서, 본 발명에 따른 헤드 마운티드 디스플레이 디바이스는 먼저, 해당 헤드 마운티드 디스플레이 디바이스(100)의 촬상부(120)에서 촬영되어 입력되는 영상 또는 통신부(140)를 통해 전송된 영상을 입력받는 영상입력단계를 수행하고, 이어 인지모듈에서 음성인식(Voice Recognition), 객체추적의 사람추적(People Tracking), 객체추적의 카메라위상(Topology)인지, 객체인지의 얼굴인지(Face Recognition), 객체인지의 감정인지, 객체인지의 손동작인지, 객체인지의 동작과 행동인지 기법 등을 활용한 영상인지단계를 수행한다. 상기 영상인지단계에서 다양한 추적, 인지, 추출 및 검출 기법을 이용하여 찾아낸 감정상태는 표정과 제스처에 대한 표준형상모형DB 등과 감정상태를 여러 단계로 그 정도에 따라 구분한 각종 분석코드들을 의하여 분석된다. 상기 영상인지단계에서 사용되는 다양한 기법들에 대해서는 개별적으로 간략히 후술한다.
이어, 합성모형DB로부터 상기 영상인지단계에서 인지된 영상의 감정상태에 대응한 가상의 객체를 검출하는 객체 검출단계가 수행된다. 상기 객체검출단계에서 검출된 객체는 영상과 실시간 정합과정(영상정합단계)을 통하여 해당 헤드 마운티드 디스플레이 디바이스(100)의 표시부(130)에 증강현실이 적용된 영상을 출력한다. 이에 따라, 본 발명은 현실세계에서 볼 수 없는 다양한 혼합현실을 표시부(130)를 통해 디스플레이함으로써, 상대방의 감정, 심리를 예측할 수 있다.
도 7은 본 발명의 일 실시예에 따른 헤드 마운티드 디스플레이 디바이스(100)가 적용된 표시부(130)를 나타낸 도면으로서, 본 발명에 따른 마운티드 디스플레이 디바이스는 자동인식 정합방식과 선택인식 정합방식을 모두 제공할 수 있다는 것을 나타내기 위한 것이다. 도 7의 자동인식 정합방식은 촬영된 또는 수신된 영상으로부터 자동으로 표정 및 제스처를 인식하여 표시부(130)에 실시간으로 정합하는 방식이다.
도 6, 도 7에 도시된 바와 같이, 본 발명에 따른 헤드 마운티드 디스플레이 디바이스는 촬영시에 상대방의 감정상태를 표현하는 가상의 객체를 영상과 함께 제공함으로써 상대방의 감정상태를 사용자에게 신선하게 전달할 수 있게 된다.
그러면, 이하에서 도 8a 내지 도 10을 참조하여, 본 발명에 따른 헤드 마운티드 디스플레이 디바이스 제공방법에서 적용 가능한 다양한 기법들에 대해서 설명한다.
먼저, 영상인지단계에서 수행되는 인지과정 중 하나인 음성인식과정은 자연어 음성을 인식하고 이를 실행 명령어로 변환하여 관련 음성의 표준모형 개발 및 음성을 통한 감정상태의 표준 DB화를 통해 보다 세밀한 감정합성 표현이 가능해지도록 한 것이다. 본 발명에서는 자동적 수단에 의하여 음성으로부터 언어적 의미 내용을 식별하 여 감정코드를 추출한다.
음성인식과정은 구체적으로 음성파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이며, 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류된다. 좁은 의미로는 음성 분석에서 단어 인식까지를 말하는 경우가 많다. 인간-기계 인터페이스 개선의 하나로 음성으로 정보를 입력하는 음성 인식과 음성으로 정보를 출력하는 음성 합성 기술의 연구 개발이 오랫동안 진행되어 왔다.
음성인식의 궁극적인 목표는 자연스러운 발성에 의한 음성을 인식하여 실행 명령어로서 받아들이거나 자료로서 문서에 입력하는 완전한 음성, 텍스트 변환의 실현이다. 단지 단어를 인식할 뿐 아니라 구문 정보, 의미 정보, 작업에 관련된 정보와 지식 등을 이용하여 연속 음성 또는 문장의 의미 내용을 정확하게 추출하는 음성 이해 시스템을 개발하는 것이다. 이러한 시스템의 연구 개발이 전 세계에서 활발하게 진행되고 있으며, 본 발명은 이러한 음석인식을 통해 감정분석을 위한 코드를 추출하고, 관련DB(표준형모형 및 합성모형을 추출)를 정합하는 기술로 사용할 수 있다.
또한, 영상인지단계에서 수행되는 인지과정에는 사람추적(People Tracking)기법이 사용될 수 있다. 사람추적은 사람의 경우 움직임이 자유롭고 식별할 수 있는 뚜렷한 특성이 없고, 공공장소에서의 사람 추적 시 사람과 사람이 서로 겹치는 문제를 고려하여, 겹쳐진 물체인지(Occluded Object Recognition)를 수행한다. 객체간 겹침은 병합분리(merge-split)와 straight-through 방법을 활용하고, 겹침 객체의 인지는 등장, 퇴장, 연속, 병합, 분리 이벤트를 활용한다. 또한, 사람추적기법은 전술한 겹침 문제 해결 후 사람들의 위치를 좌표로 표현하여야 하므로, 위치추적을 수행한다. 객체의 크기는 카메라의 초점거리(focal length)와 같은 조정 정보를 이용하여 계산하고 실세계의 좌표로 위치를 표시한다.
한편, 사람추적기법은 다중카메라에 의해 수행될 수 있다. 중첩된 카메라의 경우 추적 알고리즘은 카메라 보정과 카메라들간의 추적된 객체들의 핸드오프의 계산이 필요하며, 이를 위해 많은 공통적인 FOV(Field Of View)를 공유하는 것이 필요하다. 객체탐지를 위한 가우시안모델을 이용하여 전경픽셀(Foreground pixel)과 배경 (Background pixel)을 분리하고 분리된 전경픽셀을 토대로 동일 객체를 판단하여 카메라들 간의 링크를 찾고, 겹치지 않는 다중 카메라 구성에서 객체의 일치성을 점진적인 칼라의 유사성 학습과정을 토대로 검증한다. CCCM을 이용해서 칼라의 유사성을 판단한 후 카메라 사이의 링크를 결정하며, 링크는 주어진 시간동안 객체의 등장과 재등장을 하기의 수학식 1의 조건부 전이 확률로 계산하여 결정한다.
수학식 1
Figure pat00001
영상인지단계에서 수행되는 인지과정 중 하나는 카메라위상인지기법이다. 카메라위상인지는 전이시간(traveltransition) 모델에 의하여 카메라의 위치를 노드로 표시하는 가시적 그래프 표현이 가능하고, 다중카메라 네트워크 시공간 자동구성 기법을 이용함으로써 일정 시간의 분석된 데이터를 이용하여 자율적으로 학습하는 방식을 사용하여 중첩 또는 비중첩 카메라에서 입력받은 영상으로부터 이미지간의 객체를 매칭하여 카메라간의 관계를 결정한다. 효과적 객체 추출 및 인식은 카메라와 움직이는 사람간의 거리에 따라 피부 영역을 그리드 기반의 추출 방법을 사용하여 개발한다. 도 8a 및 도 8b는 본 발명에 따른 헤드 마운티드 디스플레이 디바이스(100)에 적용되는 다중카메라 네트워크 시공간 자동구성 기법에 있어서, 객체가 등장할 때 처리하는 순서와 객체가 퇴장할 때 처리하는 순서를 각각 나타낸 것이다. 다중카메라 네트워크 시공간 자동구성 기법은 당업자에게 자명한 것이므로, 이에 대한 구체적인 설명은 생략한다.
영상인지단계에서 수행되는 인지과정 중 또 하나는 얼굴인지기법으로서, 얼굴영역검출(Face Detection), 얼굴영역 정규화 및 얼굴영역 내 특징추출을 포함한다.
도 9는 본 발명의 일 실시예에 따른 헤드 마운티드 디스플레이 디바이스(100)에 적용되는 얼굴인지를 위한 얼굴영역검출기법에 대한 처리과정을 나타낸 도면으로서, 도 9를 참조하면 얼굴영역검출기법은 (a)에서 얼굴영역을 검출하고, (b)에서 스킨(적색영역)컬러를 감지하며, (c)에서 팽창연산을 수행하여, (d)에서 라벨링(labeling)한다.
이를 더욱 상세히 설명하면, (a)단계는 전체 이미지로부터 얼굴영역을 검출하고 눈, 코, 입 영역을 찾는 Face Detection 알고리즘을 이용하여 전체 이미지로부터 얼굴영역만 검출(초기 입력이미지)하고, (b)단계는 skincolor 영역 검출 및 이를 라벨링하기 위해 바이너리 이미지(binary image)로 전환(경험적 방법 활용)한 후, 팽창연산(Binary morpological Dilation)을 통해 노이즈 제거하고, 라벨링을 통한 각 영역의 중심점을 찾고 눈의영역 구현한다.
이어, 얼굴영역검출기법의 두 번째로 얼굴영역 정규화는 고개의 기울기, 얼굴 정면 각도, 표정 등과 같은 얼굴의 다양한 변화로 인한 얼굴검출이 어려워 다른 변화가 없거나 특별한 경우에만 적용이 가능하며, 지식기반방법(knowledge-based methods)다양한 변화에 대한 규칙을 확장 또는 정규화 함으로써 해결한다.
마지막으로, 얼굴영역검출기법의 세 번째로 얼굴영역 내 특징 추출은 초기값을 설정해주면 자동으로 임의의 물체의 윤곽을 찾아내주는 Snake 모델(active contour model) 알고리즘을 이용한다. 스네이크 모델은 영상에서 특정 영역을 분할하려 할 때 많이 이용되는 기법으로서, 본 발명에서는 칼라 영상에서 얼굴과 얼굴의 특징점을 찾는 방법으로 이 알고리즘을 적용할 수 있다. 스네이크 모델은 전역적으로 정의된 cost를 최적화하는 방향으로 윤곽(contour)을 능동적으로 추출한다.
또한, 영상인지단계에서 수행되는 인지과정에서는 얼굴구성요소(표정분석)관계를 통하여 눈, 입 등의 형태와 서로간의 관계를 통해 표정을 인식할 수 있는 표정분석 관계연산함수를 사용함으로써, 웃음, 미소, 울음, 찡그림,놀람 등 얼굴의 표정인식이 가능하며, 이를 통한 행복, 슬픔 등의 감정 추론이 가능하여, 최종적으로 감정인지 결과를 얻을 수 있다.
또한, 영상인지과정에서 수행되는 인지과정에서는 손동작인지, 즉 제스처 인식기법이 적용될 수 있다. 제스처인식은 인식된 포즈 영상들로부터 제스처를 인식하며, 제스처 인식을 위해 HMM사용한다. HMM은 시간적으로 제약을 받는 정보의 구조를 모델링 하는데 뛰어나다. 상태전이매개변수는 순차적인 일련의 사건 발생을 모델링하고, 관측심볼확률분포는 각 사건의 특징을 유한개의 심볼로 대응하는데, 이러한 두 가지 확률과정의 결합으로 이루어진 HMM은 학습데이터를 이용해 적절한 제스처 모델을 구성한다.
인지과정에서는 인지하고자 하는 제스처와 학습이 끝난 후 생성된 HMM의 제스처모델을 비교하고 가장 유사한 제스처모델을 선택하여 결과값을 확률로 나타낸다. 학습은 각 제스처 별로 이루어지고, 해당 제스처의 HMM모델의 학습결과를 적용한다. HMM의 학습 과정은 각 숫자 별로 손동작을 이용하여 은닉 마르코프 모델을 구성하는 과정으로, EM알고리즘의 하나인 Baum-Welch 알고리즘을 이용한다. 이러한 각각의 숫자 모델에 전향 알고리즘을 적용하여 가장 높은 확률을 보이는 숫자 모델을 최종 인식 결과로 출력한다.
영상인지과정에서 수행되는 인지과정에서 적용될 수 있는 또 하나의 기법은 동작과 행동인지 기법으로서, 모션 히스토리(Motion History) 및 SVM(Support Vector Machines)기법이 사용된다. 동작은 지역적으로 이동하거나 위치가 연속적으로 변화하는 과정이며, 행동은 여러 가지 요인에 의해 발생하거나 이미 이루어진 상황이므로, 동작은 위치변화를 뜻하며 행동은 발생적인 상황측면을 뜻한다. 따라서 동작은 단시간의 모션 히스토리를 인코딩하여 움직임의 형태를 알 수 있고, 필터링된 이미지 분류기는 SVM(Support Vector Machines)을 이용하여 구축한다.
다음으로, 영상인지과정에서 수행되는 검출과정에 적용될 수 있는 검출기법으로서, 객체의 화소, 블랍 및 레벨을 검출하는 것이다. 이 검출기법은 배경의 정보를 학습한 배경모델이 구성되면 배경으로부터 전경객체를 추출하기 위하여 우선 화소 레벨에서 전경화소와 배경화소를 검출하는 단계를 수행하고, 인접 전경화소들을 연결하여 의미있는 블랍을 검출하는 과정을 거친 후, 추출된 블랍 중 관심 객체를 구분할 수 있는 블랍을 관심객체로 정의하는 객체레벨 검출단계를 수행한다. 이때, 상기 화소레벨 검출은 균일분포 배경 모델에 의한 배경차감은 전처리 과정에서 HSI컬러공간에서의 배경모델영상을 획득하기 위해 일정시간의 훈련과정을 거쳐 배경영역의 컬러값에 대한 균일 배경모델을 만들고, 블랍레벨검출은 격자이미지기법을 사용하여 낮은 해상도로 레이블링하더라도 노이즈 픽셀 등의 예기치 않은 인위적 결함이 있을 경우에도 좋은 성능을 발휘한다.
상기 객체레벨검출은 블랍레벨검출에서 추출한 블랍의 집합에서 관심객체인 얼굴과 손 영역을 검출하기 위하여 에이다부스트 알고리즘을 적용할 수 있다. 하기의 수학식 2에 에이다부스트 알고리즘을 나타내었으며, 도 10에 객체추출의 얼굴검출기술인 에이다부스트 알고리즘 적용화면을 나타내었다.
수학식 2
Figure pat00002
상기 객체추출의 얼굴검출은 지식기반방법, 특징기반방법, 외형기반방법 등을 사용한다. 지식기반방법은 사람의 두 개의 눈, 한 개의 코, 입으로 구성되어 있고 각 요소들은 기하학적 위치 관계로 구성됨을 전제로 하여 얼굴을 검출하는 방법으로서, 이미지내의 히스토그램을 이용하는 방법을 활용한다(가로축의 히스토그램을 이용하여 눈, 코, 입의 위치 정보를 찾음). 상기 특징기반방법은 얼굴 요소, 색깔, 모양, 크기가 같은 얼굴 고유의 특징을 이용해서 얼굴 크기 및 위치를 추론하여 얼굴 영역을 검출하고, 얼굴 요소의 거리나 위치 등을 통해 얼굴 인지 아닌지를 판단하는 방법으로서, 이목구비, 텍스쳐, 피부색, 임계값, 복합특징을 이용하는 방법 등이 활용될 수 있다.
상기 외형기반 방법은 학습 영상 집합에 의해 학습된 모델을 이용해서 얼굴을 검출하는 방법으로서, 얼굴과 비얼굴의 훈련 이미지 집합을 만들어 학습시킨 후 검출한다.
다음으로, 실시간 정합과정은 실사와 가상의 영상을 실시간으로 정합하는 과정으로서, 해당 오브젝트를 호출시 키는 명령키가 입력되면, 콘텐츠수행기에서 관련 오브젝트를 호출하여 렌더링처리기를 통해 영상으로 출력한다.
카메라는 렌즈나 종류에 따라 초점, 거리, 일그러짐 등 특성이 달라지므로, 이러한 카메라의 특성 값을 찾아내는 프로세스를 진행한 후 camera matrix를 얻어낼 수 있다. 이에 따라, 입력받은 영상과 camera matrix데이터를 통해 몸체의 3차원 위치상태를 구하는 계산을 하게 되며, 이렇게 얻어진 3차원 위치상태 값은 단순히 가상의 객체를 이동하고 회전하는데만 사용하는 것이 아니라 camera matrix데이터를 이용하여 2차원 평면 디스플레이에 정확하게 그려내는데 이를 정합이라 한다. 콘텐츠 수행기를 통해 표정과 제스처의 감성을 표현할 2, 3차원 오브젝트를 사전에 미리 생성, 저장하고, 렌더링처리기를 통해 3D렌더링 처리를 수행한다. 3차원 컴퓨터 그래픽스 툴을 이용하여 3차원 모델을 만들고 이것을 영화영상 등에 이용하기 위해서 2차원적 그림으로 변화시키는 과정을 렌더링이라고 한다. 즉, 장면을 이미지로 전환하는 과정이라 할 수 있으며, 실시간 정합에 빠른 처리속도를 필요로 하는 렌더링 처리가 필수적이다.
전술한 실시간 정합과정에 의해 정합된 실사와 가상의 영상은 실시간으로 접합되어 해당 디바이스(100)의 영상 디스플레이에 출력된다. 이때, 디스플레이 될 또는 디스플레이된 영상은 해당 과정에서 저장될 수 있다. 영상저장의 일례로 H.264/AVC 등을 들 수 있다.
H.264 코덱은 국제 표준화 기구인 ITU-T와 ISO에서 공동으로 제안한 비디오 압축 기술로서 ITU-T에서 붙인 H.264라는 명칭 이외에 ISO에서 붙인 MPEG art10/ AVC 라는 명칭을 사용한다. H.264 코덱은 Floating point연산방식이 아닌 정수 연산만으로 가능해져 연산오차가 적고, 8*8블록 단위로 계산하는 MPEG-4와 달리 4*4블록 단위로 계산하므로 보다 정밀한 비교가 가능하며, 필요에 따라 16*16, 16*8, 8*16, 8*4, 4*8 등 다양한 블록크기로 적용이 가능하다.
H.264 코덱은 기존과 달리 DCT변환과정 이전에 중복성을 제거함으로써 프로세서 효율개선되고, 루프필터 방식을 적용하여 낮은 비트율에서 발생하던 격자 무늬해소 및 디코더와 엔코더가 모두 이 기능을 수행함으로써 영상을 제작했을 때의 화질과 복원 후 화질에 차이가 없으며, 바로 앞 프레임의 차이점만 이용하던 종래기술과 달리 더 이전에 나왔던 프레임과도 비교함으로써 반복된 영상에서 우수한 성능을 보인다.
또한, H.264 코덱은 다른 코덱에 비해 에러에 대한 내성이 강하고, 우수한 압축 성능으로 인해 H.264는 모바일 서비스와 같은 높은 DATA압축율을 요구하는 환경에서도 최적의 서비스를 지원할 수 있어, 현재 블루레이, DVD를 사용하는 다양한 디바이스에서 H.264를 채택하고 있다.
전술한 바와 같이, 본 발명에 따른 헤드 마운티드 디스플레이 디바이스 제공서버는 음성인식, 객체인지의 얼굴인지기술의 얼굴영역검출기술, 얼굴영역 정규화 기술, 얼굴영역 내 특징 추출기술, 객체인지의 감정인지기술의 얼굴구성요소(표정분석)관계기술, 객체인지의 손동작인지, 객체인지의 동작과 행동인지기술 기반 위에 실사와 가상영상의 실시간 정합기술을 활용하여 상대방의 얼굴과 몸체 위에 제스처 및 표정분석을 통한 혼합된 가상의 오브젝트(문자포함)를 정합시켜 현실세계에서 볼 수 없는 다양한 혼합현실을 헤드 마운티드 디스플레이 디바이스를 통해 구현한다.
또한, 본 발명에 따른 본 발명에 따른 헤드 마운티드 디스플레이 디바이스(100) 제공방법, 이를 위한 헤드 마운티드 디스플레이 디바이스(100) 제공서버는 음성, 얼굴과 몸체의 특정한 표정과 제스처의 표정분석 관계연산함수를 미리 등록하여, 유사한 음성, 표정과 제스처가 영상을 통해 전송되면, 출력되는 영상화면에서 음성, 표정과 제스처에 반응한 가상의 객체를 얼굴과 몸체 위에 실시간으로 정합시켜, 사용자의 증강현실에 놀라운 즐거움을 준다.
한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐 아니라 이 특허청구의 범위와 균등한 것들에 의해서 정해져야 한다.
100 헤드마운티드 디스플레이 디바이스
110 제어부, 120 촬상부, 130 표시부, 140 통신부, 150 키입력부, 160 저장부, 170 음성처리부
200 헤드 마운티드 디스플레이 디바이스 제공서버
210 서버제어부, 220 서버통신부, 230 서버저장부
300 통신망
401 음성입력받는 단계, 403 음성 및 영상의 감정상태를 인지하는 단계 405 기 준비된 객체들로부터 검출하는 단계, 407 중첩할 화면의 위치를 검출하는 단계 409 검출된 객체를 정합하는 단계
501 음성을 입력받는 단계, 503 인물의 감정상태를 인지하는 단계, 505 객체를 추출하는 단계, 507 추출된 객체와 영상을 정합하는 단계, 509 영상 출력하는 단계

Claims (5)

  1. 헤드 마운티드 디스플레이 디바이스에 있어서, 헤드 마운티드 디스플레이 디바이스의 서버에서 상기 헤드 마운티드 디스플레이 디바이스로부터 전송되는 영상정보를 수신하는 과정;
    상기 헤드 마운티드 디스플레이 디바이스 서버가 상기 전송된 영상정보에 포함된 상대방의 제스처 및 표정 중 적어도 어느 하나로부터 상기 상대방의 감정상태를 추출하는 과정;
    상기 헤드 마운티드 디스플레이 디바이스 서버가 기 저장된 객체 관련 정보로부터 상기 추출된 감정상태에 대응하는 객체를 색출하는 과정;
    상기 색출된 객체를 상기 상대방의 바디 및 얼굴 중 적어도 어느 하나 위에 중첩시키는 과정; 및
    상기 색출된 객체가 중첩된 영상을 상기 사용자의 헤드 마운티드 디스플레이 디바이스에 전송하는 과정;을 포함하는 헤드 마운티드 디스플레이 디바이스의 제공방법.
  2. 제 1항에 있어서, 상기 가상의 객체는,
    문자를 더 포함하는 것을 특징으로 하는 헤드 마운티드 디스플레이 디바이스를 제공방법.
  3. 제 1항에 있어서, 상기 가상의 객체는,
    상기 사용자에 의하여 변경 가능한 것을 특징으로 하는 헤드 마운티드 디스플레이 디바이스를 제공방법.
  4. 제 1항에 있어서, 상기 가상의 객체는,
    상기 감정상태에 대응하여 실시간으로 변화하는 것을 특징으로 하는 헤드 마운티드 디스플레이 디바이스를 제공방법.
  5. 제 1항에 있어서, 상기 가상의 객체는,
    상기 상대방의 바디 및 얼굴에 중첩된 위치가 변경되는 것을 특징으로 하는 헤드 마운티드 디스플레이 디바이스를 제공방법.
KR1020140145631A 2014-10-27 2014-10-27 헤드 마운티드 디스플레이 디바이스의 제공방법 KR20160049191A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140145631A KR20160049191A (ko) 2014-10-27 2014-10-27 헤드 마운티드 디스플레이 디바이스의 제공방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140145631A KR20160049191A (ko) 2014-10-27 2014-10-27 헤드 마운티드 디스플레이 디바이스의 제공방법

Publications (1)

Publication Number Publication Date
KR20160049191A true KR20160049191A (ko) 2016-05-09

Family

ID=56020254

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140145631A KR20160049191A (ko) 2014-10-27 2014-10-27 헤드 마운티드 디스플레이 디바이스의 제공방법

Country Status (1)

Country Link
KR (1) KR20160049191A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522799A (zh) * 2018-10-16 2019-03-26 深圳壹账通智能科技有限公司 信息提示方法、装置、计算机设备和存储介质
CN109766759A (zh) * 2018-12-12 2019-05-17 成都云天励飞技术有限公司 情绪识别方法及相关产品
WO2022003465A1 (en) * 2020-06-30 2022-01-06 3M Innovative Properties Company Apparatus and method for earbud augmented reality
KR102360172B1 (ko) * 2021-06-25 2022-02-08 배원석 사용자와 3d 객체 간 인터랙션을 제어하는 방법 및 장치
WO2024090825A1 (ko) * 2022-10-26 2024-05-02 삼성전자주식회사 센서에 의해 식별된 데이터를 이용하여 시각적 객체를 변경하기 위한 웨어러블 장치 및 그 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522799A (zh) * 2018-10-16 2019-03-26 深圳壹账通智能科技有限公司 信息提示方法、装置、计算机设备和存储介质
CN109766759A (zh) * 2018-12-12 2019-05-17 成都云天励飞技术有限公司 情绪识别方法及相关产品
WO2022003465A1 (en) * 2020-06-30 2022-01-06 3M Innovative Properties Company Apparatus and method for earbud augmented reality
KR102360172B1 (ko) * 2021-06-25 2022-02-08 배원석 사용자와 3d 객체 간 인터랙션을 제어하는 방법 및 장치
WO2024090825A1 (ko) * 2022-10-26 2024-05-02 삼성전자주식회사 센서에 의해 식별된 데이터를 이용하여 시각적 객체를 변경하기 위한 웨어러블 장치 및 그 방법

Similar Documents

Publication Publication Date Title
He et al. Visual recognition of traffic police gestures with convolutional pose machine and handcrafted features
US11783524B2 (en) Producing realistic talking face with expression using images text and voice
US11736756B2 (en) Producing realistic body movement using body images
KR20120120858A (ko) 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기
KR102460616B1 (ko) 랜덤 널링 인공신경망을 이용한 입모양 합성 장치 및 방법
CN106896925A (zh) 一种虚拟现实与真实场景融合的装置
KR101887637B1 (ko) 로봇 시스템
KR102167760B1 (ko) 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템
CN106997618A (zh) 一种虚拟现实与真实场景融合的方法
CN113835522A (zh) 手语视频生成、翻译、客服方法、设备和可读介质
KR20160049191A (ko) 헤드 마운티드 디스플레이 디바이스의 제공방법
KR20180080783A (ko) 가상 휴먼 인식 및 실시간 증강 합성 기술을 이용한 라이브 소셜 미디어 시스템 및 증강 합성 서버
CN110941996A (zh) 一种基于生成对抗网络的目标及轨迹增强现实方法和系统
KR101189043B1 (ko) 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기
WO2020048358A1 (en) Method, system, and computer-readable medium for recognizing speech using depth information
Purps et al. Reconstructing facial expressions of hmd users for avatars in vr
Liao et al. RETRACTED ARTICLE: Computer vision for facial analysis using human–computer interaction models
KR20220096068A (ko) 인공신경망을 이용한 화상 통화 끊김 시 입모양 합성 장치
Bevacqua et al. Multimodal sensing, interpretation and copying of movements by a virtual agent
Desai et al. Visual Speech Recognition
Liu et al. A Survey on Deep Multi-modal Learning for Body Language Recognition and Generation
US20240169701A1 (en) Affordance-based reposing of an object in a scene
US20240104686A1 (en) Low-Latency Video Matting
Sujatha et al. Real-Time Sign Language Translation through Deep Learning
Eatesh et al. AI-Powered Visual Aid System for the Blind

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid