KR20150112337A - 디스플레이 장치 및 그 사용자 인터랙션 방법 - Google Patents

디스플레이 장치 및 그 사용자 인터랙션 방법 Download PDF

Info

Publication number
KR20150112337A
KR20150112337A KR1020140036272A KR20140036272A KR20150112337A KR 20150112337 A KR20150112337 A KR 20150112337A KR 1020140036272 A KR1020140036272 A KR 1020140036272A KR 20140036272 A KR20140036272 A KR 20140036272A KR 20150112337 A KR20150112337 A KR 20150112337A
Authority
KR
South Korea
Prior art keywords
user
display device
camera
voice signal
microphone
Prior art date
Application number
KR1020140036272A
Other languages
English (en)
Inventor
이지연
문지범
유하연
이준우
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140036272A priority Critical patent/KR20150112337A/ko
Priority to US14/567,599 priority patent/US20150279369A1/en
Priority to EP15159753.1A priority patent/EP2925005A1/en
Publication of KR20150112337A publication Critical patent/KR20150112337A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42201Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops

Abstract

디스플레이 장치가 개시된다. 본 장치는, 사용자로부터 야기된 오디오 신호를 입력받기 위한 마이크, 사용자를 촬영하기 위한 카메라, 오디오 코맨드 및 사용자 모션이 저장된 저장부 및 디스플레이 장치가 턴 오프된 상태에서 마이크를 통해 입력된 오디오 신호가 오디오 코맨드에 매칭되고, 카메라에 의해 촬영된 촬영 이미지로부터 사용자 모션이 인식되면, 사용자 로그인 및 턴 온 동작을 수행하는 제어부를 포함한다. 이에 따라, 편리하고 정확한 사용자 인터랙션을 수행할 수 있다.

Description

디스플레이 장치 및 그 사용자 인터랙션 방법 { DISPLAY APPARATUS AND USER INTERACTION METHOD THEREOF }
본 발명은 사용자 인터랙션을 수행하는 디스플레이 장치 및 그 방법에 대한 것으로, 보다 상세하게는 사용자의 음성 및 모션을 이용하여 사용자를 인식하고, 사용자 인터랙션을 수행하는 디스플레이 장치 및 그 방법에 대한 것이다.
전자 기술의 발달에 힘입어 다양한 유형의 전자 장치가 개발 및 보급되고 있다. 그 중 대표적인 예로, TV 등과 같은 디스플레이 장치가 있을 수 있다.
TV의 경우 디스플레이 사이즈가 크기 때문에 사용자는 디스플레이 장치로부터 일정 거리 이상 떨어진 상태에서 이용하는 것이 일반적이다. 이 경우, TV의 동작을 제어하기 위하여 리모콘을 이용할 수 있다.
하지만, 리모콘은 상당히 작기 때문에 분실 위험이 크다. 또한, 리모콘을 이용하여 사용자 인터랙션을 하는 경우, 방향 버튼, 숫자 버튼 및 확인 버튼 등을 여러 번 조작하면서 필요한 정보를 입력하여야 하는 번거로움이 있다. 구체적으로는, 사용자 로그인을 하기 위해서는 디스플레이 장치는 사용자 ID 및 패스워드를 입력할 수 있는 UI 화면을 디스플레이한다. 사용자는 리모콘을 이용하여 사용자 ID 및 패스워드를 일일이 입력하여야 한다. 따라서, 사용자 ID 및 패스워드를 입력하는 과정이 번거로울 뿐 아니라, 이러한 정보가 제3자에게 노출될 가능성도 컸다. 로그인 동작뿐만 아니라 다양한 제어 동작을 수행함에 있어서도 리모콘은 한계가 있다.
따라서, 리모콘을 이용하지 않고 좀 더 편리하고 효율적으로 사용자 인터랙션을 수행할 수 있도록 하는 기술에 대한 필요성이 대두되었다.
본 발명은 이상과 같은 필요성에 의해 안출된 것으로, 본 발명의 목적은, 사용자의 음성 및 모션을 이용하여 사용자를 인식하고, 사용자 인터랙션을 수행하는 디스플레이 장치 및 그 사용자 인터랙션 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 디스플레이 장치는, 사용자의 음성 신호를 입력받기 위한 마이크, 상기 사용자를 촬영하기 위한 카메라, 사용자의 정보가 등록된 저장부 및 상기 카메라에서 촬영된 촬영 이미지 및 상기 음성 신호 중 적어도 하나를 이용하여 상기 사용자가 상기 저장부에 등록된 사용자인지 여부를 인식하고, 상기 등록된 사용자이면 상기 사용자의 사용자 모션 및 상기 음성 신호 중 적어도 하나에 매칭된 제어 동작을 수행하는 제어부를 포함한다.
여기서, 상기 제어부는, 상기 음성 신호가 입력되면, 상기 음성 신호의 특성을 검출하고, 검출된 특성과 상기 사용자 정보 내의 음성 정보를 비교하여, 일치하면 상기 사용자가 상기 저장부에 등록된 사용자라고 판단할 수 있다.
또한, 상기 제어부는, 상기 촬영 이미지가 입력되면, 상기 촬영 이미지로부터 사용자 특징 정보를 검출하고, 상기 사용자 특징 정보와 상기 사용자 정보 내의 특징 정보를 비교하여 일치하면, 상기 사용자가 상기 저장부에 등록된 사용자라고 판단할 수 있다.
또한, 상기 제어부는, 상기 디스플레이 장치가 턴 오프된 상태에서, 상기 등록된 사용자로부터 상기 디스플레이 장치를 턴 온하기 위한 사용자 모션 및 음성 신호가 입력되면, 사용자 로그인 및 턴 온 동작을 수행할 수 있다.
또한, 상기 디스플레이 장치가 턴 오프된 상태에서 상기 마이크는 활성화 상태를 유지하고, 상기 카메라는 비활성화 상태를 유지하며, 상기 제어부는, 상기 디스플레이 장치가 턴 오프된 상태에서 상기 마이크에 상기 음성 신호가 입력되면 상기 음성 신호가 상기 등록된 사용자의 음성 신호인지 여부를 확인하고, 상기 등록된 사용자의 음성 신호이면 상기 카메라를 활성화시켜 상기 사용자를 촬영하며, 상기 카메라에서 촬영된 촬영 이미지를 분석하여 상기 사용자 모션을 감지할 수 있다.
또는, 상기 카메라가 활성화되면 상기 사용자 모션을 유도하기 위한 어포던스 패턴을 디스플레이하는 디스플레이부를 더 포함할 수 있다. 이 경우, 상기 제어부는, 상기 어포던스 패턴이 디스플레이된 상태에서 상기 사용자의 움직임이 감지되면 상기 움직임에 따라 상기 어포던스 패턴 상에 그래픽 오브젝트를 렌더링할 수 있다.
또는, 상기 제어 동작은, 상기 디스플레이 장치를 턴 온시키는 턴 온 동작, 상기 디스플레이 장치를 턴 오프시키는 턴 오프 동작, 사용자 로그인 동작, 상기 디스플레이부에 디스플레이되는 컨텐츠의 오디오 신호 출력을 중지하는 음 소거 동작, 알람 출력을 중지하고 알람 시간을 재설정하는 스누즈 동작 중 적어도 하나를 포함할 수 있다.
또는, 상기 디스플레이 장치가 턴 오프된 상태에서 상기 카메라는 활성화 상태를 유지하고, 상기 마이크는 비활성화 상태를 유지하며, 상기 제어부는, 상기 디스플레이 장치가 턴 오프된 상태에서 상기 사용자가 촬영되면 상기 촬영 이미지를 분석하고, 상기 촬영 이미지로부터 상기 사용자 모션이 인식되면 상기 마이크를 활성화시켜 상기 음성 신호를 입력받을 수 있다.
또한, 디스플레이 장치는 스피커를 더 포함할 수 있으며, 이 경우, 상기 제어부는, 기 설정된 알람 시간이 도래하면 상기 스피커를 통해 알람 신호를 출력하며, 상기 알람 신호가 출력되고 있는 상태에서, 상기 저장부에 등록된 사용자로부터 실행 중지 모션이 입력되고, 후속 알람 시간을 의미하는 음성 신호가 입력되면, 상기 알람 신호의 출력을 중지하고 상기 후속 알람 시간에 따라 알람 기능을 다시 세팅할 수 있다.
또는, 디스플레이 장치는, 외부 장치와 통신을 수행하기 위한 통신부를 더 포함하며, 상기 마이크 및 상기 카메라 중 적어도 하나는 상기 외부 장치에 탑재되며, 상기 통신부는 상기 카메라에서 촬영된 촬영 이미지 및 상기 마이크를 통해 입력된 음성 신호 중 적어도 하나를 수신할 수 있다.
한편, 본 발명의 일 실시 예에 따른 디스플레이 장치의 사용자 인터랙션 방법은, 마이크를 통해 사용자의 음성 신호를 입력받는 단계, 카메라를 이용하여 상기 사용자를 촬영하는 단계, 상기 카메라에서 촬영된 촬영 이미지 및 상기 음성 신호 중 적어도 하나를 이용하여 상기 사용자가 등록된 사용자인지 여부를 인식하는 단계 및 상기 등록된 사용자이면 상기 사용자의 사용자 모션 및 상기 음성 신호 중 적어도 하나에 매칭된 제어 동작을 수행하는 단계를 포함한다.
여기서, 상기 인식하는 단계는, 상기 음성 신호가 입력되면, 상기 음성 신호의 특성을 검출하고, 검출된 특성과 상기 사용자 정보 내의 음성 정보를 비교하여, 일치하면 상기 사용자가 상기 등록된 사용자라고 판단하는 단계를 포함한다.
그리고, 상기 인식하는 단계는, 상기 촬영 이미지가 입력되면, 상기 촬영 이미지로부터 사용자 특징 정보를 검출하고, 상기 사용자 특징 정보와 상기 사용자 정보 내의 특징 정보를 비교하여, 일치하면 상기 사용자가 상기 등록된 사용자라고 판단하는 단계를 포함할 수 있다.
또한, 상기 제어 동작을 수행하는 단계는, 상기 디스플레이 장치가 턴 오프된 상태에서, 상기 등록된 사용자로부터 상기 디스플레이 장치를 턴 온하기 위한 사용자 모션 및 음성 신호가 입력된 것으로 판단되면, 사용자 로그인 및 턴 온 동작을 수행하는 단계를 포함할 수 있다.
또한, 상기 디스플레이 장치가 턴 오프된 상태에서 상기 마이크는 활성화 상태를 유지하고, 상기 카메라는 비활성화 상태를 유지하며, 상기 사용자 인터랙션 방법은, 상기 디스플레이 장치가 턴 오프된 상태에서 등록된 사용자의 음성 신호가 입력되면, 상기 카메라를 활성화시키는 단계를 더 포함할 수 있다.
그리고, 상기 카메라가 활성화되면 상기 사용자 모션을 유도하기 위한 어포던스 패턴을 디스플레이하는 단계, 상기 어포던스 패턴이 디스플레이된 상태에서 상기 사용자의 움직임이 감지되면 상기 움직임에 따라 상기 어포던스 패턴 상에 그래픽 오브젝트를 렌더링하는 단계를 더 포함할 수도 있다.
또한, 상기 제어 동작은, 상기 디스플레이 장치를 턴 온시키는 턴 온 동작, 상기 디스플레이 장치를 턴 오프시키는 턴 오프 동작, 사용자 로그인 동작, 컨텐츠의 오디오 신호 출력을 중지하는 음 소거 동작, 알람 출력을 중지하고 알람 시간을 재설정하는 스누즈 동작 중 적어도 하나를 포함할 수도 있다.
또한, 상기 디스플레이 장치가 턴 오프된 상태에서 상기 카메라는 활성화 상태를 유지하고, 상기 마이크는 비활성화 상태를 유지하며, 상기 사용자 인터랙션 방법은, 상기 디스플레이 장치가 턴 오프된 상태에서 등록된 사용자가 촬영되면, 상기 마이크를 활성화시키는 단계를 더 포함할 수도 있다.
또는, 기 설정된 알람 시간이 도래하면 상기 스피커를 통해 알람 신호를 출력하는 단계, 상기 알람 신호가 출력되고 있는 상태에서, 상기 등록된 사용자로부터 실행 중지 모션이 입력되고, 후속 알람 시간을 의미하는 음성 신호가 입력되면, 상기 알람 신호의 출력을 중지하고 상기 후속 알람 시간에 따라 알람 기능을 다시 세팅하는 단계를 더 포함할 수도 있다.
한편, 본 발명의 다른 실시 예에 따르면, 디스플레이 장치는, 사용자의 음성 신호를 입력받기 위한 마이크, 상기 사용자를 촬영하기 위한 카메라, 기 설정된 알람 시간이 저장된 저장부, 알람 신호를 출력하기 위한 스피커 및 상기 디스플레이 장치가 턴 오프된 상태에서 상기 알람 시간이 도래하면 상기 알람 신호를 출력하도록 상기 스피커를 제어하고, 상기 마이크 및 상기 카메라를 각각 활성화시키는 제어부를 포함하며, 상기 제어부는, 상기 알람 신호가 출력되는 동안 상기 마이크를 통해 후속 알람 시간을 포함하는 음성 신호가 입력되고, 상기 카메라에 의해 촬영된 촬영 이미지로부터 상기 사용자의 실행 중지 모션이 감지되면, 상기 알람 신호의 출력을 중지하고 상기 후속 알람 시간을 다시 세팅할 수 있다.
이상과 같은 본 발명의 다양한 실시 예들에 따르면, 디스플레이 장치는 사용자의 음성 및 모션을 이용하여, 사용자를 인식하고 그 사용자의 의도에 맞는 제어 동작을 수행할 수 있다. 이에 따라 사용자는, 리모콘 없이도 편리하고 안정적으로 디스플레이 장치를 제어할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 디스플레이 장치의 동작을 설명하기 위한 도면,
도 2는 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도,
도 3은 본 발명의 일 실시 예에 따른 사용자 인터랙션 방법을 설명하기 위한 흐름도,
도 4는 도 3의 사용자 인터랙션 과정을 구체적으로 설명하기 위한 도면,
도 5는 어포던스 패턴의 일 예를 나타내는 도면,
도 6은 디스플레이 장치의 세부 구성의 일 예를 나타내는 블럭도,
도 7은 외장형 마이크 및 카메라를 이용하는 디스플레이 장치의 동작을 설명하기 위한 도면,
도 8은 도 7의 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도,
도 9는 본 발명의 또 다른 실시 예에 따른 사용자 인터랙션 방법을 설명하기 위한 흐름도,
도 10 및 도 11은 스누즈 기능을 사용하는 다양한 실시 예들을 설명하기 위한 도면,
도 12는 본 발명의 또 다른 실시 예에 따라 음 소거 기능을 수행하는 사용자 인터랙션 방법을 설명하기 위한 도면,
도 13은 음성 코맨드 등록 과정의 일 예를 나타내는 도면,
도 14는 사용자 모션 등록 과정의 일 예를 나타내는 도면, 그리고,
도 15는 본 발명의 다양한 실시 예들에 따른 사용자 인터랙션 방법을 종합적으로 설명하기 위한 흐름도이다.
이하에서 첨부된 도면을 이용하여 본 발명에 대하여 구체적으로 설명한다.
도 1은 본 발명의 일 실시 예에 따른 디스플레이 장치의 동작을 설명하기 위한 도면이다. 도 1에 따르면, 디스플레이 장치(100)는 마이크(110) 및 카메라(120)를 포함할 수 있다. 디스플레이 장치(100)는 디스플레이 기능을 갖춘 장치를 의미한다. 도 1에서는 TV를 도시하였으나, 디스플레이 장치(100)는 TV 이외에도 모니터, 랩탑 PC, 키오스크, 휴대폰, 태블릿 PC, 전자 액자 등과 같은 다양한 유형의 장치로 구현될 수 있다.
디스플레이 장치(100)는 사용자로부터 야기된 오디오 신호 및 사용자 모션에 대응되는 동작을 수행할 수 있다. 오디오 신호에는 사용자의 음성 신호뿐만 아니라 박수 소리나 물건을 두드리는 소리, 손가락 부딪히는 소리 등과 같은 다양한 오디오 신호가 포함될 수 있으나, 이하에서는 사용자가 음성 신호를 이용하는 경우를 기준으로 설명한다.
사용자(10)는 이러한 오디오 신호 및 모션을 이용하여 디스플레이 장치(100)의 동작을 제어할 수 있다. 디스플레이 장치(100)는 사용자를 인식하고, 그 인식 결과에 따라 제어 동작 수행 여부를 결정할 수 있다. 예를 들어, 특정 사용자들에 대한 사용자 정보가 디스플레이 장치(100)에 등록되어 있다면, 디스플레이 장치(100)는 사용자의 촬영 이미지나 그 음성 신호를 이용하여, 그 사용자가 등록된 사용자 인지 여부를 인식할 수 있다.
이에 따라, 등록된 사용자라고 판단되면, 디스플레이 장치(100)는 그 음성 신호 및 사용자 모션 중 적어도 하나에 대응되는 제어 동작을 수행할 수 있다. 제어 동작에는 다양한 동작들이 포함될 수 있다. 예를 들어, 디스플레이 장치를 턴 온시키는 턴 온 동작, 디스플레이 장치를 턴 오프시키는 턴 오프 동작, 사용자 로그인 동작, 컨텐츠의 오디오 신호 출력을 중지하는 음 소거 동작, 알람 출력을 중지하고 알람 시간을 재설정하는 스누즈 동작 등과 같은 다양한 제어 동작들이 수행될 수 있다. 이 밖에도, 채널 조정 동작, 볼륨 조정 동작, 텍스트 입력 동작, 커서 이동 동작, 메뉴 선택 동작, 통신 연결 동작, 웹 브라우저 실행 동작 등과 같은 다양한 제어 동작들이, 등록된 사용자의 사용자 모션이나 음성 신호에 따라 선택적으로 실행될 수 있다.
도 1에서는 사용자(10)가 자신의 음성 및 사용자 모션을 이용하여 사용자 로그인 및 턴 온 동작을 수행하는 과정을 도시하였다.
도 1에 도시된 바와 같이, 디스플레이 장치(100)가 턴 오프되어 있는 상태에서 사용자(10)가 임의의 음성 신호를 발화하면서, 임의의 모션을 취하면, 디스플레이 장치(100)는 사용자가 발화한 음성 신호를 분석하고, 사용자를 촬영하여 사용자 모션을 인식한다. 일 예로 사용자가 "TV 켜"라고 말하면서(S110), 손가락을 허공에 대고 원을 그리는 모션을 취할 수 있다(S120).
디스플레이 장치(100)는 그 음성 신호 및 촬영 이미지 중 적어도 하나를 이용하여 사용자를 인식할 수 있다. 인식 방법에 대해서는 후술하는 부분에서 구체적으로 설명한다.
디스플레이 장치(100)는 사용자가 인식되면, 그 음성 신호 및 사용자 모션 중 적어도 하나에 대응되는 제어 동작을 수행한다. 도 1에서는 디스플레이 장치(100)가 "TV 켜"라는 음성 신호 및 원을 그리는 사용자 모션에 따라, 사용자 로그인 동작 및 턴 온 동작을 자동으로 수행하는 것을 도시하였다. 여기서, 음성 신호 및 사용자 모션은 각각 독립적으로 상이한 제어 동작에 매칭될 수도 있고, 음성 신호 및 사용자 모션의 조합이 복수의 상이한 제어 동작 또는 하나의 단일 제어 동작에 매칭될 수도 있다.
이에 따라, 디스플레이 장치(100)는 화면(11)을 디스플레이하고, 화면(11) 내의 일 지점에 사용자(10)가 로그인 되었음을 알리는 오브젝트(12)를 디스플레이한다. 도 1에서는 텍스트 형태의 오브젝트(12)가 도시되었으나, 이미지나 아이콘 등과 같은 다양한 오브젝트(12)가 사용될 수도 있다. 도 1에서는 턴 온 뿐만 아니라 사용자 로그인 까지 함께 이루어지는 경우를 도시하였으나, 사용자 모션 및 음성 신호에 대해 턴 온 동작만 매칭된 경우에는, 사용자 로그인 없이 턴 온 동작만 수행될 수도 있다.
한편, 등록되지 않은 사용자가 음성 신호나 사용자 모션을 입력한 경우에는, 디스플레이 장치(100)는 아무런 피드백을 제공하지 않을 수도 있고, 실시 예에 따라서는, 에러 메시지를 디스플레이하거나, 스피커를 통해 에러 알림 음을 출력할 수도 있다. 따라서, 등록되지 않은 사용자는 모션 및 음성을 이용하여 디스플레이 장치(100)와 인터랙션을 할 수 없게 된다.
도 2는 도 1의 디스플레이 장치의 구성을 설명하기 위한 블럭도이다. 도 2에 따르면, 디스플레이 장치(100)는 마이크(110), 카메라(120), 제어부(130), 저장부(140)를 포함한다.
마이크(110)는 각종 오디오 신호를 입력받기 위한 구성요소이다. 일 예로, 마이크(110)는 사용자가 발화한 음성 신호를 입력받을 수 있다.
카메라(120)는 사용자를 촬영하기 위한 구성요소이다. 카메라(120)는 디스플레이 장치(100)의 전방을 향하도록 배치될 수 있다.
도 1에서는 마이크(110) 및 카메라(120)가 디스플레이 장치(100)의 상단 가장 자리 중앙 부분에 나란하게 배치된 상태를 도시하였으나, 마이크(110) 및 카메라(120)의 배치 위치나 개수 등은 다양하게 변경될 수 있다.
저장부(140)는 각종 프로그램 및 데이터가 저장되어 있는 구성요소이다. 저장부(140)에는 등록된 사용자의 사용자 정보가 저장될 수 있다. 사용자 정보에는 사용자의 음성 정보, 얼굴이나 기타 신체의 특징 정보, 이름, 성별, 나이, 선호 컨텐츠, 선호 기능 등과 같은 다양한 정보들이 포함될 수 있다.
또한, 저장부(140)는 기 설정된 오디오 코맨드 및 사용자 모션도 저장할 수 있다. 오디오 코맨드란 디스플레이 장치(100)의 제어 동작을 지시하기 위한 각종 오디오 신호를 의미한다. 가령, 디스플레이 장치(100)의 전원을 켜는 턴-온 동작에 대해서는 "턴-온", "TV 켜", "파워 온" 등과 같은 음성 신호들이 음성 코맨드로 등록되어 있을 수 있다. 사용자 모션이란 사용자의 움직임이나 얼굴 표정 변화 등을 의미한다. 전원을 켜는 턴-온 동작에 대해서는 사용자가 손바닥을 보인 상태로 특정 형상을 그리는 제스쳐, 손가락을 디스플레이 장치(100)를 가리킨 상태로 특정 형상을 그리는 제스쳐 등이 사용자 모션으로 등록될 수 있다. 또는, 사용자가 치아를 드러내며 웃는 표정을 짓거나, 디스플레이 장치(100)를 일정 시간 동안 가만히 응시하는 것도 사용자 모션으로 등록될 수 있다.
음성 코맨드 및 사용자 모션은 사용자마다 개별적으로 설정되어 저장부(140)에 등록될 수 있다. 음성 코맨드 및 사용자 모션 설정 과정에 대해서는 후술하는 부분에서 구체적으로 설명한다.
제어부(130)는 마이크(110)를 통해 입력되는 오디오 신호 및 카메라(120)를 통해 촬영되는 사용자 모션을 종합적으로 고려하여, 사용자를 인식하고, 사용자가 원하는 제어 동작을 수행할 수 있다.
사용자 인식 작업은 마이크(110)를 통해 입력되는 음성 신호를 이용하여 수행할 수도 있고, 카메라(120)에 의해 촬영된 촬영 이미지를 이용하여 수행할 수도 있다. 또는, 음성 신호 및 촬영 이미지 모두를 이용하여 수행할 수도 있다.
음성 신호를 이용하는 경우를 먼저 설명하면, 제어부(130)는 마이크(110)를 통해 입력된 음성 신호 그 자체의 주파수 및 진폭 변화 특성을 검출할 수 있다. 이에 따라, 제어부(130)는 저장부(140)에 저장된 음성 정보의 주파수 및 진폭 변화 특성과 비교하여, 일치 여부를 판단할 수도 있다. 사람의 음성 신호는 그 발음이나 억양, 빠르기 등이 전부 상이하기 때문에 음성 신호 그 자체의 특성을 분석하면, 어떤 사용자의 음성 신호인지를 알 수 있다. 제어부(130)는 검출된 음성 특성과 저장부(140)에 저장된 음성 정보가 일정 비율 이상 일치하면, 등록된 사용자의 음성 신호인 것으로 판단한다.
다음으로, 촬영 이미지를 이용하여 사용자를 인식하는 경우를 설명하면, 제어부(130)는 촬영 이미지를 복수의 픽셀 블럭 단위로 구분하고, 각 픽셀 블럭 별로 대표 픽셀 값을 산출한다. 대표 픽셀 값은 픽셀 블럭 내에 포함되는 전체 픽셀들의 평균값으로 산출될 수도 있고, 최대 분포 값이나 중간 값, 최대 값 등으로 산출될 수도 있다. 제어부(130)는 각 픽셀 블럭의 대표 픽셀 값을 서로 비교하여 유사 범위의 대표 픽셀 값을 가지는 픽셀 블럭들이 연속적으로 배치되었는지 여부를 판단한다. 연속적으로 배치된 경우 제어부(130)는 그 픽셀 블럭들이 하나의 오브젝트를 구성하는 것으로 판단한다. 제어부(130)는 오브젝트로 판단된 픽셀 블럭들 중에서 사용자의 피부색과 유사한 픽셀 값 범위를 갖는 오브젝트가 존재하는지 판단한다. 제어부(130)는 이러한 오브젝트가 존재하면, 그 오브젝트를 사용자의 얼굴 영역이나 기타 신체 영역으로 인식하고, 나머지 부분은 주변 배경으로 판단할 수 있다.
제어부(130)는 촬영 이미지에서 사용자의 얼굴 영역으로 추정되는 오브젝트가 검출되면, 그 오브젝트의 특성에 기초하여 사용자를 인식할 수 있다.
구체적으로는, 저장부(140)에는 사전에 반복적으로 수행된 실험 결과에 기초하여 결정된 얼굴 영역의 형태 예들에 대한 데이터가 저장되어 있을 수 있다. 제어부(130)는 저장부(140)에 저장된 데이터에 기초하여, 얼굴 영역을 선택할 수 있다.
얼굴 영역이 선택되면, 제어부(130)는 그 얼굴 영역으로부터 사용자 특징 정보를 검출한다. 사용자 특징 정보의 예로는, 얼굴 길이, 얼굴 너비, 미간 거리, 콧등 길이, 입술 꼬리 각도, 얼굴 형태, 크기, 색깔, 눈 크기, 눈동자 색깔, 눈 위치, 눈 꼬리 각도, 눈 형태, 코 크기, 귀 위치, 눈썹 굵기, 눈썹 위치, 헤어 스타일, 헤어 컬러, 의복 컬러, 의복 형태, 수염 위치, 수염 모양, 수염 색깔, 안경, 피어싱, 이어링(ear ring) 등이 있을 수 있다. 제어부(130)는 얼굴 영역을 형성하는 각 픽셀의 픽셀 값들을 비교하여, 유사한 픽셀 값을 가지는 픽셀들의 배치 형태에 따라 사용자 특징 정보를 검출할 수 있다. 제어부(130)는 저장부(140)에 기 저장된 사용자 정보 내의 특징 정보와, 촬영 이미지로부터 검출된 사용자 특징 정보를 비교하여 어떤 사용자 인지를 인식할 수 있다.
한편, 사용자의 인식 정확도를 높이기 위해서는, 제어부(130)는 음성 신호 및 촬영 이미지를 모두 이용하여 사용자를 인식할 수도 있다.
제어부(130)는 이상과 같은 다양한 방법에 따라 사용자가 인식되면, 그 사용자의 음성 신호 및 사용자 모션에 매칭된 제어 동작을 수행할 수 있다. 일 예로, 도 1에서 설명한 바와 같이 사용자 로그인 동작 및 턴 온 동작을 일괄적으로 수행할 수 있다.
이 경우, 제어부(130)는 마이크(110)를 통해 입력되는 오디오 신호를 분석하여 오디오 코맨드를 검출할 수 있다. 음성 신호가 입력된 경우에는 음성 코맨드가 검출될 수 있다. 제어부(130)는 동적정합법(Dynamic time warping method), 은닉 마코프모델(Hidden Markov Model), 신경망(Neural Network) 등과 같은 다양한 인식 알고리즘 중 적어도 하나를 이용하여 음성 신호를 인식하고, 인식된 음성을 텍스트로 변환할 수 있다. 일 예로, 은닉 마코프 모델을 사용하는 경우, 제어부(130)는 음성 신호의 시간적 변화 및 스펙트럼 변화를 각각 모델링하여, 기 저장된 언어 데이터베이스에서 유사한 어휘를 검출한다. 이에 따라, 검출된 어휘를 텍스트로 출력할 수 있다. 제어부(130)는 변환된 텍스트와 저장부(140)에 기 저장된 음성 코맨드를 비교하여 일치 여부를 확인한다. 확인 결과 일치하면, 제어부(130)는 그 음성 코맨드에 매칭되는 제어 동작을 수행할 수 있다.
또한, 제어부(130)는 카메라(120)에 의해 촬영된 촬영 이미지를 분석하여 사용자 모션을 인식할 수 있다. 도 1에서는 하나의 카메라(120)만을 도시하였으나, 카메라(120)의 개수는 실시 예에 따라 다양하게 구현될 수 있다. 카메라(120)에는 상보성 금속 산화물 반도체(Complementary Metal Oxide Semiconductor: CMOS)와 전하결합소자(Charge Coupled Device: CCD) 등과 같은 이미지 센서들이 사용될 수 있다. 카메라(120)는 이미지 센서를 이용하여 촬영된 촬영 이미지를 제어부(130)로 제공할 수 있다. 촬영 이미지는 복수의 촬영 프레임으로 구성될 수 있다.
제어부(130)는 각 촬영 프레임에서 오브젝트가 존재하는 픽셀 위치를 서로 비교하여 사용자가 어떻게 움직이는지를 판단할 수 있다. 이에 따라, 사용자가 기 등록된 사용자 모션과 유사한 제스쳐를 취했다면, 그 사용자 모션에 매칭된 제어 동작을 수행할 수 있다.
한편, 상술한 바와 같이, 음성 신호가 아니라 사용자의 얼굴 특성을 이용하여 사용자를 식별할 수 있는 경우, 사용자는 반드시 자신의 목소리로 음성 신호를 입력하지 않고 손가락을 부딪히는 소리나 박수 소리를 오디오 코맨드로 등록해 둘 수도 있다. 또한, 손가락을 부딪히는 동작(finger snap)이나 박수치는 동작을 사용자 모션으로 등록해둘 수 있다. 일 예로, 손가락을 부딪히는 동작과 그 때의 소리를 각각 사용자 모션 및 오디오 코맨드로 등록해 두었다면, 사용자는 디스플레이 장치(100)를 응시하면서 손가락을 부딪혀서 소리를 내는 것만으로 턴 온 및 사용자 로그인을 수행할 수 있다. 이 경우, 제어부(130)는 사용자의 얼굴 특성에 기초하여 사용자를 식별하여, 해당 사용자의 계정으로 로그인할 수 있다.
이상과 같이, 제어부(130)는 사용자의 목소리 특성 및 얼굴 특징 중 적어도 하나가 모두 저장부(140)에 기 저장된 데이터와 매칭되면, 그 사용자의 의도에 맞는 제어 동작을 수행할 수 있다.
복수의 사용자가 존재하는 경우, 각 사용자는 디스플레이 장치(100)에 자신만의 고유 계정을 등록해 둘 수 있다. 이에 따라, 각 사용자는 자신의 선호 채널이나, 오디오 볼륨, 컬러, 휘도, 등과 같은 다양한 옵션들을 자신의 계정에 등록해 둘 수 있다. 제어부(130)는 사용자 로그인이 이루어지면, 그 사용자(10)에 대응되는 사용자 계정에 등록된 옵션에 따라, 디스플레이 장치(100)의 동작을 제어할 수 있다.
이상과 같은 실시 예에 따르면, 디스플레이 장치(100)가 턴 오프되어 있던 상태에서도 사용자가 자신의 목소리로 기 설정된 음성 코맨드를 발화하면서 정해진 모션을 취하게 되면, 자동으로 디스플레이 장치(100)가 켜지고 로그인까지 바로 이루어질 수 있다. 이러한 실시 예에서, 마이크(110) 및 카메라(120) 중 적어도 하나는 디스플레이 장치(100)가 턴 오프 되어 있는 상태에서도 활성화 상태를 유지하여야 한다. 여기서 활성화 상태란 전원이 공급되어 음성 입력 작업 및 촬영 작업을 수행하고 있는 상태를 의미한다.
도 3은 마이크(110)가 항상 활성화되어 있는 경우의 사용자 인터랙션 방법의 일 예를 설명하기 위한 흐름도이다. 도 3에 따르면, 디스플레이 장치(100)는 턴-오프 상태에서도 마이크(110)를 활성화시킨다(S310). 여기서 턴-오프 상태는 전원 코드는 연결되어 있는 소프트 턴-오프 상태를 의미한다.
이러한 상태에서 사용자의 음성 신호가 마이크(110)를 통해 입력되면(S320), 음성 신호를 분석하여 등록된 사용자의 음성 신호인지 여부를 판단한다(S330). 등록된 사용자의 음성 신호라면, 그 음성 신호에 기 설정된 음성 코맨드가 포함되었는지 판단하는 한편, 디스플레이 장치(100)는 카메라(120)를 활성화시킨다(S340). 즉, 본 실시 예에서는, 디스플레이 장치(100)가 턴 오프된 상태에서 카메라(120)는 통상적으로 비활성화상태를 유지하여, 전력 소모를 최소화한다.
카메라(120)가 활성화되어 있는 상태에서 사용자가 촬영되면(S350), 디스플레이 장치(100)는 촬영 이미지를 분석하여(S360), 기 설정된 사용자 모션이 입력되었는지 여부를 판단한다(S370). 판단 결과 사용자 모션도 입력되었다면, 디스플레이 장치(100)는 사용자의 음성 신호 및 사용자 모션 중 적어도 하나에 매칭된 제어 동작을 수행한다(S380). 일 예로, 디스플레이 장치(100)는 자동으로 턴 온되면서 사용자 로그인 동작을 수행할 수 있다. 이 밖에도 다양한 제어 동작이 수행될 수 있음은 상술한 바와 같다.
또한, 도 3에서는 마이크(110)가 먼저 활성화된 후, 카메라(120)가 활성화되는 실시 예를 도시하였으나, 활성화 순서는 다르게 구현될 수도 있다.
즉, 본 발명의 다른 실시 예에 따르면, 디스플레이 장치가 턴 오프된 상태에서 카메라(120)는 활성화 상태를 유지하고, 마이크(110)는 비활성화 상태를 유지할 수도 있다. 이러한 경우, 제어부(130)는 디스플레이 장치가 턴 오프된 상태에서 사용자가 촬영이 되면, 그 촬영 이미지를 분석하여 등록된 사용자로부터 사용자 모션이 입력되었는지 여부를 판단한다. 이에 따라 등록된 사용자로부터 사용자 모션이 입력되었다고 판단되면 제어부(130)는 마이크(110)를 활성화시킨다. 활성화된 마이크(110)를 통해 음성 신호가 입력되면 제어부(130)는 음성 신호를 분석하여 음성 코맨드를 검출하고, 검출된 음성 코맨드가 기 설정된 코맨드이면 턴 온 동작 및 사용자 로그인 동작을 수행한다. 또 다른 실시 예에 따르면, 음성 신호 분석 과정에서도 사용자의 목소리 특성을 이용하여 등록된 사용자의 음성인지 여부를 한번 더 확인할 수도 있다.
한편, 본 발명의 또 다른 실시 예에 따르면, 마이크(110) 및 카메라(120)는 디스플레이 장치(100)가 턴 오프된 상태에서도 각각 활성화 상태를 유지할 수 있다. 이 경우에는 사용자 모션 및 음성 신호를 동시에 입력받아 처리할 수도 있다.
또는, 본 발명의 또 다른 실시 예에 따르면, 디스플레이 장치(100)는 마이크(110) 및 카메라(120) 이외에 사용자의 존재 유무를 감지할 수 있는 근접 감지 센서를 더 포함할 수도 있다. 근접 감지 센서에 의해 사용자가 디스플레이 장치(100)의 전방에 존재하는 것이 감지되면, 제어부(130)는 마이크(110) 및 카메라(120) 중 적어도 하나를 활성화시켜 상술한 다양한 실시 예에서 설명한 바와 같은 사용자 인터랙션을 수행할 수 있다.
도 1에서는 음성 신호 및 모션이 동시에 입력되는 경우를 도시하였으나, 본 발명의 또 다른 실시 예에 따르면 음성 신호 및 모션은 순차적으로 입력될 수도 있다. 가령, 도 3에서 설명한 바와 같이 디스플레이 장치(100)가 턴 오프된 상태에서 마이크(110)만이 활성화되어 있다면, 모션은 입력할 수 없다. 따라서, 사용자는 음성 신호를 먼저 입력하고, 모션은 그 다음에 입력할 수 있다. 이 경우, 디스플레이 장치(100)는 사용자의 모션 입력을 유도하기 위한 어포던스 패턴을 디스플레이하여 줄 수 있다.
도 4는 어포던스 패턴을 제공하는 실시 예를 설명하기 위한 도면이다. 도 4에 따르면, 사용자(10)가 음성 신호를 입력하면(S410), 디스플레이 장치(100)가 이를 입력받아 분석한다. 분석 결과, 등록된 사용자가 특정 음성 코맨드를 발화한 것으로 판단되면, 디스플레이 장치(100)의 제어부(130)는 카메라(120)를 활성화시키고, 디스플레이부(150)에 어포던스 패턴(400)을 디스플레이한다. 어포던스 패턴(400)이란 사용자로 하여금 특정 패턴의 모션을 취하도록 유도하기 위한 패턴이다. 사용자는 어포던스 패턴(400)이 디스플레이된 것을 보고 자신의 음성 신호가 정상적으로 입력되었다는 사실과, 자신이 특정 패턴의 모션을 입력하여야 한다는 사실을 직관적으로 알 수 있게 된다.
이에 따라, 사용자(10)가 손을 들어 기 설정된 모션을 입력하게 되면(S420), 제어부(130)는 사용자의 움직임에 따라 어포던스 패턴(400) 상에 그래픽 오브젝트를 렌더링하여 줄 수도 있다.
도 4에서는 등록된 사용자가 음성 신호 및 사용자 모션을 입력한 경우를 설명하였으나, 미등록된 사용자가 음성 코맨드를 발화한 경우에는, 디스플레이 장치(100)는 아무런 피드백도 하지 않을 수도 있음은 상술한 바와 같다.
도 5는 어포던스 패턴(400)의 일 예를 나타내는 도면이다. 도 5에 따르면, 어포던스 패턴(400)은 복수의 원형 객체(410-1 ~ 410-9) 및 각 원형 객체를 연결하는 라인으로 구성될 수 있다. 사용자는 모션 등록 시에 사용한 자신의 신체 일부(예를 들어, 손바닥, 손가락 등)을 이용하여 허공에서 특정 패턴을 그리는 모션을 취할 수 있다. 제어부(130)는 카메라(120)에 의해 촬영되는 사용자의 움직임을 분석하여, 그 움직임에 따라 일부 원형 객체를 연결하는 그래픽 라인(450)을 렌더링한다. 도 5에서는 제2, 1, 4, 5, 6, 7, 8번째 원형 객체(410-2, 410-1, 410-4, 410-5, 410-6, 410-7, 410-8)를 따라 2자와 유사한 패턴이 렌더링된 경우를 도시하였으나, 이러한 패턴의 종류 및 형태는 사용자의 등록에 따라 다양하게 설정될 수 있다.
또는, 사용자 모션이 잘못 인식되는 것을 방지하기 위해, 그래픽 라인(450)이 렌더링되는 출발 지점은 항상 하나의 원형 객체로 고정될 수 있다. 가령, 첫 번째 원형 객체(410-1)로 고정되어 있다면, 사용자가 아래쪽으로 내려 있던 손을 들어 시계 방향으로 원을 그린 경우, 제어부(130)는 첫 번째 원형 객체(410-1)부터 시계 방향으로 배치된 원형 객체들(410-4, 410-8, 410-9, 410-6, 410-2)을 따라서 그래픽 라인(450)을 렌더링할 수 있다.
도 6은 상술한 다양한 실시 예들을 구현하기 위한 디스플레이 장치(100)의 세부 구성의 일 예를 나타내는 블럭도이다. 도 6에 따르면, 디스플레이 장치(100)는 마이크(110), 카메라(120), 제어부(130), 스피커(160), 디스플레이부(170)를 포함한다. 마이크(110), 카메라(120)에 대한 설명은 도 2에서 이미 구체적으로 설명하였으므로 중복 설명은 생략한다.
디스플레이부(150)는 각종 화면을 디스플레이하기 위한 구성요소이고, 스피커(160)는 각종 오디오 신호를 출력하기 위한 구성요소이다. 디스플레이 장치(100)에서 방송 신호를 수신하여 방송 컨텐츠를 출력하는 경우, 디스플레이부(150)는 방송 컨텐츠 화면을 디스플레이하고, 스피커(160)에서는 방송 컨텐츠 화면에 동기된 오디오 신호를 출력한다. 방송 컨텐츠나 기타 컨텐츠를 처리하기 위해서 튜너, 디멀티플렉서, 비디오 디코더, 오디오 디코더, 필터, 증폭기 등과 같은 다양한 구성요소가 추가로 필요할 수 있지만, 이러한 구성요소들은 본 실시 예의 동작과는 직접적인 관련이 없으므로 도시 및 설명은 생략한다.
제어부(130)는 저장부(140)에 저장된 각종 프로그램 및 데이터를 이용하여 상술한 다양한 실시 예들에서 설명한 사용자 인터랙션을 수행할 수 있다.
저장부(140)에는 OS(Operating System : 141), 음성 인식 모듈(142), 모션 인식 모듈(143), 로그인 모듈(144), 그래픽 모듈(145) 등과 같은 다양한 소프트웨어들이 저장될 수 있다.
OS(141)는 하드웨어 관리와 메모리, 보안 등의 기본적인 기능을 담당하는 계층이다. OS(141)는 디스플레이부(150)를 구동시키기 위한 디스플레이 드라이버, 통신을 수행하기 위한 통신 드라이버, 카메라 드라이버, 오디오 드라이버, 전원관리자 등과 같은 다양한 모듈을 구동시켜 디스플레이 장치(100)의 동작을 제어할 수 있다.
음성 인식 모듈(142)은 마이크(110)를 통해 입력된 오디오 신호를 분석하여, 사용자를 인식하고, 기 설정된 오디오 코맨드를 검출하기 위한 소프트웨어 모듈이다.
모션 인식 모듈(143)은 카메라(120)에서 촬영된 촬영 이미지를 분석하여 사용자를 인식하고, 사용자 모션을 검출하기 위한 소프트웨어 모듈이다.
로그인 모듈(143)은 음성 인식 모듈(142) 및 모션 인식 모듈(143)에 의해 인식된 결과가 기 등록된 데이터와 일치하면, 그 데이터에 대응되는 사용자에 대한 로그인 동작을 수행하는 소프트웨어 모듈이다.
그래픽 모듈(145)은 디스플레이부(150)에 각종 그래픽 객체를 렌더링하기 위한 소프트웨어 모듈이다.
제어부(130)는 저장부(140)에 저장된 각종 모듈을 이용하여 다양한 동작을 수행할 수 있다. 제어부(130)는 메모리(131), CPU(132), GPU(Graphic Processing Unit)(133) 등을 포함한다.
메모리(131)에는 RAM, ROM 등이 포함될 수 있다. CPU(132)는 저장부(140)에 저장된 각종 프로그램을 메모리(131)에 복사하여 실행시킨다. 이에 따라, 상술한 바와 같은 다양한 동작을 수행할 수 있다.
GPU(133)는 디스플레이 장치(100)에서 디스플레이되는 각종 화면을 생성하기 위한 구성이다. 일 예로, 도 4에서 설명한 바와 같이 사용자의 음성 신호가 감지되면, GPU(133)는 그래픽 모듈(146)을 실행시켜 어포던스 패턴을 디스플레이할 수 있다. 도 6에서는 GPU(133)가 제어부(130) 내에 포함된 형태로 도시하였으나, 또 다른 실시 예에 따르면 GPU(133)가 별도의 구성요소로 마련될 수도 있음은 물론이다.
이상과 같은 실시 예들에서는 마이크(110) 및 카메라(120)가 디스플레이 장치(100)에 내장된 경우를 도시하였으나, 상술한 바와 같이 마이크(110) 및 카메라(120)는 디스플레이 장치(100)의 외부에 별도의 장치로 마련될 수도 있다.
도 7은 외장형 마이크 및 카메라를 사용하는 디스플레이 장치의 일 예를 나타내는 도면이다. 도 7에 따르면, 디스플레이 장치(100)는 리모콘(700) 및 카메라 디바이스(800) 등과 같은 각종 외부 장치와 연동할 수 있다. 각 외부 장치에는 마이크(110) 및 카메라(120)가 내장될 수 있다. 일 예로, 리모콘(700)에는 마이크(110)가 내장되고, 카메라 디바이스(800)에는 카메라(120)가 내장될 수 있다. 통상적으로 리모콘(700)은 디스플레이 장치(100)보다 사용자에 더 가까운 곳에 위치하므로, 리모콘(700)에 마이크(110)가 내장되면 사용자의 음성을 좀 더 선명하고 정확하게 인식할 수 있다. 리모콘(700)은 마이크(110)를 통해 사용자의 음성 신호가 입력되면, 입력된 음성 신호를 디스플레이 장치(100)로 전송할 수 있다. 이 경우, 리모콘(700)이 자체적으로 음성 인식 기능을 구비하고 있다면, 리모콘(700)은 음성 신호를 전달하는 대신 그 음성 신호에 대응되는 제어 신호를 전송할 수도 있다. 일 예로, 턴 온 신호를 전송할 수 있다.
또한, 사용자는 카메라 디바이스(800)를 디스플레이 장치(100)의 주변에서 사용자 방향을 향하도록 설치할 수 있다. 카메라 디바이스(800)는 카메라(120) 및 통신 인터페이스(미도시)를 포함할 수 있다. 이에 따라, 카메라(120)에 의해 촬영된 촬영 이미지는 통신 인터페이스를 통해서 디스플레이 장치(100)로 전달될 수 있다.
도 8은 도 7의 실시 예에 따라 변형된 디스플레이 장치의 블럭도를 나타낸다. 도 8에 따르면, 디스플레이 장치(100)는 마이크(110) 및 카메라(120) 등이 내장된 외부 장치와 통신을 수행하기 위한 통신부(170)를 더 포함할 수 있다. 통신부(170)는 마이크(110)를 통해 입력된 음성 신호 및 카메라(120)에 의해 촬영된 촬영 이미지를 제어부(130)로 전달한다. 통신부(170)는 다양한 통신 방식으로 통신을 수행할 수 있다. 구체적으로는, 통신부(170)는 블루투스, 와이파이, 지그비, NFC(Near Field Communication) 등과 같은 다양한 무선 통신 방식이나, USB 등과 같은 각종 시리얼 인터페이스를 통해 통신을 수행할 수 있다. 도 7 및 도 8에서는 마이크(110) 및 카메라(120) 모두가 외부 장치에 내장된 것으로 도시하였으나, 또 다른 실시 예에 따르면, 이들 구성요소 중 하나만이 외부 장치에 내장되도록 구현될 수 있음은 물론이다. 도 8에 도시된 나머지 구성요소들에 대해서는 상술한 부분에서 구체적으로 설명하였으므로, 중복 설명은 생략한다.
한편, 상술한 바와 같이, 디스플레이 장치(100)는 사용자 로그인 및 턴 온 동작 이외에도 다양한 제어 동작을 수행할 수 있다.
도 9는 스누즈 동작을 수행하기 위한 사용자 인터랙션 방법을 설명하기 위한 흐름도이다. 도 9에 따르면, 디스플레이 장치(100)는 사용자가 알람을 세팅해 둔 경우, 알람 시간을 저장해 둔다. 이러한 상태에서 알람 시간이 도래하면(S920), 디스플레이 장치(100)는 알람 신호를 출력한다(S930). 알람 신호는 오디오 신호 만을 포함할 수도 있고, 오디오 신호 및 비디오 신호까지 포함할 수도 있다.
디스플레이 장치(100)는 알람 신호를 출력하면서 이와 별개로 마이크 및 카메라를 각각 활성화시킨다(S940). 이에 따라, 활성화된 마이크(110)를 이용하여 사용자의 음성 신호를 입력받아(S950), 음성 신호를 분석한다(S960). 또한, 활성화된 카메라(120)를 이용하여 사용자를 촬영하여(S970), 사용자 모션을 인식한다(S980).
디스플레이 장치(100)는 사용자의 음성 신호와 사용자 모션 중 적어도 하나를 이용하여, 사용자를 인식할 수 있다. 이에 따라, 사용자가 등록된 사용자로 인식되면, 그 음성 신호 및 사용자 모션에 따라 스누즈 동작을 수행할 수 있다.
구체적으로는, 디스플레이 장치(100)는 사용자 모션이 기 설정된 사용자 모션과 일치하면 알람 신호 출력을 중단하고, 사용자의 음성 신호의 분석 결과에 따라 알람을 재설정한다(S990). 일 예로, 사용자가 "10분 후"라는 음성 신호를 입력하였다면, 알람 출력 시간으로부터 10분이 경과된 시간을 후속 알람 시간으로 다시 설정한다.
도 9의 사용자 인터랙션 방법은 상술한 다양한 실시 예들과 별개로 하나의 독립적인 실시 예로 구현될 수도 있고, 상술한 실시 예들 중 적어도 하나와 조합되어 함께 구현될 수도 있다. 가령, 도 3의 실시 예와 함께 조합되는 경우라면, 디스플레이 장치가 턴 오프된 상태에서는 마이크(110)는 활성화 상태를 유지하고 카메라(120)는 비활성화상태를 유지한다. 이러한 상태에서 알람 시간이 도래하면 카메라(120)만을 활성화시키고, 도 9에서 설명한 바와 같이 사용자의 음성 신호 및 모션에 따라 스누즈 기능을 실행할 수 있다.
또는, 마이크(110) 및 카메라(120)가 모두 활성화되어 있는 상태에서 알람 시간이 도래하게 되면, 마이크(110) 및 카메라(120)를 활성화시키는 단계(S940)는 생략될 수 있다.
또한, 도 1에서 설명한 바와 같이 사용자 로그인이 이미 이루어진 상태라면, 디스플레이 장치(100)는 스누즈 동작을 위한 음성 신호 및 사용자 모션에 대해서는 사용자를 인식하는 과정을 생략할 수도 있다.
반면, 도 9의 사용자 인터랙션 방법이 상술한 실시 예들과 별도로 독립적인 실시 예로 구현된다면, 디스플레이 장치(100)는 마이크(110), 카메라(120), 제어부(130), 저장부(140), 스피커(160)를 포함하는 형태로 구현될 수도 있다. 이 경우, 저장부(140)에는 기 설정된 알람 시간이 저장될 수 있다. 제어부(130)는 디스플레이 장치(100)가 턴 오프된 상태에서 알람 시간이 도래하면 스피커(160)를 통해 알람 신호를 출력하고, 마이크(110) 및 카메라(120)를 각각 활성화시킨다. 또한, 제어부(130)는 알람 신호가 출력되는 동안, 등록된 사용자로부터 마이크(110)를 통해 후속 알람 시간을 의미하는 음성 신호가 입력되고, 카메라(120)에 의해 촬영된 촬영 이미지로부터 실행 중지 모션이 감지되면, 알람 신호의 출력을 중지하고 후속 알람 시간을 다시 세팅할 수 있다.
도 10은 알람이 출력되는 동안 디스플레이 장치(100)에서 디스플레이되는 메시지의 일 예를 나타낸다. 도 10에 따르면, 사용자가 설정한 알람 시간이 도래하면 디스플레이 장치(100)는 알람 신호를 출력하면서, 디스플레이부(150)에 스누즈 기능을 안내하는 메시지(1000)를 디스플레이한다. 사용자는 메시지(1000)의 안내 내용에 따라 실행 중지 모션(undo motion)을 입력하고(S1010), 후속 알람 시간을 포함하는 음성 신호를 입력할 수 있다(S1020).
도 11은 스누즈 기능을 수행하는 과정을 구체적으로 설명하기 위한 도면이다. 도 11에 따르면, 알람 시간이 도래하면 디스플레이 장치(100)는 알람 화면(1110)을 디스플레이부(150)에 디스플레이하면서, 동시에 스피커(160)를 통해 알람 신호를 출력한다(S1110). 도 11에서는 알람 시간이 AM 8:00로 설정된 상태를 예시하였다. 이러한 상황에서 사용자가 손바닥을 디스플레이 장치(100)를 향해 뻗는 실행 중지 모션을 입력하면서(S1120), "10분만 더 잘께"와 같은 음성 신호를 입력하였다면(S1130), 제어부(130)는 등록된 사용자의 실행 중지 모션이 입력되었다고 판단되면, 알람 신호 출력을 중단한다.
또한, 제어부(130)는 등록된 사용자의 음성 신호가 입력되었다고 판단되면, 그 음성 신호를 분석하여 키워드를 추출한다. 예를 들어 "10분"이라는 키워드를 추출하였다면, 제어부(130)는 알람 시간 또는 현재 시간을 기준으로 10분이 경과된 시점을 후속 알람 시간으로 설정한다. 도 11의 예에서는 8:10분이 후속 알람 시간이 된다. 제어부(130)는 후속 알람 시간이 설정되면, 그 사실을 안내하기 위한 메시지(1120)를 디스플레이한 후, 후속 알람 시간이 도래할 때까지 다시 대기 상태로 전환한다. 대기 상태는 디스플레이 장치(100)가 아예 턴 오프된 상태가 될 수 있지만 반드시 이에 한정되는 것은 아니다. 이 후에 후속 알람 시간이 도래하면, 제어부(130)는 다시 알람 신호를 출력할 수 있다. 이 경우에도, 스누즈 기능이 다시 사용될 수도 있다.
한편, 사용자가 특정 시간을 말하지 않고 실행 중지 모션과 함께 스누즈 기능을 의미하는 음성 신호를 입력하는 경우, 제어부(130)는 기 설정된 기준 시간 단위를 이용하여 후속 알람 시간을 재설정할 수 있다. 예를 들어, 사용자가 "좀 더 자고 싶어"라는 음성 신호를 입력한 경우, 5분이 기준 시간 단위로 설정되어 있다면, 제어부(130)는 8:05분을 후속 알람 시간으로 재설정할 수 있다.
스누즈 기능 이외에도 음 소거 기능에서도 멀티 모달 인터랙션 방식이 사용될 수 있다. 도 12는 음 소거 기능을 수행하는 과정에서의 사용자 인터랙션 방법을 설명하기 위한 도면이다.
도 12에 따르면, 디스플레이 장치(100)에서 동영상 컨텐츠(1200)를 출력하고 있는 상태에서 사용자(10)가 특정 모션과 함께 특정 오디오 신호를 입력하면, 디스플레이 장치(100)는 그 사용자가 등록된 사용자인지 여부를 먼저 확인한다. 이 경우, 디스플레이 장치(100)는 상술한 바와 같이 사용자의 음성이나 얼굴 특징 등을 이용하여 사용자를 인식할 수 있다. 디스플레이 장치(100)는 등록된 사용자라고 판단되면, 오디오 신호 출력을 중단하는 음 소거 동작을 수행한다. 설명의 편의를 위해서 음 소거 동작에 매칭된 사용자 모션은 뮤트 모션이라고 하고, 음 소거 동작에 매칭된 음성 코맨드는 뮤트 코맨드라고 한다.
도 12에서는, 뮤트 모션이 사용자가 검지 손가락을 펴서 입 중간에 가져다 대는 모션이고 뮤트 코맨드는 "쉿(hush)"으로 설정된 경우를 도시하였다. 디스플레이 장치(100)의 제어부(130)는 뮤트 모션 및 뮤트 코맨드가 모두 입력되면, 오디오 신호 출력을 중지하도록 스피커를 제어한다. 또한, 제어부(130)는 음 소거 기능을 수행 중임을 나타내는 그래픽 객체(1210)를 컨텐츠(1200) 내에 표시할 수 있다.
뮤트 모션 및 뮤트 코맨드는 다양하게 설정될 수 있다. 예를 들어, 사용자가 두 손가락을 맞붙힌 상태로 입 꼬리부터 다른 쪽 입 꼬리까지 손가락을 이동시키는 모션이 뮤트 모션으로 설정될 수도 있다. 또는, "조용히"라는 말이 뮤트 코맨드로 설정될 수도 있다.
한편, 상술한 바와 같이 음성 코맨드나 사용자 모션은 사용자가 임의로 등록해서 사용할 수 있다. 이러한 음성 코맨드나 사용자 모션은 제어 동작 별로 상이하게 등록될 수도 있다. 도 13 및 도 14에서는 사용자 로그인 동작에 매칭되는 음성 코맨드 및 모션을 등록하는 과정을 구체적으로 설명하기 위한 도면이다.
도 13에 따르면, 사용자가 로그인 옵션 설정을 위한 메뉴를 선택하면, 제어부(130)는 디스플레이부(150)에 설정 화면(1310)을 디스플레이한다. 설정 화면(1310)에는 음성 코맨드 등록 메뉴(1311), 모션 등록 메뉴(1312), 패스워드 등록 메뉴(1313), 사용자 정보 입력 영역(1314) 등이 포함될 수 있다. 사용자는 사용자 정보 입력 영역(1314)을 통해 자신의 이름이나 나이, 사진, 생년 월일, 성별 등과 같은 다양한 고유 정보를 기입할 수 있다. 또한, 음성 코맨드 등록 메뉴(1311)를 선택하여 로그인 동작에 매칭되는 음성 코맨드를 등록할 수 있다.
도 13에 도시된 바와 같이 음성 코맨드 등록 메뉴가 선택되면, 제어부(130)는 음성 코맨드를 입력받기 위한 제1 입력 화면(1320)을 디스플레이한다. 제1 입력 화면(1320)에는 마이크(110)가 활성화되어 있음을 나타내는 오브젝트(1321), 음성 코맨드 입력을 안내하는 메시지(1322)가 포함될 수 있다.
이러한 상태에서 사용자가 음성을 입력하면, 제어부(130)는 사용자가 입력한 음성을 텍스트로 표시하는 텍스트 표시 영역(1331)을 포함하는 제2 입력 화면(1330)을 디스플레이한다. 제2 입력 화면(1330)에는 텍스트 표시 영역(1331) 뿐만 아니라, 입력을 완료하기 위한 확인 메뉴(1332), 재입력 메뉴(1333), 취소 메뉴(1334) 등이 포함될 수 있다. 사용자는 텍스트 표시 영역(1331)을 통해서, 자신이 원하는 음성 코맨드를 정상적으로 입력되었는지 확인하고, 확인 메뉴(1332)를 선택할 수 있다. 확인 메뉴(1332)가 선택되면, 제어부(130)는 음성 코맨드를 저장부(140)에 저장하고, 그 등록 사실을 알리는 메시지(1340)를 디스플레이한다. 이 경우, 제어부(130)는 사용자가 입력한 음성 코맨드 그 자체를 음성 파일 형태로 생성하여 저장부(140)에 저장할 수도 있고, 음성 코맨드를 발음한 사용자 음성 신호의 주파수나 진폭, 빠르기 등과 같은 특징 정보를 검출하여 저장부(140)에 저장할 수도 있다. 저장된 정보는 사용자 인식 과정에 사용될 수 있다. 또한, 제어부(130)는 사용자의 음성 코맨드를 텍스트로 변환하여, 함께 저장할 수 있다.
반면, 재입력 메뉴(1333)가 선택되면 제어부(130)는 제1 입력 화면(1320)을 다시 디스플레이하여, 사용자의 음성 입력을 유도한다. 취소 메뉴(1334)가 선택되면 제어부(130)는 다시 설정 화면(1310)을 디스플레이한다.
도 14는 사용자가 로그인 옵션 설정을 위한 메뉴를 선택하였을 때 표시되는 설정 화면(1410)을 나타낸다. 설정 화면(1410)은 도 13에서 설명한 설정 화면(1410)과 동일한 구성을 가질 수 있다. 사용자가 모션 등록 메뉴(1412)를 선택하면, 제어부(130)는 카메라(120)를 활성화시키고 제1 입력 화면(1420)을 디스플레이한다. 제1 입력 화면(1420)에는 카메라(120)가 활성화 상태임을 알리는 오브젝트(1421)와, 사용자의 음성 입력을 안내하는 메시지(1422)가 포함된다.
사용자는 메시지(1422)의 안내에 따라 일정 시간 동안 모션을 입력할 수 있다. 사용자의 모션이 감지되면, 제어부(130)는 촬영된 이미지를 포함하는 제2 입력 화면(1430)을 디스플레이한다. 제2 입력 화면(1430)에는 촬영 이미지(1431) 및 각종 메뉴(1432, 1433, 1434)가 포함될 수 있다. 촬영 이미지(1431)는 동영상으로 표시될 수도 있고, 정지 영상으로 표시될 수도 있다.
사용자는 촬영 이미지(1431)를 육안으로 확인하여, 자신이 원하는 모션이 촬영되었는지 판단할 수 있다. 판단 결과 정상적으로 촬영되었다면, 사용자는 확인 메뉴(1432)를 선택할 수 있다. 확인 메뉴(1432)가 선택되면, 제어부(130)는 사용자 모션을 저장부(140)에 저장하고, 사용자 모션 등록이 완료되었음을 알리는 화면(1440)을 디스플레이한다. 이 경우, 제어부(130)는 촬영 이미지(1431) 그 자체를 저장부(140)에 저장할 수도 있고, 촬영 이미지(1431)에 포함된 객체의 움직임을 나타내는 모션 벡터 정보나 기타 특징 정보를 검출하여 저장부(140)에 저장할 수도 있다. 저장된 특징 정보는 사용자 인식 과정에 사용될 수도 있다.
도 13 및 도 14에서는 사용자 로그인 동작에 매칭되는 음성 코맨드 및 사용자 모션을 등록하는 과정을 설명하였으나, 기타 기능에 대해서도 유사한 방식으로 음성 코맨드 및 사용자 모션을 등록할 수도 있다.
한편, 도 3 및 도 9에서는 사용자 인터랙션 방법을 구체적으로 설명하기 위하여 세분화된 흐름도를 도시하였으나, 본 사용자 인터랙션 방법은 다양한 단계로 수행될 수 있다.
도 15는 상술한 다양한 실시 예들에 따른 사용자 인터랙션 방법을 종합적으로 정리하여 설명하기 위한 흐름도이다. 도 15에 따르면, 사용자로부터 야기된 오디오 신호가 입력되고(S1310), 사용자가 촬영되면(S1320), 그 오디오 신호 및 촬영 이미지를 각각 분석하여 그 분석 결과에 따라, 제어 동작을 수행한다(S1330). 도 15에서 오디오 신호는 마이크(110)를 통해 입력되고, 사용자 촬영은 카메라(120)에 의해 수행될 수 있다. 마이크(110) 및 카메라(120)의 활성화 시점은 상술한 바와 같이 다양하게 변경될 수 있다. 분석 결과, 등록된 사용자가 아니거나, 기 설정된 사용자 모션이나 음성 코맨드가 아닌 경우에는 별다른 제어 동작을 수행하지 않을 수도 있다.
또한, 수행되는 제어 동작도 실시 예에 따라 다양할 수 있다. 일 예로, 등록된 사용자로부터 턴 온 동작에 매칭된 음성 코맨드 및 사용자 모션이 입력되었다고 판단되면, 사용자 로그인 및 턴 온 동작을 수행할 수 있다.
또는, 알람 신호 출력 중에 실행 중지 모션으로 설정된 사용자 모션이 인식되고, 음성 신호로부터 후속 알람 시간이 검출되면, 알람 신호 출력을 중지하고 후속 알람 시간을 다시 설정할 수 있다. 또는, 음 소거 동작을 수행할 수도 있다. 그 밖에도, 디스플레이 장치(100)는 채널 선국 동작, 볼륨 조정 동작, 외부 입력 소스 변경 동작 등과 같은 다양한 제어 동작을 오디오 및 사용자 모션에 따른 멀티 모달 인터랙션 방식에 따라 수행할 수 있다.
그 밖에도, 상술한 바와 같이 다양한 실시 예에 따른 사용자 인터랙션 방법들이 제공될 수 있으나, 이러한 방법들에 대한 흐름도 도시 및 설명은 생략한다.
상술한 다양한 실시 예들은 디스플레이 장치를 기준으로 설명하였으나, 상술한 실시 예들은 반드시 디스플레이 기능을 갖춘 장치에서만 구현될 수 있는 것은 아니다. 가령, 상술한 다양한 실시 예들은 냉장고나 에어컨, 오디오 플레이어 등과 같은 다양한 전자 장치에 적용될 수도 있다.
또한, 상술한 다양한 실시 예들은 단독으로 또는 서로 조합되어 구현될 수 있다. 복수의 실시 예들이 서로 조합되는 경우, 저장부(140)에는 복수의 사용자 모션 및 복수의 오디오 코맨드가 저장될 수 있다. 이 중에서 턴 온 및 사용자 로그인 동작에 매칭된 사용자 모션 및 오디오 코맨드가 입력되면, 턴 온 및 사용자 로그인 동작을 수행할 수 있다. 또는, 음 소거 동작에 매칭된 뮤트 모션 및 뮤트 코맨드가 입력되면 음 소거 기능을 수행할 수 있다. 그 밖에도 실행 중지 모션이 저장부(140)에 저장되어 있을 수도 있다.
상술한 다양한 실시 예들에 따른 사용자 인터랙션 방법은 소프트웨어로 코딩되어 비일시적 판독 가능 매체(non-transitory readable medium)에 저장될 수 있다. 이러한 비일시적 판독 가능 매체는 다양한 장치에 탑재되어 사용될 수 있다.
일 예로, 사용자로부터 야기된 오디오 신호를 입력받는 단계, 사용자를 촬영하는 단계, 입력된 오디오 신호 및 촬영 이미지를 각각 분석하여 그 분석 결과에 따라, 제어 동작을 수행하는 단계를 수행하기 위한 프로그램 코드가 비일시적 판독 가능 매체에 저장되어 화상형성장치에 탑재될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어 져 서는 안 될 것이다.
110 : 마이크 120 : 카메라
130 : 제어부 140 : 저장부

Claims (20)

  1. 디스플레이 장치에 있어서,
    사용자의 음성 신호를 입력받기 위한 마이크;
    상기 사용자를 촬영하기 위한 카메라;
    사용자 정보가 등록된 저장부; 및
    상기 카메라에서 촬영된 촬영 이미지 및 상기 음성 신호 중 적어도 하나를 이용하여 상기 사용자가 상기 저장부에 등록된 사용자인지 여부를 인식하고, 상기 등록된 사용자이면 상기 사용자의 사용자 모션 및 상기 음성 신호 중 적어도 하나에 매칭된 제어 동작을 수행하는 제어부;를 포함하는 디스플레이 장치.
  2. 제1항에 있어서,
    상기 제어부는,
    상기 음성 신호가 입력되면, 상기 음성 신호의 특성을 검출하고, 검출된 특성과 상기 사용자 정보 내의 음성 정보를 비교하여, 일치하면 상기 사용자가 상기 저장부에 등록된 사용자라고 판단하는 것을 특징으로 하는 디스플레이 장치.
  3. 제1항에 있어서,
    상기 제어부는,
    상기 촬영 이미지가 입력되면, 상기 촬영 이미지로부터 사용자 특징 정보를 검출하고, 상기 사용자 특징 정보와 상기 사용자 정보 내의 특징 정보를 비교하여 일치하면, 상기 사용자가 상기 저장부에 등록된 사용자라고 판단하는 것을 특징으로 하는 디스플레이 장치.
  4. 제1항에 있어서,
    상기 제어부는,
    상기 디스플레이 장치가 턴 오프된 상태에서, 상기 등록된 사용자로부터 상기 디스플레이 장치를 턴 온하기 위한 사용자 모션 및 음성 신호가 입력되면, 사용자 로그인 및 턴 온 동작을 수행하는 것을 특징으로 하는 디스플레이 장치.
  5. 제4항에 있어서,
    상기 디스플레이 장치가 턴 오프된 상태에서 상기 마이크는 활성화 상태를 유지하고, 상기 카메라는 비활성화 상태를 유지하며,
    상기 제어부는,
    상기 디스플레이 장치가 턴 오프된 상태에서 상기 마이크에 상기 음성 신호가 입력되면 상기 음성 신호가 상기 등록된 사용자의 음성 신호인지 여부를 확인하고, 상기 등록된 사용자의 음성 신호이면 상기 카메라를 활성화시켜 상기 사용자를 촬영하며, 상기 카메라에서 촬영된 촬영 이미지를 분석하여 상기 사용자 모션을 감지하는 것을 특징으로 하는 디스플레이 장치.
  6. 제5항에 있어서,
    상기 카메라가 활성화되면 상기 사용자 모션을 유도하기 위한 어포던스 패턴을 디스플레이하는 디스플레이부를 더 포함하며,
    상기 제어부는,
    상기 어포던스 패턴이 디스플레이된 상태에서 상기 사용자의 움직임이 감지되면 상기 움직임에 따라 상기 어포던스 패턴 상에 그래픽 오브젝트를 렌더링하는 것을 특징으로 하는 디스플레이 장치.
  7. 제1항에 있어서,
    상기 제어 동작은,
    상기 디스플레이 장치를 턴 온시키는 턴 온 동작, 상기 디스플레이 장치를 턴 오프시키는 턴 오프 동작, 사용자 로그인 동작, 상기 디스플레이부에 디스플레이되는 컨텐츠의 오디오 신호 출력을 중지하는 음 소거 동작, 알람 출력을 중지하고 알람 시간을 재설정 하는 스누즈 동작 중 적어도 하나를 포함하는 것을 특징으로 하는 디스플레이 장치.
  8. 제4항에 있어서,
    상기 디스플레이 장치가 턴 오프된 상태에서 상기 카메라는 활성화 상태를 유지하고, 상기 마이크는 비활성화 상태를 유지하며,
    상기 제어부는,
    상기 디스플레이 장치가 턴 오프된 상태에서 상기 사용자가 촬영되면 상기 촬영 이미지를 분석하고, 상기 촬영 이미지로부터 상기 사용자 모션이 인식되면 상기 마이크를 활성화시켜 상기 음성 신호를 입력받는 것을 특징으로 하는 디스플레이 장치.
  9. 제1항에 있어서,
    스피커;를 더 포함하며,
    상기 제어부는,
    기 설정된 알람 시간이 도래하면 상기 스피커를 통해 알람 신호를 출력하며, 상기 알람 신호가 출력되고 있는 상태에서, 상기 저장부에 등록된 사용자로부터 실행 중지 모션이 입력되고, 후속 알람 시간을 의미하는 음성 신호가 입력되면, 상기 알람 신호의 출력을 중지하고 상기 후속 알람 시간에 따라 알람 기능을 다시 세팅하는 것을 특징으로 하는 디스플레이 장치.
  10. 제1항에 있어서,
    외부 장치와 통신을 수행하기 위한 통신부;를 더 포함하며,
    상기 마이크 및 상기 카메라 중 적어도 하나는 상기 외부 장치에 탑재되며,
    상기 통신부는 상기 카메라에서 촬영된 촬영 이미지 및 상기 마이크를 통해 입력된 음성 신호 중 적어도 하나를 수신하는 것을 특징으로 하는 디스플레이 장치.
  11. 디스플레이 장치의 사용자 인터랙션 방법에 있어서,
    마이크를 통해 사용자의 음성 신호를 입력받는 단계;
    카메라를 이용하여 상기 사용자를 촬영하는 단계;
    상기 카메라에서 촬영된 촬영 이미지 및 상기 음성 신호 중 적어도 하나를 이용하여 상기 사용자가 등록된 사용자인지 여부를 인식하는 단계; 및
    상기 등록된 사용자이면 상기 사용자의 사용자 모션 및 상기 음성 신호 중 적어도 하나에 매칭된 제어 동작을 수행하는 단계;를 포함하는 사용자 인터랙션 방법.
  12. 제11항에 있어서,
    상기 인식하는 단계는,
    상기 음성 신호가 입력되면, 상기 음성 신호의 특성을 검출하고, 검출된 특성과 상기 사용자 정보 내의 음성 정보를 비교하여, 일치하면 상기 사용자가 상기 등록된 사용자라고 판단하는 단계를 포함하는 것을 특징으로 하는 사용자 인터랙션 방법.
  13. 제11항에 있어서,
    상기 인식하는 단계는,
    상기 촬영 이미지가 입력되면, 상기 촬영 이미지로부터 사용자 특징 정보를 검출하고, 상기 사용자 특징 정보와 상기 사용자 정보 내의 특징 정보를 비교하여, 일치하면 상기 사용자가 상기 등록된 사용자라고 판단하는 단계를 포함하는 것을 특징으로 하는 사용자 인터랙션 방법.
  14. 제11항에 있어서,
    상기 제어 동작을 수행하는 단계는,
    상기 디스플레이 장치가 턴 오프된 상태에서, 상기 등록된 사용자로부터 상기 디스플레이 장치를 턴 온하기 위한 사용자 모션 및 음성 신호가 입력된 것으로 판단되면, 사용자 로그인 및 턴 온 동작을 수행하는 단계를 포함하는 것을 특징으로 하는 사용자 인터랙션 방법.
  15. 제14항에 있어서,
    상기 디스플레이 장치가 턴 오프된 상태에서 상기 마이크는 활성화 상태를 유지하고, 상기 카메라는 비활성화 상태를 유지하며,
    상기 사용자 인터랙션 방법은,
    상기 디스플레이 장치가 턴 오프된 상태에서 등록된 사용자의 음성 신호가 입력되면, 상기 카메라를 활성화시키는 단계;를 더 포함하는 것을 특징으로 하는 사용자 인터랙션 방법.
  16. 제15항에 있어서,
    상기 카메라가 활성화되면 상기 사용자 모션을 유도하기 위한 어포던스 패턴을 디스플레이하는 단계;
    상기 어포던스 패턴이 디스플레이된 상태에서 상기 사용자의 움직임이 감지되면 상기 움직임에 따라 상기 어포던스 패턴 상에 그래픽 오브젝트를 렌더링하는 단계;를 더 포함하는 것을 특징으로 하는 사용자 인터랙션 방법.
  17. 제11항에 있어서,
    상기 제어 동작은,
    상기 디스플레이 장치를 턴 온시키는 턴 온 동작, 상기 디스플레이 장치를 턴 오프시키는 턴 오프 동작, 사용자 로그인 동작, 컨텐츠의 오디오 신호 출력을 중지하는 음 소거 동작, 알람 출력을 중지하고 알람 시간을 재설정하는 스누즈 동작 중 적어도 하나를 포함하는 것을 특징으로 하는 사용자 인터랙션 방법.
  18. 제14항에 있어서,
    상기 디스플레이 장치가 턴 오프된 상태에서 상기 카메라는 활성화 상태를 유지하고, 상기 마이크는 비활성화 상태를 유지하며,
    상기 사용자 인터랙션 방법은,
    상기 디스플레이 장치가 턴 오프된 상태에서 등록된 사용자가 촬영되면, 상기 마이크를 활성화시키는 단계;를 더 포함하는 것을 특징으로 하는 사용자 인터랙션 방법.
  19. 제11항에 있어서,
    기 설정된 알람 시간이 도래하면 상기 스피커를 통해 알람 신호를 출력하는 단계;
    상기 알람 신호가 출력되고 있는 상태에서, 상기 등록된 사용자로부터 실행 중지 모션이 입력되고, 후속 알람 시간을 의미하는 음성 신호가 입력되면, 상기 알람 신호의 출력을 중지하고 상기 후속 알람 시간에 따라 알람 기능을 다시 세팅하는 단계;를 더 포함하는 것을 특징으로 하는 사용자 인터랙션 방법.
  20. 디스플레이 장치에 있어서,
    사용자의 음성 신호를 입력받기 위한 마이크;
    상기 사용자를 촬영하기 위한 카메라;
    기 설정된 알람 시간이 저장된 저장부;
    알람 신호를 출력하기 위한 스피커; 및
    상기 디스플레이 장치가 턴 오프된 상태에서 상기 알람 시간이 도래하면 상기 알람 신호를 출력하도록 상기 스피커를 제어하고, 상기 마이크 및 상기 카메라를 각각 활성화시키는 제어부;를 포함하며,
    상기 제어부는, 상기 알람 신호가 출력되는 동안 상기 마이크를 통해 후속 알람 시간을 포함하는 음성 신호가 입력되고, 상기 카메라에 의해 촬영된 촬영 이미지로부터 상기 사용자의 실행 중지 모션이 감지되면, 상기 알람 신호의 출력을 중지하고 상기 후속 알람 시간을 다시 세팅하는, 디스플레이 장치.


KR1020140036272A 2014-03-27 2014-03-27 디스플레이 장치 및 그 사용자 인터랙션 방법 KR20150112337A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020140036272A KR20150112337A (ko) 2014-03-27 2014-03-27 디스플레이 장치 및 그 사용자 인터랙션 방법
US14/567,599 US20150279369A1 (en) 2014-03-27 2014-12-11 Display apparatus and user interaction method thereof
EP15159753.1A EP2925005A1 (en) 2014-03-27 2015-03-18 Display apparatus and user interaction method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140036272A KR20150112337A (ko) 2014-03-27 2014-03-27 디스플레이 장치 및 그 사용자 인터랙션 방법

Publications (1)

Publication Number Publication Date
KR20150112337A true KR20150112337A (ko) 2015-10-07

Family

ID=52946279

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140036272A KR20150112337A (ko) 2014-03-27 2014-03-27 디스플레이 장치 및 그 사용자 인터랙션 방법

Country Status (3)

Country Link
US (1) US20150279369A1 (ko)
EP (1) EP2925005A1 (ko)
KR (1) KR20150112337A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230010845A (ko) * 2018-06-01 2023-01-19 애플 인크. 디지털 어시스턴트를 이용한 오디오 정보 제공

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9883301B2 (en) * 2014-04-22 2018-01-30 Google Technology Holdings LLC Portable electronic device with acoustic and/or proximity sensors and methods therefor
CN104822093B (zh) * 2015-04-13 2017-12-19 腾讯科技(北京)有限公司 弹幕发布方法和装置
US10379808B1 (en) * 2015-09-29 2019-08-13 Amazon Technologies, Inc. Audio associating of computing devices
CN105975054A (zh) * 2015-11-23 2016-09-28 乐视网信息技术(北京)股份有限公司 一种信息处理方法和装置
US9912977B2 (en) * 2016-02-04 2018-03-06 The Directv Group, Inc. Method and system for controlling a user receiving device using voice commands
GB2555422B (en) 2016-10-26 2021-12-01 Xmos Ltd Capturing and processing sound signals
US10848483B2 (en) * 2016-12-08 2020-11-24 Ricoh Company, Ltd. Shared terminal, communication system, and display control method, and recording medium
KR20180098079A (ko) * 2017-02-24 2018-09-03 삼성전자주식회사 비전 기반의 사물 인식 장치 및 그 제어 방법
US10431107B2 (en) * 2017-03-07 2019-10-01 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace for social awareness
US10146501B1 (en) * 2017-06-01 2018-12-04 Qualcomm Incorporated Sound control by various hand gestures
US10475454B2 (en) * 2017-09-18 2019-11-12 Motorola Mobility Llc Directional display and audio broadcast
US11455176B2 (en) 2018-01-05 2022-09-27 Google Llc Selecting content to render on display of assistant device
US11264021B2 (en) * 2018-03-08 2022-03-01 Samsung Electronics Co., Ltd. Method for intent-based interactive response and electronic device thereof
CN109302528B (zh) * 2018-08-21 2021-05-25 努比亚技术有限公司 一种拍照方法、移动终端及计算机可读存储介质
CN111178226A (zh) * 2019-12-25 2020-05-19 深圳壹账通智能科技有限公司 终端交互方法、装置、计算机设备及存储介质
CN111508486A (zh) * 2020-04-13 2020-08-07 安徽中科新辰技术有限公司 一种语音控制大屏展示系统
US11558546B2 (en) * 2020-11-24 2023-01-17 Google Llc Conditional camera control via automated assistant commands
CN113038214B (zh) * 2021-03-03 2022-07-12 深圳创维-Rgb电子有限公司 待机控制方法、终端设备及可读存储介质
CN114385291A (zh) * 2021-12-29 2022-04-22 南京财经大学 一种基于外挂透明显示屏的标准工作流程引导方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6498970B2 (en) * 2001-04-17 2002-12-24 Koninklijke Phillips Electronics N.V. Automatic access to an automobile via biometrics
KR20060070280A (ko) * 2004-12-20 2006-06-23 한국전자통신연구원 손 제스처 인식을 이용한 사용자 인터페이스 장치 및 그방법
WO2009067670A1 (en) * 2007-11-21 2009-05-28 Gesturetek, Inc. Media preferences
KR101623007B1 (ko) * 2009-11-11 2016-05-20 엘지전자 주식회사 디스플레이 장치 및 그 제어방법
US9304592B2 (en) * 2010-11-12 2016-04-05 At&T Intellectual Property I, L.P. Electronic device control based on gestures
US8195576B1 (en) * 2011-01-31 2012-06-05 Bank Of America Corporation Mobile transaction device security system
US20120226981A1 (en) * 2011-03-02 2012-09-06 Microsoft Corporation Controlling electronic devices in a multimedia system through a natural user interface
RU2455676C2 (ru) * 2011-07-04 2012-07-10 Общество с ограниченной ответственностью "ТРИДИВИ" Способ управления устройством с помощью жестов и 3d-сенсор для его осуществления
WO2013022221A2 (en) * 2011-08-05 2013-02-14 Samsung Electronics Co., Ltd. Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
KR101885295B1 (ko) * 2011-12-26 2018-09-11 엘지전자 주식회사 전자기기 및 그 제어방법
US9625993B2 (en) * 2012-01-11 2017-04-18 Biosense Webster (Israel) Ltd. Touch free operation of devices by use of depth sensors
JP6065550B2 (ja) * 2012-12-03 2017-01-25 船井電機株式会社 映像装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230010845A (ko) * 2018-06-01 2023-01-19 애플 인크. 디지털 어시스턴트를 이용한 오디오 정보 제공

Also Published As

Publication number Publication date
US20150279369A1 (en) 2015-10-01
EP2925005A1 (en) 2015-09-30

Similar Documents

Publication Publication Date Title
KR20150112337A (ko) 디스플레이 장치 및 그 사용자 인터랙션 방법
KR102246900B1 (ko) 전자 장치 및 이의 음성 인식 방법
JP6143975B1 (ja) 画像の取り込みを支援するためにハプティックフィードバックを提供するためのシステムおよび方法
CN106463114B (zh) 信息处理设备、控制方法及程序存储单元
US20200092625A1 (en) Smart device cover
KR102210433B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR102339657B1 (ko) 전자 장치 및 이의 제어 방법
US20190019513A1 (en) Information processing device, information processing method, and program
US20140062862A1 (en) Gesture recognition apparatus, control method thereof, display instrument, and computer readable medium
US20210142796A1 (en) Information processing apparatus, information processing method, and program
KR102505719B1 (ko) 음성 인식이 가능한 디스플레이 장치 및 방법
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
JP2013080015A (ja) 音声認識装置および音声認識方法
US10409324B2 (en) Glass-type terminal and method of controlling the same
KR20180002265A (ko) 전자 장치 및 이의 제어 방법
JP2009166184A (ja) ガイドロボット
CN111415421A (zh) 虚拟物体控制方法、装置、存储介质及增强现实设备
JP2018075657A (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
JP2015194766A (ja) 音声認識装置および音声認識方法
KR20170029390A (ko) 음성 명령 모드 진입 방법
WO2018056169A1 (ja) 対話装置、処理方法、プログラム
KR20210155505A (ko) 이동 가능한 전자장치 및 그 제어방법
KR102359163B1 (ko) 전자 장치 및 이의 음성 인식 방법
JP2015064473A (ja) 音声認識装置、方法、及びコンピュータプログラム
JP2014078124A (ja) ジェスチャー入力装置および表示システム

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid