KR20190024190A - 음성 인식 영상 피드백 제공 시스템 및 방법 - Google Patents

음성 인식 영상 피드백 제공 시스템 및 방법 Download PDF

Info

Publication number
KR20190024190A
KR20190024190A KR1020170110933A KR20170110933A KR20190024190A KR 20190024190 A KR20190024190 A KR 20190024190A KR 1020170110933 A KR1020170110933 A KR 1020170110933A KR 20170110933 A KR20170110933 A KR 20170110933A KR 20190024190 A KR20190024190 A KR 20190024190A
Authority
KR
South Korea
Prior art keywords
voice
user
image
unit
image feedback
Prior art date
Application number
KR1020170110933A
Other languages
English (en)
Inventor
박성흠
Original Assignee
(주)휴맥스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)휴맥스 filed Critical (주)휴맥스
Priority to KR1020170110933A priority Critical patent/KR20190024190A/ko
Priority to US16/340,264 priority patent/US20200043488A1/en
Priority to EP19168848.0A priority patent/EP3584788A3/en
Priority to PCT/KR2017/013777 priority patent/WO2019045183A1/ko
Priority to EP17923561.9A priority patent/EP3511933A4/en
Publication of KR20190024190A publication Critical patent/KR20190024190A/ko
Priority to US16/379,702 priority patent/US20190237078A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B17/00Details of cameras or camera bodies; Accessories therefor
    • G03B17/48Details of cameras or camera bodies; Accessories therefor adapted for combination with other photographic or optical apparatus
    • G03B17/54Details of cameras or camera bodies; Accessories therefor adapted for combination with other photographic or optical apparatus with projector
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measuring Volume Flow (AREA)

Abstract

사용자가 편리하게 다양한 서비스를 제공받을 수 있는 음성 인식 영상 피드백 제공 시스템 및 방법이 개시된다. 상기 음성 인식 영상 피드백 시스템에 포함된 음성 인식 영상 피드백 장치는 사용자의 음성을 인식하는 음성 인식부, 상기 음성이 입력된 방향으로 하여 상기 음성에 해당하는 영상을 출력하는 영상 피드백부 및 상기 음성 인식부 및 상기 영상 피드백부를 제어하는 제어부를 포함한다. 여기서, 상기 영상이 상기 사용자에게 보여지도록 상기 영상은 상기 사용자의 주변 위치 영역으로 출력되되, 상기 사용자 주변 위치 영역은 상기 사용자가 위치한 지점으로부터 반경 3미터 내의 영역이며, 상기 영상 중 적어도 일부가 상기 반경 3미터 이내에 보여진다.

Description

음성 인식 영상 피드백 제공 시스템 및 방법{VOICE RECOGNITION IMAGE FEEDBACK PROVIDING SYSTEM AND METHOD}
본 발명은 음성 인식 영상 피드백 제공 시스템 및 방법에 관한 것이다.
최근, 음성 인식 기술이 상당히 발전하고 있다. 이러한 음성 인식 기술을 이용한 다양한 서비스들이 등장하고 있다.
그러나, 이러한 서비스 대다수는 단순히 음성만을 제공하고 있으며, 따라서 사용자가 원하는 서비스를 만족시키지 못하고 있다.
KR 10-2017-0081883 A
본 발명은 사용자가 편리하게 다양한 서비스를 제공받을 수 있는 음성 인식 영상 피드백 제공 시스템 및 방법을 제공하는 것이다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 음성 인식 영상 피드백 장치는 사용자의 음성을 인식하는 음성 인식부; 상기 음성이 입력된 방향으로 하여 상기 음성에 해당하는 영상을 출력하는 영상 피드백부; 및 상기 음성 인식부 및 상기 영상 피드백부를 제어하는 제어부를 포함한다. 여기서, 상기 영상이 상기 사용자에게 보여지도록 상기 영상은 상기 사용자의 주변 위치 영역으로 출력되되, 상기 사용자 주변 위치 영역은 상기 사용자가 위치한 지점으로부터 특정 거리를 반경으로 하는 영역이며, 상기 영상 중 적어도 일부가 상기 특정 거리를 반경으로 하는 영역에 보여진다.
본 발명의 다른 실시예에 따른 음성 인식 영상 피드백 장치는 사용자의 음성을 인식하는 음성 인식부; 상기 사용자의 위치를 추적하는 위치 추적부; 상기 음성에 해당하는 영상을 출력하는 영상 피드백부; 및 상기 음성 인식부, 상기 위치 추적부 및 상기 영상 피드백부를 제어하는 제어부를 포함한다. 여기서, 상기 제어부는 상기 음성의 내용이 영상 제공과 관련없거나 상기 음성에 포함된 요청이 불명확하거나 상기 음성이 제한된 단어를 포함하거나 상기 음성에 포함된 요청이 상기 음성 인식 영상 피드백 장치가 제공할 수 없는 요청인 경우 상기 사용자에게 음성의 재입력을 요청하며, 상기 영상 피드백부는 상기 요청에 따라 재입력된 음성에 해당하는 영상을 상기 추적된 사용자의 위치에 대응하는 영역으로 출력한다.
본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치는 음성을 인식하는 음성 인식부; 상기 음성이 입력된 방향으로 하여 상기 음성에 해당하는 영상을 출력하는 영상 피드백부; 및 상기 음성 인식부 및 상기 영상 피드백부를 제어하는 제어부를 포함한다. 여기서, 상기 음성에 상기 영상이 출력될 영역 또는 기기가 지정된 경우 상기 영상은 상기 지정된 영역 또는 기기를 통하여 출력된다.
본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치는 사용자의 음성을 인식하는 음성 인식부; 상기 인식된 음성에 해당하는 영상을 출력하는 영상 피드백부; 및 상기 음성 인식부 및 상기 영상 피드백부의 동작을 제어하는 제어부를 포함한다. 여기서, 상기 제어부는 상기 인식된 음성에 따라 상기 영상 출력없이 상기 사운드만을 출력할 지 상기 영상을 출력할 지를 자동으로 결정하며, 상기 결정에 따라 상기 음성 피드백부를 제어하여 상기 사운드를 출력하거나 상기 영상 피드백부를 제어하여 상기 영상을 출력한다.
본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치는 바디; 및 상기 바디 상에 회전 가능한 구조로 형성되는 영상 피드백부를 포함한다. 여기서, 상기 영상 피드백부는 영상이 출력될 사용자 주변 위치 영역에 해당하는 방향으로 회전한 후 사용자의 음성에 해당하는 영상을 출력한다.
본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치는 사용자의 음성을 인식하는 음성 인식부; 상기 인식된 음성에 해당하는 영상을 출력하는 영상 피드백부; 및 상기 음성 인식부 및 상기 영상 피드백부의 동작을 제어하는 제어부를 포함한다. 여기서, 상기 영상의 색상, 화질, 해상도 및 사이즈 중 적어도 하나 또는 상기 영상과 매칭되는 사운드가 상기 인식된 음성, 상기 사용자의 기분 또는 상기 사용자의 바이오리듬에 따라 가변되며, 상기 가변된 영상이 상기 사용자의 위치에 대응하는 영역으로 출력된다.
본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치는 사용자의 음성을 인식하는 음성 인식부; 영상을 출력하는 영상 피드백부; 및 상기 음성 인식부 및 상기 영상 피드백부의 동작을 제어하는 제어부를 포함한다. 여기서, 상기 음성에 영상의 제공을 요청하는 사용자의 요청이 포함되지 않음에도 불구하고 상기 음성의 톤, 상기 음성에 포함된 기분을 표시하는 단어, 상기 사용자의 움직임 중 적어도 하나에 기초하여 파악된 상기 사용자의 기분에 따라 해당 영상이 자동으로 상기 사용자의 위치에 대응하는 영역으로 제공된다.
본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치는 사용자의 음성을 인식하는 음성 인식부; 상기 사용자 주변의 구조를 파악하는 구조 파악부; 상기 인식된 음성에 해당하는 영상을 출력하는 영상 피드백부; 및 상기 음성 인식부 및 상기 영상 피드백부의 동작을 제어하는 제어부를 포함한다. 여기서, 상기 영상 피드백부는 상기 파악된 구조에 따라 상기 영상 피드백부의 초점, 상기 영상이 출력될 위치 또는 상기 영상을 적어도 일부 변경하고, 상기 변경 결과를 반영하여 상기 영상을 출력한다.
본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치는 사용자의 음성을 인식하는 음성 인식부; 상기 인식된 음성에 해당하는 영상을 출력하는 영상 피드백부; 및 외부 기기와 연결되어 상기 외부 기기를 제어하는 외부 기기 제어부를 포함한다. 여기서, 상기 외부 기기 제어부는 상기 영상이 출력될 때 상기 외부 기기를 제어하여 상기 영상 주변 환경을 변화시킨다.
본 발명의 일 실시예에 따른 메인 음성 인식 영상 피드백 장치는 적어도 하나의 서브 음성 인식 영상 피드백 장치와 통신 연결되는 통신부; 및 사용자의 음성에 해당하는 영상을 상기 통신부를 통하여 상기 사용자의 위치에 대응하는 서브 음성 인식 영상 피드백 장치로 전송하는 영상 피드백부를 포함한다. 여기서, 상기 영상은 상기 서브 음성 인식 영상 피드백 장치를 통하여 상기 사용자의 주변 위치 영역으로 출력되되, 상기 사용자 주변 위치 영역은 상기 사용자가 위치한 지점으로부터 특정 거리를 반경으로 하는 영역이며, 상기 영상 중 적어도 일부가 상기 특정 거리를 반경으로 하는 영역에 보여진다.
본 발명의 일 실시예에 따른 음성 인식 영상 피드백 방법은 사용자의 음성을 인식하는 단계; 및 상기 음성이 입력된 방향으로 하여 상기 음성에 해당하는 영상을 출력하는 단계를 포함한다. 여기서, 상기 영상이 상기 사용자에게 보여지도록 상기 영상은 상기 사용자의 주변 위치 영역으로 출력되되, 상기 사용자 주변 위치 영역은 상기 사용자가 위치한 지점으로부터 특정 거리를 반경으로 하는 영역이며, 상기 영상 중 적어도 일부가 상기 특정 거리를 반경으로 하는 영역에 보여진다.
본 발명에 따른 음성 인식 영상 피드백 제공 시스템 및 이를 동작시키는 방법은 사용자의 음성을 인식하고 상기 인식된 음성에 해당하는 영상을 사용자의 위치로 출력시킬 수 있다. 결과적으로, 사용자는 원하는 정보 등을 용이하게 획득하고 편리하게 서비스를 제공받을 수 있으며, 상기 음성 인식 영상 피드백 제공 시스템은 다양한 서비스들을 상기 사용자에게 제공할 수 있다.
도 1은 본 발명의 제 1 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 영상 피드백을 제공하는 과정을 도시한 도면이다.
도 3 내지 도 5는 본 발명의 일 실시예에 따른 음성 인식 영상 피드백 장치의 구조를 도시한 도면들이다.
도 6은 본 발명의 제 2 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 음성 인식 영상 피드백 장치를 도시한 블록도이다.
도 8은 본 발명의 제 3 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 9는 본 발명의 제 4 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 10은 본 발명의 제 5 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 11은 본 발명의 제 6 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 12는 본 발명의 제 7 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 13은 본 발명의 제 8 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 14는 본 발명의 제 9 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 15는 본 발명의 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 16은 본 발명의 제 10 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 17은 본 발명의 제 11 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 18은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 19는 본 발명의 제 12 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 20은 본 발명의 제 13 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 21은 본 발명의 제 14 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 도면이다.
도 22는 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 23은 본 발명의 제 15 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 24는 본 발명의 제 16 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 25는 도 24의 음성 인식 영상 피드백 제공 과정의 일 예를 도시한 도면이다.
도 26은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 27은 본 발명의 제 17 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 28은 본 발명의 제 18 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 29는 본 발명의 제 19 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 30은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 31은 본 발명의 제 20 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 32는 본 발명의 제 21 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 33은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 34는 본 발명의 제 22 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 35는 본 발명의 다른 실예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다.
도 36은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 개략적으로 도시한 도면이다.
도 37은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다.
도 38은 본 발명의 일 실시예에 따른 메인 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 39는 본 발명의 일 실시예에 따른 서브 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 40은 본 발명의 일 실시예에 따른 도 37의 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 41은 본 발명의 다른 실시예에 따른 도 37의 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 42는 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치를 도시한 블록도이다.
도 43은 본 발명의 제 23 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 발명은 사용자의 음성 인식시 사용자의 위치 또는 이에 해당하는 사용자 주변 위치 영역으로 영상 피드백(feedback)을 제공하는 시스템 및 방법에 관한 것이다. 여기서, 상기 사용자 주변 위치 영역은 상기 사용자가 위치한 지점의 주변 영역을 의미한다.
즉, 본 발명의 시스템은 사용자가 음성으로 특정 명령 또는 요청을 입력하면, 상기 입력된 명령 또는 요청에 해당하는 영상을 상기 사용자 주변 위치 영역으로 제공할 수 있다. 예를 들어, 상기 영상은 빔 프로젝션(beam projection)을 통하여 사용자에게 제공될 수 있다.
따라서, 단순히 음성 피드백만을 제공하는 시스템과 달리, 영상 피드백을 통하여 사용자에게 다양하고 편리한 서비스를 제공할 수 있다.
한편, 상기 영상은 2차원 영상, 3차원 영상, 홀로그램 등을 모두 포함한다.
이하, 본 발명의 다양한 실시예들을 첨부된 도면들을 참조하여 상술하겠다. 다만, 설명의 편의를 위하여 영상이 빔 프로젝션을 통하여 출력되는 것으로 가정하겠으나, 영상을 제공할 수 있는 한 빔 프로젝션 외에도 다양한 방법들이 사용될 수 있다.
도 1은 본 발명의 제 1 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이고, 도 2는 본 발명의 일 실시예에 따른 영상 피드백을 제공하는 과정을 도시한 도면이며, 도 3 내지 도 5는 본 발명의 일 실시예에 따른 음성 인식 영상 피드백 장치의 구조를 도시한 도면들이다.
도 1을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치(100)는 예를 들어 집 등의 건물 내에 위치할 수 있으며, 정보 디스플레이 또는 사용자의 터치 입력 등을 위한 디스플레이 소자(110)를 포함할 수도 있다. 다만, 디스플레이 소자(110)는 필수적인 구성요소는 아니다.
사용자(102)가 음성을 입력하면, 음성 인식 영상 피드백 장치(100)는 사용자(102)의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 명령, 요청 또는 희망사항을 추출한다.
예를 들어, 사용자(102)가 도 2에 도시된 바와 같이 "다음 10일 동안의 날씨를 보여줘" 또는 "sunnyvale 지역에서 costco를 어떻게 가야하는 지 알려줘"하고 음성을 입력하면, 음성 인식 영상 피드백 장치(100)는 10일 동안의 날씨 또는 costco에 갈 수 있는 방법을 표시한 영상을 사용자 주변 위치 영역(120)으로 출력할 수 있다.
예를 들어, 음성 인식 영상 피드백 장치(100)는 영상 제공을 위하여 빔 프로젝터(200)를 포함할 수 있고, 상기 음성에 해당하는 영상을 사용자 주변 위치 영역(120)으로 빔 프로젝션할 수 있다.
여기서, 사용자 주변 위치 영역(120)은 사용자(102)가 위치한 지점은 아니고 사용자(102)가 위치한 지점의 주변 영역을 의미한다.
예를 들어, 사용자 주변 위치 영역(120)은 사용자가 상기 영상을 시각적으로 잘 볼 수 있도록 사용자(102)가 위치한 지점을 기준으로 특정 거리를 반경으로 하는 영역, 예를 들어 반경 3미터 범위 내일 수 있다. 이는 사용자 주변 위치 영역(120)이 사용자(102)가 위치한 지점에 너무 가까워도 너무 멀어도 사용자(102)가 영상을 보기가 불편하기 때문이다. 물론, 상기 영상 중 적어도 일부가 상기 반경 3미터 이내 범위라는 것이지 상기 영상 전부가 상기 반경 3미터 이내일 필요는 없다.
또한, 사용자 주변 위치 영역(120)은 사용자(102)를 기준으로 전면, 후면, 측면, 상면 또는 후면일 수 있지만, 사용자(102)의 편리성을 고려하여 사용자(102)의 주변 영역 중 전면 영역일 수 있다. 여기서, 상기 전면 영역은 상기 음성이 음성 인식 피드백 장치(100)로 입력되는 방향에 해당할 수 있다.
게다가, 사용자 주변 위치 영역(120)은 바닥, 천정, 벽 등일 수 있지만, 사용자(102)가 가장 편리하게 볼 수 있는 위치가 바닥 또는 벽이므로 사용자 주변 위치 영역(120)은 바닥 또는 벽인 것이 효율적이다.
따라서, 사용자(102)는 사용자 주변 위치 영역(120)에 보여지는 영상을 통하여 원하는 정보 등을 획득할 수 있다.
이 때, 사용자 주변 위치 영역(120)은 사용자(102)가 영상을 시각적으로 잘 확인할 수 있는 영역이면 충분하며 특별한 사이즈 또는 형상으로 제한되지는 않는다. 다만, 상기 영상은 해상도 등을 고려하여 사용자(102)에게 시각적으로 잘 확인되는 사이즈로 설정될 것이다.
물론, 본 발명의 시스템은 사용자(102)가 위치한 영역을 제외하는 것은 아니다. 다만, 사용자(102)가 위치한 영역으로 영상을 출력하면 사용자가(102)가 상기 영상을 제대로 확인하기가 어렵다. 따라서, 상기 영상 피드백은 사용자(102)가 위치한 영역이 아닌 사용자 주변 위치 영역(120)으로 제공되는 것이 효율적이다.
한편, 음성 인식 영상 피드백 장치(100)는 사용자(102)에게 영상 피드백시 영상뿐만 아니라 음성 피드백도 함께 제공할 수 있다.
음성 피드백만을 제공한다고 가정하면, 사용자(102)가 원하는 정보를 파악하기가 어렵고 다양한 서비스를 향유할 수가 없다. 그러나, 본 발명의 음성 인식 영상 피드백 제공 시스템은 사용자가 원하는 정보, 다른 서비스 등을 상기 영상을 통하여 사용자(102)에게 제공하므로, 사용자(102)가 원하는 정보를 용이하게 파악할 수 있고 다양한 서비스를 향유할 수 있다.
정리하면, 본 발명의 음성 인식 영상 피드백 장치(100)는 사용자(102)의 음성을 인식하고 상기 인식된 음성에 따라 관련 영상을 사용자 주변 위치 영역(120)으로 출력할 수 있다.
이러한 기능 수행을 위하여, 음성 인식 영상 피드백 장치(100)는 기본적으로 마이크, 음성을 인식하고 음성 내용을 파악하기 위한 음성 피드백부, 사용자 위치 추적 소자(위치 추적부), 예를 들어 카메라 및 영상 피드백부로서 영상 출력 소자(200), 예를 들어 빔 프로젝터를 포함할 수 있다.
이하, 영상을 제공하기 위하여 사용자(102)의 위치를 파악하는 상기 사용자 위치 추적 소자를 간략히 살펴보겠다.
일 실시예에 따르면, 상기 사용자 위치 추적 소자는 상기 인식된 음성의 방향을 탐지하고, 상기 탐지된 방향 하에서 상기 인식된 음성의 크기를 분석하여 음성 인식 영상 피드백 장치(100)와 사용자(102) 사이의 거리를 검출할 수 있다. 즉, 상기 사용자 위치 추적 소자는 상기 인식된 음성만을 기초로 하여 사용자(102)의 위치를 추적할 수 있다. 다만, 이러한 위치 추적 방법은 정확성 측면에서 떨어질 수는 있다.
다른 실시예에 따르면, 사용자(102)의 위치를 정확하게 추적하기 위하여, 상기 사용자 위치 추적 소자는 영상 촬영 소자(예를 들어, 카메라)를 포함할 수 있다. 구체적으로는, 상기 사용자 위치 추적 소자는 상기 음성 인식 영상 피드백 장치로 입력된 음성의 방향으로 상기 카메라를 위치시키고, 상기 카메라를 통하여 영상을 촬영하여 사용자(102)의 위치를 정확하게 추적할 수 있다.
예를 들어, 상기 사용자 위치 추적 소자는 상기 촬영된 영상에서 픽셀들의 화소 변화를 통한 경계 영역 분석 등의 다양한 방법들을 통하여 객체를 추출하고, 상기 추출된 객체가 위치한 지점을 사용자(102)의 위치로 결정할 수 있다.
다른 예로, 상기 영상이 복수의 객체들을 포함하고 있는 경우, 상기 사용자 위치 추적 소자는 상기 객체들 중 사람이 아닌 객체를 제거한 후 남은 객체들(사람들) 중에서 상기 음성 인식 영상 피드백 장치로 입력된 음성의 방향에 가장 매칭되는 객체를 사용자(102)의 위치로 결정할 수 있다. 이 경우, 사용자(102)의 위치에 해당하는 객체를 제외한 나머지 객체들(예를 들어, TV)은 제거되는 효과가 있으므로, 잡음이 제거된다고 할 수 있다. 여기서, 상기 사람에 해당하는 객체는 사람의 형상에 해당하는 객체를 의미한다.
또 다른 예로, 상기 영상이 복수의 객체들을 포함하고 있는 경우, 상기 사용자 위치 추적 소자는 사람에 해당하는 객체들 중 상기 음성의 크기에 해당하는 거리에 위치하는 객체의 위치를 사용자(102)의 위치로 결정할 수 있다. 이 경우, 복수의 객체들이 상기 음성의 크기에 해당하는 거리에 존재하는 경우, 상기 사용자 위치 추적 소자는 상기 음성 인식 영상 피드백 장치로 입력된 음성의 방향에 가장 매칭되는 객체를 사용자(102)의 위치로 결정하거나 임의의 객체를 사용자(102)의 위치로 결정할 수 있다.
즉, 상기 음성 인식 영상 피드백 장치는 음성 및 영상을 통하여 사용자(102)의 위치를 정확하게 추적(검출)할 수 있다.
이러한 사용자의 영상을 획득하기 위해서는, 상기 사용자 위치 추적 소자가 회전 가능하거나 복수의 사용자 위치 추적 소자들이 음성 인식 영상 피드백 장치(100)에 설치되어야 한다.
구체적으로는, 사용자(102)가 음성 인식 영상 피드백 장치(100)의 전후좌우 어디에도 위치할 수 있고 음성 인식 영상 피드백 장치(100)가 일반적으로 고정적으로 설치되므로, 사용자(102)의 위치를 파악하기 위해서는 상기 사용자 위치 추적 소자가 회전 가능한 구조로 설치되거나 복수의 사용자 위치 추적 소자들이 서로 다른 위치에 고정적으로 설치되어야 효율적이다.
예를 들어, 상기 사용자 위치 추적 소자를 회전시킬 수 있는 가이드가 음성 인식 피드백 장치(100)의 바디 상에 형성되고 상기 사용자 위치 추적 소자가 상기 가이드를 따라서 회전할 수 있다. 이 경우, 상기 사용자 위치 추적 소자 자체도 회전 가능한 구조를 가질 수 있다.
다른 예로, 4개의 사용자 위치 추적 소자들이 90도 간격으로 상기 사용자 위치 추적 소자들에 설치될 수 있다.
이하, 영상을 출력하는 영상 피드백부의 구조에 대하여 살펴보겠다.
사용자(102)가 다양한 위치에 존재할 수 있으므로, 상기 영상 피드백부 또한 회전 가능하거나 복수의 영상 피드백부들이 예를 들어 90도 간격을 가지고 설치되어야 한다.
일 실시예에 따르면, 도 3에 도시된 바와 같이 영상 피드백부로서 빔 프로젝터(200)가 음성 인식 영상 피드백 장치(100)의 바디(300) 상에 회전 가능한 구조로 설치될 수 있다.
구체적으로는, 바디(300) 상에 원형의 가이드(310)가 바디(300) 둘레를 따라서 형성되고, 빔 프로젝터(200)가 가이드(302)를 따라서 이동할 수 있다. 즉, 빔 프로젝터(200)가 가이드(302)를 따라서 360도 회전 가능하게 된다. 물론, 빔 프로젝터(200) 자체적으로도 회전 가능할 수 있다.
다른 실시예에 따르면, 도 4에 도시된 바와 같이 바디(300)의 일부분에 제 1 가이드(400)가 형성되고 다른 일부분에 제 2 가이드(402)가 형성될 수 있으며, 가이드들(400 및 402)에 각기 빔 프로젝터들(200a 및 200b)이 설치될 수도 있다. 이 경우, 가이드들(400 및 402)은 빔 프로젝터들(200a 및 200b)이 360도 전방향에 걸쳐서 회전할 수 있도록 바디(300)의 둘레를 따라서 형성될 수 있다. 물론, 도 4에서는 2개의 가이드들을 도시하였지만, 3개 이상의 가이드들이 형성될 수도 있다.
또 다른 실시예에 따르면, 도 5에 도시된 바와 같이 바디(300)의 외부에 빔 프로젝터(500)가 형성될 수도 있다. 물론, 빔 프로젝터(500)는 바디(300)의 둘레를 따라서 회전할 수 있도록 가이드가 바디(300)에 형성될 수 있다.
즉, 빔 프로젝터는 회전할 수 있는 한 음성 인식 영상 피드백 장치(100) 자체에 형성될 수도 있고 외부에 설치될 수도 있다.
또 다른 실시예를 따르면, 음성 인식 영상 피드백 장치(100)의 바디(300)의 동서남북 사방향에 걸쳐서 각기 빔프로젝터들이 형성될 수 있다. 이 경우, 상기 빔 프로젝터들은 고정된 구조를 가지면서 정해진 영역으로 영상을 출력할 수 있다.
물론, 이러한 고정 구에서도 상기 빔 프로젝터가 자체적으로 회전 가능할 수 있으며, 그 결과 상기 빔 프로젝터는 정해진 영역 내에서 원하는 방향으로 자유롭게 영상을 출력시킬 수 있다.
도 6은 본 발명의 제 2 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다.
도 6을 참조하면, 음성 인식 영상 피드백 장치(100)는 영상 피드백부로서 빔 프로젝터(200)를 포함할 수 있고, 사용자의 음성에 따라 영상 피드백을 제공할 수 있다.
다만, 사용자가 음성으로 영상 피드백이 제공될 위치를 지정하면, 음성 인식 영상 피드백 장치(100)는 사용자 주변 위치 영역이 아닌 사용자에 의해 지정된 위치로 영상 피드백을 제공할 수 있다.
예를 들어, 도 6에 도시된 바와 같이, 사용자가 "벽에 디스플레이해줘"라고 말하면, 음성 인식 영상 피드백 장치(100)는 사용자 주변 위치 영역이 아닌 벽으로 영상을 출력할 수 있다.
일 실시예에 따르면, 음성 인식 영상 피드백 장치(100)는 자연어 분석을 통하여 사용자의 음성을 분석할 수 있고, 상기 분석 결과에 따라 사용자가 지정한 위치를 파악할 수 있다. 여기서, 상기 사용자에 의해 지정된 위치는 구체적으로 특정될 수도 있고 여러 위치들을 포함할 수도 있다.
상기 사용자에 의해 지정된 위치가 구체적으로 특정된 경우, 예를 들어 사용자가 "거실의 tv가 위치한 벽"이라고 말하면, 음성 인식 영상 피드백 장치(100)는 상기 특정된 벽으로 영상 피드백을 제공할 수 있다. 이 경우에는, 사용자의 위치 파악이 필요치는 않다.
반면에, 상기 사용자에 의해 지정된 위치가 여러 위치를 포함하는 경우, 예를 들어 사용자가 "거실 벽"이라고 말하면, 거실에 다수의 벽들이 존재하므로, 음성 인식 영상 피드백 장치(100)는 사용자에게 가장 가까운 벽으로 영상 피드백을 제공할 수 있다. 이 경우에는, 사용자의 위치 파악이 요구된다.
정리하면, 본 실시예의 음성 인식 영상 피드백 장치(100)는 사용자의 음성에 영상이 피드백될 위치가 지정된 경우 상기 지정된 위치로 영상 피드백을 제공할 수 있다.
위에서는, 기본적인 음성 인식 피드백 시스템의 동작을 설명하였다. 이하 다양한 음성 인식 영상 피드백 제공 시스템의 동작을 첨부된 도면들을 참조하여 상술하겠다. 다만, 설명의 편의를 위하여 구성요소들에 대한 도면 부호는 생략하겠다.
또한, 영상 피드백이 사용자 주변 위치 영역뿐만 아니라 사용자가 위치한 영역으로도 제공될 수 있고, 사용자 주변 위치 영역이 넓게는 사용자 위치 내에 포함된다고도 할 수 있으므로, 이하 도면들에서는 영상 피드백이 제공되는 위치를 사용자 위치로 간략히 기재하였다.
이하, 음성 인식하여 영상 피드백하는 기본 구조를 가지는 다양한 실시예들을 먼저 상술하겠다.
도 7은 본 발명의 일 실시예에 따른 음성 인식 영상 피드백 장치를 도시한 블록도이다.
도 7을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(700), 음성 인식부(702), 위치 추적부(704), 영상 피드백부(706), 음성 피드백부(708) 및 저장부(710)를 포함할 수 있다.
음성 인식부(702)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성이 전달하는 사용자의 요청을 파악한다. 이러한 음성 인식부(702)는 음성 인식과 관련된 기능을 담당한다.
위치 추적부(704)는 상기 음성 인식 영상 피드백 장치로 입력되는 음성의 방향으로 하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(704)는 위치 추적과 관련된 기능을 담당한다.
영상 피드백부(706)는 상기 음성에 해당하는 영상을 사용자에게 제공할 수 있다. 예를 들어, 영상 피드백부(706)는 빔 프로젝터일 수 있다. 이러한 영상 피드백부(706)는 영상 제공과 관련된 기능을 담당한다.
음성 피드백부(708)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. 예를 들어, 음성 피드백부(708)는 스피커를 포함할 수 있다. 이러한 음성 피드백부(708)는 음성 제공과 관련된 기능을 담당한다.
저장부(710)는 음성, 영상 등의 각종 정보를 저장한다.
제어부(700)는 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.
위에 도시하지 않았지만, 상기 음성 인식 영상 피드백 장치는 환경 설정부 등을 더 포함할 수 있다.
상기 환경 설정부는 상기 음성 인식 영상 피드백 장치의 환경을 설정하며, 예를 들어 사용자, 사용자 음성 등을 등록할 수 있다.
도 8은 본 발명의 제 3 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 8을 참조하면, 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S800). 예를 들어, 상기 음성 인식 영상 피드백 장치는 사용자의 음성에 포함된 자연어들을 추출하고, 상기 추출된 자연어들을 분석하여 사용자의 명령, 요청 등을 인식한다.
이어서, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성으로부터 잡음을 제거한다(S802).
예를 들어, 여러 사람 소리가 수신되는 경우, 상기 음성 인식 영상 피드백 장치는 가장 큰 소리로 수신된 음성을 사용자의 음성으로 인식하고, 나머지 음성은 필터링하여 제거할 수 있다.
다른 예로, TV 등의 타 기기로부터의 사운드가 수신된 경우, 상기 음성 인식 영상 피드백 장치는 기계음을 필터링하여 제거하고 사람의 음성만을 사용자의 음성으로 인식할 수 있다.
물론, 이 경우에도 다양한 소리들 중 가장 큰 소리로 수신되는 음성을 사용자의 음성으로 인식할 수도 있다.
즉, 잡음은 사용자의 음성을 제외한 모든 사운드이며, 상기 사운드는 필터링 제거된다.
계속하여, 상기 음성 인식 영상 피드백 장치는 사용자의 위치를 추적한다(S804). 예를 들어, 상기 음성 인식 영상 피드백 장치는 상기 사용자의 음성이 입력된 방향으로 하여 사용자의 위치를 추적할 수 있다.
즉, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향에서 상기 음성의 크기를 기초로 상기 사용자의 위치를 추적할 수 있다.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치는 사용자의 음성이 입력된 방향으로 상기 사용자 위치 추적 소자를 위치시킨 상태에서 상기 사용자 위치 추적 소자를 이용하여 사용자의 위치를 추적할 수도 있다.
여기서, 상기 사용자의 음성이 입력된 방향은 가장 큰 세기로 입력되는 음성이 입력되는 방향일 수 있다. 사용자가 음성을 출력하면 다양한 방향에서 상기 음성 인식 영상 피드백 장치의 마이크로 입력될 수 있는데, 상기 음성 인식 영상 피드백 장치는 상기 방향들 중 가장 큰 소리로 입력되는 음성의 방향을 상기 음성이 입력된 방향으로 결정할 수 있다.
이어서, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 상기 음성에 해당하는 영상을 출력할 수 있으며, 예를 들어 빔 프로젝션할 수 있다. 물론, 상기 영상뿐만 아니라 해당 사운드(음성 피드백)도 함께 출력될 수 있다.
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 입력되는 다양한 소리들 중 사용자의 음성을 제외한 나머지는 잡음으로서 필터링 제거하고, 그런 후 상기 사용자의 음성에 해당하는 영상을 상기 사용자 주변 위치 영역으로 제공할 수 있다.
도 9는 본 발명의 제 4 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 9를 참조하면, 사용자의 음성을 음성 인식 영상 피드백 장치 또는 외부 컴퓨팅 장치(예를 들어, 클라우드 서버)에 미리 등록할 수 있다(S900).
일반적으로, 상기 음성 인식 영상 피드백 장치가 가정 내 또는 회사 내에서 사용될 가능성이 높으므로, 상기 음성 인식 영상 피드백 장치를 사용할 가능성이 있는 사용자들의 음성을 미리 등록하거나 사용자 자체를 등록할 수 있다.
이어서, 상기 음성 인식 영상 피드백 장치는 다수의 사람들 중 사용자의 음성을 인식할 수 있다(S902 및 S904). 예를 들어, 다수 사람들의 음성이 상기 음성 인식 영상 피드백 장치로 입력되는 경우, 상기 음성 인식 영상 피드백 장치는 상기 입력된 음성들 중 미리 등록된 음성이 있는 지를 파악하고, 미리 등록된 음성이 존재하면 해당 음성을 사용자의 음성으로 인식할 수 있다. 여기서, 상기 음성의 비교는 음성 신호의 파형의 일치 여부를 통하여 이루어질 수 있다.
한편, 상기 입력된 음성들 중 2개 이상의 미리 등록된 음성들이 존재하는 경우, 상기 음성 인식 영상 피드백 장치는 상기 미리 등록된 음성들 중 가장 큰 소리로 입력된 음성을 사용자의 음성으로 결정할 수 있다.
다른 실시예에 따르면, 사용자의 음성이 아닌 사용자가 기등록된 경우, 상기 음성 인식 영상 피드백 장치는 상기 음성들을 입력된 사용자들 중 기등록된 사용자가 있는 지를 파악하고, 기등록된 사용자의 음성을 사용자의 음성으로 결정할 수 있다.
예를 들어, 사용자가 "나 철수인데, 날씨 보여줘"라고 음성 인식하면, 상기 음성 인식 영상 피드백 장치는 "철수"가 기등록된 사용자인지의 여부를 파악하고, 기등록된 사용자이면 상기 입력된 음성을 상기 사용자의 음성으로 결정할 수 있다.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적할 수 있다(S906).
이어서, 상기 음성 인식 영상 피드백 장치는 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상을 제공할 수 있다(S908).
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 음성 또는 사용자를 미리 등록하고, 상기 등록에 기초하여 사용자의 음성을 결정하고, 상기 결정된 사용자의 음성에 해당하는 영상을 사용자에게 제공할 수 있다. 따라서, 기등록된 사용자가 아닌 타인의 음성 인식 영상 피드백 제공 시스템의 사용을 방지할 수 있다.
도 10은 본 발명의 제 5 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 10을 참조하면, 음성 인식 영상 피드백 장치가 사용자의 음성을 인식하고 인식된 음성의 내용을 분석할 수 있다(S1000).
상기 음성 인식 영상 피드백 장치는 상기 분석에 따라 상기 사용자의 음성이 복수 결과(내용)를 포함하고 있는 지의 여부를 판단한다(S1002).
예를 들어, 사용자가 "학교 앨범 보여줘"라고 상기 음성 인식 영상 피드백 장치로 음성을 입력할 수 있다. 이 경우, "학교 앨범"으로는 초등학교 앨범, 중학교 앨범, 고등학교 앨범 또는 대학교 앨범이 존재할 수 있다. 즉, 복수의 결과들이 사용자에게 제시 가능할 수 있다.
따라서, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성이 복수의 결과들을 포함하고 있는 지의 여부를 판단한다.
상기 인식된 음성이 단일 결과만을 포함하는 경우, 즉 사용자의 요청이 명확한 경우에는, 상기 음성 인식 영상 피드백 장치는 사용자의 위치를 추적하고(S1006), 추적된 위치로 영상 피드백을 제공할 수 있다(S1008).
반면에, 상기 인식된 음성이 복수 결과들을 포함하는 경우, 어느 결과를 영상으로 제공하여야 할지 판단하기 어렵다. 따라서, 상기 음성 인식 영상 피드백 장치는 상기 사용자에게 복수 결과들의 선택을 상기 사용자에게 문의할 수 있다(S1004).
예를 들어, 상기 음성 인식 영상 피드백 장치는 사운드 또는 영상으로 복수의 결과들 중 원하는 결과의 선택을 요청할 수 있다. 이 때, 사용자는 음성으로 원하는 결과를 선택하거나 디스플레이 소자를 통하여 원하는 결과를 선택할 수 있다.
계속하여, 상기 사용자가 원하는 결과를 선택하면, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적하고(S1006), 추적된 위치로 상기 결과에 해당하는 영상을 제공할 수 있다(S1008).
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 복수 결과들을 내포한 사용자의 음성이 입력되면, 사용자에게 원하는 결과를 선택하게 한 후, 상기 결과에 해당하는 영상을 상기 사용자에게 제공할 수 있다.
위에서는 사용자의 음성이 복수의 결과들을 포함할 때의 서비스 제공 방법을 언급하였으나, 상기 사용자의 음성에 따른 내용(요청)이 파악되지 않을 수도 있다. 이 경우, 상기 음성 인식 영상 피드백 장치는 상기 사용자가 원하는 결과를 파악하기 어려우니 명확한 내용을 다시 입력해달라고 요청할 수 있다.
여기서, 상기 음성의 내용을 파악하기 어려운 경우는 사용자가 "철수야 놀자"와 같이 영상 제공과 전혀 관련없는 음성을 입력하는 경우, 사용자가 "철수야 드다다다"과 같이 요청과 관련된 단어가 사전에 존재하지 않는 경우, 사용자가 "앨범 보여줄래? 말래?"와 같이 요청이 불명확한 경우, 상기 음성이 상기 음성 인식 영상 피드백 장치에 제한된 단어로 등록된 단어를 포함하는 경우, 음성에 포함된 요청이 상기 음성 인식 영상 피드백 장치가 제공할 수 없는 요청인 경우 등을 포함할 수 있다.
즉, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 상기 사용자의 음성이 복수의 결과들을 포함하거나 상기 음성 인식 영상 피드백 장치가 상기 음성의 내용을 파악하기 어려운 경우, 사용자에게 새로운 입력을 요청할 수 있다. 상기 새로운 입력은 결과의 선택이거나 새로운 음성 입력일 수 있다.
위에서는, 사용자가 복수의 결과들에 대하여 특정 결과를 선택하는 방식이었으나, 원하는 결과가 상기 음성 인식 영상 피드백 장치에 미리 등록되어 있을 수도 있다. 결과적으로, 사용자가 특정 결과를 선택하지 않아도 상기 특정 결과를 포함하는 영상이 상기 사용자게에 제공될 수 있다.
구체적으로는, 상기 음성 인식 영상 피드백 장치는 원하는 결과를 자체 내의 메모리 또는 외부 컴퓨팅 장치에 미리 등록할 수 있다. 예를 들어, 상기 음성 인식 영상 피드백 장치는"앨범" 단어에 "고등학교 앨범"을 매칭시켜 등록할 수 있다.
즉, 상기 음성 인식 영상 피드백 장치는 특정 단어, 문구 또는 문장에 대하여 원하는 결과를 미리 등록할 수 있다. 상기 특정 단어, 문구 또는 문장의 등록은 사용자가 음성으로 지정함에 의해 이루어질 수 있고 디스플레이 소자를 직접 조작하여 이루어질 수도 있다.
따라서, 상기 음성 인식 영상 피드백 장치는 예를 들어 사용자가 "학교 앨범 보여줘"라는 음성이 입력되었을 때 "앨범"이 "고등학교 앨범"을 지칭한다는 것을 인식할 수 있다.
이어서, 상기 음성 인식 영상 피드백 장치는 음성이 입력된 방향으로 하여 사용자의 위치를 추적하고, 상기 추적된 위치에 해당하는 사용자 주변 위치 영역으로 상기 음성에 해당하는 영상, 즉 원하는 결과를 포함하는 영상을 출력할 수 있다.
한편, 원하는 결과의 등록은 사용자별로 이루어질 수 있다. 예를 들어, 사용자 A는 "앨범"을 "고등학교 앨범"으로 매칭시켜 등록할 수도 있지만, 사용자 B는 "앨범"을 "대학교 앨범"에 매칭시켜 등록할 수 있다.
즉, 동일한 단어에 대하여 사용자별로 다른 결과가 매칭될 수 있다. 이 경우에는, 상기 음성 인식 영상 피드백 장치는 음성 입력시 상기 음성에 해당하는 사용자를 먼저 파악하고, 상기 파악된 사용자에 해당하는 결과를 선택하여 사용자에게 제공할 수 있다.
도 11은 본 발명의 제 6 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 11을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치가 사용자의 음성을 인식한다(S1100).
이어서, 상기 음성 인식 영상 피드백 장치가 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S1102).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공한다(S1104).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 사용자의 위치를 다시 추적한다(S1106).
사용자가 음성 출력한 위치에 고정적으로 위치한다면 사용자의 위치를 다시 추적할 필요가 없지만, 상기 사용자가 다른 위치로 이동할 수 있다. 이 경우에는, 상기 사용자의 위치를 다시 추적하여야만, 상기 사용자가 위치한 지점의 주변 영역으로 영상 피드백을 제공할 수 있다.
따라서, 상기 음성 인식 영상 피드백 장치는 상기 사용자의 위치를 지속적으로 추적할 수 있다.
여기서, 상기 사용자의 위치 추적은 지속적으로 입력되는 사용자의 음성 분석을 통하여 이루어질 수도 있다. 즉, 사용자가 이동하여 음성을 출력하면, 사용자가 이동한 방향에서 음성이 상기 음성 인식 영상 피드백 장치로 입력될 것이다. 따라서, 상기 음성 인식 영상 피드백 장치는 사용자의 음성을 지속적으로 추적하여 상기 사용자의 위치를 실시간으로 추적할 수 있다. 물론, 상기 사용자의 위치 추적은 카메라로 영상을 촬영함에 의해 수행될 수도 있다.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 사용자가 타위치로 이동한 경우 상기 타위치로 영상 피드백을 제공한다(S1108).
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 사용자의 위치를 지속적으로 추적하여 사용자의 현재 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공할 수 있다. 결과적으로, 상기 사용자가 이동하면 상기 영상도 이동하여 제공되게 된다.
위에서는, 영상 피드백 제공(S1104) 후에 사용자의 위치가 재추적되었지만, S1104 전에 사용자의 위치가 재추적될 수도 있다.
물론, 위에서는 사용자의 위치 재추적이라고 언급하였지만, 사용자 위치 추적 소자는 음성 인식된 후 영상 피드백의 제공이 종료될 때까지 사용자의 위치를 지속적으로 추적할 수 있다. 결과적으로, 사용자가 어느 위치에 있던 사용자에게 영상 피드백이 효율적으로 제공될 수 있다.
도 12는 본 발명의 제 7 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 12를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S1200).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성에 대하여 자연어 분석을 수행하고, 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S1202).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 자연어 분석 결과에 따라 영상 피드백이 제공될 지의 여부를 판단한다(S1204).
상기 자연어 분석 결과 영상(영상 피드백)이 제공될 필요가 있는 경우와 영상이 제공되지 않고 사운드(음성 피드백)만 제공되어도 충분한 경우가 있을 수 있다. 따라서, 상기 음성 인식 영상 피드백 장치는 상기 자연어 분석을 통하여 영상이 제공될 필요가 있는 지의 여부를 판단한다.
상기 영상 피드백 또는 상기 음성 피드백 제공의 판단은 미리 등록된 단어, 문구 또는 문장을 기초로 하여 이루어질 수도 있고, 상기 음성에 따라 제공될 결과에 포함된 단어의 수를 기초로 하여 이루어질 수도 있으며, 상기 음성에 따른 영상이 존재하는 지의 여부를 통하여 이루어질 수도 있고, 상기 요청이 영상과 관련된 요청인 지의 여부를 통하여 이루어질 수도 있다.
상기 영상이 제공될 필요가 없다고 판단되는 경우, 상기 음성 인식 영상 피드백 장치는 영상 출력없이 사운드만을 출력할 수 있다(S1208).
예를 들어, 사용자가 오늘의 날씨를 알고 싶다고 음성을 입력하면, 상기 음성 인식 영상 피드백 장치는 음성 출력만으로 사용자가 원하는 결과를 상기 사용자에게 충분히 제공될 수 있다고 결정하고 "오늘의 날씨"에 대한 정보를 음성 출력할 수 있다.
다른 예로, 상기 음성에 따른 결과에 포함된 단어의 수가 예를 들어 5000단어 이하이거나 상기 음성에 해당하는 영상이 존재하지 않을 경우, 상기 음성 인식 영상 피드백 장치는 해당 사운드만을 출력할 수 있다.
반면에, 상기 영상이 제공될 필요가 있다고 판단되는 경우, 상기 음성 인식 영상 피드백 장치는 영상 피드백을 제공할 수 있다(S1206). 물론, 이 경우 음성 출력도 상기 영상 피드백과 함께 이루어질 수도 있다.
예를 들어, 사용자가 주간 날씨를 알고 싶다고 음성을 입력하면, 상기 음성 인식 영상 피드백 장치는 주간 날씨에 대한 정보를 음성 출력으로만은 충분히 제공할 수 없다고 결정하고 "주간 날씨"에 대한 정보를 영상으로 출력할 수 있다.
다른 예로, 상기 음성에 따른 결과에 포함된 단어의 수가 예를 들어 5000단어를 초과하는 경우, 상기 음성 인식 영상 피드백 장치는 해당 영상을 출력할 수 있다.
또 다른 예로, 사용자가 "영화를 보여줘"와 같이 음성을 입력하는 경우, 즉 영상이 필수적으로 제공되어야 하는 음성 입력의 경우, 상기 음성 인식 영상 피드백 장치는 해당 영상을 사용자에게 제공할 수 있다.
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 분석하여 음성 피드백 또는 영상 피드백을 선택적으로 제공할 수 있다.
이 경우, 상기 음성 인식 영상 피드백 장치는 상기 음성 분석을 통하여 자동으로 음성 피드백 또는 상기 영상 피드백을 제공할 수 있다.
물론, 사용자가 음성 피드백을 원하는 지 영상 피드백을 원하는지를 명확하게 선택하여 음성 입력하거나 미리 설정한 경우에는, 상기 음성 인식 영상 피드백 장치는 상기 사용자가 선택한 방법을 통하여 관련 정보를 제공할 수 있다.
예를 들어, 사용자가 "오늘의 날씨"를 영상으로 제공해달라고 음성 입력한 경우, 상기 음성 인식 영상 피드백 장치는 "오늘의 날씨"에 대한 정보를 영상으로 사용자에게 제공할 수 있다.
도 13은 본 발명의 제 8 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 13을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S1300).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S1302).
계속하여, 상기 음성 인식 영상 피드백 장치는 음성 피드백을 제공하거나 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공한다(S1304).
이어서, 상기 음성 인식 영상 피드백 장치는 영상 피드백 또는 음성 피드백을 제공한다(S1306).
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 음성 피드백 제공 후 영상 피드백을 순차적으로 제공하거나 영상 피드백 제공 후 음성 피드백을 순차적으로 제공할 수 있다.
예를 들어, 사용자가 "날씨를 알려줘"라고 음성 입력한 경우, 날씨는 오늘의 날씨 및 주간 날씨를 포함할 수 있다. 이 경우, 상기 음성 인식 영상 피드백 장치는 "오늘의 날씨"를 음성 피드백으로 제공한 후 "주간 날씨"를 영상 피드백으로 제공할 수 있다.
따라서, 사용자가 포괄적인 정보를 요청한 경우에도, 상기 음성 인식 영상 피드백 장치는 적절하게 정보를 음성 및 영상을 통하여 제공할 수 있다.
상기 포괄적인 정보의 요청은 상기 요청에 해당하는 음성과 영상이 모두 존재하는 경우, 상기 요청에 따라 복수의 결과들이 상기 사용자에게 제공되어야 할 때 상기 결과들 중 적어도 하나가 음성 피드백으로 제공되고 다른 결과는 영상 피드백으로 제공되어야 할 경우, 제 7 실시예에서의 판단 기준을 적용하였을 때 음성 피드백과 영상 피드백이 모두 제공될 수 있을 경우 등을 포함할 수 있다.
도 14는 본 발명의 제 9 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 14를 참조하면, 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S1400).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 음성 분석, 예를 들어 상기 음성에 포함된 자연어 분석을 통하여 영상이 제공될 위치를 결정한다(S1402). 여기서, 상기 위치는 사용자의 위치가 아닌 타위치일 수 있다. 다만, 사용자가 자신의 위치를 지정한 경우에는, 상기 결정된 위치가 사용자의 위치일 수도 있다.
예를 들어, 사용자가 "벽에 날씨를 보여줘"라고 음성 입력한 경우, 상기 음성 인식 영상 피드백 장치는 자연어 "벽"을 인식하고, "벽"을 영상이 제공될 위치로 결정할 수 있다.
다른 예로, 사용자가 "내 옆에 있는 친구에게 사진을 보여줘"라고 음성 입력한 경우, 상기 음성 인식 영상 피드백 장치는 자연어 "친구"를 인식하고, "친구"가 위치한 영역을 영상이 제공될 위치로 결정할 수 있다.
또 다른 예로, 사용자가 "친구들 중 한명에게 사진을 보여줘"라고 음성 입력한 경우, 상기 음성 인식 영상 피드백 장치는 문구 "친구들 중 한명"을 인식하고, 친구들 중 한명을 임의로 선택하고 상기 선택된 친구가 위치한 영역을 영상이 제공될 위치로 결정할 수 있다.
이러한 위치 결정을 구성요소 측면에서 살펴보면, 상기 음성 인식 영상 피드백 장치는 음성 분석을 위하여 단어 추출부, 단어 선택부, 위치 결정부를 포함할 수 있다.
상기 단어 추출부는 상기 음성에 포함된 단어들을 추출한다.
상기 단어 선택부는 상기 추출된 단어들 중에서 위치와 관련된 단어(예를 들어, 벽, 친구, 바닥)를 제외한 나머지 단어를 제거한다. 여기서, 상기 위치와 관련된 단어는 상기 음성 인식 영상 피드백 장치에 미리 등록될 수 있다.
상기 위치 결정부는 상기 위치와 관련된 단어와 상기 단어와 결합된 단어, 문구 또는 문장의 조합을 통하여 영상이 제공될 위치를 결정할 수 있다.
예를 들어, "철수가 거실 바닥에 앉아있는데, 날씨를 벽면에 보여줘"라고 사용자가 음성 인식하면, 상기 위치 결정부는 상기 단어 선택부에 의해 선택된 "거실" 및 "바닥"과 이와 연결된 문구 "앉아 있는데"의 조합을 통하여 "거실 바닥"이 영상이 제공될 위치가 아님을 파악할 수 있고, 상기 단어 선택부에 의해 선택된 "벽면"과 이와 연결된 문구 "보여줘"의 조합을 통하여 상기 제공될 위치가 "벽"임을 파악할 수 있다. 따라서, 상기 음성 인식 영상 피드백 장치는 "벽"을 영상이 제공될 위치로 결정할 수 있다.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 결정된 위치로 영상 피드백을 제공할 수 있다(S1404).
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자가 음성을 통하여 지정한 위치, 예를 들어 사용자의 위치가 아닌 타 위치로 영상 피드백을 제공할 수 있다.
이하, 상기 음성 인식 영상 피드백 장치의 전원 동작과 관련된 실시예들을 첨부된 도면들을 참조하여 살펴보겠다.
도 15는 본 발명의 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 15를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(1500), 음성 인식부(1502), 위치 추적부(1504), 모드부(1506), 전원부(1508), 영상 피드백부(1510), 음성 피드백부(1512) 및 저장부(1514)를 포함할 수 있다.
음성 인식부(1502)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다. 이러한 음성 인식부(1502)는 음성 인식과 관련된 기능을 담당한다.
위치 추적부(1504)는 상기 음성 인식 영상 피드백 장치로 입력되는 음성의 방향으로 하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(1504)는 위치 추적과 관련된 기능을 담당한다.
모드부(1506)는 sleep 모드, active 모드,통화 모드 등 모드와 관련된 모든 기능을 관리한다. 특히, 모드부(1506)는 전원 제어를 위한 모드를 제어할 수 있다.
전원부(1508)는 상기 음성 인식 영상 피드백 장치의 구성요소들로의 전원 공급을 관리한다.
영상 피드백부(1510)는 상기 음성에 해당하는 영상을 사용자에게 제공할 수 있다. 이러한 영상 피드백부(1510)는 영상 제공과 관련된 기능을 담당한다.
음성 피드백부(1512)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. 예를 들어, 음성 피드백부(1512)는 스피커를 포함할 수 있다. 이러한 음성 피드백부(1512)는 음성 제공과 관련된 기능을 담당한다.
저장부(1514)는 음성, 영상 등의 각종 정보를 저장한다.
제어부(1500)는 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.
도 16은 본 발명의 제 10 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 16을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 sleep mode에서 그의 주변에 사람이 있는 지의 여부를 감지한다(S1600).
여기서, 상기 sleep mode는 상기 사람을 감지하는 감지 소자(예를 들어, 인체 감지 소자 또는 움직임 감지 소자) 및 이의 동작을 관리하는 프로세서의 일부를 제외한 나머지 구성요소들이 오프(Off)된 상태를 의미한다.
음성을 입력할 사용자가 없다면 에너지 절약을 위해서 상기 음성 인식 영상 피드백 장치가 온(On)되어 있을 필요가 없기 때문에, 평상시에는 상기 음성 인식 영상 피드백 장치는 sleep mode로 존재한다.
이어서, 사람이 감지되는 경우, 상기 음성 인식 영상 피드백 장치가 sleep mode에서 active mode로 전환되며, 즉 활성화된다(S1602). 즉, 상기 음성 인식 영상 피드백 장치의 모든 구성요소들이 음성 인식하고 영상 피드백을 제공할 수 있도록 턴-온될 수 있다.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치의 구성요소들 중 음성 인식과 관련된 구성요소들은 턴-온되되, 영상 피드백과 관련된 구성요소들은 오프 상태이거나 대기 모드(Standby mode)일 수도 있다. 상기 영상 피드백과 관련된 구성요소들은 사용자의 음성이 인식되었을 때 턴-온될 수도 있다.
계속하여, 상기 음성 인식 영상 피드백 장치가 사용자의 음성을 인식한다(S1604).
이어서, 상기 음성 인식 영상 피드백 장치는 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S1606).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공한다(S1608).
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 주변에 사용자가 감지되기 전에는 sleep mode로 존재하다가 사용자 감지되었을 때에 active mode로 전환될 수 있다. 결과적으로, 불필요한 전력 낭비가 방지될 수 있다.
다른 실시예에 따르면, 사용자 감지 방식이 아닌 상기 음성 인식 영상 피드백 장치가 존재하는 공간에 특정 소자, 예를 들어 조명이 활성화되었을 때 상기 음성 인식 영상 피드백 장치가 sleep mode에서 active mode로 전환될 수도 있다.
도 17은 본 발명의 제 11 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 17을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치가 사용자의 음성을 인식한다(S1700). 이 경우, 상기 음성 인식과 관련된 구성요소를 제외한 상기 음성 인식 영상 피드백 장치의 나머지 구성요소들은 오프 상태일 수 있으며, 즉 sleep mode일 수 있다.
이어서, 상기 음성 인식 영상 피드백 장치는 나머지 구성요소들을 활성화시킬 지의 여부를 판단한다(S1702).
예를 들어, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성이 기등록된 음성에 해당하는 지의 여부를 판단할 수 있다. 즉, 상기 음성 인식 영상 피드백 장치가 모든 사용자들을 위해 영상 피드백을 제공할 필요는 없으며, 기등록된 사용자를 위해서만 영상 피드백을 제공할 수 있다.
따라서, 이 경우에는 기등록된 사용자의 음성이 감지되지 않을 때에는 상기 나머지 구성요소들을 턴-온시킬 필요가 없으며, 에너지 절약을 위하여 기등록된 사용자의 음성이 감지되었을 때에만 상기 나머지 구성요소들을 턴-온시키는 것이 효율적이다.
상기 인식된 음성이 기등록된 음성이 아니면, 상기 음성 인식 영상 피드백 장치는 sleep mode를 유지한다. 즉, 상기 음성 인식과 관련된 구성요소를 제외한 나머지 구성요소들은 오프 상태를 유지한다.
반면에, 상기 인식된 음성이 기등록된 음성이면, 상기 음성 인식 영상 피드백 장치의 나머지 구성요소들이 턴-온되고(active mode), 즉 상기 나머지 구성요소들로 전원이 공급되며, 그런 후 상기 음성 인식 영상 피드백 장치가 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S1704).
계속하여, 상기 음성 인식 영상 피드백 장치가 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역에 영상 피드백을 제공한다(S1706).
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 모든 사용자에 반응하여 활성화되지 않고, 기등록된 사용자에만 반응하여 활성화될 수 있다.
예를 들어, 가족 구성원들만 상기 음성 인식 영상 피드백 장치에 미리 등록하여 놓으면, 가족 외의 타인이 상기 음성 인식 영상 피드백 장치를 동작시킬 수 없다.
상기 음성 인식 영상 피드백 장치는 상기 가족 구성원들의 정보를 영상 피드백할 수도 있다. 결과적으로, 타인이 임의로 상기 음성 인식 영상 피드백 장치를 활성화시킬 수 있다면, 상기 가족 구성원들의 정보가 유출될 수도 있다. 따라서, 이러한 정보 유출을 차단하기 위하여, 상기 음성 인식 영상 피드백 장치는 기등록된 사용자에만 반응하여 활성화될 수 있다.
다른 실시예에 따르면, 기등록된 사용자들 중 음성 인식된 사용자를 제외한 나머지 사용자에 대한 정보는 상기 음성 인식된 사용자에 응답하여 상기 음성 인식 영상 피드백 장치가 활성화되더라도 상기 음성 인식된 사용자에게 제공되지 않을 수 있다. 즉, 사적인 정보는 본인을 제외한 나머지 사용자들에게는 제공되지 않을 수 있다.
물론, 상기 음성 인식 영상 피드백 장치는 사적인 정보 외의 나머지 정보들은 기등록된 사용자들 모두에게 영상 피드백을 통하여 제공할 수 있다.
이하, 사용자의 움직임도 감지하는 상기 음성 인식 영상 피드백 장치의 동작과 관련된 실시예들을 첨부된 도면들을 참조하여 살펴보겠다.
도 18은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 18을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(1800), 음성 인식부(1802), 움직임 인식부(1804), 사용자 분석부(1806), 위치 추적부(1808), 영상 피드백부(1810), 음성 피드백부(1812) 및 저장부(1814)를 포함할 수 있다.
음성 인식부(1802)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다. 이러한 음성 인식부(1802)는 음성 인식과 관련된 기능을 담당한다.
움직임 인식부(1804)는 움직임 감지 센서를 이용하여 사용자의 움직임을 파악하며, 예를 들어 사용자의 손 동작 등을 파악할 수 있다.
사용자 분석부(1806)는 상기 파악된 사용자의 움직임을 통하여 사용자가 의도 또는 기분을 파악할 수 있다. 이렇게 파악된 사용자의 움직임에 따른 의도 또는 기분은 영상이 피드백될 위치 또는 영상의 사이즈, 색상 등을 결정하는데 보조하기 위하여 사용될 수 있다.
위치 추적부(1808)는 상기 음성 인식 영상 피드백 장치로 입력되는 음성의 방향 또는 상기 사용자의 움직임을 통하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(1808)는 위치 추적과 관련된 기능을 담당한다.
영상 피드백부(1810)는 상기 음성에 해당하는 영상을 사용자에게 제공할 수 있다. 이러한 영상 피드백부(1810)는 영상 제공과 관련된 기능을 담당한다.
음성 피드백부(1812)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. 이러한 음성 피드백부(1812)는 음성 제공과 관련된 기능을 담당한다.
저장부(1814)는 음성, 영상 등의 각종 정보를 저장한다.
제어부(1800)는 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.
도 19는 본 발명의 제 12 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 19를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성뿐만 아니라 사용자의 제스처 등의 움직임을 인식할 수 있다(S1900). 물론, 움직임 인식을 위하여는 상기 음성 인식 영상 피드백 장치가 움직임 감지 소자, 예를 들어 카메라를 포함하여야 한다.
이어서, 상기 음성 인식 영상 피드백 장치는 상기 사용자의 음성이 입력된 방향 또는 움직임이 감지된 방향으로 하여 사용자의 위치를 추적할 수 있다(S1902).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공할 수 있다(S1904). 이 경우, 상기 영상 피드백은 상기 사용자의 음성 및 제스처가 반영되어 제공될 수 있다.
예를 들어, 상기 사용자가 음성으로 "벽"을 언급하지는 않았지만 손가락으로 벽을 가르키는 경우, 상기 음성 인식 영상 피드백 장치는 영상 피드백을 사용자 주변 위치 영역이 아닌 벽으로 제공할 수 있다.
다른 예로, 상기 사용자가 큰 원을 손으로 그리는 경우, 상기 음성 인식 영상 피드백 장치는 상기 영상을 큰 사이즈로 제공할 수 있다.
즉, 상기 음성 인식 영상 피드백 장치는 음성뿐만 아니라 사용자의 움직임도 반영하여 영상 피드백을 제공할 수 있다. 따라서, 상기 음성 인식 영상 피드백 장치는 더 풍부하게 다양한 영상을 사용자에게 제공할 수 있다.
한편, 상기 사용자의 움직임은 음성 인식 후 인식될 수도 있고, 음성 인식과 동시에 인식될 수도 있다.
도 20은 본 발명의 제 13 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 20을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S2000).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성을 통하여 사용자의 기분 등을 파악할 수 있다(S2002).
일 실시예에 따르면, 상기 사용자 분석부는 상기 음성의 톤, 상기 음성에 포함된 기분을 표시하는 단어 등을 분석하는 음성 분석부 및 상기 사용자의 움직임의 크기, 기분을 표시하는 움직임 등을 분석하는 움직임 분석부를 포함할 수 있다.
예를 들어, 상기 사용자 분석부는 상기 음성이 낮게 가라앉아 있으면 상기 사용자의 기분을 우울이라고 결정할 수 있고, 상기 음성이 "하하"라는 웃음 소리를 포함하고 있으면 상기 사용자의 기분을 기쁨이라고 결정할 수 있다.
다른 예로, 상기 사용자 분석부는 상기 사용자의 움직임 분석에 따라 상기 사용자가 춤을 추고 있다고 감지되면 상기 사용자의 기분을 기쁨이라고 결정할 수 있고, 사용자가 흐느끼고 있다고 감지되면 상기 사용자의 기분을 슬픔이라고 결정할 수 있다.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성 외에도 사용자의 움직임, 생년월일, 사용자에 의해 직접 입력된 기분 등을 통하여서도 기분, 바이오 리듬 등을 파악할 수 있다. 여기서, 상기 바이오 리듬은 상기 음성 인식 영상 피드백 장치가 자체적으로 또는 외부 기기를 통하여 인터넷 사이트를 활성화시키고, 상기 인터넷 사이트에 생년월일을 입력함에 의해 파악될 수 있다.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S2004).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공한다(S2006). 이 경우, 상기 영상 피드백은 상기 사용자의 기분 등을 반영하여 제공될 수 있다.
예를 들어, 상기 사용자의 음성 분석을 통하여 상기 사용자의 기분이 기쁨이라고 결정되면, 상기 음성 인식 영상 피드백 장치는 더 밝은 색상의 영상을 사용자에게 제공할 수 있다. 물론, 상기 음성 인식 영상 피드백 장치는 밝고 명랑한 사운드도 영상과 함께 제공할 수도 있다.
반면에, 상기 사용자의 기분이 슬픔이라고 결정되면, 상기 음성 인식 영상 피드백 장치는 더 어두운 색상의 영상을 사용자에게 제공할 수 있다. 기본적으로, 상기 영상은 색상 또는 분위기 등을 제외하고는 기분이 좋을때 우울할 때와 관계없이 동일할 수 있다.
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 사용자의 음성에 따른 정보 등을 제공할 때, 사용자의 기분 등을 반영하여 상기 정보 등을 영상 또는 영상과 사운드를 통하여 제공할 수 있다.
위에서는, 상기 음성 인식 영상 피드백 장치가 음성에 포함된 요청에 따라 영상을 사용자에게 제공하였으나, 상기 요청이 없이도 영상을 상기 사용자에게 제공할 수 있다.
구체적으로는, 상기 음성 인식 영상 피드백 장치가 특정 요청을 포함하는 음성이 아닌 사용자의 일반 음성 등을 통하여 사용자의 기분을 파악하고, 상기 파악된 기분을 반영하여 영상을 상기 사용자에게 제공할 수 있다.
일 실시예에 따르면, 상기 음성 인식 영상 피드백 장치는 상기 음성에 포함된 단어들을 추출하고 분석하여 특정 요청이 없는 경우 일반 음성이라고 판단할 수 있다.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치는 음성 입력 시간이 기설정 시간 이상이면 일반 음성이라고 판단할 수 있다. 사용자가 상기 음성 인식 영상 피드백 장치로 특정 요청을 입력할 경우에는 예를 들어 30초 이내의 음성일 가능성이 높으며, 따라서 30초 이상의 음성이 지속적으로 입력되면 상기 음성 인식 영상 피드백 장치는 상기 입력되는 음성을 일반 음성이라고 결정할 수 있다.
예를 들어, 상기 사용자가 타인과 전화 통화하는 경우 30초 이상 음성이 입력될 가능성이높으며, 따라서 상기 음성 인식 영상 피드백 장치는 일반 음성이라고 결정하고 사용자의 기분을 파악하며, 파악된 기분에 맞는 영상 또는 사운드를 자동으로 제공할 수 있다.
즉, 상기 음성 인식 영상 피드백 제공 시스템은 사용자의 요청이 없음에도 사용자의 음성 등을 통하여 사용자의 기분을 파악하고 적절한 영상 또는 음성을 상기 사용자에게 자동으로 제공할 수 있다. 따라서, 사용자는 기대치 않은 즐거움을 누릴 수 있다.
도 21은 본 발명의 제 14 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 도면이다.
도 21을 참조하면, 음성 인식 영상 피드백 장치(100) 내에 스피커 및 영상 출력 소자(예를 들어, 빔 프로젝터)가 포함되지 않고, 음성 인식 영상 피드백 장치(100)의 외부에 스피커(2100)와 빔 프로젝터(2102)가 위치할 수 있다.
물론, 스피커(2100)와 빔 프로젝터(2102)는 음성 인식 영상 피드백 장치(100)와 무선 또는 유선으로 연결될 수 있다.
음성 인식 영상 피드백 장치(100)와 스피커(2100) 및 빔 프로젝터(2102)가 분리되어 있지만 동작은 이전 실시예들과 동일하므로, 이에 대한 설명은 생략한다.
이하, 음성뿐만 아니라 영상도 이용하는 상기 음성 인식 영상 피드백 장치의 동작과 관련된 실시예들을 첨부된 도면들을 참조하여 살펴보겠다.
도 22는 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 22를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(2200), 음성 인식부(2202), 영상 획득부(2204), 위치 추적부(2206), 영상 피드백부(2208), 음성 피드백부(2210) 및 저장부(2212)를 포함할 수 있다.
음성 인식부(2202)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다. 이러한 음성 인식부(2202)는 음성 인식과 관련된 기능을 담당한다.
영상 획득부(2204)는 상기 음성 인식 영상 피드백 장치로 입력되는 음성의 방향으로 하여 위치된 후 전방의 영상을 획득하며, 예를 들어 카메라이다. 이렇게 획득된 영상은 사용자의 위치를 결정하고 잡음을 제거하기 위해 사용될 수 있다.
다른 실시예에 따르면, 영상 획득부(2204)는 상기 음성 인식 영상 피드백 장치에 포함되지 않고 외부 기기일 수 있다. 예를 들어, 영상 획득부(2204)는 집 내에 설치된 보안 카메라일 수 있다. 이 경우, 상기 음성 인식 영상 피드백 장치는 영상 획득부(2204)와 통신 연결된 상태에서 영상 획득부(2204)를 통하여 원하는 영상을 획득할 수 있다.
위치 추적부(2206)는 상기 음성과 상기 영상을 이용하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(2206)는 위치 추적과 관련된 기능을 담당한다.
영상 피드백부(2208)는 상기 음성에 해당하는 영상을 사용자에게 제공할 수 있다. 이러한 영상 피드백부(2208)는 영상 제공과 관련된 기능을 담당한다.
음성 피드백부(2210)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. 이러한 음성 피드백부(2210)는 음성 제공과 관련된 기능을 담당한다.
저장부(2212)는 음성, 영상 등의 각종 정보를 저장한다.
제어부(2200)는 상기 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.
도 23은 본 발명의 제 15 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 23을 참조하면, 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S2300).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성의 방향으로 하여 사용자 위치 추적 소자(예를 들어, 카메라)를 이용하여 사용자의 영상을 촬영한다(S2302). 이 경우, 상기 사용자 위치 추적 소자는 회전 가능할 수 있다.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 음성 및 영상을 기초로 하여 사용자의 위치를 추적한다(S2304). 따라서, 상기 음성 인식 영상 피드백 장치는 음성만을 이용하여 상기 사용자의 위치를 추적하는 것보다 더 정확하게 사용자의 위치를 추적할 수 있다.
물론, 상기 사용자의 위치를 추적하는 과정에서, 타인, 사물, TV 소리 등의 잡음을 필터링하는 과정이 추가적으로 수행될 수 있다. 이는 카메라로 촬영된 영상이 있기 때문에 효율적으로 수행될 수 있다.
예를 들어, 상기 음성 인식 영상 피드백 장치는 상기 사용자 위치 추적 소자에 의해 획득된 영상으로부터 객체들을 추출하고, 상기 추출된 객체들 중 사람이 아닌 객체를 제거하며(필터링 과정), 남은 객체들 중 상기 음성의 입력된 방향 및 상기 음성의 크기에 해당하는 객체를 사용자로 결정할 수 있다.
다른 예로, 상기 음성 인식 영상 피드백 장치는 입력되는 음성들 중 가장 큰 음성을 제외한 나머지 음성들을 제거하고(필터링), 남은 음성이 입력된 방향으로 하여 카메라를 위치시킨 후 영상을 촬영하며, 상기 음성과 영상을 이용하여 사용자의 위치를 결정할 수 있다.
또 다른 예로, 상기 음성 인식 영상 피드백 장치는 상기 영상으로부터 객체를 추출하고, 상기 추출된 객체가 TV 등의 사물인 경우 입력된 음성이 사용자의 음성이 아니라고 결정할 수도 있다.
이어서, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공할 수 있다(S2306).
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 음성뿐만 아니라 영상 촬영 소자를 통한 영상을 이용하여 사용자의 위치를 정확하게 추적할 수 있다.
위에서는 음성 및 영상을 이용하여 사용자의 위치를 결정하였으나, 피드백될 위치는 사용자의 위치가 아닌 다른 위치로 결정될 수도 있다.
구체적으로는, 상기 음성 인식 영상 피드백 장치는 상기 음성 및 상기 영상을 이용하여 사용자의 위치를 추적하고, 상기 추적된 사용자의 위치 주변으로 하여 영상 피드백이 제공될 위치를 결정하며, 상기 결정된 위치로 상기 음성에 해당하는 영상을 제공할 수 있다.
예를 들어, 상기 음성 인식 영상 피드백 장치는 음성이 입력된 방향으로 하여 단순히 영상 피드백을 제공하는 것이 아니라, 상기 사용자 위치 인식 소자에 의해 획득된 영상을 이용하여 사용자 주변 영역 중에서 사용자가 가장 보기 편하고 화질이 좋을 수 있는 영역으로 영상 피드백을 제공할 수 있다.
여기서, 사용자가 보기 편하고 화질이 좋을 수 있는 영역은 굴곡이 많지 않아서 상기 음성 인식 영상 피드백 장치로부터 출력된 영상이 왜곡없이 그대로 사용자에게 보여질 수 있는 영역일 수 있다.
따라서, 상기 음성 인식 영상 피드백 장치는 상기 영상을 통하여 사용자 주변 위치 영역 중 평탄도가 높은 영역을 선택하고, 상기 선택된 영역을 영상 피드백이 제공될 영역으로 결정할 수 있다.
도 24는 본 발명의 제 16 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이고, 도 25는 도 24의 음성 인식 영상 피드백 제공 과정의 일 예를 도시한 도면이다.
도 24 및 도 25를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 위치를 인식한다(S2400).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 상기 사용자의 위치를 추적한다(S2402).
계속하여, 상기 음성 인식 영상 피드백 장치는 카메라를 이용하여 상기 사용자의 주변 영상을 획득한다(S2404). 특히, 사용자가 음성으로 피대상물(2500)을 지정한 경우, 예를 들어 사용자가 "오이를 이쁘게 자를래"라는 음성을 입력한 경우, 상기 음성 인식 영상 피드백 장치는 피대상물(2500)의 영상을 획득한다.
이어서, 상기 음성 인식 영상 피드백 장치는 상기 획득된 피대상물의 실제 사이즈 및 형상에 맞는 영상을 피대상물(2500)로 출력할 수 있다(S2406). 예를 들어, 상기 음성 인식 영상 피드백 장치는 도 25에 도시된 바와 같이 실제 사이즈 및 형상에 맞는 오이 영상을 피대상물(2500)인 오이 위에 오버랩시킬 수 있다.
특히, 사용자가 "자를래"라고 말하였기 때문에, 상기 오이가 잘 잘라질 수 있도록 절단선(2510)을 오이(2500) 위에 표시할 수 있다. 따라서, 사용자는 상기 절단선(2510)을 따라서 오이(2500)를 용이하게 절단할 수 있다.
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 피대상물(2500)의 영상을 획득하고, 피대상물(2500)의 사이즈 및 형상에 맞는 영상을 피대상물(2500)로 오버랩하여 출력시킬 수 있다.
결과적으로, 상기 사용자는 원하는 작업을 용이하게 실현할 수 있다.
위에서는, 사이즈 적용이 사물에 대하여 적용되었으나 사람에게도 적용될 수 있다.
구체적으로는, 상기 음성 인식 영상 피드백 장치는 카메라를 이용하여 사용자의 영상을 획득하고, 사용자의 실제 신체 사이즈에 맞는 영상을 출력할 수 있다.
예를 들어, 사용자가 "셔츠를 보여줘"라고 음성 입력한 경우, 상기 음성 인식 영상 피드백 장치는 셔츠에 대한 영상을 출력하되, 상기 셔츠의 사이즈를 사용자의 신체 사이즈에 맞게 조절한 후 영상을 출력할 수 있다.
즉, 상기 음성 인식 영상 피드백 장치는 사용자의 실제 신체 사이즈에 맞는 사용자와 관련된 개체를 포함하는 영상을 출력시킬 수 있다.
위에서는 사용자의 신체 사이즈를 카메라를 통하여 파악하였으나, 사용자가 자신의 신체 사이즈 또는 사진 등을 미리 상기 음성 인식 영상 피드백 장치 또는 클라우드 서버에 등록할 수도 있다. 이 경우에는, 상기 음성 인식 영상 피드백 장치가 상기 사용자의 영상을 별도로 확보할 필요가 없다.
이하, 영상이 제공될 위치의 구조를 파악한 후 영상을 제공하는 상기 음성 인식 영상 피드백 장치의 동작과 관련된 실시예들을 첨부된 도면들을 참조하여 살펴보겠다.
도 26은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 26을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(2600), 음성 인식부(2602), 위치 추적부(2604), 구조 파악부(2606), 영상 피드백부(2608), 음성 피드백부(2610) 및 저장부(2612)를 포함할 수 있다.
음성 인식부(2602)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다. 이러한 음성 인식부(2602)는 음성 인식과 관련된 기능을 담당한다.
위치 추적부(2604)는 상기 음성을 이용하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(2604)는 위치 추적과 관련된 기능을 담당한다.
구조 파악부(2606)는 영상 피드백이 제공될 위치의 구조를 파악할 수 있다. 예를 들어, 구조 파악부(2606)는 레이저를 사용자 주변 위치 영역으로 출력하여 상기 사용자 주변 위치 영역의 구조를 파악할 수 있다. 이를 위해 구조 파악부(2606)는 레이저 발생기를 포함할 수 있다.
영상 피드백부(2608)는 상기 음성에 해당하는 영상을 사용자에게 제공하되, 상기 파악된 구조에 기초하여 영상의 해상도 등을 조절할 수 있다.
음성 피드백부(2610)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. 이러한 음성 피드백부(2610)는 음성 제공과 관련된 기능을 담당한다.
저장부(2612)는 음성, 영상 등의 각종 정보를 저장한다.
제어부(2600)는 상기 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.
도 27은 본 발명의 제 17 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 27을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S2700).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S2702).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치 주변으로 레이저를 출력하여 주변 구조를 탐지한다(S2704). 물론, 상기 음성 인식 영상 피드백 장치는 레이저가 아닌 영상 촬영을 통하여 주변 구조를 탐지할 수도 있다. 즉, 상기 음성 인식 영상 피드백 장치는 레이저 출력을 위한 레이저 발생기 또는 영상 획득을 위한 카메라를 포함할 수 있다.
이어서, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공한다(S2706).
이 경우, 상기 음성 인식 영상 피드백 장치는 상기 탐지된 주변 구조에 따라 동일한 영상에 대하여 다른 초점을 적용할 수 있다. 즉, 상기 음성 인식 영상 피드백 장치는 상기 레이저에 의해 탐지된 주변 구조에 최적화된 초점을 가지고 영상을 출력할 수 있다.
도 28은 본 발명의 제 18 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 28을 참조하면, 음성 인식 영상 피드백 장치는 카메라, 레이저 등을 통하여 집 등의 내부 구조를 미리 파악한다(S2800).
이어서, 상기 음성 인식 영상 피드백 장치는 영상 피드백을 제공할 위치를 지정한다(S2802). 물론, 특정 위치가 아닌 특정 기기가 지정될 수도 있다.
일 실시예에 따르면, 상기 음성 인식 영상 피드백 장치가 영상 피드백이 가능한 복수의 위치들을 디스플레이 또는 음성으로 출력하고, 사용자는 상기 디스플레이 또는 출력된 위치들 중 영상 피드백을 제공받을 위치를 선택할 수 있다. 즉, 사용자의 선택에 의해 상기 영상 피드백이 제공될 위치가 결정될 수 있다.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치가 상기 파악된 내부 구조 중에서 영상 피드백 제공받기에 적당한 적어도 하나의 위치를 자동으로 지정할 수도 있다.
계속하여, 상기 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S2804).
이어서, 상기 음성 인식 영상 피드백 장치는 사용자의 위치가 아닌 상기 지정된 위치 또는 기기로 상기 음성에 해당하는 영상을 제공할 수 있다(S2806).
예를 들어, 상기 음성 인식 영상 피드백 장치는 상기 지정된 위치들 중 사용자의 위치에 가장 인접한 위치로 상기 영상을 제공할 수 있다.
다른 예로, 상기 음성 인식 영상 피드백 장치는 사용자의 위치와의 거리에 상관없이 사용자가 기지정한 특정 위치로 상기 영상을 제공할 수도 있다. 일 예로, 사용자는 영화는 벽에 제공되고 날씨는 거실 바닥에 제공되도록 테마별로 별도 지정할 수 있다.
또 다른 예로, 상기 음성 인식 영상 피드백 장치는 상기 지정된 기기로 상기 영상을 제공할 수 있다.
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 영상 피드백이 제공될 위치 또는 기기를 미리 지정하고, 사용자의 위치에 관계없이 상기 지정된 위치 또는 기기로 영상 피드백을 제공할 수 있다.
도 29는 본 발명의 제 19 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 29를 참조하면, 음성 인식 영상 피드백 장치가 사용자의 음성을 인식한다(S2900).
이어서, 상기 음성 인식 영상 피드백 장치가 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S2902).
계속하여, 상기 음성 인식 영상 피드백 장치가 레이저 등을 상기 추적된 사용자의 위치 및 그의 주변으로 출력하여 영상이 제공될 위치의 구조를 파악한다(S2904).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 파악된 구조에 맞춰서 상기 음성에 해당하는 영상 또는 영상 피드백이 제공될 위치를 적절히 변경할 수 있다(S2906).
예를 들어, 상기 음성 인식 영상 피드백 장치가 고해상도의 영상을 출력할 예정이었으나, 상기 구조 파악에 따라 저해상도의 영상을 출력하는 것이 효율적이라고 판단하는 경우 상기 고해상도의 영상을 저해상도의 영상으로 변경할 수 있다.
다른 예로, 상기 영상이 피드백될 위치가 평탄하지 못하다고 결정된 경우, 상기 음성 인식 영상 피드백 장치는 영상의 밝기를 증가시킬 수 있다.
또 다른 예로, 상기 음성 인식 영상 피드백 장치는 상기 구조 파악으로 상기 위치가 영상을 제공하기에 적절하지 않거나 더 좋은 위치가 검출된 경우, 상기 영상 피드백이 제공될 위치를 변경할 수 있다.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 변경된 영상을 사용자 주변 위치 영역으로 출력할 수 있다(S2908).
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 영상 피드백이 제공된 위치의 구조를 먼저 파악하고, 상기 파악된 구조에 맞춰서 영상의 해상도, 사이즈, 화질 등을 변경하거나 영상 피드백이 제공될 위치를 변경할 수 있다.
위에서는 상기 음성 인식 영상 피드백 장치가 영상을 변경하는 것으로 설명하였으나, 상기 음성 인식 영상 피드백 장치가 상기 파악된 구조에 맞춰서 영상을 준비할 수도 있다.
이하, 영상이 제공될 위치의 구조를 파악한 후 영상을 제공하는 상기 음성 인식 영상 피드백 장치의 동작과 관련된 실시예들을 첨부된 도면들을 참조하여 살펴보겠다.
도 30은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 30을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(3000), 음성 인식부(3002), 위치 추적부(3004), 영상 피드백부(3006), 음성 피드백부(3008), 외부 기기 제어부(3010), 통신부(3012) 및 저장부(3014)를 포함할 수 있다.
음성 인식부(3002)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다. 이러한 음성 인식부(3002)는 음성 인식과 관련된 기능을 담당한다.
위치 추적부(3004)는 상기 음성을 이용하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(3004)는 위치 추적과 관련된 기능을 담당한다.
영상 피드백부(3006)는 상기 음성에 해당하는 영상을 사용자에게 제공한다.
음성 피드백부(3008)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. 이러한 음성 피드백부(3008)는 음성 제공과 관련된 기능을 담당한다.
외부 기기 제어부(3010)는 상기 음성 인식 영상 피드백 장치와 연결된 외부 기기를 제어할 수 있다. 특히, 외부 기기 제어부(3010)는 영상 제공시, 상기 영상이 돋보이도록 외부 기기를 제어할 수 있다.
통신부(3012)는 상기 음성 인식 영상 피드백 장치와 외부 기기를 연결하는 통로이다.
저장부(3014)는 음성, 영상 등의 각종 정보를 저장한다.
제어부(3000)는 상기 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.
도 31은 본 발명의 제 20 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 31을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S3100).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S3102).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공하면서 외부 기기를 동시에 제어할 수 있다(S3104).
예를 들어, 사용자가 음성으로 "타이타닉" 영화를 시청하고 싶다고 말한 경우, 상기 음성 인식 영상 피드백 장치는 상기 영화를 출력할 수 있다. 이 경우, 영화 관람을 위해서는 주변이 어두운 것이 효율적이므로, 상기 음성 인식 영상 피드백 장치는 상기 영화를 출력하면서 주변 조명기기(외부 기기)를 턴-오프시키거나 조도를 낮출 수 있다.
일 실시예에 따르면, 상기 음성 인식 영상 피드백 장치가 상기 영상 피드백을 제공하면서 상기 외부 기기를 직접적으로 제어할 수 있다.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치가 상기 영상 피드백을 제어하되, 상기 음성 인식 영상 피드백 장치와 연결된 별도의 제어 장치가 상기 음성 인식 영상 피드백 장치의 요청에 따라 상기 외부 기기를 제어할 수도 있다. 즉, 상기 음성 인식 영상 피드백 장치는 상기 외부 기기를 간접적으로 제어할 수 있다.
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 영상 피드백뿐만 아니라 외부 기기도 제어하여 영상 주변의 환경을 조절할 수 있다. 상기 외부 기기의 제어는 사용자의 요청에 따라 이루어질 수도 있지만, 사용자의 요청이 없어도 자동으로 이루어질 수 있다.
도 32는 본 발명의 제 21 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 32를 참조하면, 음성 인식 영상 피드백 장치가 사용자의 음성을 인식한다(S3200).
이어서, 상기 음성 인식 영상 피드백 장치는 디스플레이 소자를 검색한다(S3202). 여기서, 상기 디스플레이 소자는 영상을 디스플레이하는 한 제한이 없으며, TV, 스마트폰, 태블릿 PC 등을 포함할 수 있다.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성에 해당하는 영상을 상기 검색된 디스플레이 소자를 통하여 사용자에게 제공할 수 있다(S3204). 이 경우, 상기 디스플레이 소자는 상기 음성 인식 영상 피드백 장치와 무선 또는 유선으로 연결되어 있다.
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 음성 입력에 따라 관련 영상을 디스플레이 소자를 통하여 사용자에게 제공할 수 있다. 이러한 방법은 사용자가 디스플레이 소자에 근접하여 있거나 디스플레이 소자를 통하여 영상을 제공하는 것이 효율적일 때 사용될 수 있다.
즉, 상기 음성 인식 영상 피드백 장치는 사용자의 음성에 따라 해당 영상을 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 제공하거나 디스플레이 소자를 통하여 사용자에게 제공할 수 있다.
상기 영상을 상기 사용자 주변 위치 영역으로 제공할 지 상기 디스플레이 소자를 통하여 제공할 지의 여부는 상기 영상의 화질, 사용자의 위치, 영상의 종류, 사용자의 요청 등을 통하여 자동으로 결정될 수 있다. 이러한 선택의 기준은 사용자에 의해 미리 저장될 수 있다.
예를 들어, 사용자가 고화질의 영화 시청을 음성으로 요청한 경우, 상기 영화를 사용자 주변의 바닥으로 출력시키는 것보다는 상기 디스플레이 소자를 통하여 출력하는 것을 사용자가 더 좋아할 것이다. 따라서, 상기 음성 인식 영상 피드백 장치는 고화질의 영화를 상기 디스플레이 소자를 통하여 제공할 수 있다.
다른 예로, 사용자가 스포츠 뉴스의 시청을 음성으로 요청한 경우, 상기 스포츠 뉴스는 고화질을 요구하지 않기 때문에 상기 스포츠 뉴스의 영상을 사용자 주변 위치 영역으로 출력하여도 사용자는 충분히 만족할 것이다. 따라서, 이 경우에는 사용자의 시청 편의성을 고려하여, 상기 음성 인식 영상 피드백 장치는 상기 영상을 상기 사용자 주변 위치 영역으로 제공할 수 있다.
이하, 화상 통화 기능을 제공하는 상기 음성 인식 영상 피드백 장치의 동작과 관련된 실시예들을 첨부된 도면들을 참조하여 살펴보겠다.
도 33은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 33을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(3300), 음성 인식부(3302), 위치 추적부(3304), 영상 피드백부(3306), 음성 피드백부(3308), 화상 통화부(3310) 및 저장부(3312)를 포함할 수 있다.
음성 인식부(3302)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다. 이러한 음성 인식부(3302)는 음성 인식과 관련된 기능을 담당한다.
위치 추적부(3304)는 상기 음성을 이용하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(3304)는 위치 추적과 관련된 기능을 담당한다.
영상 피드백부(3306)는 상기 음성에 해당하는 영상을 사용자에게 제공한다.
음성 피드백부(3308)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다.
화상 통화부(3310)는 음성 및 영상을 제공하는 기능을 이용하여 화상 통화를 제공한다. 화상 통화를 위해 화상 통화부(3310)는 타인의 기기와 통신할 수 있는 통신 기능을 포함할 수 있다.
저장부(3312)는 음성, 영상 등의 각종 정보를 저장한다.
제어부(3300)는 상기 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.
도 34는 본 발명의 제 22 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 34를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S3400). 여기서, 상기 음성은 화상 통화 요청을 포함한다.
이어서, 상기 음성 인식 영상 피드백 장치는 사용자의 화상 통화 요청에 따라 상기 사용자가 지정한 번호로 전화 연결한다(S3402). 여기서, 상기 사용자가 지정한 번호는 상기 음성 인식 영상 피드백 장치에 미리 등록된 전화번호들 중 하나이거나 사용자에 의해 입력된 전화번호일 수 있다. 물론, 상기 사용자가 상기 음성 인식 영상 피드백 장치에 등록된 전화번호를 변경하거나 갱신할 수도 있다.
일 실시예에 따르면, 상기 음성 인식 영상 피드백 장치는 통화 기능을 수행할 수 있는 통화부를 포함할 수 있다.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치와 통신 연결되는 통신 기기가 별도로 존재하며, 상기 음성 인식 영상 피드백 장치는 상기 통신 기기를 통하여 상기 사용자가 지정한 번호로 통화 연결할 수도 있다. 여기서, 상기 음성 인식 영상 피드백 장치의 통화부와 상기 통신 기기가 통신 연결된다.
계속하여, 상기 음성 인식 영상 피드백 장치는 상대방의 영상을 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 출력할 수 있다(S3404).
이어서, 상기 음성 인식 영상 피드백 장치는 사용자의 음성 및 영상을 수신한다(S3406). 상기 음성은 마이크를 통하여 수신받고 상기 영상은 카메라를 통하여 수신받을 수 있다.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 수신된 음성 및 영상을 상대방의 기기로 전달한다(S3408).
이어서, 상기 음성 인식 영상 피드백 장치는 상대방의 음성 및 영상을 수신한다(S3410).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 수신된 상대방의 음성 및 영상을 사용자에게 제공한다(S3412).
위의 방법을 통하여 화상 통화가 수행될 수 있다.
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 상기 음성 인식 영상 피드백 장치가 영상을 출력할 수 있는 기능을 이용하여 화상 통화를 제공할 수 있다.
위에서는, 직접적으로 화상 통화를 수행하는 내용을 언급하였으나, 상기 음성 인식 영상 피드백 장치가 영상 피드백을 제공하는 동안 화상 통화가 수행될 수도 있다.
구체적으로는, 영상 피드백 제공 중에 사용자가 통화 요청을 하거나 상대방으로부터 통화 요청이 수신된 경우, 상기 음성 인식 영상 피드백 장치는 일반 모드에서 통화 모드로 전환할 수 있다. 여기서, 상기 일반 모드는 사용자의 음성에 따라 해당 영상을 제공하는 모드를 의미한다.
이어서, 상기 음성 인식 영상 피드백 장치는 도 33의 방법을 통하여 화상 통화를 수행한다. 물론, 상기 화상 통화가 종료된 후에는 상기 통화 모드가 상기 일반 모드로 전환될 것이다.
즉, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 일반 모드와 통화 모드의 전환을 수행할 수 있다.
한편, 일반 모드, 통화 모드만을 언급하였지만 디스플레이 소자로 영상을 출력하는 디스플레이 모드 등 다양한 모드들이 설정될 수 있고, 상황에 따라 모드들의 전환이 자동으로 이루어질 수 있다.
도 35는 본 발명의 다른 실예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다.
도 35를 참조하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 음성 인식 영상 피드백 장치(100) 및 사용자 기기(3500)를 포함할 수 있다.
사용자 기기(3500)는 사용자가 사용하는 기기로서, 예를 들어 스마트폰, 리모콘 등일 수 있다. 여기서, 사용자 기기(3500)는 음성 인식 영상 피드백 장치(100)와 무선 또는 유선으로 연결될 수 있다.
일 실시예에 따르면, 사용자가 사용자 기기(3500)로 음성 입력하면, 음성 인식 영상 피드백 장치(100)가 사용자 기기(3500)로부터 상기 음성에 대한 정보를 수신하고 해당 영상을 사용자 주변 위치 영역으로 제공할 수 있다.
다른 실시예에 따르면, 음성 인식 영상 피드백 장치(100)는 사용자의 음성을 직접 인식하고, 상기 음성에 해당하는 영상을 사용자 기기(3500)를 통하여 사용자에게 제공할 수 있다.
또 다른 실시예에 따르면, 사용자 기기(3500)는 음성 인식 영상 피드백 장치(100)의 제어 기기일 수 있다. 따라서, 사용자는 사용자 기기(3500)를 이용하여 음성 인식 영상 피드백 장치(100)의 전원 온/오프, 제어 설정 등을 수행할 수 있다.
또 다른 실시예에 따르면, 사용자 위치를 추적하기 위하여, 음성 인식 영상 피드백 장치(100)는 카메라를 이용하여 사용자의 위치를 영상으로 촬영하고 사용자 기기(3500)가 사용자의 음성을 인식할 수 있다. 이 경우, 음성 인식 영상 피드백 장치(100)는 상기 촬영된 영상과 상기 인식된 음성에 기반하여 사용자의 위치를 결정할 수 있다.
도 36은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 개략적으로 도시한 도면이다.
도 36을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치(100)는 건물 내의 바닥이 아닌 천장(3600)에 설치될 수 있다.
이 경우, 영상이 천장(3600)으로부터 바닥으로 출력되므로, 더 선명한 영상이 사용자에게 제공될 수 있다.
다른 실시예에 따르면, 음성 인식 영상 피드백 장치가 바닥에 설치되고, 영상 출력 소자만 천장(3600)에 설치될 수도 있다. 상기 영상 출력 소자는 상기 음성 인식 영상 피드백 장치의 제어 하에 음성에 해당하는 영상을 사용자 주변의 바닥으로 출력할 수 있다.
또 다른 실시예에 따르면, 음성 인식 영상 피드백 장치(100)가 천장(3600)이 아닌 벽면에 설치될 수도 있다.
정리하면, 본 실시예의 음성 인식 영상 피드백 장치(100)는 바닥, 천장, 벽면 등 다양한 장소에 설치될 수 있다.
이하, 메인 기기와 서브 기기를 포함하는 음성 인식 영상 피드백 제공 시스템의 동작을 상술하겠다.
도 37은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다.
도 37을 참조하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 메인 음성 인식 영상 피드백 장치(3700, 메인 기기) 및 적어도 하나의 서브 음성 인식 영상 피드백 장치(3702, 서브 기기)를 포함할 수 있다.
메인 음성 영상 피드백 장치(3700)는 서브 음성 인식 영상 피드백 장치들(3702)을 중앙 제어하는 역할을 수행한다.
서브 음성 인식 영상 피드백 장치(3702)는 메인 음성 영상 피드백 장치(3700)와 무선 또는 유선으로 연결되며, 메인 음성 영상 피드백 장치(3700)의 제어에 따라 동작할 수 있다.
음성 인식 영상 피드백 장치들(3700 및 3702)의 구조적 배열을 살펴보면, 메인 음성 인식 영상 피드백 장치(3700)는 주로 건물의 중앙부, 예를 들어 거실에 위치할 가능성이 높고, 서브 음성 인식 영상 피드백 장치들(3702)은 각 방, 화장실 등에 위치할 가능성이 높다.
또한, 메인 음성 인식 영상 피드백 장치(3700)는 주로 바닥에 위치하겠지만, 서브 음성 인식 영상 피드백 장치들(3702)은 바닥뿐만 아니라 천장, 벽면 등에도 배치될 수 있다.
도 38은 본 발명의 일 실시예에 따른 메인 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 38을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(3800), 음성 인식부(3802), 위치 추적부(3804), 영상 피드백부(3806), 음성 피드백부(3808), 서브 기기 제어부(3810), 통신부(3812) 및 저장부(3814)를 포함할 수 있다.
음성 인식부(3802)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다.
또한, 음성 인식부(3802)는 서브 음성 인식 영상 피드백 장치로부터 음성을 수신하고, 상기 수신된 음성을 통하여 사용자의 요청을 파악할 수도 있다.
위치 추적부(3804)는 상기 인식된 음성, 또는 서브 음성 인식 영상 피드백 장치로부터 제공된 음성을 이용하여 사용자의 위치를 추적할 수 있다.
다른 실시예에 따르면, 위치 추적부(3804)는 상기 서브 음성 인식 영상 피드백 장치로부터 추적된 위치에 대한 정보를 수신할 수도 있다.
영상 피드백부(3806)는 상기 음성에 해당하는 영상을 사용자에게 제공한다.
음성 피드백부(3808)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다.
서브 기기 제어부(3810)는 서브 음성 인식 영상 피드백 장치의 동작을 제어한다. 예를 들어, 서브 기기 제어부(3810)는 상기 음성에 해당하는 영상을 상기 서브 음성 인식 영상 피드백 장치를 통하여 출력하도록 상기 서브 음성 인식 영상 피드백 장치를 제어할 수 있다.
통신부(3812)는 상기 메인 음성 인식 영상 피드백 장치와 상기 서브 음성 인식 영상 피드백 장치의 연결 통로이다.
저장부(3814)는 음성, 영상 등의 각종 정보를 저장한다.
제어부(3800)는 상기 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.
도 39는 본 발명의 일 실시예에 따른 서브 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 39를 참조하면, 본 실시예의 서브 음성 인식 영상 피드백 장치는 제어부(3900), 통신부(3902), 음성 인식부(3904), 위치 추적부(3906), 영상 피드백부(3910), 음성 피드백부(3912) 및 메인 기기부(3914)를 포함할 수 있다.
통신부(3902)는 상기 서브 음성 인식 영상 피드백 장치와 상기 메인 음성 인식 영상 피드백 장치의 연결 통로이다.
음성 인식부(3904)는 사용자의 음성을 수신하고, 상기 수신된 음성을 상기 메인 음성 인식 영상 피드백 장치로 전송할 수 있다. 물론, 음성 인식부(3904)는 자체적으로 상기 음성을 분석하여 사용자의 요청을 파악할 수도 있다.
위치 추적부(3906)는 상기 음성을 이용하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(3906)는 위치 추적과 관련된 기능을 담당한다.
영상 피드백부(3910)는 상기 메인 음성 인식 영상 피드백 장치로부터 상기 음성에 해당하는 영상을 수신하고, 상기 수신된 영상을 사용자에게 제공할 수 있다.
음성 피드백부(3912)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다.
메인 기기부(3914)는 상기 메인 음성 인식 영상 피드백 장치와 연결되며, 상기 메인 음성 인식 영상 피드백 장치의 제어하에 영상 피드백과 관련된 동작을 수행할 수 있다.
제어부(3900)는 상기 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.
도 40은 본 발명의 일 실시예에 따른 도 37의 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이고, 도 41은 본 발명의 다른 실시예에 따른 도 37의 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 40을 참조하면, 메인 음성 인식 영상 피드백 장치(메인 기기, 3700)가 사용자의 음성을 인식하면(S4000), 메인 음성 인식 영상 피드백 장치(3700) 또는 서브 음성 인식 영상 피드백 장치들(서브 기기, 3702)이 사용자의 위치를 추적할 수 있다(S4002).
이어서, 메인 음성 인식 영상 피드백 장치(3700)는 상기 음성에 해당하는 영상을 상기 추적된 사용자의 위치에 가장 가까운 서브 음성 인식 영상 피드백 장치(3702)로 전송하며, 서브 음성 인식 영상 피드백 장치(3702)는 상기 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 상기 전송된 영상을 출력할 수 있다(S4004).
도 41를 참조하면, 서브 음성 인식 영상 피드백 장치(3702)가 사용자의 음성을 수신하면(S4100), 서브 음성 인식 영상 피드백 장치(3702)가 상기 수신된 음성에 대한 정보를 메인 음성 인식 영상 피드백 장치(3702)로 전송한다.
이어서, 메인 음성 인식 영상 피드백 장치(3702)는 자신 또는 서브 음성 인식 영상 피드백 장치들(3702), 바람직하게는 상기 음성을 수신한 서브 음성 인식 영상 피드백 장치(3702)를 통하여 사용자의 위치를 추적한다(S4102).
계속하여, 메인 음성 인식 영상 피드백 장치(3700)는 상기 음성에 해당하는 영상을 상기 추적된 사용자의 위치에 가장 근접한 서브 음성 인식 영상 피드백 장치(3702)로 전송하며, 서브 음성 인식 영상 피드백 장치(3702)는 상기 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 상기 전송된 영상을 출력할 수 있다(S4104).
또 다른 실시예에 따르면, 메인 음성 인식 영상 피드백 장치(3700)가 사용자의 음성을 인식하며, 메인 음성 인식 영상 피드백 장치(3700)가 상기 음성이 입력된 방향으로 하여 사용자의 위치를 결정하고, 상기 결정된 사용자가 위치에 가장 근접한 최적의 서브 음성 인식 영상 피드백 장치(3702)를 선택한다.
이어서, 메인 음성 인식 영상 피드백 장치(3700)는 상기 음성에 해당하는 영상을 상기 최적의 서브 음성 인식 영상 피드백 장치(3702)로 전송하며, 서브 음성 인식 영상 피드백 장치(3702)는 상기 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 상기 전송된 영상을 출력할 수 있다.
또 다른 실시예에 따르면, 메인 음성 인식 영상 피드백 장치(3700)는 사용자의 음성에 따른 영상을 복수의 서브 음성 인식 영상 피드백 장치들(3702)로 전송할 수 있으며, 서브 음성 인식 영상 피드백 장치들(3702)이 상기 전송된 영상들을 각기 사용자 주변 위치 영역으로 출력할 수 있다.
이 경우, 상기 영상들이 오버랩될 수도 있고, 각기 다른 영역에 출력될 수 있다.
또한, 서브 음성 인식 영상 피드백 장치들(3702)로부터 출력되는 영상들이 동일한 영상일 수도 있고 다른 영상일 수도 있다. 서브 음성 인식 영상 피드백 장치들(3702)이 다른 영상을 출력하는 경우, 사용자는 한번에 더 많은 정보 등을 더 입체적인 느낌을 가지고 제공받을 수 있다.
예를 들어, 사용자가 "앨범을 보여줘"라고 음성을 입력한 경우, 서브 음성 인식 영상 피드백 장치들(3702)이 "고등학교 앨범"의 홀로그램 및 "대학교 앨범"의 홀로그램을 각기 다른 영역으로 하여 사용자에게 제공할 수 있다.
이 경우, 사용자가 홀로그램의 특정 개체(예를 들어, 아이콘 등)를 선택하면, 메인 음성 인식 영상 피드백 장치(3700) 또는 서브 음성 인식 영상 피드백 장치(3700)가 사용자의 움직임을 감지하여 상기 선택된 특정 개체에 해당하는 다른 영상을 사용자에게 추가적으로 제공할 수도 있다.
한편, 위에서는 메인 음성 인식 영상 피드백 장치(3700)가 영상을 출력하는 내용은 언급하지 않았지만, 메인 음성 인식 영상 피드백 장치(3700)가 영상을 출력하는 것을 배제하는 것은 아니다.
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 메인 음성 인식 영상 피드백 장치(3700) 및 이에 의해 제어되는 서브 음성 인식 영상 피드백 장치들(3702)을 포함하여 다양한 서비스를 제공할 수 있다.
도 42는 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치를 도시한 블록도이다.
도 42를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(4200), 음성 인식부(4202), 위치 추적부(4204), 영상 피드백부(4206), 가상 개체부(4208), 음성 피드백부(4210), 환경 설정부(4212) 및 저장부(4214)를 포함할 수 있다.
음성 인식부(4202)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성이 전달하는 사용자의 요청을 파악한다.
위치 추적부(4204)는 상기 음성 인식 영상 피드백 장치로 입력되는 음성의 방향으로 하여 사용자의 위치를 추적할 수 있다.
영상 피드백부(4206)는 상기 음성에 해당하며 가상 개체를 포함하는 영상을 사용자에게 제공할 수 있다.
가상 개체부(4208)은 가상 개체를 생성하고 관리하는 역할을 수행한다. 여기서, 상기 가상 개체는 상기 사용자에게 제공되는 영상에 포함된다.
음성 피드백부(4210)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다.
환경 설정부(4212)는 상기 음성 인식 영상 피드백 장치의 각종 설정을 관리하며, 예를 들어 가상 개체 생성과 관련된 설정을 제어할 수 있다.
저장부(4214)는 음성, 영상 등의 각종 정보를 저장한다.
제어부(4200)는 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.
도 43은 본 발명의 제 23 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 43을 참조하면, 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S4300).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S4302).
계속하여, 상기 음성 인식 영상 피드백 장치는 가상 개체를 포함한 영상을 사용자에게 제공할 수 있다(S4304).
예를 들어, 사용자가 "셔츠를 보여줘"라고 음성 입력하면, 상기 음성 인식 영상 피드백 장치는 사용자 개체(아바타), 특히 실제 사용자의 신체 사이즈를 가지는 사용자 개체에 셔츠를 입힌 영상을 상기 사용자에게 제공할 수 있다.
따라서, 상기 사용자가 더 실제적인 느낌을 가질 수 있다.
다른 예로, 사용자가 "주간 날씨를 보여줘"라고 음성 입력하면, 상기 음성 인식 영상 피드백 장치는 주간 날씨를 예보하는 여성 기상 캐스터의 개체 및 주간 날씨 지도를 포함하는 영상을 사용자에게 제공할 수 있다.
이 때, 상기 개체는 주간 날씨를 동적으로 안내할 수 있다.
즉, 상기 개체는 사용자 개체로 제한되지는 않으며, 사용자가 원하는 정보를 전달하는 데 필요한 모든 개체를 포함한다.
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 사용자에게 더 잘 정보를 전달하기 위하여 가상 개체를 사용할 수 있다.
위의 실시예들에서는, 상기 음성 인식 영상 피드백 장치가 영상을 출력하는 내용까지만 언급하였으나, 영상을 출력한 후 사용자가 음성, 동작 또는 디스플레이 터치로 새로운 요청을 입력할 수 있다. 이 경우, 상기 음성 인식 영상 피드백 장치는 새로운 영상을 제공할 수 있다. 여기서, 상기 제공되는 영상은 단순 정보만을 디스플레이하는 정지 영상일 수도 있고, 동적으로 움직이는 동영상일 수도 있다.
또한, 상기 음성 인식 영상 피드백 장치 또는 외부 기기로 사용자가 설정하는 구체적인 내용에 대하여 언급하지 않았으나, 기기에 설정하는 모든 방법이 본 발명에 적용될 수 있다. 특히, 음성 또는 디스플레이 터치를 통하여 사용자 등록, 환경 설정 등의 방법이 본 발명에 적합할 것이다.
한편, 전술된 실시예의 구성 요소는 프로세스적인 관점에서 용이하게 파악될 수 있다. 즉, 각각의 구성 요소는 각각의 프로세스로 파악될 수 있다. 또한 전술된 실시예의 프로세스는 장치의 구성 요소 관점에서 용이하게 파악될 수 있다.
또한 앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.
100 : 음성 인식 영상 피드백 장치 102 : 사용자
110 : 디스플레이 소자 200 : 빔 프로젝터
300 : 바디 310, 400, 402 : 가이드

Claims (30)

  1. 사용자의 음성을 인식하는 음성 인식부;
    상기 음성이 입력된 방향으로 하여 상기 음성에 해당하는 영상을 출력하는 영상 피드백부; 및
    상기 음성 인식부 및 상기 영상 피드백부를 제어하는 제어부를 포함하며,
    상기 영상이 상기 사용자에게 보여지도록 상기 영상은 상기 사용자의 주변 위치 영역으로 출력되되,
    상기 사용자 주변 위치 영역은 상기 사용자가 위치한 지점으로부터 특정 거리를 반경으로 하는 영역이며, 상기 영상 중 적어도 일부가 상기 특정 거리를 반경으로 하는 영역 내에 보여지는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  2. 제1항에 있어서, 상기 영상 피드백부는 상기 음성 인식 영상 피드백 장치 상에 회전 가능한 구조로 설치되는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  3. 제1항에 있어서,
    카메라를 이용하여 상기 사용자의 위치를 추적하는 위치 추적부를 더 포함하고, 상기 위치 추적부는 상기 인식된 음성 및 상기 카메라에 의해 획득된 영상을 고려하여 상기 사용자의 정확한 위치를 추적하되,
    상기 위치 추적부는 상기 영상의 객체들에서 타인 또는 외부 기기에 해당하는 객체를 제거하고, 나머지 객체들 중에서 상기 음성의 크기에 해당하는 객체의 위치를 상기 사용자의 위치로 결정하는 것을 특징으로 음성 인식 영상 피드백 장치.
  4. 제3항에 있어서, 상기 위치 추적부는 상기 사용자의 위치를 상기 영상이 제공되는 동안 지속적으로 추적하여 상기 사용자의 현재 위치를 파악하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  5. 제1항에 있어서, 상기 음성 인식부는 다수의 사람들의 음성이 입력된 경우, 상기 음성들 중 기등록된 음성에 해당하는 사람 또는 기등록된 사용자의 음성만을 인식하여 상기 영상을 제공하되,
    상기 기등록된 음성에 해당하는 사람 또는 상기 기등록된 사용자가 아닌 사람이 음성을 입력한 경우에는 상기 영상이 출력되지 않는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  6. 제1항에 있어서, 상기 제어부는 상기 인식된 음성이 복수의 결과들을 포함하는 경우 상기 결과들 중 하나를 선택하도록 상기 사용자에게 요청하거나 미리 등록된 결과가 있는 지의 여부를 확인하며, 상기 음성의 내용이 영상 제공과 관련없거나 상기 음성에 포함된 요청이 불명확하거나 상기 음성이 제한된 단어를 포함하거나 상기 음성에 포함된 요청이 상기 음성 인식 영상 피드백 장치가 제공할 수 없는 요청인 경우 상기 제어부는 상기 사용자에게 음성의 재입력을 요청하되,
    상기 영상 피드백부는 상기 사용자에 의해 선택된 결과 또는 미리 등록된 결과에 해당하는 영상을 출력하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  7. 제1항에 있어서,
    슬립 모드 또는 액티브 모드를 제어하는 모드부를 더 포함하되,
    상기 슬립 모드에서는 상기 사용자의 음성을 인식하기 위한 음성 인식부 또는 상기 사용자를 감지하기 위한 감지 센서는 온되어 있고 상기 영상 피드백부는 오프되어 있으며,
    상기 사용자의 음성 인식시 상기 슬립 모드가 상기 액티브 모드로 변경되며,
    상기 액티브 모드에서는 상기 영상 피드백부가 턴-온되는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  8. 제1항에 있어서,
    상기 사용자의 움직임을 인식하는 움직임 인식부를 더 포함하되,
    상기 영상 피드백부는 상기 인식된 음성 및 상기 인식된 움직임에 해당하는 위치로 상기 영상을 출력하거나 상기 인식된 음성 및 상기 인식된 움직임에 해당하는 영상을 출력하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  9. 제1항에 있어서,
    레이저 또는 카메라를 이용하여 상기 사용자의 주변 구조를 파악하는 구조 파악부를 더 포함하되,
    상기 영상 피드백부는 상기 파악된 구조에 따라 상기 영상 피드백부의 초점, 상기 영상이 출력될 위치 또는 상기 영상을 적어도 일부 변경하고, 상기 변경 결과를 반영하여 상기 영상을 출력하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  10. 제1항에 있어서,
    외부 기기를 제어하는 외부 기기 제어부를 더 포함하되,
    상기 외부 기기 제어부는 상기 출력되는 영상과 맞도록 상기 외부 기기를 제어하여 상기 영상 주변의 환경을 조절하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  11. 제1항에 있어서,
    상기 인식된 음성에 해당하는 사운드를 출력하는 음성 피드백부를 더 포함하되,
    상기 제어부는 미리 등록된 단어, 문구 또는 문장, 상기 음성에 따라 제공될 결과에 포함된 단어의 수, 상기 음성에 따른 영상이 존재하는 지의 여부 또는 상기 음성에 포함된 요청이 영상과 관련된 요청인 지의 여부 중 적어도 하나를 기초로 하여 상기 사운드를 출력할 지 상기 영상을 출력할 지를 자동으로 결정하며, 상기 결정에 따라 상기 음성 피드백부 또는 상기 영상 피드백부를 제어하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  12. 제1항에 있어서,
    화상 통화부를 더 포함하되,
    상기 화상 통화부는 상대방의 영상 및 음성을 상기 사용자에게 제공하고, 상기 사용자의 영상 및 음성을 상기 상대방에 제공하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  13. 제1항에 있어서,
    상기 사용자 주변의 영상을 획득하는 영상 획득부를 더 포함하되,
    상기 영상 피드백부는 상기 영상 획득부에 포함된 피대상물의 실제 사이즈 또는 형상에 맞는 개체를 포함하는 영상을 상기 피대상물에 맞춰서 출력하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  14. 제1항에 있어서, 상기 영상은 상기 사용자의 아바타 또는 상기 음성에 의해 요청된 정보를 안내하기 위한 개체를 가지는 가상 개체를 포함하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  15. 제1항에 있어서, 특정 사용자들이 상기 음성 인식 영상 피드백 장치 또는 상기 음성 인식 영상 피드백 장치에 연결된 외부 기기에 미리 등록되되,
    상기 등록된 사용자들이 아닌 타인이 음성을 입력하더라도 상기 영상 피드백부는 영상을 출력하지 않거나 활성화되지 않거나 상기 등록된 사용자들 중 특정 사용자와 관련된 개인 정보는 상기 특정 사용자의 음성이 인식되지 않는 한 다른 사용자들의 음성이 인식되더라도 상기 영상으로 제공되지 않는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  16. 제1항에 있어서, 상기 음성 인식 영상 피드백 장치는 외부 기기와 연결되되,
    상기 외부 기기를 통하여 음성 입력시 상기 음성 인식 영상 피드백 장치는 상기 입력된 음성에 해당하는 영상을 상기 사용자에게 제공하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  17. 사용자의 음성을 인식하는 음성 인식부;
    상기 사용자의 위치를 추적하는 위치 추적부;
    상기 음성에 해당하는 영상을 출력하는 영상 피드백부; 및
    상기 음성 인식부, 상기 위치 추적부 및 상기 영상 피드백부를 제어하는 제어부를 포함하되,
    상기 제어부는 상기 음성의 내용이 영상 제공과 관련없거나 상기 음성에 포함된 요청이 불명확하거나 상기 음성이 제한된 단어를 포함하거나 상기 음성에 포함된 요청이 상기 음성 인식 영상 피드백 장치가 제공할 수 없는 요청인 경우 상기 사용자에게 음성의 재입력을 요청하며, 상기 영상 피드백부는 상기 요청에 따라 재입력된 음성에 해당하는 영상을 상기 추적된 사용자의 위치에 대응하는 영역으로 출력하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  18. 제17항에 있어서, 상기 영상은 상기 사용자의 주변 위치 영역으로 출력되되,
    상기 사용자 주변 위치 영역은 상기 사용자가 위치한 지점으로부터 특정 거리를 반경으로 하는 영역이며, 상기 영상 중 적어도 일부가 상기 특정 거리를 반경으로 하는 영역에 보여지는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  19. 음성을 인식하는 음 인식부;
    상기 음성이 입력된 방향으로 하여 상기 음성에 해당하는 영상을 출력하는 영상 피드백부; 및
    상기 음성 인식부 및 상기 영상 피드백부를 제어하는 제어부를 포함하되,
    상기 음성에 상기 영상이 출력될 영역 또는 기기가 지정된 경우 상기 영상은 상기 지정된 영역 또는 기기를 통하여 출력되는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  20. 사용자의 음성을 인식하는 음성 인식부;
    상기 인식된 음성에 해당하는 영상을 출력하는 영상 피드백부; 및
    상기 음성 인식부 및 상기 영상 피드백부의 동작을 제어하는 제어부를 포함하되,
    상기 제어부는 상기 인식된 음성에 따라 상기 영상 출력없이 상기 사운드만을 출력할 지 상기 영상을 출력할 지를 자동으로 결정하며, 상기 결정에 따라 상기 음성 피드백부를 제어하여 상기 사운드를 출력하거나 상기 영상 피드백부를 제어하여 상기 영상을 출력하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  21. 제20항에 있어서, 상기 제어부는 미리 등록된 단어, 문구 또는 문장, 상기 음성에 따라 제공될 결과에 포함된 단어의 수, 상기 음성에 따른 영상이 존재하는 지의 여부 또는 상기 음성에 포함된 요청이 영상과 관련된 요청인 지의 여부 중 적어도 하나를 기초로 하여 상기 사운드를 출력할 지 상기 영상을 출력할 지를 자동으로 결정하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  22. 바디; 및
    상기 바디 상에 회전 가능한 구조로 형성되는 영상 피드백부를 포함하되,
    상기 영상 피드백부는 영상이 출력될 사용자 주변 위치 영역에 해당하는 방향으로 회전한 후 사용자의 음성에 해당하는 영상을 출력하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  23. 제22항에 있어서,
    상기 사용자의 위치를 추적하는 위치 추적부를 더 포함하되,
    상기 영상 피드백부 또는 상기 위치 추적부는 상기 바디 상에 형성된 가이드를 따라 이동하여 회전되는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  24. 사용자의 음성을 인식하는 음성 인식부;
    상기 인식된 음성에 해당하는 영상을 출력하는 영상 피드백부; 및
    상기 음성 인식부 및 상기 영상 피드백부의 동작을 제어하는 제어부를 포함하되,
    상기 영상의 색상, 화질, 해상도 및 사이즈 중 적어도 하나 또는 상기 영상과 매칭되는 사운드가 상기 인식된 음성, 상기 사용자의 기분 또는 상기 사용자의 바이오리듬에 따라 가변되며, 상기 가변된 영상이 상기 사용자의 위치에 대응하는 영역으로 출력되는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  25. 사용자의 음성을 인식하는 음성 인식부;
    영상을 출력하는 영상 피드백부; 및
    상기 음성 인식부 및 상기 영상 피드백부의 동작을 제어하는 제어부를 포함하되,
    상기 음성에 영상의 제공을 요청하는 사용자의 요청이 포함되지 않음에도 불구하고 상기 음성의 톤, 상기 음성에 포함된 기분을 표시하는 단어, 상기 사용자의 움직임 중 적어도 하나에 기초하여 파악된 상기 사용자의 기분에 따라 해당 영상이 자동으로 상기 사용자의 위치에 대응하는 영역으로 제공되는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  26. 사용자의 음성을 인식하는 음성 인식부;
    상기 사용자 주변의 구조를 파악하는 구조 파악부;
    상기 인식된 음성에 해당하는 영상을 출력하는 영상 피드백부; 및
    상기 음성 인식부 및 상기 영상 피드백부의 동작을 제어하는 제어부를 포함하되,
    상기 영상 피드백부는 상기 파악된 구조에 따라 상기 영상 피드백부의 초점, 상기 영상이 출력될 위치 또는 상기 영상을 적어도 일부 변경하고, 상기 변경 결과를 반영하여 상기 영상을 출력하는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  27. 사용자의 음성을 인식하는 음성 인식부;
    상기 인식된 음성에 해당하는 영상을 출력하는 영상 피드백부; 및
    외부 기기와 연결되어 상기 외부 기기를 제어하는 외부 기기 제어부를 포함하되,
    상기 외부 기기 제어부는 상기 영상이 출력될 때 상기 외부 기기를 제어하여 상기 영상 주변 환경을 변화시키는 것을 특징으로 하는 음성 인식 영상 피드백 장치.
  28. 적어도 하나의 서브 음성 인식 영상 피드백 장치와 통신 연결되는 통신부; 및
    사용자의 음성에 해당하는 영상을 상기 통신부를 통하여 상기 사용자의 위치에 대응하는 서브 음성 인식 영상 피드백 장치로 전송하는 영상 피드백부를 포함하며,
    상기 영상은 상기 서브 음성 인식 영상 피드백 장치를 통하여 상기 사용자의 주변 위치 영역으로 출력되되,
    상기 사용자 주변 위치 영역은 상기 사용자가 위치한 지점으로부터 특정 거리를 반경으로 하는 영역이며, 상기 영상 중 적어도 일부가 상기 특정 거리를 반경으로 하는 영역에 보여지는 것을 특징으로 하는 메인 음성 인식 영상 피드백 장치.
  29. 사용자의 음성을 인식하는 단계; 및
    상기 음성이 입력된 방향으로 하여 상기 음성에 해당하는 영상을 출력하는 단계를 포함하며,
    상기 영상이 상기 사용자에게 보여지도록 상기 영상은 상기 사용자의 주변 위치 영역으로 출력되되,
    상기 사용자 주변 위치 영역은 상기 사용자가 위치한 지점으로부터 특정 거리를 반경으로 하는 영역이며, 상기 영상 중 적어도 일부가 상기 특정 거리를 반경으로 하는 영역에 보여지는 것을 특징으로 하는 음성 인식 영상 피드백 제공 방법.
  30. 제29항에 있어서,
    카메라를 이용하여 상기 사용자의 위치를 추적하는 위치 추적부를 더 포함하되,
    상기 위치 추적부는 상기 인식된 음성 및 상기 카메라에 의해 획득된 영상을 고려하여 상기 사용자의 정확한 위치를 추적하는 것을 특징으로 음성 인식 영상 피드백 제공 방법.

KR1020170110933A 2017-08-31 2017-08-31 음성 인식 영상 피드백 제공 시스템 및 방법 KR20190024190A (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020170110933A KR20190024190A (ko) 2017-08-31 2017-08-31 음성 인식 영상 피드백 제공 시스템 및 방법
US16/340,264 US20200043488A1 (en) 2017-08-31 2017-11-29 Voice recognition image feedback providing system and method
EP19168848.0A EP3584788A3 (en) 2017-08-31 2017-11-29 Voice recognition image feedback providing system and method
PCT/KR2017/013777 WO2019045183A1 (ko) 2017-08-31 2017-11-29 음성 인식 영상 피드백 제공 시스템 및 방법
EP17923561.9A EP3511933A4 (en) 2017-08-31 2017-11-29 SYSTEM AND METHOD FOR PROVIDING VOICE RECOGNITION IMAGE FEEDBACK
US16/379,702 US20190237078A1 (en) 2017-08-31 2019-04-09 Voice recognition image feedback providing system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170110933A KR20190024190A (ko) 2017-08-31 2017-08-31 음성 인식 영상 피드백 제공 시스템 및 방법

Related Child Applications (2)

Application Number Title Priority Date Filing Date
KR1020190015574A Division KR20190024920A (ko) 2019-02-11 2019-02-11 음성 인식 영상 피드백 제공 시스템 및 방법
KR1020190015573A Division KR20190024919A (ko) 2019-02-11 2019-02-11 음성 인식 영상 피드백 제공 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20190024190A true KR20190024190A (ko) 2019-03-08

Family

ID=65527485

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170110933A KR20190024190A (ko) 2017-08-31 2017-08-31 음성 인식 영상 피드백 제공 시스템 및 방법

Country Status (4)

Country Link
US (1) US20200043488A1 (ko)
EP (2) EP3511933A4 (ko)
KR (1) KR20190024190A (ko)
WO (1) WO2019045183A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200112087A (ko) * 2019-03-20 2020-10-05 삼성전자주식회사 사용자의 움직임에 기반하여 객체의 속성을 제어하는 전자 장치 및 그 제어 방법
WO2020246640A1 (ko) * 2019-06-05 2020-12-10 엘지전자 주식회사 사용자의 위치를 결정하는 인공 지능 장치 및 그 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190272094A1 (en) * 2018-03-01 2019-09-05 Jack M. MINSKY System for multi-tagging images
US11250050B2 (en) 2018-03-01 2022-02-15 The Software Mackiev Company System for multi-tagging images
CN110864440B (zh) * 2019-11-20 2020-10-30 珠海格力电器股份有限公司 一种送风方法及送风装置、空调
CN110848907A (zh) * 2019-11-26 2020-02-28 广东美的制冷设备有限公司 空调器的控制方法、空调器及计算机可读存储介质
US20220335698A1 (en) * 2019-12-17 2022-10-20 Ashley SinHee Kim System and method for transforming mapping information to an illustrated map
US11756544B2 (en) * 2020-12-15 2023-09-12 Google Llc Selectively providing enhanced clarification prompts in automated assistant interactions

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170081883A (ko) 2016-01-05 2017-07-13 한국전자통신연구원 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10110977C1 (de) * 2001-03-07 2002-10-10 Siemens Ag Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem
KR20100086262A (ko) * 2009-01-22 2010-07-30 삼성전자주식회사 로봇 및 그 제어방법
KR101510723B1 (ko) * 2009-04-20 2015-04-20 삼성전자주식회사 프로젝터를 구비한 휴대 단말기 및 그 휴대 단말기에서 데이터 표시 방법
US8983662B2 (en) * 2012-08-03 2015-03-17 Toyota Motor Engineering & Manufacturing North America, Inc. Robots comprising projectors for projecting images on identified projection surfaces
US10373615B2 (en) * 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
US10318016B2 (en) * 2014-06-03 2019-06-11 Harman International Industries, Incorporated Hands free device with directional interface
US20150371628A1 (en) * 2014-06-23 2015-12-24 Harman International Industries, Inc. User-adapted speech recognition
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
US10331312B2 (en) * 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
KR20170086814A (ko) * 2016-01-19 2017-07-27 삼성전자주식회사 음성 인식 기능을 제공하는 전자 장치 및 그 동작 방법
US10129510B2 (en) * 2016-02-18 2018-11-13 Samsung Electronics Co., Ltd. Initiating human-machine interaction based on visual attention
CN106797455A (zh) * 2016-12-23 2017-05-31 深圳前海达闼云端智能科技有限公司 一种投影方法、装置及机器人

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170081883A (ko) 2016-01-05 2017-07-13 한국전자통신연구원 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200112087A (ko) * 2019-03-20 2020-10-05 삼성전자주식회사 사용자의 움직임에 기반하여 객체의 속성을 제어하는 전자 장치 및 그 제어 방법
US11989337B2 (en) 2019-03-20 2024-05-21 Samsung Electronics Co., Ltd. Electronic device controlling attribute of object on basis of user's motion, and control method therefor
WO2020246640A1 (ko) * 2019-06-05 2020-12-10 엘지전자 주식회사 사용자의 위치를 결정하는 인공 지능 장치 및 그 방법
US11182922B2 (en) 2019-06-05 2021-11-23 Lg Electronics Inc. AI apparatus and method for determining location of user

Also Published As

Publication number Publication date
EP3511933A1 (en) 2019-07-17
EP3584788A2 (en) 2019-12-25
EP3584788A3 (en) 2020-03-25
WO2019045183A1 (ko) 2019-03-07
US20200043488A1 (en) 2020-02-06
EP3511933A4 (en) 2019-10-23

Similar Documents

Publication Publication Date Title
KR20190024190A (ko) 음성 인식 영상 피드백 제공 시스템 및 방법
CN110337318A (zh) 混合现实装置中的虚拟和真实对象记录
CN110475069B (zh) 图像的拍摄方法及装置
US20190237078A1 (en) Voice recognition image feedback providing system and method
CN109564760A (zh) 通过3d音频定位来生成虚拟或增强现实呈现的方法和装置
US11595615B2 (en) Conference device, method of controlling conference device, and computer storage medium
US20230047858A1 (en) Method, apparatus, electronic device, computer-readable storage medium, and computer program product for video communication
CN111654715A (zh) 直播的视频处理方法、装置、电子设备及存储介质
KR20220148915A (ko) 오디오 처리 방법, 장치, 판독 가능 매체 및 전자기기
JP2016045814A (ja) 仮想現実サービス提供システム、仮想現実サービス提供方法
US20190333496A1 (en) Spatialized verbalization of visual scenes
CN111273775A (zh) 增强现实眼镜、基于增强现实眼镜的ktv实现方法与介质
JP2003037826A (ja) 代理画像表示装置およびテレビ電話装置
WO2022231709A1 (en) Integrating overlaid digital content into data via processing circuitry using an audio buffer
KR20190024919A (ko) 음성 인식 영상 피드백 제공 시스템 및 방법
JP2020136921A (ja) ビデオ通話システム、およびコンピュータプログラム
CN113851029A (zh) 一种无障碍通信方法和装置
KR20190024920A (ko) 음성 인식 영상 피드백 제공 시스템 및 방법
KR20190014895A (ko) 가상 현실 기반의 고인 맞춤형 추모 시스템
KR20200067787A (ko) 음성 인식 영상 피드백 제공 시스템 및 방법
CN112764549B (zh) 翻译方法、装置、介质和近眼显示设备
CN108877407A (zh) 用于辅助交流的方法、装置和系统及增强现实眼镜
CN111741287B (zh) 一种mr眼镜利用位置信息触发内容的方法
EP3916683A1 (en) Method and apparatus for displaying an image, electronic device and computer-readable storage medium
US20210174823A1 (en) System for and Method of Converting Spoken Words and Audio Cues into Spatially Accurate Caption Text for Augmented Reality Glasses

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
A107 Divisional application of patent
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X601 Decision of rejection after re-examination