KR20190024920A - Voice recognition image feedback providing system and method - Google Patents
Voice recognition image feedback providing system and method Download PDFInfo
- Publication number
- KR20190024920A KR20190024920A KR1020190015574A KR20190015574A KR20190024920A KR 20190024920 A KR20190024920 A KR 20190024920A KR 1020190015574 A KR1020190015574 A KR 1020190015574A KR 20190015574 A KR20190015574 A KR 20190015574A KR 20190024920 A KR20190024920 A KR 20190024920A
- Authority
- KR
- South Korea
- Prior art keywords
- user
- voice
- image feedback
- recognition image
- image
- Prior art date
Links
- 238000000034 method Methods 0.000 title abstract description 28
- 230000036651 mood Effects 0.000 claims description 25
- 230000008447 perception Effects 0.000 claims 1
- 230000002093 peripheral effect Effects 0.000 abstract description 53
- 238000010586 diagram Methods 0.000 description 32
- 230000006870 function Effects 0.000 description 32
- 238000004891 communication Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 8
- 240000008067 Cucumis sativus Species 0.000 description 6
- 235000010799 Cucumis sativus var sativus Nutrition 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000994 depressogenic effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000009849 Cucumis sativus Nutrition 0.000 description 1
- 241000989913 Gunnera petaloidea Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
본 발명은 음성 인식 영상 피드백 제공 시스템 및 방법에 관한 것이다. The present invention relates to a system and method for providing speech recognition image feedback.
최근, 음성 인식 기술이 상당히 발전하고 있다. 이러한 음성 인식 기술을 이용한 다양한 서비스들이 등장하고 있다. Recently, speech recognition technology has been significantly improved. Various services using the speech recognition technology are emerging.
그러나, 이러한 서비스 대다수는 단순히 음성만을 제공하고 있으며, 따라서 사용자가 원하는 서비스를 만족시키지 못하고 있다. However, the vast majority of these services simply provide voice, and thus do not satisfy the user's desired service.
본 발명은 사용자가 편리하게 다양한 서비스를 제공받을 수 있는 음성 인식 영상 피드백 제공 시스템 및 방법을 제공하는 것이다.The present invention provides a system and method for providing voice recognition image feedback in which a user can conveniently receive various services.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 음성 인식 영상 피드백 장치는 사용자의 음성을 인식하는 음성 인식부; 상기 인식된 음성에 해당하는 영상을 출력하는 영상 피드백부; 및 상기 음성 인식부 및 상기 영상 피드백부의 동작을 제어하는 제어부를 포함한다. 여기서, 상기 영상의 색상, 화질, 해상도 및 사이즈 중 적어도 하나 또는 상기 영상과 매칭되는 사운드가 상기 인식된 음성, 상기 사용자의 기분 또는 상기 사용자의 바이오리듬에 따라 가변되며, 상기 가변된 영상이 상기 사용자의 위치에 대응하는 영역으로 출력된다. According to an aspect of the present invention, there is provided a speech recognition image feedback apparatus including: a speech recognition unit for recognizing a speech of a user; An image feedback unit for outputting an image corresponding to the recognized voice; And a controller for controlling operations of the speech recognition unit and the image feedback unit. Here, at least one of the color, image quality, resolution, and size of the image or the sound that is matched with the image is varied according to the recognized voice, the mood of the user, or the biorhythm of the user, As shown in FIG.
본 발명의 다른 실시예에 따른 음성 인식 영상 피드백 장치는 사용자의 음성을 인식하는 음성 인식부; 영상을 출력하는 영상 피드백부; 및 상기 음성 인식부 및 상기 영상 피드백부의 동작을 제어하는 제어부를 포함한다. 여기서, 상기 음성에 영상의 제공을 요청하는 사용자의 요청이 포함되지 않음에도 불구하고 상기 음성의 톤, 상기 음성에 포함된 기분을 표시하는 단어, 상기 사용자의 움직임 중 적어도 하나에 기초하여 파악된 상기 사용자의 기분에 따라 해당 영상이 자동으로 상기 사용자의 위치에 대응하는 영역으로 제공된다. According to another aspect of the present invention, there is provided a speech recognition image feedback apparatus including: a speech recognition unit for recognizing a speech of a user; An image feedback unit for outputting an image; And a controller for controlling operations of the speech recognition unit and the image feedback unit. In this case, even though the request of the user requesting the provision of the image is not included in the voice, the user can not recognize the voice based on at least one of the tone of the voice, the word indicating the mood included in the voice, The corresponding image is automatically provided to the area corresponding to the user's position according to the mood of the user.
본 발명에 따른 음성 인식 영상 피드백 제공 시스템 및 이를 동작시키는 방법은 사용자의 음성을 인식하고 상기 인식된 음성에 해당하는 영상을 사용자의 위치로 출력시킬 수 있다. 결과적으로, 사용자는 원하는 정보 등을 용이하게 획득하고 편리하게 서비스를 제공받을 수 있으며, 상기 음성 인식 영상 피드백 제공 시스템은 다양한 서비스들을 상기 사용자에게 제공할 수 있다. The system for providing the voice recognition image feedback according to the present invention and the method for operating the voice recognition image feedback system can recognize the voice of the user and output the image corresponding to the recognized voice to the position of the user. As a result, the user can easily acquire desired information and provide services conveniently, and the voice recognition image feedback providing system can provide various services to the user.
도 1은 본 발명의 제 1 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 영상 피드백을 제공하는 과정을 도시한 도면이다.
도 3 내지 도 5는 본 발명의 일 실시예에 따른 음성 인식 영상 피드백 장치의 구조를 도시한 도면들이다.
도 6은 본 발명의 제 2 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 음성 인식 영상 피드백 장치를 도시한 블록도이다.
도 8은 본 발명의 제 3 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 9는 본 발명의 제 4 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 10은 본 발명의 제 5 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 11은 본 발명의 제 6 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 12는 본 발명의 제 7 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 13은 본 발명의 제 8 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 14는 본 발명의 제 9 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 15는 본 발명의 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 16은 본 발명의 제 10 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 17은 본 발명의 제 11 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 18은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 19는 본 발명의 제 12 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 20은 본 발명의 제 13 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 21은 본 발명의 제 14 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 도면이다.
도 22는 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 23은 본 발명의 제 15 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 24는 본 발명의 제 16 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 25는 도 24의 음성 인식 영상 피드백 제공 과정의 일 예를 도시한 도면이다.
도 26은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 27은 본 발명의 제 17 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 28은 본 발명의 제 18 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 29는 본 발명의 제 19 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 30은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 31은 본 발명의 제 20 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 32는 본 발명의 제 21 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 33은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 34는 본 발명의 제 22 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 35는 본 발명의 다른 실예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다.
도 36은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 개략적으로 도시한 도면이다.
도 37은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다.
도 38은 본 발명의 일 실시예에 따른 메인 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 39는 본 발명의 일 실시예에 따른 서브 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다.
도 40은 본 발명의 일 실시예에 따른 도 37의 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 41은 본 발명의 다른 실시예에 따른 도 37의 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다.
도 42는 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치를 도시한 블록도이다.
도 43은 본 발명의 제 23 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 1 is a diagram illustrating a system for providing speech recognition image feedback according to a first embodiment of the present invention.
FIG. 2 illustrates a process of providing image feedback according to an exemplary embodiment of the present invention. Referring to FIG.
3 to 5 are views showing a structure of a speech recognition image feedback apparatus according to an embodiment of the present invention.
FIG. 6 is a diagram illustrating a system for providing speech recognition image feedback according to a second embodiment of the present invention.
7 is a block diagram illustrating a speech recognition image feedback apparatus according to an embodiment of the present invention.
FIG. 8 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a third embodiment of the present invention.
9 is a flowchart illustrating an operation of the system for providing speech recognition image feedback according to the fourth embodiment of the present invention.
10 is a flowchart illustrating an operation of the system for providing speech recognition image feedback according to the fifth embodiment of the present invention.
11 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a sixth embodiment of the present invention.
12 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to a seventh embodiment of the present invention.
13 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to an eighth embodiment of the present invention.
FIG. 14 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a ninth embodiment of the present invention.
15 is a block diagram illustrating the configuration of a speech recognition image feedback apparatus according to another embodiment of the present invention.
16 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to a tenth embodiment of the present invention.
17 is a flowchart illustrating an operation of the system for providing speech recognition image feedback according to the eleventh embodiment of the present invention.
18 is a block diagram illustrating the configuration of a speech recognition image feedback apparatus according to another embodiment of the present invention.
FIG. 19 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a twelfth embodiment of the present invention.
20 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a thirteenth embodiment of the present invention.
21 is a diagram illustrating an operation of a speech recognition image feedback providing system according to a fourteenth embodiment of the present invention.
22 is a block diagram showing the configuration of a speech recognition image feedback apparatus according to another embodiment of the present invention.
23 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to a fifteenth embodiment of the present invention.
24 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a sixteenth embodiment of the present invention.
25 is a diagram illustrating an example of a speech recognition image feedback process of FIG.
26 is a block diagram illustrating the configuration of a speech recognition image feedback apparatus according to another embodiment of the present invention.
27 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to a seventeenth embodiment of the present invention.
28 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to an eighteenth embodiment of the present invention.
FIG. 29 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a nineteenth embodiment of the present invention.
30 is a block diagram showing the configuration of a speech recognition image feedback apparatus according to another embodiment of the present invention.
31 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a twentieth embodiment of the present invention.
32 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a twenty-first embodiment of the present invention.
33 is a block diagram showing the configuration of a speech recognition image feedback apparatus according to another embodiment of the present invention.
FIG. 34 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a twenty-second embodiment of the present invention.
35 is a diagram illustrating a system for providing speech recognition image feedback according to another exemplary embodiment of the present invention.
36 is a view schematically showing a system for providing speech recognition image feedback according to another embodiment of the present invention.
37 is a diagram illustrating a system for providing speech recognition image feedback according to another embodiment of the present invention.
38 is a block diagram illustrating the configuration of a main speech recognition image feedback apparatus according to an embodiment of the present invention.
39 is a block diagram illustrating the configuration of a sub-speech recognition image feedback apparatus according to an embodiment of the present invention.
FIG. 40 is a flowchart illustrating an operation of the speech recognition image feedback providing system of FIG. 37 according to an embodiment of the present invention.
FIG. 41 is a flowchart illustrating an operation of the speech recognition image feedback providing system of FIG. 37 according to another embodiment of the present invention.
42 is a block diagram illustrating a speech recognition image feedback apparatus according to another embodiment of the present invention.
FIG. 43 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a twenty-third embodiment of the present invention.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.As used herein, the singular forms "a", "an" and "the" include plural referents unless the context clearly dictates otherwise. In this specification, the terms "comprising ", or" comprising "and the like should not be construed as necessarily including the various elements or steps described in the specification, Or may be further comprised of additional components or steps. Also, the terms "part," " module, "and the like described in the specification mean units for processing at least one function or operation, which may be implemented in hardware or software or a combination of hardware and software .
본 발명은 사용자의 음성 인식시 사용자의 위치 또는 이에 해당하는 사용자 주변 위치 영역으로 영상 피드백(feedback)을 제공하는 시스템 및 방법에 관한 것이다. 여기서, 상기 사용자 주변 위치 영역은 상기 사용자가 위치한 지점의 주변 영역을 의미한다. The present invention relates to a system and method for providing image feedback to a user's location in a user's speech recognition or corresponding user peripheral location area. Here, the user peripheral location area refers to a peripheral area of the location where the user is located.
즉, 본 발명의 시스템은 사용자가 음성으로 특정 명령 또는 요청을 입력하면, 상기 입력된 명령 또는 요청에 해당하는 영상을 상기 사용자 주변 위치 영역으로 제공할 수 있다. 예를 들어, 상기 영상은 빔 프로젝션(beam projection)을 통하여 사용자에게 제공될 수 있다. That is, the system of the present invention can provide an image corresponding to the inputted command or request to the user peripheral location area when the user inputs a specific command or request by voice. For example, the image may be provided to a user through a beam projection.
따라서, 단순히 음성 피드백만을 제공하는 시스템과 달리, 영상 피드백을 통하여 사용자에게 다양하고 편리한 서비스를 제공할 수 있다. Therefore, unlike a system that provides only voice feedback, various and convenient services can be provided to a user through image feedback.
한편, 상기 영상은 2차원 영상, 3차원 영상, 홀로그램 등을 모두 포함한다. On the other hand, the image includes a two-dimensional image, a three-dimensional image, a hologram, and the like.
이하, 본 발명의 다양한 실시예들을 첨부된 도면들을 참조하여 상술하겠다. 다만, 설명의 편의를 위하여 영상이 빔 프로젝션을 통하여 출력되는 것으로 가정하겠으나, 영상을 제공할 수 있는 한 빔 프로젝션 외에도 다양한 방법들이 사용될 수 있다. Various embodiments of the present invention will now be described in detail with reference to the accompanying drawings. For the sake of convenience of explanation, it is assumed that the image is output through the beam projection, but various methods other than the beam projection capable of providing the image can be used.
도 1은 본 발명의 제 1 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이고, 도 2는 본 발명의 일 실시예에 따른 영상 피드백을 제공하는 과정을 도시한 도면이며, 도 3 내지 도 5는 본 발명의 일 실시예에 따른 음성 인식 영상 피드백 장치의 구조를 도시한 도면들이다. FIG. 1 illustrates a system for providing speech recognition image feedback according to a first embodiment of the present invention. FIG. 2 illustrates a process of providing image feedback according to an embodiment of the present invention. 5 is a diagram illustrating a structure of a speech recognition image feedback apparatus according to an embodiment of the present invention.
도 1을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치(100)는 예를 들어 집 등의 건물 내에 위치할 수 있으며, 정보 디스플레이 또는 사용자의 터치 입력 등을 위한 디스플레이 소자(110)를 포함할 수도 있다. 다만, 디스플레이 소자(110)는 필수적인 구성요소는 아니다. Referring to FIG. 1, the speech recognition
사용자(102)가 음성을 입력하면, 음성 인식 영상 피드백 장치(100)는 사용자(102)의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 명령, 요청 또는 희망사항을 추출한다. When the
예를 들어, 사용자(102)가 도 2에 도시된 바와 같이 "다음 10일 동안의 날씨를 보여줘" 또는 "sunnyvale 지역에서 costco를 어떻게 가야하는 지 알려줘"하고 음성을 입력하면, 음성 인식 영상 피드백 장치(100)는 10일 동안의 날씨 또는 costco에 갈 수 있는 방법을 표시한 영상을 사용자 주변 위치 영역(120)으로 출력할 수 있다. For example, if the
예를 들어, 음성 인식 영상 피드백 장치(100)는 영상 제공을 위하여 빔 프로젝터(200)를 포함할 수 있고, 상기 음성에 해당하는 영상을 사용자 주변 위치 영역(120)으로 빔 프로젝션할 수 있다. For example, the voice recognition
여기서, 사용자 주변 위치 영역(120)은 사용자(102)가 위치한 지점은 아니고 사용자(102)가 위치한 지점의 주변 영역을 의미한다. Here, the user peripheral location area 120 refers to a peripheral area of a location where the
예를 들어, 사용자 주변 위치 영역(120)은 사용자가 상기 영상을 시각적으로 잘 볼 수 있도록 사용자(102)가 위치한 지점을 기준으로 특정 거리를 반경으로 하는 영역, 예를 들어 반경 3미터 범위 내일 수 있다. 이는 사용자 주변 위치 영역(120)이 사용자(102)가 위치한 지점에 너무 가까워도 너무 멀어도 사용자(102)가 영상을 보기가 불편하기 때문이다. 물론, 상기 영상 중 적어도 일부가 상기 반경 3미터 이내 범위라는 것이지 상기 영상 전부가 상기 반경 3미터 이내일 필요는 없다.For example, the user's perimeter location area 120 may be an area with a radius of a specific distance, e.g., within a radius of 3 meters, based on the location of the
또한, 사용자 주변 위치 영역(120)은 사용자(102)를 기준으로 전면, 후면, 측면, 상면 또는 후면일 수 있지만, 사용자(102)의 편리성을 고려하여 사용자(102)의 주변 영역 중 전면 영역일 수 있다. 여기서, 상기 전면 영역은 상기 음성이 음성 인식 피드백 장치(100)로 입력되는 방향에 해당할 수 있다. The user peripheral location area 120 may be front, back, side, top, or rear with respect to the
게다가, 사용자 주변 위치 영역(120)은 바닥, 천정, 벽 등일 수 있지만, 사용자(102)가 가장 편리하게 볼 수 있는 위치가 바닥 또는 벽이므로 사용자 주변 위치 영역(120)은 바닥 또는 벽인 것이 효율적이다. In addition, although the user perimeter location area 120 may be a floor, ceiling, wall, or the like, it is efficient for the user perimeter location area 120 to be a floor or wall since the location that the
따라서, 사용자(102)는 사용자 주변 위치 영역(120)에 보여지는 영상을 통하여 원하는 정보 등을 획득할 수 있다. Accordingly, the
이 때, 사용자 주변 위치 영역(120)은 사용자(102)가 영상을 시각적으로 잘 확인할 수 있는 영역이면 충분하며 특별한 사이즈 또는 형상으로 제한되지는 않는다. 다만, 상기 영상은 해상도 등을 고려하여 사용자(102)에게 시각적으로 잘 확인되는 사이즈로 설정될 것이다. In this case, the user peripheral location area 120 may be an area where the
물론, 본 발명의 시스템은 사용자(102)가 위치한 영역을 제외하는 것은 아니다. 다만, 사용자(102)가 위치한 영역으로 영상을 출력하면 사용자가(102)가 상기 영상을 제대로 확인하기가 어렵다. 따라서, 상기 영상 피드백은 사용자(102)가 위치한 영역이 아닌 사용자 주변 위치 영역(120)으로 제공되는 것이 효율적이다. Of course, the system of the present invention does not exclude the area where the
한편, 음성 인식 영상 피드백 장치(100)는 사용자(102)에게 영상 피드백시 영상뿐만 아니라 음성 피드백도 함께 제공할 수 있다. Meanwhile, the speech recognition
음성 피드백만을 제공한다고 가정하면, 사용자(102)가 원하는 정보를 파악하기가 어렵고 다양한 서비스를 향유할 수가 없다. 그러나, 본 발명의 음성 인식 영상 피드백 제공 시스템은 사용자가 원하는 정보, 다른 서비스 등을 상기 영상을 통하여 사용자(102)에게 제공하므로, 사용자(102)가 원하는 정보를 용이하게 파악할 수 있고 다양한 서비스를 향유할 수 있다. Assuming that only voice feedback is provided, the
정리하면, 본 발명의 음성 인식 영상 피드백 장치(100)는 사용자(102)의 음성을 인식하고 상기 인식된 음성에 따라 관련 영상을 사용자 주변 위치 영역(120)으로 출력할 수 있다. In summary, the speech recognition
이러한 기능 수행을 위하여, 음성 인식 영상 피드백 장치(100)는 기본적으로 마이크, 음성을 인식하고 음성 내용을 파악하기 위한 음성 피드백부, 사용자 위치 추적 소자(위치 추적부), 예를 들어 카메라 및 영상 피드백부로서 영상 출력 소자(200), 예를 들어 빔 프로젝터를 포함할 수 있다. In order to perform such a function, the voice recognition
이하, 영상을 제공하기 위하여 사용자(102)의 위치를 파악하는 상기 사용자 위치 추적 소자를 간략히 살펴보겠다. Hereinafter, the user position tracking element for grasping the position of the
일 실시예에 따르면, 상기 사용자 위치 추적 소자는 상기 인식된 음성의 방향을 탐지하고, 상기 탐지된 방향 하에서 상기 인식된 음성의 크기를 분석하여 음성 인식 영상 피드백 장치(100)와 사용자(102) 사이의 거리를 검출할 수 있다. 즉, 상기 사용자 위치 추적 소자는 상기 인식된 음성만을 기초로 하여 사용자(102)의 위치를 추적할 수 있다. 다만, 이러한 위치 추적 방법은 정확성 측면에서 떨어질 수는 있다. According to one embodiment, the user location tracking element detects the direction of the recognized voice and analyzes the magnitude of the recognized voice under the detected direction to determine the distance between the voice recognition
다른 실시예에 따르면, 사용자(102)의 위치를 정확하게 추적하기 위하여, 상기 사용자 위치 추적 소자는 영상 촬영 소자(예를 들어, 카메라)를 포함할 수 있다. 구체적으로는, 상기 사용자 위치 추적 소자는 상기 음성 인식 영상 피드백 장치로 입력된 음성의 방향으로 상기 카메라를 위치시키고, 상기 카메라를 통하여 영상을 촬영하여 사용자(102)의 위치를 정확하게 추적할 수 있다. According to another embodiment, in order to accurately track the position of the
예를 들어, 상기 사용자 위치 추적 소자는 상기 촬영된 영상에서 픽셀들의 화소 변화를 통한 경계 영역 분석 등의 다양한 방법들을 통하여 객체를 추출하고, 상기 추출된 객체가 위치한 지점을 사용자(102)의 위치로 결정할 수 있다. For example, the user location tracking element extracts an object through various methods such as boundary region analysis through pixel change of pixels in the photographed image, and sets a point where the extracted object is located to a position of the
다른 예로, 상기 영상이 복수의 객체들을 포함하고 있는 경우, 상기 사용자 위치 추적 소자는 상기 객체들 중 사람이 아닌 객체를 제거한 후 남은 객체들(사람들) 중에서 상기 음성 인식 영상 피드백 장치로 입력된 음성의 방향에 가장 매칭되는 객체를 사용자(102)의 위치로 결정할 수 있다. 이 경우, 사용자(102)의 위치에 해당하는 객체를 제외한 나머지 객체들(예를 들어, TV)은 제거되는 효과가 있으므로, 잡음이 제거된다고 할 수 있다. 여기서, 상기 사람에 해당하는 객체는 사람의 형상에 해당하는 객체를 의미한다. As another example, when the image includes a plurality of objects, the user location tracking element may extract a voice input from the voice recognition image feedback device among the objects (persons) remaining after removing an object that is not a person, It is possible to determine the object that best matches the direction as the location of the
또 다른 예로, 상기 영상이 복수의 객체들을 포함하고 있는 경우, 상기 사용자 위치 추적 소자는 사람에 해당하는 객체들 중 상기 음성의 크기에 해당하는 거리에 위치하는 객체의 위치를 사용자(102)의 위치로 결정할 수 있다. 이 경우, 복수의 객체들이 상기 음성의 크기에 해당하는 거리에 존재하는 경우, 상기 사용자 위치 추적 소자는 상기 음성 인식 영상 피드백 장치로 입력된 음성의 방향에 가장 매칭되는 객체를 사용자(102)의 위치로 결정하거나 임의의 객체를 사용자(102)의 위치로 결정할 수 있다. As another example, if the image includes a plurality of objects, the user location tracking device may determine the location of an object located at a distance corresponding to the size of the voice among the objects corresponding to the person, . In this case, when a plurality of objects exist at a distance corresponding to the size of the voice, the user location tracking device transmits an object matching the direction of the voice input to the voice recognition image feedback device to the location of the
즉, 상기 음성 인식 영상 피드백 장치는 음성 및 영상을 통하여 사용자(102)의 위치를 정확하게 추적(검출)할 수 있다. That is, the voice recognition image feedback apparatus can accurately track (detect) the position of the
이러한 사용자의 영상을 획득하기 위해서는, 상기 사용자 위치 추적 소자가 회전 가능하거나 복수의 사용자 위치 추적 소자들이 음성 인식 영상 피드백 장치(100)에 설치되어야 한다. In order to acquire an image of such a user, the user location tracking device may be rotatable or a plurality of user location tracking devices should be installed in the voice recognition
구체적으로는, 사용자(102)가 음성 인식 영상 피드백 장치(100)의 전후좌우 어디에도 위치할 수 있고 음성 인식 영상 피드백 장치(100)가 일반적으로 고정적으로 설치되므로, 사용자(102)의 위치를 파악하기 위해서는 상기 사용자 위치 추적 소자가 회전 가능한 구조로 설치되거나 복수의 사용자 위치 추적 소자들이 서로 다른 위치에 고정적으로 설치되어야 효율적이다. Specifically, since the
예를 들어, 상기 사용자 위치 추적 소자를 회전시킬 수 있는 가이드가 음성 인식 피드백 장치(100)의 바디 상에 형성되고 상기 사용자 위치 추적 소자가 상기 가이드를 따라서 회전할 수 있다. 이 경우, 상기 사용자 위치 추적 소자 자체도 회전 가능한 구조를 가질 수 있다. For example, a guide capable of rotating the user position tracking element may be formed on the body of the speech
다른 예로, 4개의 사용자 위치 추적 소자들이 90도 간격으로 상기 사용자 위치 추적 소자들에 설치될 수 있다. As another example, four user position tracking elements may be installed in the user position tracking elements at 90 degree intervals.
이하, 영상을 출력하는 영상 피드백부의 구조에 대하여 살펴보겠다. Hereinafter, the structure of the image feedback unit for outputting an image will be described.
사용자(102)가 다양한 위치에 존재할 수 있으므로, 상기 영상 피드백부 또한 회전 가능하거나 복수의 영상 피드백부들이 예를 들어 90도 간격을 가지고 설치되어야 한다. Since the
일 실시예에 따르면, 도 3에 도시된 바와 같이 영상 피드백부로서 빔 프로젝터(200)가 음성 인식 영상 피드백 장치(100)의 바디(300) 상에 회전 가능한 구조로 설치될 수 있다. According to one embodiment, as shown in FIG. 3, a
구체적으로는, 바디(300) 상에 원형의 가이드(310)가 바디(300) 둘레를 따라서 형성되고, 빔 프로젝터(200)가 가이드(302)를 따라서 이동할 수 있다. 즉, 빔 프로젝터(200)가 가이드(302)를 따라서 360도 회전 가능하게 된다. 물론, 빔 프로젝터(200) 자체적으로도 회전 가능할 수 있다. Specifically, a
다른 실시예에 따르면, 도 4에 도시된 바와 같이 바디(300)의 일부분에 제 1 가이드(400)가 형성되고 다른 일부분에 제 2 가이드(402)가 형성될 수 있으며, 가이드들(400 및 402)에 각기 빔 프로젝터들(200a 및 200b)이 설치될 수도 있다. 이 경우, 가이드들(400 및 402)은 빔 프로젝터들(200a 및 200b)이 360도 전방향에 걸쳐서 회전할 수 있도록 바디(300)의 둘레를 따라서 형성될 수 있다. 물론, 도 4에서는 2개의 가이드들을 도시하였지만, 3개 이상의 가이드들이 형성될 수도 있다. 4, a
또 다른 실시예에 따르면, 도 5에 도시된 바와 같이 바디(300)의 외부에 빔 프로젝터(500)가 형성될 수도 있다. 물론, 빔 프로젝터(500)는 바디(300)의 둘레를 따라서 회전할 수 있도록 가이드가 바디(300)에 형성될 수 있다. According to another embodiment, a
즉, 빔 프로젝터는 회전할 수 있는 한 음성 인식 영상 피드백 장치(100) 자체에 형성될 수도 있고 외부에 설치될 수도 있다. That is, the beam projector may be formed in the voice recognition
또 다른 실시예를 따르면, 음성 인식 영상 피드백 장치(100)의 바디(300)의 동서남북 사방향에 걸쳐서 각기 빔프로젝터들이 형성될 수 있다. 이 경우, 상기 빔 프로젝터들은 고정된 구조를 가지면서 정해진 영역으로 영상을 출력할 수 있다. According to another embodiment, beam projectors may be formed on the
물론, 이러한 고정 구에서도 상기 빔 프로젝터가 자체적으로 회전 가능할 수 있으며, 그 결과 상기 빔 프로젝터는 정해진 영역 내에서 원하는 방향으로 자유롭게 영상을 출력시킬 수 있다. Of course, the beam projector can also be rotatable in itself, and as a result, the beam projector can freely output an image in a desired direction within a predetermined area.
도 6은 본 발명의 제 2 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다. FIG. 6 is a diagram illustrating a system for providing speech recognition image feedback according to a second embodiment of the present invention.
도 6을 참조하면, 음성 인식 영상 피드백 장치(100)는 영상 피드백부로서 빔 프로젝터(200)를 포함할 수 있고, 사용자의 음성에 따라 영상 피드백을 제공할 수 있다. Referring to FIG. 6, the speech recognition
다만, 사용자가 음성으로 영상 피드백이 제공될 위치를 지정하면, 음성 인식 영상 피드백 장치(100)는 사용자 주변 위치 영역이 아닌 사용자에 의해 지정된 위치 또는 음성 인식 영상 피드백 장치(100)에 미리 설정된 위치(거리, 각도 또는 화질 등을 고려하여 설정된 위치)로 영상 피드백을 제공할 수 있다. However, if the user designates the position to which the image feedback is to be provided by voice, the voice recognition
예를 들어, 도 6에 도시된 바와 같이, 사용자가 "벽에 디스플레이해줘"라고 말하면, 음성 인식 영상 피드백 장치(100)는 사용자 주변 위치 영역이 아닌 벽으로 영상을 출력할 수 있다. For example, as shown in FIG. 6, when the user says "display on the wall ", the voice recognition
일 실시예에 따르면, 음성 인식 영상 피드백 장치(100)는 자연어 분석을 통하여 사용자의 음성을 분석할 수 있고, 상기 분석 결과에 따라 사용자가 지정한 위치를 파악할 수 있다. 여기서, 상기 사용자에 의해 지정된 위치는 구체적으로 특정될 수도 있고 여러 위치들을 포함할 수도 있다. According to one embodiment, the speech recognition
상기 사용자에 의해 지정된 위치가 구체적으로 특정된 경우, 예를 들어 사용자가 "거실의 tv가 위치한 벽"이라고 말하면, 음성 인식 영상 피드백 장치(100)는 상기 특정된 벽으로 영상 피드백을 제공할 수 있다. 이 경우에는, 사용자의 위치 파악이 필요치는 않다. If the location specified by the user is specifically specified, for example, if the user says "the wall where the tv of the living room is located ", the voice recognition
반면에, 상기 사용자에 의해 지정된 위치가 여러 위치를 포함하는 경우, 예를 들어 사용자가 "거실 벽"이라고 말하면, 거실에 다수의 벽들이 존재하므로, 음성 인식 영상 피드백 장치(100)는 사용자에게 가장 가까운 벽으로 영상 피드백을 제공할 수 있다. 이 경우에는, 사용자의 위치 파악이 요구된다. On the other hand, when the location designated by the user includes several locations, for example, when a user speaks a "living room wall ", since there are a plurality of walls in the living room, You can provide visual feedback to the nearest wall. In this case, it is required to grasp the position of the user.
정리하면, 본 실시예의 음성 인식 영상 피드백 장치(100)는 사용자의 음성에 영상이 피드백될 위치가 지정된 경우 상기 지정된 위치로 영상 피드백을 제공할 수 있다. In summary, the speech recognition
위에서는, 기본적인 음성 인식 피드백 시스템의 동작을 설명하였다. 이하 다양한 음성 인식 영상 피드백 제공 시스템의 동작을 첨부된 도면들을 참조하여 상술하겠다. 다만, 설명의 편의를 위하여 구성요소들에 대한 도면 부호는 생략하겠다. In the above, the operation of a basic speech recognition feedback system has been described. Hereinafter, the operation of the system for providing various speech recognition image feedback will be described in detail with reference to the accompanying drawings. However, for convenience of description, reference numerals for components will be omitted.
또한, 영상 피드백이 사용자 주변 위치 영역뿐만 아니라 사용자가 위치한 영역으로도 제공될 수 있고, 사용자 주변 위치 영역이 넓게는 사용자 위치 내에 포함된다고도 할 수 있으므로, 이하 도면들에서는 영상 피드백이 제공되는 위치를 사용자 위치로 간략히 기재하였다. In addition, since the image feedback can be provided not only to the user peripheral location area but also to the user location area and the user peripheral location area can be widely included in the user location, The location of the user is briefly described.
이하, 음성 인식하여 영상 피드백하는 기본 구조를 가지는 다양한 실시예들을 먼저 상술하겠다. Hereinafter, various embodiments having a basic structure for recognizing speech and performing image feedback will be described first.
도 7은 본 발명의 일 실시예에 따른 음성 인식 영상 피드백 장치를 도시한 블록도이다. 7 is a block diagram illustrating a speech recognition image feedback apparatus according to an embodiment of the present invention.
도 7을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(700), 음성 인식부(702), 위치 추적부(704), 영상 피드백부(706), 음성 피드백부(708) 및 저장부(710)를 포함할 수 있다. 7, the voice recognition image feedback apparatus of the present embodiment includes a
음성 인식부(702)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성이 전달하는 사용자의 요청을 파악한다. 이러한 음성 인식부(702)는 음성 인식과 관련된 기능을 담당한다. The
위치 추적부(704)는 상기 음성 인식 영상 피드백 장치로 입력되는 음성의 방향으로 하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(704)는 위치 추적과 관련된 기능을 담당한다. The
영상 피드백부(706)는 상기 음성에 해당하는 영상을 사용자에게 제공할 수 있다. 예를 들어, 영상 피드백부(706)는 빔 프로젝터일 수 있다. 이러한 영상 피드백부(706)는 영상 제공과 관련된 기능을 담당한다. The
음성 피드백부(708)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. 예를 들어, 음성 피드백부(708)는 스피커를 포함할 수 있다. 이러한 음성 피드백부(708)는 음성 제공과 관련된 기능을 담당한다. The
저장부(710)는 음성, 영상 등의 각종 정보를 저장한다. The
제어부(700)는 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다. The
위에 도시하지 않았지만, 상기 음성 인식 영상 피드백 장치는 환경 설정부 등을 더 포함할 수 있다. Although not shown, the voice recognition image feedback apparatus may further include an environment setting unit and the like.
상기 환경 설정부는 상기 음성 인식 영상 피드백 장치의 환경을 설정하며, 예를 들어 사용자, 사용자 음성 등을 등록할 수 있다. The environment setting unit sets an environment of the voice recognition image feedback apparatus, and can register, for example, a user, a user voice, and the like.
도 8은 본 발명의 제 3 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. FIG. 8 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a third embodiment of the present invention.
도 8을 참조하면, 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S800). 예를 들어, 상기 음성 인식 영상 피드백 장치는 사용자의 음성에 포함된 자연어들을 추출하고, 상기 추출된 자연어들을 분석하여 사용자의 명령, 요청 등을 인식한다. Referring to FIG. 8, the speech recognition image feedback apparatus recognizes the user's voice (S800). For example, the speech recognition image feedback apparatus extracts natural words included in a user's voice and analyzes the extracted natural words to recognize a user's command, request, and the like.
이어서, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성으로부터 잡음을 제거한다(S802). Then, the speech recognition image feedback apparatus removes noise from the recognized speech (S802).
예를 들어, 여러 사람 소리가 수신되는 경우, 상기 음성 인식 영상 피드백 장치는 가장 큰 소리로 수신된 음성을 사용자의 음성으로 인식하고, 나머지 음성은 필터링하여 제거할 수 있다. For example, when a plurality of sounds are received, the voice recognition image feedback device may recognize the voice received with the loudest voice as a voice of the user and filter out the remaining voice.
다른 예로, TV 등의 타 기기로부터의 사운드가 수신된 경우, 상기 음성 인식 영상 피드백 장치는 기계음을 필터링하여 제거하고 사람의 음성만을 사용자의 음성으로 인식할 수 있다. As another example, when a sound from another apparatus such as a TV is received, the speech recognition image feedback apparatus can filter and remove the mechanical sound, and recognize only the human voice as the user's voice.
물론, 이 경우에도 다양한 소리들 중 가장 큰 소리로 수신되는 음성을 사용자의 음성으로 인식할 수도 있다. Of course, in this case, the user can also recognize the voice which is received as the loudest sound among various sounds.
즉, 잡음은 사용자의 음성을 제외한 모든 사운드이며, 상기 사운드는 필터링 제거된다. That is, the noise is all sounds except the user's voice, and the sound is filtered out.
계속하여, 상기 음성 인식 영상 피드백 장치는 사용자의 위치를 추적한다(S804). 예를 들어, 상기 음성 인식 영상 피드백 장치는 상기 사용자의 음성이 입력된 방향으로 하여 사용자의 위치를 추적할 수 있다. Subsequently, the speech recognition image feedback apparatus tracks the position of the user (S804). For example, the voice recognition image feedback apparatus may track a user's position in a direction in which the voice of the user is input.
즉, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향에서 상기 음성의 크기를 기초로 상기 사용자의 위치를 추적할 수 있다. That is, the voice recognition image feedback apparatus can track the position of the user based on the size of the voice in the direction in which the voice is input.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치는 사용자의 음성이 입력된 방향으로 상기 사용자 위치 추적 소자를 위치시킨 상태에서 상기 사용자 위치 추적 소자를 이용하여 사용자의 위치를 추적할 수도 있다. According to another embodiment, the voice recognition image feedback apparatus may track the position of the user using the user position tracking element while the user position tracking element is positioned in the direction in which the user's voice is input.
여기서, 상기 사용자의 음성이 입력된 방향은 가장 큰 세기로 입력되는 음성이 입력되는 방향일 수 있다. 사용자가 음성을 출력하면 다양한 방향에서 상기 음성 인식 영상 피드백 장치의 마이크로 입력될 수 있는데, 상기 음성 인식 영상 피드백 장치는 상기 방향들 중 가장 큰 소리로 입력되는 음성의 방향을 상기 음성이 입력된 방향으로 결정할 수 있다. Here, the direction in which the user's voice is input may be the direction in which the voice input with the strongest intensity is input. When the user outputs a voice, the voice recognition image feedback apparatus can micro-input the voice recognition image feedback apparatus in various directions. The voice recognition image feedback apparatus adjusts the direction of the voice inputted with the loudest sound among the directions, You can decide.
이어서, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 상기 음성에 해당하는 영상을 출력할 수 있으며, 예를 들어 빔 프로젝션할 수 있다. 물론, 상기 영상뿐만 아니라 해당 사운드(음성 피드백)도 함께 출력될 수 있다. Then, the voice recognition image feedback apparatus can output an image corresponding to the voice to a user's peripheral region corresponding to the tracked user's position, and can perform beam projection, for example. Of course, not only the image but also the corresponding sound (spoken feedback) can be output together.
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 입력되는 다양한 소리들 중 사용자의 음성을 제외한 나머지는 잡음으로서 필터링 제거하고, 그런 후 상기 사용자의 음성에 해당하는 영상을 상기 사용자 주변 위치 영역으로 제공할 수 있다. In summary, the speech recognition image feedback apparatus of the present embodiment filters out the remaining sounds except the user's voice as noise, and then provides an image corresponding to the user's voice to the user peripheral location area .
도 9는 본 발명의 제 4 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 9 is a flowchart illustrating an operation of the system for providing speech recognition image feedback according to the fourth embodiment of the present invention.
도 9를 참조하면, 사용자의 음성을 음성 인식 영상 피드백 장치 또는 외부 컴퓨팅 장치(예를 들어, 클라우드 서버)에 미리 등록할 수 있다(S900). Referring to FIG. 9, a user's voice may be registered in advance in a voice recognition image feedback device or an external computing device (for example, a cloud server) (S900).
일반적으로, 상기 음성 인식 영상 피드백 장치가 가정 내 또는 회사 내에서 사용될 가능성이 높으므로, 상기 음성 인식 영상 피드백 장치를 사용할 가능성이 있는 사용자들의 음성을 미리 등록하거나 사용자 자체를 등록할 수 있다. In general, since the speech recognition image feedback apparatus is highly likely to be used in the home or in the company, it is possible to register the voice of users who are likely to use the speech recognition image feedback apparatus in advance or register the user itself.
이어서, 상기 음성 인식 영상 피드백 장치는 다수의 사람들 중 사용자의 음성을 인식할 수 있다(S902 및 S904). 예를 들어, 다수 사람들의 음성이 상기 음성 인식 영상 피드백 장치로 입력되는 경우, 상기 음성 인식 영상 피드백 장치는 상기 입력된 음성들 중 미리 등록된 음성이 있는 지를 파악하고, 미리 등록된 음성이 존재하면 해당 음성을 사용자의 음성으로 인식할 수 있다. 여기서, 상기 음성의 비교는 음성 신호의 파형의 일치 여부를 통하여 이루어질 수 있다. Then, the speech recognition image feedback apparatus can recognize the user's voice among a plurality of people (S902 and S904). For example, when a plurality of people's voice is input to the voice recognition image feedback apparatus, the voice recognition image feedback apparatus determines whether there is a voice registered in advance among the input voices, It is possible to recognize the voice as a voice of the user. Here, the comparison of the voices can be made through the coincidence of the waveforms of the voice signals.
한편, 상기 입력된 음성들 중 2개 이상의 미리 등록된 음성들이 존재하는 경우, 상기 음성 인식 영상 피드백 장치는 상기 미리 등록된 음성들 중 가장 큰 소리로 입력된 음성을 사용자의 음성으로 결정할 수 있다. On the other hand, if there are two or more pre-registered voices among the input voices, the voice recognition image feedback device can determine the voice inputted with the loudest sound among the pre-registered voices as the user's voice.
다른 실시예에 따르면, 사용자의 음성이 아닌 사용자가 기등록된 경우, 상기 음성 인식 영상 피드백 장치는 상기 음성들을 입력된 사용자들 중 기등록된 사용자가 있는 지를 파악하고, 기등록된 사용자의 음성을 사용자의 음성으로 결정할 수 있다. According to another embodiment, when a user other than the user's voice is previously registered, the voice recognition image feedback device determines whether there is a pre-registered user among the users who input the voices, It can be determined by the user's voice.
예를 들어, 사용자가 "나 철수인데, 날씨 보여줘"라고 음성 인식하면, 상기 음성 인식 영상 피드백 장치는 "철수"가 기등록된 사용자인지의 여부를 파악하고, 기등록된 사용자이면 상기 입력된 음성을 상기 사용자의 음성으로 결정할 수 있다. For example, when the user recognizes the voice as "I am withdrawn, and the weather is shown", the voice recognition image feedback device determines whether or not the user is a registered user, and if the user is a registered user, As the voice of the user.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적할 수 있다(S906).Subsequently, the speech recognition image feedback apparatus can track the position of the user in the direction in which the voice is input (S906).
이어서, 상기 음성 인식 영상 피드백 장치는 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상을 제공할 수 있다(S908).Then, the speech recognition image feedback apparatus can provide the image to the user peripheral location area corresponding to the tracked user's location (S908).
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 음성 또는 사용자를 미리 등록하고, 상기 등록에 기초하여 사용자의 음성을 결정하고, 상기 결정된 사용자의 음성에 해당하는 영상을 사용자에게 제공할 수 있다. 따라서, 기등록된 사용자가 아닌 타인의 음성 인식 영상 피드백 제공 시스템의 사용을 방지할 수 있다. In summary, the voice recognition image feedback system of the present embodiment can register a voice or a user in advance, determine the voice of the user based on the registration, and provide the user with an image corresponding to the determined voice of the user. Accordingly, it is possible to prevent the use of the voice recognition image feedback providing system of the non-registered user.
다른 실시예에 따르면, 다수의 사용자들 중 한명을 인식하기 위하여 시선 인식 방법을 사용할 수 있다. 상기 음성 인식 영상 피드백 장치로 음성 명령을 제공한 사용자는 상기 명령시 상기 음성 인식 영상 피드백 장치를 보고 있을 가능성이 높다. 따라서, 상기 음성 인식 영상 피드백 장치는 예를 들어 카메라를 이용하여 사용자들의 시선을 검출하고, 상기 음성 인식 영상 피드백 장치를 바라보고 있다고 검출된 사용자에게 영상을 제공할 수 있다.According to another embodiment, a gaze recognition method can be used to recognize one of a plurality of users. A user who has provided a voice command to the voice recognition image feedback apparatus is likely to be watching the voice recognition image feedback apparatus at the time of the command. Accordingly, the voice recognition image feedback apparatus can detect the user's gaze using, for example, a camera, and provide the detected image to the user who is looking at the voice recognition image feedback apparatus.
일 예로, 상기 음성 인식 영상 피드백 장치는 카메라로 상기 음성이 입력된 방향의 영상을 획득하고, 상기 획득된 영상에서 사용자들을 식별하며, 상기 식별된 사용자들의 눈 부분을 다양한 알고리즘을 이용하여 추출하여 상기 음성 인식 영상 피드백 장치를 직접적으로 바라보는 사용자를 추출할 수 있다.For example, the voice recognition image feedback device may acquire an image of a direction in which the voice is input by a camera, identify users in the obtained image, extract an eye part of the identified users using various algorithms, It is possible to extract a user who directly observes the speech recognition image feedback device.
한편, 상기 음성 인식 영상 피드백 장치를 바라보는 사용자들이 복수인 경우, 상기 음성 인식 영상 피드백 장치는 가장 직접적으로 상기 음성 인식 영상 피드백 장치를 바라보는 사용자를 영상이 제공될 사용자로 결정할 수도 있고, 소정 기준치 이상으로 상기 음성 인식 영상 피드백 장치를 바라본다고 검출된 사용자들 모두에게 영상을 순차적으로 또는 동시에 제공할 수도 있다. Meanwhile, when there are a plurality of users viewing the voice recognition image feedback device, the voice recognition image feedback device may directly determine a user who views the voice recognition image feedback device as a user to be provided with an image, Thus, it is possible to sequentially or simultaneously provide the images to all the users detected to view the voice recognition image feedback apparatus.
예를 들어, 상기 음성 인식 영상 피드백 장치는 영상 피드백부를 회전시키거나 힌지 구조의 영상 피드백부를 상하로 움직이게 하여 상기 검출된 사용자들에게 상기 영상을 순차적으로 제공할 수 있다. For example, the voice recognition image feedback apparatus may rotate the image feedback unit or move the image feedback unit of the hinge structure up and down, thereby sequentially providing the images to the detected users.
다른 예로, 상기 음성 인식 영상 피드백 장치가 복수의 영상 피드백부들을 포함하고 있는 경우, 상기 영상 피드백부들을 통하여 동일한 영상을 상기 검출된 사용자들에게 동시에 제공할 수도 있다.As another example, when the speech recognition image feedback apparatus includes a plurality of image feedback units, the same image may be simultaneously provided to the detected users through the image feedback units.
도 10은 본 발명의 제 5 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 10 is a flowchart illustrating an operation of the system for providing speech recognition image feedback according to the fifth embodiment of the present invention.
*도 10을 참조하면, 음성 인식 영상 피드백 장치가 사용자의 음성을 인식하고 인식된 음성의 내용을 분석할 수 있다(S1000).Referring to FIG. 10, the speech recognition image feedback apparatus recognizes the user's speech and analyzes the recognized speech contents (S1000).
상기 음성 인식 영상 피드백 장치는 상기 분석에 따라 상기 사용자의 음성이 복수 결과(내용)를 포함하고 있는 지의 여부를 판단한다(S1002). The voice recognition image feedback apparatus determines whether the voice of the user includes a plurality of results (content) according to the analysis (S1002).
예를 들어, 사용자가 "학교 앨범 보여줘"라고 상기 음성 인식 영상 피드백 장치로 음성을 입력할 수 있다. 이 경우, "학교 앨범"으로는 초등학교 앨범, 중학교 앨범, 고등학교 앨범 또는 대학교 앨범이 존재할 수 있다. 즉, 복수의 결과들이 사용자에게 제시 가능할 수 있다. For example, the user can input a voice with the voice recognition image feedback device as "Show school album ". In this case, the "school album" may be an elementary school album, a middle school album, a high school album, or a university album. That is, a plurality of results can be presented to the user.
따라서, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성이 복수의 결과들을 포함하고 있는 지의 여부를 판단한다. Accordingly, the speech recognition image feedback apparatus determines whether or not the recognized speech includes a plurality of results.
상기 인식된 음성이 단일 결과만을 포함하는 경우, 즉 사용자의 요청이 명확한 경우에는, 상기 음성 인식 영상 피드백 장치는 사용자의 위치를 추적하고(S1006), 추적된 위치로 영상 피드백을 제공할 수 있다(S1008).If the recognized voice contains only a single result, that is, if the user's request is clear, the voice recognition image feedback device may track the location of the user (S1006) and provide image feedback to the tracked location ( S1008).
반면에, 상기 인식된 음성이 복수 결과들을 포함하는 경우, 어느 결과를 영상으로 제공하여야 할지 판단하기 어렵다. 따라서, 상기 음성 인식 영상 피드백 장치는 상기 사용자에게 복수 결과들의 선택을 상기 사용자에게 문의할 수 있다(S1004). On the other hand, when the recognized voice includes a plurality of results, it is difficult to determine which result should be provided as an image. Therefore, the speech recognition image feedback apparatus can inquire the user about selection of a plurality of results (S1004).
예를 들어, 상기 음성 인식 영상 피드백 장치는 사운드 또는 영상으로 복수의 결과들 중 원하는 결과의 선택을 요청할 수 있다. 이 때, 사용자는 음성으로 원하는 결과를 선택하거나 디스플레이 소자를 통하여 원하는 결과를 선택할 수 있다. For example, the speech recognition image feedback device may request a selection of a desired one of a plurality of results as a sound or an image. At this time, the user can select the desired result by voice or select the desired result through the display element.
계속하여, 상기 사용자가 원하는 결과를 선택하면, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적하고(S1006), 추적된 위치로 상기 결과에 해당하는 영상을 제공할 수 있다(S1008).When the user selects a desired result, the voice recognition image feedback apparatus tracks the position of the user in the direction in which the voice is input (S1006), and provides the image corresponding to the result to the tracked position (S1008).
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 복수 결과들을 내포한 사용자의 음성이 입력되면, 사용자에게 원하는 결과를 선택하게 한 후, 상기 결과에 해당하는 영상을 상기 사용자에게 제공할 수 있다. In summary, the speech recognition image feedback system of the present embodiment allows a user to select a desired result when a user's voice containing a plurality of results is input, and then provide the user with an image corresponding to the result.
위에서는 사용자의 음성이 복수의 결과들을 포함할 때의 서비스 제공 방법을 언급하였으나, 상기 사용자의 음성에 따른 내용(요청)이 파악되지 않을 수도 있다. 이 경우, 상기 음성 인식 영상 피드백 장치는 상기 사용자가 원하는 결과를 파악하기 어려우니 명확한 내용을 다시 입력해달라고 요청할 수 있다. Although the above description refers to a service providing method when a user's voice includes a plurality of results, the contents (request) according to the user's voice may not be grasped. In this case, the voice recognition image feedback apparatus can not easily grasp the desired result by the user, so that the user can request the user to input definite contents again.
여기서, 상기 음성의 내용을 파악하기 어려운 경우는 사용자가 "철수야 놀자"와 같이 영상 제공과 전혀 관련없는 음성을 입력하는 경우, 사용자가 "철수야 드다다다"과 같이 요청과 관련된 단어가 사전에 존재하지 않는 경우, 사용자가 "앨범 보여줄래? 말래?"와 같이 요청이 불명확한 경우, 상기 음성이 상기 음성 인식 영상 피드백 장치에 제한된 단어로 등록된 단어를 포함하는 경우, 음성에 포함된 요청이 상기 음성 인식 영상 피드백 장치가 제공할 수 없는 요청인 경우 등을 포함할 수 있다. Here, when it is difficult to grasp the contents of the voice, when a user inputs a voice which is not related to the provision of a picture, such as "Let's play, If the user does not exist, the request is unclear such as "Would you like to show an album? &Quot;, and if the voice contains a word registered as a limited word in the voice recognition image feedback device, A case in which the voice recognition image feedback apparatus can not provide the request, and the like.
즉, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 상기 사용자의 음성이 복수의 결과들을 포함하거나 상기 음성 인식 영상 피드백 장치가 상기 음성의 내용을 파악하기 어려운 경우, 사용자에게 새로운 입력을 요청할 수 있다. 상기 새로운 입력은 결과의 선택이거나 새로운 음성 입력일 수 있다. That is, the voice recognition image feedback system of the present embodiment can request a new input to the user when the voice of the user includes a plurality of results or when the voice recognition image feedback apparatus is difficult to grasp the contents of the voice. The new input may be a selection of results or a new voice input.
위에서는, 사용자가 복수의 결과들에 대하여 특정 결과를 선택하는 방식이었으나, 원하는 결과가 상기 음성 인식 영상 피드백 장치에 미리 등록되어 있을 수도 있다. 결과적으로, 사용자가 특정 결과를 선택하지 않아도 상기 특정 결과를 포함하는 영상이 상기 사용자게에 제공될 수 있다. In the above, the user has selected a specific result for a plurality of results, but a desired result may be registered in advance in the speech recognition image feedback device. As a result, an image including the specific result can be provided to the user even if the user does not select a specific result.
구체적으로는, 상기 음성 인식 영상 피드백 장치는 원하는 결과를 자체 내의 메모리 또는 외부 컴퓨팅 장치에 미리 등록할 수 있다. 예를 들어, 상기 음성 인식 영상 피드백 장치는"앨범" 단어에 "고등학교 앨범"을 매칭시켜 등록할 수 있다. Specifically, the speech recognition image feedback apparatus can register a desired result in its own memory or an external computing device in advance. For example, the speech recognition image feedback device may register a "high school album" to match the word "album ".
즉, 상기 음성 인식 영상 피드백 장치는 특정 단어, 문구 또는 문장에 대하여 원하는 결과를 미리 등록할 수 있다. 상기 특정 단어, 문구 또는 문장의 등록은 사용자가 음성으로 지정함에 의해 이루어질 수 있고 디스플레이 소자를 직접 조작하여 이루어질 수도 있다. That is, the speech recognition image feedback apparatus can register a desired result in a specific word, phrase or sentence in advance. The registration of the specific word, phrase or sentence may be made by the user designating by voice and may be performed by directly manipulating the display element.
따라서, 상기 음성 인식 영상 피드백 장치는 예를 들어 사용자가 "학교 앨범 보여줘"라는 음성이 입력되었을 때 "앨범"이 "고등학교 앨범"을 지칭한다는 것을 인식할 수 있다. Therefore, the speech recognition image feedback apparatus can recognize that, for example, when the user inputs a voice of "show school album", "album" refers to "high school album".
이어서, 상기 음성 인식 영상 피드백 장치는 음성이 입력된 방향으로 하여 사용자의 위치를 추적하고, 상기 추적된 위치에 해당하는 사용자 주변 위치 영역으로 상기 음성에 해당하는 영상, 즉 원하는 결과를 포함하는 영상을 출력할 수 있다. The voice recognition image feedback apparatus tracks the position of the user in the direction in which the voice is input, and displays an image corresponding to the voice, i.e., an image including a desired result, in a user's peripheral region corresponding to the tracked position Can be output.
한편, 원하는 결과의 등록은 사용자별로 이루어질 수 있다. 예를 들어, 사용자 A는 "앨범"을 "고등학교 앨범"으로 매칭시켜 등록할 수도 있지만, 사용자 B는 "앨범"을 "대학교 앨범"에 매칭시켜 등록할 수 있다. On the other hand, the registration of the desired result can be done on a user-by-user basis. For example, user A may match "album" to "high school album", but user B may register "album" to match "university album".
즉, 동일한 단어에 대하여 사용자별로 다른 결과가 매칭될 수 있다. 이 경우에는, 상기 음성 인식 영상 피드백 장치는 음성 입력시 상기 음성에 해당하는 사용자를 먼저 파악하고, 상기 파악된 사용자에 해당하는 결과를 선택하여 사용자에게 제공할 수 있다.That is, different results may be matched for different users for the same word. In this case, the voice recognition image feedback apparatus can recognize a user corresponding to the voice at the time of voice input, select a result corresponding to the recognized user, and provide the selected result to the user.
도 11은 본 발명의 제 6 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 11 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a sixth embodiment of the present invention.
도 11을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치가 사용자의 음성을 인식한다(S1100).Referring to FIG. 11, the speech recognition image feedback apparatus of the present embodiment recognizes the user's voice (S 1100).
이어서, 상기 음성 인식 영상 피드백 장치가 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S1102). Then, the voice recognition image feedback apparatus tracks the position of the user in the direction in which the voice is input (S1102).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공한다(S1104). Subsequently, the speech recognition image feedback apparatus provides image feedback to a user peripheral location area corresponding to the tracked user's position (S1104).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 사용자의 위치를 다시 추적한다(S1106). Then, the speech recognition image feedback apparatus tracks the position of the user again (S1106).
사용자가 음성 출력한 위치에 고정적으로 위치한다면 사용자의 위치를 다시 추적할 필요가 없지만, 상기 사용자가 다른 위치로 이동할 수 있다. 이 경우에는, 상기 사용자의 위치를 다시 추적하여야만, 상기 사용자가 위치한 지점의 주변 영역으로 영상 피드백을 제공할 수 있다. If the user is stationary at a location where he or she has output audio, it is not necessary to trace the location of the user again, but the user can move to another location. In this case, the position of the user is tracked again, so that the image feedback can be provided to the peripheral region of the point where the user is located.
따라서, 상기 음성 인식 영상 피드백 장치는 상기 사용자의 위치를 지속적으로 추적할 수 있다. Accordingly, the speech recognition image feedback apparatus can continuously track the position of the user.
여기서, 상기 사용자의 위치 추적은 지속적으로 입력되는 사용자의 음성 분석을 통하여 이루어질 수도 있다. 즉, 사용자가 이동하여 음성을 출력하면, 사용자가 이동한 방향에서 음성이 상기 음성 인식 영상 피드백 장치로 입력될 것이다. 따라서, 상기 음성 인식 영상 피드백 장치는 사용자의 음성을 지속적으로 추적하여 상기 사용자의 위치를 실시간으로 추적할 수 있다. 물론, 상기 사용자의 위치 추적은 카메라로 영상을 촬영함에 의해 수행될 수도 있다. Here, the location tracking of the user may be performed through voice analysis of the user continuously input. That is, when the user moves and outputs a voice, a voice will be input to the voice recognition image feedback device in the direction in which the user has moved. Accordingly, the voice recognition image feedback apparatus can continuously track the user's voice and track the location of the user in real time. Of course, the tracking of the user's position may be performed by photographing the image with a camera.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 사용자가 타위치로 이동한 경우 상기 타위치로 영상 피드백을 제공한다(S1108). When the user moves to another position, the voice recognition image feedback apparatus provides image feedback to the other position (S1108).
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 사용자의 위치를 지속적으로 추적하여 사용자의 현재 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공할 수 있다. 결과적으로, 상기 사용자가 이동하면 상기 영상도 이동하여 제공되게 된다. In summary, the speech recognition image feedback system of the present embodiment can continuously track the position of the user and provide the image feedback to the user's peripheral region corresponding to the current position of the user. As a result, when the user moves, the image is also moved and provided.
위에서는, 영상 피드백 제공(S1104) 후에 사용자의 위치가 재추적되었지만, S1104 전에 사용자의 위치가 재추적될 수도 있다. In the above, although the position of the user is retraced after the provision of the image feedback (S1104), the position of the user may be retraced before S1104.
물론, 위에서는 사용자의 위치 재추적이라고 언급하였지만, 사용자 위치 추적 소자는 음성 인식된 후 영상 피드백의 제공이 종료될 때까지 사용자의 위치를 지속적으로 추적할 수 있다. 결과적으로, 사용자가 어느 위치에 있던 사용자에게 영상 피드백이 효율적으로 제공될 수 있다. Of course, although the above is referred to as the location retrace of the user, the user location tracking device can continuously track the user's position until the provision of the image feedback is finished after speech recognition. As a result, image feedback can be efficiently provided to the user at any position of the user.
도 12는 본 발명의 제 7 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 12 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to a seventh embodiment of the present invention.
도 12를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S1200).Referring to FIG. 12, the speech recognition image feedback apparatus of the present embodiment recognizes the user's voice (S1200).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성에 대하여 자연어 분석을 수행하고, 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S1202).Then, the speech recognition image feedback apparatus performs a natural language analysis on the recognized speech, and tracks the location of the user in the direction in which the speech is input (S1202).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 자연어 분석 결과에 따라 영상 피드백이 제공될 지의 여부를 판단한다(S1204). Subsequently, the speech recognition image feedback apparatus determines whether image feedback is to be provided according to the natural language analysis result (S1204).
상기 자연어 분석 결과 영상(영상 피드백)이 제공될 필요가 있는 경우와 영상이 제공되지 않고 사운드(음성 피드백)만 제공되어도 충분한 경우가 있을 수 있다. 따라서, 상기 음성 인식 영상 피드백 장치는 상기 자연어 분석을 통하여 영상이 제공될 필요가 있는 지의 여부를 판단한다. There may be a case where the natural language analysis result image (image feedback) needs to be provided and a case where only the sound (spoken feedback) is provided without the image is sufficient. Accordingly, the speech recognition image feedback apparatus determines whether the image needs to be provided through the natural language analysis.
상기 영상 피드백 또는 상기 음성 피드백 제공의 판단은 미리 등록된 단어, 문구 또는 문장을 기초로 하여 이루어질 수도 있고, 상기 음성에 따라 제공될 결과에 포함된 단어의 수를 기초로 하여 이루어질 수도 있으며, 상기 음성에 따른 영상이 존재하는 지의 여부를 통하여 이루어질 수도 있고, 상기 요청이 영상과 관련된 요청인 지의 여부를 통하여 이루어질 수도 있다.The determination of the image feedback or the provision of the voice feedback may be based on previously registered words, phrases or sentences, or may be based on the number of words included in the results to be provided according to the voice, Or whether the request is related to an image, or whether the request is related to an image.
상기 영상이 제공될 필요가 없다고 판단되는 경우, 상기 음성 인식 영상 피드백 장치는 영상 출력없이 사운드만을 출력할 수 있다(S1208). If it is determined that the image does not need to be provided, the voice recognition image feedback apparatus can output only the sound without outputting the image (S1208).
예를 들어, 사용자가 오늘의 날씨를 알고 싶다고 음성을 입력하면, 상기 음성 인식 영상 피드백 장치는 음성 출력만으로 사용자가 원하는 결과를 상기 사용자에게 충분히 제공될 수 있다고 결정하고 "오늘의 날씨"에 대한 정보를 음성 출력할 수 있다. For example, when the user inputs a voice to know the weather of today, the voice recognition image feedback device determines that the user can be provided with a desired result with only voice output, Can be output.
다른 예로, 상기 음성에 따른 결과에 포함된 단어의 수가 예를 들어 5000단어 이하이거나 상기 음성에 해당하는 영상이 존재하지 않을 경우, 상기 음성 인식 영상 피드백 장치는 해당 사운드만을 출력할 수 있다.As another example, if the number of words included in the result of the voice is 5000 words or less, for example, or if there is no image corresponding to the voice, the voice recognition image feedback apparatus can output only the corresponding sound.
반면에, 상기 영상이 제공될 필요가 있다고 판단되는 경우, 상기 음성 인식 영상 피드백 장치는 영상 피드백을 제공할 수 있다(S1206). 물론, 이 경우 음성 출력도 상기 영상 피드백과 함께 이루어질 수도 있다. On the other hand, if it is determined that the image needs to be provided, the voice recognition image feedback apparatus may provide image feedback (S1206). Of course, in this case, audio output may also be performed together with the image feedback.
예를 들어, 사용자가 주간 날씨를 알고 싶다고 음성을 입력하면, 상기 음성 인식 영상 피드백 장치는 주간 날씨에 대한 정보를 음성 출력으로만은 충분히 제공할 수 없다고 결정하고 "주간 날씨"에 대한 정보를 영상으로 출력할 수 있다. For example, when the user inputs a voice to know the daytime weather, the speech recognition image feedback device determines that the information on daytime weather can not be sufficiently provided by voice output, Can be output.
다른 예로, 상기 음성에 따른 결과에 포함된 단어의 수가 예를 들어 5000단어를 초과하는 경우, 상기 음성 인식 영상 피드백 장치는 해당 영상을 출력할 수 있다.In another example, when the number of words included in the result of the voice exceeds 5000 words, for example, the voice recognition image feedback apparatus can output the corresponding image.
또 다른 예로, 사용자가 "영화를 보여줘"와 같이 음성을 입력하는 경우, 즉 영상이 필수적으로 제공되어야 하는 음성 입력의 경우, 상기 음성 인식 영상 피드백 장치는 해당 영상을 사용자에게 제공할 수 있다. As another example, in the case of a user inputting a voice such as "show a movie ", that is, a voice input in which an image is essentially provided, the voice recognition image feedback apparatus can provide the corresponding image to the user.
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 분석하여 음성 피드백 또는 영상 피드백을 선택적으로 제공할 수 있다. In summary, the speech recognition image feedback apparatus of the present embodiment can selectively provide speech feedback or image feedback by analyzing the user's speech.
이 경우, 상기 음성 인식 영상 피드백 장치는 상기 음성 분석을 통하여 자동으로 음성 피드백 또는 상기 영상 피드백을 제공할 수 있다. In this case, the speech recognition image feedback apparatus can automatically provide the speech feedback or the image feedback through the speech analysis.
물론, 사용자가 음성 피드백을 원하는 지 영상 피드백을 원하는지를 명확하게 선택하여 음성 입력하거나 미리 설정한 경우에는, 상기 음성 인식 영상 피드백 장치는 상기 사용자가 선택한 방법을 통하여 관련 정보를 제공할 수 있다. Of course, if the user explicitly selects whether he or she wants the audio feedback, or if the user desires to input the audio, the voice recognition image feedback apparatus can provide the related information through the method selected by the user.
예를 들어, 사용자가 "오늘의 날씨"를 영상으로 제공해달라고 음성 입력한 경우, 상기 음성 인식 영상 피드백 장치는 "오늘의 날씨"에 대한 정보를 영상으로 사용자에게 제공할 수 있다. For example, when the user inputs a voice to provide "today's weather" as an image, the voice recognition image feedback device can provide information on "today's weather" to the user as an image.
도 13은 본 발명의 제 8 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 13 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to an eighth embodiment of the present invention.
도 13을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S1300).Referring to FIG. 13, the speech recognition image feedback apparatus of the present embodiment recognizes the user's voice (S1300).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S1302). Then, the voice recognition image feedback apparatus tracks the location of the user in the direction in which the voice is input (S1302).
계속하여, 상기 음성 인식 영상 피드백 장치는 음성 피드백을 제공하거나 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공한다(S1304).Subsequently, the speech recognition image feedback apparatus provides the audio feedback or provides the image feedback to the user peripheral region corresponding to the tracked user position (S1304).
*이어서, 상기 음성 인식 영상 피드백 장치는 영상 피드백 또는 음성 피드백을 제공한다(S1306). Next, the speech recognition image feedback apparatus provides image feedback or voice feedback (S1306).
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 음성 피드백 제공 후 영상 피드백을 순차적으로 제공하거나 영상 피드백 제공 후 음성 피드백을 순차적으로 제공할 수 있다. In summary, the speech recognition image feedback apparatus of the present embodiment can sequentially provide the image feedback after providing the audio feedback, or sequentially provide the audio feedback after providing the image feedback.
예를 들어, 사용자가 "날씨를 알려줘"라고 음성 입력한 경우, 날씨는 오늘의 날씨 및 주간 날씨를 포함할 수 있다. 이 경우, 상기 음성 인식 영상 피드백 장치는 "오늘의 날씨"를 음성 피드백으로 제공한 후 "주간 날씨"를 영상 피드백으로 제공할 수 있다. For example, if a user spoken "Tell me the weather", the weather can include today's weather and daytime weather. In this case, the speech recognition image feedback apparatus can provide " day weather "as visual feedback after providing" today's weather "
따라서, 사용자가 포괄적인 정보를 요청한 경우에도, 상기 음성 인식 영상 피드백 장치는 적절하게 정보를 음성 및 영상을 통하여 제공할 수 있다. Therefore, even when the user requests comprehensive information, the voice recognition image feedback apparatus can appropriately provide information through voice and image.
상기 포괄적인 정보의 요청은 상기 요청에 해당하는 음성과 영상이 모두 존재하는 경우, 상기 요청에 따라 복수의 결과들이 상기 사용자에게 제공되어야 할 때 상기 결과들 중 적어도 하나가 음성 피드백으로 제공되고 다른 결과는 영상 피드백으로 제공되어야 할 경우, 제 7 실시예에서의 판단 기준을 적용하였을 때 음성 피드백과 영상 피드백이 모두 제공될 수 있을 경우 등을 포함할 수 있다. Wherein the request for the comprehensive information includes at least one of the results being provided as spoken feedback when a plurality of results are to be provided to the user in response to the request, May be provided as image feedback, when both the audio feedback and the image feedback can be provided when the determination criterion in the seventh embodiment is applied, and the like.
도 14는 본 발명의 제 9 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. FIG. 14 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a ninth embodiment of the present invention.
도 14를 참조하면, 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S1400).Referring to FIG. 14, the speech recognition image feedback apparatus recognizes the user's voice (S1400).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 음성 분석, 예를 들어 상기 음성에 포함된 자연어 분석을 통하여 영상이 제공될 위치를 결정한다(S1402). 여기서, 상기 위치는 사용자의 위치가 아닌 타위치일 수 있다. 다만, 사용자가 자신의 위치를 지정한 경우에는, 상기 결정된 위치가 사용자의 위치일 수도 있다. Then, the speech recognition image feedback apparatus determines a location where the image is to be provided through the speech analysis, for example, natural language analysis included in the speech (S1402). Here, the position may be other than the position of the user. However, if the user specifies his or her own location, the determined location may be the location of the user.
예를 들어, 사용자가 "벽에 날씨를 보여줘"라고 음성 입력한 경우, 상기 음성 인식 영상 피드백 장치는 자연어 "벽"을 인식하고, "벽"을 영상이 제공될 위치로 결정할 수 있다. For example, when the user inputs a voice saying "show the weather on the wall ", the voice recognition image feedback device can recognize the natural word" wall " and determine the "wall"
다른 예로, 사용자가 "내 옆에 있는 친구에게 사진을 보여줘"라고 음성 입력한 경우, 상기 음성 인식 영상 피드백 장치는 자연어 "친구"를 인식하고, "친구"가 위치한 영역을 영상이 제공될 위치로 결정할 수 있다. As another example, when the user inputs a voice saying "Show a picture to a friend next to me ", the voice recognition image feedback device recognizes a natural word" friend " You can decide.
또 다른 예로, 사용자가 "친구들 중 한명에게 사진을 보여줘"라고 음성 입력한 경우, 상기 음성 인식 영상 피드백 장치는 문구 "친구들 중 한명"을 인식하고, 친구들 중 한명을 임의로 선택하고 상기 선택된 친구가 위치한 영역을 영상이 제공될 위치로 결정할 수 있다. As another example, if the user inputs a voice saying "show a picture to one of the friends ", the voice recognition image feedback device recognizes the phrase" one of friends ", randomly selects one of the friends, The area can be determined as the position where the image is to be provided.
*이러한 위치 결정을 구성요소 측면에서 살펴보면, 상기 음성 인식 영상 피드백 장치는 음성 분석을 위하여 단어 추출부, 단어 선택부, 위치 결정부를 포함할 수 있다. The location of the speech recognition image feedback apparatus may include a word extracting unit, a word selecting unit, and a positioning unit for voice analysis.
상기 단어 추출부는 상기 음성에 포함된 단어들을 추출한다.The word extracting unit extracts words included in the speech.
상기 단어 선택부는 상기 추출된 단어들 중에서 위치와 관련된 단어(예를 들어, 벽, 친구, 바닥)를 제외한 나머지 단어를 제거한다. 여기서, 상기 위치와 관련된 단어는 상기 음성 인식 영상 피드백 장치에 미리 등록될 수 있다. The word selecting unit removes words other than words related to the position (e.g., a wall, a friend, and a floor) from among the extracted words. Here, the word related to the position may be registered in advance in the speech recognition image feedback apparatus.
상기 위치 결정부는 상기 위치와 관련된 단어와 상기 단어와 결합된 단어, 문구 또는 문장의 조합을 통하여 영상이 제공될 위치를 결정할 수 있다. The location determination unit may determine a location where the image is to be provided through a word associated with the location and a combination of words, phrases, or sentences combined with the word.
예를 들어, "철수가 거실 바닥에 앉아있는데, 날씨를 벽면에 보여줘"라고 사용자가 음성 인식하면, 상기 위치 결정부는 상기 단어 선택부에 의해 선택된 "거실" 및 "바닥"과 이와 연결된 문구 "앉아 있는데"의 조합을 통하여 "거실 바닥"이 영상이 제공될 위치가 아님을 파악할 수 있고, 상기 단어 선택부에 의해 선택된 "벽면"과 이와 연결된 문구 "보여줘"의 조합을 통하여 상기 제공될 위치가 "벽"임을 파악할 수 있다. 따라서, 상기 음성 인식 영상 피드백 장치는 "벽"을 영상이 제공될 위치로 결정할 수 있다.For example, when the user recognizes that the user is speaking, "Show me the weather on the wall while he is sitting on the living room floor ", the location determination section sees" living room "and" Through the combination of the "living room floor" and the " show me "associated with the word " Wall ". Therefore, the speech recognition image feedback apparatus can determine the "wall" as the position where the image is to be provided.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 결정된 위치로 영상 피드백을 제공할 수 있다(S1404). Subsequently, the speech recognition image feedback apparatus can provide image feedback to the determined position (S1404).
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자가 음성을 통하여 지정한 위치, 예를 들어 사용자의 위치가 아닌 타 위치로 영상 피드백을 제공할 수 있다. In summary, the speech recognition image feedback apparatus of the present embodiment can provide image feedback to a position designated by the user through voice, for example, a position other than the position of the user.
이하, 상기 음성 인식 영상 피드백 장치의 전원 동작과 관련된 실시예들을 첨부된 도면들을 참조하여 살펴보겠다. Hereinafter, embodiments related to power operation of the voice recognition image feedback apparatus will be described with reference to the accompanying drawings.
*도 15는 본 발명의 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다. 15 is a block diagram illustrating a configuration of a speech recognition image feedback apparatus according to another embodiment of the present invention.
도 15를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(1500), 음성 인식부(1502), 위치 추적부(1504), 모드부(1506), 전원부(1508), 영상 피드백부(1510), 음성 피드백부(1512) 및 저장부(1514)를 포함할 수 있다. 15, the voice recognition image feedback apparatus of the present embodiment includes a
음성 인식부(1502)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다. 이러한 음성 인식부(1502)는 음성 인식과 관련된 기능을 담당한다. The
위치 추적부(1504)는 상기 음성 인식 영상 피드백 장치로 입력되는 음성의 방향으로 하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(1504)는 위치 추적과 관련된 기능을 담당한다.The
모드부(1506)는 sleep 모드, active 모드,통화 모드 등 모드와 관련된 모든 기능을 관리한다. 특히, 모드부(1506)는 전원 제어를 위한 모드를 제어할 수 있다. The
전원부(1508)는 상기 음성 인식 영상 피드백 장치의 구성요소들로의 전원 공급을 관리한다. The
영상 피드백부(1510)는 상기 음성에 해당하는 영상을 사용자에게 제공할 수 있다. 이러한 영상 피드백부(1510)는 영상 제공과 관련된 기능을 담당한다. The
음성 피드백부(1512)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. 예를 들어, 음성 피드백부(1512)는 스피커를 포함할 수 있다. 이러한 음성 피드백부(1512)는 음성 제공과 관련된 기능을 담당한다. The
저장부(1514)는 음성, 영상 등의 각종 정보를 저장한다. The
제어부(1500)는 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.The
도 16은 본 발명의 제 10 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 16 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to a tenth embodiment of the present invention.
도 16을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 sleep mode에서 그의 주변에 사람이 있는 지의 여부를 감지한다(S1600). Referring to FIG. 16, the voice recognition image feedback apparatus of the present embodiment detects whether there is a person around the voice recognition image feedback apparatus in the sleep mode (S1600).
여기서, 상기 sleep mode는 상기 사람을 감지하는 감지 소자(예를 들어, 인체 감지 소자 또는 움직임 감지 소자) 및 이의 동작을 관리하는 프로세서의 일부를 제외한 나머지 구성요소들이 오프(Off)된 상태를 의미한다. Herein, the sleep mode refers to a state in which the remaining elements except for a sensing element (for example, a human body sensing element or a motion sensing element) for sensing the person and a part of the processor for managing the motion are off .
음성을 입력할 사용자가 없다면 에너지 절약을 위해서 상기 음성 인식 영상 피드백 장치가 온(On)되어 있을 필요가 없기 때문에, 평상시에는 상기 음성 인식 영상 피드백 장치는 sleep mode로 존재한다. If there is no user to input a voice, the voice recognition image feedback apparatus does not have to be turned on to save energy, so that the voice recognition image feedback apparatus normally exists in a sleep mode.
이어서, 사람이 감지되는 경우, 상기 음성 인식 영상 피드백 장치가 sleep mode에서 active mode로 전환되며, 즉 활성화된다(S1602). 즉, 상기 음성 인식 영상 피드백 장치의 모든 구성요소들이 음성 인식하고 영상 피드백을 제공할 수 있도록 턴-온될 수 있다. Then, when a person is detected, the voice recognition image feedback apparatus is switched from the sleep mode to the active mode, i.e., activated (S1602). That is, all components of the speech recognition image feedback device may be turned on to recognize speech and provide image feedback.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치의 구성요소들 중 음성 인식과 관련된 구성요소들은 턴-온되되, 영상 피드백과 관련된 구성요소들은 오프 상태이거나 대기 모드(Standby mode)일 수도 있다. 상기 영상 피드백과 관련된 구성요소들은 사용자의 음성이 인식되었을 때 턴-온될 수도 있다. According to another embodiment, among the components of the speech recognition image feedback apparatus, the components related to speech recognition are turned on, while the components related to the image feedback may be in an off state or in a standby mode. The components associated with the image feedback may be turned on when the user's voice is recognized.
계속하여, 상기 음성 인식 영상 피드백 장치가 사용자의 음성을 인식한다(S1604). Subsequently, the speech recognition image feedback apparatus recognizes the user's voice (S1604).
이어서, 상기 음성 인식 영상 피드백 장치는 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S1606).Then, the voice recognition image feedback apparatus tracks the position of the user in the direction in which the voice is input (S1606).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공한다(S1608). Subsequently, the speech recognition image feedback apparatus provides image feedback to a user peripheral location area corresponding to the tracked user position (S1608).
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 주변에 사용자가 감지되기 전에는 sleep mode로 존재하다가 사용자 감지되었을 때에 active mode로 전환될 수 있다. 결과적으로, 불필요한 전력 낭비가 방지될 수 있다. In summary, the voice recognition image feedback apparatus of the present embodiment exists in the sleep mode before the user is perceived in the vicinity, and can be switched to the active mode when the user is detected. As a result, unnecessary power dissipation can be prevented.
다른 실시예에 따르면, 사용자 감지 방식이 아닌 상기 음성 인식 영상 피드백 장치가 존재하는 공간에 특정 소자, 예를 들어 조명이 활성화되었을 때 상기 음성 인식 영상 피드백 장치가 sleep mode에서 active mode로 전환될 수도 있다. According to another embodiment, the voice recognition image feedback device may be switched from the sleep mode to the active mode when a specific device such as illumination is activated in a space in which the voice recognition image feedback device is not used .
도 17은 본 발명의 제 11 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 17 is a flowchart illustrating an operation of the system for providing speech recognition image feedback according to the eleventh embodiment of the present invention.
도 17을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치가 사용자의 음성을 인식한다(S1700). 이 경우, 상기 음성 인식과 관련된 구성요소를 제외한 상기 음성 인식 영상 피드백 장치의 나머지 구성요소들은 오프 상태일 수 있으며, 즉 sleep mode일 수 있다. Referring to FIG. 17, the speech recognition image feedback apparatus of the present embodiment recognizes the user's voice (S1700). In this case, the remaining components of the speech recognition image feedback device except the components related to the speech recognition may be in an off state, i.e., in a sleep mode.
이어서, 상기 음성 인식 영상 피드백 장치는 나머지 구성요소들을 활성화시킬 지의 여부를 판단한다(S1702). Then, the voice recognition image feedback apparatus determines whether to activate the remaining components (S1702).
예를 들어, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성이 기등록된 음성에 해당하는 지의 여부를 판단할 수 있다. 즉, 상기 음성 인식 영상 피드백 장치가 모든 사용자들을 위해 영상 피드백을 제공할 필요는 없으며, 기등록된 사용자를 위해서만 영상 피드백을 제공할 수 있다. For example, the voice recognition image feedback apparatus can determine whether the recognized voice corresponds to the pre-registered voice. That is, the speech recognition image feedback device need not provide image feedback for all users, and can provide image feedback only for previously registered users.
따라서, 이 경우에는 기등록된 사용자의 음성이 감지되지 않을 때에는 상기 나머지 구성요소들을 턴-온시킬 필요가 없으며, 에너지 절약을 위하여 기등록된 사용자의 음성이 감지되었을 때에만 상기 나머지 구성요소들을 턴-온시키는 것이 효율적이다. Therefore, in this case, when the voice of the pre-registered user is not detected, it is not necessary to turn on the remaining constituent elements. In order to save energy, only when the voice of the pre-registered user is detected, - It is efficient to turn on.
상기 인식된 음성이 기등록된 음성이 아니면, 상기 음성 인식 영상 피드백 장치는 sleep mode를 유지한다. 즉, 상기 음성 인식과 관련된 구성요소를 제외한 나머지 구성요소들은 오프 상태를 유지한다. If the recognized voice is not a pre-registered voice, the voice recognition image feedback device maintains a sleep mode. That is, the remaining components except for the components related to the voice recognition remain in the off state.
반면에, 상기 인식된 음성이 기등록된 음성이면, 상기 음성 인식 영상 피드백 장치의 나머지 구성요소들이 턴-온되고(active mode), 즉 상기 나머지 구성요소들로 전원이 공급되며, 그런 후 상기 음성 인식 영상 피드백 장치가 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S1704). On the other hand, if the recognized voice is a pre-registered voice, the remaining components of the voice recognition image feedback device are turned on (i.e., in an active mode), that is, power is supplied to the remaining components, The recognition image feedback apparatus tracks the position of the user in the direction in which the voice is input (S1704).
계속하여, 상기 음성 인식 영상 피드백 장치가 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역에 영상 피드백을 제공한다(S1706).Subsequently, the speech recognition image feedback apparatus provides image feedback to a user peripheral location area corresponding to the tracked user position (S1706).
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 모든 사용자에 반응하여 활성화되지 않고, 기등록된 사용자에만 반응하여 활성화될 수 있다. In summary, the speech recognition image feedback apparatus of the present embodiment is not activated in response to all users, but can be activated only in response to a pre-registered user.
예를 들어, 가족 구성원들만 상기 음성 인식 영상 피드백 장치에 미리 등록하여 놓으면, 가족 외의 타인이 상기 음성 인식 영상 피드백 장치를 동작시킬 수 없다. For example, if only family members are registered in advance in the voice recognition image feedback apparatus, a person other than the family can not operate the voice recognition image feedback apparatus.
상기 음성 인식 영상 피드백 장치는 상기 가족 구성원들의 정보를 영상 피드백할 수도 있다. 결과적으로, 타인이 임의로 상기 음성 인식 영상 피드백 장치를 활성화시킬 수 있다면, 상기 가족 구성원들의 정보가 유출될 수도 있다. 따라서, 이러한 정보 유출을 차단하기 위하여, 상기 음성 인식 영상 피드백 장치는 기등록된 사용자에만 반응하여 활성화될 수 있다. The voice recognition image feedback apparatus may image-feed back information of the family members. As a result, if another person can arbitrarily activate the voice recognition image feedback device, the information of the family members may be leaked. Therefore, in order to block such information leakage, the voice recognition image feedback device can be activated in response to only the pre-registered users.
다른 실시예에 따르면, 기등록된 사용자들 중 음성 인식된 사용자를 제외한 나머지 사용자에 대한 정보는 상기 음성 인식된 사용자에 응답하여 상기 음성 인식 영상 피드백 장치가 활성화되더라도 상기 음성 인식된 사용자에게 제공되지 않을 수 있다. 즉, 사적인 정보는 본인을 제외한 나머지 사용자들에게는 제공되지 않을 수 있다. According to another embodiment, the information on the remaining users other than the voice-recognized users among the pre-registered users may be provided in response to the voice-recognized user, even if the voice-recognition image feedback apparatus is activated, . In other words, private information may not be provided to the users other than the user.
물론, 상기 음성 인식 영상 피드백 장치는 사적인 정보 외의 나머지 정보들은 기등록된 사용자들 모두에게 영상 피드백을 통하여 제공할 수 있다. Of course, the voice recognition image feedback apparatus can provide the remaining information other than the private information through image feedback to all the previously registered users.
이하, 사용자의 움직임도 감지하는 상기 음성 인식 영상 피드백 장치의 동작과 관련된 실시예들을 첨부된 도면들을 참조하여 살펴보겠다. Hereinafter, embodiments related to the operation of the voice recognition image feedback apparatus for detecting a movement of a user will be described with reference to the accompanying drawings.
도 18은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다. 18 is a block diagram illustrating the configuration of a speech recognition image feedback apparatus according to another embodiment of the present invention.
도 18을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(1800), 음성 인식부(1802), 움직임 인식부(1804), 사용자 분석부(1806), 위치 추적부(1808), 영상 피드백부(1810), 음성 피드백부(1812) 및 저장부(1814)를 포함할 수 있다. 18, the voice recognition image feedback apparatus of the present embodiment includes a
음성 인식부(1802)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다. 이러한 음성 인식부(1802)는 음성 인식과 관련된 기능을 담당한다. The
움직임 인식부(1804)는 움직임 감지 센서를 이용하여 사용자의 움직임을 파악하며, 예를 들어 사용자의 손 동작 등을 파악할 수 있다. The
사용자 분석부(1806)는 상기 파악된 사용자의 움직임을 통하여 사용자가 의도 또는 기분을 파악할 수 있다. 이렇게 파악된 사용자의 움직임에 따른 의도 또는 기분은 영상이 피드백될 위치 또는 영상의 사이즈, 색상 등을 결정하는데 보조하기 위하여 사용될 수 있다.The
위치 추적부(1808)는 상기 음성 인식 영상 피드백 장치로 입력되는 음성의 방향 또는 상기 사용자의 움직임을 통하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(1808)는 위치 추적과 관련된 기능을 담당한다.The
영상 피드백부(1810)는 상기 음성에 해당하는 영상을 사용자에게 제공할 수 있다. 이러한 영상 피드백부(1810)는 영상 제공과 관련된 기능을 담당한다. The
음성 피드백부(1812)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. 이러한 음성 피드백부(1812)는 음성 제공과 관련된 기능을 담당한다. The
저장부(1814)는 음성, 영상 등의 각종 정보를 저장한다. The
제어부(1800)는 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.The
도 19는 본 발명의 제 12 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. FIG. 19 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a twelfth embodiment of the present invention.
도 19를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성뿐만 아니라 사용자의 제스처 등의 움직임을 인식할 수 있다(S1900). 물론, 움직임 인식을 위하여는 상기 음성 인식 영상 피드백 장치가 움직임 감지 소자, 예를 들어 카메라를 포함하여야 한다. Referring to FIG. 19, the speech recognition image feedback apparatus of the present embodiment can recognize not only a user's voice but also a motion of a user's gesture or the like (S1900). Of course, for motion recognition, the speech recognition image feedback device must include a motion sensing device, e.g., a camera.
이어서, 상기 음성 인식 영상 피드백 장치는 상기 사용자의 음성이 입력된 방향 또는 움직임이 감지된 방향으로 하여 사용자의 위치를 추적할 수 있다(S1902). Then, the voice recognition image feedback apparatus can track the location of the user in a direction in which the voice of the user is input or a direction in which the motion is detected (S1902).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공할 수 있다(S1904). 이 경우, 상기 영상 피드백은 상기 사용자의 음성 및 제스처가 반영되어 제공될 수 있다. Subsequently, the speech recognition image feedback apparatus can provide image feedback to a user peripheral location area corresponding to the tracked user's position (S1904). In this case, the image feedback may be provided reflecting the voice and gesture of the user.
예를 들어, 상기 사용자가 음성으로 "벽"을 언급하지는 않았지만 손가락으로 벽을 가르키는 경우, 상기 음성 인식 영상 피드백 장치는 영상 피드백을 사용자 주변 위치 영역이 아닌 벽으로 제공할 수 있다. For example, if the user has not spoken of the "wall" as a voice but points to the wall with his finger, the speech recognition image feedback device may provide image feedback to the wall rather than the user's peripheral location area.
다른 예로, 상기 사용자가 큰 원을 손으로 그리는 경우, 상기 음성 인식 영상 피드백 장치는 상기 영상을 큰 사이즈로 제공할 수 있다. As another example, if the user draws a large circle by hand, the speech recognition image feedback device can provide the image in a large size.
즉, 상기 음성 인식 영상 피드백 장치는 음성뿐만 아니라 사용자의 움직임도 반영하여 영상 피드백을 제공할 수 있다. 따라서, 상기 음성 인식 영상 피드백 장치는 더 풍부하게 다양한 영상을 사용자에게 제공할 수 있다. That is, the voice recognition image feedback apparatus can provide image feedback by reflecting movement of the user as well as voice. Accordingly, the speech recognition image feedback apparatus can provide a richer variety of images to the user.
한편, 상기 사용자의 움직임은 음성 인식 후 인식될 수도 있고, 음성 인식과 동시에 인식될 수도 있다. Meanwhile, the motion of the user may be recognized after speech recognition or simultaneously with speech recognition.
도 20은 본 발명의 제 13 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 20 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a thirteenth embodiment of the present invention.
도 20을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S2000).Referring to FIG. 20, the speech recognition image feedback apparatus of the present embodiment recognizes the user's voice (S2000).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성을 통하여 사용자의 기분 등을 파악할 수 있다(S2002). Then, the voice recognition image feedback apparatus can grasp the user's mood and the like through the recognized voice (S2002).
일 실시예에 따르면, 상기 사용자 분석부는 상기 음성의 톤, 상기 음성에 포함된 기분을 표시하는 단어 등을 분석하는 음성 분석부 및 상기 사용자의 움직임의 크기, 기분을 표시하는 움직임 등을 분석하는 움직임 분석부를 포함할 수 있다. According to one embodiment, the user analysis unit may include a voice analysis unit for analyzing a tone of the voice, a word for expressing the mood included in the voice, and the like, and a motion analyzing unit for analyzing the size of the user, And an analysis unit.
예를 들어, 상기 사용자 분석부는 상기 음성이 낮게 가라앉아 있으면 상기 사용자의 기분을 우울이라고 결정할 수 있고, 상기 음성이 "하하"라는 웃음 소리를 포함하고 있으면 상기 사용자의 기분을 기쁨이라고 결정할 수 있다.For example, the user analysis unit may determine that the user's mood is depressed when the voice is low, and may determine the user's mood to be joyful if the voice includes a laugh sound "haha".
다른 예로, 상기 사용자 분석부는 상기 사용자의 움직임 분석에 따라 상기 사용자가 춤을 추고 있다고 감지되면 상기 사용자의 기분을 기쁨이라고 결정할 수 있고, 사용자가 흐느끼고 있다고 감지되면 상기 사용자의 기분을 슬픔이라고 결정할 수 있다. In another example, the user analysis unit may determine the user's mood as joy when the user is perceived as dancing according to the user's motion analysis, and may determine that the mood of the user is sad have.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성 외에도 사용자의 움직임, 생년월일, 사용자에 의해 직접 입력된 기분 등을 통하여서도 기분, 바이오 리듬 등을 파악할 수 있다. 여기서, 상기 바이오 리듬은 상기 음성 인식 영상 피드백 장치가 자체적으로 또는 외부 기기를 통하여 인터넷 사이트를 활성화시키고, 상기 인터넷 사이트에 생년월일을 입력함에 의해 파악될 수 있다.According to another embodiment, in addition to the recognized voice, the voice recognition image feedback apparatus can grasp the mood, biorhythm, and the like through the user's movement, date of birth, mood input directly by the user, and the like. Here, the biorhythm can be grasped by activating the Internet site by itself or through an external device, and inputting the date of birth on the Internet site.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S2004).Subsequently, the speech recognition image feedback apparatus tracks the position of the user in the direction in which the voice is input (S2004).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공한다(S2006). 이 경우, 상기 영상 피드백은 상기 사용자의 기분 등을 반영하여 제공될 수 있다. Then, the speech recognition image feedback apparatus provides image feedback to a user peripheral region corresponding to the tracked user's position (S2006). In this case, the image feedback may be provided reflecting the user's mood or the like.
예를 들어, 상기 사용자의 음성 분석을 통하여 상기 사용자의 기분이 기쁨이라고 결정되면, 상기 음성 인식 영상 피드백 장치는 더 밝은 색상의 영상을 사용자에게 제공할 수 있다. 물론, 상기 음성 인식 영상 피드백 장치는 밝고 명랑한 사운드도 영상과 함께 제공할 수도 있다. For example, if the mood of the user is determined to be pleasure through the voice analysis of the user, the voice recognition image feedback device can provide a lighter color image to the user. Of course, the speech recognition image feedback device may also provide bright and cheerful sound with the image.
반면에, 상기 사용자의 기분이 슬픔이라고 결정되면, 상기 음성 인식 영상 피드백 장치는 더 어두운 색상의 영상을 사용자에게 제공할 수 있다. 기본적으로, 상기 영상은 색상 또는 분위기 등을 제외하고는 기분이 좋을때 우울할 때와 관계없이 동일할 수 있다. On the other hand, if it is determined that the mood of the user is sad, the voice recognition image feedback apparatus can provide a darker color image to the user. Basically, the image can be the same regardless of whether it is depressed when the mood is good, except for the color or the atmosphere.
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 사용자의 음성에 따른 정보 등을 제공할 때, 사용자의 기분 등을 반영하여 상기 정보 등을 영상 또는 영상과 사운드를 통하여 제공할 수 있다. In summary, the voice recognition image feedback providing system of the present embodiment can provide the information or the like through the image, the image, and the sound by reflecting the user's mood or the like when providing information according to the user's voice.
위에서는, 상기 음성 인식 영상 피드백 장치가 음성에 포함된 요청에 따라 영상을 사용자에게 제공하였으나, 상기 요청이 없이도 영상을 상기 사용자에게 제공할 수 있다. In the above, the voice recognition image feedback apparatus provides the image to the user according to the request included in the voice, but can provide the image to the user without the request.
구체적으로는, 상기 음성 인식 영상 피드백 장치가 특정 요청을 포함하는 음성이 아닌 사용자의 일반 음성 등을 통하여 사용자의 기분을 파악하고, 상기 파악된 기분을 반영하여 영상을 상기 사용자에게 제공할 수 있다. Specifically, the voice recognition image feedback apparatus can grasp a user's mood through a general voice of a user, not a voice including a specific request, and provide the user with an image reflecting the sensed mood.
일 실시예에 따르면, 상기 음성 인식 영상 피드백 장치는 상기 음성에 포함된 단어들을 추출하고 분석하여 특정 요청이 없는 경우 일반 음성이라고 판단할 수 있다. According to one embodiment, the speech recognition image feedback apparatus extracts and analyzes words included in the speech and can determine that the speech is a general speech when there is no specific request.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치는 음성 입력 시간이 기설정 시간 이상이면 일반 음성이라고 판단할 수 있다. 사용자가 상기 음성 인식 영상 피드백 장치로 특정 요청을 입력할 경우에는 예를 들어 30초 이내의 음성일 가능성이 높으며, 따라서 30초 이상의 음성이 지속적으로 입력되면 상기 음성 인식 영상 피드백 장치는 상기 입력되는 음성을 일반 음성이라고 결정할 수 있다. According to another embodiment, the speech recognition image feedback apparatus can determine that the speech is normal speech if the speech input time is longer than a preset time. When the user inputs a specific request to the voice recognition image feedback apparatus, it is highly likely that the voice is within 30 seconds, for example. Therefore, if a voice of 30 seconds or more is continuously inputted, Can be determined as general speech.
예를 들어, 상기 사용자가 타인과 전화 통화하는 경우 30초 이상 음성이 입력될 가능성이높으며, 따라서 상기 음성 인식 영상 피드백 장치는 일반 음성이라고 결정하고 사용자의 기분을 파악하며, 파악된 기분에 맞는 영상 또는 사운드를 자동으로 제공할 수 있다. For example, when the user makes a phone call with another person, there is a high possibility that a voice is input for 30 seconds or longer. Therefore, the voice recognition image feedback device determines that the voice is a general voice, grasps the user's mood, Or sound can be provided automatically.
즉, 상기 음성 인식 영상 피드백 제공 시스템은 사용자의 요청이 없음에도 사용자의 음성 등을 통하여 사용자의 기분을 파악하고 적절한 영상 또는 음성을 상기 사용자에게 자동으로 제공할 수 있다. 따라서, 사용자는 기대치 않은 즐거움을 누릴 수 있다. That is, the voice recognition image feedback providing system can grasp the mood of the user through the voice of the user and automatically provide the user with an appropriate image or voice even if there is no request from the user. Thus, the user can enjoy unexpected enjoyment.
도 21은 본 발명의 제 14 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 도면이다. 21 is a diagram illustrating an operation of a speech recognition image feedback providing system according to a fourteenth embodiment of the present invention.
도 21을 참조하면, 음성 인식 영상 피드백 장치(100) 내에 스피커 및 영상 출력 소자(예를 들어, 빔 프로젝터)가 포함되지 않고, 음성 인식 영상 피드백 장치(100)의 외부에 스피커(2100)와 빔 프로젝터(2102)가 위치할 수 있다. 21, a speaker and an image output element (for example, a beam projector) are not included in the speech recognition
물론, 스피커(2100)와 빔 프로젝터(2102)는 음성 인식 영상 피드백 장치(100)와 무선 또는 유선으로 연결될 수 있다.Of course, the
음성 인식 영상 피드백 장치(100)와 스피커(2100) 및 빔 프로젝터(2102)가 분리되어 있지만 동작은 이전 실시예들과 동일하므로, 이에 대한 설명은 생략한다. Although the speech recognition
이하, 음성뿐만 아니라 영상도 이용하는 상기 음성 인식 영상 피드백 장치의 동작과 관련된 실시예들을 첨부된 도면들을 참조하여 살펴보겠다. Hereinafter, embodiments related to the operation of the voice recognition image feedback apparatus using not only voice but also image will be described with reference to the accompanying drawings.
도 22는 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다. 22 is a block diagram showing the configuration of a speech recognition image feedback apparatus according to another embodiment of the present invention.
도 22를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(2200), 음성 인식부(2202), 영상 획득부(2204), 위치 추적부(2206), 영상 피드백부(2208), 음성 피드백부(2210) 및 저장부(2212)를 포함할 수 있다. 22, the voice recognition image feedback apparatus of the present embodiment includes a
음성 인식부(2202)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다. 이러한 음성 인식부(2202)는 음성 인식과 관련된 기능을 담당한다. The
영상 획득부(2204)는 상기 음성 인식 영상 피드백 장치로 입력되는 음성의 방향으로 하여 위치된 후 전방의 영상을 획득하며, 예를 들어 카메라이다. 이렇게 획득된 영상은 사용자의 위치를 결정하고 잡음을 제거하기 위해 사용될 수 있다. The
다른 실시예에 따르면, 영상 획득부(2204)는 상기 음성 인식 영상 피드백 장치에 포함되지 않고 외부 기기일 수 있다. 예를 들어, 영상 획득부(2204)는 집 내에 설치된 보안 카메라일 수 있다. 이 경우, 상기 음성 인식 영상 피드백 장치는 영상 획득부(2204)와 통신 연결된 상태에서 영상 획득부(2204)를 통하여 원하는 영상을 획득할 수 있다. According to another embodiment, the
위치 추적부(2206)는 상기 음성과 상기 영상을 이용하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(2206)는 위치 추적과 관련된 기능을 담당한다.The
영상 피드백부(2208)는 상기 음성에 해당하는 영상을 사용자에게 제공할 수 있다. 이러한 영상 피드백부(2208)는 영상 제공과 관련된 기능을 담당한다. The
음성 피드백부(2210)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. 이러한 음성 피드백부(2210)는 음성 제공과 관련된 기능을 담당한다. The
저장부(2212)는 음성, 영상 등의 각종 정보를 저장한다. The
제어부(2200)는 상기 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.The
도 23은 본 발명의 제 15 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 23 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to a fifteenth embodiment of the present invention.
도 23을 참조하면, 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S2300).Referring to FIG. 23, the speech recognition image feedback apparatus recognizes the user's voice (S2300).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성의 방향으로 하여 사용자 위치 추적 소자(예를 들어, 카메라)를 이용하여 사용자의 영상을 촬영한다(S2302). 이 경우, 상기 사용자 위치 추적 소자는 회전 가능할 수 있다. Then, the voice recognition image feedback apparatus captures a user's image using a user location tracking device (e.g., a camera) in the direction of the recognized voice (S2302). In this case, the user position tracking element may be rotatable.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 음성 및 영상을 기초로 하여 사용자의 위치를 추적한다(S2304). 따라서, 상기 음성 인식 영상 피드백 장치는 음성만을 이용하여 상기 사용자의 위치를 추적하는 것보다 더 정확하게 사용자의 위치를 추적할 수 있다. Subsequently, the voice recognition image feedback apparatus tracks the position of the user based on the voice and the image (S2304). Therefore, the voice recognition image feedback apparatus can track the position of the user more accurately than using the voice alone to track the position of the user.
물론, 상기 사용자의 위치를 추적하는 과정에서, 타인, 사물, TV 소리 등의 잡음을 필터링하는 과정이 추가적으로 수행될 수 있다. 이는 카메라로 촬영된 영상이 있기 때문에 효율적으로 수행될 수 있다. Of course, in the process of tracking the position of the user, a process of filtering noise such as another person, object, TV sound, and the like may be additionally performed. This can be efficiently performed because there is an image captured by the camera.
예를 들어, 상기 음성 인식 영상 피드백 장치는 상기 사용자 위치 추적 소자에 의해 획득된 영상으로부터 객체들을 추출하고, 상기 추출된 객체들 중 사람이 아닌 객체를 제거하며(필터링 과정), 남은 객체들 중 상기 음성의 입력된 방향 및 상기 음성의 크기에 해당하는 객체를 사용자로 결정할 수 있다. For example, the voice recognition image feedback apparatus extracts objects from the image acquired by the user location tracking element, removes objects (non-human) from the extracted objects (filtering process) The user can determine an object corresponding to the input direction of the voice and the size of the voice.
다른 예로, 상기 음성 인식 영상 피드백 장치는 입력되는 음성들 중 가장 큰 음성을 제외한 나머지 음성들을 제거하고(필터링), 남은 음성이 입력된 방향으로 하여 카메라를 위치시킨 후 영상을 촬영하며, 상기 음성과 영상을 이용하여 사용자의 위치를 결정할 수 있다. As another example, the speech recognition image feedback apparatus removes (filters) the remaining voices except for the largest voices among the voices input, positions the camera in the direction in which the remaining voices are input, The position of the user can be determined using the image.
또 다른 예로, 상기 음성 인식 영상 피드백 장치는 상기 영상으로부터 객체를 추출하고, 상기 추출된 객체가 TV 등의 사물인 경우 입력된 음성이 사용자의 음성이 아니라고 결정할 수도 있다. As another example, the speech recognition image feedback apparatus may extract an object from the image, and determine that the input voice is not the user's voice when the extracted object is a TV or the like.
이어서, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공할 수 있다(S2306). Then, the speech recognition image feedback apparatus may provide image feedback to a user peripheral region corresponding to the tracked user's position (S2306).
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 음성뿐만 아니라 영상 촬영 소자를 통한 영상을 이용하여 사용자의 위치를 정확하게 추적할 수 있다. In summary, the speech recognition image feedback apparatus of the present embodiment can accurately track the position of the user using not only the voice but also the image through the image capturing element.
위에서는 음성 및 영상을 이용하여 사용자의 위치를 결정하였으나, 피드백될 위치는 사용자의 위치가 아닌 다른 위치로 결정될 수도 있다.In the above, the position of the user is determined using voice and image, but the position to be fed back may be determined to be a position other than the position of the user.
구체적으로는, 상기 음성 인식 영상 피드백 장치는 상기 음성 및 상기 영상을 이용하여 사용자의 위치를 추적하고, 상기 추적된 사용자의 위치 주변으로 하여 영상 피드백이 제공될 위치를 결정하며, 상기 결정된 위치로 상기 음성에 해당하는 영상을 제공할 수 있다. Specifically, the speech recognition image feedback apparatus tracks a position of a user using the voice and the image, determines a position where image feedback is to be provided around the position of the traced user, It is possible to provide an image corresponding to a voice.
예를 들어, 상기 음성 인식 영상 피드백 장치는 음성이 입력된 방향으로 하여 단순히 영상 피드백을 제공하는 것이 아니라, 상기 사용자 위치 인식 소자에 의해 획득된 영상을 이용하여 사용자 주변 영역 중에서 사용자가 가장 보기 편하고 화질이 좋을 수 있는 영역으로 영상 피드백을 제공할 수 있다. For example, the speech recognition image feedback device may be configured to provide the user with the best viewability and image quality of the user peripheral region using the image acquired by the user position recognition device, rather than simply providing the image feedback in the direction in which the voice is input. It is possible to provide the image feedback to a region where this is good.
여기서, 사용자가 보기 편하고 화질이 좋을 수 있는 영역은 굴곡이 많지 않아서 상기 음성 인식 영상 피드백 장치로부터 출력된 영상이 왜곡없이 그대로 사용자에게 보여질 수 있는 영역일 수 있다. Here, the area where the user can view and the image quality may be good may be a region in which the image output from the voice recognition image feedback device is not distorted and can be viewed by the user as it is without much bending.
따라서, 상기 음성 인식 영상 피드백 장치는 상기 영상을 통하여 사용자 주변 위치 영역 중 평탄도가 높은 영역을 선택하고, 상기 선택된 영역을 영상 피드백이 제공될 영역으로 결정할 수 있다. Accordingly, the speech recognition image feedback apparatus can select a region having a high level of flatness among the user's peripheral region through the image, and determine the selected region as a region to be provided with image feedback.
도 24는 본 발명의 제 16 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이고, 도 25는 도 24의 음성 인식 영상 피드백 제공 과정의 일 예를 도시한 도면이다. FIG. 24 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to a sixteenth embodiment of the present invention, and FIG. 25 is a diagram illustrating an example of a speech recognition image feedback process of FIG.
도 24 및 도 25를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 위치를 인식한다(S2400).Referring to FIGS. 24 and 25, the speech recognition image feedback apparatus of the present embodiment recognizes the position of the user (S2400).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 상기 사용자의 위치를 추적한다(S2402).Then, the voice recognition image feedback apparatus tracks the position of the user in the direction in which the voice is input (S2402).
계속하여, 상기 음성 인식 영상 피드백 장치는 카메라를 이용하여 상기 사용자의 주변 영상을 획득한다(S2404). 특히, 사용자가 음성으로 피대상물(2500)을 지정한 경우, 예를 들어 사용자가 "오이를 이쁘게 자를래"라는 음성을 입력한 경우, 상기 음성 인식 영상 피드백 장치는 피대상물(2500)의 영상을 획득한다. Subsequently, the speech recognition image feedback apparatus acquires the surrounding image of the user using the camera (S2404). Particularly, when the user designates the
이어서, 상기 음성 인식 영상 피드백 장치는 상기 획득된 피대상물의 실제 사이즈 및 형상에 맞는 영상을 피대상물(2500)로 출력할 수 있다(S2406). 예를 들어, 상기 음성 인식 영상 피드백 장치는 도 25에 도시된 바와 같이 실제 사이즈 및 형상에 맞는 오이 영상을 피대상물(2500)인 오이 위에 오버랩시킬 수 있다. Then, the voice recognition image feedback apparatus can output an image matching the actual size and shape of the obtained object to the object 2500 (S2406). For example, the speech recognition image feedback apparatus can overlap a cucumber image corresponding to an actual size and shape on a
특히, 사용자가 "자를래"라고 말하였기 때문에, 상기 오이가 잘 잘라질 수 있도록 절단선(2510)을 오이(2500) 위에 표시할 수 있다. 따라서, 사용자는 상기 절단선(2510)을 따라서 오이(2500)를 용이하게 절단할 수 있다. In particular, since the user has said "cut", the
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 피대상물(2500)의 영상을 획득하고, 피대상물(2500)의 사이즈 및 형상에 맞는 영상을 피대상물(2500)로 오버랩하여 출력시킬 수 있다. In summary, the speech recognition image feedback system of the present embodiment acquires an image of the
결과적으로, 상기 사용자는 원하는 작업을 용이하게 실현할 수 있다. As a result, the user can easily realize a desired operation.
위에서는, 사이즈 적용이 사물에 대하여 적용되었으나 사람에게도 적용될 수 있다. In the above, sizing is applied to objects, but can also be applied to people.
구체적으로는, 상기 음성 인식 영상 피드백 장치는 카메라를 이용하여 사용자의 영상을 획득하고, 사용자의 실제 신체 사이즈에 맞는 영상을 출력할 수 있다. Specifically, the voice recognition image feedback apparatus can acquire a user's image using a camera and output an image corresponding to a user's actual body size.
예를 들어, 사용자가 "셔츠를 보여줘"라고 음성 입력한 경우, 상기 음성 인식 영상 피드백 장치는 셔츠에 대한 영상을 출력하되, 상기 셔츠의 사이즈를 사용자의 신체 사이즈에 맞게 조절한 후 영상을 출력할 수 있다. For example, if the user inputs a voice saying "show shirt ", the voice recognition image feedback device outputs an image for the shirt, adjusts the size of the shirt to match the user's body size, .
즉, 상기 음성 인식 영상 피드백 장치는 사용자의 실제 신체 사이즈에 맞는 사용자와 관련된 개체를 포함하는 영상을 출력시킬 수 있다. That is, the speech recognition image feedback apparatus can output an image including an object related to a user corresponding to a user's actual body size.
위에서는 사용자의 신체 사이즈를 카메라를 통하여 파악하였으나, 사용자가 자신의 신체 사이즈 또는 사진 등을 미리 상기 음성 인식 영상 피드백 장치 또는 클라우드 서버에 등록할 수도 있다. 이 경우에는, 상기 음성 인식 영상 피드백 장치가 상기 사용자의 영상을 별도로 확보할 필요가 없다. Although the body size of the user is identified through the camera in the above, the user may register his / her body size or photograph in advance in the voice recognition image feedback device or the cloud server. In this case, the voice recognition image feedback apparatus does not need to secure the image of the user separately.
이하, 영상이 제공될 위치의 구조를 파악한 후 영상을 제공하는 상기 음성 인식 영상 피드백 장치의 동작과 관련된 실시예들을 첨부된 도면들을 참조하여 살펴보겠다. Hereinafter, embodiments related to the operation of the voice recognition image feedback apparatus for providing an image after grasping a structure of a position where an image is to be provided will be described with reference to the accompanying drawings.
도 26은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다. 26 is a block diagram illustrating the configuration of a speech recognition image feedback apparatus according to another embodiment of the present invention.
도 26을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(2600), 음성 인식부(2602), 위치 추적부(2604), 구조 파악부(2606), 영상 피드백부(2608), 음성 피드백부(2610) 및 저장부(2612)를 포함할 수 있다. 26, the speech recognition image feedback apparatus of the present embodiment includes a
음성 인식부(2602)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다. 이러한 음성 인식부(2602)는 음성 인식과 관련된 기능을 담당한다. The
위치 추적부(2604)는 상기 음성을 이용하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(2604)는 위치 추적과 관련된 기능을 담당한다.The
구조 파악부(2606)는 영상 피드백이 제공될 위치의 구조를 파악할 수 있다. 예를 들어, 구조 파악부(2606)는 레이저를 사용자 주변 위치 영역으로 출력하여 상기 사용자 주변 위치 영역의 구조를 파악할 수 있다. 이를 위해 구조 파악부(2606)는 레이저 발생기를 포함할 수 있다. The
영상 피드백부(2608)는 상기 음성에 해당하는 영상을 사용자에게 제공하되, 상기 파악된 구조에 기초하여 영상의 해상도 등을 조절할 수 있다.The
음성 피드백부(2610)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. 이러한 음성 피드백부(2610)는 음성 제공과 관련된 기능을 담당한다. The
저장부(2612)는 음성, 영상 등의 각종 정보를 저장한다. The
제어부(2600)는 상기 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.The
도 27은 본 발명의 제 17 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 27 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to a seventeenth embodiment of the present invention.
도 27을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S2700).Referring to FIG. 27, the speech recognition image feedback apparatus of the present embodiment recognizes the user's voice (S2700).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S2702). Then, the voice recognition image feedback apparatus tracks the position of the user in the direction in which the voice is input (S2702).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치 주변으로 레이저를 출력하여 주변 구조를 탐지한다(S2704). 물론, 상기 음성 인식 영상 피드백 장치는 레이저가 아닌 영상 촬영을 통하여 주변 구조를 탐지할 수도 있다. 즉, 상기 음성 인식 영상 피드백 장치는 레이저 출력을 위한 레이저 발생기 또는 영상 획득을 위한 카메라를 포함할 수 있다. Subsequently, the speech recognition image feedback apparatus detects a peripheral structure by outputting a laser around the position of the tracked user (S2704). Of course, the voice recognition image feedback apparatus may detect a surrounding structure through image capturing, not a laser. That is, the speech recognition image feedback apparatus may include a laser generator for laser output or a camera for image acquisition.
이어서, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공한다(S2706). Then, the speech recognition image feedback apparatus provides image feedback to a user's peripheral region corresponding to the tracked user's position (S2706).
이 경우, 상기 음성 인식 영상 피드백 장치는 상기 탐지된 주변 구조에 따라 동일한 영상에 대하여 다른 초점을 적용할 수 있다. 즉, 상기 음성 인식 영상 피드백 장치는 상기 레이저에 의해 탐지된 주변 구조에 최적화된 초점을 가지고 영상을 출력할 수 있다. In this case, the speech recognition image feedback apparatus can apply a different focus to the same image according to the detected peripheral structure. That is, the speech recognition image feedback apparatus can output an image with a focus optimized for the peripheral structure detected by the laser.
이러한 초점 조절은 상기 주변 구조 탐지 외에도 거리에 따른 영상의 화질 유지를 위해서도 적용될 수 있다. 구체적으로는, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 상기 영상을 출력하되, 상기 음성 인식 영상 피드백 장치와 상기 사용자 사이의 거리에 따라 또는 기설정된 영상 출력 거리에 따라 다른 지점에 영상을 출력할 수 있다. Such focus adjustment can be applied not only to the detection of the surrounding structure but also to the maintenance of the image quality according to the distance. Specifically, the voice recognition image feedback apparatus outputs the image in a direction in which the voice is input, and outputs the image according to a distance between the voice recognition image feedback apparatus and the user, or at a different point depending on a predetermined image output distance The image can be output.
예를 들어, 상기 음성 인식 영상 피드백 장치는 상황에 따라 동일한 영상을 상기 음성 인식 영상 피드백 장치로부터 1미터 지점으로 영상을 출력하거나 3미터 지점으로 출력할 수 있다. 이 경우, 1미터 지점 또는 3미터 지점에 따라 상기 영상의 화질이 다를 수 있다. 따라서, 상기 음성 인식 영상 피드백 장치는 1미터 지점이든 3미터 지점이든 상관없이 영상의 화질이 동일 또는 최대한 유사하도록 영상 피드백부의 초점을 자동으로 조절할 수 있다. 물론, 상기 음성 인식 영상 피드백 장치는 사용자에게 보여지는 영상의 화질이 최적이 되도록 상기 초점을 자동으로 조절할 수 있다. For example, the speech recognition image feedback apparatus may output the same image to the 1-meter point or the 3-meter point from the speech recognition image feedback apparatus depending on the situation. In this case, the image quality of the image may be different depending on the position of 1 meter or 3 meters. Therefore, the voice recognition image feedback apparatus can automatically adjust the focus of the image feedback unit so that the image quality of the image is the same or as close as possible, irrespective of the position of 1 meter or 3 meters. Of course, the voice recognition image feedback apparatus can automatically adjust the focus so that the image quality of the image displayed to the user becomes optimal.
한편, 상기 거리에 따른 영상 출력은 예를 들어 힌지 구조를 이용하여 상기 피드백부를 상하로 회전시키고, 상기 출력될 지점에 따라 상기 영상 피드백부의 초점을 가변시킴에 의해 실현될 수 있다. 또는, 상기 영상 피드백부가 아닌 상기 음성 인식 영상 피드백 장치 자체가 상하로 회전할 수도 있다. On the other hand, the image output according to the distance can be realized by rotating the feedback unit up and down using a hinge structure, for example, and varying the focus of the image feedback unit according to the output point. Alternatively, the voice recognition image feedback device itself may be rotated up and down, rather than the image feedback section.
물론, 위에서는 상하 움직임만을 언급하였지만 좌우 움직임을 배제한 것은 아니다. Of course, in the above, only the up and down movements are mentioned but not the left and right movements.
또한, 상기 음성 인식 영상 피드백 장치는 상기 자동 초점 조절 방식이 아니라, 영상이 출력될 거리에 따라 화질, 사이즈 등이 다른 영상을 출력할 수도 있다. In addition, the voice recognition image feedback apparatus may not output the automatic focus adjustment method, but may output images having different image qualities and sizes according to the distance at which the images are output.
도 28은 본 발명의 제 18 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 28 is a flowchart illustrating an operation of a system for providing speech recognition image feedback according to an eighteenth embodiment of the present invention.
도 28을 참조하면, 음성 인식 영상 피드백 장치는 카메라, 레이저 등을 통하여 집 등의 내부 구조를 미리 파악한다(S2800).Referring to FIG. 28, the voice recognition image feedback apparatus grasps the internal structure of the home and the like in advance through a camera, a laser, or the like (S2800).
이어서, 상기 음성 인식 영상 피드백 장치는 영상 피드백을 제공할 위치를 지정한다(S2802). 물론, 특정 위치가 아닌 특정 기기가 지정될 수도 있다. Then, the speech recognition image feedback apparatus designates a position to provide image feedback (S2802). Of course, a specific device may be designated rather than a specific location.
일 실시예에 따르면, 상기 음성 인식 영상 피드백 장치가 영상 피드백이 가능한 복수의 위치들을 디스플레이 또는 음성으로 출력하고, 사용자는 상기 디스플레이 또는 출력된 위치들 중 영상 피드백을 제공받을 위치를 선택할 수 있다. 즉, 사용자의 선택에 의해 상기 영상 피드백이 제공될 위치가 결정될 수 있다. According to one embodiment, the speech recognition image feedback apparatus outputs a plurality of positions capable of image feedback by display or voice, and the user can select a position to receive image feedback among the display or output positions. That is, the position at which the image feedback is to be provided may be determined by the user's selection.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치가 상기 파악된 내부 구조 중에서 영상 피드백 제공받기에 적당한 적어도 하나의 위치를 자동으로 지정할 수도 있다. According to another embodiment, the speech recognition image feedback apparatus may automatically designate at least one position suitable for receiving image feedback from the identified internal structure.
계속하여, 상기 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S2804).Subsequently, the speech recognition image feedback apparatus recognizes the user's voice (S2804).
이어서, 상기 음성 인식 영상 피드백 장치는 사용자의 위치가 아닌 상기 지정된 위치 또는 기기로 상기 음성에 해당하는 영상을 제공할 수 있다(S2806).Then, the voice recognition image feedback apparatus may provide an image corresponding to the voice to the designated location or device, rather than the location of the user (S2806).
예를 들어, 상기 음성 인식 영상 피드백 장치는 상기 지정된 위치들 중 사용자의 위치에 가장 인접한 위치로 상기 영상을 제공할 수 있다. For example, the speech recognition image feedback apparatus may provide the image at a position closest to the user's position among the designated positions.
다른 예로, 상기 음성 인식 영상 피드백 장치는 사용자의 위치와의 거리에 상관없이 사용자가 기지정한 특정 위치 또는 기설정된 각도로 상기 영상을 제공할 수도 있다. 일 예로, 사용자는 영화는 벽에 제공되고 날씨는 거실 바닥에 제공되도록 테마별로 별도 지정할 수 있다. As another example, the speech recognition image feedback device may provide the image at a predetermined position or at a predetermined angle predetermined by the user irrespective of the distance to the user's position. As an example, the user can separately specify themes so that movies are provided on the wall and weather is provided on the living room floor.
상기 영상 피드백부가 영상을 출력하는 각도가 설정되어 있는 경우, 상기 영상 피드백부는 예를 들어 힌지 구조를 통하여 상하 움직임 가능할 것이다. 이 경우, 상기 음성 인식 영상 피드백 장치가 설치되어 있는 위치에 따라 상기 영상이 제공되는 지점과 상기 음성 인식 영상 피드백 장치 사이의 거리가 달라질 것이다. When the angle at which the image feedback additional image is output is set, the image feedback unit may be vertically movable through a hinge structure, for example. In this case, the distance between the point where the image is provided and the voice recognition image feedback device will vary depending on the position where the voice recognition image feedback device is installed.
또 다른 예로, 상기 음성 인식 영상 피드백 장치는 상기 지정된 기기로 상기 영상을 제공할 수 있다. As another example, the speech recognition image feedback apparatus may provide the image to the designated device.
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 영상 피드백이 제공될 위치 또는 기기를 미리 지정하고, 사용자의 위치에 관계없이 상기 지정된 위치 또는 기기로 영상 피드백을 제공할 수 있다. In summary, the speech recognition image feedback system of the present embodiment can preliminarily specify a position or a device to which image feedback is to be provided, and provide image feedback to the designated position or device regardless of the position of the user.
도 29는 본 발명의 제 19 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. FIG. 29 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a nineteenth embodiment of the present invention.
도 29를 참조하면, 음성 인식 영상 피드백 장치가 사용자의 음성을 인식한다(S2900).Referring to FIG. 29, the speech recognition image feedback apparatus recognizes the user's voice (S2900).
이어서, 상기 음성 인식 영상 피드백 장치가 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S2902).Then, the voice recognition image feedback apparatus tracks the location of the user in the direction in which the voice is input (S2902).
계속하여, 상기 음성 인식 영상 피드백 장치가 레이저 등을 상기 추적된 사용자의 위치 및 그의 주변으로 출력하여 영상이 제공될 위치의 구조를 파악한다(S2904). Then, the speech recognition image feedback apparatus outputs a laser or the like to the tracked user's position and its periphery to determine the structure of the position where the image is to be provided (S2904).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 파악된 구조에 맞춰서 상기 음성에 해당하는 영상 또는 영상 피드백이 제공될 위치를 적절히 변경할 수 있다(S2906). Then, the speech recognition image feedback apparatus can appropriately change the position where the image or image feedback corresponding to the speech is provided, according to the detected structure (S2906).
예를 들어, 상기 음성 인식 영상 피드백 장치가 고해상도의 영상을 출력할 예정이었으나, 상기 구조 파악에 따라 저해상도의 영상을 출력하는 것이 효율적이라고 판단하는 경우 상기 고해상도의 영상을 저해상도의 영상으로 변경할 수 있다. For example, when the speech recognition image feedback apparatus is to output a high-resolution image but it is determined that it is efficient to output a low-resolution image according to the structure grasp, the high-resolution image can be changed to a low-resolution image.
다른 예로, 상기 영상이 피드백될 위치가 평탄하지 못하다고 결정된 경우, 상기 음성 인식 영상 피드백 장치는 영상의 밝기를 증가시킬 수 있다. As another example, if it is determined that the position to which the image is to be fed is not smooth, the speech recognition image feedback device may increase the brightness of the image.
또 다른 예로, 상기 음성 인식 영상 피드백 장치는 상기 구조 파악으로 상기 위치가 영상을 제공하기에 적절하지 않거나 더 좋은 위치가 검출된 경우, 상기 영상 피드백이 제공될 위치를 변경할 수 있다.As another example, the speech recognition image feedback apparatus may change the position where the image feedback is to be provided when the position is not suitable for providing an image or a better position is detected.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 변경된 영상을 사용자 주변 위치 영역으로 출력할 수 있다(S2908). Subsequently, the voice recognition image feedback apparatus can output the changed image to the user peripheral region (S2908).
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 영상 피드백이 제공된 위치의 구조를 먼저 파악하고, 상기 파악된 구조에 맞춰서 영상의 해상도, 사이즈, 화질 등을 변경하거나 영상 피드백이 제공될 위치를 변경할 수 있다. In summary, the speech recognition image feedback system of the present embodiment first grasps the structure of the position where the image feedback is provided, and changes the resolution, size, image quality, etc. of the image or changes the position where the image feedback is provided .
위에서는 상기 음성 인식 영상 피드백 장치가 영상을 변경하는 것으로 설명하였으나, 상기 음성 인식 영상 피드백 장치가 상기 파악된 구조에 맞춰서 영상을 준비할 수도 있다. In the above description, the speech recognition image feedback apparatus changes the image. However, the speech recognition image feedback apparatus may prepare the image in accordance with the identified structure.
이하, 영상이 제공될 위치의 구조를 파악한 후 영상을 제공하는 상기 음성 인식 영상 피드백 장치의 동작과 관련된 실시예들을 첨부된 도면들을 참조하여 살펴보겠다. Hereinafter, embodiments related to the operation of the voice recognition image feedback apparatus for providing an image after grasping a structure of a position where an image is to be provided will be described with reference to the accompanying drawings.
도 30은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다. 30 is a block diagram showing the configuration of a speech recognition image feedback apparatus according to another embodiment of the present invention.
도 30을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(3000), 음성 인식부(3002), 위치 추적부(3004), 영상 피드백부(3006), 음성 피드백부(3008), 외부 기기 제어부(3010), 통신부(3012) 및 저장부(3014)를 포함할 수 있다. 30, the speech recognition image feedback apparatus of the present embodiment includes a
음성 인식부(3002)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다. 이러한 음성 인식부(3002)는 음성 인식과 관련된 기능을 담당한다. The
위치 추적부(3004)는 상기 음성을 이용하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(3004)는 위치 추적과 관련된 기능을 담당한다.The
영상 피드백부(3006)는 상기 음성에 해당하는 영상을 사용자에게 제공한다.The
음성 피드백부(3008)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. 이러한 음성 피드백부(3008)는 음성 제공과 관련된 기능을 담당한다. The
외부 기기 제어부(3010)는 상기 음성 인식 영상 피드백 장치와 연결된 외부 기기를 제어할 수 있다. 특히, 외부 기기 제어부(3010)는 영상 제공시, 상기 영상이 돋보이도록 외부 기기를 제어할 수 있다.The external
통신부(3012)는 상기 음성 인식 영상 피드백 장치와 외부 기기를 연결하는 통로이다. The
저장부(3014)는 음성, 영상 등의 각종 정보를 저장한다. The
제어부(3000)는 상기 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.The control unit (3000) controls overall operation of the components of the voice recognition image feedback device.
도 31은 본 발명의 제 20 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 31 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a twentieth embodiment of the present invention.
도 31을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S3100).Referring to FIG. 31, the speech recognition image feedback apparatus of the present embodiment recognizes the user's voice (S3100).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S3102).Then, the voice recognition image feedback apparatus tracks the location of the user in the direction in which the voice is input (S3102).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 추적된 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 영상 피드백을 제공하면서 외부 기기를 동시에 제어할 수 있다(S3104).Then, the voice recognition image feedback apparatus can simultaneously control external devices while providing image feedback to a user peripheral location area corresponding to the tracked user's position (S3104).
예를 들어, 사용자가 음성으로 "타이타닉" 영화를 시청하고 싶다고 말한 경우, 상기 음성 인식 영상 피드백 장치는 상기 영화를 출력할 수 있다. 이 경우, 영화 관람을 위해서는 주변이 어두운 것이 효율적이므로, 상기 음성 인식 영상 피드백 장치는 상기 영화를 출력하면서 주변 조명기기(외부 기기)를 턴-오프시키거나 조도를 낮출 수 있다. For example, if the user says he or she wants to watch a "Titanic" movie by voice, the voice recognition image feedback device can output the movie. In this case, since the surroundings are dark for the movie viewing, the voice recognition image feedback device can turn off the ambient illumination device (external device) while lowering the illuminance while outputting the movie.
일 실시예에 따르면, 상기 음성 인식 영상 피드백 장치가 상기 영상 피드백을 제공하면서 상기 외부 기기를 직접적으로 제어할 수 있다. According to one embodiment, the voice recognition image feedback apparatus can directly control the external apparatus while providing the image feedback.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치가 상기 영상 피드백을 제어하되, 상기 음성 인식 영상 피드백 장치와 연결된 별도의 제어 장치가 상기 음성 인식 영상 피드백 장치의 요청에 따라 상기 외부 기기를 제어할 수도 있다. 즉, 상기 음성 인식 영상 피드백 장치는 상기 외부 기기를 간접적으로 제어할 수 있다. According to another embodiment, the voice recognition image feedback device controls the image feedback, and a separate control device connected to the voice recognition image feedback device may control the external device at the request of the voice recognition image feedback device have. That is, the voice recognition image feedback apparatus can indirectly control the external device.
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 영상 피드백뿐만 아니라 외부 기기도 제어하여 영상 주변의 환경을 조절할 수 있다. 상기 외부 기기의 제어는 사용자의 요청에 따라 이루어질 수도 있지만, 사용자의 요청이 없어도 자동으로 이루어질 수 있다. In summary, the speech recognition image feedback providing system of the present embodiment can control an environment around the image by controlling not only image feedback but also external devices. The control of the external device may be performed at the request of the user, but may be performed automatically without the request of the user.
도 32는 본 발명의 제 21 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. 32 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a twenty-first embodiment of the present invention.
도 32를 참조하면, 음성 인식 영상 피드백 장치가 사용자의 음성을 인식한다(S3200).Referring to FIG. 32, the speech recognition image feedback apparatus recognizes the user's speech (S3200).
이어서, 상기 음성 인식 영상 피드백 장치는 디스플레이 소자를 검색한다(S3202). 여기서, 상기 디스플레이 소자는 영상을 디스플레이하는 한 제한이 없으며, TV, 스마트폰, 태블릿 PC 등을 포함할 수 있다. Next, the speech recognition image feedback apparatus searches for a display element (S3202). Here, the display device is not limited as long as it displays an image, and may include a TV, a smart phone, a tablet PC, and the like.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 인식된 음성에 해당하는 영상을 상기 검색된 디스플레이 소자를 통하여 사용자에게 제공할 수 있다(S3204). 이 경우, 상기 디스플레이 소자는 상기 음성 인식 영상 피드백 장치와 무선 또는 유선으로 연결되어 있다. Subsequently, the voice recognition image feedback apparatus may provide an image corresponding to the recognized voice to the user through the searched display device (S3204). In this case, the display device is connected to the voice recognition image feedback device wirelessly or by wire.
정리하면, 본 실시예의 음성 인식 영상 피드백 장치는 음성 입력에 따라 관련 영상을 디스플레이 소자를 통하여 사용자에게 제공할 수 있다. 이러한 방법은 사용자가 디스플레이 소자에 근접하여 있거나 디스플레이 소자를 통하여 영상을 제공하는 것이 효율적일 때 사용될 수 있다. In summary, the speech recognition image feedback apparatus of the present embodiment can provide the user with the related image through the display element in accordance with the voice input. This method can be used when the user is close to the display element or when it is efficient to provide the image through the display element.
즉, 상기 음성 인식 영상 피드백 장치는 사용자의 음성에 따라 해당 영상을 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 제공하거나 디스플레이 소자를 통하여 사용자에게 제공할 수 있다. That is, the voice recognition image feedback apparatus may provide the corresponding image to the user's peripheral location area corresponding to the user's location or provide the user with the display image through the display device according to the user's voice.
상기 영상을 상기 사용자 주변 위치 영역으로 제공할 지 상기 디스플레이 소자를 통하여 제공할 지의 여부는 상기 영상의 화질, 사용자의 위치, 영상의 종류, 사용자의 요청 등을 통하여 자동으로 결정될 수 있다. 이러한 선택의 기준은 사용자에 의해 미리 저장될 수 있다. Whether to provide the image to the user peripheral location area or to provide the image through the display device can be determined automatically through the image quality, the user's location, the type of image, and the user's request. The criteria of such selection may be stored in advance by the user.
예를 들어, 사용자가 고화질의 영화 시청을 음성으로 요청한 경우, 상기 영화를 사용자 주변의 바닥으로 출력시키는 것보다는 상기 디스플레이 소자를 통하여 출력하는 것을 사용자가 더 좋아할 것이다. 따라서, 상기 음성 인식 영상 피드백 장치는 고화질의 영화를 상기 디스플레이 소자를 통하여 제공할 수 있다. For example, if a user requests to view a high-definition movie by voice, the user would prefer to output the movie through the display device rather than output to the bottom of the user's surroundings. Therefore, the voice recognition image feedback device can provide a high-quality movie through the display device.
다른 예로, 사용자가 스포츠 뉴스의 시청을 음성으로 요청한 경우, 상기 스포츠 뉴스는 고화질을 요구하지 않기 때문에 상기 스포츠 뉴스의 영상을 사용자 주변 위치 영역으로 출력하여도 사용자는 충분히 만족할 것이다. 따라서, 이 경우에는 사용자의 시청 편의성을 고려하여, 상기 음성 인식 영상 피드백 장치는 상기 영상을 상기 사용자 주변 위치 영역으로 제공할 수 있다. As another example, if the user requests audio news of sports news, the sports news does not require high image quality, so the user will be satisfied even if the image of the sports news is output to the user's neighboring location area. Therefore, in this case, the voice recognition image feedback apparatus can provide the image to the user peripheral location area in consideration of the viewing convenience of the user.
이하, 화상 통화 기능을 제공하는 상기 음성 인식 영상 피드백 장치의 동작과 관련된 실시예들을 첨부된 도면들을 참조하여 살펴보겠다. Hereinafter, embodiments related to the operation of the voice recognition image feedback apparatus for providing a video call function will be described with reference to the accompanying drawings.
도 33은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다. 33 is a block diagram showing the configuration of a speech recognition image feedback apparatus according to another embodiment of the present invention.
도 33을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(3300), 음성 인식부(3302), 위치 추적부(3304), 영상 피드백부(3306), 음성 피드백부(3308), 화상 통화부(3310) 및 저장부(3312)를 포함할 수 있다. 33, the speech recognition image feedback apparatus of the present embodiment includes a
음성 인식부(3302)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다. 이러한 음성 인식부(3302)는 음성 인식과 관련된 기능을 담당한다. The
위치 추적부(3304)는 상기 음성을 이용하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(3304)는 위치 추적과 관련된 기능을 담당한다.The
영상 피드백부(3306)는 상기 음성에 해당하는 영상을 사용자에게 제공한다.The
음성 피드백부(3308)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. The
화상 통화부(3310)는 음성 및 영상을 제공하는 기능을 이용하여 화상 통화를 제공한다. 화상 통화를 위해 화상 통화부(3310)는 타인의 기기와 통신할 수 있는 통신 기능을 포함할 수 있다.The
저장부(3312)는 음성, 영상 등의 각종 정보를 저장한다. The
제어부(3300)는 상기 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.The
도 34는 본 발명의 제 22 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. FIG. 34 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a twenty-second embodiment of the present invention.
도 34를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S3400). 여기서, 상기 음성은 화상 통화 요청을 포함한다. Referring to FIG. 34, the speech recognition image feedback apparatus of the present embodiment recognizes the user's voice (S3400). Here, the voice includes a video call request.
이어서, 상기 음성 인식 영상 피드백 장치는 사용자의 화상 통화 요청에 따라 상기 사용자가 지정한 번호로 전화 연결한다(S3402). 여기서, 상기 사용자가 지정한 번호는 상기 음성 인식 영상 피드백 장치에 미리 등록된 전화번호들 중 하나이거나 사용자에 의해 입력된 전화번호일 수 있다. 물론, 상기 사용자가 상기 음성 인식 영상 피드백 장치에 등록된 전화번호를 변경하거나 갱신할 수도 있다. Then, the voice recognition image feedback device dials a number designated by the user according to a video call request of the user (S3402). Here, the number designated by the user may be one of the telephone numbers registered in advance in the voice recognition image feedback apparatus, or may be a telephone number input by the user. Of course, the user may change or update the telephone number registered in the voice recognition image feedback device.
일 실시예에 따르면, 상기 음성 인식 영상 피드백 장치는 통화 기능을 수행할 수 있는 통화부를 포함할 수 있다. According to one embodiment, the voice recognition image feedback apparatus may include a call unit capable of performing a call function.
다른 실시예에 따르면, 상기 음성 인식 영상 피드백 장치와 통신 연결되는 통신 기기가 별도로 존재하며, 상기 음성 인식 영상 피드백 장치는 상기 통신 기기를 통하여 상기 사용자가 지정한 번호로 통화 연결할 수도 있다. 여기서, 상기 음성 인식 영상 피드백 장치의 통화부와 상기 통신 기기가 통신 연결된다. According to another embodiment, there is a communication device communicatively connected to the voice recognition image feedback device, and the voice recognition image feedback device can make a call connection to the number designated by the user through the communication device. Here, the communication unit of the voice recognition image feedback apparatus and the communication device are communicatively connected.
계속하여, 상기 음성 인식 영상 피드백 장치는 상대방의 영상을 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 출력할 수 있다(S3404).Subsequently, the speech recognition image feedback apparatus can output the image of the other party to the user peripheral location area corresponding to the user's position (S3404).
이어서, 상기 음성 인식 영상 피드백 장치는 사용자의 음성 및 영상을 수신한다(S3406). 상기 음성은 마이크를 통하여 수신받고 상기 영상은 카메라를 통하여 수신받을 수 있다. Then, the voice recognition image feedback apparatus receives voice and image of the user (S3406). The voice may be received via a microphone and the image may be received via a camera.
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 수신된 음성 및 영상을 상대방의 기기로 전달한다(S3408).Subsequently, the voice recognition image feedback apparatus transmits the received voice and image to the other party's device (S3408).
이어서, 상기 음성 인식 영상 피드백 장치는 상대방의 음성 및 영상을 수신한다(S3410).Then, the voice recognition image feedback apparatus receives the voice and image of the other party (S3410).
계속하여, 상기 음성 인식 영상 피드백 장치는 상기 수신된 상대방의 음성 및 영상을 사용자에게 제공한다(S3412).Subsequently, the speech recognition image feedback apparatus provides the user with the voice and image of the received counterpart (S3412).
위의 방법을 통하여 화상 통화가 수행될 수 있다. A video call can be performed through the above method.
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 상기 음성 인식 영상 피드백 장치가 영상을 출력할 수 있는 기능을 이용하여 화상 통화를 제공할 수 있다. In summary, the voice recognition image feedback system of the present embodiment can provide a video call using the function of the voice recognition image feedback apparatus to output a video image.
위에서는, 직접적으로 화상 통화를 수행하는 내용을 언급하였으나, 상기 음성 인식 영상 피드백 장치가 영상 피드백을 제공하는 동안 화상 통화가 수행될 수도 있다. In the above description, a video call is directly performed while the voice recognition video feedback device provides video feedback.
구체적으로는, 영상 피드백 제공 중에 사용자가 통화 요청을 하거나 상대방으로부터 통화 요청이 수신된 경우, 상기 음성 인식 영상 피드백 장치는 일반 모드에서 통화 모드로 전환할 수 있다. 여기서, 상기 일반 모드는 사용자의 음성에 따라 해당 영상을 제공하는 모드를 의미한다. Specifically, when a user makes a call request or a call request is received from the other party during the provision of image feedback, the voice recognition image feedback apparatus can switch from the normal mode to the call mode. Here, the normal mode means a mode for providing the corresponding image according to the user's voice.
이어서, 상기 음성 인식 영상 피드백 장치는 도 33의 방법을 통하여 화상 통화를 수행한다. 물론, 상기 화상 통화가 종료된 후에는 상기 통화 모드가 상기 일반 모드로 전환될 것이다. Then, the voice recognition image feedback apparatus performs a video call through the method of FIG. Of course, after the video call is ended, the call mode will be switched to the normal mode.
즉, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 일반 모드와 통화 모드의 전환을 수행할 수 있다. That is, the voice recognition image feedback providing system of this embodiment can perform switching between the normal mode and the call mode.
한편, 일반 모드, 통화 모드만을 언급하였지만 디스플레이 소자로 영상을 출력하는 디스플레이 모드 등 다양한 모드들이 설정될 수 있고, 상황에 따라 모드들의 전환이 자동으로 이루어질 수 있다. Meanwhile, various modes such as a normal mode and a display mode in which only a communication mode is mentioned but an image is output to a display device can be set, and the modes can be switched automatically according to the situation.
도 35는 본 발명의 다른 실예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다.35 is a diagram illustrating a system for providing speech recognition image feedback according to another exemplary embodiment of the present invention.
도 35를 참조하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 음성 인식 영상 피드백 장치(100) 및 사용자 기기(3500)를 포함할 수 있다. Referring to FIG. 35, the speech recognition image feedback system of the present embodiment may include a speech recognition
사용자 기기(3500)는 사용자가 사용하는 기기로서, 예를 들어 스마트폰, 리모콘 등일 수 있다. 여기서, 사용자 기기(3500)는 음성 인식 영상 피드백 장치(100)와 무선 또는 유선으로 연결될 수 있다. The
일 실시예에 따르면, 사용자가 사용자 기기(3500)로 음성 입력하면, 음성 인식 영상 피드백 장치(100)가 사용자 기기(3500)로부터 상기 음성에 대한 정보를 수신하고 해당 영상을 사용자 주변 위치 영역으로 제공할 수 있다. According to one embodiment, when the user inputs a voice to the
다른 실시예에 따르면, 음성 인식 영상 피드백 장치(100)는 사용자의 음성을 직접 인식하고, 상기 음성에 해당하는 영상을 사용자 기기(3500)를 통하여 사용자에게 제공할 수 있다. According to another embodiment, the voice recognition
또 다른 실시예에 따르면, 사용자 기기(3500)는 음성 인식 영상 피드백 장치(100)의 제어 기기일 수 있다. 따라서, 사용자는 사용자 기기(3500)를 이용하여 음성 인식 영상 피드백 장치(100)의 전원 온/오프, 제어 설정 등을 수행할 수 있다. According to another embodiment, the
또 다른 실시예에 따르면, 사용자 위치를 추적하기 위하여, 음성 인식 영상 피드백 장치(100)는 카메라를 이용하여 사용자의 위치를 영상으로 촬영하고 사용자 기기(3500)가 사용자의 음성을 인식할 수 있다. 이 경우, 음성 인식 영상 피드백 장치(100)는 상기 촬영된 영상과 상기 인식된 음성에 기반하여 사용자의 위치를 결정할 수 있다. According to another embodiment, in order to track the user's position, the voice recognition
도 36은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 개략적으로 도시한 도면이다. 36 is a view schematically showing a system for providing speech recognition image feedback according to another embodiment of the present invention.
도 36을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치(100)는 건물 내의 바닥이 아닌 천장(3600)에 설치될 수 있다. Referring to FIG. 36, the speech recognition
이 경우, 영상이 천장(3600)으로부터 바닥으로 출력되므로, 더 선명한 영상이 사용자에게 제공될 수 있다. In this case, since the image is output from the
다른 실시예에 따르면, 음성 인식 영상 피드백 장치가 바닥에 설치되고, 영상 출력 소자만 천장(3600)에 설치될 수도 있다. 상기 영상 출력 소자는 상기 음성 인식 영상 피드백 장치의 제어 하에 음성에 해당하는 영상을 사용자 주변의 바닥으로 출력할 수 있다. According to another embodiment, a voice recognition image feedback device may be installed on the floor, and only the video output device may be installed on the
또 다른 실시예에 따르면, 음성 인식 영상 피드백 장치(100)가 천장(3600)이 아닌 벽면에 설치될 수도 있다. According to another embodiment, the speech recognition
정리하면, 본 실시예의 음성 인식 영상 피드백 장치(100)는 바닥, 천장, 벽면 등 다양한 장소에 설치될 수 있다. In summary, the speech recognition
이하, 메인 기기와 서브 기기를 포함하는 음성 인식 영상 피드백 제공 시스템의 동작을 상술하겠다. Hereinafter, the operation of the voice recognition image feedback providing system including the main device and the sub-device will be described in detail.
도 37은 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 제공 시스템을 도시한 도면이다. 37 is a diagram illustrating a system for providing speech recognition image feedback according to another embodiment of the present invention.
도 37을 참조하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 메인 음성 인식 영상 피드백 장치(3700, 메인 기기) 및 적어도 하나의 서브 음성 인식 영상 피드백 장치(3702, 서브 기기)를 포함할 수 있다. Referring to FIG. 37, the speech recognition image feedback system of the present embodiment may include a main speech recognition image feedback apparatus 3700 (main apparatus) and at least one sub-speech recognition image feedback apparatus 3702 (sub-apparatus).
메인 음성 영상 피드백 장치(3700)는 서브 음성 인식 영상 피드백 장치들(3702)을 중앙 제어하는 역할을 수행한다. The main voice
서브 음성 인식 영상 피드백 장치(3702)는 메인 음성 영상 피드백 장치(3700)와 무선 또는 유선으로 연결되며, 메인 음성 영상 피드백 장치(3700)의 제어에 따라 동작할 수 있다. The sub-speech recognition
음성 인식 영상 피드백 장치들(3700 및 3702)의 구조적 배열을 살펴보면, 메인 음성 인식 영상 피드백 장치(3700)는 주로 건물의 중앙부, 예를 들어 거실에 위치할 가능성이 높고, 서브 음성 인식 영상 피드백 장치들(3702)은 각 방, 화장실 등에 위치할 가능성이 높다. The structural arrangement of the speech recognition
또한, 메인 음성 인식 영상 피드백 장치(3700)는 주로 바닥에 위치하겠지만, 서브 음성 인식 영상 피드백 장치들(3702)은 바닥뿐만 아니라 천장, 벽면 등에도 배치될 수 있다. Also, the main speech recognition
도 38은 본 발명의 일 실시예에 따른 메인 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다. 38 is a block diagram illustrating the configuration of a main speech recognition image feedback apparatus according to an embodiment of the present invention.
도 38을 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(3800), 음성 인식부(3802), 위치 추적부(3804), 영상 피드백부(3806), 음성 피드백부(3808), 서브 기기 제어부(3810), 통신부(3812) 및 저장부(3814)를 포함할 수 있다. 38, the voice recognition image feedback apparatus of the present embodiment includes a
음성 인식부(3802)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성에 포함된 사용자의 요청을 파악한다.The
또한, 음성 인식부(3802)는 서브 음성 인식 영상 피드백 장치로부터 음성을 수신하고, 상기 수신된 음성을 통하여 사용자의 요청을 파악할 수도 있다. In addition, the
위치 추적부(3804)는 상기 인식된 음성, 또는 서브 음성 인식 영상 피드백 장치로부터 제공된 음성을 이용하여 사용자의 위치를 추적할 수 있다. The
다른 실시예에 따르면, 위치 추적부(3804)는 상기 서브 음성 인식 영상 피드백 장치로부터 추적된 위치에 대한 정보를 수신할 수도 있다.According to another embodiment, the
영상 피드백부(3806)는 상기 음성에 해당하는 영상을 사용자에게 제공한다.The
음성 피드백부(3808)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. The
서브 기기 제어부(3810)는 서브 음성 인식 영상 피드백 장치의 동작을 제어한다. 예를 들어, 서브 기기 제어부(3810)는 상기 음성에 해당하는 영상을 상기 서브 음성 인식 영상 피드백 장치를 통하여 출력하도록 상기 서브 음성 인식 영상 피드백 장치를 제어할 수 있다. The
통신부(3812)는 상기 메인 음성 인식 영상 피드백 장치와 상기 서브 음성 인식 영상 피드백 장치의 연결 통로이다. The
저장부(3814)는 음성, 영상 등의 각종 정보를 저장한다. The
제어부(3800)는 상기 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.The
도 39는 본 발명의 일 실시예에 따른 서브 음성 인식 영상 피드백 장치의 구성을 도시한 블록도이다. 39 is a block diagram illustrating the configuration of a sub-speech recognition image feedback apparatus according to an embodiment of the present invention.
도 39를 참조하면, 본 실시예의 서브 음성 인식 영상 피드백 장치는 제어부(3900), 통신부(3902), 음성 인식부(3904), 위치 추적부(3906), 영상 피드백부(3910), 음성 피드백부(3912) 및 메인 기기부(3914)를 포함할 수 있다. 39, the sub-voice recognition image feedback apparatus of the present embodiment includes a
통신부(3902)는 상기 서브 음성 인식 영상 피드백 장치와 상기 메인 음성 인식 영상 피드백 장치의 연결 통로이다. The
음성 인식부(3904)는 사용자의 음성을 수신하고, 상기 수신된 음성을 상기 메인 음성 인식 영상 피드백 장치로 전송할 수 있다. 물론, 음성 인식부(3904)는 자체적으로 상기 음성을 분석하여 사용자의 요청을 파악할 수도 있다. The
위치 추적부(3906)는 상기 음성을 이용하여 사용자의 위치를 추적할 수 있다. 이러한 위치 추적부(3906)는 위치 추적과 관련된 기능을 담당한다.The
영상 피드백부(3910)는 상기 메인 음성 인식 영상 피드백 장치로부터 상기 음성에 해당하는 영상을 수신하고, 상기 수신된 영상을 사용자에게 제공할 수 있다. The
음성 피드백부(3912)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. The
메인 기기부(3914)는 상기 메인 음성 인식 영상 피드백 장치와 연결되며, 상기 메인 음성 인식 영상 피드백 장치의 제어하에 영상 피드백과 관련된 동작을 수행할 수 있다. The
제어부(3900)는 상기 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.The
도 40은 본 발명의 일 실시예에 따른 도 37의 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이고, 도 41은 본 발명의 다른 실시예에 따른 도 37의 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. FIG. 40 is a flowchart illustrating an operation of the speech recognition image feedback providing system of FIG. 37 according to an embodiment of the present invention, FIG. 41 is a flowchart of a speech recognition image providing system of FIG. 37 according to another embodiment of the present invention Fig.
도 40을 참조하면, 메인 음성 인식 영상 피드백 장치(메인 기기, 3700)가 사용자의 음성을 인식하면(S4000), 메인 음성 인식 영상 피드백 장치(3700) 또는 서브 음성 인식 영상 피드백 장치들(서브 기기, 3702)이 사용자의 위치를 추적할 수 있다(S4002). 40, when the main speech recognition image feedback apparatus (main apparatus) 3700 recognizes the user's speech (S4000), the main speech recognition
이어서, 메인 음성 인식 영상 피드백 장치(3700)는 상기 음성에 해당하는 영상을 상기 추적된 사용자의 위치에 가장 가까운 서브 음성 인식 영상 피드백 장치(3702)로 전송하며, 서브 음성 인식 영상 피드백 장치(3702)는 상기 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 상기 전송된 영상을 출력할 수 있다(S4004). Subsequently, the main speech recognition
도 41를 참조하면, 서브 음성 인식 영상 피드백 장치(3702)가 사용자의 음성을 수신하면(S4100), 서브 음성 인식 영상 피드백 장치(3702)가 상기 수신된 음성에 대한 정보를 메인 음성 인식 영상 피드백 장치(3702)로 전송한다. 41, when the sub-voice recognition
이어서, 메인 음성 인식 영상 피드백 장치(3702)는 자신 또는 서브 음성 인식 영상 피드백 장치들(3702), 바람직하게는 상기 음성을 수신한 서브 음성 인식 영상 피드백 장치(3702)를 통하여 사용자의 위치를 추적한다(S4102). Subsequently, the main speech recognition
계속하여, 메인 음성 인식 영상 피드백 장치(3700)는 상기 음성에 해당하는 영상을 상기 추적된 사용자의 위치에 가장 근접한 서브 음성 인식 영상 피드백 장치(3702)로 전송하며, 서브 음성 인식 영상 피드백 장치(3702)는 상기 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 상기 전송된 영상을 출력할 수 있다(S4104). Subsequently, the main speech recognition
또 다른 실시예에 따르면, 메인 음성 인식 영상 피드백 장치(3700)가 사용자의 음성을 인식하며, 메인 음성 인식 영상 피드백 장치(3700)가 상기 음성이 입력된 방향으로 하여 사용자의 위치를 결정하고, 상기 결정된 사용자가 위치에 가장 근접한 최적의 서브 음성 인식 영상 피드백 장치(3702)를 선택한다. According to another embodiment, the main voice recognition
이어서, 메인 음성 인식 영상 피드백 장치(3700)는 상기 음성에 해당하는 영상을 상기 최적의 서브 음성 인식 영상 피드백 장치(3702)로 전송하며, 서브 음성 인식 영상 피드백 장치(3702)는 상기 사용자의 위치에 해당하는 사용자 주변 위치 영역으로 상기 전송된 영상을 출력할 수 있다. Subsequently, the main speech recognition
또 다른 실시예에 따르면, 메인 음성 인식 영상 피드백 장치(3700)는 사용자의 음성에 따른 영상을 복수의 서브 음성 인식 영상 피드백 장치들(3702)로 전송할 수 있으며, 서브 음성 인식 영상 피드백 장치들(3702)이 상기 전송된 영상들을 각기 사용자 주변 위치 영역으로 출력할 수 있다. According to another embodiment, the main speech recognition
이 경우, 상기 영상들이 오버랩될 수도 있고, 각기 다른 영역에 출력될 수 있다. In this case, the images may be overlapped and output to different areas.
또한, 서브 음성 인식 영상 피드백 장치들(3702)로부터 출력되는 영상들이 동일한 영상일 수도 있고 다른 영상일 수도 있다. 서브 음성 인식 영상 피드백 장치들(3702)이 다른 영상을 출력하는 경우, 사용자는 한번에 더 많은 정보 등을 더 입체적인 느낌을 가지고 제공받을 수 있다. In addition, the images output from the sub-speech recognition
예를 들어, 사용자가 "앨범을 보여줘"라고 음성을 입력한 경우, 서브 음성 인식 영상 피드백 장치들(3702)이 "고등학교 앨범"의 홀로그램 및 "대학교 앨범"의 홀로그램을 각기 다른 영역으로 하여 사용자에게 제공할 수 있다. For example, when the user inputs a voice saying "Show album ", the sub-speech recognition
이 경우, 사용자가 홀로그램의 특정 개체(예를 들어, 아이콘 등)를 선택하면, 메인 음성 인식 영상 피드백 장치(3700) 또는 서브 음성 인식 영상 피드백 장치(3700)가 사용자의 움직임을 감지하여 상기 선택된 특정 개체에 해당하는 다른 영상을 사용자에게 추가적으로 제공할 수도 있다. In this case, when the user selects a specific entity (e.g., icon) of the hologram, the main speech recognition
한편, 위에서는 메인 음성 인식 영상 피드백 장치(3700)가 영상을 출력하는 내용은 언급하지 않았지만, 메인 음성 인식 영상 피드백 장치(3700)가 영상을 출력하는 것을 배제하는 것은 아니다. The above description does not exclude the fact that the main speech recognition
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 메인 음성 인식 영상 피드백 장치(3700) 및 이에 의해 제어되는 서브 음성 인식 영상 피드백 장치들(3702)을 포함하여 다양한 서비스를 제공할 수 있다. In summary, the speech recognition image feedback system of the present embodiment can provide various services including the main speech recognition
도 42는 본 발명의 또 다른 실시예에 따른 음성 인식 영상 피드백 장치를 도시한 블록도이다. 42 is a block diagram illustrating a speech recognition image feedback apparatus according to another embodiment of the present invention.
도 42를 참조하면, 본 실시예의 음성 인식 영상 피드백 장치는 제어부(4200), 음성 인식부(4202), 위치 추적부(4204), 영상 피드백부(4206), 가상 개체부(4208), 음성 피드백부(4210), 환경 설정부(4212) 및 저장부(4214)를 포함할 수 있다. 42, the speech recognition image feedback apparatus of the present embodiment includes a
음성 인식부(4202)는 사용자의 음성을 인식하고, 상기 음성을 분석하여 상기 음성이 전달하는 사용자의 요청을 파악한다. The
위치 추적부(4204)는 상기 음성 인식 영상 피드백 장치로 입력되는 음성의 방향으로 하여 사용자의 위치를 추적할 수 있다. The
영상 피드백부(4206)는 상기 음성에 해당하며 가상 개체를 포함하는 영상을 사용자에게 제공할 수 있다. The
가상 개체부(4208)은 가상 개체를 생성하고 관리하는 역할을 수행한다. 여기서, 상기 가상 개체는 상기 사용자에게 제공되는 영상에 포함된다. The
음성 피드백부(4210)는 상기 인식된 음성에 해당하는 사운드(음성)을 사용자에게 제공할 수 있다. The
환경 설정부(4212)는 상기 음성 인식 영상 피드백 장치의 각종 설정을 관리하며, 예를 들어 가상 개체 생성과 관련된 설정을 제어할 수 있다. The
저장부(4214)는 음성, 영상 등의 각종 정보를 저장한다. The
제어부(4200)는 음성 인식 영상 피드백 장치의 구성요소들의 동작을 전반적으로 제어한다.The
도 43은 본 발명의 제 23 실시예에 따른 음성 인식 영상 피드백 제공 시스템의 동작을 도시한 순서도이다. FIG. 43 is a flowchart illustrating an operation of a speech recognition image feedback providing system according to a twenty-third embodiment of the present invention.
도 43을 참조하면, 음성 인식 영상 피드백 장치는 사용자의 음성을 인식한다(S4300).Referring to FIG. 43, the speech recognition image feedback apparatus recognizes the user's voice (S4300).
이어서, 상기 음성 인식 영상 피드백 장치는 상기 음성이 입력된 방향으로 하여 사용자의 위치를 추적한다(S4302).Then, the voice recognition image feedback apparatus tracks the location of the user in the direction in which the voice is input (S4302).
계속하여, 상기 음성 인식 영상 피드백 장치는 가상 개체를 포함한 영상을 사용자에게 제공할 수 있다(S4304).Subsequently, the speech recognition image feedback apparatus may provide a user with a virtual entity (S4304).
예를 들어, 사용자가 "셔츠를 보여줘"라고 음성 입력하면, 상기 음성 인식 영상 피드백 장치는 사용자 개체(아바타), 특히 실제 사용자의 신체 사이즈를 가지는 사용자 개체에 셔츠를 입힌 영상을 상기 사용자에게 제공할 수 있다. For example, when the user inputs a voice saying "show shirt ", the voice recognition image feedback device provides the user with an image of a shirt with a user object (avatar), in particular a user object having a body size of the actual user .
따라서, 상기 사용자가 더 실제적인 느낌을 가질 수 있다. Thus, the user can have a more realistic feel.
다른 예로, 사용자가 "주간 날씨를 보여줘"라고 음성 입력하면, 상기 음성 인식 영상 피드백 장치는 주간 날씨를 예보하는 여성 기상 캐스터의 개체 및 주간 날씨 지도를 포함하는 영상을 사용자에게 제공할 수 있다. As another example, if the user inputs a voice saying "show day weather ", the voice recognition image feedback device can provide the user with an image including a daylight weather map and a daylight weather forecast for a woman weather forecaster.
이 때, 상기 개체는 주간 날씨를 동적으로 안내할 수 있다. At this time, the entity can dynamically guide daytime weather.
즉, 상기 개체는 사용자 개체로 제한되지는 않으며, 사용자가 원하는 정보를 전달하는 데 필요한 모든 개체를 포함한다. That is, the entity is not limited to a user entity but includes all the entities necessary for the user to transmit desired information.
정리하면, 본 실시예의 음성 인식 영상 피드백 제공 시스템은 사용자에게 더 잘 정보를 전달하기 위하여 가상 개체를 사용할 수 있다. In summary, the speech recognition image feedback system of the present embodiment can use a virtual entity to transmit information to a user.
위의 실시예들에서는, 상기 음성 인식 영상 피드백 장치가 영상을 출력하는 내용까지만 언급하였으나, 영상을 출력한 후 사용자가 음성, 동작 또는 디스플레이 터치로 새로운 요청을 입력할 수 있다. 이 경우, 상기 음성 인식 영상 피드백 장치는 새로운 영상을 제공할 수 있다. 여기서, 상기 제공되는 영상은 단순 정보만을 디스플레이하는 정지 영상일 수도 있고, 동적으로 움직이는 동영상일 수도 있다. In the above embodiments, only the contents of the image output by the voice recognition image feedback device are described. However, after outputting the image, the user can input a new request by voice, operation, or display touch. In this case, the speech recognition image feedback apparatus can provide a new image. Here, the provided image may be a still image that displays only simple information, or a dynamic moving image.
또한, 상기 음성 인식 영상 피드백 장치 또는 외부 기기로 사용자가 설정하는 구체적인 내용에 대하여 언급하지 않았으나, 기기에 설정하는 모든 방법이 본 발명에 적용될 수 있다. 특히, 음성 또는 디스플레이 터치를 통하여 사용자 등록, 환경 설정 등의 방법이 본 발명에 적합할 것이다. Further, although the specific contents set by the user in the voice recognition image feedback apparatus or external apparatus are not mentioned, all the methods set in the apparatus can be applied to the present invention. Particularly, a method of user registration and environment setting through voice or display touch will be suitable for the present invention.
한편, 전술된 실시예의 구성 요소는 프로세스적인 관점에서 용이하게 파악될 수 있다. 즉, 각각의 구성 요소는 각각의 프로세스로 파악될 수 있다. 또한 전술된 실시예의 프로세스는 장치의 구성 요소 관점에서 용이하게 파악될 수 있다.On the other hand, the components of the above-described embodiment can be easily grasped from a process viewpoint. That is, each component can be identified as a respective process. Further, the process of the above-described embodiment can be easily grasped from the viewpoint of the components of the apparatus.
또한 앞서 설명한 기술적 내용들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예들을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 하드웨어 장치는 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.In addition, the above-described technical features may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다. It will be apparent to those skilled in the art that various modifications, additions and substitutions are possible, without departing from the spirit and scope of the invention as defined by the appended claims. Should be regarded as belonging to the following claims.
100 : 음성 인식 영상 피드백 장치
102 : 사용자
110 : 디스플레이 소자
200 : 빔 프로젝터
300 : 바디
310, 400, 402 : 가이드100: speech recognition image feedback device 102: user
110: display device 200: beam projector
300:
Claims (2)
상기 인식된 음성에 해당하는 영상을 출력하는 영상 피드백부; 및
상기 음성 인식부 및 상기 영상 피드백부의 동작을 제어하는 제어부를 포함하되,
상기 영상의 색상, 화질, 해상도 및 사이즈 중 적어도 하나 또는 상기 영상과 매칭되는 사운드가 상기 인식된 음성, 상기 사용자의 기분 또는 상기 사용자의 바이오리듬에 따라 가변되며, 상기 가변된 영상이 상기 사용자의 위치에 대응하는 영역으로 출력되는 것을 특징으로 하는 음성 인식 영상 피드백 장치.A voice recognition unit for recognizing a voice of the user;
An image feedback unit for outputting an image corresponding to the recognized voice; And
And a controller for controlling operations of the speech recognition unit and the image feedback unit,
Wherein at least one of a color, an image quality, a resolution and a size of the image or a sound matching the image is varied according to the recognized voice, the mood of the user, or the biorhythm of the user, Is output to an area corresponding to the speech recognition unit.
영상을 출력하는 영상 피드백부; 및
상기 음성 인식부 및 상기 영상 피드백부의 동작을 제어하는 제어부를 포함하되,
상기 음성에 영상의 제공을 요청하는 사용자의 요청이 포함되지 않음에도 불구하고 상기 음성의 톤, 상기 음성에 포함된 기분을 표시하는 단어, 상기 사용자의 움직임 중 적어도 하나에 기초하여 파악된 상기 사용자의 기분에 따라 해당 영상이 자동으로 상기 사용자의 위치에 대응하는 영역으로 제공되는 것을 특징으로 하는 음성 인식 영상 피드백 장치.A voice recognition unit for recognizing a voice of the user;
An image feedback unit for outputting an image; And
And a controller for controlling operations of the speech recognition unit and the image feedback unit,
The user's perception of the user based on at least one of the tone of the voice, the word indicating the mood contained in the voice, and the movement of the user, even though the request of the user requesting the provision of the image is not included in the voice And the corresponding image is automatically provided as an area corresponding to the position of the user according to mood.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190015574A KR20190024920A (en) | 2019-02-11 | 2019-02-11 | Voice recognition image feedback providing system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190015574A KR20190024920A (en) | 2019-02-11 | 2019-02-11 | Voice recognition image feedback providing system and method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170110933A Division KR20190024190A (en) | 2017-08-31 | 2017-08-31 | Voice recognition image feedback providing system and method |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200065460A Division KR20200067787A (en) | 2020-05-29 | 2020-05-29 | Voice recognition image feedback providing system and method |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190024920A true KR20190024920A (en) | 2019-03-08 |
Family
ID=65801736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190015574A KR20190024920A (en) | 2019-02-11 | 2019-02-11 | Voice recognition image feedback providing system and method |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20190024920A (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170081883A (en) | 2016-01-05 | 2017-07-13 | 한국전자통신연구원 | Voice recognition terminal, voice recognition server and voice recognition method performing a personalized voice recognition for performing personalized voice recognition |
-
2019
- 2019-02-11 KR KR1020190015574A patent/KR20190024920A/en not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170081883A (en) | 2016-01-05 | 2017-07-13 | 한국전자통신연구원 | Voice recognition terminal, voice recognition server and voice recognition method performing a personalized voice recognition for performing personalized voice recognition |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20190024190A (en) | Voice recognition image feedback providing system and method | |
US20240171930A1 (en) | User Experience Localizing Binaural Sound During a Telephone Call | |
CN110337318A (en) | Virtual and real object record in mixed reality device | |
US20160109957A1 (en) | Information processing apparatus and application execution method | |
US11343471B2 (en) | Information processing device and information processing method for communication using three-dimensional space | |
US11595615B2 (en) | Conference device, method of controlling conference device, and computer storage medium | |
US20190237078A1 (en) | Voice recognition image feedback providing system and method | |
US20180150722A1 (en) | Photo synthesizing method, device, and medium | |
CN112764549B (en) | Translation method, translation device, translation medium and near-to-eye display equipment | |
JP2016045814A (en) | Virtual reality service providing system and virtual reality service providing method | |
KR20220148915A (en) | Audio processing methods, apparatus, readable media and electronic devices | |
CN111273775A (en) | Augmented reality glasses, KTV implementation method based on augmented reality glasses and medium | |
WO2018087771A1 (en) | Spatialized verbalization of visual scenes | |
JP2020136921A (en) | Video call system and computer program | |
KR20190024919A (en) | Voice recognition image feedback providing system and method | |
CN113780013A (en) | Translation method, translation equipment and readable medium | |
CN113851029A (en) | Barrier-free communication method and device | |
KR20190024920A (en) | Voice recognition image feedback providing system and method | |
KR20200067787A (en) | Voice recognition image feedback providing system and method | |
CN108877407A (en) | Methods, devices and systems and augmented reality glasses for supplementary AC | |
JP7519441B2 (en) | User terminal and control method thereof | |
CN111741287B (en) | Method for triggering content by using position information of MR glasses | |
EP3916683A1 (en) | Method and apparatus for displaying an image, electronic device and computer-readable storage medium | |
EP4054181A1 (en) | Virtual space sharing system, virtual space sharing method, and virtual space sharing program | |
US12112436B2 (en) | Systems and methods of implementing real-world ambient variance in augmented environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E601 | Decision to refuse application |