KR101687614B1 - Method for voice recognition and image display device thereof - Google Patents
Method for voice recognition and image display device thereof Download PDFInfo
- Publication number
- KR101687614B1 KR101687614B1 KR1020100075173A KR20100075173A KR101687614B1 KR 101687614 B1 KR101687614 B1 KR 101687614B1 KR 1020100075173 A KR1020100075173 A KR 1020100075173A KR 20100075173 A KR20100075173 A KR 20100075173A KR 101687614 B1 KR101687614 B1 KR 101687614B1
- Authority
- KR
- South Korea
- Prior art keywords
- character
- voice
- section
- signal
- voice signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000033001 locomotion Effects 0.000 claims description 38
- 230000005236 sound signal Effects 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
본원 발명은 음성 인식률을 증가시켜 사용자가 보다 편리하게 영상 표시 장치를 제어할 수 있는 음성 인식 방법 및 그에 따른 영상 표시 장치이다.
본 발명의 일 실시예에 따른 음성 인식 방법 및 그에 따른 영상 표시 장치는 음성 인식률을 증가시킬 수 있다. 그에 따라서, 더욱 정확하게 영상 표시 장치를 원격으로 제어할 수 있다. The present invention relates to a voice recognition method and a video display apparatus according to the present invention in which a user can more easily control an image display apparatus by increasing the voice recognition rate.
The speech recognition method and the image display apparatus according to an embodiment of the present invention can increase the voice recognition rate. Accordingly, the image display apparatus can be remotely controlled more accurately.
Description
본 발명은 음성 인식 방법 및 그에 따른 영상 표시 장치에 관한 것이다. The present invention relates to a speech recognition method and a video display apparatus therefor.
더욱 상세하게는 높은 음성 인식률을 갖는 음성 인식 방법 및 그에 따른 영상 표시 장치에 관한 것이다. And more particularly, to a speech recognition method having a high voice recognition rate and a video display device therefor.
영상 표시 장치는 소정 영상을 디스플레이할 수 있는 장치로, 디지털 텔레비전, 셋탑 박스(set-top box), PVR(Personal Video Recoder), 또는 DVD 상영장치(Digital Video Disc player) 등이 있다. 이러한 영상 표시 장치를 사용자가 원거리에서 조작하기 위해서는 원격 제어 장치 등을 이용할 수 있다. The video display device is a device capable of displaying a predetermined video, and includes a digital television, a set-top box, a PVR (Personal Video Recorder), or a DVD video player. A remote control device or the like can be used for the user to operate such a video display device from a long distance.
기존의 아날로그 방송을 벗어나, 디지털 기반의 디지털 방송 기술이 개발되고 상용화되고 있다. 그에 따라, 기존의 전파나 유선 케이블 매체 외에도 각 가정에 연결되어 있는 인터넷 네트워크를 이용하여 실시간 방송, CoD(Contents on Demand), 게임 또는 뉴스 등 다양한 종류의 컨텐츠 서비스를 사용자에게 제공할 수 있게 되었다. 그리고, 디지털 방송 수신기는 전술한 각종 컨텐츠 서비스를 제공받아 디스플레이할 수 있게 되었다. 상기 인터넷 네트워크를 이용한 컨텐츠 서비스 제공의 예로서 IPTV(Internet Protocol TV)를 들 수 있다. Beyond conventional analog broadcasting, digital-based digital broadcasting technology is being developed and commercialized. Accordingly, it is possible to provide various types of contents services to users, such as real-time broadcasting, contents on demand (CoD), games, or news, using an Internet network connected to each home in addition to existing radio waves or cable cable media. In addition, the digital broadcast receiver can receive and display various contents services described above. An example of content service provision using the Internet network is IPTV (Internet Protocol TV).
전술한 바와 같이, 디지털 방송 기술의 개발 및 IPTV 서비스의 제공 등으로 인해, 영상 표시 장치를 매우 다양한 서비스를 제공받을 수 있으며, 게임 등도 영상 표시 장치를 통하여 이용할 수 있다. 영상 표시 장치가 제공할 수 있는 컨텐츠 또는 서비스 등이 매우 다양해 지면서, 소정 컨텐츠 또는 서비스를 이용하기 위해서 필요한 리모컨 컨트롤러(remote controller)의 키들 또한 무수히 많아지고 있으며, 각각의 키들은 다양하고 복잡한 제어 명령을 포함할 수 있다. As described above, due to the development of the digital broadcasting technology and the provision of the IPTV service, the video display device can be provided with a wide variety of services, and games and the like can be used through the video display device. As the contents or services that can be provided by the video display device are greatly diversified, the number of keys of a remote controller necessary for using a predetermined content or service is also increasing. Each of the keys has various and complicated control commands .
그에 따라서, 한정된 키들만을 포함하는 버튼식 리모트 컨트롤러 이외에 음성 인식에 의한 제어 명령 입력이 가능한 음성 인식 리모트 컨트롤러가 개발되고 있다. Accordingly, a voice recognition remote controller capable of inputting a control command by voice recognition in addition to a button-type remote controller including only limited keys has been developed.
도 1은 음성 인식에 의한 영상 표시 장치의 제어를 설명하기 위한 도면이다. 1 is a diagram for explaining control of a video display device by voice recognition.
도 1을 참조하면, 사용자는 음성 인식 기능이 있는 리모트 컨트롤러(120)를 통하여 소정 명령을 포함하는 음성 신호를 입력한다. 그러면, 리모트 컨트롤러(120)는 음성 신호를 영상 표시 장치(110)로 전송하고, 영상 표시 장치(110)는 음성 신호에 포함된 명령을 인식하여 그에 따른 제어 동작을 수행한다. Referring to FIG. 1, a user inputs a voice signal including a predetermined command through a
도 2는 음성 인식의 일반적인 동작을 설명하기 위한 플로우차트이다. 2 is a flowchart for explaining a general operation of speech recognition.
도 2를 참조하면, 일반적인 음성 인식 방법에 있어서, 먼저 리모트 컨트롤러(120)로 음성 신호가 입력된다(210 단계). Referring to FIG. 2, in a general speech recognition method, a voice signal is first input to a remote controller 120 (step 210).
입력된 음성 신호를 전송받은 영상 표시 장치(110)는 음성 신호에 포함된 단어를 판별한다(220 단계). 즉, 음성 신호에 포함되는 명령을 인식한다. The
그리고, 단어 인식 결과에 따른 제어 동작을 수행한다(230 단계). Then, a control operation is performed according to the word recognition result (operation 230).
음성 인식에 의하여 영상 표시 장치를 원격으로 제어하는 리모트 컨트롤러는 다양한 제어 키들을 유동적으로 입력할 수 있으나, 음성 신호의 인식에 있어서 오류가 발생하면, 잘못된 제어 키가 입력될 수 있다. A remote controller for remotely controlling an image display apparatus by voice recognition can flexibly input various control keys, but if an error occurs in recognition of a voice signal, a wrong control key can be input.
따라서, 높은 음성 인식율을 가지며 정확도가 높은 음성 인식이 가능한 음성 인식 방법 및 그에 따른 영상 표시 장치를 제공할 필요가 있다. Accordingly, there is a need to provide a speech recognition method capable of speech recognition with high speech recognition rate and high accuracy, and a video display device accordingly.
본원 발명은 음성 인식률을 증가시킬 수 있는 음성 인식 방법 및 그에 따른 영상 표시 장치의 제공을 목적으로 한다. The present invention aims to provide a speech recognition method capable of increasing the speech recognition rate and a video display device therefor.
또한, 본원 발명은 음성 인식률을 증가시켜 사용자가 보다 편리하게 영상 표시 장치를 제어할 수 있는 음성 인식 방법 및 그에 따른 영상 표시 장치의 제공을 목적으로 한다. It is another object of the present invention to provide a speech recognition method and a video display apparatus therefor, in which a user can more easily control a video display device by increasing the voice recognition rate.
본 발명의 일 실시예에 따른 음성 인식 방법은 소정 시간 간격을 두고 일 완성형 문자에 대응되는 음성 신호를 입력받는 단계; 입모양의 움직임 영상을 촬영하는 단계; 상기 음성 신호로부터 상기 일 완성형 문자에 대응되는 음성 신호 구간을 추출하고, 상기 움직임 영상으로부터 상기 일 완성형 문자에 대응되는 영상 신호 구간을 추출하는 단계; 및 상기 음성 신호 구간과 상기 영상 신호 구간이 일치하면, 상기 일치된 구간 내에 입력된 상기 음성 신호 및 상기 영상 신호 중 적어도 하나에 대응되는 상기 완성형 문자를 인식하는 단계를 포함한다. According to an embodiment of the present invention, there is provided a speech recognition method comprising: receiving a speech signal corresponding to a one-shot type character at predetermined time intervals; Taking a mouth-shaped motion image; Extracting a voice signal section corresponding to the one-letter type character from the voice signal, and extracting a video signal section corresponding to the one-letter type character from the motion picture; And recognizing the completion type character corresponding to at least one of the voice signal and the video signal input in the matched section if the voice signal section and the video signal section coincide with each other.
또한, 상기 완성형 문자를 인식하는 단계는 상기 일치된 구간 내에 입력된 상기 음성 신호의 음성 특징값을 계산하는 단계; 및 상기 음성 특징값에 근거하여 상기 일 완성형 문자를 인식하는 단계를 포함할 수 있다. The recognizing of the completion type character may include calculating a speech characteristic value of the speech signal input in the matched section; And recognizing the complete character based on the voice feature value.
또한, 상기 완성형 문자를 인식하는 단계는 상기 일치된 구간 내에 입력된 상기 움직임 영상의 움직임 특징값을 계산하는 단계를 더 포함할 수 있다. The step of recognizing the completion character may further include calculating a motion feature value of the motion image input in the matched section.
또한, 상기 음성 특징값에 근거하여 상기 일 완성형 문자를 인식하는 단계는In addition, the step of recognizing the complete character based on the voice feature value
상기 음성 특징값 및 상기 움직임 특징값에 근거하여 상기 일 완성형 문자를 인식하는 단계를 포함할 수 있다. And recognizing the complete character based on the voice feature value and the motion feature value.
또한, 상기 음성 신호를 입력받는 단계는 상기 소정 명령을 형성하는 적어도 하나의 상기 완성형 문자에 대응되는 적어도 하나의 상기 음성 신호 각각을 상기 소정 시간 간격으로 입력받는 단계를 포함할 수 있다. The step of receiving the voice signal may include inputting at least one of the voice signals corresponding to at least one completion character forming the predetermined command at the predetermined time intervals.
또한, 상기 영상 신호 구간을 추출하는 단계는 상기 음성 신호가 입력되기 시작한 시점부터, 상기 소정 시간 간격이 시작되기 전까지의 구간을 상기 음성 신호 구간으로 추출하는 단계; 및 상기 입모양이 움직이기 시작한 시점부터 상기 입모양의 움직임이 정지되는 시점까지의 구간을 상기 영상 신호 구간으로 추출하는 단계를 포함할 수 있다. The step of extracting the video signal section may include extracting a section from the time when the audio signal starts to be input until the beginning of the predetermined time interval into the audio signal section. And extracting a section from the time point at which the mouth shape starts moving to the moment at which the mouth shape is stopped into the video signal section.
또한, 본 발명의 일 실시예에 따른 음성 인식 방법은 상기 인식된 완성형 문자 또는 상기 완성형 문자로 이루어지는 상기 소정 명령 정보를 실시간으로 사용자 인터페이스를 통하여 출력하는 단계; 및 상기 소정 명령을 수행하는 단계를 더 포함할 수 있다. According to another aspect of the present invention, there is provided a speech recognition method including: outputting the predetermined command information including the recognized complete character or the completed character through a user interface in real time; And performing the predetermined command.
또한, 상기 완성형 문자를 인식하는 단계는 상기 일치된 구간 내에 입력된 상기 음성 신호 및 상기 영상 신호를 인터넷 서버로 전송하는 단계; 및 상기 인터넷 서버의 음성 인식 엔진 및 음성 인식 데이터 베이스를 이용하여, 상기 완성형 문자를 인식하는 단계를 포함할 수 있다. In addition, the step of recognizing the completion type character may include transmitting the voice signal and the video signal input in the matched section to the Internet server. And recognizing the completion type character using the speech recognition engine and the speech recognition database of the Internet server.
또한, 본 발명의 일 실시예에 따른 음성 인식 방법은 상기 인식된 완성형 문자에 적어도 하나의 음성 유사어가 존재하는 경우, 상기 음성 유사어를 사용자 인터페이스를 통하여 출력하는 단계; 및 상기 적어도 하나의 음성 유사어 중 사용자가 의도한 완성형 문자를 상기 사용자 인터페이스를 통하여 선택받는 단계를 더 포함할 수 있다. According to another embodiment of the present invention, there is provided a method of recognizing speech, comprising the steps of: outputting the speech similarity through a user interface when at least one speech similarity exists in the recognized completed character; And receiving a completion character intended by a user of the at least one voice similarity through the user interface.
또한, 본 발명의 일 실시예에 따른 음성 인식 방법은 상기 인식된 완성형 문자로 이루어지는 소정 명령이 다수개 존재하는 경우, 상기 다수개의 소정 명령을 사용자 인터페이스를 통하여 출력하는 단계; 및 상기 다수개의 소정 명령 중 일 소정 명령을 상기 사용자 인터페이스를 통하여 선택받는 단계를 더 포함할 수 있다. According to another aspect of the present invention, there is provided a speech recognition method comprising: outputting a plurality of predetermined commands through a user interface when a plurality of predetermined commands are recognized; And receiving a predetermined command from the plurality of predetermined commands through the user interface.
또한, 본 발명의 일 실시예에 따른 음성 인식 방법은 상기 인식된 완성형 문자 또는 상기 완성형 문자로 이루어지는 상기 소정 명령 정보를 실시간으로 사용자 인터페이스를 통하여 출력하는 단계; 및 상기 음성 신호의 입력이 완료되면, 상기 소정 명령과 관련된 정보를 인터넷 서버에서 검색하고, 상기 검색된 정보를 상기 사용자 인터페이스를 통하여 출력하는 단계를 더 포함할 수 있다. According to another aspect of the present invention, there is provided a speech recognition method including: outputting the predetermined command information including the recognized complete character or the completed character through a user interface in real time; And searching the Internet server for information related to the predetermined command when the input of the voice signal is completed, and outputting the retrieved information through the user interface.
본 발명의 일 실시예에 따른 영상 표시 장치는 소정 시간 간격을 두고 일 완성형 문자에 대응되는 음성 신호를 입력받고, 입모양의 움직임 영상을 촬영하는 원격 제어부; 상기 음성 신호로부터 상기 일 완성형 문자에 대응되는 음성 신호 구간을 추출하고, 상기 움직임 영상으로부터 상기 일 완성형 문자에 대응되는 영상 신호 구간을 추출하며, 상기 음성 신호 구간과 상기 영상 신호 구간이 일치하면 상기 일치된 구간 내에 입력된 상기 음성 신호 및 상기 영상 신호 중 적어도 하나에 대응되는 상기 완성형 문자를 인식하는 음성 인식 처리부; 및 상기 인식된 완성형 문자로 이루어지는 소정 명령이 수행되도록 제어하는 제어부를 포함한다. The image display apparatus according to an embodiment of the present invention includes a remote controller for receiving a voice signal corresponding to a one-shot type character at a predetermined time interval and photographing a mouth-shaped motion image; Extracting a voice signal section corresponding to the one-letter type character from the voice signal, extracting a video signal section corresponding to the one-letter type character from the motion image, and, if the voice signal section and the video signal section coincide, A voice recognition processor for recognizing the completion type character corresponding to at least one of the voice signal and the video signal inputted within a predetermined interval; And a control unit for controlling the execution of the predetermined command including the recognized complete character.
또한, 상기 음성 인식 처리부는 상기 일치된 구간 내에 입력된 상기 음성 신호의 음성 특징값을 계산하고, 계산된 상기 음성 특징값에 근거하여 상기 일 완성형 문자를 인식할 수 있다. The speech recognition processing unit may calculate a speech characteristic value of the speech signal input in the matched section and recognize the one-sided character based on the calculated speech characteristic value.
본 발명의 일 실시예에 따른 음성 인식 방법 및 그에 따른 영상 표시 장치는 음성 인식율을 증가시킬 수 있다. 그에 따라서, 더욱 정확하게 영상 표시 장치를 원격으로 제어할 수 있다. The speech recognition method and the image display apparatus according to an embodiment of the present invention can increase the voice recognition rate. Accordingly, the image display apparatus can be remotely controlled more accurately.
또한, 본 발명의 일 실시예에 따른 음성 인식 방법 및 그에 따른 영상 표시 장치는 음성 인식율을 증가시킴으로써 사용자가 더욱 용이하고 편리하게 영상 표시 장치를 사용하도록 할 수 있다. In addition, the speech recognition method and the image display apparatus according to an embodiment of the present invention can increase the voice recognition rate, so that the user can more easily and conveniently use the image display apparatus.
도 1은 음성 인식에 의한 영상 표시 장치의 제어를 설명하기 위한 도면이다.
도 2는 음성 인식의 일반적인 동작을 설명하기 위한 플로우차트이다.
도 3은 본 발명의 일 실시예에 따른 영상 표시 장치를 나타내는 블록 다이어그램이다.
도 4는 도 3을 좀 더 상세히 나타내는 블록 다이어그램이다.
도 5는 본 발명의 일 실시예에 따른 영상 표시 장치가 출력하는 일 디스플레이 화면을 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 영상 표시 장치가 출력하는 다른 디스플레이 화면을 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 영상 표시 장치가 출력하는 다른 디스플레이 화면을 나타내는 도면이다.
도 8은 본 발명의 일 실시예에 따른 영상 표시 장치가 출력하는 다른 디스플레이 화면을 나타내는 도면이다.
도 9는 본 발명의 일 실시예에 따른 영상 표시 장치가 출력하는 다른 디스플레이 화면을 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 영상 표시 장치가 출력하는 다른 디스플레이 화면을 나타내는 도면이다.
도 11은 본 발명의 일 실시예에 따른 음성 인식 방법을 나타내는 도면이다. 1 is a diagram for explaining control of a video display device by voice recognition.
2 is a flowchart for explaining a general operation of speech recognition.
3 is a block diagram illustrating an image display apparatus according to an exemplary embodiment of the present invention.
FIG. 4 is a block diagram illustrating FIG. 3 in more detail.
5 is a view illustrating a display screen output by the image display apparatus according to an embodiment of the present invention.
6 is a view illustrating another display screen output by the image display apparatus according to an embodiment of the present invention.
7 is a view illustrating another display screen output by the image display apparatus according to the embodiment of the present invention.
8 is a view illustrating another display screen output by the image display apparatus according to an embodiment of the present invention.
9 is a view showing another display screen output by the image display apparatus according to an embodiment of the present invention.
10 is a view illustrating another display screen output by the image display apparatus according to an embodiment of the present invention.
11 is a diagram illustrating a speech recognition method according to an embodiment of the present invention.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings and accompanying drawings, but the present invention is not limited to or limited by the embodiments.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.As used herein, terms used in the present invention are selected from general terms that are widely used in the present invention while taking into account the functions of the present invention, but these may vary depending on the intention or custom of a person skilled in the art or the emergence of new technologies. Also, in certain cases, there may be a term chosen arbitrarily by the applicant, in which case the meaning thereof will be described in the description of the corresponding invention. Therefore, it is intended that the terminology used herein should be interpreted based on the meaning of the term rather than on the name of the term, and on the entire contents of the specification.
도 3은 본 발명의 일 실시예에 따른 영상 표시 장치를 나타내는 블록 다이어그램이다. 3 is a block diagram illustrating an image display apparatus according to an exemplary embodiment of the present invention.
도 3을 참조하면, 본 발명의 일 실시예에 따른 영상 표시 장치(300)는 신호 입력부(310), 음성 인식부(320), 제어부(Controller)(330), 신호 처리부(340), 인터페이스 부(350), OSD 생성부(355), 사용자 인터페이스 부(User Interface unit)(360) 및 저장부(380)를 포함한다. 또한, 외부적으로 원격 제어부(remote controller unit)(390)를 더 포함한다. 3, an
영상 표시 장치(300)는 디지털 텔레비전 또는 셋 톱 박스(set-top box) 등과 같은 디지털 방송 수신기이다. 영상 표시 장치(300)가 디지털 텔레비전인 경우, 도 3에 도시된 바와 같이 영상 표시 장치(300)는 디스플레이 부(Display unit)(370)를 포함한다. 또한, 영상 표시 장치(300)가 셋 톱 박스(set-top box)인 경우, 영상 표시 장치(300)는 디스플레이 부(Display unit)(370)를 포함하지 않는다. The
또한, 영상 표시 장치(300)에는 도 1에서 도시되는 구성 이외에 필요한 다른 구성이 더 포함될 수 있다.In addition, the
신호 입력부(310)는 튜너(tuner)(311) 및 네트워크 인터페이스 부(network interface unit)(315) 등을 포함할 수 있다. 이하에서는, 신호 입력부(310)가 수신하는 신호를 영상 신호라 한다. The
튜너(311)는 소정 주파수 대역의 채널을 통하여 무선 주파수(RF: Radio Frequency) 신호 형태로 전송되는 방송 신호를 선택적으로 수신한다. 즉, 방송국 등의 컨텐츠 제작자로부터 전송되며 소정 콘텐츠를 포함하는 방송 신호를 선택적으로 수신한다. The tuner 311 selectively receives a broadcast signal transmitted in the form of a radio frequency (RF) signal through a channel of a predetermined frequency band. That is, it selectively receives a broadcast signal transmitted from a content producer such as a broadcasting station and including a predetermined content.
네트워크 인터페이스 부(315)는 네트워크를 통하여 소정 인터넷 서버 또는 컨텐츠 제공자(CP: Content Provider) 서버에 접속하여, 상기 서버들과 소정 신호를 송수신한다. 구체적으로, 네트워크 인터페이스 부(315)는 컨텐츠 제공자로부터 소정 컨텐츠를 포함하는 방송 신호를 전송받는다. The
원격 제어부(390)는 소정 시간 간격을 두고 일 완성형 문자에 대응되는 음성 신호를 입력받고, 입모양의 움직임 영상을 촬영한다. 그리고, 입력받은 음성 신호 및 촬영된 움직임 영상을 인터페이스 부(350)로 전송한다. 원격 제어부(390)는 카메라 부(391), 마이크 부(393), 신호 변환부(395) 및 리모컨 인터페이스 부(397)를 포함할 수 있다. The
일 완성형 문자란, 하나의 문자 자체가 독립적으로 이용될 수 있는 문자로, 한글 완성형 문자로는 2350 개(확장형의 완성형 문자는 2850 개)의 문자가 있으며, 영문 완성형 문자로는 알파벳 개수인 26개의 문자가 있다. 여기서, 한글 완성형 문자는 적어도 하나의 자음(기본 자음 및 복합 자음)과 적어도 하나의 모음(기본 모음과 복합 모음)의 조합으로 이루어질 수 있다. One complete character is a character that can be used independently, and there are 2350 characters (2850 of extended type completed characters) in the Hangul complete character, and 26 characters There is a character. Here, the Hangul complete character can be composed of at least one consonant (basic consonant and compound consonant) and at least one vowel (basic vowel and complex vowel).
그리고, 완성형 문자 각각은 서로 다른 발음 특성이 가진다. 예를 들어, 한글 완성형 문자인 '가' 및 '나'는 각각 '가' 및 '나'의 구별되는 발음 특성을 가지고, 영문 완성형 문자인 'a' 및 'b'는 각각 '에이' 및 '비(biː)'의 발음 특성을 가진다. And each completed character has different pronunciation characteristics. For example, the 'H' and 'I' characters have distinct pronunciation characteristics of 'I' and 'I', respectively, and 'a' and 'b' Has a pronunciation characteristic of 'bi'.
이하에서는 완성형 문자로 한글 또는 영문의 완성형 문자를 예로 들어 설명하였으나, 다른 외국어에 따른 완성형 문자가 이용될 수 있다. In the following description, the completion type character is used as an example of the completion type character in Korean or English, but the completion type character according to another foreign language can be used.
카메라 부(391)는 사용자가 소정 명령을 말할 때의 입모양 영상을 촬영한다. 즉, 사용자가 음성신호를 원격 제어부(390)로 입력할 때의 입모양 영상을 촬영한다. 카메라 부(391)가 촬영한 영상은 동영상(moving picture)이 될 수 있다. The
마이크 부(393)는 사용자가 소정 명령을 말할 때 발생하는 음성 신호를 입력받는다. 즉, 마이크 부(393)는 사용자에 의해 발생하는 음성 신호를 녹음한다. The
신호 변환부(395)는 카메라 부(391)에서 촬영된 영상 신호를 인터페이스 부(350)로 전송하기 위하여, 전송에 필요한 소정 신호 형태로 변환한다. 그리고, 마이크 부(393)에서 입력받은 음성 신호를 인터페이스 부(350)로 전송하기 위하여, 소정 신호 형태로 변환한다. The
예를 들어, 원격 제어부(390)와 인터페이스 부(350)가 RF 통신 규격에 따라 소정 신호를 송수신할 수 있는 RF(radio frequency) 모듈을 포함한다면, 신호 변환부(395)는 영상 신호 또는 음성 신호를 RF 통신 규격에 맞춰 RF 신호로 변환한다. 또는, 원격 제어부(390)와 인터페이스 부(350)가 IR(infra-red) 통신 규격에 따라 소정 신호를 송수신할 수 있는 IR 모듈을 포함한다면, 신호 변환부(395)는 영상 신호 또는 음성 신호를 IR 통신 규격에 맞춰 IR 신호로 변환한다. For example, if the
리모컨 인터페이스 부(397)는 신호 변환부(395)에서 출력되는 신호를 인터페이스 부(350)로 전송한다. 여기서, 리모컨 인터페이스 부(397)는 전술한 바와 같이, RF 통신 규격에 따라 신호를 송수신할 수 있는 RF(radio frequency) 모듈(미도시) 또는 IR(infra-red) 통신 규격에 따라 신호를 송수신할 수 있는 IR 모듈(미도시)로 구성될 수 있다. The remote controller interface unit 397 transmits the signal output from the
인터페이스 부(350)는 리모컨 인터페이스 부(397)에서 전송되는 음성 신호 및 영상 신호를 전송받아, 음성 인식 처리부(320)로 전송한다. 또한, 인터페이스 부(350)는 RF 통신 규격에 따라 신호를 송수신할 수 있는 RF(radio frequency) 모듈(미도시) 또는 IR(infra-red) 통신 규격에 따라 신호를 송수신할 수 있는 IR 모듈(미도시)로 구성될 수 있다. The
음성 인식 처리부(320)는 전송받은 음성 신호로부터 일 완성형 문자에 대응되는 음성 신호 구간을 추출하고, 입모양 움직임 영상으로부터 일 완성형 문자에 대응되는 영상 신호 구간을 추출한다. 그리고, 추출된 음성 신호 구간과 영상 신호 구간이 상호 일치하면, 일치된 구간 내에 입력된 음성 신호 및 영상 신호 중 적어도 하나에 대응되는 완성형 문자를 인식한다. The
음성 인식 처리부(320)의 상세 동작은 이하에서 도 4를 참조하여 상세히 설명한다. Detailed operation of the
제어부(330)는 영상 표시 장치(300)의 전반적인 동작을 제어한다. 구체적으로, 소정 컨텐츠를 포함하는 영상 신호가 영상 화면으로 디스플레이될 수 있도록 제어한다. 구체적으로, 제어부(330)는 음성 인식 처리부(320)에서 인식된 완성형 문자로 이루어지는 소정 명령이 수행될 수 있도록 제어한다. The
신호 처리부(340)는 수신한 영상 신호를 영상 표시 장치(300)가 디스플레이할 수 있는 데이터로 변환하여 출력한다. 구체적으로, 수신한 영상 신호를 복조하고, 복조된 신호를 역다중화(demultiplexing) 및 복호화(decoding)하며, 에러 보정 및 신호 품질 개선 등의 신호 처리를 수행한다. The
OSD 생성부(355)는 OSD(On Screen Data) 데이터를 생성하여 디스플레이 부(370)로 출력한다. 구체적으로, OSD 생성부(355)는 사용자 인터페이스 부(360)에서 출력되는 사용자 인터페이스 데이터를 OSD 데이터로 변환하여 출력할 수 있다. 또한, 제어부(330)의 제어에 따라서, 사용자에게 제공하여야 할 각종 정보를 OSD 데이터로 생성할 수 있다. 구체적으로, 사용자에 입력한 음성 신호에 대응되는 완성형 문자의 인식 정보를 OSD로 실시간으로 생성하여 출력한다. 또한, 생성된 OSD는 디스플레이 부(370)로 전송되어 디스플레이 화면상에 디스플레이된다. The
사용자 인터페이스 부(360)는 사용자에게 제공하여야할 제어 메뉴를 사용자 인터페이스(UI: User Interface) 데이터로 생성하여 출력하거나, 사용자로부터 소정 요청 또는 소정 정보를 입력받는다. 여기서, 사용자 인터페이스 데이터는 OSD 생성부(355)를 통하여 OSD(On Screen Data) 데이터로 변환될 수 있다. 또한, 사용자 인터페이스 데이터를 바로 디스플레이 부(370)로 전송되어 GUI(Graphic User Interface)로 디스플레이될 수도 있다. The
OSD 생성부(355)에서 출력되는 OSD 데이터 또는 사용자 인터페이스 부(360)를 통하여 출력되는 사용자 인터페이스(UI)는 이하에서 도 5 내지 도 10을 참조하여 상세히 설명한다. The OSD data output from the
디스플레이 부(370)는 신호 처리부(340)에서 전송되는 영상 신호를 영상 화면으로 디스플레이한다. 또한, 사용자 인터페이스 부(360) 또는 OSD 생성부(355)에서 출력되는 OSD 데이터 또는 사용자 인터페이스 데이터를 영상 화면의 전체 또는 소정 영역에 디스플레이한다. The
저장부(380)는 제어부(330)의 제어에 따라서 디스플레이 동작에 필요한 각종 정보들을 저장할 수 있다. 저장부(380)는 음성 인식을 위한 음성 인식 데이터 베이스를 저장할 수도 있다. The
본 발명의 일 실시예에 따른 영상 표시 장치(300)의 영상 인식 동작 및 상세 구성은 이하에서 도 4 내지 도 10을 참조하여 더욱 상세히 설명한다. The image recognition operation and the detailed configuration of the
도 4는 도 3을 좀 더 상세히 나타내는 블록 다이어그램이다. FIG. 4 is a block diagram illustrating FIG. 3 in more detail.
도 4를 참조하면, 음성 인식 처리부(320)는 음성 및 영상 신호 입력부(420), 구간 검출부(430), 특징값 산출부(440), 및 문자 인식부(450)를 포함할 수 있다. 또한, 네트워크 인터페이스 부(315)는 유선 또는 무선의 통신 네트워크를 통하여 인터넷 서버(410)와 소정 데이터를 송수신할 수 있다. 여기서, 인터넷 서버(410)는 인식 데이터 베이스(411) 및 인식 엔진(413)을 포함한다. 도 3에서 중복되는 구성에 대한 설명은 생략한다. 4, the speech
인터페이스 부(350)는 원격 제어부(390)에서 전송되는 음성 신호 및 입모양의 움직임 영상 신호를 전송받는다. 이하에서는 입모양의 움직임 영상 신호를 '영상 신호'라 한다. The
음성 및 영상 신호 입력부(420)는 인터페이스 부(350)로부터 원격 제어부(390)에서 입력받은 음성 신호 및 영상 신호를 입력받는다. The audio and video
전술한 원격 제어부(390)는 마이크 부(393)로 음성 신호를 입력받는데 있어서, 소정 시간 간격을 두고 일 완성형 문자에 대응되는 음성 신호를 각각 입력받는다. 예를 들어, '채널7'의 음성 신호를 입력받는 경우, '채'를 입력받고 소정 시간 후에 '널'을 입력받고, 계속하여 소정 시간 후에 '7(칠)'을 입력받는다. The
여기서, 소정 시간은 하나의 완성형 문자와 후속하여 입력되는 다른 완성형 문자 사이에 존재하는 정지 시간을 뜻한다. 즉, 각각의 완성형 문자(채, 널, 7(칠))를 끊어 읽기 형식으로 입력함에 있어서, 정지 시간(소정 시간 간격)에는 사용자의 음성 신호가 입력되지 않는다. 따라서, 사람의 음성에 해당하는 주파수 영역의 신호가 입력되지 않는 구간이 전술한 정지 시간인 것으로 판단할 수 있다. Here, the predetermined time means a stop time that exists between one complete character and another successive character that is subsequently input. In other words, in inputting the completion type characters (Chain, 7, 7) in the reading format, the user's voice signal is not input at the stopping time (predetermined time interval). Accordingly, it can be determined that the section in which the signal in the frequency domain corresponding to the human voice is not input is the above-described stop time.
이하에서는 '일 완성형 문자 + 소정 시간 간격 + 일 완성형 문자 + 소정 시간 간격...'을 '일 완성형 문자_일 완성형 문자_...'로 나타낸다. 즉, 소정 시간 간격을 '_' 기호를 사용하여 표시한다. 예를 들어, 소정 시간 간격으로 입력되는 '채, 널, 칠'은 '채_널_칠(7)'로 표현될 수 있다. Hereinafter, 'one-time completion type character + predetermined time interval + one-time completion character time + predetermined time interval ...' is expressed as 'one-time completion type character completion character type _...'. That is, the predetermined time interval is displayed using the symbol '_'. For example, 'chess', 'null', and 'chess', which are input at predetermined time intervals, can be expressed as 'chessboard (7)'.
또한, 카메라 부(391)에 의해 촬영된 영상 신호에 있어서, 하나의 완성형 문자와 후속하는 완성형 문자를 말하는 사용자의 입모양에 있어서, 입모양이 움직이지 않는 구간이 존재하게 된다. 입모양이 움직이지 않는 구간은 전술한 소정 시간 간격이 된다. In the video signal photographed by the
구간 검출부(430)는 일 완성형 문자에 대응되는 음성 구간 및 영상 구간을 추출한다. 구간 검출부(430)는 음성 구간 검출부(431) 및 영상 구간 검출부(433)를 포함할 수 있다. The
음성 구간 검출부(431)는 음성 신호로부터 일 완성형 문자에 대응되는 음성 신호 구간을 추출한다. 구체적으로, 인접한 정지 시간 사이의 구간을 일 완성형 문자에 대응되는 음성 신호 구간으로 추출할 수 있다. 예를 들어, a 시점부터 음성신호가 입력되기 시작하여 b 시점부터 정지 시간이 검출되었다면, a 시점부터 b 시점까지의 구간을 일 완성형 문자에 대응되는 음성 신호 구간으로 추출할 수 있다. 또한, 계속하여, b시점부터 c 시점까지 정지 시간이 검출되고 계속하여 c 시점부터 d 시점까지 다시 음성 신호가 검출되었다면, 후속하는 일 완성형 문자에 대응되는 음성 신호 구간은 c 시점부터 d 시점까지가 된다. The
그리고, 영상 구간 검출부(433)는 영상 신호로부터 일 완성형 문자에 대응되는 영상 구간을 검출한다. 구체적으로, 인접한 정지 영상 구간의 사이 구간을 일 완성형 문자에 대응되는 영상 신호 구간으로 추출할 수 있다. 예를 들어, a 시점부터 입 모양이 움직이기 시작하여 b 시점부터 입 모양의 움직임이 정지되는 정지 영상 구간이 검출되었다면, a 시점부터 b 시점까지의 구간을 일 완성형 문자에 대응되는 영상 신호 구간으로 추출할 수 있다. Then, the video
본 발명의 일 실시예에 따른 영상 표시 장치에서는, '일 완성형 문자+소정 시간 간격'으로 음성 신호를 입력받고, 음성 신호 구간과 영상 신호 구간을 각각 검출한다. 그리고, 음성 신호 구간과 영상 신호 구간이 일치되는 구간에서 음성 신호를 인식하게 되므로, 음성 신호를 더욱 정확하게 인식할 수 있다. 구체적으로, 음성 신호가 주변 소음으로 인해서 불확실하게 입력되더라도, 영상 신호의 구간을 비교 판단하여 상기 영상 신호 구간과 일치되는 음성 신호의 구간을 검출함으로써, 음성 신호를 더욱 정확하게 입력받을 수 있다. 그에 따라서, 음성 신호의 인식률을 높일 수 있다. In an image display apparatus according to an embodiment of the present invention, a voice signal is input in a 'full character type + predetermined time interval', and a voice signal section and a video signal section are detected. Since the voice signal is recognized in a section where the voice signal section and the video signal section coincide with each other, the voice signal can be recognized more accurately. Specifically, even if the audio signal is input uncertainly due to the ambient noise, the audio signal can be received more accurately by comparing the duration of the video signal and detecting the duration of the audio signal that coincides with the video signal duration. Accordingly, the recognition rate of the voice signal can be increased.
음성 구간 검출부(431)에서 검출된 일 완성형 문자에 해당하는 음성 신호 구간과 영상 구간 검출부(433)에서 검출된 일 완성형 문자에 해당하는 영상 신호 구간이 일치하면, 특징값 산출부(440)는 구간 검출부(430)에서 검출된 일치 구간 내에 존재하는 음성 신호의 특징값을 산출한다. 그리고, 영상 신호의 특징값을 더 산출할 수 있다. 이하에서는, 음성 신호 구간과 영상 신호 구간이 일치할 때의 음성 신호 입력 구간을 '일치 구간'이라 한다. If the voice signal section corresponding to the one-time type character detected by the voice
구체적으로, 음성 특징 산출부(441)에서 산출되는 음성 특징값은 상기 일치 구간에 존재하는 음성 신호를 디지털 변환하고, 이산 코사인 변환(DCT: discrete cosine transform)하여 구한 MFCC(Mel Frequency Cepstrol Coefficient) 값 등이 될 수 있다. 음성 특징값은 음성 신호 자체가 아니며, 음성 신호에서 특징적인 값만을 추출한 값으로, 원래의 음성 신호에 비하여 작은 데이터 양(예를 들어, 원래 음성 신호 데이터 양의 10% 수준)을 가진다. More specifically, the voice characteristic value calculated by the voice
구체적으로, 음성 특징 산출부(441)는 아날로그 신호 형태의 음성 신호를 입력받고, 아날로그-디지털 컨버터(AD converter)를 이용하여 PCM(Pulse Code Modulation) 신호로 변환한다. 변환된 PCM 신호는 8KHz의 샘플링 레이트(sampling rate)를 가지며 16bits 의 진폭 분해능을 가질 수 있다. 계속하여, PCM 신호에서 노이즈(noise) 성분을 제거하여 사람의 음성에 대응되는 구간의 주파수 성분만을 남긴다. 그리고, PCM 신호를 소정 주파수 대역마다 분할하여, 분할된 주파수 대역 각각에서의 MFCC 값을 구한다. 음성 신호의 특징값은 이외에도 매우 다양한 방법으로 구할 수 있다. Specifically, the voice
또한, 움직임 특징 산출부(443)는 일치 구간에 존재하는 영상 신호로부터 입술의 움직임, 턱의 움직임 및 뺨의 움직임을 추출하고, 각 움직임의 방향과 이동량의 특징값을 산출한다. 구체적으로, 입술, 턱, 또는 뺨의 움직임을 움직임 벡터값으로 산출할 수 있다. Further, the motion
음성 신호 자체를 주파수 변환하여 구한 이산 신호(discrete signal)를 이용하려면, 음성 신호의 크기 자체가 매우 커지게 되어, 네트워크를 통하여 소정 인터넷 서버로 전송을 완료하는데 걸리는 시간 및 데이터 전송량이 매우 증가하게 된다. 그에 따라서, 음성 인식의 시간이 증가하게 되며, 그에 따라서 즉각적인 음성 인식에 따른 제어가 어렵다. A discrete signal obtained by frequency conversion of a voice signal itself is used, the size of a voice signal itself becomes very large, and a time and a data transmission amount for completing a transmission to a predetermined Internet server through the network are greatly increased . Accordingly, the time of speech recognition is increased, and accordingly, it is difficult to control according to immediate speech recognition.
본원에서는 음성 특징 산출부(441)에서 음성 신호의 특징값만을 산출하고, 움직임 특징 산출부(443)에서 움직임의 특징값만을 산출한다. 그리고 추출된 특징값을 네트워크 인터페이스 부(310)를 통하여 인터넷 서버(410)로 전송하여 이용하므로, 인터넷 서버로 전송을 완료하는데 걸리는 시간 및 데이터 전송량을 최소화할 수 있다. 그에 따라서, 음성 인식의 시간을 단축시켜 즉각적인 음성 인식에 따른 제어를 할 수 있다. In this embodiment, only the feature value of the speech signal is calculated by the speech
문자 인식부(450)는 구간 검출부(430)에서 검출된 음성 신호 구간 및 영상 신호 구간이 일치하면, 일치 구간 내에 입력된 음성 신호 및 영상 신호 중 적어도 하나에 대응되는 완성형 문자를 인식한다. 문자 인식부(450)는 내부적으로 음성 인식 엔진(미도시) 및 음성 인식을 위한 데이터 베이스(미도시)를 포함할 수 있으며, 이를 이용하여, 일치 구간 내에 입력된 완성형 문자를 인식하게 된다. When the voice signal section and the video signal section detected by the
구체적으로, 문자 인식부(450) 특징 값 산출부(440)에서 산출된 음성 특징 값 및 움직임 특징 값 중 적어도 하나에 근거하여, 일치 구간 내에 입력된 완성형 문자를 인식할 수 있다. Specifically, based on at least one of the voice feature value and the motion feature value calculated by the
또한, 문자 인식부(450)는 네트워크 인터페이스 부(310)를 통하여 소정 인터넷 서버(410)와 접속하고, 인터넷 서버(410)가 포함하는 인식 엔진(413) 및 인식 테이터 베이스(411)를 이용할 수 있다. 이 경우, 문자 인식부(450)는 내부적으로 인식 엔진 또는 음성 인식을 위한 데이터 베이스를 구비하지 않을 수 있다. The
여기서, 인식 데이터 베이스(411)는 특징값 산출부(440)에서 산출된 음성 특징값 또는 움직임 특징값과 대응 또는 비교되는 자료 구조로 되어 있다. 예를 들어, 음성 특징값이 MFCC(Mel Frequency Cepstrol Coefficient) 값을 갖는다면, 인식 데이터 베이스(411)는 각 완성형 문자에 대응되는 MFCC 값을 포함한다. 또한, 각 완성형 문자에 대응되는 영상 신호의 특징 값(예를 들어, 움직임 벡터 값 등)을 포함할 수 있다. Here, the
인식 엔진(413)은 입력된 음성 신호가 어느 문자에 해당하는지 판단하는 엔진으로, 음성 인식 처리부(320)에서 출력되는 음성 신호 또는 영상 신호의 값(구체적으로, 음성 특징값 또는 움직임 특징값)과 대응되는 인식 데이터 베이스(411)에 저장된 값을 비교 검출하여, 음성 신호가 어느 문자에 해당하는지 여부를 판단한다. The
영상 표시 장치(100)는 대용량 인식 데이터 베이스를 포함하기에는 저장 공간이 부족할 수 있다. 그에 따라서, 인터넷 서버(410)에 존재하는 인식 데이터 베이스(411) 및 인식 엔진(413)을 이용하면, 더욱 정확하게 음성 인식을 수행할 수 있다. 또한, 본원에서는 특징값 산출부(440)에서 산출된 특징값만을 이용하므로, 인터넷 서버(410)로 전송되는 데이터 신호 량을 최소화할 수 있다. 그에 따라서, 신호의 고속 전달이 가능하고, 이용되는 데이터 패킷의 양을 최소화할 수 있다. The image display apparatus 100 may lack storage space to include a large-capacity recognition database. Accordingly, by using the
인터넷 서버(410)의 인식 엔진(413)을 이용할 경우, 문자 인식부(450)는 인식 엔진(413)에서 인식된 문자를 전송받고, 전송되는 문자들을 조합하여 제어 명령을 해석한다. When the
제어부(330)는 문자 인식부(450)에서 해석된 제어 명령에 따라서, 영상 표시 장치(100)의 제어 동작을 수행하게 된다. The
또한, 제어부(330)는 문자 인식부(450)가 실시간으로 전송되는 인식된 문자를 전송받고, 인식된 문자가 실시간으로 사용자 인터페이스(UI: User Interface)로 출력되도록 제어한다. In addition, the
구체적으로, 사용자 인터페이스 부(360)는 인식된 문자를 사용자 인터페이스 데이터를 생성하고, 디스플레이 부(370)는 사용자 인터페이스 데이터를 디스플레이한다. 또한, 제어부(330)는 문자 인식부(450)가 실시간으로 전송되는 인식된 문자를 전송받고, 인식된 문자가 실시간으로 OSD(On Screen Display)로 출력되도록 제어할 수 있다. 구체적으로, OSD 생성부(355)는 인식된 문자를 OSD로 생성하고, 디스플레이 부(370)는 생성된 OSD 데이터를 디스플레이한다. 또한, 제어부(330)는 사용자 인터페이스 부(360)에서 출력되는 사용자 인터페이스 데이터가 OSD 생성부(355)에서 OSD 데이터로 변환되어 디스플레이 부(370)로 출력되도록 제어할 수 있다. Specifically, the
도 5는 본 발명의 일 실시예에 따른 영상 표시 장치가 출력하는 일 디스플레이 화면을 나타내는 도면이다. 도 5를 참조하면, 음성 신호 및 영상 신호가 입력되어, 음성 인식 처리부(320)가 음성 인식 동작을 수행하는 동안에 디스플레이되는 디스플레이 화면(510, 550)이 도시된다. 도 5에서는 사용자가 소정 시간 간격으로 '채, 널, 칠(7)'의 음성 신호를 원격 제어부(390)로 입력한 경우를 예로 들어 도시하였다. 5 is a view illustrating a display screen output by the image display apparatus according to an embodiment of the present invention. Referring to FIG. 5, a
도 5의 (a)를 참조하면, 일 완성형 문자인 '채'가 입력되어, 음성 인식 처리부(320)에서 '채' 문자를 인식하고, 그에 따라서 사용자 인터페이스 데이터(520)에 인식된 문자(531)가 표시된다. 그리고, 음성 신호의 입력이 잠시 정지된 기간 동안 소정 시간 간격을 나타내는 기호(535)가 표시된다.Referring to FIG. 5A, a full-length character 'Chae' is input, and the
도 5의 (b)를 참조하면, 계속하여, 일 완성형 문자인 '널'이 입력되어, 음성 인식 처리부(320)에서 '널' 문자를 인식하고, 그에 따라서 사용자 인터페이스 데이터(520)에 인식된 문자('널')가 표시된다. 또한, 음성 신호의 입력이 잠시 정지된 기간 동안 소정 시간 간격을 나타내는 기호가 계속하여 표시된다. Referring to FIG. 5B, 'null', which is a one-piece type character, is input to recognize the 'null' character in the voice
도 6은 본 발명의 일 실시예에 따른 영상 표시 장치가 출력하는 다른 디스플레이 화면을 나타내는 도면이다. 도 6에서는 도 5에서 전술한 '채, 널, 칠(7)'에 대한 음성 신호의 입력 및 인식이 완료된 경우, 제어부(330)의 제어에 따라서 사용자 인터페이스 부(360)는 인식된 문자가 맞음을 확인받기 위한 확인 키(621) 및 제어 동작 수행 없이 음성 인식을 종료하기 위한 종료 키(625)를 포함하는 OSD(610)를 출력할 수 있다. 6 is a view illustrating another display screen output by the image display apparatus according to an embodiment of the present invention. In FIG. 6, when the input and recognition of the voice signal to the above-described 'Chain, Null, and Chil (7)' in FIG. 5 is completed, the
사용자가 원격 제어부(390)를 조작하여 확인 키(621)를 제어부(330)로 입력하면, 제어부(330)는 확인된 문자가 지정하는 명령을 해석하고, 해석된 소정 명령을 수행한다. 그에 따라서, 영상 표시 장치(300)에서는 '채널7'로 채널 전환 동작이 수행된다. When the user operates the
도 5 내지 도 6에 있어서, 사용자가 '칠'이라는 음성 신호를 입력한 경우, 해당 영상 표시 장치(300)는 숫자 '7'을 바로 인식하는 것으로 설정된 경우를 예로 들어 도시하였다. In FIGS. 5 to 6, when the user inputs a voice signal of 'fill', the
도 7은 본 발명의 일 실시예에 따른 영상 표시 장치가 출력하는 다른 디스플레이 화면을 나타내는 도면이다. 7 is a view illustrating another display screen output by the image display apparatus according to the embodiment of the present invention.
또한, 제어부(330)는 인식 문자에 해당하는 소정 명령을 수행할지 여부를 다시 한번 확인할 수 있다. 도 7의 (a)을 참조하면, 제어부(330)는 디스플레이 화면(700)상으로 도시된 OSD 가 출력되도록 제어함으로써, 인식 문자에 해당하는 소정 명령을 수행할지 여부를 다시 한번 확인할 수 있다.Also, the
또한, 도시된 OSD 자체가 사용자 인터페이스(구체적으로, GUI(Graphic User Interface)로 형성되어, 사용자 등은 원격 제어부(390)를 조작하여 '네' 키(710)를 제어부(330)로 입력할 수 있다. 그에 따라서, 사용자는 '채널7'로의 채널 전환이 수행되도록 해당 영상 표시 장치(300)를 원격으로 제어할 수 있다. In addition, the illustrated OSD itself is formed of a user interface (specifically, a GUI (Graphic User Interface) so that a user or the like can operate the
그리고, 제어부(330)의 제어에 따라서, 채널 전환 동작 수행을 알리는 OSD(750)가 출력될 수 있다. In accordance with the control of the
또한, '아니오' 키(720)가 제어부(330)로 입력된 경우, 채널 전환 동작의 수행 없이, 음성 인식이 종료될 수 있다. Also, when the 'No'
도 8은 본 발명의 일 실시예에 따른 영상 표시 장치가 출력하는 다른 디스플레이 화면을 나타내는 도면이다. 8 is a view illustrating another display screen output by the image display apparatus according to an embodiment of the present invention.
또한, 제어부(330)는 인식된 완성형 문자에 적어도 하나의 음성 음성 유사어가 존재하는 경우, 음성 유사어가 사용자 인터페이스를 통하여 출력되도록 제어할 수 있다. 그리고,사용자 인터페이스 부(360)는 출력되는 적어도 하나의 음성 유사어 중 일 완성형 문자를 사용자 인터페이스를 통하여 입력받을 수 있다. 입력된 완성형 문자는 제어부(330)로 전송된다. In addition, when at least one voice-like similar word exists in the recognized completed character, the
도 8을 참조하면, 사용자가 문자 '애'의 음성 신호를 입력하면, 문자 인식부(450)는 음성 신호에 대응될 수 있는 문자인 '애', '에' 및 '얘'를 인식할 수 있다. 그러한 경우, 정확한 음성 인식을 위하여, 제어부(450)는 다수개의 음성 유사어 중 어느 하나를 선택할 수 있는 사용자 인터페이스가 출력되도록 제어한다. Referring to FIG. 8, when a user inputs a voice signal of the character 'E', the
사용자 등은 OSD(810)로 디스플레이된 사용자 인터페이스를 통하여, 의도한 일 문자를 선택한다. 그에 따라서, 제어부(330)는 선택된 문자를 입력받고, 대응되는 제어 동작을 수행한다. The user or the like selects the intended letter through the user interface displayed on the
도 9는 본 발명의 일 실시예에 따른 영상 표시 장치가 출력하는 다른 디스플레이 화면을 나타내는 도면이다. 9 is a view showing another display screen output by the image display apparatus according to an embodiment of the present invention.
제어부(330)는 인식된 문자에 오류가 있는 경우, 인식된 문자를 취소하기 위한 음성 신호(예를 들어, back 을 나타내는 '백' 또는 '빽' 등)를 입력받고, 그에 따라서, 인식된 문자를 취소하고 다시 음성 인식을 수행하도록 제어한다. 즉, 제어부(330)는 인식된 문자를 취소하기 위한 음성 신호(예를 들어, '백' 또는 '빽' 등)를 미리 등록받아 저장부(380)에 저장시키고, 저장된 음성 신호인 '백' 또는 '빽'이 입력되어 인식되면, 직전 인식 문자를 취소한다. The
사용자가 인식시키고자 의도한 문자는 'OZ'인 경우, 사용자는 '" '오' + 소정 시간 간격 + '제트' + 소정 시간 간격 "으로 음성신호를 입력하여야 한다. 그러나, 사용자가 잘못하여 "'오'+ 소정 시간 간격 + '즈'+ 소정 시간 간격"으로 음성 신호를 입력하면, 도 9의 (a)에 도시된 바와 같은 음성 인식의 위한 OSD(910)가 출력된다. If the character intended to be recognized by the user is 'OZ', the user must input a voice signal in '' o '+ a predetermined time interval +' jet '+ a predetermined time interval'. However, if the user erroneously inputs a voice signal at "+" a predetermined time interval + '+' + a predetermined time interval ", the
사용자가 계속하여, 인식된 음성 신호의 취소를 요청하는 음성 신호인 "'빽'+ 소정 시간 간격"을 입력하면, 제어부(330)는 직전에 인식된 음성 신호('즈')를 취소하여, 도 9의 (b)에 도시된 바와 같은 음성 인식을 위한 OSD(920)가 출력되도록 제어한다. When the user continuously inputs a voice signal "back" + a predetermined time interval for requesting cancellation of the recognized voice signal, the
계속하여, 사용자가 다시 음성 신호인 "'제트'+ 소정 시간 간격"을 입력하면, 음성 인식 처리부(320)는 영문 완성형 문자인 'z'를 인식하고, 제어부(330)는 도 9의 (c)에 도시된 바와 같은 음성 인식을 위한 OSD(930)가 출력되도록 제어한다. When the user again inputs the voice signal "jet + plus a predetermined time interval", the
도 10은 본 발명의 일 실시예에 따른 영상 표시 장치가 출력하는 다른 디스플레이 화면을 나타내는 도면이다. 10 is a view illustrating another display screen output by the image display apparatus according to an embodiment of the present invention.
도 10을 참조하면, 제어부(330)는 인식된 완성형 문자로 이루어지는 단어 문자(도 9에서 예로 들은, 'OZ')에 대응되는 명령이 다수 개 존재하는 경우, 상기 다수개의 소정 명령을 선택하기 위한 사용자 인터페이스 데이터를 포함하는 OSD(1010)가 디스플레이 화면(1000)으로 출력되도록 제어할 수 있다. Referring to FIG. 10, when there are a plurality of commands corresponding to word characters ('OZ' in FIG. 9) composed of recognized complete characters, the
도 10을 참조하면, 음성 신호 'OZ' 에 대응되는 명령으로 'OZ 홈페이지에 연결하도록 하는 명령, 'LGT 홈페이지에 연결하도록 하는 명령' 등이 존재하는 경우, 대응되는 명령들을 OSD(1010)에 표시하여, 사용자 등이 표시된 다수개의 명령들 중 일 명령을 선택할 수 있도록 한다. Referring to FIG. 10, when there is a command to connect to the OZ homepage, a command to connect to the LGT homepage, and the like corresponding to the voice signal 'OZ', corresponding commands are displayed on the
제어부(330)는 디스플레이되는 OSD(1010)로 출력된 사용자 인터페이스(구체적으로, GUI)를 통하여 일 명령을 선택받고, 선택된 일 명령에 해당하는 동작을 수행한다. 예를 들어, 사용자가 'OZ 홈페이지에 연결하도록 하는 명령'을 선택하여 제어부(330)로 입력한 경우, 제어부(330)는 네트워크 인터페이스 부(310)를 통하여 OZ 홈페이지에 접속하여 그에 따라 OZ 홈페이지의 화면을 디스플레이 부(370)로 출력한다. The
또한, 제어부(330)는 인식된 완성형 문자 또는 완성형 문자(예를 들어, 도 6에 도시된 바와 같이 '채널 7') 또는 인식된 완성형 문자들로 이루어지는 소정 명령 정보(예를 들어, 도 7에 도시된 바와 같이 "'채널 7'로 전환합니다!")가 사용자 인터페이스를 통하여 출력되도록 제어한다. 계속하여 제어부(330)는 음성 신호 입력이 완료되어 완성형 문자가 인식되고 나면, 인식된 완성형 문자에 대응되는 명령과 관련된 정보를 인터넷 서버에서 검색하고, 검색된 정보가 사용자 인터페이스를 통하여 출력되도록 제어할 수 있다. 예를 들어, 도 9 및 도 10에서 설명한 바와 같이, 인식된 완성형 문자가 'OZ'인 경우, OZ와 관련된 정보(예를 들어, LG 텔레콤의 OZ 서비스 센터 위치 등)를 인터넷 서버에서 검색하고, 검색된 정보가 사용자 인터페이스를 통하여 출력되도록 제어할 수 있다. 7) composed of the recognized complete character or completed character (for example, 'channel 7' as shown in FIG. 6) or recognized completion characters (for example, Quot ;, "switch to channel 7") as shown in FIG. After completing the input of the voice signal and recognizing the completion type character, the
도 11은 본 발명의 일 실시예에 따른 음성 인식 방법을 나타내는 도면이다. 11 is a diagram illustrating a speech recognition method according to an embodiment of the present invention.
도 11을 참조하면, 본 발명의 일 실시예에 따른 음성 인식 방법은 소정 시간 간격을 두고 일 완성형 문자에 대응되는 음성 신호를 입력받고(1115 단계), 음성 신호가 입력되는 동안 사용자의 임모양 영상을 촬영(1117 단계)한다(1110 단계). 11, a speech recognition method according to an exemplary embodiment of the present invention receives a speech signal corresponding to a one-shot type character at predetermined time intervals (step 1115). While the speech signal is being input, (Step 1117).
그리고, 일 완성형 문자에 대응되는 음성 신호 구간을 추출(1125 단계)하고, 움직임 영상으로부터 일 완성형 문자에 대응되는 영상 신호 구간을 추출(1127 단계)한다(1120 단계).Then, in
음성 신호 구간과 영상 신호 구간이 일치하면, 일치된 구간 내에 입력된 음성 신호 및 영상 신호 중 적어도 하나에 대응되는 완성형 문자를 인식한다(1130 단계). 구체적으로, 음성 인식 엔진으로 상기 일치 구간 내의 신호를 전송(1135 단계)하고, 음성 인식 엔진을 이용하여 완성형 문자를 인식(1137 단계)한다.If the voice signal section and the video signal section coincide with each other, the completion character corresponding to at least one of the voice signal and the video signal input in the matching section is recognized (step 1130). Specifically, the signal in the matching interval is transmitted to the speech recognition engine in
그리고, 인식된 완성형 문자를 해석하여, 인식된 완성형 문자에 대응되는 명령을 산출한다(1140 단계). Then, the recognized completion type character is analyzed and a command corresponding to the recognized completion type character is calculated (step 1140).
그에 따라서, 인식된 완성형 문자에 대응되는 명령을 수행한다(1150 단계). Accordingly, an instruction corresponding to the recognized complete character is executed (Step 1150).
본 발명의 일 실시예에 따른 음성 인식 방법은 도 3 내지 도 10을 참조하여 설명한 본 발명의 일 실시예에 따른 영상 표시 장치와 그 기술적 사상 및 상세 동작 구성이 동일하다. 따라서, 상세한 설명은 생략한다. The speech recognition method according to an embodiment of the present invention is the same as that of the image display apparatus according to the embodiment of the present invention described with reference to FIG. 3 to FIG. Therefore, detailed description is omitted.
한편, 본 발명에서 사용되는 용어(terminology)들은 본 발명에서의 기능을 고려하여 정의 내려진 용어들로써 이는 해당 분야에 종사하는 기술자의 의도 또는 관례 등에 따라 달라질 수 있으므로 그 정의는 본 발명의 전반에 걸친 내용을 토대로 내려져야 할 것이다. The terminology used in the present invention is defined in consideration of the functions of the present invention, and it may vary depending on the intention or custom of a technician working in the field. Therefore, .
이상의 본 발명은 상기에 기술된 실시 예들에 의해 한정되지 않고 당업자들에 의해 다양한 변형 및 변경을 가져올 수 있으며, 이는 첨부된 청구항에서 정의되는 본 발명의 취지와 범위에 포함된다. The present invention is not limited to the above-described embodiments and various changes and modifications may be made by those skilled in the art, which is included in the spirit and scope of the present invention as defined in the appended claims.
110: 영상 표시 장치
340: 원격 제어 장치
300: 영상 표시 장치
310: 신호 입력부
311: 튜너
315: 네트워크 인터페이스 부
320: 음성 인식부
330: 제어부(Controller)
340: 신호 처리부(signal processor)
350: 인터페이스 부
355: OSD 생성부(On Screen Display generator)
360: 사용자 인터페이스 부(User Interface unit)
370: 디스플레이 부(Display unit)
380: 저장부(Storage unit)
390: 원격 제어부
391: 카메라 부
393: 마이크 부
395: 신호 변환부
397: 리모컨 인터페이스 부 110: Video display device
340: remote control device
300: Video display device
310: Signal input section
311: Tuner
315: Network interface unit
320:
330:
340: a signal processor
350:
355: OSD generating unit (On Screen Display generator)
360: User Interface Unit
370: Display unit
380: Storage unit
390:
391:
393: microphone section
395:
397: Remote control interface unit
Claims (20)
인식된 완성형 문자를 삭제하기 위한 특정 오디오 신호를 저장부에 저장하는 단계;
소정 시간 간격을 두고 일 완성형 문자에 대응되는 음성 신호를 입력받는 단계;
입모양의 움직임 영상을 촬영하는 단계;
상기 음성 신호로부터 상기 일 완성형 문자에 대응되는 음성 신호 구간을 추출하고, 상기 움직임 영상으로부터 상기 일 완성형 문자에 대응되는 영상 신호 구간을 추출하는 단계;
상기 음성 신호 구간과 상기 영상 신호 구간이 일치하면, 상기 일치된 구간 내에 입력된 상기 음성 신호 및 상기 영상 신호 중 적어도 하나에 대응되는 상기 완성형 문자를 인식하는 단계;
상기 저장부에 저장된 특정 오디오 신호에 반응하여, 상기 인식된 완성형 문자를 삭제하는 단계; 및
상기 인식된 완성형 문자로 이루어지는 소정 명령을 수행하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법. A method of controlling an image display apparatus using speech recognition,
Storing a specific audio signal for deleting the recognized complete character in a storage unit;
Receiving a voice signal corresponding to a one-time type character at predetermined time intervals;
Taking a mouth-shaped motion image;
Extracting a voice signal section corresponding to the one-letter type character from the voice signal, and extracting a video signal section corresponding to the one-letter type character from the motion picture;
Recognizing the completion type character corresponding to at least one of the voice signal and the video signal input in the matched section if the voice signal section and the video signal section coincide with each other;
Deleting the recognized complete character in response to a specific audio signal stored in the storage unit; And
And performing a predetermined command including the recognized complete character.
상기 일치된 구간 내에 입력된 상기 음성 신호의 음성 특징값을 계산하는 단계; 및
상기 음성 특징값에 근거하여 상기 일 완성형 문자를 인식하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법. The method of claim 1, wherein recognizing the completed character comprises:
Calculating a speech feature value of the speech signal input in the matched interval; And
And recognizing the one-shot type character based on the voice feature value.
상기 일치된 구간 내에 입력된 상기 움직임 영상의 움직임 특징값을 계산하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법. 3. The method of claim 2, wherein recognizing the finished character comprises:
And calculating a motion feature value of the motion image input in the matched section.
상기 음성 특징값 및 상기 움직임 특징값에 근거하여 상기 일 완성형 문자를 인식하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법. 4. The method of claim 3, wherein recognizing the one-time character based on the voice feature value comprises:
Recognizing the complete character based on the voice feature value and the motion feature value.
상기 소정 명령을 형성하는 적어도 하나의 상기 완성형 문자에 대응되는 적어도 하나의 상기 음성 신호 각각을 상기 소정 시간 간격으로 입력받는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법. The method of claim 1, wherein the step of receiving the voice signal comprises:
And receiving at least one of the at least one voice signal corresponding to at least one of the completed characters forming the predetermined command at the predetermined time intervals.
상기 음성 신호가 입력되기 시작한 시점부터, 상기 소정 시간 간격이 시작되기 전까지의 구간을 상기 음성 신호 구간으로 추출하는 단계; 및
상기 입모양이 움직이기 시작한 시점부터 상기 입모양의 움직임이 정지되는 시점까지의 구간을 상기 영상 신호 구간으로 추출하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법. The method of claim 1, wherein the step of extracting the video signal section
Extracting, as the voice signal section, a section from the time when the voice signal starts to be input until the start of the predetermined time interval; And
And extracting, as the video signal section, a section from a point at which the mouth shape starts moving to a point at which the mouth shape stops moving.
상기 인식된 완성형 문자 또는 상기 완성형 문자로 이루어지는 상기 소정 명령에 대응하는 정보를 실시간으로 사용자 인터페이스를 통하여 출력하는 단계; 및
상기 소정 명령을 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법. The method according to claim 1,
Outputting information corresponding to the predetermined command including the recognized completed character or the completed character through a user interface in real time; And
Further comprising the step of performing the predetermined command.
상기 일치된 구간 내에 입력된 상기 음성 신호 및 상기 영상 신호를 인터넷 서버로 전송하는 단계; 및
상기 인터넷 서버의 음성 인식 엔진 및 음성 인식 데이터 베이스를 이용하여, 상기 완성형 문자를 인식하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법. The method of claim 1, wherein recognizing the completed character comprises:
Transmitting the audio signal and the video signal input in the matched section to an Internet server; And
And recognizing the completion type character using the speech recognition engine and the speech recognition database of the Internet server.
상기 인식된 완성형 문자에 적어도 하나의 음성 유사어가 존재하는 경우, 상기 음성 유사어를 사용자 인터페이스를 통하여 출력하는 단계; 및
상기 적어도 하나의 음성 유사어 중 사용자가 의도한 완성형 문자를 상기 사용자 인터페이스를 통하여 선택받는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법. The method according to claim 1,
Outputting the voice similarity through a user interface when at least one voice similarity exists in the recognized completed character; And
Further comprising the step of the user selecting a desired completed character among the at least one voice similarity through the user interface.
상기 인식된 완성형 문자로 이루어지는 소정 명령이 다수개 존재하는 경우, 상기 다수개의 소정 명령을 사용자 인터페이스를 통하여 출력하는 단계; 및
상기 다수개의 소정 명령 중 일 소정 명령을 상기 사용자 인터페이스를 통하여 선택받는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법. The method according to claim 1,
Outputting the plurality of predetermined commands through a user interface when there are a plurality of predetermined commands including the recognized completed characters; And
Further comprising receiving a predetermined command from the plurality of predetermined commands through the user interface.
상기 인식된 완성형 문자 또는 상기 완성형 문자로 이루어지는 상기 소정 명령에 대응하는 정보를 실시간으로 사용자 인터페이스를 통하여 출력하는 단계; 및
상기 음성 신호의 입력이 완료되면, 상기 소정 명령과 관련된 정보를 인터넷 서버에서 검색하고, 상기 검색된 정보를 상기 사용자 인터페이스를 통하여 출력하는 단계를 더 포함하는 음성 인식 방법. The method according to claim 1,
Outputting information corresponding to the predetermined command including the recognized completed character or the completed character through a user interface in real time; And
Searching the Internet server for information related to the predetermined command when the input of the voice signal is completed, and outputting the retrieved information through the user interface.
상기 음성 신호로부터 상기 일 완성형 문자에 대응되는 음성 신호 구간을 추출하고, 상기 움직임 영상으로부터 상기 일 완성형 문자에 대응되는 영상 신호 구간을 추출하며, 상기 음성 신호 구간과 상기 영상 신호 구간이 일치하면 상기 일치된 구간 내에 입력된 상기 음성 신호 및 상기 영상 신호 중 적어도 하나에 대응되는 상기 완성형 문자를 인식하는 음성 인식 처리부;
인식된 문자를 삭제하기 위한 특정 오디오 신호를 저장하는 저장부; 및
상기 인식된 완성형 문자로 이루어지는 소정 명령이 수행되도록 제어하는 제어부를 포함하고,
상기 제어부는,
상기 저장부에 저장된 특정 오디오 신호에 반응하여 상기 인식된 완성형 문자를 삭제하는 것을 특징으로 하는 영상 표시 장치. A remote controller for inputting a voice signal corresponding to the one-letter type character at predetermined time intervals and photographing a mouth-shaped motion picture;
Extracting a voice signal section corresponding to the one-letter type character from the voice signal, extracting a video signal section corresponding to the one-letter type character from the motion image, and, if the voice signal section and the video signal section coincide, A voice recognition processor for recognizing the completion type character corresponding to at least one of the voice signal and the video signal inputted within a predetermined interval;
A storage unit for storing a specific audio signal for deleting a recognized character; And
And a control unit for controlling the execution of a predetermined command including the recognized complete character,
Wherein,
And deletes the recognized complete character in response to the specific audio signal stored in the storage unit.
상기 일치된 구간 내에 입력된 상기 음성 신호의 음성 특징값을 계산하고, 계산된 상기 음성 특징값에 근거하여 상기 일 완성형 문자를 인식하는 것을 특징으로 하는 영상 표시 장치. 13. The apparatus of claim 12, wherein the speech recognition processor
Calculates a voice characteristic value of the voice signal input in the matched section, and recognizes the one-finished character based on the calculated voice characteristic value.
상기 일치된 구간 내에 입력된 상기 움직임 영상의 움직임 특징값을 계산하고, 계산된 상기 음성 특징값 및 상기 움직임 특징값에 근거하여 상기 일 완성형 문자를 인식하는 것을 특징으로 하는 영상 표시 장치. 14. The apparatus of claim 13, wherein the speech recognition processor
Calculates a motion feature value of the motion image input in the matched section, and recognizes the monotone type character based on the calculated voice feature value and the motion feature value.
상기 음성 신호가 입력되기 시작한 시점부터 상기 소정 시간 간격이 시작되기 전까지의 구간을 상기 음성 신호 구간으로 추출하고, 상기 입모양이 움직이기 시작한 시점부터 상기 입모양의 움직임이 정지되는 시점까지의 구간을 상기 영상 신호 구간으로 추출하는 것을 특징으로 하는 영상 표시 장치. 13. The apparatus of claim 12, wherein the speech recognition processor
A section from the time when the voice signal is input until the beginning of the predetermined time interval is extracted as the voice signal section and a section from the time when the mouth shape starts moving to the time when the mouth shape is stopped And extracts the image signal in the video signal section.
상기 인식된 완성형 문자 또는 상기 완성형 문자로 이루어지는 상기 소정 명령에 대응하는 정보를 포함하는 사용자 인터페이스 데이터를 실시간으로 출력하는 사용자 인터페이스 부를 더 포함하는 것을 특징으로 하는 영상 표시 장치. 13. The method of claim 12,
Further comprising a user interface unit for outputting user interface data including information corresponding to the predetermined command including the recognized complete character or the completed character in real time.
적어도 하나의 인터넷 서버들과 데이터를 송수신하는 네트워크 인터페이스 부를 더 포함하며,
상기 음성 인식 처리부는
상기 네트워크 인터페이스 부를 통하여 상기 일치된 구간 내에 입력된 상기 음성 신호 및 상기 영상 신호 중 적어도 하나를 상기 인터넷 서버로 전송하고, 상기 인터넷 서버의 음성 인식 엔진 및 음성 인식 데이터 베이스를 이용하여 상기 완성형 문자를 인식하는 것을 특징으로 하는 영상 표시 장치. 13. The method of claim 12,
Further comprising a network interface unit for transmitting and receiving data with at least one Internet servers,
The speech recognition processor
And transmits at least one of the audio signal and the video signal input in the matched section through the network interface unit to the Internet server and recognizes the completion type character using the speech recognition engine and the speech recognition database of the Internet server And the video display device.
상기 음성 인식 처리부는
상기 인식된 완성형 문자에 적어도 하나의 음성 유사어가 존재하는 경우, 상기 음성 유사어가 상기 사용자 인터페이스 부를 통하여 출력되도록 제어하며,
상기 사용자 인터페이스 부는
상기 적어도 하나의 음성 유사어 중 사용자가 의도한 상기 완성형 문자를 선택받는 것을 특징으로 하는 영상 표시 장치. 17. The method of claim 16,
The speech recognition processor
And controlling the voice similarity output through the user interface unit when at least one voice similarity exists in the recognized completed character,
The user interface unit
Wherein the at least one of the at least one phonetic alphabet is selected by the user.
상기 인식된 완성형 문자로 이루어지는 소정 명령이 다수개 존재하는 경우, 상기 다수개의 소정 명령이 상기 사용자 인터페이스 부를 통하여 출력되도록 제어하며,
상기 사용자 인터페이스 부는
상기 다수개의 소정 명령 중 일 소정 명령을 선택받는 것을 특징으로 하는 영상 표시 장치 단계를 더 포함하는 것을 특징으로 하는 영상 표시 장치. 17. The apparatus of claim 16, wherein the speech recognition processor
Controlling the plurality of predetermined commands to be output through the user interface unit when a plurality of predetermined commands including the recognized completed characters exist,
The user interface unit
Further comprising a video display unit for receiving a predetermined command among the plurality of predetermined commands.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100075173A KR101687614B1 (en) | 2010-08-04 | 2010-08-04 | Method for voice recognition and image display device thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020100075173A KR101687614B1 (en) | 2010-08-04 | 2010-08-04 | Method for voice recognition and image display device thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120013032A KR20120013032A (en) | 2012-02-14 |
KR101687614B1 true KR101687614B1 (en) | 2016-12-19 |
Family
ID=45836717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100075173A KR101687614B1 (en) | 2010-08-04 | 2010-08-04 | Method for voice recognition and image display device thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101687614B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020101174A1 (en) * | 2018-11-15 | 2020-05-22 | 삼성전자 주식회사 | Method and apparatus for generating personalized lip reading model |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103905873A (en) * | 2014-04-08 | 2014-07-02 | 天津思博科科技发展有限公司 | Television remote controller based on mouth shape identification technology |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004246095A (en) * | 2003-02-14 | 2004-09-02 | Nec Saitama Ltd | Mobile telephone unit and remote control method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1864204A (en) * | 2002-09-06 | 2006-11-15 | 语音信号技术有限公司 | Methods, systems and programming for performing speech recognition |
KR20090115325A (en) * | 2008-05-02 | 2009-11-05 | 원광대학교산학협력단 | Apparatus for control a bed based on multimodal interface and method thereof |
-
2010
- 2010-08-04 KR KR1020100075173A patent/KR101687614B1/en active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004246095A (en) * | 2003-02-14 | 2004-09-02 | Nec Saitama Ltd | Mobile telephone unit and remote control method |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020101174A1 (en) * | 2018-11-15 | 2020-05-22 | 삼성전자 주식회사 | Method and apparatus for generating personalized lip reading model |
Also Published As
Publication number | Publication date |
---|---|
KR20120013032A (en) | 2012-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227129B2 (en) | Language translation device and language translation method | |
US8738371B2 (en) | User interactive apparatus and method, and computer program utilizing a direction detector with an electromagnetic transmitter for detecting viewing direction of a user wearing the transmitter | |
US9437246B2 (en) | Information processing device, information processing method and program | |
WO2009103226A1 (en) | A voice recognition channel selection system, a voice recognition channel selection method and a channel switching device | |
CN110210310B (en) | Video processing method and device for video processing | |
US20160217783A1 (en) | Speech recognition processing device, speech recognition processing method and display device | |
WO2014103568A1 (en) | Information processing device, information processing method and program | |
KR102277749B1 (en) | Display apparatus and the control method thereof | |
JP2012109901A (en) | Data presentation device | |
KR20130134545A (en) | System and method for digital television voice search using remote control | |
CN112601102A (en) | Method and device for determining simultaneous interpretation of subtitles, electronic equipment and storage medium | |
CN105355195A (en) | Audio frequency recognition method and audio frequency recognition device | |
EP3971887A1 (en) | Apparatus and method for recognizing a plurality of wake-up words | |
US20080100747A1 (en) | Voice-controlled TV set | |
US20100092150A1 (en) | Successive video recording method using udta information and portable device therefor | |
US11700428B2 (en) | Systems and methods for providing media based on a detected language being spoken | |
KR101687614B1 (en) | Method for voice recognition and image display device thereof | |
US20150382070A1 (en) | Method, electronic device, and computer program product | |
CN104717536A (en) | Voice control method and system | |
KR20110066628A (en) | Apparatus and method of inputting a text using lip reading in a mobile phone | |
CN116108176A (en) | Text classification method, equipment and storage medium based on multi-modal deep learning | |
JP7202938B2 (en) | Program name search support device and program name search support method | |
JP7414231B2 (en) | Multimodal speech recognition device and multimodal speech recognition method | |
KR20200056962A (en) | Electronic pen system for controlling tv in conjunction with artificial intelligence speaker | |
CN112036192A (en) | Ancient poetry generating method, device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20191114 Year of fee payment: 4 |