KR20220101591A - Display apparatus for performing a voice control and method thereof - Google Patents

Display apparatus for performing a voice control and method thereof Download PDF

Info

Publication number
KR20220101591A
KR20220101591A KR1020220084014A KR20220084014A KR20220101591A KR 20220101591 A KR20220101591 A KR 20220101591A KR 1020220084014 A KR1020220084014 A KR 1020220084014A KR 20220084014 A KR20220084014 A KR 20220084014A KR 20220101591 A KR20220101591 A KR 20220101591A
Authority
KR
South Korea
Prior art keywords
voice input
user
voice
function corresponding
received data
Prior art date
Application number
KR1020220084014A
Other languages
Korean (ko)
Other versions
KR102482457B1 (en
Inventor
최성욱
류희섭
이희란
황성필
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210043182A external-priority patent/KR102420155B1/en
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020220084014A priority Critical patent/KR102482457B1/en
Publication of KR20220101591A publication Critical patent/KR20220101591A/en
Priority to KR1020220183535A priority patent/KR102587112B1/en
Application granted granted Critical
Publication of KR102482457B1 publication Critical patent/KR102482457B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Abstract

A voice control method is disclosed. The method comprises: a step of waiting for input of a user voice when a voice input mode is initiated; a step of converting the user voice into a text; a control step of performing a control operation corresponding to the text; a determination step of determining whether an utterance of a user has been completed based on a result of performing the control operation; and a step of waiting for a subsequent voice input of a user for a preset waiting time if it is determined that the utterance of the user is incomplete and releasing the voice input mode if it is determined that the utterance of the user is complete. Accordingly, efficient voice control can be performed.

Description

음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 { DISPLAY APPARATUS FOR PERFORMING A VOICE CONTROL AND METHOD THEREOF }Display device performing voice control and voice control method thereof { DISPLAY APPARATUS FOR PERFORMING A VOICE CONTROL AND METHOD THEREOF }

본 발명은 디스플레이 장치 및 그 음성 제어 방법에 대한 것으로, 보다 상세하게는 사용자의 발화 완료 시점을 감지하여 음성 제어 모드를 해제하는 디스플레이 장치 및 그 음성 제어 방법에 대한 것이다. The present invention relates to a display device and a voice control method therefor, and more particularly, to a display device and a voice control method thereof for canceling a voice control mode by detecting the completion of a user's utterance.

전자 기술의 발달에 힘입어 다양한 형태의 전자 장치가 개발 및 보급되고 있다. 또한, 전자 장치에서 제공하는 기능 또한 점차 다양해지고 있다.With the development of electronic technology, various types of electronic devices are being developed and distributed. In addition, functions provided by electronic devices are also gradually diversifying.

이에 따라, 사용자가 전자 장치를 좀 더 편리하게 이용할 수 있는 인터렉션 기술에 대한 개발 노력도 꾸준하게 이어져 오고 있다. 그 중 하나로 사용자의 음성을 이용하여 제어하는 음성 제어 기술이 있을 수 있다.Accordingly, efforts to develop an interaction technology through which a user can more conveniently use an electronic device have been steadily continued. One of them may be a voice control technology for controlling using a user's voice.

최근에는 TV나 휴대폰, 네비게이션 장치 등과 같은 다양한 전자 장치들에서, 사용자의 음성을 인식하여 그 음성에 대응되는 제어 동작을 수행하도록 구현되고 있다. Recently, various electronic devices such as TVs, mobile phones, and navigation devices have been implemented to recognize a user's voice and perform a control operation corresponding to the voice.

하지만, 음성 제어 기술을 제품에 적용하여 실생활에서 사용하기에는 몇 가지 어려움이 있었다. 가령, 사용자가 음성을 입력하는 동안 주위 소음이 입력되거나, 일상 생활 대화 내용이 입력되어, 그로 인해 오작동을 수행할 가능성이 있다.However, there were some difficulties in applying the voice control technology to the product and using it in real life. For example, while the user is inputting a voice, there is a possibility that ambient noise is input or daily life conversation content is input, thereby causing a malfunction.

이에 따라, 음성 입력을 통해 제어하는 기술을 좀 더 효율적이고 정확하게 수행할 수 있는 기술에 대한 필요성이 대두되었다. Accordingly, there is a need for a technology capable of more efficiently and accurately performing a technology controlled through a voice input.

본 발명은 이러한 필요성에 따른 것으로, 본 발명의 목적은 사용자의 발화 완결 여부를 판단하여 그 판단 결과에 따라 음성 입력 모드를 해제하는 디스플레이 장치 및 그 음성 제어 방법을 제공함에 있다.An object of the present invention is to provide a display apparatus and a voice control method for determining whether a user's utterance is complete and releasing a voice input mode according to a result of the judgment.

이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따르면, 음성 제어 방법은, 음성 입력 모드가 개시되면 사용자 음성의 입력을 대기하는 단계, 상기 사용자 음성이 입력되면, 상기 사용자 음성을 텍스트로 변환하는 단계, 상기 텍스트에 대응되는 제어 동작을 수행하는 제어 단계, 상기 제어 동작의 수행 결과에 기초하여 사용자 발화 완결 여부를 판단하는 판단 단계, 상기 사용자 발화가 미완결인 것으로 판단되면 기 설정된 대기 시간 동안 후속 사용자 음성의 입력을 대기하고, 상기 사용자 발화가 완결된 것으로 판단되면 상기 음성 입력 모드를 해제하는 단계를 포함한다.According to an embodiment of the present invention for achieving the above object, a voice control method includes the steps of waiting for input of a user's voice when a voice input mode is started, and when the user's voice is input, the voice control method is converted into text converting, a control step of performing a control operation corresponding to the text, a determination step of determining whether the user's utterance is complete based on a result of the control operation, and a preset waiting time when it is determined that the user's utterance is incomplete and waiting for input of a subsequent user's voice, and releasing the voice input mode when it is determined that the user's utterance is complete.

여기서, 상기 판단 단계는, 상기 제어 동작이, 상기 사용자 음성 또는 상기 후속 사용자 음성에 의해 수행된 적어도 1회 이상의 검색 과정에서 선택된 정보가 디스플레이되는 동작이면, 상기 사용자 발화가 완결된 것으로 판단할 수 있다.Here, in the determining step, if the control operation is an operation in which information selected in at least one search process performed by the user's voice or the subsequent user's voice is displayed, it may be determined that the user's utterance is complete. .

또는, 상기 판단 단계는, 상기 제어 동작이 멀티미디어 컨텐츠 재생 동작이면, 상기 사용자 발화가 완결된 것으로 판단할 수 있다.Alternatively, in the determining step, if the control operation is a multimedia content reproduction operation, it may be determined that the user's utterance is complete.

또한, 음성 제어 방법은, 상기 음성 입력 모드가 개시되어 유지되는 동안, 상기 음성 입력 모드에 대응되는 그래픽 오브젝트를 디스플레이하는 단계를 더 포함할 수도 있다.Also, the voice control method may further include displaying a graphic object corresponding to the voice input mode while the voice input mode is started and maintained.

한편, 본 발명의 일 실시 예에 따른 디스플레이 장치는, 음성 입력 모드가 개시되면 사용자 음성을 입력받는 입력부, 상기 입력부를 통해 입력되는 상기 사용자 음성에 대응되는 제어 동작을 수행하는 제어부를 포함한다. Meanwhile, the display apparatus according to an embodiment of the present invention includes an input unit for receiving a user's voice when a voice input mode is started, and a control unit for performing a control operation corresponding to the user's voice input through the input unit.

여기서, 상기 제어부는, 상기 제어 동작의 수행 결과에 기초하여 사용자 발화 완결 여부를 판단하여, 상기 사용자 발화가 미완결인 것으로 판단되면 기 설정된 대기 시간 동안 후속 사용자 음성의 입력을 대기하고, 상기 사용자 발화가 완결된 것으로 판단되면 상기 음성 입력 모드를 해제할 수 있다.Here, the control unit determines whether the user's utterance is complete based on a result of the control operation, and when it is determined that the user's utterance is incomplete, the controller waits for input of a subsequent user's voice for a preset waiting time, and the user's utterance is When it is determined that it is completed, the voice input mode may be released.

또한, 상기 음성 입력 모드가 개시되어 유지되는 동안, 상기 음성 입력 모드에 대응되는 그래픽 오브젝트를 디스플레이하는 디스플레이부를 더 포함할 수도 있다.In addition, while the voice input mode is started and maintained, the display unit may further include a display unit for displaying a graphic object corresponding to the voice input mode.

한편, 상기 제어부는, 상기 사용자 음성이 입력되면, 상기 사용자 음성에 대응되는 텍스트를 상기 그래픽 오브젝트의 일 측에 디스플레이할 수 있다.Meanwhile, when the user's voice is input, the controller may display a text corresponding to the user's voice on one side of the graphic object.

또한, 상기 제어부는, 상기 음성 입력 모드가 해제되면, 상기 그래픽 오브젝트의 형태를 상기 음성 입력 모드의 해제 상태를 의미하는 형태로 변형할 수 있다.Also, when the voice input mode is released, the controller may transform the shape of the graphic object into a shape indicating a state in which the voice input mode is released.

또한, 상기 제어부는, 상기 사용자 음성 또는 상기 후속 사용자 음성에 따라 적어도 1회 이상 검색을 수행하여 검색 결과를 상기 디스플레이부에 디스플레이하며, 상기 검색 결과 중에서 하나가 선택되어 선택된 검색 결과에 따른 정보가 디스플레이되면, 상기 사용자 발화가 완결된 것으로 판단할 수 있다. In addition, the controller performs a search at least once according to the user's voice or the subsequent user's voice to display a search result on the display unit, and selects one of the search results and displays information according to the selected search result. If so, it may be determined that the user's utterance is complete.

또는, 상기 제어부는, 상기 제어 동작이 멀티미디어 컨텐츠 재생 동작이면, 상기 사용자 발화가 완결된 것으로 판단할 수 있다.Alternatively, when the control operation is a multimedia content reproduction operation, the controller may determine that the user's utterance is complete.

한편, 디스플레이 장치는, 상기 사용자 음성을 텍스트로 변환하기 위한 음성 인식 장치와 통신을 수행하는 통신부를 더 포함할 수 있다. 이 경우, 상기 제어부는, 상기 사용자 음성을 상기 통신부를 통해 상기 음성 인식 장치로 전송하여, 상기 음성 인식 장치에서 상기 사용자 음성을 상기 텍스트로 변환하면 상기 텍스트를 수신하여 상기 텍스트에 대응되는 상기 제어 동작을 수행할 수 있다.Meanwhile, the display device may further include a communication unit that communicates with a voice recognition device for converting the user's voice into text. In this case, the controller transmits the user voice to the voice recognition device through the communication unit, and when the voice recognition device converts the user voice into the text, receives the text and performs the control operation corresponding to the text can be performed.

또는, 디스플레이 장치는, 상기 텍스트에 따라 검색을 수행하기 위한 서버 장치와 통신을 수행하는 통신부를 더 포함할 수도 있다. 이 경우, 상기 제어부는, 상기 텍스트를 상기 서버 장치로 전송하여 상기 서버 장치로부터 상기 사용자 음성에 따른 검색 결과를 수신하여 상기 디스플레이부에 디스플레이하며, 상기 서버 장치로부터 발화 완결 신호가 수신되면 상기 사용자 발화가 완결된 것으로 판단하여 상기 음성 입력 모드를 해제할 수 있다.Alternatively, the display device may further include a communication unit configured to communicate with a server device for performing a search according to the text. In this case, the control unit transmits the text to the server device, receives the search result according to the user voice from the server device, and displays it on the display unit, and when the utterance completion signal is received from the server device, the user utterance The voice input mode may be released by determining that the voice input mode has been completed.

또는, 디스플레이 장치는, 상기 사용자 음성을 상기 텍스트로 변환하기 위한 음성 인식 장치 및 상기 텍스트에 따라 검색을 수행하기 위한 서버 장치와 각각 통신을 수행하는 통신부를 더 포함할 수도 있다.Alternatively, the display device may further include a communication unit that communicates with a voice recognition device for converting the user's voice into the text and a server device for performing a search according to the text, respectively.

이 경우, 상기 제어부는, 상기 사용자 음성을 상기 음성 인식 장치로 전송하여, 상기 음성 인식 장치로부터 상기 텍스트를 수신하며, 상기 텍스트를 상기 통신부를 통해 서버 장치로 전송하여 상기 서버 장치로부터 상기 검색 결과를 수신하여 상기 디스플레이부에 디스플레이하며, 상기 서버 장치로부터 발화 완결 신호가 수신되면 상기 사용자 발화가 완결된 것으로 판단하여 상기 음성 입력 모드를 해제할 수 있다.In this case, the controller transmits the user voice to the voice recognition device, receives the text from the voice recognition device, transmits the text to the server device through the communication unit, and retrieves the search result from the server device It is received and displayed on the display unit, and when a speech completion signal is received from the server device, it is determined that the user's speech is complete and the voice input mode can be released.

한편, 본 발명의 또 다른 실시 예에 따르면, 서버 장치는, 음성 입력 모드로 동작하는 디스플레이 장치로부터 사용자 음성에 대응되는 텍스트를 수신하는 서버 통신부, 컨텐츠 정보가 저장되는 데이터베이스, 상기 데이터베이스에서 상기 텍스트에 대한 검색을 수행하여, 검색된 컨텐츠 정보를 상기 디스플레이 장치로 제공하며, 상기 검색 결과에 기초하여 사용자의 발화가 완결된 것으로 판단되면, 발화 완결 신호를 상기 디스플레이 장치로 전송하는 서버 제어부를 포함한다. Meanwhile, according to another embodiment of the present invention, the server device includes a server communication unit for receiving text corresponding to a user's voice from a display device operating in a voice input mode, a database in which content information is stored, and the text in the database. and a server controller configured to provide the searched content information to the display device by performing a search for utterance, and to transmit a utterance completion signal to the display device when it is determined that the user's utterance is complete based on the search result.

이상과 같은 본 발명의 다양한 실시 예들에 따르면, 음성 제어 시스템에서는 사용자의 발화가 완료되었는지 여부를 판단하여 그에 따라 자동으로 음성 입력 모드를 해제할 수 있다. 이에 따라, 음성 입력 모드 선택 및 해제 버튼을 반복적으로 번거롭게 누를 필요가 없으며, 주변 소음이나 생활 대화 등으로 인해 오작동을 할 위험성도 크게 줄일 수 있다. According to various embodiments of the present invention as described above, the voice control system may determine whether the user's utterance has been completed and automatically release the voice input mode accordingly. Accordingly, there is no need to repeatedly and cumbersomely press the voice input mode selection and release button, and the risk of malfunction due to ambient noise or daily conversation can be greatly reduced.

도 1은 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도,
도 2는 본 발명의 일 실시 예에 따른 음성 제어 방법을 설명하기 위한 흐름도,
도 3은 디스플레이 장치의 음성 제어 과정을 설명하기 위한 도면,
도 4 및 도 5는 사용자의 발화 완결 여부를 판단하는 방법을 설명하기 위한 도면,
도 6은 본 발명의 일 실시 예에 따른 음성 제어 시스템의 구성을 나타내는 도면,
도 7은 본 발명의 다른 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도,
도 8은 본 발명의 일 실시 예에 따른 서버 장치의 구성을 나타내는 블럭도,
도 9는 본 발명의 일 실시 예에 따른 서버 장치의 음성 제어 지원 방법을 설명하기 위한 흐름도이다.
1 is a block diagram showing the configuration of a display device according to an embodiment of the present invention;
2 is a flowchart for explaining a voice control method according to an embodiment of the present invention;
3 is a view for explaining a voice control process of the display device;
4 and 5 are diagrams for explaining a method of determining whether a user's utterance is complete;
6 is a diagram showing the configuration of a voice control system according to an embodiment of the present invention;
7 is a block diagram showing the configuration of a display device according to another embodiment of the present invention;
8 is a block diagram showing the configuration of a server device according to an embodiment of the present invention;
9 is a flowchart illustrating a method for supporting voice control of a server device according to an embodiment of the present invention.

이하에서, 첨부된 도면을 이용하여 본 발명에 대하여 구체적으로 설명한다. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시 예에 따른 디스플레이 장치의 구성을 나타내는 블럭도이다. 도 1에 따르면, 디스플레이 장치(100)는 입력부(110), 제어부(120)를 포함한다. 1 is a block diagram showing the configuration of a display device according to an embodiment of the present invention. Referring to FIG. 1 , a display apparatus 100 includes an input unit 110 and a control unit 120 .

입력부(110)는 사용자 음성을 입력받기 위한 구성요소이다. 입력부(110)는 자체적으로 마이크를 포함하여 사용자 음성을 직접 입력받을 수도 있고, 리모콘 등에 설치된 마이크에서 입력되는 사용자 음성을 리모콘으로부터 간접적으로 입력받을 수도 있다.The input unit 110 is a component for receiving a user's voice. The input unit 110 may directly receive a user's voice including a microphone itself, or may indirectly receive a user's voice input from a microphone installed on the remote control or the like from the remote control.

제어부(120)는 입력부(110)를 통해 입력되는 사용자 음성에 대응되는 제어 동작을 수행한다. 구체적으로는, 제어부(120)는 입력부(110)를 통해 입력되는 사용자 음성이 기 정의된 음성 코맨드인 경우에는, 그 음성 코맨드에 대응되는 동작을 수행할 수 있다. 가령, 디스플레이 장치(100)가 TV인 경우, 턴-온, 턴-오프, 볼륨 업, 볼륨 다운, 채널 업, 채널 다운 등과 같은 다양한 동작들 각각에 대해 음성 코맨드가 지정되어 저장될 수 있다. 제어부(120)는 이러한 음성 코맨드가 입력되면, 해당 음성 코맨드에 매칭되는 동작을 수행한다.The control unit 120 performs a control operation corresponding to the user's voice input through the input unit 110 . Specifically, when the user's voice input through the input unit 110 is a predefined voice command, the controller 120 may perform an operation corresponding to the voice command. For example, when the display apparatus 100 is a TV, a voice command may be designated and stored for each of various operations such as turn-on, turn-off, volume up, volume down, channel up, channel down, and the like. When such a voice command is input, the controller 120 performs an operation matching the voice command.

한편, 제어부(120)는 사용자 음성이 정의되지 않은 임의의 텍스트를 발음한 것이라면, 그 텍스트에 대응되는 동작을 수행한다. 즉, 디스플레이 장치(100)는 사용자 음성을 분석하여, 그 사용자 음성에 응답하는 대화형 서비스를 제공할 수 있다. 가령, 사용자가 "영화배우 ABCD"라고 발음한 경우, 디스플레이 장치(100)는 "영화배우 ABCD" 라는 텍스트를 포함하는 다양한 정보들을 검색하여 그 검색 결과를 디스플레이하여 줄 수도 있다. On the other hand, if an arbitrary text in which the user's voice is not defined is pronounced, the controller 120 performs an operation corresponding to the text. That is, the display apparatus 100 may analyze the user's voice and provide an interactive service in response to the user's voice. For example, when the user pronounces "movie actor ABCD", the display apparatus 100 may search for various pieces of information including the text "movie actor ABCD" and display the search result.

사용자 음성의 분석 및 텍스트 변환 작업은 제어부(120)가 직접 처리할 수도 있지만, 실시 예에 따라서, 다르게는, 외부의 서버 장치(미도시)로 사용자 음성을 전달하여, 서버 장치가 해당 사용자 음성을 텍스트로 변환하면 그 변환된 텍스트를 제공받을 수도 있다. 음성을 텍스트로 변환하는 서버 장치는 설명의 편의상 음성 인식 장치로 명명할 수 있다. 음성 인식 장치와 연동하여 음성을 텍스트로 변환하는 실시 예에 대해서는 후술하는 부분에서 구체적으로 설명한다. The operation of analyzing and converting the user's voice may be directly processed by the control unit 120, but according to an embodiment, the user's voice is transmitted to an external server device (not shown), and the server device transmits the corresponding user's voice. If converted to text, the converted text may be provided. The server device that converts voice into text may be referred to as a voice recognition device for convenience of description. An embodiment of converting voice into text in conjunction with a voice recognition device will be described in detail later.

제어부(120)는 사용자의 선택에 따라 음성 입력 모드를 개시할 수 있다. 음성 입력 모드가 개시되면, 제어부(120)는 사용자 음성을 입력받도록 입력부(110)를 활성화시킬 수 있다. 이러한 상태에서 사용자 음성이 입력되어 제어 동작을 수행하고 나면, 제어부(120)는 그 수행 결과에 따라 사용자 발화 완결 여부를 판단한다. 사용자의 발화 완결이란, 사용자가 더 이상 음성 제어를 이용하지 않을 것으로 예측되는 상태를 의미한다. The controller 120 may start the voice input mode according to the user's selection. When the voice input mode is started, the controller 120 may activate the input unit 110 to receive the user's voice. In this state, after the user's voice is input and the control operation is performed, the controller 120 determines whether the user's utterance is complete according to the execution result. The completion of the user's utterance means a state in which it is predicted that the user will no longer use voice control.

즉, 제어부(120)는 사용자 음성에 따라 수행되는 제어 동작의 특성에 따라 발화 완결 여부를 판단할 수 있다. 가령, 통상적으로 사용자는 어떠한 정보를 검색하기 위하여 음성을 발화하거나, 어떠한 기능을 실행시키기 위하여 음성을 발화하는 것이 대부분이다. 따라서, 사용자가 자신이 원하는 정보를 최종적으로 찾아서 확인하게 되거나, 자신이 원하는 기능을 실행시키고 나면 일정 시간 동안은 음성 발화를 하지 않게 된다. 이러한 점을 고려하여, 제어부(120)는 사용자가 정보 검색 과정에서 하나의 정보를 선택하여, 그 정보가 디스플레이되는 경우에는, 사용자 발화가 완결된 것으로 판단할 수 있다. 또는, 제어부(120)는 특정 어플리케이션이나 멀티미디어 컨텐츠 등이 실행되어 그 실행 화면이 디스플레이되는 경우에도, 사용자 발화가 완결된 것으로 판단할 수 있다. That is, the controller 120 may determine whether the utterance is complete according to the characteristics of the control operation performed according to the user's voice. For example, in general, a user utters a voice in order to search for certain information or utters a voice in order to execute a certain function. Accordingly, after the user finally finds and confirms the desired information or executes the desired function, the user does not speak the voice for a certain period of time. Considering this point, when the user selects one piece of information in the information search process and the information is displayed, the controller 120 may determine that the user's utterance is complete. Alternatively, the controller 120 may determine that the user's utterance is complete even when a specific application or multimedia content is executed and the execution screen is displayed.

이러한 판단 결과, 제어부(120)는 사용자 발화가 완결된 것으로 판단되면, 대기 시간 동안 기다리지 않고, 바로 음성 입력 모드를 해제한다. 이에 따라, 불필요한 대기 시간 동안 주위에서 발생되는 각종 소음들로 인하여, 오작동이 발생할 가능성을 미리 차단할 수 있다.As a result of this determination, if it is determined that the user's utterance is complete, the controller 120 immediately releases the voice input mode without waiting for a waiting time. Accordingly, it is possible to prevent in advance the possibility of a malfunction due to various noises generated in the surroundings during unnecessary waiting time.

반면, 사용자 발화가 미완결인 것으로 판단되면, 제어부(120)는 기 설정된 대기 시간 동안 후속 사용자 음성의 입력을 대기한다. 대기 시간 내에 다시 후속 사용자 음성의 입력이 이루어지면, 제어부(120)는 그 후속 사용자 음성에 따른 제어 동작을 다시 수행하고, 그 후속 사용자 음성으로 인해 사용자 발화가 완결되었는지 다시 한번 더 판단한다. 후속 사용자 음성에 대해서도 미완결 상태로 판단되면, 제어부(120)는 대기 시간을 다시 초기화하고, 대기 시간 동안 또 다른 후속 사용자 음성의 입력을 대기한다. 즉, 제어부(120)는 최초에 음성 입력 모드를 한번만 선택하고 나면, 사용자가 발화를 완결할 때까지 다시 음성 입력 모드를 선택하지 않더라도 지속적으로 음성 입력 모드를 유지할 수 있다. 이에 따라, 사용자가 음성 제어를 위하여 매번 음성 입력 모드를 선택하여야 하는 번거로움을 해결할 수 있다. On the other hand, if it is determined that the user's utterance is incomplete, the controller 120 waits for input of a subsequent user's voice for a preset waiting time. If a subsequent user's voice is input again within the waiting time, the controller 120 performs a control operation according to the subsequent user's voice again, and determines once again whether the user's utterance is completed due to the subsequent user's voice. If it is determined that the subsequent user's voice is also in an incomplete state, the controller 120 initializes the standby time again and waits for input of another subsequent user's voice during the standby time. That is, after selecting the voice input mode only once initially, the controller 120 may continuously maintain the voice input mode even if the user does not select the voice input mode again until the user completes the utterance. Accordingly, it is possible to solve the inconvenience of the user having to select the voice input mode every time for voice control.

도 1에서는 디스플레이 장치가 단독으로 음성 제어를 수행하는 것으로 설명하였으나, 외부의 서버 장치와 연동하여 음성 제어를 수행할 수도 있다. Although it has been described in FIG. 1 that the display device performs voice control alone, voice control may be performed in conjunction with an external server device.

도 2는 본 발명의 일 실시 예에 따른 음성 제어 방법을 설명하기 위한 흐름도이다. 도 2에 따르면, 디스플레이 장치(100)는 음성 입력 모드가 개시되면(S210), 사용자 음성 입력을 대기한다(S220). 상술한 바와 같이, 사용자 음성은 디스플레이 장치(100)의 본체에 마련된 마이크를 통해 입력될 수도 있고, 리모콘이나 기타 외부 장치에 마련된 마이크를 통해 입력되어 디스플레이 장치(100)로 전송될 수도 있다.2 is a flowchart illustrating a voice control method according to an embodiment of the present invention. Referring to FIG. 2 , when the voice input mode starts ( S210 ), the display apparatus 100 waits for a user's voice input ( S220 ). As described above, the user's voice may be input through a microphone provided in the main body of the display apparatus 100 , or may be input through a microphone provided in a remote control or other external device and transmitted to the display apparatus 100 .

디스플레이 장치(100)는 사용자 음성이 입력되면(S230). 그 사용자 음성을 텍스트로 변환한다(S240). 텍스트 변환은 디스플레이 장치(100)가 자체적으로 수행할 수도 있으나, 또 다른 실시 예에 따르면 디스플레이 장치(100)가 외부의 서버 장치, 즉, 음성 인식 장치로 사용자 음성을 전송하여, 음성 인식 장치가 그 사용자 음성을 텍스트로 변환하면, 텍스트를 수신할 수 있다. The display apparatus 100 receives a user's voice (S230). The user's voice is converted into text (S240). The text conversion may be performed by the display apparatus 100 itself, but according to another embodiment, the display apparatus 100 transmits a user's voice to an external server device, that is, a voice recognition device, and the voice recognition device performs the text conversion. If the user's voice is converted into text, the text can be received.

디스플레이 장치(100)는 변환된 텍스트에 대응되는 제어 동작을 수행한다(S250). 가령, 사용자가 임의의 키워드를 발화한 경우라면, 디스플레이 장치(100)는 해당 키워드를 포함하는 각종 정보를 검색하여 검색 결과를 디스플레이할 수 있다. 또는, 사용자가 키워드와 명령어를 함께 발화한 경우라면, 명령어에 대응되는 어플리케이션을 실행시키고, 키워드를 해당 어플리케이션의 입력으로 제공할 수 있다. 가령, 특정 컨텐츠 이름과 함께 해당 컨텐츠를 재생할 것을 명령하는 명령어(예를 들어, 틀어 줘, 재생 등)를 발화한 경우라면, 컨텐츠 재생 어플리케이션을 실행시키고, 해당 컨텐츠 이름을 컨텐츠 재생 어플리케이션의 입력으로 제공한다. 이에 따라, 그 컨텐츠 이름에 대응되는 컨텐츠를 재생한다.The display apparatus 100 performs a control operation corresponding to the converted text (S250). For example, if the user utters a keyword, the display apparatus 100 may search for various pieces of information including the keyword and display the search result. Alternatively, if the user utters a keyword and a command together, an application corresponding to the command may be executed, and the keyword may be provided as an input of the corresponding application. For example, if a command (eg, play, play, etc.) for instructing to play the corresponding content together with a specific content name is uttered, the content playback application is executed and the corresponding content name is provided as an input to the content playback application do. Accordingly, the content corresponding to the content name is reproduced.

디스플레이 장치(100)는 제어 동작을 수행하고 나면, 그 제어 동작의 내용에 기초하여 사용자가 발화를 완결하였는지 여부를 판단할 수 있다(S260). 이러한 판단은 디스플레이 장치(100)가 자체적으로 수행할 수도 있고, 외부의 서버 장치에서 판단하여 디스플레이 장치(100)로 통지하여 줄 수도 있다. After performing the control operation, the display apparatus 100 may determine whether the user has completed the utterance based on the contents of the control operation ( S260 ). Such determination may be performed by the display apparatus 100 itself, or an external server apparatus may determine and notify the display apparatus 100 .

사용자 발화가 완결되었는지 여부를 판단하는 방법은 다양하게 구현될 수 있다. 일 예로, 판단 단계에서는, 제어 동작이 사용자 음성 또는 후속 사용자 음성에 의해 수행되는 적어도 1회 이상의 검색 과정에서 선택된 정보를 디스플레이하는 동작인 경우, 사용자 발화가 완결된 것으로 판단할 수 있다.A method of determining whether the user's utterance is complete may be implemented in various ways. For example, in the determining step, when the control operation is an operation of displaying information selected in at least one search process performed by the user's voice or a subsequent user's voice, it may be determined that the user's utterance is complete.

또는, 판단 단계에서는, 사용자 음성 또는 후속 사용자 음성에 의해 수행되는 제어 동작이 멀티미디어 컨텐츠 재생 동작인 경우에, 사용자 발화가 완결된 것으로 판단할 수 있다. Alternatively, in the determining step, when the control operation performed by the user's voice or a subsequent user's voice is a multimedia content reproduction operation, it may be determined that the user's utterance is complete.

구체적인 판단 방법의 예에 대해서는 후술하는 부분에서 도면과 함께 설명한다.An example of a specific determination method will be described in conjunction with drawings in a portion to be described later.

디스플레이 장치(100)는 발화가 완결되었다고 판단하면, 음성 입력 모드를 해제한다(S290). 음성 입력 모드가 해제된 상태에서는 사용자가 다시 음성 입력 모드를 선택하지 않는 이상, 사용자 음성으로 인한 제어가 수행되지 않게 된다. When determining that the utterance is complete, the display apparatus 100 releases the voice input mode (S290). In a state in which the voice input mode is released, control by the user's voice is not performed unless the user selects the voice input mode again.

반면, 사용자 발화가 미완결인 것으로 판단되면, 디스플레이 장치(100)는 대기 시간을 리셋하고(S280), 대기 시간 동안 음성 입력 모드를 유지하여, 사용자 음성 입력을 대기한다(S220). 대기 시간은 디스플레이 장치(100)의 제조 업체 또는 사용자에 의해 임의로 설정될 수 있다. 예를 들어, 30초 정도로 설정될 수 있다. On the other hand, if it is determined that the user's utterance is incomplete, the display apparatus 100 resets the standby time (S280), maintains the voice input mode during the standby time, and waits for the user's voice input (S220). The standby time may be arbitrarily set by a manufacturer or a user of the display apparatus 100 . For example, it may be set to about 30 seconds.

사용자 음성이 입력되지 않은 상태로 대기 시간이 종료되었을 때에도(S270), 디스플레이 장치(100)는 음성 입력 모드를 해제할 수 있다. Even when the waiting time has ended without the user's voice being input (S270), the display apparatus 100 may release the voice input mode.

한편, 도 2에서는 도시하지 않았으나, 음성 입력 모드가 개시되어 유지되는 동안, 음성 입력 모드에 대응되는 그래픽 오브젝트를 디스플레이하는 단계가 더 포함될 수도 있다. 그래픽 오브젝트의 형태나 그 역할에 대해서는 후술하는 부분에서 구체적으로 설명한다. Meanwhile, although not shown in FIG. 2 , while the voice input mode is started and maintained, the step of displaying a graphic object corresponding to the voice input mode may be further included. The shape of the graphic object and its role will be described in detail in a later section.

도 3은 사용자 음성을 이용하여 제어하는 디스플레이 장치의 동작을 설명하기 위한 도면이다. 도 3에 따르면, 디스플레이 장치(100)는 디스플레이부(130)를 더 포함할 수 있다. 3 is a diagram for explaining an operation of a display device that is controlled using a user's voice. Referring to FIG. 3 , the display apparatus 100 may further include a display unit 130 .

디스플레이부(130)에는 사용자가 선택한 각종 컨텐츠가 디스플레이될 수 있다. 또한, 음성 입력 모드가 개시되면, 디스플레이부(130)에는 음성 입력 모드에 대응되는 그래픽 오브젝트(320)가 디스플레이된다. 그래픽 오브젝트(320)는 음성 입력 모드가 유지되는 동안 지속적으로 디스플레이될 수 있다. 도 3에서는, 마이크 형상의 그래픽 오브젝트(320)가 화면 모서리 부분에 표시된 상태를 도시하였으나, 그래픽 오브젝트(320)의 형태 및 위치는 이에 한정되는 것은 아니다. Various contents selected by the user may be displayed on the display unit 130 . Also, when the voice input mode is started, the graphic object 320 corresponding to the voice input mode is displayed on the display unit 130 . The graphic object 320 may be continuously displayed while the voice input mode is maintained. 3 illustrates a state in which the graphic object 320 in the shape of a microphone is displayed on the edge of the screen, the shape and position of the graphic object 320 is not limited thereto.

제어부(120)는 사용자 음성이 입력되면, 그 사용자 음성에 대응되는 텍스트를 디스플레이부(130)에 표시한다. 도 3에 따르면, 그래픽 오브젝트(320)의 일 측에 텍스트 표시 영역(310)이 마련될 수 있다.When a user's voice is input, the control unit 120 displays text corresponding to the user's voice on the display unit 130 . Referring to FIG. 3 , a text display area 310 may be provided on one side of the graphic object 320 .

이에 따라, 사용자 음성에 대응되는 텍스트가 텍스트 표시 영역(310) 내에 표시될 수 있다. 사용자는 텍스트 표시 영역(310) 내에 표시된 텍스트를 확인하여, 자신이 발화한 음성이 정상적으로 인식되었는지 여부를 확인할 수 있다.Accordingly, text corresponding to the user's voice may be displayed in the text display area 310 . The user may check the text displayed in the text display area 310 to determine whether the voice uttered by the user is normally recognized.

텍스트 표시 영역(310)의 하측에는 사용자 음성에 대응되는 제어 동작의 결과를 표시하기 위한 결과 표시 영역(330)이 마련된다. 제어부(120)는 사용자 음성에 대응되는 제어 동작의 결과를 결과 표시 영역(330) 내에 디스플레이한다. A result display area 330 for displaying a result of a control operation corresponding to a user's voice is provided below the text display area 310 . The controller 120 displays the result of the control operation corresponding to the user's voice in the result display area 330 .

도 3에서는 사용자(10)가 "AAA 몇 시야"라고 발화한 예를 나타낸다. 이 경우, 제어부(120)는 "AAA", "몇 시"라는 키워드를 이용하여 검색을 수행한 상태를 나타낸다. 제어부(120)는 검색 결과(330)를 결과 표시 영역(330) 내에 디스플레이한다.3 shows an example in which the user 10 utters "AAA what field of view". In this case, the controller 120 indicates a state in which the search is performed using the keywords “AAA” and “what time”. The controller 120 displays the search result 330 in the result display area 330 .

제어부(120)는 검색 결과(330)에 기초하여 사용자의 발화 완결 여부를 판단한다. 발화 완결이라고 판단되면, 제어부(120)는 음성 입력 모드를 해제한다.The controller 120 determines whether the user's utterance is complete based on the search result 330 . If it is determined that the utterance is complete, the controller 120 releases the voice input mode.

도 4 및 도 5는 사용자의 발화 완결 여부를 판단하는 다양한 방법을 설명하기 위한 도면이다. 도 4에서는 사용자가 "AAA"라는 키워드를 발화한 상태를 나타낸다. 제어부(120)는 "AAA"에 대한 검색을 수행하여, 검색 결과를 결과 표시 영역(330)에 표시할 수 있다. 도 4에서는 다수의 검색 결과가 표시된 상태를 나타낸다. 제어부(120)는 다수의 검색 결과가 검색되어, 리스트 형태로 표시되었으므로, 사용자 발화가 미완결이라고 판단하고, 대기 시간을 다시 초기 값으로 리셋할 수 있다.4 and 5 are diagrams for explaining various methods of determining whether a user's utterance is complete. 4 shows a state in which the user has uttered the keyword "AAA". The controller 120 may perform a search for “AAA” and display the search result in the result display area 330 . 4 shows a state in which a plurality of search results are displayed. Since a plurality of search results are retrieved and displayed in the form of a list, the controller 120 may determine that the user's utterance is incomplete and reset the waiting time back to the initial value.

이러한 상태에서, 사용자는 후속 사용자 음성을 입력하여 검색 결과 중 하나를 선택할 수 있다. 도 4에서 사용자는 검색 결과를 정렬한 인덱스(즉, 1번, 2번, 3번 등)를 직접 발화하거나, 검색 결과의 명칭을 발화할 수 있다. 제어부(120)는 "1번" 또는 "AAA 뉴스 다시 보기" 와 같은 사용자 음성이 입력되면, 입력된 사용자 음성에 기초하여 추가 검색을 수행한다. 이에 따라, 제어부(120)는 "AAA 뉴스 다시 보기"를 텍스트 표시 영역(310)에 표시하고, "AAA 뉴스 다시 보기"에 대한 검색 결과를 결과 표시 영역(330)에 표시한다. 이 경우에도, 제어부(120)는 다수의 검색 결과가 검색되어 리스트 형태로 표시되었으므로 사용자 발화가 미완결이라고 판단할 수 있다. 제어부(120)는 다시 대기 시간을 초기 값으로 리셋하고, 후속 사용자 음성을 대기한다.In this state, the user may select one of the search results by inputting a subsequent user's voice. In FIG. 4 , the user may directly utter an index (ie, No. 1, No. 2, No. 3, etc.) in which the search results are sorted, or the name of the search result. When a user's voice such as "No. 1" or "AAA news replay" is input, the controller 120 performs an additional search based on the inputted user's voice. Accordingly, the controller 120 displays "AAA News Replay" in the text display area 310 and displays a search result for "AAA News Replay" in the result display area 330 . Even in this case, the controller 120 may determine that the user's utterance is incomplete because a plurality of search results are searched and displayed in the form of a list. The controller 120 resets the standby time to an initial value again and waits for a subsequent user's voice.

도 4에 도시된 바와 같이, 사용자가 다시 "3번" 또는 "AAA 뉴스 9/3일자"를 발화하면, 제어부(120)는 그 사용자 음성에 의해 선택된 아이템에 해당하는 멀티미디어 컨텐츠를 재생한다. 도 4에서는 9월 3일 자 AAA 뉴스라는 멀티미디어 컨텐츠를 재생하여 그 재생 화면(410)을 디스플레이한 상태를 나타낸다. 이와 같이, 제어부(120)는 사용자 음성 또는 후속 사용자 음성에 의해 실행되는 제어 동작이 멀티미디어 컨텐츠 재생 동작인 경우에는, 사용자의 발화가 완결된 것으로 판단한다.As shown in FIG. 4 , when the user utters “No. 3” or “AAA News 9/3” again, the controller 120 plays the multimedia content corresponding to the item selected by the user's voice. 4 shows a state in which a multimedia content called AAA news dated on September 3 is reproduced and the reproduction screen 410 is displayed. As such, when the control operation performed by the user's voice or the subsequent user's voice is a multimedia content reproduction operation, the controller 120 determines that the user's utterance is complete.

이에 따라, 제어부(120)는 음성 입력 모드를 해제하고, 그래픽 오브젝트의 형태를 음성 입력 모드의 해제 상태를 의미하는 형태(S340)로 변형한다. 그래픽 오브젝트는 음성 입력 모드가 해제되고 나면 일정 시간 이후에 삭제될 수 있다.Accordingly, the controller 120 cancels the voice input mode and transforms the shape of the graphic object into a shape (S340) indicating the release state of the voice input mode. The graphic object may be deleted after a certain period of time after the voice input mode is released.

이와 같이, 사용자가 원하는 컨텐츠가 출력되면, 음성 입력 모드를 바로 해제하여, 음성 입력 모드를 위한 UI를 삭제하게 된다. 이에 따라, 종래에 컨텐츠가 선택되어 출력되더라도 대기 시간 동안 UI로 인해 컨텐츠가 가려져, 시청에 방해를 받게 되는 불편함을 해소할 수 있게 된다. As such, when the content desired by the user is output, the voice input mode is immediately released, and the UI for the voice input mode is deleted. Accordingly, it is possible to solve the inconvenience that the content is blocked by the UI during the waiting time even when the content is selected and output according to the prior art, which interferes with viewing.

도 5는 발화 완결 여부를 판단하는 또 다른 방법을 설명하기 위한 도면이다. 도 5에서는, 사용자가 "AAA 몇 시야"라고 발화한 경우를 예로 들어 설명한다. 5 is a diagram for explaining another method of determining whether utterance is complete. In FIG. 5 , a case in which the user utters “AAA what field of view” will be described as an example.

제어부(120)는 사용자 음성에 기초하여 검색을 수행하여, 그 검색 결과를 리스트 형태로 결과 표시 영역(330) 내에 표시한다. 사용자는 후속 사용자 음성을 입력하여 검색 결과를 선택하여, 검색 결과 내에서 추가 검색을 수행할 수 있다. 도 5에서는 1번 아이템, 2번 아이템이 순차적으로 선택된 상태를 나타낸다.The controller 120 performs a search based on the user's voice and displays the search result in the result display area 330 in the form of a list. The user may select a search result by inputting a subsequent user's voice to perform further searches within the search result. 5 shows a state in which item 1 and item 2 are sequentially selected.

제어부(120)는 정보 트리 상에서 최하위 레벨의 정보가 선택되면, 해당 정보를 디스플레이할 수 있다. 도 5에서는 "AAA 10시 뉴스 정보"라는 아이템이 최하위 레벨의 정보인 경우를 나타낸다. 제어부(120)는 후속 사용자 음성에 의해 "AAA 10시 뉴스 정보"가 선택되면, 그 선택된 아이템에 해당하는 세부 정보 화면(510)을 디스플레이한다. When information of the lowest level is selected on the information tree, the controller 120 may display the corresponding information. 5 shows a case in which the item "AAA 10 o'clock news information" is the lowest level information. When "AAA 10 o'clock news information" is selected by a subsequent user's voice, the controller 120 displays a detailed information screen 510 corresponding to the selected item.

제어부(120)는 최하위 레벨의 정보가 선택되었다면 사용자 발화가 완결된 것으로 판단한다. 즉, 제어부(120)는 사용자 음성 또는 후속 사용자 음성에 따라 적어도 1회 이상의 검색을 수행하다가, 검색 결과 중 하나가 선택되어 선택된 검색 결과에 따른 정보가 디스플레이되면, 사용자 발화가 완결된 것으로 판단할 수 있다. 이에 따라, 제어부(120)는 음성 입력 모드를 해제한다. If the lowest level of information is selected, the controller 120 determines that the user's utterance is complete. That is, the controller 120 may determine that the user's utterance is complete if, while performing at least one search according to the user's voice or the subsequent user's voice, one of the search results is selected and information according to the selected search result is displayed. have. Accordingly, the controller 120 releases the voice input mode.

제어부(120)는 음성 입력 모드가 해제되면, 그래픽 오브젝트(320)를 음성 입력 모드 해제 상태를 의미하는 형태(340)로 변형한다. When the voice input mode is released, the controller 120 transforms the graphic object 320 into a form 340 indicating the voice input mode cancellation state.

또 다른 예로, 제어부(120)는 어플리케이션이 선택되어 그 어플리케이션 화면이 디스플레이되고, 어플리케이션 화면 내에서 최하위 기능이 선택되어 실행된 경우에도 사용자 발화가 완결된 것으로 판단할 수도 있다. As another example, the controller 120 may determine that the user's utterance is complete even when an application is selected and the application screen is displayed, and the lowest function in the application screen is selected and executed.

도 4 및 도 5에서는 검색 결과가 세로 방향으로 정렬된 리스트 형태로 표시되는 것으로 도시하였으나, 검색 결과는 디스플레이부(130)의 형태 및 크기에 따라 다양한 방식으로 제공될 수 있다. 가령, 가로 방향으로 정렬될 수도 있다. 또한, 검색 결과는 텍스트 형태가 아니라 캡쳐 이미지나 썸네일 이미지, 아이콘 등과 같은 다양한 형태로 표시될 수도 있다. 4 and 5 show that the search results are displayed in the form of a list arranged in a vertical direction, the search results may be provided in various ways depending on the shape and size of the display unit 130 . For example, they may be aligned in a horizontal direction. In addition, the search result may be displayed in various forms such as a captured image, a thumbnail image, and an icon rather than a text form.

이상과 같이, 제어부(120)는 사용자 음성에 따른 제어 동작을 수행하면서, 사용자 음성의 내용 및 제어 동작의 내용에 기초하여, 사용자가 더 이상 발화를 계속하지 않을 것인지 아니면 후속 발화가 기대되는지 여부를 자동으로 판단할 수 있다. 제어부(120)는 판단 결과에 따라 자동으로 음성 입력 모드를 해제하여, 오작 동 위험을 방지할 수 있다. 또한, 상술한 바와 같이, 음성 입력 모드의 UI로 인해 화면이 가려지는 불편함도 방지할 수 있고, 불필요한 리소스 낭비를 줄일 수도 있다.As described above, while performing the control operation according to the user's voice, the controller 120 determines whether the user will not continue to speak or whether a subsequent utterance is expected based on the content of the user's voice and the content of the control operation. can be determined automatically. The control unit 120 may automatically release the voice input mode according to the determination result, thereby preventing the risk of malfunction. In addition, as described above, it is possible to prevent the inconvenience of the screen being blocked due to the UI in the voice input mode, and unnecessary waste of resources can be reduced.

한편, 상술한 실시 예들에서는 디스플레이 장치가 사용자 음성을 텍스트로 변환하고, 텍스트에 따른 검색을 수행하며, 사용자 의도 파악까지 전부 수행하는 것으로 설명하였으나, 이러한 동작들 중에서 일부 동작은 외부의 서버 장치에서 수행할 수 있다. 즉, 본 발명의 또 다른 실시 예에 따르면, 적어도 하나의 서버 장치와 디스플레이 장치를 포함하는 음성 제어 시스템에서, 상술한 바와 같은 음성 제어 방법을 구현할 수도 있다.Meanwhile, in the above-described embodiments, it has been described that the display device converts the user's voice into text, searches according to the text, and performs all of the user's intentions. However, some of these operations are performed by an external server device. can do. That is, according to another embodiment of the present invention, the voice control method as described above may be implemented in a voice control system including at least one server device and a display device.

도 6은 본 발명의 일 실시 예에 따른 음성 제어 시스템의 구성의 일 예를 나타낸다. 도 6에 따르면, 음성 제어 시스템(1000)은 음성 인식 장치(700), 서버 장치(800), 디스플레이 장치(100)를 포함한다.6 shows an example of the configuration of a voice control system according to an embodiment of the present invention. Referring to FIG. 6 , the voice control system 1000 includes a voice recognition device 700 , a server device 800 , and a display device 100 .

디스플레이 장치(100)는 음성 인식 장치(700) 및 서버 장치(800) 등과 연동할 수 있는 대화 클라이언트 모듈(미도시)을 포함할 수 있다. 제어부(120)는 음성 입력 모드가 개시되면, 대화 클라이언트 모듈을 실행시켜, 음성 입력에 대응되는 제어 동작을 수행할 수 있다. 구체적으로, 제어부(120)는 사용자 음성이 입력되면 음성 인식 장치(700)로 전송할 수 있다. The display apparatus 100 may include a conversation client module (not shown) capable of interworking with the voice recognition apparatus 700 and the server apparatus 800 . When the voice input mode is started, the controller 120 may execute a conversation client module to perform a control operation corresponding to the voice input. Specifically, when a user's voice is input, the controller 120 may transmit it to the voice recognition apparatus 700 .

음성 인식 장치(700)는 디스플레이 장치(100)를 통해 전송되는 사용자 음성을 텍스트로 변환하여 제공하는 일종의 서버 장치를 의미한다. The voice recognition device 700 refers to a kind of server device that converts a user's voice transmitted through the display device 100 into text and provides the same.

음성 인식 장치(700)는 동적정합법(Dynamic time warping method), 은닉 마코프모델(Hidden Markov Model), 신경망(Neural Network) 등과 같은 다양한 인식 알고리즘 중 적어도 하나를 이용하여 음성을 인식하고, 인식된 음성을 텍스트로 변환할 수 있다. 일 예로, 은닉 마코프 모델을 사용하는 경우, 음성 인식 장치(700)는 사용자 음성의 시간적 변화 및 스펙트럼 변화를 각각 모델링하여, 기 저장된 언어 데이터베이스에서 유사한 어휘를 검출한다. 이에 따라, 검출된 어휘를 텍스트로 출력할 수 있다. The voice recognition apparatus 700 recognizes a voice using at least one of various recognition algorithms such as a dynamic time warping method, a hidden Markov model, and a neural network, and recognizes the recognized voice. can be converted to text. For example, when using the hidden Markov model, the speech recognition apparatus 700 models temporal changes and spectral changes of the user's voice, respectively, and detects similar vocabulary from a pre-stored language database. Accordingly, the detected vocabulary may be output as text.

디스플레이 장치(100)는 음성 인식 장치(700)로부터 텍스트가 입력되면, 입력된 텍스트에 대응되는 제어 동작을 수행한다. 디스플레이 장치(100)는 기 설정된 음성 명령어 중에서 텍스트와 일치하는 음성 명령어가 있으면, 그 음성 명령어에 대응되는 동작을 수행한다. 반면, 음성 명령어와 텍스트가 일치하지 않으면, 텍스트를 서버 장치(800)로 제공한다. When text is input from the voice recognition apparatus 700 , the display apparatus 100 performs a control operation corresponding to the input text. If there is a voice command matching text among preset voice commands, the display apparatus 100 performs an operation corresponding to the voice command. On the other hand, if the voice command and the text do not match, the text is provided to the server device 800 .

서버 장치(800)는 제공된 텍스트에 대응되는 정보를 자체 데이터베이스 또는 기타 서버 장치들로부터 검색한다. 서버 장치(800)는 검색 결과를 디스플레이 장치(100)로 다시 피드백한다.The server device 800 retrieves information corresponding to the provided text from its own database or other server devices. The server device 800 feeds back the search result to the display device 100 .

디스플레이 장치(100)는 검색 결과를 디스플레이한다. 상술한 바와 같이, 디스플레이 장치(100)는 검색 결과에 기초하여 사용자의 발화 의도를 파악할 수 있다. 이에 따라, 발화가 완결되었다면 음성 입력 모드를 자동으로 해제할 수 있다.The display apparatus 100 displays the search result. As described above, the display apparatus 100 may determine the user's utterance intention based on the search result. Accordingly, when the utterance is completed, the voice input mode may be automatically released.

한편, 본 발명의 또 다른 실시 예에 따르면, 사용자의 발화 완결 여부는 서버 장치(800)에서 판단하여 줄 수도 있다. 즉, 서버 장치(800)는 사용자의 음성 또는 후속 음성에 따라 검색하여 검색 결과를 제공해주다가, 사용자가 하위 레벨의 정보를 선택하여 그 정보에 따른 화면을 확인하거나, 컨텐츠를 선택하여 컨텐츠가 재생되었다면, 사용자의 발화가 완결된 상태로 판단할 수 있다. 이에 따라, 서버 장치(800)는 발화 완결 신호를 디스플레이 장치(100)로 전송하여 줄 수 있다.Meanwhile, according to another embodiment of the present invention, whether the user's utterance is complete may be determined by the server device 800 . That is, if the server device 800 searches according to the user's voice or subsequent voice and provides a search result, the user selects lower-level information to check a screen according to the information, or selects the content and plays the content. , it may be determined that the user's utterance is complete. Accordingly, the server device 800 may transmit the utterance completion signal to the display device 100 .

디스플레이 장치(100)는 서버 장치(800)로부터 발화 완결 신호가 수신되면, 음성 입력 모드를 해제할 수 있다. When the utterance completion signal is received from the server device 800 , the display apparatus 100 may release the voice input mode.

도 7은 도 6과 같은 음성 입력 시스템에 사용되는 디스플레이 장치의 세부 구성의 일 예를 나타내는 블럭도이다. 도 7에 따르면, 디스플레이 장치(100)는 입력부(110), 제어부(120), 디스플레이부(130), 방송 수신부(140), 컨텐츠 처리부(150), 통신부(160), 저장부(170)를 포함한다.7 is a block diagram illustrating an example of a detailed configuration of a display device used in the voice input system shown in FIG. 6 . Referring to FIG. 7 , the display apparatus 100 includes an input unit 110 , a control unit 120 , a display unit 130 , a broadcast receiving unit 140 , a content processing unit 150 , a communication unit 160 , and a storage unit 170 . include

입력부(110)는 상술한 바와 같이 사용자 음성을 입력받기 위한 구성요소이다. 제어부(120)는 입력부(110)를 통해 입력되는 사용자 음성에 대응되는 제어 동작을 수행한다. 입력부(110) 및 제어부(120)의 동작에 대해서는 상술한 부분에서 구체적으로 기재한 바 있으므로, 중복되는 부분에 대한 설명은 생략한다. The input unit 110 is a component for receiving a user's voice as described above. The control unit 120 performs a control operation corresponding to the user's voice input through the input unit 110 . Since the operations of the input unit 110 and the control unit 120 have been described in detail in the above section, a description of overlapping parts will be omitted.

방송 수신부(140)는 방송 채널을 선국하여 그 방송 채널을 통해 컨텐츠를 수신하기 위한 구성요소이다. 사용자가 TV 채널을 선택하면, 제어부(120)는 선택된 TV 채널을 선국하도록 방송 수신부(140)를 제어한다. 방송 수신부(140)에서 선국된 TV 채널을 통해 방송 신호가 수신되면, 컨텐츠 처리부(150)는 수신된 방송 신호를 처리하여 디스플레이부(130) 및 스피커(미도시)를 통해 출력한다. 일 예로, ATSC 규격이 채용된 경우라면, 방송 수신부(140)는 안테나, RF 다운 컨버터, 복조부, 등화부 등을 포함할 수 있다. The broadcast receiver 140 is a component for selecting a broadcast channel and receiving content through the broadcast channel. When the user selects a TV channel, the controller 120 controls the broadcast receiver 140 to tune into the selected TV channel. When a broadcast signal is received through the TV channel selected by the broadcast receiving unit 140 , the content processing unit 150 processes the received broadcast signal and outputs it through the display unit 130 and a speaker (not shown). For example, if the ATSC standard is adopted, the broadcast receiver 140 may include an antenna, an RF down converter, a demodulator, an equalizer, and the like.

컨텐츠 처리부(150)는 방송 수신부(140)를 통해 수신되는 방송 신호 뿐만 아니라, 통신부(160)를 통해 수신되는 각종 컨텐츠를 처리하기 위한 구성요소이다. 컨텐츠 처리부(150)는 디멀티플렉서, 비디오 디코더, 오디오 디코더, 스케일러 등과 같은 다양한 신호 처리 유닛을 포함할 수 있다. The content processing unit 150 is a component for processing various contents received through the communication unit 160 as well as a broadcast signal received through the broadcast receiving unit 140 . The content processing unit 150 may include various signal processing units such as a demultiplexer, a video decoder, an audio decoder, and a scaler.

통신부(160)는 다양한 외부 장치와 통신을 수행하기 위한 구성요소이다. 구체적으로는, 통신부(160)는 LAN, 와이파이, 3G, 4G, 블루투스, 지그비, NFC 등과 같은 다양한 통신 방식에 따라 외부 장치와 통신을 수행할 수 있다. The communication unit 160 is a component for performing communication with various external devices. Specifically, the communication unit 160 may communicate with an external device according to various communication methods such as LAN, Wi-Fi, 3G, 4G, Bluetooth, Zigbee, NFC, and the like.

구체적으로는, 통신부(160)는 사용자 음성을 텍스트로 변환해주는 음성 인식 장치(미도시), 사용자 음성에 대응되는 텍스트에 기초하여 검색을 수행하는 서버 장치, 사용자의 대화 완결 여부를 판단해주는 서버 장치(미도시) 등과 통신을 수행할 수 있다.Specifically, the communication unit 160 includes a voice recognition device (not shown) that converts a user's voice into text, a server device that searches based on text corresponding to the user's voice, and a server device that determines whether the user's conversation is complete. (not shown) and the like can be communicated.

저장부(170)는 디스플레이 장치(100)의 동작에 사용되는 각종 프로그램이나 데이터가 저장되는 구성요소이다. 상술한 바와 같이, 외부의 서버 장치들과 연동하기 위해서는 대화 클라이언트 모듈이 저장부(170)에 저장될 수도 있다. 또는, 디스플레이 장치(100)가 자체적으로 텍스트 변환 작업이나 검색 작업, 발화 완결 여부 판단 작업 등을 수행하는 경우에는 음성 인식 모듈이나, 검색 모듈, 발화 완결 판단 모듈 등과 같은 다양한 프로그램이 저장부(170)에 저장될 수도 있다.The storage unit 170 is a component in which various programs or data used for the operation of the display apparatus 100 are stored. As described above, the chat client module may be stored in the storage unit 170 in order to interwork with external server devices. Alternatively, when the display apparatus 100 performs a text conversion operation, a search operation, or a speech completion determination operation by itself, various programs such as a voice recognition module, a search module, and a speech completion determination module are stored in the storage unit 170 . may be stored in

제어부(120)는 저장부(170)에 저장된 프로그램을 이용하여 상술한 다양한 실시 예에 따른 음성 제어 방법을 수행할 수 있다. The control unit 120 may use the program stored in the storage unit 170 to perform the voice control method according to various embodiments described above.

즉, 제어부(120)는 디스플레이 장치(100)의 본체에 구비된 버튼이나, 리모콘에 구비된 버튼을 통해 음성 입력 모드가 선택되거나, 기 정의된 트리거 모션 또는 기 정의된 트리거 음성 등이 입력되면, 대화 클라이언트 모듈을 실행시켜 음성 입력 모드로 전환할 수 있다. 이에 따라, 상술한 바와 같이 사용자 음성에 따라 제어동작을 수행할 수 있다. That is, when a voice input mode is selected through a button provided on the main body of the display device 100 or a button provided on the remote control, or a predefined trigger motion or a predefined trigger voice is input, the control unit 120 You can switch to voice input mode by running the chat client module. Accordingly, as described above, the control operation may be performed according to the user's voice.

제어부(120)는 음성 입력 모드가 개시되면 상술한 바와 같이 그래픽 오브젝트를 구성하여 디스플레이부(130)에 디스플레이할 수 있다. 구체적으로는, 제어부(120)는 GPU(Graphic Processing Unit)을 이용하여, 디스플레이부(110)의 화면 내에서 그래픽 오브젝트가 생성될 위치를 연산할 수 있다. GPU는 기 설정된 디폴트 값에 그래픽 오브젝트가 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. GPU는 연산된 속성값에 기초하여 디스플레이부(150)의 화면 내에 그래픽 오브젝트를 렌더링한다. 제어부(120)는 음성 입력 모드가 해제되면, 상술한 바와 같이 그래픽 오브젝트의 형상을 변형시키거나, 그래픽 오브젝트를 삭제할 수 있다. When the voice input mode is started, the controller 120 may configure the graphic object as described above and display it on the display unit 130 . Specifically, the control unit 120 may calculate a position where a graphic object is to be generated in the screen of the display unit 110 by using a graphic processing unit (GPU). The GPU calculates attribute values such as coordinate values, shape, size, color, etc., at which the graphic object is to be displayed, based on preset default values. The GPU renders the graphic object in the screen of the display unit 150 based on the calculated attribute value. When the voice input mode is released, the controller 120 may change the shape of the graphic object or delete the graphic object as described above.

또한, 제어부(120)는 사용자 음성이 입력되면, 통신부(160)를 이용하여 사용자 음성을 음성 인식 장치(700)로 전송하고, 그 사용자 음성에 대응되는 텍스트를 수신한다. Also, when a user's voice is input, the controller 120 transmits the user's voice to the voice recognition apparatus 700 using the communication unit 160 and receives a text corresponding to the user's voice.

제어부(120)는 수신된 텍스트를 서버 장치(800)로 제공한다. 이에 따라, 서버 장치(800)에서 텍스트에 기초한 검색 결과를 전송하면, 제어부(120)는 검색 결과를 디스플레이부(130)에 표시한다. The controller 120 provides the received text to the server device 800 . Accordingly, when the server device 800 transmits a text-based search result, the control unit 120 displays the search result on the display unit 130 .

이러한 상태에서 서버 장치(800)로부터 발화 완결 신호가 수신되면, 제어부(120)는 사용자 발화가 완결된 것으로 판단하여 음성 입력 모드를 해제할 수 있다. In this state, when the utterance completion signal is received from the server device 800 , the controller 120 may determine that the user's utterance is complete and release the voice input mode.

한편, 도 6에서는 음성 인식 장치(700) 및 서버 장치(800) 모두를 포함하는 것으로 도시 및 설명하였으나, 실시 예에 따라서는 일부 장치는 생략될 수도 있다.Meanwhile, although illustrated and described as including both the voice recognition apparatus 700 and the server apparatus 800 in FIG. 6 , some apparatuses may be omitted according to embodiments.

가령, 음성 인식 장치(700)가 생략되는 실시 예에 따르면, 제어부(120)는 저장부(170)에 저장된 텍스트 변환 모듈을 이용하여 텍스트 변환을 수행할 수 있다. 즉, 제어부(120)는 사용자 음성이 입력되면, 음성 인식 장치(700)로 사용자 음성을 전송하지 않고, 텍스트 변환 모듈을 실행시켜, 사용자 음성을 자체적으로 텍스트로 변환한다. 이에 따라, 변환된 텍스트를 서버 장치(800)로 전송하여, 검색 결과를 수신하여 디스플레이한다. For example, according to an embodiment in which the voice recognition apparatus 700 is omitted, the control unit 120 may perform text conversion using a text conversion module stored in the storage unit 170 . That is, when a user's voice is input, the controller 120 executes a text conversion module without transmitting the user's voice to the voice recognition apparatus 700 to convert the user's voice into text itself. Accordingly, the converted text is transmitted to the server device 800 , and the search result is received and displayed.

또는, 서버 장치(800)가 생략되는 실시 예에 따르면, 제어부(120)는 음성 인식 장치(700)에서 변환된 텍스트를 이용하여 직접 검색을 수행할 수 있다. 즉, 제어부(120)는 저장부(170)에 저장된 검색 모듈을 실행시키고, 그 검색 모듈에 텍스트를 입력하여 검색을 수행한다. 제어부(120)는 검색 결과를 디스플레이한다. 또한, 제어부(120)는 발화 완결 판단 모듈을 실행시켜, 매 검색을 수행한 이후에 사용자가 발화를 완결하였는지 여부를 판단할 수 있다. 이에 따라, 발화 완결로 판단된 경우에는, 제어부(120)는 음성 입력 모드를 해제할 수 있다. Alternatively, according to an embodiment in which the server device 800 is omitted, the controller 120 may directly perform a search using the text converted by the voice recognition device 700 . That is, the control unit 120 executes a search module stored in the storage unit 170 , and inputs text into the search module to perform a search. The controller 120 displays the search result. Also, the controller 120 may execute the utterance completion determination module to determine whether the user completes the utterance after performing every search. Accordingly, when it is determined that the utterance is complete, the controller 120 may release the voice input mode.

이상과 같이, 음성 제어 시스템은 다양한 형태로 구현될 수 있으며, 디스플레이 장치(100)의 구성 및 동작은 음성 제어 시스템의 형태에 따라 다양하게 변형될 수 있다.As described above, the voice control system may be implemented in various forms, and the configuration and operation of the display apparatus 100 may be variously modified according to the form of the voice control system.

도 8은 본 발명의 일 실시 예에 따른 서버 장치의 구성을 나타내는 블럭도이다. 도 8에 따르면, 서버 장치(800)는 서버 통신부(810), 서버 제어부(820), 데이터베이스(830)를 포함한다. 8 is a block diagram illustrating a configuration of a server device according to an embodiment of the present invention. According to FIG. 8 , the server device 800 includes a server communication unit 810 , a server control unit 820 , and a database 830 .

서버 통신부(810)는 디스플레이 장치(100)와 통신을 수행하기 위한 구성요소이다. 서버 통신부(810)는 음성 입력 모드로 동작하는 디스플레이 장치로부터 사용자 음성에 대응되는 텍스트를 수신할 수 있다.The server communication unit 810 is a component for performing communication with the display apparatus 100 . The server communication unit 810 may receive a text corresponding to the user's voice from the display device operating in the voice input mode.

데이터베이스(830)는 각종 컨텐츠 정보가 저장될 수 있다. 구체적으로는, EPG 정보나 최신 영화 정보, 케이블 방송 편성표, 웹 사이트 정보 등과 같은 다양한 정보들이 저장될 수 있다. The database 830 may store various types of content information. Specifically, various information such as EPG information, latest movie information, cable broadcasting schedule, and website information may be stored.

서버 제어부(820)는 서버 통신부(810)를 통해 전송되는 텍스트를 포함하는 정보를 데이터베이스로부터 검색한다. 이에 따라 검색된 컨텐츠 정보를 디스플레이 장치(100)로 제공한다. 서버 제어부(820)는 후속 사용자 음성에 따라 후속 텍스트가 전송되면, 후속 텍스트에 기초한 검색을 다시 수행하여 검색 결과를 추가로 전송할 수 있다.The server control unit 820 searches for information including text transmitted through the server communication unit 810 from the database. Accordingly, the searched content information is provided to the display apparatus 100 . When a subsequent text is transmitted according to a subsequent user's voice, the server control unit 820 may perform a search based on the subsequent text again and additionally transmit the search result.

서버 제어부(820)는 디스플레이 장치(100)에서 컨텐츠 정보가 선택되어 확인이 이루어지면, 추가 검색이 없을 것으로 판단하고 발화 완결 신호를 디스플레이 장치(100)로 전송할 수 있다. 또는, 서버 제어부(820)는 후속 검색에 의해 최하위 레벨의 정보나 컨텐츠에 대한 정보가 디스플레이 장치(100)로 제공되었다고 판단되면, 발화 완결 신호를 디스플레이 장치(100)로 전송하여 줄 수도 있다.When content information is selected and confirmed by the display apparatus 100 , the server controller 820 may determine that there will be no additional search and transmit a utterance completion signal to the display apparatus 100 . Alternatively, the server controller 820 may transmit a utterance completion signal to the display apparatus 100 when it is determined that information on the lowest level information or content has been provided to the display apparatus 100 through a subsequent search.

이와 같이, 서버 장치(800)는 디스플레이 장치(100)와 연동하여, 사용자 발화에 따른 검색 및 사용자 발화 완결 의도를 분석하는 작업을 수행할 수 있다. 결과적으로, 디스플레이 장치(100)가 과도한 연산 부담을 가지지 않고도, 상술한 바와 같은 음성 제어 방법을 수행할 수 있게 된다. In this way, the server device 800 may perform a task of analyzing a search according to a user's utterance and an intention to complete the user's utterance by interworking with the display apparatus 100 . As a result, the display apparatus 100 can perform the above-described voice control method without an excessive computational load.

도 9는 본 발명의 일 실시 예에 따른 서버 장치의 음성 제어 지원 방법을 설명하기 위한 흐름도이다. 도 9에 따르면, 서버 장치(800)는 디스플레이 장치(100)로부터 텍스트가 수신되면(S910), 그 텍스트에 기초한 검색을 수행한다(S920).9 is a flowchart illustrating a method for supporting voice control of a server device according to an embodiment of the present invention. Referring to FIG. 9 , when a text is received from the display apparatus 100 ( S910 ), the server device 800 performs a search based on the text ( S920 ).

서버 장치(800)는 검색 결과를 디스플레이 장치(100)로 전송한다(S930). 서버 장치(800)는 텍스트가 수신될 때마다 상술한 단계를 반복적으로 수행할 수 있다.The server device 800 transmits the search result to the display device 100 (S930). The server device 800 may repeatedly perform the above-described steps whenever text is received.

이러한 상태에서 서버 장치(800)는 사용자의 발화가 완결되었다고 판단되면(S940), 발화 완결 신호를 디스플레이 장치(100)로 전송한다(S950). 이에 따라, 디스플레이 장치(100)가 자동으로 음성 입력 모드를 해제하도록 할 수 있다.In this state, when it is determined that the user's utterance is complete ( S940 ), the server device 800 transmits a utterance completion signal to the display apparatus 100 ( S950 ). Accordingly, the display apparatus 100 may automatically release the voice input mode.

반면, 발화가 미완결 상태라고 판단되면, 후속 사용자 음성에 따른 텍스트 전송을 대기한다(S960). 즉, 디스플레이 장치(100)에서는 음성 입력 모드가 유지될 수 있다. On the other hand, if it is determined that the utterance is incomplete, a text transmission according to a subsequent user's voice is awaited (S960). That is, the display apparatus 100 may maintain the voice input mode.

이상과 같은 다양한 실시 예들에 따르면, 사용자가 음성 입력 모드를 이용하는 중에 사용자가 더 이상의 발화 의도가 없을 것으로 예측되면 자동으로 음성 입력 모드를 해제할 수 있다. 이에 따라, 불필요한 화면 가림으로 인한 시청 방해를 방지하고, 음성 오인식으로 인한 오작동 위험을 줄일 수 있으며, 불필요한 시스템 리소스의 낭비를 줄일 수 있다.According to various embodiments as described above, when it is predicted that the user has no further intention to speak while the user uses the voice input mode, the voice input mode may be automatically released. Accordingly, it is possible to prevent viewing interference due to unnecessary screen blocking, reduce the risk of malfunction due to voice misrecognition, and reduce unnecessary system resource waste.

이상과 같은 다양한 음성 제어 방법 또는 음성 제어 지원 방법은, 프로그램 코드로 구현되어, 비일시적 판독 가능 매체(non-transitory readable medium)에 저장된 상태로 제공될 수 있다. 이러한 비일시적 판독 가능 매체가 탑재되는 서버 장치 또는 디스플레이 장치에서는 그 프로그램 코드를 실행시켜, 상술한 다양한 실시 예에 따른 방법을 실행할 수 있다. The various voice control methods or methods for supporting voice control as described above may be implemented as program codes and provided in a state stored in a non-transitory readable medium. A server device or a display device on which the non-transitory readable medium is mounted may execute the program code to execute the method according to various embodiments described above.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 될 수 있다.The non-transitory readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, etc., and can be read by a device. Specifically, it may be a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, or the like.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.In addition, although preferred embodiments of the present invention have been illustrated and described above, the present invention is not limited to the specific embodiments described above, and the technical field to which the present invention belongs without departing from the gist of the present invention as claimed in the claims In addition, various modifications may be made by those of ordinary skill in the art, and these modifications should not be individually understood from the technical spirit or perspective of the present invention.

100 : 디스플레이 장치 110 : 입력부
120 : 제어부 130 : 디스플레이부
100: display device 110: input unit
120: control unit 130: display unit

Claims (20)

디스플레이 장치에 있어서,
통신부;
음성 입력 수신부;
디스플레이부; 및
음성 인식에 대응한 기능의 수행 중에 사용자 음성 입력이 상기 음성 입력 수신부를 통해 수신되면, 상기 사용자 음성 입력에 대응한 데이터를 상기 통신부를 통해 서버로부터 수신하고,
상기 수신된 데이터가 음성 입력에 대응한 기능의 완결에 대응되면, 상기 음성 인식에 대응한 기능의 수행을 종료하고, 상기 데이터에 대응한 결과를 출력하도록 상기 디스플레이부를 제어하고,
상기 수신된 데이터가 음성 입력에 대응한 기능의 미완결에 대응되면, 상기 음성 인식에 대응한 기능의 수행에 따른 후속 사용자 음성 입력을 위해 설정된 대기 시간 내에 상기 후속 사용자 음성 입력을 수신하고, 상기 후속 사용자 음성 입력에 대응한 기능을 수행하도록 제어하는 프로세서;를 포함하는 것을 특징으로 하는 디스플레이 장치.
In the display device,
communication department;
voice input receiving unit;
display unit; and
When a user voice input is received through the voice input receiving unit while performing a function corresponding to voice recognition, data corresponding to the user voice input is received from the server through the communication unit,
When the received data corresponds to the completion of the function corresponding to the voice input, the display unit is controlled to end the execution of the function corresponding to the voice recognition and output a result corresponding to the data,
If the received data corresponds to incomplete completion of a function corresponding to the voice input, the subsequent user's voice input is received within a waiting time set for the subsequent user's voice input according to the performance of the function corresponding to the voice recognition, and the subsequent user A display device comprising: a processor that controls to perform a function corresponding to a voice input.
제1항에 있어서,
상기 수신된 데이터가 복수의 검색 결과를 포함하는 경우, 상기 수신된 데이터는, 음성 입력에 대응한 기능의 미완결에 대응되는 것을 특징으로 하는 디스플레이 장치.
According to claim 1,
When the received data includes a plurality of search results, the received data corresponds to an incomplete function corresponding to a voice input.
제2항에 있어서,
상기 프로세서는,
상기 복수의 검색 결과를 출력하도록 상기 디스플레이부를 제어하고, 상기 복수의 검색 결과에 포함되지 않는 텍스트에 대응하는 상기 후속 사용자 음성 입력을 수신하는 것을 특징으로 하는 디스플레이 장치.
3. The method of claim 2,
The processor is
and controlling the display unit to output the plurality of search results, and receiving the subsequent user voice input corresponding to text not included in the plurality of search results.
제3항에 있어서,
상기 후속 사용자 음성 입력은, 상기 출력되는 검색 결과 중 하나를 선택하기 위한 인덱스에 대응한 것을 특징으로 하는 디스플레이 장치.
4. The method of claim 3,
The subsequent user's voice input corresponds to an index for selecting one of the output search results.
제1항에 있어서,
상기 프로세서는,
상기 음성 인식에 대응한 기능의 수행에 따른 대기 시간 동안 상기 사용자 음성 입력을 상기 음성 입력 수신부를 통해 수신하는 것을 특징으로 하는 디스플레이 장치.
According to claim 1,
The processor is
The display apparatus of claim 1, wherein the user's voice input is received through the voice input receiving unit during a waiting time according to the execution of the function corresponding to the voice recognition.
제1항에 있어서,
상기 수신된 데이터에 기초하여 상기 사용자 음성 입력이 상기 디스플레이부에 표시된 검색 결과 중 하나를 선택하기 위한 사용자 음성 입력이면, 상기 수신된 데이터는 음성 입력에 대응한 기능의 완결에 대응되는 것임을 특징으로 하는 디스플레이 장치.
According to claim 1,
If the user voice input is a user voice input for selecting one of the search results displayed on the display unit based on the received data, the received data corresponds to completion of a function corresponding to the voice input. display device.
제1항에 있어서,
상기 사용자 음성 입력은,
컨텐츠에 대한 검색 및 상기 디스플레이 장치의 기능 수행 중 적어도 하나를 포함하는 것을 특징으로 하는 디스플레이 장치.
According to claim 1,
The user voice input is
A display device comprising at least one of searching for content and performing a function of the display device.
제1항에 있어서,
상기 프로세서는,
상기 수신된 데이터가 음성 입력에 대응한 기능의 미완결에 대응되면, 상기 음성 인식에 대응한 기능의 수행을 유지하는 것을 특징으로 하는 디스플레이 장치.
According to claim 1,
The processor is
If the received data corresponds to the incomplete function of the function corresponding to the voice input, the function corresponding to the voice recognition is maintained.
제1항에 있어서,
상기 프로세서는,
상기 수신된 데이터가 음성 입력에 대응한 기능의 미완결에 대응되면, 상기 음성 인식에 대응한 기능의 재수행을 위한 사용자 음성 입력이 수신되지 않아도 상기 음성 인식에 대응한 기능의 수행을 유지하는 것을 특징으로 하는 디스플레이 장치.
According to claim 1,
The processor is
If the received data corresponds to the incomplete function of the function corresponding to the voice input, the function corresponding to the voice recognition is maintained even if a user voice input for re-performing the function corresponding to the voice recognition is not received. display device with
제1항에 있어서,
상기 대기 시간은,
상기 수신된 데이터가 음성 입력에 대응한 기능의 미완결에 대응되면, 초기화되는 기설정된 시간인 것을 특징으로 하는 디스플레이 장치.
According to claim 1,
The waiting time is
When the received data corresponds to incomplete function corresponding to the voice input, the display device is a preset time to be initialized.
디스플레이 장치의 제어 방법에 있어서,
음성 인식에 대응한 기능의 수행 중에 사용자 음성 입력이 수신되면, 상기 사용자 음성 입력에 대응한 데이터를 통해 서버로부터 수신하는 단계;
상기 수신된 데이터가 음성 입력에 대응한 기능의 완결에 대응되면, 상기 음성 인식에 대응한 기능의 수행을 종료하고, 상기 데이터에 대응한 결과를 출력하는 단계; 및
상기 수신된 데이터가 음성 입력에 대응한 기능의 미완결에 대응되면, 상기 음성 인식에 대응한 기능의 수행에 따른 후속 사용자 음성 입력을 위해 설정된 대기 시간 내에 상기 후속 사용자 음성 입력을 수신하고, 상기 후속 사용자 음성 입력에 대응한 기능을 수행하는 단계;를 포함하는 것을 특징으로 하는 제어 방법.
A method for controlling a display device, comprising:
receiving a user voice input from a server through data corresponding to the user voice input when a user voice input is received while performing a function corresponding to voice recognition;
when the received data corresponds to completion of the function corresponding to the voice input, terminating the execution of the function corresponding to the voice recognition and outputting a result corresponding to the data; and
If the received data corresponds to incomplete completion of a function corresponding to the voice input, the subsequent user's voice input is received within a waiting time set for the subsequent user's voice input according to the performance of the function corresponding to the voice recognition, and the subsequent user and performing a function corresponding to a voice input.
제11항에 있어서,
상기 수신된 데이터가 복수의 검색 결과를 포함하는 경우, 상기 수신된 데이터는, 음성 입력에 대응한 기능의 미완결에 대응되는 것을 특징으로 하는 제어 방법.
12. The method of claim 11,
When the received data includes a plurality of search results, the received data corresponds to an incomplete function corresponding to a voice input.
제12항에 있어서,
상기 수행하는 단계는,
상기 복수의 검색 결과를 출력하고, 상기 복수의 검색 결과에 포함되지 않는 텍스트에 대응하는 상기 후속 사용자 음성 입력을 수신하는 것을 특징으로 하는 제어 방법.
13. The method of claim 12,
The performing step is
and outputting the plurality of search results and receiving the subsequent user voice input corresponding to text not included in the plurality of search results.
제13항에 있어서,
상기 후속 사용자 음성 입력은, 상기 출력되는 검색 결과 중 하나를 선택하기 위한 인덱스에 대응한 것을 특징으로 하는 제어 방법.
14. The method of claim 13,
The control method, characterized in that the subsequent user's voice input corresponds to an index for selecting one of the output search results.
제11항에 있어서,
상기 수신하는 단계는,
상기 음성 인식에 대응한 기능의 수행에 따른 대기 시간 동안 상기 사용자 음성 입력을 수신하는 것을 특징으로 하는 제어 방법.
12. The method of claim 11,
The receiving step is
The control method, characterized in that receiving the user's voice input during a waiting time according to the performance of the function corresponding to the voice recognition.
제11항에 있어서,
상기 수신된 데이터에 기초하여 상기 사용자 음성 입력이 상기 디스플레이부에 표시된 검색 결과 중 하나를 선택하기 위한 사용자 음성 입력이면, 상기 수신된 데이터는, 음성 입력에 대응한 기능의 완결에 대응되는 것임을 특징으로 하는 제어 방법.
12. The method of claim 11,
When the user voice input is a user voice input for selecting one of the search results displayed on the display unit based on the received data, the received data corresponds to completion of a function corresponding to the voice input. control method.
제11항에 있어서,
상기 사용자 음성 입력은,
컨텐츠에 대한 검색 및 상기 디스플레이 장치의 기능 수행 중 적어도 하나를 포함하는 것을 특징으로 하는 제어 방법.
12. The method of claim 11,
The user voice input is
A control method comprising at least one of searching for content and performing a function of the display device.
제11항에 있어서,
상기 수신된 데이터가 음성 입력에 대응한 기능의 미완결에 대응되면, 상기 음성 인식에 대응한 기능의 수행을 유지하는 단계;를 더 포함하는 것을 특징으로 하는 제어 방법.
12. The method of claim 11,
If the received data corresponds to the incomplete function of the function corresponding to the voice input, maintaining the function corresponding to the voice recognition;
제11항에 있어서,
상기 수신된 데이터가 음성 입력에 대응한 기능의 미완결에 대응되면, 상기 음성 인식에 대응한 기능의 재수행을 위한 사용자 음성 입력이 수신되지 않아도 상기 음성 인식에 대응한 기능의 수행을 유지하는 단계;를 더 포함하는 것을 특징으로 하는 제어 방법.
12. The method of claim 11,
maintaining the performance of the function corresponding to the voice recognition even if a user voice input for re-performing the function corresponding to the voice recognition is not received when the received data corresponds to incomplete completion of the function corresponding to the voice input; Control method, characterized in that it further comprises.
디스플레이 장치의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 매체에 있어서,
상기 동작은,
음성 인식에 대응한 기능의 수행 중에 사용자 음성 입력이 수신되면, 상기 사용자 음성 입력에 대응한 데이터를 통해 서버로부터 수신하는 단계;
상기 수신된 데이터가 음성 입력에 대응한 기능의 완결에 대응되면, 상기 음성 인식에 대응한 기능의 수행을 종료하고, 상기 데이터에 대응한 결과를 출력하는 단계; 및
상기 수신된 데이터가 음성 입력에 대응한 기능의 미완결에 대응되면, 상기 음성 인식에 대응한 기능의 수행에 따른 후속 사용자 음성 입력을 위해 설정된 대기 시간 내에 상기 후속 사용자 음성 입력을 수신하고, 상기 후속 사용자 음성 입력에 대응한 기능을 수행하는 단계;를 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능 매체.

A non-transitory computer-readable medium storing computer instructions that, when executed by a processor of a display device, cause the electronic device to perform an operation, comprising:
The action is
receiving a user voice input from a server through data corresponding to the user voice input when a user voice input is received while performing a function corresponding to voice recognition;
when the received data corresponds to completion of the function corresponding to the voice input, terminating the execution of the function corresponding to the voice recognition and outputting a result corresponding to the data; and
If the received data corresponds to incomplete completion of a function corresponding to the voice input, the subsequent user's voice input is received within a waiting time set for the subsequent user's voice input according to the performance of the function corresponding to the voice recognition, and the subsequent user A non-transitory computer-readable medium comprising a; performing a function corresponding to a voice input.

KR1020220084014A 2021-04-02 2022-07-07 Display apparatus for performing a voice control and method thereof KR102482457B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220084014A KR102482457B1 (en) 2021-04-02 2022-07-07 Display apparatus for performing a voice control and method thereof
KR1020220183535A KR102587112B1 (en) 2021-04-02 2022-12-23 Display apparatus for performing a voice control and method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210043182A KR102420155B1 (en) 2020-09-15 2021-04-02 Display apparatus for performing a voice control and method thereof
KR1020220084014A KR102482457B1 (en) 2021-04-02 2022-07-07 Display apparatus for performing a voice control and method thereof

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020210043182A Division KR102420155B1 (en) 2020-09-15 2021-04-02 Display apparatus for performing a voice control and method thereof

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020220183535A Division KR102587112B1 (en) 2021-04-02 2022-12-23 Display apparatus for performing a voice control and method thereof

Publications (2)

Publication Number Publication Date
KR20220101591A true KR20220101591A (en) 2022-07-19
KR102482457B1 KR102482457B1 (en) 2022-12-28

Family

ID=82607121

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020220084014A KR102482457B1 (en) 2021-04-02 2022-07-07 Display apparatus for performing a voice control and method thereof
KR1020220183535A KR102587112B1 (en) 2021-04-02 2022-12-23 Display apparatus for performing a voice control and method thereof
KR1020230131957A KR20230146497A (en) 2021-04-02 2023-10-04 Display apparatus for performing a voice control and method thereof

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020220183535A KR102587112B1 (en) 2021-04-02 2022-12-23 Display apparatus for performing a voice control and method thereof
KR1020230131957A KR20230146497A (en) 2021-04-02 2023-10-04 Display apparatus for performing a voice control and method thereof

Country Status (1)

Country Link
KR (3) KR102482457B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100312547A1 (en) * 2009-06-05 2010-12-09 Apple Inc. Contextual voice commands
JP2011118822A (en) * 2009-12-07 2011-06-16 Nec Casio Mobile Communications Ltd Electronic apparatus, speech detecting device, voice recognition operation system, and voice recognition operation method and program
KR101309794B1 (en) * 2012-06-27 2013-09-23 삼성전자주식회사 Display apparatus, method for controlling the display apparatus and interactive system
US20140181865A1 (en) * 2012-12-25 2014-06-26 Panasonic Corporation Speech recognition apparatus, speech recognition method, and television set

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6212408B1 (en) * 1999-05-03 2001-04-03 Innovative Global Solution, Inc. Voice command system and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100312547A1 (en) * 2009-06-05 2010-12-09 Apple Inc. Contextual voice commands
JP2011118822A (en) * 2009-12-07 2011-06-16 Nec Casio Mobile Communications Ltd Electronic apparatus, speech detecting device, voice recognition operation system, and voice recognition operation method and program
KR101309794B1 (en) * 2012-06-27 2013-09-23 삼성전자주식회사 Display apparatus, method for controlling the display apparatus and interactive system
US20140181865A1 (en) * 2012-12-25 2014-06-26 Panasonic Corporation Speech recognition apparatus, speech recognition method, and television set

Also Published As

Publication number Publication date
KR102482457B1 (en) 2022-12-28
KR102587112B1 (en) 2023-10-10
KR20230146497A (en) 2023-10-19
KR20230007994A (en) 2023-01-13

Similar Documents

Publication Publication Date Title
KR102158315B1 (en) Display apparatus for performing a voice control and method thereof
JP6824316B2 (en) Video processing equipment, its control method, and video processing system
US10957323B2 (en) Image display apparatus and method of controlling the same
KR101262700B1 (en) Method for Controlling Electronic Apparatus based on Voice Recognition and Motion Recognition, and Electric Apparatus thereof
KR102304052B1 (en) Display device and operating method thereof
KR102209519B1 (en) Display apparatus for performing a voice control and method therefor
KR102003267B1 (en) Electronic apparatus and Method for controlling electronic apparatus thereof
CN107958668B (en) Voice control broadcasting method and voice control broadcasting system of smart television
US11651769B2 (en) Electronic device and operating method thereof
KR102297519B1 (en) Server for generating guide sentence and method thereof
KR102420155B1 (en) Display apparatus for performing a voice control and method thereof
KR102482457B1 (en) Display apparatus for performing a voice control and method thereof
KR102237832B1 (en) Display apparatus for performing a voice control and method thereof
KR20190051379A (en) Electronic apparatus and method for therof
KR102066564B1 (en) Electronic apparatus and Method for controlling electronic apparatus thereof
EP4198711A1 (en) System and method for time management in voice control applications

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right