WO2015072816A1

WO2015072816A1 - 디스플레이 장치 및 제어 방법

Info

Publication number: WO2015072816A1
Application number: PCT/KR2014/011082
Authority: WO
Inventors: 김명재; 류희섭; 황광일
Original assignee: 삼성전자 주식회사
Priority date: 2013-11-18
Filing date: 2014-11-18
Publication date: 2015-05-21
Also published as: US20150142441A1

Abstract

디스플레이 장치 및 제어 방법이 개시된다. 본 발명에 따른 디스플레이 장치는 사용자의 발화 음성을 인식하는 음성 인식 장치와 통신을 수행하는 통신부, 사용자의 발화 음성을 입력받는 입력부, 음성 인식 장치로부터 수신된 발화 음성에 대한 인식 결과 정보를 디스플레이하는 디스플레이부 및 디스플레이 장치가 파워 온 되면, 음성 인식 장치로 접속 요청 정보를 전송하여 음성 인식 장치와 접속을 수행하며, 입력부를 통해 발화 음성이 입력되면, 발화 음성에 대한 음성 정보를 통신부를 통해 음성 인식 장치로 전송하는 프로세서를 포함한다. 이에 따라, 디스플레이 장치는 음성 인식 모드로 진입하기까지 소요되는 시간을 최소화할 수 있다.

Description

디스플레이 장치 및 제어 방법

본 발명은 디스플레이 장치 및 제어 방법에 관한 것으로써, 보다 상세하는 사용자의 발화 음성을 인식하는 디스플레이 장치 및 제어 방법에 관한 것이다.

일반적으로, 음성 인식이 가능한 디스플레이 장치는 사용자의 발화 음성에 인식 결과를 제공하기 위해서 다음과 같은 동작을 수행한다.

먼저, 디스플레이 장치는 사용자의 요청에 따라 음성 인식 모드로 동작하기 위한 사용자 명령이 입력되면, 사용자의 발화 음성에 대한 음성 인식을 수행하는 음성 인식 장치와 접속을 시도한다. 음성 인식 장치와 접속이 수행되면, 디스플레이 장치는 음성 인식이 가능함을 나타내는 UI 화면을 디스플레이함으로써, 사용자는 디스플레이된 UI 화면을 통해 음성 인식이 가능한 것을 확인할 수 있다. 이 같이, 음성 인식이 가능함을 나타내는 UI 화면이 활성화된 상태에서, 디스플레이 장치는 사용자의 발화 음성을 입력받을 수 있으며, 이 같은 발화 음성이 입력되면, 입력된 발화 음성에 대한 음성 정보를 음성 인식 장치로 전송한다.

이에 따라, 음성 인식 장치는 수신된 음성 정보를 분석하여 사용자의 발화 음성에 대한 음성 인식 결과를 디스플레이 장치로 전송하고, 디스플레이 장치는 수신된 음성 인식 결과에 기초하여 사용자의 발화 음성에 대한 텍스트 정보를 화면상에 디스플레이할 수 있다.

이와 같은 일련의 과정을 통해 사용자의 발화 음성에 대한 인식 결과를 제공하는 과정에 있어, 종래의 디스플레이 장치는 전술한 바와 같이, 음성 인식 모드로 동작하기 위한 사용자 명령이 입력되는 시점에 음성 인식 장치와 접속을 수행한다.

즉, 종래의 디스플레이 장치는 사용자의 발화 음성을 입력받기 위해서 음성 인식 장치와 접속을 수행하기 위한 시간이 추가로 소요된다. 이에 따라, 사용자는 디스플레이 장치가 음성 인식 장치와 접속이 개시되어 음성 인식 모드로 진입하기까지의 소요 시간 동안 대기해야 하는 불편함을 감수해야 한다.

본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 디스플레이 장치에서 사용자의 발화가 가능한 시점까지 소요되는 시간을 최소화함을 목적으로 한다.

이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 디스플레이 장치는 사용자의 발화 음성을 인식하는 음성 인식 장치와 통신을 수행하는 통신부, 상기 사용자의 발화 음성을 입력받는 입력부, 상기 음성 인식 장치로부터 수신된 상기 발화 음성에 대한 인식 결과 정보를 디스플레이하는 디스플레이부 및 디스플레이 장치가 파워 온 되면, 상기 음성 인식 장치로 접속 요청 정보를 전송하여 상기 음성 인식 장치와 접속을 수행하며, 상기 입력부를 통해 상기 발화 음성이 입력되면, 상기 발화 음성에 대한 음성 정보를 상기 통신부를 통해 상기 음성 인식 장치로 전송하는 프로세서를 포함한다.

그리고, 상기 프로세서는, 상기 디스플레이 장치가 파워 온 되어 음성 인식 관련 어플리케이션이 초기화되면, 상기 음성 인식 장치와의 접속을 수행할 수 있다.

또한, 상기 프로세서는, 상기 음성 인식 장치와 접속된 상태에서, 제1 임계 시간 내에 기설정된 이벤트가 발생하면, 상기 사용자의 발화 음성 인식을 위한 음성 인식 모드를 활성화시키며, 상기 이벤트는, 음성 인식 모드로 동작하기 위한 사용자 명령이 입력되는 제1 이벤트, 원격 제어 장치로부터 움직임 정보가 수신되는 제2 이벤트, 상기 사용자의 모션에 대한 영상 이미지가 입력되는 제3 이벤트 중 적어도 하나를 포함할 수 있다.

그리고, 상기 프로세서는, 상기 제1 임계 시간 내에 상기 제1 내지 제3 이벤트 중 적어도 하나의 이벤트가 발생하지 않으면, 상기 음성 인식 장치로 접속 유지를 위한 더미 데이터를 전송할 수 있다.

또한, 상기 프로세서는, 상기 음성 인식 모드가 활성화된 상태에서, 제2 임계 시간 내에 상기 사용자의 발화 음성이 입력되지 않으면, 상기 음성 인식 장치로 접속 유지를 위한 더미 데이터를 전송할 수 있다.

그리고, 상기 프로세서는, 상기 음성 인식 모드가 활성화된 상태에서, 제2 임계 시간 내에 상기 사용자의 발화 음성이 입력되지 않으면, 상기 음성 인식 모드를 비활성화 시킬 수 있다.

또한, 상기 제1 임계 시간은 상기 음성 인식 장치와의 접속 유지가 가능한 시간이며, 상기 제2 임계 시간은, 상기 음성 인식 장치와 접속 유지 및 상기 음성 인식 모드가 활성화 상태로 동작 가능한 시간일 수 있다.

그리고, 상기 프로세서는, 상기 입력부를 통해 파워 오프에 대한 제어 명령이 입력되면, 상기 음성 인식 장치와의 접속을 해제할 수 있다.

한편, 본 발명의 또다른 실시 예에 따르면, 디스플레이 장치의 제어 방법은, 상기 디스플레이 장치가 파워 온 되면, 사용자의 발화 음성을 인식하는 음성 인식 장치와 접속을 수행하는 단계, 상기 사용자의 발화 음성이 입력되면, 상기 입력된 발화 음성에 대한 음성 정보를 상기 음성 인식 장치로 전송하는 단계 및 상기 음성 인식 장치로부터 수신된 상기 발화 음성에 대한 인식 결과 정보를 수신하여 디스플레이하는 단계를 포함한다.

그리고, 상기 접속을 수행하는 단계는, 상기 디스플레이 장치가 파워 온 되어 음성 인식 관련 어플리케이션이 초기화되면, 상기 음성 인식 장치와의 접속을 수행할 수 있다.

또한, 상기 음성 인식 장치와 접속된 상태에서, 제1 임계 시간 내에 기설정된 이벤트가 발생하면, 상기 사용자의 발화 음성 인식을 위한 음성 인식 모드를 활성화시키는 단계를 더 포함하며, 상기 이벤트는, 음성 인식 모드로 동작하기 위한 사용자 명령이 입력되는 제1 이벤트, 원격 제어 장치로부터 움직임 정보가 수신되는 제2 이벤트, 상기 사용자의 모션에 대한 영상 이미지가 입력되는 제3 이벤트 중 적어도 하나를 포함할 수 있다.

그리고, 상기 접속을 유지하는 단계는, 상기 제1 임계 시간 내에 상기 제1 내지 제3 이벤트 중 적어도 하나의 이벤트가 발생하지 않으면, 상기 음성 인식 장치로 접속 유지를 위한 더미(Dumy) 데이터를 전송할 수 있다.

또한, 상기 접속을 유지하는 단계는, 상기 음성 인식 모드가 활성화된 상태에서 제2 임계 시간 내에 상기 사용자의 발화 음성이 입력되지 않으면, 상기 음성 인식 장치로 접속 유지를 위한 더미 데이터를 전송할 수 있다.

그리고, 상기 음성 인식 모드가 활성화된 상태에서, 제2 임계 시간 내에 상기 사용자의 발화 음성이 입력되지 않으면, 상기 음성 인식 모드를 비활성화 시킬 수 있다.

그리고, 상기 디스플레이 장치의 파워 오프에 대한 제어 명령이 입력되면, 상기 음성 인식 장치와의 접속을 해제하는 단계를 더 포함할 수 있다.

한편, 본 발명의 또다른 실시 예에 따르면, 디스플레이 장치와 결합되어 하기의 단계를 실행시키기 위하여 기록 매체에 저장된 컴퓨터 프로그램은, 상기 디스플레이 장치가 파워 온 되면, 사용자의 발화 음성을 인식하는 음성 인식 장치와 접속을 수행하는 단계, 상기 사용자의 발화 음성이 입력되면, 상기 입력된 발화 음성에 대한 음성 정보를 상기 음성 인식 장치로 전송하는 단계 및 상기 음성 인식 장치로부터 수신된 상기 발화 음성에 대한 인식 결과 정보를 수신하여 디스플레이하는 단계를 포함하며, 디스플레이 장치를 제어한다.

이상과 같이 본 발명의 다양한 실시 예에 따르면, 디스플레이 장치는 음성 인식 모드로 진입하기까지 소요되는 시간을 최소화할 수 있다.

도 1은 일반적인 음성 인식 시스템에서 사용자의 발화 음성에 대한 인식 결과를 제공하는 절차도,

도 2는 본 발명의 일 실시예에 따른 음성 인식 시스템에서 사용자의 발화 음성에 대한 인식 결과를 제공하기 위한 절차도,

도 3은 종래의 디스플레이 장치와 본 발명의 디스플레이 장치에서 사용자의 발화 음성에 대한 인식 결과를 제공받기까지의 소요되는 시간을 비교하기 위한 예시도,

도 4는 본 발명의 일 실시예에 따른 음성 인식이 가능한 디스플레이 장치의 블록도,

도 5는 본 발명의 일 실시예에 따른 디스플레이 장치의 프로세서에 대한 블록도,

도 6은 본 발명의 일 실시예에 따른 사용자의 발화 음성 인식이 가능한 디스플레이 장치의 제어 방법에 대한 제1 흐름도,도 7은 본 발명의 또다른 실시예에 따른 디스플레이 장치에서 음성 인식 장치와 접속 유지를 위한 제2 흐름도,

도 8은 본 발명의 또다른 실시예에 따른 디스플레이 장치에서 음성 인식 장치와 접속 유지를 위한 제3 흐름도,

도 9는 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자의 발화 음성에 대한 텍스트 정보를 디스플레이하는 예시도이다.

이하 첨부된 도면들을 참조하여 본 발명의 일시 예를 보다 상세하게 설명한다.

본 발명에 대한 상세한 설명을 하기에 앞서, 종래의 음성 인식 시스템에서 사용자의 발화 음성에 대한 인식 결과를 제공하는 동작에 대해서 개략적으로 설명하도록 한다.

도 1은 일반적인 음성 인식 시스템에서 사용자의 발화 음성에 대한 인식 결과를 제공하는 절차도이다.

도 1에 도시된 바와 같이, 음성 인식 시스템은 사용자의 발화 음성을 입력받는 디스플레이 장치(100)와 사용자의 발화 음성을 인식하는 음성 인식 장치(200)를 포함한다.

구체적으로, 디스플레이 장치(100)는 파워 온이 되면, 기저장된 복수의 어플리케이션을 초기화한다. 여기서, 복수의 어플리케이션은 음성 인식 모드로 진입하기 위한 음성 인식 관련 어플리케이션을 포함할 수 있다. 따라서, 디스플레이 장치(100)는 외부 전원이 공급되어 파워 온이 되면, 일련의 부팅 과정을 수행하여 복수의 어플리케이션를 초기화한다. 이 같은 복수의 어플리케이션 초기화 과정에서, 디스플레이 장치는 복수의 어플리케이션 중 음성 인식 관련 어플리케이션에 대한 초기화를 수행한다(S10).

이후, 디스플레이 장치(100)는 사용자로부터 음성 인식 모드로 동작하기 위한 사용자 명령이 입력되는지 여부를 판단한다(S20). 판단 결과, 음성 인식 모드로 동작하기 위한 사용자 명령이 입력되면, 디스플레이 장치(100)는 음성 인식 장치(200)로 접속을 요청하여 음성 인식 장치(200)와의 접속이 개시된다(S30).

음성 인식 장치(200)와 접속이 개시된 이후, 디스플레이 장치(100)는 기설정된 임계 시간 내에 사용자의 발화 음성이 입력되는지 여부를 판단한다(S40). 판단 결과, 기설정된 임계 시간 내에 사용자의 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성에 대한 음성 정보를 음성 인식 장치(200)로 전송한다. 한편, 판단 결과, 기설정된 임계 시간 내에 사용자의 발화 음성이 입력되지 않으면, 디스플레이 장치(100)는 음성 인식 장치(200)와의 접속을 해제한다(S60). 이에 따라, 디스플레이 장치(100)는 음성 인식 모드로 동작하지 않게 된다.

한편, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 음성 정보가 수신되면, 수신된 음성 정보를 분석하여 사용자의 발화 음성에 대한 인식 결과 정보를 디스플레이 장치(100)로 전송한다(S70,S80). 이에 따라, 디스플레이 장치(100)는 음성 인식 장치(200)로부터 수신된 인식 결과 정보에 기초하여 사용자의 발화 음성에 대한 텍스트 정보를 화면상에 디스플레이한다(S90).

이와 같이, 종래의 음성 인식 시스템에서 디스플레이 장치(100)는 음성 인식 모드로 동작하기 위한 사용자 명령이 입력되면, 음성 인식 장치(200)와의 접속을 개시한 후, 음성 인식 모드로 진입한다. 따라서, 사용자는 디스플레이 장치(100)가 음성 인식 모드로 진입하기까지 발생되는 소요 시간 동안 대기해야한다.

이하에서는, 본 발명에 따른 음성 인식 시스템에서 사용자의 발화 음성에 대한 인식 결과를 제공하는 동작에 대해서 개략적으로 설명하도록 한다.

도 2는 본 발명의 일 실시예에 따른 음성 인식 시스템에서 사용자의 발화 음성에 대한 인식 결과를 제공하기 위한 절차도이다.

도 1에서 전술한 바와 같이, 음성 인식 시스템은 사용자의 발화 음성을 입력받는 디스플레이 장치(100) 및 사용자의 발화 음성을 인식하여 그에 따른 인식 결과를 제공하는 음성 인식 장치(200)를 포함한다.

구체적으로, 도 2에 도시된 바와 같이, 디스플레이 장치(100)는 파워 온이 되면, 디스플레이 장치(100)의 내부 시스템을 구동하기 위한 부팅 동작을 수행한다. 즉, 디스플레이 장치(100)는 파워 온이 되면, 플레쉬 메모리와 같은 비휘발성 메모리에 저장된 부트로더(Boot loader) 프로그램을 실행하여 커널(Kernel)을 로딩한 후, 운영체제 시스템(Operating System : OS)에서 운용 가능한 각종 디바이스 드라이버를 등록한다. 각종 디바이스 드라이버가 등록되면, 디스플레이 장치(100)는 등록된 각각의 디바이스에 대응하여 동작하는 각각의 어플리케이션을 초기화한다(S210). 본 발명에서는 디스플레이 장치(100)의 파워 온에 따라 부팅 과정을 통해 어플리케이션이 실행되는 동작을 어플리케이션 초기화를 수행하는 동작으로 기재하기로 한다.

이 같은 부팅 동작이 완료되면, 디스플레이 장치(100)는 기설정된 이벤트에 따라, 음성 인식 장치(200)와의 접속을 수행한다(S220). 실시예에 따라, 디스플레이 장치(100)는 파워 온에 따라 부팅이 수행된 후, 음성 인식 관련 어플리케이션에 대한 초기화가 완료되면, 음성 인식 장치(200)로 접속을 요청하여 음성 인식 장치(200)와 접속을 수행할 수 있다.

한편, 음성 인식 장치(200)와 접속을 수행하는 디스플레이 장치(100)는 음성 인식 장치(200)와 접속을 수행하기 위해서, TCP/IP(Transmission Control Protocol/Internet Protocol) 통신 프로토콜 방식에 기초하여 음성 인식 장치(200)로 디스플레이 장치(100)의 식별 정보 및 어드레스 정보를 포함하는 접속 요청 정보를 전송한다. 이에 따라, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 수신된 접속 요청 정보에 기초하여 디스플레이 장치(100)와의 접속을 수행한다.

이와 같이, 음성 인식 장치(200)와 접속이 개시된 상태에서, 디스플레이 장치(100)는 기설정된 이벤트 발생 여부에 따라 음성 인식 모드로 진입하여 사용자의 발화 음성을 입력 받을 수 있다.구체적으로, 디스플레이 장치(100)는 음성 인식 장치(200)와 접속이 개시되면, 이 같은 음성 인식 모드 동작과 관련하여 기설정된 이벤트가 제1 임계 시간 내에 발생하는지 여부를 판단한다(S230). 여기서, 제1 임계 시간은 디스플레이 장치(100)와 음성 인식 장치(200) 간의 접속이 가능한 시간이 될 수 있다. 그리고, 음성 인식 모드 동작과 관련하여 기설정된 이벤트는 음성 인식 모드로 동작하기 위한 사용자 명령이 입력되거나, 원격 제어 장치(미도시)로부터 움직임 정보가 수신되거나 혹은 모션에 대한 영상 이미지가 입력되는 이벤트가 될 수 있다.따라서, 디스플레이 장치(100)는 이 같은 제1 임계 시간 내에 음성 인식 모드와 관련하여 기설정된 이벤트가 제1 임계 시간 내에 발생하는지 여부를 판단하여, 제1 임계 시간 내에 입력되지 않으면, 음성 인식 장치(200)로 더미 데이터를 전송한다(S240). 여기서, 제1 임계 시간은 음성 인식 장치(200)와 접속 유지가 가능한 시간으로, 실시예에 따라 30초 시간이 될 수 있다. 따라서, 디스플레이 장치(100)는 음성 인식 장치(200)와 접속이 개시된 시점부터 30초 동안 음성 인식 모드와 관련된 기설정된 이벤트가 발생하지 않으면, 음성 인식 장치(200)로 더미 데이터를 전송할 수 있다.

그러나, 본 발명은 이에 한정되지 않으며, 경우에 따라 제1 임계 시간은 30초 이상 또는 이하의 시간이 될 수 도 있다.

여기서, 더미 데이터는 디스플레이 장치(100)와 음성 인식 장치(200) 간의 접속 유지를 수행하기 위한 약 1Kbyte 정도의 크기를 가지는 데이터가 될 수 있다. 따라서, 디스플레이 장치(100)는 제1 임계 시간 내에 기설정된 이벤트가 발생하지 않으면, 적어도 하나 이상의 더미 데이터를 생성하여 음성 인식 장치(200)로 전송함으로써, 디스플레이 장치(100)와 음성 인식 장치(200) 간의 접속이 유지될 수 있다.

한편, 제1 임계 시간 내에 기설정된 이벤트가 발생하면, 디스플레이 장치(100)는 사용자의 발화 음성 인식을 위한 음성 인식 모드를 활성화시키고, 음성 인식 모드가 활성화되었음을 알리는 음성 인식 UI를 생성하여 화면상에 표시한다. 이 같은 음성 인식 UI가 표시된 상태에서, 사용자의 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성에 대한 음성 정보를 음성 인식 장치(200)로 전송한다(S250,S260). 그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)는 원격 제어 장치(미도시)를 통해 사용자의 발화 음성에 대한 음성 정보를 수신하고, 수신된 음성 정보를 음성 인식 장치(200)로 전송할 수 있다.

이 같은 사용자의 발화 음성에 대한 음성 정보를 수신한 음성 인식 장치(200)는 수신된 음성 정보를 분석하여 사용자의 발화 음성에 대한 음성 인식 결과 정보를 생성하여 디스플레이 장치(100)로 전송한다(S270,S280). 이에 따라, 디스플레이 장치(100)는 음성 인식 장치(200)로부터 수신한 음성 인식 결과 정보에 기초하여 사용자의 발화 음성에 대한 텍스트 정보를 화면상에 디스플레이한다(S290).

이와 같이, 본 발명에 따른 음성 인식 시스템의 디스플레이 장치(100)는 음성 인식 모드로 동작하기 위한 사용자 명령이 수신되기 전에 음성 인식 장치(200)와 접속을 수행함으로써, 종래의 음성 인식 시스템에 비해 사용자의 발화 음성에 대한 인식 결과를 제공하기까지 소요되는 시간을 단축할 수 있다.

도 3은 종래의 디스플레이 장치와 본 발명의 디스플레이 장치에서 사용자의 발화 음성에 대한 인식 결과를 제공받기까지의 소요되는 시간을 비교하기 위한 예시도이다.

도 3의 (a)는 도 1에서 설명한 종래의 디스플레이 장치(100)에서 사용자의 발화 음성에 대한 인식 결과를 음성 인식 장치(200)로부터 수신하기까지 소요되는 시간을 나타낸다. 그리고, 도 3의 (b)는 도 2에서 설명한 본원발명의 디스플레이 장치(100)에서 사용자의 발화 음성에 대한 인식 결과를 음성 인식 장치(200)로부터 수신하기까지 소요되는 시간을 나타낸다.

구체적으로, 도 3의 (a)와 같이, 종래의 디스플레이 장치(100)는 음성 인식 모드로 동작하기 위한 사용자 명령이 입력되면, 음성 인식 장치(200)와의 접속을 개시한다. 따라서, 종래의 디스플레이 장치(100)는 음성 인식 장치(200)와 접속을 수행하는데 T1의 시간이 소요될 수 있다. 음성 인식 장치(200)와 접속이 수행되면, 종래의 디스플레이 장치(100)는 음성 인식 모드가 시작되었음을 알리는 음성 인식 UI를 생성하여 화면상에 표시한다. 이 같은 음성 인식 UI가 표시된 상태에서 종래의 디스플레이 장치(100)는 사용자의 발화 음성을 입력받는다. 따라서, 종래의 디스플레이 장치(100)는 음성 인식 장치(200)와 접속이 수행된 이후, 사용자의 발화 음성을 입력받기까지 T2의 시간이 소요될 수 있다. 한편, 종래의 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 발화 음성에 대한 음성 정보를 음성 인식 장치(200)로 전송하고, 그에 따른 음성 인식 결과를 음성 인식 장치(200)로부터 수신할 수 있다. 따라서, 종래의 디스플레이 장치(100)는 사용자의 발화 음성에 대한 음성 인식 결과를 음성 인식 장치(200)로부터 수신하기까지 T3의 시간이 소요될 수 있다.

이와 같이, 종래의 디스플레이 장치(100)는 음성 인식 모드로 진입하여 사용자의 발화 음성에 대한 인식 결과를 수신하기까지 약 T1 ~ T3의 시간이 소요될 수 있다.

한편, 본 발명에 따른 디스플레이 장치(100)는 도 2에서 설명한 바와 같이, 디스플레이 장치(100)의 파워 온이 되어 음성 인식 관련 어플리케이션이 초기화되면, 음성 인식 장치(200)와의 접속을 수행한다. 따라서, 도 3의 (b)에 도시된 바와 같이, 음성 인식 모드로 동작하기 위한 사용자 명령이 입력되면, 디스플레이 장치(100)는 음성 인식 모드가 시작되었음을 알리는 음성 인식 UI를 생성하여 화면상에 표시한다. 이 같은 음성 인식 UI가 표시된 상태에서 디스플레이 장치(100)는 사용자의 발화 음성을 입력받는다. 따라서, 디스플레이 장치(100)는 음성 인식 장치(200)와 접속이 수행된 이후, 사용자의 발화 음성을 입력받기까지 t1의 시간이 소요될 수 있다. 한편, 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 발화 음성에 대한 음성 정보를 음성 인식 장치(200)로 전송하고, 그에 따른 음성 인식 결과를 음성 인식 장치(200)로부터 수신할 수 있다. 따라서, 디스플레이 장치(100)는 사용자의 발화 음성에 대한 음성 인식 결과를 음성 인식 장치(200)로부터 수신하기까지 t2의 시간이 소요될 수 있다.

이와 같이, 본 발명에 따른 디스플레이 장치(100)는 음성 인식 모드로 진입하여 사용자의 발화 음성에 대한 인식 결과를 수신하기까지 약 t1 ~ t2의 시간이 소요될 수 있다. 즉, 본 발명에 따른 디스플레이 장치(100)는 음성 인식 모드로 동작하기 위한 사용자 명령에 따라 음성 인식 장치(200)와의 접속을 수행하기까지 소요되는 시간을 절약함으로써, 종래의 디스플레이 장치(100)에 비해 사용자의 발화 음성에 대한 음성 인식 결과를 보다 빠르게 제공할 수 있다.

이하에서는, 본 발명에 따른 디스플레이 장치(100)의 각 구성에 대해서 상세히 설명하도록 한다.

도 4는 본 발명의 일 실시예에 따른 음성 인식이 가능한 디스플레이 장치의 블록도이다.

도 4에 도시된 바와 같이, 디스플레이 장치(100)는 스마트 폰, 스마트 TV와 같이 유선 또는 무선 통신이 가능하며 및 음성 인식이 가능한 단말 장치가 될 수 있다. 이 같은 디스플레이 장치(100)는 통신부(110), 입력부(120), 프로세서(130) 및 디스플레이부(140)를 포함한다.

통신부(110)는 사용자의 발화 음성을 인식하는 음성 인식 장치(200)와 통신을 수행한다. 이 같은 통신부(110)는 다양한 통신 방식에 따라 음성 인식 장치(200) 및 웹 서버(미도시) 등과 통신을 수행할 수 있다.

실시예에 따라, 통신부(110)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기서, 근거리 무선 통신 모듈(미도시)은 근거리에 위치한 외부 기기와 무선 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스, 지그비 등이 될 수 있다. 무선 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

입력부(120)는 터치 패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen) 방식의 입력 패널로 구현될 수 있다. 뿐만 아니라, 입력부(120)는 마이크(미도시)를 통해 사용자의 발화 음성을 입력받거나 카메라(미도시)를 통해 촬영된 다양한 영상 이미지를 입력받을 수 있다.

프로세서(130)는 일반적인 장치의 제어를 담당하는 구성으로써, 저장부(170)에 기저장된 각종 프로그램을 이용하여 디스플레이 장치(100)의 전반적인 동작을 제어 할 수 있도록 하는 것으로, 통신부(110) 등 다른 기능부와 함께 단일칩 시스템(System-on-a-chip 또는 System on chip, SOC, SoC)으로 구현될 수 있다. 이 같은 프로세서(130)는 다음과 같이 구성될 수 있다.

도 5는 본 발명의 일 실시예에 따른 디스플레이 장치의 프로세서에 대한 블록도이다.

도 5에 도시된 바와 같이, 프로세서(130)는 RAM(131), ROM(132), 그래픽 처리부(133), 메인 CPU(134), 제1 내지 n 인터페이스(135-1 ~ 135-n), 버스(136)를 포함한다. 이때, RAM(13), ROM(132), 그래픽 처리부(133), 메인 CPU(134), 제1 내지 n 인터페이스(135-1 ~ 135-n) 각각은 버스(136)를 통해 서로 연결될 수 있다.

ROM(132)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴 온 명령이 입력되어 전원이 공급되면, 메인 CPU(134)는 ROM(132)에 저장된 명령어에 따라 저장부(170)에 저장된 O/S를 RAM(131)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, 메인 CPU(134)는 저장부(170)에 기저장된 각종 어플리케이션 프로그램을 RAM(131)에 복사하고, RAM(131)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.

그래픽 처리부(133)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 포인터, 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부(미도시)는 입력부(120)로부터 수신된 제어 명령을 이용하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부(미도시)는 연산부(미도시)에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다. 렌더링부(미도시)에서 생성된 화면은 디스플레이부(140)의 디스플레이 영역 내에 표시된다.

메인 CPU(294)는 저장부(250)에 액세스하여, 저장부(250)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 메인 CPU(294)는 저장부(250)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.

제1 내지 n 인터페이스(295-1 내지 295-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다. 이 같은 프로세서(130)는 입력부(120)를 통해 사용자의 발화 음성이 입력되면, 사용자의 발화 음성에 대한 신호 처리를 수행한다.

구체적으로, 프로세서(130)는 입력부(120)를 통해 아날로그 형태의 사용자 발화 음성이 입력되면, 입력된 발화 음성을 샘플링하여 디지털 신호로 변환한다. 이때, 프로세서(130)는 디지털 신호로 변환된 발화 음성에 노이즈가 있는지 여부를 판단하여, 노이즈가 있는 경우, 변환된 디지털 신호로부터 노이즈를 제거하는 것이 바람직하다. 이 같은 사용자의 발화 음성이 디지털 신호로 신호 처리되면, 프로세서(130)는 통신부(110)를 통해 신호 처리된 발화 음성에 대한 음성 정보를 음성 인식 장치(200)로 전송한다. 이에 따라, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 수신된 음성 정보를 분석하여 사용자의 발화 음성에 대한 음성 인식 결과 정보를 생성하고, 생성된 음성 인식 결과 정보를 디스플레이 장치(100)로 전송한다. 실시예에 따라, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 음성 정보가 수신되면, STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트 정보로 변환할 수 있다. 이 같은 사용자의 발화 음성이 텍스트 정보로 변환되면, 음성 인식 장치(200)는 디스플레이 장치(100)로 사용자의 발화 음성과 관련하여 변환된 텍스트 정보를 포함하는 음성 인식 결과 정보를 전송한다.

이에 따라, 디스플레이부(140)는 음성 인식 장치(200)로부터 수신된 음성 인식 결과 정보에 기초하여 사용자의 발화 음성을 텍스트 형태로 디스플레이할 수 있다. 이 같은 디스플레이부(140)는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel, PDP) 등으로 구현될 수 있다. 특히, 디스플레이부(120)는 입력부(120)가 터치 패드로 구현될 경우, 터치 패드인 입력부(120)와 함께 상호 레이어 구조를 이루는 터치 스크린 형태로 구현될 수 있다.

한편, 전술한 프로세서(130)는 파워 온 되어. 음성 인식 관련 어플리케이션을 포함한 각종 어플리키에션이 초기화되면, 음성 인식 장치(200)와 접속을 수행하기 위한 접속 요청 정보를 음성 인식 장치(200)로 전송한다. 이에 따라, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 수신된 접속 요청 정보에 기초하여 디스플레이 장치(100)와의 접속을 수행할 수 있다.

구체적으로, 디스플레이 장치(100)는 입력부(120)를 통해 파워 온 되는 사용자 명령이 입력되거나 원격 제어 장치(미도시)로부터 파워 온 되는 사용자 명령이 입력될 수 있다. 이 같은 사용자 명령에 따라, 디스플레이 장치(100)가 파워 온 되면, 프로세서(130)는 플레쉬 메모리와 같은 비휘발성 메모리에 저장된 부트로더(Boot loader) 프로그램을 실행하여 커널(Kernel)을 로딩한 후, 운영체제 시스템(Operating System : OS)에서 운용 가능한 각종 디바이스 드라이버를 등록한다. 각종 디바이스 드라이버가 등록되면, 프로세서(130)는 등록된 각각의 디바이스에 대응하여 동작하는 각각의 어플리케이션을 실행하여 각 어플리케이션이 플레쉬 메모리와 같은 비휘발성 메모리에서 동작할 수 있도록 각 어플리케이션에 대한 초기화를 수행한다.

실시예에 따라, 디스플레이 장치(100)가 스마트 TV인 경우, 음성 인식 관련 어플리케이션을 포함한 모든 어플리케이션은 초기화가 수행될 수 있다. 한편, 디스플레이 장치(100)가 스마트 폰과 같은 단말 장치인 경우, 디스플레이 장치(100)의 파워 온이 되면, 디스플레이 장치(100)의 부팅 과정이 수행된 이후, 음성 인식 관련 어플리케이션이 초기화되도록 디폴트로 초기 설정될 수 있다.

따라서, 음성 인식 관련 어플리케이션을 포함한 적어도 하나의 어플리케이션에 대한 초기화가 수행되면, 프로세서(130)는 음성 인식 장치(200)로 디스플레이 장치(100)의 식별 정보 및 어드레스 정보를 포함하는 접속 요청 정보를 전송하도록 통신부(110)를 제어한다. 이에 따라, 통신부(110)는 TCP/IP(Transmission Control Protocol/Internet Protocol) 통신 프로토콜 방식에 기초하여 음성 인식 장치(200)로 접속 요청 정보를 전송하고, 음성 인식 장치(200)는 수신된 접속 요청 정보에 기초하여 디스플레이 장치(100)와의 접속을 수행한다.

따라서, 음성 인식 관련 어플리케이션을 포함한 적어도 하나의 어플리케이션에 대한 초기화가 수행되면, 디스플레이 장치(100)는 사용자의 발화 음성에 대한 인식 결과를 제공하는 음성 인식 장치(200)와 접속이 개시될 수 있다.

이와 같이, 본 발명에 따른 디스플레이 장치(100)는 파원 온 되어 각종 어플리케이션이 초기화되면, 음성 인식 장치(200)와의 접속을 수행함으로써, 음성 인식 모드로 동작하기 위한 사용자 명령에 따라 음성 인식 장치(200)와의 접속을 수행하기까지 소요되는 시간을 절약할 수 있다.

한편, 프로세서(130)는 음성 인식 장치(200)와 접속이 개시되면, 제1 임계 시간 내에 음성 인식 모드 동작과 관련하여 기설정된 이벤트가 발생하는지 여부를 판단한다. 여기서, 제1 임계 시간은 디스플레이 장치(100)와 음성 인식 장치(200) 간의 접속 유지가 가능한 시간으로써, 실시예에 따라, 30초 시간이 될 수 있다. 따라서, 프로세서(130)는 음성 인식 장치(200)와 접속이 개시된 시점부터 30초 동안 음성 인식 모드 동작과 관련하여 기설정된 이벤트가 발생하는지 여부를 판단할 수 있다.

그리고, 기설정된 이벤트는 음성 인식 모드로 동작하기 위한 사용자 명령이 입력되는 제1 이벤트, 원격 제어 장치(미도시)로부터 움직임 정보가 수신되는 제2 이벤트, 사용자의 모션에 대한 영상 이미지가 입력되는 제3 이벤트 중 적어도 하나를 포함할 수 있다.

판단 결과, 기설정된 제1 내지 제3 이벤트 중 적어도 하나의 이벤트가 제1 임계 시간 내에 발생하면, 프로세서(130)는 프로세서(130)는 사용자의 발화 음성을 인식할 수 있는 음성 인식 모드를 활성화시킨다. 음성 인식 모드가 활성화되면, 프로세서(130)는 음성 인식 모드가 활성화되었음을 알리는 음성 인식 UI를 생성하고, 디스플레이부(140)는 음성 인식 UI를 화면상에 표시한다.

일 실시예에 따라, 음성 인식 모드로 동작하기 위한 사용자 명령은 통신부(110)를 통해 원격 제어 장치(미도시)로부터 수신되거나 입력부(120)를 통해 입력될 수 있다. 이 같은 사용자 명령이 음성 인식 장치(200)와 접속이 개시된 후 제1 임계 시간 내에 수신 혹은 입력되는 제1 이벤트가 발생하면, 프로세서(130)는 사용자의 발화 음성을 인식할 수 있는 음성 인식 모드를 활성화시킨다. 음성 인식 모드가 활성화되면, 프로세서(130)는 음성 인식 모드가 활성화되었음을 알리는 음성 인식 UI를 생성하고, 디스플레이부(140)는 음성 인식 UI를 화면상에 표시할 수 있다.

또다른 실시예에 따라, 제1 임계 시간 내에 원격 제어 장치(미도시)로부터 움직임 정보가 수신되는 제2 이벤트가 발생하면, 프로세서(130)는 음성 인식 모드가 시작되었음을 알리는 음성 인식 UI를 생성하고, 디스플레이부(140)는 음성 인식 UI를 화면상에 표시할 수 있다. 여기서, 원격 제어 장치(미도시)는 디스플레이 장치(100)의 동작을 제어하는 제어 장치이다. 이 같은 원격 제어 장치(미도시)는 자이로 센서, 기울기 센서와 같은 움직임 감지 센서를 구비할 수 있으며, 이 같은 움직임 감지 센서를 통해 움직임이 감지되면, 감지된 움직임 정보를 디스플레이 장치(100)로 전송할 수 있다.

따라서, 프로세서(130)는 음성 인식 장치(200)와 접속이 개시된 후, 원격 제어 장치(미도시)로부터 감지된 움직임 정보가 제1 임계 시간 내에 수신되면, 음성 인식 모드를 활성화시키고, 디스플레이부(140)를 통해 음성 인식 모드가 활성화되었음을 알리는 음성 인식 UI를 표시할 수 있다.

또다른 실시예에 따라, 제1 임계 시간 내에 원격 제어 장치(미도시)로부터 움직임 정보가 수신되는 제2 이벤트가 발생하면, 프로세서(130)는 수신된 움직임 정보를 분석하여 기등록된 움직임 패턴 정보와 일치하는지 여부를 판단한다. 판단 결과, 기등록된 움직임 패턴 정보와 일치하면, 프로세서(130)는 음성 인식 모드를 활성화시키고, 디스플레이부(140)를 통해 음성 인식 모드가 활성화되었음을 알리는 음성 인식 UI를 표시할 수 있다.

또다른 실시예에 따라, 프로세서(130)는 음성 인식 장치(200)와 접속이 개시된 후, 제1 임계 시간 내에 카메라(미도시)를 통해 촬영된 사용자의 모션에 대한 촬영 이미지가 입력되는 제3 이벤트가 발생하면, 입력된 촬영 이미지와 기저장된 영상 이미지를 비교한다. 비교 결과, 두 이미지가 서로 매칭되면, 프로세서(130)는 음성 인식 모드를 활성화시키고, 디스플레이부(140)를 통해 음성 인식 모드가 활성화되었음을 알리는 음성 인식 UI를 표시할 수 있다.

이 같이, 음성 인식 모드가 활성화되었음을 알리는 음성 인식 UI가 화면상에 표시된 상태에서, 입력부(120)를 통해 사용자의 발화 음성이 입력되면, 전술한 바와 같이, 프로세서(130)는 아날로그 형태의 사용자 발화 음성을 샘플링하여 디지털 신호로 변환한다. 이때, 프로세서(130)는 디지털 신호로 변환된 발화 음성에 노이즈가 있는지 여부를 판단하여, 노이즈가 있는 경우, 변환된 디지털 신호로부터 노이즈를 제거할 수 있다. 이 같은 사용자의 발화 음성이 디지털 신호로 신호 처리되면, 프로세서(130)는 통신부(110)를 통해 신호 처리된 발화 음성에 대한 음성 정보를 음성 인식 장치(200)로 전송한다.

그러나, 본 발명은 이에 한정되지 않으면, 프로세서(130)는 통신부(110)를 통해 원격 제어 장치(미도시)로부터 사용자의 발화 음성에 대한 음성 정보를 수신할 수 있다. 구체적으로, 원격 제어 장치(미도시)는 사용자의 발화 음성을 입력받기 위한 마이크(미도시)를 구비할 수 있다. 따라서, 사용자는 음성 인식 UI가 디스플레이 장치(100)의 화면상에 표시되면, 원격 제어 장치(미도시)에 마련된 마이크를 통해 음성을 발화하며, 원격 제어 장치(미도시)는 사용자의 발화 음성이 입력되면, 입력된 발화 음성을 전술한 바와 같은 신호 처리를 수행하여 사용자의 발화 음성에 대한 음성 정보를 디스플레이 장치(100)로 전송할 수 있다. 따라서, 프로세서(130)는 원격 제어 장치(미도시)로부터 사용자의 발화 음성에 대한 음성 정보가 수신되면, 수신된 음성 정보를 음성 인식 장치(200)로 전송한다.

이에 따라, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 음성 정보가 수신되면, 수신된 음성 정보를 분석하여 사용자의 발화 음성에 대한 텍스트 정보를 생성하고, 기생성된 텍스트 정보를 포함하는 음성 인식 결과 정보를 디스플레이 장치(100)로 전송한다. 이 같은 음성 인식 결과 정보가 수신되면, 디스플레이부(140)는 프로세서(130)의 제어 명령에 따라, 음성 인식 결과 정보에 기초하여 사용자의 발화 음성에 대한 텍스트 정보를 화면상에 디스플레이할 수 있다.

한편, 음성 인식 장치(200)와 접속이 개시된 상태에서, 음성 인식 모드 동작과 관련하여 기설정된 이벤트가 제1 임계 시간 내에 발생하지 않으면, 프로세서(130)는 더미 데이터를 생성하여 음성 인식 장치(200)로 전송한다. 여기서, 더미 데이터는 디스플레이 장치(100)와 음성 인식 장치(200) 간의 접속 유지를 수행하기 위한 약 1Kbyte 정도의 크기를 가지는 데이터가 될 수 있다.따라서, 프로세서(130)는 제1 임계 시간 내에 음성 인식 모드 동작과 관련하여 기설정된 이벤트가 발생하지 않으면, 적어도 하나 이상의 더미 데이터를 생성하여 음성 인식 장치(200)로 전송한다. 따라서, 디스플레이 장치(100)는 제1 임계 시간 내에 음성 인식 모드로 동작하기 위한 이벤트가 발생하지 않아도, 음성 인식 장치(200)와 지속적으로 접속을 유지할 수 있다.

한편, 프로세서(130)는 음성 인식 모드가 활성화된 상태에서, 기설정된 제2 임계 시간 내에 사용자의 발화 음성이 입력되지 않으면, 음성 인식 장치(200)로 접속 유지를 위한 더미 데이터를 전송할 수 있다. 이와 같이, 사용자의 발화 음성이 입력된 후, 기설정된 제2 임계 시간 내에 사용자의 발화 음성이 입력되지 않아도 음성 인식 장치(200)로 더미 데이터를 전송함으로써, 디스플레이 장치(100)는 음성 인식 장치(200)와 지속적으로 접속을 유지할 수 있다.

한편, 본 발명이 추가적인 양상에 따라, 프로세서(130)는 음성 인식 모드가 활성화된 상태에서, 기설정된 제2 임계 시간 내에 사용자의 발화 음성이 입력되지 않으면, 음성 인식 장치(200)로 접속 유지를 위한 더미 데이터를 전송하고, 음성 인식 모드를 비활성화시킬 수 있다.

이 같이, 음성 인식 모드가 비활성화된 경우, 프로세서(130)는 전술한 바와 같이, 제1 내지 제3 이벤트 중 적어도 하나의 이벤트가 발생되면, 비활성화 상태의 음성 인식 모드를 활성화 상태로 설정할 수 있다.

여기서, 제2 임계 시간은 디스플레이 장치(100)와 음성 인식 장치(200) 간의 접속 유지 및 음성 인식 모드가 활성화 상태로 동작 가능한 시간으로써, 실시예에 따라, 15초 시간이 될 수 있다. 따라서, 프로세서(130)는 음성 인식 모드가 활성화된 시점부터 15초 동안 사용자의 발화 음성이 입력되지 않으며, 음성 인식 장치(200)로 접속 유지를 위한 더미 데이터를 전송하거나 혹은 더미 데이터를 전송하고, 음성 인식 모드를 비활성화시킬 수 있다.그러나, 본 발명은 이에 한정되지 않으며, 경우에 따라, 제2 임계 시간은 15초 이상 또는 이하의 시간이 될 수 도 있다.

한편, 프로세서(130)는 사용자의 발화 음성이 입력된 후, 기설정된 제2 임계 시간 내에 사용자의 추가 발화 음성이 입력되지 않으면, 음성 인식 장치(200)로 접속 유지를 위한 더미 데이터를 전송하거나 혹은 음성 인식 장치(200)로 더미 데이터를 전송하고, 음성 인식 모드를 비활성화시킬 수 있다.

한편, 프로세서(130)는 다음과 같은 실시예에 따라 음성 인식 장치(200)와의 접속을 해제할 수 있다. 일 실시예에 따라, 프로세서(130)는 입력부(120)를 통해 파워 오프에 대한 제어 명령이 입력되거나 혹은 통신부(130)를 통해 원격 제어 장치(미도시)로부터 파워 오프에 대한 제어 명령이 수신되면, 음성 인식 장치(200)로 접속 해제를 요청함으로써, 음성 인식 장치(200)와의 접속을 해제할 수 있다.

또다른 실시예에 따라, 프로세서(130)는 음성 인식 장치(200)와의 접속 유지를 위한 더미 데이터 전송을 중단함으로써, 음성 인식 장치(200)와의 접속을 해제할 수 있다. 여기서, 제3 임계 시간은 사용자에 의해 설정된 시간이 될 수 있다. 예를 들어, 사용자가 30분으로 시간을 설정할 경우, 프로세서(130)는 음성 인식 장치(200)와 접속이 개시된 시점부터 30분 동안 음성 인식 모드와 관련된 기설정된 이벤트가 발생하지 않으면, 음성 인식 장치(200)로의 더미 데이터 전송을 중단하여 음성 인식 장치(200)와의 접속을 해제할 수 있다.

그러나, 본 발명은 이에 한정되지 않으며, 경우에 따라, 제3 임계 시간은 30분 이상 또는 이하의 시간이 될 수 도 있다.

지금까지, 본 발명에 따른 사용자의 발화 음성에 대한 음성 인식 결과를 제공하는 디스플레이 장치(100)의 각 구성에 대해서 상세히 설명하였다. 이하에서는, 본 발명에 따른 디스플레이 장치(100)에서 사용자의 발화 음성에 대한 음성 인식 결과를 제공하기 위한 방법에 대해서 상세히 설명하도록 한다.

도 6은 본 발명의 일 실시예에 따른 사용자의 발화 음성 인식이 가능한 디스플레이 장치의 제어 방법에 대한 제1 흐름도이다.

도 6에 도시된 바와 같이, 디스플레이 장치(100)는 파워 온 되면, 어플리케이션을 초기화한다(S610). 어플리케이션이 초기화되면, 디스플레이 장치(100)는 음성 인식 장치(200)와 접속을 수행한다(S620). 구체적으로, 디스플레이 장치(100)는 파워 온 되면,플레쉬 메모리와 같은 비휘발성 메모리에 저장된 부트로더(Boot loader) 프로그램을 실행하여 커널(Kernel)을 로딩한 후, 운영체제 시스템(Operating System : OS)에서 운용 가능한 각종 디바이스 드라이버를 등록한다. 각종 디바이스 드라이버가 등록되면, 디스플레이 장치(100)는 등록된 각각의 디바이스에 대응하여 동작하는 각각의 어플리케이션을 실행하여 각 어플리케이션이 플레쉬 메모리와 같은 비휘발성 메모리에서 동작할 수 있도록 각 어플리케이션에 대한 초기화를 수행한다.

이와 같이, 음성 인식 관련 어플리케이션을 포함한 적어도 하나의 어플리케이션에 대한 초기화가 수행되면, 디스플레이 장치(100)는 TCP/IP(Transmission Control Protocol/Internet Protocol) 통신 프로토콜 방식에 기초하여 음성 인식 장치(200)로 디스플레이 장치(100)의 식별 정보 및 어드레스 정보를 포함하는 접속 요청 정보를 전송한다. 이후, 디스플레이 장치(100)는 접속 요청 정보를 전송한 음성 인식 장치(200)로부터 음성 인식 장치(200)의 식별 정보 및 어드레스 정보를 포함하는 응답 정보가 수신되면, 수신된 응답 정보에 기초하여 음성 인식 장치(200)와 접속을 수행한다. 이에 따라, 디스플레이 장치(100)는 음성 인식 장치(200)와 접속이 개시될 수 있다.

음성 인식 장치(200)와 접속이 개시되면, 디스플레이 장치(100)는 제1 임계 시간 내에 음성 인식 모드 동작과 관련하여 기설정된 이벤트가 발생하는지 여부를 판단한다(S630). 여기서, 제1 임계 시간은 디스플레이 장치(100)와 음성 인식 장치(200) 간의 접속이 가능한 시간으로써, 실시예에 따라 30초 시간이 될 수 있다. 따라서, 디스플레이 장치(100)는 음성 인식 장치(200)와 접속이 개시된 시점부터 30초 동안 음성 인식 모드와 관련된 기설정된 이벤트가 발생하는지 여부를 판단할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며 경우에 따라 제1 임계 시간은 30초 이상 또는 이하의 시간이 될 수 도 있다.

판단 결과, 기설정된 제1 내지 제3 이벤트 중 적어도 하나의 이벤트가 제1 임계 시간 내에 발생하지 않으면, 디스플레이 장치(100)는 적어도 하나 이상의 더미 데이터를 생성하여 음성 인식 장치(200)로 전송한다(S640). 여기서, 더미 데이터는 디스플레이 장치(100)와 음성 인식 장치(200) 간의 접속 유지를 수행하기 위한 약 1Kbyte 정도의 크기를 가지는 데이터가 될 수 있다.

이와 같이, 본 발명에 따른 디스플레이 장치(100)는 제1 임계 시간 내에 음성 인식 모드 동작과 관련하여 기설정된 이벤트가 발생하지 않으면, 음성 인식 장치(200)와의 접속을 유지하기 위한 더미 데이터를 생성하여 전송함으로써, 음성 인식 장치(200)와 지속적으로 접속을 유지할 수 있다.

한편, 전술한 단계 S630에서 제1 임계 시간 내에 기설정된 제1 내지 제3 이벤트 중 적어도 하나가 발생되면, 디스플레이 장치(100)는 사용자의 발화 음성 인식을 위한 음성 인식 모드를 활성화시킨다(S650). 이때, 디스플레이 장치(100)는 음성 인식 모드가 활성화되었음을 알리는 음성 인식 UI를 생성하여 화면상에 표시할 수 있다.

음성 인식 모드가 활성화되면, 디스플레이 장치(100)는 기설정된 제2 임계 시간 내에 사용자의 발화 음성이 입력되는지 여부를 판단한다(S660). 여기서, 제2 임계 시간은 디스플레이 장치(100)와 음성 인식 장치(200) 간의 접속 유지 및 음성 인식 모드가 활성화 상태로 동작이 가능한 시간으로써, 실시예에 따라, 15초 시간이 될 수 있다. 따라서, 디스플레이 장치(100)는 음성 인식 모드가 활성화된 시점부터 15초 동안 사용자의 발화 음성이 입력되는지 여부를 판단할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며 경우에 따라 제2 임계 시간은 15초 이상 또는 이하의 시간이 될 수 도 있다.

판단 결과, 제2 임계 시간 내에 사용자의 발화 음성이 입력되지 않으면, 디스플레이 장치(100)는 전술한 단계 S640을 통해 음성 인식 장치(200)와 접속 유지를 위한 더미 데이터를 생성하여 음성 인식 장치(200)로 전송한다. 즉, 디스플레이 장치(100)는 제2 임계 시간 내에 사용자의 발화 음성이 입력될 때가지 전술한 단계 S630 내지 S660에 대한 동작을 반복 수행한다.

이와 같이, 본 발명에 따른 디스플레이 장치(100)는 음성 인식 모드가 활성화된 상태에서 제2 임계 시간 내에 사용자의 발화 음성이 입력되지 않으면, 음성 인식 장치(200)와의 접속을 유지하기 위한 더미 데이터를 생성하여 전송함으로써, 음성 인식 장치(200)와 지속적으로 접속을 유지할 수 있다.

한편, 단계 S660에서 제2 임계 시간 내에 사용자의 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성에 대한 음성 정보를 생성하여 음성 인식 장치(200)로 전송한다(S670). 그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)는 원격 제어 장치(미도시)를 통해 사용자의 발화 음성에 대한 음성 정보를 수신할 수 있으며, 이 같은 음성 정보가 수신되면, 음성 인식 장치(200)로 전송할 수 있다.

이에 따라, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 음성 정보가 수신되면, 수신된 음성 정보를 분석하여 사용자의 발화 음성에 대한 텍스트 정보를 생성하고, 기생성된 텍스트 정보를 포함하는 음성 인식 결과 정보를 디스플레이 장치(100)로 전송한다. 이 같은 음성 인식 결과 정보가 수신되면, 디스플레이 장치(100)는 수신된 음성 인식 결과 정보에 기초하여 사용자의 발화 음성에 대한 텍스트 정보를 화면상에 디스플레이한다(S680).

도 7은 본 발명의 일 실시예에 따른 사용자의 발화 음성 인식이 가능한 디스플레이 장치의 제어 방법에 대한 제2 흐름도이다.

도 7에 도시된 바와 같이, 디스플레이 장치(100)는 파워 온 되면, 어플리케이션을 초기화한다(S710). 어플리케이션이 초기화되면, 디스플레이 장치(100)는 음성 인식 장치(200)와 접속을 수행한다(S720). 음성 인식 장치(200)와 접속이 개시되면, 디스플레이 장치(100)는 기설정된 제1 임계 시간 내에 이벤트가 발생하는지 여부를 판단한다(S730),

판단 결과, 제1 임계 시간 내에 이벤트가 발생하지 않으면, 디스플레이 장치(100)는 적어도 하나 이상의 더미 데이터를 생성하여 음성 인식 장치(200)로 전송한다(S740). 한편, 제1 임계 시간 내에 이벤트가 발생하면, 디스플레이 장치(100)는 사용자의 발화 음성 인식을 위한 음성 인식 모드를 활성화시킨다(S750). 음성 인식 모드가 활성화되면, 디스플레이 장치(100)는 기설정된 제2 임계 시간 내에 사용자의 발화 음성이 입력되는지 여부를 판단한다(S760)

단계 S760에서 제2 임계 시간 내에 사용자의 발화 음성이 입력되지 않은 것으로 판단되면, 디스플레이 장치(100)는 음성 인식 장치(200)와 접속 유지를 위한 더미 데이터를 생성하여 음성 인식 장치(200)로 전송한다(S770). 즉, 디스플레이 장치(100)는 제2 임계 시간 내에 사용자의 발화 음성이 입력될 때까지 전술한 단계 S750 내지 S770에 대한 동작을 반복 수행한다.

한편, 단계 S760에서 제2 임계 시간 내에 사용자의 발화 음성이 입력된 것으로 판단되면, 디스플레이 장치(100)는 입력된 발화 음성에 대한 음성 정보를 생성하여 음성 인식 장치(200)로 전송한다(S780). 그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)는 원격 제어 장치(미도시)를 통해 사용자의 발화 음성에 대한 음성 정보를 수신할 수 있으며, 이 같은 음성 정보가 수신되면, 음성 인식 장치(200)로 전송할 수 있다.

이에 따라, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 음성 정보가 수신되면, 수신된 음성 정보를 분석하여 사용자의 발화 음성에 대한 텍스트 정보를 생성하고, 기생성된 텍스트 정보를 포함하는 음성 인식 결과 정보를 디스플레이 장치(100)로 전송한다. 이 같은 음성 인식 결과 정보가 수신되면, 디스플레이 장치(100)는 수신된 음성 인식 결과 정보에 기초하여 사용자의 발화 음성에 대한 텍스트 정보를 화면상에 디스플레이한다(S790).

도 8은 본 발명의 일 실시예에 따른 사용자의 발화 음성 인식이 가능한 디스플레이 장치의 제어 방법에 대한 제3 흐름도이다.

도 8에 도시된 바와 같이, 디스플레이 장치(100)는 파워 온 되면, 어플리케이션을 초기화한다(S810). 어플리케이션이 초기화되면, 디스플레이 장치(100)는 음성 인식 장치(200)와 접속을 수행한다(S820). 음성 인식 장치(200)와 접속이 개시되면, 디스플레이 장치(100)는 기설정된 제1 임계 시간 내에 이벤트가 발생하는지 여부를 판단한다(S830),

판단 결과, 제1 임계 시간 내에 이벤트가 발생하지 않으면, 디스플레이 장치(100)는 적어도 하나 이상의 더미 데이터를 생성하여 음성 인식 장치(200)로 전송한다(S840). 한편, 제1 임계 시간 내에 이벤트가 발생하면, 디스플레이 장치(100)는 사용자의 발화 음성 인식을 위한 음성 인식 모드를 활성화시킨다(S850). 음성 인식 모드가 활성화되면, 디스플레이 장치(100)는 기설정된 제2 임계 시간 내에 사용자의 발화 음성이 입력되는지 여부를 판단한다(S860)

단계 S860에서 제2 임계 시간 내에 사용자의 발화 음성이 입력되지 않은 것으로 판단되면, 디스플레이 장치(100)는 활성화된 음성 인식 모드를 비활성화시킨다(S870). 음성 인식 모드가 비활성화되면, 디스플레이 장치(100)는 전술한 단계 S840을 통해 음성 인식 장치(200)와의 접속 유지를 위한 더미 데이터를 생성하여 음성 인식 장치(200)로 전송한다. 그러나, 본 발명은 이에 한정되지 않으며, 제2 임계 시간 내에 발화 음성이 입력되지 않으면, 디스플레이 장치(100)는 음성 인식 장치(200)와의 접속 유지를 위한 더미 데이터를 생성하여 음성 인식 장치(200)로 전송한 후, 활성화된 음성 인식 모드를 비활성화시킬 수 있다.

이 같이, 음성 인식 모드가 비활성화되면, 디스플레이 장치(100)는 전술한 단계 S830 내지 S860를 통해 제1 임계 시간 내에 기설정된 이벤트가 발생되는지 여부에 따라 비활성화 상태의 음성 인식 모드를 활성화 상태로 재설정하며, 음성 인식 모드가 활성화되면, 제2 임계 시간 내에 사용자의 발화 음성이 입력되는지 여부를 대한 동작을 재수행한다.

한편, 단계 S860에서 제2 임계 시간 내에 사용자의 발화 음성이 입력된 것으로 판단되면, 디스플레이 장치(100)는 입력된 발화 음성에 대한 음성 정보를 생성하여 음성 인식 장치(200)로 전송한다(S880). 그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)는 원격 제어 장치(미도시)를 통해 사용자의 발화 음성에 대한 음성 정보를 수신할 수 있으며, 이 같은 음성 정보가 수신되면, 음성 인식 장치(200)로 전송할 수 있다.

이에 따라, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 음성 정보가 수신되면, 수신된 음성 정보를 분석하여 사용자의 발화 음성에 대한 텍스트 정보를 생성하고, 기생성된 텍스트 정보를 포함하는 음성 인식 결과 정보를 디스플레이 장치(100)로 전송한다. 이 같은 음성 인식 결과 정보가 수신되면, 디스플레이 장치(100)는 수신된 음성 인식 결과 정보에 기초하여 사용자의 발화 음성에 대한 텍스트 정보를 화면상에 디스플레이한다(S890).

도 9에 도시된 바와 같이, 사용자는 예를 들어 현재 시청 중인 채널에서 “NDC” 채널로 채널 변경을 위한 발화를 수행할 수 있다. 즉, 사용자는 “NDC 채널”이라는 발화를 수행할 수 있다. 이 같은 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성을 음성 인식 장치(200)로부터 전송한다. 이에 따라, 음성 인식 장치(200)는 디스플레이 장치(100)로부터 수신된 발화 음성을 분석하여 사용자의 발화 음성에 대한 텍스트 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 “NDC Channel”라는 텍스트 정보(910)를 화면상에 디스플레이할 수 있다.

이 같이, 사용자의 발화 음성에 대한 음성 인식 결과 정보를 디스플레이하는 디스플레이 장치(100)는 다음과 같은 실시예에 따라, 음성 인식 장치(200)와의 접속을 해제한다.

일 실시예에 따라, 디스플레이 장치(100)는 사용자의 요청에 따라 파워 오프에 대한 제어 명령이 입력되거나 원격 제어 장치(미도시)로부터 수신되는 이벤트가 발생하면, 음성 인식 장치(200)로 접속 해제를 요청하여 음성 인식 장치(200)와의 접속을 해제할 수 있다.

또다른 실시예에 따라, 디스플레이 장치(100)는 음성 인식 장치(200)와의 접속 유지를 위한 더미 데이터가 기설정된 제4 임계 시간 동안 연속적으로 전송될 경우, 더미 데이터 전송을 중단함으로써, 음성 인식 장치(200)와의 접속을 해제할 수 있다. 여기서, 제4 임계 시간은 사용자에 의해 설정된 시간이 될 수 있다. 예를 들어, 사용자가 30분으로 시간을 설정할 경우, 디스플레이 장치(100)는 음성 인식 장치(200)로 연속해서 전송되는 더미 데이터의 시간이 30분을 초과하는지 여부를 판단한다. 판단 결과, 연속된 더미 데이터의 전송시간이 30분을 초과하면, 디스플레이 장치(100)는 음성 인식 장치(200)로의 더미 데이터 전송을 중단하여 음성 인식 장치(200)와의 접속을 해제할 수 있다.

그러나, 본 발명은 이에 한정되지 않으며 경우에 따라 제4 임계 시간은 30분 이상 또는 이하의 시간이 될 수도 있다.

또한, 상술한 바와 같은 디스플레이 장치 제어 방법은, 상술한 바와 같은 디스플레이 장치 제어 방법을 실행하기 위한 적어도 하나의 실행 프로그램으로 구현될 수 있으며, 이러한 실행 프로그램은 비일시적 컴퓨터 판독 가능 매체에 저장될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

사용자의 발화 음성을 인식하는 음성 인식 장치와 통신을 수행하는 통신부;

상기 사용자의 발화 음성을 입력받는 입력부;

상기 음성 인식 장치로부터 수신된 상기 발화 음성에 대한 인식 결과 정보를 디스플레이하는 디스플레이부; 및

디스플레이 장치가 파워 온 되면, 상기 음성 인식 장치로 접속 요청 정보를 전송하여 상기 음성 인식 장치와 접속을 수행하며, 상기 입력부를 통해 상기 발화 음성이 입력되면, 상기 발화 음성에 대한 음성 정보를 상기 통신부를 통해 상기 음성 인식 장치로 전송하는 프로세서;

를 포함하는 디스플레이 장치.
제 1 항에 있어서,

상기 프로세서는,

상기 디스플레이 장치가 파워 온 되어 음성 인식 관련 어플리케이션이 초기화되면, 상기 음성 인식 장치와의 접속을 수행하는 것을 특징으로 하는 디스플레이 장치.
제 1 항에 있어서,

상기 프로세서는,

상기 음성 인식 장치와 접속된 상태에서, 제1 임계 시간 내에 기설정된 이벤트가 발생하면, 상기 사용자의 발화 음성 인식을 위한 음성 인식 모드를 활성화시키며,

상기 이벤트는,

음성 인식 모드로 동작하기 위한 사용자 명령이 입력되는 제1 이벤트, 원격 제어 장치로부터 움직임 정보가 수신되는 제2 이벤트, 상기 사용자의 모션에 대한 영상 이미지가 입력되는 제3 이벤트 중 적어도 하나를 포함하는 것을 특징으로 하는 디스플레이 장치.
제 3 항에 있어서,

상기 프로세서는,

상기 제1 임계 시간 내에 상기 제1 내지 제3 이벤트 중 적어도 하나의 이벤트가 발생하지 않으면, 상기 음성 인식 장치로 접속 유지를 위한 더미 데이터를 전송하는 것을 특징으로 하는 디스플레이 장치.
제 3 항에 있어서,

상기 프로세서는,

상기 음성 인식 모드가 활성화된 상태에서, 제2 임계 시간 내에 상기 사용자의 발화 음성이 입력되지 않으면, 상기 음성 인식 장치로 접속 유지를 위한 더미 데이터를 전송하는 것을 특징으로 하는 디스플레이 장치.
제 3 항에 있어서,

상기 프로세서는,

상기 음성 인식 모드가 활성화된 상태에서, 제2 임계 시간 내에 상기 사용자의 발화 음성이 입력되지 않으면, 상기 음성 인식 모드를 비활성화 시키는 것을 특징으로 하는 디스플레이 장치.
제 6 항에 있어서,

상기 제1 임계 시간은

상기 음성 인식 장치와의 접속 유지가 가능한 시간이며,

상기 제2 임계 시간은,

상기 음성 인식 장치와 접속 유지 및 상기 음성 인식 모드가 활성화 상태로 동작 가능한 시간인 것을 특징으로 하는 디스플레이 장치.
제 1 항에 있어서,

상기 프로세서는,

상기 입력부를 통해 파워 오프에 대한 제어 명령이 입력되면, 상기 음성 인식 장치와의 접속을 해제하는 것을 특징으로 하는 디스플레이 장치.
디스플레이 장치의 제어 방법에 있어서,

상기 디스플레이 장치가 파워 온 되면, 사용자의 발화 음성을 인식하는 음성 인식 장치와 접속을 수행하는 단계;

상기 사용자의 발화 음성이 입력되면, 상기 입력된 발화 음성에 대한 음성 정보를 상기 음성 인식 장치로 전송하는 단계; 및

상기 음성 인식 장치로부터 수신된 상기 발화 음성에 대한 인식 결과 정보를 수신하여 디스플레이하는 단계;

를 포함하는 제어 방법.
제 9 항에 있어서,

상기 접속을 수행하는 단계는,

상기 디스플레이 장치가 파워 온 되어 음성 인식 관련 어플리케이션이 초기화되면, 상기 음성 인식 장치와의 접속을 수행하는 것을 특징으로 하는 제어 방법.
제 9 항에 있어서,

상기 음성 인식 장치와 접속된 상태에서, 제1 임계 시간 내에 기설정된 이벤트가 발생하면, 상기 사용자의 발화 음성 인식을 위한 음성 인식 모드를 활성화시키는 단계;를 더 포함하며,

상기 이벤트는,

음성 인식 모드로 동작하기 위한 사용자 명령이 입력되는 제1 이벤트, 원격 제어 장치로부터 움직임 정보가 수신되는 제2 이벤트, 상기 사용자의 모션에 대한 영상 이미지가 입력되는 제3 이벤트 중 적어도 하나를 포함하는 것을 특징으로 하는 제어 방법.
제 11 항에 있어서,

상기 접속을 유지하는 단계는,

상기 제1 임계 시간 내에 상기 제1 내지 제3 이벤트 중 적어도 하나의 이벤트가 발생하지 않으면, 상기 음성 인식 장치로 접속 유지를 위한 더미(Dumy) 데이터를 전송하는 것을 특징으로 하는 제어 방법.
제 11 항에 있어서,

상기 접속을 유지하는 단계는,

상기 음성 인식 모드가 활성화된 상태에서 제2 임계 시간 내에 상기 사용자의 발화 음성이 입력되지 않으면, 상기 음성 인식 장치로 접속 유지를 위한 더미 데이터를 전송하는 것을 특징으로 해제하는 제어 방법.
제 11 항에 있어서,

상기 음성 인식 모드가 활성화된 상태에서, 제2 임계 시간 내에 상기 사용자의 발화 음성이 입력되지 않으면, 상기 음성 인식 모드를 비활성화 시키는 것을 특징으로 하는 제어 방법.
제 14 항에 있어서,

상기 제1 임계 시간은

상기 음성 인식 장치와의 접속 유지가 가능한 시간이며,

상기 제2 임계 시간은,

상기 음성 인식 장치와 접속 유지 및 상기 음성 인식 모드가 활성화 상태로 동작 가능한 시간인 것을 특징으로 하는 제어 방법.