KR20130140423A

KR20130140423A - 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법

Info

Publication number: KR20130140423A
Application number: KR1020120063811A
Authority: KR
Inventors: 허혜현; 손혜림; 신준형
Original assignee: 삼성전자주식회사
Priority date: 2012-06-14
Filing date: 2012-06-14
Publication date: 2013-12-24
Also published as: CN103517147A; US9219949B2; US20130339020A1; JP2014003610A; EP2675153A1

Abstract

디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법이 개시된다. 본 발명에 따른 디스플레이 장치는, 사용자의 발화 음성을 수집하기 위한 음성 수집부, 대화형 서버와 통신을 수행하는 통신부 및, 대화형 서버로 전송된 발화 음성에 대응되는 응답 정보가 대화형 서버로부터 수신되면, 응답 정보에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행하도록 제어하는 제어부를 포함하며, 응답 정보는, 발화 음성으로부터 추출된 발화 요소를 기초로 분류된 기능에 따라 상이한 형태로 생성된다. 이에 따라, 디스플레이 장치는 사용자의 다양한 발화 음성이 입력되어도, 각각의 발화 음성에 대응하는 기능 실행 및 응답 메시지를 출력할 수 있다.

Description

디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법{Display apparatus, interactive server and method for providing response information}

본 발명은 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법에 관한 것으로서, 보다 상세하게는 사용자의 발화 음성에 대응하는 응답 정보를 제공하기 위한 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법에 관한 것이다.

일반적으로, 음성 인식이 가능한 디스플레이 장치는 사용자가 실행하고자 하는 사용자의 발화 음성을 수집하고, 그 수집한 발화 음성을 네트워크를 통해 연결된 외부 서버로 전송한다. 이후, 디스플레이 장치는 외부 서버로부터 디스플레이 장치에서 인식 가능한 형태로 변환된 사용자의 발화 음성 관련 정보를 수신하고, 그 수신한 발화 음성 관련 정보를 분석하여 사용자의 발화 음성에 대한 의미를 파악한다. 이후, 디스플레이 장치는 의미 파악된 결과에 기초하여 사용자의 발화 음성에 대응하는 기능을 실행하고, 필요에 따라서 사용자의 발화 음성에 대한 안내 메시지를 출력한다.

그러나, 이 같은 종래의 디스플레이 장치는 사용자의 발화 음성에 대응하는 기능을 실행하는데 있어서 매우 제한적일 뿐만 아니라, 단순히 사용자의 발화 음성에 대응하는 기능을 실행하거나 회피하는 정도의 기능만을 수행한다.

구체적으로, 디스플레이 장치는 사용자의 요청에 따라 음성 인식 모드로 진입하면, 사용자의 발화 음성을 통해 디스플레이 장치의 동작을 제어할 수 있는 명령어를 화면상에 디스플레이한다. 따라서, 사용자는 화면상에 디스플레이된 디스플레이 장치의 동작 제어와 관련된 명령어를 참조하여 자신이 원하는 기능에 대한 동작을 음성으로 명령할 수 있다.

이 같은 사용자의 발화 음성이 입력되면, 디스플레이 장치는 외부 서버로부터 사용자의 발화 음성과 관련된 정보를 수신하고, 수신한 발화 음성과 관련된 정보를 분석하여 사용자가 요청한 기능을 실행하거나 발화 음성 재요청과 관련된 텍스트 정보를 화면상에 디스플레이한다.

즉, 종래의 디스플레이 장치는 기설정된 명령어에 기초하여 사용자의 발화 음성에 대응하는 동작을 수행하거나 혹은 발화 음성에 대한 재요청만을 수행할 뿐, 사용자의 다양한 발화 음성에 대해서 상이한 응답 정보를 제공하지 못한다. 따라서, 사용자의 다양한 발화 음성에 대해서 상이한 응답 정보 제공이 가능한 대화형 시스템 개발이 모색되어야 한다.

본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 디스플레이 장치에서 사용자의 다양한 발화 음성에 대해서 상이한 응답 정보를 제공할 수 있도록 함을 목적으로 한다.

이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 디스플레이 장치는, 사용자의 발화 음성을 수집하기 위한 음성 수집부, 대화형 서버와 통신을 수행하는 통신부 및, 상기 대화형 서버로 전송된 상기 발화 음성에 대응되는 응답 정보가 상기 대화형 서버로부터 수신되면, 상기 응답 정보에 기초하여 상기 사용자의 발화 음성에 대응되는 동작을 수행하도록 제어하는 제어부를 포함하며, 상기 응답 정보는, 상기 발화 음성으로부터 추출된 발화 요소를 기초로 분류된 기능에 따라 상이한 형태로 생성된다.

그리고, 상기 기능은, EPG 관련 기능 및 상기 디스플레이 장치의 동작 제어 기능 중 적어도 하나를 포함할 수 있다.

또한, 출력부를 더 포함하며, 상기 제어부는, 상기 발화 음성 내에 EPG 관련 발화 요소 또는 상기 디스플레이 장치의 동작 제어 관련 발화 요소가 포함된 경우, 상기 대화형 서버로부터 수신한 응답 정보에 기초하여 상기 발화 음성에 대응되는 응답 메시지 출력 및 기능 실행 중 적어도 하나의 동작을 수행할 수 있다.

그리고, 상기 제어부는, 상기 발화 음성 내에 복수의 요청에 대한 EPG 관련 발화 요소가 포함된 경우, 상기 대화형 서버로부터 수신한 응답 정보에 기초하여 발화 음성 재요청 메시지를 출력할 수 있다.

또한, 출력부를 더 포함하며, 상기 제어부는, 상기 발화 음성 내에 제한된 발화 요소가 포함된 경우, 상기 대화형 서버로부터 수신한 응답 정보에 기초하여 상기 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 출력하도록 제어할 수 있다.

그리고, 사용자 얼굴 이미지 및 사용자 정보를 매칭시켜 저장하는 저장부 및 사용자 얼굴을 촬영하는 촬영부를 더 포함하며, 상기 제어부는, 상기 촬영부에서 생성된 얼굴 이미지에 매칭되는 사용자 정보 및 상기 발화 음성을 상기 대화형 서버로 전송하며, 상기 제한된 발화 요소가 사용자 연령과 관련된 경우 상기 사용자 정보에 기초하여 생성된 상기 응답 정보에 따라 상기 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 출력하도록 제어할 수 있다.

또한, 상기 대화형 서버는, 상기 수집된 발화 음성을 텍스트 정보로 변환하는 제1 서버 및 상기 텍스트 정보로 변환된 발화 음성에 대응되는 응답 정보를 생성하는 제2 서버를 포함하며, 상기 제어부는, 상기 수집된 발화 음성을 디지털 신호로 변환하여 상기 제1 서버로 전송하고, 상기 제1 서버로부터 상기 발화 음성에 대한 텍스트 정보가 수신되면, 상기 텍스트 정보를 상기 제2 서버로 전송하여 상기 발화 음성에 대응되는 응답 정보를 수신할 수 있다.

한편, 본 발명의 일 실시 예에 따르면, 대화형 서버는 디스플레이 장치와 통신을 수행하는 통신부, 상기 디스플레이 장치로부터 수신한 발화 음성으로부터 발화 요소를 추출하는 추출부 및 상기 추출된 발화 요소에 따라 분류된 기능에 기초하여 상기 발화 음성에 대응되는 응답 정보를 상이한 형태로 생성하여 상기 디스플레이 장치로 전송하는 제어부를 포함한다.

또한, EPG 정보를 저장하는 저장부를 더 포함하며, 상기 제어부는, 상기 추출된 발화 요소가 EPG 관련 발화 요소인 경우, 상기 저장부에 저장된 EPG 정보에 기초하여 상기 발화 음성에 대응하는 EPG 정보 제공이 가능한지 여부를 판단하고, 상기 EPG 정보 제공이 가능하면 상기 EPG 정보에 기초하여 상기 발화 음성과 대응되는 응답 정보를 생성하고, 상기 EPG 정보 제공이 불가능하면 상기 EPG 정보 및 웹 서치 중 적어도 하나에 기초하여 상기 발화 음성과 관련된 대체 응답 정보를 생성할 수 있다.

그리고, 상기 제어부는, 상기 발화 음성 내에 복수의 요청에 대한 EPG 관련 발화 요소가 포함된 경우, 상기 디스플레이 장치에서 사용자에게 발화 음성을 재요청하기 위한 발화 음성 재요청 메시지를 생성할 수 있다.

또한, 상기 제어부는, 상기 추출된 발화 요소가 상기 디스플레이 장치의 동작 제어 관련 발화 요소인 경우, 상기 발화 요소에 기초하여 상기 발화 음성에 대응하는 상기 디스플레이 장치의 동작 제어가 가능한지 여부를 판단하고, 상기 디스플레이 장치의 동작 제어가 가능하면 상기 디스플레이 장치의 동작을 제어하기 위한 응답 정보를 생성하고, 상기 디스플레이 장치의 동작 제어가 불가능하면 상기 디스플레이 장치의 동작 제어 방법 및 현재 상태 알림 중 적어도 하나와 관련된 응답 정보를 생성할 수 있다.

그리고, 제한된 발화 요소 관련 테이블을 저장하는 저장부를 더 포함하며, 상기 제어부는, 상기 추출된 발화 요소에 상기 제한된 발화 요소가 포함되어 있는 경우, 상기 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 생성할 수 있다.

또한, 상기 통신부는, 상기 디스플레이 장치로부터 사용자 정보를 더 수신하며, 상기 제어부는, 상기 추출된 발화 요소가 사용자 연령과 관련된 경우, 상기 수신된 사용자 정보에 기초하여 상기 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 생성 여부를 결정할 수 있다.

한편, 본 발명의 일 실시 예에 따르면, 디스플레이 장치와 연동하는 대화형 서버에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법에 있어서, 상기 방법은 상기 디스플레이 장치로부터 상기 사용자의 발화 음성을 수신하는 단계, 상기 수신한 발화 음성으로부터 발화 요소를 추출하는 단계, 상기 추출된 발화 요소에 따라 분류된 기능에 기초하여 상기 발화 음성에 대응되는 응답 정보를 상이한 형태로 생성하는 단계 및 상기 생성된 응답 정보를 상기 디스플레이 장치로 전송하는 단계를 포함한다.

그리고, 상기 기능은, EPG 관련 기능 및 상기 디스플레이 장치의 동작 제어 기능 중 적어도 하나를 포함하며, 상기 생성하는 단계는, 상기 추출된 발화 요소가 EPG 관련 발화 요소인지 체크하는 단계, 상기 체크 결과 상기 EPG 관련 발화 요소이면, 기저장된 EPG 정보에 기초하여 상기 발화 음성에 대응하는 EPG 정보 제공이 가능한지 체크하는 단계 및 상기 체크 결과 상기 EPG 정보 제공이 가능하면, 상기 EPG 정보에 기초하여 상기 발화 요소와 대응되는 응답 정보를 생성하고, 상기 EPG 정보 제공이 불가능하면, 상기 EPG 정보 및 웹 서치 중 적어도 하나에 기초하여 상기 발화 음성과 관련된 대체 응답 정보를 생성하는 단계를 포함한다.

또한, 상기 생성하는 단계는, 상기 체크 결과 상기 EPG 관련 발화 요소이면, 상기 발화 음성 내에 복수의 요청에 대한 EPG 관련 발화 요소가 포함되는지를 체크하는 단계 및 상기 체크 결과 상기 발화 음성 내에 복수의 요청에 대한 EPG 관련 발화 요소가 포함되면, 상기 디스플레이 장치에서 사용자에게 발화 음성을 재요청하기 위한 발화 음성 재요청 메시지를 생성하는 단계를 더 포함한다.

그리고, 상기 생성하는 단계는, 상기 체크 결과, 상기 추출된 발화 요소가 상기 디스플레이 장치의 동작 제어 관련 발화 요소인 경우, 상기 발화 요소에 기초하여 상기 발화 음성에 대응하는 상기 디스플레이 장치의 동작 제어가 가능한지 체크하는 단계 및 상기 체크 결과, 상기 디스플레이 장치의 동작 제어가 가능하면, 상기 디스플레이 장치의 동작을 제어하기 위한 응답 정보를 생성하고, 상기 디스플레이 장치의 동작 제어가 불가능하면, 상기 디스플레이 장치의 동작 제어 방법 및 현재 상태 알림 중 적어도 하나와 관련된 응답 정보를 생성하는 단계를 더 포함한다.

또한, 기저장된 제한된 발화 요소 관련 테이블을 참조하여 상기 추출된 발화 요소에 상기 제한된 발화 요소가 포함되어 있는지를 체크하는 단계 및 상기 체크 결과, 상기 추출된 발화 요소에 상기 제한된 발화 요소가 포함되면, 상기 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 생성하는 단계를 더 포함한다.

그리고, 상기 수신하는 단계는, 상기 디스플레이 장치로부터 사용자 정보를 더 수신하며, 상기 체크 결과, 상기 제한된 발화 요소가 포함되지 않은 것을 판단되면, 상기 추출된 발화 요소가 사용자 연령과 관련되는지를 체크하는 단계, 상기 체크 결과, 상기 추출된 발화 요소가 사용자 연경과 관련되면, 상기 수신된 사용자 정보에 기초하여 상기 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 생성하는 단계를 더 포함한다.

이상과 같이 본 발명의 다양한 실시 예에 따르면, 디스플레이 장치는 사용자의 다양한 발화 음성이 입력되어도, 각각의 발화 음성에 대응하는 기능 실행 및 응답 메시지를 출력할 수 있다.

도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도,
도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도,
도 3은 본 발명의, 일 실시예에 따른 대화형 시스템에서 사용자 발화 음성에 적합한 응답 정보를 제공하는 방법의 제1 절차도,
도 4는 본 발명의, 또 실시예에 따른 대화형 시스템에서 사용자 발화 음성에 적합한 응답 정보를 제공하는 방법의 제2 절차도,
도 5는 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도,
도 6은 본 발명의 일 실시예에 따른 디스플레이 장치의 세부 구성을 설명하기 위한 블록도,
도 7은 본 발명의 일 실시예에 따른 대화형 서버의 블록도,
도 8은 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자의 발화 음성에 적합한 응답 정보에 기초하여 동작을 수행하는 방법의 흐름도,
도 9는 본 발명의 일 실시예에 따른 대화형 서버에서 사용자의 발화 음성에 적합한 응답 정보를 디스플레이 장치에 제공하는 방법의 흐름도,
도 10은 본 발명의 일 실시예에 따른 대화형 서버에서 사용자의 발화 음성이 EPG 관련 발화 요소인 경우, 사용자의 발화 음성에 대응하는 응답 정보를 생성하는 방법의 흐름도이다.

이하 첨부된 도면들을 참조하여 본 발명의 일시 예를 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 대화형 시스템은 디스플레이 장치(100) 및 대화형 서버(200)를 포함한다. 인터넷이 가능한 장치로써, 스마트 TV, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다.

이 같은 디스플레이 장치(100)는 사용자의 발화 음성을 수집하여, 그에 대응하는 동작을 수행한다. 예를 들어, 디스플레이 장치(100)는 채널 변경을 위한 사용자의 발화 음성이 입력되면, 해당 채널을 선국하여 디스플레이할 수 있다. 이 경우, 디스플레이 장치(100)는 해당 기능에 대응되는 응답 메시지를 함께 제공할 수도 있다. 상술한 예의 경우, 디스플레이 장치(100)는 변경된 채널에 대한 정보를 음성 또는 텍스트 형태의 영상으로 출력할 수 있다. 또한, 디스플레이 장치(100)는 특정 프로그램의 방송 시간을 문의하는 사용자의 발화 음성이 입력되면, 해당 프로그램의 방송 시간을 음성 또는 텍스트 형태의 영상으로 출력할 수 있다.

이를 위해, 디스플레이 장치(100)는 수집된 사용자의 발화 음성을 대화형 서버(200)로 전송한다. 사용자의 발화 음성을 수신하는 대화형 서버(200)는 디스플레이 장치(100)로부터 수신된 사용자의 발화 음성의 의미를 분석하여, 디스플레이 장치(100)의 동작을 제어하기 위한 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 즉, 대화형 서버(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성이 수신되면, 수신한 발화 음성으로부터 발화 요소를 추출하고, 그 추출된 발화 요소에 기초하여 사용자의 발화 음성과 관련된 응답 정보를 생성하여 전송할 수 있다. 여기서, 발화 요소는 사용자의 발화 음성 내에서 사용자가 요청한 동작을 수행하기 위한 핵심 키워드가 될 수 있다. 예를 들어, "이번 주 토요일에 하는 ○○○(방송프로그램명)이 몇 시에 방송해?"라는 사용자의 발화 음성의 경우, 발화 요소는 "이번 주", "토요일", "○○○(방송프로그램명)", "몇 시", "방송"이 될 수 있다.

이와 같이, 수신한 발화 음성으로부터 발화 요소를 추출하는 대화형 서버(200)는 추출한 발화 요소에 제한된 발화 요소(예를 들어, 금지 약물, 욕설 관련 키워드)가 포함된 경우, 발화 음성에 대응되는 동작에 대한 수행 불가 관련 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다. 한편, 대화형 서버(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성과 함께 해당 사용자의 사용자 정보를 수신할 수 있다. 따라서, 대화형 서버(200)는 수신한 사용자의 발화 음성을 분석하여 추출된 발화 요소에 사용자 연령과 관련된 발화 요소(예를 들어, 음란성, 폭력성 관련 키워드)가 포함된 경우, 사용자 정보에 기초하여 발화 음성에 대응되는 동작에 대한 수행 불가 관련 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다. 한편, 추출된 발화 요소에 전술한 바와 같은 제한적인 발화 요소가 포함되지 않은 경우, 대화형 서버(200)는 사용자의 발화 음성으로부터 추출한 발화 요소에 기초하여 사용자의 발화 음성에 대응하는 동작을 수행하기 위한 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다.

예를 들어, 디스플레이 장치(100)는 사용자로부터 "이번 주 토요일에 하는 ○○○(방송프로그램명)이 몇 시에 방송해?"라는 EPG(Electronic Program Guide) 관련 발화 음성을 수집할 수 있다. 이 같은 발화 음성이 수집되면, 디스플레이 장치(100)는 수집된 발화 음성을 대화형 서버(200)로 전송한다. 여기서, 발화 음성은 아날로그 신호가 될 수 있다. 따라서, 디스플레이 장치(100)는 수집된 발화 음성을 디지털 신호로 변환한 후, 변환된 디지털 신호인 발화 음성을 대화형 서버(200)로 전송할 수 있다. 디지털 신호로 변환된 발화 음성이 수신되면, 대화형 서버(200)는 디지털 신호로 변환된 발화 음성에 기초하여 텍스트 정보를 생성한 후, 생성한 텍스트 정보를 분석하여 사용자의 발화 음성에 대응하는 응답 정보를 생성할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)는 수집된 발화 음성을 별도의 신호 처리 없이 대화형 서버(200)로 전송할 수 있다. 이 경우, 대화형 서버(200)는 디스플레이 장치(100)로부터 수신한 사용자의 발화 음성을 디지털 신호로 변환한 후, 변환된 디지털 신호에 기초하여 사용자의 발화 음성에 대한 텍스트 정보를 생성할 수 있다. 사용자의 발화 음성을 통해 텍스트 정보로 생성하는 것은 공지된 기술이기에 본 발명에서는 상세한 설명을 생략하도록 한다.

전술한 바와 같이, "이번 주 토요일에 하는 ○○○(방송프로그램명)이 몇 시에 방송해?"라는 발화 음성에 대한 텍스트 정보가 생성되면, 대화형 서버(200)는 "이번 주 토요일에 하는 ○○○(방송프로그램명)이 몇 시에 방송해?"라는 발화 음성을 분석하여 발화 요소를 추출할 수 있다. 여기서, 추출된 발화 요소는 "이번 주", "토요일", "○○○(방송프로그램명)", "몇 시", "방송"이 될 수 있다. 이 같은 발화 요소가 추출되면, 대화형 서버(200)는 추출한 발화 요소에 기초하여 해당 방송프로그램이 시작하는 방송 시간 정보에 대한 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 수신한 응답 정보에 기초하여 "○○○(방송프로그램명)은 7시에 방송 시작합니다."라는 응답 메시지를 음성 또는 텍스트 형태의 영상으로 출력할 수 있다.

또다른 예를 들어, 디스플레이 장치(100)는 사용자로부터 "이번 주 토요일에 하는 ○○○(방송프로그램명)을 예약해줘"라는 발화 음성을 수집할 수 있다. 이 같은 발화 음성이 수집되면, 디스플레이 장치(100)는 수집된 발화 음성을 대화형 서버(200)로 전송한다. 이 경우, 대화형 서버(200)는 이번 주 토요일에 하는 ○○○(방송프로그램명)을 예약해줘"라는 발화 음성으로부터 발화 요소를 추출하고, 추출된 발화 요소에 기초하여 해당 방송프로그램이 시작하는 시점에 "○○○"의 예약 녹화 기능을 수행하기 위한 제어 명령 및 "○○○의 녹화가 예약되었습니다"라는 응답 메시지를 포함하는 응답 정보를 생성하고, 이를 디스플레이 장치(100)로 전송할 수 있다. 따라서, 디스플레이 장치(100)는 수신한 응답 정보에 기초하여 해당 방송프로그램에 대한 예약 녹화 기능을 실행하고, 이와 함께, "○○○의 녹화가 예약되었습니다"라는 응답 메시지를 음성 또는 텍스트 형태의 영상으로 출력할 수 있다.

한편, 전술한 대화형 서버(200)는 디지털 신호로 변환된 사용자의 발화 음성을 텍스트 정보로 생성하는 제1 서버(10) 및 텍스트 정보로 생성된 발화 음성에 대응하는 응답 정보를 생성하는 제2 서버(20)를 포함할 수 있다. 이하에서는, 디스플레이 장치(100), 제1 및 제2 서버(10,20)를 통해 사용자의 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템에 대해서 상세히 설명하도록 한다.

도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도이다.

도 2에 도시된 바와 같이, 디스플레이 장치(100)는 사용자로부터 발화된 발화 음성이 수집되면, 수집된 발화 음성을 디지털 신호로 변환하여 제1 서버(10)로 전송한다. 디지털 신호로 변환된 발화 음성이 수신되면, 제1 서버(10)는 기저장된 다양한 발화 음성에 대한 특정 패턴에 따라, 사용자의 발화 음성에 대한 텍스트 정보를 생성하여 디스플레이 장치(100)로 전송한다.

제1 서버(10)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신한 디스플레이 장치(100)는 사용자의 발화 음성에 대한 텍스트 정보를 제2 서버(20)로 전송한다. 사용자의 발화 음성에 대한 텍스트 정보를 수신한 제2 서버(20)는 수신한 텍스트 정보를 분석하여 발화 요소를 추출하고, 그 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행하기 위한 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다.

지금까지, 본 발명에 따른 디스플레이 장치(100)와 대화형 서버(200)로 이루어진 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 동작에 대해서 개략적으로 설명하였다. 이하에서는, 본 발명에 따른 디스플레이 장치(100)와 대화형 서버(200)를 포함하는 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법에 대해서 개략적으로 설명하도록 한다.

도 3은 본 발명의, 일 실시예에 따른 대화형 시스템에서 사용자 발화 음성에 적합한 응답 정보를 제공하는 방법의 제1 절차도이다.

도 1에서 설명한 바와 같이, 대화형 시스템은 디스플레이 장치(100) 및 대화형 서버(200)로 구성될 수 있다. 이 경우, 도 3에 도시된 바와 같이, 디스플레이 장치(100)는 사용자로부터 발화된 사용자의 발화 음성을 수집한다(S310). 여기서, 수집된 사용자의 발화 음성은 아날로그 신호이다. 따라서, 디스플레이 장치(100)는 수집된 사용자의 발화 음성을 디지털 신호로 변환한다(S320). 이후, 디스플레이 장치(100)는 디지털 신호로 변환된 사용자의 발화 음성을 대화형 서버(200)로 전송한다(S230). 구체적으로, 사용자의 음성을 수집하기 위한 모드가 개시되면, 디스플레이 장치(100)는 기설정된 거리 이내에 위치한 사용자의 발화 음성을 수집하고, 그 수집된 발화 음성을 디지털 신호로 변환하여 대화형 서버(200)로 전송할 수 있다.

이를 위해, 디스플레이 장치(100)는 사용자의 발화 음성을 입력받기 위한 마이크 등을 구비할 수 있다. 이 경우, 마이크는 디스플레이 장치(100)에 내장되거나, 디스플레이 장치(100)를 제어하기 위한 리모컨에 장착될 수 있다. 하지만, 이에 한정되는 것은 아니며 리모컨과 별도로 사용자가 손으로 쥐는 형태, 또는 식탁이나 테이블에 놓일 수 있는 형태로 구현될 수 있다.

대화형 서버(200)는 디스플레이 장치(100)로부터 발화 음성이 수신되면, 그 수신한 발화 음성에 대한 텍스트 정보를 생성한 후, 생성된 텍스트 정보를 분석하여 발화 음성에 대한 발화 요소를 추출한다(S330,S340). 여기서, 발화 요소는 사용자의 발화 음성 내에서 사용자가 요청한 동작을 수행하기 위한 핵심 키워드가 될 수 있다. 예를 들어, "이번 주 토요일에 하는 ○○○(방송프로그램명)이 몇 시에 방송해?"라는 사용자의 발화 음성의 경우, 발화 요소는 "이번 주", "토요일", "○○○(방송프로그램명)", "몇 시", "방송"이 될 수 있다.

이 같은 발화 요소가 추출되면, 대화형 서버(200)는 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행하기 위한 응답 정보를 생성하고, 생성된 응답 정보를 디스플레이 장치(100)로 전송한다(S350,S360). 따라서, 디스플레이 장치(100)는 대화형 서버(200)로부터 응답 정보를 수신하고, 수신한 응답 정보에 기초하여 사용자의 발화 음성에 대한 동작을 수행할 수 있다(S360,S370). 여기서, 응답 정보는 디스플레이 장치(100)의 기능을 제어하기 위한 제어 명령 및 디스플레이 장치(100)에서 수집된 발화 음성에 대한 응답 메시지를 출력하기 위한 정보(이하에서, 응답 메시지) 중 적어도 하나를 포함할 수 있다.

예를 들어, "이번 주 토요일에 하는 ○○○(방송프로그램명) 녹화해줘"라는 사용자 발화 음성이 수신되면, 대화형 서버(200)는 수신한 발화 음성에 대한 발화 요소에 기초하여 해당 방송프로그램이 시작하는 시점에 "○○○(방송프로그램명)"의 예약 녹화 기능을 수행하기 위한 제어 명령 및 "○○○(방송프로그램명)의 녹화가 예약되었습니다"라는 응답 메시지를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다.

따라서, 디스플레이 장치(100)는 수신한 응답 정보에 기초하여 해당 방송프로그램에 대한 예약 녹화 기능을 실행하고, 이와 함께, "○○○의 녹화가 예약되었습니다"라는 응답 메시지를 음성 또는 텍스트 형태의 영상으로 출력할 수 있다.

한편, 도 2에서 설명한 바와 같이, 대화형 서버(200)는 제1 서버(10) 및 제2 서버(20)로 구성될 수 있다. 따라서, 이하에서는 디스플레이 장치(100)와 제1 서버(10) 및 제2 서버(20)로 구성된 대화형 서버(200)를 포함하는 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법에 대해서 개략적으로 설명하도록 한다.

도 4는 본 발명의, 또 실시예에 따른 대화형 시스템에서 사용자 발화 음성에 적합한 응답 정보를 제공하는 방법의 제2 절차도이다.

도 2에서 설명한 바와 같이, 대화형 시스템은 디스플레이 장치(100) 및 제1 서버(10)와 제2 서버(20)를 포함하는 대화형 서버(200)를 통해 사용자의 발화 음성에 적합한 응답 정보를 제공할 수 있다.

도 4에 도시된 바와 같이, 디스플레이 장치(100)는 사용자로부터 발화된 발화 음성을 수집한 후, 수집된 사용자의 발화 음성을 디지털 신호로 변환한다(S410). 여기서, 수집된 사용자의 발화 음성은 아날로그 신호이다. 따라서, 디스플레이 장치(100)는 사용자의 발화 음성이 수집되면, 수집된 아날로그 신호의 발화 음성을 디지털 신호로 변환한다. 구체적으로, 사용자의 음성을 수집하기 위한 모드가 개시되면, 디스플레이 장치(100)는 기설정된 거리 이내에 위치한 사용자의 발화 음성을 수집하고, 그 수집된 발화 음성을 디지털 신호로 변환하여 제1 서버(10)로 전송할 수 있다. 이를 위해, 디스플레이 장치(100)는 사용자의 발화 음성을 입력받기 위한 마이크 등을 구비할 수 있다. 이 경우, 마이크는 디스플레이 장치(100)에 내장되거나, 디스플레이 장치(100)를 제어하기 위한 리모컨에 장착될 수 있다. 하지만, 이에 한정되는 것은 아니며 리모컨과 별도로 사용자가 손으로 쥐는 형태, 또는 식탁이나 테이블에 놓일 수 있는 형태로 구현될 수 있다.

이 같은 사용자의 발화 음성이 디지털 신호로 변환되면, 디스플레이 장치(100)는 디지털 신호로 변환된 사용자의 발화 음성을 제1 서버(10)로 전송한다(S420). 디지털 신호로 변환된 사용자의 발화 음성을 수신한 제1 서버(10)는 기저장된 다양한 발화 음성에 대한 특정 패턴에 따라, 사용자의 발화 음성에 대한 텍스트 정보를 생성한다(S430). 이후, 제1 서버(10)는 사용자의 발화 음성에 대한 텍스트 정보를 전송하고(S440), 디스플레이 장치(100)는 제1 서버(10)로터 수신한 사용자의 발화 음성에 대한 텍스트 정보를 제2 서버(20)로 전송한다(S450). 사용자의 발화 음성에 대한 텍스트 정보를 수신한 제2 서버(20)는 수신한 텍스트 정보를 분석하여 사용자의 발화 음성에 대한 발화 요소를 추출한다(S460).

여기서, 발화 요소는 사용자의 발화 음성 내에서 사용자가 요청한 동작을 수행하기 위한 핵심 키워드가 될 수 있다. 예를 들어, "이번 주 토요일에 하는 ○○○(방송프로그램명)이 몇 시에 방송해?"라는 사용자의 발화 음성의 경우, 발화 요소는 "이번 주", "토요일", "○○○(방송프로그램명)", "몇 시", "방송"이 될 수 있다.

이 같은 발화 요소가 추출되면, 제2 서버(20)는 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행하기 위한 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다(S470,S480). 따라서, 디스플레이 장치(100)는 대화형 서버(200)로부터 응답 정보를 수신하고, 수신한 응답 정보에 기초하여 사용자의 발화 음성에 대한 동작을 수행할 수 있다(S490). 여기서, 응답 정보는 디스플레이 장치(100)의 기능을 제어하기 위한 제어 명령 및 디스플레이 장치(100)에서 수집된 발화 음성에 대한 응답 메시지를 출력하기 위한 정보(이하에서, 응답 메시지) 중 적어도 하나를 포함할 수 있다.

예를 들어, "이번 주 토요일에 하는 ○○○(방송프로그램명) 녹화해줘"라는 사용자 발화 음성이 수신되면, 대화형 서버(200)는 수신한 발화 음성으로부터 발화 요소를 추출하고, 추출한 발화 요소에 기초하여 해당 방송프로그램이 시작하는 시점에 "○○○(방송프로그램명)"의 예약 녹화 기능을 수행하기 위한 제어 명령 및 "○○○(방송프로그램명)의 녹화가 예약되었습니다"라는 응답 메시지를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 따라서, 디스플레이 장치(100)는 수신한 응답 정보에 기초하여 해당 방송프로그램에 대한 예약 녹화 기능을 실행하고, 이와 함께, "○○○(방송프로그램명)의 녹화가 예약되었습니다"라는 응답 메시지를 음성 또는 텍스트 형태의 영상으로 출력할 수 있다.

지금까지, 본 발명에 따른 대화형 시스템에서 사용자의 발화 음성에 적합한 응답 정보를 제공하는 방법에 대해서 상세히 설명하였다. 이하에서는, 전술한 디스플레이 장치(100) 및 대화형 서버(200)의 각 구성들에 대해서 상세히 설명하도록 한다.

도 5는 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도이다.

도 5에 도시된 바와 같이, 디스플레이 장치(100)는 통신부(110), 음성 수신부(120), 제어부(130) 및 출력부(140)를 포함한다.

통신부(110)는 사용자의 발화 음성에 적합한 응답 정보를 제공하는 대화형 서버(200)와 통신을 수행한다. 구체적으로, 통신부(110)는 다양한 통신 방식에 따라 대화형 서버(200)와 통신을 수행하여, 사용자의 발화 음성을 대화형 서버(200)로 전송할 수 있다. 이를 위해, 통신부(110)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기서, 근거리 무선 통신 모듈(미도시)은 근거리에 위치한 외부 기기와 무선 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스, 지그비 등이 될 수 있다. 무선 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

음성 수집부(120)는 수집된 사용자의 발화 음성을 처리하여, 사용자 음성 신호를 생성한다. 즉, 음성 수집부(120)는 수집된 사용자의 발화 음성에서 노이즈(예를 들어, 에어컨 소리, 청소기 소리, 음악 소리 등)를 제거하여, 사용자 음성 신호를 생성할 수 있다. 구체적으로, 음성 수집부(120)는 아날로그 형태의 사용자 발화 음성이 입력되면, 입력된 발화 음성을 샘플링하여 디지털 신호로 변환한다. 이때, 음성 수집부(120)는 디지털 신호로 변환된 발화 음성에 노이즈가 있는지를 판단하여 노이즈가 있는 경우, 변환된 디지털 신호로부터 해당 노이즈를 제거하는 것이 바람직하다. 이 같이, 음성 수집부(120)를 통해 사용자의 발화 음성이 디지털 신호로 변환되면, 통신부(110)는 디지털 신호로 변환된 사용자의 발화 음성을 대화형 서버(200)로 전송한다. 여기서, 대화형 서버(200)는 전술한 바와 같이, 사용자의 발화 음성을 텍스트 정보로 생성하는 제1 서버(10) 및 텍스트 정보로 생성된 발화 음성에 대응되는 응답 정보를 생성하는 제2 서버(20)를 포함할 수 있다. 따라서, 통신부(110)는 음성 수집부(120)를 통해 사용자의 발화 음성이 디지털 신호로 변환되면, 변환된 디지털 신호를 제1 서버(10)로 전송하고, 제1 서버(10)로부터 텍스트 정보로 변환된 사용자의 발화 음성이 수신되면, 이를 제2 서버(20)로 전송한다.

그러나, 본 발명은 이에 한정되지 않으며, 대화형 서버(200)는 단일의 서버로 구성되어, 사용자의 발화 음성을 텍스트 정보로 생성하고, 그 생성된 텍스트 정보에 기초하여 사용자의 발화 음성에 대응되는 응답 정보를 생성할 수 있다. 본 발명에서는 대화형 서버(200)가 제1 서버(10) 및 제2 서버(20)를 포함하는 것에 한정하여 설명하도록 한다.

제어부(130)는 제2 서버(20)로부터 텍스트 정보로 변환된 사용자의 발화 음성에 대응되는 응답 정보가 수신되면, 수신한 응답 정보에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행하도록 제어한다. 구체적으로, 제어부(130)는 사용자의 발화 음성이 입력되면, 음성 수집부(120)를 통해 사용자의 발화 음성을 디지털 신호로 변환한다. 이후, 제어부(130)는 통신부(110)를 통해 디지털 신호로 변환된 사용자의 발화 음성을 제1 서버(10)로 전송하고, 제1 서버(10)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신한다. 제1 서버(10)로부터 사용자의 발화 음성에 대한 텍스트 정보가 수신되면, 제어부(130)는 통신부(110)를 통해 텍스트 정보로 변환된 사용자의 발화 음성을 제2 서버(20)로 전송하여 사용자의 발화 음성에 대응되는 응답 정보를 수신할 수 있다.

출력부(140)는 음성 및 영상 중 적어도 하나를 출력한다. 구체적으로, 사용자의 발화 음성에 대응되는 응답 정보가 제2 서버(20)로부터 수신되면, 출력부(140)는 제어부(130)의 제어 명령에 따라, 수신된 응답 정보에 기초하여 사용자의 발화 음성에 대한 응답 메시지를 음성 또는 텍스트 형태의 영상으로 출력할 수 있다. 이를 위해, 출력부(140)는 디스플레이부(141) 및 오디오 출력부(143)를 구비할 수 있다.

구체적으로, 디스플레이부(141)는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel, PDP) 등으로 구현되어, 디스플레이 장치(100)를 통해 제공 가능한 다양한 디스플레이 화면을 제공할 수 있다. 특히, 디스플레이부(141) 사용자의 발화 음성에 대응되는 응답 메시지가 텍스트 또는 이미지 형태로 디스플레이할 수 있다. 여기서, 디스플레이부(141)는 터치패드와 함께 상호 레이어 구조를 이루는 터치 스크린 형태로 구현될 수 있으며, 터치 스크린은 터치 입력 위치, 면적, 터치 입력의 압력까지도 검출하도록 구성될 수 있다.

한편, 오디오 출력부(143)는 스피커 또는 잭 등과 같은 출력 포트로 구현되어, 사용자 발화 음성에 대한 응답 메시지를 음성 형태로 출력할 수 있다.

한편, 전술한 바와 같이, 제2 서버(20)로부터 수신되는 응답 정보는 사용자의 발화 음성으로부터 추출된 발화 요소를 기초로 분류된 기능에 따라 상이한 형태로 생성되는 것이 바람직하다. 여기서, 추출된 발화 요소를 기초로 분류되는 기능은 EPG 관련 기능 및 디스플레이 장치(100)의 동작 제어와 관련된 기능 중 적어도 하나를 포함할 수 있다. 예를 들어, 사용자의 발화 음성으로부터 추출되는 발화 요소가 방송 프로그램과 관련된 발화 요소이면, EPG 관련 기능이 될 수 있으며, 디스플레이 장치(100)의 전원 온/오프, 채널 변경, 볼륨 변경 등과 관련된 발화 요소이면, 디스플레이 장치(100)의 동작 제어와 관련된 기능이 될 수 있다.

따라서, 제어부(130)는 이 같은 응답 정보가 제2 서버(20)로부터 수신되면, 그 수신된 응답 정보에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행하도록 제어할 수 있다.

예를 들어, 사용자로부터 "MBC로 채널 변경해줘"라는 발화 음성이 입력되면, 제어부(130)는 음성 수집부(120)를 통해 "MBC로 채널 변경해줘"라는 발화 음성을 디지털 신호로 변환하여 제1 서버(10)로 전송한다. 이후, 제1 서버(10)로부터 "MBC로 채널 변경해줘"라는 발화 음성에 대한 텍스트 정보가 수신되면, 제어부(130)는 "MBC로 채널 변경해줘"라는 발화 음성에 대한 텍스트 정보를 제2 서버(20)로 전송한다.

이에 따라, 제2 서버(20)는 수신한 "MBC로 채널 변경해줘"라는 발화 음성에 대한 텍스트 정보로부터 "MBC", "채널", "변경"이라는 발화 요소를 추출하고, 추출한 발화 요소에 기초하여 디스플레이 장치(100)의 동작 제어 관련 기능인 것으로 판단한다. 이후, 제2 서버(20)는 채널 변경에 대한 제어 명령과 "MBC로 채널 변경되었습니다."라는 응답 메시지를 포함하는 응답 정보를 디스플레이 장치(100) 측으로 전송한다.

따라서, 제어부(130)는 수신한 응답 정보에 포함된 제어 명령에 따라, 현재 채널을 MBC 채널로 변경한다. 그리고, 제어부(130)는 수신한 응답 정보에 포함된 응답 메시지에 기초하여 "MBC로 채널 변경되었습니다."라는 응답 메시지를 영상 및 음성 중 적어도 하나를 통해 출력하도록 출력부(140)를 제어한다. 따라서, "MBC로 채널 변경되었습니다."라는 응답 메시지가 오디오 출력부(143)를 통해 음성으로 출력되거나 또는 디스플레이부(141)를 통해 텍스트 형태의 영상으로 출력될 수 있다.

또다른 예를 들어, 사용자로부터 "오늘 하는 ○○○(방송프로그램명) 녹화해줘"라는 발화 음성이 입력되면, 제어부(130)는 음성 수집부(120)를 통해 "오늘 하는 ○○○(방송프로그램명) 녹화해줘"라는 발화 음성을 디지털 신호로 변환하여 제1 서버(10)로 전송한다. 이후, 제1 서버(10)로부터 "오늘 하는 ○○○(방송프로그램명) 녹화해줘"라는 발화 음성에 대한 텍스트 정보가 수신되면, 제어부(130)는 "오늘 하는 ○○○(방송프로그램명) 녹화해줘"라는 발화 음성에 대한 텍스트 정보를 제2 서버(20)로 전송한다.

이에 따라, 제2 서버(20)는 수신한 "오늘 하는 ○○○(방송프로그램명) 녹화해줘"라는 발화 음성에 대한 텍스트 정보로부터 "오늘", "○○○(방송프로그램명)", "녹화"라는 발화 요소를 추출하고, 추출한 발화 요소에 기초하여 EPG 관련 기능인 것으로 판단한다. 이후, 제2 서버(20)는 ○○○(방송프로그램명)에 대한 예약 녹화에 대한 제어 명령과 "○○○(방송프로그램명)에 대한 녹화가 예약되었습니다."라는 응답 메시지를 포함하는 응답 정보를 디스플레이 장치(100) 측으로 전송한다.

따라서, 제어부(130)는 수신한 응답 정보에 포함된 제어 명령에 따라, ○○○(방송프로그램명)에 대한 예약 녹화를 설정한다. 그리고, 제어부(130)는 수신한 응답 정보에 포함된 응답 메시지에 기초하여 "○○○(방송프로그램명)에 대한 녹화가 예약되었습니다."라는 응답 메시지를 영상 및 음성 중 적어도 하나를 통해 출력하도록 출력부(140)를 제어한다. 따라서, "○○○(방송프로그램명)에 대한 녹화가 예약되었습니다."라는 응답 메시지가 오디오 출력부(143)를 통해 음성으로 출력되거나 또는 디스플레이부(141)를 통해 텍스트 형태의 영상으로 출력될 수 있다.

이와 같이, 제2 서버(20)로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성에 대응하는 동작을 수행하는 제어부(130)는 제2 서버(20)로부터 사용자의 발화 음성에 대한 발화 음성 재요청 메시지를 수신하여 출력부(140)를 통해 출력할 수 있다.

일 실시예에 따라, 사용자의 발화 음성으로부터 추출된 발화 요소가 기설정된 조건을 모두 충족시키지 못할 경우, 제어부(130)는 제2 서버(20)로부터 사용자의 발화 음성에 대한 발화 음성 재요청 메시지를 수신하여 출력부(140)를 통해 출력할 수 있다.

예를 들어, 제2 서버(20)는 디스플레이 장치(100)로부터 "9시 뉴스 시청 예약해줘"라는 발화 음성에 대한 텍스트 정보를 수신할 수 있다. 이 경우, 제2 서버(20)는 수신한 "9시 뉴스 시청 예약해줘"라는 발화 음성에 대한 텍스트 정보로부터 추출된 발화 요소에 기초하여 "KBS 9시 뉴스 시청 예약인가요? 아니면 MBC 9시 뉴스 시청 예약인가요?"라는 발화 음성 재요청 메시지를 포함하는 응답 정보를 디스플레이 장치(100) 측으로 전송할 수 있다. 즉, 제2 서버(20)는 추출된 발화 요소가 기설정된 조건을 만족하는지를 판단하여, 기설정된 조건을 만족하지 못할 경우, 해당 조건을 만족하기 위한 발화 음성 재요청 메시지를 포함하는 응답 정보를 생성하여 디스플레이 장치(100) 측으로 전송할 수 있다.

따라서, 제어부(130)는 수신한 응답 정보에 포함된 발화 음성 재요청 메시지에 기초하여 "KBS 9시 뉴스 시청 예약인가요? 아니면 MBC 9시 뉴스 시청 예약인가요?"라는 메시지를 영상 및 음성 중 적어도 하나를 통해 출력되도록 디스플레이부(141) 및 오디오 출력부(143)를 제어한다. 따라서, 제어부(130)는 디스플레이부(141) 및 오디오 출력부(143)를 통해 출력된 발화 음성 재요청 메시지에 대응하는 발화 음성을 사용자로부터 추가적으로 입력받을 수 있다. 예를 들어, 사용자로부터 "MBC 9시 뉴스"라는 발화 음성이 추가적으로 입력되면, 제어부(130)는 "MBC 9시 뉴스"라는 발화 음성에 대한 텍스트 정보를 제2 서버(20)로 전송할 수 있다. 이와 같이, 추가적으로 입력된 발화 음성에 대한 텍스트 정보를 통해 기설정된 조건을 모두 만족할 경우, 제2 서버(20)는 "MBC 9시 뉴스"에 대한 채널 예약 변경 관련 제어 명령과 "MBC 9시 뉴스 시청이 예약되었습니다."라는 응답 메시지를 포함하는 응답 정보를 디스플레이 장치(100) 측으로 전송할 수 있다.

따라서, 제어부(130)는 수신한 응답 정보에 포함된 제어 명령에 따라, MBC 9시 뉴스에 대한 채널 예약 변경을 설정한다. 그리고, 출력부(140)는 제어부(130)의 제어 명령에 따라, "MBC 9시 뉴스 시청이 예약되었습니다."라는 응답 메시지를 오디오 출력부(143)를 통해 음성으로 출력하거나 또는 디스플레이부(141)를 통해 텍스트 형태의 영상으로 출력할 수 있다.

또다른 실시예에 따라, 사용자의 발화 음성 내에 복수의 요청에 대한 발화 요소가 포함된 경우, 제어부(130)는 제2 서버(20)로부터 사용자의 발화 음성에 대한 발화 음성 재요청 메시지를 수신하여 출력부(140)를 통해 출력할 수 있다.

예를 들어, 제2 서버(20)는 디스플레이 장치(100)로부터 "이번 주에 방송하는 ○○○(방송프로그램명)을 시청 예약해주고, ○○○(방송프로그램명)을 녹화해줘"라는 발화 음성에 대한 텍스트 정보를 수신할 수 있다. 이 경우, "이번 주에 방송하는 ○○○(방송프로그램명)을 시청 예약해주고, ○○○(방송프로그램명)을 녹화해줘"라는 발화 음성에는 복수의 요청과 관련된 발화 요소("○○○(방송프로그램명)", "시청 예약"과 "○○○(방송프로그램명)", "녹화")가 포함된다.

따라서, 제2 서버(20)는 수신한 발화 음성에 대한 텍스트 정보에 복수의 요청과 관련된 발화 요소가 포함된 것으로 판단하고, 발화 음성 재요청 메시지를 포함하는 응답 정보를 디스플레이 장치(100) 측으로 전송할 수 있다. 따라서, 제어부(130)는 출력부(140)의 디스플레이부(141) 및 오디오 출력부(143)를 통해 발화 음성 재요청 메시지를 영상 및 음성 중 적어도 하나를 통해 출력한다. 이 같은 발화 음성 재요청 메시지가 영상 및 음성 중 적어도 하나를 통해 출력되면, 사용자는 "이번 주에 방송하는 ○○○(방송프로그램명)을 시청 예약해줘" 또는 "이번 주에 방송하는 ○○○(방송프로그램명)을 녹화해줘"와 같이 하나만을 재요청할 수 있다.

한편, 제어부(130)는 사용자로부터 EPG 관련 기능 또는 디스플레이 장치(100)의 동작을 제어하기 위한 기능과 관련되지 않은 발화 음성을 입력받을 수 있다.

예를 들어, 사용자로부터 "가까운 거리에 있는 레스토랑을 알려줘"라는 발화 음성이 입력되면, 제어부(130)는 제1 서버(10)로부터 "가까운 거리에 있는 레스토랑을 알려줘"라는 발화 음성에 대한 텍스트 정보를 제2 서버(20)로 전송한다. 이 같은 사용자의 발화 음성에 대한 텍스트 정보를 수신한 제2 서버(20)는 "가까운 거리에 있는 레스토랑을 알려줘"라는 발화 음성에 대한 텍스트 정보로부터 "가까운", "레스토랑"이라는 발화 요소를 추출하고, 추출한 발화 요소가 EPG 관련 기능 또는 디스플레이 장치(100)의 동작을 제어하기 위한 기능과 관련되지 않은 발화 요소인 것으로 판단한다. 따라서, 제2 서버(20)는 "웹을 통해 대체 정보를 제공받으시겠습니까?"라는 대체 응답 정보를 디스플레이 장치(100)로 전송한다. 이 같은 대체 응답 정보에는 사용자의 발화 음성으로부터 추출한 발화 요소가 포함될 수 있다.

이 같은 대체 응답 정보가 수신되면, 제어부(130)는 제2 서버(20)로부터 수신한 대체 응답 정보에 따라, "웹을 통해 대체 정보를 제공받으시겠습니까?"라는 응답 메시지를 영상 및 음성 중 적어도 하나를 통해 출력한다. 즉, 제어부(130)는 수신한 응답 정보에 포함된 대체 정보를 영상 및 음성 중 적어도 하나를 통해 출력되도록 디스플레이부(141) 및 오디오 출력부(143)를 제어한다.

이후, 사용자로부터 웹을 통해 대체 정보를 제공받겠다는 발화 음성이 입력되면, 제어부(130)는 대체 응답 정보에 포함된 발화 요소에 기초하여 웹 서치를 수행하여 디스플레이 장치(100)가 위치한 기준으로 근접한 위치에 있는 레스토랑에 대한 대체 정보를 획득할 수 있다.

그러나, 본 발명은 이에 한정되지 않으며, 제2 서버(20)는 웹 서버(미도시)와 연동될 수 있다. 따라서, 전술한 바와 같이, 추출한 발화 요소가 EPG 관련 기능 또는 디스플레이 장치(100)의 동작을 제어하기 위한 기능과 관련되지 않은 발화 요소인 경우, 제2 서버(20)는 "웹을 통해 대체 정보를 제공받으시겠습니까?"라는 대체 응답 정보를 디스플레이 장치(100)로 전송한다. 이후, 디스플레이 장치(100)로부터 웹을 통해 대체 정보를 제공받겠다는 발화 음성이 입력되면, 제2 서버(20)는 추출한 발화 요소에 기초하여 웹 서버(미도시)를 통해 사용자의 발화 음성과 관련된 대체 정보를 획득하고, 획득한 대체 정보를 디스플레이 장치(100)로 전송할 수 있다.

이 같은 대체 정보가 획득되거나 제2 서버(20)로부터 수신되면, 제어부(130)는 해당 대체 정보가 영상 및 음성 중 적어도 하나로 출력되도록 디스플레이부(141) 및 오디오 출력부(143)를 제어한다. 따라서, 사용자는 디스플레이부(141) 및 오디오 출력부(143)를 통해 출력된 대체 정보에 따라 자신이 위치한 곳과 근접한 위치에 있는 레스토랑을 확인할 수 있다.

한편, 제어부(130)는 발화 음성 내에 제한된 발화 요소가 포함된 경우, 제2 서버(20)로부터 수신한 응답 정보에 기초하여 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 출력하도록 출력부(140)를 제어할 수 있다.

예를 들어, 사용자로부터 욕설 혹은 금지 약물과 관련된 발화 음성이 입력되면, 제어부(130)는 제1 서버(10)를 통해 사용자의 발화 음성에 대한 텍스트 정보를 수신하고, 이를 제2 서버(20)로 전송한다. 사용자의 발화 음성에 대한 텍스트 정보를 수신한 제2 서버(20)는 수신한 발화 음성에 대한 텍스트 정보로부터 발화 요소를 추출하고, 추출된 발화 요소가 기저장된 제한된 발화 요소인지를 체크한다. 체크 결과, 추출된 발화 요소가 제한된 발화 요소인 경우, 제2 서버(20)는 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 포함하는 응답 정보를 디스플레이 장치(100)로 전송한다.

따라서, 제어부(130)는 수신한 응답 정보에 따라, "발화 요청을 수행할 수 없습니다."라는 수행 불가 메시지를 영상 및 음성 중 적어도 하나를 통해 출력하도록 출력부(140)를 제어한다. 따라서, "발화 요청을 수행할 수 없습니다."라는 수행 불가 메시지는 오디오 출력부(143)를 통해 음성으로 출력되거나 또는 디스플레이부(141)를 통해 텍스트 형태의 영상으로 출력될 수 있다.

그러나, 본 발명은 이에 한정되지 않으며, 제어부(130)는 사용자로부터 욕설 혹은 금지 약물과 관련된 발화 음성이 입력되면, 저장부(150)에 기저장된 발화 요소 관련 테이블을 참조하여 발화 음성에 대응되는 동작을 수행할지 여부를 판단할 수 있다. 여기서, 저장부(150)에 기저장된 발화 요소 관련 테이블은 사용자의 발화 음성에 대응되는 동작을 제안하기 위해 사용자로부터 기설정되어 저장된 테이블이다. 예를 들어, 사용자로부터 입력된 발화 음성에 "마약"이라는 발화 요소가 포함되고, 그 포함된 발화 요소가 저장부(150)의 발화 요소 관련 테이블에 기록 저장되어 있으면, 제어부(130)는 디스플레이부(141) 및 오디오 출력부(143) 중 적어도 하나를 통해 "발화 요청을 수행할 없습니다."라는 수행 불가 메시지를 출력할 수 있다.

한편, "마약"이라는 발화 요소가 발화 요소 관련 테이블에 기록 저장되어 있지 않으면, 제어부(130)는 사용자의 발화 음성에 대한 텍스트 정보를 제2 서버(20)로 전송한다. 따라서, 제어부(130)는 전술한 바와 같이, 제2 서버(20)로부터 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 포함하는 응답 정보를 수신하여 "발화 요청을 수행할 수 없습니다."라는 수행 불가 메시지를 디스플레이부(141) 및 오디오 출력부(143) 중 적어도 하나를 통해 영상 및 음성으로 출력할 수 있다.

한편, 디스플레이 장치(100)는 사용자 얼굴을 촬영하는 촬영부(160)를 더 포함할 수 있다. 그리고, 저장부(150)는 사용자의 얼굴 이미지 및 사용자 정보를 매칭시켜 저장할 수 있다.

따라서, 촬영부(160)를 통해 얼굴 이미지가 생성되면, 제어부(130)는 생성된 얼굴 이미지에 매칭되는 사용자 정보를 저장부(150)로부터 획득하고, 그 획득한 사용자 정보 및 사용자의 발화 음성에 대한 텍스트 정보를 제2 서버(20)로 전송할 수 있다. 실시예에 따라, 사용자의 발화 음성에 사용자 연령과 관련된 발화 요소가 포함된 경우, 제어부(130)는 제2 서버(20)로부터 사용자 정보에 기초하여 생성된 응답 정보에 따라 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 출력하도록 출력부(140)를 제어할 수 있다.

예를 들어, 사용자로부터 성인 방송 채널 전환과 관련된 발화 음성이 입력되면, 제어부(130)는 제1 서버(10)를 통해 사용자의 발화 음성에 대한 텍스트 정보를 수신하고, 이를 제2 서버(20)로 전송한다. 이때, 제어부(130)는 촬영부(160)를 통해 촬영된 얼굴 이미지에 매칭되는 사용자 정보를 저장부(150)로부터 추출하여 제2 서버(20)로 전송할 수 있다. 이 같은 사용자의 발화 음성에 대한 텍스트 정보 및 사용자 정보를 수신한 제2 서버(20)는 수신한 발화 음성에 대한 텍스트 정보로부터 발화 요소를 추출하고, 추출된 발화 요소가 기저장된 사용자 연령 제한 발화 요소 관련 테이블에 기록 저장된 것인지를 체크한다. 체크 결과, 추출된 발화 요소가 사용자 연령 제한과 관련된 발화 요소인 경우, 제2 서버(20)는 수신한 사용자 정보에 기초하여 해당 사용자가 사용자 연령에 제한되는지를 체크한다. 체크 결과, 사용자가 요청한 성인 방송 채널에 대한 시청 권한이 없는 사용자 연령인 것으로 체크되면, 제2 서버(20)는 사용자의 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 포함하는 응답 정보를 디스플레이 장치(100)로 전송한다.

따라서, 제어부(130)는 수신한 응답 정보에 따라, "발화 요청을 수행할 수 없습니다."라는 수행 불가 메시지를 영상 및 음성 중 적어도 하나를 통해 출력하도록 출력부(140)를 제어한다. 따라서, 디스플레이부(141) 및 오디오 출력부(143) 중 적어도 하나를 통해 "발화 요청을 수행할 수 없습니다."라는 수행 불가 메시지를 텍스트 형태의 영상 및 음성으로 출력할 수 있다.

그러나, 본 발명은 이에 한정되지 않으며, 제어부(130)는 사용자로부터 성인 방송 채널 전환과 관련된 발화 음성이 입력되면, 촬영부(160)를 통해 촬영된 얼굴 이미지에 매칭되는 사용자 정보에 기초하여 해당 사용자가 사용자 연령에 제한되는지를 체크할 수 있다. 체크 결과, 사용자가 요청한 성인 방송 채널에 대한 시청 권한이 없는 사용자 연령인 것으로 체크되면, 제어부(130)는 "발화 요청을 수행할 수 없습니다."라는 수행 불가 메시지를 영상 및 음성 중 적어도 하나를 통해 출력하도록 출력부(140)를 제어한다. 따라서, 디스플레이부(141) 및 오디오 출력부(143) 중 적어도 하나를 통해 "발화 요청을 수행할 수 없습니다."라는 수행 불가 메시지를 텍스트 형태의 영상 및 음성으로 출력할 수 있다.

이하에서는, 전술한 디스플레이 장치(100)의 세부 구성에 대해서 보다 상세히 설명하도록 한다.

도 6은 본 발명의 일 실시예에 따른 디스플레이 장치의 세부 구성을 설명하기 위한 블록도이다.

도 6에 도시된 바와 같이, 디스플레이 장치(100)는 도 5에 도시된 구성요소 외에 입력부(170), 수신부(180) 및, 신호 처리부(190)를 더 포함할 수 있다. 도 6에 도시된 구성요소들 중 도 5에 도시된 구성요소와 중복되는 구성요소들은 그 기능이 동일하므로 자세한 설명은 생략하도록 한다.

입력부(170)는 다양한 사용자 조작을 입력받아 제어부(130)로 전달하기 위한 입력 수단으로써, 입력 패널로 구현될 수 있다. 여기서, 입력 패널은 터치패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen) 방식으로 이루어질 수 있다. 뿐만 아니라, 입력부(170)는 디스플레이 장치(100)를 제어하기 위한 리모컨에서 전송되는 리모컨 신호를 수신하기 위한 IR 수신부(미도시)로 구현될 수도 있다.

이 같은 입력부(170)는 디스플레이 장치(100)의 제품 종류에 따라, 디스플레이 장치(100)의 기능을 제어하기 위한 각종 사용자 조작을 입력받을 수 있다. 예를 들어, 디스플레이 장치(100)가 스마트 TV로 구현되는 경우, 입력부(170)는 전원 온/오프, 채널 변경, 볼륨 변경 등 스마트 TV의 기능을 제어하기 위한 사용자 조작을 입력받을 수 있다. 이 같은 사용자 조작이 입력부(170)를 통해 입력되면, 제어부(130)는 입력부(170)를 통해 입력된 사용자 조작에 대응되는 각종 기능을 실행하도록 다른 구성요소를 제어할 수 있다. 예를 들어, 제어부(130)는 전원 오프 명령이 입력되면, 디스플레이 장치(100)의 각 구성요소에 공급되는 전원을 차단할 수 있으며, 채널 변경이 입력되면 사용자 조작에 따라 선택된 채널을 선국하도록 수신부(180)를 제어할 수 있다.

뿐만 아니라, 입력부(170)는 사용자의 음성을 수집하기 위한 음성 인식 모드를 개시하기 위한 사용자 명령을 입력받는다. 이 같은 음성 인식 모드를 개시하기 위한 사용자 명령이 입력부(150)를 통해 입력되면, 제어부(130)는 음성 수집부(120)를 활성화하여 기설정된 거리 내에서 발화되는 사용자 음성을 수집할 수 있다.

전술한 저장부(150)는 디스플레이 장치(100)를 동작시키기 위해 필요한 각종 프로그램 등이 저장되는 저장매체로서, 메모리, HDD(Hard Disk Drive) 등으로 구현가능하다. 예를 들어, 저장부(150)는 제어부(130)의 동작 수행을 위한 프로그램을 저장하기 위한 ROM, 제어부(130)의 동작 수행에 따른 데이터를 일시적으로 저장하기 위한 RAM 등을 구비할 수 있다. 또한, 각종 참조 데이터를 저장하기 위한 EEROM(Electrically Erasable and Programmable ROM) 등을 더 구비할 수 있다.

특히, 저장부(150)는 사용자의 발화 음성에 적합한 다양한 응답 메시지를 음성 또는 텍스트 정보로 저장하고 있을 수 있다. 이에 따라, 제어부(130)는 사용자의 발화 음성에 적합한 응답 메시지에 대한 음성 정보 또는 텍스트 정보를 저장부(150)로부터 독출하여 디스플레이부(141) 및 오디오 출력부(143) 중 적어도 하나를 통해 출력할 수 있다. 구체적으로, 사용자의 발화 음성에 적합한 응답 메시지를 음성 형태로 출력할 경우, 제어부(130)는 저장부(150)로부터 독출된 음성 정보를 디코딩 등의 신호 처리를 수행하고, 디코딩된 음성 데이터를 증폭하여 오디오 출력부(143)를 통해 출력할 수 있다. 또한, 사용자의 발화 음성에 적합한 응답 메시지를 텍스트 형태의 영상으로 출력할 경우, 제어부(130)는 저장부(150)로부터 독출된 텍스트 정보를 디코딩 등의 신호 처리를 수행하고, 텍스트 정보를 구성하는 텍스트가 포함되도록 UI 화면을 구성하여 디스플레이부(141)를 통해 출력할 수 있다.

그러나, 본 발명은 이에 한정되지 않으며, 제어부(130)는 제2 서버(20)로부터 수신한 응답 정보에 포함된 응답 메시지를 전술한 처리 동작을 수행하여 디스플레이부(141) 및 오디오 출력부(143) 중 적어도 하나를 통해 텍스트 관련 영상 또는 음성으로 출력할 수 있다.

수신부(180)는 방송 네트워크를 통해 방송 프로그램 관련 컨텐츠를 수신한다. 구체적으로, 수신부(180)는 방송 네트워크를 통해 방송 프로그램 관련 컨텐츠를 전송하는 방송국 또는 인터넷을 통해 컨텐츠 파일을 전송하는 웹 서버로부터 컨텐츠를 수신할 수 있다. 또한, 디스플레이 장치(100) 내에 마련되거나 디스플레이 장치(100)에 연결된 각종 기록 매체 재생 장치로부터 컨텐츠를 수신할 수도 있다. 여기서, 기록 매체 재생 장치란 CD, DVD, 하드디스크, 블루레이 디스크, 메모리 카드, USB 메모리 등과 같은 다양한 유형의 기록 매체에 저장된 컨텐츠를 재생하는 장치를 의미한다.

방송국으로부터 컨텐츠를 수신하는 경우, 수신부(180)는 튜너(미도시), 복조기(미도시), 등화기(미도시) 등과 같은 구성을 포함하는 형태로 구현될 수 있다. 한편, 웹 서버와 같은 소스 기기로부터 컨텐츠를 수신하는 경우, 수신부(180)는 네트워크 인터페이스 카드(미도시)로 구현될 수 있다. 또는, 상술한 각종 기록 매체 재생 장치로부터 컨텐츠를 수신하는 실시 예의 경우, 수신부(180)는 기록 매체 재생 장치와 연결된 인터페이스부(미도시)로 구현될 수 있다. 이와 같이, 수신부(180)는 실시 예에 따라 다양한 형태로 구현될 수 있다.

신호 처리부(190)는 수신부(180)를 통해 수신된 컨텐츠가 출력부(140)를 통해 출력될 수 있도록 컨텐츠에 대한 신호처리를 수행한다. 구체적으로, 신호 처리부(190)는 컨텐츠에 포함된 비디오 신호가 디스플레이부(141)에서 출력 가능한 형태로 출력되도록 해당 비디오 신호에 대해서 디코딩, 스케일링 및 프레임 레이트 변환 등의 신호 처리를 수행한다. 또한, 신호 처리부(180)는 컨텐츠에 포함된 오디오 신호가 오디오 출력부(143)를 통해 출력 가능한 형태로 출력되도록 해당 오디오 신호에 대해서 디코딩 등의 신호 처리를 수행한다. 이에 따라, 디스플레이부(141) 및 오디오 출력부(143)는 신호 처리부(190)에 의해 신호처리된 컨텐츠에 포함된 비디오 및 오디오 신호를 출력할 수 있다.

지금까지, 본 발명에 따른 디스플레이 장치(100)에서 대화형 서버(200)를 통해 사용자의 발화 음성에 적합한 응답 정보를 수신하여 그에 따른 동작을 수행하는 동작에 대해서 상세히 설명하였다. 이하에서는 본 발명에 따른 대화형 서버(200)에서 디스플레이 장치(100)를 통해 수신한 사용자의 발화 음성에 적합한 응답 정보를 생성하여 디스플레이 장치(100)로 전송하는 동작에 대해서 상세히 설명하도록 한다.

도 7은 본 발명의 일 실시예에 따른 대화형 서버의 블록도이다.

도 7에서 설명하는 대화형 서버는 전술한 제2 서버(20)로써, 제1 서버(10)를 통해 텍스트 정보로 변환된 사용자의 발화 음성을 디스플레이 장치(100)로부터 수신하고, 그 수신된 사용자의 발화 음성에 대한 텍스트 정보로부터 발화 요소를 추출하여 사용자의 발화 음성에 적합한 응답 정보를 디스플레이 장치(100)로 전송하는 서버이다. 이 같은 대화형 서버는 통신부(710), 추출부(720), 저장부(730) 및 제어부(740)를 포함한다.

통신부(710)는 디스플레이 장치(100)와 통신을 수행하며, 추출부(720)는 통신부(710)를 통해 디스플레이 장치(100)로부터 수신한 발화 음성으로부터 발화 요소를 추출한다. 저장부(730)는 사용자의 발화 음성별 담화 이력 정보를 기록 및 EPG 정보를 저장하고 있다. 제어부(740)는 추출부(720)를 통해 추출된 사용자의 발화 음성에 대한 발화 요소에 따라 분류된 기능에 기초하여 사용자의 발화 음성에 대응되는 응답 정보를 상이한 형태로 생성하여 디스플레이 장치(100)로 전송한다. 여기서, 발화 요소에 따라 분류되는 기능은 EPG 관련 기능 및 디스플레이 장치(100)의 동작 제어 기능 중 적어도 하나를 포함할 수 있다. 따라서, 제어부(740)는 사용자의 발화 음성으로부터 추출된 발화 요소에 따라, 사용자의 발화 음성이 EPG와 관련된 것인지 아니면 디스플레이 장치(100)의 동작을 제어하기 위한 것인지를 판단하고, 그 판단 결과에 따라 사용자의 발화 음성에 대응되는 응답 정보를 생성할 수 있다.

실시예에 따라, 사용자의 발화 음성으로부터 추출된 발화 요소가 EPG 관련 발화 요소인 경우, 제어부(740)는 저장부(730)에 기저장된 EPG 정보에 기초하여 사용자의 발화 음성에 대응하는 EPG 정보 제공이 가능한지 여부를 판단한다. 판단 결과, EPG 정보 제공이 가능하면, 제어부(740)는 EPG 정보에 기초하여 사용자의 발화 음성에 대응되는 응답 정보를 생성한다. 한편, 판단 결과, EPG 정보 제공이 불가능하면, 제어부(740)는 저장부(730)에 기정된 EPG 정보 및 웹 서치 중 적어도 하나에 기초하여 사용자의 발화 음성과 관련된 대체 응답 정보를 생성한다.

구체적으로, 추출부(720)는 사용자의 발화 음성에 대한 텍스트 정보가 수신되면, 수신한 텍스트 정보로부터 화행, 주행 및 핵심 요소를 포함하는 발화 요소를 추출할 수 있다. 여기서, 화행(Dialog Act)은 사용자의 발화 음성에 대한 발화 내적 힘(Illocutionary force)을 나타내는 레이블로써, 예를 들어, 서술(Statement), 요청(Request), 질문(Question) 등이 될 수 있다. 주행(Main Goal)은 사용자의 발화 음성으로부터 실제 사용자의 의도을 나타내는 레이블을 말하는 것으로써, TV 온/오프, 프로그램 찾기, 프로그램 시간 찾기, 프로그램 예약 등이 될 수 있다. 그리고, 핵심 요소는 장르, 프로그램명, 시간, 채널명, 배우 이름 등이 될 수 있다.

예를 들어, "○○○(방송프로그램명)이 몇 시에 시작해?"라는 사용자의 발화 음성의 경우, 화행은 "해?"라는 질문이 될 수 있으며, 주행은 "시작"라는 프로그램 시간 찾기가 될 수 있다. 그리고, 핵심 요소는 "○○○(방송프로그램명)프로그램명"라는 프로그램명이 될 수 있다.

따라서, 추출부(720)는 "○○○(방송프로그램명)이 몇 시에 시작해?"라는 사용자의 발화 음성에 대한 텍스트 정보가 수신되면, 수신된 텍스트 정보로부터 화행, 주행 및 핵심 요소를 포함하는 발화 요소를 추출할 수 있다. 이 같은 발화 요소가 추출되면, 제어부(740)는 저장부(730)에 저장된 EPG 정보를 참조하여 추출된 발화 요소가 EPG 정보와 관련된 요소들인지를 판단할 수 있다. 이 같이, 사용자의 발화 음성으로부터 추출된 발화 요소가 EPG 정보와 관련된 요소인 것으로 판단되면, 제어부(740)는 추출된 발화 요소로부터 사용자의 발화 음성에 대응되는 응답 정보를 생성하기 위한 조건을 충족하는지를 판단한다.

실시예에 따라, 제어부(740)는 사용자의 발화 음성으로부터 추출된 발화 요소에 화행, 주행 및 핵심 요소를 모두 포함할 경우, 사용자의 발화 음성에 대응되는 응답 정보를 생성하기 위한 조건을 충족하는지를 판단할 수 있다. 전술한 예에서, "○○○(방송프로그램명)이 몇 시에 시작해?"라는 사용자의 발화 음성으로부터 추출된 발화 요소는 화행, 주행 및 핵심 요소를 모두 포함한다. 이 경우, 제어부(740)는 사용자의 발화 음성에 대응되는 응답 정보를 생성하기 위한 조건을 충족하는지를 판단할 수 있다. 한편, "몇 시에 시작해?"라는 사용자의 발화 음성은 "해?"라는 화행 및 "시작"이라는 주행에 대한 발화 요소만을 포함한다. 이 경우, 제어부(740)는 사용자의 발화 음성에 대응되는 응답 정보를 생성하기 위한 조건을 모두 충족시키지 못한 것으로 판단하고, 저장부(730)에 기저장된 담화 이력 정보에 기초하여 핵심 요소에 대한 발화 요소를 문의하는 대체 응답 정보를 생성한다. 예를 들어, 제어부(740)는 "어떤 방송프로그램인가요?"라는 문의 관련 응답 정보를 생성할 수 있다.

이와 같은 일련의 동작을 통해 사용자의 발화 음성에 대응하는 응답 정보를 생성하기 위한 조건이 충족되면, 제어부(740)는 저장부(730)에 저장된 EPG 정보에 기초하여 사용자의 발화 음성으로부터 추출된 발화 요소에 따라 EPG 정보 제공이 가능한지를 판단할 수 있다. 판단 결과, 발화 요소에 따라 EPG 정보 제공이 가능하면, 제어부(740)는 EPG 정보에 기초하여 사용자의 발화 음성에 대응하는 응답 정보를 생성하고, EPG 정보 제공이 불가능하면, 제어부(740)는 사용자의 발화 음성과 관련된 대체 응답 정보를 생성할 수 있다.

예를 들어, "이번 주에 하는 ○○○(방송프로그램명)을 녹화해줘!"라는 사용자의 발화 음성인 경우, 발화 요소는 "이번 주", "○○○(방송프로그램명)", "녹화", "해줘"가 될 수 있다. 이 같은 발화 요소가 추출되면, 제어부(740)는 저장부(730)에 저장된 EPG 정보로부터 ○○○(방송프로그램명)에 대한 프로그램 정보 및 시작 시간 정보를 획득할 수 있다. 따라서, 제어부(740)는 기획득한 프로그램 정보 및 시작 시간 정보에 기초하여 ○○○(방송프로그램명)에 대한 예약 녹화 관련 제어 명령 및 저장부(730)에 기저장된 담화 이력 정보에 기초하여 생성된 응답 메시지를 포함하는 응답 정보를 생성할 수 있다.

한편, "○○○(방송프로그램명)에 나오는 주인공이 누구야?"라는 사용자의 발화 음성인 경우, 발화 요소는 "○○○(방송프로그램명)", "주인공", "누구야"가 될 수 있다. 이 같은 발화 요소가 추출되면, 제어부(740)는 저장부(730)에 저장된 EPG 정보로부터 ○○○(방송프로그램명)에 대한 주인공 정보가 있는지를 체크한다. 체크 결과, 기저장된 EPG 정보로부터 ○○○(방송프로그램명)에 대한 주인공 정보의 획득이 불가능하면, 제어부(740)는 EPG 정보 또는 웹 서치를 통해 사용자의 발화 음성과 관련된 대체 정보를 제공받을지를 문의하는 대체 응답 정보를 생성한다. 예를 들어, EPG 정보로부터 대체 정보를 제공받겠다는 사용자의 발화 음성이 입력되면, 제어부(740)는 기저장된 EPG 정보로부터 ○○○(방송프로그램명)에 대한 출연진 정보를 획득한다. 이와 같이, EPG 정보를 통해 사용자의 발화 음성과 관련된 대체 정보가 획득되면, 제어부(740)는 저장부(730)에 기저장된 담화 이력 정보에 기초하여 기획득한 대체 정보를 포함하는 대체 응답 정보를 생성할 수 있다.

한편, 제어부(740)는 사용자의 발화 음성으로부터 추출된 발화 요소가 EPG 정보와 관련된 요소인 경우, 그 추출된 발화 요소가 복수의 요청에 대한 EPG 관련 발화 요소인지를 판단한다. 판단 결과, 발화 요소가 복수의 요청에 대한 EPG 관련 발화 요소이면, 제어부(740)는 디스플레이 장치(100)에서 사용자에게 발화 음성을 재요청하기 위한 발화 음성 재요청 메시지를 생성할 수 있다.

예를 들어, "이번 주에 하는 ○○○(방송프로그램명)을 녹화해주고, △△△(방송프로그램)을 시청 예약해줘!"라는 사용자의 발화 음성인 경우, 발화 요소는 "이번 주", "○○○(방송프로그램명)", "△△△(방송프로그램)", "녹화", "시청", "해줘"가 될 수 있다. 이 같은 발화 요소가 추출되면, 제어부(740)는 추출된 발화 요소에 복수의 요청에 대한 발화 요소("○○○(방송프로그램명)", "△△△(방송프로그램)", "녹화", "시청")가 있는 것으로 판단한다. 따라서, 제어부(740)는 저장부(730)에 기저장된 담화 이력 정보에 기초하여 "하나만 요청해 주세요"라는 발화 음성 재요청 메시지를 생성할 수 있다.

한편, 사용자의 발화 음성으로부터 추출된 발화 요소가 디스플레이 장치(100)의 동작 제어와 관련된 발화 요소인 경우, 제어부(740)는 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응하는 디스플레이 장치(100)의 동작 제어가 가능한지 여부를 판단한다. 판단 결과, 디스플레이 장치(100)의 동작 제어가 가능하면, 제어부(740)는 디스플레이 장치(100)의 동작을 제어하기 위한 응답 정보를 생성할 수 있다.

실시예에 따라, 저장부(730)는 디스플레이 장치(100)의 동작을 제어할 수 있는 메뉴얼 정보를 저장할 수 있다. 여기서, 메뉴얼 정보는 사용자의 발화 음성에 따라 디스플레이 장치(100)의 동작을 제어할 수 있는 정보 및 사용자의 발화 음성을 제외한 나머지 제어 명령에 따라 디스플레이 장치(100)의 동작을 제어할 수 있는 정보를 포함한다. 따라서, 제어부(740)는 디스플레이 장치(100)의 제어와 관련된 발화 요소가 추출되면, 저장부(730)에 기저장된 메뉴얼 정보에 기초하여 사용자의 발화 음성에 따라 디스플레이 장치(100)의 동작을 제어할 수 있는지를 판단한다. 판단 결과, 사용자의 발화 음성에 따라 디스플레이 장치(100)의 동작을 제어할 수 있으면, 제어부(740)는 사용자의 발화 음성에 대응하는 동작을 수행하기 위한 제어 명령을 포함하는 응답 정보를 생성할 수 있다.

예를 들어, "MBC로 채널 변경해줘!"라는 사용자의 발화 음성인 경우, 발화 요소는 "MBC", "채널", "변경"이 될 수 있다. 이 같은 발화 요소가 추출되면, 제어부(740)는 추출된 발화 요소가 디스플레이 장치(100)의 기능 제어와 관련된 발화 요소인 것으로 판단한다. 이후, 제어부(740)는 저장부(730)에 기저장된 메뉴얼 정보를 참조하여 추출된 발화 요소에 따라 디스플레이 장치(100)의 채널 변경이 가능한지를 판단한다. 판단 결과, 사용자의 발화 음성으로 디스플레이 장치(100)의 채널 변경이 가능하면, 제어부(740)는 디스플레이 장치(100)에서 현재 설정된 채널을 MBC 채널로 전환하도록 하기 위한 제어 명령을 포함하는 응답 정보를 생성할 수 있다.

한편, 판단 결과, 사용자의 발화 음성에 따라 디스플레이 장치(100)의 동작 제어가 불가능하면, 제어부(740)는 디스플레이 장치(100)의 동작 제어 방법 및 현재 상태 알림 중 적어도 하나와 관련된 응답 정보를 생성할 수 있다.

예를 들어, "화면을 밝게 해줘!"라는 사용자의 발화 음성인 경우, 발화 요소는 "화면", "밝게", "해줘"가 추출될 수 있다. 이 같은 발화 요소가 추출되면, 제어부(740)는 디스플레이 장치(100)의 기능 제어와 관련된 발화 요소인 것으로 판단한다. 이후, 제어부(740)는 저장부(730)에 기저장된 메뉴얼 정보를 참조하여 추출된 발화 요소에 따라 디스플레이 장치(100)의 화면 조정이 가능한지를 판단한다. 판단 결과, 사용자의 발화 음성으로 디스플레이 장치(100)의 화면 조정이 불가능하면, 제어부(740)는 저장부(730)에 저장된 메뉴얼 정보를 참조하여 디스플레이 장치(100)의 화면 조정에 대한 방법의 응답 정보를 생성할 수 있다.

본 발명의 추가적인 양상에 따라, 전술한 저장부(730)는 제한된 발화 요소 관련 테이블을 저장할 수 있다. 여기서, 제한된 발화 요소 관련 테이블은 예를 들어, 금지 약물, 욕설과 같은 금지 단어 등의 발화 요소가 기록될 수 있다. 따라서, 제어부(740)는 사용자의 발화 음성으로부터 발화 요소가 추출되면, 저장부(730)에 저장된 발화 요소 관련 테이블을 참조하여 추출된 발화 요소가 제한된 발화 요소인지를 판단한다. 판단 결과, 추출된 발화 요소가 제한된 발화 요소이면, 저장부(730)에 저장된 담화 이력 정보에 기초하여 사용자의 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 생성할 수 있다.

한편, 제어부(740)는 사용자의 발화 음성으로부터 추출된 발화 요소가 사용자 연령과 관련된 발화 요소인 경우, 통신부(710)를 통해 디스플레이 장치(100)로부터 수신한 사용자 정보에 기초하여 사용자의 발화 음성에 대응되는 동작에 대한 수행 불가 메시지의 생성 여부를 결정할 수 있다. 여기서, 사용자 연령과 관련된 발화 요소는 예를 들어, 음란성, 폭력성 관련 발화 요소가 될 수 있다. 예를 들어, "성인 방송 채널로 변경해줘?"라는 사용자의 발화 음성의 경우, 발화 요소는 "성인 방송", "채널", "변경", "해줘?"가 추출될 수 있다. 이 같은 발화 요소가 추출되면, 제어부(740)는 저장부(730)에 기저장된 제한된 발화 요소 관련 테이블을 참조하여 추출된 발화 요소가 사용자 연령과 관련된 발화 요소인 것으로 판단할 수 있다. 이에 따라, 제어부(740)는 디스플레이 장치(100)로부터 수신한 사용자 정보에 기초하여 해당 사용자가 사용자 연령에 제한되는지를 체크한다.

체크 결과, 사용자가 성인 방송 채널에 대한 시청 권한이 없는 연령인 것으로 체크되면, 제어부(740)는 "서비스를 이용하실 수 없습니다."라는 수행 불가 메시지를 생성할 수 있다. 한편, 체크 결과, 사용자가 성인 방송 채널에 대한 시청 권한이 있는 연령인 것으로 체크되면, 제어부(740)는 저장부(730)에 저장된 EPG 정보에 기초하여 성인 방송 서비스를 제공하는 채널로 채널 전환하도록 하기 위한 제어 명령을 포함하는 응답 정보를 생성할 수 있다.

지금까지, 본 발명에 따른 사용자의 발화 음성에 적합한 응답 정보를 제공하는 대화형 서버의 각 구성에 대해서 상세히 설명하였다. 이하에서는, 전술한 디스플레이 장치에서 사용자의 발화 음성에 적합한 응답 정보에 기초하여 동작을 수행하는 방법에 대해서 상세히 설명하도록 한다.

도 8은 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자의 발화 음성에 적합한 응답 정보에 기초하여 동작을 수행하는 방법의 흐름도이다.

도 8에 도시된 바와 같이, 디스플레이 장치는 사용자로부터 음성 인식 모드를 개시하기 위한 사용자 명령이 입력되면, 입력된 사용자 명령에 따라 사용자의 음성을 인식할 수 있는 음성 인식 모드로 진입한다(S810). 이 같은 음성 인식 모드로 진입한 상태에서, 디스플레이 장치는 사용자로부터 발화 음성을 입력받는다(S820). 사용자의 발화 음성이 입력되면, 디스플레이 장치는 입력된 사용자의 발화 음성을 수집하고, 그 수집된 발화 음성을 디지털 신호로 변환하여 제1 서버로 전송한다(S830,S840). 여기서, 제1 서버는 디지털 신호로 변환된 사용자의 발화 음성을 텍스트 정보로 변환하는 서버가 될 수 있다. 이 같은 제1 서버로부터 사용자의 발화 음성에 대한 텍스트 정보가 수신되면, 디스플레이 장치는 수신한 사용자의 발화 음성에 대한 텍스트 정보를 제2 서버로 전송한다(S850). 여기서, 제2 서버는 사용자의 발화 음성으로부터 추출된 발화 요소에 따라 사용자의 발화 음성에 적합한 응답 정보를 생성하는 서버가 될 수 있다.

이 같은 제2 서버로부터 사용자의 발화 음성에 적합한 응답 정보가 수신되면, 디스플레이 장치는 수신한 응답 정보에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행한다(S860). 여기서, 응답 정보는 사용자의 발화 음성으로부터 추출된 발화 요소를 기초로 분류된 기능에 따라 상이한 형태로 생성되는 것이 바람직하다. 여기서, 추출된 발화 요소를 기초로 분류되는 기능은 EPG 관련 기능 및 디스플레이 장치의 동작 제어와 관련된 기능 중 적어도 하나를 포함할 수 있다. 예를 들어, 사용자의 발화 음성으로부터 추출된 발화 요소가 방송 프로그램과 관련된 발화 요소이면, EPG 관련 기능이 될 수 있으며, 디스플레이 장치의 전원 온/오프, 채널 변경, 볼륨 변경 등과 관련된 발화 요소이면, 디스플레이 장치의 동작 제어와 관련된 기능이 될 수 있다. 따라서, 디스플레이 장치는 이 같은 응답 정보가 제2 서버로부터 수신되면, 그 수신된 응답 정보에 기초하여 사용자의 발화 음성에 대응되는 응답 메시지 출력 및 기능 실행 중 적어도 하나의 동작을 수행할 수 있다.

예를 들어, 사용자로부터 "오늘 하는 ○○○(방송프로그램명) 녹화해줘"라는 발화 음성이 입력되면, 디스플레이 장치는 "오늘 하는 ○○○(방송프로그램명) 녹화해줘"라는 발화 음성을 디지털 신호로 변환하여 제1 서버로 전송한다. 이후, 제1 서버로부터 "오늘 하는 ○○○(방송프로그램명) 녹화해줘"라는 발화 음성에 대한 텍스트 정보가 수신되면, 디스플레이 장치는 "오늘 하는 ○○○(방송프로그램명) 녹화해줘"라는 발화 음성에 대한 텍스트 정보를 제2 서버로 전송한다.

이에 따라, 제2 서버는 수신한 "오늘 ○○○(방송프로그램명) 녹화해줘"라는 발화 음성에 대한 텍스트 정보로부터 "오늘", "○○○(방송프로그램명)", "녹화"라는 발화 요소를 추출하고, 추출한 발화 요소에 기초하여 EPG 관련 기능인 것으로 판단한다. 이후, 제2 서버는 ○○○(방송프로그램명)에 대한 예약 녹화에 대한 제어 명령과 "○○○(방송프로그램명)에 대한 녹화가 예약되었습니다."라는 응답 메시지를 포함하는 응답 정보를 디스플레이 장치로 전송한다.

따라서, 디스플레이 장치는 수신한 응답 정보에 포함된 제어 명령에 따라, ○○○(방송프로그램명)에 대한 예약 녹화를 설정한다. 그리고, 디스플레이 장치는 수신한 응답 정보에 포함된 응답 메시지에 기초하여 "○○○(방송프로그램명)에 대한 녹화가 예약되었습니다."라는 응답 메시지를 영상 및 음성 중 적어도 하나를 통해 출력한다. 따라서, ○○○(방송프로그램명)에 대한 녹화가 예약되었습니다."라는 응답 메시지가 음성으로 출력되거나 또는 텍스트 형태의 영상으로 출력될 수 있다.

한편, 사용자의 발화 음성으로부터 추출된 발화 요소가 디스플레이 장치의 동작 제어와 관련된 발화 요소인 경우에 대한 실시예는 도 5에서 상세히 설명하였기에 이하에서는 상세한 설명을 생략하도록 한다.

한편, 사용자의 발화 음성 내에 복수의 요청에 대한 발화 요소가 포함된 경우, 디스플레이 장치는 제2 서버로부터 사용자의 발화 음성에 대한 발화 음성 재요청 메시지를 수신하여 출력할 수 있다.

예를 들어, 제2 서버는 디스플레이 장치로부터 "이번 주에 방송하는 ○○○(방송프로그램명)을 시청 예약해주고, ○○○(방송프로그램명)을 녹화해줘"라는 발화 음성에 대한 텍스트 정보를 수신할 수 있다. 이 경우, "이번 주에 방송하는 ○○○(방송프로그램명)을 시청 예약해주고, ○○○(방송프로그램명)을 녹화해줘"라는 발화 음성에는 복수의 요청과 관련된 발화 요소("○○○(방송프로그램명)", "시청 예약"과 "○○○(방송프로그램명)", "녹화")가 포함된다.

따라서, 제2 서버는 수신한 발화 음성에 대한 텍스트 정보에 복수의 요청과 관련된 발화 요소가 포함된 것으로 판단하고, 발화 음성 재요청 메시지를 포함하는 응답 정보를 디스플레이 장치로 전송할 수 있다. 따라서, 디스플레이 장치는 제2 서버로부터 수신한 발화 음성 재요청 메시지를 영상 및 음성 중 적어도 하나를 통해 출력한다. 따라서, 사용자는 "이번 주에 방송하는 ○○○(방송프로그램명)을 시청 예약해줘" 또는 "이번 주에 방송하는 ○○○(방송프로그램명)을 녹화해줘"와 같이 하나만을 재요청할 수 있다.

한편, 사용자의 발화 음성 내에 제한된 발화 요소가 포함된 경우, 디스플레이 장치는 제2 서버로부터 수신한 응답 정보에 기초하여 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 출력할 수 있다.

예를 들어, 디스플레이 장치는 사용자로부터 욕설 혹은 금지 약물과 관련된 발화 요소를 포함하는 발화 음성에 대한 텍스트 정보를 이를 제2 서버로 전송할 수 있다. 이 경우, 제2 서버는 수신한 발화 음성에 대한 텍스트 정보로부터 발화 요소를 추출하고, 추출된 발화 요소가 기저장된 제한된 발화 요소인지를 체크한다. 체크 결과, 추출된 발화 요소가 제한된 발화 요소인 경우, 제2 서버는 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 포함하는 응답 정보를 디스플레이 장치로 전송한다. 따라서, 디스플레이 장치는 수신한 응답 정보에 따라, "발화 요청을 수행할 수 없습니다."라는 수행 불가 메시지를 영상 및 음성 중 적어도 하나를 통해 출력할 수 있다.

이 같은 디스플레이 장치는 전술한 다양한 실시예들 뿐만 아니라, 도 5을 통해 설명한 다양한 실시예들을 통해 제2 서버로부터 사용자의 발화 음성에 따라 상이한 형태로 생성된 응답 정보를 수신할 수 있으며, 그 수신한 응답 정보에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행할 수 있다.

지금까지, 본 발명에 따른 디스플레이 장치에서 사용자의 발화 음성에 적합한 응답 정보에 기초하여 동작을 수행하는 방법에 대해서 상세히 설명하였다. 이하에서는 본 발명에 따른 대화형 서버에서 사용자의 발화 음성에 적합한 응답 정보를 생성하여 디스플레이 장치에 제공하는 방법에 대해서 상세히 설명하도록 한다.

도 9는 본 발명의 일 실시예에 따른 대화형 서버에서 사용자의 발화 음성에 적합한 응답 정보를 디스플레이 장치에 제공하는 방법의 흐름도이다.

도 9에 도시된 바와 같이, 대화형 서버는 디스플레이 장치로부터 사용자의 발화 음성을 수신한다(S910). 여기서, 대화형 서버는 전술한 제2 서버로써, 제1 서버를 통해 텍스트 정보로 변환된 사용자의 발화 음성을 디스플레이 장치로부터 수신할 수 있다. 이 같은 발화 음성이 수신되면, 대화형 서버는 수신한 발화 음성으로부터 발화 요소를 추출한다(S920).

여기서, 발화 요소는 화행, 주행 및 핵심 요소를 포함하며, 화행(Dialog Act)은 사용자의 발화 음성에 대한 발화 내적 힘(Illocutionary force)을 나타내는 레이블로써, 예를 들어, 서술(Statement), 요청(Request), 질문(Question) 등이 될 수 있다. 주행(Main Goal)은 사용자의 발화 음성으로부터 실제 사용자의 의도을 나타내는 레이블을 말하는 것으로써, TV 온/오프, 프로그램 찾기, 프로그램 시간 찾기, 프로그램 예약 등이 될 수 있다. 그리고, 핵심 요소는 장르, 프로그램명, 시간, 채널명, 배우 이름 등이 될 수 있다.

예를 들어, "○○○(방송프로그램명)이 몇 시에 시작해?"라는 사용자의 발화 음성의 경우, 화행은 "해?"라는 질문이 될 수 있으며, 주행은 "시작"라는 프로그램 시간 찾기가 될 수 있다. 그리고, 핵심 요소는 "○○○(방송프로그램명)프로그램명"라는 프로그램명이 될 수 있다. 따라서, 대화형 서버는 "○○○(방송프로그램명)이 몇 시에 시작해?"라는 사용자의 발화 음성에 대한 텍스트 정보가 수신되면, 수신된 텍스트 정보로부터 화행, 주행 및 핵심 요소를 포함하는 발화 요소를 추출할 수 있다.

이 같은 발화 요소가 추출되면, 대화형 서버는 추출된 발화 요소가 기저장된 제한된 발화 요소 관련 테이블에 기록 저장되어 있는지를 체크하여 추출된 발화 요소가 제한된 발화 요소인지를 체크한다(S930). 체크 결과, 발화 요소가 제한된 발화 요소이면, 대화형 서버는 수행 불가 메시지를 생성하여 디스플레이 장치로 전송한다(S940).

예를 들어, 사용자의 발화 음성은 욕설 혹은 금지 약물과 관련된 발화 음성일 수 있다. 이 같은 발화 음성으로부터 욕설 혹은 금지 약물과 관련된 발화 요소가 추출되면, 대화형 서버는 기저장된 제한된 발화 요소 관련 테이블을 참조하여 추출된 발화 요소가 발화 요소 관련 테이블에 기록 저장되어 있는지를 체크한다. 체크 결과, 추출된 발화 요소가 기저장된 발화 요소 관련 테이블에 기록 저장되어 있으면, 대화형 서버는 사용자의 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 생성할 수 있다.

또다른 예를 들어, 사용자의 발화 음성이 사용자 연령 제한과 관련된 발화 음성일 수 있다. 예를 들어, "성인 방송 채널로 변경해줘?"라는 사용자의 발화 음성의 경우, 발화 요소는 "성인 방송", "채널", "변경", "해줘?"가 추출될 수 있다. 이 같은 발화 요소가 추출되면, 대화형 서버는 저장부에 기저장된 제한된 발화 요소 관련 테이블을 참조하여 추출된 발화 요소가 사용자 연령과 관련된 발화 요소인 것을 판단한다. 이에 다라, 대화형 서버는 디스플레이 장치로부터 수신한 사용자 정보에 기초하여 해당 사용자가 사용자 연령에 제한되는지를 체크한다. 체크 결과, 해당 사용자가 성인 방송 채널에 대한 시청 권한이 없는 연령인 것을 체크되면, 대화형 서버는 "서비스를 이용하실 수 없습니다."라는 수행 불가 메시지를 생성할 수 있다.

한편, 단계 S930을 통해 사용자의 발화 음성으로부터 추출된 발화 요소가 제한된 발화 요소가 아니거나 혹은 서비스 이용 가능한 연령인 것으로 체크되면, 대화형 서버는 추출된 발화 요소가 EPG 관련 발화 요소인지를 체크한다(S950). 체크 결과, EPG 관련 발화 요소이면, 대화형 서버는 기저장된 EPG 정보에 기초하여 사용자의 발화 음성에 대응하는 응답 정보를 생성하여 디스플레이 장치로 전송한다(S960). 이와 같이, 사용자의 발화 음성으로부터 추출된 발화 요소가 EPG 관련 발화 요소인 경우, 대화형 서버는 다음과 같은 단계를 통해 사용자의 발화 음성에 대응하는 응답 정보를 생성할 수 있다.

도 10은 본 발명의 일 실시예에 따른 대화형 서버에서 사용자의 발화 음성이 EPG 관련 발화 요소인 경우, 사용자의 발화 음성에 대응하는 응답 정보를 생성하는 방법의 흐름도이다.

도 10에 도시된 바와 같이, 사용자의 발화 음성으로부터 발화 요소가 추출되면, 대화형 서버는 추출된 발화 요소가 복수의 요청에 대한 EPG 관련 발화 요소를 포함하는지를 체크한다(S1010). 체크 결과, 추출된 발화 요소가 복수의 요청에 대한 EPG 관련 발화 요소이면, 대화형 서버는 발화 음성 재요청 메시지를 생성한다(S1020).

예를 들어, "이번 주에 하는 ○○○(방송프로그램명)을 녹화해주고, △△△(방송프로그램)을 시청 예약해줘!"라는 사용자의 발화 음성인 경우, 발화 요소는 "이번 주", "○○○(방송프로그램명)", "△△△(방송프로그램)", "녹화", "시청", "해줘"가 될 수 있다. 이 같은 발화 요소가 추출되면, 대화형 서버는 추출된 발화 요소에 복수의 요청에 대한 발화 요소("○○○(방송프로그램명)", "△△△(방송프로그램)", "녹화", "시청")가 있는 것으로 판단한다. 따라서, 대화형 서버는 저장부(730)에 기저장된 담화 이력 정보에 기초하여 "하나만 요청해 주세요"라는 발화 음성 재요청 메시지를 생성할 수 있다.

한편, 사용자의 발화 음성으로부터 추출된 발화 요소가 복수의 요청에 대한 EPG 관련 발화 요소를 포함을 포함하지 않으면, 대화형 서버는 사용자의 발화 음성으로부터 추출된 발화 요소로부터 사용자의 발화 음성에 대응되는 응답 정보를 생성하기 위한 조건을 충족하는지를 체크한다(S1030). 실시예에 따라, 대화형 서버는 사용자의 발화 음성으로부터 추출된 발화 요소에 화행, 주행 및 핵심 요소를 모두 포함할 경우, 사용자의 발화 음성에 대응되는 응답 정보를 생성하기 위한 조건을 충족하는지를 판단할 수 있다. 예를 들어, "○○○(방송프로그램명)이 몇 시에 시작해?"라는 사용자의 발화 음성으로부터 추출된 발화 요소는 화행, 주행 및 핵심 요소를 모두 포함한다. 이 경우, 대화형 서버는 사용자의 발화 음성에 대응되는 응답 정보를 생성하기 위한 조건을 충족하는 것으로 판단할 수 있다.

한편, 체크 결과, 사용자의 발화 음성에 대응되는 응답 정보를 생성하기 위한 조건을 충족하지 못하는 것으로 체크되면, 대화형 서버는 전술한 단계S1020을 통해 발화 음성 재요청 메시지를 생성할 수 있다. 예를 들어, "몇 시에 시작해?"라는 사용자의 발화 음성은 "해?"라는 화행 및 "시작"이라는 주행에 대한 발화 요소만을 포함한다. 이 경우, 대화형 서버는 사용자의 발화 음성에 대응되는 응답 정보를 생성하기 위한 조건을 모두 충족시키지 못한 것으로 판단한다. 따라서, 대화형 서버는 저장부에 기저장된 담화 이력 정보에 기초하여 핵심 요소에 대한 발화 요소를 문의하는 응답 정보를 생성한다.

한편, 단계 S1030을 통해 사용자의 발화 음성에 대응되는 응답 정보를 생성하기 위한 조건을 충족하는 것으로 체크되면, 대화형 서버는 기저장된 EPG 정보에 기초하여 사용자의 발화 음성에 대응되는 응답 정보를 제공할 수 있는지 여부를 체크한다(S1040). 체크 결과, EPG 정보에 기초하여 사용자의 발화 음성에 대응되는 응답 정보 제공이 가능하면, 대화형 서버는 EPG 정보에 기초하여 사용자의 발화 음성에 대응되는 응답 정보를 생성한다(S1050). 한편, 체크 결과, EPG 정보에 기초하여 사용자의 발화 음성에 대응되는 응답 정보 제공이 불가능하면, 대화형 서버는 기저장된 EPG 정보 및 웹 서치 중 적어도 하나에 기초하여 발화 음성과 관련된 대체 응답 정보를 생성한다(S1060).

예를 들어, "이번 주에 하는 ○○○(방송프로그램명)을 녹화해줘!"라는 사용자의 발화 음성인 경우, 발화 요소는 "이번 주", "○○○(방송프로그램명)", "녹화", "해줘"가 될 수 있다. 이 같은 발화 요소가 추출되면, 대화형 서버는 기저장된 EPG 정보로부터 ○○○(방송프로그램명)에 대한 프로그램 정보 및 시작 시간 정보를 획득할 수 있다. 따라서, 대화형 서버는 기획득한 프로그램 정보 및 시작 시간 정보에 기초하여 ○○○(방송프로그램명)에 대한 예약 녹화 관련 제어 명령 및 기저장된 담화 이력 정보에 기초하여 생성된 응답 메시지를 포함하는 응답 정보를 생성할 수 있다.

한편, "○○○(방송프로그램명)에 나오는 주인공이 누구야?"라는 사용자의 발화 음성인 경우, 발화 요소는 "○○○(방송프로그램명)", "주인공", "누구야"가 될 수 있다. 이 같은 발화 요소가 추출되면, 대화형 서버는 기저장된 EPG 정보로부터 ○○○(방송프로그램명)에 대한 주인공 정보가 있는지를 체크한다. 체크 결과, 기저장된 EPG 정보로부터 ○○○(방송프로그램명)에 대한 주인공 정보의 획득이 불가능하면, 대화형 서버는 EPG 정보 또는 웹 서치를 통해 사용자의 발화 음성과 관련된 대체 정보를 제공받을지를 문의하는 대체 응답 정보를 생성한다. 만약, EPG 정보로부터 대체 정보를 제공받겠다는 사용자의 발화 음성이 입력되면, 대화형 서버는 기저장된 EPG 정보로부터 ○○○(방송프로그램명)에 대한 출연진 정보를 획득한다. 이와 같이, EPG 정보를 통해 사용자의 발화 음성과 관련된 대체 정보가 획득되면, 대화형 서버는 기저장된 담화 이력 정보에 기초하여 기획득한 대체 정보를 포함하는 대체 응답 정보를 생성할 수 있다.

한편, 단계 S950에서 사용자의 발화 음성으로부터 추출된 발화 요소가 디스플레이 장치 제어와 관련된 발화 요소이면, 대화형 서버는 추출한 발화 요소에 기초하여 사용자의 발화 음성에 대응하는 디스플레이 장치의 동작 제어가 가능한지를 체크한다(S970). 체크 결과, 디스플레이 장치의 동작 제어가 가능하면, 대화형 서버는 디스플레이 장치의 동작을 제어하기 위한 응답 정보를 생성하여 디스플레이 장치로 전송한다(S980).

실시예에 따라, 대화형 서버는 디스플레이 장치의 동작을 제어할 수 있는 메뉴얼 정보를 기저장할 수 있다. 여기서, 메뉴얼 정보는 사용자의 발화 음성에 따라 디스플레이 장치의 동작을 제어할 수 있는 정보 및 사용자의 발화 음성을 제외한 나머지 제어 명령에 따라 디스플레이 장치의 동작을 제어할 수 있는 정보를 포함한다. 따라서, 대화형 서버는 디스플레이 장치의 제어와 관련된 발화 요소가 추출되면 기저장된 메뉴얼 정보에 기초하여 사용자의 발화 음성에 따라 디스플레이 장치의 동작을 제어할 수 있는지를 체크한다. 체크 결과, 사용자의 발화 음성에 따라 디스플레이 장치의 동작을 제어할 수 있으면, 대화형 서버는 사용자의 발화 음성에 대응하는 동작을 수행하기 위한 제어 명령을 포함하는 응답 정보를 생성할 수 있다.

예를 들어, "MBC로 채널 변경해줘!"라는 사용자의 발화 음성인 경우, 발화 요소는 "MBC", "채널", "변경"이 될 수 있다. 이 같은 발화 요소가 추출되면, 대화형 서버는 추출된 발화 요소가 디스플레이 장치의 기능 제어와 관련된 발화 요소인 것으로 판단한다. 이후, 대화형 서버는 기저장된 메뉴얼 정보를 참조하여 추출된 발화 요소에 따라 디스플레이 장치의 채널 변경이 가능한지를 판단한다. 판단 결과, 사용자의 발화 음성으로 디스플레이 장치의 채널 변경이 가능하면, 대화형 서버는 디스플레이 장치에서 현재 설정된 채널을 MBC 채널로 전환하도록 하기 위한 제어 명령을 포함하는 응답 정보를 생성할 수 있다.

한편, 체크 결과, 디스플레이 장치의 동작 제어가 불가능하면, 대화형 서버는 사용자의 발화 음성과 관련된 대체 응답 정보를 생성하여 디스플레이 장치로 전송한다(S990). 여기서, 대체 응답 정보는 디스플레이 장치의 동작 제어와 관련된 방법 및 디스플레이 장치의 현재 상태를 알리는 현재 상태 알림 중 적어도 하나와 관련된 응답 정보가 될 수 있다.

예를 들어, "화면을 밝게 해줘!"라는 사용자의 발화 음성인 경우, 발화 요소는 "화면", "밝게", "해줘"가 추출될 수 있다. 이 같은 발화 요소가 추출되면, 대화형 서버는 디스플레이 장치의 기능 제어와 관련된 발화 요소인 것으로 판단한다. 이후, 대화형 서버는 기저장된 메뉴얼 정보를 참조하여 추출된 발화 요소에 따라 디스플레이 장치의 화면 조정이 가능한지를 판단한다. 판단 결과, 사용자의 발화 음성으로 디스플레이 장치의 화면 조정이 불가능하면, 대화형 서버는 기저장된 메뉴얼 정보를 참조하여 디스플레이 장치의 화면 조정에 대한 방법의 응답 정보를 생성할 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

10 : 제1 서버 20 : 제2 서버
100 : 디스플레이 장치 110,710 : 통신부
120 : 음성 수집부 130,740 : 제어부
140 : 출력부 141 : 디스플레이부
143 : 오디오 출력부 150,730 : 저장부
160 : 촬영부 170 : 입력부
180 : 수신부 190 : 신호 처리부
200 : 대화형 서버 720 : 추출부

Claims

사용자의 발화 음성을 수집하기 위한 음성 수집부;
대화형 서버와 통신을 수행하는 통신부; 및
상기 대화형 서버로 전송된 상기 발화 음성에 대응되는 응답 정보가 상기 대화형 서버로부터 수신되면, 상기 응답 정보에 기초하여 상기 사용자의 발화 음성에 대응되는 동작을 수행하도록 제어하는 제어부;를 포함하며,
상기 응답 정보는,
상기 발화 음성으로부터 추출된 발화 요소를 기초로 분류된 기능에 따라 상이한 형태로 생성되는 디스플레이 장치.
제 1 항에 있어서,
상기 기능은,
EPG 관련 기능 및 상기 디스플레이 장치의 동작 제어 기능 중 적어도 하나를 포함하는 것을 특징으로 하는 디스플레이 장치.
제 2 항에 있어서,
출력부;를 더 포함하며,
상기 제어부는,
상기 발화 음성 내에 EPG 관련 발화 요소 또는 상기 디스플레이 장치의 동작 제어 관련 발화 요소가 포함된 경우, 상기 대화형 서버로부터 수신한 응답 정보에 기초하여 상기 발화 음성에 대응되는 응답 메시지 출력 및 기능 실행 중 적어도 하나의 동작을 수행하는 것을 특징으로 하는 디스플레이 장치.
제 3 항에 있어서,
상기 제어부는,
상기 발화 음성 내에 복수의 요청에 대한 EPG 관련 발화 요소가 포함된 경우, 상기 대화형 서버로부터 수신한 응답 정보에 기초하여 발화 음성 재요청 메시지를 출력하는 것을 특징으로 하는 디스플레이 장치.
제 1 항에 있어서,
출력부;를 더 포함하며,
상기 제어부는,
상기 발화 음성 내에 제한된 발화 요소가 포함된 경우, 상기 대화형 서버로부터 수신한 응답 정보에 기초하여 상기 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 출력하도록 제어하는 것을 특징으로 하는 디스플레이 장치.
제 5 항에 있어서,
사용자 얼굴 이미지 및 사용자 정보를 매칭시켜 저장하는 저장부; 및
사용자 얼굴을 촬영하는 촬영부;를 더 포함하며,
상기 제어부는,
상기 촬영부에서 생성된 얼굴 이미지에 매칭되는 사용자 정보 및 상기 발화 음성을 상기 대화형 서버로 전송하며, 상기 제한된 발화 요소가 사용자 연령과 관련된 경우 상기 사용자 정보에 기초하여 생성된 상기 응답 정보에 따라 상기 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 출력하도록 제어하는 것을 특징으로 하는 디스플레이 장치.
제 1 항에 있어서,
상기 대화형 서버는,
상기 수집된 발화 음성을 텍스트 정보로 변환하는 제1 서버 및 상기 텍스트 정보로 변환된 발화 음성에 대응되는 응답 정보를 생성하는 제2 서버를 포함하며,
상기 제어부는,
상기 수집된 발화 음성을 디지털 신호로 변환하여 상기 제1 서버로 전송하고, 상기 제1 서버로부터 상기 발화 음성에 대한 텍스트 정보가 수신되면, 상기 텍스트 정보를 상기 제2 서버로 전송하여 상기 발화 음성에 대응되는 응답 정보를 수신하는 것을 특징으로 하는 디스플레이 장치.
디스플레이 장치와 통신을 수행하는 통신부;
상기 디스플레이 장치로부터 수신한 발화 음성으로부터 발화 요소를 추출하는 추출부; 및
상기 추출된 발화 요소에 따라 분류된 기능에 기초하여 상기 발화 음성에 대응되는 응답 정보를 상이한 형태로 생성하여 상기 디스플레이 장치로 전송하는 제어부;
를 포함하는 대화형 서버.
제 8 항에 있어서,
상기 기능은,
EPG 관련 기능 및 상기 디스플레이 장치의 동작 제어 기능 중 적어도 하나를 포함하는 것을 특징으로 하는 대화형 서버.
제 9 항에 있어서,
EPG 정보를 저장하는 저장부;를 더 포함하며,
상기 제어부는,
상기 추출된 발화 요소가 EPG 관련 발화 요소인 경우, 상기 저장부에 저장된 EPG 정보에 기초하여 상기 발화 음성에 대응하는 EPG 정보 제공이 가능한지 여부를 판단하고,
상기 EPG 정보 제공이 가능하면 상기 EPG 정보에 기초하여 상기 발화 음성과 대응되는 응답 정보를 생성하고, 상기 EPG 정보 제공이 불가능하면 상기 EPG 정보 및 웹 서치 중 적어도 하나에 기초하여 상기 발화 음성과 관련된 대체 응답 정보를 생성하는 것을 특징으로 하는 대화형 서버.
제 10 항에 있어서,
상기 제어부는,
상기 발화 음성 내에 복수의 요청에 대한 EPG 관련 발화 요소가 포함된 경우, 상기 디스플레이 장치에서 사용자에게 발화 음성을 재요청하기 위한 발화 음성 재요청 메시지를 생성하는 것을 특징으로 하는 대화형 서버.
제 9 항에 있어서,
상기 제어부는,
상기 추출된 발화 요소가 상기 디스플레이 장치의 동작 제어 관련 발화 요소인 경우, 상기 발화 요소에 기초하여 상기 발화 음성에 대응하는 상기 디스플레이 장치의 동작 제어가 가능한지 여부를 판단하고,
상기 디스플레이 장치의 동작 제어가 가능하면 상기 디스플레이 장치의 동작을 제어하기 위한 응답 정보를 생성하고, 상기 디스플레이 장치의 동작 제어가 불가능하면 상기 디스플레이 장치의 동작 제어 방법 및 현재 상태 알림 중 적어도 하나와 관련된 응답 정보를 생성하는 것을 특징으로 하는 대화형 서버.
제 8 항에 있어서,
제한된 발화 요소 관련 테이블을 저장하는 저장부;를 더 포함하며,
상기 제어부는,
상기 추출된 발화 요소에 상기 제한된 발화 요소가 포함되어 있는 경우, 상기 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 생성하는 것을 특징으로 하는 대화형 서버.
제 13 항에 있어서,
상기 통신부는,
상기 디스플레이 장치로부터 사용자 정보를 더 수신하며,
상기 제어부는,
상기 추출된 발화 요소가 사용자 연령과 관련된 경우, 상기 수신된 사용자 정보에 기초하여 상기 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 생성 여부를 결정하는 것을 특징으로 하는 대화형 서버.
디스플레이 장치와 연동하는 대화형 서버에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 방법에 있어서,
상기 디스플레이 장치로부터 상기 사용자의 발화 음성을 수신하는 단계;
상기 수신한 발화 음성으로부터 발화 요소를 추출하는 단계;
상기 추출된 발화 요소에 따라 분류된 기능에 기초하여 상기 발화 음성에 대응되는 응답 정보를 상이한 형태로 생성하는 단계; 및
상기 생성된 응답 정보를 상기 디스플레이 장치로 전송하는 단계;
를 포함하는 응답 정보 제공 방법.
제 15 항에 있어서,
상기 기능은,
EPG 관련 기능 및 상기 디스플레이 장치의 동작 제어 기능 중 적어도 하나를 포함하며,
상기 생성하는 단계는,
상기 추출된 발화 요소가 EPG 관련 발화 요소인지 체크하는 단계;
상기 체크 결과 상기 EPG 관련 발화 요소이면, 기저장된 EPG 정보에 기초하여 상기 발화 음성에 대응하는 EPG 정보 제공이 가능한지 체크하는 단계; 및
상기 체크 결과 상기 EPG 정보 제공이 가능하면, 상기 EPG 정보에 기초하여 상기 발화 요소와 대응되는 응답 정보를 생성하고, 상기 EPG 정보 제공이 불가능하면, 상기 EPG 정보 및 웹 서치 중 적어도 하나에 기초하여 상기 발화 음성과 관련된 대체 응답 정보를 생성하는 단계;
를 포함하는 것을 특징으로 하는 응답 정보 제공 방법.
제 16 항에 있어서,
상기 생성하는 단계는,
상기 체크 결과 상기 EPG 관련 발화 요소이면, 상기 발화 음성 내에 복수의 요청에 대한 EPG 관련 발화 요소가 포함되는지를 체크하는 단계; 및
상기 체크 결과 상기 발화 음성 내에 복수의 요청에 대한 EPG 관련 발화 요소가 포함되면, 상기 디스플레이 장치에서 사용자에게 발화 음성을 재요청하기 위한 발화 음성 재요청 메시지를 생성하는 단계;
를 더 포함하는 것을 특징으로 하는 응답 정보 제공 방법.
제 16 항에 있어서,
상기 생성하는 단계는,
상기 체크 결과, 상기 추출된 발화 요소가 상기 디스플레이 장치의 동작 제어 관련 발화 요소인 경우, 상기 발화 요소에 기초하여 상기 발화 음성에 대응하는 상기 디스플레이 장치의 동작 제어가 가능한지 체크하는 단계; 및
상기 체크 결과, 상기 디스플레이 장치의 동작 제어가 가능하면, 상기 디스플레이 장치의 동작을 제어하기 위한 응답 정보를 생성하고, 상기 디스플레이 장치의 동작 제어가 불가능하면, 상기 디스플레이 장치의 동작 제어 방법 및 현재 상태 알림 중 적어도 하나와 관련된 응답 정보를 생성하는 단계;
를 더 포함하는 것을 특징으로 하는 응답 정보 제공 방법.
제 15 항에 있어서,
기저장된 제한된 발화 요소 관련 테이블을 참조하여 상기 추출된 발화 요소에 상기 제한된 발화 요소가 포함되어 있는지를 체크하는 단계; 및
상기 체크 결과, 상기 추출된 발화 요소에 상기 제한된 발화 요소가 포함되면, 상기 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 생성하는 단계;
를 더 포함하는 것을 특징으로 하는 응답 정보 제공 방법
제 19 항에 있어서,
상기 수신하는 단계는,
상기 디스플레이 장치로부터 사용자 정보를 더 수신하며,
상기 체크 결과, 상기 제한된 발화 요소가 포함되지 않은 것을 판단되면, 상기 추출된 발화 요소가 사용자 연령과 관련되는지를 체크하는 단계;
상기 체크 결과, 상기 추출된 발화 요소가 사용자 연경과 관련되면, 상기 수신된 사용자 정보에 기초하여 상기 발화 음성에 대응되는 동작에 대한 수행 불가 메시지를 생성하는 단계;
를 더 포함하는 것을 특징으로 하는 응답 정보 제공 방법.