KR102009316B1

KR102009316B1 - 대화형 서버, 디스플레이 장치 및 그 제어 방법

Info

Publication number: KR102009316B1
Application number: KR1020130001755A
Authority: KR
Inventors: 정지혜; 김명재; 신용욱; 이보라; 이진식; 이청재
Original assignee: 삼성전자주식회사
Priority date: 2013-01-07
Filing date: 2013-01-07
Publication date: 2019-08-09
Also published as: AU2014200033A1; US20200260127A1; US20140195248A1; JP6802305B2; EP3386205A1; JP2019133165A; CN109600636A; KR20140089836A; CN103916688A; JP2014132342A; EP2753093A1

Abstract

대화형 서버, 디스플레이 장치 및 그 제어 방법이 개시된다. 본 발명에 따른 대화형 서버는 디스플레이 장치와 통신을 수행하여, 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성 신호를 수신하는 통신부, 복수의 지시자 및 복수의 명령어를 저장하는 저장부, 제1 발화 요소에 대응되는 지시자 및 제2 발화 요소에 대응되는 명령어를 저장부로부터 추출하는 추출부 및, 추출된 지시자 및 명령어를 조합하여 발화 음성 신호에 대응되는 응답 정보를 생성하여 디스플레이 장치로 전송하는 제어부를 포함하며, 제1 발화 요소는 디스플레이 장치의 화면상에 표시된 객체의 표시 상태에 기초하여 결정된 발화 요소이다. 이에 따라, 대화형 서버는 다양한 사용자의 발화 음성에 대해서 사용자의 의도를 파악하고, 그에 따른 응답 정보를 생성하여 디스플레이 장치로 제공할 수 있다.

Description

대화형 서버, 디스플레이 장치 및 그 제어 방법{Interactive server, display apparatus and controlling method thereof}

본 발명은 대화형 서버, 디스플레이 장치 및 제어 방법에 관한 것으로써, 보다 상세하게는 사용자 발화에 대응되는 응답 정보를 제공하기 위한 대화형 서버, 디스플레이 장치 및 제어 방법에 관한 것이다.

일반적으로, 대화형 시스템에서 음성 인식이 가능한 디스플레이 장치는 사용자의 발화 음성을 수집하고, 그 수집한 발화 음성을 네트워크를 통해 연결된 외부 서버로 전송한다. 발화 음성을 수신한 외부 서버는 발화 음성을 분석하여 사용자의 의도를 파악하고, 그에 따른 응답 정보를 생성하여 디스플레이 장치로 전송한다. 이에 따라, 디스플레이 장치는 외부 서버로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성에 대응하는 기능을 실행하거나 정보를 제공할 수 있다.

그러나, 이 같은 종래의 대화형 시스템은 사용자의 발화 음성을 분석하고, 그 분석 결과에 기초하여 사용자의 의도를 파악하는데 한계가 있다. 예를 들어, "제1 컨텐츠 보여줘"와 같이 지칭하는 대상이 명확한 발화 음성의 경우, 외부 서버는 이 같은 발화 음성을 분석하여 사용자의 의도를 올바르게 파악하고, 그에 따른 응답 정보를 생성하여 디스플레이 장치로 전송할 수 있다. 따라서, 디스플레이 장치는 응답 정보에 기초하여 사용자가 요청한 제1 컨텐츠를 디스플레이할 수 있다.

그러나, "이거 보여줘"와 같이 지칭하는 대상이 불명확한 발화 음성의 경우, 외부 서버는 이 같은 발화 음성으로부터 사용자의 의도를 명확하게 파악하지 못하는 문제가 있다. 다시 말해, 종래의 대화형 시스템은 기정의된 발화 음성에 대해서만 사용자의 의도를 파악하고 그에 따른 동작을 수행하거나 정보를 제공하기 때문에 사용자의 발화에 제약이 따르는 문제가 있다.

본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 대화형 시스템에서 다양한 사용자의 발화에 대응되는 동작을 수행하도록 함을 목적으로 한다.

이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 대화형 서버는 디스플레이 장치와 통신을 수행하여, 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성 신호를 수신하는 통신부, 복수의 지시자 및 복수의 명령어를 저장하는 저장부, 상기 제1 발화 요소에 대응되는 지시자 및 상기 제2 발화 요소에 대응되는 명령어를 상기 저장부로부터 추출하는 추출부 및, 상기 추출된 지시자 및 명령어를 조합하여 상기 발화 음성 신호에 대응되는 응답 정보를 생성하여 상기 디스플레이 장치로 전송하는 제어부를 포함하며, 상기 제1 발화 요소는 상기 디스플레이 장치의 화면상에 표시된 객체의 표시 상태에 기초하여 결정된 발화 요소이다.

그리고, 상기 제1 발화 요소는, 대명사, 서수, 방향 중 적어도 하나를 포함할 수 있다.

또한, 상기 추출부는, 상기 제1 발화 요소에 요청 정보가 있는지 여부를 판단하여, 상기 요청 정보가 있으면, 상기 요청 정보에 대응되는 명령어를 저장부로부터 추출하고, 상기 제어부는, 상기 추출된 명령어에 기초하여 상기 요청 정보에 대응되는 컨텐츠 정보를 상기 응답 정보에 추가할 수 있다.

그리고, 상기 지시자는, 상기 디스플레이 장치의 화면상에 표시된 상기 객체들 중에서 상기 대상을 상대적으로 지칭하기 위한 실행어일 수 있다.

또한, 상기 지시자는, 상기 디스플레이 장치의 화면상에 표시된 상기 객체들의 고유 식별 정보이며, 상기 추출부는, 상기 디스플레이 장치의 대화 이력에 기초하여 상기 제1 발화 요소가 지칭하는 대상을 판단하고, 판단된 상기 대상에 대응되는 고유 식별 정보를 상기 지시자로 추출할 수 있다.

그리고, 상기 수신된 발화 음성 신호를 텍스트 정보로 변환하는 음성 처리부를 더 포함할 수 있다.

한편, 본 발명의 일 실시 예에 따르면, 디스플레이 장치에 있어서, 디스플레이 장치는 사용자의 발화 음성을 입력받는 입력부, 상기 발화 음성에 대한 발화 음성 신호를 서버 장치로 전송하는 통신부, 화면을 디스플레이하는 디스플레이부, 상기 서버 장치로부터, 지시자 및 명령어를 포함하는 응답 정보가 수신되면, 상기 디스플레이부의 화면상에 표시된 객체들의 표시 상태에 기초하여 상기 지시자가 지칭하는 대상을 선택하고, 상기 선택된 대상에 대해 상기 명령어에 대응되는 동작을 수행하는 제어부를 포함한다.

그리고, 상기 발화 음성 신호는, 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하며, 상기 제1 발화 요소는 상기 디스플레이 장치의 화면 표시 상태에 기초하여 결정된 발화 요소로써, 대명사, 서수, 방향 중 적어도 하나를 포함할 수 있다.

한편, 본 발명의 일 실시 예에 따르면, 대화형 서버의 제어 방법에 있어서, 상기 방법은 디스플레이 장치로부터 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성 신호를 수신하는 단계, 상기 제1 발화 요소에 대응되는 지시자 및 상기 제2 발화 요소에 대응되는 명령어를 추출하는 단계 및 상기 추출된 지시자 및 명령어를 조합하여 상기 발화 음성 신호에 대응되는 응답 정보를 생성하여 상기 디스플레이 장치로 전송하는 단계를 포함하며, 상기 제1 발화 요소는 상기 디스플레이 장치의 화면상에 표시된 객체의 표시 상태에 기초하여 결정된 발화 요소이다.

또한, 상기 추출하는 단계는, 상기 제1 발화 요소에 요청 정보가 있는지 여부를 판단하여, 상기 요청 정보가 있으면, 상기 요청 정보에 대응되는 명령어를 저장부로부터 추출하고, 상기 전송하는 단계는, 상기 추출된 명령어에 기초하여 상기 요청 정보에 대응되는 컨텐츠 정보를 상기 응답 정보에 추가할 수 있다.

또한, 상기 지시자는, 상기 디스플레이 장치의 화면상에 표시된 상기 객체들의 고유 식별 정보이며, 상기 추출하는 단계는, 상기 디스플레이 장치의 대화 이력에 기초하여 상기 제1 발화 요소가 지칭하는 대상을 판단하고, 판단된 상기 대상에 대응되는 고유 식별 정보를 상기 지시자로 추출할 수 있다.

그리고, 상기 수신된 발화 음성 신호를 텍스트 정보로 변환하는 단계를 더 포함할 수 있다.

한편, 본 발명의 일 실시 예에 따르면, 디스플레이 장치의 제어 방법에 있어서, 상기 방법은 사용자의 발화 음성을 입력받는 단계, 상기 발화 음성에 대한 발화 음성 신호를 서버 장치로 전송하는 단계, 상기 서버 장치로부터 지시자 및 명령어를 포함하는 응답 정보를 수신하는 단계 및 화면상에 표시된 객체들의 표시 상태에 기초하여 상기 지시자가 지칭하는 대상을 선택하고, 상기 선택된 대상에 대해 상기 명령어에 대응되는 동작을 수행하는 단계를 포함한다.

이상과 같이 본 발명의 다양한 실시 예에 따르면, 대화형 시스템에서 대화형 서버는 다양한 사용자의 발화 음성에 대해서 사용자의 의도를 파악하고, 그에 따른 응답 정보를 생성하여 디스플레이 장치로 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도,
도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도,
도 3은 본 발명의 일 실시예에 따른 대화형 서버의 블록도,
도 4는 본 발명의 일 실시예에 따른 디스플레이 장치의 화면상에 표시된 객체의 표시 상태에 기초하여 발화되는 발화 음성의 예시도,
도 5는 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도,
도 6은 본 발명의 일 실시예에 따른 대화형 서버의 제어 방법에 대한 흐름도,
도 7은 본 발명의 일 실시예에 따른 디스플레이 장치의 제어 방법에 대한 흐름도이다.

이하 첨부된 도면들을 참조하여 본 발명의 일시 예를 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 대화형 시스템은 디스플레이 장치(100) 및 대화형 서버(200)를 포함한다.

디스플레이 장치(100)는 인터넷이 가능한 장치로써, 스마트 TV, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다. 이 같은 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 사용자의 발화 음성에 대응되는 동작을 수행한다. 구체적으로, 디스플레이 장치(100)는 사용자의 발화 음성에 대응되는 응답 메시지를 출력하거나 또는 사용자의 발화 음성에 대응되는 기능을 수행할 수 있다. 즉, 디스플레이 장치(100)는 입력된 발화 음성을 분석하여 내부적으로 수행가능한지 여부를 판단하고, 그 판단 결과에 따라, 입력된 발화 음성에 대응되는 기능을 수행하거나 또는 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 동작을 수행할 수 있다.

예를 들어, "볼륨 올려"라는 발화 음성이 입력되면, 디스플레이 장치(100)는 기저장된 제어 정보 중 입력된 발화 음성에 대응되는 제어 정보에 기초하여 볼륨을 조정할 수 있다.

또다른 예를 들어, "오늘 날씨 어때?"라는 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성에 대한 발화 음성 신호(이하 발화 음성이라 함)를 대화형 서버(200)로 전송한다. 여기서, 발화 음성은 아날로그 신호가 될 수 있다. 따라서, 디스플레이 장치(100)는 아날로그 신호인 발화 음성을 디지털 신호로 변환하여 대화형 서버(200)로 전송한다. 이후, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 오늘 날씨에 대한 결과를 음성 또는 텍스트 형태의 영상으로 출력할 수 있다.

대화형 서버(200)는 디스플레이 장치(100)로부터 수신한 사용자의 발화 음성에 기초하여 사용자의 의도에 적합한 응답 정보를 제공한다. 구체적으로, 대화형 서버(200)는 디스플레이 장치(100)로 사용자의 발화 음성이 수신되면, 수신된 발화 음성으로부터 발화 요소를 추출하고, 그 추출된 발화 요소에 기초하여 사용자의 발화 음성과 관련된 응답 정보를 생성하여 전송할 수 있다. 전술한 바와 같이, 디스플레이 장치(100)로부터 수신한 사용자의 발화 음성은 디지털 신호가 될 수 있다. 따라서, 대화형 서버(200)는 디지털 신호로 변환된 발화 음성이 수신되면, 이를 텍스트 정보로 생성한 후, 생성된 텍스트 정보를 분석하여 발화 요소를 추출하고, 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 응답 정보를 생성할 수 있다. 디지털 신호로 변환된 발화 음성으로부터 텍스트 정보를 생성하는 것은 공지된 기술이기에 본 발명에서는 상세한 설명을 생략하도록 한다.

한편, 발화 요소는 사용자의 발화 음성 내에서 사용자가 요청한 동작을 수행하기 위한 핵심 키워드로써, 목적 영역(domain), 목적 기능(user action) 및 주요 특징(feature) 별로 추출된 발화 요소를 분류할 수 있다. 전술한 예와 같이, "오늘 날씨 어때?"라는 사용자의 발화 음성에 대한 텍스트 정보가 생성되면, 대화형 서버(200)는 "오늘", "날씨", "어때?"라는 발화 요소를 추출할 수 있다. 이후, 대화형 서버(200)는 추출된 발화 요소 중 "오늘" 및 "날씨"를 주요 특징에 대한 발화 요소(이하 제1 발화 요소라 함)로 분류하고, "어때?"를 목적 기능에 대한 발화 요소(이하 제2 발화 요소라 함)로 분류할 수 있다. 또한, 대화형 서버(200)는 추출된 발화 요소에 기초하여 목적 영역에 대한 발화 요소(이하 제3 발화 요소라 함)가 웹 서치라는 도메인에 속하는 것으로 분류할 수 있다. 이 같이, 사용자의 발화 음성에 대한 텍스트 정보로부터 제1 내지 제3 발화 요소가 분류되면, 대화형 서버(200)는 다양한 컨텐츠를 제공하는 외부 서버(미도시)로부터 날씨 정보를 제공받아, 이를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 오늘 날씨 정보를 음성 및 텍스트 중 적어도 하나를 통해 디스플레이할 수 있다.

한편, 전술한 대화형 서버(200)는 디지털 신호로 변환된 사용자의 발화 음성을 텍스트 정보로 생성하는 제1 서버(10) 및 텍스트 정보로 생성된 발화 음성에 대응하는 응답 정보를 생성하는 제2 서버(20)를 포함할 수 있다. 이하에서는, 디스플레이 장치(100), 제1 및 제2 서버(10,20)를 통해 사용자의 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템에 대해서 상세히 설명하도록 한다.

도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도이다.

도 2에 도시된 바와 같이, 디스플레이 장치(100)는 사용자로부터 발화된 발화 음성이 입력되면, 입력된 발화 음성을 디지털 신호로 변환하여 제1 서버(10)로 전송한다. 디지털 신호로 변환된 발화 음성이 수신되면, 제1 서버(10)는 기저장된 다양한 발화 음성에 대한 특정 패턴에 따라, 사용자의 발화 음성에 대한 텍스트 정보를 생성하여 디스플레이 장치(100)로 전송한다.

제1 서버(10)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신한 디스플레이 장치(100)는 사용자의 발화 음성에 대한 텍스트 정보를 제2 서버(20)로 전송한다. 사용자의 발화 음성에 대한 텍스트 정보를 수신한 제2 서버(20)는 수신한 텍스트 정보를 분석하여 발화 요소를 추출하고, 그 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행하기 위한 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다.

지금까지, 본 발명에 따른 디스플레이 장치(100)와 대화형 서버(200)로 이루어진 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 동작에 대해서 개략적으로 설명하였다. 이하에서는, 전술한 디스플레이 장치(100) 및 대화형 서버(200)의 각 구성에 대해서 상세히 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 대화형 서버의 블록도이다.

도 3에 도시된 바와 같이, 대화형 서버(200)는 통신부(210), 음성 처리부(220), 저장부(230), 추출부(240) 및 제어부(250)를 포함한다.

통신부(210)는 사용자의 발화 음성을 제공하는 디스플레이 장치(100)와 통신을 수행한다. 특히, 통신부(210)는 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성에 대한 디지털 신호를 수신할 수 있다. 여기서, 제1 발화 요소는 사용자의 발화 음성 내에서 주요 특징으로 분류되는 발화 요소이다. 이 같은 제1 발화 요소가 디스플레이 장치(100)의 화면상에 표시된 객체들의 표시 상태에 기초하여 결정된 발화 요소인 경우, 제1 발화 요소는 대상을 나타내는 발화 요소가 될 수 있다. 즉, 제1 발화 요소는 대명사, 서수, 방향 중 적어도 하나를 통해 대상을 나타내는 발화 요소가 될 수 있다. 그리고, 제2 발화 요소는 사용자의 발화 음성에 내에서 목적 기능으로 분류되는 발화 요소로써, 본 발명에서는 이 같은 목적 기능을 실행 명령으로 명명하기로 한다.

예를 들어, "이거 실행해줘"라는 발화 음성의 경우, "이거"는 대명사를 나타내는 제1 발화 요소가 될 수 있으며, "실행해줘"는 실행 명령을 나타내는 제2 발화 요소가 될 수 있다. 이 같은 제1 및 제2 발화 요소를 포함하는 발화 음성에 대한 디지털 신호가 수신되면, 음성 처리부(220)는 수신된 발화 음성을 텍스트 정보로 변환한다. 실시예에 따라, 음성 처리부(220)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 통신부(210)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 수 있다. 이 경우, 디스플레이 장치(100)는 입력된 사용자의 발화 음성에 대한 텍스트 정보를 전술한 제1 서버(10)와 같은 로부터 수신하여 대화형 서버(200)로 전송한다. 따라서, 통신부(210)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 수 있다. 이 같이, 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 경우, 전술한 음성 처리부(220)의 구성은 생략될 수 있다.

이 같이, 사용자의 발화 음성이 텍스트 정보로 변환되거나 혹은 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보가 수신되면, 추출부(240)는 저장부(230)로부터 제1 발화 요소에 대응되는 지시자 및 제2 발화 요소에 대응되는 명령어를 추출한다. 여기서, 저장부(230)는 대화형 서버(200)를 동작시키기 위해 필요한 각종 프로그램 등이 저장되는 저장매체로써, 메모리, HDD(Hard Disk Drvie) 등으로 구현될 수 있다. 예를 들어, 저장부(230)는 후술할 제어부(250)의 동작을 수행하기 위한 프로그램을 저장하는 ROM, 제어부(250)의 동작 수행에 따른 데이터를 일시적으로 저장하는 RAM 등을 구비할 수 있다. 뿐만 아니라, 저장부(230)는 각종 참조 데이터를 저장하는 EEROM(Electrically Eraasable and Programmable ROM) 등을 더 구비할 수 있다. 특히, 저장부(230)는 복수의 지시자 및 복수의 명령어를 저장할 수 있다. 여기서, 복수의 지시자 및 복수의 명령어는 사용자의 발화 음성으로부터 추출된 발화 요소에 기초하여 디스플레이 장치(100)에서 해석 가능한 형태로 동작을 수행하도록 하기 위한 실행 정보이다. 구체적으로, 지시자는 디스플레이 장치(100)의 화면상에 표시된 객체들 중에서 대상을 상대적으로 지칭하기 위한 실행어이다. 다시 말해, 지시자는 사용자의 발화 음성으로부터 추출된 발화 요소 중 대명사, 서수, 방향과 같은 대상을 나타내는 제1 발화 요소에 기초하여 디스플레이 장치(100)에서 해석 가능한 형태로 동작을 수행하도록 하기 위한 실행어이다.

따라서, 저장부(230)는 아래 표 1과 같이 대상을 나타내는 각각의 제1 발화 요소 별로 지시자가 매칭된 테이블을 저장할 수 있다.

제1 발화 요소	지시자
이거	$this$
다음	$this$+1
세번째	$3rd$

표 1과 같이, "이거" 라는 제1 발화 요소에 대응되는 지시자는 $this$이 될 수 있으며, "다음"이라는 제1 발화 요소에 대응되는 지시자는 $this$+1이 될 수 있으며, "세번째"라는 제1 발화 요소에 대응되는 지시자는 $3rd$이 될 수 있다.

그리고, 저장부(230)에 저장되는 복수의 명령어는 사용자의 발화 음성으로부터 추출된 발화 요소 중 실행 명령을 나타내는 제2 발화 요소에 기초하여 디스플레이 장치(100)에서 해석 가능한 형태로 동작을 수행하도록 하기 위한 실행 정보이다. 따라서, 저장부(230)는 아래 표 2와 같이 실행 명령을 나타내는 각각의 제2 발화 요소 별로 명령어가 매칭된 테이블을 저장할 수 있다.

제2 발화 요소	명령어
실행해줘(실행)	execute
보여줘, 뭐야(정보출력)	show

표 2와 같이, "실행해줘"라는 제2 발화 요소에 대응되는 명령어는 "execute"가 될 수 있으며, "보여줘", "뭐야"라는 제2 발화 요소에 대응되는 명령어는 "show"가 될 수 있다.

표 1 및 표 2에서 개시된 바와 같이, 저장부(230)는 대상을 나타내는 제1 발화 요소 각각에 대한 지시자 및 실행 명령을 나타내는 제2 발화 요소 각각에 대한 명령어를 저장할 수 있다. 따라서, 추출부(240)는 음성 처리부(220)를 통해 텍스트 정보로 변환된 사용자의 발화 음성으로부터 제1 및 제2 발화 요소를 추출하고, 추출된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 저장부(230)로부터 추출할 수 있다.

제어부(250)는 추출부(240)로부터 추출된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 조합하여 사용자의 발화 음성에 대응되는 응답 정보를 생성하여 통신부(210)를 통해 디스플레이 장치(100)로 전송한다. 예를 들어, "이거 실행해줘"라는 사용자의 발화 음성의 경우, 추출부(240)는 "이거"라는 대상을 나타내는 제1 발화 요소 및 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 추출부(240)는 저장부(230)로부터 추출된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출한다. 즉, 추출부(240)는 표 1 및 표 2에 개시된 테이블에 기초하여 "이거"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 추출할 수 있다.

이 같이, 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 추출되면, 제어부(250)는 추출된 지시자 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 즉, 제어부(250)는 제1 발화 요소에 대응되는 지시자 "$this$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 조합하여 "execute($this$)"라는 실행 명령 스크립트를 생성할 수 있다.

또다른 예를 들어, "세번째 것 실행해줘"라는 사용자의 발화 음성의 경우, 추출부(240)는 "세번째"라는 대상을 나타내는 제1 발화 요소 및 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 추출부(240)는 저장부(230)로부터 추출된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출한다. 즉, 추출부(240)는 표 1 및 표 2에 개시된 테이블에 기초하여 "세번째"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$3rd$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 추출할 수 있다.

이 같이, 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 추출되면, 제어부(250)는 추출된 지시자 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 즉, 제어부(250)는 제1 발화 요소에 대응되는 지시자 "$3rd$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 조합하여 "execute($3rd$)"라는 실행 명령 스크립트를 생성할 수 있다.

또다른 예를 들어, "다음 거 실행해줘"라는 사용자의 발화 음성의 경우, 추출부(240)는 "다음"이라는 대상을 나타내는 제1 발화 요소 및 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 추출부(240)는 저장부(230)로부터 추출된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출한다. 즉, 추출부(240)는 표 1 및 표 2에 개시된 테이블에 기초하여 "다음"이라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$+1"과 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 추출할 수 있다.

이 같이, 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 추출되면, 제어부(250)는 추출된 지시자 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 즉, 제어부(250)는 "다음"이라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$+1"과 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 조합하여 "execute($this$+1)"라는 실행 명령 스크립트를 생성할 수 있다.

이 같은 실행 명령 스크립트가 생성되면, 제어부(250)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트에 기초하여 화면상에 표시된 객체 중 사용자가 지칭한 대상에 대응되는 객체를 선택하고, 선택된 객체를 디스플레이할 수 있다.

이하에서는, 디스플레이 장치(100)의 화면상에 표시된 객체의 표시 상태에 기초하여 제1 및 제2 발화 요소를 포함하는 발화 음성이 사용자에 의해 발화되는 것에 대해서 구체적으로 설명하도록 한다.

도 4는 본 발명의 일 실시예에 따른 디스플레이 장치의 화면상에 표시된 객체의 표시 상태에 기초하여 발화되는 발화 음성의 예시도이다.

도 4에 도시된 바와 같이, 디스플레이 장치(100)는 사용자가 요청한 채널을 통해 컨텐츠(410)를 수신하여 디스플레이할 수 있다. 또한, 디스플레이 장치(100)는 리모콘 또는 사용자 발화 음성을 통해 입력된 사용자 명령에 기초하여 사용자가 요청한 컨텐츠에 대한 컨텐츠 리스트(420)를 화면상에 디스플레이할 수 있다. 도시된 바와 같이, 컨텐츠 리스트(420) 상에는 지금까지 방송된 제1 컨텐츠에 대한 컨텐츠 정보(421~425)가 표시될 수 있다. 한편, 사용자는 컨텐츠 리스트(420) 상에 표시된 회차별 컨텐츠 정보(421~425)를 참조하여 특정 회차에 대응되는 제1 컨텐츠를 시청하기 위한 발화를 할 수 있다. 예를 들어, 사용자는 1회차 컨텐츠 정보(421)에 대응되는 제1 컨텐츠를 시청하기 위해 "이거 실행해줘"라는 발화를 하거나 혹은 3회차 컨텐츠 정보(423)에 대응되는 제1 컨텐츠를 시청하기 위해 "세번째 것 실행해줘"라는 발화를 할 수 있다.

이와 같이, 사용자는 디스플레이 장치(100)의 화면상에 디스플레이된 컨텐츠 리스트(420)로부터 시청하고자 하는 회차의 제1 컨텐츠(대상)를 나타내는 제1 발화 요소 및 해당 회차의 제1 컨텐츠를 시청하기 위한 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화를 할 수 있다. 따라서, 제어부(250)는 이 같은 발화 음성에 포함된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 저장부(230)로부터 추출되면, 추출된 지시자 및 명령어의 조합으로 실행 명령 스크립트를 생성할 수 있다.

한편, 본 발명의 추가적인 양상에 따라, 추출부(240)는 제1 발화 요소에 요청 정보가 있는지 여부를 판단하여, 요청 정보가 있으면, 요청 정보에 대응되는 명령어를 추출한다. 이후, 제어부(250)는 추출부(240)로부터 추출된 명령어에 기초하여 요청 정보에 대응되는 컨텐츠 정보를 응답 정보에 추가하여 디스플레이 장치(100)로 전송할 수 있다. 이를 위해, 저장부(230)는 요청 정보에 대한 명령어를 추가로 저장할 수 있다. 예를 들어, "상세 정보"라는 요청 정보는 "detail information"이라는 명령어와 대응되어 저장될 수 있으며, "제목"이라는 요청 정보는 "title"이라는 명령어와 대응되어 저장될 수 있다.

예를 들어, "이거 제목이 뭐야"라는 사용자의 발화 음성의 경우, 추출부(240)는 "이거"와 "제목"이라는 제1 발화 요소와 "뭐야"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 여기서, 추출된 "이거"라는 제1 발화 요소는 대상을 나타내는 발화 요소이며, "제목"이라는 제1 발화 요소는 요청 정보를 나타내는 발화 요소가 될 수 있다. 이 같이, 제1 및 제2 발화 요소가 추출되면, 추출부(240)는 저장부(230)로부터 "이거"라는 제1 발화 요소에 대응되는 지시자 "$this$"와 "제목"이라는 제1 발화 요소에 대응되는 명령어 "title"와 "뭐야"라는 제2 발화 요소에 대응되는 명령어 "show"를 추출할 수 있다. 이 같이, 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 추출되면, 제어부(250)는 추출된 지시자 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 즉, 제어부(250)는 "이거"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$", "제목"이라는 요청 정보를 나타내는 제1 발화 요소에 대응되는 명령어 "title" 및 "뭐야"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "show"를 조합하여 show(title) at ($this$)이라는 실행 명령 스크립트를 생성할 수 있다.

이 같은 실행 명령 스크립트가 생성되면, 제어부(250)는 생성된 실행 명령 스크립트 내에 요청 정보를 나타내는 명령어가 포함되어 있는지 여부를 판단한다. 요청 정보를 나타내는 명령어가 있으면, 제어부(250)는 저장부(230)에 저장된 디스플레이 장치(100)와의 대화 이력 정보에 기초하여 요청 정보에 대응되는 컨텐츠 정보 획득 여부를 판단한다. 예들 들어, 제어부(250)는 "이거 제목이 뭐야"라는 사용자의 발화 음성 이전에 수신된 "액션 영화 보여줘"라는 사용자의 발화 음성에 기초하여 액션 영화에 대한 컨텐츠 정보를 포함하는 응답 정보를 디스플레이 장치(100)로 전송할 수 있다. 이후, 전술한 바와 같이, 요청 정보를 나타내는 명령어를 포함하는 실행 명령 스크립트가 생성되면, 제어부(250)는 이전 대화 이력 정보에 기초하여 해당 컨텐츠에 대한 제목 정보를 저장부(230)에 저장된 EPG 정보로부터 획득하거나 혹은 외부 서버(미도시)를 통해 수신할 수 있다. 이후, 제어부(250)는 기생성된 실행 명령 스크립트 및 제목 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다.

그러나, 본 발명은 이에 한정되지 않으며, 제어부(250)는 요청 정보를 나타내는 명령어를 포함하는 실행 명령 스크립트에 대한 응답 정보를 디스플레이 장치(100)로 전송할 수 있다. 이 경우, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트를 해석하여 화면상에 표시된 객체 중 지시자가 지칭하는 대상에 대응되는 객체를 선택하고, 선택된 객체에 대해 명령어에 대응되는 동작을 수행할 수 있다. 따라서, 디스플레이 장치(100)는 선택된 객체에 대응되는 컨텐츠의 제목 정보를 기저장된 EPG 정보로부터 획득하거나 혹은 외부 서버(미도시)를 통해 수신하여 출력할 수 있다.

한편, 본 발명의 추가적인 양상에 따라, 저장부(230)에 저장되는 지시자는 디스플레이 장치(100)의 화면상에 표시된 객체들의 고유 식별 정보가 될 수 있다. 이 경우, 추출부(240)는 디스플레이 장치(100)의 대화 이력에 기초하여 사용자의 발화 음성으로부터 추출된 제1 발화 요소가 지칭하는 대상을 판단하고, 판단된 대상에 대응되는 고유 식별 정보를 지시자로 추출할 수 있다.

구체적으로, 디스플레이 장치(100)와 대화형 서버(200)는 디스플레이 장치(100)의 화면상에 디스플레이되는 컨텐츠에 대한 고유 식별 정보를 공유할 수 있다. 여기서, 각 고유 식별 정보는 디스플레이 장치(100)에서 현재 디스플레이되고 있는 컨텐츠 및 사용자의 요청에 따라 제공될 컨텐츠를 식별하기 위한 정보이다. 예를 들어, 도 4에서 설명한 바와 같이, 디스플레이 장치(100)는 화면상에 컨텐츠(410) 및 회차별 컨텐츠 정보(421~425)를 포함하는 컨텐츠 리스트(420)를 디스플레이할 수 있다. 이 경우, 컨텐츠(410)는 현재 디스플레이되고 있음을 나타내는 고유 식별 정보(#1234)가 부여될 수 있으며, 컨텐츠 리스트(420)는 현재 디스플레이되는 컨텐츠(410)와 상이한 고유 식별 정보(#5678)가 부여될 수 있다.

따라서, 추출부(240)는 사용자의 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 추출된 발화 요소 중 제1 발화 요소로부터 지칭하는 대상을 판단하고, 판단된 대상에 대응되는 고유 식별 정보를 저장부(230)로부터 획득하여 이를 지시자로 결정할 수 있다. 예를 들어, "이거 실행해줘"라는 발화 음성의 경우, 추출부(240)는 "이거"라는 제1 발화 요소를 추출할 수 있다. 이 같이, 제1 발화 요소가 추출되면, 추출부(240)는 "이거"라는 제1 발화 요소에 대응되는 지시자 $this$를 저장부(230)로부터 추출할 수 있다. 이 같은 지시자가 추출되면, 추출부(240)는 추출된 지시자를 통해 제1 발화 요소로부터 지칭하는 대상이 디스플레이 장치(100)의 화면상에 현재 디스플레이되는 컨텐츠(210)와 상이한 대상임을 판단할 수 있다. 따라서, 추출부(240)는 "이거"라는 제1 발화 요소에 대응되는 지시자인 $this$를 고유 식별 정보(#5678)로 변환할 수 있다.

한편, "보고 있는 거 제목이 뭐야"라는 발화 음성의 경우, 추출부(240)는 "보고 있는 거"라는 제1 발화 요소를 추출할 수 있다. 이 같이, 제1 발화 요소가 추출되면, 추출부(240)는 "보거 있는 거"라는 제1 발화 요소에 대응되는 지시자 $showing_content$를 저장부(230)로부터 추출할 수 있다. 이 같은 지시자가 추출되면, 추출부(240)는 추출된 지시자를 통해 제1 발화 요소로부터 지칭하는 대상이 디스플레이 장치(100)의 화면상에 현재 디스플레이되는 컨텐츠인 것으로 판단할 수 있다. 따라서, 추출부(240)는 "보고 있는 거"라는 제1 발화 요소에 대응되는 지사자인 $showing_content$를 고유 식별 번호(#1234)로 변환할 수 있다.

지금까지, 본 발명에 따른 대화형 서버(200)에 각 구성에 대해서 상세히 설명하였다. 이하에서는, 사용자의 발화 음성을 입력받는 디스플레이 장치(100)의 각 구성에 대해서 상세히 설명하도록 한다.

도 5는 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도이다.

도 5에 도시된 바와 같이, 디스플레이 장치(100)는 입력부(110), 통신부(120), 디스플레이부(130) 및 제어부(140)를 포함한다.

입력부(110)는 사용자로부터 발화된 발화 음성을 입력받는다. 구체적으로, 입력부(110)는 아날로그 형태의 사용자의 발화 음성이 입력되면, 입력된 사용자 발화 음성을 샘플링하여 디지털 신호로 변환한다. 이때, 입력부(110)는 입력된 사용자의 발화 음성에 노이즈(예를 들어, 에어컨 소리, 청소기 소리 등)가 있는 경우, 노이즈를 제거한 후, 노이즈가 제거된 사용자의 발화 음성을 디지털 신호로 변환함이 바람직하다. 뿐만 아니라, 입력부(110)는 다양한 사용자 조작을 입력받아 제어부(130)로 전달하는 기능을 수행할 수 있다. 이 경우, 입력부(110)는 터치패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen)을 통해 사용자 조작 명령을 입력받을 수 있다.

통신부(120)는 입력부(110)를 통해 입력된 사용자의 발화 음성을 서버 장치(이하 대화형 서버라 함)로 전송하고, 전성된 발화 음성에 대응되는 응답 정보를 수신한다. 여기서, 통신부(120)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기서, 근거리 무선 통신 모듈(미도시)은 근거리에 위치한 대화형 서버(200) 및 컨텐츠를 제공하는 외부 서버(미도시)와 무선 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스, 지그비 등이 될 수 있다. 무선 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

디스플레이부(130)는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel, PDP) 등으로 구현되어, 디스플레이 장치(100)를 통해 제공 가능한 다양한 디스플레이 화면을 제공할 수 있다. 특히, 디스플레이부(161) 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성에 대응되는 컨텐츠 혹은 컨텐츠 정보를 디스플레이한다.

제어부(140)는 디스플레이 장치(100)의 구성을 전반적으로 제어한다. 특히, 제어부(140)는 대화형 서버(200)로부터 지시자 및 명령어의 조합으로 생성된 실행 명령 스크립트를 포함하는 응답 정보가 수신되면, 디스플레이부(130)의 화면상에 표시된 객체들의 표시 상태에 기초하여 지시자가 지칭하는 대상을 선택한다. 이후, 제어부(140)는 선택된 대상에 대해 명령어에 대응되는 동작을 수행한다.

구체적으로, 도 4에서 설명한 바와 같이, 디스플레이부(130)는 제어부(140)의 제어 명령에 따라, 사용자가 요청한 채널을 통해 컨텐츠(410)를 수신하여 디스플레이할 수 있다. 또한, 디스플레이 장치(100)는 리모콘 또는 사용자의 발화 음성을 통해 입력된 사용자 명령에 기초하여 사용자가 요청한 컨텐츠에 대한 컨텐츠 리스트(420)를 화면상에 디스플레이할 수 있다. 또한, 디스플레이 장치(100)는 기설정된 조건에 기초하여 컨텐츠 리스트(420) 상에 표시된 회차별 컨텐츠 정보(421~425) 중 1회차 컨텐츠 정보(421)에 하이라이트를 표시할 수 있다. 즉, 디스플레이 장치(100)는 회차별 컨텐츠 정보(421~425)를 포함하는 컨텐츠 리스트(420)를 화면상에 최초 표시할 경우, 기설정된 조건에 기초하여 제일 상단에 위치하는 1회차 컨텐츠 정보(421)가 우선적으로 선택될 수 있도록 하이라이트를 표시할 수 있다.

한편, 사용자는 컨텐츠 리스트(420) 상에 표시된 회차별 컨텐츠 정보(421~425)를 참조하여 특정 회차에 대응되는 제1 컨텐츠를 시청하기 위한 발화를 할 수 있다. 예를 들어, 사용자는 1회차 컨텐츠 정보(421)에 대응되는 제1 컨텐츠를 시청하기 위해 "이거 실행해줘"라는 발화를 할 수 있다. 따라서, 디스플레이 장치(100)는 "이거 실행해줘"라는 발화 음성을 입력받을 수 있다. 이와 같이, 본 발명에 따른 디스플레이 장치(100)는 화면상에 복수의 객체들이 표시된 상태에서 복수의 객체 중 하나를 지칭하는 대상을 나타내는 제1 발화 요소와 해당 대상을 실행하기 위한 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성을 입력받을 수 있다. 여기서, 제1 발화 요소는 대명사, 서수, 방향 중 적어도 하나를 통해 대상을 나타낼 수 있다. 예를 들어, "이거 실행해줘"라는 발화 음성은 대명사로 대상을 나타내는 제1 발화 요소를 포함할 수 있으며, "세번째 거 실행해줘"라는 발화 음성은 서수로 대상을 나타내는 제1 발화 요소를 포함할 수 있다.

이 같이, 대상을 나타내는 제1 발화 요소 및 해당 대상을 실행하기 위한 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성이 입력되면, 통신부(120)는 대화형 서버(200)로 입력된 발화 음성을 전송한다. 발화 음성을 수신한 대화형 서버(200)는 수신한 발화 음성에 포함된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출하고, 추출한 지시자 및 명령어의 조합으로 실행 명령 스크립트를 생성한다. 전술한 예와 같이, "이거 실행해줘"라는 발화 음성이 수신되면, 대화형 서버(200)는 "이거"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 추출한다. 이후, 대화형 서버(200)는 제1 및 제2 발화 요소에 대응하여 추출된 지시자 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 즉, 대화형 서버(200)는 제1 발화 요소에 대응되는 지시자 "$this$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 조합하여 "execute($this$)"라는 실행 명령 스크립트를 생성한다. 이후, 대화형 서버(200)는 "execute($this$)"라는 실행 명령 스크립트를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다.

이 같은 응답 정보가 수신되면, 제어부(140)는 수신된 응답 정보에 포함된 실행 명령 스크립트를 해석하여 사용자의 발화 음성에 대응되는 동작을 수행할 수 있다. 전술한 예와 같이, "execute($this$)"라는 실행 명령 스크립트를 포함하는 응답 정보가 수신되면, 제어부(140)는 실행 명령 스크립트를 해석하여 화면상에 표시된 객체 중 하나의 객체를 선택하고, 선택된 객체에 대한 실행을 수행한다. 구체적으로, 제어부(140)는 실행 명령 스크립트를 해석하여 지시자 및 명령어를 구분한다. 즉, 제어부(140)는 "execute($this$)"라는 실행 명령 스크립트로부터 지시자는 "$this$"이며, 명령어는 "execute"라고 구분할 수 있다.

이 같이, 실행 명령 스크립트로부터 지시자 및 명령어가 구분되면, 제어부(140)는 구분된 지시자에 기초하여 화면상에 표시된 복수의 객체 중 하나를 선택할 수 있다. 도 4에 도시된 바와 같이, 디스플레이부(130)는 사용자가 요청한 채널을 통해 수신된 컨텐츠(410)를 디스플레하며, 이와 함께 사용자가 요청한 제1 컨텐츠에 대한 회차별 컨텐츠 정보(421~425)를 포함하는 컨텐츠 리스트(420)를 표시될 수 있다. 또한, 디스플레이부(130)는 기설정된 조건에 기초하여 컨텐츠 리스트(420)에 포함된 회차별 컨텐츠 정보(421~425) 중 1회차 컨텐츠 정보(421)에 하이라이트를 표시할 수 있다. 즉, 디스플레이부(130)는 회차별 컨텐츠 정보(421~425)를 포함하는 컨텐츠 리스트(420)를 화면상에 최초 표시할 경우, 기설정된 조건에 기초하여 제일 상단에 위치하는 1회차 컨텐츠 정보(421)가 우선적으로 선택될 수 있도록 하이라이트를 표시할 수 있다. 한편, 1회차 컨텐츠 정보(421)에 하이라이트가 표시된 상태에서, 입력부(110)를 통해 사용자의 조작 명령이 입력되면, 디스플레이부(130)는 입력된 사용자의 조작 명령에 대응되는 컨텐츠 정보(1회차 컨텐츠 정보(421)를 제외한 나머지 회차별 컨텐츠 정보(422~425) 중 하나)에 하이라이트를 표시할 수 있다. 이 경우, 사용자의 조작 명령에 대응하여 하이라이트가 표시된 컨텐츠 정보가 우선적으로 선택되도록 설정될 수 있다.

따라서, 실행 명령 스크립트로부터 구분된 지시자가 "$this$"이면, 제어부(140)는 현재 하이라이트가 표시된 컨텐츠 정보를 지칭하는 것으로 판단할 수 있다. 즉, 도 4와 같이, 1회차 컨텐츠 정보(421)에 하이라이트가 표시되어 있으면, 제어부(140)는 "$this$" 지시자에 기초하여 하이라이트가 표시된 1회차 컨텐츠 정보(421)를 선택할 수 있다. 이 같이, 1회차 컨텐츠 정보(421)가 선택되면, 제어부(140)는 실행 명령 스크립트로부터 구분된 명령어인 "execute"에 기초하여 선택된 1회차 컨텐츠 정보(421)에 대응되는 제1 컨텐츠를 외부 서버(미도시)로부터 수신하여 디스플레이할 수 있다.

전술한 또다른 예와 같이, 대화형 서버(200)는 "세번째 거 실행해줘"라는 사용자의 발화 음성으로부터 "execute($3rd$)"라는 실행 명령 스크립트를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다. 이 같은 응답 정보가 수신되면, 제어부(140)는 수신된 응답 정보에 포함된 실행 명령 스크립트를 해석하여 지시자 및 명령어를 구분한다. 즉, 제어부(140)는 "execute($3rd$)"라는 실행 명령 스크립트로부터 "$3rd$"이라는 지시자와 "execute"라는 명령어를 구분할 수 있다. 한편, 도 4와 같이, 1회차 컨텐츠 정보(421)에 하이라이트가 표시되어 있으면, 제어부(140)는 "$3rd$" 지시자에 기초하여 하이라이트가 표시된 1회차 컨텐츠 정보(421)를 기준으로 세번째 위치하는 3회차 컨텐츠 정보(423)를 선택할 수 있다. 이 같이, 3회차 컨텐츠 정보(423)가 선택되면, 제어부(14)는 실행 명령 스크립트로부터 구분된 명령어인 "execute"에 기초하여 선택된 3회차 컨텐츠 정보(421)에 대응되는 제1 컨텐츠를 외부 서버(미도시)로부터 수신하여 디스플레이할 수 있다.

지금까지, 본 발명에 따른 사용자의 발화 음성을 인식하고, 인식된 발화 음성에 대응되는 응답 정보에 기초하여 동작을 수행하는 디스플레이 장치(100)의 각 구성에 대해서 상세히 설명하였다. 이하에서는, 사용자의 발화 음성에 대응되는 응답 정보를 제공하는 대화형 서버(200) 및 응답 정보에 기초하여 동작을 수행하는 디스플레이 장치(100)의 제어 방법에 대해서 상세히 설명하도록 한다.

도 6은 본 발명의 일 실시예에 따른 대화형 서버의 제어 방법에 대한 흐름도이다.

도 6에 도시된 바와 같이, 대화형 서버(200)는 디스플레이 장치(100)로부터 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하는 사용자의 발화 음성을 수신한다(S610). 여기서, 사용자의 발화 음성은 아날로그 형태의 음성 신호에서 디지털 신호로 변환된 음성 신호이다. 그리고, 제1 발화 요소는 사용자의 발화 음성 내에서 주요 특징으로 분류되는 발화 요소이다. 이 같은 제1 발화 요소가 디스플레이 장치(100)의 화면상에 표시된 객체들의 표시 상태에 기초하여 결정된 발화 요소인 경우, 제1 발화 요소는 대상을 나타내는 발화 요소가 될 수 있다. 즉, 제1 발화 요소는 대명사, 서수, 방향 중 적어도 하나를 통해 대상을 나타내는 발화 요소가 될 수 있다. 그리고, 제2 발화 요소는 사용자의 발화 음성 내에서 실행 명령으로 분류된 발화 요소가 될 수 있다.

예를 들어, "이거 실행해줘"라는 발화 음성의 경우, "이거"는 대명사를 나타내는 제1 발화 요소가 될 수 있으며, "실행해줘"는 실행 명령을 나타내는 제2 발화 요소가 될 수 있다. 이 같은 제1 및 제2 발화 요소를 포함하는 발화 음성에 대한 디지털 신호가 수신되면, 대화형 서버(200)는 수신된 발화 음성을 텍스트 정보로 변화한다(S620). 실시예에 따라, 대화형 서버(200)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 대화형 서버(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 수 있다. 이 경우, 디스플레이 장치(100)는 입력된 사용자의 발화 음성에 대한 텍스트 정보를 전술한 제1 서버(10)와 같은 ASR 서버로부터 수신하여 대화형 서버(200)로 전송한다. 따라서, 대화형 서버(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 수 있다.

이 같이, 사용자의 발화 음성이 텍스트 정보로 변환되거나 혹은 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보가 수신되면, 대화형 서버(200)는 텍스트 정보로 변환된 발화 음성으로부터 제1 발화 요소에 대응되는 지시자 및 제2 발화 요소에 대응되는 명령어를 추출한다(S630). 구체적으로, 대화형 서버(200)는 복수의 지시자 및 복수의 명령어를 저장할 수 있다. 여기서, 복수의 지시자 및 복수의 명령어는 사용자의 발화 음성으로부터 추출된 발화 요소에 기초하여 디스플레이 장치(100)에서 해석 가능한 형태로 동작을 수행하기 위한 실행 정보이다. 보다 구체적으로, 지시자는 디스플레이 장치(100)의 화면상에 표시된 객체들 중에서 대상을 상대적으로 지칭하기 위한 실행어가 될 수 있다. 다시 말해, 지시자는 사용자의 발화 음성으로부터 추출된 발화 요소 중 대명사, 서수, 방향과 같은 대상을 나타내는 제1 발화 요소에 기초하여 디스플레이 장치(100)에서 해석 가능한 형태로 동작을 수행하기 위한 실행어이다. 그리고, 명령어는 사용자의 발화 음성으로부터 추출된 발화 요소 중 실행 명령을 나타내는 제2 발화 요소에 기초하여 디스플레이 장치(100)에서 해석 가능한 형태로 동작을 수행하기 위한 실행 정보이다. 따라서, 대화형 서버(200)는 표 1 및 표 2와 같이, 대상을 나타내는 제1 발화 요소별 지시자 및 실행 명령을 나타내는 제2 발화 요소별 명령어가 매칭된 테이블을 저장할 수 있다. 이에 따라, 대화형 서버(200)는 기저장된 테이블로부터 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출할 수 있다.

제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 추출되면, 대화형 서버(200)는 추출된 지시자 및 명령어를 조합하여 발화 음성에 대응되는 응답 정보를 생성하고, 이를 디스플레이 장치(100)로 전송한다(S640).

예를 들어, "이거 실행해줘"라는 사용자의 발화 음성의 경우, 대화형 서버(200)는 "이거"라는 대상을 나타내는 제1 발화 요소 및 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 대화형 서버(200)는 기저장된 테이블로부터 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출한다. 즉, 대화형 서버(200)는 표 1 및 표 2에 개시된 테이블과 같이, "이거"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 추출할 수 있다. 이후, 대화형 서버(200)는 추출된 지시자 및 명령어를 조합하여 "execute($this$)"라는 실행 명령 스크립트를 생성할 수 있다.

또다른 예를 들어, "세번째 것 실행해줘"라는 사용자의 발화 음성의 경우, 대화형 서버(200)는 "세번째"라는 대상을 나타내는 제1 발화 요소 및 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 대화형 서버(200)는 기저장된 테이블로부터 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출한다. 즉, 대화형 서버(200)는 표 1 및 표 2에 개시된 테이블과 같이, "세번째"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$3rd$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 추출할 수 있다. 이후, 대화형 서버(200)는 추출된 지시자 및 명령어를 조합하여 "execute($3rd$)"라는 실행 명령 스크립트를 생성할 수 있다.

이 같은 실행 명령 스크립트가 생성되면, 대화형 서버(200)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트에 기초하여 화면상에 표시된 객체 중 사용자가 지칭한 대상에 대응되는 객체를 선택하고, 선택된 객체를 디스플레이할 수 있다.

한편, 대화형 서버(200)는 제1 발화 요소에 요청 정보가 있는지 여부를 판단하여, 요청 정보가 있으면, 요청 정보에 대응되는 명령어를 추출한다. 이후, 대화형 서버(200)는 추출된 명령어에 기초하여 요청 정보에 대응되는 컨텐츠 정보를 응답 정보에 추가하여 디스플레이 장치(100)로 전송할 수 있다. 이를 위해, 대화형 서버(200)는 요청 정보별 명령어를 매칭시킨 테이블을 추가로 저장할 수 있다. 예를 들어, 대화형 서버(200)는 "상세 정보"라는 요청 정보와 "detail informaion"이라는 명령어를 매칭시켜 저장할 수 있으며, "제목"이라는 요청 정보와 "titile"이라는 명령어를 매칭시켜 저장할 수 있다.

예를 들어, "이거 제목이 뭐야"라는 사용자의 발화 음성의 경우, 대화형 서버(200)는 "이거"와 "제목"이라는 제1 발화 요소와 "뭐야"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 여기서, 추출된 "이거"라는 제1 발화 요소는 대상을 나타내는 발화 요소이며, "제목"이라는 제1 발화 요소는 요청 정보를 나타내는 발화 요소가 될 수 있다. 이 같이, 제1 및 제2 발화 요소가 추출되면, 대화형 서버(200)는 기저장된 테이블을 참조하여 "이거"라는 제1 발화 요소에 대응되는 지시자 "$this$"와 "제목"이라는 제1 발화 요소에 대응되는 명령어 "title"와 "뭐야"라는 제2 발화 요소에 대응되는 명령어 "show"를 추출할 수 있다. 이 같이, 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 추출되면, 대화형 서버(200)는 추출된 지시자 및 명령어를 조합하여 show(title) at ($this$)이라는 실행 명령 스크립트를 생성할 수 있다.

이 같은 실행 명령 스크립트가 생성되면, 대화형 서버(200)는 기 생성된 실행 명령 스크립트 내에 요청 정보를 나타내는 명령어가 포함되어 있는지 여부를 판단한다. 판단 결과, 실행 명령 스크립트 내에 명령어가 있으면, 대화형 서버(200)는 기저장된 디스플레이 장치(100)와의 대화 이력 정보에 기초하여 요청 정보에 대으오디는 컨텐츠 정보 획득 여부를 판단한다. 예를 들어, 대화형 서버(200)는 "이거 제목이 모야"라는 사용자의 발화 음성 이전에 수신된 "액션 영화 보여줘'라는 사용자의 발화 음성에 기초하여 액션 영화에 대한 컨텐츠 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다. 이후, "이거 제목이 모야'라는 사용자의 발화 음성이 수신되면, 대화형 서버(200)는 전술한 단계를 통해 사용자의 발화 음성에 대한 실행 명령 스크립트를 생성한다. 이후, 대화형 서버(200)는 기 생성된 실행 명령 스크립트 내에 요청 정보에 대한 명령어가 포함되어 있으면, 기저장된 디스플레이 장치(100)와의 대화 이력 정보에 기초하여 해당 컨텐츠에 대한 제목 정보를 EPG 정보로부터 획득하거나 혹은 외부 서버(미도시)로부터 수신한다. 이후, 대화형 서버(200)는 기 생성된 실행 명령 스크립트 및 제목 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다.

그러나, 본 발명은 이에 한정되지 않으며, 대화형 서버(200)는 요청 정보를 나타내는 명령어를 포함하는 실행 명령 스크립트에 대한 응답 정보를 디스플레이 장치(100)로 전송할 수 있다. 이 경우, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트를 해석하여 화면상에 표시된 객체 중 지시자가 지칭하는 대상에 대응되는 객체를 선택하고, 선택된 객체에 대해 명령어에 대응되는 동작을 수행할 수 있다. 따라서, 디스플레이 장치(100)는 선택된 객체에 대응되는 컨텐츠의 제목 정보를 기저장된 EPG 정보로부터 획득하거나 혹은 외부 서버(미도시)를 통해 수신하여 출력할 수 있다.

한편, 본 발명의 추가적인 양상에 따라, 대화형 서버(200)에 저장되는 지시자는 디스플레이 장치(100)의 화면상에 표시된 객체들의 고유 식별 정보가 될 수 있다. 여기서, 각 고유 식별 정보는 디스플레이 장치(100)에서 현재 디스플레이되고 있는 컨텐츠 및 사용자의 요청에 따라 제공될 컨텐츠를 식별하기 위한 정보이다. 예를 들어, 도 4에서 설명한 바와 같이, 디스플레이 장치(100)는 화면상에 컨텐츠(410) 및 회차별 컨텐츠 정보(421~425)를 포함하는 컨텐츠 리스트(420)를 디스플레이할 수 있다. 이 경우, 컨텐츠(410)는 현재 디스플레이되고 있음을 나타내는 고유 식별 정보(#1234)가 부여될 수 있으며, 컨텐츠 리스트(420)는 현재 디스플레이되는 컨텐츠(410)와 상이한 고유 식별 정보(#5678)가 부여될 수 있다.

따라서, 대화형 서버(200)는 사용자의 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 추출된 발화 요소 중 제1 발화 요소로부터 지칭하는 대상을 판단하고, 기저장된 고유 식별 정보 중 판단된 대상에 대응되는 고유 식별 정보를 획득하여 이를 지시자로 결정할 수 있다. 예를 들어, "이거 실행해줘"라는 발화 음성의 경우, 대화형 서버(200)는 "이거"라는 제1 발화 요소를 추출할 수 있다. 이 같이, 제1 발화 요소가 추출되면, 대화형 서버(200)는 기저장된 제1 발화 요소별 지시자 중 "이거"라는 제1 발화 요소에 대응되는 지시자 $this$를 추출할 수 있다. 이 같은 지시자가 추출되면, 대화형 서버(200)는 추출된 지시자를 통해 제1 발화 요소로부터 지칭하는 대상이 디스플레이 장치(100)의 화면상에 현재 디스플레이되는 컨텐츠(210)와 상이한 대상임을 판단할 수 있다. 따라서, 대화형 서버(200)는 "이거"라는 제1 발화 요소에 대응되는 지시자인 $this$를 고유 식별 정보(#5678)로 변환할 수 있다.

이하에서는, 사용자의 발화 음성에 대응되는 응답 정보에 기초하여 동작을 수행하는 디스플레이 장치(100)의 제어 방법에 대해서 상세히 설명하도록 한다.

도 7은 본 발명의 일 실시예에 따른 디스플레이 장치의 제어 방법에 대한 흐름도이다.

도 7에 도시된 바와 같이, 디스플레이 장치(100)는 사용자의 발화 음성을 입력받는다(S710). 사용자의 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 사용자의 발화 음성을 대화형 서버(200)로 전송한다(S720). 구체적으로, 디스플레이 장치(100)는 아날로그 형태의 사용자의 발화 음성이 입력되면, 입력된 사용자의 발화 음성을 디지털 신호로 변환한다. 이때, 디스플레이 장치(100)는 입력된 사용자의 발화 음성에 노이즈가 있는지 여부를 판단하여, 노이즈가 있으면, 노이즈가 제거된 사용자의 발화 음성을 디지털 신호로 변환하는 것이 바람직하다.

이 같은 사용자의 발화 음성이 디지털 신호로 변환되면, 디스플레이 장치(100)는 대화형 서버(200)로 디지털 신호로 변환된 사용자의 발화 음성을 전송하고, 그에 따른 응답 정보를 수신한다(S730). 응답 정보가 수신되면, 디스플레이 장치(100)는 화면상에 표시된 객체들의 표시 상태에 기초하여 응답 정보에 포함된 지시자가 지칭하는 대상을 선택하고, 선택된 대상에 대해 응답 정보에 포함된 명령에 대응되는 동작을 수행한다(S740).

구체적으로, 도 4에서 설명한 바와 같이, 디스플레이 장치(100)는 사용자가요청한 채널을 통해 컨텐츠(410)를 수신하여 디스플레이할 수 있다. 또한, 디스플레이 장치(100)는 리모콘 또는 사용자의 발화 음성을 통해 입력된 사용자 명령에 기초하여 사용자가 요청한 컨텐츠에 대한 컨텐츠 리스트(420)를 화면상에 디스플레이할 수 있다. 또한, 디스플레이 장치(100)는 기설정된 조건에 기초하여 컨텐츠 리스트(420) 상에 표시된 회차별 컨텐츠 정보(421~425) 중 1회차 컨텐츠 정보(421)에 하이라이트를 표시할 수 있다. 즉, 디스플레이 장치(100)는 회차별 컨텐츠 정보(421~425)를 포함하는 컨텐츠 리스트(420)를 화면상에 최초 표시할 경우, 기설정된 조건에 기초하여 제일 상단에 위치하는 1회차 컨텐츠 정보(421)가 우선적으로 선택될 수 있도록 하이라이트를 표시할 수 있다.

한편, 사용자는 컨텐츠 리스트(420) 상에 표시된 1회차 컨텐츠 정보(421)에 대응되는 제1 컨텐츠를 시청하기 위해 "이거 실행해줘"라는 발화를 할 수 있다. 따라서, 디스플레이 장치(100)는 "이거 실행해줘"라는 사용자의 발화 음성을 입력받을 수 있다. 이와 같이, 본 발명에 따른 디스플레이 장치(100)는 화면상에 복수의 객체들이 표시된 상태에서 복수의 객체 중 하나를 지칭하는 대상을 나타내는 제1 발화 요소와 해당 대상을 실행하기 위한 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성을 입력받을 수 있다. 여기서, 제1 발화 요소는 대명사, 서수, 방향 중 적어도 하나를 통해 대상을 나타낼 수 있다. 예를 들어, "이거 실행해줘"라는 발화 음성은 대명사로 대상을 나타내는 제1 발화 요소를 포함할 수 있으며, "세번째 거 실행해줘"라는 발화 음성은 서수로 대상을 나타내는 제1 발화 요소를 포함할 수 있다.

이 같이, 대상을 나타내는 제1 발화 요소 및 해당 대상을 실행하기 위한 실햄 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성이 입력되면, 디스플레이 장치(100)는 대화형 서버(200)로 입력된 발화 음성을 디지털 신호로 변환하여 전송한다. 이에 따라, 대화형 서버(200)는 전술한 바와 같이, 입력된 발화 음성에 포함된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출하고, 추출된 지시자 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 전술한 예와 같이, "이거 실행해줘"라는 발화 음성이 수신되면, 대화형 서버(200)는 "이거"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 execute를 추출한다. 이후, 대화형 서버(200)는 제1 및 제2 발화 요소에 대응하여 추출된 지시자 및 명령어를 조합하여 "execute($this$)"라는 실행 명령 스크립트를 생성한다. 이후, 대화형 서버(200)는 "execute($this$)"라는 실행 명령 스크립트를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다.

이 같은 응답 정보가 수신되면, 디스플레이 장치(100)는 수신된 응답 정보에 포함된 실행 명령 스크립트를 해석하여 사용자의 발화 음성에 대응되는 동작을 수행할 수 있다. 전술한 예와 같이, "execute($this$)"라는 실행 명령 스크립트를 포함하는 응답 정보가 수신되면, 디스플레이 장치(100)는 실행 명령 스크립트를 해석하여 지시자는 $this$이며, 명령어는 execute라고 구분할 수 있다.

이 같이, 실행 명령 스크립트로부터 지시자 및 명령어가 구분되면, 디스플레이 장치(100)는 구분된 지시자에 기초하여 화면상에 표시된 복수의 객체 중 하나를 선택할 수 있다. 도 4에 도시된 바와 같이, 디스플레이 장치(100)는 컨텐츠 리스트(420) 상에 포함된 회차별 컨텐츠 정보(421~425) 중 1회차 컨텐츠 정보(421)에 하이라이트를 표시할 수 있다. 여기서, 하이라이트가 표시된 1회차 컨텐츠 정보(421)는 사용자가 지시하는 대상에 해당하는 객체를 선택하기 위한 기준이 될 수 있다. 따라서, 디스플레이 장치(100)는 실행 명령 스크립트로부터 구분된 지시자가 "$this$"이면, 하이라이트가 표시된 1회차 컨텐츠 정보(421)를 지시하는 것으로 판단하여 1회차 컨텐츠 정보(421)를 선택할 수 있다. 이와 같이, 1회차 컨텐츠 정보(421)가 선택되면, 디스플레이 장치(100)는 실행 명령 스크립트로부터 구분된 "execute" 명령어에 기초하여 1회차 컨텐츠 정보(421)에 대응되는 제1 컨텐츠를 외부 서버(미도시)로부터 수신하여 디스플레이할 수 있다.

또다른 예를 들어, 디스플레이 장치(100)는 대화형 서버(200)로부터 "다음 거 실행해줘"라는 사용자의 발화 음성에 대응하여 "execute($this$+1)"이라는 실행 명령 스크립트를 포함하는 응답 정보를 수신할 수 있다. 이 경우, 디스플레이 장치(100)는 수신한 응답 정보에 포함된 실행 명령 스크립트를 해석하여 "$this$+1"이라는 지시자와 "execute"라는 명령어를 구분할 수 있다. 한편, 도 4와 같이, 1회차 컨텐츠 정보(421)에 하이라이트가 표시되어 있으면, 디스플레이 장치(100)는 "$this$+1" 지시자에 기초하여 하이라이트가 표시된 1회차 컨텐츠 정보(421)를 기준으로 다음 번째에 위치하는 2회차 컨텐츠 정보(422)를 선택할 수 있다. 이 같이, 2회차 컨텐츠 정보(422)가 선택되면, 디스플레이 장치(100)는 실행 명령 스크립트로부터 구분된 "execute" 명령어에 기초하여 2회차 컨텐츠 정보(422)에 대응되는 제1 컨텐츠를 외부 서버(미도시)로부터 수신하여 디스플레이할 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.

이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

10 : 제1 서버 20 : 제2 서버
100 : 디스플레이 장치 110 : 입력부
120,210 : 통신부 130 : 디스플레이부
140,250 : 제어부 200 : 대화형 서버
220 : 음성 처리부 230 : 저장부
240 : 추출부

Claims

삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
음성 명령을 수신하고, 상기 음성 명령을 디지털 신호로 변환하는 입력부;
적어도 하나의 서버와 통신을 수행하는 통신부;
화면에 복수의 객체를 포함하는 컨텐츠 리스트를 디스플레이하는 디스플레이부; 및
상기 디지털 신호를 상기 적어도 하나의 서버 중 하나인 제1 서버로 전송하고, STT 알고리즘을 통해 상기 음성 명령으로부터 변환된 텍스트 정보를 수신하도록 상기 통신부를 제어하고,
상기 텍스트 정보를 상기 제1 서버 또는 상기 적어도 하나의 서버 중 다른 하나인 제2 서버로 전송하고, 상기 음성 명령에 대응되는 동작을 수행하기 위한 응답 정보를 수신하도록 상기 통신부를 제어하며,
상기 응답 정보에 기초하여 상기 컨텐츠 리스트에서 상기 복수의 객체 중 타겟 객체를 식별하고, 상기 화면에 상기 타겟 객체를 디스플레이하도록 상기 디스플레이를 제어하는 제어부;를 포함하며,
상기 텍스트 정보는, 상기 타겟 객체를 나타내며 서수를 포함하는 제1 명령 요소 및 실행 명령을 나타내는 제2 명령 요소를 포함하고,
상기 응답 정보는, 상기 제1 명령 요소에 기초하여 상기 복수의 객체 중 상기 타겟 객체를 상대적으로 나타내는 제1 정보 및 상기 제2 명령 요소에 기초하여 상기 동작을 수행하기 위한 실행 정보인 제2 정보를 포함하며,
상기 제어부는,
상기 제1 정보에 기초하여 상기 복수의 객체 중 상기 서수에 대응되는 위치의 상기 타겟 객체를 식별하고, 상기 제2 정보에 기초하여 상기 식별된 타겟 객체에 대한 상기 동작을 수행하는, 디스플레이 장치.
제17항에 있어서,
상기 제어부는,
상기 복수의 객체 중 하나에 기초하여 상기 서수에 대응되는 위치의 상기 타겟 객체를 식별하는, 디스플레이 장치.
제18항에 있어서,
상기 제어부는,
상기 복수의 객체 중 하나에 디스플레이된 포커스에 기초하여 상기 서수에 대응되는 위치의 상기 타겟 객체를 식별하는, 디스플레이 장치.
제17항에 있어서,
상기 제1 명령 요소는, 대명사 또는 방향 중 적어도 하나를 더 포함하는, 디스플레이 장치.
제17항에 있어서,
상기 제어부는,
상기 타겟 객체가 식별되면, 상기 컨텐츠 리스트에서 나머지 객체와 상기 타겟 객체를 다르게 디스플레이하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
제17항에 있어서,
상기 복수의 객체 각각은, 대응되는 컨텐츠를 나타내는 이미지를 포함하는, 디스플레이 장치.
제17항에 있어서,
상기 응답 정보는, 상기 제1 정보 및 상기 제2 정보의 결합에 의해 생성된 실행 명령 스크립트를 포함하는, 디스플레이 장치.
디스플레이 장치의 제어 방법에 있어서,
화면에 복수의 객체를 포함하는 컨텐츠 리스트를 디스플레이하는 단계;
음성 명령을 수신하는 단계;
상기 음성 명령을 디지털 신호로 변환하는 단계;
상기 디지털 신호를 적어도 하나의 서버 중 하나인 제1 서버로 전송하는 단계;
STT 알고리즘을 통해 상기 음성 명령으로부터 변환된 텍스트 정보를 수신하는 단계;
상기 텍스트 정보를 상기 제1 서버 또는 상기 적어도 하나의 서버 중 다른 하나인 제2 서버로 전송하는 단계;
상기 음성 명령에 대응되는 동작을 수행하기 위한 응답 정보를 수신하는 단계;
상기 응답 정보에 기초하여 상기 컨텐츠 리스트에서 상기 복수의 객체 중 타겟 객체를 식별하는 단계; 및
상기 화면에 상기 타겟 객체를 디스플레이하는 단계;를 포함하며,
상기 텍스트 정보는, 상기 타겟 객체를 나타내며 서수를 포함하는 제1 명령 요소 및 실행 명령을 나타내는 제2 명령 요소를 포함하고,
상기 응답 정보는, 상기 제1 명령 요소에 기초하여 상기 복수의 객체 중 상기 타겟 객체를 상대적으로 나타내는 제1 정보 및 상기 제2 명령 요소에 기초하여 상기 동작을 수행하기 위한 실행 정보인 제2 정보를 포함하며,
상기 타겟 객체를 식별하는 단계는,
상기 제1 정보에 기초하여 상기 복수의 객체 중 상기 서수에 대응되는 위치의 상기 타겟 객체를 식별하고,
상기 제어 방법은,
상기 제2 정보에 기초하여 상기 식별된 타겟 객체에 대한 상기 동작을 수행하는 단계;를 더 포함하는, 제어 방법.
제24항에 있어서,
상기 타겟 객체를 식별하는 단계는,
상기 복수의 객체 중 하나에 기초하여 상기 서수에 대응되는 위치의 상기 타겟 객체를 식별하는, 제어 방법.
제25항에 있어서,
상기 타겟 객체를 식별하는 단계는,
상기 복수의 객체 중 하나에 디스플레이된 포커스에 기초하여 상기 서수에 대응되는 위치의 상기 타겟 객체를 식별하는, 제어 방법.
제24항에 있어서,
상기 제1 명령 요소는, 대명사 또는 방향 중 적어도 하나를 더 포함하는, 제어 방법.
제24항에 있어서,
상기 타겟 객체가 식별되면, 상기 컨텐츠 리스트에서 나머지 객체와 상기 타겟 객체를 다르게 디스플레이하는 단계;를 더 포함하는, 제어 방법.
제24항에 있어서,
상기 복수의 객체 각각은, 대응되는 컨텐츠를 나타내는 이미지를 포함하는, 제어 방법.
제24항에 있어서,
상기 응답 정보는, 상기 제1 정보 및 상기 제2 정보의 결합에 의해 생성된 실행 명령 스크립트를 포함하는, 제어 방법.