KR20140089876A - 대화형 인터페이스 장치 및 그의 제어 방법 - Google Patents

대화형 인터페이스 장치 및 그의 제어 방법 Download PDF

Info

Publication number
KR20140089876A
KR20140089876A KR1020130001838A KR20130001838A KR20140089876A KR 20140089876 A KR20140089876 A KR 20140089876A KR 1020130001838 A KR1020130001838 A KR 1020130001838A KR 20130001838 A KR20130001838 A KR 20130001838A KR 20140089876 A KR20140089876 A KR 20140089876A
Authority
KR
South Korea
Prior art keywords
content
user
server
item
voice
Prior art date
Application number
KR1020130001838A
Other languages
English (en)
Inventor
정지혜
송인지
신용욱
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020130001838A priority Critical patent/KR20140089876A/ko
Priority to EP14150032.2A priority patent/EP2752846A1/en
Priority to AU2014200034A priority patent/AU2014200034A1/en
Priority to JP2014000671A priority patent/JP2014132464A/ja
Priority to US14/149,397 priority patent/US20140196092A1/en
Priority to CN201410006680.8A priority patent/CN103916704A/zh
Publication of KR20140089876A publication Critical patent/KR20140089876A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4227Providing Remote input by a user located remotely from the client device, e.g. at work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

디스플레이 장치로부터 수신한 음성 신호에 대응하는 컨텐츠를 제공하는 대화형 인터페이스 장치가 개시된다. 본 대화형 인터페이스 장치는 디스플레이 장치에서 수집한 사용자의 음성에 대응되는 음성 신호를 수신하는 통신부 및, 음성 신호를 이용하여 사용자의 발화 의도를 판단하고, 판단된 발화 의도에 대응되는 컨텐츠를 검색하기 위한 쿼리를 생성하여 컨텐츠에 대한 메타데이터를 항목 별로 구분하여 저장하는 외부 서버로 전송하도록 제어하는 제어부를 포함하며, 제어부는, 음성 신호에서 발화 의도를 판단하기 위한 발화 요소를 추출하고, 추출된 발화 요소를 각 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 쿼리를 생성한다.

Description

대화형 인터페이스 장치 및 그의 제어 방법 { INTERACTIVE INTERFACE APPARATUS AND METHOD FOR COMTROLLING THE SERVER }
본 발명은 대화형 인터페이스 장치 및 그의 제어 방법에 관한 것으로, 더욱 상세하게는 대화형 시스템을 구성하는 대화형 인터페이스 장치 및 그의 제어 방법에 관한 것이다.
전자 기술의 발달에 힘입어 다양한 종류의 디스플레이 장치가 개발되어 보급되고 사용자의 요구에 따라 점차 다양한 기능을 구비하게 되었다. 특히, TV의 경우, 최근에는 인터넷과 연결되어 인터넷 서비스까지 지원하고, 사용자는 TV를 통해 많은 수의 디지털 방송 채널까지 시청할 수 있게 되었다.
한편, 최근에는 디스플레이 장치를 조금 더 편리하고 직관적으로 제어하기 위하여 사용자의 음성을 통해 디스플레이 장치를 제어하는 기술이 개발되고 있다. 특히, TV의 경우, 사용자의 음성을 인식하고, 볼륨 조절 또는 채널 변경과 같이 사용자의 음성에 대응되는 기능을 수행할 수 있게 되었다.
그러나, 종래에는 사용자의 음성에 따라 컨텐츠를 검색하여 사용자에게 제공하지 못한다는 점에서 한계가 존재하였다.
본 발명은 상술한 필요성에 따른 것으로, 서버를 통해 대화형 시스템을 구성할 때, 컨텐츠를 효율적으로 검색할 수 있는 대화형 인터페이스 장치 및 그의 제어 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 디스플레이 장치로부터 수신한 음성 신호에 대응하는 컨텐츠를 제공하는 대화형 인터페이스 장치는 상기 디스플레이 장치에서 수집한 사용자의 음성에 대응되는 음성 신호를 수신하는 통신부 및, 상기 음성 신호를 이용하여 상기 사용자의 발화 의도를 판단하고, 상기 판단된 발화 의도에 대응되는 컨텐츠를 검색하기 위한 쿼리를 생성하여 컨텐츠에 대한 메타데이터를 항목 별로 구분하여 저장하는 외부 서버로 전송하도록 제어하는 제어부를 포함하며, 상기 제어부는, 상기 음성 신호에서 상기 발화 의도를 판단하기 위한 발화 요소를 추출하고, 상기 추출된 발화 요소를 각 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 상기 쿼리를 생성한다..
여기에서, 본 실시 예에 따른 대화형 인터페이스 장치는 국가별 및, 언어별 중 적어도 하나에 따라 컨텐츠 구분 기준이 상이한 복수의 항목을 포함하는 항목 테이블을 저장하는 저장부를 더 포함할 수 있다.
또한, 상기 제어부는, 상기 추출된 발화 요소를 항목 테이블의 복수의 항목 중 적어도 하나의 항목에 대응시키고, 상기 추출된 발화 요소를 상기 적어도 하나의 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 상기 컨텐츠를 검색하기 위한 쿼리를 생성할 수 있다.
그리고, 상기 제어부는, 사용자 선호도에 기초하여, 상기 추출된 발화 요소를 항목 테이블의 복수의 항목 중 적어도 하나의 항목에 대응시키고, 상기 추출된 발화 요소를 상기 적어도 하나의 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 상기 컨텐츠를 검색하기 위한 쿼리를 생성할 수 있다.
또한, 상기 외부 서버는, 상기 컨텐츠에 대한 메타 데이터를 타이틀, 출연자, 제작자, 컨텐츠 타입, 장르, 시청 등급 중 적어도 하나의 항목으로 구분하여 저장할 수 있다.
한편, 본 발명의 일 실시 예에 따른 디스플레이 장치로부터 수신한 음성 신호에 대응하는 컨텐츠를 제공하는 대화형 인터페이스 장치의 제어 방법에 있어서, 상기 디스플레이 장치에서 수집한 사용자의 음성에 대응되는 음성 신호를 수신하는 단계, 상기 음성 신호를 이용하여 상기 사용자의 발화 의도를 판단하고, 상기 판단된 발화 의도에 대응되는 컨텐츠를 검색하기 위한 쿼리를 생성하는 단계 및, 상기 생성된 쿼리를 컨텐츠에 대한 메타데이터를 항목 별로 구분하여 저장하는 외부 서버로 전송하는 단계를 포함하며, 상기 생성하는 단계는, 상기 음성 신호에서 상기 발화 의도를 판단하기 위한 발화 요소를 추출하고, 상기 추출된 발화 요소를 각 항목 내의 컨텐츠 구분 기준에 대응되도록 변환하여 상기 쿼리를 생성한다.
여기에서, 상기 대화형 인터페이스 장치는, 국가별 및, 언어별 중 적어도 하나에 따라 컨텐츠 구분 기준이 상이한 복수의 항목을 포함하는 항목 테이블을 저장할 수 있다.
또한, 상기 생성하는 단계는, 상기 추출된 발화 요소를 항목 테이블의 복수의 항목 중 적어도 하나의 항목에 대응시키고, 상기 추출된 발화 요소를 상기 적어도 하나의 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 상기 컨텐츠를 검색하기 위한 쿼리를 생성할 수 있다.
그리고, 상기 생성하는 단계는, 사용자 선호도에 기초하여, 상기 추출된 발화 요소를 항목 테이블의 복수의 항목 중 적어도 하나의 항목에 대응시키고, 상기 추출된 발화 요소를 상기 적어도 하나의 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 상기 컨텐츠를 검색하기 위한 쿼리를 생성할 수 있다.
또한, 상기 외부 서버는, 상기 컨텐츠에 대한 메타 데이터를 타이틀, 출연자, 제작자, 컨텐츠 타입, 장르, 시청 등급 중 적어도 하나의 항목으로 구분하여 저장할 수 있다.
본 발명의 다양한 실시 예에 따르면, 대화형 시스템에서 사용자의 음성에 따라 컨텐츠를 검색할 때, 효율적으로 컨텐츠를 검색할 수 있다. 특히, 대화형 시스템을 구성하는 대화형 인터페이스 장치가 컨텐츠에 대한 메타데이터를 구조화하여 저장하는 외부 서버를 통해 컨텐츠 검색을 수행하는 경우, 메타데이터가 구조화된 형식에 맞게 쿼리를 생성할 수 있게 된다. 이에 따라, 사용자는 자신의 표현 방식대로 발화하여도 사용자의 발화 의도에 부합하는 컨텐츠 검색 결과를 제공받을 수 있어, 대화형 시스템에서 사용자의 편의성이 향상될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 대화형 시스템을 설명하기 위한 도면,
도 2는 본 발명의 일 실시 예에 따른 디스플레이 장치에 대한 블록도,
도 3은 도 1에 도시된 제1 서버에 대한 블록도,
도 4는 도 1에 도시된 제2 서버에 대한 블록도,
도 5 내지 도 11은 본 발명의 다양한 실시 예를 설명하기 위한 도면들,
도 12는 본 발명의 일 실시 예에 따라 디스플레이 장치에서 출력되는 시스템 응답의 일 예를 도시한 도면, 그리고
도 13은 본 발명의 일 실시 예에 따른 대화형 인터페이스 장치의 제어 방법을 설명하기 위한 흐름도이다.
이하에서는 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시 예에 따른 대화형 시스템을 설명하기 위한 도면이다. 도 1에 도시된 바와 같이, 대화형 시스템(1000)은 디스플레이 장치(100), 제1 서버(200), 제2 서버(300) 및 외부 서버(400)를 포함한다. 여기에서, 제2 서버(300)는 본 발명에서의 대화형 인터페이스 장치로 구현될 수 있다.
디스플레이 장치(100)는 디스플레이 장치(100)를 제어하기 위한 리모컨(미도시)에 의해 제어될 수 있다. 구체적으로, 디스플레이 장치(100)는 리모컨(미도시)로부터 수신된 리모컨 제어 신호에 대응되는 동작을 수행할 수 있다. 예를 들어, 디스플레이 장치(100)가 도 1과 같이 TV로 구현된 경우, 디스플레이 장치(100)는 리모컨(미도시)으로부터 수신된 리모컨 제어 신호에 따라 전원 온/오프, 채널 전환, 볼륨 변경 등의 동작을 수행할 수 있다.
또한, 디스플레이 장치(100)는 사용자의 음성에 대응되는 다양한 동작을 수행할 수 있다.
구체적으로, 디스플레이 장치(100)는 사용자의 음성에 대응되는 기능을 수행하거나, 사용자의 음성에 대응되는 시스템 응답을 출력할 수 있다.
이를 위해, 디스플레이 장치(100)는 수집된 사용자의 음성을 제1 서버(200)로 전송한다. 제1 서버(200)는 디스플레이 장치(100)로부터 사용자의 음성이 수신되면, 수신된 사용자의 음성을 텍스트 정보(즉, 텍스트)로 변환하고 텍스트 정보를 디스플레이 장치(100)로 전송한다.
그리고, 디스플레이 장치(100)는 제2 서버(300)는 사용자의 음성에 대응되는 음성 신호를 제2 서버(300)로 전송한다. 여기에서, 사용자의 음성에 대응되는 음성 신호는 제1 서버(200)로부터 수신된 텍스트 정보일 수 있다. 제2 서버(300)는 디스플레이 장치(100)로부터 음성 신호가 수신되면, 수신된 음성 신호에 대응되는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다.
디스플레이 장치(100)는 제2 서버(300)로부터 수신된 응답 정보에 기초하여 다양한 동작을 수행할 수 있다. 여기에서, 응답 정보는 디스플레이 장치(100)가 특정 기능을 수행하거나 시스템 응답을 출력하기 위한 제어 명령 및 디스플레이 장치(100)에서 출력되는 시스템 응답에 대한 다양한 정보 중 적어도 하나를 포함할 수 있다.
구체적으로, 디스플레이 장치(100)는 사용자의 음성에 대응되는 기능을 수행할 수 있다. 즉, 디스플레이 장치(100)는 디스플레이 장치(100)에서 제공 가능한 기능 중 사용자의 음성에 대응되는 기능을 실행할 수 있다. 예를 들어, 디스플레이 장치(100)는 "○번(채널번호) 틀어줘"라는 사용자의 음성이 입력되면, 제2 서버(300)로부터 수신된 제어 명령에 기초하여 ○번을 선국하여 출력할 수 있다.
또한, 디스플레이 장치(100)는 사용자의 음성에 대응되는 시스템 응답을 출력할 수 있다. 예를 들어, 디스플레이 장치(100)는 "애들이 볼만한 영화 추천해줘"라는 사용자의 음성이 입력되면, 제2 서버(300)로부터 수신된 제어 명령에 기초하여 사용자의 음성에 대응되는 검색 결과를 시스템 응답으로 출력할 수 있다.
이 경우, 제2 서버(300)는 시스템 응답을 출력하기 위한 다양한 정보를 디스플레이 장치(100)로 전송할 수 있다. 예를 들어, 제2 서버(300)는 "애들이 볼만한 영화 추천해줘"라는 사용자의 음성에 따라 검색된 컨텐츠에 대한 정보를 디스플레이 장치(100)로 전송할 수 있다.
이와 같이, 디스플레이 장치(100)는 제2 서버(300)로부터 수신된 응답 정보에 기초하여, 사용자의 음성에 대응되는 다양한 동작을 수행할 수 있다.
한편, 제2 서버(300)는 음성 신호가 컨텐츠의 검색 또는 추천과 관련된 경우, 사용자의 발화 의도에 부합하는 컨텐츠를 검색하고, 검색 결과를 디스플레이 장치(100)로 전송할 수 있다.
이를 위해, 제2 서버(300)는 사용자의 발화 의도에 부합하는 컨텐츠를 검색하기 위한 쿼리(query)를 생성하여 외부 서버(400)로 전송하고, 검색 결과를 외부 서버(400)로부터 수신할 수 있다.
여기에서, 외부 서버(400)는 메타데이터를 구조화하여(structured) 저장할 수 있다. 구체적으로, 외부 서버(400)는 컨텐츠에 대한 메타데이터를 항목(또는, 필드)별로 구분하고, 각 항목 내의 컨텐츠 구분 기준에 따라 컨텐츠에 대한 메타데이터를 구조화하여 저장할 수 있다. 여기에서, 항목은 컨텐츠에 대한 메타데이터를 구분하는 속성이고, 컨텐츠 구분 기준은 각 항목 내에서 컨텐츠를 구분하기 위한 세부 속성이 될 수 있다. 예를 들어, 항목이 시청 등급인 경우 컨텐츠 구분 기준은 All, under 7 years, under 13 years, over 18 years 등과 같이 시청 등급을 세분화할 수 있는 기준이 될 수 있다. 다른 예로, 항목이 장르인 경우 컨텐츠 구분 기준은 "drama", "comedy", "fantasy" 등과 같이 장르를 세분화할 수 있는 기준이 될 수 있다.
구체적으로, 제2 서버(300)는 음성 신호에서 사용자의 발화 의도를 판단하기 위한 발화 요소를 추출하고, 추출된 발화 요소를 각 항목 내의 컨텐츠 구분 기준에 대응되도록 변환하여 컨텐츠 검색을 위한 쿼리를 생성하고, 생성된 쿼리를 외부 서버(400)로 전송할 수 있다. 외부 서버(400)는 제2 서버(300)로부터 수신된 쿼리에 따라 컨텐츠를 검색하고, 검색 결과를 제2 서버(300)로 전송할 수 있다.
예를 들어, 제2 서버(300)는 "애들이 볼만한 판타지 추천해줘"라는 음성 신호에서 발화 요소로 "애들" 및 "판타지"를 추출하고, "애들"은 컨텐츠에 대한 메타데이터에서 시청 등급을 나타내고, "판타지"는 컨텐츠에 대한 메타데이터에서 장르를 나타내는 것으로 판단할 수 있다. 이에 따라, 제2 서버(300)는 "애들"를 메타데이터 중 시청 등급에 대응시키고, "판타지"를 메타데이터 중 장르로 대응시킬 수 있다.
그리고, 제2 서버(300)는 외부 서버(400)의 구조화된 메타데이터를 참조하여, 추출된 "애들"을 시청 등급 내의 컨텐츠 구분 기준 중 under 7 years로 변환하고 "판타지"는 장르 내의 컨텐츠 구분 기준 중 fantasy로 변환하여, 시청 등급: under 7 years, 장르: fantasy를 이용하여 검색 쿼리를 생성하고, 생성된 쿼리를 외부 서버(400)로 전송할 수 있다.
이에 따라, 외부 서버(400)는 구조화된 메타데이터의 시청 등급 내에서 under 7 years를 만족하고 장르 내에서 fantasy를 만족하는 컨텐츠를 검색하고, 검색 결과를 제2 서버(300)로 전송할 수 있다.
한편, 제2 서버(300)는 "애들이 볼만한 판타지 추천해줘"에 대응되는 시스템 응답을 출력하기 위한 제어 명령 및 검색 결과에 대한 정보를 디스플레이 장치(100)로 전송하며, 디스플레이 장치(100)는 제2 서버(300)로부터 수신된 응답 정보에 기초하여 사용자의 음성에 대응되는 시스템 응답을 출력할 수 있다. 상술한 예에서, 디스플레이 장치(100)는 "애들이 볼만한 판타지 추천해줘"에 대한 시스템 응답으로 검색된 컨텐츠에 대한 리스트를 출력할 수 있다.
이와 같이, 서버가 컨텐츠에 대한 메타데이터를 구조화하여 저장하는 외부 서버를 통해 컨텐츠 검색을 수행하는 경우, 서버는 메타데이터가 구조화된 형식에 맞게 쿼리를 생성할 수 있게 된다. 이에 따라, 컨텐츠 검색 시 사용자의 발화 의도에 더욱 부합하는 컨텐츠 검색 결과를 제공할 수 있어, 대화형 시스템에서 사용자의 편의성이 향상될 수 있다.
한편, 도 1에서는 디스플레이 장치(100)가 TV인 것으로 도시하였으나 이는 일 예에 불과하다. 즉, 디스플레이 장치(100)는 TV뿐만 아니라, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다.
또한, 도 1에서 제1 서버(200) 및 제2 서버(300)가 별도의 서버로 구현되는 것으로 도시하였으나 이 역시 일 예에 불과하다. 즉, 제1 서버(200)와 제2 서버(300)를 포함하는 하나의 대화형 서버로 구현될 수 있음은 물론이다. 이와 같이, 제1 서버(200) 및 제2 서버(300)가 하나의 대화형 서버로 구현되는 경우, 대화형 서버는 디스플레이 장치(100)로부터 수신된 사용자의 음성을 텍스트 정보로 변환하여 사용자의 발화 의도에 부합하는 응답 정보를 생성할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 디스플레이 장치에 대한 블록도이다. 도 2와 같이, 디스플레이 장치(100)는 출력부(110), 음성 수집부(120), 제1 통신부(130), 제2 통신부(135), 저장부(140), 수신부(150), 신호 처리부(160), 리모컨 신호 수신부(171), 입력부(173), 인터페이스부(175) 및 제어부(180)를 포함할 수 있다.
도 2에서는 디스플레이 장치(100)에 포함될 수 있는 다양한 구성요소에 대하여 도시하였으나, 디스플레이 장치(100)가 반드시 전체 구성요소들을 포함하여야 하는 것은 아니며, 이들 구성요소만을 가지는 것으로 한정되는 것도 아니다. 즉, 디스플레이 장치(100)의 제품 종류에 따라 구성요소들 일부가 생략되거나 추가될 수 있고, 또는, 타 구성요소들로 대체될 수도 있음은 물론이다.
출력부(110)는 음성 및 영상 중 적어도 하나를 출력한다. 구체적으로, 출력부(110)는 음성 수집부(120)를 통해 수집된 사용자의 음성에 대응되는 시스템 응답을 음성 및 UI 화면 중 적어도 하나의 형태로 출력할 수 있다.
여기에서, UI 화면은 사용자의 음성에 대응되는 시스템 응답이 텍스트 형식으로 표현되거나, 사용자의 음성에 따라 검색된 검색 결과가 리스트 형식으로 표현될 수 있다.
이를 위해, 출력부(110)는 디스플레이부(111) 및 오디오 출력부(113)를 구비할 수 있다.
구체적으로, 디스플레이부(111)는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel, PDP) 등으로 구현될 수 있다.
디스플레이부(111)는 디스플레이 장치(100)를 통해 제공 가능한 다양한 디스플레이 화면을 제공할 수 있다. 특히, 디스플레이부(111)는 사용자의 음성에 대응되는 시스템 응답을 UI 화면으로 구성하여 디스플레이할 수 있다.
한편, 오디오 출력부(113)는 잭 등과 같은 출력 포트 또는 스피커 등으로 구현되어, 사용자의 음성에 대응되는 시스템 응답을 음성 형태로 출력할 수 있다.
또한, 출력부(110)는 다양한 컨텐츠를 출력할 수 있다. 여기에서, 컨텐츠는 방송 컨텐츠, VOD 컨텐츠 등을 포함할 수 있다. 예를 들어, 디스플레이부(111)는 컨텐츠를 구성하는 영상을 출력하고, 오디오 출력부(113)는 컨텐츠를 구성하는 오디오를 출력할 수 있다.
음성 수집부(120)는 사용자의 음성을 수집한다. 예를 들어, 음성 수집부(120)는 사용자의 음성을 수집하기 위한 마이크로 구현되며, 디스플레이 장치(100)에 내장되어 일체형을 이루거나, 디스플레이 장치(100)와 분리된 형태로 구현될 수 있다. 분리된 형태로 구현되는 경우, 음성 수집부(120)는 사용자가 손으로 쥐는 형태, 또는 식탁이나 테이블에 놓일 수 있는 형태로 구현될 수 있으며, 디스플레이 장치(100)와 유선 또는 무선 네트워크를 통하여 연결되어, 수집된 사용자의 음성을 디스플레이 장치(100)로 전송할 수 있다.
한편, 음성 수집부(120)는 수집된 음성이 사용자의 음성인지를 판단하고, 사용자의 음성에서 노이즈(예를 들어, 에어컨 소리, 청소기 소리, 음악 소리 등)를 필터링할 수도 있다.
예를 들어, 음성 수집부(120)는 아날로그 형태의 사용자 음성이 입력되면, 이를 샘플링하여 디지털 신호로 변환한다. 그리고, 음성 수집부(120)는 변환된 디지털 신호의 에너지를 계산하여, 디지털 신호의 에너지가 기설정된 값 이상인지 여부를 판단한다.
디지털 신호의 에너지가 기설정된 값 이상인 경우, 음성 수집부(120)는 디지털 신호에서 노이즈 성분을 제거하여 제1 통신부(130)로 전달한다. 이때, 노이즈 성분은 가정 환경에서 발생할 수 있는 돌발성 잡음으로써, 에어컨 소리, 청소기 소리, 음악 소리 등이 포함될 수 있다. 한편, 디지털 신호의 에너지가 기설정된 값 미만인 경우, 음성 수집부(120)는 디지털 신호에 별다른 처리 과정을 수행하지 않고, 다른 입력을 기다린다.
이에 따라, 사용자의 음성이 아닌 다른 소리에 의해 전체 오디오 처리 과정이 활성화되지 않아, 불필요한 전력 소모를 방지할 수 있다.
제1 통신부(130)는 제1 서버(도 1의 200)와 통신을 수행한다. 구체적으로, 제1 통신부(130)는 사용자의 음성을 제1 서버(200)로 전송하고, 사용자의 음성에 대응되는 음성 신호를 제1 서버(200)로부터 수신할 수 있다.
제2 통신부(135)는 제2 서버(도 1의 300)와 통신을 수행한다. 구체적으로, 제2 통신부(135)는 수신된 음성 신호를 제2 서버(300)로 전송하고, 음성 신호에 대응되는 응답 정보를 제2 서버(300)로부터 수신할 수 있다.
이들의 경우, 음성 신호는 사용자의 음성에 변환된 텍스트 정보일 수 있다. 하지만, 이는 일 예일 뿐이며, 상술한 바와 같이 제1 서버(200) 및 제2 서버(300)가 하나의 대화형 서버로 구현된 경우, 디스플레이 장치(100)는 음성 수집부(120)를 통해 수집한 사용자의 음성을 대화형 서버로 전송하고, 대화형 서버로부터 사용자의 발화 의도에 부합하는 응답 정보를 수신할 수 있다.
이를 위해, 제1 통신부(130) 및 제2 통신부(135)는 다양한 통신 방식을 이용하여 제1 서버(200) 및 제2 서버(300)와 통신을 수행할 수 있다.
예를 들어, 제1 통신부(130) 및 제2 통신부(135)는 유/무선 LAN(Local Area Network), WAN, 이더넷, 블루투스(Bluetooth), 지그비(Zigbee), USB(Universal Serial Bus), IEEE 1394, 와이파이(Wifi) 등을 이용하여, 제1 서버(200) 및 제2 서버(300)와 통신을 수행할 수 있다. 이를 위해, 제1 통신부(130) 및 제2 통신부(135)는 각 통신 방식에 대응되는 칩 또는 입력 포트 등을 구비할 수 있다. 예를 들어, 유선 LAN 방식으로 통신을 수행하는 경우, 제1 통신부(130) 및 제2 통신부(135)는 유선 LAN 카드(미도시) 및 입력 포트(미도시)를 구비할 수 있다.
한편, 상술한 실시 예에서는, 디스플레이 장치(100)가 제1 서버(200) 및 제2 서버(300)와 통신을 수행하기 위해, 별도의 통신부(130, 135)를 구비하는 것으로 설명하였으나 이는 일 예에 불과하다. 즉, 디스플레이 장치(100)는 하나의 통신 모듈을 통해 제1 서버(200) 및 제2 서버(300)와 통신을 할 수 있음은 물론이다.
또한, 상술한 실시 예에서는, 제1 통신부(130) 및 제2 통신부(135)는 제1 서버(200) 및 제2 서버(300)와 통신을 수행하는 것으로 설명하였으나, 이는 일 예에 불과하다. 즉, 제1 통신부(130) 및 제2 통신부(135)는 웹 서버(미도시)에 연결되어 웹 브라우징을 수행할 수도 있다.
저장부(140)는 디스플레이 장치(100)를 동작시키기 위해 필요한 각종 프로그램 등이 저장되는 저장매체로서, 메모리, HDD(Hard Disk Drive) 등으로 구현가능하다. 예를 들어, 저장부(140)는 제어부(180)의 동작 수행을 위한 프로그램을 저장하기 위한 ROM, 제어부(180)의 동작 수행에 따른 데이터를 일시적으로 저장하기 위한 RAM 등을 구비할 수 있다. 또한 각종 참조 데이터를 저장하기 위한 EEROM(Electrically Erasable and Programmable ROM) 등을 더 구비할 수 있다.
수신부(150)는 다양한 컨텐츠를 수신한다. 여기에서, 컨텐츠는 방송 컨텐츠, VOD 컨텐츠 등을 포함할 수 있다.
구체적으로, 수신부(150)는 방송 네트워크를 이용하여 방송 프로그램을 전송하는 방송국 또는 인터넷을 이용하여 컨텐츠 파일을 전송하는 웹 서버로부터 컨텐츠를 수신할 수 있다. 또한, 디스플레이 장치(100) 내에 마련되거나 디스플레이 장치(100)에 연결된 각종 기록 매체 재생 장치로부터 컨텐츠를 수신할 수도 있다. 기록 매체 재생 장치란 CD, DVD, 하드디스크, 블루레이 디스크, 메모리 카드, USB 메모리 등과 같은 다양한 유형의 기록 매체에 저장된 컨텐츠를 재생하는 장치를 의미한다.
방송국으로부터 컨텐츠를 수신하는 실시 예의 경우에는, 수신부(150)는 튜너(미도시), 복조기(미도시), 등화기(미도시) 등과 같은 구성을 포함하는 형태로 구현될 수 있다. 반면, 웹 서버와 같은 소스로부터 컨텐츠를 수신하는 실시 예의 경우에는, 수신부(150)는 네트워크 인터페이스 카드(미도시)로 구현될 수 있다. 또는, 상술한 각종 기록 매체 재생 장치로부터 컨텐츠를 수신하는 실시 예의 경우에는, 수신부(150)는 기록 매체 재생 장치와 연결된 인터페이스부(미도시)로 구현될 수 있다. 이와 같이, 수신부(150)는 실시 예에 따라 다양한 형태로 구현될 수 있다.
신호 처리부(160)는 수신부(150)를 통해 수신된 컨텐츠가 출력부(110)를 통해 출력될 수 있도록 컨텐츠에 대한 신호처리를 수행한다.
구체적으로, 신호 처리부(160)는 컨텐츠에 포함된 영상에 대해 디코딩, 스케일링 및 프레임 레이트 변환 등의 동작을 수행하여, 디스플레이부(111)에서 출력 가능한 형태로 변환할 수 있다. 또한, 신호 처리부(180)는 컨텐츠에 포함된 오디오 신호에 대해 디코딩 등의 신호 처리를 수행하여 오디오 출력부(113)에서 출력 가능한 형태로 변환할 수 있다.
리모컨 신호 수신부(171)는 외부의 리모컨으로부터 리모컨 제어 신호를 수신한다. 제어부(180)는 리모컨 신호 수신부(171)에 수신된 리모컨 제어 신호에 기초하여, 다양한 동작을 실행할 수 있다. 예를 들어, 제어부(180)는 리모컨 신호 수신부(171)를 통해 수신된 제어 신호에 따라, 전원 온/오프, 채널 변경, 볼륨 조절 등의 동작을 실행할 수 있다.
입력부(173)는 다양한 사용자 명령을 입력받는다. 제어부(180)는 입력부(173)에서 입력된 사용자 명령에 대응되는 동작을 실행할 수 있다. 예를 들어, 제어부(180)는 입력부(173)에서 입력된 사용자 명령에 따라 전원 온/오프, 채널 변경, 볼륨 조절 등을 실행할 수 있다.
이를 위해, 입력부(173)는 입력 패널로 구현될 수 있다. 입력 패널은 터치패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen) 방식으로 이루어질 수 있다.
인터페이스부(175)는 외부 기기(미도시)와 통신을 수행한다. 여기에서, 외부 기기(미도시)는 다양한 전자 장치가 될 수 있다. 가령, 디스플레이 장치(100)가 TV로 구현된 경우, 외부 기기(미도시)는 셋탑박스, 음향 기기, 게임기 등과 같이 디스플레이 장치(100)에 연결되어 기능을 수행할 수 있는 다양한 형태의 전자 장치로 구현될 수 있다.
예를 들어, 인터페이스부(175)는 HDMI, USB 등의 각종 유선 통신 방식 또는, 블루투스, 지그비 등의 무선 통신 방식에 따라 외부 기기(미도시)와 통신을 수행할 수 있다. 이를 위해, 인터페이스부(175)는 각 통신 방식에 대응되는 칩 또는 입력 포트 등을 구비할 수 있다. 예를 들어, HDMI 통신 방식에 따라 외부 기기(미도시)와 통신을 수행하는 경우, 인터페이스부(175)는 HDMI 포트를 구비할 수 있다.
제어부(180)는 디스플레이 장치(100)의 전반적인 동작을 제어한다. 즉, 제어부(180)는 출력부(110), 음성 수집부(120), 제1 통신부(130), 제2 통신부(135), 저장부(135), 수신부(150), 신호 처리부(160), 리모컨 신호 수신부(171), 입력부(173) 및 인터페이스부(175)의 동작을 제어할 수 있다. 제어부(180)는 CPU(central processing unit) 및 디스플레이 장치(100)를 제어하기 위한 모듈 및 데이터를 저장하는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.
구체적으로, 제어부(180)는 음성 수집부(120)를 통해 사용자의 음성을 수집하고, 수집된 사용자의 음성을 제1 서버(300)로 전송하도록 제1 통신부(130)를 제어할 수 있다. 그리고, 제어부(180)는 사용자의 음성에 대응되는 음성 신호가 수신되면, 수신된 음성 신호를 제2 서버(300)로 전송하도록 제2 통신부(135)를 제어할 수 있다.
한편, 제어부(180)는 사용자의 음성에 대응되는 응답 정보가 제2 서버(300)로부터 수신되면, 수신된 응답 정보에 기초하여 다양한 동작을 수행할 수 있다.
구체적으로, 제어부(180)는 수신된 응답 정보에 기초하여 사용자의 음성에 대응되는 기능을 수행하거나, 사용자의 음성에 대응되는 시스템 응답을 출력할 수 있다.
이를 위해, 응답 정보는 디스플레이 장치(100)의 기능을 제어하기 위한 제어 명령을 포함할 수 있다. 여기에서, 제어 명령은 디스플레이 장치(100)에서 실행 가능한 기능들 중 사용자의 음성에 대응되는 기능을 실행하기 위한 명령을 포함할 수 있다. 이에 따라, 제어부(180)는 제2 서버(300)로부터 수신된 제어 명령에 기초하여, 사용자의 음성에 대응되는 기능이 실행되도록 디스플레이 장치(100)의 각 구성요소를 제어할 수 있다.
예를 들어, TV로 구현된 디스플레이 장치(100)가 "○번(채널 번호) 틀어줘"라는 사용자의 음성을 수집하면, 제2 서버(300)는 "○번(채널 번호) 틀어줘"라는 사용자의 음성에 포함된 발화 의도는 ○번(채널 번호)으로 채널 변경을 요청하는 것으로 판단하고, 판단된 발화 의도에 따라 ○번(채널 번호)으로 채널 변경을 변경하기 위한 제어 명령을 디스플레이 장치(100)로 전송할 수 있다.
이에 따라, 제어부(180)는 수신된 제어 명령에 기초하여 ○번(채널 번호)을 선국하도록 수신부(150)를 제어하고, 수신부(150)를 통해 수신된 방송 컨텐츠를 출력부(110)를 통해 출력하도록 제어할 수 있다.
다만, 이는 일 예일 뿐, 제어부(180)는 수집된 사용자의 음성에 따라 전원 온/오프. 볼륨 조절 등 다양한 동작이 수행되도록 디스플레이 장치(100)의 각 구성요소를 제어할 수도 있다.
또한, 응답 정보는 사용자 음성에 대응되는 시스템 응답을 출력하기 위한 다양한 정보를 포함할 수 있다.
구체적으로, 컨텐츠 검색을 위한 사용자의 음성이 디스플레이 장치(100)에서 수집된 경우, 제2 서버(300)는 사용자의 발화 의도를 판단하고 그에 부합하는 컨텐츠를 검색한다. 그리고, 제2 서버(300)는 검색된 컨텐츠에 대한 정보를 시스템 응답으로 출력하기 위한 제어 명령을 디스플레이 장치(100)로 전송할 수 있다. 이 경우, 제2 서버(300)는 검색된 컨텐츠에 대한 정보(가령, 타이틀, 썸네일, 방송 시간, 출연자, 제작자 등 중 적어도 하나)를 제어 명령과 함께 디스플레이 장치(100)로 전송할 수도 있다.
이에 따라, 제어부(180)는 제2 서버(300)로부터 수신된 응답 정보에 기초하여 사용자의 음성에 대응되는 시스템 응답을 출력하도록 제어할 수 있다.
예를 들어, TV로 구현된 디스플레이 장치(100)가 "애들이 볼만한 판타지 추천해줘"라는 사용자의 음성을 수집한 경우를 가정한다.
이 경우, 제2 서버(300)는 "애들이 볼만한 판타지 추천해줘"라는 사용자의 음성에 포함된 발화 의도는 애들, 판타지에 대한 검색 요청인 것으로 판단하고, 발화 의도에 부합하는 컨텐츠를 검색한다.
그리고, 제2 서버(300)는 검색된 컨텐츠에 대한 리스트를 디스플레이하기 위한 제어 명령을 디스플레이 장치(100)로 전송할 수 있다. 이 경우, 제어부(180)는 웹 브라우징 또는 EPG(Electronic Program Guide)로부터 제어 명령에 대응되는 컨텐츠를 검색하고, 검색된 컨텐츠에 대한 리스트를 구성하는 UI 화면을 출력하도록 디스플레이부(111)를 제어할 수 있다. .
다른 한편, 제2 서버(300)는 검색된 컨텐츠에 대한 리스트를 디스플레이하기 위한 제어 명령 및 검색된 컨텐츠에 대한 정보를 디스플레이 장치(100)로 전송할 수도 있다. 이 경우, 제어부(180)는 수신된 컨텐츠에 대한 정보를 이용하여 컨텐츠에 대한 리스트를 구성하는 UI 화면을 출력하도록 디스플레이부(111)를 제어할 수 있다.
상기와 같은 예들에서, 제어부(180)는 발화 의도에 부합하는 컨텐츠에 대한 타이틀, 썸네일, 방송 시간, 출연자, 제작자 등 중 적어도 하나를 포함하는 검색 리스트를 포함하는 UI 화면을 출력하도록 제어할 수 있다.
다른 한편, 응답 정보는 시스템 응답을 출력하기 위한 시스템 응답 정보를 포함할 수 있다.
여기에서, 시스템 응답 정보는 사용자의 음성에 대해 디스플레이 장치(100)에서 출력되는 시스템 응답이 텍스트 형식으로 표현된 것일 수 있다. 이에 따라, 제어부(180)는 시스템 응답 정보에 기초하여 사용자의 음성에 대응되는 시스템 응답을 음성 및 UI 화면 중 적어도 하나의 형태로 출력하도록 출력부(110)를 제어할 수 있다.
예를 들어, 제어부(180)는 TTS(Text to Speech) 엔진을 이용하여, 텍스트 형태의 응답 메시지 정보를 음성으로 변환하여 오디오 출력부(113)를 통해 출력할 수 있다. 여기에서, TTS 엔진은 텍스트를 음성으로 변환하기 위한 모듈로서, 종래 개시되어 있는 다양한 TTS 알고리즘을 이용하여 텍스트를 음성으로 변환할 수 있다. 또한, 제어부(150)는 시스템 응답 정보를 구성하는 텍스트가 포함되도록 UI 화면을 구성하여 디스플레이부(110)를 통해 출력할 수도 있다.
예를 들어, TV로 구현된 디스플레이 장치(100)가 "애들이 볼만한 판타지 추천해줘"라는 사용자의 음성을 수집하면, 제2 서버(300)는 "애들이 볼만한 판타지는 ○○○(판타지 영화 명칭)입니다"를 텍스트 형식으로 표현하여 디스플레이 장치(100)로 전송할 수 있다. 이 경우, 제어부(180)는 텍스트 형식으로 표현된 "애들이 볼만한 판타지는 ○○○(판타지 영화 명칭)입니다"를 음성으로 변환하여 오디오 출력부(113)를 통해 출력하거나, "애들이 볼만한 판타지는 ○○○(판타지 영화 명칭)입니다"라는 텍스트가 포함되도록 UI 화면을 구성하여 디스플레이부(111)를 통해 출력하도록 제어할 수 있다.
또한, 응답 정보는 제어 명령에 따라 실행된 기능과 관련된 시스템 응답 정보를 포함할 수 있다. 이 경우, 제어부(180)는 제어 명령에 따른 기능을 수행하고, 시스템 응답 정보에 기초하여 실행된 기능과 관련된 시스템 응답을 음성 및 UI 화면 중 적어도 하나의 형태로 출력하도록 제어할 수 있다.
예를 들어, TV로 구현된 디스플레이 장치(100)가 "○번(채널 번호) 틀어줘"라는 사용자의 음성을 수집한 경우, 제2 서버(300)는 디스플레이 장치(100)의 채널을 ○번(채널 번호)으로 변경하기 위한 제어 명령과 "채널을 ○번(채널 번호)으로 채널을 변경하였습니다"를 텍스트 형식으로 디스플레이 장치(100)로 전송할 수 있다.
이 경우, 제어부(180)는 제어 명령에 기초하여 ○번(채널 번호)을 선국하도록 수신부(150)를 제어하여, ○번(채널 번호)을 통해 제공되는 컨텐츠를 출력하도록 할 수 있다. 그리고, 제어부(180)는 "채널을 ○번(채널 번호)으로 변경하였습니다"를 음성으로 변환하여 음성 출력부(113)를 통해 출력하거나, "채널을 ○번(채널 번호)으로 변경하였습니다"라는 텍스트가 포함되도록 UI 화면을 구성하여 디스플레이부(111)를 통해 출력하도록 제어할 수 있다.
상술한 바와 같이, 제어부(180)는 제2 서버(300)로부터 수신된 다양한 형태의 응답 정보에 기초하여, 사용자의 음성에 대응되는 기능을 실행하거나 사용자의 음성에 대응되는 시스템 응답을 출력할 수 있다.
한편, 디스플레이 장치(100)에서 별도의 기능을 실행함이 없이 사용자의 음성에 대응되는 시스템 응답을 출력하는 경우는, 사용자의 음성이 디스플레이 장치(100)에서 실행될 수 없는 기능을 실행시키고자 하는 경우를 더 포함할 수 있다.
예를 들어, 디스플레이 장치(100)가 화상통화 기능을 지원하지 않는 TV로 구현된 경우를 가정한다. 이 경우, 디스플레이 장치(100)에서 "XXX에게 전화 걸어줘"라는 사용자의 음성을 수집하면, 제2 서버(300)는 화상통화 수행을 위한 제어 명령을 디스플레이 장치(100)로 전송할 수 있다. 하지만, 디스플레이 장치(100)에서는 해당 제어 명령에 대응되는 기능이 지원되지 않는다는 점에서, 제어부(180)는 제2 서버(300)로부터 수신된 제어 명령을 인식할 수 없게 된다. 이 경우, 제어부(180)는 "지원되지 않는 기능입니다"라는 시스템 응답을 출력부(110)를 통해 음성 및 UI 화면 중 적어도 하나의 형태로 출력할 수 있다.
한편, 상술한 실시 예에서는, 제2 서버(300)로부터 전송되는 시스템 응답 정보는 시스템 응답이 텍스트 형식으로 표현된 것으로 설명하였으나 이는 일 예에 불과하다. 즉, 시스템 응답 정보는 디스플레이 장치(100)에서 출력되는 시스템 응답을 구성하는 음성 데이터 자체이거나, 해당 시스템 응답을 구성하는 음성 데이터의 일부이거나, 디스플레이 장치(100)에 기저장된 음성 또는 텍스트를 이용하여 해당 시스템 응답을 출력하기 위한 제어 신호의 형태가 될 수 있다.
이에 따라, 제어부(180)는 시스템 응답 정보의 형태를 고려하여, 시스템 응답을 출력할 수 있다.
구체적으로, 제어부(180)는 시스템 응답을 구성하는 음성 데이터 자체가 수신되면, 해당 데이터를 오디오 출력부(113)에서 출력가능한 형태로 처리하여 음성 형태로 출력할 수 있다.
다른 한편, 제어부(180)는 시스템 응답을 출력하기 위한 제어 신호가 수신되면, 디스플레이 장치(100)에 기저장된 데이터들 중에서 제어 신호에 매칭되는 데이터를 검색하고, 검색된 음성 또는 텍스트 데이터를 출력가능한 형태로 처리하여 출력부(110)를 통해 출력할 수 있다. 이를 위해, 디스플레이 장치(100)는 시스템 응답을 제공하기 위한 음성 또는 텍스트 데이터를 저장하고 있을 수 있다. 예를 들어, 디스플레이 장치(100)는 "채널 변경이 완료되었습니다"와 같은 완전한 문장 형태의 데이터를 저장하고 있을 수 있으며, 또한 "채널 ...번으로 변경하였습니다"와 같은 문장을 구성하는 일부 데이터를 저장하고 있을 수 있다. 이 경우, 해당 문장을 완성시키는 채널 명은 제2 서버(300)로부터 수신될 수 있다.
도 3은 도 1에 도시된 제1 서버에 대한 블록도를 나타낸다. 도 3에 도시된 바와 같이, 제1 서버(200)는 통신부(210) 및 제어부(220)를 포함한다.
통신부(210)는 디스플레이 장치(100)와 통신을 수행한다. 구체적으로, 통신부(210)는 디스플레이 장치(100)로부터 사용자의 음성을 수신하고, 사용자의 음성에 대응되는 음성 신호를 디스플레이 장치(100)로 전송할 수 있다. 이를 위해, 통신부(210)는 다양한 통신 모듈을 포함할 수 있다.
제어부(220)는 제1 서버(200)의 전반적인 동작을 제어한다. 특히, 제어부(220)는 디스플레이 장치(100)로부터 사용자의 음성이 수신되면, 사용자의 음성에 대응되는 음성 신호를 생성하고, 이를 디스플레이 장치(100)로 전송하도록 통신부(210)를 제어한다. 여기에서, 음성 신호는 사용자의 음성이 변환된 텍스트 정보일 수 있다.
구체적으로, 제어부(220)는 STT(Speech to Text) 엔진을 이용하여, 사용자의 음성에 대응되는 음성 신호를 생성할 수 있다. 여기에서, STT 엔진은 음성 신호를 텍스트로 변환하기 위한 모듈로서, 종래 개시되어 있는 다양한 STT 알고리즘을 이용하여 음성 신호를 텍스트로 변환할 수 있다.
예를 들어, 제어부(220)는 수신된 사용자의 음성 내에서 사용자가 발화한 음성의 시작과 끝을 검출하여 음성 구간을 판단한다. 구체적으로, 제어부(220)는 수신된 음성 신호의 에너지를 계산하고, 계산된 에너지에 따라 음성 신호의 에너지 레벨을 분류하여, 동적 프로그래밍을 통해 음성 구간을 검출할 수 있다. 그리고, 제어부(220)은 검출된 음성 구간 내에서 음향 모델(Acoustic Model)을 기초로 음성의 최소 단위인 음소를 검출하여 음소 데이터를 생성하고, 생성된 음소 데이터에 HMM(Hidden Markov Model) 확률 모델을 적용하여 사용자의 음성을 텍스트로 변환할 수 있다.
도 4는 도 1에 도시된 제2 서버에 대한 블록도를 나타낸다. 도 4에 도시된 바오 같이, 제2 서버(300)는 통신부(310), 저장부(320) 및 제어부(330)를 포함한다. 여기에서, 제2 서버(300)는 본 발명에서의 대화형 인터페이스 장치일 수 있다.
통신부(310)는 디스플레이 장치(100)와 통신을 수행한다. 구체적으로, 통신부(310)는 디스플레이 장치(100)에서 수집한 사용자의 음성에 대응되는 음성 신호를 디스플레이 장치(100)로부터 수신할 수 있다. 여기에서, 음성 신호는 사용자의 음성이 변환된 텍스트 정보일 수 있다.
그리고, 통신부(310)는 수신된 음성 신호에 대응되는 응답 정보를 디스플레이 장치(100)로 전송할 수 있다.
또한, 통신부(310)는 외부 서버(도 1의 400)와 통신을 수행한다. 구체적으로, 통신부(310)는 컨텐츠 검색을 위한 쿼리를 외부 서버(400)로 전송하고, 그에 따른 검색 결과를 외부 서버(400)로부터 수신할 수 있다. 이를 위해, 통신부(310)는 다양한 통신 모듈을 포함할 수 있다.
이를 위해, 통신부(310)는 유/무선 LAN(Local Area Network), 이더넷(ethernet), 블루투스(Bluetooth), 지그비(Zigbee), USB(Universal Serial Bus), IEEE 1394, 와이파이(Wifi)등의 통신 방식을 통해 디스플레이 장치(100) 및 외부 서버(400)와 통신을 수행할 수 있다. 이를 위해, 통신부(310)는 각 통신 방식에 대응되는 칩 또는 입력 포트 등을 구비할 수 있다. 예를 들어, 유선 LAN 방식으로 통신을 수행하는 경우, 통신부(310)는 유선 LAN 카드(미도시) 및 입력 포트(미도시)를 구비할 수 있다.
하지만, 이는 일 예일 뿐, 통신부(310)는 디스플레이 장치(100) 및 외부 서버(400) 각각과 통신을 수행하기 위한 별도의 통신 모듈을 구비할 수도 있다.
저장부(320)는 디스플레이 장치(100)로부터 수신된 음성 신호를 이용하여 사용자의 발화 의도를 판단하기 위한 다양한 정보를 저장할 수 있다.
구체적으로, 저장부(320)는 디스플레이 장치(100)로부터 수신된 음성 신호를 이용하여, 사용자의 음성에서 목적 영역(domain), 목적 기능(user action), 주요 특징(slot) 등을 분석하기 위한 다양한 정보를 저장할 수 있다.
여기에서, 목적 영역은 "방송", "기기 제어" 등과 같이 사용자가 발화한 음성이 속하는 주제에 따라 구분될 수 있다. 그리고, 목적 기능은 "정보 출력", "기기 제어" 등과 같이 사용자의 발화 의도를 나타내며, 주요 특징은 목적 영역에 대한 개체 정보 즉, 목적 영역에서 의도하는 사용자의 발화 의도를 구체화할 수 있는 정보를 나타낸다.
구체적으로, 저장부(320)는 목적 영역에서 목적 기능을 분석하고 주요 특징을 추출하기 위한 키워드를 저장할 수 있다.
예를 들어, 저장부(320)는 방송 목적 영역에서 "추천해줘", "검색해줘", "찾아줘", "보여줘" 등과 같은 키워드는 목적 기능이 정보 검색에 대한 요청에 해당하고, 컨텐츠의 각종 타이틀 명칭, 컨텐츠의 제작사, 컨텐츠의 장르, 컨텐츠의 시청 등급 등과 같이 컨텐츠와 관련된 다양한 키워드는 주요 특징에 해당한다는 정보를 저장할 수 있다. 구체적인 일 예로, "애들"이라는 용어는 시청 등급과 관련된 키워드이고, 이는 주요 특징에 해당한다는 정보를 저장할 수 있다. 다른 예로, "판타지"라는 용어는 장르와 관련된 키워드이고, 이는 주요 특징에 해당한다는 정보를 저장할 수 있다.
다른 예로, 저장부(320)는 기기 제어 목적 영역에서 "틀어줘", "높여줘", "낮춰줘", "꺼줘", "실행해줘" 등과 같은 키워드는 목적 기능이 기기 제어에 대한 요청에 해당하고, 채널명, 채널 번호, 볼륨, 전원 등과 같이 기기 제어와 관련된 다양한 키워드는 주요 특징에 해당한다는 정보를 저장할 수 있다.
또한, 저장부(320)는 말뭉치(corpus) 데이터베이스를 구비할 수 있다. 여기에서, 말뭉치 데이터베이스는 예문 및 그에 대한 답변을 저장하는 형태로 구현될 수 있다.
즉, 저장부(320)는 각 목적 영역별로 복수의 예문 및 각 예문에 대한 답변을 저장할 수 있다. 이 경우, 저장부(320)는 예문을 해석하기 위한 및 예문에 대응되는 답변을 각 예문마다 태깅(tagging)하여 저장할 수 있다.
예를 들어, 저장부(320)는 방송 목적 영역에서 "애들이 볼만한 판타지 추천해줘"라는 예문을 저장할 수 있다. 이 경우, 저장부(320)는 "애들이 볼만한 판타지 추천해줘"와 같은 예문을 해석하기 위한 정보를 해당 예문에 태깅하여 저장할 수 있다.
구체적으로, 저장부(320)는 "애들이 볼만한 영화 추천해줘"와 같은 예문에서 "애들"은 주요 특징으로 컨텐츠의 시청 등급을 나타내며, "판타지"는 주요 특징으로 컨텐츠의 장르를 나타내며, "추천해줘"는 컨텐츠에 대한 정보 검색 요청을 나타낸다는 정보를 해당 예문에 태깅하여 저장할 수 있다.
다른 예로, 저장부(320)는 기기 제어 목적 영역에서 "○번 틀어줘"와 같은 예문을 저장할 수 있다. 이 경우, 저장부(320)는 "○번 틀어줘"와 같은 예문을 해석하기 위한 정보를 해당 예문에 태깅하여 저장할 수 있다.
구체적으로, 저장부(320)는 "○번 틀어줘"와 같은 예문에서 "○번"은 주요 특징으로 채널 번호를 나타내며, "틀어줘"는 전원 오프 요청을 나타내는 정보를 해당 예문에 태깅하여 저장할 수 있다.
한편, 제어부(330)는 제2 서버(300)의 전반적인 동작을 제어한다. 특히, 제어부(340)는 디스플레이 장치(100)로부터 음성 신호가 수신되면 수신된 음성 신호를 이용하여 사용자의 발화 의도를 판단할 수 있다.
구체적으로, 제어부(330)는 음성 신호에 대한 자연어 처리(natural language processing)를 수행하고, 저장부(320)에 저장된 다양한 정보를 이용하여 음성 신호에서 목적 영역, 목적 기능, 주요 특징을 분석하여 사용자의 발화 의도를 판단할 수 있다.
그리고, 제어부(330)는 판단된 발화 의도에 기초하여 디스플레이 장치(100)로부터 수신된 음성 신호를 구조화된 의미 프레임 형태로 생성할 수 있다. 구조화된 의미 프레임에서 주요 특징은 특정 언어에 의해 의존되지 않는 형태(feature concept) 즉, 외부 서버(400)에서 해석 가능한 실행 언어의 형태를 가질 수 있다.
예를 들어, "애들이 볼만한 판타지 추천해줘"라는 음성 신호가 디스플레이 장치(100)로부터 수신된 경우를 가정한다. 여기에서, 저장부(320)는 "애들"이라는 용어는 시청 등급과 관련된 주요 특징이고, "판타지"라는 용어는 장르와 관련된 주요 특징에 해당한다는 정보를 저장할 수 있다.
이에 따라, 제어부(330)는 저장부(320)에 저장된 정보를 이용하여, "애들이 볼만한 판타지 추천해줘"는 방송 목적 영역에 포함되고, "애들"은 주요 특징으로 컨텐츠의 시청 등급을 나타내고, "판타지"는 주요 특징으로 컨텐츠의 장르를 나타내며, "추천해줘"는 목적 기능에서 정보 검색 요청에 해당한다는 것을 판단할 수 있다.
이에 따라, 제어부(330)는 "애들이 볼만한 판타지 추천해줘"라는 음성 신호는 "애들", "판타지"에 대한 컨텐츠 검색을 요청하는 것으로 판단하고, 하기와 표 1과 같은 구조화된 의미 프레임을 생성할 수 있다.
음성 신호 목적 기능 feature concept
애들이 볼만한 판타지 추천해줘 정보 검색(kids, fantasy) 요청 정보: $kids$, $fantasy$
한편, 제어부(330)는 음성 신호를 이용하여 사용자의 발화 의도를 판단하고, 판단된 발화 의도에 대응되는 컨텐츠를 검색하기 위한 쿼리를 생성하여 컨텐츠에 대한 메타데이터를 항목 별로 구분하여 저장하는 외부 서버(400)로 전송하도록 제어할 수 있다. 즉, 제어부(330)는 사용자의 발화 의도가 컨텐츠 검색에 해당하는 경우, 발화 의도에 부합하는 컨텐츠를 검색하기 위한 쿼리를 생성하고, 생성된 쿼리를 외부 서버(400)로 전송하여, 외부 서버(400)로부터 검색 결과를 수신할 수 있다.
이때, 제어부(330)는 컨텐츠를 검색하기 위해 추출된 발화 요소 자체를 외부 서버(400)로 전송하는 것이 아니라, 추출된 발화 요소를 외부 서버(400)에 저장된 구조화된 메타데이터의 각 항목를 구분하는 컨텐츠 구분 기준에 매핑되도록 변환하여 외부 서버(400)로 전송할 수 있다. 이 경우, 제어부(330)는 정규화된 문구(즉, API(application programming interface))를 통해 추출된 발화 요소를 컨텐츠 구분 기준에 매핑되도록 변환할 수도 있다.
구체적으로, 제어부(330)는 추출된 발화 요소를 항목 테이블의 복수의 항목 중 적어도 하나의 항목에 대응시키고, 상기 추출된 발화 요소를 적어도 하나의 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 컨텐츠를 검색하기 위한 쿼리를 생성할 수 있다
여기에서, 발화 요소는 사용자가 검색하고자 하는 컨텐츠의 성격을 분류하는 용어로, 주요 특징이 발화 요소가 될 수 있다. 따라서, 이하 명세서에서 발화 요소는 주요 특징과 동일한 의미로 해석될 수 있다.
보다 구체적인 설명을 위해 도 5 내지 도 11을 함께 참조하도록 한다.
먼저, 도 5는 본 발명의 일 실시 예에 따라 외부 서버에 메타데이터가 구조화되어 저장된 일 예를 나타내는 도면이다.
외부 서버(400)는 컨텐츠에 대한 메타데이터를 항목 별로 구분할 수 있다. 여기에서, 항목은 메타데이터에 포함된 다양한 컨텐츠 정보가 될 수 있다. 즉, 외부 서버(400)는 컨텐츠에 대한 메타데이터를 타이틀, 출연자, 제작자, 컨텐츠 타입, 장르, 시청 등급 중 적어도 하나의 항목으로 구분하여 저장할 수 있다.
그리고, 외부 서버(400)는 각 항목 내의 컨텐츠 구분 기준에 따라 컨텐츠에 대한 메타데이터를 구조화하여 저장할 수 있다.
예를 들어, 도 5와 같이, 외부 서버(400)는 타이틀, 출연자, 제작자, 컨텐츠 타입, 장르, 시청 등급을 항목으로 메타데이터를 구분하고, 각 항목 내에서 컨텐츠 구분 기준에 따라 메타데이터를 구조화하여 저장할 수 있다.
즉, 외부 서버(400)는 타이틀을 컨텐츠 구분 기준으로 하여 컨텐츠에 대한 메타데이터를 구분한 타이틀 항목(510), 출연자를 컨텐츠 구분 기준으로 하여 컨텐츠에 대한 메타데이터를 구분한 출연자 항목(520), 제작자를 컨텐츠 구분 기준으로 하여 컨텐츠에 대한 메타데이터를 구분한 제작자 항목(530), 컨텐츠 타입을 구분 기준으로 하여 컨텐츠에 대한 메타데이터를 구분한 컨텐츠 타입 항목(540), 장르를 구분 기준으로 하여 컨텐츠에 대한 메타데이터를 구분한 장르 항목(550), 시청 등급을 컨텐츠 구분 기준으로 하여 컨텐츠에 대한 메타데이터를 구분한 시청 등급 항목(560)으로 구분하여 컨텐츠에 대한 메타데이터를 구조화하여 저장할 수 있다.
하지만, 이는 일 예일 뿐이며, 외부 서버(400)는 선호도, 방송 시간 등과 같은 메타데이터를 구성하는 다른 정보를 이용하여 컨텐츠에 대한 메타데이터를 항목및 컨텐츠 구분 기준으로 구조화하여 저장할 수 있음은 물론이다.
이하에서는, 외부 서버(400)에 도 5와 같은 구조화된 데이터가 저장된 경우, 제어부(330)에서 컨텐츠 검색을 위한 쿼리를 생성하는 방법을 설명하도록 한다.
구체적으로, 제어부(330)는 디스플레이 장치(100)로부터 수신된 음성 신호에 기초하여 생성된 구조화된 의미 프레임에서 주요 특징을 추출하고, 추출된 주요 특징을 외부 서버(400)에서 구조화된 데이터에서 컨텐츠 구분 기준에 매핑되도록 변환한다. 이 경우, 제어부(330)는 feature concept을 이용하여 주요 특징을 추출할 수 있다.
하지만, 이는 일 예일 뿐, 제어부(330)는 별도의 구조화된 의미 프레임을 생성함이 없이, 저장부(320)에 정보를 이용하여 수신된 음성 신호에서 주요 특징을 추출할 수도 있다.
예를 들어, "애들이 볼만한 판타지 추천해줘"라는 음성 신호가 수신된 경우, 제어부(330)는 표 1과 같이 생성된 구조화된 의미 프레임에서 "애들" 및 "판타지"를 주요 특징으로 추출할 수 있다.
이 경우, "애들"은 컨텐츠의 시청 등급과 관련된 주요 특징이므로, 제어부(330)는 "애들"을 컨텐츠의 시청 등급에 대응시키고, 외부 서버(400)에 저장된 구조화된 데이터에서 시청 등급의 컨텐츠 구분 기준을 고려하여 "애들"을 그에 부합하는 컨텐츠 구분 기준에 매핑되도록 변환할 수 있다. 즉, 제어부(350)는 외부 서버(400)에 저장된 구조화된 데이터에서 시청 등급은 "All", "under 7 years", "under 13 years"과 같은 컨텐츠 구분 기준에 따라 구분되므로, "애들"을 이들 컨텐츠 구분 기준 중에서 "under 7 years"로 매핑시킨다.
한편, "판타지"는 컨텐츠의 장르와 관련된 주요 특징이므로, 제어부(330)는 "판타지"를 컨텐츠의 장르에 대응시키고, 외부 서버(400)에 저장된 구조화된 데이터에서 장르의 컨텐츠 구분 기준을 고려하여 "판타지"을 그에 부합하는 컨텐츠 구분 기준에 매핑되도록 변환할 수 있다. 즉, 제어부(330)는 외부 서버(400)에 저장된 구조화된 데이터에서 장르는 "comedy", "drama", "fantasy"과 같은 컨텐츠 구분 기준에 따라 구분되므로, "판타지"를 이들 컨텐츠 구분 기준 중에서 "fantasy"로 매핑시킨다.
이를 위해, 저장부(320)는 항목 테이블을 저장할 수 있다. 즉, 저장부(320)는 주요 특징이 외부 서버(400)에 구조화하여 저장된 메타데이터에서 매핑되는 항목 및 매핑되는 항목 내에서 매핑되는 컨텐츠 구분 기준에 대한 정보를 포함하는 항목 테이블 저장할 수 있다. 예를 들어, 외부 서버(400)가 도 5와 같이 메타데이터를 구조화하여 저장하는 경우, 저장부(320)는 도 5와 같은 테이블에서 주요 특징이 매핑되는 항목 및 컨텐츠 구분 기준에 대한 정보를 저장할 수 있다. 하지만, 이는 일 예일 뿐, 저장부(320)는 다양한 형태로 주요 특징이 매핑되는 항목 및 매핑되는 항목 내에서 매핑되는 컨텐츠 구분 기준에 대한 정보를 저장할 수 있다.
예를 들어, 저장부(320)는 "애들"이라는 컨텐츠의 시청 등급과 관련된 주요 특징은 도 5와 같은 구조화된 메타데이터의 컨텐츠 시청 등급 항목에서 "under 7 years"에 매핑되고, "판타지"라는 컨텐츠의 장르와 관련된 주요 특징은 도 5와 같은 구조화된 메타데이터의 컨텐츠 장르 항목에서 "fantasy"에 매핑되는 것을 나타내는 항목 테이블을 저장할 수 있다.
이에 따라, 제어부(330)는 항목 테이블을 참조하여, 수신된 음성 신호로부터 추출된 주요 특징을 컨텐츠 구분 기준에 매핑되도록 변환할 수 있다.
한편, 제어부(330)는 컨텐츠 구분 기준에 부합하도록 변환된 발화 요소를 이용하여 컨텐츠 검색을 위한 쿼리를 생성하여 외부 서버(400)로 전송하고, 검색 결과를 외부 서버(400)로부터 수신받도록 통신부(310)를 제어할 수 있다.
그리고, 제어부(330)는 외부 서버(400)로부터 수신받은 검색 결과를 이용하여 디스플레이 장치(100)에서 사용자의 음성에 대응되는 시스템 응답을 출력하기 위한 제어 명령을 생성하고, 생성된 제어 명령을 디스플레이 장치(100)로 전송할 수 있다. 이 경우, 제어부(330)는 검색 결과에 대한 정보를 함께 디스플레이 장치(100)로 전송할 수도 있다.
예를 들어, 제어부(330)는 컨텐츠 구분 기준에 따라 변환된 발화 요소인 시청 등급: under 7 years, 장르: fantasy를 이용하여 컨텐츠 검색을 위한 쿼리를 생성하고, 생성된 쿼리를 외부 서버(400)로 전송한다. 이 경우, 외부 서버(400)는 구조화된 메타데이터의 시청 등급 항목(560)에서 under 7 years를 만족하고 장르 항목(550)에서 fantasy를 만족하는 컨텐츠를 검색하고, 검색 결과를 제2 서버(300)로 전송할 수 있다.
이때, 외부 서버(400)는 검색된 컨텐츠에 대한 정보(가령, 타이틀, 썸네일, 방송 시간, 출연자, 제작자 등 중 적어도 하나)를 제2 서버(300)로 전송할 수 있다. 예를 들어, 외부 서버(400)는 시청 등급 항목(560)에서 under 7 years를 만족하고 장르 항목(550)에서 fantasy를 만족하는 컨텐츠에 대한 타이틀 정보인 Title_ZZZ를 제2 서버(300)로 전송할 수 있다.
한편, 제어부(330)는 수신된 검색 결과에 대한 정보를 이용하여 디스플레이 장치(100)에서 "애들이 볼만한 판타지 추천해줘"에 대한 시스템 응답을 출력하기 위한 제어 명령을 생성하여 디스플레이 장치(100)로 전송할 수 있다. 즉, 제어부(350)는 컨텐츠의 타이틀이 ZZZ인 컨텐츠를 검색하여 출력하기 위한 제어 명령(가령, 스크립트 형태의 시스템 명령어)를 디스플레이 장치(100)로 전송할 수 있다.
이에 따라, 디스플레이 장치(100)는 제2 서버(300)로부터 수신받은 제어 명령에 기초하여 사용자의 음성에 대응되는 시스템 응답을 출력할 수 있다. 예를 들어, 디스플레이 장치(100)는 제2 서버(300)로부터 수신된 제어 명령에 기초하여 웹 검색 또는 EPG 정보로부터 컨텐츠의 타이틀이 ZZZ인 컨텐츠를 검색하고, 검색된 컨텐츠에 대한 타이틀, 출연자, 제작자, 컨텐츠 타입, 장르, 시청 등급 중 적어도 하나를 포함하는 UI 화면을 출력할 수 있다.
다른 한편, 제어부(330)는 외부 서버(400)로부터 수신된 검색 결과에 대한 정보를 디스플레이 장치(100)로 전송할 수도 있다. 즉, 제어부(350)는 제어 명령과 함께 검색된 컨텐츠인 ZZZ에 대한 타이틀, 출연자, 제작자, 컨텐츠 타입, 장르, 시청 등급 중 적어도 하나에 대한 정보를 디스플레이 장치(100)로 전송할 수 있다.
이에 따라, 디스플레이 장치(100)는 제2 서버(300)로부터 수신받은 제어 명령 및 검색된 컨텐츠에 대한 정보에 기초하여 사용자의 음성에 대응되는 시스템 응답을 출력할 수 있다. 예를 들어, 디스플레이 장치(100)는 제2 서버(300)로부터 수신된 제어 명령 및 검색된 컨텐츠에 대한 정보를 이용하여, 검색된 컨텐츠에 대한 타이틀, 출연자, 제작자, 컨텐츠 타입, 장르, 시청 등급 중 적어도 하나를 포함하는 UI 화면을 출력할 수 있다.
한편, 외부 서버(400)의 속성 즉, 외부 서버(400)가 메타데이터 서비스를 제공하는 국가 및 언어에 따라 동일한 발화 요소가 서로 다른 컨텐츠 구분에 해당될 수도 있다. 여기에서, 외부 서버(400)의 속성에 따라 서로 다르게 해석될 수 있는 발화 요소는 장르, 시청 등급, 선호도 중 적어도 하나를 포함할 수 있다.
가령, "성인"이라는 시청 등급과 관련된 주요 특징의 경우, 국가 별로 성인을 정의하는 연령이 서로 다를 수 있으므로, 외부 서버(400)는 메타데이터 서비스를 제공하는 국가 별로 서로 다른 컨텐츠 구분 기준으로 "성인"을 구분할 수 있다.
또한, "판타지"라는 장르와 관련된 주요 특징의 경우, 판타지를 정의하는 언어가 서로 다를 수 있으므로, 외부 서버(400)는 메타데이터 서비스를 제공하는 언어 별로 서로 다른 컨텐츠 구분 기준으로 "판타지"를 구분할 수 있다.
이에 따라, 저장부(320)는 국가별 및 언어별 중 적어도 하나에 따라 컨텐츠 구분 기준이 상이한 복수의 항목을 포함하는 항목 테이블을 저장할 수 있다. 그리고, 제어부(330)는 컨텐츠 구분 기준이 상이한 항목 테이블을 이용하여, 주요 특징을 서로 다른 컨텐츠 구분 기준에 매핑시킬 수 있다.
예를 들어, 도 6 및 도 7과 같은 동일한 발화 요소가 서로 다른 컨텐츠 구분 기준으로 구분된 경우를 가정한다.
즉, 도 6과 같이, 제1 외부 서버(400-1)는 장르 항목(650)을 "comedy", "drama", "fantasy"의 컨텐츠 구분 기준에 따라 구분하고, 시청 등급 항목(660)을 "under 7 years", "under 13 years", "over 18 years"의 컨텐츠 구분 기준에 따라 구분하여 메타데이터를 구조화하여 저장할 수 있다.
하지만, 도 7과 같이, 제2 외부 서버(400-2)는 장르 항목(750)을 "comedy", "drama", "science fiction"의 컨텐츠 구분 기준에 따라 구분하고, 시청 등급 항목(760)을 "under 7 years", "under 13 years", "over 19 years"의 컨텐츠 구분 기준에 따라 구분하여 메타데이터를 구조화하여 저장할 수 있다.
이와 같은 경우, 제어부(330)는 컨텐츠 검색을 위해 쿼리를 전송하는 외부 서버의 속성에 따라 동일한 발화 요소라도 서로 다른 컨텐츠 구분 기준에 매핑되도록 할 수 있다.
예를 들어, "성인이 볼만한 판타지 추천해줘"라는 음성 신호가 디스플레이 장치(100)로부터 수신된 경우를 가정한다.
여기에서, 저장부(320)는 "성인"이라는 용어는 시청 등급과 관련된 주요 특징이고, "판타지"라는 용어는 장르와 관련된 주요 특징에 해당한다는 정보를 저장할 수 있다.
또한, 저장부(320)는 "성인"이라는 시청 등급과 관련된 주요 특징은 도 6과 같은 구조화된 메타데이터에서 시청 등급 항목 내에서 "over 18 years"에 매핑되고, "판타지"라는 장르와 관련된 주요 특징은 도 6과 같은 구조화된 메타데이터에서 장르 항목 내에서 "fantasy"에 매핑되는 항목 테이블을 저장할 수 있다.
또한, 저장부(320)는 "성인"이라는 시청 등급과 관련된 주요 특징은 도 7과 같은 구조화된 메타데이터에서 시청 등급 항목 내에서 "over 19 years"에 매핑되고, "판타지"라는 장르와 관련된 주요 특징은 도 7과 같은 구조화된 메타데이터에서 장르 항목 내에서 "science fiction"에 매핑되는 매핑 테이블을 저장할 수 있다.
한편, 제어부(330)는 수신된 음성 신호로부터 컨텐츠의 시청 등급과 관련된 주요 특징인 "성인"과 컨텐츠의 장르와 관련된 주요 특징인 "판타지"를 추출하고, 추출된 "성인" 및 "판타지"를 이용하여 컨텐츠 검색을 위한 쿼리를 생성한다.
이때, 제어부(330)는 저장부(320)에 저장된 항목 테이블을 이용하여 외부 서버의 속성에 따라 "성인"과 "판타지"를 서로 다른 컨텐츠 구분 기준에 매핑할 수 있다.
먼저, 제1 외부 서버(400-1)에 대해 컨텐츠 검색을 위한 쿼리를 생성하는 경우를 가정한다.
이 경우, 제어부(330)는 제1 외부 서버(400-1)에 저장된 구조화된 데이터에서 시청 등급은 "under 7 years", "under 13 years", "over 18 years"의 컨텐츠 구분 기준에 따라 구분되므로, 컨텐츠의 시청 등급과 관련된 주요 특징인 "성인"을 "over 18 years"에 매핑시킨다. 그리고, 제어부(330)는 제1 외부 서버(400-1)에 저장된 구조화된 데이터에서 장르는 "comedy", "drama", "fantasy"의 컨텐츠 구분 기준에 따라 구분되므로, 컨텐츠의 장르와 관련된 주요 특징인 "판타지"는 "fantasy"에 매핑시킨다.
이에 따라, 제어부(330)는 시청 등급: over 18 years, 장르: fantasy를 이용하여 컨텐츠 검색을 위한 쿼리를 생성하고 생성된 쿼리를 제1 외부 서버(400-1)로 전송할 수 있다. 한편, 제1 외부 서버(400-1)는 구조화된 메타데이터의 시청 등급 항목(660)에서 over 18 years를 만족하고 장르 항목(650)에서 fantasy를 만족하는 컨텐츠를 검색하고, 검색된 컨텐츠에 대한 타이틀 정보인 Title_CCC를 제2 서버(300)로 전송할 수 있다.
다른 한편, 제2 외부 서버(400-2)에 기초하여 컨텐츠를 검색하는 경우를 가정한다.
이 경우, 제어부(330)는 제2 외부 서버(400-2)에 저장된 구조화된 데이터에서 시청 등급은 "under 7 years", "under 13 years", "over 19 years"의 컨텐츠 구분 기준에 따라 구분되므로, 컨텐츠의 시청 등급과 관련된 주요 특징인 "성인"을 "over 19 years"에 매핑시킨다. 그리고, 제어부(330)는 제2 외부 서버(400-2)에 저장된 구조화된 데이터에서 장르는 "comedy", "drama", "science fiction"의 컨텐츠 구분 기준에 따라 구분되므로, 컨텐츠의 장르와 관련된 주요 특징인 "판타지"는 "science fiction"에 매핑시킨다.
이에 따라, 제어부(330)는 시청 등급: over 19 years, 장르: science fiction를 이용하여 컨텐츠 검색을 위한 쿼리를 생성하고, 생성된 쿼리를 제2 외부 서버(400-2)로 전송한다. 한편, 제2 외부 서버(400-2)는 구조화된 메타데이터의 시청 등급 항목(760)에서 over 19 years를 만족하고 장르 항목(750)에서 science fiction를 만족하는 컨텐츠를 검색하고, 검색된 컨텐츠에 대한 타이틀 정보인 Title_CCC를 제2 서버(300)로 전송할 수 있다.
이와 같이, 제어부(330)는 외부 서버의 속성에 대응되도록 컨텐츠 검색을 위한 쿼리를 생성할 수 있게 된다. 이에 따라, 서로 다른 컨텐츠 기준으로 구분된 경우라도 사용자가 원하는 컨텐츠를 보다 용이하게 검색할 수 있게 된다.
한편, 하나의 발화 요소가 컨텐츠의 성격을 분류할 수 있는 복수의 발화 요소를 내포할 수도 있다.
이 경우, 제어부(330)는 하나의 발화 요소에서 컨텐츠의 성격을 분류할 수 있는 복수의 발화 요소를 판단하고, 각 발화 요소를 항목 내의 컨텐츠 구분 기준에 각각 매핑시킬 수 있다. 그리고, 제어부(330)는 컨텐츠 구분 기준에 매핑된 각각의 발화 요소를 이용하여 쿼리를 생성하고, 생성된 쿼리를 외부 서버(400)로 전송하여 컨텐츠 검색을 수행할 수 있다.
이를 위해, 저장부(320)는 컨텐츠의 성격을 분류할 수 있는 복수의 발화 요소를 내포하는 발화 요소에 대한 정보를 저장할 수 있다. 또한, 저장부(320)는 각 발화 요소가 메타데이터 내에서 매핑되는 항목 및 컨텐츠 구분 기준에 대한 정보를 저장할 수 있다.
예를 들어, "가족들이 같이 볼만한 거 찾아줘"라는 음성 신호가 디스플레이 장치(100)로부터 수신된 경우를 가정한다.
이 경우, 저장부(320)에 "가족들과 같이"는 주요 특징과 관련된 키워드인 것으로 저장된 경우, 제어부(330)는 수신된 음성 신호에서 "가족들과 같이"를 주요 특징으로 추출할 수 있다.
또한, 저장부(320)에 "가족들이 같이"는 복수의 발화 요소 즉, 시청 등급과 관련된 "모든 연령"과 장르와 관련된 "코메디"라는 복수의 발화 요소를 내포하고 있다는 정보가 저장된 경우, 제어부(330)는 이를 참조하여 "가족들이 같이"로부터 시청 등급과 관련된 "모든 연령"와 장르와 관련된 "코메디"라는 발화 요소를 추출할 수 있다.
이 경우, 제어부(330)는 외부 서버(400)에 저장된 구조화된 데이터에서 시청 등급 및 장르의 컨텐츠 구분 기준을 판단하고, 추출된 발화 요소인 시청 등급과 관련된 "모든 연령"을 시청 등급 항목 내의 컨텐츠 구분 기준에 매핑되도록 변환하고, 추출된 발화 요소인 장르와 관련된 "코메디"를 장르 항목 내의 컨텐츠 구분 기준에 매핑되도록 변환할 수 있다.
예를 들어, 외부 서버(400)에 저장된 구조화된 데이터가 도 5와 같은 경우, 제어부(330)는 저장부(320)에 저장된 항목 테이블을 참조하여, "가족들이 같이"를 시청 등급 내의 컨텐츠 구분 기준 중 "all"에 매핑시키고, 장르 내의 컨텐츠 구분 기준 중 "comedy"에 매핑시킬 수 있다.
이 경우, 저장부(320)는 도 5와 같은 구조화된 메타데이터에서 "모든 연령"이라는 시청 등급과 관련된 주요 특징은 시청 등급 항목 내에서 "all"에 매핑되고, "코메디"라는 장르와 관련된 주요 특징은 장르 항목 내에서 "comedy"에 매핑되는 정보를 포함하는 항목 테이블을 저장할 수 있다.
이에 따라, 제어부(330)는 시청 등급: all, 장르: comedy를 컨텐츠 검색을 이용하여 컨텐츠 검색을 위한 쿼리를 생성하고, 생성된 쿼리를 외부 서버(400)로 전송할 수 있다.
한편, 제어부(330)는 컨텐츠 검색을 위한 쿼리 생성시 사용자의 선호도를 고려할 수도 있다.
구체적으로, 제어부(330)는 사용자의 선호도에 기초하여 추출된 발화 요소를 항목 테이블의 복수의 항목 중 적어도 하나의 항목에 대응시키고, 추출된 발화 요소를 적어도 하나의 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 컨텐츠를 검색하기 위한 쿼리를 생성할 수 있다.
이를 위해, 저장부(320)는 사용자 선호도에 대한 정보를 저장할 수 있다. 여기에서, 사용자 선호도는 사용자가 선호하는 컨텐츠의 장르, 시청 등급 중 적어도 하나를 포함할 수 있다.
또한, 저장부(320)는 컨텐츠 검색을 위한 쿼리 생성 시, 사용자의 선호도가 고려되어 지는 발화 요소에 대한 정보를 저장할 수 있다. 예를 들어, 저장부(320)는 "재미"라는 용어는 사용자의 선호도가 고려되어 지는 발화 요소인 것으로 저장할 수 있다.
예를 들어, "재미있는 거 찾아줘"라는 음성 신호가 디스플레이 장치(100)로부터 수신된 경우를 가정한다. 여기에서, "재미"가 장르와 관련된 키워드로 저장된 경우, 제어부(330)는 수신된 음성 신호에서 "재미"를 주요 특징으로 추출할 수 있다.
이 경우, 제어부(330)는 추출된 주요 특징을 구조화된 데이터 내의 컨텐츠 구분 기준으로 매핑할 때, 사용자의 선호도를 고려할 수 있다.
예를 들어, 사용자가 선호하는 컨텐츠의 장르가 "드라마"이고, 외부 서버(400)에 저장된 구조화된 데이터가 도 5와 같은 경우, 제어부(330)는 사용자의 선호도 및 저장부(320)에 저장된 매핑 테이블을 이용하여 "재미"를 장르 항목에 대응시키고, 장르 항목 내의 컨텐츠 구분 기준 중 "drama"에 대응시킬 수 있다.
이 경우, 저장부(320)는 도 5와 같은 구조화된 메타데이터에서 "드라마"라는 장르와 관련된 주요 특징은 장르 항목에서 "drama"에 매핑되는 정보를 포함하는 항목 테이블을 저장할 수 있다.
그리고, 제어부(330)는 장르: drama를 이용하여 컨텐츠 검색을 위한 쿼리를 생성하고, 생성된 쿼리를 외부 서버(400)로 전송할 수 있다.
한편, 상술한 예에서는 장르에 대한 사용자 선호도만을 고려하는 것으로 설명하였으나 이는 일 예에 불과하다. 상술한 예에서, 사용자가 선호하는 시청 등급이 모든 연령인 경우, 제어부(330)는 "재미"를 시청 등급 항목 내의 컨텐츠 구분 기준 중 "all"로 추가로 매핑할 수 있다. 이에 따라, 제어부(330)는 장르: drama 및 시청 등급: all과 같은 컨텐츠 검색을 위한 쿼리를 외부 서버(400)로 전송하고, 그에 따라 검색된 컨텐츠에 대한 정보를 수신할 수 있다.
도 8은 본 발명의 일 실시 예에 따른 대화형 시스템을 나타내는 도면이다. 구체적으로, 도 8은 도 1에 도시된 대화형 시스템(1000)을 구성하는 장치 및 서버가 수행하는 기능을 보다 구체적으로 도시한 도면들이다.
한편, 대화형 시스템(1000)을 구성하는 디스플레이 장치(100), 제1 서버(200), 제2 서버(300) 및 외부 서버(400)에 대해서는 도 1 내지 도 7에서 구체적으로 설명한바 있다는 점에서, 도 8에서는 중복되는 부분에 대한 구체적인 설명은 생략하도록 한다.
먼저, 디스플레이 장치(100)는 사용자의 음성을 수집하고, 수집된 음성을 제1 서버(200)로 전송한다. 제1 서버(200)는 사용자의 음성을 음성 신호로 변환하여, 디스플레이 장치(100)로 전송한다. 여기에서, 제1 서버(200)는 ASR(Automatic Speech Recognition) 엔진을 포함하는 ASR 서버로 구현될 수 있다.
한편, 디스플레이 장치(100)는 제1 서버(200)로부터 수신된 음성 신호를 제2 서버(300)로 전송한다. 여기에서, 제2 서버(300)는 Dialog 서버로 구현될 수 있다.
제2 서버(300)는 수신된 음성 신호에 대한 자연어 처리를 수행하고, 사용자의 발화 의도를 판단한다. 구체적으로, 제2 서버(300)는 사용자의 음성에서 목적 영역, 목적 기능, 주요 특징을 분석하여 사용자의 발화 의도를 판단할 수 있다. 그리고, 제2 서버(300)는 분석 결과를 이용하여, 수신된 음성 신호에 대한 구조화된 의미 프레임을 생성할 수 있다.
이후, 제2 서버(300)는 판단된 발화 의도에 기초하여 기능 실행에 대한 스케쥴링을 수행한다. 여기에서, 스케쥴링이란 판단된 발화 의도에 대응되는 응답 정보를 생성하기 위해 제2 서버(300)가 수행하여야 하는 별도의 동작이 있는 경우, 동작 순서를 정하는 과정을 의미할 수 있다.
예를 들어, 발화 의도가 컨텐츠에 대한 검색 요청을 포함하는 경우, 제2 서버(300)는 사용자의 발화 의도에 부합하는 컨텐츠를 검색하여야 하므로 응답 정보를 생성하기 전에 외부 서버(400)를 통해 컨텐츠 검색을 수행하여야 한다. 이와 같은 경우, 컨텐츠 검색과 같은 별도의 동작을 수행하여야 하는 경우, 제2 서버(300)는 제어 명령 생성 전에 컨텐츠 검색을 수행하도록 스케쥴링을 수행할 수 있다.
발화 의도가 컨텐츠에 대한 검색 요청을 포함하는 경우, 제2 서버(300)는 검색 쿼리를 생성한다. 이 경우, 제2 서버(300)는 사용자 선호도를 고려하여(즉, context를 고려하여) 컨텐츠 검색을 위한 쿼리를 생성할 수도 있다. 제2 서버(300)가 컨텐츠 검색을 위한 쿼리를 생성하는 방법에 대해서는 도 1 내지 도 7에서 상술한 바 있다는 점에서, 구체적인 설명은 생략하도록 한다.
그리고, 제2 서버(300)는 생성된 쿼리를 외부 서버(400)로 전송하고, 외부 서버(400)로부터 검색 결과를 수신할 수 있다.
여기에서, 외부 서버(400)는 EPG, Music, VOD, Photo, Application 등에 대한 메타데이터 정보를 구조화하여 저장하는 메타데이터 서버로 구현될 수 있다. 비록, 도 8에는 외부 서버(400)에 EPG, Music, VOD, Photo, Application 등에 대한 메타데이터 정보가 포함되는 것으로 도시하였으나 이들만으로 한정되는 것은 아니며, 이들 모두를 포함하여야 하는 것도 아니다.
한편, 제2 서버(300)는 수신된 검색 결과를 이용하여 응답 정보를 생성할 수 있다. 즉, 제2 서버(300)는 사용자의 음성에 대응되는 시스템 응답을 출력하기 위한 제어 명령(가령, 스크립트 형태의 시스템 명령어)을 생성할 수 있다.
그리고, 제2 서버(300)는 생성된 제어 명령을 디스플레이 장치(100)로 전송한다. 이 경우, 제2 서버(300)는 외부 서버(400)로부터 수신한 컨텐츠 검색에 대한 정보를 함께
이에 따라, 디스플레이 장치(100)는 제어 명령을 해석하여 사용자의 음성에 대응되는 동작을 수행할 수 있다. 예를 들어, 디스플레이 장치(100)는 사용자의 음성이 컨텐츠 검색과 관련된 경우, 검색된 컨텐츠에 대한 리스트를 시스템 응답으로 출력할 수 있다.
도 9 내지 도 11은 본 발명의 일 실시 예에 따라 쿼리를 생성하는 과정을 설명하기 위한 도면들이다.
예를 들어, 제2 서버(300)는 도 9와 같이 음성 신호로부터 컨텐츠의 성격을 나타내는 문구를 추출하고, 추출된 컨텐츠의 성격을 나타내는 문구를 정규화된 문구로 변환할 수 있다. 즉, 제2 서버(300)는 메타데이터 서비스를 제공하는 외부 서버(400)에서 구분된 컨텐츠 구분 기준에 매핑되도록 컨텐츠의 성격을 나타내는 용어를 변환할 수 있다.
한편, 도 10 및 도 11은 추출된 컨텐츠의 성격을 나타내는 문구를 정규화된 문구로 변환하는 과정의 일 예를 설명하기 위한 도면들이다.
먼저, 도 10의 (a)과 같이, "판타지 영화 보여줘"와 같은 사용자 발화에서 "판타지"를 발화 요소로 추출한다. 추출된 "판타지"는 컨텐츠의 장르와 관련된 발화 요소라는 점에서 메타데이터를 구성하는 다양한 항목 중에서 장르에 대응시킨다.
이때, 메타데이터 서비스를 제공하는 서버에서 "fantasy, sci-fi"과 같은 컨텐츠 구분 기준으로 장르가 판타지인 컨텐츠를 구분하고 있다는 점에서, "판타지"를 "fantasy, sci-fi"에 매핑시켜, 컨텐츠 검색을 위한 쿼리를 생성하게 된다.
또한, 도 10의 (b)와 같이, "Show me all the kids progrmas"와 같은 사용자 발화에서 "kids"를 발화 요소로 추출한다. 추출된 "kids"는 컨텐츠의 시청 등급과 관련된 발화 요소라는 점에서 메타데이터를 구성하는 다양한 항목 중에서 시청 등급에 대응시킨다.
이때, 메타데이터 서비스를 제공하는 서버에서 "7"과 같은 컨텐츠 구분 기준으로 시청 등급을 구분하고 있다는 점에서, "kids"를 "7"에 매핑시켜, 컨텐츠 검색을 위한 쿼리를 생성하게 된다.
한편, 도 11과 같이, "Show me funny somthing"과 같은 사용자 발화에서 "funny"를 발화 요소로 추출한다. 추출된 "funny"는 메타데이터를 구성하는 항목으로 매핑시 사용자 선호도를 고려할 수 있다.
예를 들어, 사용자가 컨텐츠의 장르로 범죄 드라마 장르를 선호하고 14세가 시청가능한 시청 등급을 선호하는 경우, 추출된 "funny"를 메타데이터를 구성하는 다양한 항목 중에서 장르 및 시청 등급에 대응시킬 수 있다.
이때, 메타데이터 서비스를 제공하는 서버에서 "crime drama"와 같은 컨텐츠 구분 기준으로 장르가 범죄 드라마인 컨텐츠를 구분하고 "14"과 같은 컨텐츠 구분 기준으로 시청 등급을 구분하고 있다는 점에서, "funny"를 "crime drama" 및 "14"에 매핑시켜 컨텐츠 검색을 위한 쿼리를 생성하게 된다.
도 12는 본 발명의 일 실시 예에 따라 디스플레이 장치에서 출력되는 시스템 응답의 일 예를 도시한 도면이다.
도 12와 같이, 사용자가 "애들이 볼만한 판타지 추천해줘"와 같이 발화한 경우를 가정한다.
이 경우, 디스플레이 장치(100)는 제2 서버(300)로부터 수신된 응답 정보에 기초하여 "애들이 볼만한 판타지 추천해줘"에 대응되는 시스템 응답을 출력할 수 있다. 예를 들어, 디스플레이 장치(100)는 시청 등급이 7세 이하인 판타지 영화에 대한 리스트(810)를 디스플레이할 수 있다. 이 경우, 리스트(810)는 타이틀, 썸네일, 방송 시간, 출연자, 제작자 등 중 적어도 하나에 대한 정보를 포함할 수 있다.
도 13은 본 발명의 일 실시 예에 따른 대화형 인터페이스 장치의 제어 방법을 설명하기 위한 흐름도이다.
먼저, 디스플레이 장치에서 수집한 사용자의 음성에 대응되는 음성 신호를 디스플레이 장치로부터 수신한다(S1310).
그리고, 음성 신호를 이용하여 사용자의 발화 의도를 판단하고, 판단된 발화 의도에 대응되는 컨텐츠를 검색하기 위한 쿼리를 생성한다(S1320). 즉, 음성 신호에서 발화 의도를 판단하기 위한 발화 요소를 추출하고, 추출된 발화 요소를 각 항목 내의 컨텐츠 구분 기준에 대응되도록 변환하여 쿼리를 생성한다.
구체적으로, 추출된 발화 요소를 항목 테이블의 복수의 항목 중 적어도 하나의 항목에 대응시키고, 추출된 발화 요소를 적어도 하나의 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 컨텐츠를 검색하기 위한 쿼리를 생성할 수 있다.
또한, 사용자 선호도에 기초하여, 추출된 발화 요소를 항목 테이블의 복수의 항목 중 적어도 하나의 항목에 대응시키고, 추출된 발화 요소를 적어도 하나의 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 컨텐츠를 검색하기 위한 쿼리를 생성할 수도 있다.
이후, 생성된 쿼리를 컨텐츠에 대한 메타데이터를 항목 별로 구분하여 저장하는 외부 서버로 전송한다(S1330).
한편, 대화형 인터페이스 장치는, 국가별 및, 언어별 중 적어도 하나에 따라 컨텐츠 구분 기준이 상이한 복수의 항목을 포함하는 항목 테이블을 저장할 수 있다.
또한, 외부 서버는, 컨텐츠에 대한 메타 데이터를 타이틀, 출연자, 제작자, 컨텐츠 타입, 장르, 시청 등급 중 적어도 하나의 항목으로 구분하여 저장할 수 있다.
이에 대해서는, 도 1 내지 도 12에서 구체적으로 설명한 바 있다는 점에서 구체적인 중복 설명은 생략하기로 한다.
또한, 본 발명에 따른 제어 방법을 순차적으로 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 디스플레이 장치 및 서버에 대해 도시한 상술한 블록도에서는 버스(bus)를 미도시하였으나, 디스플레이 장치 및 서버에서 각 구성요소 간의 통신은 버스를 통해 이루어질 수도 있다. 또한, 각 디바이스에는 상술한 다양한 단계를 수행하는 CPU, 마이크로 프로세서 등과 같은 프로세서가 더 포함될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
300 : 제2 서버 310 : 통신부
320: 저장부 330 : 제어부

Claims (10)

  1. 디스플레이 장치로부터 수신한 음성 신호에 대응하는 컨텐츠를 제공하는 대화형 인터페이스 장치에 있어서,
    상기 디스플레이 장치에서 수집한 사용자의 음성에 대응되는 음성 신호를 수신하는 통신부; 및,
    상기 음성 신호를 이용하여 상기 사용자의 발화 의도를 판단하고, 상기 판단된 발화 의도에 대응되는 컨텐츠를 검색하기 위한 쿼리를 생성하여 컨텐츠에 대한 메타데이터를 항목 별로 구분하여 저장하는 외부 서버로 전송하도록 제어하는 제어부;를 포함하며,
    상기 제어부는,
    상기 음성 신호에서 상기 발화 의도를 판단하기 위한 발화 요소를 추출하고, 상기 추출된 발화 요소를 각 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 상기 쿼리를 생성하는 것을 특징으로 하는 대화형 인터페이스 장치.
  2. 제1항에 있어서,
    국가별 및, 언어별 중 적어도 하나에 따라 컨텐츠 구분 기준이 상이한 복수의 항목을 포함하는 항목 테이블을 저장하는 저장부;를 더 포함하는 것을 특징으로 하는 대화형 인터페이스 장치.
  3. 제1항에 있어서,
    상기 제어부는,
    상기 추출된 발화 요소를 항목 테이블의 복수의 항목 중 적어도 하나의 항목에 대응시키고, 상기 추출된 발화 요소를 상기 적어도 하나의 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 상기 컨텐츠를 검색하기 위한 쿼리를 생성하는 것을 특징으로 하는 대화형 인터페이스 장치.
  4. 제1항에 있어서,
    상기 제어부는,
    사용자 선호도에 기초하여, 상기 추출된 발화 요소를 항목 테이블의 복수의 항목 중 적어도 하나의 항목에 대응시키고, 상기 추출된 발화 요소를 상기 적어도 하나의 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 상기 컨텐츠를 검색하기 위한 쿼리를 생성하는 것을 특징으로 하는 대화형 인터페이스 장치.
  5. 제1항에 있어서,
    상기 외부 서버는,
    상기 컨텐츠에 대한 메타 데이터를 타이틀, 출연자, 제작자, 컨텐츠 타입, 장르, 시청 등급 중 적어도 하나의 항목으로 구분하여 저장하는 것을 특징으로 하는 대화형 인터페이스 장치.
  6. 디스플레이 장치로부터 수신한 음성 신호에 대응하는 컨텐츠를 제공하는 대화형 인터페이스 장치의 제어 방법에 있어서,
    상기 디스플레이 장치에서 수집한 사용자의 음성에 대응되는 음성 신호를 수신하는 단계;
    상기 음성 신호를 이용하여 상기 사용자의 발화 의도를 판단하고, 상기 판단된 발화 의도에 대응되는 컨텐츠를 검색하기 위한 쿼리를 생성하는 단계; 및,
    상기 생성된 쿼리를 컨텐츠에 대한 메타데이터를 항목 별로 구분하여 저장하는 외부 서버로 전송하는 단계;를 포함하며,
    상기 생성하는 단계는,
    상기 음성 신호에서 상기 발화 의도를 판단하기 위한 발화 요소를 추출하고, 상기 추출된 발화 요소를 각 항목 내의 컨텐츠 구분 기준에 대응되도록 변환하여 상기 쿼리를 생성하는 것을 특징으로 하는 제어 방법.
  7. 제6항에 있어서,
    상기 대화형 인터페이스 장치는,
    국가별 및, 언어별 중 적어도 하나에 따라 컨텐츠 구분 기준이 상이한 복수의 항목을 포함하는 항목 테이블을 저장하는 것을 특징으로 하는 제어 방법.
  8. 제6항에 있어서,
    상기 생성하는 단계는,
    상기 추출된 발화 요소를 항목 테이블의 복수의 항목 중 적어도 하나의 항목에 대응시키고, 상기 추출된 발화 요소를 상기 적어도 하나의 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 상기 컨텐츠를 검색하기 위한 쿼리를 생성하는 것을 특징으로 하는 제어 방법.
  9. 제6항에 있어서,
    상기 생성하는 단계는,
    사용자 선호도에 기초하여, 상기 추출된 발화 요소를 항목 테이블의 복수의 항목 중 적어도 하나의 항목에 대응시키고, 상기 추출된 발화 요소를 상기 적어도 하나의 항목의 컨텐츠 구분 기준에 대응되도록 변환하여 상기 컨텐츠를 검색하기 위한 쿼리를 생성하는 것을 특징으로 하는 제어 방법.
  10. 제6항에 있어서,
    상기 외부 서버는,
    상기 컨텐츠에 대한 메타 데이터를 타이틀, 출연자, 제작자, 컨텐츠 타입, 장르, 시청 등급 중 적어도 하나의 항목으로 구분하여 저장하는 것을 특징으로 하는 제어 방법.

KR1020130001838A 2013-01-07 2013-01-07 대화형 인터페이스 장치 및 그의 제어 방법 KR20140089876A (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020130001838A KR20140089876A (ko) 2013-01-07 2013-01-07 대화형 인터페이스 장치 및 그의 제어 방법
EP14150032.2A EP2752846A1 (en) 2013-01-07 2014-01-02 Dialogue-type interface apparatus and method for controlling the same
AU2014200034A AU2014200034A1 (en) 2013-01-07 2014-01-06 Dialog-type interface apparatus and method for controlling the same
JP2014000671A JP2014132464A (ja) 2013-01-07 2014-01-06 対話型インターフェース装置及びその制御方法
US14/149,397 US20140196092A1 (en) 2013-01-07 2014-01-07 Dialog-type interface apparatus and method for controlling the same
CN201410006680.8A CN103916704A (zh) 2013-01-07 2014-01-07 对话型接口设备及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130001838A KR20140089876A (ko) 2013-01-07 2013-01-07 대화형 인터페이스 장치 및 그의 제어 방법

Publications (1)

Publication Number Publication Date
KR20140089876A true KR20140089876A (ko) 2014-07-16

Family

ID=49917565

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130001838A KR20140089876A (ko) 2013-01-07 2013-01-07 대화형 인터페이스 장치 및 그의 제어 방법

Country Status (6)

Country Link
US (1) US20140196092A1 (ko)
EP (1) EP2752846A1 (ko)
JP (1) JP2014132464A (ko)
KR (1) KR20140089876A (ko)
CN (1) CN103916704A (ko)
AU (1) AU2014200034A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160027576A (ko) * 2014-09-01 2016-03-10 유형근 얼굴인식형 인터랙티브 디지털 사이니지장치
KR20170087712A (ko) * 2016-01-21 2017-07-31 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 제어 방법
US10140985B2 (en) 2013-07-02 2018-11-27 Samsung Electronics Co., Ltd. Server for processing speech, control method thereof, image processing apparatus, and control method thereof

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10630751B2 (en) 2016-12-30 2020-04-21 Google Llc Sequence dependent data message consolidation in a voice activated computer network environment
US10956485B2 (en) 2011-08-31 2021-03-23 Google Llc Retargeting in a search environment
US10431209B2 (en) * 2016-12-30 2019-10-01 Google Llc Feedback controller for data transmissions
US10614153B2 (en) 2013-09-30 2020-04-07 Google Llc Resource size-based content item selection
US9703757B2 (en) 2013-09-30 2017-07-11 Google Inc. Automatically determining a size for a content item for a web page
US9412363B2 (en) * 2014-03-03 2016-08-09 Microsoft Technology Licensing, Llc Model based approach for on-screen item selection and disambiguation
US9405741B1 (en) * 2014-03-24 2016-08-02 Amazon Technologies, Inc. Controlling offensive content in output
US10089985B2 (en) * 2014-05-01 2018-10-02 At&T Intellectual Property I, L.P. Smart interactive media content guide
US11049029B2 (en) * 2015-02-22 2021-06-29 Google Llc Identifying content appropriate for children algorithmically without human intervention
JP6305630B2 (ja) 2015-03-20 2018-04-04 株式会社東芝 文書検索装置、方法及びプログラム
US10504509B2 (en) 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
US9691070B2 (en) * 2015-09-01 2017-06-27 Echostar Technologies L.L.C. Automated voice-based customer service
US9886958B2 (en) 2015-12-11 2018-02-06 Microsoft Technology Licensing, Llc Language and domain independent model based approach for on-screen item selection
CN106250474B (zh) * 2016-07-29 2020-06-23 Tcl科技集团股份有限公司 一种语音控制的处理方法及系统
JP7020799B2 (ja) * 2017-05-16 2022-02-16 ソニーグループ株式会社 情報処理装置、及び情報処理方法
CN111903139B (zh) * 2018-03-27 2024-06-25 索尼公司 信息处理装置、信息处理方法、发送装置、及发送方法
CN109036417B (zh) * 2018-07-03 2020-06-23 百度在线网络技术(北京)有限公司 用于处理语音请求的方法和装置
JP6598418B1 (ja) * 2019-05-17 2019-10-30 ソプラ株式会社 情報出力装置、情報出力方法、およびプログラム
CN113366467A (zh) * 2019-06-26 2021-09-07 深圳市欢太科技有限公司 信息推荐方法、装置、电子设备以及存储介质
JP6799297B1 (ja) * 2019-10-23 2020-12-16 ソプラ株式会社 情報出力装置、情報出力方法、及び情報出力プログラム
KR20210051319A (ko) * 2019-10-30 2021-05-10 엘지전자 주식회사 인공 지능 장치
CN113194346A (zh) * 2019-11-29 2021-07-30 广东海信电子有限公司 一种显示设备
CN111081252A (zh) * 2019-12-03 2020-04-28 深圳追一科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
CN115552395A (zh) * 2020-05-15 2022-12-30 赛诺菲 信息系统和电子装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7774343B2 (en) * 2002-04-15 2010-08-10 Microsoft Corporation Multiple media vendor support
US9201923B2 (en) * 2005-10-04 2015-12-01 Robert Bosch Corporation Method and apparatus for organizing and optimizing content in dialog systems
US9311394B2 (en) * 2006-10-31 2016-04-12 Sony Corporation Speech recognition for internet video search and navigation
US8910232B2 (en) * 2009-09-14 2014-12-09 At&T Intellectual Property I, Lp System and method of analyzing internet protocol television content for closed-captioning information
JP2012043000A (ja) * 2010-08-12 2012-03-01 Sony Corp 検索装置、検索方法、及び、プログラム
ITRM20120142A1 (it) * 2012-04-05 2013-10-06 X2Tv S R L Procedimento e sistema per la raccolta in tempo reale di un feedback da parte del pubblico di una trasmissione televisiva o radiofonica
CN102665129B (zh) * 2012-04-27 2015-05-27 北京人民广播电台 定制播放内容的方法和装置
US9699485B2 (en) * 2012-08-31 2017-07-04 Facebook, Inc. Sharing television and video programming through social networking

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140985B2 (en) 2013-07-02 2018-11-27 Samsung Electronics Co., Ltd. Server for processing speech, control method thereof, image processing apparatus, and control method thereof
KR20160027576A (ko) * 2014-09-01 2016-03-10 유형근 얼굴인식형 인터랙티브 디지털 사이니지장치
KR20170087712A (ko) * 2016-01-21 2017-07-31 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 제어 방법

Also Published As

Publication number Publication date
CN103916704A (zh) 2014-07-09
US20140196092A1 (en) 2014-07-10
JP2014132464A (ja) 2014-07-17
EP2752846A1 (en) 2014-07-09
AU2014200034A1 (en) 2014-07-24

Similar Documents

Publication Publication Date Title
KR20140089876A (ko) 대화형 인터페이스 장치 및 그의 제어 방법
US11700409B2 (en) Server and method for controlling server
CN108063969B (zh) 显示设备、控制显示设备的方法、服务器以及控制服务器的方法
KR20140089862A (ko) 디스플레이 장치 및 그의 제어 방법
KR20140089861A (ko) 디스플레이 장치 및 그의 제어 방법
CN103546763A (zh) 用于提供内容信息的方法和广播接收设备
KR102379049B1 (ko) 서버 및 그의 제어 방법
KR102182689B1 (ko) 서버 및 그의 제어 방법
KR102118195B1 (ko) 서버 및 그의 제어 방법
KR102091006B1 (ko) 디스플레이 장치 및 그의 제어 방법
KR20160022326A (ko) 디스플레이 장치 및 그의 제어 방법

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid