KR102009316B1 - 대화형 서버, 디스플레이 장치 및 그 제어 방법 - Google Patents

대화형 서버, 디스플레이 장치 및 그 제어 방법 Download PDF

Info

Publication number
KR102009316B1
KR102009316B1 KR1020130001755A KR20130001755A KR102009316B1 KR 102009316 B1 KR102009316 B1 KR 102009316B1 KR 1020130001755 A KR1020130001755 A KR 1020130001755A KR 20130001755 A KR20130001755 A KR 20130001755A KR 102009316 B1 KR102009316 B1 KR 102009316B1
Authority
KR
South Korea
Prior art keywords
information
command
target object
display apparatus
user
Prior art date
Application number
KR1020130001755A
Other languages
English (en)
Other versions
KR20140089836A (ko
Inventor
정지혜
김명재
신용욱
이보라
이진식
이청재
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020130001755A priority Critical patent/KR102009316B1/ko
Priority to EP18172680.3A priority patent/EP3386205A1/en
Priority to EP14150053.8A priority patent/EP2753093A1/en
Priority to JP2014000670A priority patent/JP2014132342A/ja
Priority to AU2014200033A priority patent/AU2014200033A1/en
Priority to CN201811318013.8A priority patent/CN109600636A/zh
Priority to US14/149,186 priority patent/US20140195248A1/en
Priority to CN201410006709.2A priority patent/CN103916688A/zh
Publication of KR20140089836A publication Critical patent/KR20140089836A/ko
Priority to JP2019032674A priority patent/JP6802305B2/ja
Application granted granted Critical
Publication of KR102009316B1 publication Critical patent/KR102009316B1/ko
Priority to US16/863,568 priority patent/US20200260127A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/237Communication with additional data server
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4227Providing Remote input by a user located remotely from the client device, e.g. at work
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4753End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for user identification, e.g. by entering a PIN or password
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)

Abstract

대화형 서버, 디스플레이 장치 및 그 제어 방법이 개시된다. 본 발명에 따른 대화형 서버는 디스플레이 장치와 통신을 수행하여, 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성 신호를 수신하는 통신부, 복수의 지시자 및 복수의 명령어를 저장하는 저장부, 제1 발화 요소에 대응되는 지시자 및 제2 발화 요소에 대응되는 명령어를 저장부로부터 추출하는 추출부 및, 추출된 지시자 및 명령어를 조합하여 발화 음성 신호에 대응되는 응답 정보를 생성하여 디스플레이 장치로 전송하는 제어부를 포함하며, 제1 발화 요소는 디스플레이 장치의 화면상에 표시된 객체의 표시 상태에 기초하여 결정된 발화 요소이다. 이에 따라, 대화형 서버는 다양한 사용자의 발화 음성에 대해서 사용자의 의도를 파악하고, 그에 따른 응답 정보를 생성하여 디스플레이 장치로 제공할 수 있다.

Description

대화형 서버, 디스플레이 장치 및 그 제어 방법{Interactive server, display apparatus and controlling method thereof}
본 발명은 대화형 서버, 디스플레이 장치 및 제어 방법에 관한 것으로써, 보다 상세하게는 사용자 발화에 대응되는 응답 정보를 제공하기 위한 대화형 서버, 디스플레이 장치 및 제어 방법에 관한 것이다.
일반적으로, 대화형 시스템에서 음성 인식이 가능한 디스플레이 장치는 사용자의 발화 음성을 수집하고, 그 수집한 발화 음성을 네트워크를 통해 연결된 외부 서버로 전송한다. 발화 음성을 수신한 외부 서버는 발화 음성을 분석하여 사용자의 의도를 파악하고, 그에 따른 응답 정보를 생성하여 디스플레이 장치로 전송한다. 이에 따라, 디스플레이 장치는 외부 서버로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성에 대응하는 기능을 실행하거나 정보를 제공할 수 있다.
그러나, 이 같은 종래의 대화형 시스템은 사용자의 발화 음성을 분석하고, 그 분석 결과에 기초하여 사용자의 의도를 파악하는데 한계가 있다. 예를 들어, "제1 컨텐츠 보여줘"와 같이 지칭하는 대상이 명확한 발화 음성의 경우, 외부 서버는 이 같은 발화 음성을 분석하여 사용자의 의도를 올바르게 파악하고, 그에 따른 응답 정보를 생성하여 디스플레이 장치로 전송할 수 있다. 따라서, 디스플레이 장치는 응답 정보에 기초하여 사용자가 요청한 제1 컨텐츠를 디스플레이할 수 있다.
그러나, "이거 보여줘"와 같이 지칭하는 대상이 불명확한 발화 음성의 경우, 외부 서버는 이 같은 발화 음성으로부터 사용자의 의도를 명확하게 파악하지 못하는 문제가 있다. 다시 말해, 종래의 대화형 시스템은 기정의된 발화 음성에 대해서만 사용자의 의도를 파악하고 그에 따른 동작을 수행하거나 정보를 제공하기 때문에 사용자의 발화에 제약이 따르는 문제가 있다.
본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 대화형 시스템에서 다양한 사용자의 발화에 대응되는 동작을 수행하도록 함을 목적으로 한다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 대화형 서버는 디스플레이 장치와 통신을 수행하여, 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성 신호를 수신하는 통신부, 복수의 지시자 및 복수의 명령어를 저장하는 저장부, 상기 제1 발화 요소에 대응되는 지시자 및 상기 제2 발화 요소에 대응되는 명령어를 상기 저장부로부터 추출하는 추출부 및, 상기 추출된 지시자 및 명령어를 조합하여 상기 발화 음성 신호에 대응되는 응답 정보를 생성하여 상기 디스플레이 장치로 전송하는 제어부를 포함하며, 상기 제1 발화 요소는 상기 디스플레이 장치의 화면상에 표시된 객체의 표시 상태에 기초하여 결정된 발화 요소이다.
그리고, 상기 제1 발화 요소는, 대명사, 서수, 방향 중 적어도 하나를 포함할 수 있다.
또한, 상기 추출부는, 상기 제1 발화 요소에 요청 정보가 있는지 여부를 판단하여, 상기 요청 정보가 있으면, 상기 요청 정보에 대응되는 명령어를 저장부로부터 추출하고, 상기 제어부는, 상기 추출된 명령어에 기초하여 상기 요청 정보에 대응되는 컨텐츠 정보를 상기 응답 정보에 추가할 수 있다.
그리고, 상기 지시자는, 상기 디스플레이 장치의 화면상에 표시된 상기 객체들 중에서 상기 대상을 상대적으로 지칭하기 위한 실행어일 수 있다.
또한, 상기 지시자는, 상기 디스플레이 장치의 화면상에 표시된 상기 객체들의 고유 식별 정보이며, 상기 추출부는, 상기 디스플레이 장치의 대화 이력에 기초하여 상기 제1 발화 요소가 지칭하는 대상을 판단하고, 판단된 상기 대상에 대응되는 고유 식별 정보를 상기 지시자로 추출할 수 있다.
그리고, 상기 수신된 발화 음성 신호를 텍스트 정보로 변환하는 음성 처리부를 더 포함할 수 있다.
한편, 본 발명의 일 실시 예에 따르면, 디스플레이 장치에 있어서, 디스플레이 장치는 사용자의 발화 음성을 입력받는 입력부, 상기 발화 음성에 대한 발화 음성 신호를 서버 장치로 전송하는 통신부, 화면을 디스플레이하는 디스플레이부, 상기 서버 장치로부터, 지시자 및 명령어를 포함하는 응답 정보가 수신되면, 상기 디스플레이부의 화면상에 표시된 객체들의 표시 상태에 기초하여 상기 지시자가 지칭하는 대상을 선택하고, 상기 선택된 대상에 대해 상기 명령어에 대응되는 동작을 수행하는 제어부를 포함한다.
그리고, 상기 발화 음성 신호는, 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하며, 상기 제1 발화 요소는 상기 디스플레이 장치의 화면 표시 상태에 기초하여 결정된 발화 요소로써, 대명사, 서수, 방향 중 적어도 하나를 포함할 수 있다.
한편, 본 발명의 일 실시 예에 따르면, 대화형 서버의 제어 방법에 있어서, 상기 방법은 디스플레이 장치로부터 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성 신호를 수신하는 단계, 상기 제1 발화 요소에 대응되는 지시자 및 상기 제2 발화 요소에 대응되는 명령어를 추출하는 단계 및 상기 추출된 지시자 및 명령어를 조합하여 상기 발화 음성 신호에 대응되는 응답 정보를 생성하여 상기 디스플레이 장치로 전송하는 단계를 포함하며, 상기 제1 발화 요소는 상기 디스플레이 장치의 화면상에 표시된 객체의 표시 상태에 기초하여 결정된 발화 요소이다.
그리고, 상기 제1 발화 요소는, 대명사, 서수, 방향 중 적어도 하나를 포함할 수 있다.
또한, 상기 추출하는 단계는, 상기 제1 발화 요소에 요청 정보가 있는지 여부를 판단하여, 상기 요청 정보가 있으면, 상기 요청 정보에 대응되는 명령어를 저장부로부터 추출하고, 상기 전송하는 단계는, 상기 추출된 명령어에 기초하여 상기 요청 정보에 대응되는 컨텐츠 정보를 상기 응답 정보에 추가할 수 있다.
그리고, 상기 지시자는, 상기 디스플레이 장치의 화면상에 표시된 상기 객체들 중에서 상기 대상을 상대적으로 지칭하기 위한 실행어일 수 있다.
또한, 상기 지시자는, 상기 디스플레이 장치의 화면상에 표시된 상기 객체들의 고유 식별 정보이며, 상기 추출하는 단계는, 상기 디스플레이 장치의 대화 이력에 기초하여 상기 제1 발화 요소가 지칭하는 대상을 판단하고, 판단된 상기 대상에 대응되는 고유 식별 정보를 상기 지시자로 추출할 수 있다.
그리고, 상기 수신된 발화 음성 신호를 텍스트 정보로 변환하는 단계를 더 포함할 수 있다.
한편, 본 발명의 일 실시 예에 따르면, 디스플레이 장치의 제어 방법에 있어서, 상기 방법은 사용자의 발화 음성을 입력받는 단계, 상기 발화 음성에 대한 발화 음성 신호를 서버 장치로 전송하는 단계, 상기 서버 장치로부터 지시자 및 명령어를 포함하는 응답 정보를 수신하는 단계 및 화면상에 표시된 객체들의 표시 상태에 기초하여 상기 지시자가 지칭하는 대상을 선택하고, 상기 선택된 대상에 대해 상기 명령어에 대응되는 동작을 수행하는 단계를 포함한다.
그리고, 상기 발화 음성 신호는, 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하며, 상기 제1 발화 요소는 상기 디스플레이 장치의 화면 표시 상태에 기초하여 결정된 발화 요소로써, 대명사, 서수, 방향 중 적어도 하나를 포함할 수 있다.
이상과 같이 본 발명의 다양한 실시 예에 따르면, 대화형 시스템에서 대화형 서버는 다양한 사용자의 발화 음성에 대해서 사용자의 의도를 파악하고, 그에 따른 응답 정보를 생성하여 디스플레이 장치로 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도,
도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도,
도 3은 본 발명의 일 실시예에 따른 대화형 서버의 블록도,
도 4는 본 발명의 일 실시예에 따른 디스플레이 장치의 화면상에 표시된 객체의 표시 상태에 기초하여 발화되는 발화 음성의 예시도,
도 5는 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도,
도 6은 본 발명의 일 실시예에 따른 대화형 서버의 제어 방법에 대한 흐름도,
도 7은 본 발명의 일 실시예에 따른 디스플레이 장치의 제어 방법에 대한 흐름도이다.
이하 첨부된 도면들을 참조하여 본 발명의 일시 예를 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제1 예시도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 대화형 시스템은 디스플레이 장치(100) 및 대화형 서버(200)를 포함한다.
디스플레이 장치(100)는 인터넷이 가능한 장치로써, 스마트 TV, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다. 이 같은 디스플레이 장치(100)는 사용자의 발화 음성이 입력되면, 입력된 사용자의 발화 음성에 대응되는 동작을 수행한다. 구체적으로, 디스플레이 장치(100)는 사용자의 발화 음성에 대응되는 응답 메시지를 출력하거나 또는 사용자의 발화 음성에 대응되는 기능을 수행할 수 있다. 즉, 디스플레이 장치(100)는 입력된 발화 음성을 분석하여 내부적으로 수행가능한지 여부를 판단하고, 그 판단 결과에 따라, 입력된 발화 음성에 대응되는 기능을 수행하거나 또는 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 동작을 수행할 수 있다.
예를 들어, "볼륨 올려"라는 발화 음성이 입력되면, 디스플레이 장치(100)는 기저장된 제어 정보 중 입력된 발화 음성에 대응되는 제어 정보에 기초하여 볼륨을 조정할 수 있다.
또다른 예를 들어, "오늘 날씨 어때?"라는 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성에 대한 발화 음성 신호(이하 발화 음성이라 함)를 대화형 서버(200)로 전송한다. 여기서, 발화 음성은 아날로그 신호가 될 수 있다. 따라서, 디스플레이 장치(100)는 아날로그 신호인 발화 음성을 디지털 신호로 변환하여 대화형 서버(200)로 전송한다. 이후, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 오늘 날씨에 대한 결과를 음성 또는 텍스트 형태의 영상으로 출력할 수 있다.
대화형 서버(200)는 디스플레이 장치(100)로부터 수신한 사용자의 발화 음성에 기초하여 사용자의 의도에 적합한 응답 정보를 제공한다. 구체적으로, 대화형 서버(200)는 디스플레이 장치(100)로 사용자의 발화 음성이 수신되면, 수신된 발화 음성으로부터 발화 요소를 추출하고, 그 추출된 발화 요소에 기초하여 사용자의 발화 음성과 관련된 응답 정보를 생성하여 전송할 수 있다. 전술한 바와 같이, 디스플레이 장치(100)로부터 수신한 사용자의 발화 음성은 디지털 신호가 될 수 있다. 따라서, 대화형 서버(200)는 디지털 신호로 변환된 발화 음성이 수신되면, 이를 텍스트 정보로 생성한 후, 생성된 텍스트 정보를 분석하여 발화 요소를 추출하고, 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 응답 정보를 생성할 수 있다. 디지털 신호로 변환된 발화 음성으로부터 텍스트 정보를 생성하는 것은 공지된 기술이기에 본 발명에서는 상세한 설명을 생략하도록 한다.
한편, 발화 요소는 사용자의 발화 음성 내에서 사용자가 요청한 동작을 수행하기 위한 핵심 키워드로써, 목적 영역(domain), 목적 기능(user action) 및 주요 특징(feature) 별로 추출된 발화 요소를 분류할 수 있다. 전술한 예와 같이, "오늘 날씨 어때?"라는 사용자의 발화 음성에 대한 텍스트 정보가 생성되면, 대화형 서버(200)는 "오늘", "날씨", "어때?"라는 발화 요소를 추출할 수 있다. 이후, 대화형 서버(200)는 추출된 발화 요소 중 "오늘" 및 "날씨"를 주요 특징에 대한 발화 요소(이하 제1 발화 요소라 함)로 분류하고, "어때?"를 목적 기능에 대한 발화 요소(이하 제2 발화 요소라 함)로 분류할 수 있다. 또한, 대화형 서버(200)는 추출된 발화 요소에 기초하여 목적 영역에 대한 발화 요소(이하 제3 발화 요소라 함)가 웹 서치라는 도메인에 속하는 것으로 분류할 수 있다. 이 같이, 사용자의 발화 음성에 대한 텍스트 정보로부터 제1 내지 제3 발화 요소가 분류되면, 대화형 서버(200)는 다양한 컨텐츠를 제공하는 외부 서버(미도시)로부터 날씨 정보를 제공받아, 이를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 오늘 날씨 정보를 음성 및 텍스트 중 적어도 하나를 통해 디스플레이할 수 있다.
한편, 전술한 대화형 서버(200)는 디지털 신호로 변환된 사용자의 발화 음성을 텍스트 정보로 생성하는 제1 서버(10) 및 텍스트 정보로 생성된 발화 음성에 대응하는 응답 정보를 생성하는 제2 서버(20)를 포함할 수 있다. 이하에서는, 디스플레이 장치(100), 제1 및 제2 서버(10,20)를 통해 사용자의 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템에 대해서 상세히 설명하도록 한다.
도 2는 본 발명의 또다른 실시예에 따른 사용자 발화 음성에 적합한 응답 정보를 제공하는 대화형 시스템의 제2 예시도이다.
도 2에 도시된 바와 같이, 디스플레이 장치(100)는 사용자로부터 발화된 발화 음성이 입력되면, 입력된 발화 음성을 디지털 신호로 변환하여 제1 서버(10)로 전송한다. 디지털 신호로 변환된 발화 음성이 수신되면, 제1 서버(10)는 기저장된 다양한 발화 음성에 대한 특정 패턴에 따라, 사용자의 발화 음성에 대한 텍스트 정보를 생성하여 디스플레이 장치(100)로 전송한다.
제1 서버(10)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신한 디스플레이 장치(100)는 사용자의 발화 음성에 대한 텍스트 정보를 제2 서버(20)로 전송한다. 사용자의 발화 음성에 대한 텍스트 정보를 수신한 제2 서버(20)는 수신한 텍스트 정보를 분석하여 발화 요소를 추출하고, 그 추출된 발화 요소에 기초하여 사용자의 발화 음성에 대응되는 동작을 수행하기 위한 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다.
지금까지, 본 발명에 따른 디스플레이 장치(100)와 대화형 서버(200)로 이루어진 대화형 시스템에서 사용자의 발화 음성에 대응하는 응답 정보를 제공하는 동작에 대해서 개략적으로 설명하였다. 이하에서는, 전술한 디스플레이 장치(100) 및 대화형 서버(200)의 각 구성에 대해서 상세히 설명하도록 한다.
도 3은 본 발명의 일 실시예에 따른 대화형 서버의 블록도이다.
도 3에 도시된 바와 같이, 대화형 서버(200)는 통신부(210), 음성 처리부(220), 저장부(230), 추출부(240) 및 제어부(250)를 포함한다.
통신부(210)는 사용자의 발화 음성을 제공하는 디스플레이 장치(100)와 통신을 수행한다. 특히, 통신부(210)는 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성에 대한 디지털 신호를 수신할 수 있다. 여기서, 제1 발화 요소는 사용자의 발화 음성 내에서 주요 특징으로 분류되는 발화 요소이다. 이 같은 제1 발화 요소가 디스플레이 장치(100)의 화면상에 표시된 객체들의 표시 상태에 기초하여 결정된 발화 요소인 경우, 제1 발화 요소는 대상을 나타내는 발화 요소가 될 수 있다. 즉, 제1 발화 요소는 대명사, 서수, 방향 중 적어도 하나를 통해 대상을 나타내는 발화 요소가 될 수 있다. 그리고, 제2 발화 요소는 사용자의 발화 음성에 내에서 목적 기능으로 분류되는 발화 요소로써, 본 발명에서는 이 같은 목적 기능을 실행 명령으로 명명하기로 한다.
예를 들어, "이거 실행해줘"라는 발화 음성의 경우, "이거"는 대명사를 나타내는 제1 발화 요소가 될 수 있으며, "실행해줘"는 실행 명령을 나타내는 제2 발화 요소가 될 수 있다. 이 같은 제1 및 제2 발화 요소를 포함하는 발화 음성에 대한 디지털 신호가 수신되면, 음성 처리부(220)는 수신된 발화 음성을 텍스트 정보로 변환한다. 실시예에 따라, 음성 처리부(220)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 통신부(210)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 수 있다. 이 경우, 디스플레이 장치(100)는 입력된 사용자의 발화 음성에 대한 텍스트 정보를 전술한 제1 서버(10)와 같은 로부터 수신하여 대화형 서버(200)로 전송한다. 따라서, 통신부(210)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 수 있다. 이 같이, 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 경우, 전술한 음성 처리부(220)의 구성은 생략될 수 있다.
이 같이, 사용자의 발화 음성이 텍스트 정보로 변환되거나 혹은 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보가 수신되면, 추출부(240)는 저장부(230)로부터 제1 발화 요소에 대응되는 지시자 및 제2 발화 요소에 대응되는 명령어를 추출한다. 여기서, 저장부(230)는 대화형 서버(200)를 동작시키기 위해 필요한 각종 프로그램 등이 저장되는 저장매체로써, 메모리, HDD(Hard Disk Drvie) 등으로 구현될 수 있다. 예를 들어, 저장부(230)는 후술할 제어부(250)의 동작을 수행하기 위한 프로그램을 저장하는 ROM, 제어부(250)의 동작 수행에 따른 데이터를 일시적으로 저장하는 RAM 등을 구비할 수 있다. 뿐만 아니라, 저장부(230)는 각종 참조 데이터를 저장하는 EEROM(Electrically Eraasable and Programmable ROM) 등을 더 구비할 수 있다. 특히, 저장부(230)는 복수의 지시자 및 복수의 명령어를 저장할 수 있다. 여기서, 복수의 지시자 및 복수의 명령어는 사용자의 발화 음성으로부터 추출된 발화 요소에 기초하여 디스플레이 장치(100)에서 해석 가능한 형태로 동작을 수행하도록 하기 위한 실행 정보이다. 구체적으로, 지시자는 디스플레이 장치(100)의 화면상에 표시된 객체들 중에서 대상을 상대적으로 지칭하기 위한 실행어이다. 다시 말해, 지시자는 사용자의 발화 음성으로부터 추출된 발화 요소 중 대명사, 서수, 방향과 같은 대상을 나타내는 제1 발화 요소에 기초하여 디스플레이 장치(100)에서 해석 가능한 형태로 동작을 수행하도록 하기 위한 실행어이다.
따라서, 저장부(230)는 아래 표 1과 같이 대상을 나타내는 각각의 제1 발화 요소 별로 지시자가 매칭된 테이블을 저장할 수 있다.
제1 발화 요소 지시자
이거 $this$
다음 $this$+1
세번째 $3rd$
표 1과 같이, "이거" 라는 제1 발화 요소에 대응되는 지시자는 $this$이 될 수 있으며, "다음"이라는 제1 발화 요소에 대응되는 지시자는 $this$+1이 될 수 있으며, "세번째"라는 제1 발화 요소에 대응되는 지시자는 $3rd$이 될 수 있다.
그리고, 저장부(230)에 저장되는 복수의 명령어는 사용자의 발화 음성으로부터 추출된 발화 요소 중 실행 명령을 나타내는 제2 발화 요소에 기초하여 디스플레이 장치(100)에서 해석 가능한 형태로 동작을 수행하도록 하기 위한 실행 정보이다. 따라서, 저장부(230)는 아래 표 2와 같이 실행 명령을 나타내는 각각의 제2 발화 요소 별로 명령어가 매칭된 테이블을 저장할 수 있다.
제2 발화 요소 명령어
실행해줘(실행) execute
보여줘, 뭐야(정보출력) show
표 2와 같이, "실행해줘"라는 제2 발화 요소에 대응되는 명령어는 "execute"가 될 수 있으며, "보여줘", "뭐야"라는 제2 발화 요소에 대응되는 명령어는 "show"가 될 수 있다.
표 1 및 표 2에서 개시된 바와 같이, 저장부(230)는 대상을 나타내는 제1 발화 요소 각각에 대한 지시자 및 실행 명령을 나타내는 제2 발화 요소 각각에 대한 명령어를 저장할 수 있다. 따라서, 추출부(240)는 음성 처리부(220)를 통해 텍스트 정보로 변환된 사용자의 발화 음성으로부터 제1 및 제2 발화 요소를 추출하고, 추출된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 저장부(230)로부터 추출할 수 있다.
제어부(250)는 추출부(240)로부터 추출된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 조합하여 사용자의 발화 음성에 대응되는 응답 정보를 생성하여 통신부(210)를 통해 디스플레이 장치(100)로 전송한다. 예를 들어, "이거 실행해줘"라는 사용자의 발화 음성의 경우, 추출부(240)는 "이거"라는 대상을 나타내는 제1 발화 요소 및 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 추출부(240)는 저장부(230)로부터 추출된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출한다. 즉, 추출부(240)는 표 1 및 표 2에 개시된 테이블에 기초하여 "이거"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 추출할 수 있다.
이 같이, 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 추출되면, 제어부(250)는 추출된 지시자 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 즉, 제어부(250)는 제1 발화 요소에 대응되는 지시자 "$this$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 조합하여 "execute($this$)"라는 실행 명령 스크립트를 생성할 수 있다.
또다른 예를 들어, "세번째 것 실행해줘"라는 사용자의 발화 음성의 경우, 추출부(240)는 "세번째"라는 대상을 나타내는 제1 발화 요소 및 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 추출부(240)는 저장부(230)로부터 추출된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출한다. 즉, 추출부(240)는 표 1 및 표 2에 개시된 테이블에 기초하여 "세번째"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$3rd$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 추출할 수 있다.
이 같이, 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 추출되면, 제어부(250)는 추출된 지시자 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 즉, 제어부(250)는 제1 발화 요소에 대응되는 지시자 "$3rd$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 조합하여 "execute($3rd$)"라는 실행 명령 스크립트를 생성할 수 있다.
또다른 예를 들어, "다음 거 실행해줘"라는 사용자의 발화 음성의 경우, 추출부(240)는 "다음"이라는 대상을 나타내는 제1 발화 요소 및 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 추출부(240)는 저장부(230)로부터 추출된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출한다. 즉, 추출부(240)는 표 1 및 표 2에 개시된 테이블에 기초하여 "다음"이라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$+1"과 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 추출할 수 있다.
이 같이, 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 추출되면, 제어부(250)는 추출된 지시자 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 즉, 제어부(250)는 "다음"이라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$+1"과 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 조합하여 "execute($this$+1)"라는 실행 명령 스크립트를 생성할 수 있다.
이 같은 실행 명령 스크립트가 생성되면, 제어부(250)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트에 기초하여 화면상에 표시된 객체 중 사용자가 지칭한 대상에 대응되는 객체를 선택하고, 선택된 객체를 디스플레이할 수 있다.
이하에서는, 디스플레이 장치(100)의 화면상에 표시된 객체의 표시 상태에 기초하여 제1 및 제2 발화 요소를 포함하는 발화 음성이 사용자에 의해 발화되는 것에 대해서 구체적으로 설명하도록 한다.
도 4는 본 발명의 일 실시예에 따른 디스플레이 장치의 화면상에 표시된 객체의 표시 상태에 기초하여 발화되는 발화 음성의 예시도이다.
도 4에 도시된 바와 같이, 디스플레이 장치(100)는 사용자가 요청한 채널을 통해 컨텐츠(410)를 수신하여 디스플레이할 수 있다. 또한, 디스플레이 장치(100)는 리모콘 또는 사용자 발화 음성을 통해 입력된 사용자 명령에 기초하여 사용자가 요청한 컨텐츠에 대한 컨텐츠 리스트(420)를 화면상에 디스플레이할 수 있다. 도시된 바와 같이, 컨텐츠 리스트(420) 상에는 지금까지 방송된 제1 컨텐츠에 대한 컨텐츠 정보(421~425)가 표시될 수 있다. 한편, 사용자는 컨텐츠 리스트(420) 상에 표시된 회차별 컨텐츠 정보(421~425)를 참조하여 특정 회차에 대응되는 제1 컨텐츠를 시청하기 위한 발화를 할 수 있다. 예를 들어, 사용자는 1회차 컨텐츠 정보(421)에 대응되는 제1 컨텐츠를 시청하기 위해 "이거 실행해줘"라는 발화를 하거나 혹은 3회차 컨텐츠 정보(423)에 대응되는 제1 컨텐츠를 시청하기 위해 "세번째 것 실행해줘"라는 발화를 할 수 있다.
이와 같이, 사용자는 디스플레이 장치(100)의 화면상에 디스플레이된 컨텐츠 리스트(420)로부터 시청하고자 하는 회차의 제1 컨텐츠(대상)를 나타내는 제1 발화 요소 및 해당 회차의 제1 컨텐츠를 시청하기 위한 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화를 할 수 있다. 따라서, 제어부(250)는 이 같은 발화 음성에 포함된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 저장부(230)로부터 추출되면, 추출된 지시자 및 명령어의 조합으로 실행 명령 스크립트를 생성할 수 있다.
한편, 본 발명의 추가적인 양상에 따라, 추출부(240)는 제1 발화 요소에 요청 정보가 있는지 여부를 판단하여, 요청 정보가 있으면, 요청 정보에 대응되는 명령어를 추출한다. 이후, 제어부(250)는 추출부(240)로부터 추출된 명령어에 기초하여 요청 정보에 대응되는 컨텐츠 정보를 응답 정보에 추가하여 디스플레이 장치(100)로 전송할 수 있다. 이를 위해, 저장부(230)는 요청 정보에 대한 명령어를 추가로 저장할 수 있다. 예를 들어, "상세 정보"라는 요청 정보는 "detail information"이라는 명령어와 대응되어 저장될 수 있으며, "제목"이라는 요청 정보는 "title"이라는 명령어와 대응되어 저장될 수 있다.
예를 들어, "이거 제목이 뭐야"라는 사용자의 발화 음성의 경우, 추출부(240)는 "이거"와 "제목"이라는 제1 발화 요소와 "뭐야"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 여기서, 추출된 "이거"라는 제1 발화 요소는 대상을 나타내는 발화 요소이며, "제목"이라는 제1 발화 요소는 요청 정보를 나타내는 발화 요소가 될 수 있다. 이 같이, 제1 및 제2 발화 요소가 추출되면, 추출부(240)는 저장부(230)로부터 "이거"라는 제1 발화 요소에 대응되는 지시자 "$this$"와 "제목"이라는 제1 발화 요소에 대응되는 명령어 "title"와 "뭐야"라는 제2 발화 요소에 대응되는 명령어 "show"를 추출할 수 있다. 이 같이, 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 추출되면, 제어부(250)는 추출된 지시자 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 즉, 제어부(250)는 "이거"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$", "제목"이라는 요청 정보를 나타내는 제1 발화 요소에 대응되는 명령어 "title" 및 "뭐야"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "show"를 조합하여 show(title) at ($this$)이라는 실행 명령 스크립트를 생성할 수 있다.
이 같은 실행 명령 스크립트가 생성되면, 제어부(250)는 생성된 실행 명령 스크립트 내에 요청 정보를 나타내는 명령어가 포함되어 있는지 여부를 판단한다. 요청 정보를 나타내는 명령어가 있으면, 제어부(250)는 저장부(230)에 저장된 디스플레이 장치(100)와의 대화 이력 정보에 기초하여 요청 정보에 대응되는 컨텐츠 정보 획득 여부를 판단한다. 예들 들어, 제어부(250)는 "이거 제목이 뭐야"라는 사용자의 발화 음성 이전에 수신된 "액션 영화 보여줘"라는 사용자의 발화 음성에 기초하여 액션 영화에 대한 컨텐츠 정보를 포함하는 응답 정보를 디스플레이 장치(100)로 전송할 수 있다. 이후, 전술한 바와 같이, 요청 정보를 나타내는 명령어를 포함하는 실행 명령 스크립트가 생성되면, 제어부(250)는 이전 대화 이력 정보에 기초하여 해당 컨텐츠에 대한 제목 정보를 저장부(230)에 저장된 EPG 정보로부터 획득하거나 혹은 외부 서버(미도시)를 통해 수신할 수 있다. 이후, 제어부(250)는 기생성된 실행 명령 스크립트 및 제목 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다.
그러나, 본 발명은 이에 한정되지 않으며, 제어부(250)는 요청 정보를 나타내는 명령어를 포함하는 실행 명령 스크립트에 대한 응답 정보를 디스플레이 장치(100)로 전송할 수 있다. 이 경우, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트를 해석하여 화면상에 표시된 객체 중 지시자가 지칭하는 대상에 대응되는 객체를 선택하고, 선택된 객체에 대해 명령어에 대응되는 동작을 수행할 수 있다. 따라서, 디스플레이 장치(100)는 선택된 객체에 대응되는 컨텐츠의 제목 정보를 기저장된 EPG 정보로부터 획득하거나 혹은 외부 서버(미도시)를 통해 수신하여 출력할 수 있다.
한편, 본 발명의 추가적인 양상에 따라, 저장부(230)에 저장되는 지시자는 디스플레이 장치(100)의 화면상에 표시된 객체들의 고유 식별 정보가 될 수 있다. 이 경우, 추출부(240)는 디스플레이 장치(100)의 대화 이력에 기초하여 사용자의 발화 음성으로부터 추출된 제1 발화 요소가 지칭하는 대상을 판단하고, 판단된 대상에 대응되는 고유 식별 정보를 지시자로 추출할 수 있다.
구체적으로, 디스플레이 장치(100)와 대화형 서버(200)는 디스플레이 장치(100)의 화면상에 디스플레이되는 컨텐츠에 대한 고유 식별 정보를 공유할 수 있다. 여기서, 각 고유 식별 정보는 디스플레이 장치(100)에서 현재 디스플레이되고 있는 컨텐츠 및 사용자의 요청에 따라 제공될 컨텐츠를 식별하기 위한 정보이다. 예를 들어, 도 4에서 설명한 바와 같이, 디스플레이 장치(100)는 화면상에 컨텐츠(410) 및 회차별 컨텐츠 정보(421~425)를 포함하는 컨텐츠 리스트(420)를 디스플레이할 수 있다. 이 경우, 컨텐츠(410)는 현재 디스플레이되고 있음을 나타내는 고유 식별 정보(#1234)가 부여될 수 있으며, 컨텐츠 리스트(420)는 현재 디스플레이되는 컨텐츠(410)와 상이한 고유 식별 정보(#5678)가 부여될 수 있다.
따라서, 추출부(240)는 사용자의 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 추출된 발화 요소 중 제1 발화 요소로부터 지칭하는 대상을 판단하고, 판단된 대상에 대응되는 고유 식별 정보를 저장부(230)로부터 획득하여 이를 지시자로 결정할 수 있다. 예를 들어, "이거 실행해줘"라는 발화 음성의 경우, 추출부(240)는 "이거"라는 제1 발화 요소를 추출할 수 있다. 이 같이, 제1 발화 요소가 추출되면, 추출부(240)는 "이거"라는 제1 발화 요소에 대응되는 지시자 $this$를 저장부(230)로부터 추출할 수 있다. 이 같은 지시자가 추출되면, 추출부(240)는 추출된 지시자를 통해 제1 발화 요소로부터 지칭하는 대상이 디스플레이 장치(100)의 화면상에 현재 디스플레이되는 컨텐츠(210)와 상이한 대상임을 판단할 수 있다. 따라서, 추출부(240)는 "이거"라는 제1 발화 요소에 대응되는 지시자인 $this$를 고유 식별 정보(#5678)로 변환할 수 있다.
한편, "보고 있는 거 제목이 뭐야"라는 발화 음성의 경우, 추출부(240)는 "보고 있는 거"라는 제1 발화 요소를 추출할 수 있다. 이 같이, 제1 발화 요소가 추출되면, 추출부(240)는 "보거 있는 거"라는 제1 발화 요소에 대응되는 지시자 $showing_content$를 저장부(230)로부터 추출할 수 있다. 이 같은 지시자가 추출되면, 추출부(240)는 추출된 지시자를 통해 제1 발화 요소로부터 지칭하는 대상이 디스플레이 장치(100)의 화면상에 현재 디스플레이되는 컨텐츠인 것으로 판단할 수 있다. 따라서, 추출부(240)는 "보고 있는 거"라는 제1 발화 요소에 대응되는 지사자인 $showing_content$를 고유 식별 번호(#1234)로 변환할 수 있다.
지금까지, 본 발명에 따른 대화형 서버(200)에 각 구성에 대해서 상세히 설명하였다. 이하에서는, 사용자의 발화 음성을 입력받는 디스플레이 장치(100)의 각 구성에 대해서 상세히 설명하도록 한다.
도 5는 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도이다.
도 5에 도시된 바와 같이, 디스플레이 장치(100)는 입력부(110), 통신부(120), 디스플레이부(130) 및 제어부(140)를 포함한다.
입력부(110)는 사용자로부터 발화된 발화 음성을 입력받는다. 구체적으로, 입력부(110)는 아날로그 형태의 사용자의 발화 음성이 입력되면, 입력된 사용자 발화 음성을 샘플링하여 디지털 신호로 변환한다. 이때, 입력부(110)는 입력된 사용자의 발화 음성에 노이즈(예를 들어, 에어컨 소리, 청소기 소리 등)가 있는 경우, 노이즈를 제거한 후, 노이즈가 제거된 사용자의 발화 음성을 디지털 신호로 변환함이 바람직하다. 뿐만 아니라, 입력부(110)는 다양한 사용자 조작을 입력받아 제어부(130)로 전달하는 기능을 수행할 수 있다. 이 경우, 입력부(110)는 터치패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen)을 통해 사용자 조작 명령을 입력받을 수 있다.
통신부(120)는 입력부(110)를 통해 입력된 사용자의 발화 음성을 서버 장치(이하 대화형 서버라 함)로 전송하고, 전성된 발화 음성에 대응되는 응답 정보를 수신한다. 여기서, 통신부(120)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기서, 근거리 무선 통신 모듈(미도시)은 근거리에 위치한 대화형 서버(200) 및 컨텐츠를 제공하는 외부 서버(미도시)와 무선 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스, 지그비 등이 될 수 있다. 무선 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.
디스플레이부(130)는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel, PDP) 등으로 구현되어, 디스플레이 장치(100)를 통해 제공 가능한 다양한 디스플레이 화면을 제공할 수 있다. 특히, 디스플레이부(161) 대화형 서버(200)로부터 수신한 응답 정보에 기초하여 사용자의 발화 음성에 대응되는 컨텐츠 혹은 컨텐츠 정보를 디스플레이한다.
제어부(140)는 디스플레이 장치(100)의 구성을 전반적으로 제어한다. 특히, 제어부(140)는 대화형 서버(200)로부터 지시자 및 명령어의 조합으로 생성된 실행 명령 스크립트를 포함하는 응답 정보가 수신되면, 디스플레이부(130)의 화면상에 표시된 객체들의 표시 상태에 기초하여 지시자가 지칭하는 대상을 선택한다. 이후, 제어부(140)는 선택된 대상에 대해 명령어에 대응되는 동작을 수행한다.
구체적으로, 도 4에서 설명한 바와 같이, 디스플레이부(130)는 제어부(140)의 제어 명령에 따라, 사용자가 요청한 채널을 통해 컨텐츠(410)를 수신하여 디스플레이할 수 있다. 또한, 디스플레이 장치(100)는 리모콘 또는 사용자의 발화 음성을 통해 입력된 사용자 명령에 기초하여 사용자가 요청한 컨텐츠에 대한 컨텐츠 리스트(420)를 화면상에 디스플레이할 수 있다. 또한, 디스플레이 장치(100)는 기설정된 조건에 기초하여 컨텐츠 리스트(420) 상에 표시된 회차별 컨텐츠 정보(421~425) 중 1회차 컨텐츠 정보(421)에 하이라이트를 표시할 수 있다. 즉, 디스플레이 장치(100)는 회차별 컨텐츠 정보(421~425)를 포함하는 컨텐츠 리스트(420)를 화면상에 최초 표시할 경우, 기설정된 조건에 기초하여 제일 상단에 위치하는 1회차 컨텐츠 정보(421)가 우선적으로 선택될 수 있도록 하이라이트를 표시할 수 있다.
한편, 사용자는 컨텐츠 리스트(420) 상에 표시된 회차별 컨텐츠 정보(421~425)를 참조하여 특정 회차에 대응되는 제1 컨텐츠를 시청하기 위한 발화를 할 수 있다. 예를 들어, 사용자는 1회차 컨텐츠 정보(421)에 대응되는 제1 컨텐츠를 시청하기 위해 "이거 실행해줘"라는 발화를 할 수 있다. 따라서, 디스플레이 장치(100)는 "이거 실행해줘"라는 발화 음성을 입력받을 수 있다. 이와 같이, 본 발명에 따른 디스플레이 장치(100)는 화면상에 복수의 객체들이 표시된 상태에서 복수의 객체 중 하나를 지칭하는 대상을 나타내는 제1 발화 요소와 해당 대상을 실행하기 위한 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성을 입력받을 수 있다. 여기서, 제1 발화 요소는 대명사, 서수, 방향 중 적어도 하나를 통해 대상을 나타낼 수 있다. 예를 들어, "이거 실행해줘"라는 발화 음성은 대명사로 대상을 나타내는 제1 발화 요소를 포함할 수 있으며, "세번째 거 실행해줘"라는 발화 음성은 서수로 대상을 나타내는 제1 발화 요소를 포함할 수 있다.
이 같이, 대상을 나타내는 제1 발화 요소 및 해당 대상을 실행하기 위한 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성이 입력되면, 통신부(120)는 대화형 서버(200)로 입력된 발화 음성을 전송한다. 발화 음성을 수신한 대화형 서버(200)는 수신한 발화 음성에 포함된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출하고, 추출한 지시자 및 명령어의 조합으로 실행 명령 스크립트를 생성한다. 전술한 예와 같이, "이거 실행해줘"라는 발화 음성이 수신되면, 대화형 서버(200)는 "이거"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 추출한다. 이후, 대화형 서버(200)는 제1 및 제2 발화 요소에 대응하여 추출된 지시자 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 즉, 대화형 서버(200)는 제1 발화 요소에 대응되는 지시자 "$this$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 조합하여 "execute($this$)"라는 실행 명령 스크립트를 생성한다. 이후, 대화형 서버(200)는 "execute($this$)"라는 실행 명령 스크립트를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다.
이 같은 응답 정보가 수신되면, 제어부(140)는 수신된 응답 정보에 포함된 실행 명령 스크립트를 해석하여 사용자의 발화 음성에 대응되는 동작을 수행할 수 있다. 전술한 예와 같이, "execute($this$)"라는 실행 명령 스크립트를 포함하는 응답 정보가 수신되면, 제어부(140)는 실행 명령 스크립트를 해석하여 화면상에 표시된 객체 중 하나의 객체를 선택하고, 선택된 객체에 대한 실행을 수행한다. 구체적으로, 제어부(140)는 실행 명령 스크립트를 해석하여 지시자 및 명령어를 구분한다. 즉, 제어부(140)는 "execute($this$)"라는 실행 명령 스크립트로부터 지시자는 "$this$"이며, 명령어는 "execute"라고 구분할 수 있다.
이 같이, 실행 명령 스크립트로부터 지시자 및 명령어가 구분되면, 제어부(140)는 구분된 지시자에 기초하여 화면상에 표시된 복수의 객체 중 하나를 선택할 수 있다. 도 4에 도시된 바와 같이, 디스플레이부(130)는 사용자가 요청한 채널을 통해 수신된 컨텐츠(410)를 디스플레하며, 이와 함께 사용자가 요청한 제1 컨텐츠에 대한 회차별 컨텐츠 정보(421~425)를 포함하는 컨텐츠 리스트(420)를 표시될 수 있다. 또한, 디스플레이부(130)는 기설정된 조건에 기초하여 컨텐츠 리스트(420)에 포함된 회차별 컨텐츠 정보(421~425) 중 1회차 컨텐츠 정보(421)에 하이라이트를 표시할 수 있다. 즉, 디스플레이부(130)는 회차별 컨텐츠 정보(421~425)를 포함하는 컨텐츠 리스트(420)를 화면상에 최초 표시할 경우, 기설정된 조건에 기초하여 제일 상단에 위치하는 1회차 컨텐츠 정보(421)가 우선적으로 선택될 수 있도록 하이라이트를 표시할 수 있다. 한편, 1회차 컨텐츠 정보(421)에 하이라이트가 표시된 상태에서, 입력부(110)를 통해 사용자의 조작 명령이 입력되면, 디스플레이부(130)는 입력된 사용자의 조작 명령에 대응되는 컨텐츠 정보(1회차 컨텐츠 정보(421)를 제외한 나머지 회차별 컨텐츠 정보(422~425) 중 하나)에 하이라이트를 표시할 수 있다. 이 경우, 사용자의 조작 명령에 대응하여 하이라이트가 표시된 컨텐츠 정보가 우선적으로 선택되도록 설정될 수 있다.
따라서, 실행 명령 스크립트로부터 구분된 지시자가 "$this$"이면, 제어부(140)는 현재 하이라이트가 표시된 컨텐츠 정보를 지칭하는 것으로 판단할 수 있다. 즉, 도 4와 같이, 1회차 컨텐츠 정보(421)에 하이라이트가 표시되어 있으면, 제어부(140)는 "$this$" 지시자에 기초하여 하이라이트가 표시된 1회차 컨텐츠 정보(421)를 선택할 수 있다. 이 같이, 1회차 컨텐츠 정보(421)가 선택되면, 제어부(140)는 실행 명령 스크립트로부터 구분된 명령어인 "execute"에 기초하여 선택된 1회차 컨텐츠 정보(421)에 대응되는 제1 컨텐츠를 외부 서버(미도시)로부터 수신하여 디스플레이할 수 있다.
전술한 또다른 예와 같이, 대화형 서버(200)는 "세번째 거 실행해줘"라는 사용자의 발화 음성으로부터 "execute($3rd$)"라는 실행 명령 스크립트를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다. 이 같은 응답 정보가 수신되면, 제어부(140)는 수신된 응답 정보에 포함된 실행 명령 스크립트를 해석하여 지시자 및 명령어를 구분한다. 즉, 제어부(140)는 "execute($3rd$)"라는 실행 명령 스크립트로부터 "$3rd$"이라는 지시자와 "execute"라는 명령어를 구분할 수 있다. 한편, 도 4와 같이, 1회차 컨텐츠 정보(421)에 하이라이트가 표시되어 있으면, 제어부(140)는 "$3rd$" 지시자에 기초하여 하이라이트가 표시된 1회차 컨텐츠 정보(421)를 기준으로 세번째 위치하는 3회차 컨텐츠 정보(423)를 선택할 수 있다. 이 같이, 3회차 컨텐츠 정보(423)가 선택되면, 제어부(14)는 실행 명령 스크립트로부터 구분된 명령어인 "execute"에 기초하여 선택된 3회차 컨텐츠 정보(421)에 대응되는 제1 컨텐츠를 외부 서버(미도시)로부터 수신하여 디스플레이할 수 있다.
지금까지, 본 발명에 따른 사용자의 발화 음성을 인식하고, 인식된 발화 음성에 대응되는 응답 정보에 기초하여 동작을 수행하는 디스플레이 장치(100)의 각 구성에 대해서 상세히 설명하였다. 이하에서는, 사용자의 발화 음성에 대응되는 응답 정보를 제공하는 대화형 서버(200) 및 응답 정보에 기초하여 동작을 수행하는 디스플레이 장치(100)의 제어 방법에 대해서 상세히 설명하도록 한다.
도 6은 본 발명의 일 실시예에 따른 대화형 서버의 제어 방법에 대한 흐름도이다.
도 6에 도시된 바와 같이, 대화형 서버(200)는 디스플레이 장치(100)로부터 대상을 나타내는 제1 발화 요소 및 실행 명령을 나타내는 제2 발화 요소를 포함하는 사용자의 발화 음성을 수신한다(S610). 여기서, 사용자의 발화 음성은 아날로그 형태의 음성 신호에서 디지털 신호로 변환된 음성 신호이다. 그리고, 제1 발화 요소는 사용자의 발화 음성 내에서 주요 특징으로 분류되는 발화 요소이다. 이 같은 제1 발화 요소가 디스플레이 장치(100)의 화면상에 표시된 객체들의 표시 상태에 기초하여 결정된 발화 요소인 경우, 제1 발화 요소는 대상을 나타내는 발화 요소가 될 수 있다. 즉, 제1 발화 요소는 대명사, 서수, 방향 중 적어도 하나를 통해 대상을 나타내는 발화 요소가 될 수 있다. 그리고, 제2 발화 요소는 사용자의 발화 음성 내에서 실행 명령으로 분류된 발화 요소가 될 수 있다.
예를 들어, "이거 실행해줘"라는 발화 음성의 경우, "이거"는 대명사를 나타내는 제1 발화 요소가 될 수 있으며, "실행해줘"는 실행 명령을 나타내는 제2 발화 요소가 될 수 있다. 이 같은 제1 및 제2 발화 요소를 포함하는 발화 음성에 대한 디지털 신호가 수신되면, 대화형 서버(200)는 수신된 발화 음성을 텍스트 정보로 변화한다(S620). 실시예에 따라, 대화형 서버(200)는 STT(Speech to Text) 알고리즘을 이용하여 수신된 사용자의 발화 음성을 텍스트로 변환할 수 있다. 그러나, 본 발명은 이에 한정되지 않으며, 대화형 서버(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 수 있다. 이 경우, 디스플레이 장치(100)는 입력된 사용자의 발화 음성에 대한 텍스트 정보를 전술한 제1 서버(10)와 같은 ASR 서버로부터 수신하여 대화형 서버(200)로 전송한다. 따라서, 대화형 서버(200)는 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보를 수신할 수 있다.
이 같이, 사용자의 발화 음성이 텍스트 정보로 변환되거나 혹은 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 텍스트 정보가 수신되면, 대화형 서버(200)는 텍스트 정보로 변환된 발화 음성으로부터 제1 발화 요소에 대응되는 지시자 및 제2 발화 요소에 대응되는 명령어를 추출한다(S630). 구체적으로, 대화형 서버(200)는 복수의 지시자 및 복수의 명령어를 저장할 수 있다. 여기서, 복수의 지시자 및 복수의 명령어는 사용자의 발화 음성으로부터 추출된 발화 요소에 기초하여 디스플레이 장치(100)에서 해석 가능한 형태로 동작을 수행하기 위한 실행 정보이다. 보다 구체적으로, 지시자는 디스플레이 장치(100)의 화면상에 표시된 객체들 중에서 대상을 상대적으로 지칭하기 위한 실행어가 될 수 있다. 다시 말해, 지시자는 사용자의 발화 음성으로부터 추출된 발화 요소 중 대명사, 서수, 방향과 같은 대상을 나타내는 제1 발화 요소에 기초하여 디스플레이 장치(100)에서 해석 가능한 형태로 동작을 수행하기 위한 실행어이다. 그리고, 명령어는 사용자의 발화 음성으로부터 추출된 발화 요소 중 실행 명령을 나타내는 제2 발화 요소에 기초하여 디스플레이 장치(100)에서 해석 가능한 형태로 동작을 수행하기 위한 실행 정보이다. 따라서, 대화형 서버(200)는 표 1 및 표 2와 같이, 대상을 나타내는 제1 발화 요소별 지시자 및 실행 명령을 나타내는 제2 발화 요소별 명령어가 매칭된 테이블을 저장할 수 있다. 이에 따라, 대화형 서버(200)는 기저장된 테이블로부터 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출할 수 있다.
제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 추출되면, 대화형 서버(200)는 추출된 지시자 및 명령어를 조합하여 발화 음성에 대응되는 응답 정보를 생성하고, 이를 디스플레이 장치(100)로 전송한다(S640).
예를 들어, "이거 실행해줘"라는 사용자의 발화 음성의 경우, 대화형 서버(200)는 "이거"라는 대상을 나타내는 제1 발화 요소 및 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 대화형 서버(200)는 기저장된 테이블로부터 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출한다. 즉, 대화형 서버(200)는 표 1 및 표 2에 개시된 테이블과 같이, "이거"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 추출할 수 있다. 이후, 대화형 서버(200)는 추출된 지시자 및 명령어를 조합하여 "execute($this$)"라는 실행 명령 스크립트를 생성할 수 있다.
또다른 예를 들어, "세번째 것 실행해줘"라는 사용자의 발화 음성의 경우, 대화형 서버(200)는 "세번째"라는 대상을 나타내는 제1 발화 요소 및 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 이 같은 제1 및 제2 발화 요소가 추출되면, 대화형 서버(200)는 기저장된 테이블로부터 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출한다. 즉, 대화형 서버(200)는 표 1 및 표 2에 개시된 테이블과 같이, "세번째"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$3rd$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 "execute"를 추출할 수 있다. 이후, 대화형 서버(200)는 추출된 지시자 및 명령어를 조합하여 "execute($3rd$)"라는 실행 명령 스크립트를 생성할 수 있다.
이 같은 실행 명령 스크립트가 생성되면, 대화형 서버(200)는 생성된 실행 명령 스크립트를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트에 기초하여 화면상에 표시된 객체 중 사용자가 지칭한 대상에 대응되는 객체를 선택하고, 선택된 객체를 디스플레이할 수 있다.
한편, 대화형 서버(200)는 제1 발화 요소에 요청 정보가 있는지 여부를 판단하여, 요청 정보가 있으면, 요청 정보에 대응되는 명령어를 추출한다. 이후, 대화형 서버(200)는 추출된 명령어에 기초하여 요청 정보에 대응되는 컨텐츠 정보를 응답 정보에 추가하여 디스플레이 장치(100)로 전송할 수 있다. 이를 위해, 대화형 서버(200)는 요청 정보별 명령어를 매칭시킨 테이블을 추가로 저장할 수 있다. 예를 들어, 대화형 서버(200)는 "상세 정보"라는 요청 정보와 "detail informaion"이라는 명령어를 매칭시켜 저장할 수 있으며, "제목"이라는 요청 정보와 "titile"이라는 명령어를 매칭시켜 저장할 수 있다.
예를 들어, "이거 제목이 뭐야"라는 사용자의 발화 음성의 경우, 대화형 서버(200)는 "이거"와 "제목"이라는 제1 발화 요소와 "뭐야"라는 실행 명령을 나타내는 제2 발화 요소를 추출할 수 있다. 여기서, 추출된 "이거"라는 제1 발화 요소는 대상을 나타내는 발화 요소이며, "제목"이라는 제1 발화 요소는 요청 정보를 나타내는 발화 요소가 될 수 있다. 이 같이, 제1 및 제2 발화 요소가 추출되면, 대화형 서버(200)는 기저장된 테이블을 참조하여 "이거"라는 제1 발화 요소에 대응되는 지시자 "$this$"와 "제목"이라는 제1 발화 요소에 대응되는 명령어 "title"와 "뭐야"라는 제2 발화 요소에 대응되는 명령어 "show"를 추출할 수 있다. 이 같이, 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어가 추출되면, 대화형 서버(200)는 추출된 지시자 및 명령어를 조합하여 show(title) at ($this$)이라는 실행 명령 스크립트를 생성할 수 있다.
이 같은 실행 명령 스크립트가 생성되면, 대화형 서버(200)는 기 생성된 실행 명령 스크립트 내에 요청 정보를 나타내는 명령어가 포함되어 있는지 여부를 판단한다. 판단 결과, 실행 명령 스크립트 내에 명령어가 있으면, 대화형 서버(200)는 기저장된 디스플레이 장치(100)와의 대화 이력 정보에 기초하여 요청 정보에 대으오디는 컨텐츠 정보 획득 여부를 판단한다. 예를 들어, 대화형 서버(200)는 "이거 제목이 모야"라는 사용자의 발화 음성 이전에 수신된 "액션 영화 보여줘'라는 사용자의 발화 음성에 기초하여 액션 영화에 대한 컨텐츠 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다. 이후, "이거 제목이 모야'라는 사용자의 발화 음성이 수신되면, 대화형 서버(200)는 전술한 단계를 통해 사용자의 발화 음성에 대한 실행 명령 스크립트를 생성한다. 이후, 대화형 서버(200)는 기 생성된 실행 명령 스크립트 내에 요청 정보에 대한 명령어가 포함되어 있으면, 기저장된 디스플레이 장치(100)와의 대화 이력 정보에 기초하여 해당 컨텐츠에 대한 제목 정보를 EPG 정보로부터 획득하거나 혹은 외부 서버(미도시)로부터 수신한다. 이후, 대화형 서버(200)는 기 생성된 실행 명령 스크립트 및 제목 정보를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다.
그러나, 본 발명은 이에 한정되지 않으며, 대화형 서버(200)는 요청 정보를 나타내는 명령어를 포함하는 실행 명령 스크립트에 대한 응답 정보를 디스플레이 장치(100)로 전송할 수 있다. 이 경우, 디스플레이 장치(100)는 대화형 서버(200)로부터 수신한 응답 정보에 포함된 실행 명령 스크립트를 해석하여 화면상에 표시된 객체 중 지시자가 지칭하는 대상에 대응되는 객체를 선택하고, 선택된 객체에 대해 명령어에 대응되는 동작을 수행할 수 있다. 따라서, 디스플레이 장치(100)는 선택된 객체에 대응되는 컨텐츠의 제목 정보를 기저장된 EPG 정보로부터 획득하거나 혹은 외부 서버(미도시)를 통해 수신하여 출력할 수 있다.
한편, 본 발명의 추가적인 양상에 따라, 대화형 서버(200)에 저장되는 지시자는 디스플레이 장치(100)의 화면상에 표시된 객체들의 고유 식별 정보가 될 수 있다. 여기서, 각 고유 식별 정보는 디스플레이 장치(100)에서 현재 디스플레이되고 있는 컨텐츠 및 사용자의 요청에 따라 제공될 컨텐츠를 식별하기 위한 정보이다. 예를 들어, 도 4에서 설명한 바와 같이, 디스플레이 장치(100)는 화면상에 컨텐츠(410) 및 회차별 컨텐츠 정보(421~425)를 포함하는 컨텐츠 리스트(420)를 디스플레이할 수 있다. 이 경우, 컨텐츠(410)는 현재 디스플레이되고 있음을 나타내는 고유 식별 정보(#1234)가 부여될 수 있으며, 컨텐츠 리스트(420)는 현재 디스플레이되는 컨텐츠(410)와 상이한 고유 식별 정보(#5678)가 부여될 수 있다.
따라서, 대화형 서버(200)는 사용자의 발화 음성으로부터 제1 및 제2 발화 요소가 추출되면, 추출된 발화 요소 중 제1 발화 요소로부터 지칭하는 대상을 판단하고, 기저장된 고유 식별 정보 중 판단된 대상에 대응되는 고유 식별 정보를 획득하여 이를 지시자로 결정할 수 있다. 예를 들어, "이거 실행해줘"라는 발화 음성의 경우, 대화형 서버(200)는 "이거"라는 제1 발화 요소를 추출할 수 있다. 이 같이, 제1 발화 요소가 추출되면, 대화형 서버(200)는 기저장된 제1 발화 요소별 지시자 중 "이거"라는 제1 발화 요소에 대응되는 지시자 $this$를 추출할 수 있다. 이 같은 지시자가 추출되면, 대화형 서버(200)는 추출된 지시자를 통해 제1 발화 요소로부터 지칭하는 대상이 디스플레이 장치(100)의 화면상에 현재 디스플레이되는 컨텐츠(210)와 상이한 대상임을 판단할 수 있다. 따라서, 대화형 서버(200)는 "이거"라는 제1 발화 요소에 대응되는 지시자인 $this$를 고유 식별 정보(#5678)로 변환할 수 있다.
이하에서는, 사용자의 발화 음성에 대응되는 응답 정보에 기초하여 동작을 수행하는 디스플레이 장치(100)의 제어 방법에 대해서 상세히 설명하도록 한다.
도 7은 본 발명의 일 실시예에 따른 디스플레이 장치의 제어 방법에 대한 흐름도이다.
도 7에 도시된 바와 같이, 디스플레이 장치(100)는 사용자의 발화 음성을 입력받는다(S710). 사용자의 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 사용자의 발화 음성을 대화형 서버(200)로 전송한다(S720). 구체적으로, 디스플레이 장치(100)는 아날로그 형태의 사용자의 발화 음성이 입력되면, 입력된 사용자의 발화 음성을 디지털 신호로 변환한다. 이때, 디스플레이 장치(100)는 입력된 사용자의 발화 음성에 노이즈가 있는지 여부를 판단하여, 노이즈가 있으면, 노이즈가 제거된 사용자의 발화 음성을 디지털 신호로 변환하는 것이 바람직하다.
이 같은 사용자의 발화 음성이 디지털 신호로 변환되면, 디스플레이 장치(100)는 대화형 서버(200)로 디지털 신호로 변환된 사용자의 발화 음성을 전송하고, 그에 따른 응답 정보를 수신한다(S730). 응답 정보가 수신되면, 디스플레이 장치(100)는 화면상에 표시된 객체들의 표시 상태에 기초하여 응답 정보에 포함된 지시자가 지칭하는 대상을 선택하고, 선택된 대상에 대해 응답 정보에 포함된 명령에 대응되는 동작을 수행한다(S740).
구체적으로, 도 4에서 설명한 바와 같이, 디스플레이 장치(100)는 사용자가요청한 채널을 통해 컨텐츠(410)를 수신하여 디스플레이할 수 있다. 또한, 디스플레이 장치(100)는 리모콘 또는 사용자의 발화 음성을 통해 입력된 사용자 명령에 기초하여 사용자가 요청한 컨텐츠에 대한 컨텐츠 리스트(420)를 화면상에 디스플레이할 수 있다. 또한, 디스플레이 장치(100)는 기설정된 조건에 기초하여 컨텐츠 리스트(420) 상에 표시된 회차별 컨텐츠 정보(421~425) 중 1회차 컨텐츠 정보(421)에 하이라이트를 표시할 수 있다. 즉, 디스플레이 장치(100)는 회차별 컨텐츠 정보(421~425)를 포함하는 컨텐츠 리스트(420)를 화면상에 최초 표시할 경우, 기설정된 조건에 기초하여 제일 상단에 위치하는 1회차 컨텐츠 정보(421)가 우선적으로 선택될 수 있도록 하이라이트를 표시할 수 있다.
한편, 사용자는 컨텐츠 리스트(420) 상에 표시된 1회차 컨텐츠 정보(421)에 대응되는 제1 컨텐츠를 시청하기 위해 "이거 실행해줘"라는 발화를 할 수 있다. 따라서, 디스플레이 장치(100)는 "이거 실행해줘"라는 사용자의 발화 음성을 입력받을 수 있다. 이와 같이, 본 발명에 따른 디스플레이 장치(100)는 화면상에 복수의 객체들이 표시된 상태에서 복수의 객체 중 하나를 지칭하는 대상을 나타내는 제1 발화 요소와 해당 대상을 실행하기 위한 실행 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성을 입력받을 수 있다. 여기서, 제1 발화 요소는 대명사, 서수, 방향 중 적어도 하나를 통해 대상을 나타낼 수 있다. 예를 들어, "이거 실행해줘"라는 발화 음성은 대명사로 대상을 나타내는 제1 발화 요소를 포함할 수 있으며, "세번째 거 실행해줘"라는 발화 음성은 서수로 대상을 나타내는 제1 발화 요소를 포함할 수 있다.
이 같이, 대상을 나타내는 제1 발화 요소 및 해당 대상을 실행하기 위한 실햄 명령을 나타내는 제2 발화 요소를 포함하는 발화 음성이 입력되면, 디스플레이 장치(100)는 대화형 서버(200)로 입력된 발화 음성을 디지털 신호로 변환하여 전송한다. 이에 따라, 대화형 서버(200)는 전술한 바와 같이, 입력된 발화 음성에 포함된 제1 및 제2 발화 요소에 대응되는 지시자 및 명령어를 추출하고, 추출된 지시자 및 명령어를 조합하여 실행 명령 스크립트를 생성한다. 전술한 예와 같이, "이거 실행해줘"라는 발화 음성이 수신되면, 대화형 서버(200)는 "이거"라는 대상을 나타내는 제1 발화 요소에 대응되는 지시자 "$this$"와 "실행해줘"라는 실행 명령을 나타내는 제2 발화 요소에 대응되는 명령어 execute를 추출한다. 이후, 대화형 서버(200)는 제1 및 제2 발화 요소에 대응하여 추출된 지시자 및 명령어를 조합하여 "execute($this$)"라는 실행 명령 스크립트를 생성한다. 이후, 대화형 서버(200)는 "execute($this$)"라는 실행 명령 스크립트를 포함하는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다.
이 같은 응답 정보가 수신되면, 디스플레이 장치(100)는 수신된 응답 정보에 포함된 실행 명령 스크립트를 해석하여 사용자의 발화 음성에 대응되는 동작을 수행할 수 있다. 전술한 예와 같이, "execute($this$)"라는 실행 명령 스크립트를 포함하는 응답 정보가 수신되면, 디스플레이 장치(100)는 실행 명령 스크립트를 해석하여 지시자는 $this$이며, 명령어는 execute라고 구분할 수 있다.
이 같이, 실행 명령 스크립트로부터 지시자 및 명령어가 구분되면, 디스플레이 장치(100)는 구분된 지시자에 기초하여 화면상에 표시된 복수의 객체 중 하나를 선택할 수 있다. 도 4에 도시된 바와 같이, 디스플레이 장치(100)는 컨텐츠 리스트(420) 상에 포함된 회차별 컨텐츠 정보(421~425) 중 1회차 컨텐츠 정보(421)에 하이라이트를 표시할 수 있다. 여기서, 하이라이트가 표시된 1회차 컨텐츠 정보(421)는 사용자가 지시하는 대상에 해당하는 객체를 선택하기 위한 기준이 될 수 있다. 따라서, 디스플레이 장치(100)는 실행 명령 스크립트로부터 구분된 지시자가 "$this$"이면, 하이라이트가 표시된 1회차 컨텐츠 정보(421)를 지시하는 것으로 판단하여 1회차 컨텐츠 정보(421)를 선택할 수 있다. 이와 같이, 1회차 컨텐츠 정보(421)가 선택되면, 디스플레이 장치(100)는 실행 명령 스크립트로부터 구분된 "execute" 명령어에 기초하여 1회차 컨텐츠 정보(421)에 대응되는 제1 컨텐츠를 외부 서버(미도시)로부터 수신하여 디스플레이할 수 있다.
또다른 예를 들어, 디스플레이 장치(100)는 대화형 서버(200)로부터 "다음 거 실행해줘"라는 사용자의 발화 음성에 대응하여 "execute($this$+1)"이라는 실행 명령 스크립트를 포함하는 응답 정보를 수신할 수 있다. 이 경우, 디스플레이 장치(100)는 수신한 응답 정보에 포함된 실행 명령 스크립트를 해석하여 "$this$+1"이라는 지시자와 "execute"라는 명령어를 구분할 수 있다. 한편, 도 4와 같이, 1회차 컨텐츠 정보(421)에 하이라이트가 표시되어 있으면, 디스플레이 장치(100)는 "$this$+1" 지시자에 기초하여 하이라이트가 표시된 1회차 컨텐츠 정보(421)를 기준으로 다음 번째에 위치하는 2회차 컨텐츠 정보(422)를 선택할 수 있다. 이 같이, 2회차 컨텐츠 정보(422)가 선택되면, 디스플레이 장치(100)는 실행 명령 스크립트로부터 구분된 "execute" 명령어에 기초하여 2회차 컨텐츠 정보(422)에 대응되는 제1 컨텐츠를 외부 서버(미도시)로부터 수신하여 디스플레이할 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
10 : 제1 서버 20 : 제2 서버
100 : 디스플레이 장치 110 : 입력부
120,210 : 통신부 130 : 디스플레이부
140,250 : 제어부 200 : 대화형 서버
220 : 음성 처리부 230 : 저장부
240 : 추출부

Claims (30)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 음성 명령을 수신하고, 상기 음성 명령을 디지털 신호로 변환하는 입력부;
    적어도 하나의 서버와 통신을 수행하는 통신부;
    화면에 복수의 객체를 포함하는 컨텐츠 리스트를 디스플레이하는 디스플레이부; 및
    상기 디지털 신호를 상기 적어도 하나의 서버 중 하나인 제1 서버로 전송하고, STT 알고리즘을 통해 상기 음성 명령으로부터 변환된 텍스트 정보를 수신하도록 상기 통신부를 제어하고,
    상기 텍스트 정보를 상기 제1 서버 또는 상기 적어도 하나의 서버 중 다른 하나인 제2 서버로 전송하고, 상기 음성 명령에 대응되는 동작을 수행하기 위한 응답 정보를 수신하도록 상기 통신부를 제어하며,
    상기 응답 정보에 기초하여 상기 컨텐츠 리스트에서 상기 복수의 객체 중 타겟 객체를 식별하고, 상기 화면에 상기 타겟 객체를 디스플레이하도록 상기 디스플레이를 제어하는 제어부;를 포함하며,
    상기 텍스트 정보는, 상기 타겟 객체를 나타내며 서수를 포함하는 제1 명령 요소 및 실행 명령을 나타내는 제2 명령 요소를 포함하고,
    상기 응답 정보는, 상기 제1 명령 요소에 기초하여 상기 복수의 객체 중 상기 타겟 객체를 상대적으로 나타내는 제1 정보 및 상기 제2 명령 요소에 기초하여 상기 동작을 수행하기 위한 실행 정보인 제2 정보를 포함하며,
    상기 제어부는,
    상기 제1 정보에 기초하여 상기 복수의 객체 중 상기 서수에 대응되는 위치의 상기 타겟 객체를 식별하고, 상기 제2 정보에 기초하여 상기 식별된 타겟 객체에 대한 상기 동작을 수행하는, 디스플레이 장치.
  18. 제17항에 있어서,
    상기 제어부는,
    상기 복수의 객체 중 하나에 기초하여 상기 서수에 대응되는 위치의 상기 타겟 객체를 식별하는, 디스플레이 장치.
  19. 제18항에 있어서,
    상기 제어부는,
    상기 복수의 객체 중 하나에 디스플레이된 포커스에 기초하여 상기 서수에 대응되는 위치의 상기 타겟 객체를 식별하는, 디스플레이 장치.
  20. 제17항에 있어서,
    상기 제1 명령 요소는, 대명사 또는 방향 중 적어도 하나를 더 포함하는, 디스플레이 장치.
  21. 제17항에 있어서,
    상기 제어부는,
    상기 타겟 객체가 식별되면, 상기 컨텐츠 리스트에서 나머지 객체와 상기 타겟 객체를 다르게 디스플레이하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  22. 제17항에 있어서,
    상기 복수의 객체 각각은, 대응되는 컨텐츠를 나타내는 이미지를 포함하는, 디스플레이 장치.
  23. 제17항에 있어서,
    상기 응답 정보는, 상기 제1 정보 및 상기 제2 정보의 결합에 의해 생성된 실행 명령 스크립트를 포함하는, 디스플레이 장치.
  24. 디스플레이 장치의 제어 방법에 있어서,
    화면에 복수의 객체를 포함하는 컨텐츠 리스트를 디스플레이하는 단계;
    음성 명령을 수신하는 단계;
    상기 음성 명령을 디지털 신호로 변환하는 단계;
    상기 디지털 신호를 적어도 하나의 서버 중 하나인 제1 서버로 전송하는 단계;
    STT 알고리즘을 통해 상기 음성 명령으로부터 변환된 텍스트 정보를 수신하는 단계;
    상기 텍스트 정보를 상기 제1 서버 또는 상기 적어도 하나의 서버 중 다른 하나인 제2 서버로 전송하는 단계;
    상기 음성 명령에 대응되는 동작을 수행하기 위한 응답 정보를 수신하는 단계;
    상기 응답 정보에 기초하여 상기 컨텐츠 리스트에서 상기 복수의 객체 중 타겟 객체를 식별하는 단계; 및
    상기 화면에 상기 타겟 객체를 디스플레이하는 단계;를 포함하며,
    상기 텍스트 정보는, 상기 타겟 객체를 나타내며 서수를 포함하는 제1 명령 요소 및 실행 명령을 나타내는 제2 명령 요소를 포함하고,
    상기 응답 정보는, 상기 제1 명령 요소에 기초하여 상기 복수의 객체 중 상기 타겟 객체를 상대적으로 나타내는 제1 정보 및 상기 제2 명령 요소에 기초하여 상기 동작을 수행하기 위한 실행 정보인 제2 정보를 포함하며,
    상기 타겟 객체를 식별하는 단계는,
    상기 제1 정보에 기초하여 상기 복수의 객체 중 상기 서수에 대응되는 위치의 상기 타겟 객체를 식별하고,
    상기 제어 방법은,
    상기 제2 정보에 기초하여 상기 식별된 타겟 객체에 대한 상기 동작을 수행하는 단계;를 더 포함하는, 제어 방법.
  25. 제24항에 있어서,
    상기 타겟 객체를 식별하는 단계는,
    상기 복수의 객체 중 하나에 기초하여 상기 서수에 대응되는 위치의 상기 타겟 객체를 식별하는, 제어 방법.
  26. 제25항에 있어서,
    상기 타겟 객체를 식별하는 단계는,
    상기 복수의 객체 중 하나에 디스플레이된 포커스에 기초하여 상기 서수에 대응되는 위치의 상기 타겟 객체를 식별하는, 제어 방법.
  27. 제24항에 있어서,
    상기 제1 명령 요소는, 대명사 또는 방향 중 적어도 하나를 더 포함하는, 제어 방법.
  28. 제24항에 있어서,
    상기 타겟 객체가 식별되면, 상기 컨텐츠 리스트에서 나머지 객체와 상기 타겟 객체를 다르게 디스플레이하는 단계;를 더 포함하는, 제어 방법.
  29. 제24항에 있어서,
    상기 복수의 객체 각각은, 대응되는 컨텐츠를 나타내는 이미지를 포함하는, 제어 방법.
  30. 제24항에 있어서,
    상기 응답 정보는, 상기 제1 정보 및 상기 제2 정보의 결합에 의해 생성된 실행 명령 스크립트를 포함하는, 제어 방법.
KR1020130001755A 2013-01-07 2013-01-07 대화형 서버, 디스플레이 장치 및 그 제어 방법 KR102009316B1 (ko)

Priority Applications (10)

Application Number Priority Date Filing Date Title
KR1020130001755A KR102009316B1 (ko) 2013-01-07 2013-01-07 대화형 서버, 디스플레이 장치 및 그 제어 방법
EP14150053.8A EP2753093A1 (en) 2013-01-07 2014-01-02 Interactive server, display apparatus, and control method thereof
EP18172680.3A EP3386205A1 (en) 2013-01-07 2014-01-02 Interactive server, display apparatus, and control method thereof
AU2014200033A AU2014200033A1 (en) 2013-01-07 2014-01-06 Interactive server, display apparatus, and control method thereof
JP2014000670A JP2014132342A (ja) 2013-01-07 2014-01-06 対話型サーバ、ディスプレイ装置及びその制御方法
CN201811318013.8A CN109600636A (zh) 2013-01-07 2014-01-07 交互服务器、显示设备及其控制方法
US14/149,186 US20140195248A1 (en) 2013-01-07 2014-01-07 Interactive server, display apparatus, and control method thereof
CN201410006709.2A CN103916688A (zh) 2013-01-07 2014-01-07 交互服务器、显示设备及其控制方法
JP2019032674A JP6802305B2 (ja) 2013-01-07 2019-02-26 対話型サーバ、ディスプレイ装置及びその制御方法
US16/863,568 US20200260127A1 (en) 2013-01-07 2020-04-30 Interactive server, display apparatus, and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130001755A KR102009316B1 (ko) 2013-01-07 2013-01-07 대화형 서버, 디스플레이 장치 및 그 제어 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020190094895A Division KR102049833B1 (ko) 2019-08-05 2019-08-05 대화형 서버, 디스플레이 장치 및 그 제어 방법

Publications (2)

Publication Number Publication Date
KR20140089836A KR20140089836A (ko) 2014-07-16
KR102009316B1 true KR102009316B1 (ko) 2019-08-09

Family

ID=50070289

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130001755A KR102009316B1 (ko) 2013-01-07 2013-01-07 대화형 서버, 디스플레이 장치 및 그 제어 방법

Country Status (6)

Country Link
US (2) US20140195248A1 (ko)
EP (2) EP2753093A1 (ko)
JP (2) JP2014132342A (ko)
KR (1) KR102009316B1 (ko)
CN (2) CN103916688A (ko)
AU (1) AU2014200033A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022196885A1 (ko) * 2021-03-17 2022-09-22 삼성전자 주식회사 음성 인식 서비스를 제공하는 전자 장치 및 방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110067059A1 (en) * 2009-09-15 2011-03-17 At&T Intellectual Property I, L.P. Media control
US20160316040A1 (en) * 2015-04-27 2016-10-27 Microsoft Technology Licensing, Llc Providing pipeline for unified service and client interface
JP6645779B2 (ja) * 2015-09-11 2020-02-14 株式会社Nttドコモ 対話装置および対話プログラム
US10937421B2 (en) * 2016-12-23 2021-03-02 Spectrum Brands, Inc. Electronic faucet with smart features
CN110392757A (zh) * 2016-12-23 2019-10-29 品谱股份有限公司 带有智能特征的电子龙头
JP7026449B2 (ja) 2017-04-21 2022-02-28 ソニーグループ株式会社 情報処理装置、受信装置、及び情報処理方法
KR102348758B1 (ko) 2017-04-27 2022-01-07 삼성전자주식회사 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
WO2018206359A1 (en) * 2017-05-08 2018-11-15 Philips Lighting Holding B.V. Voice control
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
CN109166582A (zh) * 2018-10-16 2019-01-08 深圳供电局有限公司 一种语音识别的自动控制系统及方法
KR20200071841A (ko) * 2018-12-03 2020-06-22 현대자동차주식회사 차량용 음성명령어 처리 장치 및 그 방법
KR102196628B1 (ko) * 2019-01-30 2020-12-30 주식회사 오투오 Usb-c dmp 디바이스

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
JP2004260544A (ja) * 2003-02-26 2004-09-16 Matsushita Electric Ind Co Ltd 音声認識機能を有する番組情報表示装置
KR101207435B1 (ko) * 2012-07-09 2012-12-04 다이알로이드(주) 대화형 음성인식 서버, 대화형 음성인식 클라이언트 및 대화형 음성인식 방법

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3286339B2 (ja) * 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
JPH08101758A (ja) * 1994-09-30 1996-04-16 Toshiba Corp 仮想空間内のデータ操作装置
FR2783625B1 (fr) * 1998-09-21 2000-10-13 Thomson Multimedia Sa Systeme comprenant un appareil telecommande et un dispositif de telecommande vocale de l'appareil
US8275617B1 (en) * 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US6314398B1 (en) * 1999-03-01 2001-11-06 Matsushita Electric Industrial Co., Ltd. Apparatus and method using speech understanding for automatic channel selection in interactive television
JP2000250574A (ja) * 1999-03-03 2000-09-14 Sony Corp コンテンツ選択システム、コンテンツ選択クライアント、コンテンツ選択サーバ及びコンテンツ選択方法
US7096185B2 (en) * 2000-03-31 2006-08-22 United Video Properties, Inc. User speech interfaces for interactive media guidance applications
JP3581881B2 (ja) * 2000-07-13 2004-10-27 独立行政法人産業技術総合研究所 音声補完方法、装置および記録媒体
JP4006338B2 (ja) * 2001-03-22 2007-11-14 キヤノン株式会社 情報処理装置及びその方法、プログラム
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US20060041926A1 (en) * 2004-04-30 2006-02-23 Vulcan Inc. Voice control of multimedia content
KR100764174B1 (ko) * 2006-03-03 2007-10-08 삼성전자주식회사 음성 대화 서비스 장치 및 방법
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8175885B2 (en) * 2007-07-23 2012-05-08 Verizon Patent And Licensing Inc. Controlling a set-top box via remote speech recognition
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
CN101516005A (zh) * 2008-02-23 2009-08-26 华为技术有限公司 一种语音识别频道选择系统、方法及频道转换装置
CN101998077A (zh) * 2009-08-21 2011-03-30 联咏科技股份有限公司 语音控制装置、语音控制方法及相关显示装置
JP2011065467A (ja) * 2009-09-17 2011-03-31 Sharp Corp 会議中継装置及びコンピュータプログラム
US20110289534A1 (en) * 2010-05-18 2011-11-24 Rovi Technologies Corporation User interface for content browsing and selection in a movie portal of a content system
US8522283B2 (en) * 2010-05-20 2013-08-27 Google Inc. Television remote control data transfer
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
US8836638B2 (en) * 2010-09-25 2014-09-16 Hewlett-Packard Development Company, L.P. Silent speech based command to a computing device
US20130035086A1 (en) * 2010-12-22 2013-02-07 Logitech Europe S.A. Remote control system for providing content suggestions
JP5771002B2 (ja) * 2010-12-22 2015-08-26 株式会社東芝 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機
CN102740014A (zh) * 2011-04-07 2012-10-17 青岛海信电器股份有限公司 语音控制电视机、电视系统及通过语音控制电视机的方法
EP2518722A3 (en) * 2011-04-28 2013-08-28 Samsung Electronics Co., Ltd. Method for providing link list and display apparatus applying the same
CN102611860B (zh) * 2012-03-01 2014-10-01 深圳创维-Rgb电子有限公司 利用语音选台的方法及装置
KR101946364B1 (ko) * 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법
CN202524486U (zh) * 2012-05-08 2012-11-07 成都众询科技有限公司 一种语音控制电视
CN102833633B (zh) * 2012-09-04 2016-01-20 深圳创维-Rgb电子有限公司 一种电视机语音控制系统及方法
US9734151B2 (en) * 2012-10-31 2017-08-15 Tivo Solutions Inc. Method and system for voice based media search

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
JP2004260544A (ja) * 2003-02-26 2004-09-16 Matsushita Electric Ind Co Ltd 音声認識機能を有する番組情報表示装置
KR101207435B1 (ko) * 2012-07-09 2012-12-04 다이알로이드(주) 대화형 음성인식 서버, 대화형 음성인식 클라이언트 및 대화형 음성인식 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022196885A1 (ko) * 2021-03-17 2022-09-22 삼성전자 주식회사 음성 인식 서비스를 제공하는 전자 장치 및 방법

Also Published As

Publication number Publication date
AU2014200033A1 (en) 2014-07-24
US20200260127A1 (en) 2020-08-13
US20140195248A1 (en) 2014-07-10
JP6802305B2 (ja) 2020-12-16
EP3386205A1 (en) 2018-10-10
JP2019133165A (ja) 2019-08-08
CN109600636A (zh) 2019-04-09
KR20140089836A (ko) 2014-07-16
CN103916688A (zh) 2014-07-09
JP2014132342A (ja) 2014-07-17
EP2753093A1 (en) 2014-07-09

Similar Documents

Publication Publication Date Title
KR102009316B1 (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
US11854570B2 (en) Electronic device providing response to voice input, and method and computer readable medium thereof
KR102245747B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
KR102215579B1 (ko) 대화형 시스템, 디스플레이 장치 및 그 제어 방법
US20140181865A1 (en) Speech recognition apparatus, speech recognition method, and television set
KR102084739B1 (ko) 대화형 서버, 디스플레이 장치 및 제어 방법
EP3089157B1 (en) Voice recognition processing device, voice recognition processing method, and display device
US20140123185A1 (en) Broadcast receiving apparatus, server and control methods thereof
KR20140074229A (ko) 음성 인식 장치 및 그 제어 방법
US20130041666A1 (en) Voice recognition apparatus, voice recognition server, voice recognition system and voice recognition method
KR20160025301A (ko) 음성 인식이 가능한 디스플레이 장치 및 방법
KR102594022B1 (ko) 전자 장치 및 그의 채널맵 업데이트 방법
KR102049833B1 (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
KR101660269B1 (ko) 대화형 서버, 그 제어 방법 및 대화형 시스템
KR20140137263A (ko) 대화형 서버, 디스플레이 장치 및 제어 방법
CN117812323A (zh) 显示设备、语音识别方法、装置及存储介质
KR20140115844A (ko) 대화형 서버, 디스플레이 장치 및 제어 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant