KR20130141240A - 디스플레이 장치, 디스플레이 장치의 제어 방법, 서버 및 서버의 제어 방법 - Google Patents

디스플레이 장치, 디스플레이 장치의 제어 방법, 서버 및 서버의 제어 방법 Download PDF

Info

Publication number
KR20130141240A
KR20130141240A KR1020120064500A KR20120064500A KR20130141240A KR 20130141240 A KR20130141240 A KR 20130141240A KR 1020120064500 A KR1020120064500 A KR 1020120064500A KR 20120064500 A KR20120064500 A KR 20120064500A KR 20130141240 A KR20130141240 A KR 20130141240A
Authority
KR
South Korea
Prior art keywords
voice
user
text
text information
display apparatus
Prior art date
Application number
KR1020120064500A
Other languages
English (en)
Other versions
KR102056461B1 (ko
Inventor
윤승일
김기석
조성길
허혜현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020120064500A priority Critical patent/KR102056461B1/ko
Priority to RU2015101124A priority patent/RU2015101124A/ru
Priority to BR112014030550A priority patent/BR112014030550A2/pt
Priority to MX2014015019A priority patent/MX2014015019A/es
Priority to PCT/KR2013/005246 priority patent/WO2013187714A1/en
Priority to US13/918,505 priority patent/US20130339031A1/en
Priority to CN201810131893.1A priority patent/CN108063969B/zh
Priority to JP2013125502A priority patent/JP2014003609A/ja
Priority to EP18165183.7A priority patent/EP3361378A1/en
Priority to CN201310235028.9A priority patent/CN103517119B/zh
Priority to CN201810154477.3A priority patent/CN108391149B/zh
Priority to EP13172079.9A priority patent/EP2674854A3/en
Publication of KR20130141240A publication Critical patent/KR20130141240A/ko
Priority to US16/510,248 priority patent/US20190333515A1/en
Application granted granted Critical
Publication of KR102056461B1 publication Critical patent/KR102056461B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

디스플레이 장치에 개시된다. 본 디스플레이 장치는, 사용자의 음성을 수집하는 음성 수집부, 사용자의 음성을 제1 서버로 전송하고, 제1 서버로부터 사용자의 음성에 대응되는 텍스트 정보를 수신하는 제1 통신부, 수신된 텍스트 정보를 제2 서버로 전송하고, 텍스트 정보에 대응되는 응답 정보를 수신하는 제2 통신부, 응답 정보에 기초하여 사용자의 음성에 대응되는 응답 메시지를 출력하는 출력부 및, 동일한 발화 의도를 갖는 사용자의 음성이 재차 수집된 경우, 이전에 수집된 사용자의 음성에 대응되는 응답 메시지와 차별화된 응답 메시지를 출력하도록 출력부를 제어하는 제어부를 포함한다.

Description

디스플레이 장치, 디스플레이 장치의 제어 방법, 서버 및 서버의 제어 방법 { DISPLAY APPARATUS, METHOD FOR CONTROLLING THE DISPLAY APPARATUS, SERVER AND METHOD FOR CONTROLLING THE SERVER }
본 발명은 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템에 관한 것으로 더욱 상세하게는 서버와 연동하여 사용자의 음성에 따라 제어되는 디스플레이 장치, 디스플레이 장치의 제어 방법, 서버 및 서버의 제어 방법에 관한 것이다.
전자 기술의 발달에 힘입어 다양한 종류의 디스플레이 장치가 개발되어 보급되고 사용자의 요구에 따라 점차 다양한 기능을 구비하게 되었다. 특히, TV의 경우, 최근에는 인터넷과 연결되어 인터넷 서비스까지 지원하고, 사용자는 TV를 통해 많은 수의 디지털 방송 채널까지 시청할 수 있게 되었다.
한편, 최근에는 디스플레이 장치를 조금 더 편리하고 직관적으로 제어하기 위하여 음성 인식을 이용한 기술이 개발되고 있다. 특히, TV의 경우, 사용자의 음성을 인식하고, 볼륨 조절 또는 채널 변경과 같이 사용자의 음성에 대응되는 기능을 수행할 수 있게 되었다.
그러나, 종래 사용자의 음성을 인식하는 디스플레이 장치들은 인식된 음성에 대응되는 기능을 제공할 뿐, 사용자와의 대화를 통해 인터랙티브한 정보를 제공하지 못하는 점에서 한계가 존재하였다.
본 발명은 상술한 필요성에 따른 것으로, 본 발명의 목적은 외부의 서버와 연동하여 사용자와 대화 가능한 디스플레이 장치, 디스플레이 장치의 제어 방법, 서버 및 서버의 제어 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 디스플레이 장치는 사용자의 음성을 수집하는 음성 수집부, 상기 사용자의 음성을 제1 서버로 전송하고, 상기 제1 서버로부터 상기 사용자의 음성에 대응되는 텍스트 정보를 수신하는 제1 통신부, 상기 수신된 텍스트 정보를 제2 서버로 전송하고, 상기 텍스트 정보에 대응되는 응답 정보를 수신하는 제2 통신부, 상기 응답 정보에 기초하여 상기 사용자의 음성에 대응되는 응답 메시지를 출력하는 출력부 및, 동일한 발화 의도를 갖는 사용자의 음성이 재차 수집된 경우, 이전에 수집된 사용자의 음성에 대응되는 응답 메시지와 차별화된 응답 메시지를 출력하도록 상기 출력부를 제어하는 제어부를 포함한다.
여기에서, 상기 제2 서버는, 상기 텍스트 정보를 분석하여 사용자의 음성에 포함된 발화 의도를 판단하고, 상기 판단된 발화 의도에 대응되는 응답 정보를 상기 디스플레이 장치로 전송할 수 있다.
또한, 상기 제2 서버는, 연속적으로 수신된 제1 및 제2 텍스트 정보에 포함된 발화 의도가 동일한 경우, 제1 텍스트 정보에 대응되는 응답 정보와 차별화되도록 제2 텍스트 정보에 대응되는 응답 정보를 생성하여 상기 디스플레이 장치로 전송할 수 있다.
그리고, 상기 제어부는, 상기 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 재차 수신된 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트로 상기 출력부를 통해 출력할 수 있다.
또한, 상기 제어부는, 상기 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 상기 디스플레이 장치에서 출력되는 컨텐츠에 대한 오디오 볼륨을 상기 응답 메시지로 출력되는 음성에 대한 볼륨보다 상대적으로 낮게 출력하도록 상기 출력부를 제어할 수 있다.
그리고, 상기 제어부는, 상기 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 재차 수신된 사용자의 음성에 대응되는 응답 메시지를 기설정된 키워드가 하이라이트된 텍스트로 상기 출력부를 통해 출력할 수 있다.
한편, 본 발명의 일 실시 예에 따른 디스플레이 장치와 연동하는 서버는 상기 디스플레이 장치에서 수집한 사용자의 음성에 대응되는 텍스트 정보를 수신하는 통신부 및, 상기 텍스트 정보를 분석하여 상기 사용자의 음성에 포함된 발화 의도를 판단하고, 상기 판단된 발화 의도에 대응되는 응답 정보를 상기 디스플레이 장치로 전송하도록 상기 통신부를 제어하는 제어부를 포함하며, 상기 제어부는, 제1 및 제2 텍스트 정보에 포함된 발화 의도가 동일한 경우, 상기 제2 텍스트 정보에 대응되는 응답 정보를, 상기 제1 텍스트 정보에 대응되는 응답 정보와 차별화되도록 생성하여 상기 디스플레이 장치로 전송한다.
여기에서, 상기 디스플레이 장치는, 상기 응답 정보에 기초하여 상기 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트 중 적어도 하나로 출력할 수 있다.
또한, 상기 제어부는, 상기 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 상기 디스플레이 장치에서 음성 또는 텍스트로 상기 응답 메시지를 출력하도록 상기 제1 텍스트 정보에 대응되는 응답 정보를 생성하고, 상기 디스플레이 장치에서 음성 및 텍스트로 상기 응답 메시지를 출력하도록 상기 제2 텍스트 정보에 대응되는 응답 정보를 생성할 수 있다.
그리고, 상기 제어부는, 상기 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 상기 디스플레이 장치에서 출력되는 컨텐츠에 대한 오디오 볼륨이 상기 응답 메시지로 출력되는 음성에 대한 볼륨보다 상대적으로 낮게 출력되도록 상기 제2 텍스트 정보에 대응되는 응답 정보를 생성할 수 있다.
또한, 상기 제어부는, 상기 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 상기 디스플레이 장치에서 텍스트로 상기 응답 메시지를 출력하도록 상기 제1 텍스트 정보에 대응되는 응답 정보를 생성하고, 상기 디스플레이 장치에서 기설정된 키워드가 하이라이트된 텍스트로 상기 응답 메시지를 출력하도록 상기 제2 텍스트 정보에 대응되는 응답 정보를 생성할 수 있다.
한편, 본 발명의 일 실시 예에 따른 디스플레이 장치의 제어 방법은 사용자의 음성을 수집하는 단계, 상기 사용자의 음성을 제1 서버로 전송하고, 상기 제1 서버로부터 상기 사용자의 음성에 대응되는 텍스트 정보를 수신하는 단계, 상기 수신된 텍스트 정보를 제2 서버로 전송하고, 상기 텍스트 정보에 대응되는 응답 정보를 수신하는 단계 및, 동일한 발화 의도를 갖는 사용자의 음성이 재차 수집된 경우, 상기 응답 정보에 기초하여 이전에 수집된 사용자의 음성에 대응되는 응답 메시지와 차별화된 응답 메시지를 출력하는 출력단계를 포함한다.
여기에서, 상기 제2 서버는, 상기 텍스트 정보를 분석하여 사용자의 음성에 포함된 발화 의도를 판단하고, 상기 판단된 발화 의도에 대응되는 응답 정보를 상기 디스플레이 장치로 전송할 수 있다.
또한, 상기 제2 서버는, 연속적으로 수신된 제1 및 제2 텍스트 정보에 포함된 발화 의도가 동일한 경우, 제1 텍스트 정보에 대응되는 응답 정보와 차별화되도록 제2 텍스트 정보에 대응되는 응답 정보를 생성하여 상기 디스플레이 장치로 전송할 수 있다.
그리고, 상기 출력단계는, 상기 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 재차 수신된 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트로 출력할 수 있다.
또한, 상기 출력단계는, 상기 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 상기 디스플레이 장치에서 출력되는 컨텐츠에 대한 오디오 볼륨을 상기 응답 메시지로 출력되는 음성에 대한 볼륨보다 상대적으로 낮게 출력할 수 있다.
그리고, 상기 출력단계는, 상기 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 재차 수신된 사용자의 음성에 대응되는 응답 메시지를 기설정된 키워드가 하이라이트된 텍스트로 출력할 수 있다.
한편, 본 발명의 일 실시 예에 따른 디스플레이 장치와 연동하는 서버의 제어 방법은 상기 디스플레이 장치에서 수집한 사용자의 음성에 대응되는 텍스트 정보를 수신하는 단계 상기 텍스트 정보를 분석하여 상기 사용자의 음성에 포함된 발화 의도를 판단하는 단계 및, 제1 및 제2 텍스트 정보에 포함된 발화 의도가 동일한 경우, 상기 제2 텍스트 정보에 대응되는 응답 정보를, 상기 제1 텍스트 정보에 대응되는 응답 정보와 차별화되도록 생성하여 상기 디스플레이 장치로 전송하는 단계를 포함한다.
여기에서, 상기 디스플레이 장치는, 상기 응답 정보에 기초하여 상기 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트 중 적어도 하나로 출력할 수 있다.
또한, 상기 전송하는 단계는, 상기 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 상기 디스플레이 장치에서 음성 또는 텍스트로 상기 응답 메시지를 출력하도록 상기 제1 텍스트 정보에 대응되는 응답 정보를 생성하고, 상기 디스플레이 장치에서 음성 및 텍스트로 상기 응답 메시지를 출력하도록 상기 제2 텍스트 정보에 대응되는 응답 정보를 생성할 수 있다.
그리고, 상기 전송하는 단계는, 상기 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 상기 디스플레이 장치에서 출력되는 컨텐츠에 대한 오디오 볼륨이 상기 응답 메시지로 출력되는 음성에 대한 볼륨보다 상대적으로 낮게 출력되도록 상기 제2 텍스트 정보에 대응되는 응답 정보를 생성할 수 있다.
또한, 상기 전송하는 단계는, 상기 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 상기 디스플레이 장치에서 텍스트로 상기 응답 메시지를 출력하도록 상기 제1 텍스트 정보에 대응되는 응답 정보를 생성하고, 상기 디스플레이 장치에서 기설정된 키워드가 하이라이트된 텍스트로 상기 응답 메시지를 출력하도록 상기 제2 텍스트 정보에 대응되는 응답 정보를 생성할 수 있다.
이상과 같은 본 발명의 다양한 실시 예에 따르면, 사용자와 대화 가능한 디스플레이 장치를 제공할 수 있어, 사용자의 편의성이 향상될 수 있다. 또한, 동일한 발화 의도를 갖는 사용자의 음성이 재차 수집된 경우 디스플레이 장치는 이전과 다르게 사용자 음성에 대한 응답 메시지를 출력하므로, 사용자의 이해도를 향상시킬 수 있다.
도 1은 본 발명의 일 실시 예에 따른 대화형 시스템을 설명하기 위한 도면,
도 2는 도 1에 도시된 대화형 시스템의 각 동작을 설명하기 위한 타이밍도,
도 3은 도 1에 도시된 디스플레이 장치의 구성을 설명하기 위한 블록도,
도 4는 도 3에 도시된 디스플레이 장치의 세부 구성을 설명하기 위한 블록도,
도 5는 도 1에 도시된 제1 서버의 구성을 설명하기 위한 블록도,
도 6은 도 1에 도시된 제2 서버의 구성을 설명하기 위한 블록도,
도 7은 도 6에 도시된 제2 서버의 세부구성을 설명하기 위한 블록도,
도 8 내지 도 10은 본 발명의 일 실시 예에 따른 대화형 시스템의 동작을 설명하기 위한 도면들,
도 11은 본 발명의 일 실시 예에 따른 디스플레이 장치의 제어 방법을 설명하기 위한 흐름도, 그리고,
도 12는 본 발명의 일 실시 예에 따른 디스플레이 장치와 연동하는 서버의 제어 방법을 설명하기 위한 흐름도이다.
이하에서는 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시 예에 따른 대화형 시스템을 설명하기 위한 도면이다. 도 1에 도시된 바와 같이, 대화형 시스템은 디스플레이 장치(100), 제1 서버(200) 및 제2 서버(300)를 포함한다. 디스플레이 장치(100)는 도 1에 도시된 바와 같이, 스마트 TV일 수 있으나, 이는 일 예에 불과할 뿐, 스마트폰과 같은 휴대폰, 데스크탑 PC, 노트북, 네비게이션 등과 같은 다양한 전자 장치로 구현될 수 있다.
디스플레이 장치(100)는 수집된 사용자의 음성을 제1 서버(200)로 전송한다. 제1 서버(200)는 디스플레이 장치(100)로부터 사용자의 음성이 수신되면, 수신된 사용자의 음성을 텍스트 정보로 변환하고, 텍스트 정보를 디스플레이 장치(100)로 전송한다.
그리고, 디스플레이 장치(100)는 제1 서버(200)로부터 수신된 텍스트 정보를 제2 서버(300)로 전송한다. 디스플레이 장치(100)로부터 텍스트 정보가 수신되면, 제2 서버(300)는 수신된 텍스트 정보에 대응되는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다.
디스플레이 장치(100)는 제2 서버(300)로부터 수신된 응답 정보에 기초하여, 다양한 동작을 수행할 수 있다. 예를 들어, 디스플레이 장치(100)는 사용자의 음성에 대응되는 응답 메시지를 출력할 수 있다. 여기에서, 응답 메시지는 음성 및 텍스트 중 적어도 하나로 출력될 수 있다. 구체적으로, 디스플레이 장치(100)는 방송 프로그램의 방송 시간을 문의하는 사용자의 음성이 입력되면, 해당 방송 프로그램의 방송 시간을 음성 또는 텍스트로 출력하거나, 이들의 조합으로 출력할 수 있다.
또한, 디스플레이 장치(100)는 사용자의 음성에 대응되는 기능을 수행할 수 있다. 예를 들어, 디스플레이 장치(100)는 채널 변경을 위한 사용자의 음성이 입력되면, 해당 채널을 선국하여 디스플레이할 수 있다. 이 경우, 디스플레이 장치(100)는 해당 기능에 대응되는 응답 메시지를 함께 제공할 수도 있다. 상술한 예의 경우, 디스플레이 장치(100)는 변경된 채널에 대한 정보 또는 채널 변경이 완료되었음을 나타내는 메시지를 음성 및 텍스트 중 적어도 하나로 출력할 수 있다.
특히, 디스플레이 장치(100)는 동일한 발화 의도를 갖는 사용자의 음성이 재차 수집된 경우, 이전에 수집된 사용자의 음성에 대응되는 응답 메시지와 차별화된 응답 메시지를 출력할 수 있다. 즉, 상술한 예에서, 방송 프로그램의 방송 시간을 문의하는 사용자의 음성이 입력된 후 동일한 방송 프로그램의 방송 시간을 문의하는 사용자의 음성이 재차 입력된 경우, 디스플레이 장치(100)는 다양한 방식을 통해 이전과는 형태로 해당 방송 프로그램의 방송 시간을 출력할 수 있다.
도 2는 도 1에 도시된 대화형 시스템의 각 동작을 설명하기 위한 타이밍도이다.
도 2에 따르면, 디스플레이 장치(100)는 사용자의 음성을 수집하여(S11), 제1 서버(200)로 전송한다(S12). 구체적으로, 사용자 음성을 수집하기 위한 모드가 개시되면, 디스플레이 장치(100)는 기설정된 거리 이내에서 사용자가 발화한 음성을 수집하여 제1 서버(200)로 전송할 수 있다.
이를 위해, 디스플레이 장치(100)는 사용자가 발화한 음성을 입력받기 위한 마이크 등을 구비할 수 있다. 이 경우, 마이크는 디스플레이 장치(100)에 내장되어 일체형을 이루거나, 디스플레이 장치(100)와 분리된 형태로 구현될 수 있다. 분리된 형태로 구현되는 경우, 마이크는 사용자가 손으로 쥐는 형태, 또는 식탁이나 테이블에 놓일 수 있는 형태로 구현될 수 있으며, 디스플레이 장치(100)와 유선 또는 무선 네트워크를 통하여 연결될 수 있다.
제1 서버(200)는 디스플레이 장치(100)로부터 수신된 사용자 음성을 텍스트 정보로 변환한다(S13). 구체적으로, 제1 서버(200)는 STT(Speech to Text) 알고리즘을 이용하여, 디스플레이 장치(100)로부터 수신된 사용자의 음성을 텍스트 정보로 변환할 수 있다. 그리고, 제1 서버(200)는 텍스트 정보를 디스플레이 장치(100)로 전송한다(S14).
디스플레이 장치(100)는 제1 서버(200)로부터 수신된 텍스트 정보를 제2 서버(300)로 전송한다(S15).
제2 서버(300)는 디스플레이 장치(100)로부터 텍스트 정보가 수신되면, 텍스트 정보에 대응되는 응답 정보를 생성하여(S16), 디스플레이 장치(100)로 응답 정보를 전송한다(S17).
여기에서, 응답 정보는, 디스플레이 장치(100)에서 응답 메시지를 출력하기 위한 응답 메시지 정보를 포함한다. 응답 메시지는 디스플레이 장치(100)에서 수집된 사용자의 음성에 대응되는 답변으로, 응답 메시지 정보는 사용자의 음성에 대해 디스플레이 장치(100)에서 출력되는 응답 메시지가 텍스트 형식으로 표현된 것일 수 있다. 이에 따라, 디스플레이 장치(100)는 응답 메시지 정보에 기초하여 사용자의 음성에 대응되는 응답 메시지를 음성 중 텍스트 중 적어도 하나로 출력할 수 있다. 또한, 응답 정보는, 디스플레이 장치(100)에서 사용자 음성에 대응되는 기능을 실행하기 위한 제어 명령을 더 포함할 수 있다.
한편, 디스플레이 장치(100)는 수신된 응답 정보에 기초하여, 사용자 음성에 대응되는 동작을 수행한다(S18).
구체적으로, 디스플레이 장치(100)는 응답 정보에 포함된 응답 메시지 정보에 기초하여, 사용자 음성에 대응되는 응답 메시지를 출력할 수 있다. 즉, 디스플레이 장치(100)는 제2 서버(300)로부터 텍스트 형식의 응답 메시지 정보가 수신되면 TTS(Text to Speech) 알고리즘을 이용하여 텍스트를 음성으로 변환하여 출력하거나, 응답 메시지 정보를 구성하는 텍스트가 포함되도록 UI(User Interface) 화면을 구성하여 출력할 수 있다.
예를 들어, 디스플레이 장치(100)에서 "○○○(방송 프로그램명) 언제 시작해?"라는 사용자 음성이 수집된 경우, 제2 서버(300)는 "토요일 저녁 7시에 시작합니다"라는 텍스트 형식의 응답 메시지 정보를 디스플레이 장치(100)로 전송한다. 이에 따라, 디스플레이 장치(100)는 "토요일 저녁 7시에 시작합니다"라는 응답 메시지를 음성 및 텍스트 중 적어도 하나로 출력할 수 있다.
또한, 디스플레이 장치(100)는 응답 정보에 포함된 제어 명령에 따라, 사용자 음성에 대응되는 기능을 수행할 수 있다. 예를 들어, "디스플레이 장치(100)에서 ○○○(방송 프로그램명) 녹화해줘"라는 사용자 음성이 수집된 경우, 제2 서버(300)는 "○○○"의 예약 녹화 기능을 수행하기 위한 제어 명령을 디스플레이 장치(100)로 전송할 수 있다. 이에 따라, 디스플레이 장치(100)는 해당 방송 프로그램에 대한 예약 녹화를 수행할 수 있다.
이 경우, 응답 정보는, 디스플레이 장치(100)에서 수행되는 기능에 대응되는 응답 메시지 정보를 더 포함할 수 있다. 즉, 상술한 예에서, 제2 서버(300)는 "○○○의 녹화가 예약되었습니다"라는 텍스트 형식의 응답 메시지 정보를 디스플레이 장치(100)로 제어 명령과 함께 전송하고, 디스플레이 장치(100)는 예약 녹화 기능 수행과 함께 "○○○의 녹화가 예약되었습니다"라는 응답 메시지를 음성 및 텍스트로 중 적어도 하나로 출력할 수 있다.
한편, 디스플레이 장치(100)는 사용자의 음성이 재차 수집되면(S19), 이를 제1 서버(200)로 전송하고(S20), 제1 서버(200)는 디스플레이 장치(100)로부터 수신된 사용자 음성을 텍스트 정보로 변환한다(S21).
이후, 제1 서버(200)가 텍스트 정보를 디스플레이 장치(100)로 전송하면(S22), 디스플레이 장치(100)는 수신된 텍스트 정보를 제2 서버(300)로 전송한다(S23).
한편, 제2 서버(300)는 디스플레이 장치(100)로부터 텍스트 정보가 수신되면, 텍스트 정보에 대응되는 응답 정보를 생성하여(S24), 디스플레이 장치(100)로 전송한다(S25).
이때, 제2 서버(300)는 현재 수신된 텍스트 정보에 포함된 사용자의 발화 의도가 이전에 수신된 텍스트 정보에 포함된 사용자의 발화 의도가 동일하지 않은 경우, 이전과 동일한 방식으로 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다.
하지만, 제2 서버(300)는 현재 수신된 텍스트 정보에 포함된 사용자의 발화 의도가 이전에 수신된 텍스트 정보에 포함된 사용자의 발화 의도가 동일한 경우, 이전에 생성된 응답 정보와 차별화되도록 현재 수신된 텍스트 정보에 대응되는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한다.
예를 들어, "현재 방송 중인 프로그램 이름이 뭐야?"라는 사용자 음성이 입력된 후, 이와 동일한 발화 의도를 갖는 사용자 음성이 입력된 경우를 가정한다. 여기에서, 동일한 발화 의도를 갖는 사용자 음성은 "현재 방송 중인 프로그램 이름이 뭐야?"와 같이 이전과 동일한 사용자 음성 및, "뭐라고?" 또는 "다시 말해줄래?" 등과 같이 이전과 동일한 답변을 유도할 수 있는 사용자 음성을 포함한다.
이 경우, 제2 서버(300)는 디스플레이 장치(100)에서 "문의하신 방송 프로그램은 ○○○(방송 프로그램명) 입니다"라는 응답 메시지가 음성 및 텍스트로 출력되도록 응답 정보를 생성하거나, 디스플레이 장치(100)에서 방송 프로그램 제목이 하이라이트된 "문의하신 방송 프로그램은 ○○○ 입니다"라는 응답 메시지가 텍스트로 출력되도록 응답 정보를 생성할 수 있다. 또한, 디스플레이 장치(100)에서 컨텐츠를 재생하고 있는 경우, 제2 서버(300)는 디스플레이 장치(100)에서 출력되는 컨텐츠의 오디오 볼륨이 응답 메시지로 출력되는 음성의 볼륨보다 낮게 출력되도록 하는 제어 명령을 생성할 수 있다.
한편, 디스플레이 장치(100)는 응답 정보에 기초하여 사용자 음성에 대응되는 동작을 수행한다(S26). 특히, 동일한 발화 의도를 갖는 사용자의 음성이 재차 수집된 경우, 이전 사용자의 음성에 대응되는 응답 메시지와 구별되도록, 현재 사용자의 음성에 대응되는 응답 메시지가 다양한 형태로 출력할 수 있다.
구체적으로, 디스플레이 장치(100)는 응답 메시지를 음성 및 텍스트로 출력하거나, 기설정된 키워드가 하이라이트된 텍스트로 출력하거나, 응답 메시지로 출력되는 음성의 볼륨을 디스플레이 장치(100)에서 출력되는 컨텐츠의 오디오 볼륨보다 높게 출력할 수 있다.
도 3은 도 1에 도시된 디스플레이 장치의 구성을 설명하기 위한 블록도이다. 도 3에 따르면, 디스플레이 장치(100)는 음성 수집부(110), 제1 통신부(120), 제2 통신부(130), 출력부(140) 및 제어부(150)를 포함한다.
음성 수집부(110)는 사용자의 음성을 수집한다. 예를 들어, 음성 수집부(110)는 사용자의 음성을 수집하기 위한 마이크로 구현되어, 디스플레이 장치(100)에 내장되어 일체형을 이루거나, 디스플레이 장치(100)와 분리된 형태로 구현될 수 있다. 분리된 형태로 구현되는 경우, 음성 수집부(110)는 사용자가 손으로 쥐는 형태, 또는 식탁이나 테이블에 놓일 수 있는 형태로 구현될 수 있으며, 디스플레이 장치(100)와 유선 또는 무선 네트워크를 통하여 연결되어 수집된 사용자의 음성을 디스플레이 장치(100)로 전송할 수 있다.
한편, 음성 수집부(110)는 수집된 사용자의 음성을 처리하여, 음성 신호를 생성한다. 즉, 음성 수집부(110)는 수집된 사용자의 음성에서 노이즈(예를 들어, 에어컨 소리, 청소기 소리, 음악 소리 등)를 제거하여, 음성 신호를 생성할 수 있다.
구체적으로, 음성 수집부(110)는 아날로그 형태의 사용자 음성이 입력되면, 이를 샘플링하여 디지털 신호로 변환한다. 그리고, 음성 수집부(110)는 변환된 디지털 신호의 에너지를 계산하여, 디지털 신호의 에너지가 기설정된 값 이상인지 여부를 판단한다.
디지털 신호의 에너지가 기설정된 값 이상인 경우, 음성 수집부(110)는 디지털 신호에서 노이즈 성분을 제거하여 제1 통신부(120)로 전달한다. 이때, 노이즈 성분은 가정 환경에서 발생할 수 있는 돌발성 잡음으로써, 에어컨 소리, 청소기 소리, 음악 소리 등이 포함될 수 있다. 한편, 디지털 신호의 에너지가 기설정된 값 미만인 경우, 음성 수집부(110)는 디지털 신호에 별다른 처리 과정을 수행하지 않고, 다른 입력을 기다린다. 이에 의해, 사용자 발화 음성이 아닌 다른 소리에 의해 전체 오디오 처리 과정이 활성화되지 않아, 불필요한 전력 소모를 방지할 수 있다.
제1 통신부(120)는 제1 서버(도 1의 200)와 통신을 수행한다. 구체적으로, 제1 통신부(120)는 사용자의 음성을 제1 서버(200)로 전송하고, 사용자의 음성에 대응되는 텍스트 정보를 제1 서버(200)로부터 수신할 수 있다.
제2 통신부(130)는 제2 서버(도 1의 300)와 통신을 수행한다. 구체적으로, 제2 통신부(130)는 수신된 텍스트 정보를 제2 서버(300)로 전송하고, 텍스트 정보에 대응되는 응답 정보를 제2 서버(300)로부터 수신할 수 있다.
이를 위해, 제1 통신부(120) 및 제2 통신부(130)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기에서, 근거리 무선 통신 모듈이란 블루투스, 지그비 방식 등과 같은 근거리 무선 통신 방식에 따라, 근거리에 위치한 외부 기기와 통신을 수행하기 위한 모듈이다. 또한, 무선 통신 모듈이란 WiFi, IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.
한편, 상술한 실시 예에서는, 디스플레이 장치(100)가 제1 서버(200) 및 제2 서버(300)와 통신을 수행하기 위해, 별도의 통신부(120, 130)를 구비하는 것으로 설명하였으나 이는 일 예에 불과하다. 즉, 디스플레이 장치(100)는 하나의 통신 모듈을 통해 제1 서버(200) 및 제2 서버(300)와 통신을 할 수 있음은 물론이다.
출력부(140)는 응답 정보에 기초하여, 사용자의 음성에 대응되는 응답 메시지를 출력할 수 있다. 구체적으로, 출력부(140)는 응답 메시지를 음성 및 텍스트 중 적어도 하나로 출력할 수 있으며, 이를 위해, 디스플레이부(미도시) 및 오디오 출력부(미도시)를 구비할 수 있다.
구체적으로, 디스플레이부는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel, PDP) 등으로 구현되어, 디스플레이 장치(100)를 통해 제공 가능한 다양한 디스플레이 화면을 제공할 수 있다. 특히, 디스플레이부는 사용자의 음성에 대응되는 응답 메시지를 텍스트 또는 이미지로 디스플레이할 수 있다.
여기에서, 디스플레이부가 터치패드와 함께 상호 레이어 구조를 이루는 터치 스크린 형태로 구현될 수 있으며, 터치 스크린은 터치 입력 위치, 면적, 터치 입력의 압력까지도 검출하도록 구성될 수 있다.
한편, 오디오 출력부는 잭 등과 같은 출력 포트 또는 스피커로 구현되어, 사용자 음성에 대응되는 응답 메시지를 음성으로 출력할 수 있다.
제어부(150)는 디스플레이 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 제어부(150)는 사용자의 음성을 수집하여 디지털 신호로 변환하고 디지털 신호에서 노이즈 성분을 제거하도록 음성 수집부(110)를 제어할 수 있다. 그리고, 제어부(150)는 노이즈 성분이 제거된 음성 신호를 제1 서버(200)로 전송하여 사용자 음성에 대응되는 텍스트 정보를 수신하도록 제1 통신부(130)를 제어할 수 있다.
또한, 제어부(150)는 텍스트 정보에 대응되는 응답 정보가 제2 서버(300)로부터 수신되면, 응답 정보에 기초하여 사용자의 음성에 대응되는 응답 메시지를 출력하도록 출력부(140)를 제어할 수 있다.
여기에서, 응답 정보는 응답 메시지를 출력하기 위한 응답 메시지 정보를 포함할 수 있다. 응답 메시지 정보는, 사용자의 음성에 대해 디스플레이 장치(100)에서 출력되는 응답 메시지가 텍스트 형식으로 표현된 것으로, 제어부(150)는 응답 메시지 정보에 기초하여, 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트 중 적어도 하나로 출력부(140)를 통해 출력할 수 있다.
구체적으로, 제어부(150)는 TTS 엔진을 이용하여, 텍스트 형식의 응답 메시지 정보를 음성으로 변환하여 출력부(140)를 통해 출력할 수 있다. 여기에서, TTS 엔진은 텍스트를 음성으로 변환하기 위한 모듈로서, 종래 개시되어 있는 다양한 TTS 알고리즘을 이용하여 텍스트를 음성으로 변환할 수 있다. 또한, 제어부(150)는 응답 메시지 정보를 구성하는 텍스트가 포함되도록 UI 화면을 구성하여 출력부(140)를 통해 출력할 수도 있다.
이와 같이, 제어부(150)가 디스플레이 장치(100)에서 별도의 기능을 실행함이 없이 사용자 음성에 대응되는 응답 메시지를 출력하는 경우는, 사용자의 음성이 디스플레이 장치(100)에서 실행될 수 없는 기능을 실행시키고자 하는 의미를 포함하거나, 답변을 요구하는 질문인 경우를 들 수 있다.
예를 들어, 디스플레이 장치(100)가 스마트 TV로 구현되고 "XXX에게 전화 걸어줘"라는 사용자 음성이 입력되었으나, 스마트 TV에서 화상통화 기능을 지원하지 않는 경우, 제어부(150)는 별도의 기능을 실행함이 없이 제2 서버(300)로부터 수신된 응답 메시지 정보에 기초하여 "지원되지 않는 기능입니다"라는 응답 메시지를 출력부(140)를 통해 음성 및 텍스트 중 적어도 하나로 출력할 수 있다. 또한, 디스플레이 장치(100)가 스마트 TV로 구현되고 "최근 가장 인기있는 프로그램 명을 알려줘"라는 사용자 음성이 입력되면, 제어부(150)는 별도의 기능을 실행함이 없이 제2 서버(300)로부터 수신된 응답 메시지 정보에 기초하여 "가장 인기 있는 프로그램은 ○○○(방송프로그램명) 입니다"라는 응답 메시지를 출력부(140)를 통해 음성 및 텍스트 중 적어도 하나로 출력할 수 있다.
한편, 응답 정보는 디스플레이 장치(100)의 기능을 제어하기 위한 제어 명령을 더 포함할 수 있다. 이에 따라, 제어부(150)는 제2 서버(300)로부터 수신된 제어 명령에 기초하여 디스플레이 장치(100)의 제품 종류에 따라 디스플레이 장치(100)에서 실행 가능한 특정 기능을 실행하도록 디스플레이 장치(100)의 각 구성요소를 제어할 수 있다. 예를 들어, 디스플레이 장치(100)가 스마트 TV로 구현되는 경우, 제어부(150)는 제어 명령에 따라 전원 온/오프, 채널 변경, 볼륨 변경 등을 수행할 수 있다.
또한, 응답 정보는, 디스플레이 장치(100)의 기능을 제어하기 위한 제어 명령 및 제어 명령에 따라 실행된 특정 기능과 관련된 응답 메시지 정보를 포함할 수 있다. 이 경우, 제어부(150)는 제어 명령에 따른 기능을 수행하고, 그와 관련된 응답 메시지를 음성 및 텍스트 중 적어도 하나로 출력부(140)를 통해 출력할 수 있다.
예를 들어, 사용자의 음성이 디스플레이 장치(100)에서 실행될 수 있는 기능을 실행시키고자 의미를 포함하면, 제어부(150)는 제2 서버(300)로부터 수신된 제어 명령에 따라 사용자가 의도하는 기능을 실행하고, 응답 메시지 정보에 기초하여 실행된 기능과 관련된 메시지를 음성 및 텍스트 중 적어도 하나로 출력할 수 있다. 예를 들어, 디스플레이 장치(100)가 스마트 TV로 구현되고 "채널을 11번으로 변경해줘"라는 사용자 음성이 입력되면, 제어부(150)는 채널을 11번으로 변경하기 위한 제어 명령에 따라 채널 11번을 선국하고, 응답 메시지 정보에 기초하여 "채널이 11번으로 변경되었습니다" 또는 "채널 변경이 완료되었습니다"라는 응답 메시지를 음성 및 텍스트 중 적어도 하나로 출력부(140)를 통해 출력할 수 있다.
한편, 제어부(150)는 동일한 발화 의도를 갖는 사용자의 음성이 재차 수집된 경우, 이전에 수집된 사용자의 음성에 대응되는 응답 메시지와 차별화된 응답 메시지를 출력하도록 출력부(140)를 제어할 수 있다.
여기에서, 동일한 발화 의도를 갖는 사용자의 음성이란, 이전에 수집된 사용자의 음성과 동일한 사용자의 음성 및 이전에 수집된 사용자의 음성과 동일한 답변을 유도하기 위한 사용자의 음성을 포함할 수 있다. 예를 들어, 이전에 수집된 사용자의 음성이 "현재 방송 중인 프로그램 언제 끝나?"인 경우, 동일한 발화 의도를 갖는 사용자 음성은 이전과 동일한 ""현재 방송 중인 프로그램 언제 끝나?, 또는 "뭐라고?", "언제?", "다시 말해줘"와 같은 이전의 사용자 음성과 동일한 답변을 유도할 수 있는 사용자 음성을 포함할 수 있다.
즉, 제어부(150)는 이전에 수집된 사용자의 음성과 동일한 의도를 갖는 음성이 재차 수집되면, 이전에 수집된 사용자의 음성에 대해 출력되었던 응답 메시지와는 다르게 현재 수집된 사용자의 음성에 대한 응답 메시지를 출력할 수 있다.
이하에서는, 이전에 수집된 사용자의 음성이 텍스트로 변환된 것을 제1 텍스트 정보라 하고, 이전에 수집된 사용자의 음성과 동일한 발화 의도를 가지며, 그 이후에 수집된 사용자의 음성이 텍스트로 변환된 것을 제2 텍스트 정보라 한다.
이 경우, 제1 텍스트 정보와 제2 텍스트 정보는 디스플레이 장치(100)에서 연속적으로 수집된 음성이 각각 변환된 텍스트일 수 있다. 즉, 디스플레이 장치(100)에서 사용자의 음성을 수집하여 그에 대응되는 응답 메시지를 출력한 후 그 다음 수집된 사용자의 음성이 동일한 발화 의도를 갖는 경우, 순차적으로 수신된 각 사용자의 음성이 변환된 텍스트가 제1 텍스트 정보와 제2 텍스트 정보가 될 수 있다.
다만, 제1 텍스트 정보와 제2 텍스트 정보는 반드시 연속적으로 수집된 음성이 변환된 텍스트로 한정될 필요는 없다. 즉, 이전에 수집된 사용자의 음성과 동일한 사용자의 음성이 수신되는 경우에는 해당 사용자의 음성이 연속적으로 수신되지 않더라도, 동일한 발화 의도를 갖는 사용자의 음성이라고 볼 수 있으므로 각 사용자의 음성이 변환된 텍스트가 제1 및 제2 텍스트 정보가 될 수 있다
한편, 제어부(150)는 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 재차 수신된 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트로 출력부(140)를 통해 출력할 수 있다.
즉, 제어부(150)는 제1 텍스트 정보에 대응되는 응답 메시지 정보가 제2 서버(300)로부터 수신되어 이전 수집된 사용자의 음성에 대응되는 응답 메시지를 음성 또는 텍스트로 출력한 경우, 제2 텍스트 정보에 대응되는 응답 메시지 정보를 제2 서버(300)로부터 수신하여 현재 수집된 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트로 출력할 수 있다.
예를 들어, 이전에 수집된 사용자의 음성이 "현재 방송 중인 프로그램 제목이 뭐야?"인 경우를 가정한다. 이 경우, 제어부(150)는 제2 서버(300)로부터 수신된 응답 메시지 정보에 기초하여 "문의하신 프로그램 제목은 ○○○(방송 프로그램명) 입니다"라는 응답 메시지를 출력부(140)를 통해 음성으로 출력할 수 있다. 이후, "현재 방송 중인 프로그램 제목이 뭐야?" 또는, "뭐라고?", "다시 말해줘" 등과 같이, 이전 수집된 사용자의 음성과 동일한 발화 의도를 갖는 사용자의 음성이 수신되면, 제어부(150)는 제2 서버(300)로부터 수신된 제어 명령 및 응답 메시지 정보에 기초하여 "문의하신 프로그램 제목은 ○○○ 입니다"라는 응답 메시지를 출력부(140)를 통해 음성 및 텍스트로 출력할 수 있다. 여기에서, 제어 명령은, 디스플레이 장치(100)에서 응답 메시지가 음성 및 텍스트 모두로 출력되도록 하는 명령일 수 있다.
또한, 제어부(150)는 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 디스플레이 장치(100)에서 출력되는 컨텐츠에 대한 오디오 볼륨을 응답 메시지로 출력되는 음성에 대한 볼륨보다 상대적으로 낮게 출력하도록 출력부(140)를 제어할 수 있다. 여기에서, 컨텐츠는 방송 컨텐츠, 각종 멀티미디어 컨텐츠 등을 포함할 수 있다.
구체적으로, 제어부(150)는 제2 서버(300)로부터 수신된 제어 명령에 기초하여 컨텐츠의 볼륨을 기설정된 레벨로 낮추거나, 음성으로 출력되는 응답 메시지의 볼륨을 기설정된 레벨로 높여 컨텐츠의 오디오보다 응답 메시지로 출력되는 음성을 상대적으로 높은 볼륨으로 출력할 수 있다. 이와 같이, 제어부(150)는 응답 메시지로 출력되는 음성의 볼륨을 컨텐츠의 오디오 볼륨보다 상대적으로 높게 출력하기 위해, 컨텐츠 볼륨 또는 응답 메시지의 볼륨을 조절할 수 있다. 또한, 제어부(150)는 응답 메시지로 출력되는 음성의 볼륨 및 컨텐츠의 오디오 볼륨 모두를 조절할 수도 있다. 예를 들어, 제어부(150)는 컨텐츠의 볼륨을 기설정된 레벨로 낮추고, 컨텐츠의 오디오 볼륨보다 기설정된 레벨만큼 높은 레벨로 응답 메시지로 출력되는 음성을 출력할 수 있다.
또한, 제어부(150)는 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 재차 수신된 사용자의 음성에 대응되는 응답 메시지를 기설정된 키워드가 하이라이트된 텍스트로 출력부(140)를 통해 출력할 수 있다.
여기에서, 하이라이트되어 표시되는 키워드는 사용자의 발화 의도에 따라 달라질 수 있다. 예를 들어, 제어부(150)는 사용자의 발화 의도가 특정 방송 프로그램의 제목을 문의하는 것이라면 방송 프로그램의 제목을 하이라이트시켜 출력하고, 사용자의 발화 의도가 특정 방송 프로그램의 시작시간을 문의하는 것이라면 프로그램 시작시간을 하이라이트시켜 출력할 수 있다.
예를 들어, 이후에 수집된 사용자의 음성이 "현재 방송 중인 프로그램의 종료시간이 언제야?"인 경우를 가정한다. 이 경우, 제어부(150)는 제2 서버(300)로부터 수신된 응답 메시지 정보에 기초하여 "문의하신 프로그램의 종료시간은 XX시 XX분입니다"라는 응답 메시지를 출력부(140)를 통해 텍스트로 출력하되, "XX시 XX분"를 하이라이트시켜 출력할 수 있다.
하지만, 이는 일 예에 불과하며 제어부(150)는 다양한 방식에 따라 기설정된 키워드를 다른 텍스트와 구분시킬 수 있다. 즉, 제어부(150)는 키워드를 다른 텍스트보다 크게 표시하거나, 색상을 변경하여 출력할 수도 있다.
한편, 상술한 실시 예에서는, 제2 서버(300)로부터 전송되는 응답 메시지 정보는 응답 메시지가 텍스트 형식으로 표현된 것으로 설명하였으나 이는 일 예에 불과하다. 즉, 응답 메시지 정보는, 디스플레이 장치(100)에서 출력되는 응답 메시지를 구성하는 음성 데이터 자체이거나, 해당 응답 메시지를 구성하는 음성 데이터의 일부이거나, 디스플레이 장치(100)에 기저장된 음성 또는 텍스트를 이용하여 해당 응답 메시지를 출력하기 위한 제어 신호의 형태가 될 수 있다.
이에 따라, 제어부(150)는 응답 메시지 정보의 형태를 고려하여, 응답 메시지를 출력할 수 있다. 구체적으로, 제어부(150)는 응답 메시지를 구성하는 음성 데이터 자체가 수신되면, 해당 데이터를 출력부(140)에서 출력가능한 형태로 처리하여 출력할 수 있다.
다른 한편, 제어부(150)는 응답 메시지를 출력하기 위한 제어 신호가 수신되면, 디스플레이 장치(100)에 기저장된 데이터들 중에서 제어 신호에 매칭되는 데이터를 검색하고, 검색된 음성 또는 텍스트 데이터를 출력가능한 형태로 처리하여 출력부(140)를 통해 출력할 수 있다. 이를 위해, 디스플레이 장치(100)는 기능 실행과 관련된 응답 메시지를 제공하기 위한 음성 또는 텍스트 데이터, 정보 제공 요청과 관련된 음성 또는 텍스트 데이터 등을 저장하고 있을 수 있다. 예를 들어, 디스플레이 장치(100)는 "채널 변경이 완료되었습니다"와 같은 완전한 문장 형태의 데이터를 저장하고 있을 수 있으며, 또한 "채널 ...번으로 변경하였습니다"와 같은 문장을 구성하는 일부 데이터를 저장하고 있을 수 있다. 이 경우, 해당 문장을 완성시키는 채널 명은 제2 서버(300)로부터 수신될 수 있다.
도 4는 도 3에 도시된 디스플레이 장치의 세부 구성을 설명하기 위한 블록도이다. 도 4에 따르면, 디스플레이 장치(100)는 도 3에 도시된 구성요소 외에 입력부(160), 저장부(170), 수신부(180) 및 신호 처리부(190)를 더 포함할 수 있다. 도 4에 도시된 구성요소들 중 도 3에 도시된 구성요소와 중복되는 구성요소들은 그 기능이 동일하므로 자세한 설명은 생략하도록 한다.
입력부(160)는 다양한 사용자 조작을 입력받아 제어부(150)로 전달하기 위한 입력 수단으로써, 입력 패널로 구현될 수 있다. 여기에서, 입력 패널은 터치패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen) 방식으로 이루어질 수 있다. 뿐만 아니라, 입력부(160)는 디스플레이 장치(100)를 제어하기 위한 리모컨에서 전송되는 리모컨 신호를 수신하기 위한 IR 수신부(미도시)로 구현될 수도 있다.
한편, 입력부(160)는 디스플레이 장치(100)의 기능을 제어하기 위한 각종 사용자 조작을 입력받을 수 있다. 예를 들어, 디스플레이 장치(100)가 스마트 TV로 구현되는 경우, 전원 온/오프, 채널 변경, 볼륨 변경 등 스마트 TV의 기능을 제어하기 위한 사용자 조작을 입력받을 수 있다. 이 경우, 제어부(150)는 입력부(160)를 통해 입력된 사용자 조작에 대응되는 각종 기능을 실행하도록 다른 구성요소를 제어할 수 있다. 예를 들어, 제어부(150)는 전원 오프 명령이 입력되면, 디스플레이 장치(100)의 각 구성요소에 공급되는 전원을 차단할 수 있으며, 채널 변경이 입력되면 사용자 조작에 따라 선택된 채널을 선국하도록 수신부(180)를 제어할 수 있다.
특히, 입력부(160)는 사용자의 음성을 수집하기 위한 음성 인식 모드를 개시하기 위한 사용자 조작을 입력받는다. 예를 들어, 입력부(160)는 디스플레이부와 함께 터치 스크린 형태로 구현되어, 음성 인식 모드를 입력받기 위한 오브젝트(가령, 아이콘)를 디스플레이할 수 있다. 다른 한편, 입력부(160)는 음성 인식 모드를 입력받기 위한 별도의 버튼을 구비할 수도 있다. 음성 인식 모드를 개시하기 위한 사용자 조작이 입력부(160)를 통해 입력되면, 제어부(150)는 음성 수집부(120)를 활성화하여 기설정된 거리 내에서 발화되는 사용자의 음성을 수집할 수 있다. 그리고, 제어부(150)는 제1 서버(200) 및 제2 서버(300)와 통신을 통해 수집된 사용자 음성에 대응되는 응답 정보를 수신하여, 응답 메시지를 출력하거나, 특정 기능을 실행하도록 제어할 수 있다.
저장부(170)는 디스플레이 장치(100)를 동작시키기 위해 필요한 각종 프로그램 등이 저장되는 저장매체로서, 메모리, HDD(Hard Disk Drive) 등으로 구현가능하다. 예를 들어, 저장부(170)는 제어부(150)의 동작 수행을 위한 프로그램을 저장하기 위한 ROM, 제어부(150)의 동작 수행에 따른 데이터를 일시적으로 저장하기 위한 RAM 등을 구비할 수 있다. 또한 각종 참조 데이터를 저장하기 위한 EEROM(Electrically Erasable and Programmable ROM) 등을 더 구비할 수 있다.
특히, 저장부(170)는 사용자의 음성에 대응되는 각종 응답 메시지를 음성 또는 텍스트 데이터로 기저장하고 있을 수 있다. 이에 따라, 제어부(150)는 제2 서버(300)로부터 수신되는 음성 메시지 정보(특히, 제어 신호)에 대응되는 음성 또는 텍스트 데이터를 저장부(170)로부터 독출하여 오디오 출력부(142) 또는 디스플레이부(141)로 출력할 수 있다. 이 경우, 제어부(150)는 음성 데이터에 대해 디코딩 등의 신호 처리를 수행하고 디코딩된 음성 데이터를 증폭하여 오디오 출력부(142)를 통해 출력할 수 있으며, 텍스트 데이터를 구성하는 텍스트가 포함되도록 UI 화면을 구성하여 디스플레이부(141)를 통해 출력할 수 있다. 비록, 상술한 실시 예에서는, 제어부(150)가 저장부(170)로부터 독출된 음성 및 텍스트 데이터에 대한 신호 처리를 수행하는 것으로 설명하였으나, 제어부(150)는 음성 및 텍스트 데이터에 대한 신호 처리를 수행하도록 신호 처리부(190)를 제어할 수도 있다.
수신부(180)는 다양한 컨텐츠를 수신한다. 구체적으로, 수신부(180)는 방송 네트워크를 이용하여 방송 프로그램 컨텐츠를 전송하는 방송국 또는 인터넷을 이용하여 컨텐츠 파일을 전송하는 웹 서버로부터 컨텐츠를 수신한다. 또한, 디스플레이 장치(100) 내에 마련되거나 디스플레이 장치(100)에 연결된 각종 기록 매체 재생 장치로부터 컨텐츠를 수신할 수도 있다. 기록 매체 재생 장치란 CD, DVD, 하드디스크, 블루레이 디스크, 메모리 카드, USB 메모리 등과 같은 다양한 유형의 기록 매체에 저장된 컨텐츠를 재생하는 장치를 의미한다.
방송국으로부터 컨텐츠를 수신하는 실시 예의 경우에는, 수신부(180)는 튜너(미도시), 복조기(미도시), 등화기(미도시) 등과 같은 구성을 포함하는 형태로 구현될 수 있다. 반면, 웹 서버와 같은 소스로부터 컨텐츠를 수신하는 실시 예의 경우에는, 수신부(180)는 네트워크 인터페이스 카드(미도시)로 구현될 수 있다. 또는, 상술한 각종 기록 매체 재생 장치로부터 컨텐츠를 수신하는 실시 예의 경우에는, 수신부(180)는 기록 매체 재생 장치와 연결된 인터페이스부(미도시)로 구현될 수 있다. 이와 같이, 수신부(180)는 실시 예에 따라 다양한 형태로 구현될 수 있다.
신호 처리부(190)는 수신부(180)를 통해 수신된 컨텐츠가 출력부(110)를 통해 출력될 수 있도록 컨텐츠에 대한 신호처리를 수행한다.
구체적으로, 신호 처리부(190)는 컨텐츠에 포함된 비디오 신호에 대해 디코딩, 스케일링 및 프레임 레이트 변환 등의 동작을 수행하여, 디스플레이부(111)에서 출력 가능한 형태로 비디오 신호를 변환할 수 있다. 또한, 신호 처리부(190)는 컨텐츠에 포함된 오디오 신호에 대해 디코딩 등의 신호 처리를 수행하여 오디오 출력부(112)에서 출력 가능한 형태로 오디오 신호를 변환할 수 있다.
도 5는 도 1에 도시된 제1 서버의 구성을 설명하기 위한 블록도이다. 도 5에 도시된 바와 같이, 제1 서버(200)는 통신부(210) 및 제어부(220)를 포함한다.
통신부(210)는 디스플레이 장치(100)와 통신을 수행한다. 구체적으로, 통신부(210)는 디스플레이 장치(100)로부터 사용자의 음성을 수신하고, 사용자 음성에 대응되는 텍스트 정보를 디스플레이 장치(100)로 전송할 수 있다. 이를 위해, 통신부(210)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다.
제어부(220)는 제1 서버(200)의 전반적인 동작을 제어한다. 특히, 제어부(220)는 디스플레이 장치(100)로부터 사용자의 음성이 수신되면, 사용자의 음성에 대응되는 텍스트 정보를 생성하고, 이를 디스플레이 장치(100)로 전송하도록 통신부(210)를 제어한다.
구체적으로, 제어부(220)는 STT(Speech to Text) 엔진을 이용하여, 사용자의 음성에 대응되는 텍스트 정보를 생성할 수 있다. 여기에서, STT 엔진은 음성 신호를 텍스트로 변환하기 위한 모듈로서, 종래 개시되어 있는 다양한 STT 알고리즘을 이용하여 사용자의 음성을 텍스트로 변환할 수 있다.
예를 들어, 제어부(220)는 수신된 음성 신호 내에서 사용자가 발화한 음성의 시작과 끝을 검출하여 음성 구간을 판단한다. 구체적으로, 제어부(220)는 수신된 음성 신호의 에너지를 계산하고, 계산된 에너지에 따라 음성 신호의 에너지 레벨을 분류하여, 동적 프로그래밍을 통해 음성 구간을 검출할 수 있다. 그리고, 제어부(220)은 검출된 음성 구간 내에서 음향 모델(Acoustic Model)을 기초로 음성의 최소 단위인 음소를 검출하여 음소 데이터를 생성하고, 생성된 음소 데이터에 HMM(Hidden Markov Model) 확률 모델을 적용하여 사용자의 음성을 텍스트로 변환할 수 있다.
도 6은 도 1에 도시된 제2 서버의 구성을 설명하기 위한 블록도이다. 도 6에 도시된 바와 같이, 제2 서버(300)는 통신부(310) 및 제어부(320)를 포함한다.
통신부(310)는 디스플레이 장치(100)에서 수집한 사용자의 음성에 대응되는 텍스트 정보를 수신한다. 그리고, 통신부(310) 텍스트 정보에 대응되는 응답 정보를 디스플레이 장치(100)로 전송할 수 있다.
이를 위해, 통신부(310)는 디스플레이 장치(100)와 통신을 수행하기 위한 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다.
또한, 통신부(310)는 인터넷 망을 통해 웹 서버(미도시)와 통신을 수행하여, 각종 검색 키워드를 웹 서버로 전송하고 그에 따른 웹 검색 결과를 수신할 수 있다. 여기에서, 검색 키워드란, 날씨 관련 키워드(가령, 지역명, 온도, 비 올 확률 등), 컨텐츠 관련 키워드(가령, 영화 제목, 영화 개봉일, 음악 제목, 가수 등) 등과 같이 웹 검색이 가능한 다양한 키워드를 포함할 수 있으며, 각종 검색 키워드는 제2 서버(300)에 기저장되어 있을 수 있다.
제어부(320)는 제2 서버(300)의 전반적인 동작을 제어한다. 특히, 제어부(320)는 수신된 텍스트 정보에 대응하는 응답 정보를 생성하고, 생성된 응답 정보를 통신부(310)를 통해 디스플레이 장치(100)로 전송하도록 제어한다. 구체적으로, 제어부(320)는 텍스트 정보를 분석하여 사용자의 음성에 포함된 발화 의도를 판단하고, 판단된 발화 의도에 대응되는 응답 정보를 디스플레이 장치(100)로 전송하도록 통신부(310)를 제어한다.
이를 위해, 제어부(320)는 수신된 텍스트에 매칭되는 대화 패턴이 존재하는 말뭉치(corpus) 데이터베이스를 검출하여, 사용자의 음성이 속하는 서비스 도메인을 판단할 수 있다. 여기에서, 말뭉치 데이터베이스는 서비스 도메인별로 구비되어, 각 서비스 도메인별 대화 패턴을 저장할 수 있다.
예를 들어, 제2 서버(300)가 방송 서비스 도메인에 대한 제1 말뭉치 데이터베이스 및 날씨 서비스 도메인에 대한 제2 말뭉치 데이터베이스를 구비한 경우를 가정한다. 이 경우, 제1 말뭉치 데이터베이스는 방송 서비스 도메인 내에서 발생할 수 있는 다양한 대화 패턴을 저장할 수 있다. 예를 들어, "프로그램 언제 시작해?"에 대한 답변으로 "어느 프로그램의 시작시간을 알고 싶습니까?"를 저장하고, "○○○(방송 프로그램명) 언제 시작해?"에 대한 답변으로 "문의하신 ○○○의 시작시간은 ... 입니다"를 저장할 수 있다. 또한, 제2 말뭉치 데이터베이스는 날씨 서비스 도메인 내에서 발생할 수 있는 대화 패턴을 저장할 수 있다. 예를 들어, "○○(지역명)의 날씨 어때?"에 대한 답변으로 "온도를 말씀드릴까요?"를 저장하고, "서울의 온도는 어때?"에 대한 답변으로 "문의하신 ○○의 온도는 ... 입니다"를 답변으로 저장할 수 있다.
이와 같은 경우, 제어부(320)는 디스플레이 장치(100)로부터 "프로그램 언제 시작해?"라는 텍스트가 수신되면 디스플레이 장치(100)에서 수집한 사용자의 음성이 방송 서비스 도메인에 속하는 것으로 판단하고, 디스플레이 장치(100)로부터 "○○(지역명)의 날씨 어때?"라는 텍스트가 수신되면 디스플레이 장치(100)에서 수집한 사용자의 음성이 날씨 서비스 도메인에 속하는 것으로 판단할 수 있다.
이후, 제어부(320)는 사용자의 음성이 속하는 서비스 도메인에 기초하여, 사용자의 음성으로부터 화행(dialogue act), 주행(main action) 및 구성요소(component slot)를 추출한다. 예를 들어, 제어부(320)는 사용자의 음성에서 MaxEnt(Maximum Entropy Classifier)를 이용하여 화행, 주행을 추출하고, CRF(Conditional Random Field)를 이용하여 구성요소를 추출할 수 있다. 하지만, 이에 한정되는 것은 아니며 이미 공지된 다양한 방식을 통해 화행, 주행 및 구성요소를 추출할 수 있다.
여기에서, 화행은 문장의 형태와 관련된 분류 기준으로, 해당 문장이 서술문(Statement), 요청문(Request), Why 의문문(WH-Question) 또는 Yes-No 의문문(YN-Question)인지를 나타내는 것이다. 주행은 해당 발화가 특정 도메인에서 대화를 통해 원하는 행위를 나타내는 의미적 정보이다. 예를 들어, 방송 서비스 도메인에서, 주행은 TV 온/오프, 프로그램 찾기, 프로그램 시간 찾기, 프로그램 예약 등을 포함할 수 있다. 구성요소는 발화에 나타나는 특정 도메인에 대한 개체 정보즉, 특정 도메인에서 의도하는 행동의 의미를 구체화하기 위해서 부가되는 정보이다. 예를 들어, 방송 서비스 도메인에서 구성요소는 장르, 프로그램명, 시작시간, 채널명, 배우 이름 등을 포함할 수 있다.
또한, 제어부(320)는 추출된 화행, 주행 및 구성요소를 이용하여 사용자의 음성에 포함된 발화 의도를 판단하고, 판단된 발화 의도에 대응되는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다.
여기에서, 응답 정보는, 사용자의 음성에 대응되는 응답 메시지 정보를 포함한다. 응답 메시지 정보는, 사용자의 음성에 대해 디스플레이 장치(100)에서 출력되는 응답 메시지가 텍스트 형식으로 표현된 것으로, 디스플레이 장치(100)는 서버(200)로부터 수신된 응답 메시지 정보에 기초하여 사용자의 음성에 대응되는 응답 메시지를 출력할 수 있다.
구체적으로, 제어부(320)는 판단된 발화 의도에 대한 답변을 말뭉치 데이터베이스에서 추출하고, 추출된 답변을 텍스트로 변환하여 응답 메시지 정보를 생성할 수 있다.
예를 들어, 텍스트로 변환된 "○○○(방송프로그램명)를 언제 해?"라는 사용자의 음성이 디스플레이 장치(100)로부터 수신된 경우를 가정한다. 이 경우, 제어부(320)는 사용자의 음성과 매칭되는 대화 패턴이 존재하는 말뭉치 데이터베이스를 검색하여, "○○○를 언제 해?"라는 사용자의 음성이 방송 서비스 도메인에 포함되는 것으로 판단할 수 있다.
그리고, 제어부(320)는 화행을 통해 해당 음성의 문장 형태가 "의문형"인 것으로 판단하고, 주행 및 핵심 요소를 통해 "○○○"에 대한 "프로그램 시작시간"을 알기 원하는 것으로 판단한다. 결과적으로, 제어부(320)는 사용자 음성에 포함된 발화 의도는 "○○○"에 대해 "프로그램 시작시간"을 "문의"하는 것으로 판단할 수 있다.
이후, 제어부(320)는 "○○○"에 대해 "프로그램 시작시간"을 "문의"하는 발화 의도에 대해 "문의하신 ○○○의 시작시간은 ... 입니다"라는 답변을 방송 서비스 도메인의 말뭉치 데이터베이스에서 추출한다. 이 경우, 제어부(230)는 EPG(Electronic Program Guide) 정보를 이용하여 "○○○"에 대한 방송 시작시간을 검색하고, "문의하신 ○○○의 시작시간은 토요일 7시입니다"라는 응답 메시지 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다.
다른 예로, 텍스트로 변환된 "서울의 온도는 어때?"라는 사용자의 음성이 디스플레이 장치(100)로부터 수신된 경우를 가정한다. 이 경우, 제어부(320)는 사용자의 음성과 매칭되는 대화 패턴이 존재하는 말뭉치 데이터베이스를 검색하여, "서울의 온도는 어때?"라는 사용자의 음성이 날씨 서비스 도메인에 포함되는 것으로 판단할 수 있다.
그리고, 제어부(320)는 화행을 통해 해당 음성의 문장 형태가 "의문형"인 것으로 판단하고, 주행 및 핵심 요소를 통해 "서울"에 대한 "날씨"를 알기 원하는 것으로 판단한다. 결과적으로, 제어부(320)는 사용자 음성에 포함된 발화 의도는 "서울"에 대해 "날씨"를 "문의"하는 것으로 판단할 수 있다.
이후, 제어부(320)는 "서울"에 대해 "날씨"를 "문의"하는 발화 의도에 대해 "문의하신 서울의 온도는 ... 입니다"라는 답변을 날씨 서비스 도메인의 말뭉치 데이터베이스에서 추출한다. 이 경우, 제어부(320)는 사용자의 음성으로부터 기저장된 키워드를 검출하고, 검출된 키워드를 웹 서버로 전송하도록 통신부(310)를 제어하여 해당 키워드와 관련된 검색 정보를 수신할 수 있다. 즉, 제어부(320)는 사용자의 음서에서 "서울", "온도"를 키워드로 추출하여 이를 웹 서버로 전송하고, 서울의 온도에 대한 검색 결과를 웹 서버로부터 수신하여 "문의하신 서울의 온도는 23℃ 입니다"라는 응답 메시지 정보를 디스플레이 장치(100)로 전송할 수 있다.
한편, 디스플레이 장치(100)에서 응답 메시지의 일부 문장 데이터를 저장하고 있는 경우, 제어부(320)는 해당 문장을 완성시키기 위한 일부 텍스트를 디스플레이 장치(100)로 전송할 수 있다.
예를 들어, 텍스트로 변환된 "○번으로 채널을 변경해줘"라는 사용자의 음성이 디스플레이 장치(100)로부터 수신된 경우를 가정한다. 이 경우, 제어부(320)는 해당 음성에 대한 발화 의도가 "○번"으로의 "채널 변경"을 "요청"하는 것으로 판단할 수 있다.
이에 따라, 제어부(320)는 디스플레이 장치(100)에서 "○번"으로의 채널 변경을 수행하기 위한 제어 명령을 생성하여 디스플레이 장치(100)로 전송할 수 있다. 이때, 디스플레이 장치(100)에서 "채널을 ..번으로 변경하였습니다"와 같은 텍스트 데이터를 저장하고 있는 경우, 제어부(320)는 "○번"을 응답 메시지 정보로 생성하여 디스플레이 장치(100)로 전송하여, 디스플레이 장치(100)에서 "채널을 ○번으로 변경하였습니다"라는 응답 메시지가 출력되도록 제어할 수 있다. 이 경우, 제어부(320)는 디스플레이 장치(100)에 기저장된 음성 데이터를 출력하기 위한 별도의 제어 신호를 디스플레이 장치(100)로 전송할 수 있다.
또한, 응답 정보는, 디스플레이 장치(100)의 기능을 제어하기 위한 제어 명령을 더 포함할 수 있다. 즉, 제어부(320)는 사용자의 발화 의도에 대응되는 기능이 디스플레이 장치(100)에서 수행되도록 하기 위한 제어 명령을 생성할 수 있다.
이를 위해, 제2 서버(300)는 사용자의 발화 의도에 대응되는 제어 명령을 기저장하고 있을 수 있다. 예를 들어, 사용자의 발화 의도가 채널 변경인 경우 디스플레이 장치(100)의 채널을 변경하기 위한 제어 명령을 매칭시켜 저장하고, 사용자의 발화 의도가 예약 녹화인 경우 디스플레이 장치(100)에서 특정 프로그램에 대한 예약 녹화 기능을 실행시키기 위한 제어 명령을 매칭시켜 저장하고 있을 수 있다.
예를 들어, 텍스트로 변환된 "○○○(방송 프로그램명)를 예약해줘"라는 사용자 음성이 디스플레이 장치(100)로부터 수신된 경우를 가정한다. 이 경우, 제어부(320)는 사용자의 음성과 매칭되는 대화 패턴이 존재하는 말뭉치 데이터베이스를 검색하여, "○○○를 예약해줘"라는 사용자의 음성이 방송 서비스 도메인에 포함되는 것으로 판단할 수 있다.
그리고, 제어부(320)는 화행을 통해 해당 음성이 "요청"과 관련된 문장 형태인 것으로 판단하고, 주행 및 핵심 요소를 통해 "○○○"에 대한 "프로그램 예약"을 원하는 것으로 판단한다. 결과적으로, 제어부(320)는 사용자 음성에 포함된 발화 의도는 "○○○"에 대해 "프로그램 예약"을 "요청"하는 것으로 판단할 수 있다.
이후, 제어부(320)는 "○○○"에 대해 "프로그램 예약"을 "요청"하는 발화 의도에 대응되는 제어 명령을 검출하여, 디스플레이 장치(100)에서 "○○○"의 예약 녹화 기능을 수행하기 위한 제어 명령을 생성할 수 있다. 이 경우, 제어부(320)는 "○○○"에 대해 "프로그램 예약"을 "요청"하는 발화 의도에 대해 "요청하신 프로그램의 녹화가 예약되었습니다"라는 응답 메시지 정보를 방송 서비스 도메인의 말뭉치 데이터베이스에서 추출하여, 디스플레이 장치(100)로 함께 전송할 수 있다.
한편, 제어부(320)는 현재 수신된 사용자의 음성에 포함된 사용자의 발화 의도를 판단할 수 없는 경우, 이전에 수신된 사용자의 음성에 참조하여, 현재 수신된 사용자의 음성에 포함된 사용자의 발화 의도를 판단할 수 있다. 즉, 제어부(320)는 현재 수신된 사용자의 음성을 말뭉치 데이터베이스에 저장된 대화 패턴과 비교하여 현재 수신된 사용자의 음성이 대화 패턴에서 최초 사용자 발화에 해당하는지 여부를 판단하고, 최초 사용자 발화에 해당하지 않는 것으로 판단되면 이전에 수신된 사용자의 음성을 참조하여 현재 수신된 사용자의 음성에 포함된 사용자의 발화 의도를 판단할 수 있다.
예를 들어, "○○○(방송 프로그램명) 언제 해?"라는 사용자 음성이 입력된 후, "언제 한다고?"라는 사용자 음성이 입력된 경우를 가정한다. 이 경우, 제어부(320)는 "언제 한다고?"라는 사용자 음성이 방송 서비스 도메인 내에서 최초 사용자 발화에 해당되지 않는 것으로 판단되면, 이전에 수신된 "○○○ 언제 해?"라는 사용자 음성에 기초하여, "언제 한다고?"의 발화 의도를 판단하게 된다.
즉, 제어부(320)는 구성요소를 추출할 수 없는 "언제 한다고?"라는 사용자 음성의 발화 의도를 판단하기 위해 이전에 수신된 사용자 음성에 포함된 "○○○"를 이용하여 "언제 한다고?"의 발화 의도를 "○○○"에 대한 "프로그램 시작시간"를 "문의"하는 것으로 판단할 수 있다.
한편, 제어부(320)는 제1 및 제2 텍스트 정보에 포함된 발화 의도가 동일한 경우, 제2 텍스트 정보에 대응되는 응답 정보를, 제1 텍스트 정보에 대응되는 응답 정보와 차별화되도록 생성하여 디스플레이 장치(100)로 전송할 수 있다.
즉, 제어부(320)는 디스플레이 장치(100)로부터 수신된 텍스트 정보에 대응되는 응답 정보를 생성하여 디스플레이 장치(100)로 전송한 후, 이전에 수신된 텍스트 정보와 동일한 발화 의도를 갖는 텍스트 정보가 수신되면, 이전에 수신된 텍스트 정보와는 차별화되도록 현재 수신된 텍스트 정보에 대응되는 응답 정보를 생성할 수 있다.
구체적으로, 제어부(320)는 동일한 발화 의도를 포함하는 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 디스플레이 장치(100)에서 음성 또는 텍스트로 응답 메시지를 출력하도록 제1 텍스트 정보에 대응되는 응답 정보를 생성하고, 디스플레이 장치(100)에서 음성 및 텍스트로 응답 메시지를 출력하도록 제2 텍스트 정보에 대응되는 응답 정보를 생성할 수 있다.
이를 위해, 제어부(320)는 제2 텍스트 정보에 대응되는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 때, 디스플레이 장치(100)에서 음성 및 텍스트 모두로 응답 메시지를 출력하도록 하는 제어 명령을 생성하여 디스플레이 장치(100)로 전송할 수 있다.
또한, 제어부(320)는 동일한 발화 의도를 포함하는 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 디스플레이 장치(100)에서 출력되는 컨텐츠에 대한 오디오 볼륨이 응답 메시지로 출력되는 음성에 대한 볼륨보다 상대적으로 낮게 출력되도록 제2 텍스트 정보에 대응되는 응답 정보를 생성할 수 있다.
이를 위해, 제어부(320)는 제2 텍스트 정보에 대응되는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 때, 디스플레이 장치(100)에서 컨텐츠의 오디오 볼륨을 기설정된 레벨로 낮추거나, 응답 메시지로 출력되는 음성의 볼륨을 기설정된 레벨로 높이기 위한 제어 명령을 생성하여 디스플레이 장치(100)로 전송할 수 있다. 또한, 제어부(320)는 디스플레이 장치(100)에서 컨텐츠의 볼륨을 기설정된 레벨로 낮추고, 컨텐츠의 오디오 볼륨보다 기설정된 레벨만큼 높은 레벨로 응답 메시지로 출력되는 음성의 불륨을 조정하기 위한 제어 명령을 생성하여 디스플레이 장치(100)로 전송할 수도 있다.
또한, 제어부(320)는 동일한 발화 의도를 포함하는 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 디스플레이 장치(100)에서 텍스트로 응답 메시지를 출력하도록 제1 텍스트 정보에 대응되는 응답 정보를 생성하고, 디스플레이 장치(100)에서 기설정된 키워드가 하이라이트된 텍스트로 응답 메시지를 출력하도록 제2 텍스트에 대응되는 응답 정보를 생성할 수 있다.
이를 위해, 제어부(320)는 디스플레이 장치(100)에서 제2 텍스트 정보에 대응되는 응답 메시지 출력 시, 응답 메시지 정보를 구성하는 텍스트에서 발화 의도에 대한 핵심 답변이 되는 키워드, 즉 사용자의 발화 의도에 대응하여 검색된 정보를 하이라이트시켜 출력하기 위한 제어 명령을 생성하여 디스플레이 장치(100)로 전송할 수 있다.
예를 들어, 제어부(320)는 텍스트 정보에 포함된 사용자의 발화 의도가 "○○○"에 대해 "프로그램 시작시간"을 "문의"하는 것인 경우, 제어부(320)는 "토요일 7시에 시작합니다"를 텍스트 형식으로 디스플레이 장치(100)로 전송한다. 이때, 제어부(320)는 사용자의 발화 의도에 대한 핵심 답변이 되는 "토요일 7시"를 하이라이트시키기 위한 제어 명령을 디스플레이 장치(100)로 함께 전송할 수 있다.
도 7은 도 6에 도시된 제2 서버의 세부구성을 설명하기 위한 블록도이다. 도 7에 따르면, 제2 서버(300)는 도 6에 도시된 구성요소 외에 저장부(330)를 더 포함할 수 있다. 도 7에 도시된 구성요소들 중 도 6에 도시된 구성요소와 중복되는 구성요소들은 그 기능이 동일하므로 자세한 설명은 생략하도록 한다.
저장부(330)는 응답 정보를 생성하기 위한 다양한 정보를 저장한다. 구체적으로, 저장부(330)는 각 서비스 도메인별 말뭉치 데이터베이스를 구비하여, 서비스 도메인별 대화 패턴을 저장할 수 있다. 또한, 저장부(330)는 사용자의 발화 의도별로 제어 명령을 매칭시켜 저장하고 있을 수 있다.
한편, 도 1 내지 도 7에서 제1 서버(200)와 제2 서버(300)가 별도로 구현되는 것으로 도시하였으나 이는 일 예에 불과하다. 즉, 제1 서버(200)와 제2 서버(300)는 하나의 서버로 구현될 수도 있다. 이 경우, 디스플레이 장치(100)는 사용자의 음성에 대응되는 텍스트 정보를 수신하지 않으며, 하나로 구현된 서버(미도시)에서 사용자의 음성을 텍스트로 변환하고, 변환된 텍스트에 기초하여 사용자의 음성에 대응되는 응답 정보를 생성하여 디스플레이 장치(100)로 전송할 수 있다.
도 8 내지 도 10은 본 발명의 일 실시 예에 따른 대화형 시스템의 동작을 설명하기 위한 도면들이다.
예를 들어, 도 8의 (a)와 같이, 방송 프로그램을 시청하던 사용자(620)가 "○○○(방송 프로그램명) 언제 방송해?"라고 발화한 경우를 가정한다. 이 경우, 디스플레이 장치(610)는 제1 및 제2 서버(미도시)와의 연동을 통해 수집된 "○○○ 언제 방송해?"에 대응되는 응답 메시지를 음성으로 출력할 수 있다. 즉, 도 8의 (a)와 같이, 디스플레이 장치(610)는 제2 서버로부터 응답 메시지 정보를 수신하여, "○○○ 언제 방송해?"라는 사용자의 음성에 대해 "화요일 저녁 6시에 합니다"라는 응답 메시지를 음성으로 출력할 수 있다.
이후, 동일한 발화 의도를 갖는 사용자의 음성이 재차 수신된 경우, 디스플레이 장치(610)는 이전에 수신된 사용자의 음성에 대한 응답 메시지와 차별화되도록, 현재 수신된 사용자의 음성에 대한 응답 메시지를 음성 및 텍스트로 출력할 수 있다. 예를 들어, 도 8의 (b)와 같이, 디스플레이 장치(610)가 "○○○ 언제 방송해?"라는 사용자(620)의 음성을 재차 수신한 경우, 디스플레이 장치(610)는 제2 서버로부터 수신된 응답 정보에 기초하여, 재차 수신된 "○○○ 언제 방송해?"에 대한 답변으로 "화요일 저녁 6시에 합니다"를 음성 및 텍스트로 출력할 수 있다.
다른 한편, 도 9의 (a)에 도시된 바와 같이, 방송 프로그램을 시청하던 사용자(720)가 "○○○(방송 프로그램명) 언제 방송해?"라고 발화한 경우를 가정한다. 이 경우, 디스플레이 장치(710)는 제1 및 제2 서버(미도시)와의 연동을 통해 수집된 "○○○ 언제 방송해?"에 대응되는 응답 메시지를 음성으로 출력할 수 있다. 즉, 도 9의 (a)와 같이, 디스플레이 장치(710)는 제2 서버로부터 응답 메시지 정보를 수신하여, "○○○ 언제 방송해?"에 대한 사용자의 음성에 대해 "화요일 저녁 6시에 합니다"라는 응답 메시지를 음성으로 출력할 수 있다.
이후, 동일한 발화 의도를 갖는 사용자의 음성이 재차 수신된 경우, 디스플레이 장치(710)는 이전에 수신된 사용자의 음성에 대한 응답 메시지와 차별화되도록, 디스플레이 장치(710)에서 출력되는 오디오의 볼륨을 조절할 수 있다. 예를 들어, 도 9의 (b)와 같이, 디스플레이 장치(710)가 "○○○ 언제 방송해?"라는 사용자(720)의 음성을 재차 수신한 경우, 디스플레이 장치(710)는 서버로부터 수신된 응답 정보에 기초하여, 방송 프로그램의 오디오인 "부웅~"의 볼륨을 낮추고, 음성으로 출력되는 응답 메시지인 "화요일 저녁 6시에 합니다"의 볼륨을 방송 프로그램의 오디오보다 높여 출력할 수 있다. 하지만, 이는 일 예일 뿐, 디스플레이 장치(710)는 프로그램의 오디오인 "부웅~"의 볼륨만을 기설정된 레벨로 낮추거나, 응답 메시지인 "화요일 저녁 6시에 합니다"의 볼륨을 기설정된 레벨로 높일 수도 있다.
또 다른 한편, 도 10의 (a)에 도시된 바와 같이, 방송 프로그램을 시청하던 사용자(820)가 "○○○(방송 프로그램명) 언제 방송해?"라고 발화한 경우를 가정한다. 이 경우, 디스플레이 장치(810)는 제1 및 제2 서버(미도시)와의 연동을 통해 수집된 "○○○ 언제 방송해?"에 대응되는 응답 메시지를 텍스트로 출력할 수 있다. 즉, 도 10의 (a)와 같이, 디스플레이 장치(710)는 제2 서버로부터 응답 메시지 정보를 수신하여, "○○○ 언제 방송해?"에 대한 사용자의 음성에 대해 "화요일 저녁 6시에 합니다"라는 응답 메시지를 텍스트로 출력할 수 있다.
이후, 동일한 발화 의도를 갖는 사용자의 음성이 재차 수신된 경우, 디스플레이 장치(810)는 이전에 수신된 사용자의 음성에 대한 응답 메시지와 차별화되도록, 현재 수신되는 사용자의 음성에 따라 출력되는 텍스트에서 기설정된 키워드의 표시 형태를 변경하여 출력할 수 있다. 예를 들어, 도 10의 (b)와 같이, 디스플레이 장치(810)가 "○○○ 언제 방송해?"라는 사용자(820)의 음성을 재차 수신한 경우, 디스플레이 장치(810)는 제2 서버로부터 수신된 응답 정보에 기초하여 출력되는 "화요일 저녁 6시에 합니다"에서 "화요일 저녁 6시"를 하이라이트시킬 수 있다. 비록, 상술한 도면에서는 기설정되 키워드가 하이라이트되는 것으로 설명하였으나 이는 일 예에 불과하다. 즉, 디스플레이 장치(810)는 상술한 도 10의 (b)에서 "화요일 저녁 6시"를 다른 텍스트보다 크게 표시하거나, 색상을 변경하여 출력할 수도 있다.
도 11은 본 발명의 일 실시 예에 따른 디스플레이 장치의 제어 방법을 설명하기 위한 흐름도이다.
먼저, 사용자의 음성을 수집한다(S910). 구체적으로, 디스플레이 장치와 일체형을 이루거나 분리된 형태의 마이크를 통해, 사용자의 음성을 수집할 수 있다.
이어서, 사용자의 음성을 제1 서버로 전송하고, 제1 서버로부터 사용자의 음성에 대응되는 텍스트 정보를 수신한다(S920). 그리고, 수신된 텍스트 정보를 제2 서버로 전송하고, 텍스트 정보에 대응되는 응답 정보를 수신한다(S930). 즉, 제2 서버는, 텍스트 정보를 분석하여 사용자의 음성에 포함된 발화 의도를 판단하고, 판단된 발화 의도에 대응되는 응답 정보를 디스플레이 장치로 전송할 수 있다.
한편, 동일한 발화 의도를 갖는 사용자의 음성이 재차 수신되면, 응답 정보에 기초하여 이전에 수집된 사용자의 음성에 대응되는 응답 메시지와 차별화된 응답 메시지를 출력한다(S940).
구체적으로, 제2 서버는 연속적으로 수신된 제1 및 제2 텍스트 정보에 포함된 발화 의도가 동일한 경우, 제1 텍스트 정보에 대응되는 응답 정보와 차별화되도록 제2 텍스트 정보에 대응되는 응답 정보를 생성하여 디스플레이 장치로 전송할 수 있다.
이에 따라, 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 재차 수신된 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트로 출력할 수 있다. 또한, 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 디스플레이 장치에서 출력되는 컨텐츠에 대한 오디오 볼륨을 응답 메시지로 출력되는 음성에 대한 볼륨보다 상대적으로 낮게 출력할 수 있다. 그리고, 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 재차 수신된 사용자의 음성에 대응되는 응답 메시지를 기설정된 키워드가 하이라이트된 텍스트로 출력할 수 있다.
도 12는 본 발명의 일 실시 예에 따른 디스플레이 장치와 연동하는 서버의 제어 방법을 설명하기 위한 흐름도이다.
먼저, 디스플레이 장치에서 수집한 사용자의 음성에 대응되는 텍스트 정보를 수신한다(S1010).
이후, 텍스트 정보를 분석하여 사용자의 음성에 포함된 발화 의도를 판단한다(S1020). 이 경우, 디스플레이 장치는, 응답 정보에 기초하여 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트 중 적어도 하나로 출력할 수 있다.
이때, 제1 및 제2 텍스트 정보에 포함된 발화 의도가 동일한 경우, 제2 텍스트 정보에 대응되는 응답 정보를, 제1 텍스트 정보에 대응되는 응답 정보와 차별화되도록 생성하여 디스플레이 장치로 전송한다(S1030).
구체적으로, 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 디스플레이 장치에서 음성 또는 텍스트로 응답 메시지를 출력하도록 제1 텍스트 정보에 대응되는 응답 정보를 생성하고, 디스플레이 장치에서 음성 및 텍스트로 응답 메시지를 출력하도록 제2 텍스트 정보에 대응되는 응답 정보를 생성할 수 있다.
또한, 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 디스플레이 장치에서 출력되는 컨텐츠에 대한 오디오 볼륨이 응답 메시지로 출력되는 음성에 대한 볼륨보다 상대적으로 낮게 출력되도록 제2 텍스트 정보에 대응되는 응답 정보를 생성할 수도 있다.
그리고, 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 디스플레이 장치에서 텍스트로 응답 메시지를 출력하도록 제1 텍스트 정보에 대응되는 응답 정보를 생성하고, 디스플레이 장치에서 기설정된 키워드가 하이라이트된 텍스트로 응답 메시지를 출력하도록 제2 텍스트 정보에 대응되는 응답 정보를 생성할 수도 있다.
또한, 본 발명에 따른 디스플레이 장치 및 서버의 제어 방법을 순차적으로 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 디스플레이 장치 및 서버에 대해 도시한 상술한 블록도에서는 버스(bus)를 미도시하였으나, 디스플레이 장치 및 서버에서 각 구성요소 간의 통신은 버스를 통해 이루어질 수도 있다. 또한, 각 디바이스에는 상술한 다양한 단계를 수행하는 CPU, 마이크로 프로세서 등과 같은 프로세서가 더 포함될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 디스플레이 장치 110 : 음성 수집부
120 : 제1 통신부 130 : 제2 통신부
140 : 출력부 150 : 제어부

Claims (22)

  1. 디스플레이 장치에 있어서,
    사용자의 음성을 수집하는 음성 수집부;
    상기 사용자의 음성을 제1 서버로 전송하고, 상기 제1 서버로부터 상기 사용자의 음성에 대응되는 텍스트 정보를 수신하는 제1 통신부;
    상기 수신된 텍스트 정보를 제2 서버로 전송하고, 상기 텍스트 정보에 대응되는 응답 정보를 수신하는 제2 통신부;
    상기 응답 정보에 기초하여 상기 사용자의 음성에 대응되는 응답 메시지를 출력하는 출력부; 및,
    동일한 발화 의도를 갖는 사용자의 음성이 재차 수집된 경우, 이전에 수집된 사용자의 음성에 대응되는 응답 메시지와 차별화된 응답 메시지를 출력하도록 상기 출력부를 제어하는 제어부;를 포함하는 디스플레이 장치.
  2. 제1항에 있어서,
    상기 제2 서버는,
    상기 텍스트 정보를 분석하여 사용자의 음성에 포함된 발화 의도를 판단하고, 상기 판단된 발화 의도에 대응되는 응답 정보를 상기 디스플레이 장치로 전송하는 것을 특징으로 하는 디스플레이 장치.
  3. 제2항에 있어서,
    상기 제2 서버는,
    연속적으로 수신된 제1 및 제2 텍스트 정보에 포함된 발화 의도가 동일한 경우, 제1 텍스트 정보에 대응되는 응답 정보와 차별화되도록 제2 텍스트 정보에 대응되는 응답 정보를 생성하여 상기 디스플레이 장치로 전송하는 것을 특징으로 하는 디스플레이 장치.
  4. 제3항에 있어서,
    상기 제어부는,
    상기 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 재차 수신된 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트로 상기 출력부를 통해 출력하는 것을 특징으로 하는 디스플레이 장치.
  5. 제3항에 있어서,
    상기 제어부는,
    상기 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 상기 디스플레이 장치에서 출력되는 컨텐츠에 대한 오디오 볼륨을 상기 응답 메시지로 출력되는 음성에 대한 볼륨보다 상대적으로 낮게 출력하도록 상기 출력부를 제어하는 것을 특징으로 하는 디스플레이 장치.
  6. 제3항에 있어서,
    상기 제어부는,
    상기 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 재차 수신된 사용자의 음성에 대응되는 응답 메시지를 기설정된 키워드가 하이라이트된 텍스트로 상기 출력부를 통해 출력하는 것을 특징으로 하는 디스플레이 장치.
  7. 디스플레이 장치와 연동하는 서버에 있어서,
    상기 디스플레이 장치에서 수집한 사용자의 음성에 대응되는 텍스트 정보를 수신하는 통신부; 및,
    상기 텍스트 정보를 분석하여 상기 사용자의 음성에 포함된 발화 의도를 판단하고, 상기 판단된 발화 의도에 대응되는 응답 정보를 상기 디스플레이 장치로 전송하도록 상기 통신부를 제어하는 제어부;를 포함하며,
    상기 제어부는,
    제1 및 제2 텍스트 정보에 포함된 발화 의도가 동일한 경우, 상기 제2 텍스트 정보에 대응되는 응답 정보를, 상기 제1 텍스트 정보에 대응되는 응답 정보와 차별화되도록 생성하여 상기 디스플레이 장치로 전송하는, 서버.
  8. 제7항에 있어서,
    상기 디스플레이 장치는,
    상기 응답 정보에 기초하여 상기 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트 중 적어도 하나로 출력하는 것을 특징으로 하는 서버.
  9. 제8항에 있어서,
    상기 제어부는,
    상기 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 상기 디스플레이 장치에서 음성 또는 텍스트로 상기 응답 메시지를 출력하도록 상기 제1 텍스트 정보에 대응되는 응답 정보를 생성하고, 상기 디스플레이 장치에서 음성 및 텍스트로 상기 응답 메시지를 출력하도록 상기 제2 텍스트 정보에 대응되는 응답 정보를 생성하는 것을 특징으로 하는 서버.
  10. 제8항에 있어서,
    상기 제어부는,
    상기 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 상기 디스플레이 장치에서 출력되는 컨텐츠에 대한 오디오 볼륨이 상기 응답 메시지로 출력되는 음성에 대한 볼륨보다 상대적으로 낮게 출력되도록 상기 제2 텍스트 정보에 대응되는 응답 정보를 생성하는 것을 특징으로 하는 서버.
  11. 제8항에 있어서,
    상기 제어부는,
    상기 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 상기 디스플레이 장치에서 텍스트로 상기 응답 메시지를 출력하도록 상기 제1 텍스트 정보에 대응되는 응답 정보를 생성하고, 상기 디스플레이 장치에서 기설정된 키워드가 하이라이트된 텍스트로 상기 응답 메시지를 출력하도록 상기 제2 텍스트 정보에 대응되는 응답 정보를 생성하는 것을 특징으로 하는 서버.
  12. 디스플레이 장치의 제어 방법에 있어서,
    사용자의 음성을 수집하는 단계;
    상기 사용자의 음성을 제1 서버로 전송하고, 상기 제1 서버로부터 상기 사용자의 음성에 대응되는 텍스트 정보를 수신하는 단계;
    상기 수신된 텍스트 정보를 제2 서버로 전송하고, 상기 텍스트 정보에 대응되는 응답 정보를 수신하는 단계; 및,
    동일한 발화 의도를 갖는 사용자의 음성이 재차 수집된 경우, 상기 응답 정보에 기초하여 이전에 수집된 사용자의 음성에 대응되는 응답 메시지와 차별화된 응답 메시지를 출력하는 출력단계;를 포함하는 제어 방법.
  13. 제12항에 있어서,
    상기 제2 서버는,
    상기 텍스트 정보를 분석하여 사용자의 음성에 포함된 발화 의도를 판단하고, 상기 판단된 발화 의도에 대응되는 응답 정보를 상기 디스플레이 장치로 전송하는 것을 특징으로 하는 제어 방법.
  14. 제13항에 있어서,
    상기 제2 서버는,
    연속적으로 수신된 제1 및 제2 텍스트 정보에 포함된 발화 의도가 동일한 경우, 제1 텍스트 정보에 대응되는 응답 정보와 차별화되도록 제2 텍스트 정보에 대응되는 응답 정보를 생성하여 상기 디스플레이 장치로 전송하는 것을 특징으로 하는 제어 방법.
  15. 제14항에 있어서,
    상기 출력단계는,
    상기 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 재차 수신된 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트로 출력하는 것을 특징으로 하는 제어 방법.
  16. 제14항에 있어서,
    상기 출력단계는,
    상기 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 상기 디스플레이 장치에서 출력되는 컨텐츠에 대한 오디오 볼륨을 상기 응답 메시지로 출력되는 음성에 대한 볼륨보다 상대적으로 낮게 출력하는 것을 특징으로 하는 제어 방법.
  17. 제14항에 있어서,
    상기 출력단계는,
    상기 제2 텍스트 정보에 대응되는 응답 정보에 기초하여, 재차 수신된 사용자의 음성에 대응되는 응답 메시지를 기설정된 키워드가 하이라이트된 텍스트로 출력하는 것을 특징으로 하는 제어 방법.
  18. 디스플레이 장치와 연동하는 서버의 제어 방법에 있어서,
    상기 디스플레이 장치에서 수집한 사용자의 음성에 대응되는 텍스트 정보를 수신하는 단계;
    상기 텍스트 정보를 분석하여 상기 사용자의 음성에 포함된 발화 의도를 판단하는 단계; 및,
    제1 및 제2 텍스트 정보에 포함된 발화 의도가 동일한 경우, 상기 제2 텍스트 정보에 대응되는 응답 정보를, 상기 제1 텍스트 정보에 대응되는 응답 정보와 차별화되도록 생성하여 상기 디스플레이 장치로 전송하는 단계;를 포함하는 제어 방법.
  19. 제18항에 있어서,
    상기 디스플레이 장치는,
    상기 응답 정보에 기초하여 상기 사용자의 음성에 대응되는 응답 메시지를 음성 및 텍스트 중 적어도 하나로 출력하는 것을 특징으로 하는 제어 방법.
  20. 제19항에 있어서,
    상기 전송하는 단계는,
    상기 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 상기 디스플레이 장치에서 음성 또는 텍스트로 상기 응답 메시지를 출력하도록 상기 제1 텍스트 정보에 대응되는 응답 정보를 생성하고, 상기 디스플레이 장치에서 음성 및 텍스트로 상기 응답 메시지를 출력하도록 상기 제2 텍스트 정보에 대응되는 응답 정보를 생성하는 것을 특징으로 하는 제어 방법.
  21. 제19항에 있어서,
    상기 전송하는 단계는,
    상기 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 상기 디스플레이 장치에서 출력되는 컨텐츠에 대한 오디오 볼륨이 상기 응답 메시지로 출력되는 음성에 대한 볼륨보다 상대적으로 낮게 출력되도록 상기 제2 텍스트 정보에 대응되는 응답 정보를 생성하는 것을 특징으로 하는 제어 방법.
  22. 제19항에 있어서,
    상기 전송하는 단계는,
    상기 제1 및 제2 텍스트 정보가 연속적으로 수신된 경우, 상기 디스플레이 장치에서 텍스트로 상기 응답 메시지를 출력하도록 상기 제1 텍스트 정보에 대응되는 응답 정보를 생성하고, 상기 디스플레이 장치에서 기설정된 키워드가 하이라이트된 텍스트로 상기 응답 메시지를 출력하도록 상기 제2 텍스트 정보에 대응되는 응답 정보를 생성하는 것을 특징으로 하는 제어 방법.

KR1020120064500A 2012-06-15 2012-06-15 디스플레이 장치 및 디스플레이 장치의 제어 방법 KR102056461B1 (ko)

Priority Applications (13)

Application Number Priority Date Filing Date Title
KR1020120064500A KR102056461B1 (ko) 2012-06-15 2012-06-15 디스플레이 장치 및 디스플레이 장치의 제어 방법
BR112014030550A BR112014030550A2 (pt) 2012-06-15 2013-06-13 aparelho de exibição, servidor que está interconectado com um aparelho de exibição, método de controle de um aparelho de exibição, o método de controle, e método de controle de um servidor que está interconectado com um aparelho de exibição
MX2014015019A MX2014015019A (es) 2012-06-15 2013-06-13 Aparato de visualizacion, metodo para controlar el aparato de visualizacion, servidor y metodo para controlar el servidor.
PCT/KR2013/005246 WO2013187714A1 (en) 2012-06-15 2013-06-13 Display apparatus, method for controlling the display apparatus, server and method for controlling the server
RU2015101124A RU2015101124A (ru) 2012-06-15 2013-06-13 Устройство отображения, способ управления устройством отображения, сервер и способ управления сервером
CN201810131893.1A CN108063969B (zh) 2012-06-15 2013-06-14 显示设备、控制显示设备的方法、服务器以及控制服务器的方法
US13/918,505 US20130339031A1 (en) 2012-06-15 2013-06-14 Display apparatus, method for controlling the display apparatus, server and method for controlling the server
JP2013125502A JP2014003609A (ja) 2012-06-15 2013-06-14 ディスプレイ装置、ディスプレイ装置の制御方法、サーバ及びサーバの制御方法
EP18165183.7A EP3361378A1 (en) 2012-06-15 2013-06-14 Display apparatus, method for controlling the display apparatus, server and method for controlling the server
CN201310235028.9A CN103517119B (zh) 2012-06-15 2013-06-14 显示设备、控制显示设备的方法、服务器以及控制服务器的方法
CN201810154477.3A CN108391149B (zh) 2012-06-15 2013-06-14 显示设备、控制显示设备的方法、服务器以及控制服务器的方法
EP13172079.9A EP2674854A3 (en) 2012-06-15 2013-06-14 Display apparatus, method for controlling the display apparatus, server and method for controlling the server.
US16/510,248 US20190333515A1 (en) 2012-06-15 2019-07-12 Display apparatus, method for controlling the display apparatus, server and method for controlling the server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120064500A KR102056461B1 (ko) 2012-06-15 2012-06-15 디스플레이 장치 및 디스플레이 장치의 제어 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020190164071A Division KR102160756B1 (ko) 2019-12-10 2019-12-10 디스플레이 장치 및 디스플레이 장치의 제어 방법

Publications (2)

Publication Number Publication Date
KR20130141240A true KR20130141240A (ko) 2013-12-26
KR102056461B1 KR102056461B1 (ko) 2019-12-16

Family

ID=48793864

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120064500A KR102056461B1 (ko) 2012-06-15 2012-06-15 디스플레이 장치 및 디스플레이 장치의 제어 방법

Country Status (9)

Country Link
US (2) US20130339031A1 (ko)
EP (2) EP3361378A1 (ko)
JP (1) JP2014003609A (ko)
KR (1) KR102056461B1 (ko)
CN (3) CN108391149B (ko)
BR (1) BR112014030550A2 (ko)
MX (1) MX2014015019A (ko)
RU (1) RU2015101124A (ko)
WO (1) WO2013187714A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160108348A (ko) * 2014-01-15 2016-09-19 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법
WO2019203418A1 (ko) * 2018-04-20 2019-10-24 삼성전자 주식회사 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
KR20200001153A (ko) * 2018-06-27 2020-01-06 주식회사 엔씨소프트 하이라이트 영상 생성 방법 및 시스템

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150066193A (ko) * 2013-12-06 2015-06-16 삼성전자주식회사 디스플레이장치, 디스플레이시스템 및 그 검색결과 제공방법
KR102193559B1 (ko) * 2014-02-18 2020-12-22 삼성전자주식회사 대화형 서버 및 이의 제어 방법
WO2015178715A1 (en) * 2014-05-23 2015-11-26 Samsung Electronics Co., Ltd. System and method of providing voice-message call service
TWI614613B (zh) * 2014-09-11 2018-02-11 廣達電腦股份有限公司 伺服器系統與其相關的控制方法
JP2016192121A (ja) 2015-03-31 2016-11-10 ソニー株式会社 制御装置、制御方法及びコンピュータプログラム
US9898250B1 (en) * 2016-02-12 2018-02-20 Amazon Technologies, Inc. Controlling distributed audio outputs to enable voice output
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
JP6526584B2 (ja) * 2016-02-19 2019-06-05 株式会社ジャパンディスプレイ タッチ検出装置、タッチ検出機能付き表示装置及び制御方法
US10057681B2 (en) 2016-08-01 2018-08-21 Bose Corporation Entertainment audio processing
TWI606390B (zh) * 2016-09-23 2017-11-21 元鼎音訊股份有限公司 可自動調整聲音輸出之方法及電子裝置
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
RU2648572C1 (ru) * 2017-01-12 2018-03-26 Общество с ограниченной ответственностью "Инвестиционная группа "Коперник" Алгоритм поиска в компьютерных системах и базах данных
JP7026449B2 (ja) 2017-04-21 2022-02-28 ソニーグループ株式会社 情報処理装置、受信装置、及び情報処理方法
KR102389625B1 (ko) * 2017-04-30 2022-04-25 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법
KR102480570B1 (ko) * 2017-11-10 2022-12-23 삼성전자주식회사 디스플레이장치 및 그 제어방법
JP6788620B2 (ja) * 2018-01-22 2020-11-25 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム
CN108683937B (zh) * 2018-03-09 2020-01-21 百度在线网络技术(北京)有限公司 智能电视的语音交互反馈方法、系统及计算机可读介质
JP6929811B2 (ja) * 2018-03-13 2021-09-01 Tvs Regza株式会社 音声対話端末、および音声対話端末制御方法
US11276396B2 (en) * 2018-05-01 2022-03-15 Dell Products, L.P. Handling responses from voice services
JP7151181B2 (ja) * 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
CN109003605B (zh) * 2018-07-02 2020-04-21 北京百度网讯科技有限公司 智能语音交互处理方法、装置、设备及存储介质
CN110822637A (zh) * 2018-08-14 2020-02-21 珠海格力电器股份有限公司 运行状态的获取方法及家电设备、空调
CN109348353B (zh) 2018-09-07 2020-04-14 百度在线网络技术(北京)有限公司 智能音箱的服务处理方法、装置和智能音箱
US10930284B2 (en) * 2019-04-11 2021-02-23 Advanced New Technologies Co., Ltd. Information processing system, method, device and equipment
KR20210012266A (ko) * 2019-07-24 2021-02-03 현대자동차주식회사 허브 대화 시스템, 허브 대화 시스템의 제어 방법 및 전자 장치
KR20190098110A (ko) * 2019-08-02 2019-08-21 엘지전자 주식회사 지능형 프레젠테이션 방법
US10972802B1 (en) 2019-09-26 2021-04-06 Dish Network L.L.C. Methods and systems for implementing an elastic cloud based voice search using a third-party search provider
KR20210051319A (ko) * 2019-10-30 2021-05-10 엘지전자 주식회사 인공 지능 장치
CN111190715B (zh) * 2019-12-31 2023-05-12 杭州涂鸦信息技术有限公司 产品服务的分发调度方法和系统、可读存储介质及计算机
CN111968636B (zh) * 2020-08-10 2021-11-12 湖北亿咖通科技有限公司 语音请求文本的处理方法及计算机存储介质
CN114945103B (zh) * 2022-05-13 2023-07-18 深圳创维-Rgb电子有限公司 语音交互系统及语音交互方法
CN115457957A (zh) * 2022-08-25 2022-12-09 维沃移动通信有限公司 语音信息显示方法和装置
CN115860823B (zh) * 2023-03-03 2023-05-16 深圳市人马互动科技有限公司 人机互动问卷答题场景中的数据处理方法及相关产品

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
US7747434B2 (en) * 2000-10-24 2010-06-29 Speech Conversion Technologies, Inc. Integrated speech recognition, closed captioning, and translation system and method
US6889188B2 (en) * 2002-11-22 2005-05-03 Intel Corporation Methods and apparatus for controlling an electronic device
US8140980B2 (en) * 2003-08-05 2012-03-20 Verizon Business Global Llc Method and system for providing conferencing services
JP4127668B2 (ja) * 2003-08-15 2008-07-30 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8582729B2 (en) * 2006-02-24 2013-11-12 Qualcomm Incorporated System and method of controlling a graphical user interface at a wireless device
JP4814673B2 (ja) * 2006-03-30 2011-11-16 株式会社日立製作所 デジタル放送受信装置
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7697922B2 (en) * 2006-10-18 2010-04-13 At&T Intellectual Property I., L.P. Event notification systems and related methods
WO2008070860A2 (en) * 2006-12-07 2008-06-12 Linker Sheldon O Method and system for machine understanding, knowledge, and conversation
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US8175885B2 (en) * 2007-07-23 2012-05-08 Verizon Patent And Licensing Inc. Controlling a set-top box via remote speech recognition
KR101513615B1 (ko) * 2008-06-12 2015-04-20 엘지전자 주식회사 이동 단말기 및 그 음성 인식 방법
US8180644B2 (en) * 2008-08-28 2012-05-15 Qualcomm Incorporated Method and apparatus for scrolling text display of voice call or message during video display session
US8676904B2 (en) * 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR101289081B1 (ko) * 2009-09-10 2013-07-22 한국전자통신연구원 음성 인터페이스를 이용한 iptv 시스템 및 서비스 방법
US20110099596A1 (en) * 2009-10-26 2011-04-28 Ure Michael J System and method for interactive communication with a media device user such as a television viewer
CN102136187A (zh) * 2010-01-26 2011-07-27 苏州捷新环保电子科技有限公司 一种交互式语音控制led显示屏的实现方法
US8386252B2 (en) * 2010-05-17 2013-02-26 Avaya Inc. Estimating a listener's ability to understand a speaker, based on comparisons of their styles of speech
US8473289B2 (en) * 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
CN102387241B (zh) * 2010-09-02 2015-09-23 联想(北京)有限公司 一种移动终端及其发送处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160108348A (ko) * 2014-01-15 2016-09-19 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 흉내 및 풍부한 멀티미디어로 응답하는 디지털 개인용 어시스턴트 상호작용 기법
WO2019203418A1 (ko) * 2018-04-20 2019-10-24 삼성전자 주식회사 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
KR20200001153A (ko) * 2018-06-27 2020-01-06 주식회사 엔씨소프트 하이라이트 영상 생성 방법 및 시스템

Also Published As

Publication number Publication date
EP2674854A2 (en) 2013-12-18
WO2013187714A1 (en) 2013-12-19
CN108391149B (zh) 2021-05-25
BR112014030550A2 (pt) 2018-04-10
EP2674854A3 (en) 2014-03-12
JP2014003609A (ja) 2014-01-09
RU2015101124A (ru) 2016-08-10
CN108391149A (zh) 2018-08-10
US20190333515A1 (en) 2019-10-31
CN108063969A (zh) 2018-05-22
EP3361378A1 (en) 2018-08-15
CN108063969B (zh) 2021-05-25
US20130339031A1 (en) 2013-12-19
CN103517119A (zh) 2014-01-15
KR102056461B1 (ko) 2019-12-16
CN103517119B (zh) 2018-03-27
MX2014015019A (es) 2015-02-20

Similar Documents

Publication Publication Date Title
KR102056461B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
USRE49493E1 (en) Display apparatus, electronic device, interactive system, and controlling methods thereof
KR101309794B1 (ko) 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
US9230559B2 (en) Server and method of controlling the same
US9219949B2 (en) Display apparatus, interactive server, and method for providing response information
EP2674941B1 (en) Terminal apparatus and control method thereof
US20140195230A1 (en) Display apparatus and method for controlling the same
CN103546763A (zh) 用于提供内容信息的方法和广播接收设备
KR102160756B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
KR20180014137A (ko) 디스플레이 장치 및 그의 제어 방법
KR20160036542A (ko) 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법
KR20140026220A (ko) 단말 장치 및 단말 장치의 제어 방법
KR102091006B1 (ko) 디스플레이 장치 및 그의 제어 방법
KR20170038772A (ko) 디스플레이 장치 및 그의 제어 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant