KR101877430B1 - 영상처리장치 및 그 제어방법, 영상처리 시스템 - Google Patents

영상처리장치 및 그 제어방법, 영상처리 시스템 Download PDF

Info

Publication number
KR101877430B1
KR101877430B1 KR1020130057262A KR20130057262A KR101877430B1 KR 101877430 B1 KR101877430 B1 KR 101877430B1 KR 1020130057262 A KR1020130057262 A KR 1020130057262A KR 20130057262 A KR20130057262 A KR 20130057262A KR 101877430 B1 KR101877430 B1 KR 101877430B1
Authority
KR
South Korea
Prior art keywords
channel
voice
image processing
utterance
server
Prior art date
Application number
KR1020130057262A
Other languages
English (en)
Other versions
KR20140042637A (ko
Inventor
이주영
박상신
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of KR20140042637A publication Critical patent/KR20140042637A/ko
Application granted granted Critical
Publication of KR101877430B1 publication Critical patent/KR101877430B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4227Providing Remote input by a user located remotely from the client device, e.g. at work
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Facsimiles In General (AREA)
  • Details Of Television Systems (AREA)

Abstract

본 발명의 실시예에 따른 영상처리장치는, 외부로부터 수신되는 방송신호를 영상으로 표시되게 처리하는 영상처리부와; 서버에 통신 가능하게 접속되는 통신부와; 사용자의 발화가 입력되는 음성입력부와; 발화에 대응하는 음성 명령에 따라서 기 설정된 대응 동작이 수행되게 처리하는 음성처리부와; 음성입력부를 통해 발화가 입력되면 음성처리부 및 서버 중 어느 하나에 의해 발화에 대응하는 음성 명령이 처리되게 제어하는 제어부를 포함하며, 제어부는, 음성 명령이 방송 채널의 콜사인(call sign)에 관련된 키워드를 포함하는 경우에 음성처리부 및 서버 중 어느 하나에 의해 키워드에 대응하는 추천 콜사인이 기 설정된 선택조건에 따라서 선택되게 제어하고, 추천 콜사인의 방송 채널에 대하여 음성 명령에 따른 대응 동작을 수행하는 것을 특징으로 한다.

Description

영상처리장치 및 그 제어방법, 영상처리 시스템 {IMAGE PROCESSING APPARATUS AND CONTROL METHOD THEREOF, IMAGE PROCESSING SYSTEM}
본 발명은 외부로부터 수신되는 방송신호 등의 영상신호를 영상으로 표시되게 처리하는 영상처리장치 및 그 제어방법, 영상처리 시스템에 관한 것으로서, 상세하게는 사용자의 음성 명령을 인식함으로써 해당 음성 명령에 대응하는 기능 또는 동작을 실행할 수 있는 구조의 영상처리장치 및 그 제어방법, 영상처리 시스템에 관한 것이다.
영상처리장치는 외부로부터 수신되는 영상신호/영상데이터를 다양한 영상처리 프로세스에 따라서 처리한다. 영상처리장치는 처리된 영상신호를 자체 구비한 디스플레이 패널 상에 영상으로 표시하거나, 또는 패널을 구비한 타 디스플레이장치에서 영상으로 표시되도록 이 처리된 영상신호를 해당 디스플레이장치에 출력할 수 있다. 즉, 영상처리장치는 영상신호를 처리 가능한 장치라면 영상을 표시 가능한 패널을 포함하는 경우 및 패널을 포함하지 않는 경우 모두 포함할 수 있는 바, 전자의 경우의 예시로는 TV가 있으며, 후자의 경우의 예시로는 셋탑박스(set-top box)가 있다.
영상처리장치는 기술의 발전에 따라서 다양한 기능의 추가 및 확장이 계속적으로 반영되고 있는 바, 이러한 추세에 따라서 영상처리장치에 있어서 사용자의 의도를 반영한 커맨드를 영상처리장치에 입력하는 구성도 다양한 구조 또는 방법이 제안되고 있다. 예를 들면, 종래에는 사용자 리모트 컨트롤러(remote controller) 상의 키/버튼을 누르면 리모트 컨트롤러가 사용자가 원하는 동작이 실행되도록 하는 제어신호를 영상처리장치에 전송하는 구성이었으나, 근래에는 영상처리장치가 사용자에 의한 모션 또는 발화 등을 감지하고, 감지된 내용을 분석하여 대응 동작을 실행시키는 등, 사용자의 의도를 반영하여 영상처리장치를 제어하는 다양한 구성이 제안되고 있다.
본 발명의 실시예에 따른 영상처리장치는, 외부로부터 수신되는 방송신호를 영상으로 표시되게 처리하는 영상처리부와; 서버에 통신 가능하게 접속되는 통신부와; 사용자의 발화가 입력되는 음성입력부와; 상기 발화에 대응하는 음성 명령에 따라서 기 설정된 대응 동작이 수행되게 처리하는 음성처리부와; 상기 음성입력부를 통해 상기 발화가 입력되면 상기 음성처리부 및 상기 서버 중 어느 하나에 의해 상기 발화에 대응하는 상기 음성 명령이 처리되게 제어하는 제어부를 포함하며, 상기 제어부는, 상기 음성 명령이 방송 채널의 콜사인(call sign)에 관련된 키워드를 포함하는 경우에 상기 음성처리부 및 상기 서버 중 어느 하나에 의해 상기 키워드에 대응하는 추천 콜사인이 기 설정된 선택조건에 따라서 선택되게 제어하고, 상기 추천 콜사인의 방송 채널에 대하여 상기 음성 명령에 따른 대응 동작을 수행하는 것을 특징으로 한다.
여기서, 상기 키워드에 대응하는 적어도 하나의 콜사인 후보의 데이터베이스가 상기 영상처리장치 및 상기 서버에 저장되며, 상기 추천 콜사인은 상기 데이터베이스로부터 검색된 복수의 상기 콜사인 후보 중에서 상기 선택조건에 따라서 선택될 수 있다.
여기서, 상기 선택조건은, 상기 영상처리장치의 사용 이력 정보에 기초하여 상기 복수의 콜사인 후보 중에서 선택 빈도가 기 설정 순위 이상인 콜사인 후보가 상기 추천 콜사인으로 선택될 수 있다.
또는, 상기 선택조건은, 상기 복수의 콜사인 후보 중에서 상기 서버와 통신하는 복수의 타 영상처리장치에서의 선택 빈도가 기 설정 순위 이상인 콜사인 후보가 상기 추천 콜사인으로 선택될 수 있다.
또한, 상기 추천 콜사인은 상기 복수의 콜사인 후보 중에서 하나 이상을 선택 가능하며, 상기 제어부는, 복수의 상기 콜사인 후보가 선택되면, 상기 선택된 복수의 콜사인 후보 중에서 어느 하나를 선택 가능하도록 제공하는 유아이 영상을 표시할 수 있다.
여기서, 상기 제어부는, 상기 유아이 영상이 표시된 이후 기 설정된 시간 동안에 어느 하나의 상기 콜사인 후보를 선택하는 입력이 수행되지 않은 경우에, 상기 기 설정된 선택조건에 기초하여 어느 하나의 상기 추천 콜사인을 선택할 수 있다.
또한, 상기 통신부는 상기 발화를 텍스트의 음성 명령으로 변환하는 STT(speech-to-text)서버와 통신하며, 상기 제어부는, 상기 음성입력부에 상기 발화가 입력되면 상기 발화의 음성신호를 상기 STT서버로 전송하며, 상기 STT서버로부터 상기 발화에 대응하는 상기 음성 명령을 수신할 수 있다.
여기서, 상기 제어부는, 상기 음성 명령이 단문일 경우에 상기 음성 명령을 상기 음성처리부에 의해 처리되고, 상기 음성 명령이 대화문일 경우에 상기 음성 명령을 상기 서버에 의해 처리되게 제어할 수 있다.
또한, 상기 영상처리부에 의해 처리되는 방송신호를 영상으로 표시하는 디스플레이부를 더 포함할 수 있다.
또한, 본 발명의 실시예에 따른 서버와 통신하는 영상처리장치의 제어방법은, 사용자의 발화가 입력되는 단계와; 상기 영상처리장치 및 상기 서버 중 어느 하나에 의해 상기 발화에 대응하는 음성 명령이 처리되게 제어하고, 상기 음성 명령에 따라서 기 설정된 대응 동작을 수행하는 단계를 포함하며, 상기 음성 명령에 따라서 기 설정된 대응 동작을 수행하는 단계는, 상기 음성 명령이 방송 채널의 콜사인에 관련된 키워드를 포함하는 경우에, 상기 영상처리장치 및 상기 서버 중 어느 하나에 의해 상기 키워드에 대응하는 추천 콜사인이 기 설정된 선택조건에 따라서 선택되게 제어하는 단계와; 상기 추천 콜사인의 방송 채널에 대하여 상기 음성 명령에 따른 대응 동작을 수행하는 단계를 포함하는 것을 특징으로 한다.
여기서, 상기 키워드에 대응하는 적어도 하나의 콜사인 후보의 데이터베이스가 상기 영상처리장치 및 상기 서버에 저장되며, 상기 추천 콜사인은 상기 데이터베이스로부터 검색된 복수의 상기 콜사인 후보 중에서 상기 선택조건에 따라서 선택될 수 있다.
여기서, 상기 선택조건은, 상기 영상처리장치의 사용 이력 정보에 기초하여 상기 복수의 콜사인 후보 중에서 선택 빈도가 기 설정 순위 이상인 콜사인 후보가 상기 추천 콜사인으로 선택될 수 있다.
또는, 상기 선택조건은, 상기 복수의 콜사인 후보 중에서 상기 서버와 통신하는 복수의 타 영상처리장치에서의 선택 빈도가 기 설정 순위 이상인 콜사인 후보가 상기 추천 콜사인으로 선택될 수 있다.
또한, 상기 추천 콜사인은 상기 복수의 콜사인 후보 중에서 하나 이상을 선택 가능하며, 상기 음성 명령에 따라서 기 설정된 대응 동작을 수행하는 단계는, 복수의 상기 콜사인 후보가 선택된 경우에 상기 선택된 복수의 콜사인 후보 중에서 어느 하나를 선택 가능하도록 제공하는 유아이 영상을 표시하는 단계를 포함할 수 있다.
여기서, 상기 유아이 영상을 표시하는 단계는, 상기 유아이 영상이 표시된 이후 기 설정된 시간 동안에 어느 하나의 상기 콜사인 후보를 선택하는 입력이 수행되지 않은 경우에, 상기 기 설정된 선택조건에 기초하여 어느 하나의 상기 추천 콜사인을 선택하는 단계를 포함할 수 있다.
또한, 상기 영상처리장치는 상기 발화를 텍스트의 음성 명령으로 변환하는 STT서버와 통신하며, 상기 사용자의 발화가 입력되는 단계는, 상기 발화의 음성신호를 상기 STT서버로 전송하는 단계와; 상기 STT서버로부터 상기 발화에 대응하는 상기 음성 명령을 수신하는 단계를 포함할 수 있다.
여기서, 상기 음성 명령에 따라서 기 설정된 대응 동작을 수행하는 단계는, 상기 음성 명령이 단문일 경우에 상기 음성 명령을 상기 영상처리장치에 의해 처리되고, 상기 음성 명령이 대화문일 경우에 상기 음성 명령을 상기 서버에 의해 처리되게 제어하는 단계를 포함할 수 있다.
또한, 본 발명의 실시예에 따른 영상처리 시스템은, 외부로부터 수신되는 방송신호를 영상으로 표시되게 처리하는 영상처리장치와; 상기 영상처리장치와 통신하는 서버를 포함하며, 상기 영상처리장치는, 사용자의 발화가 입력되는 음성입력부와; 상기 발화에 대응하는 음성 명령에 따라서 기 설정된 대응 동작이 수행되게 처리하는 음성처리부와; 상기 음성입력부를 통해 상기 발화가 입력되면 상기 음성처리부 및 상기 서버 중 어느 하나에 의해 상기 발화에 대응하는 상기 음성 명령이 처리되게 제어하는 제어부를 포함하며, 상기 제어부는, 상기 음성 명령이 방송 채널의 콜사인에 관련된 키워드를 포함하는 경우에 상기 음성처리부 및 상기 서버 중 어느 하나에 의해 상기 키워드에 대응하는 추천 콜사인이 기 설정된 선택조건에 따라서 선택되게 제어하고, 상기 추천 콜사인의 방송 채널에 대하여 상기 음성 명령에 따른 대응 동작을 수행하는 것을 특징으로 한다.
여기서, 상기 발화를 텍스트의 음성 명령으로 변환하는 STT서버를 더 포함하며, 상기 제어부는, 상기 음성입력부에 상기 발화가 입력되면 상기 발화의 음성신호를 상기 STT서버로 전송하며, 상기 STT서버로부터 상기 발화에 대응하는 상기 음성 명령을 수신할 수 있다.
도 1은 본 발명의 제1실시예에 따른 디스플레이장치의 구성 블록도,
도 2는 키워드 및 콜사인 후보에 관한 데이터베이스의 구조를 개략적으로 나타내는 예시도,
도 3은 도 1의 디스플레이장치 및 서버의 인터랙션 구조를 나타내는 구성 블록도,
도 4는 도 3의 디스플레이장치 및 서버의 인터랙션 과정을 나타내는 예시도,
도 5 및 도 6은 도 1의 디스플레이장치에서 복수의 추천 콜사인 중 어느 하나를 선택 가능하게 제공하는 유아이 영상의 예시도,
도 7은 본 발명의 제2실시예에 따른 디스플레이장치 및 서버의 인터랙션 과정을 나타내는 예시도,
도 8은 본 발명의 제3실시예에 따른 디스플레이장치 및 서버의 인터랙션 구조를 나타내는 구성 블록도,
도 9는 도 8의 디스플레이장치 및 서버의 인터랙션 과정을 나타내는 예시도,
도 10은 본 발명의 제4실시예에 따른 디스플레이장치의 음성처리부의 신호 전달 구조를 나타내는 구성 블록도이다.
이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다. 이하 실시예에서는 본 발명의 사상과 직접적인 관련이 있는 구성들에 관해서만 설명하며, 그 외의 구성에 관해서는 설명을 생략한다. 그러나, 본 발명의 사상이 적용된 장치 또는 시스템을 구현함에 있어서, 이와 같이 설명이 생략된 구성이 불필요함을 의미하는 것이 아님을 밝힌다.
도 1은 본 발명의 제1실시예에 따른 영상처리장치(100)의 구성 블록도이다.
이하 실시예는 영상처리장치(100)가 자체적으로 영상을 표시할 수 있는 구조의 디스플레이장치인 경우에 관해 설명하나, 본 발명의 사상은 영상처리장치(100)가 자체적으로 영상을 표시하지 않고 타 디스플레이장치에 영상신호/제어신호를 출력 가능한 구조의 장치인 경우에도 적용이 가능한 바, 이하 설명하는 실시예에 한정되지 않는다. 본 실시예는 영상처리장치(100)가 TV인 경우에 관해 설명하지만, 이러한 이유에 따라서 그 구현 방식이 다양하게 변경되어 적용될 수 있다.
도 1에 도시된 바와 같이, 본 실시예에 따른 영상처리장치(100) 또는 디스플레이장치(100)는 영상공급원(미도시)으로부터 영상신호를 수신한다. 디스플레이장치(100)가 수신 가능한 영상신호는 그 종류 또는 특성이 한정되지 않으며, 예를 들면 디스플레이장치(100)는 방송국의 송출장비(미도시)로부터 송출되는 방송신호를 수신하고, 해당 방송신호를 튜닝하여 방송영상을 표시할 수 있다.
디스플레이장치(100)는 영상공급원(미도시)으로부터 영상신호를 수신하는 영상수신부(110)와, 영상수신부(110)에 수신되는 영상신호를 기 설정된 영상처리 프로세스에 따라서 처리하는 영상처리부(120)와, 영상처리부(120)에서 처리되는 영상신호에 기초하여 영상을 표시하는 디스플레이부(130)와, 서버(10)와 같은 외부장치와 통신하는 통신부(140)와, 사용자에 의해 조작되는 사용자입력부(150)와, 외부로부터의 음성 또는 소리가 입력되는 음성입력부(160)와, 음성입력부(160)에 입력되는 음성/소리를 해석 및 처리하는 음성처리부(170)와, 데이터/정보가 저장되는 저장부(180)와, 디스플레이장치(100)의 제반 동작을 제어하는 제어부(190)를 포함한다.
영상수신부(110)는 영상신호/영상데이터를 유선 또는 무선으로 수신하여 영상처리부(120)에 전달한다. 영상수신부(110)는 수신하는 영상신호의 규격 및 디스플레이장치(100)의 구현 형태에 대응하여 다양한 방식으로 마련될 수 있다. 예를 들면, 영상수신부(110)는 RF(radio frequency)신호를 수신하거나, 컴포지트(composite) 비디오, 컴포넌트(component) 비디오, 슈퍼 비디오(super video), SCART, HDMI(high definition multimedia interface), 디스플레이포트(DisplayPort), UDI(unified display interface), 또는 와이어리스(wireless) HD 규격 등에 의한 영상신호를 수신할 수 있다. 영상수신부(110)는 영상신호가 방송신호인 경우, 이 방송신호를 채널 별로 튜닝하는 튜너(tuner)를 포함한다.
영상처리부(120)는 영상수신부(110)에 수신되는 영상신호에 대해 다양한 영상처리 프로세스를 수행한다. 영상처리부(120)는 이러한 프로세스를 수행한 영상신호를 디스플레이부(130)에 출력함으로써, 디스플레이부(130)에 해당 영상신호에 기초하는 영상이 표시되게 한다. 예를 들면, 영상처리부(120)는 영상수신부(110)에서 특정 채널로 방송신호가 튜닝되면, 방송신호로부터 해당 채널에 대응하는 영상, 음성 및 부가데이터를 추출하고 기 설정된 해상도로 조정하여 디스플레이부(130)에 표시한다.
영상처리부(120)가 수행하는 영상처리 프로세스의 종류는 한정되지 않으며, 예를 들면 영상데이터의 영상 포맷에 대응하는 디코딩(decoding), 인터레이스(interlace) 방식의 영상데이터를 프로그레시브(progressive) 방식으로 변환하는 디인터레이싱(de-interlacing), 영상데이터를 기 설정된 해상도로 조정하는 스케일링(scaling), 영상 화질 개선을 위한 노이즈 감소(noise reduction), 디테일 강화(detail enhancement), 프레임 리프레시 레이트(frame refresh rate) 변환 등을 포함할 수 있다.
영상처리부(120)는 이러한 여러 기능을 통합시킨 SOC(system-on-chip), 또는 이러한 각 프로세스를 독자적으로 수행할 수 있는 개별적인 구성들이 인쇄회로기판 상에 장착됨으로써 영상처리보드(미도시)로 구현되어 디스플레이장치(100)에 내장된다.
디스플레이부(130)는 영상처리부(120)로부터 출력되는 영상신호에 기초하여 영상을 표시한다. 디스플레이부(130)의 구현 방식은 한정되지 않는 바, 액정(liquid crystal), 플라즈마(plasma), 발광 다이오드(light-emitting diode), 유기발광 다이오드(organic light-emitting diode), 면전도 전자총(surface-conduction electron-emitter), 탄소 나노 튜브(carbon nano-tube), 나노 크리스탈(nano-crystal) 등의 다양한 디스플레이 방식으로 구현될 수 있다.
디스플레이부(130)는 그 구현 방식에 따라서 부가적인 구성을 추가적으로 포함할 수 있다. 예를 들면, 디스플레이부(130)가 액정 방식인 경우, 디스플레이부(130)는 액정 디스플레이 패널(미도시)과, 이에 광을 공급하는 백라이트유닛(미도시)과, 패널(미도시)을 구동시키는 패널구동기판(미도시)을 포함한다.
통신부(140)는 디스플레이장치(100)가 서버(10)와 양방향 통신을 수행하도록 데이터의 송수신을 수행한다. 통신부(140)는 서버(10)의 통신 프로토콜(protocol)에 따라서, 유선/무선을 통한 광역/근거리 네트워크나 또는 로컬 접속 방식으로 서버(10)에 접속한다.
사용자입력부(150)는 사용자의 조작 및 입력에 따라서 기 설정된 다양한 제어 커맨드 또는 정보를 제어부(190)에 전달한다. 사용자입력부(150)는 디스플레이장치(100) 외측에 설치된 메뉴 키(menu-key) 또는 입력 패널(panel)이나, 디스플레이장치(100)와 분리 이격된 리모트 컨트롤러(remote controller) 등으로 구현된다. 또는, 사용자입력부(150)는 디스플레이부(130)와 일체형으로 구현될 수 있는 바, 디스플레이부(130)가 터치스크린(touch-screen)인 경우에 사용자는 디스플레이부(130)에 표시된 입력메뉴(미도시)를 터치함으로써 기 설정된 커맨드를 제어부(190)에 전달할 수 있다.
음성입력부(160)는 마이크로 구현되며, 디스플레이장치(100)의 외부 환경에서 발생하는 다양한 소리를 감지한다. 음성입력부(160)가 감지하는 소리는 사용자에 의한 발화와, 사용자 이외에 다양한 요인에 의해 발생하는 소리를 포함한다.
음성처리부(170)는 디스플레이장치(100)에서 수행되는 다양한 기 설정된 프로세스 중에서, 음성입력부(160)에 입력되는 음성/소리에 대한 프로세스를 수행한다. 여기서, 음성처리부(170)가 처리하는 "음성"은 음성입력부(160)에 입력되는 음성을 의미한다. 영상처리부(120)가 영상신호를 처리할 때에 해당 영상신호는 음성데이터를 포함할 수 있는 바, 영상신호에 포함된 음성데이터는 영상처리부(120)에 의해 처리된다.
음성처리부(170)는 음성입력부(160)에 음성/소리가 입력되면, 입력된 음성/소리가 사용자에 의한 발화인지 아니면 기타 요인에 의하여 발생한 소리인지 여부를 판단한다. 이러한 판단 방법은 다양한 구조가 적용될 수 있으므로 특정할 수 없으며, 예를 들면 입력된 음성/소리가 사람의 목소리에 대응하는 파장/주파수 대역에 해당하는지 판단하거나, 또는 사전에 지정된 사용자의 음성의 프로파일에 해당하는지 판단하는 등의 방법이 가능하다.
음성처리부(170)는 사용자의 발화가 입력된 것으로 판단하면, 해당 발화에 대응하는 음성 명령에 따라서 기 설정된 대응 동작이 수행되게 처리한다. 여기서, 음성 명령은 사용자의 발화의 내용을 의미한다. 이에 관한 자세한 내용은 후술한다.
저장부(180)는 제어부(190)의 제어에 따라서 한정되지 않은 데이터가 저장된다. 저장부(180)는 플래시메모리(flash-memory), 하드디스크 드라이브(hard-disc drive)와 같은 비휘발성 메모리로 구현된다. 저장부(180)는 제어부(190), 영상처리부(120) 또는 음성처리부(170) 등에 의해 액세스되며, 데이터의 독취/기록/수정/삭제/갱신 등이 수행된다.
제어부(190)는 음성입력부(160)를 통해 사용자의 발화가 입력되면, 입력된 발화를 처리하도록 음성처리부(170)를 제어한다. 영상처리부(120)가 영상수신부(110)에 수신되는 방송신호를 처리함으로써 디스플레이부(130)에 방송영상이 표시될 때, 제어부(190)는 음성입력부(160)를 통해 채널 전환을 명령하는 사용자의 발화가 수신되면, 해당 발화의 내용에 따라서 채널을 변경시킨다.
"채널 전환"에 관련된 음성 명령의 방식은, 사용자가 원하는 방송채널의 채널번호를 말하거나, 또는 원하는 방송채널의 콜사인(call sign)을 발화하는 방법이 가능하다. 채널번호 및 콜사인은 어느 한 채널을 타 채널과 구분하는 미리 약속된 표현방식이다. 채널번호는 6, 7, 11 등과 같은 정수로 표현한다.
콜사인은 특정 채널을 제공하는 제공자(provider)의 식별명이며, 일반적으로 해당 채널을 방송하는 방송국의 식별명이다. 여기서, 하나의 채널의 콜사인은 복수 개가 있을 수 있으며, 또한 하나의 방송국이 복수의 채널을 제공하는 경우에 각 채널은 상호 구분을 위해 서로 상이한 콜사인을 가진다.
전자의 예를 들면 다음과 같다. 소정의 제1채널의 콜사인이 "KBS"라고 할 때에, "한국방송"이라는 콜사인 또한 "KBS"와 동일하게 제1채널을 지칭하는 것일 수 있다. 또는, 어느 지역에서는 소정의 제2채널의 콜사인이 "MBC"인 것에 비해, 타 지역에서는 제2채널의 콜사인이 이와 상이한 "TNN"일 수도 있다. 즉, 특정 채널의 콜사인은 하나가 아닌 복수 개가 있을 수 있다.
후자의 예를 들면 다음과 같다. "KBS"라는 콜사인을 가지는 방송국은 소정의 제3채널 및 제4채널에 각기 방송신호를 제공할 수 있다. 이 경우, 제3채널의 콜사인은 "KBS-1"이고, 제4채널의 콜사인은 "KBS-2"로 각기 상이하다. "KBS"는 해당 방송국의 대표 콜사인으로 볼 수 있으며, "KBS-1" 및 "KBS-2"는 "KBS"와 관련된 하위 콜사인이다. 즉, "KBS"라는 콜사인은 제3채널 및 제4채널과 모두 관련된다.
따라서, 만일 음성입력부(160)를 통해 입력된 사용자의 발화가 "KBS 틀어줘"라는 음성 명령이라면, "KBS-1"의 제3채널 및 "KBS-2"의 제4채널 중에서 어떠한 채널을 의미하는 것인지 불명료할 수 있다.
이에, 본 실시예에 따르면, 제어부(190)는 사용자의 발화에 대응하는 음성 명령이 방송채널의 콜사인에 관련된 키워드(key-word)를 포함하는지 여부를 판단한다.
제어부(190)는 음성 명령이 콜사인 관련 키워드를 포함하는 것으로 판단하면, 복수의 콜사인을 포함하는 데이터베이스에서 해당 키워드에 대응하는 콜사인을 검색하도록 음성처리부(170)를 제어한다. 여기서, 데이터베이스는 저장부(180)에 저장되며, 이와 같이 검색된 콜사인을 콜사인 후보라고 지칭한다. 이 때, 제어부(190)는 해당 키워드에 대응하는 복수의 콜사인 후보가 검색된 경우, 기 설정된 선택조건에 기초하여 복수의 콜사인 후보 중에서 추천 콜사인을 선택한다.
또는, 제어부(190)는 상기한 데이터베이스가 저장된 서버(10)에 키워드 및 음성 명령을 전송할 수도 있다. 이 경우, 서버(10)는 앞서 설명한 구성과 유사한 원리로 추천 콜사인을 선택하며 음성 명령에 따른 대응 동작을 분석하고, 이러한 선택 및 분석 결과에 따른 제어신호를 디스플레이장치(100)에 전송한다.
제어부(190)는 이와 같이 선택된 추천 콜사인의 방송 채널에 대하여 음성 명령에 따른 대응 동작을 수행한다.
이하, 데이터베이스(200)의 구성과, 데이터베이스(200)를 검색하여 콜사인 후보(230)를 검색하는 방법에 관해 도 2를 참조하여 설명한다.
도 2는 데이터베이스(200)의 구조를 개략적으로 나타내는 예시도이다.
도 2에 도시된 바와 같이, 제어부(190)는 사용자의 발화를 텍스트로 변환한 음성 명령인 "KBS 틀어줘"에 콜사인 관련 키워드가 포함되는지 판단한다. 저장부(180)가 키워드 및 콜사인이 상호 대응하게 맵핑(mapping)된 관계 데이터베이스(200)를 저장하고 있으며, 제어부(190)는 소정 키워드를 가지고 데이터베이스(200)를 검색함으로써 해당 키워드가 콜사인 관련 키워드인지 여부를 판단할 수 있다.
데이터베이스(200)는 복수의 키워드(220) 및 복수의 콜사인(230)을 상호 맵핑시킴으로써, 어느 하나의 키워드(220)를 가지고 하나 이상의 콜사인 후보(230)를 검색하기 위해 사용된다. 본 도면에서는 데이터베이스(200) 중에서 "KBS" 및 "FTV"의 두 대표 콜사인(210)에 관련된 항목의 관계만을 나타낸 것이다.
대표 콜사인(210)은 키워드(220) 및 콜사인 후보(230)를 상호 관련시키기 위한 링크 역할을 수행한다. 구체적으로, 소정 키워드(220)가 입력되었을 때에, 우선 해당 키워드(220)가 어느 대표 콜사인(210)과 관련되는지가 데이터베이스(200) 상에서 1차적으로 검색된다. 대표 콜사인(210)이 검색되면, 검색된 대표 콜사인(210)의 하부 콜사인(230) 또는 관련된 콜사인 후보(230)가 2차적으로 검색된다.
키워드(220)는 대표 콜사인(210)과 관련된 동의어, 유사어 등을 포함하는 다양한 용어가 대표 콜사인(210)에 대해 그룹화/카테고리화된다. 또한, 콜사인 후보(230)는 대표 콜사인(210)과 연관된 하나 이상의 채널의 콜사인을 포함하며, 이러한 콜사인은 대표 콜사인(210)에 대해 그룹화/카테고리화된다.
예를 들면, "낚시채널"이라는 키워드(220)가 입력되는 경우, "낚시채널"과 연관된 대표 콜사인(210)은 "FTV"이며, 대표 콜사인(210) "FTV"에 관련된 콜사인 후보(230)는 "FTV" 하나이다. 즉, 데이터베이스(200)에 의해 검색된 바로는, "낚시채널"이라는 키워드(220)에 대응하는 채널의 콜사인은 "FTV" 하나이다.
한편, "KBS"라는 키워드(220)가 입력되는 경우, "KBS"와 연관된 대표 콜사인(210)은 "KBS"이며, 대표 콜사인 "KBS"에 관련된 콜사인 후보(230)는 "KBS-1", "KBS-2", "KBS-sports", "KBS-movie"의 네 가지가 있다.
이러한 방법으로 데이터베이스(200)를 검색함으로써 키워드(220)와 관련된 적어도 하나 이상의 콜사인 후보(230)를 얻을 수 있다. 다만, 상기한 방법은 데이터베이스(200)를 구현하는 하나의 예시에 불과할 뿐인 바, 데이터베이스(200)의 구현 방식은 다양하게 적용될 수 있으며 상기한 예시로 한정되지 않는다.
도 3은 디스플레이장치(100) 및 서버(20, 30)의 인터랙션 구조를 나타내는 구성 블록도이다.
도 3에 도시된 바와 같이, 디스플레이장치(100)는 통신부(140)와, 음성입력부(160)와, 음성처리부(170)와, 제어부(190)를 포함한다. 이러한 구성은 앞선 도 1에서 설명한 바와 같다. 여기서, 통신부(140)는 사용자의 발화를 음성 명령으로 변환하는 STT(speech-to-text)서버(20)와, 음성 명령을 분석함으로써 음성 명령에 대응하는 대응 동작을 판단하는 대화형 서버(30)에 접속된다.
STT서버(20)는 음성신호가 수신되면 해당 음성신호의 파형을 분석함으로써 음성신호의 내용을 텍스트로 생성한다. STT서버(20)는 디스플레이장치(100)로부터 사용자의 발화의 음성신호를 수신하면, 이를 음성 명령으로 변환한다.
대화형 서버(30)는 음성 명령에 대응하는 다양한 디스플레이장치(100)의 동작이 맵핑된 데이터베이스를 포함한다. 대화형 서버(30)는 디스플레이장치(100)로부터 수신한 음성 명령을 분석하고, 분석 결과에 따라서 해당 음성 명령에 대응하는 동작을 수행하기 위한 제어신호를 디스플레이장치(100)에 전송한다.
제어부(190)는 음성입력부(160)에 사용자의 발화가 입력되면, 해당 발화의 음성신호를 STT서버(20)에 전송하고, STT서버(20)로부터 해당 발화에 대응하는 음성 명령을 수신한다.
제어부(190)는 STT서버(20)로부터 수신된 음성 명령이 단문 및 대화문 중에서 어느 쪽에 해당하는지를 판단한다. 제어부(190)는 음성 명령이 단문이면 음성처리부(170)에 의해 처리되도록 하고, 음성 명령이 대화문이면 대화형 서버(30)에 의해 처리되도록 한다.
이러한 과정은, 대화문이 자연어이기 때문에, 대화문인 음성 명령 내에서 사용자가 원하는 대응 동작을 기계적으로 추출하는 것이 상대적으로 용이하지 않기 때문이다. 예를 들면, 사용자의 음성 명령이 "KBS 틀어"라는 단문인 경우, 음성처리부(170)는 "KBS"라는 콜사인 키워드와 "틀어"라는 동작 키워드를 가지고 해당 동작을 바로 수행할 수 있다.
그런데, 이와 실질적으로 동일한 내용의 음성 명령인 "지금 보고 있는 채널을 한국방송으로 변경해 주세요"와 같은 대화문인 경우, "한국방송"에 대응하는 "KBS"의 콜사인 키워드를 도출하고, "변경해 주세요"에 대응하는 "틀어"라는 동작 키워드를 도출하는 과정이 필요하다. 시스템의 부하 또는 데이터베이스의 정보량 등과 같은 다양한 요인으로 인해, 음성처리부(170)가 이러한 대화문을 처리하는 것은 용이하지 않을 수 있다.
도 4는 본 실시예에 따른 디스플레이장치(100) 및 서버(20, 30)의 인터랙션 과정을 나타내는 예시도이다.
도 4에 도시된 바와 같이, 디스플레이장치(100)는 사용자로부터 발화가 입력되면(600), 해당 발화의 음성신호를 STT서버(20)에 전달한다(610).
STT서버(20)는 음성신호를 음성 명령으로 변환하고(620), 변환된 음성 명령을 디스플레이장치(100)에 전달한다(630).
디스플레이장치(100)는 STT서버(30)로부터 수신한 음성 명령을 분석하여, 음성 명령으로부터 콜사인 관련 키워드를 추출한다(640). 여기서, 디스플레이장치(100)는 음성 명령의 단문/대화문 여부를 판단한다.
만일, 음성 명령이 대화문으로 판단되면, 디스플레이장치(100)는 음성 명령 및 콜사인 관련 키워드를 대화형 서버(30)에 전송한다(650).
대화형 서버(30)는 디스플레이장치(100)로부터 수신된 음성 명령 및 콜사인 관련 키워드에 의한 콜사인 분석 프로세스를 수행한다(660). 콜사인 분석 프로세스에서는 콜사인 관련 키워드에 대응하는 콜사인 후보를 검색하는 단계, 검색된 콜사인 후보들 중에서 추천 콜사인을 선택하는 단계, 텍스트 내에서 추천 콜사인에 대응하는 디스플레이장치(100)의 동작을 판별하는 단계 등이 수행되며, 이에 관한 자세한 내용은 후술한다.
대화형 서버(30)는 추천 콜사인의 선택과 음성 명령의 대응 동작의 판별이 완료되면, 이러한 선택 및 판별 결과에 따른 제어신호를 디스플레이장치(100)에 전송한다. 이에, 디스플레이장치(100)는 제어신호에 따라서 추천 콜사인에 대한 대응 동작을 수행할 수 있다.
예를 들면, 추천 콜사인이 "KBS-1"이고, 대응 동작이 채널 전환이라고 분석되면, 대화형 서버(30)는 이러한 내용을 지시하는 제어신호를 디스플레이장치(100)에 전송함으로써 디스플레이장치(100)가 "KBS-1" 채널로 전환하도록 한다.
한편, 앞선 640 단계에서 음성 명령이 단문으로 판단되면, 디스플레이장치(100)는 수신된 음성 명령 및 콜사인 관련 키워드에 의한 콜사인 분석 프로세스를 수행한다. 이러한 프로세스는 앞선 대화형 서버(30)에서 수행되는 프로세스와 실질적으로 동일한 원리에 따라서 이루어진다.
이하, 콜사인 관련 키워드에 의한 콜사인 분석 프로세스에 관해 설명한다.
대화형 서버(30)는 콜사인 관련 키워드에 대응하는 콜사인 후보를 검색하고, 검색된 콜사인 후보가 복수 개인지 판단한다.
콜사인에 관련된 키워드 포함 여부의 판단 및 해당 키워드에 대응하는 콜사인 후보의 검색은, 앞선 도 2에서 설명한 바와 같은 방법을 통해 수행될 수 있다. 즉, 대화형 서버(30)는 음성 명령으로부터 추출된 단어를 데이터베이스(200, 도 2 참조) 상에 검색하여 매칭되는 단어(220, 도 2 참조)가 있는지 여부를 판단하고, 매칭되는 단어가 있다면 해당 대표 콜사인(210, 도 2 참조)의 콜사인 후보(230, 도 2 참조)를 얻을 수 있다.
한편, 음성 명령에서 키워드를 추출하는 과정에서, 음성 명령의 오기에 대한 수정 또는 필터링이 수행될 수도 있다. 예를 들면, "안국방송 틀어줘"라는 음성 명령이 있다고 할 때, "안국방송"이란 단어가 데이터베이스 상에 없다고 하더라도, 데이터베이스 상의 "한국방송"이란 단어가 "안국방송"이란 단어와 유사하다고 판단되면 "한국방송"이란 단어가 선택될 수 있다. 단어의 유사도를 판단하는 방법은 다양하게 결정될 수 있는 바, 본 발명의 사상을 한정하지 않는다.
한편, 검색된 콜사인 후보가 하나라면, 대화형 서버(30)는 해당 콜사인 후보를 추천 콜사인으로 선택한다.
반면, 검색된 콜사인 후보가 복수 개라면, 대화형 서버(30)는 기 설정된 선택조건에 따라서 추천 콜사인을 선택한다.
콜사인 후보들 중에서 추천 콜사인을 선택하는 선택조건은 다양한 조건이 미리 설정될 수 있다. 예를 들면, 대화형 서버(30)는 디스플레이장치(100)의 사용 이력 정보에 기초하여, 콜사인 후보 중에서 선택 빈도가 기 설정 순위 이상으로 높은 복수 개의 콜사인을 추천 콜사인으로 선택하거나, 또는 선택 빈도가 가장 높은 하나의 콜사인을 추천 콜사인으로 선택할 수 있다.
콜사인 후보 내에 "KBS-1", "KBS-2", "KBS-sports", "KBS-movie"의 네 콜사인이 있다고 할 때, 제어부(190)는 사용 이력 정보에 기초하여 이들 채널이 소정 기간 동안에 디스플레이장치(100)에서 선택된 빈도를 판단한다. 예를 들어, "KBS-sports", "KBS-movie", "KBS-2", "KBS-1"의 순서대로 선택 빈도가 높다고 할 때, 제어부(190)는 선택 빈도의 순서대로 복수 개의 콜사인을 선택하거나, 또는 하나의 콜사인을 선택할 수 있다.
여기서, 제어부(190)는 복수의 콜사인 후보 중에서 어느 하나를 사용자가 선택 가능하도록 제공하는 유아이 영상(UI, user interface)을 표시할 수 있다.
도 5 및 도 6은 복수의 추천 콜사인 중 어느 하나를 선택 가능하게 제공하는 유아이 영상(310, 320)의 예시도이다.
도 5에 도시된 바와 같이, 제어부(190)는 사용 이력 정보에 기초하여 디스플레이장치(100)에서 선택 빈도가 가장 높은 "KBS-sports" 및 "KBS-movie"을 추천 콜사인으로 선택하고, 선택한 추천 콜사인 중에서 사용자가 원하는 채널을 선택하도록 유아이 영상(310)을 제공한다. 사용자는 유아이 영상(310)을 통하여 "KBS-sports" 및 "KBS-movie" 중에서 어느 하나의 콜사인 및 방송채널을 선택할 수 있다.
또는, 도 6에 도시된 바와 같이, 제어부(190)는 "KBS-sports", "KBS-movie", "KBS-2", "KBS-1"의 모든 콜사인 후보 중에서 어느 하나를 선택 가능하게 제공하는 유아이 영상(320)을 제공할 수도 있다. 유아이 영상(320)에 검색된 모든 콜사인 후보를 표시하되, 제어부(190)는 선택 빈도에 따라서 각 콜사인들의 표시 순서를 결정할 수 있다. 예를 들면, 유아이 영상(320)은 가장 선택 빈도가 높은 순서대로 각 콜사인 후보들이 정렬되어 표시될 수 있다.
만일, 이와 같은 유아이 영상(310, 320)이 표시된 시점에서 기 설정된 시간 동안에 사용자에 의한 선택이 수행되지 않으면, 제어부(190)는 콜사인 후보들 중에서 최우선순위의 채널, 예를 들면 가장 높은 선택 빈도의 "KBS-sports"를 선택하여 대응 동작을 수행한다.
콜사인 후보들 중에서 추천 콜사인을 선택하는 선택조건은 상기한 예시와 상이한 실시예가 적용될 수 있다. 서버(10, 도 1 참조)에는 디스플레이장치(100) 이외의 다양한 타 디스플레이장치가 접속된다. 여기서, 해당 서버(10)는 STT서버(20) 또는 대화형 서버(30)와 동일한 서버이거나, 상이한 서버일 수 있다. 또한, STT서버(20) 및 대화형 서버(30)는 상이한 서버인 것으로 표현하였으나, 동일한 서버로 구현될 수도 있다.
이들 타 디스플레이장치는 각기 사용 이력 정보를 서버(10)에 전송한다. 서버(10)는 각각의 타 디스플레이장치로부터 수집한 사용 이력 정보에 기초하여 콜사인 후보 내의 "KBS-1", "KBS-2", "KBS-sports", "KBS-movie" 각각의 선택 빈도를 판단한다.
제어부(190)는 "KBS-1", "KBS-2", "KBS-sports", "KBS-movie" 의 콜사인 후보를 서버(10)에 전송하고, 콜사인 후보 내에서 추천 후보를 선택해 줄 것으로 요청할 수 있다.
이에, 서버(10)는 콜사인 후보 내에서, 타 디스플레이장치로부터의 사용 이력 정보에 기초한 선택 빈도 순위를 결정한다. 선택 빈도 순위가 "KBS-movie", "KBS-2", "KBS-sports", "KBS-1"이고, 디스플레이장치(100)로부터 요청받은 추천 후보의 수가 하나라고 할 때, 서버(10)는 선택 빈도 순위가 가장 높은 "KBS-movie"를 추천 후보로 결정하여 디스플레이장치(100)에게 알린다. 이에, 제어부(190)는 "KBS-movie"에 관련된 정보를 영상으로 표시할 수 있다.
여기서, 제어부(190)는 하나의 추천 콜사인만을 선택하면, 자동으로 추천 콜사인의 방송채널 영상을 표시할 수 있다. 그런데, 지역 별로 콜사인에 대응하는 채널번호가 동일하지 않을 수 있다.
따라서, 제어부(190)는 디스플레이장치(100)가 위치하는 지역정보를 취득하여, 해당 징역에 맞는 콜사인의 채널번호를 판단한다. 디스플레이장치(100)의 지역을 판단하는 방법은 다양하게 적용될 수 있는 바, 예를 들면 방송신호의 헤더 또는 메타데이터에 포함된 지역/국가 ID를 추출하거나, 통신부(140)의 맥 어드레스를 기초로 하여 서버(10)가 판단하거나, 또는 디스플레이장치(100)에 미리 사용자가 지역정보를 입력해 둘 수도 있다.
이상 설명한 바와 같이, 디스플레이장치(100)는 사용자의 발화에 대응하는 음성 명령이 콜사인 관련 키워드를 포함하면 해당 키워드에 대응하는 추천 콜사인이 선택되도록 하고, 선택된 추천 콜사인의 방송 채널에 대하여 음성 명령에 따른 대응 동작을 수행할 수 있다.
도 7은 본 발명의 제2실시예에 따른 디스플레이장치(100) 및 서버(20, 30)의 인터랙션 과정을 나타내는 예시도이다.
도 7에 도시된 바와 같이, 디스플레이장치(100)는 사용자로부터 발화가 입력되면(700), 해당 발화의 음성신호를 STT서버(20)에 전송한다(710).
STT서버(20)는 수신된 음성신호를 음성 명령으로 변환한다(720). 이 단계까지는 앞선 도 4의 경우와 동일하다.
STT서버(20)는 음성 명령을 대화형 서버(30)에 전달한다(730).
대화형 서버(30)는 콜사인 후보의 검색, 추천 콜사인 선택과 같은 일련의 콜사인 분석 프로세스를 진행한다(740). 이에 관한 자세한 내용은 앞선 실시예의 경우를 응용할 수 있는 바, 자세한 설명을 생략한다. 다만, 본 실시예에서의 콜사인 분석 프로세스는 도 4의 경우와 달리, 대화형 서버(30)가 음성 명령에서 콜사인 키워드의 추출하여 진행된다.
대화형 서버(30)는 추천 콜사인 및 대응 동작을 지시하는 제어신호를 디스플레이장치(100)에 전송함으로써, 디스플레이장치(100)가 해당 제어신호에 따라서 동작하도록 한다(750).
한편, 앞선 실시예에서는 디스플레이장치(100)에 입력된 사용자의 발화를 STT서버(20)에 의해 음성 명령으로 변환하고, 음성 명령이 단문이면 디스플레이장치(100)에서 처리되며 음성 명령이 대화문이면 대화형 서버(30)에 의해 처리되는 구성에 관하여 설명하였다.
그러나, 본 발명의 사상이 이에 한정되지 않으며, 발화를 음성 명령으로 변환하는 구성과, 음성 명령의 단문/대화문 여부에 따라서 해당 음성 명령을 처리하는 주체에 관한 구성은 앞선 실시예와 상이한 구조로 구현될 수도 있다.
도 8은 제3실시예에 따른 디스플레이장치(100a) 및 서버(40)의 인터랙션 구조를 나타내는 구성 블록도이며, 도 9는 도 8의 디스플레이장치(100a) 및 서버(40)의 인터랙션 과정을 나타내는 예시도이다.
도 8에 도시된 바와 같이, 디스플레이장치(100a)는 통신부(140a)와, 음성입력부(160a)와, 음성처리부(170a)와, 제어부(190a)를 포함한다.
여기서, 음성처리부(170a)는 음성입력부(160a)로부터 전달되는 발화를 음성 명령으로 변환하는 STT변환부(171a)와, 음성 명령이 단문일 경우에 이를 처리하는 단문 명령 처리부(172a)를 포함한다.
음성입력부(160a)는 사용자로부터 발화가 입력되면, 입력된 발화의 음성신호를 STT변환부(171a)에 전달한다. STT변환부(171a)는 음성입력부(160a)로부터 전달된 음성신호를 분석하여, 해당 음성의 내용을 포함하는 음성 명령으로 변환한다. STT변환부(171a)는 변환한 음성 명령 제어부(190a)에 전달한다. 즉, STT변환부(171a)는 앞선 제1실시예의 STT서버(20)의 기능을 수행한다.
제어부(190a)는 음성 명령의 단문/대화문 여부를 판단한다. 제어부(190a)는 음성 명령이 단문이면 음성 명령을 단문 명령 처리부(172a)에 전달한다. 단문 명령 처리부(172a)는 제어부(190a)의 제어에 따라서 음성 명령을 분석하고, 분석 결과에 따라서 대응 동작을 실행한다. 음성 명령의 분석 및 실행에 관한 내용은 앞선 실시예를 응용할 수 있는 바, 자세한 설명을 생략한다.
반면, 제어부(190a)는 음성 명령이 대화문이면, 해당 음성 명령을 단문 명령 처리부(172a)에 전달하지 않고, 통신부(140a)를 통해 대화형 서버(40)에 전송한다. 대화형 서버(20)는 앞선 제1실시예의 대화형 서버(30)와 동일한 기능을 수행한다.
이에, 디스플레이장치(100a)는 대화형 서버(20)로부터 수신한 제어신호에 대응하는 동작을 수행한다.
도 9에 도시된 바와 같이, 디스플레이장치(100a)는 대화형 서버(40)에 통신 가능하게 접속한다. 디스플레이장치(100a)는 사용자로부터 발화가 입력되면(810), 해당 발화에 대응하는 음성 명령의 단문/대화문 여부를 판단한다(820). 디스플레이장치(100a)는 음성 명령이 대화문인 것으로 판단하면, 해당 음성 명령을 대화형 서버(40)에 전송한다(830).
대화형 서버(40)는 디스플레이장치(100)로부터 음성 명령을 수신하면(910), 음성 명령으로부터 콜사인 관련 키워드를 추출한다(920).
또는, 콜사인 관련 키워드가 대화형 서버(40)에 의해 추출되는 것이 아닌, 디스플레이장치(100a)에 의해 추출될 수도 있다. 이 경우, 디스플레이장치(100a)는 대화형 서버(40)에 대해 콜사인 관련 키워드 및 음성 명령을 함께 전송한다.
대화형 서버(40)는 키워드에 대응하는 콜사인 후보를 검색한다(930). 대화형 서버(40)는 복수의 콜사인 후보가 검색되면, 검색된 복수의 콜사인 후보 중에서 앞서 설명한 바와 같은 선택조건에 따라서 추천 콜사인을 선택한다(940). 또한, 대화형 서버(40)는 음성 명령을 분석하여, 음성 명령에 따른 대응 동작을 판별한다.
대화형 서버(40)는 추천 콜사인 및 대응 동작을 지시하는 제어신호를 디스플레이장치(100a)에 전송한다(950).
디스플레이장치(100a)는 대화형 서버(40)로부터 수신한 제어신호에 따라서, 추천 콜사인의 방송 채널에 대한 대응 동작을 실행한다(840).
한편, 디스플레이장치(100a)는 앞선 820 단계에서 음성 명령이 단문인 것으로 판단되면, 디스플레이장치(100a) 자체적으로 추천 콜사인 및 대응 동작을 분석한다.
도 10은 본 발명의 제4실시예에 따른 디스플레이장치(100b)의 음성처리부(171b)의 신호 전달 구조를 나타내는 구성 블록도이다.
도 10에 도시된 바와 같이, 음성처리부(170b)는 음성입력부(160b)로부터 전달되는 사용자의 발화를 음성 명령으로 변환하는 STT변환부(171b)와, STT변환부(171b)에 의해 변환된 음성 명령이 단문일 경우에 이를 처리하는 단문 명령 처리부(172b)와, STT변환부(171b)에 의해 변환된 음성 명령이 대화문/자연어일 경우에 이를 처리하는 대화형 명령 처리부(173b)를 포함한다. 음성처리부(170b)의 구조는 본 예시에 의해 한정되지 않으며, 본 예시는 본 발명의 실시예와 직접적인 연관이 있는 사항만을 간략히 표현한 것이다.
음성입력부(160b)는 사용자로부터 발화가 입력되면, 입력된 발화의 음성신호를 STT변환부(171b)에 전달한다. STT변환부(171b)는 음성입력부(160b)로부터 전달된 발화를, 해당 발화의 내용을 포함하는 음성 명령으로 변환한다. STT변환부(171b)는 변환한 음성 명령을 제어부(190b)에 전달한다.
제어부(190b)는 음성 명령이 단문인지 아니면 대화문인지 여부를 판단한다. 이 때, 단문 또는 대화문의 판단 여부는 다양한 알고리즘에 따라서 처리될 수 있다.
제어부(190b)는 음성 명령이 단문인 경우에는 해당 음성 명령을 단문 명령 처리부(172b)로 전달되게 한다. 반면, 제어부(190b)는 음성 명령이 대화문인 경우에는 해당 음성 명령을 대화형 명령 처리부(173b)로 전달한다.
단문 명령 처리부(172b)는 앞선 도 8의 단문 명령 처리부(172a)와 실질적으로 동일한 기능을 수행한다. 또한, 대화형 명령 처리부(173b)는 앞선 실시예들의 대화형 서버(30, 40)가 수행하는 기능을 수행한다.
즉, 본 실시예에 따른 디스플레이장치(100b)는 앞선 실시예들과 달리, 외부 서버(20 내지 40)와의 데이터/신호 전송을 수행하지 않고, 디스플레이장치(100b) 자체적으로 사용자의 발화에 따른 음성 명령의 변환과, 해당 음성 명령에 대응하는 동작을 분석할 수 있다.
한편, 디스플레이장치가 콜사인 분석 프로세스를 실행하는 별도의 서버(미도시)에 접속되어 있는 경우, 단문 명령 처리부(172a) 또는 대화형 명령 처리부(173b)는 키워드 및 음성 명령을 해당 서버(미도시)에 전송함으로써, 해당 서버(미도시)에서 콜사인 분석 프로세스가 수행되도록 할 수도 있다.
즉, 앞선 실시예들에서는 대화형 서버(30, 40) 또는 음성처리부(170, 170a, 170b)에서 콜사인 분석 프로세스가 수행되는 것으로 표현하였으나, 콜사인 분석 프로세스를 수행하는 별도의 서버(미도시)에 의해 해당 프로세스가 수행될 수도 있다.
상기한 실시예는 예시적인 것에 불과한 것으로, 당해 기술 분야의 통상의 지식을 가진 자라면 다양한 변형 및 균등한 타 실시예가 가능하다. 따라서, 본 발명의 진정한 기술적 보호범위는 하기의 특허청구범위에 기재된 발명의 기술적 사상에 의해 정해져야 할 것이다.
10 : 서버
100 : 영상처리장치/디스플레이장치
110 : 영상수신부
120 : 영상처리부
130 : 디스플레이부
140 : 통신부
150 : 사용자입력부
160 : 음성입력부
170 : 음성처리부
180 : 저장부
190 : 제어부

Claims (23)

  1. 영상처리장치에 있어서,
    복수의 방송채널을 포함하는 방송신호를 영상으로 표시되게 처리하는 영상처리부와;
    사용자의 발화가 입력되는 음성입력부와;
    데이터베이스에 기초하여 상기 발화의 키워드에 대응하는 채널을 선택하고, 상기 선택된 채널에 따른 동작을 실행하는 제어부를 포함하며,
    상기 데이터베이스는 적어도 하나의 방송국 ID와, 각각의 상기 방송국 ID에 의해 제공되는 적어도 하나의 채널 ID를 저장하며,
    상기 제어부는, 상기 데이터베이스에서 상기 키워드에 대응하는 방송국 ID에 의해 복수의 채널 ID가 검색되면, 상기 검색된 복수의 채널 ID를 포함하는 유아이 영상을 표시하고, 사용자 입력에 따라서 상기 유아이 영상으로부터 어느 하나의 채널 ID를 선택하며,
    상기 선택된 채널 ID의 채널번호를 영상처리장치가 위치하는 지역에 따라서 판단하고, 판단된 채널번호의 채널로 전환시키는 것을 특징으로 하는 영상처리장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 제어부는, 상기 영상처리장치의 사용 이력 정보에 기초하여, 상기 검색된 복수의 채널 ID 중에서 선택 빈도가 가장 높은 채널 ID를 선택하는 것을 특징으로 하는 영상처리장치.
  4. 제1항에 있어서,
    상기 제어부는, 상기 검색된 복수의 채널 ID 중에서, 서버와 통신하는 복수의 타 영상처리장치에서의 선택 빈도가 기 설정 순위 이상인 채널 ID를 선택하는 것을 특징으로 하는 영상처리장치.
  5. 삭제
  6. 제1항에 있어서
    상기 제어부는, 상기 검색된 복수의 채널 ID를 기 설정된 선택조건의 순으로 상기 유아이 영상에 표시하는 것을 특징으로 하는 영상처리장치.
  7. 제6항에 있어서
    상기 제어부는, 상기 기 설정된 선택조건의 순으로 표시된 상기 복수의 채널 ID 중 가장 순위가 높은 채널 ID에 커서를 표시하는 것을 특징으로 하는 영상처리장치.
  8. 제1항에 있어서
    상기 제어부는, 상기 유아이 영상이 표시된 이후 기 설정된 시간 동안에 사용자로부터 상기 복수의 채널 ID 중 어느 하나를 선택하는 입력이 수행되지 않으면, 기 설정된 선택조건에 기초하여 어느 하나의 상기 선택하는 것을 특징으로 하는 영상처리장치.
  9. 제1항에 있어서,
    상기 발화를 텍스트의 음성 명령으로 변환하는 STT(speech-to-text)서버와 통신하는 통신부를 더 포함하며,
    상기 제어부는, 상기 음성입력부에 상기 발화가 입력되면 상기 발화의 음성신호를 상기 STT서버로 전송하며, 상기 STT서버로부터 상기 발화에 대응하는 상기 음성 명령을 수신하는 것을 특징으로 하는 영상처리장치.
  10. 제9항에 있어서,
    상기 발화에 대응하는 음성 명령을 처리하는 음성처리부를 더 포함하며,
    상기 제어부는, 상기 음성 명령이 단문이면 상기 음성 명령이 상기 음성처리부에 의해 처리되고, 상기 음성 명령이 대화문이면 상기 음성 명령이 상기 통신부와 통신하는 서버에 의해 처리되게 제어하는 것을 특징으로 하는 영상처리장치.
  11. 제1항에 있어서,
    상기 영상처리부에 의해 처리되는 방송채널의 영상을 표시하는 디스플레이부를 더 포함하는 것을 특징으로 하는 영상처리장치.
  12. 서버와 통신하는 영상처리장치의 제어방법에 있어서,
    복수의 방송채널을 포함하는 방송신호를 수신하는 단계와;
    사용자의 발화가 입력되는 단계와;
    적어도 하나의 방송국 ID와, 각각의 상기 방송국 ID에 의해 제공되는 적어도 하나의 채널 ID를 저장하는 데이터베이스에서 상기 발화의 키워드로 검색을 수행하는 단계와;
    상기 데이터베이스에서 상기 키워드에 대응하는 방송국 ID에 의해 복수의 채널 ID가 검색되면, 상기 검색된 복수의 채널 ID를 포함하는 유아이 영상을 표시하는 단계와;
    사용자 입력에 따라서 상기 유아이 영상으로부터 어느 하나의 채널 ID를 선택하는 단계와;
    상기 선택된 채널 ID의 채널번호를 영상처리장치가 위치하는 지역에 따라서 판단하고, 판단된 채널번호의 채널로 전환시키는 단계를 포함하는 것을 특징으로 하는 영상처리장치의 제어방법.
  13. 삭제
  14. 제12항에 있어서,
    상기 영상처리장치의 사용 이력 정보에 기초하여, 상기 검색된 복수의 채널 ID 중에서 선택 빈도가 가장 높은 채널 ID가 선택되는 것을 특징으로 하는 영상처리장치의 제어방법.
  15. 제12항에 있어서,
    상기 검색된 복수의 채널 ID 중에서 서버와 통신하는 복수의 타 영상처리장치에서의 선택 빈도가 기 설정 순위 이상인 채널 ID가 선택되는 것을 특징으로 하는 영상처리장치의 제어방법.
  16. 삭제
  17. 제12항에 있어서
    상기 유아이 영상에서 상기 복수의 채널 ID를 기 설정된 선택조건의 순으로 표시하는 것을 특징으로 하는 영상처리장치의 제어방법.
  18. 제17항에 있어서
    상기 유아이 영상에서 상기 기 설정된 선택조건의 순으로 표시된 상기 복수의 채널 ID 중 가장 순위가 높은 채널 ID에 커서를 표시하는 것을 특징으로 하는 영상처리장치의 제어방법.
  19. 제12항에 있어서
    상기 유아이 영상이 표시된 이후 기 설정된 시간 동안에 사용자로부터 상기 복수의 채널 ID 중 어느 하나를 선택하는 입력이 수행되지 않으면, 기 설정된 선택조건에 기초하여 어느 하나의 상기 채널 ID를 선택하는 단계를 것을 특징으로 하는 영상처리장치의 제어방법.
  20. 제12항에 있어서,
    상기 영상처리장치는 상기 발화를 텍스트의 음성 명령으로 변환하는 STT서버와 통신하며,
    상기 사용자의 발화가 입력되는 단계는,
    상기 발화의 음성신호를 상기 STT서버로 전송하는 단계와;
    상기 STT서버로부터 상기 발화에 대응하는 상기 음성 명령을 수신하는 단계를 포함하는 것을 특징으로 하는 영상처리장치의 제어방법.
  21. 제20항에 있어서,
    상기 음성 명령이 단문이면 상기 음성 명령을 상기 영상처리장치에 의해 처리하고, 상기 음성 명령이 대화문이면 상기 음성 명령을 상기 영상처리장치와 통신하는 서버에 의해 처리되게 제어하는 것을 특징으로 하는 영상처리장치의 제어방법.
  22. 영상처리 시스템에 있어서,
    복수의 방송채널을 포함하는 방송신호를 수신하는 영상처리장치와;
    상기 영상처리장치와 통신하는 서버를 포함하며,
    상기 영상처리장치는,
    상기 방송신호를 영상으로 표시되게 처리하는 영상처리부와;
    사용자의 발화가 입력되는 음성입력부와;
    데이터베이스에 기초하여 상기 발화의 키워드에 대응하는 채널을 선택하고, 상기 선택된 채널에 따른 동작을 실행하는 제어부를 포함하며,
    상기 데이터베이스는 적어도 하나의 방송국 ID와, 각각의 상기 방송국 ID에 의해 제공되는 적어도 하나의 채널 ID를 저장하며,
    상기 제어부는, 상기 데이터베이스에서 상기 키워드에 대응하는 방송국 ID에 의해 복수의 채널 ID가 검색되면, 상기 검색된 복수의 채널 ID를 포함하는 유아이 영상을 표시하고, 사용자 입력에 따라서 상기 유아이 영상으로부터 어느 하나의 채널 ID를 선택하며,
    상기 선택된 채널 ID의 채널번호를 영상처리장치가 위치하는 지역에 따라서 판단하고, 판단된 채널번호의 채널로 전환시키는 것을 특징으로 하는 영상처리 시스템.
  23. 제22항에 있어서,
    상기 발화를 텍스트의 음성 명령으로 변환하는 STT서버를 더 포함하며,
    상기 제어부는, 상기 음성입력부에 상기 발화가 입력되면 상기 발화의 음성신호를 상기 STT서버로 전송하며, 상기 STT서버로부터 상기 발화에 대응하는 상기 음성 명령을 수신하는 것을 특징으로 하는 영상처리 시스템.
KR1020130057262A 2012-09-28 2013-05-21 영상처리장치 및 그 제어방법, 영상처리 시스템 KR101877430B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120109454 2012-09-28
KR20120109454 2012-09-28

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020120115783A Division KR20140039946A (ko) 2012-09-28 2012-10-18 영상처리장치 및 그 제어방법, 영상처리 시스템

Publications (2)

Publication Number Publication Date
KR20140042637A KR20140042637A (ko) 2014-04-07
KR101877430B1 true KR101877430B1 (ko) 2018-07-12

Family

ID=50650455

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020120115783A KR20140039946A (ko) 2012-09-28 2012-10-18 영상처리장치 및 그 제어방법, 영상처리 시스템
KR1020130057262A KR101877430B1 (ko) 2012-09-28 2013-05-21 영상처리장치 및 그 제어방법, 영상처리 시스템

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020120115783A KR20140039946A (ko) 2012-09-28 2012-10-18 영상처리장치 및 그 제어방법, 영상처리 시스템

Country Status (5)

Country Link
JP (2) JP2022008691A (ko)
KR (2) KR20140039946A (ko)
BR (1) BR102013002349A2 (ko)
MX (1) MX341560B (ko)
RU (1) RU2571520C2 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9922648B2 (en) * 2016-03-01 2018-03-20 Google Llc Developer voice actions system
JP6801539B2 (ja) * 2017-03-17 2020-12-16 株式会社リコー 情報処理システム、情報処理装置、情報処理プログラム及び情報処理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007142840A (ja) * 2005-11-18 2007-06-07 Canon Inc 情報処理装置及び情報処理方法
KR20070087910A (ko) * 2006-02-01 2007-08-29 삼성전자주식회사 음성 인식을 이용한 데이터 방송 컨텐츠 제어 장치 및 그방법
JP2012133243A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757718B1 (en) * 1999-01-05 2004-06-29 Sri International Mobile navigation of network-based electronic information using spoken input
JP2005249829A (ja) * 2004-03-01 2005-09-15 Advanced Media Inc 音声認識を行うコンピュータネットワークシステム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007142840A (ja) * 2005-11-18 2007-06-07 Canon Inc 情報処理装置及び情報処理方法
KR20070087910A (ko) * 2006-02-01 2007-08-29 삼성전자주식회사 음성 인식을 이용한 데이터 방송 컨텐츠 제어 장치 및 그방법
JP2012133243A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機

Also Published As

Publication number Publication date
KR20140039946A (ko) 2014-04-02
MX341560B (es) 2016-08-25
JP2022008691A (ja) 2022-01-14
JP2014149548A (ja) 2014-08-21
BR102013002349A2 (pt) 2014-07-08
KR20140042637A (ko) 2014-04-07
MX2015003890A (es) 2015-07-06
RU2571520C2 (ru) 2015-12-20
RU2013103490A (ru) 2014-07-27

Similar Documents

Publication Publication Date Title
JP6824316B2 (ja) 映像処理装置及びその制御方法、並びに映像処理システム
AU2013200307B2 (en) Image processing apparatus and control method thereof and image processing system
US8000972B2 (en) Remote controller with speech recognition
EP2725576A1 (en) Image processing apparatus and control method thereof and image processing system.
JP2000250591A (ja) テレビ番組自動検索システム
US10140985B2 (en) Server for processing speech, control method thereof, image processing apparatus, and control method thereof
KR20160039830A (ko) 멀티미디어 장치 및 그의 음성 가이드 제공방법
KR20130134545A (ko) 리모컨을 이용한 디지털tv 음성 검색 시스템 및 방법
CN111625716A (zh) 媒资推荐方法、服务器及显示设备
KR102145370B1 (ko) 화면을 제어하는 미디어 재생 장치, 방법 및 화면을 분석하는 서버
KR101877430B1 (ko) 영상처리장치 및 그 제어방법, 영상처리 시스템
JP5081207B2 (ja) テレビジョン装置及びその操作方法
KR102175135B1 (ko) 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
KR20150108546A (ko) 사용자 단말기와 연계된 개인화 서비스 방법 및 시스템
CN101764970B (zh) 电视机及其操作方法
JP2007235912A (ja) 放送受信システム、放送受信装置および放送受信装置制御端末
KR20140053760A (ko) 영상처리장치 및 그 제어방법, 영상처리 시스템
KR102418798B1 (ko) 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
KR102317742B1 (ko) 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
KR20170027563A (ko) 영상처리장치 및 그 제어방법
KR101399358B1 (ko) 양방향 tv에 검색어를 제공하는 방법 및 검색어 관리서버

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right