KR20130122359A - 영상처리장치, 음성취득장치, 그 음성인식방법 및 음성인식시스템 - Google Patents

영상처리장치, 음성취득장치, 그 음성인식방법 및 음성인식시스템 Download PDF

Info

Publication number
KR20130122359A
KR20130122359A KR1020120045617A KR20120045617A KR20130122359A KR 20130122359 A KR20130122359 A KR 20130122359A KR 1020120045617 A KR1020120045617 A KR 1020120045617A KR 20120045617 A KR20120045617 A KR 20120045617A KR 20130122359 A KR20130122359 A KR 20130122359A
Authority
KR
South Korea
Prior art keywords
voice
speech
unit
image processing
communication unit
Prior art date
Application number
KR1020120045617A
Other languages
English (en)
Other versions
KR101917182B1 (ko
Inventor
윤현규
김민섭
전병조
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020120045617A priority Critical patent/KR101917182B1/ko
Priority to US13/781,819 priority patent/US20130290001A1/en
Publication of KR20130122359A publication Critical patent/KR20130122359A/ko
Priority to US15/489,101 priority patent/US20170223301A1/en
Application granted granted Critical
Publication of KR101917182B1 publication Critical patent/KR101917182B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4131Peripherals receiving signals from specially adapted client devices home appliance, e.g. lighting, air conditioning system, metering devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/4222Remote control device emulator integrated into a non-television apparatus, e.g. a PDA, media center or smart toy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42221Transmission circuitry, e.g. infrared [IR] or radio frequency [RF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42222Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/43615Interfacing a Home Network, e.g. for connecting the client to a plurality of peripherals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/4363Adapting the video stream to a specific local network, e.g. a Bluetooth® network
    • H04N21/43637Adapting the video stream to a specific local network, e.g. a Bluetooth® network involving a wireless protocol, e.g. Bluetooth, RF or wireless LAN [IEEE 802.11]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)

Abstract

본 발명은 영상처리장치, 음성취득장치, 그 음성인식방법 및 음성인식시스템에 관한 것으로서, 영상처리장치는, 영상신호를 처리하는 영상처리부와; 적어도 하나의 전자기기와 통신을 수행하는 통신부와; 사용자가 발화한 음성을 인식하는 음성인식엔진을 포함하며, 상기 음성인식엔진에 의해 인식된 음성에 대응하는 커맨드를 상기 전자기기로 송신하도록 상기 통신부를 제어하는 제어부를 포함한다. 이에 의하여, 전체 음성인식시스템의 효율을 높이고, 모든 전자기기에 고성능의 CPU를 필요로 하는 음성인식엔진을 구비하는 부담을 줄여, 불필요한 자원 및 비용이 소요되는 것을 방지할 수 있다.

Description

영상처리장치, 음성취득장치, 그 음성인식방법 및 음성인식시스템{IMAGE PROCESSING APPARATUS, VOICE ACQUIRING APPARATUS, VOICE RECOGNITION METHOD THEREOF AND VOICE RECOGNITION SYSTEM}
본 발명은 영상처리장치, 음성취득장치, 그 음성인식방법 및 음성인식시스템에 관한 것으로서, 보다 상세하게는 사용자가 발화한 음성을 인식하는 영상처리장치, 음성취득장치, 그 음성인식방법 및 음성인식시스템에 관한 것이다.
사용자가 발화한 음성을 인식하는 음성인식기능을 갖는 전자기기의 사용이 점차 늘어나고 있다. 음성인식은 PC, 이동통신기기뿐만 아니라 디지털 TV, 에어컨, 홈시어터 등과 같은 가전기기에서도 적극적으로 사용되는 추세이다.
이러한 음성인식기능을 수행하기 위해서는 음성을 인식하는 음성인식엔진을 필요로 한다.
그런데, 음성인식으로 제어하고자 하는 모든 전자기기에 음성인식엔진을 마련하는 것은 비효율적일 뿐 아니라, 고성능의 CPU를 구비해야 하는 부담으로 인해 불필요한 자원 및 비용이 소요되는 단점이 있다.
또한, 사용중인 전자기기가 음성인식을 수행하지 못하는 경우, 사용자는 음성인식엔진이 내장된 전자기기를 새로 구매해야 하는 부담을 지게 된다.
한편, 일반 TV의 송신기(리모트 컨트롤러)에 비해 에어컨과 같이 자주 사용되지 않는 전자기기의 송신기는 분실하기가 쉽고, 필요 시 찾기 어려운 경우가 많다.
본 발명 실시예에 따른 영상처리장치는, 영상신호를 처리하는 영상처리부와; 적어도 하나의 전자기기와 통신을 수행하는 통신부와; 사용자가 발화한 음성을 인식하는 음성인식엔진을 포함하며, 상기 음성인식엔진에 의해 인식된 음성에 대응하는 커맨드를 상기 전자기기로 송신하도록 상기 통신부를 제어하는 제어부를 포함한다.
사용자가 발화한 음성을 입력받는 음성취득부와; 상기 입력된 음성을 전기적인 음성신호로 변환하는 음성변환부를 더 포함하며, 상기 음성인식엔진은 상기 변환된 음성신호를 인식할 수 있다.
상기 통신부는 사용자가 발화한 음성을 입력받아 전기적인 음성신호로 변환하는 음성취득장치로부터 상기 변환된 음성신호를 수신하며, 상기 음성인식엔진은 상기 수신된 음성신호를 인식할 수 있다.
상기 제어부는 상기 인식된 음성에 대응하는 커맨드를 상기 음성취득장치로 송신하도록 상기 통신부를 제어할 수 있다.
상기 음성취득장치는 리모트 컨트롤러일 수 있다.
상기 음성인식엔진은 상기 영상처리장치의 외부에 마련된 클라우드 서버에 포함될 수 있다.
상기 처리된 영상신호를 영상으로 표시하는 디스플레이부를 더 포함하며, 상기 제어부는 상기 인식된 음성에 대한 정보를 표시하도록 상기 디스플레이부를 제어할 수 있다.
상기 통신부는, 적외선 통신을 수행하는 IR 통신부와; 양방향 무선통신을 수행하는 무선 통신부를 포함하며,
상기 제어부는 상기 무선 통신부를 통해 상기 인식된 음성에 대응하는 커맨드를 송신하는 것을 특징으로 하는 영상처리장치.
한편, 본 발명 실시예에 따른 음성취득장치는, 음성인식기능을 갖는 영상처리장치와 통신을 수행하는 통신부와; 사용자가 발화한 음성을 입력받는 음성취득부와; 상기 입력된 음성을 전기적인 음성신호로 변환하는 음성변환부와; 상기 변환된 음성신호를 상기 영상처리장치로 송신하도록 상기 통신부를 제어하는 제어부를 포함한다.
상기 통신부는 적어도 하나의 전자기기와 통신을 수행하며, 상기 제어부는 상기 영상처리장치로부터 상기 음성신호의 인식결과에 따라 인식된 음성에 대응하는 커맨드를 수신하고, 상기 수신된 커맨드를 상기 전자기기로 송신하도록 상기 통신부를 제어할 수 있다.
상기 통신부는, 적외선 통신을 수행하는 IR 통신부와; 양방향 무선통신을 수행하는 무선 통신부를 포함하며, 상기 제어부는 상기 무선 통신부를 통해 상기 인식된 음성에 대응하는 커맨드를 수신하고, 상기 IR 통신부를 통해 상기 수신된 커맨드를 상기 전자기기로 송신할 수 있다.
상기 음성취득장치는 리모트 컨트롤러, 휴대폰, 휴대용 단말장치, 마이크 송신기 중 적어도 하나를 포함할 수 있다.
한편, 본 발명 실시예에 따른 영상신호를 처리하는 영상처리부를 포함하는 영상처리장치의 음성인식방법은, 사용자가 발화한 음성을 인식하는 단계와; 상기 인식된 음성에 대응하는 커맨드를 전자기기로 송신하는 단계를 포함한다.
사용자가 발화한 음성을 입력받는 단계와; 상기 입력된 음성을 전기적인 음성신호로 변환하는 단계를 더 포함하며, 상기 음성을 인식하는 단계는 상기 변환된 음성신호에 기초하여 음성을 인식할 수 있다.
사용자가 발화한 음성을 입력받아 전기적인 음성신호로 변환하는 음성취득장치로부터 변환된 음성신호를 수신하는 단계를 더 포함하며, 상기 음성을 인식하는 단계는 상기 수신된 음성신호에 기초하여 음성을 인식할 수 있다.
상기 커맨드를 전자기기로 송신하는 단계는 상기 인식된 음성에 대응하는 커맨드를 상기 음성취득장치로 송신하는 단계를 포함할 수 있다.
상기 음성취득장치는 리모트 컨트롤러일 수 있다.
상기 인식된 음성에 대한 정보를 표시하는 단계를 더 포함할 수 있다.
한편, 본 발명 일실시예에 따른 음성인식시스템은, 사용자가 발화한 음성을 입력받고, 상기 입력된 음성을 전기적인 음성신호로 변환하여, 상기 변환된 음성신호를 영상처리장치로 송신하는 음성취득장치와; 영상신호를 처리하는 영상처리부와; 상기 음성취득장치로부터 수신된 음성신호에 대응하는 음성을 인식하는 음성인식엔진을 포함하며, 상기 음성인식엔진에 의해 인식된 음성에 대응하는 커맨드를 전자기기로 송신하는 영상처리장치와; 상기 음성인식장치로부터 수신된 커맨드에 대응하는 동작을 수행하는 전자기기를 포함한다.
한편, 본 발명 다른 실시예에 따른 음성인식시스템은, 영상신호를 처리하는 영상처리부와; 음성을 인식하는 음성인식엔진을 포함하며, 사용자가 발화한 음성을 입력받고, 상기 입력된 음성을 전기적인 음성신호로 변환하고, 상기 변환된 음성신호가 상기 음성인식엔진에 의해 인식된 음성에 대응하는 커맨드를 전자기기로 송신하는 영상처리장치와; 상기 음성인식장치로부터 수신된 커맨드에 대응하는 동작을 수행하는 전자기기를 포함한다.
사용자가 발화한 음성을 입력받고, 상기 입력된 음성을 전기적인 음성신호로 변환하여, 상기 변환된 음성신호를 영상처리장치로 송신하고, 상기 영상처리장치로부터 인식된 음성에 대응하는 커맨드를 수신하고, 상기 수신된 커맨드를 전자기기로 송신하는 음성취득장치를 더 포함하며, 상기 전자기기는 상기 음성취득장치로부터 수신된 커맨드에 대응하는 동작을 수행할 수 있다.
도 1은 본 발명의 제1실시예에 의한 음성인식시스템의 예시도이며,
도 2는 도 1의 실시예에 의한 일실시예의 음성인식시스템의 구성을 도시한 블록도이며,
도 3은 도 1의 실시예에 의한 다른 실시예의 음성인식시스템의 구성을 도시한 블록도이며,
도 4는 도 1의 실시예에 의한 또 다른 실시예의 음성인식시스템의 구성을 도시한 블록도이며,
도 5는 본 발명의 제2실시예에 의한 음성인식시스템의 예시도이며,
도 6은 도 4의 실시예에 의한 일실시예의 음성인식시스템의 구성을 도시한 블록도이며,
도 7은 도 4의 실시예에 의한 다른 실시예의 음성인식시스템의 구성을 도시한 블록도이며,
도 8은 본 발명 실시예에 의한 음성인식시스템의 음성인식방법을 도시한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 관하여 상세히 설명한다.
도 1은 본 발명의 제1실시예에 의한 음성인식시스템의 예시도이다.
도 1에 도시된 바와 같이, 본 발명 제1실시예에 의한 음성인식시스템은 영상처리장치(100), 음성취득장치(200) 및 전자기기(300)를 포함한다. 영상처리장치(100), 음성취득장치(200) 및 전자기기(300)는 상호 통신 가능하도록 연결된다.
영상처리장치(100)는 외부의 영상공급원(미도시)으로부터 제공되는 영상신호를 영상으로 표시 가능하도록 기 설정된 영상처리 프로세스에 따라서 처리한다.
본 실시예의 시스템에서 영상처리장치(100)는 방송국의 송출장비로부터 수신되는 방송신호/방송정보/방송데이터에 기초한 방송 영상을 처리하는 TV 또는 셋탑 박스(set top box)로 구현되는 경우에 관해 설명한다. 그러나, 본 발명의 사상이 영상처리장치(100)의 구현 예시에 한정되지 않는 바, 영상처리장치(100)는 TV, 셋탑 박스 이외에도 영상을 처리 가능한 다양한 종류의 구현 예시가 적용될 수 있다.
또한, 영상처리장치(100)는 표시 가능한 영상의 종류가 방송 영상에 한정되지 않는 바, 예를 들면 영상처리장치(100)는 다양한 형식의 영상공급원(미도시)으로부터 수신되는 신호/데이터에 기초한 동영상, 정지영상, 어플리케이션(application), OSD(on-screen display), 다양한 동작 제어를 위한 GUI(graphic user interface) 등의 영상을 표시하도록 처리할 수 있다.
본 발명의 실시예에 따르면, 영상처리장치(100)는 스마트 TV로 구현될 수 있다. 스마트 TV는 실시간으로 방송신호를 수신하여 표시할 수 있고, 웹 브라우저 기능을 가지고 있어 실시간 방송신호의 표시와 동시에 인터넷을 통하여 다양한 컨텐츠 검색 및 소비가 가능하고 이를 위하여 편리한 사용자 환경을 제공할 수 있는 TV이다. 또한, 스마트 TV는 개방형 소프트웨어 플랫폼을 포함하고 있어 사용자에게 양방향 서비스를 제공할 수 있다. 따라서, 스마트TV는 개방형 소프트웨어 플랫폼을 통하여 다양한 컨텐츠, 예를 들어 소정의 서비스를 제공하는 어플리케이션을 사용자에게 제공할 수 있다. 이러한 어플리케이션은 다양한 종류의 서비스를 제공할 수 있는 응용 프로그램으로서, 예를 들어 SNS, 금융, 뉴스, 날씨, 지도, 음악, 영화, 게임, 전자 책 등의 서비스를 제공하는 어플리케이션을 포함한다.
본 실시예의 영상처리장치(100)에는 사용자 음성을 인식하는 음성인식엔진(도 2의 161)이 마련된다. 영상처리장치(100)는 인식된 음성에 대응하는 커맨드(Command) 즉, 제어명령을 전자기기(300)로 송신한다.
음성취득장치(200)는 사용자가 발화한 음성을 입력받고, 이를 전기적인 음성신호로 변환하여 영상처리장치(100)로 송신한다.
음성취득장치(200)는 영상처리장치(100)와 무선통신이 가능한 외부장치이며, 무선통신은 적외선(IR: infrared) 통신, RF(radio frequency) 통신, 블루투스(Bluetooth), 지그비(Zigbee) 등을 포함한다.
본 실시예에서는 음성취득장치(200)가 리모트 컨트롤러로 구현된 것을 일례로 한다. 여기서, 리모트 컨트롤러는 사용자의 조작에 의해 기 설정된 커맨드를 대응하는 장치에 전송한다. 본 실시예의 리모트 컨트롤러는 영상처리장치(100) 또는 전자기기(300)에 커맨드를 전송하도록 기 설정될 수 있으며, 경우에 따라 복수의 장치에 커맨드를 전송하는 통합 리모트 컨트롤러로 구현될 수 있다. 또한, 본 시스템은 복수의 음성취득장치(200)(예를 들어, TV 리모트 컨트롤러와, 에이컨 리모트 컨트롤러)를 포함할 수도 있다. 또한, 음성취득장치(200)를 통해 입력되는 음성은 영상처리장치(100)를 제어하는 음성 및 전자기기(300)를 제어하는 음성을 모두 포함한다.
한편, 본 발명의 음성취득장치(200)는 리모트 컨트롤러뿐 아니라 휴대폰, 휴대용 단말장치, 마이크 송신기 등 사용자가 발화한 음성을 입력받을 수 있는 다양한 장치로 구현될 수 있다.
전자기기(300)는 영상처리장치(100)로부터 수신된 커맨드에 대응하는 동작을 수행한다. 본 실시예에서는 전자기기(300)가 에어컨으로 구현된 것을 그 일례로 하지만, 본 발명의 전자기기(300)는 이에 한정되지 않으며, 무선통신이 가능한 다양한 전자기기 예를 들어, 홈시어터, 라디오, VCR, DVD, 세탁기, 냉장고 등으로 구현될 수 있다.
또한, 본 음성인식시스템은 복수의 전자기기(300)를 포함할 수 있으며, 복수의 전자기기(300) 각각은 영상처리장치(100)로부터 대응하는 커맨드를 수신하여 동작할 수 있다.
도 2는 도 1의 제1실시예에 의한 일실시예의 음성인식시스템의 구성을 도시한 블록도이다.
도 2에 도시된 바와 같이, 영상처리장치(100)는 외부의 영상공급원(미도시)으로부터 제공되는 영상신호를 기 설정된 영상처리 프로세스에 따라서 처리하여 영상으로 표시한다.
본 실시예에서 영상처리장치(100)는 방송국의 송출장비로부터 수신되는 방송신호/방송정보/방송데이터에 기초한 방송 영상을 표시하는 TV로 구현되는 경우에 관해 설명한다. 그러나, 본 발명의 사상이 영상처리장치(100)의 구현 예시에 한정되지 않는 바, 영상처리장치(100)는 TV 이외에도 영상을 처리 가능한 다양한 종류의 구현 예시 예컨대, 셋탑박스, 모니터 등에도 적용될 수 있다.
또한, 영상처리장치(100)는 표시 가능한 영상의 종류가 방송 영상에 한정되지 않는 바, 예를 들면 영상처리장치(100)는 다양한 형식의 영상공급원(미도시)으로부터 수신되는 신호/데이터에 기초한 동영상, 정지영상, 어플리케이션(application), OSD(on-screen display), 다양한 동작 제어를 위한 GUI(graphic user interface, 이하 UI(user interface)라고도 함) 등의 영상을 표시할 수 있다.
도 1에 도시된 바와 같이, 영상처리장치(100)는 영상신호를 수신하는 영상수신부(110), 영상수신부(110)에 수신되는 영상신호를 처리하는 영상처리부(120), 영상처리부(120)에 의해 처리되는 영상신호를 영상으로 표시하는 디스플레이부(130), 외부장치와 통신을 수행하는 제1통신부(140), 각종 데이터가 저장되는 저장부(150), 영상처리장치(100)를 제어하는 제1제어부(160)를 포함한다.
영상수신부(110)는 영상신호를 수신하여 영상처리부(120)에 전달하며, 수신하는 영상신호의 규격 및 영상처리장치(100)의 구현 형태에 대응하여 다양한 방식으로 구현될 수 있다. 예를 들면, 영상수신부(110)는 방송국(미도시)으로부터 송출되는 RF(radio frequency)신호를 무선으로 수신하거나, 컴포지트(composite) 비디오, 컴포넌트(component) 비디오, 슈퍼 비디오(super video), SCART, HDMI(high definition multimedia interface) 규격 등에 의한 영상신호를 유선으로 수신할 수 있다. 영상수신부(110)는 영상신호가 방송신호인 경우, 이 방송신호를 채널 별로 튜닝하는 튜너(tuner)를 포함한다.
또한, 영상신호는 외부기기로부터 입력될 수 있으며, 예컨대, 영상신호는 PC, AV기기, 스마트폰, 스마트패드 등과 같은 외부기기로부터 입력될 수 있다. 또한, 영상신호는 인터넷 등과 같은 네트워크를 통해 수신되는 데이터로부터 기인한 것일 수 있다. 이 경우, 영상처리장치(100)는, 제1통신부(140)를 통해 네트워크 통신을 수행하거나, 별도의 네트워크 통신부를 더 포함할 수 있다. 또한, 영상신호는 플래시메모리, 하드디스크 등과 같은 비휘발성의 저장부(150)에 저장된 데이터로부터 기인한 것일 수 있다. 저장부(150)는 영상처리장치(100)의 내부 또는 외부에 마련될 수 있으며, 외부에 마련되는 경우 저장부(150)가 연결되는 연결부(미도시)를 더 포함할 수 있다.
영상처리부(120)는 영상신호에 대해 기 설정된 다양한 영상처리 프로세스를 수행한다. 영상처리부(120)는 이러한 프로세스를 수행한 영상신호를 디스플레이부(130)에 출력함으로써, 디스플레이부(130)에 영상이 표시되게 한다.
영상처리부(120)가 수행하는 영상처리 프로세스의 종류는 한정되지 않으며, 예를 들면 다양한 영상 포맷에 대응하는 디코딩(decoding), 디인터레이싱(de-interlacing), 프레임 리프레시 레이트(frame refresh rate) 변환, 스케일링(scaling), 영상 화질 개선을 위한 노이즈 감소(noise reduction), 디테일 강화(detail enhancement), 라인 스캐닝(line scanning) 등을 포함할 수 있다. 영상처리부(120)는 이러한 각 프로세스를 독자적으로 수행할 수 있는 개별적 구성의 그룹으로 구현되거나, 또는 여러 기능을 통합시킨 SoC(system-on-chip)로 구현될 수 있다.
디스플레이부(130)는 영상처리부(120)에 의해 처리되는 영상신호에 기초하여 영상을 표시한다. 디스플레이부(130)의 구현 방식은 한정되지 않으며, 예컨대 액정(liquid crystal), 플라즈마(plasma), 발광 다이오드(light-emitting diode), 유기발광 다이오드(organic light-emitting diode), 면전도 전자총(surface-conduction electron-emitter), 탄소 나노 튜브(carbon nano-tube), 나노 크리스탈(nano-crystal) 등의 다양한 디스플레이 방식으로 구현될 수 있다.
디스플레이부(130)는 그 구현 방식에 따라서 부가적인 구성을 추가적으로 포함할 수 있다. 예를 들면, 디스플레이부(130)가 액정 방식인 경우, 디스플레이부(130)는 액정 디스플레이 패널(미도시)과, 이에 광을 공급하는 백라이트유닛(미도시)과, 패널(미도시)을 구동시키는 패널구동기판(미도시)을 포함한다.
본 발명의 디스플레이부(130)는 인식된 음성에 대한 정보로서 음성인식결과를 표시할 수 있다. 여기서, 음성인식결과는 텍스트, 그래픽, 아이콘 등의 다양한 형태로 표시 가능하며, 텍스트는 문자와 숫자를 포함한다. 사용자는 디스플레이부(130)에 표시된 음성인식결과에 의해 음성이 올바르게 인식되었는지를 확인할 수 있으며, 리모트 컨트롤러에 마련된 사용자입력부(230)를 조작하는 방식으로 표시된 정보 중에서 사용자가 발화한 음성에 대응하는 정보를 선택할 수 있다.
제1통신부(140)는 음성취득장치(200) 및 전자기기(300)와 통신을 수행한다. 본 실시예의 제1통신부(140)는 적외선 통신을 수행하는 제1 IR 통신부(141)와, 양방향 무선통신을 수행하는 제1 무선 통신부(142)를 포함한다. 양방향 무선통신은 RF, 지그비, 블루투스 중 적어도 하나를 포함한다.
제1 IR 통신부(141)와 제1 무선 통신부(142)는 리모트 컨트롤러를 포함하는 음성취득장치(200)로부터 각종 커맨드, 신호를 수신하여, 이를 제1제어부(160)에 전달할 수 있다. 여기서, 음성취득장치(200)로부터 수신되는 신호는 변환된 전기적인 음성신호를 포함한다.
제1 무선 통신부(142)는 인식된 음성에 대응하는 커맨드(명령어 코드)를 전자기기(300)로 송신한다.
저장부(150)는 제1제어부(160)의 제어에 따라서 한정되지 않은 데이터가 저장된다. 저장부(150)는 플래시메모리(flash-memory), 하드디스크 드라이브(hard-disc drive)와 같은 비휘발성 저장매체로 구현된다. 저장부(150)는 제1제어부(160)에 의해 액세스되며, 제1제어부(160)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행된다.
저장부(150)에 저장되는 데이터는, 예를 들면 영상처리장치(100)의 구동을 위한 운영체제를 비롯하여, 이 운영체제 상에서 실행 가능한 다양한 어플리케이션, 영상데이터, 부가데이터 등을 포함한다.
본 실시예의 저장부(150)에는 사용자가 발화한 음성을 인식하기 위한 각종 데이터가 저장될 수 있다. 예를 들어, 저장부(150)는 수신된 음성신호에 대응하는 음성인식대상정보를 저장할 수 있다.
제1제어부(160)는 영상처리장치(100)의 다양한 구성에 대한 제어동작을 수행한다. 예를 들면, 제1제어부(160)는 영상처리부(120)가 처리하는 영상처리 프로세스의 진행, 리모트 컨트롤러로부터의 커맨드에 대한 대응 제어동작을 수행함으로써, 영상처리장치(100)의 전체 동작을 제어한다.
제1제어부(160)는 예를 들어 CPU에 소프트웨어가 결합된 형태로 구현될 수 있다.
제1제어부(160)는 사용자가 발화한 음성을 인식하는 음성인식엔진(161)을 포함한다. 음성인식엔진(161)의 음성인식기능은 기 알려진 음성인식알고리즘을 이용하여 수행될 수 있다. 예를 들어, 음성인식엔진(161)은 음성신호의 음성특징 벡터를 추출하고, 추출된 음성특징 벡터를 저장부(150)에 저장된 음성인식대상정보와 비교하여 음성을 인식할 수 있다. 또한, 추출된 음성특징 벡터와 저장부(150)에 저장된 음성인식대상정보가 일치하지 않는 경우, 유사도가 높은 정보로 음성인식 결과를 보정하여 음성을 인식할 수 있다. 여기서, 유사도가 높은 음성인식대상정보가 복수인 경우, 제1제어부(160)는 디스플레이부(130)에 복수의 정보를 표시하고, 사용자에 의해 어느 하나를 선택받을 수 있다.
본 실시예의 음성인식엔진(161)은 CPU에 상주하는 임베디드 음성인식엔진(161)으로 구현된 것을 예로 들어 설명하지만, 본 발명은 이에 한정되지 않는다. 예를 들어, 음성인식엔진(161)은 CPU와 별개인 영상처리장치(100) 내에 내장된 장치 즉, 마이컴(Micro Computer)과 같은 별도의 칩으로 구현될 수 있다.
제1제어부(160)는 음성인식엔진(160)의 인식결과에 대응하는 동작을 수행한다. 예를 들어, 영상처리장치(100)가 TV인 경우 영화나 뉴스를 사용자가 시청하고 있을 때, 음성인식엔진(160)이 "볼륨 업", "볼륨 다운" 또는 "소리 크게", "소리 작게" 등을 인식하면, 제1제어부(160)는 이에 대응하도록 영화나 뉴스의 소리 크기(볼륨)를 조절할 수 있다.
제1제어부(160)는 음성인식엔진(160)의 인식결과, 인식된 음성이 전자기기(300)를 제어하는 음성인 경우, 인식된 음성에 대응하는 커맨드를 전자기기(300)로 송신하도록 제1통신부(140)를 제어한다.
예를 들어, 음성인식엔진(160)이 "온도 올려"를 인식하면, 제1제어부(160)는 이를 에어컨에 대한 음성으로 인식하고, 에어컨의 온도를 상승시키도록 하는 커맨드를 에어컨에 대응하는 전자기기(300)로 송신하도록 제1통신부(140)를 제어한다. 음성인식엔진(160)에서 인식 가능한 음성은 "온도 올려" 이외에도, "운전 정지/정지", "아열대", "냉방운전/냉방", "제습운전/제습", "난방운전/난방", "바람세게/강풍", "바람중간/약풍", "바람약하게/미풍", "온도 내려" 등 에어컨에서 수행되는 다양한 제어 커맨드를 포함한다.
여기서, 제1제어부(160)는 저장부(150)에 저장된 음성인식대상정보와의 비교를 통해 영상처리장치(100)를 제어하는 제1음성과, 전자기기(300)를 제어하는 제2음성을 구별할 수 있다.
또한, 제1제어부(160)는 음성신호를 송신한 음성취득장치(200)에 따라 가 영상처리장치(100)를 제어하는 제1음성과, 전자기기(300)를 제어하는 제2음성을 구별할 수도 있다. 예를 들어, TV 리모트 컨트롤러로부터 수신된 음성신호는 영상처리장치(100)를 제어하는 제1음성으로, 에어컨 리모트 컨트롤러로부터 수신된 음성신호는 전자기기(300) 즉, 에어컨을 제어하는 제2음성으로 구별할 수 있다. 이러한 경우, 음성취득장치(200)로부터 송신되는 음성신호는 제어하고자 하는 장치에 대한 식별정보를 포함한다.
제1통신부(140)를 통해 송신되는 커맨드는 제어대상인 전자기기(300)에 대한 식별정보를 포함하는 기설정된 형식의 제어신호가 된다.
이하, 음성취득장치(200)의 구체적인 구성에 관해 설명한다.
도 2에 도시된 바와 같이, 음성취득장치(200)는 사용자가 발화한 음성은 입력받는 음성취득부(210), 입력된 음성을 전기적인 음성신호로 변환하는 음성변환부(220), 사용자의 조작을 입력받는 사용자입력부(230), 외부장치와 통신을 수행하는 제2통신부(240), 음성취득장치(200)를 제어하는 제2제어부(260)를 포함한다.
음성취득부(210)는 사용자가 발화한 음성을 입력받는 것으로서, 마이크로 폰으로 구현될 수 있다.
음성변환부(220)는 음성취득부(210)에서 입력된 음성을 전기적인 음성신호로 변환한다. 변환된 음성신호는 PCM(pulse code modulation) 상태 또는 압축된 형태의 오디오 파형의 형태를 가진다. 여기서, 음성변환부(220)는 사용자의 입력음성을 디지털로 변환하는 A/D 변환부로 구현될 수 있다.
한편, 음성취득부(210)가 디지털 마이크로 폰인 경우, 별도의 A/D 변환을 필요로 하지 않으므로, 음성취득부(210)가 음성변환부(220)를 포함할 수 있다.
사용자입력부(230)는 사용자의 조작 및 입력에 의해, 기 설정된 다양한 제어 커맨드 또는 한정되지 않은 정보를 제2제어부(260)에 전달한다. 사용자입력부(140)는 음성취득장치(200)의 외측에 설치된 메뉴 키, 숫자 키 등을 포함하는 버튼으로 구현될 수 있다. 음성취득장치(200)가 TV 리모트 컨트롤러인 경우, 사용자입력부(230)는 사용자의 터치입력을 수신하는 터치감지부와, 음성취득장치(200)의 모션을 감지하는 모션감지부를 더 포함할 수 있다.
제2통신부(240)는 영상처리장치(100) 및 전자기기(300)와 통신을 수행한다. 본 실시예의 제2통신부(240)는 적외선 통신을 수행하는 제2 IR 통신부(241)를 포함한다.
제2 IR 통신부(241)는 사용자입력부(230)에 대한 사용자의 조작에 의한 각종 제어 커맨드를 대응하는 전자장치 즉, 영상처리장치(100) 또는 전자기기(300)에 송신한다.
본 실시예의 제2 IR 통신부(241)는 음성취득부(210)를 통해 입력된 사용자의 음성이 변환된 음성신호를 영상처리장치(100)에 송신할 수 있다. 여기서, 음성취득장치(200)가 TV 리모트 컨트롤러, 에어컨 리모트 컨트롤러와 같이 복수로 구비된 경우, 송신되는 음성신호는 음성취득장치(200)에 대한 식별정보 또는 제어대상인 전자장치(300)에 대한 식별정보를 포함할 수 있다.
한편, 본 실시예의 제2통신부(240)는 양방향 무선통신을 수행하는 제2 무선 통신부(242)를 포함할 수 있다. 양방향 무선통신은 RF, 지그비, 블루투스 중 적어도 하나를 포함한다.
제2제어부(260)는 음성취득장치(200)의 다양한 구성에 대한 제어동작을 수행한다. 예를 들면, 제2제어부(260)는 사용자입력부(230)에 대한 사용자의 조작에 대응하는 커맨드를 생성하고, 생성된 커맨드를 영상처리장치(100) 또는 전자기기(300)로 송신하도록 제2통신부(140)를 제어할 수 있다.
제2제어부(260)는 예를 들어 MCU(Micro Controller Unit)에 소프트웨어가 결합된 형태로 구현될 수 있다.
본 실시예의 제2제어부(260)는 음성취득부(210)를 통해 사용자가 발화한 음성이 입력되면, 이를 전기적인 음성신호로 변환하도록 음성변환부(220)를 제어하고, 변환된 음성신호를 영상처리장치(100)로 송신하도록 제2통신부(240)를 제어한다.
여기서, 음성취득장치(200)가 TV 리모트 컨트롤러, 에어컨 리모트 컨트롤러와 같이 복수로 구비된 경우, 제2제어부(260)는 음성신호에 음성취득장치(200)에 대한 식별정보 또는 제어대상인 전자장치(300)에 대한 식별정보를 부가하여 영상처리장치(100)로 송신할 수 있다. 영상처리장치(100)는 음성신호에 포함된 식별정보를 이용하여 제어하고자 하는 전자기기(300)를 구별하여, 대응하는 전자기기(300)에 커맨드를 송신할 수 있게 된다.
한편, 전자기기(300)는 영상처리장치(100)로부터 제어 커맨드를 수신하고, 수신된 커맨드에 대응하는 동작을 수행한다.
도 2에 도시된 바와 같이, 전자기기(300)는 외부장치와 통신을 수행하는 제3통신부(340)와, 전자기기(300)의 동작을 제어하는 제3제어부(360)를 포함한다.
제3통신부(340)는 영상처리장치(100)의 제1 무선 통신부(142)에 대응하는 제3 무선 통신부(342)를 포함한다. 여기서, 제3 무선 통신부(342)는 양방향 무선통신인 RF, 지그비, 블루투스 중 적어도 하나에 대응할 수 있다. 또한, 제3통신부(340)는 기존의 리모트 컨트롤러에 의한 제어신호를 수신하는 제3 IR 통신부(341)를 더 포함할 수 있다.
예를 들어, 전자기기(300)가 에어컨이고 영상처리장치(100)가 사용자음성 "온도 올려"를 인식하여 이에 대응하는 커맨드를 제 1 무선통신부(142)를 통해 송신하면, 제3제어부(360)는 제3 무선 통신부(342)를 통해 이를 수신하고, 에어컨의 온도를 상승시키게 된다.
여기서, 전자기기(300)에서 수신되는 커맨드는 "온도 올려" 외에도 에어컨에서 수행 가능한 다양한 제어에 대응하는 커맨드를 포함하며, 에어컨 뿐 아니라 라디오, 홈시어터, VCR, DVD, 세탁기, 냉장고 등 다양한 전자기기(300)를 제어하는 커맨드를 더 포함할 수 있다.
도 2의 실시예에 따르면, 음성취득장치(200)는 사용자가 발화한 음성이 입력되면, 이를 음성신호로 변환하여 제2 IR 통신부(241)와 제2 무선 통신부(242) 중 어느 하나를 통해 영상처리장치(100)로 송신한다. 영상처리장치(100)는 수신된 음성신호에 대하여 음성인식엔진(161)을 통해 인식된 음성에 대응하는 커맨드를 제1 무선 통신부(142)를 통해 전자기기(300)로 송신한다. 전자기기(300)는 제3 무선 통신부(342)를 통해 영상처리장치(100)로부터 커맨드를 수신하고, 수신된 커맨드에 대응하는 동작을 수행한다.
도 3은 도 1의 실시예에 의한 다른 실시예의 음성인식시스템의 구성을 도시한 블록도이다.
도 3의 실시예에 따른 음성인식시스템은 도 2의 실시예에 따른 음성인식시스템과 비교하여 볼 때, 영상처리장치(100)가 인식된 음성에 대응하는 커맨드를 음성취득장치(200)로 송신하고, 음성취득장치(200)가 수신된 커맨드를 전자장치(300)로 다시 송신하는 것에 특징이 있다. 그러므로, 구성요소는 도2의 실시예와 동일 도면부호 및 동일 부재명을 사용하였으며, 중복 설명을 피하기 위하여 이 부분에 대해서는 자세한 설명을 생략하기로 한다.
도 3의 실시예에 따른 전자기기(300)의 제3통신부(340)에는 적외선 통신을 수신하는 제3 IR 통신부(341)가 마련되며, 양방향 무선통신을 수행하는 통신모듈은 포함하지 않는다.
예를 들어, 전자기기(300)가 구형 모델로서 기존의 리모트 컨트롤러를 통한 IR 신호에 의한 커맨드만 수신 가능한 경우, 도 3의 실시예가 적용될 수 있다.
도 3의 실시예에 따르면, 음성취득장치(200)는 사용자가 발화한 음성이 입력되면, 이를 음성신호로 변환하여 제2 IR 통신부(241)와 제2 무선 통신부(242) 중 어느 하나를 통해 영상처리장치(100)로 송신한다. 영상처리장치(100)는 수신된 음성신호에 대하여 음성인식엔진(161)을 통해 인식된 음성에 대응하는 커맨드를 제1 무선 통신부(142)를 통해 음성취득장치(200)로 송신한다. 음성취득장치(200)는 제2 무선 통신부(242)를 통해 영상처리장치(100)로부터 커맨드를 수신하고, 수신된 커맨드를 제2 IR 통신부(241)를 통해 전자기기(300)로 송신한다. 전자기기(300)는 제3 IR 통신부(341)를 통해 음성취득장치(200)로부터 커맨드를 수신하고, 수신된 커맨드에 대응하는 동작을 수행한다.
도 4는 도 1의 제1실시예에 의한 또 다른 실시예의 음성인식시스템의 구성을 도시한 블록도이다.
도 4의 실시예에 따른 음성인식시스템은 도 2 및 도 3의 실시예에 따른 음성인식시스템과 비교하여 볼 때, 음성인식엔진(401)이 영상처리장치(100)의 외부에 마련된 클라우드 서버(400)에 포함되는 것이 특징이 있다. 그러므로, 클라우드 서버(400) 및 음성인식엔진(401)을 제외한 구성요소는 도 2 및 도3의 실시예와 동일 도면부호 및 동일 부재명을 사용하였으며, 중복 설명을 피하기 위하여 이 부분에 대해서는 자세한 설명을 생략하기로 한다.
도 4의 실시예에 따른 클라우드 서버(400)는 영상처리장치(100)와 인터넷과 같은 네트워크를 통하여 통신을 수행한다. 여기서, 네트워크는 유선 또는 무선 네트워크일 수 있다.
음성인식엔진(401)의 음성인식기능은 기 알려진 음성인식알고리즘을 이용하여 수행될 수 있으며, 구체적인 설명은 도 2에서 설명한 바와 같으므로 생략한다.
본 실시예의 음성인식엔진(401)은 클라우드 서버(400)의 CPU에 상주하는 임베디드 음성인식엔진이나, CPU와 별개인 클라우드 서버(400) 내에 내장된 장치 즉, 마이컴(Micro Computer)과 같은 별도의 칩으로 구현될 수 있다.
도 4의 일실시예에 따르면, 음성취득장치(200)는 사용자가 발화한 음성이 입력되면, 이를 음성신호로 변환하여 영상처리장치(100)로 송신하고, 영상처리장치(100)는 수신된 음성신호를 클라우드 서버(400)로 송신한다. 클라우드 서버(400)는 음성인식엔진(401)을 통한 음성인식결과를 영상처리장치(200)로 송신한다. 영상처리장치(100)는 수신된 음성인식결과에 따라 인식된 음성에 대응하는 커맨드를 전자기기(300)로 송신하고, 전자기기(300)는 영상처리장치(100)로부터 수신된 커맨드에 대응하는 동작을 수행한다.
도 4의 다른 실시예에 따르면, 음성취득장치(200)는 사용자가 발화한 음성이 입력되면, 이를 음성신호로 변환하여 제2 IR 통신부(241)와 제2 무선 통신부(242) 중 어느 하나를 통해 영상처리장치(100)로 송신하고, 영상처리장치(100)는 수신된 음성신호를 클라우드 서버(400)로 송신한다. 클라우드 서버(400)는 음성인식엔진(401)을 통한 음성인식결과를 영상처리장치(200)로 송신한다. 영상처리장치(100)는 수신된 음성인식결과에 따라 인식된 음성에 대응하는 커맨드를 제1 무선 통신부(142)를 통해 음성취득장치(200)로 송신한다. 음성취득장치(200)는 제2 무선 통신부(242)를 통해 영상처리장치(100)로부터 커맨드를 수신하고, 수신된 커맨드를 제2 IR 통신부(241)를 통해 전자기기(300)로 송신한다. 전자기기(300)는 제3 IR 통신부(341)를 통해 음성취득장치(200)로부터 커맨드를 수신하고, 수신된 커맨드에 대응하는 동작을 수행한다.
도 5는 본 발명의 제2실시예에 의한 음성인식시스템의 예시도이다.
도 5에 도시된 본 발명의 제2실시예에 의한 음성인식시스템은 도 1에 도시된 음성인식시스템과 비교하여 볼 때, 영상처리장치(100) 내에 음성취득 및 변환을 위한 구성이 포함된 것이 특징이 있다. 그러므로, 제2실시예에 의한 음성인식시스템은 별도의 음성인식장치(200)가 마련되지 않고, 영상처리장치(100)가 음성취득, 음성변환, 음성인식을 모두 수행한다.
도 6은 도 5의 실시예에 의한 일실시예의 음성인식시스템의 구성을 도시한 블록도이다. 도 6에 도시된 음성인식시스템은 도 2의 실시예와 비교하여 볼 때, 영상처리장치(100)에 음성취득부(170)와 음성변환부(180)가 마련된 것에 특징이 있다. 그러므로, 음성취득부(170)와 음성변환부(180) 이외의 다른 구성요소는 도 2의 실시예와 동일 도면부호 및 동일 부재명을 사용하였으며, 중복 설명을 피하기 위하여 이 부분에 대해서는 자세한 설명을 생략하기로 한다.
음성취득부(170)는 사용자가 발화한 음성을 입력받는 것으로서, 마이크로 폰으로 구현될 수 있다.
음성변환부(180)는 음성취득부(170)에서 입력된 음성을 전기적인 음성신호로 변환한다. 변환된 음성신호는 PCM(pulse code modulation) 상태 또는 압축된 형태의 오디오 파형의 형태를 가진다. 여기서, 음성변환부(180)는 사용자의 입력음성을 디지털신로로 변환하는 A/D 변환부로 구현될 수 있다.
한편, 음성취득부(170)가 디지털 마이크로 폰인 경우, 별도의 A/D 변환을 필요로 하지 않으므로, 음성취득부(170)가 음성변환부(180)를 포함할 수 있다.
도 6의 일실시예의 영상처리장치(100)의 제1제어부(160)는 음성취득부(170)를 통해 사용자가 발화한 음성이 입력되면, 이를 전기적인 음성신호로 변환하도록 음성변환부(180)를 제어하고, 음성인식엔진(160)의 인식결과 인식된 음성이 전자기기(300)를 제어하는 음성인 경우, 인식된 음성에 대응하는 커맨드를 제1 무선 통신부(142)를 통해 전자기기(300)로 송신한다. 전자기기(300)는 제3 무선 통신부(342)를 통해 영상처리장치(200)로부터 커맨드를 수신하고, 수신된 커맨드에 대응하는 동작을 수행한다.
한편, 도시되지 않았으나 도 6의 다른 실시예의 영상처리장치(100)의 제1제어부(160)는 음성취득부(170)를 통해 사용자가 발화한 음성이 입력되면, 이를 전기적인 음성신호로 변환하도록 음성변환부(180)를 제어하고, 음성인식엔진(160)의 인식결과 인식된 음성이 전자기기(300)를 제어하는 음성인 경우, 인식된 음성에 대응하는 커맨드를 제1 무선 통신부(142)를 통해 전자기기(300)의 리모트 컨트롤러(에어컨의 리모트 컨트롤러)로 송신할 수 있다.
리모트 컨트롤러는 수신된 커맨드를 IR 통신부를 통해 전자기기(300)로 송신할 수 있다. 전자기기(300)는 제3 IR 통신부(341)를 통해 리모트 컨트롤러로부터 커맨드를 수신하고, 수신된 커맨드에 대응하는 동작을 수행할 수 있다.
도 7은 도 4의 제2실시예에 의한 다른 실시예의 음성인식시스템의 구성을 도시한 블록도이다.
도 7의 실시예에 따른 음성인식시스템은 도 6의 실시예에 따른 음성인식시스템과 비교하여 볼 때, 음성인식엔진(401)이 영상처리장치(100)의 외부에 마련된 클라우드 서버(400)에 포함되는 것이 특징이 있다. 그러므로, 클라우드 서버(400) 및 음성인식엔진(401)을 제외한 구성요소는 도 6의 실시예와 동일 도면부호 및 동일 부재명을 사용하였으며, 중복 설명을 피하기 위하여 이 부분에 대해서는 자세한 설명을 생략하기로 한다.
도 7의 실시예에 따른 클라우드 서버(400)는 도 4의 실시예와 마찬가지로 영상처리장치(100)와 인터넷과 같은 네트워크를 통하여 통신을 수행한다. 여기서, 네트워크는 유선 또는 무선 네트워크일 수 있다.
음성인식엔진(401)의 음성인식기능은 기 알려진 음성인식알고리즘을 이용하여 수행될 수 있으며, 구체적인 설명은 도 2에서 설명한 바와 같으므로 생략한다.
본 실시예의 음성인식엔진(401)은 클라우드 서버(400)의 CPU에 상주하는 임베디드 음성인식엔진이나, CPU와 별개인 클라우드 서버(400) 내에 내장된 장치 즉, 마이컴(Micro Computer)과 같은 별도의 칩으로 구현될 수 있다.
도 7의 실시예에 따르면, 영상처리장치(100)의 제1제어부(160)는 음성취득부(170)를 통해 사용자가 발화한 음성이 입력되면, 이를 전기적인 음성신호로 변환하도록 음성변환부(180)를 제어한다. 영상처리장치(100)는 변환된 음성신호를 클라우드 서버(400)로 송신한다. 클라우드 서버(400)는 음성인식엔진(401)을 통한 음성인식결과를 영상처리장치(200)로 송신한다. 영상처리장치(100)는 수신된 음성인식결과에 따라 인식된 음성에 대응하는 커맨드를 제1 무선 통신부(142)를 통해 전자기기(300)로 송신한다. 전자기기(300)는 영상처리장치(100)로부터 제3 무선 통신부(342)를 통해 커맨드를 수신하고, 수신된 커맨드에 대응하는 동작을 수행한다.
이하, 본 실시예에 따른 음성인식시스템의 음성인식방법에 관해 도면을 참조하여 설명한다.
도 8은 도 1 내지 도 7에 도시된 본 발명 실시예의에 의한 음성인식시스템의 음성인식방법을 도시한 흐름도이다.
도 8에 도시된 바와 같이, 본 발명의 음성인식시스템은 음성취득장치(200)의 음성취득부(210) 또는 영상처리장치(100)의 음성취득부(170)를 통해 사용자가 발화한 음성을 입력받는다(S502).
단계 S502에서 입력된 사용자 음성은 음성취득장치(200)의 음성변환부(220) 또는 영상처리장치(100)의 음성변환부(180)에서 전기적인 음성신호로 변환된다(S504).
영상처리장치(100)는 제1제어부(160)에 임베디드된 음성인식엔진(161) 또는 클라우드 서버(400)의 음성인식엔진(401)을 통해 단계 S504에서 변환된 음성신호에 대응하는 음성을 인식한다(S506). 여기서, 클라우드 서버(400)의 음성인식엔진(401)를 이용하는 경우, 단계 S506은 영상처리장치(100)가 음성신호를 클라우드 서버(400)로 송신하고, 음성인식 결과를 수신하는 단계를 포함할 수 있다.
영상처리장치(100)는 단계 S506에서 인식된 음성에 대한 정보를 디스플레이부(130)에 표시할 수 있다(S508). 여기서, 음성인식 결과가 복수인 경우, 제1제어부(160)는 디스플레이부(130)에 복수의 정보를 표시하고, 사용자에 의해 어느 하나를 선택받을 수 있다.
영상처리장치(100)는 단계 S506에서 인식된 음성에 대응하는 커맨드를 전자기기(300)로 송신한다(S510). 여기서, 전자기기(300)가 적외선 통신을 수신하는 제3 IR 통신부(341)를 포함하는 경우, 단계 S510은 영상처리장치(100)가 인식된 음성에 대응하는 커맨드를 음성취득장치(200)로 송신하는 단계와, 음성취득장치(200)가 수신된 커맨드를 전자기기(300)로 송신하는 단계를 포함할 수 있다.
전자장치(300)는 단계 S510에서 수신된 커맨드에 대응하는 동작을 수행한다(S512).
이와 같이, 본 발명의 실시예에 의하면, 영상처리장치(100)에 마련된 음성인식엔진(161, 401)서 음성인식을 수행하고, 인식 결과에 따른 커맨드를 제어 대상인 전자장치(300)로 송신하는 하나의 에코(echo) 시스템에 음성인식을 적용하여, 전체 음성인식시스템의 효율을 높일 수 있다.
또한, 모든 전자기기에 고성능의 CPU를 필요로 하는 음성인식엔진을 구비하는 부담을 줄여, 불필요한 자원 및 비용이 소요되는 것을 방지할 수 있다.
특히, 음성인식 결과를 사용자가 즉시 확인할 수 있는 영상처리장치에서 음성인식을 수행하므로, 사용자 편의성을 향상시키고 음성인식의 오류를 줄일 수 있다.
또한, 사용중인 전자기기가 음성인식을 수행하지 못하는 경우라도, 영상처리장치(100)와 같은 기설치된 자원을 활용하여 음성인식기능을 이용할 수 있다.
또한, 에어컨과 같이 자주 사용되지 않는 전자기기의 송신기(리모트 컨트롤러)를 분식한 경우에도 음성인식에 의해 간편하게 해당 전자기기를 제어할 수 있게 된다.
이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며 특허청구범위 내에서 다양하게 실시될 수 있다.
100 : 영상처리장치 110 : 영상수신부
120 : 영상처리부 130 : 디스플레이부
140 : 제1통신부 141 : 제1 IR 통신부
142 : 제1 무선 통신부 150 : 저장부
160 : 제1제어부 161, 401 : 음성인식엔진
170, 210: 음성취득부 180, 220: 음성변환부
200 : 음성취득장치 230 : 사용자입력부
240 : 제2통신부 241 : 제2 IR 통신부
242 : 제2 무선 통신부 260 : 제2제어부
300 : 전자기기 340 : 제3통신부
341 : 제3 IR 통신부 342 : 제3 무선 통신부
360 : 제3제어부 400 : 클라우드 서버

Claims (21)

  1. 영상처리장치에 있어서,
    영상신호를 처리하는 영상처리부와;
    적어도 하나의 전자기기와 통신을 수행하는 통신부와;
    사용자가 발화한 음성을 인식하는 음성인식엔진을 포함하며, 상기 음성인식엔진에 의해 인식된 음성에 대응하는 커맨드를 상기 전자기기로 송신하도록 상기 통신부를 제어하는 제어부를 포함하는 것을 특징으로 하는 영상처리장치.
  2. 제1항에 있어서,
    사용자가 발화한 음성을 입력받는 음성취득부와;
    상기 입력된 음성을 전기적인 음성신호로 변환하는 음성변환부를 더 포함하며,
    상기 음성인식엔진은 상기 변환된 음성신호를 인식하는 것을 특징으로 하는 영상처리장치.
  3. 제1항에 있어서,
    상기 통신부는 사용자가 발화한 음성을 입력받아 전기적인 음성신호로 변환하는 음성취득장치로부터 상기 변환된 음성신호를 수신하며,
    상기 음성인식엔진은 상기 수신된 음성신호를 인식하는 것을 특징으로 하는 영상처리장치.
  4. 제3항에 있어서,
    상기 제어부는 상기 인식된 음성에 대응하는 커맨드를 상기 음성취득장치로 송신하도록 상기 통신부를 제어하는 것을 특징으로 하는 영상처리장치.
  5. 제4항에 있어서,
    상기 음성취득장치는 리모트 컨트롤러인 것을 특징으로 하는 영상처리장치.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 음성인식엔진은 상기 영상처리장치의 외부에 마련된 클라우드 서버에 포함되는 것을 특징으로 하는 영상처리장치.
  7. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 처리된 영상신호를 영상으로 표시하는 디스플레이부를 더 포함하며,
    상기 제어부는 상기 인식된 음성에 대한 정보를 표시하도록 상기 디스플레이부를 제어하는 것을 특징으로 하는 영상처리장치.
  8. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 통신부는,
    적외선 통신을 수행하는 IR 통신부와;
    양방향 무선통신을 수행하는 무선 통신부를 포함하며,
    상기 제어부는 상기 무선 통신부를 통해 상기 인식된 음성에 대응하는 커맨드를 송신하는 것을 특징으로 하는 영상처리장치.
  9. 음성취득장치에 있어서,
    음성인식기능을 갖는 영상처리장치와 통신을 수행하는 통신부와;
    사용자가 발화한 음성을 입력받는 음성취득부와;
    상기 입력된 음성을 전기적인 음성신호로 변환하는 음성변환부와;
    상기 변환된 음성신호를 상기 영상처리장치로 송신하도록 상기 통신부를 제어하는 제어부를 포함하는 것을 특징으로 하는 음성취득장치.
  10. 제9항에 있어서,
    상기 통신부는 적어도 하나의 전자기기와 통신을 수행하며,
    상기 제어부는 상기 영상처리장치로부터 상기 음성신호의 인식결과에 따라 인식된 음성에 대응하는 커맨드를 수신하고, 상기 수신된 커맨드를 상기 전자기기로 송신하도록 상기 통신부를 제어하는 것을 특징으로 하는 음성취득장치.
  11. 제10항에 있어서,
    상기 통신부는,
    적외선 통신을 수행하는 IR 통신부와;
    양방향 무선통신을 수행하는 무선 통신부를 포함하며,
    상기 제어부는 상기 무선 통신부를 통해 상기 인식된 음성에 대응하는 커맨드를 수신하고, 상기 IR 통신부를 통해 상기 수신된 커맨드를 상기 전자기기로 송신하는 것을 특징으로 하는 음성취득장치.
  12. 제9항 내지 제11항 중 어느 한 항에 있어서,
    상기 음성취득장치는 리모트 컨트롤러, 휴대폰, 휴대용 단말장치, 마이크 송신기 중 적어도 하나를 포함하는 것을 특징으로 하는 음성취득장치.
  13. 영상신호를 처리하는 영상처리부를 포함하는 영상처리장치의 음성인식방법에 있어서,
    사용자가 발화한 음성을 인식하는 단계와;
    상기 인식된 음성에 대응하는 커맨드를 전자기기로 송신하는 단계를 포함하는 것을 특징으로 하는 영상처리장치의 음성인식방법.
  14. 제13항에 있어서,
    사용자가 발화한 음성을 입력받는 단계와;
    상기 입력된 음성을 전기적인 음성신호로 변환하는 단계를 더 포함하며,
    상기 음성을 인식하는 단계는 상기 변환된 음성신호에 기초하여 음성을 인식하는 것을 특징으로 하는 영상처리장치의 음성인식방법.
  15. 제13항에 있어서,
    사용자가 발화한 음성을 입력받아 전기적인 음성신호로 변환하는 음성취득장치로부터 변환된 음성신호를 수신하는 단계를 더 포함하며,
    상기 음성을 인식하는 단계는 상기 수신된 음성신호에 기초하여 음성을 인식하는 것을 특징으로 하는 영상처리장치의 음성인식방법.
  16. 제15항에 있어서,
    상기 커맨드를 전자기기로 송신하는 단계는 상기 인식된 음성에 대응하는 커맨드를 상기 음성취득장치로 송신하는 단계를 포함하는 것을 특징으로 하는 영상처리장치의 음성인식방법.
  17. 제16항에 있어서,
    상기 음성취득장치는 리모트 컨트롤러인 것을 특징으로 하는 영상처리장치의 음성인식방법.
  18. 제13항 내지 제17항 중 어느 한 항에 있어서,
    상기 인식된 음성에 대한 정보를 표시하는 단계를 더 포함하는 것을 특징으로 하는 영상처리장치의 음성인식방법.
  19. 음성인식시스템에 있어서,
    사용자가 발화한 음성을 입력받고, 상기 입력된 음성을 전기적인 음성신호로 변환하여, 상기 변환된 음성신호를 영상처리장치로 송신하는 음성취득장치와;
    영상신호를 처리하는 영상처리부와; 상기 음성취득장치로부터 수신된 음성신호에 대응하는 음성을 인식하는 음성인식엔진을 포함하며, 상기 음성인식엔진에 의해 인식된 음성에 대응하는 커맨드를 전자기기로 송신하는 영상처리장치와;
    상기 음성인식장치로부터 수신된 커맨드에 대응하는 동작을 수행하는 전자기기를 포함하는 것을 특징으로 하는 음성인식시스템.
  20. 음성인식시스템에 있어서,
    영상신호를 처리하는 영상처리부와; 음성을 인식하는 음성인식엔진을 포함하며, 사용자가 발화한 음성을 입력받고, 상기 입력된 음성을 전기적인 음성신호로 변환하고, 상기 변환된 음성신호가 상기 음성인식엔진에 의해 인식된 음성에 대응하는 커맨드를 전자기기로 송신하는 영상처리장치와;
    상기 음성인식장치로부터 수신된 커맨드에 대응하는 동작을 수행하는 전자기기를 포함하는 것을 특징으로 하는 음성인식시스템.
  21. 제20항에 있어서,
    사용자가 발화한 음성을 입력받고, 상기 입력된 음성을 전기적인 음성신호로 변환하여, 상기 변환된 음성신호를 영상처리장치로 송신하고, 상기 영상처리장치로부터 인식된 음성에 대응하는 커맨드를 수신하고, 상기 수신된 커맨드를 전자기기로 송신하는 음성취득장치를 더 포함하며,
    상기 전자기기는 상기 음성취득장치로부터 수신된 커맨드에 대응하는 동작을 수행하는 것을 특징으로 하는 음성인식시스템.

KR1020120045617A 2012-04-30 2012-04-30 영상처리장치, 음성취득장치, 그 음성인식방법 및 음성인식시스템 KR101917182B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020120045617A KR101917182B1 (ko) 2012-04-30 2012-04-30 영상처리장치, 음성취득장치, 그 음성인식방법 및 음성인식시스템
US13/781,819 US20130290001A1 (en) 2012-04-30 2013-03-01 Image processing apparatus, voice acquiring apparatus, voice recognition method thereof and voice recognition system
US15/489,101 US20170223301A1 (en) 2012-04-30 2017-04-17 Image processing apparatus, voice acquiring apparatus, voice recognition method thereof and voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120045617A KR101917182B1 (ko) 2012-04-30 2012-04-30 영상처리장치, 음성취득장치, 그 음성인식방법 및 음성인식시스템

Publications (2)

Publication Number Publication Date
KR20130122359A true KR20130122359A (ko) 2013-11-07
KR101917182B1 KR101917182B1 (ko) 2019-01-24

Family

ID=49478074

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120045617A KR101917182B1 (ko) 2012-04-30 2012-04-30 영상처리장치, 음성취득장치, 그 음성인식방법 및 음성인식시스템

Country Status (2)

Country Link
US (2) US20130290001A1 (ko)
KR (1) KR101917182B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200109643A (ko) * 2019-03-13 2020-09-23 주식회사 아이스크림미디어 스마트 마이크 제어 서버 및 시스템
WO2024005226A1 (ko) * 2022-06-29 2024-01-04 엘지전자 주식회사 디스플레이 장치

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9483917B2 (en) 2013-03-15 2016-11-01 Segars California Partners, Lp Non-contact alarm volume reduction
KR102210433B1 (ko) * 2014-01-21 2021-02-01 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
US9952571B2 (en) * 2014-03-24 2018-04-24 Xiaomi Inc. Method and terminal device for controlling smart home appliance
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
KR102147346B1 (ko) * 2014-06-23 2020-08-24 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US9826606B2 (en) * 2015-08-07 2017-11-21 Zhejiang Dafeng Industry Co. Ltd. Cloud-based multi-channel stage light adjustment system technical field
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN105263044A (zh) * 2015-10-13 2016-01-20 小米科技有限责任公司 智能家居设备调整方法及装置
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105955045A (zh) * 2016-05-31 2016-09-21 微鲸科技有限公司 智能观影场景实现系统和实现方法
US10271093B1 (en) * 2016-06-27 2019-04-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US10595090B2 (en) * 2016-09-02 2020-03-17 Sony Corporation System and method for optimized and efficient interactive experience
CN106705385A (zh) * 2017-02-14 2017-05-24 珠海格力电器股份有限公司 空调的控制方法、控制装置以及控制系统
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
CN109584862B (zh) * 2017-09-29 2024-01-12 上海寒武纪信息科技有限公司 图像处理装置和方法
CN109584864B (zh) * 2017-09-29 2023-11-24 上海寒武纪信息科技有限公司 图像处理装置和方法
KR102449181B1 (ko) * 2017-11-24 2022-09-29 삼성전자 주식회사 전자장치 및 그 제어방법
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
KR102597031B1 (ko) 2018-08-14 2023-11-01 삼성전자주식회사 전자장치, 서버 및 전자장치의 제어방법
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109798611A (zh) * 2018-11-28 2019-05-24 福建澳尤机电有限公司 一种蒸发式环保空调
KR20200092742A (ko) 2019-01-25 2020-08-04 삼성전자주식회사 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) * 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US20220358920A1 (en) * 2019-07-19 2022-11-10 Lg Electronics Inc. Display device and artificial intelligence server which can control home appliance through user voice
KR20210015234A (ko) 2019-08-01 2021-02-10 삼성전자주식회사 전자 장치, 및 그의 음성 명령에 따른 기능이 실행되도록 제어하는 방법
US11019402B2 (en) 2019-09-26 2021-05-25 Dish Network L.L.C. Method and system for implementing an elastic cloud-based voice search utilized by set-top box (STB) clients
KR102365753B1 (ko) * 2019-12-09 2022-02-22 리모트솔루션 주식회사 클라우드 서버를 활용한 음성인식 rcu 설정 시스템 및 그 방법
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005072764A (ja) * 2003-08-21 2005-03-17 Hitachi Ltd 機器制御システムとそのための装置及び機器制御方法
JP2006033795A (ja) * 2004-06-15 2006-02-02 Sanyo Electric Co Ltd リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665639B2 (en) * 1996-12-06 2003-12-16 Sensory, Inc. Speech recognition in consumer electronic products
JP2001197379A (ja) * 2000-01-05 2001-07-19 Matsushita Electric Ind Co Ltd 機器設定装置、機器設定システムおよび機器設定処理プログラムを記録した記録媒体
US8271287B1 (en) * 2000-01-14 2012-09-18 Alcatel Lucent Voice command remote control system
JP2001296881A (ja) * 2000-04-14 2001-10-26 Sony Corp 情報処理装置および方法、並びに記録媒体
KR20020043635A (ko) * 2000-08-21 2002-06-10 요트.게.아. 롤페즈 다운로드가능한 음성 명령 세트를 구비하는 음성 제어형원격제어기
WO2011027964A1 (en) * 2009-09-01 2011-03-10 Lg Electronics Inc. Method for controlling external device and remote controller thereof
US9865263B2 (en) * 2009-12-01 2018-01-09 Nuance Communications, Inc. Real-time voice recognition on a handheld device
US20130027613A1 (en) * 2011-05-03 2013-01-31 Lg Electronics Inc. Image display apparatus, portable terminal, and methods for operating the same
US20130144618A1 (en) * 2011-12-02 2013-06-06 Liang-Che Sun Methods and electronic devices for speech recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005072764A (ja) * 2003-08-21 2005-03-17 Hitachi Ltd 機器制御システムとそのための装置及び機器制御方法
JP2006033795A (ja) * 2004-06-15 2006-02-02 Sanyo Electric Co Ltd リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200109643A (ko) * 2019-03-13 2020-09-23 주식회사 아이스크림미디어 스마트 마이크 제어 서버 및 시스템
US11122349B2 (en) 2019-03-13 2021-09-14 I-Scream Media Co., Ltd. Server and system for controlling smart microphone
WO2024005226A1 (ko) * 2022-06-29 2024-01-04 엘지전자 주식회사 디스플레이 장치

Also Published As

Publication number Publication date
KR101917182B1 (ko) 2019-01-24
US20170223301A1 (en) 2017-08-03
US20130290001A1 (en) 2013-10-31

Similar Documents

Publication Publication Date Title
KR101917182B1 (ko) 영상처리장치, 음성취득장치, 그 음성인식방법 및 음성인식시스템
US11727951B2 (en) Display apparatus, voice acquiring apparatus and voice recognition method thereof
US11317169B2 (en) Image display apparatus and method of operating the same
KR101963768B1 (ko) 디스플레이장치, 디스플레이 시스템 및 그 제어방법
US11133867B2 (en) Image display device and operation method thereof
KR102643172B1 (ko) 디스플레이장치, 음성취득장치 및 그 음성인식방법
KR20210025812A (ko) 전자장치, 디스플레이장치 및 그 제어방법
EP3859517A1 (en) Electronic apparatus and method of controlling the same
KR102114612B1 (ko) 리모트 컨트롤러 및 멀티미디어 디바이스의 제어 방법
KR102262050B1 (ko) 디스플레이장치, 음성취득장치 및 그 음성인식방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant