KR102155482B1 - 디스플레이장치 및 그 제어방법 - Google Patents

디스플레이장치 및 그 제어방법 Download PDF

Info

Publication number
KR102155482B1
KR102155482B1 KR1020130122675A KR20130122675A KR102155482B1 KR 102155482 B1 KR102155482 B1 KR 102155482B1 KR 1020130122675 A KR1020130122675 A KR 1020130122675A KR 20130122675 A KR20130122675 A KR 20130122675A KR 102155482 B1 KR102155482 B1 KR 102155482B1
Authority
KR
South Korea
Prior art keywords
voice input
server
voice
recognition function
voice recognition
Prior art date
Application number
KR1020130122675A
Other languages
English (en)
Other versions
KR20150043807A (ko
Inventor
최찬희
박경미
류희섭
복찬식
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to KR1020130122675A priority Critical patent/KR102155482B1/ko
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to CN201811423558.5A priority patent/CN110058832B/zh
Priority to US14/494,183 priority patent/US9519455B2/en
Priority to CN201910558889.8A priority patent/CN110231927B/zh
Priority to CN201480056213.4A priority patent/CN105659619B/zh
Priority to EP14853920.8A priority patent/EP3053349B1/en
Priority to EP18205521.0A priority patent/EP3474560A1/en
Priority to PCT/KR2014/008828 priority patent/WO2015056892A1/en
Publication of KR20150043807A publication Critical patent/KR20150043807A/ko
Priority to US15/347,009 priority patent/US10068572B2/en
Application granted granted Critical
Publication of KR102155482B1 publication Critical patent/KR102155482B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4227Providing Remote input by a user located remotely from the client device, e.g. at work
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4331Caching operations, e.g. of an advertisement for later insertion during playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명의 실시예에 따른 영상처리장치는, 사용자의 발화가 입력되는 대화형 입력 인터페이스와; 음성인식 기능이 활성화되어 있을 때에 대화형 입력 인터페이스에 입력되는 발화를 처리하는 프로세서와; 음성인식 기능의 비활성화 상태에서 기 설정된 이벤트가 발생하면 음성인식 기능을 활성화시키고, 프로세서가 발화를 처리하도록 제어하는 컨트롤러를 포함하며, 컨트롤러는, 이벤트의 발생 시점으로부터 음성인식 기능의 활성화가 완료되는 시점 사이의 음성인식 준비기간 동안에 대화형 입력 인터페이스로부터 사용자에 의한 발화가 입력되면 기 설정된 크기의 버퍼를 동적으로 형성하여 발화의 데이터를 버퍼에 저장하고, 음성인식 기능의 활성화가 완료되면 버퍼에 저장된 발화의 데이터를 처리하게 제어하는 것을 특징으로 한다.

Description

디스플레이장치 및 그 제어방법 {DISPLAY APPARATUS AND CONTROL METHOD THEREOF}
본 발명은 영상신호를 영상으로 표시되게 처리하는 영상처리장치 및 그 제어방법에 관한 것으로서, 상세하게는 사용자의 음성 명령을 인식함으로써 해당 음성 명령에 대응하는 기능 또는 동작을 실행할 수 있는 구조의 영상처리장치 및 그 제어방법에 관한 것이다.
영상처리장치는 외부로부터 수신되는 영상신호/영상데이터를 다양한 영상처리 프로세스에 따라서 처리한다. 영상처리장치는 처리된 영상신호를 자체 구비한 디스플레이 패널 상에 영상으로 표시하거나, 또는 패널을 구비한 타 디스플레이장치에서 영상으로 표시되도록 이 처리된 영상신호를 해당 디스플레이장치에 출력할 수 있다. 즉, 영상처리장치는 영상신호를 처리 가능한 장치라면 영상을 표시 가능한 패널을 포함하는 경우 및 패널을 포함하지 않는 경우 모두 포함할 수 있는 바, 전자의 경우의 예시로는 TV가 있으며, 후자의 경우의 예시로는 셋탑박스(set-top box)가 있다.
영상처리장치는 기술의 발전에 따라서 다양한 기능의 추가 및 확장이 계속적으로 반영되고 있는 바, 이러한 추세에 따라서 영상처리장치에 있어서 사용자의 의도를 반영한 커맨드를 영상처리장치에 입력하는 구성도 다양한 구조 또는 방법이 제안되고 있다. 예를 들면, 과거에는 사용자가 리모트 컨트롤러(remote controller) 상의 키/버튼을 누르면 리모트 컨트롤러가 사용자가 원하는 동작이 실행되도록 하는 제어신호를 영상처리장치에 무선으로 전송하는 구성이었으나, 근래에는 영상처리장치가 사용자에 의한 모션 또는 발화 등을 감지하고, 감지된 내용을 분석하여 대응 동작을 실행시키는 등, 사용자의 의도를 반영하여 영상처리장치를 제어하는 다양한 구성이 제안되고 있다.
본 발명의 실시예에 따른 영상처리장치는, 사용자의 발화가 입력되는 대화형 입력 인터페이스와; 음성인식 기능이 활성화되어 있을 때에 상기 대화형 입력 인터페이스에 입력되는 상기 발화를 처리하는 프로세서와; 상기 음성인식 기능의 비활성화 상태에서 기 설정된 이벤트가 발생하면 상기 음성인식 기능을 활성화시키고, 상기 프로세서가 상기 발화를 처리하도록 제어하는 컨트롤러를 포함하며, 상기 컨트롤러는, 상기 이벤트의 발생 시점으로부터 상기 음성인식 기능의 활성화가 완료되는 시점 사이의 음성인식 준비기간 동안에 상기 대화형 입력 인터페이스로부터 사용자에 의한 발화가 입력되면 기 설정된 크기의 버퍼를 동적으로 형성하여 상기 입력된 발화의 데이터를 상기 버퍼에 저장하고, 상기 음성인식 기능의 활성화가 완료되면 상기 버퍼에 저장된 발화의 데이터를 처리하게 제어하는 것을 특징으로 한다.
여기서, 상기 발화의 인식 처리를 수행하는 서버와 통신하는 통신 인터페이스를 더 포함하며, 상기 음성인식 기능은, 상기 발화의 인식 처리가 상기 프로세서에 의해 수행하는 내부처리방식 기능과, 상기 발화의 인식 처리가 상기 서버에 의해 수행되는 외부처리방식 기능을 포함하며, 상기 컨트롤러는, 상기 음성인식 준비기간 동안에 상기 내부처리방식 기능 및 상기 외부처리방식 기능 각각을 활성화시킬 수 있다.
여기서, 상기 컨트롤러는, 상기 영상처리장치 및 상기 서버 사이를 통신 가능하게 접속시킴으로써 상기 외부처리방식 기능을 활성화시킬 수 있다.
또한, 상기 컨트롤러는, 상기 영상처리장치의 현재 실행환경 상태에 기초하여, 상기 영상처리장치에서 실행중인 하나 이상의 어플리케이션 및 상기 영상처리장치에 접속중인 하나 이상의 외부장치 중 적어도 어느 하나로부터, 상기 어플리케이션 또는 상기 외부장치에서 사용하는 기 등록된 명령어를 수집하고, 상기 수집된 명령어들에 의해 명령어 리스트를 생성함으로써 상기 내부처리방식 기능을 활성화시킬 수 있다.
여기서, 상기 명령어는 음성인식을 지원하는 상기 어플리케이션 또는 상기 외부장치가 고유하게 사용하는 사전에 정의된 동작의 명령어일 수 있다.
또한, 상기 컨트롤러는, 상기 음성인식 준비기간 동안에 상기 음성인식 기능이 활성화되는 진행상태에 대응하여 상기 버퍼의 크기를 결정할 수 있다.
여기서, 상기 컨트롤러는, 상기 진행상태의 속도가 상대적으로 빠르다고 판단하면 상기 버퍼의 크기를 상대적으로 작게 결정하고, 상기 진행상태의 속도가 상대적으로 느리다고 판단하면 상기 버퍼의 크기를 상대적으로 크게 결정할 수 있다.
또한, 상기 컨트롤러는, 상기 외부처리방식 기능에 따르는 경우에, 상기 서버에 대한 네트워크 응답속도가 상대적으로 느리면 상기 버퍼의 크기를 상대적으로 크게 결정할 수 있다.
또한, 상기 컨트롤러는, 상기 내부처리방식 기능에 따르는 경우에, 상기 영상처리장치에서 현재 실행중인 어플리케이션 및 상기 영상처리장치에 현재 접속중인 외부장치 중 적어도 어느 하나로부터, 상기 어플리케이션 또는 상기 외부장치에서 사용하는 기 등록된 명령어를 수집하여 명령어 리스트를 생성하고, 상기 명령어 리스트의 상기 명령어가 상대적으로 많을수록 상기 버퍼의 크기를 상대적으로 크게 결정할 수 있다.
또한, 상기 컨트롤러는, 상기 버퍼에 저장되는 총 데이터의 크기가 상기 버퍼의 기 설정된 크기를 초과하면, 상기 내부처리방식 기능 및 상기 외부처리방식 기능 중 어느 하나의 활성화가 완료되었는지 판단하며, 상기 어느 하나의 활성화가 완료된 것으로 판단하면, 상기 활성화가 완료된 어느 하나에 의해 상기 버퍼의 데이터를 처리하고, 처리된 상기 데이터를 상기 버퍼에서 삭제할 수 있다.
여기서, 상기 컨트롤러는, 상기 내부처리방식 기능 및 상기 외부처리방식 기능 중 어느 하나도 활성화가 완료되지 않은 것으로 판단하면, 상기 버퍼의 데이터를 삭제 정리할 수 있다.
또한, 상기 프로세서 또는 상기 컨트롤러에 의해 처리되기 위한 데이터가 임시로 저장되는 임시저장 메모리를 더 포함하며, 상기 컨트롤러는, 상기 임시저장 메모리의 기 설정된 저장공간에 상기 버퍼를 형성할 수 있다.
또한, 발화 이외의 방식으로 사용자 입력이 수행되는 비대화형 입력 인터페이스를 더 포함하며, 상기 컨트롤러는, 상기 비대화형 입력 인터페이스를 통한 입력에 따라서 발생하는 상기 이벤트를 감지할 수 있다.
또한, 본 발명의 실시예에 따른 영상처리장치의 제어방법은, 음성인식 기능의 비활성화 상태에서 음성인식 기능의 활성화를 지시하는 기 설정된 이벤트가 발생하는 단계와; 상기 음성인식 기능을 활성화시켜 상기 발화를 처리하는 단계를 포함하며, 상기 음성인식 기능을 활성화시켜 상기 발화를 처리하는 단계는, 상기 이벤트의 발생 시점으로부터 상기 음성인식 기능의 활성화가 완료되는 시점 사이의 음성인식 준비기간 동안에 사용자에 의한 발화가 입력되면 기 설정된 크기의 버퍼를 동적으로 형성하여 상기 입력된 발화의 데이터를 상기 버퍼에 저장하는 단계와; 상기 음성인식 기능의 활성화가 완료되면 상기 버퍼에 저장된 발화의 데이터를 처리하는 단계를 포함하는 것을 특징으로 한다.
여기서, 상기 음성인식 기능은, 상기 발화의 인식 처리가 상기 프로세서에 의해 수행하는 내부처리방식 기능과, 상기 발화의 인식 처리가 상기 영상처리장치와 통신하는 서버에 의해 수행되는 외부처리방식 기능을 포함하며, 상기 음성인식 준비기간 동안에 상기 내부처리방식 기능 및 상기 외부처리방식 기능 각각이 활성화될 수 있다.
여기서, 상기 외부처리방식 기능은, 상기 영상처리장치 및 상기 서버 사이를 통신 가능하게 접속시킴으로써 활성화될 수 있다.
또한, 상기 내부처리방식 기능은, 상기 영상처리장치의 현재 실행환경 상태에 기초하여, 상기 영상처리장치에서 실행중인 하나 이상의 어플리케이션 및 상기 영상처리장치에 접속중인 하나 이상의 외부장치 중 적어도 어느 하나로부터, 상기 어플리케이션 또는 상기 외부장치에서 사용하는 기 등록된 명령어가 수집되고, 상기 수집된 명령어들에 의해 명령어 리스트가 생성됨으로써 활성화될 수 있다.
여기서, 상기 명령어는 음성인식을 지원하는 상기 어플리케이션 또는 상기 외부장치가 고유하게 사용하는 사전에 정의된 동작의 명령어일 수 있다.
또한, 상기 입력된 발화의 데이터를 상기 버퍼에 저장하는 단계는, 상기 음성인식 준비기간 동안에 상기 음성인식 기능이 활성화되는 진행상태에 대응하여 상기 버퍼의 크기를 결정하는 단계를 포함할 수 있다.
여기서, 상기 버퍼의 크기를 결정하는 단계는, 상기 진행상태의 속도가 상대적으로 빠르다고 판단하면 상기 버퍼의 크기를 상대적으로 작게 결정하고, 상기 진행상태의 속도가 상대적으로 느리다고 판단하면 상기 버퍼의 크기를 상대적으로 크게 결정하는 단계를 포함할 수 있다.
또한, 상기 버퍼의 크기를 결정하는 단계는, 상기 외부처리방식 기능에 따르는 경우에, 상기 서버에 대한 네트워크 응답속도가 상대적으로 느리면 상기 버퍼의 크기를 상대적으로 크게 결정하는 단계를 포함할 수 있다.
또한, 상기 버퍼의 크기를 결정하는 단계는, 상기 내부처리방식 기능에 따르는 경우에, 상기 영상처리장치에서 현재 실행중인 어플리케이션 및 상기 영상처리장치에 현재 접속중인 외부장치 중 적어도 어느 하나로부터, 상기 어플리케이션 또는 상기 외부장치에서 사용하는 기 등록된 명령어를 수집하여 명령어 리스트를 생성하는 단계와; 상기 명령어 리스트의 상기 명령어가 상대적으로 많을수록 상기 버퍼의 크기를 상대적으로 크게 결정하는 단계를 포함할 수 있다.
또한, 상기 입력된 발화의 데이터를 상기 버퍼에 저장하는 단계는, 상기 버퍼에 저장되는 총 데이터의 크기가 상기 버퍼의 기 설정된 크기를 초과하면, 상기 내부처리방식 기능 및 상기 외부처리방식 기능 중 어느 하나의 활성화가 완료되었는지 판단하는 단계와; 상기 어느 하나의 활성화가 완료된 것으로 판단하면, 상기 활성화가 완료된 어느 하나에 의해 상기 버퍼의 데이터를 처리하고, 처리된 상기 데이터를 상기 버퍼에서 삭제하는 단계를 포함할 수 있다.
여기서, 상기 입력된 발화의 데이터를 상기 버퍼에 저장하는 단계는, 상기 내부처리방식 기능 및 상기 외부처리방식 기능 중 어느 하나도 활성화가 완료되지 않은 것으로 판단하면, 상기 버퍼의 데이터를 삭제 정리하는 단계를 더 포함할 수 있다.
도 1은 본 발명의 제1실시예에 따른 영상처리장치 또는 디스플레이장치의 예시도,
도 2는 도 1의 디스플레이장치의 구성 블록도,
도 3은 도 1의 디스플레이장치에서 프로세서의 음성인식 구조에 관한 구성 블록도,
도 4 및 도 5는 도 1의 디스플레이장치의 제어방법을 나타내는 플로우차트,
도 6은 도 1의 디스플레이장치에서 동적으로 구성된 버퍼의 예시도,
도 7은 본 발명의 제2실시예에 따른 디스플레이장치의 음성인식 준비단계 동안의 제어방법을 나타내는 플로우차트이다.
이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다. 이하 실시예에서는 본 발명의 사상과 직접적인 관련이 있는 구성들에 관해서만 설명하며, 그 외의 구성에 관해서는 설명을 생략한다. 그러나, 본 발명의 사상이 적용된 장치 또는 시스템을 구현함에 있어서, 이와 같이 설명이 생략된 구성이 불필요함을 의미하는 것이 아님을 밝힌다.
도 1은 본 발명의 제1실시예에 따른 영상처리장치 또는 디스플레이장치(100)의 예시도이다. 본 실시예의 영상처리장치(100)는 자체적으로 영상을 표시할 수 있는 구조의 디스플레이장치이다. 그러나, 본 발명의 사상은 자체적으로 영상을 표시할 수 없는 영상처리장치(100)의 경우에도 적용할 수 있는 바, 이 경우에 영상처리장치(100)는 별도의 외부 디스플레이장치에 로컬 접속됨으로써 외부 디스플레이장치에 영상이 표시되도록 할 수도 있다.
도 1에 도시된 바와 같이, 본 실시예에 따른 디스플레이장치(100)는 외부로부터 수신되거나 또는 자체적으로 내장되어 있는 컨텐츠의 영상데이터를 처리하여 컨텐츠의 영상을 표시한다. 본 실시예에서의 디스플레이장치(100)는 TV로 구현되지만, 이 외에도 영상데이터를 처리하여 영상을 표시할 수 있는 다양한 형식의 디스플레이장치에 본 발명의 사상이 적용될 수 있다.
디스플레이장치(100) 전방에는 사용자가 위치하며, 사용자는 디스플레이장치(100)에 표시되는 영상을 시청한다. 디스플레이장치(100)는 사용자가 디스플레이장치(100)의 동작을 제어할 수 있도록 하는 인터페이스 환경의 일환으로서, 일반적으로 디스플레이장치(100)와 분리 이격된 리모트 컨트롤러(remote controller)(145)를 제공한다. 리모트 컨트롤러(145)는 다양한 종류의 기능 버튼, 터치패드, 디스플레이 등의 구성을 갖추며, 사용자의 조작 또는 입력에 대응하는 제어신호를 생성하여 디스플레이장치(100)에 전달한다. 이에, 디스플레이장치(100)는 리모트 컨트롤러(145)로부터의 제어신호에 따라서 기 설정된 동작을 수행한다.
예를 들어, 디스플레이장치(100)가 방송영상을 표시하고 있을 때에 사용자가 리모트 컨트롤러(145)의 채널 변환 버튼을 누르면, 리모트 컨트롤러(145)는 채널 변환을 지시하는 제어신호를 생성하여 디스플레이장치(100)에 전송한다. 디스플레이장치(100)는 리모트 컨트롤러(145)로부터 수신한 제어신호에 따라서 방송영상의 채널을 변환하여 표시한다.
다만, 디스플레이장치(100)의 기능이 다양화되고 복잡해짐에 따라서, 디스플레이장치(100)가 사용자에게 제공하는 인터페이스 환경은 리모트 컨트롤러(145)에 한정되지 않는다. 예를 들면, 디스플레이장치(100)는 사용자의 발화를 인식하는 음성인식 구조나 사용자의 모션을 인식하는 모션인식 구조 등의 다양한 사용자 입력의 인식 구조들을 추가적으로 포함하며, 이와 같은 인식 구조를 통해 수신되는 제어신호에 대응하여 미리 지정된 기능 또는 동작을 구현한다.
이하, 디스플레이장치(100)의 구체적인 구성에 관해 도 2를 참조하여 설명한다.
도 2는 디스플레이장치(100)의 구성 블록도이다.
도 2에 도시된 바와 같이, 디스플레이장치(100)는 외부와 데이터/신호를 송수신하도록 통신하는 통신 인터페이스(interface)(110)와, 통신 인터페이스(110)에 수신되는 데이터를 기 설정된 프로세스(process)에 따라서 처리하는 프로세서(processor)(120)와, 프로세서(120)에서 처리되는 데이터가 영상데이터인 경우에 해당 영상데이터를 영상으로 표시하는 디스플레이(display)(130)와, 사용자에 의한 입력 동작이 수행되는 사용자 인터페이스(140)와, 데이터/정보가 저장되는 스토리지(storage)(150)와, 처리 대상의 데이터가 임시로 저장되는 임시저장 메모리(160)와, 디스플레이장치(100)의 제반 동작을 제어하는 컨트롤러(controller)(170)를 포함한다.
통신 인터페이스(110)는 디스플레이장치(100)가 서버(200) 등과 같은 외부장치와 양방향 통신이 가능하도록 데이터의 송수신을 수행한다. 통신 인터페이스(110)는 기 설정된 통신 프로토콜(protocol)에 따라서, 유선/무선을 통한 광역/근거리 네트워크 또는 로컬 접속 방식으로 외부장치(미도시)에 접속한다.
통신 인터페이스(110)는 각 장치 별 접속 포트(port) 또는 접속 모듈(module)의 집합체에 의해 구현될 수 있는 바, 접속을 위한 프로토콜 또는 접속 대상이 되는 외부장치가 하나의 종류 또는 형식으로 한정되지 않는다. 통신 인터페이스(110)는 디스플레이장치(100)에 내장된 형태일 수 있으며, 전체 또는 일부의 구성이 디스플레이장치(100)에 애드온(add-on) 또는 동글(dongle) 형태로 추가 설치되는 형식도 가능하다.
통신 인터페이스(110)는 접속된 각 장치 별로 지정된 프로토콜에 따라서 신호의 송수신이 이루어지는 바, 접속된 각 장치에 대해 개별적인 접속 프로토콜 기반으로 신호를 송수신할 수 있다. 영상데이터의 경우를 예로 들면, 통신 인터페이스(110)는 RF(radio frequency)신호, 컴포지트(composite)/컴포넌트(component) 비디오, 슈퍼 비디오(super video), SCART, HDMI(high definition multimedia interface), 디스플레이포트(DisplayPort), UDI(unified display interface), 또는 와이어리스(wireless) HD 등 다양한 규격을 기반으로 신호의 송수신이 가능하다.
프로세서(120)는 통신 인터페이스(110)에 수신되는 데이터/신호에 대해 다양한 프로세스를 수행한다. 통신 인터페이스(110)에 영상데이터가 수신되면, 프로세서(120)는 영상데이터에 대해 영상처리 프로세스를 수행하고, 이러한 프로세스가 수행된 영상데이터를 디스플레이(130)에 출력함으로써 디스플레이(130)에 해당 영상데이터에 기초하는 영상이 표시되게 한다. 통신 인터페이스(110)에 수신되는 신호가 방송신호인 경우, 프로세서(120)는 특정 채널로 튜닝된 방송신호로부터 영상, 음성 및 부가데이터를 추출하고, 영상을 기 설정된 해상도로 조정하여 디스플레이(130)에 표시되게 한다.
프로세서(120)가 수행하는 영상처리 프로세스의 종류는 한정되지 않으며, 예를 들면 영상데이터의 영상 포맷에 대응하는 디코딩(decoding), 인터레이스(interlace) 방식의 영상데이터를 프로그레시브(progressive) 방식으로 변환하는 디인터레이싱(de-interlacing), 영상데이터를 기 설정된 해상도로 조정하는 스케일링(scaling), 영상 화질 개선을 위한 노이즈 감소(noise reduction), 디테일 강화(detail enhancement), 프레임 리프레시 레이트(frame refresh rate) 변환 등을 포함할 수 있다.
프로세서(120)는 데이터의 종류, 특성에 따라서 다양한 프로세스를 수행할 수 있는 바, 프로세서(120)가 수행 가능한 프로세스를 영상처리 프로세스로 한정할 수 없다. 또한, 프로세서(120)가 처리 가능한 데이터가 통신 인터페이스(110)에 수신되는 것만으로 한정할 수 없다. 예를 들면, 프로세서(120)는 사용자 인터페이스(140)를 통해 사용자의 발화가 입력되면, 기 설정된 음성처리 프로세스에 따라서 해당 발화를 처리할 수 있다.
프로세서(120)는 이러한 여러 기능을 통합시킨 SOC(system-on-chip)가, 또는 이러한 각 프로세스를 독자적으로 수행할 수 있는 개별적인 칩셋(chip-set)들이 인쇄회로기판 상에 장착된 영상처리보드(미도시)로 구현되며, 디스플레이장치(100)에 내장된다.
디스플레이(130)는 프로세서(120)에 의해 처리된 영상신호/영상데이터를 영상으로 표시한다. 디스플레이(130)의 구현 방식은 한정되지 않는 바, 액정(liquid crystal), 플라즈마(plasma), 발광 다이오드(light-emitting diode), 유기발광 다이오드(organic light-emitting diode), 면전도 전자총(surface-conduction electron-emitter), 탄소 나노 튜브(carbon nano-tube), 나노 크리스탈(nano-crystal) 등의 다양한 디스플레이 방식으로 구현될 수 있다.
디스플레이(130)는 그 구현 방식에 따라서 부가적인 구성을 추가적으로 포함할 수 있다. 예를 들면, 액정 방식인 경우에, 디스플레이(130)는 액정 디스플레이 패널(미도시)과, 이에 광을 공급하는 백라이트유닛(미도시)과, 패널(미도시)을 구동시키는 패널구동기판(미도시) 등을 포함한다.
사용자 인터페이스(140)는 사용자의 조작 또는 입력에 따라서 기 설정된 다양한 제어 커맨드(command) 또는 정보를 컨트롤러(170)에 전달한다. 사용자 인터페이스(140)는 사용자의 의도에 따라서 사용자에 의해 발생하는 다양한 이벤트(event)를 정보화하여 컨트롤러(170)에 전달한다. 여기서, 사용자에 의해 발생하는 이벤트는 여러 가지 형태가 가능한 바, 예를 들면 사용자의 조작, 발화, 제스쳐(gesture) 등이 가능하다.
사용자 인터페이스(140)는 사용자가 정보를 입력하는 방식에 대응하여, 해당 방식으로 입력되는 정보를 감지할 수 있게 마련된다. 이에 따라서, 사용자 인터페이스(140)는 대화형 입력 인터페이스(141) 및 비대화형 입력 인터페이스(142)로 구별할 수 있다.
대화형 입력 인터페이스(141)는 사용자의 발화가 입력되도록 마련된다. 즉, 대화형 입력 인터페이스(141)는 마이크로폰으로 구현되며, 디스플레이장치(100)의 외부 환경에서 발생하는 다양한 소리를 감지한다. 대화형 입력 인터페이스(141)는 일반적으로 사용자에 의한 발화를 감지할 수 있지만, 사용자 이외의 다양한 환경적 요인에 의해 발생하는 소리도 감지할 수 있다.
비대화형 입력 인터페이스(142)는 발화 방식 이외의 사용자의 입력이 수행되게 마련된다. 이 경우에 비대화형 입력 인터페이스(142)의 구현 형태는 다양하며, 예를 들면, 리모트 컨트롤러(145, 도 1 참조)나, 디스플레이장치(100) 외측에 설치된 메뉴 키(menu-key) 또는 입력 패널(panel)이나, 사용자의 제스쳐를 감지하는 모션센서(motion sensor) 또는 카메라(camera) 등이 가능하다.
또는, 비대화형 입력 인터페이스(142)는 디스플레이(130)에 설치된 터치스크린(touch-screen)으로 구현될 수도 있다. 이 경우에, 사용자는 디스플레이(130)에 표시된 입력메뉴 또는 UI 영상을 터치함으로써, 기 설정된 커맨드 또는 정보가 컨트롤러(170)에 전달되게 할 수 있다.
본 실시예에 따른 대화형 입력 인터페이스(141)는 디스플레이장치(100) 본체에 설치될 수 있지만, 리모트 컨트롤러(145)에 부가적으로 설치되거나, 디스플레이장치(100)와는 별도의 외부장치인 구성도 가능하다.
스토리지(150)는 컨트롤러(170)의 제어에 따라서 다양한 데이터가 저장된다. 스토리지(150)는 시스템 전원의 제공 유무와 무관하게 데이터를 보존할 수 있도록, 플래시메모리(flash-memory), 하드디스크 드라이브(hard-disc drive)와 같은 비휘발성 메모리로 구현된다. 스토리지(150)는 컨트롤러(170)에 대해 억세스(access)됨으로써, 기 저장된 데이터의 독취, 기록, 수정, 삭제, 갱신 등이 수행된다.
임시저장 메모리(160)는 프로세서(120) 또는 컨트롤러(170)에 의해 현재 처리되고 있거나 또는 처리 대기중인 데이터가 임시로 저장된다. 예를 들면, 프로세서(120)가 통신 인터페이스(110)에 수신되는 영상신호를 처리하여 디스플레이(130)에 표시하기 위해서는 해당 영상신호가 소정 시간동안 저장될 곳이 필요한데, 임시저장 메모리(160)는 이러한 역할을 수행한다. 또는, CPU로 구현된 컨트롤러(170)가 억세스하는 램(RAM)도 임시저장 메모리(160)로 볼 수 있다. 이와 같이 임시저장 메모리(160)는 디스플레이장치(100)가 동작하고 있는 동안에만 데이터를 저장하면 되는 구성인 바, 임시저장 메모리(160)는 스토리지(150)와 달리 휘발성 메모리로 구현될 수 있다.
임시저장 메모리(160)는 어느 한 구성만에 의한 억세스가 아닌, 복수의 구성에 의한 억세스가 이루어진다. 예를 들면, 프로세서(120) 내의 복수의 모듈(미도시)은 각기 처리 대상인 데이터가 임시 저장되는 곳을 필요로 하는 바, 임시저장 메모리(160)는 각 모듈(미도시) 별로 데이터의 저장영역을 할당할 수 있다. 이러한 저장영역의 할당은 기 설정된 메모리 주소의 범위 별로 수행된다.
컨트롤러(170)는 CPU로 구현되며, 소정 이벤트의 발생에 따라서 프로세서(120)를 비롯한 디스플레이장치(100)의 제반 구성의 동작을 제어한다. 예를 들어 소정 컨텐츠의 영상데이터가 통신 인터페이스(110)에 수신되면, 컨트롤러(170)는 프로세서(120)를 제어함으로써 영상데이터가 처리되어 디스플레이(130) 상에 영상으로 표시되게 제어한다. 또한, 컨트롤러(170)는 사용자 인터페이스(140)를 통해 사용자의 입력 이벤트가 발생하면, 해당 이벤트에 대응하는 기 설정된 동작이 실행되도록 프로세서(120)를 비롯한 구성요소들을 제어한다.
이러한 구조 하에서, 디스플레이장치(100)가 사용자의 발화에 대응하는 기 설정된 동작을 수행하는 과정에 관해 설명한다.
대화형 입력 인터페이스(141)를 통해 사용자의 발화가 입력되면, 컨트롤러(170)는 해당 발화를 텍스트화된 음성명령으로 변환되도록 제어한다. 여기서, 발화는 사용자의 육성을 지칭하며, 음성명령은 발화의 내용이 텍스트 형식으로 데이터화된 것을 지칭한다.
사용자의 발화를 음성명령 텍스트로 변환하는 방법은 몇 가지가 가능한데, 한 가지 방법으로는 프로세서(120) 자체적인 변환 알고리즘에 따라서 프로세서(120)가 대화형 입력 인터페이스(141)로부터 전달받은 발화의 음성신호를 음성명령으로 변환하는 방법이 있다.
또 한 가지 방법으로는, 통신 인터페이스(110)가 사용자의 발화를 음성명령으로 변환하는 STT(speech-to-text) 서버(미도시)와 통신하는 경우에, 프로세서(120)가 대화형 입력 인터페이스(141)로부터 전달받은 발화의 음성신호를 STT 서버(미도시)에 전송하고, STT 서버(미도시)로부터 해당 음성신호에 대응하는 음성명령을 수신하는 방법이 있다.
컨트롤러(170)는 이러한 음성명령에 대응하는 결과를 도출하기 위해, 내부처리방식 및 외부처리방식의 두 가지 방법 중 어느 하나를 적용한다.
내부처리방식을 적용하는 경우의 과정은 다음과 같다. 컨트롤러(170)는 프로세서(120)가 음성명령에 대한 분석을 수행하도록 프로세서(120)를 제어한다. 프로세서(120)는 음성명령에 대응하는 후보 명령어의 데이터베이스/리스트를 구축하며, 구축된 데이터베이스에서 검색을 수행함으로써 음성명령에 대응하는 명령어를 도출한다. 그리고, 프로세서(120)는 도출된 명령어에 따른 동작을 실행한다.
한편, 외부처리방식을 적용하는 경우의 과정은 다음과 같다. 컨트롤러(170)는 사용자의 발화에 대응하는 음성명령을 서버(200)에 전송한다. 본 서버(200)는 음성 명령을 분석함으로써 해당 음성 명령에 대응하는 동작/액션(action)/결과를 판단하는, 이른바 대화형 서버이다. STT 서버 및 대화형 서버와 같은 서버의 명칭은 기능에 따라서 편의상 지칭하는 것일 뿐, 각 명칭이 해당 서버의 특성을 제한하는 것은 아니다.
서버(200)는 음성명령에 대응하는 다양한 디스플레이장치(100)의 동작을 검색한다. 서버(200)는 디스플레이장치(100)로부터 수신된 음성명령을 분석하고, 분석 결과에 따라서 해당 음성 명령에 대응하는 동작을 수행하기 위한 제어신호나 또는 해당 음성 명령에 기초하여 검색된 결과 정보를 디스플레이장치(100)에 반환한다.
컨트롤러(170)는 서버(200)로부터 반환된 제어신호 또는 정보에 따라서, 대응 동작을 실행한다.
그런데, 디스플레이장치(100)의 음성인식 구조가 디스플레이장치(100)가 사용자의 발화에 대응하는 동작을 수행하기 위해서는, 사용자의 발화를 처리하기 위하여 그 기능이 활성화되어 있을 필요가 있다. 예를 들면 사용자의 발화를 처리하기 위해서는, 대화형 입력 인터페이스(141)가 사용자의 발화를 감지할 수 있도록 활성화되거나, 내부처리방식의 경우에는 후보 명령어의 데이터베이스를 구축하거나, 외부처리방식의 경우에는 서버(200)와 통신 가능하도록 접속하는 등의 사전준비과정이 선행되어야 한다.
이러한 음성인식 구조는 디스플레이장치(100)의 부팅 단계에서 이미 활성화되어 있을 수도 있다. 또는, 초기에는 음성인식 구조가 비활성화되어 있는 상태에서, 사용자로부터 특정한 트리거(trigger) 이벤트가 발생하면 음성인식 구조가 활성화되는 방식이 가능하다. 이하 설명에서 언급하는 트리거 이벤트는, 사용자에 의해 발생한 음성인식 구조의 활성화를 지시하는 이벤트를 의미한다.
이하, 후자의 경우에 관해 구체적으로 설명한다.
예를 들어 사용자가 리모트 컨트롤러(145, 도 1 참조)의 음성인식 버튼(미도시)을 눌렀을 때에 디스플레이장치(100)는 사용자의 발화를 인식하기 위한 음성인식 구조 또는 기능을 활성화시킨다. 이 때, 디스플레이장치(100)는 내부처리방식에 따른 음성인식 구조 및 외부처리방식에 따른 음성인식 구조를 함께 활성화시킨다. 본 실시예에서는 두 처리방식을 함께 활성화시키는 경우에 관해 설명하지만, 디스플레이장치(100)의 설계방식에 따라서는 어느 하나의 처리방식을 활성화시키는 것도 가능하다.
디스플레이장치(100)는 음성인식 구조의 활성화가 완료되면, 이후부터 사용자로부터의 발성을 처리할 수 있다. 여기서, 음성인식 활성화의 트리거 이벤트 발생시점으로부터 음성인식 구조의 활성화 완료시점까지를 음성인식 준비기간으로 지칭하는 바, 이 기간은 디스플레이장치(100)가 음성인식 구조를 비활성화 상태에서 활성화 상태로 이행하는 단계이다.
따라서, 음성인식 준비기간 동안에는 사용자가 발화하더라도 디스플레이장치(100)가 정상적으로 해당 발화를 처리할 수 없다. 즉, 만일 사용자가 트리거 이벤트를 발생시킨 이후 발성을 한 시점이 음성인식 준비기간 이내라면, 디스플레이장치(100)는 음성인식 구조의 활성화가 완료되지 않은 상태이므로, 해당 발성이 처리되지 않거나 또는 해당 발성이 비정상적으로 처리됨으로써 사용자가 원하지 않는 결과가 나온다.
종래 기술에서는 이러한 점을 방지하기 위해서, 디스플레이장치(100)는 트리거 이벤트 이후 음성인식 준비기간 동안에 사용자에게 음성인식 구조의 활성화가 진행되고 있음을 알리는 메시지를 표시하며, 음성인식 준비기간이 끝나면 사용자에게 음성인식 구조가 활성화되었음을 알리는 메시지를 표시한다.
다만, 이러한 방법은 디스플레이장치(100)가 실제로 음성인식 구조를 활성화시키는 타이밍과 각 메시지를 표시하는 타이밍의 동기가 맞지 않을 수도 있으며, 또한 사용자가 일일이 해당 메시지를 확인하여야 하므로 사용에 불편함을 줄 수 있다.
이에, 본 실시예에 따르면, 다음과 같은 방법이 제안된다.
디스플레이장치(100)는 음성인식 기능의 비활성화 상태에서 기 설정된 트리거 이벤트가 발생하면 음성인식 기능을 활성화시키고 사용자로부터의 발성을 처리한다. 여기서, 디스플레이장치(100)는 트리거 이벤트 발생 시점으로부터 음성인식 기능의 활성화가 완료되는 시점 사이의 음성인식 준비기간 동안에 사용자로부터의 발화가 입력되면 기 설정된 용량 또는 크기의 버퍼(buffer)를 형성하여 해당 발화의 데이터를 버퍼에 저장하고, 음성인식 기능의 활성화가 완료되면 버퍼에 저장된 발화의 데이터를 처리한다.
이로써, 디스플레이장치(100)는 음성인식 구조의 활성화를 준비하는 준비기간 동안에 사용자로부터의 발화가 입력되더라도, 해당 발화를 정상적으로 처리하여 사용자에게 제공할 수 있다. 또한, 디스플레이장치(100)는 준비기간 동안에 별도의 메시지나 UI 영상을 사용자에게 제공할 필요가 없으며, 사용자가 준비기간을 인지하지 못한 상태에서 정상적인 음성인식 기능의 제공이 가능하다.
이하, 본 실시예에 따른 프로세서(120)의 구체적인 구성에 관해 설명한다.
도 3은 프로세서(120)의 음성인식 구조에 관한 구성 블록도이다.
도 3에 도시된 바와 같이, 프로세서(120)는 대화형 입력 인터페이스(141)로부터 입력되는 사용자의 발화의 데이터를 처리하기 위한 복수의 블록 또는 모듈(121, 122, 123, 124)을 포함한다.
이들 모듈(121, 122, 123, 124)은 편의상 수행하는 기능에 따라서 분류된 것으로서, 본 실시예에 따른 프로세서(120)의 구현 방식을 어느 한 가지로 한정하는 것이 아니다. 이들 모듈(121, 122, 123, 124)은 하드웨어적인 구성일 수 있고, 또는 소프트웨어적인 구성일 수도 있다. 프로세서(120)를 구성하는 각 모듈(121, 122, 123, 124)들이 각각의 동작을 개별적으로 수행할 수 있고, 또는 모듈(121, 122, 123, 124) 단위로 구분되지 않고 프로세서(120)가 전체적인 동작을 순차적으로 수행할 수도 있다. 또한, 프로세서(120) 및 각 모듈(121, 122, 123, 124)의 동작은 컨트롤러(170)의 제어에 의해 수행된다.
프로세서(120)는 후보 명령어를 입력받아 관리하는 후보 명령어 관리모듈(121)과, 서버(200, 도 2 참조)에 대한 접속상태를 관리하는 서버접속 관리모듈(122)과, 대화형 입력 인터페이스(141)로부터의 발화 데이터를 처리하여 인식 결과를 도출하는 음성인식모듈(123)과, 음성인식모듈(123)의 활성화 상태에 대응하여 발화 데이터를 버퍼링하는 음성데이터 제어모듈(124)을 포함한다.
이들 모듈(121, 122, 123, 124)은 음성인식 기능이 비활성화 상태에서는 비활성화되며, 음성인식 기능을 활성화시키는 트리거 이벤트에 따라서 활성화된다.
후보 명령어 관리모듈(121)은 프로세서(120)가 내부처리방식으로 음성인식을 수행하는 경우에 활성화된다. 트리거 이벤트가 발생하면, 후보 명령어 관리모듈(121)은 디스플레이장치(100)의 현재 실행환경 상태를 확인한다. 후보 명령어 관리모듈(121)은 디스플레이장치(100)에서 현재 실행중인 어플리케이션 및 디스플레이장치(100)에 현재 접속되어 있는 외부장치(미도시)로부터, 해당 어플리케이션 및 외부장치가 사용하는 후보 명령어를 수집하여 후보 명령어 리스트를 구성한다.
이러한 후보 명령어들은 음성인식을 지원하는 어플리케이션 또는 외부장치가 고유하게 사용하는 사전에 정의된 명령어들로서, 이들 명령어는 어플리케이션 및 외부장치에 따라서 개별적으로 지정되며 다양한 형식 및 종류가 있으므로 특정한 예시에 의해 한정될 수 없다.
후보 명령어 리스트는 음성인식모듈(123)에 의해 발화 데이터의 인식결과 처리 시에 인식결과에 대응하는 동작의 명령어를 검색하기 위해 참조된다.
서버접속 관리모듈(122)은 프로세서(120)가 외부처리방식으로 음성인식을 수행하는 경우에 활성화된다. 트리거 이벤트가 발생하면, 서버접속 관리모듈(122)은 음성인식을 수행하는 서버(200, 도 2 참조)에 통신 접속하며, 통신연결 상태를 관리한다. 서버접속 관리모듈(122)은 음성인식모듈(123)의 요청에 따라서 발화 데이터를 서버(200)에 전달하고, 해당 발화 데이터의 인식결과를 음성인식모듈(123)에 반환한다.
음성인식모듈(123)은 내부처리방식에 따라서 자체적으로 발화 데이터를 분석하거나 또는 외부처리방식에 따라서 서버(200)로부터 수신된 결과에 기초하여 음성인식결과를 도출한다.
음성데이터 제어모듈(124)은 트리거 이벤트가 발생하면 후보 명령어 관리모듈(121), 서버접속 관리모듈(122), 음성인식모듈(123)의 상태를 모니터링함으로써, 프로세서(120)의 전체적인 음성인식 기능의 활성화가 완료되었는지, 즉 음성인식 준비기간이 끝났는지 판단한다.
음성데이터 제어모듈(124)은 음성인식 준비기간 동안에 대화형 입력 인터페이스(141)로부터 사용자의 발화가 입력되면, 기 설정된 방법에 따라서 버퍼의 크기를 결정하여 버퍼를 동적으로 구축하며, 입력된 발화의 데이터를 버퍼에 저장한다. 버퍼 크기를 결정하는 방법은 후술한다. 버퍼의 구축은 임시저장 메모리(160, 도 2 참조)의 소정 주소범위 내에서 수행될 수 있다.
음성데이터 제어모듈(124)은 음성인식 준비기간 동안에 입력된 발화 데이터를 버퍼에 보존하며, 음성인식 준비기간이 끝나면 버퍼에 보존된 발화 데이터를 음성인식모듈(123)에 전달함으로써 처리되도록 한다. 그리고, 음성데이터 제어모듈(124)은 음성인식 준비기간이 끝나고 버퍼가 비어 있으면, 버퍼를 초기화하고 비활성화된다.
이하, 본 실시예에 따른 디스플레이장치(100)의 제어방법에 관해 도 4 및 도 5를 참조하여 설명한다.
도 4 및 도 5는 디스플레이장치(100)의 제어방법을 나타내는 플로우차트이다. 본 실시예에서는 음성인식 기능이 비활성화된 상태를 초기상태로 한다.
도 4에 도시된 바와 같이, 디스플레이장치(100)는 S100 단계에서 음성인식 기능을 활성화시키는 트리거 이벤트의 발생을 감지한다. S110 단계에서, 디스플레이장치(100)는 트리거 이벤트에 따라서 음성인식 기능의 활성화를 개시한다.
디스플레이장치(100)는 S120 단계에서 사용자의 발화가 입력되면, S130 단계에서 음성인식 기능의 활성화가 완료되었는지 판단한다. 여기서, 음성인식 기능의 활성화 여부는 내부처리방식 및 외부처리방식 각각의 경우로 구분할 수 있으며, 이에 관한 설명은 후술한다.
음성인식 기능의 활성화가 완료되지 않은 것으로 판단되면, 디스플레이장치(100)는 S140 단계에서 버퍼의 크기를 결정하여 버퍼를 구성한다. 디스플레이장치(100)는 S150 단계에서 사용자 발화 데이터를 버퍼에 저장한다.
디스플레이장치(100)는 S160 단계에서 저장 데이터의 총 크기가 버퍼의 크기를 초과하는지 판단한다. 디스플레이장치(100)는 저장 데이터의 총 크기가 버퍼의 크기를 초과하지 않는 것으로 판단되면 S130 단계로 이행한다. 디스플레이장치(100)는 저장 데이터의 총 크기가 버퍼의 크기를 초과하는 것으로 판단하면, S170 단계에서 버퍼의 데이터를 삭제 및 정리하고 S130 단계로 이행한다.
도 5에 도시된 바와 같이, S130 단계에서 음성인식 기능의 활성화가 완료된 것으로 판단되면, 디스플레이장치(100)는 S180 단계에서 버퍼의 데이터를 읽는다. 디스플레이장치(100)는 S190 단계에서 버퍼의 데이터에 대한 음성인식 결과를 도출한다.
디스플레이장치(100)는 S200 단계에서 버퍼 내에 독취 및 처리되지 않은 데이터가 남아있지 않은지, 즉 버퍼가 비었는지 판단한다. 디스플레이장치(100)는 버퍼가 비었으면 프로세스를 종료하고 다음 사용자 발화를 대기한다. 반면, 디스플레이장치(100)는 버퍼가 비어있지 않으면 S210 단계에서 버퍼를 초기화하고 프로세스를 종료한다.
이하, 위의 과정 중에서 일부 단계들에 관해 보다 구체적으로 설명한다.
S100 단계에서, 트리거 이벤트는 다양한 방법에 의해 발생할 수 있다. 예를 들면, 트리거 이벤트는 사용자가 리모트 컨트롤러(145, 도 1 참조)의 특정 버튼을 눌렀을 때에 발생하거나, UI 영상을 통한 입력에 의해 발생하거나, 사용자의 특정 모션에 따라서 발생할 수 있다. 즉, 트리거 이벤트는 비대화형 입력 인터페이스(142, 도 2 참조)를 통한 다양한 형태의 기 설정된 입력에 의해 발생한다.
S110 단계에서 개시되는 음성인식 기능의 활성화 과정, 즉 음성인식 기능의 준비단계는 외부처리방식 및 내부처리방식 각각의 경우로 구분이 가능하다.
외부처리방식의 활성화에 대하여, 디스플레이장치(100)는 음성 인식의 분석을 수행하는 서버(200, 도 2 참조)와의 통신상태를 확인함으로써 서버(200)와의 통신이 정상적으로 수행될 수 있는 상황인지 판단한다. 이를 위하여, 디스플레이장치(100)는 서버(200)와의 사이에 통신환경 점검을 위한 시험 데이터의 송수신 과정을 수행하고 에러율을 체크하는 동작을 수행한다. 이 과정에서, 디스플레이장치(100)는 복수의 서버(200)에 통신이 가능한 경우에, 통신상태 및 기타 환경요인에 따라서 어느 한 서버(200)를 선택 및 접속할 수 있다.
내부처리방식의 활성화에 대하여, 디스플레이장치(100)는 음성인식에 활용되는 후보 명령어의 리스트를 구축하기 위해서, 현재 디스플레이장치(100)에서 실행되고 있는 어플리케이션 및 현재 디스플레이장치(100)에 로컬/네트워크를 통해 접속되어 있는 외부장치를 판단한다. 디스플레이장치(100)는 이들 어플리케이션 및 외부장치에서 사용하도록 각 어플리케이션 및 외부장치에 기 등록된 명령어를 수집하고, 수집된 명령어들로 후보 명령어 리스트를 구성한다. 또는, 디스플레이장치(100)는 제조 단계에서 미리 설정되거나 또는 사용 이력에 따른 명령어의 학습과정을 반영한 후보 명령어 리스트가 기 저장되어 있으며, 이러한 리스트를 호출할 수도 있다.
이와 같은 외부처리방식 및 내부처리방식의 준비단계는 일부의 예시일 뿐으로서, 그 외에도 디스플레이장치(100)의 설계방식에 따라서 다양한 준비단계가 적용될 수 있다.
S140 단계에서, 버퍼의 크기를 결정하는 방법은 다음과 같다. 기본적으로 디스플레이장치(100)는 음성인식 준비단계의 진행상태 또는 진행속도에 대응하여 버퍼의 크기를 결정하는 바, 음성인식 준비단계가 상대적으로 빠르게 진행된다고 판단하면 버퍼의 크기를 상대적으로 작게 결정하고, 음성인식 준비단계가 상대적으로 느리게 진행된다고 판단하면 버퍼의 크기를 상대적으로 크게 결정한다.
음성인식 준비단계의 진행상태의 판단 방법은 외부처리방식 및 내부처리방식 각각에 대하여 개별적으로 적용될 수 있다. 위에서 예를 든 외부처리방식 및 내부처리방식 각각의 예시와 관련한 구체적인 설명은 다음과 같다.
외부처리방식에 따르는 경우, 디스플레이장치(100)는 서버(200)에 대한 네트워크 응답속도가 느릴수록, 통신 접속이 가능한 서버(200)의 수가 많을수록, 서버(200)와의 통신환경이 불량할수록, 버퍼의 크기를 상대적으로 크게 설정한다. 다만, 버퍼의 크기가 커질수록 처리 부하가 증가하므로, 버퍼의 크기에는 설정 가능한 최대값이 존재한다. 디스플레이장치(100)는 버퍼의 크기를 정해진 최대값보다 크게 설정하지 않는다.
내부처리방식에 따르는 경우, 디스플레이장치(100)는 현재 활성화된 어플리케이션 및 외부장치의 수가 많을수록, 어플리케이션 및 외부장치로부터의 후보 명령어 수가 많을수록, 버퍼의 크기를 상대적으로 크게 설정한다. 이 경우에도, 버퍼의 크기에는 설정 가능한 최대값이 존재한다.
S170 단계에서, 버퍼의 데이터를 정리하는 과정에 관해 이하 도 6을 참조하여 설명한다.
도 6은 동적으로 구성된 버퍼(161)의 예시도이다.
도 6에 도시된 바와 같이, 음성인식 준비단계에서 구축된 버퍼(161)는 임시저장 메모리(160, 도 2 참조)의 기 설정된 주소범위 내에 형성된다. 버퍼(161)는 0번 패킷(packet)으로부터 n번 패킷까지 총 n+1개의 단위 패킷들을 포함한다.
디스플레이장치(100)는 발화 데이터를 버퍼(161)에 저장할 때에, 0번 패킷에서부터 순서대로 저장한다. 디스플레이장치(100)가 이와 같이 발화 데이터를 버퍼(161)에 저장하는 과정에서, 저장하는 총 데이터가 버퍼(161)의 n번 패킷을 초과하는 경우가 발생할 수도 있다.
이러한 경우에, 디스플레이장치(100)는 데이터를 n번 패킷까지 채우고, 0번 패킷부터 소정 번호의 패킷까지의 구간을 비운 이후에 다음 데이터를 저장함으로써 버퍼(161)의 오버플로우(overflow)를 방지한다.
여기서, 디스플레이장치(100)는 데이터의 저장 순서에 따라서, 1회 저장된 데이터 단위로 패킷을 비운다. 예를 들면, 사용자가 5회째 발화한 시점에서 버퍼(161)에 오버플로우가 발생하는 경우에, 디스플레이장치(100)는 최초 발화 데이터를 버퍼(161)에서 삭제하고 5회째 발화 데이터를 버퍼(161)에 저장한다.
디스플레이장치(100)는 이후에 준비단계가 완료됨에 따라서 버퍼(161)로부터 데이터를 읽을 때에, 0번 패킷부터 읽지 않고 시간적으로 가장 빠른 시점에 저장된 패킷부터 읽는다.
디스플레이장치(100)는 버퍼(161)의 모든 데이터를 독취 및 처리하면, 음성인식 기능이 활성화된 상태에서 발화 데이터를 임시 저장할 버퍼가 필요하므로, 버퍼(161)를 초기화 또는 리셋한다.
한편, 앞선 실시예에서는 발화 데이터의 총 크기가 버퍼의 크기를 초과하는 경우에 버퍼의 데이터를 삭제 및 정리하는 실시예에 관해 설명하였으나, 본 발명의 사상이 이에 한정되는 것이 아니며 다른 실시예도 가능하다. 이하, 이러한 실시예에 관하여 도 7을 참조하여 설명한다.
도 7은 본 발명의 제2실시예에 따른 음성인식 준비단계 동안의 디스플레이장치(100)의 제어방법을 나타내는 플로우차트이다. 본 실시예는 트리거 이벤트 이후에 음성인식 기능의 활성화가 진행되고 있는 준비단계 동안에 수행되는 단계만을 설명한다.
도 7에 도시된 바와 같이, 디스플레이장치(100)는 S300 단계에서 사용자 발화가 입력되면, S310 단계에서 사용자 발화 데이터를 버퍼에 저장한다.
디스플레이장치(100)는 S320 단계에서 데이터의 총 크기가 버퍼의 크기를 초과하였는지 판단한다. 데이터의 총 크기가 버퍼의 크기를 초과하지 않은 것으로 판단되면, 디스플레이장치(100)는 본 프로세스를 종료한다.
데이터의 총 크기가 버퍼의 크기를 초과한 것으로 판단되면, 디스플레이장치(100)는 S330 단계에서 내부처리방식의 인식기능 및 외부처리방식의 인식기능 중 어느 하나의 활성화가 완료되었는지 판단한다. 만일, 내부처리방식 및 외부처리방식 중 어떠한 방식의 기능의 활성화도 완료되지 않은 것으로 판단하면, 디스플레이장치(100)는 S340 단계에서 버퍼의 데이터를 삭제 및 정리한다.
반면, 내부처리방식 및 외부처리방식 중 어느 한 방식의 활성화가 완료된 것으로 판단하면, 디스플레이장치(100)는 S350 단계에서 활성화가 완료된 방식으로 먼저 버퍼의 데이터를 처리한다. 그리고, 디스플레이장치(100)는 S360 단계에서 처리된 데이터를 버퍼에서 삭제한다.
이로써, 디스플레이장치(100)는 음성인식 기능 전체의 활성화가 완료되지 않은 상태에서도, 일부 음성인식 기능이 완료된 상태라면 해당 음성인식 기능에 의하여 버퍼의 데이터를 처리함으로써, 버퍼에서 데이터가 오버플로우되는 것을 방지할 수 있다.
위 과정에 관한 구체적인 예를 들면, 내부처리방식 관련 음성인식 기능 및 외부처리방식 관련 음성인식 기능은 각기 상이한 프로세스를 포함하므로, 활성화 완료 시점이 서로 상이하다. 디스플레이장치(100)의 통신환경이 우수하고 디스플레이장치(100)에서 실행되고 있는 어플리케이션의 수가 많다면, 외부처리방식에 따른 기능이 내부처리방식에 따른 기능보다 먼저 활성화가 완료될 것이다. 반면, 디스플레이장치(100)의 통신환경이 나쁘고 디스플레이장치(100)에서 실행되고 있는 어플리케이션의 수가 적다면, 내부처리방식에 따른 기능이 외부처리방식에 따른 기능보다 먼저 활성화가 완료될 것이다.
이와 같이, 디스플레이장치(100)의 현재 실행환경 상태에 따라서, 내부처리방식 및 외부처리방식 중에서 먼저 활성화가 완료되는 쪽은 상이할 수 있다.
상기한 실시예는 예시적인 것에 불과한 것으로, 당해 기술 분야의 통상의 지식을 가진 자라면 다양한 변형 및 균등한 타 실시예가 가능하다. 따라서, 본 발명의 진정한 기술적 보호범위는 하기의 특허청구범위에 기재된 발명의 기술적 사상에 의해 정해져야 할 것이다.
100 : 영상처리장치, 디스플레이장치
110 : 통신 인터페이스
120 : 프로세서
121 : 후보 명령어 관리모듈
122 : 서버접속 관리모듈
123 : 음성인식모듈
124 : 음성데이터 제어모듈
130 : 디스플레이
140 : 사용자 인터페이스
141 : 대화형 입력 인터페이스
142 : 비대화형 입력 인터페이스
145 : 리모트 컨트롤러
150 : 스토리지
160 : 임시저장 메모리
170 : 컨트롤러
200 : 서버

Claims (24)

  1. 디스플레이장치에 있어서,
    사용자 음성 입력을 수신하는 음성입력수신부와,
    상기 음성 입력의 음성처리를 수행하도록 마련된 외부 서버와 통신하는 통신 인터페이스와,
    메모리와,
    음성인식기능의 활성화 이벤트에 응답하여, 상기 음성입력수신부가 상기 음성입력을 수신하는 동안에 상기 음성인식기능이 활성화되어 있는지 여부를 판단하고,
    상기 음성인식기능이 활성화된 것으로 판단하면, 상기 음성처리를 위하여 상기 수신된 음성입력을 상기 서버에 전송하도록 상기 통신 인터페이스를 제어하며,
    상기 음성인식기능이 활성화되어 있지 않은 것으로 판단하면, 상기 수신된 음성입력을 상기 메모리에 저장하고, 이후 상기 음성인식기능이 활성화된 것으로 판단하면, 상기 음성처리를 위하여 상기 저장된 음성입력을 상기 서버에 전송하도록 상기 통신 인터페이스를 제어하는 프로세서를 포함하며,
    상기 프로세서는 상기 디스플레이장치가 상기 서버와 통신 가능 상태에 있는 경우 상기 음성인식기능이 활성화된 것으로 판단하는 디스플레이장치.
  2. 제1항에 있어서,
    상기 통신 인터페이스가 상기 서버에 접속된 것으로 판단하면, 상기 프로세서는 상기 수신된 음성입력을 상기 메모리에 저장하지 않고 상기 통신 인터페이스를 통해 상기 수신된 음성입력을 상기 서버에 전송하도록 하는 디스플레이장치.
  3. 제1항에 있어서,
    상기 프로세서는 상기 음성입력이 상기 서버에 전송되면 상기 메모리에 저장된 상기 음성입력의 적어도 일부를 삭제하는 디스플레이장치.
  4. 제1항에 있어서,
    상기 프로세서는 상기 메모리에 저장된 상기 음성입력의 데이터 용량이 기 설정된 값보다 크면, 상기 메모리에 저장된 상기 음성입력의 적어도 일부를 삭제하는 디스플레이장치.
  5. 제1항에 있어서,
    상기 음성입력수신부는 상기 디스플레이장치를 제어하기 위한 리모트 컨트롤러로부터 상기 음성입력을 수신하는 디스플레이장치.
  6. 제1항에 있어서,
    상기 프로세서는 상기 통신 인터페이스가 상기 서버에 접속되어 있는지 여부를 판단하기 위해 상기 서버에 테스트 데이터를 전송하는 디스플레이장치.
  7. 제6항에 있어서,
    상기 프로세서는 상기 테스트 데이터의 에러율에 기초하여 상기 통신 인터페이스가 상기 서버에 접속되어 있는지 여부를 판단하는 디스플레이장치.
  8. 디스플레이장치의 제어방법에 있어서,
    사용자의 음성입력을 수신하는 단계와,
    음성인식기능의 활성화 이벤트에 응답하여, 상기 음성입력을 수신하는 동안에 상기 음성인식기능이 활성화되어 있는지 여부를 판단하는 단계와,
    상기 음성인식기능이 활성화된 것으로 판단하면, 음성처리를 위하여 상기 수신된 음성입력을 외부 서버에 전송하는 단계와,
    상기 음성인식기능이 활성화되어 있지 않은 것으로 판단하면, 상기 수신된 음성입력을 메모리에 저장하고, 이후 상기 음성인식기능이 활성화된 것으로 판단하면, 음성처리를 위하여 상기 저장된 음성입력을 상기 서버에 전송하는 단계를 포함하며,
    상기 디스플레이장치가 상기 서버와 통신 가능 상태에 있는 경우 상기 음성인식기능이 활성화된 것으로 판단되는 디스플레이장치의 제어방법.
  9. 제8항에 있어서,
    상기 디스플레이장치가 상기 서버에 접속된 것으로 판단하면, 상기 수신된 음성입력을 상기 메모리에 저장하지 않고 상기 수신된 음성입력을 상기 서버에 전송하는 단계를 더 포함하는 디스플레이장치의 제어방법.
  10. 제8항에 있어서,
    상기 저장된 음성입력이 상기 서버에 전송되면 상기 저장된 음성입력의 적어도 일부를 삭제하는 단계를 더 포함하는 디스플레이장치의 제어방법.
  11. 제8항에 있어서,
    상기 저장된 음성입력의 데이터 용량이 기 설정된 값보다 크면, 상기 저장된 음성입력의 적어도 일부를 삭제하는 단계를 더 포함하는 디스플레이장치의 제어방법.
  12. 제8항에 있어서,
    상기 수신 단계는, 상기 디스플레이장치를 제어하기 위한 리모트 컨트롤러로부터 상기 음성입력을 수신하는 단계를 포함하는 디스플레이장치의 제어방법.
  13. 제8항에 있어서,
    상기 판단 단계는, 상기 디스플레이장치가 상기 서버에 접속되어 있는지 여부를 판단하기 위해 상기 서버에 테스트 데이터를 전송하는 단계를 포함하는 디스플레이장치의 제어방법.
  14. 제13항에 있어서,
    상기 판단 단계는, 상기 테스트 데이터의 에러율에 기초하여 상기 디스플레이장치가 상기 서버에 접속되어 있는지 여부를 판단하는 단계를 더 포함하는 디스플레이장치의 제어방법.
  15. 디스플레이장치의 프로세서에 의해 실행되도록 마련된 방법의 지시들을 저장하는 비휘발성 컴퓨터 독취가능 기록매체에 있어서,
    상기 방법은,
    사용자의 음성입력을 수신하는 단계와,
    음성인식기능의 활성화 이벤트에 응답하여, 상기 음성입력을 수신하는 동안에 상기 음성인식기능이 활성화되어 있는지 여부를 판단하는 단계와,
    상기 음성인식기능이 활성화된 것으로 판단하면, 음성처리를 위하여 상기 수신된 음성입력을 외부 서버에 전송하는 단계와,
    상기 음성인식기능이 활성화되어 있지 않은 것으로 판단하면, 상기 수신된 음성입력을 메모리에 저장하고, 이후 상기 음성인식기능이 활성화된 것으로 판단하면, 음성처리를 위하여 상기 저장된 음성입력을 상기 서버에 전송하는 단계를 포함하며,
    상기 프로세서는 상기 디스플레이장치가 상기 서버와 통신 가능 상태에 있는 경우 상기 음성인식기능이 활성화된 것으로 판단하는 기록매체.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
KR1020130122675A 2013-10-15 2013-10-15 디스플레이장치 및 그 제어방법 KR102155482B1 (ko)

Priority Applications (9)

Application Number Priority Date Filing Date Title
KR1020130122675A KR102155482B1 (ko) 2013-10-15 2013-10-15 디스플레이장치 및 그 제어방법
US14/494,183 US9519455B2 (en) 2013-10-15 2014-09-23 Image processing apparatus having a voice control function and control method thereof
CN201910558889.8A CN110231927B (zh) 2013-10-15 2014-09-23 图像处理装置及其控制方法
CN201480056213.4A CN105659619B (zh) 2013-10-15 2014-09-23 图像处理装置及其控制方法
CN201811423558.5A CN110058832B (zh) 2013-10-15 2014-09-23 图像处理装置及其控制方法
EP14853920.8A EP3053349B1 (en) 2013-10-15 2014-09-23 Image processing apparatus and control method thereof
EP18205521.0A EP3474560A1 (en) 2013-10-15 2014-09-23 Image processing apparatus and control method thereof
PCT/KR2014/008828 WO2015056892A1 (en) 2013-10-15 2014-09-23 Image processing apparatus and control method thereof
US15/347,009 US10068572B2 (en) 2013-10-15 2016-11-09 Image processing apparatus having a voice control function and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130122675A KR102155482B1 (ko) 2013-10-15 2013-10-15 디스플레이장치 및 그 제어방법

Publications (2)

Publication Number Publication Date
KR20150043807A KR20150043807A (ko) 2015-04-23
KR102155482B1 true KR102155482B1 (ko) 2020-09-14

Family

ID=52810400

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130122675A KR102155482B1 (ko) 2013-10-15 2013-10-15 디스플레이장치 및 그 제어방법

Country Status (5)

Country Link
US (2) US9519455B2 (ko)
EP (2) EP3474560A1 (ko)
KR (1) KR102155482B1 (ko)
CN (3) CN110231927B (ko)
WO (1) WO2015056892A1 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101595090B1 (ko) * 2015-04-30 2016-02-17 주식회사 아마다스 음성 인식을 이용한 정보 검색 방법 및 장치
US10747418B2 (en) 2015-07-24 2020-08-18 Coscreen, Inc. Frictionless interface for virtual collaboration, communication and cloud computing
KR20170046958A (ko) * 2015-10-22 2017-05-04 삼성전자주식회사 전자 장치 및 그의 음성 인식을 이용한 기능 실행 방법
US9922648B2 (en) * 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US10228906B2 (en) 2016-05-30 2019-03-12 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN106782552B (zh) * 2016-12-06 2020-05-22 深圳Tcl数字技术有限公司 尾音识别方法及语音遥控器
CN109584862B (zh) * 2017-09-29 2024-01-12 上海寒武纪信息科技有限公司 图像处理装置和方法
CN109584864B (zh) * 2017-09-29 2023-11-24 上海寒武纪信息科技有限公司 图像处理装置和方法
KR102527278B1 (ko) * 2017-12-04 2023-04-28 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
KR102443079B1 (ko) 2017-12-06 2022-09-14 삼성전자주식회사 전자 장치 및 그의 제어 방법
KR20190068133A (ko) * 2017-12-08 2019-06-18 삼성전자주식회사 오디오 데이터에 포함된 음소 정보를 이용하여 어플리케이션을 실행하기 위한 전자 장치 및 그의 동작 방법
CN108170269B (zh) * 2017-12-26 2021-02-26 上海展扬通信技术有限公司 一种图像缩放方法及终端
EP3888080A4 (en) * 2018-11-27 2022-07-13 LG Electronics Inc. MULTIMEDIA DEVICE FOR VOICE COMMAND PROCESSING
US11211063B2 (en) 2018-11-27 2021-12-28 Lg Electronics Inc. Multimedia device for processing voice command
KR102291117B1 (ko) * 2018-12-27 2021-08-20 주식회사 오투오 외부 연결용 ai 스피커 장치 및 이와 외부 기기 간의 에코 제거 및 동기화 방법
WO2020230923A1 (ko) * 2019-05-15 2020-11-19 엘지전자 주식회사 음성 인식 서비스를 제공하기 위한 디스플레이 장치 및 그의 동작 방법
KR102224994B1 (ko) * 2019-05-21 2021-03-08 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
US11996098B2 (en) * 2019-06-05 2024-05-28 Hewlett-Packard Development Company, L.P. Missed utterance resolutions
CN110335603A (zh) * 2019-07-12 2019-10-15 四川长虹电器股份有限公司 应用于电视场景的多模态交互方法
KR102344044B1 (ko) * 2020-01-22 2021-12-27 주식회사 엘지유플러스 셋탑 단말 및 이의 동작 방법
KR20230123343A (ko) * 2022-02-16 2023-08-23 삼성전자주식회사 음성 지원 서비스를 제공하는 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003195880A (ja) * 2001-12-28 2003-07-09 Nec Corp サーバ・クライアント型音声認識装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980064133A (ko) * 1996-12-16 1998-10-07 히라이가즈히꼬 광 기록 매체
US6415258B1 (en) 1999-10-06 2002-07-02 Microsoft Corporation Background audio recovery system
US6532446B1 (en) * 1999-11-24 2003-03-11 Openwave Systems Inc. Server based speech recognition user interface for wireless devices
DE10030369A1 (de) * 2000-06-21 2002-01-03 Volkswagen Ag Spracherkennungssystem
US8265931B2 (en) * 2002-01-22 2012-09-11 At&T Intellectual Property Ii, L.P. Method and device for providing speech-to-text encoding and telephony service
US7266382B2 (en) 2003-08-06 2007-09-04 Lucent Technologies Inc. Method and apparatus for decreasing perceived push-to-talk call set-up time using a buffer for initial speech burst
US7457242B2 (en) * 2004-02-12 2008-11-25 Avaya, Inc. System for transmitting high quality speech signals on a voice over internet protocol network
JP2005311864A (ja) * 2004-04-23 2005-11-04 Toshiba Corp 家電機器、アダプタ装置および家電機器システム
KR100641148B1 (ko) 2004-04-29 2006-11-06 엘지전자 주식회사 무전 통신 단말기의 음성 입력 버퍼링 장치 및 방법
KR100566284B1 (ko) 2004-05-22 2006-03-30 삼성전자주식회사 체감 지연이 없이 음성메시지를 전송할 수 있는 PoC이동단말기, 서버, 및 그 방법
KR20060085381A (ko) * 2005-01-24 2006-07-27 주식회사 현대오토넷 텔레매틱스 시스템의 음성인식 장치 및 방법
EP1939860B1 (en) * 2006-11-30 2009-03-18 Harman Becker Automotive Systems GmbH Interactive speech recognition system
KR20090107365A (ko) 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US8958848B2 (en) 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
CN101551998B (zh) * 2009-05-12 2011-07-27 上海锦芯电子科技有限公司 一种语音互动系统以及其和人的语音互动方法
JP4930564B2 (ja) 2009-09-24 2012-05-16 カシオ計算機株式会社 画像表示装置及び方法並びにプログラム
CN102118886A (zh) * 2010-01-04 2011-07-06 中国移动通信集团公司 一种语音信息的识别方法和设备
KR20120011945A (ko) * 2010-07-28 2012-02-09 삼성전자주식회사 아이피 텔레비전에서 음성 인식을 이용한 인터넷 검색 방법 및 장치
US20130085905A1 (en) * 2011-10-01 2013-04-04 Oracle International Corporation Mobile device for mobile expense solutions architecture
US8825020B2 (en) * 2012-01-12 2014-09-02 Sensory, Incorporated Information access and device control using mobile phones and audio in the home environment
KR101284594B1 (ko) * 2012-10-26 2013-07-10 삼성전자주식회사 영상처리장치 및 그 제어방법, 영상처리 시스템
CN102945671A (zh) * 2012-10-31 2013-02-27 四川长虹电器股份有限公司 语音识别方法
CN103021413A (zh) * 2013-01-07 2013-04-03 北京播思软件技术有限公司 语音控制方法及装置
EP2801974A3 (en) * 2013-05-09 2015-02-18 DSP Group Ltd. Low power activation of a voice activated device
US10747418B2 (en) * 2015-07-24 2020-08-18 Coscreen, Inc. Frictionless interface for virtual collaboration, communication and cloud computing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003195880A (ja) * 2001-12-28 2003-07-09 Nec Corp サーバ・クライアント型音声認識装置

Also Published As

Publication number Publication date
CN105659619B (zh) 2019-07-26
CN110058832B (zh) 2022-11-25
US10068572B2 (en) 2018-09-04
EP3053349A1 (en) 2016-08-10
EP3474560A1 (en) 2019-04-24
WO2015056892A1 (en) 2015-04-23
US9519455B2 (en) 2016-12-13
US20150106099A1 (en) 2015-04-16
CN110231927A (zh) 2019-09-13
EP3053349A4 (en) 2017-06-14
CN105659619A (zh) 2016-06-08
CN110058832A (zh) 2019-07-26
CN110231927B (zh) 2022-10-04
EP3053349B1 (en) 2018-12-26
KR20150043807A (ko) 2015-04-23
US20170053649A1 (en) 2017-02-23

Similar Documents

Publication Publication Date Title
KR102155482B1 (ko) 디스플레이장치 및 그 제어방법
JP6824316B2 (ja) 映像処理装置及びその制御方法、並びに映像処理システム
US11727951B2 (en) Display apparatus, voice acquiring apparatus and voice recognition method thereof
KR102053820B1 (ko) 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
EP2725576A1 (en) Image processing apparatus and control method thereof and image processing system.
US11341963B2 (en) Electronic apparatus and method for controlling same
US11462214B2 (en) Electronic apparatus and control method thereof
CN116189674A (zh) 一种语音控制方法及显示设备
KR20190135977A (ko) 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
KR102661376B1 (ko) 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
KR102093353B1 (ko) 서비스 제공 장치 및 방법
KR102317742B1 (ko) 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
US20110075054A1 (en) Embedded electronic device
CN113506571A (zh) 控制方法、移动终端及存储介质
CN115802083A (zh) 控制方法、装置、分体电视及可读存储介质
KR20090050501A (ko) 홈네트워크에서의 멀티모달 인터페이스 시스템 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant