KR102245747B1 - 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 - Google Patents

사용자 명령어 등록을 위한 디스플레이 장치 및 방법 Download PDF

Info

Publication number
KR102245747B1
KR102245747B1 KR1020140162654A KR20140162654A KR102245747B1 KR 102245747 B1 KR102245747 B1 KR 102245747B1 KR 1020140162654 A KR1020140162654 A KR 1020140162654A KR 20140162654 A KR20140162654 A KR 20140162654A KR 102245747 B1 KR102245747 B1 KR 102245747B1
Authority
KR
South Korea
Prior art keywords
command
user
user command
text
voice
Prior art date
Application number
KR1020140162654A
Other languages
English (en)
Other versions
KR20160060405A (ko
Inventor
권남영
박경미
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140162654A priority Critical patent/KR102245747B1/ko
Priority to US14/921,237 priority patent/US9830908B2/en
Priority to EP15194814.8A priority patent/EP3023978A1/en
Priority to CN202011121617.0A priority patent/CN112216281A/zh
Priority to CN201510810660.0A priority patent/CN105635777B/zh
Publication of KR20160060405A publication Critical patent/KR20160060405A/ko
Priority to US15/785,722 priority patent/US10381004B2/en
Priority to US16/423,669 priority patent/US10885916B2/en
Priority to US17/106,568 priority patent/US11495228B2/en
Priority to KR1020210052452A priority patent/KR102456588B1/ko
Application granted granted Critical
Publication of KR102245747B1 publication Critical patent/KR102245747B1/ko
Priority to US17/961,848 priority patent/US11900939B2/en
Priority to US18/377,590 priority patent/US20240038230A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

사용자 명령어 등록을 위한 디스플레이 장치 및 방법이 개시된다. 본 발명에 따른 디스플레이 장치는, 사용자 명령어를 입력받는 입력부, 사용자 명령어에 대한 등록 적합성 판단 결과를 출력하는 출력부 및 사용자 명령어에 대한 발음기호를 생성하며, 생성된 발음기호를 분석하여 사용자 명령어에 대한 등록 적합성 여부를 판단하여 사용자 명령어에 대한 등록 적합성 판단 결과를 출력하도록 출력부를 제어하는 프로세서를 포함한다. 이에 따라, 디스플레이 장치는 사용자에 의해 정의된 사용자 명령어 중 오인식에 강하고, 높은 인식률이 보장되는 사용자 명령어를 등록할 수 있다.

Description

사용자 명령어 등록을 위한 디스플레이 장치 및 방법{Apparatus and method for registration of user command}
본 발명은 사용자 명령어 등록을 위한 디스플레이 장치 및 방법에 관한 것으로써, 보다 상세하게는 사용자에 의해 정의된 사용자 명령어를 등록하기 위한 디스플레이 장치 및 방법에 관한 것이다.
기술 개발로 인해, 스마트 폰, 스마트 TV와 같은 디스플레이 장치에서 사용자의 음성 인식이 가능해짐에 따라, 사용자는 별도의 조작 없이 발화 음성을 통해 디스플레이 장치의 동작을 제어하거나 다양한 컨텐츠 서비스를 제공받을 수 있다. 이 같은 음성 인식 방식은 디스플레이 장치에 기등록된 명령어와 관련된 발화 음성을 인식하는 임베디드 방식에 기반하고 있다.
그러나, 사용자는 디스플레이 장치에 기등록된 명령어에 대해서 정확히 숙지하지 못하여 디스플레이 장치를 통해 음성 인식 서비스를 효과적으로 이용하지 못하는 문제가 있다. 따라서, 이 같은 문제를 해결하면서, 사용자가 디스플레이 장치를 이용하는데 있어 보다 재미있고 유연하게 이용하고자, 사용자에 의해 정의된 사용자 명령어를 디스플레이 장치에 등록하는 사용자 명령어 등록 방법에 대한 기술이 개발되고 있다.
그러나, 종래의 사용자 명령어 등록 방법은 단순히 사용자에 의해 정의된 사용자 명령어를 등록하는 방법에 대해서 초점을 맞추고 있다. 즉, 종래의 사용자 명령어 등록 방법은 사용자에 의해 정의된 사용자 명령어에 대한 오인식 발생 가능성에 대한 문제점을 고려하지 않고, 단순히, 해당 사용자 명령어를 등록하고자 하는데 초점이 맞춰져 있다.
이 같은 종래의 사용자 명령어 등록 방법을 통해 사용자 명령어가 등록된 상태에서, 해당 사용자 명령어에 대한 발화 음성이 입력되면, 디스플레이 장치는 주변 환경 요인에 의해 사용자의 발화 음성을 올바르게 인식하지 못하는 문제가 발생할 있다. 뿐만 아니라, 해당 사용자 명령어와 유사한 타 명령어가 기등록되어 있는 상태에서, 해당 사용자 명령어에 대한 발화 음성이 입력되면, 디스플레이 장치는 입력된 발화 음성을 통해 사용자 명령어와 유사한 타 명령어에 기초하여 사용자가 의도하지 않은 제어 동작을 수행하는 문제가 발생할 수 있다.
발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 디스플레이 장치에서 사용자에 의해 정의된 사용자 명령어 중 오인식에 강하고, 높은 인식률이 보장되는 사용자 명령어를 등록하기 위함을 목적으로 한다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 디스플레이 장치는, 사용자 명령어를 입력받는 입력부, 상기 사용자 명령어에 대한 등록 적합성 판단 결과를 출력하는 출력부 및 상기 사용자 명령어에 대한 발음기호를 생성하며, 상기 생성된 발음기호를 분석하여 상기 사용자 명령어에 대한 등록 적합성 여부를 판단하여 상기 사용자 명령어에 대한 등록 적합성 판단 결과를 출력하도록 상기 출력부를 제어하는 프로세서를 포함한다.
그리고, 상기 프로세서는, 상기 생성된 발음기호의 전체 개수 및 상기 생성된 발음기호에 연속된 모음/자음 구성 중 적어도 하나를 분석하여 상기 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
또한, 상기 프로세서는, 상기 생성된 발음기호의 구성 형태, 각 단어별 발음기호의 개수 및 위크(Weak) 발음기호 포함 여부 중 적어도 하나를 더 분석하여 상기 사용자 명령어에 대한 등록 적합성 여부를 판단하며, 상기 위크 발음기호는, 주변 환경에 의해 주파수 대역 혹은 에너지 크기가 작아지거나 손실되어 인식률이 저하되는 특정 발음에 대한 발음기호를 포함할 수 있다.
그리고, 상기 출력부는, 상기 사용자 명령어의 등록이 부적합한 것으로 판단되면, 등록 가능한 사용자 명령어를 안내하는 가이드 UI를 디스플레이하고, 상기 사용자 명령어의 등록이 적합한 것으로 판단되면, 상기 사용자 명령어에 대한 오디오를 출력할 수 있다.
또한, 저장부를 더 포함하며, 상기 프로세서는, 상기 사용자 명령어에 대한 오디오가 출력된 상태에서 상기 사용자 명령어에 대한 발화 음성이 입력되면, 상기 사용자 명령어에 대한 텍스트와 상기 발화 음성에 대한 텍스트 간의 유사도에 따라 상기 사용자 명령어를 상기 저장부에 등록 저장할 수 있다.
그리고, 상기 프로세서는, 상기 사용자 명령어에 대한 등록 적합성 여부를 판단하여 등록이 적합한 것과 부적합한 것 모두에 속하지 않을 경우, 사용자의 선택 명령에 따라 상기 사용자 명령어를 상기 저장부에 등록 저장할 수 있다.
또한, 상기 프로세서는, 기등록된 복수의 명령어별 발음기호와 상기 사용자 명령어의 발음기호에 대한 유사도를 측정하여, 측정된 유사도에따라 상기 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
그리고, 상기 프로세서는, 상기 사용자 명령어가 금칙 명령어에 해당하는지 여부에 따라 상기 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
또한, 상기 입력부는, 상기 사용자 명령어에 대한 발화 음성이 입력되면, 음성 인식 장치로부터 상기 발화 음성에 대한 적어도 하나의 텍스트를 입력받으며, 상기 프로세서는, 상기 입력된 적어도 하나의 텍스트 중 사용자에 의해 선택된 텍스트를 사용자 명령어에 대한 텍스트로 결정할 수 있다.
그리고, 상기 사용자 명령어는, 음성 인식 모드로 진입하기 위한 트리거 명령어 및 상기 디스플레이 장치의 동작을 제어하기 위한 제어 명령어 중 적어도 하나를 포함할 수 있다.
한편, 본 발명의 또다른 실시 예에 따르면, 디스플레이 장치에서 사용자 명령어를 등록하는 방법은, 사용자 명령어를 입력받는 단계, 기정의된 발음기호 세트에 기초하여 상기 사용자 명령어에 대한 발음기호를 생성하는 단계, 상기 생성된 발음기호를 분석하여 상기 사용자 명령어에 대한 등록 적합성 여부를 판단하는 단계 및 상기 사용자 명령어에 대한 등록 적합성 판단 결과를 제공하는 단계를 포함한다.
그리고, 상기 판단하는 단계는, 상기 생성된 발음기호의 전체 개수 및 상기 생성된 발음기호에 연속된 모음/자음 구성 중 적어도 하나를 분석하여 상기 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
또한, 상기 판단하는 단계는, 상기 생성된 발음기호의 구성 형태, 단어별 발음기호의 개수 및 위크(Weak) 발음기호 포함 여부 분석 중 적어도 하나를 더 분석하여 상기 사용자 명령어에 대한 등록 적합성 여부를 판단하며, 상기 위크 발음기호는, 주변 환경에 의해 주파수 대역 혹은 에너지 크기가 작아지거나 손실되어 인식률이 저하되는 특정 발음에 대한 발음기호를 포함할 수 있다.
그리고, 상기 사용자 명령어에 대한 등록 적합성 판단 결과를 제공하는 단계는, 상기 사용자 명령어의 등록이 부적합한 것으로 판단되면, 등록 가능한 사용자 명령어를 안내하는 가이드 UI를 제공하며, 상기 사용자 명령어의 등록이 적합한 것으로 판단되면, 상기 사용자 명령어에 대한 오디오를 출력할 수 있다.
또한, 상기 사용자 명령어에 대한 오디오가 출력된 상태에서 상기 사용자 명령어에 대한 발화 음성이 입력되면, 상기 사용자 명령어에 대한 텍스트와 상기 발화 음성에 대한 텍스트 간의 유사도에 따라 상기 사용자 명령어를 등록하는 단계를 더 포함할 수 있다.
그리고, 상기 사용자 명령어를 등록하는 단계는, 상기 사용자 명령어에 대한 등록 적합성 여부를 판단하여 등록이 적합한 것과 부적합한 것 모두에 속하지 않을 경우, 사용자의 선택 명령에 따라 상기 사용자 명령어를 등록할 수 있다.
또한, 상기 사용자 명령어에 대한 등록 적합성 여부를 판단하는 단계는,기등록된 복수의 명령어별 발음기호와 상기 사용자 명령어의 발음기호에 대한 유사도에 따라, 상기 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
그리고, 상기 사용자 명령어에 대한 등록 적합성 여부를 판단하는 단계는, 상기 사용자 명령어가 금칙 명령어에 해당하는지 여부에 따라상기 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
또한, 상기 사용자 명령어를 입력받는 단계는, 상기 사용자 명령어에 대한 발화 음성이 입력되면, 음성 인식 장치로부터 상기 발화 음성에 대한 적어도 하나의 텍스트를 입력받으며, 상기 입력된 적어도 하나의 텍스트 중 상기 사용자에 의해 선택된 텍스트를 사용자 명령어에 대한 텍스트로 결정할 수 있다.
그리고, 상기 사용자 명령어는, 음성 인식 모드로 진입하기 위한 트리거 명령어 및 상기 디스플레이 장치의 동작을 제어하기 위한 제어 명령어 중 적어도 하나를 포함할 수 있다.
한편, 본 발명의 또다른 실시 예에 따르면, 디스플레이장치와 결합되어 하기의 단계를 실행시키기 위하여 기록 매체에 저장된 컴퓨터 프로그램은, 사용자 명령어를 입력받는 단계, 기정의된 발음기호 세트에 기초하여 상기 사용자 명령어에 대한 발음기호를 생성하는 단계, 상기 생성된 발음기호를 분석하여 상기 사용자 명령어에 대한 등록 적합성 여부를 판단하는 단계 및 상기 사용자 명령어에 대한 등록 적합성 판단 결과를 제공하는 단계를 포함하며, 사용자 명령어를 등록할 수 있다.
이상과 같이 본 발명의 다양한 실시 예에 따르면, 디스플레이 장치는 사용자에 의해 정의된 사용자 명령어 중 오인식에 강하고, 높은 인식률이 보장되는 사용자 명령어를 등록할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 시스템의 블록도,
도 2는 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도,
도 3은 본 발명의 일 실시예에 따른 디스플레이 장치의 세부 블록도,
도 4는 본 발명의 일 실시예에 따른 적합성 판단 모듈의 예시도,
도 5는 본 발명의 일 실시예에 따른 디스플레이 장치에서 등록 적합성 판단 모듈을 통해 산출된 결과값에 기초하여 사용자 명령어에 대한 등록 적합성 여부를 판단하는 예시도,
도 6은 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자 명령어에 대한 등록 부적합성 판단 결과를 제공하는 제1 예시도,
도 7은 본 발명의 또다른 실시예에 따른 디스플레이 장치에서 사용자 명령어에 대한 등록 부적합성 판단 결과를 제공하는 제2 예시도,
도 8은 본 발명의 또다른 실시예에 따른 디스플레이 장치에서 사용자 명령어에 대한 등록 부적합성 판단 결과를 제공하는 제3 예시도,
도 9는 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자 명령어에 대한 등록 적합성 여부를 판단하는 방법의 흐름도,
도 10은 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자 명령어를 등록하는 방법의 흐름도이다.
이하 첨부된 도면들을 참조하여 본 발명의 일 실시예를 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 시스템의 블록도이다.
도 1에 도시된 바와 같이, 음성 인식 시스템은 디스플레이 장치(100), 입력 장치(200) 및 웹 서버(300)를 포함한다.
디스플레이 장치(100)는 사용자의 발화 음성을 인식하여 사용자가 의도한 동작을 수행하는 장치로써, 스마트 TV, 스마트 폰, 테블릿 PC 등과 같은 다양한 전자 장치로 구현될 수 있다.
입력 장치(200)는 디스플레이 장치(100)와 데이터 통신을 수행하여 디스플레이 장치(100)의 동작을 제어하기 위한 장치로써, 예를 들어, 리모컨, 키보드 등이 될 수 있다.
구체적으로, 최초 사용자는 디스플레이 장치(100)가 음성 인식 모드로 동작하도록 하기 위한 발화를 수행할 수 있다. 이 같은 사용자의 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성에 대한 음성 신호를 분석하여 해당 음성 신호가 음성 인식 모드로 진입하기 위한 트리거 명령어인지 여부를 판단한다. 판단 결과, 음성 인식 모드로 동작하기 위한 명령이면, 디스플레이 장치(100)는 음성 인식 모드로 진입한다. 이 같이, 음성 인식 모드로 진입한 상태에서 사용자의 추가 발화 음성이 입력되면, 디스플레이 장치(100)는 내부적으로 추가 발화된 발화 음성을 텍스트로 변환한다. 그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(200)는 음성 인식 모드로 진입한 상태에서, 사용자의 발화 음성이 입력 장치(100)를 통해 입력되거나 사용자의 발화 음성에 대한 음성 인식이 불가능한 경우, 음성 인식 장치(300)를 통해 사용자의 발화 음성에 대한 텍스트를 수신할 수 있다.
여기서, 음성 인식 장치(300)는 디스플레이 장치(100)와 데이터 통신을 수행하여 디스플레이 장치(100)로부터 사용자의 발화 음성에 대한 음성 인식을 수행하여 인식된 음성 인식 결과를 디스플레이 장치(100)로 전송하는 장치가 될 수 있다.
이후, 디스플레이 장치(100)는 사용자의 발화 음성에 대한 텍스트에 기초하여 디스플레이 장치(100)의 동작을 제어하거나 웹 서버(미도시)로부터 사용자의 발화 음성에 대응하는 응답 정보를 수신하여 디스플레이할 수 있다.
여기서, 웹 서버(미도시)는 컨텐츠 관련 정보를 제공하는 서버로써, 예를 들어, 사용자로부터 “○○○ 검색해줘!”라는 발화가 입력되면, 통신부(160)는 웹 서버(미도시)로부터 “○○○”과 관련된 검색 결과를 수신할 수 있다.
한편, 사용자의 발화 음성과 관련하여 디스플레이 장치(100)의 동작을 제어하는 실행 명령어를 사용자가 등록 설정할 수 있다. 이하에서는, 사용자가 등록 설정하고자 하는 실행 명령어를 사용자 명령어라 한다. 구체적으로, 사용자는 입력 장치(200)를 통해 자신이 등록 설정하고자 하는 사용자 명령어를 입력할 수 있다. 이 같은 사용자 명령어가 입력되면, 입력 장치(200)는 텍스트 형태의 사용자 명령어를 포함하는 사용자 명령어 등록 요청 정보를 디스플레이 장치(100)로 전송한다. 그러나, 본 발명은 이에 한정되지 않으며, 디스플레이 장치(100)는 사용자 명령어 등록 모드로 설정된 상태에서 마이크를 통해 사용자 명령어에 대한 발화 음성을 입력받을 수 있다. 이 같은 사용자 명령어에 대한 발화 음성이 입력되면, 디스플레이 장치(100)는 입력된 발화 음성을 음성 인식 장치(300)로 전송하고, 음성 인식 장치(300)로부터 텍스트 형태로 변환된 사용자 명령어를 입력받을 수 있다.
이 같은 텍스트 형태의 사용자 명령어가 입력 장치(200) 혹은 음성 인식 장치(300)로부터 수신되면, 디스플레이 장치(100)는 텍스트 형태의 사용자 명령어에 대한 발음기호를 생성한다. 이후, 디스플레이 장치(100)는 기설정된 적합성 판단 조건을 통해 사용자 명령어에 대한 발음기호를 분석하여 사용자에 의해 요청된 사용자 명령어의 등록 적합성 여부를 판단한다. 여기서, 적합성 판단 조건은 발음기호의 전체 개수, 발음기호의 모음 및 자음의 연속성 여부, 발음기호의 구성 형태, 각 단어별 발음기호의 개수 및 기정의된 위크(Weak) 발음기호 포함 여부 중 적어도 하나가 될 수 있다.
따라서, 디스플레이 장치(100)는 이와 같은 적합성 판단 조건을 통해 사용자 명령어에 대한 발음기호를 분석하여 사용자 명령어의 등록 적합성 여부를 판단하여 그에 따른 판단 결과를 UI 및 오디오 중 적어도 하나로 출력한다. 사용자 명령어의 등록이 부적합한 것으로 판단되면, 사용자는 등록 가능한 사용자 명령어를 재입력할 수 있으며, 디스플레이 장치(100)는 전술한 동작을 재수행하여 재입력된 사용자 명령어에 대한 등록 적합성 판단을 재수행한다. 한편, 사용자 명령어의 등록이 적합한 것으로 판단되면, 디스플레이 장치(100)는 해당 사용자 명령어에 대한 등록을 요청에 따라 사용자 명령어를 등록한다. 따라서, 사용자는 자신이 설정한 사용자 명령어를 이용하여 디스플레이 장치(100)의 동작을 제어할 수 있다.
지금까지, 본 발명에 따른 음성 인식 시스템의 각 구성에 대해서 개략적으로 설명하였다. 이하에서는, 전술한 디스플레이 장치(100)의 각 구성에 대해서 상세히 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른 디스플레이 장치의 블록도이며, 도 3은 본 발명의 일 실시예에 따른 디스플레이 장치의 세부 블록도이다.
도 2에 도시된 바와 같이, 디스플레이 장치(100)는 입력부(110), 출력부(120), 및 프로세서(140)를 포함한다. 추가적으로, 디스플레이 장치(100)는 입력부(110), 출력부(120), 및 프로세서(140) 구성 뿐만 아니라, 도 3에 도시된 바와 같이, 음성 처리부(150), 통신부(160) 및 저장부(170)를 더 포함할 수 있다.
입력부(110)는 다양한 사용자 조작을 입력받아 프로세서(140)로 전달하기 위한 입력 수단으로써, 입력 패널로 구현될 수 있다. 여기서, 입력 패널은 터치패드(Touch Pad) 혹은 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad) 또는 터치 스크린(Touch Screen) 방식으로 이루어질 수 있다. 뿐만 아니라, 입력부(170)는 디스플레이 장치(100)의 동작을 제어하기 위한 리모컨 혹은 키보드와 같은 같은 원격 제어 장치(200)에서 전송되는 제어 명령을 입력받을 수 있다. 뿐만 아니라, 입력부(110)는 마이크(미도시)를 통해 사용자의 발화 음성을 입력받을 수 있다. 이 같은 입력부(110)는 원격 제어 장치(200)로부터 텍스트 형태의 사용자 명령어를 입력받거나 마이크(미도시)를 통해 사용자 명령어에 대한 발화 음성을 입력받을 수 있다. 여기서, 사용자 명령어는 사용자에 의해 정의되어 디스플레이 장치(100)의 동작을 제어하기 위한 실행 명령어로써, 음성 인식 모드로 진입하기 위한 트리거 명령어 및 디스플레이 장치(100)의 동작을 제어하기 위한 제어 명령어 중 적어도 하나가 될 수 있다.
출력부(120)는 입력부(110)를 통해 입력된 사용자 명령어에 대한 등록 적합성 판단 결과를 출력한다. 이 같은 출력부(120)는 도 3에 도시된 바와 같이, 디스플레이부(121) 및 오디오 출력부(123)를 포함할 수 있다. 따라서, 출력부(120)는 디스플레이부(121) 및 오디오 출력부(123) 중 적어도 하나를 통해 사용자 명령어에 대한 등록 적합성 판단 결과를 출력할 수 있다.
한편, 프로세서(140)는 일반적으로 장치의 제어를 담당하는 구성으로, 중앙처리장치, 마이크로 프로세서, 제어부 등과 혼용될 수 있으며, 장치의 전반적인 동작을 제어할 수 있도록 하는 것으로 다른 기능부와 단일칩 시스템 (System-on-a-chip 또는 System on chip, SOC, SoC)로 구현될 수 있다.
이 같은 프로세서(140)는 디스플레이 장치(100)를 구성하는 모든 구성들에 대한 동작을 전반적으로 제어한다. 특히, 프로세서(140)는 사용자 명령어 등록에 대한 사용자 명령에 따라, 저장부(170)에 기저장된 발음기호 생성 관련 프로그램을 램(RAM)에 복사하고, 램에 복사된 발음기호 생성 관련 프로그램을 이용하여 텍스트 형태의 사용자 명령에 대한 발음기호를 생성할 수 있다.
보다 구체적으로, 프로세서(140)는 기정의된 발음기호 세트에 기초하여 텍스트 형태의 사용자 명령어에 대한 발음기호를 생성한다. 여기서, 기정의된 발음기호 세트는 모음, 이중모음, 자음, 파찰음, 강세, 심볼 중 적어도 하나를 포함할 수 있다. 이 같은 사용자 명령에 대한 발음기호가 생성되면, 프로세서(140)는 기설정된 적합성 판단 조건을 바탕으로 기생성된 발음기호를 분석하여 사용자 명령어에 대한 등록 적합성 여부를 판단한다. 이후, 프로세서(140)는 사용자 명령어에 대한 등록 적합성 판단 결과를 출력하도록 출력부(120)를 제어한다.
구체적으로, 입력부(110)를 통해 사용자에 의해 정의된 사용자 명령어에 대한 등록 요청 정보가 입력되면, 프로세서(140)는 사용자 명령어에 대한 등록 수행 모드로 진입한다. 여기서, 등록 요청 정보는 음성 인식 모드로 진입하기 위한 트리거 명령어와 관련된 사용자 명령어를 등록하기 위한 요청 정보이거나 혹은 디스플레이 장치(100)의 동작을 제어하기 위한 제어 명령어와 관련된 사용자 명령어를 등록하기 위한 요청 정보가 될 수 있다. 이 같은 등록 요청 정보가 입력된 후, 입력부(110)를 통해 사용자의 등록 요청에 해당하는 사용자 명령어가 입력되면, 프로세서(140)는 입력된 사용자 명령어를 발음기호 형태로 생성한다. 일 실시예에 따라, 마이크(미도시)로부터 출력된 사용자 명령어와 관련된 발화 음성이 입력부(110)를 통해 입력되면, 프로세서(140)는 음성 처리부(150)를 통해 사용자의 발화 음성에 대한 음성 인식을 수행하도록 제어한다. 이 같은 제어 명령에 따라, 음성 처리부(150)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트로 변환할 수 있다.
또다른 실시예에 따라, 마이크(미도시)로부터 출력된 사용자 명령어와 관련된 발화 음성이 입력부(110)를 통해 입력되면, 프로세서(140)는 사용자 명령어와 관련된 발화 음성을 음성 인식 장치(300)로 전송한다. 이에 따라, 음성 인식 장치(300)는 수신된 발화 음성에 대한 음성 인식을 수행하여 텍스트 형태의 음성 인식 결과를 디스플레이 장치(100)로 전송한다. 이때, 음성 인식 장치(300)는 사용자의 발화 음성과 관련하여 적어도 하나의 텍스트 형태의 음성 인식 결과를 디스플레이 장치(100)로 전송할 수 있다. 따라서, 프로세서(140)는 음성 인식 장치(300)로부터 수신된 사용자의 발화 음성에 대한 텍스트가 복수 개인 경우, 복수의 텍스트에 대한 리스트를 디스플레이하도록 출력부(120)를 제어한다. 이에 따라, 출력부(120)는 디스플레이부(121)를 통해 복수의 텍스트에 대한 리스트를 디스플레이한다. 이 같은 리스트가 디스플레이된 상태에서, 하나의 텍스트에 대한 선택 명령이 입력되면, 프로세서(140)는 입력된 선택 명령에 대응되는 텍스트를 사용자의 발화 음성에 대한 텍스트로 결정할 수 있다.
또다른 실시예에 따라, 프로세서(140)는 통신부(160)를 통해 음성 인식 장치(300)와 데이터 통신이 가능한지 여부에 따라 사용자의 발화 음성에 대한 음성 인식을 수행할 주체를 결정할 수 있다. 즉, 프로세서(140)는 음성 인식 장치(300)와 통신이 가능하면, 음성 인식 장치(300)로부터 사용자의 발화 음성에 대한 음성 인식 결과를 수신하고, 음성 인식 장치(300)와 통신이 불가능하면, 음성 처리부(150)를 통해 사용자의 발화 음성에 대한 음성 인식을 수행할 수 있다.
여기서, 통신부(160)는 음성 인식 장치(300)와 데이터 통신을 수행하여 음성 인식 장치(300)로부터 사용자의 발화 음성에 대한 음성 인식 결과를 수신한다. 뿐만 아니라, 통신부(160)는 입력 장치(200)와 데이터 통신을 수행하여 디스플레이 장치(100)의 동작을 제어하기 위한 사용자 명령 및 사용자의 발화 음성 중 적어도 하나를 수신할 수 있다. 뿐만 아니라, 통신부(160)는 웹 서버(미도시)와 데이터 통신을 수행하여 사용자의 발화 음성에 대응되는 응답 정보를 수신할 수 있다.
이 같은 통신부(160)는 근거리 무선 통신 모듈(미도시), 무선 통신 모듈(미도시) 등과 같은 다양한 통신 모듈을 포함할 수 있다. 여기서, 근거리 무선 통신 모듈(미도시)은 근거리에 위치한 입력 장치(200) 및 웹 서버(미도시) 중 적어도 하나와 무선 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스, 지그비 등이 될 수 있다. 무선 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.
한편, 전술한 다양한 실시예를 통해 사용자 명령어와 관련된 발화 음성이 텍스트 형태로 변환되거나 혹은 음성 인식 장치(300)로부터 수신되면, 프로세서(140)는 기정의된 발음기호 세트에 기초하여 텍스트 형태의 사용자 명령어에 대한 발음기호를 생성한다. 예를 들어, "강아지"라는 텍스트 형태의 사용자 명령어가 입력되면, 프로세서(140)는 "강아지"라는 텍스트 형태의 사용자 명령어로부터 [k:ang_a:_zi]라는 발음기호를 생성할 수 있다.
이 같은 발음기호가 생성되면, 프로세서(140)는 기설정된 적합성 판단 조건을 바탕으로 생성된 발음기호를 분석하여 사용자 명령어에 대한 등록 적합성 여부를 판단한다. 판단 결과, 사용자 명령어의 등록이 적합한 것으로 판단되면, 프로세서(140)는 사용자에 의해 정의된 사용자 명령어를 저장부(170)에 등록 저장한다. 이후, 저장부(170)에 등록 저장된 사용자 명령어에 대한 발화가 입력되면, 프로세서(140)는 입력된 발화와 관련된 사용자 명령어에 기초하여 디스플레이 장치(100)의 동작을 제어할 수 있다. 도 4는 본 발명의 일 실시예에 따른 적합성 판단 모듈의 예시도이다.
도 4에 도시된 바와 같이, 등록 적합성 판단 모듈은 발음기호의 전체 개수 분석 모듈, 발음기호를 구성하는 모음 및 자음의 구성 분석 모듈, 발음기호의 구성 형태 분석 모듈, 사용자 명령어를 구성하는 단어별 발음기호 분석 모듈 및 위크(Weak) 발음기호 검출 모듈 중 적어도 하나를 포함할 수 있다.
여기서, 발음기호의 전체 개수 분석 모듈(이하 제1 조건이라 함)은 사용자 명령어에 대한 발음기호 전체 개수가 기설정된 개수 이상 포함하는지 여부를 판단하는 모듈이다. 그리고, 발음기호를 구성하는 모음 및 자음의 구성 분석 모듈(이하 제2 조건이라 함)은 사용자 명령어에 대한 발음기호 상에서 모음 혹은 자음이 연속하여 중복되는지 여부를 판단하는 모듈이다. 그리고, 발음기호의 구성 형태 분석 모듈(이하 제3 조건이라 함)은 기정의된 발음기호 세트에 기초하여 사용자 명령어에 대한 발음기호의 구성이 어떠한 형태로 나열되는지를 파악하는 모듈이다. 그리고, 단어 발음기호 분석 모듈(이하 제4 조건이라 함)은 사용자 명령어를 구성하는 각각의 단어별 개수 및 각 단어에 대응되는 발음기호의 개수가 기설정된 개수 이상 혹은 미만인지 여부를 판단하는 모듈이다. 그리고, 위크 발음기호 검출 모듈(이하 제5 조건이라 함)은 사용자 명령어를 구성하는 발음기호 중 시작과 끝의 발음기호가 사전에 정의된 위크 발음기호인지 여부를 판단하는 모듈이다. 여기서, 사전에 정의된 위크 발음기호는 생활 소음 등과 같은 주변 환경에 의해 주파수 대역 혹은 에너지 크기가 작아지거나 손실되어 인식률이 저하되는 특정 발음에 대한 발음기호가 될 수 있다.
따라서, 프로세서(140)는 이 같은 등록 적합성 판단 모듈에 포함된 제1 내지 제5 조건 중 적어도 하나를 이용하여 사용자 명령어에 대한 발음기호를 분석하여 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
일 실시예에 따라, 프로세서(140)는 등록 적합성 판단 모듈에 포함된 모듈 중 제1 및 제2 조건에 대응되는 모듈을 이용하여 사용자 명령어로부터 생성된 발음기호를 분석하여 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
예를 들어, "강아지"라는 텍스트 형태의 사용자 명령어가 입력되면, 프로세서(140)는 "강아지"라는 텍스트 형태의 사용자 명령어로부터 [k:ang_a:_zi]라는 발음기호를 생성할 수 있다. 이 같은 발음기호가 생성되면, 프로세서(140)는 등록 적합성 판단 모듈에 포함된 모듈 중 제1 조건에 대응되는 모듈을 이용하여 [k:ang_a:_zi]라는 발음기호의 전체 개수가 기설정된 개수 이상인지 여부를 판단한다. 예를 들어, 제1 조건에 부합되는 기설정된 개수가 5개이고, [k:ang_a:_zi]라는 발음기호의 전체 개수가 7개이면, 프로세서(140)는 발음기호의 전체 개수가 기설정된 개수 이상인 것으로 판단하고, 사용자 명령어가 제1 조건에 부합되는 것으로 판단한다.
이 같은 제1 조건에 부합되면, 프로세서(140)는 등록 적합성 판단 모듈에 포함된 모듈 중 제2 조건에 대응되는 모듈을 이용하여 [k:ang_a:_zi]라는 발음기호 상에서 모음 및 자음 중 적어도 하나가 연속한 형태로 구성되는지 여부를 판단한다. 판단 결과, 모음 및 자음 중 적어도 하나가 연속한 형태로 구성되지 않으면, 프로세서(!40)는 사용자 명령어가 제2 조건에 부합되는 것으로 판단한다. 이 같이, 사용자 명령어가 제1 및 제2 조건에 부합되면, 프로세서(140)는 "강아지"라는 사용자 명령어에 대한 등록이 적합한 것으로 판단할 수 있다.
또다른 예를 들어, "아아아아아"라는 텍스트 형태의 사용자 명령어가 입력될 경우, 프로세서(140)는 "아아아아아"라는 사용자 명령어로부터 [a_a_a_a_a]라는 발음기호를 생성할 수 있다. 이 경우, 프로세서(140)는 [a_a_a_a_a]라는 발음기호의 모음이 연속되는 것으로 판단한다. 이와 같이, 사용자 명령어가 제1 및 제2 조건 중 적어도 하나에 부합되지 못하면, 프로세서(140)는 "아아아아아"라는 사용자 명령어에 대한 등록이 부적합한 것으로 판단할 수 있다. 즉, 모음이 연속된 사용자 명령어의 경우, 등록된 사용자 명령어와 관련하여 발화된 사용자의 발화 음성이 해당 사용자 명령어와 상이하게 인식될 수 있는 문제가 있다. 따라서, 전술한 예와 같이, 연속된 모음의 사용자 명령어의 경우, 프로세서(140)는 사용자 명령어로 부적합한 것으로 판단할 수 있다.또다른 실시예에 따라, 프로세서(140)는 등록 적합성 판단 모듈에 포함된 모듈 중 제1 및 제2 조건에 대응되는 모듈과, 제3 내지 제5 조건 중 적어도 하나에 대응되는 모듈을 이용하여 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
예를 들어, "스카이프 티비"라는 텍스트 형태의 사용자 명령어로부터 [skaip_TV]]라는 발음기호가 생성되면, 프로세서(140)는 전술한 바와 같이, 등록 적합성 판단 모듈에 포함된 모듈 중 제1 및 제2 조건에 대응되는 모듈을 이용하여 [skaip_TV]]라는 발음기호를 분석하여 해당 사용자 명령어에 대한 등록 적합성 여부를 판단한다. 판단 결과, [skaip_TV]]라는 발음기호의 전체 개수가 기설정된 개수 이상이며, 모음 및 자음 중 적어도 하나가 연속되지 않은 것으로 판단되면, 프로세서(140)는 "스카이프 티비"라는 사용자 명령어가 제1 및 제2 조건에 부합되는 것으로 판단한다. 이 같이, 사용자 명령어가 제1 및 제2 조건에 부합되면, 프로세서(140)는 등록 적합성 판단 모듈에 포함된 모듈 중 제3 내지 제5 조건 중 적어도 하나에 대응되는 모듈을 이용하여 [skaip_TV]]라는 발음기호를 분석하여 해당 사용자 명령어에 대한 등록 적합성 여부를 판단한다.
구체적으로, 프로세서(140)는 제3 조건에 대응되는 모듈을 통해 [skaip_TV]라는 발음기호의 구성 형태를 분석하여 해당 발음기호를 구성하는 구성 요소들이 기정의된 패턴에 대응하는 순서로 분포되어 있는지 여부를 판단한다.
예를 들어, 기정의된 제1 패턴은 자음, 자음, 모음, 모음, 자음, 자음 등의 순으로 정의될 수 있으며, 제2 패턴은 모음, 자음, 심볼, 파찰음, 모음, 자음 등으로 정의될 수 있으며, 제3 패턴은 자음, 모음, 자음, 모음, 자음, 모음, 자음 등으로 정의될 수 있다.
이 경우, 프로세서(140)는 [skype_TV]라는 발음기호를 구성하는 구성 요소들이 제1 내지 제3 패턴 중 제1 패턴에 기초하여 나열된 것으로 판단할 수 있다.
한편, 전술한 예와 같이, "강아지"라는 텍스트 형태의 사용자 명령어로부터 [k:ang_a:_zi]라는 발음기호가 생성될 수 있다. 이 경우, 프로세서(140)는 [k:ang_a:_zi]라는 발음기호를 구성하는 구성 요소들이 제1 내지 제3 패턴 중 제3 패턴에 기초하여 나열된 것으로 판단할 수 있다. 이와 같이, 텍스트 형태의 사용자 명령어로부터 생성된 발음기호를 구성하는 구성 요소들이 기정의된 패턴에 기초하여 나열된 것으로 판단되면, 프로세서(140)는 사용자 명령어가 제3 조건에 부합되는 것으로 판단한다.
제3 조건에 부합되면, 프로세서(140)는 제4 조건에 대응되는 모듈을 통해 사용자 명령어를 구성하는 단어의 개수 및 각 단어별 발음기호의 개수가 기설정된 개수 이상 혹은 미만인지 여부를 판단한다.
전술한 예와 같이, "스카이프 티비"라는 사용자 명령어와 관련하여 생성된 [skype_TV]라는 발음기호가 제3 조건에 부합될 수 있다. 이 경우, 프로세서(140)는 제4 조건에 대응되는 모듈을 통해 [skype_TV]라는 발음기호 중 사용자 명령어를 구성하는 단어의 개수 및 각 단어별 발음기호의 개수가 기설정된 개수 이상 혹은 미만인지 여부를 판단한다.
예를 들어, 등록이 적합한 사용자 명령어는 적어도 2개 이상의 단어로 조합되며, 각 단어별 발음기호는 적어도 2개 이상인 것으로 기설정될 수 있다. 한편, "스카이프 티비"라는 사용자 명령어는 "스카이프"와 "티비"라는 2 개의 단어로 구성되며, "스카이프"와 "티비" 각각에 대한 발음기호는 [skaip]와 [TV]가 될 수 있다. 이 경우, "스카이프 티비"라는 사용자 명령어는 2 개의 단어로 구성되며, 각 단어의 발음기호의 개수가 2개 이상이 될 수 있다. 이와 같이, "스카이프 티비"라는 사용자 명령어를 구성하는 단어의 개수 및 각 단어별 발음기호의 개수가 기설정된 개수미만이거나 이상이면 , 프로세서(140)는 "스카이프 티비"라는 사용자 명령어가 제4 조건에 부합되는 것으로 판단할 수 있다.
제4 조건에 부합되면, 프로세서(140)는 제5 조건에 대응되는 모듈을 통해 사용자 명령어를 구성하는 각 단어별 발음기호 중 시작 혹은 끝의 발음기호가 기정의된 위크 발음기호가 포함되는지 여부를 판단한다. 여기서, 사전에 정의된 발음기호는 생활 소음 등과 같은 주변 환경에 의해 주파수 대역 혹은 에너지 크기가 작아지거나 손실되어 인식률이 저하되는 특정 발음에 대한 발음기호가 될 수 있다. 일반적으로, [s],[p],[f],[k]와 같은 발음기호로 시작되거나 끝나는 경우, 해당 발음기호와 관련된 발음은 주변 환경에 의해 주파수 대역 혹은 에너지 크기가 작아지거나 손실되어 인식률이 저하될 수 있다.
따라서, 프로세서(140)는 "스카이프 티비"라는 사용자 명령어를 구성하는 "스카이프"와 "티비" 각각에 대한 단어별 발음기호를 분석하여 발음기호의 시작 혹은 끝에 기정의된 위크 발음기호가 포함되어 있는지 여부를 판단한다. 전술한 바와 같이, "스카이프"에 대한 단어의 발음기호는 "[skaip]"가 될 수 있으며, 이 같은 발음기호의 시작과 끝에는 위크 발음기호인 [s]와 [p]가 포함될 수 있다. 따라서, 프로세서(140)는 "스카이프 티비"라는 사용자 명령어가 제 5 조건에 부합되지 못하는 것으로 판단할 수 있다.
이와 같이, 제1 및 제2 조건에 대응되는 모듈을 통해 등록이 적합한 것으로 판단된 사용자 명령어가 제3 내지 제5 조건 중 적어도 하나의 조건에 대응되는 모듈을 통해 등록이 부적합한 것으로 판단되면, 프로세서(140)는 최종적으로 해당 사용자 명령어의 등록이 부적합한 것으로 판단할 수 있다.
또다른 실시예에 따라, 프로세서(140)는 등록 적합성 판단 모듈에 포함된 제1 내지 제5 조건에 대응되는 모듈별로 사용자 명령어에 대한 등록 적합성 여부를 판단하고, 그 판단 결과에 따른 결과값에 기초하여 최종적으로 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
전술한 바와 같이, 프로세서(140)는 등록 적합성 판단 모듈에 포함된 제1 내지 제5 조건에 대응되는 모듈별로 사용자 명령어에 대한 등록 적합성 여부를 판단한다. 이후, 프로세서(140)는 각 모듈별 등록 적합성 판단 결과에 기초하여 사용자 명령어에 대한 결과값을 산출하고, 산출된 결과값에 기초하여 사용자 명령어에 대한 등록 적합성 여부를 최종적으로 판단할 수 있다.
실시예에 따라, 프로세서(140)는 등록 적합성 판단 모듈에 포함된 제1 내지 제5 조건에 대응되는 모듈별로 사용자 명령어에 대한 등록 적합성 여부를 판단하여 제1 내지 제5 조건 중 적어도 하나의 조건과 관련하여 등록이 부적합한 것으로 판단되면, 제1 내지 제5 조건 중 등록이 부적합한 것으로 판단된 조건을 제외한 나머지 조건에 대응되는 모듈별로 기설정된 기준 값을 합산하여 사용자 명령어에 대한 결과값을 산출할 수 있다.
여기서, 제1 내지 제5 조건에 대응되는 모듈별로 설정된 기준 값은 동일하거나 상이하게 설정될 수 있다. 제1 내지 제5 조건에 대응되는 모듈별로 상이한 기준 값이 설정될 경우, 제1 내지 제5 조건에 대응되는 모듈 중 등록 적합성 판단 기준에 있어 가장 우선 순위에 해당되는 모듈의 기준 값을 가장 높게 설정하고, 가장 낮은 순위에 해당되는 모듈의 기준 값을 가장 낮게 설정할 수 있다. 이 같은 실시예를 통해 사용자 명령어의 분석 결과에 대응되는 결과값이 산출되면, 프로세서(140)는 산출된 결과값에 기초하여 사용자 명령어에 대한 등록 적합성 여부를 최종적으로 판단할 수 있다.
도 5는 본 발명의 일 실시예에 따른 디스플레이 장치에서 등록 적합성 판단 모듈을 통해 산출된 결과값에 기초하여 사용자 명령어에 대한 등록 적합성 여부를 판단하는 예시도이다.
프로세서(140)는 등록 적합성 판단 모듈에 포함된 제1 내지 제5 조건에 대응되는 모듈별로 사용자 명령어에 대한 등록 적합성 여부를 판단하고, 각 모듈별 등록 적합성 판단 결과에 기초하여 사용자 명령어에 대한 결과값을 산출할 수 있다.
사용자 명령어에 대한 결과값이 산출되면, 프로세서(140)는 도 5에 도시된 등록 판단 기준 모델(500)을 참조하여 산출된 결과값이 속하는 구간에 따라 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
구체적으로, 사용자 명령어의 분석 결과에 대응되는 결과값이 제1 임계구간(510)에 속하면, 프로세서(140)는 사용자 명령어에 대한 등록이 부적합한 것으로 판단한다. 한편, 사용자 명령어의 분석 결과에 대응되는 결과값이 제2 임계구간(530)에 속하면, 프로세서(140)는 사용자 명령어에 대한 등록이 적합한 것으로 판단한다. 한편, 사용자 명령어의 분석 결과에 대응되는 결과값이 제1 및 제2 임계구간 사이인 제3 임계구간(520)에 속하면, 프로세서(140)는 사용자 명령어에 대한 사용자의 선택 명령에 따라 사용자 명령어에 대한 등록이 적합한 것으로 판단할 수 있다.
한편, 사용자 명령어의 분석 결과에 대응되는 결과값이 제2 임계구간(530)에 속하면, 프로세서(140)는 사용자의 등록 요청 정보에 따라 사용자 명령어가 제어 명령어로써 등록이 적합한지 아니면, 사용자 명령어가 트리거 명령어로써 등록이 적합한지 여부를 판단할 수 있다.
구체적으로, 디스플레이 장치(100)의 동작을 제어하기 위한 등록 요청 정보가 입력된 상태에서, 사용자 명령어의 분석 결과에 대응되는 결과값이 제2 임계구간(530) 중 제2-1 임계구간(531)에 속할 수 있다. 이 경우, 프로세서(140)는 사용자 명령어가 디스플레이 장치(100)의 동작을 제어하기 위한 제어 명령어로써 등록이 적합한 것으로 판단할 수 있다.
한편, 음성 인식 모드로 동작하기 위한 등록 요청 정보가 입력된 상태에서, 사용자 명령어의 분석 결과에 대응되는 결과값이 제2 임계구간(530) 중 제2-2 임계구간(533)에 속할 수 있다. 이 경우, 프로세서(140)는 사용자 명령어가 음성 인식 모드로 동작하기 위한 트리거 명령어로써 등록이 적합한 것으로 판단할 수 있다.
한편, 음성 인식 모드로 동작하기 위한 등록 요청 정보가 입력된 상태에서, 사용자 명령어의 분석 결과에 대응되는 결과값이 제2 임계구간(530) 중 제2-1 임계구간(531)에 속하면, 프로세서(140)는 사용자 명령어에 대한 사용자의 선택 명령에 따라 사용자 명령어가 음성 인식 모드로 동작하기 위한 트리거 명령어로써 등록이 적합한 것으로 판단할 수 있다.
한편, 본 발명의 추가적인 양상에 따라, 프로세서(140)는 사용자의 발화 음성과 기등록된 복수의 명령어별 유사도 혹은 사용자의 발화 음성이 금칙 명령어에 해당하는지 여부를 판단한 후, 전술한 다양한 실시예를 통해 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
일 실시예에 따라, 프로세서(140)는 Confusion Matrix와 같은 유사도 알고리즘을 이용하여 사용자 명령어로부터 생성된 발음기호와 기저장된 복수의 명령어별 발음기호에 대한 유사도를 측정하여 그에 따른 신뢰도 값을 산출한다. 이후, 프로세서(140)는 산출된 각각의 신뢰도 값과 기설정된 임계값을 비교하여 각각의 신뢰도 값이 기설정된 임계값 미만인지 여부를 판단한다. 판단 결과, 적어도 하나의 신뢰도 값이 기설정된 임계값 이상이면, 프로세서(140)는 사용자 명령어와 기등록된 적어도 하나의 명령어가 유사한 것으로 판단하고, 해당 사용자 명령어에 대한 등록이 부적합한 것으로 판단한다. 한편, 모든 신뢰도 값이 기설정된 임계값 미만이면, 프로세서(140)는 사용자 명령어에 대한 등록이 적합한 것으로 판단한다.
또다른 실시예에 따라, 프로세서(140)는 저장부(170)에 등록 저장된 금칙 명령어를 참조하여 사용자 명령어가 등록 불가 명령어인지 여부를 판단한다. 판단 결과, 사용자 명령어가 적어도 하나의 금칙 명령어와 관련되면, 프로세서(140)는 사용자 명령에 대한 등록이 부적합한 것으로 판단한다. 한편, 사용자 명령어가 적어도 하나의 금칙 명령어와 관련되지 않으면, 프로세서(140)는 사용자 명령에 대한 등록이 적합한 것으로 판단한다.
이때, 프로세서(140)는 전술한 바와 같이, 사용자 명령어가 기등록된 명령어와 유사한지 여부를 판단하는 제1 판단 동작과 해당 사용자 명령어가 금칙 명령어인지 여부를 판단하는 제2 판단 동작 중 적어도 하나를 수행할 수 있다.
이 같은 제1 판단 동작 및 제2 판단 동작 중 적어도 하나를 통해 사용자 명령어에 대한 등록 적합성 여부가 1차적으로 판단되면, 프로세서(140)는 전술한 다양한 실시예를 통해 사용자 명령어에 대한 등록 적합성 여부를 판단하고, 사용자 명령어가 등록 적합한 것으로 판단되면, 출력부(120)를 통해 사용자 명령어에 대한 등록 적합성 판단 결과를 제공할 수 있다.구체적으로, 사용자 명령어에 대한 등록이 적합한 것으로 판단되면, 오디오 출력부(123)는 프로세서(140)의 제어 명령에 따라, 사용자 명령어에 대한 오디오를 출력한다. 이 같은 오디오가 출력된 상태에서, 기설정된 임계 시간 내에 사용자의 발화 음성이 입력되면, 프로세서(140)는 사용자 명령어에 대한 텍스트와 사용자의 발화 음성에 대한 텍스트 간의 유사도 정도에 따라 사용자 명령어를 저장부(170)에 등록 저장한다. 구체적으로, 프로세서(140)는 사용자 명령어에 대한 오디오가 출력된 후, 발화 음성이 입력되면, 입력된 발화 음성을 텍스트 형태로 변환하거나 혹은 음성 인식 장치(300)로부터 텍스트 형태로 변환된 음성 인식 결과를 수신할 수 있다. 이후, 프로세서(140)는 Confusion Matrix와 같은 유사도 알고리즘을 이용하여 사용자 명령어에 대한 발음기호와 발화 음성에 대한 발음기호의 유사도를 측정하고, 그에 따른 유사도 값이 기설정된 임계값 이상이면, 사용자 명령어를 저장부(170)에 등록 저장한다.
한편, 사용자 명령어에 대한 등록이 부적한 것으로 판단되면, 디스플레이부(121)는 프로세서(140)의 제어 명령에 따라, 기설정된 적합성 판단 조건에 따라 분석된 분석 결과 및 등록 가능한 사용자 명령을 안내하는 가이드 UI를 디스플레이한다. 이에 따라, 사용자는 디스플레이 장치(100)의 화면상에 디스플레이된 가이드 UI를 참조하여 적합성 판단 조건에 부합되는 사용자 명령어를 재입력할 수 있다.
이하에서는, 도 6 내지 도 8을 통해 디스플레이 장치(100)에서 사용자 명령어에 대한 등록이 부적합한 경우, 그에 따른 판단 결과를 제공하는 동작에 대해서 상세히 설명하도록 한다.
도 6은 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자 명령어에 대한 등록 부적합성 판단 결과를 제공하는 제1 예시도이다.
도 6에 도시된 바와 같이, 사용자에 의해 정의된 제1 사용자 명령어(610)는 전술한 등록 적합성 판단 모듈에 포함된 모듈 중 제4 조건에 대응되는 모듈을 통해 등록이 부적합한 것으로 판단될 수 있다. 전술한 바와 같이, 제4 조건에 대응되는 모듈은 사용자 명령어를 구성하는 각각의 단어별 개수 및 각 단어에 대응되는 발음기호의 개수가 기설정된 개수 이상 혹은 미만인지 여부를 판단하는 모듈이다.
따라서, 프로세서(140)는 제1 사용자 명령어(610)를 구성하는 각각의 단어별 개수가 기설정된 개수를 초과하면, 제1 사용자 명령어(610)에 대한 등록이 부적합한 것으로 판단할 수 있다. 이 같이, 제1 사용자 명령어(610)에 대한 등록이 부적합한 것으로 판단되면, 디스플레이 장치(100)는 디스플레이부(121)를 통해 "너무 긴 명령어 입니다."라는 가이드 UI(620)를 화면상에 디스플레이할 수 있다.
이에 따라, 사용자는 화면상에 디스플레이된 가이드 UI(620)를 참조하여 제1 사용자 명령어(610)보다 작은 단어로 이루어진 사용자 명령어를 재입력할 수 있다.
도 7은 본 발명의 또다른 실시예에 따른 디스플레이 장치에서 사용자 명령어에 대한 등록 부적합성 판단 결과를 제공하는 제2 예시도이다.
도 7에 도시된 바와 같이, 사용자에 의해 정의된 제2 사용자 명령어(710)는 전술한 등록 적합성 판단 모듈에 포함된 모듈 중 제4 조건에 대응되는 모듈을 통해 등록이 부적합한 것으로 판단될 수 있다. 전술한 바와 같이, 제4 조건에 대응되는 모듈은 사용자 명령어를 구성하는 각각의 단어별 개수 및 각 단어에 대응되는 발음기호의 개수가 기설정된 개수 이상 혹은 미만인지 여부를 판단하는 모듈이다.
따라서, 프로세서(140)는 제2 사용자 명령어(710)를 구성하는 각각의 단어의 개수가 기설정된 개수 미만이면, 제2 사용자 명령어(710)에 대한 등록이 부적합한 것으로 판단할 수 있다. 이 같이, 제2 사용자 명령어(710)에 대한 등록이 부적합한 것으로 판단되면, 디스플레이 장치(100)는 디스플레이부(121)를 통해 "입력하신 명령어는 등록이 부적합 합니다."라는 판단 결과 정보와 "추천 : Run Skype, Skype TV"와 같은 사용자 명령어에 대한 추천 정보를 포함하는 가이드 UI(720)를 화면상에 디스플레이할 수 있다.
이에 따라, 사용자는 화면상에 디스플레이된 가이드 UI(720)를 통해 제2 사용자 명령어(710)와 관련하여 추천된 사용자 명령어를 참조하여 자신이 원하는 사용자 명령어를 재입력할 수 있다.
도 8은 본 발명의 또다른 실시예에 따른 디스플레이 장치에서 사용자 명령어에 대한 등록 부적합성 판단 결과를 제공하는 제3 예시도이다.
도 8에 도시된 바와 같이, 사용자에 의해 정의된 제3 사용자 명령어(810)는 전술한 등록 적합성 판단 모듈에 포함된 모듈 중 제5 조건에 대응되는 모듈을 통해 등록이 부적합한 것으로 판단될 수 있다. 전술한 바와 같이, 제5 조건에 대응되는 모듈은 사용자 명령어를 구성하는 발음기호 중 시작과 끝의 발음기호가 사전에 정의된 위크 발음기호인지 여부를 판단하는 모듈이다.
따라서, 프로세서(140)는 제3 사용자 명령어(810)를 구성하는 각각의 단어별 발음기호 상에서 시작과 끝 중 적어도 하나의 발음기호가 위크 발음기호이면, 제2 사용자 명령어(810)에 대한 등록이 부적합한 것으로 판단할 수 있다. 이 같이, 제2 사용자 명령어(810)에 대한 등록이 부적합한 것으로 판단되면, 디스플레이 장치(100)는 디스플레이부(121)를 통해 "부적합한 발음이 포함되어 있습니다."라는 판단 결과 정보와 "Skype [S,Pe]"와 같은 부적합한 발음을 안내하는 위크 발음 정보를 포함하는 가이드 UI(820)를 화면상에 디스플레이할 수 있다.
이에 따라, 사용자는 화면상에 디스플레이된 가이드 UI(820)를 참조하여 부적합한 위크 발음이 배제된 사용자 명령어를 재입력할 수 있다.
지금까지, 본 발명에 따른 디스플레이 장치(100)에서 사용자에 의해 정의된 사용자 명령어를 등록하는 동작에 대해서 상세히 설명하였다. 이하에서는, 본 발명에 따른 디스플레이 장치(100)에서 사용자에 의해 정의된 사용자 명령어를 등록하는 방법에 대해서 상세히 설명하도록 한다.
도 9는 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자 명령어에 대한 등록 적합성 여부를 판단하는 방법의 흐름도이다.
도 9에 도시된 바와 같이, 디스플레이 장치(100)는 사용자에 의해 정의된 사용자 명령어가 입력되면, 입력된 사용자 명령어가 텍스트 형태의 명령어인지 아니면, 발화 음성인지 여부를 판단한다(S910,S920).
구체적으로, 디스플레이 장치(100)는 사용자에 의해 정의된 사용자 명령어에 대한 등록 요청 정보가 입력되면, 사용자 명령어에 대한 등록 수행 모드로 진입한다. 여기서, 등록 요청 정보는 음성 인식 모드로 진입하기 위한 트리거 명령어와 관련된 사용자 명령어를 등록하기 위한 요청 정보이거나 혹은 디스플레이 장치(100)의 동작을 제어하기 위한 제어 명령어와 관련된 사용자 명령어를 등록하기 위한 요청 정보가 될 수 있다.
이 같은 등록 요청 정보가 입력된 상태에서, 디스플레이 장치(100)는 입력 장치(200)로부터 사용자의 등록 요청에 해당하는 사용자 명령어가 입력되는지 여부를 판단한다. 판단 결과, 마이크(미도시) 혹은 리모컨과 같은 입력 장치(200)를 통해 사용자 명령어에 대한 발화 음성이 입력되면, 디스플레이 장치(100)는 음성 인식 장치(300)로부터 텍스트로 변환된 발화 음성에 대한 음성 인식 결과를 수신한다(S930). 그러나, 본 발명은 이에 한정되지 않으며, 음성 인식 장치(300)와 데이터 통신이 불가능하거나, 마이크를 통해 사용자 명령어에 대한 발화 음성이 입력되면, 디스플레이 장치(100)는 STT(Speech to Text) 알고리즘을 이용하여 사용자의 발화 음성을 텍스트로 변환할 수 있다한편, 사용자 명령어와 관련된 발화 음성에 대한 음성 인식 결과를 디스플레이 장치(100)로 전송하는 음성 인식 장치(300)는 사용자의 발화 음성과 관련하여 적어도 하나의 텍스트 형태의 음성 인식 결과를 디스플레이 장치(100)로 전송할 수 있다. 따라서, 디스플레이 장치(100)는 음성 인식 장치(300)로부터 수신된 사용자의 발화 음성에 대한 텍스트가 복수 개인 경우, 복수의 텍스트에 대한 리스트를 디스플레이한다. 이후, 하나의 텍스트에 대한 선태 명령이 입력되면, 디스플레이 장치(100)는 입력된 선택 명령에 대응되는 텍스트를 사용자의 발화 음성에 대한 텍스트로 결정할 수 있다.
이 같은 다양한 실시예를 통해 텍스트 형태의 사용자 명령어가 입력되면, 디스플레이 장치(100)는 기정의된 발음기호 세트에 기초하여 텍스트 형태의 사용자 명령어에 대한 발음기호를 생성한다(S940). 이후, 디스플레이 장치(100)는 기설정된 적합성 판단 조건을 바탕으로 생성된 발음기호를 분석하여 사용자 명령어에 대한 등록 적합성 여부를 판단한다(S950). 이후, 디스플레이 장치(100)는 사용자 명령어에 대한 등록 적합성 판단 결과를 제공한다(S960).
구체적으로, 디스플레이 장치(100)는 적합성 판단 조건과 관련하여 기설정된 등록 적합성 판단 모듈에 따라 사용자 명령어와 관련하여 기생성된 발음기호를 분석하여 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다. 여기서, 등록 적합성 판단 모듈은 도 4에서 설명한 바와 같이, 발음기호의 전체 개수 분석 모듈(제1 조건), 발음기호를 구성하는 모음 및 자음의 구성 분석 모듈(제2 조건), 발음기호의 구성 형태 분석 모듈(제3 조건), 사용자 명령어를 구성하는 단어별 발음기호 분석 모듈(제4 조건) 및 위크(Weak) 발음기호 검출 모듈(제5 조건) 중 적어도 하나를 포함할 수 있다. 이 같은 각각의 모듈에 대한 설명은 도 4에서 상세히 설명하였기에 이하에서는 상세한 설명을 생략하도록 한다.
일 실시예에 따라, 디스플레이 장치(100)는 등록 적합성 판단 모듈에 포함된 모듈 중 제1 및 제2 조건에 대응되는 모듈을 이용하여 사용자 명령어로부터 생성된 발음기호를 분석하여 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
또다른 실시예에 따라, 디스플레이 장치(100)는 등록 적합성 판단 모듈에 포함된 모듈 중 제1 및 제2 조건에 대응되는 모듈과, 제3 내지 제5 조건 중 적어도 하나에 대응되는 모듈을 이용하여 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
또다른 실시예에 따라, 디스플레이 장치(100)는 등록 적합성 판단 모듈에 포함된 제1 내지 제5 조건에 대응되는 모듈별로 사용자 명령어에 대한 등록 적합성 여부를 판단하고, 그 판단 결과에 따른 결과값에 기초하여 최종적으로 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.
구체적으로, 디스플레이 장치(100)는 등록 적합성 판단 모듈에 포함된 제1 내지 제5 조건에 대응되는 모듈별로 사용자 명령어에 대한 등록 적합성 여부를 판단하여 제1 내지 제5 조건 중 적어도 하나의 조건과 관련하여 등록이 부적합한 것으로 판단되면, 제1 내지 제5 조건 중 등록이 부적합한 것으로 판단된 조건을 제외한 나머지 조건에 대응되는 모듈별로 기설정된 기준 값을 합산하여 사용자 명령어에 대한 결과값을 산출할 수 있다.
여기서, 제1 내지 제5 조건에 대응되는 모듈별로 설정된 기준 값은 동일하거나 상이하게 설정될 수 있다. 제1 내지 제5 조건에 대응되는 모듈별로 상이한 기준 값이 설정될 경우, 제1 내지 제5 조건에 대응되는 모듈 중 등록 적합성 판단 기준에 있어 가장 우선 순위에 해당되는 모듈의 기준 값을 가장 높게 설정하고, 가장 낮은 순위에 해당되는 모듈의 기준 값을 가장 낮게 설정할 수 있다.
따라서, 이 같은 적합성 판단 모듈을 통해 사용자 명령어에 대한 결과값이 산출되면, 디스플레이 장치(100)는 등록 판단 기준 모델을 참조하여 산출된 결과값이 속하는 구간에 따라 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.구체적으로, 도 5에서 설명한 바와 같이, 사용자 명령어의 분석 결과에 대응되는 결과값이 제1 임계구간(510)에 속하면, 디스플레이 장치(100)는 사용자 명령어에 대한 등록이 부적합한 것으로 판단한다. 한편, 사용자 명령어의 분석 결과에 대응되는 결과값이 제2 임계구간(530)에 속하면, 디스플레이 장치(100)는 사용자 명령어에 대한 등록이 적합한 것으로 판단한다. 한편, 사용자 명령어의 분석 결과에 대응되는 결과값이 제1 및 제2 임계구간 사이인 제3 임계구간(520)에 속하면, 디스플레이 장치(100)는 사용자 명령어에 대한 사용자의 선택 명령에 따라 사용자 명령어에 대한 등록이 적합한 것으로 판단할 수 있다.
한편, 디스플레이 장치(100)는 제2 임계구간에 속하는 사용자 명령어에 대해서 사용자의 등록 요청 정보에 따라 해당 사용자 명령어가 제어 명령어로써 등록이 적합한지 아니면, 해당 사용자 명령어가 트리거 명령어로써 등록이 적합한지 여부를 판단할 수 있다.
한편, 본 발명의 추가적인 양상에 따라, 디스플레이 장치(100)는 사용자의 발화 음성과 기등록된 복수의 명령어별 유사도 혹은 사용자의 발화 음성이 금칙 명령어에 해당하는지 여부를 판단한 후, 전술한 다양한 실시예를 통해 사용자 명령어에 대한 등록 적합성 여부를 판단할 수 있다.일 실시예에 따라, 디스플레이 장치(100)는 기등록된 복수의 명령어와 사용자 명령어의 유사도 정도에 따라 사용자 명령어에 대한 등록 적합성 여부를 판단한다(제1 판단 동작). 판단 결과, 사용자 명령어가 복수의 명령어 중 적어도 하나와 유사한 것으로 판단되면, 디스플레이 장치(100)는 사용자 명령어에 대한 등록이 부적합한 것으로 판단한다. 한편, 사용자 명령어가 복수의 명령어와 유사하지 않은 것으로 판단되면, 디스플레이 장치(100)는 전술한 다양한 실시예를 통해 사용자 명령어에 대한 등록 적합성 여부를 판단하기 위한 동작을 수행할 수 있다.
또다른 실시예에 따른 디스플레이 장치(100)는 기등록된 금칙 명령어를 참조하여 사용자 명령어가 등록 불가 명령어인지 여부를 판단한다(제2 판단 동작). 판단 결과, 사용자 명령어가 적어도 하나의 금칙 명령어와 관련되면, 디스플레이 장치(100)는 사용자 명령에 대한 등록이 부적합한 것으로 판단한다. 한편, 사용자 명령어가 적어도 하나의 금칙 명령어와 관련되지 않으면, 디스플레이 장치(100)는 전술한 다양한 실시예를 통해 사용자 명령어에 대한 등록 적합성 여부를 판단하기 위한 동작을 수행할 수 있다.
이때, 디스플레이 장치(100)는 사용자 명령어가 기등록된 명령어와 유사한지 여부를 판단하는 제1 판단 동작과 해당 사용자 명령어가 금칙 명령어인지 여부를 판단하는 제2 판단 동작 중 적어도 하나를 수행할 수 있다.
이 같은 제1 판단 동작 및 제2 판단 동작 중 적어도 하나를 통해 사용자 명령어에 대한 등록 적합성 여부가 1차적으로 판단되면, 디스플레이 장치(100)는 사용자 명령어에 대한 등록 적합성 판단 결과를 제공한다. 구체적으로, 사용자 명령에 대한 등록이 부적합한 것으로 판단되면, 디스플레이 장치(100)는 적합성 판단 조건과 관련하여 기설정된 등록 적합성 판단 모듈에 따라 분석된 분석 결과 정보 및 등록 가능한 사용자 명령어를 안내하는 가이드 UI를 화면상에 디스플레이한다. 이에 따라, 사용자는 디스플레이 장치(100)의 화면상에 디스플레이된 가이드 UI를 참조하여 등록 가능한 사용자 명령어를 재입력하거나 발화할 수 있다. 한편, 사용자 명령에 대한 등록이 적합한 것으로 판단되면, 디스플레이 장치(100)는 사용자 명령에 대한 오디오를 출력한다. 이 같은 사용자 명령어에 대한 오디오가 출력된 이후, 디스플레이 장치(100)는 다음과 같은 단계를 통해 해당 사용자 명령어에 대한 등록을 수행할 수 있다.
도 10은 본 발명의 일 실시예에 따른 디스플레이 장치에서 사용자 명령어를 등록하는 방법의 흐름도이다.
도 10에 도시된 바와 같이, 디스플레이 장치(100)는 사용자 명령어에 대한 등록이 적합한 것으로 판단되면, 사용자 명령어에 대한 오디오를 출력한다(S1010). 이후, 디스플레이 장치(100)는 기설정된 임계 시간 내에 사용자의 발화 음성이 입력되는지 여부를 판단한다(S1020). 판단 결과, 기설정된 임계 시간 내에 발화 음성이 입력되면, 디스플레이 장치(100)는 사용자 명령어에 대한 텍스트와 입력된 발화 음성에 대한 텍스트의 유사도 정도에 따라 사용자 명령어를 등록한다(S1030,S1040).
구체적으로, 디스플레이 장치(100)는 사용자 명령어에 대한 오디오가 출력된 후, 발화 음성이 입력되면, 입력된 발화 음성을 텍스트 형태로 변환하거나 혹은 음성 인식 장치(300)로부터 텍스트 형태로 변환된 음성 인식 결과를 수신할 수 있다. 이후, 디스플레이 장치(100)는 Confusion Matrix와 같은 유사도 알고리즘을 이용하여 사용자 명령어에 대한 발음기호와 발화 음성에 대한 발음기호의 유사도를 측정하고, 그에 따른 유사도 값이 기설정된 임계값 미만이면, 재발화를 요청한다. 이후, 사용자의 발화 음성이 재입력되면, 디스플레이 장치(100)는 전술한 단계 S1030 및 S1040의 동작을 재수행한다. 이 같은 재수행을 통해 사용자 명령어와 발화 음성으로부터 측정된 유사도 값이 기설정된 임계 횟수 이상 기설정된 임계값 미만이면, 디스플레이 장치(100)는 사용자 명령어에 대한 등록 수행 동작을 종료한다. 한편, 단계 S1040을 통해 사용자 명령어와 발화 음성으로부터 측정된 유사도 값이 기설정된 임계값 이상이면, 디스플레이 장치(100)는 사용자 명령어를 등록 저장한다. 이 같은 과정을 통해 사용자에 의해 정의된 사용자 명령어가 등록된 이후, 사용자는 기등록된 사용자 명령어와 관련된 발화 음성을 통해 디스플레이 장치(100)의 동작을 제어할 수 있다.
또한, 상술한 바와 같은 사용자 명령어 등록 방법은, 상술한 바와 같은 사용자 명령어 등록 방법을 실행하기 위한 적어도 하나의 실행 프로그램으로 구현될 수 있으며, 이러한 실행 프로그램은 비일시적 컴퓨터 판독 가능 매체에 저장될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 디스플레이 장치 110 : 입력부
120 : 출력부 121 : 디스플레이부
123 : 오디오 출력부 140 : 프로세서
160 : 통신부 170 : 저장부
200 : 입력 장치 300 : 음성 인식 장치

Claims (23)

  1. 디스플레이 장치에 있어서,
    기능을 실행하는 음성 명령을 등록하기 위한 사용자 음성 입력을 수신하는 입력부; 및
    상기 수신된 사용자 음성 입력에 대응되는 텍스트를 획득하고,
    상기 수신된 사용자 음성 입력에 대응되는 상기 획득된 텍스트가 기 등록된 명령어이면, 상기 획득된 텍스트가 음성 명령어로서 등록이 부적합하다는 것에 대응되는 결과를 제공하고,
    상기 수신된 사용자 음성 입력에 대응되는 상기 획득된 텍스트가 기 등록된 명령어가 아니면, 상기 획득된 텍스트가 음성 명령어로서 등록이 적합하다는 것에 대응되는 결과를 제공하고,
    상기 수신된 사용자 음성 입력에 대응되는 상기 획득된 텍스트가 금칙 명령어이면, 상기 획득된 텍스트가 금칙 명령어에 해당한다는 것에 대응되는 결과를 제공하는 프로세서;를 포함하는 디스플레이 장치.
  2. 제 1 항에 있어서,
    디스플레이;를 더 포함하고,
    상기 프로세서는,
    상기 획득된 텍스트가 금칙 명령어이면, 등록 가능한 음성 명령어를 안내하는 가이드 UI를 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  3. 제 1 항에 있어서,
    디스플레이;를 더 포함하고,
    상기 프로세서는,
    상기 획득된 텍스트가 금칙 명령어이면, 음성 명령어로서 사용자 음성 입력의 재입력을 안내하는 가이드 UI를 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  4. 제 1 항에 있어서,
    디스플레이;를 더 포함하고,
    상기 프로세서는,
    상기 획득된 텍스트가 금칙 명령어이면, 등록 가능한 음성 명령어에 대응되는 텍스트 정보를 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  5. 제 1 항에 있어서,
    디스플레이;를 더 포함하고,
    상기 프로세서는,
    상기 수신된 사용자 음성 입력에 대응되는 텍스트 정보를 표시하도록 상기 디스플레이를 제어하고,
    상기 표시된 텍스트 정보가 기 등록된 명령어가 아니고 금칙 명령어가 아니면, 상기 표시된 텍스트 정보를 음성 명령어로서 등록하는, 디스플레이 장치.
  6. 제 1 항에 있어서,
    디스플레이;를 더 포함하고,
    상기 프로세서는,
    상기 사용자 음성 입력에 대응되는 텍스트 정보를 표시하도록 상기 디스플레이를 제어하고,
    상기 표시된 텍스트 정보가 기 등록된 명령어이거나 금칙 명령어이면, 상기 표시된 텍스트 정보를 음성 명령어로서 등록하지 않는, 디스플레이 장치.
  7. 제 1 항에 있어서,
    디스플레이;를 더 포함하고,
    상기 프로세서는,
    상기 사용자 음성 입력에 대응되는 텍스트 정보를 표시하도록 상기 디스플레이를 제어하는, 디스플레이 장치.
  8. 제 1 항에 있어서,
    디스플레이;를 더 포함하고,
    상기 프로세서는,
    상기 사용자 음성 입력에 대응되는 복수의 텍스트 정보가 획득되면, 상기 획득된 복수의 텍스트 정보를 포함하는 리스트를 표시하도록 상기 디스플레이를 제어하고,
    상기 복수의 텍스트 정보 중 사용자에 의해 선택된 하나의 텍스트 정보를 음성 명령어로서 등록하는, 디스플레이 장치.
  9. 제 1 항에 있어서,
    상기 음성 명령어는,
    상기 디스플레이 장치에 등록되어 상기 디스플레이 장치의 동작을 제어하는 명령어인, 디스플레이 장치.
  10. 제 1 항에 있어서,
    상기 프로세서는,
    등록 요청에 기초하여 상기 획득된 텍스트를 등록하는, 디스플레이 장치.
  11. 제 1 항에 있어서,
    상기 프로세서는,
    상기 입력부를 통해 사용자 입력을 수신하면, 상기 입력부를 통해 상기 사용자 음성 입력을 수신하기 위한 음성 인식 모드로 진입하고,
    상기 입력부를 통해 수신된 사용자 음성 입력에 대응되는 사용자 명령어를 상기 음성 인식 모드에서 음성 명령어로서 등록하는, 디스플레이 장치.
  12. 디스플레이 장치의 제어 방법에 있어서,
    기능을 실행하는 음성 명령을 등록하기 위한 사용자 음성 입력을 수신하는 단계;
    상기 수신된 사용자 음성 입력에 대응되는 텍스트를 획득하는 단계;
    상기 수신된 사용자 음성 입력에 대응되는 상기 획득된 텍스트가 기 등록된 명령어이면, 상기 획득된 텍스트가 음성 명령어로서 등록이 부적합하다는 것에 대응되는 결과를 제공하는 단계;
    상기 수신된 사용자 음성 입력에 대응되는 상기 획득된 텍스트가 기 등록된 명령어가 아니면, 상기 획득된 텍스트가 음성 명령어로서 등록이 적합하다는 것에 대응되는 결과를 제공하는 단계; 및
    상기 수신된 사용자 음성 입력에 대응되는 상기 획득된 텍스트가 금칙 명령어이면, 상기 획득된 텍스트가 금칙 명령어에 해당한다는 것에 대응되는 결과를 제공하는 단계;를 포함하는 제어 방법.
  13. 제 12 항에 있어서,
    상기 획득된 텍스트가 금칙 명령어이면, 등록 가능한 음성 명령어를 안내하는 가이드 UI를 표시하는 단계;를 더 포함하는, 제어 방법.
  14. 제 12 항에 있어서,
    상기 획득된 텍스트가 금칙 명령어이면, 음성 명령어로서 사용자 음성 입력의 재입력을 안내하는 가이드 UI를 표시하는 단계;를 더 포함하는, 제어 방법.
  15. 제 12 항에 있어서,
    상기 획득된 텍스트가 금칙 명령어이면, 등록 가능한 사용자 명령어에 대응되는 텍스트 정보를 표시하는 단계;를 더 포함하는, 제어 방법.
  16. 제 12 항에 있어서,
    상기 수신된 사용자 음성 입력에 대응되는 텍스트 정보를 표시하는 단계; 및
    상기 표시된 텍스트 정보가 기 등록된 명령어가 아니고 금칙 명령어가 아니면, 상기 표시된 텍스트 정보를 음성 명령어로서 등록하는, 단계;를 더 포함하는, 제어 방법.
  17. 제 12 항에 있어서,
    상기 사용자 음성 입력에 대응되는 텍스트 정보를 표시하는 단계; 및
    상기 표시된 텍스트 정보가 기 등록된 명령어이거나 금칙 명령어이면, 상기 표시된 텍스트 정보를 음성 명령어로서 등록하지 않는 단계;를 더 포함하는, 제어 방법.
  18. 제 12 항에 있어서,
    상기 사용자 음성 입력에 대응되는 텍스트 정보를 표시하는 단계;를 더 포함하는, 제어 방법.
  19. 제 12 항에 있어서,
    상기 사용자 음성 입력에 대응되는 복수의 텍스트 정보가 획득되면, 상기 획득된 복수의 텍스트 정보를 포함하는 리스트를 표시하는 단계; 및
    상기 복수의 텍스트 정보 중 사용자에 의해 선택된 하나의 텍스트 정보를 음성 명령어로서 등록하는 단계;를 더 포함하는, 제어 방법.
  20. 제 12 항에 있어서,
    상기 음성 명령어는,
    상기 디스플레이 장치에 등록되어 상기 디스플레이 장치의 동작을 제어하는 명령어인, 제어 방법.
  21. 제 12 항에 있어서,
    등록 요청에 기초하여 상기 획득된 텍스트를 등록하는 단계;를 더 포함하는, 제어 방법.
  22. 제 12 항에 있어서,
    사용자 입력을 수신하면, 사용자 음성 입력을 수신하기 위한 음성 인식 모드로 진입하는 단계; 및
    상기 사용자 음성 입력에 대응되는 사용자 명령어를 상기 음성 인식 모드에서 음성 명령어로서 등록하는 단계;를 더 포함하는, 제어 방법.
  23. 디스플레이장치와 결합되어 하기의 단계를 실행시키기 위하여 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
    기능을 실행하는 음성 명령을 등록하기 위한 사용자 음성 입력을 수신하는 단계;
    상기 수신된 사용자 음성 입력에 대응되는 텍스트를 획득하는 단계;
    상기 수신된 사용자 음성 입력에 대응되는 상기 획득된 텍스트가 기 등록된 명령어이면, 상기 획득된 텍스트가 음성 명령어로서 등록이 부적합하다는 것에 대응되는 결과를 제공하는 단계;
    상기 수신된 사용자 음성 입력에 대응되는 상기 획득된 텍스트가 기 등록된 명령어가 아니면, 상기 획득된 텍스트가 음성 명령어로서 등록이 적합하다는 것에 대응되는 결과를 제공하는 단계; 및
    상기 수신된 사용자 음성 입력에 대응되는 상기 획득된 텍스트가 금칙 명령어이면, 상기 획득된 텍스트가 금칙 명령어에 해당한다는 것에 대응되는 결과를 제공하는 단계;를 포함하는, 기록 매체에 저장된 컴퓨터 프로그램.
KR1020140162654A 2014-11-20 2014-11-20 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 KR102245747B1 (ko)

Priority Applications (11)

Application Number Priority Date Filing Date Title
KR1020140162654A KR102245747B1 (ko) 2014-11-20 2014-11-20 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
US14/921,237 US9830908B2 (en) 2014-11-20 2015-10-23 Display apparatus and method for registration of user command
EP15194814.8A EP3023978A1 (en) 2014-11-20 2015-11-16 Display apparatus and method for registration of user command
CN201510810660.0A CN105635777B (zh) 2014-11-20 2015-11-20 用于登记用户命令的显示装置和方法
CN202011121617.0A CN112216281A (zh) 2014-11-20 2015-11-20 用于登记用户命令的显示装置和方法
US15/785,722 US10381004B2 (en) 2014-11-20 2017-10-17 Display apparatus and method for registration of user command
US16/423,669 US10885916B2 (en) 2014-11-20 2019-05-28 Display apparatus and method for registration of user command
US17/106,568 US11495228B2 (en) 2014-11-20 2020-11-30 Display apparatus and method for registration of user command
KR1020210052452A KR102456588B1 (ko) 2014-11-20 2021-04-22 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
US17/961,848 US11900939B2 (en) 2014-11-20 2022-10-07 Display apparatus and method for registration of user command
US18/377,590 US20240038230A1 (en) 2014-11-20 2023-10-06 Display apparatus and method for registration of user command

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140162654A KR102245747B1 (ko) 2014-11-20 2014-11-20 사용자 명령어 등록을 위한 디스플레이 장치 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020210052452A Division KR102456588B1 (ko) 2014-11-20 2021-04-22 사용자 명령어 등록을 위한 디스플레이 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20160060405A KR20160060405A (ko) 2016-05-30
KR102245747B1 true KR102245747B1 (ko) 2021-04-28

Family

ID=54557298

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140162654A KR102245747B1 (ko) 2014-11-20 2014-11-20 사용자 명령어 등록을 위한 디스플레이 장치 및 방법

Country Status (4)

Country Link
US (6) US9830908B2 (ko)
EP (1) EP3023978A1 (ko)
KR (1) KR102245747B1 (ko)
CN (2) CN105635777B (ko)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102245747B1 (ko) * 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10547729B2 (en) 2017-03-27 2020-01-28 Samsung Electronics Co., Ltd. Electronic device and method of executing function of electronic device
KR102343084B1 (ko) * 2017-03-27 2021-12-27 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10504511B2 (en) * 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands
KR102452644B1 (ko) 2017-10-31 2022-10-11 삼성전자주식회사 전자 장치, 음성 인식 방법 및 기록 매체
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
JP7173670B2 (ja) * 2018-08-07 2022-11-16 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 音声制御コマンド生成方法および端末
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11869494B2 (en) * 2019-01-10 2024-01-09 International Business Machines Corporation Vowel based generation of phonetically distinguishable words
US11475884B2 (en) * 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US20210158803A1 (en) * 2019-11-21 2021-05-27 Lenovo (Singapore) Pte. Ltd. Determining wake word strength
US11482222B2 (en) 2020-03-12 2022-10-25 Motorola Solutions, Inc. Dynamically assigning wake words
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
EP4174850A4 (en) 2020-09-09 2023-12-06 Samsung Electronics Co., Ltd. ELECTRONIC VOICE RECOGNITION DEVICE AND CONTROL METHOD THEREFOR
KR20220033325A (ko) * 2020-09-09 2022-03-16 삼성전자주식회사 음성 인식을 위한 전자장치 및 그 제어방법
CN111935498B (zh) * 2020-10-16 2021-02-05 北京达佳互联信息技术有限公司 直播互动方法、装置及电子设备
CN112558716A (zh) * 2020-12-11 2021-03-26 陈君 一种基于云计算的用户登记装置及其登记方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030069729A1 (en) * 2001-10-05 2003-04-10 Bickley Corine A Method of assessing degree of acoustic confusability, and system therefor
JP2009104047A (ja) * 2007-10-25 2009-05-14 Canon Inc 情報処理方法及び情報処理装置
US20110288867A1 (en) * 2010-05-18 2011-11-24 General Motors Llc Nametag confusability determination

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6760746B1 (en) * 1999-09-01 2004-07-06 Eric Schneider Method, product, and apparatus for processing a data request
KR19990052629A (ko) 1997-12-23 1999-07-15 구자홍 유사단어 식별기능을 갖는 음성 인식 방법 및 장치
KR20000001327A (ko) 1998-06-10 2000-01-15 윤종용 음성인식을위한 단어 훈련방법
KR100308274B1 (ko) 1998-09-22 2001-11-15 구자홍 가변어휘인식시스템
US6571209B1 (en) * 1998-11-12 2003-05-27 International Business Machines Corporation Disabling and enabling of subvocabularies in speech recognition systems
US20060074664A1 (en) 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
KR20020030156A (ko) 2000-10-16 2002-04-24 박기범 음성인식을 이용한 컴퓨터 프로그램의 제어방법
JP2002297181A (ja) 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置
JP2004029354A (ja) 2002-06-25 2004-01-29 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
KR100952974B1 (ko) 2003-06-26 2010-04-15 주식회사 케이티 미등록어 처리를 지원하는 음성 인식 시스템과 방법 및이를 저장한 컴퓨터 판독 가능 기록매체
KR100630801B1 (ko) 2003-07-24 2006-10-02 주식회사 안다미로 음성채팅 및 음성제어가 가능한 아케이드 게임 시스템 및그 제어방법
JP2005331882A (ja) * 2004-05-21 2005-12-02 Pioneer Electronic Corp 音声認識装置、音声認識方法、および音声認識プログラム
KR100669244B1 (ko) 2004-12-21 2007-01-15 한국전자통신연구원 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법
KR101137567B1 (ko) 2005-02-21 2012-04-19 주식회사 팬택 문자 자동 완성 기능을 제공하는 무선 휴대 단말기 및 그방법
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP5037041B2 (ja) * 2006-06-23 2012-09-26 アルパイン株式会社 車載用音声認識装置及び音声コマンド登録方法
JP2008040197A (ja) 2006-08-08 2008-02-21 Matsushita Electric Works Ltd 発話訓練装置
US7899673B2 (en) * 2006-08-09 2011-03-01 Microsoft Corporation Automatic pruning of grammars in a multi-application speech recognition interface
US8107598B2 (en) * 2007-02-21 2012-01-31 Avaya Inc. Voicemail filtering and transcription
KR100930587B1 (ko) 2007-11-28 2009-12-09 한국전자통신연구원 혼동 행렬 기반 발화 검증 방법 및 장치
KR100988397B1 (ko) 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
KR101513615B1 (ko) 2008-06-12 2015-04-20 엘지전자 주식회사 이동 단말기 및 그 음성 인식 방법
KR101495183B1 (ko) 2008-12-01 2015-02-24 엘지전자 주식회사 단말기 및 그 제어 방법
JP4772164B2 (ja) 2009-01-30 2011-09-14 三菱電機株式会社 音声認識装置
WO2010086925A1 (ja) 2009-01-30 2010-08-05 三菱電機株式会社 音声認識装置
KR101545881B1 (ko) 2009-04-22 2015-08-20 삼성전자주식회사 휴대 단말기의 입력 처리 장치 및 방법
JP5697860B2 (ja) * 2009-09-09 2015-04-08 クラリオン株式会社 情報検索装置,情報検索方法及びナビゲーションシステム
US8599836B2 (en) * 2010-01-27 2013-12-03 Neobitspeak LLC Web-based, hosted, self-service outbound contact center utilizing speaker-independent interactive voice response and including enhanced IP telephony
US9710435B2 (en) * 2010-10-29 2017-07-18 P. Karl Halton Object-field-based mathematics system
CN102004624B (zh) * 2010-11-11 2012-08-22 中国联合网络通信集团有限公司 语音识别控制系统和方法
KR101590332B1 (ko) 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
JP5900052B2 (ja) * 2012-03-15 2016-04-06 オムロン株式会社 登録判定装置、その制御方法および制御プログラム、並びに電子機器
KR20130140423A (ko) 2012-06-14 2013-12-24 삼성전자주식회사 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법
US20130346068A1 (en) 2012-06-25 2013-12-26 Apple Inc. Voice-Based Image Tagging and Searching
US9459176B2 (en) 2012-10-26 2016-10-04 Azima Holdings, Inc. Voice controlled vibration data analyzer systems and methods
JP6239826B2 (ja) * 2013-01-29 2017-11-29 綜合警備保障株式会社 話者認識装置、話者認識方法及び話者認識プログラム
JP6115202B2 (ja) * 2013-03-12 2017-04-19 アイシン・エィ・ダブリュ株式会社 音声認識システム、方法およびプログラム
US9218052B2 (en) * 2013-03-14 2015-12-22 Samsung Electronics Co., Ltd. Framework for voice controlling applications
KR102245747B1 (ko) * 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030069729A1 (en) * 2001-10-05 2003-04-10 Bickley Corine A Method of assessing degree of acoustic confusability, and system therefor
JP2009104047A (ja) * 2007-10-25 2009-05-14 Canon Inc 情報処理方法及び情報処理装置
US20110288867A1 (en) * 2010-05-18 2011-11-24 General Motors Llc Nametag confusability determination

Also Published As

Publication number Publication date
US20190279638A1 (en) 2019-09-12
US20160148613A1 (en) 2016-05-26
US20240038230A1 (en) 2024-02-01
US20230031603A1 (en) 2023-02-02
US10885916B2 (en) 2021-01-05
US10381004B2 (en) 2019-08-13
CN105635777A (zh) 2016-06-01
US20180040321A1 (en) 2018-02-08
EP3023978A1 (en) 2016-05-25
US11900939B2 (en) 2024-02-13
US20210082433A1 (en) 2021-03-18
US9830908B2 (en) 2017-11-28
US11495228B2 (en) 2022-11-08
CN105635777B (zh) 2020-11-06
CN112216281A (zh) 2021-01-12
KR20160060405A (ko) 2016-05-30

Similar Documents

Publication Publication Date Title
KR102245747B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
US20210264914A1 (en) Electronic device and voice recognition method thereof
KR102246900B1 (ko) 전자 장치 및 이의 음성 인식 방법
EP3039531B1 (en) Display apparatus and controlling method thereof
KR102445927B1 (ko) 질의 응답을 위한 디스플레이 장치 및 방법
US20210118463A1 (en) Interactive server, control method thereof, and interactive system
KR102339657B1 (ko) 전자 장치 및 이의 제어 방법
EP3089158B1 (en) Speech recognition processing
KR102009316B1 (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
KR20160025301A (ko) 음성 인식이 가능한 디스플레이 장치 및 방법
KR102456588B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
KR102599069B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
KR102359163B1 (ko) 전자 장치 및 이의 음성 인식 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant