KR20140072727A - 음성 인식 장치 및 방법 - Google Patents

음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR20140072727A
KR20140072727A KR1020120140574A KR20120140574A KR20140072727A KR 20140072727 A KR20140072727 A KR 20140072727A KR 1020120140574 A KR1020120140574 A KR 1020120140574A KR 20120140574 A KR20120140574 A KR 20120140574A KR 20140072727 A KR20140072727 A KR 20140072727A
Authority
KR
South Korea
Prior art keywords
voice
sound source
display device
control command
residual
Prior art date
Application number
KR1020120140574A
Other languages
English (en)
Inventor
박경미
장종혁
권남영
류희섭
박승권
배재현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020120140574A priority Critical patent/KR20140072727A/ko
Publication of KR20140072727A publication Critical patent/KR20140072727A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

음성 인식 장치 및 방법이 개시된다. 발명의 일 실시 예에 따른 음성 인식 장치는 음성을 입력받는 마이크, 마이크를 통해 입력된 음성으로부터 메인 음원과 잔류 음원을 분리하는 음원 분리부 및 분리된 음원 중 메인 음원에 기초하여 디스플레이 장치의 동작 제어 가능 여부를 판단하여 메인 음원으로부터 동작 제어가 불가능하면, 잔류 음원에 기초하여 디스플레이 장치의 동작을 제어하는 제어부를 포함한다. 이와 같이, 본 발명에 따른 음성 인식 장치 및 방법을 통해 사용자 음성에 기초하여 디스플레이 장치의 동작을 제어하는 과정에서 발생할 수 있는 오류를 최소화할 수 있다.

Description

음성 인식 장치 및 방법{Apparatus and method for speech recogniton}
본 발명은 음성 인식 장치 및 방법에 관한 것으로써, 보다 구체적으로 입력된 음성으로부터 분리된 음원에 기초하여 음성 인식을 수행하는 음성 인식 장치 및 방법에 관한 것이다.
음성 인식 서비스를 제공하는 디지털 기기들이 증가 되고 또한 널리 보급됨에 따라 사용자 혼자가 아닌 여러 사용자 혹은 잡음이 있는 환경에서 음성 인식 서비스를 제공하는 상황이 발생하고 있다.
그러나, 종래의 음성 인식 장치는 이 같은 상황을 고려하지 않고 입력된 음성에 대한 음성 인식을 수행함으로써, 사용자 음성을 정확하게 인식하지 못하여 사용자가 요구한 동작을 수행하지 못하는 일이 종종 발생한다.
이 같은 문제점을 해결하고자 다양한 음성 인식 방법이 개발되고 있다. 예를 들어, 여러 개의 마이크를 활용하여 음성 인식을 수행하는 방법은 음성 인식 장치에 두 개의 음성 구간 감지부(Voice Activity Detector)를 구비하고, 두 개의 음성 구간 감지부 중 제1 음성 구간 감지부를 통해 음성의 존재 유무를 판단하여 음성이 존재하지 않으면, 제2 음성 구간 감지부를 통해 음성 구간을 추정하여 음성을 인식하는 방법이다. 그러나, 이 같은 방법은 제1 음성 구간 감지부를 통해 사용자의 발화 음성이 아닌 외부 잡음이 감지되어도 음성이 존재하는 것으로 판단함으로써, 사용자가 발화한 음성만을 인식하지 못하는 문제가 있다.
이와 같이, 종래의 음성 인식 장치는 주변 사용자의 발화 음성 혹은 외부 잡음 등과 같은 다양한 환경에서 기기의 제어를 위해 발화한 사용자의 음성을 올바르게 인식하지 못하는 일이 종종 발생하는 문제가 있다.
본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 사용자로부터 발화됨 음성을 올바르게 인식하고, 그 인식된 음성에 기초하여 기기의 동작을 제어하기 위함을 목적으로 한다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 음성 인식 장치는 음성을 입력받는 마이크, 상기 마이크를 통해 입력된 음성으로부터 메인 음원과 잔류 음원을 분리하는 음원 분리부 및 상기 분리된 음원 중 메인 음원에 기초하여 디스플레이 장치의 동작 제어 가능 여부를 판단하여 상기 메인 음원으로부터 동작 제어가 불가능하면, 상기 잔류 음원에 기초하여 상기 디스플레이 장치의 동작을 제어하는 제어부를 포함한다.
그리고, 상기 마이크는, 상기 음성을 입력받는 제1 및 제2 마이크를 포함하며, 상기 음원 분리부는, 상기 제1 및 제2 마이크로부터 입력된 음성의 신호 세기를 비교하여 상기 신호 세기가 큰 음성으로부터 메인 음원 및 잔류 음원을 분리할 수 있다.
또한, 사용자 음성에 대응되는 제어 명령을 저장하는 저장부를 더 포함하며, 상기 제어부는, 상기 분리된 메인 음원으로부터 음성을 인식하고, 상기 인식된 음성에 대한 제어 명령이 상기 저장부에 저장되어 있으면, 상기 제어 명령에 기초하여 상기 디스플레이 장치의 동작을 제어할 수 있다.
그리고, 상기 제어부는, 상기 분리된 메인 음원으로부터 음성 구간이 있는지를 판단하여 상기 음성 구간이 있으면, 상기 음성 구간으로부터 음성 인식을 수행할 수 있다.
또한, 상기 제어부는, 상기 인식된 음성에 대한 제어 명령이 없거나 혹은 상기 메인 음원에 음성 구간이 없으면, 상기 분리된 잔류 음원으로부터 음성 구간을 추출하고, 상기 추출된 음성 구간에서 음성을 인식하여 상기 디스플레이 장치의 동작을 제어할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 음성 인식 장치에서 디스플레이 장치의 동작을 제어하기 위한 사용자 음성을 인식하는 방법에 있어서, 상기 방법은 음성을 입력받는 단계, 상기 입력된 음성으로부터 메인 음원과 잔류 음원을 분리하는 단계, 상기 분리된 음원 중 메인 음원에 기초하여 상기 디스플레이 장치의 동작 제어가 가능한지 여부를 판단하는 단계 및 상기 메인 음원에 기초하여 상기 디스플레이 장치의 동작 제어가 불가능하면, 상기 잔류 음원에 기초하여 상기 디스플레이 장치의 동작을 제어하는 단계를 포함한다.
그리고, 상기 음성을 입력받는 단계는, 제1 및 제2 마이크를 통해 상기 음성을 입력받으며, 상기 분리하는 단계는, 상기 제1 및 제2 마이크로부터 입력된 음성의 신호 세기를 비교하여 상기 신호 세기가 큰 음성으로부터 메인 음성 및 잔류 음성을 분리할 수 있다.
또한, 상기 판단하는 단계는, 상기 분리된 메인 음원으로부터 음성을 인식하고, 상기 인식된 음성에 대한 제어 명령이 기저장되어 있는지 여부를 판단하며, 상기 제어하는 단계는, 상기 제어 명령이 기저장되어 있으면, 상기 인식된 음성에 대한 제어 명령에 기초하여 상기 디스플레이 장치의 동작을 제어할 수 있다.
그리고, 상기 판단하는 단계는, 상기 분리된 메인 음원으로부터 음성 구간이 있는지 여부를 판단하여 상기 음성 구간이 있으면, 상기 음성 구간으로부터 음성 인식을 수행할 수 있다.
또한, 상기 판단하는 단계는, 상기 인식된 음성에 대한 제어 명령이 없거나 혹은 상기 음성 구간이 없으면, 상기 분리된 잔류 음원으로부터 음성 구간을 추출하고, 상기 추출된 음성 구간에서 음성을 인식하며, 상기 제어하는 단계는, 상기 인식된 음성에 대한 제어 명령에 기초하여 상기 디스플레이 장치의 동작을 제어할 수 있다.
이상과 같은 본 발명의 다양한 실시예에 따르면, 음성 인식 장치는 복수의 음원을 포함하는 음성이 입력되면, 그 입력된 음성을 메인 음원 및 잔류 음원으로 분류하고, 분류된 메인 음원 및 잔류 음원에 기초하여 사용자로부터 발화된 음성을 인식할 수 있다. 따라서, 본 발명에 따른 음성 인식 장치 및 방법을 통해 사용자 음성에 기초하여 디스플레이 장치의 동작을 제어하는 과정에서 발생할 수 있는 오류를 최소화할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 장치의 블록도,
도 2는 본 발명의 일 실시예에 따른 서로 다른 위치에 배치된 마이크를 통해 입력된 음성으로부터 신호 세기가 큰 음성을 분리하는 예시도,
도 3은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자 음성을 인식하는 방법의 흐름도,
도 4는 본 발명의 일 실시예에 따른 음성 인식 장치에서 메인 음원 및 잔류 음원에 기초하여 디스플레이 장치의 동작을 제어하는 제1 흐름도,
도 5는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 메인 음원 및 잔류 음원에 기초하여 디스플레이 장치의 동작을 제어하는 제2 흐름도이다.
이하 첨부된 도면들을 참조하여 본 발명의 일시 예를 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 장치의 블록도이다.
도 1에 도시된 바와 같이, 음성 인식 장치는 디스플레이 장치와 같은 단말 장치 내에 구비되어 사용자의 음성을 수집하고, 그 수집된 음성에 기초하여 디스플레이 장치의 동작을 제어하는 장치가 될 수 있다. 이 같은 음성 인식 장치는 마이크(110), 음원 분리부(120), 제어부(130), 저장부(140) 및 출력부(150)를 포함한다.
마이크(110)는 사용자의 음성 및 주변 음성을 입력받는다. 여기서, 사용자의 음성은 디스플레이 장치의 동작을 제어하기 위한 타겟 음성이 될 수 있으며, 주변 음성은 배경 잡음이 될 수 있다. 이 같은 사용자 음성 및 주변 음성을 입력받는 마이크(110)는 제1 및 제2 마이크(111,112)를 포함할 수 있다. 제1 및 제2 마이크(111,112)는 서로 다른 위치에 배치되어 사용자의 음성 및 주변 음성으로부터 방사되는 음원을 혼합 사운드 형태로 취득할 수 있다.
음원 분리부(120)는 마이크(110)를 통해 입력된 음성으로부터 메인 음원 및 잔류 음원을 분리한다. 여기서, 메인 음원은 마이크(110)를 통해 입력된 음성에 포함된 다양한 음원 중 기설정된 임계값 이상의 에너지를 가지는 음원이 될 수 있으며, 잔류 음원은 메인 음원으로 분류된 음원을 제외한 나머지 음원이 될 수 있다. 즉, 음원 분리부(120)는 마이크(110)를 통해 음성이 입력되면, 그 입력된 음성에 포함된 음원 중 기설정된 임계값 이상의 에너지를 가지는 음원을 추출한다. 따라서, 음원 분리부(120)는 마이크(110)를 통해 입력된 음성에 포함된 다양한 음원으로부터 추출된 음원을 메인 음원으로 분류하고, 나머지 음원을 잔류 음원으로 분류할 수 있다.
한편, 음원 분리부(120)는 제1 및 제2 마이크(111,112)를 통해 복수의 음성이 입력되면, 입력된 복수의 음성 각각에 대한 신호 세기를 비교하여 신호 세기가 큰 음성으로부터 메인 음원 잔류 음원을 분리할 수 있다.
도 2는 본 발명의 일 실시예에 따른 서로 다른 위치에 배치된 마이크를 통해 입력된 음성으로부터 신호 세기가 큰 음성을 분리하는 예시도이다.
도 2에 도시된 바와 같이, 디스플레이 장치의 좌측에는 제1 마이크(111)가 구비되고, 우측에는 제2 마이크(112)가 구비될 수 있다. 그리고, 제1 사용자(10)와 제2 사용자(20)는 제1 및 제2 마이크(111,112)와 서로 대응되는 지점에 위치할 수 있다. 이 같은 제1 및 제2 사용자(10,20) 중 제1 사용자(10)는 디스플레이 장치의 동작을 제어하기 위한 음성을 발화할 수 있으며, 제2 사용자(10)는 디스플레이 장치의 동작을 제어하기 위한 음성과 무관한 음성을 발화할 수 있다.
이 경우, 제1 및 제2 마이크(111,112) 각각은 제1 및 제2 사용자(10,20)의 발화 음성을 수집할 수 있다. 즉, 제1 마이크(111)는 제1 및 제2 사용자(10,20)의 발화로부터 제1 음성을 수집할 수 있으며, 제2 마이크(112)는 제1 및 제2 사용자(10,20)의 발화로부터 제2 음성을 수집할 수 있다. 따라서, 음성 분리부(120)는 제1 마이크(111)로부터 수집된 제1 음성의 신호 세기와 제2 마이크(112)로부터 수집된 제2 음성의 신호 세기를 비교하여 신호 세기가 큰 음성을 결정할 수 있다. 일반적으로, 디스플레이 장치의 동작을 제어하기 위해 발화된 음성 즉, 제1 사용자(10)의 음성의 세기가 디스플레이 장치의 동작 제어와 무관하게 발화된 음성 즉, 제2 사용자(20)의 음성의 세기보다 클 수 있다.
따라서, 제1 사용자(10)와 대응되는 지점에 위치한 제1 마이크(111)로부터 수집된 제1 음성의 신호 세기가 제2 마이크(112)로부터 수집된 제2 음성의 신호 세기보다 클 수 있다. 따라서, 음원 분리부(120)는 제1 및 제2 마이크(111,112)로부터 수집된 음성의 신호 세기를 비교하여 신호 세기가 큰 음성을 결정하고, 그 결정된 음성으로부터 메인 음원과 잔류 음원을 분리할 수 있다. 실시예에 따라, 음원 분리부(120)는 지오메트릭 음원 분리 알고리즘(Geometric Source Separation : GSS) 또는 블라인드 음원 분리 알고리즘(Blind Source Separation : BSS) 등과 같은 알고리즘을 이용하여 제1 음성에 포함된 제1 사용자(10)의 음성과 제2 사용자(20)의 음성을 분리할 수 있다. 이 같은 지오메트릭 음원 분리 알고리즘 혹은 블라인드 음원 분리 알고리즘과 같은 음원 분리 알고리즘은 공지된 기술이기에 본 발명에서는 상세한 설명을 생략하도록 한다. 또한, 본 발명에서는 지오메트릭 음원 분리 알고리즘 혹은 블라인드 음원 분리 알고리즘과 같은 음원 분리 알고리즘을 이용하여 음원 분리를 수행하는 것에 대해서 한정하였으나, 이에 한정되지 않으면, 음원 분리가 가능한 모든 알고리즘은 본 발명에 적용될 수 있음이 바람직하다.
전술한 바와 같이, 제1 음성의 신호 세기가 제2 음성의 신호 세기보다 크다고 가정할 경우, 제1 음성 신호에 포함된 제1 및 제2 사용자(10,20)의 발화 음성 중 제1 사용자(10)의 발화 음성 세기가 제2 사용자(20)의 발화 음성 세기보다 클 수 있다. 따라서, 음원 분리부(120)는 제1 음성으로부터 분리된 제1 및 제2 사용자(10,20)의 발화 음성 중 제1 사용자(10)의 발화 음성을 메인 음원으로 분류하고, 제2 사용자(20)의 발화 음성을 잔류 음원으로 분류할 수 있다.
이와 같이, 메인 음원과 잔류 음원이 분리되면, 제어부(130)는 분리된 음원 중 메인 음원에 기초하여 디스플레이 장치의 동작 제어 가능 여부를 판단한다. 판단 결과, 메인 음원에 기초하여 디스플레이 장치의 동작 제어가 가능하면, 제어부(130)는 메인 음원에 기초하여 디스플레이 장치의 동작을 제어한다. 한편, 판단 결과, 메인 음원에 기초하여 디스플레이 장치의 동작 제어가 불가능한 것으로 판단되면, 제어부(130)는 음원 분리부(120)를 통해 분리된 음원 중 잔류 음원에 기초하여 디스플레이 장치의 동작을 제어한다.
전술한 바와 같이, 음원 분리부(120)를 통해 제1 및 제2 마이크(111,112)로부터 입력된 음성 중 신호 세기가 큰 음성으로부터 메인 음원과 잔류 음원이 분류되면, 제어부(130)는 분리된 음원 중 메인 음원으로부터 사용자가 발화한 음성을 인식한다. 구체적으로, 제어부(130)는 공지된 음성 인식 알고리즘을 이용하여 메인 음원으로부터 음성을 인식할 수 있다. 이 같이, 메인 음원으로부터 음성이 인식되면, 제어부(130)는 저장부(140)에 기저장된 제어 명령 중 인식된 음성과 대응되는 제어 명령이 있는지 여부를 판단한다. 판단 결과, 인식된 음성과 대응되는 제어 명령이 있으면, 제어부(130)는 인식된 음성과 대응되는 제어 명령에 기초하여 디스플레이 장치의 동작을 제어한다. 따라서, 출력부(150)는 제어부(130)의 제어 명령에 기초하여 오디오 및 비디오를 출력할 수 있다. 한편, 사용자 음성에 대응되는 제어 명령을 저장하는 저장부(140)는 추가적으로, 음성 인식 장치 및 디스플레이 장치의 동작과 관련된 각종 프로그램 혹은 데이터, 사용자가 설정한 설정 정보, 시스템 구동 소프트웨어(Ooerating Sofware), 각종 어플리케이션 프로그램 및 사용자 조작 내용에 대응되는 동작에 대한 정보 등을 저장할 수 있다.
한편, 전술한 바와 같이, 음원 분리부(120)를 통해 분리된 메인 음원에 주변 잡음과 같은 노이즈가 섞일 경우, 제어부(130)는 메인 음원으로부터 사용자로부터 발화된 음성을 인식하지 못하는 상황이 발생할 수 있다. 따라서, 제어부(130)는 음원 분리부(120)를 통해 메인 음원과 잔류 음원이 분리되면, 공지된 음성 구간 추출 알고리즘을 이용하여 메인 음원으로부터 음성 구간을 추출한다. 이후, 제어부(130)는 메인 음원으로부터 추출된 음성 구간 내에서 음성 인식을 수행하고, 인식된 음성에 대한 제어 명령이 저장부(140)에 저장되어 있는지를 판단한다. 이후, 제어부(130)는 인식된 음성과 관련된 제어 명령이 저장부(140)에 저장되어 있으면, 해당 제어 명령에 기초하여 디스플레이 장치의 동작을 제어할 수 있다.
한편, 제어부(130)는 메인 음원으로부터 인식된 음성에 대한 제어 명령이 저장부(140)에 저장되어 있지 않거나 혹은 메인 음원으로부터 음성 구간이 추출되지 않으면, 음원 분리부(120)를 통해 분리된 잔류 음원에 기초하여 디스플레이 장치의 동작을 제어한다. 제어부(130)는 메인 음원으로부터 인식된 음성에 대한 제어 명령이 저장부(140)에 저장되어 있지 않거나 혹은 메인 음원으로부터 음성 구간이 추출되지 않으면, 잔류 음원으로부터 음성 구간이 있는지 여부를 판단한다. 판단 결과, 음성 구간이 있으면, 제어부(130)는 잔류 음원으로부터 음성 구간을 추출하고, 그 추출된 음성 구간 내에서 음성 인식을 수행한다. 그러나, 본 발명은 이에 한정되지 않으며, 제어부(130)는 잔류 음원으로부터 음성 구간을 추출하는 동작을 생략하고, 잔류 음원으로부터 음성을 인식할 수 있다.
이 같이, 음성이 인식되면, 제어부(130)는 잔류 음원 내 음성 구간으로부터 인식된 음성에 대한 제어 명령이 저장부(140)에 저장되어 있는지 여부를 판단한다. 판단 결과, 인식된 음성에 대한 제어 명령이 저장되어 있으면, 제어부(130)는 해당 음성과 관련된 제어 명령에 기초하여 디스플레이 장치의 동작을 제어한다. 따라서, 출력부(150)는 이 같은 제어부(130)의 제어 명령에 기초하여 비디오 및 오디오를 출력할 수 있다.
이와 같이, 본 발명에 따른 음성 인식 장치는 복수의 음원을 포함하는 음성이 입력되면, 그 입력된 음성으로부터 메인 음원 및 잔류 음원을 분류하고, 분류된 메인 음원 및 잔류 음원으로부터 사용자 음성을 인식하고, 그 인식된 음성에 대한 제어 명령을 수행한다. 따라서, 사용자 음성에 기초하여 디스플레이 장치의 동작을 제어하는 과정에서 발생할 수 있는 오류를 최소화할 수 있다.
지금까지, 본 발명에 따른 음성 인식 장치의 각 구성에 대해서 상세히 설명하였다. 이하에서는, 본 발명에 따른 음성 인식 장치에서 디스플레이 장치의 동작을 제어하기 위해 사용자의 음성을 인식하는 방법에 대해서 상세히 설명하도록 한다.
도 3은 본 발명의 일 실시예에 따른 음성 인식 장치에서 사용자 음성을 인식하는 방법의 흐름도이다.
도 3에 도시된 바와 같이, 디스플레이 장치와 같은 단말 장치에 내에 구비되어 사용자의 음성을 수집하고, 그 수집된 음성에 기초하여 디스플레이 장치의 동작을 제어하는 음성 인식 장치는 마이크를 통해 사용자로부터 발화된 발화 음성을 포함하는 음성을 입력받는다(S310). 여기서, 마이크는 사용자의 발화 음성 및 주변 음성을 포함하는 음성을 입력받는 것으로써, 사용자의 발화 음성은 디스플레이 장치의 동작을 제어하기 위한 타겟 음성이 될 수 있으며, 주변 음성은 배경 잡음이 될 수 있다. 이 같은 마이크를 통해 음성이 입력되면, 음성 인식 장치는 입력된 음성으로부터 메인 음원과 잔류 음원을 분리한다(S320). 전술한 바와 같이, 타겟 음성인 사용자의 발화 음성은 배경 잡음인 주변 음성에 비해 신호 세기가 상대적으클 수 있다. 따라서, 음성 인식 장치는 타겟 음성으로 예측되는 즉, 신호 세기가 큰 음원을 메인 음원으로 결정하고, 배경 잡음으로 예측되는 즉, 신호 세기가 메인 음원에 비해 상대적으로 작은 음원을 잔류 음원으로 결정한다.
다시 말해, 메인 음원은 마이크를 통해 입력된 음성에 포함된 다양한 음원 중 기설정된 임계값 이상의 에너지를 가지는 음원이 될 수 있으며, 잔류 음원은 메인 음원으로 분류된 음원을 제외한 나머지 음원이 될 수 있다. 따라서, 음성 인식 장치는 마이크를 통해 음성이 입력되면, 그 입력된 음성에 포함된 다양한 음원 중 기설정된 임계값 이상의 에너지를 가지는 음원을 추출한다. 따라서, 음성 인식 장치는 마이크를 통해 입력된 음성에 포함된 다양한 음원으로부터 추출된 음원을 메인 음원으로 분류하고, 나머지 음원을 잔류 음원으로 분류할 수 있다.
한편, 전술한 바와 같이, 사용자 발화 음성 및 주변 음성을 포함하는 음성을 입력받는 마이크는 제1 및 제2 마이크를 포함할 수 있다. 여기서 제1 및 제2 마이크는 도 2에서 설명한 바와 같이, 디스플레이 장치의 서로 다른 위치에 배치되어 사용자의 음성 및 주변 음성으로부터 방사되는 음원을 혼합 사운드 형태로 취득할 수 있다. 구체적으로, 도 2에서 설명한 바와 같이, 디스플레이 장치의 좌측에는 제1 마이크가 구비되고, 우측에는 제2 마이크가 구비되며, 제1 마이크와 대응되는 지점에는 제1 사용자가 위치하고, 제2 마이크와 대응되는 지점에는 제2 사용자가 위치할 수 있다. 그리고, 제1 및 제2 사용자 중 제1 사용자는 디스플레이 장치의 동작을 제어하기 위한 음성을 발화할 수 있으며, 제2 사용자는 디스플레이 장치의 동작을 제어하기 위한 음성과 무관한 음성을 발화할 수 있다. 이 같이, 제1 및 제2 사용자로부터 음성이 발화되면, 제1 및 제2 마이크는 제1 및 제2 사용자로부터 발화된 음성을 수집한다. 즉, 제1 마이크는 제1 및 제2 사용자의 발화로부터 제1 음성을 수집하며, 제2 마이크는 제1 및 제2 사용자의 발화로부터 제2 음성을 수집할 수 있다. 이와 같이, 제1 및 제2 마이크를 통해 제1 및 제2 음성이 각각 수집되면, 음성 인식 장치는 제1 마이크로부터 수집된 제1 음성의 신호 세기와 제2 마이크로부터 수집된 제2 음성의 신호 세기를 비교하여 신호 세기가 큰 음성을 결정할 수 있다.
일반적으로, 디스플레이 장치의 동작을 제어하기 위해 발화된 음성 즉, 제1 사용자의 음성 세기가 디스플레이 장치의 동작 제어와 무관하게 발화된 음성 즉, 제2 사용자의 음성 세기보다 클 수 있다. 따라서, 제1 사용자와 대응되는 지점에 위치한 제1 마이크로부터 수집된 제1 음성의 신호 세기가 제2 마이크로부터 수집된 제2 음성의 신호 세기보다 클 수 있다. 따라서, 음성 인식 장치는 제1 및 제2 마이크로부터 수집된 음성의 신호 세기를 비교하여 신호 세기가 큰 음성을 결정하고, 그 결정된 음성으로부터 메인 음원과 잔류 음원을 분리할 수 있다.
실시예에 따라, 음성 인식 장치는 지오메트릭 음원 분리 알고리즘(Geometric Source Separation : GSS) 또는 블라인드 음원 분리 알고리즘(Blind Source Separation : BSS) 등과 같은 알고리즘을 이용하여 제1 음성에 포함된 제1 사용자의 음성과 제2 사용자의 음성을 분리할 수 있다. 전술한 바와 같이, 제1 음성의 신호 세기가 제2 음성의 신호 세기보다 크다고 가정할 경우, 제1 음성 신호에 포함된 제1 및 제2 사용자의 발화 음성 중 제1 사용자의 발화 음성 세기가 제2 사용자의 발화 음성 세기보다 클 수 있다. 따라서, 음성 인식 장치는 제1 음성으로부터 분리된 제1 및 제2 사용자의 발화 음성 중 제1 사용자의 발화 음성을 메인 음원으로 분류하고, 제2 사용자의 발화 음성을 잔류 음원으로 분류할 수 있다.
이와 같이, 입력된 음성으로부터 메인 음원 및 잔류 음원이 분리되면, 음성 인식 장치는 분리된 음원 중 메인 음원에 기초하여 디스플레이 장치의 동작 제어가 가능한지 여부를 판단한다(S330). 판단 결과, 메인 음원에 기초하여 디스플레이 장치의 동작 제어가 불가능하면, 음성 인식 장치는 입력된 음성으로부터 분리된 잔류 음원에 기초하여 디스플레이 장치의 동작을 제어한다(S340).
이하에서는 음성 인식 장치에서 입력된 음성으로부터 분류된 메인 음원 및 잔류 음원에 기초하여 디스플레이 장치의 동작을 제어하는 방법에 대해서 보다 구체적으로 설명하도록 한다.
도 4는 본 발명의 일 실시예에 따른 음성 인식 장치에서 메인 음원 및 잔류 음원에 기초하여 디스플레이 장치의 동작을 제어하는 제1 흐름도이다.
도 3의 단계 S320을 통해 입력된 음성으로부터 메인 음원과 잔류 음원이 각각 분리되면, 음성 인식 장치는 도 4에 도시된 바와 같이, 메인 음원으로부터 음성을 인식하고, 그 인식된 음성에 대한 제어 명령이 기저장되어 있는지 여부를 판단한다(S410,S420). 구체적으로, 음성 인식 장치는 공지된 음성 인식 알고리즘을 이용하여 메인 음원으로부터 음성을 인식할 수 있다. 이 같이, 메인 음원으로부터 음성이 인식되면, 음성 인식 장치는 기저장된 제어 명령 중 인식된 음성과 대응되는 제어 명령이 있는지 여부를 판단한다. 판단 결과, 인식된 음성과 대응되는 제어 명령이 기저장되어 있으면, 음성 인식 장치는 인식된 음성과 대응되는 제어 명령에 기초하여 디스플레이 장치의 동작을 제어한다(S430). 따라서, 디스플레이 장치는 이 같은 음성 인식 장치의 제어 명령에 기초하여 오디오 및 비디오를 출력할 수 있다.
한편, 판단 결과, 인식된 음성과 대응되는 제어 명령이 기저장되어 있지 않은 것으로 판단되면, 음성 인식 장치는 입력된 음성으로부터 분류된 잔류 음원으로부터 음성 구간이 있는지 여부를 판단한다. 판단 결과, 잔류 음원 내에 음성 구간이 있는 것으로 판단되면, 음성 인식 장치는 잔류 음원으로부터 음성 구간을 추출한다(S440). 이후, 음성 인식 장치는 잔류 음원으로부터 추출된 음성 구간 내에서 음성 인식을 수행하여 음성 인식이 가능한지 여부를 판단한다(S450). 판단 결과, 잔류 음원으로부터 추출된 음성 구간 내에서 음성 인식이 가능한 것으로 판단되면, 음성 인식 장치는 단계 S420을 통해 잔류 음원의 음성 구간에서 인식된 음성에 대응되는 제어 명령이 기저장되어 있는지 여부를 판단하여 인식된 음성에 대한 제어 명령이 기저장되어 있지 않으면, 일련의 처리 동작 과정을 종료한다. 한편, 단계 S420을 통해 잔류 음원의 음성 구간에서 인식된 음성에 대응되는 제어 명령이 기저장되어 있으면, 음성 인식 장치는 단계 S430을 통해 기저장된 제어 명령에 기초하여 디스플레이 장치의 동작을 제어한다.
한편, 도 4와 같이, 메인 음원에 주변 잡음과 같은 노이즈가 섞일 경우, 음성 인식 장치는 메인 음원으로부터 사용자의 발화 음성을 올바르게 인식하지 못하는 상황이 발생할 수 있다. 따라서, 음성 인식 장치는 도 5와 같이 메인 음원 내에 음성 구간이 있는지 여부를 판단하는 동작을 추가적으로 수행할 수 있다.
도 5는 본 발명의 또다른 실시예에 따른 음성 인식 장치에서 메인 음원 및 잔류 음원에 기초하여 디스플레이 장치의 동작을 제어하는 제2 흐름도이다.
도 5에 도시된 바와 같이, 음성 인식 장치는 도 3의 단계 S320을 통해 입력된 음성으로부터 메인 음원과 잔류 음원이 각각 분리되면, 분리된 음원 중 메인 음원으로부터 음성 구간이 있는지 여부를 판단한다(S510). 판단 결과, 메인 음원 내에 음성 구간이 있으면, 음성 인식 장치는 메인 음원으로부터 음성 구간을 추출하고, 그 추출된 음성 구간 내에서 음성을 인식한다(S520). 이후, 음성 인식 장치는 기저장된 제어 명령 중 인식된 음성과 대응되는 제어 명령이 있는지 여부를 판단한다(S530). 판단 결과, 인식된 음성과 대응되는 제어 명령이 기저장되어 있으면, 음성 인식 장치는 인식된 음성과 대응되는 제어 명령에 기초하여 디스플레이 장치의 동작을 제어한다(S540). 따라서, 디스플레이 장치는 이 같은 음성 인식 장치의 제어 명령에 기초하여 오디오 및 비디오를 출력할 수 있다.
한편, 전술한 단계 S510에서 메인 음원 내에 음성 구간이 없는 것으로 판단되거나 또는 단계 S530을 통해 인식된 음성과 대응되는 제어 명령이 기저장되어 있지 않은 것으로 판단되면, 음성 인식 장치는 잔류 음원 내에서 음성 구간이 있는지 여부를 판단한다. 판단 결과 잔류 음원 내에 음성 구간이 있으면, 음성 인식 장치는 잔류 음원으로부터 음성 구간을 추출한다(S550). 이후, 음성 인식 장치는 추출된 음성 구간 내에서 음성 인식이 가능한지 여부를 판단하여, 음성 구간 내에서 음성 인식이 가능한 것으로 판단되면, 해당 음성 구간 내에서 음성 인식을 수행한다(S560). 이후, 음성 인식 장치는 인식된 음성에 대응되는 제어 명령이 기저장되어 있는지 여부를 판단하여 인식된 음성에 대한 제어 명령이 기저장되어 있지 않으면, 일련의 처리 동작 과정을 종료한다. 한편, 잔류 음원의 음성 구간에서 인식된 음성에 대응되는 제어 명령이 기저장되어 있으면, 음성 인식 장치는 단계 S540을 통해 기저장된 제어 명령에 기초하여 디스플레이 장치의 동작을 제어한다.
이와 같이, 본 발명에 따른 음성 인식 장치의 음성 인식 방법은 복수의 음원을 포함하는 음성이 입력되면, 그 입력된 음성으로부터 메인 음원 및 잔류 음원을 분류하고, 그 분류된 메인 음원 및 잔류 음원으로부터 사용자 음성을 인식하며, 그 인식된 음성에 대한 제어 명령을 수행한다. 따라서, 본 발명에 따른 음성 인식 방법은 사용자 음성에 기초하여 디스플레이 장치의 동작을 제어하는 과정에서 발생할 수 있는 오류를 최소화할 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
110 : 마이크 111 : 제1 마이크
112 : 제2 마이크 120 : 음원 분리부
130 : 제어부 140 : 저장부
150 : 출력부

Claims (10)

  1. 음성을 입력받는 마이크;
    상기 마이크를 통해 입력된 음성으로부터 메인 음원과 잔류 음원을 분리하는 음원 분리부; 및
    상기 분리된 음원 중 메인 음원에 기초하여 디스플레이 장치의 동작 제어 가능 여부를 판단하여 상기 메인 음원으로부터 동작 제어가 불가능하면, 상기 잔류 음원에 기초하여 상기 디스플레이 장치의 동작을 제어하는 제어부;
    를 포함하는 음성 인식 장치.
  2. 제 1 항에 있어서,
    상기 마이크는,
    상기 음성을 입력받는 제1 및 제2 마이크;를 포함하며,
    상기 음원 분리부는,
    상기 제1 및 제2 마이크로부터 입력된 음성의 신호 세기를 비교하여 상기 신호 세기가 큰 음성으로부터 메인 음원 및 잔류 음원을 분리하는 것을 특징으로 하는 음성 인식 장치.
  3. 제 2 항에 있어서,
    사용자 음성에 대응되는 제어 명령을 저장하는 저장부;를 더 포함하며,
    상기 제어부는,
    상기 분리된 메인 음원으로부터 음성을 인식하고, 상기 인식된 음성에 대한 제어 명령이 상기 저장부에 저장되어 있으면, 상기 제어 명령에 기초하여 상기 디스플레이 장치의 동작을 제어하는 것을 특징으로 하는 음성 인식 장치.
  4. 제 3 항에 있어서,
    상기 제어부는,
    상기 분리된 메인 음원으로부터 음성 구간이 있는지를 판단하여 상기 음성 구간이 있으면, 상기 음성 구간으로부터 음성 인식을 수행하는 것을 특징으로 하는 음성 인식 장치.
  5. 제 3 항 또는 제 4 항에 있어서,
    상기 제어부는,
    상기 인식된 음성에 대한 제어 명령이 없거나 혹은 상기 메인 음원에 음성 구간이 없으면, 상기 분리된 잔류 음원으로부터 음성 구간을 추출하고, 상기 추출된 음성 구간에서 음성을 인식하여 상기 디스플레이 장치의 동작을 제어하는 것을 특징으로 하는 음성 인식 장치.
  6. 음성 인식 장치에서 디스플레이 장치의 동작을 제어하기 위한 사용자 음성을 인식하는 방법에 있어서,
    음성을 입력받는 단계;
    상기 입력된 음성으로부터 메인 음원과 잔류 음원을 분리하는 단계;
    상기 분리된 음원 중 메인 음원에 기초하여 상기 디스플레이 장치의 동작 제어가 가능한지 여부를 판단하는 단계; 및
    상기 메인 음원에 기초하여 상기 디스플레이 장치의 동작 제어가 불가능하면, 상기 잔류 음원에 기초하여 상기 디스플레이 장치의 동작을 제어하는 단계;
    를 포함하는 음성 인식 방법.
  7. 제 6 항에 있어서,
    상기 음성을 입력받는 단계는,
    제1 및 제2 마이크를 통해 상기 음성을 입력받으며,
    상기 분리하는 단계는,
    상기 제1 및 제2 마이크로부터 입력된 음성의 신호 세기를 비교하여 상기 신호 세기가 큰 음성으로부터 메인 음성 및 잔류 음성을 분리하는 것을 특징으로 하는 음성 인식 방법.
  8. 제 7 항에 있어서,
    상기 판단하는 단계는,
    상기 분리된 메인 음원으로부터 음성을 인식하고, 상기 인식된 음성에 대한 제어 명령이 기저장되어 있는지 여부를 판단하며,
    상기 제어하는 단계는,
    상기 제어 명령이 기저장되어 있으면, 상기 인식된 음성에 대한 제어 명령에 기초하여 상기 디스플레이 장치의 동작을 제어하는 것을 특징으로 하는 음성 인식 방법.
  9. 제 8 항에 있어서,
    상기 판단하는 단계는,
    상기 분리된 메인 음원으로부터 음성 구간이 있는지 여부를 판단하여 상기 음성 구간이 있으면, 상기 음성 구간으로부터 음성 인식을 수행하는 것을 특징으로 하는 음성 인식 방법.
  10. 제 8 항 또는 제 9 항에 있어서,
    상기 판단하는 단계는,
    상기 인식된 음성에 대한 제어 명령이 없거나 혹은 상기 음성 구간이 없으면, 상기 분리된 잔류 음원으로부터 음성 구간을 추출하고, 상기 추출된 음성 구간에서 음성을 인식하며,
    상기 제어하는 단계는,
    상기 인식된 음성에 대한 제어 명령에 기초하여 상기 디스플레이 장치의 동작을 제어하는 것을 특징으로 하는 음성 인식 방법.
KR1020120140574A 2012-12-05 2012-12-05 음성 인식 장치 및 방법 KR20140072727A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120140574A KR20140072727A (ko) 2012-12-05 2012-12-05 음성 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120140574A KR20140072727A (ko) 2012-12-05 2012-12-05 음성 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20140072727A true KR20140072727A (ko) 2014-06-13

Family

ID=51126514

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120140574A KR20140072727A (ko) 2012-12-05 2012-12-05 음성 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20140072727A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102287431B1 (ko) * 2020-10-07 2021-08-09 주식회사 셀바스에이아이 회의 녹음 장치 및 회의 녹음 기록 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102287431B1 (ko) * 2020-10-07 2021-08-09 주식회사 셀바스에이아이 회의 녹음 장치 및 회의 녹음 기록 시스템

Similar Documents

Publication Publication Date Title
EP3619707B1 (en) Customizable wake-up voice commands
US11094323B2 (en) Electronic device and method for processing audio signal by electronic device
EP3614377B1 (en) Object recognition method, computer device and computer readable storage medium
KR102371697B1 (ko) 음성 기능 운용 방법 및 이를 지원하는 전자 장치
US9354687B2 (en) Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
JP4795919B2 (ja) 音声区間検出方法
US20190019513A1 (en) Information processing device, information processing method, and program
KR100820141B1 (ko) 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템
US10089980B2 (en) Sound reproduction method, speech dialogue device, and recording medium
KR20100119250A (ko) 모션 정보를 이용하는 음성 검출 장치 및 방법
US11651780B2 (en) Direction based end-pointing for speech recognition
US9335966B2 (en) Methods and apparatus for unsupervised wakeup
KR20150112337A (ko) 디스플레이 장치 및 그 사용자 인터랙션 방법
JP2007264473A (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP5430382B2 (ja) 入力装置及び方法
US10861447B2 (en) Device for recognizing speeches and method for speech recognition
US20180158462A1 (en) Speaker identification
JP2008033198A (ja) 音声対話システム、音声対話方法、音声入力装置、プログラム
KR20210066774A (ko) 멀티모달 기반 사용자 구별 방법 및 장치
JP3838159B2 (ja) 音声認識対話装置およびプログラム
EP3195314B1 (en) Methods and apparatus for unsupervised wakeup
KR101933822B1 (ko) 얼굴인식 기반 지능형 스피커, 이를 이용한 능동적인 대화 제공 방법 및 이를 수행하기 위한 기록매체
KR20140072727A (ko) 음성 인식 장치 및 방법
JP6748565B2 (ja) 音声対話システム及び音声対話方法
KR102661005B1 (ko) 다채널 다화자 환경에서 화자별 음원분리장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application