KR102446392B1 - 음성 인식이 가능한 전자 장치 및 방법 - Google Patents

음성 인식이 가능한 전자 장치 및 방법 Download PDF

Info

Publication number
KR102446392B1
KR102446392B1 KR1020150134746A KR20150134746A KR102446392B1 KR 102446392 B1 KR102446392 B1 KR 102446392B1 KR 1020150134746 A KR1020150134746 A KR 1020150134746A KR 20150134746 A KR20150134746 A KR 20150134746A KR 102446392 B1 KR102446392 B1 KR 102446392B1
Authority
KR
South Korea
Prior art keywords
frame
audio signal
signal
voice
feature value
Prior art date
Application number
KR1020150134746A
Other languages
English (en)
Other versions
KR20170035625A (ko
Inventor
유종욱
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150134746A priority Critical patent/KR102446392B1/ko
Priority to US15/216,829 priority patent/US10056096B2/en
Publication of KR20170035625A publication Critical patent/KR20170035625A/ko
Application granted granted Critical
Publication of KR102446392B1 publication Critical patent/KR102446392B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

음성 인식이 가능한 전자 장치 및 방법이 개시된다. 본 발명에 따른 전자 장치의 음성 인식 방법은 제1 프레임의 오디오 신호가 입력되면, 제1 프레임의 오디오 신호를 분석하여 제1 특징값을 추출하는 단계, 제1 프레임의 오디오 신호로부터 추출된 제1 특징값과 이전 프레임의 오디오 신호로부터 추출된 제1 특징값 간의 유사도를 판단하는 단계, 유사도가 기설정된 임계값 미만이면, 제1 프레임의 오디오 신호를 분석하여 제2 특징값을 추출하는 단계 및 추출된 제1 및 제2 특징값과 기정의된 음성 신호에 대응되는 적어도 하나의 특징값을 비교하여 제1 프레임의 오디오 신호가 음성 신호인지 여부를 판단하는 단계를 포함한다. 이에 따라, 전자 장치는 음성 구간 검출 관련 처리 속도를 향상시키면서 오디오 신호로부터 음성 구간만을 올바르게 검출할 수 있다.

Description

음성 인식이 가능한 전자 장치 및 방법{Electronic device and method for recognizing voice of speech}
본 발명은 음성 인식이 가능한 전자 장치 및 방법에 관한 것으로써, 보다 상세하게는 오디오 신호에서 음성 구간 검출이 가능한 전자 장치 및 방법에 관한 것이다.
음성 신호를 이용하여 각종 전자 장치를 제어하는 음성 인식 기술이 널리 이용되고 있다.  일반적으로, 음성 인식 기술은 하드웨어 또는 소프트웨어 장치나 시스템에서 음성 신호가 입력되면, 입력된 음성 신호로부터 사용자의 발화 음성에 대한 의도를 파악하고, 그에 따른 동작을 수행하는 기술을 말한다.
그러나, 이 같은 음성 인식 기술은 사용자의 발화 음성에 대한 음성 신호 뿐만 아니라, 주변 환경에서 발생하는 각종 소리까지 인식하게 되어 사용자가 의도하는 동작을 올바르게 수행하지 못하는 문제가 발생한다.
따라서, 입력된 오디오 신호로부터 사용자의 발화 음성에 대한 음성 구간만을 검출하기 위한 다양한 음성 구간 검출 알고리즘이 개발되고 있다.
일반적은 음성 구간 검출 방법으로써, 프레임 단위의 오디오 신호별 에너지를 이용하여 음성 구간을 검출하는 방법, 프레임 단위의 오디오 신호별 영 교차율을 이용하여 음성 구간을 검출하는 방법 및 프레임 단위의 오디오 신호로부터 특징 벡터를 추출하고, SVM(Support Vector Machine)을 이용하여 기추출된 특징 벡터로부터 음성 신호 유무를 판단하여 음성 구간을 검출하는 방법 등이 있다.
프레임 단위의 오디오 신호의 에너지 혹은 영 교차율을 이용하여 음성 구간을 검출하는 방법은 각 프레임별 오디오 신호에 대한 에너지 혹은 영 교차율을 이용한다.  따라서, 이 같은 종래의 음성 구간 검출 방법은 프레임별 오디오 신호가 음성 신호인지 여부를 판단하기 위한 연산량이 타 음성 구간 검출 방법에 비해 상대적으로 적으나, 음성 신호 뿐만 아니라 노이즈 신호에 대해서도 음성 구간으로 검출하는 오류가 종종 발생하는 문제가 있다.
한편, 프레임 단위의 오디오 신호로부터 추출된 특징 벡터와 SVM을 이용하여 음성 구간을 검출하는 방법은 전술한 에너지 혹은 영 교차율을 이용하여 음성 구간을 검출하는 방법에 비해 프레임별 오디오 신호로부터 음성 신호만을 검출하는 정확도가 우수하지만, 각 프레임별 오디오 신호로부터 음성 신호 유무를 판단하기 위한 연산량이 많기 때문에 타 음성 구간 검출 방법에 비해 CPU의 자원이 많이 소모되는 문제가 있다.
본 발명은 상술한 필요성에 따라 안출된 것으로, 본 발명의 목적은, 전자 장치에서 입력된 오디오 신호로부터 음성 신호를 포함하는 음성 구간을 올바르게 검출하도록 함을 목적으로 한다.
나아가, 본 발명은 전자 장치에서 입력된 오디오 신호로부터 음성 구간을 검출하기 위한 연산량을 최소화하여 음성 구간 검출 관련 처리 속도를 향상시키도록 함을 목적으로 한다.
이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 전자 장치의 음성 인식 방법은 제1 프레임의 오디오 신호가 입력되면, 상기 제1 프레임의 오디오 신호를 분석하여 제1 특징값을 추출하는 단계, 상기 제1 프레임의 오디오 신호로부터 추출된 제1 특징값과 이전 프레임의 오디오 신호로부터 추출된 제1 특징값 간의 유사도를 판단하는 단계, 상기 유사도가 기설정된 임계값 미만이면, 상기 제1 프레임의 오디오 신호를 분석하여 제2 특징값을 추출하는 단계 및 상기 추출된 제1 및 제2 특징값과 기정의된 음성 신호에 대응되는 적어도 하나의 특징값을 비교하여 상기 제1 프레임의 오디오 신호가 음성 신호인지 여부를 판단하는 단계를 포함한다.
그리고, 상기 이전 프레임의 오디오 신호는 음성 신호이며, 상기 음성 신호인지 여부를 판단하는 단계는, 상기 제1 프레임의 제1 특징값과 상기 이전 프레임의 제1 특징값 간의 유사도가 기설정된 제1 임계값 이상이면, 상기 제1 프레임의 오디오 신호를 음성 신호인 것으로 판단할 수 있다.
또한, 상기 음성 신호인지 여부를 판단하는 단계는, 상기 제1 임계값 미만이면, 상기 제1 및 제2 특징값 중 적어도 하나와 기정의된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도와 기설정된 제2 임계값을 비교하는 단계 및 상기 유사도가 기설정된 제2 임계값 미만이면, 상기 제1 프레임의 오디오 신호를 노이즈 신호인 것으로 판단하는 단계를 포함하며, 상기 제2 임계값은 상기 이전 프레임의 오디오 신호가 음성 신호인지 여부에 따라 조절될 수 있다.
그리고, 상기 이전 프레임의 오디오 신호는 노이즈 신호이며, 상기 음성 신호인지 여부를 판단하는 단계는, 상기 제1 프레임의 제1 특징값과 상기 이전 프레임의 제1 특징값 간의 유사도가 기설정된 제1 임계값 이상이면, 상기 제1 프레임의 오디오 신호를 노이즈 신호인 것으로 판단할 수 있다.
또한, 상기 음성 신호인지 여부를 판단하는 단계는, 상기 제1 임계값 미만이면, 상기 제1 및 제2 특징값 중 적어도 하나와 기정의된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도와 기설정된 제2 임계값을 비교하는 단계 및 상기 유사도가 기설정된 제2 임계값 이상이면, 상기 제1 프레임의 오디오 신호를 음성 신호인 것으로 판단하는 단계를 포함하며, 상기 제2 임계값은 상기 이전 프레임의 오디오 신호가 음성 신호인지 여부에 따라 조절될 수 있다.
그리고, 상기 음성 신호인지 여부를 판단하는 단계는, 상기 제1 프레임의 오디오 신호가 최초 입력된 오디오 신호이면, 상기 제1 프레임의 제1 특징값 및 제2 특징값 중 적어도 하나와 상기 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도를 산출하고, 상기 산출된 유사도와 상기 제1 임계값을 비교하여, 상기 유사도가 상기 제1 임계값 이상이면, 상기 제1 프레임을 음성 신호로 판단할 수 있다.또한, 상기 제1 특징값은. MFCC(Mel-Frequency Cepstral Coefficients), Roll-off 및 밴드 스펙트럼 에너지 중 적어도 하나일 수 있다.
그리고, 상기 제2 특징값은, Low energy ratio, Zero crossing rate, Spectral flux, Octave band energy 중 적어도 하나일 수 있다.
또한, 상기 음성 신호인지 여부를 판단하는 단계는, 상기 제1 프레임의 오디오 신호가 음성 신호인 것으로 판단되면, 상기 추출된 제1 및 제2 특징값과 기정의된 음성 신호에 대응되는 특징값에 기초하여 상기 제1 프레임의 오디오 신호에 대한 화자를 분류할 수 있다.
한편, 본 발명의 또다른 실시 예에 따르면, 음성 인식이 가능한 전자 장치는, 오디오 신호를 입력받는 입력부, 기정의된 음성 신호에 대응되는 적어도 하나의 특징값을 저장하는 메모리 및 제1 프레임의 오디오 신호가 입력되면, 상기 제1 프레임의 오디오 신호를 분석하여 제1 특징값을 추출하고, 상기 제1 프레임의 오디오 신호로부터 추출된 제1 특징값과 이전 프레임의 오디오 신호로부터 추출된 제1 특징값 간의 유사도가 기설정된 임계값 미만이면, 상기 제1 프레임의 오디오 신호를 분석하여 제2 특징값을 추출하며, 상기 추출된 제1 및 제2 특징값과 상기 메모리에 저장된 음성 신호에 대응되는 특징값을 비교하여 상기 제1 프레임의 오디오 신호가 음성 신호인지 여부를 판단하는 프로세서를 포함한다.
그리고, 상기 이전 프레임의 오디오 신호는 음성 신호이며, 상기 프로세서는, 상기 제1 프레임의 제1 특징값과 상기 이전 프레임의 제1 특징값 간의 유사도가 기설정된 제1 임계값 이상이면, 상기 제1 프레임의 오디오 신호를 음성 신호인 것으로 판단할 수 있다.
또한, 상기 프로세서는, 상기 제1 임계값 미만이면, 상기 제1 및 제2 특징값 중 적어도 하나와 기정의된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도와 기설정된 제2 임계값을 비교하여, 상기 유사도가 기설정된 제2 임계값 미만이면, 상기 제1 프레임의 오디오 신호를 노이즈 신호인 것으로 판단하며, 상기 제2 임계값은 상기 이전 프레임의 오디오 신호가 음성 신호인지 여부에 따라 조절될 수 있다.
그리고, 상기 이전 프레임의 오디오 신호는 노이즈 신호이며, 상기 프로세서는, 상기 제1 프레임의 제1 특징값과 상기 이전 프레임의 제1 특징값 간의 유사도가 기설정된 제1 임계값 이상이면, 상기 제1 프레임의 오디오 신호가 노이즈 신호인 것으로 판단할 수 있다.
또한, 상기 프로세서는, 상기 제1 임계값 미만이면, 상기 제1 및 제2 특징값 중 적어도 하나와 기정의된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도와 기설정된 제2 임계값을 비교하여, 상기 유사도가 기설정된 제2 임계값 이상이면, 상기 제1 프레임의 오디오 신호를 음성 신호인 것으로 판단하며, 상기 제2 임계값은 상기 이전 프레임의 오디오 신호가 음성 신호인지 여부에 따라 조절될 수 있다.
그리고, 상기 프로세서는, 상기 제1 프레임의 오디오 신호가 최초 입력된 오디오 신호이면, 상기 제1 프레임의 제1 특징값 및 제2 특징값 중 적어도 하나와 상기 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도를 산출하고, 상기 산출된 유사도와 상기 제1 임계값을 비교하여, 상기 유사도가 상기 제1 임계값 이상이면, 상기 제1 프레임을 음성 신호로 판단할 수 있다.또한, 상기 제1 특징값은. MFCC(Mel-Frequency Cepstral Coefficients), Roll-off 및 밴드 스펙트럼 에너지 중 적어도 하나일 수 있다.
그리고, 상기 제2 특징값은, Low energy ratio, Zero crossing rate, Spectral flux, Octave band energy 중 적어도 하나일 수 있다.
또한, 상기 프로세서는, 상기 제1 프레임의 오디오 신호가 음성 신호인 것으로 판단되면, 상기 추출된 제1 및 제2 특징값과 기정의된 음성 신호에 대응되는 특징값에 기초하여 상기 제1 프레임의 오디오 신호에 대한 화자를 분류할 수 있다.
한편, 본 발명의 또다른 실시 예에 따르면, 전자 장치와 결합되어 하기의 단계를 실행시키기 위하여 기록 매체에 저장된 컴퓨터 프로그램은 제1 프레임의 오디오 신호가 입력되면, 상기 제1 프레임의 오디오 신호를 분석하여 제1 특징값을 추출하는 단계, 상기 제1 프레임의 오디오 신호로부터 추출된 제1 특징값과 이전 프레임의 오디오 신호로부터 추출된 제1 특징값 간의 유사도를 판단하는 단계, 상기 유사도가 기설정된 임계값 이하이면, 상기 제1 프레임의 오디오 신호를 분석하여 제2 특징값을 추출하는 단계 및 상기 추출된 제1 및 제2 특징값과 기정의된 음성 신호에 대응되는 특징값을 비교하여 상기 제1 프레임의 오디오 신호가 음성 신호인지 여부를 판단하는 단계를 포함한다.
이상과 같이 본 발명의 다양한 실시 예에 따르면, 전자 장치는 음성 구간 검출 관련 처리 속도를 향상시키면서 오디오 신호로부터 음성 구간만을 올바르게 검출할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 인식이 가능한 전자 장치에 대한 개략적인 블록도,
도 2는 본 발명의 일 실시예에 따른 음성 인식이 가능한 전자 장치에 대한 상세 블록도,
도 3은 본 발명의 일 실시예에 따른 메모리의 구성을 나타내는 블록도,
도 4는 본 발명의 일 실시예에 따른 오디오 신호에서 음성 구간을 검출하는 예시도,
도 5는 종래의 전자 장치에서 입력된 오디오 신호로부터 음성 구간을 검출하기 위한 연산량을 나타내는 예시도,
도 6은 본 발명의 일 실시예에 따른 입력된 오디오 신호로부터 음성 구간을 검출하기 위한 연산량을 나타내는 예시도,
도 7은 본 발명의 일 실시예에 따른 전자 장치에서의 음성 인식 방법에 대한 흐름도,
도 8은 본 발명의 일 실시예에 따른 전자 장치에서 입력된 프레임의 오디오 신호가 음성 신호인지 판단하는 제1 흐름도,
도 9는 본 발명의 또다른 실시예에 따른 전자 장치에서 입력된 프레임의 오디오 신호가 음성 신호인지 판단하는 제2 흐름도,
도 10은 본 발명의 일 실시예에 따른 전자 장치에서 최초 입력된 프레임의 오디오 신호가 음성 신호인지 판단하는 흐름도이다.
본 발명에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 발명의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다.  하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다.  또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다.  이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다.  설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다.  즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다.  이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안된다.  일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안된다.  필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.
본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.  본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 발명의 실시 예에서  "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.  또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
또한, 본 발명의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다.  또한 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 본 발명의 다양한 실시 예를 첨부된 도면을 참조하여 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 음성 인식이 가능한 전자 장치에 대한 개략적인 블록도이며, 도 2는 본 발명의 일 실시예에 따른 음성 인식이 가능한 전자 장치에 대한 상세 블록도이다.
도 1에 도시된 바와 같이, 전자 장치(100)는 입력부(110), 메모리(120) 및 프로세서(130)를 포함한다.
입력부(110)는 프레임 단위의 오디오 신호를 입력받으며, 메모리(120)는 기정의된 음성 신호에 대응되는 적어도 하나의 특징값을 저장한다.
그리고, 프로세서(130)는 입력부(110)를 통해 제1 프레임의 오디오 신호가 입력되면, 입력된 제1 프레임의 오디오 신호를 분석하여 제1 특징값을 추출한다.  이후, 프로세서(130)는 제1 프레임의 오디오 신호로부터 추출된 제1 특징값과 이전 프레임의 오디오 신호로부터 추출된 제1 특징값 간의 유사도를 분석한다.  즉, 프로세서(130)는 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 이전 프레임으로부터 추출된 제1 특징값 간의 유사도가 기설정된 임계값 미만(이하 제1 임계값이라 함)이면, 제1 프레임의 오디오 신호를 분석하여 제2 특징값을 추출한다.
이후, 프로세서(130)는 추출된 제1 및 제2 특징값과 메모리(120)에 기저장된 음성 신호에 대응되는 적어도 하나의 특징값을 비교하여 제1 프레임의 오디오 신호가 음성 신호인지 아니면 노이즈 신호인지를 판단한다.  이 같은 일련의 과정을 통해 프로세서(130)는 입력부(110)를 통해 입력된 오디오 신호 중 사용자에 의해 발화된 음성 구간만을 검출할 수 있다.
구체적으로, 입력부(110)는 도 2에 도시된 바와 같이, 마이크(111)를 포함할 수 있으며, 마이크(111)를 통해 사용자의 발화 음성에 대한 음성 신호를 포함하는 오디오 신호를 입력받을 수 있다.  실시예에 따라, 마이크(111)는 전자 장치(100)에 전원이 공급되거나, 혹은 사용자의 발화 음성 인식을 위한 사용자 명령이 입력되면, 활성화되어 오디오 신호를 입력받을 수 있다.  오디오 신호가 입력되면, 마이크(111)는 입력된 오디오 신호를 기설정된 시간 단위의 프레임으로 나누어 프로세서(130)로 출력할 수 있다.
복수의 프레임별 오디오 신호 중 제1 프레임의 오디오 신호가 입력되면, 프로세서(130)는 제1 프레임의 오디오 신호를 분석하여 제1 특징값을 추출한다.  여기서, 제1 특징값은 MFCC(Mel-Frequency Cepstral Coefficients), Centroid, Roll-off 및 밴드 스펙트럼 에너지 중 적어도 하나가 될 수 있다.
여기서, MFCC는 프레임 단위의 오디오 신호의 파워 스펙트럼을 표현하는 방법 중 하나로써, 비선형적인 Mel 스케일의 주파수 도메인에서 로그 파워 스펙트럼에 코사인 변환(Cosine Transform)을 취하여 획득되는 특징 벡터이다.
Centroid는 프레임 단위의 오디오 신호에 대한 주파수 영역에서 주파수 성분들의 중심값을 나타내는 값이며, Roll-off는 프레임 단위의 오디오 신호의 주파수 영역 중 85%의 주파수 성분을 포함하는 주파수 영역을 나타내는 값이다.  그리고,  밴드 스펙트럼 에너지(Band Spectrum Energy)는 프레임 단위의 오디오 신호에 대한 주파수 대역에 에너지가 얼마나 퍼져 있는지를 나타내는 값이다.  이 같은 제1 특징값은 공지된 기술이기에 본 발명에서는 상세한 설명을 생략하도록 한다.
이 같이, 제1 프레임의 오디오 신호를 분석하여 제1 특징값이 추출되면, 프로세서(130)는 제1 프레임의 오디오 신호로부터 추출된 제1 특징값과 이전 프레임의 오디오 신호로부터 추출된 제1 특징값 간의 유사도를 산출한다.
제1 프레임의 오디오 신호로부터 추출된 제1 특징값과 이전 프레임의 오디오 신호로부터 추출된 제1 특징값 간의 유사도는 아래 <수학식 1>과 같은 코사인 유사도 알고리즘을 이용하여 산출할 수 있다.
Figure 112015092861309-pat00001
여기서, A는 이전 프레임의 오디오 신호로부터 추출된 제1 특징값이며, B는 현재 프레임인 제1 프레임의 오디오 신호로부터 추출된 제1 특징값이 될 수 있다.
이 같은 코사인 유사도 알고리즘을 이용하여 제1 프레임 및 이전 프레임 간의 유사도가 산출되면, 프로세서(130)는 산출된 유사도가 기설정된 제1 임계값 미만이면, 제1 프레임의 오디오 신호를 분석하여 제2 특징값을 추출한다.
실시예에 따라, 유사도의 최대값은 1이고 최소값은 0이 될 수 있으며, 제1 임계값은 0.5가 될 수 있다.  따라서, 제1 프레임 및 이전 프레임 간의 유사도가 제1 임계값인 0.5 미만이면, 프로세서(130)는 제1 프레임 및 이전 프레임이 유사하지 않은 것으로 판단하고, 제1 프레임의 오디오 신호를 이벤트가 발생한 신호인 것으로 판단할 수 있다.  한편, 제1 프레임 및 이전 프레임 간의 유사도가 제1 임계값인 0.5 이상이면, 프로세서(130)는 제1 프레임 및 이전 프레임이 유사한 것으로 판단하여 제1 프레임의 오디오 신호가 이벤트가 발생하지 않은 신호인 것으로 판단할 수 있다.
일 실시예에 따라, 이전 프레임의 오디오 신호는 노이즈 신호로 검출된 신호가 될 수 있다.
이 경우, 제1 프레임 및 이전 프레임 간의 유사도가 기설정된 제1 임계값 이상이면, 프로세서(130)는 제1 프레임의 오디오 신호를 노이즈 신호로 판단할 수 있다.  한편, 제1 프레임 및 이전 프레임 간의 유사도 기설정된 제1 임계값 미만이면, 프로세서(130)는 제1 프레임의 오디오 신호가 이벤트가 발생한 신호인 것으로 판단한다.  제1 프레임의 오디오 신호가 이벤트가 발생한 신호인 것으로 판단되면, 프로세서(130)는 제1 프레임의 오디오 신호를 분석하여 제2 특징값을 추출한다.  여기서, 제2 특징값은 Low energy ratio, Zero crossing rate, Spectral flux, Octave band energy 중 적어도 하나가 될 수 있다.
Low energy ratio는 프레임 단위의 오디오 신호에 대한 주파수 대역에의 낮은 에너지의 비율을 나타내는 것이며, Zero crossing rate은 시간 도메인 상에 프레임 단위의 오디오 신호의 값이 양수와 음수로 교차되는 정도를 나타낸 것이다.  그리고, Spectral flux는 현재 프레임 및 현재 프레임과 인접한 이전 프레임 혹은 이후 프레임의 주파수 성분 간 차이를 나타내는 것이며, Octave band energy는 프레임 단위의 오디오 신호에 대한 주파수 대역에서 높은 주파수 성분의 에너지를 나태는 것이다.  이 같은 제2 특징값은 공지된 기술이기에 본 발명에서는 상세한 설명을 생략하도록 한다.
제1 프레임의 오디오 신호로부터 제2 특징값이 추출되면, 프로세서(130)는 제1 프레임의 오디오 신호로부터 기추출된 제1 특징값 및 제2 특징값 중 적어도 하나와 메모리(120)에 기저장된 음성 신호에 대응되는 적어도 하나의 특징값을 비교하여 제1 프레임의 오디오 신호가 음성 신호인지 여부를 판단한다. 
구체적으로, 메모리(120)는 음성 신호를 포함하는 다양한 종류의 신호들 각각에 대응하여 기설정된 특징값이 저장될 수 있다.  따라서, 프로세서(130)는 메모리(120)에 기저장된 음성 신호에 대응되는 적어도 하나의 특징값과, 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 제2 특징값 중 적어도 하나를 비교하여 제1 프레임의 오디오 신호가 음성 신호인지 아니면 노이즈 신호인지 여부를 판단할 수 있다.
즉, 프로세서(130)는 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 제2 특징값 중 적어도 하나와 기저장된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도를 산출한다. 제1 프레임의 오디오 신호로부터 기추출된 제1 특징값 및 제2 특징값 중 적어도 하나와 기저장된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도는 전술한 <수학식 1>로부터 산출될 수 있다. 이 같은 유사도가 산출되면, 프로세서(130)는 산출된 유사도와 기설정된 제2 임계값을 비교하여 제1 프레임의 오디오 신호가 음성 신호인지 여부를 판단할 수 있다.  여기서, 제2 임계값은 이전 프레임의 오디오 신호가 음성 신호인지 여부에 따라 조절될 수 있다.
전술한 바와 같이, 이전 프레임의 오디오 신호가 노이즈 신호인 경우, 제2 임계값은 제1 임계값과 동일하거나 낮은 값을 갖도록 조절될 수 있다.
이 같이, 제2 임계값이 조절된 상태에서, 프로세서(130)는 제1 프레임의 오디오 신호의 제1 특징값 및 제2 특징값 중 적어도 하나와 기저장된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도와 제2 임계값을 비교한다. 비교 결과, 유사도가 제2 임계값 이상이면, 제1 프레임의 오디오 신호를 음성 신호로 판단할 수 있다.
한편, 제1 프레임의 오디오 신호의 제1 특징값 및 제2 특징값 중 적어도 하나와 기저장된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도가 제2 임계값 미만이면, 프로세서(130)는 제1 프레임의 오디오 신호를 노이즈 신호로 판단할 수 있다.
제1 프레임의 오디오 신호에 대한 음성 신호 혹은 노이즈 신호로 판단되면, 프로세서(130)는 전술한 일련의 수행 과정을 통해 제1 프레임 이후에 연속해서 입력된 제2 프레임의 오디오 신호가 음성 신호인지 혹은 노이즈 신호인지 여부를 판단할 수 있다.
또다른 실시예에 따라, 이전 프레임의 오디오 신호는 음성 신호로 검출된 신호가 될 수 있다.
이 경우, 제1 프레임 및 이전 프레임 간의 유사도가 기설정된 제1 임계값 이상이면, 프로세서(130)는 제1 프레임의 오디오 신호를 이벤트가 발생하지 않은 신호인 것으로 판단한다.  전술한 바와 같이, 이전 프레임의 오디오 신호가 음성 신호로 검출된 상태에서, 제1 프레임의 오디오 신호가 이벤트 신호가 아닌 것으로 검출되면, 프로세서(130)는 제1 프레임의 오디오 신호를 음성 신호로 판단할 수 있다.
즉, 프로세서(130)는 이전 프레임의 오디오 신호가 음성 신호로 검출된 상태에서, 제1 프레임의 오디오 신호가 이벤트 신호가 아닌 것으로 검출되면, 전술한 실시예와 같이, 제1 프레임의 오디오 신호로부터 제2 특징값을 추출하고, 추출된 제1 및 제2 특징값에 기초하여 제1 프레임의 오디오 신호가 음성 신호인지 여부를 판단하는 일련의 수행 동작을 생략할 수 있다.
한편, 제1 프레임 및 이전 프레임 간의 유사도가 기설정된 제1 임계값 미만이면, 프로세서(130)는 제1 프레임의 오디오 신호를 이벤트가 발생한 신호인 것으로 판단할 수 있다.  전술한 바와 같이, 이전 프레임의 오디오 신호가 음성 신호로 검출된 상태에서, 제1 프레임의 오디오 신호가 이벤트 신호인 것으로 검출되면, 프로세서(130)는 제1 프레임의 오디오 신호를 분석하여 제2 특징값을 추출한다. 
이후, 프로세서(130)는 제1 프레임의 오디오 신호로부터 기추출된 제1 특징값 및 제2 특징값 중 적어도 하나와 기저장된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도를 산출한다. 이후, 프로세서(130)는 산출된 유사도와 기설정된 제2 임계값을 비교하여 기산출된 유사도가 제2 임계값 미만이면, 제1 프레임의 오디오 신호를 노이즈 신호로 판단하고, 산출된 유사도가 제2 임계값 이상이면, 제1 프레임의 오디오 신호를 음성 신호로 판단할 수 있다.
여기서, 제2 임계값은 이전 프레임의 오디오 신호가 음성 신호인지 여부에 따라 조절될 수 있다. 전술한 바와 같이, 이전 프레임의 오디오 신호가 음성 신호인 경우, 제2 임계값은 제1 임계값 보다 큰 값을 갖도록 조절될 수 있다.
이 같이, 제2 임계값이 조절된 상태에서, 프로세서(130)는 제1 프레임의 오디오 신호의 제1 특징값 및 제2 특징값 중 적어도 하나와 기저장된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도와 제2 임계값을 비교한다. 비교 결과, 유사도가 제2 임계값 미만이면, 제1 프레임의 오디오 신호를 노이즈 신호로 판단할 수 있다.
한편, 제1 프레임의 오디오 신호의 제1 특징값 및 제2 특징값 중 적어도 하나와 기저장된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도가 제2 임계값 이상이면, 프로세서(130)는 제1 프레임의 오디오 신호를 음성 신호로 판단할 수 있다.
한편, 제1 프레임의 오디오 신호는 최초 입력된 오디오 신호가 될 수 있다.
이 경우, 프로세서(130)는 최초 입력된 제1 프레임의 오디오 신호로부터 제1 특징값을 추출한다.  이후, 프로세서(130)는 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 기정의된 기준값 간의 유사도를 판단한다.  여기서, 기정의된 기준값은 음성 신호와 관련하여 설정된 특징값이 될 수 있다.
그리고, 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 기정의된 기준값 간의 유사도 판단은 전술한 제1 프레임 및 이전 프레임 간의 유사도 판단과 동일한 방식으로 수행될 수 있다.
즉, 프로세서(130)는 전술한 <수학식 1>에 기초하여 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 기정의된 기준값 간의 유사도를 산출하고, 산출된 유사도와 제1 임계값을 비교한다. 비교 결과, 유사도가 제1 임계값 이상이면, 프로세서(130)는 제1 프레임의 오디오 신호를 음성 신호로 판단한다.
한편, 유사도가 제1 임계값 이상이면, 프로세서(130)는 제1 프레임의 오디오 신호를 이벤트가 발생한 신호로 판단할 수 있다.  제1 프레임의 오디오 신호가 이벤트 신호인 것으로 판단되면, 프로세서(130)는 전술한 바와 같이, 제1 프레임의 오디오 신호를 분석하여 제2 특징값을 추출한다. 
이후, 프로세서(130)는 제1 프레임의 오디오 신호로부터 기추출된 제1 특징값 및 제2 특징값 중 적어도 하나와 메모리(120)에 기저장된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도를 산출한다. 이후, 프로세서(130)는 기산출된 유사도와 기설정된 제2 임계값을 비교하여 기산출된 유사도가 제2 임계값 미만이면, 제1 프레임의 오디오 신호를 노이즈 신호로 판단하고, 기산출된 유사도가 제2 임계값 이상이면, 제1 프레임의 오디오 신호를 음성 신호로 판단할 수 있다.
전술한 바와 같이, 제1 프레임의 오디오 신호가 최초 입력된 오디오 신호인 경우, 제2 임계값은 제1 임계값과 동일한 값을 갖도록 조정될 수 있다.
이 같이, 본 발명에 따른 전자 장치(100)는 프레임 단위로 입력된 오디오 신호 각각에 대한 특징값을 산출하지 않고도, 전술한 일련의 동작을 통해 입력된 오디오 신호에서 사용자의 발화 음성에 대한 음성 구간만을 추출할 수 있다.
한편, 본 발명의 추가적인 양상에 따라, 프로세서(130)는 제1 프레임의 오디오 신호가 음성 신호인 것으로 판단되면, 제1 프레임의 오디오 신호로부터 추출된 제1 및 제2 특징값과 기정의된 음성 신호에 대응되는 특징값에 기초하여 제1 프레임의 오디오 신호에 대한 화자를 분류할 수 있다. 
구체적으로, 메모리(120)에 저장된 음성 신호에 대응되는 특징값은 남성의 음성 신호와 관련하여 특징값과 여성의 음성 신호와 관련하여 기정의된 특징값으로 분류될 수 있다.  따라서, 프로세서(130)는 제1 프레임의 오디오 신호가 음성 신호인 것으로 판단되면, 제1 프레임의 오디오 신호로부터 추출된 제1 및 제2 특징값과 성별에 따라 정의된 특징값을 비교하여 제1 프레임의 오디오 신호가 남성의 음성 신호인지 아니면 여성의 음성 신호인지 여부를 추가로 판단할 수 있다.
한편, 전술한 입력부(110)는 도 2에 도시된 바와 같이, 마이크(111), 조작부(113), 터치 입력부(115) 및 사용자 입력부(117)를 포함할 수 있다.
마이크(111)는 사용자의 발화 음성 혹은 기타 생활 환경에서 발생하는 오디오 신호를 입력받으며, 입력된 오디오 신호를 기설정된 시간 단위의 프레임으로 나누어 프로세서(130)로 출력한다.
조작부(113)는 각종 기능키, 숫자키, 특수키, 문자키 등을 구비한 키패드(Key Pad)로 구현될 수 있으며, 터치 입력부(115)는 후술할 디스플레이부(191)가 터치 스크린 형태로 구현될 경우, 디스플레이부(130)와 상호 레어어 구조를 이루는 터치 패드로 구현될 수 있다.  이 경우, 터치 입력부(125)는 후술할 디스플레이부(190)를 통해 디스플레이된 아이콘에 대한 터치 명령을 입력받을 수 있다. 
사용자 입력부(117)는 적어도 하나의 주변 기기(미도시)로부터 IR 신호 혹은 RF 신호를 입력받을 수 있다.  따라서, 전술한 프로세서(130)는 사용자 입력부(117)를 통해 입력된 IR 신호 혹은 RF 신호에 기초하여 전자 장치(100)의 동작을 제어할 수 있다.  여기서, IR 혹은 RF 신호는 전자 장치(100)의 동작을 제어하기 위한 제어 신호 혹은 음성 신호가 될 수 있다.
한편, 전자 장치(100)는 입력부(110), 메모리(120) 및 프로세서(130) 구성 외에 도 2에 도시된 바와 같이, 통신부(140), 음성 처리부(150), 촬영부(160), 감지부(170), 신호 처리부(180) 및 출력부(190)를 더 포함할 수 있다.
통신부(140)는 적어도 하나의 주변 기기(미도시)와 데이터 통신을 수행한다.  일 실시예에 따라, 통신부(140)는 사용자의 발화 음성에 대한 음성 신호를 음성 인식 서버(미도시)로 전송하며, 음성 인식 서버(미도시)로부터 인식된 텍스트 형태의 음성 인식 결과를 수신할 수 있다.  또다른 실시예에 따라, 통신부(140)는 웹 서버(미도시)와 데이터 통신을 수행하여 사용자 명령에 대응되는 컨텐츠 혹은 컨텐츠 관련 검색 결과를 수신할 수 있다.
이 같은 통신부(140)는 도 2에 도시된 바와 같이, 근거리 통신 모듈(141), 무선 랜 모듈 등의 무선 통신 모듈(143)과, HDMI(High-Definition Multimedia Interface), USB(Universal Serial Bus), IEEE(Institute of Electrical and Eletronics Engineers) 1394 등의 유선 통신 모듈 중 적어도 하나를 포함하는 커넥터(145)를 포함할 수 있다. 
근거리 통신 모듈(141)은 휴대용 단말 장치(100)와 전자 장치(200) 사이에 무선으로 근거리 통신을 수행하는 구성이다.  이 같은 근거리 통신 모듈(111)은 블루투스(bluetooth)모듈, 적외선 통신(IrDA, infrared data association)모듈, NFC(Near Field Communication)모듈, 와이파이(WIFI)모듈, 지그비(Zigbee) 모듈 중 적어도 하나를 포함할 수 있다.
또한, 무선 통신 모듈(143)이란 IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다.  이 밖에 무선 통신 모듈은 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신 망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.
이처럼 통신부(140)는 상술한 다양한 근거리 통신 방식에 의해 구현될 수 있고, 필요에 따라 본 명세서에 언급되지 않은 다른 통신 기술을 채용할 수 있다.
한편, 커넥터(145)는 USB 2.0, USB 3.0, HDMI, IEEE 1394 등 다양한 소스 장치와의 인터페이스를 제공하는 구성이다.  이 같은 커넥터(145)는 후술할 제어부(130)의 제어 명령에 따라 커넥터(145)에 연결된 유선 케이블을 통해 외부 서버(미도시)로부터 전송된 컨텐츠 데이터를 수신하거나, 기저장된 컨텐츠 데이터를 외부 기록 매체로 전송할 수 있다.  또한, 커넥터(145)는 커넥터(145)와 물리적으로 연결된 유선 케이블을 통해 전원 소스로부터 전원을 입력받을 수 있다.
음성 처리부(150)는 입력부(110)를 통해 입력된 오디오 신호 중 사용자에 의해 발화된 음성 구간에 대한 음성 인식을 수행하는 구성이다.  구체적으로, 음성 처리부(150)는 입력된 오디오 신호로부터 음성 구간이 검출되면, 검출된 음성 구간에 대해서 노이즈를 감쇄시키고, 음성 구간을 증폭시키는 전처리 과정을 수행 후, 증폭된 음성 구간에 대해서 STT(Speech to Text) 알고리즘과 같은 음성 인식 알고리즘을 이용하여 사용자의 발화 음성에 대한 음성 인식을 수행할 수 있다.
촬영부(160)는 사용자 명령에 따라, 정지 영상 또는 동영상을 촬영하기 위한 것으로써, 전면 카메라, 후면 카메라와 같이 복수 개로 구현될 수 있다.
감지부(170)는 전자 장치(100)의 다양한 동작 상태 및 사용자 인터렉션을 감지한다.  특히, 감지부(170)는 사용자가 전자 장치(100)를 파지하고 있는 파지 상태를 감지할 수 있다.  구체적으로, 전자 장치(100)는 다양한 방향으로 회전되거나 기울어질 수 있다.  이때, 감지부(170)는 지자기 센서, 자이로 센서, 가속도 센서 등과 같은 다양한 센서들 중 적어도 하나를 이용하여 회전 움직임 또는 중력 방향을 기준으로 사용자가 파지하고 있는 전자 장치(100)의 기울기 등을 감지할 수 있다.
신호 처리부(180)는 프로세서(130)의 제어 명령에 따라, 통신부(330)를 통해 수신된 컨텐츠 혹은 메모리(120)에 저장된 컨텐츠의 영상 데이터 및 오디오 데이터를 처리하기 위한 구성 요소가 될 수 있다.  구체적으로, 신호 처리부(180)는 컨텐츠에 포함된 영상 데이터에 대해서, 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환 및 해상도 변환 등과 같은 다양한 영상 처리를 수행할 수 있다.  또한, 신호 처리부(180)는 컨텐츠에 포함된 오디오 데이터에 대해서,디코딩, 증폭, 노이즈 필터링 등과 같은 다양한 오디오 신호 처리를 수행할 수 있다.
출력부(190)는 신호 처리부(180)를 통해 신호 처리된 컨텐츠를 출력한다.  이 같은 출력부(190)는 디스플레이부(191) 및 오디오 출력부(192) 중 적어도 하나를 통해 컨텐츠를 출력할 수 있다.  즉, 디스플레이부(191)는 신호 처리부(180)에 의해 영상 처리된 영상 데이터를 디스플레이하며, 오디오 출력부(192)는 오디오 신호 처리된 오디오 데이터를 가청음 형태로 출력할 수 있다.
한편, 영상 데이터를 디스플레이하는 디스플레이부(191)는 액정 표시 장치(Liquid Crystal Display, LCD), 유기 전기 발광 다이오드(Organic Light Emitting Display, OLED) 또는 플라즈마 표시 패널(Plasma Display Panel, PDP) 등으로 구현될 수 있다.  특히, 디스플레이부(191)는 터치 입력부(115)와 함께 상호 레이어 구조를 이루는 터치 스크린 형태로 구현될 수 있다.
한편, 전술한 프로세서(130)는 CPU(131), ROM(132), RAM(133) 및 GPU(135)를 포함할 수 있으며, CPU(131), ROM(132), RAM(133) 및 GPU(135)는 버스(137)를 통해 서로 연결될 수 있다.
CPU(131)는 메모리(120)에 액세스하여, 메모리(120)에 저장된 OS를 이용하여 부팅을 수행한다.  또한 CPU(131)는 저장부(120)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.
ROM(132)은 시스템 부팅을 위한 명령어 세트 등이 저장된다.  턴온 명령이 입력되어 전원이 공급되면, CPU(131)는 ROM(132)에 저장된 명령어에 따라 메모리(120)에 저장된 OS를 RAM(133)에 복사하고, OS를 실행시켜 시스템을 부팅시킨다.  부팅이 완료되면, CPU(131)는 저장부(120)에 저장된 각종 프로그램을 RAM(133)에 복사하고, RAM(133)에 복사된 프로그램을 실행시켜 각종 동작을 수행한다.
GPU(135)는 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 디스플레이 화면을 생성한다.  구체적으로, GPU(135)는 수신된 제어 명령에 기초하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산하고, 연상된 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 디스플레이 화면을 생성한다.
이 같은 프로세서(130)는 전술한 입력부(110), 통신부(140) 및 감지부(170) 등과 같은 다양한 구성들과 결합되어 단일칩 시스템(System-on-a-chip 또는 System on chip, SOC, SoC)으로 구현될 수 있다.
한편, 상술한 프로세서(130)의 동작은 메모리(120)에 저장된 프로그램에 의해 이루어질 수 있다.  여기서, 메모리(120)는 ROM(132), RAM(133) 또는 전자 장치(100)에 탈착/장착 가능한 메모리 카드(예, SD 카드, 메모리 스틱), 비휘발성 메모리, 휘발성 메모리, 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 중 적어도 하나로 구현될 수 있다.
한편, 상술한 바와 같이, 프레임 단위의 오디오 신호로부터 음성 구간을 검출하는 프로세서(130)는 도 3에 도시된 바와 같이, 메모리(120)에 저장된 프로그램에 의해 이루어질 수 있다.
도 3은 본 발명의 일 실시예에 따른 메모리의 구성을 나타내는 블록도이다.
도 3에 도시된 바와 같이, 메모리(120)는 제1 특징값 검출 모듈(121), 이벤트 검출 모듈(123), 제2 특징값 검출 모듈(125) 및 음성 분석 모듈(127)을 포함할 수 있다.
여기서, 제1 특징값 검출 모듈(121) 및 이벤트 검출 모듈(123)는 프레임 단위의 오디오 신호가 이벤트 신호인지 여부를 판단하기 위한 모듈이 될 수 있다.  그리고, 제2 특징값 검출 모듈(125) 및 음성 분석 모듈(127)은 이벤트 신호로 검출된 프레임 단위의 오디오 신호가 음성 신호인지 여부를 판단하기 위한 모듈이 될 수 있다.
구체적으로, 제1 특징값 검출 모듈(121)는 프레임 단위의 오디오 신호로부터 MFCC(Mel-Frequency Cepstral Coefficients), Roll-off 및 밴드 스펙트럼 에너지 중 적어도 하나의 특징값을 추출하기 위한 모듈이다.  그리고, 이벤트 검출 모듈(123)은 제1 특징값 검출 모듈(121)로부터 추출된 프레임 단위의 오디오 신호에 대한 제1 특징값을 이용하여 각 프레임별 오디오 신호가 이벤트 신호인지 여부를 판단하는 모듈이 될 수 있다.  그리고, 제2 특징값 검출 모듈(125)은 이벤트 신호로 검출된 프레임의 오디오 신호로부터 Low energy ratio, Zero crossing rate, Spectral flux, Octave band energy 중 적어도 하나의 특징값을 추출하기 위한 모듈이다.  그리고, 음성 분석 모듈(127)은 제1 및 제2 특징값 검출 모듈(121, 125)로부터 검출된 제1 및 2 특징값과, 음성 신호를 포함하는 다양한 종류의 신호들 각각에 대응하여 기설정된 특징값을 비교 분석하여 제2 특징값이 추출된 프레임의 오디오 신호가 음성 신호인지 여부를 판단하기 위한 모듈이 될 수 있다.
따라서, 프로세서(130)는 전술한 바와 같이, 제1 프레임의 오디오 신호가 입력되면, 메모리(120)에 저장된 제1 특징값 검출 모듈(121)을 이용하여 제1 프레임의 오디오 신호로부터 제1 특징값을 추출한다.  이후, 프로세서(130)는 이벤트 검출 모듈(123)을 이용하여 제1 프레임의 오디오 신호로부터 추출된 제1 특징값과 이전 프레임의 오디오 신호로부터 추출된 제1 특징값의 유사도를 판단하고, 그 유사도에 따른 판단 결과에 기초하여 제1 프레임의 오디오 신호가 이벤트가 발생한 신호인지 여부를 판단할 수 있다.
제1 프레임의 오디오 신호가 이벤트 신호인 것으로 판단되면, 프로세서(130)는 제2 특징값 검출 모듈(125)을 이용하여 제1 프레임의 오디오 신호로부터 제2 특징값을 추출한다.  이후, 프로세서(130)는 제1 프레임의 오디오 신호로부터 추출된 제1 및 제2 특징값과 기정의된 음성 신호에 대응되는 특징값을 비교하여 제1 프레임의 오디오 신호가 음성 신호인지 여부를 판단할 수 있다.
도 4는 본 발명의 일 실시예에 따른 오디오 신호에서 음성 구간을 검출하는 예시도이다.
도 4에 도시된 바와 같이, 프로세서(130)는 현재 입력된 B 프레임(411)의 오디오 신호로부터 추출된 제1 및 제2 특징값과, 이전에 입력된 A 프레임(413)의 오디오 신호에 기초하여 B 프레임(411)의 오디오 신호가 음성 신호인 것으로 판단할 수 있다.
한편, B 프레임(411)의 오디오 신호가 입력된 후, C 프레임(415)의 오디오 신호가 연속해서 입력될 수 있다.  이 경우, 프로세서(130)는 C 프레임(415)의 오디오 신호로부터 제1 특징값을 추출한다.
이후, 프로세서(130)는 C 프레임(415)의 오디오 신호로 추출된 제1 특징값과 B 프레임(411)의 오디오 신호로부터 추출된 제1 특징값 간의 유사도를 판단한다.  판단 결과, C 프레임(415)의 오디오 신호로부터 추출된 제1 특징값 및 B 프레임(411)의 오디오 신호로부터 추출된 제1 특징값 간의 유사도가 높은 것으로 판단되면, 프로세서(130)는 C 프레임(415)의 오디오 신호를 음성 신호로 판단할 수 있다.
즉, 전술한 바와 같이, C 프레임(415)의 오디오 신호가 입력되기 전에 입력된 B 프레임(411)의 오디오 신호가 음성 신호로 판단될 수 있다.  따라서, 프로세서(130)는 음성 신호로 기판단된 B 프레임(411)의 오디오 신호로부터 추출된 제1 특징값과 현재 입력된 C 프레임(415)의 오디오 신호로부터 추출된 제1 특징값이 유사한 것으로 판단되면, C 프레임(415)의 오디오 신호를 B 프레임(411)의 오디오 신호와 동일한 음성 신호로 판단할 수 있다.
이하에서는, 종래의 전자 장치와 본 발명에 따른 전자 장치(100)에서 입력된 오디오 신호로부터 음성 구간을 검출하기 위한 연산량을 비교하여 설명하도록 한다.
도 5는 종래의 전자 장치에서 입력된 오디오 신호로부터 음성 구간을 검출하기 위한 연산량을 나타내는 예시도이다.
도 5에 도시된 바와 같이, 음성 신호를 포함하는 오디오 신호(510)가 입력되면, 전자 장치(100)는 입력된 오디오 신호(510)를 시간 단위의 프레임으로 나눈다.  따라서, 입력된 오디오 신호(510)는 A 내지 P 프레임의 오디오 신호로 나눠질 수 있다.  이후, 전자 장치(100)는 A 내지 P 프레임의 오디오 신호로부터 복수의 특징값을 추출하고, 추출된 복수의 특징값에 기초하여 A 내지 P 프레임의 오디오 신호가 음성 신호인지 여부를 판단한다.
즉, 전자 장치(100)는 각각의 프레임의 오디오 신호로부터 전술한 제1 및 제2 특징값을 모두 추출하고, 추출된 제1 및 특징값에 기초하여 A 내지 D 프레임의 오디오 신호를 포함하는 제1 구간(510-1)과 I 내지 L 프레임의 오디오 신호를 포함하는 제3 구간(510-3)을 노이즈 구간인 것으로 판단할 수 있다.  또한, 전자 장치(100)는 각각의 프레임의 오디오 신호로부터 특징값을 추출하고, 추출된 특징값에 기초하여 E 내지 H 프레임의 오디오 신호를 포함하는 제2 구간(510-2)과 M 내지 P 프레임의 오디오 신호를 포함하는 제4 구간(510-4)을 음성 구간인 것으로 판단할 수 있다.
도 6은 본 발명의 일 실시예에 따른 입력된 오디오 신호로부터 음성 구간을 검출하기 위한 연산량을 나타내는 예시도이다.
도 6에 도시된 바와 같이, 음성 신호를 포함하는 오디오 신호(610)가 입력되면, 전자 장치(100)는 입력된 오디오 신호(610)를 시간 단위의 프레임으로 나눈다.  따라서, 입력된 오디오 신호(610)는 A 내지 P 프레임의 오디오 신호로 나눠질 수 있다.  이후, 전자 장치(100)는 시작 프레임인 A 프레임의 오디오 신호로부터 제1 및 제2 특징값을 산출하고, 산출된 제1 및 제2 특징값에 기초하여 A 프레임의 오디오 신호가 음성 신호인지 여부를 판단한다. 
A 프레임의 오디오 신호가 노이즈 신호인 것으로 판단되면, 전자 장치(100)는 A 프레임의 오디오 신호 이후에 입력되는 복수의 프레임별 오디오 신호로부터 제1 특징값을 추출하고, 프레임별 오디오 신호로부터 추출된 제1 특징값 간의 유사도를 판단한다.
판단 결과, B 내지 D 프레임의 오디오 신호의 제1 특징값은 A 프레임의 오디오 신호로부터 추출된 제1 특징값과 유사도가 높을 수 있다.  이 경우, 전자 장치(100)는 A 프레임의 오디오 신호와 유사한 특징값을 갖는 B 내지 D 프레임의 오디오 신호로부터 음성 신호인지 여부를 판단하기 위한 제2 특징값을 산출하지 않고, B 내지 D 프레임의 오디오 신호가 노이즈 신호인 것으로 판단할 수 있다.  따라서, 전자 장치(100)는 A 내지 D 프레임의 오디오 신호를 포함하는 제1 구간(610-1)을 노이즈 구간으로 판단할 수 있다.
한편, E 프레임의 오디오 신호로부터 추출된 제1 특징값과 이전 프레임인 D 프레임의 오디오 신호로부터 추출된 제1 특징값이 유사도가 낮을 수 있다.  이 경우, 전자 장치(100)는 E 프레임의 오디오 신호로부터 제2 특징값을 추출하고, 추출된 제1 및 제2 특징값을 이용하여 E 프레임의 오디오 신호가 음성 신호인지 여부를 판단한다. 
E 프레임의 오디오 신호가 노이즈 신호인 것으로 판단되면, 전자 장치(100)는 E 프레임의 오디오 신호 이후에 입력되는 복수의 프레임별 오디오 신호로부터 제1 특징값을 추출하고, 프레임별 오디오 신호로부터 추출된 제1 특징값 간의 유사도를 판단한다.
판단 결과, F 내지 H 프레임의 오디오 신호의 제1 특징값은 E 프레임의 오디오 신호로부터 추출된 제1 특징값과 유사도가 높을 수 있다.  이 경우, 전자 장치(100)는 E 프레임의 오디오 신호와 유사한 특징값을 갖는 F 내지 H 프레임의 오디오 신호로부터 음성 신호인지 여부를 판단하기 위한 제2 특징값을 산출하지 않고, F 내지 H 프레임의 오디오 신호가 음성 신호인 것으로 판단할 수 있다.  따라서, 전자 장치(100)는 E 내지 H 프레임의 오디오 신호를 포함하는 제2 구간(610-2)을 음성 구간으로 판단할 수 있다.
이 같은 일련의 동작을 수행하여 전자 장치(100)는 A 내지 D 프레임의 오디오 신호를 포함하는 제1 구간(610-1)과 I 내지 L 프레임의 오디오 신호를 포함하는 제3 구간(610-3)을 노이즈 구간인 것으로 판단하고, E 내지 H 프레임의 오디오 신호를 포함하는 제2 구간(610-2)과 M 내지 P 프레임의 오디오 신호를 포함하는 제4 구간(610-4)을 음성 구간인 것으로 판단할 수 있다.
이 같이, 본 발명에 따른 전자 장치(100)는 각 프레임별 오디오 신호로부터 복수의 특징값을 산출하지 않고, 시작 프레임 및 이벤트가 발생한 프레임의 오디오 신호에 대해서만 복수의 특징값을 산출함으로써, 종래의 음성 검출 방법에 비해 프레임별 오디오 신호로부터 특징값을 산출하기 위한 연산량을 최소화할 수 있다.
지금까지, 본 발명에 따른 음성 인식이 가능한 전자 장치(100)의 각 구성에 대해서 상세히 설명하였다.  이하에서는, 본 발명에 따른 전자 장치(100)에서 음성 인식을 수행하는 방법에 대해서 상세히 설명하도록 한다.
도 7은 본 발명의 일 실시예에 따른 전자 장치에서의 음성 인식 방법에 대한 흐름도이다.
도 7에 도시된 바와 같이, 전자 장치(100)는 프레임 단위의 오디오 신호 중 제1 프레임의 오디오 신호가 입력되면, 제1 프레임의 오디오 신호를 분석하여 제1 특징값을 추출한다(S710,S720).  여기서, 제1 특징값은 MFCC(Mel-Frequency Cepstral Coefficients), Centroid, Roll-off 및 밴드 스펙트럼 에너지 중 적어도 하나가 될 수 있다.
이 같이, 제1 프레임의 오디오 신호를 분석하여 제1 특징값이 추출되면, 전자 장치(100)는 제1 프레임의 오디오 신호로부터 추출된 제1 특징값과 이전 프레임의 오디오 신호로부터 추출된 제1 특징값 간의 유사도를 판단한다(S730).  실시예에 따라, 전자 장치(100)는 전술한 <수학식 1>과 같은 코사인 유사도 알고리즘을 이용하여 제1 프레임 및 이전 프레임 간의 유사도를 산출할 수 있다.  제1 프레임 및 이전 프레임 간의 유사도가 산출되면, 전자 장치(100)는 산출된 유사도와 기설정된 임계값에 기초하여 제1 프레임의 오디오 신호가 음성 신호인지 아니면 노이즈 신호인지 여부를 판단한다 (S740).
이하에서는, 본 발명에 따른 전자 장치에서 입력된 프레임의 오디오 신호가 음성 신호인지 아니면 노이즈 신호인지 여부를 판단하는 동작에 대해서 상세히 설명하도록 한다.
도 8은 본 발명의 일 실시예에 따른 전자 장치에서 입력된 프레임의 오디오 신호가 음성 신호인지 판단하는 제1 흐름도이다.
제1 프레임의 오디오 신호가 입력되기 전에 입력된 이전 프레임의 오디오 신호는 음성 신호로 검출된 신호가 될 수 있다.
이 경우, 도 8에 도시된 바와 같이, 전자 장치(100)는 제1 프레임의 오디오 신호로부터 추출된 제1 특징값과 이전 프레임의 오디오 신호로부터 추출된 제1 특징값 간의 유사도를 판단한다(S810). 구체적으로, 전자 장치(100)는 전술한 <수학식 1>과 같은 코사인 유사도 알고리즘을 이용하여 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 이전 프레임의 제1 특징값 간의 유사도를 산출할 수 있다. 전술한 바와 같이, 제1 프레임의 오디오 신호로부터 추출된 제1 특징값은 MFCC(Mel-Frequency Cepstral Coefficients), Centroid, Roll-off 및 밴드 스펙트럼 에너지 중 적어도 하나가 될 수 있다.
이 같은 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 이전 프레임의 오디오 신호로부터 추출된 제1 특징값 간의 유사도가 산출되면, 전자 장치(100)는 산출된 유사도와 기설정된 제1 임계값을 비교한다(S820). 비교 결과, 산출된 유사도가 기설정된 제1 임계값 이상이면, 전자 장치(100)는 제1 프레임의 오디오 신호를 음성 신호로 판단한다(S830).
한편, 제1 프레임 및 이전 프레임 간의 유사도가 기설정된 제1 임계값 미만이면, 전자 장치(100)는 제1 프레임의 오디오 신호를 이벤트가 발생한 신호인 것으로 판단하고, 제1 프레임의 오디오 신호를 분석하여 제2 특징값을 추출한다(S840). 여기서, 제2 특징값은 Low energy ratio, Zero crossing rate, Spectral flux, Octave band energy 중 적어도 하나가 될 수 있다.
이후, 전자 장치(100)는 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 제2 특징값 중 적어도 하나와 기저장된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도를 판단한다(S850). 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 제2 특징값 중 적어도 하나와 기저장된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도는 전술한 <수학식 1>로부터 산출될 수 있다.
이 같은 유사도가 산출되면, 전자 장치(100)는 산출된 유사도와 기설정된 제2 임계값을 비교하여 유사도가 기설정된 제2 임계값 미만이면, 제1 프레임의 오디오 신호를 노이즈 신호로 판단한다(S860,S870). 한편, 유사도가 기설정된 제2 임계값 이상이면, 전자 장치(100)는 제1 프레임의 오디오 신호를 음성 신호로 판단한다.
여기서, 제2 임계값은 이전 프레임의 오디오 신호가 음성 신호인지 여부에 따라 조절될 수 있다. 전술한 바와 같이, 이전 프레임의 오디오 신호가 음성 신호인 경우, 제2 임계값은 제1 임계값 보다 큰 값을 갖도록 조절될 수 있다.
도 9는 본 발명의 또다른 실시예에 따른 전자 장치에서 입력된 프레임의 오디오 신호가 음성 신호인지 판단하는 제2 흐름도이다.
제1 프레임의 오디오 신호가 입력되기 전에 입력된 이전 프레임의 오디오 신호는 노이즈 신호로 검출된 신호가 될 수 있다.
이 경우, 도 9에 도시된 바와 같이, 전자 장치(100)는 제1 프레임의 오디오 신호로부터 추출된 제1 특징값과 이전 프레임의 오디오 신호로부터 추출된 제1 특징값 간의 유사도를 판단한다(S910). 구체적으로, 전자 장치(100)는 전술한 <수학식 1>과 같은 코사인 유사도 알고리즘을 이용하여 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 이전 프레임의 제1 특징값 간의 유사도를 산출할 수 있다. 전술한 바와 같이, 제1 프레임의 오디오 신호로부터 추출된 제1 특징값은 MFCC(Mel-Frequency Cepstral Coefficients), Centroid, Roll-off 및 밴드 스펙트럼 에너지 중 적어도 하나가 될 수 있다.
이 같은 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 이전 프레임의 오디오 신호로부터 추출된 제1 특징값 간의 유사도가 산출되면, 전자 장치(100)는 산출된 유사도와 기설정된 제1 임계값을 비교한다(S920). 비교 결과, 산출된 유사도가 기설정된 제1 임계값 이상이면, 전자 장치(100)는 제1 프레임의 오디오 신호를 노이즈 신호로 판단한다(S930).
한편, 제1 프레임 및 이전 프레임 간의 유사도가 기설정된 제1 임계값 미만이면, 전자 장치(100)는 제1 프레임의 오디오 신호를 이벤트가 발생한 신호인 것으로 판단하고, 제1 프레임의 오디오 신호를 분석하여 제2 특징값을 추출한다(S940). 여기서, 제2 특징값은 Low energy ratio, Zero crossing rate, Spectral flux, Octave band energy 중 적어도 하나가 될 수 있다.
이후, 전자 장치(100)는 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 제2 특징값 중 적어도 하나와 기저장된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도를 판단한다(S950). 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 제2 특징값 중 적어도 하나와 기저장된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도는 전술한 <수학식 1>로부터 산출될 수 있다.
이 같은 유사도가 산출되면, 전자 장치(100)는 산출된 유사도와 기설정된 제2 임계값을 비교하여 유사도가 기설정된 제2 임계값 미만이면, 제1 프레임의 오디오 신호를 노이즈 신호로 판단한다(S960). 한편, 유사도가 기설정된 제2 임계값 이상이면, 전자 장치(100)는 제1 프레임의 오디오 신호를 음성 신호로 판단한다(S970).
여기서, 제2 임계값은 이전 프레임의 오디오 신호가 음성 신호인지 여부에 따라 조절될 수 있다. 전술한 바와 같이, 이전 프레임의 오디오 신호가 노이즈 신호인 경우, 제2 임계값은 제1 임계값과 동일하거나 낮은 값을 갖도록 조절될 수 있다.
도 10은 본 발명의 일 실시예에 따른 전자 장치에서 최초 입력된 프레임의 오디오 신호가 음성 신호인지 판단하는 흐름도이다.
전자 장치(100)에 입력된 제1 프레임의 오디오 신호는 최초 입력된 신호가 될 수 있다.
이 경우, 도 10에 도시된 바와 같이, 전자 장치(100)는 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 제2 특징값 중 적어도 하나와 기정의된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도를 판단한다(S1010).
전술한 바와 같이, 제1 프레임의 오디오 신호로부터 추출된 제1 특징값은 MFCC(Mel-Frequency Cepstral Coefficients), Centroid, Roll-off 및 밴드 스펙트럼 에너지 중 적어도 하나가 될 수 있다. 그리고, 제2 특징값은 Low energy ratio, Zero crossing rate, Spectral flux, Octave band energy 중 적어도 하나가 될 수 있다.
구체적으로, 전자 장치(100)는 전술한 <수학식 1>과 같은 코사인 유사도 알고리즘을 이용하여 제1 프레임의 오디오 신호로부터 추출된 제1 특징값 및 제2 특징값 중 적어도 하나와 기정의된 음성 신호에 대응되는 적어도 하나의 기준값 간의 유사도를 산출할 수 있다.
이후, 전자 장치(100)는 산출된 유사도와 기설정된 제1 임계값을 비교한다(S1020). 비교 결과, 산출된 유사도가 기설정된 제1 임계값 미만이면, 전자 장치(100)는 제1 프레임의 오디오 신호를 노이즈 신호로 판단한다(S1030). 한편, 산출된 유사도가 기설정된 제1 임계값 이상이면, 전자 장치(100)는 제1 프레임의 오디오 신호를 음성 신호로 판단한다(S1040).
상술한 바와 같은 전자 장치(100)에서 음성을 인식하는 방법은, 상술한 바와 같은 음성 인식을 수행하기 위한 적어도 하나의 실행 프로그램으로 구현될 수 있으며, 이러한 실행 프로그램은 비일시적 컴퓨터 판독 가능 매체에 저장될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다.  구체적으로, 상술한 프로그램들은 RAM(Random Access Memory), 플레시메모리, ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electronically Erasable and Programmable ROM), 레지스터, 하드디스크, 리무버블 디스크, 메모리 카드, USB 메모리, CD-ROM 등과 같이, 단말기에서 판독 가능한 다양한 유형의 기록 매체에 저장되어 있을 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
110 : 입력부 111 : 마이크
113 : 조작부 115 : 터치 입력부
117 : 사용자 입력부 120 : 메모리
121 : 제1 특징값 검출 모듈 123 : 이벤트 검출 모듈
125 : 제2 특징값 검출 모듈 127 : 음성 분석 모듈
130 : 프로세서 131 : CPU
132 : ROM 133 : RAM
135 : CPU 137 : 버스
140 : 통신부 141 : 근거리 통신 모듈
143 : 무선 통신 모듈 145 : 커넥터
150 : 음성 처리부 160 : 촬영부
170 : 감지부 180 : 신호 처리부
190 : 출력부 191 : 디스플레이부
192 : 오디오 출력부

Claims (19)

  1. 전자 장치의 음성 인식 방법에 있어서,
    제1 프레임의 오디오 신호가 입력되면, 상기 제1 프레임의 오디오 신호로부터 제1 특징값을 획득하는 단계;
    상기 제1 프레임의 오디오 신호로부터 획득된 상기 제1 특징값과 이전 프레임의 오디오 신호로부터 획득된 제1 특징값 간의 유사도가 기설정값 이상이면, 상기 제1 프레임의 오디오 신호를 상기 이전 프레임의 오디오 신호와 동일한 종류로 식별하는 단계;
    상기 유사도가 기설정값 미만이면, 상기 제1 프레임의 오디오 신호로부터 제2 특징값을 획득하는 단계;
    상기 제1 프레임의 오디오 신호로부터 획득된 제1 및 제2 특징값과 기정의된 음성 신호에 대응되는 적어도 하나의 특징값을 비교하여 상기 제1 프레임의 오디오 신호가 음성 신호인지 여부를 식별하는 단계; 및
    상기 제1 프레임의 오디오 신호가 음성 신호이면, 상기 제1 프레임의 오디오 신호에 대하여 음성 인식에 대응하는 기능을 수행하는 단계;
    를 포함하는 음성 인식 방법.
  2. 제1 항에 있어서,
    상기 이전 프레임의 오디오 신호는 음성 신호이며,
    상기 음성 신호인지 여부를 식별하는 단계는,
    상기 제1 프레임의 제1 특징값과 상기 이전 프레임의 제1 특징값 간의 유사도가 기설정된 제1 임계값 이상이면, 상기 제1 프레임의 오디오 신호를 음성 신호인 것으로 식별하는 것을 특징으로 하는 음성 인식 방법.
  3. 제2 항에 있어서,
    상기 음성 신호인지 여부를 식별하는 단계는,
    상기 제1 임계값 미만이면, 상기 제1 및 제2 특징값 중 적어도 하나와 기정의된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도와 기설정된 제2 임계값을 비교하는 단계; 및
    상기 유사도가 기설정된 제2 임계값 미만이면, 상기 제1 프레임의 오디오 신호를 노이즈 신호인 것으로 식별하는 단계;를 포함하며,
    상기 제2 임계값은 상기 이전 프레임의 오디오 신호가 음성 신호인지 여부에 따라 조절되는 것을 특징으로 하는 음성 인식 방법.
  4. 제1 항에 있어서,
    상기 이전 프레임의 오디오 신호는 노이즈 신호이며,
    상기 음성 신호인지 여부를 식별하는 단계는,
    상기 제1 프레임의 제1 특징값과 상기 이전 프레임의 제1 특징값 간의 유사도가 기설정된 제1 임계값 이상이면, 상기 제1 프레임의 오디오 신호를 노이즈 신호인 것으로 식별하는 것을 특징으로 하는 음성 인식 방법.
  5. 제4 항에 있어서,
    상기 음성 신호인지 여부를 식별하는 단계는,
    상기 제1 임계값 미만이면, 상기 제1 및 제2 특징값 중 적어도 하나와 기정의된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도와 기설정된 제2 임계값을 비교하는 단계; 및
    상기 유사도가 기설정된 제2 임계값 이상이면, 상기 제1 프레임의 오디오 신호를 음성 신호인 것으로 식별하는 단계;를 포함하며,
    상기 제2 임계값은 상기 이전 프레임의 오디오 신호가 음성 신호인지 여부에 따라 조절되는 것을 특징으로 하는 음성 인식 방법.
  6. 제1 항에 있어서,
    상기 음성 신호인지 여부를 식별하는 단계는,
    상기 제1 프레임의 오디오 신호가 최초 입력된 오디오 신호이면, 상기 제1 프레임의 제1 특징값 및 제2 특징값 중 적어도 하나와 상기 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도를 산출하고, 상기 산출된 유사도와 제1 임계값을 비교하여, 상기 유사도가 상기 제1 임계값 이상이면, 상기 제1 프레임을 음성 신호로 식별하는 것을 특징으로 하는 음성 인식 방법.
  7. 제1 항에 있어서,
    상기 제1 특징값은,
    MFCC(Mel-Frequency Cepstral Coefficients), Roll-off 및 밴드 스펙트럼 에너지 중 적어도 하나인 것을 특징으로 하는 음성 인식 방법.
  8. 제1 항에 있어서,
    상기 제2 특징값은,
    Low energy ratio, Zero crossing rate, Spectral flux, Octave band energy 중 적어도 하나인 것을 특징으로 하는 음성 인식 방법.
  9. ◈청구항 9은(는) 설정등록료 납부시 포기되었습니다.◈
    제1 항에 있어서,
    상기 음성 신호인지 여부를 식별하는 단계는,
    상기 제1 프레임의 오디오 신호가 음성 신호인 것으로 식별되면, 상기 획득된 제1 및 제2 특징값과 기정의된 음성 신호에 대응되는 특징값에 기초하여 상기 제1 프레임의 오디오 신호에 대한 화자를 분류하는 것을 특징으로 하는 음성 인식 방법.
  10. 음성 인식이 가능한 전자 장치에 있어서,
    오디오 신호를 입력받는 입력부;
    기정의된 음성 신호에 대응되는 적어도 하나의 특징값을 저장하는 메모리; 및
    제1 프레임의 오디오 신호가 입력되면, 상기 제1 프레임의 오디오 신호로부터 제1 특징값을 획득하고,
    상기 제1 프레임의 오디오 신호로부터 획득된 상기 제1 특징값과 이전 프레임의 오디오 신호로부터 획득된 제1 특징값 간의 유사도가 기설정값 이상이면, 상기 제1 프레임의 오디오 신호를 상기 이전 프레임의 오디오 신호와 동일한 종류로 식별하고,
    상기 유사도가 기 설정값 미만이면, 상기 제1 프레임의 오디오 신호로부터 제2 특징값을 획득하고,
    상기 제1 프레임의 오디오 신호로부터 획득된 제1 및 제2 특징값과 상기 메모리에 저장된 음성 신호에 대응되는 특징값을 비교하여 상기 제1 프레임의 오디오 신호가 음성 신호인지 여부를 식별하고,
    상기 제1 프레임의 오디오 신호가 음성 신호이면, 상기 제1 프레임의 오디오 신호에 대하여 음성 인식에 대응하는 기능을 수행하는 프로세서;
    를 포함하는 전자 장치.
  11. ◈청구항 11은(는) 설정등록료 납부시 포기되었습니다.◈
    제10 항에 있어서,
    상기 이전 프레임의 오디오 신호는 음성 신호이며,
    상기 프로세서는,
    상기 제1 프레임의 제1 특징값과 상기 이전 프레임의 제1 특징값 간의 유사도가 기설정된 제1 임계값 이상이면, 상기 제1 프레임의 오디오 신호를 음성 신호인 것으로 식별하는 것을 특징으로 하는 전자 장치.
  12. ◈청구항 12은(는) 설정등록료 납부시 포기되었습니다.◈
    제11 항에 있어서,
    상기 프로세서는,
    상기 제1 임계값 미만이면, 상기 제1 및 제2 특징값 중 적어도 하나와 기정의된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도와 기설정된 제2 임계값을 비교하여, 상기 유사도가 기설정된 제2 임계값 미만이면, 상기 제1 프레임의 오디오 신호를 노이즈 신호인 것으로 식별하며,
    상기 제2 임계값은 상기 이전 프레임의 오디오 신호가 음성 신호인지 여부에 따라 조절되는 것을 특징으로 하는 전자 장치.
  13. ◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈
    제10 항에 있어서,
    상기 이전 프레임의 오디오 신호는 노이즈 신호이며,
    상기 프로세서는,
    상기 제1 프레임의 제1 특징값과 상기 이전 프레임의 제1 특징값 간의 유사도가 기설정된 제1 임계값 이상이면, 상기 제1 프레임의 오디오 신호를 노이즈 신호인 것으로 식별하는 것을 특징으로 하는 전자 장치.
  14. ◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈
    제13 항에 있어서,
    상기 프로세서는,
    상기 제1 임계값 미만이면, 상기 제1 및 제2 특징값 중 적어도 하나와 기정의된 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도와 기설정된 제2 임계값을 비교하여, 상기 유사도가 기설정된 제2 임계값 이상이면, 상기 제1 프레임의 오디오 신호를 음성 신호인 것으로 식별하며,
    상기 제2 임계값은 상기 이전 프레임의 오디오 신호가 음성 신호인지 여부에 따라 조절되는 것을 특징으로 하는 전자 장치.
  15. ◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈
    제10 항에 있어서,
    상기 프로세서는,
    상기 제1 프레임의 오디오 신호가 최초 입력된 오디오 신호이면, 상기 제1 프레임의 제1 특징값 및 제2 특징값 중 적어도 하나와 상기 음성 신호에 대응되는 적어도 하나의 특징값 간의 유사도를 산출하고, 상기 산출된 유사도와 제1 임계값을 비교하여, 상기 유사도가 상기 제1 임계값 이상이면, 상기 제1 프레임을 음성 신호로 식별하는 것을 특징으로 하는 전자 장치.
  16. ◈청구항 16은(는) 설정등록료 납부시 포기되었습니다.◈
    제10 항에 있어서,
    상기 제1 특징값은,
    MFCC(Mel-Frequency Cepstral Coefficients), Roll-off 및 밴드 스펙트럼 에너지 중 적어도 하나인 것을 특징으로 하는 전자 장치.
  17. ◈청구항 17은(는) 설정등록료 납부시 포기되었습니다.◈
    제10 항에 있어서,
    상기 제2 특징값은,
    Low energy ratio, Zero crossing rate, Spectral flux, Octave band energy 중 적어도 하나인 것을 특징으로 하는 전자 장치.
  18. ◈청구항 18은(는) 설정등록료 납부시 포기되었습니다.◈
    제10 항에 있어서,
    상기 프로세서는,
    상기 제1 프레임의 오디오 신호가 음성 신호인 것으로 식별되면, 상기 획득된 제1 및 제2 특징값과 기정의된 음성 신호에 대응되는 특징값에 기초하여 상기 제1 프레임의 오디오 신호에 대한 화자를 분류하는 것을 특징으로 하는 전자 장치.
  19. 전자 장치와 결합되어 하기의 단계를 실행시키기 위하여 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
    제1 프레임의 오디오 신호가 입력되면, 상기 제1 프레임의 오디오 신호로부터 제1 특징값을 획득하는 단계;
    상기 제1 프레임의 오디오 신호로부터 획득된 상기 제1 특징값과 이전 프레임의 오디오 신호로부터 획득된 제1 특징값 간의 유사도가 기설정값 이상이면, 상기 제1 프레임의 오디오 신호를 상기 이전 프레임의 오디오 신호와 동일한 종류로 식별하는 단계;
    상기 유사도가 기설정값 미만이면, 상기 제1 프레임의 오디오 신호로부터 제2 특징값을 획득하는 단계;
    상기 제1 프레임의 오디오 신호로부터 획득된 제1 및 제2 특징값과 기정의된 음성 신호에 대응되는 특징값을 비교하여 상기 제1 프레임의 오디오 신호가 음성 신호인지 여부를 식별하는 단계; 및
    상기 제1 프레임의 오디오 신호가 음성 신호이면, 상기 제1 프레임의 오디오 신호에 대하여 음성 인식에 대응하는 기능을 수행하는 단계;
    를 포함하는 기록 매체에 저장된 컴퓨터 프로그램.

KR1020150134746A 2015-09-23 2015-09-23 음성 인식이 가능한 전자 장치 및 방법 KR102446392B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150134746A KR102446392B1 (ko) 2015-09-23 2015-09-23 음성 인식이 가능한 전자 장치 및 방법
US15/216,829 US10056096B2 (en) 2015-09-23 2016-07-22 Electronic device and method capable of voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150134746A KR102446392B1 (ko) 2015-09-23 2015-09-23 음성 인식이 가능한 전자 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170035625A KR20170035625A (ko) 2017-03-31
KR102446392B1 true KR102446392B1 (ko) 2022-09-23

Family

ID=58282980

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150134746A KR102446392B1 (ko) 2015-09-23 2015-09-23 음성 인식이 가능한 전자 장치 및 방법

Country Status (2)

Country Link
US (1) US10056096B2 (ko)
KR (1) KR102446392B1 (ko)

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9826306B2 (en) 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
AU2018226844B2 (en) 2017-03-03 2021-11-18 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
AU2017428304B2 (en) * 2017-08-25 2022-12-22 David Tuk Wai LEONG Sound recognition apparatus
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
CN107452399B (zh) * 2017-09-18 2020-09-15 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取方法及装置
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
CN109727607B (zh) * 2017-10-31 2022-08-05 腾讯科技(深圳)有限公司 时延估计方法、装置及电子设备
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN109658951B (zh) * 2019-01-08 2021-03-26 北京雷石天地电子技术有限公司 混合信号检测方法及系统
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11404045B2 (en) 2019-08-30 2022-08-02 Samsung Electronics Co., Ltd. Speech synthesis method and apparatus
KR20210031265A (ko) 2019-09-11 2021-03-19 삼성전자주식회사 전자 장치 및 그 동작방법
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN110931033B (zh) * 2019-11-27 2022-02-18 深圳市悦尔声学有限公司 一种麦克风内置耳机的语音聚焦增强方法
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111508498B (zh) * 2020-04-09 2024-01-30 携程计算机技术(上海)有限公司 对话式语音识别方法、系统、电子设备和存储介质
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
CN112382307A (zh) * 2020-10-29 2021-02-19 国家能源集团宁夏煤业有限责任公司 分级破碎设备异物检测方法、存储介质及电子设备
CN112242149B (zh) * 2020-12-03 2021-03-26 北京声智科技有限公司 音频数据的处理方法、装置、耳机及计算机可读存储介质
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020111798A1 (en) * 2000-12-08 2002-08-15 Pengjun Huang Method and apparatus for robust speech classification
US20120197642A1 (en) * 2009-10-15 2012-08-02 Huawei Technologies Co., Ltd. Signal processing method, device, and system
WO2015059947A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
DE69432570T2 (de) * 1993-03-25 2004-03-04 British Telecommunications P.L.C. Spracherkennung
US20030110029A1 (en) * 2001-12-07 2003-06-12 Masoud Ahmadi Noise detection and cancellation in communications systems
US6963835B2 (en) * 2003-03-31 2005-11-08 Bae Systems Information And Electronic Systems Integration Inc. Cascaded hidden Markov model for meta-state estimation
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
KR101452014B1 (ko) * 2007-05-22 2014-10-21 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘) 향상된 음성 액티비티 검출기
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
JP5446874B2 (ja) * 2007-11-27 2014-03-19 日本電気株式会社 音声検出システム、音声検出方法および音声検出プログラム
US8600740B2 (en) * 2008-01-28 2013-12-03 Qualcomm Incorporated Systems, methods and apparatus for context descriptor transmission
WO2011033597A1 (ja) * 2009-09-19 2011-03-24 株式会社 東芝 信号分類装置
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
JP2013508773A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声エンコーダの方法およびボイス活動検出器
US8924204B2 (en) * 2010-11-12 2014-12-30 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
KR20120072145A (ko) * 2010-12-23 2012-07-03 한국전자통신연구원 음성 인식 방법 및 장치
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
JP5898515B2 (ja) * 2012-02-15 2016-04-06 ルネサスエレクトロニクス株式会社 半導体装置及び音声通信装置
US9838810B2 (en) * 2012-02-27 2017-12-05 Qualcomm Technologies International, Ltd. Low power audio detection
WO2013142723A1 (en) * 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
TWI474317B (zh) * 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
BR112015018905B1 (pt) * 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
GB2519117A (en) * 2013-10-10 2015-04-15 Nokia Corp Speech processing
US9775110B2 (en) * 2014-05-30 2017-09-26 Apple Inc. Power save for volte during silence periods
CN112927724B (zh) * 2014-07-29 2024-03-22 瑞典爱立信有限公司 用于估计背景噪声的方法和背景噪声估计器
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020111798A1 (en) * 2000-12-08 2002-08-15 Pengjun Huang Method and apparatus for robust speech classification
US20120197642A1 (en) * 2009-10-15 2012-08-02 Huawei Technologies Co., Ltd. Signal processing method, device, and system
WO2015059947A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム

Also Published As

Publication number Publication date
KR20170035625A (ko) 2017-03-31
US20170084292A1 (en) 2017-03-23
US10056096B2 (en) 2018-08-21

Similar Documents

Publication Publication Date Title
KR102446392B1 (ko) 음성 인식이 가능한 전자 장치 및 방법
KR102444061B1 (ko) 음성 인식이 가능한 전자 장치 및 방법
KR102505719B1 (ko) 음성 인식이 가능한 디스플레이 장치 및 방법
US11900939B2 (en) Display apparatus and method for registration of user command
US10762904B2 (en) Electronic device and method of operating the same
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
US10616475B2 (en) Photo-taking prompting method and apparatus, an apparatus and non-volatile computer storage medium
US10831440B2 (en) Coordinating input on multiple local devices
WO2016197765A1 (zh) 人脸识别方法及识别系统
JP2016512632A (ja) 音声およびジェスチャー・コマンド領域を割り当てるためのシステムおよび方法
US10990748B2 (en) Electronic device and operation method for providing cover of note in electronic device
WO2020220809A1 (zh) 目标对象的动作识别方法、装置和电子设备
US10257363B2 (en) Coordinating input on multiple local devices
KR20200129297A (ko) 전자 장치, 사용자 단말 및 이들의 제어 방법
KR20160133305A (ko) 제스쳐 인식 방법, 컴퓨팅 장치 및 제어 장치
US11269511B2 (en) Information processing apparatus, information processing system, and non-transitory computer readable medium storing program
US20200192485A1 (en) Gaze-based gesture recognition
KR101447879B1 (ko) 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법
KR20210157052A (ko) 객체 인식 방법 및 객체 인식 장치
CN114510142A (zh) 基于二维图像的手势识别方法及其系统和电子设备
EP4325484A1 (en) Electronic device and control method thereof
JP5744252B2 (ja) 電子機器、電子機器の制御方法、電子機器の制御プログラム
WO2014103355A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP6471589B2 (ja) 説明支援装置、説明支援方法及び説明支援プログラム
WO2023016622A1 (en) Method and apparatus for controlling an internet of things, iot, device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right