KR20180056281A

KR20180056281A - 키워드 인식 장치 및 방법

Info

Publication number: KR20180056281A
Application number: KR1020160154370A
Authority: KR
Inventors: 양태영; 이태한
Original assignee: 주식회사 인텔로이드
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2018-05-28
Also published as: KR101863097B1

Abstract

본 발명은 음성 인식 장치 및 음성 인식 방법에 관한 것으로, 더욱 상세하게는 음성 신호에 포함된 키워드를 보다 정확하게 검출할 수 있는 키워드 인식 장치 및 방법에 관한 것이다. 본 발명의 실시예에 따르면, 신호를 송수신하는 송수신 모듈 및 상기 송수신 모듈을 통해 음성 신호를 수신하고, 상기 음성 신호로부터 기 설정된 키워드를 검출하는 제 1 인식을 수행하고, 상기 음성 신호 중, 상기 키워드를 포함하는 것으로 판별되는 일부 구간인 인식 대상 파트에 대하여 상기 키워드를 검출하는 제 2 인식을 수행하고, 상기 제 1 인식의 결과 데이터 및 상기 제 2 인식의 결과 데이터에 기초하여 최종 인식 데이터를 생성하는 프로세서를 포함하는 것을 특징으로 하는 음성 인식 장치가 제공될 수 있다.

Description

키워드 인식 장치 및 방법{APPARATUS AND METHOD FOR KEYWORD RECOGNITION}

본 발명은 음성 인식 장치 및 음성 인식 방법에 관한 것으로, 더욱 상세하게는 음성 신호에 포함된 키워드(keyword)를 보다 정확하게 검출할 수 있는 키워드 인식 장치 및 방법에 관한 것이다.

음성 인식 기술은 사용자와 단말기(또는 기계) 간의 상호작용이 보다 원활하게 이루어지도록 할 수 있는 핵심기술 중 하나이다. 음성 인식 기술을 통해 단말기는 사용자의 음성을 듣고, 사용자의 음성을 이해할 수 있으며, 이해한 내용을 바탕으로 사용자에게 적절한 서비스를 제공할 수도 있다. 이에 따라, 사용자는 별도의 조작 없이도 단말기에 대하여 사용자가 원하는 서비스를 직관적으로 요청할 수 있다.

음성 인식 분야의 여러 기술들 중, 사용자로부터 취득한 음성에 포함된 핵심어 또는 키워드(keyword)를 검출하는 키워드 스팟팅(keyword spotting) 기술이 최근 여러 분야에서 각광받고 있다. 키워드 스팟팅이 제대로 수행되기 위해서는 음성에 포함된 키워드를 인식하고 상기 키워드를 검출하는 비율인 검출률이 높아야 한다. 하지만 이러한 검출률과 함께 키워드 스팟팅에서 중요하게 다루어지는 문제가 키워드 오인식 문제이다. 즉, 음성으로부터 검출된 키워드를 다른 키워드인 것으로 잘못 인식하는 경우, 키워드 스팟팅이 적용된 단말기는 사용자에게 원하지 않는 서비스를 제거하거나 사용자가 의도하지 않았던 처리를 수행할 수도 있다. 따라서, 기존의 키워드 스팟팅 기술에서의 낮은 검출률 또는 높은 오인식률 문제를 해결할 수 있는 방안이 요구되고 있다.

본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 키워드 검출의 정확도를 높일 수 있는 음성 인식 장치 또는 음성 인식 방법을 제공하고자 하는 목적을 가지고 있다.

상기와 같은 과제를 해결하기 위한 본 발명의 실시예에 따르면, 음성 신호를 수신하는 송수신 모듈; 및 상기 음성 신호로부터 기 설정된 키워드를 검출하는 제 1 인식을 수행하고, 상기 음성 신호 중, 상기 키워드를 포함하는 것으로 판별되는 일부 구간인 인식 대상 파트에 대하여 상기 키워드를 검출하는 제 2 인식을 수행하고, 상기 제 1 인식의 결과 데이터 및 상기 제 2 인식의 결과 데이터에 기초하여 최종 인식 데이터를 생성하는 프로세서를 포함하는 것을 특징으로 하는 음성 인식 장치를 제공할 수 있다.

바람직하게는, 상기 프로세서는, 상기 제 1 인식의 결과 데이터와 상기 제 2 인식의 결과 데이터가 서로 다른 경우, 상기 제 2 인식의 결과 데이터를 상기 최종 인식 데이터로 선택한다.

바람직하게는, 상기 제 1 인식 및 상기 제 2 인식은 상기 프로세서가 상기 음성 신호로부터 음향학적 특징(acoustic feature)을 추출하고, 상기 음향학적 특징과 상기 키워드의 음향 모델(acoustic model) 사이의 유사도에 기초하여 상기 키워드의 존재 여부를 판별하는 처리 과정이다.

바람직하게는, 상기 프로세서는 데이터 연산에 이용되는 자원(resource)을 할당하는 작업 스케줄링(job scheduling) 을 통해 상기 제 1 인식 및 상기 제 2 인식에 필요한 자원을 할당하며, 상기 프로세서는, 상기 음성 신호가 취득된 환경의 특성에 기초하여 상기 제 1 인식 및 상기 제 2 인식에 할당될 자원의 양을 결정하는 상기 작업 스케줄링을 수행한다.

바람직하게는, 상기 음성 신호가 취득된 환경의 특성은 상기 음성 신호에 포함된 배경 잡음의 잡음 레벨(noise level), 상기 음성 신호의 신호 대 잡음 비, 상기 음성 신호가 취득된 환경의 잔향 시간(reverberation time) 중 적어도 하나를 포함한다.

바람직하게는, 상기 프로세서는 데이터 연산에 이용되는 자원을 할당하는 작업 스케줄링을 통해 상기 제 1 인식 및 상기 제 2 인식에 필요한 자원을 할당하며, 상기 프로세서는, 상기 제 2 인식을 처리할 때 상기 제 1 인식을 처리할 때보다 더 많은 자원이 할당되도록 상기 작업 스케줄링을 수행한다.

바람직하게는, 상기 제 1 인식에 이용되는 상기 음향 모델과 상기 제 2 인식에 이용되는 상기 음향 모델은 적어도 하나의 가우시안 분포(Gaussian distribution)를 포함하는 혼합 모델(mixture model)이며, 상기 제 2 인식의 음향 모델에 포함되는 가우시안 분포의 수가 상기 제 1 인식의 음향 모델에 포함되는 가우시안 분포의 수 보다 크다.

바람직하게는, 상기 프로세서는, 상기 제 1 인식의 결과 데이터와 상기 제 2 인식의 결과 데이터가 기 설정된 횟수 이상 서로 다른 것으로 판별되는 경우 상기 제 1 인식의 음향 모델에 포함되는 가우시안 분포의 수를 증가시킨다.

바람직하게는, 상기 인식 대상 파트는 복수의 프레임(frame)으로 구성되고, 상기 제 2 인식은, 상기 프로세서가 상기 인식 대상 파트 중 적어도 하나의 선두 프레임의 음향학적 특징과 상기 음향 모델 사이의 유사도를 산출하고, 상기 유사도가 기 설정된 기본 한계값 이상인 경우 기 설정된 개수의 후속 프레임의 음향학적 특징을 더 이용하여 상기 유사도를 재산출하고, 상기 재산출된 유사도가 기 설정된 확장 한계값 이상인 경우 상기 음성 신호에 상기 음향 모델과 연관된 키워드가 존재하는 것으로 판별하는 처리 방식이며, 상기 확장 한계값은 상기 기본 한계값보다 큰 것을 특징으로 한다.

바람직하게는, 상기 음성 신호는 복수의 프레임으로 구성되고, 상기 제 1 인식은, 상기 프로세서가 상기 음성 신호의 프레임 중 기 설정된 길이의 탐색 프레임의 음향학적 특징과 상기 음향 모델 사이의 유사도를 산출하고, 상기 유사도가 상기 기본 한계값 이상 상기 확장 한계값 미만인 경우 상기 탐색 프레임에 대한 상기 키워드의 검출을 중단하고 상기 제 2 인식을 시작하는 처리 방식이고, 상기 제 2 인식은, 상기 프로세서가 상기 제 1 인식에 따른 상기 키워드의 검출이 중단된 탐색 프레임에 대해서 상기 키워드를 검출하는 처리 방식이다.

바람직하게는, 상기 음성 신호 및 상기 인식 대상 파트는 복수의 프레임으로 구성되고, 상기 프로세서는 상기 프레임에 대한 상기 키워드 검출을 순차적으로 수행할 때 상기 각 프레임의 값에 따라 변화되는 음성 인식에 관한 파라미터를 이용하되, 상기 프로세서가 상기 제 2 인식에 따라 상기 인식 대상 파트의 첫 프레임에 대한 상기 키워드를 검출할 때 기 설정된 파라미터 초기값을 이용한다.

바람직하게는, 상기 음성 신호는 복수의 프레임으로 구성되고, 상기 프로세서는, 상기 음성 신호의 프레임 중 기 설정된 길이의 탐색 프레임을 기 설정된 신호 대 잡음 비 미만인 신호 대 잡음 비를 가지는 침묵 파트와 상기 침묵 파트가 아닌 음성 파트로 구분하고, 상기 음성 파트의 길이가 기 설정된 프레임 길이 미만인 경우 상기 탐색 프레임으로부터 상기 키워드를 검출하지 않는다.

바람직하게는, 상기 프로세서는, 상기 탐색 프레임의 평균 에너지가 기 설정된 한계 에너지 미만인 경우 상기 탐색 프레임으로부터 상기 키워드를 검출하지 않는다.

바람직하게는, 상기 프로세서는, 상기 음성 신호에 포함된 배경 잡음의 잡음 레벨을 추정하고, 상기 잡음 레벨이 기 설정된 한계 잡음 레벨 이상인 경우 상기 제 2 인식의 결과 데이터를 상기 최종 인식 데이터로 선택한다.

바람직하게는, 상기 음성 신호 및 상기 인식 대상 파트는 복수의 프레임으로 구성되고, 상기 프로세서는, 상기 음성 신호의 프레임 중 상기 잡음 레벨이 상기 한계 잡음 레벨 미만인 프레임인 클리어(clear) 프레임이 연속적으로 기 설정된 개수 이상 존재하는 경우, 상기 연속적인 클리어 프레임을 클리어 파트로 지정하고 상기 클리어 파트에 대한 상기 제 1 인식의 결과 데이터를 상기 클리어 파트의 상기 최종 인식 데이터로 선택한다.

본 발명의 다른 실시예에 따르면, 음성 신호를 수신하는 단계; 상기 음성 신호로부터 기 설정된 키워드를 검출하는 제 1 인식을 수행하는 단계; 상기 음성 신호 중, 상기 키워드를 포함하는 것으로 판별되는 일부 구간인 인식 대상 파트에 대하여 상기 키워드를 검출하는 제 2 인식을 수행하는 단계; 및 상기 제 1 인식의 결과 데이터 및 상기 제 2 인식의 결과 데이터에 기초하여 최종 인식 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법이 제공될 수 있다.

본 발명의 실시예에 따르면, 복수의 키워드 검출 결과를 비교함으로써 보다 정확한 키워드 검출을 수행할 수 있다. 특히, 키워드를 포함하는 인식 대상 파트에 대하여 보다 많은 연산 자원을 이용한 키워드 검출을 수행함으로써 키워드 검출 및 키워드 인식의 정확도를 높일 수 있다.

또한, 본 발명의 실시예에 따르면, 사용자의 음성을 취득한 환경의 특성에 기초한 키워드 인식을 수행할 수 있으며, 이를 통해 키워드 검출의 효율성을 높일 수 있다.

도 1은 본 발명의 실시예에 따른 음성 인식 장치를 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 제 1 인식 및 제 2 인식을 나타낸 도면이다.
도 3은 본 발명의 실시예에 따른 음향 모델을 나타낸 도면이다.
도 4는 본 발명의 실시예에 따른 클리어(clear) 파트를 나타낸 도면이다.
도 5는 본 발명의 실시예에 따른 음성 인식 방법을 나타낸 도면이다.

본 발명은 음성 인식 장치 및 음성 인식 방법에 관한 것으로, 더욱 상세하게는 음성 신호에 포함된 키워드를 보다 정확하게 검출할 수 있는 키워드 인식 장치 및 방법에 관한 것이다. 이하, 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 음성 인식 장치(100)를 나타낸 도면이다. 도 1에 따르면, 본 발명의 실시예에 따른 음성 인식 장치(100)는 송수신 모듈(120) 및 프로세서(110)를 포함할 수 있다. 본 발명을 실시하는 방식에 따라서, 상기 송수신 모듈(120) 및 프로세서(110)는 하나의 구성요소로 구현되거나 상기 송수신 모듈(120)이 생략될 수도 있다. 본 발명의 바람직한 실시예에 따르면 음성 인식 장치(100)는 하나의 반도체 칩(chip)으로 구현될 수도 있다.

송수신 모듈(120)은 외부 장치 또는 외부 모듈과 유선 신호 또는 무선 신호를 송수신할 수 있다. 본 발명의 바람직한 실시예에 따르면, 상기 외부 장치는 마이크 등의 입력 장치 또는 스피커 등의 출력 장치 또는 기타 추가적인 처리 과정을 수행하는 전자 기기일 수 있다. 그리고 상기 유선 신호 또는 무선 신호는 음성 신호, 최종 인식 데이터 또는 제어 신호일 수 있다. 송수신 모듈(120)은 무선 통신 모듈을 포함할 수 있으며, 상기 무선 통신 모듈을 통해 무선 신호를 송수신할 수 있다. 상기 무선 통신 모듈은 셀룰러 통신 모듈을 포함하거나 Wi-Fi 통신 모듈 또는 블루투스 통신 모듈 또는 지그비(ZigBee) 통신 모듈 등의 근거리 무선 통신 모듈을 포함할 수 있다. 하지만 상기 무선 통신 모듈의 종류는 이에 한정되지 않으며, 기타 다양한 무선 통신 방식을 이용하는 무선 통신 모듈이 송수신 모듈(120)에 포함될 수 있다. 송수신 모듈(120)은 복수의 서로 다른 통신 방식에 따른 무선 통신 모듈을 포함할 수 있다. 그리고, 송수신 모듈(120)은 무선 통신 모듈을 통해 복수의 외부 장치와 페어링(pairing) 되거나 복수의 외부 장치와 무선 신호를 송수신할 수 있다. 또한, 송수신 모듈(120)은 유선 통신 모듈을 포함할 수 있으며, 상기 유선 통신 모듈을 통해 유선 신호를 송수신 있다. 특히, 송수신 모듈(120)이 유선 통신 모듈을 포함하는 경우 전선 또는 회로를 통해 연결된 외부 장치와 유선 신호를 송수신할 수 있다. 송수신 모듈(120)은 무선 통신 모듈 및 유선 통신 모듈을 함께 포함할 수도 있다.

프로세서(110)는 음성 인식 장치(100)의 전반적인 작동을 제어한다. 프로세서(110)는 각종 데이터와 신호의 연산 및 처리를 수행하고 음성 인식 장치(100)의 각 구성 요소를 제어할 수 있다. 프로세서(110)는 반도체 칩 또는 전자 회로 형태의 하드웨어로 구현되거나 상기 하드웨어를 제어하는 소프트웨어로 구현될 수 있으며, 상기 하드웨어와 상기 소프트웨어가 결합된 형태로 구현될 수도 있다.

본 발명의 실시예에 따르면, 프로세서(110)는 상기 송수신 모듈(120)을 통해 음성 신호를 수신할 수 있다. 그리고, 프로세서(110)는 수신한 음성 신호에 대한 제 1 인식 또는 제 2 인식을 수행할 수 있다. 여기서, 제 1 인식은 상기 음성 신호로부터 기 설정된 키워드를 검출하는 음성 인식 과정을 의미할 수 있다. 여기서, 제 2 인식은 상기 음성 신호 중, 키워드를 포함하는 것으로 판별되는 일부 구간인 인식 대상 파트에 대하여 상기 키워드를 검출하는 음성 인식 과정을 의미할 수 있다. 그리고, 프로세서(110)는 상기 제 1 인식의 결과 데이터 및 상기 제 2 인식의 결과 데이터에 기초하여 최종 인식 데이터를 생성할 수 있다. 이하 도 2 내지 도 4를 통해 제 1 인식, 제 2 인식 및 프로세서(110)의 상세한 작동 방식에 대해서 서술하도록 한다.

도 2는 본 발명의 실시예에 따른 제 1 인식 및 제 2 인식을 나타낸 도면이다. 본 발명의 실시예에 따르면, 음성 신호는 적어도 하나의 프레임(frame)으로 구성될 수 있다. 여기서, 프레임은 특정 길이로 구분된 신호의 일부 구간을 의미할 수 있다. 도 2에서 f1 내지 f9는 음성 신호에 포함된 각 프레임을 나타내며, 점선으로 표시된 f4 내지 f7은 키워드가 포함된 것으로 판별되는 인식 대상 파트를 나타낸다.

본 발명의 실시예에 따르면, 제 1 인식 및 제 2 인식은 음성 인식 장치가 상기 음성 신호로부터 음향학적 특징(acoustic feature)을 추출하고, 상기 음향학적 특징과 상기 키워드의 음향 모델(acoustic model) 사이의 유사도에 기초하여 상기 키워드의 존재 여부를 판별하는 처리 과정일 수 있다.

상기 음향학적 특징은 음성 인식에 필요한 기본적인 정보들을 의미한다. 음성 인식 장치는 음성 신호를 기 설정된 길이의 프레임으로 분할하고, 각 프레임의 주파수 대역에 따른 에너지 분포 등의 정보를 상기 음향학적 특징으로써 추출할 수 있다. 바람직한 실시예에 따르면, 상기 주파수 대역에 따른 정보는 벡터 수치화될 수 있다. 또는, 상기 음향학적 특징은 피치(pitch), 포먼트(formant)일 수 있다.

상기 음향학적 특징을 추출하는 방법으로 LPC(Linear Predictive Coding) Cepstrum, PLP(Perceptual Linear Prediction) Cepstrum, Mel Frequency Cepstral Coefficient (MFCC), 필터뱅크 에너지 분석(Filter Bank Energy Analysis) 등이 사용될 수 있다. 그리고, 음성 인식 장치는 상기 음향학적 특징에 대응되는 언어의 기본 단위를 판별할 수 있다. 여기서 상기 언어의 기본 단위는 음성의 음소, 음절, 단어 등이 될 수 있다. 예를 들어, 음성 인식 장치는 영어 음성 ‘tea’에 포함된 음성 신호의 음향학적 특징이 단어 ‘tea’의 음소인 /t/, /i:/의 각 음향 모델에 대응되는지 또는 상기 음향학적 특징이 상기 각 음소의 음향 모델과 얼마나 유사한지 등을 비교할 수 있다. 여기서, 상기 음향 모델은 적어도 하나의 가우시안 분포(Gaussian distribution)를 포함하는 혼합 모델(mixture model)일 수 있다. 음성 인식 장치는 상기 음향학적 특징과 적어도 하나의 상기 음향 모델 간의 유사도를 판별할 수 있으며, 특정 음향학적 특징에 대하여 가장 높은 유사도를 나타내는 음향 모델을 상기 특정 음향학적 특징에 대응되는 음향 모델인 것으로 판별할 수 있다. 음성 인식 장치는 상기 음향학적 특징에 대응되는 음향 모델에 연관된 언어의 기본 단위에 기초하여 상기 음향학적 특징을 포함하는 음성 신호가 기 설정된 키워드를 포함하는지 여부를 판별할 수 있다.

여기서, 기 설정된 키워드는 음성 인식 장치의 인식의 대상인 단어 또는 문장을 의미할 수 있다. 즉, 본 발명의 실시예에 따른 음성 인식 장치는 음성 신호의 음향학적 특징과 적어도 하나의 상기 키워드에 대응되는 음향 모델을 상호 비교하고, 상기 음성 신호에 상기 키워드가 포함되어있는지 여부를 판별할 수 있다. 예를 들어, 음성 인식 장치는 음성 신호와 키워드 ‘phone call’, ‘send message’ 등에 대응하는 음향 모델을 상호 비교할 수 있으며, 상기 음성 신호의 음향학적 특징이 ‘phone call’에 대응하는 음향 모델과 유사한 경우, 상기 음성 신호에 키워드 ‘phone call’이 포함되어있는 것으로 판별할 수 있다.

본 발명의 실시예에 따른 음성 인식 장치는 음성 신호에 대한 전술한 키워드 검출 과정을 수행할 수 있으며, 특히 상기 음성에 대한 최초의 키워드 검출 과정을 제 1 인식이라고 명명할 수 있다. 본 발명의 바람직한 실시예에 따르면, 음성 인식 장치는 복수의 프레임으로 구성된 음성 신호의 각 프레임에 대하여 상기 제 1 인식 과정을 실시간으로 수행할 수 있다. 여기서, 상기 제 1 인식의 인식 대상은 상기 음성 신호의 모든 프레임일 수 있으나 본 발명은 이에 한정되지 않으며, 기 설정된 길이의 탐색 프레임에 대한 상기 제 1 인식이 수행될 수 있다. 음성 인식 장치는 제 1 인식 종료 후, 다음 탐색 프레임에 대한 상기 제 1 인식을 수행할 수 있다. 본 발명을 실시하는 방식에 따라서, 상기 탐색 프레임은 다음과 같이 구현될 수 있다. 예를 들어, 도 2에서 탐색 프레임의 길이가 세 프레임이고, 현재 제 1 인식이 수행 중인 탐색 프레임이 f1 내지 f3일 수 있다. 상기 f1 내지 f3에 대한 제 1 인식이 종료된 경우, 음성 인식 장치는 f4 내지 f6에 대한 제 1 인식을 수행할 수 있다. 또는, 음성 인식 장치는 상기 f1 내지 f3에 대한 제 1 인식이 종료된 경우, f2 내지 f4에 대한 제 1 인식을 수행할 수도 있다. 이러한 중첩된 제 1 인식이 수행되는 경우, 인접한 프레임들에 대한 세밀한 음소 분석 및 음향 모델 매칭이 수행될 수 있으므로, 키워드의 검출률을 높일 수 있다.

음성 신호는 배경 잡음(background noise) 또는 키워드인 음성 데이터 또는 키워드가 아닌 음성 데이터를 포함할 수 있다. 음성 인식 장치는 음성 신호 중 키워드를 포함하는 것으로 판별되는 일보 구간인 인식 대상 파트를 판별할 수 있다. 상기 인식 대상 파트는 음성 인식 장치가 상기 제 1 인식을 수행하는 과정에서 판별될 수 있다. 도 2의 화살표는 음성 인식 장치의 프로세서가 처리 중인 음성 신호의 프레임을 나타내는 것으로, 도 2는 음성 인식 장치가 제 1 인식에 따라 프레임 f7까지 처리한 뒤의 상황을 나타내는 것일 수 있다. 도 2에 따르면, 음성 인식 장치는 프레임 f4 내지 f7에 키워드가 포함되어있는 것으로 판별할 수 있으며, 상기 프레임 f4 내지 f7을 인식 대상 파트로 설정할 수 있다. 본 발명의 바람직한 실시예에 따르면 음성 인식 장치는 인식 대상 파트에 대해서 키워드 검출을 중복적으로 수행할 수 있으며, 이러한 중복된 키워드 검출을 제 2 인식이라고 명명할 수 있다. 이때, 본 발명의 실시예에 따르면 제 2 인식은 음성 신호의 일부 구간에 대한 키워드 검출을 수행하는 처리 과정이다. 그리고 본 발명의 바람직한 실시예에 따르면, 상기 음성 신호의 일부 구간은 전술한 인식 대상 파트일 수 있다. 도 2는 음성 인식 장치가 제 2 인식 처리 과정에 따라 상기 인식 대상 파트인 프레임 f4 내지 f7에 대해서 키워드들 검출하는 상황을 나타낸 것이다. 음성 인식 장치는 전체 음성 신호가 아닌 일부 구간인 인식 대상 파트에 대한 제 2 인식을 수행함으로써 보다 정확한 키워드 검출을 수행할 수 있다. 본 발명의 실시예에 따르면 음성 인식 장치는 제 1 인식과 제 2 인식을 동시에 수행할 수 있다. 예를 들어, 도 2의 상황에서, 음성 인식 장치는 프레임 f7까지 제 1 인식을 수행하고 그 수행 결과로써 인식 대상 파트를 판별할 수 있다. 이후, 음성 인식 장치는 프레임 f8에 대한 제 1 인식을 수행하는 동시에 인식 대상 파트인 프레임 f4 내지 f7에 대한 제 2 인식을 수행할 수 있다.

본 발명의 실시예에 따른 음성 인식 장치는 상기 제 1 인식의 결과 데이터 및 상기 제 2 인식의 결과 데이터에 기초하여 최종 인식 데이터를 생성할 수 있다. 여기서, 상기 결과 데이터는 기 설정된 키워드의 검출 여부 및 검출된 키워드를 포함할 수 있다. 최종 인식 데이터는 제 1 인식의 결과 데이터의 키워드 또는 제 2 인식의 결과 데이터의 키워드를 포함할 수 있다.

음성 인식이 일 회만 이루어지는 경우, 그 한 번의 음성 인식이 키워드를 검출하지 못하거나 잘못된 키워드를 검출한 경우에 발생될 수 있는 여러 가지 문제점에 대응하기가 쉽지 않다. 본 발명의 음성 인식 장치는 키워드를 포함하는 것으로 판별되는 프레임에 대하여 적어도 일 회 더 키워드를 재검출하며, 최초의 검출 결과와 후속 검출 결과를 참조하여 최종 인식 데이터를 생성할 수 있다. 예를 들어, 키워드를 포함하는 것으로 판별되는 인식 대상 파트에 대한 제 2 인식을 수행하였는데, 해당 인식 대상 파트에서 제 1 인식 과정에서 검출하지 못한 키워드가 추가적으로 검출될 수 있다. 즉, 본 발명의 실시예에 따른 음성 인식 장치는 복수 회의 키워드 검출을 통해 키워드 검출 성능을 높일 수 있다.

본 발명의 일 실시예에 따르면, 음성 인식 장치는 상기 제 1 인식의 결과 데이터와 상기 제 2 인식의 결과 데이터가 서로 다른 경우, 상기 제 2 인식의 결과 데이터를 상기 최종 인식 데이터로 선택할 수 있다. 예를 들어, 음성 신호에 대하여 제 1 인식에 의해 검출된 키워드가 ‘map’이고 제 2 인식에 의해 검출된 키워드가 ‘back’인 경우, 음성 인식 장치는 ‘back’을 최종 인식 데이터의 키워드로 선택할 수 있다.

본 발명의 실시예에 따른 음성 인식 장치의 프로세서는 데이터 연산에 이용되는 자원(resource)을 할당하는 작업 스케줄링(job scheduling)을 통해 상기 제 1 인식 및 상기 제 2 인식에 필요한 자원을 할당할 수 있다.

본 발명의 일 실시예에 따르면, 음성 인식 장치의 프로세서는 상기 음성 신호가 취득된 환경의 특성에 기초하여 상기 제 1 인식 및 상기 제 2 인식에 할당될 자원의 양을 결정하는 상기 작업 스케줄링을 수행할 수 있다. 여기서, 상기 음성 신호가 취득된 환경의 특성은 상기 음성 신호에 포함된 배경 잡음의 잡음 레벨(noise level)일 수 있다. 예를 들어, 음성 인식 장치의 프로세서는 음성 신호에 포함된 배경 잡음의 잡음 레벨이 30 dB 이상인 경우, 음성 신호가 취득된 환경이 노이지(noisy)한 환경인 것으로 판별할 수 있으며, 정확한 음성 인식을 위해 제 2 인식을 위한 데이터 연산에 보다 많은 자원을 할당할 수 있다. 또한, 본 발명의 다른 실시예에 따르면 상기 음성 신호가 취득된 환경의 특성은 상기 음성 신호의 신호 대 잡음 비일 수 있다. 예를 들어, 음성 인식 장치의 프로세서는 음성 신호의 신호 대 잡음 비가 0 dB 미만인 경우, 음성 신호가 취득된 환경이 노이지한 환경인 것으로 판별할 수 있으며, 정확한 음성 인식을 위해 제 2 인식을 위한 데이터 연산에 보다 많은 자원을 할당할 수 있다. 상기 두 예시에서, 잡음 레벨이 10 dB 미만이거나 신호 대 잡음 비가 20 dB 이상인 경우, 음성 신식 장치의 프로세서는 제 1 인식을 위한 데이터 연산에 보다 많은 자원을 할당할 수 있으며, 최종 인식 데이터로써 제 1 인식의 결과 데이터를 선택할 수 도 있다(이 경우, 제 2 인식을 수행하지 않을 수도 있다). 또한, 본 발명의 또 다른 실시예에 따르면 상기 음성 신호가 취득된 환경의 특성은 상기 음성 신호가 취득된 환경의 잔향 시간(reverberation time)일 수 있다. 상기 음성 신호가 취득된 환경의 임펄스 응답(impulse response)를 유추할 수 있다면, 상기 임펄스 응답으로부터 음성 신호의 에너지가 60 dB 만큼 감소되는데 걸리는 시간인 잔향 시간을 산출할 수 있다. 잔향 시간이 길수록 소리의 잔향이 심하다는 의미이므로, 음성 인식에 적합하지 않은 환경인 것으로 간주될 수 있다. 이에 따라, 음성 인식 장치의 프로세서는 상기 잔향 시간이 1 초 이상인 경우, 정확한 음성 인식을 위해 제 2 인식을 위한 데이터 연산에 보다 많은 자원을 할당할 수 있다. 반대로, 음성 인식 장치의 프로세서는 상기 잔향 시간이 0.2 초 미만인 경우, 제 1 인식을 위한 데이터 연산에 보다 많은 자원을 할당할 수 있다. 상기 음성 신호가 취득된 환경의 특성의 종류 및 상기 환경의 특성에 따른 자원 할당 방식은 전술한 내용에 한정되지 않는다.

본 발명의 다른 실시예에 따르면, 음성 인식 장치의 프로세서는 상기 제 2 인식을 처리할 때 상기 제 1 인식을 처리할 때보다 더 많은 자원이 할당되도록 상기 작업 스케줄링을 수행할 수 있다.

본 발명의 실시예에 따르면, 제 1 인식 및 제 2 인식은 다양한 키워드 검출 방식을 포함할 수 있다.

본 발명의 일 실시예에 따르면, 제 2 인식은 인식 대상 파트 중 적어도 하나의 선두 프레임의 음향학적 특징과 상기 음향 모델 사이의 유사도를 산출하고, 상기 유사도가 기 설정된 기본 한계값 이상인 경우 기 설정된 개수의 후속 프레임의 음향학적 특징을 더 이용하여 상기 유사도를 재산출하고, 상기 재산출된 유사도가 기 설정된 확장 한계값 이상인 경우 상기 음성 신호에 상기 음향 모델과 연관된 키워드가 존재하는 것으로 판별하는 처리 방식일 수 있다. 이때, 상기 확장 한계값은 상기 기본 한계값보다 클 수 있다. 도 2를 참조하면, 음성 인식 장치는 인식 대상 파트 중 적어도 하나의 선두 프레임 f4 및 f5의 음향학적 특징과 음향 모델 사이의 유사도를 산출할 수 있다. 예를 들어, 세 개의 키워드에 대한 음향 모델 M1, M2, M3이 개별적으로 존재하고, 상기 프레임 f4 및 f5의 음향학적 특징과 상기 각 음향 모델 M1, M2, M3 사이의 유사도가 각각 0.3, 0.4, 0.7인 상황을 가정할 수 있다. 이 경우, 상기 기본 한계값이 0.5인 경우, 음성 인식 장치는 프레임 f4 및 f5의 음향학적 특징과 음향 모델 M3 사이의 유사도가 기본 한계값 이상인 것으로 판단할 수 있다. 이후, 음성 인식 장치는 2 개의 후속 프레임의 음향학적 특징을 더 이용하여 유사도를 재산출할 수 있다. 즉, 도 2의 상황에서 음성 인식 장치는 프레임 f6 및 f7의 음향학적 특징과 기존의 프레임 f4 및 f5의 음향학적 특징을 함께 이용하여 음향 모델 M3(또는 M1, M2, M3)과의 유사도를 산출할 수 있다. 만약, 프레임 f4 내지 f7의 음향학적 특징과 음향 모델 M3 사이의 유사도가 0.8이고 확장 한계값이 0.7인 경우, 음성 인식 장치는 음성 신호 또는 인식 대상 파트에 음향 모델 M3에 연관된 키워드가 포함된 것으로 판별할 수 있다. 즉, 제 2 인식은 추가적인 프레임을 더 이용하여 점진적으로 키워드 검출 정확도를 높이는 방법이라고 할 수 있다.

여기서, 제 1 인식은 상기 음성 신호의 프레임 중 기 설정된 길이의 탐색 프레임의 음향학적 특징과 상기 음향 모델 사이의 유사도를 산출하고, 상기 유사도가 상기 기본 한계값 이상 상기 확장 한계값 미만인 경우 상기 탐색 프레임에 대한 상기 키워드의 검출을 중단하고 상기 제 2 인식을 시작하는 처리 방식일 수 있으며, 이 경우 상기 제 2 인식은, 상기 제 1 인식에 따른 상기 키워드의 검출이 중단된 탐색 프레임에 대해서 상기 키워드를 검출하는 처리 방식일 수 있다. 예를 들어, 제 1 인식 과정에서 탐색 프레임 f4 내지 f7의 음향학적 특징과 전술한 음향 모델 사이의 유사도가 각각 0.3, 0.4, 0.6인 상황을 가정할 수 있다. 기본 한계값이 0.5이고 확장 한계값이 0.7인 경우, 음성 인식 장치는 탐색 프레임 f4 내지 f7의 음향학적 특징과 음향 모델 M3 사이의 유사도가 기본 한계값 이상이고 확장 한계값 미만인 것으로 판단할 수 있다. 이때, 음성 인식 장치는 상기 탐색 프레임 f4 내지 f7에 대한 제 1 인식을 중단하고, 상기 탐색 프레임에 대한 제 2 인식을 시작할 수 있다.

본 발명의 다른 실시예에 따르면, 음성 인식 장치는 음성 신호의 각 프레임에 대한 키워드 검출을 순차적으로 수행할 때 상기 각 프레임의 값에 따라 변화되는 음성 인식에 관한 파라미터를 이용할 수 있다. 상기 음성 인식에 관한 파라미터는 이전의 음성 신호의 프레임으로부터 추출된 음향학적 특징 또는 이전의 음성 신호의 프레임으로부터 유추된 배경 잡음 등을 포함할 수 있다. 예를 들어, 음성 인식 장치는 이전 프레임으로부터 유추된 배경 잡음을 이용하여 현재 프레임의 키워드 검출에 이용할 수도 있다. 음성 인식 장치는 음성 신호로부터 배경 잡음을 유추할 수 있으며, 유추된 배경 잡음을 음성 신호로부터 차감함으로써 키워드의 검출 성능을 높일 수 있다. 이때, 음성 인식 장치는 이전 프레임의 음성 신호로부터 배경 잡음을 유추하고, 현재 프레임의 음성 신호로부터 이전 프레임의 음성 신호로부터 유추된 배경 잡음을 차감할 수 있다. 여기서, 상기 신호의 차감은 시영역(time domain) 또는 주파수 영역(frequency domain)에서 수행될 수 있다. 여기서, 상기 음성 신호로부터 상기 배경 잡음을 제거하는 방식은 상기 차감하는 방식에 한정되지 않으며, 다양한 방식으로 구비될 수 있다. 배경 잡음의 특성이 시간에 따라 일정하게 유지되는 상황에서는 이러한 처리 방식이 효과적이라고 할 수 있다. 여기서, 음성 인식 장치는 상기 제 2 인식에 따라 상기 인식 대상 파트의 첫 프레임에 대한 상기 키워드를 검출할 때 기 설정된 파라미터 초기값을 이용할 수 있다. 이러한 제 2 인식 방식은 다음과 같은 상황에서 매우 효과적이다. 예를 들어, 음성 신호를 취득한 환경의 변화(예를 들어 음성을 취득하는 마이크의 위치가 변화되거나, 음성이 취득되는 공간의 창문 등이 열림으로써 외부의 잡음이 유입되는 등의 상황)되어 도 2에서 프레임 f1 내지 f3까지의 배경 잡음의 특성과 프레임 f4 이후의 배경 잡음의 특성이 서로 다른 상황을 가정할 수 있다. 이 경우, 전술한 바와 같이 프레임 f3으로부터 유추된 배경 잡음을 프레임 f4로부터 차감하더라도 프레임 f4에 포함된 음성 데이터의 음질이 개선되지 않고 오히려 나빠질 수 있으며, 이에 따라 키워드 검출 성능이 저하될 수 있다. 본 발명의 실시예에 따르면, 제 2 인식을 수행할 때 음성 인식 장치는 초기화된 배경 잡음을 이용하여 프레임 f4 이후의 프레임에 대한 키워드 검출을 수행할 수 있다. 그리고 음성 인식 장치는 프레임 f5에 대한 제 2 인식을 수행할 때 프레임 f4에서 유추된 배경 잡음을 이용하여 프레임 f5에 포함된 음성 데이터의 음질을 개선시킬 수 있다. 상기의 내용은 음성 인식 장치의 작동 방식은 음성 인식에 관한 파라미터를 사용하는 하나의 예시에 불과한 것으로 본 발명은 이에 한정되지 않는다.

본 발명의 또 다른 실시예에 따르면, 음성 인식 장치는 음성 신호의 프레임 중 기 설정된 길이의 탐색 프레임을 기 설정된 신호 대 잡음 비 미만인 신호 대 잡음 비를 가지는 침묵 파트와 상기 침묵 파트가 아닌 음성 파트로 구분하고, 상기 음성 파트의 길이가 기 설정된 프레임 길이 미만인 경우 상기 탐색 프레임으로부터 상기 키워드를 검출하지 않을 수 있다. 예를 들어, 도 2의 프레임 f4 내지 f7이 탐색 프레임이고, f4 내지 f5가 음성 파트이고 f6 내지 f7이 침묵 파트인 상황을 가정할 수 있다. 만약 기 설정된 프레임 길이가 3 프레임인 경우, 음성 인식 장치는 탐색 프레임 f4 내지 f7에 대한 키워드 검출을 포기할 수 있다. 이러한 처리 방식은 본 발명의 실시예에 따른 제 1 인식에 적용될 수도 있다.

여기서, 음성 인식 장치는 상기 탐색 프레임의 평균 에너지가 기 설정된 한계 에너지 미만인 경우 상기 탐색 프레임으로부터 상기 키워드를 검출하지 않을 수 있다. 예를 들어, 기 설정된 프레임 길이가 3프레임이고, 기 설정된 한계 에너지가 10(단위 생략)이고, 탐색 프레임이 f4 내지 f7이며, f4 내지 f6이 음성 파트, f7이 침묵 파트, 탐색 프레임의 평균 에너지가 7인 상황을 가정할 수 있다. 음성 인식 장치는 탐색 프레임의 음성 파트가 기 설정된 프레임 길이 이상이지만, 평균 에너지가 한계 에너지 미만이기 때문에 해당 탐색 프레임에 대한 키워드 검출을 수행하지 않을 수 있다.

본 발명의 또 다른 실시예에 따르면, 음성 인식 장치는 음성 신호로부터 화자 및 환경에 대한 메타 데이터(meta data)를 추출할 수 있다. 예를 들어, 음성 인식 장치는 음성 신호가 여성의 음성 데이터를 포함하는 경우, 상기 음성 신호로부터 ‘여성’ 메타 데이터를 추출할 수 있다. 여기서, 음성 데이터의 화자가 여성인지 여부는 음성 신호의 주파수 대역에 따른 에너지 분포로부터 유추될 수 있다. 이 경우, 음성 인식 장치는 제 2 인식을 수행할 때 ‘여성’ 메타 데이터와 연관된 음향 모델을 이용하여 키워드를 검출할 수 있다. 한편, 음성 인식 장치는 음성 신호에 포함된 배경 잡음으로부터 음성이 수집된 환경을 유추할 수 있다. 예를 들어, 음성 인식 장치는 음성 신호의 배경 잡음의 특성에 기초하여 ‘카페’ 메타 데이터를 추출할 수 있다. 이에 따라, 음성 인식 장치는 제 2 인식을 수행할 때 ‘카페’ 메타 데이터와 연관된 음향 모델을 이용하여 키워드를 검출할 수 있다. 본 발명을 실시하는 방식에 따라서, 상기 제 2 인식은 복수 회 수행될 수 있다. 즉, 전술한 ‘여성’ 메타 데이터 및 ‘카페’ 메타 데이터가 추출된 경우, 음성 인식 장치는 1차 제 2 인식 과정에서 ‘여성’ 메타 데이터와 연관된 음향 모델을 이용하여 키워드 검출을 수행하고 2 차 제 2 인식 과정에서 ‘카페’ 메타 데이터와 연관된 음향 모델을 이용하여 키워드 검출을 수행할 수 있다(1 차 및 2 차 제 2 인식은 동시에 수행될 수도 있음). 상기의 예시에서, 1 차 제 2 인식 과정은 0.9의 유사도로 키워드 ‘map’을 검출하고 2 차 제 2 인식 과정은 0.8의 유사도로 키워드 ‘back’을 검출한 경우, 음성 인식 장치는 키워드 ‘map’을 최종 인식 데이터에 포함시킬 수 있다.

본 발명에 따른 음성 인식 장치는 최종 인식 데이터가 생성된 경우, 상기 최종 인식 데이터 또는 상기 최종 인식 데이터와 연관된 제어 신호를 외부 장치 또는 외부 모듈로 전송할 수 있다. 이에 따라, 상기 최종 인식 데이터에 포함된 키워드가 디스플레이 되거나 상기 키워드에 대응하는 서비스가 사용자에게 제공될 수 있다.

전술한 바에 따르면, 본 발명의 실시예에 따른 음성 인식 장치는 데이터 연산에 이용되는 자원을 할당하는 작업 스케줄링에 기초하여 상기 데이터 연산을 실행할 수 있다. 이때, 음성 인식 장치는 상기 음성 신호가 취득된 환경의 특성에 기초하여 상기 제 1 인식 및 상기 제 2 인식에 할당될 자원의 양을 결정할 수 있다. 또는, 음성 인식 장치는 상기 제 2 인식을 처리할 때 상기 제 1 인식을 처리할 때보다 더 많은 자원이 할당되도록 상기 작업 스케줄링을 수행할 수 있다.

여기서, 상기 자원은 음성 인식 장치의 메모리, 버퍼 등의 저장 공간을 의미하거나 프로세서에 의해 상기 데이터 연산이 처리되는 시간 또는 빈도 수를 의미할 수 있다. 음성 인식 과정에서 많은 자원이 할당되면 보다 많은 양의 메모리를 이용할 수 있거나 프로세서에 의해 보다 긴 시간 동안 처리되거나 보다 높은 빈도 수로 처리될 수 있다. 예를 들어, 음성 인식에 보다 많은 자원이 할당되면 음성 신호에 대한 필터링(filtering)을 수행할 때 보다 고차의 필터를 이용할 수 있다. 또 다른 예로써, 음성 인식에 보다 많은 자원이 할당되면 실수 또는 복소수 연산을 통해 보다 세밀한 처리 결과 값을 가질 수 있다. 또 다른 예로써, 음성 인식에 보다 많은 자원이 할당되면, 보다 많은 수의 가우시안 분포를 포함하는 혼합 모델을 이용할 수 있다. 음성 인식 장치는 상기 높은 연산량(computational complexity)를 가지는 음성 인식 처리 과정을 통해 음성 신호의 음향학적 특징의 미세한 차이를 구별할 수 있게 되고, 보다 정밀한 음향 모델의 유사도 판별을 수행할 수 있으며, 결과적으로 음성 인식의 정확도가 상승될 수 있다.

전술한 실시예에 따르면, 음성 인식 장치는 제 2 인식을 처리할 때 상기 제 1 인식을 처리할 때보다 더 많은 자원이 할당되도록 작업 스케줄링을 수행할 수 있다. 이때, 전술한 바에 따르면, 제 2 인식의 음성 인식의 정확도가 제 1 인식의 정확도 보다 높을 수 있다. 이 경우, 제 1 인식에 따른 키워드와 제 2 인식에 따른 키워드가 서로 다른 경우, 제 2 인식에 따른 키워드를 선택하는 것이 키워드 검출의 정확도의 측면에서 올바른 결정이라고 할 수 있다.

한편, 전술한 바에 따르면, 키워드 검출에 이용되는 음향 모델은 적어도 하나의 가우시안 분포를 포함하는 혼합 모델일 수 있다. 이때, 제 2 인식에 제 1 인식보다 많은 자원이 할당되는 경우, 상기 제 2 인식의 음향 모델에 포함되는 가우시안 분포의 수가 상기 제 1 인식의 음향 모델에 포함되는 가우시안 분포의 수 보다 더 클 수 있다. 이하의 설명에서는 제 2 인식을 수행할 때 제 1 인식을 수행할 때보다 많은 자원을 할당한 상황을 가정하나, 본 발명은 이에 한정되지 않는다.

도 3은 본 발명의 실시예에 따른 음향 모델을 나타낸 도면이다. 도 3의 그래프는 혼합 모델을 통해 구현되는 음향 모델을 2 차원 그래프 상에 도시한 것으로, 도 3의 그래프에서 가로 축은 변수, 세로 축은 해당 변수가 검출되는 빈도 수를 의미한다.

도 3(a) 및 도 3(b)는 제 1 인식을 위해 이용되는 혼합 모델(M1)을 나타낸 것이다. 도 3(a)에 따르면, 제 1 인식을 위한 혼합 모델(M1)은 2 개의 서로 다른 평균 및 분산 값을 가지는 가우시안 분포 G1 및 G2에 기초하여 형성된 것일 수 있다. 이에 따라, 음성 인식 장치는 제 1 인식을 수행할 때 상기 가우시안 분포 G1 및 G2가 병합된 형태의 혼합 모델(M1, 도 3(b), 점선))인 음향 모델을 이용하여 키워드 검출을 수행할 수 있다.

도 3(c) 및 도 3(d)는 제 2 인식을 위해 이용되는 혼합 모델(M2)을 나타낸 것이다. 도 3(c)에 따르면, 제 2 인식을 위한 혼합 모델(M2)은 4 개의 서로 다른 평균 및 분산 값을 가지는 가우시안 분포 G1 내지 G4에 기초하여 형성된 것일 수 있다. 이에 따라, 음성 인식 장치는 제 2 인식을 수행할 때 상기 가우시안 분포 G1 내지 G4가 병합된 형태의 혼합 모델(M2, 도 3(d), 점선))인 음향 모델을 이용하여 키워드 검출을 수행할 수 있다.

음향 모델에 포함되는 가우시안 분포의 수가 증가할수록 키워드 검출에 필요한 자원의 양 역시 증가될 수 있다. 하지만, 음성 인식 장치는 제 1 인식을 수행할 때보다 많은 수의 가우시안 분포가 포함된 음향 모델을 이용하여 제 2 인식을 수행함으로써 키워드 검출의 정밀도를 더 높일 수 있다.

여기서, 음성 인식 장치는 상기 제 1 인식의 결과 데이터와 상기 제 2 인식의 결과 데이터가 기 설정된 횟수 이상 서로 다른 것으로 판별되는 경우 상기 제 1 인식의 음향 모델에 포함되는 가우시안 분포의 수를 증가시킬 수 있다. 이를 구현하기 위한 하나의 예시로써, 음성 인식 장치는 상기 제 1 인식의 결과 데이터와 상기 제 2 인식의 결과 데이터가 서로 다른 경우 카운터(counter) 역할을 수행하는 변수의 값을 증가시키고, 상기 변수의 값이 기 설정된 한계 카운터 이상인 경우 상기 제 1 인식의 음향 모델에 포함되는 가우시안 분포의 수를 증가[0]시킬 수 있다. 이를 통해, 음성 인식 장치는 제 1 인식의 키워드 검출 정확도를 상승시킬 수 있다.

도 4는 본 발명의 실시예에 따른 클리어(clear) 파트를 나타낸 도면이다. 도 4의 f1 내지 f9는 음성 신호의 각 프레임을 나타내며, 각 프레임은 음성 신호에 포함된 배경 잡음의 잡음 레벨(noise level) 값(dB 단위로 표기 됨)을 가질 수 있다. 도 4에서 화살표는 음성 인식 장치가 처리 중인 프레임을 나타낸다.

음성 인식 장치는 음성 신호에 포함된 배경 잡음의 잡음 레벨을 추정하고, 상기 잡음 레벨이 기 설정된 한계 잡음 레벨 이상인 경우 제 2 인식의 결과 데이터를 최종 인식 데이터로 선택할 수 있다. 예를 들어, 도 4 에서 기 설정된 한계 잡음 레벨이 10 dB인 상황을 가정할 수 있다. 이 경우, 음성 인식 장치는 프레임 f1 내지 f3의 배경 잡음의 잡음 레벨이 한계 잡음 레벨 이상인 것으로 판단할 수 있으며, 이에 따라 프레임 f1 내지 f3에 대한 키워드 검출을 수행할 때 제 2 인식의 결과 데이터를 최종 인식 데이터로 선택할 수 있다.

여기서, 음성 인식 장치는 상기 음성 신호의 프레임 중 상기 잡음 레벨이 상기 한계 잡음 레벨 미만인 프레임인 클리어(clear) 프레임이 연속적으로 기 설정된 개수 이상 존재하는 경우, 상기 연속적인 클리어 프레임을 클리어 파트로 지정하고 상기 클리어 파트에 대한 상기 제 1 인식의 결과 데이터를 상기 클리어 파트의 상기 최종 인식 데이터로 선택할 수 있다. 예를 들어, 전술한 예와 동일하게 한계 잡음 레벨이 10 dB이고, 기 설정된 개수가 3인 상황을 가정할 수 있다. 이 경우, 음성 인식 장치는 도 4의 상황에서 프레임 f4 내지 f7을 클리어 프레임으로 판별할 수 있으며, f4 내지 f7을 클리어 파트로 지정할 수 있다. 이에 따라, 음성 인식 장치는 클리어 파트인 f4 내지 f7에 대한 키워드 검출시, 제 1 인식의 결과 데이터를 최종 인식 데이터로 선택할 수 있다. 잡음 레벨이 낮은 경우 키워드 검출률이 증가하고 오인식률이 저하되기 때문에 제 1 인식의 결과 데이터의 정확도가 제 2 인식의 결과 데이터의 정확도에 근접할 수 있다. 즉, 본 발명의 실시예에 따른 음성 인식 장치는 배경 잡음

도 5는 본 발명의 실시예에 따른 음성 인식 방법을 나타낸 도면이다. 도 5에 따르면, 음성 인식 장치는 음성 신호를 수신(S101)할 수 있다. 그리고, 음성 인식 장치는 상기 음성 신호로부터 기 설정된 키워드를 검출하는 제 1 인식을 수행(S102)할 수 있다. 그리고, 음성 인식 장치는 상기 음성 신호 중, 상기 키워드를 포함하는 것으로 판별되는 일부 구간인 인식 대상 파트에 대하여 상기 키워드를 검출하는 제 2 인식을 수행(S103)할 수 있다. 그리고, 음성 인식 장치는 상기 제 1 인식의 결과 데이터 및 상기 제 2 인식의 결과 데이터에 기초하여 최종 인식 데이터를 생성(S104)할 수 있다. 상기 제 1 인식, 상기 제 2 인식은 도 1 내지 도 4에서 설명한 방식에 따라 수행될 수 있다. 그리고 음성 인식 장치가 상기 최종 인식 데이터를 생성하는 방식 역시 도 1 내지 도 4에서 설명한 방식에 대응되며, 이에 대한 상세한 설명은 중복되므로 생략하도록 한다.

본 발명의 실시예에 따르면, 본 발명의 실시예에 따르면, 복수의 키워드 검출 결과를 비교함으로써 보다 정확한 키워드 검출을 수행할 수 있다. 특히, 키워드를 포함하는 인식 대상 파트에 대하여 보다 많은 연산 자원을 이용한 키워드 검출을 수행함으로써 키워드 검출 및 키워드 인식의 정확도를 높일 수 있다. 또한, 본 발명의 실시예에 따르면, 사용자의 음성을 취득한 환경의 특성에 기초한 키워드 인식을 수행할 수 있으며, 이를 통해 키워드 검출의 효율성을 높일 수 있다.

이상에서 본 발명을 구체적인 실시예를 통하여 설명하였으나, 당업자라면 본 발명의 취지를 벗어나지 않는 범위 내에서 수정, 변경을 할 수 있을 것이다. 따라서 본 발명이 속하는 기술분야에 속한 사람이 본 발명의 상세한 설명 및 실시예로부터 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석되어야 할 것이다.

Claims

음성 신호를 수신하는 송수신 모듈; 및
상기 음성 신호로부터 기 설정된 키워드를 검출하는 제 1 인식을 수행하고, 상기 음성 신호 중, 상기 키워드를 포함하는 것으로 판별되는 일부 구간인 인식 대상 파트에 대하여 상기 키워드를 검출하는 제 2 인식을 수행하고, 상기 제 1 인식의 결과 데이터 및 상기 제 2 인식의 결과 데이터에 기초하여 최종 인식 데이터를 생성하는 프로세서를 포함하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,
상기 프로세서는,
상기 제 1 인식의 결과 데이터와 상기 제 2 인식의 결과 데이터가 서로 다른 경우, 상기 제 2 인식의 결과 데이터를 상기 최종 인식 데이터로 선택하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,
상기 제 1 인식 및 상기 제 2 인식은 상기 프로세서가 상기 음성 신호로부터 음향학적 특징(acoustic feature)을 추출하고, 상기 음향학적 특징과 상기 키워드의 음향 모델(acoustic model) 사이의 유사도에 기초하여 상기 키워드의 존재 여부를 판별하는 처리 과정인 것을 특징으로 하는 음성 인식 장치.
제3항에 있어서,
상기 프로세서는 데이터 연산에 이용되는 자원(resource)을 할당하는 작업 스케줄링(job scheduling)을 통해 상기 제 1 인식 및 상기 제 2 인식에 필요한 자원을 할당하며,
상기 프로세서는,
상기 음성 신호가 취득된 환경의 특성에 기초하여 상기 제 1 인식 및 상기 제 2 인식에 할당될 자원의 양을 결정하는 상기 작업 스케줄링을 수행하는 것을 특징으로 하는 음성 인식 장치.
제4항에 있어서,
상기 음성 신호가 취득된 환경의 특성은 상기 음성 신호에 포함된 배경 잡음의 잡음 레벨(noise level), 상기 음성 신호의 신호 대 잡음 비, 상기 음성 신호가 취득된 환경의 잔향 시간(reverberation time) 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인식 장치.
제3항에 있어서,
상기 프로세서는 데이터 연산에 이용되는 자원을 할당하는 작업 스케줄링을 통해 상기 제 1 인식 및 상기 제 2 인식에 필요한 자원을 할당하며,
상기 프로세서는,
상기 제 2 인식을 처리할 때 상기 제 1 인식을 처리할 때보다 더 많은 자원이 할당되도록 상기 작업 스케줄링을 수행하는 것을 특징으로 하는 음성 인식 장치.
제6항에 있어서,
상기 제 1 인식에 이용되는 상기 음향 모델과 상기 제 2 인식에 이용되는 상기 음향 모델은 적어도 하나의 가우시안 분포(Gaussian distribution)를 포함하는 혼합 모델(mixture model)이며,
상기 제 2 인식의 음향 모델에 포함되는 가우시안 분포의 수가 상기 제 1 인식의 음향 모델에 포함되는 가우시안 분포의 수 보다 큰 것을 특징으로 하는 음성 인식 장치.
제7항에 있어서,
상기 프로세서는,
상기 제 1 인식의 결과 데이터와 상기 제 2 인식의 결과 데이터가 기 설정된 횟수 이상 서로 다른 것으로 판별되는 경우, 상기 제 1 인식의 음향 모델에 포함되는 가우시안 분포의 수를 증가시키는 것을 특징으로 하는 음성 인식 장치.
제3항에 있어서,
상기 인식 대상 파트는 복수의 프레임(frame)으로 구성되고,
상기 제 2 인식은,
상기 프로세서가 상기 인식 대상 파트 중 적어도 하나의 선두 프레임의 음향학적 특징과 상기 음향 모델 사이의 유사도를 산출하고, 상기 유사도가 기 설정된 기본 한계값 이상인 경우 기 설정된 개수의 후속 프레임의 음향학적 특징을 더 이용하여 상기 유사도를 재산출하고, 상기 재산출된 유사도가 기 설정된 확장 한계값 이상인 경우 상기 음성 신호에 상기 음향 모델과 연관된 키워드가 존재하는 것으로 판별하는 처리 방식이며,
상기 확장 한계값은 상기 기본 한계값보다 큰 것을 특징으로 하는 음성 인식 장치.
제9항에 있어서,
상기 음성 신호는 복수의 프레임으로 구성되고,
상기 제 1 인식은,
상기 프로세서가 상기 음성 신호의 프레임 중 기 설정된 길이의 탐색 프레임의 음향학적 특징과 상기 음향 모델 사이의 유사도를 산출하고, 상기 유사도가 상기 기본 한계값 이상 상기 확장 한계값 미만인 경우 상기 탐색 프레임에 대한 상기 키워드의 검출을 중단하고 상기 제 2 인식을 시작하는 처리 방식이고,
상기 제 2 인식은,
상기 프로세서가 상기 제 1 인식에 따른 상기 키워드의 검출이 중단된 탐색 프레임에 대해서 상기 키워드를 검출하는 처리 방식인 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,
상기 음성 신호 및 상기 인식 대상 파트는 복수의 프레임으로 구성되고,
상기 프로세서는 상기 프레임에 대한 상기 키워드 검출을 순차적으로 수행할 때 상기 각 프레임의 값에 따라 변화되는 음성 인식에 관한 파라미터를 이용하되,
상기 프로세서가 상기 제 2 인식에 따라 상기 인식 대상 파트의 첫 프레임에 대한 상기 키워드를 검출할 때 기 설정된 파라미터 초기값을 이용하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,
상기 음성 신호는 복수의 프레임으로 구성되고,
상기 프로세서는,
상기 음성 신호의 프레임 중 기 설정된 길이의 탐색 프레임을 기 설정된 신호 대 잡음 비 미만인 신호 대 잡음 비를 가지는 침묵 파트와 상기 침묵 파트가 아닌 음성 파트로 구분하고, 상기 음성 파트의 길이가 기 설정된 프레임 길이 미만인 경우 상기 탐색 프레임으로부터 상기 키워드를 검출하지 않는 것을 특징으로 하는 음성 인식 장치.
제12항에 있어서,
상기 프로세서는,
상기 탐색 프레임의 평균 에너지가 기 설정된 한계 에너지 미만인 경우 상기 탐색 프레임으로부터 상기 키워드를 검출하지 않는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서,
상기 프로세서는,
상기 음성 신호에 포함된 배경 잡음의 잡음 레벨을 추정하고,
상기 잡음 레벨이 기 설정된 한계 잡음 레벨 이상인 경우 상기 제 2 인식의 결과 데이터를 상기 최종 인식 데이터로 선택하는 것을 특징으로 하는 음성 인식 장치.
제14항에 있어서,
상기 음성 신호 및 상기 인식 대상 파트는 복수의 프레임으로 구성되고,
상기 프로세서는,
상기 음성 신호의 프레임 중 상기 잡음 레벨이 상기 한계 잡음 레벨 미만인 프레임인 클리어(clear) 프레임이 연속적으로 기 설정된 개수 이상 존재하는 경우, 상기 연속적인 클리어 프레임을 클리어 파트로 지정하고 상기 클리어 파트에 대한 상기 제 1 인식의 결과 데이터를 상기 클리어 파트의 상기 최종 인식 데이터로 선택하는 것을 특징으로 하는 음성 인식 장치.
음성 신호를 수신하는 단계;
상기 음성 신호로부터 기 설정된 키워드를 검출하는 제 1 인식을 수행하는 단계;
상기 음성 신호 중, 상기 키워드를 포함하는 것으로 판별되는 일부 구간인 인식 대상 파트에 대하여 상기 키워드를 검출하는 제 2 인식을 수행하는 단계; 및
상기 제 1 인식의 결과 데이터 및 상기 제 2 인식의 결과 데이터에 기초하여 최종 인식 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.