KR20000056849A

KR20000056849A - 음향 기기의 음성인식 방법

Info

Publication number: KR20000056849A
Application number: KR1019990006547A
Authority: KR
Inventors: 이윤근
Original assignee: 구자홍; 엘지전자 주식회사
Priority date: 1999-02-26
Filing date: 1999-02-26
Publication date: 2000-09-15

Abstract

주변 잡음 속에서도 음향 기기를 제어할 수 있는 음향 기기의 음성인식 방법에 관한 것으로, 음성 구간을 검출시, 마이크로부터 인가되는 음성 신호가 적응 필터부를 통과하면서 노이즈가 제거되고 N개의 샘플로 구성된 프레임(frame)에 대해 매 프레임마다의 에너지, 영교차율, 적응 필터의 각 계수들의 단구간 평균 변화량을 구하고, 각 프레임 단위로 그 특징값을 저장하는 단계와, 프레임 중 현재 프레임으로부터 과거 M 프레임의 각 특징값들의 중간값 또는 평균값을 구하고, 그 값과 현재 프레임의 특징값과의 비율을 구하여 펄스의 시작 여부를 판단하는 단계와, 펄스가 시작되면 펄스의 감소 비율을 조사하고, 진행되는 펄스가 적합한 펄스인지를 판단하는 단계와, 펄스들 중에서 각 펄스의 특징값 및 정보를 이용하여 주어진 조건에 맞는 펄스들만을 추출하는 단계와, 추출된 펄스들이 음성 구간인지를 판단하는 단계로 이루어짐으로써, 주변 잡음 신호에도 불구하고 안정된 음성 구간을 추출하여 음향 기기에서도 음성 인식을 가능하게 할 수 있다.

Description

음향 기기의 음성인식 방법{method for recognizing speech in sound apparatus}

본 발명은 음성인식에 관한 것으로, 특히 주변 잡음 속에서도 음향 기기를 제어할 수 있는 음향 기기의 음성인식 방법에 관한 것이다.

현재, 일상 생활에 많이 사용되는 전자 제품을 음성 명령으로 동작시키는 일이 여러 분야에서 시도되고 있다.

특히 TV, 오디오(audio) 등은 현대인의 생활에서 여가, 정보수집과 교육 등 중요한 부분을 차지하고 있다.

따라서, 작동의 편리성을 향상시키기 위해 리모콘이 등장하고 이로 인하여 앉은 자리에서 손으로 자신이 원하는 동작을 시킬 수 있게 되었다.

그러나, 이것 또한 다른 기기를 작동시키는 것이기 때문에 편리성의 한계가 있으므로 인간에게 가장 친숙한 음성을 인식할 수 있는 장치를 고안하게 되었다.

이러한 음성인식의 대략적인 동작원리는 다음과 같다.

먼저, 음성인식 알고리즘은 크게 음성 구간 검출 과정과 특징(feature) 추출 과정, 그리고 매칭(matching) 과정으로 나눌 수 있다.

예를 들면, 마이크를 통해 음성신호가 입력되면 A/D 컨버터에서 이를 디지털 신호로 변환한 후, 음성 구간 검출부로 출력한다.

음성 구간 검출부는 디지털 음성 신호를 짧은 구간의 신호(즉, 프레임)로 분할한 후, 각 프레임의 에너지와 영교차율(zero crossing rate) 그리고, 시간길이 정보를 이용하여 입력된 신호중에서 실제 발성된 음성 구간만을 검출한 후, 특징 추출부로 출력한다.

특징 추출부에서는 음성 구간에 해당하는 프레임의 특징을 추출하여 입력된 음성의 테스트 패턴을 만든 후, 매칭부로 출력한다.

매칭부에서는 테스트 패턴과 기준 데이터용 메모리에 저장된 각 기준 패턴들과 각각 비교하여 테스트 패턴과 가장 유사한 특징을 갖는 기준 패턴을 인식된 음성으로 출력한다.

이때, 상기 기준 데이터용 메모리에 음성 신호의 기준 패턴을 저장하는 경우도 마찬가지로 상기 특징 추출부에서 음성 구간에 해당하는 프레임의 특징을 추출하여 기준 패턴을 만든 후, 기준 데이터용 메모리에 저장하는데, 이와 같은 동작을 인식하고자 하는 음성 신호에 대하여 반복 수행하여 기준 패턴을 기준 데이터용 메모리에 데이터베이스화한다.

이와 같이 기존의 음성인식 방법에서는 음성 구간 추출시, 신호의 단구간 에너지, 영교차율 등과 같은 정보를 이용하였다.

이러한 특징들은 시간 영역에서 신호의 특징을 나타내는 것으로 복잡한 계산을 동반하지 않으므로 빠르고 간편하게 이용할 수 있다.

그러나, 음향 기기의 음성 인식이 적용될 경우, 주변 잡음이 매우 크므로(잡음 제거기를 적용시킨 경우에도 제거되지 않고 남아 있는 잔여 잡음이 매우 큼) 신호의 단구간 에너지 또는 영 교차율 등을 이용하여 음성 구간을 추출하는 방법은 그 성능이 저하된다.

따라서, 이러한 주변 음향의 존재에도 불구하고 음성 구간을 안정되게 추출할 수 있도록 에너지, 영 교차율 이외의 새로운 특징을 이용한 새로운 방법의 음성 구간 추출 알고리즘이 필요하다.

본 발명은 이와 같은 문제를 해결하기 위한 것으로 적응 필터를 이용한 새로운 음성 구간 추출 방법으로 음향 기기에서 발생하는 주변 음향에도 불구하고 음성인식이 가능한 음향 기기의 음성인식 방법을 제공하는데 그 목적이 있다.

도 1은 적응 필터를 갖는 음향 기기의 음성인식장치를 보여주는 블록구성도

도 2은 도 1의 적응 필터부를 보여주는 블록구성도

도 3은 본 발명에 따른 음성 구간 추출 알고리즘을 보여주는 순서도

도면의 주요부분에 대한 부호의 설명

1 : 마이크 2 : 노이즈

3 : 적응 필터부 4 : 음성 구간 검출부

5 : 특징 추출부 6 : 매칭부

7 : 인식 결과 확인부 8 : 인식 결과 수행부

9 : 인식기 적응부 10 : 제 1 혼합기

11 : 적응 필터 12 : 제 2 혼합기

본 발명에 따른 음향 기기의 음성인식 방법의 특징은 적응 필터를 갖는 음향 기기의 음성인식 방법에 있어서, 음향 기기에서 발생한 노이즈 신호를 적어도 하나 이상의 마이크로부터 입력된 음성신호에 적응시켜서 노이즈 신호가 제거된 음성신호를 출력하는 제 1 단계와, 음성신호를 인가받아 단구간 에너지, 영교차율, 적응 필터계수의 단구간 평균 변화량을 이용한 음성 구간 검출 알고리즘을 수행하여 음성 구간을 검출하는 제 2 단계와, 검출된 음성 신호을 분석하여 특징을 추출하며, 그 추출된 특징을 기준 패턴과 비교하거나 기준 모델의 발생 확률을 계산하여 입력된 음성을 인식 또는 거부하고, 추출된 특징값 및 인식 결과를 인식기에 적응하여 인식된 결과를 주변기기에 수행하는 제 3 단계로 이루어지는데 있다.

본 발명의 다른 특징은 음성 구간을 검출하는 방법이 음성 신호에서, 프레임의 평균 계수 변화량, 에너지, 영교차율을 구하고, 각 프레임 단위로 그 특징값을 저장하는 단계와, 프레임 중 현재 프레임으로부터 과거 M 프레임의 각 특징값들의 중간값 또는 평균값을 구하고, 그 값과 현재 프레임의 특징값과의 비율을 구하여 펄스의 시작 여부를 판단하는 단계와, 펄스가 시작되면 펄스의 감소 비율을 조사하고, 진행되는 펄스가 적합한 펄스인지를 판단하는 단계와, 펄스들 중에서 각 펄스의 특징값 및 정보를 이용하여 주어진 조건에 맞는 펄스들만을 추출하는 단계와, 추출된 펄스들이 음성 구간인지를 판단하는 단계로 이루어지는데 있다.

상기와 같은 특징을 갖는 본 발명에 따른 음향 기기의 음성인식 방법을 첨부된 도면을 참조하여 설명하면 다음과 같다.

먼저, 본 발명의 개념은 노이즈(noise) 제거를 위해 적응 필터(adaptive filter)를 사용하는 음향 기기에서, 음성 구간 추출시 단구간 에너지와 영교차율 뿐만 아니라 적응 필터 계수의 단구간 평균 변화량을 이용함으로써, 주변 음향의 존재에도 불구하고 음성 구간을 안정하게 추출하게 하는데 있다.

도 1은 적응 필터를 갖는 음향 기기의 음성인식장치를 보여주는 블록도로서, 도 1에 도시된 바와 같이 음성 신호의 노이즈 제거를 위한 적응 필터부와 그 음성 신호의 음성 인식을 위한 음성 인식부로 크게 나눌 수 있다.

그 구성을 간략히 설명하면, 적응 필터부는 도 2에 도시된 바와 같이 음향 기기에서 발생한 노이즈와 마이크로부터 입력된 음성신호를 가산하여 노이즈가 혼합된 음성신호를 출력하는 제 1 혼합기(10)와, 제 1 혼합기(10)로부터 인가되는 노이즈가 혼합된 음성신호와 적응 필터(11)로부터 인가되는 필터링된 신호를 감산하여 노이즈가 제거된 음성신호를 출력하는 제 2 혼합기(12)와, 인가되는 노이즈를 필터링하여 출력하고 제 2 혼합기(12)로부터 출력되는 노이즈가 제거된 음성신호를 피드백(13)하여 필터의 계수를 조정하는 적응 필터(11)로 구성된다.

그리고, 음성 인식부는 마이크(1)를 통해 인가된 음성 신호로부터 음성 신호 구간을 추출하는 음성 구간 추출부(4)와, 검출된 음성 신호로부터 특성을 나타내는 파라미터를 추출해내는 특징 추출부(5)와, 추출된 파라미터를 기준 패턴과 비교하거나 기준 모델의 발생확률을 계산하여 입력된 음성을 인식하는 매칭부(6)와, 인식된 결과의 유사도 또는 발생 확률값이 일정 수준 이하이면 인식을 거부하는 인식 결과 확인부(7)와, 인식된 결과를 수행하는 인식 결과 수행부(8)와, 추출된 특징값 및 인식 결과를 이용해 음성 인식 장치를 화자 또는 사용환경의 특성에 맞게 적응시키는 인식기 적응부(9)로 구성된다.

이와 같이 구성되는 음향기기의 음성인식장치에서, 본 발명의 음성 인식 방법을 설명하면 다음과 같다.

먼저, 음향 기기에서 음성 인식을 하기위해서는 마이크에서 인가되는 음성신호로부터 음향 기기에서 발생하는 음향 신호(노이즈)를 제거해야 한다.

그러기 위해서는 음향 기기의 발생 신호와 마이크에서 인가되는 음성 신호의 차이를 최소화하도록 적응 필터 계수를 조정해야 한다.

즉, 음향 기기에서 발생한 노이즈와 마이크로부터 입력된 음성신호가 제 1 혼합기(10)에서 가산되어 노이즈가 혼합된 음성신호를 출력하고 적응 필터(11)는 노이즈 신호를 필터링한다.

이 적응 필터(11)의 출력 신호와 제 1 혼합기(10)의 출력 신호는 제 2 혼합기(12)로 인가되어 노이즈가 제거된 음성신호를 출력하게 된다.

그리고, 노이즈가 제거된 음성신호는 피드백(feedback)되어 적응 필터(11)로 다시 인가되어 적응 필터의 계수를 조정하게 된다.

이와 같이 적응 필터부로부터 노이즈가 제거된 음성 신호는 음성 구간 검출부(4)로 인가되어 그 음성 신호 중에서 실제로 발성된 구간, 즉 음성 구간만을 검출한다.

그러나, 음성 구간 검출부(4)로 인가되는 음성 신호는 노이즈가 완전히 제거된 것이 아니므로 안정된 음성 구간을 검출하기 위해서 본 발명의 음성 구간 추출 알고리즘에서는 기존의 단구간 에너지와 영교차율 이외에도 적응 필터 계수의 단구간 평균 변화량을 이용한다.

본 발명에서 적응 필터 계수의 단구간 평균 변화량을 이용하는 이유는 적응 필터 계수의 특성 때문이다.

즉, 음성이 입력되지 않는 상태에서 마이크로 입력되는 신호에는 음향 기기에서 발생하는 음향 신호만이 존재하므로 기준신호(음향 기기의 발생신호)와 입력 신호(마이크로의 입력 신호)의 상관 관계가 매우 높으며, 필터 계수는 안정된 상태를 유지하므로 변화량이 매우 적다.

그러므로 음성이 입력되면 마이크로의 입력 신호 특성이 갑자기 변하게 되므로 적응 필터는 급격히 계수를 조정하여 입력 신호의 특성에 맞게 적응하려 하기 때문에 필터 계수의 변화량이 갑자기 커지게 된다.

이에 착안하여 계수의 변화량을 계속 주시하고 있다가 그 변화가 기준치 이상으로 큰 값을 가지면 일단 음성이 인가된 것으로 판단한다.

즉, 음성이 입력되는 동안에 계수 변화는 다른 구간과 현격한 차이를 보이기 때문이다.

또한, 음성 구간이 끝나는 지점도 계수 변화량을 측정하여 결정한다.

이 음성 구간을 추출하는 방법을 도 3을 참조하여 좀 더 상세히 설명하면 다음과 같다.

먼저, 마이크로부터 인가되는 음성 신호는 적응 필터부를 통과하면서 노이즈가 제거되고 N개의 샘플로 구성된 프레임(frame)에 대해 매 프레임마다의 에너지, 영교차율, 적응 필터의 각 계수들의 단구간 평균 변화량이 구해진다.

이 값들을 특징값으로 이용하기 위하여 각 프레임 단위로 그 특징값을 저장한다.

이어, 프레임 중 현재 프레임으로부터 과거 M 프레임의 각 특징값들의 중간값 또는 평균값을 구하고, 그 값과 현재 프레임의 특징값과의 비율을 구하여 펄스의 시작 여부를 판단한다.

즉, 그 비율이 상위 임계값보다 클 경우에는 의미 있는 펄스가 시작되는 것으로 판단하다.

만일, 음성 구간이 시작되는 프레임이라면, 각 특징들의 평균값 또는 중간값이 현재 프레임의 특징값과의 비율이 하위 임계값보다 작은 경우에 펄스가 끝나는 것으로 간주한다.

그리고, 펄스가 시작되면 펄스의 감소 비율을 조사하고, 진행되는 펄스가 적합한 펄스인지를 판단한 다음, 펄스들 중에서 각 펄스의 특징값 및 정보를 이용하여 주어진 조건에 맞는 펄스들만을 추출한다.

예를 들면, 추출된 신호 구간을 펄스라 하고, 한 단어의 발화가 이와 같은 펄스들의 일련의 셋으로 이루어졌다면, 각 펄스들을 나타내는 특징값들은 펄스 구간의 평균값, 최대값, 펄스 시작 전 3개의 프레임들의 평균값을 가지고, 각 펄스의 정보는 시작 프레임, 끝 프레임, 구간의 길이와 앞 뒤 펄스들과의 간격 등의 정보를 가진다.

그러므로 추출된 펄스들간의 특징값들을 이용하여 주어진 조건에 맞는지 판단하여 적합한 펄스들만을 남긴다.

이때는 시작 펄스와 마지막 펄스들간의 관계를 중심으로 판단한다.

그리고, 추출된 펄스들이 음성 구간인지를 판단하는데, 추출된 펄스들의 전체 구간 길이가 주어진 조건보다 길어지거나 뒤에 주어진 시간안에 새로운 펄스가 나타나지 않으면 음성 구간인지를 전체적으로 판단한다.

음성 구간을 판단할 때는 음성이 입력될 때, 계수 변화량의 최대값이 다른 값보다 크게 된다는 점을 이용하여 펄스 중 최대값을 가진 펄스 중심으로 구간이 추출될 수 있도록 한다.

이러한 조건에 부합하지 않으면 음성 구간을 추출하기 위한 위의 과정을 다시 시작한다.

이와 같이 음성 구간이 추출되면, 특징 추출부(5)에서는 검출된 음성 구간 신호의 특징을 추출하게 되는데, 보통 스펙트럼 정보를 나타내는 파라미터를 이용한다.

그리고, 매칭부(6)는 추출된 파라미터를 기준 패턴과 비교하거나 기준 모델의 발생확률을 계산하여 입력된 음성을 인식한다.

즉, 입력된 음성과 가장 유사한 음성을 등록되어 있는 음성중에서 찾는데, 등록되어 있는 각 단어에 대한 유사도를 모두 계산한 뒤, 가장 유사한 등록 단어를 추출한다.

유사도를 측정하는 방법의 예로 DTW(Dynamic Time Warping) 알고리즘 또는 은닉 마코프 모델(Hidden Markov Model ; HMM) 확률값을 이용할 수 있다.

이어, 인식 결과 확인부(7)는 가장 유사한 등록 단어와 입력 음성의 유사도가 일정 룰에 의해 거부될 경우, 등록되어 있지 않은 음성이 입력된 것으로 보고 다시 음성을 받아들인다.

이때, 단순한 유사도를 측정하여 이용할 수도 있으며 여러 가지 형태의 필터 모델을 이용할 수도 있다.

이는 키 워드 인식 과정 및 명령어 인식 과정에 모두 적용된다.

그리고, 인식 결과 수행부(8)는 인식 과정이 성공하면 그 결과에 따라 명령을 수행한다.

한편, 인식기 적응부(9)는 추출된 특징값 및 인식 결과를 이용해 음성 인식 장치를 화자 또는 사용환경의 특성에 맞게 적응시킨다.

이 과정은 기기의 실제 사용 이전의 훈련과정으로써 이루어지거나 또는 실제 사용하는 도중에 이루어질 수 있다.

본 발명에 따른 음향 기기의 음성인식 방법은 다음과 같은 효과가 있다.

본 발명에서는 새로운 음성 구간 추출 방법을 사용하여 주변 잡음 신호에도 불구하고 안정된 음성 구간을 추출함으로써, 음향 기기에서도 음성 인식을 가능하게 할 수 있다.

또한, TV, 오디오, 라디오 등의 음향 기기를 음성 인식에 의해 제어함으로써, 그의 편리성 및 부가가치를 증대시킬 수 있다.

Claims

적응 필터를 갖는 음향 기기의 음성인식 방법에 있어서,

상기 음향 기기에서 발생한 노이즈 신호를 적어도 하나 이상의 마이크로부터 입력된 음성신호에 적응시켜서 상기 노이즈 신호가 제거된 음성신호를 출력하는 제 1 단계와,

상기 음성신호를 인가받아 단구간 에너지, 영교차율, 상기 적응 필터계수의 단구간 평균 변화량을 이용한 음성 구간 검출 알고리즘을 수행하여 음성 구간을 검출하는 제 2 단계;

상기 검출된 음성 신호을 분석하여 특징을 추출하며, 그 추출된 특징을 기준 패턴과 비교하거나 기준 모델의 발생 확률을 계산하여 입력된 음성을 인식 또는 거부하고, 상기 추출된 특징값 및 인식 결과를 인식기에 적응하여 인식된 결과를 주변기기에 수행하는 제 3 단계로 이루어지는 것을 특징으로 하는 음향 기기의 음성인식 방법.
제 1 항에 있어서, 상기 음성 구간을 검출하는 제 2 단계는

상기 음성 신호에서, 프레임의 평균 계수 변화량, 에너지, 영교차율을 구하고, 상기 각 프레임 단위로 그 특징값을 저장하는 단계;

상기 프레임 중 현재 프레임으로부터 과거 M 프레임의 각 특징값들의 중간값 또는 평균값을 구하고, 그 값과 현재 프레임의 특징값과의 비율을 구하여 펄스의 시작 여부를 판단하는 단계;

상기 펄스가 시작되면 상기 펄스의 감소 비율을 조사하고, 진행되는 펄스가 적합한 펄스인지를 판단하는 단계;

상기 펄스들 중에서 각 펄스의 특징값 및 정보를 이용하여 주어진 조건에 맞는 펄스들만을 추출하는 단계;

상기 추출된 펄스들이 음성 구간인지를 판단하는 단계를 더 포함하는 것을 특징으로 하는 음향 기기의 음성인식 방법.
제 2 항에 있어서, 상기 펄스의 시작 여부를 판단하는 단계에서, 상기 프레임 중 현재 프레임으로부터 과거 M 프레임의 각 특징값들의 중간값 또는 평균값과 현재 프레임의 특징값과의 비율이 상위 임계값보다 클 경우에 펄스가 시작되는 것으로 판단하고, 상기 음성 구간이 시작되는 각 프레임의 특징값들의 중간값 또는 평균값과 현재 프레임의 특징값과의 비율이 하위 임계값보다 작을 경우에 펄스가 끝나는 것으로 판단하는 것을 특징으로 하는 음향 기기의 음성인식 방법.
제 2 항에 있어서, 상기 주어진 조건에 맞는 펄스들만을 추출하는 단계에서 이용되는 각 펄스의 특징값은 펄스 구간의 평균값, 최대값, 펄스 시작 전의 프레임들의 평균값이고, 이용되는 각 펄스의 정보는 시작 프레임, 끝 프레임, 구간의 길이와 앞 뒤 펄스들과의 간격인 것을 특징으로 하는 음향 기기의 음성인식 방법.
제 2 항에 있어서, 상기 추출된 펄스들이 음성 구간인지를 판단하는 단계에서, 음성 구간으로 판단되면 그 음성 신호를 분석하여 특징을 추출하고, 음성 구간이 아니라고 판단되면 음성 구간 검출 루틴을 처음부터 다시 시작하는 것을 특징으로 하는 음향기기의 음성인식 방법.