KR20030010432A

KR20030010432A - 잡음환경에서의 음성인식장치

Info

Publication number: KR20030010432A
Application number: KR1020010045696A
Authority: KR
Inventors: 박형민; 오상훈; 이수영
Original assignee: 주식회사 엑스텔테크놀러지
Priority date: 2001-07-28
Filing date: 2001-07-28
Publication date: 2003-02-05

Abstract

본 발명은 잡음환경에서의 음성인식장치에 관한 것으로서, 그 목적은 차량 운행환경 또는 헬리콥터, 공장의 소음 등의 잡음환경에서 잡음을 제거하여 사용자의 음성신호만을 검출 인식하도록 하며, 오디오 신호가 동시에 입력될 때에도 사용자의 음성신호만을 분리 인식하도록 하는데 있다.

본 발명의 목적은 음성 및 다수의 잡음을 입력하기 위한 다수개의 마이크를 구비하여 각각 신호들을 입력하여 잡음신호는 제거하고, 선택된 음성신호만을 추출한 후 인식하는 음성인식장치에 있어서, 상기 각 마이크 및 오디오기기로부터 음성 및 소리 신호를 입력하여 마이크로부터 입력된 신호에서 상기 오디오기기로부터 입력된 신호를 선택 제거하는 적응잡음 제거수단과, 상기 적응잡음 제거수단으로부터 출력된 신호에서 선택된 음성신호외의 잡음신호를 제거하는 암묵신호 분리수단과, 상기 암묵신호 분리수단을 통해 출력된 음성신호에서 음성특징을 추출 및 인식하는 음성인식수단을 포함하여 이루어짐을 특징으로 한다.

Description

잡음환경에서의 음성인식장치 {Apparatus for speech recognition in noisy environment}

본 발명은 음성인식장치에 관한 것으로서, 보다 상세하게는 차량 내부 등에서 다수개의 마이크와 입력단자를 통하여 사용자의 음성, 차량운행 잡음, 오디오기기의 출력음 등을 입력하여 필요한 사용자의 음성신호만을 검출하여 인식하는 잡음환경에서의 음성인식장치에 관한 것이다.

일반적으로 음성인식장치는 도 1에 도시된 바와 같이 크게 특징추출부(11)과 추출된 음성특징에 따라 인식하는 음성인식부(12)로 구성된다. 즉, 입력된 음성신호는 인식에 적합한 형태의 특징을 추출하는 단계를 거친 후, 그 결과를 이용하여 입력된 음성을 인식하게 된다.

여기서, 특징추출부(11)에 의하여 음성의 특징을 추출하는 여러 가지 방법 중 'MFCC'(Mel-Frequency Cepstrum Coefficient) 또는 'PLPCC'(Perceptual Linear Prediction Cepstrum Coefficient)가 주로 사용되고 있다.

음성인식부(12)는 'HMM'(Hidden Markov Model), 'DTW'(Dynamic Time Warping) 또는 신경회로망 등의 방법이 많이 사용된다. 그러나, 실제 사용환경에서 음성인식 성능이 저하되는 현상이 나타나는데, 그 이유는 실제환경에서 음성이 입력될 때 어느 정도의 잡음이 섞여 들어오기 때문이다.

따라서, 음성인식장치는 잡음에 의한 인식성능 저하를 방지하기 위해서 잡음에 강한 음성 특징추출방법이 인간의 청각기관에 근거하여 몇 가지 제안되었다.

그 중 한 가지는 1996년 김도석 등에 의하여 제안된 'ZCPA'(Zero-crossing with Peak Amplitude)모델이다. 이 모델은 필터 뱅크를 통과한 신호에 영 교차 및 최대값 검출을 적용하여 얻은 히스토그램들을 취합하여 잡음에 강한 특징을 추출하도록 한다.

또한, 음성인식기의 학습 데이터 자체를 잡음이 섞인 것으로 사용할 경우 음성인식기가 잡음에 대한 강인성을 지니도록 할 수도 있다.

그러나, 상기와 같은 음성인식장치의 특징추출 또는 인식과정이 잡음에 강하도록 하는 것은 잡음의 세기가 커질 경우 성능이 저하되는 정도가 심하므로 차량 운행 환경과 같이 소음이 심한 경우에 사용하기가 부적절한 문제점이 있었다.

결국, 잡음이 심한 환경에서는 음성인식기에 음성을 입력하기 전에 잡음을 미리 제거하는 과정이 필수적이다.

따라서, 잡음을 미리 제거하는 기법으로 종래에는 암묵신호분리(Blind Source Separation)방법이 사용되었다. 이와 같은 암묵신호 분리방법은 일반적으로 'ICA'(Independent Component Analysis) 알고리즘에 의하여 학습된다.

도 2는 종래 기술에 따른 암묵신호분리를 이용한 잡음제거 후 음성인식장치의 블록 구성도로서, 음성신호 또는 잡음신호들이 혼합되어 들어오는 입력신호들로부터 상호 독립적인 신호들을 추출하는 방식으로 혼합되기 전의 신호들을 분리해내는 방법이다.

즉, 다수의 입력된 음성신호와 잡음신호의 혼합신호들을 입력하여 암묵신호 분리기(21)에서 잡음신호와 음성신호를 분리하여 출력하므로 음성인식기(22)를 통해 잡음이 분리된 음성신호만을 사용하여 음성인식을 수행하게 된다.

그러나, 이와 같은 종래기술에 따른 음성인식장치는 다음과 같은 문제점이 있다. 먼저, 혼합되기 전 신호원의 수가 혼합된 후 입력장치를 통해 입력되는 신호의 수와 같아야 한다. 그리고 이 경우 분리되는 신호의 수는 신호원의 수와 같으며, 분리된 신호들 중 어느 것이 어떤 신호원에 해당하는지를 알 수 없었다. 즉, 분리된 신호들 중 어느 것을 인식대상으로 하여 음성인식기에 입력해야할 지를 판단하지 못하는 문제점이 있었다. 따라서, 모든 분리된 신호들을 음성인식기에 입력시켜 인식과정을 거쳐야 한다. 만약, 차량운행 환경에서 오디오 기기가 켜져있을 경우에는 암묵신호 분리된 신호의 수가 더 늘어나므로 음성인식기에 입력시킬 분리된 신호의 수도 그 만큼 늘어나게 되는 문제점이 있었다.

본 발명은 상기한 종래기술의 제반 문제점을 해결하기 위한 것으로, 그 목적은 차량 운행환경 또는 헬리콥터, 공장의 소음 등의 잡음환경에서 잡음을 제거하여 사용자의 음성신호만을 검출 인식하도록 하며, 오디오 신호가 동시에 입력될 때에도 사용자의 음성신호만을 분리 인식하도록 하는 잡음환경에서의 음성인식장치를 제공함에 있다.

도 1은 일반적인 음성인식기의 개략 구성도이고,

도 2는 종래 기술에 따른 암묵신호분리에 의한 잡음제거 후 음성인식기의 블록 구성도이고,

도 3은 본 발명의 실시예에 따른 잡음환경에서의 음성인식장치의 블록 구성도이고,

도 4는 도 3에서 적응잡음 제거부의 동작을 설명하기 위한 도이고,

도 5a, 5b는 본 발명에 적용되는 되먹임, 전방향 암묵신호 분리부의 동작을 위한 설명도이다.

< 도면의 주요부분에 대한 부호의 설명 >

101, 102 : 제 1, 제 2 마이크110 : 오디오기기

120 : 적응잡음 제거부130 : 암묵신호 분리부

140 : 음성인식부

본 발명의 목적을 달성하기 위한 본 발명에 따른 음성 및 다수의 잡음을 입력하기 위한 다수개의 마이크를 구비하여 각각 신호들을 입력하여 잡음신호는 제거하고, 선택된 음성신호만을 추출한 후 인식하는 음성인식장치에 있어서, 상기 각 마이크 및 오디오기기로부터 음성 혹은 소리 신호를 입력하여 마이크로부터 입력된 신호에서 상기 오디오기기로부터 입력된 신호를 선택 제거하는 적응잡음 제거(Adaptive Noise Canceling)수단과, 상기 적응잡음 제거수단으로부터 출력된신호에서 음성 명령자의 음성신호 외의 잡음신호를 제거하는 암묵신호 분리(Blind Source Separation)수단과, 상기 암묵신호 분리수단을 통해 출력된 음성신호에서 음성특징을 추출 및 인식하는 음성인식수단을 포함하여 이루어진 것을 특징으로 한다.

이와 같이 이루어진 본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다.

도 3은 본 발명의 일 실시 예에 따른 잡음환경에서의 음성인식장치의 블록 구성도로서, 차량의 실내 음성신호를 검지하도록 소정의 위치에 구비된 제 1, 제 2 마이크(101)(102)와, 차량의 전면 일측에 구비된 오디오기기(110)와, 상기 오디오기기(110)에 연결된 라인을 통하여 음성 및 소리 신호(a)를 입력하고, 상기 각 마이크를 통하여 입력된 차량의 실내 신호(x₁,x₂)에서 라인을 통해 입력된 신호(a)를 선택 제거하는 적응잡음 제거부(120)와, 상기 적응잡음 제거부(120)로부터 출력된 신호에서 음성 명령자의 음성신호 외의 잡음신호를 제거하는 암묵신호 분리부(130)와, 상기 암묵신호 분리부(130)를 통해 출력된 음성신호에서 음성특징을 추출 및 인식하는 음성인식부(140)로 구성된다.

이와 같이 구성된 본 발명 실시예에 따른 작용을 첨부된 도 3 내지 도 5를 참조하여 보다 상세히 설명하면 다음과 같다.

먼저, 본 발명은 음성, 차량운행에 따른 잡음, 오디오기기의 출력 등을 여러 개의 마이크와 입력단자를 통해서 받아들이는 입력과정과, 상기 입력된 신호들에서오디오기기의 출력에 해당하는 부분만을 제거하는 적응잡음제거과정과, 오디오 신호가 제거된 신호들에서 여러 음성들과 잡음을 분리한 후 음성 명령자의 음성만을 출력하는 암묵신호분리과정과, 상기 분리된 음성 명령자의 음성 만을 입력받아서 음성특징을 추출하고 인식하는 음성인식과정을 거침으로서, 여러 가지 잡음환경에서도 사용자의 음성을 보다 정확하게 인식하게 된다.

도 3은 본 발명의 바람직한 실시예에 따른 잡음환경에서의 음성인식장치에 관한 것으로서, 먼저, 두 개의 마이크(101)(102)를 사용자(또는 운전자)의 음성과 오디오 신호 및 차량의 실내 잡음을 입력하도록 차량의 전면과 그 외의 적당 위치에 설치하여 음성인식장치가 구동될 때 각 마이크(101)(102)에 음성 및 소리신호가 입력되어 전기적 신호로 변환된다.

이와 동시에 오디오기기(110)에서 출력된 신호를 오디오 출력단자를 통해 적응잡음 제거부(120)에 직접 입력시킨다.

여기서, 오디오기기(110)의 출력이 2채널(stereo)이 아닌 1채널(mono)로 가정하고, 혼합된 음성 및 소리신호를 받아들이도록 2개의 마이크(101)(102)를 사용한다.

각 마이크(101)(102) 및 오디오기기(110)의 출력단을 통해 입력된 음성 및 소리 신호는 적응잡음 제거부(120)을 통하여 오디오기기의 신호를 제거하게 된다.

도 4는 본 발명의 실시예에 따른 적응잡음제거부(120)의 동작을 설명하기 위한 도로서, 입력신호는 어떤 신호에 잡음의 변형된 형태가 더해진 것이고, 잡음이 무엇인지 알 경우에, 입력신호에서 잡음만을 제거한 신호를 얻도록 한다.

상기 적응 잡음 제거부를 이용하면 제 1, 제 2 마이크(101)(102)에 음성과 오디오기기(110)의 출력이 같이 입력될 경우, 오디오기기(110)의 출력신호를 단자를 통하여 얻을 수 있으므로 각 마이크(101)(102)에 입력된 신호에서 오디오 신호에 해당하는 부분만을 제거하게 된다.

보다 상세하게는 다음 수학식 1에 의하여 제 1 마이크(101)에서 입력된 신호에서 오디오기기(110)의 출력신호를 제거한 신호(u₁)를 연산 출력하게 된다.

여기서, 'x₁'은 첫 번째 마이크의 입력신호이고, 'a'는 오디오 기기의 출력신호이고, 'u_a (t)=w_a a(t)'이다.

즉, x₁(t)에서 a(t) 성분을 제거하는 형태인데, 이러한 작용을 하도록 적응잡음제거부(120)의 가중치들 'w₁₁, w_a, w_1a(k),(k=0,1,2,‥‥,L)'을 설정해 주어야 한다. 이와 같은 가중치 설정은 통상적으로 LMS 알고리즘에 의하여 이 가중치들을 정하거나, ICA(Independent Component Analysis) 알고리즘에 의하여 가중치를 연산할 수도 있다. 만약 ICA 알고리즘을 적용하면 u₁(t)가 u_a(t)와 통계적으로 독립이 되도록 가중치들이 다음 수학식 2에 따라 학습된다.

여기서, p(u_i(t))는 u_i(t)의 확률밀도함수이다. 통상 음성신호인 경우 라플라시안 함수를 사용한다.

이와 같이 제 1 마이크(101)의 입력단자에서 오디오신호를 제거하는 방법을 다른 제 2 마이크(102)에 동일하게 적용하여 입력된 오디오신호가 제거된 음성신호를 출력한다.

적응잡음 제거부(120)에 의하여 각 마이크를 통하여 입력된 신호들에서 오디오기기(110)의 신호에 해당하는 부분만을 제거한 후 그 결과를 암묵신호 분리부(130)로 입력한다.

암묵신호 분리부(130)는 도 5a, 5b에 도시된 바와 같이, 되먹임(feedback) 구조와 전방향 구조 암묵신호분리기가 있는데, 본 발명에서는 도 5a에 도시된 바와 같이 음성명령자(운전자)의 음성을 추적하기 위해서 되먹임 구조의 암묵신호 분리부를 채택하여 설명하면 다음과 같다.

도 5a에 도시된 되먹임 구조의 암묵신호 분리부(130)의 입력신호에 따른 출력신호는 다음 수학식 3과 같이 연산된다.

여기서, 가중치들은 상기 적응잡음 제거부(120)에 의하여 오디오신호가 제거된 u₁(t)와 u₂(t)를 입력으로 받아서 ICA 알고리즘에 의하여 서로 독립인 신호들로 분리되도록 학습된다. 즉, 다음 수학식 4와 같이 변경된다.

여기서, p( r_i (t)) 는 r_i (t) 의 확률밀도함수인데, 통상 음성신호인 경우 라플라시안 함수를 사용한다.

암묵신호 분리부(130)는 마이크가 두 개 이상일 경우에도 마찬가지로 적용이 가능하다.

그런데, 여기서 분리된 신호 r_i(t)들 중 어느 것이 운전자의 음성명령에 해당하는 신호이어서 음성인식부(140)에 입력시켜 주어야하는지 판단해야 한다. 이를 위하여 차량의 실내에 설치되어 있는 마이크의 위치를 고려해야 한다.

본 발명에서는 적응잡음 제거부(120)와 암묵신호 분리부(130) 모두 ICA 알고리즘에 의하여 학습된다. ICA 알고리즘은 입력된 신호의 차이를 이용하여 상호 독립적인 신호를 검출하는 알고리즘이다. 즉, 각 마이크에 입력되는 신호가 혼합된 신호들을 잘 받아들이도록 마이크의 위치를 적당히 설정해야한다. 마이크들의 위치는 운전자에게 가장 가까운 곳에 하나를 설치하며, 나머지 마이크들은 상대적으로 운전자에게서 먼 위치에 설치하는 것이 바람직하다.

상기 운전자에게 가장 가까운 위치에 설치된 마이크에 입력된 신호를 x₁(t)라 하고, 상대적으로 먼 위치 중 하나의 마이크로부터 입력된 신호를 x₂(t)라 하자, 그러면, 각 신호들에서 적응잡음 제거부(120)를 통하여 오디오신호가 분리된 결과는 각각 u₁(t)과 u₂(t)에 해당된다. 상기 u₁(t)은 운전자에게 가장 가까운 위치에 설치된 마이크이므로, u₁(t)에 포함되어 있는 운전자의 음성에 해당하는 신호 s₁(t)의 성분의 세기가 u₂(t)에 포함되어 있는 s₁(t)성분의 세기보다 클 것이다. 운전자의 음성에 해당하지 않는 성분을 s₂(t)라 하면, u₁(t)와 u₂(t)에 포함된 성분의 세기를 다음 수학식 5와 같이 표현할 수 있다.

P_u_1 ( s_1 ) > P_u_2 ( s_1 ),

여기서, u₁에 포함된 s₁성분이 u₂에 포함된 s₁성분보다 크고, 또한 그 비율이 u₁에 포함된 s₂성분과 u₂에 포함된 s₂성분의 비율보다 큰 것을 나타낸다.

한편, 암묵신호 분리부(130)의 가중치들은 초기화과정에서 특정 값으로 설정된 후 ICA 알고리즘에 따라 학습되는데, r₁과 r₂역시 수학식 5의 관계가 유지되도록 상기 암묵신호 분리부(130)의 초기 가중치들을 설정할 수 있다. 예를 들면, 초기에 v_{11} 와 v_{22} 는 1이고 나머지 가중치들은 0이 되도록 할 수 있다. 이와 같이 하면, 다음 수학식 6과 같이 성립된다.

P_r_1 ( s_1 ) > P_r_2 ( s_1 ),

여기서, 수학식 3에 나타난 암묵신호분리 방법의 동작 메커니즘을 설명하면 다음과 같다. 이 식에서 보는 바와 같이 분리된 신호 r_1은 r_2 로부터 추정된 어떤 신호를 u_1에서 제거한 것이고, r_2 는 r_1로부터 추정된 어떤 신호를 u_2에서 제거하여, r_1과 r_2가 서로 독립이 되도록 학습된다. 그런데, 학습초기 가중치가 상기와 같이 설정되면 수학식 5와 6에서 보는 바와 같이 s_1성분은 u_1과 r_1에 많이 있고 또한 s_1성분의 r_1과 r_2위치에서의 비율이 s_2성분의 r_r_1과 r_2에서의 비율보다 크다. 따라서, r_1은 s_1 성분을 간직하고 s_2성분을 제거하고자 하며, r_2는 역으로 s_2성분을 간직하고 s_1성분을 제거하고자 하는 형태로 학습이 진전된다. 결국, 운전자의 음성 명령 성분인 s_1은 r_1에 나타나게 되므로, 암묵신호분리부(130)의 출력 중 r_1 만을 음성인식기(1)에 입력시켜주면 된다.

물론, 이를 위해서 학습율을 적절히 잡아야 한다. 만약 학습율을 크게 하면s_1과 s_2성분의 출력 위치가 뒤바뀌는 경우가 발생한다.

상기와 같이 되먹임 구조 암묵신호분리기의 초기 가중치들을 설정하면, 운전자에 가까운 마이크에 연결된 신호가 암묵신호분리 후 운전자의 음성 명령어를 지니게 할 수 있다.

도 5b에 도시된 전방향 구조 암묵신호 분리기도 상기와 같이 초기 가중치들이 설정되면 운전자의 음성명령어가 분리되는 위치를 추적할 수 있는 특성이 같다.

한편, 도 5b에 도시된 전방향 구조의 암묵신호 분리부(130)의 입력신호에 따른 출력신호는 다음 수학식 7과 같이 연산된다.

여기서, 가중치들은 상기 적응잡음 제거부(120)에 의하여 오디오신호가 제거된 u₁(t)와 u₂(t)를 입력으로 받아서 ICA 알고리즘에 의하여 서로 독립인 신호들로 분리되도록 학습된다. 즉, 지연시간에 관련없는 가중치들은 다음 수학식 8과 같이 변경된다.

그리고, 지연시간에 관련된 가중치들은 다음 수학식 9과 같이 변경된다.

여기서,이다.

이와 같은 과정을 통하여 오디오 신호 및 기타 잡음들이 분리된 음성신호를 음성인식부(140)에서 운전자의 음성명령어를 입력으로 받아들여 음성인식 동작을 수행하게 된다.

이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 마이크의 개수에 따라 다양하게 적용이 가능하며, 차량의 실내에서뿐만 아니라, 헬리콥터 등의 심한 잡음환경에서도 다양한 용도로 적용이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.

이상에서 설명한 바와 같이, 본 발명에 따른 잡음환경에서의 음성인식장치는 차량운행과 같은 잡음환경에서 오디오 기기가 켜져 있더라도 각종 잡음과 오디오신호들을 제거한 후 운전자의 음성명령에 해당하는 신호만을 음성인식기에 입력시켜주므로, 차량의 잡음환경에서도 음성 인식율을 높여 각종 정보기기의 음성에 의한 효율적인 제어가 가능한 효과가 있다.

또한, 순차적으로 오디오기기의 신호와 잡음을 제거하는 방법은 한번에 암묵신호분리기를 적용하여 운전자의 음성명령어를 분리하는 방법보다 장치의 구조가간단하며 잡음제거 성능도 뛰어난 효과가 있다.

Claims

음성 및 다수의 잡음을 입력하기 위한 다수개의 마이크를 구비하여 각각 신호들을 입력하여 잡음신호는 제거하고, 선택된 음성신호만을 추출하는 음성인식장치에 있어서,

상기 각 마이크 및 오디오기기로부터 음성 및 소리 신호를 입력하여 마이크로부터 입력된 음성 및 소리 신호에서 상기 오디오기기로부터 입력된 신호를 선택 제거하는 적응잡음 제거수단;

상기 적응잡음 제거수단으로부터 출력된 신호에서 선택된 음성신호 외의 잡음신호를 제거하는 암묵신호 분리수단; 및

상기 암묵신호 분리수단을 통해 출력된 음성신호에서 음성특징을 추출 및 인식하는 음성인식수단을 포함하여 이루어진 것을 특징으로 하는 잡음환경에서의 음성인식장치.
제 1 항에 있어서, 상기 오디오기기의 스피커를 통해 출력된 신호는 상기 마이크를 통해 입력함과 아울러 오디오기기의 음성출력라인을 통해 출력된 신호를 직접 적응잡음 제거수단에 입력함을 특징으로 하는 잡음환경에서의 음성인식장치.
제 1 항 또는 제 2 항에 있어서, 상기 적응잡음 제거수단은 수학식

에 의하여 상기 오디오기기의 출력신호를 제거함을 특징으로 하는 잡음환경에서의 음성인식장치.

여기서, x₁은 첫 번째 마이크의 입력신호이고, a는 오디오 기기의 출력신호이고, w₁₁, w_a, w_1a(k),(k=0,1,2,‥‥,L)는 설정된 가중치이고, u_a (t)=w_a a(t)이다.
제 3 항에 있어서, 상기 가중치 설정은 수학식

에 의하여 결정됨을 특징으로 하는 잡음환경에서의 음성인식장치.

여기서, p(u_i(t))는 u_i(t)의 확률밀도함수이고,이다.
제 1 항에 있어서, 상기 암묵신호분리수단이 되먹임 구조를 지닐 경우, 되먹임 가중치들은 모두 0이고 나머지 가중치들은 1이 되도록 초기 가중치들을 설정하여, 음성 명령자의 음성명령이 ICA 알고리즘에 따른 암묵신호 분리 후 어떤 출력노드로 출력될 지 추적할 수 있는 효과를 지니도록 암묵신호분리기의 초기가중치들을 설정함을 특징으로 하는 잡음환경에서의 음성인식장치.