KR100198019B1

KR100198019B1 - 마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리방법

Info

Publication number: KR100198019B1
Application number: KR1019960055690A
Authority: KR
Inventors: 서영주; 이영직
Original assignee: 정선종; 한국전자통신연구원
Priority date: 1996-11-20
Filing date: 1996-11-20
Publication date: 1999-06-15
Also published as: KR19980037008A

Abstract

본 발명은 컴퓨터를 이용한 음성인식시스템의 응용분야에서 마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리 방법에 관한 것으로서, 종래기술에서의 하나의 마이크로 음성을 입력하는 경우에 마이크의 위치에 항상 세심한 주위를 기울여야 하기 때문에 사용상에 많은 불편이 발생하였던 문제점을 해결하기 위해, 본 발명은 다채널의 마이크 어레이를 구비하고, 이 다채널의 마이크들로부터 시간지연 값들이 다른 음성신호를 동시에 입력받아 디지털신호로 변환하는 마이크 어레이와, 마이크 어레이로부터 입력되는 다채널의 신호들로부터 음성신호를 검출하는 자동음성 검출부와, 그 검출된 각 채널간 음성신호들의 시간지연 정보를 추정하는 시간지연 추정부와; 및 추정된 시간지연 정보를 이용하여 신호대 잡음비가 향상된 음성을 생성해내기 위해 채널간의 음성신호에 존재하는 시간지연을 상쇄시킨 후 모든 채널의 음성신호를 가산하는 시간지연 및 신호가산부로 구성되어, 마이크와 화자가 약 40~80cm 정도의 거리를 두고, 마이크의 위치에 주위를 기울이지 않고 발성할 경우에도 허용된 수준(25dB) 이상의 신호대 잡음비를 갖는 음성을 자동으로 입력받는 기능을 갖도록 개발하여 이 음성을 음성인식시스템의 입력으로 사용할 경우, 우수한 성능을 나타낼 수 있도록 하였다.

Description

마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리 방법

본 발명은 컴퓨터를 이용한 음성인식과 관련 분야에 관한 것으로서, 특히 여러개의 마이크로 구성된 마이크 어레이를 화자의 전면에 배치하여, 화자의 음성을 여러개의 마이크를 통하여 동시에 입력받고, 이를 다채널 빔포밍(beamforming) 기술을 이용하여 잡음이 감소된 음성을 재생함으로써, 마이크에서 비교적 먼 거리에서 발성하여도 잡음이 감소된 깨끗한 음성을 음성인식시스템이 입력할 수 있도록 한 마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리 방법에 관한 것이다.

이 분야의 종래의 기술로는 하나의 채널을 이용한 음성입력기술 및 다채널 마이크 음성입력기술 등을 들 수 있고, 이에 대한 설명을 하면 다음과 같다.

현재, 개발되어 발표되어 있는 대부분의 음성인식 시스템은 하나의 마이크를 이용하여 음성을 입력받는 방법을 채택하고 있다. 그러나, 하나의 마이크로 음성을 입력받는 경우에는, 사용자가 발화시에 마이크의 위치에 항상 세심한 주위를 기울여야 한다. 특히, 높은 신호대 잡음비를 유지하는 음성인식시스템의 경우에는, 마이크를 가까이에 두고 발성하여야 한다. 따라서, 일반인들이 실용적으로 사용하기에는 여러 가지로 불편한 문제점이 있다.

또한, 기존의 다채널의 빔포밍(Beamforming) 기술을 이용하여 여러 채널로부터 입력된 음성신호들을 잡음이 감소된 음성신호로 재생할 때에는, 여러 채널의 음성신호 간에 생기는 시간지연을 정확하게 검출하기가 어려웠던 문제점이 있다.

따라서, 본 발명에서는 상기와 같은 문제점을 해결하기 위해 먼거리에서도 편리하게 마이크 어레이를 통해 동시에 입력된 음성을 높은 신호대 잡음비를 유지시켜 보다 깨끗한 음성을 음성인식시스템에 입력하고, 또한 시간지연 검출에서의 정확도를 높이기 위해서 음성신호에 센터클리핑(center clipping) 방법을 적용한 후, 인접채널의 음성신호 간에 상호 상관관계(cross-correlation)을 이용하는 방법을 제공하고, 아울러, 최종단계인 모든 채널의 음성신호를 가산하기 전에, 잡음레벨 정규화 과정을 첨가하여 주어진 상황에서 최고의 신호대 잡음비를 얻도록 개발하는데에 있다.

제1도는 본 발명의 원격음성입력장치의 블록 구성도.

제2도는 본 발명의 전체 원격음성입력 처리 흐름도.

제3도는 제2도에 따른 시간지연 추정 상세 흐름도.

제4도는 제2도에 따른 시간지연-신호가산 상세 흐름도.

* 도면의 주요부분에 대한 부호의 설명

10 : 마이크 어레이부 11 : 마이크 어레이

12 : A/D신호 변환부 20 : 자동 음성 검출부

30 : 시간지연 추정부 40 : 시간지연-신호가산부

현재 개발되어 발표되고 있는 대부분의 음성인식시스템은, 하나의 마이크를 이용하여 음성을 입력하는 방법을 채택하고 있다.

그러나, 하나의 마이크로 음성을 입력받는 경우에는, 음성 입력시에 마이크의 위치에 항상 세심한 주위를 기울여야 한다. 특히, 높은 신호대 잡음비를 유지해야 하는 음성인식시스템의 경우에는, 마이크를 가까이에 두고 발성하여야 한다. 따라서, 일반인들이 실용적으로 사용하기에는 여러모로 불편하다.

본 발명의 원격음성입력장치는 이와 같은 문제점을 해결하기 위하여 고안되었다. 즉, 마이크와 화자가 약 40~80cm 정도의 거리를 두고, 마이크의 위치에 주위를 기울이지 않고 발성할 경우에도, 허용된 수준(25dB) 이상의 신호대 잡음비를 갖는 음성을 자동으로 입력받는 기능을 갖도록 개발하였다. 이를 만족하기 위하여, 마이크 어레이를 이용한 잡음제거 기능을 적용하였다.

이하, 본 발명을 첨부된 도면에 의거하여 상세히 설명하면 다음과 같다.

제1도는 본 발명의 원격음성입력장치의 블록 구성도로서, 다채널 마이크들로 구성된 마이크로 어레이부(10), 자동음성검출장치(20), 시간지연 추정부(30), 및 시간지연-신호가산기(40)으로 구성된다.

제1도에 도시된 바와 같이, 마이크로 어레이부(10)는 여러개(또는 다채널)의 마이크들로 구성된 마이크로 어레이(11)와, 여러 곳에 위치한 마이크들로부터 시간지연값들이 다른 음성신호를 입력받아 디지털화하는 아날로그-디지털 변환기(12)로 구성되어 있다.

그리고 자동음성 검출부(20)는 각 채널의 마이크로부터 입력된 음성신호 간의 시간지연 정보를 추정하는데 필요한 음성부분을 입력된 신호로부터 검출하는 기능을 한다.

시간지연 추정부(30)는 자동음성 검출부(20)로부터 검출된 각 채널별음성신호들 사이의 시간지연 정보를 추정하는 기능을 한다.

시간지연-신호가산기(40)는 채널간의 음성신호에 존재하는 시간지연을 상쇄시킨 후, 모든 채널의 음성신호를 가산하여 신호대 잡음비가 개선된 음성을 생성하는 기능을 한다.

제2도는 본 발명의 전체적인 원격음성입력 처리 흐름도이다.

이는 다채널의 마이크로 구성된 마이크 어레이로부터 입력되는 음성신호를 디지털신호로 변환하고(S10), 이렇게 변환된 각 채널의 음성신호 부분만을 검출한 후(S20), 그 검출한 채널별 음성신호간의 시간지연을 추정하고(S30), 이 추정에 의해 채널별로 시간지연이 다른 음성신호들을 시간지연이 동일하도록 처리한 다음 모든 채널의 음성신호를 가산하여 음성을 출력한다(S40).

상기한 시간지연 추정 과정(S30)을 제3도를 참조하여 보다 상세히 설명하면 다음과 같다.

시간지연 정보의 검출은 일정한 구간의 음성신호를 각 채널마다 동시에 추출한 다음, 기준 채널의 음성신호와 기타 채널의 음성신호 간의 시간지연 정보를 상호상관함수(cross-correlation function)를 구하여 추정한다.

시간지연정보 추정과정에서, 스텝31(S31)은 음성 프레임 추출과정으로서, 자동음성 검출장치로부터 음성부분을 검출한 후, 각 채널마다 동시에 N개의 음성샘플들로 구성된 음성 프레임을 추출한다.

스텝 32(S32)는 최대값, 최소값 검출과정으로서, 각 채널마다 추출된 N개의 음성샘플들로 구성된 음성 프레임들에 대해 음성샘플들의 채널별 최대값과 최소값을 구한다.

스텝 33(S33)은 센터클리핑(center clipping)과정으로서, 시간지연 정보의 추정과정에서 정확도를 높이기 위하여, 채널별 음성 프레임에 대하여 각각 센터클리핑 함수를 취한다. 센터클리핑은 음성샘플들에 대하여, 크기가 0부터 음성 프레임의 최대값과 최소값의 50~80%정도까지를 취한다. 즉, 수식으로 나타내면 다음과 같다.

여기서, x(n)은 음성 샘플값, y(n)은 센터클리핑 함수를 취한 출력값, C_min과 C_max는 클리핑 레벨로서, 각각 음성 프레임에 속한 음성샘플들의 최소값과 최대값에 정해진 비율(50~80%)을 곱한 것이다.

스텝 34(S34)는 상호상관 함수 계산과정으로, 센터클리핑된 각 채널별 음성 프레임에 대하여, 먼저, 기준채널을 정하고, 기준채널의 음성 프레임과 기타 채널의 음성 프레임 간에 상호상관 함수(crosscorrelation function)를 각각 구한다. 기준채널의 음성과 기타 채널의 음성간의 상호상관 함수의 수식은 다음과 같다.

여기서, x₀는 기준채널의 음성샘플을 나타내고, x_k는 기타 채널의 음성샘플을 나타낸다. 또한, M은 채널의 수를 나타내고, N은 음성 프레임의 크기를 나타낸다.

스텝 35(S35)는 시간지연 추정과정으로서, 구해진 상호상관 함수들의 최대값을 구한 후, 그때의 시간 τ를 기준채널과 기타 채널간의 시간지연값으로 정한다. 이를 식으로 나타내면 다음과 같다:

여기서, k는 기준채널을 제외한 기타 특정채널을 나타내고,는 기준채널의 음성신호의 기타 채널 k의 음성신호간의 상호상관 함수이다.

그리고 상기한 시간지연-신호가산과정(S40)을 제4도를 참조하여 설명하면 다음과 같다.

기준채널과 기타 채널간에 존재하는 시간지연을 상쇄시키기 위하여, 시간지연값의 음의 값만큼 역지연시켜 모든 채널의 음성신호를 시간적으로 동기화시킨 다음, 채널별 잡음레벨이 같도록 동기화시키고, 가산시켜 최종의 개선된 음성신호를 생성하는 역할을 한다.

스텝 41(S41)은 채널별로 존재하는 시간지연을 상쇄시키는 과정으로서, 시간지연값의 음의 값만큼 음성신호를 지연시켜서 채널간 음성신호들의 시간지연이 없도록 동기화시킨다.

스텝 42(S42)는 채널별로 잡음레벨의 차이를 정규화 해주는 과정으로서, 각 채널마다 음성신호에 잡음레벨 정규화 계수 배만큼 곱한다. 채널별 잡음레벨 정규화 계수 W_k는 다음과 같이 구해진다.

여기서, k는 마이크 어레이의 특정 채널을 나타내고,과은 각각 채널 k의 기준 채널의 비음성 구간에서의 잡음신호를 나타낸다. 또한, N은 비음성 잡음 프레임 크기이다.

스텝 43(S43)은 채널별로 시간지연이 상쇄되고 잡음레벨도 정규화된 음성신호들을 모든 채널에 걸쳐서 가산하고 채널 수만큼 나누어주는 과정이다. 상기한 스텝 41내지 스텝 43의 사항을 수식으로 나타내면 다음과 같다.

여기서, M은 마이크 어레이 채널수의 수를 나타내며, τk는 기준채널과 기타 채널 k간의 시간지연을 나타낸다.

이와같은 본 발명의 작용을 설명하면 다음과 같다.

본 발명은 마이크의 위치에 구애받지 않고 음성을 입력하기 위하여, 하나의 마이크를 사용하는 대신에, 여러개의 마이크를 사용하였다. 이와 같이 여러개의 마이크를 화자의 전면에 분산배치하면 입력할 수 있는 범위가 넓어진다. 여러개의 마이크들로 구성된, 마이크로 어레이(11)로부터 입력된 여러 채널의 음성신호들로부터 잡음이 감소된 깨끗한 음성신호를 생성하기 위하여, 채널별로 시간지연이 다른 음성신호들을 시간지연이 동일하도록 처리한 다음, 모든 채널의 음성신호를 가산하는 방법을 이용한다. 이와 같이 음성신호의 시간지연을 모든 채널에 걸쳐 동일하도록 처리한 후 가산하면, 동일한 모양의 파형을 하고 있는 각 채널의 음성신호들은 서로 중첩되어 파형의 크기가 채널수에 비례하고, 따라서, 음성파형의 제곱의 합으로 정의되는 음성신호의 전력성분은 채널수의 제곱에 비례하여 증가한다. 반면에, 각 채널에 음성신호의 함께 존재하는 잡음성분은 시간적으로 통계적 독립의 특성을 가질 때 잡음 고유의 랜덤한 특성 때문에, 각 채널의 성분을 가산하여도 잡음의 성분은 완전히 중첩되지 않는다. 따라서, 이 경우의 전력성분은 채널수에만 비례하여 증가한다. 따라서, 음성신호의 신호대 잡음비인(음성신호의 전력성분/잡음의 전력성분)은 채널의 수와 같다. 따라서, 각 채널간의 잡음이 통계적인 독립의 특성을 띠면, 최종적으로 신호처리된 음성신호는 마이크 수만큼의 신호대 잡음비의 이득을 얻는다.

본 발명에서는, 이와같은 방법을 이용하여 음성신호의 신호대 잡음비를 개선하였다.

이 방법을 이용할 경우에는, 각 채널간의 음성신호의 시간지연의 차이를 정확하게 검출하여야 한다.

이를 해결하기 위하여 본 발명에서는, 먼저, 자동음성 검출부(20)에서 각 채널로 입력되는 신호 중에서 음성신호 부분을 검출하였다. 채널별 음성신호 간의 시간지연을 측정하기 위하여, 시간지연 추정부(30)에서는 자동음성 검출부(20)에서 검출한 채널별 음성 프레임을 이용하여 채널간 시간지연을 추정하였다.

상기 시간지연 추정부(30)에서 적용한 기술인 최대/최소값 검출과정은 다음 단계인 센터클리핑 과정에서 필요한 센터 클리핑 레벨을 정하는데 사용된다. 센터클리핑 과정에서는, 음성신호의 파형에서 센터클리핑 레벨 안쪽의 부분을 0으로 할당하고, 바깥쪽 부분만 원래의 파형값으로 남긴다. 이렇게 함으로써, 음성신호에서 비교적 잡음에 민감함 부분인, 크기가 작은 파형을 제거함으로써, 다음 과정인 상호상관 관계를 이용하여 채널간 시간지연을 추정할 때 훨씬 정확한 결과를 구할 수 있다.

상호상관 함수의 계산과정에서는, 서로 다른 2채널의 음성 프레임을 대상으로 상호상관 함수를 계산하다. 상호상관 함수는 2채널로부터의 음성 프레임을 시간축 상에서 전후로 이동하면서 함수값을 계산하는데, 두 음성 프레임이 겹치는 위치(시간지연이 없는 어느 한 채널의 음성 프레임을 다른 채널 음성신호의 시간지연만큼 이동했을 때)에서 최대값을 나타낸다. 다음 단계인 시간지연 추정과정에서는, 구해진 상호상관 함수에서 최대값을 가지는 위치를 찾아 이 지점을 시간지연값으로 추정한다.

이 시간지연 추정과정이 끝나면, 시간지연-신호가산기(40)에 의해 각 채널마다 시간지연을 상쇄시키기 위하여 역지연 처리를 하고, 각 채널의 음성신호의 정규화 과정을 거친 후, 모든 채널의 음성신호를 대상으로 완전하게 중첩된 파형으로 가산시킨다. 이중에서, 정규화 과정음 모든 채널의 잡음 레벨의 크기가 동일하도록 채널의 신호레벨을 정규화하는 단계로서, 이 경우에 생성된 음성신호는 최고의 신호대 잡음비의 이득을 얻을 수 있다.

이상과 같은 본 발명은 음성인식 시스템을 사용할 때 사용자가 마이크의 위치에서 구애받지 않고 발성하여도 다채널 디지털 신호처리 기술을 이용하여 높은 신호대 잡음비의 음성을 음성인식시스템에 입력시켜 줌으로써, 기존의 하나의 마이크를 사용하는 음성입력장치에 비해서 보다 편리하게 잡음이 적게 인가된 양질의 음성을 입력시킬 수 있어, 음성인식시스템의 성능을 향상시킬 수 있는 장점이 있다.

본 발명은 사용자가 마이크의 위치에 비교적 주위를 기울이지 않고도 입력 음성신호가 높은 신호대 잡음비를 유지하도록 함으로써, 음성인식시스템이 높은 음성인식 성능을 갖도록 하는데 그 목적이 있다.

Claims

다채널의 마이크 어레이를 구비하고, 이 다채널의 마이크들로부터 시간지연 값들이 다른 음성신호를 동시에 입력받아 디지털신호로 변환하는 마이크로 어레이부(10)와; 상기 마이크로 어레이부(10)로부터 입력되는 다채널의 신호들로부터 음성신호를 검출하는 자동음성 검출부(20)와; 상기 검출된 각 채널간 음성신호들의 시간지연 정보를 추정하는 시간지연 추정부(30)와; 및 상기 추정된 시간지연 정보를 이용하여 신호대 잡음비가 향상된 음성을 생성해내기 위해 채널간의 음성신호에 존재하는 시간지연을 상쇄시킨 후 모든 채널의 음성신호를 가산하는 시간지연-신호가산기(40)로 구성된 것을 특징으로 하는 마이크 어레이를 이용한 원격음성입력장치.
제1항에 있어서, 상기 마이크 어레이의 채널수는 음성신호의 전력성분 대 잡음의 전력성분에 비례하도록 구성된 것을 특징으로 하는 마이크 어레이를 이용한 원격음성입력장치.
제1항에 있어서, 상기 시간지연 추정부(30)는 채널별 음성 프레임을 이용하여 채널간 시간지연을 추정하는 것을 특징으로 하는 마이크 어레이를 이용한 원격음성입력장치.
마이크 어레이를 구비한 원격음성입력 처리 방법에 있어서, 다채널의 마이크로 구성된 마이크어레이로부터 입력되는 음성신호를 디지털신호로 변환하는 제1과정과; 상기 변환된 각 채널로 음성신호 부분만을 검출하는 제2과정과; 상기 검출된 채널별 음성신호간의 시간지연을 추정하는 제3과정과; 및 상기 추정에 의해 채널별로 시간지연이 다른 음성신호들을 시간지연이 동일하도록 처리한 다음 모든 채널의 음성신호를 가산하여 음성을 출력하는 제4과정으로 이루어진 것을 특징으로 하는 원격음성입력 처리 방법.
제4항에 있어서, 상기 제3과정은 각 채널마다 동시에 N개의 음성샘플들로 구성된 음성 프레임을 추출하는 제1단계와; 상기 추출된 음성 프레임에 대해 음성샘플들의 채널별 최대값과 최소값을 구하는 제2단계와; 시간지연 정보의 정확한 추정을 위해 채널별 음성 프레임에 대하여 각각 센터클리핑을 하는 제3단계와; 상기 센터크리핑된 각 채널별 음성 프레임에 대해 기준 채널을 정한 후 그 기준채널의 음성 프레임과 기타 채널의 음성 프레임간에 상호상관 함수를 가각 구하는 제4단계와; 및 상기 구해진 상호상관함수들의 최대값을 구한 후, 그때의 시간을 기준채널과 기타채널간의 시간 지연값으로 추정되는 제5단계로 이루어지는 것을 특징으로 하는 원격음성입력 처리 방법.
제5항에 있어서, 상기 제3단계에서의 센터클리핑은 음성샘플들에 대해 크기가 0부터 음성 프레임의 최대값과 최소값의 소정 비율까지를 취하는 것을 특징으로 하는 원격음성입력 처리 방법.
제4항에 있어서, 상기 제4과정은 채널별로 존재하는 시간지연을 상쇄시키는 제1단계와; 상기 상쇄후, 채널별로 잡음레벨의 차이를 정규화해주는 제2단계와; 및 상기 채널별로 시간지연이 상쇄되고 잡음레벨도 정규화된 음성신호들을 모든 채널에 걸쳐 가산하고 채널수만큼 나누어 주는 제3단계로 이루어진 것을 특징으로 하는 원격음성입력 처리 방법.
제7항에 있어서, 상기 제1단계는 시간지연값의 음의 값만큼 음성신호를 지연시켜서 채널간 음성신호들의 시간지연이 없도록 동기화시키는 것을 특징으로 하는 원격음성입력 처리 방법.
제7항에 있어서, 상기 제2단계는 각 채널마다 음성신호에 잡음레벨 정규화계수 배만큼 곱하여 정규화하는 것을 특징으로 하는 원격음성입력 처리 방법.