KR20030046727A

KR20030046727A - 서브밴드 씨피에스피 알고리듬을 이용한 음원위치추정방법및 그 시스템

Info

Publication number: KR20030046727A
Application number: KR1020010076958A
Authority: KR
Inventors: 박규식; 오상헌; 박재현; 온승엽
Original assignee: 박규식; 오상헌; 박재현; 온승엽
Priority date: 2001-12-06
Filing date: 2001-12-06
Publication date: 2003-06-18

Abstract

본 발명은 음성입력수단에 의해 입력된 음성신호에 대하여 서브밴드 CPSP 알고리듬을 이용하여 음원의 위치를 추정하는 방법 및 그 시스템에 관한 것이다.

본 발명에 의한 서브밴드 CPSP알고리듬을 이용한 음원위치추정 방법은 소정의 위치에서 발생하는 음원의 위치를 추정하는 방법에 있어서, (a)복수개의 음성입력수단을 이용하여 입력받은 음성신호를 디지털신호로 변환하는 단계; (b)상기 디지털신호로 변환된 음성신호를 소정 개수의 서브밴드에 입력하고, 상기 각각의 서브밴드에서 상기 입력된 음성신호의 크로스 파워 스펙트럼 위상을 계산하는 단계; (c)상기 각각의 서브밴드의 크로스파워 스펙트럼 위상의 결과값에 대한 평균을 도출하는 단계; 및 (d)상기 도출된 크로스파워 스펙트럼 위상의 평균값을 이용하여 시간지연추정치를 계산하여 음원의 위치를 추정하는 단계를 포함함을 특징으로 한다.

본 발명에 의하면, 서브밴드 CPSP알고리듬을 사용함으로써 특정밴드의 영향이 미치는 잡음의 결과를 완화하는 방법을 제공하는 서브밴드 필터뱅크의 이점을 갖는다. 또한, 정확한 음성 위치추정 시스템을 구현하는 것이 가능하다.

Description

서브밴드 씨피에스피 알고리듬을 이용한 음원위치추정방법 및 그 시스템{Sound localization method and system using subband CPSP algorithm}

본 발명은 음성처리방법에 관한 것으로서, 보다 상세하게는 마이크로 입력되는 음성신호에 대한 음원의 위치를 추정하는 방법 및 장치에 관한 것이다.

음성 위치추정 기술(Sound localization technology)은 전화회의, 도청시스템, 핸즈프리 음성인식 등과 같은 기술의 향상을 위한 기초적인 기술이다. 이러한 응용기술들은 마이크 배열 기술로부터 음향신호처리에 의해 향상된 스피커 자동 위치선정과 같은 능력이 요구된다.

도 1은 일반적인 음원의 위치를 추정하는 방법을 도시한 것이다.

도 1에 도시된 바와 같이 밀폐된 방의 환경에서 음원의 위치추정방법은 2가지 주요 단계로 구성된다.

상기 위치추정시스템의 목적은 주어진 환경에서 발생하는 음향성분의 검출뿐만 아니라 음향성분을 발생시키는 음원의 위치를 추정하는 것이다.

첫 번째 단계는 두 개 또는 그 이상의 마이크 배열로부터 수신된 음성신호들 사이에서 도달시간지연(Time Delay of Arrival:이하 TDOA)를 추정하는 것이다.

두 번째 단계는 첫 번째 단계로부터 TDOA의 추정과 마이크 배열의 기하학적 조정을 이용하여 액티브 스피커 또는 음성 발생기의 3차원 위치(x,y,z)를 계산하는 것이다. 두 번째 단계의 정확성은 일련의 시간지연추정에서 초래되는 에러에 좌우된다.

실제 환경에 있어서, 음성의 위치추정능력은 두 가지 주요 이유로 인하여 감소한다. 하나는 환경잡음이고 또 다른 하나는 음향반사이다. 환기장치, 컴퓨터 냉각기, 냉장고 등과 같은 장치로부터 발생되는 환경잡음은 500Hz이하의 낮은 주파수이다. 이러한 종류의 환경잡음은 화자의 음성과 함께 마이크 배열로 입력되고, 정확한 도달시간지연의 추정을 어렵게 하고, 위치추정의 정확성에 영향을 미친다. 한편, 음향반사는 음성이 방안의 벽이나 다른 물체에 반사됨으로써 나타난다.

이러한 두 가지의 성능하락 요소는 화자의 음성에서 마이크 센서까지의 음성전달과정에서 발생하며, 화자의 음성에서 마이크 센서까지의 거리가 증가함으로써 더욱 중대한 영향을 미친다.

본 발명이 이루고자하는 기술적 과제는 환경잡음과 음향반사에 대한 성능저하를 방지하기 위하여 서브밴드 CPSP 알고리듬을 이용하여 음원의 위치를 추정하는 방법 및 시스템을 제공하는 것이다.

도 1은 음원의 위치추정방법을 도시한 것이다.

도 2는 2차원에서의 시간지연추정과 음원의 위치관계를 도시한 것이다.

도 3은 본 발명에 의한 서브밴드 CPSP알고리듬의 기본 구조를 도시한 것이다.

도 4는 본 발명에 의한 서브밴드 CPSP알고리듬을 이용한 음원위치추정시스템의 구성을 블록도로 도시한 것이다.

도 5는 본 발명에 의한 서브밴드 CPSP알고리듬을 이용한 음원위치추정방법에 대한 순서도를 도시한 것이다.

도 6은 실시간 서브밴드 음성위치추정시스템의 실험구성을 도시한 것이다.

도 7은 실시간 시뮬레이션을 위하여 실험실 환경구성을 도시한 것이다.

도 8은 1m, 2m, 3m에서의 음원위치에 대한 서브밴드 CPSP와 CPSP의 실험결과를 도시한 것이다.

상기 기술적 과제를 해결하기 위한 본 발명에 의한 서브밴드 CPSP알고리듬을 이용한 음원위치추정방법은 소정의 위치에서 발생하는 음원의 위치를 추정하는 방법에 있어서, (a)복수개의 음성입력수단을 이용하여 입력받은 음성신호를 디지털신호로 변환하는 단계; (b)상기 디지털신호로 변환된 음성신호를 소정 개수의 서브밴드에 입력하고, 상기 각각의 서브밴드에서 상기 입력된 음성신호의 크로스 파워 스펙트럼 위상을 계산하는 단계; (c)상기 각각의 서브밴드의 크로스파워 스펙트럼 위상의 결과값에 대한 평균을 도출하는 단계; 및 (d)상기 도출된 크로스파워 스펙트럼 위상의 평균값을 이용하여 시간지연추정치를 계산하여 음원의 위치를 추정하는 단계를 포함함을 특징으로 한다.

또한, 상기 복수개의 음성입력수단은 두 개의 마이크 배열임을 특징으로 한다.

또한, 상기 서브밴드는 상기 입력된 음성신호의 크로스 파워 스펙트럼 위상을 계산하는 복수개의 필터뱅크로 이루어짐을 특징으로 한다.

또한, 상기 (c)단계는

(는 두 개의 마이크로 입력된 음성신호,는 i번째 서브밴드에서의 크로스파워 스펙트럼 위상을 나타낸다.)

에 의해 도출됨을 특징으로 한다.

또한, 상기 (d)단계는 (d1)상기 크로스파워 스펙트럼 위상의 평균값에 대하여 역퓨리에 변환하여 교차상관을 구하는 단계; 및 (d2)상기 교차상관의 최대치를 구하는 단계를 포함하는 것을 특징으로 한다.

또한, 상기 (d1)단계는

에 의해 계산됨을 특징으로 한다.

상기 다른 기술적 과제를 해결하기 위한 본 발명에 의한 서브밴드 CPSP알고리듬을 이용한 음원위치추정시스템은 소정의 위치에서 발생하는 음원의 위치를 추정하는 시스템에 있어서, 소정의 거리만큼 이격되어 음성신호를 수신하는 복수개의 마이크; 상기 복수개의 마이크로부터 수신된 음성신호를 서브밴드를 이용하여 크로스 파워 스펙트럼 위상을 구하여 음원의 위치를 추정하는 신호처리수단; 상기 신호처리부로부터 추정된 결과치를 디스플레이하는 디스플레이수단을 포함함을 특징으로 한다.

또한, 상기 신호처리수단은 복수개의 마이크를 통해 수신된 음성신호를 증폭하는 증폭부; 상기 증폭된 음성신호를 디지털신호로 변환하는 아날로그-디지털 변환기; 상기 변환된 디지털 음성신호를 입력받아 크로스 파워 스펙트럼 위상의 평균치를 구하고, 상기 평균치의 최대값을 이용하여 음원의 위치를 추정하는 디지털신호처리부; 및 상기 디지털신호처리부로부터 출력된 음원의 위치 추정치를 전송하는 RS232C를 포함함을 특징으로 한다.

또한, 상기 디지털신호처리부는 상기 변환된 디지털 음성신호를 입력받아 크로스 파워 스펙트럼 위상을 구하는 밴드패스 필터뱅크; 및

상기 크로스 파워 스펙트럼 위상의 평균치를 계산하고, 상기 크로스파워 스펙트럼 위상의 평균치에 대하여 역퓨리에 변환하여 교차상관을 계산하고, 상기 교차상관의 최대치를 계산하여 시간지연을 추정하는 음원추정부를 포함함을 특징으로 한다.

또한, 상기 크로스 파워 스펙트럼 위상의 평균치는

에 의해 도출됨을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명을 구체적으로 설명하기로 한다.

먼저, 발명에 대한 이해를 돕기 위해 기본적인 음성위치추정 기술에 대하여 설명하고, 실시예를 들어 본 발명을 상세하게 설명하기로 한다.

도 2는 2차원에서의 시간지연추정과 음원의 위치관계를 도시한 것으로, 주어진 음원신호 s(t)가 일반적인 잡음과 음향반사 환경에서 전파되는 모습을 도시한 것이다.

2개의 마이크()에서 수신된 신호는 수학식 1과 같이 표현된다.

여기서, τ는 2개의 마이크 사이의 도착 시간 지연과 관계가 있고,는 각각의 마이크로부터 발생하는 잡음신호이다.

음성 위치추정의 첫 번째 단계의 목적은 시간지연(τ)을 결정하는 것이고, 두 번째 단계는 첫 번째 단계로부터 얻은 시간지연(τ)과 수학식 2와 같이 마이크 배열의 기하학적 조정을 이용하여 음원의 위치가 추정될 수 있다.

는 340m/sec의 음속이고,는 두 개의 마이크의 중심으로부터 음원의 방위각을 나타낸다.

수학식 2에서 보여진 바와 같이 음원위치추정의 정확성은 대개 첫 번째 단계의 시간지연(τ)의 추정에 좌우된다.

그러므로 음성 위치추정 기술의 대부분의 노력은 주로 마이크 배열 사이의 시간지연 추정에 초점이 맞추어진다.

여기서,는 입력 크로스 파워 스펙트럼이다. 그리고, 수학식 3의 최대치인 변수 τ는 시간지연 추정에 제공된다.

하지만, 교차상관(cross-correlation)방법은 환경잡음과 음향반사에서 심각한 문제를 야기한다.

많은 시간지연 추정 알고리듬 중에서 크로스 파워 스펙트럼 위상(Cross-Power Spectrum Phase:CPSP)은 환경잡음에서 단순하고 신뢰할 수 있는 시간지연 추정 결과를 얻을 수 있다.

CPSP방법은 수학식 4와 수학식 5에서 나타난 일반적인 교차상관의 최대치인 시간지연(τ)을 추정하는 것이다.

여기서,는 입력 신호 파워 스펙트럼의 역으로서 정의된 가중치 함수이다.

음원 신호와 백색잡음 사이의 불상관도(uncorrelatedness)의 가정에 기인하여, 수학식 4가 수학식 6과 같이 표현된다.

그리고, 다시 시간지연 추정 τ는 수학식 6의 최대치를 구하기 위하여 선택된다.

도 3은 본 발명에 의한 서브밴드 CPSP 알고리듬의 기본 구조를 도시한 것이다.

도 3에서,는 두 개의 마이크에서 수신된 음성신호이다.는 N개의 서브밴드 밴드패스 필터 뱅크를 나타내고,과은 밴드패스 필터를 통과한 후의 신호를 나타낸다.

도 3에 의해 도시된 바와 같이 상기 알고리듬의 최종 결과는 수학식 7에 의해 각각의 서브밴드 CPSP의 평균에 의해 계산된다.

여기서,는 i번째 서브밴드에서의 크로스파워 스펙트럼 위상을 나타낸다.

그리고, 수학식 7을 역퓨리에 변환함으로써, 서브밴드 CPSP의 일반적인 교차상관(cross-correlation)이 수학식 8처럼 표현된다.

그리고, 요구되는 시간지연 추정은 수학식 8에서 일반적인 교차상관의 최대값(τ)을 구하는 것이다.

도 4는 본 발명에 의한 서브밴드 CPSP알고리듬을 이용한 음원위치추정시스템의 구성을 블록도로 도시한 것으로, 마이크(410), 신호처리수단(420) 및 디스플레이수단(430)으로 이루어진다.

마이크(410)는 음성신호를 입력받는 수단으로, 소정의 거리만큼 이격되어 복수개가 설치된다. 본 발명의 실험을 위하여 2개의 마이크가 배열된다.

신호처리수단(420)은 상기 복수개의 마이크(410)로부터 수신된 음성신호를 도 3에 도시된 서브밴드를 이용하여 크로스 파워 스펙트럼 위상을 구하여 음원의위치를 추정하는 수단이다. 이러한 상기 신호처리수단(420)은 복수개의 마이크를 통해 수신된 음성신호를 증폭하는 증폭부(421), 상기 증폭된 음성신호를 디지털신호로 변환하는 아날로그-디지털 변환기(423), 상기 변환된 디지털 음성신호를 입력받아 수학식 7에 의하여 크로스 파워 스펙트럼 위상의 평균치를 구하고, 상기 평균치의 최대값을 이용하여 음원의 위치를 추정하는 디지털신호처리부(425) 및 상기 디지털신호처리부(425)로부터 출력된 음원의 위치 추정치를 전송하는 RS232C(427)로 이루어진다.

여기서, 상기 디지털신호처리부(425)는 상기 변환된 디지털 음성신호를 입력받아 크로스 파워 스펙트럼 위상을 구하는 밴드패스 필터뱅크 및 상기 크로스 파워 스펙트럼 위상의 평균치를 계산하고, 상기 크로스파워 스펙트럼 위상의 평균치에 대하여 역퓨리에 변환하여 교차상관을 수학식 8을 이용하여 계산하고, 상기 교차상관의 최대치를 계산하여 시간지연을 추정하는 음원추정부로 이루어진다.

디스플레이수단(430)은 상기 신호처리수단(420)으로부터 추정된 결과치를 디스플레이하는 수단으로, 본 발명에서는 PC를 사용한다.

먼저, 복수개의 음성입력수단를 이용하여 입력받은 음성신호를 디지털신호로 변환한다(S510).

본 발명에서는 2개의 마이크 배열을 이용하여 발생된 음성신호 입력받는다. 그리고, 상기 입력된 음성신호를 도 4에 도시된 바와 같이 증폭기(421)를 사용하여증폭하고, 아날로그-디지털변환기(423)를 사용하여 아날로그 음성신호를 디지털신호로 변환한다.

상기 디지털신호로 변환된 음성신호를 도 3에 도시된 바와 같이 소정 개수의 서브밴드에 입력하고, 상기 각각의 서브밴드에서 상기 입력된 음성신호의 크로스 파워 스펙트럼 위상을 계산한다(S520).

상기 각각의 서브밴드의 크로스파워 스펙트럼 위상에 대한 평균을 상기 수학식 7을 이용하여 계산하게 된다(S530).

상기 크로스파워 스펙트럼 위상에 대한 평균을 역퓨리에 변환하여 교차상관값을 상기 수학식 8을 이용하여 계산한다(S540).

상기 교차상관의 최대치를 구하여 시간지연추정치를 계산하고, 음원의 위치를 추정한다(S550).

두 개의 마이크가 실제음성을 포착하기 위하여 0.3m 떨어져 위치한다. 수신된 마이크 신호는 시스템의 아날로그 입력부에 연결되고, LM2904 연산증폭기를 사용하여 증폭시킨다. 음원방향의 실질적인 추정은 TI TM320C31 DSP에서 실행된다. 추정결과는 RS-232c 직렬포트를 통해 PC에 전송되어 디스플레이되고 저장된다.

알고리듬의 성능을 평가하기 위하여, 본 발명에 의한 시스템이 약 5×6미터 크기의 방에 설치되고, 방의 좌측에 두 대의 PC가 책상 위에 놓여 있고, 냉장고가 위치한다. PC와 냉장고를 설치하는 이유는 일반 사무실 환경에서 잡음원(noisesource)을 모의 실험하기 위한 것이다.

모의 실험을 위해서, 남성과 여성의 대화식 음성이 포함되는 30분 길이의 영어 회화 테이프가 테스트 음성으로 사용되고, 미리 결정된 위치에서 반복되어 재생된다.

입력음성신호는 먼저 8192Hz에서 샘플링되고, 입력음성데이터의 2048-샘플(0.25 sec) 프레임이 수집되고, 서브밴드 CPSP는 0.75 sec에서 실행된다. 그러므로 시스템은 매 1sec 마다 출력음원의 방향을 산출한다.

실험을 위하여, 음원은 마이크 쌍의 중심으로부터 1m, 2m, 3m의 세 개의 다른 거리를 갖고, -60°, -45°, -35°, -25°, 25°, 35°, 45°, 60°의 8개의 다른 각도를 갖고 위치된다.

실험은 각각의 음원방향 위치에서 300번 실행되고, 총 2400번의 실험이 각각의 거리에서 실행된다.

시간지연추정의 정수값은 ±25°의 추정된 음원방향을 갖는 3 샘플 지연과 ±45°의 추정된 음원방향을 갖는 5 샘플 지연처럼 각각 추정된 음원방향이 된다.

모의 실험을 위하여, 서브밴드 CPSP 알고리듬은 로우(Low), 미들(Middle), 하이(High) 밴드로 입력신호가 분할된 N=3의 서브밴드 필터뱅크를 실행시킨다.

도 8a는 마이크로부터 1m 떨어진 거리에 있어서, 서브밴드 CPSP와 CPSP 모두 60%이상의 검출능력을 보여준다. 그리고 서브밴드 CPSP는 CPSP 보다 2-3%이상의 나은 성능을 보여준다.

도 8b는 마이크로부터 2m 떨어진 거리에서의 실험결과치를 보여준다. 그리고 서브밴드 CPSP는 CPSP 보다 나은 성능을 보여준다.

도 8c는 마이크로부터 3m 떨어진 거리에서의 실험결과치를 보여준다. 도 9c는 1m, 2m 떨어진 거리에서의 성능보다 다소 낮은 성능을 보인다. 그 주된 이유는 음원의 거리가 좀더 길어짐으로써 환경잡음파워의 증가에 관계되기 때문이다.

도면과 명세서는 단지 본 발명의 예시적인 것으로서, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

소정의 위치에서 발생하는 음원의 위치를 추정하는 방법에 있어서,

(a)복수개의 음성입력수단을 이용하여 입력받은 음성신호를 디지털신호로 변환하는 단계;

(b)상기 디지털신호로 변환된 음성신호를 소정 개수의 서브밴드에 입력하고, 상기 각각의 서브밴드에서 상기 입력된 음성신호의 크로스 파워 스펙트럼 위상을 계산하는 단계;

(c)상기 각각의 서브밴드의 크로스파워 스펙트럼 위상의 결과값에 대한 평균을 도출하는 단계; 및

(d)상기 도출된 크로스파워 스펙트럼 위상의 평균값을 이용하여 시간지연추정치를 계산하여 음원의 위치를 추정하는 단계를 포함함을 특징으로 하는 서브밴드 CPSP알고리듬을 이용한 음원위치추정방법.
제1항에 있어서, 상기 복수개의 음성입력수단은

소정의 거리만큼 이격되어 설치된 마이크 배열임을 특징으로 하는 서브밴드 CPSP알고리듬을 이용한 음원위치추정방법.
제1항에 있어서, 상기 서브밴드는

상기 입력된 음성신호의 크로스 파워 스펙트럼 위상을 계산하는 복수개의 필터뱅크로 이루어짐을 특징으로 하는 서브밴드 CPSP알고리듬을 이용한 음원위치추정방법.
제1항에 있어서, 상기 (c)단계는

(는 두 개의 마이크로 입력된 음성신호,는 i번째 서브밴드에서의 크로스파워 스펙트럼 위상을 나타낸다.)

에 의해 도출됨을 특징으로 하는 서브밴드 CPSP알고리듬을 이용한 음원위치추정방법.
제1항에 있어서, 상기 (d)단계는

(d1)상기 크로스파워 스펙트럼 위상의 평균값에 대하여 역퓨리에 변환하여 교차상관을 구하는 단계; 및

(d2)상기 교차상관의 최대치를 구하는 단계를 포함하는 것을 특징으로 하는 서브밴드 CPSP알고리듬을 이용한 음원위치추정방법.
제5항에 있어서, 상기 (d1)단계는

에 의해 계산됨을 특징으로 하는 서브밴드 CPSP알고리듬을 이용한 음원위치추정방법.
소정의 위치에서 발생하는 음원의 위치를 추정하는 시스템에 있어서,

소정의 거리만큼 이격되어 음성신호를 수신하는 복수개의 마이크;

상기 복수개의 마이크로부터 수신된 음성신호를 서브밴드를 이용하여 크로스 파워 스펙트럼 위상을 구하여 음원의 위치를 추정하는 신호처리수단;

상기 신호처리부로부터 추정된 결과치를 디스플레이하는 디스플레이수단을 포함함을 특징으로 하는 서브밴드 CPSP알고리듬을 이용한 음원위치추정 시스템.
제7항에 있어서, 상기 신호처리수단은

복수개의 마이크를 통해 수신된 음성신호를 증폭하는 증폭부;

상기 증폭된 음성신호를 디지털신호로 변환하는 아날로그-디지털 변환기;

상기 변환된 디지털 음성신호를 입력받아 크로스 파워 스펙트럼 위상의 평균치를 구하고, 상기 평균치의 최대값을 이용하여 음원의 위치를 추정하는 디지털신호처리부; 및

상기 디지털신호처리부로부터 출력된 음원의 위치 추정치를 전송하는 RS232C를 포함함을 특징으로 하는 서브밴드 CPSP알고리듬을 이용한 음원위치추정 시스템.
제7항에 있어서, 상기 디지털신호처리부는

상기 변환된 디지털 음성신호를 입력받아 크로스 파워 스펙트럼 위상을 구하는 밴드패스 필터뱅크; 및

상기 크로스 파워 스펙트럼 위상의 평균치를 계산하고, 상기 크로스파워 스펙트럼 위상의 평균치에 대하여 역퓨리에 변환하여 교차상관을 계산하고, 상기 교차상관의 최대치를 계산하여 시간지연을 추정하는 음원추정부를 포함함을 특징으로 하는 서브밴드 CPSP알고리듬을 이용한 음원위치추정시스템.
제9항에 있어서, 상기 크로스 파워 스펙트럼 위상의 평균치는

(는 두 개의 마이크로 입력된 음성신호,는 i번째 서브밴드에서의 크로스파워 스펙트럼 위상을 나타낸다.)

에 의해 도출됨을 특징으로 하는 서브밴드 CPSP알고리듬을 이용한 음원위치추정시스템.
제9항에 있어서, 상기 교차상관은

에 의해 계산됨을 특징으로 하는 서브밴드 CPSP알고리듬을 이용한 음원위치추정시스템.