KR100754384B1

KR100754384B1 - 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템

Info

Publication number: KR100754384B1
Application number: KR1020030070981A
Authority: KR
Inventors: 최창규; 공동건; 이본용; 방석원
Original assignee: 삼성전자주식회사
Priority date: 2003-10-13
Filing date: 2003-10-13
Publication date: 2007-08-31
Also published as: US7835908B2; KR20050035562A; US20050080619A1

Abstract

잡음에 강인한 화자위치 추정방법 및 장치가 개시된다. 화자위치 추정장치는 마이크로폰 어레이로부터 출력되는 음성신호로부터 검출되는 음성발성구간과 음성비발성구간에 대한 제1 및 제2 의사전력 스펙트럼의 차이스펙트럼을 획득하는 차이스펙트럼 획득유니트, 및 상기 차이스펙트럼 획득유니트로부터 제공되는 차이스펙트럼과 상기 제1 의사전력 스펙트럼 중 어느 하나에서 피크치를 검출하고, 검출된 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 화자방향 추정유니트로 이루어진다.

Description

잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한 카메라 제어시스템 {Method and apparatus for robust speaker localization and camera control system employing the same}

도 1은 본 발명에 따른 화자위치 추정장치의 일 실시예의 구성을 나타내는 블럭도,

도 2는 본 발명에 따른 화자위치 추정장치의 다른 실시예의 구성을 나타내는 블럭도,

도 3은 도 1 및 도 2에 있어서 음성발성구간 검출부의 동작을 보여주는 상태도,

도 4a 및 도 4b는 클린환경과 잡음환경에 대하여 신호대 잡음비에 따른 단일프레임 음성발성구간 검출의 특성을 비교한 그래프,

도 5a 및 도 5b는 제1 내지 제5 파라미터의 문턱값 선형보간을 설명하는 그래프,

도 6은 본 발명에 따른 음성발성구간 검출결과를 보여주는 그래프,

도 7a 내지 도 7c는 일반적인 MUSIC 알고리즘에 의한 화자방향 검출결과와 도 1에 도시된 본 발명에 따른 화자방향 검출결과를 비교하기 위한 그래프,

도 8은 본 발명에 따른 화자위치 추정방법의 일 실시예의 동작을 설명하는 흐름도,

도 9는 본 발명에 따른 화자위치 추정방법의 다른 실시예의 동작을 설명하는 흐름도,

도 10a 내지 도 10c는 도 9에 있어서 917 단계의 의미를 설명하는 그래프,

도 11a 및 도 11b는 도 9에 있어서 919 단계의 의미를 설명하는 그래프,

도 12는 본 발명에 따른 화자위치 추정방법의 일 실시예에 의하여 얻어지는 방향각을 보여주는 그래프,

도 13는 본 발명에 따른 화자위치 추정방법의 다른 실시예에 의하여 얻어지는 방향각을 보여주는 그래프,

도 14는 본 발명에 따른 화자위치 추정장치를 적용한 카메라 제어시스템의 일실시예의 구성을 나타낸 블럭도, 및

도 15는 본 발명에 따른 화자위치 추정장치를 적용한 카메라 제어시스템의 다른 실시예의 구성을 나타낸 블럭도이다.

본 발명은 화자위치 추정에 관한 것으로서, 특히 음성발성구간과 의사전력 스펙트럼과 비음성발성구간의 의사전력 스펙트럼 간의 차이 스펙트럼(spectral subtraction)을 이용하여 잡음에 강인하게 화자위치를 추정하기 위한 방법 및 장치와 이를 적용한 카메라 제어시스템에 관한 것이다

근래 들어 건강, 안전, 홈 네트워크, 엔터테인먼트 등의 필요성에 의해 실내 환경에서 작동하는 이동로봇은 많은 관심의 대상이 되고 있다. 이러한 이동로봇은 사람과 로봇간의 상호작용(HRI:human-robot interaction)이 필수적이다. 로봇은 마이크, 비젼시스템, 초음파센서, 적외선센서, 레이저센서 등을 구비하고 있으며, 이들을 이용하여 사람을 인식하고 주변 상황을 인지할 수 있어야 한다. 특히, 자신의 주위에서 말하는 사람의 위치를 알아야 하고, 그 사람이 하는 말을 이해할 수 있어야만 사람과 로봇간의 상호작용이 효율적으로 구현될 수 있다.

이동로봇에게 음성 및 소리 입력시스템은 HRI 뿐만 아니라 자율주행에 필수적인 요소이다. 실내환경에서 음성 입력시스템에 야기되는 중요한 문제는 잡음, 반향 및 거리이다. 실내환경에서는 여러가지 잡음원과 벽이나 기타 사물에 의한 반향이 존재한다. 거리에 따라서 음성의 저주파성분은 고주파성분에 비해 더 많이 감쇄하는 특징이 있다. 잡음이 존재하는 실내환경에서 HRI에 필요한 음성입력시스템은 자율주행하는 이동로봇이 수 미터 떨어진 거리에서 사용자의 목소리를 받아들여 사용자의 위치를 파악할 수 있어야 하며, 음성향상 및 잡음제거를 거쳐 음성인식에 직접적으로 사용될 수 있어야 한다.

일반적으로 음원방향 추정방식에는 크게 빔포머(Beamformer)에 기반한 방법, 도달시간차(TDOA:Time Delay Of Arrival)에 기반한 방법과 스펙트럼 추정에 기반한 방법 등이 있다. 빔포머에 기반한 방법은 첫째, 잡음의 주파수 성분뿐만 아니라 음원의 주파수 성분을 사전에 알고 있어야 하고, 둘째, 최소화해야 하는 목적 함수가 광역적인 최소값 하나만을 가지지 않고 종종 여러 개의 지역적인 최소값을 가질 수 있다는 등의 단점이 있다. 따라서, 이 빔포머에 기반한 방법은 음원방향 추정에는 적합하지 않다.

한편, TDOA에 기반한 방법은 통상적으로 두개의 마이크를 사용하여 음원으로부터 마이크까지 도달하는 신호의 시간차를 구해서 음원방향을 추정하는 방법으로서, GCC(General Cross-Correlation)를 대표적으로 들 수 있다. 이 방법은 반향이 존재하는 경우에는 성능이 급격히 나빠지고 배경잡음의 특성에 영향을 크게 받는 문제점이 있다. 뿐만 아니라 일반적으로 마이크를 두 개만 사용하고 자유공간(free space)에서만 적용가능하다는 제약조건이 있다. 따라서, 360도 전 방향을 커버하기 위하여 로봇의 몸체의 둘레에 다수개의 마이크를 배치함으로써 음원으로부터 각각의 마이크까지의 직접경로(direct path)가 존재하지 않는 경우가 있으면, 부정확한 시간차가 얻어지므로 TDOA 방법은 사용하기가 부적합하다.

한편, 스펙트럼 추정에 기반한 방법은 마이크로폰 어레이에 입사된 신호의 주파수 성분을 추정 및 분석하여 음원의 입사방향을 알아내는 방법이다. 이러한 방법에는 자기회귀(Autoregressive) 방법, 최소분산(Minimum Variance) 방법 및 부분공간(Subspace) 방법이 있다. 이중에서도 부분공간을 이용하는 방법은 반드시 자유공간에서만 적용가능하다는 제약조건에서 비교적 자유롭기 때문에 서비스 로봇이 동작하는 실내환경에 적용하기 용이하다는 장점이 있다. 부분공간을 이용한 방법에는 MUSIC(MUltiple SIgnal Classification) 및 ESPRIT(Estimation of Signal Parameters via Rotationally Invariant Techniques) 등의 방법이 있으며, 그 중에서도 MUSIC 알고리즘이 가장 널리 사용되고 성능도 뛰어난 것으로 알려져 있다. 여기서, MUSIC 알고리즘은 R. O. Schmidt에 의한 논문 “Multiple Emitter Location and Signal Parameter Estimation,” IEEE Trans. Antenna Propag., vol. AP-34, pp. 276-280, March, 1986에 자세히 개시되어 있으며, ESPRIT 알고리즘은 R. Roy 및 T. Kailath에 의한 논문 “Estimation of Signal Parameters via Rotational Invariance Techniques,” IEEE Trans. Acoust., Speech Process., vol. ASSP-37, pp. 984-995, 1989에 자세히 개시되어 있다.

이 중, MUSIC 알고리즘에 따르면, 마이크로폰 어레이를 구성하는 M개의 마이크로부터 음성신호를 입력받고, 각각의 마이크로폰의 음성신호를 일정한 길이를 갖는 구간으로 분할한다. 이후, 각 분할된 구간의 음성신호에 대하여 MM 공분산행렬을 구하고, 공분산행렬을 고유치분해((Eigenvalue Decomposition) 방법을 이용하여 잡음 부분공간에서의 기저벡터를 얻고, 잡음 부분공간에서의 기저벡터에 미리 얻어진 위치벡터를 프로젝션시켜 의사전력 스펙트럼을 얻는다. 이때, 음원이 위치한 방향에 해당하는 위치벡터가 잡음 부분공간에서의 기저벡터에 프로젝션될 때 ‘0’에 가까운 작은 값을 가지므로, 그 방향의 의사전력 스펙트럼은 매우 큰 값을 가진다. 최종적으로 360도를 커버하는 의사전력 스펙트럼에서 피크치들을 찾으면 그 피크치에 해당하는 방향각이 각각의 음원이 위치하는 방향이 된다.

그런데, MUSIC 알고리즘은 이론상으로는 마이크로폰 어레이에 사용된 마이크의 갯수보다 적은 갯수의 음원들에 대하여 각 음원의 방향을 찾을 수 있다. 설명의 편이를 위하여 하나의 음성원(화자)과 하나의 잡음원이 존재하는 것으로 가정할 경우, 통상적으로 가장 큰 피크치를 갖는 방향을 화자의 방향으로 결정한다. 그러나, 잡음환경에서는 잡음과 음성의 방향 모두를 추정할 수 있지만, 둘 중 어느 방향이 찾고자 하는 화자의 방향인지 구별하는 것이 불가능하다. 예를 들어 잡음의 전력이 음성의 전력보다 커서 의사전력 스펙트럼의 크기가 가장 큰 방향을 음성 방향으로 추정할 경우에는 잡음의 방향을 음성의 방향으로 오인하게 되는 경우가 발생하는 문제가 있다.

따라서, 본 발명이 이루고자 하는 기술적 과제는 음성발성구간과 의사전력 스펙트럼과 비음성발성구간의 의사전력 스펙트럼 간의 차이 스펙트럼을 이용하여 잡음에 강인하게 화자위치를 추정하기 위한 방법 및 장치를 제공하는데 그 목적이 있다.

본 발명의 다른 목적은 상기와 같은 화자위치 추정장치를 적용한 감시카메라 시스템을 제공하는데 있다.

상기 목적을 달성하기 위하여 본 발명에 따른 화자위치 추정방법은 마이크로폰 어레이로부터 출력되는 음성신호로부터 검출되는 음성발성구간과 음성비발성구간에 대한 제1 및 제2 의사전력 스펙트럼의 차이스펙트럼을 획득하는 단계; 및 상기 차이스펙트럼과 상기 제1 의사전력 스펙트럼 중 어느 하나에서 피크치를 검출하고, 검출된 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 단계를 포함하는 것이 바람직하다.

상기 목적을 달성하기 위하여 본 발명에 따른 화자위치 추정장치는 마이크로폰 어레이로부터 출력되는 음성신호로부터 검출되는 음성발성구간과 음성비발성구간에 대한 제1 및 제2 의사전력 스펙트럼의 차이스펙트럼을 획득하는 차이스펙트럼 획득수단; 및 상기 차이스펙트럼 획득수단으로부터 제공되는 차이스펙트럼과 상기 제1 의사전력 스펙트럼 중 어느 하나에서 피크치를 검출하고, 검출된 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 화자방향 추정수단을 포함하는 것이 바람직하다.

상기 다른 목적을 달성하기 위하여 본 발명에 따른 감시카메라 시스템은 마이크로폰 어레이로부터 출력되는 음성신호로부터 검출되는 음성발성구간과 음성비발성구간에 대한 제1 및 제2 의사전력 스펙트럼의 차이스펙트럼과 상기 제1 의사전력 스펙트럼 중 어느 하나에서 피크치를 검출하고, 검출된 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 음원방향 추정부; 및 상기 음원방향 추정부에 추정된 화자의 방향에 따라서 카메라 구동모터를 제어하는 구동모터 제어부를 포함하는 것이 바람직하다.

상기 방법은 바람직하게는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현할 수 있다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예에 대하여 보다 상세히 설명하기로 한다.

먼저, MUSIC 음원방향 추정기술에 대하여 개략적으로 설명하기로 한다.

마이크어레이에 수신된 신호(x(k))를 주파수 도메인에서 표현하면 다음 수학식 1과 같다.

[수학식 1]

여기서, a(

,k)와 n(k)는 각각 다음 수학식 2 및 3으로 나타낼 수 있다.

[수학식 2]

[수학식 3]

상기 수학식 1 내지 3에 있어서, L은 각각 마이크어레이에 입사되는 음원의 수, M은 마이크어레이의 마이크 수, k는 이산 주파수 인덱스,

는 m번째 마이크에 수신되는 전방향(omnidirectional) 잡음, 또는 측정 잡음,

은 l 번째 음원의 입사방향,

은 l 번째 음원과 m번째 마이크 사이의 전달함수(transfer function),

과

은 각각 l 번째 음원이 m번째 마이크에 도달할 때까지의 감쇄정도와 지연시간을 나타낸다. l 번째 음원의 입사방향

이 정해지면

이 정해지므로 시간지연(

)을 추정하는 것과 l 번째 음원의 입사방향(

)을 추정하는 것은 동일한 문제가 된다.

다음, 부분공간 방법을 이용하기 위해서는 x(k)의 공간공분산행렬(Spatial Covariance Matrix) R(k)를 구해야 하는데, R(k)는 다음 수학식 4와 같이 정의된다.

[수학식 4]

그런데, 실제로는 R(k)를 정확하게 구할 수 없고, 그 추정치

만을 다음 수학식 5에 의해 구할 수 있다.

[수학식 5]

여기서, g는 g 번째 프레임을 나타내고, G는 평균을 구하는데 사용된 총 프레임 수를 나타낸다. 신호의 부분공간과 잡음의 부분공간은 다음 수학식 6 내지 8에서와 같이

의 고유치분해(Eigenvalue Decomposition) 방법을 통해서 구할 수 있다.

[수학식 6]

[수학식 7]

[수학식 8]

의 고유치의 처음 L(<M)개는 나머지 값들에 비해서 상당히 큰 값을 가지고, 나머지 (M-L)개의 고유치들의 값은 이에 비해서 상당히 작으면서 비슷한 값들을 가지게 된다. 이 작은 (M-L)개의 고유치에 고유벡터

는 잡음 부분공간의 기저벡터(Basis Vector)가 된다. 여기서,

로 정의하면, MUSIC 알고리즘의 의사전력 스펙트럼(Pseudo-power spectrum)은 다음 수학식 9 및 10과 같이 정의된다.

[수학식 9]

[수학식 10]

여기서, P( ,k)는 k번째 이산 주파수에 해당하는 의사전력 스펙트럼이고, P( )는 P( ,k)의 모든 주파수에 대한 평균값이다. 한편, 음원방향

은 P( )의 L개의 최고치에 해당하는 값이다.

한편, 상기 수학식 2로 표현되는 위치벡터

에서

은 자유공간 근거리 음원에 대해서는

이고, 원거리 음원에 대해서는 1이다. 여기서,

은 l 번째 음원과 m번째 마이크 간의 거리이다. 그러나, 마이크는 이동로봇의 몸체에 부착되어 있어 자유공간 조건이 아니기 때문에

을 이론적으로 알기 어렵다. 따라서, 본 발명에서는 위치벡터

를 실제 음원과 마이크 어레이간의 전달함수를 이용하여 구한다.

도 1은 본 발명에 따른 화자위치 추정장치의 일 실시예의 구성을 나타내는 블럭도로서, 음성발성구간 검출부(111), 위치벡터 데이터베이스(112), 제1 스펙트럼 획득부(113), 제2 스펙트럼 획득부(114), 감산부(115) 및 최대 피크치 검출부(116)로 이루어진다.

도 1을 참조하면, 음성발성구간 검출부(111)는 마이크로폰 어레이로부터 출력되는 음성신호를 프레임 단위로 입력하여 음성발성구간을 검출하고, 검출된 음성발성구간을 이용하여 음성비발성구간을 검출한다. 여기서, 음성발성구간은 음성과 잡음이 함께 존재하는 구간이며, 음성비발성구간은 잡음만이 존재하는 구간으로 간주한다. 음성발성구간이 검출되면, 음성발성구간 이전으로 T1개 만큼의 샘플을 건너뛴 다음 그 이전 T2개 만큼의 샘플을 음성비발성구간으로 설정한다. 예를 들어, 16KHz 샘플링레이트인 경우 T1=2000, T2=5000으로 설정할 수 있다. 음성발성구간을 검출하기 위해서는 단일 프레임에 음성이 있을 확률을 알려주는 SFVAD_P(Single Frame Voice Activity Detection_Probability)를 이용하며, 다수의 프레임에 걸쳐 SFVAD_P를 체크함으로써 실제의 음성발성구간을 검출한다. SFVAD 알고리즘은 신호대잡음비(SNR)에 기반하기 때문에 음성 뿐만 아니라 SNR이 높은 신호에 대해선 모두 높은 값의 SFVAD_P가 주어지기 때문에 단일 프레임에 대한 SFVAD_P 값만으로는 음성발성구간을 검출하는 것이 어려울 뿐 아니라 오검출의 가능성이 크기 때문에 다수의 프레임에 대하여 SFVAD_P를 체크한다. 이 음성발성구간 검출부(111)의 세부적인 동작은 도 3을 참조하여 후술하기로 한다. 한편, SFVAD 알고리즘에 대해서는 Nam-Soo Kim과 Joon-Hyuk Chang에 의한 논문 “Spectral Enhancement Based on Global Soft Decision,” IEEE Signal Processing Letters, vol. 7, no. 5, pp. 108-110, 2000 및 Vladimir I, Shin 과 Doh-Suk Kim에 의한 논문 “Speech Enhancement Using Improved Global Soft Decision,” in Proc. Europ. Conf. on Speech Communication and Technology, 2001에 자세히 기재되어 있다.

위치벡터 데이터베이스(112)는 실제 음원과 마이크로폰 어레이간의 전달함수를 이용하여 구해진 위치벡터를 데이터베이스화하여 저장한다. 전달함수는 예를 들어 로봇에서 1.5 m 떨어진 지점에서 5도 간격으로 측정한다. 이 측정간격 5도가 MUSIC 알고리즘의 분해능을 결정한다.

제1 스펙트럼 획득부(113)는 음성발성구간 검출부(111)에서 검출된 음성발성구간에 대하여 위치벡터 데이터베이스(112)의 위치벡터를 이용하여 전술한 MUSIC 알고리즘에 의거하여 제1 의사전력 스펙트럼을 구하고, 제2 스펙트럼 획득부(114)는 음성발성구간 검출부(111)에서 설정된 음성비발성구간에 대하여 위치벡터 데이터베이스(112)의 위치벡터를 이용하여 전술한 MUSIC 알고리즘에 의거하여 제2 의사전력 스펙트럼을 구한다.

감산부(115)는 제1 스펙트럼 획득부(113)에서 구한 제1 의사전력 스펙트럼으로부터 제2 스펙트럼 획득부(114)에서 구한 제2 의사전력 스펙트럼을 감산하여 차이 스펙트럼을 생성한다.

최대 피크치 검출부(116)는 감산부(115)로부터 제공되는 제1 및 제2 의사전력 스펙트럼의 차이 스펙트럼에서 최대 피크치를 검출하고, 최대 피크치를 발생시키는 방향각()을 화자의 방향으로 출력한다.

즉, 음성발성구간에서 구해진 제1 의사전력 스펙트럼에는 음성의 방향과 잡음의 방향에 피크치가 발생하고, 음성비발성구간에서 구해진 제2 의사전력 스펙트럼에는 잡음의 방향에 피크치가 발생하므로, 제1 및 제2 의사전력 스펙트럼간의 차이 스펙트럼에서는 음성의 방향에만 피크치가 발생하게 된다. 이와 같이 피크치가 발생한 방향각을 화자가 위치한 방향으로 추정하는 것이다.

도 2는 본 발명에 따른 화자위치 추정장치의 다른 실시예의 구성을 나타내는 블럭도로서, 음성발성구간 검출부(211), 위치벡터 데이터베이스(212), 제1 스펙트럼 획득부(213), 제2 스펙트럼 획득부(214), 감산부(215), 후보영역 결정부(216) 및 최대 피크치 검출부(217)로 이루어진다. 여기서, 음성발성구간 검출부(211), 위치벡터 데이터베이스(212), 제1 스펙트럼 획득부(213), 제2 스펙트럼 획득부(214) 및 감산부(215)의 동작은 도 1에 도시된 실시예에서와 동일하므로 세부적인 동작설명은 생략하고, 차이가 나는 부분을 중점적으로 설명하기로 한다.

도 2를 참조하면, 후보영역 결정부(216)는 감산부(215)로부터 제공되는 제1 및 제2 의사전력 스펙트럼간의 차이 스펙트럼으로부터 최대 피크치를 찾고, 찾아진 최대 피크치에 해당하는 방향각을 포함하는 일정 구간을, 음성발성구간에서 얻어진 의사전력 스펙트럼에서 피크치를 찾을 후보영역으로 결정하여 최대 피크치 검출부(217)로 제공한다. 여기서, 후보영역은 차이 스펙트럼에서 찾은 최대 피크치에 해당하는 방향각 10도인 것이 바람직하다.

최대 피크치 검출부(217)는 제1 스펙트럼 획득부(213)로부터 제공되는 음성발성구간에 대한 제1 의사전력 스펙트럼에서, 후보영역 검출부(216)에서 제공한 후보영역에서의 최대 피크치를 검출하고, 최대 피크치를 발생시키는 방향각()을 화자의 방향으로 출력한다.

도 3은 도 1 및 도 2에 도시된 음성발성구간 검출부(111,211)의 동작을 설명하는 상태도로서, 음성발성구간 검출에 사용되는 제1 내지 제 5 파라미터들은 각각 다음 표 1에 나타난 바와 같다.

제1 내지 제5 파라미터들(SFVAD_P, ASFN, ISFN, SNFNR, MWFN)은 각각 해당하는 문턱값(SFVAD_P0, ASFN0, ISFN0, SNFNR0, MWFN0)을 가지며, 음성발성구간(또는, 단어구간)을 정확히 추정하기 위해서는 이들 문턱값을 신호대잡음비(SNR)에 따라서 적응적으로 조정한다. 예를 들어, 발성된 단어가 ‘세바스찬’인 경우 도 4a 및 도 4b에 있어서 A 지점과 A’지점을 비교해 보면 SNR이 낮은 경우에는 제1 파라미터(SFVAD_P)의 문턱값(SFVAD_P0)을 작은 값으로 설정해야 음성발성(또는, 단어) 시작지점을 제대로 추정할 수 있다. 한편, 도 4a 및 도 4b에 있어서 음성발성구간(또는, 단어구간) 내에서 음성발성이 잠깐 멈추는 음성정지(speech pause) 구간인 B 지점과 B’지점은 제3 파라미터(ISFN)의 문턱값(ISFN0)과 관련이 있으며, 문턱값(ISFN0)은 클린 환경에서는 작아도 무방하나 SNR이 낮은 환경에서는 큰 값으로 설정하는 것이 바람직하다. 한편, 도 4a 및 도 4b에 있어서 C 지점과 C’지점은 추정된 단어의 총길이를 내는 것으로서, 클린 환경에서보다 SNR이 낮은 환경에서 더 짧게 추정된다. 따라서, 제5 파라미터(MWFN)의 문턱값(MWFN0)은 SNR이 낮은 환경에서는 클린 환경에서보다 작은 값으로 설정하는 것이 바람직하다.

즉, 미리 클린환경과 SNR이 5dB(잡음 51dBA)인 환경에서 문턱값들을 각각 튜닝한 다음, 그 값들에 대하여 도 5a 및 도 5b에 도시된 바와 같이 프레임수와 관련된 문턱값들(ASFN0, ISFN0, MWFN0) 및 비율에 관련된 문턱값들(SFVAD_P0, SNFNR0)에 대한 선형보간을 수행한다. 이와 같이 해당 SNR 값에 따라서 선형보간이 수행된 문턱값들을 사용함으로써 잡음의 크기에 따라서 단어검출율이 저하되는 단점을 개선할 수 있다.

다시 도 3으로 돌아가서, 음성비발성구간 상태(S1)에서는 음성신호가 프레임 단위로 입력되는 경우, 현재 프레임에 대한 제1 파라미터(SFVAD_P)와 문턱값(SFVAD_P0)을 비교하고, 제1 파라미터(SFVAD_P)가 문턱값(SFVAD_P0)보다 작으면 음성비발성구간 상태(S1)를 유지하면서 다음 프레임의 음성신호가 입력되기를 기다린다(311). 한편, 제1 파라미터(SFVAD_P)가 문턱값(SFVAD_P0)보다 같거나 크면 제1 카운트수(Count1)를 1로 설정한 후 음성발성시작 상태(S2)로 진행한다(312).

음성발성시작 상태(S2)에서는 다음 프레임들에 대하여 재차 제1 파라미터(SFVAD_P)와 문턱값(SFVAD_P0)을 비교하고, 제1 파라미터(SFVAD_P)가 문턱값(SFVAD_P0)보다 같거나 크면 제1 카운트수(Count1)를 1 씩 증가시키면서 음성발성시작 상태(S2)를 유지하고(313), 제1 파라미터(SFVAD_P)가 문턱값(SFVAD_P0)보다 작으면 음성비발성구간 상태(S1)로 복귀한다(314). 이후 제1 카운트수(Count1)를 제2 파라미터(ASFN)의 문턱값(ASFN0)과 비교하고, 제1 카운트수(Count1)가 제2 파라미터(ASFN)의 문턱값(ASFN0)과 같으면 음성발성중 상태(S3)로 진행한다(315).

음성발성중 상태(S3)에서는 제1 카운트수(Count1)가 제2 파라미터(ASFN)의 문턱값(ASFN0)과 같다고 결정된 프레임 이후의 프레임들에 대하여 재차 제1 파라미터(SFVAD_P)와 문턱값(SFVAD_P0)을 비교하고, 제1 파라미터(SFVAD_P)가 문턱값(SFVAD_P0)보다 같거나 크면 음성발성중 상태(S3)를 유지하고(316), 제1 파라미터(SFVAD_P)가 문턱값(SFVAD_P0)보다 작으면 제2 카운트수(Count2)를 1로 설정한 후 음성발성종료 상태(S4)로 진행한다(317).

음성발성종료 상태(S4)에서는 다음 프레임들에 대하여 재차 제1 파라미터(SFVAD_P)와 문턱값(SFVAD_P0)을 비교하고, 제1 파라미터(SFVAD_P)가 문턱값(SFVAD_P0)보다 작으면 제2 카운트수(Count2)를 1 씩 증가시키면서 음성발성종료 상태(S4)를 유지하고(318), 제1 파라미터(SFVAD_P)가 문턱값(SFVAD_P0)보다 같거나 크면 음성발성중 상태(S3)로 복귀한다(319). 이후 제2 카운트수(Count2)를 제3 파라미터(ISFN)의 문턱값(ISFN0)과 비교하고, 제2 카운트수(Count2)가 제3 파라미터(ISFN)의 문턱값(ISFN0)과 같으면(320), 음성발성시작에서부터 음성발성종료까지 포함된 프레임들에 대하여 제4 파라미터(SNFNR) 및 제5 파라미터(MWFN)를 산출하고, 각각 해당하는 문턱값(SNFNR0) 및 문턱값(MWFN0)과 비교한다(321). 제4 파라미터(SNFNR)가 문턱값(SNFNR0)보다 작거나 같은 조건 및 제5 파라미터(MWFN)가 문턱값(MWFN0)보다 작거나 같은 조건 중 어느 하나라도 충족되지 않는 경우에는 음성비발성구간 상태(S1)로 복귀한다(322). 한편, 제4 파라미터(SNFNR)가 문턱값(SNFNR0)보다 크고 제5 파라미터(MWFN)가 문턱값(MWFN0)보다 큰 경우에는 음성발성구간이 검출된 것으로 결정한다(323).

도 6은 본 발명에 따른 음성발성구간 검출의 예를 보여주는 것으로서, 화자는 225도의 위치에 있고, 화자와 로봇간의 거리는 1m이다. 한편, 잡음원은 90도의 위치에 있고, 잡음원과 로봇간의 거리는 3.5m이며, SNR은 1.33dB이다. 도 6을 참조하면, 잡음의 전력이 상당히 큰 경우에도 음성발성구간이 제대로 검출되는 것을 알 수 있다.

도 7a 내지 도 7c는 일반적인 MUSIC 알고리즘에 의한 화자방향 검출결과와 도 1에 도시된 본 발명에 따른 화자방향 검출결과를 비교하기 위한 그래프로서, 도 7a는 음성발성구간에서 얻은 제1 의사전력 스펙트럼, 도 7b는 음성비발성구간에서 얻은 제2 의사전력 스펙트럼, 도 7c는 제1 및 제2 의사전력 스펙트럼간의 차이 스펙트럼을 각각 보여준다. 즉, 잡음원은 90도의 방향에 있고 잡음원과 로봇간의 거리는 3.5m, 화자는 225도의 방향에 있고 화자와 로봇간의 거리는 1m, SNR이 1.33dB로 측정된 환경에서 일반적인 MUSIC 알고리즘은 음성발성구간의 제1 의사전력 스펙트럼만을 이용하므로, 화자방향 검출결과는 도 7a에 도시된 바와 같이 피크치(711)가 방향각 90도에 존재하며, 잡음이 위치한 90도 방향을 화자 방향으로 오인한다. 그러나, 음성발성구간의 제1 의사전력 스펙트럼과 음성비발성구간의 제2 의사전력 스펙트럼간의 차이 스펙트럼을 이용하는 본 발명에 의한 화자방향 검출결과는 도 7c에 도시된 바와 같이 피크치(731)가 방향각 230도에서 존재하며, 실제 화자가 위치한 225도에 근접한 방향을 화자방향으로 검출한다. 즉, 음성발성구간 및 음성비발성구간을 검출하고, 각 구간에 대한 의사전력 스펙트럼간의 차이 스펙트럼에 대하여 피크치를 검출하고, 피크치가 해당하는 방향각을 화자방향으로 결정함으로써 잡음이 심한 환경에서도 화자의 방향을 올바르게 추정할 수 있다.

도 8은 본 발명에 따른 화자위치 추정방법의 일 실시예의 동작을 설명하는 흐름도이다.

도 8을 참조하면, 811 단계에서는 마이크로폰 어레이(미도시)로부터 출력되는 음성신호를 프레임 단위로 입력한다. 812 단계에서는 811 단계에서 입력되는 음성신호에 대하여 음성발성구간을 검출하고, 검출된 음성발성구간을 이용하여 음성비발성구간을 검출한다.

813 단계에서는 음성발성구간에 대한 제1 의사전력 스펙트럼을 상기 수학식 9 및 10을 이용하여 획득하고, 814 단계에서는 음성비발성구간에 대한 제2 의사전력 스펙트럼을 상기 수학식 9 및 10을 이용하여 획득한다. 815 단계에서는 제1 및 제2 의사전력 스펙트럼간의 차이스펙트럼을 구한다.

816 단계에서는 815 단계에서 얻어진 제1 및 제2 의사전력 스펙트럼간의 차이스펙트럼에 대하여 최대 피크치를 검출하고, 817 단계에서는 816 단계에서 검출된 최대 피크치에 해당하는 방향각을 화자방향으로 결정한다.

도 9는 본 발명에 따른 화자위치 추정방법의 다른 실시예의 동작을 설명하는 흐름도이다. 여기서, 단계 911 내지 915는 도 8에 도시된 실시예에서 단계 811 내지 815에 대응되는 것으로 서로 동일하므로 세부적인 설명은 생략하고, 차이가 나는 부분을 중점적으로 설명하기로 한다.

도 9를 참조하면, 916 단계에서는 915 단계에서 얻어진 제1 및 제2 의사전력 스펙트럼간의 차이스펙트럼에 대하여 가장 큰 값을 갖는 제1 피크치와 두번째로 큰 값을 갖는 제2 피크치를 검출한다.

917 단계에서는 제1 피크치와 제2 피크치의 크기 비와 소정의 문턱값, 예를 들면 0.9를 비교하고, 제1 피크치와 제2 피크치의 크기 비가 소정의 문턱값보다 같거나 작으면 918 단계로 진행하고, 제1 피크치와 제2 피크치의 크기 비가 소정의 문턱값보다 크면 920 단계로 진행한다. 917 단계는 잡음원과 화자가 거의 같은 방향에 있는 경우에도 화자의 방향을 정확히 추정하기 위하여 존재한다. 이에 대하여 도 10a 내지 10c를 참조하여 좀 더 세부적으로 설명하기로 한다.

이때, 잡음원이 90도 방향에 있고, 잡음원과 로봇간의 거리는 3.5m, 화자는 잡음원과 마찬가지로 90도 방향에 있고, 화자와 로봇간의 거리는 3m, 그리고 SNR은 5.88dB로 측정된 환경을 예로 들기로 한다. 도 10a와 도 10b는 각각 음성발성구간과 음성비발성구간에서 얻어진 제1 및 제2 의사전력 스펙트럼을 나타낸다. 제1 및 제2 의사전력 스펙트럼은 거의 유사한 형태를 가지며 음성과 잡음이 모두 90도의 방향에 있으므로 제1 의사전력 스펙트럼에서 90도에 해당하는 진폭이 제2 의사전력 스펙트럼에서 90도에 해당하는 진폭보다 조금 더 크다는 차이만 존재한다. 도 10c는 제1 및 제2 의사전력 스펙트럼의 차이 스펙트럼을 나타내며, 다수개의 무의미한 피크치들을 볼 수 있다. 이런 경우에는 917 단계에서 제1 피크치와 제2 피크치의 크기 비가 소정의 문턱값보다 큰 경우에 해당하므로 920 단계로 진행하게 된다.

918 단계에서는 917 단계에서의 판단결과 제1 피크치와 제2 피크치의 크기 비가 소정의 문턱값보다 같거나 작은 경우, 제1 피크치에 해당하는 방향각을 기준으로 하여 피크 후보영역을 결정한다. 919 단계에서는 음성발성구간에서 얻은 제1 의사전력 스펙트럼에서 피크 후보영역에 최대 피크치가 존재하는지 여부를 판단하여, 피크 후보영역에 최대 피크치가 존재하지 않는 경우 920 단계로 진행하고, 피크 후보영역에 최대 피크치가 존재하는 경우 921 단계로 진행한다. 919 단계는 음성비발성구간에서 얻은 제2 의사전력 스펙트럼을 음성발성구간에서 얻은 제1 의사전력 스펙트럼에서 뺌으로써 차이 스펙트럼에서 피크치 모양이 크게 변형되는 경우에도 화자의 방향을 정확히 찾고자 존재한다. 이에 대하여 도 11a 및 도 11b를 참조하여 좀 더 세부적으로 설명하기로 한다.

이때, 잡음원이 90도 방향에 있고, 잡음원과 로봇간의 거리는 3.5m, 화자는 180도 방향에 있고, 화자와 로봇간의 거리는 1m , 그리고 SNR은 12.54dB로 측정된 환경을 예로 들기로 한다. 도 11a는 음성발성구간 및 음성비발성구간에서 얻어진 제1 및 제2 의사전력 스펙트럼의 차이 스펙트럼의 확대도로서, 최대 피크치 즉, 제1 피크치가 165도에 존재하므로 피크후보영역은 165도 10도 즉, 155도와 175도 사이가 된다. 도 11b는 음성발성구간에서 얻은 제1 의사전력 스펙트럼에 존재하는 최대 피크치의 확대도로서, 최대 피크치는 피크후보영역 즉, 155도와 175도 사이에 존재하지 않는다. 이런 경우는 919 단계에서 음성발성구간에서 얻은 제1 의사전력 스펙트럼에서 피크 후보영역에 최대 피크치가 존재하지 않는 경우이므로 920 단계로 진행하게 된다.

920 단계에서는 917 단계에서의 판단결과 제1 피크치와 제2 피크치의 크기 비가 소정의 문턱값보다 큰 경우, 또는 919 단계에서의 판단결과 음성발성구간에서 얻은 제1 의사전력 스펙트럼에서 피크 후보영역에 최대 피크치가 존재하지 않는 경우, 제1 의사전력 스펙트럼의 전체 영역에 대하여 최대 피크치를 검출하고, 922 단계에서는 최대 피크치에 해당하는 방향각을 화자의 방향으로 결정한다. 일예를 들어, 도 10c와 같이 제1 피크치와 제2 피크치의 크기 비가 소정의 문턱값보다 큰 경우에 해당되면, 도 10a에 도시된 제1 의사전력 스펙트럼의 전체 영역에서 최대 피크치를 검출하는데, 이때 최대 피크치는 90도에 존재하고, 이 방향은 화자의 방향과 일치한다. 즉, 본 발명에서 적용된 음성발성구간 검출 알고리즘에 의해 음성이 발성되었다고 판단되더라도 제1 의사전력 스펙트럼에서 최대 피크치를 한개만 찾은 경우에는 음성의 방향과 잡음의 방향이 일치하는 것으로 인식한다. 다른 예로는 도 11b에서와 같이 음성발성구간에서 얻은 제1 의사전력 스펙트럼에서 피크 후보영역에 최대 피크치가 존재하지 않는 경우에 해당되면, 도 11b에 도시된 제1 의사전력 스펙트럼의 전체 영역에서 최대 피크치를 검출하는데, 이때 최대 피크치는 180도에 존재하고, 이 방향은 화자의 방향과 일치한다. 결론적으로, 본 발명에 따른 화자위치 추정방법에 따르면, 잡음의 존재유무에 상관없이, 화자의 방향과 잡음의 방향 간의 근접여부에 상관없이 화자의 방향을 매우 강인하게 추정할 수 있다.

921 단계에서는 919 단계에서의 판단결과 음성발성구간에서 얻은 제1 의사전력 스펙트럼에서 피크 후보영역에 최대 피크치가 존재하는 경우, 후보영역에 대하여 최대 피크치를 검출하고, 922 단계에서는 최대 피크치에 해당하는 방향각을 화자의 방향으로 결정한다.

도 12는 도 8에 도시된 본 발명에 따른 화자위치 추정방법의 일 실시예에 의하여 얻어지는 방향각을 보여주는 그래프로서, 도 7c에 도시된 피크치(731)를 확대한 것이다. 확대도를 살펴보면, 화자의 방향이 230도(P12)에 위치함을 알 수 있다. 이는 실제 화자가 위치한 225도와 5도의 오차가 있다. 이 오차는 도 7b에 나타난 음성비발성구간에서 얻어진 의사전력 스펙트럼이 225도 근처에서는 무의미한 값을 가지는데, 이를 도 7a의 음성발성구간에서 얻어진 의사전력 스펙트럼으로부터 빼 줌으로써 피크치의 모양이 변형되어 생기는 오차이나, 잡음이 존재하는 환경에서 일반적인 MUSIC 알고리즘에 의한 화자위치 추정결과에 비해서는 실제 화자의 방향에 매우 근접한 결과이다.

도 13은 도 9에 도시된 본 발명에 따른 화자위치 추정방법의 다른 실시예에 의하여 얻어지는 방향각을 보여주는 그래프로서, 도 7a의 음성발성구간에 대한 제1 의사전력 스펙트럼에서 후보영역 즉, 230도 10도의 범위에 존재하는 피크치를 확대한 것이다. 확대도를 살펴보면, 화자의 방향이 225도(P13)에 위치함을 알 수 있다. 이는 실제 화자가 위치한 225도와 정확하게 일치한다.

도 14는 본 발명에 따른 화자위치 추정장치를 적용한 카메라 제어시스템(automatic camera steering system)의 일실시예의 구성을 나타낸 블럭도로서, 음원방향 추정부(1401), 음성향상부(1402), 음성인증부(1403), 카메라 구동모터 제어부(1404) 및 객체검출 및 인식부(1405)로 이루어진다.

도 14를 참조하면, 음원방향 추정부(1401)에서는 마이크로폰 어레이로부터 출력되는 음성신호로부터 검출되는 음성발성구간과 음성비발성구간에 대한 제1 및 제2 의사전력 스펙트럼의 차이스펙트럼과 상기 제1 의사전력 스펙트럼 중 어느 하나에서 피크치를 검출하고, 검출된 피크치에 해당하는 방향각을 화자의 방향으로 추정한다. 이때, 방향각 정보는 음성향상부(1402) 및 카메라 구동모터 제어부(1404)로 제공된다.

음성향상부(1402)에서는 마이크로폰 어레이 출력신호 중 음원방향 추정부(1401)에서 출력되는 방향각으로부터 가장 가까운 곳에 위치한 마이크의 출력 신호를 받아 잡음을 제거한다. 음성향상부(1402)에서 잡음을 제거하는 방법에 대해서는 Nam-Soo Kim과 Joon-Hyuk Chang에 의한 논문 “Spectral Enhancement Based on Global Soft Decision,” IEEE Signal Processing Letters, vol. 7, no. 5, pp. 108-110, 2000, Vladimir I, Shin과 Doh-Suk Kim에 의한 논문 “Speech Enhancement Using Improved Global Soft Decision,” in Proc. Europ. Conf. on Speech Communication and Technology, 2001 및 Yariv Ephraim과 David Malah에 의한 논문 “Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator,” IEEE Trans. Acoustics, Speech, and Signal Processing,” Vol. ASSP-32, No. 6, pp. 1109-1121, 1984에 자세히 기재되어 있다.

음성인증부(1403)에서는 음성 향상부(1402)에서 출력되는 잡음이 제거된 음성 신호를 이용하여 의미있는 음성이 발성되었는가를 인식한다. 의미있는 음성이 발성되었다고 인식되면 카메라 구동모터 제어부(1404)를 인에이블시키고 그렇지 않은 경우에는 새로이 마이크로폰 어레이로부터 출력되는 신호를 받아들이기 위하여 음원방향 추정부(1401)를 제어한다.

카메라 구동모터 제어부(1404)에서는 음성 인증부(1403)에서 의미있는 음성이 발성되었다고 인식된 경우, 음원방향 추정부(1401)로부터 제공되는 방향각으로 카메라 모터(미도시)를 회전시킨다.

객체 검출 및 인식부(1405)에서는 카메라(미도시)로부터 출력되는 영상을 분석하여 의미있는 객체를 검출한다. 화자위치 추정을 위하여는 의미있는 객체로서 사람의 몸체를 검출하는 것이 바람직하다. 또한, 검출한 사람의 몸체 중심점이 영상의 중심에 위치하도록 카메라 구동모터 제어부(1404)에 명령을 내리고, 검출한 사람의 몸체가 영상에 모두 포함되도록 카메라의 줌 기능을 조절하는 명령을 내리는 것이 바람직하다.

도 15는 본 발명에 따른 화자위치 추정장치를 적용한 카메라 제어시스템의 다른 실시예의 구성을 나타낸 블럭도로서, 음원방향 추정부(1501), 카메라 구동모터 제어부(1502), 객체검출 및 인식부(1503), 음성향상부(1504), 음성인식부(1505) 및 멀티모달 신호처리부(1506)로 이루어진다. 여기서 음원방향 추정부(1501), 카메라 구동모터 제어부(1502), 객체검출 및 인식부(1503), 및 음성향상부(1504)의 동작은 도 14에 도시된 실시예에서와 동일하므로 세부적인 동작 설명은 생략하고, 차이가 나는 부분을 중점적으로 설명하기로 한다.

도 15를 참조하면, 음성인식부(1505)는 음성 향상부(1402)에서 출력되는 잡음이 제거된 음성 신호를 이용하여 의미있는 음성이 발성되었는가를 인식하고, 인식된 음성을 텍스트(text) 정보로 변환하여 출력한다.

멀티 모달 신호 처리부(1506)는 카메라 구동모터 제어부(1502) 및 객체 검출 및 인식부(1503)에서 출력되는 영상정보와 음성 향상부(1504) 및 음성 인식부(1505)에서 출력되는 텍스트(text) 정보를 혼합하여 화자의 위치를 추정하고 화자가 내리는 명령을 이해 및 수행한다. 바람직하게는 다수의 화자가 내리는 다수의 명령을 이해하여 일정을 수립하고 순차적으로 수행한다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

한편, 본 발명에 의한 화자위치 추정방법의 성능을 평가하기 위하여 다음과 같은 실험을 수행하였다.

반향이 적은 실험실에서 4명의 남성 화자 및 4명의 여성 화자가 ‘세바스찬’이라고 발성한 것을 음원신호로 사용하였고, 잡음으로는 팬 잡음을 사용하였다. 거리는 1m에서 5m까지 1m 간격으로, 방향은 0도에서 360도까지 45도 간격으로 측정하였다. 단, 5m의 경우는 실험 환경의 제약조건으로 45도, 135도, 225도, 315도의 4 방향에서만 측정하였다. 다음 표 2, 표 3 및 표 4는 로봇의 위치에서 측정된 음성신호와 팬 잡음의 평균 신호 대 잡음비(SNR)에 따른 실험결과를 보여주는 것으로서, 표 2는 SNR이 12.54dB, 표 3은 SNR이 5.88dB, 표 4는 SNR이 1.33dB인 경우를 각각 나타낸다.

상술한 바와 같이, 본 발명에 따르면 잡음이 심한 환경에서 음성발성구간을 정확하게 찾을 수 있을 뿐 아니라, 음성을 발성한 화자의 방향을 정확하게 찾을 수 있다. 또한, 잡음의 방향과 화자의 방향이 거의 일치하는 경우에도 화자의 방향을 정확히 찾을 수 있다. 따라서, 텔레비젼, 라디오, 오디오 시스템 또는 냉장고 등 다양한 잡음원이 존재하는 실내환경에서조차 수 미터 떨어진 거리에서 사용자가 미리 등록한 로봇의 이름을 부를 때, 로봇이 사용자 즉 화자의 방향을 정확하게 찾아낼 수 있다. 본 발명에 따른 화자위치 추정방법 및 장치는 자율주행 이동로봇 뿐만 아니라 감시카메라 시스템이나 웹캠(WebCam) 등 소리가 나는 쪽으로 카메라를 구동시키는 모든 시스템에도 적용가능하며, 이에 따라서 각 시스템의 부가가치를 획기적으로 높일 수 있다.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

마이크로폰 어레이로부터 출력되는 음성신호로부터 검출되는 음성발성구간과 음성비발성구간에 대한 제1 및 제2 의사전력 스펙트럼의 차이스펙트럼을 획득하는 차이스펙트럼 획득수단; 및

상기 차이스펙트럼 획득수단으로부터 제공되는 상기 차이스펙트럼과 상기 제1 의사전력 스펙트럼 중 어느 하나에서 피크치를 검출하고, 상기 검출된 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 화자방향 추정수단을 포함하는 것을 특징으로 하는 화자방향 추정장치.
제1 항에 있어서, 상기 차이스펙트럼 획득수단은

상기 마이크로폰 어레이로부터 출력되는 음성신호로부터 음성발성구간을 검출하고, 상기 음성발성구간을 이용하여 음성비발성구간을 검출하는 음성발성/비발성구간 검출부;

실제 음원과 상기 마이크로폰 어레이간의 전달함수를 이용하여 구해진 위치벡터를 데이터베이스화한 위치벡터 데이터베이스;

상기 음성발성구간에 대하여 얻어진 잡음 부분공간에서의 기저벡터에 상기 위치벡터를 프로젝션시켜 제1 의사전력 스펙트럼을 구하는 제1 스펙트럼 획득부;

상기 음성비발성구간에 대하여 얻어진 잡음 부분공간에서의 기저벡터에 상기 위치벡터를 프로젝션시켜 제2 의사전력 스펙트럼을 구하는 제2 스펙트럼 획득부; 및

상기 제1 및 제2 의사전력 스펙트럼간의 차이 스펙트럼을 구하는 감산부를 구비하는 것을 특징으로 하는 화자방향 추정장치.
제2 항에 있어서, 상기 음성발성/비발성구간 검출부는 먼저 음성발성구간을 검출한 다음, 상기 음성발성구간의 이전 부분에 T1 개의 샘플을 건너 뛴 다음 그 이전 T2 개의 샘플을 선택하여 음성비발성구간으로 검출하는 것을 특징으로 하는 화자방향 추정장치.
제2 항에 있어서, 상기 음성발성/비발성구간 검출부는 단일프레임 음성존재확률로부터 나온 확률값인 제1 파라미터, 연속해서 음성이라고 판정된 프레임 수인 제2 파라미터, 연속해서 음성이 아니라고 판정된 프레임 수인 제3 파라미터, 판단된 음성발성구간에서 음성이라고 판단된 프레임 수와 음성이 아니라고 판단된 프레임 수의 비율인 제4 파라미터, 및 판단된 음성발성구간 내의 총 프레임 수인 제5 파라미터를 이용하여 상기 음성발성구간을 검출하는 것을 특징으로 하는 화자방향 추정장치.
제4 항에 있어서, 상기 제1 내지 제5 파라미터의 문턱값은 신호대잡음비에 따라서 적응적으로 조정되는 것을 특징으로 하는 화자방향 추정장치.
제5 항에 있어서, 상기 제1 내지 제5 파라미터의 문턱값은 미리 클린환경과 상기 신호대잡음비가 소정 상한값인 환경에서 각각 튜닝한 다음, 상기 신호대잡음비가 중간인 범위에 대해서는 선형보간을 수행하여 사용하는 것을 특징으로 하는 화자방향 추정장치.
제2 항에 있어서, 상기 위치벡터를 구하는 전달함수는 상기 마이크로폰 어레이가 설치된 이동로봇에서 소정 거리 떨어진 지점에서 일정 각도 간격으로 측정하는 것을 특징으로 하는 화자방향 추정장치.
제1 항에 있어서, 상기 화자방향 추정수단은 상기 차이스펙트럼 획득수단으로부터 제공되는 차이스펙트럼에서 최대 피크치를 검출하고, 검출된 최대 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 것을 특징으로 하는 화자방향 추정장치.
제1 항에 있어서, 상기 화자방향 추정수단은 상기 차이스펙트럼 획득수단으로부터 제공되는 차이스펙트럼에서 최대 피크치를 검출하고, 상기 차이스펙트럼의 최대 피크치에 해당하는 방향각을 이용하여 결정되는 후보영역에 해당하는 상기 제1 의사전력 스펙트럼에서 최대 피크치를 검출하고, 상기 제1 의사전력 스펙트럼의 최대 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 것을 특징으로 하는 화자방향 추정장치.
제1 항에 있어서, 상기 화자방향 추정수단은 상기 차이스펙트럼 획득수단으로부터 제공되는 차이스펙트럼에서 첫번째 및 두번째 피크치를 검출하고, 상기 첫번째 및 두번째 피크치의 크기비와 소정의 문턱값와의 비교결과 및 소정의 후보영역에 해당하는 상기 제1 의사전력 스펙트럼에서 피크치의 존재여부에 따라서, 상기 제1 의사전력 스펙트럼의 전체영역과 후보영역 중 어느 하나의 영역에서 최대 피크치를 검출하고, 전체영역과 후보영역 중 어느 하나의 영역에서 최대 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 것을 특징으로 하는 화자방향 추정장치.
제10 항에 있어서, 상기 화자방향 추정수단은 상기 첫번째 및 두번째 피크치의 크기비가 소정의 문턱값보다 큰 경우, 상기 제1 의사전력 스펙트럼의 전체 영역에서 상기 최대 피크치를 검출하는 것을 특징으로 하는 화자방향 추정장치.
제10 항에 있어서, 상기 화자방향 추정수단은 상기 첫번째 및 두번째 피크치의 크기비가 소정의 문턱값보다 같거나 작고, 상기 제1 의사전력 스펙트럼에서 후보영역에 최대 피크치가 존재하지 않는 경우, 상기 제1 의사전력 스펙트럼의 전체 영역에서 상기 최대 피크치를 검출하는 것을 특징으로 하는 화자방향 추정장치.
제10 항에 있어서, 상기 화자방향 추정수단은 상기 첫번째 및 두번째 피크치의 크기비가 소정의 문턱값보다 같거나 작고, 상기 제1 의사전력 스펙트럼에서 후보영역에 최대 피크치가 존재하는 경우, 상기 제1 의사전력 스펙트럼의 후보영역에서 상기 최대 피크치를 검출하는 것을 특징으로 하는 화자방향 추정장치.
(a) 마이크로폰 어레이로부터 출력되는 음성신호로부터 검출되는 음성발성구간과 음성비발성구간에 대한 제1 및 제2 의사전력 스펙트럼의 차이스펙트럼을 획득하는 단계; 및

(b) 상기 (a) 단계에서 얻어진 상기 차이스펙트럼과 상기 제1 의사전력 스펙트럼 중 어느 하나에서 피크치를 검출하고, 상기 검출된 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 단계를 포함하는 것을 특징으로 하는 화자방향 추정방법.
제14 항에 있어서, 상기 (a) 단계는

(a1) 상기 마이크로폰 어레이로부터 출력되는 음성신호로부터 음성발성구간을 검출하고, 상기 음성발성구간을 이용하여 음성비발성구간을 검출하는 단계;

(a2) 실제 음원과 상기 마이크로폰 어레이간의 전달함수를 이용하여 구해진 위치벡터를 데이터베이스화하는 단계;

(a3) 상기 음성발성구간 및 상기 음성비발성구간에 대하여 얻어진 잡음 부분공간에서의 기저벡터에 상기 위치벡터를 프로젝션시켜 제1 의사전력 스펙트럼과 제2 의사전력 스펙트럼을 각각 구하는 단계; 및

(a4) 상기 제1 및 제2 의사전력 스펙트럼간의 차이 스펙트럼을 구하는 단계를 구비하는 것을 특징으로 하는 화자방향 추정방법.
제15 항에 있어서, 상기 (a1) 단계에서는 먼저 음성발성구간을 검출한 다음, 상기 음성발성구간의 이전으로 T1 개의 샘플을 건너 뛴 다음 그 이전 T2 개의 샘플을 선택하여 음성비발성구간으로 검출하는 것을 특징으로 하는 화자방향 추정방법.
제15 항에 있어서, 상기 (a1) 단계에서는 단일프레임 음성존재확률로부터 나온 확률값인 제1 파라미터, 연속해서 음성이라고 판정된 프레임 수인 제2 파라미터, 연속해서 음성이 아니라고 판정된 프레임 수인 제3 파라미터, 판단된 음성발성구간에서 음성이라고 판단된 프레임 수와 음성이 아니라고 판단된 프레임 수의 비율인 제4 파라미터, 및 판단된 음성발성구간 내의 총 프레임 수인 제5 파라미터를 이용하여 상기 음성발성구간을 검출하는 것을 특징으로 하는 화자방향 추정방법.
제17 항에 있어서, 상기 제1 내지 제5 파라미터의 문턱값은 신호대잡음비에 따라서 적응적으로 조정되는 것을 특징으로 하는 화자방향 추정방법.
제18 항에 있어서, 상기 제1 내지 제5 파라미터의 문턱값은 미리 클린환경과 상기 신호대잡음비가 소정 상한값인 환경에서 각각 튜닝한 다음, 상기 신호대잡음비가 중간인 범위에 대해서는 선형보간을 수행하여 사용하는 것을 특징으로 하는 화자방향 추정방법.
제15 항에 있어서, 상기 위치벡터를 구하는 전달함수는 상기 마이크로폰 어레이가 설치된 이동로봇에서 소정 거리 떨어진 지점에서 일정 각도 간격으로 측정하는 것을 특징으로 하는 화자방향 추정방법.
제14 항에 있어서, 상기 (b) 단계는

(b1) 상기 차이스펙트럼에서 최대 피크치를 검출하고, 검출된 최대 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 단계를 구비하는 것을 특징으로 하는 화자방향 추정방법.
제14 항에 있어서, 상기 (b) 단계는

(b1) 상기 차이스펙트럼에서 피크치를 검출하는 단계;

(b2) 상기 (b1) 단계에서 검출된 피크치에 해당하는 방향각을 이용하여 후보영역을 결정하는 단계;

(b3) 상기 제1 의사전력 스펙트럼의 상기 후보영역에서 피크치를 검출하는 단계; 및

(b4) 상기 (b3) 단계에서 검출된 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 단계를 구비하는 것을 특징으로 하는 화자방향 추정방법.
제14 항에 있어서, 상기 (b) 단계는

(b1) 상기 차이스펙트럼에서 첫번째로 피크치와 두번째 피크치를 검출하는 단계;

(b2) 상기 첫번째 피크치와 두번째 피크치의 크기비와 소정의 문턱값을 비교하는 단계; 및

(b3) 상기 첫번째 피크치와 두번째 피크치의 크기비와 소정의 문턱값의 비교결과 및 상기 제1 의사전력 스펙트럼에서 소정의 후보영역에 피크치의 존재여부에 따라서, 상기 제1 의사전력 스펙트럼의 전체영역과 후보영역 중 어느 하나의 영역에서 피크치를 검출하고, 검출된 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 단계를 구비하는 것을 특징으로 하는 화자방향 추정방법.
제23 항에 있어서, 상기 (b3) 단계는

(b31) 상기 제1 및 제2 피크치의 크기비가 소정의 문턱값보다 큰 경우, 상기 제1 의사전력 스펙트럼의 전체 영역에서 상기 피크치를 검출하는 단계를 구비하는 것을 특징으로 하는 화자방향 추정방법.
제23 항에 있어서, 상기 (b3) 단계는

(b31) 상기 첫번째 피크치 및 두번째 피크치의 크기비가 소정의 문턱값보다 같거나 작은 경우, 상기 첫번째 피크치를 이용하여 후보영역을 결정하는 단계;

(b32) 상기 제1 의사전력 스펙트럼에서 상기 후보영역에 피크치가 존재하는지 판단하는 단계;

(b33) 상기 후보영역에 피크치가 존재하지 않는 경우, 상기 제1 의사전력 스펙트럼의 전체 영역에서 피크치를 검출하는 단계; 및

(b34) 상기 후보영역에 피크치가 존재하는 경우, 상기 제1 의사전력 스펙트럼의 후보영역에서 피크치를 검출하는 단계를 구비하는 것을 특징으로 하는 화자방향 추정방법.
제14 항 내지 제25 항 중 어느 한 항에 기재된 방법을 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
마이크로폰 어레이로부터 출력되는 음성신호로부터 검출되는 음성발성구간과 음성비발성구간에 대한 제1 및 제2 의사전력 스펙트럼의 차이스펙트럼과 상기 제1 의사전력 스펙트럼 중 어느 하나에서 피크치를 검출하고, 상기 검출된 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 화자방향 추정부; 및

상기 화자방향 추정부에 추정된 화자의 방향에 따라서 카메라 구동모터를 제어하는 구동모터 제어부를 포함하는 것을 특징으로 하는 카메라 제어시스템.
제27 항에 있어서, 상기 화자방향 추정부는 상기 차이스펙트럼에서 최대 피크치를 검출하고, 검출된 최대 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 것을 특징으로 하는 카메라 제어시스템.
제27 항에 있어서, 상기 화자방향 추정부는 상기 차이스펙트럼에서 최대 피크치를 검출하고, 상기 차이스펙트럼의 최대 피크치에 해당하는 방향각을 이용하여 결정되는 후보영역에 해당하는 상기 제1 의사전력 스펙트럼에서 최대 피크치를 검출하고, 상기 제1 의사전력 스펙트럼의 최대 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 것을 특징으로 하는 카메라 제어시스템.
제27 항에 있어서, 상기 화자방향 추정부는 상기 차이스펙트럼에서 첫번째 및 두번째 피크치를 검출하고, 상기 첫번째 및 두번째 피크치의 크기비와 소정의 문턱값과의 비교결과 및 소정의 후보영역에 해당하는 상기 제1 의사전력 스펙트럼에서 피크치의 존재여부에 따라서, 상기 제1 의사전력 스펙트럼의 전체영역과 후보영역 중 어느 하나의 영역에서 최대 피크치를 검출하고, 전체영역과 후보영역 중 어느 하나의 영역의 최대 피크치에 해당하는 방향각을 화자의 방향으로 추정하는 것을 특징으로 하는 카메라 제어 시스템.