KR101542647B1

KR101542647B1 - 화자 검출을 이용한 오디오 신호 처리 방법 및 장치

Info

Publication number: KR101542647B1
Application number: KR1020120142986A
Authority: KR
Inventors: 유경국; 이지석; 양재모; 강홍구
Original assignee: 연세대학교 산학협력단
Priority date: 2012-12-10
Filing date: 2012-12-10
Publication date: 2015-08-12
Also published as: KR20140074718A

Abstract

본 발명은 화자 검출을 이용한 오디오 신호 처리 방법 및 장치에 관한 발명으로써, 더욱 상세하게는 뎁스 카메라을 이용하여 하나 이상의 화자의 위치 정보를 검출하고, 이를 이용하여 각 화자에 대응하는 음원을 추출하기 위한 발명이다.
이를 위해 본 발명은, 오디오 신호를 수신하는 단계, 뎁스 카메라를 통해 촬영된 뎁스 픽쳐 데이터를 획득하는 단계, 상기 뎁스 픽쳐 데이터에서 적어도 하나의 사용자 머리 위치 정보를 추출하는 단계, 상기 추출된 사용자 머리 위치 정보를 3차원 상의 좌표 정보로 변환하는 단계, 상기 변환된 좌표 정보 및 상기 수신된 오디오 신호를 이용하여, 상기 적어도 하나의 사용자 머리 위치 정보 중 화자의 위치 정보를 식별하는 단계, 상기 식별된 화자의 위치 정보에 대응하는 가중치를 획득하는 단계, 및 상기 가중치를 이용하여, 상기 수신된 오디오 신호에 빔포밍을 수행하여 상기 화자의 음원을 분리하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법 및 이를 이용한 오디오 신호 처리 장치를 개시한다.

Description

화자 검출을 이용한 오디오 신호 처리 방법 및 장치{A Method for Processing Audio Signal Using Speacker Detection and A Device thereof}

본 발명은 화자 검출을 이용한 오디오 신호 처리 방법 및 장치에 관한 발명으로써, 더욱 상세하게는 뎁스 카메라를 이용하여 하나 이상의 화자의 위치 정보를 검출하고, 이를 이용하여 각 화자에 대응하는 음원을 추출하기 위한 발명이다.

오브젝트 기반의 오디오 신호 처리 기술이 이슈화 됨에 따라 다중 음원이 포함된 오디오 신호에서 각 음원을 개별적으로 추출하는 기술이 개발되고 있다. 종래 기술에 따르면, 오디오 센서 및 비디오 센서 중 어느 하나만을 이용하여 화자의 위치를 파악하였다. 그러나 오디오 센서만을 이용하여 음원을 추적하는 방법은 반향이나 노이즈 환경에 민감하게 반응하는 문제점이 있었다. 이러한 방법은 신호대잡음비(Signal to Noise Ratio, SNR)이 낮아질수록 화자의 위치가 정확하지 않게 추정되는 경향을 보인다.

또한, 기존의 오디오-비디오 다중 센서 방식으로 화자의 위치를 검출하는 방법은 대개 마이크로폰 어레이와 한 대 이상의 RGB 카메라 센서를 동시에 이용한다. 하지만 RGB 카메라 센서를 이용하여 화자를 찾는 과정은 빛이나 색에 의한 왜곡이 있고, 많은 계산량이 요구되는 문제점이 있었다.

"마이크의 빔포밍 수행 방법 및 장치" (특허공개번호: 10-2012-0027718). "마이크 어레이를 이용한 방향성 음원 필터링 장치 및 그 제어방법" (특허공개번호: 10-2012-0071452)

본 발명은 적어도 하나의 사용자가 존재하는 환경에서 실시간으로 각 사용자의 정확한 위치를 찾고, 발화하는 사용자들의 음성정보를 분리 및 추적하기 위한 목적을 가지고 있다.

상기와 같은 과제를 해결하기 위해 본 발명의 실시예에 따른 화자 검출을 이용한 오디오 신호 처리 방법은, 오디오 신호를 수신하는 단계; 뎁스 카메라를 통해 촬영된 뎁스 픽쳐 데이터를 획득하는 단계; 상기 뎁스 픽쳐 데이터에서 적어도 하나의 사용자 머리 위치 정보를 추출하는 단계; 상기 추출된 사용자 머리 위치 정보를 3차원 상의 좌표 정보로 변환하는 단계; 상기 변환된 좌표 정보 및 상기 수신된 오디오 신호를 이용하여, 상기 적어도 하나의 사용자 머리 위치 정보 중 화자의 위치 정보를 식별하는 단계; 상기 식별된 화자의 위치 정보에 대응하는 가중치를 획득하는 단계; 및 상기 가중치를 이용하여, 상기 수신된 오디오 신호에 빔포밍을 수행하여 상기 화자의 음원을 분리하는 단계; 를 포함하는 것을 특징으로 한다.

또한, 본 발명의 실시예에 따른 화자 검출을 이용한 오디오 신호 처리 장치는, 뎁스 카메라를 통해 촬영된 뎁스 픽쳐 데이터를 획득하고, 상기 뎁스 픽쳐 데이터에서 적어도 하나의 사용자 머리 위치 정보를 추출하고, 상기 추출된 사용자 머리 위치 정보를 3차원 상의 좌표 정보로 변환하는 비디오 처리부; 오디오 신호를 수신하고, 상기 비디오 처리부에서 변환된 좌표 정보 및 상기 수신된 오디오 신호를 이용하여 상기 적어도 하나의 사용자 머리 위치 정보 중 화자의 위치 정보를 식별하고, 상기 식별된 화자의 위치 정보에 대응하는 가중치를 획득하는 오디오 처리부; 및 상기 가중치를 이용하여, 상기 수신된 오디오 신호에 빔포밍을 수행하여 상기 화자의 음원을 분리하는 음원 분리부; 를 포함하는 것을 특징으로 한다.

본 발명의 실시예에 따르면, 잡음이 있는 환경이나 다수의 화자가 존재하는 상황에서도 정확하게 각 화자의 방향 및 위치 정보를 파악하고, 해당 화자의 음원의 분리 및 추적이 가능하다.

또한, 본 발명의 실시예에 따르면 적은 연산량으로 화자의 방향에 대한 빔포밍을 수행할 수 있으며, 이에 따라 다수의 화자가 존재하는 상황에서도 응답성이 빠른 음원 추출 방법을 제공할 수 있다.

또한, 본 발명의 실시예에 따르면 뎁스 픽쳐 데이터를 이용하여 화자의 위치 정보를 획득함으로, 디바이스를 기준으로 중첩된 위치에 있는 화자가 있을 경우에도 각 화자의 음성을 정확하게 분리해 낼 수 있게 된다.

도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치를 나타낸 블록도.
도 2는 본 발명의 실시예에 따른 사용자 머리 위치 검출부 및 사용자 머리 위치 추적부의 데이터 프로세싱 과정을 나타낸 순서도.
도 3은 본 발명의 실시예에 따라 뎁스 픽쳐 데이터에서 배경 이미지가 제거된 결과, 엣지 이미지가 추출된 결과 및 거리 이미지가 추출된 결과를 나타낸 도면.
도 4는 2D 챔퍼 매칭을 통해 획득된 머리 후보군들 및 템플릿 매칭 이후에 획득된 정확한 머리 위치들을 나타낸 도면.
도 5는 본 발명의 실시예에 따른 머리 위치 추적부가 윈도우를 이용하여 사용자 머리 중심부를 추적하는 모습을 나타낸 도면.
도 6은 본 발명의 실시예에 따른 좌표 변환부가 뎁스 픽쳐 데이터 상의 좌표 정보를 3차원 좌표 정보로 변환하는 모습을 도시하는 도면.
도 7 및 도 8은 본 발명의 일 실시예에 따른 SRP-Phat의 각도(Source Location)별 응답 그래프.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 아닌 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치(100)를 나타낸 블록도이다. 도시된 바와 같이, 본 발명에 따른 오디오 신호 처리 장치(100)는 비디오 처리부(110), 오디오 처리부(120) 및 음원 분리부(130)를 포함한다.

먼저, 비디오 처리부(110)는 카메라 유닛(미도시)을 통해 획득된 픽쳐 데이터를 이용하여 실시간으로 사용자의 머리를 검출 및 추적하고, 해당 사용자 머리의 좌표 정보를 획득한다. 이를 위해, 비디오 처리부(110)는 머리 위치 검출부(112), 머리 위치 추적부(114) 및 좌표 변환부(116)를 포함할 수 있다.

상기 머리 위치 검출부(112)는 픽쳐 데이터를 이용하여 사용자의 머리 위치를 검출한다. 본 발명의 실시예에 따르면, 상기 픽쳐 데이터는 뎁스 카메라를 통해 수집된 뎁스 픽쳐 데이터가 될 수 있다. 뎁스 픽쳐 데이터는 이미지의 2차원적인 좌표 데이터 뿐만 아니라 해당 이미지의 거리정보를 더 포함한다. 예를 들어, 뎁스 카메라를 구비한 키넥트(Kinect)에 의해 수집된 뎁스 픽쳐 데이터의 픽셀은 16 비트로 구성되어 있다. 이때, 각 픽셀의 상위 13비트는 거리정보를 밀리미터(mm) 단위로 저장하고, 하위 3비트는 사용자 정보를 저장하게 된다. 키넥트의 뎁스 픽쳐 데이터를 이용하는 경우, 비디오 처리부(110)는 각각의 픽셀의 거리정보와 함께 최대 6명의 사용자 정보를 획득할 수 있다. 본 발명의 실시예에 따라 뎁스 픽쳐 데이터를 이용할 경우, 빛이나 색의 영향을 받지 않고 안정적으로 객체(또는 사용자)를 인식할 수 있게 된다. 또한, 뎁스 픽쳐 데이터를 이용하게 되면 기존의 RGB형식의 픽쳐 데이터를 이용하는 것에 비하여 객체를 인식하기 위한 연산량이 줄어들게 된다.

머리 위치 추적부(114)는 상기 머리 위치 검출부(112)에서 검출한 머리 위치를 실시간으로 추적한다. 비디오 처리부(110)에서 실시간으로 사용자의 머리 위치 검출 알고리즘을 수행하는 것은 많은 연산량을 필요로 하므로, 상대적으로 연산량이 적은 머리 추적 알고리즘이 반드시 필요하다. 상기 머리 위치 검출부(112) 및 머리 위치 추적부(114)의 구체적인 데이터 프로세싱 과정은 도 2를 참조로 후술하도록 한다.

비디오 처리부(116)는 상기 머리 위치 검출부(112) 및 머리 위치 추적부(114)를 통해 검출 및 추적한 머리의 위치를 실제 공간상의 좌표로 바꾸어 준다.

다음으로, 오디오 처리부(120)는 상기 비디오 처리부(110)에서 찾은 사용자 머리 위치 정보와 오디오 신호를 이용한 사용자 매칭을 통해 실제 화자를 식별한다. 더욱 구체적으로, 오디오 처리부(120)는 상기 비디오 처리부(110)에서 추출한 사용자 머리 위치 정보를 이용하여 오디오 신호의 빔포밍을 위한 가중치를 획득하고, 획득된 가중치로 오디오 신호를 빔포밍한 출력의 파워를 기 설정된 임계값과 비교하여 상기 사용자 머리 위치가 실제 화자의 위치인지 여부를 판별한다.

다음으로, 음원 분리부(130)는 상기 오디오 처리부(120)에서 식별된 화자의 위치 정보에 대응하는 가중치를 이용하여 오디오 신호에 빔포밍을 수행한다. 이를 통해 음원 분리부(130)는 수신된 오디오 신호에서 화자별 음원의 분리 및 추적이 가능하다.

도 1에 도시된 오디오 신호 처리 장치(100)는 본 발명의 일 실시예에 따른 블록도로서, 분리하여 표시한 블록들은 디바이스의 각 구성들을 논리적으로 구별하여 도시한 것이다. 따라서 상술한 디바이스의 엘리먼트들은 디바이스의 설계에 따라 하나의 칩으로 또는 복수의 칩으로 장착될 수 있다.

도 2는 본 발명의 실시예에 따라 머리 위치 검출부(112) 및 머리 위치 추적부(114)가 데이터 프로세싱을 수행하는 과정을 나타낸 순서도이다. 도 2의 실시예에서, 머리 위치 검출부(112) 및 머리 위치 추적부(114)는 뎁스 픽쳐 데이터를 이용하여 머리 위치 검출 및 머리 위치 추적을 수행한다.

사용자의 머리를 빠르고 안정적으로 찾기 위하여, 머리 위치 검출부(112)는 먼저 뎁스 픽쳐 데이터에서 배경 이미지를 제거한다(S210). 본 발명의 일 실시예에 따르면, 머리 위치 검출부(112)는 키넥트가 제공하는 뎁스 픽셀의 사용자 정보를 이용하여 배경 이미지를 쉽게 제거할 수 있다. 도 3(a)는 뎁스 픽쳐 데이터에서 배경 이미지가 제거된 결과를 나타내고 있다.

배경 이미지가 제거되면, 머리 위치 검출부(112)는 2D 챔퍼 매칭(Chamfer Matching)을 수행할 수 있다. 2D 챔퍼 매칭은 간단하고 대략적으로 사용자 머리를 찾는 알고리즘으로, 연산량이 비교적 적기 때문에 실시간 머리 검출 알고리즘에 적합하다. 구체적으로, 머리 위치 검출부(112)는 도 3(b)에 도시된 바와 같이 뎁스 픽쳐 데이터에서 엣지 이미지를 추출한다(S220). 이때, 머리 위치 검출부(112)는 상기 S210 단계에서 배경 이미지가 제거된 뎁스 픽쳐 데이터를 이용하여 엣지 이미지를 추출할 수 있다. 또한, 머리 위치 검출부(112)는 도 3(c)에 도시된 바와 같이 뎁스 픽쳐 데이터에서 거리 이미지를 추출한다(S230). 이때, 상기 거리 이미지는 뎁스 픽쳐 데이터에서 각 픽셀의 거리정보를 이용한 변환을 통해 획득될 수 있다.

이와 같이 상기 S220 및 S230 단계가 수행되면, 머리 위치 검출부(112)는 추출된 엣지 이미지와 거리 이미지간의 매칭을 통해서 머리 후보군을 획득한다(S240). 다음으로, 머리 위치 검출부(112)는 획득된 머리 후보군들에 대해서 미리 설정된 머리 템플릿 이미지와의 템플릿 매칭을 수행한다(S250). 더욱 구체적으로, 머리 위치 검출부(112)는 엣지 픽셀들을 0값으로 컨버팅하고 다른 픽셀들은 상기 엣지 픽셀들로부터의 거리값으로 컨버팅한다. 그리고, 템플릿 엣지 이미지와 거리 엣지 이미지 간의 챔퍼 거리(chamfer distance)가 측정된다. 만약 챔퍼 거리가 특정 임계값보다 작을 경우, 머리 위치 검출부(112)는 해당 영역을 머리 영역으로 설정한다. 최소의 거리를 갖기 위해서는, 템플릿의 엣지와 거리 이미지가 동일한 위치에 놓여져야 한다. 이와 같이 템플릿 매칭을 수행함으로, 머리 위치 검출부(112)는 각 사용자의 정확한 머리 위치 정보를 획득할 수 있다. 도 4(a)에 표시된 별표들은 2D 챔퍼 매칭을 통해 획득된 머리 후보군들을 나타내며, 도 4(b)에 표시된 별표들은 템플릿 매칭 이후에 획득된 정확한 머리 위치들을 나타낸다.

머리 위치 검출부(112)가 사용자의 머리 위치를 획득하면, 머리 위치 추적부(114)는 상기 머리 위치를 실시간으로 추적한다. 이를 위해, 머리 위치 추적부(114)는 상기 획득된 머리 위치에 대응하는 초기 윈도우(window)를 설정한다(S260). 즉, 머리 위치 추적부(114)는 획득된 머리 위치 정보를 이용하여 윈도우의 초기 위치 및 크기를 조정할 수 있다. 예를 들어, 머리 위치 추적부(114)는 초기 윈도우의 중심이 상기 획득된 머리 위치의 중심부에 오도록 설정할 수 있으며, 또는 상기 획득된 머리 위치에 대응하는 기 설정된 영역에 상기 초기 윈도우가 위치하도록 할 수 있다.

다음으로, 머리 위치 추적부(114)는 상기 윈도우를 이용하여 사용자 머리의 중심부를 추적한다(S270). 즉, 머리 위치 추적부(114)는 사용자 머리의 위치 이동에 대응하여, 상기 윈도우의 중심이 사용자 머리의 중심부에 오도록 조정한다. 예를 들어, 도 5(a)에 도시된 바와 같이 사용자 머리의 중심부가 25a에서 25a'로 이동하면, 머리 위치 추적부(114)는 이동된 사용자 머리 중심부 25a'에 윈도우(20)의 중심이 위치하도록 조정할 수 있다. 한편, 본 발명의 실시예에 따르면 머리 위치 추적부(114)는 윈도우(20)의 크기를 사용자 머리의 크기 변화에 대응하여 조정할 수 있다. 도 5(b)는 도 5(a)의 사용자 머리의 크기가 확대 되었을때, 이에 대응하여 윈도우(20)의 크기가 확대된 모습을 나타내고 있다. 따라서, 머리 위치 추적부(114)는 픽쳐 데이터 상에서 사용자 머리의 좌우 이동 및 전후 이동에 대응하여 정확하게 머리 위치를 추적할 수 있다. 머리 위치 추적부(114)는 추적된 사용자 머리 위치의 좌표 정보를 실시간으로 도 1의 좌표 변환부(116)에 전달한다. 이때, 전달되는 좌표 정보는 뎁스 픽쳐 데이터 상에서 사용자 머리 위치의 x, y 좌표 및 거리값 D를 포함한다.

다시 도 1을 참조하면, 좌표 변환부(116)는 전술한 방법을 통해 검출 및 추적된 머리 위치 좌표 정보를 실제 공간상의 3차원 좌표 정보로 변환한다. 뎁스 픽쳐 데이터에서 상기 머리 위치 검출부(112) 및 머리 위치 추적부(114)를 통해 획득된 머리 위치 좌표 정보를 x, y, D라 할 때, 좌표 변환부(116)는 머리 위치의 3차원 좌표 정보(

,

)를 구할 수 있다.

첨부된 도 6은 상기와 같은 좌표 변환을 통해 뎁스 픽쳐 데이터 상의 좌표 정보 (x, y, D)가 3차원 좌표 정보 (

,

)로 변환되는 모습을 도시하고 있다. 도 6을 참조하면, 뎁스 카메라(30)에 대한 사용자 머리의 상대적인 위치를 측정하기 위해, 뎁스 카메라(30)가 좌표계의 원점에 있다고 가정할 수 있다. 즉, 계산의 편의를 위해, 뎁스 카메라(30)와 레퍼런스 마이크가 상기 원점에 위치한다고 가정할 수 있다. 좌표 변환부(116)는 주어진 좌표 정보 (x, y, D)로 부터, 원점에 대한 머리 위치의 실제 좌표를 구하기 위한 수식을 이용할 수 있다. 최소 시거리(minimum viewing distance)에서의 각 픽셀의 해상도는 대략 1.3mm로 알려져 있다. 본 발명의 실시예에 따른 좌표 변환부는 비례식을 이용하여 머리 위치의 3차원 좌표 정보 정보 (

,

)를 다음과 같이 구할 수 있다.

이와 같이 비디오 처리부(110)에서 사용자 머리 위치를 추출하면, 오디오 처리부(120)는 상기 추출된 머리 위치의 3차원 좌표 정보(

,

)와 수신된 오디오 신호를 이용하여 실제 화자의 위치 정보를 식별한다.

본 발명의 실시예에 따르면, 오디오 처리부(120)는 화자 검출을 위해 마이크로폰 어레이를 이용하여 음원 방향(Sound Source Location)을 디텍트 한다. 복수의 마이크를 사용하면, 음원에서 각 마이크까지 소리가 도달하는데 걸리는 시간이 다르게 된다. 이러한 시간차 정보(Δt)를 이용하여, 공간상의 모든 사용자의 위치와 마이크간의 상대적인 방향을 알아낼 수 있다. 본 발명의 실시예에 따른 오디오 처리부(120)는 소리가 음원에서 각 마이크까지 도달하는데 걸리는 샘플 단위의 도달 시간 차이 τ를 다음과 같이 구할 수 있다.

상기 수식에서 F_s는 샘플링 주파수, d는 복수의 마이크에서 각 마이크 사이의 거리, c는 소리의 속도(약 334m/s)를 나타낸다. 한편, θ는 음원과 마이크 사이의 각도이며, 본 발명의 실시예에 따라 상기 각도 θ는 다음과 같이 구할 수 있다.

한편, 상기 샘플 단위의 도달 시간 차이 τ는 마이크로폰 어레이를 중심으로 음원이 놓인 상대적인 위치에 따라 다르게 된다. 취득한 오디오 신호에 대하여 이러한 시간 차이를 보상해 준 다음 평균을 취해주어서 원하는 방향 이외의 방향에서 들어오는 신호를 억압하는 알고리즘을 지연 후 합 빔포밍(delay-and sum beamforming, DSB)이라고 한다. 마이크로폰 어레이에서 사용하는 마이크로폰의 개수를 N이라고 할 때, 주파수 축에서의 DSB를 적용한 출력 Y(ω)는 아래와 같다.

이때, X(ω)는 입력신호이고, W(ω)는 주파수 빈(frequency bin)별 가중치이다. 출력 Y(ω)를 구하기 위해 사용하는 빈별 가중치 W(ω)는 그 값에 따라 음원의 위치를 더욱 정확하게 구할 수 있게 된다. 그 중, 신호의 위상만을 비교하는 방법을 Steered Response Power - Phase Transform (SRP-Phat)이라고 한다. 이때 파워가 가장 높거나 기 설정된 임계값을 넘기는 경우, 해당 방향에 음원이 존재한다고 가정할 수 있다. SRP-Phat을 이용하여 단일 화자의 위치를 측정하기 위해 다음과 같은 수식을 사용한다.

여기서 P(τ)는 τ에 대한 오디오 신호의 파워를 의미하며, 해당 파워가 임계값보다 높을 때 상기 τ에 대응하는 방향에 화자가 존재함을 알 수 있다.

도 7 및 도 8은 특정 시간에서 실행한 SRP-Phat의 각도(Source Location)별 응답 그래프를 나타낸 것으로써, 도 7은 단일 화자인 경우, 도 8은 다중 화자인 경우의 응답 분포를 나타내고 있다. 도 7의 실시예를 참조하면, 응답값이 가장 높은 15°의 방향(DoA, Difference of Arrival)에 화자가 존재할 것으로 추정할 수 있다. 또한, 도 8의 실시예를 참조하면, 응답값이 기 설정된 임계값(Threshold)을 넘는 15°및 -7°의 방향(DoA, Difference of Arrival)에 각각 화자가 존재할 것으로 추정할 수 있다. 이와 같이, 각도별 응답 그래프에서 응답 값이 가장 높은 각도 또는 기 설정된 임계값을 넘는 각도가 음원이 존재할 수 있는 위치가 된다. 이때, 픽쳐 데이터에서 추출한 사용자 머리 위치와 상기 음원의 위치를 비교하여 머리 위치와 음원의 위치가 일치할 경우, 해당 위치에 화자가 있는 것으로 식별할 수 있다.

본 발명의 실시예에 따르면, 오디오 처리부(120)는 비디오 처리부(110)에서 획득한 사용자 머리 위치의 3차원 좌표 정보를 이용하여 빔포머의 가중치를 획득할 수 있다. 일반적으로 단일 화자 또는 다중 화자에 대한 음원의 음질 향상을 위해 DSB 빔포머나 MVDR (Minimum Variance Distortionless Response) 빔포머가 사용될 수 있다. 본 발명의 일 실시예에 따르면 MVDR 빔포머의 가중치 W(ω)를 다음과 같이 구할 수 있다.

여기서, d(θ, ω)는 마이크로폰 어레이를 기준으로 한 객체의 방향 벡터를 나타내는 것으로서, 본 발명의 실시예에 따르면 [수학식 2]에서 구한 τ값을 N개의 마이크에 대하여 적용함으로 사용자 머리 위치에 대한 방향 벡터를 구할 수 있다.

오디오 처리부(120)는 상기 방향 벡터 d(θ, ω)를 이용하여 오디오 신호의 빔포밍을 위한 주파수 빈별 가중치 W(ω)를 획득하고, 상기 가중치 W(ω)로 오디오 신호를 빔포밍한 출력 Y(ω)의 파월를 기 설정된 임계값과 비교한다. 만약, 상기 출력 Y(ω)의 파워가 기 설정된 임계값 이상일 경우, 오디오 처리부(120)는 해당 사용자 머리 위치를 화자의 위치로 식별한다. 그러나 상기 출력 Y(ω)의 파워가 기 설정된 임계값 보다 작을 경우, 오디오 처리부(120)는 해당 사용자 머리 위치가 화자의 위치가 아닌 것으로 식별한다.

이와 같이 본 발명의 오디오 처리부(120)가 화자의 위치 정보를 식별하면, 음원 분리부(130)는 식별된 화자의 위치 정보를 이용하여 오디오 신호에 대한 빔포밍을 수행한다. 본 발명의 실시예에 따르면, 오디오 처리부(120)에서 빔포밍을 위한 최적의 각도 및 가중치를 미리 산출하였기 때문에, 음원 분리부(130)는 모든 각도에 대하여 빔포밍을 수행할 필요 없이 오디오 처리부(120)에서 미리 구한 가중치W(ω)를 이용할 수 있다. 즉, 음원 분리부(130)는 화자의 위치 정보에 대응하는 방향 벡터 d(θ, ω)를 구하고, 상기 방향 벡터 d(θ, ω)를 이용하여 주파수 빈별 가중치 W(ω)를 획득할 수 있다. 음원 분리부(130)는 상기 가중치 W(ω)를 이용하여 오디오 신호에 빔포밍을 수행함으로, 상기 화자의 음원을 분리한다. 본 발명의 실시예에 따른 음원 분리부(130)는 오디오 처리부(120)에서 획득한 가중치 W(ω)를 이용함으로 연산량을 최소화할 수 있다. 한편, 본 발명에서는 오디오 처리부(120)가 주파수 빈별 가중치 W(ω)를 획득하는 것으로 기술하였으나 이는 빔포머의 가중치를 구하기 위한 본 발명의 일 실시예에 불과하며 다양하게 변형 가능하다. 즉, 오디오 처리부(120)는 주파수 밴드별로 가중치를 구하거나, 기 설정된 범위의 주파수 대역 별로 가중치를 구할 수도 있다.

전술한 바와 같이, 본 발명의 오디오 신호 처리 장치(100)는 수신된 오디오 신호 중 식별된 화자의 방향에 대한 소리는 받아들이고 다른 방향의 소리는 줄여 줌으로 음질을 향상 시킬 수 있다. 이렇게 특정 방향에 대한 음원의 음질을 향상 시키면, 다양한 어플리케이션으로 적용이 가능하다. 우선 다중 화자 환경에서 각각의 화자에 대한 음원 분리 및 추적이 가능하다. 또한, 다중 화자 각각의 방향에 대해 빔포밍을 구현함으로 화자 별 음원을 추출하고, 추출된 음원을 이용해서 화자 인식 및 오디오 패닝 등의 기술을 적용할 수 있다.

20 : 윈도우 100 : 오디오 신호 처리 장치
110 : 비디오 처리부 112 : 머리 위치 검출부
114 : 머리 위치 추적부 116 : 좌표 변환부
120 : 오디오 처리부 130 : 음원 분리부

Claims

오디오 신호를 수신하는 단계;
뎁스 카메라를 통해 촬영된 뎁스 픽쳐 데이터를 획득하는 단계;
상기 뎁스 픽쳐 데이터에서 적어도 하나의 사용자 머리 위치 정보를 추출하는 단계;
상기 추출된 사용자 머리 위치 정보를 3차원 상의 좌표 정보로 변환하는 단계;
상기 변환된 좌표 정보 및 상기 수신된 오디오 신호를 이용하여, 상기 적어도 하나의 사용자 머리 위치 정보 중 화자의 위치 정보를 식별하는 단계;
상기 식별된 화자의 위치 정보에 대응하는 가중치를 획득하는 단계; 및
상기 가중치를 이용하여, 상기 수신된 오디오 신호에 빔포밍을 수행하여 상기 화자의 음원을 분리하는 단계;
를 포함하며,
상기 화자의 위치 정보를 식별하는 단계는,
상기 변환된 좌표를 이용하여, 상기 사용자 머리 위치에서 마이크로폰 어레이의 각 마이크에 대한 소리의 도달시간 차이를 구하는 단계;
상기 도달시간 차이를 이용하여 상기 사용자 머리 위치에 대한 방향 벡터를 구하는 단계;
상기 방향 벡터를 이용하여 상기 오디오 신호의 빔포밍을 위한 가중치를 획득하는 단계; 및
상기 가중치로 상기 오디오 신호를 빔포밍한 출력의 파워를 이용하여 상기 사용자 머리 위치가 화자의 위치인지 여부를 판별하는 단계;
를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
삭제
제 1항에 있어서,
상기 사용자 머리 위치가 화자의 위치인지 여부를 판별하는 단계는,
상기 빔포밍한 출력의 파워를 기 설정된 임계값과 비교하고,
상기 빔포밍한 출력의 파워가 기 설정된 임계값 이상일 경우, 해당 사용자 머리 위치를 화자의 위치로 식별하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 1항에 있어서,
상기 가중치를 획득하는 단계는,
상기 식별된 화자의 위치 정보에 대응하는 방향 벡터를 이용하여 상기 가중치를 획득하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 4항에 있어서,
상기 가중치는 주파수 빈(frequecy bin)별 가중치인 것을 특징으로 하는 오디오 신호 처리 방법.
제 1항에 있어서,
상기 사용자 머리 위치 정보를 추출하는 단계는,
상기 사용자 머리 위치를 검출하는 단계; 및
상기 사용자 머리 위치를 추적하는 단계;
를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 6항에 있어서,
상기 사용자 머리 위치를 검출하는 단계는,
상기 뎁스 픽쳐 데이터에서 배경 이미지를 제거하는 단계;
상기 배경 이미지가 제거된 뎁스 픽쳐 데이터에서 엣지 이미지를 추출하는 단계;
상기 뎁스 픽쳐 데이터에서 거리 이미지를 추출하는 단계;
상기 추출된 엣지 이미지와 거리 이미지간의 매칭을 통해 머리 후보군을 획득하는 단계; 및
상기 획득된 머리 후보군을 기 설정된 머리 템플릿 이미지와 템플릿 매칭을 수행하여 사용자 머리 위치를 획득하는 단계;
를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 6항에 있어서,
상기 사용자 머리 위치를 추적하는 단계는,
상기 검출된 사용자 머리 위치에 대응하는 윈도우를 설정하는 단계; 및
상기 윈도우를 이용하여 상기 사용자 머리의 중심부를 추적하는 단계;
를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
오디오 신호 처리 장치에 있어서,
뎁스 카메라를 통해 촬영된 뎁스 픽쳐 데이터를 획득하고, 상기 뎁스 픽쳐 데이터에서 적어도 하나의 사용자 머리 위치 정보를 추출하고, 상기 추출된 사용자 머리 위치 정보를 3차원 상의 좌표 정보로 변환하는 비디오 처리부;
오디오 신호를 수신하고, 상기 비디오 처리부에서 변환된 좌표 정보 및 상기 수신된 오디오 신호를 이용하여 상기 적어도 하나의 사용자 머리 위치 정보 중 화자의 위치 정보를 식별하고, 상기 식별된 화자의 위치 정보에 대응하는 가중치를 획득하는 오디오 처리부; 및
상기 가중치를 이용하여, 상기 수신된 오디오 신호에 빔포밍을 수행하여 상기 화자의 음원을 분리하는 음원 분리부;를 포함하며,
상기 오디오 처리부는,
상기 변환된 좌표를 이용하여, 상기 사용자 머리 위치에서 마이크로폰 어레이의 각 마이크에 대한 소리의 도달시간 차이를 구하고,
상기 도달시간 차이를 이용하여 상기 사용자 머리 위치에 대한 방향 벡터를 구하고,
상기 방향 벡터를 이용하여 상기 오디오 신호의 빔포밍을 위한 가중치를 획득하고,
상기 가중치로 상기 오디오 신호를 빔포밍한 출력의 파워를 이용하여 상기 사용자 머리 위치가 화자의 위치인지 여부를 판별하는
것을 특징으로 하는 오디오 신호 처리 장치.
삭제
제 9항에 있어서,
상기 오디오 처리부는,
상기 빔포밍한 출력의 파워를 기 설정된 임계값과 비교하고,
상기 빔포밍한 출력의 파워가 기 설정된 임계값 이상일 경우, 해당 사용자 머리 위치를 화자의 위치로 식별하는 것을 특징으로 하는 오디오 신호 처리 장치.
제 9항에 있어서,
상기 오디오 처리부는,
상기 식별된 화자의 위치 정보에 대응하는 방향 벡터를 이용하여 상기 가중치를 획득하는 것을 특징으로 하는 오디오 신호 처리 장치.
제 12항에 있어서,
상기 가중치는 주파수 빈(frequecy bin)별 가중치인 것을 특징으로 하는 오디오 신호 처리 장치.
제 9항에 있어서,
상기 비디오 처리부는,
상기 사용자 머리 위치를 검출하는 머리 위치 검출부; 및
상기 사용자 머리 위치를 추적하는 머리 위치 추적부를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
제 14항에 있어서,
상기 머리 위치 검출부는,
상기 뎁스 픽쳐 데이터에서 배경 이미지를 제거하고,
상기 배경 이미지가 제거된 뎁스 픽쳐 데이터에서 엣지 이미지를 추출하고,
상기 뎁스 픽쳐 데이터에서 거리 이미지를 추출하고,
상기 추출된 엣지 이미지와 거리 이미지간의 매칭을 통해 머리 후보군을 획득하고,
상기 획득된 머리 후보군을 기 설정된 머리 템플릿 이미지와 템플릿 매칭을 수행하여 사용자 머리 위치를 획득하는 것을 특징으로 하는 오디오 신호 처리 장치.
제 14항에 있어서,
상기 사용자 머리 위치를 추적부는,
상기 검출된 사용자 머리 위치에 대응하는 윈도우를 설정하고,
상기 윈도우를 이용하여 상기 사용자 머리의 중심부를 추적하는 것을 특징으로 하는 오디오 신호 처리 장치.