KR101542647B1 - 화자 검출을 이용한 오디오 신호 처리 방법 및 장치 - Google Patents

화자 검출을 이용한 오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR101542647B1
KR101542647B1 KR1020120142986A KR20120142986A KR101542647B1 KR 101542647 B1 KR101542647 B1 KR 101542647B1 KR 1020120142986 A KR1020120142986 A KR 1020120142986A KR 20120142986 A KR20120142986 A KR 20120142986A KR 101542647 B1 KR101542647 B1 KR 101542647B1
Authority
KR
South Korea
Prior art keywords
user
head position
head
audio signal
speaker
Prior art date
Application number
KR1020120142986A
Other languages
English (en)
Other versions
KR20140074718A (ko
Inventor
유경국
이지석
양재모
강홍구
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020120142986A priority Critical patent/KR101542647B1/ko
Publication of KR20140074718A publication Critical patent/KR20140074718A/ko
Application granted granted Critical
Publication of KR101542647B1 publication Critical patent/KR101542647B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 화자 검출을 이용한 오디오 신호 처리 방법 및 장치에 관한 발명으로써, 더욱 상세하게는 뎁스 카메라을 이용하여 하나 이상의 화자의 위치 정보를 검출하고, 이를 이용하여 각 화자에 대응하는 음원을 추출하기 위한 발명이다.
이를 위해 본 발명은, 오디오 신호를 수신하는 단계, 뎁스 카메라를 통해 촬영된 뎁스 픽쳐 데이터를 획득하는 단계, 상기 뎁스 픽쳐 데이터에서 적어도 하나의 사용자 머리 위치 정보를 추출하는 단계, 상기 추출된 사용자 머리 위치 정보를 3차원 상의 좌표 정보로 변환하는 단계, 상기 변환된 좌표 정보 및 상기 수신된 오디오 신호를 이용하여, 상기 적어도 하나의 사용자 머리 위치 정보 중 화자의 위치 정보를 식별하는 단계, 상기 식별된 화자의 위치 정보에 대응하는 가중치를 획득하는 단계, 및 상기 가중치를 이용하여, 상기 수신된 오디오 신호에 빔포밍을 수행하여 상기 화자의 음원을 분리하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법 및 이를 이용한 오디오 신호 처리 장치를 개시한다.

Description

화자 검출을 이용한 오디오 신호 처리 방법 및 장치{A Method for Processing Audio Signal Using Speacker Detection and A Device thereof}
본 발명은 화자 검출을 이용한 오디오 신호 처리 방법 및 장치에 관한 발명으로써, 더욱 상세하게는 뎁스 카메라를 이용하여 하나 이상의 화자의 위치 정보를 검출하고, 이를 이용하여 각 화자에 대응하는 음원을 추출하기 위한 발명이다.
오브젝트 기반의 오디오 신호 처리 기술이 이슈화 됨에 따라 다중 음원이 포함된 오디오 신호에서 각 음원을 개별적으로 추출하는 기술이 개발되고 있다. 종래 기술에 따르면, 오디오 센서 및 비디오 센서 중 어느 하나만을 이용하여 화자의 위치를 파악하였다. 그러나 오디오 센서만을 이용하여 음원을 추적하는 방법은 반향이나 노이즈 환경에 민감하게 반응하는 문제점이 있었다. 이러한 방법은 신호대잡음비(Signal to Noise Ratio, SNR)이 낮아질수록 화자의 위치가 정확하지 않게 추정되는 경향을 보인다.
또한, 기존의 오디오-비디오 다중 센서 방식으로 화자의 위치를 검출하는 방법은 대개 마이크로폰 어레이와 한 대 이상의 RGB 카메라 센서를 동시에 이용한다. 하지만 RGB 카메라 센서를 이용하여 화자를 찾는 과정은 빛이나 색에 의한 왜곡이 있고, 많은 계산량이 요구되는 문제점이 있었다.
"마이크의 빔포밍 수행 방법 및 장치" (특허공개번호: 10-2012-0027718). "마이크 어레이를 이용한 방향성 음원 필터링 장치 및 그 제어방법" (특허공개번호: 10-2012-0071452)
본 발명은 적어도 하나의 사용자가 존재하는 환경에서 실시간으로 각 사용자의 정확한 위치를 찾고, 발화하는 사용자들의 음성정보를 분리 및 추적하기 위한 목적을 가지고 있다.
상기와 같은 과제를 해결하기 위해 본 발명의 실시예에 따른 화자 검출을 이용한 오디오 신호 처리 방법은, 오디오 신호를 수신하는 단계; 뎁스 카메라를 통해 촬영된 뎁스 픽쳐 데이터를 획득하는 단계; 상기 뎁스 픽쳐 데이터에서 적어도 하나의 사용자 머리 위치 정보를 추출하는 단계; 상기 추출된 사용자 머리 위치 정보를 3차원 상의 좌표 정보로 변환하는 단계; 상기 변환된 좌표 정보 및 상기 수신된 오디오 신호를 이용하여, 상기 적어도 하나의 사용자 머리 위치 정보 중 화자의 위치 정보를 식별하는 단계; 상기 식별된 화자의 위치 정보에 대응하는 가중치를 획득하는 단계; 및 상기 가중치를 이용하여, 상기 수신된 오디오 신호에 빔포밍을 수행하여 상기 화자의 음원을 분리하는 단계; 를 포함하는 것을 특징으로 한다.
또한, 본 발명의 실시예에 따른 화자 검출을 이용한 오디오 신호 처리 장치는, 뎁스 카메라를 통해 촬영된 뎁스 픽쳐 데이터를 획득하고, 상기 뎁스 픽쳐 데이터에서 적어도 하나의 사용자 머리 위치 정보를 추출하고, 상기 추출된 사용자 머리 위치 정보를 3차원 상의 좌표 정보로 변환하는 비디오 처리부; 오디오 신호를 수신하고, 상기 비디오 처리부에서 변환된 좌표 정보 및 상기 수신된 오디오 신호를 이용하여 상기 적어도 하나의 사용자 머리 위치 정보 중 화자의 위치 정보를 식별하고, 상기 식별된 화자의 위치 정보에 대응하는 가중치를 획득하는 오디오 처리부; 및 상기 가중치를 이용하여, 상기 수신된 오디오 신호에 빔포밍을 수행하여 상기 화자의 음원을 분리하는 음원 분리부; 를 포함하는 것을 특징으로 한다.
본 발명의 실시예에 따르면, 잡음이 있는 환경이나 다수의 화자가 존재하는 상황에서도 정확하게 각 화자의 방향 및 위치 정보를 파악하고, 해당 화자의 음원의 분리 및 추적이 가능하다.
또한, 본 발명의 실시예에 따르면 적은 연산량으로 화자의 방향에 대한 빔포밍을 수행할 수 있으며, 이에 따라 다수의 화자가 존재하는 상황에서도 응답성이 빠른 음원 추출 방법을 제공할 수 있다.
또한, 본 발명의 실시예에 따르면 뎁스 픽쳐 데이터를 이용하여 화자의 위치 정보를 획득함으로, 디바이스를 기준으로 중첩된 위치에 있는 화자가 있을 경우에도 각 화자의 음성을 정확하게 분리해 낼 수 있게 된다.
도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치를 나타낸 블록도.
도 2는 본 발명의 실시예에 따른 사용자 머리 위치 검출부 및 사용자 머리 위치 추적부의 데이터 프로세싱 과정을 나타낸 순서도.
도 3은 본 발명의 실시예에 따라 뎁스 픽쳐 데이터에서 배경 이미지가 제거된 결과, 엣지 이미지가 추출된 결과 및 거리 이미지가 추출된 결과를 나타낸 도면.
도 4는 2D 챔퍼 매칭을 통해 획득된 머리 후보군들 및 템플릿 매칭 이후에 획득된 정확한 머리 위치들을 나타낸 도면.
도 5는 본 발명의 실시예에 따른 머리 위치 추적부가 윈도우를 이용하여 사용자 머리 중심부를 추적하는 모습을 나타낸 도면.
도 6은 본 발명의 실시예에 따른 좌표 변환부가 뎁스 픽쳐 데이터 상의 좌표 정보를 3차원 좌표 정보로 변환하는 모습을 도시하는 도면.
도 7 및 도 8은 본 발명의 일 실시예에 따른 SRP-Phat의 각도(Source Location)별 응답 그래프.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 아닌 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.
도 1은 본 발명의 실시예에 따른 오디오 신호 처리 장치(100)를 나타낸 블록도이다. 도시된 바와 같이, 본 발명에 따른 오디오 신호 처리 장치(100)는 비디오 처리부(110), 오디오 처리부(120) 및 음원 분리부(130)를 포함한다.
먼저, 비디오 처리부(110)는 카메라 유닛(미도시)을 통해 획득된 픽쳐 데이터를 이용하여 실시간으로 사용자의 머리를 검출 및 추적하고, 해당 사용자 머리의 좌표 정보를 획득한다. 이를 위해, 비디오 처리부(110)는 머리 위치 검출부(112), 머리 위치 추적부(114) 및 좌표 변환부(116)를 포함할 수 있다.
상기 머리 위치 검출부(112)는 픽쳐 데이터를 이용하여 사용자의 머리 위치를 검출한다. 본 발명의 실시예에 따르면, 상기 픽쳐 데이터는 뎁스 카메라를 통해 수집된 뎁스 픽쳐 데이터가 될 수 있다. 뎁스 픽쳐 데이터는 이미지의 2차원적인 좌표 데이터 뿐만 아니라 해당 이미지의 거리정보를 더 포함한다. 예를 들어, 뎁스 카메라를 구비한 키넥트(Kinect)에 의해 수집된 뎁스 픽쳐 데이터의 픽셀은 16 비트로 구성되어 있다. 이때, 각 픽셀의 상위 13비트는 거리정보를 밀리미터(mm) 단위로 저장하고, 하위 3비트는 사용자 정보를 저장하게 된다. 키넥트의 뎁스 픽쳐 데이터를 이용하는 경우, 비디오 처리부(110)는 각각의 픽셀의 거리정보와 함께 최대 6명의 사용자 정보를 획득할 수 있다. 본 발명의 실시예에 따라 뎁스 픽쳐 데이터를 이용할 경우, 빛이나 색의 영향을 받지 않고 안정적으로 객체(또는 사용자)를 인식할 수 있게 된다. 또한, 뎁스 픽쳐 데이터를 이용하게 되면 기존의 RGB형식의 픽쳐 데이터를 이용하는 것에 비하여 객체를 인식하기 위한 연산량이 줄어들게 된다.
머리 위치 추적부(114)는 상기 머리 위치 검출부(112)에서 검출한 머리 위치를 실시간으로 추적한다. 비디오 처리부(110)에서 실시간으로 사용자의 머리 위치 검출 알고리즘을 수행하는 것은 많은 연산량을 필요로 하므로, 상대적으로 연산량이 적은 머리 추적 알고리즘이 반드시 필요하다. 상기 머리 위치 검출부(112) 및 머리 위치 추적부(114)의 구체적인 데이터 프로세싱 과정은 도 2를 참조로 후술하도록 한다.
비디오 처리부(116)는 상기 머리 위치 검출부(112) 및 머리 위치 추적부(114)를 통해 검출 및 추적한 머리의 위치를 실제 공간상의 좌표로 바꾸어 준다.
다음으로, 오디오 처리부(120)는 상기 비디오 처리부(110)에서 찾은 사용자 머리 위치 정보와 오디오 신호를 이용한 사용자 매칭을 통해 실제 화자를 식별한다. 더욱 구체적으로, 오디오 처리부(120)는 상기 비디오 처리부(110)에서 추출한 사용자 머리 위치 정보를 이용하여 오디오 신호의 빔포밍을 위한 가중치를 획득하고, 획득된 가중치로 오디오 신호를 빔포밍한 출력의 파워를 기 설정된 임계값과 비교하여 상기 사용자 머리 위치가 실제 화자의 위치인지 여부를 판별한다.
다음으로, 음원 분리부(130)는 상기 오디오 처리부(120)에서 식별된 화자의 위치 정보에 대응하는 가중치를 이용하여 오디오 신호에 빔포밍을 수행한다. 이를 통해 음원 분리부(130)는 수신된 오디오 신호에서 화자별 음원의 분리 및 추적이 가능하다.
도 1에 도시된 오디오 신호 처리 장치(100)는 본 발명의 일 실시예에 따른 블록도로서, 분리하여 표시한 블록들은 디바이스의 각 구성들을 논리적으로 구별하여 도시한 것이다. 따라서 상술한 디바이스의 엘리먼트들은 디바이스의 설계에 따라 하나의 칩으로 또는 복수의 칩으로 장착될 수 있다.
도 2는 본 발명의 실시예에 따라 머리 위치 검출부(112) 및 머리 위치 추적부(114)가 데이터 프로세싱을 수행하는 과정을 나타낸 순서도이다. 도 2의 실시예에서, 머리 위치 검출부(112) 및 머리 위치 추적부(114)는 뎁스 픽쳐 데이터를 이용하여 머리 위치 검출 및 머리 위치 추적을 수행한다.
사용자의 머리를 빠르고 안정적으로 찾기 위하여, 머리 위치 검출부(112)는 먼저 뎁스 픽쳐 데이터에서 배경 이미지를 제거한다(S210). 본 발명의 일 실시예에 따르면, 머리 위치 검출부(112)는 키넥트가 제공하는 뎁스 픽셀의 사용자 정보를 이용하여 배경 이미지를 쉽게 제거할 수 있다. 도 3(a)는 뎁스 픽쳐 데이터에서 배경 이미지가 제거된 결과를 나타내고 있다.
배경 이미지가 제거되면, 머리 위치 검출부(112)는 2D 챔퍼 매칭(Chamfer Matching)을 수행할 수 있다. 2D 챔퍼 매칭은 간단하고 대략적으로 사용자 머리를 찾는 알고리즘으로, 연산량이 비교적 적기 때문에 실시간 머리 검출 알고리즘에 적합하다. 구체적으로, 머리 위치 검출부(112)는 도 3(b)에 도시된 바와 같이 뎁스 픽쳐 데이터에서 엣지 이미지를 추출한다(S220). 이때, 머리 위치 검출부(112)는 상기 S210 단계에서 배경 이미지가 제거된 뎁스 픽쳐 데이터를 이용하여 엣지 이미지를 추출할 수 있다. 또한, 머리 위치 검출부(112)는 도 3(c)에 도시된 바와 같이 뎁스 픽쳐 데이터에서 거리 이미지를 추출한다(S230). 이때, 상기 거리 이미지는 뎁스 픽쳐 데이터에서 각 픽셀의 거리정보를 이용한 변환을 통해 획득될 수 있다.
이와 같이 상기 S220 및 S230 단계가 수행되면, 머리 위치 검출부(112)는 추출된 엣지 이미지와 거리 이미지간의 매칭을 통해서 머리 후보군을 획득한다(S240). 다음으로, 머리 위치 검출부(112)는 획득된 머리 후보군들에 대해서 미리 설정된 머리 템플릿 이미지와의 템플릿 매칭을 수행한다(S250). 더욱 구체적으로, 머리 위치 검출부(112)는 엣지 픽셀들을 0값으로 컨버팅하고 다른 픽셀들은 상기 엣지 픽셀들로부터의 거리값으로 컨버팅한다. 그리고, 템플릿 엣지 이미지와 거리 엣지 이미지 간의 챔퍼 거리(chamfer distance)가 측정된다. 만약 챔퍼 거리가 특정 임계값보다 작을 경우, 머리 위치 검출부(112)는 해당 영역을 머리 영역으로 설정한다. 최소의 거리를 갖기 위해서는, 템플릿의 엣지와 거리 이미지가 동일한 위치에 놓여져야 한다. 이와 같이 템플릿 매칭을 수행함으로, 머리 위치 검출부(112)는 각 사용자의 정확한 머리 위치 정보를 획득할 수 있다. 도 4(a)에 표시된 별표들은 2D 챔퍼 매칭을 통해 획득된 머리 후보군들을 나타내며, 도 4(b)에 표시된 별표들은 템플릿 매칭 이후에 획득된 정확한 머리 위치들을 나타낸다.
머리 위치 검출부(112)가 사용자의 머리 위치를 획득하면, 머리 위치 추적부(114)는 상기 머리 위치를 실시간으로 추적한다. 이를 위해, 머리 위치 추적부(114)는 상기 획득된 머리 위치에 대응하는 초기 윈도우(window)를 설정한다(S260). 즉, 머리 위치 추적부(114)는 획득된 머리 위치 정보를 이용하여 윈도우의 초기 위치 및 크기를 조정할 수 있다. 예를 들어, 머리 위치 추적부(114)는 초기 윈도우의 중심이 상기 획득된 머리 위치의 중심부에 오도록 설정할 수 있으며, 또는 상기 획득된 머리 위치에 대응하는 기 설정된 영역에 상기 초기 윈도우가 위치하도록 할 수 있다.
다음으로, 머리 위치 추적부(114)는 상기 윈도우를 이용하여 사용자 머리의 중심부를 추적한다(S270). 즉, 머리 위치 추적부(114)는 사용자 머리의 위치 이동에 대응하여, 상기 윈도우의 중심이 사용자 머리의 중심부에 오도록 조정한다. 예를 들어, 도 5(a)에 도시된 바와 같이 사용자 머리의 중심부가 25a에서 25a'로 이동하면, 머리 위치 추적부(114)는 이동된 사용자 머리 중심부 25a'에 윈도우(20)의 중심이 위치하도록 조정할 수 있다. 한편, 본 발명의 실시예에 따르면 머리 위치 추적부(114)는 윈도우(20)의 크기를 사용자 머리의 크기 변화에 대응하여 조정할 수 있다. 도 5(b)는 도 5(a)의 사용자 머리의 크기가 확대 되었을때, 이에 대응하여 윈도우(20)의 크기가 확대된 모습을 나타내고 있다. 따라서, 머리 위치 추적부(114)는 픽쳐 데이터 상에서 사용자 머리의 좌우 이동 및 전후 이동에 대응하여 정확하게 머리 위치를 추적할 수 있다. 머리 위치 추적부(114)는 추적된 사용자 머리 위치의 좌표 정보를 실시간으로 도 1의 좌표 변환부(116)에 전달한다. 이때, 전달되는 좌표 정보는 뎁스 픽쳐 데이터 상에서 사용자 머리 위치의 x, y 좌표 및 거리값 D를 포함한다.
다시 도 1을 참조하면, 좌표 변환부(116)는 전술한 방법을 통해 검출 및 추적된 머리 위치 좌표 정보를 실제 공간상의 3차원 좌표 정보로 변환한다. 뎁스 픽쳐 데이터에서 상기 머리 위치 검출부(112) 및 머리 위치 추적부(114)를 통해 획득된 머리 위치 좌표 정보를 x, y, D라 할 때, 좌표 변환부(116)는 머리 위치의 3차원 좌표 정보(
Figure 112012102525114-pat00001
,
Figure 112012102525114-pat00002
,
Figure 112012102525114-pat00003
)를 구할 수 있다.
첨부된 도 6은 상기와 같은 좌표 변환을 통해 뎁스 픽쳐 데이터 상의 좌표 정보 (x, y, D)가 3차원 좌표 정보 (
Figure 112012102525114-pat00004
,
Figure 112012102525114-pat00005
,
Figure 112012102525114-pat00006
)로 변환되는 모습을 도시하고 있다. 도 6을 참조하면, 뎁스 카메라(30)에 대한 사용자 머리의 상대적인 위치를 측정하기 위해, 뎁스 카메라(30)가 좌표계의 원점에 있다고 가정할 수 있다. 즉, 계산의 편의를 위해, 뎁스 카메라(30)와 레퍼런스 마이크가 상기 원점에 위치한다고 가정할 수 있다. 좌표 변환부(116)는 주어진 좌표 정보 (x, y, D)로 부터, 원점에 대한 머리 위치의 실제 좌표를 구하기 위한 수식을 이용할 수 있다. 최소 시거리(minimum viewing distance)에서의 각 픽셀의 해상도는 대략 1.3mm로 알려져 있다. 본 발명의 실시예에 따른 좌표 변환부는 비례식을 이용하여 머리 위치의 3차원 좌표 정보 정보 (
Figure 112012102525114-pat00007
,
Figure 112012102525114-pat00008
,
Figure 112012102525114-pat00009
)를 다음과 같이 구할 수 있다.
Figure 112012102525114-pat00010
이와 같이 비디오 처리부(110)에서 사용자 머리 위치를 추출하면, 오디오 처리부(120)는 상기 추출된 머리 위치의 3차원 좌표 정보(
Figure 112012102525114-pat00011
,
Figure 112012102525114-pat00012
,
Figure 112012102525114-pat00013
)와 수신된 오디오 신호를 이용하여 실제 화자의 위치 정보를 식별한다.
본 발명의 실시예에 따르면, 오디오 처리부(120)는 화자 검출을 위해 마이크로폰 어레이를 이용하여 음원 방향(Sound Source Location)을 디텍트 한다. 복수의 마이크를 사용하면, 음원에서 각 마이크까지 소리가 도달하는데 걸리는 시간이 다르게 된다. 이러한 시간차 정보(Δt)를 이용하여, 공간상의 모든 사용자의 위치와 마이크간의 상대적인 방향을 알아낼 수 있다. 본 발명의 실시예에 따른 오디오 처리부(120)는 소리가 음원에서 각 마이크까지 도달하는데 걸리는 샘플 단위의 도달 시간 차이 τ를 다음과 같이 구할 수 있다.
Figure 112012102525114-pat00014
상기 수식에서 Fs는 샘플링 주파수, d는 복수의 마이크에서 각 마이크 사이의 거리, c는 소리의 속도(약 334m/s)를 나타낸다. 한편, θ는 음원과 마이크 사이의 각도이며, 본 발명의 실시예에 따라 상기 각도 θ는 다음과 같이 구할 수 있다.
Figure 112012102525114-pat00015
한편, 상기 샘플 단위의 도달 시간 차이 τ는 마이크로폰 어레이를 중심으로 음원이 놓인 상대적인 위치에 따라 다르게 된다. 취득한 오디오 신호에 대하여 이러한 시간 차이를 보상해 준 다음 평균을 취해주어서 원하는 방향 이외의 방향에서 들어오는 신호를 억압하는 알고리즘을 지연 후 합 빔포밍(delay-and sum beamforming, DSB)이라고 한다. 마이크로폰 어레이에서 사용하는 마이크로폰의 개수를 N이라고 할 때, 주파수 축에서의 DSB를 적용한 출력 Y(ω)는 아래와 같다.
Figure 112012102525114-pat00016
이때, X(ω)는 입력신호이고, W(ω)는 주파수 빈(frequency bin)별 가중치이다. 출력 Y(ω)를 구하기 위해 사용하는 빈별 가중치 W(ω)는 그 값에 따라 음원의 위치를 더욱 정확하게 구할 수 있게 된다. 그 중, 신호의 위상만을 비교하는 방법을 Steered Response Power - Phase Transform (SRP-Phat)이라고 한다. 이때 파워가 가장 높거나 기 설정된 임계값을 넘기는 경우, 해당 방향에 음원이 존재한다고 가정할 수 있다. SRP-Phat을 이용하여 단일 화자의 위치를 측정하기 위해 다음과 같은 수식을 사용한다.
Figure 112012102525114-pat00017
여기서 P(τ)는 τ에 대한 오디오 신호의 파워를 의미하며, 해당 파워가 임계값보다 높을 때 상기 τ에 대응하는 방향에 화자가 존재함을 알 수 있다.
도 7 및 도 8은 특정 시간에서 실행한 SRP-Phat의 각도(Source Location)별 응답 그래프를 나타낸 것으로써, 도 7은 단일 화자인 경우, 도 8은 다중 화자인 경우의 응답 분포를 나타내고 있다. 도 7의 실시예를 참조하면, 응답값이 가장 높은 15°의 방향(DoA, Difference of Arrival)에 화자가 존재할 것으로 추정할 수 있다. 또한, 도 8의 실시예를 참조하면, 응답값이 기 설정된 임계값(Threshold)을 넘는 15°및 -7°의 방향(DoA, Difference of Arrival)에 각각 화자가 존재할 것으로 추정할 수 있다. 이와 같이, 각도별 응답 그래프에서 응답 값이 가장 높은 각도 또는 기 설정된 임계값을 넘는 각도가 음원이 존재할 수 있는 위치가 된다. 이때, 픽쳐 데이터에서 추출한 사용자 머리 위치와 상기 음원의 위치를 비교하여 머리 위치와 음원의 위치가 일치할 경우, 해당 위치에 화자가 있는 것으로 식별할 수 있다.
본 발명의 실시예에 따르면, 오디오 처리부(120)는 비디오 처리부(110)에서 획득한 사용자 머리 위치의 3차원 좌표 정보를 이용하여 빔포머의 가중치를 획득할 수 있다. 일반적으로 단일 화자 또는 다중 화자에 대한 음원의 음질 향상을 위해 DSB 빔포머나 MVDR (Minimum Variance Distortionless Response) 빔포머가 사용될 수 있다. 본 발명의 일 실시예에 따르면 MVDR 빔포머의 가중치 W(ω)를 다음과 같이 구할 수 있다.
Figure 112012102525114-pat00018
Figure 112012102525114-pat00019
여기서, d(θ, ω)는 마이크로폰 어레이를 기준으로 한 객체의 방향 벡터를 나타내는 것으로서, 본 발명의 실시예에 따르면 [수학식 2]에서 구한 τ값을 N개의 마이크에 대하여 적용함으로 사용자 머리 위치에 대한 방향 벡터를 구할 수 있다.
오디오 처리부(120)는 상기 방향 벡터 d(θ, ω)를 이용하여 오디오 신호의 빔포밍을 위한 주파수 빈별 가중치 W(ω)를 획득하고, 상기 가중치 W(ω)로 오디오 신호를 빔포밍한 출력 Y(ω)의 파월를 기 설정된 임계값과 비교한다. 만약, 상기 출력 Y(ω)의 파워가 기 설정된 임계값 이상일 경우, 오디오 처리부(120)는 해당 사용자 머리 위치를 화자의 위치로 식별한다. 그러나 상기 출력 Y(ω)의 파워가 기 설정된 임계값 보다 작을 경우, 오디오 처리부(120)는 해당 사용자 머리 위치가 화자의 위치가 아닌 것으로 식별한다.
이와 같이 본 발명의 오디오 처리부(120)가 화자의 위치 정보를 식별하면, 음원 분리부(130)는 식별된 화자의 위치 정보를 이용하여 오디오 신호에 대한 빔포밍을 수행한다. 본 발명의 실시예에 따르면, 오디오 처리부(120)에서 빔포밍을 위한 최적의 각도 및 가중치를 미리 산출하였기 때문에, 음원 분리부(130)는 모든 각도에 대하여 빔포밍을 수행할 필요 없이 오디오 처리부(120)에서 미리 구한 가중치W(ω)를 이용할 수 있다. 즉, 음원 분리부(130)는 화자의 위치 정보에 대응하는 방향 벡터 d(θ, ω)를 구하고, 상기 방향 벡터 d(θ, ω)를 이용하여 주파수 빈별 가중치 W(ω)를 획득할 수 있다. 음원 분리부(130)는 상기 가중치 W(ω)를 이용하여 오디오 신호에 빔포밍을 수행함으로, 상기 화자의 음원을 분리한다. 본 발명의 실시예에 따른 음원 분리부(130)는 오디오 처리부(120)에서 획득한 가중치 W(ω)를 이용함으로 연산량을 최소화할 수 있다. 한편, 본 발명에서는 오디오 처리부(120)가 주파수 빈별 가중치 W(ω)를 획득하는 것으로 기술하였으나 이는 빔포머의 가중치를 구하기 위한 본 발명의 일 실시예에 불과하며 다양하게 변형 가능하다. 즉, 오디오 처리부(120)는 주파수 밴드별로 가중치를 구하거나, 기 설정된 범위의 주파수 대역 별로 가중치를 구할 수도 있다.
전술한 바와 같이, 본 발명의 오디오 신호 처리 장치(100)는 수신된 오디오 신호 중 식별된 화자의 방향에 대한 소리는 받아들이고 다른 방향의 소리는 줄여 줌으로 음질을 향상 시킬 수 있다. 이렇게 특정 방향에 대한 음원의 음질을 향상 시키면, 다양한 어플리케이션으로 적용이 가능하다. 우선 다중 화자 환경에서 각각의 화자에 대한 음원 분리 및 추적이 가능하다. 또한, 다중 화자 각각의 방향에 대해 빔포밍을 구현함으로 화자 별 음원을 추출하고, 추출된 음원을 이용해서 화자 인식 및 오디오 패닝 등의 기술을 적용할 수 있다.
20 : 윈도우 100 : 오디오 신호 처리 장치
110 : 비디오 처리부 112 : 머리 위치 검출부
114 : 머리 위치 추적부 116 : 좌표 변환부
120 : 오디오 처리부 130 : 음원 분리부

Claims (16)

  1. 오디오 신호를 수신하는 단계;
    뎁스 카메라를 통해 촬영된 뎁스 픽쳐 데이터를 획득하는 단계;
    상기 뎁스 픽쳐 데이터에서 적어도 하나의 사용자 머리 위치 정보를 추출하는 단계;
    상기 추출된 사용자 머리 위치 정보를 3차원 상의 좌표 정보로 변환하는 단계;
    상기 변환된 좌표 정보 및 상기 수신된 오디오 신호를 이용하여, 상기 적어도 하나의 사용자 머리 위치 정보 중 화자의 위치 정보를 식별하는 단계;
    상기 식별된 화자의 위치 정보에 대응하는 가중치를 획득하는 단계; 및
    상기 가중치를 이용하여, 상기 수신된 오디오 신호에 빔포밍을 수행하여 상기 화자의 음원을 분리하는 단계;
    를 포함하며,
    상기 화자의 위치 정보를 식별하는 단계는,
    상기 변환된 좌표를 이용하여, 상기 사용자 머리 위치에서 마이크로폰 어레이의 각 마이크에 대한 소리의 도달시간 차이를 구하는 단계;
    상기 도달시간 차이를 이용하여 상기 사용자 머리 위치에 대한 방향 벡터를 구하는 단계;
    상기 방향 벡터를 이용하여 상기 오디오 신호의 빔포밍을 위한 가중치를 획득하는 단계; 및
    상기 가중치로 상기 오디오 신호를 빔포밍한 출력의 파워를 이용하여 상기 사용자 머리 위치가 화자의 위치인지 여부를 판별하는 단계;
    를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  2. 삭제
  3. 제 1항에 있어서,
    상기 사용자 머리 위치가 화자의 위치인지 여부를 판별하는 단계는,
    상기 빔포밍한 출력의 파워를 기 설정된 임계값과 비교하고,
    상기 빔포밍한 출력의 파워가 기 설정된 임계값 이상일 경우, 해당 사용자 머리 위치를 화자의 위치로 식별하는 것을 특징으로 하는 오디오 신호 처리 방법.
  4. 제 1항에 있어서,
    상기 가중치를 획득하는 단계는,
    상기 식별된 화자의 위치 정보에 대응하는 방향 벡터를 이용하여 상기 가중치를 획득하는 것을 특징으로 하는 오디오 신호 처리 방법.
  5. 제 4항에 있어서,
    상기 가중치는 주파수 빈(frequecy bin)별 가중치인 것을 특징으로 하는 오디오 신호 처리 방법.
  6. 제 1항에 있어서,
    상기 사용자 머리 위치 정보를 추출하는 단계는,
    상기 사용자 머리 위치를 검출하는 단계; 및
    상기 사용자 머리 위치를 추적하는 단계;
    를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  7. 제 6항에 있어서,
    상기 사용자 머리 위치를 검출하는 단계는,
    상기 뎁스 픽쳐 데이터에서 배경 이미지를 제거하는 단계;
    상기 배경 이미지가 제거된 뎁스 픽쳐 데이터에서 엣지 이미지를 추출하는 단계;
    상기 뎁스 픽쳐 데이터에서 거리 이미지를 추출하는 단계;
    상기 추출된 엣지 이미지와 거리 이미지간의 매칭을 통해 머리 후보군을 획득하는 단계; 및
    상기 획득된 머리 후보군을 기 설정된 머리 템플릿 이미지와 템플릿 매칭을 수행하여 사용자 머리 위치를 획득하는 단계;
    를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  8. 제 6항에 있어서,
    상기 사용자 머리 위치를 추적하는 단계는,
    상기 검출된 사용자 머리 위치에 대응하는 윈도우를 설정하는 단계; 및
    상기 윈도우를 이용하여 상기 사용자 머리의 중심부를 추적하는 단계;
    를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  9. 오디오 신호 처리 장치에 있어서,
    뎁스 카메라를 통해 촬영된 뎁스 픽쳐 데이터를 획득하고, 상기 뎁스 픽쳐 데이터에서 적어도 하나의 사용자 머리 위치 정보를 추출하고, 상기 추출된 사용자 머리 위치 정보를 3차원 상의 좌표 정보로 변환하는 비디오 처리부;
    오디오 신호를 수신하고, 상기 비디오 처리부에서 변환된 좌표 정보 및 상기 수신된 오디오 신호를 이용하여 상기 적어도 하나의 사용자 머리 위치 정보 중 화자의 위치 정보를 식별하고, 상기 식별된 화자의 위치 정보에 대응하는 가중치를 획득하는 오디오 처리부; 및
    상기 가중치를 이용하여, 상기 수신된 오디오 신호에 빔포밍을 수행하여 상기 화자의 음원을 분리하는 음원 분리부;를 포함하며,
    상기 오디오 처리부는,
    상기 변환된 좌표를 이용하여, 상기 사용자 머리 위치에서 마이크로폰 어레이의 각 마이크에 대한 소리의 도달시간 차이를 구하고,
    상기 도달시간 차이를 이용하여 상기 사용자 머리 위치에 대한 방향 벡터를 구하고,
    상기 방향 벡터를 이용하여 상기 오디오 신호의 빔포밍을 위한 가중치를 획득하고,
    상기 가중치로 상기 오디오 신호를 빔포밍한 출력의 파워를 이용하여 상기 사용자 머리 위치가 화자의 위치인지 여부를 판별하는
    것을 특징으로 하는 오디오 신호 처리 장치.
  10. 삭제
  11. 제 9항에 있어서,
    상기 오디오 처리부는,
    상기 빔포밍한 출력의 파워를 기 설정된 임계값과 비교하고,
    상기 빔포밍한 출력의 파워가 기 설정된 임계값 이상일 경우, 해당 사용자 머리 위치를 화자의 위치로 식별하는 것을 특징으로 하는 오디오 신호 처리 장치.
  12. 제 9항에 있어서,
    상기 오디오 처리부는,
    상기 식별된 화자의 위치 정보에 대응하는 방향 벡터를 이용하여 상기 가중치를 획득하는 것을 특징으로 하는 오디오 신호 처리 장치.
  13. 제 12항에 있어서,
    상기 가중치는 주파수 빈(frequecy bin)별 가중치인 것을 특징으로 하는 오디오 신호 처리 장치.
  14. 제 9항에 있어서,
    상기 비디오 처리부는,
    상기 사용자 머리 위치를 검출하는 머리 위치 검출부; 및
    상기 사용자 머리 위치를 추적하는 머리 위치 추적부를 포함하는 것을 특징으로 하는 오디오 신호 처리 장치.
  15. 제 14항에 있어서,
    상기 머리 위치 검출부는,
    상기 뎁스 픽쳐 데이터에서 배경 이미지를 제거하고,
    상기 배경 이미지가 제거된 뎁스 픽쳐 데이터에서 엣지 이미지를 추출하고,
    상기 뎁스 픽쳐 데이터에서 거리 이미지를 추출하고,
    상기 추출된 엣지 이미지와 거리 이미지간의 매칭을 통해 머리 후보군을 획득하고,
    상기 획득된 머리 후보군을 기 설정된 머리 템플릿 이미지와 템플릿 매칭을 수행하여 사용자 머리 위치를 획득하는 것을 특징으로 하는 오디오 신호 처리 장치.
  16. 제 14항에 있어서,
    상기 사용자 머리 위치를 추적부는,
    상기 검출된 사용자 머리 위치에 대응하는 윈도우를 설정하고,
    상기 윈도우를 이용하여 상기 사용자 머리의 중심부를 추적하는 것을 특징으로 하는 오디오 신호 처리 장치.
KR1020120142986A 2012-12-10 2012-12-10 화자 검출을 이용한 오디오 신호 처리 방법 및 장치 KR101542647B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120142986A KR101542647B1 (ko) 2012-12-10 2012-12-10 화자 검출을 이용한 오디오 신호 처리 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120142986A KR101542647B1 (ko) 2012-12-10 2012-12-10 화자 검출을 이용한 오디오 신호 처리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20140074718A KR20140074718A (ko) 2014-06-18
KR101542647B1 true KR101542647B1 (ko) 2015-08-12

Family

ID=51127741

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120142986A KR101542647B1 (ko) 2012-12-10 2012-12-10 화자 검출을 이용한 오디오 신호 처리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101542647B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087648B (zh) * 2018-08-21 2023-10-20 平安科技(深圳)有限公司 柜台语音监控方法、装置、计算机设备及存储介质
CN110875053A (zh) * 2018-08-29 2020-03-10 阿里巴巴集团控股有限公司 语音处理的方法、装置、系统、设备和介质
KR20220042509A (ko) * 2020-09-28 2022-04-05 주식회사 아모센스 음성 처리 장치 및 이의 작동 방법
WO2023239004A1 (en) * 2022-06-08 2023-12-14 Samsung Electronics Co., Ltd. System and method for matching a visual source with a sound signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Xia L. et al., ‘Human detection using depth information by kinect’, 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshop, pp.15~22, 2011.*

Also Published As

Publication number Publication date
KR20140074718A (ko) 2014-06-18

Similar Documents

Publication Publication Date Title
US10045120B2 (en) Associating audio with three-dimensional objects in videos
US9749738B1 (en) Synthesizing audio corresponding to a virtual microphone location
CN106653041B (zh) 音频信号处理设备、方法和电子设备
CN106328156B (zh) 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN107534725B (zh) 一种语音信号处理方法及装置
US10353198B2 (en) Head-mounted display with sound source detection
US20160064000A1 (en) Sound source-separating device and sound source -separating method
CN112088315A (zh) 多模式语音定位
US11812235B2 (en) Distributed audio capture and mixing controlling
JP2000356674A (ja) 音源同定装置及びその同定方法
JP7194897B2 (ja) 信号処理装置及び信号処理方法
KR101542647B1 (ko) 화자 검출을 이용한 오디오 신호 처리 방법 및 장치
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP4825552B2 (ja) 音声認識装置、周波数スペクトル取得装置および音声認識方法
JP6977448B2 (ja) 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
JP5565552B2 (ja) 映像音響処理装置、映像音響処理方法及びプログラム
JP2007257088A (ja) ロボット装置及びそのコミュニケーション方法
JP2006304124A (ja) 音源方向確定装置および音源方向確定方法
KR101976937B1 (ko) 마이크로폰 어레이를 이용한 회의록 자동작성장치
RU174044U1 (ru) Аудиовизуальный многоканальный детектор наличия голоса
JP2009236688A (ja) 音源方向検出方法、装置及びプログラム
US20170289712A1 (en) A method for operating a hearing system as well as a hearing system
JP5435221B2 (ja) 音源信号分離装置、音源信号分離方法及びプログラム
KR101642084B1 (ko) 다중 음원 국지화 기법을 이용한 얼굴 검출 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20180718

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190722

Year of fee payment: 5