KR20190108236A

KR20190108236A - 반사 인지를 통한 음원 위치 추적 방법 및 시스템

Info

Publication number: KR20190108236A
Application number: KR1020180029499A
Authority: KR
Inventors: 윤성의; 안인규; 손명배
Original assignee: 한국과학기술원
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2019-09-24
Also published as: KR102105752B1

Abstract

반사 인지를 통한 음원 위치 추적 방법 및 시스템이 개시된다. 컴퓨터에 의해 실행되는 반사 인지를 통한 음원 위치 추적 방법에 있어서, 실내 공간을 나타내는 3D 장면(scene)을 대상으로, 로봇에 장착된 마이크 어레이를 통해 입력되는 오디오 신호를 수집하는 단계, 수집된 상기 오디오 신호를 대상으로, 반사 인지 음향 광선 추적법(Reflection-aware acoustic ray tracing)을 통해 음향 광선(acoustic rays)을 생성하는 단계, 및 생성된 상기 음향 광선을 기반으로 음원의 3D 위치를 추정하는 단계를 포함하고, 상기 입력되는 오디오 신호는, 음원으로부터 출력되는 직접음(direct acoustic ray) 및 상기 음원으로부터 출력되어 공간 상의 오브젝트(object)에 의해 반사되는 간접음(indirect acoustic ray)을 포함할 수 있다.

Description

반사 인지를 통한 음원 위치 추적 방법 및 시스템{SYSTEM AND METHOD FOR SOUND SOURCE LOCALIZATION USING REFLECTION AWARE}

본 발명의 실시예들은 실내 환경에서 3차원의 소리(즉, 음원)의 위치를 추정하는 기술에 관한 것이다.

일상생활에서 로봇의 사용이 증가함에 따라 로봇과 인간의 소리를 이용한 상호 작용의 수요는 증가하고 있다. 특히, 구글(Google)의 홈(Home)과 아마존의 에코(Echo)와 같은 스마트 스피커 제품의 인기는 음향 관련 연구에서 커다란 도전을 가져왔다. 이러한 애플리케이션에서의 큰 이슈 중 하나는 실제 환경에서 정확한 음원의 위치를 찾는 것이다. 실제 환경에서 음원의 위치를 찾는 것은 소리 위치 추적 (Sound source localization)으로 알려져 있다.

지난 20년간 소리 위치 추적/탐색은 소리(즉, 음원)의 들려오는 방향을 찾기 위한 연구가 진행되어 왔다. 예컨대, 아래의 비특허 문헌 [1] C. Knapp and G. Carter, "The generalized correlation method for estimation of time delay", IEEE Trans. Acoust ., Speech, Signal Process., vol. 24, no. 4, pp. 320-327., 및 [2] J.-M. Valin , F. Michaud , and J. Rouat , "Robust localization and tracking of simultaneous moving sound sources using beamforming and particle filtering", Robot. Auton . Syst., vol. 55, no. 3.에서는 두 마이크 쌍의 도착 시간 차이(Time Difference of Arrival, TDOA)를 기반으로 소리의 위치를 추적하는 기법을 제시하고 있으며, TDOA 기반의 소리 위치 추적 방법들은 소리가 들려온 방향을 찾는 데는 성공적이지만, 정확한 음원의 3D 위치를 찾는데 어려움이 존재한다.

최근의 소리 위치 추적 방법(sound source localization, SSL)은 3D 위치를 찾기 위한 시도를 하고 있으나, 측정 장치의 여러 위치와 각도에 대한 센서 데이터의 축적이 필요하다. 결과적으로, 정적인 음원에서 연속적인 소리 신호가 발생하는 상황을 가정하며, 음원과 마이크 사이에 장애물이 없는 상황에서만 동작 가능한 한계가 존재한다.

따라서, 음원과 마이크 사이에 장애물이 존재하는 실제 환경에서 3D 공간 상에서의 음원의 위치를 추적하는 기술이 요구된다.

한국공개특허 제10-2018-0006781호는 음원에서 직접 전파된 음파와 지면에 반사된 음파 측정을 기반으로 한 지연시간도달 기법을 이용한 음원 위치 추정 장치 및 방법에 관한 것으로, 마이크로폰 어레이를 통해 제공되는 음향 신호 채널들 사이의 지연시간도달(TDOA: Time Difference Of Arrival) 기법을 적용하는 과정에서 마이크로폰에 직접 전달된 음파와 지면을 반사한 후 전달된 음파의 신호를 이용하여 지면에 가상의 센서를 가정하고 소음원의 위치를 더 정확하게 위치를 추정하는 장치 및 방법을 개시하고 있다.

[1] C. Knapp and G. Carter, "The generalized correlation method for estimation of time delay", IEEE Trans. Acoust., Speech, Signal Process., vol. 24, no. 4, pp. 320-327. [2] J.-M. Valin, F. Michaud, and J. Rouat, "Robust localization and tracking of simultaneous moving sound sources using beamforming and particle filtering", Robot. Auton. Syst., vol. 55, no. 3. [3] T. W. Anderson, Ed., An Introduction to Multivariate Statistical Analysis, Wiley, 1984. [4] G. H. Golub and C. Reinsch, "Singular value decomposition and least squares solutions", Numerische mathematik, vol. 14, no. 5. [5] S. Thrun, W. Burgard, and D. Fox, Probabilistic robotics, MIT press, 2005.

본 발명은 실내 공간을 나타내는 3D 장면(scene)에 위치하는 음원으로부터 출력되는 직접음 및 벽, 천장 등의 오브젝트(object)를 통해 반사된 간접음을 고려하여 단일 프레임 안에서 발생하는 간헐적인 음원을 연속적으로 탐지함으로써, 실내 공간에서 3차원 음원(즉, 오디오 신호)의 위치를 추정하는 기술에 관한 것이다.

컴퓨터에 의해 실행되는 반사 인지를 통한 음원 위치 추적 방법에 있어서, 실내 공간을 나타내는 3D 장면(scene)을 대상으로, 로봇에 장착된 마이크 어레이를 통해 입력되는 오디오 신호를 수집하는 단계, 수집된 상기 오디오 신호를 대상으로, 반사 인지 음향 광선 추적법(Reflection-aware acoustic ray tracing)을 통해 음향 광선(acoustic rays)을 생성하는 단계, 및 생성된 상기 음향 광선을 기반으로 음원의 3D 위치를 추정하는 단계를 포함하고, 상기 입력되는 오디오 신호는, 음원으로부터 출력되는 직접음(direct acoustic ray) 및 상기 음원으로부터 출력되어 공간 상의 오브젝트(object)에 의해 반사되는 간접음(indirect acoustic ray)을 포함할 수 있다.

일측면에 따르면, 상기 음향 광선을 생성하는 단계는, 상기 오디오 신호를 대상으로 TDOA(Time Difference Of Arrival) 알고리즘을 기반으로 상기 오디오 신호의 방향, 크기 및 주파수를 측정하는 단계, 및 측정된 상기 오디오 신호의 방향, 크기 및 주파수에 기초하여 상기 음향 광선을 생성하는 단계를 포함할 수 있다.

다른 측면에 따르면, 상기 음원의 3D 위치를 추정하는 단계는, 몬테 카를로 위치 추정 기법을 이용하여 상기 음향 광선의 수렴 지점을 결정함으로써, 상기 음원의 위치를 추정할 수 있다.

또 다른 측면에 따르면, 상기 음향 광선의 수렴 지점은, 스무딩 옥트리 맵(smoothing octree map)으로 표현되는 3차원 공간 상에서의 특정 지점을 나타낼 수 있다.

또 다른 측면에 따르면, 상기 음향 광선(acoustic rays)을 생성하는 단계는, 상기 오디오 신호의 방향을 반전시켜 반대 방향에 해당하는 음향 광선을 생성할 수 있다.

또 다른 측면에 따르면, 상기 음원의 3D 위치를 추정하는 단계는, 상기 음향 광선이 상기 3차원의 실내 공간을 통해 전파 및 반사된 경로를 찾기 위해 상기 음향 광선의 에너지를 증폭시키는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 음원의 3D 위치를 추정하는 단계는, 상기 반사 인지 음향 광선 추적법(Reflection-aware acoustic ray tracing)을 통해 생성된 복수의 음향 광선들 각각에 해당하는 음향 경로를 대상으로 복수개의 파티클(particle)이 하나의 세트(set)에 포함되도록 샘플링(sampling)을 수행하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 복수개의 파티클을 대상으로, 특정 음향 광선에 가까울수록 상대적으로 높은 가중치가 부여될 수 있다.

또 다른 측면에 따르면, 상기 음원의 3D 위치를 추정하는 단계는, 복수개의 파티클을 대상으로 미리 지정된 기준 가중치보다 작은 파티클을 제거하는 리샘플링(resampling)을 수행하는 단계를 더 포함할 수 있다.

또 다른 측면에 따르면, 상기 오디오 신호는 미리 지정된 일정 주파수 이상의 고주파 오디오 신호를 나타낼 수 있다.

반사 인지를 통한 음원 위치 추적 시스템에 있어서, 실내 공간을 나타내는 3D 장면(scene)을 대상으로, 로봇에 장착된 마이크 어레이를 통해 입력되는 오디오 신호를 수집하는 신호 수집부, 수집된 상기 오디오 신호를 대상으로, 반사 인지 음향 광선 추적법(Reflection-aware acoustic ray tracing)을 통해 음향 광선(acoustic rays)을 생성하는 음향 광선 생성부, 및 생성된 상기 음향 광선을 기반으로 음원의 3D 위치를 추정하는 위치 추정부를 포함하고, 상기 입력되는 오디오 신호는, 음원으로부터 출력되는 직접음(direct acoustic ray) 및 상기 음원으로부터 출력되어 공간 상의 오브젝트(object)에 의해 반사되는 간접음(reflected acoustic ray)을 포함할 수 있다.

일측면에 따르면, 상기 음향 광선 생성부는, 상기 오디오 신호를 대상으로 TDOA(Time Difference Of Arrival) 알고리즘을 기반으로 상기 오디오 신호의 방향, 크기 및 주파수를 측정하고, 측정된 상기 오디오 신호의 방향, 크기 및 주파수에 기초하여 상기 음향 광선을 생성할 수 있다.

다른 측면에 따르면, 상기 위치 추정부는, 몬테 카를로 위치 추정 기법을 이용하여 상기 음향 광선의 수렴 지점을 결정함으로써, 상기 음원의 위치를 추정할 수 있다.

또 다른 측면에 따르면, 상기 음향 광선 생성부는, 상기 오디오 신호의 방향을 반전시켜 반대 방향에 해당하는 음향 광선을 생성할 수 있다.

또 다른 측면에 따르면, 상기 위치 추정부는, 상기 음향 광선이 상기 3차원의 실내 공간을 통해 전파 및 반사된 경로를 찾기 위해 상기 음향 광선의 에너지를 증폭시킬 수 있다.

또 다른 측면에 따르면, 상기 위치 추정부는, 상기 반사 인지 음향 광선 추적법(Reflection-aware acoustic ray tracing)을 통해 생성된 복수의 음향 광선들 각각에 해당하는 음향 경로를 대상으로 복수개의 파티클(particle)이 하나의 세트(set)에 포함되도록 샘플링(sampling)을 수행할 수 있다.

또 다른 측면에 따르면, 상기 위치 추정부는, 복수개의 파티클을 대상으로 미리 지정된 기준 가중치보다 작은 파티클을 제거하는 리샘플링(resampling)을 수행할 수 있다.

본 발명은 음원으로부터 출력되는 직접음 및 벽, 천장 등의 오브젝트(object)를 통해 반사된 간접음을 고려하여 단일 프레임 안에서 발생하는 간헐적인 음원을 연속적으로 탐지함으로써, 실내 공간에서 3차원 음원(즉, 오디오 신호)의 위치를 보다 정확하게 추정할 수 있다.

또한, 로봇 입장에서 주변에 위치하는 오브젝트(예컨대, 사물, 사람 등)에 의해 발생하는 소리(예컨대, 음성, 발자국 등)를 통해 해당 음원의 3D 위치를 정확하게 추정함에 따라, 다수의 사람이 있는 실내 환경에서 특정 사람과 로봇이 대화 할 때, 로봇이 어떠한 사람이 이야기를 하고 있는지를 보다 정확히 판단하도록 할 수 있다.

또한, 로봇의 시각 센서(예컨대, 카메라, RGB-D 카메라, 레이저 스캐너 등)가 감지하지 못하는 지역에서 특정 소리가 들려도 해당 소리의 위치 추정이 가능할 수 있다.

도 1은 본 발명의 일실시예에 있어서, 반사 인지를 통한 음원 위치 추정 시스템의 내부 구성을 도시한 블록도이다.
도 2는 본 발명의 일실시예에 있어서, 반사 인지를 통한 음원 위치 추정 방법을 도시한 흐름도이다.
도 3은 본 발명의 일실시예에 있어서, 음원 및 음원 위치 추정 시스템을 포함하는 3차원 공간을 나타내는 3D 장면(scene)을 도시한 도면이다.
도 4는 본 발명의 일실시예에 있어서, 음향 광선의 생성 및 추적을 설명하기 위해 제공되는 도면이다.
도 5는 본 발명의 일실시예에 있어서, 실내 공간 내 장애물에 해당하는 복셀(voxel) 및 유한 임펄스 응답 저역 통과 필터에 기초하여 개선된 복셀(voxel)을 나타낼 수 있다.
도 6은 본 발명의 일실시예에 있어서, 음향 전달 경로의 음향 광선에 해당하는 파티클들(particles)을 대상으로 가중치가 부여되는 동작을 설명하기 위해 제공되는 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 실시예들은 반사 인지를 통한 음원/소리 위치 추적 기술에 관한 것으로서, 특히, 단일 프레임 안에 발생하는 간헐적인 음원을 연속적으로 탐지하고, 직접음뿐만 아니라, 간접음을 고려하여 3차원 음원의 위치를 추정(즉, 추적)하는 기술에 관한 것이다. 예컨대, 실내 공간을 나타내는 3D 장면(scene), 즉, 3D 영상에서 캡쳐된 특정 3D 장면에서, 로봇의 마이크로 어레이를 통해 수신되는 오디오 신호의 전파 및 반사 경로를 추적하여 3D 장면에서의 음원의 3차원 위치를 추정하는 기술에 관한 것이다.

본 실시예들에서 직접음(direct acoustic ray)은 사람 등의 말소리, 발자국 등의 음원이 장애물 등에 부딪히지 않고 곧바로 측정 장치인 음원 위치 추정 시스템의 마이크 어레이로 입력되는 오디오 신호를 나타낼 수 있다.

본 실시예들에서, 간접음(indirect acoustic ray)은 사람 등의 말소리, 발자국 등의 음원이 실내 공간 상의 벽, 천장 등의 장애물에 부딪혀 회절, 흡수, 반사되어 음원 위치 추정 시스템의 마이크 어레이(microphone array)로 입력되는 오디오 신호를 나타낼 수 있다.

도 1은 본 발명의 일실시예에 있어서, 반사 인지를 통한 음원 위치 추정 시스템의 내부 구성을 도시한 블록도이고, 도 2는 본 발명의 일실시예에 있어서, 반사 인지를 통한 음원 위치 추정 방법을 도시한 흐름도이다.

본 실시예에 따른 음원 위치 추정 시스템(100)은 프로세서(110), 버스(120), 네트워크 인터페이스(130) 및 메모리(140)를 포함할 수 있다. 메모리(140)는 운영체제(141) 및 서비스 제공 루틴(142)를 포함할 수 있다. 프로세서(110)는 신호 수집부(211), 음향 광선 생성부(212), 및 위치 추정부(213)를 포함할 수 있다. 다른 실시예들에서 음원 위치 추정 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 음원 위치 추정 시스템(100)은 디스플레이나 트랜시버(transceiver)와 같은 다른 구성요소들을 포함할 수도 있다.

메모리(140)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(140)에는 운영체제(141)와 서비스 제공 루틴(142)을 위한 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism, 미도시)을 이용하여 메모리(140)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체(미도시)를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 네트워크 인터페이스(130)를 통해 메모리(140)에 로딩될 수도 있다.

버스(120)는 음원 위치 추정 시스템(100)의 구성요소들 간의 통신 및 데이터 전송을 가능하게 할 수 있다. 버스(120)는 고속 시리얼 버스(high-speed serial bus), 병렬 버스(parallel bus), SAN(Storage Area Network) 및/또는 다른 적절한 통신 기술을 이용하여 구성될 수 있다.

네트워크 인터페이스(130)는 음원 위치 추정 시스템(100)을 컴퓨터 네트워크에 연결하기 위한 컴퓨터 하드웨어 구성요소일 수 있다. 네트워크 인터페이스(130)는 음원 위치 추정 시스템(100)을 무선 또는 유선 커넥션을 통해 컴퓨터 네트워크에 연결시킬 수 있다.

프로세서(110)는 기본적인 산술, 로직 및 음원 위치 추정 시스템(100)의 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(140) 또는 네트워크 인터페이스(130)에 의해, 그리고 버스(120)를 통해 프로세서(110)로 제공될 수 있다. 프로세서(110)는 신호 수집부(211), 음향 광선 생성부(212), 및 위치 추정부(213)를 위한 프로그램 코드를 실행하도록 구성될 수 있다. 이러한 프로그램 코드는 메모리(140)와 같은 기록 장치에 저장될 수 있다.

신호 수집부(211), 음향 광선 생성부(212), 및 위치 추정부(213)는 도 2의 단계들(210 내지 230 단계)을 수행하기 위해 구성될 수 있다.

210 단계에서, 신호 수집부(211)는 실내 공간에 배치된 마이크 어레이를 통해 입력되는 오디오 신호를 수집할 수 있다. 예컨대, 실내 공간은 벽과 천장을 통해 음향 신호를 확산 및 반사시키는 오브젝트(object, 즉, 음향 물질)을 포함할 수 있다.

일례로, 신호 수집부(211)는 로봇 등의 음원 위치 추정 시스템(100)의 마이크 어레이(microphone array)를 통해 캡쳐된 3D 장면(scene)에서 직접음 및 간접음(즉, 음원으로부터 출력되어 반사된 음향 신호)를 수집할 수 있다. 이때, 음원으로부터 출력되는 오리지널 음향 신호는 미리 지정된 일정 주파수 이상의 고주파 오디오 신호를 나타낼 수 있다. 예컨대, 박수 소리 등이 상기 오리지널 음향 신호로서 이용될 수 있다.

220 단계에서, 음향 광선 생성부(212)는 상기 수집된 오디오 신호를 대상으로, 반사 인지 음향 광선 추적법(Reflection-aware acoustic ray tracing)을 통해 음향 광선(acoustic rays)을 생성할 수 있다.

일례로, 음원에서 발생한 직접음과 벽과 천장의 반사에 의해 야기된 간접음을 모두 고려하며 정반사를 모델링하기 위해, 음향 광선 생성부(212)는 3D 환경을 복셀(voxel) 기반의 옥트리(Octree)로 재구성한 후, 반사 인지 음향 광선 추적법, 특히, 역-음향 광선 추적법을 적용하여 음향 신호의 전파 경로(즉, 전달 경로)를 파악하기 위한 음향 광선을 생성할 수 있다.

예를 들어, 음향 광선 생성부(212)는 오디오 신호를 대상으로 TDOA(Time Difference Of Arrival) 알고리즘을 기반으로 오디오 신호의 방향, 크기 및 주파수를 측정할 수 있다. 그리고, 음향 광선 생성부(212)는 측정된 오디오 신호의 방향, 크기 및 주파수에 기초하여 음향 광선을 생성할 수 있다.

230 단계에서, 위치 추정부(213)는 생성된 음향 광선을 기반으로 음원의 3D 위치를 추정할 수 있다.

일례로, 3D 장면(scene)을 복셀(voxel) 기반의 옥트리(Octree)로 재구성하여 음향 광선이 생성된 경우, 음향 신호를 전달하는 경로들(즉, 음향 전달 경로들)이 하나의 음원에서 전파되었다고 가정할 수 있다. 그러면, 해당 경로들이 수렴하는 위치가 음원의 위치로 결정될 수 있으며, 위치 추정부(213) 상기 음향 신호들을 대상으로 몬테-카를로 위치추정 알고리즘(Monte Carlo localization Algorithm)을 이용하여 상기 수렴하는 위치(즉, 수렴 지점)을 찾을 수 있다. 상기 음향 전달 경로들 각각의 수렵 지점, 즉, 각 음향 경로에 해당하는 음향 광선의 수렴 지점은, 스무딩 옥트리 맵(smoothing octree map)으로 표현되는 3차원 공간 상에서의 특정 지점을 나타낼 수 있다. 구체적으로, 위치 추정부(213)는 3차원 공간 상에서 음원의 3D 위치를 추정하기 위해 샘플링(sampling), 가중치 계산 및 리샘플링(resampling)을 수행할 수 있다.

231 단계에서, 위치 추정부(213)는 위치 추정부(213)는 반사 인지 음향 광선 추적법(Reflection-aware acoustic ray tracing)을 통해 생성된 복수의 음향 광선들 각각에 해당하는 음향 경로를 대상으로 복수개의 파티클(particle)이 하나의 세트(set)에 포함되도록 샘플링(sampling)을 수행할 수 있다.

232 단계에서, 위치 추정부(213)는 복수개의 파티클을 대상으로, 특정 음향 광선에 가까울수록 상대적으로 높은 가중치를 부여할 수 있다.

233 단계에서, 위치 추정부(213)는 복수개의 파티클(particle)을 대상으로, 파티클마다 부여된 가중치에 기초하여 미리 지정된 기준 가중치보다 작은 파티클을 제거하는 리샘플링(resampling)을 수행할 수 있다. 리샘플링이 완료되면, 위치 추정부(213)는 다차원 스케터(scatter) 데이터에 대한 일차원적 척도인 일반화된 분산(GV)을 계산할 수 있다. 계산된 분산(GV)이 미리 지정된 수렴 임계값보다 작으면 입자의 평균 위치를 음원의 위치로 결정(즉, 추정)할 수 있다. 여기서, 상기 분산(GV)는 위의 비특허문헌 [ 3]T . W. Anderson, Ed., An Introduction to Multivariate Statistical Analysis, Wiley , 1984.에 제시된 파티클의 공분산 행렬의 행렬식을 기반으로 계산될 수 있다.

도 3은 본 발명의 일실시예에 있어서, 음원 및 음원 위치 추정 시스템을 포함하는 3차원 공간을 나타내는 3D 장면(scene)을 도시한 도면이다.

도 3을 참고하면, 로봇인 음원 위치 추정 시스템(100)은 마이크 어레이(301)를 통해 음원(sound source, 302)으로부터 출력되는 소리인 직접음 및 간접음을 수집할 수 있다. 예컨대, 마이크 어레이(301)는 cube-shaped microphone array가 이용될 수 있다. 직접음 및 간접음이 수집되면, 음향 광선 생성부(212)는 수집된 직접음 및 간접음에 해당하는 오디오 신호(즉, 음향 신호)를 대상으로 TDOA 알고리즘을 기반으로 오디오 신호의 방향, 크기, 및 주파수를 측정할 수 있다. 그리고, 음향 광선 생성부(212)는 측정된 오디오 신호의 상기 방향, 크기 및 주파수를 기반으로 반사 인지 음향 광선 추적법을 이용하여 음향 광선(Acoustic rays)을 생성할 수 있다. 이때, 보다 정확한 음향 광선을 생성하기 위해, 오디오 신호의 전파에 따른 에너지의 감소, 지도 정보의 오차 보정 등이 수행될 수 있으며, 모든 연산이 실시간으로 동작할 수 있다. 그리고, 반사 인지 음향 광선 추적법을 수행하기 위해서는 3D 공간의 정보가 필요하므로, SLAM 모듈에서 생성된 옥트리맵 공간과 로봇인 음원 위치 추정 시스템(100)의 위치를 기반으로 상기 반사 인지 음향 광선 추적법이 적용될 수 있다. 여기서, 반사 인지 음향 광선 추적법은 역-음향 광선 추적법으로서, 음향 광선 생성부(212)는 측정된 상기 오디오 신호의 방향에 기초하여 상기 수집된 오디오 신호의 방향을 반전시켜 반대 방향에 해당하는 음향 광선을 생성할 수 있다. 그러면, 3D 공간에서 각 음향 광선에 해당하는 음향 전달 경로들, 즉, 반사된 음향 신호에 해당하는 음향 전달 경로들(303) 및 직접음에 해당하는 음향 전달 경로들(304)의 수렴 지점을 계산함으로써, 음원의 3D 위치(305)가 결정될 수 있다.

아래의 표 1은 음원의 위치를 추정/추적하기 위해서 아래의 수학식 1내지 수학식 8에서 사용되는 표기법을 나타낼 수 있다.

이하에서는 반사 인지 음향 광선 추적법(Reflection-aware acoustic ray tracing)을 이용하여 음원으로부터 출력된 직접음뿐만 아니라 반사되는 간접음을 처리하면서 음향 전달 경로를 생성(즉, 음향 광선을 생성)하고 추적하는 동작에 대해 상세히 설명하기로 한다.

도 4는 본 발명의 일실시예에 있어서, 음향 광선의 생성 및 추적을 설명하기 위해 제공되는 도면이다.

위의 도 3에서 설명한 바와 같이, 재구성된 3D 장면(scene)에서 음향 광선에 해당하는 음향 전달 경로를 생성하기 위해서는 수신되는 오디오 신호의 방향을 알아야 할 수 있다. 이때, 방향을 계산하기 위해 TDOA 기반의 SSL(sound source localization) 알고리즘이 이용될 수 있으며, 도 4의 410을 참고하면, 먼저 초기화가 수행될 수 있다.

예를 들어, 410을 참고하면, 음향 광선 생성부(212)는 각 호출(invocation) 마다 먼저 캡쳐된 오디오 신호를 N개의 수신된 신호로 이산하는 TDOA 모듈을 실행할 수 있다. 이때, n번째 수신되는 오디오 신호는 튜플

로 표현될 수 있다. 여기서, 단위 벡터

는 오디오 신호가 수신되는 방향을 나타내고,

는 수신되는 오디오 신호의 가장 높은 에너지를 나타내는 대표 주파수에 해당할 수 있다.

는 마이크 어레이에 의해 수집된 오디오 신호의 압력에 해당하는 에너지 값을 나타낼 수 있다. 그러면, 음향 광선 생성부(212)는 수집된 오디오 신호의 방향, 주파수, 크기(즉, 에너지값)과 광선 길이

를 갖는 파라메트릭 방정식(parametric equation)에 기초하여 음향 광선

을 생성할 수 있다. 즉, 상기 튜플

및 파라메트릭 방정식에 기초하여 생성된 음향 광선

은 아래의 수학식 1과 같이 표현될 수 있다.

[수학식 1]

수학식 1에서,

는 마이크 어레이의 원점을 나타내고,

는 수신된 오디오 신호를 대상으로 방향을 반전시킨 오디오 신호의 방향성을 나타내는 단위 벡터를 나타낼 수 있다. 즉,

는 마이크 어레이로 수신되는 오디오 신호의 반전된 방향인 방향성 단위 벡터로서,

에 해당할 수 있다. 음향 광선의 위 첨자

는 마이크 어레이로부터의 음향 전달 경로를 따라 반사되는 수 또는 반사 순서를 나타낼 수 있다. 예컨대,

는 반사가 없으므로 마이크 어레이로부터 반사없이 직접 수신된 직접음에 해당하는 음향 광선을 나타내며, 직접 광선으로 표현될 수 있다. 다양한 수의 반사, 즉,

에 해당하는 모든 음향 광선들은 k차 반사를 갖는 간접음에 해당하는 음향 광선으로서, 간접 음향 광선으로 표현될 수 있다.

이처럼, 음향 광선이 생성되면, 생성된 음향 광선은 3D 공간에서 전파되고 장애물에 부딪혀 반사된 광선에 해당할 수 있다. 전파 및 반사된 음향 광선을 추적하기 위해 음향 광선의 에너지가 증폭될 수 있다. 이때, 특정 광선의 길이

(예컨대,

)에서의 광선

의 에너지 함수

는 아래의 수학식 2와 같이 표현될 수 있다.

[수학식 2]

수학식 2에서,

는

에서의 광선의 초기 음향 에너지를 나타내고,

은 오디오 신호의

의 주파수에 의존하는 감쇠 계수, 공기의 온도 및 습도와 같은 기타 환경 관련 인자를 나타낼 수 있다.

420을 참고하면, 생성된 음향 광선

이 3D 장면(scene)에 포함된 장애물(벽, 천장 등의)의 표면에 충돌하면, 충돌 표면의 유형에 따라 반사, 흡수 또는 회절이 발생할 수 있다. 이때, 2KHz 보다 높은 고주파 오디오 신호가 음원임을 가정하고, 흡수 및 반사만 지원함을 가정하고 음원의 위치를 추정할 수 있다. 즉, 반사 및 확산성 음향 물질이 존재함을 가정하고, 반사된 음향 광선(즉, 전바산된 음향 광선)을 생성할 수 있다. 확산 반사의 경우, 실시간 로봇 애플리케이션에 적합하지 않은 몬테 카를로 시뮬레이션과 같은 값비싼 역 시뮬레이션 방법을 요구하며, 방(room) 등의 실내 공간에는 많은 확산 물질이 존재하는 것에 반해, 확산 물질로부터 반사된 각각의 개별 오디오 신호는 음원으로부터 생성된 오디오 신호의 에너지의 높은 부분을 운반하지 않을 수 있다. 즉, TDOA 기반으로 고 에너지 지향성 데이터를 선택 시 확산된 물질에 의해 반사된 대부분의 오디오 신호는 자동적으로 무시되며, 고 에너지를 갖는 신호는 대부분 전반사 물질에 의해 발생하므로, 확산 반사는 고려하지 않고 전반사만 고려해도 음원의 3D 위치를 정확히 추정 가능할 수 있다.

실내 공간 내 모든 물질(즉, 장애물)이 정반사 물질일 필요는 없으며, 일부 물질이 천장의 텍스쳐 물질과 같은 반사(specular) 방향 근처에서 높은 에너지 반사율을 보일 때, 해당 방향을 향한 음향 광선을 발생시킨 방향으로 결정하고, 광선들의 음원의 위치를 식별할 수 있다. 결과적으로 음향 광선이 충돌된 장애물에서 반사가 발생한 것으로 결정하고, 충돌 포인트에서 반사된 광선을 생성할 수 있다.

정반사에 따라 생성된 반사 음향 광선은 아래의 수학식 3과 같이 표현될 수 있다. 즉, 430 및 440을 참고하면, 이전의 음향 광선

과 특정 광선 길이에서 장애물의 표면에 부딪힐 때마다 방향 및 에너지 방정식을 이용하여 새로운 반사 음향 광선

이 생성될 수 있다.

[수학식 3]

수학식 3에서,

는

의 정반사의 방향을 나타낼 수 있으며,

에 기초하여 분석적으로 계산될 수 있다. 여기서,

는 표면 충돌 포인트

에서의 법선 벡터를 나타내고,

는 초기 에너지를 나타낼 수 있다. 그리고, 흡수 계수

는 반사 중에 표면에서 손실된 에너지를 나타낼 수 있다.

생성된 상기 반사 음향 광선은 다른 장애물과 추가적으로 충돌함으로써 더 반사될 수 있다. 재귀 반사 과정은 광선 에너지

가 합리적인 에너지 경계, 즉, 대부분의 실내 장면(scene)에서 들을 수 있는 900J(Joule)로 설정될 수 있으며, 최대 에너지에 대한 사용자 정의 임계값인

을 초과하면 종료될 수 있다. 음향 전달 경로에 해당하는 음향 광선을 생성하는 동안, 오디오 신호들 중 n번째 수신된 오디오 신호에 해당하는 음향 광선을 나타내는 시퀀스

가 유지될 수 있다. 상기 시퀀스

를 기반으로 음원의 위치가 추정될 수 있다.

도 5는 본 발명의 일실시예에 있어서, 실내 공간 내 장애물에 해당하는 복셀(voxel) 및 유한 임펄스 응답 저역 통과 필터에 기초하여 개선된 복셀(voxel)을 나타낼 수 있다.

도 5를 참고하면, 510은 미리 지정된 일정 수준 이상의 높은 수준의 잡음(noise)을 포함하는 실내 공간의 벽(wall)의 오리지널 복셀(original voxel)을 나타낼 수 있다. 재구성된 3D 공간을 대상으로 옥트리 맵 표현을 사용하여 음향 광선 추적을 수행하고, 고품질 센서를 사용하더라도 기본 맵(map) 구조에서는 높은 수준의 잡음이 포함될 수 있다. 이러한 잡음으로 인해 거친 표면이 만들어 지고, 표면의 법선이 변화되므로, 음향 전달 경로를 추적하여 음원을 식별 시 품질이 낮아질 수 있다. 이에 따라, 520과 같이, 유한 임펄스 응답을 기반으로 하는(유한 임펄스 응답 필터=FIR filter) 저역 통과 필터를 이용해 옥트리 맵을 개선한 후, 표면의 법선을 도출할 수 있다.

예를 들어, 다시 도 4의 430을 참고하면, 음향 광선에 의해 가로지르는 셀

이 주어지면, 셀

을 중심으로 하는 3차원 체적의 점유 셀(occupied cell)을 포함하는 로컬 이웃 복셀들(local neighbor voxels)

이 식별될 수 있다. 그러면, 위치 추정부(213)는 로컬 이웃 복셀들(local neighbor voxels)

의 점유 셀에 해당하는 복셀들의 평균 위치

및 행렬 A를 계산할 수 있다. 이때, 행렬 A의 각 열(column)은

에서 점유된 셀에 해당하는 복셀들(즉, 점유 복셀들)의 중심까지의 벡터를 포함할 수 있다. 이때, 위치 추정부(213)는 행렬 A에 포함된 벡터들과 가능한 법선 벡터들

을 기반으로 법선 벡터

를 계산할 수 있다. 여기서, 법선 벡터

는 행렬 A에 포함된 벡터들과 상기 법선 벡터

사이의 각도에 대한 유클리디언 놈(Euclidean norm)을 최소화하는 법선 벡터를 나타낼 수 있다. 예컨대, 법선 벡터

는 아래의 수학식 4와 같이 표현될 수 있다.

[수학식 4]

수학식 4에서,

는 위의 비특허 문헌 [4] G. H. Golub and C. Reinsch, "Singular value decomposition and least squares solutions", Numerische mathematik , vol. 14, no. 5.에 제시된 특이값 분해(SVD)에 기초하여 계산될 수 있다. 여기서,

과

가 동일할 때

가 최대값을 가지며, 가장 작은 고유값(eigen value)을 갖는 고유 벡터(eigen vector)는 잘 알려져 있으므로 자세한 설명은 생략하기로 한다.

이처럼, 도 5와 같이 스무딩 옥트리 맵(smoothing octree map)에서, 스무딩(smoothing) 과정은 스무딩이 없는 다른 방법보다 품질을 향상시킬 수 있으며, 특이값 분해(SVD)는 빠르게 수행되어, 전체 계산의 0.07% 차지하는 것에 불과하여 계산 속도를 저하시키거나, 계산량 증가로 인해 성능을 저하시키지 않는 범위 내에서 품질을 향상시킬 수 있다.

도 6은 본 발명의 일실시예에 있어서, 음향 전달 경로의 음향 광선에 해당하는 파티클들(particles)을 대상으로 가중치가 부여되는 동작을 설명하기 위해 제공되는 도면이다.

마이크 어레이를 통해 수집된 신호를 대상으로, 직접음 및 간접음(즉, 반사된 오디오 신호)에 해당하는 음향 광선(즉, 직접 음향 광선, 반사 음향 광선)을 생성할 수 있으며, 생성된 음향 광선에 해당하는 음향 전달 경로를 기반으로 3D 공간 상에서 음원의 위치를 추정할 수 있다. 이때, 명확성을 위해 모든 오디오 신호는 단일 음원에서 출력되는 것임을 가정할 수 있다. 음향 광선들이 교차하는 지점을 찾으며, 해당 교차 지점을 음원의 위치로 결정할 수 있으나, 실제 환경에서는 마이크로폰, 키넥트(kinect) 등과 같이 오디오 및 비디오 신호를 수집하는 다양한 센서에 의한 잡음(noise)이 각 신호에 포함되어 존재하므로, 단순 교차 지점 이외에 많은 음향 광선이 수렴하는 지점을 찾아 음원의 위치로 결정할 수 있다. 즉, 수렴하는 영역을 찾고, 찾아진 수렴 영역이 미리 지정된 기준 영역 이하로 충분히 작아지면, 해당 영역을 음원이 존재하는 영역으로 처리함으로써, 음원의 위치를 결정할 수 있다. 예컨대, 위치 추정부(213)는 파티클을 기반으로 몬테 카를로 위치 추정 기법을 이용하여 수렴 위치를 결정할 수 있으며, 수렴 위치 결정을 위해 샘플링, 가중치 계산, 리샘플링이 수행될 수 있다.

먼저, 위치 추정부(213)는 생성된 N개의 음향 전달 경로

에 해당하는 음향 광선을 대상으로 샘플링을 수행할 수 있다. 각각의 샘플링 반복 단계 t에서 W개의 파티클 세트

가 존재하고, 상기 파티클 세트는 음원의 가상적인 위치로 사용되고, 3D 공간의 초기 단계에서 무작위로 퍼져 나갈 수 있다. 예컨대, 위치 추정부(213)는 복수의 파티클들을 대상으로, 특정 파티클이 파티클 주변의 음향 광선에 얼마나 가깝게 위치하는지 여부를 인코딩(encoding)할 수 있다. 이때, 더욱 높은 정확도를 얻기 위해 음향 광선에 가까운 파티클을 더 많이 생성하고자 할 수 있다. 초기 반복 이외의 각 반복 t마다 새로운 파티클 세트

가 이전 파티클들로부터 점진적으로 생성될 수 있다. 예컨대, 새로운 파티클

은 아래의 수학식 5 및 6과 같이 표현되는 임의의 단위 방향

에서 이전 파티클

을 오프셋

로 오프셋하여 생성될 수 있다.

[수학식 5]

[수학식 6]

수학식 6에서,

는 정규 분포를 나타내고, 평균은 0이고, 표준 편차는 환경의 크기에 의해 결정될 수 있다. 7m×7m 방(room)이 실내 공간인 경우, 1m은 분산

으로 설정될 수 있다.

도 6을 참고하면, 예컨대, 위치 추정부(213)는 음향 광선에 속하는 i번째 파티클의 가능성(likelyhood)을 계산할 수 있다. 이때, 위치 추정부(213)는 특정 파티클이 다른 파티클보다 음향 광선에 가깝게 위치할수록 더 높은 가중치를 할당함으로써, 음향 광선에 속하는 파티클마다 가중치를 부여할 수 있다. 이때, 음향 전달 경로

를 기반으로 가능성(likelyhood)

은 아래의 수학식 7과 같이 표현될 수 있다.

[수학식 7]

위의 수학식 7에서, 가중치 함수 w는 파티클

와 음향 광선

사이에서 정의될 수 있다. 그리고, n번째 음향 전달 경로

의 k차 반사 음향 광선과

은 모든 파티클의 가능성(likelyhood)에 대한 정규화 인자를 나타낼 수 있다. 즉, 각 파티클 별로 해당 파티클이 속하는 음향 광선에 기초하여 계산된 가중치 중 최대 가중치가 대표 가중치고 결정되고, 모든 음향 전달 경로와 함께 대표 가중치가 누적될 수 있다.

예를 들어, 도 6을 참고하면, 음향 전달 경로

에 해당하는 2개의 음향 광선

및

이 존재하는 경우, 파티클

이 음향 전달 경로

에서 음향 광선

보다

에 더 가까운 경우, 음향 광선

에 기초하여

이 음향 전달 경로

의 대표 가중치로 부여될 수 있다. 가중치 함수

는 아래의 수학식 8과 같이 표현될 수 있다.

[수학식 8]

수학식 8에서,

는 광선

에 대한 파티클

에 수직한 풋(foot, 즉, 지점)을 반환하고,

는 정규 분포의 확률밀도함수(pdf)를 나타낼 수 있다.

는 파티클의 공분산 행렬의 행렬식에 따라 설정될 수 있다. 결과적으로, 다른 파티클들이 더 많이 분포되어 있으므로, 음향 광선에 가까운 파티클에 상대적으로 더 높은 가중치가 부여될 수 있다.

는 무관한 경우를 배제하기 위해 수직한 풋(foot)이 음향 광선

의 외부에 존재할 때(예컨대, 도 6의

인 경우), 0을 ㅂ 반환하고, 그렇지 않으면 1을 반환하는 필터 함수를 나타낼 수 있다.

이처럼, 샘플링된 각 파티클들

을 대상으로 가중치가 부여되면, 부여된 가중치는 다음 단계

에서 업데이트된 파티클 세트를 찾는데, 즉, 계산하기 위해 이용될 수 있다. 이때, 미리 지정된 기준 가중치보다 작은, 즉, 낮은 가중치를 갖는 파티클은 제거될 수 있다. 그러면, 기준 가중치보다 높은 가중치가 부여된 파티클 근처에 추가적으로 새로운 파티클이 생성될 수 있다. 이처럼, 기존 파티클(즉, t 단계에서의 파티클) 주변에 t+1 단계에서 새로운 파티클이 생성되는 과정에서 기준 가중치보다 작은 파티클이 제거되는 리샘플링이 수행될 수 있다. 예컨대, 위의 비특허 문헌 [5] S. Thrun , W. Burgard , and D. Fox, Probabilistic robotics, MIT press, 2005.에 제시된 리샘플링(resampling) 기법이 이용될 수 있다.

리샘플리이 완료되면, 위치 추정부(213)는 리샘플링된 파티클이 추정된 음원을 정의하기에 충분히 수렴했는지 여부를 확인할 수 있다. 예컨대, 다차원 스케터(scatter)에 대한 일차원적인 척도인 일반화된 분산(GV)을 계산할 수 있다. 그리고, 위치 추정부(213)는 계산된 분산(GV)이 미리 지정된 수렴 임계값에 기초하여 음원의 위치를 추정할 수 있다. 예컨대, 계산된 분산이

보다 작으면 파티클의 평균 위치를 음원의 위치로 추정할 수 있다. 상기 분산(GV)는 추정에 대한 척도로 이용될 수 있으며, 추정된 음원의 위치에 해당하는 영역을 시각화하기 위해 95% 신뢰 타원(ellipsis) 디스크를 도시하는 공분산 행렬로서 이용될 수도 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터에 의해 실행되는 반사 인지를 통한 음원 위치 추적 방법에 있어서,
실내 공간을 나타내는 3D 장면(scene)을 대상으로, 마이크 어레이를 통해 입력되는 오디오 신호를 수집하는 단계;
수집된 상기 오디오 신호를 대상으로, 반사 인지 음향 광선 추적법(Reflection-aware acoustic ray tracing)을 통해 음향 광선(acoustic rays)을 생성하는 단계; 및
생성된 상기 음향 광선을 기반으로 음원의 3D 위치를 추정하는 단계
를 포함하고,
상기 입력되는 오디오 신호는, 음원으로부터 출력되는 직접음(direct acoustic ray) 및 상기 음원으로부터 출력되어 공간 상의 오브젝트(object)에 의해 반사되는 간접음(indirect acoustic ray)을 포함하는 것
을 특징으로 하는 음원 위치 추적 방법.
제1항에 있어서,
상기 음향 광선을 생성하는 단계는,
상기 오디오 신호를 대상으로 TDOA(Time Difference Of Arrival) 알고리즘을 기반으로 상기 오디오 신호의 방향, 크기 및 주파수를 측정하는 단계; 및
측정된 상기 오디오 신호의 방향, 크기 및 주파수에 기초하여 상기 음향 광선을 생성하는 단계
를 포함하는 음원 위치 추적 방법.
제1항에 있어서,
상기 음원의 3D 위치를 추정하는 단계는,
몬테 카를로 위치 추정 기법을 이용하여 상기 음향 광선의 수렴 지점을 결정함으로써, 상기 음원의 위치를 추정하는 것
을 특징으로 하는 음원 위치 추적 방법.
제3항에 있어서,
상기 음향 광선의 수렴 지점은, 스무딩 옥트리 맵(smoothing octree map)으로 표현되는 3차원 공간 상에서의 특정 지점을 나타내는 것
을 특징으로 하는 음원 위치 추적 방법.
제1항에 있어서,
상기 음향 광선(acoustic rays)을 생성하는 단계는,
상기 오디오 신호의 방향을 반전시켜 반대 방향에 해당하는 음향 광선을 생성하는 것
을 특징으로 하는 음원 위치 추적 방법.
제1항에 있어서,
상기 음원의 3D 위치를 추정하는 단계는,
상기 음향 광선이 3차원의 실내 공간을 통해 전파 및 반사된 경로를 찾기 위해 상기 음향 광선의 에너지를 증폭시키는 단계
를 포함하는 음원 위치 추적 방법.
제1항에 있어서,
상기 음원의 3D 위치를 추정하는 단계는,
상기 반사 인지 음향 광선 추적법(Reflection-aware acoustic ray tracing)을 통해 생성된 복수의 음향 광선들 각각에 해당하는 음향 경로를 대상으로 복수개의 파티클(particle)이 하나의 세트(set)에 포함되도록 샘플링(sampling)을 수행하는 단계
를 포함하는 음원 위치 추적 방법.
제7항에 있어서,
복수개의 파티클을 대상으로, 특정 음향 광선에 가까울수록 상대적으로 높은 가중치가 부여되는 것
을 특징으로 하는 음원 위치 추적 방법.
제8항에 있어서,
상기 음원의 3D 위치를 추정하는 단계는,
복수개의 파티클을 대상으로 미리 지정된 기준 가중치보다 작은 파티클을 제거하는 리샘플링(resampling)을 수행하는 단계
를 더 포함하는 음원 위치 추적 방법.
제1항에 있어서,
상기 오디오 신호는 미리 지정된 일정 주파수 이상의 고주파 오디오 신호를 나타내는 것
을 특징으로 하는 음원 위치 추적 방법.
반사 인지를 통한 음원 위치 추적 시스템에 있어서,
실내 공간을 나타내는 3D 장면(scene)을 대상으로, 마이크 어레이를 통해 입력되는 오디오 신호를 수집하는 신호 수집부;
수집된 상기 오디오 신호를 대상으로, 반사 인지 음향 광선 추적법(Reflection-aware acoustic ray tracing)을 통해 음향 광선(acoustic rays)을 생성하는 음향 광선 생성부; 및
생성된 상기 음향 광선을 기반으로 음원의 3D 위치를 추정하는 위치 추정부
를 포함하고,
상기 입력되는 오디오 신호는, 음원으로부터 출력되는 직접음(direct acoustic ray) 및 상기 음원으로부터 출력되어 공간 상의 오브젝트(object)에 의해 반사되는 간접음(reflected acoustic ray)을 포함하는 것
을 특징으로 하는 음원 위치 추적 시스템.
제11항에 있어서,
상기 음향 광선 생성부는,
상기 오디오 신호를 대상으로 TDOA(Time Difference Of Arrival) 알고리즘을 기반으로 상기 오디오 신호의 방향, 크기 및 주파수를 측정하고, 측정된 상기 오디오 신호의 방향, 크기 및 주파수에 기초하여 상기 음향 광선을 생성하는 것
을 특징으로 하는 음원 위치 추적 시스템.
제11항에 있어서,
상기 위치 추정부는,
몬테 카를로 위치 추정 기법을 이용하여 상기 음향 광선의 수렴 지점을 결정함으로써, 상기 음원의 위치를 추정하는 것
을 특징으로 하는 음원 위치 추적 시스템.
제13항에 있어서,
상기 음향 광선의 수렴 지점은, 스무딩 옥트리 맵(smoothing octree map)으로 표현되는 3차원 공간 상에서의 특정 지점을 나타내는 것
을 특징으로 하는 음원 위치 추적 시스템.
제11항에 있어서,
상기 음향 광선 생성부는,
상기 오디오 신호의 방향을 반전시켜 반대 방향에 해당하는 음향 광선을 생성하는 것
을 특징으로 하는 음원 위치 추적 시스템.
제11항에 있어서,
상기 위치 추정부는,
상기 음향 광선이 3차원의 실내 공간을 통해 전파 및 반사된 경로를 찾기 위해 상기 음향 광선의 에너지를 증폭시키는 것
을 특징으로 하는 음원 위치 추적 시스템.
제11항에 있어서,
상기 위치 추정부는,
상기 반사 인지 음향 광선 추적법(Reflection-aware acoustic ray tracing)을 통해 생성된 복수의 음향 광선들 각각에 해당하는 음향 경로를 대상으로 복수개의 파티클(particle)이 하나의 세트(set)에 포함되도록 샘플링(sampling)을 수행하는 것
을 특징으로 하는 음원 위치 추적 시스템.
제17항에 있어서,
복수개의 파티클을 대상으로, 특정 음향 광선에 가까울수록 상대적으로 높은 가중치가 부여되는 것
을 특징으로 하는 음원 위치 추적 시스템.
제18항에 있어서,
상기 위치 추정부는,
복수개의 파티클을 대상으로 미리 지정된 기준 가중치보다 작은 파티클을 제거하는 리샘플링(resampling)을 수행하는 것
을 특징으로 하는 음원 위치 추적 시스템.
제11항에 있어서,
상기 오디오 신호는 미리 지정된 일정 주파수 이상의 고주파 오디오 신호를 나타내는 것
을 특징으로 하는 음원 위치 추적 시스템.