KR100586893B1

KR100586893B1 - 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법

Info

Publication number: KR100586893B1
Application number: KR1020040048927A
Authority: KR
Inventors: 최창규; 홍선기; 공동건
Original assignee: 삼성전자주식회사
Priority date: 2004-06-28
Filing date: 2004-06-28
Publication date: 2006-06-08
Also published as: US7822213B2; KR20060000064A; US20060002566A1

Abstract

본 발명은 음성 신호를 발생시킨 화자의 위치를 추정하는 것에 관한 발명으로서, 본 발명의 실시에 따른 시변 잡음(non-stationary noise) 환경에서의 화자 위치 추정 시스템은 외부로부터 사운드 신호를 수신하는 신호 입력 모듈과, 상기 신호 입력 모듈에 의해 수신된 적어도 1이상의 고정 음원으로부터 발생된 사운드 신호에 대한 공간 스펙트럼(spatial spectrum)이 배치된 사운드 맵(sound map)을 작성하고, 상기 사운드 맵(sound map)으로부터 상기 고정 음원의 위치를 추정하는 초기화 모듈과, 상기 추정된 고정 음원의 위치에 대한 정보를 저장하는 저장 모듈, 및 상기 신호 입력 모듈에 의해 수신된 음성 신호가 포함된 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 상기 음성 신호가 발생된 위치를 추정하는 화자 위치 추정 모듈을 포함한다.

시변 잡음(non-stationary noise), 화자 위치 추정, MUSIC 알고리즘

Description

시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법{System and method for estimating speaker localization in non-stationary noise environment}

도 1은 본 발명의 실시예에 따른 화자의 위치를 추정하는 방법을 개략적으로 나타낸 플로우차트이다.

도 2는 본 발명의 실시예에 따른 사운드 맵(sound map)을 작성하는 방법을 구체적으로 나타내고 있는 플로우차트이다.

도 3은 본 발명의 실시예에 따라 로봇의 로컬 좌표와 로봇이 속한 평면의 전역 좌표간의 관계를 나타내는 예시도이다.

도 4는 본 발명의 실시예에 따라 2개의 스피커를 고정 음원으로 하는 사운드 맵(sound map)을 나타내는 예시도이다.

도 5는 본 발명의 실시예에 따라 TV를 고정 음원으로 하는 사운드 맵(sound map)을 나타내는 예시도이다.

도 6은 본 발명의 실시예에 따라 2개의 스피커와 TV를 고정 음원으로 하는 사운드 맵(sound map)을 나타내는 예시도이다.

도 7은 본 발명의 실시예에 따라 고정 음원의 위치를 추정하는 방법을 나타내는 플로우차트이다.

도 8은 본 발명의 또다른 실시예에 따라 고정 음원의 위치를 추정하는 방법 을 나타내는 그래프이다.

도 9는 본 발명의 실시예에 따른 사운드 맵(sound map)을 이용하여 순간적인 잡음이 발생한 환경에서도 고정 음원의 위치를 추정하는 것을 나타내는 예시도이다.

도 10은 본 발명의 실시예에 따른 화자의 위치를 추정하기 위한 실험 환경을 나타내는 예시도이다.

도 11은 본 발명의 실시예에 따른 시변 잡음(non-stationary noise)의 파형을 나타내는 예시도이다.

도 12는 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제1 실험 결과 데이터이다.

도 13은 본 발명의 실시예에 따른 제1 영상으로부터 제2 영상을 얻는 과정을 나타내는 플로우차트이다.

도 14는 도 13에서 도시한 각각의 단계에 대응하는 이미지 영상을 나타내고 있는 예시도이다.

도 15는 본 발명의 실시예에 따라 블럽(blob)을 감지하는 방법을 나타내는 예시도이다.

도 16은 본 발명의 실시예에 따라 블럽(blob)을 감지하는 방법을 수행하기 위한 소스 프로그램을 나타내는 예시도이다.

도 17은 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제2 실험 결과 데이터이다.

도 18은 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제3 실험 결과 데이터이다.

도 19는 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제4 실험 결과 데이터이다.

도 20은 본 발명의 실시예에 따른 화자의 위치를 추정하는 방법을 나타내는 플로우차트이다.

도 21은 본 발명의 실시예에 따른 화자의 위치를 추정하는 로봇의 블록도이다.

본 발명은 화자의 위치 추정에 관한 것으로, 보다 상세하게는 사운드 맵(sound map)을 작성하고, 작성된 사운드 맵(sound map) 정보를 이용하여 시변 잡음(non-stationary noise) 환경에서도 화자의 위치를 추정하는 방법에 관한 것이다.

전자, 통신, 기계 등 다양한 분야의 기술이 발달함에 따라 인간의 생활은 더욱 편리하게 되었고, 많은 부분에 있어서 인간을 대신하여 움직이고 주어진 일을 처리하는 자동 시스템이 개발되었는데, 흔히 이러한 자동 시스템을 로봇이라고 한다.

특히 이러한 로봇은 인간의 음성을 인식하고, 인식된 음성 정보에 따라 적절 한 행동을 취할 수 있는데, 경우에 따라서는 인간의 음성 신호를 인식하여 음성이 발생한 위치를 추정할 수 있어야 한다.

이를 위해 일본 특허공개공보 제2002-359767호에서는 음원의 위치를 추적하는 카메라 장치를 개시하고 있는데, 여기에서 시불변 잡음(stationary noise) 환경에서 음원을 추적하는 방법을 제시하고 있다. 따라서, 시변 잡음(non-stationary noise) 환경에서는 음원을 추적하기 어려운 문제점이 있다.

또한 미국특허등록 제6160758호에서는 음원의 위치를 추정하는 방법에 대해 개시하고 있으나, 실내 환경에서는 적용이 곤란하고, 음성 신호를 발생시킨 화자의 위치를 추정하기 어려운 문제점이 있다.

따라서, 시변 잡음(non-stationary noise) 환경에서도 음성을 인식하여 음성 신호를 발생시킨 화자의 위치를 추정하는 방법이 필요하게 되었다.

본 발명은 상기한 문제점을 개선하기 위해 안출된 것으로, 본 발명은 사운드 맵(sound map)을 작성하고, 음성 신호를 수신하는 경우 작성된 사운드 맵(sound map)에 관한 정보를 이용하여 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)에 의해 공간 스펙트럼(spatial spectrum)을 얻은 후, 상기 공간 스펙트럼(spatial spectrum)의 영상을 이미지 처리함으로써, 시변 잡음(non-stationary noise) 환경에서도 음성 신호가 발생한 위치를 추정하는 시스템 및 방법을 제공하는데 목적이 있다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 시변 잡음(non-stationary noise) 환경에서의 화자의 위치를 추정하는 시스템은 외부로부터 사운드 신호를 수신하는 신호 입력 모듈과, 상기 신호 입력 모듈에 의해 수신된 적어도 1이상의 고정 음원으로부터 발생된 사운드 신호에 대한 공간 스펙트럼(spatial spectrum)이 배치된 사운드 맵(sound map)을 작성하고, 상기 사운드 맵(sound map)으로부터 상기 고정 음원의 위치를 추정하는 초기화 모듈과, 상기 추정된 고정 음원의 위치에 대한 정보를 저장하는 저장 모듈, 및 상기 신호 입력 모듈에 의해 수신된 음성 신호가 포함된 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 상기 음성 신호가 발생된 위치를 추정하는 화자 위치 추정 모듈을 포함한다.

또한 상기 목적을 달성하기 위하여, 본 발명의 실시예에 시변 잡음(non-stationary noise) 환경에서의 따른 화자의 위치를 추정하는 방법은 적어도 1이상의 고정 음원으로부터 발생된 사운드 신호에 대한 공간 스펙트럼(spatial spectrum)이 배치된 사운드 맵(sound map)을 작성하는 (a) 단계와, 상기 사운드 맵(sound map)으로부터 상기 고정 음원의 위치를 추정하는 (b) 단계와, 상기 추정된 고정 음원의 위치에 대한 정보를 저장하는 (c) 단계, 및 음성 신호가 감지되는 경우 상기 음성 신호를 포함하는 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 상기 음성 신호가 발생된 위치를 추정하는 (d) 단계를 포함한다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다

이하, 본 발명의 실시예들에 의하여 화자의 위치를 추정하는 시스템 및 방법을 설명하기 위한 블록도 또는 처리 흐름도에 대한 도면들을 참고하여 본 발명에 대해 설명하도록 한다. 이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하도록 기구를 만들 수 있다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

한편, 본 발명을 보다 용이하게 설명하기 위하여 이하에서는 몇 가지 개념을 정의하도록 한다.

(1) 전역 맵(global map): 일정한 평면 공간을 격자 모양으로 분할하고, 분할된 각각의 영역에 대한 위치 정보를 갖는 맵.

(2) 화자(speaker): 전역 맵(global map)에 의해 표시되는 일정한 평면 공간에서 음성 신호를 발생시키는 사람.

(3) 로봇(robot): 화자의 위치를 추정하는 시스템.

(4) 셀(cell): 전역 맵(global map)에서 격자 모양으로 분할된 각각의 영역.

(5) 사운드 맵(sound map): 전역 맵(global map)의 각각의 셀(cell)마다 음원의 방향을 나타내는 공간 스펙트럼(space spectrum)을 배치한 맵.

(6) 로컬 좌표(local coordination): 로봇이 향하는 방향을 기준으로 하는 2차원 평면 좌표.

(7) 전역 좌표(global coordination): 전역 맵(global map)에 의해 표시되는 일정한 평면 공간에 대한 2차원 평면 좌표.

(8) 고정 음원: 고정된 위치에서 잡음을 발생시키는 장치, 여기에서는 전역 맵(global map)에 의해 표시되는 평면 공간 상에 존재하여 시변 잡음(non-stationary noise)을 발생시키는 장치를 말한다.

(9) 시변 잡음(non-stationary nosie): 화자에 의해 발생되는 음성 신호를 제외한 모든 사운드 신호로서 본 발명에서는 고정 음원에 의해 발생되거나 로봇 외부의 환경으로부터 갑자기 발생하게 된다(예: 문을 여닫는 소리).

(10) 사운드 신호(sound signal): 화자에 의해 발생된 음성 신호와 기타 다른 모든 잡음 신호를 포함하는 신호를 의미한다.

본 발명의 실시예에 따라 로봇이 화자의 위치를 추정하기 위해서는, 로봇은 현재 로봇이 이동하고 있는 평면 공간에 존재하는 고정 음원에 관한 위치 정보를 획득하는 작업이 선행되어야 한다.

따라서, 로봇은 화자의 위치를 추정하기 위한 초기화 단계로서 우선 사운드 맵(sound map)을 작성하고(S110), 작성된 사운드 맵(sound map)을 이용하여 고정 음원의 위치를 추정(S130)한다. 그리고 나서, 추정된 고정 음원의 위치 정보를 로 봇 내에 있는 메모리와 같은 저장 영역에 저장한다(S150). 이 때, 사운드 맵(sound map)을 작성하는 방법은 도 2에서, 고정 음원의 위치를 추정하는 방법은 도 7에서 구체적으로 설명하도록 한다.

로봇은 음성을 감지할 때까지 대기 상태로 있다가 만일 음성을 감지하게 되면, 기저장된 고정 음원의 위치 정보와 감지된 음성 신호를 이용하여 화자의 위치를 추정한다(S170). 그리고, 화자에 의해 발생한 음성 신호가 로봇으로 하여금 특정한 동작을 요구하는 정보를 포함하는 경우에는, 로봇은 상기 정보에 따라 일정한 동작을 수행하게 된다(S190).

도 2는 본 발명의 실시예에 따른 사운드 맵(sound map)을 작성하는 방법을 구체적으로 나타내고 있는 플로우차트로서, 사운드 맵(sound map)은 주기적으로 갱신될 수 있다.

우선, 로봇은 자신이 존재하는 평면 공간에서 전역 좌표(global coordination) 값을 획득함으로써 전역 맵(global map) 상에서의 자신의 위치, 즉 로봇의 2차원 평면 좌표값과 전역 좌표(global coordination)의 원점을 기준으로 하는 방향각을 파악한다(S112).

로봇은 전역 맵(global map)에 대한 정보 및 전역 맵(global map) 상에서의 자신의 위치 정보를 로봇 내에 있는 네비게이션 시스템(navigation system)으로부터 얻을 수 있다. 이 때, 네비게이션 시스템(navigation system)은 로봇 내에서 로봇의 이동 및 위치에 관한 정보를 처리하는 소프트웨어, 하드웨어 또는 소프트웨어와 하드웨어가 결합한 형태를 통칭하는 포괄적 개념을 의미한다. 네비게이션 시스 템(navigation system)에는 로봇 자신이 속한 평면 공간에 대한 전역 맵(global map)의 정보를 처리하는 모듈과 전역 맵(global map) 상에서 로봇 자신의 위치를 파악하는 모듈을 포함할 수 있다. 이 때, 상기 '모듈'은 소프트웨어 또는 Field Programmable Gate Array(FPGA) 또는 주문형 반도체(Application Specific Integrated Circuit, ASIC)과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 따라서, 일 예로서 모듈은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 모듈들에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들과 모듈들로 더 분리될 수 있다.

한편, 상기 네비게이션 시스템(navigation system)을 이용하여 로봇 자신의 위치를 파악하는 방법은 Sebastian Thrun의 'Robotic Mapping: A Survey' 논문을 참조할 수 있다.

로봇이 사운드 맵(sound map)을 작성하기 위해서는 고정 음원이 필요하다. 따라서, 로봇이 자신의 위치를 파악한 후 또는 그 이전에 고정 음원으로부터 시변 잡음(non-stationary noise)이 지속적으로 발생되는 환경을 구축한다.

한편, 로봇은 전역 맵(global map)에 있는 각각의 셀(cell)을 차례로 이동하면서 각각의 셀(cell)에 대한 공간 스펙트럼(spatial spectrum)을 연산하게 된다(S114). 공간 스펙트럼(spatial spectrum)은 로봇을 중심으로 모든 방향에 대하여 수신된 사운드 신호의 세기를 스펙트럼(spectrum)의 형태로 표시한 것을 말한다. 따라서, 공간 스펙트럼(spatial spectrum)을 이용하면 로봇의 현재 위치에서 음원의 방향을 찾을 수 있는 것이다. 이 때, 공간 스펙트럼(spatial spectrum)을 연산하는 방법은 바람직하게는 MUSIC(MUltiple SIgnal Classification) 알고리즘을 이용할 수 있으나, 이 외에도 ESPRIT 알고리즘, 시간 지연 추정(time-delay estimation)에 기반한 알고리즘, beam-forming에 기반한 알고리즘 등을 이용할 수도 있다. 이러한 알고리즘들은 당업자에게는 잘 알려져 있다.

로봇이 특정한 셀(cell)에서의 공간 스펙트럼을 획득하면, 로컬 좌표와 글로벌 좌표 사이의 좌표 변환을 수행한다(S116). 상기 공간 스펙트럼(spatial spectrum)은 로컬 좌표를 기준으로 하여 고정 음원의 방향을 추정하는 것이므로 사운드 맵(sound map) 정보를 이용하여 고정 음원의 방향을 추정하기 위해서는 로컬 좌표에서 전역 좌표로의 좌표 변환을 수행할 필요가 있는 것이다.

도 3에서 전역 좌표는 '{G}'로써 나타내고 점선으로 표시되고 있고, 로컬 좌표는 '{L}'로써 나타내고 실선으로 표시되고 있다. 로컬 좌표에서 로봇이 향하는 방향은 'H'로 나타내고 있다.

따라서, 스피커로 표시되는 고정 음원의 방향은 전역 좌표에서 볼 때에는 X_G축을 기준으로 θ_{G}가 되고, 로컬 좌표에서 볼 때에는 X_L축을 기준으로 θ _{L}이 된다.

한편, 로컬 좌표에서 전역 좌표로의 좌표 변환은 [수학식 1]에 의해 계산될 수 있다.

여기에서, P_G는 전역 좌표에서의 로봇의 위치를 나타내고, θ는 좌표축과 로컬 좌표축 사이의 각도를 나타낸다. 그리고, P는 전역 좌표의 원점을 기준으로 로컬 좌표의 원점의 위치를 나타낸다.

이렇게 변환된 고정 음원의 좌표를 이용하여 고정 음원의 방향이 전역 맵(global map)에 표시된다(S118)

그리고 나서, 로봇은 공간 스펙트럼(spatial spectrum)을 연산하지 않은 다른 셀(cell)로 이동하여 상기 S112, S114, S116 및 S118의 단계를 반복한다. 만일, 전역 맵(global map) 상에 존재하는 기설정된 모든 셀(cell)에서 공간 스펙트럼(spatial spectrum)이 연산되었다면 사운드 맵(sound map)이 완성되고(S122), 완성된 사운드 맵(sound map)에 대한 정보를 이용하여 로봇은 고 정 음원의 위치를 추정하게 된다(S130).

도 4 내지 도 6은 본 발명의 실시예에 따라 고정 음원에 대한 공간 스펙트럼(spatial spectrum)이 표시된 사운드 맵(sound map)을 나타내는 예시도이다.

도 4에서는 2개의 스피커를 고정 음원으로 하고, 도 5에서는 TV를 고정 음원으로 하고, 도 6에서는 2개의 스피커와 TV를 고정 음원으로 하고 있다.

다만, 도 4내지 도 6에서 도시된 공간 스펙트럼(spatial spectrum)은 로컬 좌표를 기준으로 나타내고 있다. 이 때, 공간 스펙트럼(spatial spectrum) 연산시, 파라미터(parameter)로서 검출가능한 최적화된 고정 음원의 개수(이하, 'Ns'로 나타내기로 한다)는 3이라고 하였는데, 이것은 일정한 공간 내에서 특정한 시간에 존재하는 음원의 개수는 일반적으로 3개 정도임을 가정한 것이다.

한편, 또다른 실시예로서 로봇이 고정 음원의 위치를 추정하기 위하여 특정한 셀(cell)마다 공간 스펙트럼(spatial spectrum)을 연산하는 것이 아니라, 자유롭게 이동하면서 공간 스펙트럼(spatial spectrum)을 연산하는 경우에는 특정한 위치에서 중복하여 공간 스펙트럼(spatial spectrum)이 연산될 수도 있다. 이러한 경우에는 중복하여 연산된 공간 스펙트럼(spatial spectrum)의 평균을 취할 수 있다.

도 7은 본 발명의 실시예에 따라 고정 음원의 위치를 추정하는 방법을 나타내는 플로우차트로서, 작성된 사운드 맵(sound map)에 관한 정보를 이용하여 고정 음원의 위치를 추정하는 방법을 나타내고 있다.

우선 로봇은 소프트웨어적으로 N_p개의 개체를 생성하고(S132), 생성된 개체들을 사운드 맵(sound map)에 도시된 임의의 셀(cell)들에 위치시킨다(S134). 예컨대, 5개의 개체를 생성하면 임의로 선정된 5개의 셀(cell)에 각각 1개의 개체씩 위치시키는 것이다. 이 때, 개체는 소프트웨어적으로 셀(cell)의 위치를 나타내는 변수(variable)라고 볼 수 있다.

한편, 'Itr' 변수는 인덱스 변수로서 사운드 맵(sound map)상에 존재하는 모든 개체가 1회 이동하는 주기를 나타낸다. 'Itr' 변수의 초기값은 0으로 설정된다(S136).

S138 단계 내지 S142 단계는 고정 음원의 방향으로 1개의 개체가 이동하는 방법을 나타내고 있으나, 다른 (N_p-1)개의 개체에 대해서도 동일하게 적용된다.

구체적으로 살펴보면, 현재 위치한 셀(cell)에서의 공간 스펙트럼에서 N_d개의 피크(peak)를 선정한다(S138). 고정 음원의 개수가 1개일 경우에는 1개의 피크만 생성이 되겠지만, 고정 음원의 개수가 여러 개일 경우에는 고정 음원의 개수만큼의 피크가 생길 수 있는 것이다.

그리고 나서, 현재 위치에서의 개체를 피크의 크기에 따라 하위 개체로 나눈다(S140). 예컨대, 현재 1개의 개체가 임의의 셀(cell)에 위치하고 있고, 상기 셀(cell)에서의 공간 스펙트럼(spatial spectrum)이 1개의 피크를 나타내고 있는 경우에는 하위 개체를 생성하지 않지만, 유사한 크기의 2개의 피크를 나타내고 있는 경우에는 1개의 개체는 2개의 하위 개체로 나누어지게 된다. 즉, 1개의 개체로 부터 2개의 개체가 생성되는 것이다. 또한, 서로 다른 크기의 피크가 나타나는 경우에는 그 크기의 비율로 하위 개체를 생성할 수 있는데, 이러한 규칙은 로봇을 설계하는 설계자에 의해 기설정될 수 있다.

이러한 방법으로 생성된 하위 개체들은 N_d개의 피크 방향에 있는 가장 가까운 이웃 셀(cell)로 이동하게 된다(S142).

S138 단계 내지 S142 단계와 같은 방법으로 모든 개체가 1회 이동하면, 'Itr' 변수의 값과 사운드 맵(sound map)상에 존재하는 모든 개체가 1회 이동하는 주기의 최대값을 나타내는 'T_itr'변수의 값과 비교한다(S144). 이 때, 'T_itr'변수의 값은 기설정된다.

만일, 'Itr' 변수의 값이 'T_itr'변수의 값보다 작은 경우에는, 각각의 개체들은 더 이동할 수 있으므로 'Itr' 변수의 값을 1증가시키고(S146), S138 단계 내지 S142 단계를 반복하여 수행한다.

그러나, 만일, 'Itr' 변수의 값이 'T_itr'변수의 값보다 작지 않은 경우에는, 개체들의 이동은 중단되고, 현재 사운드 맵(sound map)의 각 셀(cell)에 위치한 개체들을 일정한 규칙에 따라 그룹핑한다(S148). 이 때, 그룹핑하는 방법은 각각의 셀(cell)에 포함된 개체들을 하나의 그룹으로 하거나, 개체들간의 거리가 일정 범위 내에 속하는 개체들끼리 하나의 그룹으로 할 수 있다.

이 때, 만일 그룹핑된 개체들이 사운드 맵(sound map)상의 일정한 지점에 집중되어 있는지를 살펴보고(S150), 만일 그러한 경우에는 집중된 지점에 고정 음원 이 있는 것으로 보아 고정 음원의 위치를 추정하게 된다(S154).

그러나, 만일 그룹핑된 개체들이 일정한 지점에 집중되어 있지 않은 경우에는 상기 'Itr' 변수의 값을 0으로 초기화시키고(S152), 상기 S138 단계를 수행한다.

도 8은 본 발명의 또다른 실시예에 따라 고정 음원의 위치를 추정하는 방법을 나타내는 그래프이다.

우선, 고정 음원이 발생시키는 사운드(sound)의 크기가 크면 클수록 큰 포텐셜(potential)을 갖는 가상의 포텔셜 함수가 전역 맵(global map)에 존재한다고 가정한다.

이 때, 사운드 맵(sound map)에 배치된 공간 스펙트럼(spatial spectrum)의 피크를 나타내는 방향 벡터들이 상기 포텐셜 함수의 기울기(gradient) 정보를 나타낸다고 하면, 기울기 증가(gradient ascent) 방법으로 상기 포텐셜 함수의 최대값을 모두 찾을 수 있다. 이렇게 찾은 최대값의 위치가 고정 음원의 위치가 된다.

예컨대, 로봇이 920으로 표시된 셀(cell)에 위치하고 있고, 사람 또는 기타 작용에 의해 문(door)(950)의 여닫는 소리가 발생하는 경우에, 이러한 소리도 시변 잡음(non-stationary noise)에 해당한다. 따라서, 상기 셀(920)에서는 문(door)(950)이 위치한 방향으로 강한 공간 스펙트럼(spatial spectrum)이 발생하 게 되어 마치 문(door)(950)이 위치한 방향에 고정 음원이 존재하는 것처럼 보일 수도 있다. 그러나, 고정 음원의 위치를 결정하기 위해 925으로 표시된 셀(cell)로 상기 도 7에서와 같은 방법으로 개체 이동을 시키면, 상기 셀(cell)(925)에서는 더 이상 문(door)(950)이 위치한 방향으로의 공간 스펙트럼(spatial spectrum)은 존재하지 않으므로 순간적인 잡음이 발생하더라도 고정 음원의 위치에 대한 추정에는 영향을 주지 않게 된다.

한편, 본 발명의 실시예에서는 공간 스펙트럼(spatial spectrum) 연산시, 검출가능한 최적화된 고정 음원의 개수를 나타내는 Ns 값을 3이라고 하였으나, 고정 음원의 개수가 증가되더라도 사운드 맵(sound map)을 이용하면 각각의 고정 음원에 대한 위치를 추정할 수 있다.

여기에서, 시변 잡음(non-stationary noise)을 발생시키는 고정 음원으로서 제1 스피커(1020) 및 제2 스피커(1022)를 예로 하고 있다.

화자의 위치를 추정하는 로봇(1010)은 제1 스피커(1020)로부터 2.5m 떨어진 거리에 위치하고 있다. 그리고, 음성 신호를 발생시키는 화자는 도 10에서 도시한 제1 발성 위치 내지 제5 발성 위치에 차례로 위치하면서 음성 신호를 발생시킨다. 이 때, 로봇(1010)과 제1 발성위치를 연결하는 기준선(1030)을 기준으로 반시계방향으로 각도가 증가하게 되며, 각각의 발성 위치는 45도 간격으로 위치하고 있다.

도 11은 본 발명의 실시예에 따른 시변 잡음(non-stationary noise)의 파형 을 나타내는 예시도이다.

도 11에서 도시된 파형은 도 10에서 도시한 스피커(1020)로부터 발생되는 서로 다른 종류의 사운드로서, 이하에서는 설명의 편의를 위하여 'Canon variations'를 '제1 잡음', 'Dancing queen'을 '제2 잡음', 'Fall in love'를 '제3 잡음', 'Mullet'을 '제4 잡음'이라고 칭하기로 한다.

도 12는 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제1 실험 결과 데이터로서, 상기 제1 잡음이 발생한 경우에 화자의 위치를 추정한 실험 결과이다.

도 12에서 왼편에 도시된 윈도우(1210)는 상기 제1 잡음이 발생하고 있는 환경에서 로봇이 본 발명의 실시에 따른 사운드 맵(sound map)을 작성한 후, 화자가 도 10에 도시된 각각의 발성 위치에서 음성 신호를 발생시켰을 때, MUSIC알고리즘을 이용하여 공간-시간 영역(spatio-temporal domain)에서의 공간 스펙트럼(spatial spectrum)을 나타내고 있다.

상기 윈도우(1210)의 우측에 있는 윈도우(1240)는 본 발명의 실시에 따른 사운드 맵(sound map)을 작성한 후, 화자가 도 10에 도시된 각각의 발성 위치에서 음성 신호를 발생시켰을 때, 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)을 이용하여 공간-시간 영역(spatio-temporal domain)에서의 공간 스펙트럼(spatial spectrum)을 나타내고 있다. 이 때, 스펙트럼 차분 방식에 의한 MUSIC알고리즘은 잡음이 있는 환경에서 음성 신호가 감지될 때, 상기 음성 신호를 포함하는 공간 스펙트럼 정보에서 기저장된 잡음 스펙트럼 정보를 뺀 스펙트 럼 정보를 이용하여 음성 신호를 검출하는 방식이다. 여기에서 기저장된 잡음 스펙트럼 정보는 본 발명의 실시예에 따른 사운드 맵(sound map)를 이용할 수 있다.

한편, 상기 윈도우들(1210, 1240)의 하단에 있는 이미지 처리 영상(1220, 1250)은 각각 윈도우 1210 및 1240에 도시된 공간 스펙트럼(spatial spectrum)을 그레이-스케일(gray-scale)로 영상화시킨 것으로서, 이하에서는 이와 같이 공간 스펙트럼(spatial spectrum)을 그레이-스케일(gray-scale)로 이미지 처리한 영상을 '제1 영상'이라고 칭하기로 한다. 한편, 제1 영상의 가로축은 시간축을 나타내고, 세로축은 로봇(1010)을 기준으로 하는 방향 각도를 나타낸다.

제1 영상들(1220, 1250)의 하단에 있는 영상들(1230, 1260)은 각각 제1 영상(1220, 1250)을 이진화하여 음성이 존재하는 방향을 추정하는 영상들로서, 이하에서는 '제2 영상'이라고 칭하기로 한다.

이 때, 상기 제2 영상들(1230, 1260)을 비교해 보면 왼쪽에 위치한 제2 영상(1230)에는 음성이 존재하지 않는 시간 또는 방향에서 음성이 존재하고 있음을 나타내고 있는 블럽(blob)(1280)이 나타나고 있다. 그러나, 오른쪽에 위치한 제2 영상(1260)에는 음성이 존재하는 시간 또는 방향 이외의 구간에서 어떠한 블럽(blob)도 발견되지 않는다. 즉, 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)을 이용하여 공간 스펙트럼(spatial spectrum)을 얻고, 상기 공간 스펙트럼(spatial spectrum)으로부터 이미지 처리 영상을 얻는 경우에는 음성이 존재하는 방향을 좀더 정확하게 감지할 수 있는 것이다. 한편, 제1 영상(1250)을 이용하여 제2 영상(1260)을 얻는 과정 을 도 13에서 도시하고 있다.

우선 도 12에 도시된 윈도우(1240)의 공간 스펙트럼(spatial spectrum)을 사운드 신호의 크기에 대응하는 그레이-스케일(gray-scale)로 변환하여 2차원 평면 공간상에 영상화한다(S1310). 이 때, 상기 2차원 평면 공간은 가로축을 시간축으로, 세로축을 로봇을 중심으로 하는 방향축으로 한다. 따라서, 명도를 나타내는 정보를 1바이트로 하는 경우, 모두 256개의 그레이-스케일(gray-scale)로 변환할 수 있고, 사운드의 크기가 가장 큰 경우에는 그 값이 255가 되며 영상화된 이미지에서는 하얀색으로 나타난다. 도 14의 S1410에서 보여지는 영상은 그 결과를 나타내고 있다.

그리고 나서, 영상화된 그레이-스케일(gray-scale) 이미지는 반전이 되는데(S1320), 도 14의 S1420에서 보여지는 영상은 그 결과를 나타내고 있다.

영상을 반전하는 방법으로서, 2차원 평면 공간 상에 위치한 (x, y)에서의 명도를 I(x, y)라고 할 때, 반전된 영상 I'(x, y)은 [수학식 2]에 의해 얻을 수 있다.

한편, 반전된 영상의 흑백을 강조하기 위하여 명도(intensity)을 조정하는 단계를 거치게 된다(S1330). 이를 위하여 반전된 영상의 가장자리에 위치한 픽셀(pixel)들의 명도 평균값(avg)을 구하고, 영상 픽셀의 최대값(max)과 최소값(min)을 구한다. 그리고 나서, 만일 명도 평균값(avg)이 영상 픽셀의 최소값(min)보다 큰 경우에는 [수학식 3]에 따르고, 그렇지 않은 경우에는 [수학식 4]를 따르게 된다. 이러한 방법으로 반전된 영상의 흑백을 강조할 수 있다. 도 14의 S1430에서 보여지는 영상은 그 결과를 나타내고 있다.

도 13에서 도시한 S1330 단계까지는 사운드 신호의 크기가 그레이-스케일(gray-scale)로 나타나고 있는데, S1340 단계에서는 영상 이진화가 수행된다(S1340). 즉, 영상에 나타난 모든 픽셀(pixel)들을 기설정된 문턱값(threshold-value)을 기준으로 하여 흑(black) 또는 백(white)으로만 나타내는 것이다.

예컨대, I'(x, y)가 문턱값(threshold-value)보다 큰 경우에는 I'(x, y) = 255, 그렇지 않은 경우에는 I'(x, y) = 0로 설정하는 것이다. 이 때, 문턱값(threshold-value)은 Otsu 방법에 의해 구해진 값보다 10만큼 작은 값으로 할 수 있다. Otsu 방법은 Otsu에 의해 제안된 'A thresholding selection method from gray-level histogram(IEEE Transactions on Systems, Man, and Cybernetics9(1):62-66)'에 구체적으로 기술되어 있다. 도 14의 S1440에서 보여지는 영상은 영상 이진화에 따른 결과를 나타내고 있다.

영상 이진화에 의해 제1 영상(1250)에 있는 모든 픽셀(pixel)들이 흑 또는 백의 값을 갖게 되면 블럽(blob)을 감지하는데(S1350), 도 15는 본 발명의 실시예에 따라 블럽(blob)을 감지하는 방법을 나타내는 예시도이다.

본 발명에 실시예에 있어서 블럽(blob)은 음성이 존재하고 있음을 나타내고 있는 표지로서 검은 색으로 나타내고 있다.

사운드 신호는 시간에 따라 연속적으로 입력되고, 가장 최근에 입력된 일정 시간 T 동안의 사운드 신호는 도 12 및 도 15에서 도시된 윈도우(1270)에 의해 나타낼 수 있다.

명도 조정을 보다 효과적으로 하기 위하여 하나의 윈도우는 256개의 그레이-스케일 레벨(gray-scale level)보다 많은 수의 픽셀(pixel)을 포함하는 것이 바람직하며, 빠르게 변화하는 환경에 대응하기 위해서는 짧은 시간이 바람직하다. 본 발명의 실시예에서 T는 5초로 하였다.

본 발명의 실시예에서는 윈도우(1270) 내에서 검은색을 갖는 픽셀(pixel)의 수가 일정 수 이상일 경우에 블럽(blob)으로 간주한다.

1라인에서는 시간 T 동안에 입력된 사운드 신호에 대한 윈도우 내에 있는 영 상의 각각의 픽셀(pixel)값을 나타내는 변수를 선언하고 있다.

2라인에서는 360도 방향에 대하여 블럽(blob)을 감지한 결과를 나타내는 변수를 선언하고 있다.

3라인에서는 인덱스 변수들을 선언하고 있으며, 4라인에서는 문턱값을 4로 선언하고 있는데, 검은색을 갖는 픽셀(pixel)의 개수가 4이상이면 블럽(blob)으로 간주하게 된다.

8라인 내지 24라인에서는 시간 T 동안에 'dir' 변수에 의해 정해지는 특정한 방향에 대하여 블럽(blob)이 존재하는지 여부를 연산하고 있다.

즉, 8라인에서는 검은 색을 갖는 픽셀(pixel)의 개수를 적산하는 변수 'detect_count' 를 선언하고 있고, 이 때 초기값을 0으로 설정하고 있다.

10라인 내지 16라인에서는 특정한 픽셀(pixel)이 검은 색의 픽셀(pixel)일 경우 detect_count 변수를 1만큼 증가시키고 있다. 이 때, 검은 색의 픽셀(pixel)인지 여부는, 픽셀(pixel) 값을 1바이트로 나타내는 경우 픽셀(pixel)값이 128보다 작은 경우에 검은 색의 픽셀(pixel)로 간주한다.

17라인 내지 24라인에서는 detect_count 변수가 문턱값을 나타내는 변수 'threshold'의 값보다 큰 경우에는 해당하는 'dir' 방향에 블럽(blob)이 존재하는 것으로 본다.

한편, 제1 영상(1250)에서 블럽(blob)을 감지한 후, 감지된 블럽(blob)의 위치를 출력하게 되는데, 제2 영상(1260)에서 그 결과를 보여주고 있다(S1360).

도 17은 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나 타내는 제2 실험 결과 데이터로서, 상기 제2 잡음이 발생한 경우에 화자의 위치를 추정한 실험 결과이다.

도 17에서의 제2 영상들(1730, 1760)들을 비교해 보면 왼쪽에 위치한 제2 영상(1730)의 경우에는 시변 잡음(non-stationary noise)이 발생되고 있는 방향에 블럽(blob)(1770)이 형성되고 있는 것을 알 수 있다. 그러나, 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)을 사용하고 있는 제2 영상(1760)에는 정상적으로 블럽(blob)이 형성되고 있다.

도 18은 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제3 실험 결과 데이터로서, 상기 제3 잡음이 발생한 경우에 화자의 위치를 추정한 실험 결과이다.

도 18에서의 제2 영상들(1830, 1860)들을 비교해 보면 왼쪽에 위치한 제2 영상(1830)의 경우에는 시변 잡음(non-stationary noise)이 발생되고 있는 방향에 블럽(blob)(1880)이 형성되고, 또한 음성 신호가 존재하는 방향에 블럽(blob)(1870)이 형성되지 않는 것을 알 수 있다. 그러나, 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)을 사용하고 있는 제2 영상(1860)에는 정상적으로 블럽(blob)이 형성되고 있다.

도 19는 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제4 실험 결과 데이터로서, 상기 제4잡음이 발생한 경우에 화자의 위치를 추정한 실험 결과이다.

도 19에서의 제2 영상들(1930, 1960)들을 비교해 보면 왼쪽에 위치한 제2 영 상(1930)의 경우에는 시변 잡음(non-stationary noise)이 발생되고 있는 방향에 블럽(blob)(1980)이 형성되고, 또한 음성 신호가 존재하는 방향에 블럽(blob)(1970)이 형성되지 않는 것을 알 수 있다. 그러나, 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)을 사용하고 있는 제2 영상(1960)에는 정상적으로 블럽(blob)이 형성되고 있다.

도 12 및 도 17 내지 도 19에서 도시한 실험 결과에 따른 화자 방향 추정에 대한 에러는 [표 1]과 같다. 이 때 단위는 '도'이다.

본 발명의 실시예에 따른 사운드 맵(sound map)에 대한 정보를 갖고 있는 로봇이 자신에게 장착된 마이크로폰 어레이로부터 음성 신호를 입력받는다(S2010). 그리고 나서, 가정된 음원 수 N_s와 비교하기 위한 인덱스 변수 'count'의 초기값을 0으로 설정한 후(S2020), MUSIC알고리즘을 수행한다(S2030). 이 때에는 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction) 방식을 사용하며, 상기 입력된 음성 신호를 포함하는 공간 스펙트럼 정보에서 기저장된 사운드 맵(sound map)에 대한 정보를 뺀 스펙트럼 정보를 이용하여 음성 신호를 검출하게 된다.

MUSIC알고리즘 수행을 마치게 되면, count 변수 값을 N_s값과 비교한다. 즉, MUSIC알고리즘을 수행하게 되면 여러 방향으로 공간 스펙트럼(spatial spectrum)의 피크(peak)가 형성될 수 있는데, 이 때, N_s값의 범위 내에서 음성 신호의 방향을 찾게 된다.

따라서, 만일 count 변수 값이 N_s값보다 작지 않은 경우에는 count 변수 값을 다시 0으로 설정하고 MUSIC알고리즘을 수행하게 된다(S2040, S2020, S2030).

그러나, 만일 count 변수 값이 N_s값보다 작은 경우에는, 공간 스펙트럼(spatial spectrum)에 형성된 피크(peak)중 가장 큰 피크(peak)를 형성하고 있는 방향으로 카메라 모터를 이용하여 카메라를 회전시킨다(S2050). 이 때, 카메라의 화면을 통해 화자가 감지되면 화자 방향 추정 과정은 종료하게 된다. 이 때, 화자를 감지하고 인식하는 방법은 ⅰ) Pedestrian detection using wavelet templates(Oren, M.;Papageorgiou, C.; Shnha, P.; Osuna, E.; Poggio, T; IEEE International Conference on Computer Vision and Pattern Recognition, 1997), ⅱ) Human detection using geometrical pixel value structures(Utsumi, A.; Tetsutani, N.; IEEE International Conference on Automatic Face and Gesture Recognition, 2002), ⅲ) Detecting Pedestrians Using Patterns of Motion and Appearance(Viola P; Jones M.J.;Snow D.; IEEE International Conference on Computer Vision, 2003), ⅳ) Rapid Object Detection Using a Boosted Cascade of Simple Features(Viola P.; Jones M. J.; IEEE International Conference on Computer Vision and Pattern Recognition, 2001)에 의해 구체적으로 기술되어 있다.

그러나, 만일 화자가 감지되지 않는 경우에는 화자가 고정 음원 방향에 있을 수도 있기 때문에 고정 음원 방향을 포함하는 방향중 큰 피크(peak) 값을 갖는 방향 순으로 카메라 방향을 제어하여 화자의 방향을 검출한다. 이 때, count 변수 값은 1증가한다(S2070).

도 21은 본 발명의 실시예에 따른 화자의 위치를 추정하는 로봇의 블록도로서, 상기 로봇은 로봇 자신의 이동 및 위치를 연산하고 조정하는 네비게이션 시스템(2150)과, 화자 위치를 추정하는 시스템(2110)과 카메라와 같은 영상 입력 장치가 내장된 비전 시스템(2160)을 포함한다.

또한, 화자 위치 추정 시스템(2110)은 외부로부터 사운드 신호를 수신하는 신호 입력 모듈(2135)과, 상기 신호 입력 모듈에 의해 수신된 적어도 1이상의 고정 음원으로부터 발생된 사운드 신호에 대한 공간 스펙트럼(spatial spectrum)이 배치 된 사운드 맵(sound map)을 작성하고, 상기 사운드 맵(sound map)으로부터 상기 고정 음원의 위치를 추정하는 초기화 모듈(2125)과, 상기 추정된 고정 음원의 위치에 대한 정보를 저장하는 저장 모듈(2130)과, 상기 신호 입력 모듈에 의해 수신된 음성 신호가 포함된 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 상기 음성 신호가 발생된 위치를 추정하는 화자 위치 추정 모듈(2120)을 포함한다.

초기화 모듈(2125)은 네비게이션 시스템(2150)으로부터 로봇의 이동 및 위치에 관한 정보를 수신하고, 수신한 정보를 이용하여 도 2 내지 도 8에서 설명한 방법에 따라 사운드 맵(sound map)을 작성한다. 그리고 나서, 작성된 사운드 맵(sound map)으로부터 고정 음원의 위치를 추정한다. 상기 사운드 맵(sound map)에 관한 정보 및 추정된 고정 음원의 위치에 대한 정보는 저장 모듈(2130)에 저장된다.

신호 입력 모듈(2135)로부터 음성 신호가 수신되면, 제어 모듈(2115)은 화자 위치 추정 모듈(2120)로 하여금 수신된 음성 신호의 방향을 추정하도록 한다. 이 때, 화자 위치 추정 모듈(2120)은 저장 모듈(2130)에 저장된 사운드 맵(sound map)에 관한 정보 및 추정된 고정 음원의 위치에 대한 정보를 이용하여 도 12 내지 도 20에서 설명한 방법에 따라 음성 신호를 발생시킨 화자의 방향을 추정하게 된다. 이 때, 비전 시스템(2160)은 제어 모듈(2115)의 명령에 따라 음성 신호가 발생한 방향으로 로봇에 장착된 카메라를 회전하게 함으로써 음성 신호가 발생한 방향에 화자가 위치하고 있는지 여부를 확인하게 된다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정하는 것은 아니다.

본 발명의 실시예에 따라 시변 잡음(non-stationary nosie) 환경에서도 로봇의 현재 위치에서 음성 신호를 발생시킨 화자의 방향을 추정할 수 있는 효과가 있다.

Claims

외부로부터 사운드 신호를 수신하는 신호 입력 모듈;

상기 신호 입력 모듈에 의해 수신된 적어도 1이상의 고정 음원으로부터 발생된 사운드 신호에 대한 공간 스펙트럼(spatial spectrum)이 배치된 사운드 맵(sound map)을 작성하고, 상기 사운드 맵(sound map)으로부터 상기 고정 음원의 위치를 추정하는 초기화 모듈;

상기 추정된 고정 음원의 위치에 대한 정보를 저장하는 저장 모듈; 및

상기 신호 입력 모듈에 의해 수신된 음성 신호가 포함된 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 상기 음성 신호가 발생된 위치를 추정하는 화자 위치 추정 모듈을 포함하며,

상기 사운드 맵은 다수의 영역으로 분할된 공간으로 표현되고, 상기 분할된 적어도 2이상의 영역은 각각의 상기 공간 스펙트럼 정보를 포함하는 시변 잡음(non-stationary noise) 환경에서의 화자 위치 추정 시스템.
제1항에 있어서,

상기 신호 입력 모듈은 적어도 2이상의 마이크로폰으로 구성된 마이크로폰 어레이를 포함하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
제1항에 있어서,

상기 공간 스펙트럼은 방향에 따른 사운드 신호의 크기에 대한 정보를 포함하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
제1항에 있어서,

상기 사운드 맵은 상기 고정 음원을 포함하는 2차원 평면 공간에서, 상기 고정 음원으로부터 발생된 사운드 신호를 MUSIC(Multiple Signal Classification) 알고리즘에 의한 공간 스펙트럼으로 나타낸 정보를 포함하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
제1항에 있어서,

상기 사운드 맵은 다수의 영역으로 분할된 2차원 평면 공간으로 표현되는 시변 잡음 환경에서의 화자 위치 추정 시스템.
제1항에 있어서,

상기 초기화 모듈은 작성된 사운드 맵(sound map) 내의 적어도 2이상의 서로 다른 위치로부터 시작하여 상기 위치를 포함하는 영역에서의 공간 스펙트럼 상에서 상기 사운드 신호의 크기가 크게 나타나는 방향으로 각각의 궤적을 형성하고, 상기 각각의 궤적이 상기 사운드 맵의 임의의 영역 내로 수렴하는 경우 상기 수렴하는 영역을 상기 고정 음원의 위치로 추정하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
제1항에 있어서,

상기 초기화 모듈은 상기 고정 음원에서 발생된 사운드 신호의 크기에 비례하여 설정된 포텐셜 함수의 최대값을 고정 음원의 위치로 추정하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
제1항에 있어서,

화자 위치 추정 모듈은 상기 신호 입력 모듈에 의해 수신된 음성 신호가 포함된 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)에 의한 공간 스펙트럼(spatial spectrum)을 얻고, 상기 차분 방식에 의한 MUSIC알고리즘에 의한 공간 스펙트럼에 대응하는 그레이-스케일(gray-scale)의 이미지 영상을 이미지 처리하여 상기 음성 신호가 발생된 위치를 추정하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
제8항에 있어서,

상기 화자 위치 추정 모듈은 상기 그레이-스케일(gray-scale)의 이미지 영상을 이진화하고, 이진화된 이미지 영상을 구성하는 연속된 픽셀들의 패턴에 따라 상기 음성 신호가 발생된 위치를 추정하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
제9항에 있어서,

상기 이진화된 이미지 영상은 명도가 조정된 이미지 영상인 시변 잡음 환경에서의 화자 위치 추정 시스템.
제9항에 있어서,

상기 이진화된 이미지 영상은 문턱값(threshold-value)을 기준으로 하여 상기 그레이-스케일(gray-scale)의 이미지 영상을 구성하는 픽셀들의 값을 흑(black) 또는 백(white)에 해당하는 값으로 이진화하여 생성하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
제11항에 있어서,

상기 문턱값은 Otsu 방법에 의해 계산된 문턱값인 시변 잡음 환경에서의 화자 위치 추정 시스템.
제9항에 있어서,

상기 화자 위치 추정 모듈은 상기 이진화된 이미지 영상을 구성하는 동일한 픽셀값을 갖는 연속된 픽셀들의 개수가 기설정된 개수 이상일 경우에, 상기 픽셀들이 위치한 방향을 상기 음성 신호가 발생한 방향으로 추정하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
적어도 1이상의 고정 음원으로부터 발생된 사운드 신호에 대한 공간 스펙트럼(spatial spectrum)이 배치된 사운드 맵(sound map)을 작성하는 (a) 단계;

상기 사운드 맵(sound map)으로부터 상기 고정 음원의 위치를 추정하는 (b) 단계;

상기 추정된 고정 음원의 위치에 대한 정보를 저장하는 (c) 단계; 및

음성 신호가 감지되는 경우 상기 음성 신호를 포함하는 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 상기 음성 신호가 발생된 위치를 추정하는 (d) 단계를 포함하며,

상기 사운드 맵은 다수의 영역으로 분할된 공간으로 표현되고, 상기 분할된 적어도 2이상의 영역은 각각의 상기 공간 스펙트럼 정보를 포함하는 시변 잡음(non-stationary noise) 환경에서의 화자 위치 추정 방법.
제14항에 있어서,

상기 공간 스펙트럼은 방향에 따른 상기 사운드 신호의 크기에 대한 정보를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
제14항에 있어서,

상기 사운드 맵은 상기 고정 음원을 포함하는 2차원 평면 공간에서, 상기 고정 음원으로부터 발생된 사운드 신호를 MUSIC(Multiple Signal Classification) 알고리즘에 의한 공간 스펙트럼으로 나타낸 정보를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
제14항에 있어서,

상기 사운드 맵은 다수의 영역으로 분할된 2차원 평면 공간으로 표현되는 시변 잡음 환경에서의 화자 위치 추정 방법.
제14항에 있어서,

상기 (b) 단계는 상기 사운드 맵(sound map) 내의 적어도 2이상의 서로 다른 위치로부터 시작하여 상기 위치를 포함하는 영역에서의 공간 스펙트럼 상에서 상기 사운드 신호의 크기가 크게 나타나는 방향으로 각각의 궤적을 형성하는 (b)-1단계;

상기 각각의 궤적의 종착점(end-point)으로부터 시작하여 상기 (b)-1단계를 반복하는 (b)-2단계; 및

상기 각각의 궤적이 상기 사운드 맵의 임의의 영역 내로 수렴하는 경우에 상기 수렴하는 영역을 상기 고정 음원의 위치로 추정하는 (b)-3 단계를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
제14항에 있어서,

상기 (b) 단계는 상기 고정 음원에서 발생된 사운드 신호의 크기에 비례하는 포텐셜 함수를 설정하는 단계;

상기 사운드 맵(sound map)에 배치된 공간 스펙트럼 상에서 상기 사운드 신호의 크기가 크게 나타나는 방향으로 각각의 방향 벡터를 형성하는데, 상기 방향 벡터는 상기 포텐셜 함수의 기울기 정보인 것으로 하는 단계;

상기 방향 벡터를 이용하여 상기 포텐셜 함수의 최대값을 찾는 경우에 상기 최대값에 해당하는 위치를 고정 음원의 위치로 추정하는 단계를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
제14항에 있어서,

상기 (d) 단계는 감지된 음성 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)에 의해 공간 스펙트럼(spatial spectrum)을 얻는 (d)-1단계;

상기 (d)-1단계로부터 얻은 공간 스펙트럼(spatial spectrum)에 대응하는 그레이-스케일(gray-scale)의 이미지 영상을 얻는 (d)-2 단계; 및

상기 이미지 영상을 이미지 처리하여 상기 음성 신호가 발생된 위치를 추정하는 (d)-3 단계를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
제20항에 있어서,

상기 (d)-3 단계는 상기 이미지 영상의 명도를 조정하는 단계;

명도가 조정된 이미지 영상을 이진화하는 단계; 및

이진화된 이미지 영상을 구성하는 연속된 픽셀들의 패턴에 따라 상기 음성 신호가 발생된 위치를 추정하는 단계를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
제21항에 있어서,

상기 명도가 조정된 이미지 영상을 이진화하는 단계는, 문턱값(threshold-value)을 기준으로 하여 상기 명도가 조정된 이미지 영상을 구성하는 픽셀들의 값을 흑(black) 또는 백(white)에 해당하는 값으로 이진화하는 단계를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
제21항에 있어서,

상기 문턱값은 Otsu 방법에 의해 계산된 문턱값인 시변 잡음 환경에서의 화자 위치 추정 방법.
제21항에 있어서,

상기 음성 신호가 발생된 위치를 추정하는 단계는, 동일한 픽셀값을 갖는 연속된 픽셀들의 개수가 기설정된 개수 이상일 경우에, 상기 픽셀들이 위치한 방향을 상기 음성 신호가 발생한 방향으로 추정하는 단계를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
제14항에 있어서,

상기 음성 신호는 적어도 2이상의 마이크로폰으로 구성된 마이크로폰 어레이 에 의해 수신되는 시변 잡음 환경에서의 화자 위치 추정 방법.