KR100586893B1 - 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법 - Google Patents

시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법 Download PDF

Info

Publication number
KR100586893B1
KR100586893B1 KR1020040048927A KR20040048927A KR100586893B1 KR 100586893 B1 KR100586893 B1 KR 100586893B1 KR 1020040048927 A KR1020040048927 A KR 1020040048927A KR 20040048927 A KR20040048927 A KR 20040048927A KR 100586893 B1 KR100586893 B1 KR 100586893B1
Authority
KR
South Korea
Prior art keywords
sound
signal
sound source
estimating
spatial spectrum
Prior art date
Application number
KR1020040048927A
Other languages
English (en)
Other versions
KR20060000064A (ko
Inventor
최창규
홍선기
공동건
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040048927A priority Critical patent/KR100586893B1/ko
Priority to US11/165,288 priority patent/US7822213B2/en
Publication of KR20060000064A publication Critical patent/KR20060000064A/ko
Application granted granted Critical
Publication of KR100586893B1 publication Critical patent/KR100586893B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/026Acoustical sensing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

본 발명은 음성 신호를 발생시킨 화자의 위치를 추정하는 것에 관한 발명으로서, 본 발명의 실시에 따른 시변 잡음(non-stationary noise) 환경에서의 화자 위치 추정 시스템은 외부로부터 사운드 신호를 수신하는 신호 입력 모듈과, 상기 신호 입력 모듈에 의해 수신된 적어도 1이상의 고정 음원으로부터 발생된 사운드 신호에 대한 공간 스펙트럼(spatial spectrum)이 배치된 사운드 맵(sound map)을 작성하고, 상기 사운드 맵(sound map)으로부터 상기 고정 음원의 위치를 추정하는 초기화 모듈과, 상기 추정된 고정 음원의 위치에 대한 정보를 저장하는 저장 모듈, 및 상기 신호 입력 모듈에 의해 수신된 음성 신호가 포함된 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 상기 음성 신호가 발생된 위치를 추정하는 화자 위치 추정 모듈을 포함한다.
시변 잡음(non-stationary noise), 화자 위치 추정, MUSIC 알고리즘

Description

시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법{System and method for estimating speaker localization in non-stationary noise environment}
도 1은 본 발명의 실시예에 따른 화자의 위치를 추정하는 방법을 개략적으로 나타낸 플로우차트이다.
도 2는 본 발명의 실시예에 따른 사운드 맵(sound map)을 작성하는 방법을 구체적으로 나타내고 있는 플로우차트이다.
도 3은 본 발명의 실시예에 따라 로봇의 로컬 좌표와 로봇이 속한 평면의 전역 좌표간의 관계를 나타내는 예시도이다.
도 4는 본 발명의 실시예에 따라 2개의 스피커를 고정 음원으로 하는 사운드 맵(sound map)을 나타내는 예시도이다.
도 5는 본 발명의 실시예에 따라 TV를 고정 음원으로 하는 사운드 맵(sound map)을 나타내는 예시도이다.
도 6은 본 발명의 실시예에 따라 2개의 스피커와 TV를 고정 음원으로 하는 사운드 맵(sound map)을 나타내는 예시도이다.
도 7은 본 발명의 실시예에 따라 고정 음원의 위치를 추정하는 방법을 나타내는 플로우차트이다.
도 8은 본 발명의 또다른 실시예에 따라 고정 음원의 위치를 추정하는 방법 을 나타내는 그래프이다.
도 9는 본 발명의 실시예에 따른 사운드 맵(sound map)을 이용하여 순간적인 잡음이 발생한 환경에서도 고정 음원의 위치를 추정하는 것을 나타내는 예시도이다.
도 10은 본 발명의 실시예에 따른 화자의 위치를 추정하기 위한 실험 환경을 나타내는 예시도이다.
도 11은 본 발명의 실시예에 따른 시변 잡음(non-stationary noise)의 파형을 나타내는 예시도이다.
도 12는 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제1 실험 결과 데이터이다.
도 13은 본 발명의 실시예에 따른 제1 영상으로부터 제2 영상을 얻는 과정을 나타내는 플로우차트이다.
도 14는 도 13에서 도시한 각각의 단계에 대응하는 이미지 영상을 나타내고 있는 예시도이다.
도 15는 본 발명의 실시예에 따라 블럽(blob)을 감지하는 방법을 나타내는 예시도이다.
도 16은 본 발명의 실시예에 따라 블럽(blob)을 감지하는 방법을 수행하기 위한 소스 프로그램을 나타내는 예시도이다.
도 17은 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제2 실험 결과 데이터이다.
도 18은 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제3 실험 결과 데이터이다.
도 19는 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제4 실험 결과 데이터이다.
도 20은 본 발명의 실시예에 따른 화자의 위치를 추정하는 방법을 나타내는 플로우차트이다.
도 21은 본 발명의 실시예에 따른 화자의 위치를 추정하는 로봇의 블록도이다.
본 발명은 화자의 위치 추정에 관한 것으로, 보다 상세하게는 사운드 맵(sound map)을 작성하고, 작성된 사운드 맵(sound map) 정보를 이용하여 시변 잡음(non-stationary noise) 환경에서도 화자의 위치를 추정하는 방법에 관한 것이다.
전자, 통신, 기계 등 다양한 분야의 기술이 발달함에 따라 인간의 생활은 더욱 편리하게 되었고, 많은 부분에 있어서 인간을 대신하여 움직이고 주어진 일을 처리하는 자동 시스템이 개발되었는데, 흔히 이러한 자동 시스템을 로봇이라고 한다.
특히 이러한 로봇은 인간의 음성을 인식하고, 인식된 음성 정보에 따라 적절 한 행동을 취할 수 있는데, 경우에 따라서는 인간의 음성 신호를 인식하여 음성이 발생한 위치를 추정할 수 있어야 한다.
이를 위해 일본 특허공개공보 제2002-359767호에서는 음원의 위치를 추적하는 카메라 장치를 개시하고 있는데, 여기에서 시불변 잡음(stationary noise) 환경에서 음원을 추적하는 방법을 제시하고 있다. 따라서, 시변 잡음(non-stationary noise) 환경에서는 음원을 추적하기 어려운 문제점이 있다.
또한 미국특허등록 제6160758호에서는 음원의 위치를 추정하는 방법에 대해 개시하고 있으나, 실내 환경에서는 적용이 곤란하고, 음성 신호를 발생시킨 화자의 위치를 추정하기 어려운 문제점이 있다.
따라서, 시변 잡음(non-stationary noise) 환경에서도 음성을 인식하여 음성 신호를 발생시킨 화자의 위치를 추정하는 방법이 필요하게 되었다.
본 발명은 상기한 문제점을 개선하기 위해 안출된 것으로, 본 발명은 사운드 맵(sound map)을 작성하고, 음성 신호를 수신하는 경우 작성된 사운드 맵(sound map)에 관한 정보를 이용하여 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)에 의해 공간 스펙트럼(spatial spectrum)을 얻은 후, 상기 공간 스펙트럼(spatial spectrum)의 영상을 이미지 처리함으로써, 시변 잡음(non-stationary noise) 환경에서도 음성 신호가 발생한 위치를 추정하는 시스템 및 방법을 제공하는데 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 시변 잡음(non-stationary noise) 환경에서의 화자의 위치를 추정하는 시스템은 외부로부터 사운드 신호를 수신하는 신호 입력 모듈과, 상기 신호 입력 모듈에 의해 수신된 적어도 1이상의 고정 음원으로부터 발생된 사운드 신호에 대한 공간 스펙트럼(spatial spectrum)이 배치된 사운드 맵(sound map)을 작성하고, 상기 사운드 맵(sound map)으로부터 상기 고정 음원의 위치를 추정하는 초기화 모듈과, 상기 추정된 고정 음원의 위치에 대한 정보를 저장하는 저장 모듈, 및 상기 신호 입력 모듈에 의해 수신된 음성 신호가 포함된 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 상기 음성 신호가 발생된 위치를 추정하는 화자 위치 추정 모듈을 포함한다.
또한 상기 목적을 달성하기 위하여, 본 발명의 실시예에 시변 잡음(non-stationary noise) 환경에서의 따른 화자의 위치를 추정하는 방법은 적어도 1이상의 고정 음원으로부터 발생된 사운드 신호에 대한 공간 스펙트럼(spatial spectrum)이 배치된 사운드 맵(sound map)을 작성하는 (a) 단계와, 상기 사운드 맵(sound map)으로부터 상기 고정 음원의 위치를 추정하는 (b) 단계와, 상기 추정된 고정 음원의 위치에 대한 정보를 저장하는 (c) 단계, 및 음성 신호가 감지되는 경우 상기 음성 신호를 포함하는 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 상기 음성 신호가 발생된 위치를 추정하는 (d) 단계를 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다
이하, 본 발명의 실시예들에 의하여 화자의 위치를 추정하는 시스템 및 방법을 설명하기 위한 블록도 또는 처리 흐름도에 대한 도면들을 참고하여 본 발명에 대해 설명하도록 한다. 이 때, 처리 흐름도 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하도록 기구를 만들 수 있다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
한편, 본 발명을 보다 용이하게 설명하기 위하여 이하에서는 몇 가지 개념을 정의하도록 한다.
(1) 전역 맵(global map): 일정한 평면 공간을 격자 모양으로 분할하고, 분할된 각각의 영역에 대한 위치 정보를 갖는 맵.
(2) 화자(speaker): 전역 맵(global map)에 의해 표시되는 일정한 평면 공간에서 음성 신호를 발생시키는 사람.
(3) 로봇(robot): 화자의 위치를 추정하는 시스템.
(4) 셀(cell): 전역 맵(global map)에서 격자 모양으로 분할된 각각의 영역.
(5) 사운드 맵(sound map): 전역 맵(global map)의 각각의 셀(cell)마다 음원의 방향을 나타내는 공간 스펙트럼(space spectrum)을 배치한 맵.
(6) 로컬 좌표(local coordination): 로봇이 향하는 방향을 기준으로 하는 2차원 평면 좌표.
(7) 전역 좌표(global coordination): 전역 맵(global map)에 의해 표시되는 일정한 평면 공간에 대한 2차원 평면 좌표.
(8) 고정 음원: 고정된 위치에서 잡음을 발생시키는 장치, 여기에서는 전역 맵(global map)에 의해 표시되는 평면 공간 상에 존재하여 시변 잡음(non-stationary noise)을 발생시키는 장치를 말한다.
(9) 시변 잡음(non-stationary nosie): 화자에 의해 발생되는 음성 신호를 제외한 모든 사운드 신호로서 본 발명에서는 고정 음원에 의해 발생되거나 로봇 외부의 환경으로부터 갑자기 발생하게 된다(예: 문을 여닫는 소리).
(10) 사운드 신호(sound signal): 화자에 의해 발생된 음성 신호와 기타 다른 모든 잡음 신호를 포함하는 신호를 의미한다.
도 1은 본 발명의 실시예에 따른 화자의 위치를 추정하는 방법을 개략적으로 나타낸 플로우차트이다.
본 발명의 실시예에 따라 로봇이 화자의 위치를 추정하기 위해서는, 로봇은 현재 로봇이 이동하고 있는 평면 공간에 존재하는 고정 음원에 관한 위치 정보를 획득하는 작업이 선행되어야 한다.
따라서, 로봇은 화자의 위치를 추정하기 위한 초기화 단계로서 우선 사운드 맵(sound map)을 작성하고(S110), 작성된 사운드 맵(sound map)을 이용하여 고정 음원의 위치를 추정(S130)한다. 그리고 나서, 추정된 고정 음원의 위치 정보를 로 봇 내에 있는 메모리와 같은 저장 영역에 저장한다(S150). 이 때, 사운드 맵(sound map)을 작성하는 방법은 도 2에서, 고정 음원의 위치를 추정하는 방법은 도 7에서 구체적으로 설명하도록 한다.
로봇은 음성을 감지할 때까지 대기 상태로 있다가 만일 음성을 감지하게 되면, 기저장된 고정 음원의 위치 정보와 감지된 음성 신호를 이용하여 화자의 위치를 추정한다(S170). 그리고, 화자에 의해 발생한 음성 신호가 로봇으로 하여금 특정한 동작을 요구하는 정보를 포함하는 경우에는, 로봇은 상기 정보에 따라 일정한 동작을 수행하게 된다(S190).
도 2는 본 발명의 실시예에 따른 사운드 맵(sound map)을 작성하는 방법을 구체적으로 나타내고 있는 플로우차트로서, 사운드 맵(sound map)은 주기적으로 갱신될 수 있다.
우선, 로봇은 자신이 존재하는 평면 공간에서 전역 좌표(global coordination) 값을 획득함으로써 전역 맵(global map) 상에서의 자신의 위치, 즉 로봇의 2차원 평면 좌표값과 전역 좌표(global coordination)의 원점을 기준으로 하는 방향각을 파악한다(S112).
로봇은 전역 맵(global map)에 대한 정보 및 전역 맵(global map) 상에서의 자신의 위치 정보를 로봇 내에 있는 네비게이션 시스템(navigation system)으로부터 얻을 수 있다. 이 때, 네비게이션 시스템(navigation system)은 로봇 내에서 로봇의 이동 및 위치에 관한 정보를 처리하는 소프트웨어, 하드웨어 또는 소프트웨어와 하드웨어가 결합한 형태를 통칭하는 포괄적 개념을 의미한다. 네비게이션 시스 템(navigation system)에는 로봇 자신이 속한 평면 공간에 대한 전역 맵(global map)의 정보를 처리하는 모듈과 전역 맵(global map) 상에서 로봇 자신의 위치를 파악하는 모듈을 포함할 수 있다. 이 때, 상기 '모듈'은 소프트웨어 또는 Field Programmable Gate Array(FPGA) 또는 주문형 반도체(Application Specific Integrated Circuit, ASIC)과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다.  모듈은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다.  따라서, 일 예로서 모듈은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.  구성요소들과 모듈들에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들과 모듈들로 더 분리될 수 있다. 
한편, 상기 네비게이션 시스템(navigation system)을 이용하여 로봇 자신의 위치를 파악하는 방법은 Sebastian Thrun의 'Robotic Mapping: A Survey' 논문을 참조할 수 있다.
로봇이 사운드 맵(sound map)을 작성하기 위해서는 고정 음원이 필요하다. 따라서, 로봇이 자신의 위치를 파악한 후 또는 그 이전에 고정 음원으로부터 시변 잡음(non-stationary noise)이 지속적으로 발생되는 환경을 구축한다.
한편, 로봇은 전역 맵(global map)에 있는 각각의 셀(cell)을 차례로 이동하면서 각각의 셀(cell)에 대한 공간 스펙트럼(spatial spectrum)을 연산하게 된다(S114). 공간 스펙트럼(spatial spectrum)은 로봇을 중심으로 모든 방향에 대하여 수신된 사운드 신호의 세기를 스펙트럼(spectrum)의 형태로 표시한 것을 말한다. 따라서, 공간 스펙트럼(spatial spectrum)을 이용하면 로봇의 현재 위치에서 음원의 방향을 찾을 수 있는 것이다. 이 때, 공간 스펙트럼(spatial spectrum)을 연산하는 방법은 바람직하게는 MUSIC(MUltiple SIgnal Classification) 알고리즘을 이용할 수 있으나, 이 외에도 ESPRIT 알고리즘, 시간 지연 추정(time-delay estimation)에 기반한 알고리즘, beam-forming에 기반한 알고리즘 등을 이용할 수도 있다. 이러한 알고리즘들은 당업자에게는 잘 알려져 있다.
로봇이 특정한 셀(cell)에서의 공간 스펙트럼을 획득하면, 로컬 좌표와 글로벌 좌표 사이의 좌표 변환을 수행한다(S116). 상기 공간 스펙트럼(spatial spectrum)은 로컬 좌표를 기준으로 하여 고정 음원의 방향을 추정하는 것이므로 사운드 맵(sound map) 정보를 이용하여 고정 음원의 방향을 추정하기 위해서는 로컬 좌표에서 전역 좌표로의 좌표 변환을 수행할 필요가 있는 것이다.
도 3은 본 발명의 실시예에 따라 로봇의 로컬 좌표와 로봇이 속한 평면의 전역 좌표간의 관계를 나타내는 예시도이다.
도 3에서 전역 좌표는 '{G}'로써 나타내고 점선으로 표시되고 있고, 로컬 좌표는 '{L}'로써 나타내고 실선으로 표시되고 있다. 로컬 좌표에서 로봇이 향하는 방향은 'H'로 나타내고 있다.
따라서, 스피커로 표시되는 고정 음원의 방향은 전역 좌표에서 볼 때에는 XG축을 기준으로 θ{G}가 되고, 로컬 좌표에서 볼 때에는 XL축을 기준으로 θ {L}이 된다.
한편, 로컬 좌표에서 전역 좌표로의 좌표 변환은 [수학식 1]에 의해 계산될 수 있다.
Figure 112004028137111-pat00001
여기에서, PG는 전역 좌표에서의 로봇의 위치를 나타내고, θ는 좌표축과 로컬 좌표축 사이의 각도를 나타낸다. 그리고, P는 전역 좌표의 원점을 기준으로 로컬 좌표의 원점의 위치를 나타낸다.
이렇게 변환된 고정 음원의 좌표를 이용하여 고정 음원의 방향이 전역 맵(global map)에 표시된다(S118)
그리고 나서, 로봇은 공간 스펙트럼(spatial spectrum)을 연산하지 않은 다른 셀(cell)로 이동하여 상기 S112, S114, S116 및 S118의 단계를 반복한다. 만일, 전역 맵(global map) 상에 존재하는 기설정된 모든 셀(cell)에서 공간 스펙트럼(spatial spectrum)이 연산되었다면 사운드 맵(sound map)이 완성되고(S122), 완성된 사운드 맵(sound map)에 대한 정보를 이용하여 로봇은 고 정 음원의 위치를 추정하게 된다(S130).
도 4 내지 도 6은 본 발명의 실시예에 따라 고정 음원에 대한 공간 스펙트럼(spatial spectrum)이 표시된 사운드 맵(sound map)을 나타내는 예시도이다.
도 4에서는 2개의 스피커를 고정 음원으로 하고, 도 5에서는 TV를 고정 음원으로 하고, 도 6에서는 2개의 스피커와 TV를 고정 음원으로 하고 있다.
다만, 도 4내지 도 6에서 도시된 공간 스펙트럼(spatial spectrum)은 로컬 좌표를 기준으로 나타내고 있다. 이 때, 공간 스펙트럼(spatial spectrum) 연산시, 파라미터(parameter)로서 검출가능한 최적화된 고정 음원의 개수(이하, 'Ns'로 나타내기로 한다)는 3이라고 하였는데, 이것은 일정한 공간 내에서 특정한 시간에 존재하는 음원의 개수는 일반적으로 3개 정도임을 가정한 것이다.
한편, 또다른 실시예로서 로봇이 고정 음원의 위치를 추정하기 위하여 특정한 셀(cell)마다 공간 스펙트럼(spatial spectrum)을 연산하는 것이 아니라, 자유롭게 이동하면서 공간 스펙트럼(spatial spectrum)을 연산하는 경우에는 특정한 위치에서 중복하여 공간 스펙트럼(spatial spectrum)이 연산될 수도 있다. 이러한 경우에는 중복하여 연산된 공간 스펙트럼(spatial spectrum)의 평균을 취할 수 있다.
도 7은 본 발명의 실시예에 따라 고정 음원의 위치를 추정하는 방법을 나타내는 플로우차트로서, 작성된 사운드 맵(sound map)에 관한 정보를 이용하여 고정 음원의 위치를 추정하는 방법을 나타내고 있다.
우선 로봇은 소프트웨어적으로 Np개의 개체를 생성하고(S132), 생성된 개체들을 사운드 맵(sound map)에 도시된 임의의 셀(cell)들에 위치시킨다(S134). 예컨대, 5개의 개체를 생성하면 임의로 선정된 5개의 셀(cell)에 각각 1개의 개체씩 위치시키는 것이다. 이 때, 개체는 소프트웨어적으로 셀(cell)의 위치를 나타내는 변수(variable)라고 볼 수 있다.
한편, 'Itr' 변수는 인덱스 변수로서 사운드 맵(sound map)상에 존재하는 모든 개체가 1회 이동하는 주기를 나타낸다. 'Itr' 변수의 초기값은 0으로 설정된다(S136).
S138 단계 내지 S142 단계는 고정 음원의 방향으로 1개의 개체가 이동하는 방법을 나타내고 있으나, 다른 (Np-1)개의 개체에 대해서도 동일하게 적용된다.
구체적으로 살펴보면, 현재 위치한 셀(cell)에서의 공간 스펙트럼에서 Nd개의 피크(peak)를 선정한다(S138). 고정 음원의 개수가 1개일 경우에는 1개의 피크만 생성이 되겠지만, 고정 음원의 개수가 여러 개일 경우에는 고정 음원의 개수만큼의 피크가 생길 수 있는 것이다.
그리고 나서, 현재 위치에서의 개체를 피크의 크기에 따라 하위 개체로 나눈다(S140). 예컨대, 현재 1개의 개체가 임의의 셀(cell)에 위치하고 있고, 상기 셀(cell)에서의 공간 스펙트럼(spatial spectrum)이 1개의 피크를 나타내고 있는 경우에는 하위 개체를 생성하지 않지만, 유사한 크기의 2개의 피크를 나타내고 있는 경우에는 1개의 개체는 2개의 하위 개체로 나누어지게 된다. 즉, 1개의 개체로 부터 2개의 개체가 생성되는 것이다. 또한, 서로 다른 크기의 피크가 나타나는 경우에는 그 크기의 비율로 하위 개체를 생성할 수 있는데, 이러한 규칙은 로봇을 설계하는 설계자에 의해 기설정될 수 있다.
이러한 방법으로 생성된 하위 개체들은 Nd개의 피크 방향에 있는 가장 가까운 이웃 셀(cell)로 이동하게 된다(S142).
S138 단계 내지 S142 단계와 같은 방법으로 모든 개체가 1회 이동하면, 'Itr' 변수의 값과 사운드 맵(sound map)상에 존재하는 모든 개체가 1회 이동하는 주기의 최대값을 나타내는 'Titr'변수의 값과 비교한다(S144). 이 때, 'Titr'변수의 값은 기설정된다.
만일, 'Itr' 변수의 값이 'Titr'변수의 값보다 작은 경우에는, 각각의 개체들은 더 이동할 수 있으므로 'Itr' 변수의 값을 1증가시키고(S146), S138 단계 내지 S142 단계를 반복하여 수행한다.
그러나, 만일, 'Itr' 변수의 값이 'Titr'변수의 값보다 작지 않은 경우에는, 개체들의 이동은 중단되고, 현재 사운드 맵(sound map)의 각 셀(cell)에 위치한 개체들을 일정한 규칙에 따라 그룹핑한다(S148). 이 때, 그룹핑하는 방법은 각각의 셀(cell)에 포함된 개체들을 하나의 그룹으로 하거나, 개체들간의 거리가 일정 범위 내에 속하는 개체들끼리 하나의 그룹으로 할 수 있다.
이 때, 만일 그룹핑된 개체들이 사운드 맵(sound map)상의 일정한 지점에 집중되어 있는지를 살펴보고(S150), 만일 그러한 경우에는 집중된 지점에 고정 음원 이 있는 것으로 보아 고정 음원의 위치를 추정하게 된다(S154).
그러나, 만일 그룹핑된 개체들이 일정한 지점에 집중되어 있지 않은 경우에는 상기 'Itr' 변수의 값을 0으로 초기화시키고(S152), 상기 S138 단계를 수행한다.
도 8은 본 발명의 또다른 실시예에 따라 고정 음원의 위치를 추정하는 방법을 나타내는 그래프이다.
우선, 고정 음원이 발생시키는 사운드(sound)의 크기가 크면 클수록 큰 포텐셜(potential)을 갖는 가상의 포텔셜 함수가 전역 맵(global map)에 존재한다고 가정한다.
이 때, 사운드 맵(sound map)에 배치된 공간 스펙트럼(spatial spectrum)의 피크를 나타내는 방향 벡터들이 상기 포텐셜 함수의 기울기(gradient) 정보를 나타낸다고 하면, 기울기 증가(gradient ascent) 방법으로 상기 포텐셜 함수의 최대값을 모두 찾을 수 있다. 이렇게 찾은 최대값의 위치가 고정 음원의 위치가 된다.
도 9는 본 발명의 실시예에 따른 사운드 맵(sound map)을 이용하여 순간적인 잡음이 발생한 환경에서도 고정 음원의 위치를 추정하는 것을 나타내는 예시도이다.
예컨대, 로봇이 920으로 표시된 셀(cell)에 위치하고 있고, 사람 또는 기타 작용에 의해 문(door)(950)의 여닫는 소리가 발생하는 경우에, 이러한 소리도 시변 잡음(non-stationary noise)에 해당한다. 따라서, 상기 셀(920)에서는 문(door)(950)이 위치한 방향으로 강한 공간 스펙트럼(spatial spectrum)이 발생하 게 되어 마치 문(door)(950)이 위치한 방향에 고정 음원이 존재하는 것처럼 보일 수도 있다. 그러나, 고정 음원의 위치를 결정하기 위해 925으로 표시된 셀(cell)로 상기 도 7에서와 같은 방법으로 개체 이동을 시키면, 상기 셀(cell)(925)에서는 더 이상 문(door)(950)이 위치한 방향으로의 공간 스펙트럼(spatial spectrum)은 존재하지 않으므로 순간적인 잡음이 발생하더라도 고정 음원의 위치에 대한 추정에는 영향을 주지 않게 된다.
한편, 본 발명의 실시예에서는 공간 스펙트럼(spatial spectrum) 연산시, 검출가능한 최적화된 고정 음원의 개수를 나타내는 Ns 값을 3이라고 하였으나, 고정 음원의 개수가 증가되더라도 사운드 맵(sound map)을 이용하면 각각의 고정 음원에 대한 위치를 추정할 수 있다.
도 10은 본 발명의 실시예에 따른 화자의 위치를 추정하기 위한 실험 환경을 나타내는 예시도이다.
여기에서, 시변 잡음(non-stationary noise)을 발생시키는 고정 음원으로서 제1 스피커(1020) 및 제2 스피커(1022)를 예로 하고 있다.
화자의 위치를 추정하는 로봇(1010)은 제1 스피커(1020)로부터 2.5m 떨어진 거리에 위치하고 있다. 그리고, 음성 신호를 발생시키는 화자는 도 10에서 도시한 제1 발성 위치 내지 제5 발성 위치에 차례로 위치하면서 음성 신호를 발생시킨다. 이 때, 로봇(1010)과 제1 발성위치를 연결하는 기준선(1030)을 기준으로 반시계방향으로 각도가 증가하게 되며, 각각의 발성 위치는 45도 간격으로 위치하고 있다.
도 11은 본 발명의 실시예에 따른 시변 잡음(non-stationary noise)의 파형 을 나타내는 예시도이다.
도 11에서 도시된 파형은 도 10에서 도시한 스피커(1020)로부터 발생되는 서로 다른 종류의 사운드로서, 이하에서는 설명의 편의를 위하여 'Canon variations'를 '제1 잡음', 'Dancing queen'을 '제2 잡음', 'Fall in love'를 '제3 잡음', 'Mullet'을 '제4 잡음'이라고 칭하기로 한다.
도 12는 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제1 실험 결과 데이터로서, 상기 제1 잡음이 발생한 경우에 화자의 위치를 추정한 실험 결과이다.
도 12에서 왼편에 도시된 윈도우(1210)는 상기 제1 잡음이 발생하고 있는 환경에서 로봇이 본 발명의 실시에 따른 사운드 맵(sound map)을 작성한 후, 화자가 도 10에 도시된 각각의 발성 위치에서 음성 신호를 발생시켰을 때, MUSIC알고리즘을 이용하여 공간-시간 영역(spatio-temporal domain)에서의 공간 스펙트럼(spatial spectrum)을 나타내고 있다.
상기 윈도우(1210)의 우측에 있는 윈도우(1240)는 본 발명의 실시에 따른 사운드 맵(sound map)을 작성한 후, 화자가 도 10에 도시된 각각의 발성 위치에서 음성 신호를 발생시켰을 때, 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)을 이용하여 공간-시간 영역(spatio-temporal domain)에서의 공간 스펙트럼(spatial spectrum)을 나타내고 있다. 이 때, 스펙트럼 차분 방식에 의한 MUSIC알고리즘은 잡음이 있는 환경에서 음성 신호가 감지될 때, 상기 음성 신호를 포함하는 공간 스펙트럼 정보에서 기저장된 잡음 스펙트럼 정보를 뺀 스펙트 럼 정보를 이용하여 음성 신호를 검출하는 방식이다. 여기에서 기저장된 잡음 스펙트럼 정보는 본 발명의 실시예에 따른 사운드 맵(sound map)를 이용할 수 있다.
한편, 상기 윈도우들(1210, 1240)의 하단에 있는 이미지 처리 영상(1220, 1250)은 각각 윈도우 1210 및 1240에 도시된 공간 스펙트럼(spatial spectrum)을 그레이-스케일(gray-scale)로 영상화시킨 것으로서, 이하에서는 이와 같이 공간 스펙트럼(spatial spectrum)을 그레이-스케일(gray-scale)로 이미지 처리한 영상을 '제1 영상'이라고 칭하기로 한다. 한편, 제1 영상의 가로축은 시간축을 나타내고, 세로축은 로봇(1010)을 기준으로 하는 방향 각도를 나타낸다.
제1 영상들(1220, 1250)의 하단에 있는 영상들(1230, 1260)은 각각 제1 영상(1220, 1250)을 이진화하여 음성이 존재하는 방향을 추정하는 영상들로서, 이하에서는 '제2 영상'이라고 칭하기로 한다.
이 때, 상기 제2 영상들(1230, 1260)을 비교해 보면 왼쪽에 위치한 제2 영상(1230)에는 음성이 존재하지 않는 시간 또는 방향에서 음성이 존재하고 있음을 나타내고 있는 블럽(blob)(1280)이 나타나고 있다. 그러나, 오른쪽에 위치한 제2 영상(1260)에는 음성이 존재하는 시간 또는 방향 이외의 구간에서 어떠한 블럽(blob)도 발견되지 않는다. 즉, 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)을 이용하여 공간 스펙트럼(spatial spectrum)을 얻고, 상기 공간 스펙트럼(spatial spectrum)으로부터 이미지 처리 영상을 얻는 경우에는 음성이 존재하는 방향을 좀더 정확하게 감지할 수 있는 것이다. 한편, 제1 영상(1250)을 이용하여 제2 영상(1260)을 얻는 과정 을 도 13에서 도시하고 있다.
우선 도 12에 도시된 윈도우(1240)의 공간 스펙트럼(spatial spectrum)을 사운드 신호의 크기에 대응하는 그레이-스케일(gray-scale)로 변환하여 2차원 평면 공간상에 영상화한다(S1310). 이 때, 상기 2차원 평면 공간은 가로축을 시간축으로, 세로축을 로봇을 중심으로 하는 방향축으로 한다. 따라서, 명도를 나타내는 정보를 1바이트로 하는 경우, 모두 256개의 그레이-스케일(gray-scale)로 변환할 수 있고, 사운드의 크기가 가장 큰 경우에는 그 값이 255가 되며 영상화된 이미지에서는 하얀색으로 나타난다. 도 14의 S1410에서 보여지는 영상은 그 결과를 나타내고 있다.
그리고 나서, 영상화된 그레이-스케일(gray-scale) 이미지는 반전이 되는데(S1320), 도 14의 S1420에서 보여지는 영상은 그 결과를 나타내고 있다.
영상을 반전하는 방법으로서, 2차원 평면 공간 상에 위치한 (x, y)에서의 명도를 I(x, y)라고 할 때, 반전된 영상 I'(x, y)은 [수학식 2]에 의해 얻을 수 있다.
Figure 112004028137111-pat00002
한편, 반전된 영상의 흑백을 강조하기 위하여 명도(intensity)을 조정하는 단계를 거치게 된다(S1330). 이를 위하여 반전된 영상의 가장자리에 위치한 픽셀(pixel)들의 명도 평균값(avg)을 구하고, 영상 픽셀의 최대값(max)과 최소값(min)을 구한다. 그리고 나서, 만일 명도 평균값(avg)이 영상 픽셀의 최소값(min)보다 큰 경우에는 [수학식 3]에 따르고, 그렇지 않은 경우에는 [수학식 4]를 따르게 된다. 이러한 방법으로 반전된 영상의 흑백을 강조할 수 있다. 도 14의 S1430에서 보여지는 영상은 그 결과를 나타내고 있다.
Figure 112004028137111-pat00003
Figure 112004028137111-pat00004
도 13에서 도시한 S1330 단계까지는 사운드 신호의 크기가 그레이-스케일(gray-scale)로 나타나고 있는데, S1340 단계에서는 영상 이진화가 수행된다(S1340). 즉, 영상에 나타난 모든 픽셀(pixel)들을 기설정된 문턱값(threshold-value)을 기준으로 하여 흑(black) 또는 백(white)으로만 나타내는 것이다.
예컨대, I'(x, y)가 문턱값(threshold-value)보다 큰 경우에는 I'(x, y) = 255, 그렇지 않은 경우에는 I'(x, y) = 0로 설정하는 것이다. 이 때, 문턱값(threshold-value)은 Otsu 방법에 의해 구해진 값보다 10만큼 작은 값으로 할 수 있다. Otsu 방법은 Otsu에 의해 제안된 'A thresholding selection method from gray-level histogram(IEEE Transactions on Systems, Man, and Cybernetics9(1):62-66)'에 구체적으로 기술되어 있다. 도 14의 S1440에서 보여지는 영상은 영상 이진화에 따른 결과를 나타내고 있다.
영상 이진화에 의해 제1 영상(1250)에 있는 모든 픽셀(pixel)들이 흑 또는 백의 값을 갖게 되면 블럽(blob)을 감지하는데(S1350), 도 15는 본 발명의 실시예에 따라 블럽(blob)을 감지하는 방법을 나타내는 예시도이다.
본 발명에 실시예에 있어서 블럽(blob)은 음성이 존재하고 있음을 나타내고 있는 표지로서 검은 색으로 나타내고 있다.
사운드 신호는 시간에 따라 연속적으로 입력되고, 가장 최근에 입력된 일정 시간 T 동안의 사운드 신호는 도 12 및 도 15에서 도시된 윈도우(1270)에 의해 나타낼 수 있다.
명도 조정을 보다 효과적으로 하기 위하여 하나의 윈도우는 256개의 그레이-스케일 레벨(gray-scale level)보다 많은 수의 픽셀(pixel)을 포함하는 것이 바람직하며, 빠르게 변화하는 환경에 대응하기 위해서는 짧은 시간이 바람직하다. 본 발명의 실시예에서 T는 5초로 하였다.
본 발명의 실시예에서는 윈도우(1270) 내에서 검은색을 갖는 픽셀(pixel)의 수가 일정 수 이상일 경우에 블럽(blob)으로 간주한다.
도 16은 본 발명의 실시예에 따라 블럽(blob)을 감지하는 방법을 수행하기 위한 소스 프로그램을 나타내는 예시도이다.
1라인에서는 시간 T 동안에 입력된 사운드 신호에 대한 윈도우 내에 있는 영 상의 각각의 픽셀(pixel)값을 나타내는 변수를 선언하고 있다.
2라인에서는 360도 방향에 대하여 블럽(blob)을 감지한 결과를 나타내는 변수를 선언하고 있다.
3라인에서는 인덱스 변수들을 선언하고 있으며, 4라인에서는 문턱값을 4로 선언하고 있는데, 검은색을 갖는 픽셀(pixel)의 개수가 4이상이면 블럽(blob)으로 간주하게 된다.
8라인 내지 24라인에서는 시간 T 동안에 'dir' 변수에 의해 정해지는 특정한 방향에 대하여 블럽(blob)이 존재하는지 여부를 연산하고 있다.
즉, 8라인에서는 검은 색을 갖는 픽셀(pixel)의 개수를 적산하는 변수 'detect_count' 를 선언하고 있고, 이 때 초기값을 0으로 설정하고 있다.
10라인 내지 16라인에서는 특정한 픽셀(pixel)이 검은 색의 픽셀(pixel)일 경우 detect_count 변수를 1만큼 증가시키고 있다. 이 때, 검은 색의 픽셀(pixel)인지 여부는, 픽셀(pixel) 값을 1바이트로 나타내는 경우 픽셀(pixel)값이 128보다 작은 경우에 검은 색의 픽셀(pixel)로 간주한다.
17라인 내지 24라인에서는 detect_count 변수가 문턱값을 나타내는 변수 'threshold'의 값보다 큰 경우에는 해당하는 'dir' 방향에 블럽(blob)이 존재하는 것으로 본다.
한편, 제1 영상(1250)에서 블럽(blob)을 감지한 후, 감지된 블럽(blob)의 위치를 출력하게 되는데, 제2 영상(1260)에서 그 결과를 보여주고 있다(S1360).
도 17은 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나 타내는 제2 실험 결과 데이터로서, 상기 제2 잡음이 발생한 경우에 화자의 위치를 추정한 실험 결과이다.
도 17에서의 제2 영상들(1730, 1760)들을 비교해 보면 왼쪽에 위치한 제2 영상(1730)의 경우에는 시변 잡음(non-stationary noise)이 발생되고 있는 방향에 블럽(blob)(1770)이 형성되고 있는 것을 알 수 있다. 그러나, 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)을 사용하고 있는 제2 영상(1760)에는 정상적으로 블럽(blob)이 형성되고 있다.
도 18은 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제3 실험 결과 데이터로서, 상기 제3 잡음이 발생한 경우에 화자의 위치를 추정한 실험 결과이다.
도 18에서의 제2 영상들(1830, 1860)들을 비교해 보면 왼쪽에 위치한 제2 영상(1830)의 경우에는 시변 잡음(non-stationary noise)이 발생되고 있는 방향에 블럽(blob)(1880)이 형성되고, 또한 음성 신호가 존재하는 방향에 블럽(blob)(1870)이 형성되지 않는 것을 알 수 있다. 그러나, 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)을 사용하고 있는 제2 영상(1860)에는 정상적으로 블럽(blob)이 형성되고 있다.
도 19는 본 발명의 실시예에 따른 시변 잡음에 대한 화자의 위치 추정을 나타내는 제4 실험 결과 데이터로서, 상기 제4잡음이 발생한 경우에 화자의 위치를 추정한 실험 결과이다.
도 19에서의 제2 영상들(1930, 1960)들을 비교해 보면 왼쪽에 위치한 제2 영 상(1930)의 경우에는 시변 잡음(non-stationary noise)이 발생되고 있는 방향에 블럽(blob)(1980)이 형성되고, 또한 음성 신호가 존재하는 방향에 블럽(blob)(1970)이 형성되지 않는 것을 알 수 있다. 그러나, 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)을 사용하고 있는 제2 영상(1960)에는 정상적으로 블럽(blob)이 형성되고 있다.
도 12 및 도 17 내지 도 19에서 도시한 실험 결과에 따른 화자 방향 추정에 대한 에러는 [표 1]과 같다. 이 때 단위는 '도'이다.
Figure 112004028137111-pat00005
도 20은 본 발명의 실시예에 따른 화자의 위치를 추정하는 방법을 나타내는 플로우차트이다.
본 발명의 실시예에 따른 사운드 맵(sound map)에 대한 정보를 갖고 있는 로봇이 자신에게 장착된 마이크로폰 어레이로부터 음성 신호를 입력받는다(S2010). 그리고 나서, 가정된 음원 수 Ns와 비교하기 위한 인덱스 변수 'count'의 초기값을 0으로 설정한 후(S2020), MUSIC알고리즘을 수행한다(S2030). 이 때에는 스펙트럼 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction) 방식을 사용하며, 상기 입력된 음성 신호를 포함하는 공간 스펙트럼 정보에서 기저장된 사운드 맵(sound map)에 대한 정보를 뺀 스펙트럼 정보를 이용하여 음성 신호를 검출하게 된다.
MUSIC알고리즘 수행을 마치게 되면, count 변수 값을 Ns값과 비교한다. 즉, MUSIC알고리즘을 수행하게 되면 여러 방향으로 공간 스펙트럼(spatial spectrum)의 피크(peak)가 형성될 수 있는데, 이 때, Ns값의 범위 내에서 음성 신호의 방향을 찾게 된다.
따라서, 만일 count 변수 값이 Ns값보다 작지 않은 경우에는 count 변수 값을 다시 0으로 설정하고 MUSIC알고리즘을 수행하게 된다(S2040, S2020, S2030).
그러나, 만일 count 변수 값이 Ns값보다 작은 경우에는, 공간 스펙트럼(spatial spectrum)에 형성된 피크(peak)중 가장 큰 피크(peak)를 형성하고 있는 방향으로 카메라 모터를 이용하여 카메라를 회전시킨다(S2050). 이 때, 카메라의 화면을 통해 화자가 감지되면 화자 방향 추정 과정은 종료하게 된다. 이 때, 화자를 감지하고 인식하는 방법은 ⅰ) Pedestrian detection using wavelet templates(Oren, M.;Papageorgiou, C.; Shnha, P.; Osuna, E.; Poggio, T; IEEE International Conference on Computer Vision and Pattern Recognition, 1997), ⅱ) Human detection using geometrical pixel value structures(Utsumi, A.; Tetsutani, N.; IEEE International Conference on Automatic Face and Gesture Recognition, 2002), ⅲ) Detecting Pedestrians Using Patterns of Motion and Appearance(Viola P; Jones M.J.;Snow D.; IEEE International Conference on Computer Vision, 2003), ⅳ) Rapid Object Detection Using a Boosted Cascade of Simple Features(Viola P.; Jones M. J.; IEEE International Conference on Computer Vision and Pattern Recognition, 2001)에 의해 구체적으로 기술되어 있다.
그러나, 만일 화자가 감지되지 않는 경우에는 화자가 고정 음원 방향에 있을 수도 있기 때문에 고정 음원 방향을 포함하는 방향중 큰 피크(peak) 값을 갖는 방향 순으로 카메라 방향을 제어하여 화자의 방향을 검출한다. 이 때, count 변수 값은 1증가한다(S2070).
도 21은 본 발명의 실시예에 따른 화자의 위치를 추정하는 로봇의 블록도로서, 상기 로봇은 로봇 자신의 이동 및 위치를 연산하고 조정하는 네비게이션 시스템(2150)과, 화자 위치를 추정하는 시스템(2110)과 카메라와 같은 영상 입력 장치가 내장된 비전 시스템(2160)을 포함한다.
또한, 화자 위치 추정 시스템(2110)은 외부로부터 사운드 신호를 수신하는 신호 입력 모듈(2135)과, 상기 신호 입력 모듈에 의해 수신된 적어도 1이상의 고정 음원으로부터 발생된 사운드 신호에 대한 공간 스펙트럼(spatial spectrum)이 배치 된 사운드 맵(sound map)을 작성하고, 상기 사운드 맵(sound map)으로부터 상기 고정 음원의 위치를 추정하는 초기화 모듈(2125)과, 상기 추정된 고정 음원의 위치에 대한 정보를 저장하는 저장 모듈(2130)과, 상기 신호 입력 모듈에 의해 수신된 음성 신호가 포함된 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 상기 음성 신호가 발생된 위치를 추정하는 화자 위치 추정 모듈(2120)을 포함한다.
초기화 모듈(2125)은 네비게이션 시스템(2150)으로부터 로봇의 이동 및 위치에 관한 정보를 수신하고, 수신한 정보를 이용하여 도 2 내지 도 8에서 설명한 방법에 따라 사운드 맵(sound map)을 작성한다. 그리고 나서, 작성된 사운드 맵(sound map)으로부터 고정 음원의 위치를 추정한다. 상기 사운드 맵(sound map)에 관한 정보 및 추정된 고정 음원의 위치에 대한 정보는 저장 모듈(2130)에 저장된다.
신호 입력 모듈(2135)로부터 음성 신호가 수신되면, 제어 모듈(2115)은 화자 위치 추정 모듈(2120)로 하여금 수신된 음성 신호의 방향을 추정하도록 한다. 이 때, 화자 위치 추정 모듈(2120)은 저장 모듈(2130)에 저장된 사운드 맵(sound map)에 관한 정보 및 추정된 고정 음원의 위치에 대한 정보를 이용하여 도 12 내지 도 20에서 설명한 방법에 따라 음성 신호를 발생시킨 화자의 방향을 추정하게 된다. 이 때, 비전 시스템(2160)은 제어 모듈(2115)의 명령에 따라 음성 신호가 발생한 방향으로 로봇에 장착된 카메라를 회전하게 함으로써 음성 신호가 발생한 방향에 화자가 위치하고 있는지 여부를 확인하게 된다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정하는 것은 아니다.
본 발명의 실시예에 따라 시변 잡음(non-stationary nosie) 환경에서도 로봇의 현재 위치에서 음성 신호를 발생시킨 화자의 방향을 추정할 수 있는 효과가 있다.

Claims (25)

  1. 외부로부터 사운드 신호를 수신하는 신호 입력 모듈;
    상기 신호 입력 모듈에 의해 수신된 적어도 1이상의 고정 음원으로부터 발생된 사운드 신호에 대한 공간 스펙트럼(spatial spectrum)이 배치된 사운드 맵(sound map)을 작성하고, 상기 사운드 맵(sound map)으로부터 상기 고정 음원의 위치를 추정하는 초기화 모듈;
    상기 추정된 고정 음원의 위치에 대한 정보를 저장하는 저장 모듈; 및
    상기 신호 입력 모듈에 의해 수신된 음성 신호가 포함된 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 상기 음성 신호가 발생된 위치를 추정하는 화자 위치 추정 모듈을 포함하며,
    상기 사운드 맵은 다수의 영역으로 분할된 공간으로 표현되고, 상기 분할된 적어도 2이상의 영역은 각각의 상기 공간 스펙트럼 정보를 포함하는 시변 잡음(non-stationary noise) 환경에서의 화자 위치 추정 시스템.
  2. 제1항에 있어서,
    상기 신호 입력 모듈은 적어도 2이상의 마이크로폰으로 구성된 마이크로폰 어레이를 포함하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
  3. 제1항에 있어서,
    상기 공간 스펙트럼은 방향에 따른 사운드 신호의 크기에 대한 정보를 포함하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
  4. 제1항에 있어서,
    상기 사운드 맵은 상기 고정 음원을 포함하는 2차원 평면 공간에서, 상기 고정 음원으로부터 발생된 사운드 신호를 MUSIC(Multiple Signal Classification) 알고리즘에 의한 공간 스펙트럼으로 나타낸 정보를 포함하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
  5. 제1항에 있어서,
    상기 사운드 맵은 다수의 영역으로 분할된 2차원 평면 공간으로 표현되는 시변 잡음 환경에서의 화자 위치 추정 시스템.
  6. 제1항에 있어서,
    상기 초기화 모듈은 작성된 사운드 맵(sound map) 내의 적어도 2이상의 서로 다른 위치로부터 시작하여 상기 위치를 포함하는 영역에서의 공간 스펙트럼 상에서 상기 사운드 신호의 크기가 크게 나타나는 방향으로 각각의 궤적을 형성하고, 상기 각각의 궤적이 상기 사운드 맵의 임의의 영역 내로 수렴하는 경우 상기 수렴하는 영역을 상기 고정 음원의 위치로 추정하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
  7. 제1항에 있어서,
    상기 초기화 모듈은 상기 고정 음원에서 발생된 사운드 신호의 크기에 비례하여 설정된 포텐셜 함수의 최대값을 고정 음원의 위치로 추정하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
  8. 제1항에 있어서,
    화자 위치 추정 모듈은 상기 신호 입력 모듈에 의해 수신된 음성 신호가 포함된 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)에 의한 공간 스펙트럼(spatial spectrum)을 얻고, 상기 차분 방식에 의한 MUSIC알고리즘에 의한 공간 스펙트럼에 대응하는 그레이-스케일(gray-scale)의 이미지 영상을 이미지 처리하여 상기 음성 신호가 발생된 위치를 추정하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
  9. 제8항에 있어서,
    상기 화자 위치 추정 모듈은 상기 그레이-스케일(gray-scale)의 이미지 영상을 이진화하고, 이진화된 이미지 영상을 구성하는 연속된 픽셀들의 패턴에 따라 상기 음성 신호가 발생된 위치를 추정하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
  10. 제9항에 있어서,
    상기 이진화된 이미지 영상은 명도가 조정된 이미지 영상인 시변 잡음 환경에서의 화자 위치 추정 시스템.
  11. 제9항에 있어서,
    상기 이진화된 이미지 영상은 문턱값(threshold-value)을 기준으로 하여 상기 그레이-스케일(gray-scale)의 이미지 영상을 구성하는 픽셀들의 값을 흑(black) 또는 백(white)에 해당하는 값으로 이진화하여 생성하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
  12. 제11항에 있어서,
    상기 문턱값은 Otsu 방법에 의해 계산된 문턱값인 시변 잡음 환경에서의 화자 위치 추정 시스템.
  13. 제9항에 있어서,
    상기 화자 위치 추정 모듈은 상기 이진화된 이미지 영상을 구성하는 동일한 픽셀값을 갖는 연속된 픽셀들의 개수가 기설정된 개수 이상일 경우에, 상기 픽셀들이 위치한 방향을 상기 음성 신호가 발생한 방향으로 추정하는 시변 잡음 환경에서의 화자 위치 추정 시스템.
  14. 적어도 1이상의 고정 음원으로부터 발생된 사운드 신호에 대한 공간 스펙트럼(spatial spectrum)이 배치된 사운드 맵(sound map)을 작성하는 (a) 단계;
    상기 사운드 맵(sound map)으로부터 상기 고정 음원의 위치를 추정하는 (b) 단계;
    상기 추정된 고정 음원의 위치에 대한 정보를 저장하는 (c) 단계; 및
    음성 신호가 감지되는 경우 상기 음성 신호를 포함하는 사운드 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 상기 음성 신호가 발생된 위치를 추정하는 (d) 단계를 포함하며,
    상기 사운드 맵은 다수의 영역으로 분할된 공간으로 표현되고, 상기 분할된 적어도 2이상의 영역은 각각의 상기 공간 스펙트럼 정보를 포함하는 시변 잡음(non-stationary noise) 환경에서의 화자 위치 추정 방법.
  15. 제14항에 있어서,
    상기 공간 스펙트럼은 방향에 따른 상기 사운드 신호의 크기에 대한 정보를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
  16. 제14항에 있어서,
    상기 사운드 맵은 상기 고정 음원을 포함하는 2차원 평면 공간에서, 상기 고정 음원으로부터 발생된 사운드 신호를 MUSIC(Multiple Signal Classification) 알고리즘에 의한 공간 스펙트럼으로 나타낸 정보를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
  17. 제14항에 있어서,
    상기 사운드 맵은 다수의 영역으로 분할된 2차원 평면 공간으로 표현되는 시변 잡음 환경에서의 화자 위치 추정 방법.
  18. 제14항에 있어서,
    상기 (b) 단계는 상기 사운드 맵(sound map) 내의 적어도 2이상의 서로 다른 위치로부터 시작하여 상기 위치를 포함하는 영역에서의 공간 스펙트럼 상에서 상기 사운드 신호의 크기가 크게 나타나는 방향으로 각각의 궤적을 형성하는 (b)-1단계;
    상기 각각의 궤적의 종착점(end-point)으로부터 시작하여 상기 (b)-1단계를 반복하는 (b)-2단계; 및
    상기 각각의 궤적이 상기 사운드 맵의 임의의 영역 내로 수렴하는 경우에 상기 수렴하는 영역을 상기 고정 음원의 위치로 추정하는 (b)-3 단계를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
  19. 제14항에 있어서,
    상기 (b) 단계는 상기 고정 음원에서 발생된 사운드 신호의 크기에 비례하는 포텐셜 함수를 설정하는 단계;
    상기 사운드 맵(sound map)에 배치된 공간 스펙트럼 상에서 상기 사운드 신호의 크기가 크게 나타나는 방향으로 각각의 방향 벡터를 형성하는데, 상기 방향 벡터는 상기 포텐셜 함수의 기울기 정보인 것으로 하는 단계;
    상기 방향 벡터를 이용하여 상기 포텐셜 함수의 최대값을 찾는 경우에 상기 최대값에 해당하는 위치를 고정 음원의 위치로 추정하는 단계를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
  20. 제14항에 있어서,
    상기 (d) 단계는 감지된 음성 신호에 대한 공간 스펙트럼에 대한 정보와 상기 추정된 고정 음원의 위치에 대한 정보를 이용하여 차분 방식에 의한 MUSIC알고리즘(MUSIC with Spectral Subtraction)에 의해 공간 스펙트럼(spatial spectrum)을 얻는 (d)-1단계;
    상기 (d)-1단계로부터 얻은 공간 스펙트럼(spatial spectrum)에 대응하는 그레이-스케일(gray-scale)의 이미지 영상을 얻는 (d)-2 단계; 및
    상기 이미지 영상을 이미지 처리하여 상기 음성 신호가 발생된 위치를 추정하는 (d)-3 단계를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
  21. 제20항에 있어서,
    상기 (d)-3 단계는 상기 이미지 영상의 명도를 조정하는 단계;
    명도가 조정된 이미지 영상을 이진화하는 단계; 및
    이진화된 이미지 영상을 구성하는 연속된 픽셀들의 패턴에 따라 상기 음성 신호가 발생된 위치를 추정하는 단계를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
  22. 제21항에 있어서,
    상기 명도가 조정된 이미지 영상을 이진화하는 단계는, 문턱값(threshold-value)을 기준으로 하여 상기 명도가 조정된 이미지 영상을 구성하는 픽셀들의 값을 흑(black) 또는 백(white)에 해당하는 값으로 이진화하는 단계를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
  23. 제21항에 있어서,
    상기 문턱값은 Otsu 방법에 의해 계산된 문턱값인 시변 잡음 환경에서의 화자 위치 추정 방법.
  24. 제21항에 있어서,
    상기 음성 신호가 발생된 위치를 추정하는 단계는, 동일한 픽셀값을 갖는 연속된 픽셀들의 개수가 기설정된 개수 이상일 경우에, 상기 픽셀들이 위치한 방향을 상기 음성 신호가 발생한 방향으로 추정하는 단계를 포함하는 시변 잡음 환경에서의 화자 위치 추정 방법.
  25. 제14항에 있어서,
    상기 음성 신호는 적어도 2이상의 마이크로폰으로 구성된 마이크로폰 어레이 에 의해 수신되는 시변 잡음 환경에서의 화자 위치 추정 방법.
KR1020040048927A 2004-06-28 2004-06-28 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법 KR100586893B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020040048927A KR100586893B1 (ko) 2004-06-28 2004-06-28 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
US11/165,288 US7822213B2 (en) 2004-06-28 2005-06-24 System and method for estimating speaker's location in non-stationary noise environment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040048927A KR100586893B1 (ko) 2004-06-28 2004-06-28 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20060000064A KR20060000064A (ko) 2006-01-06
KR100586893B1 true KR100586893B1 (ko) 2006-06-08

Family

ID=35513960

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040048927A KR100586893B1 (ko) 2004-06-28 2004-06-28 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법

Country Status (2)

Country Link
US (1) US7822213B2 (ko)
KR (1) KR100586893B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020251088A1 (ko) * 2019-06-13 2020-12-17 엘지전자 주식회사 사운드맵 생성방법 및 사운드맵을 이용한 사운드 인식방법

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4675381B2 (ja) * 2005-07-26 2011-04-20 本田技研工業株式会社 音源特性推定装置
US20090182524A1 (en) * 2008-01-11 2009-07-16 Cory James Stephanson System and method of event detection
US8050413B2 (en) * 2008-01-11 2011-11-01 Graffititech, Inc. System and method for conditioning a signal received at a MEMS based acquisition device
US20100283849A1 (en) * 2008-01-11 2010-11-11 Cory James Stephanson System and method of environmental monitoring and event detection
KR101761315B1 (ko) * 2009-11-24 2017-07-25 삼성전자주식회사 이동체 및 그 제어방법
TWI530201B (zh) 2010-12-03 2016-04-11 弗勞恩霍夫爾協會 經由自抵達方向估值提取幾何資訊之聲音擷取技術
US9435873B2 (en) 2011-07-14 2016-09-06 Microsoft Technology Licensing, Llc Sound source localization using phase spectrum
JP5629249B2 (ja) * 2011-08-24 2014-11-19 本田技研工業株式会社 音源定位システム及び音源定位方法
HUP1200197A2 (hu) * 2012-04-03 2013-10-28 Budapesti Mueszaki Es Gazdasagtudomanyi Egyetem Eljárás és elrendezés környezeti zaj valós idejû, forrásszelektív monitorozására és térképezésére
US8676579B2 (en) * 2012-04-30 2014-03-18 Blackberry Limited Dual microphone voice authentication for mobile device
US9020623B2 (en) 2012-06-19 2015-04-28 Sonos, Inc Methods and apparatus to provide an infrared signal
US9232072B2 (en) 2013-03-13 2016-01-05 Google Inc. Participant controlled spatial AEC
JP6114915B2 (ja) * 2013-03-25 2017-04-19 パナソニックIpマネジメント株式会社 音声入力選択装置及び音声入力選択方法
KR101534781B1 (ko) * 2014-01-02 2015-07-08 경상대학교산학협력단 음원 방향 추정 장치
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
US9678707B2 (en) 2015-04-10 2017-06-13 Sonos, Inc. Identification of audio content facilitated by playback device
ES2597155B1 (es) * 2015-06-12 2017-09-18 Eyesynth, S.L. Sistema portátil de interpretación sonora o táctil del entorno para un invidente
CN106405499A (zh) * 2016-09-08 2017-02-15 南京阿凡达机器人科技有限公司 一种机器人定位声源的方法
KR102115222B1 (ko) 2018-01-24 2020-05-27 삼성전자주식회사 사운드를 제어하는 전자 장치 및 그 동작 방법
US11468891B2 (en) * 2018-03-30 2022-10-11 Sony Corporation Information processor, information processing method, and program
CN110161459B (zh) * 2019-05-20 2021-01-26 浙江大学 一种幅度调制声源的快速定位方法
KR20210069462A (ko) * 2019-12-03 2021-06-11 엘지전자 주식회사 로봇을 위한 음원 위치 추정
CN112153538B (zh) * 2020-09-24 2022-02-22 京东方科技集团股份有限公司 显示装置及其全景声实现方法、非易失性存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4995011A (en) * 1989-09-20 1991-02-19 Woods Hole Oceanographic Institute Acoustic mapping system using tomographic reconstruction
US5737431A (en) * 1995-03-07 1998-04-07 Brown University Research Foundation Methods and apparatus for source location estimation from microphone-array time-delay estimates
US6160758A (en) * 1996-06-28 2000-12-12 Scientific Innovations, Inc. Utilization of auto and cross-correlation functions in methods for locating a source of a primary signal and for localizing signals
US6469732B1 (en) * 1998-11-06 2002-10-22 Vtel Corporation Acoustic source location using a microphone array
US6449593B1 (en) * 2000-01-13 2002-09-10 Nokia Mobile Phones Ltd. Method and system for tracking human speakers
JP2002359767A (ja) 2001-05-31 2002-12-13 Tamagawa Seiki Co Ltd 音源追尾型カメラ装置
US7039199B2 (en) * 2002-08-26 2006-05-02 Microsoft Corporation System and process for locating a speaker using 360 degree sound source localization
NO318096B1 (no) * 2003-05-08 2005-01-31 Tandberg Telecom As Arrangement og fremgangsmate for lokalisering av lydkilde
KR100754384B1 (ko) 2003-10-13 2007-08-31 삼성전자주식회사 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020251088A1 (ko) * 2019-06-13 2020-12-17 엘지전자 주식회사 사운드맵 생성방법 및 사운드맵을 이용한 사운드 인식방법

Also Published As

Publication number Publication date
US7822213B2 (en) 2010-10-26
KR20060000064A (ko) 2006-01-06
US20060002566A1 (en) 2006-01-05

Similar Documents

Publication Publication Date Title
KR100586893B1 (ko) 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
US20230418389A1 (en) Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data
Megavannan et al. Human action recognition using depth maps
KR100474848B1 (ko) 영상시각 정보를 결합하여 실시간으로 복수의 얼굴을검출하고 추적하는 얼굴 검출 및 추적 시스템 및 방법
US7308112B2 (en) Sign based human-machine interaction
US7957560B2 (en) Unusual action detector and abnormal action detecting method
CN109074652B (zh) 图像识别装置、移动体装置以及图像识别程序
Ogale A survey of techniques for human detection from video
Sengar et al. Foreground detection via background subtraction and improved three-frame differencing
WO2010042068A1 (en) Method and system for object detection and tracking
Jarraya et al. Deep multi-layer perceptron-based obstacle classification method from partial visual information: application to the assistance of visually impaired people
Tapu et al. Seeing without sight-an automatic cognition system dedicated to blind and visually impaired people
Poularakis et al. Finger detection and hand posture recognition based on depth information
JP2014021602A (ja) 画像処理装置及び画像処理方法
KR101146417B1 (ko) 무인 감시 로봇에서 중요 얼굴 추적 장치 및 방법
US10997828B2 (en) Sound generation based on visual data
Kang et al. Real-time pedestrian detection using support vector machines
Phung et al. A new image feature for fast detection of people in images
Ouellet et al. Multimodal biometric identification system for mobile robots combining human metrology to face recognition and speaker identification
McKeague et al. Hand and body association in crowded environments for human-robot interaction
Sales SLAM and Localization of People with a Mobile Robot using a RGB-D Sensor
WO2023042422A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2016207106A (ja) 物体検出における誤検出低減方法および装置
Gouda et al. Survey on Pedestrian Detection, Classification and Tracking
Manno-Kovacs et al. Lightweight Monocular Obstacle Avoidance by Salient Feature Fusion

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130422

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140424

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150422

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160420

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170418

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20180423

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20190422

Year of fee payment: 14