KR20150114714A - 잡음 환경에서 음원 위치를 추정하는 장치 및 방법 - Google Patents

잡음 환경에서 음원 위치를 추정하는 장치 및 방법 Download PDF

Info

Publication number
KR20150114714A
KR20150114714A KR1020140039227A KR20140039227A KR20150114714A KR 20150114714 A KR20150114714 A KR 20150114714A KR 1020140039227 A KR1020140039227 A KR 1020140039227A KR 20140039227 A KR20140039227 A KR 20140039227A KR 20150114714 A KR20150114714 A KR 20150114714A
Authority
KR
South Korea
Prior art keywords
sound
sound source
noise
voice
signal
Prior art date
Application number
KR1020140039227A
Other languages
English (en)
Other versions
KR101580868B1 (ko
Inventor
최종석
조현기
Original Assignee
한국과학기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원 filed Critical 한국과학기술연구원
Priority to KR1020140039227A priority Critical patent/KR101580868B1/ko
Publication of KR20150114714A publication Critical patent/KR20150114714A/ko
Application granted granted Critical
Publication of KR101580868B1 publication Critical patent/KR101580868B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/86Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for eliminating undesired waves, e.g. disturbing noises

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 명세서에서는 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하여, 전기적인 소리 신호로 변환하는 복수의 마이크로폰, 상기 잡음을 제거하도록 상기 소리 신호를 필터링 하는 잡음 제거부, 필터링된 소리 신호에서 상기 음성을 검출하는 음성 검출부 및 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 음원 위치 추정부를 포함하는 잡음 환경에서 음원 위치를 추정하는 장치 및 추정방법이 개시된다.

Description

잡음 환경에서 음원 위치를 추정하는 장치 및 방법{APPARATUS FOR ESTIMATION OF LOCATION OF SOUND SOURCE IN NOISE ENVIRONMENT}
본 발명은 음원의 위치를 추정하는 장치 및 방법에 관련된 것으로, 더욱 구체적으로는, 잡음 환경에서 음원의 위치를 추정하는 장치 및 방법에 관련된 것이다.
일반적으로 음원 방향검지 기술은 잡음이 없는 환경에서는 성공률이 높지만, 실제로 잡음이 존재하는 경우에는 음원에서 발생된 소리와 잡음이 섞이게 되어, 음원의 위치를 찾은 성공률이 낮은 문제점이 있다.
등록특허 10-1269189
상술한 문제점을 해결하기 위해, 잡음 성분을 제거하고 음원에서 발생된 소리만을 이용하여 음원의 위치를 추정하는 장치 및 방법이 필요하다.
본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치는, 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하여, 전기적인 소리 신호로 변환하는 복수의 마이크로폰, 상기 잡음을 제거하도록 상기 소리 신호를 필터링 하는 잡음 제거부, 필터링된 소리 신호에서 상기 음성을 검출하는 음성 검출부 및 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 음원 위치 추정부를 포함한다.
또한 일 실시예에따른 상기 잡음 환경에서 음원 위치를 추정하는 장치는, 상기 잡음은 청소기의 동작에 의한 소음을 포함하는 것을 특징으로 할 수 있다.
또한 일 실시예에따른 상기 잡음 환경에서 음원 위치를 추정하는 장치에서, 상기 잡음 제거부는, KLT(karhunen-Loeve Transform) 기반 필터를 이용하여 상기 소리 신호를 필터링하는 것을 특징으로 할 수 있다.
또한 일 실시예에따른 상기 잡음 환경에서 음원 위치를 추정하는 장치에서,상기 잡음 제거부는, SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 이용하여, 상기 필터링된 소리 신호를 추가적으로 필터링하는 것을 특징으로 할 수 있다.
또한 일 실시예에따른 상기 잡음 환경에서 음원 위치를 추정하는 장치에서, 상기 음성 검출부는, VAD(Voice Activity Detection)를 통해 상기 소리 신호에서 음성 구간을 검출하고, 상기 음원 위치 추정부는, 각각의 마이크로폰에 수신된 음성의 시간차를 이용하여 음원의 방향을 추정하는 것을 특징으로 할 수 있다.
또한 일 실시예에따른 상기 잡음 환경에서 음원 위치를 추정하는 장치는, 추정된 음원의 방향으로 상기 음원 위치 추정 장치를 이동시키는 구동부를 더 포함하는 것을 특징으로 할 수 있다.
본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법은, 마이크로폰을 통해, 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하는 단계, 마이크로폰을 통해, 수신된 소리를 전기적인 소리 신호로 변환하는 단계, 프로세서에의해, 상기 소리 신호에서 잡음을 제거하도록 상기 소리 신호를 필터링 하는 단계, 프로세서에의해, 필터링된 소리 신호에서 상기 음성을 검출하는 단계 및 프로세서에의해, 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계를 포함한다.
또한 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법에서, 상기 잡음은 청소기의 동작에 의한 소음을 포함하는 것을 특징으로 할 수 있다.
또한 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법에서,상기 소리 신호를 필터링 하는 단계는, KLT(karhunen-Loeve Transform) 기반 필터를 이용하여 상기 소리 신호를 필터링하는 단계를 포함하는 것을 특징으로 할 수 있다.
또한 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법에서, 상기 소리 신호를 필터링 하는 단계는, SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 이용하여, 상기 필터링된 소리 신호를 필터링하는 단계를 더 포함하는 것을 특징으로 할 수 있다.
또한 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법에서, 상기 음성을 검출하는 단계는, VAD(Voice Activity Detection)를 통해 상기 소리 신호에서 음성 구간을 검출하고, 상기 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계는, 각각의 마이크로폰에 수신된 음성의 시간차를 이용하여 음원의 방향을 추정하는 것을 특징으로 할 수 있다.
본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체는, 마이크로폰을 통해, 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하는 단계; 마이크로폰을 통해, 수신된 소리를 전기적인 소리 신호로 변환하는 단계; 프로세서에의해, 상기 소리 신호에서 잡음을 제거하도록 상기 소리 신호를 필터링 하는 단계; 프로세서에의해, 필터링된 소리 신호에서 상기 음성을 검출하는 단계; 및 프로세서에의해, 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계를 포함하는, 잡음 환경에서 음원 위치를 추정하는 방법을 실행하기 위한 컴퓨터 프로그램을 기록하고 있을 수 있다.
본 발명의 일 실시예에 따르면, 기존의 음원방향검지 시스템의 절차를 그대로 유지한 상태에서, 기존의 음원구간검출(VAD: Voice Activity Detection)부의 수정과 음원방향검지의 전처리기로 잡음제거 알고리즘을 추가함으로써 방향검지의 성능을 향상시킬 수 있다. 그 결과 잡음환경에서의 방향검지의 기능을 가전기기에 쉽게 적용할 수 있게 된다.
도1은 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치의 동작을 설명하기 위한 구성도이다.
도2는 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치(1000)의 세부적인 구성도이다.
도3은 본 발명의 일 실시예에 따른 PDOA 방식을 설명하기 위한 도이다.
도4는 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법의 순서도이다.
도5 내지 도7은 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치의 실험결과를 나타내는 도이다.
본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시 된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 다만, 실시형태를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다. 또한, 도면에서의 각 구성요소들의 크기는 설명을 위하여 과장될 수 있으며, 실제로 적용되는 크기를 의미하는 것은 아니다.
본 명세서에 기술된 실시예는 전적으로 하드웨어이거나, 부분적으로 하드웨어이고 부분적으로 소프트웨어이거나, 또는 전적으로 소프트웨어인 측면을 가질 수 있다. 본 명세서에서 "부(unit)", "모듈(module)", "장치" 또는 "시스템" 등은 하드웨어, 하드웨어와 소프트웨어의 조합, 또는 소프트웨어 등 컴퓨터 관련 엔티티(entity)를 지칭한다. 예를 들어, 본 명세서에서 부, 모듈, 장치 또는 시스템 등은 실행중인 프로세스, 프로세서, 객체(object), 실행 파일(executable), 실행 스레드(thread of execution), 프로그램(program), 및/또는 컴퓨터(computer)일 수 있으나, 이에 제한되는 것은 아니다. 예를 들어, 컴퓨터에서 실행중인 애플리케이션(application) 및 컴퓨터의 양쪽이 모두 본 명세서의 부, 모듈, 장치 또는 시스템 등에 해당할 수 있다.
실시예들이 도면에 제시된 순서도를 참조로 하여 설명되었다. 간단히 설명하기 위하여 상기 방법은 일련의 블록들로 도시되고 설명되었으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 다른 블록들과 본 명세서에서 도시되고 기술된 것과 상이한 순서로 또는 동시에 일어날 수도 있으며, 동일한 또는 유사한 결과를 달성하는 다양한 다른 분기, 흐름 경로, 및 블록의 순서들이 구현될 수 있다. 또한, 본 명세서에서 기술되는 방법의 구현을 위하여 도시된 모든 블록들이 요구되지 않을 수도 있다. 나아가, 본 발명의 일 실시예에 따른 방법은 일련의 과정들을 수행하기 위한 컴퓨터 프로그램의 형태로 구현될 수도 있으며, 상기 컴퓨터 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록될 수도 있다.
이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.
도1은 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치의 동작을 설명하기 위한 구성도이다. 도1을 참조하면, 잡음 환경에서 음원 위치를 추정하는 장치(1000)는 사용자(1)의 음성 및 기타 주변의 잡음등을 마이크로폰을 통해 수신하고, 이를 처리하여, 음성이 발생된 음원의 위치를 추정하고 음원을 향하여 이동할 수 있다.
일 예에서, 잡음 환경에서 음원 위치를 추정하는 장치(1000)는 로봇 청소기 일 수 있으나 이에 제한되는 것은 아니고, 상기 잡음은 로봇 청소기의 동작에서 발생하는 소음을 포함할 수 있다.
도2는 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치(1000)의 세부적인 구성도이다. 도2를 참조하면 잡음 환경에서 음원 위치를 추정하는 장치(1000)는 복수의 마이크로폰(100), 잡음 제거부(200), 음성 검출부(300) 및 음원 위치 추정부(400)를 포함한다. 다른 일 실시예에서 잡음 환경에서 음원 위치를 추정하는 장치(1000)는 잡음 환경에서 음원 위치를 추정하는 장치(1000)를 이동시키는 구동부(500)를 더 포함할 수 있다.
상술한 구성은 본 발명의 특징을 설명하기 위한 예시적인 구성들이고, 상술한 구성 이외에 데이터 저장부, 통신 장비, 디스플레이 등 다른 구성요소들이 잡음 환경에서 음원 위치를 추정하는 장치에 더 포함될 수 있다.
복수의 마이크로폰(100)는 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하고, 수신된 소리를 전기적인 소리 신호로 변환할 수 있다. 그리고 복수의 마이크로폰(100)은 변환된 소리 신호를 잡음 제거부(200)에 제공할 수 있다.
일 실시예에서 잡음 제거부(200)는 수신한 소리에서 잡음을 제거하도록 소리 신호를 필터링 할 수 있다. 잡음이 심한 환경에서 수신된 소리 신호에는 음원으로부터 발생한 소리 및 잡음이 포함되어 음원의 위치를 추정하는 것이 어려우므로, 잡음 부분을 제거하는 것이 필요하다.
이를 위해 잡음 제거부(200)는 KLT(karhunen-Loeve Transform) 기반 필터를 이용하여 상기 소리 신호를 필터링할수 있다.
KLT(karhunen-Loeve Transform) 기반 필터를 이용하는 방법은 공분산 행렬(covariance matrix)의 부분공간(subspace)을 이용하여 잡음을 제거하는 방법이다.
[수학식 1]
y = x + d
상기 수학식1에서 x는 음성(speech signal)이고, d는 잡음을 의미하고, y는 마이크로폰을 통하여 입력받은 소리 신호이다. 이 알고리즘을 통하여 H라는 필터 게인을 구하여 y에 곱해줌으로써
Figure pat00001
를 추정한다.
[수학식 2]
Figure pat00002
수학식 2에 나타난 방식으로 실제 오차를 표현할 수 있다. 또한 상기 오차를 최소화 할수록 실제 목적한 값에 가까워지기 때문에 rx와 rd를 최소화 하는 것이 목적이다. 이를 위하여, 수학식 2에서 rx를 최소화 하고 rd를 일정한 값으로 고정하게 된다면, 쿤-터커 조건(Kuhn-Tuker condition)과 라그랑지안 멀티플라이어(Lagrangian multiplier)를 이용하여 최적의 H값을 구할 수 있다. 그리고 수학식2를 간단한 계산을 위하여 아래의 수학식 3과 같이 변형할 수 있다.
[수학식 3]
Figure pat00003
위의 식에서 Rx는 음성 신호의 공분산 행렬이고, Rd는 잡음 신호의 공분산 행렬이다. 그리고 V는 ∑=Rd -1Rx의 고유벡터(eigenvector) 값이다. 그리고 G값은 대각행렬로서, 아래 수학식4와 같이 표현할 수 있다.
[수학식 4]
Figure pat00004
수학식 4에서, K는 전체 신호의 프레임 크기(frame size)를 의미하고, M은 ∑의 양의 고유값(positive eigenvalue)의 개수를 의미한다. 그래서 최종적으로 KLT 기반 필터의 게인 을 구하여 잡음을 제거하게 된다.
일 실시예에서, 잡음 제거부(200)는 SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 이용하여, 상기 필터링된 소리 신호를 추가적으로 필터링할 수 있다.
즉, 잡음 제거부(200)는 상기 단일채널 (각각의 마이크)에서 KLT 기반 필터를 통하여 잡음이 제거된 신호를 멀티 채널(Multi-channel) 특성을 이용한 SDW-MWF를 통하여 잡음을 제거할 수 있다. Wiener filter의 주 이론은 Minimize mean square error (MMSE)를 만족하는 필터 게인H 를 구하는 것이다.
위의 KLT 기반 필터에서 얻은 결과를 STFT를 통하여 주파수도메인으로 변환하여 아래 수학식 5와 같이 표현할 수 있다.
[수학식 5]
Figure pat00005
수학식 5는 i번째 마이크의 k번째 주파수 빈(frequency bin)에서의 입력신호, 음성 신호, 잡음 신호를 의미한다. 그리고 수학식 5와 같은 방식의 각각의 마이크 신호들을 모두 묶어서 하나의 벡터로 표현할 수 있다. 그리고 이렇게 표현된 식을 이용하여 선택적으로 잡음을 제거할 수 있다.
[수학식 6]
Figure pat00006
우선 잡음 제거부(200)는 수학식 6과 같은 방식으로 MMSE를 최소화 시키는 필터 게인을 구한다. 필터 게인H는 H에 대하여 편미분을 수행함으로써 구할 수 있다.
구해진 필터 게인은 아래 수학식 7로 표현된다.
[수학식 7]
Figure pat00007
수학식7에서 e는 필터링 할 마이크를 고르는 벡터이고, Ryy, Rdd는 입력신호(음성)와 잡음신호의 자기상관 행렬(autocorrelation matrix)을 의미한다. 위 수학식7은 최종적인 MWF의 필터 게인을 의미한다. 그러나 일반적으로 잡음제거 알고리즘은 필터링 후에 필터링의 성능과 최종 신호의 왜곡 사이에 트레이드 오프 관계를 갖는다. 이러한 관계를 직접 조절할 수 있게 하는 방식이 SDW-MWF로 수학식 7을 풀어서 수식의 잡음 부분에 가중치를 주는 방식으로 조절이 가능하다. 이러한 필터 게인은 아래 수학식8과 같이 표현될 수 있다.
[수학식 8]
Figure pat00008
위 수학식8이 최종적인 필터 게인에 대한 수식이다. 수학식 8을 KLT 기반 필터를 통하여 잡음이 제거된 결과에 곱함으로써 최종적인 음성 신호를 추정할 수 있다.
일 실시예에서 음성 검출부(300)는 필터링된 소리 신호에서 상기 음성을 검출할 수 있다. 구체적으로, 상기 음성 검출부(300)는 VAD(Voice Activity Detection)를 통해 상기 소리 신호에서 음성 구간을 검출할 수 있다. VAD는 주어진 구간에서 사람의 목소리를 검출하는 방법이다. VAD는 다양한 방법이 있지만 본 발명의 일 실시예에 따른 음성 검출부(300)는 하모닉(harmonic) 특성을 이용한 VAD방법과 밴드패스필터(Band-pass filter)를 이용한 VAD 방법을 조합한 방법을 사용할 수 있으나 이에 제한되는 것은 아니다.
음성의 하모닉은 성대의 공명으로 인해 발생되는 특성으로, 음성의 기본주파수의 정수배의 주파수에서 에너지를 가지는 특성을 의미한다. 즉, 하모닉 특성을 사용하기 위하여 기본 주파수를 구해야 하는데, 기본 주파수는 잡음이 제거된 신호를 주파수 도메인에서 표현할 경우에 첫번째 주파수 빈의 피크(peak)점을 의미한다.
[수학식 9]
Figure pat00009
수학식 9에서 N은 하모닉 주파수(harmonic frequency)의 개수를 의미한다. 그리고 F(n.l) 은 l번째 프레임의 n번째 하모닉 주파수에서의 크기(magnitude)값을 의미한다. 따라서 수학식 9는 주어진 ㅣ번째 프레임에서의 하모닉 성분의 평균값을 의미한다.
음성 검출부(300)는 실제로 목소리를 검출하기 위하여, 각 프레임에서 수학식 9를 통하여 얻어진 값들을 소리 신호의 초기 부분에 목소리가 없는 구간에서 얻어진 결과값을 이용하여 노멀라이즈(normalize)하여 값을 구한다. 그리고 각각의 프레임 구간에서 이렇게 구한 임계값(threshold) 이상의 값에 대해 음성으로 인식할 수 있다.
또한 음성 검출부(300)는 밴드패스필터를 이용할 수 있다. 밴드패스필터는 일정한 지정된 범위의 주파수의 데이터만 가져오는 필터링 방법으로, 여기서는 VAD를 위하여 밴드패스필터를 통하여 목소리 대역의 주파수 구간만 필터링하여 에너지를 구한다. 그리고 이렇게 구한 에너지 값이 미리 정한 임계값을 넘어가면 음성으로 인식하게 된다.
음성 검출부(300)는 위에서 언급한 두 가지 방법으로부터 얻은 값을 더하여 하나의 값으로 정한다. 그리고 이 값이 소정의 임계값을 넘어가면 목소리로 인식하는 방식으로 VAD를 수행할 수 있다.
일 실시예에서, 음원 위치 추정부(400)는 검출된 음성을 분석하여 상기 음원의 위치를 추정할 수 있다. 일 예에서 음원 위치 추정부(400)는 각각의 마이크로폰에 수신된 음성의 시간차를 이용하여 음원의 방향을 추정할 수 있다.
음원 위치 추정부(400)는 일 예에서 PDOA(Phase Difference of Arrival) 방식을 이용하여 음원의 위치를 추정할 수 있다.
TDOA (Time delay of arrival)는 시간 도메인에서 다수의 마이크에 들어오는 음원의 시간 차이의 상관관계를 이용하여 방향을 검지하는 방법이다. 즉, TDOA 방법은 미리 만들어진 각각의 마이크 사이의 가상의 TDOA 맵과 실제 환경에서 각각의 마이크가 입력 받은 신호의 TDOA를 비교하여 실제 각도를 검출하는 방법이다. 그러나 이런 TDOA방법은 높은 주파수에서 공간 알리아이싱(spatial aliasing)이 일어나기 때문에 주파수 도메인에서 수행하는 PDOA방법으로 방향을 검지함으로써 이 문제를 해결할 수 있다.
도3은 본 발명의 일 실시예에 따른 PDOA 방식을 설명하기 위한 도이다.
도3을 참조하면, PDOA알고리즘을 수행하기 위하여, 실제 위상차이와 비교할 가상의 map을 만들어야 한다.
[수학식 10]
Figure pat00010
위의 식에서 SMi은 소리 신호에서 i번째 마이크까지의 거리를 의미하고, Vs는 음속 (340m/s)을 의미한다. 따라서 수학식 10은 θ각도에 위치한 소리 신호가 i번째 마이크와 j번째 마이크에 도달하는데 걸리는 시간의 차이를 나타내는 식이다. 그리고 위의 식을 주파수 도메인에서 나타낸다면 아래 수학식 11과 같이 표현할 수 있다.
[수학식 11]
Figure pat00011
여기서 f는 주파수 빈을 나타낸다. 그리고 위 수학식 11을 이용하여 4개의 마이크로부터 2개의 짝을 이루는 세트를 만들면 아래와 수학식 12와같이 표현이 가능하다.
[수학식 12]
Figure pat00012
위의 수학식 12는 총 6개로 구성된 가상의 PDOA map을 의미한다. 그리고 이렇게 만들어진 가상의 map과 비교하기 위한 실제 위상차이를 구하게 된다.
[수학식 13]
Figure pat00013
여기서 k는 주파수 도메인으로 변환과정에서의 프레임 숫자를 의미한다. 그래서 위의 식은 일정한 어떤 각도에서 입력 받은 i번째 마이크와 j번째 마이크를 통해 들어온 신호의 위상 차이를 나타낸다.
[수학식 14]
Figure pat00014
수학식 14는 모든 주파수 빈과 마이크 짝에서 가상의 PDOA map과 실제 PDOA값 사이의 차이를 비교하는 코스트 함수(cost function)이다. 이 코스트 함수는 코사인을 이용한 값으로 큰 값이 나올수록 오차가 적은 것을 의미한다.
[수학식 15]
Figure pat00015
따라서 음원 위치 추정부(400)는 모든 각도에서 위의 값을 만족하는 가장 만족하는 각도를 추정하여 최종적으로 추정한 각도로 표현하는 위와 같은 PDOA방식을 이용할 수 있다.
일 실시예에서 잡음 환경에서 음원 위치를 추정하는 장치(1000)는 추정된 음원의 방향으로 상기 음원 위치 추정 장치를 이동시키는 구동부(500)를 더 포함할 수 있다. 이에 따라서 음원의 방향으로 장치(1000)가 이동할 수 있다. 이를 위해 구동부(500)는 바퀴 및 모터부를 포함할 수도 있다.
도4는 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 방법의 순서도이다. 도4를 참조하면 잡음 환경에서 음원 위치를 추정하는 방법은 마이크로폰을 통해, 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하는 단계(S10), 마이크로폰을 통해, 수신된 소리를 전기적인 소리 신호로 변환하는 단계(S20), 프로세서에의해, 상기 소리 신호에서 잡음을 제거하도록 상기 소리 신호를 필터링 하는 단계(S30), 프로세서에의해, 필터링된 소리 신호에서 상기 음성을 검출하는 단계(S40) 및 프로세서에의해, 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계(S50)를 포함한다.
일 예에서, 상술한 잡음은 청소기의 동작에 의해 발생된 소음을 포함할 수 있다.
또한, 소리 신호를 필터링하는 단계(S30)는, KLT(karhunen-Loeve Transform) 기반 필터를 이용하여 상기 소리 신호를 필터링하는 단계를 포함할 수 있고, 다른 실시예에서 SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 이용하여, 상기 필터링된 소리 신호를 필터링하는 단계를 더 포함할 수도 있다.
또한, 상기 음성을 검출하는 단계(S40)는, VAD(Voice Activity Detection)를 통해 상기 소리 신호에서 음성 구간을 검출할 수 있다. 그리고 상기 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계(S50)는, 각각의 마이크로폰에 수신된 음성의 시간차를 이용하여 음원의 방향을 추정할 수도 있다.
도5 내지 도7은 본 발명의 일 실시예에 따른 잡음 환경에서 음원 위치를 추정하는 장치의 실험결과를 나타내는 도이다.
도5는 잡음 환경에서의 음원방향검지 기술의 성능을 확인하기 위하여, 실제로 로봇청소기가 구동하는 상황에서 음원 신호를 녹음하여 실험을 실시한 결과이다.
실험 방법은 일정한 각도에서 5번 발화하는 형식으로, 0도에서 330도까지 30도 간격으로 총 12번을 수행하는 방식으로 수행되었다. 또한 실제 가정에서 적용될 것을 고려하여 4dB, 1dB, -3dB, -5dB, -7dB와 같은 다양한 SNR에서 실험을 수행하였다.
도5에서 (a), (b)는 시간도메인과 spectrogram에서 아무 처리하지 않은 입력신호이다. (c), (d)는 시간도메인과 spectrogram에서 KLT based filter를 통하여 잡음을 제거한 결과이다. (e), (f)는 시간도메인과 spectrogram에서 SDW-MWF를 수행한 결과이다. (g), (h)는 시간도메인과 spectrogram에서 KLT 기반 필터와 SDW-MWF를 통하여 잡음을 제거한 결과를 나타낸다.
(a)와 (b)는 필터링을 수행하기 전의 잡음 환경으로 SNR은 -4.83dB이다. 그리고 이 값을 KLT 기반 필터를 통하여 필터링한 결과는 (c)와 (d)로서, SNR은 -0.37dB로 증가하였다. 또한, (e)와 (f)는 SDW-MWF를 수행한 결과로 SNR은 1.47dB이다. 마지막으로 (g)와 (h)는 본 발명에 따라 수행된 방법으로서, KLT 기반 필터와 SDW-MWF를 조합한 필터링의 결과로 SNR은 5.8dB로 가장 noise가 많이 제거되었다.
도6은 방향검지의 성능을 확인하기 위하여 필터링 방법에 따라 제안한 알고리즘과 이전에 사용된 알고리즘을 사용한 경우에 False Positive, False Negative, 성공률을 이용하여 비교하는 그래프이다.
우선 여기서 False Positive는 발화하지 않은 구간에서 각도를 추정한 오류 상황을 의미한다. 그리고 False Negative는 발화가 존재하는 구간에서 각도를 추정하지 못하거나 실제 각도가 아닌 결과를 추정한 상황이다. 성공률은 정해진 각도에서 5번 발화를 수행했을 때 실제 각도와 +10도에서 -10도 사이의 결과를 추정한 횟수를 말한다. 즉, 성공률이 5인 경우는 5번의 발화를 모두 검지한 것을 의미하기 때문에 100%의 성공률을 의미한다. 여기서 성공률은 높을수록 좋고, False Positive와 False Negative는 낮을수록 좋다.
도6 및 7은 SNR이 4dB, 1dB, -3dB, -5dB, -7dB에서 잡음을 제거하고 각각의 각도에서 방향검지를 수행한 결과들의 평균값을 나타낸다. 여기서, 도6은 방향검지 결과를 필터링 방법에 따라 크게 분류하여 나타낸 결과이고, 도7은 같은 data를 VAD방법에 따라 크게 분류하여 나타낸 결과이다.
도6을 참조하면, 필터링을 수행하지 않은 베이스 라인(baseline)의 데이터 보다 단일 필터인 KLT 기반 필터와 SDW-MWF를 함께 사용한 본 발명에 따른 필터를 이용한 경우 성공률과 에러 발생률에서 더 좋은 결과를 보여주는 것을 확인 할 수 있다.
그리고 2개의 잡음제거 필터 가운데 KLT 기반 필터가 성공률이나 에러발생률이 적은 것을 확인할 수 있다(실제로 SNR은 MWF가 좋지만 방향검지 성능은 KLT based filter가 더 좋은 것 확인가능하다).
실제로 잡음 제거 성능이 높아지면 signal의 왜곡이 심해져서 방향검지의 성능이 떨어질 가능성이 있지만, 여기서 사용된 2개의 필터는 그것을 고려하여 선택하였기 때문에 방향검지 성능이 떨어지지 않는다.
도7은 방향검지 결과를 VAD방법에 따라 크게 분류하여 나타낸 결과이다. 여기서 일반적인 VAD는 기본적인 에너지를 이용한 VAD 방법을 의미하고, 본 발명에서 제안하는 VAD는 상술한 바와 같이 하모닉 특성을 이용한 VAD방법과 밴드패스필터를 이용한 VAD방법을 조합한 방법을 의미한다.
도6 및 7을 통해 일반적인 VAD 방법보다 하모닉 특성을 이용한 VAD와 밴드패스필터를 이용한 VAD 방법이 성능이 좋은 것을 확인이 가능하다. 또한 하모닉 특성을 이용한 VAD방법이 밴드패스필터를 이용한 VAD방법보다 에러 발생률이나 성공률 부분에서 성능이 좋은 것을 확인하였다. 그리고 마지막으로 제안된 VAD방법은 하모닉 특성과 밴드패스필터를 모두 사용함으로써 두 가지 방법의 장점을 모두 사용하였기 때문에 더 목소리 검출 성공률이 높아질 수 있었고, 결과적으로 방향검지의 성능도 향상된 것을 확인이 가능하다
이상에서 살펴본 본 발명은 도면에 도시된 실시예들을 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.
100 : 마이크로폰
200 : 잡음 제거부
300 : 음성 검출부
400 : 음원 위치 추정부
500 : 구동부
1000 : 음원 위치를 추정하는 장치

Claims (12)

  1. 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하여, 전기적인 소리 신호로 변환하는 복수의 마이크로폰;
    상기 잡음을 제거하도록 상기 소리 신호를 필터링 하는 잡음 제거부;
    필터링된 소리 신호에서 상기 음성을 검출하는 음성 검출부; 및
    검출된 음성을 분석하여 상기 음원의 위치를 추정하는 음원 위치 추정부를 포함하는 잡음 환경에서 음원 위치를 추정하는 장치.
  2. 제1항에 있어서,
    상기 잡음은 청소기의 동작에 의한 소음을 포함하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 장치.
  3. 제1항에 있어서,
    상기 잡음 제거부는,
    KLT(karhunen-Loeve Transform) 기반 필터를 이용하여 상기 소리 신호를 필터링하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 장치.
  4. 제3항에 있어서,
    상기 잡음 제거부는,
    SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 이용하여, 상기 필터링된 소리 신호를 추가적으로 필터링하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 장치.
  5. 제1항에 있어서,
    상기 음성 검출부는, VAD(Voice Activity Detection)를 통해 상기 소리 신호에서 음성 구간을 검출하고,
    상기 음원 위치 추정부는, 각각의 마이크로폰에 수신된 음성의 시간차를 이용하여 음원의 방향을 추정하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 장치.
  6. 제1항에 있어서,
    추정된 음원의 방향으로 상기 음원 위치 추정 장치를 이동시키는 구동부를 더 포함하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 장치.
  7. 마이크로폰을 통해, 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하는 단계;
    마이크로폰을 통해, 수신된 소리를 전기적인 소리 신호로 변환하는 단계;
    프로세서에의해, 상기 소리 신호에서 잡음을 제거하도록 상기 소리 신호를 필터링 하는 단계;
    프로세서에의해, 필터링된 소리 신호에서 상기 음성을 검출하는 단계; 및
    프로세서에의해, 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계를 포함하는 잡음 환경에서 음원 위치를 추정하는 방법.
  8. 제7항에 있어서,
    상기 잡음은 청소기의 동작에 의한 소음을 포함하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 방법.
  9. 제7항에 있어서,
    상기 소리 신호를 필터링 하는 단계는,
    KLT(karhunen-Loeve Transform) 기반 필터를 이용하여 상기 소리 신호를 필터링하는 단계를 포함하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 방법.
  10. 제9항에 있어서,
    상기 소리 신호를 필터링 하는 단계는,
    SDW-MWF(Speech Distortion Weighted Multi-channel Wiener Filter)를 이용하여, 상기 필터링된 소리 신호를 필터링하는 단계를 더 포함하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 방법.
  11. 제7항에 있어서,
    상기 음성을 검출하는 단계는, VAD(Voice Activity Detection)를 통해 상기 소리 신호에서 음성 구간을 검출하고,
    상기 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계는, 각각의 마이크로폰에 수신된 음성의 시간차를 이용하여 음원의 방향을 추정하는 것을 특징으로 하는 잡음 환경에서 음원 위치를 추정하는 방법.
  12. 마이크로폰을 통해, 잡음 및 음원에서 발생된 음성을 포함하는 소리를 수신하는 단계; 마이크로폰을 통해, 수신된 소리를 전기적인 소리 신호로 변환하는 단계; 프로세서에의해, 상기 소리 신호에서 잡음을 제거하도록 상기 소리 신호를 필터링 하는 단계; 프로세서에의해, 필터링된 소리 신호에서 상기 음성을 검출하는 단계; 및 프로세서에의해, 검출된 음성을 분석하여 상기 음원의 위치를 추정하는 단계를 포함하는, 잡음 환경에서 음원 위치를 추정하는 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체.
KR1020140039227A 2014-04-02 2014-04-02 잡음 환경에서 음원 위치를 추정하는 장치 및 방법 KR101580868B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140039227A KR101580868B1 (ko) 2014-04-02 2014-04-02 잡음 환경에서 음원 위치를 추정하는 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140039227A KR101580868B1 (ko) 2014-04-02 2014-04-02 잡음 환경에서 음원 위치를 추정하는 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150114714A true KR20150114714A (ko) 2015-10-13
KR101580868B1 KR101580868B1 (ko) 2015-12-30

Family

ID=54348139

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140039227A KR101580868B1 (ko) 2014-04-02 2014-04-02 잡음 환경에서 음원 위치를 추정하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101580868B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060043952A (ko) * 2004-11-11 2006-05-16 주식회사 대우일렉트로닉스 자동 온도 제어, 핸즈프리 및 gps기능을 통합한 카오디오
JP2007525865A (ja) * 2003-07-11 2007-09-06 コクレア リミテッド ノイズ低減のための方法および装置
KR20110034360A (ko) * 2009-09-28 2011-04-05 한국전자통신연구원 사용자 음성을 이용한 위치 추적 장치 및 그 방법
KR101269189B1 (ko) 2011-10-31 2013-05-30 한국과학기술연구원 음원 추정 장치 및 그 방법
KR20130130547A (ko) * 2012-05-22 2013-12-02 삼성전자주식회사 잡음을 제거하는 장치 및 이를 수행하는 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007525865A (ja) * 2003-07-11 2007-09-06 コクレア リミテッド ノイズ低減のための方法および装置
KR20060043952A (ko) * 2004-11-11 2006-05-16 주식회사 대우일렉트로닉스 자동 온도 제어, 핸즈프리 및 gps기능을 통합한 카오디오
KR20110034360A (ko) * 2009-09-28 2011-04-05 한국전자통신연구원 사용자 음성을 이용한 위치 추적 장치 및 그 방법
KR101269189B1 (ko) 2011-10-31 2013-05-30 한국과학기술연구원 음원 추정 장치 및 그 방법
KR20130130547A (ko) * 2012-05-22 2013-12-02 삼성전자주식회사 잡음을 제거하는 장치 및 이를 수행하는 방법

Also Published As

Publication number Publication date
KR101580868B1 (ko) 2015-12-30

Similar Documents

Publication Publication Date Title
US11631421B2 (en) Apparatuses and methods for enhanced speech recognition in variable environments
US7295972B2 (en) Method and apparatus for blind source separation using two sensors
CN110085248B (zh) 个人通信中降噪和回波消除时的噪声估计
CN106875938B (zh) 一种改进的非线性自适应语音端点检测方法
KR101305373B1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
US20120163622A1 (en) Noise detection and reduction in audio devices
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
CN107316648A (zh) 一种基于有色噪声的语音增强方法
US20190267018A1 (en) Signal processing for speech dereverberation
US9414157B2 (en) Method and device for reducing voice reverberation based on double microphones
Niwa et al. Post-filter design for speech enhancement in various noisy environments
CN105489226A (zh) 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
WO2015129760A1 (ja) 信号処理装置、方法及びプログラム
US8199928B2 (en) System for processing an acoustic input signal to provide an output signal with reduced noise
US11217264B1 (en) Detection and removal of wind noise
JP2836271B2 (ja) 雑音除去装置
EP2774147B1 (en) Audio signal noise attenuation
KR20160116440A (ko) 음성인식 시스템의 신호대잡음비 추정 장치 및 방법
JP2020504966A (ja) 遠距離音の捕捉
KR101580868B1 (ko) 잡음 환경에서 음원 위치를 추정하는 장치 및 방법
Koldovský et al. CHiME data separation based on target signal cancellation and noise masking
Miyazaki et al. Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction
JP2006178333A (ja) 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体
KR101966175B1 (ko) 잡음 제거 장치 및 방법
KR101124712B1 (ko) 비음수 행렬 인수분해 기반의 음성 검출 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181203

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191203

Year of fee payment: 5