KR101721424B1 - 독립성분분석을 기반으로 한 반향에 강인한 다음원 탐지 방법 - Google Patents

독립성분분석을 기반으로 한 반향에 강인한 다음원 탐지 방법 Download PDF

Info

Publication number
KR101721424B1
KR101721424B1 KR1020150191321A KR20150191321A KR101721424B1 KR 101721424 B1 KR101721424 B1 KR 101721424B1 KR 1020150191321 A KR1020150191321 A KR 1020150191321A KR 20150191321 A KR20150191321 A KR 20150191321A KR 101721424 B1 KR101721424 B1 KR 101721424B1
Authority
KR
South Korea
Prior art keywords
channel filter
sound source
signal
signals
observation
Prior art date
Application number
KR1020150191321A
Other languages
English (en)
Inventor
박형민
서재필
김민욱
조지원
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020150191321A priority Critical patent/KR101721424B1/ko
Application granted granted Critical
Publication of KR101721424B1 publication Critical patent/KR101721424B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 반향에 강인한 다음원 위치 탐지 방법에 관한 것이다. 상기 다음원 위치 탐지 방법은, (a) 다수 개의 마이크를 통해 입력된 관찰 신호를 사전 설정된 길이 단위로 블록화하는 단계; (b) 관찰 신호의 임의의 블록에 대하여 주파수 영역의 신호로 변환시키는 단계; (c) 주파수 영역의 신호로 변환된 관찰 신호의 해당 블록에 대하여, 주파수 영역에서의 우도 함수를 설정하고 상기 우도 함수를 최대화하는 방향으로 채널 필터를 학습하는 단계; (d) 관찰 신호의 해당 블록에 대하여 상기 학습된 채널 필터를 이용하여 음원 신호를 추정하고, 추정된 음원 신호에 대하여 서로소 조건을 적용한 후, 채널 필터를 업데이트시키는 단계; (e) 관찰 신호의 해당 블록에 대하여 상기 업데이트된 채널 필터를 시간 영역의 신호로 변환시킨 후 성김 조건을 적용하는 단계; (f) 관찰 신호의 해당 블록에 대한 학습된 채널 필터를 정규화시키는 단계; (g) 상기 관찰 신호의 각 블록들에 대하여 상기 (b) 단계 내지 (f) 단계를 반복수행하여 채널 필터를 학습하는 단계;를 구비하여, 상기 학습된 채널 필터를 이용하여 음원의 위치를 탐지해낼 수 있다.

Description

독립성분분석을 기반으로 한 반향에 강인한 다음원 탐지 방법{Reverberation_robust multiple sound source localization based independent component analysis}
본 발명은 독립 성분 분석(Independent Component Analysis; 'ICA')을 기반으로 한 음향 채널 추정을 이용한 다음원 위치 탐지 방법에 관한 것으로서, 더욱 구체적으로는 결합 최대 우도 추정을 통하여 독립 성분 분석(Independent Component Analysis; 'ICA')에 기반한 음향 채널을 추정하되, 추정된 신호의 서로소 조건과 채널 필터의 성김 조건을 적용함으로써, 반향에 강인한 다음원 위치 탐지 방법에 관한 것이다.
마이크 사이의 거리와 마이크 배열의 중심으로부터 거리 r 만큼 떨어진 곳에 음원이 존재하는 경우, 음원에서 다수의 마이크로부터 도달하는 데 소요되는 시간과 경로가 다르기 때문에, 신호가 각 마이크에 도달하는 시간 지연 차이를 정확하게 추정할 수 있다면, 음원의 위치를 탐지할 수 있게 된다. 도 1은 시간 지연 차리의 추정(Time Delay Estimation : 'TDE')을 통한 음원 국지화를 설명하기 위하여 개략적으로 도시한 상태도이다. 도 1을 참조하면, 두개의 마이크(MIC.1, MIC.2)가 거리 d 만큼 이격된 상태에서 단일의 음원으로부터 수신된 신호의 시간 지연 차이를 정확하게 알 수 있다면, 수학식 1의 θ값을 구함으로써 음원의 국지화를 수행할 수 있게 된다. 즉, θ값과 r 을 이용하여 음원의 위치를 탐지할 수 있게 된다.
Figure 112015129414326-pat00001
전술한 시간 지연 차이의 추정(TDE)를 이용하는 방법은 크게 (1) 두 마이크 신호의 교차 상관값을 구하고 교차 상관값이 가장 클 때의 시간 지연을 구하게 되는 Cross Correlation 기반의 TDE 방법, 및 (2) 마이크로폰 신호를 통해 채널 필터를 추정하고 직선 경로 응답에 해당하는 채널 필터들의 표본차를 이용하여 시간 지연을 추정하게 되는 채널 필터 추정 기반의 TDE 방법이 있다.
그러나, 반향이 있는 실제 환경에서 (1)의 Cross Correlation 기반 TDE 방법은 반향 신호들이 교차 상관값에 혼란을 주게 되어 잘못된 time delay를 추정하게 되고, 그 결과 심각한 성능 저하를 야기하게 되는 문제점이 있다. 한편, (2)의 채널 필터 추정 기반 TDE 방법은 반향 성분을 채널 필터에 그대로 반영함으로써 반향 환경에서 Cross Correlation 기반 TDE 방법보다 강인하기는 하나 채널 추정시에 음원에서 마이크까지 직접적으로 도달하는 직선 경로 응답 성분을 보존하는 것이 관건이다.
먼저, 다음원 위치 탐지 방법을 위한 접근 방법으로 독립 성분 분석 방법을 이용한 암묵 음원 분리 방법을 생각해 볼 수 있다. 독립 성분 분석을 이용한 혼합 모델을 수학식 2와 같이 정의한다.
Figure 112015129414326-pat00002
여기서,
Figure 112015129414326-pat00003
,
Figure 112015129414326-pat00004
는 각각 마이크 입력 신호 벡터, 및 각각 독립적이라고 가정하는 음원들의 벡터이다. 이때, A는 모르는 혼합 행렬이며, r은 분산 σ2을 갖는 백색 가우시안 잡음이라고 가정하면 확률 밀도 함수를 수학식 3과 같이 나타낼 수 있다.
Figure 112015129414326-pat00005
여기서, s의 각 성분들은 서로 독립적이므로, 수학식 4와 같은 우도 식을 얻을 수 있게 된다. 혼합 행렬 A 는 수학식 4를 최대화하는 방향으로 학습이 진행되며 자연 경사법을 사용하는 최종 A 의 학습 규칙은 수학식 5와 같다.
Figure 112015129414326-pat00006
Figure 112015129414326-pat00007
여기서, I 는 단위행렬을 의미하며,
Figure 112015129414326-pat00008
은 점수 함수(score function)로서 수학식 6과 같다.
Figure 112015129414326-pat00009
최종적으로, 추정 음원
Figure 112015129414326-pat00010
은 수학식 7과 같이 사후확률이 가장 클 때의 값으로 얻어지게 된다.
Figure 112015129414326-pat00011
만약 마이크의 개수(M) = 음원의 개수(N)인 일반적인 독립 성분 분석 방법이 사용되는 환경에서는, r은 무시되며 추정 음원은 단순히
Figure 112015129414326-pat00012
로 정의될 수 있다.
하지만, 앞서 설명한 바와 같이 실제 환경에서는 반향 성분이 항상 존재하게 되므로 본 발명은 반향에 강인한 다음원 탐지 방법을 제안하고자 한다.
한국등록특허공보 제 10-1334991호 한국등록특허공보 제 10-1073632호
전술한 문제점을 해결하기 위한 본 발명의 목적은 결합 최대 우도 추정을 이용하여 음향 채널 필터를 추정하되 서로소 조건과 성김 조건을 도입하여 음향 채널 필터를 추정함으로써, 반향에 강인한 다음원 탐지 방법을 제공하는 것이다.
전술한 기술적 과제를 달성하기 위한 본 발명의 특징에 따른 다수 개의 마이크를 이용한 다음원 위치 탐지 방법은, (a) 다수 개의 마이크를 통해 입력된 관찰 신호를 사전 설정된 길이 단위로 블록화하는 단계; (b) 관찰 신호의 임의의 블록에 대하여 주파수 영역의 신호로 변환시키는 단계; (c) 주파수 영역의 신호로 변환된 관찰 신호의 해당 블록에 대하여, 주파수 영역에서의 우도 함수를 설정하고 상기 우도 함수를 최대화하는 방향으로 채널 필터를 학습하는 단계; (d) 관찰 신호의 해당 블록에 대하여 상기 학습된 채널 필터를 이용하여 음원 신호를 추정하고, 추정된 음원 신호에 대하여 서로소 조건을 적용한 후, 채널 필터를 업데이트시키는 단계; (e) 관찰 신호의 해당 블록에 대하여 상기 업데이트된 채널 필터를 시간 영역의 신호로 변환시킨 후 성김 조건을 적용하는 단계; (f) 관찰 신호의 해당 블록에 대한 학습된 채널 필터를 정규화시키는 단계; (g) 상기 관찰 신호의 각 블록들에 대하여 상기 (b) 단계 내지 (f) 단계를 반복수행하여 채널 필터를 학습하는 단계;를 구비하여, 상기 학습된 채널 필터를 이용하여 음원의 위치를 탐지해낼 수 있다.
전술한 특징에 따른 다음원 위치 탐지 방법에 있어서, 상기 (d) 단계는, 관찰 신호의 해당 블록에 대하여 학습된 채널 필터를 이용하여 음원 출력 신호를 주파수 영역에서 추정하고, 주파수 영역에서 추정된 음원 출력 신호에 문턱값을 적용하여 각 주파수 빈들의 분리에 대한 신뢰도를 판별하고, 신뢰도 판별 결과에 대하여 서로소 조건을 적용하여 마스크를 생성하고, 생성된 마스크를 이용하여 상기 추정된 음원 출력 신호를 수정하고, 수정된 음원 출력 신호를 점수 함수의 입력 신호로 사용하여 채널 필터를 업데이트시키는 것이 바람직하다.
본 발명에 따른 다음원 탐지 방법은, 추정된 음원 출력 신호들에 대해 서로소 조건(disjoint condition)을 적용함으로써 반향 환경에서의 분리도를 높여 정교한 다음원 국지화를 수행할 수 있게 된다.
또한, 본 발명에 따른 다음원 탐지 방법은 채널 필터 추정 방법에 채널의 선험적 정보인 성김 특성을 적용함으로써, 반향 환경에 강인한 다음원 국지화를 수행할 수 있게 된다.
도 1은 시간 지연 차리의 추정(Time Delay Estimation : 'TDE')을 통한 음원 국지화를 설명하기 위하여 개략적으로 도시한 상태도이다.
도 2는 본 발명의 바람직한 실시예에 따른 다음원 탐지 방법의 채널 필터 추정 과정을 순차적으로 도시한 순서도이다.
도 3은 본 발명에 따른 다음원 탐지 방법과 종래의 다음원 탐지 방법들의 성능을 평가하기 위하여 실시한 실험 환경을 도시한 구성도이다.
도 4는 종래의 방법에 따라 어떠한 조건도 적용하기 않은 단순 주파수 영역에서의 채널 필터 추정 결과를 도시한 그래프들이다.
도 5는 본 발명에 따라 성김 특성과 서로소 조건을 모두 적용한 채널 필터 추정 결과를 도시한 그래프들이다.
도 6은 종래의 방법 및 본 발명에 따른 방법의 시간 지연 추정(Time Delay Estimate ; 'TDE') 성능 비교한 결과를 도시한 도표이다.
본 발명은 ICA 기반으로 한 음향 채널 필터를 추정하되 서로소 조건과 성김 조건을 도입하여 음향 채널 필터를 추정함으로써, 반향에 강인한 다음원 탐지 방법을 제공하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 반향에 강인한 다음원 탐지 방법을 구체적으로 설명한다.
먼저, 실제 환경에서 항상 존재하는 반향 성분을 고려하여, 채널 필터 형태로 혼합 모델을 수학식 8과 같이 정의할 수 있다. 이며, 관찰신호는
Figure 112015129414326-pat00013
이며, 미지의 음원 출력 신호는
Figure 112015129414326-pat00014
이다.
Figure 112015129414326-pat00015
여기서, h ij (q)는 j번째 음원과 i번째 마이크, 및 L f 길이의 채널 필터 계수를 의미하며,qh를 구성하는 샘플 인덱스이다. 또한, r i (t)는 i번째 마이크에 들어오는 가산 잡음이다. 이러한 환경에서, k번째 음원이 i번째 마이크와 j번째 마이크에 도달하는 시간지연 차이는 직선 경로의 차이에 의해 정해질 수 있으며 수학식 9에 의해 얻을 수 있다.
Figure 112015129414326-pat00016
m 및 l은 샘플 인덱스로서, h 값이 최대가 되는 지점의 샘플 인덱스들이다.
또한, 관찰신호
Figure 112015129414326-pat00017
에 대한 우도 함수를 재정의할 수 있으며, 재정의된 우도 함수에 로그를 취하면 수학식 10으로 표현된다.
Figure 112015129414326-pat00018
채널 필터는 수학식 10의 우도 함수를 최대화하는 방향으로 추정하게 된다. 전술한 채널 필터 추정을 함에 있어서, 시간 영역에서 학습하는 경우 수렴이 매우 느릴 뿐만 아니라 수렴 안정성도 떨어지게 된다. 따라서, 본 발명에서는 주파수 영역에서의 학습을 수행하게 된다. 또한, 본 발명에서는 주파수 영역에서의 채널 필터 학습을 위하여 Overlap save 방법을 사용한다.
도 2는 본 발명의 바람직한 실시예에 따른 다음원 탐지 방법의 채널 필터 추정 과정을 순차적으로 도시한 순서도이다.
도 2를 참조하면, 본 발명에 따른 다음원 탐지 방법에서의 채널 필터 학습을 위하여, 관찰 신호를 2L 길이의 단위로 블록화한다(단계 200).
먼저, 시간 영역으로 표시된 관찰 신호의 첫번째 블록을 푸리에 변환하여 주파수 영역의 신호로 변환한다(단계 220). 관찰 신호의 m 번째 블록을 주파수 영역으로 변환한 신호는 수학식 11과 같이 나타낼 수 있다.
Figure 112015129414326-pat00019
또한, 추정된 음원은 수학식 12와 같이 overlap-save 방법을 통해 구할 수 있게 된다.
Figure 112015129414326-pat00020
여기서,
Figure 112015129414326-pat00021
, ·, L 은 각각 discrete 푸리에 변환, element-wise 곱셈 기호, 블락(Block)의 크기를 의미한다. 벡터
Figure 112015129414326-pat00022
는 i 와 j 번째 행과 열의 채널 필터
Figure 112015129414326-pat00023
로 구성된 행렬의 역행렬의 요소이다. 또한,
Figure 112015129414326-pat00024
는 채널 필터의 주파수 영역 기호로
Figure 112015129414326-pat00025
로 정의되며,
Figure 112015129414326-pat00026
를 의미하며,
Figure 112015129414326-pat00027
은 2L- L f 개의 0으로 구성된 벡터를 의미한다.
전술한 해당 블록에 대하여 수학식 10의 우도 함수를 최대화시키는 방향으로 채널 필터를 학습하여 수학식 13과 같은 최종 필터 학습 규칙을 얻게 된다(단계 230).
Figure 112015129414326-pat00028
여기서, 수학식 13의 각 행렬은 아래와 같이 정의된다.
Figure 112015129414326-pat00029
Figure 112015129414326-pat00030
Figure 112015129414326-pat00031
여기서,
Figure 112015129414326-pat00032
Figure 112015129414326-pat00033
는 각각 요소별 complex conjugate 기호 및 2L 개의 1 들의 벡터이다.
수학식 14에 있어서,
Figure 112015129414326-pat00034
은 채널 필터 학습시 음원의 분리보다는 음원의 크기와 관계있는 부분으로서, 음원이 갑자기 아주 작아졌을 때 이를 보상해 주기 위해 역으로 크기를 키워주게 되는데, 이 과정에서 발산될 위험이 있다. 이를 방지하고자
Figure 112015129414326-pat00035
와 같이 nonholonomic constraint을 적용해준다.
기존의 ICA 에서는 수학식 5에서 점수 함수와 추정된 음원 신호의 상관도인
Figure 112015129414326-pat00036
가 암묵 음원 분리를 수행하는 결정적인 역할을 한다. 하지만, 반향 환경에서는 반향 성분이 두 성분의 상관도를 높여 분리도를 떨어뜨려서 성능을 급격히 감소시키게 된다. 이에 본 발명에서는 점수 함수를 통과하기 전에 음원 출력 신호에 서로소 조건을 적용하여 분리 성능을 향상시키게 된다(단계 240). 이하, 전술한 단계 240에 대하여 보다 구체적으로 설명한다.
먼저, 상기 학습된 채널 필터를 이용하여 주파수 영역에서 해당 블록에 대한 음원을 추정하고, 추정된 m번째 블록에 문턱값 θ(m)을 적용하여 각 주파수 빈들의 분리에 대한 신뢰도를 판별한다.
Figure 112015129414326-pat00037
Figure 112015129414326-pat00038
Figure 112015129414326-pat00039
여기서, f는 주파수 색인, C는 상수, N FFT 는 FFT 포인트이다. 신뢰도를 판별한 후, 문턱값을 넘지 못하는 추정된 음원 출력 신호들의 특정 주파수 빈들에 대해 크기가 가장 큰 주파수 빈만이 타당한 빈이라고 가정하여 점수함수에 적용시켜주는 마스크를 수학식 20과 같이 생성한다.
Figure 112015129414326-pat00040
최종적으로 마스크를 통해 주파수 영역에서 추정된 음원에 비신뢰적인 주파수 빈에 대하여 마스킹을 한 뒤 이를 다시 시간 영역으로 변환시켜 이를 점수 함수의 입력으로 사용하게 된다. 즉, 주파수 영역에서 마스킹된 음원 신호가 점수 함수의 입력 신호가 된다.
다음, 다수의 채널 필터들을 추정할 때 음향 채널의 선험적 정보인 채널 필터의 성김 분포(sparse prior)를 적용하여 반향 환경에서도 더욱 정확하게 직접 경로의 시간 지연을 추정할 수 있게 된다. 따라서, 본 발명에서는 시간 영역으로 변환된 채널 필터에 대하여 성김 특성이 최대화되도록 학습하여 채널 필터를 추정한다(단계 250). 음향 채널의 채널 필터 계수들의 성김 분포 특성은 수학식 21과 같이 표현된다.
Figure 112015129414326-pat00041
여기서,
Figure 112015129414326-pat00042
Figure 112015129414326-pat00043
는 각각 채널 필터 및 채널 필터 계수를 나타내며,
Figure 112015129414326-pat00044
은 채널 필터의 실제 확률 밀도 함수를 나타낸다. 본 발명에서는 채널 필터가 성김 특성을 가진다고 가정하고 확률 밀도 함수가 라플라시안 확률 밀도 분포라고 가정한다.
다음, 해당 블록에 대한 채널 필터
Figure 112015129414326-pat00045
에 대한 모든 요소가 0 이 되는 trivial 한 해를 막기 위하여, 추정된 채널 필터 계수 벡터
Figure 112015129414326-pat00046
를 정규화한다(단계 260).
관찰 신호의 마지막 블록까지 모든 블록에 대하여 순차적으로 전술한 단계 220 내지 단계 260을 반복수행하여 채널 필터를 학습한다(단계 270 및 단계 280). 그리고, 학습된 채널 필터를 이용하여 다음원 위치를 탐지하게 된다.
종래의 방법들과 비교하여 전술한 본 발명에 따른 다음원 탐지 방법에 따라 학습된 채널 필터를 이용하여 다음원 탐지 성능을 살펴본다. 도 3은 본 발명에 따른 다음원 탐지 방법과 종래의 다음원 탐지 방법들의 성능을 평가하기 위하여 실시한 실험 환경을 도시한 구성도이다.
도 3에 도시된 방에서의 Room Impulse Response(RIR) 필터를 생성하게 되는데, 음원 신호는 44.1 kHz로 upsampling한 여성 음원 2개 및 남성 음원 2개를 사용하였으며, 실험상의 편의를 위해 화자 2명, 마이크 2개가 있다고 가정하였다.
반향 환경은 RT60 = { 0.4, 0.6, 0.8 }s 이며, 남성-남성, 남성-여성, 여성-여성의 3가지 case, 음원의 위치는 5 가지로서 { -60°, -30° , 0°, 30°, 60°}이며, 두 음원의 위치 조합은 5C2 × 2 × (3가지 case) 이며, 각 반향 환경별로 60가지 시나리오에 대해 실험 진행하였다.
도 4는 종래의 방법에 따라 어떠한 조건도 적용하기 않은 단순 주파수 영역에서의 채널 필터 추정 결과를 도시한 그래프들이며, 도 5는 본 발명에 따라 성김 특성과 서로소 조건을 모두 적용한 채널 필터 추정 결과를 도시한 그래프들이다.
도 4 및 도 5의 실험 환경은 RT60=0.4s 일때 남성 화자 두명이 -60°및 -30°에 있을 때이며, 이상적인 샘플차이값은 -60°에서는 -18, -30°에서는 -10 샘플차이이다. 도 4는 서로소 조건 및 성김 특성을 적용하지 않은 단순 결합최대우도 추정을 통한 채널 필터 학습 방법에 따른 결과로서, (a)와 (c)의 필터 최대값들의 인덱스 차이가 -18 샘플 차이이며 (b)와 (d)의 차이가 -2 샘플 차이인 것을 알 수 있으며, -30°에서는 화자에 대한 음원 국지화가 실패되었으며 도 5보다 fluctuation 이 심하다는 것을 쉽게 파악할 수 있다. 도 5는 도 4와 동일 환경 조건에서, 정확하게 음원 국지화가 수행된 것을 확인할 수 있으며, 필터 추정 결과도 필터의 직선 응답 경로만 잘 보존되어 있음을 확인할 수 있다.
도 6은 종래의 방법 및 본 발명에 따른 방법의 시간 지연 추정(Time Delay Estimate ; 'TDE') 성능 비교한 결과를 도시한 도표이다. 도 6은 각 화자별 TDE 성공 횟수 및 source accuracy rate를 나타내고 있는데, 이를 통해 본 발명에 따른 방법이 반향이 심한 환경에서도 90% 이상의 높은 TDE 성능을 가짐을 확인할 수 있다.
이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
본 발명에 따른 방법은 음성 인식 분야에 널리 사용될 수 있다.

Claims (7)

  1. 다수 개의 마이크를 이용한 다음원 위치 탐지 방법에 있어서,
    (a) 다수 개의 마이크를 통해 입력된 관찰 신호를 사전 설정된 길이 단위로 블록화하는 단계;
    (b) 관찰 신호의 임의의 블록에 대하여 주파수 영역의 신호로 변환시키는 단계;
    (c) 주파수 영역의 신호로 변환된 관찰 신호의 해당 블록에 대하여, 주파수 영역에서의 우도 함수를 설정하고 상기 우도 함수를 최대화하는 방향으로 채널 필터를 학습하는 단계;
    (d) 관찰 신호의 해당 블록에 대하여 상기 학습된 채널 필터를 이용하여 음원 신호를 추정하고, 추정된 음원 신호에 대하여 서로소 조건을 적용한 후, 채널 필터를 업데이트시키는 단계;
    (e) 상기 관찰 신호의 각 블록들에 대하여 상기 (b) 단계 내지 (d) 단계를 반복수행하여 채널 필터를 학습하는 단계;
    를 구비하여, 상기 학습된 채널 필터를 이용하여 음원의 위치를 탐지해낼 수 있는 것을 특징으로 하는 반향에 강인한 다음원 위치 탐지 방법.
  2. 제1항에 있어서, (c) 단계에서 채널 필터는 반향 성분을 고려하여 아래의 수학식으로 정의되는 것을 특징으로 하는 반향에 강인한 다음원 위치 탐지 방법.
    Figure 112015129414326-pat00047

    여기서, h ij (q)는 j번째 음원과 i번째 마이크, 그리고 L f 길이의 채널 필터 계수를 의미하며, r i (t)는 i번째 마이크에 들어오는 가산 잡음이며,
    Figure 112015129414326-pat00048
    는 관찰 신호이며,
    Figure 112015129414326-pat00049
    는 미지의 음원 출력 신호임.
  3. 제1항에 있어서, 상기 (d) 단계는,
    관찰 신호의 해당 블록에 대하여 학습된 채널 필터를 이용하여 음원 출력 신호를 주파수 영역에서 추정하고, 주파수 영역에서 추정된 음원 출력 신호에 문턱값을 적용하여 각 주파수 빈들의 분리에 대한 신뢰도를 판별하고, 신뢰도 판별 결과에 대하여 서로소 조건을 적용하여 마스크를 생성하고, 생성된 마스크를 이용하여 상기 추정된 음원 출력 신호를 수정하고, 수정된 음원 출력 신호를 점수 함수의 입력 신호로 사용하여 채널 필터를 업데이트시키는 것을 특징으로 하는 반향에 강인한 다음원 위치 탐지 방법.
  4. 제3항에 있어서, 상기 (d) 단계에서, 신뢰도 판별 결과에 대하여 서로소 조건을 적용하여 마스크를 생성하기 위하여, 추정된 음원 출력 신호가 문턱값보다 크거나 문턱값을 넘지 못하는 추정된 음원 출력 신호들의 특정 주파수 빈들에 대해 크기가 가장 큰 주파수 빈만이 타당한 빈으로 가정하여 마스크를 생성하는 것을 특징으로 하는 반향에 강인한 다음원 위치 탐지 방법.
  5. 제1항에 있어서, 상기 다음원 위치 탐지 방법은 상기 (d) 단계 이후, (d2) 관찰 신호의 해당 블록에 대하여 상기 업데이트된 채널 필터를 시간 영역의 신호로 변환시킨 후 성김 조건을 적용하는 단계;를 더 구비하여, 직접 경로의 시간 지연을 정확하게 추정할 수 있도록 한 것을 특징으로 한 반향에 강인한 다음원 위치 탐지 방법.
  6. 제5항에 있어서, 채널 필터는 확률 밀도 함수가 라플라시안 확률 밀도 분포라고 가정하고 채널 필터가 성김 특성을 가진다고 가정하고 채널 필터를 추정하는 것을 특징으로 하는 반향에 강인한 다음원 위치 탐지 방법.
  7. 제5항에 있어서, 상기 다음원 위치 탐지 방법은 상기 (d2) 단계 이후, (d3) 관찰 신호의 해당 블록에 대한 학습된 채널 필터를 정규화시키는 단계;를 더 구비하는 것을 특징으로 하는 반향에 강인한 다음원 위치 탐지 방법.



KR1020150191321A 2015-12-31 2015-12-31 독립성분분석을 기반으로 한 반향에 강인한 다음원 탐지 방법 KR101721424B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150191321A KR101721424B1 (ko) 2015-12-31 2015-12-31 독립성분분석을 기반으로 한 반향에 강인한 다음원 탐지 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150191321A KR101721424B1 (ko) 2015-12-31 2015-12-31 독립성분분석을 기반으로 한 반향에 강인한 다음원 탐지 방법

Publications (1)

Publication Number Publication Date
KR101721424B1 true KR101721424B1 (ko) 2017-03-31

Family

ID=58500748

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150191321A KR101721424B1 (ko) 2015-12-31 2015-12-31 독립성분분석을 기반으로 한 반향에 강인한 다음원 탐지 방법

Country Status (1)

Country Link
KR (1) KR101721424B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190021820A (ko) * 2017-08-24 2019-03-06 서강대학교산학협력단 오차 신호를 기반으로 한 음원 위치 탐색 방법 및 음원 위치 탐색 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100107893A (ko) * 2009-03-27 2010-10-06 서강대학교산학협력단 음향 채널 추정에 기반한 음원 위치 탐지 방법
KR101073632B1 (ko) 2010-02-25 2011-10-14 경북대학교 산학협력단 반향 환경에서의 영교차 기반 다음원 국지화 방법 및 장치
EP2437517A1 (en) * 2010-09-30 2012-04-04 Nxp B.V. Sound scene manipulation
KR101334991B1 (ko) 2012-06-25 2013-12-02 서강대학교산학협력단 단일채널 음성신호에 대한 반향신호 제거방법 및 이를 이용한 음성인식장치
KR20140106823A (ko) * 2013-02-27 2014-09-04 한국과학기술원 방향 정보를 이용한 암묵 신호 추출 방법 및 이를 위한 디믹싱 시스템
US20150317983A1 (en) * 2014-04-30 2015-11-05 Accusonus S.A. Methods and systems for processing and mixing signals using signal decomposition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100107893A (ko) * 2009-03-27 2010-10-06 서강대학교산학협력단 음향 채널 추정에 기반한 음원 위치 탐지 방법
KR101073632B1 (ko) 2010-02-25 2011-10-14 경북대학교 산학협력단 반향 환경에서의 영교차 기반 다음원 국지화 방법 및 장치
EP2437517A1 (en) * 2010-09-30 2012-04-04 Nxp B.V. Sound scene manipulation
KR101334991B1 (ko) 2012-06-25 2013-12-02 서강대학교산학협력단 단일채널 음성신호에 대한 반향신호 제거방법 및 이를 이용한 음성인식장치
KR20140106823A (ko) * 2013-02-27 2014-09-04 한국과학기술원 방향 정보를 이용한 암묵 신호 추출 방법 및 이를 위한 디믹싱 시스템
US20150317983A1 (en) * 2014-04-30 2015-11-05 Accusonus S.A. Methods and systems for processing and mixing signals using signal decomposition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190021820A (ko) * 2017-08-24 2019-03-06 서강대학교산학협력단 오차 신호를 기반으로 한 음원 위치 탐색 방법 및 음원 위치 탐색 장치
KR102044393B1 (ko) * 2017-08-24 2019-11-13 서강대학교산학협력단 오차 신호를 기반으로 한 음원 위치 탐색 방법 및 음원 위치 탐색 장치

Similar Documents

Publication Publication Date Title
CN109712611B (zh) 联合模型训练方法及系统
Xiao et al. A learning-based approach to direction of arrival estimation in noisy and reverberant environments
KR100486736B1 (ko) 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
KR101178801B1 (ko) 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
Wang et al. Over-determined source separation and localization using distributed microphones
EP3440670B1 (en) Audio source separation
CN110709929B (zh) 处理声音数据以分离多声道信号中的声源
EP3113508A1 (en) Signal-processing device, method, and program
WO2016119388A1 (zh) 一种基于语音信号构造聚焦协方差矩阵的方法及装置
Pertilä Online blind speech separation using multiple acoustic speaker tracking and time–frequency masking
KR101721424B1 (ko) 독립성분분석을 기반으로 한 반향에 강인한 다음원 탐지 방법
Klein et al. Direction-of-arrival estimation using a microphone array with the multichannel cross-correlation method
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
Hoffmann et al. Using information theoretic distance measures for solving the permutation problem of blind source separation of speech signals
Hadad et al. Multi-speaker direction of arrival estimation using SRP-PHAT algorithm with a weighted histogram
Zohny et al. Modelling interaural level and phase cues with Student's t-distribution for robust clustering in MESSL
Loesch et al. On the robustness of the multidimensional state coherence transform for solving the permutation problem of frequency-domain ICA
Chong et al. Multiple moving speaker tracking via degenerate unmixing estimation technique and cardinality balanced multi-target multi-Bernoulli filter (DUET-CBMeMBer)
KR101463955B1 (ko) 방향 정보를 이용한 암묵 신호 추출 방법 및 이를 위한 디믹싱 시스템
Gburrek et al. On source-microphone distance estimation using convolutional recurrent neural networks
Gunawan et al. Implementation of blind speech separation for intelligent humanoid robot using DUET method
Xue et al. Under-modelled blind system identification for time delay estimation in reverberant environments
US11835625B2 (en) Acoustic-environment mismatch and proximity detection with a novel set of acoustic relative features and adaptive filtering
Roenko et al. Time delay estimation for noise-like wideband signals in non-Gaussian environment
Oh et al. Preprocessing of independent vector analysis using feed-forward network for robust speech recognition

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200304

Year of fee payment: 4

R401 Registration of restoration