KR20100066916A - 음성과 잡음 신호 분리 방법 및 그 장치 - Google Patents

음성과 잡음 신호 분리 방법 및 그 장치 Download PDF

Info

Publication number
KR20100066916A
KR20100066916A KR1020080125433A KR20080125433A KR20100066916A KR 20100066916 A KR20100066916 A KR 20100066916A KR 1020080125433 A KR1020080125433 A KR 1020080125433A KR 20080125433 A KR20080125433 A KR 20080125433A KR 20100066916 A KR20100066916 A KR 20100066916A
Authority
KR
South Korea
Prior art keywords
signal
voice
beamformer
noise signal
equation
Prior art date
Application number
KR1020080125433A
Other languages
English (en)
Other versions
KR101082840B1 (ko
Inventor
박기영
이성주
강병옥
정호영
이윤근
박전규
강점자
정훈
김종진
정의석
전형배
왕지현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080125433A priority Critical patent/KR101082840B1/ko
Publication of KR20100066916A publication Critical patent/KR20100066916A/ko
Application granted granted Critical
Publication of KR101082840B1 publication Critical patent/KR101082840B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Multimedia (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 음성과 잡음 신호 분리 방법 및 그 장치에 관한 것으로, 음원의 통계적 정보를 이용하는 음원 분리 기술과 음원의 공간적 정보를 활용하는 빔포밍 기술을 두개 이상의 마이크로폰을 갖춘 시스템에 사용할 경우 음성 신호와 잡음 신호를 보다 효과적으로 분리할 수 있게 되며, 결과적으로 잡음 환경에서 녹음된 신호로부터 잡음신호가 제거된 깨끗한 음성 신호를 추출할 수 있다. 또한, 본 발명은 암묵 신호 분리 기술에 있어서 학습 과정이 불필요하므로 계산량이 적고 잘못된 학습으로 인한 성능 저하의 염려가 없는 등, 음원 분리의 성능을 높일 뿐만 아니라 동시에 가중치 학습 단계에서 수렴 속도를 높임으로서 계산 효율성도 제고할 수 있으며, 빔포밍 기술의 경우에도 일반적으로 알려지지 않은 잡음원의 개수 및 위치에 관계없이 환경에 강인하게 동작할 수 있다.
빔포머, 음원, 분리, 마이크로폰, 잡음

Description

음성과 잡음 신호 분리 방법 및 그 장치{METHOD FOR SEPARATING NOISE FROM AUDIO SIGNAL}
본 발명은 음성과 잡음 신호 분리 방법 및 그 장치에 관한 것으로, 보다 상세하게 설명하면 통계적 및 공간적 정보를 이용하여 음원 분리 기술과 음원의 공간적 정보를 활용하는 빔포밍(beamforming) 기술을 결합하여 신호의 분리 성능을 향상시킴으로써 음성 신호와 잡음 신호를 분리할 수 있도록 하는 방법 및 그 장치에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-03, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
주지된 바와 같이, 음성 인식 및 음성 신호의 녹음 및 전송 등 음성을 입력하는 기기에 있어서, 음성 신호에 여러 개의 잡음 신호가 섞여 인가되는 경우 이 혼합된 신호로부터 원하는 음성 신호를 추출함으로써 음성 인식 기능을 수행한다.
다시 말하여, 음성을 사용하여 동작하는 기기를 사용할 경우, 음악 소리나 TV 소리 등 다양한 종류의 잡음원이 존재하는 잡음 환경에서도 잡음과 사용자의 발성음인 음성을 분리하여 추출시킨 음성 신호의 음질을 높임으로써 잡음이 없는 환경과 유사한 수준의 성능을 보장하도록 하고 있다.
이에 따라, 신호 분리 기술로서 종래에는 음원 분리 기술인 암묵 신호 분리(blind signal separation) 기술과 빔포밍 기술을 이용하고 있다.
종래의 암묵 신호 분리 기술은 음원간에 통계적으로 유사성이 없다는 가정을 이용하여 분리된 음원간의 통계적 독립성이 최대가 되도록 가중치를 학습하여 음원을 분리한다. 즉, 음성 신호와 잡음 신호의 통계적 특성의 차이를 이용하여 분리된 신호 사이에 통계적 유사성이 최소화 되도록 입력신호를 분리한다.
그리고, 종래의 빔포밍 기술은 음원의 공간적 특성만을 고려하여 사용자가 원하는 방향의 신호를 강화 또는 감쇄시킨다. 즉, 두 개 이상의 마이크로폰을 이용하여 한 개 이상의 음원이 공간적으로 상이하게 배치된 경우 원하는 방향에 있는 신호를 감쇄시키는 것이다.
그러나, 종래의 암묵 신호 분리 기술이 성공적으로 적용되기 위해서는 음성 신호와 잡음 신호가 통계적으로 서로 독립적이라는 가정이 충족되어야 한다. 그러나 일반적인 경우에 음성 신호와 잡음 신호가 완벽히 독립적일 수 없으며, 완벽히 독립적인 경우라 하더라도 분리된 신호 사이에 상호 간섭이 발생하게 된다.
즉, 암묵 신호 분리 기술은 두 개 이상의 마이크로폰으로부터 수집된 신호를 음원의 통계적 특성에 따라 신호를 분리함으로써 음원의 공간적 배치에 관계없이 이용할 수 있다는 장점이 있으나, 음원이 서로 통계적으로 독립적이어야 한다는 제약이 있어, 이러한 제약을 만족시키지 못하는 경우 음원 분리가 이루어지지 못하게 되는 것이다.
그리고, 종래의 빔포밍 기술은 미리 알고 있는 음원의 방향에 대하여 신호를 강화 또는 감쇄시킬 수 있는 선형 필터를 구성하여 입력신호에 인가하는 방법으로서, 마이크로폰 어레이를 이용한 시스템에 널리 활용되고 있으나, 음성 신호 뿐만 아니라 잡음원의 신호의 위치도 미리 알아야 한다는 제약이 있으며 방향을 정확히 아는 경우라 하더라도 음원의 위치에 따라 분리 성능에 영향을 받게 되는 문제점이 있다.
즉, 간단한 방법으로 신호를 분리할 수 있다는 장점이 있으나, 음원이 공간적으로 분리되어 배치되어 있어야 하며 사전에 각각의 방향을 알아야 한다는 제약이 있는 것이다.
이에, 본 발명의 기술적 과제는 상술한 문제점을 해결하기 위해 안출한 것으로서, 한 개 이상의 음원이 존재하는 잡음 환경에서 사용자가 발성하는 경우 두 개 이상의 마이크로폰을 이용하여 신호를 녹음하고, 녹음된 신호로부터 사용자가 발성한 음성 신호와 잡음 신호를 분리함에 있어서, 음성 신호는 정면에 있으며 잡음 신호는 그러하지 않다는 공간적 정보를 이용하는 빔포밍 단계에서 공간적으로 분리된 신호를 암묵 신호 분리 단계의 입력으로 인가함으로써 음원 분리 성능을 높일 수 있도록 한 음성과 잡음 신호의 분리 방법 및 그 장치를 제공한다.
본 발명의 일 관점에 따른 음성과 잡음 신호의 분리 방법은, 한 개 이상의 음원이 존재하는 환경에서 사용자에 의해 발성된 음성 신호 및 잡음 신호를 녹음하는 단계와, 녹음된 음성 신호 및 잡음 신호에 대하여 빔포밍 과정 및 암묵 처리 분리 과정을 통해 공간적 및 통계적으로 분리하는 단계와, 분리된 신호에 대하여 음원 신호를 분리하여 출력하는 단계를 특징으로 한다.
또한, 본 발명의 다른 관점에 따른 음성과 잡음 신호의 분리 장치는, 한 개 이상의 음원이 존재하는 환경에서 사용자에 의해 발성된 음성 신호 및 잡음 신호를 녹음하는 다수의 마이크로폰과, 녹음된 음성 신호 및 잡음 신호에 대하여 빔포밍 과정 및 암묵 처리 분리 과정을 통해 공간적 및 통계적으로 분리하는 빔포머와, 분리된 신호에 대하여 음원 신호를 분리하여 출력하는 음원 분리부를 포함하는 것을 특징으로 한다.
본 발명은 음원의 통계적 정보를 이용하는 음원 분리 기술과 음원의 공간적 정보를 활용하는 빔포밍 기술을 두개 이상의 마이크로폰을 갖춘 시스템에 사용할 경우 음성 신호와 잡음 신호를 보다 효과적으로 분리할 수 있게 되며, 결과적으로 잡음 환경에서 녹음된 신호로부터 잡음신호가 제거된 깨끗한 음성 신호를 추출할 수 있다.
또한, 본 발명은 암묵 신호 분리 기술에 있어서 학습 과정이 불필요하므로 계산량이 적고 잘못된 학습으로 인한 성능 저하의 염려가 없는 등, 음원 분리의 성능을 높일 뿐만 아니라 동시에 가중치 학습 단계에서 수렴 속도를 높임으로서 계산 효율성도 제고할 수 있으며, 빔포밍 기술의 경우에도 일반적으로 알려지지 않은 잡음원의 개수 및 위치에 관계없이 환경에 강인하게 동작할 수 있는 이점이 있다.
또한, 본 발명은 음성을 사용하여 동작하는 기기를 사용할 경우 잡음 환경에서도 효과적으로 사용할 수 있으므로 기기의 효용성을 크게 제고할 수 있는 효과가 있다.
이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 바람직한 실시예에 따른 음성과 잡음 신호 분리 장치에 대 한 블록 구성도로서, 다수의 마이크로폰(10-1,...,10-n)과 빔포머(20)와 음원 분리부(30)를 포함한다.
다수의 마이크로폰(10-1,...,10-n)은 한 개 이상의 음원이 존재하는 잡음환경에서 사용자(S1)가 발성하는 경우 발성된 음성 신호와 주위 잡음 신호를 동시에 녹음하여 빔포머(20)에 제공한다.
빔포머(20)는 다수의 마이크로폰(10-1,...,10-n)으로부터 입력되는 혼합된 음성 신호와 주위 잡음 신호에 대하여 빔포밍 과정을 통해 공간적으로 분리시켜 음원 분리부(30)에 제공한다.
즉, 빔포밍 과정은 수학식 1
Figure 112008085114854-PAT00001
(여기서, wij는 j-번째 마이크로폰의 입력과 i-번째 빔포밍 출력을 연결하는 복소수 가중치 벡터이고, xj(n)은 j-번째 마이크로폰으로부터의 시간
Figure 112008085114854-PAT00002
에서의 입력 신호 벡터이며,
Figure 112008085114854-PAT00003
× xj(n)는 컨볼루션 연산을 의미한다.)
을 이용하여 수행되는데,
상술한 수학식 1에서 wij는 각각의 복소수 가중치 벡터이지만, 이를 다시 묶어서 설명하면 수학식 2와 수학식 3
Figure 112008085114854-PAT00004
Figure 112008085114854-PAT00005
(여기서, wi는 빔포머(20)의 i-번째 출력을 계산하기 위한 가중치 벡터이고, w는 빔포머(20)의 전체 출력을 계산하기 위한 가중치 행렬이다.)
를 이용하여 결정한다. 즉, wij의 값을 어떻게 정하는가에 따라 어떤 방향의 신호를 크게 또는 작게 받아들일 것인지가 결정된다.
또한, 수학식 3에서의 가중치 행렬(w)은 강화 또는 감쇄시키고자 하는 신호의 방향을 알고 있는 경우 수학식 4
Figure 112008085114854-PAT00006
Figure 112008085114854-PAT00007
for
(여기서, wi는 i-번째 빔포머 출력을 계산하기 위한 가중치 벡터이고, aH는 벡터 a의 Hermitian을 의미하고, s(φ)는 각도에 따라 결정되는 조향 벡터(steering vector)를 의미하며, g는 임의로 설정하는 이득을 의미하며, i-번째 출력이 원하는 방향의 신호를 그대로 전달하기 위해서는 g=1로, 원하는 방향의 신 호를 상쇄시키기 위해서는 g=0으로 설정한다.)
를 이용하여 수식의 제약 조건을 만족하도록 계산한다.
상술한 수학식 4에서 s(φ)는 각도에 따라 결정되는 조향 벡터(steering vector)로 수학식 5
Figure 112008085114854-PAT00008
(여기서, M은 마이크로폰의 개수이고, j는 허수이며, T는 트랜스 포즈를 의미한다.)
를 이용하여 정의하고,
상술한 수학식 5에서의 φ는 음원의 방향(θ)에 따라 결정되는 값으로 수학식 6
Figure 112008085114854-PAT00009
(여기서, d는 마이크로폰 사이의 간격이고, λ는 마이크로폰으로부터 입력되는 신호의 파장이다.)
을 이용하여 계산하고,
상술한 수학식 6에서의 신호의 파장(λ)은 수학식 7
Figure 112008085114854-PAT00010
(여기서, c는 소리의 속도, f는 주파수이다.)
를 이용하여 계산한다.
일 예로, 빔포머(20)는 2개의 마이크로폰으로부터 혼합된 음성 신호와 주위 잡음 신호가 입력될 경우, 2개의 출력을 갖게 되며 각 출력을 위한 가중치 값은 수학식 8
Figure 112008085114854-PAT00011
Figure 112008085114854-PAT00012
(여기서, w는 빔포머의 전체 출력을 계산하기 위한 가중치 행렬이고, H는 Hermitian을 의미하며, φt는 원하는 음성 신호의 방향을 나타내며, s(φ)는 각도에 따라 결정되는 조향 벡터로 M=2인 경우이다.)
을 이용하여 계산하고, 이 수학식 8의 제약조건을 동시에 만족하는 값으로 가중치를 결정한다.
상술한 수학식 8에서의 w1은 빔포머(20)의 출력 중 음성을 포함하고 있는 출력을 계산하기 위한 가중치 벡터이고, w2는 빔포머(20)의 출력 중 음성을 상쇄시킨 출력을 계산하기 위한 가중치 벡터로서, 수학식 9
Figure 112008085114854-PAT00013
Figure 112008085114854-PAT00014
(여기서, w는 빔포머의 전체 출력을 계산하기위한 가중치 행렬이고, T는 트랜스 포즈를 의미한다.)
를 이용하여 음성을 포함하고 있는 가중치 벡터와 음성을 상쇄시킨 가중치 백터를 결정한다.
이 결정된 가중치 벡터는 수학식 10
Figure 112008085114854-PAT00015
Figure 112008085114854-PAT00016
(여기서, x1, x2는 각각 첫 번째 및 두 번째 마이크로폰으로부터 입력된 신호를 의미한다.)
을 이용하여 빔포머(20)의 출력을 계산한다.
다시 말하여, 빔포머(20)는 첫 번째 출력에 대하여는 음성 신호를 그대로 유지하도록 사용하고, 두 번째 출력에 대하여는 음성 신호를 완전히 감쇄시킬 수 있도록 사용함으로써 공간적으로 분리된 2개의 신호를 음원 분리부(30)에 제공한다.
일 예로, 2개의 마이크로폰으로 이루어진 장치에서 가장 간단한 형태의 빔포머인 딜레이-앤드-섬(delay-and-sum) 빔포머를 사용하게 되는 경우 상술한 수학식 8을
만족시키는 가중치는 수학식 11
Figure 112008085114854-PAT00017
(여기서, di는 마이크로폰의 중점으로부터 각 마이크로폰까지의 거리이고, θ0은 원하는 음원의 방향이며, f는 신호의 주파수이며, c는 소리의 속도를 나타낸다.)
을 이용하여 계산한다.
상술한 수학식 11에 따라 음성의 각도 θ0=0°인 경우, 즉 사용자가 정면에서 발성한 경우에 대하여 2개의 마이크로폰 입력에 대하여 형성된 두 개의 빔 패턴을 각각 도 3에서의 목적 음원을 강화하기 위한 빔패턴 예시도와 도 4에서의 목적 음원을 상쇄하기 위한 빔패턴 예시도와 같이 도시한다. 즉 2개(M=2)의 마이크로폰을 사용한 경우에는 빔포머의 출력이 2개이며, 이중 음성을 강화하는 출력에는 설정된 각도에 1의 이득을 주고, 나머지 1개의 출력에는 설정된 각도에 대하여 0의 이득을 주도록 가중치를 결정하여 음원 분리부(30)에 제공한다.
또한, 빔포머(20)는 2개 이상(M 〉2)의 마이크로폰에 대하여 가중치를 결정하기 위하여 암묵 처리 분리 과정을 기반으로 2가지의 경우에 대하여 살펴본다.
즉, 첫 번째, 빔포머(20)는 일 예로, 2개의 마이크로폰에 대한 암묵 처리 분리 과정은 2개의 입력을 받아서 2개의 출력을 내도록 하는 경우가 가장 보편화된 방법이며 계산량에 비해 가장 좋은 성능을 보인다. 이런 경우에 3개 이상의 마이크로폰을 갖춘 시스템에서도 가중치는 상술한 수학식 8과 동일한 제약 조건을 사용하여 가중치를 구하도록 함에 따라 2개의 출력만을 가지며 이 2개의 출력이 그대로 음원 분리부(30)에 인가된다.
즉, 3개 이상의 마이크로폰을 이용하는 경우 Minimum Variance 빔포머등 여러 가지 기존 방법을 그대로 이용할 수 있으며, 2개의 마이크로폰을 이용하는 경우에 비해서 보다 정확한 영역에 대해서만 음성을 강화하고 잡음 상쇄 영역에 대해서는 보다 균일하게 잡음을 상쇄시킬 수 있다는 장점을 갖는다.
두 번째, 빔포머(20)는 일 예로, 3개 이상의 마이크로폰에 대한 암묵 처리 분리 과정은 음성 채널의 방향을 알고 있으므로, 음성 채널은 이 쪽 방향의 이득을 1로 하는 상술한 수학식 8에 의해서 결정할 수 있다. 하지만 잡음원의 방향은 일반적으로 알 수 없으므로 임의의 위치에 균등하게 분포하고 있다고 가정하고 수학식 8을 이용하여 계산한다.
즉, 암묵 신호 분리를 위한 장치가 L개의 입력을 요구하는 경우 이중 1개는 알려진 음성 방향을 강화하는 수학식을 적용하고 나머지 L-1개의 출력에 대해서는 음성 방향을 고려하여 그 방향을 제외한 나머지 영역을 가장 균등하게 분포하는 방향을 결정하고 해당 방향의 소리를 강화하는 빔포머를 구성하도록 한다.
다시 말하여, 음성 방향을 제외한 나머지 영역을 균등하게 분포하는 방향을 결정하기 위하여 음성 방향을 포함한 모든 방향에 대하여 마이크로폰의 전면 0∼180°를 L개의 방향으로 분할하여 도 2에 도시된 빔패턴 형성 방향에 대한 예시도에서와 같이 배치한다.
즉, 0도,
Figure 112008085114854-PAT00018
,
Figure 112008085114854-PAT00019
,
Figure 112008085114854-PAT00020
,
Figure 112008085114854-PAT00021
개의 방향을 설정한다.
이 후, 이 L개의 방향 중 음성의 방향과 가장 가까운 각도를 음성의 방향과 동일하도록 수정한다.
상술한 바와 같이 수정된 각각의 각도를 φ1, φ2,..., φL이라고 했을때 L개의 가중치 벡터는 수학식 12
Figure 112008085114854-PAT00022
Figure 112008085114854-PAT00023
Figure 112008085114854-PAT00024
Figure 112008085114854-PAT00025
(여기서, w는 빔포머의 전체 출력을 계산하기 위한 가중치 행렬이고, H는 Hermitian을 의미하며, φ는 원하는 음성 신호의 방향을 나타내며, s(φ)는 각도에 따라 결정되는 조향 벡터를 의미한다.)
를 이용하여 수식의 제약조건을 만족시키는 값으로 설정한다.
음원 분리부(30)는 빔포머(20)로부터 입력되는 음성 신호와 주위 잡음 신호에 대하여 빔포밍 과정 및 암묵 처리 분리 과정을 통해 공간적 및 통계적으로 분리된 신호에 대하여 음원 신호를 분리하여 출력한다.
따라서, 본 발명은 음원의 통계적 정보를 이용하는 음원 분리 기술과 음원의 공간적 정보를 활용하는 빔포밍 기술을 두개 이상의 마이크로폰을 갖춘 시스템에 사용할 경우 음성 신호와 잡음 신호를 보다 효과적으로 분리할 수 있게 되며, 결과적으로 잡음 환경에서 녹음된 신호로부터 잡음신호가 제거된 깨끗한 음성 신호를 추출할 수 있는 이점이 있다.
한편, 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 바람직한 실시예에 따른 음성과 잡음 신호 분리 장치에 대한 블록 구성도,
도 2는 본 발명에 따른 빔패턴 형성 방향에 대한 예시도,
도 3은 본 발명에 따른 목적 음원을 강화하기 위한 빔패턴 예시도,
도 4는 본 발명에 따른 목적 음원을 상쇄하기 위한 빔패턴 예시도.
<도면의 주요부분에 대한 부호의 설명>
10 : 다수의 마이크로폰 20 : 빔포머
30 : 음원 분리부

Claims (14)

  1. 한 개 이상의 음원이 존재하는 환경에서 사용자에 의해 발성된 음성 신호 및 잡음 신호를 녹음하는 단계와,
    상기 녹음된 음성 신호 및 잡음 신호에 대하여 빔포밍 과정 및 암묵 처리 분리 과정을 통해 공간적 및 통계적으로 분리하는 단계와,
    상기 분리된 신호에 대하여 음원 신호를 분리하여 출력하는 단계
    를 포함하는 음성과 잡음 신호 분리 방법.
  2. 제 1 항에 있어서,
    상기 빔포밍 과정은,
    수학식 1
    Figure 112008085114854-PAT00026
    (여기서, wij는 j-번째 마이크로폰의 입력과 i-번째 빔포밍 출력을 연결하는 복소수 가중치 벡터이고, xj(n)은 j-번째 마이크로폰으로부터의 시간
    Figure 112008085114854-PAT00027
    에서의 입력 신호 벡터이며,
    Figure 112008085114854-PAT00028
    × xj(n)는 컨볼루션 연산을 의미한다.)
    을 이용하여 수행되는 것을 특징으로 하는 음성과 잡음 신호 분리 방법.
  3. 제 2 항에 있어서,
    상기 wij는,
    수학식 2
    Figure 112008085114854-PAT00029
    수학식 3
    Figure 112008085114854-PAT00030
    (여기서, wi는 빔포머의 i-번째 출력을 계산하기 위한 가중치 벡터이고, w는 빔포머의 전체 출력을 계산하기 위한 가중치 행렬이다.)
    를 이용하여 결정하는 것을 특징으로 하는 음성과 잡음 신호 분리 방법.
  4. 제 3 항에 있어서,
    상기 가중치 행렬(w)은,
    수학식 4
    Figure 112008085114854-PAT00031
    for
    Figure 112008085114854-PAT00032
    (여기서, wi는 i-번째 빔포머 출력을 계산하기 위한 가중치 벡터이고, aH는 벡터 a의 Hermitian을 의미하고, s(φ)는 각도에 따라 결정되는 조향 벡터(steering vector)를 의미하며, g는 임의로 설정하는 이득을 의미하며, i-번째 출력이 원하는 방향의 신호를 그대로 전달하기 위해서는 g=1로, 원하는 방향의 신호를 상쇄시키기 위해서는 g=0으로 설정한다.)
    를 이용하여 계산하는 것을 특징으로 하는 음성과 잡음 신호 분리 방법.
  5. 제 4 항에 있어서,
    상기 조향 벡터(s(φ))는,
    수학식 5
    Figure 112008085114854-PAT00033
    (여기서, M은 마이크로폰의 개수이고, j는 허수이며, T는 트랜스 포즈를 의미한다.)
    를 이용하여 정의하는 것을 특징으로 하는 음성과 잡음 신호 분리 방법.
  6. 제 5 항에 있어서,
    상기 φ는,
    수학식 6
    Figure 112008085114854-PAT00034
    (여기서, φ는 음원의 방향(θ)에 따라 결정되는 값이고, d는 마이크로폰 사이의 간격이고, λ는 마이크로폰으로부터 입력되는 신호의 파장이다.)
    을 이용하여 계산하는 것을 특징으로 하는 음성과 잡음 신호 분리 방법.
  7. 제 1 항에 있어서,
    상기 분리하는 단계는,
    상기 녹음된 음성 신호와 잡음 신호가 입력될 경우, 2개의 출력을 갖게 되며 상기 출력을 위한 가중치 값은,
    수학식 8
    Figure 112008085114854-PAT00035
    Figure 112008085114854-PAT00036
    (여기서, w는 빔포머의 전체 출력을 계산하기 위한 가중치 행렬이고, H는 Hermitian을 의미하며, φt는 원하는 음성 신호의 방향을 나타내며, s(φ)는 각도에 따라 결정되는 조향 벡터로 M=2인 경우이다.)
    을 이용하여 계산하는 것을 특징으로 하는 음성과 잡음 신호 분리 방법.
  8. 제 7 항에 있어서,
    상기 w1은 빔포머의 출력 중 음성을 포함하고 있는 출력을 계산하기 위한 가중치 벡터이고, w2는 빔포머의 출력 중 음성을 상쇄시킨 출력을 계산하기 위한 가중치 벡터로서,
    수학식 9
    Figure 112008085114854-PAT00037
    Figure 112008085114854-PAT00038
    (여기서, w는 빔포머의 전체 출력을 계산하기위한 가중치 행렬이고, T는 트랜스 포즈를 의미한다.)
    를 이용하여 음성을 포함하고 있는 가중치 벡터와 음성을 상쇄시킨 가중치 백터를 결정하는 것을 특징으로 하는 음성과 잡음 신호 분리 방법.
  9. 제 8 항에 있어서,
    상기 수학식 9에 의해 결정된 가중치 벡터는,
    수학식 10
    Figure 112008085114854-PAT00039
    Figure 112008085114854-PAT00040
    (여기서, x1, x2는 각각 첫 번째 및 두 번째 마이크로폰으로부터 입력된 신호를 의미한다.)
    을 이용하여 상기 빔포머의 출력을 계산하는 것을 특징으로 하는 음성과 잡음 신호 분리 방법.
  10. 제 1 항에 있어서,
    상기 분리하는 단계는,
    상기 녹음된 음성 신호와 잡음 신호가 입력될 경우, 딜레이-앤드-섬(delay-and-sum) 빔포머를 이용하는 가중치는,
    수학식 11
    Figure 112008085114854-PAT00041
    (여기서, di는 마이크로폰의 중점으로부터 각 마이크로폰까지의 거리이고, θ0은 원하는 음원의 방향이며, f는 신호의 주파수이며, c는 소리의 속도를 나타낸 다.)
    을 이용하여 계산하는 것을 특징으로 하는 음성과 잡음 신호 분리 방법.
  11. 제 1 항에 있어서,
    상기 암묵 처리 분리 과정은,
    음성 방향을 제외한 나머지 영역에 대하여 균등하게 분포하는 음성 방향을 포함한 모든 방향에 대하여 마이크로폰의 전면 0∼180°를 L개의 방향으로 분할하여
    0도,
    Figure 112008085114854-PAT00042
    ,
    Figure 112008085114854-PAT00043
    ,
    Figure 112008085114854-PAT00044
    ,
    Figure 112008085114854-PAT00045
    개의 방향으로 설정하는 것을 특징으로 하는 음성과 잡음 신호 분리 방법.
  12. 제 11 항에 있어서,
    상기 L개의 방향 중 음성의 방향과 가장 가까운 각도를 음성의 방향과 동일하게 수정한 다음에, 상기 수정된 각각의 각도를 φ1, φ2,..., φL이라고 했을때 L개의 가중치 벡터는,
    수학식 12
    Figure 112008085114854-PAT00046
    Figure 112008085114854-PAT00047
    Figure 112008085114854-PAT00048
    Figure 112008085114854-PAT00049
    (여기서, w는 빔포머의 전체 출력을 계산하기 위한 가중치 행렬이고, H는 Hermitian을 의미하며, φ는 원하는 음성 신호의 방향을 나타내며, s(φ)는 각도에 따라 결정되는 조향 벡터를 의미한다.)
    를 이용하여 설정하는 것을 특징으로 하는 음성과 잡음 신호 분리 방법.
  13. 한 개 이상의 음원이 존재하는 환경에서 사용자에 의해 발성된 음성 신호 및 잡음 신호를 녹음하는 다수의 마이크로폰과,
    상기 녹음된 음성 신호 및 잡음 신호에 대하여 빔포밍 과정 및 암묵 처리 분리 과정을 통해 공간적 및 통계적으로 분리하는 빔포머와,
    상기 분리된 신호에 대하여 음원 신호를 분리하여 출력하는 음원 분리부
    를 포함하는 음성과 잡음 신호 분리 장치.
  14. 제 13 항에 있어서,
    상기 빔포머는,
    상기 다수의 마이크로폰으로부터 입력되는 상기 녹음된 음성 신호 및 잡음 신호를 공간적으로 분리하는 과정에서 사용자가 위치하는 방향에 해당하는 1개의 신호에 대하여 신호를 강화하는 것을 특징으로 하는 음성과 잡음 신호 분리 장치.
KR1020080125433A 2008-12-10 2008-12-10 음성과 잡음 신호 분리 방법 및 그 장치 KR101082840B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080125433A KR101082840B1 (ko) 2008-12-10 2008-12-10 음성과 잡음 신호 분리 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080125433A KR101082840B1 (ko) 2008-12-10 2008-12-10 음성과 잡음 신호 분리 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20100066916A true KR20100066916A (ko) 2010-06-18
KR101082840B1 KR101082840B1 (ko) 2011-11-11

Family

ID=42365746

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080125433A KR101082840B1 (ko) 2008-12-10 2008-12-10 음성과 잡음 신호 분리 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR101082840B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101232216B1 (ko) * 2010-12-08 2013-02-12 주식회사 나무가 양방향 동시대화 방법 및 양방향 동시대화가 가능한 화상회의시스템
WO2014133338A1 (en) * 2013-02-27 2014-09-04 Korea Advanced Institute Of Science And Technology Blind signal extraction method using direction of arrival information and de-mixing system therefor
CN108447476A (zh) * 2017-02-06 2018-08-24 北京嘀嘀无限科技发展有限公司 用于请求服务以及服务资源分配的方法及装置
CN112951195A (zh) * 2021-02-24 2021-06-11 辽宁省视讯技术研究有限公司 一种车载主动降噪动态调控方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101232216B1 (ko) * 2010-12-08 2013-02-12 주식회사 나무가 양방향 동시대화 방법 및 양방향 동시대화가 가능한 화상회의시스템
WO2014133338A1 (en) * 2013-02-27 2014-09-04 Korea Advanced Institute Of Science And Technology Blind signal extraction method using direction of arrival information and de-mixing system therefor
KR101463955B1 (ko) * 2013-02-27 2014-11-21 한국과학기술원 방향 정보를 이용한 암묵 신호 추출 방법 및 이를 위한 디믹싱 시스템
CN108447476A (zh) * 2017-02-06 2018-08-24 北京嘀嘀无限科技发展有限公司 用于请求服务以及服务资源分配的方法及装置
CN112951195A (zh) * 2021-02-24 2021-06-11 辽宁省视讯技术研究有限公司 一种车载主动降噪动态调控方法及系统

Also Published As

Publication number Publication date
KR101082840B1 (ko) 2011-11-11

Similar Documents

Publication Publication Date Title
Hoshen et al. Speech acoustic modeling from raw multichannel waveforms
Sainath et al. Multichannel signal processing with deep neural networks for automatic speech recognition
Sainath et al. Speaker location and microphone spacing invariant acoustic modeling from raw multichannel waveforms
EP3707716B1 (en) Multi-channel speech separation
Shimada et al. Unsupervised speech enhancement based on multichannel NMF-informed beamforming for noise-robust automatic speech recognition
Kanda et al. Acoustic modeling for distant multi-talker speech recognition with single-and multi-channel branches
KR101280253B1 (ko) 음원 분리 방법 및 그 장치
Ravanelli et al. Batch-normalized joint training for DNN-based distant speech recognition
WO2022012206A1 (zh) 音频信号处理方法、装置、设备及存储介质
CN108417224A (zh) 双向神经网络模型的训练和识别方法及系统
KR101082840B1 (ko) 음성과 잡음 신호 분리 방법 및 그 장치
Hammer et al. Dynamically localizing multiple speakers based on the time-frequency domain
Sainath et al. Raw multichannel processing using deep neural networks
US20220076690A1 (en) Signal processing apparatus, learning apparatus, signal processing method, learning method and program
Barhoush et al. Speaker identification and localization using shuffled MFCC features and deep learning
Takatani et al. High-fidelity blind separation of acoustic signals using SIMO-model-based independent component analysis
Mandel et al. Multichannel Spatial Clustering for Robust Far-Field Automatic Speech Recognition in Mismatched Conditions.
JP2020012980A (ja) 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置
Togami Spatial constraint on multi-channel deep clustering
Kovalyov et al. Dfsnet: A steerable neural beamformer invariant to microphone array configuration for real-time, low-latency speech enhancement
JP6961545B2 (ja) 音信号処理装置、音信号処理方法、およびプログラム
Muñoz-Montoro et al. Multichannel singing voice separation by deep neural network informed doa constrained cmnmf
Tesch et al. Multi-Channel Speech Separation Using Spatially Selective Deep Non-Linear Filters
JP2010152107A (ja) 目的音抽出装置及び目的音抽出プログラム
Yang et al. Guided Speech Enhancement Network

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141027

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151028

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170607

Year of fee payment: 6

R401 Registration of restoration
FPAY Annual fee payment

Payment date: 20171012

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee