KR101068666B1 - 잡음 환경에서 적응적인 잡음 제거도에 기초한 잡음 제거 방법 및 장치 - Google Patents

잡음 환경에서 적응적인 잡음 제거도에 기초한 잡음 제거 방법 및 장치 Download PDF

Info

Publication number
KR101068666B1
KR101068666B1 KR1020100092379A KR20100092379A KR101068666B1 KR 101068666 B1 KR101068666 B1 KR 101068666B1 KR 1020100092379 A KR1020100092379 A KR 1020100092379A KR 20100092379 A KR20100092379 A KR 20100092379A KR 101068666 B1 KR101068666 B1 KR 101068666B1
Authority
KR
South Korea
Prior art keywords
speech
excitation signal
correlation
learning rate
signal
Prior art date
Application number
KR1020100092379A
Other languages
English (en)
Inventor
한민수
홍정표
한승호
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020100092379A priority Critical patent/KR101068666B1/ko
Application granted granted Critical
Publication of KR101068666B1 publication Critical patent/KR101068666B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명에 따른 적응식 잡음 제거 방법은, 입력된 다채널 신호마다 선형 예측 분석을 통해 여기 신호를 생성하는 단계, 생성된 여기 신호를 이용하여 채널 간의 여기 신호 상호 상관도(NCC)를 측정하는 단계, 음성 부재 상황에서의 여기 신호 상호 상관도의 조건부 확률과 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률을 기초로, 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값을 추정하는 단계, 추정된 음성 부재 확률 값과 LCMV 빔포밍의 학습률이 양의 상관 관계를 갖도록 판정 함수를 이용하여 학습률을 결정하는 단계 및 학습률에 따라 LCMV 빔포밍을 수행하는 단계를 포함할 수 있다.

Description

잡음 환경에서 적응적인 잡음 제거도에 기초한 잡음 제거 방법 및 장치{METHOD AND APPARATUS FOR NOISE CANCELLATION BASED ON ADAPTIVE NOISE REMOVAL DEGREE IN NOISE ENVIRONMENT}
본 발명은 잡음 제거 기술에 관한 것으로, 더욱 상세하게는, 빔포밍을 이용한 잡음 제거 기술에 관한 것이다.
빔포밍(beamforming) 또는 빔형성 기술은 신호 소스로부터 수신되는 목적 신호와 잡음 소스로부터 생성된 잡음 신호를 센서 어레이(sensor array)에서 공간 샘플링하고 공간 필터(spatial filter)를 이용하여 공간적으로 분리함으로써 목적 신호를 추출하는 방법이다. 이러한 동작을 하는 장치를 빔포머(beamformer)라고 한다.
빔포밍은 음성 인식, 레이더, 소나, 초음파 탐지 등의 분야에서 신호 소스의 방향과 목적 신호를 깨끗하게 추출하는 데에 널리 사용되고 있다.
그 중에서 LCMV(Linearly Constrained Minimum Variance) 빔포밍 기법은 빔포머의 출력의 분산이 최소화되도록 하는 선형 제약 조건들을 찾아 빔포머의 공간 필터를 최적화하는 기법이다. 출력의 분산을 최소화하면 잡음 구간의 신호가 출력에 기여하는 정도가 최소화됨으로써 목적 신호가 추출될 수 있다.
LCMV는 목적 신호 구간을 판별하는 알고리즘(AMC: Adaptation Mode Controller)의 성능에 크게 영향을 받지 않고, 목적신호를 보존하는 측면에서 적응형 빔포밍 중 가장 널리 쓰이는 GSC(Generalized Sidelobe Canceller)보다 우수하다. 그러나 목적신호를 유지하기 위한 제약 조건으로 인한 빔포머 필터계수의 수렴 속도가 느리기 때문에 GSC보다 배경 잡음 제거 면에서 열등하다.
아래의 수학식 1은 LCMV의 비용함수이다.
Figure 112010061179414-pat00001
여기서
Figure 112010061179414-pat00002
는 입력 벡터이고,
Figure 112010061179414-pat00003
는 빔포머 적응필터 계수이다. K 와 J는 각각 마이크와 시간지연 탭의 개수이고, RXX는 입력의 자기 상관(auto-correlation)이다. 수학식 1을 라그랑제 승수법(Lagrange multiplyer)을 이용하여 전개하면, 수학식 2와 같은 최적화된 빔포머 필터 계수를 구할 수 있다.
Figure 112010061179414-pat00004
C 와 f는 각각 제약 행렬과 [1,0,...,0] T 로 구성된 벡터이다. 수학식 2의 폐형 공식으로부터 빔포머의 최적필터 계수를 추정할 수 있겠으나, 행렬의 차수가 너무 클 위험이 있으므로 계산적인 측면에서 부적절하다. 따라서 LCMV의 최적화된 필터계수를 구할때는 신호의 표본 영역에서 동작하는 적응 필터 기법을 사용하는 것이 좋다. 수학식 3은 적응필터 기법을 적용한 최적화된 필터계수이다.
Figure 112010061179414-pat00005
n,μ 그리고 y(n)은 각각 샘플 인덱스, 학습률, 그리고 빔포머 출력을 나타낸다. P와 F는 각각
Figure 112010061179414-pat00006
Figure 112010061179414-pat00007
로 표현된다.
기존의 LCMV 빔포밍은 빔포머 필터 계수의 학습률(μ)이 고정되어있다. 그런데, 빔포머 필터 계수의 학습률은 물리적으로 잡음제거 정도와 깊이 연관되어 있다. 고정된 학습률의 단점은 목적 신호 구간과 잡음만 존재하는 구간의 구분없이 일괄적인 학습률을 할당하여 잡음 제거도가 균일하다는 것이다. 즉, 높은 학습률을 할당하면, 전체적으로 배경 잡음은 많이 제거되지만, 목적 신호 구간이 많이 깎이게 되고, 낮은 학습률은 배경 잡음이 많이 남아 잡음 제거의 효과가 적다.
본 발명이 해결하고자 하는 과제는 비정적 잡음 환경에서도 성능이 뛰어난 음성 부재 확률을 이용한 목적 신호 검출을 기반으로 하여, 구간 정보에 따라 잡음 제거도를 조절하는 방법 및 그러한 빔포밍 장치를 제공하는 데에 있다.
본 발명의 일 측면에 따른 적응식 잡음 제거 방법은,
입력된 다채널 신호마다 선형 예측 분석을 통해 여기 신호를 생성하는 단계;
생성된 여기 신호를 이용하여 채널 간의 여기 신호 상호 상관도(NCC)를 측정하는 단계;
음성 부재 상황에서의 여기 신호 상호 상관도의 조건부 확률과 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률을 기초로, 상기 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값을 추정하는 단계;
상기 추정된 음성 부재 확률 값과 LCMV 빔포밍의 학습률이 양의 상관 관계를 갖도록 판정 함수를 이용하여 상기 학습률을 결정하는 단계; 및
상기 학습률에 따라 LCMV 빔포밍을 수행하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 여기 신호는 다음 수학식
Figure 112010061179414-pat00008
에 기초하여 생성되며, 여기서 ei(n)은 여기 신호, xi(n)은 입력 신호, p는 선형 예측 계수, i는 채널 인덱스이고, αik는 상기 입력 다채널 신호가 통과하는 등화기의 계수일 수 있다.
일 실시예에 따르면, 상기 여기 신호 상호 상관도는 다음 수학식
Figure 112010061179414-pat00009
에 기초하여 생성되며, 여기서 ei(n)은 여기 신호, φm은 해당 구간에서 채널 간의 여기 신호 상관도(NCC)이고, l은 구간의 길이이며, i,j는 채널 인덱스일 수 있다.
일 실시예에 따르면, 상기 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률과 음성 부재 상황에서의 여기 신호 상호 상관도의 조건부 확률은 각각
Figure 112010061179414-pat00010
이며, 여기서,
Figure 112010061179414-pat00011
Figure 112010061179414-pat00012
는 각각 목적 신호와 잡음 구간에서의 여기 신호 상호 상관도의 분산일 수 있다.
일 실시예에 따르면, 상기 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값은, 다음 수학식
Figure 112010061179414-pat00013
Figure 112010061179414-pat00014
,
Figure 112010061179414-pat00015
으로 주어지며, 여기서, ξ(φm)와 γ(φm)는 각각 선험적(a-priori) NCC-SNR(signal noise ratio)와 후험적(a posteriori) NCC-SNR일 수 있다.
일 실시예에 따르면, 상기 선험적 NCC-SNR과 상기 후험적 NCC-SNR은 각각
Figure 112010061179414-pat00016
Figure 112010061179414-pat00017
일 수 있다.
일 실시예에 따르면, 상기 판정 함수는 시그모이드(sigmoid) 함수일 수 있다.
일 실시예에 따르면, 상기 학습률은
Figure 112010061179414-pat00018
에 의하여 계산되며, 여기서 μ은 학습률, α는 판정 함수의 기울기, γ와 β는 판정 함수의 최대값을 조절하기 위한 변수, M은 함수의 수평 이동 값을 지정하는 변수이며, p(H0m)은 상기 계산된 음성 부재 확률일 수 있다.
일 실시예에 따르면, 채널 간 특성을 보상하기 위해 상기 다채널 신호를 등화기에 통과시키는 단계를 더 포함할 수 있다.
일 실시예에 따르면, 상기 등화기의 계수 αik는 다음 수학식
Figure 112010061179414-pat00019
에 기초하여 계산되며, 여기서 k는 이산 주파수, τ는 시간, T는 총 음성 신호 블록의 개수이고,
Figure 112010061179414-pat00020
,
Figure 112010061179414-pat00021
이며, FFT[]는 고속 푸리에 변환 함수이고, x1(τ), xi(τ)는 채널 별 입력 신호일 수 있다.
일 실시예에 따르면, 각 주파수 성분의 위치 정보를 추정하기 위하여 상기 다채널 신호를 채널 별로 등화기에 통과시키는 단계를 더 포함할 수 있다.
본 발명의 다른 측면에 따른 컴퓨터 장치로 읽을 수 있는 기록 매체는 컴퓨터 장치에서 본 발명의 여러 실시예들에 따른 적응식 잡음 제거 방법의 각 단계들을 실행시킬 수 있다.
본 발명의 다른 측면에 따른 적응식 잡음 제거 장치는,
입력된 다채널 신호에 관하여, 음성 부재 상황에서의 채널 간의 여기 신호 상호 상관도의 조건부 확률과 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률을 기초로, 상기 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값을 추정하고, 상기 추정된 음성 부재 확률 값에 기초하여 LCMV 빔포밍의 학습률을 조절하는 학습률 조절부; 및
다채널 입력 신호들에 대해 상기 학습률에 따라 LCMV 빔포밍을 수행하는 LCMV 빔포머를 포함할 수 있다.
일 실시예에 따르면, 상기 학습률 조절부는
입력된 다채널 신호마다 선형 예측 분석을 통해 여기 신호를 생성하는 여기 신호 계산부;
상기 생성된 여기 신호를 이용하여 채널 간의 여기 신호 상호 상관도를 측정하는 여기 신호 상호 상관도 계산부;
음성 부재 상황에서의 채널 간의 여기 신호 상호 상관도의 조건부 확률과 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률을 기초로, 상기 추정된 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값을 추정하는 음성 부재 확률 계산부; 및
상기 추정된 음성 부재 확률 값과 LCMV 빔포밍의 학습률이 양의 상관 관계를 갖도록 판정 함수를 이용하여 상기 학습률을 결정하는 학습률 판정부를 포함할 수 있다.
일 실시예에 따르면, 상기 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값은, 다음 수학식
Figure 112010061179414-pat00022
Figure 112010061179414-pat00023
,
Figure 112010061179414-pat00024
으로 주어지며, 여기서, ξ(φm)와 γ(φm)는 각각 선험적(a-priori) NCC-SNR(signal noise ratio)와 후험적(a posteriori) NCC-SNR이며, 상기 선험적 NCC-SNR과 상기 후험적 NCC-SNR은 각각
Figure 112010061179414-pat00025
Figure 112010061179414-pat00026
일 수 있다.
일 실시예에 따르면, 상기 학습률은
Figure 112010061179414-pat00027
에 의하여 계산되며, 여기서 μ은 학습률, α는 판정 함수의 기울기, γ와 β는 판정 함수의 최대값을 조절하기 위한 변수, M은 함수의 수평 이동 값을 지정하는 변수이며, p(H0m)은 상기 계산된 음성 부재 확률일 수 있다.
일 실시예에 따르면, 상기 다채널 신호를 통과시켜 채널 간 특성을 보상하는 등화기를 더 포함할 수 있다.
본 발명의 다른 측면에 따른 음성 인식 장치는 잡음 제거단 및 음성 인식단을 포함하는 음성 인식 장치로서,
상기 잡음 제거단은
입력된 다채널 신호에 관하여, 음성 부재 상황에서의 채널 간의 여기 신호 상호 상관도의 조건부 확률과 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률을 기초로, 상기 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값을 추정하고, 상기 추정된 음성 부재 확률 값에 기초하여 LCMV 빔포밍의 학습률을 조절하는 학습률 조절부; 및
다채널 입력 신호들에 대해 상기 학습률에 따라 LCMV 빔포밍을 수행함으로써 상기 입력된 다채널 신호에서 잡음을 제거한 출력 신호를 출력하는 LCMV 빔포머를 포함할 수 있다.
일 실시예에 따르면, 상기 잡음 제거단은,
다채널 신호를 통과시켜 채널 간 특성을 보상하는 등화기를 더 포함할 수 있다.
본 발명의 다른 측면에 따른 전자 장치는 음성 인식 장치를 포함한 전자 장치로서,
상기 음성 인식 장치는 잡음 제거단 및 음성 인식단을 포함하고,
상기 잡음 제거단은,
입력된 다채널 신호에 관하여, 음성 부재 상황에서의 채널 간의 여기 신호 상호 상관도의 조건부 확률과 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률을 기초로, 상기 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값을 추정하고, 상기 추정된 음성 부재 확률 값에 기초하여 LCMV 빔포밍의 학습률을 조절하는 학습률 조절부; 및
다채널 입력 신호들에 대해 상기 학습률에 따라 LCMV 빔포밍을 수행함으로써 상기 입력된 다채널 신호에서 잡음을 제거한 출력 신호를 출력하는 LCMV 빔포머를 포함하며,
상기 음성 인식단은
상기 잡음 제거단에서 잠음이 제거된 출력 신호를 입력 받아 음성학에 기초하여 음가마다 고유한 특성을 추출하고, 추출된 음성 특징을 발성 문법과 음향 모델에 기초하여 음소를 추출하여, 상기 입력된 다채널 신호에 상응하는 텍스트를 생성할 수 있다.
본 발명의 빔포밍 장치 및 방법에 따르면, 종래의 LCMV의 맹점인 목적 신호 구간과 배경 잡음 구간의 구별없이 전체 입력 신호를 일괄적인 학습률로 적용하여 잡음 제거를 수행하는 것을 해소하고, 음성 부재 확률을 통해 현재 구간 정보를 판단하여 구간 정보에 따라 잡음 제거를 적응적으로 수행함으로써, 음성 왜곡은 최소화하고 잡음 제거 효과는 최대화할 수 있다.
나아가, 본 발명의 음성 인식 방법 및 장치에 따르면 LCMV 알고리즘을 기초로 수신한 음성 신호 중에서 배경 잡음을 효과적으로 제거하고 목적 신호를 효율적으로 추출함으로써 음성 인식 알고리즘에 인가되는 입력 신호를 명료하게 만들어 음성 인식 효과를 최대화할 수 있다.
도 1은 본 발명의 일 실시예에 따른 LCMV 빔포밍을 이용한 잡음 제거 방법을 예시한 순서도이다.
도 2는 본 발명의 일 실시예에 따른 잡음 제거 방법에서 여기신호 상호 상관도를 이용한 음성 부재 확률 측정 프로세스를 예시한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 LCMV 빔포머 필터를 예시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 LCMV 빔포머를 포함한 잡음 제거 장치를 예시한 블록도이다.
도 5는 본 발명의 일 실시예에 따른 잡음 제거 결과를 나타낸 그래프들이다.
도 6은 본 발명의 일 실시예에 따른 적응형 잡음 제거 방법을 이용한 음성 인식 장치의 블록도이다.
본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
일반적으로 음성 인식은 컴퓨터가 음향학적인 신호를 텍스트로 매핑시키는 과정으로, 달리 표현하면 마이크나 전화기에서 획득한 음향학적 신호를 단어나 단어 집단, 문장 등으로 변환하는 과정이다. 이때, 마이크나 전화기에서 얻어지는 신호는 배경 잡음과 주변 사람들의 목소리 등 목적 신호 외의 잡음이 많이 포함되어 있기 때문에, 음성 인식에 앞서 잡음이 적절하게 제거될 필요가 있다.
본 발명은 잡음을 제거하는 방법과 그러한 잡음 제거를 통한 음성 인식 방법에 관한 것으로, LCMV 빔포밍 기법을 이용한 잡음 제거 방법에 기초하지만 종래의 LCMV 기법과 달리 학습률을 조절함으로써 비정적인 잡음을 효율적으로 제거할 수 있다. 이는 입력 신호의 신호 대 잡음 비를 개선시킴으로써, 이후의 음성 인식단에서 이뤄지는 음성 인식률을 향상시킬 수 있다.
본 발명은 LCMV 빔포밍 기법에 기반하므로, 센서 어레이 즉, 적어도 2 개의 마이크로폰 어레이를 이용한다. 2채널 마이크로폰 어레이를 가지는 휴대폰, 차량 핸드프리 장치, 네비게이션 장치, 홈 오토메이션 시스템 등이나, 4채널 또는 8채널의 마이크로폰 어레이를 가지는 가정용 내지 업무용 로봇 등에 적용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 LCMV 빔포밍을 이용한 잡음 제거 방법을 예시한 순서도이다.
도 1을 참조하면, 잡음 제거 방법은 먼저 단계(S11)에서 목적 신호의 위치 정보를 입력받는 단계로부터 시작한다.
이어서, 단계(S12)에서 마이크로폰 어레이 내의 각 마이크로폰들 사이의 부정합을 보정하기 위해 등화기(equalizer)의 설정 정보를 입력받는다. 마이크로폰 사이의 특성 차이는 실제 환경에서 피할 수 없고, 그러한 마이크로폰에서 신호를 수신하여 디지털 신호로 변환하는 A/D 변환기의 특성도 차이가 날 수 있다. 따라서, 이러한 특성 차이에 따른 보상을 주파수 영역에서 수행하는 것이 바람직하다.
기준 채널이 1번이고 입력 채널의 수가 N개일 때에, i번째 입력 채널 신호의 등화기 구현을 위한 비용 함수는 수학식 4로 나타낼 수 있다.
Figure 112010061179414-pat00028
여기서, k는 이산 주파수, τ는 시간, T는 총 음성 신호 블록의 개수이다. 또한,
Figure 112010061179414-pat00029
,
Figure 112010061179414-pat00030
이며, FFT[]는 고속 푸리에 변환 함수이다. x1(τ), xi(τ)는 채널 별 입력 신호이다. αik는 채널의 주파수 응답을 보정하기 위한 등화기 계수이다. 수학식 4를 최적화하면 수학식 5를 얻을 수 있다.
Figure 112010061179414-pat00031
수학식 5와 같이 계산된 등화기 계수가 단계(S12)에서 입력된다.
이어서, 단계(S13)에서는 구간 간격으로 단구간 다채널 신호를 입력받는다. 이때, 단구간 다채널 신호는 단계(12)에서 계산된 등화기 계수에 따라 설정된 등화기를 통과하여 채널간 특성의 차이가 보상된 상태이다.
단계(S14)에서, 입력된 다채널 신호마다 선형 예측 분석(LPC: linear Prediction Coding)을 통해 수학식 6과 같이 여기 신호(excitation signal)을 생성한다.
Figure 112010061179414-pat00032
여기서 ei(n)은 여기 신호, xi(n)은 입력 신호, p는 선형 예측 계수, i는 채널 인덱스이다. αik는 앞서 계산된 등화기 계수이다.
여기 신호는 입력 채널의 반사 성분을 제거하기 위한 것이다. 근거리 환경에서 본 알고리즘이 사용될 경우에는 대부분의 입력 신호가 직선 경로로 입력되기 때문에 반사되어 입력되는 신호는 적다. 하지만 원거리 환경에서 사용될 경우나, 음원과 마이크로폰 어레이의 간격이 넓을 경우에는, 마이크로폰 어레이에 입력되는 신호 중 반향에 의한 반사 성분이 증가하여, 입력 신호의 첨예도(kurtosis)가 낮아진다. 이로 인해 목적 신호와 잡음 신호 사이의 신호 크기 차이가 작아지고, 목적 신호 구간이 넓게 나타난다. 그 결과 목적 신호 구간의 검출이 어렵게 된다.
따라서, 여기 신호를 이용하여, 목적 신호의 첨예도를 높이고 반사 신호를 제거함으로써 목적 신호 구간의 검출을 용이하게 한다. 이를 위해, 단계(S14)에서 여기 신호를 생성하였다.
단계(S15)에서는, 생성된 여기 신호 e(n)을 이용하여 채널 간의 상호 상관도(NCC: normalized cross correlation)를 수학식 7과 같이 측정한다.
Figure 112010061179414-pat00033
φm은 해당 구간에서 채널 간의 여기 신호 상관도(NCC)이고, l은 구간의 길이이며, i,j는 채널 인덱스이다.
단계(S16)에서는, 측정된 채널 간의 상호 상관도를 이용하여 음성 부재 확률(SAP: speech absence probability) 값을 추정한다.
수학식 8과 같이, 여기 신호 상관도 값이 입력 신호에 잡음만 있을 경우의 여기 신호 상관도(NCC)와 같은 상황을 H0라고 하고, 입력 신호에 잡음과 목적 신호가 섞여 있을 경우의 여기 신호 상관도와 같은 상황을 H1이라 하자.
Figure 112010061179414-pat00034
여기서,
Figure 112010061179414-pat00035
은 목적 신호의 NCC이고,
Figure 112010061179414-pat00036
는 잡음의 NCC이다.
그렇다면, 음성이 부재하는 상황 H0과 음성이 존재하는 상황 H1에 대한 확률 밀도 함수는 각각 수학식 9와 같다. H0일 때 NCC가 어떤 φm일 확률과 H1일 때 NCC가 어떤 φm일 확률은 다음과 같다.
Figure 112010061179414-pat00037
여기서,
Figure 112010061179414-pat00038
Figure 112010061179414-pat00039
는 각각 NCC의 목적 신호와 잡음의 분산이다.
수학식 9로부터, NCC가 어떤 φm일 때에 음성이 부재한 H0 상황일 음성 부재 확률 값을 구하면 수학식 10과 같다.
Figure 112010061179414-pat00040
여기서,
Figure 112010061179414-pat00041
이고,
Figure 112010061179414-pat00042
이다. ξ(φm)와 γ(φm)는 각각 선험적(a-priori) NCC-SNR(signal noise ratio)와 후험적(a posteriori) NCC-SNR이다.
음성 부재 확률 값을 연산하는 단계(S16)의 세부 단계들은 도 2에서 상세하게 설명한다.
단계(S17)에서는, 추정된 음성 부재 확률 값에 기초하여 수학식 11과 같이 예를 들어 시그모이드(sigmoid) 함수와 같은 판정(decision) 함수를 이용하여 LCMV 빔포밍의 학습률을 연판정(soft decision)한다.
Figure 112010061179414-pat00043
여기서 학습률(μ)은 판정 함수의 기울기인 α, 판정 함수의 최대값을 조절하기 위한 변수인 γ와 β, 함수의 수평 이동 값을 지정하는 변수인 M, 그리고 이전 단계(S13 내지 S16)를 통해 구한 음성 부재 확률인 p(H0m)에 의해 결정될 수 있다. 이때, 음성 부재 확률을 제외한 나머지 변수들, α, γ, β, M은 반복적인 실험을 통해 최적의 값으로 선택될 수 있다.
시그모이드 함수는 엎드린 S자 형태의 곡선을 통칭하는 용어로서 수학식 11은 대표적인 시그모이드 함수인 (1/1+e-x) 형태를 따른 예시이다.
이렇듯, 학습률은 음성 부재 확률에 대체로 양의 상관 관계를 갖도록 할당된다. 다시 말해, 각각의 구간 중에서 인식 대상인 음성이 존재하는(즉, 음성 부재 확률이 낮은) 목적 신호 구간에서는 학습률이 낮게 결정되고, 음성이 없는(즉, 음성 부재 확률이 높은) 배경 잡음 구간에서는 학습률이 높게 결정된다.
단계(S18)에서, 결정된 학습률에 따라 LCMV 빔포밍을 수행한다. 해당 구간에서 학습률이 낮게 결정되면 잡음 제거가 적게 수행되고, 반면에 해당 구간에서 학습률이 높게 결정되면 잡음 제거가 강하게 수행된다.
단계(S19)에서는 현재 신호 프레임이 신호의 끝인지 여부에 따라, 종료하거나 단계(S13)으로 돌아가 다음 신호 프레임의 단구간 다채널 신호 입력을 수신한다.
도 2는 본 발명의 일 실시예에 따른 잡음 제거 방법에서 여기신호 상호 상관도를 이용한 음성 부재 확률 측정 프로세스를 예시한 순서도이다.
도 2를 참조하면, 단계(S16)은 단계(S21)에서, 단계(S15)에서 생성된 여기 신호 상호 상관도(NCC)를 입력받는 단계로부터 시작할 수 있다. 단계(S21)과 단계(S22)에서 소정 개수, 예를 들어 20개(N<20)의 단구간에 걸쳐 반복적으로 여기 신호 상호 상관도 값들을 입력받아, 잡음을 추정한다.
이어서 단계(S23)에서, 입력 NCC들에 대해 log10[·]를 취한다.
다음으로, 단계(S24)에서 목적 신호와 잡음 구간의 NCC의 분산을 이용하여 선험적(a-priori) NCC-SNR와 후험적(a posteriori) NCC-SNR을 구한다.
이를 위해, 먼저 목적 신호 구간에서의 NCC의 분산 값의 갱신은
Figure 112010061179414-pat00044
에 의해 이루어진다. 잡음 구간에서의 NCC의 분산 값은 잡음을 갱신할 경우
Figure 112010061179414-pat00045
에 의해, 잡음을 갱신하지 않을 경우
Figure 112010061179414-pat00046
에 의해 갱신된다. κ=0.95이다.
그렇게 구한 목적 신호 구간의 NCC의 분산
Figure 112010061179414-pat00047
과 잡음 구간의 NCC의 분산
Figure 112010061179414-pat00048
을 기초로 각각 다음 수학식 12, 13과 같이 선험적 NCC-SNR과 후험적 NCC-SNR을 구한다.
Figure 112010061179414-pat00049
Figure 112010061179414-pat00050
단계(S25)에서 수학식 10의 Λ[·]를 연산하고, 단계(S26)에서 음성 부재 확률(SAP) p(H0m)을 연산한다.
단계(S27)에서 현재 단구간이 신호의 끝인지 판정하고, 신호의 끝이면 단계(S17)로 이탈하고, 신호의 끝이 아니면 단계(S21)로 돌아가서 위 단계들을 반복한다.
이렇게 구한 음성 부재 확률은 수학식 11에 대입되어 학습률이 계산된다.
도 3은 본 발명의 일 실시예에서 이용될 수 있는 LCMV 빔포머 필터를 예시한 도면이다.
도 3을 참조하면, (가) 부분은 통상적인 LCMV 빔포머 디지털 필터로서, K는 마이크로폰 어레이에 포함된 마이크로폰의 개수이고, x1(n), x2(n), xK(n)은 각각 1, 2, 내지 K 번째 마이크로폰에서 샘플링되어 입력되는 입력 신호들이다. w는 시간 지연된 이산 신호들에 대한 필터 계수, J는 시간 지연 탭들의 개수이다.
(나) 부분은 (가) 부분의 여러 지연 경로들을 가진 디지털 필터에 대해 등가인 필터의 구조로서, f=[1,0,0,...,0]이고, fj는 wkj의 합이다. 목적 신호의 주파수 응답을 왜곡없이 유지할 수 있는 구조이다.
필터 계수는 수학식 1 내지 수학식 3에서 나타낸 바와 같이 결정될 수 있다. 본 발명은 수학식 3에서 μ를 적응적으로 조절함으로써 필터 계수를 더욱 최적화할 수 있다.
도 4는 본 발명의 일 실시예에 따른 LCMV 빔포머를 포함한 잡음 제거 장치를 예시한 블록도이다.
도 4를 참조하면, 잡음 제거 장치(40)는 LCMV 빔포머(41)와 학습률 조절부(42)를 포함한다. M개의 마이크로폰들로 이루어진 마이크로폰 어레이에서 입력되는 M 개의 입력들(x1(n),...xM(n))이 LCMV 빔포머(41)에 입력되며, LCMV 빔포머(41)의 학습률을 결정하는 학습률 조절부(42)가 학습률을 LCMV 빔포머(41)에 제공한다.
LCMV 빔포머(41)는 학습률 조절부(42)로부터 제공된 학습률에 따라 M 개의 입력들(x1(n),...xM(n))에 관하여 LCMV 빔포밍 기법을 수행하여 잡음이 제거된 출력 y(n)을 출력한다.
학습률 조절부(42)는 여기 신호 계산부(421), 여기 신호 상호 상관도 계산부(422), 음성 부재 확률 계산부(423), 학습률 판정부(424)를 포함할 수 있다.
여기 신호 계산부(421)는 입력 신호들 중에서 순차적으로 선택되는 두 개의 입력 신호로부터 각각 수학식 6과 같이 여기 신호를 계산하고, 모든 입력에 관하여 계산된 여기 신호들을 여기 신호 상호 상관도(NCC) 계산부(422)에 인가한다.
여기 신호 상호 상관도 계산부(422)는 전달된 여기 신호들 중에서 순차적으로 선택되는 두 개의 여기 신호 사이의 상호 상관도들을 수학식 7과 같이 모두 계산한다.
음성 부재 확률(SAP) 계산부(423)는 계산된 여기 신호 상호 상관도들을 기초로 음성 부재 확률을 수학식 10과 같이 계산한다.
학습률 판정부(424)는 계산된 음성 부재 확률을 기초로 수학식 11의 시그모이드 함수와 같은 판정 함수를 통해 학습률을 결정한다.
결정된 학습률은 LCMV 빔포머(41)에 제공된다.
도 5는 본 발명의 일 실시예에 따른 잡음 제거 결과를 나타낸 그래프들이다.
도 5를 참조하면, 샘플링 주파수가 16 kHz, 마이크로폰 어레이에 포함된 마이크로폰이 8 개이며, 마이크로폰 간격은 4 cm, 목적 신호원 1개와 잡음 신호원 1개, 목적 신호원과 잡음 신호원 간의 각도는 45도, 4번 및 5번 마이크로폰 사이의 NCC-SNR이 5 dB로 설계한 측정 환경에서, 위에서부터 입력 신호, 종래의 고정된 학습률에 따른 LCMV 빔포밍의 결과, 본 발명의 적응식 학습률에 따른 LCMV 빔포밍의 결과를 측정한 그래프들이다.
맨 위의 그래프부터 각각, (가)는 목적 신호에 잡음이 섞인 입력 신호, (나)는 종래의 LCMV 기법에서 학습률 0.01로 잡음 제거된 신호, (다)는 종래의 LCMV 기법에서 학습률 0.1로 잡음 제거된 신호이며, (라)는 본 발명의 적응식 학습률에 따른 LCMV 빔포밍에 따라 잡음이 제거된 신호이다.
(나)의 경우, 낮은 학습률에 따라 목적 신호가 많이 보존되었지만 동시에 잡음도 적게 제거되었다. (다)의 경우, 높은 학습률에 따라 잡음이 많이 제거되었지만, 동시에 목적 신호도 많이 감쇄되었다.
이에 비해, (라)의 경우에는, 잡음만 있는 구간에서는 (나)에 비해 잡음이 많이 제거되고, 음성이 존재하는 구간에서는 (다)에 비해 음성이 많이 보존되었다.
도 6은 본 발명의 일 실시예에 따른 적응형 잡음 제거 방법을 이용한 음성 인식 장치의 블록도이다.
도 6을 참조하면, 음성 인식 장치(60)는 적응형 잡음 제거단(61)과 음성 인식단(62)을 포함한다.
적응형 잡음 제거단(61)은 LCMV 빔포머(41)와 학습률 조절부(42)를 포함하며, 학습률 조절부(42)에서 적응적으로 조절되는 학습률에 따라 LCMV 빔포머(41)에서 입력 신호로부터 잡음이 적응적으로 제거된 전처리 신호를 출력한다.
음성 인식단(62)은 특징 추출부(621), 디코더(622) 및 후처리부(623)를 포함한다. 특징 추출부(621)는 잡음이 제거된 전처리 신호를 입력받아 음성학에 기초하여 음가마다 고유한 특성을 추출한다. 디코더(622)는 추출된 음성 특징을 발성 문법과 음향 모델에 기초하여 음소를 추출하고, 후처리부(623)는 추출된 음소를 기초로 언어 문법, 컨텍스트 등을 고려한 후처리를 수행하여 입력된 신호에 상응하는 텍스트를 출력한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명이 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이와 균등하거나 또는 등가적인 변형 모두는 본 발명 사상의 범주에 속한다 할 것이다.
또한, 본 발명에 따른 장치는 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, 광학 디스크, 자기 테이프, 플로피 디스크, 하드 디스크, 비휘발성 메모리 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
40 잡음 제거 장치
41 LCMV 빔포머
42 학습률 조절부
421 여기 신호 계산부
422 여기 신호 상호 상관도 계산부
423 음성 부재 확률 계산부
424 학습률 판정부
60 음성 인식 장치
61 적응형 잡음 제거단
62 음성 인식단
621 특징 추출부
622 디코더
623 후처리부

Claims (20)

  1. 입력된 다채널 신호마다 선형 예측 분석을 통해 여기 신호를 생성하는 단계;
    생성된 여기 신호를 이용하여 채널 간의 여기 신호 상호 상관도(NCC)를 측정하는 단계;
    음성 부재 상황에서의 여기 신호 상호 상관도의 조건부 확률과 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률을 기초로, 상기 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값을 추정하는 단계;
    상기 추정된 음성 부재 확률 값과 LCMV 빔포밍의 학습률이 양의 상관 관계를 갖도록 판정 함수를 이용하여 상기 학습률을 결정하는 단계; 및
    상기 학습률에 따라 LCMV 빔포밍을 수행하는 단계를 포함하는 적응식 잡음 제거 방법.
  2. 청구항 1에 있어서, 상기 여기 신호는 다음 수학식
    Figure 112010061179414-pat00051

    에 기초하여 생성되며, 여기서 ei(n)은 여기 신호, xi(n)은 입력 신호, p는 선형 예측 계수, i는 채널 인덱스이고, αik는 상기 입력 다채널 신호가 통과하는 등화기의 계수인 것을 특징으로 하는 적응식 잡음 제거 방법.
  3. 청구항 1에 있어서, 상기 여기 신호 상호 상관도는 다음 수학식
    Figure 112010061179414-pat00052

    에 기초하여 생성되며, 여기서 ei(n)은 여기 신호, φm은 해당 구간에서 채널 간의 여기 신호 상관도(NCC)이고, l은 구간의 길이이며, i,j는 채널 인덱스인 것을 특징으로 하는 적응식 잡음 제거 방법.
  4. 청구항 1에 있어서, 상기 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률과 음성 부재 상황에서의 여기 신호 상호 상관도의 조건부 확률은 각각
    Figure 112010061179414-pat00053

    이며, 여기서,
    Figure 112010061179414-pat00054
    Figure 112010061179414-pat00055
    는 각각 목적 신호와 잡음 구간에서의 여기 신호 상호 상관도의 분산인 것을 특징으로 하는 적응식 잡음 제거 방법.
  5. 청구항 4에 있어서, 상기 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값은, 다음 수학식
    Figure 112010061179414-pat00056

    Figure 112010061179414-pat00057
    ,
    Figure 112010061179414-pat00058

    으로 주어지며, 여기서, ξ(φm)와 γ(φm)는 각각 선험적(a-priori) NCC-SNR(signal noise ratio)와 후험적(a posteriori) NCC-SNR인 것을 특징으로 하는 적응식 잡음 제거 방법.
  6. 청구항 5에 있어서, 상기 선험적 NCC-SNR과 상기 후험적 NCC-SNR은 각각
    Figure 112010061179414-pat00059

    Figure 112010061179414-pat00060

    인 것을 특징으로 하는 적응식 잡음 제거 방법.
  7. 청구항 6에 있어서, 상기 판정 함수는 시그모이드(sigmoid) 함수인 것을 특징으로 하는 적응식 잡음 제거 방법.
  8. 청구항 1에 있어서, 상기 학습률은
    Figure 112010061179414-pat00061

    에 의하여 계산되며, 여기서 μ은 학습률, α는 판정 함수의 기울기, γ와 β는 판정 함수의 최대값을 조절하기 위한 변수, M은 함수의 수평 이동 값을 지정하는 변수이며, p(H0m)은 상기 계산된 음성 부재 확률인 것을 특징으로 하는 적응식 잡음 제거 방법.
  9. 청구항 1에 있어서, 채널 간 특성을 보상하기 위해 상기 다채널 신호를 등화기에 통과시키는 단계를 더 포함하는 것을 특징으로 하는 적응식 잡음 제거 방법.
  10. 청구항 9에 있어서, 상기 등화기의 계수 αik는 다음 수학식
    Figure 112010061179414-pat00062

    에 기초하여 계산되며, 여기서 k는 이산 주파수, τ는 시간, T는 총 음성 신호 블록의 개수이고,
    Figure 112010061179414-pat00063
    ,
    Figure 112010061179414-pat00064
    이며, FFT[]는 고속 푸리에 변환 함수이고, x1(τ), xi(τ)는 채널 별 입력 신호인 것을 특징으로 하는 적응식 잡음 제거 방법.
  11. 청구항 1에 있어서, 각 주파수 성분의 위치 정보를 추정하기 위하여 상기 다채널 신호를 채널 별로 등화기에 통과시키는 단계를 더 포함하는 것을 특징으로 하는 적응식 잡음 제거 방법.
  12. 컴퓨터 장치에서 청구항 1 내지 청구항 11 중 어느 한 청구항의 적응식 잡음 제거 방법의 각 단계들을 실행시키기 위한 프로그램을 기록한 컴퓨터 장치로 읽을 수 있는 기록 매체.
  13. 입력된 다채널 신호에 관하여, 음성 부재 상황에서의 채널 간의 여기 신호 상호 상관도의 조건부 확률과 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률을 기초로, 상기 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값을 추정하고, 상기 추정된 음성 부재 확률 값에 기초하여 LCMV 빔포밍의 학습률을 조절하는 학습률 조절부; 및
    다채널 입력 신호들에 대해 상기 학습률에 따라 LCMV 빔포밍을 수행하는 LCMV 빔포머를 포함하는 적응식 잡음 제거 장치.
  14. 청구항 13에 있어서, 상기 학습률 조절부는
    입력된 다채널 신호마다 선형 예측 분석을 통해 여기 신호를 생성하는 여기 신호 계산부;
    상기 생성된 여기 신호를 이용하여 채널 간의 여기 신호 상호 상관도를 측정하는 여기 신호 상호 상관도 계산부;
    음성 부재 상황에서의 채널 간의 여기 신호 상호 상관도의 조건부 확률과 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률을 기초로, 상기 추정된 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값을 추정하는 음성 부재 확률 계산부; 및
    상기 추정된 음성 부재 확률 값과 LCMV 빔포밍의 학습률이 양의 상관 관계를 갖도록 판정 함수를 이용하여 상기 학습률을 결정하는 학습률 판정부를 포함하는 것을 특징으로 하는 적응식 잡음 제거 장치.
  15. 청구항 13에 있어서, 상기 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값은, 다음 수학식
    Figure 112010061179414-pat00065

    Figure 112010061179414-pat00066
    ,
    Figure 112010061179414-pat00067

    으로 주어지며, 여기서, ξ(φm)와 γ(φm)는 각각 선험적(a-priori) NCC-SNR(signal noise ratio)와 후험적(a posteriori) NCC-SNR이며, 상기 선험적 NCC-SNR과 상기 후험적 NCC-SNR은 각각
    Figure 112010061179414-pat00068

    Figure 112010061179414-pat00069

    인 것을 것을 특징으로 하는 적응식 잡음 제거 장치.
  16. 청구항 14에 있어서, 상기 학습률은
    Figure 112010061179414-pat00070

    에 의하여 계산되며, 여기서 μ은 학습률, α는 판정 함수의 기울기, γ와 β는 판정 함수의 최대값을 조절하기 위한 변수, M은 함수의 수평 이동 값을 지정하는 변수이며, p(H0m)은 상기 계산된 음성 부재 확률인 것을 특징으로 하는 적응식 잡음 제거 장치.
  17. 청구항 13에 있어서, 상기 다채널 신호를 통과시켜 채널 간 특성을 보상하는 등화기를 더 포함하는 것을 특징으로 하는 적응식 잡음 제거 장치.
  18. 잡음 제거단 및 음성 인식단을 포함하는 음성 인식 장치로서,
    상기 잡음 제거단은
    입력된 다채널 신호에 관하여, 음성 부재 상황에서의 채널 간의 여기 신호 상호 상관도의 조건부 확률과 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률을 기초로, 상기 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값을 추정하고, 상기 추정된 음성 부재 확률 값에 기초하여 LCMV 빔포밍의 학습률을 조절하는 학습률 조절부; 및
    다채널 입력 신호들에 대해 상기 학습률에 따라 LCMV 빔포밍을 수행함으로써 상기 입력된 다채널 신호에서 잡음을 제거한 출력 신호를 출력하는 LCMV 빔포머를 포함하는 것을 특징으로 하는 음성 인식 장치.
  19. 청구항 18에 있어서, 상기 잡음 제거단은,
    다채널 신호를 통과시켜 채널 간 특성을 보상하는 등화기를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
  20. 음성 인식 장치를 포함한 전자 장치로서,
    상기 음성 인식 장치는 잡음 제거단 및 음성 인식단을 포함하고,
    상기 잡음 제거단은,
    입력된 다채널 신호에 관하여, 음성 부재 상황에서의 채널 간의 여기 신호 상호 상관도의 조건부 확률과 음성 존재 상황에서의 여기 신호 상호 상관도의 조건부 확률을 기초로, 상기 여기 신호 상호 상관도 값에 따른 음성 부재 확률 값을 추정하고, 상기 추정된 음성 부재 확률 값에 기초하여 LCMV 빔포밍의 학습률을 조절하는 학습률 조절부; 및
    다채널 입력 신호들에 대해 상기 학습률에 따라 LCMV 빔포밍을 수행함으로써 상기 입력된 다채널 신호에서 잡음을 제거한 출력 신호를 출력하는 LCMV 빔포머를 포함하며,
    상기 음성 인식단은
    상기 잡음 제거단에서 잠음이 제거된 출력 신호를 입력 받아 음성학에 기초하여 음가마다 고유한 특성을 추출하고, 추출된 음성 특징을 발성 문법과 음향 모델에 기초하여 음소를 추출하여, 상기 입력된 다채널 신호에 상응하는 텍스트를 생성하는 것을 특징으로 하는 전자 장치.
KR1020100092379A 2010-09-20 2010-09-20 잡음 환경에서 적응적인 잡음 제거도에 기초한 잡음 제거 방법 및 장치 KR101068666B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100092379A KR101068666B1 (ko) 2010-09-20 2010-09-20 잡음 환경에서 적응적인 잡음 제거도에 기초한 잡음 제거 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100092379A KR101068666B1 (ko) 2010-09-20 2010-09-20 잡음 환경에서 적응적인 잡음 제거도에 기초한 잡음 제거 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101068666B1 true KR101068666B1 (ko) 2011-09-28

Family

ID=44958041

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100092379A KR101068666B1 (ko) 2010-09-20 2010-09-20 잡음 환경에서 적응적인 잡음 제거도에 기초한 잡음 제거 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101068666B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190019464A (ko) 2017-08-17 2019-02-27 국방과학연구소 소리 데이터 분류 장치 및 방법
KR102263135B1 (ko) * 2020-12-09 2021-06-09 주식회사 모빌린트 딥러닝 알고리즘을 이용한 소음 제거 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070085193A (ko) * 2007-08-07 2007-08-27 한국정보통신대학교 산학협력단 잡음제거 장치 및 방법
KR20100059637A (ko) * 2008-11-25 2010-06-04 한국과학기술원 음성과 비음성 구간 판별 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070085193A (ko) * 2007-08-07 2007-08-27 한국정보통신대학교 산학협력단 잡음제거 장치 및 방법
KR20100059637A (ko) * 2008-11-25 2010-06-04 한국과학기술원 음성과 비음성 구간 판별 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190019464A (ko) 2017-08-17 2019-02-27 국방과학연구소 소리 데이터 분류 장치 및 방법
KR102263135B1 (ko) * 2020-12-09 2021-06-09 주식회사 모빌린트 딥러닝 알고리즘을 이용한 소음 제거 방법 및 장치

Similar Documents

Publication Publication Date Title
Kinoshita et al. Neural Network-Based Spectrum Estimation for Online WPE Dereverberation.
CN110100457B (zh) 基于噪声时变环境的加权预测误差的在线去混响算法
US10403299B2 (en) Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
US9697826B2 (en) Processing multi-channel audio waveforms
Yoshioka et al. Making machines understand us in reverberant rooms: Robustness against reverberation for automatic speech recognition
US9881631B2 (en) Method for enhancing audio signal using phase information
US7895038B2 (en) Signal enhancement via noise reduction for speech recognition
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP6169910B2 (ja) 音声処理装置
US20220068288A1 (en) Signal processing apparatus, signal processing method, and program
GB2398913A (en) Noise estimation in speech recognition
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
CN110120217B (zh) 一种音频数据处理方法及装置
EP3685378B1 (en) Signal processor and method for providing a processed audio signal reducing noise and reverberation
US10460729B1 (en) Binary target acoustic trigger detecton
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
Stern et al. Multiple approaches to robust speech recognition
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
Nesta et al. Blind source extraction for robust speech recognition in multisource noisy environments
KR100917460B1 (ko) 잡음제거 장치 및 방법
Habets et al. Dereverberation
KR100940629B1 (ko) 잡음 제거 장치 및 방법
Song et al. An integrated multi-channel approach for joint noise reduction and dereverberation
EP3847645B1 (en) Determining a room response of a desired source in a reverberant environment
EP2774147B1 (en) Audio signal noise attenuation

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140827

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee