KR101305373B1 - 관심음원 제거방법 및 그에 따른 음성인식방법 - Google Patents

관심음원 제거방법 및 그에 따른 음성인식방법 Download PDF

Info

Publication number
KR101305373B1
KR101305373B1 KR1020110136285A KR20110136285A KR101305373B1 KR 101305373 B1 KR101305373 B1 KR 101305373B1 KR 1020110136285 A KR1020110136285 A KR 1020110136285A KR 20110136285 A KR20110136285 A KR 20110136285A KR 101305373 B1 KR101305373 B1 KR 101305373B1
Authority
KR
South Korea
Prior art keywords
sound source
vector
interest
signal
equation
Prior art date
Application number
KR1020110136285A
Other languages
English (en)
Other versions
KR20130068869A (ko
Inventor
박형민
오명우
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020110136285A priority Critical patent/KR101305373B1/ko
Priority to PCT/KR2012/011018 priority patent/WO2013089536A1/ko
Priority to US14/365,720 priority patent/US9609431B2/en
Publication of KR20130068869A publication Critical patent/KR20130068869A/ko
Application granted granted Critical
Publication of KR101305373B1 publication Critical patent/KR101305373B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/03Reduction of intrinsic noise in microphones

Abstract

본 발명에 따르는 관심음원 제거방법은, 두 개의 마이크 각각으로부터의 입력 혼합신호를 제공받아 단구간 푸리에 변환하여 시간-주파수 영역으로 변환하는 단계; 상기 시간-주파수 영역의 입력 혼합신호들로부터 관심음원을 제거하기 위한 관심음원제거 벡터를 설정하는 단계; 상기 관심음원제거 벡터를 이용하여 입력 혼합신호에서 관심음원을 제거하여 혼합된 잡음신호를 생성하는 단계;를 구비함을 특징으로 한다.

Description

관심음원 제거방법 및 그에 따른 음성인식방법{Interested audio source cancellation method and voice recognition method thereof}
본 발명은 관심음원 제거기술에 관한 것으로, 더욱 상세하게는 다수 개의 음원으로부터의 음향신호가 혼합되는 환경에 설치된 두 개의 마이크를 통해 제공되는 혼합신호에서 관심음원만을 제거하는 것을 통해 혼합된 잡음신호를 추정하는 관심음원 제거방법 및 그에따른 음성인식방법에 관한 것이다.
암묵 신호 분리(Blind Source Separation)기술은 두 개 이상의 마이크로부터 채집된 혼합신호로부터 관심음원을 분리하는 기술이다.
상기한 암묵 신호 분리기술에 대한 종래 기술에 대해 설명한다.
[비정규분포의 정도(non-Gaussianity)에 기반한 독립성분분석(Independent Component Analysis)]
먼저 비정규분포의 정도에 기반한 독립성분분석 기법에 대해 설명한다.
일반적으로 독립성분분석은 다음과 같은 모델로 설명된다.
Figure 112011100236592-pat00001
Figure 112011100236592-pat00002
상기 수학식 1 및 2에서 y는 독립성분분석의 출력 벡터이고, x는 마이크로폰의 입력 벡터, s는 찾고자 하는 음원의 벡터이다.
그러나 음원이 마이크로 들어오기까지의 혼합 행렬 A를 알지 못하는 상태에서 그것의 의사 역행렬(Pseudo-inverse Matrix) W를 찾아야 하는 것이 독립성분분석의 문제였다.
상기한 독립성분분석의 문제는 Aapo Hyvarinen, "Fast and robust fixed-point algorithms for independent component analysis", IEEE Trans. on Neural Networks, vol. 10, no. 3, 1999. 에 따라, 비정규분포의 정도(non-Gaussianity)를 측정함으로써 해결할 수 있으며, 이는 중심극한정리에 기초한다. 즉, 독립된 관심음원과 혼합된 잡음신호가 존재할 때 혼합된 잡음신호는 여러 개의 독립된 잡음신호들의 합성이므로 독립된 관심음원에 비해 상대적으로 정규분포를 띠게 된다. 이에따라 출력신호의 비정규분포의 정도를 최대화하면 각각의 독립성분을 분리해낼 수 있다는 것이다.
도 1은 독립된 한 사람이 발성한 음원의 히스토그램과 많은 사람들이 한꺼번에 떠드는 소리인 배블잡음의 히스토그램을 예시한 것으로, 혼합된 잡음신호가 독립된 관심음원보다 상대적으로 정규분포에 더 가깝다.
[역엔트로피 최대화 기반 독립성분분석 기법]
출력신호
Figure 112011100236592-pat00003
의 비정규분포의 정도를 측정하기 위해서 수학식 3에 따른 역엔트로피(negentropy)의 정의를 활용한다.
Figure 112011100236592-pat00004
여기에서,
Figure 112011100236592-pat00005
Figure 112011100236592-pat00006
와 동일한 분산을 갖는 정규분포 확률변수이다. 그리고 확률 밀도 함수가
Figure 112011100236592-pat00007
인 확률변수
Figure 112011100236592-pat00008
의 엔트로피
Figure 112011100236592-pat00009
는 수학식 4에 따라 표현된다.
Figure 112011100236592-pat00010
동일한 분산을 갖는 확률변수 중 가장 큰 엔트로피를 갖는 확률변수는 정규분포 확률변수이므로 역엔트로피를 최대화함으로써 추정되는 출력신호
Figure 112011100236592-pat00011
에 대한 비정규분포의 정도를 최대화할 수 있고, 중심극한정리에 의해 이렇게 추정된 출력신호
Figure 112011100236592-pat00012
는 원래 음원 신호에 가까워진다. 상기한 역엔트로피는 직접적인 계산이 매우 복잡하기 때문에 대칭 분포를 갖는 확률변수에 대해 수학식 5와 같이 근사화할 수 있다.
Figure 112011100236592-pat00013
이러한 근사화 방법은 고차원 중첩 근사화방법을 일반화한 것으로, 이는 출력신호
Figure 112011100236592-pat00014
에 대한 2차가 아닌 비선형 함수(nonquadratic function)
Figure 112011100236592-pat00015
의 기대값을 이용한다. 이 비선형 함수
Figure 112011100236592-pat00016
는 첨도(kurtosis) 기반일 때
Figure 112011100236592-pat00017
로 근사화한다. 그리고 첨도 기반 외에도 다음과 같은 효과적인 비선형 함수가 존재한다.
Figure 112011100236592-pat00018
Figure 112011100236592-pat00019
상기 수학식 6 및 7에서 출력신호
Figure 112011100236592-pat00020
는 평균은 0이고, 분산은 1로 가정한다. 이때,
Figure 112011100236592-pat00021
를 백색화(whitening)하면 평균은 0이고, 상관행렬(correlation matrix)은 단위행렬(identity matrix)이 되므로 유니테리행렬(unitary matrix)로 변환을 통해 평균이 0이고, 분산이 1인
Figure 112011100236592-pat00022
를 추정할 수 있고 유니테리행렬의 특성을 이용하여 간략한 변환행렬 학습식을 유도할 수 있다. 백색화 변환 행렬을
Figure 112011100236592-pat00023
라고 했을 때, 입력신호
Figure 112011100236592-pat00024
에 대한 백색화 출력
Figure 112011100236592-pat00025
는 수학식 8과 같이 표현된다.
Figure 112011100236592-pat00026
상기 수학식 8에서
Figure 112011100236592-pat00027
는 입력 공분산 행렬의 고유값들의 대각 행렬이고,
Figure 112011100236592-pat00028
는 입력 공분산 행렬의 고유벡터들의 모음 행렬이다.
상기한 수학식 8에 따라 백색화된 확률변수
Figure 112011100236592-pat00029
를 이용한 역엔트로피 수식은 수학식 9와 같다.
Figure 112011100236592-pat00030
상기 수학식 9에서
Figure 112011100236592-pat00031
는 norm이 1인 벡터이며,
Figure 112011100236592-pat00032
는 평균은 0, 분산은 1인 정규분포 확률변수이다. 그리고
Figure 112011100236592-pat00033
보다
Figure 112011100236592-pat00034
이 항상 작기 때문에, 역엔트로피를 최대화하는 것은
Figure 112011100236592-pat00035
을 최소화하는 것과 동일하다. 상기 역엔트로피를 최대화하기 위하여
Figure 112011100236592-pat00036
에 대한 최대경사법 알고리즘을 이끌어 낼 수 있다. 그에 따른 알고리즘은 수학식 10 및 수학식 11에 따른 학습 규칙을 갖게 된다.
Figure 112011100236592-pat00037
Figure 112011100236592-pat00038
여기에서
Figure 112011100236592-pat00039
이다. 미분 과정에서
Figure 112011100236592-pat00040
가 사라진 것은 평균이 0, 분산이 1인 정규분포 확률변수에 대한 항의 값이 norm이 1인
Figure 112011100236592-pat00041
에 대해서 고정이기 때문이다. 상기
Figure 112011100236592-pat00042
의 부호는 학습 과정에서 안정성에 영향을 주기 때문에, 이를 고정하는 것으로 알고리즘을 더 단순화할 수 있다. 특히 독립 성분의 선험적 정보를 통해
Figure 112011100236592-pat00043
의 부호를 정할 수 있는데, 예를 들어 음성 신호의 경우, 수퍼가우시안 분포를 띄므로
Figure 112011100236592-pat00044
Figure 112011100236592-pat00045
일 때
Figure 112011100236592-pat00046
를 -1로 고정하여 음원 신호를 찾을 수 있다. 따라서 역엔트로피를 최대화하는 것 대신에
Figure 112011100236592-pat00047
를 최소화함으로써 특정 음원 신호를 복원할 수 있다.
상기한 종래 방식들은 주파수 평면에서의 분석을 요하기 때문에, 분리 벡터
Figure 112011100236592-pat00048
및 입력 신호, 출력신호들이 모두 복소수이다. 비용함수가 복소수의 형태를 띄면 그것의 크기를 정의할 수 없고, 그에 따른 비용함수의 최소화가 불가능하기 때문에,
Figure 112011100236592-pat00049
에 대한 비용함수를 다음과 같이
Figure 112011100236592-pat00050
의 절대값의 제곱의 형태로 표현한다.
Figure 112011100236592-pat00051
여기에서
Figure 112011100236592-pat00052
는 실수 평면에서의
Figure 112011100236592-pat00053
와 다른, 아래의 함수들을 사용한다.
Figure 112011100236592-pat00054
Figure 112011100236592-pat00055
Figure 112011100236592-pat00056
상기의 비용함수를 미분하여, w에 대한 최대경사법 알고리즘을 이끌어 낼 수 있다. 그에 따른 알고리즘은 수학식 16 및 수학식 17에 따른 학습 규칙을 갖게 된다.
Figure 112011100236592-pat00057
Figure 112011100236592-pat00058
[독립벡터분석(Independent Vector Analysis)을 적용한 역엔트로피 최대화 기반 독립성분분석 기법]
그리고 독립벡터분석 알고리즘은 독립성분분석의 개념을 주파수 평면으로의 다변수 성분으로 확장한 것이다. 상기 독립벡터분석은 내재된 독립 성분과 관측된 신호 각각이 모두 다변수 신호, 즉 벡터 신호인 독립 성분 분석 문제로 간주될 수 있다.
독립벡터분석 모델에서 각각의 신호원 벡터들은 서로 다른 소스 벡터들과 확률적으로 독립이라고 가정되어 있는 반면, 각 신호원 벡터 내부의 성분들은 서로 확률적으로 독립이 아니고 서로 연관되어 있다고 가정한다.
이 가정을 주파수 평면으로의 알고리즘에 대응하면, 각각의 신호원 벡터들은 주파수 축으로의 벡터이고, 벡터 내부의 성분들, 즉 주파수 간의 성분들끼리 연관성을 가진다고 설명할 수 있다.
도 2는 2채널 입출력 주파수 신호에 대한 주파수 평면 독립성분분석과 독립벡터분석의 비교 모식도를 도시하였다.
따라서 위 독립성분분석에서, 비용함수에 포함된 비선형 함수
Figure 112011100236592-pat00059
가 주파수 축으로의 다변수 벡터를 인수로 받게 되며, 이에 따라 변화한
Figure 112011100236592-pat00060
에 대한 비용함수는 수학식 18과 같다.
Figure 112011100236592-pat00061
상기 수학식 18에서, k
Figure 112011100236592-pat00062
는 각각 주파수와 시간 프레임의 인덱스를 의미한다. 상기 수학식 18에 따르면 독립벡터분석에 의해 비선형 함수
Figure 112011100236592-pat00063
의 인수가 다변수 벡터로 변화한 것을 알 수 있다. 이를 미분하여,
Figure 112011100236592-pat00064
에 대한 최대경사법 알고리즘을 이끌어 낼 수 있다. 그에 따른 알고리즘은 수학식 19 및 20과 같은 학습 규칙을 갖게 된다.
Figure 112011100236592-pat00065
Figure 112011100236592-pat00066
[관심음원 분리 알고리즘]
상술한 종래 기술에 따른 관심음원 분리 알고리즘을 통해 출력 신호의 역엔트로피를 최대화하여 효과적으로 관심 음원을 추정할 수 있으나, 이를 위해서는 이론적으로 혼합된 음원의 개수만큼 마이크 입력이 존재해야만 한다.
그러나 실제 환경에서 혼합된 음원의 개수만큼 마이크를 준비하는 것은 불가능할 뿐만 아니라 준비한다고 해도 추정할 파라미터가 너무 많아지는 문제가 있었다.
상술한 음원 분리에 대한 종래기술로는 [Aapo Hyvarinen, "Fast and robust fixed-point algorithms for independent component analysis", IEEE Trans. on Neural Networks, vol. 10, no. 3, 1999.], [E. Bingham and A. Hyvarinen, "A fast fixed-point algorithm for independent component analysis of complex valued signals", International Journal of Neural Systems, vol. 10, no. 1, 2000.], [I. Lee, T. Kim, and T. Lee, "Fast fixed-point independent vector analysis algorithms for convolutive blind source separation", Signal Processing, vol. 87, Issue 8, 2007.] 등이 있다.
본 발명은 다수 개의 음원으로부터의 음향신호가 혼합되는 환경에 설치된 두 개의 마이크를 통해 제공되는 혼합신호에서 관심음원을 제거하는 것을 통해 혼합된 잡음신호를 추정할 수 있는 관심음원 제거 방법을 제공하는 것을 그 목적으로 한다.
또한 본 발명의 다른 목적은 다수 개의 음원으로부터의 음향신호가 혼합되는 환경에 설치된 두 개의 마이크를 통해 제공되는 혼합신호에서 관심음원을 제거하는 것을 통해 혼합된 잡음신호를 추정하고, 이를 마이크를 통해 제공되는 혼합신호와 비교하여 혼합신호에서 잡음신호가 지배적인 영역을 구분한 후 이 영역에 대해 손실특징 복원 기술을 적용하여 특징값을 복원한 음성인식방법을 제공하는 것이다.
상기한 목적을 달성하기 위한 본 발명에 따르는 본 발명에 따르는 관심음원 제거방법은, 두 개의 마이크 각각으로부터의 입력 혼합신호를 제공받아 단구간 푸리에 변환하여 시간-주파수 영역으로 변환하는 단계; 상기 시간-주파수 영역의 입력 혼합신호들로부터 관심음원을 제거하기 위한 관심음원제거 벡터를 설정하는 단계; 상기 관심음원제거 벡터를 이용하여 입력 혼합신호에서 관심음원을 제거하여 혼합된 잡음신호를 생성하는 단계;를 구비함을 특징으로 한다.
본 발명은 다수 개의 음원으로부터의 음향신호가 혼합되는 환경에 설치된 두 개의 마이크를 통해 제공되는 혼합신호에서 관심음원을 제거하는 것을 통해 혼합된 잡음신호를 효과적으로 추정할 수 있다.
또한 본 발명은 다수 개의 음원으로부터의 음향신호가 혼합되는 환경에 설치된 두 개의 마이크를 통해 제공되는 혼합신호에서 관심음원을 제거하는 것을 통해 혼합된 잡음신호를 추정하고, 이를 마이크를 통해 제공되는 혼합신호와 비교하여 혼합신호에서 잡음신호가 지배적인 영역을 구분한 후 이 영역에 대해 손실특징 복원 기술을 적용하여 특징값을 복원함으로써 음성인식 시에 음성인식율을 향상시키는 효과를 야기한다.
도 1은 한 사람의 발성음원과 배블잡음의 히스토그램을 도시한 도면.
도 2는 주파수 도메인의 독립성분분석과 독립벡터분석의 차이를 도시한 모식도.
도 3은 본 발명의 바람직한 실시예에 따른 관심음원 제거방법의 절차도.
도 4는 DUET 알고리즘에서 감쇄-시간지연 히스토그램을 예시한 도면.
도 5는 본 발명의 바람직한 실시예에 따른 음성인식장치의 구성도.
도 6은 본 발명의 바람직한 실시예에 따른 관심음원 제거 실험을 위한 실내 환경 모식도.
도 7은 관심음원과 잡음신호와 관심음원제거 출력신호를 도시한 도면.
도 8은 다양한 입력신호의 신호대 잡음비 및 반향시간에 대한 관심음원제거 출력신호의 신호대 잡음비 결과를 나타내는 표.
도 9는 다양한 입력신호의 신호대 잡음비 및 반향시간에 대한 음성인식 결과를 나타내는 표.
본 발명은 다수 개의 음원으로부터의 음향신호가 혼합되는 환경에 설치된 두 개의 마이크를 통해 제공되는 혼합신호에서 관심음원을 제거하는 것을 통해 혼합된 잡음신호를 추정한다.
또한 본 발명은 다수 개의 음원으로부터의 음향신호가 혼합되는 환경에 설치된 두 개의 마이크를 통해 제공되는 혼합신호에서 관심음원을 제거하는 것을 통해 혼합된 잡음신호를 추정하고, 이를 마이크를 통해 제공되는 혼합신호와 비교하여 혼합신호에서 잡음신호가 지배적인 영역을 구분한 후 이 영역에 대해 손실특징 복원 기술을 적용하여 특징값을 복원함으로써 음성인식 시에 음성인식율을 향상시키는 효과를 야기한다.
[관심음원 제거]
상기한 본 발명의 바람직한 실시예에 따른 관심음원 제거절차를 도 3을 참조하여 상세히 설명한다.
상기 관심음원 제거는 두 개의 마이크로부터의 혼합신호에 대해 주파수별로 하나의 널(null)을 형성하여 혼합신호에서 관심음원만을 제거하는 것을 통해 혼합된 잡음신호를 예측한다.
먼저 혼합신호에서 관심음원을 제거하기 위한 벡터
Figure 112011100236592-pat00067
를 학습한다(10단계).
상기 벡터
Figure 112011100236592-pat00068
의 학습과정을 설명한다.
혼합된 잡음신호 전체를 독립된 잡음음원 여러 개가 혼합된 형태로 가정할 때, 중심극한정리에 의해 혼합된 잡음신호는 관심음원보다 정규분포에 더 가깝다고 할 수 있다. 이와같이 정규분포에 더 가까운 잡음신호만을 추출하려면 역엔트로피를 최소화해야 하는데, 이를 위해서 최대경사법을 이용한 관심음원 분리 알고리즘과 반대 부호로 학습한다.
상기 벡터
Figure 112011100236592-pat00069
의 학습 규칙은 수학식 21 및 22와 같다.
Figure 112011100236592-pat00070
Figure 112011100236592-pat00071
상기 수학식 21과 22에서 w는 관심음원을 제거하기 위한 벡터, z는 백색화된 입력 벡터, k는 주파수 인덱스이다. 또한 g는 비선형 함수 G의 미분 결과 함수이다.
[DUET(Degenerate Unmixing Estimation Technique) 히스토그램을 통한 벡터 초기화]
상기한 벡터
Figure 112011100236592-pat00072
의 초기화는 DUET(Degenerate Unmixing Estimation Technique) 히스토그램을 이용한다(12단계).
반향 환경을 고려한 DUET 알고리즘에 있어서 두 개의 마이크에 입력된 혼합 신호는 다음과 같이 나타낼 수 있다.
Figure 112011100236592-pat00073
Figure 112011100236592-pat00074
수학식 23의
Figure 112011100236592-pat00075
Figure 112011100236592-pat00076
는 각 마이크의 입력 신호이고,
Figure 112011100236592-pat00077
는 음원과 마이크 사이의 채널 필터이다. 수학식 24의
Figure 112011100236592-pat00078
Figure 112011100236592-pat00079
는 단구간 푸리에 변환을 통한
Figure 112011100236592-pat00080
Figure 112011100236592-pat00081
의 시간-주파수 영역 성분이고, k
Figure 112011100236592-pat00082
는 각 시간-주파수 영역의 주파수와 시간 프레임 인덱스이며,
Figure 112011100236592-pat00083
k번째 주파수 영역의 정규화 주파수이다.
Figure 112011100236592-pat00084
는 푸리에 변환을 통한 h의 주파수 영역 성분이고, a
Figure 112011100236592-pat00085
는 각 음원 신호에 관계된 파라미터로서 마이크의 제1채널 입력과 제2채널 입력의 세기 차이를 나타내는 감쇄 변수 및 제 1채널 입력과 제 2채널 입력의 도달 지연 시간의 차이를 나타내는 시간 지연 변수를 각각 나타낸다.
상기 DUET 알고리즘은 특정 시간 주파수 영역에서는 지배적인 음원 신호가 최대 하나까지 존재한다는 W-DO(W-Disjoint Orthogonality) 가정에 기반하고 있다.
상기 W-DO 가정에 의해 특정 시간-주파수
Figure 112011100236592-pat00086
에서 관심 음원 신호
Figure 112011100236592-pat00087
가 지배적일 경우에 수학식 24는 수학식 25로 근사화된다.
Figure 112011100236592-pat00088
상기 수학식 25에서
Figure 112011100236592-pat00089
는 관심음원
Figure 112011100236592-pat00090
에 대한 파라미터로 얻어진 복소수
Figure 112011100236592-pat00091
이고,
Figure 112011100236592-pat00092
는 관심음원이고,
Figure 112011100236592-pat00093
Figure 112011100236592-pat00094
는 각 마이크 입력의 시간-주파수 영역의 값이며,
Figure 112011100236592-pat00095
k번째 주파수 영역의 정규화 주파수이다.
상기 시간 주파수
Figure 112011100236592-pat00096
에서 관심 음원 신호에 대한 파라미터 α δ는 다음의 수식을 통해 추정된다.
Figure 112011100236592-pat00097
상기 수학식 26에서
Figure 112011100236592-pat00098
Figure 112011100236592-pat00099
는 각 마이크 입력의 시간-주파수 영역의 값이고,
Figure 112011100236592-pat00100
는 관심 음원 신호에 대한 마이크 입력 간 시간-주파수 영역의 감쇄 값이고,
Figure 112011100236592-pat00101
는 관심 음원 신호에 대한 마이크 입력 간 시간-주파수 영역의 시간 지연 값이다.
두 음원 신호가 혼합된 마이크 입력을 이용하여 특정 주파수의 모든 시간 프레임에서 수학식 26의 우변식을 이용하여 감쇄 및 시간지연 파라미터를 추정하고 이 값으로 히스토그램을 생성한 것을 도시한 도 4를 참조하면, 두 음원에 해당되는 봉우리가 형성된다. 관심 음원 신호가 다른 여러 잡음원 신호에 비하여 전반적으로 우세한 에너지를 가지고 있다고 가정하면 히스토그램에서 가장 높은 봉우리는 관심 음원 신호에 관계된 파라미터에 대응될 것이다.
따라서 특정 주파수의 모든 시간 프레임에서 수학식 26의 우변식을 이용하여 감쇄 및 시간지연 파라미터를 추정하고 이 값으로 히스토그램을 생성한 후 가장 높은 봉우리에 해당하는 감쇄 및 시간지연 값을 관심 음원에 대한 파라미터로 가정한다. 만약 각 주파수별로 히스토그램을 생성함에 있어서 시간 프레임의 개수가 충분하지 않을 경우 DUET 히스토그램을 이차원 가우시안 윈도우로 2차원 필터링하여 스무딩(smoothing)한 후 봉우리에 해당하는 파라미터를 추정한다.
그리고 상기 관심음원에 대한 파라미터로부터 얻어진 복소수
Figure 112011100236592-pat00102
의 역수를 취하여 관심 음원 제거를 위한 벡터
Figure 112011100236592-pat00103
를 아래 수학식 27과 같이 초기화할 수 있다. 단,
Figure 112011100236592-pat00104
k번째 주파수 영역의 정규화 주파수이다.
Figure 112011100236592-pat00105
[관심음원 제거]
상기한 바와 같이 초기화 및 학습된 관심 음원 제거를 위한 벡터
Figure 112011100236592-pat00106
를 토대로 입력 혼합신호로부터 관심음원신호를 제거하여 혼합된 잡음신호를 생성한다(14단계). 여기서, 두 개의 마이크 각각으로부터의 입력 혼합신호는 단구간 푸리에 변환되어 시간-주파수 영역으로 변환된 후에 벡터
Figure 112011100236592-pat00107
에 의해 관심음원신호가 제거되어 혼합된 잡음신호를 생성한다.
[혼합된 잡음신호과 입력 혼합신호를 이용한 마스크 생성]
상기한 바와 같이 혼합된 잡음신호가 생성되면, 이 신호와 입력 혼합신호를 시간-주파수 영역에서 비교하여 마스크를 생성한다(16단계). 상기 입력 혼합신호와 혼합된 잡음신호를 각각 단구간 푸리에 변환을 통해 시간-주파수 영역에서 표현하고 각 시간-주파수
Figure 112011100236592-pat00108
에서 입출력 에너지 비율(OIR: Output-to-Input energy Ratio)을 수학식 28과 같이 구한다.
Figure 112011100236592-pat00109
상기 수학식 28에서,
Figure 112011100236592-pat00110
는 각 시간-주파수
Figure 112011100236592-pat00111
에서 입출력 에너지 비율을 나타내며,
Figure 112011100236592-pat00112
는 입력 혼합신호이고,
Figure 112011100236592-pat00113
는 전체 혼합신호에서 관심음원 성분을 제거한 출력신호를 나타낸다.
실제 입출력 에너지 비율은 전체 혼합 신호
Figure 112011100236592-pat00114
의 에너지 중 관심음원 성분을 제거한 신호
Figure 112011100236592-pat00115
의 에너지 비율을 나타내기 때문에, 이 값이 크다면
Figure 112011100236592-pat00116
에 관심 음원 성분이 적게 포함되어 있음을 의미하고, 이 값이 작다면 관심 음원 성분이 많이 포함되어 있음을 의미한다.
따라서 각 시간-주파수에서 입출력 에너지 비율을 계산하여 적절한 문턱 값
Figure 112011100236592-pat00117
를 설정하면 수학식 29과 같이 이진 마스크를 구성할 수 있다.
Figure 112011100236592-pat00118
상기 수학식 29에는
Figure 112011100236592-pat00119
는 이진 마스크이고,
Figure 112011100236592-pat00120
는 각 시간-주파수
Figure 112011100236592-pat00121
에서 입출력 에너지 비율이고,
Figure 112011100236592-pat00122
는 임의로 설정한 문턱 값이다.
[입력 혼합신호와 이진 마스크를 이용한 음성인식 과정]
상기한 바와 같이 획득된 음원 신호에 대해 음성 인식하는 과정을 도 5의 음성인식장치의 구성도를 참조하여 설명한다.
상기 음성인식장치는 제1 및 제2마이크(100,102) 및 신호처리장치(104)로 구성된다.
상기 제1 및 제2마이크(100,102) 각각은 미리 정해진 거리만큼 이격된 상태에서 다수의 음원으로부터의 혼합신호를 입력받아 신호처리장치(104)의 입력신호로 제공한다.
상기 신호처리장치(104)는 관심음원 성분 구분을 위한 마스크 생성부(106)와 클러스터 기반 손실특징 복원부(108)와 MFCC 변환부(110)와 음성인식부(112)로 구성된다.
상기 관심음원 성분 구분을 위한 마스크 생성부(106)는 본 발명에 따라 상기 제1 및 제2마이크(100,102)로부터의 입력신호를 입력받아, 입력신호에서 관심음원 성분을 제거하여 혼합된 잡음신호를 생성하고, 그 혼합된 잡음신호와 입력신호 사이의 에너지 비에 따른 이진 마스크를 생성한다.
[클러스터 기반의 손실 특징 복원기법]
상기 클러스터 기반 손실특징 복원부(108)의 동작을 설명한다.
일반적으로 잡음의 영향을 받은 음성신호는 시간-주파수 영역에서 로그 스펙트럼 신호로 나타낼 때 다음과 같이 나타낼 수 있다.
Figure 112011100236592-pat00123
상기 수학식 31에서
Figure 112011100236592-pat00124
,
Figure 112011100236592-pat00125
Figure 112011100236592-pat00126
는 각각 l번째 프레임에서 k번째 주파수 밴드의 관측 신호, 잡음의 영향이 없는 음성 신호와 잡음신호의 로그 스펙트럼 성분을 나타낸다.
여기서, 상기
Figure 112011100236592-pat00127
의 값이 잡음에 의한 영향이 강해서 신뢰성 없는(unreliable) 성분이라고 판단되는 벡터를
Figure 112011100236592-pat00128
로 나타내고, 잡음에 의한 영향이 작아서 신뢰성 있는(reliable) 성분이라고 판단되는 벡터를
Figure 112011100236592-pat00129
로 나타낸다고 가정한다.
잡음의 영향이 적은
Figure 112011100236592-pat00130
이 주어졌을 때, 이 성분 속에 포함된
Figure 112011100236592-pat00131
에 대한 적절한 근사치는 바로
Figure 112011100236592-pat00132
라고 볼 수 있다. 하지만
Figure 112011100236592-pat00133
에 포함된
Figure 112011100236592-pat00134
Figure 112011100236592-pat00135
의 영향이 매우 크기 때문에 쉽게 추정할 수 없다. 그러나 로그 스펙트럼 성분이라는 점을 고려하여 수학식 32와 같은 제한 조건을 가정할 수 있다.
Figure 112011100236592-pat00136
이러한 특성을 이용하여 손실 특징 복원 기술을 적용하는 방법은 크게 두 가지로 분류할 수 있다.
첫 번째 방법은 인식 시스템 수정의 대표적인 접근 방법인 마지널라이제이션(marginalization)이 있는데, 이는 HMM(Hidden Markov Model) 기반의 음성인식 시스템 내부에서 신뢰성 없는 성분에 대한 확률계산을 주변(marginal) 확률분포 값으로 추정하여 인식 수행을 시도하는 것이다. 즉, 임의의 프레임에서 잡음의 영향을 받은 관찰 벡터 Y가 주어졌을 때, 주어진 제한 조건을 따르는 신뢰성 있는 성분 X r 과 신뢰성 없는 성분 X u 로 구성되는 음성에 대한 벡터 X가 내재되어 있다고 가정하면, 음성 인식 시스템에서 현재 상태(state) s에 대한 주어진 음성에 대한 관찰 벡터 X의 출력 확률은 수학식 33로 나타낼 수 있다.
Figure 112011100236592-pat00137
상기 수학식 33에서, Y r Y u 는 관찰 벡터 Y에서 각각 신뢰성 있는 성분으로 구성된 벡터와 신뢰성 없는 성분으로 구성된 벡터를 나타내고, X r X u 는 이에 대응되는 잡음의 영향이 없는 내재된 음성신호의 일부분이며, XX r X u 을 결합한 내재된 음성신호 벡터를 나타낸다. RU는 신뢰성 있는 벡터 성분의 인덱스 집합과 신뢰성 없는 벡터 성분의 인덱스 집합을 나타내며, Y(j)는 관찰 벡터 Yj번째 성분을 나타내고,
Figure 112011100236592-pat00138
Figure 112011100236592-pat00139
는 현재 상태(state) s에 따른 가우시안 분포에서 j번째 인덱스의 분산과 평균을 나타낸다.]
인식 시스템 수정 방법은 잡음 음성에 있어서 로그 스펙트럼 모델을 이용한 강인한 음성 인식을 수행하기 위해 직관적이고 그럴 듯한 방법이 될 수 있지만, 인식 시스템과 특징이 직접적으로 연관되어야 하므로 켑스트럼(cepstrum) 특징을 사용하기 어려워 기본적인 인식 성능이 떨어지는 단점이 있다.
두 번째 방법으로는 특징 보상의 대표적인 접근 방법인 클러스터 기반 손실 특징 복원 방법이 있는데, 이의 기본 가정은 시간-주파수 영역에서 각 프레임의 스펙트럼 벡터가 서로 독립이라는 것이다. 이러한 가정 하에 하나의 스펙트럼 벡터 내에서 성분들 간의 연관성을 이용하여 신뢰성 없는 성분을 복원하게 된다.
이를 위해 먼저 잡음이 없는 환경에서 얻어진 학습데이터로 수학식 34와 같은 가우시안 혼합 모델 분포를 얻어낸다.
Figure 112011100236592-pat00140
상기 수학식 34에서,
Figure 112011100236592-pat00141
는 가우시안 혼합 모델 분포이고,
Figure 112011100236592-pat00142
는 벡터의 차원이고,
Figure 112011100236592-pat00143
Figure 112011100236592-pat00144
번째 가우시안의 가중치, 평균벡터, 공분산행렬을 나타낸다. 이러한 분포에 대한 파라미터들은 학습데이터로부터 EM(Expectation Maximization) 알고리즘을 통해 학습된다.
이러한 가우시안 혼합 모델이 결정되면, 신뢰성 없는 성분들이 포함된 스펙트럼 벡터 Y가 주어졌을 때, 우리가 찾고자 하는 잡음의 영향이 없는 내재된 음성신호 벡터 X를 찾기 위해서 다음과 같은 계산과정을 수행한다. 먼저 X r 은 신뢰성 있는 성분들 Y r 과 같다고 설정하고, 신뢰성 없는 성분들 Y u 에 대응되는 X u 에 대한 추정 값은 바운디드(bounded) MAP 추정 방법을 이용하여 수학식 35에 따라 구한다.
Figure 112011100236592-pat00145
이를 구하기 위한 반복적인 과정은 다음과 같다.
1) 먼저 추정할
Figure 112011100236592-pat00146
Figure 112011100236592-pat00147
로 초기화한다.
2) 각각의
Figure 112011100236592-pat00148
을 수학식 36에 따라 산출한다.
Figure 112011100236592-pat00149
상기 수학식 36에서
Figure 112011100236592-pat00150
Figure 112011100236592-pat00151
를 성분으로 갖는 벡터를 나타내며,
Figure 112011100236592-pat00152
Figure 112011100236592-pat00153
의 평균을 나타낸다. 그리고
Figure 112011100236592-pat00154
,
Figure 112011100236592-pat00155
Figure 112011100236592-pat00156
에 대한 평균 및 분산을,
Figure 112011100236592-pat00157
Figure 112011100236592-pat00158
Figure 112011100236592-pat00159
간의 상호 공분산을 나타내는 행벡터이다.
3)
Figure 112011100236592-pat00160
가 수렴할 때까지 상기 2)단계를 반복하며, 최종적으로
Figure 112011100236592-pat00161
는 수렴된
Figure 112011100236592-pat00162
가 된다.
그러나 가우시안 혼합 모델로부터
Figure 112011100236592-pat00163
를 직접 추정하는 것은 어려운 일이므로, 각 가우시안에 대한 조건부 바운디드(bounded) MAP 추정 값의 선형 조합으로 근사화한다.
Figure 112011100236592-pat00164
Figure 112011100236592-pat00165
Figure 112011100236592-pat00166
Figure 112011100236592-pat00167
상기 수학식 37~40에서
Figure 112011100236592-pat00168
은 상기 알고리즘을 통해 찾는 신뢰성 없는 출력 특징의 성분이며, Y r Y u 는 관찰 벡터 Y에서 각각 신뢰성 있는 성분으로 구성된 벡터와 신뢰성 없는 성분으로 구성된 벡터를 나타내고, X r X u 는 이에 대응되는 잡음의 영향이 없는 내재된 음성신호의 일부분임. RU는 신뢰성 있는 벡터 성분의 인덱스 집합과 신뢰성 없는 벡터 성분의 인덱스 집합을 나타내며, X(j)Y(j)는 각각 음성신호 벡터 X와 관찰 벡터 Yj번째 성분을 나타내고,
Figure 112011100236592-pat00169
Figure 112011100236592-pat00170
번째 가우시안의 가중치, 평균벡터, 공분산행렬을 나타내며,
Figure 112011100236592-pat00171
Figure 112011100236592-pat00172
Figure 112011100236592-pat00173
번째 가우시안 분포에서 j번째 인덱스의 분산과 평균을 나타냄. Y r Y u 는 관찰 벡터 Y에서 각각 신뢰성 있는 성분과 신뢰성 없는 성분을 나타냄. X r X u 는 대응되는 성분에서 잡음의 영향이 없는 내재된 음성신호 부분을, XX r X u 을 결합한 내재된 음성신호 벡터를 나타내고, RU는 신뢰성있는 벡터 성분과 신뢰성없는 벡터 성분의 인덱스 집합을 나타내며,
Figure 112011100236592-pat00174
Figure 112011100236592-pat00175
는 현재 상태(state) ν에 따른 가우시안 분포에서 j번째 인덱스의 분산과 평균을 나타낸다.
상술한 바와 같이 학습 데이터들로부터 EM 알고리즘으로 학습된 가우시안 혼합 모델의 파라미터로 수학식 37과 같이 바운디드 MAP 추정 방법을 이용하여 각 가우시안 모델의 사후 확률을 구해 그것을 중첩하여 손실 특징을 복원하게 된다.
상기한 클러스터 기반 손실 특징 복원 방법은 공분산 기반 손실 특징 복원 방법에 비하여 모델이 단순하여 적은 학습 데이터를 필요로 하면서도 효과적인 복원 성능을 나타낸다.
또한 이러한 특징 복원 방법은 인식 시스템 수정 방법과 달리 인식 시스템과 별개로 구현이 가능하므로 인식 시스템을 수정하는 부담없이 켑스트럼을 자유롭게 활용할 수 있어서, 기본적인 인식 성능 저하없이 강인한 인식 성능을 나타낸다.
[MFCC 변환]
상기한 바와 같이 클러스터 기반 손실 특징이 복원된 관심음원은 MFCC 변환부(110)에 입력된다.
상기 MFCC 변환부(110)는 입력된 스펙트럼 영역에서의 관심음원의 특징정보를 켑스트럼 변환하여 MFCC로 변환한다.
[음성인식]
상기 MFCC 변환된 특징정보는 음성인식부(112)로 입력된다.
상기 음성인식부(112)는 상기 MFCC 변환된 특징정보에 따른 음성인식을 수행한다.
상기한 바와 같은 본 발명에 따른 성능평가에 대해 설명한다.
[실험 환경 및 성능 평가 기준]
도 6는 본 발명의 평가를 위한 세트의 개략적인 구조도이다.
본 발명의 평가를 위해서 RM 데이터베이스의 음성인식 세트를 이용하였다. 시뮬레이션은 실내 충격 응답 모델을 사용하여 데이터베이스의 테스트 음원과 잡음을 섞어서 얻었다. 잡음 신호는 NoiseX의 많은 사람이 떠드는 소리인 배블 잡음을 사용하였다. 실내의 크기는 가로 4m, 세로 5m, 높이 3m이며 마이크의 위치는 가로 2.5m, 세로 2m에 20cm간격으로 위치하며 M으로 표시하였다. 음원의 위치는 두 마이크의 중심에서 왼쪽으로 30도, 1미터 떨어진 위치에 위치하며 S로 표시하였다. 잡음의 위치는 두 마이크의 중심에서 각각 0도, 60도, 120도, 180도, 240도, 300도 위치에 1m 떨어진 곳에 위치하며 N으로 표시하였다. 각 잡음은 모두 다른 형태의 배블 잡음이며 각 음원마다 무작위로 다른 배블 잡음을 섞었다. 이렇게 섞은 입력 신호를 여러 방법으로 테스트했는데, 각 입력 신호마다 0dB, 5dB, 10dB, 20dB의 4가지 SNR로 테스트하고, 반향 시간 RT60를 0.1초, 0.3초, 0.5초의 3가지로 테스트하였다.
[관심음원 제거 실험]
도 7은 테스트 신호 중 입력 SNR이 5dB인 데이터 중 하나를 도시한 것이다. 도 7(a)는 음원신호의 파형이고, 도 7(b)는 잡음신호의 파형이다. 도 7(c)는 파란색 파형은 입력신호의 파형이고 붉은색 파형은 출력신호의 파형이다.
도 7(c)에서 도시한 바와 같이 출력파형은 입력파형에서 음원신호가 제거된, 잡음신호로 구성된다.
도 8은 입력 SNR 별, 반향 시간 별 출력 SNR의 값의 평균을 나타낸 표를 도시한 것이다. 상기 도 8의 표에 도시한 바와 같이 입력 SNR에 비해 출력 SNR이 상당량 줄어든 것을 볼 수 있는데, 이것은 출력 신호에서 음원의 세기가 크게 줄어, 잡음 신호만이 출력되었다는 것을 의미한다. 그러므로 본 발명에 의해 관심음원을 제거하는 것이 가능하다.
[음성인식 실험]
도 9는 본 발명에 따라 관심음원 제거 알고리즘을 통해 얻어진 출력신호와, 입력신호를 통해 얻은 OIR 마스크에 입력신호를 통과시킨 출력을 클러스터 기반의 손실 특징 복원을 수행하여 HMM 기반의 음성 인식기를 이용해 음성인식을 수행한 결과를 나타낸 표를 도시한 것이다.
베이스 라인(Baseline)은 본 발명에 따른 관심음원 제거 알고리즘을 사용하지 않고, 입력 신호만을 이용해 음성인식을 수행한 결과이다. 그리고 본 발명에 따른 관심음원 제거 알고리즘을 통해 테스트한 어떤 입력 SNR이나 어떤 반향 시간에서도 음성인식 결과가 향상되었다. 이를 통해 실제 환경에서 관심음원 제거 알고리즘을 통해 음성인식의 성능을 향상시킬 수 있음을 알 수 있다.
[결론]
상기한 바와 같은 실험 결과, 본 발명에 따른 독립벡터분석 기반의 관심음원 제거 알고리즘과 OIR 마스크, 그리고 이것을 이용한 클러스터 기반의 손실 특징 복원기법을 이용하여 관심음원을 제거하거나 관심음원 신호를 인식하는 알고리즘은 다양한 신호 대 잡음비의 환경과 다양한 반향 환경에서, 그리고 마이크보다 많은 잡음원들이 존재하는 환경에서도 단지 마이크 두 개만으로도 효과적으로 관심음원을 제거해낼 수 있다. 또한 이를 이용하여 음성인식을 수행했을 때 더 좋은 성능의 음성인식 결과를 보인다.
100 : 제1마이크
102 :제2마이크
104 :신호처리장치

Claims (14)

  1. 관심음원 제거방법에 있어서,
    두 개의 마이크 각각으로부터의 입력 혼합신호를 제공받아 단구간 푸리에 변환하여 시간-주파수 영역으로 변환하는 단계;
    상기 시간-주파수 영역의 입력 혼합신호들로부터 관심음원신호를 제거하기 위한 벡터를 설정하는 단계;
    상기 관심음원제거 벡터를 이용하여 입력 혼합신호에서 관심음원신호를 제거하여 혼합된 잡음신호를 생성하는 단계;를 구비하고,
    상기 관심음원제거 벡터는 수학식 41 및 42에 따라 학습됨을 특징으로 하는 관심음원 제거방법.
    수학식 41
    Figure 112013044207791-pat00176

    수학식 42
    Figure 112013044207791-pat00177

    상기 수학식 41과 42에서 w는 관심음원을 제거하기 위한 벡터, z는 백색화된 입력 벡터, k는 주파수 인덱스이다. 또한 g는 비선형 함수 G의 미분 결과 함수임.
  2. 삭제
  3. 제1항에 있어서,
    상기 관심음원제거 벡터는 DUET 히스토그램에 따른 수학식 43에 따라 초기화됨을 특징으로 하는 관심음원 제거방법.
    수학식 43
    Figure 112011100236592-pat00178

    상기 수학식 43에서 w는 관심음원을 제거하기 위한 벡터,
    Figure 112011100236592-pat00179
    Figure 112011100236592-pat00180
    는 관심음원에 대한 감쇄 및 시간지연 파라미터,
    Figure 112011100236592-pat00181
    이고,
    Figure 112011100236592-pat00182
    k번째 주파수 영역의 정규화 주파수임.
  4. 제3항에 있어서,
    상기 DUET 히스토그램은 이차원 가우시안 윈도우로 2차원 필터링됨을 특징으로 하는 관심음원 제거방법.
  5. 음성인식방법에 있어서,
    두 개의 마이크 각각으로부터의 입력 혼합신호를 제공받아 단구간 푸리에 변환하여 시간-주파수 영역으로 변환하는 단계;
    상기 시간-주파수 영역의 입력 혼합신호들로부터 관심음원신호를 제거하기 위한 관심음원제거 벡터를 설정하는 단계;
    상기 관심음원제거 벡터를 이용하여 입력 혼합신호에서 관심음원신호를 제거하여 혼합된 잡음신호를 생성하는 단계;
    상기 혼합된 잡음신호와 입력 혼합신호 사이의 에너지 비에 따라 이진 마스크를 생성하는 단계;
    상기 이진 마스크와 상기 입력 혼합신호를 이용하여 관심음원에 대한 손실특징을 복원하는 단계;
    상기 관심음원에 대한 손실특징이 복원된 결과를 이용한 음성인식을 이행하는 단계;를 구비함을 특징으로 하는 음성인식방법.
  6. 제5항에 있어서,
    상기 관심음원제거 벡터는 수학식 44 및 45에 따라 학습됨을 특징으로 하는 음성인식방법.
    수학식 44
    Figure 112011100236592-pat00183

    수학식 45
    Figure 112011100236592-pat00184

    상기 수학식 44과 45에서 w는 관심음원을 제거하기 위한 벡터, z는 백색화된 입력 벡터, k는 주파수 인덱스이다. 또한 g는 비선형 함수 G의 미분 결과 함수임.
  7. 제5항에 있어서,
    상기 관심음원제거 벡터는 DUET 히스토그램에 따른 수학식 46에 따라 초기화됨을 특징으로 하는 음성인식방법.
    수학식 46
    Figure 112011100236592-pat00185

    상기 수학식 46에서 w는 관심음원을 제거하기 위한 벡터,
    Figure 112011100236592-pat00186
    Figure 112011100236592-pat00187
    는 관심음원에 대한 감쇄 및 시간지연 파라미터,
    Figure 112011100236592-pat00188
    이고,
    Figure 112011100236592-pat00189
    k번째 주파수 영역의 정규화 주파수임.
  8. 제7항에 있어서,
    상기 DUET 히스토그램은 이차원 가우시안 윈도우로 2차원 필터링됨을 특징으로 하는 음성인식방법.
  9. 제5항에 있어서,
    상기 손실특징 복원은,
    수학식 47, 48,49, 50에 따르는 클러스터 기반 손실특징 복원임을 특징으로 하는 음성인식방법.
    수학식 47
    Figure 112013044207791-pat00190

    수학식 48
    Figure 112013044207791-pat00191

    수학식 49
    Figure 112013044207791-pat00192

    수학식 50
    Figure 112013044207791-pat00193

    상기 수학식 47~50에서
    Figure 112013044207791-pat00194
    은 상기 음성인식방법을 통해 찾는 신뢰성 없는 출력 특징의 성분이며, Yr Yu 는 관찰 벡터 Y에서 각각 신뢰성 있는 성분으로 구성된 벡터와 신뢰성 없는 성분으로 구성된 벡터를 나타내고, Xr Xu 는 이에 대응되는 잡음의 영향이 없는 내재된 음성신호의 일부분임. RU는 신뢰성 있는 벡터 성분의 인덱스 집합과 신뢰성 없는 벡터 성분의 인덱스 집합을 나타내며, X(j)Y(j)는 각각 음성신호 벡터 X와 관찰 벡터 Yj번째 성분을 나타냄.
    Figure 112013044207791-pat00195
    Figure 112013044207791-pat00196
    번째 가우시안의 가중치, 평균벡터, 공분산행렬을 나타내며,
    Figure 112013044207791-pat00197
    Figure 112013044207791-pat00198
    Figure 112013044207791-pat00199
    번째 가우시안 분포에서 j번째 인덱스의 분산과 평균을 나타냄. Yr Yu 는 관찰 벡터 Y에서 각각 신뢰성 있는 성분과 신뢰성 없는 성분을 나타냄. Xr Xu 는 대응되는 성분에서 잡음의 영향이 없는 내재된 음성신호 부분을, XXr Xu 을 결합한 내재된 음성신호 벡터를 나타냄. RU는 신뢰성있는 벡터 성분과 신뢰성없는 벡터 성분의 인덱스 집합을 나타내며,
    Figure 112013044207791-pat00200
    Figure 112013044207791-pat00201
    는 현재 상태(state) ν에 따른 가우시안 분포에서 j번째 인덱스의 분산과 평균을 나타냄.
  10. 청구항 제1항, 제3항 및 제4항 중 어느 한 항에 따른 관심음원제거방법을 구현하는 각 단계들을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체.
  11. 청구항 제5항 내지 제9항 중 어느 한 항에 따른 음성인식방법을 구현하는 각 단계들을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체.
  12. 2개의 마이크로부터 각각 입력된 입력혼합신호들로부터 음성 인식하는 음성 인식 장치에 있어서,
    상기 입력혼합신호들로부터 잡음 신호를 생성하고, 상기 잡음신호와 상기 입력혼합신호 사이의 에너지비에 따라 이진 마스크를 생성하는 마스크 생성부;
    상기 마스크 생성부에 의해 생성된 이진 마스크와 상기 입력혼합신호를 이용하여 관심음원에 대한 손실 특징을 복원하는 손실특징 복원부; 및
    상기 손실특징 복원부에 의하여 손실 특징이 복원된 관심음원의 특징정보를 이용하여 음성인식을 이행하는 음성 인식부;
    를 구비하는 음성 인식 장치.
  13. 제12항에 있어서, 상기 음성 인식 장치는 상기 손실특징 복원부에 의해 손실 특징이 복원된 관심 음원의 특징 정보를 MFCC(Mel Frequency Cepstral Coefficient) 변환하여 음성 인식부로 제공하는 MFCC 변환부를 더 구비하는 것을 특징으로 하는 음성 인식 장치.
  14. 제12항에 있어서, 상기 마스크 생성부는,
    상기 입력혼합신호들로부터 관심음원신호를 제거하기 위한 관심음원제거 벡터를 설정하고,
    상기 관심음원제거 벡터를 이용하여 상기 입력혼합신호에서 관심음원신호를 제거하여 혼합된 잡음신호를 생성하고,
    상기 혼합된 잡음신호와 상기 입력혼합신호 사이의 에너지비에 따라 관심음원성분을 구분하기 위한 이진마스크를 생성하는 것을 특징으로 하는 음성 인식 장치.
KR1020110136285A 2011-12-16 2011-12-16 관심음원 제거방법 및 그에 따른 음성인식방법 KR101305373B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020110136285A KR101305373B1 (ko) 2011-12-16 2011-12-16 관심음원 제거방법 및 그에 따른 음성인식방법
PCT/KR2012/011018 WO2013089536A1 (ko) 2011-12-16 2012-12-17 관심음원 제거방법 및 그에 따른 음성인식방법 및 음성인식장치
US14/365,720 US9609431B2 (en) 2011-12-16 2012-12-17 Interested audio source cancellation method and voice recognition method and voice recognition apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110136285A KR101305373B1 (ko) 2011-12-16 2011-12-16 관심음원 제거방법 및 그에 따른 음성인식방법

Publications (2)

Publication Number Publication Date
KR20130068869A KR20130068869A (ko) 2013-06-26
KR101305373B1 true KR101305373B1 (ko) 2013-09-06

Family

ID=48612884

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110136285A KR101305373B1 (ko) 2011-12-16 2011-12-16 관심음원 제거방법 및 그에 따른 음성인식방법

Country Status (3)

Country Link
US (1) US9609431B2 (ko)
KR (1) KR101305373B1 (ko)
WO (1) WO2013089536A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10305620B2 (en) * 2013-05-03 2019-05-28 Zte (Usa) Inc. Method and apparatuses for algorithm on QAM coherent optical detection
KR101647058B1 (ko) 2015-03-18 2016-08-10 서강대학교산학협력단 강인음성인식을 위한 손실특징 복원방법 및 장치
EP3242295B1 (en) * 2016-05-06 2019-10-23 Nxp B.V. A signal processor
CN106024005B (zh) * 2016-07-01 2018-09-25 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
JP6844149B2 (ja) * 2016-08-24 2021-03-17 富士通株式会社 利得調整装置および利得調整プログラム
CN106846803B (zh) * 2017-02-08 2023-06-23 广西交通科学研究院有限公司 基于音频的交通事件检测装置及方法
CN108962237B (zh) * 2018-05-24 2020-12-04 腾讯科技(深圳)有限公司 混合语音识别方法、装置及计算机可读存储介质
CN112185411A (zh) * 2019-07-03 2021-01-05 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和电子设备
US11546689B2 (en) * 2020-10-02 2023-01-03 Ford Global Technologies, Llc Systems and methods for audio processing

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
JP2003271191A (ja) 2002-03-15 2003-09-25 Toshiba Corp 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム
KR101161248B1 (ko) 2010-02-01 2012-07-02 서강대학교산학협력단 Duet 를 기반으로 한 관심 음원 향상 방법
US8958572B1 (en) * 2010-04-19 2015-02-17 Audience, Inc. Adaptive noise cancellation for multi-microphone systems
US8606571B1 (en) * 2010-04-19 2013-12-10 Audience, Inc. Spatial selectivity noise reduction tradeoff for multi-microphone systems

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
yungwoo Oh et al., ‘Blind source separation based on independent vector analysis using feed-forward network’, Neurocomputing Vol.74, pp.3713-3715, October 2011*
yungwoo Oh et al., 'Blind source separation based on independent vector analysis using feed-forward network', Neurocomputing Vol.74, pp.3713-3715, October 2011 *

Also Published As

Publication number Publication date
WO2013089536A1 (ko) 2013-06-20
US20140355776A1 (en) 2014-12-04
KR20130068869A (ko) 2013-06-26
US9609431B2 (en) 2017-03-28

Similar Documents

Publication Publication Date Title
KR101305373B1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
KR101934636B1 (ko) 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
Mittal et al. Signal/noise KLT based approach for enhancing speech degraded by colored noise
Vu et al. Blind speech separation employing directional statistics in an expectation maximization framework
JP3154487B2 (ja) 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法
CN111292762A (zh) 一种基于深度学习的单通道语音分离方法
Naqvi et al. Multimodal (audio–visual) source separation exploiting multi-speaker tracking, robust beamforming and time–frequency masking
Ganapathy Multivariate autoregressive spectrogram modeling for noisy speech recognition
Do et al. Speech source separation using variational autoencoder and bandpass filter
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
Zao et al. Colored noise based multicondition training technique for robust speaker identification
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
Wang et al. Improving denoising auto-encoder based speech enhancement with the speech parameter generation algorithm
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
Bavkar et al. PCA based single channel speech enhancement method for highly noisy environment
Blouet et al. Evaluation of several strategies for single sensor speech/music separation
Fang et al. Integrating statistical uncertainty into neural network-based speech enhancement
Al-Ali et al. Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions
Kim et al. Sound source separation algorithm using phase difference and angle distribution modeling near the target.
Samui et al. Deep Recurrent Neural Network Based Monaural Speech Separation Using Recurrent Temporal Restricted Boltzmann Machines.
KR101568282B1 (ko) 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치
Sbai et al. Robust underdetermined blind audio source separation of sparse signals in the time-frequency domain
Nidhyananthan et al. A review on speech enhancement algorithms and why to combine with environment classification
KR20170087211A (ko) 음성 인식을 위한 특징 보상 시스템 및 방법
Murakami et al. Real-Time Distant Sound Source Suppression Using Spectral Phase Difference

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160614

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170901

Year of fee payment: 5