KR20150026634A

KR20150026634A - 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치

Info

Publication number: KR20150026634A
Application number: KR20130105728A
Authority: KR
Inventors: 박형민; 전소람; 김민욱
Original assignee: 서강대학교산학협력단
Priority date: 2013-09-03
Filing date: 2013-09-03
Publication date: 2015-03-11
Also published as: KR101568282B1

Abstract

본 발명에 따르는 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법은, 관찰신호를 입력받아 관심음원을 검출하는 단계; 상기 관찰신호와 상기 관심음원을 제공받아 주파수별 SIR을 산출하는 단계; 상기 주파수별 SIR를 토대로 주파수마다 상이한 문턱값을 가지는 이진 마스크를 추정하는 단계;를 구비함을 특징으로 한다.

Description

클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치{MASK ESTIMATION METHOD AND APPARATUS IN CLUSTER BASED MISSING FEATURE RECONSTRUCTION}

본 발명은 음성 특징 복원 기술에 관한 것으로, 더욱 상세하게는 클러스터 기반 손실 특징 복원 알고리즘을 위한 최적 마스크 추정 방법 및 장치에 관한 것이다.

최근 과학 기술이 발달함에 따라 음성인식 기술이 실생활에 사용되는 경우가 늘어나고 있다. 그러나 음성신호의 혼합환경에서는 잡음으로 인해 음성의 인식률이 현저히 떨어지는 문제가 있다.

잡음과 음성이 혼재된 신호에서 원하는 음성신호를 강건하게 분리하기 위한 연구 중 확률에 기반한 독립 성분 분석(Independent Component Analysis)과 이를 확장한 독립 벡터 분석(Independent Vector Analysis)이 좋은 분리 성능으로 인해 주목받고 있으나, 이는 잡음원의 수에 비해 마이크로 폰의 개수가 적을수록 성능이 떨어지는 단점이 있다.

실제 환경에서는 잡음의 개수가 몇 개인지 알 수 없기 때문에 기존의 ICA, IVA 등의 BSS 기법은 마이크로 폰의 개수에 따라 그 성능이 크게 영향을 받는다.

이에 근래에는 잡음의 개수와 상관없이 관심 음원 신호를 제거함으로써 두 개의 한정된 마이크로폰으로도 실제 상황에 적용할 수 있게 하였다. 하지만 관심 음원 제거 알고리즘은 주파수 모호성으로 인해 특정 주파수 빈에서 잘못된 잡음 추정을 하였고, 이를 보상하기 위해서 다양한 방식의 비선형 위너 필터(non-linear Wiener filter)를 적용하였다.

좀 더 설명하면, 잡음원과 관심음원이 혼재된 관찰신호와 추정된 관심음원을 이용하여 신뢰성에 기반하는 연속적인 SIR(Signal to Input Ratio) 마스크를 생성하여 임계값(threshold)을 기준으로 신뢰성이 높고 낮음을 분별하여 이진 마스크를 만들었다. 사람의 경우에는 이러한 이진 마스크로 분리한 신호를 듣더라도 내용을 이해하는 데에 큰 문제가 없는 반면, 음성 인식 시스템의 경우에는 관심 음원의 특징이 일부 손실되었기 때문에 학습한 데이터와 달라 좋은 인식률을 기대하기 힘들었다.

이를 보상하기 위해 클러스터 기반 손실 특징 복원 기법을 이용하여 신뢰성이 낮다고 판단된 부분을 특징 축에서 복원하고 그 특징을 사용하여 인식률을 높이고 있다.

도 1은 혼합신호와 우리가 기존에 알고 있는 관심 음원을 입력으로 만든 이상적인 마스크와 추정한 관심 음원을 이용하여 만든 마스크를 도시한 것이다. 상기 도 1을 참조하면, 연속적인 마스크 부분에서 추정한 마스크는 이상적인 마스크에 비해 특정 주파수에서 바이어스(bias)가 생겨 SIR이 매우 낮다. 따라서 이런 연속적인 마스크를 고정된 상수를 기준으로 이진 마스크를 생성하면 특정 주파수에 신뢰도가 높은 성분이 매우 많거나 적은 상태가 된다.

따라서 주파수마다 최적화된 이진 마스크를 생성하여 모든 주파수에 대해 SIR이 높은 신뢰도 높은 결과를 생성할 수 있게 하는 기술의 개발이 요구되었다.

일본특허공개 제18201496호 한국특허등록 제10-1161248호 한국특허공개 제1020100041741호 한국특허공개 제1020130068869호

본 발명은 마이크로 폰 신호에서 관심 음원 제거(Target Source Cancellation; TSC) 기술과 비선형 위너 필터(non-linear wiener filter)를 적용하여 사용자의 음성 신호가 지배적인 출력신호를 얻고, 이 정보를 통하여 음성 인식을 위한 특징을 추출하는 과정 중에서 멜 스케일 로그 스펙트럼(mel-scale log spectrum) 영역에서 입력 신호 중 사용자의 음성 신호에 대한 비중이 높은 부분과 그렇지 못한 부분을 구분할 수 있는 이진 마스크를 추정하고, 이 이진 마스크의 문턱값을 주파수별로 학습한 값을 이용함으로써 강인한 음성 인식을 가능하게 하는 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치를 제공하는 것을 그 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명에 따르는 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법은, 관찰신호를 입력받아 관심음원을 검출하는 단계; 상기 관찰신호와 상기 관심음원을 제공받아 주파수별 SIR을 산출하는 단계; 상기 주파수별 SIR를 토대로 주파수마다 상이한 문턱값을 가지는 이진 마스크를 추정하는 단계;를 구비함을 특징으로 한다.

상기한 본 발명은 마이크로 폰 신호에서 관심 음원 제거(Target Source Cancellation; TSC) 기술과 비선형 위너 필터(non-linear wiener filter)를 적용하여 사용자의 음성 신호가 지배적인 출력신호를 얻고, 이 정보를 통하여 음성인식을 위한 특징을 추출하는 과정 중에서 멜 스케일 로그 스펙트럼(mel-scale log spectrum) 영역에서 입력신호 중 사용자의 음성신호에 대한 비중이 높은 부분과 그렇지 못한 부분을 구분할 수 있는 이진 마스크를 추정하고, 이 이진 마스크의 문턱값을 주파수별로 학습한 값을 이용함으로써 사용자의 음성신호에 대한 비중이 높은 부분과 그렇지 못한 부분을 좀 더 명확하게 판단할 수 있게 하는 효과가 있다.

이는 잡음신호가 지배적인 부분은 그 주위 사용자의 음성 신호가 지배적인 부분의 에너지를 이용하여 잡음의 영향이 없을 때의 특징 값을 추정하여 복원할 수 있게 하여 강인한 음성 인식을 가능하게 한다.

도 1은 이상적인 경우와 추정한 경우의 연속 마스크와 이진 마스크를 예시한 도면.
도 2는 한 사람의 발성에 대한 히스토그램 배블잡음의 히스토그램을 도시한 도면.
도 3은 주파수 도메인 독립 성분 분석과 독립 벡터 분석의 비교 모식도.
도 4는 관심 음원 제거 알고리즘 통과 전후 신호를 예시한 도면.
도 5는 관심 음원이 5도에 있을 때의 지향패턴을 예시한 도면.
도 6은 간섭 제거 기반의 위너 필터의 구성도.
도 7은 비선형 위너 필터의 구성도.
도 8은 주파수별 클래스의 SIR 분포를 예시한 도면.
도 9는 추정한 최적 문턱 값과 그리드 서치를 통해 얻은 문턱값을 예시한 도면.
도 10은 본 발명의 바람직한 실시예에 따른 이진 마스크 추정 장치의 구성도.

본 발명은 마이크로 폰 신호에서 관심 음원 제거(Target Source Cancellation; TSC) 기술과 비선형 위너 필터(non-linear wiener filter)를 적용하여 사용자의 음성 신호가 지배적인 출력신호를 얻고, 이 정보를 통하여 음성인식을 위한 특징을 추출하는 과정 중에서 멜 스케일 로그 스펙트럼(mel-scale log spectrum) 영역에서 입력신호 중 사용자의 음성신호에 대한 비중이 높은 부분과 그렇지 못한 부분을 구분할 수 있는 이진 마스크를 추정하고, 이 이진 마스크의 문턱값을 주파수별로 미리 학습한 값을 이용한다. 이는 잡음신호가 지배적인 부분은 그 주위 사용자의 음성 신호가 지배적인 부분의 에너지를 이용하여 잡음의 영향이 없을 때의 특징 값을 추정하여 복원할 수 있게 한다.

이렇게 복원된 멜 스케일 로그 스펙트럼(mel-scale log spectrum)으로부터 멜 주파수 셉스트럴 계수들(mel-frequency cepstral coefficients ; MFCCs)을 추출하고 이를 인식에 적용함으로써 강인한 음성인식 성능을 획득할 수 있다.

이러한 본 발명의 이해를 돕고자 본 발명의 설명에 앞서 관심 음원 제거 알고리즘에 대해 설명한다.

관심 음원 제거의 방법으로는 독립 벡터 분석(Independent Vector Analysis)을 적용한 역엔트로피 기반 독립 성분 분석 기법이 있다. 이는 역엔트로피 기반 독립성분분석, 독립벡터분석, DUET 히스토그램을 통한 분리 벡터 초기화 등의 알고리즘을 기반으로 한다.

<비정규분포의 정도(non-Gaussianity)에 기반한 독립성분분석(Independent Component Analysis) 의 개념>

독립 성분 분석 문제를 표현하는 일반적인 방법은 다음과 같이 모델로 설명하는 것이다.

상기 수학식 1 및 수학식 2에서 y는 독립성분분석의 출력 벡터, x는 마이크로의 입력 벡터, s는 찾고자 하는 음원의 벡터이고,

는 s에 대한 추정벡터 이고, W는

를 효과적으로 찾기 위한 분리 행렬이고, A는 음원이 마이크로 들어오기까지의 혼합 행렬이다. 여기서, A를 알지 못하는 상태에서 그것의 의사 역행렬(Pseudo-inverse Matrix)를 찾아야 하는 것이 독립 성분 분석의 문제이다. 이 문제는 비정규분포의 정도(non-Gaussianity)를 측정함으로써 풀 수 있으며, 이는 중심 극한 정리에 기초한다. 즉, 독립된 관심 음원 신호와 혼합된 잡음 신호가 존재할 때 혼합된 잡음 신호는 여러 개의 독립된 잡음 신호들의 합성이므로 독립된 관심 음원에 비해 상대적으로 정규분포를 띠게 된다. 이에 출력 신호의 비정규분포의 정도를 최대화하면 각각의 독립 성분을 분리해낼 수 있다.

도 2는 독립된 한 사람의 발성과 많은 사람들이 한꺼번에 떠드는 소리인 배블 잡음의 히스토그램을 도시한 것이다. 상기 도 2를 참조하면, 혼합된 잡음 신호가 독립된 관심 음원보다 상대적으로 정규분포에 더 가까운 것으로 나타난다.

<역엔트로피 최대화 기반 독립성분분석 기법>

출력신호

의 비정규분포의 정도를 측정하기 위해 다음과 같은 역엔트로피(negentropy)의 정의를 활용할 수 있다.

상기 수학식 3에서 J()는 역엔트로피(negentropy)를, H()는 엔트로피(entropy)를 의미한다.

그리고 상기 수학식 3에서

는

와 동일한 분산을 갖는 정규분포 확률변수이다. 그리고 확률 밀도 함수가

인 확률변수

의 엔트로피 H는 다음과 같이 표현된다.

상기 수학식 4에서

는

의 확률 밀도 함수이다.

여기서, 동일한 분산을 갖는 확률변수 중 가장 큰 엔트로피를 갖는 확률변수는 정규분포 확률변수이므로 역엔트로피를 최대화함으로써 추정되는 출력신호

에 대한 비정규분포의 정도를 최대화할 수 있고, 중심극한정리에 의해 이렇게 추정된 출력신호

는 원래 음원 신호에 가까워진다. 상기한 역엔트로피는 직접적인 계산이 매우 복잡하기 때문에 대칭 분포를 갖는 확률변수에 대해 수학식 5와 같이 근사화할 수 있다.

상기 수학식 5에서

는

의 역엔트로피이고, E{}는 기대값을 나타낸다.

이러한 근사화 방법은 고차원 중첩 근사화 방법을 일반화한 것으로, 이는 출력신호

에 대한 2차가 아닌 비선형 함수(nonquadratic function) G의 기대값을 이용한다. 이 G는 첨도(kurtosis) 기반일 때

로 근사화한다. 그리고 첨도 기반 외에도 다음과 같은 효과적인 비선형 함수가 존재한다.

상기 수학식 6 및 수학식 7에서 y는 출력신호로 평균이 0이고, 분산이 1로 가정한다,

는 G 대신에 사용할 수 있는 첨도 기반이 아닌 비선형 함수이다. 이는 출력신호의 대칭 분포를 위해 입력신호를 백색화(whitening)해야 한다는 것을 의미한다. 입력신호의 백색화를 통해 출력신호의 가정을 실현하고, 역엔트로피의 근사값을 정확하게 구할 수 있다. 백색화 변환 행렬을 V라고 했을 때, 입력신호 x에 대한 백색화 출력 z는 다음과 같이 표현된다.

상기 수학식 8에서, X는 입력신호이고, V는 백색화 변환 행렬, Z는 백색화 확률 변수이다. 상기 E^T는 E의 transpose 행렬이다.

상기 수학식 8에서

는 입력 공분산 행렬의 고유값들의 대각 행렬이고, E는 입력 공분산 행렬의 고유벡터들의 모음 행렬이다. 백색화된 확률변수 z를 이용한 역엔트로피 수식은 다음과 같다.

상기 수학식 9에서

는 백색화된 확률변수 z를 이용한 역엔트로피이다. 상기 w^T는 w의 transpose 행렬이다. 그리고 w는 norm이 1인 벡터이며, v는 평균이 0, 분산이 1인 정규분포 확률변수이다. 위의 역엔트로피를 최대화하기 위하여 w에 대한 최대경사법 알고리즘을 이끌어 낼 수 있다. 그에 따른 알고리즘은 다음과 같은 학습 규칙을 갖는다.

상기 수학식 10에서,

는 w의 변화량 이고, g()는 G()의 미분함수이고, E{}는 기대값,

는 임의의 상수로,

이다. 상기

의 부호는 학습 과정에서 안정성에 영향을 주기 때문에, 이를 고정하는 것으로 알고리즘을 더 단순화할 수 있다. 특히 독립 성분의 선험적 정보를 통해

의 부호를 정할 수 있는데, 예를 들어 음성 신호의 경우, 수퍼 가우시안 분포를 띄므로

가

일 때

를 -1로 고정하여 음원 신호를 찾을 수 있다.

여기서, 본 발명에 따른 독립 벡터 분석 알고리즘은 주파수 평면에서의 분석을 요하기 때문에, 분리 벡터 w 및 입력 신호, 출력신호들이 모두 복소수이다. 그 때문에 비용 함수의 형태가 실수 평면에서의 형태에서 변형하여야 하는데, 그 이유는 비용함수가 복소수의 형태를 띠면 그 크기를 정의할 수 없고, 그에 따른 비용 함수의 최소화가 불가능하기 때문이다. 그러므로 w에 대한 비용함수를 다음과 같이

의 절대값의 제곱의 형태로 표현한다. 상기

는 분리벡터 w의 hessian matrix 이다.

상기 수학식 11에서 상기 E{}는 기댓값을 의미하고, z는 입력신호에 대한 백색화 출력이고,

는 w에 대한 비용함수이다.

상기의 비용함수를 미분하여, w에 대한 최대경사법 알고리즘을 이끌어 낼 수 있다. 그에 따른 알고리즘은 수학식 12와 같은 학습 규칙을 갖게 된다.

상기 수학식 12에서

는 w의 변화량이고,

는 w의 hessian matrix이다.

<독립 벡터 분석(Independent Vector Analysis)을 적용한 역엔트로피 최대화 기반 독립 성분 분석 기법>

독립 벡터 분석 알고리즘은 독립 성분 분석의 개념을 주파수 평면으로의 다변수 성분으로 확장한 것이다. 상기 독립 벡터 분석은 내재된 독립 성분과 관측된 신호가 모두 다변수 신호, 즉 벡터 신호인 독립 성분 분석 문제로 간주될 수 있다. 독립 벡터 분석 모델에서 각각의 신호원 벡터들은 서로 다른 소스 벡터들과 확률적으로 독립이라고 가정되어 있는 반면, 각 신호원 벡터 내부의 성분들은 서로 확률적으로 독립이 아니고 서로 연관되어 있다고 가정한다. 이러한 가정을 주파수 평면으로의 알고리즘에 대응하면, 각각의 신호원 벡터들은 주파수 축으로의 벡터이고, 벡터 내부의 성분들, 즉 주파수 간의 성분들 끼리 연관성을 가진다고 설명할 수 있다.

도 3은 2채널 입출력 주파수 신호에 대한 주파수 평면 독립성분분석과 독립벡터분석의 비교 모식도이다.

상기한 가정에 의하면 벡터 상관도(vector correlation)와 벡터 상호 정보(vector mutual information)를 정의하여 벡터 확률 변수들 사이의 독립 정도를 목표 함수로 사용할 수 있다. 즉 비용 함수에 포함된 비선형 함수 G가 주파수 축으로의 다변수 벡터를 인수로 받게 되는데, 이에 따라 변화한 w에 대한 비용함수는 다음과 같다.

상기 수학식 13에서,

는 w'에 대한 비용함수이다. 그리고, 상기 수학식 13에서 w와 z의 위 첨자 k는 주파수를 의미한다. 독립벡터분석에 의해 비선형 함수 G의 인수가 다변수 벡터로 변화한 것을 알 수 있다. 이를 미분하여, w에 대한 최대경사법 알고리즘을 이끌어 낼 수 있다. 그에 따른 알고리즘은 다음과 같은 학습 규칙을 갖게 된다.

상기 수학식 14에서,

는 w의 변화량 이고, E{}는 기대값이고, g()는 G()의 미분함수이다.

<관심음원 제거 알고리즘>

상기의 알고리즘을 통해서 출력 신호의 역엔트로피를 최대화하여 효과적으로 관심 음원을 추정할 수 있다. 그러나 이 알고리즘은 이론적으로 혼합된 음원의 개수만큼 마이크 입력이 존재해야 한다. 그러나 실제 환경에서 혼합된 음원의 개수만큼 마이크를 준비하는 것은 불가능할 뿐만 아니라 준비한다고 해도 추정할 파라미터가 매우 많아져서 복잡하므로, 관심음원 제거 알고리즘은 두 개의 마이크만을 이용하여 주파수별로 하나의 널(null)을 형성함으로써 관심 음원만을 제거하는 것을 통해 혼합된 노이즈 신호를 예측하고, 이를 통해 관심 음원을 추정하는 방법을 활용한다.

상기한 바와 같이 관심 음원만을 제거하기 위해서는 상술한 알고리즘들과의 반대의 방법으로 접근해야 한다. 즉, 혼합된 노이즈 신호 전체를 독립된 노이즈 음원 여러 개가 혼합된 형태로 가정할 때, 중심 극한 정리에 의해 이는 관심 음원보다 정규분포에 더 가깝다고 할 수 있다.

한편 정규 분포에 더 가까운 노이즈 신호만을 추출하려면 역엔트로피를 최소화해야 하는데, 이를 위해서 최대경사법을 이용한 기존 음원 분리 알고리즘과 반대 부호로 학습하여야 한다. 따라서 독립 벡터 분석을 차용한 관심 음원 제거 알고리즘은 다음과 같은 학습 규칙을 갖게 된다.

상기 수학식 15에서 *는 곱하기를 의미한다.

도 4는 관심 음원 제거 알고리즘 통과 전후의 신호를 예시한 것으로, 신호대 잡음비를 5dB로 섞었을 때(파란색), 관심 음원 제거 알고리즘을 통과한 신호를 그린 것(붉은색)이다. 상기 도 4에 나타낸 바와 같이 관심 음원 제거 알고리즘을 통과한 신호에는 음원 성분이 거의 없다.

도 5는 상기 도 4의 실험에서 지향성(directivity) 패턴을 그린 것으로, 이 는 각 방향의 신호에 대한 특정 주파수에서의 파워 감쇠 정도를 보여준다. 예를 들어, 관심 음원이 5ㅀ에 있을 때 지향성(directivity) 패턴을 그린 도 5를 참조하면, 관심 음원 방향에서 모든 주파수에 대해서 큰 파워 감쇠가 있다.

<위너 필터(Wiener filter) 및 마스크 추정 알고리즘>

<중첩 제거기(Interfere Canceller) 기반의 위너 필터(Wiener filter)>

VAD(Voice Activity Detection) 알고리즘을 이용하여 음성(Speech)이 존재하는 구역과 그렇지 않은 구역을 이분법적으로 나눌 수 있다. 그러므로 관심음원 제거 알고리즘의 출력

를 다음과 같이 구분하여 정의한다.

상기 수학식 16에서

는 관심음원 제거 알고리즘의 출력이고,

는 음성 신호이고,

는 잡음이다.

이러한 관심 음원 추출 결과에 관심 음원 제거 신호를 이용하여 추가적인 잡음 제거를 수행하게 되는데, 이를 위한 모델과 그에 따른 비용 함수

는 다음과 같다.

상기 수학식 17에서

는 위너 필터 출력 이고,

는 관심음원 추출 결과이고,

는 위너 필터이고,

는 임의의 상수이다.

그리고 비용함수

를 최소화하기 위한 위너 필터(Wiener Filter) w는 다음과 같다.

상기 수학식 18에서,

는 위너 필터이고, E{}는 기댓값이다. 위 첨자 H는 Hessian matrix를 의미하고, *는 곱하기를 나타낸다.

상기 수학식 18에서,

와

는 위의 정의에 따라 다음과 같이 정리할 수 있다.

그러나, 만약 잡음의 개수가 2개 이상이 된다면 위와 같은 방법으로는 적절한 위너 게인(Wiener gain)을 찾기가 어렵게 된다. 관심음원 제거 알고리즘에서 출력되는 신호의 개수는 잡음의 개수와 같아야 하고 그 출력 신호들의 선형결합으로 입력신호에서 차감해야 적절한 최종 출력신호 z가 나오기 때문이다

도 6은 관심 음원 추정 장치의 구성을 도시한 것이다.

상기 관심음원 추정장치는 관심 음원 제거부(100)와 중첩 제거부(102)와 감산기(104)로 구성된다.

상기 관심 음원 제거부(100)는 입력신호에 대해 관심음원을 제거하여 출력(

)하며, 그 출력(

)은 중첩 제거부(102)에 제공된다. 상기 중첩 제거부(102)는 수학식 17에 따른 잡음 제거를 이행하며, 그 잡음 제거시의 위너 게인은 수학식 18 및 19와 같다. 상기 감산기(104)는 상기 잡음이 제거된 관심음원 제거신호를 입력신호로부터 감산하여 관심음원 신호만을 출력한다.

<비선형 필터(Non-linear filter) 기반의 위너 필터(Wiener filter)>

잡음의 개수가 2개 이상일 때를 고려한다면, 중첩 제거부(Interfere canceller)의 형태보다 비선형 필터(Non-linear filter) 기반의 위너 필터(Wiener filter)를 고려해 볼 수 있다. 여기서, 위너 게인(Wiener gain)은 TSC 부분에서 추정된 필터(filter) 계수 w를 마이크 입력신호에 곱해서 추정된 잡음과 스케일을 맞춰서 구할 수 있다. 이 방법은 일반적인 IVA 위너(Wiener) 방법 등에서 사용되는데 만약 2x2 네트워크에서 입력 신호, ICA 필터(filter), 추정된 음성신호를 각각 다음과 같이 정의했을 때,

입력신호에 속한 관심 음원과 잡음 성분은 다음과 같다.

상기 수학식 20 및 수학식 21에서

는 추정된 음성신호이고, ,

는 ICA 필터(filter)이고, ,

는 입력 신호이다.

는 입력 신호에 속한 관심음원이고,

는 입력 신호에 속한 잡음성분이고,

는 W의 역행렬 이다.

상기한 수학식 20 및 21을 이용하여 위너 게인(Wiener gain)을 구하면 수학식 22와 같다.

상기 수학식 22에서

는 위너 필터(wiener filter)의 게인(gain)이고,

는 하나의 마이크를 통해 얻은 입력이고,

는 그 입력값을 통해 얻은 관심 음원(target speech) 이다.

도 7은 관심음원 추정장치의 구성을 도시한 것이다.

상기 관심음원 추정장치는 관심 음원 제거부(200)와 비선형 필터(202)와 감산기(204)로 구성된다.

상기 관심 음원 제거부(200)는 입력신호에 대해 관심음원을 제거하여 비선형 필터(202)에 제공된다. 상기 비선형 필터(202)는 잡음 제거를 이행하여 출력한다. 상기 비선형 필터(202)의 출력은 감산기(204)로 입력된다. 상기 감산기(204)는 상기 잡음이 제거된 관심음원 제거신호를 입력신호로부터 감산하여 관심음원 신호만을 출력한다.

<마스크 추정 알고리즘 >

상기한 바와 같이 위너(Wiener filter)를 통과하여 얻은 강화된 음성신호를 이용하거나 관심 음원이 제거된 신호 자체를 이용해서 시간-주파수 영역에서 음성신호가 지배적인 영역을 추정할 수 있다.

과 z를 각각 마이크의 입력신호, 관심 음원을 제거한 신호, 혹은 위너 필터(Wiener filter)를 통과하여 얻은 강화된 음성신호라고 했을 때, 이 신호들을 각각 단구간 푸리에 변환을 통해 시간-주파수 영역에서 표현하고 각 시간-주파수

에서 입출력 에너지 비율을 다음과 같이 구한다.

상기 수학식 23에서

는 시간-주파수

에서 입출력 에너지 비율이고,

는 입력 신호의 에너지이고,

는 출력 신호의 에너지이다.

만약, z가 관심 음원을 제거한 신호라면 입출력 에너지 비율은 전체 혼합 신호

의 에너지 중 추정된 잡음의 에너지 비율을 나타내기 때문에 이 값이 크다면

에 관심 음원 성분이 적게 포함되어 있음을 의미하고 작다면 관심 음원 성분이 많이 포함되어 있음을 의미한다. 따라서 각 시간-주파수에서 입출력 에너지 비율을 계산하여 적절한 문턱 값

를 설정하면 다음과 같이 이진 마스크

를 구성할 수 있다.

그리고 z가 위너 필터(Wiener filter)를 통과하여 얻은 강화된 음성신호라고 하면 이진 마스크

를 위와는 반대로 다음과 같이 구성할 수 있다.

이렇게 이진 마스크

가 구성되면 혼합신호와 곱하여 관심 음원 신호의 시간-주파수 표현을 다음과 같이 추정할 수 있다.

상기 수학식 26에서

는 관심 음원 신호를 시간-주파수로 표현한 것이다.

<클러스터 기반의 누락된 특징 복원 알고리즘>

일반적으로 잡음의 영향을 받은 음성 신호는 시간-주파수 영역에서 로그 스펙트럼 신호로 나타낼 때 다음과 같이 나타낼 수 있다.

여기서

,

는 각각

번째 프레임에서

번째 주파수 성분의 관측 신호, 음성 신호, 잡음의 로그 스펙트럼 성분을 나타낸다. 상기

의 값이 잡음에 의한 영향이 강해서 신뢰성이 없다고 판단되는 성분을

라고 나타내고, 잡음에 의한 영향이 작아서 신뢰성이 있다고 판단되는 부분을

라고 표현할 수 있다.

가 주어졌을 때, 그 속에 포함된

에 대한 좋은 근사치는 바로

이라고 볼 수 있지만,

에 포함된

는 어떤 무작위 값을 갖는

의 존재로 인하여 쉽게 추정할 수는 없다. 로그 스펙트럼 영역에서의 근사화로 간략히

에 의해 범위를 한정할 수 있다.

이러한 특성을 이용한 누락 특징 기술(missing feature technique)에서 분류 보정(classifier-compensation) 방법 중 주변화(marginalization) 방법과 특징 보정(feature-compensation) 방법 중 클러스터 기반 복원(cluster-based reconstruction) 방법이 높은 성능을 나타내고 있다.

첫 번째 방법으로 주변화(marginalization) 방법이 있는데, 이 방법은 HMM 기반의 음성 인식 시스템 내부에서 신뢰성없는 성분에 대한 확률 계산을 주변(marginal) 확률 분포로 계산하도록 하는 것이다. 즉 잡음의 영향을 받은 관찰 벡터 Y가 주어졌을 때, 신뢰성 있는 성분

과 신뢰성 없는 성분

로 구성되는 음성에 대한 벡터 X가 내재되어 있다고 가정하고, 음성인식 HMM 모델에서 현재 상태 s에 대한 관찰 벡터 Y기반 X의 출력 확률은 수학식 28과 같다.

여기서, 상태 s에 대한 출력 확률 모델은 평균

과 대각 공분산 행렬

을 갖는 가우시안(Gaussian) 분포로 가정하고, 집합 R은 신뢰성있는 성분들에 대한 인덱스를, 집합 U는 신뢰성 없는 성분들에 대한 인덱스를 포함한다.

두 번째 방법으로 클러스터 기반 복원(cluster-based reconstruction)이 있는데, 이 방법의 기본 가정은 시간-주파수 영역에서 각 프레임의 스펙트럼 벡터가 서로 독립이라는 것이다. 이러한 가정하에 하나의 스펙트럼 벡터 내에서 성분들 간의 연관성을 이용하여 신뢰성없는 성분을 복원하게 된다.

이를 위해 먼저 잡음이 없는 환경에서 얻어진 학습 데이터로 아래와 같은 가우시안(Gaussian) 혼합 모델 분포를 얻어낸다.

상기 수학식 29에서 p(X)는 Gaussian 혼합 모델 분포 이고, X는 음성 벡터이고, d는 벡터의 차원이다. 위 첨자 T는 transpose matrix를 의미한다.

상기 수학식 29에서, d는 벡터의 차원이고

,

그리고

는 v번째 가우시안(Gaussian)의 가중치, 평균벡터, 공분산 행렬을 나타낸다. 이러한 분포에 대한 파라미터들은 학습 데이터로부터 EM(Expectation-Maximization) 알고리즘을 통해 학습된다.

이렇게 모델이 결정된 후, 신뢰성없는 성분들이 포함된 스펙트럼 관찰 벡터 Y가 주어졌을 때, 음성 성분으로 이루어진 벡터 X를 찾기 위해서

은 신뢰성있는 성분들

과 같다고 설정하고, 신뢰성없는 성분

에 대응되는

에 대한 추정 값은 bounded MAP(maximum a posteriori) 추정 방법을 이용하여 다음과 같이 구한다.

실제로는 가우시안(Gausssian) 혼합 모델로부터

를 직접 추정하는 것은 어려운 일이므로, 각 가우시안(Gaussian)에 대한 조건부 bounded MAP 추정 값의 선형 조합으로 근사화하여 다음과 같이 구한다.

상기 수학식 33에서,

와

는 각각 v, j 번째 가우시안(Gaussian) 가중치이다.

주변화(Marginalization)를 음성 인식에 적용하게 되면 스펙트럼 정보를 인식에 직접 사용하기 때문에, 음성의 특징으로 보통 사용되는 켑스트럼 정보를 이용할 수 없어서, 높은 인식 성능을 얻을 수 없다.

따라서 본 발명은 클러스터 기반 재건(cluster-based reconstruction)으로 왜곡이 많이 된 스펙트럼 값을 보정하여 켑스트럼 특징을 얻고 인식에 사용하는 과정을 사용함으로써, 스펙트럼 특징을 사용하는 경우보다 높은 인식 성능을 거두고자 한다.

<본 발명에 따른 이진 마스크 구성 방법>

<신호 대 잡음 비율을 통한 이진 마스크 구성>

종래에는 연속적인 SIR 마스크에서 이진 마스크를 만들 때 이상적인 마스크에 비해 특정 주파수에서 바이어스(bias)가 생겨 SIR이 매우 낮음을 확인할 수 있다. 따라서 이런 SIR 마스크를 고정된 상수를 기준으로 이진 마스크를 생성하면 특정 주파수에 신뢰성이 있는 성분이 매우 많거나 적은 왜곡이 발생하게 된다. 이러한 문제를 해결하기 위해 본 발명은 각 주파수 마다 이상적인 문턱 값을 추정하여 최적화된 이진 마스크를 생성한다.

이제 이러한 이진 마스크 생성을 위한 본 발명에 대해 좀 더 상세히 설명한다.

설명의 편이를 위해, 주파수 인덱스 ω 및 시간 인덱스 τ를 생략하고, 임의의 주파수 밴드의 신호에 대해 설명한다. 관찰 신호 X₁과 추정된 관심 음원 신호 Z로 만들어진 연속적인 SIR 마스크가 가우시안 혼합모델을 이룬다고 가정한다. 그리고 이상적인 이진 마스크 Ω가 두 개의 클래스를 나타낸다고 할 때, 관심 음원 제거 알고리즘의 주파수별 전달함수로 인해 각 클래스 별 SIR이 고유한 평균과 표준 편차를 갖는 가우시안 분포를 이룬다고 가정한다. 이 때 SIR과 Ω의 동시확률분포는 다음과 같다.

상기 수학식 34에서 P()는 동시 확률 분포를 나타내고, SIR는 관심음원신호로 만들어진 연속적인 마스크이고, Ω는 이상적인 이진마스크이다.

상기 수학식 34에서, 이상적인 이진 마스크 Ω가 베르누이(Bernoulli) 분포 Ber(p)를 따르고 있다는 가정하면, 상기 수학식 34는 다음과 같이 쓸 수 있다.

상기 수학식 35에서 p는 수학식 34의 P(Ω=1)이다.

상기 수학식 35에서,

와

는 주파수 빈마다 각각의 평균과 표준편차를 가진 가우시안 분포(Gaussian distribution)의 모양을 하고 있으며, 이는 실험을 통해 확인하였다.

도 8은 주파수별 클래스의 SIR 분포를 도시한 것이다. 상기 도 8을 참조하면, 청색은 x|_y=0의 히스토그램이고, 적색은 x|_y=1의 히스토그램이다. 따라서 각 주파수마다 클래스(1 또는 0)에 속해있는 SIR 성분이 가우시안 분포를 이루고 있다는 것을 확인할 수 있다.

이에 관찰신호의 SIR이 주어졌을 때, 클래스 Ω에 대한 사후 확률(posterior probability)는 아래와 같이 얻어질 수 있다.

종래 방식에서는 상기 SIR을 일정한 상수 값으로 대소를 비교하여 이진 마스크 Ω을 추정했으나, 본 발명에서는 SIR에 대한 Ω의 사후 확률(posterior probability)를 비교하여 다음과 같이 추정한다.

상기 수학식 37에서, P()는 사후 확률 산출 함수를 나타내고,

는 본 발명에 따른 이진 마스크를 나타낸다.

또한 주파수마다 다른 최적 문턱 값은 방정식

을 만족하는 SIR이 된다.

이를 계산하기 위하여 먼저

와

을 아래와 같이 가우시안 분포(Gaussian distribution)의 수식으로 나타낸다.

상기 수학식 38에서

,

는 각각 Ω=1일 때, Ω=0일 때 SIR 분포의 표준편차와 평균이다.

상기 수학식 39에서 p는 수학식 34의 P(Ω=1)이다.

이를 SIR에 대해 다항식으로 정리하면 다음과 같다.

위 다항식의 근은 아래와 같다.

상기 수학식 41에서

,

는 각각 Ω=1일 때, Ω=0일 때 SIR 분포의 표준편차와 평균이고, P는 Ω=1일때의 동시 확률 분포이다.

여기서, SIR이 낮은 군집이 Ω가 0인 클래스라는 전제하에 μ₀< μ₁는 항상 성립한다고 할 때, σ₀< σ₁을 만족하는 경우에는 수학식 41의 두 번째 항을 가산한 근을 선택하고, 그렇지 않은 경우에는 감산한 근을 선택한다.

도 9는 본 발명에 따라 추정한 최적 문턱 값과 그리드 서치(grid search)를 통해 얻은 문턱값을 도시한 것이다. 상기 도 9에 대해 좀더 설명하면, 본 발명에 따라 얻어진 근을 주파수 별로 나타낸 것이 도 9의 초록선과 같다. 상기 도 9에서 배경 그림은 학습 데이터에서 직접 문턱 값별로 유사도를 측정하는 그리드 서치(grid search)하여 밝기로 나타낸 것이고, 노란색 선은 이 유사도의 최대값을 지나는 곡선이다. 상기 도 9에 도시한 바와 같이 두 방법이 거의 동일한 결과를 나타내며 그리드 서치(grid search)의 라운드 오프 에러(round-off error)를 감안하면 수학식 41로 얻어진 근이 더 정확한 최적 문턱 값이라고 볼 수 있다.

이제 이러한 본 발명의 바람직한 실시예에 따르는 이진 마스크의 문턱값 산출 장치를 도 10을 참조하여 설명한다.

상기 본 발명의 바람직한 실시예에 따르는 이진 마스크 및 문턱값 산출 장치는 관심 음원 추정부(300)와 이진 마스크 및 문턱값 추정부(302)로 구성된다.

상기 관심 음원 추정부(300)는 관찰신호 X를 입력받아 관심 음원 Z를 추정하여 출력한다.

상기 이진 마스크 및 문턱값 추정부(302)는 상기 관찰신호 X와 추정된 관심음원 Z을 입력받아 주파수별로 SIR에 대한 이진 마스크의 사후 확률을 구하고, 그 사후 확률을 토대로 이진 마스크를 결정하고, 주파수마다 상이한 문턱값을 산출하여 출력한다.

상기 이진 마스크는 수학식 42와 같다.

상기 수학식 42에서,

는 본 발명에 따른 이진 마스크를 나타내고, SIR은 주파수별로 상이한 최적 문턱값이고, P()는 사후 확률 산출 함수를 나타낸다.

상기 주파수마다 상이한 문턱값은 수학식 43과 같다.

상기 수학식 43에서

,

, P는 각각 ... 이다. (수학식 35 뒤와 38뒤에 설명을 첨부하였습니다. )

여기서, SIR이 낮은 군집이 Ω가 0인 클래스라는 전제하에 μ₀< μ₁는 항상 성립한다고 할 때, σ₀< σ₁을 만족하는 경우에는 수학식 43의 두 번째 항을 가산한 근을 선택하고, 그렇지 않은 경우에는 감산한 근을 선택한다.

본 발명은 두 개의 마이크로폰을 이용하여 강건한 음성인식을 전처리 알고리즘을 개발하는 것이 목적이다. 이를 위해 관심 음원 제거 알고리즘, 비선형 위너 필터 알고리즘을 이용하여 잡음 신호를 안정적으로 제거하고, 클러스터 기반 재건(cluster based reconstruction)을 이용해 신뢰성 없는 성분을 복원한다.

그런데 실제 환경에서는 잡음의 개수가 몇 개인지 알 수 없기 때문에 기존의 ICA, IVA등의 BSS기법은 마이크로폰의 개수에 따라 그 성능이 크게 영향을 받는다. 이에 본 발명에서는 잡음의 개수와 상관없이 관심 음원 신호를 제거함으로써 두 개의 한정된 마이크로폰을 이용하여 실제 상황에 적용할 수 있도록 하였다. 특히 클러스터 기반 손실 특징을 복원할 때 특징이 손실이 되었는지를 판단하는 이진 마스크를 생성하는데, 신뢰도가 높은 부분과 낮은 부분이 일부 주파수에 편중되는 상수 문턱 값을 수정하여, 주파수마다 각각 학습한 값으로 이진 마스크를 생성한다.

이와 같이 본 발명은 음향 신호 분리 문제에서 실제적인 환경에 적용이 가능한 방안을 제시하기 때문에 음성 향상 및 인식 분야 그 중에서도, 특히 잡음 음향 환경에서 화자와 마이크로폰의 거리가 먼 원거리 음성 신호처리 분야에 활용가치가 매우 높다.

300 : 관심 음원 추정부
302 : 이진 마스크 및 문턱값 산출부

Claims

클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법에 있어서,
관찰신호를 입력받아 관심음원을 검출하는 단계;
상기 관찰신호와 상기 관심음원을 제공받아 주파수별 SIR을 산출하는 단계;
상기 주파수별 SIR를 토대로 주파수마다 상이한 문턱값을 가지는 이진 마스크를 추정하는 단계;를 구비함을 특징으로 하는 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법.
제1항에 있어서,
상기 이진 마스크는 수학식 44에 따름을 특징으로 하는 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법.
수학식 44

상기 수학식 44에서,
는 이진 마스크를 나타내고, SIR은 주파수별로 상이한 문턱값이고, P()는 사후 확률 산출 함수를 나타냄.
제2항에 있어서,
상기 주파수마다 상이한 문턱값인 SIR은 수학식 45에 따름을 특징으로 하는 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법.
수학식 45

상기 수학식 45에서
,
,
,
는 각각 Ω=1일 때, Ω=0일 때 SIR 분포의 표준편차와 평균이고, p는 Ω=1일 때의 동시 확률 분포로서, 각 값은 주파수 빈 별로 상이한 값이고,
SIR이 낮은 군집이 Ω가 0인 클래스라는 전제하에 μ₀< μ₁은 항상 성립한다고 할 때, σ₀< σ₁을 만족하는 경우에는 수학식 45의 두 번째 항을 가산한 근을 선택하고, 그렇지 않은 경우에는 감산한 근을 선택함.
클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 장치에 있어서,
관찰신호를 입력받아 관심음원을 검출하는 관심음원 검출부;
상기 관찰신호와 상기 관심음원을 제공받아 주파수별 SIR을 산출하는 단계;
상기 주파수별 SIR를 토대로 주파수마다 상이한 문턱값을 가지는 이진 마스크를 추정하는 이진 마스크 및 문턱값 산출부;를 구비함을 특징으로 하는 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 장치.
제4항에 있어서,
상기 이진 마스크는 수학식 46에 따름을 특징으로 하는 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 장치.
수학식 46

상기 수학식 46에서,
는 이진 마스크를 나타내고, SIR은 주파수별로 상이한 값이고, P()는 사후 확률 산출 함수를 나타냄.
제4항에 있어서,
상기 주파수마다 상이한 값인 SIR은 수학식 47에 따라 산출됨을 특징으로 하는 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 장치.
수학식 47

상기 수학식 47에서 상기 수학식 45에서
,
,
,
는 각각 Ω=1일 때, Ω=0일 때 SIR 분포의 표준편차와 평균이고, p는 Ω=1일 때의 동시 확률 분포로서, 각 값은 주파수 빈 별로 상이한 값이고,
SIR이 낮은 군집이 Ω가 0인 클래스라는 전제하에 μ₀< μ₁는 항상 성립한다고 할 때, σ₀< σ₁을 만족하는 경우에는 수학식 47의 두 번째 항을 가산한 근을 선택하고, 그렇지 않은 경우에는 감산한 근을 선택함.