KR101361034B1

KR101361034B1 - 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템

Info

Publication number: KR101361034B1
Application number: KR1020120048380A
Authority: KR
Inventors: 박형민; 전소람; 김민욱; 오명우
Original assignee: 서강대학교산학협력단
Priority date: 2012-05-08
Filing date: 2012-05-08
Publication date: 2014-02-11
Also published as: KR20130125014A

Abstract

본 발명에 따른 강한 음성 인식 시스템은 전처리(pre-processing) 과정인 MPDR 빔포머를 사용하여 음원을 향상시킨 후, 향상된 음원 신호들과 노이즈 신호들의 합성신호에 대하여 HIVA 학습 알고리즘을 적용하여 음원 신호에 대한 특징 벡터를 추출하는 것을 특징으로 한다. 상기 음성 인식 시스템은 신호 왜곡을 최소화시키고 언믹싱 매트릭스에 대한 컨버전스를 향상시키기 위하여, HIVA 학습 알고리즘을 수행함에 있어서, non-holonomic constraint와 최소 왜곡 원칙(Minimal Distortion Priciple; 이하 'MDP'라 한다)을 적용하는 것을 특징으로 한다. 또한, 상기 음성 인식 시스템은 향상된 음원과 노이즈 음원을 이용하여 학습 과정에서 손실된 특징들(Missing Features)을 파악하고 이를 보상하는 것을 특징으로 한다. 전술한 특징들에 의하여, 본 발명에 따른 강한 음성 인식 시스템은 하모닉 주파수 의존성을 이용한 독립 벡터 분석 알고리즘을 기반으로 하여 노이즈 등에 강한 시스템을 제공하게 된다.

Description

하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템{Robust speech recognition method based on independent vector analysis using harmonic frequency dependency and system using the method}

본 발명은 음성 인식 시스템 및 그 방법에 관한 것으로서, 더욱 구체적으로는 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템에 관한 것이다.

음성 인식 기술은 마이크나 전화를 통하여 얻어진 음향학적 신호를 단어나 단어 집합 또는 문장으로 변환하는 기술로서, 이렇게 인식된 결과들은 명령이나, 제어, 데이터 입력, 문서 준비 등의 응용 분야에서 최종결과로 사용될 수 있다. 이러한 음성 인식 기술을 이용한 음성 인식 시스템에 대한 응용분야가 최근 증가하고 있으며, 이에 대한 다양한 연구와 개발이 진행되고 있다.

도 1은 종래의 음성 인식 시스템을 개략적으로 도시한 블록도이다. 도 1을 참조하면, 종래의 음성 인식 시스템(10)은 외부로부터 입력된 신호를 출력하는 신호 입력부(100), 상기 신호 입력부로부터 제공된 입력 신호를 주파수 영역의 신호로 변환하여 출력하는 신호 변환부(110), 상기 신호 변환부로부터 제공된 입력 신호들에 대하여 Mel-주파수 스펙트럼을 구하는 Mel-log filter bank(120), 상기 Mel-주파수 스펙트럼에 대한 로그값을 구하는 로그화부(122), 로그 스펙트럼에 DCT(Discrete Cosine Transform)를 취하여 음성 특징을 추출하는 MFCC 검출부(130), 및 추출된 특징 정보와 사전 저장된 패턴들과의 비교 과정을 통해 음성을 인식하여 출력하는 음성 인식부(140)를 구비한다.

전술한 바와 같은 음성 인식 시스템은 주위 환경 잡음, 마이크의 종류나 위치 등과 같은 외부 요인들에 의해 음성 인식의 성능이 영향을 받게 된다. 특히, 주위 환경 잡음과 같은 노이즈는 시스템의 인식 성능을 급격하게 감쇄시키므로, 노이즈에 강한 음성 인식 기술을 개발하는 것이 중요 과제로 부상되고 있다.

여러 사운드가 혼합된 사운드에서 개별적인 음원 신호를 분리해 내는 것을 BSS(Blind Source Separation 또는 Blind Signal Separation)라고 하며, 여기서 Blind는 원본 신호에 대한 정보가 없으며, 믹싱된 신호에 대해서도 정보가 없다는 것을 의미한다. 그리고, 최종적으로 신호를 분리하는 과정을 디믹스(Demix) 또는 언믹스(Unmix)라고 표현한다. 이러한 음원 신호 분리하기 위한 학습 알고리즘으로, 독립 성분 분석(Independent Component Analysis;'ICA') 알고리즘, 독립 벡터 분석(Independent Vector Analysis;'IVA') 알고리즘, 하모닉 주파수 의존성(Harmonic Frequency Dependancy)을 갖는 독립 벡터 분석 ('HIVA') 알고리즘 등이 제안되고 있다.

하모닉 주파수 의존성을 갖는 독립 벡터 분석 알고리즘은 음성(speech)이나 음악(music)과 같은 오디오 신호들의 분리에 매우 우수하다. 하지만, ICA 알고리즘과 같이 일시적으로 상호 연관된 오디오 신호들의 혼합 신호들에 대한 급격한 필터링으로 인하여, HIVA 에 기반하여 음원 분리 과정에서 추정된 관심 음원들에 대한 신호가 왜곡되는 문제들이 발생한다. 이렇게 분리된 관심 음원 신호에 대한 왜곡은 음성 인식 시스템의 성능의 감쇄를 초래하게 된다.

(1) 한국등록특허공보 제 10-4085240 호 (2) 한국공개특허공보 제 10-2010-117055 호 (3) 한국공개특허공보 제 10-2010-83572 호

전술한 문제점을 해결하기 위한 본 발명의 목적은 음원 신호에 대한 분리 성능을 향상시키고, 최적화 조건을 사용하여 HIVA 학습 알고리즘을 적용하여 노이즈에 강한 음성 인식 시스템 및 그 방법을 제공하는 것이다.

본 발명의 다른 목적은 향상된 음원 신호와 관찰된 노이즈 음원을 이용하여 노이즈에 의한 신호 감쇄를 검출하고 이를 보상하여 음원 신호를 추정해 냄으로써, 노이즈에 강한 음성 인식할 수 있는 음성 인식 시스템 및 그 방법을 제공하는 것이다.

전술한 기술적 과제를 달성하기 위한 본 발명의 제1 특징에 따른 음성 인식 시스템은, 외부의 입력장치를 통해 다수 개의 입력 신호를 수신하는 신호 입력부; 수신된 입력 신호들을 주파수 영역으로 변환하는 신호 변환부; 상기 신호 변환부로부터 제공된 입력 신호들에 대하여 하모닉 주파수 의존성(Harmonic Frequency Dependency)을 이용한 독립 벡터 분석(Independent Vector Analysis)에 기반한 학습 알고리즘을 수행하여 특징 벡터를 추출하고, 추출된 특징 벡터를 이용하여 음원 신호를 추정하여 출력하는 음원 신호 추출부; 입력 신호를 이용하여 상기 추정된 음원 신호에 대하여 추정 과정에서 손실된 특징(Missing Feature)을 보상하여 출력하는 손실 특징 보상부;를 구비한다.

전술한 제1 특징에 따른 음성 인식 시스템에 있어서, 음원의 방향에 대한 정보를 이용하여 상기 신호 변환부로부터 제공된 입력 신호들 중 음원 신호를 아래의 수학식에 따라 강화시켜 음원 신호 추출부로 제공하는 빔포머를 더 구비하는 것이 바람직하다.

여기서, d_i(ω) 및 R(ω)는 각각 i 번째 음원에 대한 스티어링 벡터(steering vector towards the i-th source) 및 입력 스펙트럼 분산 매트릭스(an ipnut spectral covariance matrix)를 나타내며, λ는 R(ω)의 특이점(singularity)이 형성되는 것을 회피하기 위하여 설정되는 작은 양의 상수값이다.

전술한 제1 특징에 따른 음성 인식 시스템에 있어서, 상기 음원 신호 추출부는 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추출된 특징 벡터는 off-diag 함수를 적용하여 아래의 수학식에 따라 수정되어 계산하는 것이 바람직하다.

여기서, 'off-diag()' 함수는 다이고날 성분들(diagonal elements)이 영(zero)으로 설정된 매트릭스이며,

로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들이며,

는

에 대한 multivariate score function 이며,

이며, Ω는 주파수 빈들의 개수를 나타낸다.

전술한 제1 특징에 따른 음성 인식 시스템에 있어서, 상기 음원 신호 추출부는 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추정된 음원 신호와 상기 입력 신호의 최소 왜곡을 유지하도록 하기 위하여 비용함수를 최소화시키도록 상기 추출된 특징 벡터를 아래의 수학식에 따라 수정하는 것이 바람직하다.

여기서,

, 로서 혼합 신호의 시간-주파수 세그먼트들이며,

로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들이다.

전술한 제1 특징에 따른 음성 인식 시스템에 있어서, 상기 손실 특징 보상부는, 신호변환부로부터 제공된 입력 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 제1 MFCC 검출부; 음원 신호 추출부로부터 제공된 상기 추정된 음원 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 제2 MFCC 검출부; 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에서 손실된 특징을 보상하는 손실 특징 계산부;를 구비하고,

상기 손실 특징 계산부는, 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성하는 마스크 생성부; 상기 신뢰성 마스크 및 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에 대한 손실된 특징을 검출하고, 사전 설정된 클러스터 기반의 음성 특징 모델을 이용하여 상기 손실된 특징을 보상하여 출력하는 손실 특징 보상 출력부;를 구비하는 것이 바람직하다.

본 발명의 제2 특징에 따른 음성 인식 방법은, (a) 외부로부터 수신된 입력 신호들을 주파수 영역으로 변환하는 단계; (b) 상기 변환된 입력 신호들에 대하여 하모닉 주파수 의존성(Harmonic Frequency Dependency)을 이용한 독립 벡터 분석(Independent Vector Analysis)에 기반한 학습 알고리즘을 수행하여 특징 벡터를 추출하고, 추출된 특징 벡터를 이용하여 음원 신호를 추정하여 출력하는 단계; (c) 입력 신호를 이용하여 상기 추정된 음원 신호에 대하여 추정 과정에서 손실된 특징(Missing Feature)을 보상하여 출력하는 단계;를 구비한다.

전술한 제2 특징에 따른 음성 인식 방법에 있어서, 특징 벡터를 추출하기 전에, 음원의 방향에 대한 정보를 이용하여 상기 입력 신호들 중 음원 신호를 강화시키는 단계를 더 구비하는 것이 바람직하다.

전술한 제2 특징에 따른 음성 인식 방법에 있어서, 상기 (b) 단계에서 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 추출된 특징 벡터는 off-diag 함수를 적용하여 수정하는 것이 바람직하다.

전술한 제2 특징에 따른 음성 인식 방법에 있어서, 상기 (b) 단계에서 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추정된 음원 신호와 상기 입력 신호의 최소 왜곡을 유지하도록 하기 위하여 비용함수를 최소화시키도록 상기 추출된 특징 벡터를 수정하는 것이 바람직하다.

전술한 제2 특징에 따른 음성 인식 방법에 있어서, 상기 (c) 단계는, (c1) 상기 변환된 입력 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 단계; (c2) 상기 추정된 음원 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 단계; (c3) 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에서 손실된 특징을 보상하는 단계;를 구비하고,

상기 (c3) 단계는, 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성하고, 상기 신뢰성 마스크 및 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에 대한 손실된 특징을 검출하고, 사전 설정된 클러스터 기반의 음성 특징 모델을 이용하여 상기 손실된 특징을 보상하여 출력하는 것이 바람직하다.

본 발명에 따른 음성 인식 방법 및 음성 인식 시스템은, 잡음 환경에서 특히 우수한 음성 인식 성능을 보여준다. 또한, HIVA 학습 알고리즘을 수행할 때 음원 신호에 대한 특징들이 손실되는 문제점이 발생되는데, 본 발명에 따른 음성 인식 방법 및 음성 인식 시스템은 손실 특징(Missing Feature)을 보상함으로써 보다 정확하게 음원 신호를 추출할 수 있게 된다. 또한, 본 발명에 따른 음성 인식 방법 및 음성 인식 시스템은 HIVA 학습 알고리즘을 수행할 때 Non-holonomic Constraint를 적용함으로써 학습의 수렴 속도를 향상시킬 수 있게 된다.

도 1은 종래의 음성 인식 시스템을 개략적으로 도시한 블록도이다.
도 2는 본 발명의 바람직한 실시예에 따른 음성 인식 시스템을 전체적으로 도시한 블록도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 따른 하모닉 주파수 의존성을 이용한 독립 벡터 분석 알고리즘을 기반으로 한 강한 음성 인식 시스템 및 그 방법에 대하여 구체적으로 설명한다.

본 발명에 따른 강한 음성 인식 시스템은 전처리(pre-processing) 과정인 MPDR 빔포머를 사용하여 음원을 향상시킨 후, 향상된 음원 신호들과 노이즈 신호들의 합성신호에 대하여 HIVA 학습 알고리즘을 적용하여 음원 신호에 대한 특징 벡터를 추출하는 것을 특징으로 한다. 또한, 본 발명에 따른 강한 음성 인식 시스템은 신호 왜곡을 최소화시키고 언믹싱 매트릭스에 대한 컨버전스를 향상시키기 위하여, HIVA 학습 알고리즘을 수행함에 있어서, non-holonomic constraint와 최소 왜곡 원칙(Minimal Distortion Priciple; 이하 'MDP'라 한다)을 적용하는 것을 특징으로 한다. 또한, 본 발명에 따른 강한 음성 인식 시스템은 향상된 음원과 노이즈 음원을 이용하여 학습 과정에서 손실된 특징들(Missing Features)을 파악하고 이를 보상하는 것을 특징으로 한다. 전술한 특징들에 의하여, 본 발명에 따른 강한 음성 인식 시스템은 하모닉 주파수 의존성을 이용한 독립 벡터 분석 알고리즘을 기반으로 하여 노이즈 등에 강한 시스템을 제공하게 된다.

도 2는 본 발명의 바람직한 실시예에 따른 음성 인식 시스템을 전체적으로 도시한 블록도이다. 이하, 도 2를 참조하여 본 발명에 따른 음성 인식 시스템의 구조 및 동작을 구체적으로 설명한다.

본 발명에 따른 음성 인식 시스템(20)은 신호 입력부(200), 신호 변환부(210), 전처리부(220), 음원신호 추출부(230), 손실특징 보상부(240), DCT 변환부(250) 및 음성 인식부(260)를 구비한다.

상기 신호 입력부(200)는 하나 또는 둘 이상의 마이크 등과 같은 신호 입력 장치를 통해 음원 신호(s(t))와 노이즈 신호(n(t))가 믹싱된 신호들(x ₁ (t), x ₂ (t))이 입력되고, 입력 신호(x ₁ (t), x ₂ (t))는 신호 변환부로 제공된다.

상기 신호 변환부(210)는 상기 신호 입력부로부터 제공된 시간 도메인(time-domain)의 입력 신호(x ₁ (t), x ₂ (t))를 주파수 도메인의 신호로 변환시키는 국소 푸리에 변환(Short-time Fourier Transform)하여 출력한다.

상기 전처리부(220)는 사전 설정된 음원에 대한 정보를 이용하여 상기 신호 변환부로부터 제공된 입력 신호(x ₁ (ω,τ), x ₂ (ω,τ))에 대하여 수학식 1에 따른 MPDR 빔포밍하여 음원을 향상시킨다.

상기 음원 신호 추출부(230)는 최소 왜곡 원칙(Minimal Distortion Principle)과 non-holonomic 제한 조건을 적용한 HIVA 학습 알고리즘을 수행하여 상기 전처리부로부터 제공되는 입력 신호에 대한 특징 벡터를 추출하고, 상기 추출된 특징 벡터를 이용하여 음원 신호를 추정하여 출력한다.

이하, 상기 음원 신호 추출부가 특징 벡터를 추출하는 과정을 순차적으로 설명한다. 먼저, HIVA 학습 알고리즘을 적용하기 위하여 특징 벡터(W(ω))는 언믹싱 매트릭스(an unmixing matix)로서 수학식 2 및 수학식 3과 같이 정의된다.

여기서,

,

로서, 이들은 각각 혼합 신호의 시간-주파수 세그먼트들과 음원 신호 벡터들이다. A(ω)는 주파수 빈(frequency bin) ω 에서의 믹싱 매트릭스(mixing matrix)이다.

수학식 3에 의해 음원 신호들을 추정할 수 있는데, 여기서, u(ω,τ)는

비용 함수를 최소화시키기 위한 실시간 기울기 알고리즘(on-line natural gradient algorithm)은 수학식 4로 정의되는 하모닉 주파수 의존성을 이용한 독립벡터분석(HIVA) 학습에 의해 구할 수 있다.

여기서,

는

에 대한 multivariate score function 이며,

이며, Ω는 주파수 빈들의 개수를 나타낸다. multivariate score function

는 수학식 5 및 수학식 6에 의해 구해질 수 있다. ,

S_ω는 ω번째 주파수 빈(ω-th frequency bin)을 포함하는 클리끄(cliques)들의 세트를 표시한 것이며,

는

에 대한 multivariate score function 이며,

이며, Ω는 주파수 빈들의 개수를 나타낸다.

C_h는 h 번째 하모닉 클리크(h-th harmonic clique)에 속하는 주파수 빈들의 세트를 표시하며 수학식 7에 의해 구할 수 있으며, 1≤h≤H-1 이며, H는 클리끄의 총 개수를 나타낸다. 클리크의 개수는 총 50개이며, 따라서 1=h=H 이다, 이 중 1=h=H-1 까지의 클리크는 수학식 7을 따르며, C_H, 즉 마지막 50번째의 클리크는 모든 w가 포함되어 있다.

여기서, f(ω)는 ω번째 주파수 빈의 주파수이며, M은 8로 설정된 하모닉 클리끄의 하모닉 주파수들의 개수를 나타낸다.

F_h는 하모닉 클리끄들의 기본 주파수들로서, 수학식 8로 정의된다.

여기서, F₁=55Hz 이면, 하모닉 클리끄들의 개수는 49이다. 이 주파수 범위는 인간의 음성 신호의 피치(pitch)의 전체 범위를 포함할 수 있게 된다.

δ는 각 하모닉 주파수의 대역폭을 결정하는 것으로서, 2개의 연속되는 클리끄들 사이에서 50% 중첩되도록 설정된다.

HIVA 학습 알고리즘에 Non-holonomic Constraint를 적용하면 수학식 4는 수학식 9와 같이 수정된다.

여기서, 'off-diag()' 함수는 다이고날 성분들(diagonal elements)이 영(zero)으로 설정된 매트릭스이다.

한편, HIVA 학습 알고리즘에 MDP 를 적용하면 수학식 4는 수학식 10과 같이 수정된다.

따라서, HIVA 학습 알고리즘에 Non-holonomic Constraint 및 MDP를 모두 적용하면, 수학식 4는 수학식 11과 같이 수정된다.

여기서, β는 MDP의 상관 가중치(relative weight)를 결정하는 작은 양의 상수값이다.

따라서, 음원 신호 추출부는 수학식 11로 표현된 Non-holonomic Constraint 및 MDP를 적용한 HIVA 학습 알고리즘을 적용하여 특징 벡터를 학습하여 추출하고, 이러한 특징 벡터를 이용하여 수학식 3에 따라 음원 신호를 추정하고, 추정된 음원 신호(u₁(ω,τ))가 출력된다.

상기 신호 변환부(210)로부터 출력된 입력 신호(x₁(ω,τ))와 상기 음원 신호 추출부(230)로부터 출력된 상기 추정된 음원 신호(u₁(ω,τ))가 상기 손실 특징 보상부(240)로 입력된다. 상기 손실 특징 보상부(240)는 상기 신호 변환부(210)로부터 출력된 입력 신호(x₁(ω,τ))와 상기 음원 신호 추출부(230)로부터 출력된 상기 추정된 음원 신호(u₁(ω,τ))를 이용하여, 상기 음원 신호를 추정하는 과정에서 손실된 특징들인 시간-주파수 세그먼트들을 보상하는 것을 특징으로 한다.

상기 손실 특징 보상부(240)는, 신호변환부로부터 제공된 입력 신호(x₁(ω,τ))에 대하여 Mel 주파수 캡스트럼을 검출하는 제1 MFCC 검출부(242), 음원 신호 추출부로부터 제공된 상기 추정된 음원 신호(u₁(ω,τ))에 대하여 Mel 주파수 캡스트럼을 검출하는 제2 MFCC 검출부(244), 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성하는 마스크 생성부(246), 및 상기 신뢰성 마스크와 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에 대한 손실 특징을 검출하고 사전 구축된 클러스터 기반의 음성 신호들에 대한 스펙트럼 클러스터 모델을 이용하여 상기 손실 특징을 보상하여 출력하는 손실 특징 보상 출력부(248)를 구비한다. 전술한 구성을 갖는 손실 특징 보상부(240)는 상기 추정된 음원 신호(u₁(ω,τ))에 대한 Mel 주파수 캡스트럼을 검출하고, 상기 Mel 주파수 캡스트럼에서 손실 특징(missing Feature)들을 보상하고, 상기 손실 특징들이 보상된 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼(L _recon(ω_mel, τ')를 출력한다.

상기 제1 및 제2 MFCC 검출부(242, 244)는 입력된 신호들에 대하여 Mel 주파수 캡스트럼을 검출하여 출력하는 것들로서, 이들의 동작에 대하여 구체적으로 설명한다. Mel-Frequency Cepstrum(MFC)는 단구간 신호의 파워 스펙트럼을 표현하는 것으로서, Mel-Frequency Cepstral Coefficients(MFCCs)는 여러 개의 MFC들을 모아 놓은 계수를 의미한다. 상기 제1 및 제2 MFCC 검출부는 입력된 신호들에 대하여 Mel-scale의 필터뱅크를 이용하여 파워 스펙트럼(Power Spectrum)을 구하고, 각 Mel-scale의 파워 스펙트럼에 로그(Log)를 취함으로써, MFCC 값들을 구하게 된다.

따라서, 제1 MFCC 검출부(242)는 입력 신호(x₁(ω,τ))에 대하여 Mel 주파수 캡스트럼(L _org(ω_mel, τ'))을 검출하여 제공하며, 제2 MFCC 검출부(244)는 상기 추정된 음원 신호(u₁(ω,τ))에 대하여 Mel 주파수 캡스트럼(L _enh(ω_mel, τ'))을 검출하여 제공한다.

상기 마스크 생성부(246)는 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성한다. Mel-Frequency band(ω_mel)과 프레임(τ')에서의 상기 신뢰성 마스크의 값(M(ω_mel, τ')는 수학식 12에 의해 표현된다.

영(Zero)의 마스크 값에 대응되는 Mel 주파수 캡스트럼 성분은 신뢰할 수 없는 특징들로 간주되며, 그렇지 아니한 성분들은 신뢰할 수 있는 특징들로 고려된다. 따라서, 상기 신뢰성 마스크를 이용하여 Mel 주파수 캡스트럼 성분들 중 신뢰할 수 없는 성분들을 손실 특징(Missing Feature)으로 판단한다. 상기 신뢰할 수 있는 특징들과 사전 구축된 음성 신호들에 대한 스펙트럼 클러스터 모델을 이용하여, 상기 손실 특징들을 보상한다.

상기 DCT 변환부(250)는 상기 손실 특징들이 보상된 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼(L _recon(ω_mel,τ')을 DCT(Discrete Cosine Transform) 변환하여 출력한다.

상기 음성 인식부(260)는 상기 DCT 변환된 Mel 주파수 캡스트럼(C(q,τ'))을 이용하여 상기 추정된 음원 신호를 인식한다. 상기 음성 인식부가 음원 신호를 인식하는 알고리즘은 이미 매우 다양하게 제안되거나 사용되고 있으며, 이러한 알고리즘은 본 발명의 주요 구성 성분이 아니므로 이에 대한 구체적인 설명은 생략한다.

이하, 본 발명에 따른 음성 인식 방법에 대하여 설명한다.

본 발명에 따른 음성 인식 방법은, 외부로부터 수신된 입력 신호들을 주파수 영역으로 변환하는 단계; 음원의 방향에 대한 정보를 이용하여 상기 입력 신호들 중 음원 신호를 아래의 수학식에 따라 강화시키는 단계; 상기 변환된 입력 신호들에 대하여 하모닉 주파수 의존성(Harmonic Frequency Dependency)을 이용한 독립 벡터 분석(Independent Vector Analysis)에 기반한 학습 알고리즘을 수행하여 특징 벡터를 추출하고, 추출된 특징 벡터를 이용하여 음원 신호를 추정하여 출력하는 단계; 입력 신호를 이용하여 상기 추정된 음원 신호에 대하여 추정 과정에서 손실된 특징(Missing Feature)을 보상하여 출력하는 단계;를 구비한다.

전술한 음원신호를 추정하는 단계에서 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 추출된 특징 벡터는 off-diag 함수를 적용하여 수정되는 것이 바람직하다. 이러한 수정을 함으로써, 학습의 수렴속도를 향상시킬 수 있게 된다.

또한, 상기 추정된 음원 신호와 상기 입력 신호의 최소 왜곡을 유지하도록 하기 위하여 비용함수를 최소화시키도록 상기 추출된 특징 벡터를 수정하는 것이 바람직하다.

전술한 손실 특징 보상 출력 단계는, 상기 변환된 입력 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 단계; 상기 추정된 음원 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 단계; 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성하고, 상기 신뢰성 마스크 및 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에 대한 손실된 특징을 검출하고, 사전 설정된 클러스터 기반의 음성 특징 모델을 이용하여 상기 손실된 특징을 보상하여 출력하는 단계;를 구비하는 것이 바람직하다.

이상에서 본 발명에 대하여 그 바람직한 실시예를 중심으로 설명하였으나, 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 그리고, 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다

본 발명에 따른 음성 인식 시스템에서 널리 사용될 수 있다.

10, 20 : 음성 인식 시스템
100, 200 : 신호 입력부
110 : 신호 변환부
120 : Mel-filter bank
122 : 로그화부
130 : MFCC 검출부
140 : 음성 인식부
210 : 신호 변환부
220 : 전처리부
230 : 음원신호 추출부
240 : 손실특징 보상부
250 : DCT 변환부
260 : 음성 인식부
242 : 제1 MFCC 검출부
244 : 제2 MFCC 검출부
246 : 마스크 생성부
248 : 손실 특징 보상 출력부

Claims

외부의 입력장치를 통해 다수 개의 입력 신호를 수신하는 신호 입력부;
수신된 입력 신호들을 주파수 영역으로 변환하는 신호 변환부;
상기 신호 변환부로부터 제공된 입력 신호들에 대하여 하모닉 주파수 의존성(Harmonic Frequency Dependency)을 이용한 독립 벡터 분석(Independent Vector Analysis)에 기반한 학습 알고리즘을 수행하여 특징 벡터를 추출하고, 추출된 특징 벡터를 이용하여 음원 신호를 추정하여 출력하는 음원 신호 추출부;
입력 신호를 이용하여 상기 추정된 음원 신호에 대하여 추정 과정에서 손실된 특징(Missing Feature)을 보상하여 출력하는 손실 특징 보상부; 를 구비하고,
상기 음원 신호 추출부는 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추출된 특징 벡터는 off-diag 함수를 적용하여 아래의 수학식에 따라 수정되어 계산하는 것을 특징으로 하는 음성 인식 시스템.

여기서, 'off-diag()' 함수는 다이고날 성분들(diagonal elements)이 영(zero)으로 설정된 매트릭스이며,
로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들이며,
는
에 대한 multivariate score function 이며,
이며, Ω는 주파수 빈들의 개수를 나타냄.
제1항에 있어서, 상기 음성 인식 시스템은 음원의 방향에 대한 정보를 이용하여 상기 신호 변환부로부터 제공된 입력 신호들 중 음원 신호를 아래의 수학식에 따라 강화시켜 음원 신호 추출부로 제공하는 빔포머를 더 구비하는 것을 특징으로 하는 음성 인식 시스템.

여기서, d_i(ω) 및 R(ω)는 각각 i 번째 음원에 대한 스티어링 벡터(steering vector towards the i-th source) 및 입력 스펙트럼 분산 매트릭스(an ipnut spectral covariance matrix)를 나타내며, λ는 R(ω)의 특이점(singularity)이 형성되는 것을 회피하기 위하여 설정되는 작은 양의 상수값임.
삭제
제1항에 있어서, 상기 음원 신호 추출부는 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추정된 음원 신호와 상기 입력 신호의 최소 왜곡을 유지하도록 하기 위하여 비용함수를 최소화시키도록 상기 추출된 특징 벡터를 수정하는 것을 특징으로 하는 음성 인식 시스템.
제4항에 있어서, 상기 음원 신호 추출부는 특징 벡터를 아래의 수학식에 따라 수정하는 것을 특징으로 하는 음성 인식 시스템.

여기서,
, 로서 혼합 신호의 시간-주파수 세그먼트들이며,
로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들임.
제1항에 있어서, 상기 음원 신호 추출부는 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추출된 특징 벡터는 off-diag 함수를 적용하여 수정된 값과, 상기 추정된 음원 신호의 최소 왜곡을 유지하도록 하기 위하여 상기 추정된 음원 신호와 입력 신호에 대한 비용함수를 최소화시키도록 특징 벡터를 수정된 값을 이용하여 결정하는 것을 특징으로 하는 음성 인식 시스템.
제1항에 있어서, 상기 손실 특징 보상부는,
신호변환부로부터 제공된 입력 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 제1 MFCC 검출부;
음원 신호 추출부로부터 제공된 상기 추정된 음원 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 제2 MFCC 검출부;
상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에서 손실된 특징을 보상하는 손실 특징 계산부;
를 구비하는 것을 특징으로 하는 음성 인식 시스템.
제7항에 있어서, 상기 손실 특징 계산부는,
상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성하는 마스크 생성부;
상기 신뢰성 마스크 및 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에 대한 손실된 특징을 검출하고, 사전 설정된 클러스터 기반의 음성 특징 모델을 이용하여 상기 손실된 특징을 보상하여 출력하는 손실 특징 보상 출력부;
를 구비하는 것을 특징으로 하는 음성 인식 시스템.
(a) 외부로부터 수신된 입력 신호들을 주파수 영역으로 변환하는 단계;
(b) 상기 변환된 입력 신호들에 대하여 하모닉 주파수 의존성(Harmonic Frequency Dependency)을 이용한 독립 벡터 분석(Independent Vector Analysis)에 기반한 학습 알고리즘을 수행하여 특징 벡터를 추출하고, 추출된 특징 벡터를 이용하여 음원 신호를 추정하여 출력하는 단계;
(c) 입력 신호를 이용하여 상기 추정된 음원 신호에 대하여 추정 과정에서 손실된 특징(Missing Feature)을 보상하여 출력하는 단계;를 구비하고
상기 (b) 단계에서 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 추출된 특징 벡터는 off-diag 함수를 적용하여 아래의 수학식에 따라 수정되어 계산하는 것을 특징으로 하는 음성 인식 방법.

여기서, 'off-diag()' 함수는 다이고날 성분들(diagonal elements)이 영(zero)으로 설정된 매트릭스이며,
로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들이며,
는
에 대한 multivariate score function 이며,
이며, Ω는 주파수 빈들의 개수를 나타냄.
제9항에 있어서, 상기 음성 인식 방법은 특징 벡터를 추출하기 전에, 음원의 방향에 대한 정보를 이용하여 상기 입력 신호들 중 음원 신호를 아래의 수학식에 따라 강화시키는 단계를 더 구비하는 것을 특징으로 하는 음성 인식 방법.

여기서, d_i(ω) 및 R(ω)는 각각 i 번째 음원에 대한 스티어링 벡터(steering vector towards the i-th source) 및 입력 스펙트럼 분산 매트릭스(an ipnut spectral covariance matrix)를 나타내며, λ는 R(ω)의 특이점(singularity)이 형성되는 것을 회피하기 위하여 설정되는 작은 양의 상수값임.
삭제
제9항에 있어서, 상기 (b) 단계에서 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 상기 추정된 음원 신호와 상기 입력 신호의 최소 왜곡을 유지하도록 하기 위하여 비용함수를 최소화시키도록 상기 추출된 특징 벡터를 수정하는 것을 특징으로 하는 음성 인식 방법.
제12항에 있어서, 상기 (b) 단계는 특징 벡터를 아래의 수학식에 따라 수정하는 것을 특징으로 하는 음성 인식 방법.

여기서,
, 로서 혼합 신호의 시간-주파수 세그먼트들이며,
로서 추정된 음원 신호 벡터의 시간-주파수 세그먼트들임.
제9항에 있어서, 상기 (b) 단계는 상기 하모닉 주파수 의존성을 이용한 독립 벡터 분석에 기반한 학습 알고리즘을 수행하여 특징 벡터(W(ω))를 추출하고, 추출된 특징 벡터는 off-diag 함수를 적용하여 수정된 값과, 상기 추정된 음원 신호의 최소 왜곡을 유지하도록 하기 위하여 상기 추정된 음원 신호와 입력 신호에 대한 비용함수를 최소화시키도록 수정된 값을 이용하여 결정하는 것을 특징으로 하는 음성 인식 방법.
제9항에 있어서, 상기 (c) 단계는,
(c1) 상기 변환된 입력 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 단계;
(c2) 상기 추정된 음원 신호에 대하여 Mel 주파수 캡스트럼을 검출하는 단계;
(c3) 상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에서 손실된 특징을 보상하는 단계;
를 구비하는 것을 특징으로 하는 음성 인식 방법.
제15항에 있어서, 상기 (c3) 단계는,
상기 입력 신호에 대한 Mel 주파수 캡스트럼과 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 신뢰성 마스크(Reliability Mask)를 생성하고, 상기 신뢰성 마스크 및 상기 추정된 음원 신호에 대한 Mel 주파수 캡스트럼을 이용하여 상기 추정된 음원 신호에 대한 손실된 특징을 검출하고, 사전 설정된 클러스터 기반의 음성 특징 모델을 이용하여 상기 손실된 특징을 보상하여 출력하는 것을 특징으로 하는 음성 인식 방법.