KR101543300B1

KR101543300B1 - 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법

Info

Publication number: KR101543300B1
Application number: KR1020130082875A
Authority: KR
Inventors: 장준혁; 김종웅
Original assignee: 한양대학교 산학협력단
Priority date: 2013-07-15
Filing date: 2013-07-15
Publication date: 2015-08-12
Also published as: KR20150009100A

Abstract

본 발명은 음성 존재 불확실성 추정 방법에 관한 것으로서, 프레임마다 적응적으로 변화하는 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정하고, 상기 새로운 q 값은, 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 산출되는 것을 특징으로 함으로써, 비정상적인 잡음 환경에서도 보다 강인한 음성 부재 확률 추정이 가능하다.

Description

다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법{Speech Presence Uncertainty Estimation method Based on Multiple Linear Regression Analysis}

본 발명은 음성 존재 불확실성 추정 방법에 관한 것으로서, 더욱 상세하게는 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비를 이용하여 새로운 q 값을 산출함으로써 음성을 향상시킬 수 있는 음성 존재 불확실성 추정 방법에 관한 것이다.

종래의 음성 향상을 위한 음성 존재 불확실성 추정 방법들에서는 음성 부재 확률 (SAP)을 구할 때 사용되는 음성 부재와 존재에 대한 a priori 확률값의 비 (q)를 0.5 , 0.2 , 또는 0.0625 같이 고정된 값을 그대로 적용하여 다양한 음성 환경 변화에서 한계를 나타내었다. 특히 비정상적인 잡음 환경을 고려하였을 때, 잡음이 음성 신호를 간섭하면 음성의 꼬리와 같은 약한 음성 신호를 추정하기 힘들다. 한편, 이를 극복하기 위해 음성 부재 확률 (SAP)을 구할 때 사용되는 q 값이 고정된 값이었던 것과는 다르게 프레임, 채널마다 입력 신호의 a posteriori SNR 값이나 Sr 값과 같은 특정 파라미터들을 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용한 기술이 있었다. 그러나 이러한 파라미터 값으로 판별할 경우 약한 음성 구간이나 SNR이 낮은 입력 신호일 경우 그 결과의 신뢰도가 매우 낮아진다는 문제점이 있으며 다양한 음성 환경 변화에 한계를 나타낸다.

본 발명이 해결하고자 하는 첫 번째 과제는 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비를 이용하여 새로운 q 값을 산출하는 음성 존재 불확실성 추정 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 두 번째 과제는 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비를 이용하여 새로운 q 값을 산출하는 음성 존재 불확실성 추정 방법을 이용하여 음성을 인식하는 음성 인식 장치를 제공하는 것이다.

본 발명은 상기 첫 번째 과제를 달성하기 위하여, 음성 존재 불확실성 추정 방법에 있어서, 프레임마다 적응적으로 변화하는 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정하는 것을 특징으로 하는 방법을 제공한다.

본 발명의 실시예에 의하면, 상기 새로운 q 값은, 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 산출되는 것을 특징으로 하는 방법일 수 있다.

본 발명의 실시예에 의하면, 상기 새로운 q 값은, 상기 선행 신호 대 잡음비 값 및 상기 제 1 값을 독립변수로 하고, 후행 신호 대 잡음비(a posteriori SNR) 값을 임계값과 비교함으로써 산출되는 q 값을 종속변수로 하는 다중 선형분석을 통해 도출되는 추정 회귀식으로부터 산출되는 것을 특징으로 하는 방법일 수 있고, 상기 다중 선형분석의 회귀계수들은 최소자승법을 이용하여 산출되는 것을 특징으로 하는 방법일 수 있다.

본 발명은 상기 첫 번째 과제를 달성하기 위하여, 상기 음성 존재 불확실성 추정 방법을 이용하여 음성을 인식하는 음성 인식 장치를 제공한다.

본 발명에 따르면, q 값이 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값에 따라 적응적으로 변화하기 때문에 결과적으로 모든 프레임, 채널마다 적응적으로 변화하는 각기 다른 q 값을 이끌어내고 비정상적인 잡음 환경에서도 보다 강인한 음성 부재 확률 추정이 가능하다.

도 1은 본 발명의 실시예에 따른 음성 존재 불확실성 추정 방법과 기존 방법을 적용한 음성 존재 확률을 비교한 것이다.
도 2는 본 발명의 실시예에 따른 음성 존재 불확실성 추정 방법에서의 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비에 대한 산점도 및 선형모델 추정 적합도를 확인한 그래프를 도시한 것이다.

본 발명에 관한 구체적인 내용의 설명에 앞서 이해의 편의를 위해 본 발명이 해결하고자 하는 과제의 해결 방안의 개요 혹은 기술적 사상의 핵심을 우선 제시한다.

본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법은 프레임마다 적응적으로 변화하는 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정하고, 상기 새로운 q 값은, 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 산출되는 것을 특징으로 한다.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 실시 예를 상세히 설명한다. 그러나 이들 실시예는 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 범위가 이에 의하여 제한되지 않는다는 것은 당업계의 통상의 지식을 가진 자에게 자명할 것이다.

본 발명이 해결하고자 하는 과제의 해결 방안을 명확하게 하기 위한 발명의 구성을 본 발명의 바람직한 실시예에 근거하여 첨부 도면을 참조하여 상세히 설명하되, 도면의 구성요소들에 참조번호를 부여함에 있어서 동일 구성요소에 대해서는 비록 다른 도면상에 있더라도 동일 참조번호를 부여하였으며 당해 도면에 대한 설명시 필요한 경우 다른 도면의 구성요소를 인용할 수 있음을 미리 밝혀둔다. 아울러 본 발명의 바람직한 실시 예에 대한 동작 원리를 상세하게 설명함에 있어 본 발명과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명 그리고 그 이외의 제반 사항이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.

본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법은 프레임마다 적응적으로 변화하는 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정한다. 또한, 상기 새로운 q 값은 입력신호의 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 산출된다. 기존의 음성 존재 불확실성 추정 방법들에서 음성 부재 확률(SAP)을 구할 때, 고정된 q 값을 사용하거나 간단히 특정 파라미터 값을 임계값과 비교하여 q 값을 결정했던 방법과는 달리, 본 발명의 일 실시예에서는 선행 신호 대 잡음비 값과 최소값 제어 재귀평균(MCRA) 방법에서 제안된 잡음이 섞인 신호의 국부 에너지와 주어진 윈도우에서 최소값 사이의 비(Sr)인 제 1 값이 q 값과 밀접한 관계를 가진다는 것에 착안, 이 두 개의 파라미터들을 다중 선형회귀 분석하여, 그 결과로 얻은 새로운 q 값을 음성 부재 확률을 구하는 데에 적용한다. 결과적으로 이를 통해 모든 프레임, 채널마다 적응적으로 변화하는 각기 다른 새로운 q 값을 산출하고, 보다 견실한 음성 부재 확률을 추정함으로써 음성을 향상시킬 수 있다.

상기 새로운 q 값은 다음 수학식 1로부터 산출할 수 있다.

여기서,

는 상기 새로운 q 값이고,

는 다중회귀분석을 통해 산출된 회귀계수이고,

는 상기 선행 신호 대 잡음비 값이며,

는 상기 제 1 값이다.

이하에서는 상기 새로운 q 값의 산출하는 과정을 보다 구체적으로 살펴보도록 한다.

원래의 음성 신호

에 잡음 신호

가 더해져서 오염된 음성 신호

를 만들었다고 가정한다. 음성 향상 기법에서 사용되고 있는 기본 가설

이 각각 음성의 부재와 존재를 나타낸다고 하면 다음과 같이 표현된다.

여기서,

그리고

은 각각 입력 신호, 원래 음성 신호, 그리고 잡음 신호의 이산 퓨리에 변환(Discrete Fourier transform, DFT) 계수를 나타내고, n번째 프레임에서의 k(=0,1,...,K-1)번째 주파수 성분이 된다.

음성 신호와 잡음의 스펙트럼이 복소가우시안 분포를 따른다고 가정을 하면, 가설

을 조건으로 한 확률밀도함수는 다음과 같이 주어진다.

위에서

,

는 각각 음성과 잡음의 분산을 나타낸다. 음성의 존재와 부재에 관한 가설을 바탕으로 주파수 채널별 지역 음성 부재 확률은 다음과 같이 구해질 수 있다.

여기서

는 k번째 주파수 채널에서의 우도비(likelihood ratio)로서 다음과 같이 나타낼 수 있다.

여기서

,

이 되고,

,

는 각각 a priori SNR(선행 신호 대 잡음비)과 a posteriori SNR(후행 신호 대 잡음비)을 나타낸다.

또한, 수학식 4에서

은 음성 부재와 존재에 대한 a priori 확률값의 비로서 q로 나타낼 수 있다. 음성 존재 불확실성 추정 방법에서 이 q 값으로 고정된 값을 사용할 수 있다. 또는, q 값이 고정된 값이었던 것과는 다르게 프레임, 채널마다 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용할 수도 있다. 이 방법에서는 다음과 같이 q 값을 다르게 적용할 수 있다.

여기서,

값은 스무딩 매개변수이고,

는 a posteriori SNR 값에 따라

일 경우 0,

일 경우 1로 사용되며, 다음의 식에 의해 판별된다.

상기 방법에서 이용한 a posteriori SNR 대신 최소값 제어 재귀평균 (minima controlled recursive averaging, MCRA) 방법에서 제안된 파라미터인

을 이용하여 q 값을 결정할 수도 있다. 이 역시

값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 다음과 같이 q 값을 다르게 적용한다. 이 방법에서는 다음과 같이

이

값에 따라

일 경우 0,

일 경우 1로 사용되며, 다음의 식에 의해 판별된다.

은 다음과 같이 정의된다.

여기서,

는 잡음이 섞인 신호의 국부에너지,

은 주어진 윈도우에서의 최소값을 각각 나타낸다.

이와 같이, 음성 존재 불확실성 추정 방법들에서 음성 부재 확률 (SAP)을 구할 때 사용되는 q 값은 고정된 값을 그대로 적용하거나 간단히 특정 파라미터 값을 임계값과 비교하여 결정하는 경우, 다양한 잡음환경에서 정확한 음성 부재 확률을 추정하지 못하는 문제가 있을 수 있다. 하지만 본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법에서는 특정 파라미터 값들이 q 값과 밀접한 상관관계가 있다는 것에 착안하여 다중 선형회귀 분석을 통해서 얻은 새로운 q 값을 이용하여 음성을 향상시킨다.

먼저 선형회귀 분석이란 특정한 현상과 그 현상에 영향을 미칠 수 있는 변수들 간의 함수 관계를 표현할 수 있는 모형을 이론적 근거나 경험적 판단에 의하여 설정하고, 관측된 자료로부터 함수관계를 추정하고 예측하여 변수들 사이의 함수 관계에 대해 통계적 분석을 하는 것을 말한다. 변수에는 종속변수와 독립변수가 있는데, 특히 독립변수가 2개 이상일 때 다중 선형회귀 분석 기법을 사용한다. 본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법에서는 a priori SNR (

) 값과 MCRA 방법에서 제안된

값을 독립변수로, 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법으로부터 얻은 q 값을 종속변수로 각각 활용한다.

먼저 우리가 선정한 두 파라미터들이 다중 회귀분석을 하기에 합리적인 정도의 상관관계를 가지는지 확인하기 위해 각 파라미터들의 값을 q 값에 0과 1 사이로 매핑시켜 산점도와 선형 모델을 추정해 보았다. 선형회귀 분석 기법 중에서도 이렇게 변수들을 0과 1사이로 정규화시켜서 매핑하는 것을 로지스틱 선형회귀 분석이라고 하는데, 종속변수인 q 값이 이미 0과 1사이의 값을 가지고 있으므로 독립변수들의 스케일 또한 이에 맞게 조정해 주기 위해 이를 활용하였다. 그 결과 도 2와 같이 각각 80 % 이상의 적합도를 보임으로써 선형회귀 분석을 하기에 합리적인 파라미터임이 확인되었다. 이제 이 두 파라미터들을 활용한 다중 선형회귀 분석의 결과로부터 새로운 q 값을 얻기 위해 아래와 같은 과정을 거쳐 추정 회귀식을 구하는 과정을 설명한다.

우선 종속변수가 Y 이고 독립변수가 X 인 단순 선형회귀 모형은 다음과 같다.

그리고 이 식을 확장하여 우리가 사용하고자 하는 독립변수가 2개인 다중 선형회귀 모형은 다음과 같이 표현할 수 있다.

여기서

,

는 추정해야 할 회귀계수이고

는 i 번째 Y의 관측치에 관여된 오차항이며

는

에 대응한 직선식 값에 오차

가 결합되어 관측된다고 가정한 것이다. 여기서

,

를 추정할 수 있다면 이를 통해 새로운 Y값 또한 추정할 수 있게 된다. 회귀계수들을 구하기 위해 종속변수와 독립변수를 i 개 (i = 1, 2, ..., N)의 데이터를 가진

,

을 행렬로 표현하면 다음과 같다.

여기서 데이터 개수는 noise 종류와 dB에 관계없이 랜덤으로 길게 이은 음성 파일로부터 추출한 4만개의 데이터를 활용하였다 (N = 40,000). 회귀계수들의 추정은 최소자승법에 근거하고 있으며 오차항의 제곱합 R은 다음과 같이 표현된다.

이 최소자승법에 의한 회귀계수의 추정은 제곱합 R을 각

에 대하여 편미분하고 이를 0으로 하는 다음과 같은 연립방정식을 풀어

들을 구하는 것이다.

위의 연립방정식을 만족하는

,

를

라 하면 다음 관계가 성립하는데 이를 정규방정식이라 한다.

정규방정식인 수학식 11을 벡터-행렬식으로 표현하면 편리한데, 이를 위해서는 우선 행렬

이 다음과 같음을 알아야 한다.

수학식 12를 이용하면 수학식 11의 정규방정식이 다음과 같이 표현됨을 보일 수 있다.

따라서

의 최소자승 추정량은 다음과 같다.

이로부터 회귀계수값들이 구해지고, 상기 회귀계수값들을 수학식 1의 추정 회귀식에 적용하면 새로운 q 값을 추정할 수 있게 된다.

결과적으로, 상기 두 가지 독립변수와 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법으로부터 얻은 q 값을 종속변수로 하여 다중 선형회귀 분석을 통해 추정된 q 값은

값과

값에 따라 적응적으로 변화하기 때문에 고정된 값을 그대로 적용하거나 간단히 특정 파라미터 값을 임계값과 비교하여 결정했던 기존의 방법들보다 다양한 배경 잡음 환경에서, 보다 향상된 SAP를 도출해 낸다. 한편 회귀 계수들을 추정할 때 활용한 종속변수가 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법으로부터 얻은 q 값이었기 때문에 이 방법을 기존 음성 존재 불확실성 추정 기법의 성능 비교 대상으로 하였다. 도 1에서 첫 번째 그림은 3번째 채널 (k=2)에서 파워 스펙트럼을, 두 번째 그림은 같은 채널에서 기존 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법과 제안된 방법의 음성 존재 확률을 비교한 결과를 보여 주고 있다. 이를 통해 기존의 음성 존재 불확실성 추정 방법보다 본 발명의 일 실시예에 따른 다중 선형회귀 분석 기법을 이용한 방법이 음성 부재 확률을 구할 때, 보다 나은 성능을 보임을 확인할 수 있다.

본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법의 음질 평가를 위해 객관적인 평가 방법으로 널리 사용되고 있는 ITU-T P.862 perceptual evaluation of speech quality (PESQ) 방법과 composite measure (C _ovl ) 방법으로 음성 향상의 성능 비교를 하였다. 이 테스트를 위해 한 프레임의 크기가 10ms, 8 kHz로 샘플링 된 남성, 여성 화자 각각이 96개의 문장을 발음하도록 한 데이터에 네 가지 형태의 잡음이 부가되었다. 잡음은 babble noise, car noise, office noise, street noise에서 각각 5, 10, 15 dB의 SNR로 부가하였고, PESQ 및 C _ovl 값은 각각 이들 샘플에 대한 평균 수치로 나타내었다. 또한 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법의 임계값

는 0.8로 설정해 주었고, 본 발명의 일 실시예에 따른 방법에서의 회귀 계수들은 실제 N 개의 데이터로부터 얻어진 값인

,

로 각각 적용하였다. 이를 적용한 결과는 다음 표 1, 2와 같다. 표 1은 PESQ 수치이고, 표 2는 C _ovl 수치이다.

Noise type	Method	SNR(dB)
Noise type	Method	5	10	15
Babble noise	pre present	2.298 2.348	2.616 2.656	2.908 2.945
Car noise	pre present	2.832 2.874	3.091 3.129	3.387 3.404
Office noise	pre present	2.219 2.285	2.560 2.613	2.916 2.947
Street noise	pre present	2.729 2.769	3.020 3.055	3.254 3.277

Noise type	Method	SNR(dB)
Noise type	Method	5	10	15
Babble noise	pre present	2.561 2.667	2.932 3.015	3.276 3.341
Car noise	pre present	3.242 3.292	3.533 3.576	3.850 3.868
Office noise	pre present	2.617 2.710	2.992 3.065	3.383 3.425
Street noise	pre present	3.148 3.219	3.481 3.541	3.748 3.781

상기 표 1, 2는 기존 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법보다 본 발명의 일 실시예에 따른 다중 선형회귀 분석 기법을 적용한 음성 존재 불확실성 추정 방법이 PESQ 및 C _ovl 수치로 보았을 때, 모든 실험 조건에서 향상된 것을 보여 주고 있다. 즉, q 값을 고정된 값을 그대로 적용하거나 간단히 특정 파라미터 값을 임계값과 비교하여 결정하던 기존의 방법보다 본 발명의 일 실시예에 따른 다중 선형회귀 분석 기법을 적용한 음성 존재 불확실성 추정 방법이 다양한 잡음 환경에서 음성 부재 확률을 구할 때, 보다 정확하게 추정할 수 있으므로 음성 향상 시스템에서의 성능이 좋음을 확인할 수 있다. 이는 본 발명의 일 실시예에 따른 다중 선형회귀 분석 기법을 적용한 음성 존재 불확실성 추정 방법이 기존 방법보다 깨끗한 음성 신호에 좀 더 가까운 신호를 생성하는 것을 의미하는 것으로써 음성 부재 확률을 더 정확히 추정함에 따라 성능의 향상이 있음을 의미한다.

본 발명의 일 실시예에 따른 음성 인식 장치는 상기 본 발명의 실시예에 따른 다중 선형회귀 분석 기법을 적용한 음성 존재 불확실성 추정 방법을 이용하여 음성을 인식할 수 있다. 음성 인식 장치뿐만 아니라, 모바일 폰 등 음성 통신과 관련된 각종 전자기기에 이용될 수 있으며, 음성 인식, 음성 분류 등의 pre-processing 단계에서 이용될 수 있다. 상기 음성 인식 장치에 대한 상세한 설명은 상기 음성 존재 불확실성 추정 방법에 대한 설명에 대응하는바, 상기 음성 존재 불확실성 추정 방법에 대한 설명으로 대신한다.

본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

음성 존재 불확실성 추정 방법에 있어서,
선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 프레임마다 적응적으로 변화하는 새로운 q 값을 산출하는 단계; 및
상기 산출된 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정하는 단계를 포함하고,
상기 새로운 q 값은,
상기 선행 신호 대 잡음비 값 및 상기 제 1 값을 독립변수로 하고, 후행 신호 대 잡음비(a posteriori SNR) 값을 임계값과 비교함으로써 산출되는 q 값을 종속변수로 하는 다중 선형분석을 통해 도출되는 추정 회귀식으로부터 산출되는 것을 특징으로 하는 방법.
삭제
삭제
제 1 항에 있어서,
상기 추정 회귀식은 하기의 수학식과 같이 도출되는 것을 특징으로 하는 방법.

여기서,
는 상기 새로운 q 값이고,
는 다중회귀분석을 통해 산출된 회귀계수이고,
는 상기 선행 신호 대 잡음비 값이며,
는 상기 제 1 값임.
제 1 항에 있어서,
상기 다중 선형분석의 회귀계수들은 최소자승법을 이용하여 산출되는 것을 특징으로 하는 방법.
제 1 항, 및 제 4 항 내지 제 5 항 중 어느 한 항의 방법을 이용하여 음성을 인식하는 음성 인식 장치.