KR101543300B1 - 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법 - Google Patents
다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법 Download PDFInfo
- Publication number
- KR101543300B1 KR101543300B1 KR1020130082875A KR20130082875A KR101543300B1 KR 101543300 B1 KR101543300 B1 KR 101543300B1 KR 1020130082875 A KR1020130082875 A KR 1020130082875A KR 20130082875 A KR20130082875 A KR 20130082875A KR 101543300 B1 KR101543300 B1 KR 101543300B1
- Authority
- KR
- South Korea
- Prior art keywords
- value
- noise
- speech
- voice
- present
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000004458 analytical method Methods 0.000 title claims description 14
- 238000012417 linear regression Methods 0.000 title description 15
- 230000001419 dependent effect Effects 0.000 claims description 9
- 238000000611 regression analysis Methods 0.000 claims description 3
- 206010002953 Aphonia Diseases 0.000 description 10
- 238000007796 conventional method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
Abstract
본 발명은 음성 존재 불확실성 추정 방법에 관한 것으로서, 프레임마다 적응적으로 변화하는 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정하고, 상기 새로운 q 값은, 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 산출되는 것을 특징으로 함으로써, 비정상적인 잡음 환경에서도 보다 강인한 음성 부재 확률 추정이 가능하다.
Description
본 발명은 음성 존재 불확실성 추정 방법에 관한 것으로서, 더욱 상세하게는 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비를 이용하여 새로운 q 값을 산출함으로써 음성을 향상시킬 수 있는 음성 존재 불확실성 추정 방법에 관한 것이다.
종래의 음성 향상을 위한 음성 존재 불확실성 추정 방법들에서는 음성 부재 확률 (SAP)을 구할 때 사용되는 음성 부재와 존재에 대한 a priori 확률값의 비 (q)를 0.5 , 0.2 , 또는 0.0625 같이 고정된 값을 그대로 적용하여 다양한 음성 환경 변화에서 한계를 나타내었다. 특히 비정상적인 잡음 환경을 고려하였을 때, 잡음이 음성 신호를 간섭하면 음성의 꼬리와 같은 약한 음성 신호를 추정하기 힘들다. 한편, 이를 극복하기 위해 음성 부재 확률 (SAP)을 구할 때 사용되는 q 값이 고정된 값이었던 것과는 다르게 프레임, 채널마다 입력 신호의 a posteriori SNR 값이나 Sr 값과 같은 특정 파라미터들을 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용한 기술이 있었다. 그러나 이러한 파라미터 값으로 판별할 경우 약한 음성 구간이나 SNR이 낮은 입력 신호일 경우 그 결과의 신뢰도가 매우 낮아진다는 문제점이 있으며 다양한 음성 환경 변화에 한계를 나타낸다.
본 발명이 해결하고자 하는 첫 번째 과제는 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비를 이용하여 새로운 q 값을 산출하는 음성 존재 불확실성 추정 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 두 번째 과제는 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비를 이용하여 새로운 q 값을 산출하는 음성 존재 불확실성 추정 방법을 이용하여 음성을 인식하는 음성 인식 장치를 제공하는 것이다.
본 발명은 상기 첫 번째 과제를 달성하기 위하여, 음성 존재 불확실성 추정 방법에 있어서, 프레임마다 적응적으로 변화하는 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정하는 것을 특징으로 하는 방법을 제공한다.
본 발명의 실시예에 의하면, 상기 새로운 q 값은, 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 산출되는 것을 특징으로 하는 방법일 수 있다.
본 발명의 실시예에 의하면, 상기 새로운 q 값은, 상기 선행 신호 대 잡음비 값 및 상기 제 1 값을 독립변수로 하고, 후행 신호 대 잡음비(a posteriori SNR) 값을 임계값과 비교함으로써 산출되는 q 값을 종속변수로 하는 다중 선형분석을 통해 도출되는 추정 회귀식으로부터 산출되는 것을 특징으로 하는 방법일 수 있고, 상기 다중 선형분석의 회귀계수들은 최소자승법을 이용하여 산출되는 것을 특징으로 하는 방법일 수 있다.
본 발명은 상기 첫 번째 과제를 달성하기 위하여, 상기 음성 존재 불확실성 추정 방법을 이용하여 음성을 인식하는 음성 인식 장치를 제공한다.
본 발명에 따르면, q 값이 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값에 따라 적응적으로 변화하기 때문에 결과적으로 모든 프레임, 채널마다 적응적으로 변화하는 각기 다른 q 값을 이끌어내고 비정상적인 잡음 환경에서도 보다 강인한 음성 부재 확률 추정이 가능하다.
도 1은 본 발명의 실시예에 따른 음성 존재 불확실성 추정 방법과 기존 방법을 적용한 음성 존재 확률을 비교한 것이다.
도 2는 본 발명의 실시예에 따른 음성 존재 불확실성 추정 방법에서의 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비에 대한 산점도 및 선형모델 추정 적합도를 확인한 그래프를 도시한 것이다.
도 2는 본 발명의 실시예에 따른 음성 존재 불확실성 추정 방법에서의 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비에 대한 산점도 및 선형모델 추정 적합도를 확인한 그래프를 도시한 것이다.
본 발명에 관한 구체적인 내용의 설명에 앞서 이해의 편의를 위해 본 발명이 해결하고자 하는 과제의 해결 방안의 개요 혹은 기술적 사상의 핵심을 우선 제시한다.
본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법은 프레임마다 적응적으로 변화하는 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정하고, 상기 새로운 q 값은, 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 산출되는 것을 특징으로 한다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 실시 예를 상세히 설명한다. 그러나 이들 실시예는 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 범위가 이에 의하여 제한되지 않는다는 것은 당업계의 통상의 지식을 가진 자에게 자명할 것이다.
본 발명이 해결하고자 하는 과제의 해결 방안을 명확하게 하기 위한 발명의 구성을 본 발명의 바람직한 실시예에 근거하여 첨부 도면을 참조하여 상세히 설명하되, 도면의 구성요소들에 참조번호를 부여함에 있어서 동일 구성요소에 대해서는 비록 다른 도면상에 있더라도 동일 참조번호를 부여하였으며 당해 도면에 대한 설명시 필요한 경우 다른 도면의 구성요소를 인용할 수 있음을 미리 밝혀둔다. 아울러 본 발명의 바람직한 실시 예에 대한 동작 원리를 상세하게 설명함에 있어 본 발명과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명 그리고 그 이외의 제반 사항이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.
본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법은 프레임마다 적응적으로 변화하는 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정한다. 또한, 상기 새로운 q 값은 입력신호의 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 산출된다. 기존의 음성 존재 불확실성 추정 방법들에서 음성 부재 확률(SAP)을 구할 때, 고정된 q 값을 사용하거나 간단히 특정 파라미터 값을 임계값과 비교하여 q 값을 결정했던 방법과는 달리, 본 발명의 일 실시예에서는 선행 신호 대 잡음비 값과 최소값 제어 재귀평균(MCRA) 방법에서 제안된 잡음이 섞인 신호의 국부 에너지와 주어진 윈도우에서 최소값 사이의 비(Sr)인 제 1 값이 q 값과 밀접한 관계를 가진다는 것에 착안, 이 두 개의 파라미터들을 다중 선형회귀 분석하여, 그 결과로 얻은 새로운 q 값을 음성 부재 확률을 구하는 데에 적용한다. 결과적으로 이를 통해 모든 프레임, 채널마다 적응적으로 변화하는 각기 다른 새로운 q 값을 산출하고, 보다 견실한 음성 부재 확률을 추정함으로써 음성을 향상시킬 수 있다.
상기 새로운 q 값은 다음 수학식 1로부터 산출할 수 있다.
이하에서는 상기 새로운 q 값의 산출하는 과정을 보다 구체적으로 살펴보도록 한다.
원래의 음성 신호 에 잡음 신호 가 더해져서 오염된 음성 신호 를 만들었다고 가정한다. 음성 향상 기법에서 사용되고 있는 기본 가설 이 각각 음성의 부재와 존재를 나타낸다고 하면 다음과 같이 표현된다.
여기서, 그리고 은 각각 입력 신호, 원래 음성 신호, 그리고 잡음 신호의 이산 퓨리에 변환(Discrete Fourier transform, DFT) 계수를 나타내고, n번째 프레임에서의 k(=0,1,...,K-1)번째 주파수 성분이 된다.
또한, 수학식 4에서 은 음성 부재와 존재에 대한 a priori 확률값의 비로서 q로 나타낼 수 있다. 음성 존재 불확실성 추정 방법에서 이 q 값으로 고정된 값을 사용할 수 있다. 또는, q 값이 고정된 값이었던 것과는 다르게 프레임, 채널마다 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용할 수도 있다. 이 방법에서는 다음과 같이 q 값을 다르게 적용할 수 있다.
상기 방법에서 이용한 a posteriori SNR 대신 최소값 제어 재귀평균 (minima controlled recursive averaging, MCRA) 방법에서 제안된 파라미터인 을 이용하여 q 값을 결정할 수도 있다. 이 역시 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 다음과 같이 q 값을 다르게 적용한다. 이 방법에서는 다음과 같이 이 값에 따라 일 경우 0, 일 경우 1로 사용되며, 다음의 식에 의해 판별된다.
이와 같이, 음성 존재 불확실성 추정 방법들에서 음성 부재 확률 (SAP)을 구할 때 사용되는 q 값은 고정된 값을 그대로 적용하거나 간단히 특정 파라미터 값을 임계값과 비교하여 결정하는 경우, 다양한 잡음환경에서 정확한 음성 부재 확률을 추정하지 못하는 문제가 있을 수 있다. 하지만 본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법에서는 특정 파라미터 값들이 q 값과 밀접한 상관관계가 있다는 것에 착안하여 다중 선형회귀 분석을 통해서 얻은 새로운 q 값을 이용하여 음성을 향상시킨다.
먼저 선형회귀 분석이란 특정한 현상과 그 현상에 영향을 미칠 수 있는 변수들 간의 함수 관계를 표현할 수 있는 모형을 이론적 근거나 경험적 판단에 의하여 설정하고, 관측된 자료로부터 함수관계를 추정하고 예측하여 변수들 사이의 함수 관계에 대해 통계적 분석을 하는 것을 말한다. 변수에는 종속변수와 독립변수가 있는데, 특히 독립변수가 2개 이상일 때 다중 선형회귀 분석 기법을 사용한다. 본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법에서는 a priori SNR () 값과 MCRA 방법에서 제안된 값을 독립변수로, 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법으로부터 얻은 q 값을 종속변수로 각각 활용한다.
먼저 우리가 선정한 두 파라미터들이 다중 회귀분석을 하기에 합리적인 정도의 상관관계를 가지는지 확인하기 위해 각 파라미터들의 값을 q 값에 0과 1 사이로 매핑시켜 산점도와 선형 모델을 추정해 보았다. 선형회귀 분석 기법 중에서도 이렇게 변수들을 0과 1사이로 정규화시켜서 매핑하는 것을 로지스틱 선형회귀 분석이라고 하는데, 종속변수인 q 값이 이미 0과 1사이의 값을 가지고 있으므로 독립변수들의 스케일 또한 이에 맞게 조정해 주기 위해 이를 활용하였다. 그 결과 도 2와 같이 각각 80 % 이상의 적합도를 보임으로써 선형회귀 분석을 하기에 합리적인 파라미터임이 확인되었다. 이제 이 두 파라미터들을 활용한 다중 선형회귀 분석의 결과로부터 새로운 q 값을 얻기 위해 아래와 같은 과정을 거쳐 추정 회귀식을 구하는 과정을 설명한다.
우선 종속변수가 Y 이고 독립변수가 X 인 단순 선형회귀 모형은 다음과 같다.
그리고 이 식을 확장하여 우리가 사용하고자 하는 독립변수가 2개인 다중 선형회귀 모형은 다음과 같이 표현할 수 있다.
여기서 , , 는 추정해야 할 회귀계수이고 는 i 번째 Y의 관측치에 관여된 오차항이며 는 에 대응한 직선식 값에 오차 가 결합되어 관측된다고 가정한 것이다. 여기서 , , 를 추정할 수 있다면 이를 통해 새로운 Y값 또한 추정할 수 있게 된다. 회귀계수들을 구하기 위해 종속변수와 독립변수를 i 개 (i = 1, 2, ..., N)의 데이터를 가진 , , 을 행렬로 표현하면 다음과 같다.
여기서 데이터 개수는 noise 종류와 dB에 관계없이 랜덤으로 길게 이은 음성 파일로부터 추출한 4만개의 데이터를 활용하였다 (N = 40,000). 회귀계수들의 추정은 최소자승법에 근거하고 있으며 오차항의 제곱합 R은 다음과 같이 표현된다.
수학식 12를 이용하면 수학식 11의 정규방정식이 다음과 같이 표현됨을 보일 수 있다.
이로부터 회귀계수값들이 구해지고, 상기 회귀계수값들을 수학식 1의 추정 회귀식에 적용하면 새로운 q 값을 추정할 수 있게 된다.
결과적으로, 상기 두 가지 독립변수와 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법으로부터 얻은 q 값을 종속변수로 하여 다중 선형회귀 분석을 통해 추정된 q 값은 값과 값에 따라 적응적으로 변화하기 때문에 고정된 값을 그대로 적용하거나 간단히 특정 파라미터 값을 임계값과 비교하여 결정했던 기존의 방법들보다 다양한 배경 잡음 환경에서, 보다 향상된 SAP를 도출해 낸다. 한편 회귀 계수들을 추정할 때 활용한 종속변수가 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법으로부터 얻은 q 값이었기 때문에 이 방법을 기존 음성 존재 불확실성 추정 기법의 성능 비교 대상으로 하였다. 도 1에서 첫 번째 그림은 3번째 채널 (k=2)에서 파워 스펙트럼을, 두 번째 그림은 같은 채널에서 기존 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법과 제안된 방법의 음성 존재 확률을 비교한 결과를 보여 주고 있다. 이를 통해 기존의 음성 존재 불확실성 추정 방법보다 본 발명의 일 실시예에 따른 다중 선형회귀 분석 기법을 이용한 방법이 음성 부재 확률을 구할 때, 보다 나은 성능을 보임을 확인할 수 있다.
본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법의 음질 평가를 위해 객관적인 평가 방법으로 널리 사용되고 있는 ITU-T P.862 perceptual evaluation of speech quality (PESQ) 방법과 composite measure (C ovl ) 방법으로 음성 향상의 성능 비교를 하였다. 이 테스트를 위해 한 프레임의 크기가 10ms, 8 kHz로 샘플링 된 남성, 여성 화자 각각이 96개의 문장을 발음하도록 한 데이터에 네 가지 형태의 잡음이 부가되었다. 잡음은 babble noise, car noise, office noise, street noise에서 각각 5, 10, 15 dB의 SNR로 부가하였고, PESQ 및 C ovl 값은 각각 이들 샘플에 대한 평균 수치로 나타내었다. 또한 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법의 임계값 는 0.8로 설정해 주었고, 본 발명의 일 실시예에 따른 방법에서의 회귀 계수들은 실제 N 개의 데이터로부터 얻어진 값인 , , 로 각각 적용하였다. 이를 적용한 결과는 다음 표 1, 2와 같다. 표 1은 PESQ 수치이고, 표 2는 C ovl 수치이다.
Noise type |
Method | SNR(dB) | ||
5 | 10 | 15 | ||
Babble noise |
pre present |
2.298 2.348 |
2.616 2.656 |
2.908 2.945 |
Car noise |
pre present |
2.832 2.874 |
3.091 3.129 |
3.387 3.404 |
Office noise |
pre present |
2.219 2.285 |
2.560 2.613 |
2.916 2.947 |
Street noise |
pre present |
2.729 2.769 |
3.020 3.055 |
3.254 3.277 |
Noise type |
Method | SNR(dB) | ||
5 | 10 | 15 | ||
Babble noise |
pre present |
2.561 2.667 |
2.932 3.015 |
3.276 3.341 |
Car noise |
pre present |
3.242 3.292 |
3.533 3.576 |
3.850 3.868 |
Office noise |
pre present |
2.617 2.710 |
2.992 3.065 |
3.383 3.425 |
Street noise |
pre present |
3.148 3.219 |
3.481 3.541 |
3.748 3.781 |
상기 표 1, 2는 기존 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법보다 본 발명의 일 실시예에 따른 다중 선형회귀 분석 기법을 적용한 음성 존재 불확실성 추정 방법이 PESQ 및 C ovl 수치로 보았을 때, 모든 실험 조건에서 향상된 것을 보여 주고 있다. 즉, q 값을 고정된 값을 그대로 적용하거나 간단히 특정 파라미터 값을 임계값과 비교하여 결정하던 기존의 방법보다 본 발명의 일 실시예에 따른 다중 선형회귀 분석 기법을 적용한 음성 존재 불확실성 추정 방법이 다양한 잡음 환경에서 음성 부재 확률을 구할 때, 보다 정확하게 추정할 수 있으므로 음성 향상 시스템에서의 성능이 좋음을 확인할 수 있다. 이는 본 발명의 일 실시예에 따른 다중 선형회귀 분석 기법을 적용한 음성 존재 불확실성 추정 방법이 기존 방법보다 깨끗한 음성 신호에 좀 더 가까운 신호를 생성하는 것을 의미하는 것으로써 음성 부재 확률을 더 정확히 추정함에 따라 성능의 향상이 있음을 의미한다.
본 발명의 일 실시예에 따른 음성 인식 장치는 상기 본 발명의 실시예에 따른 다중 선형회귀 분석 기법을 적용한 음성 존재 불확실성 추정 방법을 이용하여 음성을 인식할 수 있다. 음성 인식 장치뿐만 아니라, 모바일 폰 등 음성 통신과 관련된 각종 전자기기에 이용될 수 있으며, 음성 인식, 음성 분류 등의 pre-processing 단계에서 이용될 수 있다. 상기 음성 인식 장치에 대한 상세한 설명은 상기 음성 존재 불확실성 추정 방법에 대한 설명에 대응하는바, 상기 음성 존재 불확실성 추정 방법에 대한 설명으로 대신한다.
본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
Claims (6)
- 음성 존재 불확실성 추정 방법에 있어서,
선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 프레임마다 적응적으로 변화하는 새로운 q 값을 산출하는 단계; 및
상기 산출된 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정하는 단계를 포함하고,
상기 새로운 q 값은,
상기 선행 신호 대 잡음비 값 및 상기 제 1 값을 독립변수로 하고, 후행 신호 대 잡음비(a posteriori SNR) 값을 임계값과 비교함으로써 산출되는 q 값을 종속변수로 하는 다중 선형분석을 통해 도출되는 추정 회귀식으로부터 산출되는 것을 특징으로 하는 방법. - 삭제
- 삭제
- 제 1 항에 있어서,
상기 다중 선형분석의 회귀계수들은 최소자승법을 이용하여 산출되는 것을 특징으로 하는 방법. - 제 1 항, 및 제 4 항 내지 제 5 항 중 어느 한 항의 방법을 이용하여 음성을 인식하는 음성 인식 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130082875A KR101543300B1 (ko) | 2013-07-15 | 2013-07-15 | 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130082875A KR101543300B1 (ko) | 2013-07-15 | 2013-07-15 | 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150009100A KR20150009100A (ko) | 2015-01-26 |
KR101543300B1 true KR101543300B1 (ko) | 2015-08-12 |
Family
ID=52572414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130082875A KR101543300B1 (ko) | 2013-07-15 | 2013-07-15 | 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101543300B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102509809B1 (ko) * | 2020-02-17 | 2023-03-14 | 고려대학교 산학협력단 | 근적외선 분광신호의 노이즈 제거방법 |
-
2013
- 2013-07-15 KR KR1020130082875A patent/KR101543300B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20150009100A (ko) | 2015-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018107874A1 (zh) | 一种音频数据的自动增益控制方法与装置 | |
JP2008534989A (ja) | 音声アクティビティ検出装置および方法 | |
US9666186B2 (en) | Voice identification method and apparatus | |
KR100821177B1 (ko) | 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법 | |
KR100631608B1 (ko) | 음성 판별 방법 | |
CN103456310A (zh) | 一种基于谱估计的瞬态噪声抑制方法 | |
WO2014173919A1 (en) | Estimation of reliability in speaker recognition | |
KR101543300B1 (ko) | 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법 | |
KR100784456B1 (ko) | Gmm을 이용한 음질향상 시스템 | |
KR100718846B1 (ko) | 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법 | |
US8935159B2 (en) | Noise removing system in voice communication, apparatus and method thereof | |
CN113838476B (zh) | 一种带噪语音的噪声估计方法和装置 | |
CN112216285B (zh) | 多人会话检测方法、系统、移动终端及存储介质 | |
KR100798056B1 (ko) | 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법 | |
KR100901367B1 (ko) | 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법 | |
Aronowitz et al. | Online two speaker diarization | |
Erkelens et al. | Speech enhancement based on Rayleigh mixture modeling of speech spectral amplitude distributions | |
Farsi | Improvement of minimum tracking in minimum statistics noise estimation method | |
KR100866580B1 (ko) | 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템 | |
KR100718749B1 (ko) | 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 | |
KR101051035B1 (ko) | 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법 | |
KR20200026587A (ko) | 음성 구간을 검출하는 방법 및 장치 | |
Shen et al. | A priori SNR estimator based on a convex combination of two DD approaches for speech enhancement | |
US20220199074A1 (en) | A dialog detector | |
Beritelli et al. | Performance evaluation of SNR estimation methods in forensic speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180702 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20190624 Year of fee payment: 5 |