KR101543300B1 - 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법 - Google Patents

다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법 Download PDF

Info

Publication number
KR101543300B1
KR101543300B1 KR1020130082875A KR20130082875A KR101543300B1 KR 101543300 B1 KR101543300 B1 KR 101543300B1 KR 1020130082875 A KR1020130082875 A KR 1020130082875A KR 20130082875 A KR20130082875 A KR 20130082875A KR 101543300 B1 KR101543300 B1 KR 101543300B1
Authority
KR
South Korea
Prior art keywords
value
noise
speech
voice
present
Prior art date
Application number
KR1020130082875A
Other languages
English (en)
Other versions
KR20150009100A (ko
Inventor
장준혁
김종웅
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020130082875A priority Critical patent/KR101543300B1/ko
Publication of KR20150009100A publication Critical patent/KR20150009100A/ko
Application granted granted Critical
Publication of KR101543300B1 publication Critical patent/KR101543300B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)

Abstract

본 발명은 음성 존재 불확실성 추정 방법에 관한 것으로서, 프레임마다 적응적으로 변화하는 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정하고, 상기 새로운 q 값은, 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 산출되는 것을 특징으로 함으로써, 비정상적인 잡음 환경에서도 보다 강인한 음성 부재 확률 추정이 가능하다.

Description

다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법{Speech Presence Uncertainty Estimation method Based on Multiple Linear Regression Analysis}
본 발명은 음성 존재 불확실성 추정 방법에 관한 것으로서, 더욱 상세하게는 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비를 이용하여 새로운 q 값을 산출함으로써 음성을 향상시킬 수 있는 음성 존재 불확실성 추정 방법에 관한 것이다.
종래의 음성 향상을 위한 음성 존재 불확실성 추정 방법들에서는 음성 부재 확률 (SAP)을 구할 때 사용되는 음성 부재와 존재에 대한 a priori 확률값의 비 (q)를 0.5 , 0.2 , 또는 0.0625 같이 고정된 값을 그대로 적용하여 다양한 음성 환경 변화에서 한계를 나타내었다. 특히 비정상적인 잡음 환경을 고려하였을 때, 잡음이 음성 신호를 간섭하면 음성의 꼬리와 같은 약한 음성 신호를 추정하기 힘들다. 한편, 이를 극복하기 위해 음성 부재 확률 (SAP)을 구할 때 사용되는 q 값이 고정된 값이었던 것과는 다르게 프레임, 채널마다 입력 신호의 a posteriori SNR 값이나 Sr 값과 같은 특정 파라미터들을 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용한 기술이 있었다. 그러나 이러한 파라미터 값으로 판별할 경우 약한 음성 구간이나 SNR이 낮은 입력 신호일 경우 그 결과의 신뢰도가 매우 낮아진다는 문제점이 있으며 다양한 음성 환경 변화에 한계를 나타낸다.
본 발명이 해결하고자 하는 첫 번째 과제는 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비를 이용하여 새로운 q 값을 산출하는 음성 존재 불확실성 추정 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 두 번째 과제는 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비를 이용하여 새로운 q 값을 산출하는 음성 존재 불확실성 추정 방법을 이용하여 음성을 인식하는 음성 인식 장치를 제공하는 것이다.
본 발명은 상기 첫 번째 과제를 달성하기 위하여, 음성 존재 불확실성 추정 방법에 있어서, 프레임마다 적응적으로 변화하는 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정하는 것을 특징으로 하는 방법을 제공한다.
본 발명의 실시예에 의하면, 상기 새로운 q 값은, 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 산출되는 것을 특징으로 하는 방법일 수 있다.
본 발명의 실시예에 의하면, 상기 새로운 q 값은, 상기 선행 신호 대 잡음비 값 및 상기 제 1 값을 독립변수로 하고, 후행 신호 대 잡음비(a posteriori SNR) 값을 임계값과 비교함으로써 산출되는 q 값을 종속변수로 하는 다중 선형분석을 통해 도출되는 추정 회귀식으로부터 산출되는 것을 특징으로 하는 방법일 수 있고, 상기 다중 선형분석의 회귀계수들은 최소자승법을 이용하여 산출되는 것을 특징으로 하는 방법일 수 있다.
본 발명은 상기 첫 번째 과제를 달성하기 위하여, 상기 음성 존재 불확실성 추정 방법을 이용하여 음성을 인식하는 음성 인식 장치를 제공한다.
본 발명에 따르면, q 값이 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값에 따라 적응적으로 변화하기 때문에 결과적으로 모든 프레임, 채널마다 적응적으로 변화하는 각기 다른 q 값을 이끌어내고 비정상적인 잡음 환경에서도 보다 강인한 음성 부재 확률 추정이 가능하다.
도 1은 본 발명의 실시예에 따른 음성 존재 불확실성 추정 방법과 기존 방법을 적용한 음성 존재 확률을 비교한 것이다.
도 2는 본 발명의 실시예에 따른 음성 존재 불확실성 추정 방법에서의 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비에 대한 산점도 및 선형모델 추정 적합도를 확인한 그래프를 도시한 것이다.
본 발명에 관한 구체적인 내용의 설명에 앞서 이해의 편의를 위해 본 발명이 해결하고자 하는 과제의 해결 방안의 개요 혹은 기술적 사상의 핵심을 우선 제시한다.
본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법은 프레임마다 적응적으로 변화하는 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정하고, 상기 새로운 q 값은, 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 산출되는 것을 특징으로 한다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 실시 예를 상세히 설명한다. 그러나 이들 실시예는 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 범위가 이에 의하여 제한되지 않는다는 것은 당업계의 통상의 지식을 가진 자에게 자명할 것이다.
본 발명이 해결하고자 하는 과제의 해결 방안을 명확하게 하기 위한 발명의 구성을 본 발명의 바람직한 실시예에 근거하여 첨부 도면을 참조하여 상세히 설명하되, 도면의 구성요소들에 참조번호를 부여함에 있어서 동일 구성요소에 대해서는 비록 다른 도면상에 있더라도 동일 참조번호를 부여하였으며 당해 도면에 대한 설명시 필요한 경우 다른 도면의 구성요소를 인용할 수 있음을 미리 밝혀둔다. 아울러 본 발명의 바람직한 실시 예에 대한 동작 원리를 상세하게 설명함에 있어 본 발명과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명 그리고 그 이외의 제반 사항이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.
본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법은 프레임마다 적응적으로 변화하는 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정한다. 또한, 상기 새로운 q 값은 입력신호의 선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 산출된다. 기존의 음성 존재 불확실성 추정 방법들에서 음성 부재 확률(SAP)을 구할 때, 고정된 q 값을 사용하거나 간단히 특정 파라미터 값을 임계값과 비교하여 q 값을 결정했던 방법과는 달리, 본 발명의 일 실시예에서는 선행 신호 대 잡음비 값과 최소값 제어 재귀평균(MCRA) 방법에서 제안된 잡음이 섞인 신호의 국부 에너지와 주어진 윈도우에서 최소값 사이의 비(Sr)인 제 1 값이 q 값과 밀접한 관계를 가진다는 것에 착안, 이 두 개의 파라미터들을 다중 선형회귀 분석하여, 그 결과로 얻은 새로운 q 값을 음성 부재 확률을 구하는 데에 적용한다. 결과적으로 이를 통해 모든 프레임, 채널마다 적응적으로 변화하는 각기 다른 새로운 q 값을 산출하고, 보다 견실한 음성 부재 확률을 추정함으로써 음성을 향상시킬 수 있다.
상기 새로운 q 값은 다음 수학식 1로부터 산출할 수 있다.
Figure 112013063464281-pat00001
여기서,
Figure 112013063464281-pat00002
는 상기 새로운 q 값이고,
Figure 112013063464281-pat00003
는 다중회귀분석을 통해 산출된 회귀계수이고,
Figure 112013063464281-pat00004
는 상기 선행 신호 대 잡음비 값이며,
Figure 112013063464281-pat00005
는 상기 제 1 값이다.
이하에서는 상기 새로운 q 값의 산출하는 과정을 보다 구체적으로 살펴보도록 한다.
원래의 음성 신호
Figure 112013063464281-pat00006
에 잡음 신호
Figure 112013063464281-pat00007
가 더해져서 오염된 음성 신호
Figure 112013063464281-pat00008
를 만들었다고 가정한다. 음성 향상 기법에서 사용되고 있는 기본 가설
Figure 112013063464281-pat00009
이 각각 음성의 부재와 존재를 나타낸다고 하면 다음과 같이 표현된다.
Figure 112013063464281-pat00010
여기서,
Figure 112013063464281-pat00011
그리고
Figure 112013063464281-pat00012
은 각각 입력 신호, 원래 음성 신호, 그리고 잡음 신호의 이산 퓨리에 변환(Discrete Fourier transform, DFT) 계수를 나타내고, n번째 프레임에서의 k(=0,1,...,K-1)번째 주파수 성분이 된다.
음성 신호와 잡음의 스펙트럼이 복소가우시안 분포를 따른다고 가정을 하면, 가설
Figure 112013063464281-pat00013
Figure 112013063464281-pat00014
을 조건으로 한 확률밀도함수는 다음과 같이 주어진다.
Figure 112013063464281-pat00015
Figure 112013063464281-pat00016
위에서
Figure 112013063464281-pat00017
,
Figure 112013063464281-pat00018
는 각각 음성과 잡음의 분산을 나타낸다. 음성의 존재와 부재에 관한 가설을 바탕으로 주파수 채널별 지역 음성 부재 확률은 다음과 같이 구해질 수 있다.
Figure 112013063464281-pat00019
여기서
Figure 112013063464281-pat00020
는 k번째 주파수 채널에서의 우도비(likelihood ratio)로서 다음과 같이 나타낼 수 있다.
Figure 112013063464281-pat00021
여기서
Figure 112013063464281-pat00022
,
Figure 112013063464281-pat00023
이 되고,
Figure 112013063464281-pat00024
,
Figure 112013063464281-pat00025
는 각각 a priori SNR(선행 신호 대 잡음비)과 a posteriori SNR(후행 신호 대 잡음비)을 나타낸다.
또한, 수학식 4에서
Figure 112013063464281-pat00026
은 음성 부재와 존재에 대한 a priori 확률값의 비로서 q로 나타낼 수 있다. 음성 존재 불확실성 추정 방법에서 이 q 값으로 고정된 값을 사용할 수 있다. 또는, q 값이 고정된 값이었던 것과는 다르게 프레임, 채널마다 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용할 수도 있다. 이 방법에서는 다음과 같이 q 값을 다르게 적용할 수 있다.
Figure 112013063464281-pat00027
여기서,
Figure 112013063464281-pat00028
값은 스무딩 매개변수이고,
Figure 112013063464281-pat00029
a posteriori SNR 값에 따라
Figure 112013063464281-pat00030
일 경우 0,
Figure 112013063464281-pat00031
일 경우 1로 사용되며, 다음의 식에 의해 판별된다.
Figure 112013063464281-pat00032
상기 방법에서 이용한 a posteriori SNR 대신 최소값 제어 재귀평균 (minima controlled recursive averaging, MCRA) 방법에서 제안된 파라미터인
Figure 112013063464281-pat00033
을 이용하여 q 값을 결정할 수도 있다. 이 역시
Figure 112013063464281-pat00034
값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 다음과 같이 q 값을 다르게 적용한다. 이 방법에서는 다음과 같이
Figure 112013063464281-pat00035
Figure 112013063464281-pat00036
값에 따라
Figure 112013063464281-pat00037
일 경우 0,
Figure 112013063464281-pat00038
일 경우 1로 사용되며, 다음의 식에 의해 판별된다.
Figure 112013063464281-pat00039
Figure 112013063464281-pat00040
은 다음과 같이 정의된다.
Figure 112013063464281-pat00041
여기서,
Figure 112013063464281-pat00042
는 잡음이 섞인 신호의 국부에너지,
Figure 112013063464281-pat00043
은 주어진 윈도우에서의 최소값을 각각 나타낸다.
이와 같이, 음성 존재 불확실성 추정 방법들에서 음성 부재 확률 (SAP)을 구할 때 사용되는 q 값은 고정된 값을 그대로 적용하거나 간단히 특정 파라미터 값을 임계값과 비교하여 결정하는 경우, 다양한 잡음환경에서 정확한 음성 부재 확률을 추정하지 못하는 문제가 있을 수 있다. 하지만 본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법에서는 특정 파라미터 값들이 q 값과 밀접한 상관관계가 있다는 것에 착안하여 다중 선형회귀 분석을 통해서 얻은 새로운 q 값을 이용하여 음성을 향상시킨다.
먼저 선형회귀 분석이란 특정한 현상과 그 현상에 영향을 미칠 수 있는 변수들 간의 함수 관계를 표현할 수 있는 모형을 이론적 근거나 경험적 판단에 의하여 설정하고, 관측된 자료로부터 함수관계를 추정하고 예측하여 변수들 사이의 함수 관계에 대해 통계적 분석을 하는 것을 말한다. 변수에는 종속변수와 독립변수가 있는데, 특히 독립변수가 2개 이상일 때 다중 선형회귀 분석 기법을 사용한다. 본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법에서는 a priori SNR (
Figure 112013063464281-pat00044
) 값과 MCRA 방법에서 제안된
Figure 112013063464281-pat00045
값을 독립변수로, 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법으로부터 얻은 q 값을 종속변수로 각각 활용한다.
먼저 우리가 선정한 두 파라미터들이 다중 회귀분석을 하기에 합리적인 정도의 상관관계를 가지는지 확인하기 위해 각 파라미터들의 값을 q 값에 0과 1 사이로 매핑시켜 산점도와 선형 모델을 추정해 보았다. 선형회귀 분석 기법 중에서도 이렇게 변수들을 0과 1사이로 정규화시켜서 매핑하는 것을 로지스틱 선형회귀 분석이라고 하는데, 종속변수인 q 값이 이미 0과 1사이의 값을 가지고 있으므로 독립변수들의 스케일 또한 이에 맞게 조정해 주기 위해 이를 활용하였다. 그 결과 도 2와 같이 각각 80 % 이상의 적합도를 보임으로써 선형회귀 분석을 하기에 합리적인 파라미터임이 확인되었다. 이제 이 두 파라미터들을 활용한 다중 선형회귀 분석의 결과로부터 새로운 q 값을 얻기 위해 아래와 같은 과정을 거쳐 추정 회귀식을 구하는 과정을 설명한다.
우선 종속변수가 Y 이고 독립변수가 X 인 단순 선형회귀 모형은 다음과 같다.
Figure 112013063464281-pat00046
그리고 이 식을 확장하여 우리가 사용하고자 하는 독립변수가 2개인 다중 선형회귀 모형은 다음과 같이 표현할 수 있다.
Figure 112013063464281-pat00047
여기서
Figure 112013063464281-pat00048
,
Figure 112013063464281-pat00049
,
Figure 112013063464281-pat00050
는 추정해야 할 회귀계수이고
Figure 112013063464281-pat00051
는 i 번째 Y의 관측치에 관여된 오차항이며
Figure 112013063464281-pat00052
Figure 112013063464281-pat00053
에 대응한 직선식 값에 오차
Figure 112013063464281-pat00054
가 결합되어 관측된다고 가정한 것이다. 여기서
Figure 112013063464281-pat00055
,
Figure 112013063464281-pat00056
,
Figure 112013063464281-pat00057
를 추정할 수 있다면 이를 통해 새로운 Y값 또한 추정할 수 있게 된다. 회귀계수들을 구하기 위해 종속변수와 독립변수를 i 개 (i = 1, 2, ..., N)의 데이터를 가진
Figure 112013063464281-pat00058
,
Figure 112013063464281-pat00059
,
Figure 112013063464281-pat00060
을 행렬로 표현하면 다음과 같다.
Figure 112013063464281-pat00061
여기서 데이터 개수는 noise 종류와 dB에 관계없이 랜덤으로 길게 이은 음성 파일로부터 추출한 4만개의 데이터를 활용하였다 (N = 40,000). 회귀계수들의 추정은 최소자승법에 근거하고 있으며 오차항의 제곱합 R은 다음과 같이 표현된다.
Figure 112013063464281-pat00062
이 최소자승법에 의한 회귀계수의 추정은 제곱합 R을 각
Figure 112013063464281-pat00063
에 대하여 편미분하고 이를 0으로 하는 다음과 같은 연립방정식을 풀어
Figure 112013063464281-pat00064
들을 구하는 것이다.
Figure 112013063464281-pat00065
위의 연립방정식을 만족하는
Figure 112013063464281-pat00066
,
Figure 112013063464281-pat00067
,
Figure 112013063464281-pat00068
Figure 112013063464281-pat00069
라 하면 다음 관계가 성립하는데 이를 정규방정식이라 한다.
Figure 112013063464281-pat00070
정규방정식인 수학식 11을 벡터-행렬식으로 표현하면 편리한데, 이를 위해서는 우선 행렬
Figure 112013063464281-pat00071
이 다음과 같음을 알아야 한다.
Figure 112013063464281-pat00072
수학식 12를 이용하면 수학식 11의 정규방정식이 다음과 같이 표현됨을 보일 수 있다.
Figure 112013063464281-pat00073
따라서
Figure 112013063464281-pat00074
의 최소자승 추정량은 다음과 같다.
Figure 112013063464281-pat00075
이로부터 회귀계수값들이 구해지고, 상기 회귀계수값들을 수학식 1의 추정 회귀식에 적용하면 새로운 q 값을 추정할 수 있게 된다.
결과적으로, 상기 두 가지 독립변수와 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법으로부터 얻은 q 값을 종속변수로 하여 다중 선형회귀 분석을 통해 추정된 q 값은
Figure 112013063464281-pat00076
값과
Figure 112013063464281-pat00077
값에 따라 적응적으로 변화하기 때문에 고정된 값을 그대로 적용하거나 간단히 특정 파라미터 값을 임계값과 비교하여 결정했던 기존의 방법들보다 다양한 배경 잡음 환경에서, 보다 향상된 SAP를 도출해 낸다. 한편 회귀 계수들을 추정할 때 활용한 종속변수가 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법으로부터 얻은 q 값이었기 때문에 이 방법을 기존 음성 존재 불확실성 추정 기법의 성능 비교 대상으로 하였다. 도 1에서 첫 번째 그림은 3번째 채널 (k=2)에서 파워 스펙트럼을, 두 번째 그림은 같은 채널에서 기존 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법과 제안된 방법의 음성 존재 확률을 비교한 결과를 보여 주고 있다. 이를 통해 기존의 음성 존재 불확실성 추정 방법보다 본 발명의 일 실시예에 따른 다중 선형회귀 분석 기법을 이용한 방법이 음성 부재 확률을 구할 때, 보다 나은 성능을 보임을 확인할 수 있다.
본 발명의 일 실시예에 따른 음성 존재 불확실성 추정 방법의 음질 평가를 위해 객관적인 평가 방법으로 널리 사용되고 있는 ITU-T P.862 perceptual evaluation of speech quality (PESQ) 방법과 composite measure (C ovl ) 방법으로 음성 향상의 성능 비교를 하였다. 이 테스트를 위해 한 프레임의 크기가 10ms, 8 kHz로 샘플링 된 남성, 여성 화자 각각이 96개의 문장을 발음하도록 한 데이터에 네 가지 형태의 잡음이 부가되었다. 잡음은 babble noise, car noise, office noise, street noise에서 각각 5, 10, 15 dB의 SNR로 부가하였고, PESQ 및 C ovl 값은 각각 이들 샘플에 대한 평균 수치로 나타내었다. 또한 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법의 임계값
Figure 112013063464281-pat00078
는 0.8로 설정해 주었고, 본 발명의 일 실시예에 따른 방법에서의 회귀 계수들은 실제 N 개의 데이터로부터 얻어진 값인
Figure 112013063464281-pat00079
,
Figure 112013063464281-pat00080
,
Figure 112013063464281-pat00081
로 각각 적용하였다. 이를 적용한 결과는 다음 표 1, 2와 같다. 표 1은 PESQ 수치이고, 표 2는 C ovl 수치이다.
Noise
type
Method SNR(dB)
5 10 15
Babble
noise
pre
present
2.298
2.348
2.616
2.656
2.908
2.945
Car
noise
pre
present
2.832
2.874
3.091
3.129
3.387
3.404
Office
noise
pre
present
2.219
2.285
2.560
2.613
2.916
2.947
Street
noise
pre
present
2.729
2.769
3.020
3.055
3.254
3.277
Noise
type
Method SNR(dB)
5 10 15
Babble
noise
pre
present
2.561
2.667
2.932
3.015
3.276
3.341
Car
noise
pre
present
3.242
3.292
3.533
3.576
3.850
3.868
Office
noise
pre
present
2.617
2.710
2.992
3.065
3.383
3.425
Street
noise
pre
present
3.148
3.219
3.481
3.541
3.748
3.781
상기 표 1, 2는 기존 입력 신호의 a posteriori SNR 값을 특정 임계값과 비교한 후 음성인지 아닌지를 판별하여 q 값을 다르게 적용하였던 방법보다 본 발명의 일 실시예에 따른 다중 선형회귀 분석 기법을 적용한 음성 존재 불확실성 추정 방법이 PESQ 및 C ovl 수치로 보았을 때, 모든 실험 조건에서 향상된 것을 보여 주고 있다. 즉, q 값을 고정된 값을 그대로 적용하거나 간단히 특정 파라미터 값을 임계값과 비교하여 결정하던 기존의 방법보다 본 발명의 일 실시예에 따른 다중 선형회귀 분석 기법을 적용한 음성 존재 불확실성 추정 방법이 다양한 잡음 환경에서 음성 부재 확률을 구할 때, 보다 정확하게 추정할 수 있으므로 음성 향상 시스템에서의 성능이 좋음을 확인할 수 있다. 이는 본 발명의 일 실시예에 따른 다중 선형회귀 분석 기법을 적용한 음성 존재 불확실성 추정 방법이 기존 방법보다 깨끗한 음성 신호에 좀 더 가까운 신호를 생성하는 것을 의미하는 것으로써 음성 부재 확률을 더 정확히 추정함에 따라 성능의 향상이 있음을 의미한다.
본 발명의 일 실시예에 따른 음성 인식 장치는 상기 본 발명의 실시예에 따른 다중 선형회귀 분석 기법을 적용한 음성 존재 불확실성 추정 방법을 이용하여 음성을 인식할 수 있다. 음성 인식 장치뿐만 아니라, 모바일 폰 등 음성 통신과 관련된 각종 전자기기에 이용될 수 있으며, 음성 인식, 음성 분류 등의 pre-processing 단계에서 이용될 수 있다. 상기 음성 인식 장치에 대한 상세한 설명은 상기 음성 존재 불확실성 추정 방법에 대한 설명에 대응하는바, 상기 음성 존재 불확실성 추정 방법에 대한 설명으로 대신한다.
본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (6)

  1. 음성 존재 불확실성 추정 방법에 있어서,
    선행 신호 대 잡음비(a priori SNR) 값, 및 최소값 제어 재귀평균(MCRA)의 잡음이 섞인 신호의 국부 에너지와 윈도우에서 최소값 사이의 비인 제 1 값으로부터 프레임마다 적응적으로 변화하는 새로운 q 값을 산출하는 단계; 및
    상기 산출된 새로운 q 값을 이용하여 음성 존재의 불확실성을 추정하는 단계를 포함하고,
    상기 새로운 q 값은,
    상기 선행 신호 대 잡음비 값 및 상기 제 1 값을 독립변수로 하고, 후행 신호 대 잡음비(a posteriori SNR) 값을 임계값과 비교함으로써 산출되는 q 값을 종속변수로 하는 다중 선형분석을 통해 도출되는 추정 회귀식으로부터 산출되는 것을 특징으로 하는 방법.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    상기 추정 회귀식은 하기의 수학식과 같이 도출되는 것을 특징으로 하는 방법.
    Figure 112015036623909-pat00082

    여기서,
    Figure 112015036623909-pat00083
    는 상기 새로운 q 값이고,
    Figure 112015036623909-pat00084
    는 다중회귀분석을 통해 산출된 회귀계수이고,
    Figure 112015036623909-pat00085
    는 상기 선행 신호 대 잡음비 값이며,
    Figure 112015036623909-pat00086
    는 상기 제 1 값임.
  5. 제 1 항에 있어서,
    상기 다중 선형분석의 회귀계수들은 최소자승법을 이용하여 산출되는 것을 특징으로 하는 방법.
  6. 제 1 항, 및 제 4 항 내지 제 5 항 중 어느 한 항의 방법을 이용하여 음성을 인식하는 음성 인식 장치.
KR1020130082875A 2013-07-15 2013-07-15 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법 KR101543300B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130082875A KR101543300B1 (ko) 2013-07-15 2013-07-15 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130082875A KR101543300B1 (ko) 2013-07-15 2013-07-15 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법

Publications (2)

Publication Number Publication Date
KR20150009100A KR20150009100A (ko) 2015-01-26
KR101543300B1 true KR101543300B1 (ko) 2015-08-12

Family

ID=52572414

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130082875A KR101543300B1 (ko) 2013-07-15 2013-07-15 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법

Country Status (1)

Country Link
KR (1) KR101543300B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102509809B1 (ko) * 2020-02-17 2023-03-14 고려대학교 산학협력단 근적외선 분광신호의 노이즈 제거방법

Also Published As

Publication number Publication date
KR20150009100A (ko) 2015-01-26

Similar Documents

Publication Publication Date Title
WO2018107874A1 (zh) 一种音频数据的自动增益控制方法与装置
JP2008534989A (ja) 音声アクティビティ検出装置および方法
US9666186B2 (en) Voice identification method and apparatus
KR100821177B1 (ko) 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법
KR100631608B1 (ko) 음성 판별 방법
CN103456310A (zh) 一种基于谱估计的瞬态噪声抑制方法
WO2014173919A1 (en) Estimation of reliability in speaker recognition
KR101543300B1 (ko) 다중 선형회귀 분석 기반의 음성 존재 불확실성 추정 방법
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
KR100718846B1 (ko) 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법
US8935159B2 (en) Noise removing system in voice communication, apparatus and method thereof
CN113838476B (zh) 一种带噪语音的噪声估计方法和装置
CN112216285B (zh) 多人会话检测方法、系统、移动终端及存储介质
KR100798056B1 (ko) 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법
KR100901367B1 (ko) 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
Aronowitz et al. Online two speaker diarization
Erkelens et al. Speech enhancement based on Rayleigh mixture modeling of speech spectral amplitude distributions
Farsi Improvement of minimum tracking in minimum statistics noise estimation method
KR100866580B1 (ko) 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템
KR100718749B1 (ko) 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기
KR101051035B1 (ko) 음성 향상을 위한 2차 조건 사후최대확률 기반 광역연판정 방법
KR20200026587A (ko) 음성 구간을 검출하는 방법 및 장치
Shen et al. A priori SNR estimator based on a convex combination of two DD approaches for speech enhancement
US20220199074A1 (en) A dialog detector
Beritelli et al. Performance evaluation of SNR estimation methods in forensic speaker recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180702

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190624

Year of fee payment: 5