KR100270309B1

KR100270309B1 - 신호대 잡음비의 정규화에 의한 특징벡터 추출방법

Info

Publication number: KR100270309B1
Application number: KR1019970074317A
Authority: KR
Inventors: 심갑종
Original assignee: 정몽규; 현대자동차주식회사
Priority date: 1997-12-26
Filing date: 1997-12-26
Publication date: 2000-10-16
Also published as: KR19990054490A

Abstract

자동차의 환경에서 음성 인식 시스템을 구현할 때 음성인식의 전처리 단계에서 특징 벡터를 추출하는 과정에서 실제 자동차 잡음 환경을 고려한 특징 벡터를 추출하고, 이 특징 벡터를 이용하여 단어 모델을 만듦으로 실차 환경에서 정확한 음성인식을 실행할 수 있도록 한 것으로, 입력음성을 빠른 퓨리에 변환(FFT) 통해 파워 스펙트럼을 구한 다음 트라이 앵귤러 형태의 가중함수를 이용한 분석으로 필터 뱅크 값을 추출하는 과정과, 상기 과정에서 추출된 필터 뱅크의 결과 값에 특정의 임계값을 취하여 최대값을 추출하는 과정 및, 추출된 최대값에 삼각 필터링을 실행하여 추출되는 값을 이산 코사인 변환을 실행하여 신호대 잡음비의 정규화값을 추출하는 과정을 포함하여, 복잡한 적응 알고리즘의 사용이 배제되어 인식수단의 부하를 최소화하며, 잡음 특성에 따라 주파수 밴드별로 서로 다른 임계값을 적용할 수 있어 잡음과의 실제 입력 음성의 분석에 신뢰성이 제공되며, 입력 음성 구간이 비음성 구간, 즉 잡음 및 묵음 구간일 경우에 발생되는 변동을 배제시켜 잡음의 인식 영향을 최소화하여 음성의 인식에 신뢰성이 제공된다.

Description

신호대 잡음비의 정규화에 의한 특징벡터 추출방법

본 발명은 음성 인식방법에 관한 것으로, 보다 상세하게는 자동차의 환경에서 음성 인식 시스템을 구현할 때 음성인식의 전처리 단계에서 특징 벡터를 추출하는 과정에서 실제 자동차 잡음 환경을 고려한 특징 벡터를 추출하고, 이 특징 벡터를 이용하여 단어 모델을 만듦으로 실차 환경에서 정확한 음성인식을 실행할 수 있도록 한 신호대 잡음비의 정규화에 의한 특징벡터 추출방법에 관한 것이다.

일반적으로, 음성 인식 시스템은 연구실 환경에서 보다 잡음 환경에서 음인 식에 대한 성능이 크게 저하되며, 인식 시스템의 성능에 영향을 미치는 요인으로는 부가 잡음, 채널 왜곡, 잡음 및 환경의 변화에 따른 화자의 발성 변이 등을 들 수 있다.

자동차에서 사용되는 음성 인식 시스템은 주행하는 자동차에서 자동차에 부착되어 있는 다양한 편의기능을 손과 눈을 사용하지 않은 상태에서 운전자의 음성 인식을 통해 조작하는 것을 의미하며, 이는 주행시 편의성과 안전성을 위해 제공되는 것이다.

현재 국내에서의 음성 인식 기술은 대개 조용한 환경에서의 음성인식을 목표로 하고 있으며, 차량 주행시 발생하는 소음 환경에서의 음성인식에 대한 연구는 매우 미비한 실정이다.

음성 인식 시스템에서 음성 인식에 사용되는 특징 벡터로는 음성 발생 메커니즘을 모델링한 선형예측계수(Linear Predictive Coefficients)와 사람의 청각기관의 비선형적인 주파수 특성을 이용한 멜-주파수 켑스트랄 계수(Mel-Frequency Cepstral Coefficients : 이하 "멜-켑스트럼" 이라 칭한다)등이 주로 사용되고 있다.

사람의 청각기관은 오디오 스펙트럼을 비선형적인 주파수 스케일로 분석한다고 알려져 있다.

멜-켑스트럼은 이러한 정보를 이용하여 만들어진 음성신호의 주파수 특성에다 멜-스케일 상에서 동일한 간격을 갖도록 만들어진 필터뱅크로 분석한다.

종래의 자동차에 적용되는 음성 인식 시스템에서 멜-켑스트럼에 의한 신호대 잡음비를 통한 정규화 방법은 첨부된 도 4에서 알 수 있는 바와 같이, 음성의 입력이 검출되면(스텝101), 입력되는 음성신호에서 신호대 잡음비를 개선시키기 위하여 음성 신호 주파수 대역의 일부를 강조하는 프리 엠퍼시스(Preemphasis)를 실행한 다음(스텝102), 각각의 신호에 윈도우를 실행한다(스텝103).

이후, 입력되는 신호의 각 프레임에 대하여 빠른 퓨리에 변환(FFT)을 실행하여(스텝104) 파워 스펙트럼을 산출한다(스텝105).

상기와 같이 파워 스펙트럼의 산출이 완료되면 트라이 앵귤러(triangular) 형태의 가중함수를 이용해서 멜-스케일의 필터 뱅크를 분석하며(스텝106), 필터 뱅크의 분석이 완료되는 함수들 각각의 에너지에 대하여 신호대 잡음비의 정규화를 실행한다(스텝107).

정규화의 실행이 완료되면 대수화한 다음(스텝108) 이산 코사인 변환(Discrete Cosine Trainstorm)을 통해 멜 켑스트럼을 추출한다(스텝110).

상기에서 잡음이 없는 음성신호와 100Km/h의 속도로 주행하는 자동차에서 주행 잡음이 섞인 음성신호의 멜-스케일 필터 뱅크 에너지 파형은 도 5에서 알 수 있는 바와 같이, 인식될 단어 모델을 만들기 위해 잡음이 없는 음성신호와 잡음이 섞인 음성신호의 멜-스케일 필터 뱅크 에너지 파형 사이의 차이가 음성인식 성능의 저하를 초래한다.

다시 말하면 우리가 어떤 단어를 인식하기 위해서는 일단 단어 모델을 구성해야 하며, 그 단어 모델은 그 단어에 해당하는 음성신호로부터 특징 파라메타를 추출해야 한다.

일반적으로, 인식을 위한 단어 모델을 형성하는 단계를 훈련단계라 하고, 훈련단계에서 필요한 음성신호는 대부분 부가 잡음의 영향이 없는 조용한 실험실 환경에서 녹음된다.

그러므로, 도 2에서 점선으로 표현된 파형이 훈련에 참가하는 음성신호에 해당한다.

이는 전체적으로 낮은 에너지 분포를 보이다가 음성이 시작하는 부분에서 높은 에너지를 보인다.

이러한 잡음이 섞이지 않은 음성신호로부터 추출된 특징벡터로 단어 모델을 형성한 후에 이와 유사한 환경에서 음성인식 실험을 한다면 음성 인식 시스템은 좋은 결과를 얻을 수 있다.

그러나, 이 단어 모델을 가지고 부가 작음이 존재하는 실제 환경에서 인식을 실행하게 되면 결코 만족스러운 결과를 얻을 수 없는 문제점이 발생한다.

이는 도 2에서 알 수 있는 바와 같이 실선으로 표현된 파형이 실제 환경의 부가 잡음이 섞인 음성신호이고, 인식성능의 저하는 모델링한 파형의 에너지와 실질적으로 인식되는 실선의 에너지 불일치에 기인한다.

이러한 불일치를 줄여주기 위하여 실차 환경에서의 잡음 정도를 추정해서 그 레벨로 정규화를 실행하여 음성인식 성능의 향상을 기대할 수 있는데 이를 신호대 잡음비에 대한 정규화라 한다.

즉, 잡음이 섞이지 않은 훈련용 음성신호를 실제 환경의 잡음 레렙로 정규화함으로서 두 환경의 불일치를 줄이자는 것이다.

상기와 같이 훈련용 환경과 실제 환경간의 불일치를 해소하기 위한 종래의 신호대 잡음비의 정규화 방법은 음선 신호의 파워 주파수 특성에다 멜-스케일 된 삼각 필터링을 취한 결과에 적용을 한다.

실제 각 필터 뱅크 결과 값인 이 에너지는 훈련용으로 사용하는 잡음이 섞이지 않은 움성신호와 실제 인식할 때의 잡음이 섞인 음성신호와의 레벨 차이로 인해 만족할 만한 결과를 보이지 못하고 있다.

이러한 레벨 일치에 대한 방법으로 각 필터뱅크 결과 값에다 적용 상수를 더하는 방법을 이용하여 신호대 잡음비에 대한 정규화를 실행하는 방법이 사용되고 있다.

종래의 신호대 잡음비의 정규화에 사용되고 있는 방법은 적응 상수를 적응시키는 알고리즘이 상당히 복잡하고, 미리 적절한 상수값을 정해주어야 한다는 단점이 있다.

또한, 현재 입력되는 프레임, 즉 입력음성 신호에 하나의 윈도우를 취한 음성 구간이 음성이냐, 혹은 잡음 및 묵음이냐에 따라 적응 메커니즘을 달리 적용해야 하므로 음성판별 알고리즘을 따로 필요로 한다.

상기에서 잘못된 상수값을 사용하거나 정확하지 못한 음성 판별 알고리즘을 사용할 경우 적응 알고리즘은 기대할 만큼의 결과를 보이지 못하게 되며, 따라서 인식성능이 저하되는 문제점이 있었다.

본 발명은 전술한 바와 같은 제반적인 문제점을 감안하여 안출한 것으로, 그 목적은 부가 잡음의 영향으로 인한 음성 인식 성능 저하에 대한 대책으로서 음성 인식 전처리 단계인 특징 벡터 추출과정에서 실제 환경의 잡음 상태를 반영함으로 잡음 환경에서의 음성인식을 보다 용이하게 할 수 있도록 한 것이다.

도 1은 본 발명에 따라 신호대 잡음비의 정규화를 통해 특징 벡터를 추출하기 위한 블록 구성도이고,

도 2는 본 발명을 통한 신호대 잡음비의 정규화에 의한 잡음이 없는 음성신호와 잡음이 섞인 음성신호에 대한 멜-스케일 필터 뱅크 에너지 파형이며,

도 3은 본 발명을 통한 분석에서 자동차의 아이들 상태와 100Km/h의 속도일 때의 잡음에 대한 필터 뱅크 에너지의 평균값이다.

도 4는 종래의 음성 인식 시스템에서 적용하고 있는 멜-켑스트럼에 의한 신호대 잡음비의 정규화를 통해 특징 벡터 추출을 실행하는 일 실시예의 흐름도이며,

도 5는 종래의 음성 인식 시스템에서 잡음이 없는 음성신호와 잡음이 섞인 음성신호에 대한 멜-스케일 필터 뱅크 에너지 파형이다.

이와 같은 목적을 달성하기 위한 본 발명은 입력음성을 빠른 퓨리에 변환(FFT) 통해 파워 스펙트럼을 구한 다음 트라이 앵귤러 형태의 가중함수를 이용한 분석으로 필터 뱅크 값을 추출하는 과정과;

상기 과정에서 추출된 필터 뱅크의 결과 값에 특정의 임계값을 취하여 최대값을 추출하는 과정 및;

추출된 최대값에 삼각 필터링을 실행하여 추출되는 값을 이산 코사인 변환을 실행하여 신호대 잡음비의 정규화값을 추출하는 과정을 포함한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 일 실시예를 상세히 설명하면 다음과 같다.

도 1에서 알 수 있는 바와 같이, 본 발명에 따른 신호대 잡음비의 정규화를 통해 특징 벡터를 추출하기 위해서는 전술한 바와 같이 입력음성을 빠른 퓨리에 변환(FFT) 통해 파워 스펙트럼을 구한 다음 트라이 앵귤러 형태의 가중함수를 이용하여 분석한 필터 뱅크의 결과 값(X[i])에 특정의 임계값(TH)을 취하여 최대값(MAX[ ] =Y[i])을 추출한다.

이후, 추출된 최대값(Y[i])에 삼각 필터링을 실행하여 추출되는 값을 이산 코사인 변환의 실행하여 신호대 잡음비의 정규화값을 추출한다.

상기의 신호대 잡음비의 정규화를 실행함에 있어 잡음 환경에서 음성신호에 대한 부가잡음의 영향은 주파수 영역에서 전체적인 에너지의 증가를 보이고 이는 비 음성 구간의 레벨 및 변동의 증가로 나타난다.

이러한 변동의 증가는 음성신호에서 음성 구간의 역할을 상대적으로 줄이고 부가잡음의 영향을 증가시켜 음성인식 성능을 저하시킨다.

잡음이 섞인 음성신호의 경우 특정 임계값과의 최대값을 취한다는 것은 음성신호의 비음성 구간이 변동을 줄이는 역할을 한다.

결과적으로 이러한 신호대 잡음비에 대한 정규화 과정은 동일한 임계값에 대하여 훈련용으로 사용하는 잡음이 없는 깨끗한 음성과 실제 환경의 잡음이 섞인 음성에 대해 모두 적용하므로 두 환경에 대한 불일치를 최소화 할 수 있다.

또한, 상기에서 특정 임계값(TH)의 선택은 실제 환경의 잡음 레벨과 관련되어 있고 주파수 밴드별로 다를 수 가 있으므로, 특정 임계값(TH)의 결정은 실제 환경의 잡음에 대한 주파수 특성에 따라 변할 수가 있어, 잡음 특성에 의존하는 상수로 정의 할 수가 있다.

만일 실제 환경의 잡음 특성이 백색 잡음의 성격이 강해서 전 주파수 대역에 걸쳐 에너지가 고루 분포한다면 모든 주파수 밴드별로 하나의 고정된 임계값을 사용할 수가 있다.

또한, 상기에서 잡음 특성이 유색 잡음의 성격이 강하면 그 주파수 밴드에 대해 상수값을 다르게 적용하고 나머지에 대해서는 동일한 임계값(TH)을 적용할 수 있다.

도 2는 도 5의 조건과 동일한 음성신호에 대해 본 발명에 따른 정규화 방법을 적용한 것으로, 잡음이 섞이지 않은 음성신호와 잡음이 섞인 음성신호와의 차이가 종래의 정규화 방법에 비해 현저하게 줄어들었으며, 비음성 구간의 변동도 줄어들었음을 볼 수 있다.

또한, 도 3은 아이들 상태와 100Km/h의 주행 상태에서 본 발명을 적용한 필터 뱅크의 에너지 평균값으로 자동차 잡음의 주파수 특성은 저주파 성분이 상당히 강한 상태임을 알 수 있다.

상기와 같은 자동차 잡음의 특성을 근거로 하여 신호대 잡음비에 대한 정규화를 실행함에 있어 주파수 별로 서로 다른 임계값을 적용하되 저주파 대역의 임계값을 고주파에 비해 높게 설정한다면 좋은 인식 성능을 얻을 수 있음을 예측할 수 있다.

또한, 자동차 잡음의 주파수 특성상 저주파 대역이 잡음의 영향을 많이 받는 것에 대해 저주파 대역의 필터 뱅크 에너지를 사용하지 않고 나머지 고주파 대역의 에너지 값을 사용하여 특징 벡터를 추출할 수 있다.

이상에서 설명한 바와 같이 본 발명에 따른 신호대 잡음비의 정규화를 통해 특징 벡터를 추출하는 방법은 복잡한 적응 알고리즘의 사용이 배제되어 인식수단의 부하를 최소화하며, 잡음 특성에 따라 주파수 밴드별로 서로 다른 임계값을 적용할 수 있어 잡음과의 실제 입력 음성의 분석에 신뢰성이 제공된다.

또한, 본 발명은 입력 음성 구간이 비음성 구간, 즉 잡음 및 묵음 구간일 경우에 발생되는 변동을 배제시켜 잡음의 인식 영향을 최소화하여 음성의 인식에 신뢰성이 제공된다.

Claims

음성 인식 시스템의 음성 인식방법에 있어서, 입력음성을 빠른 퓨리에 변환(FFT) 통해 파워 스펙트럼을 구한 다음 트라이 앵귤러 형태의 가중함수를 이용한 분석으로 필터 뱅크 값을 추출하는 과정과;

상기 과정에서 추출된 필터 뱅크의 결과 값에 특정의 임계값을 취하여 최대값을 추출하는 과정 및;

추출된 최대값에 삼각 필터링을 실행하여 추출되는 값을 이산 코사인 변환을 실행하여 신호대 잡음비의 정규화값을 추출하는 과정을 포함하는 것을 특징으로 하는 신호대 잡음비의 정규화에 의한 특징벡터 추출방법.
청구항 1에 있어서, 상기 과정에서 임계값은 잡음의 특성에 따라 각 주파수 대역별로 차등되게 적용하는 것을 특징으로 하는 신호대 잡음비의 정규화에 의한 특징벡터 추출방법.
청구항 1에 있어서, 상기 과정에서 특징 벡터의 추출시 잡음의 특성에 따라 각 밴드별 에너지를 필요에 따라 적용하지 않는 것을 특징으로 하는 신호대 잡음비의 정규화에 의한 특징벡터 추출방법
청구항 3에 있어서, 입력 음성 구간이 잡음 및 묵음 등의 비음성 구간일 경우 밴드별 에너지를 적용하지 않는 것을 특징으로 하는 신호대 잡음비의 정규화에 의한 특징벡터 추출방법.
청구항 3에 있어서, 자동차 잡음의 영향을 많이 받는 저주파 대역의 필터 뱅크 에너지를 사용하지 않고 나머지 고주파 대역의 에너지 값을 사용하는 것을 특징으로 하는 신호대 잡음비의 정규화에 의한 특징벡터 추출방법.