KR100822024B1

KR100822024B1 - 상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법

Info

Publication number: KR100822024B1
Application number: KR1020070076335A
Authority: KR
Inventors: 김익재; 김형곤; 장준혁; 이계환
Original assignee: 한국과학기술연구원; 한국전자통신연구원
Priority date: 2007-07-30
Filing date: 2007-07-30
Publication date: 2008-04-15

Abstract

본 발명은 상황인지 통신 단말기를 위한 환경인식 방법에 있어서, 별도의 특징벡터 추출과정 없이 SMV 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 기반으로 환경인식하기 위한 것으로, 사전에 선택된 환경인식의 대상이 되는 각각의 환경에서 단말기로 입력받은 음성신호로부터 SMV 인코딩 과정에서 추출한 하나 이상의 특징벡터를 기반으로 하여 미리 훈련된 가우시안 혼합 모델을 사용하며, 실시간 음성신호로부터 SMV 인코딩 과정에서 추출되는 하나 이상의 특징벡터를 사용하여 가우시안 혼합 모델을 구성하는 단계; 상기 미리 훈련된 가우시안 혼합 모델을 사용하여 상기 실시간 음성신호에 대한 우도(Likelihood)를 구하는 단계; 및 최대 우도 값에 해당하는 환경 플래그를 선택하는 단계를 포함하는 것을 특징으로 한다.

상황인지 휴대폰, 환경인식, 가우시안 혼합 모델, SMV

Description

상황인지 통신 단말기를 위한 음향신호 기반 환경인식 방법{Acoustic Environment Classification Method for Context-Aware Terminal}

본 발명은 상황인지 통신 단말기를 위한 환경인식 방법에 관한 것으로, 더욱 상세하게는, 단말기로 입력되는 음향신호를 기반으로 하는 환경인식 방법에 있어서, 별도의 특징벡터 추출과정 없이 SMV(Selectable Mode Vocoder) 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 기반으로 하는 환경인식 방법에 관한 것이다.

최근 정보기술 기반의 산업이 발전함에 따라, 통신 단말기, 특히 휴대폰은 단순히 전화통화를 지원하는 기능뿐만 아니라, 멀티미티어 데이터의 생성, 관리, 저장 등과 같은 기능을 제공할 수 있게 되었다. 이에 따라, 휴대폰은 수동적으로 정보를 받아서 사용자에게 제공하는 수준을 넘어서 휴대폰에서 수집이 가능한 정보 및 사용자가 생성한 정보를 토대로 하여 보다 능동적인 정보를 제공하게 되었다. 이러한 휴대폰의 발전에 따라, 휴대폰을 통해 외부에서 받아들이는 상황정보 및 사용자가 생성한 정보를 토대로 사용자의 상태를 인식하고 추론하여 서비스를 제공하 는 상황인지 휴대폰의 중요성이 커지고 있다.

상황인지 통신 단말기에서 사용되는 환경인식 방법으로는, 단말기에 부착된 센서를 통해서 입력 받은 데이터를 이용하는 방법과 부가적인 센서의 사용 없이 단말기의 내부적 데이터를 가공하여 환경인식에 적합한 데이터로 변환한 후 이를 이용하는 방법이 있다. 특히, 부가적인 센서가 없는 단말기에서 음성신호가 중요한 데이터로 사용되고 있다. 그러나 기존의 방법에서는 음성신호에서 특징벡터를 추출하기 위해 이산여현변환(Discrete Cosine Transform; DCT) 등과 같은 별도의 복잡한 연산을 필요로 하였다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 제안된 것으로, 별도의 특징벡터 추출과정 없이 SMV 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델을 기반으로 하는 환경인식 방법을 제공하는 것이 목적이다.

상기와 같은 구성의 본 발명에 따르면, 휴대폰에 입력되는 음성신호를 따로 처리하지 않고 휴대폰의 코덱인 3GPP2 SMV의 LPC 분석, VAD 및 뮤직 검출 등의 인코딩 과정에서 자동적으로 생성된 중요 파라미터만을 사용함으로써, 별도의 특징벡터 추출과정 없이 환경인식을 할 수 있다.

이하, 본 발명의 상황인지 통신 단말기(이하, 상황인지 휴대폰의 경우를 예로 들어 설명한다)를 위한 음향신호 기반 환경인식 방법을 첨부된 도면을 참조하여 설명한다.

본 발명은 통신 단말기로 입력되는 음향신호를 기반으로 하는 환경인식 방법에 있어서, 별도의 특징벡터 추출과정 없이 SMV(Selectable Mode Vocoder) 부호화 과정에서 자동적으로 추출되는 특징벡터만을 사용하여 구성한 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 기반으로 하는 환경인식 방법에 관한 것이다.

SMV는 ETSI(European Telecommunications Standards Institute)에 의해 3GPP2(Third Generation Partnership Project 2)의 가변전송률로 표준화된 최신 코덱으로서, 다양한 데이터 전송속도를 가지는 음성 코덱 알고리즘을 사용하여 기지국과 이동 무선국간의 효율적인 음성 통신을 제공할 수 있다.

또한, 통신망의 상황에 따라 데이터 전송속도와 음질 사이의 트레이트 오프를 고려하여 모드 0(프리미엄 모드), 모드 1(표준 모드), 모드 2(절약 모드) 및 모드 3(용량 절약 모드)의 4가지 모드로 동작한다. 그리고 비트율은 각 프레임의 특 성과 SMV의 모드를 기반으로 하여 결정하는 비트율 결정 알고리즘(Rate-Determination Algorithm, RDA)에 의해서 결정되며, 8khz를 기준으로 할 때 160 샘플(20ms) 마다 결정된다.

도 1은 휴대폰 입력신호의 SMV 인코딩 처리과정을 도시하는 흐름도이다. 우선, 입력신호에 대해서 묵음 증강(Silence Enhancement), 고대역 통과 필터(High-Pass Filter), 잡음 제거(Noise Suppression), 적응 틸트 필터(Adaptive Tilt Filter) 등의 전처리(Pre-Processing)를 한다. 그 후 전처리된 신호는 프레임 단위로 지각 가중치(Perceptually Weighting)가 적용된 후, 개회로 피치 검색(Open-Loop Pitch Detection) 및 신호 변형(Signal Modification)을 거친다. 또한, LPC(Linear predictive coding) 분석을 이용하여 뮤직 검출(Music Detection)이 포함된 음성검출(Voice Activity Detection; VAD)을 하고, 프레임의 클래스 분류(Classification) 및 비트율을 결정하고 이에 따른 다른 인코딩 처리과정을 거치게 된다.

이때, 클래스 분류에서는 묵음(Silence), 잡음(Noise-Like Unvoiced), 무성음(Unvoiced), 변화(Onset), 비정상 유성음(Non-Stationary Voiced) 및 정상 유성음(Stationary Voiced)의 여섯 가지 프레임 클래스 중 하나로 분류되고, 비트율의 결정에 따라 타입 (Type) 0과 타입 1로 나누어진다. 타입 1은 정상 유성음이 선택된 프레임을 나타내고, 타입 0은 그 외의 모든 프레임을 나타낸다.

도 2는 본 발명에 따른 환경인식 방법을 나타내는 흐름도이다. 본 발명에 따른 환경인식 방법에 의하면, 도 1에 도시된 전체의 SMV 인코딩 처리과정 중에서 도 2에 도시된 바와 같이 LPC 분석, VAD 및 뮤직 검출 등의 인코딩 과정 중 비트율과 타입을 결정하는데 사용된 중요한 파라미터를 그대로 이용하여 특징벡터를 추출한다. 그 후 상기 특징벡터를 기반으로 가우시안 혼합 모델을 구성하여 환경인식을 하게 된다.

실시간 음성신호에 대한 환경인식을 위해서는, 환경인식의 대상이 되는 각각의 환경에서 사전에 휴대폰으로 입력받은 음성신호로부터 자세히 후술하는 LPC 분석, VAD 및 뮤직 검출 등의 인코딩 과정에서 추출한 특징벡터를 기반으로 훈련된 가우시안 혼합 모델의 데이터베이스를 구축하고 있어야 한다.

그 후 상기 특징벡터를 기반으로 이미 훈련된 가우시안 혼합 모델을 사용하여 실시간으로 들어오는 음성신호에 대해서 우도(Likelihood)를 구하고, 상기 구해진 우도 중에 최대 우도를 가진 값에 대한 환경 플래그(Environment Flag)를 선택, 즉 환경인식 대상 환경 중 최대 우도 값을 가진 곳의 환경을 나타내는 플래그를 선택함으로써 환경인식을 한다.

이하, SMV 인코딩 처리과정에서 추출된 특징벡터 및 가우시안 혼합 모델을 사용한 패턴인식 방법에 대해 자세히 설명한다.

우선 m^th LPC 분석 과정에서 추출되는 중요 특징벡터로는, LPC 10차와 LSF(Line Spectral Frequency) 10차가 있다.

LPC 10차는 자기상관 함수 (Autocorrelation Function) 및 수학식 1로 나타내어지는 반사계수 k_m를 사용한 레빈슨-더빈 알고리즘(Levinson-Durbin Algorithm) 을 사용하여 구하며, 이때 R_m은 자기상관 함수, E는 에너지, α는 j번째 LPC 계수를 나타낸다.

LSF 10차는 음성 프레임의 마지막 1/4 부분에 중심을 둔 윈도우를 이용하여 계산된 LPC 계수의 값이다. 이 값은 LPC 값을 가지고 수학식 2 및 3과 같이 변환시켜 구한다. 이때,

는 예측 오류 필터(Prediction Error Filter) 전달함수이고,

와

는 새로운 전달함수이다.

이때,

는

일 때의

그리고

일 때의

의 해이다.

VAD 과정에서 추출되는 중요 특징벡터로는, LP 예측 오류(LP Prediction Error), LPC 이득(LPC gain), 피치 레그(Pitch Lag) 표준편차, 자기상관 함수, 프레임 에너지, 부분 잔여 에너지(Partial Residual Energy), 스펙트럼 왜곡(spectral distortion), 능동 음성 평균 에너지(Active-Speech Mean Energy) 및 SNR(Signal-to-Noise)가 있다.

LP 예측 오류는 음성 프레임의 마지막 1/4부분의 LPC 분석을 통해서 추출한 오류 값이며, 수학식 4에 의해 구한다.

LPC 이득은 반사계수를 사용하여 구한 프레임의 LPC 이득 값으로, 수학식 5에 의해 구한다.

피치 레그의 표준 편차는 개회로 피치 검색 과정에서 추출한 피치 레그의 이전 5 프레임 값을 가지고 수학식 6에 의해 구한다.

,(: 이전 5프레임 피치 레그)

자기상관 함수는 수학식 7에 의해 구한다.

이때,

는 LPC를 위한 윈도우 사이즈 240,

는 샘플링 주파수,

는 입력 신호에 LPC를 위한 윈도우를 사용한 값이다. 도 3a, 도 3b 및 도 3c는 사용된 윈도우의 특징을 도시하는 도면으로, 도 3a는

일 때의 240 사이즈 해밍 윈도우(Hamming window)(rising 120, falling 120), 도 3b는

일 때의 240 사이즈 해밍 윈도우(rising 150, falling 90), 도 3c는

일 때의 240 사이즈 해밍 윈도우(rising 200, falling 40)를 나타낸다.

프레임 에너지는 수학식 8에 의해 구하며, 최소값 10을 가진다.

부분 잔여 에너지는 LPC 분석에서의 오류 성분에 대한 에너지를 구한 것으로, 수학식 9에 의해 구한다.

스펙트럼 왜곡은 LSF를 이용하여 각각의 스펙트럼에 대한 차이를 구한 것으로, 수학식 10 내지 12에 의해 구하며, 여기서

는 LPC 분석으로부터 얻어지는 LPC 계수이다.

, ( 는 자기상관 함수의 Symmetric Toeplitz Matrix )

, ( : 묵음구간 동안의 LSF의 러닝 평균(Running Mean))

, ( : LSF의 연속 러닝 평균(Continuous Running Mean))

능동 음성 평균 에너지는 음성신호 구간의 부분 잔여 에너지

의 러닝 평균을 구한 것으로, 수학식 13에 의해 구한다.

SNR는 음성과 잡음 구간의 부분 잔여 에너지의 러닝 평균을 이용하여 수학식 14에 의해 구한 것이다.

뮤직 검출 과정에서 추출되는 중요 특징벡터로는, 차(difference) LSF, LSF(1)의 러닝 평균, 에너지의 러닝 평균, 스펙트럼 차, 부분 잔여 에너지의 러닝 평균, 반사계수의 러닝 평균 및 표준화된 피치 상관관계가 있다.

차 LSF는 LPC 분석을 통해서 구한 LSF의 차이를 구한 것으로, 수학식 15와 같이 나타낸다.

LSF(1)의 러닝 평균은 LPC 분석의 첫 번째 계수의 러닝 평균을 구한 것으로, 수학식 16에 의해 구한다.

에너지의 러닝 평균은 수학식 17에 의해 구할 수 있으며,

스펙트럼 차는 반사계수의 러닝 평균을 이용하여 구한 것으로, 수학식 18에 의해 구한다.

부분 잔여 에너지의 러닝 평균은 수학식 19에 의해 구할 수 있으며,

반사계수의 러닝 평균 수학식 20에 의해 구할 수 있다.

표준화된 피치 상관관계는 개회로 피치 검색 과정에서 추출한 피치 상관관계의 이전 5 프레임 값을 가지고 수학식 21에 의해 구한다.

, (은 이전 5 프레임의 피치 상관관계)

도 4는 복수개의 가우시안 확률밀도함수의 그래프를 도시하는 도면으로, 상기한 바와 같이 SMV 인코딩 처리과정에서 추출한 특징벡터 데이터 집합의 분포밀도를 도 4에 도시된 바와 같이 복수개의 가우시안 확률밀도함수로 모델링하고, 실제 데이터를 기반으로 최대 우도를 가지는 클래스를 선택할 수 있다.

전술한 LPC 분석, VAD 및 뮤직 검출 과정에서 추출한 중요 특징벡터들을 상태 열

개의 특징벡터

라 하면,

개의 혼합성분 (Mixture Component)을 가지는 가우시안 확률밀도함수의 우도 (Likelihood)는 수학식 22 및 23과 같이 주어진다.

이때, 혼합성분 밀도의 가중치

는 수학식 24와 같은 제약 조건을 따른다.

또한, 가우시안 혼합 모델의

번째 성분 파라미터인

는 가우시안 혼합성분 밀도의 가중치 (Mixture Weight :

), 평균 벡터(Mean Vector :

) 및 공분산 행렬 (Covariance Matrix :

)로 수학식 25와 같이 구성되며, 가우시안 혼합성분 밀도의 가중치, 평균 벡터 및 공분산 행렬은 각각 수학식 26 내지 28에 의해 구한다.

이때, i 번째 성분의 사후확률(Posteriori Probability)은 수학식 29와 같이 주어진다.

본 발명에서는 기대값 최대화(Expectation Maximization; EM)를 사용해 최적 모델

를 추정하며,

가 되는 새로운 모델

이 정해진 문턱 값 (Threshold)에 도달할 때까지 반복하여 모델을 설정한다.

그 후, 사전에 구성된 각 환경별 모델의 실제 데이터의 특징벡터를 입력받아 수학식 30에 따라 환경 플래그를 선택함으로써 환경인식을 한다. 이때, 환경 플래그는 사전에 선택된 환경인식의 대상이 되는 각각의 환경에 할당된 플래그 값을 의미한다.

,

도 1은 휴대폰 입력신호의 SMV 인코딩 처리과정을 나타내는 흐름도,

도 2는 본 발명에 따른 환경인식 방법을 나타내는 흐름도,

도 3a, 도 3b 및 도 3c는 LPC에 사용된 윈도우의 특징을 도시하는 도면,

도 4는 복수개의 가우시안 확률밀도함수의 그래프를 도시하는 도면이다.

Claims

사전에 선택된 환경인식의 대상이 되는 각각의 환경에서 통신 단말기로 입력받은 음성신호로부터 SMV 인코딩 과정에서 추출한 하나 이상의 특징벡터를 기반으로 하여 미리 훈련된 가우시안 혼합 모델을 사용하는 상황인지 통신 단말기를 위한 환경인식 방법에 있어서,

실시간 음성신호로부터 SMV 인코딩 과정에서 추출되는 하나 이상의 특징벡터를 사용하여 가우시안 혼합 모델을 구성하는 단계;

상기 미리 훈련된 가우시안 혼합 모델을 사용하여 상기 실시간 음성신호에 대한 우도(Likelihood)를 구하는 단계; 및

최대 우도 값에 해당하는 환경 플래그를 선택하는 단계를 포함하는 것을 특징으로 하는 환경인식 방법.
제 1항에 있어서,

상기 하나 이상의 특징벡터는, LPC 분석, VAD 및 뮤직 검출의 SMV 인코딩 과정에서 비트율과 타입을 결정하는데 사용되는 파라미터를 이용하여 추출되는 것을 특징으로 하는 환경인식 방법.
제 2항에 있어서,

상기 LPC 분석 과정에서 사용되는 파라미터를 이용하여 추출되는 특징벡터는 LPC 10차 및 LSF 10차를 포함하는 것을 특징으로 하는 환경인식 방법.
제 2항에 있어서,

상기 VAD 과정에서 사용되는 파라미터를 이용하여 추출되는 특징벡터는 LP 예측 오류, LPC 이득, 피치 레그 표준편차, 자기상관 함수, 프레임 에너지, 부분 잔여 에너지, 스펙트럼 왜곡, 능동 음성 평균 에너지 및 SNR를 포함하는 것을 특징으로 하는 환경인식 방법.
제 2항에 있어서,

상기 뮤직 검출 과정에서 사용되는 파라미터를 이용하여 추출되는 특징벡터는 차 LSF, LSF(1)의 러닝 평균, 에너지의 러닝 평균, 스펙트럼 차, 부분 잔여 에너지의 러닝 평균, 반사계수의 러닝 평균 및 표준화된 피치 상관관계를 포함하는 것을 특징으로 하는 환경인식 방법.