KR101343768B1

KR101343768B1 - 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법

Info

Publication number: KR101343768B1
Application number: KR1020120041045A
Authority: KR
Inventors: 이인성; 이상길
Original assignee: 충북대학교 산학협력단
Priority date: 2012-04-19
Filing date: 2012-04-19
Publication date: 2014-01-16
Also published as: KR20130118112A

Abstract

본 발명은 음성과 오디오 훈련 신호의 스펙트럼 변화 특징값으로부터 GMM을 도출하는 훈련 단계와, 음성과 오디오 입력 신호의 스펙트럼 변화 특징값과 상기 도출된 GMM을 비교하여 음성과 오디오 신호를 분류하는 단계를 포함하며, 상기 GMM은 음성과 오디오 신호의 스펙트럼 변화 특징 벡터를 이용하여 기대치 최대화 반복 과정에 의하여 도출되는 것을 특징으로 하는 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법을 제공한다.

Description

스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류방법{Method for speech and audio signal classification using Spectral flux pattern}

본 발명은 음성 및 오디오 신호 분류방법에 관한 것으로서, 상세하게는 스펙트럼 변화 패턴을 이용하여 음성 및 오디오 신호를 분류하는 새로운 방법을 제안한다.

음성 부호화 기술과 오디오 부호화 기술은 각 신호의 특성 및 응용 분야가 다르기 때문에 오랜 기간 동안 각기 다른 부호화 방법을 기반으로 개발되고 발전 되어 왔다. 그러나 최근 방송과 통신 시스템이 융합하는 방향으로 기술이 발전 하면서, 하나의 부호화기로 음성과 오디오 신호를 처리할 수 있는 통합 부호화기의 대한 연구가 활발히 진행되고 있다.

특히, 최근에 표준화를 마친 USAC(Unified speech and audio coding)기술은 AMR-WB+와 HE-AAC를 결합하여 만든 음성과 오디오 통합 부호화기이다. 음성 신호의 경우 AMR-WB+ 기반의 LPD(Linear Prediction Domain)부호화기로 부호화 되고, 오디오 신호의 경우 HE-AAC 기반의 FD(Frequency Domain)부호화기로 부호화 된다. 입력 신호를 받아 음성 및 오디오 신호를 판단하여 LPD 부호화기와 FD 부호화기가 선택적으로 동작한다.

USAC의 음성과 오디오신호를 분류하는 방법은 음조특성(Tonal feature)과 스펙트럼 기울기 특성(Spectrum tilt feature), 전체 에너지(Full band energy)을 이용하여 임계값과의 비교를 통해 신호를 분류하게 된다. 그러나 음성과 오디오신호 분류 성능은 그다지 좋지 않은 문제점이 있다. 특히 캐스터네츠(Castagnettes)나 심벌(Cymbal)과 같은 타악기 오디오 신호는 많은 부분에서 음성 신호로 잘못 판단하는 문제점이 있다.

본 발명은 전술한 기술적 배경하에서 창안된 것으로, 본 발명의 목적은 스펙트럼의 변화 패턴을 특징 벡터로 한 가우시안 혼합 모델을 이용하여 우수한 성능으로 음성 신호와 오디오 신호를 분류하는 것을 그 목적으로 한다.

기타, 본 발명의 또 다른 목적 및 기술적 특징은 이하의 상세한 설명에서 보다 구체적으로 제시될 것이다.

상기 목적을 달성하기 위하여, 본 발명은 음성/오디오 통합 부호화기에서 음성과 오디오 신호를 분류하는 방법으로서, 음성과 오디오 훈련 신호의 스펙트럼 변화(Spectrum Flux) 특징값으로부터 GMM(Gaussian Mixture Model)을 도출하는 훈련 단계와, 음성과 오디오 입력 신호의 스펙트럼 변화 특징값과 상기 도출된 GMM을 비교하여 음성과 오디오 신호를 분류하는 단계를 포함하며, 상기 GMM은 음성과 오디오 신호의 스펙트럼 변화 특징 벡터를 이용하여 기대치 최대화(Expextation maximization) 반복 과정에 의하여 도출되는 것을 특징으로 하는 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법을 제공한다.

K-means 군집화 과정을 수행하여 기대치 최대화 반복 과정의 초기값을 구하며, 기대치 최대화 과정을 반복하여 음성과 오디오 신호의 스펙트럼 변화 특징을 잘 나타낼 수 있는 GMM을 얻게 된다.

음성 오디오 신호 분류는 입력 신호의 스펙트럼 변화 특징값을 버퍼에 저장하고, 상기 도출된 GMM과 버퍼에 저장된 스펙트럼 변화 특징값의 패턴을 비교하여 수행되며, 상기 버퍼에는 과거 프레임에 대한 스펙트럼 변화 특징값이 함께 저장될 수 있다.

본 발명에 따르면, 스펙트럼 변화 패턴을 이용하여 음성/오디오 신호를 분류함으로써 캐스터네츠(Castagnettes)나 심벌(Cymbal)과 같은 타악기 오디오 신호뿐만 아니라 다른 신호에서도 음성과 오디오 신호를 분류하는 성능을 크게 향상시킬 수 있다.

도 1은 본 발명에 따른 스펙트럼 변화 패턴을 이용한 음성/오디오 신호 분류 과정을 나타내는 블럭도.
도 2는 K-means 군집화 과정을 나타내는 순서도.
도 3은 음성 신호에 대한 최대 기대값 반복 과정을 거친 GMM을 나타내는 도면.
도 4는 오디오 신호에 대한 최대 기대값 반복 과정을 거친 GMM을 나타내는 그래프.
도 5는 오디오, 음성 신호에 대한 스펙트럼 변화를 나타낸 그래프.
도 6은 저장 버퍼의 동작 원리를 나타내는 모식도.
도 7는 오디오 신호에 대한 USAC 과 본 발명에 따른 신호 분류 결과를 비교한 그래프.
도 8은 타악기 오디오 신호에 대한 USAC 과 본 발명에 따른 신호 분류 결과를 비교한 그래프.
도 9은 음성 신호에 대한 USAC 과 본 발명에 따른 신호 분류 결과를 비교한 그래프.

본 발명은 음성/오디오 통합 부호화기에서 음성과 오디오 신호를 분류하는 방법으로서, 음성과 오디오 신호를 스펙트럼 변화 특징의 패턴을 GMM에 적용하여 신호를 분류하는 방법을 제안한다.

구체적으로, 음성과 오디오 신호의 스펙트럼 변화 특징을 잘 나타낼 수 있는 GMM을 찾는 훈련 단계를 포함하며, 훈련 단계에서 찾은 음성과 오디오 신호의 GMM을 이용하여 음성과 오디오 신호를 분류한다. 상기 훈련 단계는 음성과 오디오 신호를 분류하기 전 미리 수행된다. 상기 GMM은 음성과 오디오 신호의 스펙트럼 변화 특징 벡터를 이용하여 기대치 최대화 반복 과정에 의하여 도출된다.

입력 신호의 현재 프레임의 스펙트럼 변화 특징을 버퍼에 저장하고, 앞서 도출된 음성과 오디오 신호의 GMM과 버퍼에 저장된 스펙트럼 변화 특징의 패턴의 로그 우도를 비교하여 음성과 오디오 신호를 분류한다.

이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 스펙트럼 변화 패턴을 이용한 음성/오디오 신호 분류방법의 구성을 도시한 블록도이다.

본 발명의 스펙트럼 변화 패턴을 이용한 음성/오디오 신호 분류방법은 음성 및 오디오 신호의 GMM(140)을 도출하는 단계와 도출된 GMM을 이용하여 음성과 오디오 신호를 분류하는 단계로 크게 구성되며, 먼저 GMM 도출 과정에 대해 설명한다.

음성 및 오디오 신호의 GMM 도출

먼저, 음성 및 오디오 신호의 GMM(140)을 도출하는 단계에 대해 살펴 보기로 한다.

음성 및 오디오신호의 GMM을 추출하기 위해 음성과 오디오 훈련(training) 신호(100)를 입력받는다. 입력된 음성 및 오디오 훈련 신호에 대해 스펙트럼 변화 특징 추출 단계(120)에서 스펙트럼 변화값을 추출한다. 스펙트럼 변화(Spectrum Flux; SF) 특징 벡터는 아래의 수학식 1에서와 같이 산출된다.

여기서

은 디지털화된 입력신호를 나타내고,

은

의 고속 퓨리에 변환(fast fourier transform) 값이다.

은 프레임의 샘플 수로 USAC에서는 1024개의 샘플을 한 프레임으로 사용하기 때문에 본 발명에서도 1024개의 샘플을 사용하여 스펙트럼 변화(Spectrum Flux; SF) 특징 벡터를 추출하였다.

는 현재 프레임을 나타내고

는 이전 프레임을 나타낸다.

다음으로, 최대 기대값 반복 과정의 초기값을 구하기 위해 K-means 군집화 과정을 수행한다.

도 2는 K- means 군집화 과정을 나타낸 것으로, 앞서 추출한 스펙트럼 변화값으로부터 데이터 그룹핑을 통해 임의로 K개의 벡터를 선택하여 K개의 초기 대표 벡터 집합을 생성한다(단계 220). 각 데이터에 대해 K개의 대표 벡터들과의 거리 d를 계산하고 대표 벡터 수정(단계 230)을 실행한다. 반복 여부 결정(단계 240)에서는 수정 전의 대표 벡터와 수정 후의 대표 벡터의 차이를 계산하고 차이가 0 에 가까우면 반복을 멈추게 된다. 최종적으로 기대치 최대화 반복 과정에 사용될 초기 GMM 파라미터를 산출하게 된다(단계 250).

다음으로 음성과 오디오 신호의 특징을 잘 나타내는 GMM을 구하기 위해, 앞서 산출한 초기 GMM 파라미터를 이용하여 최대 기대값 반복 과정(130)(기대치 최대화 과정)을 거치게 된다. 음성과 오디오 신호의 GMM의 모델 파라미터(θ)는 수학식 2와 같이 3개의 가우시안 확률 밀도 함수의 평균(

), 분산(

), 가중치(

)의 혼합 형태로 나타낸다.

기대치 최대화 반복 과정(130)의 초기 평균(

), 분산(

), 가중치(

) 구하기 위해 K-means 군집화 방법(120)을 사용하며, 음성과 오디오 신호의 스펙트럼 변화값을 이용하여 3개의 군집으로 나누어 평균(

), 분산(

), 가중치(

)를 구한다.

기대치 최대화 과정은 수학식 3에서 좌변의 평균(

), 분산(

), 가중치(

)와 우변의 평균(

),분산(

),가중치(

)의 차이가 0에 가까울 때까지 반복하며, 수학식 3에서

은 훈련 신호의 스펙트럼 변화값의 집합을 나타낸다.

기대치 최대화 과정을 통해 얻어지는 최대 기대값은 수학식 4를 만족한다.

기대치 최대화 반복 과정(130)을 통해 최종적으로 산출한 음성과 오디오 신호에 대한 GMM(140)의 일실시예를 도 3와 도 4에 나타내었다.

도 5는 음성과 오디오 신호의 스펙트럼 변화(Spectrum Flux; SF)특징을 보여준다. 음성신호는 에너지가 큰 유성음과 에너지가 작은 무성음과 묵음으로 구성되어 있기 때문에 오디오 신호에 비해 스펙트럼 변화값이 크게 나오는 것을 볼 수 있다. 하지만 오디오 신호에서도 스펙트럼 변화값이 크게 나 올 수도 있기 때문에 하나의 스펙트럼 변화값으로 신호를 분류하게 되면 성능이 떨어지게 된다.

따라서 본 발명에서는 과거 프레임들의 스펙트럼 변화값들을 후술하는 바와 같이 저장 버퍼에 저장하여 GMM을 이용하여 패턴인식을 하게 된다.

GMM 을 이용한 음성과 오디오 신호 분류

다음은, 음성과 오디오에 대한 GMM을 이용하여 음성과 오디오 신호를 분류하는 단계에 대해 설명한다.

먼저, 입력신호(150)가 들어오면 입력신호의 스펙트럼 변화 특징을 추출(160)한다. 이 때에는 수학식 1을 사용한다. 추출한 스펙트럼 변화값 은 저장 버퍼(170)에 저장된다.

도 6은 저장 버퍼의 동작 원리에 대해 나타내고 있다. 저장 버퍼에는 N 개의 과거 프레임, 예를 들어 도 3에 도시한 실시예에서는 과거 20개 프레임에 대한 스펙트럼 변화값(d1 ~ d20)이 저장된다. 따라서 현재 프레임의 신호 분류를 위해 과거 20개 프레임의 스펙트럼 변화 패턴을 이용하여 기존의 음성/오디오 신호 분류 보다 우수한 성능으로 신호를 분류하게 된다.

저장 버퍼에 저장된 데이터를 이용하여 수학식 5과 같이 로그 우도 비교(180)를 통해 최종적으로 신호를 분류하게 된다.

수학식 5에서 N은 버퍼에 저장된 데이터의 개수를 나타내며,

는 오디오 신호에 대한 GMM 파라미터,

는 음성 신호에 대한 GMM 파라미터를 나타낸다.

음성/오디오 신호의 분류 결과

음성 및 오디오 신호에 대하여 최신 음성/오디오 통합 부호화기인 USAC의 음성과 오디오 신호의 분류 결과와 본 발명에 따른 분류 결과를 비교하였다. 실험에 쓰인 음성과 오디오 신호의 GMM을 구하기 위한 훈련(Training) 신호로는 음성신호 5개 오디오 신호 5개의 파일을 사용하였으며, 각 신호에 대한 GMM 결과는 도 3과 도 4에 나타낸 바와 같다.

도 7은 오디오 신호에 대한 USAC 과 본 발명에 따른 신호 분류 결과를 비교한 도면으로, 0 은 음성을, 2는 오디오를 나타낸다. USAC의 신호 분류 결과, 많은 프레임을 오디오 신호로 판단하기는 했지만 음성 신호로 잘못 분류하는 부분이 발생하였다. 반면에 본 발명의 신호 분류 결과는 모든 프레임에 있어서 오디오 신호로 분류된 것을 볼 수 있다.

도 8은 USAC 신호 분류에서 가장 문제가 되는 캐스터네츠 (Castagnettes)와 같은 타악기 신호에 대한 USAC 과 본 발명에 따른 신호 분류 결과를 비교한 도면으로, 0 은 음성을 2는 오디오를 나타낸다. USAC의 신호 분류 결과 모든 프레임을 음성 신호로 잘못 분류하였지만, 본 발명의 신호 분류 결과는 많은 프레임을 오디오 신호로 판단하였다.

도 9는 음성 신호에 대한 USAC 과 본 발명에 따른 신호 분류 결과를 비교한 도면으로, 0 은 음성을 2는 오디오를 나타낸다. USAC의 신호 분류 결과, 많은 프레임을 음성 신호로 판단 하기는 했지만 오디오 신호로 잘못 분류하는 부분이 발생한 반면, 본 발명의 신호 분류 결과는 모든 프레임을 음성 신호로 판단하였다. 이처럼 기존의 USAC의 신호 분류의 성능보다 우수한 성능을 보이는 것을 확인할 수 있었다.

이상에서 바람직한 실시예를 통하여 본 발명을 예시적으로 설명하였으나, 본 발명은 이와 같은 특정 실시예에만 한정되는 것은 아니며 본 발명에서 제시한 기술적 사상, 구체적으로는 특허청구범위에 기재된 범주 내에서 다양한 형태로 수정, 변경, 또는 개선될 수 있을 것이다.

100:훈련 신호 110:스펙트럼 변화 추출
120:K-means 군집화 과정 130:기대치 최대화 반복
140:음성/오디오 GMM 도출 150:입력 신호
160:스펙트럼 변화 추출 170:버퍼 저장
180:로그 우드 비교

Claims

음성/오디오 통합 부호화기에서 음성과 오디오 신호를 분류하는 방법으로서,
음성과 오디오 훈련 신호의 스펙트럼 변화(Spectrum Flux) 특징값으로부터 GMM(Gaussian Mixture Model)을 도출하는 훈련 단계와,
음성과 오디오 입력 신호의 스펙트럼 변화 특징값과 상기 도출된 GMM을 비교하여 음성과 오디오 신호를 분류하는 단계를 포함하며,
상기 GMM은 음성과 오디오 신호의 스펙트럼 변화 특징 벡터를 이용하여 기대치 최대화(Expextation maximization) 반복 과정에 의하여 도출되는 것을 특징으로 하는
스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
제1항에 있어서, 훈련 신호의 스펙트럼 변화 특징값은 입력된 음성 및 오디오 훈련 신호에 대해 아래의 1에 따라 산출되며,

여기서
은 디지털화된 입력 신호,
은
의 고속 퓨리에 변환값,
은 프레임의 샘플 수
는 현재 프레임을 나타내고
는 이전 프레임을 나타내는
스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
제1항에 있어서, K-means 군집화 과정을 수행하여 기대치 최대화 반복 과정의 초기값을 구하는 것을 특징으로 하는 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
제3항에 있어서, 상기 K-means 군집화 과정은
훈련 신호의 스펙트럼 변화값으로부터 데이터 그룹핑을 통해 임의로 K개의 벡터를 선택하여 K개의 초기 대표 벡터 집합을 생성하고,
각 데이터에 대해 K개의 대표 벡터들과의 거리 d를 계산하여 대표 벡터를 수정하고,
수정 전의 대표 벡터와 수정 후의 대표벡터의 차이가 기준값에 도달하면 대표 벡터의 수정을 중단하고, 기대치 최대화 반복 과정에 사용될 초기 GMM 파라미터를 산출하는 단계를 포함하는
스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
제1항에 있어서, 상기 기대치 최대화 반복 과정에서 음성과 오디오 신호의 GMM의 모델 파라미터(θ)는 아래 식과 같이 3개의 가우시안 확률 밀도 함수의 평균(
), 분산(
), 가중치(
)의 혼합 형태로 나타내는

스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
제5항에 있어서, 상기 기대치 최대화 과정은 아래 식에서 좌변의 평균(
), 분산(
), 가중치(
)와 우변의 평균(
),분산(
),가중치(
)의 차이가 0에 가까울 때까지 반복하며,
은 훈련 신호의 스펙트럼 변화값의 집합을 나타내는

스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
제6항에 있어서, 기대치 최대화 과정을 통해 얻어지는 최대 기대값은 아래 식을 만족하는

스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
제1항에 있어서, 입력 신호의 현재 프레임의 스펙트럼 변화 특징값을 버퍼에 저장하고, 상기 도출된 음성과 오디오 신호의 GMM과 버퍼에 저장된 스펙트럼 변화 특징값의 패턴의 로그 우도(log-likelihood)를 비교하여 음성과 오디오 신호를 분류하는 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
제8항에 있어서, 아래 조건일 때 음성 신호로 분류하고,

아래 조건일 때 오디오 신호로 분류하며

여기서, N은 버퍼에 저장된 데이터의 수,
는 오디오 신호에 대한 GMM 파라미터,
는 음성 신호에 대한 GMM 파라미터를 나타내는 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.
제8항에 있어서, 상기 버퍼에는 과거 프레임에 대한 스펙트럼 변화 특징값이 저장되어 있는 스펙트럼 변화 패턴을 이용한 음성 및 오디오 신호 분류 방법.