WO2010008173A2

WO2010008173A2 - 오디오 신호의 상태결정 장치

Info

Publication number: WO2010008173A2
Application number: PCT/KR2009/003850
Authority: WO
Inventors: 백승권; 이태진; 김민제; 장대영; 강경옥; 서정일; 홍진우; 박호종; 박영철
Original assignee: 한국전자통신연구원; 광운대학교 산학협력단
Priority date: 2008-07-14
Filing date: 2009-07-14
Publication date: 2010-01-21
Also published as: WO2010008173A3

Abstract

본 발명은 LPC(Linear Predictive Coding) 기반(혹은 CELP(Code Excitation Linear Prediction) 기반)의 음성(혹은 오디오) 부호화기와 변환(transform) 기반의 오디오 부호화기를 입력 신호의 특징에 따라 적절하게 선택할 수 있는 모듈은 기존의 LPC 기반의 부호화기와 오디오 부호화기의 성능의 장벽을 메워 주기 위한 다리(bridge) 역할을 하는 모듈이며, 이를 통하여, 입력 오디오 신호의 종류와 상관없이 일관된 오디오 품질을 제공할 수 있는 통합 오디오 부호화기 설계가 가능하다.

Description

오디오 신호의 상태결정 장치

본 발명에 따른 실시예들은 오디오 신호를 부호화 하는데 있어서, 부호화 이득을 얻기 위한 오디오 신호의 상태결정 장치에 관한 것이다.

최근까지 오디오(혹은 음성) 부호화기들은 서로 다른 기술적 철학 및 접근방법을 기반으로 발전해 왔다. 특히 음성과 오디오의 경우 그 부호화 방식이 서로 상이하며 부호화 이득도 입력 신호의 특징에 따라 상이하게 나타난다. 이는 음성 부호화기의 경우, 사람의 발성모델을 근간으로 한 접근 방식으로 소리 생성 과정을 구체화 시키고 모듈화 함으로써 부호화기를 설계한 것에 반하여, 오디오 부호화기의 경우, 사람이 소리를 인지하는 청각모델을 기반으로 부호화기를 설계하였기 때문이다.

이러한 접근방식에 근거하여, 음성 부호화기는 LPC(Linear Predictive Coding) 기반 잔차신호의 부호화가 주된 핵심기술로써, CELP(Code Excitation Linear Prediction) 구조를 잔차신호에 적용하여 압축효율을 극대화 하였으며, 반면에 오디오 부호화기는 주파수 영역에서의 청각심리음향 모델을 적용하여 오디오 압축 효율을 극대화 하였다.

그러나, 음성 부호화기의 경우 음성에서는 저 비트율에서 탁월한 성능을 보이나, 일반 오디오 신호나 비트율이 증가할수록 성능 향상이 더디고, 반면에 오디오 부호화기는 저 비트에서 음질의 심각한 열화를 보이나, 비트율이 증가할수록 성능 향상이 분명하다.

본 발명의 일실시예는 LPC(Linear Predictive Coding) 기반(혹은 CELP(Code Excitation Linear Prediction) 기반)의 음성(혹은 오디오) 부호화기와 변환(transform) 기반의 오디오 부호화기를 입력 신호의 특징에 따라 적절하게 선택할 수 있는 오디오 신호의 상태결정 장치를 제공한다.

본 발명의 일실시예는 기존의 LPC 기반의 부호화기와 변환 기반의 오디오 부호화기간에 성능의 장벽을 메워 주기 위한 다리(bridge) 역할을 하는 모듈을 통해 입력 오디오 신호의 종류와 상관없이 일관된 오디오 품질을 제공할 수 있는 통합 오디오 부호화기를 제공한다.

본 발명의 일실시예에 따른 오디오 신호의 상태결정 장치는, 입력신호의 특징을 분류하여 각 상태 관측 확률을 출력하는 신호 상태 관측부 및 상태 관측 확률에 기초하여 입력신호의 프레임의 상태 식별자를 출력하는 상태 체인부를 포함한다. 이때, 상태 식별자에 따라 입력신호의 프레임이 부호화될 부호화부가 결정된다.

본 발명의 일측면에 따르면, 신호 상태 관측부는 특징으로서 하모닉(harmonic) 관련 특징 및 에너지 관련 특징을 각각 추출하는 특징 추출부, 결정 트리(decision tree)를 이용하여 하모닉 관련 특징 및 에너지 관련 특징 중 적어도 하나의 상태 관측 확률을 결정하는 엔트로피(entropy) 기반 결정 트리부 및 추출된 특징 중 에너지 관련 특징이 일정 문턱치 값(S-Thr)을 넘지 못할 경우, 추출된 특징에 해당하는 프레임의 상태를 사일런스 상태(silence state)에 대한 상태 관측 확률로서 결정하는 사일런스 상태 결정부를 포함할 수 있다. 이때, 결정 트리는 터미널 노드에 각 상태 관측 확률이 정의될 수 있다.

본 발명의 일측면에 따르면, 특징 추출부는 입력신호를 콤플렉스 변환을 통해 주파수 영역으로 변환하는 T/F 변환부, 변환된 입력신호와 변환된 입력신호의 복소수에 대한 컬레 연산 결과간의 빈 연산결과를 역 이산 푸리에 변환에 적용하여 하모닉 관련 특징을 추출하는 하모닉 분석부 및 변환된 입력신호를 서브밴드 단위로 분할하고 각 서브밴드별 에너지간의 비를 에너지 관련 특징으로서 추출하는 에너지 추출부를 포함할 수 있다.

본 발명의 일측면에 따르면, 하모닉 분석부는, 역 이산 푸리에 변환이 적용된 함수에서 (1) 독립변수가 '0'인 경우의 종속변수의 절대값, (2) 피크(peak) 값의 절대값, (3) 최초 프레임부터 피크(peak) 값에 해당하는 프레임까지의 수 및 (4) 제로 크로싱율(zero crossing rate) 중 적어도 하나를 하모닉 관련 특징으로서 추출할 수 있다.

본 발명의 일측면에 따르면, 에너지 추출부는, 크리티컬 밴드위스(critical bandwidth) 및 ERB(Equivalent Rectangular Bandwidth) 중 적어도 하나에 기초하여 변환된 입력신호를 서브밴드 단위로 분할할 수 있다.

본 발명의 일측면에 따르면, 엔트로피 기반 결정 트리부는 입력되는 특징에 대해 결정 트리의 터미널 노드 중 해당하는 터미널 노드를 결정하고 각 터미널 노드에 해당하는 확률을 상태 관측 확률로서 출력할 수 있다.

본 발명의 일측면에 따르면, 상태 관측 확률은 스테디-하모닉(Steady-Harmonic, SH) 상태(state) 관측 확률, 스테디-노이즈(Steady-Noise, SN) 상태 관측 확률, 콤플렉스-하모닉(Complex-Harmonic, CH) 상태 관측 확률, 콤플렉스-노이즈(Complex-Noise, CN) 상태 관측 확률 및 사일런스(Silence, Si) 상태 관측 확률 중 둘 이상을 포함할 수 있다.

본 발명의 일측면에 따르면, 상태 체인부는, 상태 관측 확률로부터 상태 시퀀스 확률을 결정하고, 상태 시퀀스 확률을 통해 현 프레임의 관측 비용을 계산하고, 관측 비용에 기초하여 입력신호의 프레임의 상태 식별자를 결정할 수 있다.

본 발명의 일측면에 따르면, 상태 체인부는, 스테디-하모닉 상태 및 콤플렉스-하모닉 상태의 관측 비용 중 최대값과 스테디-노이즈 상태의 관측 비용 및 콤플렉스-노이즈 상태의 관측 비용 중 최대값간의 비교를 통해 입력신호의 현재 프레임이 노이즈 상태인지 하모닉 상태인지 결정할 수 있다.

본 발명의 일측면에 따르면, 상태 체인부는 노이즈 상태로 결정된 현재 프레임에 대해 콤플렉스-하모닉 상태의 관측 비용 및 콤플렉스-노이즈 상태의 관측 비용을 서로 비교하여 현재 프레임의 상태 식별자를 스테디-노이즈 상태 및 콤플렉스-노이즈 상태 중 하나로 결정할 수 있다.

본 발명의 일측면에 따르면, 상태 체인부는, 하모닉 상태로 결정된 현재 프레임의 상태가 사일런스 상태인지 여부를 확인하여 사일런스 상태인 경우, 상태 시퀀스 확률을 초기화할 수 있다.

본 발명의 일측면에 따르면, 상태 체인부는 하모닉 상태로 결정된 현재 프레임의 상태가 사일런스 상태인지 여부를 확인하여 사일런스 상태가 아닌 경우, 현재 프레임의 상태 식별자를 스테디-하모닉 상태 및 콤플렉스 하모닉 상태 중 하나로 결정할 수 있다.

본 발명의 일측면에 따르면, 상태 체인부는 현재 프레임과 이전 프레임의 상태 식별자가 동일하지 않은 경우, 이전 프레임의 상태 식별자에 해당하는 상태 시퀀스 확률 중 하나에 '0' 이상 '0.95' 이하의 가중치를 부여할 수 있다.

본 발명의 일측면에 따르면, 부호화부는 LPC 기반 부호화부 및 변환 기반 부호화부를 포함할 수 있고, 상태 식별자가 스테디 상태(steady state)인 경우 LPC 기반 부호화부로, 상태 식별자가 콤플렉스 상태인 경우 변환 기반 부호화부로 입력신호의 프레임이 각각 입력되어 부호화될 수 있다.

본 발명의 일실시예에 따른 오디오 신호의 상태결정 장치는, 입력신호에서 하모닉(harmonic) 관련 특징 및 에너지 관련 특징을 각각 추출하는 특징 추출부, 결정 트리(decision tree)를 이용하여 하모닉 관련 특징 및 에너지 관련 특징 중 적어도 하나의 상태 관측 확률을 결정하는 엔트로피(entropy) 기반 결정 트리부 및 추출된 특징 중 에너지 관련 특징이 일정 문턱치 값(S-Thr)을 넘지 못할 경우, 추출된 특징에 해당하는 입력신호의 프레임의 상태를 사일런스 상태(silence state)에 대한 상태 관측 확률로서 결정하는 사일런스 상태 결정부를 포함한다. 이때, 결정 트리는 터미널 노드에 각 상태 관측 확률이 정의된다.

본 발명의 일실시예에 따르면, LPC (Linear Predictive Coding) 기반의 음성(오디오) 부호화기와 변환(transform)기반의 오디오 부호화기를 하나의 구조에 통합하고 그 부호화 성능을 극대화 하기 위해 다리(bridge) 역할을 수행하는 모듈을 제공할 수 있다.

본 발명의 일실시예에 따르면, 두 개의 부호화기가 하나의 코덱으로 통합될 수 있으며, 이때 각 부호화기의 단점이 모듈을 통해 극복될 수 있다. 즉, LPC 기반의 부호화기는 음성과 유사한 신호만을 부호화 함으로써, 그 성능을 극대화 하고, 반대로 오디오 부호화기는 일반 오디오 신호와 유사한 신호만을 부호화 함으로써, 부호화 이득을 극대화 할 수 있다.

도 1은 본 발명의 일실시예에 따른 오디오 신호의 상태결정 장치의 내부 구성을 설명하기 위한 블록도이다.

도 2는 본 발명의 일실시예에 있어서, 신호 상태 관측부의 내부 구성을 설명하기 위한 블록도이다.

도 3은 본 발명의 일실시예에 있어서, 특징 추출부의 내부 구성을 설명하기 위한 블록도이다.

도 4은 본 발명의 일실시예에 따른 하모닉 분석부에서 특징을 추출하기 위해 이용되는 값을 나타내는 그래프의 일례이다.

도 5는 본 발명의 일실시예에 따른 엔트로피 기반 결정 트리부에 적용 가능한 결정 트리 생성 방법의 일례이다.

도 6은 본 발명의 일실시예에 따른 상태 체인부를 통해 천이가 발생하는 상태들간의 관계를 나타내는 도면이다.

도 7은 본 발명의 일실시예에 따른 상태 체인부의 출력이 결정되는 방법을 설명하기 위한 흐름도이다.

이하 첨부된 도면을 참조하여 본 발명에 따른 다양한 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일실시예에 따른 오디오 신호의 상태결정 장치의 내부 구성을 설명하기 위한 블록도이다. 본 실시예에 따른 오디오 신호의 상태결정 장치(100)는 도 1에 도시된 바와 같이 신호 상태 관찰부(Signal State Observation, SSO)(101) 및 상태 체인부(state chain machine)(102)를 포함한다.

신호 상태 관측부(101)는 입력신호의 특징을 분류하여 각 상태 관측 확률을 출력한다. 이때, 입력신호는 PCM(Pulse Code Modulation) 신호를 포함할 수 있다. 즉, PCM 신호는 신호 상태 관측부(101)로 입력될 수 있고, 신호 상태 관측부(101)는 PCM 신호의 특징을 분류하여 각 상태 관측 확률을 출력할 수 있다. 상태 관측 확률은, 스테디-하모닉(Steady-Harmonic, SH) 상태(state) 관측 확률, 스테디-노이즈(Steady-Noise, SN) 상태 관측 확률, 콤플렉스-하모닉(Complex-Harmonic, CH) 상태 관측 확률, 콤플렉스-노이즈(Complex-Noise, CN) 상태 관측 확률 및 사일런스(Silence, Si) 상태 관측 확률 중 둘 이상을 포함할 수 있다.

여기서, 스테디-하모닉 상태는 신호의 하모닉 성분이 분명하며, 안정되게 나타나는 신호구간의 상태를 의미할 수 있다. 예를 들어, 음성의 유성음 구간이 대표적으로 포함될 수 있고, 싱글-톤(single-ton)의 정현파 신호들도 본 상태로 분류될 수 있다.

스테디-노이즈 상태는 백색성 잡음과 같은 신호구간의 상태를 의미할 수 있다. 예를 들어, 음성의 무성음 구간이 기본적으로 포함될 수 있다.

콤플렉스-하모닉 상태는 여러 톤 성분들이 섞여 복잡한 하모닉 구조를 이루는 신호구간의 상태를 의미할 수 있다. 예를 들어, 일반적인 음악의 연주구간들이 포함될 수 있다.

콤플렉스-노이즈 상태는 안정적이지 못한 잡음 성분들이 포함된 신호구간의 상태를 의미할 수 있다. 예를 들어 일상의 주변 잡음들, 혹은 음악의 연주구간에서 '공격(attack)'성의 신호등이 해당될 수 있다.

사일런스 상태는 에너지 세기가 작은 신호구간의 상태를 의미할 수 있다.

신호 상태 관측부(101)는 입력 신호의 특징을 분석 분류하여, 총 5개의 각 상태 별로 관측되는 상태 관측 확률을 출력할 수 있다. 이때, 출력되는 상태 관측 확률은 다음 (1) 내지 (5)와 같이 정의될 수 있다.

스테디-하모닉 상태에 대한 상태 관측 확률은 'P_SH'으로 정의할 수 있다.

스테디-노이즈 상태에 대한 상태 관측 확률은 'P_SN'으로 정의할 수 있다.

콤플렉스-하모닉 상태에 대한 상태 관측 확률은 'P_CH'으로 정의할 수 있다.

콤플렉스-노이즈 상태에 대한 상태 관측 확률은 'P_CN'으로 정의할 수 있다.

사일런스 상태에 대한 상태 관측 확률은 'P_Si'으로 정의할 수 있다.

여기서, 입력신호는 기본적으로 상술한 PCM 신호로서 제공되는 프레임 단위의 PCM 데이터일 수 있고, PCM 데이터는 하기 수학식 1과 같이 표현될 수 있다.

[수학식 1]

여기서, '

'은 입력 PCM 데이터 샘플, 'L'은 프레임의 길이, 'b'는 프레임 시간 인덱스를 각각 나타낼 수 있다.

이때, 출력되는 상태 관측 확률은 하기 수학식 2를 통해 표현되는 조건을 만족할 수 있다.

[수학식 2]

상태 체인부(102)는 상태 관측 확률에 기초하여 입력신호의 프레임의 상태 식별자(state identification, 이하 상태 ID)를 출력한다. 즉, 신호 상태 관측부(101)에서 출력된 상태 관측 확률은 상태 체인부(102)에 입력되고, 상태 체인부(102)는 상태 관측 확률에 기초하여 해당 입력신호의 프레임의 상태 ID를 출력할 수 있다. 여기서, 출력되는 상태 ID는 스테디-하모닉 'SH' 또는 스테디-노이즈'SN'와 같은 스테디-상태(Steady-State) 그리고 콤플렉스-하모닉 'CH' 또는 콤플렉스-노이즈 'CN'와 같은 콤플렉스-상태(Complex-State) 중 적어도 하나를 나타낼 수 있다. 이때, 입력 PCM 데이터는 스테디-상태인 경우 LPC 기반 부호화부(103)를 이용하여 부호화될 수 있고, 콤플렉스-상태인 경우 변환 기반 부호화부(104)를 통해 부호화될 수 있다. LPC 기반 부호화부(103)로는 기존의 LPC 기반의 오디오 부호화기가 사용될 수 있고, 변환 기반 부호화부(104)는 기존의 변환 기반의 오디오 부호화기가 사용될 수 있다. 일례로, AMR(Adaptive Multi-Rate) 계열 및 CELP(Code Excitation Linear Prediction) 계열의 음성 부호화기가 LPC 기반 부호화부(103)로서 사용될 수 있으며, AAC 계열의 오디오 부호화기가 변환 기반 부호화부(104)로서 사용될 수 있다.

따라서, 본 발명의 일실시예에 따른 오디오 신호의 상태결정 장치(100)를 이용하면, LPC 기반 부호화부(103)와 변환 기반 부호화부(104)를 입력신호의 특징에 맞게 선택적으로 선정하여 부호화함으로써 높은 부호화 효율을 달성할 수 있다.

도 2는 본 발명의 일실시예에 있어서, 신호 상태 관측부의 내부 구성을 설명하기 위한 블록도이다. 본 실시예에 따른 신호 상태 관측부(101)는 도 2에 도시된 바와 같이 특징 추출부(feature extraction)(201), 엔트로피 기반 결정 트리부(entropy based decision Tree)(202) 및 사일런스 상태 결정부(203)를 포함할 수 있다.

특징 추출부(201)는 특징으로서 하모닉 관련 특징 및 에너지 관련 특징을 각각 추출한다. 이러한 특징 추출부(201)에서 추출되는 특징에 대해서는 도 3을 통해 더욱 자세히 설명한다.

엔트로피 기반 결정 트리부(202)는 결정 트리(decision tree)를 이용하여 하모닉 관련 특징 및 에너지 관련 특징 중 적어도 하나의 상태 관측 확률을 결정한다. 이때, 결정 트리가 포함하는 터미널 노드에는 각 상태 관측 확률이 정의된다.

사일런스 상태 결정부(203)는 추출된 특징 중 에너지 관련 특징이 일정 문턱치 값(S-Thr)을 넘지 못할 경우, 추출된 특징에 해당하는 프레임의 상태가 사일런스 상태가 되도록 에너지 관련 특징의 상태 관측 확률을 결정한다.

보다 자세하게, 특징 추출부(201)는 입력된 PCM 데이터로부터 하모닉 관련 특징과 에너지 관련 특징을 포함하는 특징들을 추출하고 추출된 특징들은 엔트로피 기반 결정 트리부(202) 및 사일런스 상태 결정부(203)로 입력된다. 이때, 엔트로피 기반 결정 트리부(202)는 각 상태를 관측하기 위해 결정 트리를 이용할 수 있다. 결정 트리의 터미널 노드에는 각 상태 관측 확률이 정의될 수 있고, 결정 트리의 터미널 노드에 도달하는 방법 즉, 각 노드에 해당하는 특징들에 대해 해당하는 상태 관측 확률을 얻기 위한 방법은 각 노드에 해당하는 특징들의 조건문에 대한 만족여부에 따라 결정될 수 있다. 엔트로피 기반 결정 트리부(202)에 대해서는 도 5를 통해 더욱 자세히 설명한다.

상술한 '

', '

','

'및 '

'는 엔트로피 기반 결정 트리부(202)에서 결정될 수 있고, '

'는 사일런스 상태 결정부(203)에 의해 결정될 수 있다. 사일런스 상태 결정부(203)는 추출된 특징 중 에너지 관련 특징 값이 일정 문턱치 값(S-Thr)을 넘지 못할 경우, 입력신호의 프레임의 상태를 사일런스 상태로 판단하며, 이때 사일런스 상태에 대한 상태 관측 확률은 '

'이 되며, '

', '

' 및 '

'는 제로 값으로 강제화될 수 있다.

도 3은 본 발명의 일실시예에 있어서, 특징 추출부의 내부 구성을 설명하기 위한 블록도이다. 여기서, 특징 추출부(201)는 도 3에 도시된 바와 같이 T/F(Time-to-Frequency) 변환부(301), 하모닉 분석부(302) 및 에너지 분석부(303)를 포함할 수 있다.

T/F 변환부(301)는 먼저 입력

를 주파수 영역으로 변환한다. 변환방식은 콤플렉스 변환(complex transform)을 사용하며, 일례로 하기 수학식 3과 같은 이산 푸리에 변환(Discrete Fourier Transform, DFT)이 사용될 수 있다.

[수학식 3]

여기서, 'o(b)'는 '

'와 같이 표현될 수 있고, '

'는 주파수 빈(bin)으로 콤플렉스 값, 예를

들어 와 같이 표현될 수 있다.

여기서, 하모닉 분석부(302)는 변환된 입력신호와 변환된 입력신호의 복소수에 대한 컬레 연산 결과간의 빈 연산결과를 역 이산 푸리에 변환에 적용하여 특징을 추출한다. 예를 들어, 하모닉 분석부(302)는 하기 수학식 4로 표현되는 동작을 수행할 수 있다.

[수학식 4]

여기서, 'conj'는 복소수에 대한 켤레(conjugate) 연산자일 수 있고, 연산자 '

'는 각 빈(bin)별 연산자일 수 있다. 또한, 'IDFT'는 역 이상 푸리에 변환(Inverse Discrete Fourier Transform)을 의미할 수 있다.

즉, 수학식 4를 이용하여 하기 수학식 5 내지 하기 수학식 8과 같이 표현되는 특징들이 추출될 수 있다.

[수학식 5]

[수학식 6]

[수학식 7]

[수학식 8]

여기서, '

'는 절대값을 취하는 연산자를, '

'는 함수에서 피크(peak) 값을 찾아내는 함수를, 'ZCR()'는 제로 크로싱율(zero crossing rate)을 구하는 함수를 각각 의미할 수 있다.

도 4은 본 발명의 일실시예에 따른 하모닉 분석부에서 특징을 추출하기 위해 이용되는 값을 나타내는 그래프의 일례이다. 여기서, 그래프(400)는 수학식 4를 통해 설명한 'Corr(b)' 함수에 의해 나타날 수 있고, 그래프(400)에서와 같이 수학식 5 내지 수학식 8을 통해 설명한 특징들인 'fx_h1(b)', 'fx_h2(b)', 'fx_h3(b)' 및 'fx_h4(b)'가 추출될 수 있다.

여기서, '

'는 도 2를 통해 설명한 사일런스 상태 결정부(203)로 입력되며, 일정 문턱치 값(S-Thr)에 따라, '

'를 정의할 수 있다. 일례로, 입력신호의 무발성 구간에 잡음이 존재하지 않을 경우, 사일런스 구간으로 간주하기 위한 일정 문턱치 값(S-Thr)의 값은 0.004일 수 있다. 일정 문턱치 값(S-Thr)은 입력신호의 신호대잡음비(Signal-to-Noise Ratio, SNR)에 따라 조절 가능하다.

에너지 분석부(303)는 변환된 입력신호를 서브밴드 단위로 묶고 각 서브밴드별 에너지간의 비를 특징으로서 추출한다. 즉, T/F 변환부(301)로부터 입력되는 값 '

'을 서브밴드(sub-band) 단위로 묶고 각 서브밴드 별 에너지를 구하여, 구해진 에너지들간의 비(ratio)를 특징으로서 활용할 수 있다. 입력 '

'를 서브밴드로 분할하는 방법은 크리티컬 밴드위스(critical bandwidth)나 ERB(Equivalent Rectangular Bandwidth)를 따를 수 있다. 일례로, 입력 '

'를 서브밴드로 분할하는 방법은 1024 이산 푸리에 변환을 이용하고, 서브밴드의 경계가 ERB를 따르는 경우, 하기 수학식 9와 같이 정의될 수 있다.

[수학식 9]

여기서, 'Ab[]'는 ERB 경계를 나타내는 배열 정보로, 1024 DFT의 경우 ERB 경계는 수학식 9를 따를 수 있다.

여기서, 임의의 서브밴드의 에너지 'Pm(i)'는 하기 수학식 10과 같이 정의될 수 있다.

[수학식 10]

이때, 수학식 10으로부터 추출되는 에너지 특징들은 하기 수학식 11과 같이 나타날 수 있다.

[수학식 11]

이렇게 추출된 특징들은 엔트로피 기반 결정 트리부(202)에 입력될 수 있고, 엔트로피 기반 결정 트리부(202)는 특징들에 결정 트리를 적용하여, 입력된 값 '

'의 각 상태 관측 확률을 출력할 수 있다.

도 5는 본 발명의 일실시예에 따른 엔트로피 기반 결정 트리부에 적용 가능한 결정 트리 생성 방법의 일례이다. 결정 트리는 분류 알고리즘(classification algorithm)의 하나로, 널리 사용되는 알고리즘이다. 결정 트리를 생성하기 위해서는 기본적으로 훈련과정이 필요하다. 훈련과정에서는 훈련데이터로부터 샘플 특징들을 추출하고, 샘플 특징들에 대한 조건문들을 생성하고 각 조건문들의 만족여부에 따라 결정 트리가 성장(growing)할 수 있다. 본 실시예에서는, 특징 추출부(201)에서 추출된 특징들이 샘플 특징으로서 이용될 수 있다. 이와 같이, 특징 추출부(201)에서 추출된 특징들은 훈련데이터로부터 추출되는 샘플 특징으로도 이용될 수 있고, 테스트 데이터의 분류(classification)를 위해서도 이용될 수 있다. 이때 훈련과정에서 터미널 노드(terminal node)의 엔트로피(entropy)가 최소화 될 수 있도록 스플리트(split) 과정을 반복하며 성장(growing)하여 적정의 결정 트리를 생성할 수 있다. 결정 트리가 생성된 후에는 복잡도를 줄이기 위해서 최종 엔트로피에 대해 기여도가 작은 것을 전정(pruning)할 수 있다.

일례로, 스플리트 과정을 위한 조건문의 선택은 하기 수학식 12와 같이 표현되는 기준(criteria)을 만족하여야 한다.

[수학식 12]

여기서, 'q'는 조건문을, '

'는 스플리트 과정 이전의 노드에서의 엔트로피를, '

'는 스플리트 과정 이후의 r-노드와 l-노드에서의 엔트로피를 각각 의미할 수 있다. 각 노드에서 엔트로피에 사용되는 확률은 노드에 입력되는 샘플 특징을 상태별 샘플 특징수로 환산하고, 전체 샘플 특징수로 나누어준 값을 의미할 수 있다. 일례로 각 노드에서 엔트로피에 사용되는 확률은 하기 수학식 13과 같이 환산될 수 있다.

[수학식 13]

여기서, 'number of Steady-Harmonic samples'는 스테디 상태의 샘플 특징수에서 하모닉 상태의 샘플 특징수를 뺀 나머지 수를 의미할 수 있고, total number of samples at note()'는 전체 샘플 특징수를 의미할 수 있다.

마찬가지로 '

', '

'도 동일한 방법으로 계산될 수 있다.

이때, '

'는 하기 수학식 14와 같이 정의될 수 있다.

[수학식 14]

또한, 'P(t)'는 하기 수학식 15와 같이 정의될 수 있다.

[수학식 15]

엔트로피 기반 결정 트리부(202)는 입력된 값 '

'의 특징들에 대하여 훈련된 결정 트리의 터미널 노드 중 해당하는 터미널 노드를 결정하고 각 터미널 노드에 해당하는 확률 값을 상태 관측 확률인 '

', '

' 및 '

'로서 출력할 수 있다.

출력된 상태 관측 확률은 상태 체인부(102)으로 입력되며, 최종 상태 ID를 생성할 수 있다.

도 6은 본 발명의 일실시예에 따른 상태 체인부를 통해 천이가 발생하는 상태들간의 관계를 나타내는 도면이다. 각 상태는 도 6와 같이 상태 천이를 할 수 있다. 기본이 되는 메인-상태(main-state)는 스테디-하모닉 상태와 콤플렉스-하모닉 상태일 수 있고, 스테디-하모닉 상태와 콤플렉스-하모닉 상태간의 천이는 엄격하게 발생할 수 있다. 예를 들어, '

'이 스테디-하모닉 상태였다면, '

'가 콤플렉스 하모닉 상태가 되기 위해서는 '

'에 대한 상태 관측 확률이 상대적으로 매우 높아야 천이가 가능하다. 반대의 경우도 마찬가지이다. 자유롭게 천이할 수 있는 상태는 스테디-하모닉 상태와 스테디-노이즈 상태, 콤플렉스-하모닉 상태와 콤플렉스-노이즈 상태이다.

'

'인 경우는 '

'와 관계없이 사일런스 상태로 무조건 천이할 수 있다.

스테디-노이즈 상태와 콤플렉스 노이즈 상태도 상호간에 천이가 가능하나, 스테디-하모닉 상태 및 콤플렉스 하모닉 상태간의 관계와는 다르게, 메인-상태의 상태 관측 확률에 종속되어 쉽게 천이 또는 변환이 가능할 수 있다. 여기서, 변환은 천이와는 다르게, 현 상태가 스테디-노이즈 상태일 지라도, 메인-상태에 따라, 콤플렉스-노이즈 상태로 대체될 수 있음을 의미할 수 있다. 그 반대의 경우도 마찬가지이다.

상태 체인부(102)에 입력되는 상태 관측 확률로부터 하기 수학식 16 및 하기 수학식 17의 두 가지 상태 시퀀스(벡터)가 정의될 수 있다.

[수학식 16]

[수학식 17]

여기서, 'P_SH(b)', 'P_SN(b)', 'P_CH(b)' 및 'P_CN(b)'는 각각 하기 수학식 18 내지 하기 수학식 21과 같이 표현될 수 있고, 'M'은 C(b)의 요소 개수를 나타낼 수 있다.

[수학식 18]

[수학식 19]

[수학식 20]

[수학식 21]

또한, '

'는 b-프레임에서의 신호 상태 관측부(102)의 출력 값을 의미할 수 있다. 일례로, 여기서는 일차적으로 임시적 '

' 값을 하기 수학식 22와 같이 설정될 수 있다.

[수학식 22]

여기서, 수학식 16 및 수학식 17에 나타난 '_stateP(b)' 및 '_stateC(b)'를 각각 상태 시퀀스 확률이라 명한다. 상태 체인부(102)의 출력은 최종 상태 ID로서, 각 가중 계수는

이며, 0.95값을 기본값으로 가질 수 있다. 값 선정에 대한 일례는, 현재 관측결과에 초점을 맞추고자 한다면,

, 과거의 관측 결과를 동일한 통계적 데이터로 사용한다면,

이 각각 이용될 수 있다.

또한, 수학식 16 내지 수학식 21로부터 현 프레임의 관측 비용(cost)은 하기 수학식 23과 같이 표현될 수 있다.

[수학식 23]

여기서, 'Cst_SH(b)'는 하기 수학식 24 및 하기 수학식 26과 같이 표현될 수 있고, 'Cst_SN(b)', 'Cst_CH(b)' 및 'Cst_CN(b)' 또한, 동일한 방법으로 계산될 수 있다.

[수학식 24]

'trace()' 연산자는 하기 수학식 25와 같이 행렬의 대각요소의 합을 수행하는 연산자를 의미할 수 있다.

[수학식 25]

[수학식 26]

결정 단계로, 먼저 현 '

'가 노이즈 상태인지 하모닉 상태인지를 하기 수학식 27을 통해 결정할 수 있다.

[수학식 27]

마찬가지로 그 역인 경우에도 동일하게 처리될 수 있다.

후처리 단계로 상태천이에 따라 하기 수학식 28과 같이 처리할 수 있다. 만약 수학식 27에 의해 '

'으로 결정되었으나, 하기 수학식 28의 조건을 만족할 경우에는 '

'로 변환될 수 있다. 여기서, 'SN'은 스테디-노이즈 상태를 나타내는 상태 ID를, 'CN'은 콤플렉스-노이즈 상태를 나타내는 상태 ID를 각각 의미할 수 있다.

[수학식 28]

마찬가지로 그 역인 경우에도 동일하게 처리될 수 있다. 즉,

일 경우 하기 수학식 29과 같이 상태 시퀀스 확률에 가중치(weight)가 가해질 수 있다. 여기서, 'SH'는 스테디-하모닉 상태를 나타내는 상태 ID를, 'CH'은 콤플렉스-하모닉 상태를 나타내는 상태 ID를 각각 의미할 수 있다.

[수학식 29]

여기서, '

'는 0 이상 0.95 이하의 값을 가질 수 있다. 즉, 상태 체인부(102)는 현재 프레임과 이전 프레임의 상태 식별자가 동일하지 않은 경우, 이전 프레임의 상태 식별자에 해당하는 상태 시퀀스 확률 중 하나에 '0' 이상 '0.95' 이하의 가중치를 부여할 수 있다. 이는 도 6에서 하모닉 상태간에 천이되는 경우를 엄격하게(hardly) 제어하기 위함이다.

'

'이 상태 체인부(102)에 입력될 경우, 상태 시퀀스 확률은 하기 수학식 30 내지 하기 수학식 34와 같이 초기화 될 수 있다.

[수학식 30]

[수학식 31]

[수학식 32]

[수학식 33]

[수학식 34]

과정은 도 7을 통해 더욱 자세히 설명한다.

단계(S701)에서 상태 체인부(102)는 상태 시퀀스를 계산한다. 즉, 상태 체인부(102)는 수학식 16 및 수학식 17을 수행할 수 있다.

단계(S702)에서 상태 체인부(102)는 관찰 비용을 계산한다. 이 경우, 상태 체인부(102)는 수학식 23을 통해 관찰 비용을 계산할 수 있다.

단계(S703)에서 상태 체인부(102)는 상태 관측 확률에 따른 상태가 노이즈 상태인지를 확인하여 노이즈 상태인 경우 단계(S704)를, 노이즈 상태가 아닌 경우 단계(S705)를 각각 수행한다.

단계(S704)에서 상태 체인부(102)는 콤플렉스-하모닉 'CH'과 스테디-하모닉 'SH'을 비교하여 콤플렉스-하모닉 'CH'가 스테디-하모닉 'SH'보다 큰 경우 'CN'을, 콤플렉스-하모닉 'CH'가 스테디-하모닉 'SH'보다 작거나 같은 경우 'SN'을 'id(b)'의 값으로서 출력할 수 있다.

단계(S705)에서 상태 체인부(102)는 상태 관측 확률에 따른 상태가 사일런스 상태인지를 확인하여 사일런스 상태가 아닌 경우 단계(S706)을, 사일런스 상태인 경우 단계(S707)을 각각 수행한다.

단계(S706)에서 상태 체인부(102)는 'id(b)'와 'id(b-1)'을 비교하여 'id(b)'와 'id(b-1)'의 값이 서로 다른 경우 단계(S708)을 수행하고, 'id(b)'와 'id(b-1)'의 값이 서로 동일한 경우 'SH' 또는 'CH'를 'id(b)'의 값으로서 출력할 수 있다.

단계(S708)에서 상태 체인부(102)는 'P_id ₍ _b _-1)(b)'값에 가중치 '

'를 부여한다. 즉, 상태 체인부(102)는 수학식 28을 수행할 수 있다. 이는 상술한 바와 같이 하모닉 상태간에 천이되는 경우를 엄격하게(hardly) 제어하기 위함이다.

단계(S707)에서 상태 체인부(102)는 상태 시퀀스를 초기화한다. 즉, 상태 체인부(102)는 수학식 30 내지 수학식 34를 수행함으로써, 상태 시퀀스를 초기화할 수 있다.

여기서 다시 도 1을 살펴보면, 상태 체인부(102)에서 출력된 상태 ID에 따라 LPC 기반 부화화부(103) 및 변환 기반 부호화부(104)를 선택적으로 구동시킬 수 있다. 즉, 상태 ID가 'SH' 또는 'SN' 다시 말해, 스테디-상태일 경우는 LPC 기반 부호화부(103)를 구동시키고, 상태 ID가 'CH' 또는 'CN' 다시 말해, 콤플렉스-상태일 경우는 변환 기반 부호화부(104)를 구동시켜 입력신호

를 부호화할 수 있다.

이상과 같이 본 명세서에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

입력신호의 특징을 분류하여 각 상태 관측 확률을 출력하는 신호 상태 관측부; 및

상기 상태 관측 확률에 기초하여 상기 입력신호의 프레임의 상태 식별자를 출력하는 상태 체인부

를 포함하고,

상기 상태 식별자에 따라 상기 입력신호의 프레임이 부호화될 부호화부가 결정되는, 오디오 신호의 상태결정 장치.
제1항에 있어서,

상기 신호 상태 관측부는,

상기 특징으로서 하모닉(harmonic) 관련 특징 및 에너지 관련 특징을 각각 추출하는 특징 추출부;

결정 트리(decision tree)를 이용하여 상기 하모닉 관련 특징 및 상기 에너지 관련 특징 중 적어도 하나의 상태 관측 확률을 결정하는 엔트로피(entropy) 기반 결정 트리부; 및

상기 추출된 특징 중 상기 에너지 관련 특징이 일정 문턱치 값(S-Thr)을 넘지 못할 경우, 상기 추출된 특징에 해당하는 프레임의 상태를 사일런스 상태(silence state)에 대한 상태 관측 확률로서 결정하는 사일런스 상태 결정부

를 포함하고,

상기 결정 트리는 터미널 노드에 각 상태 관측 확률이 정의되는, 오디오 신호의 상태결정 장치.
제2항에 있어서,

상기 특징 추출부는,

상기 입력신호를 콤플렉스 변환을 통해 주파수 영역으로 변환하는 T/F 변환부;

상기 변환된 입력신호와 상기 변환된 입력신호의 복소수에 대한 컬레 연산 결과간의 빈 연산결과를 역 이산 푸리에 변환에 적용하여 상기 하모닉 관련 특징을 추출하는 하모닉 분석부; 및

상기 변환된 입력신호를 서브밴드 단위로 분할하고 각 서브밴드별 에너지간의 비를 상기 에너지 관련 특징으로서 추출하는 에너지 추출부

를 포함하는, 오디오 신호의 상태결정 장치.
제3항에 있어서,

상기 하모닉 분석부는,

상기 역 이산 푸리에 변환이 적용된 함수에서 (1) 독립변수가 '0'인 경우의 종속변수의 절대값, (2) 피크(peak) 값의 절대값, (3) 최초 프레임부터 상기 피크(peak) 값에 해당하는 프레임까지의 수 및 (4) 제로 크로싱율(zero crossing rate) 중 적어도 하나를 상기 하모닉 관련 특징으로서 추출하는, 오디오 신호의 상태결정 장치.
제3항에 있어서,

상기 에너지 추출부는,

크리티컬 밴드위스(critical bandwidth) 및 ERB(Equivalent Rectangular Bandwidth) 중 적어도 하나에 기초하여 상기 변환된 입력신호를 상기 서브밴드 단위로 분할하는, 오디오 신호의 상태결정 장치.
제2항에 있어서,

상기 엔트로피 기반 결정 트리부는,

입력되는 특징에 대해 상기 결정 트리의 터미널 노드 중 해당하는 터미널 노드를 결정하고 각 터미널 노드에 해당하는 확률을 상기 상태 관측 확률로서 출력하는, 오디오 신호의 상태결정 장치.
제1항에 있어서,

상기 상태 관측 확률은 스테디-하모닉(Steady-Harmonic, SH) 상태(state) 관측 확률

, 스테디-노이즈(Steady-Noisy, SN) 상태 관측 확률, 콤플렉스-하모닉(Complex-Harmonic, CH) 상태 관측 확률, 콤플렉스-노이즈(Complex-Noise, CN) 상태 관측 확률 및 사일런스(Silence, Si) 상태 관측 확률 중 둘 이상을 포함하는, 오디오 신호의 상태결정 장치.
제1항에 있어서,

상기 상태 체인부는,

상기 상태 관측 확률로부터 상태 시퀀스 확률을 결정하고, 상기 상태 시퀀스 확률을 통해 현 프레임의 관측 비용을 계산하고, 상기 관측 비용에 기초하여 상기 입력신호의 프레임의 상태 식별자를 결정하는, 오디오 신호의 상태결정 장치.
제8항에 있어서,

상기 상태 체인부는,

스테디-하모닉 상태 및 콤플렉스-하모닉 상태의 관측 비용 중 최대값과 스테디-노이즈 상태의 관측 비용 및 콤플렉스-노이즈 상태의 관측 비용 중 최대값간의 비교를 통해 상기 입력신호의 현재 프레임이 노이즈 상태인지 하모닉 상태인지 결정하는, 오디오 신호의 상태결정 장치.
제9항에 있어서,

상기 상태 체인부는,

상기 노이즈 상태로 결정된 현재 프레임에 대해 상기 콤플렉스-하모닉 상태의 관측 비용 및 상기 콤플렉스-노이즈 상태의 관측 비용을 서로 비교하여 상기 현재 프레임의 상태 식별자를 상기 스테디-노이즈 상태 및 상기 콤플레스-노이즈 상태 중 하나로 결정하는, 오디오 신호의 상태결정 장치.
제9항에 있어서,

상기 상태 체인부는,

상기 하모닉 상태로 결정된 현재 프레임의 상태가 사일런스 상태인지 여부를 확인하여 상기 사일런스 상태인 경우, 상기 상태 시퀀스 확률을 초기화하는, 오디오 신호의 상태결정 장치.
제9항에 있어서,

상기 상태 체인부는,

상기 하모닉 상태로 결정된 현재 프레임의 상태가 사일런스 상태인지 여부를 확인하여 상기 사일런스 상태가 아닌 경우, 상기 현재 프레임의 상태 식별자를 스테디-하모닉 상태 및 콤플렉스 하모닉 상태 중 하나로 결정하는, 오디오 신호의 상태결정 장치.
제12항에 있어서,

상기 상태 체인부는,

상기 현재 프레임과 이전 프레임의 상태 식별자가 동일하지 않은 경우, 이전 프레임의 상태 식별자에 해당하는 상태 시퀀스 확률 중 하나에 가중치를 부여하는, 오디오 신호의 상태결정 장치.
제11항에 있어서,

상기 부호화부는 LPC 기반 부호화부 및 변환 기반 부호화부를 포함하고,

상기 상태 식별자가 스테디 상태(steady state)인 경우 상기 LPC 기반 부호화부로, 상기 상태 식별자가 콤플렉스 상태인 경우 상기 변환 기반 부호화부로 상기 입력신호의 프레임이 각각 입력되어 부호화되는, 오디오 신호의 상태결정 장치.
입력신호에서 하모닉(harmonic) 관련 특징 및 에너지 관련 특징을 각각 추출하는 특징 추출부;

결정 트리(decision tree)를 이용하여 상기 하모닉 관련 특징 및 상기 에너지 관련 특징 중 적어도 하나의 상태 관측 확률을 결정하는 엔트로피(entropy) 기반 결정 트리부; 및

상기 추출된 특징 중 상기 에너지 관련 특징이 일정 문턱치 값(S-Thr)을 넘지 못할 경우, 상기 추출된 특징에 해당하는 상기 입력신호의 프레임의 상태를 사일런스 상태(silence state)에 대한 상태 관측 확률로서 결정하는 사일런스 상태 결정부

를 포함하고,

상기 결정 트리는 터미널 노드에 각 상태 관측 확률이 정의되는, 오디오 신호의 상태결정 장치.
제15항에 있어서,

상기 특징 추출부는,

상기 입력신호를 콤플렉스 변환을 통해 주파수 영역으로 변환하는 T/F 변환부;

상기 변환된 입력신호와 상기 변환된 입력신호의 복소수에 대한 컬레 연산 결과간의 빈 연산결과를 역 이산 푸리에 변환에 적용하여 특징을 추출하는 하모닉 분석부; 및

상기 변환된 입력신호를 서브밴드 단위로 분할하고 각 서브밴드별 에너지간의 비를 특징으로서 추출하는 에너지 추출부

를 포함하는, 오디오 신호의 상태결정 장치.
제15항에 있어서,

상기 엔트로피 기반 결정 트리부는,

입력되는 특징에 대해 상기 결정 트리의 터미널 노드 중 해당하는 터미널 노드를 결정하고 각 터미널 노드에 해당하는 확률을 상기 상태 관측 확률로서 출력하는, 오디오 신호의 상태결정 장치.
제15항에 있어서,

상기 상태 관측 확률은 스테디-하모닉(Steady-Harmonic, SH) 상태(state) 관측 확률, 스테디-노이즈(Steady-Noisy, SN) 상태 관측 확률, 콤플렉스-하모닉(Complex-Harmonic, CH) 상태 관측 확률, 콤플렉스-노이즈(Complex-Noise, CN) 상태 관측 확률 및 사일런스(Silence, Si) 상태 관측 확률 중 둘 이상을 포함하는, 오디오 신호의 상태결정 장치.
제15항에 있어서,

상기 상태 관측 확률에 기초하여 상기 입력신호의 프레임의 상태 식별자를 출력하는 상태 체인부

를 더 포함하고,

상기 상태 식별자에 따라 상기 입력신호의 프레임이 부호화될 부호화부가 결정되는, 오디오 신호의 상태결정 장치.
제19항에 있어서,

상기 상태 체인부는,

상기 상태 관측 확률로부터 상태 시퀀스 확률을 결정하고, 상기 상태 시퀀스 확률을 통해 현 프레임의 관측 비용을 계산하고, 상기 관측 비용에 기초하여 상기 입력신호의 프레임의 상태 식별자를 결정하는, 오디오 신호의 상태결정 장치.