KR101660843B1

KR101660843B1 - Ｌｐｃ 계수 양자화를 위한 가중치 함수 결정 장치 및 방법

Info

Publication number: KR101660843B1
Application number: KR1020100049861A
Authority: KR
Inventors: 성호상; 오은미
Original assignee: 삼성전자주식회사
Priority date: 2010-05-27
Filing date: 2010-05-27
Publication date: 2016-09-29
Also published as: US20110295600A1; US20170358310A1; KR20110130290A; US9236059B2; US9747913B2; US20160111106A1; US10395665B2

Abstract

LPC 계수 양자화를 위한 가중치 함수 결정 장치 및 방법이 개시된다. 가중치 함수 결정 장치는 입력 신호의 LPC 계수를 ISF 계수 또는 LSF 계수 중 어느 하나로 변환하고, 변환된 ISF 계수 또는 LSF 계수를 이용하여 ISF 계수 또는 LSF 계수의 중요도와 관련된 가중치 함수를 결정할 수 있다.

Description

ＬＰＣ 계수 양자화를 위한 가중치 함수 결정 장치 및 방법{APPARATUS AND METHOD FOR DETERMINING WEIGHTING FUNCTION FOR LPC COEFFICIENTS QUANTIZATION}

본 발명은 LPC 계수를 양자화하기 위한 가중치 함수를 결정하는 장치 및 방법에 관한 것이다.

종래에, 음성 신호 및 오디오 신호를 부호화하기 위해 선형예측 부호화가 적용되었다. 선형 예측 부호화를 위해 CELP 부호화 기술이 사용되었는데, CELP 부호화 기술은 입력 신호에 대한 LPC 계수와 여기 신호를 필요로 한다. 입력 신호를 부호화할 때, LPC 계수는 양자화될 수 있다. 그러나, LPC 계수를 그 자체로 양자화하는 것은 다이내믹 레인지가 좁고 안정도 확인이 어려운 문제점이 있다.

또한, 복호화 단계에서 입력 신호를 복원하기 위한 코드북 인덱스를 선택해야 하는 데 모든 LPC 계수를 동일한 중요도로 하여 양자화하는 경우 최종 합성된 입력 신호의 품질의 열화가 발생할 수 있다. 즉, 모든 LPC 계수는 중요도가 다르므로, 중요한 LPC 계수의 에러가 작아야 최종 합성된 입력 신호의 품질이 향상될 수 있으나, 이러한 중요도가 다른 점을 고려하지 않고 동일한 중요도를 적용하여 양자화하면 입력 신호의 품질은 떨어질 수 밖에 없다.

따라서, LPC 계수를 효율적으로 양자화하고, 복호화기를 통해 입력 신호를 복원할 때 합성 신호의 품질을 향상시키는 방법이 요구된다.

본 발명의 일실시예에 따른 장치는 입력 신호의 선형 예측 부호화(Linear Prediction Coding: LPC) 계수를 선 스펙트럼 주파수(Line Spectral Frequency: LSF) 계수 또는 이미턴스 스펙트럼 주파수(Immitance Spectral Frequency: ISF) 계수 중 어느 하나로 변환하는 계수 변환부 및 상기 변환된 ISF 계수 또는 LSF 계수를 이용하여 상기 LPC 계수의 중요도와관련된 가중치 함수를 결정하는 가중치 함수 결정부를 포함할 수 있다.

본 발명의 일실시예에 따른 가중치 함수 결정부는 입력 신호의 스펙트럼 크기(magnitude)를 이용하여 상기 입력 신호의 스펙트럼 포락선(envelop)과 관련된 크기별 가중치 함수를 결정할 수 있다.

본 발명의 일실시예에 따른 가중치 함수 결정부는 상기 ISF 계수 또는 LSF 계수의 주파수 정보를 이용하여 주파수별 가중치 함수를 결정하고, 상기 크기별 가중치 함수에 상기 주파수별 가중치 함수를 조합할 수 있다.

본 발명의 일실시예에 따른 장치는 상기 결정된 가중치 함수를 이용하여 상기 변환된 ISF 계수 또는 LSF 계수를 양자화하고, 상기 양자화된 ISF 계수 또는 LSF 계수를 양자화된 LPC 계수로 변환하는 양자화부를 더 포함할 수 있다.

본 발명의 일실시예에 따른 방법은 입력 신호의 선형 예측 부호화 계수를 선 스펙트럼 주파수 계수 또는 이미턴스 스펙트럼 주파수 계수 중 어느 하나로 변환하는 단계 및 상기 변환된 ISF 계수 또는 LSF 계수를 이용하여 상기 LPC 계수의 중요도와관련된 가중치 함수를 결정하는 단계를 포함할 수 있다.

본 발명의 일실시예에 따른 가중치 함수를 결정하는 단계는 입력 신호의 스펙트럼 크기(magnitude)를 이용하여 상기 입력 신호의 스펙트럼 포락선(envelop)과 관련된 크기별 가중치 함수를 결정할 수 있다.

본 발명의 일실시예에 따른 가중치 함수를 결정하는 단계는 상기 ISF 계수 또는 LSF 계수의 주파수 정보를 이용하여 주파수별 가중치 함수를 결정하고, 상기 크기별 가중치 함수에 상기 주파수별 가중치 함수를 조합할 수 있다.

본 발명의 일실시예에 따른 방법은 상기 결정된 가중치 함수를 이용하여 상기 변환된 ISF 계수 또는 LSF 계수를 양자화하는 단계; 및 상기 양자화된 ISF 계수 또는 LSF 계수를 양자화된 LPC 계수로 변환하는 단계를 더 포함할 수 있다.

본 발명의 일실시예에 따르면, LPC 계수를 ISF 계수 또는 LSF 계수로 변환하여 양자화함으로써 LPC 계수의 양자화 효율을 향상시킬 수 있다.

본 발명의 일실시예에 따르면, LPC 계수의 중요도와 관련된 가중치 함수를 결정함으로써 LPC 계수의 중요도에 따른 합성 신호의 품질을 향상시킬 수 있다.

본 발명의 일실시예에 따르면, ISF 또는 LSF가 실제로 입력 신호의 스펙트럼 포락선에 영향을 미치는 것을 나타내는 크기별 가중치 함수뿐만 아니라, 주파수 도메인에서의 지각적인 특성과 포만트의 분포를 고려한 주파수별 가중치 함수를 조합함으로써, LPC 계수의 양자화 효율을 향상시킬 수 있고 LPC 계수에 대한 가중치 값이 정확하게 도출될 수 있다.

도 1은 본 발명의 일실시예에 따른 오디오 신호 부호화 장치의 전체 구성을 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 LPC 계수 양자화부의 세부 구성을 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 LPC 계수를 양자화하는 과정을 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 가중치 함수를 결정하는 과정을 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 부호화 모드, 입력 신호의 대역폭 정보를 이용하여 가중치 함수를 결정하는 과정을 도시한 도면이다.
도 6은 본 발명의 일실시예에 따라 LPC 계수를 변환한 ISF를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따라 부호화 모드에 따른 가중치 함수를 도시한 도면이다.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 일실시예에 따른 오디오 신호 부호화 장치의 전체 구성을 도시한 도면이다.

도 1을 참고하면, 본 발명의 일실시예에 따른 오디오 신호 부호화 장치(100)는 전처리부(101), 스펙트럼 분석부(102), LPC 계수 추출부(103), 부호화모드 선택부(104), LPC 계수 양자화부(105), 부호화부(106), 에러 복원부(107) 및 비트스트림 생성부(108)를 포함할 수 있다. 이 때, 오디오 신호 부호화 장치(100)는 스피치(speech) 신호에도 적용될 수 있다.

전처리부(101)는 입력 신호를 전처리(pre-prcoessing)할 수 있다. 이를 통해, 입력 신호는 부호화를 위한 준비가 완료된다. 구체적으로, 전처리부(101)는 하이패스 필터(high pass filtering), 프리엠퍼시스(pre-amphasis) 및 샘플링(sampling) 변환 과정을 통해 입력 신호를 전처리할 수 있다.

스펙트럼 분석부(102)는 시간-주파수 맵핑(Time-to-Frequency) 과정을 통해 입력 신호에 대한 주파수 도메인의 특성을 분석할 수 있다. 그리고, 스펙트럼 분석부(102)는 음성 활동도 탐색(Voice Activity Detection) 과정을 통해 입력 신호가 활성 신호(active signal)인지 또는 묵음인지 결정할 수 있다. 또한, 스펙트럼 분석부(102)는 입력 신호에서 배경 잡음을 제거할 수 있다.

LPC 계수 추출부(103)는 입력 신호의 선형 예측(Linear Prediction) 분석을 통해 선형 예측 부호화(LPC) 계수를 추출할 수 있다. 그리고, LPC 계수 추출부(103)는 오픈 루프(open-loop)을 통하여 입력 신호의 피치(pitch)를 분석할 수 있다. 이 때, 분석된 피치 정보는 적응적인 코드북(adaptive codebook) 탐색에 사용된다.

부호화모드 선택부(104)는 피치 정보, 주파수 도메인의 분석정보 등을 이용하여 입력 신호의 부호화 모드(coding mode)를 선택할 수 있다. 일례로, 입력 신호는 generic mode, voiced mode, unvoiced mode, 또는 transition mode로 분류된 부호화 모드에 따라 부호화 될 수 있다.

LPC 계수 양자화부(105)는 LPC 계수 추출부(103)에서 추출된 LPC 계수를 양자화할 수 있다. LPC 계수 양자화부(105)에 대해서는 도 2 내지 도 5를 통해 구체적으로 설명하기로 한다.

부호화부(106)는 선택된 부호화 모드에 따라 LPC 계수의 여기(excitation) 신호를 부호화 한다. LPC 계수의 Excitation 신호를 부호화하기 위한 대표적인 파라미터는 adaptive codebook index, adaptive codebook gain, fixed codebook index, fixed codebook gain 등이 있다. 이 때, 부호화부(106)는 LPC 계수의 여기 신호를 서브 프레임의 단위로 부호화할 수 있다.

에러 복원부(107)는 입력 신호의 프레임에서 에러가 발생했을 때, 프레임을 복원하거나 은닉하여 전체적인 음질 향상을 위한 부가 정보(side information)를 추출할 수 있다.

비트스트림 생성부(108)는 부호화된 신호를 비트스트림으로 생성할 수 있다. 이 때, 비트스트림은 저장이나 전송의 목적으로 사용될 수 있다.

도 2는 본 발명의 일실시예에 따른 LPC 계수 양자화부의 세부 구성을 도시한 도면이다.

도 2를 참고하면, LPC 계수 양자화부(105)는 계수 변환부(201), 가중치 함수 결정부(202) 및 양자화부(203)를 포함할 수 있다.

계수 변환부(201)는 입력 신호의 선형 예측 분석을 통해 추출된 선형 예측 부호화(LPC) 계수를 변환할 수 있다. 일례로, 계수 변환부(201)는 LPC 계수를 선 스펙트럼 주파수(Line Spectral Frequency: LSF) 계수 또는 이미턴스 스펙트럼 주파수(Immitance Spectral Frequency: ISF) 계수 중 어느 하나의 포맷으로 변환할 수 있다. 이 때, ISF 계수나 LSF 계수는 LPC 계수를 보다 용이하게 양자화할 수 있는 포맷을 나타낸다.

가중치 함수 결정부(202)는 변환된 ISF 계수 또는 LSF 계수를 이용하여 상기 LPC 계수의 중요도와 관련된 가중치 함수를 결정할 수 있다. 일례로, 가중치 함수 결정부(202)는 크기별 가중치 함수와 주파수별 가중치 함수를 결정할 수 있다. 그리고, 가중치 함수 결정부(202)는 주파수 대역, 부호화 모드 및 스펙트럼 분석 정보를 고려하여 가중치 함수를 결정할 수 있다.

일례로, 가중치 함수 결정부(202)는 부호화 모드 별로 최적의 가중치 함수를 도출할 수 있다. 그리고, 가중치 함수 결정부(202)는 입력 신호의 주파수 대역에 따라 최적의 가중치 함수를 도출할 수 있다. 또한, 가중치 함수 결정부(202)는 입력 신호의 주파수 분석 정보에 따라 최적의 가중치 함수를 도출할 수 있다. 이 때, 주파수 분석 정보는 스펙트럼 틸트 정보를 포함할 수 있다.

가중치 함수 결정부(202)의 동작은 도 4 및 도 5에서 보다 구체적으로 설명된다.

양자화부(203)는 결정된 가중치 함수를 이용하여 변환된 ISF 계수 또는 LSF 계수를 양자화할 수 있다. 그리고, 양자화부(203)는 양자화된 ISF 계수(QISF) 또는 양자화된 LSF 계수(QLSF)를 양자화된 LPC 계수(QLPC)로 변환할 수 있다. 양자화부(203)를 통해 도출된 양자화된 LPC 계수는 단순한 스펙트럼 정보를 나타내는 것이 아니라, 반영 계수(reflection coefficient)를 나타내므로 고정된 가중치 값이 사용될 수 있다.

이하에서는, LPC 계수와 가중치 함수와의 관계를 구체적으로 설명하기로 한다.

음성(speech) 및 오디오 신호를 시간 도메인에서 부호화할 때 사용가능한 기술 중 하나로 선형 예측 부호화(LPC)가 있다. 선형 예측 기술은 단구간 예측(short-term prediction)을 의미한다. 이 때, 선형 예측의 결과는 시간 도메인에서는 인접한 샘플 간의 상관도(correlation)로 나타내고, 주파수 도메인에서는 스펙트럼 포락선으로 나타낸다.

선형 예측 기술을 응용한 부호화 기술로 CELP(Code Excited linear Prediction) 기술이 있다. CELP 기술을 사용하는 음성 부호화 기술은 G.729, AMR, AMR-WB, EVRC 등이 있다. CELP 기술을 이용하여 음성 및 오디오 신호를 부호화하기 위해 LPC 계수와 여기 신호(Excitation Signal)이 필요하다.

LPC 계수는 인접한 샘플 간의 상관도를 나타내며 스펙트럼 피크로 표현된다. 만약, LPC 계수의 차수가 16차인 경우, 최대 16개의 샘플 간의 상관도가 도출된다. LPC 계수의 차수는 입력 신호의 대역폭에 따라 결정되며, 보통 음성 신호의 특성에 따라 결정된다. 이 때, 음성 신호의 주요한 발성은 포먼트(formant)의 크기 및 위치에 따라 결정된다. 입력 신호의 포먼트를 표현하기 위해 협대역(NarrowBand: NB)인 300~3400Hz 구간의 입력 신호에 대해서는 10차의 LPC 계수가 사용될 수 있다. 그리고, 광대역(WideBand: WB)인 50~7000Hz 구간의 입력 신호에 대해서는 16~20차의 LPC 계수가 사용될 수 있다.

도 6은 입력 신호를 FFT를 통해 주파수 도메인으로 변환했을 때의 스펙트럼 결과, 그리고 스펙트럼에서 도출된 LPC 계수 및 LPC 계수를 변환한 ISF를 도시하고 있다. 입력 신호에 FFT를 적용한 결과가 256개의 샘플인 경우, 16차 선형 예측을 수행하면 16개의 LPC 계수가 도출되고, 16개의 LPC 계수는 16개의 ISF 계수로 변환될 수 있다.

하기 수학식 1은 합성 필터(H(z))를 나타내는 것으로, a_j는 LPC 계수를 의미하고, p는 LPC 계수의 차수를 의미한다.

하기 수학식 2는 복호화기에서 합성된 합성 신호를 의미한다.

이 때,

는 합성 신호를 의미하고,

는 여기 신호를 의미한다. 그리고, N은 동일한 계수를 이용하는 부호화 프레임의 크기를 의미한다. 이 때, 여기 신호는 adaptive codebook과 fixed codebook의 합으로 결정될 수 있다. 복호화 장치에서는 복호화된 여기신호와 양자화된 LPC 계수를 이용하여 합성신호를 만든다.

LPC 계수는 스펙트럼 피크(spectrum peak)로 나타나는 스펙트럼의 포먼트 정보를 표현하여 전체 스펙트럼의 포락선(envelope)을 부호화하는 데 사용될 수 있다. 이 때, 부호화 장치는 LPC 계수의 양자화 효율을 높이기 위해 LPC 계수를 ISF 또는 LSF로 변환할 수 있다.

ISF는 간단한 안정도 확인을 통해 양자화에 의한 발산을 방지할 수 있다. 만약, 안정도에 문제가 발생하는 경우, 양자화된 ISF의 간격을 조절함으로써 안정도의 문제가 해결될 수 있다. 그리고, LSF는 ISF와 달리 마지막 계수가 반영 계수(reflection coeffiecient)인 점에서 차이가 있을 뿐 나머지 특성은 동일하다. 여기서, ISF 또는 LSF는 LPC 계수로부터 변환된 계수이므로, LPC 계수의 스펙트럼의 포만트 정보를 동일하게 유지하고 있다.

구체적으로, LPC 계수의 양자화는 LPC 계수를 다이내믹 레인지(dynamic range)가 좁으며, 안정도(stability) 확인이 쉽고 보간(interpolation)에 유리한 ISP나 LSP로 변환한 후 수행될 수 있다. immittance spectral pair (ISP)나 line spectral pair (LSP)는 ISF나 LSF로 표현될 수 있다. 하기 수학식 3은 ISF와 ISP와의 관계 또는 LSF와 LSP와의 관계를 의미한다.

여기서 q_i는 LSP 또는 ISP이며, ω_i는 LSF 또는 ISF를 의미한다. LSF는 양자화 효율을 위해 벡터 양자화될 수 있다. 효육을 향상하기 위해, LSF는 예측 벡터 양자화될 수 있다. 벡터 양자화를 수행하는 경우, dimension이 높아지면 비트 효율이 향상되나, 코드북 크기가 커져 처리 속도가 줄어들 수 있다. 이를 위해, 멀티 스테이지 벡터 양자화(multi-stage Vector Quantization)를 하거나 스플릿 벡터 양자화(split Vector Quantizaton)를 통해 코드북의 크기가 감소할 수 있다.

벡터 양자화는 벡터 내의 엔트리(entry)들 모두 동일한 중요도라고 간주하여 squared error distance measure를 이용하여 가장 적은 에러를 갖는 코드북 인덱스를 선택하는 과정을 의미한다. 그러나, LPC 계수에 있어, 모든 계수의 중요도가 다르므로 중요한 계수의 에러를 감소시켜 최종 합성된 신호의 지각적인 품질(perceptual quality)이 향상될 수 있다. 따라서, LSF 계수를 양자화 할 때 복호화 장치는 각 LPC 계수의 중요도를 표현하는 가중치 함수(weighting function)를 squared error distance measure에 적용하여 최적의 코드북 인덱스를 선택함으로써, 합성 신호의 성능을 향상시킬 수 있다.

본 발명의 일실시예에 따르면, ISF나 LSF의 주파수 정보와 실제 스펙트럼 크기를 이용하여 각 ISF 또는 LSF가 실제로 스펙트럼 포락선에 어떠한 영향을 주는지에 대한 크기별 가중치 함수를 결정할 수 있다. 그리고, 본 발명의 일실시예에 따르면, 주파수 도메인의 지각적인 특성 및 포만트의 분포를 고려한 주파수별 가중치 함수를 크기별 가중치 함수와 조합하여 추가적인 양자화 효율을 얻을 수 있다. 또한, 본 발명의 일실시예에 따르면, 실제 주파수 도메인의 크기를 사용하므로, 전체 주파수의 포락선 정보가 잘 반영되고, 각 ISF 또는 LSF 계수의 가중치 값을 정확하게 도출할 수 있다.

결국, 본 발명의 일실시예에 따르면, LPC 계수를 변환한 ISF 또는 LSF를 벡터 양자화할 때 각 계수의 중요도가 다른 경우 벡터 내에서 어떠한 엔트리가 상대적으로 더 중요한지 여부를 나타내는 가중치 함수를 결정할 수 있다. 그리고, 부호화하려는 프레임의 스펙트럼을 분석하여 에너지가 큰 부분에 더 많은 가중치를 줄 수 있는 가중치 함수를 결정함으로써 부호화의 정확도를 향상시킬 수있다. 스펙트럼의 에너지가 크다는 것은 시간 도메인에서 상관도가 높다는 것을 의미한다.

도 3은 본 발명의 일실시예에 따른 LPC 계수를 양자화하는 과정을 도시한 도면이다.

도 3을 참고하면, 2가지 형태의 LPC 계수를 양자화하는 과정이 도시된다. 도 3의 <A>는 입력 신호의 변동성이 큰 경우에 적용되고, 도 3의 <B>는 입력 신호의 변동성이 작은 경우에 적용될 수 있다. 입력 신호의 특성에 따라 도 3의 <A>와 <B>는 스위칭되어 적용될 수 있다.

LPC 계수 양자화부(301)는 SQ (Scalar Quantization), VQ(Vector Quantization), SVQ(Split-Vector Quantization), MSVQ(Multi-stage Vector Quantization)를 통해 ISF를 양자화할 수 있다. LSF도 동일하게 적용될 수 있다.

예측부(302)는 AR(Auto Regressive) 예측이나 MA(Moving Average) 예측을 수행할 수 있다. 이 때, 예측 차수는 1이상의 정수를 의미한다.

하기 수학식 4는 도 3의 <A>를 통해 양자화된 ISF를 통해 코드북 인덱스를 탐색하기 위한 에러 함수를 의미한다. 그리고, 하기 수학식 5는 도 3의 <B>를 통해 양자화된 ISF를 통해 코드북 인덱스를 탐색하기 위한 에러 함수를 의미한다. 코드북 인덱스는 에러 함수를 최소화하는 값을 의미한다.

여기서, w(n)는 가중치 함수를 의미하고, z(n)은 도 3에서 ISF(n)에서 mean 값을 제거한 벡터이다. c(n)은 코드북을 나타낸다. p는 ISF 계수의 차수를 의미하며 NB(NarrowBand)에서는 보통 10, WB(WideBand)에서는 보통 16~20을 사용한다.

본 발명의 일실시예에 따르면, 부호화 장치는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수에 해당하는 스펙트럼 크기(Spectrum magnitude)를 이용한 크기별 가중치 함수와 입력 신호의 지각적인 특성 및 포먼트 분포를 고려한 주파수별 가중치 함수를 조합하여 최적의 가중치 함수를 결정할 수 있다.

도 4는 본 발명의 일실시예에 따른 가중치 함수를 결정하는 과정을 도시한 도면이다.

도 4를 참고하면, 스펙트럼 분석부(102)의 세부 구성이 도시된다. 스펙트럼 분석부(102)는 윈도우 처리부(401), 주파수 맵핑부(402) 및 크기 계산부(403)를 포함할 수 있다.

윈도우 처리부(401)는 입력 신호에 윈도우를 적용할 수 있다. 윈도우는 rectangular window, hamming window, sine window 등이 사용될 수 있다.

주파수 맵핑부(402)는 시간 도메인의 입력 신호를 주파수 도메인의 입력 신호로 매핑시킬 수 있다. 일례로, 주파수 맵핑부(40)는 FFT(Fast Fourier Transform), MDCT(Modified Discrete Cosine Transform)를 통해 입력 신호를 주파수 변환할 수 있다.

크기 계산부(403)는 주파수 변환된 입력 신호에 대해 주파수 스펙트럼 빈의 크기(magnitude)를 계산할 수 있다. 주파수 스펙트럼 빈의 개수는 가중치 함수 결정부(202)가 ISF 또는 LSF를 정규화기 위한 개수와 동일하다.

스펙트럼 분석부(102)의 수행 결과로 스펙트럼 분석 정보가 가중치 함수 결정부(202)에 입력될 수 있다. 이 때, 스펙트럼 분석 정보는 스펙트럼 틸트를 포함할 수 있다.

이 후, 가중치 함수 결정부(202)는 LPC 계수가 변환된 ISF 또는 LSF를 정규화할 수 있다. 본 과정에서 ISF 계수의 마지막 계수는 반영 계수(reflection coefficient)이므로 동일한 weight가 적용될 수 있다. LSF는 이러한 방식이 적용되지 않는다. p차수의 ISF 중에서 실제로 본 과정이 적용되는 범위는 0~(p-2)까지 이다. 보통 0~(p-2)까지의 ISF는 0~π에 존재한다. 가중치 함수 결정부(202)는 스펙트럼 분석 정보를 이용하기 위해서 주파수 맵핑부(402)를 통해 도출된 주파수 스펙트럼 빈의 개수와 동일한 개수(K)로 정규화를 수행할 수 있다.

그런 후, 가중치 함수 결정부(202)는 스펙트럼 분석 정보를 이용하여 ISF 계수또는 LSF 계수가 스펙트럼 포락선에 영향을 미치는 크기별 가중치 함수(W₁(n))를 결정할 수 있다. 일례로, 가중치 함수 결정부(202)는 ISF 계수 또는 LSF 계수의 주파수 정보와 입력 신호의 실제 스펙트럼 크기를 이용하여 크기별 가중치 함수를 결정할 수 있다. 이 때, 크기별 가중치 함수는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수를 위해 결정될 수 있다.

그리고, 가중치 함수 결정부(202)는 ISF 계수 또는 LSF 계수의 주파수 각각에 대응하는 스펙트럼 빈의 크기를 이용하여 크기별 가중치 함수를 결정할 수 있다.

또는, 가중치 함수 결정부(202)는 ISF 계수 또는 LSF 계수의 주파수 각각에 대응하는 스펙트럼 빈 및 스펙트럼 빈의 주변에 위치한 적어도 하나의 주변 스펙트럼 빈의 크기를 이용하여 크기별 가중치 함수를 결정할 수 있다. 이 때, 가중치 함수 결정부(202)는 스펙트럼 빈 및 적어도 하나의 주변 스펙트럼 빈의 대표값을 추출하여 스펙트럼 포락선과 관련된 크기별 가중치 함수를 결정할 수 있다. 이 때, 대표값의 예는 ISF 계수 또는 LSF 계수의 주파수 각각에 대응하는 스펙트럼 빈 및 상기 스펙트럼 빈에 대한 적어도 하나의 주변 스펙트럼 빈들의 최대값, 평균값 또는 중간값일 수 있다.

일례로, 가중치 함수 결정부(202)는 ISF 계수 또는 LSF 계수의 주파수 정보를 이용하여 주파수별 가중치 함수(W₂(n))를 결정할 수 있다. 구체적으로, 가중치 함수 결정부(202)는 입력 신호의 지각적인 특성 및 포먼트 분포를 이용하여 주파수별 가중치 함수를 결정할 수 있다. 이 때, 가중치 함수 결정부(202)는 바크 스케일(bark scale)에 따라 입력 신호의 지각적인 특성을 추출할 수 있다. 그리고, 가중치 함수 결정부(202)는 포먼트의 분포 중 첫번째 포먼트에 기초하여 주파수별 가중치 함수를 결정할 수 있다.

일례로, 주파수별 가중치 함수의 경우, 초저주파 및 고주파에서 상대적으로 낮은 가중치를 나타내고, 저주파에서 일정 주파수 구간 내(first formant에 해당하는 구간)에서 동일한 크기의 가중치를 나타낼 수 있다.

그런 후, 가중치 함수 결정부(202)는 크기별 가중치 함수와 주파수별 가중치 함수를 조합하여 최종적인 가중치 함수를 결정할 수 있다. 이 때, 가중치 함수 결정부(202)는 크기별 가중치 함수와 주파수별 가중치 함수를 곱하거나 또는 더하여 최종적인 가중치 함수를 결정할 수 있다.

또 다른 일례로, 가중치 함수 결정부(202)는 입력 신호의 부호화 모드 및 주파수 대역 정보를 고려하여 크기별 가중치 함수와 주파수별 가중치 함수를 결정할 수 있다. 이에 대해서는 도 5에서 구체적으로 설명하기로 한다.

도 5는 본 발명의 일실시예에 따른 부호화 모드, 입력 신호의 대역폭 정보를 이용하여 가중치 함수를 결정하는 과정을 도시한 도면이다.

가중치 함수 결정부(202)는 입력 신호의 대역폭를 확인할 수 있다(S501). 그런 다음, 가중치 함수 결정부(202)는 입력 신호의 대역폭이 광대역(WideBand: WB)인지 여부를 판단할 수 있다(S502). 이 때, 입력 신호의 대역폭이 광대역이 아닌 경우, 가중치 함수를 결정하는 과정이 수행되지 않는다.

그리고, 입력 신호의 대역폭이 광대역인 경우, 가중치 함수 결정부(202)는 입력 신호의 부호화 모드를 확인할 수 있다(S503). 그런 다음, 가중치 함수 결정부(202)는 입력 신호의 부호화 모드가 무성음 모드(Unvoiced)인지 여부를 판단할 수 있다(S504). 입력 신호의 부호화 모드가 무성음 모드인 경우, 가중치 함수 결정부(202)는 무성음 모드에 대해 크기별 가중치 함수를 결정하고(S505), 무성음 모드에 대해 주파수별 가중치 함수를 결정하여(S506), 크기별 가중치 함수와 주파수별 가중치 함수를 조합할 수 있다(S507).

반대로, 입력 신호의 부호화 모드가 무성음 모드가 아닌 경우, 가중치 함수 결정부(202)는 유성음 모드에 대해 크기별 가중치 함수를 결정하고(S508), 유성음 모드에 대해 주파수별 가중치 함수를 결정하여(S509), 크기별 가중치 함수와 주파수별 가중치 함수를 조합할 수 있다(S510). 만약, 입력 신호의 부호화 모드가 Generic Mode 또는 Transition Mode인 경우, 가중치 함수 결정부(202)는 유성음 모드와 동일한 과정을 통해 가중치 함수를 결정할 수 있다.

일례로, 입력 신호를 FFT 방식에 따라 주파수 변환하였을 때, FFT 계수의 스펙트럼 크기를 이용한 크기별 가중치 함수는 수학식 6에 따라 결정될 수 있다.

부호화 모드에 따라 결정된 주파수별 가중치 함수는 도 7에 도시되어 있다. 그래프(701)는 유성음 모드에서의 주파수별 가중치 함수를 나타낸다. 그리고, 그래프(702)는 무성음 모드에서의 주파수별 가중치 함수를 나타낸다.

일례로, 그래프(701)는 하기 수학식 7에 따라 결정되고, 그래프(702)는 하기 수학식 8에 따라 결정될 수 있다. 수학식 7 및 수학식 8에서의 상수는 입력 신호의 특성에 따라 변경될 수 있다.

최종적으로 도출되는 가중치 함수는 하기 수학식 9에 따라 결정될 수 있다.

또한 본 발명의 일실시예에 따른 가중치 함수 결정 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 일실시예는 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

100: 오디오 신호 부호화 장치 101: 전처리부
102: 스펙트럼 분석부 103: LPC 계수 추출부
104: 부호화 모드 선택부 105: LPC 계수 양자화부
106: 부호화부 107: 에러 복원부
108: 비트스트림 생성부

Claims

삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
입력 신호의 선형 예측 부호화(Linear Prediction Coding: LPC) 계수로부터 선 스펙트럼 주파수(Line Spectral Frequency: LSF) 계수 또는 이미턴스 스펙트럼 주파수(Immitance Spectral Frequency: ISF)를 얻는 단계;
상기 ISF 계수 또는 LSF 계수의 주파수에 대응하는 현재 스펙트럼 빈(bin)의 크기(magnitude)에 근거하여 가중치 함수를 결정하는 단계; 및
상기 결정된 가중치 함수를 이용하여 상기 ISF 계수 또는 LSF 계수를 양자화하는 단계를 포함하고,
상기 가중치 함수를 결정하는 단계는 상기 현재 스펙트럼 빈의 크기 및 적어도 하나의 인접 스펙트럼 빈의 크기 중 최대값에 근거하는 방법.
제12항에 있어서,
상기 가중치 함수를 결정하는 단계는,
상기 입력 신호의 스펙트럼 포락선(envelop)에 기초하여 상기 가중치 함수를 결정하는 것을 특징으로 하는 방법.
삭제
삭제
제12항에 있어서,
상기 가중치 함수를 결정하는 단계는,
상기 ISF 계수 또는 LSF 계수와 관련된 주파수 정보에 근거하여 가중치 함수를 결정하는 단계; 및
상기 현재 스펙트럼 빈의 크기에 근거한 가중치 함수와 상기 주파수 정보에 근거한 가중치 함수를 조합하는 단계
를 포함하는 방법.
제16항에 있어서,
상기 주파수 정보에 근거하여 가중치 함수를 결정하는 단계는,
상기 입력 신호의 지각적인 모델에 근거하여 상기 가중치 함수를 결정하는 것을 특징으로 하는 방법.
제17항에 있어서,
상기 지각적인 모델은,
바크 스케일(bark scale)에 근거하여 얻어지는 것을 특징으로 하는 방법.
제16항에 있어서,
상기 주파수 정보에 근거하여 가중치 함수를 결정하는 단계는,
포먼트의 분포 중 첫번째 포먼트에 기초하여 상기 가중치 함수를 결정하는 것을 특징으로 하는 방법.
제16항에 있어서,
상기 주파수 정보에 근거하여 가중치 함수를 결정하는 단계는,
상기 입력 신호의 주파수 대역에 기초하여 상기 가중치 함수를 결정하는 것을 특징으로 하는 방법.
제16항에 있어서,
상기 주파수 정보에 근거하여 가중치 함수를 결정하는 단계는,
상기 입력 신호에 따른 부호화 모드에 기초하여 상기 가중치 함수를 결정하는 것을 특징으로 하는 방법.
삭제
제12항, 제13항, 제16항 내지 제21항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.