KR100757366B1 - Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법 - Google Patents

Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법 Download PDF

Info

Publication number
KR100757366B1
KR100757366B1 KR1020060075924A KR20060075924A KR100757366B1 KR 100757366 B1 KR100757366 B1 KR 100757366B1 KR 1020060075924 A KR1020060075924 A KR 1020060075924A KR 20060075924 A KR20060075924 A KR 20060075924A KR 100757366 B1 KR100757366 B1 KR 100757366B1
Authority
KR
South Korea
Prior art keywords
signal
encoder
speech
voiced
lpc
Prior art date
Application number
KR1020060075924A
Other languages
English (en)
Inventor
이인성
서상원
이창환
정규혁
신재현
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020060075924A priority Critical patent/KR100757366B1/ko
Application granted granted Critical
Publication of KR100757366B1 publication Critical patent/KR100757366B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

본 발명은 Zinc 함수를 이용한 음성 부호화기의 인코더/디코더 및 그의 표준파형 추출 방법에 관한 것으로, 특히 음성 부호화기의 인코더에 있어서, 입력 음성 신호의 음성 샘플에서 선형 예측 계수(LPC)를 분석하여 LPC 잔여 신호를 추출하기 위한 LPC 분석수단; 가중된 상기 LPC 잔여 신호를 유성음(펄스열)과 무성음(백색 불규칙 잡음)으로 분류하기 위한 유성음/무성음 분류수단; 상기 가중된 유성음의 LPC 잔여 신호를 목적신호로 하여 징크(Zinc) 함수를 이용하여 부호화하기 위한 유성음 부호화수단; 및 상기 가중된 무성음의 LPC 잔여 신호를 목적신호로 하여 켈프(CELP) 구조를 이용하여 부호화하기 위한 무성음 부호화수단을 포함한다.
음성 부호화기, Zinc 함수, CELP, 잔여 신호, 여기 신호, 표준파형

Description

Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형 추출 방법{Device for coding/decoding voice using Zinc function and method for extracting prototype of the same}
도 1 은 본 발명이 적용되는 Zinc 함수를 이용한 음성 부호화기의 일실시예 설명도,
도 2 는 본 발명에 따른 Zinc 함수와 CELP 모델을 이용한 음성 부호화기의 인코더의 상세 구성도,
도 3 은 본 발명에 따른 Zinc 함수와 CELP 모델을 이용한 음성 부호화기의 디코더의 상세 구성도,
도 4 는 본 발명에 따른 유성음 여기 신호에서 표준파형을 추출하는 방법에 대한 일실시예 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
11 : LPC 분석기 12 : 유성음/무성음 분류기
13 : Zinc 코더 14 : CELP 코더
15 : LPC 합성 필터
본 발명은 Zinc 함수를 이용한 음성 부호화기의 인코더/디코더 및 그의 표준파형 추출 방법에 관한 것으로, 보다 상세하게는 저 전송률 또는 초 저 전송률 부호화기에서, Zinc 함수와 CELP(Code Excitation Linear Prediction) 구조를 이용하여 음성을 부호화함으로써, 적은 전송률에서도 좋은 음질을 낼 수 있는 음성 부호화기의 인코더 및 그의 유성음 여기 신호에서 표준파형을 추출하는 방법과, 상기 부호화된 음성의 복호화를 위한 음성 부호화기의 디코더에 관한 것이다.
디지털 이동통신 시스템에서는 전송채널의 대역폭을 효율적으로 사용하고, 무선채널 환경에서 고음질의 통화를 위하여 다양한 음성코딩 알고리즘들을 사용하고 있다.
일반적으로, 켈프(CELP : Code Excited Linear Prediction) 알고리즘은 4 ~ 16Kbps의 낮은 전송율에서도 고음질을 유지하는 효과적인 코딩 방법 중의 하나이다.
따라서, CELP 구조를 이용한 QCELP(Qualcomm Code Excited Linear Prediction), CS-ACELP(Conjugate Structure Algebraic Code-Excited Linear Prediction), VSELP(Vector Sum Excited Linear Prediction) 등의 다양한 방법이 GSM, CDMA 등의 이동통신 시스템에서 사용되고 있다.
하지만, 저 전송률 및 초 저 전송률에서도 좋은 음질을 낼 수 있는 음성 부호화기의 개발을 위해 4Kbps 이하의 음성 부호화기에 대한 연구가 활발히 진행되었으나, CELP 단독 모델로는 고품질의 음질을 얻기 어렵게 된다. 이것은 음성 파라미터 표현의 제한에 따른 양자화 잡음 발생과 배경 잡음 포함시 음질 저하, 2가지 모드의 유/무성음 판별에 따른 다양한 형태의 음성 신호 표현의 어려움들이 나타나기 때문이다.
이러한 문제점을 해결하기 위한 많은 연구 결과로서, 저 전송률 음성 부호화기의 새로운 모델로 1997년 "Texas Instruments"에 의해 개발된 MELP(Mixed Excited Linear Prediction) 부호화기가 2.4kbps DoD(Department of Defense) 코더로 표준화되었다. 뿐만 아니라, STC(Sinusoidal Transform Coding), MBE(Multiband Excitation)와 같은 하모닉 코더와 표준 파형을 이용한 PWI(Prototype Waveform Interpolation)와 같은 후보군들도 계속된 개발로 매우 우수한 음질을 내고 있다.
"Kleijn"에 의해 제안된 파형 부호화 방식은 MELP 보코더를 비롯한 HVXC(Harmonic Vector eXcitaion Coding) 등의 여러 음성 부호화기의 여기 신호 합성을 위해 사용되고 있으며, 현재 많은 기관들이 이에 초점을 맞추어 거듭된 연구를 수행하고 있다. 이것은 입력 신호를 우선 LPC(Linear Prediction Coefficient) 분석 후 여기(잔여) 신호에 대해 피치 주기만큼의 특성 파형을 추출하여 분석/합성하는 구조를 가진다. 그리고, 파라미터의 추출은 DFT(Discrete Fourier Transform)를 이용하여 magnitude값을 얻으며, 랜덤 위상 발생 후 선형 위상을 이용한 IFFT를 취하는 합성 구조를 가진다. 그러나, 보다 개선된 음질을 얻기 위해 FFT에 의해 얻은 위상 성분을 양자화하여 전송하거나, 완전 복원(perfect reconstruction)을 위한 "SAMPLING"과 "WARPING"에 의한 방법 등이 제안되었지만, 향상된 음질에 비해 복잡도와 비트율이 증가하는 문제가 있다.
이에, 본 발명에서는 저 전송률 및 초 저 전송률 음성 부호화를 위해 유성음 구간에서 인지적 음질과 비트율에서 우수한 성능을 나타내는 Zinc 함수를 이용하여 부호화하고 무성음 구간은 CELP 구조를 이용한 음성 부호화기의 인코더를 제안하고자 한다. 또한, 부호화된 음성의 복호화를 위한 음성 부호화기의 디코더를 새롭게 제안하고자 한다.
또한, 종래의 Zinc 함수는 상관도만을 이용하여 표준파형을 추출하는데, 만약 과거의 표준파형이 잘못 선택되었을 경우가 발생하면 프레임이 증가함에 따라 음질의 저하가 가중되는 문제가 발생한다. 이에, 본 발명에서는 상관도와 분석-합성 구조를 결합하여 표준파형을 추출하는 방법을 제안하고자 한다.
본 발명은 상기 요구에 부응하기 위하여 제안된 것으로, 저 전송률 및 초 저 전송률 음성 부호화를 위해, 유성음 구간에서 인지적 음질과 비트율에서 우수한 성능을 나타내는 Zinc 함수를 이용하여 부호화하고 무성음 구간은 CELP 구조를 이용한 부호화 장치의 인코더를 제공하는데 그 목적이 있다.
또한, 본 발명은 상기 Zinc 함수를 이용한 유성음 부호화시에, 상관도와 분 석-합성 구조를 결합하여 유성음 여기 신호에서 표준파형을 추출하는 방법을 제공하는데 다른 목적이 있다.
또한, 본 발명은 상기 부호화된 음성의 복호화를 위한 음성 부호화기의 디코더를 제공하는데 또 다른 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해되어질 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명은, 음성 부호화기의 인코더에 있어서, 입력 음성 신호의 음성 샘플에서 선형 예측 계수(LPC)를 분석하여 LPC 잔여 신호를 추출하기 위한 LPC 분석수단; 가중된 상기 LPC 잔여 신호를 유성음(펄스열)과 무성음(백색 불규칙 잡음)으로 분류하기 위한 유성음/무성음 분류수단; 상기 가중된 유성음의 LPC 잔여 신호를 목적신호로 하여 징크(Zinc) 함수를 이용하여 부호화하기 위한 유성음 부호화수단; 및 상기 가중된 무성음의 LPC 잔여 신호를 목적신호로 하여 켈프(CELP) 구조를 이용하여 부호화하기 위한 무성음 부호화수단을 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있을 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것으로, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.
도 1 은 본 발명이 적용되는 Zinc 함수를 이용한 음성 부호화기의 일실시예 설명도이다,
먼저, 이해를 돕기 위하여 CELP형 음성 부호화기에 대해 살펴보기로 한다.
CELP형 음성 부호화기에서 인코딩 과정(인코더)은 LPC 분석, 피치 탐색, 고정 코드북 탐색의 과정으로 구성된다.
입력 음성 신호에 대해 LPC 분석을 통하여 성도 특성 매개변수를 추출하고 단구간 상관을 제거하면 잔여 신호가 남는다. 이때, 잔여 신호에는 주기 성분이 남아 있게 된다. 따라서, 잔여 신호에서 주기 성분을 피치 탐색을 통해 제거하면, 거의 백색 잡음과 같은 신호가 남게 된다. 이후, 고정 코드북 탐색에서 이 백색 잡음과 같은 가장 유사한 신호를 선택하여 디코더로 전송하게 된다.
이후, CELP형 음성 부호화기의 디코딩 과정(디코더)에서는 전송되어 온 고정 코드북 색인(index)과 이득에 의해서 여기 신호를 생성한 후, 피치 주기와 이득에 의한 주기 성분을 더하여 잔여 신호를 생성한다. 이 잔여 신호가 합성 필터를 통과하면 합성음이 생성된다.
이와는 달리, 본 발명에 따른 Zinc 함수를 이용한 음성 부호화기의 인코더는 4Khz의 대역폭을 갖는 음성 신호를 저 전송률 또는 초 저 전송률을 갖는 음성 데이터로 변환하는 것으로, 기본적으로 유성음(펄스열)과 무성음(백색 불규칙 잡음)에 따라 Zinc 함수 여기 부호화 과정과 CELP 모델 여기 부호화 과정을 선택적으로 사용하는 구조로 동작한다.
도 1에서는 이러한 구조를 갖는 음성 부호화기의 인코더 뿐만 아니라, 디코더의 전체적인 구조를 보여주고 있다.
입력 음성은 16비트 포맷의 초당 8,000개로 샘플링된 음성 샘플이다.
선형 예측 계수(LPC) 분석기(11)는 입력 샘플에서 선형 예측 계수(LPC)를 분석하여 선형 예측 계수(LPC)를 추출한다. 이때, 입력 음성 신호와 선형 예측 계수(LPC)를 통하여 잔여 신호를 추출하게 되는데, 이때의 잔여 신호는 유성음과 무성음을 판별하는 분류기(12)에 의해 각 대응 코더(Zinc 코더(13), CELP 코더(14))에 의해 부호화/복호화된다. 마지막으로, 복호화된 여기 신호는 LPC 합성 필터(15)를 통과한 후, 최종 복원된 음성 신호를 얻게 된다.
Zinc 함수를 이용한 음성 부호화기의 인코더/디코더 구조에 대해서는 하기의 도 2 및 도 3에서 보다 상세하게 설명하기로 한다.
먼저, 도 2를 참조하여, 본 발명에 따른 Zinc 함수와 CELP 모델을 이용한 음성 부호화기의 인코더에 대해 보다 상세하게 살펴보기로 한다.
입력 음성 샘플은 10차 LPC 파라미터가 매 프레임마다, 해밍 윈도우가 씌어진 입력 신호에 자기상관 방법을 사용하여 계산된다. 이렇게 분석된 LPC 파라미터는 효과적인 양자화를 수행하기 위해 LSP(Line Spectral Pairs) 파라미터로 변환된다. 즉, 선형 예측 계수(LPC) 분석기(11)가 입력 샘플에서 선형 예측 계수(LPC)를 분석하여 선형 예측 계수(LPC)를 추출한 후, 효과적인 양자화를 수행하기 위해 LSP(Line Spectral Pairs) 파라미터로 변환한다.
이후, LSP 파라미터는 벡터 양자화 기법을 이용해 양자화되어(양자화기(26)) 도 3의 디코더로 전송된다.
한편, 선형 예측 계수(LPC) 분석기(11)에서 추출된 LPC 파라미터는 인지 지각적 가중 필터(Perceptually Weighting Filter)(21)와 LPC 역필터(22)를 거쳐 잔여 신호를 추출하는 곳(유성음/무성음 분류기(12))에 쓰이게 된다.
이후, 유성음/무성음 분류기(12)에서는 유성음(Voiced)/무성음(Unvoiced)을 판별함에 있어서, 합성된 스펙트럼과 원본 스펙트럼의 유사성 및 신호 파워값, LPC 잔여 신호의 파워로 정규화된 최대 자기 상관값, 영 교차율(Zero Crossing Rate) 값을 사용한다.
이때, 정규화된 자기 상관값은 지연값이 커질수록 작은 값을 가지는데, 주기성이 클수록 각 피크치의 감소율이 낮은 특성을 나타낸다. 이러한 정규화된 자기상 관값의 첫 번째와 두 번째 피크의 비율이 유/무성음을 판별하는데 이용된다. 또한, 영 교차율은 입력 샘플이 제로 값을 얼마나 통과하는가를 나타내는데, 비주기적인 신호로 구성된 무성음에 대해서는 큰 값을, 주기신호에 대해서는 작은 값을 가지므로 모드 결정에 이용된다.
따라서, 유성음/무성음 분류기(12)에서는 이러한 파라미터들을 가지고 모드(유성음/무성음)를 결정한다.
만약, 유성음으로 결정되면 가중된 LPC 잔여 신호는 Zinc 구조의 부호화기(24)로 부호화되고, 무성음으로 결정되면 CELP 구조의 부호화기(25)로 부호화가 실시된다. 이때, Zinc 구조의 부호화기(24)와 CELP 구조의 부호화기(25)는 LPC 여기 신호의 모델을 하기의 [수학식 1] 및 [수학식 2]와 같이 달리한다.
Figure 112006057404842-pat00001
상기 [수학식 1]에서, eZinc(n)은 Zinc 함수 여기 신호, Ak, Bk는 Zinc 함수의 진폭 값을 나타내며, λk는 위치를 나타낸다.
Figure 112006057404842-pat00002
상기 [수학식 2]에서, eCELP(n)는 CELP 여기 신호, ccb(n)은 정규화된 코드북 여기 신호, G는 이득을 나타낸다.
이와 같이, 각각의 분류 모드에 따라, 유성음일 때는 Zinc 구조의 부호화기(24)가 가중된 LPC 잔여 신호를 목적신호로 하여 Zinc 함수를 이용하여 모델링한다.
이를 구체적으로 살펴보면, 우선 피치 주기 만큼의 표준파형을 선택하고 에러를 최소화하기 위해 LPC 분석 후 잔여 신호를 목적 신호 e(n)으로 하여
Figure 112006057404842-pat00003
과의 차를 최소화할 수 있도록 설정을 한다(241). 그러므로, 표준파형의 선택 역시 LPC 잔여 신호를 기준으로 선택한다. 이때, 파라미터의 추정 과정은 하기의 [수학식 3]과 같다.
Figure 112006057404842-pat00004
상기 [수학식 3]에서, P는 피치 주기를 나타낸다. 그리고, 상기 [수학식 3] 을 최소로 하는 Ak +1과 Bk + 1는 하기의 [수학식 4]에 정의된 변수를 이용해 하기의 [수학식 5]와 같이 나타낼 수 있다.
Figure 112006057404842-pat00005
Figure 112006057404842-pat00006
상기 [수학식 3]에서 표준파형의 위치를 나타내는 위치를 나타내는 λk는 복호화시 표준파형을 보간하여 준 후 중첩-합산을 통해 합성하기 때문에 생략하여도 음성의 합성에 영향을 미치지 않게 된다. 하지만, 상기 [수학식 1]을 만족하기 위해 λk 값은 1로 처리하게 된다.
이후, Zinc 함수는 별도의 위상성분이 없기 때문에 Ak +1과 Bk +1의 부호에 의해 과거 프레임과 현재 프레임의 위상 성분을 결정하게 된다. 이때, 과거 프레임에서 추출된 Ak +1과 Bk +1이 현재 프레임에서 반대로 될 경우, 여기 신호가 갑작스런 위상 반전을 나타내는데, 이러한 영향을 없애기 위해 과거 프레임과 현재 프레임의 LPC 잔여 신호에 대한 파워값의 비로서 과거 프레임의 Ak +1과 Bk + 1를 스케일링하여 위상을 제한해 준다(242).
그리고, 유성음 구간의 LPC 잔여 신호의 에러를 최소화하는 과정에서 추출된 Ak+1과 Bk +1의 값은 LPC 잔여 신호와 여기 신호 사이에서 가장 잘 일치되는 신호를 찾았을 뿐, 원본 신호에 대한 에너지를 고려하지 않았기 때문에, 합성된 신호는 원본 신호에 비해 감쇠가 일어난다. 따라서, LPC 잔여 신호와 Zinc 함수의 에너지가 같다라는 가정하에 하기의 [수학식 6]과 같이 스케일링 파라미터를 뽑아내도록 한다.
Figure 112006057404842-pat00007
상기 [수학식 6]에서, r(n)은 LPC 잔여 신호이다.
이렇게 해서 얻어진 스케일링 파라미터의 제곱근을 추출된 Ak +1과 Bk +1에 곱해 주고(243) 이 값을 양자화하여(양자화기(26)) 도 3의 디코더로 전송한다.
한편, 각각의 분류 모드에 따라, 무성음일 때는 CELP 구조의 부호화기(25)가 가중된 LPC 잔여 신호를 목적신호로 하여 CELP 구조를 이용하여 모델링한다.
이를 구체적으로 살펴보면, 우선 무성음 구간의 잡음과 같은 여기 신호를 부호화하기 위해 Stochastic 코드북을 사용한 분석/합성 방법이 사용되며, 하기의 [수학식 7]과 같은 왜곡측정치가 최소가 되는 이득을 찾아낸다(251,252).
Figure 112006057404842-pat00008
상기 [수학식 7]에서, ref(n)은 지각 가중치된 LPC 합성 필터를 사용한 입력신호의 ZSR(Zero State Response), syn(n)은 모양 벡터 코드북 값에 의한 여기 입력 신호로부터 유도된 ZSR이다. 또한, G는 크기 벡터 코드북에 의한 크기 값이며, N(=80)은 차원의 크기를 나타낸다.
코드북 검색은 모양 벡터를 찾아내기 위한 작업을 우선 수행하고, 그런 다음 크기 벡터를 찾아내기 위한 순서로 진행한다. 그리고, 코드북의 인덱스를 양자화하여(양자화기(26)) 도 3의 디코더로 전송한다.
이제, 도 3을 참조하여 본 발명에 따른 Zinc 함수와 CELP 모델을 이용한 음성 부호화기의 디코더에 대해 상세하게 살펴보기로 한다.
전송된 각각의 파라미터들은 역 양자화기(31)를 거친 후, LSP는 보간(Interpolation) 과정(32)을 거치게 된다.
그리고, 유성음의 여기 신호는 상기 [수학식 1]에 의해 합성되는데, 이때 표준파형과의 보간이 이루어진다(33). 이때, 유성음의 여기 신호는 피치 주기 만큼의 환형 버퍼(Circular buffer)를 이용하여 반복된 표준파형을 삽입하여 주게 되고 프레임의 경계에서 과거와 현재 프레임의 표준파형을 각각 보간하여 준 후 중첩-합산을 통해 합성이 된다(33,35).
반면, 무성음의 여기 신호는 상기 [수학식 2]에 의해 합성한다(34,35).
유성음과 무성음 각각의 모드에 따라, 하기의 [수학식 8]과 [수학식 9]에 의해 최종적인 합성 음성을 만들어낸다(35).
Figure 112006057404842-pat00009
Figure 112006057404842-pat00010
상기 [수학식 8] 및 [수학식 9]에서,
Figure 112006057404842-pat00011
는 유성음일 때 합성된 신호,
Figure 112006057404842-pat00012
는 무성음일 때 합성된 신호, *는 컨볼루션(convolution), h(n)은 LPC 합성 필터의 임펄스 응답을 나타낸다.
도 4 는 본 발명에 따른 유성음 여기 신호에서 표준파형을 추출하는 방법에 대한 일실시예 흐름도로서, Zinc 함수를 이용하여 신호를 부호화할 때 표준파형을 선택하는 과정을 나타낸 것이다.
먼저, 입력으로 목적신호인 지각 가중치된 LPC 잔여신호가 입력되면(401), 입력된 목적신호를 한 샘플씩 이동시키며(404) 피치 주기만큼의 표준파형들을 프레임의 크기에서 피치 주기를 뺀 개수만큼 추출한다(405,402). 이는 후보 표준파형의 길이가 잘리는 것을 방지하기 위함이다.
이후, 추출된 표준파형들은 과거 프레임의 표준파형과의 상관도를 구하여(403) 상관도가 큰 순서대로 정렬한다(406). 이후에, 정렬된 표준파형을 계산량 등을 고려하여 제한된 개수만큼(411,412) 큰 순서대로 선택한 후(407), 합성하여 목적 신호와의 에러를 하기의 [수학식 10]과 같이 계산한다(408).
Figure 112006057404842-pat00013
상기 [수학식 10]에서, s(n),
Figure 112006057404842-pat00014
는 각각 지각 가중치된 잔여신호와 이것을 목적신호로 Zinc 함수에 의해 합성된 신호를 나타내고, P는 프레임의 크기를 나타낸다. 여기에서 에러가 최소가 되는 표준파형을 최종적으로 선택한다(410).
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해되어야만 한다.
상기와 같은 본 발명의 Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형 추출 방법에 따르면, 유성음과 무성음을 구분하여 음성의 특징에 따라 여기 신호의 모델을 달리할 수 있게 되었다.
이에 따라, 음성 파라미터 표현 비트 제한에 따른 잡음 발생으로 인한 음질 저하를 해결할 수 있게 되었다는 장점이 있다.
특히, 유성음 구간에서 인지적 음질과 비트율에서 우수한 성능을 나타내는 Zinc 함수를 이용하여 여기 신호를 부호화 함으로써, 저 전송률 및 초저 전송률 부호화기에 적용 가능할 수 있게 되었다는 추가적인 장점이 있다.
또한, 기존의 표준파형 선택 방법과는 달리 상관도와 분석-합성 구조를 이용하여 표준파형을 선택함으로써 재생되는 음질의 품질을 향상시킬 수 있게 되었다는 등의 다양한 장점들도 있다.

Claims (9)

  1. 음성 부호화기의 인코더에 있어서,
    입력 음성 신호의 음성 샘플에서 선형 예측 계수(LPC)를 분석하여 LPC 잔여 신호를 추출하기 위한 LPC 분석수단;
    가중된 상기 LPC 잔여 신호를 유성음(펄스열)과 무성음(백색 불규칙 잡음)으로 분류하기 위한 유성음/무성음 분류수단;
    상기 가중된 유성음의 LPC 잔여 신호를 목적신호로 하여 징크(Zinc) 함수를 이용하여 부호화하기 위한 유성음 부호화수단; 및
    상기 가중된 무성음의 LPC 잔여 신호를 목적신호로 하여 켈프(CELP) 구조를 이용하여 부호화하기 위한 무성음 부호화수단을 포함하는 음성 부호화기의 인코더.
  2. 제 1 항에 있어서,
    상기 유성음/무성음 분류수단은,
    유성음/무성음을 판별함에 있어서, 합성된 스펙트럼과 원본 스펙트럼의 유사성 및 신호 파워값, LPC 잔여 신호의 파워로 정규화된 최대 자기 상관값, 영 교차율 값을 모드 결정에 이용하는 것을 특징으로 하는 음성 부호화기의 인코더.
  3. 제 1 항에 있어서,
    상기 Zinc 함수를 이용하여 신호를 부호화할 때, 표준파형을 선택함에 있어서,
    지각 가중치된(perceptually weighted) LPC 잔여 신호(목적신호)를 한 샘플씩 이동시켜 피치 주기 만큼의 표준파형들을 프레임의 크기에서 피치 주기를 뺀 개수 만큼 추출하여, 추출된 표준파형들에 대해 과거 프레임의 표준파형과의 상관도를 구하여 상관도가 큰 순서대로 정렬하고, 정렬된 표준파형을 계산량을 고려하여 제한된 개수만큼 큰 순서대로 선택한 후, 합성하여 목적신호와의 에러를 계산하되, 이때 에러가 최소가 되는 표준파형을 최종적으로 선택하는 것을 특징으로 하는 음성 부호화기의 인코더.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 유성음 부호화수단은,
    유성음일 때, 상기 가중된 LPC 잔여 신호를 목적신호로 하여 상기 Zinc 함수를 이용하여 하기의 [수학식 1]과 같이 모델링하는 것을 특징으로 하는 음성 부호화기의 인코더.
    [수학식 1]
    Figure 112006057404842-pat00015
    (여기서, eZinc(n)은 Zinc 함수 여기 신호, Ak, Bk는 Zinc 함수의 진폭 값, λk는 위치를 나타냄)
  5. 제 4 항에 있어서,
    상기 유성음 부호화수단에서는,
    여기 신호의 갑작스런 위상 반전을 없애기 위해서, 과거 프레임과 현재 프레임의 LPC 잔여 신호에 대한 파워값의 비로서 과거 프레임의 '유성음 구간의 LPC 잔여 신호와 여기 신호 사이에서 가장 잘 일치되는 신호(Ak +1, Bk +1)'를 스케일링하여 위상을 제한해 주는 것을 특징으로 하는 음성 부호화기의 인코더.
  6. 제 5 항에 있어서,
    상기 유성음 부호화수단에서는,
    상기 LPC 잔여 신호와 상기 Zinc 함수의 에너지가 같다는 전제하에, 하기의 [수학식 2]와 같이 스케일링 파라미터를 얻고, 이렇게 해서 얻어진 스케일링 파라 미터의 제곱근을 추출된 Ak +1과 Bk +1에 곱한 후 양자화하는 것을 특징으로 하는 음성 부호화기의 인코더.
    [수학식 2]
    Figure 112006057404842-pat00016
    (여기서, r(n)은 LPC 잔여 신호임)
  7. 제 1 항 내지 제 3 항 중 어느 한 항의 음성 부호화기의 인코더에 의해 부호화된 음성의 복호화를 위한 디코더에 있어서,
    유성음의 여기 신호는 하기의 [수학식 1]에 의해 합성하되, 표준파형과의 보간을 수행하며,
    무성음의 여기 신호는 하기의 [수학식 2]에 의해 합성하여, 합성 음성을 출력하는 것을 특징으로 하는 음성 부호화기의 디코더.
    [수학식 1]
    Figure 112006057404842-pat00017
    [수학식 2]
    Figure 112006057404842-pat00018
    (여기서,
    Figure 112006057404842-pat00019
    는 유성음일 때 합성된 신호,
    Figure 112006057404842-pat00020
    는 무성음일 때 합성된 신호, *는 컨볼루션(convolution), h(n)은 LPC 합성 필터의 임펄스 응답을 나타냄)
  8. 제 7 항에 있어서,
    상기 유성음의 여기 신호는,
    피치 주기 만큼의 환형 버퍼(Circular buffer)를 이용하여 반복된 표준파형을 삽입하여 주게 되고 프레임의 경계에서 과거와 현재 프레임의 표준파형을 각각 보간하여 준 후 중첩-합산을 통해 합성되는 것을 특징으로 하는 음성 부호화기의 디코더.
  9. 음성 부호화기에서 Zinc 함수를 이용하여 신호를 부호화할 때, 표준파형을 선택하는 방법에 있어서,
    지각 가중치된(perceptually weighted) LPC 잔여 신호(목적신호)를 한 샘플씩 이동시켜 피치 주기 만큼의 표준파형들을 프레임의 크기에서 피치 주기를 뺀 개수 만큼 추출하는 단계;
    상기 추출된 표준파형들에 대해 과거 프레임의 표준파형과의 상관도를 구하여 상관도가 큰 순서대로 정렬하는 단계;
    상기 정렬된 표준파형을 계산량을 고려하여 제한된 개수만큼 큰 순서대로 선택한 후, 합성하여 목적신호와의 에러를 계산하되, 이때 에러가 최소가 되는 표준파형을 최종적으로 선택하는 단계를 포함하는 표준파형 추출 방법.
KR1020060075924A 2006-08-11 2006-08-11 Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법 KR100757366B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060075924A KR100757366B1 (ko) 2006-08-11 2006-08-11 Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060075924A KR100757366B1 (ko) 2006-08-11 2006-08-11 Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법

Publications (1)

Publication Number Publication Date
KR100757366B1 true KR100757366B1 (ko) 2007-09-11

Family

ID=38737273

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060075924A KR100757366B1 (ko) 2006-08-11 2006-08-11 Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법

Country Status (1)

Country Link
KR (1) KR100757366B1 (ko)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970072718A (ko) * 1996-04-15 1997-11-07 이데이 노브유끼 유성음/무성음을 판정하기 위한 방법과 장치 그리고 음성을 부호화하기 위한 방법
KR19980024631A (ko) * 1996-09-18 1998-07-06 이데이 노브유끼 음성 복호화 방법 및 장치
JPH10225687A (ja) * 1997-02-14 1998-08-25 Kubota Corp 汚水処理装置の運転方法
KR19990002399A (ko) * 1997-06-20 1999-01-15 윤종용 다중 밴드 여기 음성 부호화기에서 매개변수 추정 장치 및 방법
KR20010082838A (ko) * 2000-02-21 2001-08-31 함상천 디지털 음성 압축 및 복원방법과 이를 이용한 음성 압축및 복원장치
KR20020022257A (ko) * 2000-09-19 2002-03-27 오길록 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법
KR20020039555A (ko) * 2000-11-22 2002-05-27 구자홍 음성부호화기의 유/무성음정보 추정방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970072718A (ko) * 1996-04-15 1997-11-07 이데이 노브유끼 유성음/무성음을 판정하기 위한 방법과 장치 그리고 음성을 부호화하기 위한 방법
KR19980024631A (ko) * 1996-09-18 1998-07-06 이데이 노브유끼 음성 복호화 방법 및 장치
JPH10225687A (ja) * 1997-02-14 1998-08-25 Kubota Corp 汚水処理装置の運転方法
KR19990002399A (ko) * 1997-06-20 1999-01-15 윤종용 다중 밴드 여기 음성 부호화기에서 매개변수 추정 장치 및 방법
KR20010082838A (ko) * 2000-02-21 2001-08-31 함상천 디지털 음성 압축 및 복원방법과 이를 이용한 음성 압축및 복원장치
KR20020022257A (ko) * 2000-09-19 2002-03-27 오길록 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법
KR20020039555A (ko) * 2000-11-22 2002-05-27 구자홍 음성부호화기의 유/무성음정보 추정방법

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
10-1998-24631
10-2002-22257
10-2002-39555
10-225687
Zinc 함수 여기신호를 이용한 분석-합성 구조의 초 저속 음성 부호화기, 한국음향학회지, 2006, 25(6), pp.282-290
특1997-0072718
특1999-002399
특2001-0082838

Similar Documents

Publication Publication Date Title
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
EP1719120B1 (en) Coding model selection
EP1141947B1 (en) Variable rate speech coding
EP1279167B1 (en) Method and apparatus for predictively quantizing voiced speech
EP1982329B1 (en) Adaptive time and/or frequency-based encoding mode determination apparatus and method of determining encoding mode of the apparatus
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
US20030074192A1 (en) Phase excited linear prediction encoder
WO2000038177A1 (en) Periodic speech coding
JP2002023800A (ja) マルチモード音声符号化装置及び復号化装置
EP1617416B1 (en) Method and apparatus for subsampling phase spectrum information
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
KR20040045586A (ko) 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의상호부호화 장치 및 그 방법
KR100757366B1 (ko) Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
JP3984048B2 (ja) 音声/音響信号の符号化方法及び電子装置
Drygajilo Speech Coding Techniques and Standards
Lukasiak Techniques for low-rate scalable compression of speech signals
JPH02160300A (ja) 音声符号化方式
Nishiguchi Harmonic vector excitation coding of speech
Yeldner et al. A mixed harmonic excitation linear predictive speech coding for low bit rate applications
Wang et al. Perceptual shape VQ of spectral envelope for efficient representation of LPC residual

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120903

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130902

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee