KR20020006164A - 음성 신호 부호화시 격자방법을 이용한 고정소수점선형예측부호화 계수 추출 방법 - Google Patents

음성 신호 부호화시 격자방법을 이용한 고정소수점선형예측부호화 계수 추출 방법 Download PDF

Info

Publication number
KR20020006164A
KR20020006164A KR1020000039654A KR20000039654A KR20020006164A KR 20020006164 A KR20020006164 A KR 20020006164A KR 1020000039654 A KR1020000039654 A KR 1020000039654A KR 20000039654 A KR20000039654 A KR 20000039654A KR 20020006164 A KR20020006164 A KR 20020006164A
Authority
KR
South Korea
Prior art keywords
error signal
prediction error
coefficient
coefficients
lpc
Prior art date
Application number
KR1020000039654A
Other languages
English (en)
Inventor
이성주
Original Assignee
송문섭
주식회사 현대큐리텔
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 송문섭, 주식회사 현대큐리텔 filed Critical 송문섭
Priority to KR1020000039654A priority Critical patent/KR20020006164A/ko
Publication of KR20020006164A publication Critical patent/KR20020006164A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음성 신호 부호화시 격자방법(Lattice Method; LM)을 이용한 고정소수점 선형예측부호화(LPC) 계수 추출 방법을 제공하기 위한 것으로, 이러한 본 발명은 고정 소수점 보코더에서 음성 신호 부호화시 격자방법(Lattice Method; LM)을 이용하여 PARCOR 계수를 계산하고, 이 PARCOR 계수를 이용하여 LPC(Linear Prediction Coding; 선형 예측 부호화) 계수를 추출하게 되는데, 격자 방법을 이용하게 되면 PARCOR 계수 계산시 PARCOR 계수의 절대값이 1보다 커질 수 없어 안정성이 보장되며, 고정 소수점 구현시 반복 연산에 따른 에러 누적에 의한 연산 오류를막아, overflow를 방지하게 된다.

Description

음성 신호 부호화시 격자방법을 이용한 고정소수점 선형예측부호화 계수 추출 방법{Method for extracting linear predictive coding coefficients through lattice method in vocal track encoding}
본 발명은 음성 신호를 부호화하는 고정 소수점 보코더에 관한 것으로, 특히 고정 소수점 보코더에서 음성 신호 부호화시 격자방법(Lattice Method; LM)을 이용하여 LPC(Linear Prediction Coding; 선형 예측 부호화) 계수를 추출함으로써, 고정 소수점 구현시 반복 연산에 따른 에러 누적에 의한 연산 오류를 막아, overflow를 방지하도록 한 음성 신호 부호화시 격자방법(Lattice Method; LM)을 이용한 고정소수점 선형예측부호화(LPC) 계수 추출 방법에 관한 것이다.
부동 소수점 수(floating point number)는 부동 소수점 표시에 의해 표현된 수를 가리키며, 부동 소수점 표시(floating point representation)는 수의 표시법의 일종이며, 소수점의 위치를 일정하게 하지 않고 별도로 소수점의 위치를 지시하는 수를 병기하는 표시방식이다.
예를 들면, "-638020000"을 "-6.3802 x 108" 또는 "-8.3802, 8"와 같이 표시한다. 여기에서 "-6.3802 x 108" 중 "-6.3802"를 가수라고 하고, "108"의 8에 상당하는 것을 지수라고 하며, 각각에 정부(+,-)를 구별하는 부호가 붙는다(정부호(+)는 생략가능). "10"은 이 경우 기수라 한다.
고정 소수점 수(fixed point number)는 고정 소수점 표시에 의해 표현된 수이고, 고정 소수점 표시(fixed point representation)는 상기 부동 소수점 표시에 대립하는 표시법으로써, 수치의 자릿수를 정하는 기수법에서 수를 표시할 경우, 소수점을 왼쪽 끝(또는 오른쪽 끝)에서 세어서 일정한 위치의 자리의 오른쪽에 두는 표시방식이다. 보통 소수점을 가상적으로 연산 데이터의 가장 오른 쪽 끝에 두고 수치를 모두 정수로서 취급하는 경우가 많다.
일반적으로 음성 신호의 부호화 방법들 중에서 현재 가장 널리 사용되는 CELP 계열의 vocoder(voice coder and decoder)들은 인간의 발성 기관을 성도(vocal track)와 여기 신호(excitation signal)로 구분하고 이를 각각 모델링(modeling)하는 방법을 사용하여 음성 신호를 압축한다. 이 때 성도는 주로 linear predictive coding(LPC) 계수를 이용하여 모델링된다.
그리고 LPC 계수를 이용한 성도의 모델링 방법들 중에서는 적은 계산량으로우수한 성능을 나타내는 Durbin's algorithm이 가장 널리 사용되고 있다. 이 Durbin's algorithm은 자기상관함수(autocorrelation)를 이용하고 반복 연산을 통해서 LPC 계수를 추출하는 방법이다. 반복 연산을 위한 [수학식 1] 내지 [수학식 5]는 다음과 같다.
E(0)= R(0)
αi(i)= ki
αj (i)= αj (i-1)- kiαi-j (i-1), 1≤j ≤i-1
E(i)= ( 1-k2 i)E(i-1)
[수학식 2] 내지 [수학식 5]를 반복해서 수행한다.
LPC 계수 aj는 [수학식 6]과 같다.
aj= α(P) j, 1 ≤j ≤P
여기서 R(n)은 자기 상관 함수(autocorrelation)를 나타내며, ki는 partial correlation coefficients(PARCOR) 계수이다. [수학식 1]은 초기화 과정을 나타내며, [수학식 2] 내지 [수학식 5] 과정은 반복 연산 과정으로 구하고자 하는 LPC 계수의 차수인 P만큼 반복된다.
상기와 같은 Durbin's algorithm을 pseudo code로 표현하면 다음과 같다.
{
E(0)= R(0)
i = 1
while(i <= P)
{
αi(i)= ki
j = 1
while( j <= i-1 )
{
αj (i)= αj (i-1)- kiαi-j (i-1)
j = j + 1
}
E(i)= ( 1-k2 i)E(i-1)
i = i + 1
}
}
여기서 LPC 계수는 [수학식 6]과 같다.
이러한 Durbin 알고리즘의 LPC 계수 추출 과정을 자세히 살펴보면, [수학식 2]의 과정에서 구한 PARCOR 계수, ki값을 이용하여 [수학식 5]과정에서 E(i)의 값을 구하게 되며, 이렇게 구해진 E(i)의 값은 다음 단계(stage)의 [수학식 2]의 과정에서 PARCOR 계수, ki값을 구하는데 반복적으로 사용된다.
이러한 반복 연산 과정을 고정 소수점을 이용하여 구현하면 PARCOR 계수의 고정 소수점 연산 에러가 반복 연산을 통해 계속 누적되는 과정을 거치게 되며 이러한 누적된 연산 에러는 때로는 overflow의 원인이 되기도 한다.
즉, 일반적으로 PARCOR 계수는 절대값이 1보다 큰 값을 가지지 않지만 고정소수점으로 구현될 경우 반복 연산에 따른 누적 에러에 의해 1보다 큰 값으로 잘못 구해질 수 있게 된다. 그래서 고정 소수점 LPC 계수 추출시 overflow가 발생되는 문제가 있었다.
이에 본 발명은 상기와 같은 종래의 제반 문제점을 해소하기 위해 제안된 것으로, 본 발명의 목적은
고정 소수점 보코더에서 음성 신호 부호화시 격자방법(Lattice Method; LM)을 이용하여 LPC(Linear Prediction Coding; 선형 예측 부호화) 계수를 추출함으로써, 고정 소수점 구현시 반복 연산에 따른 에러 누적에 의한 연산 오류를 막아, overflow를 방지하도록 한 음성 신호 부호화시 격자방법(Lattice Method; LM)을 이용한 고정소수점 선형예측부호화(LPC) 계수 추출 방법을 제공하는 데 있다.
상기와 같은 목적을 달성하기 위하여 본 발명에 의한 음성 신호 부호화시 Lattice Method(LM)을 이용한 고정소수점 LPC 계수 추출 방법은,
원래의 음성 신호를 이용하여 prediction error signal e(0)(m)과 backward prediction error signal b(0)(m)을 초기화하는 단계와;
상기 prediction error signal e(0)(m)과 backward prediction error signal b(0)(m)을 이용하여 PARCOR 계수(Partial correlation Coefficients) k1을 구하는 단계와;
상기 PARCOR 계수 k1을 이용하여 prediction error signal e(1)(m)과 backward prediction error signal b(1)(m)을 추정하는 단계와;
prediction error signal과 backward prediction error signal을 이용하여 PARCOR 계수를 추정하고 추정된 상기 PARCOR 계수를 이용하여 prediction error signal과 backward prediction error signal을 추정하는 기능을 2번째부터 P(LPC 계수의 차수)번째까지 반복 수행하여 LPC(Linear Predictive Coding) 계수를 추출하는 단계로 이루어짐을 그 방법적 구성상의 특징으로 한다.
도1은 본 발명에 의한 음성 신호 부호화시 Lattice Method(LM)를 이용한 고정 소수점 LPC 계수 추출 방법을 보인 흐름도.
이하, 상기와 같은 본 발명에 의한 음성 신호 부호화시 LM을 이용한 고정소수점 선형예측부호화(LPC) 계수 추출 방법을 첨부된 도면에 의거 상세히 설명하면 다음과 같다.
본 발명에서는 Lattice Method(LM)를 이용하여 LPC 계수 추출 과정을 고정 소수점으로 구현한다. Lattice Method(LM)는 LPC 계수 추출 방법의 하나로, Durbin 알고리즘에 비해 계산량이 많은 단점을 가지고 있으나 LPC 계수 추출시 안정성(stability)을 보장해 주기 때문에 특히 고정 소수점 구현시 overflow의 문제를 해결하는 장점을 가지고 있다.
도1은 본 발명에 의한 음성 신호 부호화시 LM을 이용한 고정소수점 LPC 계수추출 방법을 보인 흐름도이다.
도시된 바와 같이, 원래의 음성 신호를 이용하여 prediction error signal e(0)(m)과 backward prediction error signal b(0)(m)을 초기화하는 단계(ST11)와; 상기 prediction error signal e(0)(m)과 backward prediction error signal b(0)(m)을 이용하여 PARCOR 계수(Partial correlation Coefficients) k1을 구하는 단계(ST12)와; 상기 PARCOR 계수 k1을 이용하여 prediction error signal e(1)(m)과 backward prediction error signal b(1)(m)을 추정하는 단계(ST13)와; prediction error signal과 backward prediction error signal을 이용하여 PARCOR 계수를 추정하고 추정된 상기 PARCOR 계수를 이용하여 prediction error signal과 backward prediction error signal을 추정하는 기능을 2번째부터 P번째까지 반복 수행하여 LPC(Linear Predictive Coding) 계수를 추출하는 단계(ST14,ST15)를 수행한다.
상기와 같은 본 발명에 의한 음성 신호 부호화시 LM을 이용한 고정소수점 LPC 계수 추출 방법을 설명하면 다음과 같다.
먼저, 원래의 음성 신호 s(m)을 이용하여 [수학식 7]과 같은 방법으로 prediction error signal e(0)(m)과 backward prediction error signal b(0)(m)을 초기화한다(ST11).
e(0)(m) = b(0)(m) = s(m)
그런 다음, prediction error signal e(0)(m)과 backward prediction error signal b(0)(m)을 이용하여 [수학식 8]과 같은 방법으로 PARCOR 계수(Partial correlation Coefficients) k1을 구한다(ST12). 여기서 α1 (1)= k1이다.
이렇게 PARCOR 계수 k1이 구해지면 이 k1을 [수학식 9]와 [수학식 10]을 이용하여 prediction error signal e(1)(m)과 backward prediction error signal b(1)(m)을 추정한다. 이때의 i값은 각각 1이다(ST13).
e(i)(m) = e(i-1)(m) - kib(i-1)(m-1)
b(i)(m) = b(i-1)(m-1) - kie(i-1)(m)
그런 다음, prediction error signal과 backward prediction error signal을 이용하여 PARCOR 계수를 추정하고 추정된 상기 PARCOR 계수를 이용하여 predictionerror signal과 backward prediction error signal을 추정하는 기능을 i값이 2부터 P까지 반복 수행한다(ST14).
ST14의 과정을 좀더 상세히 설명한다.
즉, i값을 2로 셋팅한다(ST13에서는 i값이 1이다).
그리고 αi (i)= ki이며, ki를 [수학식 8]을 이용하여 구한다.
그런 후, 구해진 ki를 [수학식 11]과 같이 이용하여 αj (i)를 구한다. 이 때 j는 1,2,3,..., i-1 이다.
αj (i)= αj (i-1)- kiαi-j (i-1), 1 ≤j ≤i-1
그런 다음 ki를 이용하여 [수학식 9]와 [수학식 10]을 같이 prediction error signal e(i)(m)과 backward prediction error signal b(i)(m)을 추정한다. 이렇게 PARCOR 계수를 추정하고, 추정된 PARCOR 계수를 이용하여 에러 시그널(e(i)(m), b(i)(m))을 추정하는 기능을 i값이 2일 때부터 P일 때까지 반복한다. 이 반복하는 과정에서 구해진 αj (i)의 값이 마지막 stage(i값이 P일때)에서 LPC 계수를 추정하는 데 이용된다.
여기서 s(m)은 원래의 음성 신호를 나타내고, e(i)(m)은 i번째 stage의 prediction error signal을 나타내며, b(i)(m)은 i번째 stage의 backward prediction error signal을 나타내고, ki는 i번째 stage의 PARCOR 계수를 나타낸다.
이렇게 반복연산과정을 수행한 후 [수학식 6]과 같이 LPC(Linear Predictive Coding) 계수를 추출하게 된다(ST15). [수학식 6]에서 aj는 j번째 LPC 계수를 나타내며 차수는 P이다.
이와 같이 Lattice Method(LM)를 이용하여 LPC 계수를 추출할 경우, [수학식 8]에서 보여지는 바와 같이, PARCOR 계수(ki)의 절대값이 1보다 커질 수 없다. 그렇기 때문에 안정성(stability)이 보장되며 고정 소수점 구현 시 반복 연산에 따른 에러 누적에 의한 연산 오류를 막아 overflow를 방지할 수 있게 되는 것이다.
이상에서 살펴본 바와 같이, 본 발명 음성 신호 부호화시 LM을 이용한 고정소수점 LPC 계수 추출 방법은, 고정 소수점 보코더에서 음성 신호 부호화시 격자방법(Lattice Method; LM)을 이용하여 LPC(Linear Prediction Coding; 선형 예측 부호화) 계수를 추출함으로써, 고정 소수점 구현시 반복 연산에 따른 에러 누적에 의한 연산 오류를 막아, overflow를 방지하게 되는 효과가 있다.

Claims (1)

  1. 음성 부호화시 고정 소수점 보코더에서 Linear Prediction Coding(LPC) 계수를 추출하는 방법에 있어서,
    원래의 음성 신호를 이용하여 prediction error signal e(0)(m)과 backward prediction error signal b(0)(m)을 초기화하는 단계와;
    상기 prediction error signal e(0)(m)과 backward prediction error signal b(0)(m)을 이용하여 PARCOR 계수(Partial correlation Coefficients) k1을 구하는 단계와;
    상기 PARCOR 계수 k1을 이용하여 prediction error signal e(1)(m)과 backward prediction error signal b(1)(m)을 추정하는 단계와;
    prediction error signal과 backward prediction error signal을 이용하여 PARCOR 계수를 추정하고 추정된 상기 PARCOR 계수를 이용하여 prediction error signal과 backward prediction error signal을 추정하는 기능을 2번째부터 P(LPC 계수의 차수)번째까지 반복 수행하여 LPC(Linear Predictive Coding) 계수를 추출하는 단계를 수행함을 특징으로 하는 음성 신호 부호화시 격자방법(Lattice Method; LM)을 이용한 고정소수점 선형예측부호화(LPC) 계수 추출 방법.
KR1020000039654A 2000-07-11 2000-07-11 음성 신호 부호화시 격자방법을 이용한 고정소수점선형예측부호화 계수 추출 방법 KR20020006164A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000039654A KR20020006164A (ko) 2000-07-11 2000-07-11 음성 신호 부호화시 격자방법을 이용한 고정소수점선형예측부호화 계수 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000039654A KR20020006164A (ko) 2000-07-11 2000-07-11 음성 신호 부호화시 격자방법을 이용한 고정소수점선형예측부호화 계수 추출 방법

Publications (1)

Publication Number Publication Date
KR20020006164A true KR20020006164A (ko) 2002-01-19

Family

ID=19677427

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000039654A KR20020006164A (ko) 2000-07-11 2000-07-11 음성 신호 부호화시 격자방법을 이용한 고정소수점선형예측부호화 계수 추출 방법

Country Status (1)

Country Link
KR (1) KR20020006164A (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4389540A (en) * 1980-03-31 1983-06-21 Tokyo Shibaura Denki Kabushiki Kaisha Adaptive linear prediction filters
US4489437A (en) * 1981-01-29 1984-12-18 Seiko Instruments & Electronics Ltd. Speech synthesizer
US4538234A (en) * 1981-11-04 1985-08-27 Nippon Telegraph & Telephone Public Corporation Adaptive predictive processing system
JPH01255900A (ja) * 1988-04-05 1989-10-12 Nec Corp 音声符号化方式
JPH02265334A (ja) * 1989-04-05 1990-10-30 Tetsunori Tada アナログ秘話システム
JPH07111456A (ja) * 1993-10-08 1995-04-25 Takayama:Kk 音声圧縮方法および装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4389540A (en) * 1980-03-31 1983-06-21 Tokyo Shibaura Denki Kabushiki Kaisha Adaptive linear prediction filters
US4489437A (en) * 1981-01-29 1984-12-18 Seiko Instruments & Electronics Ltd. Speech synthesizer
US4538234A (en) * 1981-11-04 1985-08-27 Nippon Telegraph & Telephone Public Corporation Adaptive predictive processing system
JPH01255900A (ja) * 1988-04-05 1989-10-12 Nec Corp 音声符号化方式
JPH02265334A (ja) * 1989-04-05 1990-10-30 Tetsunori Tada アナログ秘話システム
JPH07111456A (ja) * 1993-10-08 1995-04-25 Takayama:Kk 音声圧縮方法および装置

Similar Documents

Publication Publication Date Title
JP2657927B2 (ja) 音声を符号化するための方法及び装置
Tomlinson et al. Integrating audio and visual information to provide highly robust speech recognition
TW526467B (en) Speech recognition system
US8386246B2 (en) Low-complexity frame erasure concealment
US8355917B2 (en) Position-dependent phonetic models for reliable pronunciation identification
WO2000031721A1 (en) Method and apparatus for pitch tracking
KR100298300B1 (ko) 포만트유사도측정에의한피솔라를이용한음성파형부호화방식
Esposito et al. Text independent methods for speech segmentation
KR20050020728A (ko) 음성 처리 시스템, 음성 처리 방법 및 음성 프레임 평가방법
Nakagawa et al. Evaluation of segmental unit input HMM
KR20020006164A (ko) 음성 신호 부호화시 격자방법을 이용한 고정소수점선형예측부호화 계수 추출 방법
DeMori Syntactic recognition of speech patterns
GB1596818A (en) Method of an apparatus for determining the basic period of a speech signal
WO1996004647A1 (en) Sensitivity weighted vector quantization of line spectral pair frequencies
JP3237244B2 (ja) 短期予測係数の計算方法
KR0176623B1 (ko) 연속 음성의 유성음부와 무성자음부의 자동 추출방법 및 장치
Cuperman et al. Robust low-complexity backward adaptive pitch predictor for low-delay speech coding
JP3071012B2 (ja) 音声伝送方式
Su et al. Speaker time-drifting adaptation using trajectory mixture hidden Markov models
JPS60159798A (ja) 音声認識装置
Ibrahim et al. A COMPARATIVE SURVEY OF DTW AND HMM USING HAUSA ISOLATED DIGITS RECOGNITION IN HUMAN COMPUTER INTERACTION SYSTEM
CN116524897A (zh) 一种轻量化的语音合成方法、装置、设备及存储介质
KR20010104051A (ko) 이동통신 시스템에서의 더빈 알고리즘을 이용한 lpc계수 추출 방법
KR100322702B1 (ko) 스펙트럼피크패턴을이용한음성신호의양자화및복호화방법
JP2986703B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application