KR20010024935A - 음성 코딩 - Google Patents

음성 코딩 Download PDF

Info

Publication number
KR20010024935A
KR20010024935A KR1020007008992A KR20007008992A KR20010024935A KR 20010024935 A KR20010024935 A KR 20010024935A KR 1020007008992 A KR1020007008992 A KR 1020007008992A KR 20007008992 A KR20007008992 A KR 20007008992A KR 20010024935 A KR20010024935 A KR 20010024935A
Authority
KR
South Korea
Prior art keywords
vector
quantized
gain value
rti
energy
Prior art date
Application number
KR1020007008992A
Other languages
English (en)
Other versions
KR100487943B1 (ko
Inventor
오잘라파시
Original Assignee
다니엘 태그리아페리
노키아 모빌 폰즈 리미티드
라이조 캐르키
모링 헬레나
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 다니엘 태그리아페리, 노키아 모빌 폰즈 리미티드, 라이조 캐르키, 모링 헬레나 filed Critical 다니엘 태그리아페리
Publication of KR20010024935A publication Critical patent/KR20010024935A/ko
Application granted granted Critical
Publication of KR100487943B1 publication Critical patent/KR100487943B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Abstract

가변 비트-속도 코딩 방법이 각 서브 프레임에 대하여, 가변적인 갯수의 펄스들을 구비하는 양자화된 벡터 d(i)를 결정한다. LTP 및 LPC 합성 필터들을 여기시키기 위한 여기 벡터 c(i)가 양자화된 벡터 d(i)를 필터링함으로써 유도되고, 여기 벡터 c(i)의 펄스 진폭을 스케일링하여, 스케일링된 여기 벡터가 LTP 및 LPC 분석을 통하여 리던던트 정보를 제거한 후에도 음성 신호 서브 프레임 내에 남아 있는 가중치가 부여된 잔여 신호를 나타내도록 이득치 gc가 결정된다. 예측된 이득치가 사전에 프로세스된 서브 프레임들로부터 결정되며, 또한 여기 벡터의 진폭이 양자화된 벡터 d(i) 내의 펄스들의 수 m에 의지하여 스케일링될 때 여기 벡터 c(i) 내에 포함된 에너지 Ec에 대한 함수로서 결정된다. 그러면, 양자화된 이득 정정 인자는 이득치 gc및 예측된 이득치

Description

음성 코딩{Speech coding}
유럽에서, 받아들여진 디지털 셀룰러 전화기의 표준은 GSM이라는 두문자로 알려졌다. GSM은 이동 통신을 위한 광역 시스템(Global System for Mobile communications)을 의미한다. GSM 표준의 최근 수정판(GSM Phase 2;06.60)에 의하여 확장 최대 속도(EFR, Enhanced Full Rate)로 알려진 새로운 음성 코딩 알고리즘(또는 코덱(codec))의 사양이 결정되었다. 통상적인 음성 코덱들과 같이, EFR은 개인 음성 또는 데이터 통신을 위해 요구되는 비트-속도를 감소시키기 위하여 설계되었다. 이러한 비트-속도를 최소화하면, 주어진 신호 대역폭 상에 다중화(multiplex)될 수 있는 개별 통화(call)의 수가 증가된다.
EFR 내에 사용되는 음성 인코더(encoder)와 유사한 음성 인코더의 구조에 대한 매우 일반적인 예시가 도 1에 나타나 있다. 샘플링된(sampled) 음성 신호는 20ms 프레임들(x) 내로 분주되는데, 각 프레임은 160개의 샘플을 포함한다. 각 샘플은 16비트의 디지털로써 표현된다. 프레임들은 우선 프레임들을 선형 예측 코더(1)(LPC, Linear Predictive Coder)에 적용함으로써 순서대로 인코딩되는데, 선형 예측 코더(LPC)는 각 프레임을 위해 LPC 계수들의 집합(a)을 생성한다. 이러한 계수들은 프레임 내의 단기간 리던던시(short term redundancy)의 대표자(representative)들이다.
LPC(1)의 출력은 LPC 계수들(a) 및 단기간 리던던시를 LPC 분석 필터(LPC analysis filter)를 이용하여 입력 음성 프레임으로부터 제거함으로써 생성되는 잔여 신호(residual signal, r1)를 구비한다. 그러면, 잔여 신호는 장기간 예측기(2)(LTP, Long Term Predictor)로 제공되는데, 장기간 예측기(LTP)는 잔여 신호(r1) 내의 장기간 리던던시(long term redundancy)의 대표자인 LTP 파라미터들의 집합(b) 및 잔여 신호(s)를 생성하고, 잔여 신호(s)로부터 전술된 장기간 리던던시가 제거된다. 실무적으로, 장기간 예측(long term prediction)은 두 스테이지(stage)로 구성된 프로세스인데, 각 스테이지는 (1) 전 프레임(entire frame) 동안 LTP 파라미터들의 집합을 제 1 개방 루프에서 예측하는 단계 및 (2) 예측된 파라미터들을 제 2 폐쇄 루프에서 정제(refinement)하여 프레임의 40 개의 샘플 서브 프레임 각각을 위한 LTP 파라미터들의 집합을 생성하는 단계이다. LTP(2)에 의하여 제공되는 잔여 신호(s)는 순서대로 필터들(도 1에서 공통적으로 블록 2a로 도시)를 통하여 필터링되어 가중치가 부여된(weighted) 잔여 신호를 제공한다. 이러한 필터들 중 제 2 필터가 스펙트럼의 "모음 소음(formant, 母音 素音)"을 강조하는 지각적(perceptual) 가중치 부여(weighting) 필터임에 반하여 제 1 필터는 LPC 합성 필터(LPC synthesis filter)이다. 두 필터들 모두의 파라미터들은 LPC 분석 스테이지(블록 1)에 의하여 제공된다.
대수적 여기 코드북(algebraic excitation codebook, 3)이 사용되어 여기(excitation) 또는 혁신(innovation) 벡터들(c)을 제공한다. 40개의 샘플 서브 프레임들(하나의 프레임 당 4 개의 서브 프레임) 각각에 대하여, 다수 개의 상이한 "후보(candidate)" 여기 벡터들이 스케일링 유니트(scaling unit, 4)를 거쳐서 순서대로 LTP 합성 필터들(5)에 인가된다. 이 LTP 합성 필터(5)는 현재의 서브 프레임의 LTP 파라미터들을 수신하고 수신된 LTP 파라미터에 의하여 예측된 장기 간 리던던시를 여기 벡터 내에 소개한다. 결과적으로 발생되는 신호는, 계속하여 연속적인 프레임들의 LPC 계수를 수신하는 LPC 합성 필터(6)에 제공된다. 주어진 서브 프레임에 대하여, 프레임 대 프레임의 보간법(interpolation)을 사용하여 LPC 계수들의 집합이 생성되고 생성된 계수들은 순서대로 인가되어 합성 신호(synthesized signal, ss)를 발생한다.
도 1에 도시된 인코더는 여기 벡터들의 선결된 집합(predefined set)을 포함하는 코드북을 이용하는 종래의 코드 여기 선형 예측법(CELP, Code Excited Linear Prediction) 인코더에 비하여 다르다. 대신에, 전자 형식의 인코더는 여기 벡터들의 대수적 생성 및 설정(specification)에 의지하고(예를 들어, 특허 번호 제 W09624925호를 참조), 때로는 대수적 CELP(Algebraic CELP) 또는 ACELP라고 일컬어진다. 특히, 10개의 0이 아닌 펄스를 포함하는 양자화된 벡터들(d(i))이 정의된다. 모든 펄스들은 +1 또는 -1의 진폭을 가진다. 하나의 서브 프레임 내의 40개의 샘플 포지션(position)들(i=0 내지 39)들이 5 개의 "트랙들(tracks)"로 분주되는데, 각 트랙들은 다음의 [표 1]에 나타난 바와 같이 두 개의 펄스들을 포함한다(즉, 8 개의 가능한 포지션 중에 두 개의 포지션에).
<대수적 코드북 내의 개별 펄스들의 잠재적(potential) 포지션>
트랙 펄스 포지션
1 i0, i5 0, 5, 10, 15, 20, 25, 30, 35
2 i1, i6 1, 6, 11, 16, 21, 26, 31, 36
3 i2, i7 2, 7, 12, 17, 22, 27, 32, 37
4 i3, i8 3, 8, 13, 18, 23, 28, 33, 38
5 i4, i9 4, 9, 14, 19, 24, 29, 34, 39
주어진 트랙 내의 펄스 포지션의 각 쌍은 6 개의 비트로 인코딩되고(즉, 각 펄스 당 3 비트씩이므로 모두 30개의 비트에 해당), 반면에 트랙 내의 제일 첫 번째 펄스의 부호는 1개의 비트로 인코딩된다(즉 모두 5 개의 비트에 해당). 두 번째 펄스의 부호는 특정적으로 인코딩되지는 않고 오히려 첫 번째 펄스에 대한 상대적 포지션으로부터 유도된다. 만약 두 번째 펄스의 샘플 포지션이 첫 번째 펄스의 샘플 포지션에 비하여 앞선다면 두 번째 펄스는 첫 번째 펄스에 비하여 반대의 부호를 가지고 있다고 정의되고, 반대의 경우 즉 두 번째 펄스의 샘플 포지션이 첫 번째 펄스의 샘플 포지션에 비하여 앞서지 않으면, 두 개의 펄스들이 모두 동일한 부호를 가지고 있다고 정의된다. 3 비트의 펄스 포지션들 모두는 채널 에러에 대한 강인성(robustness)을 향상시키기 위하여 그레이 코딩되어(Gray coded), 양자화된 벡터들이 35-비트의 대수적 코드(35-bit algebraic code, u)로써 인코딩될 수 있도록 한다.
여기 벡터 c(i)를 발생하기 위하여, 대수적 코드 u 에 의하여 정의된 양자화된 벡터 d(i)는 프리-필터(pre-filter) FE(z)를 통과하여 필터링되는데 프리-필터 FE(z)는 합성된 음성의 음질을 향상하기 위하여 특정 스펙트럴 성분(special spectral component)들을 확장(enhance)한다. 프리-필터(때로는 "채색(colouring)" 필터로 알려진)는 서브 프레임을 위하여 발생된 LTP 파라미터들의 특정 조합을 이용하여 정의된다.
통상적인 CELP 인코더의 경우와 같이, 차분 유니트(difference unit, 7)는 샘플 상의 합성 신호 및 입력 신호 간의 에러를 샘플 기반에서(또한 서브 프레임 대 서브 프레임으로) 결정한다. 그러면, 구해진 에러 신호에 인간의 음성 인식을 고려하여 가중치를 부여하는데 가중치 부여 필터(8)가 사용된다. 주어진 서브 프레임에서, 탐색 유니트(search unit, 9)는 가중치가 부여된 평균 제곱 에러(mean square error)를 최소화시키는 벡터를 식별함으로써 대수적 코드북(3)에 의하여 발생된 후보 벡터들의 집합 중에서 적당한 여기 벡터{c(i), 여기서 i=0 내지 39}를 선택한다. 이러한 과정은 일반적으로 "벡터 양자화(vector quantisation)"로 알려져 있다.
이미 언급된 바와 같이, 여기 벡터들은 스케일링 유니트(4)에서 이득 gc만큼 곱해진다. 이득치는 스케일링된 여기 벡터가, LTP(2)에 의하여 제공된 가중치 부여 잔여 신호의 에너지와 동일한 에너지를 갖도록 선택된다. 이득은 [수학식 1]로 주어진다.
여기서 H는 선형 예측 모델(LTP 및 LPC)의 임펄스 응답 행렬이다.
이득 정보를 여기 벡터를 정의하는 대수적 코드와 함께 인코딩된 음성 서브 프레임 내에 포함(incorporate)시켜 서브 프레임이 정확히 재구성(reconstructed)될 수 있도록 하는 것이 필요하다. 그러나, 이득 gc를 직접 포함시키기 보다는, 예측된 이득(predicted gain)가 이전 음성 서브 프레임들로부터 프로세싱 유니트(processing unit, 10)내에서 발생되고, 유니트(11) 내에서 정정 인자(correction factor)가 결정된다. 즉, 정정 인자는 [수학식 2]와 같다.
그러면, 정정 인자는 5-비트 코드 벡터들을 구비하는 이득 정정 인자 코드북을 가지고 벡터 양자화 기법을 사용하여 양자화된다. 인코딩된 프레임 내에 포함되는 양자화된 이득 정정 인자를 인식하는 것은 인덱스 벡터(index vector)이다. 이득 gc이 프레임 대 프레임으로 거의 변하지 않는다고 가정하면,이고 이득 gc은 상대적으로 짧은 코드북을 사용하여 양자화될 수 있다.
실무상으로는, 예측된 이득은 고정된 계수들을 가지고 이동 평균(MA, moving average) 예측법을 이용하여 유도된다. 후술되는 바와 같이 여기 에너지(excitation energy) 상에 4차의 MA 예측법이 행해진다. E(n)이 [수학식 3]과 같이 서브 프레임 n 에서의 평균-제거(mean-removed) 여기 에너지(dB 단위)라 한다.
[수학식 3]에서 N=40 은 서브 프레임 크기, c(i)는 여기 벡터(프리-필터링을 포함한), 및은 전형적인 여기 에너지의 소정 평균이다. 서브 프레임 n의 에너지는 [수학식 4]처럼 예측된다.
[수학식 4]에서 [b1b2b3b4]=[0.68 0.58 0.34 0.19]의 값들은 MA 예측법의 계수들이고,는 서브 프레임 j 에서의 예측된 에너지내의 에러이다. 현재의 서브 프레임의 에러가 계산되어 [수학식 5]에 나타난 바와 같이 후속 서브 프레임을 처리하는 단계에서 사용된다.
예측된 에너지는, [수학식 3]에서 E(n) 을으로 치환하여 [수학식 6]을 얻음으로써 예측된 이득을 계산하는 데에도 사용될 수 있다.
[수학식 6]에서 Ec는 다음 [수학식 7]과 같다.
[수학식 7]에서, Ec는 여기 벡터 c(i)의 에너지를 나타낸다.
이득 정정 인자 코드북 탐색이 수행되어 다음 [수학식 8]을 최소화하는 양자화된 이득 정정 인자를 식별한다.
인코딩된 프레임은 LPC 계수들, LTP 파라미터들, 여기 벡터들을 정의하는 대수적 코드, 및 양자화된 이득 정정 인자 코드북 인덱스 등을 구비한다. 전송이 일어나기 전에, 코딩/멀티플렉싱 유니트(coding and multiplexing unit, 12) 내에서 특정의 코딩 파라미터들 상에 추가적인 인코딩이 수행된다. 특별히, LPC 계수들은 '24비트/프레임의 속도에서의 LPC 파라미터의 효과적 벡터 양자화(Efficient Vector Quantisation of LPC Parameters at 24Bits/Frame)'-Kuldip K.P. and Bishnu S.A.,IEEE Trans. Speech and Audio Processing, Vol 1, No 1, January 1993.- 라는 논문에 설명되어 있는 바와 같은 방법으로 변환되어 대응하는 수 만큼의 선 스펙트럴 쌍(LSP, line spectral pair) 계수들이 된다. 코딩된 전 프레임이 또한 인코딩되어 에러 감지 및 에러 정정을 제공한다. GSM Phase 2에 명기된 코덱(codec)은 콘볼루션 코딩(convolution coding)의 개시(introduction) 및 회귀적 리던던시 체크(CRC, cyclic redundancy check) 비트들 이후에 정확히 동일한 수의 비트들(예를 들어 244개에서 456개)을 가지고 각 음성 프레임을 인코딩한다.
도 2는 ACELP 디코더의 일반적인 구조를 도시하는데, 이 구조는 도 1에 도시된 인코더를 이용하여 인코딩된 신호를 디코딩하는데 적합하다. 디멀티플렉서(demultiplexer, 13)는 수신된 인코딩된 신호를 자신의 다양한 성분으로 분리한다. 대수적 코드북(14)은 인코더에서의 코드북(3)과 동일한 것인데, 수신된 코딩된 신호 내에서 35-비트 대수적 코드에 의하여 특정되는 코드 벡터를 결정하고 이것을 프리-필터링하여(LTP 파라미터를 이용) 여기 벡터(excitation vector)를 생성한다. 이득 정정 인자는, 수신된 양자화된 이득 정정 인자를 이용하여 이득 정정 인자 코드북으로부터 결정되고, 이것이 블록(15) 내에서 이용되어, 사전에 디코딩된 서브 프레임들로부터 유도되고 블록(16) 내에서 결정되어진 예측된 이득을 정정하는데 이용된다. 여기 벡터는 블록(17)에서 정정된 이득만큼 승산되고 승산된 결과가 LTP 합성 필터(18) 및 LPC 합성 필터(19)에 적용된다. LTP 필터 및 LPC 필터들은 각각 LTP 파라미터 및 LPC 계수들을 수신하는데, LTP 파라미터 및 LPC 계수들은 코딩된 신호에 의하여 전달되어 장기간 및 단기간 리던던시를 여기 벡터 내에 재소개(reintroduce)한다.
음성이란 원래 가변적인 것으로서, 역동성(activity)이 높은 구간/낮은 구간 및 상대적인 침묵 구간이 존재한다. 따라서, 고정 비트-속도 코딩법을 사용하면 대역폭 자원을 낭비하는 것이다. 다수의 음성 코덱이 프레임 대 프레임 또는 서브 프레임 대 서브 프레임으로 비트 속도가 변화하는 다양한 방법을 제안해 왔다. 예를 들어, 미국 특허 제 5,657,420호는 미국 코드분할 다중 접속(CDMA, Code Division Multiple Access) 시스템 내에 사용될 수 있는 음성 코덱으로서, 프레임의 코딩 비트-속도는 그 프레임 내의 음성 역동성의 정도에 따라서 다수의 가능한 속도 중에서 선택되는 것을 특징으로 하는 음성 코덱을 제안한다.
ACELP 코덱과 관련하여, 음성 신호 서브 프레임들을 둘 또는 그 이상의 클래스(class)로 분류하고 상이한 클래스들을 상이한 대수적 코드북을 사용하여 인코딩하자는 것이 제안되어 왔다. 더욱 자세하게는, 가중치가 부여된 잔여 신호()가 시간에 대하여 상대적으로 고속으로 변화하는 동안의 서브 프레임은 상대적으로 다수 개의 펄스(예를 들면, 10개)들을 가지는 코드 벡터들(d(i))을 이용하여 코딩될 수 있는 반면에, 가중치가 부여된 잔여 신호()가 시간에 대하여 오직 저속으로 변화하는 동안의 서브 프레임은 상대적으로 적은 수의 펄스(예를 들면, 2개)들만을 가지는 코드 벡터들(d(i))을 이용하여 코딩될 수 있다.
전술된 [수학식 7]을 참조하면, 코드 벡터(d(i)) 내의 여기 펄스들의 수가 예를 들어 10 개에서 2 개로 변화하면, 이에 상응하여 여기 벡터(c(i))의 에너지도 감소하게 된다는 것을 알 수 있다. [수학식 4]의 에너지 예측이 이전의 서브 프레임들에 기초하고 있기 때문에, 여기 펄스의 수가 큰 폭으로 감소하는 현상에 수반하여 예측 동작이 열화될 가능성이 높아진다. 그러므로, 그 결과로써 예측된 이득() 내의 에러가 상대적으로 증가하게 되고, 또한 이에 수반하여 이득 정정 인자가 음성 신호를 통하여 큰 폭으로 변화하게 된다. 이처럼 변화 폭이 큰 이득 정정 인자를 정확하게 양자화하기 위하여, 이득 정정 인자 양자화 테이블(gain correction factor quantisation table)은 상대적으로 커야하고, 이에 상응하여 코드북 인덱스()가 길어지게 된다(예를 들어 5 비트 길이). 그러면, 코딩된 서브 프레임 데이터에 부가적인 비트들을 첨가하는 결과가 나타난다.
예측된 이득 내의 에러가 커지는 현상은 CELP 인코더 내에서도 마찬가지로 대두될 수 있으며, 이 경우 코드 벡터들(d(i))의 에너지가 프레임마다 매우 큰 폭으로 변화하게 되어 유사하게 큰 이득 정정 인자를 양자화하기 위한 코드북 역시 요구한다는 것이 이해될 것이다.
본 발명은 음성 코딩에 관한 것으로써, 특히 디지털화된(digitised) 음성 샘플을 포함하는 이산 시간(discrete time) 서브 프레임(subframe)들 내에서 음성 신호(speech signal)를 코딩하는 것에 관한 것이다. 본 발명은 특히 가변 비트-속도(bit-rate) 음성 코딩 분야에 적용될 수 있으나, 반드시 이 분야에 적용되어야 하는 것은 아니다.
본 발명을 더욱 잘 이해하기 위하여, 또한 어떻게 본 발명이 동작하여 효과를 얻는지를 보이기 위하여, 예시로서 첨부된 도면들을 참조하게되는데, 도면들은 다음과 같다:
도 1은 ACELP 음성 인코더의 블록도이다;
도 2는 ACELP 음성 디코더의 블록도이다;
도 3은 가변 비트-속도 인코딩이 가능한 변형된 ACELP 음성 인코더의 블록도이다; 및
도 4는 가변 비트-속도로 인코딩된 신호를 디코딩할 수 있는 변형된 ACELP 음성 인코더의 블록도이다.
현재 존재하는 가변 속도 코덱의 전술된 바와 같은 단점들을 극복하거나 또는 적어도 완화하는 것이 본 발명의 목적이다.
본 발명의 첫 번째 측면에 따르면, 디지털화된(digitised) 음성 샘플들을 포함하는 서브 프레임(sub frames)의 시퀀스를 구비하는 음성 신호(speech signal)를 코딩하는 방법이 제공되는데, 이 음성 코딩 방법은 각 서브 프레임에 대하여 다음의 단계들, 즉:
(a) 적어도 하나의 펄스를 구비하는 양자화된 벡터 d(i)를 선택하는 단계로서, 상기 벡터 d(i) 내의 펄스들의 갯수 m 및 위치는 서브 프레임마다 가변할 수 있는 단계;
(b) 양자화된 벡터 d(i) 또는 상기 양자화된 벡터 d(i)로부터 유도된 다음 벡터(further vector) c(i)의 진폭을 스케일링(scaling)하기 위한 이득치 gc를 결정하는 단계로서, 스케일링된 벡터는 가중치가 부여된 잔여 신호를 합성하는 단계;
(c) 소정의 에너지 레벨의 양자화된 벡터 d(i) 내의 에너지에 대한 비율의 함수인 스케일링 인자 k를 결정하는 단계;
(d) 예측된 이득치를 하나 또는 그 이상의 사전에 프로세스된 서브 프레임들에 기초하여 결정하되, 벡터의 진폭이 스케일링 인자 k에 의하여 스케일링될 때 양자화된 벡터 d(i) 또는 다음 벡터 c(i) 의 에너지 Ec의 함수로서 결정하는 단계; 및
(e) 이득치 gc및 예측된 이득치를 이용하여 양자화된 이득 정정 인자를 결정하는 단계로 구성된다.
전술된 바와 같이 여기 벡터의 에너지를 스케일링함으로써, 본 발명은 양자화된 벡터 d(i) 내에 존재하는 펄스들의 수(또는 에너지)가 프레임 마다 변할 때에 예측된 이득치의 정확성을 향상시킨다.의 정확성이 향상되면, 이득 정정 인자의 범위가 축소되고, 종래 방법들에 비하여 더 작은 양자화 코드북을 이용하여 더욱 정확히 양자화하는 것이 가능해진다. 작은 코드북을 사용하면, 그 코드북을 인덱싱 하기 위해 요구되는 벡터의 비트 길이가 감소한다. 또는, 종래에 사용되어 온 코드북과 동일한 크기를 이용하여 양자화 정확도를 향상시키는 것이 가능해질 수 있다.
본 발명의 한 실시예에서, 벡터 d(i) 내의 펄스들의 수 m은 서브 프레임 음성 신호의 성질에 의존한다. 본 발명의 다른 실시예에서, 펄스들의 수 m은 시스템 사양 또는 특성에 의하여 결정된다. 예를 들면, 코딩된 신호가 전송 채널을 통하여 전송되어야 할 경우, 채널 간섭이 클 경우에는 펄스들의 수는 줄어들고, 따라서 신호에 첨가되는 보호 비트(protection bits)의 수를 증가시킬 수 있다. 채널 간섭이 작으면, 신호에 첨가되는 보호 비트의 수는 적어도 되며, 따라서 벡터 내의 펄스들의 수는 증가될 수 있다.
바람직하게는, 본 발명에 의한 코딩 방법은 가변 비트-속도(bit-rate) 코딩 방법이며, 음성 신호 서브 프레임으로부터 장기간(long term) 및 단기간 리던던시(short term redundancy)를 실질적으로 제거함으로써 상기 가중치가 부여된 잔여 신호를 발생하는 단계, 음성 신호를 가중치가 부여된 잔여 신호내에 포함된 에너지에 따라 분류하는 단계, 및 분류 결과를 사용하여 양자화된 벡터 d(i) 내의 펄스들의 수 m을 결정하는 단계를 구비하는 것이 바람직하다.
바람직하게는, 본 발명에 의한 코딩 방법은 각 서브 프레임을 위한 선형 예측 코딩(LPC) 계수들의 한 집합 a 및 각 프레임을 위한 장기간 예측(LTP) 파라미터들의 한 집합 b를 생성하는 단계로서, 한 프레임은 다수 개의 음성 서브 프레임을 구비하는 단계 및 LPC 계수들, LTP 파라미터들, 양자화된 벡터 d(i), 및 양자화된 이득 정정 인자에 기초하여 코딩된 음성 신호를 생성하는 단계를 구비하는 것이 바람직하다.
바람직하게는, 양자화된 벡터 d(i)는 코딩된 음성 신호 내에 포함된(incorporated) 대수적 코드 u에 의하여 정의되는 것이 바람직하다.
바람직하게는, 이득치 gc는 상기 다음 벡터 c(i)를 스케일링하는데 사용되며, 이 다음 벡터는 양자화된 벡터 d(i)를 필터링함으로써 발생되는 것이 바람직하다.
바람직하게는, 예측된 이득치는 다음 수학식에 따라 결정되며:
여기서는 상수이고,은 사전 서브 프레임에 기초하여 결정된 현재 서브 프레임 내의 에너지인 것이 바람직하다. 예측된 에너지는 다음 수학식을 이용하여 결정될 수 있으며:
여기서, bi들은 이동 평균 예측 계수들이고, p는 예측 순서(prediction order)이며, 및는 사전 서브 프레임 j의 예측된 에너지내의 에러로서, 다음 수학식, 즉 :
에 의하여 제공되는 것이 바람직하다.
Ec는 다음 수학식을 이용하여 결정되며:
여기서, N은 서브 프레임 내의 샘플들의 수이다. 바람직하게는, 다음 수식이 만족되는데:
여기서, M은 상기 양자화된 벡터 d(i) 내의 펄스들의 최대 허용 가능한 수이다.
바람직하게는, 양자화된 벡터 d(i)는 모두 동일한 진폭을 갖는 두 개 또는 그 이상의 펄스들을 구비하는 것이 바람직하다.
바람직하게는, 전술된 (d) 단계는, 이득 정정 인자 코드북을 탐색하여 다음 수학식:
에 의한 에러를 최소화하는 양자화된 이득 정정 인자를 결정하는 단계 및 식별된 양자화된 이득 정정 인자를 위한 상기 코드북 인덱스를 인코딩하는 단계를 구비하는 것이 바람직하다.
본 발명의 두 번째 측면에 의하여, 디지털화 샘플링된 음성 신호의 코딩된 서브 프레임들의 시퀀스를 디코딩하는 방법에 제공되며, 본 발명에 의한 디코딩 방법은 각 서브 프레임에 대하여:
(a) 코딩된 신호로부터 적어도 하나의 펄스를 구비하는 양자화된 벡터 d(i)를 복원하는 단계로서, 벡터 d(i) 내의 펄스들의 갯수 m 및 위치는 서브 프레임 마다 가변할 수 있는 단계;
(b) 코딩된 신호로부터 양자화된 이득 정정 인자를 복원하는 단계;
(c) 소정의 에너지 레벨의 상기 양자화된 벡터 d(i) 내의 에너지에 대한 비율의 함수인 스케일링 인자 k를 결정하는 단계;
(d) 예측된 이득치를 하나 또는 그 이상의 사전에 프로세스된 서브 프레임들에 기초하여 결정하되, 벡터의 진폭이 상기 스케일링 인자 k에 의하여 스케일링될 때 양자화된 벡터 d(i) 또는 d(i)로부터 유도되는 다음 벡터 c(i) 의 에너지 Ec의 함수로서 결정하는 단계; 및
(e) 양자화된 이득 정정 인자를 이용하여 예측된 이득치를 정정하여 정정된 이득치 gc를 제공하는 단계; 및
(f) 이득치 gc를 이용하여 양자화된 벡터 d(i) 또는 상기 다음 벡터 c(i)의 진폭을 스케일링함으로써, 원본 서브 프레임(original subframe)으로부터 실질적인 리던던트 정보(redundant information)를 제거한 이후에도 원본 서브 프레임 내에 남아 있는 잔여 신호를 합성하는 여기 벡터를 생성하는 단계를 구비하는 것이 바람직하다.
바람직하게는, 수신 신호의 코딩된 서브 프레임 각각은 양자화된 벡터 d(i)를 정의하는 대수적 코드 u, 및 양자화된 이득 정정 인자가 획득된 위치인 양자화된 이득 정정 인자 코드북을 어드레싱(addressing)하는 인덱스를 구비하는 것이 바람직하다.
본 발명의 세 번째 측면에 의하면, 디지털화된 음성 샘플들을 포함하는 서브 프레임의 시퀀스를 구비하는 음성 신호를 코딩하는 장치가 제공되는데, 본 발명에 의한 코딩 장치는 상기 서브 프레임들 각각을 순서대로 코딩하기 위한 수단으로서, 다음과 같은 수단들, 즉:
적어도 하나의 펄스를 구비하는 양자화된 벡터 d(i)를 선택하기 위한 수단으로서, 벡터 d(i) 내의 펄스들의 갯수 m 및 위치는 서브 프레임 마다 가변할 수 있는 벡터 선택 수단;
양자화된 벡터 d(i) 또는 양자화된 벡터 d(i)로부터 유도된 다음 벡터 c(i)의 진폭을 스케일링하기 위한 이득치 gc를 결정하기 위한 제 1 신호 프로세싱 수단으로서, 스케일링된 벡터는 가중치가 부여된 잔여 신호를 합성하는 수단;
소정의 에너지 레벨의 양자화된 벡터 d(i) 내의 에너지에 대한 비율의 함수인 스케일링 인자 k를 결정하기 위한 제 2 신호 프로세싱 수단;
예측된 이득치를 하나 또는 그 이상의 사전에 프로세스된 서브 프레임들에 기초하여 결정하되, 벡터의 진폭이 상기 스케일링 인자 k에 의하여 스케일링될 때 양자화된 벡터 d(i) 또는 다음 벡터 c(i) 의 에너지 Ec의 함수로서 결정하기 위한 제 3 신호 프로세싱 수단; 및
상기 이득치 gc및 상기 예측된 이득치를 이용하여 양자화된 이득 정정 인자를 결정하기 위한 제 4 신호 프로세싱 수단을 구비하는 코딩 수단을 포함한다.
본 발명의 네 번째 측면에 의하여, 디지털화 샘플링된 음성 신호의 코딩된 서브 프레임들의 시퀀스를 디코딩하기 위한 장치가 제공되는데, 본 발명에 따른 디코딩 장치는, 상기 장치는 각 서브 프레임들을 순서대로 디코딩하기 위한 수단으로서 다음과 같은 수단들, 즉:
코딩된 신호로부터 적어도 하나의 펄스를 구비하는 양자화된 벡터 d(i)를 복원하기 위한 수단으로서, 벡터 d(i) 내의 펄스들의 갯수 m 및 위치는 서브 프레임 마다 가변할 수 있는 제 1 신호 프로세싱 수단;
코딩된 신호로부터 양자화된 이득 정정 인자를 복원하기 위한 제 2 신호 프로세싱 수단;
소정의 에너지 레벨의 상기 양자화된 벡터 d(i) 내의 에너지에 대한 비율의 함수인 스케일링 인자 k를 결정하기 위한 제 3 신호 프로세싱 수단;
예측된 이득치를 하나 또는 그 이상의 사전에 프로세스된 서브 프레임들에 기초하여 결정하되, 상기 벡터의 진폭이 상기 스케일링 인자 k에 의하여 스케일링될 때 양자화된 벡터 d(i) 또는 상기 양자화된 벡터로부터 유도되는 다음 벡터 c(i) 의 에너지 Ec의 함수로서 결정하기 위한 제 4 신호 프로세싱 수단; 및
양자화된 이득 정정 인자를 이용하여 예측 이득치를 정정하여 정정된 이득치 gc를 제공하기 위한 정정 수단; 및
이득치 gc를 이용하여 양자화된 벡터 d(i) 또는 상기 다음 벡터 c(i)를 스케일링함으로써, 원본 서브 프레임으로부터 실질적인 리던던트 정보를 제거한 이후에도 원본 서브 프레임 내에 남아 있는 잔여 신호를 합성하는 여기 벡터를 생성하기 위한 스케일링 수단을 포함한다.
GSM phase 2에 의하여 제안된 것과 같은 ACELP 음성 코덱은 도 1 및 도 2를 참조하여 간략하게 전술되었다. 도 3은 디지털화 샘플링된(digitised sampled) 음성 신호를 가변 비트-속도 인코딩하기에 적합한 변형된 ACELP 음성 인코더를 예시하는데, 이 음성 인코더내의 동작 블록들 중 도 1을 참조하여 전술된 블록들은 도 1의 동작 블록들과 동일한 부재 번호로서 식별된다.
도 3의 인코더 내에서, 도 1의 단일 대수적 코드북(single algebraic codebook, 3)은 한 쌍의 대수적 코드북들(13, 14)로 대체되었다. 한 쌍의 코드북들 중 두 번째 코드북(14)이 10 개의 펄스들을 포함하는 코드 벡터들(d(i))에 기초하여 여기 벡터들(c(i))을 생성하도록 실장되는데 반하여, 첫 번째 코드북(13)은 2 개의 펄스들을 포함하는 코드 벡터들(d(i))에 기초하여 여기 벡터들(c(i))을 생성하도록 실장된다. 주어진 서브 프레임에서, 코드북(13, 14)을 선택하는 일은, LTP(2)에 의하여 제공되는 가중치 부여 잔여 신호()에 포함되는 에너지에 의존하여 코드북 선택 유니트(15)에 의하여 수행된다. 만약 가중치 부여 잔여 신호 내의 에너지가, 심하게 가변하는 가중치 부여 잔여 신호를 나타내는 선결된(또는 적응적(adaptive)) 임계치(threshold)를 초과하면, 10개 펄스 코드북(14)이 선택된다. 반면에, 만약 가중치 부여 잔여 신호 내의 에너지가 선결된 임계치를 이하로 떨어지면, 2 개 펄스 코드북(13)이 선택된다. 세 개 또는 그 이상의 코드북들이 사용되면 두 개 또는 그 이상의 임계치 레벨이 결정될 수 있다는 것이 이해될 것이다. 적합한 코드북 선택 프로세스에 대한 더욱 자세한 설명을 위하여, "고품질 가변-속도 음성 코덱(Toll Quality Variable-Rate Speech Codec)"; Ojala P; Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing, Munich, Germany, Apr. 21-24 1997을 참조한다.
스케일링 유니트(4) 내에서 사용되는 이득 gc의 유도 과정은 [수학식 1]을 참조하여 전술되었다. 그러나, 예측된 이득을 유도하는 과정에서는, 진폭 스케일링 인자 k를 적용함으로써 [수학식 7]이 변형되는데(변형된 프로세싱 유니트(16) 내에서), 이는 다음 [수학식 9]와 같다.
10 개의 펄스 코드북이 선택된 경우에는, k=1로 설정되고, 2 개의 펄스 코드북이 선택된 경우에는,로 설정된다. 더욱 일반적으로 말하면, 스케일링 인자는 다음 [수학식 10]과 같이 주어지는데,
여기서 m은 상응하는 코드 벡터 d(i) 내의 펄스들의 개수이다.
주어진 서브 프레임에서 평균이 제거된 여기 에너지 E(n)을 계산하여 [수학식 4]에서와 같이 에너지 예측이 가능하도록 하려면, 스케일링 인자 k를 도입하는 것이 필요하다. [수학식 3]은 [수학식 11]과 같이 변형된다.
그러면, 예측된 이득은 [수학식 6]을 이용하여 계산되고, 변형된 여기 벡터 에너지는 [수학식 9]에 의하여 주어지며, 변형된 평균이 제거된 여기 에너지는 [수학식 11]을 이용하여 제공된다.
스케일링 인자 k를 [수학식 9] 및 [수학식 11]에 도입하면, 이득 예측이 현저하게 개선되어 일반적으로이 만족된다. 종래 기술과 비교하여, 이득 정정 인자의 범위가 감소할수록, 예를 들어 3 비트 또는 4 비트 길이의 더 짧은 길이의 코드북 인덱스를 사용하므로, 더 작은 이득 정정 인자 코드북이 사용될 수 있다.
도 4는 도 3에 도시된 ACELP 인코더를 사용하여 인코딩된 음성 신호를 디코딩하는데 적합한 디코더를 예시한다. 음성 신호는 도 3에 도시된 ACELP 인코더를 사용하여 가변 비트 속도로 인코딩된 바가 있다. 도 4에 도시된 디코더의 동작의 상당부분은 도 3에 도시된 인코더의 동작과 같으며, 동작이 같은 블록들 중 도 2를 참조하여 미리 설명된 것들은 도 4에서는 동일한 부재 번호로써 식별된다. 주된 차이점은, 도 3에 도시된 인코더의 2 개 내지 10 개 펄스 코드북에 상응하는 두 개의 대수적 코드북들(20, 21)의 동작에 있다. 수신된 대수적 코드(u)의 특성에 따라 코드북(20, 21) 중 적합한 코드북이 선택되도록 결정되고, 그 이후에는 디코딩 프로세스가 전술된 바와 상당히 동일한 방법으로 수행된다. 그러나, 인코더의 경우에서와 같이, 예측된 이득은 [수학식 6]을 이용하여 블록(22)에서 계산되고, 스케일링된 여기 벡터 에너지(Ec)는 [수학식 9]를 이용하여 계산되고, 스케일링된 평균이 제거된 여기 에너지(E(n))은 [수학식 11]을 이용하여 계산된다.
본 발명의 기술적 사상에서 벗어나지 않으면서 전술된 실시예에 대하여 다양한 변형을 가하는 것이 가능하다는 것은 당업자에게 이해될 것이다. 특히, 도 3 및 도 4에 도시된 인코더 및 디코더는 하드웨어 적으로 또는 소프트웨어 적으로 또는 하드웨어 및 소프트웨어를 결합한 형태로 실장될 수 있다. 본 명세서의 설명은 비록 GSM 셀룰러 전화기 시스템을 고려한 것이기는 하지만, 본 발명은 다른 셀룰러 무선 시스템들(cellular radio systems) 및 인터넷과 같은 비-무선 시스템들(non-radio cellular systems)에도 역시 바람직하게 적용될 수 있다. 또한, 본 발명은 데이터 저장 목적으로 음성 데이터를 인코딩 및 디코딩하는 분야에도 적용될 수 있다.
본 발명은 ACELP 인코더에 적용될 수 있는 것은 물론이고 CELP 인코더에도 적용될 수 있다. 그러나, CELP 인코더가 양자화된 벡터(d(i))를 생성하기 위한 고정 코드북을 구비하고, 주어진 양자화된 벡터 내의 펄스들의 진폭이 가변될 수 있으므로, 여기 벡터(c(i))의 진폭을 스케일링하기 위한 스케일링 인자(k)의 수식은 [수학식 10]에서 처럼 펄스의 수(m)의 단순한 함수가 아니다. 오히려, 고정 코드북의 양자화된 벡터(d(i)) 각각의 에너지는 계산되어야 하며, 예를 들어 최대 양자화된 벡터 에너지에 대한 양자화된 벡터(d(i)) 각각의 에너지의 비율이 결정되어야 한다. 구해진 비율에 제곱근을 씌우면 스케일링 인자(k)를 구할 수 있다.

Claims (16)

  1. 디지털화된(digitised) 음성 샘플들을 포함하는 서브 프레임(sub frames)의 시퀀스를 구비하는 음성 신호(speech signal)를 코딩하는 방법에 있어서, 상기 방법은 각 서브 프레임에 대하여:
    (a) 적어도 하나의 펄스를 구비하는 양자화된(quantised) 벡터 d(i)를 선택하는 단계로서, 상기 벡터 d(i) 내의 펄스들의 갯수 m 및 위치는 서브 프레임 마다 가변할 수 있는 단계;
    (b) 상기 양자화된 벡터 d(i) 또는 상기 양자화된 벡터 d(i)로부터 유도된 다음 벡터(further vector) c(i)의 진폭을 스케일링(scaling)하기 위한 이득치 gc를 결정하는 단계로서, 상기 스케일링된 벡터는 가중치가 부여된 잔여 신호를 합성하는 단계;
    (c) 소정의 에너지 레벨의 상기 양자화된 벡터 d(i) 내의 에너지에 대한 비율의 함수인 스케일링 인자 k를 결정하는 단계;
    (d) 예측된 이득치를 하나 또는 그 이상의 사전에 프로세스된 서브 프레임들에 기초하여 결정하되, 상기 벡터의 진폭이 상기 스케일링 인자 k에 의하여 스케일링될 때 상기 양자화된 벡터 d(i) 또는 상기 다음 벡터 c(i) 의 에너지 Ec의 함수로서 결정하는 단계; 및
    (e) 상기 이득치 gc및 상기 예측된 이득치를 이용하여 양자화된 이득 정정 인자를 결정하는 단계를 구비하는 것을 특징으로 하는 음성 신호를 코딩하는 방법.
  2. 제 1항에 있어서, 상기 방법은 가변 비트-속도(bit-rate) 코딩 방법이며:
    상기 음성 신호 서브 프레임으로부터 장기간(long term) 및 단기간 리던던시(short term redundancy)를 실질적으로 제거함으로써 상기 가중치가 부여된 잔여 신호를 발생하는 단계; 및
    상기 음성 신호를 상기 가중치가 부여된 잔여 신호내에 포함된 에너지에 따라 분류하며, 분류 결과를 사용하여 상기 양자화된 벡터 d(i) 내의 펄스들의 수 m을 결정하는 단계를 구비하는 것을 특징으로 하는 음성 신호를 코딩하는 방법.
  3. 제 1항 또는 제 2항에 있어서, 상기 방법은:
    각 서브 프레임을 위한 선형 예측 코딩(LPC, linear predictive coding) 계수들의 한 집합 a 및 각 프레임을 위한 장기간 예측(LTP, long term prediction) 파라미터들의 한 집합 b를 생성하는 단계에서, 한 프레임은 다수 개의 음성 서브 프레임을 구비하는 단계; 및
    상기 LPC 계수들, 상기 LTP 파라미터들, 상기 양자화된 벡터 d(i), 및 상기 양자화된 이득 정정 인자에 기초하여 코딩된 음성 신호를 생성하는 단계를 구비하는 것을 특징으로 하는 음성 신호를 코딩하는 방법.
  4. 제 1항 내지 제 3항 중 어느 한 항에 있어서, 상기 방법은,
    상기 코딩된 음성 신호 내의 양자화된 벡터 d(i)를 대수적 코드 u로 정의하는 단계를 구비하는 것을 특징으로 하는 음성 신호를 코딩하는 방법.
  5. 제 1항 내지 제 4항 중 어느 한 항에 있어서,
    상기 예측된 이득치는 다음 수학식에 따라 결정되며:
    여기서는 상수이고,은 상기 사전에 프로세스된 서브 프레임에 기초하여 결정된 현재 서브 프레임 내의 에너지의 예측치인 것을 특징으로 하는 음성 신호를 코딩하는 방법.
  6. 제 1항 내지 제 5항 중 어느 한 항에 있어서,
    상기 예측된 이득치는,
    상기 벡터의 진폭이 상기 스케일링 인자 k에 의하여 스케일링될 때, 상기 사전에 프로세스된 서브 프레임들 각각의 상기 양자화된 벡터 d(i) 또는 상기 다음 벡터 c(i) 의 평균이 제거된 여기 에너지 E(n)의 함수인 것을 특징으로 하는 음성 신호를 코딩하는 방법.
  7. 제 1항 내지 제 6항 중 어느 한 항에 있어서,
    상기 이득치 gc는 상기 다음 벡터 c(i)를 스케일링하는데 이용되며, 상기 다음 벡터는 상기 양자화된 벡터 d(i)를 필터링하여 발생되는 것을 특징으로 하는 음성 신호를 코딩하는 방법.
  8. 제 5항에 있어서, 상기 방법은:
    상기 예측된 이득치는 상기 벡터의 진폭이 상기 스케일링 인자 k에 의하여 스케일링될 때, 상기 사전에 프로세스된 서브 프레임들 각각의 상기 양자화된 벡터 d(i) 또는 상기 다음 벡터 c(i) 의 평균이 제거된 여기 에너지 E(n)의 함수이며;
    상기 이득치 gc는 상기 다음 벡터 c(i)를 스케일링하는데 이용되고, 상기 다음 벡터는 상기 양자화된 벡터 d(i)를 필터링하여 발생되며;
    상기 예측된 에너지는 다음 수학식을 이용하여 결정되며:
    여기서, bi들은 이동 평균(moving average) 예측 계수들이고, p는 예측 순서(prediction order)이며, 및는 사전 서브 프레임 j의 예측된 에너지내의 에러로서, 다음 수학식에 의하여 제공되고:
    여기서, E(n)은 다음 수학식에 의하여 결정되는:
    것들 특징으로 하는 음성 신호를 코딩하는 방법.
  9. 제 5항에 있어서,
    Ec는 다음 수학식을 이용하여 결정되며:
    여기서, N은 서브 프레임 내의 샘플들의 수인 것을 특징으로 하는 음성 신호를 코딩하는 방법.
  10. 제 1항 내지 제 9항 중 어느 한 항에 있어서,
    만약 상기 양자화된 벡터 d(i)가 두 개 또는 그 이상의 펄스를 구비한다면, 모든 구비된 펄스들은 동일한 진폭을 갖는 것을 특징으로 하는 음성 신호를 코딩하는 방법.
  11. 제 1항 내지 제 10항 중 어느 한 항에 있어서,
    상기 스케일링 인자는 다음의 수학식에 의하여 제공되며:
    여기서, M은 상기 양자화된 벡터 d(i) 내의 펄스들의 최대 허용 가능한 숫자인 것을 특징으로 하는 음성 신호를 코딩하는 방법.
  12. 제 1항 내지 제 11항 중 어느 한 항에 있어서, 상기 방법은,
    이득 정정 인자 코드북을 탐색하여 다음 수학식에 의한 에러를 최소화하는 상기 양자화된 이득 정정 인자를 결정하는 단계: 및
    상기 식별된 양자화된 이득 정정 인자를 위한 상기 코드북 인덱스(codebook index)를 인코딩하는 단계를 구비하는 것을 특징으로 하는 음성 신호를 코딩하는 방법.
  13. 디지털화 샘플링된 음성 신호의 코딩된 서브 프레임들의 시퀀스를 디코딩하는 방법에 있어서, 상기 방법은 각 서브 프레임에 대하여:
    (a) 상기 코딩된 신호로부터 적어도 하나의 펄스를 구비하는 양자화된 벡터 d(i)를 복원하는 단계로서, 상기 벡터 d(i) 내의 펄스들의 갯수 m 및 위치는 서브 프레임 마다 가변할 수 있는 단계;
    (b) 상기 코딩된 신호로부터 양자화된 이득 정정 인자를 복원하는 단계;
    (c) 소정의 에너지 레벨의 상기 양자화된 벡터 d(i) 내의 에너지에 대한 비율의 함수인 스케일링 인자 k를 결정하는 단계;
    (d) 예측된 이득치를 하나 또는 그 이상의 사전에 프로세스된 서브 프레임들에 기초하여 결정하되, 상기 벡터의 진폭이 상기 스케일링 인자 k에 의하여 스케일링될 때 상기 양자화된 벡터 d(i) 또는 상기 양자화된 벡터로부터 유도되는 다음 벡터(further vector) c(i) 의 에너지 Ec의 함수로서 결정하는 단계; 및
    (e) 상기 양자화된 이득 정정 인자를 이용하여 상기 예측 어득치를 정정하여 정정된 이득치 gc를 제공하는 단계; 및
    (f) 상기 이득치 gc를 이용하여 상기 양자화된 벡터 d(i) 또는 상기 다음 벡터 c(i)의 진폭을 스케일링(scaling)함으로써, 원본 서브 프레임(original subframe)으로부터 실질적인 리던던트 정보(redundant information)를 제거한 이후에도 원본 서브 프레임 내에 남아 있는 잔여 신호를 합성하는 여기 벡터(excitation vector)를 생성하는 단계를 구비하는 것을 특징으로 하는 디코딩 방법.
  14. 제 13항에 있어서, 상기 수신 신호의 코딩된 서브 프레임 각각은,
    상기 양자화된 벡터 d(i)를 정의하는 대수적 코드 u, 및 상기 양자화된 이득 정정 인자가 획득된 위치인 양자화된 이득 정정 인자 코드북을 어드레싱(addressing)하는 인덱스를 구비하는 것을 특징으로 하는 디코딩 방법.
  15. 디지털화된 음성 샘플들을 포함하는 서브 프레임의 시퀀스를 구비하는 음성 신호를 코딩하는 장치에 있어서, 상기 장치는 각 서브 프레임들 각각을 순서대로 코딩하기 위한 수단을 포함하며, 상기 수단은:
    적어도 하나의 펄스를 구비하는 양자화된 벡터 d(i)를 선택하기 위한 수단으로서, 상기 벡터 d(i) 내의 펄스들의 갯수 m 및 위치는 서브 프레임 마다 가변할 수 있는 벡터 선택 수단;
    상기 양자화된 벡터 d(i) 또는 상기 양자화된 벡터 d(i)로부터 유도된 다음 벡터 c(i)의 진폭을 스케일링(scaling)하기 위한 이득치 gc를 결정하기 위한 제 1 신호 프로세싱 수단으로서, 상기 스케일링된 벡터는 가중치가 부여된 잔여 신호를 합성하는 수단;
    소정의 에너지 레벨의 상기 양자화된 벡터 d(i) 내의 에너지에 대한 비율의 함수인 스케일링 인자 k를 결정하기 위한 제 2 신호 프로세싱 수단;
    예측된 이득치를 하나 또는 그 이상의 사전에 프로세스된 서브 프레임들에 기초하여 결정하되, 상기 벡터의 진폭이 상기 스케일링 인자 k에 의하여 스케일링될 때 상기 양자화된 벡터 d(i) 또는 상기 다음 벡터 c(i) 의 에너지 Ec의 함수로서 결정하기 위한 제 3 신호 프로세싱 수단; 및
    상기 이득치 gc및 상기 예측된 이득치를 이용하여 양자화된 이득 정정 인자를 결정하기 위한 제 4 신호 프로세싱 수단을 구비하는 것을 특징으로 하는 음성 신호를 코딩하기 위한 장치.
  16. 디지털화 샘플링된 음성 신호의 코딩된 서브 프레임들의 시퀀스를 디코딩하기 위한 장치에 있어서, 상기 장치는 각 서브 프레임들을 순서대로 디코딩하기 위한 수단을 포함하며, 상기 수단은:
    상기 코딩된 신호로부터 적어도 하나의 펄스를 구비하는 양자화된 벡터 d(i)를 복원하기 위한 수단으로서, 상기 벡터 d(i) 내의 펄스들의 갯수 m 및 위치는 서브 프레임 마다 가변할 수 있는 제 1 신호 프로세싱 수단;
    상기 코딩된 신호로부터 양자화된 이득 정정 인자를 복원하기 위한 제 2 신호 프로세싱 수단;
    소정의 에너지 레벨의 상기 양자화된 벡터 d(i) 내의 에너지에 대한 비율의 함수인 스케일링 인자 k를 결정하기 위한 제 3 신호 프로세싱 수단;
    예측된 이득치를 하나 또는 그 이상의 사전에 프로세스된 서브 프레임들에 기초하여 결정하되, 상기 벡터의 진폭이 상기 스케일링 인자 k에 의하여 스케일링될 때 상기 양자화된 벡터 d(i) 또는 상기 양자화된 벡터로부터 유도되는 다음 벡터 c(i) 의 에너지 Ec의 함수로서 결정하기 위한 제 4 신호 프로세싱 수단; 및
    상기 양자화된 이득 정정 인자를 이용하여 상기 예측 이득치를 정정하여 정정된 이득치 gc를 제공하기 위한 정정 수단; 및
    상기 이득치 gc를 이용하여 상기 양자화된 벡터 d(i) 또는 상기 다음 벡터 c(i)의 진폭을 스케일링함으로써, 원본 서브 프레임으로부터 실질적인 리던던트 정보를 제거한 이후에도 원본 서브 프레임 내에 남아 있는 잔여 신호를 합성하는 여기 벡터를 생성하기 위한 스케일링 수단을 구비하는 것을 특징으로 하는 단계를 구비하는 것을 특징으로 하는 음성 신호를 코딩하기 위한 장치.
KR10-2000-7008992A 1998-03-09 1999-02-12 음성 코딩 KR100487943B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI980532 1998-03-09
FI980532A FI113571B (fi) 1998-03-09 1998-03-09 Puheenkoodaus

Publications (2)

Publication Number Publication Date
KR20010024935A true KR20010024935A (ko) 2001-03-26
KR100487943B1 KR100487943B1 (ko) 2005-05-04

Family

ID=8551196

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-7008992A KR100487943B1 (ko) 1998-03-09 1999-02-12 음성 코딩

Country Status (12)

Country Link
US (1) US6470313B1 (ko)
EP (1) EP1062661B1 (ko)
JP (1) JP3354138B2 (ko)
KR (1) KR100487943B1 (ko)
CN (1) CN1121683C (ko)
AU (1) AU2427099A (ko)
BR (1) BR9907665B1 (ko)
DE (1) DE69900786T2 (ko)
ES (1) ES2171071T3 (ko)
FI (1) FI113571B (ko)
HK (1) HK1035055A1 (ko)
WO (1) WO1999046764A2 (ko)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714907B2 (en) * 1998-08-24 2004-03-30 Mindspeed Technologies, Inc. Codebook structure and search for speech coding
AU766830B2 (en) * 1999-09-22 2003-10-23 Macom Technology Solutions Holdings, Inc. Multimode speech encoder
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
AU2001253752A1 (en) * 2000-04-24 2001-11-07 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US7037318B2 (en) * 2000-12-18 2006-05-02 Boston Scientific Scimed, Inc. Catheter for controlled stent delivery
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
JP3887598B2 (ja) * 2002-11-14 2007-02-28 松下電器産業株式会社 確率的符号帳の音源の符号化方法及び復号化方法
US7249014B2 (en) * 2003-03-13 2007-07-24 Intel Corporation Apparatus, methods and articles incorporating a fast algebraic codebook search technique
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
ES2358125T3 (es) * 2005-04-01 2011-05-05 Qualcomm Incorporated Procedimiento y aparato para un filtrado de antidispersión de una señal ensanchada de excitación de predicción de velocidad de ancho de banda.
JPWO2007129726A1 (ja) * 2006-05-10 2009-09-17 パナソニック株式会社 音声符号化装置及び音声符号化方法
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
WO2008056775A1 (fr) 2006-11-10 2008-05-15 Panasonic Corporation Dispositif de décodage de paramètre, dispositif de codage de paramètre et procédé de décodage de paramètre
JPWO2008072733A1 (ja) * 2006-12-15 2010-04-02 パナソニック株式会社 符号化装置および符号化方法
EP2159790B1 (en) * 2007-06-27 2019-11-13 NEC Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
US20090094026A1 (en) * 2007-10-03 2009-04-09 Binshi Cao Method of determining an estimated frame energy of a communication
CN101499281B (zh) * 2008-01-31 2011-04-27 华为技术有限公司 一种语音编码中的增益量化方法及装置
CN101609674B (zh) * 2008-06-20 2011-12-28 华为技术有限公司 编解码方法、装置和系统
CN101741504B (zh) * 2008-11-24 2013-06-12 华为技术有限公司 一种确定信号线性预测编码阶数的方法和装置
US7898763B2 (en) * 2009-01-13 2011-03-01 International Business Machines Corporation Servo pattern architecture to uncouple position error determination from linear position information
US20110051729A1 (en) * 2009-08-28 2011-03-03 Industrial Technology Research Institute and National Taiwan University Methods and apparatuses relating to pseudo random network coding design
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US8862465B2 (en) 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
US8325073B2 (en) * 2010-11-30 2012-12-04 Qualcomm Incorporated Performing enhanced sigma-delta modulation
US9626982B2 (en) 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
RU2591021C2 (ru) * 2011-02-15 2016-07-10 Войсэйдж Корпорейшн Устройство и способ для квантования усилений адаптивного и фиксированного вкладов возбуждения в кодеке celp
CN112741961A (zh) * 2020-12-31 2021-05-04 江苏集萃智能制造技术研究所有限公司 一种便携式集成tensems功能的电子脉冲刺激器

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
IT1232084B (it) * 1989-05-03 1992-01-23 Cselt Centro Studi Lab Telecom Sistema di codifica per segnali audio a banda allargata
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
IL95753A (en) * 1989-10-17 1994-11-11 Motorola Inc Digits a digital speech
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5754976A (en) 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
FR2668288B1 (fr) * 1990-10-19 1993-01-15 Di Francesco Renaud Procede de transmission, a bas debit, par codage celp d'un signal de parole et systeme correspondant.
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
DE69232202T2 (de) 1991-06-11 2002-07-25 Qualcomm Inc Vocoder mit veraendlicher bitrate
US5255339A (en) * 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
FI96248C (fi) 1993-05-06 1996-05-27 Nokia Mobile Phones Ltd Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin
FI98163C (fi) 1994-02-08 1997-04-25 Nokia Mobile Phones Ltd Koodausjärjestelmä parametriseen puheenkoodaukseen
SE506379C3 (sv) * 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
CA2177413A1 (en) * 1995-06-07 1996-12-08 Yair Shoham Codebook gain attenuation during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5692101A (en) * 1995-11-20 1997-11-25 Motorola, Inc. Speech coding method and apparatus using mean squared error modifier for selected speech coder parameters using VSELP techniques

Also Published As

Publication number Publication date
WO1999046764A2 (en) 1999-09-16
JP2002507011A (ja) 2002-03-05
JP3354138B2 (ja) 2002-12-09
FI113571B (fi) 2004-05-14
DE69900786D1 (de) 2002-02-28
BR9907665B1 (pt) 2013-12-31
AU2427099A (en) 1999-09-27
FI980532A (fi) 1999-09-10
BR9907665A (pt) 2000-10-24
CN1292914A (zh) 2001-04-25
EP1062661A2 (en) 2000-12-27
ES2171071T3 (es) 2002-08-16
FI980532A0 (fi) 1998-03-09
US6470313B1 (en) 2002-10-22
EP1062661B1 (en) 2002-01-09
CN1121683C (zh) 2003-09-17
KR100487943B1 (ko) 2005-05-04
DE69900786T2 (de) 2002-09-26
HK1035055A1 (en) 2001-11-09
WO1999046764A3 (en) 1999-10-21

Similar Documents

Publication Publication Date Title
KR100487943B1 (ko) 음성 코딩
EP0409239B1 (en) Speech coding/decoding method
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
KR100264863B1 (ko) 디지털 음성 압축 알고리즘에 입각한 음성 부호화 방법
EP2099028B1 (en) Smoothing discontinuities between speech frames
US20080065385A1 (en) Method for speech coding, method for speech decoding and their apparatuses
JP2002202799A (ja) 音声符号変換装置
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
KR20010099763A (ko) 광대역 신호들의 효율적 코딩을 위한 인식적 가중디바이스 및 방법
JPH10187196A (ja) 低ビットレートピッチ遅れコーダ
KR100700857B1 (ko) 전환 스피치 프레임의 다중 펄스 보간 코딩
US6205423B1 (en) Method for coding speech containing noise-like speech periods and/or having background noise
KR20020012509A (ko) 입력 신호의 보코딩 장치 및 방법
KR100561018B1 (ko) 음성 부호화 장치와 방법, 및 음성 복호화 장치와 방법
EP1093230A1 (en) Voice coder
EP1397655A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
EP1154407A2 (en) Position information encoding in a multipulse speech coder
JP4460165B2 (ja) 情報信号を符号化する方法および装置
Drygajilo Speech Coding Techniques and Standards
JP3065638B2 (ja) 音声符号化方式
JPH08202398A (ja) 音声符号化装置
KR100389898B1 (ko) 음성부호화에 있어서 선스펙트럼쌍 계수의 양자화 방법
JPH034300A (ja) 音声符号化復号化方式
WO2001009880A1 (en) Multimode vselp speech coder
Popescu et al. A DIFFERENTIAL, ENCODING, METHOD FOR THE ITP DELAY IN CELP

Legal Events

Date Code Title Description
G170 Re-publication after modification of scope of protection [patent]
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment
FPAY Annual fee payment
FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20180328

Year of fee payment: 14

EXPY Expiration of term