KR100480341B1 - 광대역 저전송률 음성 신호의 부호화기 - Google Patents

광대역 저전송률 음성 신호의 부호화기 Download PDF

Info

Publication number
KR100480341B1
KR100480341B1 KR10-2003-0015683A KR20030015683A KR100480341B1 KR 100480341 B1 KR100480341 B1 KR 100480341B1 KR 20030015683 A KR20030015683 A KR 20030015683A KR 100480341 B1 KR100480341 B1 KR 100480341B1
Authority
KR
South Korea
Prior art keywords
gain
signal
index
seed
block
Prior art date
Application number
KR10-2003-0015683A
Other languages
English (en)
Other versions
KR20040080726A (ko
Inventor
성호상
황대환
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2003-0015683A priority Critical patent/KR100480341B1/ko
Priority to US10/749,544 priority patent/US20040181398A1/en
Publication of KR20040080726A publication Critical patent/KR20040080726A/ko
Application granted granted Critical
Publication of KR100480341B1 publication Critical patent/KR100480341B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Abstract

본 발명은 음성신호 처리에 관한 것으로 특히 광대역 음성 신호의 부호화기에 관한 것이며 보다 상세하게는 광대역 저전송률 음성 신호의 부호화기에 관한 것으로, 고주파수로 샘플링된 음성 신호 프레임을 저주파수로 다운 샘플링 한 후, DC성분이 제거된 음성 신호 프레임을 생성하는 전처리 및 다운샘플링 블록; 상기 다운 샘플링된 음성 신호 프레임을 입력받아 상기 프레임의 선형 예측 계수를 구하고 이 계수를 ISP로 변환하여 양자화 시키며 상기 ISP의 인덱스를 생성하는 LPC분석 및 ISP양자화 블록; 상기 다운 샘플링된 음성 신호의 합성 필터의 여기 신호를 모델링하기 위한 잔차 신호를 산출하는 잔차신호 계산 블록; 상기 여기 신호의 모델링을 위한 랜덤벡터를 발생시키는 랜덤벡터 발생 블록; 상기 랜덤벡터를 스케일링하기 위한 이득을 산출하는 이득계산 블록; 및 상기 이득을 양자화하고, 상기 이득의 인덱스를 생성하는 이득 양자화 블록을 포함한다.

Description

광대역 저전송률 음성 신호의 부호화기{Apparatus for coding wide-band low bit rate speech signal}
본 발명은 음성신호 처리에 관한 것으로 특히 광대역 음성 신호의 부호화기에 관한 것이며 보다 상세하게는 광대역 저전송률 음성 신호의 부호화기에 관한 것이다.
음성신호의 부호화는 일반적으로 신호의 대역폭을 기준으로 하여 협대역 신호와 광대역 신호로 나누어 실시한다. 협대역 신호는 아날로그 입력 음성신호를 8 kHz로 샘플링을 한 16비트 선형 PCM 데이터를 음성 부호화기의 입력신호로 사용하며 광대역 신호는 아날로그 입력신호를 16 kHz로 샘플링 한 16비트 선형 PCM 데이터를 음성 부호화기의 입력신호로 사용한다.
전자의 입력을 이용하는 신호를 대상으로 한 음성 부호화 기술들은 ITU-T의 표준안 중에서 G.711 ~ G.712의 PCM 방식과 G.720 ~ G.729 시리즈 같은 PCM 이외의 방법으로 압축하는 방식이 있으며, 후자의 입력을 대상으로 하는 음성 코덱은 ITU-T의 G.722와 G.722.1, 그리고 IMT-2000에 사용 예정인 AMR-WB(G.722.2)가 있다. 대표적인 음성 신호의 부호화 방식을 언급하면 다음과 같다.
대표적인 협대역 음성의 부호화 방식의 하나로 ITU-T G.723.1을 들 수 있는데 이는 멀티미디어 신호를 저속으로 압축하기 위해 입력 음성을 5.3 또는 6.3 kbps의 dual rate로 압축하여 복원하는 알고리즘이며 유선망의 음성 품질(toll quality)을 제공한다. 그리고 G.723.1은 파형 코딩과 파라미터 코딩이 혼합된 하이브리드 코딩 기술을 사용하며 CELP(Code Excited Linear Prediction) 계열의 음성 부호화 방식이다.
ITU-T G.722는 광대역 음성 신호의 부호화 방식이며 64,56,48 kbps의 전송률을 가진다. face-to-face 통신 품질을 보유하고 있으며 대역을 두 개의 서브밴드로 나눈 후 각 밴드를 ADPCM(Adaptive Differential Pulse Code Modulation)을 이용하여 부호화한다.
3GPP AMR-WB(G.722.2)도 광대역 음성 신호의 부호화 방식이며 가장 최근에 표준화된 부호화 방식다. 이것은 늘어나는 이동통신의 수요를 확장하기 위해 IMT-2000에 응용할 목적으로 표준화되었다. 동일한 코덱을 ITU-T에서는 G.722.2로 명명하였으며 이는 유무선에 동시에 사용될 목적으로 표준화되었다. G.722.2은 9개의 전송률을 가지고 있으며 최대 23.85 kbps 이다. 최대 전송률에서 ITU-T G.722 64 kbps를 능가하는 음질을 제공한다.
유선망 수준의 톨 음질(toll quality)을 제공하는 저속의 음성 부호화기는 높은 주파수 효율로 인해 이동통신 및 인터넷 텔레포니 등에서 새로운 서비스를 가능하게 하였다. 특히 인터넷 망에서의 VoIP(Voice over Internet Protocol)는 저렴한 전화요금으로 인해 기하급수적으로 확산이 되고 있는 상태이나 그리 좋은 평가는 받고 있지 못하다.
인터넷을 이용한 음성 통신의 확산 추세에 걸림돌로 작용하는 낮은 음성 품질과 음성 처리 지연으로 인해 생기는 서비스 저하를 다양한 방법으로 극복해 보려는 시도가 계속되고 있다. 이런 시도의 일환으로 광대역 음성신호를 대상으로 VoIP 서비스를 시도하고 있는데 광대역 신호를 대상으로 한 서비스는 음성 품질 측면에서 많은 성능 향상을 가져오고 있다.
가장 최근에 발표된 광대역 음성 코덱(codec)은 위에서 언급한 바와 같이AMR-WB인데 일반적인 CELP(Code Excited Linear Prediction) 방식을 사용하고 있는데 9개의 전송률 모드가 있으며 가장 낮은 전송률이 6.6 kbps이다. 이 음성 코덱의 단점은 소스 제어 가변 전송 레이트(source controlled variable rate)를 지원하고 있지 않다는 즉, 규격에서 정한 레이트만 사용하기 때문에 입력 음성 신호의 특성이 반영되지 않는다는 점이다. 그리고 규격에서 제공하는 VAD(Voice Activity Detection) 알고리즘도 단지 입력 신호가 유성음인지 무성음인지(voiced or unvoiced)만 판단하기 때문에 특히 묵음(silence)으로 판별된 신호 구간의 전송에 있어서 문제점이 있다.
따라서 소스 제어 가변 전송 레이트를 완벽하게 지원하려면 입력 신호를 그 특성에 따라 정확하게 분류할 수 있는 VAD 알고리즘이 필요하며 이 결과에 따라 각 입력의 특성에 따른 전송률을 유연하게 결정함이 필요하다.
따라서 본 발명은 상기의 문제점을 해결하고 그 필요성에 부응하기 위해 창안된 것으로 본 발명의 목적 및 이루고자 하는 기술적 과제는 음성 신호의 특성에 따른 전송률을 유연하게 결정할 수 있는 특히, VAD 알고리즘에 의해 묵음(silence)로 판별된 음성 신호 구간을 위한 광대역 저전송률 음성 신호 부호화기를 제공함에 있다.
이와 같은 목적 및 기술적 과제를 달성하기 위하여 본 발명이 제공하는 광대역 저전송률 음성 코덱 부호화기는 고주파수로 샘플링된 음성 신호 프레임을 저주파수로 다운 샘플링 한 후, DC성분이 제거된 음성 신호 프레임을 생성하는 전처리 및 다운셈플링 블록; 상기 다운 샘플링된 음성 신호 프레임을 입력받아 상기 프레임의 선형 예측 계수를 구하고 이 계수를 ISP로 변환하여 양자화 시키며 상기 ISP의 인덱스를 생성하는 LPC분석 & ISP양자화 블록; 상기 다운 샘플링된 음성 신호의 합성 필터의 여기 신호를 모델링하기 위한 잔차 신호를 산출하는 잔차신호 계산 블록; 상기 여기 신호의 모델링을 위한 랜덤벡터를 발생시키는 랜덤벡터 발생 블록; 상기 랜덤벡터를 스케일링하기 위한 이득을 산출하는 이득 계산 블록; 및 상기 이득을 양자화하고, 상기 이득의 인덱스를 생성하는 이득 양자화 블록을 포함함을 그 특징으로 한다.
우선, 이해의 편의를 위해 본 발명의 구현 방식을 간단히 언급하면 다음과 같다.
본 발명은 광대역 음성신호를 하위대역(50~6400Hz)과 상위대역(6400~7000Hz)으로 분할하여, 이중에서 하위대역에 해당하는 50~6400Hz대역의 신호를 1.0kbps의 저전송률로 부호화/복호화하는 방식에 대한 것이다.
본 발명에서 제안한 부호화/복호화 방식은 VAD 알고리듬에 의해 음성 신호를 그 특성에 따라 voiced, unvoiced, music, background noise, onset, silence 등으로 구분하는 경우 이중에서 묵음(silence)에 해당하는 구간을 위한 저전송률 음성 부호화기 알고리즘을 제안하는 데 그 목적이 있다. 여기서 묵음으로 선택되는 구간의 신호는 낮은 레벨의 잡음(noise) 신호와 음성의 묵음신호를 의미한다.
본 발명의 구현에 적용되는 기본적인 방식은 LP(Linear Prediction) 분석을 이용하는 CELP(Code Excited Linear Prediction) 방식이다.
본 발명의 구현 태양을 간단히 살펴보면 먼저 음성신호를 20ms의 프레임으로 분리한다. 이러한 20ms 프레임에 대해서 단구간 상관도를 나타내는 LPC 계수(Linear Prediction Coding coefficient)를 구하는데 구하는 과정에서 선형 예측을 위해 5ms의 lookahead를 이용하므로 총 지연 시간은 25ms가 된다. 사용되는 LPC 계수의 차수는 16차이고 이 계수를 수학적으로 등가이면서 양자화와 안정화 체크에 유리한 ISP(Immittance Spectral Pair) 계수로 변환한다.
ISP 계수는 분할 양자화되며 분할 양자화에는 총 14 비트가 할당된다. 양자화된 LPC 계수는 2번째 부프레임을 위한 계수이며 첫번째 부프레임을 위한 계수는 이전 프레임에서 구한 LPC 계수와의 보간(interpolation)을 통하여 구할 수 있다. 각 부프레임에 대해서 양자화된 LPC 계수를 이용하여 분석 필터를 구성한 후 입력 신호를 통과시키면 잔차신호가 발생한다. 이 잔차신호를 모델링하기 위해 본 발명에서는 랜덤 시퀀스(random sequence)를 발생시켜서 적당한 이득을 곱하는 방식을 사용한다. 이득은 잔차신호와 랜덤 시퀀스 간의 크로스 상관(cross correlation)을 이용하여 구한다. 구해진 이득은 2차 MA예측기와 스칼라 양자화기를 사용하여 양자화된다. 이득의 양자화에는 부프레임당 3 비트, 총 6 비트를 이용하여 양자화한다. 그리고 다음 프레임을 위해서 메모리를 업데이트 한다.
이하 본 발명의 구성 및 작용을 본 발명의 최적의 실시예에 근거, 첨부 도면을 참조하여 상세히 설명하되 도면의 구성요소들에 참조번호를 부여함에 있어서 동일 구성요소에 대해서는 비록 다른 도면상에 있더라도 동일 참조번호를 부여하였으며 당해 도면에 대한 설명시 필요한 경우 다른 도면의 구성요소를 인용할 수 있음을 미리 밝혀둔다.
도 1은 일반적인 광대역 음성 신호 코덱의 오디오부의 기능적 구성도이다.
아날로그 음성 입력신호는 ADC/DAC(10)를 거쳐 디지털화되며 디지털화 된 음성 입력신호는 광대역 음성 코덱(Wideband speech codec,11)으로 입력된다. 부호화/복호화기(12)는 입력 신호를 부호화하여 패킷화한 후 채널(channel,13)로 전송한다. 채널(13)을 통해 전송 받은 패킷데이터는 부호화/복호화기(12)에 의해 복호화되며 복호화된 음성신호는 ADC/DAC(10)에 의해 아날로그화 된 후 스피커로 아날로그 음성 신호로 출력된다.
ADC/DAC(10)를 거쳐 광대역 음성 코덱(Wideband speech codec,11)으로 입력되는 신호의 형식은 16bit 형식을 가지는 16bit 선형 PCM(16bit linear Pulse Code Modulation) 신호이다. 이 입력신호의 구체적인 형태는 도 2에 제시되어 있다. 도 2에서 하위 2비트는 0으로 채워지므로 코덱에서 신호를 처리할 때는 비트를 2비트를 오른쪽으로 쉬프트해야 한다.
도 1에 제시된 광대역 음성 코덱(11)을 낮은 전송률로 구현하기 위해 일반적으로 CELP(Code Excited Linear Prediction) 방식의 부호화기를 많이 이용한다. 일반적인 CELP 방식의 부호화기는 도 3에 제시되어 있다.
먼저 입력 음성 신호[s(n)]는 전처리기(301)에 의해 전처리 과정을 거친 후 LPC 분석(302)을 거치게 된다.
여기서 A(z)은 분석필터를 의미하며 LPC 분석(302)을 통해서 구할 수 있다. {a}_{i}은 선형예측계수(Linear Prediction Coefficient : LPC)을 의미한다. 분석된 선형예측계수{a}_{i}은 양자화 과정을 거친 후 LP 합성필터(303)을 구성하며 이 필터의 함수는 아래 수학식 2에 제시되어 있다. m의 값에 따라 예측 차수가 결정이 되는데 보통 협대역의 음성코덱은 10을 차수로 사용하며 광대역의 음성 코덱은 16~20 정도의 차수를 사용한다.
수학식 2에서 H(z) 은 LPC 합성필터(303)를 의미하며은 양자화된 A(z)이고 는 양자화된 선형예측계수(LPC)이다. LPC는 전송을 위해서 양자화가 되며 양자화된 계수는 LPC 합성필터를 구성한다. LPC 합성필터(303)를 이용하여 폐루프를 돌면서 여기 신호(excitation signal)를 구한다. 여기신호를 구하기 위한 대상신호는 보통 입력신호를 적응가중 필터(304)를 사용한 결과를 이용하여 구할 수 있다. 이와 같이 적응가중 필터(304)를 사용한 신호를 대상으로 여기신호를 분석하여 구하면 더 우수한 복원음성을 얻을 수 있다. 여기 신호로는 적응 코드북(309)에서 구해지는 장구간 상관도 신호와 고정 코드북(307)에서 구해지는 단구간 상관도 신호가 있다. 이 두 신호에 적절한 이득(Gc, Gp)을 곱한 후에 합하면 LPC 합성필터(303)의 여기 신호가 된다.
CELP방식은 고정 코드북(307)과 적응 코드북(309)의 탐색시 직접 합성을 한 후에 분석을 하는 AbS(Analysis by Synthesis) 방식을 사용한다. 직접 합성을 해야 하므로 많은 계산량을 필요로 한다. 수학식 3은 적응 코드북(309)에서 구해지는 장구간 상관도 신호에 대한 LPC 합성필터(303)의 함수를 나타낸다.
수학식 3에서 중요한 값은 피치 분석(305)을 통해 얻어진 피치(pitch) 주기 T와 적절한 이득 Gp이다. 주기 T 이전의 과거의 합성신호[ {z}^{-T} ]를 이용하여 현재 신호를 장구간으로 예측을 하며 여기에 이득(Gp)을 곱해주면 현재의 장구간 상관도 신호[B(z)]가 된다. 이 장구간 상관도 신호의 중요 계수인 T와 Gp를 구한 후 더 정밀한 여기 신호를 구하기 위해 고정 코드북 탐색(306)을 실시한다.
고정 코드북 탐색(306)의 대상신호는 장구간 상관도를 구하기 위한 대상 신호에서 구해진 장구간 상관도 신호를 제하고 남은 신호이다. 고정 코드북(307)은 다양한 방식으로 구현이 되며, 최근에 가장 많이 사용되는 방식이 대수적 코드북(algebraic codebook) 구조이다. 이 방식은 코드북을 저장하기 위한 메모리가 필요 없으며 고속으로 원하는 innovation 신호를 구할 수 있다. 이 구조의 단점은 계산량이 많다는 것인데 최근에 다양한 빠른 알고리즘이 제안되어 있으므로 계산량이 그리 문제되지는 않는다. 대수적 코드북탐색을 통해서 나오는 계수는 펄스의 위치정보와 부호정보이다. 이렇게 고정 코드북이 구해지면 이 코드북에 해당하는 이득을 구해야 한다. 고정 코드북의 이득은 적응코드북의 이득과 함께 폐루프로 구해진다. 구해진 이득들은 이득 양자화 블록(311)에서 벡터 양자화 된다. 이와같이 전체 프레임에 대해 분석이 끝나면 구해진 계수들을 이용하여 파라메터 인코딩 블록(312)에서 비트스트림으로 부호화해서 전송을 한다.
일반적인 CELP 방식의 복호화기는 도 4에 나타나 있다. 복호화기는 도 3의 부호화기에서 전송된 비트 스트림을 이용하여 파라메터 디코딩 블록(401)에서 각 계수로 변환시킨 후에 각각 해당하는 모듈에서 사용한다.먼저 복호화된 LPC계수를 이용하여 LPC 합성필터(406)을 구성하고 고정 코드북(402)과 적응 코드북(404)의 인덱스를 복호화하여 각각 이득(Gc,Gp)을 곱한 후 여기 신호를 만들어 낸다. 이 신호를 LPC 합성필터(406)를 통과시키면 합성 신호가 발생하며 이 신호를 고품질의 아날로그 출력 음성으로 만들기 위해서 후처리 필터(407)를 거친다.
지금까지 일반적인 CELP의 구조에 대해 설명하였다. 본 발명은 이와 같은 CELP 구조를 이용하지만 저 전송률을 위해 피치 분석(305)과 고정 코드북 탐색(306)을 하지 않고, 이 부분에 랜덤 시퀀스를 발생시켜 여기 신호를 모델링한다.
도 5는 본 발명이 제공하는 부호화기의 구성도이다. 본 발명이 제공하는 음성 코덱 부호화기(50)는 50~6400Hz의 대역을 사용하며 1.0 kbps의 전송률을 갖도록 설계되었다. ISP, 이득(Gain)의 2가지 특징 파라미터(ISP Index, Gain Index)를 추출하여 복호화기에 전송하게 되며 각 파라미터 당 2개의 부프레임으로 구성되고 각 프레임에 대한 비트 할당은 도 7에 제시되어 있다.
본 발명이 제공하는 도 5의 부호화기에서는 프레임 단위로 분석이 이루어지게 된다.
전처리 및 다운샘플링(pre-processing & down sampling) 블록(501)에서는 16kHz로 샘플링된 입력음성신호를 12.8kHz로 다운 샘플링 한 후, 50Hz이하의 DC성분이 제거된 신호를 만든다.
LPC분석 및 ISP양자화(LPC analysis & ISP Quantization) 블록(502)은 이 신호를 입력받아 자기 상관 함수(autocorrelation function)를 통한 Levinson-Durbin 방법을 이용하여 선형 예측 계수를 구한다. 선형 예측의 차수는 16차이며 이 계수를 이용하여 앞에서 언급한 수학식 1에 의해 음성 신호의 단구간 상관도[A(z)]를 분석한다.
상기 ai 을 양자화시켜을 획득한 후, 을 이용하여 합성 필터를 구성하므로 이 계수를 이용하여 양자화 에러를 최소화하면서 양자화하는 과정이 중요하다. 하지만 LPC 계수는 동적 범위가 크기 때문에 양자화에 불리하다. 그래서 동적 범위도 적고 안정성 체크도 쉬우면서 수학적으로 LPC 계수와 등가인 ISP(Immittance spectral pairs) 계수로 변환하여 양자화를 한다.
ISP 계수의 양자화는 분할 벡터 양자화(Split Vector Quantization, SVQ)방식으로 양자화된다. 양자화에는 총 14비트가 소요되며 2 split으로 이루어져 있다. 두 개의 split 된 코드북을 이용하여 각각 7비트로 양자화를 한다.
양자화된 단구간 상관도를 이용한 합성 필터는 앞에서 언급한 수학식 2과 같이 나타난다. 수학식 2에서 는 양자화된 LPC 계수를 의미하고 m은 예측 차수를 의미하며 본 발명에서는 m값으로 16을 사용한다.
나머지 과정은 앞에서 구해진 LP 합성필터의 여기 신호를 모델링하는 과정이며 부프레임 단위로 수행된다.
먼저 잔차신호 계산 블록(503)은 전처리 및 다운샘플링 블록(501)의 출력 신호를 수학식 3에 의한 분석 필터에 통과시켜 잔차(residual) 신호를 구한다. 이 잔차 신호는 합성 필터의 여기 신호를 모델링하는 타깃(target) 신호가 된다.
이 여기 신호를 모델링하기 위해 랜덤벡터를 이용한다. 이 랜덤벡터는 통상 가우시안(Gaussian)이다. 모델링은 가우시안 랜덤벡터를 이용하여 랜덤 시퀀스를 발생시킨 후 여기에 적절한 이득(gain)을 곱하는 방식을 사용한다. 랜덤벡터 발생 블록(505)을 통해 구해지는 랜덤벡터는 씨드 발생(seed generation) 블록(504)을 통해 아래 수학식 4를 이용하여 구해지는 seed를 입력받아 도 7에 제시된 부프레임의 샘플 개수만큼 저장하는 방식을 이용하여 구할 수 있다. seed는 계속 업데이트 되므로 한번만 결정해 주면 나머지는 순서대로 생성이 된다.
seed = (Word16)(seed * 31821(=0x7c4d) + 13849(=0x3619))
(Word16)은 16비트 integer 값을 의미한다. seed는 항상 위 식에 의해 업데이트 되지만 만일 프레임 삭제(frame erasure)가 발생하면 인코더와 디코더가 다른 값을 갖는 현상이 발생한다. 이런 프레임 삭제에 대처하기 위해 seed값을 전송된 파라미터를 이용하여 생성시키는 방식을 이용한다.
씨드 발생 블록(504)을 통한 seed 생성은 LPC분석 및 ISP양자화 블록(502)으로부터 전송된 인덱스 2개를 이용하여 도 8에 제시된 방식으로 구할 수 있다.
도 8은 seed 생성의 방식을 C 프로그래밍 언어로 작성한 것을 보여주는 도면이다.
먼저 ①에서 lpc_ind[0]은 전송된 LPC 파라미터의 첫번째 인덱스를 의미한다. ②에서 lpc_ind[1]은 전송된 LPC 파라메터의 두번째 인덱스를 의미한다.
seed 0을 구하기 위해 ③에서 lpc_ind[0]를 shift left 8bit를 한 후, ④에서 이 값과 lpc_ind[1]을 배타적 OR연산을 한 결과를 16비트의 자연수로 저장한다. 그리고 seed 1을 구하기 위해 ⑤에서 lpc_ind[1]을 8비트 왼쪽으로 쉬프트한 후, ⑥에서 이 값과 lpc_ind[0]를 배타적 OR연산을 한 결과를 16비트의 자연수로 저장한다. 이렇게 해서 seed 0과 seed 1이 결정되면 ⑦,⑧에서 이중 큰 값을 최종적으로 seed로 결정한다.
랜덤벡터 발생 블록(505)은 이렇게 구해진 seed를 이용하여 부프레임 단위로 랜덤벡터를 구하게 되며 각 서브프레임의 랜덤벡터는 128개가 된다.
이득 계산(Gain computation) 블록(506)은 구해진 랜덤벡터에 곱해지는 이득을 구하는 부분이다. 즉, 최종적으로 이득에 의해서 스케일링된 랜덤벡터는 LP 합성필터(604)의 여기 신호가 된다.
이득은 앞에서 구해진 LP 잔차 신호인 r(n)와 랜덤벡터를 이용하여 아래의 수학식 5에 의해 gain( {g}_{s})을 구한다.
0.75는 이득 감쇄 팩터(gain attenuation factor)이며,은 랜덤벡터를 의미한다. 이득 양자화(gain quantization) 블록(508)에서 현재 부프레임의 gain[ {g}_{s}(n) ]의 양자화는 2차 MA 예측기(Moving Average predictor, 91)를 이용하여 예측된 값을 뺀 예측에러벡터를 양자화함으로써 이루어진다. 도 9는 gain[ {g}_{s}(n) ]의 양자화기를 나타낸 것이다. 양자화기(90)의 입력신호인 예측에러벡터 c(n)은 다음과 같이 나타낼 수 있다.
여기서 gs(n)은 이득 계산 블록(506)에서 구해진 이득이며, 예측 벡터 p(n)은 수학식 7과 같이 이전 부프레임에서 이미 양자화된 예측에러 벡터 을 이용한 2차 MA 예측기(91)를 사용해서 구한다.
여기서는 n번째 프레임에서 양자화된 예측 에러벡터이며 gj 는 MA 예측기(91)의 계수이다. 본 발명에서 [g1, g2]값은 [0.28, 0.11]로 설정된다. 양자화된 gain[]은 수학식 8과 같이 양자화된 예측에러 벡터[]에 예측벡터[p(n)]를 더함으로써 구할 수 있다.
도 9의 양자화기는 현재 프레임의 예측 에러벡터인 c(n)값을 스칼라 양자화한다. 스칼라 양자화는 총 3비트를 사용하므로 8개의 코드워드를 갖는다. 양자화 과정이 끝나면 갱신필터 메모리(Update filter memory) 블록(507)에서 다음 프레임을 위한 메모리 갱신을 실시한다.
메모리 갱신은 부호화 대상 음성신호버퍼, 가중 처리된 음성신호 버퍼, 그리고 여기 신호 버퍼를 갱신한다. 프레임별로 부호화가 끝난 후, 디코더로 실제 전송되는 인덱스는 LPC 양자화기의 인덱스(LPC Index) 14 비트와 이득 양자화기의 인덱스(Gain index) 6 비트로 총 20 비트가 된다.
도 6은 복호화기(decoder)의 구성도이다. 복호화기는 전송된 인덱스(LPC Index, Gain index)를 이용하여 LP 합성 필터(604)를 구성하고 603 블록의 이득( {g}_{s} )을 구한다. 그리고 전송된 LPC 인덱스를 이용하여 씨드 발생 블록(601)을 통해 도 8에 제시된 방식과 마찬가지로 seed를 구하고, 이 seed를 이용하여 랜덤벡터 발생 블록(602)은 랜덤벡터를 생성한다. 이 랜덤벡터에 이득( gs )을 곱한 신호가 LP 합성 필터(Synthesys Filter)(604)의 여기 신호가 된다. 이 여기 신호를 LP 합성 필터(604)를 통과시키면 합성된 음성신호가 복원된다.
이제까지 본 발명에 대하여 그 바람직한 실시 태양을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다.
그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
본 발명에 의하면, 음성 신호의 특성에 따른 전송률을 유연하게 결정할 수 있으며 특히, 묵음(silence)으로 판별된 음성 신호 구간을 위한 광대역 저전송률 음성 신호를 효율적으로 부호화/복호화할 수 있다. 아울러 본 발명을 이용한 후 보다 높은 밴드 모멜링(higher band modeling) 기법을 이용하여 6.4 ~ 7kHz의 대역만 발생시켜서 더해주면 완전한 광대역 음성 부호화를 실현할 수 있는 이점도 있다.
도 1은 일반적인 광대역 음성 신호 코덱의 오디오부의 기능적 구성도이다.
도 2는 16bit 선형 PCM 신호의 포맷을 나타낸 도면이다.
도 3은 일반적인 CELP 방식의 부호화기의 구성도이다.
도 4는 일반적인 CELP 방식의 복호화기의 구성도이다.
도 5는 본 발명이 제공하는 부호화기의 일실시예의 구성도이다.
도 6은 복호화기의 구성도이다.
도 7은 본 발명에 의한 부호화기의 비트 할당을 나타내는 도면이다.
도 8은 seed 생성의 방식을 C 프로그래밍 언어로 작성한 것을 보여주는 도면이다.
도 9는 이득의 양자화기를 나타낸 도면이다.
<도면의 주요 부호에 대한 설명>
501: 전처리 및 다운샘플링(pre-processing & down sampling) 블록
502: LPC분석 및 ISP양자화(LPC analysis & ISP quantization) 블록
503: 잔차신호 계산(residual signal computation) 블록
504: 씨드 발생(seed generation) 블록
505: 랜덤벡터 발생(random vector generation) 블록
506: 이득 계산(gain computation) 블록
507: 갱신필터 메모리(update filter memory) 블록
508: 이득 양자화(gain quantization) 블록

Claims (7)

  1. 고주파수로 샘플링된 음성 신호 프레임을 저주파수로 다운 샘플링 한 후, DC성분이 제거된 음성 신호 프레임을 생성하는 전처리 및 다운샘플링 블록;
    상기 다운 샘플링된 음성 신호 프레임을 입력받아 상기 프레임의 선형 예측 계수를 구하고 이 계수를 ISP로 변환하여 양자화 시키며 상기 ISP의 인덱스를 생성하는 LPC분석 및 ISP양자화 블록;
    상기 다운 샘플링된 음성 신호의 합성 필터의 여기 신호를 모델링하기 위한 잔차 신호를 산출하는 잔차신호 계산 블록;
    상기 여기 신호의 모델링을 위한 랜덤벡터를 발생시키는 랜덤벡터 발생 블록;
    상기 랜덤벡터를 스케일링하기 위한 이득을 산출하는 이득 계산 블록; 및
    상기 이득을 양자화하고, 상기 이득의 인덱스를 생성하는 이득 양자화 블록을 포함함을 특징으로 하는 광대역 저전송률 음성 신호의 부호화기.
  2. 제 1 항에 있어서, 상기 모델링은
    상기 음성 신호 프레임의 두 개 부프레임 단위로 이루어지며, 상기 랜덤벡터를 이용하여 랜덤 시퀀스를 발생시킨 후 상기 이득을 곱하여 이루어짐을 특징으로 하는 광대역 저전송률 음성 신호의 부호화기.
  3. 제 2 항에 있어서, 상기 랜덤벡터는
    소정의 방식으로 생성된 seed를 상기 부프레임의 샘플 개수만큼 저장하여 발생됨을 특징으로 하는 광대역 저전송률 음성 신호의 부호화기.
  4. 제 3 항에 있어서, 상기 seed의 생성은
    상기 LPC분석 & ISP양자화 블록으로부터 전송된 2개의 인덱스를 이용하며, 상기 인덱스 중 첫 번째 인덱스를 8 비트 왼쪽으로 쉬프트한 값을 구한 후 이 값과 상기 인덱스 중 두 번째 인덱스의 배타적 OR 연산 결과를 제1 seed값(seed 0)로 하고, 상기 두 번째 인덱스를 8 비트 왼쪽으로 쉬프트한 값을 구한 후 이 값과 상기 첫 번째 인덱스의 배타적 OR 연산을 한 결과를 제2 seed값(seed 1)으로 하여 상기 seed 0과 seed 1 중 큰 값을 최종 seed 값으로 결정하여 이루어짐을 특징으로 하는 광대역 저전송률 음성 신호의 부호화기.
  5. 제 1 항에 있어서, 상기 이득은
    상기 잔차 신호와 상기 랜덤벡터를 근거로 산출됨을 특징으로 하는 광대역 저전송률 음성 신호의 부호화기.
  6. 제 1 항에 있어서, 상기 ISP 인덱스와 이득 인덱스는 각각 14 비트, 6 비트로 양자화됨을 특징으로 하는 광대역 저전송률 음성 신호의 부호화기.
  7. 제 1 항에 있어서, 상기 이득의 양자화는
    상기 이득에서 이전 프레임에 대하여 이미 양자화된 예측에러벡터 값에 대하여 예측된 값을 뺀 현재 예측에러벡터를 양자화하여 이루어짐을 특징으로 하는 광대역 저전송률 음성 신호의 부호화기.
KR10-2003-0015683A 2003-03-13 2003-03-13 광대역 저전송률 음성 신호의 부호화기 KR100480341B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2003-0015683A KR100480341B1 (ko) 2003-03-13 2003-03-13 광대역 저전송률 음성 신호의 부호화기
US10/749,544 US20040181398A1 (en) 2003-03-13 2003-12-30 Apparatus for coding wide-band low bit rate speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0015683A KR100480341B1 (ko) 2003-03-13 2003-03-13 광대역 저전송률 음성 신호의 부호화기

Publications (2)

Publication Number Publication Date
KR20040080726A KR20040080726A (ko) 2004-09-20
KR100480341B1 true KR100480341B1 (ko) 2005-03-31

Family

ID=32960213

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0015683A KR100480341B1 (ko) 2003-03-13 2003-03-13 광대역 저전송률 음성 신호의 부호화기

Country Status (2)

Country Link
US (1) US20040181398A1 (ko)
KR (1) KR100480341B1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006107833A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for vector quantizing of a spectral envelope representation
US9043214B2 (en) * 2005-04-22 2015-05-26 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
KR100789368B1 (ko) * 2005-05-30 2007-12-28 한국전자통신연구원 잔차 신호 부호화 및 복호화 장치와 그 방법
US7599833B2 (en) 2005-05-30 2009-10-06 Electronics And Telecommunications Research Institute Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
DE102006022346B4 (de) 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
KR101244310B1 (ko) * 2006-06-21 2013-03-18 삼성전자주식회사 광대역 부호화 및 복호화 방법 및 장치
KR101366086B1 (ko) * 2007-01-03 2014-02-21 삼성전자주식회사 잔차 블록의 계수들에 대한 부호화 결정 방법, 장치,인코더 및 디코더
US20090043577A1 (en) * 2007-08-10 2009-02-12 Ditech Networks, Inc. Signal presence detection using bi-directional communication data
US20110026581A1 (en) * 2007-10-16 2011-02-03 Nokia Corporation Scalable Coding with Partial Eror Protection
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR9206143A (pt) * 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5871400A (en) * 1996-06-18 1999-02-16 Silicon Gaming, Inc. Random number generator for electronic applications
KR20030096444A (ko) * 1996-11-07 2003-12-31 마쯔시다덴기산교 가부시키가이샤 음원 벡터 생성 장치 및 방법
CA2202025C (en) * 1997-04-07 2003-02-11 Tero Honkanen Instability eradicating method and device for analysis-by-synthesis speeech codecs
IL129752A (en) * 1999-05-04 2003-01-12 Eci Telecom Ltd Telecommunication method and system for using same
US6775649B1 (en) * 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US7146309B1 (en) * 2003-09-02 2006-12-05 Mindspeed Technologies, Inc. Deriving seed values to generate excitation values in a speech coder
GB0326262D0 (en) * 2003-11-11 2003-12-17 Nokia Corp Speech codecs

Also Published As

Publication number Publication date
US20040181398A1 (en) 2004-09-16
KR20040080726A (ko) 2004-09-20

Similar Documents

Publication Publication Date Title
JP5357055B2 (ja) 改良形デジタルオーディオ信号符号化/復号化方法
CA2923218C (en) Adaptive bandwidth extension and apparatus for the same
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
KR100391527B1 (ko) 음성 부호화 장치, 기록 매체, 음성 복호화 장치, 신호 처리용 프로세서, 음성 부호화 복호화 시스템, 통신용 기지국, 통신용 단말 및 무선 통신 시스템
JP6692948B2 (ja) 異なるサンプリングレートを有するフレーム間の移行による音声信号の線形予測符号化および復号のための方法、符号器および復号器
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
JP4302978B2 (ja) 音声コーデックにおける擬似高帯域信号の推定システム
KR20010093208A (ko) 주기적 음성 코딩
JPH10187197A (ja) 音声符号化方法及び該方法を実施する装置
US20070219787A1 (en) Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US20040111257A1 (en) Transcoding apparatus and method between CELP-based codecs using bandwidth extension
KR20040095205A (ko) Celp를 기반으로 하는 음성 코드간 변환코딩 방식
KR100656788B1 (ko) 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더
KR100480341B1 (ko) 광대역 저전송률 음성 신호의 부호화기
KR20010112480A (ko) 전환 스피치 프레임의 멀티펄스 보간 코딩
US9418671B2 (en) Adaptive high-pass post-filter
KR100499047B1 (ko) 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법
KR20100048792A (ko) 음성 신호의 부호화/복호화 방법 및 장치
KR100465316B1 (ko) 음성 부호화기 및 이를 이용한 음성 부호화 방법
Schnitzler A 13.0 kbit/s wideband speech codec based on SB-ACELP
WO2003001172A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
JP3232701B2 (ja) 音声符号化方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130304

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140303

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20150226

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee