KR101997037B1

KR101997037B1 - 선형예측계수 양자화장치, 사운드 부호화장치, 선형예측계수 역양자화장치, 사운드 복호화장치와 전자기기

Info

Publication number: KR101997037B1
Application number: KR1020180060687A
Authority: KR
Inventors: 성호상; 오은미
Original assignee: 삼성전자주식회사
Priority date: 2011-04-21
Filing date: 2018-05-28
Publication date: 2019-07-05
Also published as: BR112013027092A2; CN105336337A; TWI591622B; ZA201308710B; TWI672692B; CN103620675A; US20120271629A1; KR20180063007A; TW201243829A; CA2833868A1; CN105336337B; SG194580A1; CN105244034B; US20150162016A1; JP2014512028A; RU2013151798A; MY166916A; AU2017200829B2; WO2012144877A2; MY190996A

Abstract

저복잡도로 효율적으로 LPC 계수를 양자화하기 위하여, 입력신호의 양자화 이전에, 프레임간 예측을 사용하지 않는 제1 경로와, 프레임간 예측을 사용하는 제2 경로를 포함하는 복수의 경로 중 하나를 소정 기준에 근거하여 상기 입력신호의 양자화 경로로 선택하는 양자화경로 선택부; 상기 입력신호의 양자화 경로로 상기 제1 경로가 선택된 경우, 상기 프레임간 예측을 사용하지 않는 제1 양자화 스킴을 이용하여 상기 입력신호를 양자화하는 제1 양자화부; 및 상기 입력신호의 양자화 경로로 상기 제2 경로가 선택된 경우, 상기 프레임간 예측을 사용하는 제2 양자화 스킴을 이용하여 상기 입력신호를 양자화하는 제2 양자화부를 포함한다.

Description

선형예측계수 양자화장치, 사운드 부호화장치, 선형예측계수 역양자화장치, 사운드 복호화장치와 전자기기 {Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for inverse quantizing linear predictive coding coefficients, sound decoding method, recoding medium and electronic device}

본 발명은 선형예측계수 양자화 및 역양자화에 관한 것으로서, 보다 구체적으로는 낮은 복잡도로 선형예측계수를 효율적으로 양자화하는 장치, 이를 채용하는 사운드 부호화장치, 선형예측계수 역양자화장치, 이를 채용하는 사운드 복호화장치, 및 전자기기에 관한 것이다.

음성 혹은 오디오와 같은 사운드 부호화 시스템에서는 사운드의 단구간 주파수 특성을 표현하기 위하여 선형예측부호화(Linear Predictive Coding, 이하 LPC라 약함) 계수가 사용된다. LPC 계수는 입력 사운드를 프레임 단위로 나누고, 각 프레임별로 예측 오차의 에너지를 최소화시키는 형태로 구해진다. 그런데, LPC 계수는 다이나믹 레인지가 크고, 사용되는 LPC 필터의 특성이 LPC 계수의 양자화 에러에 매우 민감하여 필터의 안정성이 보장되지 않는다.

이에, LPC 계수를 필터의 안정성 확인이 용이하고 보간에 유리하며 양자화 특성이 좋은 다른 계수로 변환하여 양자화를 수행하는데, 주로 선 스펙트럼 주파수(Line Spectral Frequency, 이하 LSF라 약함) 혹은 이미턴스 스펙트럼 주파수(Immittance Spectral Frequency, 이하 ISF라 약함)로 변환하여 양자화하는 것이 선호되고 있다. 특히, LSF 계수의 양자화기법은 주파수영역 및 시간영역에서 가지는 LSF 계수의 프레임간 높은 상관도를 이용함으로써 양자화 이득을 높일 수 있다.

LSF 계수는 단구간 사운드의 주파수 특성을 나타내며, 입력 사운드의 주파수 특성이 급격히 변하는 프레임의 경우, 해당 프레임의 LSF 계수 또한 급격히 변화한다. 그런데, LSF 계수의 프레임간 높은 상관도를 이용하는 프레임간 예측기를 포함하는 양자화기의 경우, 급격히 변화하는 프레임에 대해서는 적절한 예측이 불가능하여 양자화 성능이 떨어진다. 따라서, 입력 사운드의 각 프레임별 신호 특성에 대응하여 최적화된 양자화기를 선택할 필요가 있다.

본 발명이 해결하고자 하는 과제는 낮은 복잡도로 LPC 계수를 효율적으로 양자화하는 장치, 이를 채용하는 사운드 부호화장치, LPC 계수 역양자화장치, 이를 채용하는 사운드 복호화장치와 전자기기를 제공하는데 있다.

상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 양자화 장치는, 입력신호의 양자화 이전에, 프레임간 예측을 사용하지 않는 제1 경로와, 프레임간 예측을 사용하는 제2 경로를 포함하는 복수의 경로 중 하나를 소정 기준에 근거하여 상기 입력신호의 양자화 경로로 결정하는 양자화경로 결정부; 상기 입력신호의 양자화 경로로 상기 제1 경로가 결정된 경우, 상기 프레임간 예측을 사용하지 않는 제1 양자화 스킴을 이용하여 상기 입력신호를 양자화하는 제1 양자화부; 및 상기 입력신호의 양자화 경로로 상기 제2 경로가 결정된 경우, 상기 프레임간 예측을 사용하는 제2 양자화 스킴을 이용하여 상기 입력신호를 양자화하는 제2 양자화부를 포함한다.

상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 사운드 부호화장치는 입력신호의 부호화 모드를 결정하는 부호화 모드 결정부; 상기 입력신호의 양자화 이전에, 프레임간 예측을 사용하지 않는 제1 경로와, 프레임간 예측을 사용하는 제2 경로를 포함하는 복수의 경로 중 하나를 소정 기준에 근거하여 상기 입력신호의 양자화 경로로 선택하고, 선택된 양자화 경로에 따라서 제1 양자화 스킴과 제2 양자화 스킴 중 하나를 이용하여 상기 입력신호를 양자화하는 양자화부; 상기 양자화된 입력신호를 상기 부호화 모드에 대응하여 부호화하는 가변모드 부호화부; 및 상기 제1 양자화 스킴에 의해 양자화된 결과와 상기 제2 양자화 스킴에 의해 양자화된 결과 중 하나, 상기 입력신호의 상기 부호화 모드와, 상기 입력신호의 양자화와 관련된 경로 정보를 포함하는 비트스트림을 생성하는 파라미터 부호화부를 포함한다.

상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 역양자화 장치는 비트스트림에 포함된 경로 정보에 근거하여, 프레임간 예측을 사용하지 않는 제1 경로와, 프레임간 예측을 사용하는 제2 경로를 포함하는 복수의 경로 중 하나를 선형예측 부호화 파라미터의 역양자화 경로로 결정하는 양자화경로 결정부; 상기 선형예측 부호화 파라미터의 역양자화 경로로 상기 제1 경로가 결정된 경우, 제1 역양자화 스킴을 이용하여 상기 선형예측 부호화 파라미터를 역양자화하는 제1 역양자화부; 및 상기 선형예측 부호화 파라미터의 역양자화 경로로 상기 제2 경로가 결정된 경우, 제2 역양자화 스킴을 이용하여 상기 선형예측 부호화 파라미터를 역양자화하는 제2 역양자화부를 포함하며, 상기 경로 정보는 부호화단에서 입력신호의 양자화 이전에, 소정 기준에 근거하여 결정된다.

상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 사운드 복호화장치는 비트스트림에 포함된 선형예측 부호화 파라미터와 부호화 모드를 복호화하는 부호화모드 복호화부; 상기 비트스트림에 포함된 경로 정보에 근거하여, 프레임간 예측을 사용하지 않는 제1 역양자화 스킴과 상기 프레임간 예측을 사용하는 제2 역양자화 스킴 중 하나를 이용하여 상기 복호화된 선형예측 부호화 파라미터를 역양자화하는 역양자화부; 및 상기 역양자화된 선형예측 부호화 파라미터를 상기 복호화된 부호화 모드에 대응하여 복호화하는 가변모드 복호화부를 포함하며, 상기 경로 정보는 부호화단에서 입력신호의 양자화 이전에, 소정 기준에 근거하여 결정된다.

상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 전자기기는 사운드신호와 부호화된 비트스트림 중 적어도 하나를 수신하거나, 부호화된 사운드신호와 복원된 사운드 중 적어도 하나를 송신하는 통신부; 및 상기 수신된 사운드신호의 양자화 이전에, 프레임간 예측을 사용하지 않는 제1 경로와, 프레임간 예측을 사용하는 제2 경로를 포함하는 복수의 경로 중 하나를 소정 기준에 근거하여 상기 입력신호의 양자화 경로로 선택하고, 선택된 양자화 경로에 따라서 제1 양자화 스킴과 제2 양자화 스킴 중 하나를 이용하여 상기 수신된 사운드신호를 양자화하고, 상기 양자화된 사운드 신호를 상기 부호화 모드에 대응하여 부호화하는 부호화 모듈을 포함한다.

상기 과제를 달성하기 위한 본 발명의 다른 실시예에 따른 전자기기는 사운드신호와 부호화된 비트스트림 중 적어도 하나를 수신하거나, 부호화된 사운드신호와 복원된 사운드 중 적어도 하나를 송신하는 통신부; 및 상기 비트스트림에 포함된 선형예측 부호화 파라미터와 부호화 모드를 복호화하고, 상기 비트스트림에 포함된 경로 정보에 근거하여, 프레임간 예측을 사용하지 않는 제1 역양자화 스킴과 상기 프레임간 예측을 사용하는 제2 역양자화 스킴 중 하나를 이용하여 상기 복호화된 선형예측 부호화 파라미터를 역양자화하고, 상기 역양자화된 선형예측 부호화 파라미터를 상기 복호화된 부호화 모드에 대응하여 복호화하는 복호화 모듈을 포함하며, 상기 경로 정보는 부호화단에서 상기 사운드신호의 양자화 이전에, 소정 기준에 근거하여 결정된다.

상기 과제를 달성하기 위한 본 발명의 또 다른 실시예에 따른 전자기기는 사운드신호와 부호화된 비트스트림 중 적어도 하나를 수신하거나, 부호화된 사운드신호와 복원된 사운드 중 적어도 하나를 송신하는 통신부; 상기 수신된 사운드신호의 양자화 이전에, 소정 기준에 근거하여, 프레임간 예측을 사용하지 않는 제1 경로와, 프레임간 예측을 사용하는 제2 경로를 포함하는 복수의 경로 중 하나를 상기 입력신호의 양자화 경로로 선택하고, 선택된 양자화 경로에 따라서 제1 양자화 스킴과 제2 양자화 스킴 중 하나를 이용하여 상기 수신된 사운드신호를 양자화하고, 상기 양자화된 사운드 신호를 상기 부호화 모드에 대응하여 부호화하는 부호화 모듈; 및 비트스트림에 포함된 선형예측 부호화 파라미터와 부호화 모드를 복호화하고, 상기 비트스트림에 포함된 경로 정보에 근거하여, 프레임간 예측을 사용하지 않는 제1 역양자화 스킴과 상기 프레임간 예측을 사용하는 제2 역양자화 스킴 중 하나를 이용하여 상기 복호화된 선형예측 부호화 파라미터를 역양자화하고, 상기 역양자화된 선형예측 부호화 파라미터를 상기 복호화된 부호화 모드에 대응하여 복호화하는 복호화 모듈을 포함한다.

본 발명에 따르면, 음성 혹은 오디오 신호를 보다 효율적으로 양자화하기 위하여, 음성 혹은 오디오 신호의 특성에 따라서 복수의 부호화 모드로 나누고, 각 부호화 모드에 적용되는 압축율에 따라서 다양한 비트수를 할당함에 있어서, 각 부호화 모드에 대응하여 저복잡도로 최적의 양자화기를 선택할 수 있다.

도 1은 본 발명의 일실시예에 따른 사운드 부호화장치의 구성을 나타낸 블록도이다.
도 2a 내지 도 2d는 도 1에 도시된 부호화 모드 선택부(105)에서 선택될 수 있는 다양한 부호화모드의 예를 나타낸 것이다.
도 3은 본 발명의 일실시예에 따른 LPC 양자화부의 구성을 나타낸 블록도이다.
도 4는 본 발명의 일실시예에 따른 가중함수 결정부의 구성을 나타낸 블록도이다.
도 5는 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.
도 6은 본 발명의 일실시예에 따른 양자화경로 결정부의 구성을 나타낸 블록도이다.
도 7a 및 도 7b는 도 6에 도시된 양자화경로 결정부의 예들에 따른 동작을 설명하는 플로우챠트이다.
도 8는 본 발명의 일실시예에 따른 양자화경로 결정부의 구성을 나타낸 블록도이다.
도 9는 코덱 서비스를 제공할 때 네트워크 단에서 전송이 가능한 채널의 상태에 대한 정보를 설명하는 도면이다.
도 10은 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.
도 11은 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.
도 12는 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.
도 13은 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.
도 14는 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.
도 15는 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.
도 16a 및 도 16b은 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.
도 17a 내지 도 17c는 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.
도 18은 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.
도 19는 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.
도 20은 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.
도 21은 본 발명의 일실시예에 따른 양자화기 타입 선택부의 구성을 설명하는 도면이다.
도 22는 본 발명의 일실시예에 따른 양자화기 타입 선택방법의 동작을 설명하는 도면이다.
도 23은 본 발명의 일실시예에 따른 사운드 복호화장치의 구성을 나타낸 블록도이다.
도 24는 본 발명의 일실시예에 따른 LPC 계수 역양자화부의 구성을 나타낸 블록도이다.
도 25는 본 발명의 일실시예에 따른 LPC 계수 역양자화부의 세부적인 구성을 나타낸 블록도이다.
도 26은 도 25에 도시된 LPC 계수 역양자화부의 제1 역양자화 스킴과 제2 역양자화 스킴의 일예를 나타낸 도면이다.
도 27은 본 발명의 일실시예에 따른 양자화방법의 동작을 설명하는 플로우챠트이다.
도 28은 본 발명의 일실시예에 따른 역양자화방법의 동작을 설명하는 플로우챠트이다.
도 29는 본 발명의 일실시예에 따른 부호화모듈을 포함하는 전자기기의 구성을 나타낸 블록도이다.
도 30은 본 발명의 일실시예에 따른 복호화모듈을 포함하는 전자기기의 구성을 나타낸 블록도이다.
도 31은 본 발명의 일실시예에 따른 부호화모듈과 복호화모듈을 포함하는 전자기기의 구성을 나타낸 블록도이다.

본 발명은 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해될 수 있다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들이 용어들에 의해 한정되는 것은 아니다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 본 발명에서 사용한 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나 이는 당 분야에 종사하는 기술자의 의도, 판례, 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 본 발명의 실시예들을 첨부 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 일실시예에 따른 사운드 부호화 장치의 구성을 나타낸 블록도이다.

도 1에 도시된 사운드 부호화 장치(100)는 전처리부(111), 스펙트럼 및 LP 분석부(113), 부호화 모드 선택부(115), LPC 계수 양자화부(117), 가변모드 부호화부(119)와 파라미터 부호화부(121)를 포함할 수 있다. 각 구성요소는 적어도 하나 이상의 모듈로 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다. 여기서, 사운드는 오디오 혹은 음성, 혹은 오디오와 음성의 혼합신호를 의미할 수 있으므로, 이하에서는 설명의 편의를 위하여 사운드를 음성으로 지칭하기로 한다.

도 1을 참조하면, 전처리부(111)는 입력되는 음성신호를 전처리할 수 있다. 전처리 과정을 통하여, 음성신호로부터 원하지 않는 주파수성분이 제거되거나, 부호화에 유리하도록 음성신호의 주파수 특성이 조정될 수 있다. 구체적으로, 전처리부(111)는 하이패스 필터링(high pass filtering), 프리-엠퍼시스(pre-amphasis) 또는 샘플링(sampling) 변환 등을 수행할 수 있다.

스펙트럼 및 선형예측(Linear Prediction, 이하 LP라 약함) 분석부(113)는 전처리된 음성신호에 대하여 주파수 도메인의 특성을 분석하거나, LP 분석을 수행하여 LPC 계수를 추출할 수 있다. 일반적으로 프레임당 1회의 LP 분석이 수행되나, 추가적인 음질 향상을 위해 프레임당 2회 이상의 LP 분석이 수행될 수 있다. 이 경우, 한번은 기존의 LP 분석인 프레임 엔드(frame-end)를 위한 LP이며, 나머지는 음질 향상을 위한 중간 서브 프레임(mid-subframe)을 위한 LP일 수 있다. 이때, 현재 프레임의 프레임 엔드는 현재 프레임을 구성하는 서브 프레임 중 마지막 서브 프레임을 의미하고, 이전 프레임의 프레임 엔드는 이전 프레임을 구성하는 서브 프레임 중 마지막 서브 프레임을 의미한다. 일례로, 하나의 프레임은 4개의 서브프레임으로 구성될 수 있다.

여기서, 중간 서브 프레임은 이전 프레임의 프레임 엔드인 마지막 서브 프레임과 현재 프레임의 프레임 엔드인 마지막 서브 프레임 사이에 존재하는 서브 프레임 중 하나 이상의 서브 프레임을 의미한다. 이에 따르면, LP 분석부(113)는 총 2 세트 이상의 LPC 계수를 추출할 수 있다. 한편, LPC 계수는 입력 신호가 협대역(narrowband)인 경우 차수 10을 사용하며, 광대역(wideband)의 경우 차수 16-20을 사용하나, 이에 한정되지는 않는다.

부호화 모드 선택부(115)는 멀티-레이트(Multi-rate)에 대응하여 복수개의 부호화 모드 중 하나를 선택할 수 있다. 또한, 부호화 모드 선택부(115)는 대역정보, 피치정보 혹은 주파수 도메인의 분석정보로부터 얻어지는 음성신호의 특성을 이용하여 복수개의 부호화 모드 중 하나를 선택할 수 있다. 또한, 부호화 모드 선택부(115)는 멀티-레이트와 음성신호의 특성을 이용하여 복수개의 부호화 모드 중 하나를 선택할 수 있다.

LPC 계수 양자화부(117)는 스펙트럼 및 LP 분석부(113)에서 추출된 LPC 계수를 양자화할 수 있다. LPC 계수 양자화부(117)는 LPC 계수를 양자화에 적합한 다른 계수로 변환하여 양자화를 수행할 수 있다. LPC 계수 양자화부(117)는 음성신호의 양자화 이전에, 제1 소정 기준에 근거하여, 프레임간 예측을 사용하지 않는 제1 경로와, 프레임간 예측을 사용하는 제2 경로를 포함하는 복수의 경로 중 하나를 음성신호의 양자화 경로로 선택하고, 선택된 양자화 경로에 따라서 제1 양자화 스킴과 제2 양자화 스킴 중 하나를 이용하여 양자화할 수 있다. 한편, LPC 계수 양자화부(117)는 프레임간 예측을 사용하지 않는 제1 양자화 스킴에 의한 제1 경로와 프레임간 예측을 사용하는 제2 양자화 스킴에 의한 제2 경로 모두에 대하여 LPC 계수를 양자화하고, 제2 소정 기준에 근거하여 제1 경로와 제2 경로 중 하나의 양자화 결과를 선택할 수 있다. 제1 소정 기준과 제2 소정 기준은 같거나 다를 수 있다.

가변모드 부호화부(119)는 LPC 계수 양자화부(117)에서 양자화된 LPC 계수를 부호화하여 비트스트림을 생성할 수 있다. 가변모드 부호화부(119)는 양자화된 LPC 계수를 부호화 모드 선택부(115)에서 선택된 부호화 모드에 대응하여 부호화할 수 있다. 한편, 가변모드 부호화부(119)는 LPC 계수의 여기 신호를 프레임 혹은 서브 프레임의 단위로 부호화할 수 있다.

가변모드 부호화부(119)에서 사용되는 부호화 알고리즘의 일예로는 CELP(Code-Excited Linear Prediction) 혹은 ACELP(Algebraic CELP)를 들 수 있다. 한편, 부호화 모드에 따라서 변환 부호화 알고리즘이 추가적으로 사용될 수 있다. CELP 기법에 의하여 LPC 계수를 부호화하기 위한 대표적인 파라미터는 적응 코드북 인덱스, 적응 코드북 이득, 고정 코드북 인덱스, 고정 코드북 이득 등이 있다. 가변모드 부호화부(119)에서 부호화된 현재 프레임은 다음 프레임의 부호화를 위하여 저장될 수 있다.

파라미터 부호화부(121)는 복호화단에서 복호화에 사용될 파라미터를 부호화하여 비트스트림에 포함시킬 수 있다. 바람직하게는, 부호화 모드에 대응하는 파라미터를 부호화할 수 있다. 파라미터 부호화부(121)에서 생성된 비트스트림은 저장이나 전송의 목적으로 사용될 수 있다.

도 2a 내지 도 2d는 도 1에 도시된 부호화 모드 선택부(115)에서 선택될 수 있는 다양한 부호화모드의 예를 나타낸 것이다. 도 2a 및 도 2c는 양자화에 할당되는 비트수가 많은 경우, 즉 고비트율인 경우 부호화 모드의 분류의 예이고, 도 2b 및 도 2d는 양자화에 할당되는 비트수가 적은 경우, 즉 저비트율인 경우 부호화 모드의 분류의 예이다.

먼저, 고비트율인 경우 단순한 구조를 위하여, 도 2a에서와 같이 음성신호는 일반 부호화(generic coding, 이하 GC라 약함) 모드와 트랜지션 부호화(transition coding, 이하 TC라 약함) 모드로 분류할 수 있다. 이 경우는 무성음 부호화(unvoiced coding, 이하 UC라 약함) 모드와 유성음 부호화(voiced coding, 이하 VC라 약함) 모드를 GC 모드에 포함시킨 것이다. 고비율인 경우 도 2c에서와 같이 인액티브 부호화(inactive coding, 이하 IC라 약함) 모드와 오디오 부호화(audio coding, 이하 AC라 약함) 모드를 더 포함할 수 있다.

한편, 저비트율인 경우 도 2b에서와 같이 음성신호는 GC 모드, UC 모드, VC 모드와 TC 모드로 분류할 수 있다. 또한, 저비트율인 경우 도 2d에서와 같이 IC 모드와 AC 모드를 더 포함할 수 있다.

도 2a 및 도 2c에 있어서, UC 모드는 음성신호가 무성음이거나 무성음과 비슷한 특성을 갖는 노이즈인 경우 선택될 수 있다. VC 모드는 음성신호가 유성음일 때 선택될 수 있다. TC 모드는 음성신호의 특성이 급변하는 트랜지션 구간의 신호를 부호화할 때 사용될 수 있다. GC 모드는 그외의 신호에 대하여 부호화활 수 있다. UC 모드, VC 모드, TC 모드, 및 GC 모드는 ITU-T G.718 에 기재된 정의 및 분류기준에 따른 것이나, 이에 한정되는 것은 아니다.

도 2b 및 도 2d에 있어서, IC 모드는 묵음인 경우에 선택될 수 있고, AC 모드인 경우 음성신호의 특성이 오디오에 가까운 경우 선택될 수 있다.

부모화 모드는 음성신호의 대역에 따라서 좀 더 세분화될 수 있다. 음성신호의 대역은 예를 들면 협대역(Narrow Band, 이하 NB라 약함), 광대역(Wide Band, 이하 WB라 약함), 초광대역(Super Wide Band, 이하 SWB라 약함), 전대역(Full Band, 이하 FB라 약함)으로 분류할 수 있다. NB는 300-3400 Hz 또는 50-4000 Hz 의 대역폭을 가지며, WB는 50-7000 Hz 또는 50-8000 Hz의 대역폭을 가지며, SWB는 50-14000 Hz 또는 50-16000 Hz 의 대역폭을 가지며, FB는 20000 Hz까지의 대역폭을 가질 수 있다. 여기서, 대역폭과 관련된 수치는 편의상 설정된 것으로서, 이에 한정되는 것은 아니다. 또한, 대역의 구분도 좀 더 간단하거나 복잡하게 설정할 수 있다.

도 1의 가변모드 부호화부(119)는 도 2a 내지 도 2d에 도시된 부호화 모드에 대응하여, LPC 계수를 서로 다른 부호화 알고리즘을 이용하여 부호화를 수행할 수 있다. 부호화 모드의 종류 및 개수가 결정되면, 결정된 부호화 모드에 해당하는 음성신호를 이용하여 코드북을 다시 훈련시킬 필요가 있다.

다음 표 1은 4 가지 부호화 모드인 경우, 양자화 스킴과 구조의 일예를 나타낸 것이다. 여기서, 프레임간 예측을 사용하지 않고 양자화하는 방식을 세이프티-넷(safety-net) 스킴으로 명명할 수 있으며, 프레임간 예측을 사용하여 양자화하는 방식을 예측(predictive) 스킴으로 명명할 수 있다. 그리고, VQ는 벡터 양자화기, BC-TCQ는 블록제한된 트렐리스 부호화 양자화기를 나타낸 것이다.

부호화모드	양자화 스킴	구조
UC, NB/WB	Satety-net	VQ + BC-TCQ
VC, NB/WB	Satety-net Predictive	VQ + BC-TCQ 프레임간 예측 + BC-TCQ with 프레임내 예측
GC, NB/WB	Satety-net Predictive	VQ + BC-TCQ 프레임간 예측 + BC-TCQ with 프레임내 예측
TC, NB/WB	Satety-net	VQ + BC-TCQ

한편, 부호화 모드는 적용되는 비트율에 따라서 변할 수 있다. 상기한 바와 같이 두개의 모드를 사용하는 고비트율에서 LPC 계수를 양자화하기 위하여 GC 모드에서 프레임당 40 혹은 41 비트를 사용하고, TC 모드에서 프레임당 46 비트를 사용할 수 있다.

도 3은 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도이다.

도 3에 도시된 LPC 계수 양자화부(300)는 제1 계수 변환부(311), 가중함수 결정부(313), ISF/LSF 양자화부(315) 및 제2 계수 변환부(317)를 포함할 수 있다. 각 구성요소는 적어도 하나 이상의 모듈로 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.

도 3을 참조하면, 제1 계수 변환부(311)는 음성신호의 현재 프레임 또는 이전 프레임의 프레임 엔드를 LP 분석하여 추출된 LPC 계수를 다른 형태의 계수로 변환할 수 있다. 일례로, 제1 계수 변환부(311)는 현재 프레임 또는 이전 프레임의 프레임 엔드에 대한 LPC 계수를 선 스펙트럼 주파수(LSF) 계수와 이미턴스 스펙트럼 주파수(ISF) 계수 중 어느 하나의 형태로 변환할 수 있다. 이 때, ISF 계수나 LSF 계수는 LPC 계수를 보다 용이하게 양자화할 수 있는 형태의 예를 나타낸다.

가중함수 결정부(313)는 LPC 계수로부터 변환된 ISF 계수 혹은 LSF 계수를 이용하여, 현재 프레임의 프레임 엔드 및 이전 프레임의 프레임 엔드에 대한 LPC 계수의 중요도와 관련된 가중함수를 결정할 수 있다. 결정된 가중함수는 양자화경로를 선택하거나, 양자화시 가중에러를 최소화하는 코드북 인덱스를 탐색하는 과정에서 사용될 수 있다. 일례로, 가중함수 결정부(313)는 크기별 가중함수와 주파수별 가중함수를 결정할 수 있다.

그리고, 가중함수 결정부(313)는 주파수 대역, 부호화 모드 및 스펙트럼 분석 정보 중 적어도 하나를 고려하여 가중함수를 결정할 수 있다. 일례로, 가중함수 결정부(313)는 부호화 모드별로 최적의 가중함수를 도출할 수 있다. 그리고, 가중함수 결정부(313)는 음성신호의 주파수 대역에 따라 최적의 가중함수를 도출할 수 있다. 또한, 가중함수 결정부(313)는 음성신호의 주파수 분석 정보에 따라 최적의 가중함수를 도출할 수 있다. 이때, 주파수 분석 정보는 스펙트럼 틸트 정보를 포함할 수 있다. 가중함수 결정부(313)는 추후 구체적으로 설명하기로 한다.

ISF/LSF 양자화부(315)는 현재 프레임의 프레임 엔드의 LPC 계수가 변환된 ISF 계수 혹은 LSF 계수를 양자화할 수 있다. ISF/LSF 양자화부(315)는 입력된 부호화 모드에 따라서 최적 양자화 인덱스를 구할 수 있다. ISF/LSF 양자화부(315)는 가중함수 결정부(313)에서 결정된 가중함수를 이용하여 ISF 계수 혹은 LSF 계수를 양자화할 수 있다. ISF/LSF 양자화부(315)는 가중함수 결정부(313)에서 결정된 가중함수를 이용하여 복수의 양자화 경로 중 하나를 선택하여 ISF 계수 혹은 LSF 계수를 양자화할 수 있다. 양자화 결과, 현재 프레임의 프레임 엔드에 대한 ISF 계수 또는 LSF 계수의 양자화 인덱스와 양자화된 ISF 계수(QISF) 혹은 양자화된 LSF 계수(QLSF)가 구해질 수 있다.

제2 계수 변환부(317)는 양자화된 ISF 계수(QISF) 혹은 양자화된 LSF 계수(QLSF)를 양자화된 LPC 계수(QLPC)로 변환할 수 있다.

이하, LPC 계수의 벡터 양자화와 가중함수간의 관계를 설명하기로 한다.

벡터 양자화는 벡터 내의 엔트리(entry)들 모두를 동일한 중요도라고 간주하여 제곱오차거리 척도(squared error distance measure)를 이용하여 가장 적은 에러를 갖는 코드북 인덱스를 선택하는 과정을 의미한다. 그러나, LPC 계수에 있어, 모든 계수의 중요도가 다르므로 중요한 계수의 에러를 감소시키게 되면 최종 합성신호의 지각적인 품질(perceptual quality)이 향상될 수 있다. 따라서, LSF 계수를 양자화할 때 복호화 장치는 각 LPC 계수의 중요도를 표현하는 가중함수(weighting function)를 제곱오차거리 척도에 적용하여 최적의 코드북 인덱스를 선택함으로써, 합성신호의 성능을 향상시킬 수 있다.

일실시예에 따르면, ISF나 LSF의 주파수 정보와 실제 스펙트럼 크기를 이용하여 각 ISF 또는 LSF가 실제로 스펙트럼 포락선에 어떠한 영향을 주는지에 대한 크기별 가중함수를 결정할 수 있다. 일실시예에 따르면, 주파수 도메인의 지각적인 특성 및 포만트의 분포를 고려한 주파수별 가중함수를 크기별 가중함수와 조합하여 추가적인 양자화 효율을 얻을 수 있다. 일실시예에 따르면, 실제 주파수 도메인의 크기를 사용하므로, 전체 주파수의 포락선 정보가 잘 반영되고, 각 ISF 또는 LSF 계수의 가중치를 정확하게 도출할 수 있다.

일실시예에 따르면, LPC 계수를 변환한 ISF 또는 LSF를 벡터 양자화할 때 각 계수의 중요도가 다른 경우 벡터 내에서 어떠한 엔트리가 상대적으로 더 중요한지 여부를 나타내는 가중함수를 결정할 수 있다. 그리고, 부호화하려는 프레임의 스펙트럼을 분석하여 에너지가 큰 부분에 더 많은 가중치를 줄 수 있는 가중함수를 결정함으로써 부호화의 정확도를 향상시킬 수 있다. 스펙트럼의 에너지가 크다는 것은 시간 도메인에서 상관도가 높다는 것을 의미한다.

이와 같은 가중함수를 에러함수에 적용한 예를 살펴보면 다음과 같다.

먼저, 입력신호의 변동성이 큰 경우, 프레임간 예측을 이용하지 않고 양자화를 수행할 때, 양자화된 ISF를 통해 코드북 인덱스를 탐색하기 위한 에러 함수는 다음 수학식 1과 같이 나타낼 수 있다. 한편, 입력신호의 변동성이 작은 경우, 프레임간 예측을 이용하여 양자화를 수행할 때, 양자화된 ISF를 통해 코드북 인덱스를 탐색하기 위한 에러 함수는 다음 수학식 2와 같이 나타낼 수 있다. 코드북 인덱스는 에러 함수를 최소화하는 값을 의미한다.

여기서, w(i) 는 가중함수를 의미한다. z(i)와 r(i)는 양자화기의 입력으로 사용되며, z(i)는 도 3에 있어서 ISF(i)에서 평균값을 제거한 벡터이고, r(i)는 z(i)에서 프레임간의 예측값을 제거한 벡터이다. 따라서, E_werr(k)는 프레임간 예측을 수행하지 않는 경우 코드북 탐색을 위해 사용될 수 있고, E_werr(p)는 프레임간 예측을 수행하는 경우 코드북 탐색을 위해 사용될 수 있다. 한편, c(i)는 코드북을 나타낸다. p는 ISF 계수의 차수를 의미하며 NB에서는 보통 10, WB에서는 보통 16~20을 사용한다.

일실시예에 따르면, 부호화 장치는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수의 주파수에 해당하는 스펙트럼 크기를 이용한 크기별 가중치 함수와 입력 신호의 지각적인 특성 및 포먼트분포를 고려한 주파수별 가중치 함수를 조합하여 최적의 가중치 함수를 결정할 수 있다.

도 4는 본 발명의 일실시예에 따른 가중함수 결정부의 구성을 나타낸 블록도이다. 가중함수 결정부(400)는 스펙트럼 및 LP 분석부(410)의 일부 구성요소인 윈도우 처리부(421), 주파수 맵핑부(423) 및 크기 계산부(425)와 함께 도시되어 있다.

도 4를 참조하면, 윈도우 처리부(421)는 입력 신호에 윈도우를 적용할 수 있다. 윈도우는 사각 윈도우(rectangular window), 해밍 윈도우(hamming window), 사인 윈도우(sine window) 등이 사용될 수 있다.

주파수 맵핑부(423)는 시간 도메인의 입력 신호를 주파수 도메인의 입력 신호로 매핑시킬 수 있다. 일례로, 주파수 맵핑부(423)는 FFT(Fast Fourier Transform), MDCT(Modified Discrete Cosine Transform)를 통해 입력신호를 주파수 도메인으로 변환할 수 있다.

크기 계산부(425)는 주파수 도메인으로 변환된 입력신호에 대해 주파수 스펙트럼 빈의 크기(magnitude)를 계산할 수 있다. 주파수 스펙트럼 빈의 개수는 가중함수 결정부(400)가 ISF 또는 LSF를 정규화하기 위한 개수와 동일할 수 있다.

스펙트럼 및 LP 분석부(410)의 수행 결과로 스펙트럼 분석정보가 가중함수 결정부(400)에 입력될 수 있다. 이때, 스펙트럼 분석 정보는 스펙트럼 틸트를 포함할 수 있다.

가중함수 결정부(400)는 LPC 계수가 변환된 ISF 또는 LSF를 정규화할 수 있다. p차수의 ISF 중에서 실제로 본 과정이 적용되는 범위는 0~(p-2)까지 이다. 보통 0~(p-2)까지의 ISF는 0~π에 존재한다. 가중함수 결정부(400)는 스펙트럼 분석 정보를 이용하기 위해서 주파수 맵핑부(423)를 통해 도출된 주파수 스펙트럼 빈의 개수와 동일한 개수(K)로 정규화를 수행할 수 있다.

가중함수 결정부(400)는 스펙트럼 분석 정보를 이용하여 중간 서브 프레임에 대해 ISF 계수 또는 LSF 계수가 스펙트럼 포락선에 영향을 미치는 크기별 가중함수(W₁(n))를 결정할 수 있다. 일례로, 가중함수 결정부(400)는 ISF 계수 또는 LSF 계수의 주파수 정보와 입력신호의 실제 스펙트럼 크기를 이용하여 크기별 가중함수를 결정할 수 있다. 이때, 크기별 가중함수는 LPC 계수로부터 변환된 ISF 계수 또는 LSF 계수를 위해 결정될 수 있다.

그리고, 가중함수 결정부(400)는 ISF 계수 또는 LSF 계수의 주파수 각각에 대응하는 주파수 스펙트럼 빈의 크기를 이용하여 크기별 가중함수를 결정할 수 있다.

또한, 가중함수 결정부(400)는 ISF 계수 또는 LSF 계수의 주파수 각각에 대응하는 스펙트럼 빈 및 스펙트럼 빈의 주변에 위치한 적어도 하나의 주변 스펙트럼 빈의 크기를 이용하여 크기별 가중함수를 결정할 수 있다. 이때, 가중함수 결정부(400)는 스펙트럼 빈 및 적어도 하나의 주변 스펙트럼 빈의 대표값을 추출하여 스펙트럼 포락선과 관련된 크기별 가중함수를 결정할 수 있다. 대표값의 예는 ISF 계수 또는 LSF 계수의 주파수 각각에 대응하는 스펙트럼 빈 및 스펙트럼 빈에 대한 적어도 하나의 주변 스펙트럼 빈들의 최대값, 평균값 또는 중간값일 수 있다.

가중함수 결정부(400)는 ISF 계수 또는 LSF 계수의 주파수 정보를 이용하여 주파수별 가중함수(W₂(n))를 결정할 수 있다. 구체적으로, 가중함수 결정부(400)는 입력신호의 지각적인 특성 및 포먼트 분포를 이용하여 주파수별 가중치 함수를 결정할 수 있다. 이때, 가중함수 결정부(400)는 바크 스케일(bark scale)에 따라 입력신호의 지각적인 특성을 추출할 수 있다. 그리고, 가중함수 결정부(400)는 포먼트의 분포 중 첫번째 포먼트에 기초하여 주파수별 가중함수를 결정할 수 있다.

주파수별 가중함수의 경우, 초저주파 및 고주파에서 상대적으로 낮은 가중치를 나타내고, 저주파에서 일정 주파수 구간 내 예를 들면, 첫번째 포만트에 해당하는 구간에서 동일한 크기의 가중치를 나타낼 수 있다.

가중함수 결정부(400)는 크기별 가중함수와 주파수별 가중함수를 조합하여 최종적인 가중함수를 결정할 수 있다. 이때, 가중함수 결정부(400)는 크기별 가중함수와 주파수별 가중함수를 곱하거나 또는 더하여 최종적인 가중함수를 결정할 수 있다.

다른 일례로, 가중함수 결정부(400)는 입력신호의 부호화 모드 및 주파수 대역정보를 고려하여 크기별 가중함수와 주파수별 가중함수를 결정할 수 있다.

이를 위하여, 가중함수 결정부(400)는 입력신호의 대역폭을 확인하여, 입력신호의 대역폭이 NB인 경우와 WB인 경우에 대하여, 입력신호의 부호화 모드를 확인할 수 있다. 입력신호의 부호화 모드가 UC 모드인 경우, 가중함수 결정부(400)는 UC 모드에 대해 크기별 가중함수와 주파수별 가중함수를 결정하여, 크기별 가중함수와 주파수별 가중함수를 조합할 수 있다.

한편, 입력신호의 부호화 모드가 UC 모드가 아닌 경우, 가중함수 결정부(400)는 VC 모드에 대해 크기별 가중함수와 주파수별 가중함수를 결정하여크기별 가중함수와 주파수별 가중함수를 조합할 수 있다.

만약, 입력신호의 부호화 모드가 GC 모드 혹은 TC 모드인 경우, 가중함수 결정부(400)는 VC 모드와 동일한 과정을 통해 가중함수를 결정할 수 있다.

일례로, 입력 신호를 FFT 방식에 따라 주파수 변환하였을 때, FFT 계수의 스펙트럼 크기를 이용한 크기별 가중함수는 다음 수학식 3에 따라 결정될 수 있다.

일례로, VC 모드에서의 주파수별 가중함수는 다음 수학식 4에 따라, UC 모드에서의 주파수별 가중함수는 다음 수학식 5에 따라 결정될 수 있다. 수학식 4 및 5에 있어서 상수는 입력신호의 특성에 따라 변경될 수 있다.

최종적으로 도출되는 가중함수는 다음 수학식 6에 따라 결정할 수 있다.

도 5는 본 발명의 일실시예에 따른 LPC 계수 양자화부(500)의 구성을 나타낸 블록도이다.

도 5에 도시된 LPC 계수 양자화부(500)는 가중함수 결정부(511), 양자화경로 결정부(513), 제1 양자화 스킴(515)과 제2 양자화 스킴(517)을 포함할 수 있다. 가중함수 결정부(511)에 대해서는 도 4를 통하여 전술하였으므로 여기서는 설명을 생략하기로 한다.

양자화경로 결정부(513)는 입력신호의 양자화 이전에, 소정 기준에 근거하여, 프레임간 예측을 사용하지 않는 제1 경로와, 프레임간 예측을 사용하는 제2 경로를 포함하는 복수의 경로 중 하나를 입력신호의 양자화 경로로 선택되도록 결정할 수 있다.

제1 양자화 스킴(515)는 입력신호의 양자화 경로로 제1 경로가 선택된 경우, 양자화경로 결정부(513)를 통하여 제공되는 입력신호를 양자화할 수 있다. 제1 양자화 스킴(515)은 입력신호를 개략적으로 양자화하는 제1 양자화기(미도시)와, 입력신호와 제1 양자화기의 출력신호간의 양자화 에러신호를 정밀하게 양자화하는 제2 양자화기(미도시)를 포함할 수 있다.

제2 양자화 스킴(517)은 입력신호의 양자화 경로로 제2 경로가 결정된 경우, 양자화경로 결정부(513)를 통하여 제공되는 입력신호를 양자화할 수 있다. 제2 양자화 스킴(517)은 입력신호와 프레임간 예측값간의 예측예러에 대하여 블록제한된 트렐리스 부호화 양자화를 수행하는 부분과 프레임간 예측 부분을 포함할 수 있다.

여기서, 제1 양자화 스킴(515)은 프레임간 예측을 사용하지 않고 양자화하는 방식으로서, 세이프티-넷(safety-net) 스킴으로 명명할 수 있다. 제2 양자화 스킴(517)은 프레임간 예측을 사용하여 양자화하는 방식으로서, 예측(predictive) 스킴으로 명명할 수 있다.

제1 양자화 스킴(515)과 제2 양자화 스킴(517)은 상기 실시예에 한정되는 것은 아니며, 후술하는 다양한 실시예의 각 제1 및 제2 양자화 스킴을 이용하여 구현될 수 있다.

이에 따르면, 효율성이 높은 대화형 음성서비스를 위한 저비트율에서부터 차별화된 품질의 서비스를 제공하기 위한 고비트율까지 다양한 비트율에 대응하여, 최적의 양자화기가 선택될 수 있다.

도 6은 본 발명의 일실시예에 따른 양자화경로 결정부(600)의 구성을 나타낸 블록도이다. 도 6에 도시된 양자화경로 결정부(600)는 예측에러 산출부(611)와 양자화스킴 선택부(613)을 포함할 수 있다.

예측에러 산출부(611)는 프레임간 예측값 p(n), 가중함수 w(n), DC 값이 제거된 LSF 계수 z(n)을 입력으로 하여, 다양한 방법에 의거하여 예측에러를 산출할 수 있다. 먼저, 프레임간 예측기는 제2 양자화 스킴 즉 예측 스킴에서 사용되는 것과 동일한 것을 사용할 수 있다. 여기서, AR(auto-regressive) 방식과 MA(moving average) 방식 중 어느 것을 사용해도 무방하다. 프레임간 예측을 위한 이전 프레임의 신호 z(n)은 양자화된 값을 사용할 수도 있고, 양자화되지 않은 값을 사용할 수도 있다. 또한, 예측에러를 구할 때 가중함수를 적용할 수도 있고, 적용하지 않을 수도 있다. 이에 따르면, 전체 8가지의 조합이 가능하며, 그 중 4가지는 다음과 같다.

첫째, 이전 프레임의 양자화된 z(n) 신호를 이용한 가중 AR 예측에러는 다음 수학식 7과 같이 나타낼 수 있다.

둘째, 이전 프레임의 양자화된 z(n) 신호를 이용한 AR 예측에러는 다음 수학식 8과 같이 나타낼 수 있다.

셋째, 이전 프레임의 z(n) 신호를 이용한 가중 AR 예측에러는 다음 수학식 9와 같이 나타낼 수 있다.

넷째, 이전 프레임의 z(n) 신호를 이용한 AR 예측에러는 다음 수학식 10와 같이 나타낼 수 있다.

여기서, M은 LSF의 차수를 의미하며, 입력 음성신호의 대역폭이 WB 인 경우,통상 16을 사용한다.

는 AR 방식의 예측계수를 의미한다. 이와 같이 바로 이전 프레임의 정보를 이용하는 경우가 일반적이며, 여기서 구해진 예측에러를 이용하여 양자화 스킴을 결정할 수 있다.

한편, 이전 프레임에 대하여 프레임에러가 발생하여 이전 프레임의 정보가 없는 경우를 대비하여 이전 프레임의 이전 프레임을 이용하여 제2 예측에러를 구하고, 제2 예측에러를 이용하여 양자화 스킴을 결정할 수 있다. 이 경우, 제2 예측에러는 상기한 첫째 경우와 비교하여 다음 수학식 11과 같이 나타낼 수 있다.

양자화스킴 선택부(613)는 예측에러 산출부(611)에서 구해진 예측에러와 부호화 모드 결정부(도 1의 115)에서 구해진 부호화 모드 중 적어도 하나를 이용하여 현재 프레임의 양자화스킴을 결정한다.

도 7a는 도 6에 도시된 양자화경로 결정부(600)의 일예에 따른 동작을 설명하는 플로우챠트이다. 여기서 사용되는 예측모드의 예로 0, 1, 2가 가능하다. 예측모드 0은 항상 세이프티-넷 스킴을 사용하는 경우를 의미하며, 예측모드 1은 항상 예측 스킴을 사용하는 경우를 의미한다. 그리고 예측모드 2는 세이프티-넷 스킴과 예측 스킴을 스위칭해서 사용하는 경우를 의미한다.

예측모드 0으로 부호화해야 할 신호의 특성은 비정적(non-stationary)인 경우이다. 비정적 신호는 매 프레임마다 변화가 심해서 프레임간 예측을 하는 경우, 예측에러가 원신호보다 더 커지는 현상으로 인해 양자화기의 성능저하가 발생할 수 있다. 예측모드 1로 부호화해야 할 신호의 특성은 정적(stationary)이다. 정적 신호는 이전 프레임과의 차이가 크지 않아 프레임간 상관도가 높다. 그리고, 두가지 특성이 혼합되어 있는 신호에 대해서는 예측모드 2를 사용하여 양자화를 수행하는 경우 가장 최적의 성능을 나타낼 수 있다. 한편, 두가지 특성이 혼합되어 있더라도 그 혼합 비율에 따라서 예측모드 0 혹은 예측모드 1로 설정하는 것도 가능하며, 이때 예측모드 2로 설정되는 혼합 비율은 실험적으로 혹은 시뮬레이션을 통하여 최적의 값으로 설정될 수 있다.

도 7a를 참조하면, 711 단계에서는 현재 프레임의 예측 모드(prediction mode)가 0인지, 즉 현재 프레임의 음성신호가 비정적(non-stationary) 특성을 갖는지를 판단한다. 711 단계에서의 판단결과, 예측 모드가 0인 경우, 예를 들면 TC 모드 혹은 UC 모드와 같이 현재 프레임의 음성신호가 변동성이 큰 경우에는 프레임간 예측이 어렵기 때문에, 항상 세이프티-넷 스킴 즉, 제1 양자화 스킴을 양자화 경로로 결정할 수 있다(714 단계).

한편, 711 단계에서의 판단결과, 예측 모드가 0이 아닌 경우, 712 단계에서 예측 모드가 1인지, 즉 현재 프레임의 음성신호가 정적(stationary) 특성을 갖는지를 판단한다. 712 단계에서의 판단결과, 예측 모드가 1인 경우, 프레임간 예측성능이 뛰어나기 때문에 항상 예측 스킴 즉, 제2 양자화 스킴을 양자화 경로로 결정할 수 있다(715 단계).

한편, 712 단계에서의 판단결과, 예측 모드가 1이 아닌 경우, 예측 모드가 2인 것으로 결정하고 제1 양자화 스킴과 제2 양자화 스킴을 스위칭하여 사용한다. 일례로, 현재 프레임의 음성신호가 정적 특성을 갖는 경우, 즉 GC 모드 혹은 VC 모드이고 예측 모드가 2인 경우 예측에러를 고려하여 제1 양자화 스킴과 제2 양자화 스킴 중 하나를 양자화 경로로 결정할 수 있다. 이를 위하여, 713 단계에서는 현재 프레임과 이전 프레임간의 제1 예측에러가 제1 임계치보다 큰지를 판단한다. 여기서, 제1 임계치는 사전에 실험적으로 혹은 시뮬레이션을 통해 최적의 값으로 정해질 수 있다. 일례를 들면, 차수가 16인 WB의 경우 제1 임계치의 예로 2,085,975를 설정할 수 있다.

*713 단계에서의 판단결과, 제1 예측에러가 제1 임계치보다 크거나 같은 경우 제1 양자화 스킴을 양자화 경로로 결정한다(714 단계). 한편, 713 단계에서의 판단결과, 제1 예측에러가 제1 임계치보다 작은 경우 예측 스킴 즉 제2 양자화 스킴을 양자화 경로로 결정한다(715 단계).

도 7b는 도 6에 도시된 양자화경로 결정부(600)의 다른 예에 따른 동작을 설명하는 플로우챠트이다.

도 7b를 참조하면, 731 내지 733 단계는 도 7a의 711 내지 713 단계와 동일하며, 이전 프레임의 이전 프레임과 현재 프레임간의 제2 예측에러를 구하여 제2 임계치와 비교하는 734 단계를 더 추가한 것이다. 여기서, 제2 임계치는 사전에 실험적으로 혹은 시뮬레이션을 통해 최적의 값으로 정해질 수 있다. 일례를 들면, 차수가 16인 WB의 경우 제2 임계치의 예로 (제1 임계치 * 1.1)을 설정할 수 있다.

734 단계에서의 판단결과, 제2 예측에러가 제2 임계치보다 큰 경우 세이프티-넷 스킴 즉 제1 양자화 스킴을 양자화 경로로 결정한다(735 단계). 한편, 734 단계에서의 판단결과, 제2 예측에러가 제2 임계치보다 작은 경우 예측 스킴 즉 제2 양자화 스킴을 양자화 경로로 결정한다(736 단계).

도 7a 및 도 7b의 실시예에서는 예측 모드가 3가지인 것을 예로 들었으나, 이에 한정되는 것은 아니다.

한편, 양자화 스킴을 결정할 때 전술한 예측모드 혹은 예측에러 이외에 추가적인 정보를 이용할 수 있다.

도 8은 본 발명의 일실시예에 따른 양자화경로 결정부(800)의 구성을 나타낸 블록도이다. 도 8에 도시된 양자화경로 결정부(800)는 예측에러 산출부(811), 스펙트럼 분석부(813)와 양자화스킴 선택부(815)을 포함할 수 있다.

예측에러 산출부(811)는 도 6의 예측에러 산출부(611)와 동일하므로 구체적인 설명은 생략하기로 한다.

스펙트럼 분석부(813)는 스펙트럼 정보를 분석하여 현재 프레임의 신호 특성을 결정할 수 있다. 스펙트럼 분석부(813)는 일예로, 스펙트럼 정보 중에서 주파수 도메인의 스펙트럼 크기 정보를 이용하여 N개(여기서 N은 1보다 큰 정수)의 이전 프레임과 현재 프레임간의 가중거리(weighted distance)를 구하고, 가중거리가 소정 임계치를 초과하는 경우, 즉 프레임간 변동성이 큰 경우, 양자화 스킴을 세이프티-넷 스킴으로 결정할 수 있다. 여기서, N이 커질수록 비교해야 할 대상이 많아지므로 복잡도가 높아진다. 가중거리(D)는 다음 수학식 12를 이용하여 구해질 수 있다. 가중거리(D)를 낮은 복잡도로 구하기 위해서는 LSF/ISF로 정해진 주파수 주변의 스펙트럼 크기만을 이용하여 이전 프레임과 비교할 수 있다. 이때, LSF/ISF로 정해진 주파수 주변 M개의 주파수 빈에 대한 크기의 평균, 최대값, 중간값 등이 이전 프레임과 비교될 수 있다.

여기서, 스펙트럼의 크기 정보를 이용한 가중함수 W_k(i)는 전술한 수학식 3을 통하여 얻어질 수 있으며, 수학식 3의 W₁(n)과 동일한 값이다. D_n에서 n은 이전 프레임과 현재 프레임간의 차이를 의미한다. n=1인 경우에는 바로 이전 프레임과 현재 프레임간의 가중거리를 의미하며, n=2인 경우에는 이전 2번째 프레임과 현재 프레임간의 가중거리를 의미한다. 이와 같이 구해진 D_n 값이 소정 임계치를 초과할 때 현재 프레임이 비정적(non-stationary) 특성을 갖는다고 할 수 있다.

양자화스킴 선택부(815)는 예측에러 산출부(811)로부터 제공되는 예측에러, 스펙트럼 분석부(813)로부터 제공되는 신호 특성, 예측모드, 및 전송채널정보를 입력으로 하여, 현재 프레임에 대한 양자화 경로를 선택한다. 일예로서, 양자화스킴 선택부(815)에 입력되는 각 정보에 대하여 우선순위를 정하여 양자화 경로 결정시 순차적으로 고려될 수 있다. 예를 들어, 전송채널정보에 High FER 모드가 포함된 경우 세이프티-넷 스킴 선택비율을 좀 더 높게 설정하거나 세이프티-넷 스킴만을 선택할 수 있다. 세이프티-넷 스킴 선택비율은 예측에러와 관련된 임계치를 조정하여 가변적으로 설정할 수 있다.

도 9는 코덱 서비스를 제공할 때 네트워크 단에서 전송가능한 채널상태에 대한 정보를 설명하는 도면이다.

채널상태가 좋지 않을수록 채널에러가 커지고, 그 결과 프레임간 변동성이 커지게 되어 프레임 에러가 발생될 수 있다. 따라서, 양자화 경로로서 예측스킴의 선택 비율을 줄이고, 세이프티-넷 스킴이 더 많이 선택되도록 설정한다. 극단적으로 채널상태가 가장 나쁜 경우에는 양자화 경로를 세이프티-넷 스킴으로만 사용할 수 있다. 이를 위하여, 전송채널 정보를 조합하여 채널상태를 나타내는 값을 1개 이상의 단계로 표현한다. 단계가 높을수록 채널에러가 발생할 확률이 높은 상황을 의미한다. 가장 단순한 경우는 단계가 1개인 경우로서, 도 9에 도시된 바와 같이 High FER(frame error rate) 모드 결정부(911)에서 채널상태가 High FER mode로 결정되는 경우이다. High FER 모드로 결정된 경우에는 채널 상태가 매우 불안정함을 의미하므로 세이프티-넷 스킴의 선택비율을 가장 높은 상태로 두거나 또는 세이프티-넷 스킴만을 이용하여 부호화를 수행한다. 한편, 단계가 복수개인 경우에는 세이프티-넷 스킴의 선택비율을 단계적으로 높여가는 방향으로 설정할 수 있다.

한편, 도 9를 참조하면, High FER 모드 결정부(911)에서 High FER 모드로 결정하는 알고리즘은 예를 들면 4가지 정보를 통하여 수행될 수 있다. 구체적으로, 4가지 정보는 (1) 물리적 계층에 전송된 하이브리드 자동 반복 요청(Hybrid Automatic Repeat Request: HARQ) 피드백인 패스트 피드백(Fast Feedback: FFB) 정보; (2) 물리적 계층보다 더 높은 계층에 전송된 네트워크 시그널링으로부터 피드백된 슬로우 피드백(Slow Feedback: SFB) 정보; (3) 종단(Far End)에서 EVS 디코더(913)으로부터 시그널링된 인밴드(in-band)인 인밴드 피드백(In-band Feedback: ISB) 정보; 및 (4) 리던던트 방식(redundant fashion)에 전송될 특정 크리티컬 프레임(specific critical frame)의 EVS 엔코더(915)에 의한 선택인 하이 센스티비티 프레임(High Sensitivity Frame: HSF) 정보를 들 수 있다. FFB 정보 및 SFB 정보는 EVS 코덱에 독립적인 반면에, ISB 정보와 HSF 정보는 EVS 코덱에 의존적이며, EVS 코덱을 위한 특정 알고리즘들을 요구할 수 있다.

상기 4가지 정보를 이용하여 채널상태를 High FER 모드로 결정하는 알고리즘은 일예를 들어 다음 표 2 내지 표 4와 같은 코드에 의해 표현될 수 있다.

Definitions

SFBavg: Average error rate over Ns frames
FFBavg: Average error rate over Nf frames
ISBavg: Average error rate over Ni frames
Ts: Threshold for slow feedback error rate
Tf: Threshold for fast feedback error rate
Ti: Threshold for inband feedback error rate

Set During Initialization

Ns = 100
Nf = 10
Ni = 100
Ts = 20
Tf = 2
Ti = 20

Algorithm

Loop over each frame {
HFM = 0;
IF((HiOK) AND SFBavg > Ts) THEN HFM = 1;
ELSE IF ((HiOK) AND FFBavg > Tf) THEN HFM = 1;
ELSE IF ((HiOK) AND ISBavg > TI) THEN HFM = 1;
ELSE IF ((HiOK) AND (HSF = 1) THEN HFM = 1;
Update SFBavg;
Update FFBavg;
Update ISBavg;
}

전술한 바와 같이, 4가지 정보 중 하나 이상으로 처리된 분석정보에 기초하여 EVS 코덱에 High FER 모드로 진입할 것을 지시할 수 있다. 여기서, 분석정보들은, 일예를 들면, (1) SFB 정보를 이용하여 Ns 프레임들의 계산된 평균 에러 레이트로부터 도출된 SFBavg, (2) FFB 정보를 이용하여 Nf 프레임들의 계산된 평균 에러 레이트로부터 도출된 FFBavg, (3) ISB 정보와 각각의 임계값인 Ts, Tf 및 Ti를 이용하여 Ni 프레임들의 계산된 평균 에러 레이트로로부터 도출된 ISBavg 일 수 있다. SFBavg, FFBavg, ISBavg를 각각의 임계치를 비교한 결과에 기초하여, High FER 동작 모드로 진입할 것을 결정할 수 있다. 그리고, 모든 조건은 공통적으로 코덱에서 High FER mode를 지원하는지 여부에 대한 HiOK를 확인할 수 있다.

여기서, High FER 모드 결정부(911)는 EVS 엔코더(915) 혹은 다른 포맷의 엔코더의 구성요소로 포함될 수 있다. 한편, High FER 모드 결정부(911)는 AVS 엔코더(915) 혹은 다른 포맷의 엔코더의 구성요소가 아니라, 외부의 다른 디바이스에 구현될 수 있다.

도 10은 본 발명의 일실시예에 따른 LPC 계수 양자화부(1000)의 구성을 나타낸 블록도이다.

도 10에 도시된 LPC 계수 양자화부(1000)는 양자화경로 결정부(1010), 제1 양자화스킴(1030)과 제2 양자화스킴(1050)을 포함할 수 있다.

양자화경로 결정부(1010)는 예측에러와 부호화모드 중 적어도 하나에 근거하여, 세이프티-넷 스킴을 포함하는 제1 경로와 예측 스킴을 포함하는 제2 경로 중 하나를 현재 프레임의 양자화경로로 결정한다.

제1 양자화스킴(1030)은 양자화경로로서 제1 경로가 결정된 경우, 프레임간 예측을 사용하지 않으면서 양자화를 수행하는 것으로서, 멀티 스테이지 벡터 양자화기(multi-stage vector quantizer, 1041, 이하 MSVQ라 약함)과 격자 벡터 양자화기(lattice vector quantizer, 1043, 이하 LVQ라 약함)를 포함할 수 있다. MSVQ(1041)는 바람직하게로는 2 스테이지로 이루어질 수 있다. MSVQ (1041)는 DC 값이 제거된 LSF 계수를 개략적으로 벡터 양자화하여 양자화 인덱스를 생성한다. LVQ(1043)는 MSVQ (1041)로부터 출력되는 역양자화된 LSF 계수와 DC 값이 제거된 LSF 계수간의 LSF 양자화에러를 입력으로 하여 양자화를 수행하여 양자화 인덱스를 생성한다. MSVQ(1041)의 출력과 LVQ(1043)의 출력은 서로 더해지고 DC 값이 합해져서 최종 양자화된 LSF 계수(QLSF)가 생성된다. 제1 양자화스킴(1030)에서는 코드북을 위한 메모리를 많이 사용하지만 저비트율에서 우수한 성능을 보이는 MSVQ(1041)와 적은 메모리와 낮은 복잡도로 저비트율에서 효율적인 LVQ(1043)를 결합하여 사용함으로써, 매우 효율적인 양자화기 구조를 구현할 수 있다.

제2 양자화스킴(1050)은 양자화경로로서 제2 경로가 결정된 경우, 프레임간 예측을 사용하여 양자화를 수행하는 것으로서, 프레임내 예측기(1065)를 갖는 블록제한된 트렐리스 부호화 양자화기(block-constrained trellis coding quantizer, 1063, 이하 BC-TCQ라 약함)와 프레임간 예측기(1061)를 포함할 수 있다. 프레임간 예측기(1061)는 AR 방식과 MA 방식 중 어느 것을 사용해도 무방하다. 일례에서는, 1차(1^st order) AR 방식을 적용한다. 예측계수는 사전에 정의되며, 예측을 위한 과거 벡터는 이전 프레임에서 최적 벡터로 선택된 벡터를 이용한다. 프레임간 예측기(1061)의 예측값으로부터 얻어지는 LSF 예측에러는 프레임내 예측기(1065)를 갖는 BC-TCQ(1063)에서 양자화된다. 이에 따르면, 고비트율에서 적은 메모리 크기와 낮은 복잡도를 가지며 양자화성능이 우수한 BC-TCQ(1063)의 특성을 최대화시킬 수 있다.

결과적으로, 제1 양자화스킴(1030)과 제2 양자화스킴(1050)을 이용할 경우 입력 음성신호의 특성에 대응하여 최적의 양자화기를 구현할 수 있다.

한편, 도 10의 LPC 계수 양자화부(1000)에 있어서 일예를 들어 8 KHz 대역의 WB 를 가지며 GC 모드인 음성신호의 양자화에 41 비트를 사용하는 경우, 제1 양자화스킴(1030)에서 양자화경로 정보를 나타내는 1 비트를 제외하고, MSVQ(1041)에는 12 비트를, LVQ(1043)에는 28 비트를 할당할 수 있다. 또한, 제2 양자화스킴(1050)의 BC-TCQ(1063)에는 양자화경로 정보를 나타내는 1 비트를 제외하고, 40 비트 전부를 할당할 수 있다.

다음 표 5는 8 KHz 대역의 WB 음성신호에 비트할당의 예를 보여준다.

부호화 모드	LSF/ISF 양자화스킴	MSVQ-LVQ [bits]	BC-TCQ [bits]
GC, WB	Satety-net Predictive	40/41 -	- 40/41
TC, WB	Safety-net	41	-

도 11은 본 발명의 일실시예에 따른 LPC 계수 양자화부(1100)의 구성을 나타낸 블록도이다. 도 11에 도시된 LPC 계수 양자화부(1100)는 도 10과 반대의 구조를 가진다.

LPC 계수 양자화부(1100)는 양자화경로 결정부(1110), 제1 양자화스킴(1130)과 제2 양자화스킴(1150)을 포함할 수 있다.

양자화경로 결정부(1110)는 예측에러와 예측모드 중 적어도 하나에 근거하여, 세이프티-넷 스킴을 포함하는 제1 경로와 예측 스킴을 포함하는 제2 경로 중 하나를 현재 프레임의 양자화경로로 결정한다.

제1 양자화스킴(1130)은 양자화경로로서 제1 경로가 결정된 경우, 프레임간 예측을 사용하지 않으면서 양자화를 수행하는 것으로서, 벡터 양자화기(vector quantizer, 1141, 이하 VQ라 약함)과 프레임내 예측기(1145)를 갖는 BC-TCQ(1143) 를 포함할 수 있다. VQ(1141)는 DC 값이 제거된 LSF 계수를 개략적으로 벡터 양자화하여 양자화 인덱스를 생성한다. BC-TCQ(1143)는 VQ(1141)로부터 출력되는 역양자화된 LSF 계수와 DC 값이 제거된 LSF 계수간의 LSF 양자화에러를 입력으로 하여 양자화를 수행하여 양자화 인덱스를 생성한다. VQ(1141)의 출력과 BC-TCQ(1143)의 출력은 서로 더해지고 DC 값이 합해져서 최종 양자화된 LSF 계수(QLSF)가 생성된다. 제2 양자화스킴(1150)은 양자화경로로서 제2 경로가 결정된 경우, 프레임간 예측을 사용하여 양자화를 수행하는 것으로서, LVQ(1163)와 프레임간 예측기(1161)를 포함할 수 있다. 프레임간 예측기(1161)는 도 10에서와 동일하게 혹은 유사하게 구현할 수 있다. 프레임간 예측기(1161)의 예측값으로부터 얻어지는 LSF 예측에러는 LVQ(1163)에서 양자화된다.

이에 따르면, BC-TCQ(1143)는 할당된 비트수가 적으므로 낮은 복잡도를 가지며, LVQ(1163)는 고비트율에서 낮은 복잡도를 가지므로 전체적으로 낮은 복잡도로 양자화를 수행할 수 있다.

일예를 들어, 도 11의 LPC 계수 양자화부(1100)에 있어서 8 KHz 대역의 WB 를 가지며 GC 모드인 음성신호의 양자화에 41 비트를 사용하는 경우, 제1 양자화스킴(1130)에서 양자화경로 정보를 나타내는 1 비트를 제외하고, VQ(1141)에는 6 비트를, BC-TCQ(1143)에는 34 비트를 할당할 수 있다. 또한, 제2 양자화스킴(1150)의 LVQ(1163)에는 양자화경로 정보를 나타내는 1 비트를 제외하고, 40 비트 전부를 할당할 수 있다.

다음 표 6은 8 KHz 대역의 WB 음성신호에 비트할당의 예를 보여준다.

부호화 모드	LSF/ISF 양자화스킴	MSVQ-LVQ [bits]	BC-TCQ [bits]
GC, WB	Satety-net Predictive	- 40/41	40/41 -
TC, WB	Safety-net	-	41

한편, 대부분의 부호화 모드에 사용되는 VQ(1141)와 관련하여 최적 인덱스는 하기의 수학식 13의 E_werr(p)를 최소화하는 인덱스를 탐색한다.

여기서, w(i)는 가중함수 결정부(도 3의 313)에서 결정된 가중함수, r(i)는 VQ(1141)의 입력, c(i)는 VQ(1141)의 출력을 각각 나타낸다. 즉, r(i)와 c(i)간의 가중왜곡을 최소화하는 인덱스가 구해진다.

그리고, BC-TCQ(1143)에서 사용되는 왜곡 척도 d(x,y)는 하기의 수학식 14로 나타낼 수 있다.

일실시예에서는, 왜곡 척도 d(x,y)에 가중함수(w_k)를 적용하여 하기의 수학식 15에서와 같이 가중 왜곡(weighted distortion)을 구할 수 있다.

즉, BC-TCQ(1143)의 모든 스테이지에서 가중 왜곡을 구하여 최적의 인덱스를 구하게 된다.

도 12는 본 발명의 일실시예에 따른 LPC 계수 양자화부(2100)의 구성을 나타낸 블록도이다.

도 12에 도시된 LPC 계수 양자화부(1200)는 양자화경로 결정부(1210), 제1 양자화스킴(1230)과 제2 양자화스킴(1250)을 포함할 수 있다.

양자화경로 결정부(1210)는 예측에러와 예측모드 중 적어도 하나에 근거하여, 세이프티-넷 스킴을 포함하는 제1 경로와 예측 스킴을 포함하는 제2 경로 중 하나를 현재 프레임의 양자화경로로 결정한다.

제1 양자화스킴(1230)은 양자화경로로서 제1 경로가 결정된 경우, 프레임간 예측을 사용하지 않으면서 양자화를 수행하는 것으로서, VQ 혹은 MSVQ(1241)과 LVQ 혹은 TCQ(1243)를 포함할 수 있다. VQ 혹은 MSVQ(1241)는 DC 값이 제거된 LSF 계수를 개략적으로 벡터 양자화하여 양자화 인덱스를 생성한다. LVQ 혹은 TCQ(1243)는 VQ 혹은 MSVQ(1241)로부터 출력되는 역양자화된 LSF 계수와 DC 값이 제거된 LSF 계수간의 LSF 양자화에러를 입력으로 하여 양자화를 수행하여 양자화 인덱스를 생성한다. VQ 혹은 MSVQ(1241)의 출력과 LVQ 혹은 TCQ(1243)의 출력은 서로 더해지고 DC 값이 합해져서 최종 양자화된 LSF 계수(QLSF)가 생성된다. VQ 혹은 MSVQ(1241)는 복잡도가 높고 메모리 사용량이 많지만, 비트효율(bit error rate)은 높으므로 전체적인 복잡도를 고려하여 스테이지의 개수를 1개에서부터 n개까지 증가시킬 수 있다. 예를 들어, 첫번째 스테이지만을 사용할 경우 VQ가 되고, 2개 이상의 스테이지를 사용할 경우 MSVQ가 된다. 한편, LVQ 혹은 TCQ(1243)는 낮은 복잡도를 가지기 때문에, LSF 양자화에러를 효율적으로 양자화할 수 있다.

제2 양자화스킴(1250)은 양자화경로로서 제2 경로가 결정된 경우, 프레임간 예측을 사용하여 양자화를 수행하는 것으로서, 프레임간 예측기(1261)와, LVQ 혹은 TCQ(1263)를 포함할 수 있다. 프레임간 예측기(1261)는 도 10에서와 동일하게 혹은 유사하게 구현할 수 있다. 프레임간 예측기(1261)의 예측값으로부터 얻어지는 LSF 예측에러는 LVQ 혹은 TCQ(1263)에서 양자화된다. 마찬가지로, LVQ 혹은 TCQ(1263)는 낮은 복잡도를 가지기 때문에, LSF 예측에러를 효율적으로 양자화할 수 있다. 이에 따르면, 전체적으로 낮은 복잡도로 양자화를 수행할 수 있다.

도 13은 본 발명의 일실시예에 따른 LPC 계수 양자화부(1300)의 구성을 나타낸 블록도이다.

도 13에 도시된 LPC 계수 양자화부(1300)는 양자화경로 결정부(1310), 제1 양자화스킴(1330)과 제2 양자화스킴(1350)을 포함할 수 있다.

양자화경로 결정부(1310)는 예측에러와 예측모드 중 적어도 하나에 근거하여, 세이프티-넷 스킴을 포함하는 제1 경로와 예측 스킴을 포함하는 제2 경로 중 하나를 현재 프레임의 양자화경로로 결정한다.

제1 양자화스킴(1330)은 양자화경로로서 제1 경로가 결정된 경우, 프레임간 예측을 사용하지 않으면서 양자화를 수행하는 것으로서, 도 12에 도시된 제1 양자화스킴(1330)과 동일하므로 그 설명을 생략하기로 한다.

제2 양자화스킴(1350)은 양자화경로로서 제2 경로가 결정된 경우, 프레임간 예측을 사용하여 양자화를 수행하는 것으로서, 프레임간 예측기(1361), VQ 혹은 MSVQ(1363)와 LVQ 혹은 TCQ(1365)를 포함할 수 있다. 프레임간 예측기(1361)는 도 10에서와 동일하게 혹은 유사하게 구현할 수 있다. 프레임간 예측기(1261)의 예측값으로부터 얻어지는 LSF 예측에러는 VQ 혹은 MSVQ(1363)에서 개략적으로 양자화된다. LSF 예측에러와 VQ 혹은 MSVQ(1363)에서 역양자화된 LSF 예측에러간의 에러벡터는 LVQ 혹은 TCQ(1365)에서 양자화된다. 마찬가지로, LVQ 혹은 TCQ(1365)는 낮은 복잡도를 가지기 때문에, LSF 예측에러를 효율적으로 양자화할 수 있다. 이에 따르면, 전체적으로 낮은 복잡도로 양자화를 수행할 수 있다.

도 14는 본 발명의 일실시예에 따른 LPC 계수 양자화부(1400)의 구성을 나타낸 블록도이다. 도 14에 도시된 LPC 계수 양자화부(1400)는 도 12에 도시된 LPC 계수 양자화부(1200)와 비교하면, 제1 양자화스킴(1430)이 LVQ 혹은 TCQ(1243) 대신 프레임내 예측기(1445)를 갖는 BC-TCQ(1443)을 포함하며, 제2 양자화스킴(1450)이 LVQ 혹은 TCQ(1263) 대신 프레임내 예측기(1465)를 갖는 BC-TCQ(1463)을 포함한다는 차이점이 있다.

일예를 들어, 도 14의 LPC 계수 양자화부(1400)에 있어서 8 KHz 대역의 WB 를 가지며 GC 모드인 음성신호의 양자화에 41 비트를 사용하는 경우, 제1 양자화스킴(1430)에서는 양자화경로 정보를 나타내는 1 비트를 제외하고, VQ(1441)에는 5 비트를, BC-TCQ(1443)에는 35 비트를 할당할 수 있다. 또한, 제2 양자화스킴(1450)의 BC-TCQ(1463)에는 양자화경로 정보를 나타내는 1 비트를 제외하고, 40 비트 전부를 할당할 수 있다.

도 15는 본 발명의 일실시예에 따른 LPC 계수 양자화부(1500)의 구성을 나타낸 블록도이다. 도 15에 도시된 LPC 계수 양자화부(1500)는 도 13에 도시된 LPC 계수 양자화부(1300)의 구체적인 예로서, 제1 양자화스킴(1530)의 MSVQ(1541)와 제2 양자화스킴(1550)의 MSVQ(1563)은 2 스테이지를 가진다.

일예를 들어, 도 15의 LPC 계수 양자화부(1500)에 있어서 8 KHz 대역의 WB 를 가지며 GC 모드인 음성신호의 양자화에 41 비트를 사용하는 경우, 제1 양자화스킴(1530)에서 양자화경로 정보를 나타내는 1 비트를 제외하고, 2-스테이지 VQ(1541)에는 6+6=12 비트를, LVQ(1543)에는 28 비트를 할당할 수 있다. 또한, 제2 양자화스킴(1550)의 2-스테이지 VQ(1563)에는 5+5=10 비트를, LVQ(1565)에는 30 비트를 할당할 수 있다.

도 16a 및 도 16b은 본 발명의 일실시예에 따른 LPC 계수 양자화부(1610, 1630)의 구성을 나타낸 블록도이다. 특히, 도 16a 및 도 16b의 LPC 계수 양자화부(1610, 1630)은 세이프티-넷 스킴 즉, 제1 양자화스킴의 구성에 사용될 수 있다.

도 16a에 도시된 LPC 계수 양자화부(1610)은 VQ(1621)과 프레임내 예측기(1625)를 갖는 TCQ 혹은 BC-TCQ(1623)를 포함할 수 있고, 도 16b에 도시된 LPC 계수 양자화부(1630)은 VQ 혹은 MSVQ(1641)와 TCQ 혹은 LVQ(1643)을 포함할 수 있다.

이에 따르면, VQ(1621) 혹은 VQ 혹은 MSVQ(1641)은 전체 입력벡터를 적은 비트로 개략적으로 양자화하며, TCQ 혹은 BC-TCQ(1623) 혹은 TCQ 혹은 LVQ(1643)는 LSF 양자화 에러에 대하여 정밀하게 부호화한다.

한편, 매 프레임에서 세이프티-넷 스팀 즉, 제1 양자화스킴만을 사용하는 경우에는 추가적인 성능 향상을 위하여 LVA(List Viterbi Algorithm) 방식을 적용할 수 있다. 즉, 제1 양자화스킴만을 사용하게 되면 스위칭 방식에 비하여 복잡도에서 여유가 있으므로 탐색시 복잡도를 증가시켜 성능 향상을 이루는 LVA 방식을 적용할 수 있다. LVA 방식을 일례로 들어 BC-TCQ에 적용함으로써 복잡도는 상승하지만, 상승정도가 스위칭 구조의 복잡도보다 낮도록 설정할 수 있다.

도 17a 내지 도 17c는 본 발명의 일실시예에 따른 LPC 계수 양자화부의 구성을 나타낸 블록도로서, 특히 가중함수를 이용하는 BC-TCQ의 구조를 나타낸 것이다.

도 17a를 참조하면, LPC 계수 양자화부는 가중함수 결정부(1710)와, 프레임내 예측기(1723)를 갖는 BC-TCQ(1721)로 이루어지는 양자화스킴(1720)을 포함할 수 있다.

도 17b를 참조하면, LPC 계수 양자화부는 가중함수 결정부(1730)와, 프레임내 예측기(1745)를 갖는 BC-TCQ(1743)와 프레임간 예측기(1741)로 이루어지는 양자화스킴(1740)을 포함할 수 있다. 여기서, BC-TCQ(1743)에 40 비트가 할당될 수 있다.

도 17c를 참조하면, LPC 계수 양자화부는 가중함수 결정부(1750)와, 프레임내 예측기(1765)를 갖는 BC-TCQ(1763)와 VQ(1761)로 이루어지는 양자화스킴(1760)을 포함할 수 있다. 여기서, VQ(1761)에 5비트, BC-TCQ(1763)에 40 비트가 할당될 수 있다.

도 18은 본 발명의 일실시예에 따른 LPC 계수 양자화부(1800)의 구성을 나타낸 블록도이다.

도 18에 도시된 LPC 계수 양자화부(1800)는 제1 양자화스킴(1810)과 제2 양자화스킴(1830)과 양자화경로 결정부(1850)를 포함할 수 있다.

제1 양자화스킴(1810)은 프레임간 예측을 사용하지 않으면서 양자화를 수행하는 것으로서, 양자화 성능 향상을 위하여 MSVQ(1821)과 LVQ(1823)를 조합하여 사용할 수 있다. MSVQ(1821)는 바람직하게로는 2 스테이지로 이루어질 수 있다. MSVQ(1821)는 DC 값이 제거된 LSF 계수를 개략적으로 벡터 양자화하여 양자화 인덱스를 생성한다. LVQ(1823)는 MSVQ(1821)로부터 출력되는 역양자화된 LSF 계수와 DC 값이 제거된 LSF 계수간의 LSF 양자화에러를 입력으로 하여 양자화를 수행하여 양자화 인덱스를 생성한다. MSVQ(1821)의 출력과 LVQ(1823)의 출력은 서로 더해지고 DC 값이 합해져서 최종 양자화된 LSF 계수(QLSF)가 생성된다. 제1 양자화스킴(1810)에서는 저비트율에서 우수한 성능을 보이는 MSVQ(1821)와 저비트율에서 효율적인 LVQ(1823)를 결합하여 사용함으로써, 매우 효율적인 양자화기 구조를 구현할 수 있다.

제2 양자화스킴(1830)은 프레임간 예측을 사용하여 양자화를 수행하는 것으로서, 프레임내 예측기(1845)를 갖는 BC-TCQ(1843)와 프레임간 예측기(1841)를 포함할 수 있다. 프레임간 예측기(1841)의 예측값으로부터 얻어지는 LSF 예측에러는 프레임내 예측기(1845)를 갖는 BC-TCQ(18433)에서 양자화된다. 이에 따르면, 고비트율에서 양자화성능이 우수한 BC-TCQ(1843)의 특성을 최대화시킬 수 있다.

양자화경로 결정부(1850)는 예측모드와 가중왜곡을 고려하여 제1 양자화스킴(1810)의 출력과 제2 양자화스킴(1830)의 출력 중 하나를 최종 양자화 출력으로 결정한다.

결과적으로, 제1 양자화스킴(1810)과 제2 양자화스킴(1830)을 이용할 경우 입력 음성신호의 특성에 대응하여 최적의 양자화기를 구현할 수 있다. 일예를 들어, 도 18의 LPC 계수 양자화부(1800)에 있어서 8 KHz 대역의 WB 를 가지며 VC 모드인 음성신호의 양자화에 43 비트를 사용하는 경우, 제1 양자화스킴(1810)에서 양자화경로 정보를 나타내는 1 비트를 제외하고, MSVQ(1821)에는 12 비트를, LVQ(1823)에는 30 비트를 할당할 수 있다. 또한, 제2 양자화스킴(1830)의 BC-TCQ(1843)에는 양자화경로 정보를 나타내는 1 비트를 제외하고, 42 비트 전부를 할당할 수 있다.

다음 표 7은 8 KHz 대역의 WB 음성신호에 비트할당의 예를 보여준다.

부호화 모드	LSF/ISF 양자화스킴	MSVQ-LVQ [bits]	BC-TCQ [bits]
VC, WB	Satety-net Predictive	43 -	- 43

도 19는 본 발명의 일실시예에 따른 LPC 계수 양자화부(1900)의 구성을 나타낸 블록도이다.

도 19에 도시된 LPC 계수 양자화부(1900)는 제1 양자화스킴(1910)과 제2 양자화스킴(1930)과 양자화경로 결정부(1950)를 포함할 수 있다.

제1 양자화스킴(1910)은 프레임간 예측을 사용하지 않으면서 양자화를 수행하는 것으로서, 양자화 성능 향상을 위하여 VQ(1921)과 프레임내 예측기(1925)를 갖는 BC-TCQ(1923)를 조합하여 사용할 수 있다.

제2 양자화스킴(1930)은 프레임간 예측을 사용하여 양자화를 수행하는 것으로서, 프레임내 예측기(1945)를 갖는 BC-TCQ(1943)와 프레임간 예측기(1941)를 포함할 수 있다.

양자화경로 결정부(1950)는 예측모드와 제1 양자화스킴(1910) 및 제2 양자화스킴(1930)으로부터 구해진 최적 양자화된 값을 이용한 가중왜곡을 입력으로 하여, 양자화경로를 결정한다. 일례로서, 현재 프레임의 예측모드가 0, 즉 현재 프레임의 음성신호가 비정적(non-stationary) 특성을 갖는지를 판단한다. TC 모드 혹은 UC 모드와 같이 현재 프레임의 음성신호가 변동성이 큰 경우에는 프레임간 예측이 어렵기 때문에, 항상 세이프티-넷 스킴 즉, 제1 양자화 스킴(1910)을 양자화 경로로 결정한다.

한편, 현재 프레임의 예측모드가 1 즉, 현재 프레임의 음성신호가 비정적(non-stationary) 특성을 갖지 않는 GC 모드 혹은 VC 모드인 경우 예측에러를 고려하여 제1 양자화스킴(1910)과 제2 양자화스킴(1930) 중 하나를 양자화 경로로 결정한다. 이를 위하여, 프레임 에러에 강인하도록 제1 양자화스킴(1910)의 가중왜곡이 우선적으로 고려된다. 즉, 제1 양자화스킴(1910)의 가중왜곡의 값이 미리 정의한 임계치보다 작은 경우에는 제2 양자화스킴(1930)의 가중왜곡의 값에 상관없이 제1 양자화스킴(1910)이 선택된다. 또한, 단순히 가중왜곡의 값이 작은 양자화스킴을 선택하는 것이 아니라, 동일한 가중왜곡의 값인 경우 프레임 에러를 고려하여 제1 양자화스킴(1910)이 선택된다. 한편, 제1 양자화스킴(1910)의 가중왜곡의 값이 제2 양자화스킴(1930)의 가중왜곡의 값보다 소정 배수 이상 큰 경우에는 제2 양자화스킴(1930)이 선택될 수 있다. 여기서, 소정 배수는 예를 들면 1.15로 설정될 수 있다. 이와 같이 양자화경로가 결정되면, 결정된 양자화경로의 양자화스킴에서 생성된 양자화 인덱스를 전송한다.

한편, 예측모드가 3가지인 경우를 고려하여, 0인 경우에는 항상 제1 양자화스킴(1910)을 선택하고, 1인 경우에는 항상 제2 양자화스킴(1930)을 선택하고, 2인 경우에는 제1 양자화스킴(1910)과 제2 양자화스킴(1930)를 스위칭하여 그 중 하나를 양자화 경로로 결정하도록 구현하는 것도 가능하다.

일예를 들어, 도 19의 LPC 계수 양자화부(1900)에 있어서 8 KHz 대역의 WB 를 가지며 GC 모드인 음성신호의 양자화에 37 비트를 사용하는 경우, 제1 양자화스킴(1910)에서는 양자화경로 정보를 나타내는 1 비트를 제외하고, VQ(1921)에는 2 비트를, BC-TCQ(1923)에는 34 비트를 할당할 수 있다. 또한, 제2 양자화스킴(1930)의 BC-TCQ(1943)에는 양자화경로 정보를 나타내는 1 비트를 제외하고, 36 비트 전부를 할당할 수 있다.

*다음 표 8은 8 KHz 대역의 WB 음성신호에 비트할당의 예를 보여준다.

부호화 모드	LSF/ISF 양자화스킴	사용 비트수
VC, WB	Satety-net Predictive	43 43
GC, WB	Satety-net Predictive	37 37
TC, WB	Satety-net	44

도 20은 본 발명의 일실시예에 따른 LPC 계수 양자화부(2000)의 구성을 나타낸 블록도이다.

도 20에 도시된 LPC 계수 양자화부(2000)는 제1 양자화스킴(2010)과 제2 양자화스킴(2030)과 양자화경로 결정부(2050)를 포함할 수 있다.

제1 양자화스킴(2010)은 프레임간 예측을 사용하지 않으면서 양자화를 수행하는 것으로서, 양자화 성능 향상을 위하여 VQ(2021)과 프레임내 예측기(2025)를 갖는 BC-TCQ(2023)를 조합하여 사용할 수 있다.

제2 양자화스킴(2030)은 프레임간 예측을 사용하여 양자화를 수행하는 것으로서, LVQ(2043)와 프레임간 예측기(2041)를 포함할 수 있다.

양자화경로 결정부(2050)는 부호화모드와 제1 양자화스킴(2010) 및 제2 양자화스킴(2030)으로부터 구해진 최적 양자화된 값을 이용한 가중왜곡을 입력으로 하여, 양자화경로를 결정한다.

일예를 들어, 도 20의 LPC 계수 양자화부(2000)에 있어서 8 KHz 대역의 WB 를 가지며 VC 모드인 음성신호의 양자화에 43 비트를 사용하는 경우, 제1 양자화스킴(2010)에서는 양자화경로 정보를 나타내는 1 비트를 제외하고, VQ(2021)에는 6 비트를, BC-TCQ(2023)에는 36 비트를 할당할 수 있다. 또한, 제2 양자화스킴(2030)의 LVQ(2043)에는 양자화경로 정보를 나타내는 1 비트를 제외하고, 42 비트 전부를 할당할 수 있다.

다음 표 9는 8 KHz 대역의 WB 음성신호에 비트할당의 예를 보여준다.

부호화 모드	LSF/ISF 양자화스킴	MSVQ-LVQ [bits]	BC-TCQ [bits]
VC, WB	Satety-net Predictive	- 43	43 -

도 21은 본 발명의 일실시예에 따른 양자화기 타입 선택부(2100)의 구성을 설명하는 도면이다. 도 21에 도시된 양자화기 타입 선택부(2100)는 비트율 결정부(2101), 대역결정부(2103), 내부 샘플링 주파수 결정부(2105) 및 양자화기 타입 결정부(2107)를 포함할 수 있다. 각 구성요소는 적어도 하나 이상의 모듈로 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다. 양자화기 타입 선택부(2100)는 2가지 양자화 스킴이 스위칭되는 예측모드 2에서 사용될 수 있다. 양자화기 타입 선택부(2100)는 도 1의 사운드 부호화장치(100)의 LPC 계수 양자화부(117)의 구성요소로 포함되거나, 도 1의 사운드 부호화장치(100)의 구성요소로 포함될 수 있다.

도 21을 참조하면, 비트율 결정부(2101)는 음성신호의 부호화할 비트율(coding bit rate)을 결정한다. 부호화할 비트율은 전체 프레임에 대하여 결정되거나 프레임 단위로 결정될 수 있다. 부호화할 비트율에 따라서 양자화기 타입이 변경될 수 있다.

대역결정부(2103)는 음성신호의 대역(bandwidth)를 결정한다. 음성신호의 대역에 따라서 양자화기 타입이 변경될 수 있다.

내부 샘플링 주파수 결정부(2105)는 양자화기에서 사용되는 대역의 상한(upper limit)에 따른 내부 샘플링 주파수를 결정한다. 음성신호의 대역이 WB 이상 즉, WB, SWB 그리고 FB인 경우, 부호화하는 대역의 상한이 6.4 KHz인지 8 KHz인지에 따라서, 내부 샘플링 주파수가 가변된다. 부호화하는 대역의 상한이 6.4 KHz인 경우 내부 샘플링 주파수는 12800 Hz가 되고, 8 KHz인 경우 16000 Hz가 된다. 한편, 대역의 상한은 상기한 수치에 한정되는 것은 아니다.

양자화기 타입 결정부(2107)는 비트율 결정부(2101)의 출력, 대역결정부(2103)의 출력과 내부 샘플링 주파수 결정부(2105)의 출력을 입력으로 하여, 양자화기 타입을 개루프(open loop)와 폐루프(closed-loop) 중 하나로 선택한다. 양자화기 타입 결정부(2107)는 부호화할 비트율이 소정 기준값보다 크고, 음성신호의 대역이 WB 이상이고, 내부 샘플링 주파수가 16000 Hz인 경우 양자화기 타입을 개루프(open loop)를 선택할 수 있다. 한편, 그외의 경우에는 양자화기 타입을 폐루프(closed-loop)로 선택할 수 있다.

도 22는 본 발명의 일실시예에 따른 양자화기 타입 선택방법의 동작을 설명하는 도면이다.

도 22에 있어서, 2201 단계에서는 비트율이 소정 기준값보다 큰지를 판단한다. 여기서, 소정 기준값의 예로는 16.4 kbps로 설정되었으나, 이에 한정되는 것은 아니다. 2201 단계에서의 판단결과, 비트율이 소정 기준값보다 작거나 같은 경우 폐루프 타입을 선택한다(2209 단계).

한편, 2201 단계에서의 판단결과, 비트율이 소정 기준값보다 큰 경우, 2203 단계에서는 음성신호의 대역이 NB보다 넓은지 판단한다. 2203 단계에서의 판단결과, 음성신호의 대역이 NB인 경우 폐루프 타입을 선택한다(2209 단계).

한편, 2203 단계에서의 판단결과, 음성신호의 대역이 NB보다 넓은 경우 즉,WB, SWB 그리고 FB인 경우, 2205 단계에서 내부 샘플링 주파수가 16000 Hz인지를 판단한다. 2205 단계에서의 판단결과, 내부 샘플링 주파수가 16000 Hz가 아닌 경우 폐루프 타입을 선택한다(2209 단계).

한편, 2205 단계에서의 판단결과, 내부 샘플링 주파수가 16000 Hz인 경우 개루프(open loop) 타입을 선택한다(2207 단계).

도 23은 본 발명의 일실시예에 따른 사운드 복호화장치(2300)의 구성을 나타낸 블록도이다.

도 23을 참조하면, 사운드 복호화장치(2300)는 파라미터 복호화부(2311), LPC 계수 역양자화부(2313), 가변모드 복호화부(2315)와 후처리부(2319)를 포함할 수 있다. 사운드 복호화 장치(2300)는 오류 복원부(2317)를 더 포함할 수 있다. 각 구성요소는 적어도 하나 이상의 모듈로 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.

파라미터 복호화부(2311)는 비트스트림으로부터 복호화에 사용될 파라미터를 복호화할 수 있다. 파라미터 복호화부(2311)는 비트스트림에 부호화 모드가 포함되는 경우, 부호화 모드와 부호화 모드에 대응하는 파라미터를 복호화할 수 있다. 복호화된 부호화 모드에 대응하여 LPC 계수 역양자화와 여기 복호화가 수행될 수 있다.

LPC 계수 역양자화부(2313)는 LPC 파라미터에 포함된 양자화된 ISF 혹은 LSF 계수, ISF 혹은 LSF 양자화 에러, ISF 혹은 LSF 예측에러를 역양자화하여, 복호화된 LSF 계수를 생성하고, 이를 변환하여 LPC 계수를 생성할 수 있다.

가변모드 복호화부(2315)는 LPC 계수 역양자화부(2313)에서 생성된 LPC 계수를 복호화하여 합성신호(synthesized signal)를 생성할 수 있다. 가변모드 복호화부(2315)는 복호화장치에 대응되는 부호화장치에 따라서, 도 2a 내지 도 2d에 도시된 바와 같은 부호화 모드에 대응하여 복호화를 수행할 수 있다.

오류 복원부(2317)는 가변모드 복호화부(2315)에서의 복호화결과 음성신호의 현재 프레임에서 에러가 발생했을 때, 현재 프레임을 복원하거나 은닉할 수 있다.

후처리부(2319)는 가변모드 복호화부(2315)에서 생성된 합성신호에 대하여 다양한 필터링과 음질 향상 처리를 수행하여 최종 합성신호 즉, 복원된 사운드를 생성할 수 있다.

도 24는 본 발명의 일실시예에 따른 LPC 계수 역양자화부(2400)의 구성을 나타낸 블록도이다.

도 24에 도시된 LPC 계수 역양자화부(2400)는 ISF/LSF 역양자화부(2411)와 계수 변환부(2413)를 포함할 수 있다.

ISF/LSF 역양자화부(2411)는 비트스트림에 포함되는 양자화경로 정보에 대응하여, LSP 파라미터에 포함된 양자화된 ISF 혹은 LSF 계수, ISF 혹은 LSF 양자화 에러, ISF 혹은 LSF 예측에러를 역양자화하여, 복호화된 ISF 혹은 LSF 계수를 생성할 수 있다.

계수 변환부(2413)는 ISF/LSF 역양자화부(2411)의 역양자화 결과 얻어지는 복호화된 ISF 혹은 LSF 계수를 ISP(Immittance Spectral Pairs) 혹은 LSP(Linear Spectral Pairs)로 변환하고, 각 서브프레임을 위하여 보간을 수행할 수 있다. 보간은 이전 프레임의 ISP/LSP와 현재 프레임의 ISP/LSP를 이용하여 수행될 수 있다. 계수 변환부(2413)는 역양자화되고 보간된 각 서브프레임의 ISP/LSP를 LPC 계수로 변환할 수 있다.

도 25는 본 발명의 일실시예에 따른 LPC 계수 역양자화부(2500)의 세부적인 구성을 나타낸 블록도이다.

도 25에 도시된 LPC 계수 역양자화부(2500)는 역양자화경로 결정부(2511), 제1 역양자화 스킴(2513)과 제2 역양자화 스킴(2515)을 포함할 수 있다.

역양자화경로 결정부(2511)는 비트스트림에 포함된 양자화경로 정보에 근거하여 LPC 파라미터를 제1 역양자화 스킴(2513)과 제2 역양자화 스킴(2515) 중 하나로 제공할 수 있다. 일예로, 양자화경로 정보는 1 비트로 표현될 수 있다.

제1 역양자화 스킴(2513)은 LPC 파라미터를 개략적으로 역양자화하는 부분과 LPC 파라미터를 정밀하게 역양자화하는 부분을 포함할 수 있다.

제2 역양자화 스킴(2515)은 LPC 파라미터에 대하여 블록제한된 트렐리스 부호화 역양자화를 수행하는 부분과 프레임간 예측 부분을 포함할 수 있다.

제1 역양자화 스킴(2513)과 제2 역양자화 스킴(2515)은 상기 실시예에 한정되는 것은 아니며, 복호화장치에 대응하는 부호화장치에 따라서, 전술한 다양한 실시예의 각 제1 및 제2 양자화 스킴의 역과정을 이용하여 구현될 수 있다.

상기 LPC 계수 역양자화부의 구성은 양자화기 구조가 개루프(open-loop) 방식 혹은 폐루프(closed-loop) 방식에 상관없이 적용할 수 있다.

도 26은 도 25에 도시된 제1 역양자화 스킴과 제2 역양자화 스킴의 일예를 나타낸 도면이다.

도 26을 참조하면, 제1 역양자화 스킴(2610)은 부호화단의 MSVQ에서 생성된 제1 코드북 인덱스를 이용하여, LPC 파라미터에 포함된 양자화된 LSF 계수를 역양자화하는 멀티스테이지 벡터 양자화기(MSVQ, 2611)와, 부호화단의 LVQ에서 생성된 제2 코드북 인덱스를 이용하여, LPC 파라미터에 포함된 LSF 양자화 에러를 역양자화하는 격자 벡터 양자화기(LVQ, 2613)를 포함할 수 있다. 멀티스테이지 벡터 양자화기(MSVQ, 2611)에서 얻어지는 역양자화된 LSF 계수와 격자 벡터 양자화기(LVQ, 2613)에서 얻어지는 역양자화된 LSF 양자화 에러를 더한 후, 소정의 DC 값인 평균값을 더하면 최종 복호화된 LSF 계수가 생성된다.

제2 역양자화 스킴(2630)은 부호화단의 BC-TCQ에서 생성된 제3 코드북 인덱스를 이용하여, LPC 파라미터에 포함된 LSF 예측에러를 역양자화하는 블록제한된 트렐리스 부호화 양자화기(BC-TCQ, 2631), 프레임내 예측기(2633)와 프레임간 예측기(2635)를 포함할 수 있다. 역양자화 과정은 LSF 벡터 중 가장 낮은 벡터에서부터 시작하며, 프레임내 예측기(2633)는 복호화된 벡터를 이용하여 다음 순서의 벡터 요소를 위한 예측값을 생성한다. 프레임간 예측기(2635)는 이전 프레임에서 복호화된 LSF 계수를 이용하여 프레임간 예측을 통하여 예측값을 생성한다. 블록제한된 트렐리스 부호화 양자화기(BC-TCQ, 2631)와 프레임내 예측기(2633)를 통하여 얻어지는 LSF 계수에 프레임간 예측기(2635)에서 얻어지는 프레임간 예측값을 더하고, 다시 소정의 DC 값인 평균값을 더하면 최종 복호화된 LSF 계수가 생성된다.

제1 역양자화 스킴(2610)과 제2 역양자화 스킴(2630)은 상기 실시예에 한정되는 것은 아니며, 복호화장치에 대응하는 부호화장치에 따라서, 전술한 다양한 실시예의 각 제1 및 제2 양자화 스킴의 역과정을 이용하여 구현될 수 있다.

도 27은 본 발명의 일실시예에 따른 양자화방법의 동작을 설명하는 플로우챠트이다.

도 27을 참조하면, 2710 단계에서는 수신된 사운드의 양자화 이전에, 소정 기준에 근거하여, 수신된 사운드의 양자화 경로를 선택한다. 일실시예에서는 프레임간 예측을 사용하지 않는 제1 경로와, 프레임간 예측을 사용하는 제2 경로 중 하나가 선택될 수 있다.

2730 단계에서는 제1 경로와 제2 경로 중 선택된 양자화 경로를 확인한다.

2750 단계에서는 2730 단계에서의 확인 결과, 양자화 경로로서 제1 경로가 선택된 경우, 제1 양자화 스킴을 이용하여, 수신된 사운드를 양자화한다.

2770 단계에서는 2730 단계에서의 확인 결과, 양자화 경로로서 제2 경로가 선택된 경우, 제2 양자화 스킴을 이용하여, 수신된 사운드를 양자화한다.

2710 단계에서의 양자화 경로 결정과정은 전술한 다양한 실시예를 통하여 수행될 수 있다. 2750 단계 및 2770 단계에서의 양자화과정은 전술한 다양한 실시예의 각 제1 및 제2 양자화 스킴을 이용하여 수행될 수 있다.

상기 실시예에서는 선택가능한 양자화 경로로서 제1 경로와 제2 경로를 설정하였으나, 제1 경로와 제2 경로를 포함하는 복수의 경로로 설정할 수 있으며, 도 27의 플로우챠트 또한 설정된 복수의 경로에 대응하여 변형될 수 있다.

도 28은 본 발명의 일실시예에 따른 역양자화방법의 동작을 설명하는 플로우챠트이다.

도 28을 참조하면, 2810 단계에서는 비트스트림에 포함된 선형예측 부호화(LPC) 파라미터를 복호화한다.

2830 단계에서는 비트스트림에 포함된 양자화 경로를 체크하고, 2750 단계에서는 제1 경로와 제2 경로 중 체크된 경로를 확인한다.

2870 단계에서는 2850 단계에서의 확인 결과, 양자화 경로가 제1 경로인 경우, 제1 역양자화 스킴을 이용하여, 복호화된 LPC 파라미터를 역양자화한다.

2890 단계에서는 2850 단계에서의 확인 결과, 양자화 경로가 제2 경로인 경우, 제2 역양자화 스킴을 이용하여, 복호화된 LPC 파라미터를 역양자화한다.

2870 단계 및 2890 단계에서의 역양자화과정은 복호화장치에 대응하는 부호화장치에 따라서, 전술한 다양한 실시예의 각 제1 및 제2 양자화 스킴의 역과정을 이용하여 수행될 수 있다.

상기 실시예에서는 체크된 양자화 경로로서 제1 경로와 제2 경로를 설정하였으나, 제1 경로와 제2 경로를 포함하는 복수의 경로로 설정할 수 있으며, 도 27의 플로우챠트 또한 설정된 복수의 경로에 대응하여 변형될 수 있다.

도 27 및 도 28의 방법들은 프로그래밍될 수 있으며, 적어도 하나의 프로세싱 디바이스에 의해 수행될 수 있다. 또한, 상기 실시예는 바람직하게로는 프레임 단위로 수행될 수 있다.

도 29는 본 발명의 일실시예에 따른 부호화모듈을 포함하는 전자기기의 구성을 나타낸 블록도이다.

도 29에 도시된 전자기기(2900)는 통신부(2910)와 부호화모듈(2930)을 포함할 수 있다. 또한, 부호화 결과 얻어지는 사운드 비트스트림의 용도에 따라서, 사운드 비트스트림을 저장하는 저장부(2950)을 더 포함할 수 있다. 또한, 전자기기(2900)는 마이크로폰(2970)을 더 포함할 수 있다. 즉, 저장부(2850)와 마이크로폰(2970)은 옵션으로 구비될 수 있다. 한편, 도 29에 도시된 전자기기(2900)는 임의의 복호화모듈(미도시), 예를 들면 일반적인 복호화 기능을 수행하는 복호화모듈 혹은 본 발명의 일실시예에 따른 복호화모듈을 더 포함할 수 있다. 여기서, 부호화모듈(2930)은 전자기기(2900)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나의 이상의 프로세서(미도시)로 구현될 수 있다.

도 29를 참조하면, 통신부(2910)는 외부로부터 제공되는 사운드와 부호화된비트스트림 중 적어도 하나를 수신하거나, 복원된 사운드와 부호화모듈(2930)의 부호화결과 얻어지는 사운드 비트스트림 중 적어도 하나를 송신할 수 있다.

통신부(2910)는 무선 인터넷, 무선 인트라넷, 무선 전화망, 무선 랜(LAN), 와이파이(Wi-Fi), 와이파이 다이렉트(WFD, Wi-Fi Direct), 3G(Generation), 4G(4 Generation), 블루투스(Bluetooth), 적외선 통신(IrDA, Infrared Data Association), RFID(Radio Frequency Identification), UWB(Ultra WideBand), 지그비(Zigbee), NFC(Near Field Communication)와 같은 무선 네트워크 또는 유선 전화망, 유선 인터넷과 같은 유선 네트워크를 통해 외부의 전자기기와 데이터를 송수신할 수 있도록 구성된다.

부호화모듈(2930)은 통신부(2910) 혹은 마이크로폰(2970)을 통하여 제공되는 사운드의 양자화 이전에, 소정 기준에 근거하여, 프레임간 예측을 사용하지 않는 제1 경로와, 프레임간 예측을 사용하는 제2 경로 중 하나를 사운드의 양자화 경로로 선택하고, 선택된 양자화 경로에 따라서 제1 양자화 스킴과 제2 양자화 스킴 중 하나를 이용하여 사운드를 양자화하고, 양자화된 사운드를 부호화하여 비트스트림을 생성할 수 있다.

여기서, 제1 양자화 스킴은 수신된 사운드를 개략적으로 양자화하는 제1 양자화기(미도시)와, 수신된 사운드와 제1 양자화기의 출력신호간의 양자화 에러신호를 정밀하게 양자화하는 제2 양자화기(미도시)를 포함할 수 있다. 제1 양자화 스킴은 바람직하게로는, 수신된 사운드를 양자화하는 멀티스테이지 벡터 양자화기(MSVQ, 미도시)와, 수신된 사운드와 멀티스테이지 벡터 양자화기의 출력간의 에러신호를 양자화하는 격자 벡터 양자화기(LVQ, 미도시)를 포함할 수 있다. 또한, 제1 양자화 스킴은 전술한 바와 같이 다양한 실시예들 중 하나로 구현할 수 있다.

한편, 제2 양자화 스킴은 바람직하게로는, 입력 사운드에 대하여 프레임간 예측을 수행하는 프레임간 예측기(미도시), 예측 에러에 대하여 프레임내 예측을 수행하는 프레임내 예측기(미도시)와, 예측 에러를 양자화하는 블록제한된 트렐리스 부호화 양자화기(BC-TCQ, 미도시)를 포함할 수 있다. 마찬가지로, 제2 양자화 스킴은 전술한 바와 같이 다양한 실시예들 중 하나로 구현할 수 있다.

저장부(2950)는 부호화 모듈(2930)에서 생성되는 부호화된 비트스트림을 저장할 수 있다. 한편, 저장부(2950)는 전자기기(2900)의 운용에 필요한 다양한 프로그램을 저장할 수 있다.

마이크로폰(2970)은 사용자 혹은 외부의 사운드를 부호화모듈(2930)로 제공할 수 있다.

도 30은 본 발명의 일실시예에 따른 복호화모듈을 포함하는 전자기기의 구성을 나타낸 블록도이다.

도 30에 도시된 전자기기(3000)는 통신부(3010)와 복호화모듈(3030)을 포함할 수 있다. 또한, 복호화 결과 얻어지는 복원된 사운드의 용도에 따라서, 복원된 사운드를 저장하는 저장부(3050)을 더 포함할 수 있다. 또한, 전자기기(3000)는 스피커(3070)를 더 포함할 수 있다. 즉, 저장부(3050)와 스피커(3070)는 옵션으로 구비될 수 있다. 한편, 도 30에 도시된 전자기기(3000)는 임의의 부호화모듈(미도시), 예를 들면 일반적인 부호화 기능을 수행하는 부호화모듈 혹은 본 발명의 일실시예에 따른 부호화모듈을 더 포함할 수 있다. 여기서, 복호화모듈(3030)은 전자기기(3000)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나의 이상의 프로세서(미도시)로 구현될 수 있다.

도 30을 참조하면, 통신부(3010)는 외부로부터 제공되는 부호화된 비트스트림과 사운드 중 적어도 하나를 수신하거나 복호화 모듈(3030)의 복호화결과 얻어지는 복원된 사운드와 부호화결과 얻어지는 사운드 비트스트림 중 적어도 하나를 송신할 수 있다. 한편, 통신부(3010)는 도 28의 통신부(3010)와 실질적으로 유사하게 구현될 수 있다.

복호화 모듈(3030)은 통신부(3010)를 통하여 제공되는 비트스트림에 포함된 선형예측 부호화 파라미터를 복호화하고, 비트스트림에 포함된 경로 정보에 근거하여, 프레임간 예측을 사용하지 않는 제1 역양자화 스킴과 프레임간 예측을 사용하는 제2 역양자화 스킴 중 하나를 이용하여 복호화된 선형예측 부호화 파라미터를 역양자화하고, 역양자화된 선형예측 부호화 파라미터를 복호화하여 복원된 사운드를 생성할 수 있다. 여기서, 복호화 모듈(3030)은 비트스트림에 부호화 모드가 포함되는 경우, 역양자화된 선형예측 부호화 파라미터를 복호화된 부호화 모드에 대응하여 복호화할 수 있다.

여기서, 제1 역양자화 스킴은 선형예측 부호화 파라미터를 개략적으로 역양자화하는 제1 역양자화기(미도시)와, 선형예측 부호화 파라미터를 정밀하게 역양자화하는 제2 역양자화기(미도시)를 포함할 수 있다. 제1 역양자화 스킴은 바람직하게로는, 제1 코드북 인덱스를 이용하여 선형예측 부호화 파라미터를 역양자화하는 멀티스테이지 벡터 역양자화기(MSVIQ, 미도시)와, 제2 코드북 인덱스를 이용하여 선형예측 부호화 파라미터를 역양자화하는 격자 벡터 역양자화기(LVIQ, 미도시)를 포함할 수 있다. 또한, 제1 역양자화 스킴은 도 28에 설명된 제1 양자화 스킴과 가역적인 동작을 수행하므로, 복호화장치에 대응하는 부호화장치에 따라서, 전술한 바와 같이 제1 양자화 스킴의 다양한 실시예들의 각 역과정으로 구현할 수 있다.

한편, 제2 역양자화 스킴은 바람직하게로는, 제3 코드북 인덱스를 이용하여 선형예측 부호화 파라미터를 역양자화하는 블록제한된 트렐리스 부호화 역양자화기(BC-TCIQ. 미도시), 프레임내 예측기(미도시)와 프레임간 예측기(미도시)를 포함할 수 있다. 마찬가지로, 제2 역양자화 스킴은 도 28에 설명된 제2 양자화 스킴과 가역적인 동작을 수행하므로, 복호화장치에 대응하는 부호화장치에 따라서, 전술한 바와 같이 제2 양자화 스킴의 다양한 실시예들의 각 역과정으로 구현할 수 있다.

저장부(3050)는 복호화 모듈(3030)에서 생성되는 복원된 사운드를 저장할 수 있다. 한편, 저장부(3050)는 전자기기(3000)의 운용에 필요한 다양한 프로그램을 저장할 수 있다.

스피커(3070)는 복호화 모듈(3030)에서 생성되는 복원된 사운드를 외부로 출력할 수 있다.

도 31은 본 발명의 일실시예에 따른 부호화모듈과 복호화모듈을 포함하는 전자기기의 구성을 나타낸 블록도이다.

도 31에 도시된 전자기기(3100)는 통신부(3110), 부호화모듈(3120)과 복호화모듈(3130)을 포함할 수 있다. 또한, 부호화 결과 얻어지는 사운드 비트스트림 혹은 복호화 결과 얻어지는 복원된 사운드의 용도에 따라서, 사운드 비트스트림 혹은 복원된 사운드를 저장하는 저장부(3140)을 더 포함할 수 있다. 또한, 전자기기(3100)는 마이크로폰(3150) 혹은 스피커(3160)를 더 포함할 수 있다. 여기서, 부호화모듈(3120)과 복호화모듈(3130)은 전자기기(3100)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나의 이상의 프로세서(미도시)로 구현될 수 있다.

도 31에 도시된 각 구성요소는 도 29에 도시된 전자기기(2900)의 구성요소 혹은 도 30에 도시된 전자기기(3000)의 구성요소와 중복되므로, 그 상세한 설명은 생각하기로 한다.

도 29 내지 도 31에 도시된 전자기기(2900, 3000, 3100)에는, 전화, 모바일 폰 등을 포함하는 음성통신 전용단말, TV, MP3 플레이어 등을 포함하는 방송 혹은 음악 전용장치, 혹은 음성통신 전용단말과 방송 혹은 음악 전용장치의 융합 단말장치가 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 전자기기(2900, 3000, 3100)는 클라이언트, 서버 혹은 클라이언트와 서버 사이에 배치되는 변환기로서 사용될 수 있다.

한편, 전자기기(2900, 3000, 3100)가 예를 들어 모바일 폰인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 유저 인터페이스 혹은 모바일 폰에서 처리되는 정보를 디스플레이하는 디스플레이부, 모바일 폰의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, 모바일 폰은 촬상 기능을 갖는 카메라부와 모바일 폰에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.

한편, 전자기기(2900, 3000, 3100)가 예를 들어 TV인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 수신된 방송정보를 디스플레이하는 디스플레이부, TV의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, TV는 TV에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.

한편, LPC 계수 양자화/역양자화와 관련하여 채용되는 BC-TCQ와 관련된 내용은 US 7630890 (Block-constrained TCQ method, and method and apparatus for quantizing LSF parameter employing the same in speech coding system)에 자세히 설명되어 있다. 그리고, LVA 방식과 관련된 내용은 US 20070233473 (Multi-path trellis coded quantization method and Multi-path trellis coded quantizer using the same)에 자세히 설명되어 있다.

상기 실시예들에 따른 양자화방법, 역영자화방법, 부호화방법, 및 복호화방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예들에서 사용될 수 있는 데이터 구조, 프로그램 명령, 혹은 데이터 파일은 컴퓨터로 읽을 수 있는 기록매체에 다양한 수단을 통하여 기록될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함할 수 있다. 컴퓨터로 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 컴퓨터로 읽을 수 있는 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 스코프는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 이의 균등 또는 등가적 변형 모두는 본 발명 기술적 사상의 범주에 속한다고 할 것이다.

511: 가중함수 결정부 513: 양자화경로 결정부
15: 제1 양자화스킴 517: 제2 양자화스킴

Claims

부호화된 오디오 신호와 부호화된 음성 신호 중 적어도 하나를 포함하는 비트스트림으로부터 얻어지는 모드 정보에 기초하여, 제 1 디코딩 모듈과 제 2 디코딩 모듈 중 하나를 선택하는 선택부;
상기 비트스트림을 프레임간 예측없이 디코딩하는 상기 제 1 디코딩 모듈; 및
상기 비트스트림을 프레임간 예측과 함께 디코딩하는 상기 제 2 디코딩 모듈을 포함하고,
상기 비트스트림은 복수의 코딩 모드 중 유성음 코딩 모드 (voiced coding mode)에 따라 생성되고,
상기 모드 정보는 오픈 루프 방식으로 프레임의 예측 에러와 임계치간의 비교결과에 기초하여 얻어지는 디코딩 장치.
제1 항에 있어서, 상기 제1 디코딩 모듈은 블록 제한을 갖는 트렐리스 구조 역양자화기와 프레임내 예측기를 포함하고, 상기 제2 디코딩 모듈은 블록 제한을 갖는 트렐리스 구조 역양자화기, 프레임내 예측기와 프레임간 예측기를 포함하는 디코딩 장치.
제1 항에 있어서, 상기 제1 디코딩 모듈은 블록 제한을 갖는 트렐리스 구조 역양자화기, 프레임내 예측기와 벡터 역양자화기를 포함하고, 상기 제2 디코딩 모듈은 블록 제한을 갖는 트렐리스 구조 역양자화기, 프레임내 예측기, 프레임간 예측기와 벡터 역양자화기를 포함하는 디코딩 장치.
제1 항 내지 제3 항 중 어느 한 항에 있어서, 상기 제 1 디코딩 모듈은 프레임마다 상기 제 2 디코딩 모듈과 동일한 비트 수를 사용하여 디코딩을 수행하는 디코딩 장치.
삭제