KR20200019164A

KR20200019164A - 대역폭 확장신호 생성장치 및 방법

Info

Publication number: KR20200019164A
Application number: KR1020200017008A
Authority: KR
Inventors: 주기현
Original assignee: 삼성전자주식회사
Priority date: 2011-06-30
Filing date: 2020-02-12
Publication date: 2020-02-21
Also published as: BR112013033900B1; TW201743320A; AU2012276367B2; EP2728577A4; ZA201400704B; CN106128473A; US20140188464A1; CN106128473B; CN106157968B; CA2966987C; BR112013033900A2; CN103843062A; JP6001657B2; TWI576832B; US20160247519A1; BR122021019883B1; KR20130007485A; CA2966987A1; KR102343332B1; AU2016202120B2

Abstract

대역폭 확장신호 생성장치는 저주파수 대역의 스펙트럼에 대하여 반-희박성 처리를 수행하는 반-희박성 처리부; 및 상기 반-희박성 처리가 수행된 저주파수 대역의 스펙트럼을 이용하여 주파수 도메인에서 고주파수 대역의 확장 복호화를 수행하는 FD 고주파수 확장 복호화부를 포함한다.

Description

대역폭 확장신호 생성장치 및 방법{Apparatus and method for generating a bandwidth extended signal}

본 발명은 오디오 부호화/복호화에 관한 것으로서, 보다 구체적으로는 고대역을 위한 대역폭 확장신호에 존재하는 메탈릭 노이즈(metallic noise)을 감소시킬 수 있는 대역폭 확장신호 생성장치 및 방법에 관한 것이다.

고주파수 영역에 해당하는 신호는 저주파수 영역에 해당하는 신호에 비하여 주파수의 미세 구조(fine structure)에 덜 민감하다. 따라서, 오디오 신호를 부호화할 때 가용할 수 있는 비트의 제약을 극복하기 위해 부호화 효율을 높여야 할 경우, 저주파수 영역에 해당하는 신호에 많은 비트를 할당하여 부호화하는 반면, 고주파수 영역에 해당하는 신호에 상대적으로 적은 비트를 할당하여 부호화한다.

이러한 방식이 적용된 기술이 SBR(Spectral Band Replication)이다. SBR은 스팩트럼의 저대역 또는 코어 대역과 같은 하부 대역을 부호화하고, 반면 고대역과 같은 상부 대역은 포락선 등과 같은 파라미터들을 이용하여 부호화한다. SBR은 하부 대역의 특징들을 추출하여 상부 대역을 예측하도록 하부 대역과 상부 대역 사이의 상관 관계를 이용한다.

이러한 SBR 기술에 있어, 고대역을 위한 대역폭 확장신호를 생성하기 위한 보다 개선된 방법이 요구된다.

본 발명이 해결하고자 하는 과제는 고대역을 위한 대역폭 확장신호에 존재하는 메탈릭 노이즈(metallic noise)를 감소시킬 수 있는 대역폭 확장신호 생성장치 및 방법을 제공하는데 있다.

상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 대역폭 확장신호 생성방법은, 저주파수 대역의 스펙트럼에 대하여 반-희박성 처리를 수행하는 단계; 및 상기 반-희박성 처리가 수행된 저주파수 대역의 스펙트럼을 이용하여 주파수 도메인에서 고주파수 대역의 확장 부호화를 수행하는 단계를 포함할 수 있다.

상기 과제를 달성하기 위한 본 발명의 다른 실시예에 따른 대역폭 확장신호 생성장치는, 저주파수 대역의 스펙트럼에 대하여 반-희박성 처리를 수행하는 반-희박성 처리부; 및 상기 반-희박성 처리가 수행된 저주파수 대역의 스펙트럼을 이용하여 주파수 도메인에서 고주파수 대역의 확장 복호화를 수행하는 FD 고주파수 확장 복호화부를 포함할 수 있다.

고주파수 대역을 확장하기 위하여 사용되는 신호에 대하여 반-희박성 처리를 수행함으로써, 고주파수 확장신호에 스펙트럼 홀이 발생되는 것을 줄여줄 수 있게 되어 톤 성분이 강조되어 야기되는 메탈릭 노이즈를 감소시킬 수 있다.

도 1은 본 발명의 일실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다.
도 2는 도 1에 도시된 FD 부호화부의 일실시예에 따른 구성을 나타내는 블록도이다.
도 3은 도 1에 도시된 FD 부호화부의 다른 실시예에 따른 구성을 나타내는 블록도이다.
도 4는 본 발명의 일실시예에 따른 반-희박성 처리부의 구성을 나타내는 블록도이다.
도 5는 본 발명의 일실시예에 따른 FD 고주파수 확장 부호화부의 구성을 나타내는 블록도이다.
도 6a 및 도 6b는 도 1에 도시된 FD 부호화 모듈에서 확장 부호화가 수행되는 영역을 나타낸 것이다.
도 7은 본 발명의 다른 실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다.
도 8은 본 발명의 다른 실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다.
도 9는 본 발명의 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.
도 10은 도 9에 도시된 FD 복호화부의 일실시예에 따른 구성을 나타내는 블록도이다.
도 11은 도 10에 도시된 FD 고주파수 확장 복호화부의 일실시예에 따른 구성을 나타내는 블록도이다.
도 12는 본 발명의 다른 실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.
도 13은 본 발명의 다른 실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.
도 14는 본 발명의 일실시예에 따른 코드북 공유방법을 설명하는 도면이다.
도 15는 본 발명의 일실시예에 따른 부호화 모드 시그널링 방법을 설명하는 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해될 수 있다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들이 용어들에 의해 한정되는 것은 아니다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 본 발명에서 사용한 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나 이는 당 분야에 종사하는 기술자의 의도, 판례, 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 본 발명의 실시예들을 첨부 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 일실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다. 도 1에 도시된 오디오 부호화장치는 멀티미디어 기기를 구성하며, 전화, 모바일 폰 등을 포함하는 음성통신 전용 단말기, TV, MP3 플레이어 등을 포함하는 방송 혹은 음악 전용 단말기, 혹은 음성통신 전용 단말기와 방송 혹은 음악 전용 단말기의 융합 단말기가 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 오디오 부호화장치는 클라이언트, 서버 혹은 클라이언트와 서버 사이에 배치되는 변환기로서 사용될 수 있다.

도 1에 도시된 오디오 부호화장치(100)는 부호화모드 결정부(110), 스위칭부(130), CELP(Code Excited Linear Prediction) 부호화모듈(150) 및 FD(Frequency Domain) 부호화모듈(170)을 포함할 수 있다. CELP 부호화모듈(150)은 CELP 부호화부(151)와 TD(Time Domain) 확장 부호화부(153)를 포함할 수 있고, FD 부호화모듈(170)은 변환부(171)와 FD 부호화부(173)를 포함할 수 있다. 각 구성요소는 적어도 하나 이상의 모듈로 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.

도 1을 참조하면, 부호화모드 결정부(110)는 신호의 특성을 참조하여 입력신호의 부호화모드를 결정할 수 있다. 부호화모드 결정부(110)는 신호의 특성에 따라서 현재 프레임이 음성모드인지 또는 음악모드인지 여부를 결정할 수 있고, 또한 현재 프레임에 효율적인 부호화 모드가 시간도메인 모드인지 아니면 주파수도메인 모드인지에 대하여 결정할 수 있다. 이때, 프레임의 단구간 특성 혹은 복수의 프레임들에 대한 장구간 특성 등을 이용하여 신호의 특성을 파악할 수 있으나, 이에 한정되는 것은 아니다. 부호화모드 결정부(110)는 신호의 특성이 음성모드 혹은 시간도메인 모드에 해당하는 경우에는 CELP 모드로, 신호의 특성이 음악모드 혹은 주파수도메인 모드에 해당하는 경우에는 FD 모드로 결정할 수 있다.

일실시예에 따르면 부호화모드 결정부(110)의 입력신호로는 다운 샘플링부(미도시)에 의하여 다운 샘플링된 신호가 될 수 있다. 예를 들어, 입력신호는 32kHz 또는 48kHz의 샘플링 레이트를 갖는 신호를 리샘플링(re-sampling) 혹은 다운샘플링(down sampling)하여 얻어지는 12.8kHz 또는 16kHz의 샘플링 레이트를 갖는 신호가 될 수 있다. 여기서, 32kHz의 샘플링 레이트를 갖는 신호는 SWB(Super Wide Band) 신호로서, Full-Band(FB) 신호로 칭할 수 있고, 16kHz의 샘플링 레이트를 갖는 신호는 WB(Wide-Band) 신호로 칭할 수 있다.

다른 실시예에 따르면 부호화모드 결정부(110)에서 리샘플링 혹은 다운샘플링 동작이 수행될 수도 있다.

이에 따르면, 부호화모드 결정부(110)는 리샘플링 혹은 다운샘플링된 신호에 대하여 부호화모드를 결정할 수 있다.

부호화모드 결정부(110)에서 결정된 부호화모드는 스위칭부(130)로 제공되는 한편, 프레임 단위로 비트스트림에 포함되어 저장 혹은 전송될 수 있다.

스위칭부(130)는 부호화모드 결정부(110)로부터 제공되는 부호화모드에 따라서, 입력신호를 CELP 부호화모듈(150) 및 FD 부호화모듈(170) 중 하나로 제공할 수 있다. 여기서, 입력신호는 리샘플링 혹은 다운샘플링된 신호로서, 12.8kHz 또는 16kHz의 샘플링 레이트를 갖는 저주파수 대역 신호가 될 수 있다. 구체적으로, 스위칭부(130)는 부호화모드가 CELP 모드인 경우 입력신호를 CELP 부호화모듈(150)로 제공하고, 부호화모드가 FD 모드인 경우 입력신호를 FD 부호화모듈(170)로 제공한다.

CELP 부호화모듈(150)은 부호화모드가 CELP 모드인 경우 동작되며, CELP 부호화부(151)는 입력신호에 대하여 CELP 부호화를 수행할 수 있다. 일실시예에 따르면, CELP 부호화부(151)는 리샘플링 혹은 다운샘플링된 신호로부터 여기신호(excitation signal)를 추출하고, 추출된 여기신호를 피치(pitch) 정보에 해당하는 필터링된 적응 코드벡터(즉, adaptive codebook contribution) 및 필터링된 고정 코드벡터(즉, fixed or innovation codebook contribution) 각각을 고려하여 양자화할 수 있다. 다른 실시예에 따르면, CELP 부호화부(151)는 선형예측계수(Linear Prediction Coefficient, LPC)를 추출하고, 추출된 선형예측계수를 양자화하고, 양자화된 선형예측계수를 이용하여 여기신호를 추출하고, 추출된 여기신호를 피치(pitch) 정보에 해당하는 필터링된 적응 코드벡터(즉, adaptive codebook contribution) 및 필터링된 고정 코드벡터(즉, fixed or innovation codebook contribution) 각각을 고려하여 양자화할 수 있다.

한편, CELP 부호화부(151)는 신호의 특성에 따라서 서로 다른 부호화 모드를 적용할 수 있다. 적용되는 부호화 모드로는 유성음 부호화 모드(voiced coding mode), 무성음 부호화 모드(unvoiced coding mode), 트랜지언트 부호화 모드(transition coding mode) 및 일반 부호화 모드(generic coding mode)를 들 수 있으나, 이에 한정되는 것은 아니다.

CELP 부호화부(151)에서 부호화결과 얻어지는 저주파수 대역의 여기신호 즉 CELP 정보는 TD 확장 부호화부(153)로 제공되는 한편, 비트스트림에 포함되어 저장 혹은 전송될 수 있다.

CELP 부호화모듈(150)에 있어서, TD 확장 부호화부(153)는 CELP 부호화부(151)에서 제공되는 저주파수 대역의 여기신호를 폴딩 혹은 복제하여 고주파수 대역의 확장 부호화를 수행할 수 있다. TD 확장 부호화부(153)에서 확장 부호화결과 얻어지는 고주파수 대역의 확장 정보는 비트스트림에 포함되어 저장 혹은 전송될 수 있다. TD 확장 부호화부(153)는 입력신호의 고주파수 대역에 대응하는 선형예측계수를 영자화한다. 이때, TD 확장 부호화부(153)는 입력 신호의 고주파 신호의 선형예측계수를 추출하고, 추출된 선형예측계수를 양자화할 수도 있다. 또한, TD 확장 부호화부(153)는 입력신호의 저주파수 대역의 여기신호를 사용하여, 입력신호의 고주파수 대역의 선형예측계수를 생성할 수도 있다. 여기서, 고주파수 대역의 선형예측계수는 고주파수 대역의 포락선 정보를 나타내는데 사용될 수 있다.

한편, FD 부호화모듈(170)은 부호화모드가 FD 모드인 경우 동작되며, 변환부(171)는 리샘플링 혹은 다운샘플링된 신호를 시간 도메인에서 주파수 도메인으로 변환할 수 있다. 이때, MDCT(Modified Discrete Cosine Transform)를 사용할 수 있으나, 이에 한정되지는 않는다. FD 부호화모듈(170)에 있어서, FD 부호화부(173)는 변환부(171)로부터 제공되는 리샘플링 혹은 다운샘플링된 스펙트럼에 대하여 FD 부호화를 수행할 수 있다. FD 부호화의 일예로는 AAC(Advanced Audio Codec)에서 적용된 알고리즘이 있으나, 이에 한정되지는 않는다. FD 부호화부(173)에서의 FD 부호화 결과 얻어지는 FD 정보는 비트스트림에 포함되어 저장 혹은 전송될 수 있다. 한편, 인접하는 프레임들간의 부호화 모드가 CELP 모드에서 FD 모드로 변경되는 경우, FD 부호화부(173)에서의 FD 부호화 결과 얻어지는 비트스트림에 예측 데이터가 더 포함될 수 있다. 구체적으로, N번째 프레임에 대하여 CELP 모드에 따른 부호화가 수행되고, N+1번째 프레임에 대하여 FD 모드에 따른 부호화가 수행되면, FD 모드에 따른 부호화 결과만으로 N+1번째 프레임에 대한 복호화를 수행할 수 없기 때문에, 복호화시 참조하기 위한 예측 데이터를 추가적으로 더 포함할 필요가 있다.

도 1에 도시된 오디오 부호화장치(100)에 따르면, 부호화모드 결정부(110)에서 결정된 부호화모드에 따라서 두가지 형태의 비트스트림이 생성될 수 있다. 여기서, 비트스트림은 헤더(header) 및 페이로드(payload)를 포함할 수 있다.

구체적으로, 부호화모드가 CELP 모드인 경우, 비트스트림은 헤더에 부호화 모드에 대한 정보를 포함할 수 있고, 페이로드에 CELP 정보 및 TD 확장정보를 포함할 수 있다. 한편, 부호화모드가 FD 모드인 경우, 비트스트림은 헤더에 부호화 모드에 대한 정보를 포함할 수 있고, 페이로드에 FD 정보 및 예측 데이터를 포함할 수 있다. 여기서, FD 정보는 FD 고주파수 확장정보를 더 포함할 수 있다.

한편, 각 비트스트림은 프레임 에러가 발생하는 경우에 대비하기 위하여, 헤더에 이전 프레임의 부호화 모드에 대한 정보를 더 포함할 수 있다. 예를 들어, 비트스트림의 헤더는 현재 프레임의 부호화 모드가 FD 모드로 결정된 경우, 이전 프레임의 부호화 모드에 대한 정보를 더 포함할 수 있다.

도 1에 도시된 오디오 부호화장치(100)는 신호의 특성에 따라서 CELP 모드 또는 FD 모드 중 어느 하나로 동작되도록 스위칭됨으로써, 신호의 특성에 적응적으로 효율적인 부호화를 수행할 수 있다. 한편, 도 1의 스위칭 구조는 바람직하게는 고비트율 환경에 적용될 수 있다.

도 2는 도 1에 도시된 FD 부호화부의 일실시예에 따른 구성을 나타내는 블록도이다.

도 2를 참조하면, FD 부호화부(200)는 Norm 부호화부(210), FPC(Factorial Pulse Coding) 부호화부(230), FD 저주파수 확장 부호화부(240), 노이즈 부가정보 생성부(250), 반-희박성(anti-sparseness) 처리부(270) 및 FD 고주파수 확장 부호화부(290)를 포함할 수 있다.

Norm 부호화부(210)는 변환부(도 1의 171)로부터 제공되는 주파수 스펙트럼에 대하여 주파수대역 예를 들면 서브밴드별로 Norm 값을 추정 혹은 산출하고, 추정 혹은 산출된 Norm 값을 양자화한다. 여기서, Norm 값은 서브밴드 단위로 구해진 평균 스펙트럼 에너지를 의미하는 것으로서, 파워로 대신할 수도 있다. Norm 값은 서브밴드 단위로 주파수 스펙트럼을 정규화하는데 사용할 수 있다. 또한, 타겟 비트율에 따른 전체 비트수에 대하여, 각 서브밴드 단위로 Norm 값을 이용하여 마스킹 임계치를 계산하고, 마스킹 임계치를 이용하여 각 서브밴드의 지각적 부호화에 필요한 할당 비트수를 정수단위 혹은 소수점 단위로 결정할 수 있다. Norm 부호화부(210)에서 양자화된 Norm 값은 FPC 부호화부(230)로 제공되는 한편, 비트스트림에 포함되어 저장 혹은 전송될 수 있다.

FPC 부호화부(230)는 정규화된 스펙트럼에 대하여 각 서브밴드의 할당 비트수를 이용하여 양자화를 수행하고, 양자화된 결과에 대하여 FPC 부호화를 수행할 수 있다. FPC 부호화에 따르면, 할당된 비트수 범위내에서 펄스의 위치, 펄스의 크기, 및 펄스의 부호와 같은 정보가 팩토리얼 형식으로 표현될 수 있다. FPC 부호화부(230)에서 얻어지는 FPC 정보는 비트스트림에 포함되어 저장 혹은 전송될 수 있다.

노이즈 부가정보 생성부(250)는 FPC 부호화 결과에 따라서 노이즈 부가정보 즉, 서브밴드 단위의 노이즈 레벨을 생성할 수 있다. 구체적으로, FPC 부호화부(230)에서 부호화된 주파수 스펙트럼은 비트수의 부족으로 인하여 서브밴드 단위로 부호화되지 않은 부분 즉, 홀(hole)이 생길 수 있다. 일실시예에 따르면, 부호화되지 않은 스펙트럼 계수의 레벨의 평균을 이용하여 노이즈 레벨을 생성할 수 있다. 노이즈 부가정보 생성부(250)에서 생성된 노이즈 레벨은 비트스트림에 포함되어 저장 혹은 전송될 수 있다. 또한, 프레임 단위로 노이즈 레벨을 생성할 수 있다.

반-희박성(anti-sparseness) 처리부(270)는 저주파수 대역에 대한 복원 스펙트럼으로부터 노이즈 부가위치 및 노이즈 크기를 결정하고, 노이즈 레벨을 이용하여 노이즈 필링이 수행된 주파수 스펙트럼에 대하여 결정된 노이즈 부가위치 및 노이즈 크기에 따른 반-희박성 처리를 수행하여 FD 고주파수 확장 부호화부(290)로 제공한다. 일실시예에 따르면, 저주파수 대역에 대한 복원 스펙트럼은 FPC 복호화 결과에 대하여 저주파수 대역을 확장하고, 노이즈 필링을 수행한 다음 반-희박성 처리를 수행한 결과물을 의미할 수 있다.

FD 고주파수 확장 부호화부(290)는 반-희박성 처리부(270)로부터 제공되는 저주파수 대역의 스펙트럼을 이용하여 고주파수 대역의 확장 부호화를 수행할 수 있다. 이때, 원래의 고주파수 대역의 스펙트럼도 FD 고주파수 확장 부호화부(290)로 제공될 수 있다. 일실시예에 따르면, FD 고주파수 확장 부호화부(370)는 저주파수 대역의 스펙트럼을 폴딩 혹은 복제하여 확장된 고주파수 대역의 스펙트럼을 얻을 수 있으며, 원래의 고주파수 대역의 스펙트럼에 대하여 서브밴드 단위로 에너지를 추출하고, 추출된 에너지를 조절하고, 조절된 에너지를 양자화한다.

에너지의 조절은, 일실시예에 따르면 원래의 고주파수 대역의 스펙트럼에 대하여 서브밴드 단위로 제1 토널러티를 산출하고, 저주파수 대역의 스펙트럼을 이용하여 확장된 고주파수 대역의 여기신호에 대하여 서브밴드 단위로 제2 토널러티를 산출하여, 제1 토널러티와 제2 토널러티간의 비율에 대응하여 수행될 수 있다. 또는, 에너지의 제어는, 다른 실시예에 따르면 원래의 고주파수 대역의 스펙트럼에 대하여 서브밴드 단위로 제1 토널러티를 산출하여 신호에 노이즈 성분이 포함된 정도를 나타내는 제1 노이지니스 팩터(noisiness factor)를 구하고, 저주파수 대역의 스펙트럼을 이용하여 확장된 고주파수 대역의 여기신호에 대하여 서브밴드 단위로 제2 토널러티를 산출하여 제2 노이지니스 팩터를 구하여, 제1 노이지니스 팩터와 제2 노이지니스 팩터간의 비율에 대응하여 수행될 수 있다. 이에 따르면, 제2 토널러티가 제1 토널러티보다 큰 경우 혹은 제1 노이지니스 팩터가 제2 노이지니스 팩터보다 큰 경우, 해당 서브밴드의 에너지를 감소시킴으로써 복원시 노이즈가 증가하는 현상을 방지할 수 있다. 한편, 반대의 경우 해당 서브밴드의 에너지를 증가시킬 수 있다.

또한, FD 고주파수 확장 부호화부(290)에서 에너지 정보를 모아 VQ를 수행함에 있어서, 소정의 서브밴드에서 여기신호를 생성하는 방식을 시뮬레이션(simulation)해보고, 시뮬레이션 결과에 따른 여기신호의 특성과 소정의 서브밴드의 원신호의 특성이 다르면, 에너지를 조절할 수 있다. 이때, 시뮬레이션 결과에 따른 여기신호의 특성 및 원신호의 특성은 토널러티 및 노이지니스 팩터 중 적어도 어느 하나가 될 수 있으나, 이에 한정되지는 않는다. 이에 따라, 복호화단에서 실제 에너지와 같은 복호화를 수행하였을 때, 노이즈가 증가되는 현상을 방지할 수 있다.

한편, 에너지의 양자화에는 MSVQ(Multi stage Vector Quantization) 방식이 적용될 수 있으나, 이에 한정되는 것은 아니다. 구체적으로, FD 고주파수 확장 부호화부(290)는 현재 스테이지에서 소정 개수의 서브밴드들 중 홀수번째 서브밴드들의 에너지를 모아 벡터 양자화를 수행하고, 홀수번째 서브밴드들에 대한 벡터 양자화 결과를 이용하여 짝수번째 서브밴드들의 예측 에러를 획득하고, 획득된 예측 에러에 대한 벡터 양자화를 다음 스테이지에서 수행할 수 있다. 한편, 이와는 반대의 경우도 가능할 수 있다. 즉, FD 고주파수 확장 부호화부(370)는 제n 번째 서브밴드에 대한 벡터 양자화 결과와 제n+2 번째 서브밴드에 대한 벡터 양자화 결과를 이용하여, 제n+1 번째 서브밴드에 대한 예측 에러를 획득한다.

한편, 에너지에 대한 벡터 양자화시, 에너지 벡터 각각에 대해 평균값을 뺀 신호 혹은 에너지 벡터 각각의 중요도에 대한 가중치를 계산할 수 있다. 이때, 중요도에 대한 가중치는 합성음의 음질을 최대화하는 방향으로 계산될 수 있다. 중요도에 대한 가중치가 계산된 경우, 가중치가 적용된 WMSE(Weighted Mean Square Error)를 이용하여, 에너지벡터에 대한 최적화된 양자화 인덱스를 구할 수 있다.

FD 고주파수 확장 부호화부(290)는 고주파수 신호의 특성에 따라 다양한 여기신호 생성방식을 사용하는 멀티모드 대역폭 확장(Multi Mode Bandwidth Extension) 방식을 적용할 수 있다. 멀티모드 대역폭 확장 방식은 고주파수 신호의 특성에 따라서 트랜지언트(transient) 모드, 노말(normal) 모드, 하모닉(harmonic) 모드, 노이즈(noise) 모드 등으로 동작할 수 있다. FD 고주파수 확장 부호화부(290)는 정적인(stationary) 프레임에 대하여 적용되므로, 고주파수 신호의 특성에 따라 프레임별로 노말 모드, 하모닉 모드 또는 노이즈 모드 중 하나의 모드를 사용하여 여기신호를 생성할 수 있다.

또한, FD 고주파수 확장 부호화부(290)는 비트율에 따라 서로 다른 고주파수 대역에 대한 신호를 생성할 수 있다. 즉, FD 고주파수 확장 부호화부(290)에서 확장 부호화가 수행되는 고주파수 대역은 비트율에 따라 서로 다르게 설정될 수 있다. 예를 들어, FD 고주파수 확장 부호화부(290)는 16kbps의 비트율에서는 약 6.4 내지 14.4kHz의 주파수 대역에 대하여 확장 부호화를 수행하고, 16kbps 이상의 비트율에서는 약 8 내지 16kHz의 주파수 대역에 대하여 확장 부호화를 수행할 수 있다.

이를 위하여, 일실시예에 따르면 FD 고주파수 확장 부호화부(290)는 서로 다른 비트율에 대하여, 동일한 코드북을 공유하여 에너지 양자화를 수행할 수 있다.

한편, FD 부호화부(200)는 정적 프레임이 입력되는 경우, Norm 부호화부(210), FPC(Factorial Pulse Coding) 부호화부(230), 노이즈 부가정보 생성부(250), 반-희박성(anti-sparseness) 처리부(250) 및 FD 확장 부호화부(270)가 동작될 수 있다. 특히, 반-희박성(anti-sparseness) 처리부(250)는 정적 프레임 중 노말 모드에 대하여 동작하는 것이 바람직하다. 한편, 비정적 프레임 즉 트랜지언트 프레임이 입력되는 경우, 노이즈 부가정보 생성부(250), 반-희박성(anti-sparseness) 처리부(250) 및 FD 확장 부호화부(270)는 동작하지 않는다. 이러한 경우, FPC 부호화부(230)는 정적 프레임이 입력되는 경우와 비교하여 FPC를 수행하도록 할당된 상위 주파수 대역(Fcore)을 더 높게, 예를 들면 Fend에까지 적용할 수 있다.

도 3은 도 1에 도시된 FD 부호화부의 다른 실시예에 따른 구성을 나타내는 블록도이다.

도 3을 참조하면, FD 부호화부(300)는 Norm 부호화부(310), FPC 부호화부(330), FD 저주파수 확장 부호화부(340), 반-희박성 처리부(370) 및 FD 고주파수 확장 부호화부(390)를 포함할 수 있다. 여기서, Norm 부호화부(310), FPC 부호화부(330) 및 FD 고주파수 확장 부호화부(390)의 동작은 도 2의 Norm 부호화부(210), FPC 부호화부(230) 및 FD 고주파수 확장 부호화부(290)에서와 동일하므로 세부적인 설명은 생략하기로 한다.

도 2에서와의 차이점으로는 반-희박성 처리부(370)가 별도의 노이즈 레벨을 사용하지 않고, Norm 부호화부(310)에서 서브밴드 단위로 얻어지는 Norm 값을 이용하는 것이다. 즉, 반-희박성 처리부(370)는 저주파수 대역에 대한 복원 스펙트럼으로부터 노이즈 부가위치 및 노이즈 크기를 결정하고, Norm 값을 이용하여 노이즈 필링이 수행된 주파수 스펙트럼에 대하여 결정된 노이즈 부가위치 및 노이즈 크기에 따른 반-희박성 처리를 수행하여 FD 고주파수 확장 부호화부(290)로 제공한다. 구체적으로, 0으로 역양자화된 부분을 포함하는 서브밴드에 대하여, 노이즈 성분을 생성하고, 노이즈 성분의 에너지와 역양자화된 Norm 값 즉, 스펙트럼 에너지간의 비를 이용하여 노이즈 성분의 에너지를 조절할 수 있다. 다른 실시예에 따르면, 0으로 역양자화된 부분을 포함하는 서브밴드에 대하여, 노이즈 성분을 생성하고, 노이즈 성분의 평균 에너지가 1이 되도록 조절할 수 있다.

도 4는 본 발명의 일실시예에 따른 반-희박성 처리부의 구성을 나타내는 블록도이다.

도 4를 참조하면, 반-희박성 처리부(400)는 복원 스펙트럼 생성부(410), 노이즈 위치 결정부(430), 노이즈 크기 결정부(440) 및 노이즈 부가부(450)를 포함할 수 있다.

복원 스펙트럼 생성부(410)는 FPC 부호화부(도 2의 230 혹은 도 3의 330)로부터 제공되는 FPC 정보와 노이즈 레벨 혹은 Norm 값과 같은 노이즈 필링 정보를 이용하여 저주파수 대역의 복원 스펙트럼을 생성한다. 이때, Fcore와 Ffpc가 서로 다른 경우, FD 저주파수 확장부호화를 추가로 수행하여 저주파수 대역의 복원 스펙트럼을 생성할 수 있다.

노이즈 위치 결정부(430)는 저주파수 대역의 복원 스펙트럼으로부터 0으로 복원되는 스펙트럼을 노이즈 위치로 결정할 수 있다. 다른 실시예에 따르면, 0으로 복원되는 스펙트럼 중에서, 주변 스펙트럼의 크기를 고려하여 노이즈 위치를 결정할 수 있다. 예를 들어, 0으로 복원되는 스펙트럼에 인접한 주변 스펙트럼의 크기가 소정 값 이상일 경우 해당하는 0으로 복원되는 스펙트럼을 노이즈 위치로 결정할 수 있다. 여기서, 소정 값은 시뮬레이션을 통하여 혹은 실험적으로 0으로 복원되는 스펙트럼에 인접한 주변 스펙트럼의 정보 손실이 최소화될 수 있도록 미리 최적의 값으로 설정될 수 있다.

노이즈 크기 결정부(440)는 결정된 노이즈 위치에 부가할 노이즈의 크기(amplitude)를 결정할 수 있다. 일실시예에 따르면, 노이즈레벨을 기반으로 하여 노이즈의 크기를 결정할 수 있다. 예를 들어, 소정 비율만큼 노이즈레벨을 가변시켜 노이즈의 크기를 결정할 수 있다. 구체적으로 (0.5 * 노이즈레벨)과 같은 방식으로 결정할 수 있으나, 이에 한정되는 것은 아니다. 다른 실시예로는 결정된 노이즈위치의 주변 스펙트럼의 크기를 고려하여 적응적으로 가변시켜 노이즈의 크기를 결정할 수 있다. 주변 스펙트럼이 부가될 노이즈의 크기보다 작은 경우 노이즈의 크기를 주변 스펙트럼보다 더 작은 값이 되도록 변경할 수 있다.

노이즈 부가부(450)는 랜덤 노이즈를 사용하여 결정된 노이즈 위치와 결정된 노이즈 크기에 근거하여 노이즈를 부가할 수 있다. 일실시예로는 랜덤 부호(random sign)를 적용할 수 있다. 노이즈의 크기는 고정된 값을 사용하고, 랜덤 씨드(random seed)를 통해 발생된 랜덤 신호가 홀수인지 또는 짝수인지에 따라서 부호를 가변시킬 수 있다. 예를 들어, 랜덤신호가 짝수인 경우에는 + 부호를 부가하고, 홀수인 경우에는 -　부호를 부가할 수 있다. 노이즈 부가부(450)에서 노이즈가 부가된 저주파수 대역의 스펙트럼은 FD 고주파수 확장 부호화부(도 2의 290)으로 제공된다. 여기서, FD 고주파수 확장 부호화부(도 2의 290)로 제공되는 저주파수 대역의 스펙트럼은 FPC 복호화가 수행되어 얻어지는 저주파수 대역의 스펙트럼에 대하여 노이즈 필링 처리 및 저주파수 대역 확장부호화가 수행된 후, 반-희박성 처리를 수행한 코어 복호화된 신호를 나타낼 수 있다.

도 5는 본 발명의 일실시예에 따른 FD 고주파수 확장 부호화부의 구성을 나타내는 블록도이다.

도 5를 참조하면, FD 고주파수 확장 부호화부(500)는 스펙트럼 복사부(510), 제1 토널러티 산출부(520), 제2 토널러티 산출부(530), 여기신호 생성방식 결정부(540), 에너지 조절부(550) 및 에너지 양자화부(560)를 포함할 수 있다. 한편, 부호화장치에서 고주파수 대역의 복원 스펙트럼을 필요로 하는 경우 고주파수 스펙트럼 생성모듈(570)을 더 포함할 수 있다. 고주파수 복원 스펙트럼 생성모듈(570)은 고주파 여기신호 생성부(571)와 고주파수 스펙트럼 생성부(573)를 포함할 수 있다. 특히, FD 부호화부(도 1의 173)에서 이전 프레임과 오버랩-애드(overlap-add)를 통해서 복원이 가능한 변환 예를 들면 MDCT를 사용하고, 프레임간에 CELP 모드와 FD 모드간에 스위칭이 존재하는 경우 고주파수 복원 스펙트럼 생성모듈(570)을 추가할 필요가 있다.

스펙트럼 복사부(510)는 반-희박성 처리부(도 2의 270 혹은 도 3의 370)로부터 제공되는 저주파수 대역 스펙트럼을 폴딩 혹은 복제하여 고주파수 대역으로 확장할 수 있다. 예를 들어, 0 내지 8kHz의 저주파수 대역 스펙트럼을 이용하여 8 내지 16kHz의 고주파수 대역으로 확장할 수 있다. 일실시예에 따르면, 반-희박성 처리부(도 2의 270 혹은 도 3의 370)로부터 제공되는 저주파수 대역 스펙트럼 대신 원래의 저주파수 스펙트럼을 폴딩 혹은 복제하여 고주파수 대역으로 확장할 수 있다.

제1 토널러티 산출부(520)는 소정의 서브밴드 단위로 원래의 고주파수 대역의 스펙트럼에 대하여 제1 토널러티를 산출한다.

제2 토널러티 산출부(530)는 스펙트럼 복사부(510)에서 저주파수 대역의 스펙트럼을 이용하여 확장된 고주파수 대역의 스펙트럼에 대하여 서브밴드 단위로 제2 토널러티를 산출한다.

제1 및 제2 토널러티는 서브밴드의 스펙트럼의 평균 크기와 최대 크기의 비율에 근거한 스펙트럼 평탄도(spectral flatness)를 이용하여 산출될 수 있다. 구체적으로, 스펙트럼 평탄도는 주파수 스펙트럼의 기하 평균과 산술 평균의 관계를 통해 측정될 수 있다. 즉, 제1 및 제2 토널러티는 스펙트럼이 피키(peaky)한 특성을 지녔는지 평탄(flat)한 특성을 지녔는지를 나타내는 척도이다. 제 1토널러티 산출부(520)와 제2 토널러티 산출부(530)는 동일한 방식 및 동일한 서브밴드 단위로 동작하는 것이 바람직하다.

여기신호 생성방식 결정부(540)는 제1 토널러티와 제2 토널리티를 비교하여 고주파 여기신호 생성방식을 결정할 수 있다. 고주파 여기신호를 생성하는 방식은 저주파수 대역의 스펙트럼을 변형하여 생성된 고주파수 대역의 스펙트럼과 랜덤 잡음의 적응적 가중치(weighting)를 통해서 결정할 수 있다. 이때, 적응적 가중치에 해당되는 값이 여기신호의 타입정보이며, 여기신호의 타입정보를 비트스트림에 포함되어 저장 혹은 전송할 수 있다. 일실시예에 따르면, 여기신호의 타입정보를 2비트로 구성할 수 있다. 여기서, 2비트는 랜덤 잡음에 부가될 가중치를 기준으로 4단계로 구성할 수 있다. 여기신호의 타입정보는 프레임당 1회 전송될 수 있다. 또한, 복수개의 서브밴드를 묶어서 하나의 그룹을 형성하고, 각 그룹에 대하여 여기신호의 타입정보를 정의하여 그룹별로 전송할 수 있다.

일실시예에 따르면, 여기신호 생성방식 결정부(540)은 원래의 고주파수 대역의 신호 특성만을 고려하여 고주파 여기신호를 생성하는 방식을 결정해 줄 수 있다. 구체적으로, 서브밴드별로 구해진 제1 토널리티의 평균이 속하는 영역을 구분하고, 여기신호의 타입정보의 개수를 기준으로 제1 토널리티값이 어느 영역에 해당되는지에 따라 여기신호를 생성하는 방식을 결정해 줄 수 있다. 이러한 방식에 따르면, 토널리티값이 높을 경우, 즉 스펙트럼의 피키한 특성이 클 경우에는 랜덤 잡음에 부가하는 가중치를 작게 설정할 수 있다.

다른 실시예에 따르면, 여기신호 생성방식 결정부(540)은 원래의 고주파수 대역의 신호 특성과 대역 확장을 통하여 생성될 고주파수 신호 특성을 동시에 고려하여 고주파 여기신호를 생성하는 방식을 결정해 줄 수 있다. 예를 들어, 원래의 고주파수 대역의 신호 특성과 대역 확장을 통하여 생성될 고주파수 신호 특성이 유사하면, 랜덤 잡음의 가중치를 작게 설정하고, 원래의 고주파수 대역의 신호 특성과 대역 확장을 통하여 생성될 고주파수 신호 특성이 다르면 랜덤 잡음의 가중치를 크게 설정할 수 있다. 한편, 제1 토널러티와 제2 토널러티간의 서브밴드별 차이값의 평균을 기준으로 설정될 수 있다. 제1 토널러티와 제2 토널러티간의 서브밴드별 차이값의 평균이 크면 랜덤 잡음의 가중치를 크게 설정하고, 제1 토널러티와 제2 토널러티간의 서브밴드별 차이값의 평균이 작으면 랜덤 잡음의 가중치를 작게 설정할 수 있다. 한편, 여기신호의 타입정보를 그룹별로 전송할 경우에는 제1 토널러티와 제2 토널러티간의 서브밴드별 차이값의 평균은 하나의 그룹에 속한 서브밴드들의 평균을 이용하여 구해진다.

에너지 조절부(550)는 원래의 고주파수 대역의 스펙트럼에 대하여 서브밴드 단위로 에너지를 구하고, 제1 토널러티와 제2 토널러티를 이용하여 에너지 조절을 수행한다. 예를 들어, 제1 토널러티가 크고 제2 토널러티가 작은 경우 즉, 원래의 고주파수 대역의 스펙트럼이 피키하고, 반-희박성 처리부(270 혹은 370)의 출력 스펙트럼이 평탄하면 제1 및 제2 토널리티의 비율에 근거하여 에너지를 조절해준다.

에너지 양자화부(560)는 조절된 에너지를 벡터 양자화하고, 벡터 양자화결과 생성되는 양자화 인덱스를 비트스트림에 포함시켜 저장 혹은 전송할 수 있다.

한편, 고주파수 복원 스펙트럼 생성모듈(570)에 있어서, 고주파 여기신호 생성부(571)와 고주파수 스펙트럼 생성부(573)의 동작은 도 11의 고주파 여기신호 생성부(1130)와 고주파수 스펙트럼 생성부(1170)와 실질적으로 동일하므로 여기서는 그 세부적인 설명을 생략하기로 한다.

도 6a 및 도 6b는 도 1에 도시된 FD 부호화 모듈(170)에서 확장 부호화가 수행되는 영역을 나타낸 것이다. 도 6a는 실제 FPC 가 수행된 상위 주파수 대역(Ffpc)이 FPC를 수행하기로 할당된 저주파수 대역 즉, 코어 주파수 대역(Fcore)과 동일한 경우를 나타내며, 이 경우 Fcore까지의 저주파수 대역에 대해서는 FPC 및 노이즈필링이 수행되고, Fend-Fcore 에 해당하는 고주파수 대역에 대해서는 저주파수 대역의 신호를 이용하여 확장 부호화가 수행된다. 여기서, Fend는 고주파수 확장에 의해 얻을 수 있는 최대주파수가 될 수 있다.

한편, 도 6b는 실제 FPC 가 수행된 상위 주파수 대역(Ffpc)이 코어 주파수 대역(Fcore)보다 작은 경우를 나타내며, Ffpc까지의 저주파수 대역에 대해서는 FPC 및 노이즈필링이 수행되고, Fcore-Ffpc 에 해당하는 저주파수 대역에 대하여 FPC 및 노이즈필링이 수행된 저주파수 대역의 신호를 이용하여 확장 부호화를 수행하고, Fend-Fcore 에 해당하는 고주파수 대역에 대해서는 저주파수 대역의 전체 신호를 이용하여 확장 부호화가 수행된다. 마찬가지로, Fend는 고주파수 확장에 의해 얻을 수 있는 최대주파수가 될 수 있다.

여기서, Fcore와 Fend는 비트율에 따라서 가변적으로 설정할 수 있다. 예를 들어, 비트율에 따라서 Fcore는 6.4kHz, 8kHz, 9.6kHz로 제한될 수 있으나 이에 한정되지 않으며, Fend는 14kHz, 14.4kHz 또는 16kHz까지 확장될 수 있으나 이에 한정되지 않는다. 한편, 실제 FPC 가 수행된 상위 주파수 대역(Ffpc)까지가 노이즈 필링을 수행하게 되는 주파수 대역에 해당한다.

도 7은 본 발명의 다른 실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다.

도 7에 도시된 오디오 부호화장치(700)는 부호화모드 결정부(710), LPC 부호화부(705), 스위칭부(730), CELP 부호화모듈(750) 및 오디오 부호화모듈(770)을 포함할 수 있다. CELP 부호화모듈(750)은 CELP 부호화부(751)와 TD 확장 부호화부(753)를 포함할 수 있고, 오디오 부호화모듈(770)은 오디오 부호화부(771)와 FD 확장 부호화부(773)를 포함할 수 있다. 각 구성요소는 적어도 하나 이상의 모듈로 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.

도 7을 참조하면, LPC 부호화부(705)는 입력신호로부터 선형예측계수(Linear Prediction Coefficient, LPC)를 추출하고, 추출된 선형예측계수를 양자화할 수 있다. 예를 들어, LPC 부호화부(705)는 TCQ(Trellis Coded Quantization) 방식, MSVQ(Multi-stage Vector Quantization) 방식, LVQ(Lattice Vector Quantization) 방식 등을 사용하여, 선형예측계수를 양자화할 수 있으나, 이에 한정되지는 않는다. LPC 부호화부(705)에서 양자화된 선형예측계수는 비트스트림에 포함되어 저장 혹은 전송될 수 있다.

구체적으로, LPC 부호화부(705)는 32kHz 또는 48kHz의 샘플링 레이트를 갖는 입력신호를 리샘플링 혹은 다운샘플링하여 12.8kHz 또는 16kHz의 샘플링 레이트를 갖는 신호로부터 선형예측계수를 추출할 수 있다.

부호화모드 결정부(710)는 도 1의 부호화모드 결정부(110)와 유사하게, 신호의 특성을 참조하여 입력신호의 부호화모드를 결정할 수 있다. 부호화모드 결정부(710)는 신호의 특성에 따라서 현재 프레임이 음성모드인지 또는 음악모드인지 여부를 결정할 수 있고, 또한 현재 프레임에 효율적인 부호화 모드가 시간도메인 모드인지 아니면 주파수도메인 모드인지에 대하여 결정할 수 있다.

일실시예에 따르면 부호화모드 결정부(710)의 입력신호로는 다운 샘플링부(미도시)에 의하여 다운 샘플링된 신호가 될 수 있다. 예를 들어, 입력신호는 32kHz 또는 48kHz의 샘플링 레이트를 갖는 신호를 리샘플링(re-sampling) 혹은 다운샘플링(down sampling)하여 얻어지는 12.8kHz 또는 16kHz의 샘플링 레이트를 갖는 신호가 될 수 있다. 여기서, 32kHz의 샘플링 레이트를 갖는 신호는 SWB(Super Wide Band) 신호로서, Full-Band(FB) 신호로 칭할 수 있고, 16kHz의 샘플링 레이트를 갖는 신호는 WB(Wide-Band) 신호로 칭할 수 있다.

다른 실시예에 따르면 부호화모드 결정부(710)에서 리샘플링 혹은 다운샘플링 동작이 수행될 수도 있다.

이에 따르면, 부호화모드 결정부(710)는 리샘플링 혹은 다운샘플링된 신호에 대하여 부호화모드를 결정할 수 있다.

부호화모드 결정부(710)에서 결정된 부호화모드는 스위칭부(730)로 제공되는 한편, 프레임 단위로 비트스트림에 포함되어 전송 혹은 저장될 수 있다.

스위칭부(730)는 부호화모드 결정부(710)로부터 제공되는 부호화모드에 따라서, LPC 부호화부(705)로부터 제공되는 저주파수 대역의 선형예측계수를 CELP 부호화모듈(750) 및 오디오 부호화모듈(770) 중 하나로 제공할 수 있다. 구체적으로, 스위칭부(730)는 부호화모드가 CELP 모드인 경우 저주파수 대역의 선형예측계수를 CELP 부호화모듈(750)로 제공하고, 부호화모드가 오디오 모드인 경우 저주파수 대역의 선형예측계수를 오디오 부호화모듈(770)로 제공한다.

CELP 부호화모듈(750)은 부호화모드가 CELP 모드인 경우 동작되며, CELP 부호화부(751)는 저주파수 대역의 선형예측계수로부터 얻어지는 여기신호에 대하여 CELP 부호화를 수행할 수 있다. 일실시예에 따르면, CELP 부호화부(751)는 LPC 여기신호를 피치(pitch) 정보에 해당하는 필터링된 적응 코드벡터(즉, adaptive codebook contribution) 및 필터링된 고정 코드벡터(즉, fixed or innovation codebook contribution) 각각을 고려하여 양자화할 수 있다. 여기서, 여기신호는 LPC 부호화부(705)에서 생성되어 CELP 부호화부(751)로 제공되거나, CELP 부호화부(751)에서 생성될 수 있다.

한편, CELP 부호화부(751)는 신호의 특성에 따라서 서로 다른 부호화 모드를 적용할 수 있다. 적용되는 부호화 모드로는 유성음 부호화 모드(voiced coding mode), 무성음 부호화 모드(unvoiced coding mode), 트랜지언트 부호화 모드(transition coding mode) 및 일반 부호화 모드(generic coding mode)를 들 수 있으나, 이에 한정되는 것은 아니다.

CELP 부호화부(751)에서 부호화결과 얻어지는 저주파수 대역의 여기신호 즉 CELP 정보는 TD 확장 부호화부(753)로 제공되는 한편, 비트스트림에 포함될 수 있다.

CELP 부호화모듈(750)에 있어서, TD 확장 부호화부(753)는 CELP 부호화부(751)에서 제공되는 저주파수 대역의 여기신호를 폴딩 혹은 복제하여 고주파수 대역의 확장 부호화를 수행할 수 있다. TD 확장 부호화부(151)에서 확장 부호화결과 얻어지는 고주파수 대역의 확장 정보는 비트스트림에 포함될 수 있다.

한편, 오디오 부호화모듈(770)은 부호화모드가 오디오 모드인 경우 동작되며, 오디오 부호화부(771)는 저주파수 대역의 선형예측계수로부터 얻어지는 여기신호를 주파수 도메인으로 변환하여 오디오 부호화를 수행할 수 있다. 일실시예에 따르면, 오디오 부호화부(771)는 DCT(Discrete Cosine Transform) 등과 같이 프레임 간에 중첩(overlap)되는 영역이 존재하지 않는 변환방식을 사용할 수 있다. 또한, 오디오 부호화부(771)는 주파수 도메인으로 변환된 여기신호에 대하여 Lattice VQ(LVQ) 및 FPC 부호화를 수행할 수 있다. 추가적으로, 오디오 부호화부(771)는 여기신호에 대하여 양자화를 수행함에 있어서 비트의 여유가 있는 경우, 필터링된 적응 코드벡터(adaptive codebook contribution) 및 필터링된 고정 코드벡터(fixed or innovation codebook contribution)과 같은 TD 정보를 더 고려하여 양자화할 수도 있다.

오디오 부호화모듈(770)에 있어서, FD 확장 부호화부(773)는 오디오 부호화부(771)로부터 제공되는 저주파수 대역의 여기신호를 이용하여 고주파수 대역의 확장부호화를 수행할 수 있다. FD 확장 부호화부(773)의 동작은 입력신호가 상이할 뿐 FD 고주파수 확장 부호화부(290 혹은 390)과 유사하므로 그 세부적인 설명은 생략하기로 한다.

도 7에 도시된 오디오 부호화장치(700)에 따르면, 부호화모드 결정부(710)에서 결정된 부호화모드에 따라서 두가지 형태의 비트스트림이 생성될 수 있다. 여기서, 비트스트림은 헤더(header) 및 페이로드(payload)를 포함할 수 있다.

구체적으로, 부호화모드가 CELP 모드인 경우, 비트스트림은 헤더에 부호화 모드에 대한 정보를 포함할 수 있고, 페이로드에 CELP 정보 및 TD 고주파수 확장정보를 포함할 수 있다. 한편, 부호화모드가 오디오 모드인 경우, 비트스트림은 헤더에 부호화 모드에 대한 정보를 포함할 수 있고, 페이로드에 오디오 부호화에 대한 정보 즉, 오디오 정보 및 FD 고주파수 확장정보를 포함할 수 있다.

도 7에 도시된 오디오 부호화장치(700)는 신호의 특성에 따라서 CELP 모드 또는 오디오 모드 중 어느 하나로 동작되도록 스위칭됨으로써, 신호의 특성에 적응적으로 효율적인 부호화를 수행할 수 있다. 한편, 도 1의 스위칭 구조는 바람직하게는 저비트율 환경에 적용될 수 있다.

도 8은 본 발명의 다른 실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다.

도 8에 도시된 오디오 부호화장치(800)는 부호화모드 결정부(810), 스위칭부(830), CELP 부호화모듈(850), FD 부호화모듈(870) 및 오디오 부호화모듈(890)을 포함할 수 있다. CELP 부호화모듈(850)은 CELP 부호화부(851)와 TD 확장 부호화부(853)를 포함할 수 있고, FD 부호화모듈(870)은 변환부(871)와 FD 부호화부(873)을 포함할 수 있고, 오디오 부호화모듈(890)은 오디오 부호화부(891)와 FD 확장 부호화부(893)를 포함할 수 있다. 각 구성요소는 적어도 하나 이상의 모듈로 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.

도 8을 참조하면, 부호화모드 결정부(810)는 신호의 특성 및 비트율을 참조하여 입력신호의 부호화모드를 결정할 수 있다. 부호화모드 결정부(810)는 신호의 특성에 따라서 현재 프레임이 음성모드인지 또는 음악모드인지에 따라서, 또한 현재 프레임에 효율적인 부호화 모드가 시간도메인 모드인지 아니면 주파수도메인 모드인지에 따라서 CELP 모드와 그외의 모드로 결정할 수 있다. 만약, 신호의 특성이 음성모드인 경우에는 CELP 모드로 결정하고, 음악모드이면서 고비트율인 경우 FD 모드로 결정하고, 음악모드이면서 저비트율인 경우 오디오 모드로 결정한다.

스위칭부(830)는 부호화모드 결정부(810)로부터 제공되는 부호화모드에 따라서, 입력신호를 CELP 부호화모듈(850), FD 부호화모듈(870) 및 오디오 부호화모듈(890) 중 하나로 제공할 수 있다.

한편, 도 8의 오디오 부호화장치(800)는 CELP 부호화부(851)에서 입력신호로부터 선형예측계수를 추출하고, 오디오 부호화부(891)에서 입력신호로부터 선형예측계수를 추출하는 점을 제외하고는 도 1 의 오디오 부호화장치(100)와 도 7의 오디오 부호화장치(700)를 결합한 것과 유사하다.

도 8에 도시된 오디오 부호화장치(800)는 신호의 특성에 따라서 CELP 모드, FD 모드 혹은 오디오 모드 중 어느 하나로 동작되도록 스위칭됨으로써, 신호의 특성에 적응적으로 효율적인 부호화를 수행할 수 있다. 한편, 도 8의 스위칭 구조는 비트율에 상관없이 적용될 수 있다.

도 9는 본 발명의 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다. 도 9에 도시된 오디오 복호화장치는 단독으로 혹은 도 1에 도시된 오디오 부호화장치와 함께 멀티미디어 기기를 구성하며, 전화, 모바일 폰 등을 포함하는 음성통신 전용 단말기, TV, MP3 플레이어 등을 포함하는 방송 혹은 음악 전용 단말기, 혹은 음성통신 전용 단말기와 방송 혹은 음악 전용 단말기의 융합 단말기가 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 오디오 복호화장치는 클라이언트, 서버 혹은 클라이언트와 서버 사이에 배치되는 변환기로서 사용될 수 있다.

도 9에 도시된 오디오 복호화장치(900)는 스위칭부(910), CELP 복호화모듈(930) 및 FD 복호화모듈(950)을 포함할 수 있다. CELP 복호화모듈(930)은 CELP 복호화부(931)와 TD 확장 복호화부(933)를 포함할 수 있고, FD 복호화모듈(950)은 FD 복호화부(951)와 역변환부(953)를 포함할 수 있다. 각 구성요소는 적어도 하나 이상의 모듈로 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.

도 9를 참조하면, 스위칭부(910)는 비트스트림에 포함된 부호화모드에 대한 정보를 참조하여, 비트스트림을 CELP 복호화모듈(930) 및 FD 복호화모듈(950) 중 하나로 제공할 수 있다. 구체적으로, 부호화모드가 CELP 모드인 경우 비트스트림을 CELP 복호화모듈(930)로, FD 모드인 경우 FD 복호화모듈(950)로 제공한다.

CELP 복호화모듈(930)에 있어서, CELP 복호화부(931)는 비트스트림에 포함된 선형예측계수를 복호화하고, 필터링된 적응 코드벡터 및 필터링된 고정 코드벡터에 대한 복호화를 수행하고, 복호화 결과를 합성하여 저주파수 대역에 대한 복원 신호를 생성한다.

TD 확장 복호화부(933)는 CELP 복호화 결과 및 저주파수 대역의 여기신호 중 적어도 하나를 이용하여, 고주파수 대역에 대한 확장 복호화를 수행하여 고주파수 대역의 복원신호를 생성한다. 이때, 저주파수 대역의 여기신호는 비트스트림에 포함될 수 있다. 또한, TD 확장 복호화부(933)는 고주파수 대역에 대한 복원신호를 생성하기 위하여, 비트스트림에 포함된 저주파수 대역에 대한 선형예측계수 정보를 활용할 수 있다.

한편, TD 확장 복호화부(933)는 생성된 고주파수 대역에 대한 복원신호를 CELP 복호화부(931)에서 생성된 저주파수 대역의 복원신호와 합성하여, 복원된 SWB 신호를 생성할 수 있다. 이때, TD 확장 복호화부(933)는 복원된 SWB 신호를 생성하기 위하여 저주파수 대역의 복원신호와 고주파수 대역의 복원신호의 샘플링 레이트를 동일하도록 변환하는 작업을 더 수행할 수 있다.

FD 복호화모듈(950)에 있어서 FD 복호화부(951)는 FD 부호화된 프레임에 대하여 FD 복호화를 수행한다. FD 복호화부(951)는 비트스트림을 복호화하여 주파수 스펙트럼을 생성할 수 있다. 또한, FD 복호화부(951)는 비트스트림에 포함된 이전 프레임의 모드 정보를 참조하여 복호화를 수행할 수도 있음을 알 수 있다. 즉, FD 복호화부(951)는 FD 부호화된 프레임에 대하여 비트스트림에 포함된 이전 프레임 모드 정보를 참조하여 FD 복호화를 수행할 수 있다.

역변환부(953)는 FD 복호화 결과를 시간도메인으로 역변환한다. 역변환부(953)는 FD 복호화된 주파수 스펙트럼에 대하여 역변환을 수행하여 복원신호를 생성한다. 예를 들어, 역변환부(953)는 Inverse MDCT를 수행할 수 있으나, 이에 한정되지는 않는다.

이에 따라, 오디오신호 복호화장치(900)는 프레임 단위로 부호화 모드를 참조하여, 비트스트림에 대한 복호화를 수행할 수 있다.

도 10은 도 9에 도시된 FD 복호화부의 일실시예에 따른 구성을 나타내는 블록도이다.

도 10에 도시된 FD 복호화부(1000)는 Norm 복호화부(1010), FPC 복호화부(1020), 노이즈 필링부(1030), FD 저주파수 확장 복호화부(1040), 반-희박성 처리부(1050), FD 고주파수 확장 복호화부(1060) 및 결합부(1070)를 포함할 수 있다.

Norm 복호화부(1010)는 비트스트림에 포함된 Norm 값을 복호화하여 복원된 Norm 값을 구할 수 있다.

FPC 복호화부(1020)는 복원된 Norm 값을 이용하여 할당 비트수를 결정하고, FPC 부호화된 스펙트럼에 대하여 할당 비트수를 이용하여 FPC 복호화를 수행할 수 있다. 여기서, 할당 비트수는 FPC 부호화부(230 혹은 330)에서와 동일하게 결정될 수 있다.

노이즈 필링부(1030)는 FPC 복호화부(1020)에서의 FPC 복호화 결과를 참조하여, 오디오 부호화장치로부터 별도로 생성되어 제공되는 노이즈레벨을 이용하여 노이즈 필링을 수행하거나, 복원된 Norm값을 이용하여 노이즈 필링을 수행할 수 있다. 즉, 노이즈 필링부(1030)는 FPC 복호화가 수행된 마지막 서브밴드까지 노이즈 필링 처리를 수행한다.

FD 저주파수 확장 복호화부(1040)는 실제 FPC 복호화가 수행된 상위 주파수 대역(Ffpc)이 코어 주파수 대역(Fcore)보다 작은 경우 동작하며, Ffpc까지의 저주파수 대역에 대해서는 FPC 복호화 및 노이즈필링이 수행되고, Fcore-Ffpc 에 해당하는 저주파수 대역에 대하여 FPC 및 노이즈필링이 수행된 저주파수 대역의 신호를 이용하여 확장 복호화를 수행할 수 있다.

반-희박성 처리부(1050)는 FPC 복호화된 신호에 노이즈 필링 처리를 수행하였음에도 불구하고, 0으로 복원된 스펙트럼에 노이즈를 추가로 부가하여 FD 고주파수 확장 부호화를 수행한 후 야기되는 메탈릭 노이즈의 발생을 억제할 수 있다. 구체적으로 반-희박성 처리부(1050)는 FD 저주파수 확장 복호화부(1040)로부터 제공되는 저주파수 대역의 스펙트럼으로부터 노이즈 부가위치 및 노이즈 크기를 결정하고, 저주파수 대역의 스펙트럼에 대하여 결정된 노이즈 부가위치 및 노이즈 크기에 따른 반-희박성 처리를 수행하여 FD 고주파수 확장 복호화부(1060)로 제공한다. 반-희박성 처리부(1050)는 도 4에 도시된 복원 스펙트럼 생성부(410)을 제외하고, 노이즈 위치 결정부(430), 노이즈 크기 결정부(440) 및 노이즈 부가부(450)를 포함하여 구성될 수 있다.

일실시예에 따르면, FPC 복호화가 수행될 때 서브밴드내의 모든 스펙트럼이 0으로 양자화된 경우에만 노이즈 필링 처리를 행함에 있어서, 노이즈 필링 처리가 행해지지 않은 서브밴드에 0으로 복원된 스펙트럼이 존재할 경우 노이즈를 부가하여 반-희박성 처리를 수행할 수 있다. 다른 실시예에 따르면, FD 저주파수 확장 부호화가 수행된 서브밴드에도 0으로 복원된 스펙트럼이 존재할 경우 노이즈를 부가하여 반-희박성 처리를 수행할 수 있다.

FD 고주파수 확장 복호화부(1060)는 반-희박성 처리부(1050)에서 노이즈가 부가된 저주파수 대역의 스펙트럼을 이용하여 고주파수 대역에 대한 확장 부호화를 수행한다. 일실시예에 따르면 FD 고주파수 확장 복호화부(1060)는 서로 다른 비트율에 대하여, 동일한 코드북을 공유하여 에너지 역양자화를 수행할 수 있다.

결합부(1070)는 FD 저주파수 확장 복호화부(1040)로부터 제공되는 저주파수 대역의 스펙트럼과 FD 고주파수 확장 복호화부(1060)로부터 제공되는 고주파수 대역의 스펙트럼을 결합하여 SWB의 복원 스펙트럼을 생성한다.

도 11은 도 10에 도시된 FD 고주파수 확장 복호화부의 일실시예에 따른 구성을 나타내는 블록도이다.

도 11에 도시된 FD 고주파수 확장 부호화부(1100)는 스펙트럼 복사부(1110), 고주파 여기신호 생성부(1130), 에너지 역양자화부(1150) 및 고주파수 스펙트럼 생성부(1170)를 포함할 수 있다.

스펙트럼 복사부(1110)는 도 5의 스펙트럼 복사부(510)와 마찬가지로, 반-희박성 처리부(도 10의 1050)로부터 제공되는 저주파수 대역 스펙트럼을 폴딩 혹은 복제하여 고주파수 대역으로 확장할 수 있다.

고주파 여기신호 생성부(1130)는 스펙트럼 복사부(1110)로부터 제공되는 확장된 고주파수 대역 스펙트럼과 비트스트림으로부터 추출된 여기신호 타입정보를 이용하여 고주파수 여기신호를 생성한다.

고주파 여기신호 생성부(1130)는 스펙트럼 복사부(1110)로부터 제공되는 확장된 고주파수 대역 스펙트럼을 변형한 스펙트럼(G(n))과 랜덤 잡음(R(n)) 간의 가중치를 통해 고주파 여기신호를 생성한다. 여기서, 변형된 스펙트럼은 스펙트럼 복사부(1110)의 출력을 기존의 서브밴드 대신 새롭게 정의한 서브밴드에 의해 서브밴드 단위로 평균 크기를 구하고, 이 평균 크기로 스펙트럼을 정규화하는 과정을 통해 구해질 수 있다. 이와 같이 생성된 변형된 스펙트럼은 랜덤 잡음과 레벨을 맞추기 위해서 추가적으로 미리 설정된 서브밴드 단위로 레벨을 정합 시켜주는 과정을 거치게 된다. 레벨 정합은 서브밴드별로 평균 크기가 랜덤 잡음과 변형된 스펙트럼이 동일해지도록 만들어 주는 과정이다. 일실시예에 따르면, 변형된 신호의 크기를 약간 크도록 설정할 수도 있다. 최종 생성된 고주파수 여기신호 E(n)는 E(n) = G(n) × (1-w(n)) + R(n) × w(n) 와 같이 구해질 수 있다. 여기서, w(n)은 여기신호의 타입정보에 의해서 결정된 값, n은 스펙트럼 빈 인덱스를 각각 나타낸다. w(n)은 상수값일 수도 있고, 서브밴드별로 전송될 경우에는 서브밴드별로 동일한 값으로 정의될 수 있다. 또한, 인접한 서브밴드간의 스무딩을 고려하여 설정될 수도 있다.

w(n)은 여기신호의 타입정보가 0,1,2,3 의 2비트로 정의될 때, 0일 경우 최대값, 3일 경우 최소값이 되도록 할당할 수 있다.

에너지 역양자화부(1150)는 비트스트림에 포함된 양자화 인덱스를 역양자화하여 에너지를 복원한다.

고주파수 스펙트럼 생성부(1170)는 고주파 여기신호의 에너지가 복원된 에너지에 매칭될 수 있도록, 고주파수 여기신호의 에너지와 복원된 에너지간의 비율에 근거하여 고주파수 여기신호로부터 고주파수 대역 스펙트럼을 복원할 수 있다.

한편, 고주파수 스펙트럼 생성부(1170)는 원래의 고주파수 대역 스펙트럼이 피키하거나 하모닉성분을 포함하여 강한 톤성 특성을 갖는 경우, 반-희박성 처리부(도 10의 1050)로부터 제공되는 저주파수 대역 스펙트럼 대신 입력신호를 스펙트럼 복사부(1110)의 입력으로 활용하여 고주파 스펙트럼을 생성할 수 있다.

도 12는 본 발명의 다른 실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.

도 12에 도시된 오디오 복호화장치(1200)는 LPC 복호화부(1205), 스위칭부(1210), CELP 복호화모듈(1230) 및 오디오 복호화모듈(1250)을 포함할 수 있다. CELP 복호화모듈(1230)은 CELP 복호화부(1231)와 TD 확장 복호화부(1233)를 포함할 수 있고, 오디오 복호화모듈(1250)은 오디오 복호화부(1251)와 FD 확장 복호화부(1253)를 포함할 수 있다. 각 구성요소는 적어도 하나 이상의 모듈로 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.

도 12를 참조하면, LPC 복호화부(1205)는 비트스트림에 대하여 프레임 단위로 LPC 복호화를 수행한다.

스위칭부(1210)는 비트스트림에 포함된 부호화모드에 대한 정보를 참조하여, LPC 복호화부(1205)의 출력을 CELP 복호화모듈(1230) 및 오디오 복호화모듈(1250) 중 하나로 제공할 수 있다. 구체적으로, 부호화모드가 CELP 모드인 경우 LPC 복호화부(1205)의 출력을 CELP 복호화모듈(1230)로, 오디오 모드인 경우 오디오 복호화모듈(1250)로 제공한다.

CELP 복호화모듈(1230)에 있어서, CELP 복호화부(1231)는 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행한다. 예를 들어, CELP 복호화부(1231)는 필터링된 적응 코드벡터 및 필터링된 고정 코드벡터에 대한 복호화를 수행하고, 복호화 결과를 합성하여 저주파수 대역에 대한 복원신호를 생성한다.

TD 확장 복호화부(1233)는 CELP 복호화 결과 및 저주파수 대역의 여기신호 중 적어도 하나를 이용하여, 고주파수 대역에 대한 확장 복호화를 수행하여 고주파수 대역의 복원신호를 생성한다. 이때, 저주파수 대역의 여기신호는 비트스트림에 포함될 수 있다. 또한, TD 확장 복호화부(1233)는 고주파수 대역에 대한 복원신호를 생성하기 위하여, 비트스트림에 포함된 저주파수 대역에 대한 선형예측계수 정보를 활용할 수 있다.

한편, TD 확장 복호화부(1233)는 생성된 고주파수 대역에 대한 복원신호를 CELP 복호화부(1231)에서 생성된 저주파수 대역의 복원신호와 합성하여, 복원된 SWB 신호를 생성할 수 있다. 이때, TD 확장 복호화부(1233)는 복원된 SWB 신호를 생성하기 위하여 저주파수 대역의 복원신호와 고주파수 대역의 복원신호의 샘플링 레이트를 동일하도록 변환하는 작업을 더 수행할 수 있다.

오디오 복호화모듈(1250)에 있어서, 오디오 복호화부(1251)는 오디오 부호화된 프레임에 대하여 오디오 복호화를 수행한다. 예를 들어, 오디오 복호화부(1251)는 비트스트림을 참조하여, 시간 도메인 기여분(contribution)이 존재하는 경우 시간 도메인 기여분 및 주파수 도메인 기여분을 고려하여 복호화를 수행하고, 시간 도메인 기여분이 존재하지 않는 경우 주파수 도메인 기여분을 고려하여 복호화를 수행한다.

또한, 오디오 복호화부(1251)는 FPC 또는 LVQ로 양자화된 신호에 대하여 IDCT 등을 이용한 주파수 역변환을 수행하여 복호화된 저주파수 대역의 여기신호를 생성하고, 생성된 여기신호를 역양자화된 LPC 계수와 합성하여, 저주파수 대역의 복원신호를 생성할 수 있다.

FD 확장 복호화부(1253)는 오디오 복호화가 수행된 결과를 이용하여 확장 복호화를 수행한다. 예를 들어, FD 확장 복호화부(1253)는 복호화된 저주파수대역의 신호를 고주파수 확장 복호화에 적합한 샘플링 레이트로 변환하고, 변환된 신호에 MDCT와 같은 주파수 변환을 수행한다. FD 확장 복호화부(1253)는 변환된 저주파수 스펙트럼의 양자화된 고주파수대역의 에너지를 역양자화하고, 고주파 대역폭 확장의 다양한 모드에 따라 저주파수대역의 신호를 이용하여 고주파수대역의 여기신호를 생성하고, 생성된 여기신호의 에너지가 역양자화된 에너지에 매칭되도록 게인을 적용함에 따라, 고주파수 대역의 복원신호를 생성할 수 있다. 예를 들어, 고주파 대역폭 확장의 다양한 모드는 노말(normal) 모드, 전이(transient) 모드, 하모닉(harmonic) 모드, 또는 노이즈(noise) 모드 중 어느 하나의 모드가 될 수 있다.

또한, FD 확장 복호화부(1253)는 생성된 고주파수 대역의 복원 신호 및 저주파수 대역의 복원신호에 대하여 Inverse MDCT와 같은 주파수 역변환을 수행하고, 주파수 역변환이 수행된 신호에 대하여 오디오 복호화부(1215)에서 생성된 저주파 신호와 샘플링 레이트를 맞추기 위한 변환작업을 수행한 후, 저주파 신호와 변환작업이 수행된 신호를 합성한다.여, 최종 복원신호를 생성한다.

추가적으로, FD 확장 복호화부(1253)는 대역폭 확장에 전이 모드가 적용된 경우, 주파수 역변환이 수행된 후에 복호화된 신호가 복호화된 temporal envelope에 매칭되도록, 시간 도메인에서 구한 게인을 적용하고, 게인이 적용된 신호를 합성해 줄 수도 있다.

이에 따르면, 오디오신호 복호화장치는 비트스트림에 대하여 프레임 단위로 부호화 모드를 참조하여, 비트스트림에 대한 복호화를 수행할 수 있다.

도 13은 본 발명의 다른 실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.

도 13에 도시된 오디오 복호화장치(1300)는 스위칭부(1310), CELP 복호화모듈(1330), FD 복호화모듈(1350) 및 오디오 복호화모듈(1370)을 포함할 수 있다. CELP 복호화모듈(1330)은 CELP 복호화부(1331)와 TD 확장 복호화부(1333)를 포함할 수 있고, FD 복호화모듈(1350)은 FD 복호화부(1351)와 역변환부(1353)을 포함할 수 있고, 오디오 복호화모듈(1370)은 오디오 복호화부(1371)와 FD 확장 복호화부(1373)를 포함할 수 있다. 각 구성요소는 적어도 하나 이상의 모듈로 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.

도 13을 참조하면, 스위칭부(1310)는 비트스트림에 포함된 부호화모드에 대한 정보를 참조하여, 비트스트림을 CELP 복호화모듈(1330), FD 복호화모듈(1350) 및 오디오 복호화모듈(1370) 중 하나로 제공할 수 있다. 구체적으로, 부호화모드가 CELP 모드인 경우 비트스트림을 CELP 복호화모듈(1330)로, FD 모드인 경우 FD 복호화모듈(1350)로, 오디오 모드인 경우 오디오 복호화모듈(1370)로 제공한다.

여기서, CELP 복호화모듈(1330), FD 복호화모듈(1350) 및 오디오 복호화모듈(1370)은 도 8의 CELP 부호화모듈(850), FD 부호화모듈(870) 및 오디오 부호화모듈(890)과 가역적인 동작을 수행하므로 여기서는 그 세부적인 설명을 생략하기로 한다.

도 14는 본 발명의 일실시예에 따른 코드북 공유방법을 설명하는 도면이다.

도 7에 도시된 FD 확장 부호화부(773) 또는 도 8에 도시된 FD 확장 부호화부(893)는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 양자화를 수행할 수 있다. 이에 따라, FD 확장 부호화부(773) 또는 FD 확장 부호화부(893)는 입력신호에 대응하는 주파수 스펙트럼을 소정 개수의 서브밴드들로 분할함에 있어서, 서로 다른 비트율에 대하여 동일한 서브밴드별 대역폭을 가지도록 한다.

16kbps의 비트율에서 약 6.4 내지 14.4kHz의 주파수 대역을 분할하는 경우(1410) 및 16kbps 이상의 비트율에서 약 8 내지 16kHz의 주파수 대역을 분할하는 경우(1420)를 예로 들어 설명하면 다음과 같다.

구체적으로, 첫번째 서브밴드에 대한 대역폭(1430)은 16kbps의 비트율 및 16kbps 이상의 비트율 모두에서 0.4kHz이고, 두번째 서브밴드에 대한 대역폭(1440)은 16kbps의 비트율 및 16kbps 이상의 비트율 모두에서 0.6kHz가 될 수 있다.

이와 같은 방식으로, 서로 다른 비트율에 대하여 동일한 서브밴드 별 대역폭을 가지도록 함에 따라, FD 확장 부호화부(773) 또는 FD 확장 부호화부(893)는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 양자화를 수행할 수 있다.

그 결과, CELP 모드와 FD 모드가 스위칭되는 설정(configuration), 또는 CELP 모드와 오디오 모드가 스위칭되는 설정, 또는 CELP 모드, FD 모드 및 오디오 모드가 스위칭되는 설정에서 멀티모드 대역폭 확장 기법을 적용하고, 이때 다양한 비트율을 지원할 수 있는 코드북 공유를 수행함에 따라, 메모리(예를 들어, ROM)의 사이즈를 감소시키고, 구현의 복잡도를 감소시킬 수 있다.

도 15는 본 발명의 일실시예에 따른 부호화 모드 시그널링 방법을 설명하는 도면이다.

도 15를 참조하면, 1510 단계에서 입력신호가 트랜지언트 성분에 해당하는지를 판단한다. 트랜지언트 성분의 검출은 공지된 다양한 방법을 사용하여 수행할 수 있다.

1520 단계에서는 1510 단계에서의 판단결과, 트랜지언트 성분에 해당하는 경우 소수점 단위의 비트할당을 수행한다.

1530 단계에서는 입력신호에 대하여 트랜지언트 모드로 부호화를 수행하고, 1 비트의 트랜지언트 지시자를 이용하여 트랜지언트 모드로 부호화되었음을 시그널링한다.

한편, 1540 단계에서는 1510 단계에서의 판단결과, 트랜지언트 성분에 해당하지 않는 경우 하모닉 성분에 해당하는지를 판단한다. 하모닉 성분의 검출은 공지된 다양한 방법을 사용하여 수행할 수 있다.

1550 단계에서는 1540 단계에서의 판단결과, 하모닉 성분에 해당하는 경우 입력신호에 대하여 하모닉 모드로 부호화를 수행하고, 1 비트의 트랜지언트 지시자와 함께 1 비트의 하모닉 지시자를 이용하여 하모닉 모드로 부호화되었음을 시그널링한다.

한편, 1560 단계에서는 1540 단계에서의 판단결과, 하모닉 성분에 해당하지 않는 경우 소수점 단위의 비트할당을 수행한다.

1570 단계에서는 입력신호에 대하여 노멀 모드로 부호화를 수행하고, 1 비트의 트랜지언트 지시자와 함께 1 비트의 하모닉 지시자를 이용하여 노멀모드로 부호화되었음을 시그널링한다.

즉, 2 비트의 지시자를 이용하여 3가지 모드, 트랜지언트 모드, 하모닉 모드, 노멀 모드를 시그널링해 줄 수 있다.

상기 실시예들에 따른 장치로부터 도출되는 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예들에서 사용될 수 있는 데이터 구조, 프로그램 명령, 혹은 데이터 파일은 컴퓨터로 읽을 수 있는 기록매체에 다양한 수단을 통하여 기록될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함할 수 있다. 컴퓨터로 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 스코프는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 이의 균등 또는 등가적 변형 모두는 본 발명 기술적 사상의 범주에 속한다고 할 것이다.

410 ... 복원스펙트럼 생성부 430 ... 노이즈 위치 결정부
450 ... 노이즈 크기 결정부 470 ... 노이즈 부가부

Claims

적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
복호화된 저주파 스펙트럼에 노이즈 필링을 수행하고,
상기 노이즈 필링이 수행된 복호화된 저주파 스펙트럼에서 제로로 남아있는 스펙트럼 계수에 대하여 일정한 값을 삽입하는 반희박성 처리를 수행하고,
상기 반희박성 처리가 수행된 복호화된 저주파 스펙트럼을 이용하여 고주파 스펙트럼을 생성하고,
상기 반희박성 처리가 수행된 복호화된 저주파 스펙트럼과 상기 생성된 고주파 스펙트럼을 결합하도록 설정되는, 대역폭 확장 신호 생성 장치.
제1항에 있어서, 상기 일정한 값은 랜덤 시드 (random seed)에 따라 결정되는, 대역폭 확장 신호 생성 장치.
제2항에 있어서, 상기 일정한 값은 랜덤 부호를 갖는, 대역폭 확장 신호 생성 장치.
제1항에 있어서, 상기 적어도 하나의 프로세서는 비트스트림에 포함된 여기 파라미터에 기초하여 상기 고주파 스펙트럼을 생성하는, 대역폭 확장 신호 생성 장치.
제4항에 있어서, 상기 여기 파라미터는 프레임 단위로 할당되는, 대역폭 확장 신호 생성 장치.
제4항에 있어서, 상기 여기 파라미터는 프레임의 신호 특성에 따라 결정되는, 대역폭 확장 신호 생성 장치.
복호화된 저주파 스펙트럼에 노이즈 필링을 수행하는 단계;
상기 노이즈 필링이 수행된 복호화된 저주파 스펙트럼에서 제로로 남아있는 스펙트럼 계수에 대해 일정한 값을 삽입하는 반희박성 처리를 실시하는 단계;
상기 반희박성 처리가 수행된 복호화된 저주파 스펙트럼을 이용하여 고주파 스펙트럼을 생성하는 단계;
상기 반희박성 처리가 수행된 복호화된 저주파 스펙트럼과 상기 생성된 고주파 스펙트럼을 결합하는 단계;
를 포함하는 대역폭 확장 신호 생성 방법.
제7항에 있어서, 상기 일정한 값은 랜덤 시드 (random seed)에 따라 결정되는, 대역폭 확장 신호 생성 방법.
제8항에 있어서, 상기 일정한 값은 랜덤 부호를 갖는, 대역폭 확장 신호 생성 방법.
제7항에 있어서, 상기 고주파 스펙트럼은 비트스트림에 포함된 여기 파라미터에 기초하여 생성되는, 대역폭 확장 신호 생성 방법.
제10항에 있어서, 상기 여기 파라미터는 프레임 단위로 할당되는, 대역폭 확장 신호 생성 방법.
제10항에 있어서, 상기 여기 파라미터는 프레임의 신호 특성에 따라 결정되는, 대역폭 확장 신호 생성 방법.
제7항 내지 제12항 중 어느 한 항에 기재된 방법을 실행하기 위한 명령어를 기록한 컴퓨터로 읽을 수 잇는 기록매체.