KR101775084B1

KR101775084B1 - 주파수 향상 오디오 신호를 생성하는 디코더, 디코딩 방법, 인코딩된 신호를 생성하는 인코더, 및 컴팩트 선택 사이드 정보를 이용한 인코딩 방법

Info

Publication number: KR101775084B1
Application number: KR1020167021785A
Authority: KR
Inventors: 프레드리크 나겔; 사샤 디쉬; 안드레아스 니더마이어
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베.
Priority date: 2013-01-29
Filing date: 2014-01-28
Publication date: 2017-09-05
Also published as: TWI585755B; MY172752A; EP3203471B1; US20150332701A1; CA3013756C; EP3203471A1; US10062390B2; KR20160099119A; US10186274B2; KR101798126B1; CN109509483A; ES2924427T3; TW201443889A; JP6096934B2; RU2676242C1; AU2016262636B2; KR20150111977A; TWI585754B; EP3196878B1; ZA201506313B

Abstract

주파수 향상 오디오 신호(120)를 생성하는 디코더는 코어 신호(100)로부터 특징을 추출하는 특징 추출기(104), 상기 코어 신호와 연관된 선택 사이드 정보를 추출하는 사이드 정보 추출기(110), 상기 코어 신호(100)에 의해 정의되지 않은 상기 주파수 향상 오디오 신호(120)의 스펙트럼 범위를 추정하는 파라미터 표현을 생성하는 파라미터 생성기(108), 및 선택된 파라미터 표현을 이용하여 상기 주파수 향상 오디오 신호(120)를 추정하는 신호 추정기(118)를 포함하며, 상기 파라미터 생성기(108)는 상기 특징(112)에 응답하여 다수의 파라미터 표현 대안(702, 704, 706, 708)을 제공하도록 구성되고, 상기 파라미터 생성기(108)는 상기 선택 사이드 정보(712 내지 718)에 응답하여 파라미터 표현으로서 상기 파라미터 표현 대안 중의 하나를 선택하도록 구성된다.

Description

주파수 향상 오디오 신호를 생성하는 디코더, 디코딩 방법, 인코딩된 신호를 생성하는 인코더, 및 컴팩트 선택 사이드 정보를 이용한 인코딩 방법{DECODER FOR GENERATING A FREQUENCY ENHANCED AUDIO SIGNAL, METHOD OF DECODING, ENCODER FOR GENERATING AN ENCODED SIGNAL AND METHOD OF ENCODING USING COMPACT SELECTION SIDE INFORMATION}

본 발명은 오디오 코딩에 관한 것으로, 특히, 주파수 향상의 컨텍스트에서의, 즉, 디코더 출력 신호가 인코딩된 신호와 비교하여 더 많은 수의 주파수 밴드을 갖는 오디오 코딩에 관한 것이다. 이러한 프로시저(procedure)는 대역폭 확장, 스펙트럼 리플리케이션(spectral replication) 또는 지능적 갭 필링(intelligent gap filling)을 포함한다.

현대의 스피치 코딩 시스템은 와이드밴드(WB) 디지털 오디오 콘텐츠, 즉, 7-8kHz까지의 주파수를 갖는 신호를 6kbit/s만큼 낮은 비트레이트에서 인코딩할 수 있다. 가장 널리 논의되는 예에는 ITU-T 권고 G.722.2 [1] 뿐만 아니라 더 최근에 개발된 G.718 [4, 10] 및 MPEG-D 통합 음성 및 오디오 코딩(USAC; Unified Speech and Audio Coding) [8]가 있다. AMR-WB로 알려진 G.722.2 및 G.718은 6.4 및 7kHz 사이에서 BWE(bandwidth extension) 기술을 채용하여 기초 ACELP 코어 코더가 지각적으로 더 관련된 더 낮은 주파수(특히, 인간 청각 시스템이 위상 감지하는 주파수)에 "초점을 맞추도록 하여, 특히 매우 낮은 비트레이트에서 충분한 품질을 달성한다. USAC xHe-AAC(eXtended High Efficiency Advanced Audio Coding) 프로파일에서, eSBR(enhanced spectral band replication)이 16kbit/s에서 전형적으로 6kHz 보다 작은 코어 코더(core-coder) 대역폭을 넘어 오디오 대역폭을 확장하는데 사용된다. 현재의 최신식 BWE 프로세스는 일반적으로 2개의 개념적 어프로치로 분리될 수 있다.

· 고주파수(HF) 컴포넌트가 디코딩된 저주파수(LF) 코어 코더 신호만으로부터, 즉, 인코더로부터 송신된 사이드 정보를 요구하지 않고, 재구성되는 블라인드(blind) 또는 인공(artificial) BWE. 이 방식은 16kbit/s 및 그 이하에서 AMR-WB 및 G.718 뿐만 아니라 전통적인 협대역 전화 스피치에 대하여 동작하는 임의의 역호환성 BWE 포스트프로세서 [5, 9, 12](예를 들어, 도 15)에 의해 사용된다.

· 디코딩된 코어 신호로부터 추정되는 대신에 HF 콘텐츠 재구성에 사용되는 파라미터의 일부가 사이드 정보로서 디코더로 송신된다는 점에서 블라인드 BWE와 다른 가이드(guided) BWE. AMR-WB, G.718, xHE-AAC 뿐만 아니라 임의의 다른 코덱[2, 7, 11]은 이 어프로치를 이용하긴 하지만, 매우 낮은 비트레이트에서는 아니다(도 16).

도 15는 베른트 가이저(Bernd Geiser), 피터 잭스(Peter jax) 및 피터 배리(Peter Vary) 등의 "ROBUST WIDEBAND ENHANCEMENT OF SPEECH BY COMBINDED CODING AND ARTIFICIAL BANDWIDTH EXTENSION", Proceedings of International Workshop on Acoustic Echo and Noise Control (IWAENC), 2005년의 출판물에 기재된 블라인드 또는 인공 대역폭 확장을 나타낸다. 도 15에 도시된 독립형 대역폭 확장 알고리즘은 보간 프로시저(1500), 분석 필터(1600), 여기 확장(1700), 합성 필터(1800), 특징 추출 프로시저(1510), 포락선(envelope) 추정 프로시저(1520) 및 통계 모델(1530)을 포함한다. 협대역 신호를 광대역 샘플 레이트로 보간한 후, 특징 벡터가 계산된다. 그 후, 선형 예측(LP; linear prediction) 계수에 있어서 미리 훈련된(pre-trained) 통계 HMM(hidden Markov model)에 의해 광대역 스펙트럼 포락선에 대한 추정치가 결정된다. 이들 광대역 계수는 보간된 협대역 신호의 분석 필터링에 사용된다. 결과적인 여기의 확장 후에, 역 합성 필터가 적용된다. 협대역을 변경하지 않는 여기 확장의 선택은 협대역 컴포넌트들에 대하여 명백하다(transparent).

도 16은 상술한 출판물에 기재된 사이드 정보를 갖는 대역폭 확장을 나타내고, 대역폭 확장은 전화 밴드패스(1620), 사이드 정보 추출 블록(1610), (조인트) 인코더(1630), 디코더(1640) 및 대역폭 확장 블록(1650)을 포함한다. 결합된 코딩 및 대역폭 확장에 의해 에러 밴드 스피치 신호의 광대역 향상을 위한 이 시스템이 도 16에 도시된다. 송신 단자에서, 광대역 입력 신호의 하이밴드(highband) 스펙트럼 포락선이 분석되고 사이드 정보가 결정된다. 결과적인 메시지(m)는 협대역 스피치 신호와 분리하여 또는 함께 인코딩된다. 수신기에서, 디코더 사이드 정보는 대역폭 확장 알고리즘 내의 광대역 포락선의 추정을 지원하는데 사용된다. 메시지(m)는 몇 개의 프로시저에 의해 얻어진다. 3.4kHz 내지 7kHz의 주파수의 스펙트럼 표현이 송신측에서만 이용가능한 광대역 신호로부터 추출된다.

이 서브밴드 포락선은 선택적 선형 예측, 즉, 광대역 파워 스펙트럼의 계산 및 후속의 상위 밴드의 IDFT 및 후속의 차수(order) 8의 레빈슨 더빈(Levinson-Durbin) 반복(recursion)에 의해 계산된다. 결과적인 서브밴드 LPC 계수는 켑스트럴(cepstral) 도메인으로 변환되고 최종적으로 사이즈(M=2^N)의 코드북을 갖는 벡터 양자화기에 의해 양자화된다. 20ms의 프레임 길이에 대하여, 이것은 300bit/s의 사이드 정보 데이터 레이트를 초래한다. 결합된 추정 어프로치는 선험적 확률(posteriori probabilities)의 산출을 확장하고 협대역 특징에 대한 의존성을 재도입한다. 따라서, 그 파라미터 추정을 위해 1보다 많은 정보원을 이용하는 에러 은폐(error concealment)의 개선된 형태가 얻어진다.

WB 코덱에서의 소정의 품질 딜레마가 전형적으로 10kbit/s 보다 작은 낮은 비트레이트에서 관찰될 수 있다. 반면에, 이러한 레이트는 이미 너무 낮아서, 1kbit/s 이상의 사이드 정보를 갖는 전형적인 가이드 BWE 시스템을 출시하면서, 심지어 적당량의 BWE 데이터의 송신을 정당화하지 않는다. 반면에, 실현가능한 블라인드 BWE는 코어 신호로부터의 적절한 파라미터 예측의 불능 때문에 적어도 임의의 타입의 스피치 또는 음악 자료에 상당히 더 나쁜 사운드로 발견된다. 이것은 특히 HF 및 LF 사이의 낮은 상관성을 갖는 마찰음 등의 임의의 보컬 사운드에 적용된다. 그러므로, 가이드 BWE 기술의 사이드 정보 레이트를 1kbit/s보다 훨씬 낮은 레벨로 감소시키는 것이 바람직하며, 이는 심지어 매우 낮은 비트레이트 코딩에서의 채용을 허용한다.

많은 BWE 어프로치는 최근에 기록되어 왔다[1-10]. 일반적으로, 이들 모두는 입력 신호의 순간 특성에 관계없이 주어진 동작 포인트에서 완전히 블라인드되거나 완전히 가이드된다. 또한, 많은 블라인드 BWE 시스템[1, 3, 4, 5, 9, 10]는 음악보다는 오히려 스피치 신호에 특히 최적화되고, 따라서, 음악에 대하여 불만족스러운 결과를 산출할 수 있다. 마지막으로, BWE 실현의 대부분은 푸리에 변환(Fourier transforms), LPC 필터 계산 또는 사이드 정보의 벡터 양자화(MPEG-D USAC에서의 예측 벡터 코딩)[8])를 채용하면서 비교적 계산적으로 복잡하다. 이것은 모바일 장치의 대부분이 매우 제한된 계산 파워 및 배터리 용량을 제공하는 것을 고려하면 모바일 통신 시장에서의 새로운 코딩 기술의 채용에 단점일 수 있다.

작은 사이드 정보에 의해 블라인드 BWE를 확장하는 어프로치는 [12]에 제시되고 도 16에 도시된다. 그러나, 사이드 정보"m"는 대역폭 확장 주파수 범위의 스펙트럼 포락선의 송신으로 제한된다.

도 16에 도시된 프로시저의 다른 문제점은 한편으로는 로우밴드 특징을 이용한 포락선 추정의 매우 복잡한 방식 및 다른 한편으로는 추가적인 포락선 사이드 정보이다. 양 입력, 즉, 로우밴드 특징 및 추가적인 하이밴드 포락선은 통계 모델에 영향을 준다. 이것은 복잡한 디코더측 구현을 초래하고, 이것은 특히 증가된 소비 전력 때문에 모바일 장치에 문제가 된다. 또한, 통계 모델은 추가적인 하이밴드 포락선 데이터에 의해서만 영향을 받지 않는 사실 때문에 업데이트가 더 어렵다.

*본 발명의 목적은 오디오 인코딩/디코딩의 개선된 개념을 제공하는 것이다.

이 목적은 청구항 1에 따른 디코더, 청구항 15에 따른 인코더, 청구항 20에 따른 디코딩 방법, 청구항 21에 따른 인코딩 방법, 청구항 22에 따른 컴퓨터 프로그램 또는 청구항 23에 따른 인코딩된 신호에 의해 달성된다.

본 발명은, 사이드 정보의 양을 더 감소시키기 위하여 및, 추가적으로, 전체 인코더/디코더가 너무 복잡해지지 않도록 하기 위하여, 하이밴드 부분의 종래의 파라미터 인코딩은 주파수 향상 디코더 상의 특징 추출기와 함께 사용되는 통계 모델에 실제로 관련된 선택 사이드 정보로 대체되거나 적어도 그에 의해 향상되어야 한다는 결론에 기초한다. 통계 모델과 결합한 특징 추출은 소정의 스피치 부분에 대하여 특히 애매모호성을 갖는 파라미터 표현 대안을 제공한다는 사실 때문에, 제공되는 대안 중의 어느 것이 최상이 되도록 디코더측 상의 파라미터 생성기 내의 통계 모델을 실제로 제어하는 것이, 대역폭 확장을 위한 사이드 정보가 제한되는 매우 낮은 비트레이트 애플리케이션에서 명확하게 신호의 소정 특성을 실제로 파라미터 코딩하는 것보다 우수하다.

따라서, 특히, 신호 자체가 수락가능한 지각 품질 레벨에서 HF 성분의 재구성을 허용하지 않으면 작은 추가의 사이드 정보에 의한 확장에 의해 코딩된 신호에 대한 소스 모델을 이용하는 블라인드 BWE가 개선된다. 그러므로, 프로시저는 추가의 정보에 의해 코딩된 코어 코더 성분으로부터 생성된 소스 모델의 파라미터를 결합한다. 이것은 특히 그러한 소스 모델 내에서 코딩되기 어려운 사운드의 지각 품질을 향상시키는데 유리하다. 이러한 사운드는 전형적으로 HF 및 LF 성분 사이의 낮은 상관을 나타낸다.

본 발명은 매우 낮은 비트레이트 오디오 코딩에서의 종래의 BWE의 문제 및 기존의 최신식 BWE 기술의 단점을 다룬다. 상술한 품질 딜레마에 대한 해결책은 블라인드 및 가이드 BWE의 신호 적응 조합으로서 최소 가이드 BWE를 제안함으로써 제공된다. 진보적인 BWE는 다른 문제있는 코딩된 사운드의 추가의 판별을 허용하는 신호에 임의의 작은 사이드 정보를 추가한다. 스피치 코딩에서, 이것은 특히 치찰음 또는 마찰음에 적용된다.

WB 코덱에서, 코어 코더 영역 위의 HF 영역의 스펙트럼 포락선은 수락가능한 지각 품질로 BWE를 수행하는데 필요한 가장 중요한 데이터를 나타내는 것을 알았다. 스펙트럼 미세 구조 및 시간 포락선 등의 다른 모든 파라미터는 종종 디코딩된 코어 신호로부터 매우 정확하게 도출되거나 지각적으로 중요하지 않을 수 있다. 그러나, 마찰음은 종종 BWE 신호에서의 적절한 재생이 부족하다. 그러므로, 사이드 정보는 "f", "s", "ch" 및 "sh" 등의 상이한 치찰음 또는 마찰음을 구별하는 추가의 정보를 포함할 수 있다.

"t" 또는 "tsch" 등의 파열음 또는 파찰음이 발생하면, 대역폭 확장을 위한 음향 정보에 다른 문제가 있다.

본 발명은 이 사이드 정보만을 이용하도록 허용하고, 실제로 필요하면 이 사이드 정보를 송신하고, 통계 모델에서 기대되는 애매모호성이 없으면 실제로 이 사이드 정보를 송신하지 않는다.

또한, 본 발명의 바람직한 실시예는 프레임 당 3 이하의 비트 등의 매우 작은 양의 사이드 정보, 신호 추정기를 제어하는 결합된 음성 활성도 검출/스피치/넌-스피치 검출(a combined voice activity detection/speech/non-speech detection), 포락선 추정 뿐만 아니라 다른 대역폭 확장 툴 또는 대역폭 확장 파라미터의 개선과 관련되는 파라미터 표현 대안 또는 단일 분류기에 의해 결정된 상이한 통계 모델 또는 이미 존재하고 실제로 송신된 대역폭 확장 파라미터에 대한 새로운 파라미터의 추가만을 이용한다.

본 발명의 바람직한 실시예는 첨부된 도면의 컨텍스트에서 후속으로 기재되고 또한 종속항에 제시된다.

도 1은 주파수 향상 오디오 신호를 생성하는 디코더를 나타내는 도면.
도 2는 도 1의 사이드 정보 추출기의 컨텍스트에서의 바람직한 구현예를 나타내는 도면.
도 3은 다수의 선택 사이드 정보의 비트의 수 대 파라미터 표현 대안의 수에 관한 표.
도 4는 파라미터 생성기에서 수행되는 바람직한 프로시저를 나타내는 도면.
도 5는 음성 활성도(voice activity) 검출기 또는 스피치/넌-스피치 검출기에 의해 제어되는 신호 추정기의 바람직한 구현예를 나타내는 도면.
도 6은 신호 분류기에 의해 제어되는 파라미터 생성기의 바람직한 구현예를 나타내는 도면.
도 7은 통계 모델 및 연관된 선택 사이드 정보의 결과에 대한 예를 나타내는 도면.
도 8은 인코딩된 코어 신호 및 연관된 사이드 정보를 포함하는 예시적인 인코딩된 신호를 나타내는 도면.
도 9는 포락선 추정 개선을 위한 대역폭 확장 신호 프로세싱 방식을 나타내는 도면.
도 10은 SBR(spectral band replication) 프로시저의 컨텍스트에서의 디코더의 추가의 구현예를 나타내는 도면.
도 11은 추가적으로 송신된 사이드 정보의 컨텍스트에서의 디코더의 추가의 구현예를 나타내는 도면.
도 12는 인코딩된 신호를 생성하는 인코더의 실시예를 나타내는 도면.
도 13은 도 12의 선택 사이드 정보 생성기의 구현예를 나타내는 도면.
도 14는 도 12의 선택 사이드 정보 생성기의 추가의 구현예를 나타내는 도면.
도 15는 종래의 독립형 대역폭 확장 알고리즘을 나타내는 도면.
도 16은 추가 메시지를 갖는 송신 시스템의 개요를 나타내는 도면.

도 1은 주파수 향상 오디오 신호(120)를 생성하는 디코더를 나타낸다. 디코더는 코어 신호(100)로부터 (적어도) 특징을 추출하는 특징 추출기(104)를 포함한다. 일반적으로, 특징 추출기는 단일 특징 또는 복수의 특징, 즉, 2 이상의 특징을 추출할 수 있고, 복수의 특징이 특징 추출기에 의해 추출되는 것이 훨씬 바람직하다. 이것은 디코더의 특징 추출기 뿐만 아니라 인코더의 특징 추출기에도 적용된다.

또한, 코어 신호(100)와 연관된 선택 사이드 정보(114)를 추출하는 사이드 정보 추출기(110)가 제공된다. 또한, 파라미터 생성기(108)가 특징 송신 라인(112)을 통해 특징 추출기(104)에 접속되고 선택 사이드 정보(114)를 통해 사이드 정보 추출기(110)에 접속된다. 파라미터 생성기(108)는 코어 신호에 의해 정의되지 않은 주파수 향상 오디오 신호의 스펙트럼 범위를 추정하는 파라미터 표현(parametric representation)을 생성하도록 구성된다. 파라미터 생성기(108)는, 특징(112)에 응답하여 다수의 파라미터 표현 대안(parametric representation alternative)을 제공하고 선택 사이드 정보(114)에 응답하여 파라미터 표현으로서 파라미터 표현 대안 중의 하나를 선택하도록 구성된다. 디코더는 또한 선택기에 의해 선택된 파라미터 표현, 즉, 파라미터 표현(116)을 이용하여 주파수 향상 오디오 신호를 추정하는 신호 추정기(118)를 포함한다.

또한, 특징 추출기(104)는 도 2에 도시된 바와 같이 디코딩된 코어 신호로부터 추출하도록 구현될 수 있다. 입력 인터페이스(110)는 인코딩된 입력 신호(200)를 수신하도록 구성된다. 이 인코딩된 입력 신호(200)는 인터페이스(110)에 입력되고, 그 후, 입력 인터페이스(110)는 인코딩된 코어 신호로부터 선택 사이드 정보를 분리한다. 따라서, 입력 인터페이스(110)는 도 1의 사이드 정보 추출기(110)로서 동작한다. 입력 인터페이스(110)에 의해 출력된 인코딩된 코어 신호(201)는 그 후 코어 디코더(124)로 입력되어 코어 신호(100)가 일 수 있는 디코딩된 코어 신호를 제공한다.

그러나, 대안으로, 특징 추출기는 또한 동작하거나 인코딩된 코어 신호로부터 특징을 추출할 수 있다. 일반적으로, 인코딩된 코어 신호는 주파수 밴드에 대한 스케일 팩터(scale factor)의 표현 또는 오디오 정보의 임의의 다른 표현을 포함한다. 특징 추출의 종류에 따라, 오디오 신호의 인코딩된 표현은 디코딩된 코어 신호를 대표하고, 따라서, 특징이 추출될 수 있다. 대안으로 또는 추가적으로, 특징은 전체적으로 디코딩된 코어 신호 뿐만 아니라 부분적으로 디코딩된 코어 신호로부터 추출될 수 있다. 주파수 도메인 코딩에서, 인코딩된 신호는 스펙트럼 프레임의 시퀀스를 포함하는 주파수 도메인 표현을 나타낸다. 그러므로, 인코딩된 코어 신호는 단지 부분적으로 디코딩되어 실제로 스펙트럼-시간 변환을 수행하기 전에 스펙트럼 프레임의 시퀀스의 디코딩된 표현을 얻을 수 있다. 따라서, 특징 추출기(104)는 인코딩된 코어 신호로부터 또는 부분적으로 디코딩된 코어 신호 또는 전체적으로 디코딩된 코어 신호로부터 특징을 추출할 수 있다. 특징 추출기(104)는 본 기술에 알려진 추출된 특징에 대하여 구현될 수 있고 특징 추출기는 예를 들어 오디오 핑거프린팅 또는 오디오 ID 기술에서처럼 구현될 수 있다.

바람직하게, 선택 사이드 정보(114)는 코어 신호의 프레임당 다수(N)의 비트를 포함한다. 도 3은 상이한 대안에 대한 표를 나타낸다. 선택 사이드 정보에 대한 비트의 수가 고정되거나 추출된 특징에 응답하여 통계 모델에 의해 제공된 파라미터 표현 대안의 수에 따라 선택된다. 단 2개의 파라미터 표현 대안이 특징에 응답하여 통계 모델에 의해 제공될 때 선택 사이드 정보의 1비트이면 충분하다. 최대 4개의 표현 대안이 통계 모델에 의해 제공되면, 선택 사이드 정보에 2비트가 필요하다. 3비트의 선택 사이드 정보는 최대 8개의 동시 발생 파라미터 표현 대안을 허용한다. 4비트의 선택 사이드 정보는 실제로 16개의 파라미터 표현 대안을 허용하고 5비트의 선택 사이드 정보는 32개의 동시 발생 파라미터 표현 대안을 허용한다. 초(second)가 50개의 프레임으로 분리될 때 초당 150비트의 사이드 정보 레이트를 초래하는 프레임당 3비트의 선택 사이드 정보보다는 3비트 이하의 선택 사이드 정보를 이용하는 것이 바람직하다. 통계 모델이 실제로 표현 대안을 제공할 때 선택 사이드 정보만이 필요하다는 사실 때문에 이 사이드 정보 레이트는 훨씬 감소될 수 있다. 따라서, 통계 모델이 단지 특징에 대한 단일 대안을 제공하면, 선택 사이드 정보 비트는 전혀 필요하지 않다. 반면에, 통계 모델이 4개의 파라미터 표현 대안만을 제공하면, 3비트의 선택 사이드 정보보다는 2비트의 선택 사이드 정보만이 필요하다. 그러므로, 일반적인 경우, 추가의 사이드 정보 레이트가 초당 150비트 미만으로 감소할 수 있다.

또한, 파라미터 생성기는 많아도 2^N 과 동일한 파라미터 표현 대안의 양을 제공하도록 구성된다. 반면에, 파라미터 생성기(108)가 예를 들어 5개의 파라미터 표현 대안만을 제공하면, 3비트의 선택 사이드 정보가 요구된다.

도 4는 파라미터 생성기(108)의 바람직한 구현예를 나타낸다. 특히, 파라미터 생성기(108)는 단계(400)에서 도 1의 특징(112)이 통계 모델로 입력되도록 구성된다. 그 후, 단계(402)에서, 복수의 파라미터 표현 대안이 모델에 의해 제공된다.

또한, 파라미터 생성기(108)는 단계(404)에서 사이드 정보 추출기로부터 선택 사이드 정보를 검색(retrieve)하도록 구성된다. 그 후, 단계(406)에서, 선택 사이드 정보(114)를 이용하여 특정 파라미터 표현 대안이 선택된다. 마지막으로, 단계(408)에서, 선택된 파라미터 표현 대안이 신호 추정기(118)로 출력된다.

바람직하게, 파라미터 생성기(108)는, 파라미터 표현 대안 중의 하나를 선택할 때, 파라미터 표현 대안의 미리 정의된 순서 또는 대안으로 표현 대안의 인코더 신호 순서를 이용하도록 구성된다. 이를 위해, 도 7을 참조한다. 도 7은 4개의 파라미터 표현 대안(702, 704, 706, 708)을 제공하는 통계 모델의 결과를 나타낸다. 해당 선택 사이드 정보 코드가 또한 도시된다. 대안(702)은 비트 패턴(712)에 대응한다. 대안(704)은 비트 패턴(714)에 대응한다. 대안(706)은 비트 패턴(716)에 대응하고 대안(708)은 비트 패턴(718)에 대응한다. 따라서, 파라미터 생성기(108) 또는 예를 들어 단계(402)가 도 7에 도시된 순서로 4개의 대안(702 내지 708)을 검색하면, 비트 패턴(716)을 갖는 선택 사이드 정보는 파라미터 표현 대안 3(참조 번호 706)을 고유하게 식별하고 파라미터 생성기(108)는 이 제3 대안을 선택할 것이다. 그러나, 선택 사이드 정보 비트 패턴이 비트 패턴(712)이면, 제1 대안(702)이 선택될 것이다.

그러므로, 파라미터 표현 대안의 미리 정의된 순서는 통계 모델이 추출된 특징에 응답하여 실제로 대안을 전달하는 순서일 수 있다. 대안으로, 개별 대안이 서로 꽤 근접한 상이한 확률을 연관시키면, 미리 정의된 순서는 가장 높은 확률의 파라미터 표현이 먼저 오는 것일 수 있다. 대안으로, 순서는 예를 들어 단일 비트로 시그널링될 수 있지만, 이 비트를 절약하기 위하여, 미리 정의된 순서가 바람직하다.

후속으로, 도 9 내지 11을 참조한다.

도 9에 따른 실시예에서, 전용 스피치 소스 모델이 파라미터 추출을 위해 이용되기 때문에 본 발명은 특히 스피치 신호에 적합하다. 그러나, 본 발명은 스피치 코딩에 제한되지 않는다. 상이한 실시예는 다른 소스 모델도 채용할 수 있다.

특히, 선택 사이드 정보가 "f", "s" 또는 "sh" 등의 문제가 있는 치찰음(sibilant) 또는 마찰음(fricative)을 구별하기 때문에 선택 사이드 정보(114)는 또한 "마찰음 정보"라 불리운다. 따라서, 선택 사이드 정보는, 예를 들어 파라미터 생성기(108)에서 수행되는 포락선 추정(902)의 프로세스에서 통계 모델(904)에 의해 제공되는 3개의 문제가 있는 대안 중의 하나의 명백한 정의를 제공한다. 포락선 추정은 코어 신호에 포함되지 않은 스펙트럼 부분의 스펙트럼 포락선의 파라미터 표현을 유발한다.

그러므로, 블록(104)은 도 15의 블록(1510)에 대응할 수 있다. 또한, 도 15의 블록(130)은 도 9의 통계 모델(904)에 대응할 수 있다.

또한, 신호 추정기(118)는 분석 필터(910), 여기 확장 블록(112) 및 합성 필터(940)를 포함한다. 따라서, 블록(910, 912, 914)은 도 15의 블록(1600, 1700, 1800)에 대응할 수 있다. 특히, 분석 필터(910)는 LPC 분석 필터이다. 포락선 추정 블록(902)은 분석 필터(910)의 필터 계수를 제어하여 블록(910)의 결과는 필터 여기 신호이다. 이 필터 여기 신호는, 출력 신호에 대하여 디코더(120)의 주파수 범위 를 갖질 뿐만 아니라 코어 코더에 의해 정의되지 않고 및/또는 코어 신호의 스펙트럼 범위를 초과하는 주파수 또는 스펙트럼 범위를 갖는 여기 신호를 블록(912)의 출력에서 얻기 위하여 주파수에 대하여 확장된다. 따라서, 디코더의 출력에서의 오디오 신호(909)는 업샘플링되고 보간기(900)에 의해 보간되고, 그 후, 보간된 신호가 신호 추정기(118)에서 처리된다. 따라서, 도 9의 보간기(900)는 도 15의 보간기(1500)에 대응할 수 있다. 그러나, 바람직하게, 도 15와 반대로, 특징 추출(104)은 도 15에 도시된 보간된 신호 보다는 비보간 신호를 이용하여 수행된다. 이것은 비보간 오디오 신호(909)가 블록(900)의 출력에서의 업샘플링되고 보간된 신호와 비교하여 오디오 신호의 소정의 시간 부분과 비교하여 더 작은 수의 샘플을 가진다는 사실 때문에 특징 추출기(104)가 더 효율적으로 동작한다는 점에서 유리하다.

도 10은 본 발명의 다른 실시예를 나타낸다. 도 9와 대조적으로, 도 10는 도 9의 포락선 추정치 뿐만 아니라 손실 톤(missing tones)(1080)의 생성을 위한 정보 또는 역 필터링(104)의 정보 또는 추가될 잡음 플로어(noise floor)(1020)에 대한 정보를 포함하는 추가의 파라미터 표현을 제공하는 통계 모델(904)을 갖는다. 블록(1020, 1040), 스펙트럼 포락선 생성(1060) 및 손실 톤(1080) 프로시저가 HE-AAC(High Efficiency Advanced Audio Coding)의 컨텍스트에서 MPEG-4 표준에 기재된다.

따라서, 스피치와 다른 신호가 또한 도 10에 도시된 바와 같이 코딩될 수 있다. 이 경우, 스펙트럼 포락선(1060) 뿐만 아니라 [6]에 기재된 SBR(spectral band replication) 기술에서처럼 조성(tonality)(104), 잡음 레벨(1020) 또는 손실 사인곡선(1080) 등의 추가의 사이드 정보도 코딩하는데 충분할 수 있다.

추가의 실시예가 도 11에 도시되며, 여기에서, 1100에 도시된 SBR 사이드 정보에 더하여 사이드 정보(114), 즉, 선택 사이드 정보가 사용된다. 따라서, 예를 들어 검출된 음성 사운드에 관한 정보를 포함하는 선택 사이드 정보가 레가시(legacy) SBR 사이드 정보(1100)에 추가된다. 이것은 마찰음, 파열음(plosives) 또는 모음(vowels)을 포함하는 치찰음 등의 스피치 사운드(speech sound)에 대한 고주파 성분을 더 정확하게 재생성하도록 돕는다. 따라서, 도 11에 도시된 프로시저는 SBR 또는 BWE(bandwidth extension) 파라미터의 디코더측 적응을 제공하기 위하여 추가로 송신된 선택 사이드 정보(114)가 디코더측 (phonem) 분류를 지원하는 이점을 갖는다. 따라서, 도 10과 대조적으로, 도 11의 실시예는 선택 사이드 정보에 더하여 레가시 SBR 사이드 정보를 제공한다.

도 8은 인코딩된 입력 신호의 예시적인 표현을 나타낸다. 인코딩된 입력 신호는 후속의 프레임(800, 806, 812)으로 구성된다. 각각의 프레임은 인코딩된 코어 신호를 갖는다. 모범적으로, 프레임(800)은 인코딩된 코어 신호로서 스피치를 갖는다. 프레임(806)은 인코딩된 코어 신호로서 음악을 갖고 프레임(812)은 인코딩 코어 신호로서 스피치를 갖는다. 프레임(800)은 모범적으로 사이드 정보로서 선택 사이드 정보만을 갖고 SBR 사이드 정보를 갖지 않는다. 따라서, 프레임(800)은 도 9 또는 도 10에 대응한다. 모범적으로, 프레임(806)은 SBR 정보를 포함하지만 선택 사이드 정보를 포함하지 않는다. 또한, 프레임(812)은 인코딩된 스피치 신호를 포함하고, 프레임(800)과 대조적으로, 프레임(812)은 선택 사이드 정보를 포함하지 않는다. 이것은 선택 사이드 정보가 필요하지 않다는 사실 때문에 특징 추출/통계 모델 프로세스에서의 임의의 애매모호함이 인코더측에서 발견되지 않기 때문이다.

후속으로, 도 5가 기재된다. 진보적인 대역폭 또는 주파수 향상 기술이 채용되어야 하는지 또는 상이한 대역폭 확장 기술이 채용되어야 하는지를 결정하기 위하여 코어 신호에 대하여 동작하는 음성 활성도 검출기 또는 스피치/넌-스피치 검출기(500)가 채용된다. 따라서, 음성 활성도 검출기 또는 스피치/넌-스피치 검출기가 음성(voice) 또는 스피치를 검출하면, 예를 들어 도 1, 9, 10, 11에서 기술한 바와 같이 동작하는 511에 도시된 제1 대역폭 확장 기술(BWEXT.1)이 사용된다. 따라서, 스위치(502, 504)는 입력(512)으로부터의 파라미터 생성기로부터의 파라미터가 취해지는 방식으로 설정되고, 스위치(504)는 이들 파라미터를 블록(511)에 연결한다. 그러나, 임의의 스피치 신호를 나타내지 않지만 예를 들어 음악 신호를 나타내는 상황이 검출기(500)에 의해 검출되면, 비트스트림으로부터의 대역폭 확장 파라미터(514)는 바람직하게 다른 대역폭 확장 기술 프로시저(513)로 입력된다. 따라서, 검출기(500)는 진보적인 대역폭 확장 기술(511)이 채용되어야 하는지를 검출한다. 넌-스피치 신호에 대하여, 코더는 [6, 8]에 기재된 블록(513)에 의해 도시된 다른 대역폭 확장 기술로 스위칭할 수 있다. 그러므로, 검출기(500)가 비음성(non-voice) 활성도 또는 넌-스피치 신호를 검출할 때, 도 5의 신호 추정기(118)는 상이한 대역폭 확장 프로시저로 전환되고 및/또는 인코딩된 신호로부터 추출된 상이한 파라미터를 이용하도록 구성된다. 이 상이한 대역폭 확장 기술(513)에 대하여, 선택 사이드 정보는 바람직하게 비트스트림에 존재하지 않고 또한 사용되지 않고, 이는 스위치(502)를 입력(514)으로 스위칭함으로써 도 5에 상징화된다.

도 6은 파라미터 생성기(108)의 추가의 구현예를 나타낸다. 파라미터 생성기(108)는 바람직하게 제1 통계 모델(600) 및 제2 통계 모델(602) 등의 복수의 통계 모델을 갖는다. 또한, 선택 사이드 정보에 의해 제어되어 적절한 파라미터 표현 대안을 제공하는 선택기(604)가 제공된다. 어떤 통계 모델이 활성화되는지는 입력에서 코어 신호, 즉, 특징 추출기(104)에 입력되는 것과 동일한 신호를 수신하는 추가의 신호 분류기(606)에 의해 제어된다. 따라서, 도 10 또는 임의의 다른 도면의 통계 모델은 코딩되는 성분에 따라 변경될 수 있다. 스피치에 대해서는, 스피치 생성 소스 모델을 나타내는 통계 모델이 채용되지만, 예를 들어 신호 분류기(606)에 의해 분류된 음악 신호 등의 다른 신호에 대해서는, 큰 음악 데이터 세트에 대하여 훈련된 상이한 모델이 사용된다. 다른 통계 모델이 추가로 상이한 언어 등에 이용될 수 있다.

상술한 바와 같이, 도 7은 통계 모델(600) 등의 통계 모델에 의해 얻어진 복수의 대안을 나타낸다. 그러므로, 블록(600)의 출력은 예를 들어 평행선(605)에 도시된 상이한 대안을 위한 것이다. 동일한 방식으로, 제2 통계 모델(602)은 라인(606)에 도시된 대안 등의 복수의 대안을 출력할 수 있다. 특정한 통계 모델에 의존하여, 특징 추출기(104)에 대하여 꽤 높은 확률을 갖는 대안만이 출력되는 것이 바람직하다. 따라서, 통계 모델은 특징에 응답하여 복수의 대안 파라미터 표현을 제공하고, 각각의 대안 파라미터 표현은 다른 상이한 대안 파라미터 표현의 확률과 동일하거나 다른 대안 파라미터 표현의 확률과 10% 미만만큼 다른 확률을 갖는다. 따라서, 실시예에서, 가장 높은 확률을 갖는 파라미터 표현 및 가장 잘 매칭되는 대안의 확률보다 10% 만이 작은 확률을 갖는 다수의 다른 대안 파라미터 표현만이 출력된다.

도 12는 인코딩된 신호(1212)를 생성하는 인코더를 나타낸다. 인코더는 오리지널 신호(1206)를 인코딩하여 오리지널 신호(1206)와 비교하여 더 작은 수의 주파수 밴드에 대한 정보를 갖는 인코딩된 코어 오디오 신호(1208)를 얻는 코어 인코더(1200)를 포함한다. 또한, 선택 사이드 정보(1210)(SSI; selection side information)를 생성하는 선택 사이드 정보 생성기(1202)가 제공된다. 선택 사이드 정보(1210)는 오리지널 신호(1206) 또는 인코딩된 오디오 신호(1208) 또는 인코딩된 오디오 신호의 디코딩 버전으로부터 추출된 특징에 응답하여 통계 모델에 의해 제공된 정의된 파라미터 표현 대안을 나타낸다. 또한, 인코더는 인코딩된 신호(1212)를 출력하는 출력 인터페이스(1204)를 포함한다. 인코딩된 신호(1212)는 인코딩된 오디오 신호(1208) 및 선택 사이드 정보(1210)를 포함한다. 바람직하게, 선택 사이드 정보 생성기(1202)는 도 13에 도시된 바와 같이 구현된다. 이를 위해, 선택 사이드 정보 생성기(1202)는 코어 디코더(1300)를 포함한다. 블록(1300)에 의해 출력된 디코딩된 코어 신호에 대하여 동작하는 특징 추출기(1302)가 제공된다. 특징은 블록(1300)에 의해 출력된 디코딩된 코어 신호에 의해 정의되지 않은 주파수 향상 신호의 스펙트럼 범위를 추정하기 위한 다수의 파라미터 표현 대안을 생성하는 통계 모델 프로세서(1304)에 입력된다. 이들 파라미터 표현 대안(1305)은 모두 주파수 향상 오디오 신호(1307)를 추정하는 신호 추정기(1306)로 입력된다. 이들 추정된 주파수 향상 오디오 신호(1307)는 주파수 향상 오디오 신호(1307)를 도 12의 오리지널 신호(1206)와 비교하는 비교기(1308)로 입력된다. 선택 사이드 정보 생성기(1202)는, 추가적으로 선택 사이드 정보(1210)를 설정하여 선택 사이드 정보가 최적화 기준(optimization criterion)하에서 오리지널 신호와 가장 잘 매칭하는 주파수 향상 오디오 신호를 유발하는 파라미터 표현 대안을 고유하게 정의하도록 구성된다. 최적화 기준은 MMSE(minimum means squared error) 기반 기준, 샘플 차(sample-wise difference)를 최소화하는 기준, 인지된 왜곡을 최소화하는 음향심리학 기준 또는 당업자에게 알려진 임의의 다른 최적화 기준일 수 있다.

도 13은 폐쇄 루프 또는 분석-합성(analysis-by-synthesis) 프로시저를 나타내지만, 도 14는 개방 루프 프로시저와 더 유사한 선택 사이드 정보(1202)의 대안 구현예를 나타낸다. 도 14의 실시예에서, 오리지널 신호(1206)는 오리지널 오디오 신호의 샘플의 시퀀스에 대한 음향 정보(예를 들어, 주석(annotation))의 시퀀스를 기술하는 선택 사이드 정보 생성기(1202)에 대한 연관된 메타 정보를 포함한다. 선택 사이드 정보 생성기(1202)는, 이 실시예에서 메타 정보의 시퀀스를 추출하는 메타 추출기(1400) 및 메타 정보의 시퀀스를 오리지널 오디오 신호와 연관된 선택 사이드 정보(1210)의 시퀀스로 변환하기 위하여 전형적으로 디코더측에서 사용되는 통계 모델에 대한 지식을 갖는 메타데이터 변환기(metadata translator)를 포함한다. 메타데이터 추출기(1400)에 의해 추출된 메타데이터는 인코더에서 폐기되고 인코딩된 신호(1212)에서 송신되지 않는다. 대신, 선택 사이드 정보(1210)는 상이한 주파수 성분 및, 전형적으로, 오리지널 신호(1206)와 비교하여 또는 최종적으로 생성된 디코딩된 신호와 비교하여 더 작은 주파수 성분을 갖는 코어 인코더에 의해 생성된 인코딩된 오디오 신호(1202)와 함께 인코딩된 신호에서 송신된다.

선택 사이드 정보 생성기(1202)에 의해 생성된 선택 사이드 정보(1210)는 상기 도면의 컨텍스트에서 설명한 특성 중의 임의의 것을 가질 수 있다.

본 발명은 블록이 실제 또는 논리적 하드웨어 컴포넌트를 나타내는 블록도의 컨텍스트에서 설명되었지만, 본 발명은 컴퓨터 구현 방법에 의해 구현될 수 있다. 후자의 경우, 블록은 이들 단계가 해당 논리적 또는 물리적 하드웨어 블록에 의해 수행되는 기능을 나타내는 해당 방법 단계를 나타낸다.

임의의 형태는 장치의 컨텍스트에서 설명되지만, 이들 형태들은 또한 해당 방법의 설명을 나타내고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 컨텍스트에서 기재된 형태는 또한 해당 장치의 특징 또는 해당 블록 또는 아이템의 기술을 나타낸다. 방법 단계의 일부 또는 전부가, 예를 들어, 마이크로프로세서, 프로그래머블 컴퓨터 또는 전자 회로 등의 하드웨어 장치에 의해(또는 하드웨어 장치를 이용하여) 실행될 수 있다. 임의의 실시예에서, 가장 중요한 방법 단계의 임의의 하나 이상은 이러한 장치에 의해 실행될 수 있다.

진보된 송신 또는 인코딩된 신호는 디지털 저장 매체 상에 저장되거나 인터넷 등의 무선 송신 매체 또는 유선 송신 매체 등의 송신 매체 상에서 송신될 수 있다.

소정의 구현 요구사항에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현예는 전기적으로 판독가능한 제어 신호가 저장되고 각각의 방법이 수행되도록 프로그래머블 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM 및 EPROM, EEPROM 또는 FLASH 메모리를 이용하여 수행될 수 있다. 그러므로, 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.

본 발명에 따른 임의의 실시예는 여기에 기재된 방법 중의 하나가 수행되도록 프로그래머블 컴퓨터 시스템과 협력할 수 있는 전기적 판독가능 제어 신호를 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 프로그램 코드는 컴퓨터 상에서 컴퓨터 프로그램 제품이 실행될 때 방법 중의 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어 머신 판독가능 캐리어 상에 저장될 수 있다.

다른 실시예는 여기에 기재된 방법 중의 하나를 수행하기 위하여 머신 판독가능 캐리어 상에 저장된 컴퓨터 프로그램을 포함한다.

즉, 그러므로, 진보적인 방법의 실시예는 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 여기에 기재된 방법 중의 하나를 수행하는 프로그램 코드를 포함하는 컴퓨터 프로그램이다.

그러므로, 진보적인 방법의 다른 실시예는 여기에 기재된 방법 중의 하나를 수행하는 컴퓨터 프로그램이 기록된 데이터 캐리어 또는 디지털 저장 매체 또는 컴퓨터 판독가능 매체 등의 비일시적 저장 매체이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 전형적으로 유형(tangible) 및/또는 비일시적(non-transitory)이다.

진보적인 방법의 다른 실시예는 여기에 기재된 방법 중 하나를 수행하는 컴퓨터 프로그램을 나타내는 신호의 시퀀스 또는 데이터 스트림이다. 신호의 시퀀스 또는 데이터 스트림은, 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해, 전송되도록 구성될 수 있다.

추가의 실시예는 여기에 기재된 방법 중의 하나를 수행하도록 구성되거나 적응된 프로세싱 수단, 예를 들어, 컴퓨터 또는 프로그래머블 로직 장치를 포함한다.

추가의 실시예는 여기에 기재된 방법 중의 하나를 수행하는 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 추가의 실시예는 여기에 기재된 방법 중의 하나를 수행하는 컴퓨터 프로그램을 수신기로 (예를 들어, 전기적으로 또는 광학적으로) 전송하도록 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기로 전송하는 파일 서버를 포함할 수 있다.

임의의 실시예에서, 프로그래머블 로직 장치(예를 들어, 필드 프로그래머블 게이트 어레이)는 여기에 기재된 방법의 기능 중의 일부 또는 전부를 수행하는데 사용될 수 있다. 임의의 실시예에서, 필드 프로그래머블 게이트 어레이는 여기에 기재된 방법 중의 하나를 수행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 임의의 하드웨어 장치에 의해 바람직하게 수행된다.

상술한 실시예는 단지 본 발명의 원리를 설명하기 위한 것이다. 여기에 기재된 배치 및 세부사항의 변경 및 수정은 당업자에게 자명함을 이해할 것이다. 그러므로, 의도는 특허 청구범위에 의해서만 제한되고 여기에 기재된 실시예의 설명에 의해 제시된 특정 세부사항에 의해서 제한되지 않는다.

[참고(References)]

[1] B. Bessette et al., "The Adaptive Multi-rate Wideband Speech Codec (AMR-WB)," IEEE Trans, on Speech and Audio Processing, Vol. 10, No. 8, Nov. 2002.

[2] B. Geiser et al., "Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1 ," IEEE Trans, on Audio, Speech, and Language Processing, Vol. 15, No. 8, Nov. 2007.

[3] B. Iser, W. Minker, and G. Schmidt, Bandwidth Extension of Speech Signals, Springer Lecture Notes in Electrical Engineering, Vol. 13, New York, 2008.

[4] M. Jelinek and R. Salami, "Wideband Speech Coding Advances in VMR-WB

Standard," IEEE Trans, on Audio, Speech, and Language Processing, Vol. 15, No. 4, May 2007.

[5] I. Katsir, I. Cohen, and D. Malah, "Speech Bandwidth Extension Based on Speech Phonetic Content and Speaker Vocal Tract Shape Estimation," in Proc. EUSIPCO 2011, Barcelona, Spain, Sep. 2011.

[6] E. Larsen and R. M. Aarts, Audio Bandwidth Extension: Application of Psychoacoustics, Signal Processing and Loudspeaker Design, Wiley, New York, 2004.

[7] J. Makinen et al. , "AMR-WB+: A New Audio Coding Standard for 3rd Generation Mobile Audio Services," in Proc. ICASSP 2005, Philadelphia, USA, Mar. 2005.

[8] M. Neuendorf et al. , "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types," in Proc. 132nd Convention of the AES, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013.

[9] H. Pulakka and P. Alku, "Bandwidth Extension of Telephone Speech Using a Neural Network and a Filter Bank Implementation for Highband Mel Spectrum," IEEE Trans, on Audio, Speech, and Language Processing, Vol. 19, No. 7, Sep. 2011 .

[10] T. Vaillancourt et al., "ITU-T EV-VBR: A Robust 8-32 kbit/s Scalable Coder for Error Prone Telecommunications Channels," in Proc. EUSIPCO 2008, Lausanne, Switzerland, Aug. 2008.

[11] L. Miao et al., "G.711.1 Annex D and G.722 Annex B: New ITU-T Superwideband codecs," in Proc. ICASSP 2011 , Prague, Czech Republic, May 2011 .

[12] Bernd Geiser, Peter Jax, and Peter Vary:: "ROBUST WIDEBAND ENHANCEMENT OF SPEECH BY COMBINED CODING AND ARTIFICIAL BANDWIDTH EXTENSION", Proceedings of International Workshop on Acoustic Echo and Noise Control (IWAENC), 2005

Claims

주파수 향상 오디오 신호(120)를 생성하는 디코더로서,
코어 신호(100)로부터 특징(112)을 추출하는 특징 추출기(104);
상기 코어 신호와 연관된 선택 사이드 정보(712,714,716,718)를 추출하는 사이드 정보 추출기(110);
상기 코어 신호(100)에 의해 정의되지 않은 상기 주파수 향상 오디오 신호(120)의 스펙트럼 범위를 추정하는 파라미터 표현을 생성하는 파라미터 생성기(108);를 포함하고, 상기 파라미터 생성기(108)는 상기 특징(112)에 응답하여 다수의 파라미터 표현 대안(702, 704, 706, 708)을 제공하도록 구성되고, 상기 파라미터 생성기(108)는 상기 선택 사이드 정보(712,714,716,718)에 응답하여 파라미터 표현으로서 상기 파라미터 표현 대안 중의 하나를 선택하도록 구성되며,
상기 선택된 파라미터 표현을 이용하여 상기 주파수 향상 오디오 신호(120)를 추정하는 신호 추정기(118);를 포함하며,

상기 파라미터 생성기(108)는 상기 코어 신호(100)와 연관된 파라미터 주파수 향상 정보(1100)를 수신하도록 구성되고, 상기 파라미터 주파수 향상 정보는 개별 파라미터의 그룹을 포함하고,
상기 파라미터 생성기(108)는 상기 파라미터 주파수 향상 정보에 더하여 상기 선택된 파라미터 표현을 제공하도록 구성되고,
상기 선택된 파라미터 표현은 상기 개별 파라미터의 그룹에 포함되지 않는 파라미터 또는 상기 개별 파라미터의 그룹 내의 파라미터를 변경하는 파라미터 변경 값을 포함하고,
상기 신호 추정기(118)는 상기 선택된 파라미터 표현 및 상기 파라미터 주파수 향상 정보(1100)를 이용하여 상기 주파수 향상 오디오 신호를 추정하도록 구성되는, 주파수 향상 오디오 신호를 생성하는 디코더.
제1항에 있어서,
인코딩된 코어 신호(201) 및 상기 선택 사이드 정보(712,714,716,718)를 포함하는 인코딩된 입력 신호(200)를 수신하는 입력 인터페이스(110); 및
상기 인코딩된 코어 신호를 디코딩하여 상기 코어 신호(100)를 얻는 코어 디코더(124);를 더 포함하는 디코더.
제1항에 있어서, 상기 파라미터 생성기(108)는 상기 파라미터 표현 대안 중의 하나를 선택할 때 상기 파라미터 표현 대안의 미리 정의된 순서 또는 상기 파라미터 표현 대안의 인코더 신호 순서를 이용하도록 구성되는 디코더.
제1항에 있어서,
상기 파라미터 생성기(108)는 파라미터 표현으로서 포락선(envelope) 표현을 제공하도록 구성되고,
상기 선택 사이드 정보(712,714,716,718)는 복수의 상이한 치찰음(sibilants) 또는 마찰음(fricatives) 중의 하나를 나타내며,
상기 파라미터 생성기(108)는 상기 선택 사이드 정보(712,714,716,718)에 의해 식별된 포락선 표현을 제공하도록 구성되는 디코더.
제1항에 있어서,
상기 신호 추정기(118)는 상기 코어 신호(100)를 보간하는 보간기(900)를 포함하고,
상기 특징 추출기(104)는 보간되지 않은 상기 코어 신호(100)로부터 상기 특징을 추출하도록 구성되는 디코더.
제1항에 있어서,
상기 신호 추정기(118)는,
상기 코어 신호 또는 보간된 코어 신호를 분석하여 여기 신호를 얻는 분석 필터(910);
상기 코어 신호(100)에 포함되지 않은 스펙트럼 범위를 갖는 향상된 여기 신호를 생성하는 여기 확장 블록(912); 및
상기 확장된 여기 신호를 필터링하는 합성 필터(914);를 포함하고,
상기 분석 필터(910) 또는 상기 합성 필터(914)는 상기 선택된 파라미터 표현에 의해 결정되는 디코더.
제1항에 있어서,
상기 신호 추정기(118)는 적어도 상기 코어 신호의 스펙트럼 밴드 및 상기 파라미터 표현을 이용하여 상기 코어 신호에 포함되지 않은 스펙트럼 범위에 대응하는 확장된 스펙트럼 밴드를 생성하는 스펙트럼 대역폭 확장 프로세서를 포함하고,
상기 파라미터 표현은 스펙트럼 포락선 조절(1060), 잡음 플로어(noise floor) 추가(1020), 역 필터(1040) 및 손실 톤(missing tones) 추가(1080) 중의 적어도 하나에 대한 파라미터를 포함하고,
상기 파라미터 생성기는 특징에 대하여 복수의 파라미터 표현 대안을 제공하도록 구성되고, 각각의 파라미터 표현 대안은 스펙트럼 포락선 조절(1060), 잡음 플로어 추가(1020), 역 필터(1040) 및 손실 톤 추가(1080) 중의 적어도 하나에 대한 파라미터를 갖는 디코더.
제1항에 있어서,
음성 활성도 검출기 또는 스피치/넌-스피치 판별기(500);를 더 포함하고,
상기 신호 추정기(118)는 상기 음성 활성도 검출기 또는 상기 스피치/넌-스피치 판별기(500)가 음성 활성도 또는 스피치 신호를 나타낼 때에만 상기 파라미터 표현을 이용하여 주파수 향상 신호를 추정하도록 구성되는 디코더.
제8항에 있어서,
상기 신호 추정기(118)는, 상기 음성 활성도 검출기 또는 스피치/넌-스피치 판별기(500)가 음성 활성도를 갖지 않는 신호 또는 넌-스피치 신호를 나타낼 때, 하나의 주파수 향상 프로시저(511)로부터 상이한 주파수 향상 프로시저(513)로 스위칭하거나 인코딩된 신호로부터 추출된 상이한 파라미터들(514)을 이용하도록 구성되는 디코더.
제1항에 있어서,
상기 코어 신호(100)의 프레임을 분류하는 신호 분류기(606);를 더 포함하고,
상기 파라미터 생성기(108)는 신호 프레임이 제1 신호 클래스에 속하도록 분류될 때 제1 통계 모델(600)을 이용하고 상기 프레임이 상이한 제2 신호 클래스에 분류될 때 상이한 제2 통계 모델(602)을 이용하도록 구성되며,
상기 제1 또는 제2 통계 모델은 특징에 응답하여 복수의 파라미터 표현 대안(702,704,706,708)을 제공하도록 구성되고,
각각의 파라미터 표현 대안은 상이한 파라미터 표현 대안의 확률과 동일하거나 가장 높은 확률의 10% 미만만큼 상기 파라미터 표현 대안의 확률과 다른 확률을 갖는 디코더.
제1항에 있어서,
상기 파라미터 생성기(108)가 복수의 파라미터 표현 대안을 제공하면, 상기 선택 사이드 정보(712,714,716,718)는 인코딩된 신호의 프레임(800) 내에 포함되고,
상기 선택 사이드 정보(712,714,716,718)는, 파라미터 생성기(108)가 상기 특징(112)에 응답하여 단일 파라미터 표현 대안만을 제공하는 인코딩된 오디오 신호의 상이한 프레임(812)에 포함되지 않는 디코더.
인코딩된 신호(1212)를 생성하는 인코더로서,
오리지널 오디오 신호(1206)를 인코딩하여 상기 오리지널 오디오 신호(1206)와 비교하여 더 적은 수의 주파수 밴드에 대한 정보를 갖는 인코딩된 오디오 신호(1208)를 얻는 코어 인코더(1200);
상기 오리지널 오디오 신호(1206) 또는 상기 인코딩된 오디오 신호(1208) 또는 상기 인코딩된 오디오 신호(1208)의 디코딩 버전으로부터 추출된 특징(112)에 응답하여 통계 모델에 의해 제공되는 정의된 파라미터 표현 대안(702,704,706,708)을 나타내는 선택 사이드 정보(1210)를 생성하는 선택 사이드 정보 생성기(1202); 및
상기 인코딩된 신호(1212)를 출력하는 출력 인터페이스(1204)를 포함하며, 상기 인코딩된 신호는 상기 인코딩된 오디오 신호(1208) 및 상기 선택 사이드 정보(1210)를 포함하며,

상기 오리지널 오디오 신호는 상기 오리지널 오디오 신호의 샘플의 시퀀스에 대한 음향 정보의 시퀀스를 기술하는 연관된 메타 정보를 포함하고,
상기 선택 사이드 정보 생성기(1202)는,
상기 메타 정보의 시퀀스를 추출하는 메타데이터 추출기(1400); 및
상기 메타 정보의 시퀀스를 상기 선택 사이드 정보(1210)의 시퀀스로 변환하는 메타데이터 변환기(translator)(1402);를 포함하는,
인코딩된 신호를 생성하는 인코더.
제12항에 있어서,
상기 출력 인터페이스(1204)는, 복수의 파라미터 표현 대안이 상기 통계 모델에 의해 제공되면, 상기 선택 사이드 정보(1210)만을 상기 인코딩된 신호(1212)에 포함시키고 상기 통계 모델이 상기 특징에 응답하여 단일 파라미터 표현만을 제공하도록 동작하는 상기 인코딩된 오디오 신호(1208)에 대한 프레임으로 임의의 선택 사이드 정보를 포함시키지 않도록 구성되는 인코더.
주파수 향상 오디오 신호(120)를 생성하는 방법으로서,
코어 신호(100)로부터 특징(112)을 추출하는 단계(104);
상기 코어 신호와 연관된 선택 사이드 정보(712,714,716,718)를 추출하는 단계(110);
상기 코어 신호(100)에 의해 정의되지 않는 상기 주파수 향상 오디오 신호(120)의 스펙트럼 범위를 추정하기 위한 파라미터 표현을 생성하는 단계(108);를 포함하며, 다수의 파라미터 표현 대안(702, 704, 706, 708)이 상기 특징(112)에 응답하여 제공되고, 상기 파라미터 표현 대안 중의 하나는 상기 선택 사이드 정보(712,714,716,718)에 응답하여 상기 파라미터 표현으로서 선택되며,
상기 선택된 파라미터 표현을 이용하여 상기 주파수 향상 오디오 신호(120)를 추정하는 단계(118);를 포함하며,

상기 생성하는 단계(108)는 상기 코어 신호(100)와 연관된 파라미터 주파수 향상 정보(1100)를 수신하며, 상기 파라미터 주파수 향상 정보는 개별 파라미터의 그룹을 포함하고,
상기 생성하는 단계(108)에서 파라미터 대안 표현 생성기가 상기 파라미터 주파수 향상 정보에 더하여 상기 선택된 파라미터 표현을 제공하도록 구성되고,
상기 선택된 파라미터 표현은 상기 개별 파라미터의 그룹에 포함되지 않는 파라미터 또는 상기 개별 파라미터의 그룹 내의 파라미터를 변경하는 파라미터 변경 값을 포함하고,
상기 추정하는 단계(118)는 상기 선택된 파라미터 표현 및 상기 파라미터 주파수 향상 정보(1100)를 이용하여 상기 주파수 향상 오디오 신호를 추정하도록 구성되는, 주파수 향상 오디오 신호를 생성하는 방법.
인코딩된 신호(1212)를 생성하는 방법으로서,
오리지널 오디오 신호(1206)를 인코딩하여 상기 오리지널 오디오 신호(1206)와 비교하여 더 적은 수의 주파수 밴드에 대한 정보를 갖는 인코딩된 오디오 신호(1208)를 얻는 단계(1200);
상기 오리지널 오디오 신호(1206) 또는 상기 인코딩된 오디오 신호(1208) 또는 상기 인코딩된 오디오 신호(1208)의 디코딩 버전으로부터 추출된 특징(112)에 응답하여 통계 모델에 의해 제공되는 정의된 파라미터 표현 대안(702,704,706,708)을 나타내는 선택 사이드 정보(1210)를 생성하는 단계(1202); 및
상기 인코딩된 신호(1212)를 출력하는 단계;를 포함하며, 상기 인코딩된 신호는 상기 인코딩된 오디오 신호(1208) 및 상기 선택 사이드 정보(1210)를 포함하며,

상기 오리지널 오디오 신호는 상기 오리지널 오디오 신호의 샘플의 시퀀스에 대한 음향 정보의 시퀀스를 기술하는 연관된 메타 정보를 포함하고,
상기 선택 사이드 정보를 생성하는 단계(1202)는,
상기 메타 정보의 시퀀스를 추출하는 단계(1400); 및
상기 메타 정보의 시퀀스를 상기 선택 사이드 정보(1210)의 시퀀스로 변환하는 단계(1402);를 포함하는,
인코딩된 신호를 생성하는 방법.
컴퓨터 또는 프로세서 상에서 실행될 때, 제14항의 방법 또는 제15항의 방법을 수행하는 컴퓨터 프로그램을 저장한 컴퓨터 판독가능 저장매체.