KR20130092604A

KR20130092604A - 오디오 인코더/디코더, 인코딩/디코딩 방법 및 기록매체

Info

Publication number: KR20130092604A
Application number: KR1020137017066A
Authority: KR
Inventors: 베른하르트 그릴; 슈테판 바이에르; 길로메 푸치스; 슈테판 게에르슈베르거; 랄프 가이거; 요하네스 힐페르트; 울리히 크라엠머; 예레미 레콤테; 마르쿠스 물트루스; 막스 노이엔도르프; 하랄트 포프; 니콜라우스 레텔바흐; 프레데릭 나겔; 사샤 디슈; 유르겐 허레; 요시카즈 요코타니; 슈테판 바브니크; 제랄트 슐러; 엔스 히르슈펠트
Original assignee: 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date: 2008-07-11
Filing date: 2009-07-06
Publication date: 2013-08-20
Also published as: JP2011527457A; MX2011000383A; US20110200198A1; HK1156723A1; BR122020025776B1; ZA201009209B; CA2730237C; AU2009267432B2; KR20130014642A; EP2311035A1; EP2311035B1; CO6341673A2; WO2010003617A1; KR20110040899A; AU2009267432A1; PL2311035T3; CN102124517A; US8804970B2; RU2483365C2; BR122020025711B1

Abstract

오디오 인코더는, 스펙트럼 기반의 인코딩 브랜치 등의 정보 싱크 기반의 인코딩 브랜치(400), LPC-도메인 인코딩 브랜치 등의 정보 소스 기반의 인코딩 브랜치(500), 이들 브랜치로의 입력 또는 판정단(300)에 의해 제어되는 이들 브랜치의 출력에서 이들 브랜치 사이에서 스위칭하는 스위치(200)를 포함한다.
오디오 디코더는, 스펙트럼 도메인 디코딩된 브랜치, LPC-도메인 디코딩된 브랜치, 후처리된 오디오 신호를 얻기 위해 시간-도메인 오디오 신호를 후처리하기 위해 브랜치들과 공통 후처리단 사이에서 스위칭하는 하나 이상의 스위치를 포함한다.

Description

오디오 인코더/디코더, 인코딩/디코딩 방법 및 기록매체{AUDIO ENCODER/DECODER, ENCODING/DECODING METHOD, AND RECORDING MEDIUM}

본 발명은 오디오 코딩에 관한 것으로, 특히 저 비트레이트 오디오 코딩 방법에 관한 것이다.

본 기술에서, MP3 또는 AAC 등의 주파수 도메인 코딩 방식이 알려져 있다. 이들 주파수 도메인 인코더는 시간-도메인 /주파수-도메인 변환부, 음향심리 모듈로부터의 정보를 이용하여 양자화 에러가 제어되는 후속의 양자화단, 및 양자화 스펙트럼 계수와 대응하는 사이드 정보가 코드표를 이용하여 엔트로피인코딩되는 인코딩단에 기초한다.

한편, 3GPP TS 26.290에 서술된 것같이 AMR-WB+ 등의 스피치 처리에 매우 적합한 인코더가 있다. 이러한 스피치 코딩 방식은 시간-도메인 신호의 선형 예측 필터링을 행한다. 이러한 LP 필터링은 입력 시간-도메인 신호의 선형 예측 분석으로부터 도출된다. 결과의 LP 필터 계수가 코딩되어 사이드 정보로서 전송된다. 이 처리는 선형 예측 코딩(LPC : Linear Prediction Coding)으로 알려져 있다. 필터의 출력에서, 여기 신호로 또한 알려진 예측 잔차 신호 또는 예측 에러 신호가 ACELP 인코더의 분석 합성단을 이용하여 인코딩되거나 또는 중첩이 있는 푸리에 변환을 이용하는 변환 인코더를 이용하여 인코딩된다. 폐루프 또는 개루프 알고리즘을 이용하여 ACELP 코딩과, TCX 코딩으로 불리는 Transform Coded eXitation 코딩 사이에서 결정된다.

AAC 코딩 방식과 스펙트럼 밴드폭 복사 기술을 결합한 고효율 주파수-AAC 인코딩 방식 등의 주파수-도메인 오디오 코딩 방식이 용어 "MPEG 서라운드"로 알려진 조인트 스테레오, 또는 멀티채널 코딩 툴에 또한 결합될 수 있다.

한편, AMR-WB+ 등의 스피치 인코더는 고주파수 개선단 및 스테레오 기능을 갖는다.

주파수-도메인 코딩 방식은 음악 신호에 대해 로우 비트로 고품질을 나타내는 점에서 장점을 갖는다. 그러나, 저 비트레이트에서 스피치 신호의 품질에 문제가 있다.

스피치 코딩 방식은 저 비트레이트에서도 스피치 신호에 대해 고품질을 나타내지만, 저 비트레이트에서 음악 신호에 대해서는 열악한 품질을 나타낸다.

본 발명의 목적은 개선된 코딩 개념을 제공하는 것이다.

이 목적은 청구항 1의 오디오 인코더, 청구항 13의 오디오 인코딩 방법, 청구항 14의 오디오 디코더, 청구항 24의 오디오 디코딩 방법, 청구항 25의 컴퓨터 프로그램 또는 청구항 26의 인코딩된 오디오 신호에 의해 이루어진다.

본 발명의 일 구성에서, 스위치를 제어하는 판정단이 공통 전처리 단의 출력을 2개의 브랜치 중 하나로 공급하기 위해 사용된다. 하나는 소스 모델 및/또는 SNR 등의 오브젝트 측정에 의해 주로 기인하며, 다른 하나는 싱크 모델 및/또는 음향 심리 모델, 즉, 청각 마스킹에 주로 기인한다. 예를 들면, 하나의 브랜치는 주파수 도메인 인코더를 갖고, 다른 브랜치는 스피치 코더 등의 LPC-도메인 인코더를 갖는다. 소스 모델은 통상 스피치 처리이므로, LPC가 일반적으로 사용된다. 그래서, 조인트 스테레오 등의 전형적인 전처리 단, 또는 멀티채널 코딩단 및/또는 밴드폭 확장단이 양 코딩 알고리즘에 공통으로 사용되어, 동일한 목적을 위해 완전한 오디오 인코더 및 완전한 스피치 코더가 사용되는 상황에 비해 상당한 저장량, 칩 영역, 전력 소비 등을 절약한다.

바람직한 실시예에서, 오디오 인코더는 2개의 브랜치에 대해 공통 전처리 단을 포함하며, 여기서 제1 브랜치는 싱크 모델 및/또는 음향 심리 모델, 즉, 청각 마스킹에 주로 기인하며, 제2 브랜치는 소스 모델 및 세그먼트 SNR 계산에 주로 기인한다. 오디오 인코더는 이들 브랜치로의 입력 또는 판정단에 의해 제어되는 이들 브랜치의 출력에서 이들 브랜치 사이의 전환을 위해 하나 이상의 스위치를 바람직하게 갖는다. 오디오 인코더에서, 제1 브랜치는 음향 심리 기반의 오디오 인코더를 포함하고, 제2 브랜치는 LPC 및 SNR 분석기를 포함한다.

바람직한 실시예에서, 오디오 디코더는 스펙트럼 도메인 디코딩 브랜치 등의 정보 싱크 기반 디코딩 브랜치, LPC 도메인 디코딩 브랜치 등의 정보 소스 기반 디코딩 브랜치, 및 후처리 오디오 신호를 얻기 위해 시간-도메인 오디오 신호를 후처리하는 공통 후처리단과 브랜치 사이를 전환하는 스위치를 포함한다.

본 발명의 또 다른 구성에 따른 인코딩된 오디오 신호는, 제1 코딩 알고리즘에 따라서 인코딩된 오디오 신호의 제1 부분을 나타내는 제1 인코딩 브랜치 출력 신호(제1 코딩 알고리즘은 정보 싱크 모델을 갖고, 제1 인코딩 브랜치 출력 신호는 오디오 신호를 나타내는 인코딩된 스펙트럼 정보를 갖는다), 출력 신호의 제1 부분과 상이한 오디오 신호의 제2 부분을 나타내는 제2 인코딩 브랜치 출력 신호(제2 부분은 제2 코딩 알고리즘에 따라서 인코딩되고, 제2 코딩 알고리즘은 정보 소스 모델을 갖고, 제2 인코딩 브랜치 출력 신호는 중간 신호를 나타내는 정보 소스 모델에 대해 인코딩된 파라미터를 갖는다), 오디오 신호와 확장된 버전의 오디오 신호 사이의 차이를 나타내는 공통 전처리 파라미터를 포함한다.

다음은 본 발명의 실시예를 첨부된 도면을 참조하여 설명한다.

본 발명은 개선된 코딩 개념을 제공한다.

도 1a는 본 발명의 제1 구성에 따른 인코딩 방식의 블록도이다.
도 1b는 본 발명의 제1 구성에 따른 디코딩 방식의 블록도이다.
도 2a는 본 발명의 제2 구성에 따른 인코딩 방식의 블록도이다.
도 2b는 본 발명의 제2 구성에 따른 디코딩 방식의 개략도이다.
도 3a는 본 발명의 또 다른 구성에 따른 인코딩 방식의 블록도를 도시한다.
도 3b는 본 발명의 또 다른 구성에 따른 디코딩 방식의 블록도를 도시한다.
도 4a는 인코딩 브랜치 앞에 스위치가 위치하는 블록도를 도시한다.
도 4b는 인코딩 브랜치 다음에 스위치가 위치하는 인코딩 방식의 블록도를 도시한다.
도 4c는 바람직한 결합기 실시예의 블록도를 도시한다.
도 5a는 준주기형의 시간 도메인 스피치 세그먼트 또는 임펄스형 신호 세그먼트의 파형을 도시한다.
도 5b는 도 5a의 세그먼트의 스펙트럼을 도시한다.
도 5c는 정지의 예로서 무성음 스피치의 시간 도메인 스피치 세그먼트와 노이즈형 세그먼트를 도시한다.
도 5d는 도 5c의 시간 도메인 파형의 스펙트럼을 도시한다.
도 6은 분석 합성 CELP 인코더의 블록도를 도시한다.
도 7a ~ 7d는 임펄스형의 예로서 유성음/무성음 여기 신호 및 정지/노이즈형 신호를 도시한다.
도 7e는 단기 예측 정보와 예측 에러 신호를 제공하는 인코더측 LPC 단을 도시한다.
도 8은 본 발명의 실시예에 따른 조인트 멀티채널 알고리즘의 블록도를 도시한다.
도 9는 밴드폭 확장 알고리즘의 바람직한 실시예를 도시한다.
도 10a는 개루프 판정을 행할 때 스위치의 상세한 설명을 도시한다.
도 10b는 폐루프 판정 모드에서 동작할 때 스위치의 실시예를 도시한다.

모노 신호, 스테레오 신호 또는 멀티 채널 신호가 도 1a의 공통 전처리 단(100)에 입력된다. 공통 전처리 방식은 조인트 스테레오 기능부, 서라운드 기능부, 및/또는 밴드폭 확장 기능부을 갖는다. 블록(100)의 출력에는 단일 스위치(200) 또는 다중 유형의 스위치(200)에 입력되는 모노 채널, 스테레오 채널 또는 다중 채널이 있다.

단(100)이 2개 이상의 출력을 가질 때, 단(100)이 스테레오 신호 또는 다중 채널 신호를 출력할 때, 단(100)의 각각의 출력에 대해서 스위치(200)가 존재한다. 예를 들면, 스테레오 신호의 제1 채널은 스피치 채널이고, 스테레오 신호의 제2 채널은 음악 채널일 수 있다. 이 상황에서, 판정단의 판정은 동일한 예에 대해서 2개의 채널 사이에서 상이할 수 있다.

스위치(200)는 판정단(300)에 의해 제어된다. 판정단은 입력으로서 블록(100)에 입력된 신호 또는 블록(100)에 의해 출력된 신호를 받는다. 또는, 판정단(300)은 모노 신호, 스테레오 신호 또는 다중 채널 신호에 포함되거나, 예를 들면, 모노 신호, 스테레오 신호 또는 다중 채널 신호를 원래 생성할 때 생성되었던, 정보가 존재하는 이러한 신호에 적어도 연관된 사이드 정보를 또한 수신할 수 있다.

일 실시예에서, 판정단은 전처리 단(100)을 제어하지 않고, 블록 300과 100 사이의 화살표는 존재하지 않는다. 또 다른 실시예에서, 블록(100)에서의 처리는, 판정에 기초하여 블록(100)에 하나 이상의 파라미터를 설정하도록 판정단(300)에 의해 특정 정도로 제어된다. 그러나, 블록(100)에서 일반적인 알고리즘에 영향을 주지 않으므로, 단(300)의 판정에 상관없이 블록(100)의 주요 기능부이 액티브하다.

판정단(300)은 스위치(200)을 작동하여 도 1a의 상부 브랜치에 도시된 주파수 인코딩부(400) 또는 도 1a의 하부 브랜치에 도시된 LPC 도메인 인코딩부(510)에서 공통 전처리 단의 출력을 공급하도록 한다.

일 실시예에서, 스위치(200)는 2개의 인코딩 브랜치(400, 500)를 전환한다. 또 다른 실시예에서, 제3 인코딩 브랜치 또는 제4 인코딩 브랜치 또는 더 많은 인코딩 등의 추가의 인코딩 브랜치가 있을 수 있다. 3개의 인코딩 브랜치를 갖는 실시예에서, 3개의 인코딩 브랜치는 제2 인코딩 브랜치와 유사할 수 있지만, 제2 브랜치(500)의 여기 인코딩와 다른 여기 인코딩를 포함할 수 있다. 이 실시예에서, 제2 브랜치는 LPC단(510), 및 ACELP 등의 코드북 기반 여기 인코더를 포함할 수 있고, 제3 브랜치는 LPC단 및 LPC단 출력 신호의 스펙트럼 표시에서 동작하는 여기 인코딩를 포함한다.

주파수 도메인 인코딩 브랜치의 주요 구성 요소는, 공통 전처리 단 출력 신호를 스펙트럼 도메인으로 변환하도록 동작하는 스펙트럼 변환부(410)이다. 스펙트럼 변환부는 MDCT 알고리즘, QMF, FFT 알고리즘, Wavelet 분석, 또는 특정수의 필터뱅크 채널을 갖는 임계적으로 샘플링된 필터뱅크 등의 필터뱅크를 포함할 수 있으며, 여기서, 이 필터뱅크의 서브밴드 신호는 실수값 신호 또는 복소수값 신호일 수 있다. 스펙트럼 변환부(410)의 출력은, AAC 코딩 방식으로 알려진 처리부를 포함할 수 있는 스펙트럼 오디오 인코더(420)를 사용하여 인코딩된다.

하부 인코딩 브랜치(500)에서, 주요 구성 요소는 2종류의 신호를 출력하는 LPC(510) 등의 소스 모델 분석기이다. 하나의 신호는 LPC 합성 필터의 필터 특성을 제어하기 위해 사용되는 LPC 정보 신호이다. 이 LPC 정보는 디코더로 전송된다. 다른 LPC단(510) 출력 신호는 여기 인코더(520)로 입력되는 여기 신호 또는 LPC 도메인 신호이다. 여기 인코더(520)는 CELP 인코더, ACELP 인코더 또는 LPC 도메인 신호를 처리하는 임의의 다른 인코더 등의 소스-필터 모델 인코더일 수 있다.

또 다른 바람직한 여기 인코더 구현은 여기 신호의 변환 코딩이다. 이 실시예에서, 여기 신호는 ACELP 코드북 메카니즘을 사용하여 인코딩되지 않지만, 여기 신호는 스펙트럼 표시로 변환되고, 필터뱅크의 경우에 서브밴드 신호 또는 FFT 등의 변환의 경우에 주파수 계수 등의 스펙트럼 표시 값이 데이터 압축을 얻기 위해 인코딩된다. 이 종류의 여기 인코더의 구현은 AMR-WB+로 알려진 TCX 코딩 모드이다.

판정단에서 판정은 신호-적응이므로, 판정단은 음악/스피치 분별을 행하고, 음악 신호가 상부 브랜치(400)로 입력되는 방식으로 스위치(200)를 제어하고, 스피치 신호는 하부 브랜치(500)로 입력된다. 일 실시예에서, 판정단은 그 판정 정보를 출력 비트 스트림으로 공급하므로, 디코더는 정확한 디코딩 동작을 행하기 위해 이 판정 정보를 사용할 수 있다.

이러한 디코더가 도 1b에 도시된다. 스펙트럼 오디오 인코더(420)에 의한 신호 출력은, 전송 후, 스펙트럼 오디오 디코더(430)로 입력된다. 스펙트럼 오디오 디코더(430)의 출력은 시간-도메인 컨버터(440)로 입력된다. 아날로그로, 도 1a의 여기 인코더(520)의 출력은 LPC 도메인 신호를 출력하는 여기 디코더(530)로 입력된다. LPC 도메인 신호는, 대응하는 LPC 분석단(510)에 의해 생성된 LPC 정보를 다른 입력으로서 수신하는 LPC 합성단(540)으로 입력된다. 시간-도메인 컨버터(440)의 출력 및/또는 LPC 합성단(540)의 출력은 스위치(600)로 입력된다. 스위치(600)는, 예를 들면 판정단(300)에 의해 생성되거나, 원래의 모노 신호, 스테레오 신호, 또는 다중 채널 신호의 생성기 등에 의해 외부적으로 제공되었던 스위치 제어 신호를 통해 제어된다.

스위치(600)의 출력은, 조인트 스테레오 처리 또는 밴드폭 확장 처리 등을 행할 수 있는 공통 후-처리단(700)으로 후속으로 입력되는 컴플리트 모노 신호이다. 또는, 스위치의 출력은 스테레오 신호 또는 멀티-채널 신호일 수 있다. 전처리가 2채널로의 채널 감소를 포함할 때, 스테레오 신호이다. 3채널로의 채널 감소 또는 채널 감소가 전혀 없고 오직 하나의 스펙트럼 밴드 복사가 행해질 때, 다채널 신호일 수 있다.

공통 후-처리단의 특정 기능부에 의존하여, 모노 신호, 스테레오 신호, 또는 멀티-채널 신호는, 공통 후-처리단(700)이 밴드폭 확장 동작을 행할 때, 블록(700)으로 입력되는 신호보다 큰 밴드폭을 갖는 출력이다.

일 실시예에서, 스위치(600)는 2개의 복호화 브랜치(430, 440, 530, 540) 사이를 전환한다. 또 다른 실시예에서, 제3 복호화 브랜치 또는 제4 복호화 브랜치 또는 심지어 더 많은 복호화 브랜치 등의 추가의 복호화 브랜치가 있을 수 있다. 3개의 복호화 브랜치를 갖는 일 실시예에서, 제3 복호화 브랜치는 제2 복호화 브랜치와 유사할 수 있지만, 제2 브랜치(530, 540)의 여기 디코더(530)와 상이한 여기 디코더를 포함할 수 있다. 이 실시예에서, 제2 브랜치는 LPC단(540), ACELP 등의 코드북 기반 여기 디코더를 포함하고, 제3 브랜치는 LPC단 및 LPC단(540) 출력 신호의 스펙트럼 표시로 동작하는 여기 디코더를 포함한다.

상기 서술된 것같이, 도 2a는 본 발명의 제2 구성에 따른 바람직한 인코딩 방식을 도시한다. 도 1a의 공통 전처리 방식(100)은, 2개 이상의 채널을 갖는 신호인 입력 신호를 다운믹싱하여 생성되는 모노 출력신호는 조인트 스테레오 파라미터를 출력으로서 생성하는 서라운드/조인트 스테레오부(101)를 포함한다. 일반적으로, 블록(101)의 출력에서의 신호는 더 많은 채널을 갖는 신호일 수 있지만, 블록(101)의 다운믹싱 기능부으로 인해서, 블록(101)의 출력에서의 채널 수는 블록(101)으로 입력되는 채널의 수보다 더 작다.

블록(101)의 출력은, 도 2a의 인코더의 출력에서 로우밴드 신호 또는 로우 패스 신호 등의 대역-제한된 신호를 출력하는 밴드폭 확장부(102)로 입력된다. 또한, 블록(102)으로 입력된 신호의 하이밴드에 대해서, MPEG-4의 HE-AAC 프로파일로 알려진 것같이, 스펙트럼 엔빌로프 파라미터, 역 필터링 파라미터, 노이즈 플로어 파라미터 등의 밴드폭 확장 파라미터가 생성되어, 비트스트림 멀티플렉서(800)로 전달된다.

바람직하게, 판정단(300)은 예를 들면, 음악 모드 또는 스피치 모드 사이에서 판정하기 위해 블록(101) 또는 블록(102)으로 입력되는 신호를 수신한다. 음악 모드에서 상부 인코딩 브랜치(400)가 선택되며, 스피치 모드에서 하부 인코딩 브랜치(500)가 선택된다. 바람직하게, 판정단은 조인트 스테레오 블록(101) 및/또는 밴드폭 확장부(102)를 추가적으로 제어하여, 이들 블록의 기능부을 특정 신호에 적응시킨다. 그래서 판정단이 입력 신호의 특정 시간 부분이 음악 모드 등의 제1 모드인 것으로 판정하면, 블록(101) 및/또는 블록(102)의 특정 특징들은 판정단(300)에 의해 제어될 수 있다. 또는, 판정단(300)이 신호가 스피치 모드, 또는 일반적으로 LPC-도메인 코딩 모드에 있다고 판정하면, 블록(101 및 102)의 특정 특징들이 판정단 출력에 따라서 제어될 수 있다.

스위치(200) 입력 신호로부터 도출되거나, 또는 단(200)으로 입력된 신호에 있는 원래의 오디오 신호의 프로듀서 등의 임의의 외부 소스로부터 도출될 수 있는 스위치의 판정에 의거하여, 스위치는 주파수 인코딩 브랜치(400)와 LPC 인코딩 브랜치(500) 사이에서 전환한다. 주파수 인코딩 브랜치(400)는 스펙트럼 변환단(410) 및 그 다음에 연결된 양자화/코딩단(421)(도 2a에 도시)을 포함한다. 양자화/코딩단은, AAC 인코더 등의 현대의 주파수-도메인 인코더로 알려진 임의의 기능부을 포함할 수 있다. 또한, 양자화/코딩단(421)에서 양자화 동작은 주파수에 대한 음향 심리의 마스킹 스레시홀드 등의 음향심리 정보를 생성하는 음향심리 모듈을 통해 제어될 수 있으며, 이 정보는 단(421)으로 입력된다.

바람직하게, 스펙트럼 변환은 MDCT 동작을 사용하여 행해지며, 더 바람직하게는 시간-워핑(time-warped) MDCT 동작이며, 힘 또는, 일반적으로 워핑력은 제로(0)와 높은 워핑력 사이에서 제어될 수 있다. 제로 워핑력에서, 블록(411)에서의 MDCT 동작은 본 기술에서 알려진 스트레이트-포워드(straight-forward) MDCT 동작이다. 시간 워핑 사이드 정보와 함께 시간 워핑력은 사이드 정보로서 비트스트림 멀티플렉서(800)로 전송/입력될 수 있다. 그러므로, TW-MDCT가 사용되면, 시간 워핑 사이드 정보는 도 2a에 424로 도시된 비트스트림으로 송신되어야 하고, 디코더측에서, 시간 워핑 사이드 정보가 도 2b에 항목 434로 도시된 비트스트림으로부터 수신되어야 한다.

LPC 인코딩 브랜치에서, LPC-도메인 인코더는 피치 이득, 피치 지연 및/또는 코드북 인덱스와 코드 이득 등의 코드북 정보를 계산하는 ACELP 코어를 포함할 수 있다.

제1 코딩 브랜치(400)에서, 스펙트럼 컨버터는, 특정 윈도우 함수를 갖는 특별히 적응된 MDCT 동작을 바람직하게 포함하며, 벡터 양자화단도 가능하지만, 바람직하게는 주파수 도메인 코딩 브랜치에서 양자화기/코더에 대해, 즉, 도 2a의 아이템 421로 표시된 양자화기/코더인, 양자화/엔트로피 인코딩단이 그 뒤에 온다.

도 2b는 도 2a의 인코딩 방식에 대응하는 디코딩 방식을 도시한다. 도 2a의 비트스트림 멀티플렉서(800)에 의해 생성된 비트스트림이 비트스트림 디멀티플렉서(900)에 입력된다. 예를 들면, 모드 검출부(601)를 통해 비트스트림으로부터 도출된 정보에 의거하여, 디코더-측 스위치(600)는 상부 브랜치로부터의 신호 또는 하부 브랜치로부터의 신호를 밴드폭 확장부(701)로 전달하도록 제어된다. 밴드폭 확장부(701)는 비트스트림 디멀티플렉서(900)로부터, 사이드 정보를 수신하고, 이 사이드 정보와 모드 검출기(601)의 출력에 기초하여, 스위치(600)에 의해 로우밴드 출력에 기초하여 하이밴드를 재구성한다.

블록(701)에 의해 생성된 풀 밴드 신호는 조인트 스테레오/서라운드 처리단(702)에 입력되어 2개의 스테레오 채널 또는 몇 개의 멀티-채널을 재구성한다. 일반적으로, 블록(702)은 이 블록으로 입력되었던 것보다 많은 채널을 출력한다. 애플리케이션에 기초하여, 블록(702)으로의 입력은 스테레오 모드에서 2개의 채널을 또한 포함할 수 있고, 이 블록에 의한 출력이 이 블록으로의 입력보다 더 많은 채널을 가지는 한 더 많은 채널을 포함할 수 있다.

일반적으로, 여기(excitation) 디코더(530)가 존재한다. 블록(530)에서 구현되는 알고리즘은 인코더 측에서 블록(520)에서 사용되는 대응 알고리즘에 적응된다. 단(431)이 주파수/시간 컨버터(440)를 사용하여 시간-도메인으로 변환되는 시간 도메인 신호로부터 도출된 스펙트럼을 출력하는 한편, 단(530)은 LPC-도메인 신호를 출력한다. 단(530)의 출력 데이터는 LPC 합성단(540)을 사용하여 시간-도메인으로 다시 변환되며, 인코더-측 생성되고 전송된 LPC 정보를 통해 제어된다. 그 후, 블록(540)의 다음에, 양 브랜치는 모노 신호, 스테레오 신호 또는 멀티-채널 신호 등의 오디오 신호를 최종적으로 얻기 위해 스위치 제어 신호에 따라서 전환되는 시간-도메인 정보를 갖는다.

스위치(200)는 양 브랜치 사이에서 전환하도록 도시되므로, 오직 하나의 브랜치가 처리용 신호를 수신하고, 다른 브랜치는 처리용 신호를 수신하지 못한다. 그러나, 또 다른 실시예에서, 스위치는 예를 들면 오디오 인코더(420) 및 여기 인코더(520) 다음에 배열될 수 있으며, 이것은 양 브랜치(400, 500)가 동일한 신호를 병렬로 처리하는 것을 의미한다. 그러나, 비트레이트를 2배로 하지 않기 위해서는, 이들 인코딩 브랜치(400 또는 500) 중 하나에 의한 신호 출력만이 출력 비트 스트림에 쓰여지도록 선택된다. 판정단은 비트스트림에 쓰여진 신호가 특정 비용 함수를 최소화하도록 판정단이 동작하며, 여기서 비용 함수는 발생된 비트레이트 또는 발생된 지각 왜곡 또는 결합된 레이트/왜곡 비용 함수일 수 있다. 그러므로, 이 모드 또는 도면에 도시된 모드에서, 판정단은 폐루프 모드에서 동작하여, 최종적으로, 주어진 지각 왜곡에 대해서 최저 비트레이트를 가지거나, 또는 주어진 비트레이트에 대해서 최저 지각 왜곡을 갖는 비트스트림으로 오직 인코딩 브랜치 출력만이 쓰여지도록 할 수 있다.

일반적으로, 브랜치(400)에서의 처리는 지각 기반 모델 또는 정보 싱크 모델에서의 처리이다. 그래서, 이 브랜치는 소리를 수신하는 인간 청각 시스템을 모델로 한다. 대조적으로 브랜치(500)에서의 처리는 여기, 잔차 또는 LPC 도메인에서 신호를 생성하는 것이다. 일반적으로, 브랜치(500)에서의 처리는 스피치 모델 또는 정보 생성 모델에서의 처리이다. 스피치 신호에 대해서, 이 모델은 사운드를 발생하는 인간 스피치/사운드 발생 시스템의 모델이다. 그러나, 상이한 사운드 발생 모델을 요구하는 상이한 소스로부터의 사운드가 인코딩되면, 브랜치(500)에서의 처리는 상이할 수 있다.

도 1a ~ 2b는 장치의 블록도로서 도시되었지만, 이들 도면은 방법을 동시에 도시하고 있으며, 블록 기능부은 방법 단계에 대응한다.

도 3a는 제1 인코딩 브랜치(400)와 제2 인코딩 브랜치(500)의 출력에서 인코딩된 오디오 신호를 생성하는 오디오 인코더를 도시한다. 또한, 인코딩된 오디오 신호는 공통 전-처리 단으로부터의 전-처리 파라미터 등의 사이드 정보 또는 앞의 도면과 함께 설명된 것같이, 스위치 제어 정보를 바람직하게 포함한다.

바람직하게, 제1 인코딩 브랜치는 제1 코딩 알고리즘에 따라서 오디오 중간 신호(195)를 인코딩하도록 동작하며, 제1 코딩 알고리즘은 정보 싱크 모델을 갖는다. 제1 인코딩 브랜치(400)는, 오디오 중간 신호(195)의 인코딩된 스펙트럼 정보 표시인 제1 인코더 출력 신호를 생성한다.

또한, 제2 인코딩 브랜치(500)는 제2 인코딩 알고리즘에 따라서 오디오 중간 신호(195)를 인코딩하도록 적응되며, 제2 코딩 알고리즘은 정보 소스 모델을 가지며, 제1 인코더 출력 신호에서, 중간 오디오 신호를 나타내는 정보 소스 모델에 대해 인코딩된 파라미터를 생성한다.

또한, 오디오 인코더는 오디오 중간 신호(195)를 얻기 위해 오디오 입력 신호(99)를 전처리하는 공통 전처리 단을 포함한다. 특히, 공통 전처리 단은 오디오 입력 신호(99)를 처리하도록 동작하므로, 오디오 중간 신호(195), 즉 공통 전처리 알고리즘의 출력이 오디오 입력 신호의 압축된 버전이 된다.

인코딩된 오디오 신호를 생성하는 오디오 인코딩의 바람직한 방법은, 정보 싱크 모델을 갖는 제1 코딩 알고리즘에 따라서 오디오 중간 신호(195)를 인코딩하고, 제1 출력 신호에서, 오디오 신호를 나타내는 인코딩된 스펙트럼 정보를 생성하는 단계(400); 정보 소스 모델을 갖는 제2 코딩 알고리즘에 따라서 오디오 중간 신호(195)를 인코딩하고, 제2 출력 신호에서, 오디오 중간 신호(195)를 나타내는 인코딩된 정보 소스 모델용 인코딩된 파라미터를 생성하는 단계(500); 및 오디오 중간 신호(195)를 얻기 위해 오디오 입력 신호(99)를 공통 전처리하는 단계(100)를 포함하고, 상기 오디오 입력 신호(99)를 공통 전처리하는 단계는 오디오 중간 신호(195)가 오디오 입력 신호(99)의 압축된 버전이 되도록 처리되고, 인코딩된 오디오 신호는 오디오 신호의 특정 부분에 대해서 제1 출력 신호 또는 제2 출력 신호를 포함한다. 방법은, 제1 코딩 알고리즘을 사용하거나 또는 제2 코딩 알고리즘을 사용하여 오디오 중간 신호의 특정 부분을 인코딩하거나, 또는 양 알고리즘을 사용하여 신호를 인코딩하고, 인코딩된 신호에서 제1 코딩 알고리즘의 결과 또는 제2 코딩 알고리즘의 결과를 출력하는 단계를 더 바람직하게 포함한다.

일반적으로, 제1 인코딩 브랜치(400)에서 사용되는 오디오 인코딩 알고리즘은 오디오 싱크에서의 상황을 반영하여 모델화한다. 오디오 정보의 싱크는 일반적으로 사람의 귀이다. 사람의 귀는 주파수 분석기의 모델이 된다. 그러므로, 제1 인코딩 브랜치는 인코딩된 스펙트럼 정보를 출력한다. 바람직하게, 제1 인코딩 브랜치는 음향심리의 마스킹 임계를 부가적으로 적용하는 음향심리 모델을 또한 포함한다. 오디오 스펙트럼 값을 양자화할 때 이 음향심리 마스킹 임계가 사용되며, 바람직하게, 스펙트럼 오디오 값을 양자화함으로써, 음향심리 마스킹 임계 아래에 숨어져 있던 양자화 노이즈가 도입되도록 양자화가 행해진다.

제2 인코딩 브랜치는 오디오 사운드의 발생을 반영하는 정보 소스 모델을 나타낸다. 그러므로, 정보 소스 모델은, LPC 단에 의해 반영되는, 즉, 시간 도메인 신호를 LPC 도메인으로 변환하고, 다음에 LPC 잔차 신호, 즉 여기 신호를 처리함으로서 반영되는, 스피치 모델을 포함할 수 있다. 그러나, 다른 사운드 소스 모델은 특정 악기 또는 실제로 존재하는 특정 사운드 소스 등의 임의의 다른 사운드 발생기를 나타내는 사운드 소스 모델이다. 몇몇 사운드 소스 모델이 이용가능할 때, SNR 계산에 기초하여, 즉, 어느 소스 모델이 오디오 신호의 특정 시간 부분 및/또는 오디오 신호의 주파수 부분에 적합한 최적의 것인지의 계산에 기초하여, 상이한 사운드 소스 모델들 사이의 선택이 행해질 수 있다. 그러나, 바람직하게, 인코딩 브랜치 사이의 전환은 시간 도메인에서 행해지며, 즉, 특정 시간 부분이 하나의 모델을 이용하여 인코딩되고, 중간 신호의 특정 상이한 시간 부분이 다른 인코딩 브랜치를 이용하여 인코딩된다.

정보 소스 모델은 특정 파라미터에 의해 표시된다. 스피치 모델에 대해서, AMR-WB+ 등의 현대적인 스피치 코더가 고려될 때 파라미터는 LPC 파라미터 및 코딩된 여기 파라미터이다. AMR-WB+는 ACELP 인코더 및 TCX 인코더를 포함한다. 이 경우, 코딩된 여기 파라미터는 전체 노이즈, 노이즈 플로어, 및 가변 길이 코드일 수 있다.

일반적으로, 모든 정보 소스 모델은 원래의 오디오 신호를 매우 효과적으로 반영하는 파라미터 세트의 설정을 허용한다. 그러므로, 제2 인코딩 브랜치의 출력은 오디오 중간 신호를 나타내는 정보 소스용 인코딩된 파라미터이다.

도 3b는 도 3a에 도시된 인코더에 대응하는 디코더를 도시한다. 일반적으로, 도 3b는 디코딩된 오디오 신호(799)를 얻기 위한 인코딩된 오디오 신호를 디코딩하는 오디오 디코더를 도시한다. 디코더는 정보 싱크 모델을 갖는 제1 코딩 알고리즘에 따라서 인코딩된 신호를 복호하는 제1 디코딩 브랜치(450)를 포함한다. 또한, 오디오 디코더는 정보 소스 모델을 갖는 제2 코딩 알고리즘에 따라서 인코딩된 정보 신호를 복호하는 제2 디코딩 브랜치(550)를 포함한다.

또한, 오디오 디코더는 제1 디코딩 브랜치(450)와 제2 디코딩 브랜치(550)로부터의 출력 신호를 결합하여 결합된 신호를 얻는 결합기를 포함한다. 디코딩된 오디오 중간 신호(699)로서 도 3b에 도시된 결합된 신호는, 공통 전처리 단의 출력 신호가 결합된 신호의 확장된 버전이 되도록 결합기(600)에 의해 결합된 신호 출력인 디코딩된 오디오 중간 신호(699)를 후 처리하는 공통 후처리 단으로 입력된다. 그래서, 디코딩된 오디오 신호(799)는 디코딩된 오디오 중간 신호(699)에 비해 개선된 정보 콘텐츠를 갖는다. 이 정보 확장은 인코더에서 디코더로 전달될 수 있거나, 또는 디코딩된 오디오 중간 신호 자신으로부터 도출될 수 있는 전/후처리 파라미터를 이용하여 공통 후처리 단에 의해 제공된다. 그러나, 바람직하게, 이 과정은 개선된 품질의 디코딩된 오디오 신호를 허용하기 때문에, 전/후처리 파라미터는 인코더에서 디코더로 전달된다.

도 4a 및 4b는 스위치(200)의 위치가 다른 2개의 상이한 실시예를 도시한다. 도 4a에서, 스위치(200)는 공통 전처리 단(100)의 출력과 2개의 인코딩된 브랜치(400, 500) 사이에 위치한다. 도 4a의 실시예에서는 확실하게 오디오 신호가 단일 인코딩 브랜치에만 입력되어, 공통 전처리 단의 출력에 연결되지 않은 다른 인코딩 브랜치는 동작하지 않으므로, 오프로 전환되거나 슬립 모드에 있다. 바람직하게, 이 실시예는 비액티브 인코딩 브랜치가, 특히 배터리로 구동되는 휴대용 기기에 유용한, 전력 및 컴퓨터 자원을 소비하지 않으므로, 일반적으로 한정된 전력 소비를 갖는다.

그러나, 한편, 도 4b의 실시예는 전력 소비가 문제가 되지 않을 때 바람직할 수 있다. 이 실시예에서, 양 인코딩 브랜치(400, 500)는 항상 액티브하고, 특정 시간 위치 및/또는 특정 주파수 위치에 대해서 선택된 인코딩 브랜치의 출력만이, 비트 스트림 멀티플렉서(800)로서 구동될 수 있는 비트 스트림 형성기로 전달된다. 그러므로, 도 4b의 실시예에서, 양 인코딩 브랜치는 항상 액티브하고, 판정단(300)에 의해 선택되는 인코딩 브랜치의 출력이 출력 비트 스트림에 들어가는 반면, 다른 비선택된 인코딩 브랜치(400)의 출력이 파기되어, 즉, 출력 비트 스트림, 즉, 인코딩된 오디오 신호에 들어가지 않는다.

도 4c는 바람직한 디코더 구현의 다른 구성을 도시한다. 상황에서 특히 가청 아티팩트를 피하기 위해, 제1 디코더는 시간-앨리어싱 발생 디코더 또는 일반적으로 말하는 주파수 도메인 장치이고, 제2 디코더는 시간 도메인 장치이며, 제1 디코더(450)와 제2 디코더(550)에 의한 블록 또는 프레임 출력 사이의 경계는 특히 전환 상황에서 완전히 연속적이지 않아야 한다. 그래서, 제1 디코더(450)의 제1 블록이 출력되고, 후속의 시간 부분에 대해, 제2 디코더의 블록이 출력되면, 크로스 페이드부(607)에 의해 도시된 것같이 크로스 페이딩 동작을 행하는 것이 바람직하다. 결국, 크로스 페이드부(607)는 도 4c에 도시된 것같이 607a, 607b, 607c로 구현될 수 있다. 각각의 브랜치는 정규화된 스케일에서 0과 1사이의 가중 팩터 m₁을 갖는 웨이터(weighter)를 구비할 수 있고, 여기서 가중 팩터는 점 609로 나타낸 것같이 변화할 수 있으며, 이러한 크로스 페이딩 규칙은 연속적이고 원활한 크로스 페이딩이 발생하게 하며, 또한 사용자가 어떠한 라우드니스 변동(loudness variation)을 감지하지 않는다.

특정 예에서, 제1 디코더의 최종 블록이, 이 블록의 페이드아웃을 실제로 행한 윈도우를 이용하여 생성된다. 이 경우, 블록(607a)의 가중 팩터 m₁은 1과 같고, 실제로 어떠한 가중 계수도 이 브랜치에 필요하지 않다.

제2 디코더에서 제1 디코더로의 전환이 발생하고, 제2 디코더가, 출력을 블록의 끝까지 실제로 페이드아웃하는 윈도우를 포함할 때, "m2"로 표시된 웨이터가 필요하지 않거나 가중 파라미터는 전체 크로스 페이드 영역에 걸쳐 1로 설정될 수 있다.

전환 뒤에 윈도잉 동작을 이용하여 제1 블록이 생성되고, 이 윈도우가 실제로 페이드인 동작을 행하면, 대응하는 가중 팩터가 1로 설정될 수 있으므로 웨이터는 실제로 필요하지 않다. 그러므로, 디코더에 의해 페이드아웃하기 위해 최종 블록이 윈도잉되고, 전환 뒤에 페이드인을 제공하기 위해 디코더를 이용하여 제1 블록이 윈도잉되면, 웨이터(607a, 607b)는 전혀 필요하지 않고, 가산기(607c)에 의한 가산 동작이 충분하다.

이 경우, 최종 프레임의 페이드아웃 부분 및 다음 프레임의 페이드인 부분이 블록(609)에 표시된 크로스 페이드 영역을 정의한다. 또한, 이러한 상황에서 하나의 디코더의 최종 블록이 다른 디코더의 제1 블록과 특정 시간 중첩을 갖는 것이 바람직하다.

크로스 페이드 동작이 필요하지 않거나 가능하지 않거나 또는 소망되지 않고, 하나의 디코더에서 다른 디코더로의 하드 스위치(hard switch)가 존재하면, 오디오 신호의 조용한 경로, 또는 낮은 에너지가 있는, 즉, 적어도 조용하거나 거의 조용하다고 감지되는 오디오 신호의 경로에서 이러한 스위칭을 행하는 것이 바람직하다. 바람직하게, 판정단(300)은 이러한 실시예에서, 스위치 이벤트 다음에 오는 대응하는 시간 부분이 예를 들면, 오디오 신호의 평균 에너지보다 더 낮고, 바람직하게는 예를 들면 오디오 신호의 2개 이상의 시간 부분/프레임에 관한 오디오 신호의 평균 에너지의 50%보다 낮은 에너지를 가질 때, 확실히 스위치(200) 만이 구동되도록 한다.

바람직하게, 제2 인코딩 규칙/디코딩 규칙은 LPC-기반 코딩 알고리즘이다. LPC-기반 스피치 코딩에서, 준주기적인 임펄스형 여기 신호 세그먼트 또는 신호 부분, 및 노이즈형 여기 신호 세그먼트 또는 신호 부분 사이의 구별이 행해진다.

준주기적인 임펄스형 여기 신호 세그먼트, 즉, 특정 피치를 갖는 신호 세그먼트가 노이즈형 여기 신호와는 상이한 메카니즘으로 코딩된다. 준주기적인 펄스형 여기 신호가 유성음 스피치에 연결되며, 노이즈형 신호는 무성음 스피치에 관한다.

예를 들면, 도 5a ~ 5d를 참조한다. 여기서, 준주기적인 임펄스형 여기 신호 세그먼트 또는 신호 부분, 및 노이즈형 여기 신호 세그먼트 또는 신호 부분이 예를 들어 설명된다. 특히, 시간 도메인에서 도 5a 및 주파수 도메인에서 도 5b에 도시된 유성음 스피치는 준주기적인 임펄스형 여기 신호 부분에 대한 예로서 논의되고, 노이즈형 신호 부분에 대한 예로서 무성음 세그먼트를 도 5c 및 5d와 연관하여 설명한다. 스피치는 일반적으로 유성음, 무성음 또는 혼합형으로 분류될 수 있다. 샘플링된 유성음 및 무성음 세그먼트에 대해서 시간-및-주파수 도메인 플롯이 도 5a ~ 5d에 도시되어 있다. 유성음 스피치는 시간 도메인에서 준주기적이고, 주파수 도메인에서 고조파로 구성되고, 무성음 스피치는 랜덤형 및 브로드밴드이다. 또한, 유성음 세그먼트의 에너지는 무성음 세그먼트의 에너지보다 일반적으로 높다. 유성음 스피치의 단기 스펙트럼은 미세하고 포먼트 구조이다. 미세한 고조파 구조는 스피치의 준주기성의 결과이며, 진동하는 성대에 기인한다. 포먼트 구조(스펙트럼 엔빌로프)는 소스와 성도(vocal tract)의 상호작용에 기인한다. 성도는 인두와 구강으로 이루어진다. 유성음 스피치의 단기 스펙트럼에 들어맞는 스펙트럼 엔빌로프의 형상은 성문 펄스로 인한 스펙트럼 틸트(6 dB/Octave)와 성도의 전달 특성에 연관된다. 스펙트럼 엔빌로프는 포먼트로 불리는 한 세트의 피크를 특징으로 한다. 포먼트는 성도의 공명 모드이다. 평균적인 성도에는 5 kHz 아래의 3 ~ 5개의 포먼트가 있다. 보통 3 kHz 아래에서 발생하는 첫 번째 3개의 포먼트의 진폭과 위치는 스피치 합성과 인지 모두에서 매우 중요하다. 와이드 밴드 및 무성음 스피치 표시를 위해서 더 높은 포먼트가 또한 중요하다. 스피치의 성질은 다음과 같은 몸의 스피치 생성 시스템에 관련된다. 유성음 스피치는 진동하는 성대에 의해 발생된 준주기적인 성문음의 공기 펄스로 성도를 자극시켜 만들어진다. 주기 펄스의 주파수는 기본 주파수 또는 피치로 칭해진다. 무성음 스피치는 성도의 수축을 통해 공기에 힘을 가함으로써 생성된다. 비음은 성도와 비도의 음향 결합에 기인하고, 파열음은 관의 폐쇄 뒤에 만들어진 공기 압력을 갑자기 해제함으로써 만들어진다.

그래서, 오디오 신호의 노이즈형 부분은 도 5c 및 5d에 도시된 것같이 임펄스-형 시간-도메인 구조나 고조파 주파수-도메인 구조를 나타내지 않으며, 도 5a 및 5b에 예를 들어 도시된 것같이 준주기적인 임펄스형 부분과 상이하다. 그러나, 나중에 개략 설명하는 것같이, 노이즈형 부분과 준주기적인 임펄스형 부분 사이의 구별은 여기 신호용 LPC 뒤에 관찰될 수 있다. LPC는 성도를 모델로 하여, 신호로부터 성도의 자극을 추출하는 방법이다.

또한, 준주기적인 임펄스형 부분과 노이즈형 부분은 적절한 시간에 발생할 수 있으며, 즉, 시간상 오디오 신호의 일부는 노이즈이고, 시간상 오디오 신호의 또 다른 부분은 준주기적인, 즉, 음조이다. 선택적이거나 부가적으로, 신호의 특성은 상이한 주파수 밴드에서 다를 수 있다. 그래서, 오디오 신호가 노이즈인지 음조인지의 구별이 주파수 선택적으로 행해질 수 있으므로 특정 주파수 밴드 또는 몇몇 특정 주파수 밴드가 노이즈로 간주되고, 다른 주파수 밴드가 음조로 간주될 수 있다. 이 경우, 오디오 신호의 특정 시간 부분은 음조 성분과 노이즈 성분을 포함할 수 있다.

도 7a는 스피치 생성 시스템의 선형 모델을 도시한다. 이 시스템은 2단 여기, 즉, 도 7c에 도시된 것같이 유성음 스피치용 임펄스-트레인과 도 7d에 도시된 것같이 무성음 스피치용 랜덤-노이즈를 취한다. 성도는 성문음 모델(72)에 의해 생성된, 도 7c 또는 도 7d의 펄스 또는 노이즈를 처리하는 전극(all-pole) 필터(70)로서 모델링된다. 전극 전달 함수는 포먼트를 표시하는 소수의 2극 공진기의 캐스캐이드에 의해 형성된다. 성문음 모델은 2극 로우 패스 필터로 표시되고, 입술-방사(lip-radiation) 모델(74)은 L(z) = 1-z^-1로 표시된다. 결국, 스펙트럼 상관 팩터(76)가 더 높은 극의 저주파수 효과를 보상하기 위해 포함된다. 개별 스피치 표시에서 스펙트럼 상관이 제거되고, 입술-방사 전달 함수의 0이 하나의 성문음 극에 의해 필수적으로 취소된다. 그러므로, 도 7a의 시스템은 이득단(77), 포워드 경로(78), 피드백 경로(79) 및 가산단(80)을 갖는 도 7b의 전극 필터 모델로 감소될 수 있다. 피드백 경로(79)에, 예측 필터(81)가 있고, 도 7b에 도시된 전체 소스-모델 합성 시스템은 다음과 같이 z-도메인 함수를 이용하여 표시될 수 있다:

S(z) = g/(1-A(z))·X(z)

여기서, g는 이득을 나타내고, A(z)는 LPC 분석에 의해 판정된 예측 필터이고, X(z)는 여기 신호, S(z)는 합성 스피치 출력이다.

도 7c 및 7d는 선형 소스 시스템 모델을 이용하여 유성음 및 무성음 스피치 합성의 그래픽적인 시간 도메인 설명을 나타낸다. 이 시스템 및 상기 식의 여기 파라미터는 미정이고 유한 세트의 스피치 샘플로부터 결정되어야 한다. A(z)의 계수는 입력 신호의 선형 예측 분석과 필터 계수의 양자화를 이용하여 얻어진다. p차 포워드 선형 예측기에서, 스피치 시퀀스의 현재 샘플이 p 진행된 샘플의 선형 조합으로부터 예측된다. 예측기 계수는 Levinson-Durbin 알고리즘과 같은 주지의 알고리즘 또는 일반적으로 자동상관법 또는 반사법에 의해 결정될 수 있다. 얻어진 필터 계수의 양자화는 LSF 또는 ISP 도메인에서 다단 벡터 양자화에 의해 일반적으로 행해진다.

도 7e는 도 1a의 510과 같이, LPC 분석부의 보다 상세한 구현을 나타낸다. 오디오 신호가 필터 정보 A(z)를 판정하는 필터 판정부로 입력된다. 이 정보는 디코더에 필요한 단기 예측 정보로서 출력된다. 도 4a의 실시예에서, 즉, 단기 예측 정보는 임펄스 코더 출력 신호에 대해 필요할 수 있다. 그러나, 라인(84)에서 오직 예측 에러 신호만이 필요할 때, 단기 예측 정보가 출력될 필요는 없다. 그럼에도 불구하고, 단기 예측 정보는 실제의 예측 필터(85)에 의해 필요하다. 감산기(86)에서, 오디오 신호의 현재 샘플이 입력되고, 현재의 샘플에 대해 예측 값이 감산되므로 이 샘플에 대해, 라인 84에서 예측 에러 신호가 발생된다. 이러한 예측 에러 신호 샘플의 시퀀스가 도 7c 또는 7d에 개략적으로 도시되고, 분명하게 하기 위해, AC/DC 성분에 대한 어떠한 문제도 도시되지 않았다. 그러므로, 도 7c는 일종의 정류된 임펄스형 신호로서 고려될 수 있다.

다음에, 도 10 ~ 13에 도시된 것같이, 이 알고리즘에 적용된 변형을 도시하기 위해 분석-합성 CELP 인코더를 도 6과 관련하여 설명한다. 이 CELP 인코더는 "Speech Coding : A Tutorial Review", Andreas Spaniels, Proceedings of IEEE, Vol. 82, No. 10, 1994년 10월, 페이지 1541 ~ 1582에 상세히 기재되어 있다. 도 6에 도시된 것같이 CELP 인코더는 장기 예측 성분(60)과 단기 예측 성분(62)을 포함한다. 또한, 64로 표시된 코드북이 사용된다. 지각 가중 필터 W(z)가 66으로 구현되며, 에러 최소화 제어기가 68에 설치된다. s(n)은 시간 도메인 입력 신호이다. 지각 가중된 뒤, 가중된 신호는, 블록(66)의 출력에서 가중된 합성 신호와 원래의 가중된 신호 S_w(n) 사이의 에러를 계산하는 감산기(69)로 입력된다. 일반적으로, 단기 예측 A(z)이 계산되고, 그 계수는 도 7e에 표시된 것같이 LPC 분석단에 의해 양자화된다. 장기 예측 이득 g와 벡터 양자화 인덱스, 즉, 코드북 레퍼런스를 포함하는 장기 예측 정보 A_L(z)가, 도 7e에 10a로 표시된 LPC 분석단의 출력에서의 예측 에러 신호에서 계산된다. CELP 알고리즘은, 예를 들면 가우스 시퀀스의 코드북을 이용한 단기 및 장기 예측 뒤에 얻어지는 잔차 신호를 인코딩한다. ACELP 알고리즘(여기서 "A"는 "Algebraic"을 나타낸다)은 특정 대수적으로 설계된 코드북을 갖는다.

코드북은 다소의 벡터를 포함할 수 있으며, 각각의 벡터는 몇몇 샘플 길이이다. 이득 팩터 g는 코드 벡터를 스케일링하고, 이득 코드는 장기 예측 합성 필터 및 단기 예측 합성 필터에 의해 필터링된다. 감산기(69)의 출력에서 지각 가중된 평균 제곱 오차가 최소화되도록 "최적" 코드 벡터가 선택된다. CELP에서 검색 처리는 도 6에 도시된 것같이 분석 합성 최적화에 의해 행해진다.

특정한 경우에, 프레임이 무성음 및 유성음 스피치의 혼합일 때, 또는 음악 위에 스피치가 있을 때, TCX 코딩이 LPC 도메인에서 여기를 코딩하는데 보다 적합할 수 있다. TCX 코딩은 여기 생성의 어떠한 가정을 행하지 않고 주파수 도메인에서 여기를 직접 처리한다. TCX는 CELP 코딩보다 일반적이며, 여기의 유성음 또는 무성음 소스 모델에 제한되지 않는다. TCX는 스피치형 신호의 포먼트를 모델링하기 위해 선형 예측 필터를 이용하는 여전히 소스필터 모델 코딩이다.

AMR-WB+-형 코딩에서, 상이한 모드와 ACELP 사이의 선택이, AMR-WB+ 설명으로부터 알려진 것같이 행해진다. TCX 모드는 블록형 패스트 푸리에 변환이 상이한 모드에 대해서는 상이하고, 최적의 모드가 분석 합성법 또는 직접 "피드-포워드" 모드에 의해 선택될 수 있는 것이 다르다.

도 2a 및 2b와 연결하여 설명되는 것같이, 공통 전처리 단(100)은 조인트 멀티-채널(서라운드/조인트 스테레오 장치)(101) 및 또한, 밴드폭 확장단(102)를 바람직하게 포함한다. 따라서, 디코더는 밴드폭 확장단(701), 및 다음에 연결된 조인트 멀티채널단(702)을 포함한다. 바람직하게, 조인트 멀티채널단(101)은 인코더에 대해서, 밴드폭 확장단(102) 앞에 연결되고, 디코더측에서, 밴드폭 확장단(701)은 신호 처리 방향에 대해 조인트 멀티채널단(702) 앞에 연결된다. 또는, 그러나, 공통 전처리 단은 다음에 연결된 밴드폭 확장단이 없이 조인트 멀티채널단을 포함하거나 연결된 조인트 멀티채널단이 없이 밴드폭 확장단을 포함할 수 있다.

인코더측(101a, 101b)과 디코더측(702a, 702b)의 조인트 멀티채널단에 대한 바람직한 예가 도 8의 컨텍스트에 도시된다. 다수의 E 원래의 입력 채널이 다운믹서(101a)에 입력되므로, 다운믹서는 다수의 K 전송된 채널을 생성하며, 여기서 K는 1 이상이며 E보다 작다.

바람직하게, E 입력 채널이, 파라미터 정보를 생성하는 조인트 멀티채널 파라미터 분석기(101b)에 입력된다. 이 파라미터 정보는 상이한 인코딩 및 후속의 허프만(Huffman) 인코딩 또는 후속의 산술 인코딩 등에 의해 바람직하게 엔트로피-인코딩된다. 블록(101b)에 의한 인코딩된 파라미터 정보 출력이 도 2b의 항목 702의 일부일 수 있는 파라미터 디코더(702b)에 전달된다. 파라미터 디코더(702b)는 전달된 파라미터 정보를 디코드하여, 디코딩된 파라미터 정보를 업믹서(702a)에 전달한다. 업믹서(702a)는 K 전달된 채널을 수신하고, 다수의 L 출력 채널을 생성하며, 여기서, L의 수는 K보다 크고, E 이하이다.

파라미터 정보는 BCC 기술로 알려진 것같이 또는 주지와 같고 및 MPEG 서라운드 표준에 상세하게 서술된 것같이, 채널간 레벨차, 채널간 시간차, 채널간 위상차 및/또는 채널간 일관성 측정을 포함할 수 있다. 전송된 채널의 수는 울트라-로우 비트 애플리케이션용 단일 모노 채널일 수 있거나, 또는 컴퍼터블 스테레오 애플리케이션을 포함할 수 있거나 또는 컴퍼터블 스테레오 신호, 즉, 2개의 채널을 포함할 수 있다. 전형적으로, E 입력 채널의 수는 5이거나 더 많을 수 있다. 또는, E 입력 채널의 수는, SAOC(spatial audio object coding)의 문맥에서 알려진 것같이 E 오디오 오브젝트일 수 있다.

일 실시예에서, 다운믹서는 원래의 E 입력 채널의 가중되거나 가중되지 않은 가산 또는 E 입력 오디오 오브젝트의 가산을 행한다. 입력 채널로서 오디오 오브젝트의 경우에, 조인트 멀티채널 파라미터 분석기(101b)가 각각의 시간 부분에 대해서 바람직하고 각각의 주파수 밴드에 대해 더 바람직하게 오디오 오브젝트간의 상관 매트릭스 등의 오디오 오브젝트 파라미터를 계산한다. 결국, 전체의 주파수 범위는 적어도 10 및 바람직하게는 32 또는 64 주파수 밴드에서 분할될 수 있다.

도 9는 도 2a의 밴드폭 확장단(102) 및 도 2b에서 대응하는 밴드폭 확장단(701)의 구현을 위한 바람직한 실시예를 도시한다. 인코더측에서, 밴드폭 확장부(102)는 로우 패스 필터링 블록(102b) 및 하이밴드 분석기(102a)를 바람직하게 포함한다. 밴드폭 확장 블록(102)으로 입력되는 원래의 오디오 신호는 로우-패스 필터링되어 로우밴드 신호를 생성하며, 이 신호는 인코딩 브랜치 및/또는 스위치로 입력된다. 로우 패스 필터는 일반적으로 3kHz ~ 10kHz 범위에 있는 컷오프 주파수를 갖는다. SBR을 이용하여, 이 범위는 초과될 수 있다. 또한, 밴드폭 확장부(102)는, 스펙트럼 엔빌로프 파라미터 정보, 노이즈 플로어 파라미터 정보, 역 필터링 파라미터 정보, 하이밴드에서 특정 고조파 라인에 관한 파라미터 정보 및 스펙트럼 밴드 복사에 관한 챕터(ISO/IEC 144963: 2005, Part 3, Chapter 4.6.18)에서 MPEG-4 표준에 상세하게 설명되어 있는 것같은 추가의 파라미터들과 같은, 밴드폭 확장 파라미터를 계산하는 하이밴드 분석기를 또한 포함한다.

디코더측에서, 밴드폭 확장블록(701)은 패쳐(701a), 조정기(701b), 및 결합기(701c)를 포함한다. 결합기(701c)는 디코딩된 로우밴드 신호와, 조정기(701b)에 의해 출력된 재건축되고 조정된 하이밴드 신호를 결합한다. 조정기(701b)로의 입력은 스펙트럼 밴드 복사 또는 일반적으로 밴드폭 확장에 의해 로우밴드로부터 하이밴드 신호를 인출하도록 동작하는 패쳐에 의해 제공된다. 패쳐(701a)에 의해 실행되는 패칭은 고조파 방법 또는 비고조파 방법으로 행해지는 패칭일 수 있다. 패쳐(701a)에 의해 생성되는 신호는, 전송된 파라미터 밴드폭 확장 정보를 이용하여 조정기(701b)에 의해 그 후에 조정된다.

도 8 및 도 9에 도시된 것같이, 설명된 블록은 바람직한 실시예에서 모드 제어 입력을 가질 수 있다. 이 모드 제어 입력은 판정단(300) 출력 신호로부터 인출된다. 이러한 바람직한 실시예에서, 대응하는 블록의 특성이, 판정단 출력에 적용될 수 있고, 즉, 바람직한 실시예에서, 오디오 신호의 특정 시간 부분에 대해 스피치인지의 판정, 음악인지의 판정이 행해진다. 바람직하게, 모드 제어는 오직 이들 블록의 하나 이상의 기능부에 관련하지만, 블록의 모든 기능부에 관련되지는 않는다. 예를 들면, 판정은 패쳐(701a)에만 영향을 줄 수 있지만, 도 9의 다른 블록에는 영향을 미치지 않거나, 예를 들면 도 8의 조인트 멀티채널 파라미터 분석기(101b)에만 영향을 줄 수 있지만 도 8의 다른 블록에는 영향을 주지 않는다. 이 구현은, 공통 전처리 단에 유연성을 제공함으로써, 바람직하게 더 높은 유연성 및 더 높은 품질 및 더 낮은 비트 레이트 출력 신호가 얻어지도록 하는 것이 바람직하다. 그러나, 한편, 양 종류의 신호에 대해 공통 전처리 단에서의 알고리즘의 사용은 효과적인 인코딩/디코딩 방식의 구현을 허용한다.

도 10a 및 도 10b는 판정단(300)의 2개의 상이한 구현을 도시한다. 도 10a에 개루프 판정이 도시된다. 여기서, 판정단(300)의 신호 분석기(300a)는, 입력 신호의 특정 시간 부분 또는 특정 주파수 부분이, 이 신호 부분이 제1 인코딩 브랜치(400) 또는 제2 인코딩 브랜치(500)에 의해 인코딩되는 것을 요구하는 특성을 갖는지를 판정하기 위해 특정 규칙을 갖는다. 결국, 신호 분석기(300a)는 공통 전처리 단으로의 오디오 입력 신호를 분석하거나, 공통 전처리 단에 의해 출력된 오디오 신호, 즉, 오디오 중간 신호를 분석하거나 또는 모노 신호이거나 또는 도 8에 도시된 k채널을 갖는 신호일 수 있는 다운믹스 신호의 출력과 같이 공통 전처리 단 내의 중간 신호를 분석할 수 있다. 출력측에서, 신호 분석기(300a)는 인코더측의 스위치(200) 및 대응하는 스위치(600) 또는 디코더측의 결합기(600)를 제어하는 스위칭 판정을 생성한다.

또는, 판정단(300)은 폐루프 판정을 행하며, 이것은 양 인코딩 브랜치가 오디오 신호의 동일한 부분에 그들의 작업을 행하며, 인코딩된 양 신호가 대응하는 디코딩 브랜치(300c, 300d)에 의해 디코딩되는 것을 의미한다. 장치(300c, 300d)의 출력은 디코딩 장치의 출력과 예를 들면 오디오 중간 신호의 대응하는 부분을 비교하는 비교기(300b)에 입력된다. 그 다음, 브랜치당 신호대잡음비 등의 비용함수에 의존하여, 스위칭 판정이 행해진다. 이 폐루프 판정은 개루프에 비해 복잡성이 증가되었지만, 이 복잡성은 인코더측에만 존재하며, 디코더는 이 인코딩 판정의 출력을 유리하게 사용할 수 있기 때문에, 디코더는 이 처리로부터 어떠한 불이익을 갖지 않는다. 그러므로, 애플리케이션에서 복잡성과 품질을 고려하면 폐루프 모드가 바람직하며, 디코더의 복잡성은, 소수의 인코더와, 스마트하고 값이 저렴해야 하는 다수의 디코더가 존재하는 방송 애플리케이션 등에서 문제가 아니다.

비교기(300b)에 의해 적용되는 비용 함수는 품질 구성에서 도출된 비용함수이거나, 노이즈 구성에서 도출된 비용함수이거나, 비트레이트 구성에서 도출된 비용함수이거나, 비트레이트, 품질, 노이즈 등의 임의의 조합(아티팩트의 코딩, 특히 양자화에 의해 생긴다)에 의해 도출된 결합된 비용 함수일 수 있다.

바람직하게, 제1 인코딩 브랜치 및/또는 제2 인코딩 브랜치는 인코더 측 및 대응하는 디코더 측에 시간 워핑 기능부을 포함한다. 일 실시예에서, 제1 인코딩 브랜치는 오디오 신호의 일부에 의존하여 가변 워핑 특성을 계산하는 시간 워퍼 모듈, 결정된 워핑 특성에 따라서 리샘플링하는 리샘플러, 시간 도메인/주파수 도메인 컨버터, 및 상기 시간 도메인/주파수 도메인 변환을 인코딩된 표시로 변환하는 엔트로피 코더를 포함한다. 가변 워핑 특성은 인코딩된 오디오 신호에 포함된다. 이 정보는 시간 워핑 개선된 코딩 브랜치에 의해 판독되고, 처리되어 비워핑된 시간 스케일에 출력 신호를 갖는다. 예를 들면, 디코딩된 브랜치는 엔트로피 디코딩, 양자화, 및 주파수 도메인에서 시간 도메인으로의 변환을 행한다. 시간 도메인에서, 드워핑이 적용되고, 다음에 대응하는 리샘플링 동작을 행하므로 최종적으로 이산 오디오 신호를 취득할 수 있다.

본 발명의 특정 구현 요구 사항을 고려하면, 본 발명의 방법은 하드웨어 또는 소프트웨어로 구현될 수 있다. 이 구현은 디지털 저장 매체, 특히, 전자적으로 판독가능한 제어 신호가 저장되어 있고, 본 방법이 실행되도록 프로그램 가능한 컴퓨터 시스템과 상호동작하는, 디스크, DVD 또는 CD를 이용하여 행해질 수 있다. 일반적으로, 본 발명은 기계 판독가능 캐리어 상에 프로그램 코드가 저장되어 있는 컴퓨터 프로그램 제품이며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 구동될 때 본 발명의 방법을 행하도록 동작한다. 즉, 본 발명의 방법은, 컴퓨터 프로그램이 컴퓨터에서 구동될 때 본 발명의 방법 중 적어도 하나를 실행하는 프로그램 코드를 갖는 컴퓨터 프로그램이다.

본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나 무선 전송 매체 또는 인터넷 등의 유선 전송 매체 등의 전송 매체 상에서 전송될 수 있다.

상기 설명된 실시예는 본 발명의 원리 만을 도시하고 있다. 여기에 서술된 배치 및 상세한 점의 변경 및 변형이 본 기술에서 숙련된 자에게는 명백한 것으로 이해된다. 그러므로, 본 발명은 여기의 실시예의 서술 및 설명을 통해 제시된 특정 상세한 점에 의해 제한되는 것이 아니라 첨부된 특허 청구범위에 의해서만 제한된다.

Claims

인코딩된 오디오 신호를 생성하는 오디오 인코더로서,
정보 싱크 모델을 갖는 제1 코딩 알고리즘에 따라서 오디오 중간 신호(195)를 인코딩하는 제1 인코딩 브랜치(400)로서, 제1 인코딩 브랜치 출력 신호에, 오디오 중간 신호를 나타내는 인코딩된 스펙트럼 정보를 생성하고, 상기 제1 인코딩 브랜치(400)는 상기 오디오 중간 신호를 스펙트럼 도메인으로 변환하는 스펙트럼 변환부(410), 및 상기 스펙트럼 변환부(410)의 출력 신호를 인코딩하여 인코딩된 스펙트럼 정보를 얻는 스펙트럼 오디오 인코더(420)를 포함하는, 제1 인코딩 브랜치;
정보 소스 모델을 갖는 제2 코딩 알고리즘에 따라서 오디오 중간 신호(195)를 인코딩하는 제2 인코딩 브랜치(500)로서, 제2 인코딩 브랜치 출력 신호에, 오디오 중간 신호(195)를 나타내는 정보 소스 모델용 인코딩된 파라미터를 생성하고, 상기 제2 인코딩 브랜치(500)는 상기 오디오 중간 신호를 분석하여, LPC 합성 필터를 제어하기에 유용한 LPC 정보 신호와 여기 신호를 출력하는 LPC 분석기(510), 및 여기 신호를 인코딩하여 인코딩된 파라미터를 얻는 여기 인코더(520)를 포함하는, 제2 인코딩 브랜치; 및
오디오 중간 신호(195)를 얻도록 오디오 입력 신호(99)를 전처리하는 공통 전처리 단(100)으로서, 오디오 중간 신호(195)가 오디오 입력 신호(99)의 압축된 버전이 되도록 오디오 입력 신호(99)를 처리하기 위해 동작하는, 공통 전처리 단을 포함하는, 오디오 인코더.
청구항 1에 있어서,
상기 제1 인코딩 브랜치(400)와 상기 제2 인코딩 브랜치(500) 사이에서 브랜치로의 입력 또는 브랜치의 출력에 연결되고, 스위칭 제어 신호에 의해 제어되는 스위칭 단(200)을 더 포함하는, 오디오 인코더.
청구항 1에 있어서,
상기 공통 전처리 단(100)은, 오디오 중간 신호(195)의 제1 부분 및 상이한 제2 부분에 포함되지 않은 오디오 입력 신호의 부분에 대한 공통 전처리 파라미터를 계산하고, 인코딩된 출력 신호에 전처리 파라미터의 인코딩된 표시를 도입하도록 동작하고, 상기 인코딩된 출력 신호는 오디오 중간 신호의 제1 부분을 나타내는 제1 인코딩 브랜치 출력 신호와, 오디오 중간 신호의 제2 부분을 나타내는 제2 인코딩 브랜치 출력 신호를 부가적으로 포함하는, 오디오 인코더.
청구항 1에 있어서,
상기 공통 전처리 단은 적어도 2개의 중간 신호를 출력하도록 동작하고, 각각의 오디오 중간 신호에 대해서, 상기 제1 인코딩 브랜치 및 제2 인코딩 브랜치와 상기 제1 인코딩 브랜치 및 상기 제2 인코딩 브랜치 사이를 스위칭하는 스위치가 구비되는, 오디오 인코더.
인코딩된 오디오 신호를 생성하는 오디오 인코딩 방법으로서,
정보 싱크 모델을 갖는 제1 코딩 알고리즘에 따라서 오디오 중간 신호(195)를 인코딩하고, 제1 출력 신호에서, 오디오 신호를 나타내는 인코딩된 스펙트럼 정보를 생성하고, 상기 제1 코딩 알고리즘은 상기 오디오 중간 신호를 스펙트럼 도메인으로 변환하는 스펙트럼 변환 단계(410), 및 상기 스펙트럼 변환 단계(410)의 출력 신호를 인코딩하여 인코딩된 스펙트럼 정보를 얻는 스펙트럼 오디오 인코딩 단계(420)를 포함하는, 단계(400);
정보 소스 모델을 갖는 제2 코딩 알고리즘에 따라서 오디오 중간 신호(195)를 인코딩하고, 제2 출력 신호에서, 중간 신호(195)를 나타내는 정보 소스 모델용 인코딩된 파라미터를 생성하고, 상기 제2 코딩 알고리즘은 상기 오디오 중간 신호를 LPC 분석하여, LPC 합성 필터를 제어하기에 유용한 LPC 정보 신호와 여기 신호를 출력하는 LPC 분석 단계(510), 및 여기 신호를 여기 인코딩하여 인코딩된 파라미터를 얻는 여기 인코딩 단계(520)를 포함하는, 단계(500); 및
오디오 중간 신호(195)를 얻도록 오디오 입력 신호(99)를 공통 전처리하는(100) 단계로서, 오디오 중간 신호(195)가 오디오 입력 신호(99)의 압축된 버전이 되도록 오디오 입력 신호(99)가 처리되는, 단계를 포함하며,
상기 인코딩된 오디오 신호는 오디오 신호의 특정 부분에 대해 제1 출력 신호 또는 제2 출력 신호를 포함하는, 오디오 인코딩 방법.
인코딩된 오디오 신호를 디코딩하는 오디오 디코더로서,
정보 싱크 모델을 갖는 제1 코딩 알고리즘에 따라서 인코딩된 신호를 디코딩하는 제1 디코딩 브랜치(430, 440)로서, 상기 제1 디코딩 브랜치는 정보 싱크 모델을 갖는 제1 코딩 알고리즘에 따라서 인코딩된 신호를 스펙트럼 오디오 디코딩하는 스펙트럼 오디오 디코더(430), 및 상기 스펙트럼 오디오 디코더(430)의 출력 신호를 시간 도메인으로 변환하는 시간 도메인 변환기(440)를 포함하는, 제1 디코딩 브랜치;
정보 소스 모델을 갖는 제2 코딩 알고리즘에 따라서 인코딩된 오디오 신호를 디코딩하는 제2 디코딩 브랜치(530, 540)로서, 상기 제2 디코딩 브랜치는 제2 코딩 알고리즘에 따라서 인코딩된 오디오 신호를 디코딩하여 LPC 도메인 신호를 얻는 여기 디코더(530), 및 LPC 분석 단에 의해 생성된 LPC 정보 신호를 수신하여 LPC 도메인 신호를 시간 도메인으로 변환하는 LPC 합성 단(540)을 포함하는, 제2 디코딩 브랜치;
상기 제1 디코딩 브랜치(430, 440)의 시간 도메인 변환기(440)로부터의 시간 도메인 출력 신호와 상기 제2 디코딩 브랜치(530, 540)의 LPC 합성 단(540)으로부터의 시간 도메인 출력 신호를 결합하여 결합된 신호(699)를 얻는 결합기(600); 및
공통 후-처리단(700)으로서, 상기 결합된 신호(699)를 처리하여, 상기 공통 후-처리단(700)의 디코딩된 출력 신호(799)가 상기 결합된 신호(699)의 확장된 버전이 되게 하는, 상기 공통 후-처리단(700)을 포함하는, 오디오 디코더.
청구항 6에 있어서,
상기 결합기(600)는, 결합된 오디오 신호(699)가 연속적인 이산 시간 도메인 신호이도록, 인코딩된 오디오 신호에 분명하게 또는 내재적으로 포함된 모드 표시에 따라서 제1 디코딩 브랜치(450)로부터의 디코딩된 신호와 제2 디코딩 브랜치(550)로부터의 디코딩된 신호를 스위칭하는 스위치를 포함하는, 오디오 디코더.
청구항 6에 있어서,
상기 제1 디코딩 브랜치(430, 440)는 주파수 도메인 오디오 디코더를 포함하고, 상기 제2 디코딩 브랜치(530, 540)는 시간 도메인 스피치 디코더를 포함하는, 오디오 디코더.
청구항 6에 있어서,
상기 제1 디코딩 브랜치(430, 440)는 주파수 도메인 오디오 디코더를 포함하고, 상기 제2 디코딩 브랜치(530, 540)는 LPC-기반 디코더를 포함하는, 오디오 디코더.
인코딩된 오디오 신호를 오디오 디코딩하는 방법으로서,
정보 싱크 모델을 갖는 제1 코딩 알고리즘에 따라서 인코딩된 신호를 디코딩하는 단계(450)로서, 정보 싱크 모델을 갖는 제1 코딩 알고리즘에 따라서 인코딩된 신호를 스펙트럼 오디오 디코딩하는 스펙트럼 오디오 디코딩 단계(430), 및 상기 스펙트럼 오디오 디코딩 단계(430)의 출력 신호를 시간 도메인으로 변환하는 시간 도메인 변환 단계(440)를 포함하는, 단계;
정보 소스 모델을 갖는 제2 코딩 알고리즘에 따라서 인코딩된 오디오 신호를 디코딩하는 단계(550)로서, LPC 도메인 신호를 얻기 위해, 제2 코딩 알고리즘에 따라서 인코딩된 오디오 신호를 여기 디코딩하는 단계(530), 및 LPC 분석 단에 의해 생성된 LPC 정보 신호를 수신하여 LPC 도메인 신호를 시간 도메인으로 변환하는 LPC 합성 단계(540)를 포함하는, 단계;
상기 시간 도메인 변환 단계(440)로부터의 시간 도메인 출력 신호와 LPC 합성 단계(540)로부터의 시간 도메인 출력 신호를 결합하여 결합된 신호(699)를 얻는 단계(600); 및
상기 결합된 신호(699)를 공통 후-처리(700)하는 단계로서, 상기 공통 후-처리 단계에서 처리된 디코딩된 출력 신호(799)가 상기 결합된 신호(699)의 확장된 버전이 되게 하는, 공통 후-처리 단계를 포함하는, 오디오 디코딩 방법.
컴퓨터에서 구동시, 청구항 5 또는 청구항 10의 방법을 행하는 컴퓨터 프로그램을 기록한 컴퓨터로 판독가능한 기록 매체.