KR20120109600A

KR20120109600A - 스위칭가능한 모델 코어를 이용하는 내장된 스피치 및 오디오 코딩

Info

Publication number: KR20120109600A
Application number: KR1020127020056A
Authority: KR
Inventors: 제임스 피. 애슐리; 조나단 에이. 깁스; 우다르 미탈
Original assignee: 모토로라 모빌리티 엘엘씨
Priority date: 2009-12-31
Filing date: 2010-11-29
Publication date: 2012-10-08
Also published as: EP2519945B1; WO2011081751A1; BR112012016370B1; BR112012016370A2; CN102687200B; KR101380431B1; EP2519945A1; US8442837B2; CN102687200A; US20110161087A1

Abstract

오디오 신호를 처리하기 위한 방법은 입력 프레임을 스피치 프레임 또는 일반 오디오 프레임 중 어느 하나로 분류하는 단계, 입력 프레임에 기초하여 인코딩된 비트스트림 및 대응하는 처리된 프레임을 생성하는 단계, 입력 프레임과 처리된 프레임 사이의 차이에 기초하여 인핸스먼트 레이어 인코딩된 비트스트림을 생성하는 단계, 및 코드워드가, 입력 프레임이 스피치 프레임으로서 분류되는지 또는 일반 오디오 프레임으로서 분류되는지를 나타내는지에 기초하여, 인핸스먼트 레이어 인코딩된 비트스트림, 코드워드, 및 스피치 인코딩된 비트스트림 또는 일반 오디오 인코딩된 비트스트림 중 어느 하나를 조합된 비트스트림으로 멀티플렉싱하는 단계를 포함하고, 인코딩된 비트스트림은 스피치 인코딩된 비트스트림 또는 일반 오디오 인코딩된 비트스트림 중 어느 하나이다.

Description

스위칭가능한 모델 코어를 이용하는 내장된 스피치 및 오디오 코딩{EMBEDDED SPEECH AND AUDIO CODING USING A SWITCHABLE MODEL CORE}

본 개시는 일반적으로는 스피치 및 오디오 코딩에 관한 것으로, 특히 인핸스먼트 인코딩을 가지는 하이브리드 코어 코덱을 이용하는 내장된 스피치 및 오디오 코딩에 관한 것이다.

소스-필터 모델들에 기초한 스피치 코더들은 음악, 톤들(tones), 배경 잡음 및 심지어 반향 스피치와 같은 일반 오디오 입력 신호들을 처리하는 품질 문제들을 가지고 있는 것으로 알려져 있다. 그러한 코덱들은 코드 여기 선형 예측(CELP) 코더들과 같은 선형 예측 코딩(LPC) 프로세서들을 포함한다. 스피치 코더들은 스피치 신호들을 낮은 비트 레이트들로 처리하는 경향이 있다. 반대로, 청각 모델들에 기초한 일반 오디오 코딩 시스템들은 통상적으로 비트 레이트 제한들과 결합된 사람 스피치의 왜곡에 대한 민감도들로 인해 스피치 신호들을 매우 잘 처리하지 못한다. 이러한 문제에 대한 하나의 솔루션은 입력 신호가 더 또는 덜 스피치 유사한 지 여부를 프레임별 기반으로 결정하고, 그리고나서 분류에 기초하여 적절한 코더, 즉 스피치 또는 일반 오디오 코더를 선택하는 분류기를 제공하는 것이었다. 상이한 신호 타입들을 처리할 수 있는 오디오 신호 프로세서들은 종종 하이브리드 코어 코덱으로 지칭된다.

스피치-일반 오디오 입력 구별기를 이용하는 실제 시스템의 예는 EVRC-WB(3GPP2 C.S0014-C)에 기재되어 있다. 이러한 접근법에 있어서의 문제는 실제적인 문제로서, 특히 입력 신호가 스위칭 임계 근처에 있는 경우에, 스피치와 일반 오디오 입력들을 구별하는 것이 종종 어렵다는 점이다. 예를 들면, 스피치 및 음악 또는 반향 스피치의 조합을 가지는 신호들의 구별은 스피치 오디오 코더와 일반 오디오 코더 사이의 빈번한 스위칭을 유발할 수 있고, 결과적으로 처리된 신호가 일관되지 않은 사운드 품질을 가지는 것으로 나타난다.

양호한 스피치 및 일반 오디오 품질을 제공하는 또 하나의 솔루션은 스피치 코더 출력의 최상부 상에 오디오 변환 도메인 인핸스먼트 레이어를 활용하는 것이다. 이러한 방법은 입력 신호로부터 스피치 코더 출력 신호를 감산하고, 그리고나서 결과적인 에러 신호를 주파수 도메인으로 변환하며 여기에서 추가 코딩된다. 이러한 방법은 ITU-T 추천 G.718에 이용된다. 이러한 솔루션에 있어서의 문제는, 일반 오디오 신호가 스피치 코더에 대한 입력으로서 이용되는 경우에, 출력이 때때로 심각하게 왜곡될 수 있고, 인핸스먼트 레이어 코딩 활동의 상당한 부분이 신호 모델 미스매치에 의해 생성되는 잡음에 악영향을 미치게 되고, 이는 주어진 비트 레이트에 대해 제한된 전체 품질을 유도한다는 점이다.

본 발명의 다양한 양태들, 특징들 및 장점들은 이하에 기재된 첨부된 도면들과 함께 이하의 상세한 설명의 주의깊은 고려 시에, 본 기술분야의 통상의 기술자들에게 더 완전하게 명백하게 될 것이다. 도면들은 명료성을 위해 단순화되었고 반드시 스케일링하도록 그려질 필요는 없다.

도 1은 오디오 신호 인코딩 프로세스 다이어그램이다.
도 2는 스피치 및 일반 오디오 신호들을 처리하는데 적합한 하이브리드 코어 코덱의 개략적인 블록도이다.
도 3은 스피치 및 일반 오디오 신호들을 처리하는데 적합한 대안 하이브리드 코어 코덱의 개략적인 블록도이다.
도 4는 오디오 신호 디코딩 프로세스 다이어그램이다.
도 5는 하이브리드 코더 코덱의 디코더 부분이다.

본 개시는 일반적으로 오디오 신호들을 처리하기 위한, 특히 시퀀스로, 예를 들면 프레임들 또는 서브-프레임들의 시퀀스로 배열된 오디오 신호들을 처리하기 위한 방법들 및 장치들에 관한 것이다. 프레임들을 포함하는 입력 오디오 신호들은 통상적으로 디지털화된다. 신호 유닛들은 일반적으로 유닛별 기반으로 적어도 2개의 상이한 코딩 스킴들 중 하나에 더 적합한 것으로 분류된다. 하나의 실시예에서, 코딩된 유닛들 또는 프레임들은 에러 신호, 및 저장 및 통신을 위한 코딩 스킴의 표시와 조합된다. 본 개시는 또한 코딩 스킴 표시에 기초하여 코딩된 유닛들 및 에러 신호의 조합을 디코딩하기 위한 방법들 및 장치들에 관한 것이다. 본 개시의 이들 및 다른 양태들은 이하에 더 완전하게 설명된다.

하나의 실시예에서, 오디오 신호들은 더 또는 덜 스피치 유사한 것으로 분류되고, 여기에서 더 스피치-유사한 프레임들은 스피치-유사 신호들에 더 적합한 코덱으로 처리되며 덜 스피치-유사 프레임들은 덜 스피치 유사 신호들에 더 적합한 코덱으로 처리된다. 본 개시는 스피치 또는 일반 오디오 신호들 중 어느 하나로 분류되는 오디오 신호 프레임들을 처리하는 것으로 제한되지 않는다. 더 일반적으로는, 본 개시는 코덱의 타입에 관계없이, 그리고 특정 프레임에 어느 코딩 스킴이 적용되는지를 결정하는데 이용되는 기준에 관계없이, 적어도 2개의 상이한 코더들 중 하나를 이용하여 오디오 신호 프레임들을 처리하는 것에 관한 것이다.

본 어플리케이션에서, 덜 스피치-유사 신호들은 일반 오디오 신호들로 지칭된다. 그러나, 일반 오디오 신호는 반드시 스피치가 없는 것은 아니다. 일반 오디오 신호들은 음악, 톤들, 배경 잡음, 또는 그 조합을 단독으로 또는 일부 스피치와 조합하여 포함할 수 있다. 일반 오디오 신호는 또한 반향 스피치를 포함할 수 있다. 즉, 다량의 음향 반사들(반향)에 의해 오염되었던 스피치 신호는, 스피치 코딩 알고리즘이 기반하고 있는 모델 파라미터들이 어느 정도 조정되었을 수 있으므로, 일반 오디오 코더에 의한 코딩에 더 적합할 수 있다. 하나의 실시예에서, 일반 오디오 프레임으로 분류되는 프레임은 배경에서 스피치를 가지는 비-스피치 또는 배경에서 비-스피치를 가지는 스피치를 포함한다. 또 하나의 실시예에서, 일반 오디오 프레임은 주로 비-스피치인 부분, 및 주로 스피치인 또 하나의 덜 두드러진 부분을 포함한다.

도 1의 프로세스(100)에서, 참조번호 110에서, 프레임들의 시퀀스로 된 입력 프레임은 적어도 2개의 상이한 사전-지정된 타입들의 프레임들 중 하나인 것으로 분류된다. 예로 든 구현에서, 입력 오디오 신호는 각각이 스피치 프레임 또는 일반 오디오 프레임 중 어느 하나로 분류되는 프레임들의 시퀀스를 포함한다. 그러나, 더 일반적으로는, 입력 프레임들은 적어도 2개의 상이한 타입들의 오디오 프레임들 중 하나로서 분류될 수 있다. 환언하면, 프레임들은 반드시 이들이 스피치 프레임들인지 또는 일반 오디오 프레임들인지 여부에 기초하여 구별될 필요는 없다. 더 일반적으로, 입력 프레임들은 프레임을 코딩하는 최상의 방법을 결정하도록 평가될 수 있다. 예를 들면, 일반 오디오 프레임들의 시퀀스는 적어도 2개의 상이한 코덱들 중 하나를 이용하여 프레임들을 코딩하는 최상의 방법을 결정하도록 평가될 수 있다. 오디오 프레임들의 분류는 일반적으로 본 기술분야의 통상의 기술자들에게 공지되어 있고, 따라서 기준 및 구별 메커니즘의 상세한 설명은 본 개시의 범주를 벗어난다. 분류는 이하에 더 설명되는 바와 같이 코딩 이전에 또는 코딩 이후에 발생할 수 있다.

도 2는 입력 오디오 신호 s(n)의 프레임들을 처리하는 오디오 신호 프로세서(200)의 제1 개략적인 블록도를 예시하고 있고, 여기에서 "n"은 오디오 샘플 인덱스이다. 오디오 신호 프로세서는 입력 오디오 신호 s(n)의 프레임들을 분류하는 모드 선택기(210)를 포함한다. 도 3은 또한 입력 오디오 신호 s(n)의 프레임들을 분류하는 모드 선택기(310)를 포함하는 또 하나의 오디오 신호 프로세서(300)의 개략적인 블록도를 예시하고 있다. 예로 든 모드 선택기들은 입력 오디오 신호의 프레임들이 더 또는 덜 스피치 유사한지 여부를 결정한다. 그러나, 더 일반적으로는, 입력 오디오 프레임들의 다른 기준들이 모드 선택을 위한 기반으로서 평가될 수 있다. 도 2 및 3 양쪽 모두에서, 모드 선택 코드워드는 모드 선택기에 의해 생성되어, 멀티플렉서(220 및 320)에 각각 제공된다. 코드워드는 동작 모드를 나타내는 하나 이상의 모드 비트들을 포함할 수 있다. 특히, 코드워드는 입력 신호의 대응하는 프레임이 처리되는 모드를 프레임별 기반으로 나타낸다. 그러므로, 예를 들면, 코드워드는 입력 오디오 프레임이 스피치 신호로서 또는 일반 오디오 신호로서 처리되는지 여부를 나타낸다.

도 1에서, 참조번호 120에서, 인코딩된 비트스트림 및 대응하는 처리된 프레임은 입력 오디오 신호의 대응하는 프레임에 기초하여 생성된다. 도 2에서, 오디오 신호 프로세서(200)는 스피치 코더(230) 및 일반 오디오 코더(240)를 포함한다. 스피치 코더는 예를 들면 코드 여기된 선형 예측(CELP) 코더, 또는 스피치 신호들을 코딩하는데 특히 적합한 일부 다른 코더이다. 일반 오디오 코더는 예를 들면, 변형된 이산 코사인 변환(MDCT) 코더와 같은 시간 도메인 에일리어싱 제거(TDAC) 타입 코더이다. 그러나, 더 일반적으로는, 코더들(230 및 240)은 임의의 상이한 코더들일 수 있다. 예를 들면, 코더들은 상이한 타입들의 스피치에 최적화된 상이한 타입들의 CELP 클래스 코더들일 수 있다. 코더는 상이한 타입들의 TDAC 클래스 코더들 또는 일부 다른 클래스의 코더들일 수 있다. 제시된 바와 같이, 각 코더는 코더에 의해 처리되는 대응하는 입력 오디오 프레임에 기초하여 인코딩된 비트스트림을 생성한다. 각 코더는 또한 s_c(n)에 의해 표시된, 입력 신호의 재구성인 대응하는 처리된 프레임을 생성한다. 재구성된 신호는 인코딩된 비트 스트림을 디코딩함으로써 얻어진다. 예시의 편의상, 인코딩 및 디코딩 기능은 도면들에서 단일 기능 블록에 의해 표현되어 있지만, 인코딩된 비트스트림의 생성은 인코딩 블록에 의해 표현될 수 있고 재구성된 입력 신호는 분리된 디코딩 블록에 의해 표현될 수 있다. 그러므로, 재구성된 프레임은 인코딩 및 디코딩 모두를 받는다.

도 2에서, 제1 및 제2 코더들(230 및 240)은 모드 선택기(210)에 의해 선택되거나 결정되는 모드에 기초하여 제어되는 선택 스위치(250)에 의해 입력 오디오 신호에 결합된 입력들을 가지고 있다. 예를 들면, 스위치(250)는 모드 선택기의 코드워드 출력에 기초하여 프로세서에 의해 제어될 수 있다. 스위치(250)는 스피치 프레임들을 처리하기 위해 스피치 코더(230)를 선택하고, 스위치(250)는 일반 오디오 프레임들을 처리하기 위해 일반 오디오 코더를 선택한다. 도 2에서, 각 프레임은 선택 스위치(250)에 의하여, 단지 하나의 코더, 예를 들면 스피치 코더 또는 일반 오디오 코더 중 어느 하나에 의해 처리된다. 단지 2개의 코더들만이 도 2에 예시되어 있지만, 더 일반적으로, 프레임들은 수 개의 상이한 코더들 중 하나에 의해 처리될 수 있다. 예를 들면, 3개 이상의 코더들 중 하나가 입력 오디오 신호의 특정 프레임을 처리하도록 선택될 수 있다. 그러나, 다른 실시예들에서, 각 프레임은 이하에 더 설명되는 바와 같이 모든 코더들에 의해 처리된다.

도 2에서, 코더들(230 및 240)의 출력 상의 스위치(252)는 선택된 코더의 처리된 출력을 멀티플렉서(220)에 결합시킨다. 특히, 스위치는 선택된 코더의 인코딩된 비트스트림 출력을 멀티플렉서에 결합시킨다. 스위치(252)는 모드 선택기(210)에 의해 선택되거나 결정되는 모드에 기초하여 제어된다. 예를 들면, 스위치(252)는 모드 선택기(210)의 코드워드 출력에 기초하여 프로세서에 의해 제어될 수 있다. 멀티플렉서(220)는 코드워드에 기초하여 선택된 대응하는 코더의 인코딩된 비트스트림 출력과 코드워드를 멀티플렉싱한다. 그러므로, 일반 오디오 프레임들에 대해, 스위치(252)는 일반 오디오 코더(240)의 출력을 멀티플렉서(220)에 결합시키고, 스피치 프레임들에 대해, 스위치(252)는 스피치 코더(230)의 출력을 멀티플렉서에 결합시킨다.

도 3에서, 입력 오디오 신호는 선택 스위치, 예를 들면 도 2의 스위치(250)를 이용하지 않고 제1 및 제2 코더들(330 및 340)에 직접 인가된다. 도 3의 프로세서에서, 입력 오디오 신호의 각 프레임은 모든 코더들, 예를 들면 스피치 코더(330) 및 일반 오디오 코더(340)에 의해 처리된다. 일반적으로, 각 코더는 코더에 의해 처리된 대응하는 입력 오디오 프레임에 기초하여 인코딩된 비트스트림을 생성한다. 각 코더는 또한 인코딩된 비트 스트림을 디코딩함으로써 대응하는 처리된 프레임을 생성하고, 여기에서 처리된 프레임은 s_c(n)에 의해 표시되는 입력 프레임의 재구성이다. 일반적으로, 입력 오디오 신호는 제1 및/또는 제2 코더들에 본질적이지만 도시되지 않은 지연 개체(entity)에 의해 지연을 받을 수 있다. 입력 오디오 신호는 제1 또는 제2 코더들에 선행하고 도시되지 않은 필터링 개체에 의해 필터링을 받을 수 있다. 하나의 실시예에서, 필터링 개체는 입력 신호에 대해 재-샘플링 또는 레이트 변환 처리를 수행한다. 예를 들면, 8, 16 또는 32kHz 입력 오디오 신호는 스피치 신호에 전형적인 12.8 kHz 신호로 변환될 수 있다. 더 일반적으로는, 단지 2개의 코더들만이 도 3에 예시되어 있지만, 다수의 코더들이 존재할 수 있다.

도 3에서, 코더들(330 및 340)의 출력 상의 스위치(352)는 선택된 코더의 처리된 출력을 멀티플렉서(320)에 결합시킨다. 특히, 스위치는 코더의 인코딩된 비트스트림 출력을 멀티플렉서에 결합시킨다. 스위치(352)는 모드 선택기(310)에 의해 선택되거나 결정된 모드에 기초하여 제어된다. 예를 들면, 스위치(352)는 모드 선택기(310)의 코드워드 출력에 기초하여 프로세서에 의해 제어될 수 있다. 멀티플렉서(320)는 코드워드에 기초하여 선택된 대응하는 코더의 인코딩된 비트스트림 출력과 코드 워드를 멀티플렉싱한다. 그러므로, 일반 오디오 프레임들에 대해, 스위치(352)는 일반 오디오 코더(340)의 출력을 멀티플렉서(320)에 결합시키고, 스피치 프레임들에 대해, 스위치(352)는 스피치 코더(330)의 출력을 멀티플렉서에 결합시킨다.

도 1에서, 참조번호 130에서, 인핸스먼트 레이어 인코딩된 비트스트림은 입력 프레임과, 선택된 코더에 의해 생성된 대응하는 처리된 프레임 사이의 차이에 기초하여 생성된다. 언급된 바와 같이, 처리된 프레임은 재구성된 프레임 s_c(n)이다. 도 2의 프로세서에서, 차이 신호는 입력 오디오 신호의 프레임, 및 코드워드에 의해 표시된 바와 같은 선택된 모드와 연관된 코더에 의해 출력된 대응하는 처리된 프레임에 기초하여, 차이 신호 발생기(260)에 의해 생성된다. 코더들(230 및 240)의 출력에서의 스위치(254)는 선택된 코더 출력을 차이 신호 발생기(260)에 결합시킨다. 차이 신호는 에러 신호 E로서 식별된다.

차이 신호는 인핸스먼트 레이어 코더(270)에 입력되어, 차이 신호에 기초하여 인핸스먼트 레이어 비트스트림을 생성한다. 도 3의 대안 프로세서에서, 차이 신호는 입력 오디오 신호의 프레임, 및 코드워드에 의해 표시된 바와 같은 선택된 모드와 연관된 대응하는 코더에 의해 출력된 대응하는 처리된 프레임에 기초하여, 차이 신호 발생기(360)에 의해 생성된다. 코더들(330 및 340)의 출력에서의 스위치(354)는 선택된 코더 출력을 차이 신호 발생기(360)에 결합시킨다. 차이 신호는 인핸스먼트 레이어 코더(370)에 입력되고, 인핸스먼트 레이어 코더(370)는 차이 신호에 기초하여 인핸스먼트 레이어 비트스트림을 생성한다.

일부 구현들에서, 입력 오디오 신호의 프레임들은 차이 신호의 생성 이전 또는 이후에 처리된다. 하나의 실시예에서, 차이 신호는 가중되고, 인핸스먼트 레이어 인코더에 의한 처리를 위해, 예를 들면 MDCT를 이용하여 주파수 도메인으로 변환된다. 인핸스먼트 레이어에서, 에러 신호는 에러 신호 인코더, 예를 들면 도 2 및 3의 인핸스먼트 레이어 인코더에 의한 처리를 위해, MDCT(변형된 이산 코사인 변환) 도메인으로 변환되는 가중된 차이 신호를 포함한다. 에러 신호 E는 이하와 같이 주어진다.

여기에서, W는 코어 레이어 디코더로부터의 선형 예측(LP) 필터 계수들 A(z)에 기초한 개념적인 가중 매트릭스이고, s는 입력 오디오 신호 s(n)로부터의 샘플들의 벡터(즉, 프레임)이며, s_c는 코어 레이어 디코더로부터의 샘플들의 대응하는 벡터이다.

하나의 실시예에서, 인핸스먼트 레이어 인코더는 스피치 코더에 의해 처리된 프레임들 및 일반 오디오 코더에 의해 처리된 프레임들에 대해 유사한 코딩 방법을 이용한다. 입력 프레임이 CELP 코더에 의해 코딩되는 스피치 프레임으로 분류되는 경우에, CELP 코더에 의해 생성된 선형 예측 필터 계수들(A(z))은 입력 프레임과, 스피치(CELP) 코더에 의해 출력된 처리된 프레임 s_c(n) 사이의 차이에 기초하여 대응하는 에러 신호를 가중하는데 이용가능하다. 그러나, 입력 프레임이 MDCT 기반 코딩 스킴을 이용하여 일반 오디오 코더에 의해 코딩된 일반 오디오 프레임으로 분류되는 경우에, 에러 신호를 가중하기 위한 어떠한 이용가능한 LP 필터 계수들도 존재하지 않는다. 이러한 상황을 해결하기 위해, 하나의 실시예에서, 차이 신호 생성기에서 에러 신호의 생성 이전에 일반 오디오 코더에서 출력된 처리된 프레임 sc(n)에 대해 LPC 분석을 수행함으로써, LP 필터 계수들이 우선 얻어진다. 그리고나서, 이들 결과적인 LPC 계수들은 인핸스먼트 레이어 인코딩 이전에 에러 신호에 적용된 개념적인 가중 매트릭스 W의 생성에 이용된다.

또 하나의 구현에서, 에러 신호 E의 생성은 프리-스케일링에 의한 신호 s_c(n)의 변형을 포함한다. 특정 실시예에서, 복수의 에러 값들은 상이한 이득 값들로 스케일링되는 신호들에 기초하여 생성되고, 여기에서 비교적 낮은 값을 가지는 에러 신호는 인핸스먼트 레이어 비트스트림을 생성하는데 이용된다. 에러 신호의 생성 및 처리의 이들 및 다른 양태들은 발명의 명칭이 "Method and Apparatus for Generating an Enhancement Layer within an Audio Coding System"인 미국 출원 제12/187423호에 대응하는 미국 공보 제_______호에 더 완전하게 기재되어 있다.

도 1에서, 참조번호 140에서, 모두가 입력 오디오 신호의 공통 프레임에 기초한 인핸스먼트 레이어 인코딩된 비트스트림, 코드워드 및 인코딩된 비트스트림은 조합된 비트스트림으로 멀티플렉싱된다. 예를 들면, 입력 오디오 신호의 프레임이 스피치 프레임으로 분류되는 경우에, 인코딩된 비트스트림은 스피치 코더에 의해 생성되고, 인핸스먼트 레이어 비트스트림은 스피치 코더에 의해 생성된 처리된 프레임에 기초하며, 코드워드는 입력 오디오 신호의 대응하는 프레임이 스피치 프레임이라는 것을 나타낸다. 입력 오디오 신호의 프레임이 일반 오디오 프레임으로 분류되는 경우에 대해, 인코딩된 비트 스트림은 일반 오디오 코더에 의해 생성되고, 인핸스먼트 레이어 비트스트림은 일반 오디오 코더에 의해 생성된 처리된 프레임에 기초하며, 코드워드는 입력 오디오 신호의 대응하는 프레임이 일반 오디오 프레임이라는 것을 나타낸다. 유사하게, 임의의 다른 코더에 대해, 코드워드는 입력 오디오 프레임의 분류를 나타내고, 코딩된 비트스트림 및 처리된 프레임은 대응하는 코더에 의해 생성된다.

도 2에서, 모드 선택 개체(210)에 의해 선택된 모드 또는 분류에 대응하는 코드워드가 멀티플렉서(220)에 전송된다. 코더들(230 및 240)의 출력 상의 제2 스위치(252)는, 대응하는 코딩된 비트스트림이 멀티플렉서에 통신되도록, 선택된 모드에 대응하는 코더를 멀티플렉서(220)에 결합시킨다. 특히, 스위치(252)는 스피치 코더(230) 또는 일반 오디오 코더(240) 중 어느 하나의 인코딩된 비트스트림 출력을 멀티플렉서(220)에 결합시킨다. 스위치(252)는 모드 선택기(210)에 의해 선택되거나 결정된 모드에 기초하여 제어된다. 스위치(252)는 모드 선택기의 코드워드 출력에 기초하여 프로세서에 의해 제어될 수 있다. 인핸스먼트 레이어 비트스트림은 또한 인핸스먼트 레이어 코더(270)로부터 멀티플렉서(220)에 통신된다. 멀티플렉서는 코드워드, 선택된 코더 비트스트림, 및 인핸스먼트 레이어 비트스트림을 조합한다. 예를 들면, 일반 오디오 프레임의 경우에, 스위치(250)는 입력 신호를 일반 오디오 인코더(240)에 결합시키고, 스위치(252)는 일반 오디오 코더의 출력을 멀티플렉서(220)에 결합시킨다. 스위치(254)는 일반 오디오 코더에 의해 생성된 처리된 프레임을, 코드워드 및 코딩된 비트스트림과 멀티플렉싱되는 인핸스먼트 레이어 비트스트림을 생성하는데 그 출력이 이용되는 차이 신호 발생기에 결합시킨다. 멀티플렉싱된 정보는 입력 오디오 신호의 각 프레임에 대해 수집되어 나중 디코딩을 위해 저장되고/되거나 통신될 수 있다. 조합된 정보의 디코딩은 이하에 설명된다.

도 3에서, 모드 선택 개체(310)에 의해 선택된 모드 또는 분류에 대응하는 코드워드가 멀티플렉서(320)에 전송된다. 코더들(330 및 340)의 출력 상의 제2 스위치(352)는, 대응하는 코딩된 비트스트림이 멀티플렉서에 통신되도록, 선택된 모드에 대응하는 코더를 멀티플렉서(320)에 결합시킨다. 특히, 스위치(352)는 스피치 코더(330) 또는 일반 오디오 코더(340) 중 어느 하나의 인코딩된 비트스트림 출력을 멀티플렉서(320)에 결합시킨다. 스위치(352)는 모드 선택기(310)에 의해 선택되거나 결정된 모드에 기초하여 제어된다. 스위치(352)는 모드 선택기의 코드워드 출력에 기초하여 프로세서에 의해 제어될 수 있다. 인핸스먼트 레이어 비트스트림은 또한 인핸스먼트 레이어 코더(370)로부터 멀티플렉서(320)에 통신된다. 멀티플렉서는 코드워드, 선택된 코더 비트스트림, 및 인핸스먼트 레이어 비트스트림을 조합한다. 예를 들면, 스피치 프레임의 경우에, 스위치(352)는 스피치 코더(330)의 출력을 멀티플렉서(320)에 결합시킨다. 스위치(354)는 스피치 코더에 의해 생성된 처리된 프레임을, 코드워드 및 코딩된 비트스트림과 멀티플렉싱되는 인핸스먼트 레이어 비트스트림을 생성하는데 그 출력이 이용되는 차이 신호 발생기(360)에 결합시킨다. 멀티플렉싱된 정보는 입력 오디오 신호의 각 프레임에 대해 수집되어 나중 디코딩을 위해 저장되고/되거나 통신될 수 있다. 조합된 정보의 디코딩은 이하에 설명된다

일반적으로, 입력 오디오 신호는 제1 및/또는 제2 코더들에 본질적이고 도시되지 않은 지연 개체에 의해, 지연을 받을 수 있다. 특히, 멀티플렉서에서 조합된 정보를 동기화하기 위해, 지연 요소가 처리 경로들의 하나 이상을 따라 요구될 수 있다. 예를 들면, 인핸스먼트 레이어 비트스트림의 생성은 인코딩된 비트스트림 중 하나의 생성에 비해 더 많은 처리 시간을 요구할 수 있다. 그러므로, 인코딩된 비트스트림을 코딩된 인핸스먼트 레이어 비트스트림과 동기화하기 위해 인코딩된 비트스트림을 지연하는 것이 필요할 수 있다. 코드워드의 통신은 또한 코드워드를 코딩된 비트스트림 및 코딩된 인핸스먼트 레이어와 동기화하기 위해 지연될 수도 있다. 대안적으로, 멀티플렉서는 코드워드, 및 코딩된 비트스트림을 생성되는 대로 저장하여 보유하고, 조합될 모든 요소들의 수신 이후에만 멀티플렉싱을 수행할 수 있다.

입력 오디오 신호는 제1 또는 제2 코더들에 선행하고 도시되지 않은 필터링 개체에 의해 필터링을 받을 수 있다. 하나의 실시예에서, 필터링 개체는 입력 신호에 대해 재-샘플링 또는 레이트 변환 처리를 수행한다. 예를 들면, 8, 16 또는 32kHz 입력 오디오 신호는 12.8kHz 스피치 신호로 변환될 수 있다. 더 일반적으로, 모든 코더들의 신호는 레이트 변환, 업샘플링 또는 다운샘플링 중 하나를 받을 수 있다. 하나의 프레임 타입이 레이트 변환을 받고 다른 프레임 타입이 그렇지 않은 실시예들에서, 레이트 변환을 받지 않은 프레임의 처리에서 일부 지연을 제공하는 것이 필요할 수 있다. 상이한 프레임 타입의 변환 레이트들이 상이한 지연 양을 유입시키는 경우에, 하나 이상의 지연 요소들이 바람직할 수 있다.

하나의 실시예에서, 입력 오디오 신호는 상이한 오디오 코더들에 의해 생성된 대응하는 세트들의 처리된 오디오 프레임들에 기초하여 스피치 신호 또는 일반 오디오 신호 중 어느 하나로 분류된다. 예로 든 스피치 및 일반 오디오 신호 처리 실시예에서, 그러한 구현은,모드 선택이 발생하거나 결정되기 이전에 입력 프레임이 오디오 코더 및 스피치 코더 양쪽 모두에 의해 처리되어야 된다는 것을 제안한다. 도 3에서, 모드 선택 개체(310)는 스피치 코더(330)에 의해 생성된 스피치 처리된 프레임 및 일반 오디오 코더(340)에 의해 생성된 일반 오디오 처리된 프레임에 기초하여 입력 오디오 신호의 입력 프레임을 스피치 프레임 또는 일반 오디오 프레임 중 어느 하나로 분류한다. 더 구체적인 구현에서, 입력 프레임은 제1 및 제2 차이 신호들의 비교에 기초하여 분류되고, 여기에서 제1 차이 신호는 입력 프레임 및 스피치 처리된 프레임에 기초하여 생성되고, 제2 차이 신호는 입력 프레임 및 일반 오디오 처리된 프레임에 기초하여 생성된다. 예를 들면, 제1 차이 신호와 연관된 제1 세트의 차이 신호 오디오 샘플들의 에너지 특성이 제2 차이 신호와 연관된 제2 세트의 차이 신호 오디오 샘플들의 에너지 특성과 비교될 수 있다. 이러한 후자의 접근법을 구현하기 위해, 도 3의 개략적인 블록도는 하나 이상의 차이 신호 발생기들로부터 모드 선택 개체(310)로의 출력을 포함하도록 일부 변형을 요구할 것이다. 이들 구현들은 또한 다른 타입들의 코더들이 채용되는 실시예들에도 적용가능하다.

도 4에서, 참조번호 410에서, 조합된 비트스트림이 인핸스먼트 레이어 인코딩된 비트스트림, 코드워드 및 인코딩된 비트스트림으로 디멀티플렉싱된다. 도 5에서, 디멀티플렉서(510)는 조합된 비트스트림의 처리를 수행하여 코드워드, 인핸스먼트 레이어 비트스트림, 및 인코딩된 비트스트림을 생성한다. 코드워드는 선택된 모드, 및 특히 인코딩된 비트스트림을 인코딩하는데 이용되는 코더의 타입을 나타낸다. 예로 든 실시예에서, 코드워드는 인코딩된 비트스트림이 스피치 인코딩된 비트스트림인지 또는 일반 오디오 인코딩된 비트스트림인지 여부를 나타낸다. 그러나, 더 일반적으로는, 코드워드는 스피치 또는 일반 오디오 코더 이외의 코더를 나타낼 수 있다. 대안 코더들의 일부 예들이 상기 설명되어 있다.

도 5에서, 스위치(512)는 코드워드에 기초하여 코딩된 비트스트림을 디코딩하기 위한 디코더를 선택한다. 특히, 스위치(512)는 스피치 디코더(520) 또는 일반 오디오 디코더(530) 중 어느 하나를 선택하고, 그럼으로써 코딩된 비트스트림을 적절한 디코더에 결합시킨다. 코딩된 비트스트림은 적절한 디코더에 의해 처리되어, s'_c(n)으로 식별되는 처리된 오디오 프레임을 생성하고, 이는 어떠한 채널 에러도 없다면 인코더 측에서의 신호 s_c(n)과 동일해야 한다. 대부분의 실제적인 구현들에서, 처리된 오디오 프레임 s'_c(n)은 입력 신호 s_c(n)의 대응하는 프레임과 상이할 것이다. 일부 실시예들에서, 제2 스위치(514)는 선택된 디코더의 출력을, 그 기능이 이하에 더 설명되는 가산 개체(540)에 결합시킨다. 하나 이상의 스위치들의 상태는 코드워드에 의해 표시되는 바와 같은 선택된 모드에 기초하여 제어되고, 디멀티플렉서의 코드워드 출력에 기초하여 프로세서에 의해 제어될 수 있다.

도 4에서, 참조번호 430에서, 인핸스먼트 레이어 인코딩된 비트스트림 출력은 디코딩된 인핸스먼트 레이어 프레임으로 디코딩된다. 도 5에서, 인핸스먼트 레이어 디코더(550)는 디멀티플렉서(510)로부터 출력된 인핸스먼트 레이어 인코딩된 비트스트림을 디코딩한다. 디코딩된 에러 또는 차이 신호가 원래의 에러 신호 E의 근사이므로, 디코딩된 에러 신호는 E'로서 표시될 수 있다. 도 4에서, 참조번호 440에서, 디코딩된 인핸스먼트 레이어 인코딩된 비트스트림은 디코딩된 오디오 프레임과 조합된다. 도 5의 신호 디코딩 프로세서에서, 근사된 에러 신호 E'가 처리된 오디오 신호 s'c(n)과 조합되어 입력 프레임 s'(n)의 대응하는 추정을 재구성한다. 에러 신호가 예를 들면 상기 수학식 1의 가중 매트릭스에 의해 가중되고, 인코딩된 비트스트림이 일반 오디오 인코딩된 비트스트림인 실시예들에서, 조합하기 이전에 역 가중 매트릭스가 가중된 에러 신호에 적용된다. 에러 신호의 생성 및 처리에 따른, 원래의 입력 프레임의 재구성의 이들 및 다른 양태들은, 발명의 명칭이 "Method and Apparatus for Generating an Enhancement Layer within an Audio Coding System"인 미국 출원 제12/187423호에 대응하는 미국 공보 제_______호에 더 완전하게 기재되어 있다.

본 개시 및 그 최상 모드들이 소유권을 확립하고 본 기술분야의 통상의 기술자들이 이를 만들고 이용할 수 있는 방식으로 설명되었지만, 여기에 개시된 예로 든 실시예들에 대한 균등물들이 존재하고, 예로 든 실시예들에 의해서가 아니라 첨부된 청구항들에 의해 제한되어야 되는 본 발명의 범주 및 사상에서 벗어나지 않으면서 그에 대한 변형들 및 변동들이 만들어질 수 있다는 것은 이해되고 평가될 것이다.

Claims

오디오 신호를 인코딩하기 위한 방법으로서,
입력 프레임을 스피치 프레임 또는 일반 오디오 프레임 중 어느 하나로 분류하는 단계 - 상기 입력 프레임은 상기 오디오 신호에 기초함 -;
상기 입력 프레임에 기초하여 인코딩된 비트스트림 및 대응하는 처리된 프레임을 생성하는 단계;
상기 입력 프레임과 상기 처리된 프레임 사이의 차이에 기초하여 인핸스먼트 레이어 인코딩된 비트스트림을 생성하는 단계; 및
코드워드가, 상기 입력 프레임이 스피치 프레임으로서 분류되는지 또는 일반 오디오 프레임으로서 분류되는지를 나타내는 것에 기초하여, 상기 인핸스먼트 레이어 인코딩된 비트스트림, 코드워드, 및 스피치 인코딩된 비트스트림 또는 일반 오디오 인코딩된 비트스트림 중 어느 하나를 조합된 비트스트림으로 멀티플렉싱하는 단계
를 포함하고,
상기 인코딩된 비트스트림은 스피치 인코딩된 비트스트림 또는 일반 오디오 인코딩된 비트스트림 중 어느 하나인 방법.
제1항에 있어서,
상기 입력 프레임이 스피치 프레임으로 분류되는 경우에, 상기 입력 프레임에 기초하여 적어도 스피치 인코딩된 비트스트림 및 적어도 대응하는 스피치 처리된 프레임을 생성하고, 상기 입력 프레임이 일반 오디오 프레임으로 분류되는 경우에, 상기 입력 프레임에 기초하여 적어도 일반 오디오 인코딩된 비트스트림 및 적어도 일반 오디오 처리된 프레임을 생성하는 단계,
상기 입력 프레임이 스피치 프레임으로 분류되는 경우에만, 상기 인핸스먼트 레이어 인코딩된 비트스트림, 상기 스피치 인코딩된 비트스트림, 및 상기 코드워드를 상기 조합된 비트스트림으로 멀티플렉싱하는 단계, 및
상기 입력 프레임이 일반 오디오 프레임으로 분류되는 경우에만, 상기 인핸스먼트 레이어 인코딩된 비트스트림, 상기 일반 오디오 인코딩된 비트스트림, 및 상기 코드워드를 상기 조합된 비트스트림으로 멀티플렉싱하는 단계
를 포함하는 방법.
제2항에 있어서,
상기 입력 프레임과 상기 처리된 프레임 사이의 차이에 기초하여 상기 인핸스먼트 레이어 인코딩된 비트스트림을 생성하는 단계를 포함하고,
상기 입력 프레임이 스피치 프레임으로 분류되는 경우에 상기 처리된 프레임은 스피치 처리된 프레임이고, 상기 입력 프레임이 일반 오디오 프레임으로 분류되는 경우에 상기 처리된 프레임은 일반 오디오 처리된 프레임인 방법.
제3항에 있어서,
상기 처리된 프레임은 일반 오디오 프레임이고,
상기 방법은,
상기 일반 오디오 코더의 상기 처리된 프레임의 선형 예측 코딩 분석을 수행함으로써 선형 예측 필터 계수들을 얻는 단계, 및
상기 선형 예측 필터 계수들에 기초하여 상기 입력 프레임과 상기 일반 오디오 코더의 상기 처리된 프레임 사이의 차이를 가중하는 단계
를 더 포함하는 방법.
제1항에 있어서,
상기 입력 프레임이 스피치 프레임으로 분류되는 경우에만, 상기 스피치 인코딩된 비트스트림 및 대응하는 스피치 처리된 프레임을 생성하는 단계,
상기 입력 프레임이 일반 오디오 프레임으로 분류되는 경우에만, 상기 일반 오디오 인코딩된 비트스트림 및 대응하는 일반 오디오 처리된 프레임을 생성하는 단계,
상기 입력 프레임이 스피치 프레임으로 분류되는 경우에만, 상기 인핸스먼트 레이어 인코딩된 비트스트림, 상기 스피치 인코딩된 비트스트림, 및 상기 코드워드를 상기 조합된 비트스트림으로 멀티플렉싱하는 단계, 및
상기 입력 프레임이 일반 오디오 프레임으로 분류되는 경우에만, 상기 인핸스먼트 레이어 인코딩된 비트스트림, 상기 일반 오디오 인코딩된 비트스트림, 및 상기 코드워드를 상기 조합된 비트스트림으로 멀티플렉싱하는 단계
를 포함하는 방법.
제5항에 있어서,
상기 입력 프레임과 상기 처리된 프레임 사이의 차이에 기초하여 상기 인핸스먼트 레이어 인코딩된 비트스트림을 생성하는 단계를 포함하고,
상기 입력 프레임이 스피치 프레임으로 분류된 경우에 상기 처리된 프레임은 스피치 처리된 프레임이며, 상기 입력 프레임이 일반 오디오 프레임으로 분류되는 경우에 상기 처리된 프레임은 일반 오디오 처리된 프레임인 방법.
제6항에 있어서, 상기 스피치 인코딩된 비트스트림 또는 상기 일반 오디오 인코딩된 비트스트림 중 어느 하나를 생성하기 이전에 상기 입력 프레임을 분류하는 단계를 포함하는 방법.
제6항에 있어서,
상기 처리된 프레임은 일반 오디오 프레임이고,
상기 방법은,
상기 일반 오디오 코더의 상기 처리된 프레임의 선형 예측 코딩 분석을 수행함으로써 선형 예측 필터 계수들을 얻는 단계, 및
상기 선형 예측 필터 계수들에 기초하여 상기 입력 프레임과, 상기 일반 오디오 코더의 상기 처리된 프레임 사이의 차이를 가중하는 단계
를 더 포함하는 방법.
제1항에 있어서,
상기 대응하는 처리된 프레임을 생성하는 단계는 스피치 처리된 프레임을 생성하는 단계 및 일반 오디오 처리된 프레임을 생성하는 단계를 포함하고,
상기 스피치 처리된 프레임 및 상기 일반 오디오 처리된 프레임에 기초하여 상기 입력 프레임을 분류하는 단계를 포함하는 방법.
제9항에 있어서,
상기 입력 프레임과 상기 스피치 처리된 프레임에 기초하여 제1 차이 신호를 생성하고 상기 입력 프레임 및 상기 일반 오디오 처리된 프레임에 기초하여 제2 차이 신호를 생성하는 단계, 및
상기 제1 차이 및 상기 제2 차이의 비교에 기초하여 상기 입력 프레임을 분류하는 단계를 포함하는 방법.
제10항에 있어서,
상기 제1 차이 신호와 연관된 제1 세트의 차이 신호 오디오 샘플들 및 상기 제2 차이 신호와 연관된 제2 세트의 차이 신호 오디오 샘플들의 에너지 특성의 비교에 기초하여 상기 입력 신호를 스피치 신호 또는 일반 오디오 신호 중 어느 하나로 분류하는 단계를 포함하는 방법.
제1항에 있어서,
상기 처리된 프레임은 일반 오디오 프레임이고,
상기 방법은,
상기 일반 오디오 코더의 상기 처리된 프레임의 선형 예측 코딩 분석을 수행함으로써 선형 예측 필터 계수들을 얻는 단계,
상기 선형 예측 필터 계수들에 기초하여 상기 입력 프레임과, 상기 일반 오디오 코더의 상기 처리된 프레임 사이의 차이를 가중하는 단계, 및
상기 가중된 차이에 기초하여 상기 인핸스먼트 레이어 인코딩된 비트스트림을 생성하는 단계
를 더 포함하는 방법.
오디오 신호를 디코딩하기 위한 방법으로서,
조합된 비트스트림을 인핸스먼트 레이어 인코딩된 비트스트림, 코드워드 및 인코딩된 비트스트림으로 디멀티플렉싱하는 단계 - 상기 코드워드는 상기 인코딩된 비트스트림이 스피치 인코딩된 비트스트림인지 또는 일반 오디오 인코딩된 비트스트림인지 여부를 나타냄 -;
상기 인핸스먼트 레이어 인코딩된 비트스트림을 디코딩된 인핸스먼트 레이어 프레임으로 디코딩하는 단계;
상기 인코딩된 비트스트림을 디코딩된 오디오 프레임으로 디코딩하는 단계 - 상기 코드워드가, 상기 인코딩된 비트스트림이 스피치 인코딩된 비트스트림인지 또는 일반 오디오 인코딩된 비트스트림인지를 나타내는지에 따라, 스피치 디코더 또는 일반 오디오 디코더 중 어느 하나를 이용하여 상기 인코딩된 비트스트림이 디코딩됨 -; 및
상기 디코딩된 인핸스먼트 레이어 프레임 및 상기 디코딩된 오디오 프레임을 조합하는 단계
를 포함하는 방법.
제13항에 있어서,
상기 코드워드가, 상기 디코딩된 오디오 신호가 스피치 신호인지 또는 일반 오디오 신호인지를 나타내는지에 기초하여, 상기 인코딩된 비트 스트림을 스피치 디코더 또는 일반 오디오 디코더를 이용하여 디코딩할지를 결정하는 단계를 포함하는 방법.
제1항에 있어서,
상기 디코딩된 인핸스먼트 레이어 프레임은 가중된 에러 신호이고, 상기 인코딩된 비트스트림은 일반 오디오 인코딩된 비트스트림이며,
상기 방법은,
조합하기 전에 상기 가중된 에러 신호에 역 가중 매트릭스를 적용하는 단계를 더 포함하는 방법.