KR101341317B1

KR101341317B1 - 오디오 신호를 트랜스코딩하는 방법 및 장치

Info

Publication number: KR101341317B1
Application number: KR1020097005619A
Authority: KR
Inventors: 피터 잭스; 스벤 고든
Original assignee: 톰슨 라이센싱
Priority date: 2006-09-20
Filing date: 2007-09-06
Publication date: 2013-12-12
Also published as: ZA200901367B; WO2008034723A1; CA2662910C; CN101563726A; EP1903559A1; TW200816167A; BRPI0718465A2; JP2010504544A; JP5324450B2; US9093065B2; CA2662910A1; US20090240507A1; KR20090055579A; TWI423251B; EP2064700A1; EP2064700B1

Abstract

본 발명은, 예를 들면, MPEG-AAC 및 mp3에 의해 사용되는, 상이한 시간-주파수 분석 도메인들을 갖는 오디오 코딩 포맷들 간에, 특히, 그러한 오디오 신호들 간의 용이한 그리고 보다 빠른 트랜스코딩을 위해, 트랜스코딩하는 방법 및 장치를 제공한다. 프레임화된 오디오 신호(framed audio signal)를 제1 파라미터 도메인(PDA)으로부터 제2 파라미터 도메인(PDB)으로 트랜스코딩하는 방법은, 상기 제1 파라미터 도메인(PDA)의 2개 이상의 파라미터들을 상기 제2 파라미터 도메인(PDB)의 적어도 하나의 파라미터로 선형적으로 변환하는(TT) 단계를 포함하고, 상기 제1 파라미터 도메인의 상기 2개 이상의 파라미터들은 상기 제1 파라미터 도메인 내의 상기 오디오 신호의 상이한 프레임들로부터 온 것이다. 상기 선형 변환(TT)은 행렬로서 기술되고 조회 테이블로서 구현될 수 있다.

오디오 신호, 프레임, 트랜스코딩, 시간-주파수 분석, 시간-주파수 합성, 파라미터 도메인

Description

오디오 신호를 트랜스코딩하는 방법 및 장치{METHOD AND DEVICE FOR TRANSCODING AUDIO SIGNALS}

이 발명은 오디오 신호를 트랜스코딩하는 방법 및 장치에 관한 것이다. 이 발명은 오디오 압축 분야에 관련되고, 더 구체적으로는 상이한 지각 오디오 포맷들(perceptual audio formats) 간의 트랜스코딩의 분야에 관련된다. 그러나, 본 발명의 기본 개념을 다른 오디오 프로세싱 응용에 이용하는 것도 유리할 수 있다.

용어 "오디오 트랜스코딩"(audio transcoding)은 통상적으로 특정 오디오 코딩 포맷에 따른 오디오 신호를 나타내는 비트 스트림을, 상이한 오디오 코딩 포맷에 따라 구성되어 있는 다른 비트 스트림으로부터 도출하는 것을 나타낸다. 이 점에서, "트랜스코딩"은 MPEG 1 레이어 III(mp3)에 따른 비트 스트림으로부터 예를 들면 MPEG AAC에 따른 비트 스트림을 획득하는 완전한 절차를 나타낸다.

그러나, 이 명세서에서, 용어 "오디오 트랜스코딩"은 보다 기술적인 의미에서 하나의 부대역(sub-band) 또는 변환 도메인(transform domain)으로부터 다른 부대역 또는 변환 도메인으로의 오디오 신호의 변환을 기술하기 위해 사용된다. 즉, 이 용어는, 상기 완전한 절차 대신, 하나의 표현으로부터 다른 표현으로의 변환에 있어서 하나의 주요 단계만을 기술한다.

문헌[T. Painter 및 A. Spanias (2000): Perceptual Coding of Digital Audio, Proceedings of the IEEE, vol. 88]으로부터 알려진 일반적인 지각 오디오 인코딩의 기본 원리가 도 1에 도시되어 있다.

오디오 신호에 대한 현재의 압축 방법들 및 포맷들은 일반적으로 시간-주파수 분석(102), 즉, 필터 뱅크 또는 변환을 이용하여 오디오 신호(107)의 파라미터들(110)을 표현한다. 이 파라미터들은 양자화 및 인코딩(104), 엔트로피 코딩(105) 및 비트 스트림 연산들(106)의 처리를 받고; 모든 이들 단계는 입력 오디오 신호의 사이코 어쿠스틱 분석(psycho acoustic analysis)(101)에 의해 제어된다. 도 2는 비트 스트림 연산들(201), 엔트로피 디코딩(202), 비트 할당(203), 디코딩 및 역양자화(de-quantization)(204) 및 마지막으로 파라미터들(212, 213)로부터 시간 도메인 신호(214)를 생성하는 시간-주파수 합성(205)을 갖는 대응하는 일반적인 지각 오디오 디코더를 보여준다.

도 1 및 2는 지각 오디오 코덱들의 기본 원리를 설명하고 예시한다. 그러나, 특정 구현들은 어느 정도까지는 다를 수 있지만, 그것들은 통상적으로 시간-주파수 분석 및 그의 역인 시간-주파수 합성을 채용한다.

이제 시간-주파수 분석 및 합성에 초점을 맞추어, 중간 인코딩 및 디코딩 단계들은 더 고려하지 않는다.

시간-주파수 분석(102)을 위하여, 현재의 오디오 코덱들에서는 다수의 상이한 알고리즘들이 이용된다. 예를 들면, MPEG 오디오 코덱 표준들은, 32-대역 의사-QMF(quadrature mirror filter) 필터 뱅크를 이용하는, MPEG-1 레이어 I 및 II 코 덱, 및 하이브리드 필터 뱅크, 즉 32 대역 의사 QMF 필터 뱅크와 그를 따르는 MDCT(modified DCT) 필터 뱅크의 캐스케이드를 채용하는 MPEG-1 레이어 III(mp3)를 포함한다. MDCT 필터링(디폴트 18개 빈(bin)이고, 과도 현상(transients)을 위해 6개 빈으로 감소됨)은, 각각, 576개 또는 192개 빈의 스펙트럼 해상도로 이어진다. MPEG AAC 코덱 및 그의 파생물들은 1024개 빈(과도 현상을 위해 256개 빈으로 감수됨)의 디폴트 해상도를 갖는 전대역(full-band) MDCT 접근법을 이용한다. 오디오 프레임들은 종종 어느 정도까지, 예를 들면, 50%까지는 시간적으로 중첩하고, 이는 소위 프레임 어드밴스(frame advance) (100% - overlap)*frame_size를 정의한다. 결국, 시간-주파수 분석(102)의 출력과 시간-주파수 합성(205)의 입력 사이의 도메인(인코더의 출력 신호(116)가 디코더에 입력(206)됨)은, 특정 오디오 코딩 포맷이 시간-주파수 분석을 위해 필터 뱅크를 이용하거나 블록 변환을 이용하거나 관계없이, "주파수 도메인" 또는 "파라미터 도메인"으로 나타내어질 것이다.

현존하는 및 새로 생겨나는 오디오 포맷들의 수가 항상 증가하기 때문에, 오디오 콘텐츠를 하나의 비트 스트림 포맷으로부터 다른 비트 스트림 포맷으로 트랜스코딩하는 알고리즘에 대한 필요가 증가하고 있다. 도 3은, 도 1 및 2에서 이미 설명된 이용 가능한 표준 모듈들만을 포함하고 있기 때문에, 현재 전형적으로 사용되는 오디오 트랜스코딩의 접근법을 보여준다. 소스 포맷으로 인코딩된 입력 비트 스트림은 연속 시간 도메인 PCM 신호 TD로 디코딩된다(DEC_A). 그 후 독립 인코더(ENC_B)는 타깃 포맷에 따른 새로운 비트 스트림을 생성한다. 신호 처리 블록들 간의 유일한 인터페이스는 디코더로부터 인코더로 전달되는 시간 도메인 오디오 신 호 TD이다.

이 접근법은 사용하기가 간단하기는 하지만, 다음의 문제들이 발생한다. 첫째로, 2개의 블록들(DEC_A, ENC_B)이 서로를 알지 못하므로, 시간-주파수 분석 절차들은 비동기화(desynchronize)되어야 한다: 일반적으로, 신호 품질의 열화, 소위 탠덤 에러(tandem errors)로 이어지는, 디코딩(역양자화) 및 인코딩(양자화)을 위한 일련의 연산들이 존재한다. 둘째로, 이 접근법의 계산 복잡도가 높아서, 그것을 크게 감소시키는 것이 바람직하다.

만일 소스 및 타깃 포맷들에 어느 정도까지는 공통인 어떤 사이드 정보가 디코더에 의해 추출되어 인코더에서 재사용된다면 보다 양호한 트랜스코딩 결과가 얻어질 수 있다. 도 4a는, 예를 들면, 돌비(Dolby) AC-3로부터 BSAC(Bit Sliced Arithmetic Coding) 포맷으로 트랜스코딩하는 데 이용될 수 있는, 이 접근법에 대한 일례를 보여준다[Kyoung Ho Bang, Young Cheol Park, 및 Dae Hee Youn (2006). Audio Transcoding Algorithm for Mobile Multimedia Application, Proc . of ICASSP, vol. 3 참조]. 이 특정 예에서, AC-3 비트 할당은 BSAC 인코더 내의 새로운 비트 할당(403)을 도출 및 제어하는 데 재사용될 수 있다. 소스 비트 스트림으로부터의 사이드 정보 SI를 재사용하는 것 외에, 시간-주파수 합성 및 분석 절차들은 시간적으로 동기화된다. 이 경우에 있어서, 도 4a의 진보된 개념은 이전에 설명된 트랜스코딩 방식에 비하여 계산 복잡도를 감소시키고, 타깃 신호의 보다 양호한 품질로 이어질 수 있다.

소스 및 타깃 비트 스트림의 코덱 포맷들이 그들의 시간-주파수 분석 도메인 에 관하여 동일한 경우, 즉, 분석 및 합성 블록들이 완전히 상보적인(complementary) 경우(그리고 그러한 경우에만), 트랜스코딩은 도 4b에 도시된 바와 같이 더욱 단순화될 수 있다: 시간-주파수 분석 및 합성 절차들이 생략될 수 있어, 예를 들면, 소정의 파라미터들을 재양자화함으로써, 파라미터 도메인 PD에서 직접 데이터 레이트 변경이 일어난다. 소스 비트 스트림으로부터의 사이드 정보, 예를 들면, 비트 할당을 재사용하는 것도 유익할 것이다.

[발명의 개요]

상기 설명으로부터, 상이한 시간-주파수 분석 도메인들을 갖는 인코딩 포맷들 간에 트랜스코딩하는 간단한 방법 및 장치가 없다는 것을 알 수 있다. 본 발명의 하나의 양태는, 그러한 방법 및 장치, 특히, 상이한 시간-주파수 분석 도메인들을 갖는 오디오 신호들 간에 용이하게 그리고 보다 빠르게 트랜스코딩하는 방법 및 장치를 제공하는 것이다.

본 발명은 소스 파라미터 도메인으로부터 타깃 파라미터 도메인으로의 선형 매핑(linear mapping)을 이용하고, 타깃 파라미터들은 2개 이상의 입력 프레임으로부터의 소스 파라미터들에 의존한다. 이것은 상이한 시간-주파수 분석 도메인들 간의 트랜스코딩의 복잡도를 저하시키고 종래의 처리에 의한 신호 열화의 문제를 방지한다.

종래의 트랜스코딩 접근법의 시간-주파수 합성 및 그 후의 시간-주파수 분석은 선형 연산으로서 표현될 수 있지만, 그것은 통상적으로 시변적(time variant)이라는 것이 인지되었다.

본 발명의 하나의 양태에 따르면, 오디오 신호를 제1 또는 입력 파라미터 도메인(시간 도메인에 대립되는 것으로서)으로부터 제2 또는 출력 파라미터 도메인으로 트랜스코딩하는 방법이, 상기 입력 파라미터 도메인의 파라미터들을 상기 출력 파라미터 도메인의 파라미터들로 매핑하는 단계를 포함하고, 적어도 하나의 출력 파라미터가 2개 이상의 입력 파라미터에 선형적으로 의존한다(즉, 상기 출력 파라미터는 상기 2개 이상의 입력 파라미터의 선형 조합이다). 상기 2개 이상의 입력 파라미터들은 2개 이상의 상이한 입력 프레임들로부터 온 것이다.

일 실시예에서, 상기 출력 파라미터와 상기 2개 이상의 입력 파라미터 간의 관계를 기술하는 매핑 또는 변환은 시변적이다. 그러나, 프레임 구조화된 입력 및/또는 출력 포맷들에 있어서 그것은 복수의 시변적 관계들의 시퀀스이다. 이것은 특히 상기 입력 파라미터 도메인의 시간-주파수 분석 및 상기 출력 파라미터 도메인의 시간-주파수 분석의 프레임 어드밴스들(프레임들의 시간 중첩을 기술함)이 다른 경우에 유리하다.

일 실시예에서, 상기 시변적 매핑은 주기적으로 반복한다. 즉, 그것은 시불변(time invariant) 매핑들의 주기적인 반복이다.

일 실시예에서, 상기 매핑은, 차후에 단일 출력 프레임을 위해 가산되거나 겹쳐지는(superimposed), 상이한 소스 프레임들로부터의 부분 입력 벡터들을 매핑하는 부단계(sub-step)들을 포함한다.

일 실시예에서, 정수 개수의 출력 프레임들에 대응하는 정수 개수의 입력 프레임들에 걸쳐서 슈퍼프레임들이 생성된다. 상기 정수 개수는 상기 입력 및 출력 프레임들의 프레임 길이들 및 프레임 시프트들에 의존한다. 하나의 슈퍼프레임은 상기 시변적 매핑의 하나 이상의 반복 주기들에 대응한다.

일 실시예에서, 상기 시변적 관계의 각 시불변 위상은, 상기 입력 포맷 신호의 복수의 연속 프레임들로부터 입력을 받아 상기 출력 포맷 신호의 하나의 프레임에 대한 출력을 생성하는, 선형 연산으로서 표현된다. 따라서, 이 주기적인 반복으로부터 슈퍼프레임에 대한 선형 연산들의 시퀀스가 생긴다.

일 실시예에서, 상기 시변적 매핑은 미리 산출된 변환 계수들에 대한 조회 테이블(look-up table)들을 이용한 선형 변환들의 시퀀스로서 구현된다. 그러나, 다른 실시예에서, 상기 선형 변환들은, 상기 입력 파라미터들에 적용되는, 사전 정의된 분석 표현식(analytical expression)들, 예를 들면, 함수들이다.

본 발명의 이점은 연속 시간 도메인 신호를 전달하지 않고 하나의 파라미터 도메인으로부터 다른 파라미터 도메인으로의 직접 선형 변환을 위해 요구되는 계산 복잡도가 연속 시간 도메인 신호를 통한 종래의 정직한(straigh-forward) 트랜스코딩 절차에 있어서보다 현저히 낮다는 점이다.

다른 이점은 트랜스코딩 품질과 계산 복잡도 간의 트레이드오프는, 주파수 선택 방식에서도, 시변 응용 요구에 적응될 수 있다는 점이다.

추가 이점은 단일 선형 변환을 통한 직접 트랜스코딩은 시간 도메인 신호를 통한 종래의 트랜스코딩 방식보다 수치적으로 더 잘 컨디셔닝될 수 있다는 점이다. 소스 도메인의 특정 파라미터 빈들의 영향은 타깃 도메인의 작은 범위의 파라미터 빈들에 제한되기 때문에, 양자화 및 (예를 들면 종래의 트랜스코딩의 고정 소수점 구현에서 일반적인) 부정확한 수치 연산들의 광범위한 효과들이 최소화된다.

종속 청구항들, 다음의 설명 및 도면들에서는 본 발명의 유리한 실시예들이 개시된다.

본 발명의 예시적인 실시예들은 첨부 도면들을 참조하여 설명한다.

도 1은 일반적인 지각 오디오 인코더의 구조이다.

도 2는 일반적인 지각 오디오 디코더의 구조이다.

도 3은 종래의 직선적인 트랜스코딩이다.

도 4a는 비트 할당의 재사용에 의한 종래의 트랜스코딩이다.

도 4b는 동일한 오디오 포맷들 간의 종래의 트랜스코딩이다.

도 5는 상이한 파라미터 도메인들 간의 직접 트랜스코딩이다.

도 6은 상이한 프레임 어드밴스들을 갖는 상이한 시간-주파수 도메인들 간의 트랜스코딩이다.

도 7은 하이브리드 mp3 및 무손실 확장 오디오 포맷을 위한 인코더이다.

도 8은 하이브리드 mp3 및 무손실 확장 오디오 포맷을 위한 디코디이다.

도 9는 예시적인 변환 행렬의 계수들이다.

도 10은 예시적인 변환 행렬의 상세이다.

도 11은 파라미터 도메인 내의 상이한 오디오 포맷들 간의 트랜스코더의 구조이다.

도 5는 상이한 파라미터 도메인들 PD_A, PD_B를 갖는 2개의 포맷들 간의 파라미터 도메인에서의 직접 트랜스코딩을 보여준다. 소스 포맷 A, 예를 들면, mp3에 따른 다수의 인접 파라미터 프레임들(501)이, 소스 포맷의 시간-주파수 분석 방식에 의해 PCM 오디오 신호로부터 이전에 도출되었다(도시되지 않음). 각 프레임 m-1, m, m+1은 다수의 파라미터를 포함하고, 따라서 소스 파라미터 도메인 PD_A에서 파라미터 벡터로서 간주될 수 있다. 선형 변환 행렬 T_T가 입력 파라미터 벡터들(501)에 적용되고, 출력 프레임 B의 출력 파라미터 도메인 PD_B 내의 프레임에 대응하는 출력 파라미터 벡터(502)를 제공한다.

단일 출력 프레임 n에 대하여, 변환 또는 매핑은 시불변이다. 변환 행렬 T_T가 복수의 입력 프레임들에 동시에 적용되거나, 개별 변환 행렬들이 각각의 입력 프레임들에 (동시에 또는 연속적으로) 적용되고 그 후 그 부분 결과들이 가산되거나 관계없이, 그 결과 행렬 T_T는 양쪽 경우에 동일하다. 이는 변환 단계들이 선형적이기 때문이다.

원칙적으로, 변환 매핑 T_T는 종래의 처리(500)의 모든 부단계들을 커버하고, 여기서 각 파라미터 벡터 P _A(m), P _A(m+1)...는 선형 변환 행렬 T _SA(S_A는 소스 포맷에 따른 합성을 나타냄)와의 곱셈에 의해 대응하는 시간 도메인 세그먼트 TD들로 변환된다. 이 예에서, 상기 시간 세그먼트들은 중첩하고, 중첩 가산(overlap add) 절차(503)에 입력되어, 디코딩된 연속 시간 도메인 TD_C 오디오 신호(504)가 얻어진다. 그 후, 타깃 포맷 B에 따른 시간-주파수 분석이 종래의 트랜스코딩 프로세스에서 일어난다. 상기 연속 시간 도메인 신호(504)는 일련의 (통상으로) 중첩하는 세그먼트들로 분해되고(505), 그 중첩은 포맷 A에 의해 채용된 중첩과 상이할 수 있고, 그 후 상기 세그먼트들은 행렬 T _AB(A_B는 포맷 B에 따른 분석(A)을 나타냄)와의 곱셈에 의해 타깃 파라미터 도메인 PD_B로 변환된다. 타깃 포맷 B는 소스 포맷 A와는 상이한 프레임 시프트를 적용할 수 있으므로, 개별 프레임 인덱스 n이 사용된다.

상기 설명 및 도 5는 현재 오디오 코딩에서 실제로 관련 있는 모든 시간-주파수 분석 방식들을 커버한다는 점에서 일반적이다. 상기 행렬들 T _SA 및 T _AB는 선형 블록 변환 또는 선형 피드-포워드(feed-forward)(FIR, finite impulse response) 필터 뱅크들에 기초하는 임의의 시간-주파수 합성 또는 분석 방식을 정확히 기술할 수 있다. 예를 들면, mp3 코덱의 하이브리드 필터 뱅크의 캐스케이드된 구조들이 상기 행렬들 T _SA 및 T _AB에서 조합될 수 있다. 선형 비완전 재구성 필터 뱅크들(linear non-perfect reconstructing filter banks) 또는 변환들도 커버된다. IIR(infinite impulse response) 필터 뱅크들에 대해서는, 무시해도 좋은 값들을 잘라냄으로써 유한 임펄스 응답들로 무한 임펄스 응답들을 근사(approximate)하는 것에 의해 충분히 정확한 표현이 공식화될 수 있다.

본 발명에 따른 트랜스코딩 개념은 트랜스코딩 처리에 포함되는 시간-주파수 합성 및 분석 단계들 T _SA 및 T _AB의, 및 중첩 가산 및 분할 블록들(503, 505)의 선형성을 이용한다. 시간-주파수 합성 T _SA, 중첩 가산(503), 분할(505) 및 시간-주파수 분석 T _AB의 시퀀스는 단일 선형 변환 T _T로 대체되므로, 유리하게도 연속 시간 도메인 신호(504)를 생성할 필요가 없다.

이하에서는, 선형 변환 T _T의 일부 특성들을 설명한다.

변환 행렬 T _T의 정확한 도출은 가능하지만, 명백하지 않을(non-trivial) 수 있다. 분석적 도출 절차 외에, 타깃 파라미터 도메인 내의 타깃 프레임에 대한 소스 파라미터 도메인의 각 파라미터 요소(예를 들면, 스펙트럼 빈(spectral bin))의 선형 기여들을 시뮬레이션하고 측정하는 것에 의해 상기 행렬을 트레이닝할 가능성이 있다. 상기 행렬 T _T는, 예를 들면, 분석 표현식에 의해 또는 조회 테이블에 의해 나타내어질 수 있다.

종래의 트랜스코딩 경로에서 몇 개의 연속 시간 세그먼트들의 중첩 가산(503)의 결과, 선형 변환 T _T는 일반적으로 일대일이 아니라, 다대일 매핑일 것이다. 이는 소스 도메인의 적어도 2개, 전형적으로 3개 이상의 프레임이 타깃 도메인의 하나의 프레임에 영향을 미친다는 것을 의미한다. 반대로, 소스 도메인의 각 프레임은 타깃 도메인의 2개 이상의 프레임에 영향을 미친다.

비록 파라미터 도메인 A 및 B를 정의하는 시간-주파수 분석 및 합성 절차들이 선형적이라고 가정할지라도, 그것들은 전형적으로 시변적이다. 그러므로, 직접 변환 T _T는 소스 도메인의 시간 세그먼트들 대 타깃 도메인의 시간 도메인들의 시간 도메인 동기화에 의존한다. 즉, 표현 A 및 B에 대한 프레임들 간의 타이밍 차이의 변경은 일반적으로 다른 직접 변환 행렬 T _T를 산출한다. 따라서, 소스 포맷의 시간-주파수 합성 및 타깃 포맷의 시간-주파수 분석의 프레임 시프트들이 상이하다면, 행렬 T _T는 시변적이다. MPEG AAC(1024개 샘플의 프레임 어드밴스) 및 mp3(576개 샘플의 프레임 어드밴스) 간에 트랜스코딩하는 예가 도 6에 도시되어 있다. 이 시변적 변환은 (윈도 스위칭 방식들을 무시하고) 이 경우에 채용될 16개의 시불변 변환 행렬 T _T의 시퀀스를 포함한다. 도 6은 AAC 및 mp3에 대한 주파수 도메인 벡터들의 시퀀스들을 보여준다. 상이한 프레임 어드밴스들로 인해, 프레임들 간의 시간 시프트는 시간에 따라 변한다. AAC 및 mp3 프레임들 간의 동일한 시간 시프트들은 각각 9개의 AAC 프레임 또는 16개의 mp3 프레임의 기간 후에 나타난다. 이 예에서, 이 기간은 슈퍼프레임이다. 각 슈퍼프레임에서는, AAC 도메인으로부터 16개의 mp3 프레임들로 트랜스코딩하기 위해 16개의 상이한 소정의 변환 행렬들(예를 들면, 테이블들)이 사용된다. 이 변환들의 시퀀스는 각 슈퍼프레임에 대하여 반복된다. 따라서, (슈퍼프레임 내의) 변환은 시변적이다.

일반적으로, 슈퍼프레임 내의 주기적인 시퀀스 내의 변환들의 개수는 타깃 포맷 내의 프레임들의 개수에 대응한다. 예를 들면, mp3로부터 AAC로 트랜스코딩하기 위하여, 시변적 변환은 슈퍼프레임 내의 각 프레임 9m, 9m+1, ..., 9m+8에 대하여 하나씩, 9개의 시불변 변환을 포함한다. 도 6과 비교하여 이 경우에 프레임들 간의 관계는 반대이다. 예를 들면, 제2 AAC 프레임 9m+1은 5개의 mp3 프레임 16m, ..., 16m+4에 의존한다. 그러나, 그 변환들의 선형성 때문에 하나의 소스 포맷 프레임으로부터 하나의 타깃 포맷 프레임으로의 개별 변환들을 수행하고, 타깃 프레임을 얻기 위하여 필요한 결과 벡터들을 가산하는 것도 가능하다. 본 예에 있어서 이것은 결과적으로 40개의 변환들의 시퀀스 및 타깃 프레임마다 필요한 가산으로 된다.

용어 "프레임 어드밴스"는 연속적인 시간-주파수 분석 프레임들의 상호 시프트(mutual shift)를 기술한다. 이것은 연속 프레임들의 시간적 중첩에 의존하고, 프레임의 시간적 지속기간과는 다르다.

만일 2개의 수반되는 시간-주파수 분석 절차들이 인접 파라미터 빈들의 양호하나 분리를 나타내고 또한 스펙트럼 해상도들이 유사하다면, 변환 행렬 T _T는 전형적으로 희박(sparse)하고 다소간 대각(diagonal)이다. 즉, T _T의 큰 부분들은 제로이고 변환 시에 고려될 필요가 없다. 그러므로 행렬 T _T에 의한 선형 변환에 의한 트랜스코딩은 연속 시간 도메인 신호를 통한 종래의 트랜스코딩 방법보다 계산상 현저히 덜 복잡할 것으로 기대될 수 있다.

예시적인 변환 행렬이 도 9에 도시되어 있다. 그레이-레벨은 mp3 하이브리드 필터 뱅크로부터 전대역 MDCT로 트랜스코딩하기 위한 변환 행렬 T _T의 계수들의 대수 크기(logarithmic magnitude)를 나타낸다(양쪽 모두에 대해 긴 윈도를 가짐). 예시적으로, 3개의 연속 mp3 프레임들이 타깃 MDCT 프레임에 영향을 미친다. 어두운 영역들에서의 계수들의 값은 밝은 영역들에서보다 더 높다. 이 예에서, 변환 계수들 중 97.7%의 크기들은 -60 dB 미만이다. 이들 계수들은 트랜스코딩에 대하여 무시될 수 있고, 따라서 행렬 곱셈은 매우 낮은 계산상의 노력으로 실현될 수 있다.

도 10은 그레이-레벨 코드 대신 3차원 막대 그래프로서 도시된, 도 9의 중앙 영역으로부터의 상세를 보여준다. 도시된 41*41=1681 계수들로부터, 대부분은, -60 dB 미만, 즉, 무시해도 좋다. 이상적으로는, 선형 영역을 따르는 소수의 계수들만이 관련 레벨의 값들을 갖는다. 이 분석적으로 도출된 예에서는, 18개의 빈의 주기적인 간격으로 선형 영역을 가로지르는 추가의 영역들도 mp3 하이브리드 필터 뱅크 내의 에일리어싱 왜곡 효과(aliasing distortion effect)에 의해 야기된 무시할 수 없는 값들을 갖는다: 하이브리드 mp3 필터 뱅크에서 에일리어싱 보정이 적용되었더라도 상당한 양의 에일리어싱 성분들이 남는다. 이 에일리어싱은 전대역 MDCT의 경우에는 존재하지 않는다.

시변적 변환들에 있어서, 도 9 및 10에 다른 변환 행렬 T _T는 출력 프레임들(즉, 각 슈퍼프레임 내의 특정 프레임)에 대해서만 유효할 수 있고, 반면 다른 출력 프레임들에 대해서는 그 계수들이 상이하다.

계산상 복잡도는 주파수-선택적 정확도 요건들(frequency-selective accuracy requirements)을 고려함으로써 더욱 감소될 수 있다. 예를 들면, 만일 mp3 코어 비트 스트림이 낮은 비트 레이트를 갖고 있다면, 고주파 빈들은 일반적으로 인코딩되지 않고, 그것들은 디코더에서 제로로 설정(즉, 마스킹)될 것이다. 이 경우, 변환 행렬 T _T의 고주파 부분은 생략될 수 있다. 일반적으로, 어떤 주파수 범위라도 용이하게 마스킹될 수 있다. 마스킹도, 예를 들면, 사이드 정보에 포함되는 비트 할당에 기초하여, 시변적이고 및/또는 신호 의존적일 수 있다. 이 용이하고 유연성 있는 마스킹은 연속 시간 도메인 신호를 통한 종래의 트랜스코딩과 비교되는 이점이다.

원칙적으로, 변환 행렬 T _T는 타깃 프레임의 각 주파수 빈에 대한 변환을 요약적으로 기술한다. 변환의 선형성 때문에, 이 변환 행렬은 부행렬들로 분해될 수 있고, 그 중 일부가 무시될 수도 있다(예를 들면, 어떤 타깃 주파수 빈들이 요구되지 않는 경우). 따라서, 전체 변환으로부터, 실제로 계산될 필요가 있는 일부분(slice) 또는 몫(share)이 선택된다. 이를 위하여, 예를 들면, 소스 및/또는 타깃 프레임들의 비트 할당과 같은 사이드 정보 또는 지배적인 주파수들이 평가될 수 있다.

만일 트랜스코딩의 요구되는 정확도가 주파수-선택적이라면, 변환 행렬 T _T의 이용은 시변적일 수 있다. 예를 들면, 하나의 압축된 오디오 포맷으로부터 다른 것으로 트랜스코딩할 때, 트랜스코딩 정확도를 위한 주파수 의존 요건들은 소스 또는 타깃 오디오 포맷의 비트 할당의 함수로서 결정될 수 있다. 예를 들면, 보다 낮은 트랜스코딩 정확도를 요구하는 타깃 주파수 빈들에 대해서는(한 가지 가능한 이유는 할당된 비트들의 수가 작다는 것이다), 트랜스코딩 변환을 계산할 때 행렬 T _T의 보다 적은 수의 제로가 아닌 원소들이 고려되어야 한다. 따라서, 계산 복잡도는 더욱 감소될 수 있다.

개시된 트랜스코딩 방식에 의하면, 소스 도메인의 각 파라미터 빈의 영향은 타깃 도메인 내의 파라미터 빈들의 매우 제한된 세트에 제한된다. 그러므로, 제안된 방식의 수치적 거동은 시간 도메인 신호를 통한 종래의 트랜스코딩의 경우보다 훨씬 더 잘 조절된다. 종래의 트랜스코딩에서는, 시간-주파수 합성 및 분석 절차들의 수치적 부정확성 때문에, 주파수 스펙트럼의 일부 부분들에서의 강한 신호 성분들이 트랜스코딩된 파라미터 도메인 내의 전체 스펙트럼에 영향을 미칠 수 있다.

본 발명의 하나의 예시적인 실시예는 MPEG-1 레이어 III(mp3)에서 채용되는 하드브리드 필터 뱅크에 따른 파라미터 도메인으로부터 정확한 프레임 어드밴스 및 정확한 양의 주파수 빈들을 갖는 전대역 MDCT 또는 정수 MDCT에 따른 타깃 파라미터 도메인으로 트랜스코딩하는 것에 관련된다. 하나의 응용 예는 삽입된 mp3 비트 스트림 위에 오디오 PCM 샘플들의 하이브리드 무손실 코딩이다. 여기서, 개시된 고속 트랜스코딩 방식은 디코딩된 mp3 빈들로부터 전대역 정수 MDCT 빈들의 예측에 이용된다. 그러나, 이 트랜스코딩은 mp3 빈들의 단지 현재의 프레임보다 더 많은 것을 수반할 수 있다.

각각의 인코딩 신호 흐름이 도 8에 도시되어 있다. 인코더 신호 흐름의 하부 부분은, 다상 필터 뱅크 및 데시메이션(polyphase filter bank and decimation)(701), 분할 및 MDCT(702), 고속 푸리에 변환(FFT)(704), 사이코 어쿠스틱 분석(705), 비트 할당 및 양자화기(703), 사이드 정보 인코더(706) 및 멀티플렉서(707)를 포함하는, 종래의 mp3 인코더를 나타낸다. 하이브리드 무손실 인코더의 상부 신호 경로에서는, 병렬 분할 및 전대역 정수 MDCT(709)가 적용된다. 전대역 MDCT를 위한 분할 및 제어는 mp3 코어 코덱과 동일한 적응 윈도 스위칭 방식을 적용한다. 또한, 전대역 정수 MDCT의 스펙트럼 해상도는 mp3 필터 뱅크의 시변적 스펙트럼 해상도에 따라서 제어된다. 2개의 병렬 시간-주파수 분석 절차들의 간결한 동기화를 위하여, 특히 1개보다 많은 수의 mp3 프레임(통상적으로 3개 이상)을 수반하는 트랜스코딩 변환이 이용되는 경우에는, 정수 MDCT 및 대응하는 분할(709) 전에 PCM 샘플들의 지연(708)이 도입되어야 한다.

전대역 정수 MDCT(709) 및 그 후의 신호 처리 블록들의 목적은 시간 도메인 PCM 샘플들의 수학적으로 무손실 인코딩을 허용하는 것이다. 그러므로, 가역(reversible) 정수 MDCT가 이용된다. 이 개념은 MPEG SLS(scalable to lossless) 오디오 코덱에서 적용되는 원리에 필적하지만, 그것은 전대역 MDCT 빈들로부터 "역양자화"되고 라운딩된 mp3 주파수 빈들을 공제하는 것에 기초한다. 그러나, mp3 필터 뱅크와 전대역 MDCT 간의 상당한 불일치 때문에, 전대역 MDCT 빈들로부터 "역양자화"되고 라운딩된 mp3 주파수 빈들을 단순히 공제하는 것에 의해 나머지 신호를 계산하는 것은 낮은 레이트 무손실 코딩을 위해 요구되는 신호 엔트로피의 충분한 감소로 이어지지 않는다. 그러므로, 본 발명에 따른 개시된 트랜스코딩 방식은 mp3 빈들로부터 전대역 MDCT 빈들의 보다 정확한 예측을 결정하기 위해 인코더 및 디코더에서 이용된다. 이 때문에, (행렬 T _T를 통한) 트랜스코딩 변환(711)은 일반적으로, 적어도 3개의 mp3 프레임들을, 그들의 계수들을 역양자화(역양자화(710))한 후에, 고려한다.

mp3 필터 뱅크(701)는 짧은 분석/합성 윈도와 긴 분석/합성 윈도 간에 신호 적응 스위칭(signal-adaptive switching)을 적용하므로, 변환 행렬 T _T는 시변적이다(도 7에는 도시되지 않음). 긴 윈도, 짧은 윈도 및 전이 위상들에 대하여 상이한 변환들이 적용된다. 예를 들면, 2개 이상의 인접 변환들이 하나로 병합될 수도 있고, 또는 하나의 변환이 2개 이상으로 분할될 수도 있어, 슈퍼프레임마다 상이한 시불변 변환들의 수는 스트림 내에서 변할 수 있다.

상술한 바와 같이, 계산상 복잡도는 주파수 선택에 의해, 예를 들면, 트랜스코딩 변환 T _T의 고주파 및/또는 저주파 부분을 생략하는 것에 의해 더욱 감소될 수 있다.

무손실 mp3 디코딩을 위한 각각의 디코더가 도 8에 도시되어 있다. 디코더의 트랜스코딩 및 라운딩(805)은 인코더의 트랜스코딩 및 라운딩(711)과 동일하다. 역양자화기(710, 803)도 인코더 및 디코더에서 동일하다. 무손실 디코딩 절차(802)는 무손실 인코딩 절차(713)에 대하여 상보적이고, 사이드 정보 디코더(804)는 사이드 정보 인코더(706)에 대하여 상보적이다.

다른 실시예는 상이한 오디오 포맷들 간의 고속 트랜스코딩을 커버하고, 따라서 용어 "트랜스코딩", 즉, 하나의 압축 포맷으로부터 다른 압축 포맷으로의 오디오 콘텐츠의 변환에 대한 전통적인 이해와 관련된다. 일반적으로, 트랜스코딩은 소스 포맷의 임의의 프레임에서 시작할 수 있다.

파라미터 도메인에서 직접 트랜스코딩을 적용하는 제안된 시스템의 블록도가 도 11에 도시되어 있다. 도 4의 종래의 트랜스코딩 시스템과 비교하여, 본 발명의 이 실시예는 디코더 DEC_A에 대한 시간-주파수 합성 및 인코더 ENC_B에 대한 시간-주파수 분석의 시퀀스를 소스 파라미터 도메인 PD_A로부터 타깃 파라미터 도메인 PD_B로의 직접 트랜스코딩 T_T로 대체한다. 이러한 접근법의 하나의 이점은 계산상 복잡도가 더 적다는 것이고, 따라서 효율이 더 높고, 수치적 거동이 더 양호하여 보다 적은 신호 왜곡을 의미한다. 이것은 특히 트랜스코딩을 위하여 통상적으로 채용되는 고정 소수점 구현들에 대하여 유효하다. 그러므로 본 발명은 종래의 트랜스코딩 방식들보다 소스 오디오 포맷으로부터 타깃 오디오 포맷으로의 보다 빠른 트랜스코딩, 및 결과의 보다 양호한 품질을 가능하게 한다. 또한, 종래의 트랜스코딩 시스템들에서의 사이드 정보와 유사한 사이드 정보 SI'가 사용된다.

개시된 알고리즘들의 사용은 하나의 코딩 포맷으로부터 다른 것으로의 완전한 변환에 제한되지 않고, 상기 실시예들 중 일부가 예시적으로 보여주는 바와 같이, 다른 오디오 관련 알고리즘들의 빌딩 블록으로서 사용될 수도 있다.

본 발명의 전형적인 예시적인 응용들은 무손실 코딩을 위한 시간-주파수 파라미터들의 예측, 상이한 오디오 포맷들 간의 고품질 트랜스코딩 등이다.

Claims

프레임화된 오디오 신호(framed audio signal)를 제1 파라미터 도메인(PD_A)으로부터 제2 파라미터 도메인(PD_B)으로 트랜스코딩하는 방법으로서 - 상기 프레임화된 오디오 신호는 시간 도메인 오디오 신호의 파라미터 도메인 표현이고, 상기 제1 파라미터 도메인(PD_A) 및 상기 제2 파라미터 도메인(PD_B) 각각은 시간-주파수 분석으로부터 도출되며, 시간-주파수 합성에 입력되기에 적합함 - ,

상기 시간 도메인 오디오 신호를 생성하지 않고 상기 제1 파라미터 도메인(PD_A)의 2개 이상의 파라미터들을 상기 제2 파라미터 도메인(PD_B)의 적어도 하나의 파라미터로 선형적으로 변환하는(T_T) 단계

를 포함하고,

상기 제1 파라미터 도메인의 상기 2개 이상의 파라미터들은 상기 제1 파라미터 도메인 내의 상기 오디오 신호의 상이한 프레임들로부터 유래하며, 시간-주파수 변환에 의해 획득되는 주파수 성분들인 트랜스코딩 방법.
제1항에 있어서, 2개 이상의 입력 파라미터들을 적어도 하나의 출력 파라미터로 선형적으로 변환하는 상기 단계는 시변적(time variant)인 트랜스코딩 방법.
제2항에 있어서, 시변적 선형 변환은 복수의 시불변(time invariant) 선형 변환들의 주기적 반복인 트랜스코딩 방법.
제2항 또는 제3항에 있어서, 상기 제1 파라미터 도메인(PD_A)의 선형적으로 변환된 파라미터들로부터 상기 제2 파라미터 도메인(PD_B)의 모든 파라미터들이 획득되는 트랜스코딩 방법.
제3항에 있어서, 상기 주기적 반복의 하나의 주기는 상기 제1 파라미터 도메인(PD_A)의 정수 개수의 프레임들을 커버하며, 상기 제1 파라미터 도메인(PD_A)의 정수 개수의 프레임들은 상기 제2 파라미터 도메인(PD_B)의 상이한 정수 개수의 프레임들에 대응하는 트랜스코딩 방법.
제1항에 있어서, 상기 제1 파라미터 도메인 및 제2 파라미터 도메인은 시간 분석 윈도(temporal analysis window)들을 이용한 시간-주파수 분석에 기초하고, 상기 제2 파라미터 도메인(PD_B)에 대한 시간-주파수 분석은 긴 분석 윈도들 및 짧은 분석 윈도들을 이용하고, 상기 선형적으로 변환하는(T_T) 것은 긴 분석 윈도들 및 짧은 분석 윈도들에 대하여 상이한 트랜스코딩 방법.
제1항에 있어서, 상기 선형적으로 변환하는(T_T) 단계는,

상이한 입력 프레임들로부터의 입력 벡터들을 출력 벡터들에 매핑하는 단계; 및

상기 출력 벡터들을 겹쳐서(superimpose) 출력 프레임을 생성하는 단계

를 포함하는 트랜스코딩 방법.
제1항에 있어서, 상기 제1 파라미터 도메인의 2개 이상의 파라미터들을 선형적으로 변환하는 단계는 변환 계수들을 보유하는 조회 테이블(look-up table)을 이용하는 것을 포함하는 트랜스코딩 방법.
제1항에 있어서, 상기 제1 파라미터 도메인의 2개 이상의 파라미터들을 선형적으로 변환하는 단계는 사전 정의된 분석 표현식(analytical expression)들을 이용하는 것을 포함하는 트랜스코딩 방법.
제1항에 있어서, 상기 제1 파라미터 도메인(PD_A)의 오디오 프레임들(501)은 상기 제2 파라미터 도메인(PD_B)의 오디오 프레임들과는 상이한 프레임 어드밴스(frame advance)를 갖고, 상기 프레임 어드밴스는 프레임들의 시간 중첩(temporal overlapping)을 기술하는 트랜스코딩 방법.
제1항에 있어서, 상기 제1 파라미터 도메인 및 상기 제2 파라미터 도메인의 상기 상이한 파라미터들은 시간-주파수 분석 및 시간-주파수 합성을 참조하는 파라미터들이고, 상기 제1 파라미터 도메인 및 상기 제2 파라미터 도메인은 상이한 시간-주파수 분석 및/또는 상이한 시간-주파수 합성을 이용하는 트랜스코딩 방법.
제1항에 있어서, 상기 선형적으로 변환하는 것은, 상기 제1 파라미터 도메인(PD_A)에 따른 시간-주파수 합성(T_SA), 중첩 가산(overlap add)(503), 분할(segmentation)(505) 및 상기 제2 파라미터 도메인(PD_B)에 따른 시간-주파수 분석(T_AB)을 적어도 기술하는 트랜스코딩 방법.
제12항에 있어서, 상기 시간-주파수 합성(T_SA) 및/또는 상기 시간-주파수 분석(T_AB)은 선형 블록 변환들 또는 선형 피드-포워드(feed-forward) 필터 뱅크들에 대응하는 트랜스코딩 방법.
제1항 또는 제2항에 있어서, 상기 제1 파라미터 도메인의 각 프레임(501)의 파라미터들은 상기 제2 파라미터 도메인의 2개 이상의 프레임(502)에 영향을 미치고, 상기 오디오 신호의 파형을 나타내는 트랜스코딩 방법.
제1항에 있어서, 상기 변환하는(T_T) 것은 상기 오디오 신호의 특정 주파수 부분을 생략하는 것을 포함하는 트랜스코딩 방법.
제15항에 있어서, 상기 오디오 신호의 특정 주파수 부분을 생략하는 것은 시변적이고, 상기 제1 파라미터 도메인 내의 상기 오디오 신호에 이용되는 비트 할당에 의존하는 트랜스코딩 방법.
프레임화된 오디오 신호를 제1 파라미터 도메인(PD_A)으로부터 제2 파라미터 도메인(PD_B)으로 트랜스코딩하는 장치로서 - 상기 프레임화된 오디오 신호는 시간 도메인 오디오 신호의 파라미터 도메인 표현이고, 상기 제1 파라미터 도메인(PD_A) 및 상기 제2 파라미터 도메인(PD_B) 각각은 시간-주파수 분석으로부터 도출되며, 시간-주파수 합성에 입력되기에 적합함 - ,

상기 제1 파라미터 도메인(PD_A)의 2개 이상의 파라미터들을 선형적으로 변환하는(T_T) 것에 의해 상기 제2 파라미터 도메인의 적어도 하나의 파라미터를 산출하는 수단

을 포함하고,

상기 제1 파라미터 도메인의 상기 2개 이상의 파라미터들은 상기 제1 파라미터 도메인 내의 상기 오디오 신호의 상이한 프레임들로부터 유래하며, 시간-주파수 변환에 의해 획득되는 주파수 성분들인 트랜스코딩 장치.
제17항에 있어서, 2개 이상의 입력 파라미터들을 적어도 하나의 출력 파라미터로 선형적으로 변환하는 것은 시변적인 트랜스코딩 장치.
제17항에 있어서, 변환 계수들을 저장 및 검색하기 위한 하나 이상의 조회 테이블 수단을 더 포함하는 트랜스코딩 장치.
제17항에 있어서, 사전 정의된 분석 표현식들을 평가하기 위한 수단을 더 포함하는 트랜스코딩 장치.
제17항에 있어서, 상기 제1 파라미터 도메인(PD_A)의 오디오 프레임들(501)은 상기 제2 파라미터 도메인(PD_B)의 오디오 프레임들과는 상이한 프레임 어드밴스를 갖고, 상기 프레임 어드밴스는 프레임들의 시간 중첩을 기술하는 트랜스코딩 장치.
제17항에 있어서, 상기 제1 파라미터 도메인 및 상기 제2 파라미터 도메인의 상기 상이한 파라미터들은 시간-주파수 분석 및 시간-주파수 합성을 참조하는 파라미터들이고, 상기 제1 파라미터 도메인 및 상기 제2 파라미터 도메인은 상이한 시간-주파수 분석 및/또는 상이한 시간-주파수 합성을 이용하는 트랜스코딩 장치.
제17항에 있어서, 상기 선형적으로 변환하는 것은, 상기 제1 파라미터 도메인(PD_A)에 따른 시간-주파수 합성(T_SA), 중첩 가산(503), 분할(505) 및 상기 제2 파라미터 도메인(PD_B)에 따른 시간-주파수 분석(T_AB)을 적어도 기술하는 트랜스코딩 장치.
제23항에 있어서, 상기 시간-주파수 합성(T_SA) 및/또는 상기 시간-주파수 분석(T_AB)은 선형 블록 변환들 또는 선형 피드-포워드 필터 뱅크들에 대응하는 트랜스코딩 장치.
제17항에 있어서, 상기 제1 파라미터 도메인의 각 프레임(501)의 파라미터들은 상기 제2 파라미터 도메인의 2개 이상의 프레임(502)에 영향을 미치고, 상기 오디오 신호의 파형을 나타내는 트랜스코딩 장치.
제17항에 있어서, 상기 변환하는(T_T) 것은 상기 오디오 신호의 특정 주파수 부분을 생략하는 것을 포함하는 트랜스코딩 장치.
제26항에 있어서, 상기 오디오 신호의 특정 주파수 부분을 생략하는 것은 시변적이고, 상기 제1 파라미터 도메인 내의 상기 오디오 신호에 이용되는 비트 할당에 의존하는 트랜스코딩 장치.
삭제
삭제