KR20160122212A

KR20160122212A - 인코더, 디코더 및 인코딩과 디코딩을 위한 방법

Info

Publication number: KR20160122212A
Application number: KR1020167025084A
Authority: KR
Inventors: 탐 벡스트룀; 요하네스 피셔; 크리스티안 헴리히
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2014-03-14
Filing date: 2015-03-03
Publication date: 2016-10-21
Also published as: CA2942586A1; CA2942586C; JP2017516125A; EP3117430A1; KR101885193B1; MX363348B; BR112016020841B1; RU2662407C2; US20160372128A1; JP6543640B2; BR112016020841A2; EP2919232A1; MX2016011692A; CN106415716A; US10586548B2; WO2015135797A1; CN106415716B; RU2016140233A

Abstract

데이터 스트림 내로 오디오 신호를 인코딩하기 위한 인코더는 예측기, 인수분해기, 변환기 및 양자화 및 인코드 스테이지를 포함한다. 예측기는 오디오 신호의 스펙트럼 엔벨로프 또는 오디오 신호의 기본 주파수를 기술하는 예측 계수들을 획득하기 위하여 오디오 신호를 분석하고, 오디오 신호의 잔차 신호를 출력하기 위하여 예측 계수들에 의존하여 오디오 신호가 분석 필터 함수의 대상이 되도록 구성된다. 인수분해기는 인수분해된 매트릭스들을 획득하기 위하여 예측 계수들에 의해 정의되는 합성 필터 함수의 자가상관 또는 공분산 매트릭스 상으로 매트릭스 인수분해를 적용하도록 구성된다. 변환기는 변환된 잔차 신호를 획득하기 위하여 인수분해된 매트릭스들을 기초로 하여 잔차 신호를 변환하도록 구성된다. 양자화 및 인코드 스테이지는 양자화되고 변환된 잔차 신호 또는 인코딩된 양자화되고 변환된 잔차 신호를 획득하기 위하여 변환 잔차 신호를 양자화하도록 구성된다.

Description

인코더, 디코더 및 인코딩과 디코딩을 위한 방법{ENCODER, DECODER AND METHOD FOR ENCODING AND DECODING}

본 발명의 실시 예들은 데이터 스트림을 획득하기 위하여 오디오 신호를 인코딩하기 위한 인코더 및 오디오 신호를 획득하기 위하여 데이터 스트림을 디코딩하기 위한 디코더를 언급한다. 또 다른 실시 예들은 오디오 신호를 인코딩하고 데이터 스트림을 디코딩하기 위한 상응하는 방법을 언급한다. 또 다른 실시 예는 인코딩 및/또는 디코딩을 위한 방법들의 단계들을 실행하기 위한 컴퓨터 프로그램을 언급한다.

인코딩되는 오디오 신호는 예를 들면 음성 신호(speech signal)일 수 있는데, 즉 인코더는 음성 인코더와 상응하고 디코더는 음성 디코더와 상응한다. 음성 코딩에서 가장 흔히 사용되는 패러다임은 AMR-계통, G.718 및 MPEG USAC와 같은 표준들에서 사용되는 대수 부호 여진 선형 예측(algebraic code excited linear prediction, ACELP)이다. 이는 스펙트럼 엔벨로프를 모델링하기 위한 선형 예측기(LP), 기본 주파수를 모델링하기 위한 장기간 예측기(LTP) 및 잔차(residual)를 위한 대수 코드북으로 구성되는, 소스 모델을 사용하는 모델링 음성을 기초로 한다. 코드북 파라미터들은 지각적으로 가중된 합성 도메인 내에 최적화된다. 지각적 모델은 필터를 기초로 하며, 잔차로부터의 가중된 출력으로의 매핑은 선형 예측기 및 가중된 필터의 조합에 의해 설명된다.

ACELP 코덱들에서 계산 복잡도의 가장 큰 부분은 잔차의 양자화 상에 존재하는, 대수 코드북 엔트리의 선택 상에서 소비된다. 잔차 도메인으로부터 가증된 합성 도메인으로의 매핑은 본질적으로 크기(N x N)의 매트릭스의 곱셈이며, 여기서 N은 벡터 길이이다. 이러한 매핑에 기인하여, 가중된 출력 신호 대 잡음 비율(SNR)과 관련하여, 잔차 샘플들은 상관되고 독립적으로 양자화될 수 없다. 이는 모든 잠재적 코드북 벡터가 최상의 엔트리를 결정하기 위하여 가중된 합성 도메인 내에서 명시적으로 평가되어야만 한다는 사실을 따른다. 이러한 접근법은 합성에 의한 분석(analysis-by-synthesis) 알고리즘으로서 알려진다. 최적 성능은 코드북의 무차별 대입(brute-force) 검색으로서만 가능하다. 코드북 크기는 비트-레이트에 의존하나 B의 비트-레이트가 주어질 때, O(2^BN²)의 총 복잡도를 평가하기 위하여 2^B 엔트리가 존재하며, 이는 B가 11보다 크거나 또는 동일할 때 명확하게 비현실적이다. 실제로 코덱들은 따라서 복잡도 및 품질 사이에서 균형을 이루는 비-최적 양자화들을 사용한다. 정확도의 희생으로 복잡도를 제한하는 최상의 양자화의 발견을 위한 이러한 반복적 알고리즘들 중 일부가 제시되었다. 이러한 제한을 극복하기 위하여, 새로운 접근법이 필요하다.

본 발명의 목적은 오디오 신호들을 인코딩하고 디코딩하며 동시에 위의 단점들을 방지하기 위한 개념을 제공하는 것이다.

본 발명의 목적은 독립 청구항들에 의해 해결된다.

제 1 실시 예는 데이터 스트림 내로 오디오 신호를 인코딩하기 위한 인코더를 제공한다. 인코더는 (선형 또는 장기간) 예측기, 인수분해기(factorizer), 변환기(transformer), 그리고 양자화 및 인코드 스테이지(quantize and encode stage)를 포함한다. 예측기는 오디오 신호의 스펙트럼 엔벨로프 또는 오디오 신호의 기본 주파수를 기술하는 (선형 또는 장기간) 예측 계수들을 획득하기 위하여 오디오 신호를 분석하고, 오디오 신호의 잔차 신호를 출력하기 위하여 예측 계수들에 의존하여 오디오 신호가 분석 필터 함수의 대상이 되도록 구성된다. 인수분해기는 인수분해된 매트릭스들을 획득하기 위하여 예측 계수들에 의해 정의되는 합성 필터 함수의 자가상관 또는 공분산 매트릭스 상으로 매트릭스 인수분해를 적용하도록 구성된다. 변환기는 변환된 잔차 신호를 획득하기 위하여 인수분해된 매트릭스들을 기초로 하여 잔차 신호를 변환하도록 구성된다. 양자화 및 인코드 스테이지는 양자화되고 변환된 잔차 신호 또는 인코딩된 양자화되고 변환된 잔차 신호를 획득하기 위하여 변환 잔차 신호를 양자화하도록 구성된다.

또 다른 실시 예는 오디오 신호 내로 데이터 스트림을 디코딩하기 위한 디코더를 제공한다. 디코더는 디코드 스테이지(decoder stage), 재변환기(retranformer) 및 합성 스테이지를 포함한다. 디코드 스테이지는 인바운드(inbound) 양자화된 변환 잔차 신호를 기초로 하거나 또는 인바운드 인코딩되고 양자화된 변환 잔차 신호를 기초로 하여 변환 잔차 신호를 출력하도록 구성된다. 재변환기는 인수분해된 매트릭스들을 획득하기 위하여 오디오 신호의 스펙트럼 엔벨로프 또는 오디오 신호의 기본 주파수를 기술하는 예측 계수들에 의해 정의되는 합성 필터 함수의 자가상관 또는 공분산 매트릭스의 매트릭스 인수분해로부터 야기하는 인수분해된 매트릭스들을 기초로 하여 변환된 잔차 신호로부터 잔차 신호를 재변환시키도록 구성된다. 합성 스테이지는 예측 계수에 의해 정의되는 합성 필터를 사용함으로써 잔차 신호를 기초로 하여 오디오 신호를 합성하도록 구성된다.

이러한 두 가지 실시 예를 기초로 하여 알 수 있는 것과 같이, 인코딩 및 디코딩은 이러한 개념을 ACELP과 비교하도록 만드는, 2-단계 과정이다. 제 1 단계는 스펙트럼 엔벨로프 또는 기본 주파수에 대하여 합성의 양자화를 가능하게 하고, 제 2 단계는 또한 여진 신호로서 언급되고 스펙트럼 엔벨로프 또는 오디오 신호의 기본 주파수를 갖는 신호의 필터링 이후의 신호를 표현하는, 잔차 신호의 (직접적인) 양자화 또는 합성을 가능하게 한다. 또한, ACELP와 유사하게, 잔차 신호 또는 여진 신호의 양자화는 최적화 문제를 따르며, 여기에 개시된 원리들에 따른 최적화 문제의 목적 함수는 ACELP와 비교할 때 실질적으로 다르다. 상세히 설명하면, 본 발명의 원리들은 매트릭스 인수분해가 최적화 문제의 목적 함수를 역상관시키도록 사용되는 원리를 기초로 하며, 이에 의해 계산 비용이 많이 드는 반복이 방지될 수 있고 최적 성능이 보장된다. 개시된 실시 예들의 하나의 중심 단계인, 매트릭스 인수분해는 인코더 실시 예 내에 포함되고 바람직하게는, 그러나 반드시 그렇지는 않게, 디코더 실시 예 내에 포함될 수 있다.

매트릭스 인수분해는 상이한 기술들, 예를 들면 고유 값 분해, 방데르몽드 인수분해(Vandemonde factorization) 또는 어떠한 다른 인수분해를 기초로 할 수 있으며, 각각의 선택된 기술을 위하여 인수분해는 매트릭스, 예를 들면 인코딩 또는 디코딩의 제 1 단계(선형 예측기 또는 장기간 예측기)에서 제 1 오디오에 의해 검출되는 (선형 또는 장기간) 예측 계수들에 의해 정의되는, 합성 필터 함수의 자가상관 또는 공분산 매트릭스를 인수분해한다.

또 다른 실시 예에 따르면, 인수분해기는 매트릭스를 사용하여 저장되는 예측 계수들을 포함하는, 합성 필터 함수를 인수분해하거나, 또는 합성 필터 함수 매트릭스의 가중된 버전을 인수분해한다. 예를 들면, 인수분해는 방데르몽드 매트릭스(V), 대각 매트릭스(diagonal matrix, D) 및 방데르몽드 매트릭스의 변환-결합된(transform-conjuncted) 버전(V^*)의 사용에 의해 실행될 수 있다. 방데르몽드 매트릭스는 공식 R=V^*DV 또는 C=V^*DV를 사용하여 인수분해될 수 있으며, 자가상관 매트릭스(R) 또는 공분산 매트릭스(C)는 합성 필터 함수 매트릭스(H^*)의 변환된-결합된 버전 및 합성 함수 매트릭스(H)의 정규 버전에 의해 정의되며, 즉 R=H^*H이거나 또는 C=H^*H이다.

또 다른 실시 예에 따르면, 이전에 결정된 대각 매트릭스(D) 및 이전에 결정된 방데르몽드 매트릭스(V)로부터 시작하는, 변환기는 공식 y=D^1/ ²V_X 또는 공식 y=DV_X를 사용하여 잔차 신호(x)를 변환된 잔차 신호(y)로 변환한다.

또 다른 실시 예에 따르면, 양자화 및 인코딩 단계는 이제 양자화되고 변환된 잔차 신호(

)를 획득하기 위하여 변환된 잔차 신호(y)를 양자화할 수 있다. 이러한 변환은 위에 설명된 것과 같이, 최적화 문제이며, 목적 함수(

)가 사용된다. 여기서, 이러한 목적 함수는 ACELP 인코더 내에서 사용되는 목적 함수와 같은, 상이한 인코딩 또는 디코딩 방법들을 위하여 사용되는 목적 함수들과 비교하여, 감소된 복잡도를 갖는 것이 바람직하다.

일 실시 예에 따르면, 디코더는 예를 들면 데이터 스트림과 함께, 인코더로부터 인수분해된 매트릭스들을 수신하거나 또는 또 다른 실시 예에 따르면 디코더는 매트릭스 인수분해를 실행하는 최적 인수분해기를 포함한다. 바람직한 실시 예에 따르면 디코더는 직접적으로 인수분해된 매트릭스들을 수신하고 이러한 인수분해된 매트릭스들로부터 예측 계수들을 편향시키는데, 그 이유는 매트릭스들이 예측 계수들 내에 고유의 기원(origin)을 갖기 때문이다(예를 들면 인코더). 이러한 실시 예는 디코더의 복잡도를 더 감소시키는 것을 가능하게 한다.

또 다른 실시 예들은 오디오 신호를 데이터 스트림 내로 인코딩하기 위한 그리고 데이터 스트림을 오디오 신호 내로 디코딩하기 위한 상응하는 방법들을 제공한다. 부가적인 일 실시 예에 따르면 인코딩하기 위한 방법뿐만 아니라 디코딩하기 위한 방법은 컴퓨터의 중앙 처리 장치(CPU)와 같은, 프로세서에 의해 실행될 수 있거나 또는 적어도 부분적으로 실행될 수 있다.

본 발명의 실시 예들은 첨부된 도면들을 참조하여 설명될 것이다.
도 1a는 제 1 실시 예에 따라 오디오 신호를 인코딩하기 위한 인코더의 개략적인 블록 다이어그램을 도시한다.
도 1b는 제 1 실시 예에 따라 오디오 신호를 인코딩하기 위한 상응하는 방법의 개략적인 플로우 차트를 도시한다.
도 2a는 제 2 실시 예에 따라 데이터 스트림을 디코딩하기 위한 디코더의 개략적인 블록 다이어그램을 도시한다.
도 2b는 제 2 실시 예에 따라 데이터 스트림을 디코딩하기 위한 상응하는 방법의 개략적인 플로우 차트를 도시한다.
도 3a는 상이한 양자화 방법들을 위하여 프레임 당 비트들의 함수로서 평균 지각적 신호 대 잡음 비율을 나타내는 개략적인 다이어그램을 도시한다.
도 3b는 프레임 당 비트들의 함수로서 상이한 양자화 방법들의 정규화된 실행 시간을 나타내는 개략적인 다이어그램을 도시한다.
도 3c는 방데르몽드 변환의 특성들을 나타내는 개략적인 다이어그램을 도시한다.

본 발명의 실시 예들은 첨부된 도면들을 참조하여 아래에 더 상세히 설명될 것이다. 여기서, 그것들의 설명이 호환 가능하거나 상호 적용 가능하도록 동일하거나 또는 유사한 기능을 갖는 대상들에 동일한 도면 부호들이 제공된다.

도 1a는 기본 구성에서의 인코더(10)를 도시한다. 인코더(10)는 여기서는 선형 예측기(12)로서 구현되는, 예측기(12)뿐만 아니라, 인수분해기(14), 변환기(16), 그리고 양자화 및 인코드 스테이지(18)를 포함한다.

선형 예측기(12)는 오디오 신호(AS), 바람직하게는 펄스 코드 변조 신호(pulse code modulated signal, PCM)와 같은 디지털 오디오 신호를 수신하도록 입력에 배치된다. 선형 예측기(12)는 인수분해기(14) 및 이른바 선형 예측 계수-채널 선형 예측 계수들(LPC)을 통하여, 인코더의 출력, 예를 들면 도면 부호 DS_LPC/DS_DV에 결합된다. 게다가, 선형 예측기(12)는 이른바 잔차 채널)을 통하여 변환기(16)에 결합된다. 반대로, 변환기(16)는 (잔차 채널에 더하여) 그것의 입력 면에서 인수분해기(14)에 결합된다. 그것의 출력 면에서 변환기는 양자화 및 인코드 스테이지(18)에 결합되며, 양자화 및 인코드 스테이지(18)는 출력(예를 들면 도면 부호

)에 결합된다. 두 개의 데이터 스트림(DS_LPC/DS_DV 및

)은 출력되는 데이터 스트림(DS)을 형성한다.

인코더(10)의 기능성이 아래에 설명될 것이며, 부가적으로 인코딩을 위한 방법(100)을 설명하는 도 1b가 참조된다. 도 1b에 따라 알 수 있는 것과 같이, 데이터 스트림(DS) 내로 오디오 신호(AS)를 인코딩하기 위한 기본 방법(100)은 유닛들(12, 14, 16 및 18)에 의해 실행되는 4가지 기본 단계(120, 140, 160 및 180)를 포함한다. 제 1 단계(120)에서, 선형 예측기(12)는 선형 예측 계수들(LPC)을 획득하기 위하여 오디오 신호(AS)를 분석한다. 선형 예측 계수들(LPC)은 기본적으로 나중에 이른바 합성 필터 함수(H)를 사용하여 오디오 신호의 합성을 가능하게 하는 오디오 신호(AS)의 스펙트럼 엔벨로프를 기술한다. 합성 필터 함수(H)는 선형 예측 계수들에 의해 정의되는 함성 필터 함수의 가중된 값들을 포함할 수 있다. 선형 예측 계수들(LPC)은 선형 예측 계수-채널 선형 예측 계수를 사용하여 인수분해기(14)로 출력될 뿐만 아니라 인코더(10)의 출력으로 전송된다. 선형 예측기(12)는 게다가 오디오 신호(AS)가 선형 예측 계수들(LPC)에 의해 정의되는 분석 필터 함수(H)의 대상이 되도록 한다. 이러한 과정은 디코더에 의해 실행되는 선형 예측 계수들을 기초로 하는 오디오 신호의 합성의 대응 과정이다. 이러한 하위 단계의 결과는 필터 함수(H)에 의해 기술 가능한 신호 부분 없이 변환기(16)에 출력된 잔차 신호(x)이다. 이러한 단계는 프레임 방식으로 실행된다는 사실, 즉 진폭 및 시간 도메인을 갖는 오디오 신호(AS)는 예를 들면 5ms의 길이를 갖는, 시간 윈도우들(샘플들)로 세분되거나 또는 샘플링되고, 주파수 도메인 내에서 양자화된다는 사실에 유의하여야 한다.

뒤따르는 단계는 변환기(16)에 의해 실행되는 잔차 신호(x)의 변환이다(예를 들면, 방법 단계 160). 변환기(16)는 양자화 및 인코드 스테이지(18)에 출력되는 변환된 잔차 신호(y)를 획득하기 위하여 잔차 신호(x)를 변환하도록 구성된다. 예를 들면, 변환(160)은 공식 y=D^1/ ²V_X 또는 공식 y=DV_X를 기초로 할 수 있으며, 매트릭스들(D 및 V)은 인수분해기(14)에 의해 제공된다. 따라서, 잔차 신호(x)의 변환은 바람직하게는 방데르몽드 매트릭스로 언급되는 V 및 바람직하게는 대각 매트릭스로서 언급되는 D의, 적어도 두 개의 인수분해된 매트릭스를 기초로 한다.

적용되는 매트릭스 인수분해는 예를 들면 고유 값 분해, 방데르몽드 인수분해, 콜레스키 분해(Cholesky decomposition) 또는 이와 유사한 분해와 같이, 자유롭게 선택될 수 있다. 방데르몽드 인수분해는 방데르몽드 매트릭스들(V 및 V^*)로의 자가상관 매트릭스들과 같은, 대칭의, 양의 값의(positive definite) 테플리츠 매트릭스(Toeplitz matrix)들의 인수분해로서 사용될 수 있다. 자가상관 매트릭스들을 위하여, 목적 함수 내에서, 일반적으로 방데르몽드 변환으로 불리는, 이는 왜곡 이산 푸리에 변환(wrapped discrete Fourier transform)과 상응한다. 인수분해기(14)에 실행되는 매트릭스 인수분해의 단계(140) 및 본 발명의 기본 부분의 표현은 양자화 및 인코드 스테이지(18)의 기능성의 설명 이후에 상세히 논의될 것이다.

양자화 및 인코드 스테이지(18)는 양자화되고 변환된 잔차 신호(

)를 획득하기 위하여, 변환기(16)로부터 수신된, 변환된 잔차 신호(y)를 양자화한다. 이러한 변환되고 양자화된 잔차 신호(

)는 데이터 스트림(

)의 일부분으로서 출력된다. 전체 데이터 스트림(DS)은 DS_LPC/DS_DV에 의해 언급되는, 선형 예측 계수-부분, 및

에 의해 언급되는

부분을 포함하는 것에 유의하여야 한다.

변환 잔차 신호(y)의 양자화는 예를 들면

과 관련하여, 목적 함수를 사용하여 실행될 수 있다. 이러한 목적 함수는 ACELP 인코더의 일반적인 목적 함수와 비교할 때, 인코딩이 바람직하게는 그것의 성능과 관련하여 향상되도록 감소된 복잡도를 갖는다. 이러한 성능 향상은 높은 해상도를 갖는 오디오 신호들(AS)의 인코딩 또는 필요한 자원들의 감소를 위하여 사용될 수 있다.

신호(

)는 인코딩된 신호일 수 있으며, 인코딩은 양자화 및 인코드 스테이지(18)에 의해 실행된다는 사실에 유의하여야만 한다. 따라서, 또 다른 실시 예들에 따르면, 양자화 및 인코드 스테이지(18)는 산술 인코딩하도록 구성될 수 있는 인코더를 포함할 수 있다. 양자화 및 인코드 스테이지(18)의 인코더는 선형 양자화 단계들(즉, 동일한 거리) 또는 대수와 같은, 가변 양자화 단계들을 사용할 수 있다. 대안으로서, 인코더는 또 다른 (무손실) 엔트로피 인코딩을 실행하도록 구성될 수 있으며, 코드 길이는 단일 입력 신호들(AS)의 확률의 함수에 따라 변한다. 따라서, 최적 코드 길이를 획득하기 위하여 합성 엔벨로프를 기초로 하고 따라서 선형 예측 계수들을 기초로 하여 입력 신호들의 확률을 검출하는 것이 대안의 선택일 수 있다. 따라서, 양자화된 인코딩 스테이지는 또한 선형 예측 계수 채널을 위한 입력을 가질 수 있다.

아래에, 목적 함수(η(y))의 복잡도 감소를 가능하게 하는 배경이 설명될 것이다. 위에 언급된 것과 같이, 향상된 인코딩은 인수분해기(14)에 의해 실행되는 매트릭스 인수분해(140)의 단계를 기초로 한다. 인수분해기(14)는 매트릭스, 예를 들면 선형 예측 계수들(예를 들면, 선형 예측 계수 채널의)에 의해 정의되는 필터 합성 함수(H)의 자가상관 매트릭스(R) 또는 공분산 매트릭스(C)를 인수분해한다. 인수분해의 결과는 두 개의 인수분해된 매트릭스, 예를 들면 방데르몽드 매트릭스(V) 및 단일 선형 예측 계수들을 포함하는 원래 매트릭스(H)를 표현하는 대각 매트릭스(D)이다. 이에 기인하여 잔차 신호(x)의 샘플들은 역상관된다. 이는 변환 잔차 신호의 직접적인 양자화(예를 들면, 단계 180)가 최적 양자화이며, 이에 의해 계산 복잡도는 비트 레이트에 거의 독립적이라는 사실을 따른다. 이와 대조적으로, ACELP 코드북의 최적화에 대한 종래의 접근법은 특히 높은 비트 레이트들에서, 계산적 복잡도 및 정확도 사이에 균형을 이루어야만 한다. 배경은 따라서 종래의 ACELP 선례들로부터 시작하여 논의된다.

ACELP의 종래의 목적 함수는 공분산 매트릭스의 형태를 갖는다. 향상된 접근법에 따르면 가중된 합성 함수의 자가상관 매트릭스를 사용하는 대안의 목적 함수가 존재한다. 코덱들은 지각적으로 가중된 합성 도메인 내의 ACELP 최적화된 신호 대 잡음 비율(SNR)을 기초로 하였다. 목적 함수는 다음과 같이 표현될 수 있으며:

여기서 x는 표적 잔차이고,

는 양자화된 잔차이며, H는 가중된 합성 필터와 상응하는 컨볼루션 매트릭스(convolution matrix)이며, γ는 스케일 이득 계수이다. 최적 양자화(

)를 발견하기 위하여, 표준 접근법은 η(x,y)의 미분의 제로에서 γ^*로 표시되는, γ의 최적 값을 발견하는 것이다. 방정식 (1)에 최적 γ^*을 삽입함으로써, 새로운 목적 함수가 획득되며:

여기서 H^*는 함수(H)를 갖는 합성의 변환된-결합된 버전이다.

종래의 접근법(H)은 정사각형 하부 삼각(lower triangular) 컨볼루션 매트릭스이며, 이에 의해 공분산 매트릭스(C=H^*H)는 대칭 공분산 매트릭스라는 사실에 유의하여야 한다. 하부 삼각 매트릭스의 완전 크기(full size) 컨볼루션 매트릭스로의 대체, 이에 의한 자가상관 매트릭스(R=H^*H)는 가중된 합성 필터의 다른 상관과 상응하는, 대칭 테플리츠 매트릭스이다. 이러한 대체는 품질에 대한 최소 영향으로, 상당한 복잡도의 감소를 제공한다.

선형 예측기(14)는 모두, 즉 매트릭스 인수분해를 위하여 공분산 매트릭스(C) 또는 자가상관 매트릭스(R)를 사용할 수 있다. 아래의 설명은 자가상관(R)이 선형 예측 계수들에 의존하는 매트릭스의 인수분해에 의한 목적 함수의 변형을 위하여 사용된다는 가정 하에서 만들어진다. R과 같은 대칭의 양의 값으로 정의되는 테플리츠 매트릭스들은 고유 값 분해를 포함하는, 몇몇 방법들을 통하여 다음과 같이 분해될 수 있다:

R = V^*DV (3)

여기서, V^*는 방데르몽드 매트릭스(V)의 변환된 결합된 버전이다. 공분산 매트릭스(C)를 사용하는 종래의 접근법에서 단일 값 분해(C=USV)와 같은 다른 인수분해가 적용될 수 있다.

자가상관 매트릭스를 위하여, 여기서는 또한 방정식 (3)의 형태인, 방데르몽드 인수분해로 언급되는, 대안의 인수분해가 사용될 수 있다. 방데르몽드 인수분해는 인수분해/변환을 가능하게 하는 새로운 개념이다. 방데르몽드 매트릭스는

의 값을 갖는 V이며

D는 엄격하게 양의 엔트리들을 갖는 대각 매트릭스이다. 분해는 복잡도(O(N³))를 갖는 임의 정밀도로 계산될 수 있다. 직접적인 분해는 일반적으로

의 계산 복잡도를 가지나, 여기서 이는

으로 감소될 수 있거나 또는 만일 근사치 인수분해가 충분하면, 복잡도는 O(N log N)으로 감소될 수 있다. 선택된 분해를 위하여, 이는 다음과 같이 정의될 수 있으며:

여기서 x=V^-1D^- ^1/2 _y이며, 방정식 (2)로 삽입하면, 이는 다음과 같이 획득될 수 있다:

여기서, y의 샘플들은 서로 상관되지 않으며, 위의 목적 함수는 표적 및 양자화된 잔차 사이의 정규화 상관에 불과하다는 것에 유의하여야 한다. 이는 y의 샘플들이 독립적으로 양자화될 수 있으며 만일 모든 샘플의 정밀도가 동일하면, 이러한 방정식은 최상의 가능한 정밀도를 산출하는 것으로 보인다.

방데르몽드 인수분해의 경우에서, V는

의 값을 갖기 때문에, 이는 왜곡 이산 푸리에 변환과 상응하고 y의 요소들은 잔차의 주파수 성분과 상응한다. 게다가, 대각 매트릭스(D)의 곱셈은 주파수 대역들의 스케일링과 상응하며 이는 y가 잔차의 주파수 도메인 표현인 것이 된다.

이와 대조적으로, 고유 값 분해는 고유 값 분해 및 푸리에 변환이 일치할 때, 윈도우 길이가 무한을 접근할 때만의 물리적 해석을 갖는다. 유한-길이 고유 값 분해들은 따라서 신호의 주파수 표현과 느슨하게 관련되나, 주파수들로의 성분들의 라벨링은 어렵다. 여전히, 고유 값 분해는 최적 기본으로 알려져 있으며, 이는 일부 경우들에서 최상의 성능을 제공한다.

이러한 두 개의 인수분해된 매트릭스(V 및 D)로부터 시작하여 변환기(16)는 방정식 (5)에 의해 정의되는 역상관된 벡터를 사용하여 잔차 신호(x)가 변환되도록 변환(160)을 실행한다.

x는 비-상관 백색 잡음으로 가정하면, V_X의 샘플들은 또한 동일한 에너지 기대를 가질 것이다. 이의 결과로서, 산술 인코더 또는 값들을 인코딩하기 위하여 대수 코드북을 사용하는 인코더가 사용될 수 있다. 그러나, V_X의 양자화는 목적 함수와 관련하여 최적이지 않은데 그 이유는 그것이 대각 매트릭스(D^1/2)를 누락시키기 때문이다. 다른 한편으로, 완전 변환(y=D^1/ ²V_X)은 y의 샘플들의 에너지 기대를 변경하는, 대각 매트릭스(D)에 의한 스케일링을 포함한다. 비-균일 분산을 갖는 대수 코드북은 간단하지가 않다. 따라서, 최적 비트 소비를 획득하기 위하여 대신에 산술 코드북을 사용하는 것이 선택이 될 수 있다. 산술 코딩은 그리고 나서 정확하게 [14]에 나타낸 것과 같이 정의될 수 있다.

만일 방데르몽드 변환 또는 또 다른 복합 변환과 같은, 분해가 사용되면, 실수 및 허수 부분들은 독립적인 임의 변수들이라는 사실에 유의하여야 한다. 만일 복합 변수의 변형들이 σ²이면, 실수 및 허수 부분들은 σ²/2의 분산을 갖는다. 고유 값 분해와 같은 실수 값 분해는 실수 값들만을 제공하며, 이에 의해 실수 및 허수 부분들의 분리가 필요하지 않다. 복합 값의 변환들을 갖는 높은 성능을 위하여, 복합 값들의 산술 코딩을 위한 종래의 방법들이 적용될 수 있다.

위의 실시 예에 따르면 예측 계수들(LPC, 예를 들면 DS_LPC)은 선 스펙트럼 주파수(LSF) 신호들로서 출력되며, 인수분해된 매트릭스들(V 및 D, 예를 들면 (DS_VD)) 내에 예측 계수들(LPC)을 출력하는 것이 대안의 선택이다. 이러한 대안의 선택은 V,D에 의해 표시되는 파선 및 DS_DV가 인수분해기(14)의 출력으로부터 야기한다는 표시에 의해 나타낸다.

따라서, 본 발명의 또 다른 실시 예는 두 개의 인수분해된 매트릭스(DS_VD) 형태의 예측 계수들(LPC)을 포함하는 데이터 스트림(DS)를 언급한다.

도 2와 관련하여 디코더(20) 및 디코딩을 위한 상응하는 방법(200)이 설명될 것이다.

도 2a는 디코드 스테이지(decode stage, 22), 선택적 인수분해기(24), 재변환기(26) 및 합성 스테이지(28)를 포함하는 디코더(20)를 도시한다. 디코드 스테이지(22)뿐만 아니라 인수분해기(24)는 디코더(20)의 입력에 배치되고 따라서 데이터 스트림(DS)을 수신하도록 구성된다. 상세히 설명하면, 데이터 스트림(DS)의 제 1 부분, 즉 선형 예측 계수들이 선택적 인수분해기(24, 예를 들면 DS_LPC/DS_DV)에 제공되며, 제 2 부분, 즉 양자화된 변환 잔차 신호(

) 또는 인코딩되고 양자화된 변환 잔차 신호(

)는 인코드 스테이지(22, 예를 들면

)에 제공된다. 합성 스테이지(28)는 디코더(20)의 출력에 배치되고 오디오 신호(AS)와 유사하나 동일하지 않은, 오디오 신호(AS')를 출력하도록 구성된다.

오디오 신호(AS')의 합성은 선형 예측 계수들(예를 들면, DS_LPC/DS_DV)을 기초로 하고 잔차 신호(x)를 기초로 한다. 따라서, 합성 스테이지(28)는 DS_LPC를 수신하기 위한 입력 및 잔차 신호(x)를 제공하는 재변환기(26)에 결합된다. 재변환기(26)는 변환된 잔차 신호(y)를 기초로 하고 적어도 두 개의 인수분해된 매트릭스(V 및D)를 기초로 하여 잔차 신호(x)를 계산한다. 따라서, 재변환기(26)는 적어도 두 개의 입력, 즉 예를 들면 인수분해기(24)로부터 V 및 D를 수신하기 위한 제 1 입력, 및 디코더 스테이지로부터 변환된 잔차 신호(y)를 수신하기 위한 하나를 갖는다.

디코더(20)의 기능성은 도 2b에 도시된 상응하는 방법(200)을 참조하여 아래에 상세히 설명될 것이다. 디코더(20)는 데이터 스트림(DS)을 수신한다(인코더로부터). 이러한 데이터 신호(DS)는 디코더(20)가 오디오 신호(AS')를 합성하는 것을 가능하게 하며, DS_LPC/DS_DV에 의해 언급되는 데이터 스트림의 부분은 기본 신호의 합성을 가능하게 하며,

에 의해 언급되는 부분은 오디오 신호(AS')의 상세한 부분의 합성을 가능하게 한다. 제 1 단계(220) 내에서 디코더 스테이지(22)는 인바운드 신호(

)를 디코딩하고 변환된 잔차 신호(y)를 재변환기(26)로 출력한다(예를 들면, 단계 260).

병렬로 또는 직렬로 인수분해기(24)는 인수분해를 실행한다(예를 들면 단계 240). 단계 140과 관련하여 설명된 것과 같이, 인수분해기(24)는 합성 필터 함수(H)의 자가상관 매트릭스(R) 또는 공분산 매트릭스(C) 상으로 매트릭스 인수분해를 적용하는데, 즉 디코더(20)에 의해 사용되는 인수분해는 인코딩(예를 들면, 단계 100)의 맥락에서 설명된 인수분해와 유사하거나 또는 거의 유사하며, 따라서 위에 설명된 것과 같은 고유 값 분해 또는 콜레스키 인수분해일 수 있다. 여기서, 합성 필터 함수(H)는 인바운드 데이터 스트림(DS_LPC/DS_DV)으로부터 유도된다. 게다가, 인수분해기(24)는 두 개의 인수분해된 매트릭스(V 및 D)를 재변환기(26)로 출력한다.

두 개의 매트릭스(V 및 D)를 기초로 하여 재변환기(26)는 변환된 잔차 신호(y)로부터 잔차 신호(x)를 재변환하고 x를 합성 스테이지(28)로 출력한다(예를 들면, 단계 280). 합성 스테이지(28)는 잔차 신호(x)를 기초로 하고 또한 데이터 스트림(DS_LPC/DS_DV)으로서 수신된 선형 예측 계수들(LPC)을 기초로 하여 오디오 신호(AS')를 합성한다. 오디오 신호(AS')는 오디오 신호(AS)와 유사하나 동일하지는 않다는 것에 유의하여야 하는데, 그 이유는 인코더(10)에 의해 실행되는 양자화는 무손실이 아니기 때문이다.

또 다른 실시 예에 따르면, 인수분해된 매트릭스들(V 및 D)은 또 다른 엔트리로부터, 예를 들면 인코더(10)로부터 직접적으로(데이터 스트림의 일부분으로서) 재변환기(26)에 제공될 수 있다. 따라서, 디코더(20)의 인수분해기(24)뿐만 아니라 매트릭스 인수분해의 단계(240)는 선택적 엔트리들/단계들이며 따라서 파선들로 도시된다. 여기서, 예측 계수들(LPC, 이를 기초로 하여 합성(280)이 실행되는)은 인바운드 인수분해된 매트릭스들(V 및 D)로부터 유도될 수 있다는 것이 대안의 선택이다. 바꾸어 말하면 이는 데이터 스트림(DS)이

및 DS_LPC 대신에

및 매트릭스들(V 및 D, 즉 DS_DV)을 포함하는 것을 의미한다.

위에 설명된 인코딩(뿐만 아니라 디코딩)의 성능 향상들은 도 3a 및 3b와 관련하여 아래에 설명된다.

도 3a는 수신 가능한 길이 및 동일한 64 프레임의 인코딩을 위하여 사용되는 비트들의 함수로서 평균 지각적 신호 대 잡음 비율을 나타내는 다이어그램을 도시한다. 다이어그램에서 5가지 상이한 양자화 접근법을 위한 5개의 곡선이 도시되며, 두 가지 접근법, 즉 최적 양자화 및 쌍방식(pairwise) 반복적 양자화는 종래의 접근법들이다. 공식 (1)은 이러한 비교의 기본을 형성한다. 제안된 역상관 방법의 양자화 성능의 종래의 잔차 신호의 시간 도메인 표현과의 비교로서, ACELP 코덱은 다음과 같이 구현되었다. 입력 신호는 12.8㎑로 재샘플링되었고 선형 예측기는 각각의 프레임을 중심으로 하여, 길이 32ms의 해밍 윈도우(Hamming window)로 추정되었다.예측 잔차는 그리고 나서 AMR-WB 코덱의 서브프레임과 상응하는, 길이 5ms의 프레임을 위하여 계산되었다. 장기간 예측기는 전역 탐색(exhaustive search)으로, 32 및 150 샘플들 사이의 정수 래그들(integer lags)에서 최적화되었다. 최적 값은 양자화 없이 LTP 이득을 위하여 사용되었다.

필터(1-0.68z^- ¹)와의 프리-엠퍼시스(pre-emphasis)가 입력 신호 및 AMR-WB에서와 같은 합성에 적용되었다. 적용된 지각적 가중은 A(0.92z^- ¹)였으며, 여기서 A(z)는 선형 예측 필터이다.

성능을 평가하기 위하여 제안된 양자화를 종래의 접근법들(최적 양자화 및 쌍방식 반복적 양자화)과 비교하는 것이 필요하다. 가장 흔히 사용되는 접근법들은 64 프레임 길이의 프레임의 잔차 신호를 4개의 비월 트랙(interlaced track)으로 세분한다. 이러한 접근법은 두 가지 방법, 즉 모든 조합이 전역 탐색으로 시도되는 최적 양자화(예를 들면 Opt에 의한) 접근법 또는 매 가능한 위치 상에 그것들을 시도함으로써 두 개의 펄스가 연속적으로 추가되는 쌍방식 반복적 양자화(예를 들면, Pair)와 함께 적용되었다.

전자는 프레임 당 15 비트 위의 비트 레이트들을 위하여 계산적으로 실행 불가능하게 복잡해지며, 반면에 후자는 차선이다. 또한 후자는 AMR-WB와 같은 코덱들에서 적용되는 최신 방법들보다 더 복잡하나, 따라서 이는 또한 아마도 더 나은 신호대 잡음 비율을 산출한다는 것에 유의하여야 한다. 종래의 방법들이 양자화를 위하여 위에 설명된 알고리즘들과 비교된다.

방데르몽드 양자화(예를 들면, Vand)는 y = D^1/ ²V_x에 의해 잔차 벡터(x)를 변환하며 매트릭스들(V 및 D)은 방데르몽드 인수분해로부터 획득되고 양자화는 산술 코더를 사용한다. 고유 값 양자화(예를 들면, Eig)는 방데르몽드 양자화와 유사하나 매트릭스들(V 및 D)이 고유 값 분해들로부터 획득된다. 게다가, 또한 고속 푸리에 변환 양자화(예를 들면, FFT)가 적용될 수 있으며, 즉 또 다른 실시 예에 따르면 y = D^1/ ²V_x의 변환에서 필터들을 사용하는 윈도우잉의 조합이 이산 푸리에 변환(DFT), 이산 코사인 변환(DCT), 변형 이산 코사인 변환(MDCT) 또는 신호 처리 알고리즘들 내의 다른 변환을 대신해서 사용될 수 있다. 잔차 신호의 고속 푸리에 변환(FFT)이 얻어지며 방데르몽드 양자화를 위한 것과 동일한 산술 코더가 적용된다. 고속 푸리에 변환 접근법은 명백하게 좋지 않은 품질을 제공하는데 그 이유는 방정식 (2)에서 샘플들 사이의 상관을 고려하는 것이 중요하다고 알려지기 때문이다. 이러한 양자화는 따라서 낮은 기준 점이다.

설명된 방법의 성능의 입증이 평균 긴 지각적 신호 대 잡음 비율 및 방정식 (1)에 정의된 것과 같은 복잡도를 평가하는 도 3a에 이해 도시된다. 예상한 것과 같이, 고속 푸리에 변환-도메인 내의 양자화는 최악의 신호 대 잡음 비율을 제공한다는 것을 명백하게 알 수 있다. 부족한 성능은 이러한 양자화가 잔차 샘플들 사이의 상관을 고려하지 않는다는 사실로 여겨진다. 게다가, 시간-도메인 잔차 신호들의 최적 양자화는 프레임 당 5 및 10 비트에서 쌍-방식 최적화와 동일한 것으로 명시될 수 있는데, 그 이유는 그러한 비트 레이트들에서 1 또는 2개의 펄스만이 존재하기 때문이며, 이에 의해 방법들은 정확하게 동일하다. 프레임 당 15 비트를 위하여 최적 방법은 예상한 것과 같이 쌍-방식보다 약간 더 뛰어나다.

프레임 당 10 비트 및 그 이상에서, 방데르몽드 도메인 내의 양자화는 시간-도메인 양자화보다 더 낫고 고유 값 도메인은 방데르몽드 도메인보다 더 나은 하나의 단계이다. 프레임 당 5 비트에서 산술 코더들의 성능은 아마도 빠르게 감소하는데 그 이유는 그것이 매우 드문 신호들을 위한 차선인 것으로 알려졌기 때문이다.

또한 쌍-방식 방법이 프레임 당 80 비트 위로 쌍-방식 방법으로부터 편향되도록 시작하는 것을 관찰한다. 비공식 실험은 이러한 경향이 결과적으로 고속 푸리에 변환 및 쌍-방식 방법들이 고유 값 및 방데르몽드 방법들보다 훨씬 낮은, 유사한 신호 대 잡음 비율에 도달하도록 높은 비트 레이트들에서 증가하는 것을 나타낸다. 이와 대조적으로, 고유 값 및 방데르몽드 값은 거의 비트 레이트의 선형 함수들만큼 지속한다. 고유 값 방법은 방데르몽드 방법보다 일정하게 대략 0.36dB 더 낫다. 가설은 이러한 차이의 적어도 일부분은 산술 코더 내의 실수 및 복소수 부분들의 분리에 의해 경험된다는 것이다. 최적 성능을 위하여, 실수 및 복소수 부분은 공동으로 인코딩되어야만 한다.

도 3b는 상이한 알고리즘들의 복잡도의 추정을 설명하기 위하여 각각의 비트 레이트에서 각각의 접근법의 구동 시간의 측정을 도시한다. 최적 시간-도메인 접근법(예를 들면, Opt)의 복잡도는 이미 낮은 비트 레이트들에서 증가되는 것을 알 수 있다. 시간-도메인 잔차의 쌍 방식 최적화(예를 들면, Pair)는 차례로, 함수 비트레이트로서 선형으로 증가한다. 종래 방법들의 상태는 도 3a에 도시된 실험의 경쟁적 신호 대 잡음 비율 결과들이 그러한 제한들로 도달될 수 없더라도 높은 비트 레이트들을 위하여 일정하게 되도록 쌍-방식 접근법을 제한한다는 것에 유의하여야 한다. 또한, 두 역상관 접근법(예를 들면, Eig 및 Vand) 모두뿐만 아니라 이산 푸리에 변환(예를 들면, FFT)은 대략 일정한 전체 비트 레이트들이다. 방데르몽드 변환은 위의 구현에서 대략 고유 값 분해 방법보다 50% 높은 복잡도를 가지나 이러한 이유는 MATLAB에 의해 제공되는 고유 값 분해의 고도로 최적화된 버전의 사용에 의해 설명될 수 없으며, 반면에 방데르몽드 인수분해는 최적 구현이 아니다. 중요하게도, 그러나, 프레임 당 100 비트의 비트 레이트에서, 쌍-방식 최적화 ACELP는 각각 방데르몽드 및 고유 값 분해 기반 알고리즘에 대략 30 및 50배 복잡하다. 이산 푸리에 변환만이 고유 값 분해보다 빠르나, 이산 푸리에 변환의 신호 대 잡음 비율이 부족하기 때문에, 이는 실행 가능한 선택이 아니다.

요약하면, 위에 설명된 방법은 두 가지 중요한 혜택을 갖는다. 첫 번째로, 지각적 도메인 내에 양자화를 적용함으로써, 지각적 신호 대 잡음 비율이 향상된다. 두 번째로, 잔차 신호가 역상관되기 때문에(목적 함수와 관련하여) 양자화는 고도로 복잡한 합성에 의한 분석 루프 없이, 직접적으로 적용될 수 있다. 이는 제안된 방법의 계산 복잡도는 비트 레이트들과 관련하여 거의 일정하며, 반면에 종래의 접근법은 비트 레이트의 증가와 함께 증가적으로 복잡해진다는 것을 따른다.

위에 제시된 접근법은 종래의 음성 및 오디오 코딩 방법들로 완전히 작동될 수 없다. 특히, 목적 함수의 역상관은 코덱 내에 존재하는 다른 툴들(tools)에 대한 제한 없이, MPEG USAC 또는 AMR-WB+와 같은 코드들의 ACELP 모드에서 적용될 수 있다. 코어 대역폭 또는 대역폭 확장 방법들이 적용되는 방법들은 그대로 유지될 수 있으며, ACELP 내의 장기간 예측, 포먼트 향상, 베이스 후 필터링(bass post filtering) 등이 변경될 필요가 없는 방법들, 및 그러한 상이한 코딩 모드들이 구현되는(ACELP 및 TCX와 같은) 방법들 및 이러한 모드들 사이의 스위칭은 목적 함수의 역상관으로부터 영향을 받지 않을 수 있다.

다른 한편으로, 동일한 목적 함수(예를 들면, 방정식 (1))를 사용하는 모든 툴(즉, 적어도 모든 ACELP 구현)이 역상관의 장점을 얻도록 쉽게 재구성될 수 있다는 사실은 자명하다. 따라서, 또 다른 실시 예에 따르면, 예를 들면 장기간 예측 기여에 대한 역상관이 적용될 수 있으며, 따라서 이득 인자들이 역상관된 신호들을 사용하여 계산될 수 있다.

게다가, 제시된 변환 도메인은 주파수 도메인 표현이기 때문에, 주파수 도메인 음성 및 오디오 코덱들의 고전적 방법들이 또한 또 다른 실시 예들에 따라 이러한 신규 도메인에 적용될 수 있다. 특정 실시 예에 따르면, 스펙트럼 라인들의 양자화에서, 무감대(dead-zone)가 효율을 증가시키도록 적용될 수 있다. 또 다른 실시 예에 따르면, 잡음 충전(noise filling)이 스펙트럼 홀들을 방지하도록 적용될 수 있다.

비록 위의 인코딩의 실시 예(예를 들면, 도 1a 및 1b)가 선형 예측기를 사용하는 인코더의 맥락에서 설명되었으나, 예측기는 또한 오디오 신호(AS)의 기본 주파수를 기술하는 장기간 예측 계수들을 결정하고 장기간 예측 계수들에 의해 정의되는 필터 함수를 기초로 하여 오디오 신호(AS)를 필터링하며 또 다른 처리를 위하여 잔차 신호(x)를 출력하기 위하여 장기간 예측기를 포함하도록 구성될 수 있다는 것에 유의하여야만 한다. 또 다른 실시 예에 따르면 예측기는 선형 예측기 및 장기간 예측기의 조합일 수 있다.

제안된 변환이 음성 향상과 같은 음성 및 오디오 처리에서의 다른 작업들에 쉽게 적용될 수 있다는 것은 자명하다. 첫 번째로, 하부 공간 기반 방법들은 신호의 고유 값 분해 또는 단일 값 분해를 기초로 한다. 제안된 접근법은 유사한 분해들을 기초로 하기 때문에, 하부 공간 분석을 기초로 하는 음성 향상 방법은 또 다른 실시 예에 따라 제안된 방법에 적응될 수 있다. 종래의 부분 공간(subspace) 방법들에 대한 차이는 선형 예측 및 잔차 도메인 내의 윈도우잉을 기초로 하는, 신호 모델이 ACELP에서 적용되는 것과 같이, 적용될 때이다. 이와 대조적으로, 종래의 부분 공간 방법들은 시간에 때라 고정되는 (비-적응적) 오버래핑 윈도우를 적용한다.

두 번째로, 방데르몽드 역상관을 기초로 하는 역상관은 이산 푸리에 코사인 또는 다른 유사 변환들에 의해 제공되는 것과 유사한 주파수 도메인을 제공한다. 일반적으로 푸리에 코사인 또는 유사 변환 도메인 내에 실행하는 어떤 음성 처리 알고리즘은 따라서 또한 위에 설명된 접근법들의 변환 도메인들 내에서 최소 변형들로 적용될 수 있다. 따라서, 변환 도메인 내의 스펙트럼 차감(spectral subtraction)을 사용하는 음성 향상이 적용될 수 있으며, 즉 이는 또 다른 실시 예들에 따르면 제안된 변환이 예를 들면 스펙트럼 차감, 부분 공간 분석 또는 그것들의 파생물 및 변형들과 함께 음성 또는 오디오 향상에서 사용될 수 있다는 것을 의미한다. 여기서, 혜택들은 음성 향상 알고리즘이 음성 코덱과 밀접하게 통합되도록 이러한 접근법이 ACELP와 동일한 윈도우잉을 사용하는 것이다. 게다가, ACELP의 윈도우는 종래의 부분 공간 분석에서 사용되는 것보다 낮은 대수 지연을 갖는다. 그 결과, 윈도우잉은 고성능의 신호 모델을 기초로 한다.

변환기(14)를 위하여 사용되는, 즉 단계 140 내의 방정식 (5)를 참조하면, 그것들의 생성은 또한 예를 들면 y=DX_x의 형태에서 상이할 수 있다는 것에 유의하여야만 한다.

또 다른 실시 예에 따르면 인코더(10)는 출력에서 두 개의 데이터 스트림(DS_LPC/DS_DV 및

)을 공통 패킷(DA)에 패킷화하도록 구성되는 패커(packer)를 포함할 수 있다. 반대로, 디코더(20)는 데이터 스트림(DS)을 두 개의 패킷(DS_LPC/DS_DV 및

)으로 분할하도록 구성되는 탈패킷화기(depacketizer)를 포함할 수 있다.

장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 아이템 혹은 상응하는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면, 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수 있다. 일부 실시 예들에서, 일부 하나 또는 그 이상의 가장 중요한 방법 단계는 그러한 장치에 의해 실행될 수 있다.

본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나 혹은 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체 상에 전송될 수 있다.

특정 구현 요구사항들에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 그 안에 저장되는 전자적으로 판독 가능한 제어 신호들을 갖는, 플로피 디스크, DVD, 블루-레이, CD, RON, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있으며, 이는 각각의 방법이 실행되는 것과 같이 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서, 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.

본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.

다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.

바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(혹은 데이터 저장 매체, 또는 컴퓨터 판독가능 매체와 같은, 비-전이형 저장 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 일반적으로 유형(tangible) 및/또는 비-전이형이다.

본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.

또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.

또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 수신기로 전송하도록(예를 들면, 전자적으로 또는 선택적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터, 이동 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들면, 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함한다.

일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.

위에 설명된 원리들은 본 발명의 배경을 설명하는데 도움을 줄 수 있는 상이한 표현 및 일부 상세내용과 함께 아래에 설명될 것이다. 방데르몽드 변환은 이산 푸리에 변환과 상이하게, 또한 신호를 역상관하는 시간-주파수 변환으로서 최근에 제시되었다. 비록 푸리에에 의해 제공되는 근사치 또는 점근적(asymptotic) 역상관이 많은 경우들에서 충분하나, 그것의 성능은 짧은 윈도우들을 사용하는 적용들에서 부적합하다. 방데르몽드 변환은 따라서 음성 및 오디오 처리 적용들에서 유용할 것이며, 이는 짧은 분석 윈도우들만을 사용해야만 하는데 그 이유는 입력 신호들이 시간에 따라 급속도로 변경되기 때문이다. 그러한 적용들은 흔히 제한된 계산 용량을 갖는 모바일 장치들 상에서 사용되며, 이에 의해 효율적인 계산들이 가장 중요하다.

그러나, 방데르몽드 변환의 구현은 상당한 노력이 존재하는 것으로 나타났다: 이는 복잡도 및 정확도를 위하여 성능이 최적화된 고급 수치 툴들을 요구한다. 이러한 기여는 성능 평가를 포함하는 이러한 작업에 기준선 솔루션(baseline solution)을 제공한다. 지수 항들 - 시간-주파수 변환들, 역상관, 방데르몽드 매트릭스, 테플리츠 매트릭스, 왜곡 이산 푸리에 변환.

이산 푸리에 변환은 디지털 신호 처리에서의 가장 기본적인 툴들 중 하나이다. 이는 주파수 성분들의 형태로 입력 신호의 물리적으로 동기화된 표현을 제공한다. 고속 푸리에 변환(FFT)이 또한 매우 낮은 계산 복잡도(O(N log N))를 갖는 이산 푸리에 변환을 계산하기 때문에, 이는 디지털 처리의 가장 중요한 툴들 중 하나가 되었다.

비록 인기가 있으나, 이산 푸리에 변환은 결함을 갖는다: 이는 신호 성분들을 완전하게 역상관하지 않는다(수치 예를 위하여, 섹션 4 참조). 변환 길이가 무한으로 수렴할 때만 성분들은 직교가 된다. 그러한 근사치 역상관은 많은 적용에서 충분히 뛰어나다. 그러나, 많은 음성 및 오디오 처리 알고리즘들과 같은 상대적으로 작은 변환들을 사용하는 적용들에서, 이러한 접근법의 정확도는 알고리즘들의 전체 효율을 제한한다. 예를 들면, 음성 코딩 표준 AMR-WB는 길이 N=64의 윈도우들을 사용한다. 실제 이산 푸리에 변환의 성능이 본 발명의 경우에 불충분한 것으로 나타났으며, 가장 주류의 음성 코덱들은 시간-주파수 인코딩을 사용한다.

도 3c는 방데르몽드 변환의 특성들을 도시하며; 51로 표시된 두꺼운 라인은 신호의 (비-왜곡) 이산 푸리에 스펙트럼을 나타내고 라인 52, 53, 및 54는 입력 신호로 필터링된, 세 개의 선택된 주파수의 통과 대역 필터들의 응답이다. 방데르몽드 인수분해 크기는 64이다.

자연적으로 카루넨 루베 변환(Karhunen-Loeve transform, KLT)과 같은, 입력 신호의 역상관을 제공하는 많은 변환이 존재한다. 그러나, KLT의 성분들은 푸리에 변환과 같이 간단한 물리적 해석이 없는 추상적 엔티티들이다. 다른 한편으로, 물리적으로 동기화된 도메인은 처리 방법들 내로의 물리적으로 동기화된 표준의 간단한 구현을 허용한다. 물리적 구현 및 역상관 모두를 제공하는 변환이 따라서 바람직하다.

본 발명자들은 최근에 바람직한 특성들 모두를 갖는, 방데르몽드 변환으로 불리는, 변환을 제시하였다. 이는 대각 매트릭스 및 방데르몽드 매트릭스의 산물 내로의 헤르미트 테플리츠 매트릭스(Hermitian Toeplitz matrix)의 분해를 기초로 한다. 이러한 인수분해는 실제로 또한 공분산 매트릭스의 카라테오도리 파라미터화(Caratheodory parametrization)로서 알려지며 한켈 매트릭스(Hankel matrix)의 방데르몽드 인수분해와 매우 유사하다.

양의 값의 헤르미트 테플리츠 매트릭스들의 특별한 경우를 위하여, 방데르몽드 인수분해는 주파수 왜곡된 이산 푸리에 변환과 상응할 것이다. 바꾸어 말하면, 이는 균일하게 분포될 필요가 없는 주파수들에서 샘플링된 신호 성분들을 제공하는 시간-주파수 도메인이다. 방데르몽드 변환은 따라서 원하는 특성들, 역상관 및 물리적 해석을 제공한다.

방데르몽드 변환의 존재 및 특성들이 분석학적으로 설명되었으나, 현재 작업의 목적은 첫 번째로 방데르몽드 변환들을 위한 현존하는 실제 알고리즘들을 수집하고 기록하는 것이다. 이러한 방법들은 수치 대수학, 수치 분석, 시스템 식별, 시간-주파수 분석 및 신호 처리를 포함하는, 매우 상이한 분야들에 출현하였으며, 이에 의해 그것들은 발견하기가 매우 어려웠다. 본 명세서는 따라서 제공하는 결과들의 분석 및 논의를 위한 공동 플랫폼을 제공하는 방법들의 검토이다. 두 번째로 본 발명자들은 상이한 방법들의 성능의 또 다른 평가를 위한 기준선으로서 수치 예들을 제공한다.

본 섹션은 방데르몽드 변환들에 관한 간단한 소개를 제공한다. 적용들에 관한 더 포괄적인 동기 및 논의를 위하여, 본 발명자들은 다음을 언급한다. 방데르몽드 매트릭스(V)는 다음과 같이 스칼라들(v_k)에 정의된다:

만일 스칼라들(v_k)이 구별되면(k≠h에 대하여 v_k≠v_h) 이는 완전 계수(full rank)이고 그것의 가역은 명시적 공식을 갖는다.

대칭 테플리츠 매트릭스(T)는 다음과 같이 스칼라들(T _k )에 의해 정의된다:

만일 T가 양의 값이면, 이는 다음과 같이 인수분해될 수 있으며:

T = V^*∧V, (3z)

여기서 ∧는 실수 및 엄격하게 양의 엔트리들(λ_kk＞0)을 갖는 대각 매트릭스이고 지수 급수(V)는 단위 서클(v _k =exp(iβ _k ) 상에 모두 존재한다. 이러한 형태는 또한 테플리츠 매트릭스의 카라테오도리 파라미터화로서 알려진다.

본 발명자들은 여기서 방데르몽드 변환을 위하여 두 가지를 사용하였다: 역상관 변환으로서 또는 컨볼루션 매트릭스를 위한 대체로서. 우선 자가상관 매트릭스(E[xx^*] = R_x)를 갖는 신호(x)를 고려한다. 자가상관 매트릭스가 양의 값의, 대칭 및 테플리츠이기 때문에, 본 발명자들은 R = V^*∧V로서 이를 인수분해할 수 있다. 만일 다음과 같이 변환을 적용하면:

여기서

는 V의 가역 헤르미트이며, y _d 의 자가상관 매트릭스는 다음과 같다:

변환된 신호(y _d )는 따라서 비-상관된다. 가역 변환은 다음과 같다:

x = V^* yd. (6z)

체험적 설명으로서, 본 발명자들은 전방 트랜스 형태(

)가 그것이 k번째 행 내에서 통과 대역이 -β _k 에서 존재하는 필터를 포함하고 x를 위한 저지 대역 출력이 낮은 에너지를 갖는다고 말할 수 있다. 특히, 출력의 스펙트럼 형상은 단위 서클 상에서 단일 폴(pole)을 갖는 AR-필터의 형상에 가깝다. 이러한 필터뱅크가 신호 적응적이기 때문에, 본 발명자들이 여기서 기본 함수들의 주파수 응답보다는 필터의 출력을 고려한다는 것에 유의하여야 한다.

역방향 변환(V^*)은 차례로 x가 지수 급수의 가중된 합계가 되도록, 그것의 열들 내에서 지수 급수를 갖는다. 바꾸어 말하면, 변환은 왜곡된 시간-주파수 변환이다. 도 3c는 입력 신호(x)의 이산 (비-왜곡) 푸리에 스펙트럼 및

의 선택된 행들의 주파수 응답을 입증한다.

컨볼루션된 도메인 내의 신호의 평가를 위한 방데르몽드 변환은 다음과 같이 구성될 수 있다. C를 컨볼루션 도메인이라 하고 x를 입력 신호라 한다. 본 발명의 목적이 컨볼루션된 신호(y_c = C_x)를 평가하는 경우로 고려한다. 그러한 평가는 예를 들면, 양자화 오류 에너지가 지각적 도메인 내에서 평가되고 지각적 도메인으로의 매핑이 필터에 의해 설명되는, ACELP를 사용하는 음성 코덱들에 나타난다.

y_c의 에너지는 다음과 같다:

y_c의 에너지는 따라서 변환되고 스케일링된 신호의 에너지와 동일하다:

본 발명자들은 따라서 컨볼루션되거나 또는 변환된 도메인 내의 신호 에너지를 동등하게 평가한다.

가역 변환은 명백하게 다음과 같다:

순방향 변환(V)은 그것의 행들 내에 지수 급수를 가지며, 이는 왜곡된 푸리에 변환이다. 그것의 가역(V^-1)은 β _k 에서 통과 대역들을 갖는, 그것의 열들 내에 필터들을 갖는다. 이러한 형태에서 필터-뱅크의 주파수 응답은 이산 푸리에 변환과 동일하다. 이는 단지 완전한 재구성을 가능하게 하기 위하여 일반적으로 엘리어싱 성분들로서 보이는 것을 사용하는 가역 변환이다.

방데르몽드 변환들의 사용을 위하여, 본 발명자들은 변환들의 결정뿐만 아니라 적용을 위한 효과적인 알고리즘들이 필요하다. 본 섹션에서, 본 발명자들은 이용 가능한 알고리즘들을 설명할 것이다. 이것들이 더 간단한 적업이기 때문에 우선 변환들의 적용부터 시작한다.

V 및 V^*의 곱셈은 간단하며 O(N ²)에서 구현될 수 있다. 저장 요구사항들을 감소시키기 위하여 본 발명자들은 여기서 지수들(

)이 h＞1을 위하여 명시적으로 평가될 필요가 없는 알고리즘들을 나타낸다. 즉, 만일 y=V_X이고 x의 요소들이 ξ _k 이면, y의 요소들(

)은 회귀(recurrence)로 결정될 수 있다:

여기서 τ _h,k 는 저장되기 위하여 현재 값만이 필요한, 임시 스칼라이다. 전체 회귀는 N 성분들을 위한 N 단계들을 가지며, 전체 복잡도는 O(N ²)이고 저장은 일정하다. 유사한 알고리즘이 y=V^*x를 위하여 쉽게 기록될 수 있다.

가역 방데르몽드 매트릭스들(V^-1 및 V^-*)과의 곱셈은 약간 더 복잡한 작업이나 다행히도 상대적으로 효율적인 방법들이 문헌으로부터 이미 이용 가능하다. 알고리즘들은 구현하기에 간단하고 x=V^-1y 및 x=V^-*y 모두를 위하여 복잡도는 O(N ²)이고 저장은 선형 O(N)이다. 그러나, 알고리즘은 모든 단계에서 많은 계층에서 높은 고정 비용을 갖는, 세분을 포함한다.

비록 가역들에 의한 곱셈을 위한 위의 알고리즘들이 분석적 의미에서 정확하더라도, 실제 구현들은 큰 N에 대하여 수치적으로 불안정하다. 본 발명자들의 경험에서, 64의 N의 크기까지의 매트릭스를 갖는 계산들이 때때로 가능하나, 그와 같지 않은 한 그러한 수치적 불안정성을 넘어 이러한 알고리즘들을 제공한다. 실제 해결책은 부분 선회를 갖는 가우스 소거법(gaussian elimination)과 동등한 루트들(v _k )의 레자-오더링(Leja ordering)이다. 레자-오더링 뒤의 주요 개념은 그것의 선행자들(0...(k-1))에 대한 루트(v _k )의 거리가 최대화되는 것과 같은 방법으로 루트들을 재배열하는 것이다. 그러한 제공에 의해 알고리즘에서 나타나는 분모들은 최대화되고 중간 변수들의 값들은 최소화되며, 절단 오차(truncation error)들의 기여들이 또한 최소화된다. 레자-오더링의 구현은 간단하고 복잡도(O(N ²)) 및 저장(O(N))으로 달성될 수 있다.

최종 장애물은 인수분해의 획득, 즉 루트들(v _k ) 및 필요할 때, 대각 값들(λ _kk )의 획득이다. 이로부터 본 발명자들은 다음을 해결함으로써 루트들이 획득될 수 있다는 것을 인지하며:

Ra = [1,1...1]^T, (11z)

여기서 a는 요소들(α _k )을 갖는다. 그때 v ₀ = 1이고 나머지 루트들(v ₁...v _N)은 다항(

)의 루트들이다. 본 발명자들은 이것이 한켈 시스템의 해결과 동등하다는 것을 쉽게 나타낼 수 있으며:

여기서

이다. 루트들(v _k)은 그때

의 루트들이다.

원래 테플리츠 시스템(방정식 11z)의 인수분해가 방정식 12z와 동등하기 때문에, 본 발명자들은 한켈 매트릭스들의 인수분해를 위한 고속 알고리즘을 사용할 수 있다. 이러한 알고리즘은 고유 값들이

의 루트들과 상응하는 삼중 대각(tridiagonal) 매트릭스를 가져온다. 고유 값들은 그리고 나서 LR 알고리즘의 적용에 의해 O(N ²) 내에서, 또는 표준 비-대칭 QR-알고리즘에 의해 O(N ³) 내에서 획득될 수 있다. 이러한 방법으로 획득되는 루트들은 근사치들이며, 그것들은 약간 단위 서클 외부에 존재할 수 있다. 그때 뉴턴의 방법(Newton's method)의 2 또는 3회 반복으로 통합하고 개선하기 위하여 루트들의 절대 값을 정규화하는 것이 유용하다. 완전한 과정은 O(N ²)의 계산 비용을 갖는다.

인수분해에서의 마지막 단계는 대각 값들(∧)을 획득하는 것이다. 다음을 관찰하며:

여기서 e=[1 0...0] ^T 이고 λ는 ∧의 대각 값들을 포함하는 벡터이다. 바꾸어 말하면, 다음을 계산함으로써:

본 발명자들은 대각 값들(λ_kk)을 획득한다. 이러한 가역은 위에 설명된 방법들로 계산될 수 있으며, 대각 값들이 복잡도(O(N ²))와 함께 획득된다.

요약하면, 매트릭스(R)의 인수분해를 위하여 필요한 단계들은 다음과 같다:

1. 레빈슨-더빈 또는 다른 고전적 방법들의 사용을 위하여 방정식 11z를 해결한다.

2.

에 의해 자가상관 시퀀스를 확장한다.

3. 시퀀스(T_K)의 삼중 대각화(tridiagonalization)를 적용한다.

4. LR- 또는 대칭 QR-알고리즘을 사용하여 고유 값들(vk)을 해결한다.

5. 통합 및 뉴턴 방법의 일부 반복들로 v_k를 스케일링함으로써 루트 위치들을 개선한다.

6. 방정식 14z를 사용하여 대각 값들(λ_kk)을 결정한다.

사용되는 개념들을 설명하기 위하여 수치 예와 함께 시작한다. 여기서 매트릭스 C는 자명한 필터(trivial filter, 1 + Z^-1)와 상응하는 컨볼루션 매트릭스이고, 매트릭스 R은 그것의 자가상관이며, 매트릭스 V는 섹션 3에서의 알고리즘으로 획득되는 방데르몽드 매트릭스이며, 매트릭스 F는 이산 푸리에 변환 매트릭스이며 매트릭스들 ∧ _V 및 ∧ _F 는 두 개의 변환의 대각화 정확도를 실증한다. 본 발명자들은 따라서 다음을 정의하며:

이에 의해 본 발명자들은 다음과 같이 대각화를 평가할 수 있다:

본 발명자들은 여기서 방데르몽드 변환과 함께 본 발명자들이 완전하게 대각 매트릭스(∧ _V )를 획득한 것을 알 수 있다. 이산 푸리에 변환의 성능은 최적과는 거리가 먼데, 그 이유는 오프(off)-대각 값들이 분명하게 비-제로이기 때문이다. 성능의 측정으로서, 본 발명자들은 오프- 및 온-대각 값들의 절대 합계들의 비율을 계산할 수 있으며, 이는 방데르몽드 인수분해에 대하여 제로이고 푸리에 변환에 대하여 0.444이다.

본 발명자들은 그리고 나서 섹션 3에서 설명된 구현들의 평가를 진행한다. 본 발명자들은 미래 작업들이 비교할 수 있고 최종 성능 장애를 발견하기 위한 성능 기준선을 제공하는 목적으로 MATLAB 내의 각각의 알고리즘을 구현하였다. 본 발명자들은 복잡도 및 정확도와 관련한 성능을 고려할 것이다.

인수분해의 성능을 결정하기 위하여, 본 발명자들은 방데르몽드 인수분해를 이산 푸리에 및 카루넨 루베 변환들과 비교할 것이며, 후자는 고유 값 분해와 함께 적용된다. 본 발명자들은 두 가지 방법, 첫 번째로 본 명세서에 설명된 알고리즘(V ₁ ), 및 두 번째로 MATLAB(V ₂ )에 의해 제공되는 내장된 루트-발견 함수의 사용에서 설명된 접근법을 사용하여 방데르몽드 인수분해를 적용하였다. MATLAB 함수가 미세하게 조정된 일반 알고리즘이기 때문에, 본 발명자들은 본 발명의 특별한 목적의 알고리즘보다 높은 복잡도를 갖는 정확한 결과들을 획득하는 것을 기대할 수 있다.

모든 실험을 위한 데이터로서 본 발명자들은 12.8㎑의 샘플링 레이트를 갖는 MPEG USAC 표준의 평가에서 사용된 음성, 오디오 및 혼합된 음향 샘플들의 세트를 사용하였다. 오디오 샘플들은 해밍 윈도우들로 원하는 길이로 윈도우잉되었으며 그것들의 자가상관들이 계산되었다. 자가상관 매트릭스들이 양의 값인 것을 확실히 하기 위하여, 주요 대각선이 (1+10^- ⁵)와 곱해졌다.

성능 측정들을 위하여 본 발명자들은 정규화 구동 시간과 관련한 계산 복잡도 및

가 오프- 및 온-대각 요소들의 절대 합계들의 비율에 의해 측정되는, 대각 매트릭스에 얼마나 가까운지와 관련한 정확도를 사용하였다. 결과들이 테이블 1 및 2에 열거된다.

테이블 1. 정규화 구동 시간과 관련한 상이한 윈도우 길이들(N)을 위한 인수분해 알고리즘들의 복잡도.

테이블 2.

의 오프- 및 온-대각 값들의 절대 합계들의 비율의 log₁₀과 관련한 상이한 윈도우 길이들(N)을 위한 인수분해 알고리즘들의 정확도.

여기서 프레임 크기의 함수로서 단지 복잡도를 증가시키는, 알고리즘들 사이의 구동 시간을 비교하는 것은 합리적이지 않은데. 그 이유는 내장된 MATLAB 함수들이 본 발명의 고유의 알고리즘들과 다른 언어에서 구현되었기 때문이다. 본 발명자들은 제안된 알고리즘(V1)이 카루넨 루베 변환과 필적할만한 비율로 증가하며, 반면에 MATLAB(V2)의 루트-발견 함수들을 사용하는 알고리즘들이 더 증가한다는 것을 알 수 있다. 제안된 인수분해 알고리즘(V1)의 정확도는 아직 최적은 아니다. 그러나, MATLAB의 루트-발견 함수가 카루넨 루베 변환과 필적할만한 정확도를 산출하기 때문에, 본 발명자들은 알고리즘 향상들에 의해 향상들이 가능한 것으로 결론을 내었다.

두 번째 실험은 정확도 및 복잡도를 결정하기 위한 변환들의 적용이다. 우선, 본 발명자들은 방정식 4z 및 9z를 적용하였으며, 이들이 복잡도는 테이블 3에 열거된다. 여기서 우리는 카루넨 루베 변환의 매트릭스 곱셈 및 MATLAB(V2)의 매트릭스 시스템들의 내장된 솔루션이 대략 동일한 비율의 복잡도의 증가를 가지며, 방정식 4z 및 9z를 위하여 제안된 방법들은 훨씬 적은 증가를 갖는다는 것을 알 수 있다. 고속 푸리에 변환은 자연적으로 모든 다른 접근법보다 빠르다.

최종적으로, 방데르몽드 솔루션들의 정확도를 획득하기 위하여, 본 발명자들은 차례로 순방향 및 역방향 변환들을 적용한다. 원래 및 제구성된 벡터들 사이의 유클리드 거리(Euclidean distance)들이 테이블 4에 열거된다. 본 발명자들은 먼저, 고속 푸리에 변환 및 카루넨 루베 변환 알고리즘이 기대한 것과 같이, 가장 정확하다는 것을 관찰할 수 있는데, 그 이유는 그것들이 직교 정규 변환(orthonormal transform)을 기초로 하기 때문이다. 두 번째로 본 발명자들은 제안된 알고리즘(V1)의 정확도가 MATLAB(V2)의 내장된 솔루션보다 약간 낮으나, 두 알고리즘 모두 충분한 정확도를 제공한다는 것을 알 수 있다.

본 발명자들은 이용 가능한 알고리즘들의 검토뿐만 아니라 또 다른 개발을 위한 성능 기준선들의 제공의 목적으로 방데르몽드 인수분해를 사용하는 시간-주파수 변환들의 역상관의 상세한 구현을 제시하였다. 알고리즘들이 원칙적으로 이전 작업들로부터 이용 가능하였으나, 시스템을 구동하는 것은 상당한 노력이 필요한 것으로 판명된다.

테이블 3. 정규화 구동 시간과 관련한 상이한 윈도우 길이들(N)을 위한 방데르몽드 솔루션들의 복잡도. 여기서

및

은 방정식 각각의 제안된 알고리즘을 갖는 4z 및 9z의 솔루션을 나타낸다.

테이블 4.

에 의해 측정된 것과 같은 순방향 및 역방향 변환들의 정확도, 여기서 x 및

는 원래 및 재구성 벡터들이다.

주요 도전들은 수치 정확도 및 계산 복잡도이다. 실험들은 비록 수치 안정성과 동시에 낮은 복잡도의 획득이 도전이더라도, O(N ²) 복잡도로 방법들이 이용 가능하다는 사실을 확인해 준다. 그러나, 일반 MATLAB 구현들이 정확한 솔루션들을 제공하기 때문에, 본 발명자들은 구현의 또 다른 조정으로 고도의 정확도의 획득이 가능하다는 것을 주장한다.

결론적으로, 본 발명의 실험들은 방데르몽드 솔루션들을 위하여, 제안된 알고리즘들이 뛰어난 정확도 및 상당히 낮은 복잡도를 갖는다는 것을 나타낸다. 인수분해를 위하여, 특별한 목적을 위한 인수분해는 합리적인 복잡도를 갖는 고속 푸리에 변환보다 더 나은 역상관을 제공하나, 정확도에서 향상의 여지가 존재한다. MATLAB의 내장된 구현들은 만족스런 정확도를 제공하며, 이는 본 발명자들에 정확한(O(N ²)) 알고리즘들이 구현될 수 있다는 결론에 이르게 한다.

위에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명들이다. 여기에 설명된 배치들 및 상세내용들의 변형들과 변경들은 통상의 지식을 가진 자들에 자명해질 것이라는 것을 이해하여야 한다. 따라서, 이는 여기서의 실시 예들의 기술과 설명에 의해 제시된 특정 상세내용이 아닌, 첨부된 특허 청구항들의 범위에 의해서만 제한되도록 의도된다.

참고문헌

[1] B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, and K. Jarvinen, "The adaptive multirate wideband speech codec (AMR-WB)," Speech and Audio Processing, IEEE Transactions on, vol. 10, no. 8, pp. 620-636, 2002.

[2] ITU-T G.718, "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s," 2008.

[3] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach, R. Salami, G. Schuller, R. Lefebvre, and B. Grill, "Unied speech and audio coding scheme forhigh quality at low bitrates," in Acoustics, Speech and Signal Processing. ICASSP 2009. IEEE Int Conf, 2009, pp. 1-4.

[4] J.-P. Adoul, P. Mabilleau, M. Delprat, and S. Morissette, "Fast CELP coding based on algebraic codes," in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'87., vol. 12. IEEE, 1987, pp. 1957-1960.

[5] C. Laamme, J. Adoul, H. Su, and S. Morissette, "On reducing computational complexity of codebook search in CELP coder through the use of algebraic codes," in Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference on. IEEE, 1990, pp. 177-180.

[6] F.-K. Chen and J.-F. Yang, "Maximum-take-precedence ACELP: a low complexity search method," in Acoustics, Speech, and Signal Processing, 2001. Proceedings.(ICASSP'01). 2001 IEEE International Conference on, vol. 2. IEEE, 2001, pp. 693-696.

[7] K. J. Byun, H. B. Jung, M. Hahn, and K. S. Kim, "A fast ACELP codebook search method," in Signal Processing, 2002 6th International Conference on, vol. 1. IEEE, 2002, pp. 422-425. [8] N. K. Ha, \A fast search method of algebraic codebook by reordering search sequence," in Acoustics, Speech, and Signal Processing, 1999. Proceedings., 1999 IEEE International Conference on, vol. 1. IEEE, 1999, pp. 21-24.

[9] M. A. Ramirez and M. Gerken, "Efficient algebraic multipulse search," in Telecommunications Symposium, 1998. ITS'98 Proceedings. SBT/IEEE International. IEEE, 1998, pp. 231-236.

[10] T. Backstrom, "Computationally efficient objective function for algebraic codebook optimization in ACELP," in Interspeech 2013, August 2013.

[11] |"Vandermonde factorization of Toeplitz matrices and applications in filtering and warping," IEEE Trans. Signal Process., vol. 61, no. 24, pp. 6257-6263, 2013.

[12] G. H. Golub and C. F. van Loan, Matrix Computations, 3rd ed. John Hopkins University Press, 1996.

[13] T. Backstrom, J. Fischer, and D. Boley, "Implementation and evaluation of the Vandermonde transform," in submitted to EUSIPCO 2014 (22^nd European Signal Processing Conference 2014) (EUSIPCO 2014), Lisbon, Portugal, Sep. 2014.

[14] T. Backstrom, G. Fuchs, M. Multrus, and M. Dietz, "Linear prediction based audio coding using improved probability distribution estimation," US Provisional Patent US 61/665 485, 6, 2013.

[15] K. Hermus, P. Wambacq et al., \A review of signal subspace speech enhancement and its application to noise robust speech recognition," EURASIP Journal on Applied Signal Processing, vol. 2007, no. 1, pp. 195-195, 2007.

10 : 인코더
12 : 예측기
14 : 인수분해기
16 : 변환기
18 : 양자화 및 인코드 스테이지
20 : 디코더
22 : 디코드 스테이지
24 : 인수분해기
26 : 재변환기
28 : 합성 스테이지

Claims

데이터 스트림(DS) 내로 오디오 신호(AS)를 인코딩하기 위한 인코더(10)에 있어서,
상기 오디오 신호(AS)의 스펙트럼 엔벨로프 또는 상기 오디오 신호(AS)의 기본 주파수를 기술하는 예측 계수들(LPC)을 획득하기 위하여 상기 오디오 신호(AS)를 분석하고, 상기 오디오 신호(AS)의 잔차 신호(x)를 출력하기 위하여 상기 예측 계수들(LPC)에 의존하여 상기 오디오 신호(AS)를 분석 필터 함수(H)의 대상이 되도록 구성되는 예측기(12);
인수분해된 매트릭스들(V, D)을 획득하기 위하여 상기 예측 계수들(LPC)에 의해 정의되는 합성 필터 함수(H)의 자가상관 또는 공분산 매트릭스(R, C) 상으로 매트릭스 인수분해를 적용하도록 구성되는 인수분해기(14);
변환된 잔차 신호(y)를 획득하기 위하여 상기 인수분해된 매트릭스들(V, D)을 기초로 하여 상기 잔차 신호(x)를 변환하도록 구성되는 변환기(16); 및
양자화되고 변환된 잔차 신호(
) 또는 인코딩된 양자화되고 변환된 잔차 신호(
)를 획득하기 위하여 상기 변환된 잔차 신호(y)를 양자화하도록 구성되는 양자화 및 인코드 스테이지(18);를 포함하는, 인코더.
제 1항에 있어서, 상기 합성 필터 함수(H)는 상기 합성 필터 함수(H)의 가중된 값들을 포함하는 매트릭스(H)에 의해 정의되는, 인코더.
제 1항 또는 2항에 있어서, 상기 인수분해기(14)는 상기 합성 필터 함수의 변환된-결합된 버전(H^*) 및 상기 합성 필터 함수의 정규 버전(H)의 산물을 기초로 하여 상기 자가상관 또는 공분산 매트릭스(R, C)를 계산하는, 인코더.
제 1항 내지 3항 중 어느 한 항에 있어서, 상기 인수분해기(14)는 공식 C=V^*DV를 기초로 하거나 또는 공식 R=V^*DV를 기초로 하여 상기 자가상관 또는 공분산 매트릭스(R, C)를 인수분해하며, 여기서 V는 방데르몽드 매트릭스이고, V^*는 상기 방데르몽드 매트릭스의 변환된-결합된 버전이며 D는 엄격하게 양의 엔트리들을 갖는 대각 매트릭스인, 인코더.
제 4항에 있어서, 상기 인수분해기(14)는 방데르몽드 인수분해를 실행하도록 구성되는, 인코더.
제 1항 내지 5항 중 어느 한 항에 있어서, 상기 인수분해기(14)는 고유 값 분해 및/또는 콜레스키 인수분해를 실행하도록 구성되는, 인코더.
제 4항 또는 5항에 있어서, 상기 변환기(16)는 공식 y=D^1/ ²V_X를 기초로 하거나 또는 공식 y=DV_X를 기초로 하여 잔차 신호(x)를 변환하는, 인코더.
제 1항 내지 7항 중 어느 한 항에 있어서, 상기 양자화 및 인코드 스테이지(18)는 목적 함수(
)를 기초로 하여 상기 양자화되고 변환된 잔차 신호(
)를 획득하기 위하여 상기 변환된 잔차 신호(y)를 양자화하는, 인코더.
제 1항 내지 8항 중 어느 한 항에 있어서, 상기 양자화 및 인코드 스테이지(18)는 상기 오디오 신호(AS), 상기 잔차 신호(x) 또는 상기 변환된 잔차 신호(y)의 잡음 충전된 스펙트럼 표현을 제공하도록 잡음 충전을 적용함으로써, 혹은 무감대들 또는 다른 양자화 파라미터들에 대하여 상기 양자화되고 변환된 잔차 신호(
)를 최적화함으로써 상기 양자화를 최적화하기 위한 수단들을 포함하는, 인코더.
제 1항 내지 9항 중 어느 한 항에 있어서, 상기 잔차 신호(x)의 변환은 상기 잔차 신호(x)의 시간-도메인으로부터 상기 변환된 잔차 신호(y)의 주파수 유사 도메인으로의 변환인, 인코더.
제 1항 내지 10항 중 어느 한 항에 있어서, 상기 양자화 및 인코드 스테이지는 인코딩된 양자화되고 변환된 잔차 신호(
)를 획득하기 위하여 상기 양자화되고 변환된 잔차 신호(
)의 인코딩을 실행하도록 구성되는 코더를 포함하는, 인코더.
제 11항에 있어서, 상기 코더의 의해 실행되는 인코딩은 산술 코딩, 대수 코딩 또는 또 다른 엔트로피 코딩을 포함하는 그룹 외에서 존재하는, 인코더.
제 11항 또는 12항에 있어서, 상기 인코더(10)는 상기 인코더(10)에 의해 출력되도록 상기 인코딩된 양자화되고 변환된 잔차 신호(
) 및 상기 예측 계수들 (LPC)을 상기 데이터 스트림(DS)에 패킷화하도록 구성되는 패커를 더 포함하는, 인코더.
제 1항 내지 13항 중 어느 한 항에 있어서, 상기 예측기(12)는 선형 예측기(및/또는 장기간 예측기)를 포함하는, 인코더.
데이터 스트림(DS) 내로 오디오 신호(AS)를 인코딩하기 위한 방법(100)에 있어서,
상기 오디오 신호(AS)의 스펙트럼 엔벨로프 또는 상기 오디오 신호(AS)의 기본 주파수를 기술하는 예측 계수들(LPC)을 획득하기 위하여 상기 오디오 신호(AS)를 분석하고(120), 상기 오디오 신호(AS)의 잔차 신호(x)를 출력하기 위하여 상기 예측 계수들(LPC)에 의존하여 상기 오디오 신호(AS)를 분석 필터 함수(H)의 대상이 되도록 하는 단계;
인수분해된 매트릭스들(V, D)을 획득하기 위하여 상기 예측 계수들(LPC)에 의해 정의되는 합성 필터 함수(H)의 자가상관 또는 공분산 매트릭스(R, C) 상으로 매트릭스 인수분해를 적용하는 단계(140);
변환된 잔차 신호(y)를 획득하기 위하여 상기 인수분해된 매트릭스들(V, D)을 기초로 하여 상기 잔차 신호(x)를 변환하는 단계(160); 및
양자화되고 변환된 잔차 신호(
) 또는 인코딩된 양자화되고 변환된 잔차 신호(
)를 획득하기 위하여 상기 변환된 잔차 신호(y)를 양자화하고 인코딩하는 단계(180);를 포함하는, 데이터 스트림 내로 오디오 신호를 인코딩하기 위한 방법.
이산 푸리에 변환, 이산 코사인 변환, 변형 이산 코사인 변화 또는 신호 처리 알고리즘들 내의 또 다른 변환을 대신하여 청구항 제 15항의 방법(100)의 사용.
오디오 신호(AS') 내로 데이터 스트림(DS)을 디코딩하기 위한 디코더(20)에 있어서,
인바운드 양자화되고 변환된 잔차 신호(
)를 기초로 하거나 또는 인바운드 인코딩된 양자화되고 변환된 잔차 신호(
)를 기초로 하여 변환된 잔차 신호(y)를 출력하도록 구성되는 디코드 스테이지(22);
상기 오디오 신호(AS)의 스펙트럼 엔벨로프 또는 상기 오디오 신호(AS)의 기본 주파수를 기술하는 예측 계수들(LPC)에 의해 정의되는 합성 필터 함수(H)의 자가상관 또는 공분산 매트릭스(R, C)의 매트릭스 인수분해의 결과를 표현하는 인수분해된 매트릭스들(V, D)을 기초로 하여 상기 변환된 잔차 신호(y)로부터 잔차 신호(x)를 재변환하도록 구성되는 재변환기(26); 및
상기 예측 계수들(LPC)에 의해 정의되는 상기 합성 필터 함수(H)의 사용에 의해 상기 잔차 신호(x)를 기초로 하여 상기 오디오 신호(AS')를 합성하도록 구성되는 합성 스테이지(28);를 포함하는, 디코더.
제 17항에 있어서, 상기 디코더(20)는 인수분해된 매트릭스들(V, D)을 획득하기 위하여 인바운드 예측 계수들(LPC)에 정의되는 상기 합성 필터 함수(H)의 자가상관 또는 공분산 매트릭스(R, C) 상으로 상기 매트릭스 인수분해를 적용하도록 구성되는 인수분해기(24)를 포함하는, 디코더.
제 17항에 있어서, 상기 디코더(20)는 인바운드 인수분해된 매트릭스들(V, D)을 기초로 하여 상기 예측 계수들(LPC)을 편향시키도록 구성되는 예측 계수 발생기를 포함하는, 디코더.
제 17항 내지 19항 중 어느 한 항에 있어서, 상기 디코드 스테이지(22)는 알려진 인코딩 규칙들 및/또는 인바운드 코딩 규칙들로부터 편향된 인코딩 파라미터 및/또는 코딩 파라미터를 기초로 하여 상기 인코딩을 실행하는, 디코더.
오디오 신호(AS') 내로 데이터 스트림(DS)을 인코딩하기 위한 방법(200)에 있어서,
인바운드 양자화되고 변환된 잔차 신호(
)를 기초로 하거나 또는 인바운드 인코딩된 양자화되고 변환된 잔차 신호(
)를 기초로 하여 변환된 잔차 신호(y)를 출력하는 단계(220);
예측 계수들(LPC)에 의해 정의되는 합성 필터 함수(H)의 자가상관 또는 공분산 매트릭스(R, C) 상으로 매트릭스 인수분해를 적용하는 단계(240);
인수분해된 매트릭스들(V, D)을 획득하기 위하여 상기 오디오 신호(AS)의 스펙트럼 엔벨로프 또는 상기 오디오 신호(AS)의 기본 주파수를 기술하는 단계(240);
상기 인수분해된 매트릭스들(V, D)을 기초로 하여 상기 변환된 잔차 신호(y)로부터 잔차 신호(x)를 재변환하는 단계(260); 및
상기 예측 계수들(LPC)에 의해 정의되는 상기 합성 필터 함수(H)의 사용에 의해 상기 잔차 신호(x)를 기초로 하여 상기 오디오 신호(AS')를 합성하는 단계(280);를 포함하는, 오디오 신호 내로 데이터 스트림을 인코딩하기 위한 방법.
컴퓨터 상에서 구동할 때, 제 15항에 따른 방법(100, 200) 또는 제 21항에 따른 방법을 실행하기 위한 프로그램 코드를 갖는 그 안에 저장된 컴퓨터 프로그램을 갖는 컴퓨터 판독가능 디지털 저장 매체
인코딩된 오디오 신호(AS)를 포함하는 데이터 스트림(DS)에 있어서,
오디오 신호(AD)의 스펙트럼 엔벨로프 또는 오디오 신호(AS)의 기본 주파수를 기술하는 예측 계수들(LPC)에 의해 정의되는 합성 필터 함수(H)의 자가상관 또는 공분산 매트릭스(R, C) 상으로의 매트릭스 인수분해로부터 야기하는, 인수분해된 매트릭스들(V, D)을 포함하는 제 1 부분(DS_VD); 및
상기 오디오 신호(AS)가 상기 예측 계수들(LPC)에 의존하여 분석 필터 함수(H)의 대상이 되도록 한 후에, 양자화되고 변환된 잔차 신호(
) 또는 인코딩된 양자화되고 변환된 잔차 신호(
) 형태의, 상기 오디오 신호(AS)의 잔차 신호(x)를 포함하는 제 2 부분(
);을 포함하는, 데이터 스트림.