KR101997006B1

KR101997006B1 - 오디오 인코더, 오디오 디코더 및 오디오 신호를 처리하기 위한 방법 및 장치

Info

Publication number: KR101997006B1
Application number: KR1020177005450A
Authority: KR
Inventors: 엠마누엘 라벨리; 마누엘 잔더; 그레체고로츠 피에트직; 마틴 디에츠; 마르크 가이어
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2014-07-28
Filing date: 2015-07-03
Publication date: 2019-07-08
Also published as: KR20210118224A; ES2914632T3; KR20230173744A; PT3407351T; CN106575507B; US20220148609A1; JP6864382B2; RU2665282C1; PL3175452T3; WO2016015950A1; KR102615475B1; EP4235667A3; JP2017522606A; EP2980796A1; CA3193302A1; US12014746B2; TW201606754A; EP4030426A1; JP7202545B2; JP6503051B2

Abstract

오디오 신호(100)를 처리하는 방법이 설명된다. 선형 예측 필터링(102, 110, 112)을 사용하여 오디오 신호의 필터링된 현재 프레임 및 필터링된 과거 프레임 사이의 불연속성이 제거된다.

Description

오디오 인코더, 오디오 디코더 및 오디오 신호를 처리하기 위한 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING AN AUDIO SIGNAL, AUDIO DECODER, AND AUDIO ENCODER}

본 발명은 오디오 신호들의 분야에 관한 것으로서, 특히, 복수의 오디오 프레임들을 포함하는 오디오 신호를 처리하기 위한 방법이며, 연속적인 필터링된 오디오 프레임들 사이의 불연속성(discontinuity)들이 감소되거나 또는 생략된다.

오디오 신호 처리의 분야에서, 오디오 신호는 다양한 이유들로 필터링될 수 있다. 예를 들어, 롱-텀(long-term) 예측 필터는 오디오 신호의 고조파들의 세트를 감쇠시키거나 또는 나아가 완전하게 억제하기 위해 오디오 신호 인코더에서 사용될 수 있다.

오디오 신호는 복수의 오디오 프레임들을 포함하고, 상기 프레임들은 롱-텀 예측 필터를 사용하여 필터링된다. 오디오 신호의 2개의 연속적인 프레임들, 과거 프레임 및 현재 프레임을 고려할 때, 오디오 신호를 필터링하기 위해 파라미터들의 세트 c를 갖는 선형 필터 H(z)가 사용된다. 보다 구체적으로, 과거 프레임은 소위 필터링된 과거 프레임을 생성하는 파라미터들의 제 1 세트 c₀를 사용하여 필터 H(z)로 필터링된다. 현재 프레임은 필터링된 현재 프레임을 생성하는 파라미터들의 세트 c₁을 사용하여 필터 H(z)로 필터링된다. 도 1은 공지된 방식에 따라 오디오 신호의 연속적인 프레임들을 처리하기 위한 블록도를 도시한다. 복수의 오디오 프레임들을 포함하는 오디오 신호(100)가 제공된다. 오디오 신호(100)는 필터 블록(102)으로 공급되고, 오디오 신호(100)의 현재 프레임 n은 필터링된다. 오디오 신호 (100) 외에, 필터 블록은 오디오 신호의 현재 프레임에 대한 필터 파라미터들의 세트 c_n을 수신한다. 필터 블록(102)은 오디오 신호의 현재 프레임 n을 필터링하고 연속적인 필터링된 프레임들을 포함하는 필터링된 오디오 신호(104)를 출력한다. 도 1에서, 필터링된 현재 프레임 n, 필터링된 과거 프레임 n-1 및 필터링된 제 2 마지막 프레임 n-2가 개략적으로 도시되어 있다. 필터링된 프레임들은 필터링된 프레임들 사이의 필터링 프로세스에 의해 발생할 수 있는 불연속성(106a, 106b)을 개략적으로 나타내기 위하여 그들 사이에 각각의 갭을 갖도록 도 1에 개략적으로 도시된다. 필터 블록(102)은 과거 프레임 n-1 및 현재 프레임 n에 대한 각각의 필터 파라미터들 c₀ 및 c₁을 사용하여 오디오 신호의 프레임들의 필터링을 발생시킨다. 일반적으로, 필터 블록 (102)은 선형 필터 H(z) 일 수 있고, 이러한 선형 필터 H(z)의 일례는 전술한 롱-텀 예측 필터

H(z) = 1 - g·z^-T

이며, 여기에서 필터 파라미터들은 이득 "g"및 피치 지연(pitch lag) "T"이다. 보다 일반적인 형태로, 롱-텀 예측 필터는 다음과 같이 기술될 수 있다:

H(z) = 1 - g·A(z)·z^-T

여기에서 A(z)는 FIR 필터이다. 롱-텀 예측 필터는 오디오 신호에 있는 고조파들의 세트를 감쇠시키거나 또는 나아가 완전히 억제하는데 사용될 수 있다. 그러나, 이러한 롱-텀 예측 필터를 사용할 때 그리고 과거 프레임 필터 파라미터들 c₀가 현재 프레임 필터 파라미터들 c₁과 다를 때, 필터링된 과거 프레임 n-1과 필터링된 현재 프레임 n 사이에 불연속성(106a, 106b) (도 1 참조)이 발생할 가능성이 높다. 이러한 불연속성은 필터링된 오디오 신호(104)에 아티팩트(artifact)를 생성할 수 있으며, 예를 들어 “클릭”이다.

결과적으로, 연속적인 프레임들의 필터링에서 발생한 불연속성들이 불필요한 아티팩트들을 생성할 수 있는 상기 상기 설명한 문제점들을 고려하여, 가능성 있는 불연속성을 제거하는 기법이 필요하다. 오디오 신호의 필터링된 프레임들의 불연속성의 제거를 다루는 몇몇 종래 기술의 방식들이 당업계에 공지되어 있다.

선형 필터 H(z)가 FIR 필터인 경우, 현재 프레임은 필터링된 현재 프레임을 생성하기 위해 현재 프레임의 필터 파라미터들 c₁로 필터링된다. 또한, 현재 프레임의 시작 부분은 필터링된 프레임 부분을 생성하기 위해 과거 프레임의 필터 파라미터들 c₀로 필터링되고, 그 후 오버랩-추가(overlap-add) 또는 크로스-페이드(cross-fade) 동작이 필터링된 현재 프레임의 시작 부분 및 필터링된 프레임 부분에 대해 수행된다. 도 2는 불연속성을 제거하기 위해 연속적인 오디오 프레임들을 처리하기 위한 종래의 방식의 블록도를 도시한다. 도 1과 비교할 때, 필터 블록(102)은 오버랩-추가 또는 크로스-페이드 동작을 수행하기 위한 추가적인 프로세싱 블록(108)을 포함한다. 도 1의 갭들 없이 연속적인 필터링된 프레임들 n, n-1 및 n-2를 도시하는 도 2에 개략적으로 도시된 바와 같이, 필터링된 오디오 신호(104)에서, 연속적인 필터링된 프레임들 사이에 불연속이 없거나 또는 감소될 것이다.

다른 종래 기술의 방식들에서, 필터 H(z)는 재귀(recursive) 부분을 가지는 필터, 예를 들어 IIR 필터 일 수 있다. 그러한 경우, 도 2와 관련하여 전술 한 바와 같은 방식이 샘플 단위(sample-by-sample) 기반으로 적용된다. 제 1 단계에서, 처리는 현재 프레임 n의 시작 부분의 제 1 샘플이 과거 프레임 n-1의 필터 파라미터들 c₀로 필터링되어 제 1 필터링된 샘플을 산출하는 것으로 시작한다. 샘플은 또한 현재 프레임 n의 필터 파라미터들 c₁로 필터링되어 제 2 필터링된 샘플을 생성한다. 그 다음, 오버랩-추가 또는 크로스-페이드 연산은 필터링된 현재 프레임 n의 대응하는 샘플을 생성하는 제 1 및 제 2 필터링된 샘플들에 기초하여 수행된다. 그 다음, 다음 샘플이 처리되고, 위의 단계들은 현재 프레임 n의 시작 부분의 마지막 샘플이 처리될 때까지 반복된다. 현재 프레임 n의 나머지 샘플들은 현재 프레임 n의 필터 파라미터들 c₁로 필터링된다.

연속적인 필터링된 프레임들로부터 불연속성을 제거하기 위한 상술한 공지된 방법들의 예들은, 예를 들어, US 5,012,517 A에 있는 변환 코더의 문맥(context), EP 0732687 A2에 있는 스피치 대역폭 확장기의 문맥, US 5,999,899 A에 있는 변환 오디오 코더의 문맥, 또는 US 7,353,168 B2에 있는 디코딩 스피치 포스트 필터의 문맥에서 설명된다.

상기 방식들은 불필요한 신호 불연속성들을 제거하는데 효율적이지만, 상기 방식들은 효과적이기 위하여 현재 프레임의 특정 부분, 시작 부분에 대하여 동작하기 때문에, 프레임 부분의 길이는 충분히 길어야 하며, 예를 들어 프레임 길이가 20ms인 경우 프레임 부분 또는 시작 부분의 길이는 5ms만큼 길 수 있다. 특정 경우들에서, 특히 과거 프레임 필터 파라미터들 c₀이 현재 프레임에 잘 적용되지 않는 상황들에서, 이것은 너무 길 수 있으며, 이것은 추가적인 아티팩트들을 생성할 수 있다. 하나의 예가 피치(pitch)가 빠르게 변화하는 고조파(harmonic) 오디오 신호 및, 고조파들의 진폭을 감소시키기 위해 설계된 롱-텀 예측 필터이다. 이러한 경우, 피치-지연(pitch-lag)은 한 프레임부터 다음 프레임까지 다르다. 현재 프레임에서 추정(estimate)된 피치를 갖는 롱-텀 예측 필터는 현재 프레임에서 고조파들의 진폭을 효과적으로 감소시키지만, 오디오 신호의 피치가 상이한 다른 프레임(예를 들어, 다음 프레임의 시작 부분)에서 사용될 경우 고조파들의 진폭을 감소시키지 않는다. 나아가, 이것은 신호의 비-고조파 관련 컴포넌트들의 진폭을 줄임으로써 신호에서의 왜곡을 발생시켜 상황을 악화시킬 수도 있다.

본 발명의 목적은 필터링된 오디오 신호에서 임의의 잠재적인 왜곡을 생성하지 않으면서 필터링된 오디오 프레임들 간의 불연속성들을 제거하기 위한 개선된 방식을 제공하는 것이다.

이러한 목적은 독립항들에 따른 방법 및 장치에 의해 달성된다.

본 발명은 선형 예측 필터링을 이용하여 오디오 신호의 필터링된 과거 프레임 및 필터링된 현재 프레임 간의 불연속성을 제거하는 단계를 포함하는, 오디오 신호를 처리하기 위한 방법을 제공한다.

선형 예측 필터는 다음과 같이 정의될 수 있다:

여기서, M은 필터 차수이고 a_m은 필터 계수들(여기서, a₀=1)이다. 이러한 종류의 필터는 또한 선형 예측 코딩(LPC: Linear Predictive Coding)이으로서 알려져 있다.

실시예들에 따르면, 상기 방법은 오디오 신호의 현재 프레임을 필터링하는 단계, 과거 프레임의 마지막 부분에 기초하여 정의된 선형 예측 필터의 초기 상태들을 이용하여 미리 정의된 신호를 선형 예측 필터링함으로써 얻어진 신호에 의하여 필터링된 현재 프레임의 시작 부분을 수정함으로써 불연속성을 제거하는 단계를 포함한다.

실시예들에 따르면, 선형 예측 필터의 초기 상태들은 현재 프레임을 필터링 하기 위한 필터 파라미터들의 세트를 사용하여 필터링된 필터링되지 않은 과거 프레임의 마지막 부분에 기초하여 정의된다.

실시예들에 따르면, 상기 방법은 필터링된 또는 필터링되지 않은 오디오 신호에 대한 선형 예측 필터를 추정(estimate)하는 단계를 포함한다.

실시예들에 따르면, 선형 예측 필터를 추정하는 단계는 레빈슨-더빈(Levinson-Durbin) 알고리즘을 이용하여 오디오 신호의 과거 필터링된 프레임에 기초하여 또는 오디오 신호의 과거 또는 현재 프레임에 기초하여 필터를 추정하는 단계를 포함한다.

실시예들에 따르면, 선형 예측 필터는 오디오 코덱의 선형 예측 필터를 포함한다.

실시예들에 따르면, 불연속성을 제거하는 단계는 필터링된 현재 프레임의 시작 부분을 처리하는 단계를 포함하고, 현재 프레임의 시작 부분은 현재 프레임에 있는 총 샘플 개수보다 작거나 같은 미리 정의된 개수의 샘플들을 가지며, 현재 프레임의 시작 부분을 처리하는 단계는 필터링된 현재 프레임의 시작 부분으로부터 제로-입력-응답(ZIR: Zero-Input-Response)의 시작 부분을 빼는 단계를 포함한다.

실시예들에 따르면, 상기 방법은 필터링된 현재 프레임을 생성하기 위하여, FIR 필터와 같은 비-재귀(non-recursive) 필터를 사용하여 오디오 신호의 현재 프레임을 필터링하는 단계를 포함한다.

실시예들에 따르면, 상기 방법은 IIR 필터와 같은 재귀(recursive) 필터를 사용하여 샘플 단위(sample-by-sample) 기반으로 오디오 신호의 필터링되지 않은 현재 프레임을 처리하는 단계를 포함하고, 현재 프레임의 시작 부분의 샘플을 처리하는 단계는:

필터링된 샘플을 생성하기 위하여 현재 프레임의 필터 파라미터들을 사용하여 재귀 필터로 샘플을 필터링하는 단계, 및

필터링된 현재 프레임의 대응하는 샘플을 생성하기 위하여 필터링된 샘플로부터 대응하는 ZIR 샘플을 빼는 단계를 포함한다.

실시예들에 따르면, 필터링하는 단계 및 빼는 단계는 현재 프레임의 시작 부분의 마지막 샘플이 처리될 때까지 반복되고, 상기 방법은, 현재 프레임의 필터 파라미터들을 사용하여 재귀 필터로 현재 프레임에 있는 나머지 샘플들을 필터링하는 단계를 더 포함한다.

실시예들에 따르면, 상기 방법은 ZIR을 생성하는 단계를 포함하고, ZIR을 생성하는 단계는:

필터링된 신호의 제 1 부분을 생성하기 위해 현재 프레임을 필터링하는데 사용되는 필터 및 필터 파라미터들로 필터링되지 않은 과거 프레임의 M개의 마지막 샘플들을 필터링하는 단계 ?여기서, M은 선형 예측 필터의 차수(order)임?,

필터링된 신호의 제 2 부분을 생성하기 위해, 과거 프레임의 필터 파라미터들을 사용하여 필터링된, 필터링된 과거 프레임의 M 개의 마지막 샘플들을 필터링된 신호의 제 1 부분으로부터 빼는 단계, 및

필터링된 신호의 제 2 부분과 동일한 초기 상태들 및 선형 예측 필터를 사용하여 제로(zero) 샘플들의 프레임을 필터링함으로써 선형 예측 필터의 ZIR을 생성하는 단계를 포함한다.

실시예들에 따르면, 상기 방법은 ZIR의 진폭이 제로로 더 빠르게 감소하도록 ZIR을 윈도우잉(windowing)하는 단계를 포함한다.

본 발명은 앞서 설명한 불필요한 추가적인 왜곡을 초래하는 신호 불연속성들을 제거하기 위한 기존의 방식들에서 인식된 문제들이 주로 현재 프레임 또는 적어도 그 일부의 처리가 과거 프레임에 대한 필터 파라미터들에 기초하는 것에 기인한다는 발명자의 발견에 기초한다. 본 발명의 방식에 따르면 이 문제가 회피되며, 즉, 본 발명의 방식은 현재 프레임의 부분을 과거 프레임의 필터 파라미터들로 필터링하지 않으며 그리하여 상기 설명한 문제들을 회피한다. 실시예들에 따르면, 불연속성을 제거하기 위하여, LPC 필터(선형 예측 필터)가 불연속성을 제거하기 위하여 사용된다. LPC 필터는 오디오 신호에서 추정될 수 있으며, 그 결과 그것은 오디오 신호의 스펙트럼 형태의 좋은 모델이고, 따라서 LPC 필터를 사용할 때, 오디오 신호의 스펙트럼 형태가 불연속성을 마스킹(mask)할 것이다. 일 실시예에서, LPC 필터는 필터링되지 않은 오디오 신호에 기초하여, 또는 전술한 선형 필터 H(z)에 의하여 필터링된 오디오 신호에 기초하여 추정될 수 있다. 실시예들에 따르면, LPC 필터는 오디오 신호, 예를 들어 현재 프레임 및/또는 과거 프레임, 및 레빈슨-더빈(Levenson-Durbin) 알고리즘을 사용하여 추정될 수 있다. LPC 필터는 또한 레빈슨-더빈 알고리즘을 사용하여 과거 필터링된 프레임 신호에만 기초하여 계산될 수도 있다.

또 다른 실시예들에서, 오디오 신호를 처리하기 위한 오디오 코덱은 선형 필터 H(z)를 사용할 수 있으며, 예를 들어, 변환-기반 오디오 코덱에서 양자화 잡음을 쉐이핑(shape)하기 위해, 양자화되거나 또는 그렇지 않은, LPC 필터를 사용할 수도 있다. 이러한 실시예에서, 이러한 기존 LPC 필터는 새로운 LPC 필터를 추정하는데 필요한 추가적인 복잡성 없이 불연속성을 스무딩(smoothing)하는데 직접 사용될 수 있다.

이하, 첨부 도면들을 참조하여 본 발명의 실시예들을 설명한다:
도 1은 종래의 방식에 따라 오디오 신호의 연속적인 프레임들을 처리하기 위한 블록도를 도시한다.
도 2는 불연속성을 제거하기 위하여 연속적인 오디오 프레임들을 처리하기 위한 또 다른 종래의 방법의 블록도를 도시한다.
도 3은 인코더 측면 및/또는 디코더 측면에서 오디오 신호의 연속적인 프레임들 사이의 불연속성을 제거하기 위한 본 발명의 방식을 구현하는 오디오 신호들을 전송하기 위한 시스템의 간략화된 블록도를 도시한다.
도 4는 일 실시예에 따른 오디오 신호의 연속적인 프레임들 간의 불연속성을 제거하기 위한 본 발명의 방식을 나타내는 흐름도를 도시한다.
도 5는 불연속성들의 제거에도 불구하고 출력 신호의 원하지 않는 왜곡을 회피하는 본 발명의 실시예들에 따른 현재 오디오 프레임을 처리하기 위한 개략적인 블록도를 도시한다.
도 6은 ZIR을 생성하기 위한 도 5의 블록의 기능을 나타내는 흐름도를 도시한다.
도 7은 필터 블록이 IIR과 같은 재귀 필터를 포함하는 경우 필터링된 현재 프레임 시작 부분을 처리하기 위한 도 5의 블록의 기능을 나타내는 흐름도를 도시한다.
도 8은 필터 블록이 FIR 필터와 같은 비-재귀 필터를 포함하는 경우 필터링된 현재 프레임 시작 부분을 처리하기 위한 도 5의 블록의 기능을 나타내는 흐름도를 도시한다.

이하에서, 본 발명의 방식의 실시예들이 보다 상세하게 설명될 것이며, 첨부된 도면에서 동일하거나 유사한 기능을 갖는 엘리먼트들은 동일한 참조 부호들로 표시되어 있다.

도 3은 인코더 측면 및/또는 디코더 측면에서 본 발명의 방식을 구현하는 오디오 신호들을 전송하기 위한 시스템의 간략화된 블록도를 도시한다. 도 3의 시스템은 입력(202)에서 오디오 신호(204)를 수신하는 인코더(205)를 포함한다. 인코더는 오디오 신호(204)를 수신하고 인코더의 출력(208)에서 제공되는 인코딩된 오디오 신호를 생성하는 인코딩 프로세서(206)를 포함한다. 인코딩 프로세서는 불연속성들을 회피하기 위해 수신된 오디오 신호의 연속적인 오디오 프레임들을 처리하기 위한 본 발명의 방식을 구현하도록 프로그래밍되거나 또는 구축될 수 있다. 다른 실시예들에서, 인코더는 송신 시스템의 일부일 필요는 없지만, 인코더는 인코딩된 오디오 신호들을 생성하는 독립형(standalone) 디바이스일 수 있거나 또는 인코더는 오디오 신호 송신기의 일부일 수도 있다. 일 실시예에 따르면, 인코더(200)는 212로 표시된 바와 같이 오디오 신호의 무선 송신을 허용하기 위한 안테나(210)를 포함할 수 있다. 다른 실시예들에서, 인코더(200)는, 예를 들어 참조 부호(214)로 표시된 바와 같이, 유선 접속을 이용하여 출력(208)에 제공된 인코딩된 오디오 신호를 출력할 수 있다.

도 3의 시스템은, 예를 들어, 유선 라인(214)을 통해 또는 안테나(254)를 통해 인코더(250)에 의해 처리될 인코딩된 오디오 신호를 수신하는 입력(252)을 갖는 디코더(250)를 더 포함한다. 인코더(250)는 인코딩된 신호에 대하여 동작하고 출력(260)에서 디코딩된 오디오 신호(258)를 제공하는 디코딩 프로세서 (256)를 포함한다. 디코딩 프로세서(256)는 불연속성들이 회피되는 방식으로 필터링되는 연속적인 프레임들에 대한 본 발명의 방식에 따라 동작하도록 구현될 수 있다. 다른 실시예들에서, 디코더는 전송 시스템의 일부일 필요는 없고, 오히려 디코더는 인코딩된 오디오 신호들을 디코딩하기 위한 독립형 디바이스일 수 있거나 또는 디코더는 오디오 신호 수신기의 일부일 수도 있다.

이하에서, 인코딩 프로세서(206) 및 디코딩 프로세서(256) 중 적어도 하나에서 구현될 수 있는 본 발명의 방식의 실시예들이 보다 상세히 설명될 것이다. 도 4는 본 발명의 방식의 실시예에 따라 오디오 신호의 현재 프레임을 처리하기 위한 흐름도를 도시한다. 현재 프레임의 처리가 설명될 것이며, 과거 프레임은 후술되는 동일한 기법으로 이미 처리된 것으로 가정한다. 본 발명에 따르면, 단계 S100에서 오디오 신호의 현재 프레임이 수신된다. 현재 프레임은 단계 S102에서, 예를 들어, 도 1 및 2와 관련하여 상술된 바와 같은 방식으로 필터링된다 (필터 블록 102 참조). 본 발명의 방식에 따라, 필터링된 과거 프레임 n-1과 필터링된 현재 프레임 n 사이의 불연속성(도 1 또는 2 참조)은 단계 S104에 표시된 바와 같이 선형 예측 필터링을 사용하여 제거될 것이다. 일 실시예에 따르면, 선형 예측 필터는 다음과 같이 정의될 수 있다:

여기서, M은 필터 차수이고 a_m은 필터 계수들(여기서, a₀=1)이다. 이러한 종류의 필터는 또한 선형 예측 코딩(LPC: Linear Predictive Coding)으로서 알려져 있다. 실시예들에 따르면, 필터링된 현재 프레임은 선형 예측 필터링을 필터링된 현재 프레임의 적어도 일부에 적용함으로써 처리된다. 불연속성은 필터링된 현재 프레임의 시작 부분을, 과거 프레임의 마지막 부분을 기초로 하여 정의된 선형 예측 코딩 필터의 초기 상태들로 미리 정의된 신호를 선형 예측 필터링함으로써 얻어진 신호에 의해 변경함으로써 제거될 수 있다. 선형 예측 코딩 필터의 초기 상태들은 현재 프레임에 대한 필터 파라미터들의 세트를 사용하여 필터링된 과거 프레임의 마지막 부분에 기초하여 정의될 수 있다. 본 발명의 방식은 과거 프레임에 대해 사용된 필터 계수로 오디오 신호의 현재 프레임을 필터링하는 것을 요구하지 않으며 그에 의해 도 2와 관련하여 상기 기술된 종래 기술의 방식들에서 경험되는 바와 같은 현재 프레임에 대한 필터 파라미터들과 과거 프레임에 대한 필터 파라미터들의 미스매치(mismatch)에 기인하여 발생하는 문제들을 피할 수 있으므로 유리하다.

도 5는 불연속들의 제거에도 불구하고 출력 신호에서 원하지 않는 왜곡을 피하는 본 발명의 실시예들에 따른 오디오 신호의 현재 오디오 프레임을 처리하기 위한 개략적인 블록도를 도시한다. 도 5에서는, 도 1 및 2에서와 동일한 참조 부호들이 사용된다. 오디오 신호(100)의 현재 프레임 n이 수신되고, 오디오 신호(100)의 각 프레임은 복수의 샘플들을 갖는다. 오디오 신호(100)의 현재 프레임 n은 필터 블록(102)에 의하여 처리된다. 도 1 및 2의 종래 기술의 방식들과 비교할 때, 도 5와 관련하여 기술된 실시예들에 따르면, 필터링된 현재 프레임은 블록(110)에 의하여 개략적으로 도시된 바와 같이 ZIR 샘플들에 기초하여 추가적으로 처리된다. 일 실시예에 따르면, 과거 프레임 n-1에 기초하여, 그리고 LPC 필터에 기초하여, 블록(112)에 의하여 개략적으로 도시된 바와 같이 ZIR 샘플들이 생성된다.

프로세싱 블록들(110 및 112)의 기능을 이제 더 상세히 설명한다. 도 6은 ZIR 샘플들을 생성하기 위한 처리 블록(112)의 기능을 나타내는 흐름도를 도시한다. 전술한 바와 같이, 오디오 신호(100)의 프레임들은 각각의 프레임에 대해 선택되거나 또는 결정되는 필터 파라미터들 c를 사용하여 선형 필터 H(z)로 필터링된다. 필터 H(z)는 재귀적 필터, 예를 들어 IIR 필터일 수 있거나, 또는 비-재귀 필터, 예를 들어 FIR 필터일 수 있다. 처리 블록(112)에서는 양자화될 수 있거나 또는 양자화되지 않을 수 있는 LPC 필터가 사용된다. LPC 필터는 차수 M을 가지며 필터링된 또는 필터링되지 않은 오디오 신호에서 추정되거나, 또는 오디오 코덱에서도 사용되는 LPC 필터일 수 있다. 제 1 단계 S200에서, 과거 프레임 n-1의 M개의 마지막 샘플들(여기서, M은 LPC 필터의 차수)은 그러나 현재 프레임 n의 필터 파라미터들 또는 계수들 c1을 사용하여 필터 H(z)로 필터링된다. 이에 따라 단계 S200은 필터링된 신호의 제 1 부분을 생성한다. 단계 S202에서 필터링된 과거 프레임 n-1의 M개의 마지막 샘플들(과거 프레임 n-1의 필터 파라미터들 또는 계수들 c0을 사용하여 필터링된 과거 프레임의 M개의 마지막 샘플들)은 단계 S200에 의하여 제공된 필터링된 신호의 제 1 부분으로부터 차감되며, 이에 따라 필터링된 신호의 제 2 부분을 생성한다. 단계 S204에서 차수 M을 갖는 LPC 필터가 적용되고, 보다 구체적으로 LPC 필터의 제로 입력 응답(ZIR: Zero Input Response)이 단계 S204에서 제로 샘플들의 프레임을 필터링함으로써 생성되며, 여기서, 필터의 초기 상태들은 필터링된 신호들의 제 2 부분과 동일하고, 이에 따라 ZIR을 생성한다. 실시예들에 따르면, ZIR은 그 진폭이 0으로 더 빠르게 감소하도록 윈도우잉(windowing)될 수 있다.

도 5와 관련하여 전술한 바와 같이, ZIR은 프로세싱 블록(110)에 적용되며, 그 기능은 선형 필터 H(z)로서 IIR 필터와 같은 재귀 필터를 사용하는 경우에 대한 도 7의 흐름도를 참조하여 설명된다. 도 5와 관련하여 설명된 실시예에 따르면, 현재 프레임과 과거 프레임 간의 불연속성들을 제거하면서 원하지 않는 왜곡들을 피하기 위해, 현재 프레임 n을 필터링하는 단계는 샘플 단위(sample-by-sample) 기초로 현재 프레임 n을 처리(필터링)하는 단계를 포함하며, 여기서 시작 부분의 샘플들은 본 발명의 방식에 따라 처리된다. 보다 구체적으로, 현재 프레임 n의 시작 부분의 M개의 샘플들이 처리되고, 제 1 단계 S300에서 변수 m은 0으로 설정된다. 다음 단계 S302에서, 현재 프레임 n의 샘플 m은 필터 H(z) 및 현재 프레임 n에 대한 필터 파라미터들 또는 계수들 c1을 사용하여 필터링된다. 따라서, 종래의 방식들과는 달리 본 발명의 방식에 따라서, 현재 프레임은 과거 프레임으로부터의 계수들을 사용하여 필터링되는 것이 아니라, 현재 프레임으로부터의 계수들만을 사용하여 필터링되며, 이것은 결과적으로 불연속성들이 제거된다는 사실에도 불구하고 종래의 방식들에서 존재하는 원하지 않는 왜곡을 회피한다. 단계 S302는 필터링된 샘플 m을 생성하고, 단계 S304에서 샘플 m에 대응하는 ZIR 샘플이 필터링된 샘플 m으로부터 차감되어 필터링된 현재 프레임 n의 대응하는 샘플을 생성한다. 단계 S306에서, 현재 프레임 n의 시작 부분의 마지막 샘플 M이 처리되는지 여부가 결정된다. 시작 부분들의 모든 M개의 샘플들이 처리되지 않은 경우, 변수 m이 증가되고, 방법 단계들 S302 내지 S306이 현재 프레임 n의 다음 샘플을 위하여 반복된다. 일단 시작 부분들의 모든 M개의 샘플들이 처리되면, 단계 S308에서 현재 프레임 n의 나머지 샘플들은 현재 프레임의 필터 파라미터들 c1을 사용하여 필터링되고, 이에 따라 연속되는 프레임들 간의 불연속성들을 제거함에도 원하지 않는 왜곡을 회피하는 본 발명의 방식에 따라 처리된 필터링된 현재 프레임 n을 제공한다.

다른 실시예에 따르면, 선형 필터 H(z)는 FIR 필터와 같은 비-재귀 필터이고, 도 5와 관련하여 전술한 바와 같이, ZIR은 처리 블록(110)에 적용된다. 이 실시예의 기능은 도 8의 흐름도를 참조하여 설명된다. 단계 S400에서 현재 프레임 n은 현재 프레임에 대한 필터 파라미터들 또는 계수들 c1을 사용하여 필터 H(z)로 필터링된다. 따라서, 기존의 방식들과 달리 본 발명의 방식에 따라서, 현재 프레임은 과거 프레임으로부터의 계수들을 사용하여 필터링되지 않고, 오직 현재 프레임으로부터의 계수들을 사용하여 필터링 되며, 이는 결과적으로 불연속성들을 제거한다는 사실에도 불구하고 종래의 방식들에서 존재하는 원하지 않는 왜곡을 회피한다. 단계 S402에서, ZIR의 시작 부분은 필터링된 현재 프레임의 대응하는 시작 부분으로부터 차감되며, 이에 따라 본 발명의 방식에 따라서 필터링/처리된 시작 부분을 갖는 필터링된 현재 프레임 n 및 오직 현재 프레임에 대한 필터 파라미터들 또는 계수들 c1을 사용하여 필터링된 나머지 부분을 제공하고, 이에 따라 연속적인 프레임들 간의 불연속성들을 제거하면서 원하지 않는 왜곡을 회피한다.

본 발명의 방식은 오디오 신호가 필터링될 때 상술한 바와 같은 상황들에 적용될 수 있다. 실시예들에 따르면, 본 발명의 방식은, 예를 들어 신호 고조파들 사이의 코딩 노이즈의 레벨을 감소시키기 위해 오디오 코덱 포스트필터(postfilter)를 사용할 때, 디코더 측면에서도 적용될 수 있다. 디코더에서 오디오 프레임들을 처리하기 위하여, 일 실시예에 다르면, 포스트필터는 다음과 같을 수 있다:

H(z) = (1 - B(z)) / (1 - A(z)·z^-T)

여기서, B(z) 및 A(z)는 두 개의 FIR 필터들이고 H(z) 필터 파라미터들은 FIR 필터들 B(z) 및 A(z)의 계수들이며, T는 피치 지연(pitch lag)을 나타낸다. 이러한 시나리오에서, 예를 들어 과거 프레임 필터 파라미터들 c₀이 현재 프레임 필터 파라미터들 c₁과 다를 때, 필터는 두 필터링된 프레임들 사이에 불연속성을 발생시킬 수 있으며, 이러한 불연속성은 필터링된 오디오 신호(104) 안에 예를 들어 “클릭”과 같은 아티팩트(artifact)를 생성할 수 있다. 이러한 불연속성은 상술한 바와 같이 필터링된 현재 프레임을 처리함으로써 제거된다.

설명된 개념의 몇몇 양상들이 장치의 문맥에서 기술되었지만, 이들 양상들은 대응하는 방법으로도 설명될 수 있음이 명백하며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 기술된 양상들은 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징으로도 설명될 수 있다.

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는) 전기적으로 판독 가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루 레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 그러므로, 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.

본 발명에 따른 몇몇 실시예들은 본 명세서에서 설명된 방법들 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전기적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 상기 방법들 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능 캐리어(machine readable carrier)에 저장될 수 있다.

다른 실시예들은 기계 판독 가능 캐리어 상에 저장되는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다시 말하면, 본 발명의 방법의 일 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법의 또 다른 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이, 여기에 기록되어, 포함되는 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다.

그러므로, 본 발명의 또 다른 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들어 인터넷을 통해 데이터 통신 접속을 통하여 전송되도록 구성될 수 있다.

다른 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하도록 구성되거나 또는 적응된 처리 수단, 예를 들어 컴퓨터 또는 프로그램 가능한 로직 디바이스를 포함한다.

다른 실시예는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

몇몇 실시예들에서, 본 명세서에서 설명된 방법들의 기능들 중 몇몇 또는 전부를 수행하도록 프로그램 가능한 로직 디바이스 (예를 들어 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array))가 사용될 수 있다. 몇몇 실시예들에서, 필드 프로그래머블 게이트 어레이는 본 명세서에서 설명된 방법들 중 하나를 수행하도록 마이크로프로세서와 협력할 수 있다. 일반적으로, 상기 방법들은 임의의 하드웨어 장치에 의해 수행되는 것이 바람직하다.

전술한 실시예들은 단지 본 발명의 원리들을 설명하기 위한 것일 뿐이다. 본 명세서에서 설명된 구성들 및 세부사항들의 변경들 및 변형들은 통상의 기술자에게 명백할 것이다. 따라서, 본 발명은 특허 청구범위의 범위에 의해서만 제한되고, 본 명세서의 실시예들의 기술 및 설명에 의해 제공된 구체적인 세부 사항에 의하여 제한되지 않는다.

Claims

오디오 신호(100)를 처리하기 위한 방법에 있어서,
상기 오디오 신호의 필터링된 현재 프레임과 필터링된 과거 프레임 사이의 불연속성(discontinuity)(106a, 106b)을 제거(S102, S104, S300-S308, S400-S402)하기 위하여 선형 예측 필터링을 사용하는 단계를 포함하며,
상기 필터링된 과거 프레임은 과거 프레임 필터 파라미터들의 세트를 이용하여 필터링된 과거 프레임이고, 상기 필터링된 현재 프레임은 현재 프레임 필터 파라미터들의 세트를 이용하여 필터링된 현재 프레임이고, 상기 과거 프레임 필터 파라미터들은 상기 현재 프레임 필터 파라미터들과 다르고,
상기 불연속성을 제거하기 위해 상기 오디오 신호의 상기 현재 프레임을 필터링하는 단계는 상기 현재 프레임의 필터링을 위한 현재 프레임 필터 파라미터들의 세트를 이용하여 필터링된 필터링되지 않은 과거 프레임의 마지막 부분에 기초하여 정의된 상기 선형 예측 필터의 초기 상태들로 미리 정의된 신호를 선형 예측 필터링함으로써 얻어진 신호에 의해 상기 필터링된 현재 프레임의 시작 부분을 수정하는 단계를 포함하는,
오디오 신호를 처리하기 위한 방법.
제 1 항에 있어서,
상기 필터링된 또는 필터링되지 않은 오디오 신호(100)에 대한 상기 선형 예측 필터를 추정(estimate)하는 단계;를 더 포함하는,
오디오 신호를 처리하기 위한 방법.
제 2 항에 있어서,
상기 선형 예측 필터를 추정하는 단계는,
레빈슨-더빈(Levinson-Durbin) 알고리즘을 사용하여 상기 오디오 신호(100)의 상기 필터링된 과거 프레임에 기초하여 상기 필터를 추정하는 단계, 또는
상기 오디오 신호(100)의 상기 과거 프레임 또는 현재 프레임에 기초하여 상기 필터를 추정하는 단계;를 포함하는,
오디오 신호를 처리하기 위한 방법.
제 1 항에 있어서,
상기 선형 예측 필터는 오디오 코덱의 선형 예측 필터를 포함하는,
오디오 신호를 처리하기 위한 방법.
제 1 항에 있어서,
상기 불연속성을 제거하는 단계는 상기 필터링된 현재 프레임의 상기 시작 부분을 처리하는 단계를 포함하고,
상기 현재 프레임의 상기 시작 부분은 상기 현재 프레임에 있는 총 샘플 개수보다 작거나 같은 미리 정의된 개수의 샘플들을 가지며,
상기 현재 프레임의 상기 시작 부분을 처리하는 단계는 상기 필터링된 현재 프레임의 상기 시작 부분으로부터 제로-입력-응답(ZIR: Zero-Input-Response)의 시작부분을 빼는 단계(S304, S402)를 포함하는,
오디오 신호를 처리하기 위한 방법.
제 5 항에 있어서,
상기 필터링된 현재 프레임을 생성하기 위하여, FIR 필터와 같은 비-재귀(non-recursive) 필터를 사용하여 상기 오디오 신호의 상기 현재 프레임을 필터링하는 단계(S400)을 포함하는,
오디오 신호를 처리하기 위한 방법.
제 5 항에 있어서,
IIR 필터와 같은 재귀(recursive) 필터를 사용하여 샘플 단위(sample-by-sample) 기반으로 상기 오디오 신호의 상기 필터링되지 않은 현재 프레임을 처리하는 단계를 포함하고,
상기 현재 프레임의 상기 시작 부분의 샘플을 처리하는 단계는:
필터링된 샘플을 생성하기 위하여 상기 현재 프레임의 상기 필터 파라미터들을 사용하여 상기 재귀 필터로 상기 샘플을 필터링하는 단계(S302)와,
상기 필터링된 현재 프레임의 대응하는 샘플을 생성하기 위하여 상기 필터링된 샘플로부터 대응하는 ZIR 샘플을 빼는 단계(S304)를 포함하는,
오디오 신호를 처리하기 위한 방법.
제 7 항에 있어서,
필터링하는 단계(S302) 및 빼는 단계(S304)는 상기 현재 프레임의 상기 시작 부분의 마지막 샘플이 처리될 때까지 반복되고,
상기 방법은, 상기 현재 프레임의 상기 필터 파라미터들을 사용하여 상기 재귀 필터로 상기 현재 프레임에 있는 나머지 샘플들을 필터링하는 단계(S306)을 더 포함하는,
오디오 신호를 처리하기 위한 방법.
제 5 항에 있어서,
상기 ZIR을 생성하는 단계를 포함하고,
상기 ZIR을 생성하는 단계는:
필터링된 신호의 제 1 부분을 생성하기 위해 상기 현재 프레임을 필터링하는데 사용되는 필터 및 필터 파라미터들로 상기 필터링되지 않은 상기 과거 프레임의 M개의 마지막 샘플들을 필터링하는 단계(S200) ―여기서, M은 상기 선형 예측 필터의 차수(order)임―,
필터링된 신호의 제 2 부분을 생성하기 위해, 상기 과거 프레임의 상기 필터 파라미터들을 사용하여 필터링된, 상기 필터링된 과거 프레임의 M개의 마지막 샘플들을 상기 필터링된 신호의 제 1 부분으로부터 빼는 단계(S202), 및
상기 필터링된 신호의 제 2 부분과 동일한 초기 상태들 및 상기 선형 예측 필터를 사용하여 제로(zero) 샘들들의 프레임을 필터링함으로써 선형 예측 필터의 ZIR을 생성하는 단계(S204);를 포함하는,
오디오 신호를 처리하기 위한 방법.
제 9 항에 있어서,
상기 ZIR의 진폭이 제로로 더 빠르게 감소하도록 상기 ZIR을 윈도우잉(windowing)하는 단계를 포함하는,
오디오 신호를 처리하기 위한 방법.
컴퓨터 상에서 실행될 때, 제 1 항 내지 제 10 항 중 어느 한 항의 방법을 수행하는 명령들을 저장하는 컴퓨터 판독가능 매체.
오디오 신호(100)를 처리하기 위한 장치에 있어서,
상기 오디오 신호의 필터링된 현재 프레임 및 필터링된 과거 프레임 사이의 불연속성을 제거하기 위하여 선형 예측 필터를 사용하도록 구성되는 프로세서(102, 110, 112)를 포함하며,
상기 필터링된 과거 프레임은 과거 프레임 필터 파라미터들의 세트를 이용하여 필터링된 과거 프레임이고, 상기 필터링된 현재 프레임은 현재 프레임 필터 파라미터들의 세트를 이용하여 필터링된 현재 프레임이고, 상기 과거 프레임 필터 파라미터들은 상기 현재 프레임 필터 파라미터들과 다르고,
상기 불연속성을 제거하기 위해 상기 오디오 신호의 상기 현재 프레임을 필터링하는 것은 상기 현재 프레임의 필터링을 위한 현재 프레임 필터 파라미터들의 세트를 이용하여 필터링된 필터링되지 않은 과거 프레임의 마지막 부분에 기초하여 정의된 상기 선형 예측 필터의 초기 상태들로 미리 정의된 신호를 선형 예측 필터링함으로써 얻어진 신호에 의해 상기 필터링된 현재 프레임의 시작 부분을 수정하는 것을 포함하는,
오디오 신호를 처리하기 위한 장치.
오디오 디코더(decoder)(250)에 있어서,
제 12 항의 장치를 포함하는,
오디오 디코더.
오디오 인코더(encoder)(200)에 있어서,
제 12 항의 장치를 포함하는,
오디오 인코더.
삭제
삭제
삭제