KR20190052122A

KR20190052122A - 다중 채널 오디오 신호 처리 방법, 장치 및 시스템

Info

Publication number: KR20190052122A
Application number: KR1020197011605A
Authority: KR
Inventors: 저 왕
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2016-09-28
Filing date: 2016-09-28
Publication date: 2019-05-15
Also published as: CN108140393B; MX2019003417A; EP3511934A4; CN117392988A; CN117476018A; CN108140393A; US10984807B2; US20210312932A1; KR102387162B1; US20190221219A1; US11922954B2; JP2019533189A; JP6790251B2; KR20220053030A; US20200273468A1; CN117351965A; WO2018058379A1; KR102480710B1; KR20210111898A; EP3511934A1

Abstract

본 발명은 다중 채널 오디오 신호 처리 방법, 장치 및 시스템을 제공하며, 오디오 인코딩 및 디코딩 기술 분야에 관한 것이며, 오디오 신호가 다중채널 오디오 통신 시스템에서 불연속적으로 전송될 수 없는 종래 기술의 문제를 해결한다. 인코더는 신호 검출 유닛 및 신호 인코딩 유닛을 포함한다. 신호 인코딩 유닛은: 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때, N번째-프레임 다운믹싱 신호를 인코딩하거나, 또는 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때, 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하고, 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰도록 추가로 구성되어 있다. 기술적 솔루션에서, 다운믹싱 신호에 대한 인코딩이 불연속적이기 때문에, 오디오 신호가 불연속적으로 전송될 수 없는 종래 기술의 문제가 해결된다.

Description

다중 채널 오디오 신호 처리 방법, 장치 및 시스템

본 발명은 오디오 인코딩 및 디코딩 기술 분야에 관한 것이며, 특히 다중 채널 오디오 신호 처리 방법, 장치 및 시스템에 관한 것이다.

오디오 통신 중에, 통신 시스템의 용량을 증가시키기 위해, 일반적으로, 송신단은 송신될 원본 오디오 신호의 각 프레임을 먼저 인코딩한 다음, 오디오 신호를 송신한다. 오디오 신호는 인코딩을 통해 압축된다. 신호를 수신한 후에, 수신단은 수신된 신호를 디코딩하고 원본 오디오 신호를 복원한다. 오디오 신호에 대한 최대 압축을 실시하기 위해 다양한 유형의 인코딩 방식이 다양한 유형의 오디오 신호에 사용된다. 종래 기술에서, 오디오 신호가 음성 신호일 때, 연속적인 인코딩 방식이 일반적으로 사용되는데, 즉, 음성 신호의 각 프레임이 인코딩되고, 오디오 신호가 잡음 신호인 경우, 일반적으로 잡음 신호를 인코딩하기 위해 불연속 인코딩 방식이 사용되며, 즉, 한 프레임의 잡음 신호가 수 프레임의 잡음 신호마다 인코딩된다. 예를 들어, 잡음 신호는 6 프레임마다 인코딩된다. 잡음 신호의 제1 프레임이 인코딩된 후, 잡음 신호의 제7 프레임에 대한 잡음 신호의 제2 프레임은 인코딩되지 않고, 잡음 신호의 제8 프레임이 인코딩된다. 제2 프레임 내지 제7 프레임은 6개의 No_Data 프레임이다. 구체적으로, 오디오 신호는 모노 오디오 신호이다.

오디오 통신 기술의 발달에 따라, 오디오 통신 시스템은 스테레오 통신과 같은 특별한 통신 방식을 더 갖는다. 예를 들어, 스테레오 통신이 듀얼 채널 통신이라는 것을 예로 사용한다. 2개의 채널은 제1 채널 및 제2 채널을 포함한다. 송신단은 제1 채널의 n번째-프레임 음성 신호와 제2 채널의 n번째-프레임 음성 신호에 따라 제1 채널의 n번째-프레임 음성 신호와 제2 채널의 n번째-프레임의 음성 신호를 제2 채널 상의 다운믹싱 신호의 하나의 프레임으로 혼합하는 데 사용되는 스테레오 파라미터를 획득하고, 다운믹싱 신호는 모노 신호이다. 그런 다음, 송신단은 2개 채널 상의 n번째-프레임 음성 신호를 하나의 프레임의 다운믹싱 신호와 혼합하며, 여기서 n은 0보다 큰 양의 정수이며, 그런 다음 다운믹싱 신호의 프레임을 인코딩하며, 마지막으로, 인코딩된 다운믹싱 신호 및 스테레오 파라미터를 수신단으로 송신한다. 인코딩된 다운믹싱 신호 및 스테레오 파라미터를 수신한 후, 수신단은 인코딩된 다운믹싱 신호를 디코딩하고, 스테레오 파라미터에 따라 다운믹싱 신호를 듀얼 채널 신호로 복원한다. 2개의 채널 상의 음성 신호의 각 프레임이 인코딩되는 송신 방식과 비교하여, 이 송신 방식에서, 송신된 비트 수량이 크게 감소되어 압축을 실현한다.

그렇지만, 스테레오 통신 중에 잡음 신호가 전송되는 경우, 음성 신호에 대한 인코딩 방식과 동일한 인코딩 방식이 사용되고, 모노에서 사용되는 불연속 인코딩 방식이 그대로 스테레오 통신에 적용되면, 수신단은 잡음 신호를 복원할 수 없어 수신단의 사용자의 주관적 경험을 저하시킨다.

본 발명은 다중 채널 오디오 신호 처리 방법, 장치 및 시스템을 제공하여, 오디오 신호가 다중채널 오디오 통신 시스템에서 불연속적으로 전송될 수 없는 종래 기술의 문제를 해결한다.

제1 관점에 따라, 다중채널 오디오 신호 처리 방법이 제공되며, 상기 방법은: 인코더가 N번째-프레임 다운믹싱 신호(downmixed signal)가 음성 신호를 포함하는지를 검출하는 단계; 및 상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하는 단계를 포함하거나, 또는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않은 것을 검출할 때, N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정되면 N번째-프레임 다운믹싱 신호를 인코딩하는 단계, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정되면 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰는 단계를 포함하며, 여기서 N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초하여 복수의 채널 중 2개 채널 상의 N번째-프레임 오디오 신호가 혼합된 후에 획득되고 N은 0보다 큰 양의 정수이다.

N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정되면 인코더는 다운믹싱 신호를 인코딩하며, 그렇지 않으면, 인코더는 다운믹싱 신호를 인코딩하지 않으며, 이에 따라 인코더는 다운믹싱 신호에 대한 불연속적인 인코딩을 실행하며, 다운믹싱 신호 압축 효율이 향상된다.

본 발명의 실시예에서, 미리 설정된 오디오 프레임 인코딩 조건은 제1 프레임 다운믹싱 신호를 포함한다는 것에 유의해야 한다. 즉, 제1 프레임 다운믹싱 신호가 음성 신호를 포함하지 않지만 제1 프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족할 때, 제1 프레임 다운믹싱 신호는 인코딩된다.

제1 관점에 기초해서, 다운믹싱 신호 압축 효율을 크게 향상시키기 위해, 선택적으로, 인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정되면 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하거나; 또는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것이 검출될 때: N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건에 따라 N번째-프레임 다운믹싱 신호를 인코딩하거나, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족하는 것으로 결정되면 미리 설정된 SID 인코딩 조건에 따라 N번째-프레임 다운믹싱 신호를 인코딩하며, 미리 설정된 SID 인코딩 레이트는 음성 프레임 인코딩 레이트보다 낮다.

특정한 실시 동안, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족하는 것으로 결정되면, SID 인코딩은 미리 설정된 SID 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호에 대해 수행된다. 음성 신호 인코딩과 비교하면, 이것은 다운믹싱 신호 압축 효율을 더 향상시킨다. 또한, 제1 관점 및 기술적 솔루션에서, 디코더가 다운믹싱 신호를 복원할 수 없는 것을 회피하기 위해, 스테레오 파라미터 집합은 추가로 인코딩될 필요가 있다는 것에 유의해야 한다.

제1 관점에 기초해서, 다운믹싱 신호 압축 효율을 크게 향상시키기 위해, 선택적으로, 인코더는 스테레오 파라미터 집합에 대해 불연속적 인코딩을 수행한다. 구체적으로, 인코더는 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고; N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 스테레오 파라미터 집합을 인코딩하거나; 또는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때: N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정되면, 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰며, 여기서 N번째-프레임 스테레오 파라미터 집합은 Z개의 스테레오 파라미터를 포함하고, Z개의 스테레오 파라미터는 인코더가 미리 설정된 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 때 사용되는 파라미터를 포함하며, Z는 0보다 큰 양의 정수이다.

제1 관점에 기초해서, 다운믹싱 신호 압축 효율을 크게 향상시키기 위해, 선택적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계 이전에, 인코더는 미리 설정된 스테레오 파라미터 차원 감소 규칙(stereo parameter dimension reduction rule)에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하며, 그리고 X개의 목표 스테레오 파라미터를 인코딩하며, - X는 0보다 크고 Z보다 작거나 같은 양의 정수이다.

미리 설정된 스테레오 파라미터 차원 감소 규칙은 미리 설정된 스테레오 파라미터 유형일 수 있다. 즉, 미리 설정된 스테레오 파라미터 유형을 만족하는 X개의 목표 스테레오 파라미터는 N번째-프레임 스테레오 파라미터 집합으로부터 선택된다. 대안으로, 미리 설정된 스테레오 파라미터 차원 감소 규칙은 미리 설정된 스테레오 파라미터 수량일 수 있다. 즉, X개의 목표 스테레오 파라미터는 N번째-프레임 스테레오 파라미터 집합으로부터 선택된다. 대안으로, 미리 설정된 스테레오 파라미터 차원 감소 규칙은 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 대한 시간-도메인 또는 주파수-도메인 해상도를 감소시킨다. 즉, X개의 목표 스테레오 파라미터는 적어도 하나의 스테레오 파라미터의 감소된 시간-도메인 또는 주파수-도메인 해상도에 따라 Z개의 스테레오 파라미터에 기초해서 결정된다.

제1 관점에 기초해서, 선택적으로, 다중채널 통신 시스템의 압축 효율을 향상시키기 위해 이하의 방법을 추가로 사용할 수 있다:

N번째-프레임 오디오 신호가 음성 신호를 포함하는 것을 검출할 때: 인코더는 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하거나; 또는 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출할 때: N번째-프레임 오디오 신호가 미리 설정된 프레임 인코딩 조건을 만족하는 것으로 결정되면, 인코더는 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하거나; 또는 N번째-프레임 오디오 신호가 미리 설정된 프레임 인코딩 조건을 만족하지 않는 것으로 결정되면, 인코더는 제2 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, 그리고 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정될 때 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 인코더는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정될 때 스테레오 파라미터 집합을 인코딩하지 않으며,

여기서 제1 스테레오 파라미터 집합 생성 방식 및 제2 스테레오 파라미터 집합 생성 방식은 다음의 조건:

제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 시간 도메인 해상도(time-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 시간 도메인 해상도보다 낮지 않은 조건, 또는 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 주파수 도메인 해상도(frequency-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 주파수 도메인 해상도보다 낮지 않은 조건 중 적어도 하나를 만족한다.

제1 관점에 기초해서, 선택적으로, N번째-프레임 다운믹싱 신호가 음성 신호를 포함할 때, 인코더는 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하며; N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족할 때 인코더는 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나; 또는 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족하지 않을 때 인코더는 제2 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하며, 여기서

제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않고; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도(quantization precision)는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다.

N번째-프레임 스테레오 파라미터 집합은 IPD 및 ITD를 포함한다. 제1 인코딩 방식에서 규정되는 IPD 양자화 정확도는 제2 인코딩 방식에서 규정되는 IPD 양자화 정확도보다 낮지 않으며, 제1 인코딩 방식에서 규정되는 ITD 양자화 정확도는 제2 인코딩 방식에서 규정되는 ITD 양자화 정확도보다 낮지 않다.

제1 관점에 기초해서, 선택적으로, 일반적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 레벨 차이(inter-channel level difference, ILD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,

을 포함하고, 여기서

은 ILD가 제1 기준으로부터 벗어나는 정도를 나타내고, 제1 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제2 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나,

N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 시간 차이(inter-channel time difference, ITD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,

을 포함하고, 여기서

는 ITD가 제2 기준으로부터 벗어나는 정도를 나타내고, 제2 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제3 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나, 또는

N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 위상 차이(inter-channel phase difference, IPD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,

을 포함하고, 여기서

는 IPD가 제3 기준으로부터 벗어나는 정도를 나타내고, 제3 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제4 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이다.

제2 알고리즘, 제3 알고리즘, 제4 알고리즘은 실제 상황에 따라 미리 설정될 필요가 있다.

선택적으로,

,

, 및

는 각각 다음의 표현:

,

, 및

을 만족하며, 여기서

은 N번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, M은 N번째-프레임 오디오 신호를 전송하는 데 점유되는 서브 주파수 대역의 총 수량이고,

는 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ILD의 평균값이고, T는 0보다 큰 양의 정수이고,

은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, ITD는 N번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,

는 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ITD의 평균값이고,

는 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,

은 N번째-프레임 오디오 신호의 일부가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이고,

은 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 IPD의 평균값이며,

은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이다.

제2 관점에 따라, 다중채널 오디오 신호 처리 방법이 제공되며, 상기 방법은: 디코더가 비트스트림을 수신하는 단계 - 비트스트림은 적어도 2개의 프레임을 포함하고, 적어도 2개의 프레임은 적어도 하나의 제1 유형 프레임 및 적어도 하나의 제2 유형 프레임을 포함하고, 적어도 하나의 제1 유형 프레임은 다운믹싱 신호를 포함하고, 적어도 하나의 제2 유형 프레임은 다운믹싱 신호를 포함하지 않음 - ; 및 N번째-프레임 비트스트림에서, N은 1보다 큰 양의 정수이며, 상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 다운믹싱 신호를 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계; 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 상기 디코더가 미리 설정된 제1 규칙에 따라 N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 중에서 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제1 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하는 단계를 포함하며, 여기서 m은 0보다 큰 양의 정수이고, N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초해서 다중 채널 중 2개의 채널 상에서 N번째-프레임 오디오 신호를 혼합함으로써 인코더에 의해 획득된다.

디코더에 의해 수신된 비트스트림은 제1 유형 프레임 및 제2 유형 프레임을 포함하며, 제1 유형 프레임은 다운믹싱 신호를 포함하고, 제2 유형 프레임은 다운믹싱 신호를 포함하지 않는다. 즉, 인코더는 다운믹싱 신호의 각 프레임을 인코딩하지 않는다. 그러므로 다운믹싱 신호에 대한 불연속적 전송이 실행되며, 다중채널 오디오 통신 시스템의 다운믹싱 신호 압축 효율이 향상된다.

본 발명의 실시예에서, 제1 프레임 비트스트림은 제1 유형 프레임이라는 것에 유의해야 한다. 구체적으로, 제1 프레임 비트스트림이 디코딩된 후 획득된 다운믹싱 신호를 2개 채널 상의 오디오 신호로 복원하기 위해 제1 프레임 비트스트림은 스테레오 파라미터 집합을 더 포함할 필요가 있다. 구체적으로, 제1 유형 프레임은 다운믹싱 신호를 포함하고 제2 유형 프레임은 다운믹싱 신호를 포함하지 않기 때문에, 제1 유형 프레임의 크기는 제2 유형 프레임의 크기보다 크다. 디코더는 N번째-프레임 비트스트림의 크기에 따라, N번째-프레임 비트스트림이 제1 유형 프레임인지 또는 제2 유형 프레임인지를 결정할 수 있다. 또한, N번째-프레임 비트스트림에 플래그 비트가 추가로 캡슐화될 수 있다. 디코더는 N번째-프레임 비트스트림을 부분적으로 디코딩하여 플래그 비트를 획득한다. 플래그 비트가 N번째-프레임 비트스트림이 제1 유형 프레임이라는 것을 나타내면, 디코더는 N번째-프레임 비트스트림을 디코딩하여 N번째-프레임 다운믹싱 신호를 획득한다. 플래그 비트가 N번째-프레임 비트스트림이 제2 유형 프레임이라는 것을 나타내면, 디코더는 미리 정해진 제1 알고리즘에 따라 N번째-프레임 다운믹싱 신호를 획득한다.

제2 관점에 기초해서, 오디오 신호를 2개 채널 상의 오디오 신호로 복원하고 그 오디오 신호의 통신 품질을 보장하기 위해, 선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며,

N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 비트스트림을 디코딩하는 단계 이후에, 디코더는 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 모두 획득하고, 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 디코더는 N번째-프레임 비트스트림을 인코딩하여 N번째-프레임 스테레오 파라미터 집합을 획득하고, 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 획득한다. 그런 다음, 디코더는 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원한다.

제2 관점에 기초해서, 오디오 신호를 2개 채널 상의 오디오 신호로 복원하고 그 오디오 신호의 통신 품질을 보장하기 위해, 선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 디코더는 N번째-프레임 비트스트림을 디코딩하여, N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 모두 획득하며, 그런 다음 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 디코더는 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 획득하고, 미리 정해진 제2 규칙에 따라, N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며, 그런 다음 정해진 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하며, k는 0보다 큰 양의 정수이다.

제2 관점에 기초해서, 오디오 신호를 2개 채널 상의 오디오 신호로 복원하고 그 오디오 신호의 통신 품질을 보장하기 위해, 선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,

N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 디코더는 N번째-프레임 비트스트림을 디코딩하여, N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 모두 획득하며, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는

디코더가 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정하면 이하의 2가지 경우가 포함된다:

N번째-프레임 비트스트림이 제3 유형 프레임일 때 디코더는 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하고, 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 획득하며, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 디코더는 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며 - k는 0보다 큰 양의 정수이고, 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 획득하고, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원한다.

제2 관점에 기초해서, 오디오 신호를 2개 채널 상의 오디오 신호로 복원하고 그 오디오 신호의 통신 품질을 보장하기 위해, 선택적으로, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,

디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정하면, 이하의 2가지 경우가 포함되며:

N번째-프레임 비트스트림이 제5 유형 프레임일 때 디코더는 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 모두 획득하기 위해 N번째-프레임 비트스트림을 디코딩하고, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는

N번째-프레임 비트스트림이 제6 유형 프레임일 때, 디코더는 미리 설정된 제2 규칙에 따라 N번째-프레임 다운믹싱 신호를 획득하기 위해 N번째-프레임 비트스트림을 디코딩하고, 미리 설정된 제2 규칙에 따라, N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는

N번째-프레임 비트스트림이 제2 유형 프레임이면, 디코더는 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 획득하고, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원한다.

제2 관점에 기초해서, 오디오 신호를 2개 채널 상의 오디오 신호로 복원하고 그 오디오 신호의 통신 품질을 보장하기 위해, 선택적으로, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,

N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 비트스트림을 디코딩한 후, 디코더는 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 모두 획득하고, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는

N번째-프레임 비트스트림이 제6 유형 프레임일 때, N번째-프레임 비트스트림을 디코딩한 후, 디코더는 N번째-프레임 다운믹싱 신호를 획득하고, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는

디코더가 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정하면, 이하의 2가지 경우가 포함되며:

N번째-프레임 비트스트림이 제3 유형 프레임일 때 디코더는 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하고, 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 획득하며, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는

N번째-프레임 비트스트림이 제4 유형 프레임일 때, 디코더는 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고 - k는 0보다 큰 양의 정수임 - , 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원한다.

제3 관점에 따라, 인코더가 제공되며, 상기 인코더는 신호 검출 유닛 및 신호 인코딩 유닛을 포함한다. 신호 검출 유닛은 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하도록 구성되어 있으며, N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초하여 복수의 채널 중 2개 채널 상의 N번째-프레임 오디오 신호가 혼합된 후에 획득되고 N은 0보다 큰 양의 정수이다. 신호 인코딩 유닛은, 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하거나; 또는 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않은 것을 검출할 때, 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하거나, 또는 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰도록 구성되어 있다.

제3 관점에 기초해서, 선택적으로, 상기 신호 인코딩 유닛은 제1 신호 인코딩 유닛 및 제2 신호 인코딩 유닛을 포함한다. 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 신호 검출 유닛은 N번째-프레임 다운믹싱 신호를 인코딩하도록 제1 신호 인코딩 유닛에 명령한다. 대안으로, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정되면 신호 검출 유닛은 N번째-프레임 다운믹싱 신호를 인코딩하도록 제1 신호 인코딩 유닛에 명령한다. 구체적으로, 제1 신호 인코딩 유닛은 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩한다. N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 무음 삽입 디스크립터(silence insertion descriptor, SID) 인코딩 조건을 만족하는 것으로 결정하면 신호 검출 유닛은 N번째-프레임 다운믹싱 신호를 인코딩하도록 제2 신호 인코딩 유닛에 명령한다. 구체적으로, 제2 신호 인코딩 유닛은 미리 설정된 SID 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하며, 여기서 SID 인코딩 레이트는 음성 프레임 인코딩 레이트보다 크지 않다.

제3 관점에 기초해서, 인코더는 파라미터 생성 유닛, 파라미터 인코딩 유닛 및 파라미터 검출 유닛을 더 포함한다. 상기 파라미터 생성 유닛은 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 구성되어 있으며, N번째-프레임 스테레오 파라미터 집합은 Z개의 스테레오 파라미터를 포함하고, Z개의 스테레오 파라미터는 인코더가 미리 설정된 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 때 사용되는 파라미터를 포함하며, Z는 0보다 큰 양의 정수이다. 상기 파라미터 인코딩 유닛은: 상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때, N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있거나, 또는 상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때, 상기 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정하면 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 상기 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정하면 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰도록 구성되어 있다.

제3 관점에 기초해서, 파라미터 인코딩 유닛은: 미리 설정된 스테레오 파라미터 차원 감소 규칙에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하고, X개의 목표 스테레오 파라미터를 인코딩하도록 구성되어 있으며, 여기서 X는 0보다 크고 Z보다 작거나 같은 양의 정수이다.

제3 관점에 기초해서, 선택적으로, 상기 파라미터 생성 유닛은 제1 파라미터 생성 유닛 및 제2 파라미터 생성 유닛을 포함하며, 여기서

상기 신호 검출 유닛이 N번째-프레임 오디오 신호가 음성 신호를 포함하는 것을 검출할 때, 또는 상기 신호 검출 유닛이 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출하고 N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정할 때, 신호 검출 유닛은 N번째-프레임 스테레오 파라미터 집합을 생성하도록 제1 파라미터 생성 유닛에 명령하며, 구체적으로, 제1 파라미터 생성 유닛은 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, 상기 파라미터 인코딩 유닛은 N번째-프레임 스테레오 파라미터 집합을 인코딩하며; 구체적으로, 파라미터 인코딩 유닛은 제1 파라미터 인코딩 유닛 및 제2 파라미터 인코딩 유닛을 포함하며, 제1 파라미터 인코딩 유닛은 N번째-프레임 스테레오 파라미터 집합을 인코딩하고, 여기서 제1 파라미터 인코딩 유닛에 의해 규정된 인코딩 방식은 제1 인코딩 방식이고, 제2 파라미터 인코딩 유닛에 의해 규정된 인코딩 방식은 제2 인코딩 방식이며; 구체적으로, 제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않고; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않으며;

신호 검출 유닛이 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출할 때, 제2 파라미터 생성 유닛은 제2 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며, 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정할 때, 파라미터 인코딩 유닛은 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하고, 구체적으로, 파라미터 인코딩 유닛이 제1 파라미터 인코딩 유닛 및 제2 파라미터 인코딩 유닛을 포함할 때, 제2 파라미터 인코딩 유닛은 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나; 또는

파라미터 인코딩 유닛은 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정할 때 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰며,

제1 스테레오 파라미터 집합 생성 방식 및 제2 스테레오 파라미터 집합 생성 방식은 다음의 조건:

제3 관점에 기초해서, 선택적으로, 파라미터 인코딩 유닛은 제1 파라미터 인코딩 유닛 및 제2 파라미터 인코딩 유닛을 포함한다. 구체적으로, 제1 파라미터 인코딩 유닛은, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하고 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않지만 음성 프레임 인코딩 조건을 만족할 때, 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있으며, 제2 파라미터 인코딩 유닛은 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족하지 않을 때 제2 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하도록 구성되어 있으며,

제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않고; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다.

제3 관점에 기초해서, 선택적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 레벨 차이(inter-channel level difference, ILD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,

을 포함하고, 여기서

제3 관점에 기초해서, 선택적으로,

,

, 및

는 각각 다음의 표현:

,

, 및

을 만족하며, 여기서

제4 관점에 따라, 디코더가 제공되며, 상기 디코더는 수신 유닛 및 디코딩 유닛을 포함한다. 수신 유닛은 비트스트림을 수신하도록 구성되어 있으며, 비트스트림은 적어도 2개의 프레임을 포함하고, 적어도 2개의 프레임은 적어도 하나의 제1 유형 프레임 및 적어도 하나의 제2 유형 프레임을 포함하고, 적어도 하나의 제1 유형 프레임은 다운믹싱 신호를 포함하고, 적어도 하나의 제2 유형 프레임은 다운믹싱 신호를 포함하지 않으며, 디코딩 유닛은: N번째-프레임 비트스트림에서, N은 1보다 큰 양의 정수이며, N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 다운믹싱 신호를 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 미리 설정된 제1 규칙에 따라 N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 중에서 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제1 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하도록 구성되어 있으며, 여기서 m은 0보다 큰 양의 정수이고,

N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초해서 다중 채널 중 2개의 채널 상에서 N번째-프레임 오디오 신호를 혼합함으로써 인코더에 의해 획득된다.

제4 관점에 기초해서, 선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며,

상기 디코딩 유닛은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하도록 추가로 구성되어 있으며, 여기서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되며,

신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.

제4 관점에 기초해서, 선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,

상기 디코딩 유닛은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며, 여기서 k는 0보다 큰 양의 정수이고,

N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되며,

제4 관점에 기초해서, 선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,

상기 디코딩 유닛은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며, 여기서 k는 0보다 큰 양의 정수이고,

제4 관점에 기초해서, 선택적으로, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,

상기 디코딩 유닛은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나; 또는 N번째-프레임 비트스트림이 제6 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며, 여기서

N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수이며,

제4 관점에 기초해서, 선택적으로, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,

상기 디코딩 유닛은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제6 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하거나, 또는

상기 디코딩 유닛은: N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며, 여기서

상기 디코더는 신호 복원 유닛을 더 포함하며,

상기 신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.

제5 관점에 따라, 인코딩 및 디코딩 시스템이 제공되며, 인코딩 및 디코딩 시스템은 제3 관점에서 제공된 임의의 인코더 및 제4 관점에서 제공된 임의의 디코더를 포함한다.

제6 관점에 따라, 본 발명의 실시예는 단말 장치를 더 제공한다. 단말 장치는 프로세서 및 메모리를 포함한다. 메모리는 소프트웨어 프로그램을 저장하도록 구성되고, 프로세서는 메모리에 저장되어 있는 소프트웨어 프로그램을 판독하고 제1 관점에서 제공되는 방법 또는 제1 관점의 임의의 실시를 실행하도록 구성된다.

제7 관점에 따라, 본 발명의 실시예는 컴퓨터 저장 매체를 더 제공한다. 저장 매체는 비휘발성일 수 있다. 즉, 전원이 꺼진 후에도 내용이 사라지지 않는다. 저장 매체는 소프트웨어 프로그램을 저장하며, 소프트웨어 프로그램이 하나 이상의 프로세서에 의해 판독되어 실행될 때, 제1 관점에서 제공되는 방법 또는 제1 관점의 임의의 실시가 실행될 수 있다.

도 1은 본 발명의 실시예 1에 따라 다중채널 오디오 신호 처리 방법에 대한 개략적인 흐름도이다.
도 2a, 도 2b 및 도 2c는 본 발명의 실시예 2에 따라 다중채널 오디오 신호 처리 방법에 대한 개략적인 흐름도이다.
도 3a 내지 도 3d는 본 발명의 실시예에 따른 인코더에 대한 개략적인 도면이다.
도 4는 본 발명의 실시예에 따른 디코더에 대한 개략적인 도면이다.
도 5는 본 발명의 실시예에 따른 인코딩 및 디코딩 시스템에 대한 개략적인 도면이다.

본 발명의 목적, 기술적 솔루션 및 이점을 더 분명히 하기 위해, 이하에서는 첨부된 도면을 참조하여 본 발명을 추가로 상세히 설명한다.

오디오 인코딩 및 디코딩 기술에서, 오디오 신호는 프레임 단위로 인코딩되거나 디코딩된다는 것을 이해하여야 한다. 구체적으로, N번째-프레임 오디오 신호는 N번째 오디오 프레임이다. N번째-프레임 오디오 신호가 음성 신호를 포함할 때, N번째 오디오 프레임은 음성 프레임이다. N번째-프레임 오디오 프레임이 음성 신호를 포함하지 않고 배경 잡음 신호를 포함할 때, N번째 오디오 프레임은 잡음 프레임이다. 여기서 N은 0보다 큰 양의 정수이다.

또한, 모노 통신 시스템에서, 불연속 인코딩 방식이 사용될 때, 무음 삽입 디스크립터(Silence Insertion Descriptor, SID) 프레임을 획득하기 위해 인코딩은 수 개의 잡음 프레임마다 1회 수행된다.

본 발명의 실시예에서의 인코더 및 디코더는 단말(예를 들어, 이동 전화, 노트북 컴퓨터, 또는 태블릿 컴퓨터)이나 서버와 같은 다중채널 오디오 신호 처리를 지원하는 장치 상에 패키지가 설치될 수 있으므로 단말이나 서버와 같은 장치는 본 발명의 실시예에서 다중채널 오디오 신호를 처리하는 기능을 가진다.

본 발명의 실시예에서, 오디오 신호는 다중채널 통신 시스템에서 불연속 인코딩 메커니즘을 사용해서 인코딩될 수 있기 때문에, 오디오 신호 압축 효율이 크게 향상된다.

이하에서는 N번째-프레임 다운믹싱 신호를 예로 사용해서 본 발명의 실시예에서의 다중채널 오디오 신호 처리 방법을 상세히 설명하며, 여기서 N은 0보다 큰 양의 정수이다. N번째-프레임 다운믹싱 신호는 복수의 채널 중 2개의 채널 상의 N번째-프레임 오디오 신호가 혼합된 후 획득되는 것으로 가정한다.

복수의 채널이 2개의 채널이고, 이 2개의 채널은 각각 제1 채널 및 제2 채널일 때, 복수의 채널 중 2개의 채널은 제1 채널 및 제2 채널이고, N번째-프레임 다운믹싱 신호는 제1 채널 상의 N번째-프레임 오디오 신호와 제2 채널 상의 N번째-프레임 오디오 신호를 혼합함으로써 획득된다. 복수의 채널이 적어도 3개의 채널일 때, 다운믹싱 신호는 복수의 채널 중 2개 페어 채널 상의 오디오 신호를 혼합함으로써 획득된다. 구체적으로, 3개의 채널을 예로 사용하고, 3개의 채널은 제1 채널, 제2 채널 및 제3 채널이다. 제1 채널과 제2 채널만이 지정된 규칙에 따라 페어가 되는 것으로 가정하면, 복수의 채널 중 2개의 채널이 제1 채널 및 제2 채널이고, N번째-프레임 다운믹싱 신호는 제1 채널 상의 N번째-프레임 오디오 신호와 제2 채널 상의 N번째-프레임 오디오 신호에 대해 다운믹싱을 수행한 후 획득된다. 3개의 채널 중, 제1 채널과 제2 채널이 페어이고 제2 채널과 제3 채널이 페어인 것으로 가정하면, 복수의 채널 중 2개의 채널은 제1 채널 및 제2 채널일 수도 있고 제3 채널 및 제3 채널일 수도 있다.

도 1에 도시된 바와 같이, 본 발명의 실시예 1에서의 다중채널 오디오 신호 처리 방법은 이하의 단계를 포함한다.

단계 100: 인코더는 복수의 채널 중 2개의 채널 상의 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 생성하며, 스테레오 파라미터는 Z개의 스테레오 파라미터를 포함한다.

구체적으로, Z개의 스테레오 파라미터는 인코더가 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 때 사용되는 파라미터를 포함하고, Z는 0보다 큰 양의 정수이다. 미리 정해진 제1 알고리즘은 인코더에 미리 설정된 다운믹싱 신호 생성 알고리즘이라는 것을 이해해야 한다.

N번째-스테레오 파라미터에 포함된 스테레오 파라미터는 구체적으로 미리 설정된 스테레오 파라미터 생성 알고리즘을 사용해서 결정된다는 것에 유의해야 한다. 2개 채널 중 하나의 채널은 좌측 채널이고 다른 채널은 우측 채널인 것으로 가정하면, 미리 설정된 스테레오 파라미터 생성 알고리즘은 다음과 같으며, N번째-프레임 오디오 신호에 따라 획득된 스테레오 파라미터는 인터-채널 레벨 차이(Inter-channel Level Difference, ILD)이며:

,

, 및

여기서,

는 i번째 주파수 빈(frequency bin) 내의 좌측 채널 상의 N번째-프레임 오디오 신호의 이산 푸리에 변환(Discrete Fourier Transform, DFT) 계수이고,

는 i번째 주파수 빈 내의 우측 채널 상의 N번째-프레임 오디오 신호의 DFT 계수이고,

는

의 실수 부분이고,

는

의 허수 부분이고,

는

의 실수 부분이고,

는

의 허수 부분이고,

는 i번째 주파수 빈 내의 좌측 채널 상의 N번째-프레임 오디오 신호의 에너지 스펙트럼이고,

는 i번째 주파수 빈 내의 우측 채널 상의 N번째-프레임 오디오 신호의 에너지 스펙트럼이고,

은 좌측 채널의 m번째 서브 주파수 대역 내의 N번째-프레임 오디오 신호의 에너지이고,

은 우측 채널의 m번째 서브 주파수 대역 내의 N번째-프레임 오디오 신호의 에너지이며, N번째-프레임 오디오 신호를 전송하기 위한 서브 주파수 대역의 총 수량은 M이다.

스테레오 파라미터 생성 알고리즘에서, N번째-프레임 오디오 신호가 주파수 빈

또는

에서 각각 직류 성분 또는 나이키스트 성분(Nyquist component)인 경우는 고려되지 않는다.

미리 설정된 스테레오 파라미터 생성 알고리즘이 인터 채널 시간 차이(Inter-channel Time Difference, ITD), 인터 채널 위상 차이(Inter-channel Phase Difference, ITD) 및 인터 채널 코히어런스(Inter-channel Coherence, IC)와 같은 다른 스테레오 파라미터를 계산하기 위한 알고리즘을 더 포함할 때, 인코더는 미리 설정된 스테레오 파라미터 생성 알고리즘에 기초해서 오디오 신호에 따라 ITD, IPD, 및 IC와 같은 스테레오 파라미터를 추가로 획득할 수 있다.

N번째-프레임 스테레오 파라미터 집합은 적어도 하나의 스테레오 파라미터를 포함한다는 것을 이해해야 한다. 예를 들어, IPD, ITD, ILD 및 IC는 미리 설정된 스테레오 파라미터 생성 알고리즘에 기초해서 2개 채널 상의 N번째-프레임 오디오 신호에 따라 획득되며, IPD, ITD, ILD 및 IC는 N번째-프레임 스테레오 파라미터 집합을 형성한다.

단계 101: 인코더는 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 오디오 신호를 N번째-프레임 다운믹싱 신호에 혼합한다.

예를 들어, N번째-프레임 스테레오 파라미터 집합은 IPD, ITD, ILD 및 IC를 포함한다. N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초해서 ILD 및 IPD에 따라 획득된다. 구체적으로, N번째-프레임 다운믹싱 신호

는 k번째 주파수 빈에서 다음의 표현을 만족한다:

,

여기서

는 k번째 주파수 빈에서 N번째-프레임 다운믹싱 신호를 나타내고,

는 k번째 주파수 빈에서 채널의 k번째 페어 내의 좌측 채널 상의 N번째-프레임 오디오 신호의 진폭을 나타내고,

는 k번째 주파수 빈에서 채널의 k번째 페어 내의 우측 채널 상의 N번째-프레임 오디오 신호의 진폭을 나타내고,

는 k번째 주파수 빈에서 좌측 채널 상의 N번째-프레임 오디오 신호의 위상 각을 나타내고,

는 k번째 주파수 빈에서 N번째-프레임 오디오 신호의 ILD를 나타내고,

는 k번째 주파수 빈에서 N번째-프레임 오디오 신호의 IPD를 나타낸다.

다운믹싱 신호를 획득하기 위한 알고리즘 외에, 본 발명의 이 실시예는 다운믹싱 신호를 획득하기 위한 다른 알고리즘에 제한을 두지 않는다는 것에 유의해야 한다.

본 발명의 실시예 1에서, 디코더가 N번째-프레임 다운믹싱 신호를 복원할 수 있도록 N번째-프레임 스테레오 파라미터 집합이 인코딩된다. 선택적으로, 인코딩 동안 압축 효율을 향상시키기 위해 인코더는 N번째-프레임 스테레오 파라미터 집합 내의 N번째-프레임 다운믹싱 신호를 획득하는 데 사용되는 스테레오 파라미터를 인코딩한다. 예를 들어, 생성된 N번째-프레임 스테레오 파라미터 집합은 IPD, ITD, ILD 및 IC를 포함한다. 인코더가 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 ILD 및 IPD만에 따라 채널 상의 N번째-프레임 오디오 신호를 N번째-프레임 다운믹싱 신호에 혼합하면, 압축 효율이 향상되며, 인코더는 N번째-프레임 스테레오 파라미터 집합 내의 ILD 및 IPD만을 인코딩할 수 있다.

단계 102: 인코더는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하고, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하면, 단계 103을 수행하고, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않으면, 단계 104를 수행한다.

인코더는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 용이하게 검출하기 위해, 선택적으로, 인코더는 음성 활동 검출(Voice Activity Detection, VAD)을 이용해서 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 직접적으로 검출한다.

선택적으로, 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 간접적으로 검출하는 방법은 다음과 같다: 인코더는 VAD를 이용해서 인코더는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출한다. 구체적으로, 2개의 채널 중 하나의 채널 상의 오디오 신호가 음성 신호를 포함하는 것을 검출하면, 인코더는 2개 채널 상의 오디오 신호를 혼합함으로써 획득된 다운믹싱 신호가 음성 신호를 포함하는 것으로 결정한다. 2개 채널 상의 오디오 신호 중 어느 것도 음성 신호를 포함하지 않는 것으로 결정될 때만, 인코더는 2개 채널 상의 오디오 신호를 혼합함으로써 획득된 다운믹싱 신호가 음성 신호를 포함하는 것으로 결정한다. 이러한 간접적 검출 방식에서 단계 100가 단계 101에 선행하면, 단계 102와 단계 100 또는 단계 101 사이의 순서는 제한되지 않는다.

단계 103: 인코더는 N번째-프레임 다운믹싱 신호를 인코딩하고 단계 107을 수행한다.

인코더는 N번째-프레임 다운믹싱 신호를 인코딩하여 N번째-프레임 비트스트림을 획득한다.

본 발명의 실시예 1에서는 다운믹싱 신호에 대해 불연속적 인코딩이 수행되므로, 비트스트림은 2가지 프레임 유형: 제1 유형 프레임 및 제2 유형 프레임을 포함한다. 제1 프레임 유형은 다운믹싱 신호를 포함하고, 제2 유형 프레임은 다운믹싱 신호를 포함하지 않는다. 단계 103에서 획득된 N번째-프레임 비트스트림은 제1 유형 프레임이다.

단계 103에서, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하기 때문에, 선택적으로, 인코더는 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩한다. 바람직하게, 미리 설정된 음성 프레임 인코딩 레이트는 13.2 kbps에 설정될 수 있다.

또한, 선택적으로, N번째-프레임 다운믹싱 신호를 인코딩하면, 인코더는 N번째-프레임 스테레오 파라미터 집합을 인코딩한다.

단계 104: 인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는지를 결정하고, N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하면 단계 105를 수행하고, N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않으면 단계 106을 수행한다.

미리 설정된 오디오 프레임 인코딩 조건은 인코더에 미리 구성되어 있고 N번째-프레임 다운믹싱 신호를 인코딩할지를 결정하는 데 사용되는 조건이다.

제1 프레임 다운믹싱 신호에 있어서, 제1 프레임 다운믹싱 신호가 음성 신호를 포함하지 않으면, 제1 프레임 다운믹싱 신호는 미리 설정된 오디오 프레임 인코딩 조건을 만족한다는 것에 유의해야 한다. 즉, 제1 프레임 다운믹싱 신호가 음성 신호를 포함하는지에 관계 없이 제1 프레임 다운믹싱 신호는 인코딩된다.

단계 105: 인코더는 N번째-프레임 다운믹싱 신호를 인코딩하고 단계 107을 수행한다.

구체적으로, 단계 105에서 획득된 N번째-프레임 비트스트림 역시 제1 유형 프레임이다.

선택적으로, N번째-프레임 다운믹싱 신호를 인코딩하면, 인코더는 N번째-프레임 스테레오 파라미터 집합을 인코딩한다.

선택적으로, 다운믹싱 신호의 인코딩을 쉽고 간단하게 실시하기 위해, 본 발명의 실시예 1에서, N번째-프레임 다운믹싱 신호는 단계 103 및 단계 105에서와 같은 방식으로 인코딩된다.

선택적으로, 단계 105에서 N번째-프레임 다운믹싱 신호는 음성 신호를 포함하지 않기 때문에, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족할 때, 인코더는 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩한다. 대안으로, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족할 때, 인코더는 미리 설정된 SID 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩한다. 미리 설정된 SID 인코딩 레이트는 2.8 kbps에 설정될 수 있다.

N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족할 때, 인코더는 SID 인코딩 방식에 따라 N번째-프레임 다운믹싱 신호를 인코딩한다는 것에 유의해야 한다. SID 인코딩 방식은 인코딩 레이트가 미리 설정된 SID 인코딩 레이트인 것으로 규정하고, 인코딩에 사용되는 알고리즘 및 인코딩에 사용되는 파라미터를 규정한다.

미리 설정된 음성 프레임 인코딩 조건은: N번째-프레임 다운믹싱 신호와 M번째-프레임 다운믹싱 신호 사이의 지속기간은 미리 설정된 지속기간보다 길지 않을 수 있다. M번째-프레임 다운믹싱 신호는 음성 신호를 포함하고, M번째-프레임 다운믹싱 신호는 음성 신호를 포함하면서 N번째-프레임 다운믹싱 신호에 가장 가까운 다운믹싱 신호의 프레임이다. 미리 설정된 SID 인코딩 조건은 홀수 프레임을 인코딩하는 것일 수 있다. N번째-프레임 다운믹싱 신호의 N이 홀수일 때, 인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 SID 인코딩 조건을 만족하는 것으로 결정한다.

단계 106: 인코더는 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰고 단계 109를 수행한다.

구체적으로, 단계 106에서 획득된 N번째-프레임 비트스트림은 제2 유형 프레임이다.

인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정한다. 구체적으로, 인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않으며, 미리 설정된 SID 인코딩 조건을 만족하지 않는 것으로 결정한다.

본 발명의 이 실시예에서, 인코더는 N번째-프레임 다운믹싱 신호를 인코딩하지 않는다. 구체적으로, N번째-프레임 비트스트림은 N번째-프레임 다운믹싱 신호를 포함하지 않는다.

인코더가 N번째-프레임 다운믹싱 신호를 포함하지 않을 때, 인코더는 N번째-프레임 스테레오 파라미터 집합을 인코딩할 수도 있고 N번째-프레임 스테레오 파라미터 집합을 인코딩하지 않을 수도 있다.

본 발명의 실시예 1에서, 인코더가 N번째-프레임 다운믹싱 신호를 인코딩하지 않지만 N번째-프레임 스테레오 파라미터 집합을 인코딩하는 예를 사용해서 설명한다. 그렇지만, 선택적으로, 인코더가 N번째-프레임 다운믹싱 신호를 인코딩하지 않을 때, 인코더는 N번째-프레임 스테레오 파라미터 집합도 인코딩하지 않을 수도 있다. 구체적으로, 인코더가 N번째-프레임 스테레오 파라미터도 인코딩하지 않고 N번째-프레임 다운믹싱 신호도 인코딩하지 않을 때, 디코더에 의해 설정된 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 획득하는 방식에 대해서는 본 발명의 실시예 2를 참조한다.

단계 107: 인코더는 N번째-프레임 비트스트림을 디코더에 송신한다.

디코더가 디코딩에 의해 N번째-프레임 다운믹싱 신호를 획득한 후 N번째-프레임 다운믹싱 신호를 2개의 채널 상의 N번째-프레임 오디오 신호로 복원할 수 있도록 하기 위해, N번째-프레임 비트스트림은 N번째-프레임 스테레오 파라미터 집합 및 N번째-프레임 다운믹싱 신호 모두를 포함한다.

단계 108: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, 디코더는 N번째-프레임 비트스트림을 디코딩하여 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 획득하고 단계 111을 수행한다.

제1 유형 프레임은 다운믹싱 신호를 포함하고 제2 유형 프레임은 다운믹싱 신호를 포함하지 않기 때문에, 제1 유형 프레임의 크기가 제2 유형 프레임의 크기보다 크다는 것에 유의해야 하다. 디코더는 N번째-프레임 비트스트림의 크기에 따라, N번째-프레임 비트스트림이 제1 유형 프레임인지 제2 유형 프레임인지를 결정할 수 있다. 또한, 선택적으로, N번째-프레임 비트스트림에 플래그 비트가 추가로 캡슐화될 수 있다. 디코더는 N번째-프레임 비트스트림을 부분적으로 디코딩하여 플래그 비트를 획득하고, 이 플래그 비트에 따라, N번째-프레임 비트스트림이 제1 유형 프레임인지 제2 유형 프레임인지를 결정하며, 플래그 비트가 1이면 N번째-프레임 비트스트림이 제1 유형 프레임인 것을 나타내고, 플래그 비트가 0이면 N번째-프레임 비트스트림이 제2 유형 프레임인 것을 나타낸다.

또한, 선택적으로, 디코더는 N번째-프레임 비트스트림에 대응하는 레이트에 따라 디코딩 방식을 결정한다. 예를 들어, N번째-프레임 비트스트림의 레이트가 17.4 kbps이면, 다운믹싱 신호에 대응하는 비트스트림의 레이트는 13.2 kbps이고, 스테레오 파라미터 집합에 대응하는 비트스트림의 레이트는 4.2 kbps이고, 디코더는 13.2 kbps에 대응하는 디코딩 방식에 따라 다운믹싱 신호에 대응하는 비트스트림을 디코딩하고, 4.2 kbps에 대응하는 디코딩 방식에 따라 스테레오 파라미터 집합에 대응하는 비트스트림을 디코딩한다.

대안으로, 디코더는 N번째-프레임 비트스트림 내의 인코딩 방식 플래그 비트에 따라 N번째-프레임 비트스트림의 인코딩 방식을 결정하고, 이 인코딩 방식에 대응하는 디코딩 방식에 따라 N번째-프레임 비트스트림을 디코딩한다.

단계 109: 인코더는 디코더에 N번째-프레임 비트스트림을 송신하며, N번째-프레임 비트스트림은 N번째-프레임 스테레오 파라미터 집합을 포함한다.

단계 110: N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, 디코더는 N번째-프레임 비트스트림을 디코딩해서 N번째-프레임 스테레오 파라미터 집합을 획득하고, 미리 설정된 제1 규칙에 따라, N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 내의 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제1 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하며, 여기서 m은 0보다 큰 양의 정수이다.

구체적으로, (N-3)번째-프레임 다운믹싱 신호, (N-2)번째-프레임 다운믹싱 신호, 및 (N-1)번째-프레임 다운믹싱 신호의 평균값은 N번째-프레임 다운믹싱 신호로 사용되거나, 또는 (N-1)번째-프레임 다운믹싱 신호가 N번째-프레임 다운믹싱 신호로 직접 사용되거나, 또는 N번째-프레임 다운믹싱 신호는 다른 알고리즘에 따라 추정된다.

또한, (N-1)번째-프레임 다운믹싱 신호는 N번째-프레임 다운믹싱 신호로 직접 사용될 수 있거나, 또는 N번째-프레임 다운믹싱 신호는 미리 설정된 알고리즘에 따라 (N-1)번째-프레임 다운믹싱 신호 및 미리 설정된 오프셋 값에 따라 계산된다.

단계 111: 디코더는 미리 정해진 제2 알고리즘에 따라 N번째-프레임 스테레오 파라미터 집합 내의 목표 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 2개 채널 상의 N번째-프레임 오디오 신호로 복원한다.

목표 스테레오 파라미터는 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터라는 것을 이해해야 한다.

구체적으로, 디코더가 N번째-프레임 다운믹싱 신호를 2개 채널 상의 N번째-프레임 오디오 신호로 복원하는 프로세스는 디코더가 2개 채널 상의 N번째-프레임 오디오 신호를 N번째-프레임 다운믹싱 신호로 혼합하는 인버스 프로세스이다. 인코더가 N번째-프레임 스테레오 파라미터 집합 내의 IPD 및 ILD에 따라 N번째-프레임 다운믹싱 신호를 획득하는 것으로 가정하면, 디코더는 N번째-프레임 스테레오 파라미터 집합 내의 IPD 및 ILD에 따라 N번째-프레임 다운믹싱 신호를 K번째 페어 내의 채널 상의 N번째-프레임 신호로 복원한다. 또한, 디코더에 미리 설정되어 있으면서 다운믹싱 신호를 복원하는 데 사용되는 알고리즘은 인코더 내의 다운믹싱 신호 생성 알고리즘의 인버스 알고리즘일 수도 있고, 인코더 내의 다운믹싱 신호 생성 알고리즘과 별개의 독립적인 알고리즘일 수도 있다는 것에 유의해야 한다.

또한, 다중채널 통신 시스템에서의 인코딩 동안 압축 효율을 향상시키기 위해, 다운믹싱 신호에 대해 불연속 인코딩을 실행할 때, 인코더는 스테레오 파라미터 집합에 대해 불연속 인코딩을 추가로 실행할 수 있다. 이하에서는 N번째-프레임 다운믹싱 신호를 예로 사용한다. 도 2a, 도 2b, 및 도 2c에 도시된 바와 같이, 본 발명의 실시예 2에서의 다중채널 오디오 신호 처리 방법은 이하의 단계를 포함한다.

단계 200: 인코더는 복수의 채널 중 2개의 채널 상의 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 생성하며, 여기서 스테레오 파라미터 집합은 Z개의 스테레오 파라미터를 포함한다.

구체적으로, Z개의 스테레오 파라미터는 인코더가 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 대 사용되는 파라미터이고, Z는 0보다 큰 양의 정수이다. 미리 정해진 제1 알고리즘은 인코더에 미리 설정된 다운믹싱 신호 생성 알고리즘이라는 것을 이해해야 한다.

N번째-프레임 스테레오 파라미터 집합에 포함된 스테레오 파라미터는 미리 설정된 스테레오 파라미터 생성 알고리즘을 사용해서 결정된다는 것에 유의해야 한다. 2개 채널 중 하나의 채널은 좌측 채널이고 다른 채널은 우측 채널인 것으로 가정하면, 미리 설정된 스테레오 파라미터 생성 알고리즘은 다음과 같으며, N번째-프레임 오디오 신호에 따라 획득된 스테레오 파라미터는 ITD이며:

, 및

,

여기서

이고, N은 프레임 길이이고,

는 순간

에서 좌측 채널 상의 시간-도메인 신호를 나타내고,

는 순간

에서 우측 채널 상의 시간-도메인 신호를 나타내고,

이면 ITD는

에 대응하는 인덱스 값의 반대 수(opposite number)이고, 그렇지 않으면 ITD는

에 대응하는 인덱스 값의 반대 수이다. ITD를 획득하기 위한 다른 알고리즘도 본 발명의 이 실시예에서 적용될 수 있다.

미리 설정된 스테레오 파라미터 생성 알고리즘이 다음의 IPD 생성 알고리즘을 더 포함하면, IPD는 다음의 알고리즘에 따라 더 획득될 수 있다. 구체적으로, b번째 서브 주파수 대역에서의 IPD는 다음의 표현을 만족한다:

여기서 B는 주파수 도메인에서 오디오 신호에 의해 점유되는 서브 주파수 대역의 총 수량이고,

는 k번째 주파수 빈 내의 좌측 채널 상의 N번째-프레임 오디오 신호의 신호이고,

는 k번째 주파수 빈 내의 우측 채널 상의 N번째-프레임 오디오 신호의 신호이다.

또한, 미리 설정된 스테레오 파라미터 생성 알고리즘이 본 발명의 실시예 1에서의 ILD 생성 알고리즘을 더 포함할 때, ILD는 더 획득될 수 있다.

단계 201: 인코더는 미리 정해진 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 2개 채널 상의 N번째-프레임 오디오 신호를 N번째-프레임 다운믹싱 신호에 혼합한다.

구체적으로, 미리 정해진 제1 알고리즘에 대해서는 본 발명의 실시예 1에서의 N번째-프레임 다운믹싱 신호를 획득하는 방법을 참조한다. 그렇지만, 미리 정해진 제1 알고리즘은 본 발명의 실시예 1에서의 N번째-프레임 다운믹싱 신호를 획득하는 방법에 한정되지 않는다.

단계 202: 인코더는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하고, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하면 단계 203을 수행하고, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않으면 단계 204를 수행한다.

본 발명의 실시예 2에서, 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하는 특정한 실시에 대해서는 본 발명의 실시예 2에서 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하는 실시를 참조한다.

단계 203: 인코더는 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하며, 단계 211을 수행한다.

구체적으로, 인코더가 스테레오 파라미터 집합을 인코딩하는 2가지 방식: 제1 인코딩 방식 및 제2 인코딩 방식을 포함할 때, 제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않으며; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도(quantization precision)는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다. 단계 203에서, 인코더는 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩한다.

예를 들어, N번째-프레임 스테레오 파라미터 집합은 IPD 및 ITD를 포함한다. 제1 인코딩 방식에 규정된 IPD 양자화 정확도는 제2 인코딩 방식에 규정된 IPD 양자화 정확도보다 낮지 않으며, 제1 인코딩 방식에 규정된 ITD 양자화 정확도는 제2 인코딩 방식에 규정된 ITD 양자화 정확도보다 낮지 않다.

바람직하게, 음성 프레임 인코딩 레이트는 13.2 kbps에 설정될 수 있다.

단계 204: 인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는지를 결정하고, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하면 단계 205를 수행하고, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않으면 단계 206을 수행한다.

단계 205: 인코더는 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하며, 단계 211D을 수행한다.

구체적으로, 인코더가 스테레오 파라미터 집합을 인코딩하는 2가지 방식: 제1 인코딩 방식 및 제2 인코딩 방식을 포함할 때, 제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않으며; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다. 단계 205에서, 인코더는 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩한다.

단계 206: 인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 SID 인코딩 조건을 만족하는지를 결정하고, N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는지를 결정하며, N번째-프레임 다운믹싱 신호가 미리 설정된 SID 인코딩 조건을 만족하고 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하면, 단계 207을 수행하거나, N번째-프레임 다운믹싱 신호가 미리 설정된 SID 인코딩 조건을 만족하지만 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않으면, 단계 208을 수행하거나, N번째-프레임 다운믹싱 신호가 미리 설정된 SID 인코딩 조건을 만족하지 않지만 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하면, 단계 209를 수행하거나, N번째-프레임 다운믹싱 신호가 미리 설정된 SID 인코딩 조건을 만족하지 않고 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않으면, 단계 210을 수행한다.

구체적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하기 전에, 인코더는 적어도 하나의 스테레오 파라미터 내의 스테레오 파라미터가 미리 설정된 대응하는 스테레오 파라미터 인코딩 조건을 만족하는지를 결정한다. 구체적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 레벨 차이(inter-channel level difference ILD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은

을 포함하고, 여기서

은 ILD가 제1 기준으로부터 벗어나는 정도를 나타내고, 제1 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제2 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이다.

N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 시간 차이(inter-channel time difference, ITD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은

을 포함하고,

여기서

는 ITD가 제2 기준으로부터 벗어나는 정도를 나타내고, 제2 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제3 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이다.

N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 위상 차이(inter-channel phase difference, IPD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은

을 포함하고,

여기서

제3 알고리즘, 제4 알고리즘 및 제5 알고리즘은 실제 상황에 따라 미리 설정될 필요가 있다.

구체적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 ITD만을 포함할 때, 미리 설정된 스테레오 파라미터 인코딩 조건은

만을 포함하고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 포함된 ITD가

만을 포함할 때, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인코딩된다. N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 ITD 및 IPD만을 포함할 때, 미리 설정된 스테레오 파라미터 인코딩 조건은

만을 포함하며, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 포함된 ITD가

을 포함할 때, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인코딩된다. 그렇지만, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 ITD 및 ILD만을 포함할 때, 미리 설정된 스테레오 파라미터 인코딩 조건은

및

을 만족하고 ILD가

을 포함할 때 인코더는 ITD 및 ILD만을 인코딩한다.

선택적으로,

,

, 및

는 각각 다음의 표현:

,

, 및

을 만족하며, 여기서

단계 207: 인코더는 미리 설정된 SID 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 다운믹싱 신호 내의 적어도 하나의 스테레오 파라미터를 인코딩하며, 단계 211을 수행한다.

구체적으로, 인코더가 스테레오 파라미터 집합을 인코딩하는 2가지 방식: 제1 인코딩 방식 및 제2 인코딩 방식을 포함할 때, 제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않으며; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다. 인코더는 제2 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩한다.

예를 들어, 제1 인코딩 방식에서, 인코더는 4.2 kbps에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하고, 제2 인코딩 방식에서, 인코더는 1.2 kbps에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩한다.

인코더에 의해 설정된 스테레오 파라미터를 압축하는 효율을 향상시키기 위해, 선택적으로, 인코더는 미리 설정된 스테레오 파라미터 차원 감소 규칙(stereo parameter dimension reduction rule)에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하고, X개의 목표 스테레오 파라미터를 인코딩한다. X는 0보다 크고 Z보다 작거나 같은 양의 정수이다.

구체적으로, N번째-프레임 스테레오 파라미터 집합은 3가지 유형의 스테레오 파라미터: IPD, ITD, 및 ILD를 포함한다. ILD는 10개의 서브 주파수 대역 내의 ILD: ILD(0), ..., 및 ILD(9)를 포함하고, ITD는 2개의 시간-도메인 서브대역 내의 ITD: ITD(0) 및 ITD(1)를 포함한다. 미리 설정된 스테레오 파라미터 차원 감소 규칙이 스테레오 파라미터 집합이 단지 2가지 유형의 스테레오 파라미터만을 포함하는 것으로 가정하면, 인코더는 IPD, ITD, 및 ILD 중에서 2가지 유형의 스테레오 파라미터만을 선택한다. IPD 및 ILD가 선택된 것으로 가정하면, 인코더는 IPD 및 ILD를 인코딩한다. 대안으로, 미리 설정된 스테레오 파라미터 차원 감소 규칙이 각 유형의 스테레오 파라미터 중 절반만이 예약되는 것이면, ILD(0), ..., 및 ILD(9) 중에서 5개의 ILD가 선택되고, ITD() 및 ITD(1) 중에서 하나의 ITD가 선택되고, 선택된 파라미터는 인코딩된다. 대안으로, 미리 설정된 스테레오 파라미터 차원 감소 규칙은 5개의 ILD 및 5개의 IPD가 선택되는 것이다. 대안으로, 미리 설정된 스테레오 파라미터 차원 감소 규칙이 ILD의 주파수-도메인 해상도(frequency-domain resolution), IPD의 주파수-도메인 해상도, ITD의 시간-도메인 해상도가 선택되는 것이며, ILD(0), ..., 및 ILD(9)의 인접 서브 주파수 대역 내의 ILD들이 결합된다. 예를 들어, ILD(0) 및 ILD(1)의 평균값은 새로운 ILD(0)를 얻기 위해 계산되고, ILD(2) 및 ILD(3)의 평균값은 새로운 ILD(1)를 얻기 위해 계산되고, ILD(8) 및 ILD(9)의 평균값은 새로운 ILD(4)를 얻기 위해 계산된다. 새로운 ILD(0)에 대응하는 서브 주파수 대역은 원본 ILD(0) 및 원본 ILD(1)에 대응하는 서브 주파수 대역과 같고, ..., 새로운 ILD(4)에 대응하는 서브 주파수 대역은 원본 ILD(8) 및 원본 ILD(9)에 대응하는 서브 주파수 대역과 같다. 동일한 방법에 따라, IPD(0), ..., 및 IPD(9)의 인접 서브 주파수 대역 내의 IPD를 결합하여 새로운 IPD(0), ..., 및 새로운 IPD(4)를 획득하고, ITD(0)와 ITD(1)의 평균값 역시 계산되고 결합되어 새로운 ITD(0)를 획득한다. 새로운 ITD(0)에 대응하는 시간-도메인 신호는 원본 ITD(0) 및 원본 ITD(1)에 대응하는 시간-도메인 신호와 같다. 새로운 ILD(0), ..., 및 새로운 ILD(4), 새로운 IPD(0), ..., 및 새로운 IPD(4), 및 새로운 ITD(0)는 인코딩된다. 대안으로, 미리 설정된 스테레오 파라미터 차원 감소 규칙이 ILD의 주파수-도메인 해상도가 감소되는 것이면, ILD(0), ..., 및 ILD(9)의 인접 서브 주파수 대역 내의 ILD들이 결합된다. 예를 들어, ILD(0)와 ILD(1)의 평균값을 계산하여 새로운 ILD(0)을 획득하고, ILD(2)와 ILD(3)의 평균값을 계산하여 새로운 ILD(1)을 획득하고, ..., 및 ILD(8)와 ILD(9)의 평균값을 계산하여 새로운 ILD(4)을 획득한다. 새로운 ILD(0)에 대응하는 서브 주파수 대역은 원본 ILD(0) 및 원본 ILD(1)에 대응하는 서브 주파수 대역과 같고, ..., 및 새로운 ILD(4)에 대응하는 서브 주파수 대역은 원본 ILD(8) 및 원본 ILD(9)에 대응하는 서브 주파수 대역과 같다. 그런 다음, 새로운 ILD(0), ..., 및 새로운 ILD(4)는 인코딩된다.

단계 208: 인코더는 미리 설정된 SID 인코딩 조건에 따라 N번째-프레임 다운믹싱 신호를 인코딩하지만 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 것을 건너뛰고, 단계 211을 수행한다.

단계 209: 인코더는 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하지만, N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰고, 단계 215를 수행한다.

단계 210: 인코더는 N번째-프레임 다운믹싱 신호도 인코딩하지 않고 N번째-프레임 스테레오 파라미터 집합도 인코딩하지 않으며, 단계 217을 수행한다.

본 발명의 실시예 2에서, 인코더는 비트스트림을 획득하기 위한 인코딩을 수행한다. 비트스트림은 4개의 서로 다른 유형의 프레임, 즉 제3 유형 프레임, 제4 유형 프레임, 제5 유형 프레임 및 제6 유형 프레임을 포함한다. 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만, 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하며, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않는다. 제5 유형 프레임 및 제6 유형 프레임 각각은 다운믹싱 신호를 포함하는 유형 프레임의 하나의 경우이고, 제3 유형 프레임 및 제4 유형 프레임 각각은 다운믹싱 신호를 포함하지 않는 유형 프레임의 하나의 경우이다.

구체적으로, 단계 203, 단계 205, 또는 단계 207에서 획득된 N번째-프레임 비트스트림은 제5 유형 프레임이고, 단계 208에서 획득된 N번째-프레임 비트스트림은 제6 유형 프레임이며, 단계 209에서 획득된 N번째-프레임 비트스트림은 제3 유형 프레임이며, 단계 211에서 획득된 N번째-프레임 비트스트림은 제4 유형 프레임이다.

단계 211: 인코더는 디코더에 N번째-프레임 비트스트림을 송신하며, 여기서 N번째-프레임 비트스트림은 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 포함한다.

단계 212: 디코더는 N번째-프레임 비트스트림을 수신하고, N번째-프레임 비트스트림이 제5 유형 프레임이면 N번째-프레임 비트스트림을 디코딩하여 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 획득하며, 단계 218을 수행한다.

디코더가 N번째-프레임 비트스트림이 어느 유형 프레임인지를 결정하는 특정한 실시에 대해서는 본 발명의 실시예 1을 참조한다.

구체적으로, 디코더는 N번째-프레임 비트스트림에 대응하는 레이트에 따라 N번째-프레임 비트스트림을 디코딩한다. 구체적으로, 인코더가 13.2 kbps에 따라 N번째-프레임 다운믹싱 신호를 인코딩하면, 디코더는 13.2 kbps에 따라 N번째-프레임 비트스트림 내의 N번째-프레임 다운믹싱 신호의 비트스트림을 디코딩한다. 인코더가 4.2 kbps에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하면, 디코더는 4.2 kbps에 따라 N번째-프레임 비트스트림 내의 N번째-프레임 스테레오 파라미터 집합의 비트스트림을 디코딩한다.

단계 213: 인코더는 디코더에 N번째-프레임 비트스트림을 송신하고, 여기서 N번째-프레임 비트스트림은 N번째-프레임 다운믹싱 신호를 포함한다.

단계 214: 디코더는 N번째-프레임 비트스트림이 제5 유형 프레임인 것으로 결정되면 N번째-프레임 비트스트림을 디코딩하여 N번째-프레임 다운믹싱 신호를 획득하고, 미리 설정된 제2 규칙에 따라, N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하여 미리 정해진 제6 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득한다.

구체적으로, N번째-프레임 스테레오 파라미터 집합 내의 스테레오 파라미터를 예를 사용하면, 미리 설정된 제2 규칙에 규정된 스테레오 파라미터 집합은

에 가장 가까우면서 디코딩에 의해 획득되는 스테레오 파라미터 집합의 프레임이고, N번째-프레임 스테레오 파라미터

는 다음의 알로기즘에 따라 획득되며:

,

여기서

는 N번째-프레임 스테레오 파라미터를 나타내고,

는

에 가장 가까우면서 디코딩에 의해 획득되는 스테레오 파라미터 집합의 프레임을 나타내고,

는 절댓값이 상대적으로 작은 난수를 나타낸다. 예를 들어,

는

과

사이의 난수일 수 있다.

본 발명의 이 실시예는 N번째-프레임 스테레오 파라미터 집합 내의 스테레오 파라미터를 추정하기 위한 방법에 대해 어떠한 제한도 두지 않는 것에 유의해야 한다.

단계 215: 인코더는 디코더에 N번째-프레임 비트스트림을 송신하며, 여기서 N번째-프레임 비트스트림은 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 포함한다.

단계 216: 디코더는 N번째-프레임 비트스트림이 제3 유형 프레임이면 N번째-프레임 비트스트림을 디코딩하여 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 획득하고, 미리 설정된 제1 규칙에 따라 N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 내의 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제2 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하며, 여기서 m은 0보다 큰 양의 정수이며, 단계 218을 수행한다.

단계 217: N번째-프레임 비트스트림을 수신한 후, 디코더는 N번째-프레임 비트스트림이 제3 유형 프레임인 것으로 결정하고, 미리 설정된 제2 규칙에 따라, N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제6 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며; 그리고

미리 설정된 제1 규칙에 따라, N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 다운믹싱 신호 내의 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제2 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득한다.

단계 218: 디코더는 미리 정해진 제7 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 목표 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 2개 채널 상의 N번째-프레임 오디오 신호로 복원한다.

또한, 본 발명의 이 실시예에 기초해서, 인코더가 2개 채널 상의 N번째-프레임 오디오 신호를 사용함으로써 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하면, 스테레오 파라미터 집합을 인코딩하는 다른 방식이 추가로 제공된다. 구체적으로, 2개 채널 상의 N번째-프레임 오디오 신호 중 어느 하나가 음성 신호를 포함하면, 인코더는 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, N번째-프레임 스테레오 파라미터 집합을 인코딩한다.

인코더가 2개 채널 상의 N번째-프레임 오디오 신호 중 어느 것도 음성 신호를 포함하지 않는 것으로 결정할 때, N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하면, 인코더는 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하거나, 또는 N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않으면, 인코더는 제2 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며, 그리고

N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정될 때 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정될 때 스테레오 파라미터 집합을 인코딩하는 것을 건너뛴다.

구체적으로, 제1 스테레오 파라미터 집합 생성 방식으로 획득된 스테레오 파라미터의 주파수-도메인 정확도 또는 시간-도메인 정확도는 제2 스테레오 파라미터 집합 생성 방식으로 획득된 스테레오 파라미터 집합의 주파수-도메인 정확도 또는 시간-도메인 정확도보다 높다.

또한, 본 발명의 실시예 3에서의 다중채널 오디오 신호 처리 방법에서, N번째-프레임 다운믹싱 신호가 음성 신호를 검출할 때, 인코더는 음성 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하거나; 또는 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때: N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하면, 인코더는 음성 신호 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하거나, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족하면, 인코더는 SID 인코딩 조건에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건도 만족하지 않고 SID 인코딩 조건도 만족하지 않으면, 인코더는 N번째-프레임 다운믹싱 신호도 인코딩하지 않고 N번째-프레임 스테레오 파라미터 집합도 인코딩하지 않는다.

본 발명의 실시예 3과 본 발명의 실시예 1 간의 차이점 및 본 발명의 실시예 3과 본 발명의 실시예 2 간의 차이점은: 인코더가 스테레오 파라미터 집합에 대한 결정을 수행하지 않고 다운믹싱 신호를 인코딩하는 데 어느 방식이 사용되는지에 관계없이 스테레오 파라미터 집합을 인코딩한다는 점이라는 것을 이해해야 한다.

본 발명의 실시예 3에서, 인코더가 다운믹싱 신호를 인코딩한 후에 획득된 비트스트림은 2가지 유형의 프레임: 제1 유형 프레임 및 제2 유형 프레임을 포함한다. 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합을 모두 포함하고, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합을 모두 포함하지 않는다. 구체적으로, 디코더가 비트스트림을 수신한 후 비트스트림을 2개 채널 상의 오디오 신호로 복원하기 위한 방법에 대해서는 본 발명의 실시예 2 및 본 발명의 실시예 1을 참조한다.

본 발명의 실시예 3에 기초해서, 선택적으로, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건 및 미리 설정된 SID 인코딩 조건을 모두를 만족하지 않을 때, 인코더는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하는지를 결정하고, N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하면, 인코더는 N번째-프레임 다운믹싱 신호를 인코딩하지 않지만 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않으면, 인코더는 N번째-프레임 다운믹싱 신호도 인코딩하지 않고 N번째-프레임 스테레오 파라미터 집합도 인코딩하지 않는다.

전술한 인코딩 방법에 기초해서 획득되는 비트스트림은 3가지 유형의 프레임: 제1 유형 프레임, 제3 유형 프레임 및 제4 유형 프레임을 포함한다. 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제3 유형 프레임은 다운믹싱 신호를 포함하지 않으나 스테레오 파라미터 집합을 포함하며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않는다. 구체적으로, 디코더가 비트스트림을 수신한 후 비트스트림을 2채널 상의 오디오 신호를 복원하기 위한 방법에 대해서는, 본 발명의 실시예 2 및 본 발명의 실시예 1을 참조한다.

전술한 기술적 솔루션 및 본 발명의 실시예 2 간의 차이점은: N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건도 만족하지 않고 미리 설정된 SID 인코딩 조건도 만족하지 않을 때, 인코더가 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하는지를 결정한다는 점이다.

선택적으로, 본 발명의 실시예 4의 다중채널 오디오 신호 처리 방법에서, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것으로 검출될 때, 인코더는 음성 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고 N번째-프레임 스테레오 파라미터 집합을 인코딩하거나; 또는 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때: N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하면, 인코더는 음성 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하거나, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족하면, 인코더는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하는지를 결정하고, N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족할 때, 인코더는 SID 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않을 때, 인코더는 SID 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하지만 N번째-프레임 스테레오 파라미터 집합을 인코딩하지 않거나; 또는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않고 미리 설정된 SID 인코딩 조건도 만족하지 않을 때, 인코더는 N번째-프레임 다운믹싱 신호도 인코딩하지 않고 N번째-프레임 스테레오 파라미터 집합도 인코딩하지 않는다.

본 발명의 실시예 4의 인코딩 방식에 기초해서 획득되는 비트스트림은 3가지 유형의 프레임: 제5 유형 프레임, 제6 유형 프레임 및 제2 유형 프레임을 포함한다. 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합을 모두 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합을 모두 포함하지 않는다. 구체적으로, 디코더가 비트스트림을 수신한 후 비트스트림을 2개 채널 상의 오디오 신호로 복원하기 위한 방법에 대해서는 본 발명의 실시예 2 및 본 발명의 실시예 1을 참조한다.

본 발명의 실시예 4와 본 발명의 실시예 2 간의 차이점은: N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족할 때, 인코더가 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩할지를 결정하고, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건도 만족하지 않고 미리 설정된 SID 인코딩 조건도 만족하지 않을 때, N번째-프레임 스테레오 파라미터 집합을 인코딩하는 것을 건너뛴다는 점이다.

본 발명의 실시예 3 및 본 발명의 실시예 4에서, 구체적으로, 디코더에 의해 설정된 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 획득하는 방법에 대해서는 본 발명의 실시예 2 및 본 발명의 실시예 1을 참조하고, 스테레오 파라미터 및 다운믹싱 신호를 인코딩하는 특정한 실시에 대해서는 본 발명의 실시예 2 및 본 발명의 실시예 1을 참조한다.

본 발명의 임의의 실시예에서, 미리 정해진 제1 알고리즘 및 미리 정해진 제2 알고리즘에서 제1 및 제2는 특별한 의미가 있는 것이 아니라 단지 서로 다른 알고리즘을 구별하기 위해 사용될 뿐이며, 제3, 제4, 제5, 제6, 제7 등도 이와 유사하며 이에 대해서는 여기서 설명하지 않는다.

동일한 발명 개념에 기초해서, 본 발명의 실시예는 인코더, 디코더 및 인코딩 및 디코딩 시스템을 추가로 제공한다. 본 발명의 실시예에서의 인코더, 디코더 및 인코딩 및 디코딩 시스템에 대응하는 방법들이 본 발명의 실시예에서의 다중채널 오디오 신호 처리 방법이므로, 본 발명의 실시예에서의 인코더, 디코더 및 인코딩 및 디코딩 시스템의 실시에 대해서는 방법의 실시를 참조하며, 이에 대해서는 여기서 반복 설명하지 않는다.

도 3a에 도시된 바와 같이, 본 발명의 실시예에서의 인코더는 신호 검출 유닛(300) 및 신호 인코딩 유닛(310)을 포함한다. 신호 검출 유닛(300)은 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하도록 구성되어 있다. N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초하여 복수의 채널 중 2개 채널 상의 N번째-프레임 오디오 신호가 혼합된 후에 획득되고 N은 0보다 큰 양의 정수이다. 신호 인코딩 유닛(310)은 신호 검출 유닛(300)이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하도록 구성되어 있거나, 또는 신호 검출 유닛(300)이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않은 것을 검출할 때, 신호 검출 유닛(300)이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하거나, 또는 신호 검출 유닛(300)이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰도록 구성되어 있다.

선택적으로, 도 3b에 도시된 바와 같이, 신호 인코딩 유닛(310)은 제1 신호 인코딩 유닛(311) 및 제2 신호 인코딩 유닛(312)을 포함한다. 신호 검출 유닛(300)이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하도록 제1 신호 인코딩 유닛(311)에 명령한다.

N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정되면, 신호 검출 유닛(300)은 N번째-프레임 다운믹싱 신호를 인코딩하도록 제1 신호 인코딩 유닛(311)에 명령한다.

구체적으로, 제1 신호 인코딩 유닛(311)이 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하는 것은 규정되어 있다.

N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 무음 삽입 디스크립터(silence insertion descriptor, SID) 인코딩 조건을 만족하는 것으로 결정하면, 신호 검출 유닛(300)은 N번째-프레임 다운믹싱 신호를 인코딩하도록 제2 신호 인코딩 유닛(312)에 명령한다. 구체적으로, 제2 신호 인코딩 유닛(312)은 미리 설정된 SID 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하는 것이 규정되어 있다. SID 인코딩 레이트는 음성 프레임 인코딩 레이트보다 크지 않다.

선택적으로, 도 3a 및 도 3b에 도시된 바와 같이, 인코더는 파라미터 생성 유닛(320), 파라미터 인코딩 유닛(330) 및 파라미터 검출 유닛(340)을 더 포함한다. 파라미터 생성 유닛(320)은 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 구성되어 있다. N번째-프레임 스테레오 파라미터 집합은 Z개의 스테레오 파라미터를 포함하고, Z개의 스테레오 파라미터는 인코더가 미리 설정된 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 때 사용되는 파라미터를 포함하며, Z는 0보다 큰 양의 정수이다. 파라미터 인코딩 유닛(330)은 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때, N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있거나, 또는 신호 검출 유닛(300)이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때, 파라미터 검출 유닛(300)이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정하면 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 파라미터 검출 유닛(300)이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정하면 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰도록 구성되어 있다.

선택적으로, 파라미터 인코딩 유닛(330)은: 미리 설정된 스테레오 파라미터 차원 감소 규칙에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하고, X개의 목표 스테레오 파라미터를 인코딩하도록 구성되어 있다. X는 0보다 크고 Z보다 작거나 같은 양의 정수이다.

구체적으로, 파라미터 인코딩 유닛(330)이 제1 파라미터 인코딩 유닛(331) 및 제2 파라미터 인코딩 유닛(332)을 포함할 때, 제2 파라미터 인코딩 유닛(332)은: 미리 설정된 스테레오 파라미터 차원 감소 규칙에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하고, X개의 목표 스테레오 파라미터를 인코딩하도록 구성되어 있다.

선택적으로, 도 3a 및 도 3b에 기초해서, 도 3c에 도시된 바와 같이, 인코더의 파라미터 생성 유닛(320)은 제1 파라미터 생성 유닛(321) 및 제2 파라미터 생성 유닛(322)을 포함한다. 신호 검출 유닛(300)이 N번째-프레임 오디오 신호가 음성 신호를 포함하는 것을 검출할 때, 또는 신호 검출 유닛(300)이 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출하고 N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정할 때, 신호 검출 유닛(300)은 N번째-프레임 스테레오 파라미터 집합을 획득하도록 제1 파라미터 생성 유닛(321)에 명령한다. 신호 검출 유닛(300)이 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출하고 N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않는 것으로 결정할 때, 신호 검출 유닛(300)은, N번째-프레임 스테레오 파라미터 집합을 획득하도록 제2 파라미터 생성 유닛(322)에 명령한다. 구체적으로, 제1 파라미터 생성 유닛(321)이 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, 제2 파라미터 생성 유닛(322)이 제2 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 것은 규정되어 있다.

제2 파라미터 생성 유닛(322)이 N번째-프레임 스테레오 파라미터 집합을 획득한 후, 파라미터 인코딩 유닛(330)은 N번째-프레임 스테레오 파라미터 집합을 인코딩한다. 구체적으로, 도 3d에 도시된 바와 같이, 파라미터 인코딩 유닛(330)은 제1 파라미터 인코딩 유닛(331) 및 제2 파라미터 인코딩 유닛(332)을 포함하며, 제1 파라미터 인코딩 유닛(331)은 제1 파라미터 생성 유닛(321)에 의해 생성된 N번째-프레임 스테레오 파라미터 집합을 인코딩하고, 제2 파라미터 인코딩 유닛(332)은 제2 파라미터 생성 유닛(322)에 의해 생성된 N번째-프레임 스테레오 파라미터 집합을 인코딩한다. 제1 파라미터 인코딩 유닛(331)의 인코딩 방식은 제1 인코딩 방식이라는 것은 규정되어 있고, 제2 파라미터 인코딩 유닛(332)의 인코딩 방식은 제2 인코딩 방식이라는 것은 규정되어 있다. 제1 파라미터 인코딩 유닛에 의해 규정된 인코딩 방식은 제1 인코딩 방식이고, 제2 파라미터 인코딩 유닛에 의해 규정된 인코딩 방식은 제2 인코딩 방식이다. 구체적으로, 제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않고; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다.

파라미터 검출 유닛(340)은 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정할 때 스테레오 파라미터 집합은 인코딩되지 않는다.

선택적으로, 파라미터 인코딩 유닛(330)은 제1 파라미터 인코딩 유닛(331) 및 제2 파라미터 인코딩 유닛(331)을 포함한다. 구체적으로, 제1 파라미터 인코딩 유닛(331)은 N번째-프레임 다운믹싱 신호가 음성 신호를 포함할 때 그리고 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않지만 음성 프레임 인코딩 조건을 만족할 때 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있다. 제2 파라미터 인코딩 유닛(331)은 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족하지 않을 때 제2 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하도록 구성되어 있다.

제1 인코딩 방식에서 규정된 인코딩 레이트는 제2 인코딩 방식에서 규정된 인코딩 레이트보다 낮지 않으며; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다.

선택적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 레벨 차이(inter-channel level difference, ILD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,

을 포함하고, 여기서

선택적으로,

,

, 및

는 각각 다음의 표현:

,

, 및

을 만족하며, 여기서

도 3a 내지 도 3d에서의 파라미터 검출 유닛(340)은 선택 사항이라는 것에 유의해야 한다. 즉, 인코더는 파라미터 검출 유닛(340)을 포함할 수도 있고 파라미터 검출 유닛(340)을 포함하지 않을 수도 있다.

파라미터 인코딩 유닛(330)이 파라미터 생성 유닛(320)의 스테레오 파라미터 집합의 각 프레임을 인코딩할 때, 스테레오 파라미터는 검출될 필요는 없지만 직접적으로 인코딩된다.

도 4에 도시된 바와 같이, 본 발명의 실시예의 디코더는 수신 유닛(400) 및 디코딩 유닛(410)을 포함한다. 수신 유닛(410)은 비트스트림을 수신하도록 구성되어 있다. 비트스트림은 적어도 2개의 프레임을 포함하고, 적어도 2개의 프레임은 적어도 하나의 제1 유형 프레임 및 적어도 하나의 제2 유형 프레임을 포함하고, 적어도 하나의 제1 유형 프레임은 다운믹싱 신호를 포함하고, 적어도 하나의 제2 유형 프레임은 다운믹싱 신호를 포함하지 않는다.

N번째-프레임 비트스트림에서, N은 1보다 큰 양의 정수이며, 디코딩 유닛(410)은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 다운믹싱 신호를 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 미리 설정된 제1 규칙에 따라 N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 중에서 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제1 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하도록 구성되어 있다. m은 0보다 큰 양의 정수이다.

N번째-프레임 다운믹싱 신호는 미리 정해진 제2 알고리즘에 기초해서 다중 채널 중 2개의 채널 상에서 N번째-프레임 오디오 신호를 혼합함으로써 인코더에 의해 획득된다.

선택적으로, 도 4에 도시된 바와 같이, 디코더는 신호 복원 회로(420)를 더 포함한다. 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않는다

상기 디코딩 유닛은, N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 상기 디코딩 유닛은, N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩한다. N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용된다.

신호 복원 유닛(420)은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.

선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않는다.

디코딩 유닛(410)은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있다. k는 0보다 큰 양의 정수이다.

N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용된다.

선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이다.

디코딩 유닛(410)은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있다. k는 0보다 큰 양의 정수이다.

선택적으로, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않는다.

디코딩 유닛(410)은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나; 또는 N번째-프레임 비트스트림이 제6 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있다.

디코딩 유닛(410)은: N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있다.

N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수이다.

선택적으로, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이다.

디코딩 유닛(410)은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제6 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있다.

디코딩 유닛(410)은: N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있다.

N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수이다.

도 5에 도시된 바와 같이, 본 발명의 실시예는 인코딩 및 디코딩 시스템을 제공하며, 인코딩 및 디코딩 시스템은 도 3a 및 도 3b에 도시된 임의의 인코더(500) 및 도 4에 도시된 디코더(510)를 포함한다.

당업자라면 본 발명의 실시예가 방법, 시스템, 또는 컴퓨터 프로그램 제품으로 제공될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 본 발명은 하드웨어 전용 실시예, 소프트웨어 전용 실시예, 또는 소프트웨어와 하드웨어가 결합된 실시예의 형태를 사용할 수 있다. 또한, 본 발명은 컴퓨터-이용 가능한 프로그램 코드를 포함하는 하나 이상의 컴퓨터-이용 가능한 저장 매체(디스크 메모리, CD-ROM, 광학 메모리 등을 포함하되 이에 제한되지 않는다) 상에서 실행되는 컴퓨터 프로그램 제품의 형태를 사용할 수 있다.

본 발명은 본 발명의 실시예에 따라 방법, 장치(시스템), 및 컴퓨터 프로그램 제품의 흐름도/블록도를 참조하여 설명하였다. 컴퓨터 프로그램 명령은 흐름도 및/또는 블록도 내의 각각의 프로세스 및/또는 각각의 블록 및 흐름도 및/또는 블록도 내의 프로세스 및/또는 블록의 조합을 실행하는 데 사용될 수 있다는 것을 이해해야 한다. 이러한 컴퓨터 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터, 임베디드 프로세서, 또는 임의의 다른 프로그래머블 데이터 처리 장치에 머신을 생성하도록 제공될 수 있으며, 이에 따라 컴퓨터 또는 임의의 다른 프로그래머블 데이터 처리 장치에 의해 실행되는 명령은 흐름도 내의 하나 이상의 프로세스 및/또는 블록도 내의 하나 이상의 블록에서의 특정한 기능을 실행하기 위한 장치를 생성한다.

이러한 컴퓨터 프로그램 명령은 컴퓨터 또는 임의의 다른 프로그래머블 데이터 처리 장치에 특정한 방식을 작동하도록 명령할 수 있는 컴퓨터 판독 가능형 메모리에 저장될 수 있으며, 이에 따라 컴퓨터 판독 가능형 메모리에 저장된 명령은 명령 장치를 포함하는 인공물을 생성한다. 명령 장치는 흐름도 내의 하나 이상의 프로세스 및/또는 블록도 내의 하나 이상의 블록도에서의 특정한 기능을 실행한다.

이러한 컴퓨터 프로그램 명령은 컴퓨터 또는 다른 프로그래머블 데이터 처리 장치에 로딩되어, 일련의 동작 및 단계가 컴퓨터 또는 다른 프로그래머블 장치 상에서 수행되며, 이에 의해 컴퓨터-실행 프로세싱이 생성된다. 그러므로 컴퓨터 또는 다른 프로그래머블 장치 상에서 실행되는 명령은 흐름도 내의 하나 이상의 프로세스 및/또는 블록도 내의 하나 이상의 블록에서의 특정한 기능을 실행하기 위한 단계를 제공한다.

본 발명의 일부의 바람직한 실시예에 대해 설명하였으나, 당업자는 기본적인 발명의 개념을 알고 있는 한 이러한 실시예에 대한 변형 및 수정을 수행할 수 있다. 그러므로 이하의 청구범위는 바람직한 실시예 및 본 발명의 범위 내에 있는 모든 변형 및 수정을 망라하는 것으로 이해되어야 한다.

당연히, 당업자는 본 발명의 정신 및 범주를 벗어남이 없이 본 발명에 대한 변형 및 수정을 수행할 수 있다. 그러므로 본 발명은 이러한 변형 및 수정이 이하의 청구범위 및 그 등가의 기술에 의해 정해지는 보호 범위 내에 있는 한 이러한 변형 및 수정을 망라하도록 의도된다.

Claims

다중채널 오디오 신호 처리 방법으로서,
인코더가 N번째-프레임 다운믹싱 신호(downmixed signal)가 음성 신호를 포함하는지를 검출하는 단계 - N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초하여 복수의 채널 중 2개 채널 상의 N번째-프레임 오디오 신호가 혼합된 후에 획득되고 N은 0보다 큰 양의 정수임 - ; 및
상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하는 단계
를 포함하거나, 또는
상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않은 것을 검출할 때,
상기 인코더가 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정되면 N번째-프레임 다운믹싱 신호를 인코딩하는 단계, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정되면 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰는 단계
를 포함하는 다중채널 오디오 신호 처리 방법.
제1항에 있어서,
상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하는 단계는,
상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하는 단계
를 포함하거나, 또는
상기 인코더가 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정되면 N번째-프레임 다운믹싱 신호를 인코딩하는 단계는,
상기 인코더가 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정되면 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하는 단계; 또는
상기 인코더가 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 무음 삽입 디스크립터(silence insertion descriptor, SID) 인코딩 조건을 만족하는 것으로 결정되면 미리 설정된 SID 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하는 단계 - SID 인코딩 레이트는 음성 프레임 인코딩 레이트보다 크지 않음 -
를 포함하는, 다중채널 오디오 신호 처리 방법.
제1항 또는 제2항에 있어서,
상기 다중채널 오디오 신호 처리 방법이,
상기 인코더가 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계 - N번째-프레임 스테레오 파라미터 집합은 Z개의 스테레오 파라미터를 포함하고, Z개의 스테레오 파라미터는 인코더가 미리 설정된 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 때 사용되는 파라미터를 포함하며, Z는 0보다 큰 양의 정수임 - ; 및
상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 스테레오 파라미터 집합을 인코딩하는 단계
를 더 포함하거나, 또는
상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때,
상기 인코더가 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계, 또는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정되면, 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰는 단계
를 더 포함하는 다중채널 오디오 신호 처리 방법.
제3항에 있어서,
상기 인코더가 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계는,
상기 인코더가 미리 설정된 스테레오 파라미터 차원 감소 규칙(stereo parameter dimension reduction rule)에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하는 단계 - X는 0보다 크고 Z보다 작거나 같은 양의 정수임 - ; 및
상기 인코더가 X개의 목표 스테레오 파라미터를 인코딩하는 단계
를 포함하는, 다중채널 오디오 신호 처리 방법.
제2항에 있어서,
상기 인코더가 N번째-프레임 오디오 신호가 음성 신호를 포함하는 것을 검출할 때,
상기 인코더가 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하는 단계, 또는
상기 인코더가 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출할 때,
N번째-프레임 오디오 신호가 미리 설정된 프레임 인코딩 조건을 만족하면, 상기 인코더가 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하는 단계, 또는
N번째-프레임 오디오 신호가 미리 설정된 프레임 인코딩 조건을 만족하지 않으면, 상기 인코더가 제2 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계; 및
N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정될 때 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계, 또는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정될 때 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰는 단계
를 더 포함하며,
제1 스테레오 파라미터 집합 생성 방식 및 제2 스테레오 파라미터 집합 생성 방식은 다음의 조건:
제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 시간 도메인 해상도(time-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 시간 도메인 해상도보다 낮지 않은 조건, 또는 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 주파수 도메인 해상도(frequency-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 주파수 도메인 해상도보다 낮지 않은 조건 중 적어도 하나를 만족하는, 다중채널 오디오 신호 처리 방법.
제3항 내지 제5항 중 어느 한 항에 있어서,
상기 인코더가 N번째-프레임 스테레오 파라미터 집합을 인코딩하는 단계는,
상기 인코더가 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하는 단계
를 포함하며,
상기 인코더가 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계는,
상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족할 때 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계; 또는
상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족하지 않을 때 제2 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계
를 포함하며,
제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않고; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도(quantization precision)는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않은, 다중채널 오디오 신호 처리 방법.
제3항 내지 제6항 중 어느 한 항에 있어서,
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 레벨 차이(inter-channel level difference, ILD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,

을 포함하고, 여기서
은 ILD가 제1 기준으로부터 벗어나는 정도를 나타내고, 제1 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제2 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나,
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 시간 차이(inter-channel time difference, ITD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,

을 포함하고, 여기서
는 ITD가 제2 기준으로부터 벗어나는 정도를 나타내고, 제2 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제3 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나, 또는
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 위상 차이(inter-channel phase difference, IPD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,

을 포함하고, 여기서
는 IPD가 제3 기준으로부터 벗어나는 정도를 나타내고, 제3 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제4 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수인, 다중채널 오디오 신호 처리 방법.
제7항에 있어서,

,
, 및
는 각각 다음의 표현:

,

, 및

을 만족하며, 여기서
은 N번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, M은 N번째-프레임 오디오 신호를 전송하는 데 점유되는 서브 주파수 대역의 총 수량이고,
는 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ILD의 평균값이고, T는 0보다 큰 양의 정수이고,
은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, ITD는 N번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
는 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ITD의 평균값이고,
는 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
은 N번째-프레임 오디오 신호의 일부가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이고,
은 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 IPD의 평균값이며,
은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이인, 다중채널 오디오 신호 처리 방법.
다중채널 오디오 신호 처리 방법으로서,
디코더가 비트스트림을 수신하는 단계 - 비트스트림은 적어도 2개의 프레임을 포함하고, 적어도 2개의 프레임은 적어도 하나의 제1 유형 프레임 및 적어도 하나의 제2 유형 프레임을 포함하고, 적어도 하나의 제1 유형 프레임은 다운믹싱 신호를 포함하고, 적어도 하나의 제2 유형 프레임은 다운믹싱 신호를 포함하지 않음 - ; 및
N번째-프레임 비트스트림에서, N은 1보다 큰 양의 정수이며, 상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 다운믹싱 신호를 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 상기 디코더가 미리 설정된 제1 규칙에 따라 N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 중에서 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제1 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하는 단계
를 포함하며,
m은 0보다 큰 양의 정수이고, N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초해서 다중 채널 중 2개의 채널 상에서 N번째-프레임 오디오 신호를 혼합함으로써 인코더에 의해 획득되는, 다중채널 오디오 신호 처리 방법.
제9항에 있어서,
제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며,
상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 비트스트림을 디코딩하는 단계 이후에, 다중채널 오디오 신호 처리 방법은,
상기 디코더가 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계
를 더 포함하거나, 또는
상기 디코더가 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법은,
상기 디코더가 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계 - N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용됨 - ; 및
상기 디코더가 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 단계
를 더 포함하는 다중채널 오디오 신호 처리 방법.
제9항에 있어서,
제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,
상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 비트스트림을 디코딩하는 단계 이후에, 다중채널 오디오 신호 처리 방법은,
상기 디코더가 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계
를 더 포함하거나, 또는
상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법은,
상기 디코더가 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계 - k는 0보다 큰 양의 정수이고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용됨 - ; 및
상기 디코더가 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 단계
를 더 포함하는 다중채널 오디오 신호 처리 방법.
제9항에 있어서,
제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,
상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 비트스트림을 디코딩하는 단계 이후에, 다중채널 오디오 신호 처리 방법은,
상기 디코더가 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계
를 더 포함하거나, 또는
상기 디코더가 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법은,
상기 디코더가 N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계; 또는
N번째-프레임 비트스트림이 제4 유형 프레임일 때, 상기 디코더가 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계 - k는 0보다 큰 양의 정수이고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용됨 - ; 및
상기 디코더가 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 단계
를 더 포함하는 다중채널 오디오 신호 처리 방법.
제9항에 있어서,
제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,
상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법이,
상기 디코더가 N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계; 또는
N번째-프레임 비트스트림이 제6 유형 프레임일 때, 상기 디코더가 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계
를 더 포함하거나, 또는
상기 디코더가 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법이,
상기 디코더가 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계 - N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수임 - ; 및
상기 디코더가 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 단계
를 더 포함하는 다중채널 오디오 신호 처리 방법.
제9항에 있어서,
제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,
상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법이,
상기 디코더가 N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계; 또는
N번째-프레임 비트스트림이 제6 유형 프레임일 때, 상기 디코더가 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계
를 더 포함하거나, 또는
상기 디코더가 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법이,
상기 디코더가 N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계; 또는
N번째-프레임 비트스트림이 제4 유형 프레임일 때, 상기 디코더가 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계 - N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수임 - ; 및
상기 디코더가 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 단계
를 더 포함하는 다중채널 오디오 신호 처리 방법.
인코더로서,
N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하도록 구성되어 있는 신호 검출 유닛 - N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초하여 복수의 채널 중 2개 채널 상의 N번째-프레임 오디오 신호가 혼합된 후에 획득되고 N은 0보다 큰 양의 정수임 - ; 및
상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하도록 구성되어 있는 신호 인코딩 유닛
을 포함하며,
상기 신호 인코딩 유닛은,
상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않은 것을 검출할 때, 상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하거나, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰도록 추가로 구성되어 있는, 인코더.
제15항에 있어서,
상기 신호 인코딩 유닛은 제1 신호 인코딩 유닛 및 제2 신호 인코딩 유닛을 포함하며,
상기 제1 신호 인코딩 유닛은 구체적으로,
상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하거나, 또는
상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정하면 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하도록 구성되어 있으며,
상기 제2 신호 인코딩 유닛은 구체적으로,
상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 무음 삽입 디스크립터(silence insertion descriptor, SID) 인코딩 조건을 만족하는 것으로 결정하면 미리 설정된 SID 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하도록 구성되어 있으며,
여기서 SID 인코딩 레이트는 음성 프레임 인코딩 레이트보다 크지 않은, 를 포함하는, 인코더.
제15항 또는 제16항에 있어서,
파라미터 생성 유닛, 파라미터 인코딩 유닛 및 파라미터 검출 유닛을 더 포함하며,
상기 파라미터 생성 유닛은 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 구성되어 있으며, N번째-프레임 스테레오 파라미터 집합은 Z개의 스테레오 파라미터를 포함하고, Z개의 스테레오 파라미터는 인코더가 미리 설정된 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 때 사용되는 파라미터를 포함하며, Z는 0보다 큰 양의 정수이며,
상기 파라미터 인코딩 유닛은, 상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때, N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있거나, 또는
상기 파라미터 인코딩 유닛은, 상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때, 상기 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정하면 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 상기 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정하면 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰도록 구성되어 있는, 인코더.
제17항에 있어서,
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩할 때,
상기 파라미터 인코딩 유닛은 구체적으로 미리 설정된 스테레오 파라미터 차원 감소 규칙에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하고, X개의 목표 스테레오 파라미터를 인코딩하도록 구성되어 있으며,
여기서 X는 0보다 크고 Z보다 작거나 같은 양의 정수인, 인코더.
제16항에 있어서,
상기 파라미터 생성 유닛은 제1 파라미터 생성 유닛 및 제2 파라미터 생성 유닛을 포함하며,
상기 제1 파라미터 생성 유닛은, 상기 신호 검출 유닛이 N번째-프레임 오디오 신호가 음성 신호를 포함하는 것을 검출할 때, 또는 상기 신호 검출 유닛이 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출하고 N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정할 때, 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 구성되어 있고, 상기 파라미터 인코딩 유닛은 N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있으며,
상기 제2 파라미터 생성 유닛은, 상기 신호 검출 유닛이 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출하고 N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않는 것으로 결정할 때,
제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 구성되어 있으며,
상기 파라미터 검출 유닛은, 상기 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정할 때 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 상기 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정할 때 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰도록 구성되어 있으며,
제1 스테레오 파라미터 집합 생성 방식 및 제2 스테레오 파라미터 집합 생성 방식은 다음의 조건:
제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 시간 도메인 해상도(time-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 시간 도메인 해상도보다 낮지 않은 조건, 또는 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 주파수 도메인 해상도(frequency-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 주파수 도메인 해상도보다 낮지 않은 조건 중 적어도 하나를 만족하는, 인코더.
제17항 내지 제19항 중 어느 한 항에 있어서,
상기 파라미터 인코딩 유닛은 제1 파라미터 인코딩 유닛 및 제2 파라미터 인코딩 유닛을 포함하며,
상기 제1 파라미터 인코딩 유닛은, 상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하고 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족하는 것으로 검출할 때, 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있으며,
상기 제2 파라미터 인코딩 유닛은 구체적으로 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족하지 않을 때 제2 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하도록 구성되어 있으며,
제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않고; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않은, 인코더.
제17항 내지 제20항 중 어느 한 항에 있어서,
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 레벨 차이(inter-channel level difference, ILD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,

을 포함하고, 여기서
은 ILD가 제1 기준으로부터 벗어나는 정도를 나타내고, 제1 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제2 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나,
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 시간 차이(inter-channel time difference, ITD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,

을 포함하고, 여기서
는 ITD가 제2 기준으로부터 벗어나는 정도를 나타내고, 제2 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제3 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나, 또는
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 위상 차이(inter-channel phase difference, IPD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,

을 포함하고, 여기서
는 IPD가 제3 기준으로부터 벗어나는 정도를 나타내고, 제3 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제4 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수인, 인코더.
제21항에 있어서,

,
, 및
는 각각 다음의 표현:

,

, 및

을 만족하며, 여기서
은 N번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, M은 N번째-프레임 오디오 신호를 전송하는 데 점유되는 서브 주파수 대역의 총 수량이고,
는 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ILD의 평균값이고, T는 0보다 큰 양의 정수이고,
은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, ITD는 N번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
는 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ITD의 평균값이고,
는 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
은 N번째-프레임 오디오 신호의 일부가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이고,
은 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 IPD의 평균값이며,
은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이인, 인코더.
디코더로서,
비트스트림을 수신하도록 구성되어 있는 수신 유닛 - 비트스트림은 적어도 2개의 프레임을 포함하고, 적어도 2개의 프레임은 적어도 하나의 제1 유형 프레임 및 적어도 하나의 제2 유형 프레임을 포함하고, 적어도 하나의 제1 유형 프레임은 다운믹싱 신호를 포함하고, 적어도 하나의 제2 유형 프레임은 다운믹싱 신호를 포함하지 않음 - ; 및
N번째-프레임 비트스트림에서, N은 1보다 큰 양의 정수이며, N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 다운믹싱 신호를 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 미리 설정된 제1 규칙에 따라 N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 중에서 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제1 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하도록 구성되어 있는 디코딩 유닛
을 포함하며,
m은 0보다 큰 양의 정수이고, N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초해서 다중 채널 중 2개의 채널 상에서 N번째-프레임 오디오 신호를 혼합함으로써 인코더에 의해 획득되는, 디코더.
제23항에 있어서,
제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며,
상기 디코딩 유닛은,
N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는
N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하도록 추가로 구성되어 있으며,
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되며,
상기 디코더는 신호 복원 유닛을 더 포함하며,
상기 신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있는, 디코더.
제23항에 있어서,
제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,
상기 디코딩 유닛은,
N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는
N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며,
여기서 k는 0보다 큰 양의 정수이고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되며,
상기 디코더는 신호 복원 유닛을 더 포함하며,
상기 신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있는, 디코더.
제23항에 있어서,
제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,
상기 디코딩 유닛은,
N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는
N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며,
여기서 k는 0보다 큰 양의 정수이고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되며,
상기 디코더는 신호 복원 유닛을 더 포함하며,
상기 신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있는, 디코더.
제23항에 있어서,
제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,
상기 디코딩 유닛은,
N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나; 또는 N번째-프레임 비트스트림이 제6 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하거나, 또는
N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며,
여기서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수이며,
상기 디코더는 신호 복원 유닛을 더 포함하며,
상기 신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있는, 디코더.
제23항에 있어서,
제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,
상기 디코딩 유닛은,
N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제6 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하거나, 또는
N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며,
여기서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수이며,
상기 디코더는 신호 복원 유닛을 더 포함하며,
상기 신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있는, 디코더.
인코딩 및 디코딩 시스템으로서,
제15항 내지 제22항 중 어느 한 항에 따른 인코더 및 제23항 내지 제28항 중 어느 한 항에 따른 디코더를 포함하는 인코딩 및 디코딩 시스템.