KR20190052122A - 다중 채널 오디오 신호 처리 방법, 장치 및 시스템 - Google Patents

다중 채널 오디오 신호 처리 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR20190052122A
KR20190052122A KR1020197011605A KR20197011605A KR20190052122A KR 20190052122 A KR20190052122 A KR 20190052122A KR 1020197011605 A KR1020197011605 A KR 1020197011605A KR 20197011605 A KR20197011605 A KR 20197011605A KR 20190052122 A KR20190052122 A KR 20190052122A
Authority
KR
South Korea
Prior art keywords
frame
nth
stereo parameter
parameter set
signal
Prior art date
Application number
KR1020197011605A
Other languages
English (en)
Inventor
저 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Priority to KR1020217028255A priority Critical patent/KR102387162B1/ko
Publication of KR20190052122A publication Critical patent/KR20190052122A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Abstract

본 발명은 다중 채널 오디오 신호 처리 방법, 장치 및 시스템을 제공하며, 오디오 인코딩 및 디코딩 기술 분야에 관한 것이며, 오디오 신호가 다중채널 오디오 통신 시스템에서 불연속적으로 전송될 수 없는 종래 기술의 문제를 해결한다. 인코더는 신호 검출 유닛 및 신호 인코딩 유닛을 포함한다. 신호 인코딩 유닛은: 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때, N번째-프레임 다운믹싱 신호를 인코딩하거나, 또는 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때, 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하고, 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰도록 추가로 구성되어 있다. 기술적 솔루션에서, 다운믹싱 신호에 대한 인코딩이 불연속적이기 때문에, 오디오 신호가 불연속적으로 전송될 수 없는 종래 기술의 문제가 해결된다.

Description

다중 채널 오디오 신호 처리 방법, 장치 및 시스템
본 발명은 오디오 인코딩 및 디코딩 기술 분야에 관한 것이며, 특히 다중 채널 오디오 신호 처리 방법, 장치 및 시스템에 관한 것이다.
오디오 통신 중에, 통신 시스템의 용량을 증가시키기 위해, 일반적으로, 송신단은 송신될 원본 오디오 신호의 각 프레임을 먼저 인코딩한 다음, 오디오 신호를 송신한다. 오디오 신호는 인코딩을 통해 압축된다. 신호를 수신한 후에, 수신단은 수신된 신호를 디코딩하고 원본 오디오 신호를 복원한다. 오디오 신호에 대한 최대 압축을 실시하기 위해 다양한 유형의 인코딩 방식이 다양한 유형의 오디오 신호에 사용된다. 종래 기술에서, 오디오 신호가 음성 신호일 때, 연속적인 인코딩 방식이 일반적으로 사용되는데, 즉, 음성 신호의 각 프레임이 인코딩되고, 오디오 신호가 잡음 신호인 경우, 일반적으로 잡음 신호를 인코딩하기 위해 불연속 인코딩 방식이 사용되며, 즉, 한 프레임의 잡음 신호가 수 프레임의 잡음 신호마다 인코딩된다. 예를 들어, 잡음 신호는 6 프레임마다 인코딩된다. 잡음 신호의 제1 프레임이 인코딩된 후, 잡음 신호의 제7 프레임에 대한 잡음 신호의 제2 프레임은 인코딩되지 않고, 잡음 신호의 제8 프레임이 인코딩된다. 제2 프레임 내지 제7 프레임은 6개의 No_Data 프레임이다. 구체적으로, 오디오 신호는 모노 오디오 신호이다.
오디오 통신 기술의 발달에 따라, 오디오 통신 시스템은 스테레오 통신과 같은 특별한 통신 방식을 더 갖는다. 예를 들어, 스테레오 통신이 듀얼 채널 통신이라는 것을 예로 사용한다. 2개의 채널은 제1 채널 및 제2 채널을 포함한다. 송신단은 제1 채널의 n번째-프레임 음성 신호와 제2 채널의 n번째-프레임 음성 신호에 따라 제1 채널의 n번째-프레임 음성 신호와 제2 채널의 n번째-프레임의 음성 신호를 제2 채널 상의 다운믹싱 신호의 하나의 프레임으로 혼합하는 데 사용되는 스테레오 파라미터를 획득하고, 다운믹싱 신호는 모노 신호이다. 그런 다음, 송신단은 2개 채널 상의 n번째-프레임 음성 신호를 하나의 프레임의 다운믹싱 신호와 혼합하며, 여기서 n은 0보다 큰 양의 정수이며, 그런 다음 다운믹싱 신호의 프레임을 인코딩하며, 마지막으로, 인코딩된 다운믹싱 신호 및 스테레오 파라미터를 수신단으로 송신한다. 인코딩된 다운믹싱 신호 및 스테레오 파라미터를 수신한 후, 수신단은 인코딩된 다운믹싱 신호를 디코딩하고, 스테레오 파라미터에 따라 다운믹싱 신호를 듀얼 채널 신호로 복원한다. 2개의 채널 상의 음성 신호의 각 프레임이 인코딩되는 송신 방식과 비교하여, 이 송신 방식에서, 송신된 비트 수량이 크게 감소되어 압축을 실현한다.
그렇지만, 스테레오 통신 중에 잡음 신호가 전송되는 경우, 음성 신호에 대한 인코딩 방식과 동일한 인코딩 방식이 사용되고, 모노에서 사용되는 불연속 인코딩 방식이 그대로 스테레오 통신에 적용되면, 수신단은 잡음 신호를 복원할 수 없어 수신단의 사용자의 주관적 경험을 저하시킨다.
본 발명은 다중 채널 오디오 신호 처리 방법, 장치 및 시스템을 제공하여, 오디오 신호가 다중채널 오디오 통신 시스템에서 불연속적으로 전송될 수 없는 종래 기술의 문제를 해결한다.
제1 관점에 따라, 다중채널 오디오 신호 처리 방법이 제공되며, 상기 방법은: 인코더가 N번째-프레임 다운믹싱 신호(downmixed signal)가 음성 신호를 포함하는지를 검출하는 단계; 및 상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하는 단계를 포함하거나, 또는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않은 것을 검출할 때, N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정되면 N번째-프레임 다운믹싱 신호를 인코딩하는 단계, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정되면 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰는 단계를 포함하며, 여기서 N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초하여 복수의 채널 중 2개 채널 상의 N번째-프레임 오디오 신호가 혼합된 후에 획득되고 N은 0보다 큰 양의 정수이다.
N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정되면 인코더는 다운믹싱 신호를 인코딩하며, 그렇지 않으면, 인코더는 다운믹싱 신호를 인코딩하지 않으며, 이에 따라 인코더는 다운믹싱 신호에 대한 불연속적인 인코딩을 실행하며, 다운믹싱 신호 압축 효율이 향상된다.
본 발명의 실시예에서, 미리 설정된 오디오 프레임 인코딩 조건은 제1 프레임 다운믹싱 신호를 포함한다는 것에 유의해야 한다. 즉, 제1 프레임 다운믹싱 신호가 음성 신호를 포함하지 않지만 제1 프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족할 때, 제1 프레임 다운믹싱 신호는 인코딩된다.
제1 관점에 기초해서, 다운믹싱 신호 압축 효율을 크게 향상시키기 위해, 선택적으로, 인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정되면 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하거나; 또는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것이 검출될 때: N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건에 따라 N번째-프레임 다운믹싱 신호를 인코딩하거나, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족하는 것으로 결정되면 미리 설정된 SID 인코딩 조건에 따라 N번째-프레임 다운믹싱 신호를 인코딩하며, 미리 설정된 SID 인코딩 레이트는 음성 프레임 인코딩 레이트보다 낮다.
특정한 실시 동안, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족하는 것으로 결정되면, SID 인코딩은 미리 설정된 SID 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호에 대해 수행된다. 음성 신호 인코딩과 비교하면, 이것은 다운믹싱 신호 압축 효율을 더 향상시킨다. 또한, 제1 관점 및 기술적 솔루션에서, 디코더가 다운믹싱 신호를 복원할 수 없는 것을 회피하기 위해, 스테레오 파라미터 집합은 추가로 인코딩될 필요가 있다는 것에 유의해야 한다.
제1 관점에 기초해서, 다운믹싱 신호 압축 효율을 크게 향상시키기 위해, 선택적으로, 인코더는 스테레오 파라미터 집합에 대해 불연속적 인코딩을 수행한다. 구체적으로, 인코더는 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고; N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 스테레오 파라미터 집합을 인코딩하거나; 또는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때: N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정되면, 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰며, 여기서 N번째-프레임 스테레오 파라미터 집합은 Z개의 스테레오 파라미터를 포함하고, Z개의 스테레오 파라미터는 인코더가 미리 설정된 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 때 사용되는 파라미터를 포함하며, Z는 0보다 큰 양의 정수이다.
제1 관점에 기초해서, 다운믹싱 신호 압축 효율을 크게 향상시키기 위해, 선택적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계 이전에, 인코더는 미리 설정된 스테레오 파라미터 차원 감소 규칙(stereo parameter dimension reduction rule)에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하며, 그리고 X개의 목표 스테레오 파라미터를 인코딩하며, - X는 0보다 크고 Z보다 작거나 같은 양의 정수이다.
미리 설정된 스테레오 파라미터 차원 감소 규칙은 미리 설정된 스테레오 파라미터 유형일 수 있다. 즉, 미리 설정된 스테레오 파라미터 유형을 만족하는 X개의 목표 스테레오 파라미터는 N번째-프레임 스테레오 파라미터 집합으로부터 선택된다. 대안으로, 미리 설정된 스테레오 파라미터 차원 감소 규칙은 미리 설정된 스테레오 파라미터 수량일 수 있다. 즉, X개의 목표 스테레오 파라미터는 N번째-프레임 스테레오 파라미터 집합으로부터 선택된다. 대안으로, 미리 설정된 스테레오 파라미터 차원 감소 규칙은 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 대한 시간-도메인 또는 주파수-도메인 해상도를 감소시킨다. 즉, X개의 목표 스테레오 파라미터는 적어도 하나의 스테레오 파라미터의 감소된 시간-도메인 또는 주파수-도메인 해상도에 따라 Z개의 스테레오 파라미터에 기초해서 결정된다.
제1 관점에 기초해서, 선택적으로, 다중채널 통신 시스템의 압축 효율을 향상시키기 위해 이하의 방법을 추가로 사용할 수 있다:
N번째-프레임 오디오 신호가 음성 신호를 포함하는 것을 검출할 때: 인코더는 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하거나; 또는 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출할 때: N번째-프레임 오디오 신호가 미리 설정된 프레임 인코딩 조건을 만족하는 것으로 결정되면, 인코더는 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하거나; 또는 N번째-프레임 오디오 신호가 미리 설정된 프레임 인코딩 조건을 만족하지 않는 것으로 결정되면, 인코더는 제2 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, 그리고 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정될 때 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 인코더는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정될 때 스테레오 파라미터 집합을 인코딩하지 않으며,
여기서 제1 스테레오 파라미터 집합 생성 방식 및 제2 스테레오 파라미터 집합 생성 방식은 다음의 조건:
제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 시간 도메인 해상도(time-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 시간 도메인 해상도보다 낮지 않은 조건, 또는 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 주파수 도메인 해상도(frequency-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 주파수 도메인 해상도보다 낮지 않은 조건 중 적어도 하나를 만족한다.
제1 관점에 기초해서, 선택적으로, N번째-프레임 다운믹싱 신호가 음성 신호를 포함할 때, 인코더는 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하며; N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족할 때 인코더는 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나; 또는 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족하지 않을 때 인코더는 제2 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하며, 여기서
제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않고; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도(quantization precision)는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다.
N번째-프레임 스테레오 파라미터 집합은 IPD 및 ITD를 포함한다. 제1 인코딩 방식에서 규정되는 IPD 양자화 정확도는 제2 인코딩 방식에서 규정되는 IPD 양자화 정확도보다 낮지 않으며, 제1 인코딩 방식에서 규정되는 ITD 양자화 정확도는 제2 인코딩 방식에서 규정되는 ITD 양자화 정확도보다 낮지 않다.
제1 관점에 기초해서, 선택적으로, 일반적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 레벨 차이(inter-channel level difference, ILD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
Figure pct00001
을 포함하고, 여기서
Figure pct00002
은 ILD가 제1 기준으로부터 벗어나는 정도를 나타내고, 제1 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제2 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나,
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 시간 차이(inter-channel time difference, ITD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
Figure pct00003
을 포함하고, 여기서
Figure pct00004
는 ITD가 제2 기준으로부터 벗어나는 정도를 나타내고, 제2 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제3 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나, 또는
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 위상 차이(inter-channel phase difference, IPD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
Figure pct00005
을 포함하고, 여기서
Figure pct00006
는 IPD가 제3 기준으로부터 벗어나는 정도를 나타내고, 제3 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제4 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이다.
제2 알고리즘, 제3 알고리즘, 제4 알고리즘은 실제 상황에 따라 미리 설정될 필요가 있다.
선택적으로,
Figure pct00007
,
Figure pct00008
, 및
Figure pct00009
는 각각 다음의 표현:
Figure pct00010
,
Figure pct00011
, 및
Figure pct00012
을 만족하며, 여기서
Figure pct00013
은 N번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, M은 N번째-프레임 오디오 신호를 전송하는 데 점유되는 서브 주파수 대역의 총 수량이고,
Figure pct00014
는 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ILD의 평균값이고, T는 0보다 큰 양의 정수이고,
Figure pct00015
은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, ITD는 N번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
Figure pct00016
는 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ITD의 평균값이고,
Figure pct00017
는 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
Figure pct00018
은 N번째-프레임 오디오 신호의 일부가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이고,
Figure pct00019
은 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 IPD의 평균값이며,
Figure pct00020
은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이다.
제2 관점에 따라, 다중채널 오디오 신호 처리 방법이 제공되며, 상기 방법은: 디코더가 비트스트림을 수신하는 단계 - 비트스트림은 적어도 2개의 프레임을 포함하고, 적어도 2개의 프레임은 적어도 하나의 제1 유형 프레임 및 적어도 하나의 제2 유형 프레임을 포함하고, 적어도 하나의 제1 유형 프레임은 다운믹싱 신호를 포함하고, 적어도 하나의 제2 유형 프레임은 다운믹싱 신호를 포함하지 않음 - ; 및 N번째-프레임 비트스트림에서, N은 1보다 큰 양의 정수이며, 상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 다운믹싱 신호를 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계; 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 상기 디코더가 미리 설정된 제1 규칙에 따라 N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 중에서 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제1 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하는 단계를 포함하며, 여기서 m은 0보다 큰 양의 정수이고, N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초해서 다중 채널 중 2개의 채널 상에서 N번째-프레임 오디오 신호를 혼합함으로써 인코더에 의해 획득된다.
디코더에 의해 수신된 비트스트림은 제1 유형 프레임 및 제2 유형 프레임을 포함하며, 제1 유형 프레임은 다운믹싱 신호를 포함하고, 제2 유형 프레임은 다운믹싱 신호를 포함하지 않는다. 즉, 인코더는 다운믹싱 신호의 각 프레임을 인코딩하지 않는다. 그러므로 다운믹싱 신호에 대한 불연속적 전송이 실행되며, 다중채널 오디오 통신 시스템의 다운믹싱 신호 압축 효율이 향상된다.
본 발명의 실시예에서, 제1 프레임 비트스트림은 제1 유형 프레임이라는 것에 유의해야 한다. 구체적으로, 제1 프레임 비트스트림이 디코딩된 후 획득된 다운믹싱 신호를 2개 채널 상의 오디오 신호로 복원하기 위해 제1 프레임 비트스트림은 스테레오 파라미터 집합을 더 포함할 필요가 있다. 구체적으로, 제1 유형 프레임은 다운믹싱 신호를 포함하고 제2 유형 프레임은 다운믹싱 신호를 포함하지 않기 때문에, 제1 유형 프레임의 크기는 제2 유형 프레임의 크기보다 크다. 디코더는 N번째-프레임 비트스트림의 크기에 따라, N번째-프레임 비트스트림이 제1 유형 프레임인지 또는 제2 유형 프레임인지를 결정할 수 있다. 또한, N번째-프레임 비트스트림에 플래그 비트가 추가로 캡슐화될 수 있다. 디코더는 N번째-프레임 비트스트림을 부분적으로 디코딩하여 플래그 비트를 획득한다. 플래그 비트가 N번째-프레임 비트스트림이 제1 유형 프레임이라는 것을 나타내면, 디코더는 N번째-프레임 비트스트림을 디코딩하여 N번째-프레임 다운믹싱 신호를 획득한다. 플래그 비트가 N번째-프레임 비트스트림이 제2 유형 프레임이라는 것을 나타내면, 디코더는 미리 정해진 제1 알고리즘에 따라 N번째-프레임 다운믹싱 신호를 획득한다.
제2 관점에 기초해서, 오디오 신호를 2개 채널 상의 오디오 신호로 복원하고 그 오디오 신호의 통신 품질을 보장하기 위해, 선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며,
N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 비트스트림을 디코딩하는 단계 이후에, 디코더는 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 모두 획득하고, 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 디코더는 N번째-프레임 비트스트림을 인코딩하여 N번째-프레임 스테레오 파라미터 집합을 획득하고, 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 획득한다. 그런 다음, 디코더는 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원한다.
제2 관점에 기초해서, 오디오 신호를 2개 채널 상의 오디오 신호로 복원하고 그 오디오 신호의 통신 품질을 보장하기 위해, 선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 디코더는 N번째-프레임 비트스트림을 디코딩하여, N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 모두 획득하며, 그런 다음 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 디코더는 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 획득하고, 미리 정해진 제2 규칙에 따라, N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며, 그런 다음 정해진 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하며, k는 0보다 큰 양의 정수이다.
제2 관점에 기초해서, 오디오 신호를 2개 채널 상의 오디오 신호로 복원하고 그 오디오 신호의 통신 품질을 보장하기 위해, 선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,
N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 디코더는 N번째-프레임 비트스트림을 디코딩하여, N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 모두 획득하며, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는
디코더가 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정하면 이하의 2가지 경우가 포함된다:
N번째-프레임 비트스트림이 제3 유형 프레임일 때 디코더는 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하고, 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 획득하며, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 디코더는 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며 - k는 0보다 큰 양의 정수이고, 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 획득하고, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원한다.
제2 관점에 기초해서, 오디오 신호를 2개 채널 상의 오디오 신호로 복원하고 그 오디오 신호의 통신 품질을 보장하기 위해, 선택적으로, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,
디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정하면, 이하의 2가지 경우가 포함되며:
N번째-프레임 비트스트림이 제5 유형 프레임일 때 디코더는 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 모두 획득하기 위해 N번째-프레임 비트스트림을 디코딩하고, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는
N번째-프레임 비트스트림이 제6 유형 프레임일 때, 디코더는 미리 설정된 제2 규칙에 따라 N번째-프레임 다운믹싱 신호를 획득하기 위해 N번째-프레임 비트스트림을 디코딩하고, 미리 설정된 제2 규칙에 따라, N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는
N번째-프레임 비트스트림이 제2 유형 프레임이면, 디코더는 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 획득하고, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원한다.
제2 관점에 기초해서, 오디오 신호를 2개 채널 상의 오디오 신호로 복원하고 그 오디오 신호의 통신 품질을 보장하기 위해, 선택적으로, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,
디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정하면, 이하의 2가지 경우가 포함되며:
N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 비트스트림을 디코딩한 후, 디코더는 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 모두 획득하고, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는
N번째-프레임 비트스트림이 제6 유형 프레임일 때, N번째-프레임 비트스트림을 디코딩한 후, 디코더는 N번째-프레임 다운믹싱 신호를 획득하고, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는
디코더가 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정하면, 이하의 2가지 경우가 포함되며:
N번째-프레임 비트스트림이 제3 유형 프레임일 때 디코더는 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하고, 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 획득하며, 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하거나; 또는
N번째-프레임 비트스트림이 제4 유형 프레임일 때, 디코더는 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고 - k는 0보다 큰 양의 정수임 - , 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원한다.
제3 관점에 따라, 인코더가 제공되며, 상기 인코더는 신호 검출 유닛 및 신호 인코딩 유닛을 포함한다. 신호 검출 유닛은 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하도록 구성되어 있으며, N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초하여 복수의 채널 중 2개 채널 상의 N번째-프레임 오디오 신호가 혼합된 후에 획득되고 N은 0보다 큰 양의 정수이다. 신호 인코딩 유닛은, 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하거나; 또는 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않은 것을 검출할 때, 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하거나, 또는 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰도록 구성되어 있다.
제3 관점에 기초해서, 선택적으로, 상기 신호 인코딩 유닛은 제1 신호 인코딩 유닛 및 제2 신호 인코딩 유닛을 포함한다. 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 신호 검출 유닛은 N번째-프레임 다운믹싱 신호를 인코딩하도록 제1 신호 인코딩 유닛에 명령한다. 대안으로, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정되면 신호 검출 유닛은 N번째-프레임 다운믹싱 신호를 인코딩하도록 제1 신호 인코딩 유닛에 명령한다. 구체적으로, 제1 신호 인코딩 유닛은 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩한다. N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 무음 삽입 디스크립터(silence insertion descriptor, SID) 인코딩 조건을 만족하는 것으로 결정하면 신호 검출 유닛은 N번째-프레임 다운믹싱 신호를 인코딩하도록 제2 신호 인코딩 유닛에 명령한다. 구체적으로, 제2 신호 인코딩 유닛은 미리 설정된 SID 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하며, 여기서 SID 인코딩 레이트는 음성 프레임 인코딩 레이트보다 크지 않다.
제3 관점에 기초해서, 인코더는 파라미터 생성 유닛, 파라미터 인코딩 유닛 및 파라미터 검출 유닛을 더 포함한다. 상기 파라미터 생성 유닛은 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 구성되어 있으며, N번째-프레임 스테레오 파라미터 집합은 Z개의 스테레오 파라미터를 포함하고, Z개의 스테레오 파라미터는 인코더가 미리 설정된 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 때 사용되는 파라미터를 포함하며, Z는 0보다 큰 양의 정수이다. 상기 파라미터 인코딩 유닛은: 상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때, N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있거나, 또는 상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때, 상기 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정하면 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 상기 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정하면 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰도록 구성되어 있다.
제3 관점에 기초해서, 파라미터 인코딩 유닛은: 미리 설정된 스테레오 파라미터 차원 감소 규칙에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하고, X개의 목표 스테레오 파라미터를 인코딩하도록 구성되어 있으며, 여기서 X는 0보다 크고 Z보다 작거나 같은 양의 정수이다.
제3 관점에 기초해서, 선택적으로, 상기 파라미터 생성 유닛은 제1 파라미터 생성 유닛 및 제2 파라미터 생성 유닛을 포함하며, 여기서
상기 신호 검출 유닛이 N번째-프레임 오디오 신호가 음성 신호를 포함하는 것을 검출할 때, 또는 상기 신호 검출 유닛이 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출하고 N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정할 때, 신호 검출 유닛은 N번째-프레임 스테레오 파라미터 집합을 생성하도록 제1 파라미터 생성 유닛에 명령하며, 구체적으로, 제1 파라미터 생성 유닛은 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, 상기 파라미터 인코딩 유닛은 N번째-프레임 스테레오 파라미터 집합을 인코딩하며; 구체적으로, 파라미터 인코딩 유닛은 제1 파라미터 인코딩 유닛 및 제2 파라미터 인코딩 유닛을 포함하며, 제1 파라미터 인코딩 유닛은 N번째-프레임 스테레오 파라미터 집합을 인코딩하고, 여기서 제1 파라미터 인코딩 유닛에 의해 규정된 인코딩 방식은 제1 인코딩 방식이고, 제2 파라미터 인코딩 유닛에 의해 규정된 인코딩 방식은 제2 인코딩 방식이며; 구체적으로, 제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않고; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않으며;
신호 검출 유닛이 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출할 때, 제2 파라미터 생성 유닛은 제2 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며, 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정할 때, 파라미터 인코딩 유닛은 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하고, 구체적으로, 파라미터 인코딩 유닛이 제1 파라미터 인코딩 유닛 및 제2 파라미터 인코딩 유닛을 포함할 때, 제2 파라미터 인코딩 유닛은 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나; 또는
파라미터 인코딩 유닛은 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정할 때 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰며,
제1 스테레오 파라미터 집합 생성 방식 및 제2 스테레오 파라미터 집합 생성 방식은 다음의 조건:
제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 시간 도메인 해상도(time-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 시간 도메인 해상도보다 낮지 않은 조건, 또는 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 주파수 도메인 해상도(frequency-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 주파수 도메인 해상도보다 낮지 않은 조건 중 적어도 하나를 만족한다.
제3 관점에 기초해서, 선택적으로, 파라미터 인코딩 유닛은 제1 파라미터 인코딩 유닛 및 제2 파라미터 인코딩 유닛을 포함한다. 구체적으로, 제1 파라미터 인코딩 유닛은, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하고 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않지만 음성 프레임 인코딩 조건을 만족할 때, 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있으며, 제2 파라미터 인코딩 유닛은 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족하지 않을 때 제2 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하도록 구성되어 있으며,
제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않고; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다.
제3 관점에 기초해서, 선택적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 레벨 차이(inter-channel level difference, ILD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
Figure pct00021
을 포함하고, 여기서
Figure pct00022
은 ILD가 제1 기준으로부터 벗어나는 정도를 나타내고, 제1 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제2 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나,
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 시간 차이(inter-channel time difference, ITD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
Figure pct00023
을 포함하고, 여기서
Figure pct00024
는 ITD가 제2 기준으로부터 벗어나는 정도를 나타내고, 제2 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제3 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나, 또는
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 위상 차이(inter-channel phase difference, IPD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
Figure pct00025
을 포함하고, 여기서
Figure pct00026
는 IPD가 제3 기준으로부터 벗어나는 정도를 나타내고, 제3 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제4 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이다.
제3 관점에 기초해서, 선택적으로,
Figure pct00027
,
Figure pct00028
, 및
Figure pct00029
는 각각 다음의 표현:
Figure pct00030
,
Figure pct00031
, 및
Figure pct00032
을 만족하며, 여기서
Figure pct00033
은 N번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, M은 N번째-프레임 오디오 신호를 전송하는 데 점유되는 서브 주파수 대역의 총 수량이고,
Figure pct00034
는 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ILD의 평균값이고, T는 0보다 큰 양의 정수이고,
Figure pct00035
은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, ITD는 N번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
Figure pct00036
는 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ITD의 평균값이고,
Figure pct00037
는 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
Figure pct00038
은 N번째-프레임 오디오 신호의 일부가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이고,
Figure pct00039
은 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 IPD의 평균값이며,
Figure pct00040
은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이다.
제4 관점에 따라, 디코더가 제공되며, 상기 디코더는 수신 유닛 및 디코딩 유닛을 포함한다. 수신 유닛은 비트스트림을 수신하도록 구성되어 있으며, 비트스트림은 적어도 2개의 프레임을 포함하고, 적어도 2개의 프레임은 적어도 하나의 제1 유형 프레임 및 적어도 하나의 제2 유형 프레임을 포함하고, 적어도 하나의 제1 유형 프레임은 다운믹싱 신호를 포함하고, 적어도 하나의 제2 유형 프레임은 다운믹싱 신호를 포함하지 않으며, 디코딩 유닛은: N번째-프레임 비트스트림에서, N은 1보다 큰 양의 정수이며, N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 다운믹싱 신호를 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 미리 설정된 제1 규칙에 따라 N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 중에서 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제1 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하도록 구성되어 있으며, 여기서 m은 0보다 큰 양의 정수이고,
N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초해서 다중 채널 중 2개의 채널 상에서 N번째-프레임 오디오 신호를 혼합함으로써 인코더에 의해 획득된다.
제4 관점에 기초해서, 선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며,
상기 디코딩 유닛은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하도록 추가로 구성되어 있으며, 여기서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되며,
신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.
제4 관점에 기초해서, 선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,
상기 디코딩 유닛은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며, 여기서 k는 0보다 큰 양의 정수이고,
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되며,
신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.
제4 관점에 기초해서, 선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,
상기 디코딩 유닛은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며, 여기서 k는 0보다 큰 양의 정수이고,
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되며,
신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.
제4 관점에 기초해서, 선택적으로, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,
상기 디코딩 유닛은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나; 또는 N번째-프레임 비트스트림이 제6 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며, 여기서
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수이며,
신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.
제4 관점에 기초해서, 선택적으로, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,
상기 디코딩 유닛은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제6 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하거나, 또는
상기 디코딩 유닛은: N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며, 여기서
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수이며,
상기 디코더는 신호 복원 유닛을 더 포함하며,
상기 신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.
제5 관점에 따라, 인코딩 및 디코딩 시스템이 제공되며, 인코딩 및 디코딩 시스템은 제3 관점에서 제공된 임의의 인코더 및 제4 관점에서 제공된 임의의 디코더를 포함한다.
제6 관점에 따라, 본 발명의 실시예는 단말 장치를 더 제공한다. 단말 장치는 프로세서 및 메모리를 포함한다. 메모리는 소프트웨어 프로그램을 저장하도록 구성되고, 프로세서는 메모리에 저장되어 있는 소프트웨어 프로그램을 판독하고 제1 관점에서 제공되는 방법 또는 제1 관점의 임의의 실시를 실행하도록 구성된다.
제7 관점에 따라, 본 발명의 실시예는 컴퓨터 저장 매체를 더 제공한다. 저장 매체는 비휘발성일 수 있다. 즉, 전원이 꺼진 후에도 내용이 사라지지 않는다. 저장 매체는 소프트웨어 프로그램을 저장하며, 소프트웨어 프로그램이 하나 이상의 프로세서에 의해 판독되어 실행될 때, 제1 관점에서 제공되는 방법 또는 제1 관점의 임의의 실시가 실행될 수 있다.
도 1은 본 발명의 실시예 1에 따라 다중채널 오디오 신호 처리 방법에 대한 개략적인 흐름도이다.
도 2a, 도 2b 및 도 2c는 본 발명의 실시예 2에 따라 다중채널 오디오 신호 처리 방법에 대한 개략적인 흐름도이다.
도 3a 내지 도 3d는 본 발명의 실시예에 따른 인코더에 대한 개략적인 도면이다.
도 4는 본 발명의 실시예에 따른 디코더에 대한 개략적인 도면이다.
도 5는 본 발명의 실시예에 따른 인코딩 및 디코딩 시스템에 대한 개략적인 도면이다.
본 발명의 목적, 기술적 솔루션 및 이점을 더 분명히 하기 위해, 이하에서는 첨부된 도면을 참조하여 본 발명을 추가로 상세히 설명한다.
오디오 인코딩 및 디코딩 기술에서, 오디오 신호는 프레임 단위로 인코딩되거나 디코딩된다는 것을 이해하여야 한다. 구체적으로, N번째-프레임 오디오 신호는 N번째 오디오 프레임이다. N번째-프레임 오디오 신호가 음성 신호를 포함할 때, N번째 오디오 프레임은 음성 프레임이다. N번째-프레임 오디오 프레임이 음성 신호를 포함하지 않고 배경 잡음 신호를 포함할 때, N번째 오디오 프레임은 잡음 프레임이다. 여기서 N은 0보다 큰 양의 정수이다.
또한, 모노 통신 시스템에서, 불연속 인코딩 방식이 사용될 때, 무음 삽입 디스크립터(Silence Insertion Descriptor, SID) 프레임을 획득하기 위해 인코딩은 수 개의 잡음 프레임마다 1회 수행된다.
본 발명의 실시예에서의 인코더 및 디코더는 단말(예를 들어, 이동 전화, 노트북 컴퓨터, 또는 태블릿 컴퓨터)이나 서버와 같은 다중채널 오디오 신호 처리를 지원하는 장치 상에 패키지가 설치될 수 있으므로 단말이나 서버와 같은 장치는 본 발명의 실시예에서 다중채널 오디오 신호를 처리하는 기능을 가진다.
본 발명의 실시예에서, 오디오 신호는 다중채널 통신 시스템에서 불연속 인코딩 메커니즘을 사용해서 인코딩될 수 있기 때문에, 오디오 신호 압축 효율이 크게 향상된다.
이하에서는 N번째-프레임 다운믹싱 신호를 예로 사용해서 본 발명의 실시예에서의 다중채널 오디오 신호 처리 방법을 상세히 설명하며, 여기서 N은 0보다 큰 양의 정수이다. N번째-프레임 다운믹싱 신호는 복수의 채널 중 2개의 채널 상의 N번째-프레임 오디오 신호가 혼합된 후 획득되는 것으로 가정한다.
복수의 채널이 2개의 채널이고, 이 2개의 채널은 각각 제1 채널 및 제2 채널일 때, 복수의 채널 중 2개의 채널은 제1 채널 및 제2 채널이고, N번째-프레임 다운믹싱 신호는 제1 채널 상의 N번째-프레임 오디오 신호와 제2 채널 상의 N번째-프레임 오디오 신호를 혼합함으로써 획득된다. 복수의 채널이 적어도 3개의 채널일 때, 다운믹싱 신호는 복수의 채널 중 2개 페어 채널 상의 오디오 신호를 혼합함으로써 획득된다. 구체적으로, 3개의 채널을 예로 사용하고, 3개의 채널은 제1 채널, 제2 채널 및 제3 채널이다. 제1 채널과 제2 채널만이 지정된 규칙에 따라 페어가 되는 것으로 가정하면, 복수의 채널 중 2개의 채널이 제1 채널 및 제2 채널이고, N번째-프레임 다운믹싱 신호는 제1 채널 상의 N번째-프레임 오디오 신호와 제2 채널 상의 N번째-프레임 오디오 신호에 대해 다운믹싱을 수행한 후 획득된다. 3개의 채널 중, 제1 채널과 제2 채널이 페어이고 제2 채널과 제3 채널이 페어인 것으로 가정하면, 복수의 채널 중 2개의 채널은 제1 채널 및 제2 채널일 수도 있고 제3 채널 및 제3 채널일 수도 있다.
도 1에 도시된 바와 같이, 본 발명의 실시예 1에서의 다중채널 오디오 신호 처리 방법은 이하의 단계를 포함한다.
단계 100: 인코더는 복수의 채널 중 2개의 채널 상의 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 생성하며, 스테레오 파라미터는 Z개의 스테레오 파라미터를 포함한다.
구체적으로, Z개의 스테레오 파라미터는 인코더가 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 때 사용되는 파라미터를 포함하고, Z는 0보다 큰 양의 정수이다. 미리 정해진 제1 알고리즘은 인코더에 미리 설정된 다운믹싱 신호 생성 알고리즘이라는 것을 이해해야 한다.
N번째-스테레오 파라미터에 포함된 스테레오 파라미터는 구체적으로 미리 설정된 스테레오 파라미터 생성 알고리즘을 사용해서 결정된다는 것에 유의해야 한다. 2개 채널 중 하나의 채널은 좌측 채널이고 다른 채널은 우측 채널인 것으로 가정하면, 미리 설정된 스테레오 파라미터 생성 알고리즘은 다음과 같으며, N번째-프레임 오디오 신호에 따라 획득된 스테레오 파라미터는 인터-채널 레벨 차이(Inter-channel Level Difference, ILD)이며:
Figure pct00041
,
Figure pct00042
,
Figure pct00043
,
Figure pct00044
, 및
Figure pct00045
여기서,
Figure pct00046
는 i번째 주파수 빈(frequency bin) 내의 좌측 채널 상의 N번째-프레임 오디오 신호의 이산 푸리에 변환(Discrete Fourier Transform, DFT) 계수이고,
Figure pct00047
는 i번째 주파수 빈 내의 우측 채널 상의 N번째-프레임 오디오 신호의 DFT 계수이고,
Figure pct00048
Figure pct00049
의 실수 부분이고,
Figure pct00050
Figure pct00051
의 허수 부분이고,
Figure pct00052
Figure pct00053
의 실수 부분이고,
Figure pct00054
Figure pct00055
의 허수 부분이고,
Figure pct00056
는 i번째 주파수 빈 내의 좌측 채널 상의 N번째-프레임 오디오 신호의 에너지 스펙트럼이고,
Figure pct00057
는 i번째 주파수 빈 내의 우측 채널 상의 N번째-프레임 오디오 신호의 에너지 스펙트럼이고,
Figure pct00058
은 좌측 채널의 m번째 서브 주파수 대역 내의 N번째-프레임 오디오 신호의 에너지이고,
Figure pct00059
은 우측 채널의 m번째 서브 주파수 대역 내의 N번째-프레임 오디오 신호의 에너지이며, N번째-프레임 오디오 신호를 전송하기 위한 서브 주파수 대역의 총 수량은 M이다.
스테레오 파라미터 생성 알고리즘에서, N번째-프레임 오디오 신호가 주파수 빈
Figure pct00060
또는
Figure pct00061
에서 각각 직류 성분 또는 나이키스트 성분(Nyquist component)인 경우는 고려되지 않는다.
미리 설정된 스테레오 파라미터 생성 알고리즘이 인터 채널 시간 차이(Inter-channel Time Difference, ITD), 인터 채널 위상 차이(Inter-channel Phase Difference, ITD) 및 인터 채널 코히어런스(Inter-channel Coherence, IC)와 같은 다른 스테레오 파라미터를 계산하기 위한 알고리즘을 더 포함할 때, 인코더는 미리 설정된 스테레오 파라미터 생성 알고리즘에 기초해서 오디오 신호에 따라 ITD, IPD, 및 IC와 같은 스테레오 파라미터를 추가로 획득할 수 있다.
N번째-프레임 스테레오 파라미터 집합은 적어도 하나의 스테레오 파라미터를 포함한다는 것을 이해해야 한다. 예를 들어, IPD, ITD, ILD 및 IC는 미리 설정된 스테레오 파라미터 생성 알고리즘에 기초해서 2개 채널 상의 N번째-프레임 오디오 신호에 따라 획득되며, IPD, ITD, ILD 및 IC는 N번째-프레임 스테레오 파라미터 집합을 형성한다.
단계 101: 인코더는 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 오디오 신호를 N번째-프레임 다운믹싱 신호에 혼합한다.
예를 들어, N번째-프레임 스테레오 파라미터 집합은 IPD, ITD, ILD 및 IC를 포함한다. N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초해서 ILD 및 IPD에 따라 획득된다. 구체적으로, N번째-프레임 다운믹싱 신호
Figure pct00062
는 k번째 주파수 빈에서 다음의 표현을 만족한다:
Figure pct00063
,
여기서
Figure pct00064
는 k번째 주파수 빈에서 N번째-프레임 다운믹싱 신호를 나타내고,
Figure pct00065
는 k번째 주파수 빈에서 채널의 k번째 페어 내의 좌측 채널 상의 N번째-프레임 오디오 신호의 진폭을 나타내고,
Figure pct00066
는 k번째 주파수 빈에서 채널의 k번째 페어 내의 우측 채널 상의 N번째-프레임 오디오 신호의 진폭을 나타내고,
Figure pct00067
는 k번째 주파수 빈에서 좌측 채널 상의 N번째-프레임 오디오 신호의 위상 각을 나타내고,
Figure pct00068
는 k번째 주파수 빈에서 N번째-프레임 오디오 신호의 ILD를 나타내고,
Figure pct00069
는 k번째 주파수 빈에서 N번째-프레임 오디오 신호의 IPD를 나타낸다.
다운믹싱 신호를 획득하기 위한 알고리즘 외에, 본 발명의 이 실시예는 다운믹싱 신호를 획득하기 위한 다른 알고리즘에 제한을 두지 않는다는 것에 유의해야 한다.
본 발명의 실시예 1에서, 디코더가 N번째-프레임 다운믹싱 신호를 복원할 수 있도록 N번째-프레임 스테레오 파라미터 집합이 인코딩된다. 선택적으로, 인코딩 동안 압축 효율을 향상시키기 위해 인코더는 N번째-프레임 스테레오 파라미터 집합 내의 N번째-프레임 다운믹싱 신호를 획득하는 데 사용되는 스테레오 파라미터를 인코딩한다. 예를 들어, 생성된 N번째-프레임 스테레오 파라미터 집합은 IPD, ITD, ILD 및 IC를 포함한다. 인코더가 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 ILD 및 IPD만에 따라 채널 상의 N번째-프레임 오디오 신호를 N번째-프레임 다운믹싱 신호에 혼합하면, 압축 효율이 향상되며, 인코더는 N번째-프레임 스테레오 파라미터 집합 내의 ILD 및 IPD만을 인코딩할 수 있다.
단계 102: 인코더는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하고, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하면, 단계 103을 수행하고, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않으면, 단계 104를 수행한다.
인코더는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 용이하게 검출하기 위해, 선택적으로, 인코더는 음성 활동 검출(Voice Activity Detection, VAD)을 이용해서 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 직접적으로 검출한다.
선택적으로, 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 간접적으로 검출하는 방법은 다음과 같다: 인코더는 VAD를 이용해서 인코더는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출한다. 구체적으로, 2개의 채널 중 하나의 채널 상의 오디오 신호가 음성 신호를 포함하는 것을 검출하면, 인코더는 2개 채널 상의 오디오 신호를 혼합함으로써 획득된 다운믹싱 신호가 음성 신호를 포함하는 것으로 결정한다. 2개 채널 상의 오디오 신호 중 어느 것도 음성 신호를 포함하지 않는 것으로 결정될 때만, 인코더는 2개 채널 상의 오디오 신호를 혼합함으로써 획득된 다운믹싱 신호가 음성 신호를 포함하는 것으로 결정한다. 이러한 간접적 검출 방식에서 단계 100가 단계 101에 선행하면, 단계 102와 단계 100 또는 단계 101 사이의 순서는 제한되지 않는다.
단계 103: 인코더는 N번째-프레임 다운믹싱 신호를 인코딩하고 단계 107을 수행한다.
인코더는 N번째-프레임 다운믹싱 신호를 인코딩하여 N번째-프레임 비트스트림을 획득한다.
본 발명의 실시예 1에서는 다운믹싱 신호에 대해 불연속적 인코딩이 수행되므로, 비트스트림은 2가지 프레임 유형: 제1 유형 프레임 및 제2 유형 프레임을 포함한다. 제1 프레임 유형은 다운믹싱 신호를 포함하고, 제2 유형 프레임은 다운믹싱 신호를 포함하지 않는다. 단계 103에서 획득된 N번째-프레임 비트스트림은 제1 유형 프레임이다.
단계 103에서, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하기 때문에, 선택적으로, 인코더는 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩한다. 바람직하게, 미리 설정된 음성 프레임 인코딩 레이트는 13.2 kbps에 설정될 수 있다.
또한, 선택적으로, N번째-프레임 다운믹싱 신호를 인코딩하면, 인코더는 N번째-프레임 스테레오 파라미터 집합을 인코딩한다.
단계 104: 인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는지를 결정하고, N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하면 단계 105를 수행하고, N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않으면 단계 106을 수행한다.
미리 설정된 오디오 프레임 인코딩 조건은 인코더에 미리 구성되어 있고 N번째-프레임 다운믹싱 신호를 인코딩할지를 결정하는 데 사용되는 조건이다.
제1 프레임 다운믹싱 신호에 있어서, 제1 프레임 다운믹싱 신호가 음성 신호를 포함하지 않으면, 제1 프레임 다운믹싱 신호는 미리 설정된 오디오 프레임 인코딩 조건을 만족한다는 것에 유의해야 한다. 즉, 제1 프레임 다운믹싱 신호가 음성 신호를 포함하는지에 관계 없이 제1 프레임 다운믹싱 신호는 인코딩된다.
단계 105: 인코더는 N번째-프레임 다운믹싱 신호를 인코딩하고 단계 107을 수행한다.
구체적으로, 단계 105에서 획득된 N번째-프레임 비트스트림 역시 제1 유형 프레임이다.
선택적으로, N번째-프레임 다운믹싱 신호를 인코딩하면, 인코더는 N번째-프레임 스테레오 파라미터 집합을 인코딩한다.
선택적으로, 다운믹싱 신호의 인코딩을 쉽고 간단하게 실시하기 위해, 본 발명의 실시예 1에서, N번째-프레임 다운믹싱 신호는 단계 103 및 단계 105에서와 같은 방식으로 인코딩된다.
선택적으로, 단계 105에서 N번째-프레임 다운믹싱 신호는 음성 신호를 포함하지 않기 때문에, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족할 때, 인코더는 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩한다. 대안으로, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족할 때, 인코더는 미리 설정된 SID 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩한다. 미리 설정된 SID 인코딩 레이트는 2.8 kbps에 설정될 수 있다.
N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족할 때, 인코더는 SID 인코딩 방식에 따라 N번째-프레임 다운믹싱 신호를 인코딩한다는 것에 유의해야 한다. SID 인코딩 방식은 인코딩 레이트가 미리 설정된 SID 인코딩 레이트인 것으로 규정하고, 인코딩에 사용되는 알고리즘 및 인코딩에 사용되는 파라미터를 규정한다.
미리 설정된 음성 프레임 인코딩 조건은: N번째-프레임 다운믹싱 신호와 M번째-프레임 다운믹싱 신호 사이의 지속기간은 미리 설정된 지속기간보다 길지 않을 수 있다. M번째-프레임 다운믹싱 신호는 음성 신호를 포함하고, M번째-프레임 다운믹싱 신호는 음성 신호를 포함하면서 N번째-프레임 다운믹싱 신호에 가장 가까운 다운믹싱 신호의 프레임이다. 미리 설정된 SID 인코딩 조건은 홀수 프레임을 인코딩하는 것일 수 있다. N번째-프레임 다운믹싱 신호의 N이 홀수일 때, 인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 SID 인코딩 조건을 만족하는 것으로 결정한다.
단계 106: 인코더는 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰고 단계 109를 수행한다.
구체적으로, 단계 106에서 획득된 N번째-프레임 비트스트림은 제2 유형 프레임이다.
인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정한다. 구체적으로, 인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않으며, 미리 설정된 SID 인코딩 조건을 만족하지 않는 것으로 결정한다.
본 발명의 이 실시예에서, 인코더는 N번째-프레임 다운믹싱 신호를 인코딩하지 않는다. 구체적으로, N번째-프레임 비트스트림은 N번째-프레임 다운믹싱 신호를 포함하지 않는다.
인코더가 N번째-프레임 다운믹싱 신호를 포함하지 않을 때, 인코더는 N번째-프레임 스테레오 파라미터 집합을 인코딩할 수도 있고 N번째-프레임 스테레오 파라미터 집합을 인코딩하지 않을 수도 있다.
본 발명의 실시예 1에서, 인코더가 N번째-프레임 다운믹싱 신호를 인코딩하지 않지만 N번째-프레임 스테레오 파라미터 집합을 인코딩하는 예를 사용해서 설명한다. 그렇지만, 선택적으로, 인코더가 N번째-프레임 다운믹싱 신호를 인코딩하지 않을 때, 인코더는 N번째-프레임 스테레오 파라미터 집합도 인코딩하지 않을 수도 있다. 구체적으로, 인코더가 N번째-프레임 스테레오 파라미터도 인코딩하지 않고 N번째-프레임 다운믹싱 신호도 인코딩하지 않을 때, 디코더에 의해 설정된 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 획득하는 방식에 대해서는 본 발명의 실시예 2를 참조한다.
단계 107: 인코더는 N번째-프레임 비트스트림을 디코더에 송신한다.
디코더가 디코딩에 의해 N번째-프레임 다운믹싱 신호를 획득한 후 N번째-프레임 다운믹싱 신호를 2개의 채널 상의 N번째-프레임 오디오 신호로 복원할 수 있도록 하기 위해, N번째-프레임 비트스트림은 N번째-프레임 스테레오 파라미터 집합 및 N번째-프레임 다운믹싱 신호 모두를 포함한다.
단계 108: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, 디코더는 N번째-프레임 비트스트림을 디코딩하여 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 획득하고 단계 111을 수행한다.
제1 유형 프레임은 다운믹싱 신호를 포함하고 제2 유형 프레임은 다운믹싱 신호를 포함하지 않기 때문에, 제1 유형 프레임의 크기가 제2 유형 프레임의 크기보다 크다는 것에 유의해야 하다. 디코더는 N번째-프레임 비트스트림의 크기에 따라, N번째-프레임 비트스트림이 제1 유형 프레임인지 제2 유형 프레임인지를 결정할 수 있다. 또한, 선택적으로, N번째-프레임 비트스트림에 플래그 비트가 추가로 캡슐화될 수 있다. 디코더는 N번째-프레임 비트스트림을 부분적으로 디코딩하여 플래그 비트를 획득하고, 이 플래그 비트에 따라, N번째-프레임 비트스트림이 제1 유형 프레임인지 제2 유형 프레임인지를 결정하며, 플래그 비트가 1이면 N번째-프레임 비트스트림이 제1 유형 프레임인 것을 나타내고, 플래그 비트가 0이면 N번째-프레임 비트스트림이 제2 유형 프레임인 것을 나타낸다.
또한, 선택적으로, 디코더는 N번째-프레임 비트스트림에 대응하는 레이트에 따라 디코딩 방식을 결정한다. 예를 들어, N번째-프레임 비트스트림의 레이트가 17.4 kbps이면, 다운믹싱 신호에 대응하는 비트스트림의 레이트는 13.2 kbps이고, 스테레오 파라미터 집합에 대응하는 비트스트림의 레이트는 4.2 kbps이고, 디코더는 13.2 kbps에 대응하는 디코딩 방식에 따라 다운믹싱 신호에 대응하는 비트스트림을 디코딩하고, 4.2 kbps에 대응하는 디코딩 방식에 따라 스테레오 파라미터 집합에 대응하는 비트스트림을 디코딩한다.
대안으로, 디코더는 N번째-프레임 비트스트림 내의 인코딩 방식 플래그 비트에 따라 N번째-프레임 비트스트림의 인코딩 방식을 결정하고, 이 인코딩 방식에 대응하는 디코딩 방식에 따라 N번째-프레임 비트스트림을 디코딩한다.
단계 109: 인코더는 디코더에 N번째-프레임 비트스트림을 송신하며, N번째-프레임 비트스트림은 N번째-프레임 스테레오 파라미터 집합을 포함한다.
단계 110: N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, 디코더는 N번째-프레임 비트스트림을 디코딩해서 N번째-프레임 스테레오 파라미터 집합을 획득하고, 미리 설정된 제1 규칙에 따라, N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 내의 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제1 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하며, 여기서 m은 0보다 큰 양의 정수이다.
구체적으로, (N-3)번째-프레임 다운믹싱 신호, (N-2)번째-프레임 다운믹싱 신호, 및 (N-1)번째-프레임 다운믹싱 신호의 평균값은 N번째-프레임 다운믹싱 신호로 사용되거나, 또는 (N-1)번째-프레임 다운믹싱 신호가 N번째-프레임 다운믹싱 신호로 직접 사용되거나, 또는 N번째-프레임 다운믹싱 신호는 다른 알고리즘에 따라 추정된다.
또한, (N-1)번째-프레임 다운믹싱 신호는 N번째-프레임 다운믹싱 신호로 직접 사용될 수 있거나, 또는 N번째-프레임 다운믹싱 신호는 미리 설정된 알고리즘에 따라 (N-1)번째-프레임 다운믹싱 신호 및 미리 설정된 오프셋 값에 따라 계산된다.
단계 111: 디코더는 미리 정해진 제2 알고리즘에 따라 N번째-프레임 스테레오 파라미터 집합 내의 목표 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 2개 채널 상의 N번째-프레임 오디오 신호로 복원한다.
목표 스테레오 파라미터는 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터라는 것을 이해해야 한다.
구체적으로, 디코더가 N번째-프레임 다운믹싱 신호를 2개 채널 상의 N번째-프레임 오디오 신호로 복원하는 프로세스는 디코더가 2개 채널 상의 N번째-프레임 오디오 신호를 N번째-프레임 다운믹싱 신호로 혼합하는 인버스 프로세스이다. 인코더가 N번째-프레임 스테레오 파라미터 집합 내의 IPD 및 ILD에 따라 N번째-프레임 다운믹싱 신호를 획득하는 것으로 가정하면, 디코더는 N번째-프레임 스테레오 파라미터 집합 내의 IPD 및 ILD에 따라 N번째-프레임 다운믹싱 신호를 K번째 페어 내의 채널 상의 N번째-프레임 신호로 복원한다. 또한, 디코더에 미리 설정되어 있으면서 다운믹싱 신호를 복원하는 데 사용되는 알고리즘은 인코더 내의 다운믹싱 신호 생성 알고리즘의 인버스 알고리즘일 수도 있고, 인코더 내의 다운믹싱 신호 생성 알고리즘과 별개의 독립적인 알고리즘일 수도 있다는 것에 유의해야 한다.
또한, 다중채널 통신 시스템에서의 인코딩 동안 압축 효율을 향상시키기 위해, 다운믹싱 신호에 대해 불연속 인코딩을 실행할 때, 인코더는 스테레오 파라미터 집합에 대해 불연속 인코딩을 추가로 실행할 수 있다. 이하에서는 N번째-프레임 다운믹싱 신호를 예로 사용한다. 도 2a, 도 2b, 및 도 2c에 도시된 바와 같이, 본 발명의 실시예 2에서의 다중채널 오디오 신호 처리 방법은 이하의 단계를 포함한다.
단계 200: 인코더는 복수의 채널 중 2개의 채널 상의 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 생성하며, 여기서 스테레오 파라미터 집합은 Z개의 스테레오 파라미터를 포함한다.
구체적으로, Z개의 스테레오 파라미터는 인코더가 미리 정해진 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 대 사용되는 파라미터이고, Z는 0보다 큰 양의 정수이다. 미리 정해진 제1 알고리즘은 인코더에 미리 설정된 다운믹싱 신호 생성 알고리즘이라는 것을 이해해야 한다.
N번째-프레임 스테레오 파라미터 집합에 포함된 스테레오 파라미터는 미리 설정된 스테레오 파라미터 생성 알고리즘을 사용해서 결정된다는 것에 유의해야 한다. 2개 채널 중 하나의 채널은 좌측 채널이고 다른 채널은 우측 채널인 것으로 가정하면, 미리 설정된 스테레오 파라미터 생성 알고리즘은 다음과 같으며, N번째-프레임 오디오 신호에 따라 획득된 스테레오 파라미터는 ITD이며:
Figure pct00070
, 및
Figure pct00071
,
여기서
Figure pct00072
이고, N은 프레임 길이이고,
Figure pct00073
는 순간
Figure pct00074
에서 좌측 채널 상의 시간-도메인 신호를 나타내고,
Figure pct00075
는 순간
Figure pct00076
에서 우측 채널 상의 시간-도메인 신호를 나타내고,
Figure pct00077
이면 ITD는
Figure pct00078
에 대응하는 인덱스 값의 반대 수(opposite number)이고, 그렇지 않으면 ITD는
Figure pct00079
에 대응하는 인덱스 값의 반대 수이다. ITD를 획득하기 위한 다른 알고리즘도 본 발명의 이 실시예에서 적용될 수 있다.
미리 설정된 스테레오 파라미터 생성 알고리즘이 다음의 IPD 생성 알고리즘을 더 포함하면, IPD는 다음의 알고리즘에 따라 더 획득될 수 있다. 구체적으로, b번째 서브 주파수 대역에서의 IPD는 다음의 표현을 만족한다:
Figure pct00080
여기서 B는 주파수 도메인에서 오디오 신호에 의해 점유되는 서브 주파수 대역의 총 수량이고,
Figure pct00081
는 k번째 주파수 빈 내의 좌측 채널 상의 N번째-프레임 오디오 신호의 신호이고,
Figure pct00082
는 k번째 주파수 빈 내의 우측 채널 상의 N번째-프레임 오디오 신호의 신호이다.
또한, 미리 설정된 스테레오 파라미터 생성 알고리즘이 본 발명의 실시예 1에서의 ILD 생성 알고리즘을 더 포함할 때, ILD는 더 획득될 수 있다.
또한, 미리 설정된 스테레오 파라미터 생성 알고리즘이 본 발명의 실시예 1에서의 ILD 생성 알고리즘을 더 포함할 때, ILD는 더 획득될 수 있다.
단계 201: 인코더는 미리 정해진 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 2개 채널 상의 N번째-프레임 오디오 신호를 N번째-프레임 다운믹싱 신호에 혼합한다.
구체적으로, 미리 정해진 제1 알고리즘에 대해서는 본 발명의 실시예 1에서의 N번째-프레임 다운믹싱 신호를 획득하는 방법을 참조한다. 그렇지만, 미리 정해진 제1 알고리즘은 본 발명의 실시예 1에서의 N번째-프레임 다운믹싱 신호를 획득하는 방법에 한정되지 않는다.
단계 202: 인코더는 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하고, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하면 단계 203을 수행하고, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않으면 단계 204를 수행한다.
본 발명의 실시예 2에서, 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하는 특정한 실시에 대해서는 본 발명의 실시예 2에서 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하는 실시를 참조한다.
단계 203: 인코더는 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하며, 단계 211을 수행한다.
구체적으로, 인코더가 스테레오 파라미터 집합을 인코딩하는 2가지 방식: 제1 인코딩 방식 및 제2 인코딩 방식을 포함할 때, 제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않으며; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도(quantization precision)는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다. 단계 203에서, 인코더는 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩한다.
예를 들어, N번째-프레임 스테레오 파라미터 집합은 IPD 및 ITD를 포함한다. 제1 인코딩 방식에 규정된 IPD 양자화 정확도는 제2 인코딩 방식에 규정된 IPD 양자화 정확도보다 낮지 않으며, 제1 인코딩 방식에 규정된 ITD 양자화 정확도는 제2 인코딩 방식에 규정된 ITD 양자화 정확도보다 낮지 않다.
바람직하게, 음성 프레임 인코딩 레이트는 13.2 kbps에 설정될 수 있다.
단계 204: 인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는지를 결정하고, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하면 단계 205를 수행하고, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않으면 단계 206을 수행한다.
단계 205: 인코더는 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하며, 단계 211D을 수행한다.
구체적으로, 인코더가 스테레오 파라미터 집합을 인코딩하는 2가지 방식: 제1 인코딩 방식 및 제2 인코딩 방식을 포함할 때, 제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않으며; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다. 단계 205에서, 인코더는 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩한다.
단계 206: 인코더는 N번째-프레임 다운믹싱 신호가 미리 설정된 SID 인코딩 조건을 만족하는지를 결정하고, N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는지를 결정하며, N번째-프레임 다운믹싱 신호가 미리 설정된 SID 인코딩 조건을 만족하고 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하면, 단계 207을 수행하거나, N번째-프레임 다운믹싱 신호가 미리 설정된 SID 인코딩 조건을 만족하지만 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않으면, 단계 208을 수행하거나, N번째-프레임 다운믹싱 신호가 미리 설정된 SID 인코딩 조건을 만족하지 않지만 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하면, 단계 209를 수행하거나, N번째-프레임 다운믹싱 신호가 미리 설정된 SID 인코딩 조건을 만족하지 않고 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않으면, 단계 210을 수행한다.
구체적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하기 전에, 인코더는 적어도 하나의 스테레오 파라미터 내의 스테레오 파라미터가 미리 설정된 대응하는 스테레오 파라미터 인코딩 조건을 만족하는지를 결정한다. 구체적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 레벨 차이(inter-channel level difference ILD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은
Figure pct00083
을 포함하고, 여기서
Figure pct00084
은 ILD가 제1 기준으로부터 벗어나는 정도를 나타내고, 제1 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제2 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이다.
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 시간 차이(inter-channel time difference, ITD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은
Figure pct00085
을 포함하고,
여기서
Figure pct00086
는 ITD가 제2 기준으로부터 벗어나는 정도를 나타내고, 제2 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제3 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이다.
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 위상 차이(inter-channel phase difference, IPD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은
Figure pct00087
을 포함하고,
여기서
Figure pct00088
는 IPD가 제3 기준으로부터 벗어나는 정도를 나타내고, 제3 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제4 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이다.
제3 알고리즘, 제4 알고리즘 및 제5 알고리즘은 실제 상황에 따라 미리 설정될 필요가 있다.
구체적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 ITD만을 포함할 때, 미리 설정된 스테레오 파라미터 인코딩 조건은
Figure pct00089
만을 포함하고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 포함된 ITD가
Figure pct00090
만을 포함할 때, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인코딩된다. N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 ITD 및 IPD만을 포함할 때, 미리 설정된 스테레오 파라미터 인코딩 조건은
Figure pct00091
만을 포함하며, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 포함된 ITD가
Figure pct00092
을 포함할 때, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인코딩된다. 그렇지만, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 ITD 및 ILD만을 포함할 때, 미리 설정된 스테레오 파라미터 인코딩 조건은
Figure pct00093
Figure pct00094
만을 포함하고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 포함된 ITD가
Figure pct00095
을 만족하고 ILD가
Figure pct00096
을 포함할 때 인코더는 ITD 및 ILD만을 인코딩한다.
선택적으로,
Figure pct00097
,
Figure pct00098
, 및
Figure pct00099
는 각각 다음의 표현:
Figure pct00100
,
Figure pct00101
, 및
Figure pct00102
을 만족하며, 여기서
Figure pct00103
은 N번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, M은 N번째-프레임 오디오 신호를 전송하는 데 점유되는 서브 주파수 대역의 총 수량이고,
Figure pct00104
는 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ILD의 평균값이고, T는 0보다 큰 양의 정수이고,
Figure pct00105
은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, ITD는 N번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
Figure pct00106
는 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ITD의 평균값이고,
Figure pct00107
는 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
Figure pct00108
은 N번째-프레임 오디오 신호의 일부가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이고,
Figure pct00109
은 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 IPD의 평균값이며,
Figure pct00110
은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이다.
단계 207: 인코더는 미리 설정된 SID 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 다운믹싱 신호 내의 적어도 하나의 스테레오 파라미터를 인코딩하며, 단계 211을 수행한다.
구체적으로, 인코더가 스테레오 파라미터 집합을 인코딩하는 2가지 방식: 제1 인코딩 방식 및 제2 인코딩 방식을 포함할 때, 제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않으며; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다. 인코더는 제2 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩한다.
예를 들어, 제1 인코딩 방식에서, 인코더는 4.2 kbps에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하고, 제2 인코딩 방식에서, 인코더는 1.2 kbps에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩한다.
인코더에 의해 설정된 스테레오 파라미터를 압축하는 효율을 향상시키기 위해, 선택적으로, 인코더는 미리 설정된 스테레오 파라미터 차원 감소 규칙(stereo parameter dimension reduction rule)에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하고, X개의 목표 스테레오 파라미터를 인코딩한다. X는 0보다 크고 Z보다 작거나 같은 양의 정수이다.
구체적으로, N번째-프레임 스테레오 파라미터 집합은 3가지 유형의 스테레오 파라미터: IPD, ITD, 및 ILD를 포함한다. ILD는 10개의 서브 주파수 대역 내의 ILD: ILD(0), ..., 및 ILD(9)를 포함하고, ITD는 2개의 시간-도메인 서브대역 내의 ITD: ITD(0) 및 ITD(1)를 포함한다. 미리 설정된 스테레오 파라미터 차원 감소 규칙이 스테레오 파라미터 집합이 단지 2가지 유형의 스테레오 파라미터만을 포함하는 것으로 가정하면, 인코더는 IPD, ITD, 및 ILD 중에서 2가지 유형의 스테레오 파라미터만을 선택한다. IPD 및 ILD가 선택된 것으로 가정하면, 인코더는 IPD 및 ILD를 인코딩한다. 대안으로, 미리 설정된 스테레오 파라미터 차원 감소 규칙이 각 유형의 스테레오 파라미터 중 절반만이 예약되는 것이면, ILD(0), ..., 및 ILD(9) 중에서 5개의 ILD가 선택되고, ITD() 및 ITD(1) 중에서 하나의 ITD가 선택되고, 선택된 파라미터는 인코딩된다. 대안으로, 미리 설정된 스테레오 파라미터 차원 감소 규칙은 5개의 ILD 및 5개의 IPD가 선택되는 것이다. 대안으로, 미리 설정된 스테레오 파라미터 차원 감소 규칙이 ILD의 주파수-도메인 해상도(frequency-domain resolution), IPD의 주파수-도메인 해상도, ITD의 시간-도메인 해상도가 선택되는 것이며, ILD(0), ..., 및 ILD(9)의 인접 서브 주파수 대역 내의 ILD들이 결합된다. 예를 들어, ILD(0) 및 ILD(1)의 평균값은 새로운 ILD(0)를 얻기 위해 계산되고, ILD(2) 및 ILD(3)의 평균값은 새로운 ILD(1)를 얻기 위해 계산되고, ILD(8) 및 ILD(9)의 평균값은 새로운 ILD(4)를 얻기 위해 계산된다. 새로운 ILD(0)에 대응하는 서브 주파수 대역은 원본 ILD(0) 및 원본 ILD(1)에 대응하는 서브 주파수 대역과 같고, ..., 새로운 ILD(4)에 대응하는 서브 주파수 대역은 원본 ILD(8) 및 원본 ILD(9)에 대응하는 서브 주파수 대역과 같다. 동일한 방법에 따라, IPD(0), ..., 및 IPD(9)의 인접 서브 주파수 대역 내의 IPD를 결합하여 새로운 IPD(0), ..., 및 새로운 IPD(4)를 획득하고, ITD(0)와 ITD(1)의 평균값 역시 계산되고 결합되어 새로운 ITD(0)를 획득한다. 새로운 ITD(0)에 대응하는 시간-도메인 신호는 원본 ITD(0) 및 원본 ITD(1)에 대응하는 시간-도메인 신호와 같다. 새로운 ILD(0), ..., 및 새로운 ILD(4), 새로운 IPD(0), ..., 및 새로운 IPD(4), 및 새로운 ITD(0)는 인코딩된다. 대안으로, 미리 설정된 스테레오 파라미터 차원 감소 규칙이 ILD의 주파수-도메인 해상도가 감소되는 것이면, ILD(0), ..., 및 ILD(9)의 인접 서브 주파수 대역 내의 ILD들이 결합된다. 예를 들어, ILD(0)와 ILD(1)의 평균값을 계산하여 새로운 ILD(0)을 획득하고, ILD(2)와 ILD(3)의 평균값을 계산하여 새로운 ILD(1)을 획득하고, ..., 및 ILD(8)와 ILD(9)의 평균값을 계산하여 새로운 ILD(4)을 획득한다. 새로운 ILD(0)에 대응하는 서브 주파수 대역은 원본 ILD(0) 및 원본 ILD(1)에 대응하는 서브 주파수 대역과 같고, ..., 및 새로운 ILD(4)에 대응하는 서브 주파수 대역은 원본 ILD(8) 및 원본 ILD(9)에 대응하는 서브 주파수 대역과 같다. 그런 다음, 새로운 ILD(0), ..., 및 새로운 ILD(4)는 인코딩된다.
단계 208: 인코더는 미리 설정된 SID 인코딩 조건에 따라 N번째-프레임 다운믹싱 신호를 인코딩하지만 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 것을 건너뛰고, 단계 211을 수행한다.
단계 209: 인코더는 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하지만, N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰고, 단계 215를 수행한다.
단계 210: 인코더는 N번째-프레임 다운믹싱 신호도 인코딩하지 않고 N번째-프레임 스테레오 파라미터 집합도 인코딩하지 않으며, 단계 217을 수행한다.
본 발명의 실시예 2에서, 인코더는 비트스트림을 획득하기 위한 인코딩을 수행한다. 비트스트림은 4개의 서로 다른 유형의 프레임, 즉 제3 유형 프레임, 제4 유형 프레임, 제5 유형 프레임 및 제6 유형 프레임을 포함한다. 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만, 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하며, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않는다. 제5 유형 프레임 및 제6 유형 프레임 각각은 다운믹싱 신호를 포함하는 유형 프레임의 하나의 경우이고, 제3 유형 프레임 및 제4 유형 프레임 각각은 다운믹싱 신호를 포함하지 않는 유형 프레임의 하나의 경우이다.
구체적으로, 단계 203, 단계 205, 또는 단계 207에서 획득된 N번째-프레임 비트스트림은 제5 유형 프레임이고, 단계 208에서 획득된 N번째-프레임 비트스트림은 제6 유형 프레임이며, 단계 209에서 획득된 N번째-프레임 비트스트림은 제3 유형 프레임이며, 단계 211에서 획득된 N번째-프레임 비트스트림은 제4 유형 프레임이다.
단계 211: 인코더는 디코더에 N번째-프레임 비트스트림을 송신하며, 여기서 N번째-프레임 비트스트림은 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 포함한다.
단계 212: 디코더는 N번째-프레임 비트스트림을 수신하고, N번째-프레임 비트스트림이 제5 유형 프레임이면 N번째-프레임 비트스트림을 디코딩하여 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 획득하며, 단계 218을 수행한다.
디코더가 N번째-프레임 비트스트림이 어느 유형 프레임인지를 결정하는 특정한 실시에 대해서는 본 발명의 실시예 1을 참조한다.
구체적으로, 디코더는 N번째-프레임 비트스트림에 대응하는 레이트에 따라 N번째-프레임 비트스트림을 디코딩한다. 구체적으로, 인코더가 13.2 kbps에 따라 N번째-프레임 다운믹싱 신호를 인코딩하면, 디코더는 13.2 kbps에 따라 N번째-프레임 비트스트림 내의 N번째-프레임 다운믹싱 신호의 비트스트림을 디코딩한다. 인코더가 4.2 kbps에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하면, 디코더는 4.2 kbps에 따라 N번째-프레임 비트스트림 내의 N번째-프레임 스테레오 파라미터 집합의 비트스트림을 디코딩한다.
단계 213: 인코더는 디코더에 N번째-프레임 비트스트림을 송신하고, 여기서 N번째-프레임 비트스트림은 N번째-프레임 다운믹싱 신호를 포함한다.
단계 214: 디코더는 N번째-프레임 비트스트림이 제5 유형 프레임인 것으로 결정되면 N번째-프레임 비트스트림을 디코딩하여 N번째-프레임 다운믹싱 신호를 획득하고, 미리 설정된 제2 규칙에 따라, N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하여 미리 정해진 제6 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득한다.
구체적으로, N번째-프레임 스테레오 파라미터 집합 내의 스테레오 파라미터를 예를 사용하면, 미리 설정된 제2 규칙에 규정된 스테레오 파라미터 집합은
Figure pct00111
에 가장 가까우면서 디코딩에 의해 획득되는 스테레오 파라미터 집합의 프레임이고, N번째-프레임 스테레오 파라미터
Figure pct00112
는 다음의 알로기즘에 따라 획득되며:
Figure pct00113
,
여기서
Figure pct00114
는 N번째-프레임 스테레오 파라미터를 나타내고,
Figure pct00115
Figure pct00116
에 가장 가까우면서 디코딩에 의해 획득되는 스테레오 파라미터 집합의 프레임을 나타내고,
Figure pct00117
는 절댓값이 상대적으로 작은 난수를 나타낸다. 예를 들어,
Figure pct00118
Figure pct00119
Figure pct00120
사이의 난수일 수 있다.
본 발명의 이 실시예는 N번째-프레임 스테레오 파라미터 집합 내의 스테레오 파라미터를 추정하기 위한 방법에 대해 어떠한 제한도 두지 않는 것에 유의해야 한다.
단계 215: 인코더는 디코더에 N번째-프레임 비트스트림을 송신하며, 여기서 N번째-프레임 비트스트림은 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 포함한다.
단계 216: 디코더는 N번째-프레임 비트스트림이 제3 유형 프레임이면 N번째-프레임 비트스트림을 디코딩하여 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 획득하고, 미리 설정된 제1 규칙에 따라 N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 내의 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제2 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하며, 여기서 m은 0보다 큰 양의 정수이며, 단계 218을 수행한다.
구체적으로, (N-3)번째-프레임 다운믹싱 신호, (N-2)번째-프레임 다운믹싱 신호, 및 (N-1)번째-프레임 다운믹싱 신호의 평균값은 N번째-프레임 다운믹싱 신호로 사용되거나, 또는 (N-1)번째-프레임 다운믹싱 신호가 N번째-프레임 다운믹싱 신호로 직접 사용되거나, 또는 N번째-프레임 다운믹싱 신호는 다른 알고리즘에 따라 추정된다.
또한, (N-1)번째-프레임 다운믹싱 신호는 N번째-프레임 다운믹싱 신호로 직접 사용될 수 있거나, 또는 N번째-프레임 다운믹싱 신호는 미리 설정된 알고리즘에 따라 (N-1)번째-프레임 다운믹싱 신호 및 미리 설정된 오프셋 값에 따라 계산된다.
단계 217: N번째-프레임 비트스트림을 수신한 후, 디코더는 N번째-프레임 비트스트림이 제3 유형 프레임인 것으로 결정하고, 미리 설정된 제2 규칙에 따라, N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제6 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며; 그리고
미리 설정된 제1 규칙에 따라, N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 다운믹싱 신호 내의 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제2 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득한다.
단계 218: 디코더는 미리 정해진 제7 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 목표 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 2개 채널 상의 N번째-프레임 오디오 신호로 복원한다.
또한, 본 발명의 이 실시예에 기초해서, 인코더가 2개 채널 상의 N번째-프레임 오디오 신호를 사용함으로써 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하면, 스테레오 파라미터 집합을 인코딩하는 다른 방식이 추가로 제공된다. 구체적으로, 2개 채널 상의 N번째-프레임 오디오 신호 중 어느 하나가 음성 신호를 포함하면, 인코더는 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, N번째-프레임 스테레오 파라미터 집합을 인코딩한다.
인코더가 2개 채널 상의 N번째-프레임 오디오 신호 중 어느 것도 음성 신호를 포함하지 않는 것으로 결정할 때, N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하면, 인코더는 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하거나, 또는 N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않으면, 인코더는 제2 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하며, 그리고
N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정될 때 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정될 때 스테레오 파라미터 집합을 인코딩하는 것을 건너뛴다.
제1 스테레오 파라미터 집합 생성 방식 및 제2 스테레오 파라미터 집합 생성 방식은 다음의 조건:
제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 시간 도메인 해상도(time-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 시간 도메인 해상도보다 낮지 않은 조건, 또는 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 주파수 도메인 해상도(frequency-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 주파수 도메인 해상도보다 낮지 않은 조건 중 적어도 하나를 만족한다.
구체적으로, 제1 스테레오 파라미터 집합 생성 방식으로 획득된 스테레오 파라미터의 주파수-도메인 정확도 또는 시간-도메인 정확도는 제2 스테레오 파라미터 집합 생성 방식으로 획득된 스테레오 파라미터 집합의 주파수-도메인 정확도 또는 시간-도메인 정확도보다 높다.
또한, 본 발명의 실시예 3에서의 다중채널 오디오 신호 처리 방법에서, N번째-프레임 다운믹싱 신호가 음성 신호를 검출할 때, 인코더는 음성 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하거나; 또는 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때: N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하면, 인코더는 음성 신호 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하거나, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족하면, 인코더는 SID 인코딩 조건에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건도 만족하지 않고 SID 인코딩 조건도 만족하지 않으면, 인코더는 N번째-프레임 다운믹싱 신호도 인코딩하지 않고 N번째-프레임 스테레오 파라미터 집합도 인코딩하지 않는다.
본 발명의 실시예 3과 본 발명의 실시예 1 간의 차이점 및 본 발명의 실시예 3과 본 발명의 실시예 2 간의 차이점은: 인코더가 스테레오 파라미터 집합에 대한 결정을 수행하지 않고 다운믹싱 신호를 인코딩하는 데 어느 방식이 사용되는지에 관계없이 스테레오 파라미터 집합을 인코딩한다는 점이라는 것을 이해해야 한다.
본 발명의 실시예 3에서, 인코더가 다운믹싱 신호를 인코딩한 후에 획득된 비트스트림은 2가지 유형의 프레임: 제1 유형 프레임 및 제2 유형 프레임을 포함한다. 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합을 모두 포함하고, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합을 모두 포함하지 않는다. 구체적으로, 디코더가 비트스트림을 수신한 후 비트스트림을 2개 채널 상의 오디오 신호로 복원하기 위한 방법에 대해서는 본 발명의 실시예 2 및 본 발명의 실시예 1을 참조한다.
본 발명의 실시예 3에 기초해서, 선택적으로, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건 및 미리 설정된 SID 인코딩 조건을 모두를 만족하지 않을 때, 인코더는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하는지를 결정하고, N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하면, 인코더는 N번째-프레임 다운믹싱 신호를 인코딩하지 않지만 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않으면, 인코더는 N번째-프레임 다운믹싱 신호도 인코딩하지 않고 N번째-프레임 스테레오 파라미터 집합도 인코딩하지 않는다.
전술한 인코딩 방법에 기초해서 획득되는 비트스트림은 3가지 유형의 프레임: 제1 유형 프레임, 제3 유형 프레임 및 제4 유형 프레임을 포함한다. 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제3 유형 프레임은 다운믹싱 신호를 포함하지 않으나 스테레오 파라미터 집합을 포함하며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않는다. 구체적으로, 디코더가 비트스트림을 수신한 후 비트스트림을 2채널 상의 오디오 신호를 복원하기 위한 방법에 대해서는, 본 발명의 실시예 2 및 본 발명의 실시예 1을 참조한다.
전술한 기술적 솔루션 및 본 발명의 실시예 2 간의 차이점은: N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건도 만족하지 않고 미리 설정된 SID 인코딩 조건도 만족하지 않을 때, 인코더가 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하는지를 결정한다는 점이다.
선택적으로, 본 발명의 실시예 4의 다중채널 오디오 신호 처리 방법에서, N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것으로 검출될 때, 인코더는 음성 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고 N번째-프레임 스테레오 파라미터 집합을 인코딩하거나; 또는 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때: N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하면, 인코더는 음성 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하거나, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족하면, 인코더는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하는지를 결정하고, N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족할 때, 인코더는 SID 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하고 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않을 때, 인코더는 SID 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하지만 N번째-프레임 스테레오 파라미터 집합을 인코딩하지 않거나; 또는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않고 미리 설정된 SID 인코딩 조건도 만족하지 않을 때, 인코더는 N번째-프레임 다운믹싱 신호도 인코딩하지 않고 N번째-프레임 스테레오 파라미터 집합도 인코딩하지 않는다.
본 발명의 실시예 4의 인코딩 방식에 기초해서 획득되는 비트스트림은 3가지 유형의 프레임: 제5 유형 프레임, 제6 유형 프레임 및 제2 유형 프레임을 포함한다. 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합을 모두 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합을 모두 포함하지 않는다. 구체적으로, 디코더가 비트스트림을 수신한 후 비트스트림을 2개 채널 상의 오디오 신호로 복원하기 위한 방법에 대해서는 본 발명의 실시예 2 및 본 발명의 실시예 1을 참조한다.
본 발명의 실시예 4와 본 발명의 실시예 2 간의 차이점은: N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 SID 인코딩 조건을 만족할 때, 인코더가 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩할지를 결정하고, N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건도 만족하지 않고 미리 설정된 SID 인코딩 조건도 만족하지 않을 때, N번째-프레임 스테레오 파라미터 집합을 인코딩하는 것을 건너뛴다는 점이다.
본 발명의 실시예 3 및 본 발명의 실시예 4에서, 구체적으로, 디코더에 의해 설정된 N번째-프레임 다운믹싱 신호 및 N번째-프레임 스테레오 파라미터 집합을 획득하는 방법에 대해서는 본 발명의 실시예 2 및 본 발명의 실시예 1을 참조하고, 스테레오 파라미터 및 다운믹싱 신호를 인코딩하는 특정한 실시에 대해서는 본 발명의 실시예 2 및 본 발명의 실시예 1을 참조한다.
본 발명의 임의의 실시예에서, 미리 정해진 제1 알고리즘 및 미리 정해진 제2 알고리즘에서 제1 및 제2는 특별한 의미가 있는 것이 아니라 단지 서로 다른 알고리즘을 구별하기 위해 사용될 뿐이며, 제3, 제4, 제5, 제6, 제7 등도 이와 유사하며 이에 대해서는 여기서 설명하지 않는다.
동일한 발명 개념에 기초해서, 본 발명의 실시예는 인코더, 디코더 및 인코딩 및 디코딩 시스템을 추가로 제공한다. 본 발명의 실시예에서의 인코더, 디코더 및 인코딩 및 디코딩 시스템에 대응하는 방법들이 본 발명의 실시예에서의 다중채널 오디오 신호 처리 방법이므로, 본 발명의 실시예에서의 인코더, 디코더 및 인코딩 및 디코딩 시스템의 실시에 대해서는 방법의 실시를 참조하며, 이에 대해서는 여기서 반복 설명하지 않는다.
도 3a에 도시된 바와 같이, 본 발명의 실시예에서의 인코더는 신호 검출 유닛(300) 및 신호 인코딩 유닛(310)을 포함한다. 신호 검출 유닛(300)은 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하도록 구성되어 있다. N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초하여 복수의 채널 중 2개 채널 상의 N번째-프레임 오디오 신호가 혼합된 후에 획득되고 N은 0보다 큰 양의 정수이다. 신호 인코딩 유닛(310)은 신호 검출 유닛(300)이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하도록 구성되어 있거나, 또는 신호 검출 유닛(300)이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않은 것을 검출할 때, 신호 검출 유닛(300)이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하거나, 또는 신호 검출 유닛(300)이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰도록 구성되어 있다.
선택적으로, 도 3b에 도시된 바와 같이, 신호 인코딩 유닛(310)은 제1 신호 인코딩 유닛(311) 및 제2 신호 인코딩 유닛(312)을 포함한다. 신호 검출 유닛(300)이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하도록 제1 신호 인코딩 유닛(311)에 명령한다.
N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정되면, 신호 검출 유닛(300)은 N번째-프레임 다운믹싱 신호를 인코딩하도록 제1 신호 인코딩 유닛(311)에 명령한다.
구체적으로, 제1 신호 인코딩 유닛(311)이 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하는 것은 규정되어 있다.
N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 무음 삽입 디스크립터(silence insertion descriptor, SID) 인코딩 조건을 만족하는 것으로 결정하면, 신호 검출 유닛(300)은 N번째-프레임 다운믹싱 신호를 인코딩하도록 제2 신호 인코딩 유닛(312)에 명령한다. 구체적으로, 제2 신호 인코딩 유닛(312)은 미리 설정된 SID 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하는 것이 규정되어 있다. SID 인코딩 레이트는 음성 프레임 인코딩 레이트보다 크지 않다.
선택적으로, 도 3a 및 도 3b에 도시된 바와 같이, 인코더는 파라미터 생성 유닛(320), 파라미터 인코딩 유닛(330) 및 파라미터 검출 유닛(340)을 더 포함한다. 파라미터 생성 유닛(320)은 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 구성되어 있다. N번째-프레임 스테레오 파라미터 집합은 Z개의 스테레오 파라미터를 포함하고, Z개의 스테레오 파라미터는 인코더가 미리 설정된 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 때 사용되는 파라미터를 포함하며, Z는 0보다 큰 양의 정수이다. 파라미터 인코딩 유닛(330)은 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때, N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있거나, 또는 신호 검출 유닛(300)이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때, 파라미터 검출 유닛(300)이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정하면 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 파라미터 검출 유닛(300)이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정하면 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰도록 구성되어 있다.
선택적으로, 파라미터 인코딩 유닛(330)은: 미리 설정된 스테레오 파라미터 차원 감소 규칙에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하고, X개의 목표 스테레오 파라미터를 인코딩하도록 구성되어 있다. X는 0보다 크고 Z보다 작거나 같은 양의 정수이다.
구체적으로, 파라미터 인코딩 유닛(330)이 제1 파라미터 인코딩 유닛(331) 및 제2 파라미터 인코딩 유닛(332)을 포함할 때, 제2 파라미터 인코딩 유닛(332)은: 미리 설정된 스테레오 파라미터 차원 감소 규칙에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하고, X개의 목표 스테레오 파라미터를 인코딩하도록 구성되어 있다.
선택적으로, 도 3a 및 도 3b에 기초해서, 도 3c에 도시된 바와 같이, 인코더의 파라미터 생성 유닛(320)은 제1 파라미터 생성 유닛(321) 및 제2 파라미터 생성 유닛(322)을 포함한다. 신호 검출 유닛(300)이 N번째-프레임 오디오 신호가 음성 신호를 포함하는 것을 검출할 때, 또는 신호 검출 유닛(300)이 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출하고 N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정할 때, 신호 검출 유닛(300)은 N번째-프레임 스테레오 파라미터 집합을 획득하도록 제1 파라미터 생성 유닛(321)에 명령한다. 신호 검출 유닛(300)이 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출하고 N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않는 것으로 결정할 때, 신호 검출 유닛(300)은, N번째-프레임 스테레오 파라미터 집합을 획득하도록 제2 파라미터 생성 유닛(322)에 명령한다. 구체적으로, 제1 파라미터 생성 유닛(321)이 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, 제2 파라미터 생성 유닛(322)이 제2 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 것은 규정되어 있다.
제1 스테레오 파라미터 집합 생성 방식 및 제2 스테레오 파라미터 집합 생성 방식은 다음의 조건:
제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 시간 도메인 해상도(time-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 시간 도메인 해상도보다 낮지 않은 조건, 또는 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 주파수 도메인 해상도(frequency-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 주파수 도메인 해상도보다 낮지 않은 조건 중 적어도 하나를 만족한다.
제2 파라미터 생성 유닛(322)이 N번째-프레임 스테레오 파라미터 집합을 획득한 후, 파라미터 인코딩 유닛(330)은 N번째-프레임 스테레오 파라미터 집합을 인코딩한다. 구체적으로, 도 3d에 도시된 바와 같이, 파라미터 인코딩 유닛(330)은 제1 파라미터 인코딩 유닛(331) 및 제2 파라미터 인코딩 유닛(332)을 포함하며, 제1 파라미터 인코딩 유닛(331)은 제1 파라미터 생성 유닛(321)에 의해 생성된 N번째-프레임 스테레오 파라미터 집합을 인코딩하고, 제2 파라미터 인코딩 유닛(332)은 제2 파라미터 생성 유닛(322)에 의해 생성된 N번째-프레임 스테레오 파라미터 집합을 인코딩한다. 제1 파라미터 인코딩 유닛(331)의 인코딩 방식은 제1 인코딩 방식이라는 것은 규정되어 있고, 제2 파라미터 인코딩 유닛(332)의 인코딩 방식은 제2 인코딩 방식이라는 것은 규정되어 있다. 제1 파라미터 인코딩 유닛에 의해 규정된 인코딩 방식은 제1 인코딩 방식이고, 제2 파라미터 인코딩 유닛에 의해 규정된 인코딩 방식은 제2 인코딩 방식이다. 구체적으로, 제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않고; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다.
파라미터 검출 유닛(340)은 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정할 때 스테레오 파라미터 집합은 인코딩되지 않는다.
선택적으로, 파라미터 인코딩 유닛(330)은 제1 파라미터 인코딩 유닛(331) 및 제2 파라미터 인코딩 유닛(331)을 포함한다. 구체적으로, 제1 파라미터 인코딩 유닛(331)은 N번째-프레임 다운믹싱 신호가 음성 신호를 포함할 때 그리고 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않지만 음성 프레임 인코딩 조건을 만족할 때 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있다. 제2 파라미터 인코딩 유닛(331)은 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족하지 않을 때 제2 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하도록 구성되어 있다.
제1 인코딩 방식에서 규정된 인코딩 레이트는 제2 인코딩 방식에서 규정된 인코딩 레이트보다 낮지 않으며; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않다.
선택적으로, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 레벨 차이(inter-channel level difference, ILD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
Figure pct00121
을 포함하고, 여기서
Figure pct00122
은 ILD가 제1 기준으로부터 벗어나는 정도를 나타내고, 제1 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제2 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이다.
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 시간 차이(inter-channel time difference, ITD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
Figure pct00123
을 포함하고, 여기서
Figure pct00124
는 ITD가 제2 기준으로부터 벗어나는 정도를 나타내고, 제2 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제3 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이다.
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 위상 차이(inter-channel phase difference, IPD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
Figure pct00125
을 포함하고, 여기서
Figure pct00126
는 IPD가 제3 기준으로부터 벗어나는 정도를 나타내고, 제3 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제4 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이다.
선택적으로,
Figure pct00127
,
Figure pct00128
, 및
Figure pct00129
는 각각 다음의 표현:
Figure pct00130
,
Figure pct00131
, 및
Figure pct00132
을 만족하며, 여기서
Figure pct00133
은 N번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, M은 N번째-프레임 오디오 신호를 전송하는 데 점유되는 서브 주파수 대역의 총 수량이고,
Figure pct00134
는 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ILD의 평균값이고, T는 0보다 큰 양의 정수이고,
Figure pct00135
은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, ITD는 N번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
Figure pct00136
는 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ITD의 평균값이고,
Figure pct00137
는 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
Figure pct00138
은 N번째-프레임 오디오 신호의 일부가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이고,
Figure pct00139
은 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 IPD의 평균값이며,
Figure pct00140
은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이다.
도 3a 내지 도 3d에서의 파라미터 검출 유닛(340)은 선택 사항이라는 것에 유의해야 한다. 즉, 인코더는 파라미터 검출 유닛(340)을 포함할 수도 있고 파라미터 검출 유닛(340)을 포함하지 않을 수도 있다.
파라미터 인코딩 유닛(330)이 파라미터 생성 유닛(320)의 스테레오 파라미터 집합의 각 프레임을 인코딩할 때, 스테레오 파라미터는 검출될 필요는 없지만 직접적으로 인코딩된다.
도 4에 도시된 바와 같이, 본 발명의 실시예의 디코더는 수신 유닛(400) 및 디코딩 유닛(410)을 포함한다. 수신 유닛(410)은 비트스트림을 수신하도록 구성되어 있다. 비트스트림은 적어도 2개의 프레임을 포함하고, 적어도 2개의 프레임은 적어도 하나의 제1 유형 프레임 및 적어도 하나의 제2 유형 프레임을 포함하고, 적어도 하나의 제1 유형 프레임은 다운믹싱 신호를 포함하고, 적어도 하나의 제2 유형 프레임은 다운믹싱 신호를 포함하지 않는다.
N번째-프레임 비트스트림에서, N은 1보다 큰 양의 정수이며, 디코딩 유닛(410)은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 다운믹싱 신호를 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 미리 설정된 제1 규칙에 따라 N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 중에서 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제1 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하도록 구성되어 있다. m은 0보다 큰 양의 정수이다.
N번째-프레임 다운믹싱 신호는 미리 정해진 제2 알고리즘에 기초해서 다중 채널 중 2개의 채널 상에서 N번째-프레임 오디오 신호를 혼합함으로써 인코더에 의해 획득된다.
선택적으로, 도 4에 도시된 바와 같이, 디코더는 신호 복원 회로(420)를 더 포함한다. 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않는다
상기 디코딩 유닛은, N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 상기 디코딩 유닛은, N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩한다. N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용된다.
신호 복원 유닛(420)은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.
선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않는다.
디코딩 유닛(410)은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있다. k는 0보다 큰 양의 정수이다.
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용된다.
신호 복원 유닛(420)은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.
선택적으로, 제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이다.
디코딩 유닛(410)은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있다. k는 0보다 큰 양의 정수이다.
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용된다.
신호 복원 유닛(420)은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.
선택적으로, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않는다.
디코딩 유닛(410)은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나; 또는 N번째-프레임 비트스트림이 제6 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있다.
디코딩 유닛(410)은: N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있다.
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수이다.
신호 복원 유닛(420)은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.
선택적으로, 제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이다.
디코딩 유닛(410)은: N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제6 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있다.
디코딩 유닛(410)은: N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있다.
N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수이다.
신호 복원 유닛(420)은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있다.
도 5에 도시된 바와 같이, 본 발명의 실시예는 인코딩 및 디코딩 시스템을 제공하며, 인코딩 및 디코딩 시스템은 도 3a 및 도 3b에 도시된 임의의 인코더(500) 및 도 4에 도시된 디코더(510)를 포함한다.
당업자라면 본 발명의 실시예가 방법, 시스템, 또는 컴퓨터 프로그램 제품으로 제공될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 본 발명은 하드웨어 전용 실시예, 소프트웨어 전용 실시예, 또는 소프트웨어와 하드웨어가 결합된 실시예의 형태를 사용할 수 있다. 또한, 본 발명은 컴퓨터-이용 가능한 프로그램 코드를 포함하는 하나 이상의 컴퓨터-이용 가능한 저장 매체(디스크 메모리, CD-ROM, 광학 메모리 등을 포함하되 이에 제한되지 않는다) 상에서 실행되는 컴퓨터 프로그램 제품의 형태를 사용할 수 있다.
본 발명은 본 발명의 실시예에 따라 방법, 장치(시스템), 및 컴퓨터 프로그램 제품의 흐름도/블록도를 참조하여 설명하였다. 컴퓨터 프로그램 명령은 흐름도 및/또는 블록도 내의 각각의 프로세스 및/또는 각각의 블록 및 흐름도 및/또는 블록도 내의 프로세스 및/또는 블록의 조합을 실행하는 데 사용될 수 있다는 것을 이해해야 한다. 이러한 컴퓨터 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터, 임베디드 프로세서, 또는 임의의 다른 프로그래머블 데이터 처리 장치에 머신을 생성하도록 제공될 수 있으며, 이에 따라 컴퓨터 또는 임의의 다른 프로그래머블 데이터 처리 장치에 의해 실행되는 명령은 흐름도 내의 하나 이상의 프로세스 및/또는 블록도 내의 하나 이상의 블록에서의 특정한 기능을 실행하기 위한 장치를 생성한다.
이러한 컴퓨터 프로그램 명령은 컴퓨터 또는 임의의 다른 프로그래머블 데이터 처리 장치에 특정한 방식을 작동하도록 명령할 수 있는 컴퓨터 판독 가능형 메모리에 저장될 수 있으며, 이에 따라 컴퓨터 판독 가능형 메모리에 저장된 명령은 명령 장치를 포함하는 인공물을 생성한다. 명령 장치는 흐름도 내의 하나 이상의 프로세스 및/또는 블록도 내의 하나 이상의 블록도에서의 특정한 기능을 실행한다.
이러한 컴퓨터 프로그램 명령은 컴퓨터 또는 다른 프로그래머블 데이터 처리 장치에 로딩되어, 일련의 동작 및 단계가 컴퓨터 또는 다른 프로그래머블 장치 상에서 수행되며, 이에 의해 컴퓨터-실행 프로세싱이 생성된다. 그러므로 컴퓨터 또는 다른 프로그래머블 장치 상에서 실행되는 명령은 흐름도 내의 하나 이상의 프로세스 및/또는 블록도 내의 하나 이상의 블록에서의 특정한 기능을 실행하기 위한 단계를 제공한다.
본 발명의 일부의 바람직한 실시예에 대해 설명하였으나, 당업자는 기본적인 발명의 개념을 알고 있는 한 이러한 실시예에 대한 변형 및 수정을 수행할 수 있다. 그러므로 이하의 청구범위는 바람직한 실시예 및 본 발명의 범위 내에 있는 모든 변형 및 수정을 망라하는 것으로 이해되어야 한다.
당연히, 당업자는 본 발명의 정신 및 범주를 벗어남이 없이 본 발명에 대한 변형 및 수정을 수행할 수 있다. 그러므로 본 발명은 이러한 변형 및 수정이 이하의 청구범위 및 그 등가의 기술에 의해 정해지는 보호 범위 내에 있는 한 이러한 변형 및 수정을 망라하도록 의도된다.

Claims (29)

  1. 다중채널 오디오 신호 처리 방법으로서,
    인코더가 N번째-프레임 다운믹싱 신호(downmixed signal)가 음성 신호를 포함하는지를 검출하는 단계 - N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초하여 복수의 채널 중 2개 채널 상의 N번째-프레임 오디오 신호가 혼합된 후에 획득되고 N은 0보다 큰 양의 정수임 - ; 및
    상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하는 단계
    를 포함하거나, 또는
    상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않은 것을 검출할 때,
    상기 인코더가 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정되면 N번째-프레임 다운믹싱 신호를 인코딩하는 단계, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정되면 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰는 단계
    를 포함하는 다중채널 오디오 신호 처리 방법.
  2. 제1항에 있어서,
    상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하는 단계는,
    상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하는 단계
    를 포함하거나, 또는
    상기 인코더가 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정되면 N번째-프레임 다운믹싱 신호를 인코딩하는 단계는,
    상기 인코더가 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정되면 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하는 단계; 또는
    상기 인코더가 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 무음 삽입 디스크립터(silence insertion descriptor, SID) 인코딩 조건을 만족하는 것으로 결정되면 미리 설정된 SID 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하는 단계 - SID 인코딩 레이트는 음성 프레임 인코딩 레이트보다 크지 않음 -
    를 포함하는, 다중채널 오디오 신호 처리 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 다중채널 오디오 신호 처리 방법이,
    상기 인코더가 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계 - N번째-프레임 스테레오 파라미터 집합은 Z개의 스테레오 파라미터를 포함하고, Z개의 스테레오 파라미터는 인코더가 미리 설정된 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 때 사용되는 파라미터를 포함하며, Z는 0보다 큰 양의 정수임 - ; 및
    상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 스테레오 파라미터 집합을 인코딩하는 단계
    를 더 포함하거나, 또는
    상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때,
    상기 인코더가 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계, 또는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정되면, 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰는 단계
    를 더 포함하는 다중채널 오디오 신호 처리 방법.
  4. 제3항에 있어서,
    상기 인코더가 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계는,
    상기 인코더가 미리 설정된 스테레오 파라미터 차원 감소 규칙(stereo parameter dimension reduction rule)에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하는 단계 - X는 0보다 크고 Z보다 작거나 같은 양의 정수임 - ; 및
    상기 인코더가 X개의 목표 스테레오 파라미터를 인코딩하는 단계
    를 포함하는, 다중채널 오디오 신호 처리 방법.
  5. 제2항에 있어서,
    상기 인코더가 N번째-프레임 오디오 신호가 음성 신호를 포함하는 것을 검출할 때,
    상기 인코더가 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하는 단계, 또는
    상기 인코더가 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출할 때,
    N번째-프레임 오디오 신호가 미리 설정된 프레임 인코딩 조건을 만족하면, 상기 인코더가 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하고, N번째-프레임 스테레오 파라미터 집합을 인코딩하는 단계, 또는
    N번째-프레임 오디오 신호가 미리 설정된 프레임 인코딩 조건을 만족하지 않으면, 상기 인코더가 제2 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계; 및
    N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정될 때 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계, 또는 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정될 때 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰는 단계
    를 더 포함하며,
    제1 스테레오 파라미터 집합 생성 방식 및 제2 스테레오 파라미터 집합 생성 방식은 다음의 조건:
    제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 시간 도메인 해상도(time-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 시간 도메인 해상도보다 낮지 않은 조건, 또는 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 주파수 도메인 해상도(frequency-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 주파수 도메인 해상도보다 낮지 않은 조건 중 적어도 하나를 만족하는, 다중채널 오디오 신호 처리 방법.
  6. 제3항 내지 제5항 중 어느 한 항에 있어서,
    상기 인코더가 N번째-프레임 스테레오 파라미터 집합을 인코딩하는 단계는,
    상기 인코더가 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하는 단계
    를 포함하며,
    상기 인코더가 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계는,
    상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족할 때 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계; 또는
    상기 인코더가 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족하지 않을 때 제2 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하는 단계
    를 포함하며,
    제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않고; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도(quantization precision)는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않은, 다중채널 오디오 신호 처리 방법.
  7. 제3항 내지 제6항 중 어느 한 항에 있어서,
    N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 레벨 차이(inter-channel level difference, ILD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
    Figure pct00141

    을 포함하고, 여기서
    Figure pct00142
    은 ILD가 제1 기준으로부터 벗어나는 정도를 나타내고, 제1 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제2 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나,
    N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 시간 차이(inter-channel time difference, ITD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
    Figure pct00143

    을 포함하고, 여기서
    Figure pct00144
    는 ITD가 제2 기준으로부터 벗어나는 정도를 나타내고, 제2 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제3 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나, 또는
    N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 위상 차이(inter-channel phase difference, IPD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
    Figure pct00145

    을 포함하고, 여기서
    Figure pct00146
    는 IPD가 제3 기준으로부터 벗어나는 정도를 나타내고, 제3 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제4 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수인, 다중채널 오디오 신호 처리 방법.
  8. 제7항에 있어서,
    Figure pct00147
    ,
    Figure pct00148
    , 및
    Figure pct00149
    는 각각 다음의 표현:
    Figure pct00150
    ,
    Figure pct00151
    , 및
    Figure pct00152

    을 만족하며, 여기서
    Figure pct00153
    은 N번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, M은 N번째-프레임 오디오 신호를 전송하는 데 점유되는 서브 주파수 대역의 총 수량이고,
    Figure pct00154
    는 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ILD의 평균값이고, T는 0보다 큰 양의 정수이고,
    Figure pct00155
    은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, ITD는 N번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
    Figure pct00156
    는 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ITD의 평균값이고,
    Figure pct00157
    는 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
    Figure pct00158
    은 N번째-프레임 오디오 신호의 일부가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이고,
    Figure pct00159
    은 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 IPD의 평균값이며,
    Figure pct00160
    은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이인, 다중채널 오디오 신호 처리 방법.
  9. 다중채널 오디오 신호 처리 방법으로서,
    디코더가 비트스트림을 수신하는 단계 - 비트스트림은 적어도 2개의 프레임을 포함하고, 적어도 2개의 프레임은 적어도 하나의 제1 유형 프레임 및 적어도 하나의 제2 유형 프레임을 포함하고, 적어도 하나의 제1 유형 프레임은 다운믹싱 신호를 포함하고, 적어도 하나의 제2 유형 프레임은 다운믹싱 신호를 포함하지 않음 - ; 및
    N번째-프레임 비트스트림에서, N은 1보다 큰 양의 정수이며, 상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 다운믹싱 신호를 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 상기 디코더가 미리 설정된 제1 규칙에 따라 N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 중에서 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제1 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하는 단계
    를 포함하며,
    m은 0보다 큰 양의 정수이고, N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초해서 다중 채널 중 2개의 채널 상에서 N번째-프레임 오디오 신호를 혼합함으로써 인코더에 의해 획득되는, 다중채널 오디오 신호 처리 방법.
  10. 제9항에 있어서,
    제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며,
    상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 비트스트림을 디코딩하는 단계 이후에, 다중채널 오디오 신호 처리 방법은,
    상기 디코더가 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계
    를 더 포함하거나, 또는
    상기 디코더가 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법은,
    상기 디코더가 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계 - N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용됨 - ; 및
    상기 디코더가 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 단계
    를 더 포함하는 다중채널 오디오 신호 처리 방법.
  11. 제9항에 있어서,
    제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,
    상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 비트스트림을 디코딩하는 단계 이후에, 다중채널 오디오 신호 처리 방법은,
    상기 디코더가 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계
    를 더 포함하거나, 또는
    상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법은,
    상기 디코더가 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계 - k는 0보다 큰 양의 정수이고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용됨 - ; 및
    상기 디코더가 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 단계
    를 더 포함하는 다중채널 오디오 신호 처리 방법.
  12. 제9항에 있어서,
    제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,
    상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 비트스트림을 디코딩하는 단계 이후에, 다중채널 오디오 신호 처리 방법은,
    상기 디코더가 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계
    를 더 포함하거나, 또는
    상기 디코더가 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법은,
    상기 디코더가 N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계; 또는
    N번째-프레임 비트스트림이 제4 유형 프레임일 때, 상기 디코더가 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계 - k는 0보다 큰 양의 정수이고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용됨 - ; 및
    상기 디코더가 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 단계
    를 더 포함하는 다중채널 오디오 신호 처리 방법.
  13. 제9항에 있어서,
    제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,
    상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법이,
    상기 디코더가 N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계; 또는
    N번째-프레임 비트스트림이 제6 유형 프레임일 때, 상기 디코더가 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계
    를 더 포함하거나, 또는
    상기 디코더가 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법이,
    상기 디코더가 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계 - N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수임 - ; 및
    상기 디코더가 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 단계
    를 더 포함하는 다중채널 오디오 신호 처리 방법.
  14. 제9항에 있어서,
    제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,
    상기 디코더가 N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법이,
    상기 디코더가 N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계; 또는
    N번째-프레임 비트스트림이 제6 유형 프레임일 때, 상기 디코더가 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계
    를 더 포함하거나, 또는
    상기 디코더가 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정한 후, 상기 다중채널 오디오 신호 처리 방법이,
    상기 디코더가 N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하는 단계; 또는
    N번째-프레임 비트스트림이 제4 유형 프레임일 때, 상기 디코더가 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하는 단계 - N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수임 - ; 및
    상기 디코더가 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 단계
    를 더 포함하는 다중채널 오디오 신호 처리 방법.
  15. 인코더로서,
    N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는지를 검출하도록 구성되어 있는 신호 검출 유닛 - N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초하여 복수의 채널 중 2개 채널 상의 N번째-프레임 오디오 신호가 혼합된 후에 획득되고 N은 0보다 큰 양의 정수임 - ; 및
    상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 N번째-프레임 다운믹싱 신호를 인코딩하도록 구성되어 있는 신호 인코딩 유닛
    을 포함하며,
    상기 신호 인코딩 유닛은,
    상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않은 것을 검출할 때, 상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하거나, 또는 N번째-프레임 다운믹싱 신호가 미리 설정된 오디오 프레임 인코딩 조건을 만족하지 않는 것으로 결정하면 N번째-프레임 다운믹싱 신호를 인코딩하는 것을 건너뛰도록 추가로 구성되어 있는, 인코더.
  16. 제15항에 있어서,
    상기 신호 인코딩 유닛은 제1 신호 인코딩 유닛 및 제2 신호 인코딩 유닛을 포함하며,
    상기 제1 신호 인코딩 유닛은 구체적으로,
    상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하거나, 또는
    상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정하면 미리 설정된 음성 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하도록 구성되어 있으며,
    상기 제2 신호 인코딩 유닛은 구체적으로,
    상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않지만 미리 설정된 무음 삽입 디스크립터(silence insertion descriptor, SID) 인코딩 조건을 만족하는 것으로 결정하면 미리 설정된 SID 프레임 인코딩 레이트에 따라 N번째-프레임 다운믹싱 신호를 인코딩하도록 구성되어 있으며,
    여기서 SID 인코딩 레이트는 음성 프레임 인코딩 레이트보다 크지 않은, 를 포함하는, 인코더.
  17. 제15항 또는 제16항에 있어서,
    파라미터 생성 유닛, 파라미터 인코딩 유닛 및 파라미터 검출 유닛을 더 포함하며,
    상기 파라미터 생성 유닛은 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 구성되어 있으며, N번째-프레임 스테레오 파라미터 집합은 Z개의 스테레오 파라미터를 포함하고, Z개의 스테레오 파라미터는 인코더가 미리 설정된 제1 알고리즘에 기초해서 N번째-프레임 오디오 신호를 혼합할 때 사용되는 파라미터를 포함하며, Z는 0보다 큰 양의 정수이며,
    상기 파라미터 인코딩 유닛은, 상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하는 것을 검출할 때, N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있거나, 또는
    상기 파라미터 인코딩 유닛은, 상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하지 않는 것을 검출할 때, 상기 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정하면 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 상기 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정하면 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰도록 구성되어 있는, 인코더.
  18. 제17항에 있어서,
    N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩할 때,
    상기 파라미터 인코딩 유닛은 구체적으로 미리 설정된 스테레오 파라미터 차원 감소 규칙에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 Z개의 스테레오 파라미터에 따라 X개의 목표 스테레오 파라미터를 획득하고, X개의 목표 스테레오 파라미터를 인코딩하도록 구성되어 있으며,
    여기서 X는 0보다 크고 Z보다 작거나 같은 양의 정수인, 인코더.
  19. 제16항에 있어서,
    상기 파라미터 생성 유닛은 제1 파라미터 생성 유닛 및 제2 파라미터 생성 유닛을 포함하며,
    상기 제1 파라미터 생성 유닛은, 상기 신호 검출 유닛이 N번째-프레임 오디오 신호가 음성 신호를 포함하는 것을 검출할 때, 또는 상기 신호 검출 유닛이 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출하고 N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하는 것으로 결정할 때, 제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 구성되어 있고, 상기 파라미터 인코딩 유닛은 N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있으며,
    상기 제2 파라미터 생성 유닛은, 상기 신호 검출 유닛이 N번째-프레임 오디오 신호가 음성 신호를 포함하지 않는 것을 검출하고 N번째-프레임 오디오 신호가 미리 설정된 음성 프레임 인코딩 조건을 만족하지 않는 것으로 결정할 때,
    제1 스테레오 파라미터 집합 생성 방식에 기초해서 N번째-프레임 오디오 신호에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 구성되어 있으며,
    상기 파라미터 검출 유닛은, 상기 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하는 것으로 결정할 때 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하거나, 또는 상기 파라미터 검출 유닛이 N번째-프레임 스테레오 파라미터 집합이 미리 설정된 스테레오 파라미터 인코딩 조건을 만족하지 않는 것으로 결정할 때 스테레오 파라미터 집합을 인코딩하는 것을 건너뛰도록 구성되어 있으며,
    제1 스테레오 파라미터 집합 생성 방식 및 제2 스테레오 파라미터 집합 생성 방식은 다음의 조건:
    제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 유형의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량은 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 수량보다 작지 않은 조건, 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 시간 도메인 해상도(time-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 시간 도메인 해상도보다 낮지 않은 조건, 또는 제1 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터의 주파수 도메인 해상도(frequency-domain resolution)는 제2 스테레오 파라미터 집합 생성 방식에서 규정되는, 스테레오 파라미터 집합에 포함된 스테레오 파라미터의 주파수 도메인 해상도보다 낮지 않은 조건 중 적어도 하나를 만족하는, 인코더.
  20. 제17항 내지 제19항 중 어느 한 항에 있어서,
    상기 파라미터 인코딩 유닛은 제1 파라미터 인코딩 유닛 및 제2 파라미터 인코딩 유닛을 포함하며,
    상기 제1 파라미터 인코딩 유닛은, 상기 신호 검출 유닛이 N번째-프레임 다운믹싱 신호가 음성 신호를 포함하고 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족하는 것으로 검출할 때, 제1 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합을 인코딩하도록 구성되어 있으며,
    상기 제2 파라미터 인코딩 유닛은 구체적으로 N번째-프레임 다운믹싱 신호가 음성 프레임 인코딩 조건을 만족하지 않을 때 제2 인코딩 방식에 따라 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터를 인코딩하도록 구성되어 있으며,
    제1 인코딩 방식에 규정된 인코딩 레이트는 제2 인코딩 방식에 규정된 인코딩 레이트보다 낮지 않고; 및/또는 N번째-프레임 스테레오 파라미터 집합 내의 임의의 스테레오 파라미터에 있어서, 제1 인코딩 방식에 규정된 양자화 정확도는 제2 인코딩 방식에 규정된 양자화 정확도보다 낮지 않은, 인코더.
  21. 제17항 내지 제20항 중 어느 한 항에 있어서,
    N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 레벨 차이(inter-channel level difference, ILD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
    Figure pct00161

    을 포함하고, 여기서
    Figure pct00162
    은 ILD가 제1 기준으로부터 벗어나는 정도를 나타내고, 제1 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제2 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나,
    N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 시간 차이(inter-channel time difference, ITD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
    Figure pct00163

    을 포함하고, 여기서
    Figure pct00164
    는 ITD가 제2 기준으로부터 벗어나는 정도를 나타내고, 제2 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제3 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수이거나, 또는
    N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터가 인터 채널 위상 차이(inter-channel phase difference, IPD)를 포함하면, 미리 설정된 스테레오 파라미터 인코딩 조건은,
    Figure pct00165

    을 포함하고, 여기서
    Figure pct00166
    는 IPD가 제3 기준으로부터 벗어나는 정도를 나타내고, 제3 기준은 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합에 따라 미리 정해진 제4 알고리즘에 기초해서 결정되며, T는 0보다 큰 양의 정수인, 인코더.
  22. 제21항에 있어서,
    Figure pct00167
    ,
    Figure pct00168
    , 및
    Figure pct00169
    는 각각 다음의 표현:
    Figure pct00170
    ,
    Figure pct00171
    , 및
    Figure pct00172

    을 만족하며, 여기서
    Figure pct00173
    은 N번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, M은 N번째-프레임 오디오 신호를 전송하는 데 점유되는 서브 주파수 대역의 총 수량이고,
    Figure pct00174
    는 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ILD의 평균값이고, T는 0보다 큰 양의 정수이고,
    Figure pct00175
    은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 레벨 차이이고, ITD는 N번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
    Figure pct00176
    는 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 ITD의 평균값이고,
    Figure pct00177
    는 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 2개의 채널 상에서 각각 전송될 때 생성되는 시간 차이이고,
    Figure pct00178
    은 N번째-프레임 오디오 신호의 일부가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이이고,
    Figure pct00179
    은 m번째 서브 주파수 대역 내의 N번째-프레임 스테레오 파라미터 집합에 선행하는 T-프레임 스테레오 파라미터 집합 내의 IPD의 평균값이며,
    Figure pct00180
    은 N번째-프레임 오디오 신호에 선행하는 t번째-프레임 오디오 신호가 m번째 서브 주파수 대역 내의 2개의 채널 상에서 각각 전송될 때 생성되는 위상 차이인, 인코더.
  23. 디코더로서,
    비트스트림을 수신하도록 구성되어 있는 수신 유닛 - 비트스트림은 적어도 2개의 프레임을 포함하고, 적어도 2개의 프레임은 적어도 하나의 제1 유형 프레임 및 적어도 하나의 제2 유형 프레임을 포함하고, 적어도 하나의 제1 유형 프레임은 다운믹싱 신호를 포함하고, 적어도 하나의 제2 유형 프레임은 다운믹싱 신호를 포함하지 않음 - ; 및
    N번째-프레임 비트스트림에서, N은 1보다 큰 양의 정수이며, N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 다운믹싱 신호를 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 미리 설정된 제1 규칙에 따라 N번째-프레임 다운믹싱 신호에 선행하는 적어도 하나의 프레임 다운믹싱 신호 중에서 m-프레임 다운믹싱 신호를 결정하고, 미리 정해진 제1 알고리즘에 기초해서 m-프레임 다운믹싱 신호에 따라 N번째-프레임 다운믹싱 신호를 획득하도록 구성되어 있는 디코딩 유닛
    을 포함하며,
    m은 0보다 큰 양의 정수이고, N번째-프레임 다운믹싱 신호는 미리 정해진 제1 알고리즘에 기초해서 다중 채널 중 2개의 채널 상에서 N번째-프레임 오디오 신호를 혼합함으로써 인코더에 의해 획득되는, 디코더.
  24. 제23항에 있어서,
    제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며,
    상기 디코딩 유닛은,
    N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는
    N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하도록 추가로 구성되어 있으며,
    N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되며,
    상기 디코더는 신호 복원 유닛을 더 포함하며,
    상기 신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있는, 디코더.
  25. 제23항에 있어서,
    제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,
    상기 디코딩 유닛은,
    N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는
    N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며,
    여기서 k는 0보다 큰 양의 정수이고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되며,
    상기 디코더는 신호 복원 유닛을 더 포함하며,
    상기 신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있는, 디코더.
  26. 제23항에 있어서,
    제1 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,
    상기 디코딩 유닛은,
    N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는
    N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며,
    여기서 k는 0보다 큰 양의 정수이고, N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되며,
    상기 디코더는 신호 복원 유닛을 더 포함하며,
    상기 신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있는, 디코더.
  27. 제23항에 있어서,
    제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제2 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며,
    상기 디코딩 유닛은,
    N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나; 또는 N번째-프레임 비트스트림이 제6 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하거나, 또는
    N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며,
    여기서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수이며,
    상기 디코더는 신호 복원 유닛을 더 포함하며,
    상기 신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있는, 디코더.
  28. 제23항에 있어서,
    제5 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하고, 제6 유형 프레임은 다운믹싱 신호를 포함하지만 스테레오 파라미터 집합을 포함하지 않으며, 제5 유형 프레임 및 제6 유형 프레임 각각은 제1 유형 프레임의 하나의 경우이며, 제3 유형 프레임은 스테레오 파라미터 집합을 포함하지만 다운믹싱 신호를 포함하지 않으며, 제4 유형 프레임은 다운믹싱 신호 및 스테레오 파라미터 집합 모두를 포함하지 않으며, 제3 유형 프레임 및 제4 유형 프레임 각각은 제2 유형 프레임의 하나의 경우이며,
    상기 디코딩 유닛은,
    N번째-프레임 비트스트림이 제1 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제5 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제6 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하거나, 또는
    N번째-프레임 비트스트림이 제2 유형 프레임인 것으로 결정되면, N번째-프레임 비트스트림이 제3 유형 프레임일 때 N번째-프레임 스테레오 파라미터 집합을 획득하기 위해 N번째-프레임 비트스트림을 디코딩하거나, 또는 N번째-프레임 비트스트림이 제4 유형 프레임일 때, 미리 설정된 제2 규칙에 따라 N번째-프레임 스테레오 파라미터 집합에 선행하는 적어도 하나의 프레임 스테레오 파라미터 집합 내의 k-프레임 스테레오 파라미터 집합을 결정하고, 미리 정해진 제4 알고리즘에 기초해서 k-프레임 스테레오 파라미터 집합에 따라 N번째-프레임 스테레오 파라미터 집합을 획득하도록 추가로 구성되어 있으며,
    여기서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터는 상기 디코더가 미리 정해진 제3 알고리즘에 기초해서 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하는 데 사용되고, k는 0보다 큰 양의 정수이며,
    상기 디코더는 신호 복원 유닛을 더 포함하며,
    상기 신호 복원 유닛은 제3 알고리즘에 기초해서 N번째-프레임 스테레오 파라미터 집합 내의 적어도 하나의 스테레오 파라미터에 따라 N번째-프레임 다운믹싱 신호를 N번째-프레임 오디오 신호로 복원하도록 구성되어 있는, 디코더.
  29. 인코딩 및 디코딩 시스템으로서,
    제15항 내지 제22항 중 어느 한 항에 따른 인코더 및 제23항 내지 제28항 중 어느 한 항에 따른 디코더를 포함하는 인코딩 및 디코딩 시스템.
KR1020197011605A 2016-09-28 2016-09-28 다중 채널 오디오 신호 처리 방법, 장치 및 시스템 KR20190052122A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020217028255A KR102387162B1 (ko) 2016-09-28 2016-09-28 다중 채널 오디오 신호 처리 방법, 장치 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/100617 WO2018058379A1 (zh) 2016-09-28 2016-09-28 一种处理多声道音频信号的方法、装置和系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020217028255A Division KR102387162B1 (ko) 2016-09-28 2016-09-28 다중 채널 오디오 신호 처리 방법, 장치 및 시스템

Publications (1)

Publication Number Publication Date
KR20190052122A true KR20190052122A (ko) 2019-05-15

Family

ID=61763024

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020197011605A KR20190052122A (ko) 2016-09-28 2016-09-28 다중 채널 오디오 신호 처리 방법, 장치 및 시스템
KR1020217028255A KR102387162B1 (ko) 2016-09-28 2016-09-28 다중 채널 오디오 신호 처리 방법, 장치 및 시스템
KR1020227012057A KR102480710B1 (ko) 2016-09-28 2016-09-28 다중 채널 오디오 신호 처리 방법, 장치 및 시스템

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020217028255A KR102387162B1 (ko) 2016-09-28 2016-09-28 다중 채널 오디오 신호 처리 방법, 장치 및 시스템
KR1020227012057A KR102480710B1 (ko) 2016-09-28 2016-09-28 다중 채널 오디오 신호 처리 방법, 장치 및 시스템

Country Status (7)

Country Link
US (3) US10593339B2 (ko)
EP (2) EP3511934B1 (ko)
JP (1) JP6790251B2 (ko)
KR (3) KR20190052122A (ko)
CN (5) CN117476018A (ko)
MX (1) MX2019003417A (ko)
WO (1) WO2018058379A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190052122A (ko) 2016-09-28 2019-05-15 후아웨이 테크놀러지 컴퍼니 리미티드 다중 채널 오디오 신호 처리 방법, 장치 및 시스템
CN110556119B (zh) * 2018-05-31 2022-02-18 华为技术有限公司 一种下混信号的计算方法及装置
KR20210154807A (ko) * 2019-04-18 2021-12-21 돌비 레버러토리즈 라이쎈싱 코오포레이션 다이얼로그 검출기
CA3185659A1 (en) * 2020-06-11 2021-12-16 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding spatial background noise within a multi-channel input signal
CN116348951A (zh) * 2020-07-30 2023-06-27 弗劳恩霍夫应用研究促进协会 用于编码音频信号或用于解码经编码音频场景的设备、方法及计算机程序
WO2024056701A1 (en) * 2022-09-13 2024-03-21 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive stereo parameter synthesis

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713586B2 (ja) 1987-02-20 1995-02-15 三機工業株式会社 自動車エンジン実験用移動油水制御装置
JP2835483B2 (ja) * 1993-06-23 1998-12-14 松下電器産業株式会社 音声判別装置と音響再生装置
JP2728122B2 (ja) * 1995-05-23 1998-03-18 日本電気株式会社 無音圧縮音声符号化復号化装置
JP3753384B2 (ja) * 1997-03-19 2006-03-08 株式会社日立製作所 映像中の有音区間の終始点の検出装置
DE60038251T2 (de) * 1999-12-13 2009-03-12 Broadcom Corp., Irvine Sprach-durchgangsvorrichtung mit sprachsynchronisierung in abwärtsrichtung
JP3526269B2 (ja) 2000-12-11 2004-05-10 株式会社東芝 ネットワーク間中継装置及び該中継装置における転送スケジューリング方法
US7657706B2 (en) 2003-12-18 2010-02-02 Cisco Technology, Inc. High speed memory and input/output processor subsystem for efficiently allocating and using high-speed memory and slower-speed memory
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
JP2008286904A (ja) * 2007-05-16 2008-11-27 Panasonic Corp オーディオ複号化装置
CN101320563B (zh) * 2007-06-05 2012-06-27 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
CA2697830C (en) * 2007-11-21 2013-12-31 Lg Electronics Inc. A method and an apparatus for processing a signal
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
CN101556799B (zh) * 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
CN101661749A (zh) * 2009-09-23 2010-03-03 清华大学 一种语音和音乐双模切换编/解码的方法
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
JP5299327B2 (ja) 2010-03-17 2013-09-25 ソニー株式会社 音声処理装置、音声処理方法、およびプログラム
CN103098131B (zh) 2010-08-24 2015-03-11 杜比国际公司 调频立体声无线电接收器的间歇单声道接收的隐藏
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
JP5753540B2 (ja) * 2010-11-17 2015-07-22 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法
EP2777041B1 (en) * 2011-11-10 2016-05-04 Nokia Technologies Oy A method and apparatus for detecting audio sampling rate
CN103188595B (zh) * 2011-12-31 2015-05-27 展讯通信(上海)有限公司 处理多声道音频信号的方法和系统
US9036526B2 (en) * 2012-11-08 2015-05-19 Qualcomm Incorporated Voice state assisted frame early termination
WO2014192604A1 (ja) * 2013-05-31 2014-12-04 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN105304080B (zh) * 2015-09-22 2019-09-03 科大讯飞股份有限公司 语音合成装置及方法
CA2997332A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for decoding left and right channels of a stereo sound signal
US20170134282A1 (en) 2015-11-10 2017-05-11 Ciena Corporation Per queue per service differentiation for dropping packets in weighted random early detection
KR20190052122A (ko) * 2016-09-28 2019-05-15 후아웨이 테크놀러지 컴퍼니 리미티드 다중 채널 오디오 신호 처리 방법, 장치 및 시스템
CN109285536B (zh) * 2018-11-23 2022-05-13 出门问问创新科技有限公司 一种语音特效合成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108140393B (zh) 2023-10-20
MX2019003417A (es) 2019-10-07
EP3511934A4 (en) 2019-08-14
CN117392988A (zh) 2024-01-12
CN117476018A (zh) 2024-01-30
CN108140393A (zh) 2018-06-08
US10984807B2 (en) 2021-04-20
US20210312932A1 (en) 2021-10-07
KR102387162B1 (ko) 2022-04-14
US20190221219A1 (en) 2019-07-18
US11922954B2 (en) 2024-03-05
JP2019533189A (ja) 2019-11-14
JP6790251B2 (ja) 2020-11-25
KR20220053030A (ko) 2022-04-28
US20200273468A1 (en) 2020-08-27
CN117351965A (zh) 2024-01-05
WO2018058379A1 (zh) 2018-04-05
KR102480710B1 (ko) 2022-12-22
KR20210111898A (ko) 2021-09-13
EP3511934A1 (en) 2019-07-17
EP3511934B1 (en) 2021-04-21
US10593339B2 (en) 2020-03-17
BR112019005983A2 (pt) 2019-10-01
EP3910629A1 (en) 2021-11-17
CN117351966A (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
KR102480710B1 (ko) 다중 채널 오디오 신호 처리 방법, 장치 및 시스템
CN112154502B (zh) 支持生成舒适噪声
CA2827000C (en) Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
US10636432B2 (en) Method for predicting high frequency band signal, encoding device, and decoding device
WO2004079923A2 (en) Method and apparatus for audio compression
US20220293112A1 (en) Low-latency, low-frequency effects codec
WO2024051955A1 (en) Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024052450A1 (en) Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata
CN118038881A (en) Method and apparatus for supporting generation of comfort noise
BR112019005983B1 (pt) Método de processamento de sinal de áudio de multicanais, codificador, decodificador e sistema de codificação e decodificação

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
E601 Decision to refuse application
E801 Decision on dismissal of amendment