KR102437451B1 - 오디오 인코딩 및 디코딩 방법 및 관련 제품 - Google Patents

오디오 인코딩 및 디코딩 방법 및 관련 제품 Download PDF

Info

Publication number
KR102437451B1
KR102437451B1 KR1020207017982A KR20207017982A KR102437451B1 KR 102437451 B1 KR102437451 B1 KR 102437451B1 KR 1020207017982 A KR1020207017982 A KR 1020207017982A KR 20207017982 A KR20207017982 A KR 20207017982A KR 102437451 B1 KR102437451 B1 KR 102437451B1
Authority
KR
South Korea
Prior art keywords
downmix mode
current frame
switching
downmix
mode
Prior art date
Application number
KR1020207017982A
Other languages
English (en)
Other versions
KR20200090856A (ko
Inventor
하이팅 리
빈 왕
레이 먀오
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20200090856A publication Critical patent/KR20200090856A/ko
Application granted granted Critical
Publication of KR102437451B1 publication Critical patent/KR102437451B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

오디오 인코딩 및 디코딩 방법 및 제품이 제공된다. 그 방법은: 현재 프레임에 대한 채널 조합 방식을 결정하는 단계(201); 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계(202); 및 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득하고, 현재 프레임의 획득된 주요 및 보조 채널 신호들을 인코딩하는 단계(203)를 포함한다. 이 방법은 인코딩 품질을 향상시키는 것을 돕는다.

Description

오디오 인코딩 및 디코딩 방법 및 관련 제품
본 출원은 오디오 인코딩 및 디코딩 기술 분야에 관한 것으로, 특히, 오디오 인코딩 및 디코딩 방법 및 관련 제품에 관한 것이다.
삶의 질이 향상됨에 따라, 사람들은 고품질 오디오에 대한 요건들을 증가시키고 있다. 모노 오디오(mono audio)와 비교하여, 스테레오 오디오(stereo audio)는 다양한 음향 소스들의 방향감(sense of direction) 및 분포감(sense of distribution)을 가지며, 정보의 선명도, 요해도(intelligibility), 및 현장감(sense of immediacy)을 향상시킬 수 있고, 따라서 사람들에게 인기가 있다.
파라메트릭 스테레오 인코딩/디코딩 기술은, 스테레오 신호가 모노 신호 및 공간 인식 파라미터로 변환되고 멀티-채널 신호들이 압축되는 일반적인 스테레오 인코딩/디코딩 기술이다. 그러나, 파라메트릭 스테레오 인코딩/디코딩 기술에서, 공간 인식 파라미터는 보통 주파수 도메인에서 추출될 필요가 있고, 시간-주파수 변환이 수행될 필요가 있어서, 전체 코덱의 비교적 큰 지연을 초래한다. 따라서, 지연 요건이 비교적 엄격할 때, 시간 도메인 스테레오 인코딩 기술이 더 나은 선택이다.
종래의 시간 도메인 스테레오 인코딩 기술에서, 신호들은 시간 도메인에서 2개의 모노 신호로 다운믹싱(downmix)된다. 예를 들어, MS 인코딩 기술에서, 좌측 및 우측 채널 신호들은 먼저 중간 채널(Mid channel) 신호 및 사이드 채널(Side channel) 신호로 다운믹싱된다. 예를 들어, L은 좌측 채널 신호를 나타내고, R은 우측 채널 신호를 나타낸다. 이 경우, 중간 채널 신호는 0.5 x (L + R)이고, 중간 채널 신호는 좌측 채널과 우측 채널 사이의 상관에 관한 정보를 나타내고; 사이드 채널 신호는 0.5 x (L - R)이고, 사이드 채널 신호는 좌측 채널과 우측 채널 사이의 차이에 관한 정보를 나타낸다. 이어서, 중간 채널 신호와 사이드 채널 신호는 모노 인코딩 방법을 사용하여 별개로 인코딩되고, 중간 채널 신호는 보통 더 많은 비트를 사용하여 인코딩되고, 사이드 채널 신호는 보통 더 적은 비트를 사용하여 인코딩된다.
연구들 및 실습들에서, 종래의 시간 도메인 스테레오 인코딩 기술이 사용될 때, 주요 신호의 에너지가 때때로 매우 작거나 심지어 없다는 것이 발견되었다. 이것은 최종 인코딩 품질을 저하시킨다.
본 출원의 실시예들은 오디오 인코딩 및 디코딩 방법 및 관련 제품을 제공한다.
제1 양태에 따르면, 본 출원의 실시예는 오디오 인코딩 방법을 제공하며, 이 방법은: 현재 프레임에 대한 채널 조합 방식을 결정하는 단계; 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계; 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득하는 단계; 및 현재 프레임의 획득된 주요 및 보조 채널 신호들을 인코딩하는 단계를 포함한다.
현재 프레임의 스테레오 신호는, 예를 들어, 현재 프레임의 좌측 및 우측 채널 신호들을 포함한다.
현재 프레임에 대한 채널 조합 방식은 복수의 채널 조합 방식 중 하나이다. 예를 들어, 복수의 채널 조합 방식은 비상관성 신호 채널 조합 방식(anticorrelated signal channel combination scheme) 및 상관성 신호 채널 조합 방식(correlated signal channel combination scheme)을 포함한다. 상관성 신호 채널 조합 방식은 근사 동상 신호(near in phase signal)에 대응하는 채널 조합 방식이다. 비상관성 신호 채널 조합 방식은 근사 이상 신호(near out of phase signal)에 대응하는 채널 조합 방식이다.
근사 동상 신호에 대응하는 채널 조합 방식은 근사 동상 신호에 적용가능하고, 근사 이상 신호에 대응하는 채널 조합 방식은 근사 이상 신호에 적용가능하다는 것을 이해할 수 있다.
오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)의 다운믹스 모드는 복수의 다운믹스 모드 중 하나이다. 복수의 다운믹스 모드는 다운믹스 모드 A, 다운믹스 모드 B, 다운믹스 모드 C, 및 다운믹스 모드 D를 포함한다. 다운믹스 모드 A 및 다운믹스 모드 D는 상관성 신호 다운믹스 모드들이다. 다운믹스 모드 B 및 다운믹스 모드 C는 비상관성 신호 다운믹스 모드들이다. 오디오 프레임의 다운믹스 모드 A, 오디오 프레임의 다운믹스 모드 B, 오디오 프레임의 다운믹스 모드 C, 및 오디오 프레임의 다운믹스 모드 D는 상이한 다운믹스 행렬들에 대응한다.
다운믹스 행렬이 업믹스 행렬에 대응하기 때문에, 오디오 프레임의 다운믹스 모드 A, 오디오 프레임의 다운믹스 모드 B, 오디오 프레임의 다운믹스 모드 C, 및 오디오 프레임의 다운믹스 모드 D는 또한 상이한 업믹스 행렬들에 대응한다는 것을 이해할 수 있다.
전술한 인코딩 해결책에서, 현재 프레임의 인코딩 모드는 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 결정될 필요가 있다는 것을 이해할 수 있다. 이것은, 현재 프레임의 복수의 가능한 인코딩 모드가 존재한다는 것을 나타낸다. 따라서, 하나의 인코딩 모드만이 존재하는 종래의 해결책과 비교하여, 이것은 복수의 가능한 인코딩 모드들 및 다운믹스 모드들과 복수의 가능한 시나리오들 사이의 더 나은 호환성 및 매칭을 달성하는 것을 돕는다.
또한, 제2 양태에 따르면, 본 출원의 실시예는 오디오 인코딩 모드를 결정하기 위한 방법을 제공한다. 이 방법은: 현재 프레임에 대한 채널 조합 방식을 결정하는 단계; 및 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계를 포함할 수 있다.
현재 프레임의 인코딩 모드는 복수의 인코딩 모드 중 하나이다. 예를 들어, 복수의 인코딩 모드는 다운믹스 모드 스위칭 인코딩 모드들, 다운믹스 모드 비-스위칭 인코딩 모드들 등을 포함할 수 있다.
구체적으로, 다운믹스 모드 비-스위칭 인코딩 모드들은: 다운믹스 모드 A-대-다운믹스 모드 A 인코딩 모드, 다운믹스 모드 B-대-다운믹스 모드 B 인코딩 모드, 다운믹스 모드 C-대-다운믹스 모드 C 인코딩 모드, 및 다운믹스 모드 D-대-다운믹스 모드 D 인코딩 모드를 포함할 수 있다.
구체적으로, 다운믹스 모드 스위칭 인코딩 모드들은: 다운믹스 모드 A-대-다운믹스 모드 B 인코딩 모드, 다운믹스 모드 A-대-다운믹스 모드 C 인코딩 모드, 다운믹스 모드 B-대-다운믹스 모드 A 인코딩 모드, 다운믹스 모드 B-대-다운믹스 모드 D 인코딩 모드, 다운믹스 모드 C-대-다운믹스 모드 A 인코딩 모드, 다운믹스 모드 C-대-다운믹스 모드 D 인코딩 모드, 다운믹스 모드 D-대-다운믹스 모드 B 인코딩 모드, 및 다운믹스 모드 D-대-다운믹스 모드 C 인코딩 모드를 포함할 수 있다.
이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계는 구체적으로 다양한 방식으로 구현될 수 있다.
예를 들어, 일부 가능한 구현들에서, 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계는:
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식인 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A인 것으로 결정하고, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식인 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B인 것으로 결정하고, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식인 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C인 것으로 결정하고, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계; 또는
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식인 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D인 것으로 결정하고, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계를 포함할 수 있다.
다른 예로서, 일부 가능한 구현들에서, 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계는: 이전 프레임의 다운믹스 모드, 현재 프레임의 다운믹스 모드 스위칭 비용 값, 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계를 포함할 수 있다.
현재 프레임의 다운믹스 모드 스위칭 비용 값은, 예를 들어, 현재 프레임의 다운믹스 모드 스위칭 비용 함수에 기초하여 계산된 계산 결과일 수 있다(예를 들어, 더 큰 결과는 더 큰 스위칭 비용을 나타낸다). 다운믹스 모드 스위칭 비용 함수는 다음의 파라미터들: 현재 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터, 이전 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터, 및 현재 프레임의 좌측 및 우측 채널 신호들 중 적어도 하나에 기초하여 구성된다.
대안적으로, 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자(channel combination ratio factor)이다.
다운믹스 모드 스위칭 비용 함수는, 예를 들어, 다음과 같은 스위칭 비용 함수들 중 하나이다: 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수, 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수, 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수, 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수, 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수, 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수, 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수, 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수, 기타 등등.
일부 가능한 구현들에서, 이전 프레임의 다운믹스 모드, 현재 프레임의 다운믹스 모드 스위칭 비용 값, 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계는:
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제1 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제1 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제2 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제2 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제3 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제3 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제4 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제4 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제5 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제5 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제6 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제6 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제7 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제7 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ; 또는
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제8 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제8 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - 를 구체적으로 포함할 수 있다.
일부 다른 가능한 구현들에서, 이전 프레임의 다운믹스 모드, 현재 프레임의 다운믹스 모드 스위칭 비용 값, 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계는, 예를 들어:
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제9 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제9 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S1보다 작거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제10 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제10 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S1보다 크거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제11 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제11 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S2보다 크거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제12 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제12 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S2보다 작거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제13 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제13 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S3보다 크거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제14 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제14 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S3보다 작거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제15 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제15 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S4보다 작거나 같다는 것임 - ; 또는
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제16 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제16 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S4보다 크거나 같다는 것임 - 를 포함할 수 있다.
현재 프레임의 다운믹스 모드가 이전 프레임의 다운믹스 모드와 상이할 때, 현재 프레임의 인코딩 모드는, 예를 들어, 다운믹스 모드 스위칭 인코딩 모드일 수 있다고 결정될 수 있다. 이 경우, 현재 프레임의 다운믹스 모드 및 이전 프레임의 다운믹스 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간 도메인 다운믹스 처리(segmented time-domain downmix processing)가 수행될 수 있다.
현재 프레임에 대한 채널 조합 방식이 이전 프레임에 대한 채널 조합 방식과 상이할 때, 현재 프레임의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간 도메인 다운믹스 처리를 수행하는 메커니즘이 도입된다. 세그먼트화된 시간 도메인 다운믹스 처리 메커니즘은 채널 조합 방식의 평활한 전이(smooth transition)를 구현하는 것을 돕고, 그에 의해 인코딩 품질을 향상시키는 것을 돕는다.
일부 가능한 구현들에서, 현재 프레임에 대한 채널 조합 방식을 결정하는 단계는: 현재 프레임의 좌측 및 우측 채널 신호들을 사용하여 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입을 결정하는 단계; 및 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입 및 이전 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임에 대한 채널 조합 방식을 결정하는 단계를 포함할 수 있다. 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입은 근사 동상 신호 또는 근사 이상 신호일 수 있다. 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입은 현재 프레임의 근사 동상/이상 신호 타입 식별자를 사용하여 나타낼 수 있다. 구체적으로, 예를 들어, 현재 프레임의 근사 동상/이상 신호 타입 식별자의 값이 "1"일 때, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입은 근사 동상 신호이거나; 또는 현재 프레임의 근사 동상/이상 신호 타입 식별자의 값이 "0"일 때, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입은 근사 이상 신호이며; 그 반대도 가능하다.
오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)에 대한 채널 조합 방식은 오디오 프레임의 채널 조합 방식 식별자를 사용하여 나타낼 수 있다. 구체적으로, 예를 들어, 오디오 프레임의 채널 조합 방식 식별자의 값이 "0"일 때, 오디오 프레임에 대한 채널 조합 방식은 상관성 신호 채널 조합 방식이거나; 또는 오디오 프레임의 채널 조합 방식 식별자의 값이 "1"일 때, 오디오 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이며; 그 반대도 가능하다.
현재 프레임의 좌측 및 우측 채널 신호들을 사용하여 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입을 결정하는 단계는: 현재 프레임의 좌측 및 우측 채널 신호들 사이의 상관의 값 xorr을 계산하는 단계; 및 xorr이 제1 임계값보다 작거나 같을 때, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 동상 신호인 것으로 결정하는 단계; 또는 xorr이 제1 임계값보다 클 때, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 이상 신호인 것으로 결정하는 단계를 포함할 수 있다. 또한, 현재 프레임의 근사 동상/이상 신호 타입 식별자가 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입을 나타내기 위해 사용되는 경우, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 동상 신호인 것으로 결정될 때, 현재 프레임의 근사 동상/이상 신호 타입 식별자의 값은, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 동상 신호인 것을 나타내도록 설정될 수 있거나; 또는 현재 프레임의 근사 동상/이상 신호 타입이 근사 이상 신호인 것으로 결정될 때, 현재 프레임의 근사 동상/이상 신호 타입 식별자의 값은, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 이상 신호인 것을 나타내도록 설정될 수 있다.
구체적으로, 예를 들어, 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)의 근사 동상/이상 신호 타입 식별자의 값이 "0"일 때, 오디오 프레임의 스테레오 신호의 근사 동상/이상 신호 타입은 근사 동상 신호이거나; 또는 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)의 근사 동상/이상 신호 타입 식별자의 값이 "1"일 때, 오디오 프레임의 스테레오 신호의 근사 동상/이상 신호 타입은 근사 이상 신호이고; 기타 등등이다.
현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입 및 이전 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임에 대한 채널 조합 방식을 결정하는 단계는, 예를 들어:
현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 동상 신호이고 이전 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식일 때, 현재 프레임에 대한 채널 조합 방식은 상관성 신호 채널 조합 방식인 것으로 결정하는 단계; 또는 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 이상 신호이고 이전 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식일 때, 현재 프레임에 대한 채널 조합 방식은 비상관성 신호 채널 조합 방식인 것으로 결정하는 단계;
현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 동상 신호이고 이전 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식일 때, 현재 프레임의 좌측 및 우측 채널 신호들의 신호 대 잡음비들이 둘 다 제2 임계값보다 작은 경우, 현재 프레임에 대한 채널 조합 방식은 상관성 신호 채널 조합 방식인 것으로 결정하는 단계; 또는 현재 프레임의 좌측 채널 신호의 신호 대 잡음비 및/또는 우측 채널 신호의 신호 대 잡음비가 제2 임계값보다 크거나 같은 경우, 현재 프레임에 대한 채널 조합 방식은 비상관성 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 이상 신호이고 이전 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식일 때, 현재 프레임의 좌측 및 우측 채널 신호들의 신호 대 잡음비들이 둘 다 제2 임계값보다 작은 경우, 현재 프레임에 대한 채널 조합 방식은 비상관성 신호 채널 조합 방식인 것으로 결정하는 단계; 또는 현재 프레임의 좌측 채널 신호의 신호 대 잡음비 및/또는 우측 채널 신호의 신호 대 잡음비가 제2 임계값보다 크거나 같은 경우, 현재 프레임에 대한 채널 조합 방식은 상관성 신호 채널 조합 방식인 것으로 결정하는 단계를 포함할 수 있다.
제3 양태에 따르면, 본 출원의 실시예는 오디오 디코딩 방법을 추가로 제공하며, 이 방법은: 비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들을 획득하는 단계; 비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 다운믹스 모드를 결정하는 단계; 이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계; 및 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대한 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득하는 단계를 포함한다.
현재 프레임에 대한 채널 조합 방식은 복수의 채널 조합 방식 중 하나이다. 예를 들어, 복수의 채널 조합 방식은 비상관성 신호 채널 조합 방식(anticorrelated signal channel combination scheme) 및 상관성 신호 채널 조합 방식(correlated signal channel combination scheme)을 포함한다. 상관성 신호 채널 조합 방식은 근사 동상 신호에 대응하는 채널 조합 방식이다. 비상관성 신호 채널 조합 방식은 근사 이상 신호에 대응하는 채널 조합 방식이다. 근사 동상 신호에 대응하는 채널 조합 방식은 근사 동상 신호에 적용가능하고, 근사 이상 신호에 대응하는 채널 조합 방식은 근사 이상 신호에 적용가능하다는 것을 이해할 수 있다.
시간 도메인 다운믹스는 시간 도메인 업믹스에 대응하고 인코딩은 디코딩에 대응하며; 따라서, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대한 시간 도메인 업믹스 처리(시간 도메인 업믹스 처리를 위해 사용되는 업믹스 행렬이 시간 도메인 다운믹스를 위해 인코딩 장치에 의해 사용되는 다운믹스 행렬에 대응한다)가 수행될 수 있다는 것을 이해할 수 있다.
일부 가능한 구현들에서, 이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계는: 이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계; 또는
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계를 포함할 수 있다.
전술한 디코딩 해결책에서, 현재 프레임의 인코딩 모드는 이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여 결정될 필요가 있다는 것을 이해할 수 있다. 이것은, 현재 프레임의 복수의 가능한 인코딩 모드가 존재한다는 것을 나타낸다. 하나의 인코딩 모드만이 존재하는 종래의 해결책과 비교하여, 이것은 복수의 가능한 인코딩 모드들 및 다운믹스 모드들과 복수의 가능한 시나리오들 사이의 더 나은 호환성 및 매칭을 달성하는 것을 돕는다.
제4 양태에 따르면, 본 출원의 실시예는 오디오 인코딩 모드를 결정하기 위한 방법을 추가로 제공하며, 이 방법은: 비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들을 획득하는 단계; 비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 다운믹스 모드를 결정하는 단계; 및 이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계를 포함한다.
다음은 예들을 사용하여 다양한 다운믹스 모드 스위칭 비용 함수들을 설명한다. 실제 응용에서, 스위칭 비용 함수는 다양한 방식들로 구체적으로 구성될 수 있으며, 이는 다음의 예시적인 형태들로 반드시 제한되는 것은 아니다.
예를 들어, 현재 프레임의 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00001
여기서, Cost_AB는 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_A는 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_A는 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_A는 0보다 크고 N-1보다 작은 정수이고, end_sample_A는 0보다 크고 N-1보다 작은 정수이고, start_sample_A는 end_sample_A보다 작고,
예를 들어, end_sample_A-start_sample_A의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_A-start_sample_A는 60, 69, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio이고, tdm_last_ratio은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00002
여기서, Cost_AC는 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_A는 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_A는 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_A는 0보다 크고 N-1보다 작은 정수이고, end_sample_A는 0보다 크고 N-1보다 작은 정수이고, start_sample_A는 end_sample_A보다 작고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio이고, tdm_last_ratio은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수는 다음과 같다:
Figure 112020063801644-pct00003
여기서, Cost_BA는 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_B는 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_B는 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_B는 0보다 크고 N-1보다 작은 정수이고, end_sample_B는 0보다 크고 N-1보다 작은 정수이고, start_sample_B는 end_sample_B보다 작고,
예를 들어, end_sample_B-start_sample_B의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_B-start_sample_B는 60, 67, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio이고, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00004
여기서, Cost_BD는 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_B는 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_B는 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_B는 0보다 크고 N-1보다 작은 정수이고, end_sample_B는 0보다 크고 N-1보다 작은 정수이고, start_sample_B는 end_sample_B보다 작고,
예를 들어, end_sample_B-start_sample_B의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_B-start_sample_B는 60, 67, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
삭제
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio이고, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00005
여기서, Cost_CD는 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_C는 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_C는 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_C는 0보다 크고 N-1보다 작은 정수이고, end_sample_C는 0보다 크고 N-1보다 작은 정수이고, start_sample_C는 end_sample_C보다 작고,
예를 들어, end_sample_C-start_sample_C의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_C-start_sample_C는 60, 71, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio이고, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00006
여기서, Cost_CA는 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_C는 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_C는 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_C는 0보다 크고 N-1보다 작은 정수이고, end_sample_C는 0보다 크고 N-1보다 작은 정수이고, start_sample_C는 end_sample_C보다 작고,
예를 들어, end_sample_C-start_sample_C의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_C-start_sample_C는 60, 71, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio이고, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00007
여기서, Cost_DC는 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_D는 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_D는 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_D는 0보다 크고 N-1보다 작은 정수이고, end_sample_D는 0보다 크고 N-1보다 작은 정수이고, start_sample_D는 end_sample_D보다 작고,
예를 들어, end_sample_D-start_sample_D의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_D-start_sample_D는 60, 73, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio이고, tdm_last_ratio은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수는 다음과 같다:
Figure 112020063801644-pct00008
여기서, Cost_DB는 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_D는 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_D는 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_D는 0보다 크고 N-1보다 작은 정수이고, end_sample_D는 0보다 크고 N-1보다 작은 정수이고, start_sample_D는 end_sample_D보다 작고,
예를 들어, end_sample_D-start_sample_D의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_D-start_sample_D는 60, 73, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio이고, tdm_last_ratio은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다음은, 예들을 사용하여, 현재 프레임의 상이한 다운믹스 모드들에 대응하는 일부 다운믹스 행렬들 및 업믹스 행렬들을 설명한다.
예를 들어, M2A는 현재 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타내고, M2A는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 이 경우, 예를 들어,
Figure 112020063801644-pct00009
여기서, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00010
는 현재 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬 M2A에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00011
는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00012
예를 들어, M2B는 현재 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타내고, M2B는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00013
여기서, α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00014
는 현재 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬 M2B에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00015
는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00016
여기서, α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
예를 들어, M2C는 현재 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고, M2C는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00017
여기서, α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00018
는 현재 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬 M2C에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00019
는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00020
여기서, α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
예를 들어, M2D는 현재 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타내고, M2D는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00021
여기서, α1=ratio, α2=1-ratio이고, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00022
는 현재 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬 M2D에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00023
는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00024
여기서, α1=ratio, α2=1-ratio이고, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다음은 예들을 사용하여 이전 프레임에 대한 일부 다운믹스 행렬들 및 업믹스 행렬들을 설명한다.
예를 들어, M1A는 이전 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타내고, M1A는 이전 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 이 경우, 예를 들어,
Figure 112020063801644-pct00025
여기서, α1_pre=tdm_last_ratio이고, tdm_last_ratio는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00026
는 이전 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬 M1A에 대응하는 업믹스 행렬을 나타내고(
Figure 112020063801644-pct00027
는 줄여서 이전 프레임의 다운믹스 모드 A에 대응하는 업믹스 행렬로 지칭됨),
Figure 112020063801644-pct00028
는 이전 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00029
여기서, α1_pre=tdm_last_ratio이고, tdm_last_ratio는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
예를 들어, M1B는 이전 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타내고, M1B는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00030
여기서, α1_pre=tdm_last_ratio_SM, α2_pre=1-α1_pre이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00031
는 이전 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬 M1B에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00032
는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00033
여기서, α1_pre=tdm_last_ratio_SM, α2_pre=1-α1_pre이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
예를 들어, M1C는 이전 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고, M1C는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00034
여기서, α1_pre=tdm_last_ratio_SM, α2_pre=1-α1_pre이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00035
는 이전 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬 M1C에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00036
는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00037
여기서, α1_pre=tdm_last_ratio_SM, α2_pre=1-α1_pre이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
예를 들어, M1D는 이전 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타내고, M1D는 이전 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00038
여기서, α1_pre=tdm_last_ratio, α2_pre=1-α1_pre이고, tdm_last_ratio는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00039
는 이전 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬 M1D에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00040
는 이전 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00041
여기서, α1_pre=tdm_last_ratio, α2_pre=1-α1_pre이고, tdm_last_ratio는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
전술한 예시적인 형태들의 다운믹스 행렬들 및 업믹스 행렬들은 예들이고, 물론, 실제 응용에서 다른 형태들의 다운믹스 행렬들 및 업믹스 행렬들이 또한 존재할 수 있다는 것을 이해할 수 있다.
제5 양태에 따르면, 본 출원의 실시예는 오디오 인코딩 장치를 추가로 제공한다. 장치는 서로 결합되는 프로세서와 메모리를 포함할 수 있다. 메모리는 컴퓨터 프로그램을 저장한다. 프로세서는 메모리에 저장된 컴퓨터 프로그램을 호출(invoke)하여, 제1 양태에서의 임의의 오디오 인코딩 방법의 일부 또는 모든 단계들을 수행하거나, 또는 제2 양태에서의 오디오 인코딩 모드를 결정하기 위한 임의의 방법의 일부 또는 모든 단계들을 수행한다.
제6 양태에 따르면, 본 출원의 실시예는 오디오 디코딩 장치를 추가로 제공한다. 장치는 서로 결합되는 프로세서와 메모리를 포함할 수 있다. 메모리는 컴퓨터 프로그램을 저장한다. 프로세서는 메모리에 저장된 컴퓨터 프로그램을 호출하여, 제3 양태에서의 임의의 오디오 디코딩 방법의 일부 또는 모든 단계들을 수행하거나, 또는 제4 양태에서의 오디오 인코딩 모드를 결정하기 위한 임의의 방법의 일부 또는 모든 단계들을 수행한다.
제7 양태에 따르면, 본 출원의 실시예는, 제1 양태 또는 제2 양태에서의 임의의 방법을 구현하도록 구성되는 하나 이상의 기능 유닛을 포함하는, 오디오 인코딩 장치를 제공한다.
제8 양태에 따르면, 본 출원의 실시예는, 제3 양태 또는 제4 양태에서의 임의의 방법을 구현하도록 구성되는 하나 이상의 기능 유닛을 포함하는, 오디오 디코딩 장치를 제공한다.
제9 양태에 따르면, 본 출원의 실시예는 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 판독가능 저장 매체는 프로그램 코드를 저장하고, 프로그램 코드는 제1 양태 또는 제2 양태에서의 임의의 방법의 일부 또는 모든 단계들을 수행하기 위한 명령어를 포함한다.
제10 양태에 따르면, 본 출원의 실시예는 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 판독가능 저장 매체는 프로그램 코드를 저장하고, 프로그램 코드는 제3 양태 또는 제4 양태에서의 임의의 방법의 일부 또는 모든 단계들을 수행하기 위한 명령어를 포함한다.
제11 양태에 따르면, 본 출원의 실시예는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 컴퓨터는 제1 양태 또는 제2 양태에서의 임의의 방법의 일부 또는 모든 단계들을 수행할 수 있게 된다.
제12 양태에 따르면, 본 출원의 실시예는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 컴퓨터는 제3 양태 또는 제4 양태에서의 임의의 방법의 일부 또는 모든 단계들을 수행할 수 있게 된다.
다음은 본 출원의 실시예들을 설명하기 위해 요구되는 첨부 도면들을 설명한다.
도 1은 본 출원의 실시예에 따른 근사 이상 신호의 개략도이다.
도 2는 본 출원의 실시예에 따른 인코딩 방법의 개략적인 흐름도이다.
도 3은 본 출원의 실시예에 따른 오디오 인코딩 모드를 결정하기 위한 방법의 개략적인 흐름도이다.
도 4는 본 출원의 실시예에 따른 다운믹스 모드 스위칭의 개략적인 흐름도이다.
도 5는 본 출원의 실시예에 따른 다른 타입의 다운믹스 모드 스위칭의 개략적인 흐름도이다.
도 6은 본 출원의 실시예에 따른 오디오 인코딩 모드를 결정하기 위한 방법의 개략적인 흐름도이다.
도 7은 본 출원의 실시예에 따른 오디오 인코딩 모드를 결정하기 위한 다른 방법의 개략적인 흐름도이다.
도 8은 본 출원의 실시예에 따른 시간 도메인 스테레오 파라미터를 결정하기 위한 방법의 개략적인 흐름도이다.
도 9aa 및 도 9ab는 본 출원의 실시예에 따른 다른 오디오 인코딩 방법의 개략적인 흐름도이다.
도 9b는 본 출원의 실시예에 따른, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하고 인코딩을 수행하기 위한 방법의 개략적인 흐름도이다.
도 9c는 본 출원의 실시예에 따른 현재 프레임의 좌측 채널과 우측 채널 사이의 진폭 상관 차이(amplitude correlation difference)의 파라미터를 계산하기 위한 방법의 개략적인 흐름도이다.
도 9d는 본 출원의 실시예에 따른 현재 프레임의 좌측 채널과 우측 채널 사이의 진폭 상관 차이의 파라미터를 채널 조합 비율 인자로 변환하기 위한 방법의 개략적인 흐름도이다.
도 10은 본 출원의 실시예에 따른 디코딩 방법의 개략적인 흐름도이다.
도 11a는 본 출원의 실시예에 따른 장치의 개략도이다.
도 11b는 본 출원의 실시예에 따른 다른 장치의 개략도이다.
도 11c는 본 출원의 실시예에 따른 다른 장치의 개략도이다.
도 12a는 본 출원의 실시예에 따른 다른 장치의 개략도이다.
도 12b는 본 출원의 실시예에 따른 다른 장치의 개략도이다.
도 12c는 본 출원의 실시예에 따른 다른 장치의 개략도이다.
다음은 본 출원의 실시예들에서의 첨부 도면들을 참조하여 본 출원의 실시예들을 설명한다.
본 출원의 이 명세서, 청구항들, 및 첨부 도면들에 언급된 용어들 "포함하는(including)", "갖는(having)", 또는 그의 임의의 다른 변형은 비배타적인 포함을 커버하도록 의도된다. 예를 들어, 일련의 단계들 또는 유닛들을 포함하는 프로세스, 방법, 시스템, 제품, 또는 디바이스는 열거되는 단계들 또는 유닛들에 제한되는 것이 아니라, 열거되지 않은 단계 또는 유닛을 선택적으로 추가로 포함하거나, 또는 프로세스, 방법, 제품, 또는 디바이스의 다른 고유한 단계 또는 유닛을 선택적으로 추가로 포함한다. 또한, 용어들 "제1", "제2", "제3", "제4" 등은 상이한 객체들을 구별하기 위해 사용되며, 특정 순서를 설명하지는 않는다.
본 출원의 실시예들에서의 해결책들은 시간 도메인 시나리오들에 특정적이기 때문에, 시간 도메인 신호는 설명들을 단순화하기 위해 "신호"로 지칭될 수 있다는 점에 유의해야 한다. 예를 들어, 좌측 채널 시간 도메인 신호는 "좌측 채널 신호"로 지칭될 수 있다. 다른 예로서, 우측 채널 시간 도메인 신호는 "우측 채널 신호"로 지칭될 수 있다. 다른 예로서, 모노 시간 도메인 신호는 "모노 신호"로 지칭될 수 있다. 다른 예로서, 기준 채널 시간 도메인 신호는 "기준 채널 신호"로 지칭될 수 있다. 다른 예로서, 주요 채널 시간 도메인 신호는 "주요 채널 신호"로 지칭될 수 있고, 보조 채널 시간 도메인 신호는 "보조 채널 신호"로 지칭될 수 있다. 다른 예로서, 중간 채널(Mid channel) 시간 도메인 신호는 "중간 채널 신호"로 지칭될 수 있다. 다른 예로서, 사이드 채널(Side channel) 시간 도메인 신호는 "사이드 채널 신호"로 지칭될 수 있다. 유추에 의해 다른 경우가 추론될 수 있다.
본 출원의 실시예들에서, 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호는 공동으로 "좌측 및 우측 채널 시간 도메인 신호들"로 지칭될 수 있거나, 또는 공동으로 "좌측 및 우측 채널 신호들"로 지칭될 수 있다는 점에 유의해야 한다. 즉, 좌측 및 우측 채널 시간 도메인 신호들은 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호를 포함한다. 다른 예로서, 지연 정렬 처리(delay alignment processing)를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 시간 도메인 신호들은, 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 시간 도메인 신호 및 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 시간 도메인 신호를 포함한다. 유사하게, 주요 채널 신호와 보조 채널 신호는 공동으로 "주요 및 보조 채널 신호들"로 지칭될 수 있다. 즉, 주요 및 보조 채널 신호들은 주요 채널 신호 및 보조 채널 신호를 포함한다. 다른 예로서, 디코딩된 주요 및 보조 채널 신호들은 디코딩된 주요 채널 신호 및 디코딩된 보조 채널 신호를 포함한다. 다른 예로서, 재구성된 좌측 및 우측 채널 신호들은 재구성된 좌측 채널 신호 및 재구성된 우측 채널 신호를 포함한다. 유추에 의해 다른 경우가 추론될 수 있다.
예를 들어, 종래의 MS 인코딩 기술에서, 좌측 및 우측 채널 신호들은 먼저 중간 채널(Mid channel) 신호 및 사이드 채널(Side channel) 신호로 다운믹싱된다. 예를 들어, L은 좌측 채널 신호를 나타내고, R은 우측 채널 신호를 나타낸다. 이 경우, 중간 채널 신호는 0.5 x (L + R)이고, 중간 채널 신호는 좌측 채널과 우측 채널 사이의 상관에 관한 정보를 나타내고; 사이드 채널 신호는 0.5 x (L - R)이고, 사이드 채널 신호는 좌측 채널과 우측 채널 사이의 차이에 관한 정보를 나타낸다. 이어서, 중간 채널 신호와 사이드 채널 신호는 모노 인코딩 방법을 사용하여 별개로 인코딩된다. 중간 채널 신호는 보통 더 많은 비트를 사용하여 인코딩되고, 사이드 채널 신호는 보통 더 적은 비트를 사용하여 인코딩된다.
또한, 인코딩 품질을 향상시키기 위해, 일부 해결책들에서, 좌측 및 우측 채널 시간 도메인 신호들은 시간 도메인 다운믹스 처리에서 좌측 채널과 우측 채널 사이의 비율을 나타내는 데 사용되는 시간 도메인 스테레오 파라미터를 추출하기 위해 분석된다. 이 방법을 제안하는 목적은, 스테레오 좌측 및 우측 채널 신호들 사이에 비교적 큰 에너지 차이가 있을 때 시간 도메인 다운믹싱된 신호에서 주요 채널 에너지를 향상시키고 보조 채널 에너지를 감소시키는 것이다.
예를 들어, L은 좌측 채널 신호를 나타내고, R은 우측 채널 신호를 나타낸다. 이 경우, 주요 채널(Primary channel) 신호는 Y로 표시되고, 여기서 Y = 알파×L+베타×R이고, Y는 2개의 채널 사이의 상관에 관한 정보를 나타내며; 보조 채널(Secondary channel)은 X로 표시되고, 여기서 X = 알파×L-베타×R이고, X는 2개의 채널 사이의 차이에 관한 정보를 나타낸다. 알파 및 베타는 0과 1 사이의 실수이다.
도 1은 좌측 채널 신호 및 우측 채널 신호의 진폭 변화들의 경우들을 도시한다. 시간 도메인에서 특정 순간에, 좌측 채널 신호 및 우측 채널 신호의 대응하는 샘플링 포인트들의 진폭들은 기본적으로 동일한 절대값들을 갖지만, 반대 부호들을 갖고, 이것은 전형적인 근사 이상 신호이다. 도 1은 단지 근사 이상 신호의 전형적인 예를 도시한다. 실제로, 근사 이상 신호는, 좌측 및 우측 채널 신호들 사이의 위상 차이가 180°에 가까운 스테레오 신호이다. 예를 들어, 좌측 및 우측 채널 신호들 사이의 위상 차이가 [180-θ,180+θ] 내에 있는 스테레오 신호는 근사 이상 신호로 지칭될 수 있다. θ는 0° 내지 90°의 임의의 각도일 수 있다. 예를 들어, θ는 0°, 5°, 15°, 17°, 20°, 30°, 또는 40°와 같은 각도와 같을 수 있다.
유사하게, 근사 동상 신호는 좌측 및 우측 채널 신호들 사이의 위상 차이가 0°에 가까운 스테레오 신호이다. 예를 들어, 좌측 및 우측 채널 신호들 사이의 위상 차이가 [-θ,θ] 내에 있는 스테레오 신호는 근사 동상 신호로 지칭될 수 있다. θ는 0° 내지 90°의 임의의 각도일 수 있다. 예를 들어, θ는 0°, 5°, 15°, 17°, 20°, 30°, 또는 40°와 같은 각도와 같을 수 있다.
좌측 및 우측 채널 신호들이 근사 동상 신호를 구성할 때, 보통, 시간 도메인 다운믹스 처리를 통해 생성되는 주요 채널 신호의 에너지는 보조 채널 신호의 에너지보다 명백히 더 크다. 주요 채널 신호를 인코딩하기 위해 더 많은 비트가 사용되고 보조 채널 신호를 인코딩하기 위해 더 적은 비트가 사용되는 경우, 이것은 더 나은 인코딩 효과를 달성하는 것을 돕는다. 그러나, 좌측 및 우측 채널 신호가 근사 이상 신호를 구성할 때, 동일한 시간 도메인 다운믹스 처리 방법이 사용되는 경우, 생성된 주요 채널 신호의 에너지는 매우 작거나 심지어 없다. 이것은 최종 인코딩 품질을 저하시킨다.
다음은 스테레오 인코딩/디코딩 품질을 향상시키는 것을 돕는 일부 기술적 해결책들을 계속 논의한다.
본 출원의 실시예들에서 언급된 오디오 인코딩 장치 및 오디오 디코딩 장치는 각각 음성 신호를 수집, 저장, 및 송신하는 것과 같은 기능들을 갖는 장치일 수 있다. 구체적으로, 오디오 인코딩 장치 및 오디오 디코딩 장치는 각각, 예를 들어, 모바일폰, 서버, 태블릿 컴퓨터, 개인용 컴퓨터, 또는 노트북 컴퓨터일 수 있다.
본 출원의 해결책들에서, 좌측 및 우측 채널 신호들은 스테레오 신호의 좌측 및 우측 채널 신호들이라는 것을 이해할 수 있다. 스테레오 신호는 원래의 스테레오 신호일 수 있거나, 멀티-채널 신호들에 포함되는 2개의 신호에 의해 구성되는 스테레오 신호일 수 있거나, 멀티-채널 신호들에 포함되는 복수의 신호를 조합함으로써 생성되는 2개의 신호에 의해 구성되는 오디오 스테레오 신호일 수 있다. 오디오 인코딩 방법은 대안적으로 멀티-채널 인코딩에서 사용되는 스테레오 인코딩 방법일 수 있고, 오디오 인코딩 장치는 대안적으로 멀티-채널 인코딩 장치에서 사용되는 스테레오 인코딩 장치일 수 있다. 유사하게, 오디오 디코딩 방법은 대안적으로 멀티-채널 디코딩에서 사용되는 스테레오 디코딩 방법일 수 있고, 오디오 디코딩 장치는 대안적으로 멀티-채널 디코딩 장치에서 사용되는 스테레오 디코딩 장치일 수 있다. 본 출원의 실시예들에서의 오디오 인코딩 방법은, 예를 들어, 스테레오 인코딩 시나리오들에 특정적이다. 본 출원의 실시예들에서의 오디오 디코딩 방법은, 예를 들어, 스테레오 디코딩 시나리오들에 특정적이다.
다음은 오디오 인코딩 모드를 결정하기 위한 방법을 먼저 제공한다. 이 방법은: 현재 프레임에 대한 채널 조합 방식을 결정하는 단계; 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계; 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득하는 단계; 및 현재 프레임의 획득된 주요 및 보조 채널 신호들을 인코딩하는 단계를 포함할 수 있다.
도 2는 본 출원의 실시예에 따른 오디오 인코딩 방법의 개략적인 흐름도이다. 오디오 인코딩 방법의 관련 단계들은 인코딩 장치에 의해 구현될 수 있다. 예를 들어, 방법은 다음의 단계들을 포함할 수 있다.
201. 현재 프레임에 대한 채널 조합 방식을 결정한다.
현재 프레임에 대한 채널 조합 방식은 복수의 채널 조합 방식 중 하나이다. 예를 들어, 복수의 채널 조합 방식은 비상관성 신호 채널 조합 방식(anticorrelated signal Channel Combination Scheme) 및 상관성 신호 채널 조합 방식(correlated signal Channel Combination Scheme)을 포함할 수 있다. 상관성 신호 채널 조합 방식은 근사 동상 신호에 대응하는 채널 조합 방식이다. 비상관성 신호 채널 조합 방식은 근사 이상 신호에 대응하는 채널 조합 방식이다. 근사 동상 신호에 대응하는 채널 조합 방식은 근사 동상 신호에 적용가능하고, 근사 이상 신호에 대응하는 채널 조합 방식은 근사 이상 신호에 적용가능하다는 것을 이해할 수 있다.
202. 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정한다.
또한, 현재 프레임이 제1 프레임인 경우(즉, 현재 프레임에 대한 이전 프레임이 없는 경우), 현재 프레임의 다운믹스 모드 및 인코딩 모드는 현재 프레임에 대한 채널 조합 방식에 기초하여 결정될 수 있다. 대안적으로, 디폴트 다운믹스 모드 및 인코딩 모드가 현재 프레임의 다운믹스 모드 및 인코딩 모드로서 사용될 수 있다.
이전 프레임의 다운믹스 모드는 다음의 복수의 다운믹스 모드들 중 하나일 수 있다: 다운믹스 모드 A, 다운믹스 모드 B, 다운믹스 모드 C, 및 다운믹스 모드 D. 다운믹스 모드 A 및 다운믹스 모드 D는 상관성 신호 다운믹스 모드들이다. 다운믹스 모드 B 및 다운믹스 모드 C는 비상관성 신호 다운믹스 모드들이다. 이전 프레임의 다운믹스 모드 A, 이전 프레임의 다운믹스 모드 B, 이전 프레임의 다운믹스 모드 C, 및 이전 프레임의 다운믹스 모드 D는 상이한 다운믹스 행렬들에 대응한다.
현재 프레임의 다운믹스 모드는 다음의 복수의 다운믹스 모드들 중 하나일 수 있다: 다운믹스 모드 A, 다운믹스 모드 B, 다운믹스 모드 C, 및 다운믹스 모드 D. 다운믹스 모드 A 및 다운믹스 모드 D는 상관성 신호 다운믹스 모드들이다. 다운믹스 모드 B 및 다운믹스 모드 C는 비상관성 신호 다운믹스 모드들이다. 현재 프레임의 다운믹스 모드 A, 현재 프레임의 다운믹스 모드 B, 현재 프레임의 다운믹스 모드 C, 및 현재 프레임의 다운믹스 모드 D는 상이한 다운믹스 행렬들에 대응한다.
본 출원의 일부 실시예들에서, "시간 도메인 다운믹스(time-domain downmix)"는 때때로 "다운믹스"로 지칭되고, "시간 도메인 업믹스(time-domain upmix)"는 때때로 "업믹스"로 지칭된다. 예를 들어, "시간 도메인 다운믹스 모드"는 "다운믹스 모드"로 지칭되고, "시간 도메인 다운믹스 행렬"은 "다운믹스 행렬"로 지칭되고, "시간 도메인 업믹스 모드"는 "업믹스 모드"로 지칭되고, "시간 도메인 업믹스 행렬"은 "업믹스 행렬"로 지칭되고, "시간 도메인 업믹스 처리"는 "업믹스 처리"로 지칭되고, "시간 도메인 다운믹스 처리"는 "다운믹스 처리"로 지칭되며, 기타 등등이다.
본 출원의 실시예들에서 인코딩 모드, 디코딩 모드, 다운믹스 모드, 업믹스 모드, 및 채널 조합 방식과 같은 객체들의 명칭들은 예들이고, 실제 응용에서는 다른 명칭들이 대안적으로 사용될 수 있다는 것을 이해할 수 있다.
203. 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득하고; 현재 프레임의 획득된 주요 및 보조 채널 신호들을 인코딩한다.
현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리가 수행되어 현재 프레임의 주요 및 보조 채널 신호들을 획득할 수 있고, 현재 프레임의 획득된 주요 및 보조 채널 신호들은 추가로 인코딩되어 비트스트림을 획득한다. 현재 프레임의 채널 조합 방식 식별자(현재 프레임의 채널 조합 방식 식별자는 현재 프레임에 대한 채널 조합 방식을 나타내기 위해 사용됨)가 비트스트림에 추가로 기입될 수 있으므로, 디코딩 장치가 비트스트림에 포함되는 현재 프레임의 채널 조합 방식 식별자에 기초하여 현재 프레임에 대한 채널 조합 방식을 결정한다. 현재 프레임의 다운믹스 모드 식별자(현재 프레임의 다운믹스 모드 식별자는 현재 프레임의 다운믹스 모드를 나타내기 위해 사용됨)가 비트스트림에 추가로 기입될 수 있으므로, 디코딩 장치는 비트스트림에 포함되는 현재 프레임의 다운믹스 모드 식별자에 기초하여 현재 프레임의 다운믹스 모드를 결정한다.
이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계는 구체적으로 다양한 방식으로 구현될 수 있다.
구체적으로, 예를 들어, 일부 가능한 구현들에서, 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계는:
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식인 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A인 것으로 결정하고, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식인 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B인 것으로 결정하고, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식인 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C인 것으로 결정하고, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계; 또는
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식인 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D인 것으로 결정하고, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계를 포함할 수 있다.
다른 예로서, 일부 가능한 구현들에서, 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계는: 이전 프레임의 다운믹스 모드, 현재 프레임의 다운믹스 모드 스위칭 비용 값, 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계를 포함할 수 있다.
일부 가능한 구현들에서, 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용을 나타낼 수 있다. 예를 들어, 더 큰 다운믹스 모드 스위칭 비용 값은 더 큰 다운믹스 모드 스위칭 비용을 나타낸다.
예를 들어, 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 다운믹스 모드 스위칭 비용 함수에 기초하여 계산된 계산 결과일 수 있다(계산 결과는 다운믹스 모드 스위칭 비용 함수의 값이다). 다운믹스 모드 스위칭 비용 함수는, 예를 들어, 다음과 같은 파라미터들 중 적어도 하나에 기초하여 구성될 수 있다: 현재 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터(현재 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터는, 예를 들어, 현재 프레임의 채널 조합 비율 인자를 포함함), 이전 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터(이전 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터는, 예를 들어, 이전 프레임의 채널 조합 비율 인자를 포함함), 및 현재 프레임의 좌측 및 우측 채널 신호들.
다른 예로서, 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자일 수 있다.
예를 들어, 다운믹스 모드 스위칭 비용 함수는 다음과 같은 스위칭 비용 함수들 중 하나일 수 있다:
다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수, 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수, 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수, 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수, 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수, 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수, 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수, 및 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수.
구체적으로, 예를 들어, 도 4의 예에 도시된 바와 같이, 일부 가능한 구현들에서, 이전 프레임의 다운믹스 모드, 현재 프레임의 다운믹스 모드 스위칭 비용 값, 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계는:
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제1 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제1 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제2 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제2 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제3 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제3 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제4 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제4 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제5 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제5 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제6 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제6 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제7 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제7 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ; 또는
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제8 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계 - 다운믹스 모드 스위칭 비용 값은 다운믹스 모드 스위칭 비용 함수의 값이고, 제8 모드 스위칭 조건은 현재 프레임의 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - 를 포함할 수 있다.
구체적으로, 다른 예로서, 도 5의 예에 도시된 바와 같이, 일부 가능한 구현들에서, 이전 프레임의 다운믹스 모드, 현재 프레임의 다운믹스 모드 스위칭 비용 값, 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계는:
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제9 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제9 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S1보다 작거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제10 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제10 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S1보다 크거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제11 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제11 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S2보다 크거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제12 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제12 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S2보다 작거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제13 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제13 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S3보다 크거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제14 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제14 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S3보다 작거나 같다는 것임 - ;
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제15 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제15 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S4보다 작거나 같다는 것임 - ; 또는
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식이고, 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제16 다운믹스 모드 스위칭 조건을 충족하는 경우, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계 - 현재 프레임의 다운믹스 모드 스위칭 비용 값은 현재 프레임의 채널 조합 비율 인자이고, 제16 모드 스위칭 조건은 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S4보다 크거나 같다는 것임 - 를 포함할 수 있다.
채널 조합 비율 인자 임계값 S1의 값 범위는, 예를 들어, [0.4, 0.6]일 수 있다. 예를 들어, S1은 0.4, 0.42, 0.45, 0.5, 0.55, 0.58, 0.6, 또는 다른 값과 같을 수 있다.
채널 조합 비율 인자 임계값 S2의 값 범위는, 예를 들어, [0.4, 0.6]일 수 있다. 예를 들어, S2는 0.4, 0.42, 0.45, 0.5, 0.55, 0.57, 0.6, 또는 다른 값과 같을 수 있다.
채널 조합 비율 인자 임계값 S3의 값 범위는, 예를 들어, [0.4, 0.6]일 수 있다. 예를 들어, S3은 0.4, 0.42, 0.45, 0.5, 0.55, 0.59, 0.6, 또는 다른 값과 같을 수 있다.
채널 조합 비율 인자 임계값 S4의 값 범위는, 예를 들어, [0.4, 0.6]일 수 있다. 예를 들어, S4는 0.4, 0.43, 0.45, 0.5, 0.55, 0.58, 0.6, 또는 다른 값과 같을 수 있다.
채널 조합 비율 인자 임계값 S4의 값 범위의 전술한 예는 예시이며, 값 범위는 스위칭 측정에 기초하여 유연하게 설정될 수 있다는 것을 이해할 수 있다.
현재 프레임의 다운믹스 모드가 이전 프레임의 다운믹스 모드와 상이할 때, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간 도메인 다운믹스 처리가 수행될 수 있다. 현재 프레임의 다운믹스 모드가 이전 프레임의 다운믹스 모드와 상이할 때, 현재 프레임의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간 도메인 다운믹스 처리를 수행하는 메커니즘이 도입된다. 세그먼트화된 시간 도메인 다운믹스 처리 메커니즘은 채널 조합 방식의 평활한 전이(smooth transition)를 구현하는 것을 돕고, 그에 의해 인코딩 품질을 향상시키는 것을 돕는다.
전술한 인코딩 해결책에서, 현재 프레임에 대한 채널 조합 방식이 결정될 필요가 있고, 현재 프레임의 인코딩 모드는 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 결정될 필요가 있다는 것을 이해할 수 있다. 이것은, 현재 프레임에 대한 복수의 가능한 채널 조합 방식이 존재하고, 현재 프레임의 복수의 가능한 인코딩 모드가 존재한다는 것을 나타낸다. 하나의 채널 조합 방식 및 하나의 인코딩 모드만이 있는 종래의 해결책과 비교하여, 이것은 복수의 가능한 채널 조합 방식들, 복수의 인코딩 모드들, 및 복수의 가능한 시나리오들 사이의 더 나은 호환성 및 매칭을 달성하는 것을 돕고, 이에 의해 인코딩 품질을 향상시키는 것을 돕는다.
또한, 근사 이상 신호에 대응하는 채널 조합 방식이 도입되기 때문에, 현재 프레임의 스테레오 신호가 근사 이상 신호일 때, 보다 타겟팅된 채널 조합 방식 및 인코딩 모드가 존재하고, 이것은 인코딩 품질을 향상시키는 것을 돕는다.
또한, 상관성 신호 채널 조합 방식 및 비상관성 신호 채널 조합 방식에 대해 2개의 상이한 다운믹스 모드가 도입된다. 따라서, 대응하는 다운믹스 행렬들을 적절히 설계함으로써, 스위칭 위치에 대한 요건 없이 랜덤 스위칭을 구현하는 것을 돕는다.
대응하여, 다음은 예를 사용하여 시간 도메인 스테레오 디코딩 시나리오를 설명한다.
도 3을 참조하면, 다음은 오디오 디코딩 방법을 추가로 제공한다. 오디오 디코딩 방법의 관련 단계들은 디코딩 장치에 의해 구현될 수 있다. 이 방법은 다음의 단계들을 구체적으로 포함할 수 있다.
301. 비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들을 획득한다.
302. 비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 다운믹스 모드를 결정한다.
예를 들어, 디코딩 장치는 현재 프레임의 다운믹스 모드 식별자(현재 프레임의 다운믹스 모드 식별자는 현재 프레임의 다운믹스 모드를 나타냄)를 비트스트림에 기입한다. 이 경우, 비트스트림에 기초하여 디코딩이 수행되어, 현재 프레임의 다운믹스 모드 식별자를 획득할 수 있다. 또한, 현재 프레임의 다운믹스 모드는 디코딩을 통해 획득되는 현재 프레임의 다운믹스 모드 식별자에 기초하여 결정될 수 있다. 물론, 디코딩 장치는 대안적으로 인코딩 장치에 의해 사용되는 것과 유사한 방식으로 현재 프레임의 다운믹스 모드를 결정할 수 있거나, 또는 비트스트림에 포함된 다른 정보에 기초하여 현재 프레임의 다운믹스 모드를 결정할 수 있다.
이전 프레임의 다운믹스 모드는 다음의 복수의 다운믹스 모드들 중 하나일 수 있다: 다운믹스 모드 A, 다운믹스 모드 B, 다운믹스 모드 C, 및 다운믹스 모드 D. 다운믹스 모드 A 및 다운믹스 모드 D는 상관성 신호 다운믹스 모드들이다. 다운믹스 모드 B 및 다운믹스 모드 C는 비상관성 신호 다운믹스 모드들이다. 이전 프레임의 다운믹스 모드 A, 이전 프레임의 다운믹스 모드 B, 이전 프레임의 다운믹스 모드 C, 및 이전 프레임의 다운믹스 모드 D는 상이한 다운믹스 행렬들에 대응한다.
현재 프레임의 다운믹스 모드는 다음의 복수의 다운믹스 모드들 중 하나일 수 있다: 다운믹스 모드 A, 다운믹스 모드 B, 다운믹스 모드 C, 및 다운믹스 모드 D. 다운믹스 모드 A 및 다운믹스 모드 D는 상관성 신호 다운믹스 모드들이다. 다운믹스 모드 B 및 다운믹스 모드 C는 비상관성 신호 다운믹스 모드들이다. 현재 프레임의 다운믹스 모드 A, 현재 프레임의 다운믹스 모드 B, 현재 프레임의 다운믹스 모드 C, 및 현재 프레임의 다운믹스 모드 D는 상이한 다운믹스 행렬들에 대응한다.
상이한 다운믹스 행렬들은 상이한 업믹스 행렬들에 대응한다는 것을 이해할 수 있다.
예를 들어, 다운믹스 모드 식별자는, 예를 들어, 적어도 2개의 비트를 포함할 수 있다. 예를 들어, 다운믹스 모드 식별자의 값이 "00"일 때, 이것은 현재 프레임의 다운믹스 모드가 다운믹스 모드 A라는 것을 나타낼 수 있다. 예를 들어, 다운믹스 모드 식별자의 값이 "01"일 때, 이것은 현재 프레임의 다운믹스 모드가 다운믹스 모드 B라는 것을 나타낼 수 있다. 예를 들어, 다운믹스 모드 식별자의 값이 "10"일 때, 이것은 현재 프레임의 다운믹스 모드가 다운믹스 모드 C라는 것을 나타낼 수 있다. 예를 들어, 다운믹스 모드 식별자의 값이 "11"일 때, 이것은 현재 프레임의 다운믹스 모드가 다운믹스 모드 D라는 것을 나타낼 수 있다.
다운믹스 모드 A 및 다운믹스 모드 D가 상관성 신호 다운믹스 모드들이기 때문에, 디코딩을 통해 획득되는 현재 프레임의 다운믹스 모드 식별자에 기초하여, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A 또는 다운믹스 모드 D인 것으로 결정될 때, 현재 프레임에 대한 채널 조합 방식이 상관성 채널 조합 방식인 것으로 결정될 수 있다는 것을 이해할 수 있다.
유사하게, 다운믹스 모드 B 및 다운믹스 모드 C가 비상관성 신호 다운믹스 모드들이기 때문에, 디코딩을 통해 획득되는 현재 프레임의 다운믹스 모드 식별자에 기초하여, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B 또는 다운믹스 모드 C인 것으로 결정될 때, 현재 프레임에 대한 채널 조합 방식이 비상관성 채널 조합 방식인 것으로 결정될 수 있다는 것을 이해할 수 있다.
303. 이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여 현재 프레임의 인코딩 모드를 결정한다.
이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여, 현재 프레임의 인코딩 모드는 다운믹스 모드 스위칭 인코딩 모드 또는 다운믹스 모드 비-스위칭 인코딩 모드일 수 있다고 결정된다. 구체적으로, 다운믹스 모드 비-스위칭 인코딩 모드들은: 다운믹스 모드 A-대-다운믹스 모드 A 인코딩 모드, 다운믹스 모드 B-대-다운믹스 모드 B 인코딩 모드, 다운믹스 모드 C-대-다운믹스 모드 C 인코딩 모드, 및 다운믹스 모드 D-대-다운믹스 모드 D 인코딩 모드를 포함할 수 있다.
구체적으로, 다운믹스 모드 스위칭 인코딩 모드들은: 다운믹스 모드 A-대-다운믹스 모드 B 인코딩 모드, 다운믹스 모드 A-대-다운믹스 모드 C 인코딩 모드, 다운믹스 모드 B-대-다운믹스 모드 A 인코딩 모드, 다운믹스 모드 B-대-다운믹스 모드 D 인코딩 모드, 다운믹스 모드 C-대-다운믹스 모드 A 인코딩 모드, 다운믹스 모드 C-대-다운믹스 모드 D 인코딩 모드, 다운믹스 모드 D-대-다운믹스 모드 B 인코딩 모드, 및 다운믹스 모드 D-대-다운믹스 모드 C 인코딩 모드를 포함할 수 있다.
구체적으로, 예를 들어, 이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계는:
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 A이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 B이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 A인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 A 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 C이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 D인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 D 인코딩 모드인 것으로 결정하는 단계;
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 C인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 C 인코딩 모드인 것으로 결정하는 단계; 또는
이전 프레임의 다운믹스 모드가 다운믹스 모드 D이고, 현재 프레임의 다운믹스 모드가 다운믹스 모드 B인 경우, 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 B 인코딩 모드인 것으로 결정하는 단계를 포함할 수 있다.
304. 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대한 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득한다.
재구성된 좌측 및 우측 채널 신호들은 디코딩된 좌측 및 우측 채널 신호들일 수 있거나, 또는 재구성된 좌측 및 우측 채널 신호들에 대해 지연 조정 처리 및/또는 시간 도메인 후처리가 수행되어 디코딩된 좌측 및 우측 채널 신호들을 획득할 수 있다.
다운믹스 모드는 업믹스 모드에 대응하고, 인코딩 모드는 디코딩 모드에 대응한다는 것을 이해할 수 있다.
예를 들어, 현재 프레임의 다운믹스 모드가 이전 프레임의 다운믹스 모드와 상이할 때, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 세그먼트화된 시간 도메인 업믹스 처리가 수행될 수 있다. 현재 프레임의 다운믹스 모드가 이전 프레임의 다운믹스 모드와 상이할 때, 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 세그먼트화된 시간 도메인 업믹스 처리를 수행하는 메커니즘이 도입된다. 세그먼트화된 시간 도메인 업믹스 처리 메커니즘은 채널 조합 방식의 평활한 전이를 구현하는 것을 돕고, 그에 의해 인코딩 품질을 향상시키는 것을 돕는다.
전술한 디코딩 해결책에서, 현재 프레임의 인코딩 모드는 이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여 결정될 필요가 있다는 것을 이해할 수 있다. 이것은, 이전 프레임 및 현재 프레임의 복수의 가능한 다운믹스 모드가 존재하고, 현재 프레임의 복수의 가능한 인코딩 모드가 존재한다는 것을 나타낸다. 하나의 다운믹스 모드 및 하나의 인코딩 모드만이 있는 종래의 해결책과 비교하여, 이것은 복수의 가능한 다운믹스 모드들, 복수의 인코딩 모드들, 및 복수의 가능한 시나리오들 사이의 더 나은 호환성 및 매칭을 달성하는 것을 돕고, 이에 의해 인코딩 품질을 향상시키는 것을 돕는다.
또한, 근사 이상 신호에 대응하는 채널 조합 방식이 도입되기 때문에, 현재 프레임의 스테레오 신호가 근사 이상 신호일 때, 보다 타겟팅된 채널 조합 방식 및 인코딩 모드가 존재하고, 이것은 인코딩 품질을 향상시키는 것을 돕는다.
다음은 인코딩 장치에 의해 현재 프레임에 대한 채널 조합 방식을 결정하는 일부 특정 구현들의 예들을 설명한다. 인코딩 장치에 의해 현재 프레임에 대한 채널 조합 방식을 결정하는 것은 구체적으로 다양한 방식으로 구현될 수 있다.
현재 프레임의 다운믹스 모드가 이전 프레임의 다운믹스 모드와 상이할 때, 현재 프레임의 인코딩 모드는, 예를 들어, 다운믹스 모드 스위칭 인코딩 모드일 수 있다고 결정될 수 있다. 이 경우, 현재 프레임의 다운믹스 모드 및 이전 프레임의 다운믹스 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간 도메인 다운믹스 처리(segmented time-domain downmix processing)가 수행될 수 있다.
현재 프레임에 대한 채널 조합 방식이 이전 프레임에 대한 채널 조합 방식과 상이할 때, 현재 프레임의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간 도메인 다운믹스 처리를 수행하는 메커니즘이 도입된다. 세그먼트화된 시간 도메인 다운믹스 처리 메커니즘은 채널 조합 방식의 평활한 전이(smooth transition)를 구현하는 것을 돕고, 그에 의해 인코딩 품질을 향상시키는 것을 돕는다.
일부 가능한 구현들에서, 현재 프레임에 대한 채널 조합 방식을 결정하는 단계는: 현재 프레임의 좌측 및 우측 채널 신호들을 사용하여 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입을 결정하는 단계; 및 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입 및 이전 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임에 대한 채널 조합 방식을 결정하는 단계를 포함할 수 있다. 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입은 근사 동상 신호 또는 근사 이상 신호일 수 있다. 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입은 현재 프레임의 근사 동상/이상 신호 타입 식별자를 사용하여 나타낼 수 있다. 구체적으로, 예를 들어, 현재 프레임의 근사 동상/이상 신호 타입 식별자의 값이 "1"일 때, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입은 근사 동상 신호이거나; 또는 현재 프레임의 근사 동상/이상 신호 타입 식별자의 값이 "0"일 때, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입은 근사 이상 신호이며; 그 반대도 가능하다.
오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)에 대한 채널 조합 방식은 오디오 프레임의 채널 조합 방식 식별자를 사용하여 나타낼 수 있다. 구체적으로, 예를 들어, 오디오 프레임의 채널 조합 방식 식별자의 값이 "0"일 때, 오디오 프레임에 대한 채널 조합 방식은 상관성 신호 채널 조합 방식이거나; 또는 오디오 프레임의 채널 조합 방식 식별자의 값이 "1"일 때, 오디오 프레임에 대한 채널 조합 방식은 비상관성 신호 채널 조합 방식이며; 그 반대도 가능하다.
현재 프레임의 좌측 및 우측 채널 신호들을 사용하여 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입을 결정하는 단계는: 현재 프레임의 좌측 및 우측 채널 신호들 사이의 상관의 값 xorr을 계산하는 단계; 및 xorr이 제1 임계값보다 작거나 같을 때, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 동상 신호인 것으로 결정하는 단계; xorr이 제1 임계값보다 클 때, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 이상 신호인 것으로 결정하는 단계를 포함할 수 있다. 또한, 현재 프레임의 근사 동상/이상 신호 타입 식별자가 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입을 나타내기 위해 사용되는 경우, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 동상 신호인 것으로 결정될 때, 현재 프레임의 근사 동상/이상 신호 타입 식별자의 값은, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 동상 신호인 것을 나타내도록 설정될 수 있거나; 또는 현재 프레임의 근사 동상/이상 신호 타입이 근사 이상 신호인 것으로 결정될 때, 현재 프레임의 근사 동상/이상 신호 타입 식별자의 값은, 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 이상 신호인 것을 나타내도록 설정될 수 있다.
제1 임계값의 값 범위는, 예를 들어, [0.5, 1.0)일 수 있다. 예를 들어, 제1 임계값은 0.5, 0.85, 0.75, 0.65, 또는 0.81과 같을 수 있다.
구체적으로, 예를 들어, 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)의 근사 동상/이상 신호 타입 식별자의 값이 "0"일 때, 오디오 프레임의 스테레오 신호의 근사 동상/이상 신호 타입은 근사 동상 신호이거나; 또는 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)의 근사 동상/이상 신호 타입 식별자의 값이 "1"일 때, 오디오 프레임의 스테레오 신호의 근사 동상/이상 신호 타입은 근사 이상 신호이고; 기타 등등이다.
현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입 및 이전 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임에 대한 채널 조합 방식을 결정하는 단계는, 예를 들어:
현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 동상 신호이고 이전 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식일 때, 현재 프레임에 대한 채널 조합 방식은 상관성 신호 채널 조합 방식인 것으로 결정하는 단계; 또는 현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 이상 신호이고 이전 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식일 때, 현재 프레임에 대한 채널 조합 방식은 비상관성 신호 채널 조합 방식인 것으로 결정하는 단계;
현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 동상 신호이고 이전 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식일 때, 현재 프레임의 좌측 및 우측 채널 신호들의 신호 대 잡음비들이 둘 다 제2 임계값보다 작은 경우, 현재 프레임에 대한 채널 조합 방식은 상관성 신호 채널 조합 방식인 것으로 결정하는 단계; 또는 현재 프레임의 좌측 채널 신호의 신호 대 잡음비 및/또는 우측 채널 신호의 신호 대 잡음비가 제2 임계값보다 크거나 같은 경우, 현재 프레임에 대한 채널 조합 방식은 비상관성 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
현재 프레임의 스테레오 신호의 근사 동상/이상 신호 타입이 근사 이상 신호이고 이전 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식일 때, 현재 프레임의 좌측 및 우측 채널 신호들의 신호 대 잡음비들이 둘 다 제2 임계값보다 작은 경우, 현재 프레임에 대한 채널 조합 방식은 비상관성 신호 채널 조합 방식인 것으로 결정하는 단계; 또는 현재 프레임의 좌측 채널 신호의 신호 대 잡음비 및/또는 우측 채널 신호의 신호 대 잡음비가 제2 임계값보다 크거나 같은 경우, 현재 프레임에 대한 채널 조합 방식은 상관성 신호 채널 조합 방식인 것으로 결정하는 단계를 포함할 수 있다.
제2 임계값의 값 범위는, 예를 들어, [0.8, 1.2] 일 수 있다. 예를 들어, 제2 임계값은 0.8, 0.85, 0.9, 1, 1.1, 또는 1.18과 같을 수 있다.
현재 프레임의 채널 조합 방식 식별자가 tdm_SM_flag로서 표시될 수 있다.
이전 프레임의 채널 조합 방식 식별자가 tdm_last_SM_flag로서 표시될 수 있다.
전술한 예들은 현재 프레임에 대한 채널 조합 방식을 결정하는 일부 구현들을 제공하지만, 실제 응용은 전술한 예시적인 방식들로 제한되지 않을 수 있다는 것을 이해할 수 있다.
다음은 예들을 사용하여 다양한 다운믹스 모드 스위칭 비용 함수들을 설명한다. 다운믹스 모드 스위칭 비용 함수는 다음과 같은 스위칭 비용 함수들 중 하나일 수 있다: 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수, 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수, 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수, 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수, 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수, 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수, 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수, 및 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수. 예를 들어, 다운믹스 모드 스위칭 비용 함수는, 예를 들어, 다음과 같은 파라미터들 중 적어도 하나에 기초하여 구성될 수 있다: 현재 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터(현재 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터는, 예를 들어, 현재 프레임의 채널 조합 비율 인자를 포함함), 이전 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터(이전 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터는, 예를 들어, 이전 프레임의 채널 조합 비율 인자를 포함함), 및 현재 프레임의 좌측 및 우측 채널 신호들.
실제 응용에서, 스위칭 비용 함수는 다양한 방식들로 구체적으로 구성될 수 있다. 다음은 예들을 사용하여 설명들을 제공한다.
예를 들어, 현재 프레임의 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00042
여기서, Cost_AB는 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_A는 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_A는 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_A는 0보다 크고 N-1보다 작은 정수이고, end_sample_A는 0보다 크고 N-1보다 작은 정수이고, start_sample_A는 end_sample_A보다 작고,
예를 들어, end_sample_A-start_sample_A의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_A-start_sample_A는 60, 69, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio이고, tdm_last_ratio은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00043
여기서, Cost_AC는 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_A는 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_A는 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_A는 0보다 크고 N-1보다 작은 정수이고, end_sample_A는 0보다 크고 N-1보다 작은 정수이고, start_sample_A는 end_sample_A보다 작고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio이고, tdm_last_ratio은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수는 다음과 같다:
Figure 112020063801644-pct00044
여기서, Cost_BA는 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_B는 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_B는 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_B는 0보다 크고 N-1보다 작은 정수이고, end_sample_B는 0보다 크고 N-1보다 작은 정수이고, start_sample_B는 end_sample_B보다 작고,
예를 들어, end_sample_B-start_sample_B의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_B-start_sample_B는 60, 67, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio이고, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00045
여기서, Cost_BD는 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_B는 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_B는 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_B는 0보다 크고 N-1보다 작은 정수이고, end_sample_B는 0보다 크고 N-1보다 작은 정수이고, start_sample_B는 end_sample_B보다 작고,
예를 들어, end_sample_B-start_sample_B의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_B-start_sample_B는 60, 67, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
삭제
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio이고, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00046
여기서, Cost_CD는 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_C는 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_C는 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_C는 0보다 크고 N-1보다 작은 정수이고, end_sample_C는 0보다 크고 N-1보다 작은 정수이고, start_sample_C는 end_sample_C보다 작고,
예를 들어, end_sample_C-start_sample_C의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_C-start_sample_C는 60, 71, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio이고, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00047
여기서, Cost_CA는 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_C는 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_C는 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_C는 0보다 크고 N-1보다 작은 정수이고, end_sample_C는 0보다 크고 N-1보다 작은 정수이고, start_sample_C는 end_sample_C보다 작고,
예를 들어, end_sample_C-start_sample_C의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_C-start_sample_C는 60, 71, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio이고, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00048
여기서, Cost_DC는 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_D는 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_D는 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_D는 0보다 크고 N-1보다 작은 정수이고, end_sample_D는 0보다 크고 N-1보다 작은 정수이고, start_sample_D는 end_sample_D보다 작고,
예를 들어, end_sample_D-start_sample_D의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_D-start_sample_D는 60, 73, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio이고, tdm_last_ratio은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다른 예로서, 현재 프레임의 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수는 다음과 같다:
Figure 112020063801644-pct00049
여기서, Cost_DB는 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_D는 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_D는 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_D는 0보다 크고 N-1보다 작은 정수이고, end_sample_D는 0보다 크고 N-1보다 작은 정수이고, start_sample_D는 end_sample_D보다 작고,
예를 들어, end_sample_D-start_sample_D의 값 범위는 [60, 200]일 수 있고, 예를 들어, end_sample_D-start_sample_D는 60, 73, 80, 100, 120, 150, 180, 191, 200, 또는 다른 값과 같으며;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고;
α1=ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고;
α1_pre=tdm_last_ratio이고, tdm_last_ratio은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다음은, 예들을 사용하여, 현재 프레임의 상이한 다운믹스 모드들에 대응하는 일부 다운믹스 행렬들 및 업믹스 행렬들을 설명한다.
예를 들어, M2A는 현재 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타내고, M2A는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 이 경우, 예를 들어,
Figure 112020063801644-pct00050
여기서, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00051
는 현재 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬 M2A에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00052
는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00053
예를 들어, M2B는 현재 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타내고, M2B는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00054
여기서, α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00055
는 현재 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬 M2B에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00056
는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00057
여기서, α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
예를 들어, M2C는 현재 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고, M2C는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00058
여기서, α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00059
는 현재 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬 M2C에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00060
는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00061
여기서, α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
예를 들어, M2D는 현재 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타내고, M2D는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00062
여기서, α1=ratio_SM, α2=1-ratio_SM이고, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00063
는 현재 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬 M2D에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00064
는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00065
여기서, α1=ratio, α2=1-ratio이고, ratio는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
다음은 예들을 사용하여 이전 프레임에 대한 일부 다운믹스 행렬들 및 업믹스 행렬들을 설명한다.
예를 들어, M1A는 이전 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타내고, M1A는 이전 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 이 경우, 예를 들어,
Figure 112020063801644-pct00066
여기서, α1_pre=tdm_last_ratio이고, tdm_last_ratio는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00067
는 이전 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬 M1A에 대응하는 업믹스 행렬을 나타내고(
Figure 112020063801644-pct00068
는 줄여서 이전 프레임의 다운믹스 모드 A에 대응하는 업믹스 행렬로 지칭됨),
Figure 112020063801644-pct00069
는 이전 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00070
여기서, α1_pre=tdm_last_ratio이고, tdm_last_ratio는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
예를 들어, M1B는 이전 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타내고, M1B는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00071
여기서, α1_pre=tdm_last_ratio_SM, α2_pre=1-α1_pre이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00072
는 이전 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬 M1B에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00073
는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00074
여기서, α1_pre=tdm_last_ratio_SM, α2_pre=1-α1_pre이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
예를 들어, M1C는 이전 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고, M1C는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00075
여기서, α1_pre=tdm_last_ratio_SM, α2_pre=1-α1_pre이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00076
는 이전 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬 M1C에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00077
는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00078
여기서, α1_pre=tdm_last_ratio_SM, α2_pre=1-α1_pre이고, tdm_last_ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
예를 들어, M1D는 이전 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타내고, M1D는 이전 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00079
여기서, α1_pre=tdm_last_ratio, α2_pre=1-α1_pre이고, tdm_last_ratio는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
대응하여,
Figure 112020063801644-pct00080
는 이전 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬 M1D에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00081
는 이전 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 예를 들어,
Figure 112020063801644-pct00082
여기서, α1_pre=tdm_last_ratio, α2_pre=1-α1_pre이고, tdm_last_ratio는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
전술한 예시적인 형태들의 다운믹스 행렬들 및 업믹스 행렬들은 예들이고, 물론, 실제 응용에서 다른 형태들의 다운믹스 행렬들 및 업믹스 행렬들이 또한 존재할 수 있다는 것을 이해할 수 있다.
다음은 예들을 사용하여 인코딩 모드들의 상이한 시나리오들 및 디코딩 모드들의 대응하는 시나리오들을 추가로 설명한다. 상이한 인코딩 모드들은 보통 상이한 시간 도메인 다운믹스 처리 방식들에 대응하고, 각각의 인코딩 모드는 또한 하나 이상의 시간 도메인 다운믹스 처리 방식들에 대응할 수 있다는 것을 이해할 수 있다.
다음은, 예들을 사용하여, 현재 프레임의 다운믹스 모드가 이전 프레임의 다운믹스 모드와 동일한 일부 인코딩/디코딩 경우들을 먼저 설명한다.
먼저, 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 A 인코딩 모드인 경우의 인코딩 시나리오 및 디코딩 시나리오가 예들을 사용하여 설명된다.
예를 들어, 현재 프레임의 인코딩 모드는 다운믹스 모드 A-대-다운믹스 모드 A 인코딩 모드이다. 이 경우, 일부 가능한 인코딩 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00083
여기서, XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타내고, n은 샘플링 포인트의 시퀀스 번호를 나타내고, M2A는 현재 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00084
여기서, n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00085
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00086
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00087
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00088
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고,
Figure 112020063801644-pct00089
는 현재 프레임의 다운믹스 모드 A에 대응하는 업믹스 행렬을 나타낸다.
다른 예로서, 현재 프레임의 인코딩 모드는 다운믹스 모드 A-대-다운믹스 모드 A 인코딩 모드이다. 이 경우, 일부 다른 가능한 인코딩 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00090
여기서, XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00091
여기서, n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00092
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00093
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00094
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00095
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고;
upmixing_delay는 디코딩 지연 보상을 나타내고;
delay_com은 인코딩 지연 보상을 나타내고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고, 예를 들어, n = 0, 1, ..., N-1이고;
M1A는 이전 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타내고, M2A는 현재 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타내고,
Figure 112020064048200-pct00388
는 이전 프레임의 다운믹스 모드 A에 대응하는 업믹스 행렬을 나타내고,
Figure 112020064048200-pct00389
는 현재 프레임의 다운믹스 모드 A에 대응하는 업믹스 행렬을 나타낸다.
다른 예로서, 현재 프레임의 인코딩 모드는 다운믹스 모드 A-대-다운믹스 모드 A 인코딩 모드이다. 이 경우, 일부 다른 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00098
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00099
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00100
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00101
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00102
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00103
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
NOVA_A는 다운믹스 모드 A에 대응하는 전이 처리 길이(transition processing length)를 나타내고, NOVA_A의 값은 특정 시나리오의 요건에 기초하여 설정될 수 있고, 예를 들어, NOVA_A는 3/N과 같을 수 있거나, 또는 NOVA_A는 N보다 작은 다른 값일 수 있다.
다음은 예들을 사용하여 다운믹스 모드 B-대-다운믹스 모드 B 인코딩 모드의 시나리오들을 설명한다.
예를 들어, 현재 프레임의 인코딩 모드는 다운믹스 모드 B-대-다운믹스 모드 B 인코딩 모드이다. 이 경우, 일부 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00104
여기서, XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타내고, n은 샘플링 포인트의 시퀀스 번호를 나타내고, M2B는 현재 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타낸다.
다른 예로서, 현재 프레임의 인코딩 모드는 다운믹스 모드 B-대-다운믹스 모드 B 인코딩 모드이다. 이 경우, 일부 다른 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00105
여기서, XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타내고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고, delay_com은 인코딩 지연 보상을 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00106
여기서, n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00107
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00108
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00109
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00110
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고;
upmixing_delay는 디코딩 지연 보상을 나타내고;
delay_com은 인코딩 지연 보상을 나타내고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고, 예를 들어, n = 0, 1, ..., N-1이고;
M1B는 이전 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타내고, M2B는 현재 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타내고,
Figure 112020064048200-pct00390
는 이전 프레임의 다운믹스 모드 B에 대응하는 업믹스 행렬을 나타내고,
Figure 112020064048200-pct00391
는 현재 프레임의 다운믹스 모드 B에 대응하는 업믹스 행렬을 나타낸다.
다른 예로서, 현재 프레임의 인코딩 모드는 다운믹스 모드 B-대-다운믹스 모드 B 인코딩 모드이다. 이 경우, 일부 다른 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00113
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00114
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00115
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00116
fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00117
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00118
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
NOVA_B는 다운믹스 모드 B에 대응하는 전이 처리 길이를 나타내고, NOVA_B의 값은 특정 시나리오의 요건에 기초하여 설정될 수 있고, 예를 들어, NOVA_B는 3/N과 같을 수 있거나, 또는 NOVA_B는 N보다 작은 다른 값일 수 있다.
다음은 예들을 사용하여 다운믹스 모드 C-대-다운믹스 모드 C 인코딩 모드의 시나리오들을 설명한다.
예를 들어, 현재 프레임의 인코딩 모드는 다운믹스 모드 C-대-다운믹스 모드 C 인코딩 모드이다. 이 경우, 일부 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00119
여기서, XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타내고, n은 샘플링 포인트의 시퀀스 번호를 나타내고, M2C는 현재 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고,
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00120
여기서, n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020064048200-pct00392
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020064048200-pct00393
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020064048200-pct00394
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020064048200-pct00395
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고,
Figure 112020064048200-pct00396
는 현재 프레임의 다운믹스 모드 C에 대응하는 업믹스 행렬을 나타낸다.
다른 예로서, 현재 프레임의 인코딩 모드는 다운믹스 모드 C-대-다운믹스 모드 C 인코딩 모드이다. 이 경우, 일부 다른 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00126
여기서, XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00127
여기서, n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00128
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00129
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00130
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00131
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고;
upmixing_delay는 디코딩 지연 보상을 나타내고;
delay_com은 인코딩 지연 보상을 나타내고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고, 예를 들어, n = 0, 1, ..., N-1이고;
M1C는 이전 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고, M2C는 현재 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고,
Figure 112020064048200-pct00397
는 이전 프레임의 다운믹스 모드 C에 대응하는 업믹스 행렬을 나타내고,
Figure 112020064048200-pct00398
는 현재 프레임의 다운믹스 모드 C에 대응하는 업믹스 행렬을 나타낸다.
다른 예로서, 현재 프레임의 인코딩 모드는 다운믹스 모드 C-대-다운믹스 모드 C 인코딩 모드이다. 이 경우, 일부 다른 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00134
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00135
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00136
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00137
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00138
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00139
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
NOVA_C는 다운믹스 모드 C에 대응하는 전이 처리 길이를 나타내고, NOVA_C의 값은 특정 시나리오의 요건에 기초하여 설정될 수 있고, 예를 들어, NOVA_C는 3/N과 같을 수 있거나, 또는 NOVA_C는 N보다 작은 다른 값일 수 있다.
다음은 예들을 사용하여 다운믹스 모드 D-대-다운믹스 모드 D 인코딩 모드의 시나리오들을 설명한다.
예를 들어, 현재 프레임의 인코딩 모드는 다운믹스 모드 D-대-다운믹스 모드 D 인코딩 모드이다. 이 경우, 일부 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00140
여기서, XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타내고, n은 샘플링 포인트의 시퀀스 번호를 나타내고, M2D는 현재 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00141
여기서, n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00142
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00143
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00144
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00145
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고,
Figure 112020063801644-pct00146
는 현재 프레임의 다운믹스 모드 D에 대응하는 업믹스 행렬을 나타낸다.
다른 예로서, 현재 프레임의 인코딩 모드는 다운믹스 모드 D-대-다운믹스 모드 D 인코딩 모드이다. 이 경우, 일부 다른 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00147
여기서, XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00148
여기서, n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00149
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00150
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00151
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00152
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고;
upmixing_delay는 디코딩 지연 보상을 나타내고;
delay_com은 인코딩 지연 보상을 나타내고;
N은 프레임 길이를 나타내고, 예를 들어, n = 0, 1, ..., N-1이고;
M1D는 이전 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타내고, M2D는 현재 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타내고,
Figure 112020064048200-pct00399
는 이전 프레임의 다운믹스 모드 D에 대응하는 업믹스 행렬을 나타내고,
Figure 112020064048200-pct00400
는 현재 프레임의 다운믹스 모드 D에 대응하는 업믹스 행렬을 나타낸다.
다른 예로서, 현재 프레임의 인코딩 모드는 다운믹스 모드 D-대-다운믹스 모드 D 인코딩 모드이다. 이 경우, 일부 다른 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00155
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00156
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00157
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00158
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00159
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00160
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
NOVA_D는 다운믹스 모드 D에 대응하는 전이 처리 길이를 나타내고, NOVA_D의 값은 특정 시나리오의 요건에 기초하여 설정될 수 있고, 예를 들어, NOVA_D는 3/N과 같을 수 있거나, 또는 NOVA_D는 N보다 작은 다른 값일 수 있다.
다음은, 예들을 사용하여, 현재 프레임의 다운믹스 모드가 이전 프레임의 다운믹스 모드와 상이한 일부 인코딩/디코딩 경우들을 설명한다. 예를 들어, 현재 프레임의 다운믹스 모드가 이전 프레임의 다운믹스 모드와 상이할 때, 디코딩 장치는 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간 도메인 업믹스 처리를 수행할 수 있다. 예를 들어, 현재 프레임의 다운믹스 모드가 이전 프레임의 다운믹스 모드와 상이할 때, 디코딩/인코딩 장치는 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 세그먼트화된 시간 도메인 업믹스 처리를 수행할 수 있다.
다음은 예들을 사용하여 다운믹스 모드 A-대-다운믹스 모드 B 인코딩 모드의 시나리오들을 먼저 설명한다.
구체적으로, 예를 들어, 현재 프레임의 인코딩 모드는 다운믹스 모드 A-대-다운믹스 모드 B 인코딩 모드이다. 이 경우, 일부 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00161
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00162
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00163
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00164
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00165
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00166
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00167
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00168
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00169
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00170
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고;
NOVA_AB는 다운믹스 모드 A-대-다운믹스 모드 B 스위칭에 대응하는 전이 처리 길이를 나타내고, NOVA_AB의 값은 특정 시나리오의 요건에 기초하여 설정될 수 있고, 예를 들어, NOVA_AB는 3/N과 같을 수 있거나, 또는 NOVA_AB는 N보다 작은 다른 값일 수 있고;
N은 프레임 길이를 나타내고, 예를 들어, n = 0, 1, ..., N-1이고;
delay_com은 인코딩 지연 보상을 나타내고, upmixing_delay는 디코딩 지연 보상을 나타내고;
M1A는 이전 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타내고, M2B는 현재 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타내고,
Figure 112020063801644-pct00171
는 이전 프레임의 다운믹스 모드 A에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00172
는 현재 프레임의 다운믹스 모드 B에 대응하는 업믹스 행렬을 나타낸다.
다음은 예들을 사용하여 다운믹스 모드 A-대-다운믹스 모드 C 인코딩 모드의 시나리오들을 설명한다.
구체적으로, 예를 들어, 현재 프레임의 인코딩 모드는 다운믹스 모드 A-대-다운믹스 모드 C 인코딩 모드이다. 이 경우, 일부 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00173
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00174
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00175
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00176
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00177
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00178
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00179
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00180
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00181
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00182
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고;
NOVA_AC는 다운믹스 모드 A-대-다운믹스 모드 C 스위칭에 대응하는 전이 처리 길이를 나타내고, NOVA_AC의 값은 특정 시나리오의 요건에 기초하여 설정될 수 있고, 예를 들어, NOVA_AC는 3/N과 같을 수 있거나, 또는 NOVA_AC는 N보다 작은 다른 값일 수 있고;
N은 프레임 길이를 나타내고, 예를 들어, n = 0, 1, ..., N-1이고;
delay_com은 인코딩 지연 보상을 나타내고, upmixing_delay는 디코딩 지연 보상을 나타내고;
M1A는 이전 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타내고, M2C는 현재 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고,
Figure 112020063801644-pct00183
는 이전 프레임의 다운믹스 모드 A에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00184
는 현재 프레임의 다운믹스 모드 C에 대응하는 업믹스 행렬을 나타낸다.
다음은 예들을 사용하여 다운믹스 모드 B-대-다운믹스 모드 A 인코딩 모드의 시나리오들을 설명한다.
구체적으로, 예를 들어, 현재 프레임의 인코딩 모드는 다운믹스 모드 B-대-다운믹스 모드 A 인코딩 모드이다. 이 경우, 일부 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00185
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00186
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00187
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00188
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00189
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00190
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00191
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00192
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00193
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00194
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고;
NOVA_BA는 다운믹스 모드 B-대-다운믹스 모드 A 스위칭에 대응하는 전이 처리 길이를 나타내고, NOVA_BA의 값은 특정 시나리오의 요건에 기초하여 설정될 수 있고, 예를 들어, NOVA_BA는 3/N과 같을 수 있거나, 또는 NOVA_BA는 N보다 작은 다른 값일 수 있고;
N은 프레임 길이를 나타내고, 예를 들어, n = 0, 1, ..., N-1이고;
delay_com은 인코딩 지연 보상을 나타내고, upmixing_delay는 디코딩 지연 보상을 나타내고;
M1B는 이전 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타내고, M2A는 현재 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타내고,
Figure 112020063801644-pct00195
는 이전 프레임의 다운믹스 모드 B에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00196
는 현재 프레임의 다운믹스 모드 A에 대응하는 업믹스 행렬을 나타낸다.
다음은 예들을 사용하여 다운믹스 모드 B-대-다운믹스 모드 D 인코딩 모드의 시나리오들을 설명한다.
구체적으로, 예를 들어, 현재 프레임의 인코딩 모드는 다운믹스 모드 B-대-다운믹스 모드 D 인코딩 모드이다. 이 경우, 일부 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00197
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00198
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00199
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00200
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00201
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00202
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00203
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00204
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00205
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00206
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고;
NOVA_BD는 다운믹스 모드 B-대-다운믹스 모드 D 스위칭에 대응하는 전이 처리 길이를 나타내고, NOVA_BD의 값은 특정 시나리오의 요건에 기초하여 설정될 수 있고, 예를 들어, NOVA_BD는 3/N과 같을 수 있거나, 또는 NOVA_BD는 N보다 작은 다른 값일 수 있고;
N은 프레임 길이를 나타내고, 예를 들어, n = 0, 1, ..., N-1이고;
delay_com은 인코딩 지연 보상을 나타내고, upmixing_delay는 디코딩 지연 보상을 나타내고;
M1B는 이전 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타내고, M2D는 현재 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타내고,
Figure 112020063801644-pct00207
는 이전 프레임의 다운믹스 모드 B에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00208
는 현재 프레임의 다운믹스 모드 D에 대응하는 업믹스 행렬을 나타낸다.
다음은 예들을 사용하여 다운믹스 모드 C-대-다운믹스 모드 A 인코딩 모드의 시나리오들을 설명한다.
구체적으로, 예를 들어, 현재 프레임의 인코딩 모드는 다운믹스 모드 C-대-다운믹스 모드 A 인코딩 모드이다. 이 경우, 일부 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00209
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00210
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00211
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00212
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00213
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00214
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00215
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00216
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00217
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00218
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고;
NOVA_CA는 다운믹스 모드 C-대-다운믹스 모드 A 스위칭에 대응하는 전이 처리 길이를 나타내고, NOVA_CA의 값은 특정 시나리오의 요건에 기초하여 설정될 수 있고, 예를 들어, NOVA_CA는 3/N과 같을 수 있거나, 또는 NOVA_CA는 N보다 작은 다른 값일 수 있고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
delay_com은 인코딩 지연 보상을 나타내고, upmixing_delay는 디코딩 지연 보상을 나타내고;
M1C는 이전 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고, M2A는 현재 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타내고,
Figure 112020063801644-pct00219
는 이전 프레임의 다운믹스 모드 C에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00220
는 현재 프레임의 다운믹스 모드 A에 대응하는 업믹스 행렬을 나타낸다.
다음은 예들을 사용하여 다운믹스 모드 C-대-다운믹스 모드 D 인코딩 모드의 시나리오들을 설명한다.
구체적으로, 예를 들어, 현재 프레임의 인코딩 모드는 다운믹스 모드 C-대-다운믹스 모드 D 인코딩 모드이다. 이 경우, 일부 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00221
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00222
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00223
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00224
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00225
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00226
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00227
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00228
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00229
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00230
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고;
NOVA_CD는 다운믹스 모드 C-대-다운믹스 모드 D 스위칭에 대응하는 전이 처리 길이를 나타내고, NOVA_CD의 값은 특정 시나리오의 요건에 기초하여 설정될 수 있고, 예를 들어, NOVA_CD는 3/N과 같을 수 있거나, 또는 NOVA_CD는 N보다 작은 다른 값일 수 있고;
N은 프레임 길이를 나타내고, 예를 들어, n = 0, 1, ..., N-1이고;
delay_com은 인코딩 지연 보상을 나타내고, upmixing_delay는 디코딩 지연 보상을 나타내고;
M1C는 이전 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고, M2D는 현재 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타내고,
Figure 112020063801644-pct00231
는 이전 프레임의 다운믹스 모드 C에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00232
는 현재 프레임의 다운믹스 모드 D에 대응하는 업믹스 행렬을 나타낸다.
다음은 예들을 사용하여 다운믹스 모드 D-대-다운믹스 모드 C 인코딩 모드의 시나리오들을 설명한다.
구체적으로, 예를 들어, 현재 프레임의 인코딩 모드는 다운믹스 모드 D-대-다운믹스 모드 C 인코딩 모드이다. 이 경우, 일부 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00233
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00234
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00235
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00236
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00237
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00238
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00239
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00240
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00241
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00242
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고;
NOVA_DC는 다운믹스 모드 D-대-다운믹스 모드 C 스위칭에 대응하는 전이 처리 길이를 나타내고, NOVA_DC의 값은 특정 시나리오의 요건에 기초하여 설정될 수 있고, 예를 들어, NOVA_DC는 3/N과 같을 수 있거나, 또는 NOVA_DC는 N보다 작은 다른 값일 수 있고;
n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
delay_com은 인코딩 지연 보상을 나타내고, upmixing_delay는 디코딩 지연 보상을 나타내고;
M1D는 이전 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타내고, M2C는 현재 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고,
Figure 112020063801644-pct00243
는 이전 프레임의 다운믹스 모드 D에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00244
는 현재 프레임의 다운믹스 모드 C에 대응하는 업믹스 행렬을 나타낸다.
다음은 예들을 사용하여 다운믹스 모드 D-대-다운믹스 모드 B 인코딩 모드의 시나리오들을 설명한다.
구체적으로, 예를 들어, 현재 프레임의 인코딩 모드는 다운믹스 모드 D-대-다운믹스 모드 B 인코딩 모드이다. 이 경우, 일부 가능한 구현들에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득할 때,
Figure 112020063801644-pct00245
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00246
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00247
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
XL(n)은 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 현재 프레임의 우측 채널 신호를 나타내고, Y(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 주요 채널 신호를 나타내고, X(n)은 시간 도메인 다운믹스 처리를 통해 획득되는 현재 프레임의 보조 채널 신호를 나타낸다.
대응하여, 대응하는 디코딩 시나리오에서, 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대해 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 때,
Figure 112020063801644-pct00248
여기서, fade_in(n)은 페이드-인 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00249
이고, 물론, fade_in(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-인 인자일 수 있고;
fade_out(n)은 페이드-아웃 인자를 나타내고, 예를 들어,
Figure 112020063801644-pct00250
이고, 물론, fade_out(n)은 대안적으로 n의 다른 함수 관계에 기초한 페이드-아웃 인자일 수 있고;
여기서, n은 샘플링 포인트의 시퀀스 번호를 나타내고,
Figure 112020063801644-pct00251
는 현재 프레임의 재구성된 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00252
는 현재 프레임의 재구성된 우측 채널 신호를 나타내고,
Figure 112020063801644-pct00253
는 현재 프레임의 디코딩된 주요 채널 신호를 나타내고,
Figure 112020063801644-pct00254
는 현재 프레임의 디코딩된 보조 채널 신호를 나타내고;
NOVA_DB는 다운믹스 모드 D-대-다운믹스 모드 B 스위칭에 대응하는 전이 처리 길이를 나타내고, NOVA_DB의 값은 특정 시나리오의 요건에 기초하여 설정될 수 있고, 예를 들어, NOVA_DB는 3/N과 같을 수 있거나, 또는 NOVA_DB는 N보다 작은 다른 값일 수 있고;
N은 프레임 길이를 나타내고, 예를 들어, n = 0, 1, ..., N-1이고;
delay_com은 인코딩 지연 보상을 나타내고, upmixing_delay는 디코딩 지연 보상을 나타내고;
M1D는 이전 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타내고, M2B는 현재 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타내고,
Figure 112020063801644-pct00255
는 이전 프레임의 다운믹스 모드 D에 대응하는 업믹스 행렬을 나타내고,
Figure 112020063801644-pct00256
는 현재 프레임의 다운믹스 모드 B에 대응하는 업믹스 행렬을 나타낸다.
전술한 예시적인 인코딩/디코딩 시나리오들에서, 상이한 다운믹스 모드들에 대응하는 전이 처리 길이들은 서로 상이하거나, 부분적으로 동일하거나, 완전히 동일할 수 있다는 것을 이해할 수 있다. 예를 들어, NOVA_A, NOVA_B, NOVA_C, NOVA_D, NOVA_DB, 및 NOVA_DC는 서로 상이하거나, 부분적으로 동일하거나, 완전히 동일할 수 있다. 유추에 의해 다른 경우가 추론될 수 있다.
전술한 예시적인 시나리오들에서, 현재 프레임의 좌측 및 우측 채널 신호들은 구체적으로 현재 프레임의 원래의 좌측 및 우측 채널 신호들일 수 있거나(원래의 좌측 및 우측 채널 신호들은 시간 도메인 전처리를 거치지 않은 좌측 및 우측 채널 신호들이고, 예를 들어, 샘플링을 통해 획득되는 좌측 및 우측 채널 신호들일 수 있음), 또는 시간 도메인 전처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들일 수 있거나, 또는 시간 도메인 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들일 수 있다.
구체적으로, 예를 들어,
Figure 112020063801644-pct00257
여기서, xL(n)은 현재 프레임의 원래의 좌측 채널 신호를 나타내고, xR(n)은 현재 프레임의 원래의 우측 채널 신호를 나타내고, xL_HP(n)은 시간 도메인 전처리를 통해 획득되는 현재 프레임의 좌측 채널 신호를 나타내고, xR_HP(n)은 시간 도메인 전처리를 통해 획득되는 현재 프레임의 우측 채널 신호를 나타내고;
Figure 112020063801644-pct00258
은 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00259
은 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호를 나타낸다.
전술한 시나리오 예들은 상이한 인코딩 모드들에 대한 시간 도메인 업믹스 및 시간 도메인 다운믹스 처리 방식들의 예들을 제공한다. 물론, 실제 응용에서, 전술한 예들과 유사한 다른 방식들이 대안적으로 시간 도메인 업믹스 처리 및 다운믹스 처리를 위해 사용될 수 있다. 본 출원의 실시예들은 전술한 예들에서의 시간 도메인 업믹스 및 시간 도메인 다운믹스 처리 방식들로 제한되지 않는다.
도 6은 본 출원의 실시예에 따른 오디오 인코딩 모드를 결정하기 위한 방법의 개략적인 흐름도이다. 오디오 인코딩 모드를 결정하기 위한 방법의 관련 단계들은 인코딩 장치에 의해 구현될 수 있다. 예를 들어, 방법은 다음의 단계들을 포함할 수 있다.
601. 현재 프레임에 대한 채널 조합 방식을 결정한다.
인코딩 장치에 의해 현재 프레임에 대한 채널 조합 방식을 결정하는 특정 구현에 대해서는, 다른 실시예들에서의 관련 설명들을 참조한다. 상세사항들은 여기서 다시 설명되지 않는다.
602. 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정한다.
이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 인코딩 장치에 의해 현재 프레임의 인코딩 모드를 결정하는 특정 구현에 대해서는, 다른 실시예들에서의 관련 설명들을 참조한다. 상세사항들은 여기서 다시 설명되지 않는다.
전술한 인코딩 시나리오에서, 현재 프레임에 대한 채널 조합 방식이 결정될 필요가 있다는 것을 이해할 수 있다. 이것은, 현재 프레임에 대한 복수의 가능한 채널 조합 방식이 존재한다는 것을 나타낸다. 하나의 채널 조합 방식만이 존재하는 종래의 해결책과 비교하여, 이것은 복수의 가능한 채널 조합 방식들과 복수의 가능한 시나리오들 사이의 더 나은 호환성 및 매칭을 달성하는 것을 돕는다.
전술한 인코딩 시나리오에서, 현재 프레임의 인코딩 모드는 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 결정될 필요가 있다는 것을 이해할 수 있다. 이것은, 현재 프레임의 복수의 가능한 인코딩 모드가 존재한다는 것을 나타낸다. 하나의 인코딩 모드만이 존재하는 종래의 해결책과 비교하여, 이것은 복수의 가능한 인코딩 모드들 및 다운믹스 모드들과 복수의 가능한 시나리오들 사이의 더 나은 호환성 및 매칭을 달성하는 것을 돕는다.
도 7은 본 출원의 실시예에 따른 오디오 인코딩 모드를 결정하기 위한 방법의 개략적인 흐름도이다. 오디오 인코딩 모드를 결정하기 위한 방법의 관련 단계들은 디코딩 장치에 의해 구현될 수 있다. 예를 들어, 방법은 다음의 단계들을 포함할 수 있다.
701. 비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 다운믹스 모드를 결정한다.
예를 들어, 비트스트림에 기초하여 디코딩을 수행하여, 비트스트림에 포함되는 현재 프레임의 다운믹스 모드 식별자를 획득하고(현재 프레임의 다운믹스 모드 식별자는 현재 프레임의 다운믹스 모드를 나타냄), 현재 프레임의 다운믹스 모드는 현재 프레임의 획득된 다운믹스 모드 식별자에 기초하여 결정된다.
702. 이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여 현재 프레임의 인코딩 모드를 결정한다.
이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여 현재 프레임의 인코딩 모드를 결정하는 특정 구현에 대해서는, 다른 실시예들에서의 관련 설명들을 참조한다. 상세사항들은 여기서 다시 설명되지 않는다.
전술한 디코딩 시나리오에서, 현재 프레임의 인코딩 모드는 이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여 결정될 필요가 있다는 것을 이해할 수 있다. 이것은, 현재 프레임의 복수의 가능한 인코딩 모드가 존재한다는 것을 나타낸다. 하나의 인코딩 모드만이 존재하는 종래의 해결책과 비교하여, 이것은 복수의 가능한 인코딩 모드들 및 다운믹스 모드들과 복수의 가능한 시나리오들 사이의 더 나은 호환성 및 매칭을 달성하는 것을 돕는다.
다음은 현재 프레임 또는 이전 프레임의 일부 스테레오 파라미터들을 설명한다.
본 출원의 일부 실시예들에서, 현재 프레임의 스테레오 파라미터(예를 들어, 채널 조합 비율 인자 및/또는 채널간 시간 차이)는 고정된 값일 수 있거나, 또는 현재 프레임에 대한 채널 조합 방식(예를 들어, 상관성 신호 채널 조합 방식 또는 비상관성 신호 채널 조합 방식)에 기초하여 결정될 수 있다.
도 8을 참조하면, 다음은 시간 도메인 스테레오 파라미터를 결정하기 위한 방법의 예를 설명한다. 시간 도메인 스테레오 파라미터를 결정하기 위한 방법의 관련 단계들은 인코딩 장치에 의해 구현될 수 있다. 이 방법은 다음의 단계들을 구체적으로 포함할 수 있다.
801. 현재 프레임에 대한 채널 조합 방식을 결정한다.
802. 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 시간 도메인 스테레오 파라미터를 결정하고, 여기서, 시간 도메인 스테레오 파라미터는 채널 조합 비율 인자 및 채널간 시간 차이 중 적어도 하나를 포함한다.
현재 프레임에 대한 채널 조합 방식은 복수의 채널 조합 방식 중 하나이다.
예를 들어, 복수의 채널 조합 방식은 비상관성 신호 채널 조합 방식(anticorrelated signal channel combination scheme) 및 상관성 신호 채널 조합 방식(correlated signal channel combination scheme)을 포함한다.
상관성 신호 채널 조합 방식은 근사 동상 신호에 대응하는 채널 조합 방식이다. 비상관성 신호 채널 조합 방식은 근사 이상 신호에 대응하는 채널 조합 방식이다. 근사 동상 신호에 대응하는 채널 조합 방식은 근사 동상 신호에 적용가능하고, 근사 이상 신호에 대응하는 채널 조합 방식은 근사 이상 신호에 적용가능하다는 것을 이해할 수 있다.
현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식인 것으로 결정될 때, 현재 프레임의 시간 도메인 스테레오 파라미터는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 시간 도메인 스테레오 파라미터이거나; 또는 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식인 것으로 결정될 때, 현재 프레임의 시간 도메인 스테레오 파라미터는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 시간 도메인 스테레오 파라미터이다.
전술한 해결책에서, 현재 프레임에 대한 채널 조합 방식이 결정될 필요가 있다는 것을 이해할 수 있다. 이것은, 현재 프레임에 대한 복수의 가능한 채널 조합 방식이 존재한다는 것을 나타낸다. 하나의 채널 조합 방식만이 존재하는 종래의 해결책과 비교하여, 이것은 복수의 가능한 채널 조합 방식들과 복수의 가능한 시나리오들 사이의 더 나은 호환성 및 매칭을 달성하는 것을 돕는다. 현재 프레임의 시간 도메인 스테레오 파라미터는 현재 프레임에 대한 채널 조합 방식에 기초하여 결정된다. 이것은, 시간 도메인 스테레오 파라미터와 복수의 가능한 시나리오 사이의 더 나은 호환성 및 매칭을 달성하는 것을 돕고, 그에 의해 인코딩/디코딩 품질을 향상시키는 것을 돕는다.
일부 가능한 구현들에서, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 및 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자가 개별적으로 먼저 계산될 수 있다. 다음으로, 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식인 것으로 결정될 때, 현재 프레임의 시간 도메인 스테레오 파라미터는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 시간 도메인 스테레오 파라미터인 것으로 결정되거나; 또는 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식인 것으로 결정될 때, 현재 프레임의 시간 도메인 스테레오 파라미터는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 시간 도메인 스테레오 파라미터인 것으로 결정된다. 대안적으로, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 시간 도메인 스테레오 파라미터가 먼저 계산될 수 있다. 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식인 것으로 결정될 때, 현재 프레임의 시간 도메인 스테레오 파라미터는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 시간 도메인 스테레오 파라미터인 것으로 결정된다. 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식인 것으로 결정될 때, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 시간 도메인 스테레오 파라미터가 그 후 계산되고, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 계산된 시간 도메인 스테레오 파라미터가 현재 프레임의 시간 도메인 스테레오 파라미터로서 결정된다.
대안적으로, 현재 프레임에 대한 채널 조합 방식이 먼저 결정될 수 있다. 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식인 것으로 결정될 때, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 시간 도메인 스테레오 파라미터가 계산된다. 이 경우, 현재 프레임의 시간 도메인 스테레오 파라미터는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 시간 도메인 스테레오 파라미터이다. 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식인 것으로 결정될 때, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 시간 도메인 스테레오 파라미터가 계산된다. 이 경우, 현재 프레임의 시간 도메인 스테레오 파라미터는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 시간 도메인 스테레오 파라미터이다.
일부 가능한 구현들에서, 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 시간 도메인 스테레오 파라미터를 결정하는 단계는: 현재 프레임에 대한 채널 조합 방식에 기초하여, 현재 프레임에 대한 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값을 결정하는 단계를 포함한다. 현재 프레임에 대한 채널 조합 방식(상관성 신호 채널 조합 방식 또는 비상관성 신호 채널 조합 방식)에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 없을 때, 현재 프레임에 대한 채널 조합 방식에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 채널 조합 비율에 대응하는 채널 조합 비율 인자의 초기 값과 같다. 현재 프레임에 대한 채널 조합 방식(상관성 신호 채널 조합 방식 또는 비상관성 신호 채널 조합 방식)에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있을 때, 현재 프레임에 대한 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값을 수정하여, 현재 프레임에 대한 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값을 획득하고, 현재 프레임에 대한 채널 조합 방식에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값과 같다.
예를 들어, 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 시간 도메인 스테레오 파라미터를 결정하는 단계는: 현재 프레임의 좌측 채널 신호에 기초하여 현재 프레임의 좌측 채널 신호의 프레임 에너지를 계산하는 단계; 현재 프레임의 우측 채널 신호에 기초하여 현재 프레임의 우측 채널 신호의 프레임 에너지를 계산하는 단계; 및 현재 프레임의 좌측 채널 신호의 프레임 에너지 및 현재 프레임의 우측 채널 신호의 프레임 에너지에 기초하여, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값을 계산하는 단계를 포함할 수 있다.
현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 없을 때, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값과 같고, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스(code index)는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값의 코드 인덱스와 같다.
현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있을 때, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값 및 초기 값의 코드 인덱스를 수정하여, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값 및 수정된 값의 코드 인덱스를 획득한다. 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값과 같고, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값의 코드 인덱스와 같다.
구체적으로, 예를 들어, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값 및 초기 값의 코드 인덱스가 수정될 때,
Figure 112020063801644-pct00260
여기서, tdm_last_ratio_idx는 이전 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스를 나타내고, ratio_idx_mod는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값에 대응하는 코드 인덱스를 나타내고, ratio_modqua는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값을 나타낸다.
다른 예로서, 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 시간 도메인 스테레오 파라미터를 결정하는 단계는: 현재 프레임의 좌측 채널 신호 및 우측 채널 신호에 기초하여 현재 프레임의 기준 채널 신호를 획득하는 단계; 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 계산하는 단계; 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 계산하는 단계; 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터, 및 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터를 계산하는 단계; 및 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터에 기초하여, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하는 단계를 포함한다.
현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터에 기초하여, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하는 단계는, 예를 들어: 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터에 기초하여, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값을 계산하는 단계; 및 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값을 수정하여, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 획득하는 단계를 포함할 수 있다. 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 없을 때, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값과 같다는 것을 이해할 수 있다.
가능한 구현에서,
Figure 112020063801644-pct00261
여기서, mono_i(n)은 현재 프레임의 기준 채널 신호를 나타내고;
Figure 112020063801644-pct00262
은 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00263
은 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호를 나타내고, corr_LM은 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타내고, corr_RM은 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타낸다.
일부 가능한 구현들에서, 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터, 및 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터를 계산하는 단계는: 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터에 기초하여, 장시간 평활화(long-time smoothing)를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 계산하는 단계; 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터에 기초하여, 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 계산하는 단계; 및 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터, 및 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터에 기초하여, 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터를 계산하는 단계를 포함한다.
다양한 평활화 처리 방식들이 있을 수 있다. 예를 들어,
Figure 112020063801644-pct00264
여기서, tdm_lt_rms_L_SMcur=(1-A)*tdm_lt_rms_L_SMpre+A*rms_L이고, A는 현재 프레임의 좌측 채널 신호의 장시간 평활 프레임 에너지(long-time smooth frame energy)의 갱신 인자(update factor)를 나타내고, tdm_lt_rms_L_SMcur은 현재 프레임의 좌측 채널 신호의 장시간 평활 프레임 에너지를 나타내고, rms_L은 현재 프레임의 좌측 채널 신호의 프레임 에너지를 나타내고, tdm_lt_corr_LM_SMcur은 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타내고, tdm_lt_corr_LM_SMpre는 장시간 평활화를 통해 획득되는 이전 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타내고, α는 좌측 채널 평활화 인자를 나타낸다.
예를 들어,
Figure 112020063801644-pct00265
여기서, tdm_lt_rms_R_SMcur=(1-B)*tdm_lt_rms_R_SMpre+B*rms_R이고, B는 현재 프레임의 우측 채널 신호의 장시간 평활 프레임 에너지의 갱신 인자를 나타내고, tdm_lt_rms_R_SMpre은 현재 프레임의 우측 채널 신호의 장시간 평활 프레임 에너지를 나타내고, rms_R은 현재 프레임의 우측 채널 신호의 프레임 에너지를 나타내고, tdm_lt_corr_RM_SMcur은 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타내고, tdm_lt_corr_RM_SMpre는 장시간 평활화를 통해 획득되는 이전 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타내고, β는 우측 채널 평활화 인자를 나타낸다.
가능한 구현에서,
Figure 112020063801644-pct00266
여기서, tdm_lt_corr_LM_SM은 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타내고, tdm_lt_corr_RM_SM은 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타내고, diff_lt_corr은 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터를 나타낸다.
일부 가능한 구현들에서, 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터에 기초하여, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하는 단계는: 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터에 대해 매핑 처리를 수행하여, 매핑 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 값 범위를 [MAP_MIN,MAP_MAX]가 되게 하는 단계; 및 매핑 처리를 통해 획득되는 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터를 채널 조합 비율 인자로 변환하는 단계를 포함한다.
일부 가능한 구현들에서, 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터에 대해 매핑 처리를 수행하는 단계는: 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터에 대해 진폭 제한 처리(amplitude limiting processing)를 수행하는 단계; 및 진폭 제한 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터에 대해 매핑 처리를 수행하는 단계를 포함한다.
다양한 진폭 제한 처리 방식들이 있을 수 있다. 구체적으로, 예를 들어,
Figure 112020063801644-pct00267
여기서, RATIO_MAX는 진폭 제한 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 최대 값을 나타내고, RATIO_MIN는 진폭 제한 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 최소 값을 나타내고, RATIO_MAX>RATIO_MIN이다.
다양한 매핑 처리 방식들이 있을 수 있다. 구체적으로, 예를 들어,
Figure 112020063801644-pct00268
Figure 112020063801644-pct00269
여기서, diff_lt_corr_map는 매핑 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터를 나타내고;
MAP_MAX는 매핑 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 최대 값을 나타내고, MAP_HIGH는 매핑 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 높은 임계값을 나타내고, MAP_LOW는 매핑 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 낮은 임계값을 나타내고, MAP_MIN은 매핑 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 최소 값을 나타내고;
Figure 112020063801644-pct00270
RATIO_MAX는 진폭 제한 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 최대 값을 나타내고, RATIO_HIGH는 진폭 제한 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 높은 임계값을 나타내고, RATIO_LOW는 진폭 제한 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 낮은 임계값을 나타내고, RATIO_MIN은 진폭 제한 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 최소 값을 나타내고;
Figure 112020063801644-pct00271
다른 예로서,
Figure 112020063801644-pct00272
여기서, diff_lt_corr_limit는 진폭 제한 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터를 나타내고, diff_lt_corr_map는 매핑 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터를 나타내고;
Figure 112020063801644-pct00273
여기서, RATIO_MAX는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 최대 진폭을 나타내고, -RATIO_MAX는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터의 최소 진폭을 나타낸다.
가능한 구현에서,
Figure 112020063801644-pct00274
여기서, diff_lt_corr_map는 매핑 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이의 파라미터를 나타내고, ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내거나, 또는 ratio_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값을 나타낸다.
본 출원의 일부 구현들에서, 채널 조합 비율 인자가 수정될 필요가 있을 때, 채널 조합 비율 인자는 인코딩되기 전 또는 후에 수정될 수 있다. 구체적으로, 예를 들어, 현재 프레임의 채널 조합 비율 인자(예를 들어, 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 또는 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자)의 초기 값을 먼저 계산할 수 있고; 다음으로 채널 조합 비율 인자의 초기 값을 인코딩하여, 현재 프레임의 채널 조합 비율 인자의 초기 코드 인덱스를 획득하고; 그 다음, 현재 프레임의 채널 조합 비율 인자의 획득된 초기 코드 인덱스를 수정하여, 현재 프레임의 채널 조합 비율 인자의 코드 인덱스를 획득한다(현재 프레임의 채널 조합 비율 인자의 코드 인덱스를 획득하는 것은 현재 프레임의 채널 조합 비율 인자를 획득하는 것과 동등함). 대안적으로, 현재 프레임의 채널 조합 비율 인자의 초기 값을 먼저 계산할 수 있고; 다음으로 현재 프레임의 채널 조합 비율 인자의 계산된 초기 값을 수정하여, 현재 프레임의 채널 조합 비율 인자를 획득하고; 그 다음, 현재 프레임의 획득된 채널 조합 비율 인자를 인코딩하여, 현재 프레임의 채널 조합 비율 인자의 코드 인덱스를 획득한다.
현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값은 다양한 방식으로 수정될 수 있다. 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값이 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 획득하기 위해 수정될 필요가 없을 때, 예를 들어, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값은 이전 프레임의 채널 조합 비율 인자 및 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값에 기초하여 수정될 수 있거나, 또는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값에 기초하여 수정될 수 있다.
예를 들어, 먼저, 현재 프레임의 좌측 채널 신호의 장시간 평활 프레임 에너지, 현재 프레임의 우측 채널 신호의 장시간 평활 프레임 에너지, 현재 프레임의 좌측 채널 신호의 프레임간 에너지 차이, 이력 캐시(historical cache)에서의 이전 프레임의 캐싱된 인코딩 파라미터(예를 들어, 주요 채널 신호의 프레임간 상관 또는 보조 채널 신호의 프레임간 상관), 현재 프레임 및 이전 프레임의 채널 조합 방식 식별자들, 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자, 및 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값에 기초하여, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있는지가 결정된다. 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있다면, 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자로서 사용되고; 그렇지 않으면, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자로서 사용된다.
물론, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값을 수정하여 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 획득하는 특정 구현은 전술한 예들로 제한되지 않는다.
803. 현재 프레임의 결정된 시간 도메인 스테레오 파라미터를 인코딩한다.
일부 가능한 구현들에서, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 결정된 채널 조합 비율 인자에 대해 양자화 인코딩이 수행되고,
Figure 112020063801644-pct00275
여기서, ratio_tabl_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 스칼라 양자화를 위한 코드북을 나타내고, ratio_idx_init_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 코드 인덱스를 나타내고, ratio_init_SMqua는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 양자화된 코드 값을 나타낸다.
가능한 구현에서,
Figure 112020063801644-pct00276
여기서, ratio_SM은 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타내고, ratio_idx_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스를 나타내거나;
또는
Figure 112020063801644-pct00277
여기서, ratio_idx_init_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 초기 코드 인덱스를 나타내고, tdm_last_ratio_idx_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 최종 코드 인덱스를 나타내고,
Figure 112020063801644-pct00278
는 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정 인자이고, ratio_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 나타낸다.
일부 가능한 구현들에서, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값이 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 획득하기 위해 수정될 필요가 있을 때, 대안적으로, 먼저 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값에 대해 양자화 인코딩을 수행하여, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 코드 인덱스를 획득할 수 있고; 그 후, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 코드 인덱스는 이전 프레임의 채널 조합 비율 인자의 코드 인덱스 및 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 코드 인덱스에 기초하여 수정될 수 있거나, 또는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 코드 인덱스는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 코드 인덱스에 기초하여 수정될 수 있다.
예를 들어, 먼저 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값에 대해 양자화 인코딩을 수행하여, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 초기 코드 인덱스를 획득할 수 있다. 그 후, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있을 때, 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스로서 사용되고; 그렇지 않으면, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 코드 인덱스는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스로서 사용된다. 마지막으로, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스에 대응하는 양자화된 코드 값이 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자로서 사용된다.
또한, 시간 도메인 스테레오 파라미터가 채널간 시간 차이를 포함할 때, 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 시간 도메인 스테레오 파라미터를 결정하는 단계는: 현재 프레임에 대한 채널 조합 방식이 상관성 신호 채널 조합 방식일 때 현재 프레임의 채널간 시간 차이를 계산하는 단계를 포함할 수 있다. 또한, 현재 프레임의 계산된 채널간 시간 차이는 비트스트림에 기입될 수 있다. 현재 프레임에 대한 채널 조합 방식이 비상관성 신호 채널 조합 방식일 때, 디폴트 채널간 시간 차이(예를 들어, 0)가 현재 프레임의 채널간 시간 차이로서 사용된다. 또한, 디폴트 채널간 시간 차이는 비트스트림에 기입되지 않을 수 있고, 디코딩 장치는 또한 디폴트 채널간 시간 차이를 사용할 수 있다.
또한, 일부 다른 가능한 구현들에서, 현재 프레임에 대한 채널 조합 방식이 이전 프레임에 대한 채널 조합 방식과 상이하면(예를 들어, 현재 프레임의 채널 조합 방식 식별자가 이전 프레임의 채널 조합 방식 식별자와 상이하면), 현재 프레임의 채널 조합 비율 인자의 값이 또한 이전 프레임의 채널 조합 비율 인자의 값으로 설정될 수 있고; 그렇지 않으면, 현재 프레임의 채널 조합 비율 인자는 지연 정렬을 통해 획득되는 좌측 및 우측 채널 신호들 및 채널 조합 방식에 기초하여 그리고 현재 프레임에 대한 채널 조합 방식에 대응하는 방법에 따라 추출되고 인코딩될 수 있다.
다음은 예로서 시간 도메인 스테레오 파라미터를 인코딩하기 위한 방법을 추가로 제공한다. 예를 들어, 방법은: 현재 프레임에 대한 채널 조합 방식을 결정하는 단계; 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 시간 도메인 스테레오 파라미터를 결정하는 단계; 및 현재 프레임의 결정된 시간 도메인 스테레오 파라미터를 인코딩하는 단계 - 시간 도메인 스테레오 파라미터는 채널 조합 비율 인자 및 채널간 시간 차이 중 적어도 하나를 포함함 - 를 포함할 수 있다.
대응하여, 디코딩 장치는 비트스트림으로부터 현재 프레임의 시간 도메인 스테레오 파라미터를 획득하고, 비트스트림으로부터 획득되는 현재 프레임의 시간 도메인 스테레오 파라미터에 기초하여 관련 디코딩을 추가로 수행할 수 있다.
다음은 더 많은 특정 응용 시나리오를 참조하여 예들을 사용하여 설명들을 제공한다.
도 9aa 및 도 9ab는 본 출원의 실시예에 따른 오디오 인코딩 방법의 개략적인 흐름도이다. 본 출원의 이 실시예에서 제공되는 오디오 인코딩 방법은 인코딩 장치에 의해 구현될 수 있다. 이 방법은 다음의 단계들을 구체적으로 포함할 수 있다.
901. 현재 프레임의 원래의 좌측 및 우측 채널 신호들에 대해 시간 도메인 전처리를 수행한다.
예를 들어, 스테레오 오디오 신호의 샘플링 레이트가 16 kHz이고, 신호의 프레임이 20 ms이고, 프레임 길이가 N으로 표시되는 경우, N=320일 때, 이것은 프레임 길이가 320개의 샘플링 포인트인 것을 나타낸다. 현재 프레임의 스테레오 신호는 현재 프레임의 좌측 채널 신호 및 현재 프레임의 우측 채널 신호를 포함한다. 현재 프레임의 원래의 좌측 채널 신호는 xL(n)으로서 표시되고, 현재 프레임의 원래의 우측 채널 신호는 xR(n)으로서 표시된다. n은 샘플링 포인트의 시퀀스 번호이고, n = 0, 1, ..., N-1이다.
예를 들어, 현재 프레임의 원래의 좌측 및 우측 채널 신호들에 대해 시간 도메인 전처리를 수행하는 단계는: 현재 프레임의 원래의 좌측 및 우측 채널 신호들에 대해 고역 통과 필터링 처리(high-pass filtering processing)를 수행하여, 시간 도메인 전처리를 거친 현재 프레임의 좌측 및 우측 채널 신호들을 획득하는 단계를 포함할 수 있고, 시간 도메인 전처리를 통해 획득되는 현재 프레임의 좌측 채널 신호는 xL_HP(n)으로서 표시되고, 시간 도메인 전처리를 통해 획득되는 현재 프레임의 우측 채널 신호는 xR_HP(n)으로서 표시된다. n은 샘플링 포인트의 시퀀스 번호이고, n = 0, 1, ..., N-1이다. 고역 통과 필터링 처리에 사용되는 필터는, 예를 들어, 20 Hz의 차단 주파수를 갖는 무한 임펄스 응답(Infinite Impulse Response, 줄여서 IIR) 필터일 수 있거나, 또는 다른 타입의 필터가 사용될 수 있다.
예를 들어, 샘플링 레이트는 16 kHz이고, 20 Hz의 차단 주파수를 갖는 대응하는 고역 통과 필터에 대한 전달 함수는 다음과 같을 수 있다:
Figure 112020063801644-pct00279
여기서, b0=0.994461788958195, b1=-1.988923577916390, b2=0.994461788958195, a1=1.988892905899653, a2=-0.988954249933127이고, z는 Z의 변환을 위한 변환 인자이다.
대응하는 시간 도메인 필터에 대한 전달 함수는 다음과 같이 표현될 수 있다:
Figure 112020063801644-pct00280
902. 시간 도메인 전처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들에 대해 지연 정렬 처리를 수행하여, 지연 정렬 처리를 거친 현재 프레임의 좌측 및 우측 채널 신호들을 획득한다.
지연 정렬 처리를 통해 획득되는 신호는 줄여서 "지연 정렬된 신호(delay-aligned signal)"로 지칭될 수 있다. 예를 들어, 지연 정렬 처리를 통해 획득되는 좌측 채널 신호는 줄여서 "지연 정렬된 좌측 채널 신호"로 지칭될 수 있고, 지연 정렬 처리를 통해 획득되는 우측 채널 신호는 줄여서 "지연 정렬된 우측 채널 신호"로 지칭될 수 있고, 기타 등등이다.
구체적으로, 현재 프레임의 전처리된 좌측 및 우측 채널 신호들에 기초하여 채널간 지연 파라미터가 추출되고 인코딩될 수 있으며, 인코딩된 채널간 지연 파라미터에 기초하여 좌측 및 우측 채널 신호들에 대해 지연 정렬 처리를 수행하여, 지연 정렬 처리를 거친 현재 프레임의 좌측 및 우측 채널 신호들을 획득한다. 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호는
Figure 112020063801644-pct00281
으로서 표기되고, 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호는
Figure 112020063801644-pct00282
으로서 표시된다. n은 샘플링 포인트의 시퀀스 번호이고, n = 0, 1, ..., N-1이다.
구체적으로, 예를 들어, 인코딩 장치는 현재 프레임의 전처리된 좌측 및 우측 채널 신호들에 기초하여 좌측 및 우측 채널들 사이의 시간 도메인 교차 상관 함수(time-domain cross-correlation function)를 계산할 수 있다. 좌측 및 우측 채널 신호들 사이의 시간 차이를 결정하기 위해, 좌측 및 우측 채널들 사이의 시간 도메인 교차 상관 함수의 최대 값(또는 다른 값)이 검색될 수 있다. 좌측 및 우측 채널들 사이의 결정된 시간 차이에 대해 양자화 인코딩이 수행된다. 좌측 및 우측 채널들로부터 선택된 하나의 채널의 신호를 기준으로서 사용하여, 양자화 인코딩을 통해 획득되는 좌측 및 우측 채널들 사이의 시간 차이에 기초하여 다른 채널의 신호에 대해 지연 조정을 수행하여, 지연 정렬 처리를 거친 현재 프레임의 좌측 및 우측 채널 신호들을 획득한다.
지연 정렬 처리는 복수의 방법을 사용하여 구체적으로 구현될 수 있고, 특정 지연 정렬 처리 방법은 본 출원의 이 실시예에서 제한되지 않는다는 점에 유의해야 한다.
903. 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 분석을 수행한다.
구체적으로, 시간 도메인 분석은 과도 검출(transient detection) 등을 포함할 수 있다. 과도 검출은 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들에 대해 에너지 검출을 개별적으로 수행할 수 있다(구체적으로, 현재 프레임이 갑작스런 에너지 변화를 거치는지 여부가 검출될 수 있다). 예를 들어, 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호의 에너지는 Ecur_L로서 표현되고, 지연 정렬을 통해 획득되는 이전 프레임의 좌측 채널 신호의 에너지는 Epre_L로서 표현되고; 이 경우, Epre_L와 Ecur_L 사이의 차이의 절대 값에 기초하여 과도 검출을 수행하여, 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호의 과도 검출 결과를 획득할 수 있다. 마찬가지로, 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호에 대해, 동일한 방법을 사용하여, 과도 검출이 수행될 수 있다. 시간 도메인 분석은 또한 과도 검출 이외의 다른 종래의 방식으로 시간 도메인 분석을 포함할 수 있고, 예를 들어, 대역 확장 전처리(band extension pre-processing)를 포함할 수 있다.
단계 903은, 단계 902 이후에, 현재 프레임의 주요 채널 신호 및 보조 채널 신호가 인코딩되기 전에, 임의의 위치에서 수행될 수 있다는 것을 이해할 수 있다.
904. 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들에 기초하여 현재 프레임에 대한 채널 조합 방식 결정을 수행하여, 현재 프레임에 대한 채널 조합 방식을 결정한다.
이 실시예에서, 2개의 가능한 채널 조합 방식이 예들로서 사용되고, 다음의 설명들에서 상관성 신호 채널 조합 방식 및 비상관성 신호 채널 조합 방식으로 지칭된다. 이 실시예에서, 상관성 신호 채널 조합 방식은, 현재 프레임의 (지연 정렬을 통해 획득되는) 좌측 및 우측 채널 신호들이 근사 동상 신호를 구성하는 경우에 대응하고, 비상관성 신호 채널 조합 방식은, 현재 프레임의 (지연 정렬을 통해 획득되는) 좌측 및 우측 채널 신호들이 근사 이상 신호를 형성하는 경우에 대응한다. 물론, "상관성 신호 채널 조합 방식" 및 "비상관성 신호 채널 조합 방식"을 사용하여 2개의 가능한 채널 조합 방식을 나타내는 것 외에도, 실제 응용에서 2개의 상이한 채널 조합 방식을 명명하기 위해 다른 명칭들이 또한 사용될 수 있다.
이 실시예의 일부 해결책들에서, 채널 조합 방식 결정은 초기 채널 조합 방식 결정 및 채널 조합 방식 수정 결정으로 분류될 수 있다. 현재 프레임에 대한 채널 조합 방식을 결정하기 위해 현재 프레임에 대해 채널 조합 방식 결정이 수행된다는 것을 이해할 수 있다. 현재 프레임에 대한 채널 조합 방식을 결정하는 일부 예시적인 구현들에 대해서는, 전술한 실시예들에서의 관련 설명들을 참조한다. 상세사항들은 여기서 다시 설명되지 않는다.
905. 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 및 현재 프레임의 채널 조합 방식 식별자에 기초하여, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하고, 채널 조합 비율 인자를 인코딩하여, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값 및 초기 값의 코드 인덱스를 획득한다.
구체적으로, 예를 들어, 먼저, 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들의 프레임 에너지가 계산된다.
현재 프레임의 좌측 채널 신호의 프레임 에너지 rms_L는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00283
; 그리고
현재 프레임의 우측 채널 신호의 프레임 에너지 rms_R는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00284
여기서,
Figure 112020063801644-pct00285
은 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호를 나타내고;
Figure 112020063801644-pct00286
은 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호를 나타낸다.
그 다음, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자가 현재 프레임의 좌측 채널의 프레임 에너지 및 현재 프레임의 우측 채널의 프레임 에너지에 기초하여 계산된다. 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 계산된 채널 조합 비율 인자 ratio_init는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00287
그 다음, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 계산된 채널 조합 비율 인자 ratio_init에 대해 양자화 인코딩을 수행하여, 양자화 인코딩을 통해 획득되는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 ratio_initqua 및 대응하는 코드 인덱스 ratio_idx_init를 획득한다:
Figure 112020063801644-pct00288
여기서 ratio_tabl은 스칼라 양자화를 위한 코드북이고; 임의의 종래의 스칼라 양자화 방법이 양자화 인코딩에 사용될 수 있고, 예를 들어, 균일 스칼라 양자화 또는 비-균일 스칼라 양자화가 사용될 수 있고; 코딩된 비트들의 수량은, 예를 들어, 5 비트이고; 구체적인 스칼라 양자화 방법은 여기서 상세히 설명되지 않는다.
양자화 인코딩을 통해 획득되는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 ratio_initqua는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 획득된 초기 값이다. 코드 인덱스 ratio_idx_init는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값에 대응하는 코드 인덱스이다.
또한, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값에 대응하는 코드 인덱스는 현재 프레임의 채널 조합 방식 식별자 tdm_SM_flag의 값에 기초하여 더 수정될 수 있다.
예를 들어, 양자화 인코딩은 5-비트 스칼라 양자화이다. 이 경우, tdm_SM_flag=1일 때, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값에 대응하는 코드 인덱스는 미리 설정된 값(예를 들어, 15 또는 다른 값)으로 수정된다. 또한, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값은 다음과 같이 수정될 수 있다: ratio_initqua=ratio_tabl[15].
전술한 계산 방법들에 더하여, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자는 대안적으로 종래의 시간 도메인 스테레오 인코딩 기술에서 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하기 위해 사용되는 임의의 방법에 따라 계산될 수 있다는 점에 유의해야 한다. 대안적으로, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값은 고정된 값(예를 들어, 0.5 또는 다른 값)으로 직접 설정될 수 있다.
906. 채널 조합 비율 인자 수정 식별자에 기초하여, 채널 조합 비율 인자가 수정될 필요가 있는지를 결정한다.
채널 조합 비율 인자가 수정될 필요가 있다면, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 코드 인덱스를 수정하여, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값 및 수정된 값의 코드 인덱스를 획득한다.
현재 프레임의 채널 조합 비율 인자 수정 식별자는 tdm_SM_modi_flag로서 표시된다. 예를 들어, 채널 조합 비율 인자 수정 식별자의 값이 0일 때, 채널 조합 비율 인자는 수정될 필요가 없거나; 또는 채널 조합 비율 인자 수정 식별자의 값이 1일 때, 채널 조합 비율 인자는 수정될 필요가 있다. 물론, 채널 조합 비율 인자가 수정될 필요가 있는지를 나타내기 위해 채널 조합 비율 인자 수정 식별자의 다른 상이한 값이 대안적으로 사용될 수 있다.
예를 들어, 채널 조합 비율 인자 수정 식별자에 기초하여, 채널 조합 비율 인자가 수정될 필요가 있는지를 결정하는 단계는: 예를 들어, 채널 조합 비율 인자 수정 식별자가 tdm_SM_modi_flag=1이면, 채널 조합 비율 인자가 수정될 필요가 있는 것으로 결정하는 단계; 또는 다른 예로서, 채널 조합 비율 인자 수정 식별자가 tdm_SM_modi_flag=0이면, 채널 조합 비율 인자가 수정될 필요가 없는 것으로 결정하는 단계를 구체적으로 포함할 수 있다.
현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 코드 인덱스를 수정하는 단계는 구체적으로 다음을 포함할 수 있다:
예를 들어, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값에 대응하는 코드 인덱스는 ratio_idx_mod=0.5*(tdm_last_ratio_idx+16)을 충족하고, 여기서, tdm_last_ratio_idx는 이전 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스이고;
이 경우, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값 ratio_modqua은 ratio_modqua=ratio_tabl[ratio_idx_mod]를 충족한다.
907. 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값, 초기 값의 코드 인덱스, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값, 수정된 값의 코드 인덱스, 및 채널 조합 비율 인자 수정 식별자에 기초하여, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 ratio 및 코드 인덱스 ratio_idx를 결정한다.
구체적으로, 예를 들어, 상관성 신호 채널 조합 방식에 대응하는 결정된 채널 조합 비율 인자 ratio는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00289
여기서, ratio_initqua는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값을 나타내고, ratio_modqua는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값을 나타내고, tdm_SM_modi_flag는 현재 프레임의 채널 조합 비율 인자 수정 식별자를 나타낸다.
상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 대응하는 결정된 코드 인덱스 ratio_idx는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00290
여기서, ratio_idx_init는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값에 대응하는 코드 인덱스를 나타내고, ratio_idx_mod는 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 값에 대응하는 코드 인덱스를 나타낸다.
908. 현재 프레임의 채널 조합 방식 식별자가 비상관성 신호 채널 조합 방식에 대응하는지를 결정하고; 현재 프레임의 채널 조합 방식 식별자가 비상관성 신호 채널 조합 방식에 대응하면, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하고 채널 조합 비율 인자를 인코딩하여, 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 코드 인덱스를 획득한다.
먼저, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하기 위해 사용되는 이력 캐시가 리셋될 필요가 있는지가 결정될 수 있다.
예를 들어, 현재 프레임의 채널 조합 방식 식별자 tdm_SM_flag가 1과 같고(예를 들어, tdm_SM_flag가 1과 같다는 것은 현재 프레임의 채널 조합 방식 식별자가 비상관성 신호 채널 조합 방식에 대응한다는 것을 나타냄) 이전 프레임의 채널 조합 방식 식별자 tdm_last_SM_flag가 0과 같으면(예를 들어, tdm_last_SM_flag가 0과 같다는 것은 이전 프레임의 채널 조합 방식 식별자가 상관성 신호 채널 조합 방식에 대응한다는 것을 나타냄), 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하기 위해 사용되는 이력 캐시는 리셋될 필요가 있다.
현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하기 위해 사용되는 이력 캐시가 리셋될 필요가 있는지를 결정하는 것은 대안적으로 초기 채널 조합 방식 결정 및 채널 조합 방식 수정 결정 동안 이력 캐시 리셋 식별자 tdm_SM_reset_flag를 결정하고 그 다음에 이력 캐시 리셋 식별자의 값을 결정함으로써 구현될 수 있다는 점에 유의해야 한다. 예를 들어, tdm_SM_reset_flag가 1일 때, 현재 프레임의 채널 조합 방식 식별자는 비상관성 신호 채널 조합 방식에 대응하고 이전 프레임의 채널 조합 방식 식별자는 상관성 신호 채널 조합 방식에 대응한다. 예를 들어, 이력 캐시 리셋 식별자 tdm_SM_reset_flag가 1과 같을 때, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하기 위해 사용되는 이력 캐시는 리셋될 필요가 있다. 복수의 구체적인 리셋 방법이 존재한다. 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하기 위해 사용되는 이력 캐시의 모든 파라미터들이 미리 설정된 초기 값에 기초하여 리셋될 수 있거나; 또는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하기 위해 사용되는 이력 캐시의 일부 파라미터들이 미리 설정된 초기 값에 기초하여 리셋될 수 있거나; 또는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하기 위해 사용되는 이력 캐시의 일부 파라미터들은 미리 설정된 초기 값에 기초하여 리셋될 수 있고, 다른 파라미터들은 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하기 위해 사용되는 이력 캐시의 대응하는 파라미터 값에 기초하여 리셋된다.
다음으로, 현재 프레임의 채널 조합 방식 식별자 tdm_SM_flag가 비상관성 신호 채널 조합 방식에 대응하는지가 추가로 결정된다. 비상관성 신호 채널 조합 방식은 근사 이상 스테레오 신호에 대해 시간 도메인 다운믹싱을 수행하기에 더 적합한 채널 조합 방식이다. 이 실시예에서, 현재 프레임의 채널 조합 방식 식별자가 tdm_SM_flag=1일 때, 현재 프레임의 채널 조합 방식 식별자는 비상관성 신호 채널 조합 방식에 대응하거나; 또는 현재 프레임의 채널 조합 방식 식별자가 tdm_SM_flag=0일 때, 현재 프레임의 채널 조합 방식 식별자는 상관성 신호 채널 조합 방식에 대응한다.
현재 프레임의 채널 조합 방식 식별자가 비상관성 신호 채널 조합 방식에 대응하는지를 결정하는 것은:
현재 프레임의 채널 조합 방식 식별자가 1인지를 결정하는 것을 구체적으로 포함할 수 있고, 여기서, 현재 프레임의 채널 조합 방식 식별자가 tdm_SM_flag=1일 때, 현재 프레임의 채널 조합 방식 식별자는 비상관성 신호 채널 조합 방식에 대응하고, 이 경우, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자가 계산되고 인코딩될 수 있다.
도 9b를 참조하면, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 계산하고 인코딩하는 것은, 예를 들어, 다음의 단계들(9081 내지 9085)을 포함할 수 있다.
9081. 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들에 대해 신호 에너지 분석을 수행한다.
현재 프레임의 좌측 채널 신호의 프레임 에너지, 현재 프레임의 우측 채널 신호의 프레임 에너지, 현재 프레임의 좌측 채널의 장시간 평활 프레임 에너지, 현재 프레임의 우측 채널의 장시간 평활 프레임 에너지, 현재 프레임의 좌측 채널의 프레임간 에너지 차이, 및 현재 프레임의 우측 채널의 프레임간 에너지 차이가 개별적으로 획득된다.
예를 들어, 현재 프레임의 좌측 채널 신호의 프레임 에너지 rms_L는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00291
; 및
현재 프레임의 우측 채널 신호의 프레임 에너지 rms_R는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00292
여기서,
Figure 112020063801644-pct00293
은 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호를 나타내고;
Figure 112020063801644-pct00294
은 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호를 나타낸다.
예를 들어, 현재 프레임의 좌측 채널의 장시간 평활 프레임 에너지 tdm_lt_rms_L_SMcur은 다음의 수학식을 충족한다:
Figure 112020063801644-pct00295
여기서, tdm_lt_rms_L_SMpre는 이전 프레임의 좌측 채널의 장시간 평활 프레임 에너지를 나타내고, A는 좌측 채널의 장시간 평활 프레임 에너지의 갱신 인자를 나타내며, A는, 예를 들어, 0과 1 사이의 실수일 수 있고, 예를 들어, A는 0.4와 같을 수 있다.
예를 들어, 현재 프레임의 우측 채널의 장시간 평활 프레임 에너지 tdm_lt_rms_R_SMcur은 다음의 수학식을 충족한다:
Figure 112020063801644-pct00296
여기서, tdm_lt_rms_R_SMpre는 이전 프레임의 우측 채널의 장시간 평활 프레임 에너지를 나타내고, B는 우측 채널의 장시간 평활 프레임 에너지의 갱신 인자를 나타내며, B는, 예를 들어, 0과 1 사이의 실수일 수 있고, B의 값은, 예를 들어, 좌측 채널의 장시간 평활 프레임 에너지의 갱신 인자의 값과 같거나 상이할 수 있고, 예를 들어, B는 또한 0.4와 같을 수 있다.
예를 들어, 현재 프레임의 좌측 채널의 프레임간 에너지 차이 ener_L_dt는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00297
예를 들어, 현재 프레임의 우측 채널의 프레임간 에너지 차이 ener_R_dt는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00298
9082. 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들에 기초하여 현재 프레임의 기준 채널 신호를 결정하고, 여기서, 기준 채널 신호는 모노 신호로도 지칭될 수 있고, 기준 채널 신호가 모노 신호로 지칭되는 경우, 기준 채널에 관련된 모든 후속 설명들 및 파라미터 명칭들에서, 기준 채널 신호는 집합적으로 모노 신호로 대체될 수 있다.
예를 들어, 기준 채널 신호 mono_i(n)은 다음의 수학식을 충족한다:
Figure 112020063801644-pct00299
Figure 112020063801644-pct00300
은 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호이고,
Figure 112020063801644-pct00301
은 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호이다.
9083. 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 및 우측 채널 신호들 각각과 기준 채널 신호 사이의 진폭 상관의 파라미터를 계산한다.
예를 들어, 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 corr_LM은 다음의 수학식을 충족한다:
Figure 112020063801644-pct00302
; 및
예를 들어, 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 corr_RM은 다음의 수학식을 충족한다:
Figure 112020063801644-pct00303
여기서,
Figure 112020063801644-pct00304
은 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호를 나타내고,
Figure 112020063801644-pct00305
은 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호를 나타내고, mono_i(n)은 현재 프레임의 기준 채널 신호를 나타내고,
Figure 112020063801644-pct00306
는 절대값을 취하는 것을 나타낸다.
9084. 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 및 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터에 기초하여, 현재 프레임의 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터 diff_lt_corr를 계산한다.
단계 9081은 단계들 9082 및 9083 이전에 수행될 수 있거나, 단계들 9082 및 9083 이후 그리고 단계 9084 이전에 수행될 수 있다는 것을 이해할 수 있다.
도 9c를 참조하면, 예를 들어, 현재 프레임의 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터 diff_lt_corr를 계산하는 것은 다음의 단계들 90841 및 90842를 구체적으로 포함할 수 있다.
90841. 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터에 기초하여, 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 계산하고; 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터에 기초하여, 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 계산한다.
예를 들어, 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 및 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 계산하는 것은 다음을 포함할 수 있다: 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 tdm_lt_corr_LM_SM은 다음의 수학식을 충족한다:
Figure 112020063801644-pct00307
여기서, tdm_lt_corr_LM_SMcur은 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타내고, tdm_lt_corr_LM_SMpre은 장시간 평활화를 통해 획득되는 이전 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타내고, α는 좌측 채널 평활화 인자를 나타내고, α는 0과 1 사이의 미리 설정된 실수, 예를 들어, 0.2, 0.5, 또는 0.8일 수 있거나, α의 값은 적응 계산을 통해 획득될 수 있고;
예를 들어, 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 tdm_lt_corr_RM_SM은 다음의 수학식을 충족한다:
Figure 112020063801644-pct00308
여기서, tdm_lt_corr_RM_SMcur은 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타내고, tdm_lt_corr_RM_SMpre은 장시간 평활화를 통해 획득되는 이전 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타내고, β는 우측 채널 평활화 인자를 나타내고, β는 0과 1 사이의 미리 설정된 실수일 수 있고, β는 좌측 채널 평활화 인자 α의 값과 같거나 상이할 수 있고, 예를 들어, β는 0.2, 0.5, 또는 0.8과 같을 수 있거나, β의 값은 적응 계산을 통해 획득될 수 있다.
장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 및 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 계산하기 위한 다른 방법은 다음의 단계들을 포함할 수 있다.
먼저, 지연 정렬 처리를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 corr_LM를 수정하여, 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 수정된 파라미터 corr_LM_mod를 획득하고; 지연 정렬 처리를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 corr_RM_mod를 수정하여, 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 수정된 파라미터 corr_RM_mod를 획득한다.
이어서, 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 수정된 파라미터 corr_LM_mod, 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 수정된 파라미터 corr_RM_mod, 장시간 평활화를 통해 획득되는 이전 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 tdm_lt_corr_LM_SMpre, 및 장시간 평활화를 통해 획득되는 이전 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 tdm_lt_corr_RM_SMpre에 기초하여, 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 diff_lt_corr_LM_tmp 및 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 diff_lt_corr_RM_tmp를 결정한다.
다음으로, 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 diff_lt_corr_LM_tmp 및 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 diff_lt_corr_RM_tmp에 기초하여, 현재 프레임의 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 초기 값 diff_lt_corr_SM을 획득하고; 현재 프레임의 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 획득된 초기 값 diff_lt_corr_SM, 및 이전 프레임의 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터 tdm_last_diff_lt_corr_SM에 기초하여, 현재 프레임의 좌측 및 우측 채널들 사이의 진폭 상관 차이의 프레임간 변경 파라미터 d_lt_corr를 결정한다.
마지막으로, 신호 에너지 분석을 통해 획득되는, 현재 프레임의 좌측 및 우측 채널들 사이의 진폭 상관 차이의 프레임간 변경 파라미터, 현재 프레임의 좌측 채널 신호의 프레임 에너지, 현재 프레임의 우측 채널 신호의 프레임 에너지, 현재 프레임의 좌측 채널의 장시간 평활 프레임 에너지, 현재 프레임의 우측 채널의 장시간 평활 프레임 에너지, 현재 프레임의 좌측 채널의 프레임간 에너지 차이, 및 현재 프레임의 우측 채널의 프레임간 에너지 차이에 기초하여, 상이한 좌측 채널 평활화 인자들 및 우측 채널 평활화 인자들을 적응적으로 선택하고, 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 tdm_lt_corr_LM_SM, 및 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 tdm_lt_corr_RM_SM을 계산한다.
전술한 2가지 예시적 방법에 더하여, 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터 및 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 계산하기 위한 많은 다른 방법들이 존재할 수 있다. 이것은 본 출원에서 제한되지 않는다.
90842. 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터, 및 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터에 기초하여, 현재 프레임의 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터 diff_lt_corr를 계산한다.
예를 들어, 현재 프레임의 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터 diff_lt_corr는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00309
여기서, tdm_lt_corr_LM_SM은 장시간 평활화를 통해 획득되는 현재 프레임의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타내고, tdm_lt_corr_RM_SM은 장시간 평활화를 통해 획득되는 현재 프레임의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관의 파라미터를 나타낸다.
9085. 현재 프레임의 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터 diff_lt_corr를 채널 조합 비율 인자로 변환하고, 채널 조합 비율 인자에 대해 양자화 인코딩을 수행하여, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 코드 인덱스를 결정한다.
도 9d를 참조하면, 현재 프레임의 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터를 채널 조합 비율 인자로 변환하기 위한 가능한 방법은 단계들 90851 내지 90853을 구체적으로 포함할 수 있다.
90851. 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터에 대해 매핑 처리를 수행하여, 매핑 처리를 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 값 범위를 [MAP_MIN,MAP_MAX]가 되게 한다.
좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터에 대해 매핑 처리를 수행하기 위한 방법은 다음의 단계들을 포함할 수 있다.
먼저, 현재 프레임의 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터에 대해 진폭 제한 처리를 수행한다. 예를 들어, 진폭 제한 처리를 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터 diff_lt_corr_limit는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00310
여기서, RATIO_MAX는 진폭 제한을 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 최대 값을 나타내고, RATIO_MIN은 진폭 제한을 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 최소 값을 나타내고, 여기서, RATIO_MAX는, 예를 들어, 미리 설정된 경험 값이고, RATIO_MAX는, 예를 들어, 1.5, 3.0, 또는 다른 값이고; RATIO_MIN은, 예를 들어, 미리 설정된 경험 값이고, RATIO_MIN은, 예를 들어, -1.5, -3.0, 또는 다른 값이며; RATIO_MAX>RATIO_MIN이다.
이어서, 진폭 제한 처리를 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터에 대해 매핑 처리를 수행한다. 매핑 처리를 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터 diff_lt_corr_map은 다음의 수학식을 충족한다:
Figure 112020063801644-pct00311
Figure 112020063801644-pct00312
여기서, MAP_MAX는 매핑 처리를 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 최대 값을 나타내고, MAP_HIGH는 매핑 처리를 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 높은 임계값을 나타내고, MAP_LOW는 매핑 처리를 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 낮은 임계값을 나타내고, MAP_MIN은 매핑 처리를 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 최소 값을 나타내고;
Figure 112020063801644-pct00313
, 여기서,
예를 들어, 본 출원의 일부 실시예들에서, MAP_MAX는 2.0일 수 있고, MAP_HIGH는 1.2일 수 있고, MAP_LOW는 0.8일 수 있고, MAP_MIN은 0.0일 수 있고, 물론, 실제 응용은 이러한 예들의 값들로 제한되지 않으며;
여기서, RATIO_MAX는 진폭 제한을 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 최대 값을 나타내고, RATIO_HIGH는 진폭 제한을 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 높은 임계값을 나타내고, RATIO_LOW는 진폭 제한을 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 낮은 임계값을 나타내고, RATIO_MIN은 진폭 제한을 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 최소 값을 나타내고;
Figure 112020063801644-pct00314
, 여기서,
예를 들어, 본 출원의 일부 실시예들에서, RATIO_MAX는 1.5이고, RATIO_HIGH는 0.75이고, RATIO_LOW는 -0.75이고, RATIO_MIN은 -1.5이고, 물론, 실제 응용은 이러한 예들의 값들로 제한되지 않는다.
본 출원의 일부 실시예들에서, 다른 방법은 다음과 같다: 매핑 처리를 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터 diff_lt_corr_map은 다음의 수학식을 충족한다:
Figure 112020063801644-pct00315
, 여기서,
diff_lt_corr_limit는 진폭 제한 처리를 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터를 나타내고;
Figure 112020063801644-pct00316
; 및
여기서, RATIO_MAX는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 최대 진폭을 나타내고, -RATIO_MAX는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터의 최소 진폭을 나타내고, RATIO_MAX는 미리 설정된 경험 값일 수 있고, 예를 들어, RATIO_MAX는 1.5, 3.0, 또는 0보다 큰 다른 실수일 수 있다.
90852. 매핑 처리를 통해 획득되는 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터를 채널 조합 비율 인자로 변환한다.
채널 조합 비율 인자 ratio_SM은 다음의 수학식을 충족한다:
Figure 112020063801644-pct00317
여기서,
Figure 112020063801644-pct00318
은 코사인 연산(cosine operation)을 나타낸다.
전술한 방법 외에도, 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터는 대안적으로 다른 방법을 사용하여 채널 조합 비율 인자로 변환될 수 있고, 예를 들어:
인코더의 이력 캐시 내의 이전 프레임의 캐싱된 인코딩 파라미터(예를 들어, 주요 채널 신호의 프레임간 상관 파라미터 또는 보조 채널 신호의 프레임간 상관 파라미터), 현재 프레임과 이전 프레임의 채널 조합 방식 식별자들, 및 현재 프레임과 이전 프레임에 대한 비상관성 신호 채널 조합 방식들에 대응하는 채널 조합 비율 인자들에 기초하여, 그리고 신호 에너지 분석을 통해 획득되는 현재 프레임의 좌측 채널의 장시간 평활 프레임 에너지, 현재 프레임의 우측 채널의 장시간 평활 프레임 에너지, 및 현재 프레임의 좌측 채널의 프레임간 에너지 차이에 기초하여, 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 갱신할지를 결정하는 것; 및
비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자가 갱신될 필요가 있다면, 전술한 예시적인 방법을 사용하여 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터를 채널 조합 비율 인자로 변환하고; 그렇지 않으면, 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 코드 인덱스를, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 코드 인덱스로서 직접 사용하는 것을 포함한다.
90853. 변환을 통해 획득되는 채널 조합 비율 인자에 대해 양자화 인코딩을 수행하여, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자를 결정한다.
구체적으로, 예를 들어, 변환을 통해 획득되는 채널 조합 비율 인자에 대해 양자화 인코딩을 수행하여, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 초기 코드 인덱스 ratio_idx_init_SM 및 양자화 인코딩을 통해 획득되는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값 ratio_init_SMqua을 획득하며, 여기서
Figure 112020063801644-pct00319
여기서, ratio_tabl_SM은 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 스칼라 양자화를 위한 코드북을 나타낸다.
종래 기술에서의 임의의 스칼라 양자화 방법은 양자화 인코딩에 사용될 수 있고, 예를 들어, 균일 스칼라 양자화 또는 비-균일 스칼라 양자화가 사용될 수 있다. 코딩된 비트들의 수량은 5 비트일 수 있다. 구체적인 방법은 본 명세서에서 상세히 설명되지 않는다. 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 스칼라 양자화를 위한 코드북은 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 스칼라 양자화를 위한 코드북과 동일하거나 상이할 수 있다. 코드북들이 동일할 때, 채널 조합 비율 인자의 스칼라 양자화를 위해 사용되는 하나의 코드북만이 저장될 필요가 있을 수 있다. 이 경우, 양자화 인코딩을 통해 획득되는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값 ratio_init_SMqua은 다음과 같다:
Figure 112020063801644-pct00320
예를 들어, 방법은: 양자화 인코딩을 통해 획득되는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값을, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자로서 직접 사용하는 것; 및 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 코드 인덱스를, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스로서 직접 사용하는 것이다.
현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스 ratio_idx_SM은 ratio_idx_SM = ratio_idx_init_SM을 충족한다.
현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00321
다른 방법은: 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스 또는 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여, 양자화 인코딩을 통해 획득되는 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 초기 값, 및 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 초기 코드 인덱스를 수정하는 것; 및 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정된 코드 인덱스를 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스로서 사용하고, 비상관성 신호 채널 조합 방식에 대응하는 수정된 채널 조합 비율 인자를 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자로서 사용하는 것일 수 있다.
현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스 ratio_idx_SM은
Figure 112020063801644-pct00322
을 충족하고, 여기서,
ratio_idx_init_SM은 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 초기 코드 인덱스를 나타내고, tdm_last_ratio_idx_SM은 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스이고,
Figure 112020063801644-pct00323
는 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 수정 인자이고,
Figure 112020063801644-pct00324
의 값은 경험 값일 수 있고, 예를 들어,
Figure 112020063801644-pct00325
은 0.8과 같을 수 있다.
이 경우, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자는 다음의 수학식을 충족한다:
Figure 112020063801644-pct00326
또 다른 방법은: 비상관성 신호 채널 조합 방식에 대응하는 양자화되지 않은 채널 조합 비율 인자를 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자로서 사용하는 것이며, 즉, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 ratio_SM은 다음의 수학식을 충족한다:
Figure 112020063801644-pct00327
또한, 제4 방법은: 이전 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 기초하여, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 양자화되지 않은 채널 조합 비율 인자를 수정하는 것; 비상관성 신호 채널 조합 방식에 대응하는 수정된 채널 조합 비율 인자를 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자로서 사용하는 것; 및 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자에 대해 양자화 인코딩을 수행하여, 채널 조합 비율 인자의 코드 인덱스를 획득하는 것이다.
전술한 방법들 이외에, 좌측 및 우측 채널들 사이의 진폭 상관 차이의 파라미터를 채널 조합 비율 인자로 변환하고 그 채널 조합 비율 인자에 대해 양자화 인코딩을 수행하기 위한 많은 다른 방법들이 존재할 수 있다. 마찬가지로, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 코드 인덱스를 결정하기 위한 많은 상이한 방법들이 또한 존재한다. 이것은 본 출원에서 제한되지 않는다.
909. 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정한다.
현재 프레임의 채널 조합 방식 식별자가 tdm_SM_flag로서 표시될 수 있다.
이전 프레임의 채널 조합 방식 식별자가 tdm_last_SM_flag로서 표시될 수 있다.
현재 프레임의 다운믹스 모드 식별자가 tdm_DM_flag로서 표시될 수 있다.
이전 프레임의 다운믹스 모드 식별자가 tdm_last_DM_flag로서 표시될 수 있다.
유사하게, stereo_tdm_coder_type은 현재 프레임의 인코딩 모드를 나타내기 위해 사용될 수 있다.
구체적으로, 예를 들어, stereo_tdm_coder_type=0은 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 A 인코딩 모드인 것을 나타내고, stereo_tdm_coder_type=1은 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 B 인코딩 모드인 것을 나타내고, stereo_tdm_coder_type=2는 현재 프레임의 인코딩 모드가 다운믹스 모드 A-대-다운믹스 모드 C 인코딩 모드인 것을 나타낸다.
구체적으로, 다른 예로서, stereo_tdm_coder_type=3은 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 B 인코딩 모드인 것을 나타내고, stereo_tdm_coder_type=4는 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 A 인코딩 모드인 것을 나타내고, stereo_tdm_coder_type=5는 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 D 인코딩 모드인 것을 나타낸다.
구체적으로, 다른 예로서, stereo_tdm_coder_type=6은 현재 프레임의 인코딩 모드가 다운믹스 모드 B-대-다운믹스 모드 C 인코딩 모드인 것을 나타내고, stereo_tdm_coder_type=7은 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 A 인코딩 모드인 것을 나타내고, stereo_tdm_coder_type=8은 현재 프레임의 인코딩 모드가 다운믹스 모드 C-대-다운믹스 모드 D 인코딩 모드인 것을 나타낸다.
구체적으로, 다른 예로서, stereo_tdm_coder_type=9는 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 D 인코딩 모드인 것을 나타내고, stereo_tdm_coder_type=10은 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 B 인코딩 모드인 것을 나타내고, stereo_tdm_coder_type=11은 현재 프레임의 인코딩 모드가 다운믹스 모드 D-대-다운믹스 모드 C 인코딩 모드인 것을 나타낸다.
이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하는 특정 구현에 대해서는, 다른 실시예들에서의 관련 설명들을 참조한다. 상세사항들은 여기서 다시 설명되지 않는다.
910. 현재 프레임에 대한 인코딩 모드 stereo_tdm_coder_type를 결정한 후에, 인코딩 장치는 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득한다.
상이한 인코딩 모드들에서 시간 도메인 다운믹스 처리를 수행하는 구현들에 대해서는, 전술한 실시예들에서의 관련된 예시적인 설명들을 참조한다. 상세사항들은 여기서 다시 설명되지 않는다.
911. 인코딩 장치는 주요 채널 신호 및 보조 채널 신호를 개별적으로 인코딩하여, 인코딩된 주요 채널 신호 및 인코딩된 보조 채널 신호를 획득한다.
구체적으로, 이전 프레임의 주요 채널 신호 및/또는 보조 채널 신호의 인코딩으로부터 획득되는 파라미터 정보와, 주요 채널 신호 및 보조 채널 신호를 인코딩하기 위한 비트들의 총 수량에 기초하여 주요 채널 신호 및 보조 채널 신호를 인코딩하기 위해 비트들이 먼저 할당될 수 있다. 그 후, 비트 할당 결과에 기초하여 주요 채널 신호 및 보조 채널 신호를 개별적으로 인코딩하여, 주요 채널 인코딩을 위한 코드 인덱스 및 보조 채널 인코딩을 위한 코드 인덱스를 획득한다. 주요 채널 인코딩 및 보조 채널 인코딩을 위해 임의의 모노 오디오 인코딩 기술이 사용될 수 있다. 상세사항들은 여기서 설명되지 않는다.
912. 인코딩 장치는 채널 조합 방식 식별자에 기초하여 채널 조합 비율 인자의 대응하는 코드 인덱스를 선택하고, 그 코드 인덱스를 비트스트림에 기입하고, 현재 프레임의 인코딩된 주요 채널 신호, 인코딩된 보조 채널 신호, 및 다운믹스 모드 식별자 tdm_DM_flag를 비트스트림에 기입한다.
구체적으로, 예를 들어, 현재 프레임의 채널 조합 방식 식별자 tdm_SM_flag가 상관성 신호 채널 조합 방식에 대응하는 경우, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스 ratio_idx가 비트스트림에 기입되거나; 또는 현재 프레임의 채널 조합 방식 식별자 tdm_SM_flag가 비상관성 신호 채널 조합 방식에 대응하는 경우, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스 ratio_idx_SM이 비트스트림에 기입된다.
예를 들어, tdm_SM_flag=0이면, 현재 프레임에 대한 상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스 ratio_idx가 비트스트림에 기입되거나; 또는 tdm_SM_flag=1이면, 현재 프레임에 대한 비상관성 신호 채널 조합 방식에 대응하는 채널 조합 비율 인자의 코드 인덱스 ratio_idx_SM이 비트스트림에 기입된다.
또한, 현재 프레임의 인코딩된 주요 채널 신호, 인코딩된 보조 채널 신호, 다운믹스 모드 식별자 tdm_DM_flag 등이 비트스트림에 기입된다. 전술한 정보를 비트스트림에 기입하기 위한 순서는 없다는 것을 이해할 수 있다.
대응하여, 다음은 예를 사용하여 시간 도메인 스테레오 디코딩 시나리오를 설명한다.
도 10을 참조하면, 다음은 오디오 디코딩 방법을 추가로 제공한다. 오디오 디코딩 방법의 관련 단계들은 디코딩 장치에 의해 구체적으로 구현될 수 있다. 이 방법은 다음의 단계들을 구체적으로 포함할 수 있다.
1001. 비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들을 획득한다.
1002. 비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 시간 도메인 스테레오 파라미터를 획득한다.
현재 프레임의 시간 도메인 스테레오 파라미터는 현재 프레임의 채널 조합 비율 인자를 포함하고(비트스트림은 현재 프레임의 채널 조합 비율 인자의 코드 인덱스를 포함하고, 현재 프레임의 채널 조합 비율 인자는 현재 프레임의 채널 조합 비율 인자의 코드 인덱스에 기초하여 디코딩을 통해 획득될 수 있음), 현재 프레임의 채널간 시간 차이를 추가로 포함할 수 있고(예를 들어, 비트스트림은 현재 프레임의 채널간 시간 차이의 코드 인덱스를 포함하고, 현재 프레임의 채널간 시간 차이는 현재 프레임의 채널간 시간 차이의 코드 인덱스에 기초하여 디코딩을 통해 획득될 수 있거나; 또는 비트스트림은 현재 프레임의 채널간 시간 차이의 절대값의 코드 인덱스를 포함하고, 현재 프레임의 채널간 시간 차이의 절대값은, 현재 프레임의 채널간 시간 차이의 절대값의 코드 인덱스에 기초하여 디코딩을 통해 획득될 수 있음), 기타 등등이다.
1003. 비트스트림에 기초하여, 비트스트림에 포함되는 현재 프레임의 다운믹스 모드 식별자를 획득하고, 현재 프레임의 다운믹스 모드를 결정한다.
1004. 현재 프레임의 다운믹스 모드 및 이전 프레임의 다운믹스 모드에 기초하여 현재 프레임의 인코딩 모드를 결정한다.
예를 들어, 현재 프레임의 다운믹스 모드 식별자 tdm_DM_flag가 (00)일 때, 현재 프레임의 다운믹스 모드는 다운믹스 모드 A이거나; 현재 프레임의 다운믹스 모드 식별자 tdm_DM_flag가 (11)일 때, 현재 프레임의 다운믹스 모드는 다운믹스 모드 B이거나; 현재 프레임의 다운믹스 모드 식별자 tdm_DM_flag가 (01)일 때, 현재 프레임의 다운믹스 모드는 다운믹스 모드 C이거나; 현재 프레임의 다운믹스 모드 식별자 tdm_DM_flag가 (10)일 때, 현재 프레임의 다운믹스 모드는 다운믹스 모드 D이다.
단계 1001, 단계 1002, 및 단계들 1003과 1004를 수행하기 위한 필요한 순서는 없다는 것을 이해할 수 있다.
1005. 현재 프레임의 결정된 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대한 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득한다.
상이한 인코딩 모드들에서 시간 도메인 업믹스 처리를 수행하는 관련된 구현들에 대해서는, 전술한 실시예들에서의 관련된 예시적인 설명들을 참조한다. 상세사항들은 여기서 다시 설명되지 않는다.
현재 프레임의 획득된 채널 조합 비율 인자에 기초하여 시간 도메인 업믹스 처리를 위해 사용되는 업믹스 행렬이 구성된다.
현재 프레임의 재구성된 좌측 및 우측 채널 신호들은 현재 프레임의 디코딩된 좌측 및 우측 채널 신호들로서 사용될 수 있다.
대안적으로, 추가로, 현재 프레임의 채널간 시간 차이에 기초하여 현재 프레임의 재구성된 좌측 및 우측 채널 신호들에 대해 지연 조정을 추가로 수행하여, 지연 조정을 거친 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득할 수 있다. 지연 조정을 통해 획득되는 현재 프레임의 재구성된 좌측 및 우측 채널 신호들은 현재 프레임의 디코딩된 좌측 및 우측 채널 신호들로서 사용될 수 있다. 대안적으로, 추가로, 지연 조정을 통해 획득되는 현재 프레임의 재구성된 좌측 및 우측 채널 신호들에 대해 시간 도메인 후처리를 추가로 수행할 수 있다. 시간 도메인 후처리를 통해 획득되는 현재 프레임의 재구성된 좌측 및 우측 채널 신호들은 현재 프레임의 디코딩된 좌측 및 우측 채널 신호들로서 사용될 수 있다.
전술한 내용은 본 출원의 실시예들에서의 방법들을 상세히 설명한다. 다음은 본 출원의 실시예들에서의 장치들을 제공한다.
도 11a를 참조하면, 본 출원의 실시예는 장치(1100)를 제공하며, 이 장치(1100)는:
서로 결합되는 프로세서(1110)와 메모리(1120)를 포함하고, 메모리(1110)는 컴퓨터 프로그램을 저장하고, 프로세서(1120)는 메모리에 저장된 컴퓨터 프로그램을 호출하여, 본 출원의 실시예들에서 제공되는 임의의 방법의 단계들의 일부 또는 전부를 수행한다.
메모리(1120)는 랜덤 액세스 메모리(Random Access Memory, 줄여서 RAM), 판독 전용 메모리(Read-Only Memory, 줄여서 ROM), 소거가능한 프로그램가능 판독 전용 메모리(Erasable Programmable Read Only Memory, 줄여서 EPROM), 또는 휴대용 판독 전용 메모리(Compact Disc Read-Only Memory, 줄여서 CD-ROM)를 포함하지만 이에 제한되지는 않는다. 메모리(1120)는 관련된 명령어 및 관련된 데이터를 저장하도록 구성된다.
물론, 장치(1100)는 데이터를 송신 및 수신하도록 구성되는 송수신기(1130)를 추가로 포함할 수 있다.
프로세서(1110)는 하나 이상의 중앙 처리 유닛(Central Processing Unit, 줄여서 CPU)일 수 있다. 프로세서(1110)가 하나의 CPU일 때, CPU는 단일-코어 CPU 또는 멀티-코어 CPU일 수 있다. 프로세서(1110)는 구체적으로 디지털 신호 프로세서일 수 있다.
구현 프로세스에서, 전술한 방법들에서의 단계들은 프로세서(1110) 내의 하드웨어 집적 논리 회로를 사용하는 것에 의해 또는 소프트웨어 형태의 명령어들을 사용하는 것에 의해 구현될 수 있다. 프로세서(1110)는 범용 프로세서, 디지털 신호 프로세서, 주문형 집적 회로, 필드 프로그램가능 게이트 어레이 또는 다른 프로그램가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 디바이스, 또는 이산 하드웨어 컴포넌트일 수 있다. 프로세서(1110)는 본 발명의 방법 실시예들에서의 방법들, 단계들 및 논리 블록도들을 구현하거나 실행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 임의의 종래의 프로세서 등일 수 있다. 본 발명의 실시예들을 참조하여 개시되는 방법들의 단계들은 하드웨어 디코딩 프로세서를 사용하여 직접 수행되고 완수될 수 있거나, 또는 디코딩 프로세서에서의 하드웨어 및 소프트웨어 모듈들의 조합을 사용하여 수행되고 완수될 수 있다.
소프트웨어 모듈은, 랜덤 액세스 메모리, 플래시 메모리, 판독-전용 메모리, 프로그램가능 판독 전용 메모리, 전기적으로 소거가능한 프로그램가능 메모리, 레지스터 등과 같은 이 기술분야에서의 발달된(mature) 저장 매체에 위치될 수 있다. 저장 매체는 메모리(1120)에 위치된다. 예를 들어, 프로세서(1110)는 메모리(1120)로부터 정보를 판독하고, 프로세서(1110)의 하드웨어와 조합하여 전술한 방법들에서의 단계들을 완료할 수 있다.
또한, 장치(1100)는 송수신기(1130)를 추가로 포함할 수 있다. 송수신기(1130)는 관련된 데이터(예를 들어, 명령어, 채널 신호, 또는 비트스트림)를 송신 및 수신하도록 구성될 수 있다.
예를 들어, 장치(1100)는 도 2, 도 3, 도 6, 도 7, 도 8, 도 10, 및 도 9aa 및 도 9ab 내지 도 9d 중 어느 하나에 도시된 실시예에서 대응하는 방법의 일부 또는 모든 단계들을 수행할 수 있다. 구체적으로, 예를 들어, 장치(1100)가 전술한 인코딩 관련 단계들을 수행할 때, 장치(1100)는 인코딩 장치(또는 오디오 인코딩 장치)로 지칭될 수 있다. 장치(1100)가 전술한 디코딩 관련 단계들을 수행할 때, 장치(1100)는 디코딩 장치(또는 오디오 디코딩 장치)로 지칭될 수 있다.
도 11b를 참조하면, 장치(1100)가 인코딩 장치일 때, 장치(1100)는, 예를 들어, 마이크로폰(1140) 및 아날로그-대-디지털 변환기(1150)를 추가로 포함할 수 있다.
마이크로폰(1140)은, 예를 들어, 아날로그 오디오 신호를 획득하기 위해 샘플링을 수행하도록 구성될 수 있다.
아날로그-대-디지털 변환기(1150)는, 예를 들어, 아날로그 오디오 신호를 디지털 오디오 신호로 변환하도록 구성될 수 있다.
도 11c를 참조하면, 장치(1100)가 디코딩 장치일 때, 장치(1100)는, 예를 들어, 라우드스피커(1160) 및 디지털-대-아날로그 변환기(1170)를 추가로 포함할 수 있다.
디지털-대-아날로그 변환기(1170)는, 예를 들어, 디지털 오디오 신호를 아날로그 오디오 신호로 변환하도록 구성될 수 있다.
라우드스피커(1160)는, 예를 들어, 아날로그 오디오 신호를 재생하도록 구성될 수 있다.
또한, 도 12a를 참조하면, 본 출원의 실시예는 본 출원의 실시예들에서 제공되는 임의의 방법을 구현하도록 구성되는 하나 이상의 기능 유닛을 포함하는 장치(1200)를 제공한다.
예를 들어, 장치(1200)가 도 2에 도시된 실시예에서의 대응하는 방법을 수행할 때, 장치(1200)는 다음을 포함할 수 있다:
현재 프레임에 대한 채널 조합 방식을 결정하고, 이전 프레임의 다운믹스 모드 및 현재 프레임에 대한 채널 조합 방식에 기초하여 현재 프레임의 인코딩 모드를 결정하도록 구성되는 제1 결정 유닛(1210); 및
현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 현재 프레임의 주요 및 보조 채널 신호들을 획득하고; 현재 프레임의 획득된 주요 및 보조 채널 신호들을 인코딩하도록 구성되는 인코딩 유닛(1220).
또한, 도 12b를 참조하면, 장치(1200)는 현재 프레임의 시간 도메인 스테레오 파라미터를 결정하도록 구성되는 제2 결정 유닛(1230)을 추가로 포함할 수 있다. 인코딩 유닛(1220)은 현재 프레임의 시간 도메인 스테레오 파라미터를 인코딩하도록 추가로 구성될 수 있다.
다른 예로서, 도 12c를 참조하면, 장치(1200)가 도 3에 도시된 실시예에서의 대응하는 방법을 수행할 때, 장치(1200)는 다음을 포함할 수 있다: 이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여 현재 프레임의 인코딩 모드를 결정하도록 구성되는 제3 결정 유닛(1240); 및
비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들을 획득하고; 비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 다운믹스 모드를 결정하고; 이전 프레임의 다운믹스 모드 및 현재 프레임의 다운믹스 모드에 기초하여 현재 프레임의 인코딩 모드를 결정하고; 현재 프레임의 인코딩 모드에 기초하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대한 시간 도메인 업믹스 처리를 수행하여, 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득하도록 구성되는 디코딩 유닛(1250).
장치가 다른 방법을 수행하는 경우는 유사하다.
본 출원의 실시예는 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 판독가능 저장 매체는 프로그램 코드를 저장하고, 프로그램 코드는 본 출원의 실시예들에서 제공되는 임의의 방법의 일부 또는 모든 단계들을 수행하기 위한 명령어를 포함한다.
본 출원의 실시예는 컴퓨터 프로그램 제품을 추가로 제공한다. 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 컴퓨터는 본 출원의 실시예들에서 제공되는 임의의 방법의 일부 또는 모든 단계들을 수행할 수 있게 된다.
전술한 실시예들에서, 실시예들의 설명들은 각자의 초점들을 갖는다. 실시예에서 상세히 설명되지 않은 부분에 대해서는, 다른 실시예들에서의 관련 설명들을 참조한다.
본 출원에서 제공되는 하나 이상의 실시예에서, 개시된 장치는 다른 방식으로 구현될 수 있다는 것을 이해해야 한다. 예를 들어, 설명된 장치 실시예는 예일 뿐이다. 예를 들어, 유닛 분할은 단지 논리적 기능 분할이거나 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 컴포넌트가 다른 시스템으로 조합 또는 통합될 수 있거나, 일부 특징들이 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 직접 결합들 또는 직접 결합들 또는 통신 접속들은 일부 인터페이스들을 통해 구현될 수 있다. 장치들 또는 유닛들 사이의 간접 결합들 또는 통신 접속들은 전자적 또는 다른 형태들로 구현될 수 있다.
개별적인 부분들로서 설명된 유닛들은 물리적으로 분리되어 있을 수 있거나 그렇지 않을 수 있고, 유닛들로서 디스플레이된 부분들은 물리적 유닛들일 수 있거나 그렇지 않을 수 있고, 하나의 위치에 위치될 수 있거나, 복수의 네트워크 유닛들 상에 분산될 수 있다. 유닛들의 일부 또는 전부는 실시예들의 해결책들의 목적들을 달성하기 위해 실제 필요에 기초하여 선택될 수 있다.
또한, 본 발명의 실시예들에서의 기능 유닛들은 하나의 처리 유닛에 통합될 수 있거나, 또는 유닛들 각각이 물리적으로 단독으로 존재할 수 있거나, 또는 2개 이상의 유닛이 하나의 유닛에 통합될 수 있다. 통합된 유닛은 하드웨어의 형태로 구현될 수 있거나, 또는 소프트웨어 기능 유닛의 형태로 구현될 수 있다.
통합된 유닛이 소프트웨어 기능 유닛의 형태로 구현되고 독립적인 제품으로서 판매되거나 또는 사용될 때, 통합된 유닛은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본 발명의 기술적 해결책들이 본질적으로, 또는 종래 기술에 기여하는 부분이, 또는 기술적 해결책들의 전부 또는 일부가 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, 컴퓨터 디바이스(개인용 컴퓨터, 서버, 네트워크 디바이스 등일 수 있음)에 본 발명의 실시예들에서 설명된 방법들의 단계들의 일부 또는 전부를 수행하도록 지시하기 위한 하나 이상의 명령어를 포함한다. 전술한 저장 매체는, USB 플래시 드라이브, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 이동식 하드 디스크, 자기 디스크, 또는 광 디스크와 같은, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.

Claims (58)

  1. 오디오 인코딩 방법으로서,
    현재 프레임에 대한 좌측 및 우측 채널 신호 사이의 위상 차이를 나타내는 채널 신호 타입을 결정하는 단계;
    이전 프레임의 다운믹스 모드 및 상기 현재 프레임에 대한 상기 채널 신호 타입에 기초하여 상기 이전 프레임의 다운믹스 모드로부터 상기 현재 프레임의 다운믹스 모드로의 스위칭을 결정하는 단계 - 상기 다운믹스 모드는 좌측 및 우측 채널 신호들로부터 주요 및 보조 채널 신호들을 획득하는 모드임 -;
    상기 스위칭에 기초하여 상기 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리(time-domain downmix processing)를 수행하여, 상기 현재 프레임의 주요 및 보조 채널 신호들을 획득하는 단계; 및
    상기 현재 프레임의 획득된 주요 및 보조 채널 신호들을 인코딩하는 단계
    를 포함하고,
    상기 이전 프레임의 다운믹스 모드는 복수의 다운믹스 모드들 중 하나이고; 상기 복수의 다운믹스 모드는 다운믹스 모드 A, 다운믹스 모드 B, 다운믹스 모드 C, 및 다운믹스 모드 D를 포함하고; 상기 다운믹스 모드 A 및 상기 다운믹스 모드 D는 상관성 신호 다운믹스 모드들이고; 상기 다운믹스 모드 B 및 상기 다운믹스 모드 C는 비상관성 신호 다운믹스 모드들이고; 상기 이전 프레임의 다운믹스 모드 A, 상기 이전 프레임의 다운믹스 모드 B, 상기 이전 프레임의 다운믹스 모드 C, 및 상기 이전 프레임의 다운믹스 모드 D는 상이한 다운믹스 행렬들에 대응하는, 방법.
  2. 제1항에 있어서, 상기 현재 프레임에 대한 상기 채널 신호 타입은 복수의 채널 신호 타입 중 하나이고; 상기 복수의 채널 신호 타입은 비상관성 신호 채널 신호 타입 및 상관성 신호 채널 신호 타입을 포함하고; 상기 상관성 신호 채널 신호 타입은 근사 동상 신호(near in phase signal)에 대응하는 채널 신호 타입이고; 상기 비상관성 신호 채널 신호 타입은 근사 이상 신호(near out of phase signal)에 대응하는 채널 신호 타입인, 방법.
  3. 삭제
  4. 제1항에 있어서, 상기 이전 프레임의 다운믹스 모드 및 상기 현재 프레임에 대한 채널 신호 타입에 기초하여 상기 이전 프레임의 다운믹스 모드로부터 상기 현재 프레임의 다운믹스 모드로의 스위칭을 결정하는 단계는: 상기 이전 프레임의 다운믹스 모드, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값, 및 상기 현재 프레임에 대한 채널 신호 타입에 기초하여 상기 스위칭을 결정하는 단계를 포함하는, 방법.
  5. 제4항에 있어서, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 다운믹스 모드 스위칭 비용 함수에 기초하여 계산된 계산 결과이고; 상기 다운믹스 모드 스위칭 비용 함수는 다음의 파라미터들: 상기 현재 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터, 상기 이전 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터, 및 상기 현재 프레임의 좌측 및 우측 채널 신호들 중 적어도 하나에 기초하여 구성되거나; 또는
    상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자(channel combination ratio factor)인, 방법.
  6. 제5항에 있어서, 상기 다운믹스 모드 스위칭 비용 함수는 다음의 스위칭 비용 함수들: 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수, 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수, 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수, 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수, 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수, 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수, 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수, 및 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수 중 하나인, 방법.
  7. 제6항에 있어서, 상기 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00447

    여기서, Cost_AB는 상기 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_A는 상기 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_A는 상기 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_A는 0보다 크고 N-1보다 작은 정수이고, end_sample_A는 0보다 크고 N-1보다 작은 정수이고, start_sample_A는 end_sample_A보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio이고, tdm_last_ratio는 상기 이전 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00448

    여기서, Cost_AC는 상기 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_A는 상기 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_A는 상기 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_A는 0보다 크고 N-1보다 작은 정수이고, end_sample_A는 0보다 크고 N-1보다 작은 정수이고, start_sample_A는 end_sample_A보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio이고, tdm_last_ratio는 상기 이전 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00449

    여기서, Cost_BA는 상기 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_B는 상기 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_B는 상기 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_B는 0보다 크고 N-1보다 작은 정수이고, end_sample_B는 0보다 크고 N-1보다 작은 정수이고, start_sample_B는 end_sample_B보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio이고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 상기 이전 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00450

    여기서, Cost_BD는 상기 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_B는 상기 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_B는 상기 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_B는 0보다 크고 N-1보다 작은 정수이고, end_sample_B는 0보다 크고 N-1보다 작은 정수이고, start_sample_B는 end_sample_B보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio이고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 상기 이전 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00451

    여기서, Cost_CD는 상기 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_C는 상기 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_C는 상기 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_C는 0보다 크고 N-1보다 작은 정수이고, end_sample_C는 0보다 크고 N-1보다 작은 정수이고, start_sample_C는 end_sample_C보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio이고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 상기 이전 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00452

    여기서, Cost_CA는 상기 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_C는 상기 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_C는 상기 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_C는 0보다 크고 N-1보다 작은 정수이고, end_sample_C는 0보다 크고 N-1보다 작은 정수이고, start_sample_C는 end_sample_C보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio이고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 상기 이전 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00453

    여기서, Cost_DC는 상기 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_D는 상기 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_D는 상기 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_D는 0보다 크고 N-1보다 작은 정수이고, end_sample_D는 0보다 크고 N-1보다 작은 정수이고, start_sample_D는 end_sample_D보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio이고, tdm_last_ratio는 상기 이전 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00454

    여기서, Cost_DB는 상기 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_D는 상기 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_D는 상기 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_D는 0보다 크고 N-1보다 작은 정수이고, end_sample_D는 0보다 크고 N-1보다 작은 정수이고, start_sample_D는 end_sample_D보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio이고, tdm_last_ratio는 상기 이전 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내는, 방법.
  8. 제2항에 있어서, 상기 이전 프레임의 다운믹스 모드 및 상기 현재 프레임에 대한 채널 신호 타입에 기초하여 상기 이전 프레임의 다운믹스 모드로부터 상기 현재 프레임의 다운믹스 모드로의 스위칭을 결정하는 단계는:
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입인 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A인 것으로 결정하고, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입인 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B인 것으로 결정하고, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입인 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C인 것으로 결정하고, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계; 또는
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입인 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D인 것으로 결정하고, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계
    를 포함하는, 방법.
  9. 제2항에 있어서, 상기 이전 프레임의 다운믹스 모드, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값, 및 상기 현재 프레임에 대한 상기 채널 신호 타입에 기초하여 스위칭을 결정하는 단계는:
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제1 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제1 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제2 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제2 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제3 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제3 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제4 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제4 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제5 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제5 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제6 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제6 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제7 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제7 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ; 또는
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제8 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제8 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 -
    를 포함하는, 방법.
  10. 제2항에 있어서, 상기 이전 프레임의 다운믹스 모드, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값, 및 상기 현재 프레임에 대한 상기 채널 신호 타입에 기초하여 스위칭을 결정하는 단계는:
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제9 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제9 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S1보다 작거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제10 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제10 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S1보다 크거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제11 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제11 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S2보다 크거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제12 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제12 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S2보다 작거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제13 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제13 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S3보다 크거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제14 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제14 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S3보다 작거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제15 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제15 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S4보다 작거나 같다는 것임 - ; 또는
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제16 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제16 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S4보다 크거나 같다는 것임 -
    를 포함하는, 방법.
  11. 제1항에 있어서,
    Figure 112022059331571-pct00455

    여기서, M2A는 상기 현재 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타내고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    Figure 112022059331571-pct00456

    여기서, M2B는 상기 현재 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타내고,
    α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    Figure 112022059331571-pct00457

    여기서, M2C는 상기 현재 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고,
    α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    Figure 112022059331571-pct00458

    여기서, M2D는 상기 현재 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타내고,
    α1=ratio, α2=1-ratio이고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내는, 방법.
  12. 오디오 디코딩 방법으로서,
    비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들을 획득하는 단계;
    상기 비트스트림에 기초하여 디코딩을 수행하여 상기 현재 프레임의 다운믹스 모드를 결정하는 단계;
    이전 프레임의 다운믹스 모드 및 상기 현재 프레임의 다운믹스 모드에 기초하여 상기 이전 프레임의 다운믹스 모드로부터 상기 현재 프레임의 다운믹스 모드로의 스위칭을 결정하는 단계; 및
    상기 스위칭에 기초하여 상기 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대한 시간 도메인 업믹스 처리를 수행하여, 상기 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득하는 단계
    를 포함하고,
    상기 이전 프레임의 다운믹스 모드는 다음의 복수의 다운믹스 모드들: 다운믹스 모드 A, 다운믹스 모드 B, 다운믹스 모드 C, 및 다운믹스 모드 D 중 하나이고; 상기 이전 프레임의 다운믹스 모드 A, 상기 이전 프레임의 다운믹스 모드 B, 상기 이전 프레임의 다운믹스 모드 C, 및 상기 이전 프레임의 다운믹스 모드 D는 상이한 업믹스 행렬들에 대응하고;
    상기 현재 프레임의 다운믹스 모드는 다음의 복수의 다운믹스 모드들: 다운믹스 모드 A, 다운믹스 모드 B, 다운믹스 모드 C, 및 다운믹스 모드 D 중 하나이고; 상기 현재 프레임의 다운믹스 모드 A, 상기 현재 프레임의 다운믹스 모드 B, 상기 현재 프레임의 다운믹스 모드 C, 및 상기 현재 프레임의 다운믹스 모드 D는 상이한 업믹스 행렬들에 대응하고;
    상기 다운믹스 모드 A 및 상기 다운믹스 모드 D는 상관성 신호 다운믹스 모드들이고, 상기 다운믹스 모드 B 및 상기 다운믹스 모드 C는 비상관성 신호 다운믹스 모드들인, 방법.
  13. 삭제
  14. 제12항에 있어서, 상기 이전 프레임의 다운믹스 모드 및 상기 현재 프레임의 다운믹스 모드에 기초하여 상기 이전 프레임의 다운믹스 모드로부터 상기 현재 프레임의 다운믹스 모드로의 스위칭을 결정하는 단계는:
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A인 경우, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B인 경우, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C인 경우, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B인 경우, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A인 경우, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D인 경우, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C인 경우, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A인 경우, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D인 경우, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D인 경우, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C인 경우, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계; 또는
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B인 경우, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계
    를 포함하는, 방법.
  15. 제12항에 있어서,
    Figure 112022059331571-pct00459

    여기서,
    Figure 112022059331571-pct00460
    는 상기 현재 프레임의 다운믹스 모드 A에 대응하는 업믹스 행렬을 나타내고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    Figure 112022059331571-pct00461

    여기서,
    Figure 112022059331571-pct00462
    는 상기 현재 프레임의 다운믹스 모드 B에 대응하는 업믹스 행렬을 나타내고,
    α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    Figure 112022059331571-pct00463

    여기서,
    Figure 112022059331571-pct00464
    는 상기 현재 프레임의 다운믹스 모드 C에 대응하는 업믹스 행렬을 나타내고,
    α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    Figure 112022059331571-pct00465

    여기서,
    Figure 112022059331571-pct00466
    는 상기 현재 프레임의 다운믹스 모드 D에 대응하는 업믹스 행렬을 나타내고,
    α1=ratio, α2=1-ratio이고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내는, 방법.
  16. 오디오 인코딩 장치로서,
    서로 결합되는 프로세서와 메모리를 포함하고,
    상기 메모리는 컴퓨터 프로그램을 저장하고;
    상기 프로세서는 상기 메모리에 저장된 상기 컴퓨터 프로그램을 호출하여, 다음의 단계들:
    현재 프레임에 대한 좌측 및 우측 채널 신호 사이의 위상 차이를 나타내는 채널 신호 타입을 결정하는 단계;
    이전 프레임의 다운믹스 모드 및 상기 현재 프레임에 대한 상기 채널 신호 타입에 기초하여 상기 이전 프레임의 다운믹스 모드로부터 상기 현재 프레임의 다운믹스 모드로의 스위칭을 결정하는 단계 - 상기 다운믹스 모드는 좌측 및 우측 채널 신호들로부터 주요 및 보조 채널 신호들을 획득하는 모드임 -;
    상기 스위칭에 기초하여 상기 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간 도메인 다운믹스 처리를 수행하여, 상기 현재 프레임의 주요 및 보조 채널 신호들을 획득하는 단계; 및
    상기 현재 프레임의 획득된 주요 및 보조 채널 신호들을 인코딩하는 단계
    를 수행하고,
    상기 이전 프레임의 다운믹스 모드는 복수의 다운믹스 모드들 중 하나이고; 상기 복수의 다운믹스 모드는 다운믹스 모드 A, 다운믹스 모드 B, 다운믹스 모드 C, 및 다운믹스 모드 D를 포함하고; 상기 다운믹스 모드 A 및 상기 다운믹스 모드 D는 상관성 신호 다운믹스 모드들이고; 상기 다운믹스 모드 B 및 상기 다운믹스 모드 C는 비상관성 신호 다운믹스 모드들이고; 상기 이전 프레임의 다운믹스 모드 A, 상기 이전 프레임의 다운믹스 모드 B, 상기 이전 프레임의 다운믹스 모드 C, 및 상기 이전 프레임의 다운믹스 모드 D는 상이한 다운믹스 행렬들에 대응하는, 장치.
  17. 제16항에 있어서, 상기 현재 프레임에 대한 상기 채널 신호 타입은 복수의 채널 신호 타입 중 하나이고; 상기 복수의 채널 신호 타입은 비상관성 신호 채널 신호 타입 및 상관성 신호 채널 신호 타입을 포함하고; 상기 상관성 신호 채널 신호 타입은 근사 동상 신호에 대응하는 채널 신호 타입이고; 상기 비상관성 신호 채널 신호 타입은 근사 이상 신호에 대응하는 채널 신호 타입인, 장치.
  18. 삭제
  19. 제16항에 있어서, 상기 이전 프레임의 다운믹스 모드 및 상기 현재 프레임에 대한 채널 신호 타입에 기초하여 상기 이전 프레임의 다운믹스 모드로부터 상기 현재 프레임의 다운믹스 모드로의 스위칭을 결정하는 단계는: 상기 이전 프레임의 다운믹스 모드, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값, 및 상기 현재 프레임에 대한 채널 신호 타입에 기초하여 상기 스위칭을 결정하는 단계를 포함하는, 장치.
  20. 제19항에 있어서, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 다운믹스 모드 스위칭 비용 함수에 기초하여 계산된 계산 결과이고; 상기 다운믹스 모드 스위칭 비용 함수는 다음의 파라미터들: 상기 현재 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터, 상기 이전 프레임의 적어도 하나의 시간 도메인 스테레오 파라미터, 및 상기 현재 프레임의 좌측 및 우측 채널 신호들 중 적어도 하나에 기초하여 구성되거나; 또는
    상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자인, 장치.
  21. 제20항에 있어서, 상기 다운믹스 모드 스위칭 비용 함수는 다음의 스위칭 비용 함수들: 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수, 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수, 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수, 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수, 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수, 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수, 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수, 및 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수 중 하나인, 장치.
  22. 제21항에 있어서, 상기 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00467

    여기서, Cost_AB는 상기 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_A는 상기 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_A는 상기 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_A는 0보다 크고 N-1보다 작은 정수이고, end_sample_A는 0보다 크고 N-1보다 작은 정수이고, start_sample_A는 end_sample_A보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio이고, tdm_last_ratio는 상기 이전 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00468

    여기서, Cost_AC는 상기 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_A는 상기 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_A는 상기 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_A는 0보다 크고 N-1보다 작은 정수이고, end_sample_A는 0보다 크고 N-1보다 작은 정수이고, start_sample_A는 end_sample_A보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio이고, tdm_last_ratio는 상기 이전 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00469

    여기서, Cost_BA는 상기 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_B는 상기 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_B는 상기 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_B는 0보다 크고 N-1보다 작은 정수이고, end_sample_B는 0보다 크고 N-1보다 작은 정수이고, start_sample_B는 end_sample_B보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio이고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 상기 이전 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00470

    여기서, Cost_BD는 상기 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_B는 상기 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_B는 상기 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_B는 0보다 크고 N-1보다 작은 정수이고, end_sample_B는 0보다 크고 N-1보다 작은 정수이고, start_sample_B는 end_sample_B보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio이고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 상기 이전 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00471

    여기서, Cost_CD는 상기 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_C는 상기 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_C는 상기 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_C는 0보다 크고 N-1보다 작은 정수이고, end_sample_C는 0보다 크고 N-1보다 작은 정수이고, start_sample_C는 end_sample_C보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio이고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 상기 이전 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00472

    여기서, Cost_CA는 상기 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_C는 상기 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_C는 상기 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_C는 0보다 크고 N-1보다 작은 정수이고, end_sample_C는 0보다 크고 N-1보다 작은 정수이고, start_sample_C는 end_sample_C보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio이고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio_SM이고, tdm_last_ratio_SM은 상기 이전 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00473

    여기서, Cost_DC는 상기 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_D는 상기 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_D는 상기 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_D는 0보다 크고 N-1보다 작은 정수이고, end_sample_D는 0보다 크고 N-1보다 작은 정수이고, start_sample_D는 end_sample_D보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio이고, tdm_last_ratio는 상기 이전 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    상기 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수는 다음과 같으며:
    Figure 112022059331571-pct00474

    여기서, Cost_DB는 상기 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값을 나타내고, start_sample_D는 상기 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 시작 샘플링 포인트를 나타내고, end_sample_D는 상기 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 계산 종료 샘플링 포인트를 나타내고, start_sample_D는 0보다 크고 N-1보다 작은 정수이고, end_sample_D는 0보다 크고 N-1보다 작은 정수이고, start_sample_D는 end_sample_D보다 작고;
    n은 샘플링 포인트의 시퀀스 번호를 나타내고, N은 프레임 길이를 나타내고;
    XL(n)은 상기 현재 프레임의 좌측 채널 신호를 나타내고, XR(n)은 상기 현재 프레임의 우측 채널 신호를 나타내고;
    α1=ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내고;
    α1_pre=tdm_last_ratio이고, tdm_last_ratio는 상기 이전 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내는, 장치.
  23. 제17항에 있어서, 상기 이전 프레임의 다운믹스 모드 및 상기 현재 프레임에 대한 채널 신호 타입에 기초하여 상기 이전 프레임의 다운믹스 모드로부터 상기 현재 프레임의 다운믹스 모드로의 스위칭을 결정하는 단계는:
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입인 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A인 것으로 결정하고, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입인 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B인 것으로 결정하고, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입인 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C인 것으로 결정하고, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계; 또는
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입인 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D인 것으로 결정하고, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계
    를 포함하는, 장치.
  24. 제17항에 있어서, 상기 이전 프레임의 다운믹스 모드, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값, 및 상기 현재 프레임에 대한 상기 채널 신호 타입에 기초하여 스위칭을 결정하는 단계는:
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제1 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제1 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제2 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제2 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 A-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 A-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제3 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제3 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제4 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제4 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 B-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 B-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제5 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제5 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제6 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제6 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 C-대-다운믹스 모드 A 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 C-대-다운믹스 모드 D 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제7 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제7 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 작거나 같다는 것임 - ; 또는
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제8 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계 - 상기 다운믹스 모드 스위칭 비용 값은 상기 다운믹스 모드 스위칭 비용 함수의 값이고, 상기 제8 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 상기 다운믹스 모드 D-대-다운믹스 모드 B 스위칭을 위한 비용 함수의 값이 상기 다운믹스 모드 D-대-다운믹스 모드 C 스위칭을 위한 비용 함수의 값보다 크거나 같다는 것임 -
    를 포함하는, 장치.
  25. 제17항에 있어서, 상기 이전 프레임의 다운믹스 모드, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값, 및 상기 현재 프레임에 대한 상기 채널 신호 타입에 기초하여 스위칭을 결정하는 단계는:
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제9 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제9 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S1보다 작거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제10 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제10 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S1보다 크거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제11 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제11 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S2보다 크거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제12 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제12 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S2보다 작거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제13 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제13 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S3보다 크거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제14 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제14 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S3보다 작거나 같다는 것임 - ;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제15 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제15 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S4보다 작거나 같다는 것임 - ; 또는
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임에 대한 채널 신호 타입이 상기 비상관성 신호 채널 신호 타입이고, 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값이 제16 다운믹스 모드 스위칭 조건을 충족하는 경우, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계 - 상기 현재 프레임의 다운믹스 모드 스위칭 비용 값은 상기 현재 프레임의 채널 조합 비율 인자이고, 상기 제16 다운믹스 모드 스위칭 조건은 상기 현재 프레임의 채널 조합 비율 인자가 채널 조합 비율 인자 임계값 S4보다 크거나 같다는 것임 -
    를 포함하는, 장치.
  26. 제16항에 있어서,
    Figure 112022059331571-pct00475

    여기서, M2A는 상기 현재 프레임의 다운믹스 모드 A에 대응하는 다운믹스 행렬을 나타내고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    Figure 112022059331571-pct00476

    여기서, M2B는 상기 현재 프레임의 다운믹스 모드 B에 대응하는 다운믹스 행렬을 나타내고,
    α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    Figure 112022059331571-pct00477

    여기서, M2C는 상기 현재 프레임의 다운믹스 모드 C에 대응하는 다운믹스 행렬을 나타내고,
    α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    Figure 112022059331571-pct00478

    여기서, M2D는 상기 현재 프레임의 다운믹스 모드 D에 대응하는 다운믹스 행렬을 나타내고,
    α1=ratio, α2=1-ratio이고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내는, 장치.
  27. 오디오 디코딩 장치로서,
    서로 결합되는 프로세서와 메모리를 포함하고,
    상기 메모리는 컴퓨터 프로그램을 저장하고;
    상기 프로세서는 상기 메모리에 저장된 상기 컴퓨터 프로그램을 호출하여, 다음의 단계들:
    비트스트림에 기초하여 디코딩을 수행하여 현재 프레임의 디코딩된 주요 및 보조 채널 신호들을 획득하는 단계;
    상기 비트스트림에 기초하여 디코딩을 수행하여 상기 현재 프레임의 다운믹스 모드를 획득하는 단계;
    이전 프레임의 다운믹스 모드 및 상기 현재 프레임의 다운믹스 모드에 기초하여 상기 이전 프레임의 다운믹스 모드로부터 상기 현재 프레임의 다운믹스 모드로의 스위칭을 결정하는 단계; 및
    상기 스위칭에 기초하여 상기 현재 프레임의 디코딩된 주요 및 보조 채널 신호들에 대한 시간 도메인 업믹스 처리를 수행하여, 상기 현재 프레임의 재구성된 좌측 및 우측 채널 신호들을 획득하는 단계
    를 수행하고,
    상기 이전 프레임의 다운믹스 모드는 다음의 복수의 다운믹스 모드들: 다운믹스 모드 A, 다운믹스 모드 B, 다운믹스 모드 C, 및 다운믹스 모드 D 중 하나이고; 상기 이전 프레임의 다운믹스 모드 A, 상기 이전 프레임의 다운믹스 모드 B, 상기 이전 프레임의 다운믹스 모드 C, 및 상기 이전 프레임의 다운믹스 모드 D는 상이한 업믹스 행렬들에 대응하고;
    상기 현재 프레임의 다운믹스 모드는 다음의 복수의 다운믹스 모드들: 다운믹스 모드 A, 다운믹스 모드 B, 다운믹스 모드 C, 및 다운믹스 모드 D 중 하나이고; 상기 현재 프레임의 다운믹스 모드 A, 상기 현재 프레임의 다운믹스 모드 B, 상기 현재 프레임의 다운믹스 모드 C, 및 상기 현재 프레임의 다운믹스 모드 D는 상이한 업믹스 행렬들에 대응하고;
    상기 다운믹스 모드 A 및 상기 다운믹스 모드 D는 상관성 신호 다운믹스 모드들이고, 상기 다운믹스 모드 B 및 상기 다운믹스 모드 C는 비상관성 신호 다운믹스 모드들인, 장치.
  28. 삭제
  29. 제27항에 있어서, 상기 이전 프레임의 다운믹스 모드 및 상기 현재 프레임의 다운믹스 모드에 기초하여 상기 이전 프레임의 다운믹스 모드로부터 상기 현재 프레임의 다운믹스 모드로의 스위칭을 결정하는 단계는:
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A인 경우, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B인 경우, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 A이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C인 경우, 상기 스위칭이 다운믹스 모드 A-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B인 경우, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A인 경우, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 B이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D인 경우, 상기 스위칭이 다운믹스 모드 B-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C인 경우, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 A인 경우, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 A 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 C이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D인 경우, 상기 스위칭이 다운믹스 모드 C-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 D인 경우, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 D 스위칭인 것으로 결정하는 단계;
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 C인 경우, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 C 스위칭인 것으로 결정하는 단계; 또는
    상기 이전 프레임의 다운믹스 모드가 상기 다운믹스 모드 D이고, 상기 현재 프레임의 다운믹스 모드가 상기 다운믹스 모드 B인 경우, 상기 스위칭이 다운믹스 모드 D-대-다운믹스 모드 B 스위칭인 것으로 결정하는 단계
    를 포함하는, 장치.
  30. 제27항에 있어서,
    Figure 112022059331571-pct00479

    여기서,
    Figure 112022059331571-pct00480
    는 상기 현재 프레임의 다운믹스 모드 A에 대응하는 업믹스 행렬을 나타내고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    Figure 112022059331571-pct00481

    여기서,
    Figure 112022059331571-pct00482
    는 상기 현재 프레임의 다운믹스 모드 B에 대응하는 업믹스 행렬을 나타내고,
    α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    Figure 112022059331571-pct00483

    여기서,
    Figure 112022059331571-pct00484
    는 상기 현재 프레임의 다운믹스 모드 C에 대응하는 업믹스 행렬을 나타내고,
    α1=ratio_SM, α2=1-ratio_SM이고, ratio_SM은 상기 현재 프레임에 대한 비상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내며;
    Figure 112022059331571-pct00485

    여기서,
    Figure 112022059331571-pct00486
    는 상기 현재 프레임의 다운믹스 모드 D에 대응하는 업믹스 행렬을 나타내고,
    α1=ratio, α2=1-ratio이고, ratio는 상기 현재 프레임에 대한 상관성 신호 채널 신호 타입에 대응하는 채널 조합 비율 인자를 나타내는, 장치.
  31. 프로그램이 기록되어 있는 컴퓨터 판독가능 저장 매체로서, 상기 프로그램은 제1항 내지 제2항 및 제4항 내지 제11항 중 어느 한 항의 방법을 컴퓨터에 실행시키는, 컴퓨터 판독가능 저장 매체.
  32. 프로그램이 기록되어 있는 컴퓨터 판독가능 저장 매체로서, 상기 프로그램은 제12항, 제14항, 및 제15항 중 어느 한 항의 방법을 컴퓨터에 실행시키는, 컴퓨터 판독가능 저장 매체.
  33. 컴퓨터로 하여금 제1항 내지 제2항 및 제4항 내지 제11항 중 어느 한 항의 방법을 실행하게 하도록 구성되는 컴퓨터 판독가능 저장 매체 상에 저장된 컴퓨터 프로그램.
  34. 컴퓨터로 하여금 제12항, 제14항, 및 제15항 중 어느 한 항의 방법을 실행하게 하도록 구성되는 컴퓨터 판독가능 저장 매체 상에 저장된 컴퓨터 프로그램.
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
KR1020207017982A 2017-11-30 2018-11-29 오디오 인코딩 및 디코딩 방법 및 관련 제품 KR102437451B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711244330.5A CN109859766B (zh) 2017-11-30 2017-11-30 音频编解码方法和相关产品
CN201711244330.5 2017-11-30
PCT/CN2018/118301 WO2019105436A1 (zh) 2017-11-30 2018-11-29 音频编解码方法和相关产品

Publications (2)

Publication Number Publication Date
KR20200090856A KR20200090856A (ko) 2020-07-29
KR102437451B1 true KR102437451B1 (ko) 2022-08-30

Family

ID=66663812

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207017982A KR102437451B1 (ko) 2017-11-30 2018-11-29 오디오 인코딩 및 디코딩 방법 및 관련 제품

Country Status (8)

Country Link
US (1) US11393482B2 (ko)
EP (1) EP3703050B1 (ko)
JP (1) JP7088450B2 (ko)
KR (1) KR102437451B1 (ko)
CN (1) CN109859766B (ko)
BR (1) BR112020010850A2 (ko)
TW (1) TWI705432B (ko)
WO (1) WO2019105436A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021005741A1 (en) * 2019-07-10 2021-01-14 Nec Corporation Speaker embedding apparatus and method
CN112751792B (zh) * 2019-10-31 2022-06-10 华为技术有限公司 一种信道估计方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017049396A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for time domain down mixing a stereo sound signal into primary and secondary channels using detecting an out-of-phase condition of the left and right channels

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
US7966190B2 (en) * 2005-07-11 2011-06-21 Lg Electronics Inc. Apparatus and method for processing an audio signal using linear prediction
TWI329462B (en) * 2006-01-19 2010-08-21 Lg Electronics Inc Method and apparatus for processing a media signal
TWI342718B (en) * 2006-03-24 2011-05-21 Coding Tech Ab Decoder and method for deriving headphone down mix signal, receiver, binaural decoder, audio player, receiving method, audio playing method, and computer program
US8355921B2 (en) 2008-06-13 2013-01-15 Nokia Corporation Method, apparatus and computer program product for providing improved audio processing
CN101630509B (zh) * 2008-07-14 2012-04-18 华为技术有限公司 一种编解码方法、装置及系统
EP2169664A3 (en) * 2008-09-25 2010-04-07 LG Electronics Inc. A method and an apparatus for processing a signal
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
CN102696070B (zh) * 2010-01-06 2015-05-20 Lg电子株式会社 处理音频信号的设备及其方法
CN104246873B (zh) * 2012-02-17 2017-02-01 华为技术有限公司 用于编码多声道音频信号的参数编码器
CN104240712B (zh) * 2014-09-30 2018-02-02 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
US10210871B2 (en) * 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
CN114898761A (zh) * 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017049396A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for time domain down mixing a stereo sound signal into primary and secondary channels using detecting an out-of-phase condition of the left and right channels

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Bertrand Fatus. Parametric Coding for Spatial Audio. Master’s Thesis, KTH, Stockholm, Sweden. 2015.12.
ISO/IEC FDIS 23003-3:2011(E), Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding. ISO/IEC JTC 1/SC 29/WG 11. 2011.09.20.
JungHoe Kim, et al. Enhanced stereo coding with phase parameters for MPEG unified speech and audio coding. Audio Engineering Society Convention 127. 2009.10.12.
Recommendation ITU-T G.722. 7 kHz audio-coding within 64 kbit/s. 2012.09.

Also Published As

Publication number Publication date
CN109859766B (zh) 2021-08-20
TW201926318A (zh) 2019-07-01
KR20200090856A (ko) 2020-07-29
JP7088450B2 (ja) 2022-06-21
US20200294513A1 (en) 2020-09-17
WO2019105436A1 (zh) 2019-06-06
CN109859766A (zh) 2019-06-07
EP3703050B1 (en) 2024-01-03
BR112020010850A2 (pt) 2020-11-10
JP2021504759A (ja) 2021-02-15
EP3703050A1 (en) 2020-09-02
TWI705432B (zh) 2020-09-21
US11393482B2 (en) 2022-07-19
EP3703050A4 (en) 2020-12-30

Similar Documents

Publication Publication Date Title
KR102380431B1 (ko) 시간-도메인 스테레오 코딩 및 디코딩 방법, 및 관련 제품
KR102664355B1 (ko) 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품
KR102437451B1 (ko) 오디오 인코딩 및 디코딩 방법 및 관련 제품
KR102492791B1 (ko) 시간-도메인 스테레오 인코딩 및 디코딩 방법 및 관련 제품
KR102377434B1 (ko) 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품
RU2772405C2 (ru) Способ стереокодирования и декодирования во временной области и соответствующий продукт

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant