KR102632523B1 - 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품 - Google Patents

시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품 Download PDF

Info

Publication number
KR102632523B1
KR102632523B1 KR1020237002600A KR20237002600A KR102632523B1 KR 102632523 B1 KR102632523 B1 KR 102632523B1 KR 1020237002600 A KR1020237002600 A KR 1020237002600A KR 20237002600 A KR20237002600 A KR 20237002600A KR 102632523 B1 KR102632523 B1 KR 102632523B1
Authority
KR
South Korea
Prior art keywords
current frame
signal
channel
channel combination
combination scheme
Prior art date
Application number
KR1020237002600A
Other languages
English (en)
Other versions
KR20230020554A (ko
Inventor
하이팅 리
빈 왕
레이 먀오
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Priority to KR1020247003431A priority Critical patent/KR20240016461A/ko
Publication of KR20230020554A publication Critical patent/KR20230020554A/ko
Application granted granted Critical
Publication of KR102632523B1 publication Critical patent/KR102632523B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Television Systems (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

시간-도메인 스테레오 파라미터 인코딩 방법 및 관련 제품이 제공된다. 시간-도메인 스테레오 파라미터 인코딩 방법은: 현재 프레임에 대한 채널 조합 스킴을 결정하는 단계; 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계; 및 현재 프레임의 결정된 시간-도메인 스테레오 파라미터를 인코딩하는 단계를 포함하고, 여기서 시간-도메인 스테레오 파라미터는 채널 조합 비율 인자 및 채널간 시간 차이 중 적어도 하나를 포함한다. 본 출원의 실시예들에서 제공되는 기술적 해결책들은 인코딩 및 디코딩 품질을 개선시키는 것을 돕는다.

Description

시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품 {CODING METHOD FOR TIME-DOMAIN STEREO PARAMETER, AND RELATED PRODUCT}
본 출원은 오디오 인코딩 및 디코딩 기술 분야에 관한 것으로, 특히 시간-도메인 스테레오 파라미터 인코딩 방법 및 관련 제품에 관한 것이다.
삶의 질이 개선됨에 따라, 사람들은 고품질 오디오를 점점 더 많이 요구하고 있다. 모노 오디오와 비교할 때, 스테레오 오디오는 다양한 사운드 소스들에 대한 방향감 및 분포감을 가지며, 정보의 명료도(clarity), 요해도(intelligibility) 및 존재감(sense of presence)을 개선시킬 수 있고, 따라서 사람들에게 인기가 있다.
파라메트릭 스테레오 인코딩 및 디코딩 기술에서, 스테레오 신호는 모노 신호 및 공간 지각 파라미터로 변환되고, 다중 채널 신호는 압축된다. 이것은 통상적인 스테레오 인코딩 및 디코딩 기술이다. 그렇지만, 파라메트릭 스테레오 인코딩 및 디코딩 기술에서, 공간 지각 파라미터들이 보통 주파수 도메인에서 추출될 필요가 있고 시간-주파수 변환이 수행될 필요가 있기 때문에, 전체 코덱의 지연이 상대적으로 크다. 따라서, 지연에 대한 상대적으로 엄격한 요구사항이 있을 때, 시간 도메인 스테레오 인코딩 기술이 보다 나은 선택이다.
종래의 시간 도메인 스테레오 인코딩 기술에서는, 신호들이 다운믹스되어 시간 도메인에서 2개의 모노 신호를 획득한다. 예를 들어, MS 인코딩 기술에서는, 좌측 채널 신호 및 우측 채널 신호가 먼저 다운믹스되어 중앙 채널(Mid channel) 신호 및 사이드 채널(Side channel) 신호를 획득한다. 예를 들어, L은 좌측 채널 신호를 나타내고, R은 우측 채널 신호를 나타낸다. 이 경우에, 중앙 채널 신호는 0.5 x (L + R)이고, 중앙 채널 신호는 좌측 채널과 우측 채널 사이의 상관에 관한 정보를 나타내며; 사이드 채널 신호는 0.5 x (L - R)이고, 사이드 채널 신호는 좌측 채널과 우측 채널 사이의 차이에 관한 정보를 표현한다. 이어서, 중앙 채널 신호와 사이드 채널 신호는 모노 인코딩 방법을 사용하여 개별적으로 인코딩되고, 중앙 채널 신호는 보통 보다 많은 개수(quantity)의 비트들을 사용하여 인코딩되며, 사이드 채널 신호는 보통 보다 적은 개수의 비트들을 사용하여 인코딩된다.
본 출원의 발명자들은, 연구 및 실시를 통해, 종래의 시간-도메인 스테레오 인코딩 기술이 사용될 때 때때로 프라이머리 신호의 에너지가 매우 작거나 심지어 에너지가 누락되어, 최종 인코딩 품질의 저하를 결과한다는 것을 알았다.
본 출원의 실시예들은 시간-도메인 스테레오 파라미터 인코딩 방법 및 관련 제품을 제공한다.
제1 양태에 따르면, 본 출원의 실시예들은 시간-도메인 스테레오 파라미터 인코딩 방법을 제공한다. 이 방법은: 현재 프레임에 대한 채널 조합 스킴을 결정하는 단계; 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계; 및 현재 프레임의 결정된 시간-도메인 스테레오 파라미터를 인코딩하는 단계를 포함하고, 여기서 시간-도메인 스테레오 파라미터는 채널 조합 비율 인자(channel combination ratio factor) 및 채널간 시간 차이(inter-channel time difference) 중 적어도 하나를 포함한다.
본 출원의 실시예들은 시간-도메인 스테레오 파라미터 결정 방법을 추가로 제공한다. 이 방법은: 현재 프레임에 대한 채널 조합 스킴을 결정하는 단계; 및 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계를 포함하고, 여기서 시간-도메인 스테레오 파라미터는 채널 조합 비율 인자 및 채널간 시간 차이 중 적어도 하나를 포함한다.
현재 프레임에서의 스테레오 신호는, 예를 들어, 현재 프레임에서의 좌측 채널 신호 및 우측 채널 신호를 포함한다.
현재 프레임에 대한 채널 조합 스킴은 복수의 채널 조합 스킴들 중 하나이다.
예를 들어, 복수의 채널 조합 스킴들은 반상관성 신호 채널 조합 스킴(anticorrelated signal Channel Combination Scheme) 및 상관성 신호 채널 조합 스킴(correlated signal Channel Combination Scheme)을 포함한다.
상관성 신호 채널 조합 스킴은 근사 동상 신호(near in phase signal)에 대응하는 채널 조합 스킴이다. 반상관성 신호 채널 조합 스킴은 근사 역상 신호(near out of phase signal)에 대응하는 채널 조합 스킴이다. 근사 동상 신호에 대응하는 채널 조합 스킴은 근사 동상 신호에 적용가능하고, 근사 역상 신호에 대응하는 채널 조합 스킴은 근사 역상 신호에 적용가능하다는 것이 이해될 수 있다.
현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터이거나; 또는 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터이다.
전술한 해결책에서, 현재 프레임에 대한 채널 조합 스킴이 결정될 필요가 있으며, 이것은 현재 프레임에 대한 채널 조합 스킴에 대한 복수의 가능성들이 있음을 나타낸다는 것이 이해될 수 있다. 단지 하나의 채널 조합 스킴이 있는 종래의 해결책과 비교하여, 복수의 가능한 채널 조합 스킴들을 갖는 이 해결책은 복수의 가능한 시나리오들과 보다 잘 호환되고 매칭할 수 있다. 현재 프레임의 시간-도메인 스테레오 파라미터가 현재 프레임에 대한 채널 조합 스킴에 기초하여 결정되기 때문에, 시간-도메인 스테레오 파라미터는 복수의 가능한 시나리오들과 보다 잘 호환되고 매칭할 수 있으며, 인코딩 및 디코딩 품질이 더욱 개선될 수 있다.
일부 가능한 구현들에서, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자가 먼저 개별적으로 계산될 수 있다. 이어서 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임의 시간-도메인 스테레오 파라미터가 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터라고 결정되거나; 또는 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임의 시간-도메인 스테레오 파라미터가 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터라고 결정된다. 대안적으로, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터가 먼저 계산될 수 있고, 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임의 시간-도메인 스테레오 파라미터가 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터라고 결정되거나, 또는 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터가 계산되고, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터는 현재 프레임의 시간-도메인 스테레오 파라미터로서 결정된다.
대안적으로, 현재 프레임에 대한 채널 조합 스킴이 먼저 결정될 수 있다. 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터가 계산되고, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터이다. 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터가 계산되고, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터이다.
일부 가능한 구현들에서, 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는: 현재 프레임에 대한 채널 조합 스킴에 기초하여, 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 결정하는 단계를 포함한다. 현재 프레임에 대한 채널 조합 스킴(상관성 신호 채널 조합 스킴 또는 반상관성 신호 채널 조합 스킴)에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 없을 때, 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값과 동일하다. 현재 프레임에 대한 채널 조합 스킴(상관성 신호 채널 조합 스킴 또는 반상관성 신호 채널 조합 스킴)에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있을 때, 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정되어, 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값을 획득하고, 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값과 동일하다.
예를 들어, 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는: 현재 프레임에서의 좌측 채널 신호에 기초하여 현재 프레임에서의 좌측 채널 신호의 프레임 에너지를 계산하는 단계; 현재 프레임에서의 우측 채널 신호에 기초하여 현재 프레임에서의 우측 채널 신호의 프레임 에너지를 계산하는 단계; 및 현재 프레임에서의 좌측 채널 신호의 프레임 에너지 및 현재 프레임에서의 우측 채널 신호의 프레임 에너지에 기초하여 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 계산하는 단계를 포함할 수 있다.
현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 없을 때, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값과 동일하며, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값의 인코딩된 인덱스와 동일하다.
현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있을 때, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값 및 초기 값의 인코딩된 인덱스가 수정되어, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값 및 수정된 값의 인코딩된 인덱스를 획득한다. 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값과 동일하며, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값의 인코딩된 인덱스와 동일하다.
구체적으로는, 예를 들어, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값 및 초기 값의 인코딩된 인덱스가 수정될 때,
이고;
이며; 여기서
는 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스를 나타내고; 는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값에 대응하는 인코딩된 인덱스를 나타내며; 는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값을 나타낸다.
다른 예에 대해, 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는: 현재 프레임에서의 좌측 채널 신호 및 우측 채널 신호에 기초하여 현재 프레임에서의 기준 채널 신호를 획득하는 단계; 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터를 계산하는 단계; 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터를 계산하는 단계; 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터에 기초하여 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 계산하는 단계; 및 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터에 기초하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 단계를 포함한다.
현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터에 기초하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 단계는, 예를 들어: 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터에 기초하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 계산하는 단계; 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 수정하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 획득하는 단계를 포함할 수 있다. 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 없을 때, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자가 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값과 동일하다는 것이 이해될 수 있다.
일부 가능한 구현들에서,
이고;
이며; 여기서
이고;
은 현재 프레임에서의 기준 채널 신호를 나타내며;
은 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호를 나타내고, 은 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호를 나타내며, 은 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터를 나타내고, 은 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터를 나타낸다.
일부 가능한 구현들에서, 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터에 기초하여 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 계산하는 단계는: 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터에 기초하여 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산하는 단계; 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터에 기초하여 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산하는 단계; 및 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터에 기초하여 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터를 계산하는 단계를 포함한다.
다양한 평활화 방식들이 있을 수 있으며, 예를 들어,
이고; 여기서
이며, A는 현재 프레임에서의 좌측 채널 신호의 장기 평활화된 프레임 에너지의 업데이트 인자를 나타내고, 은 현재 프레임에서의 좌측 채널 신호의 장기 평활화된 프레임 에너지를 나타내며, 은 현재 프레임에서의 좌측 채널 신호의 프레임 에너지를 나타내고, 은 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며, 는 이전 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, 는 좌측 채널 평활화 인자를 나타낸다.
예를 들어,
이고,
이며, B는 현재 프레임에서의 우측 채널 신호의 장기 평활화된 프레임 에너지의 업데이트 인자를 나타내고, 는 현재 프레임에서의 우측 채널 신호의 장기 평활화된 프레임 에너지를 나타내며, 은 현재 프레임에서의 우측 채널 신호의 프레임 에너지를 나타내고, 은 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며, 는 이전 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, 는 우측 채널 평활화 인자를 나타낸다.
일부 가능한 구현들에서,
이고; 여기서
은 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며, 은 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, 은 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 나타낸다.
일부 가능한 구현들에서, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터에 기초하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 단계는: 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터에 대해 매핑 프로세싱을 수행하여, 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 값 범위가 일 수 있게 해주는 단계; 및 매핑 프로세싱을 거친, 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 채널 조합 비율 인자로 변환하는 단계를 포함한다.
일부 가능한 구현들에서, 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터에 대해 매핑 프로세싱을 수행하는 단계는: 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터에 대해 진폭 제한을 수행하는 단계; 및 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터에 대해 매핑 프로세싱을 수행하는 단계를 포함한다.
다양한 진폭 제한 방식들이 있을 수 있으며, 이들은 구체적으로는, 예를 들어:
이고; 여기서
는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최댓값을 나타내며, 은 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최솟값을 나타내고, 이다.
다양한 매핑 프로세싱 방식들이 있을 수 있으며, 이들은 구체적으로는, 예를 들어:
이고; 여기서
이며;
이거나 이고;
이며;
이거나 이고;
이며;
이거나 이고;
는 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 나타내며;
는 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 최댓값을 나타내고, 는 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 상한 임계치를 나타내며, 는 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 하한 임계치를 나타내고, 은 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 최솟값을 나타내며;
이고;
는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최댓값을 나타내며, 는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터의 상한 임계치를 나타내고, 는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터의 하한 임계치를 나타내며, 은 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최솟값을 나타내고;
이다.
다른 예에 대해,
이고;
는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터를 나타내며, 는 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 나타내고;
이며;
는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 최대 진폭을 나타내고, 는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 최소 진폭을 나타낸다.
일부 가능한 구현들에서,
이고; 여기서
는 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 나타내며; 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타내고, 또는 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 나타낸다.
현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있을 때, 이전 프레임의 채널 조합 비율 인자 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값에 기초하여 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 수 있거나; 또는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값에 기초하여 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 수 있다.
일부 가능한 구현들에서,
이고; 여기서
은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 대해 스칼라 양자화를 수행하기 위한 코드북을 나타내며; 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 초기 인코딩된 인덱스를 나타내고; 는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 양자화 인코딩된 초기 값을 나타낸다.
일부 가능한 구현들에서,
이고,
이며, 여기서
은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타내고, 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스를 나타내거나; 또는
이고,
이며, 여기서
은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 초기 인코딩된 인덱스를 나타내고; 은 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 최종 인코딩된 인덱스를 나타내며; 는 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정 인자이고; 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
물론, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 수정하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 획득하는 특정 구현이 전술한 예들로 제한되지 않는다.
그에 부가하여, 시간-도메인 스테레오 파라미터가 채널간 시간 차이를 포함할 때, 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는: 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴일 때 현재 프레임의 채널간 시간 차이를 계산하는 단계를 포함할 수 있다. 그에 부가하여, 계산을 통해 획득된 현재 프레임의 채널간 시간 차이는 비트스트림에 기입될 수 있다. 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴일 때, 디폴트 채널간 시간 차이(예를 들어, 0)가 현재 프레임의 채널간 시간 차이로서 사용된다. 그에 부가하여, 디폴트 채널간 시간 차이는 비트스트림에 기입되지 않을 수 있고, 디코딩 장치는 또한 디폴트 채널간 시간 차이를 사용한다.
제2 양태에 따르면, 본 출원의 실시예들은 시간-도메인 스테레오 파라미터 인코딩 장치를 추가로 제공하고, 이 장치는 서로 커플링된 프로세서 및 메모리를 포함할 수 있다. 프로세서는 제1 양태에서의 임의의 방법의 일부 또는 모든 단계들을 수행하도록 구성될 수 있다. 본 출원의 실시예들은 시간-도메인 스테레오 인코딩 장치를 추가로 제공하며, 이는 전술한 시간-도메인 스테레오 파라미터 인코딩 장치를 포함할 수 있다.
제3 양태에 따르면, 본 출원의 실시예들은 제1 양태에서의 임의의 방법을 구현하도록 구성된 몇 개의 기능 유닛들을 포함하는, 시간-도메인 스테레오 파라미터 인코딩 장치를 제공한다.
제4 양태에 따르면, 본 출원의 실시예는 컴퓨터 판독가능 저장 매체를 제공하고, 컴퓨터 판독가능 저장 매체는 프로그램 코드를 저장하며, 프로그램 코드는 제1 양태에서의 임의의 방법의 단계들 중 일부 또는 전부를 수행하는 데 사용되는 명령어를 포함한다.
제5 양태에 따르면, 본 출원의 실시예는 컴퓨터 프로그램 제품을 제공하고, 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 컴퓨터는 제1 양태에서의 임의의 방법의 단계들 중 일부 또는 전부를 수행한다.
이하는 본 출원의 실시예들 또는 배경기술을 설명하는 데 요구되는 첨부 도면들을 설명한다.
도 1은 본 출원의 실시예에 따른 근사 역상 신호의 개략 다이어그램이다;
도 2는 본 출원의 실시예에 따른 오디오 인코딩 방법의 개략 플로차트이다;
도 3은 본 출원의 실시예에 따른 오디오 디코딩 모드를 결정하기 위한 방법의 개략 플로차트이다;
도 4는 본 출원의 실시예에 따른 다른 오디오 인코딩 방법의 개략 플로차트이다;
도 5는 본 출원의 실시예에 따른 오디오 디코딩 방법의 개략 플로차트이다;
도 6은 본 출원의 실시예에 따른 다른 오디오 인코딩 방법의 개략 플로차트이다;
도 7은 본 출원의 실시예에 따른 다른 오디오 디코딩 방법의 개략 플로차트이다;
도 8은 본 출원의 실시예에 따른 시간-도메인 스테레오 파라미터 결정 방법의 개략 플로차트이다;
도 9a는 본 출원의 실시예에 따른 다른 오디오 인코딩 방법의 개략 플로차트이다;
도 9b는 본 출원의 실시예에 따른 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산 및 인코딩하기 위한 방법의 개략 플로차트이다;
도 9c는 본 출원의 실시예에 따른 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터를 계산하기 위한 방법의 개략 플로차트이다;
도 9d는 본 출원의 실시예에 따른 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터를 채널 조합 비율 인자로 변환하기 위한 방법의 개략 플로차트이다;
도 10은 본 출원의 실시예에 따른 다른 오디오 디코딩 방법의 개략 플로차트이다;
도 11a는 본 출원의 실시예에 따른 장치의 개략 다이어그램이다;
도 11b는 본 출원의 실시예에 따른 다른 장치의 개략 다이어그램이다;
도 11c는 본 출원의 실시예에 따른 다른 장치의 개략 다이어그램이다;
도 12a는 본 출원의 실시예에 따른 다른 장치의 개략 다이어그램이다;
도 12b는 본 출원의 실시예에 따른 다른 장치의 개략 다이어그램이다;
도 12c는 본 출원의 실시예에 따른 다른 장치의 개략 다이어그램이다.
이하는 본 출원의 실시예들을 본 출원의 실시예들에서의 첨부 도면들을 참조하여 설명한다.
본 출원의 명세서, 청구범위 및 첨부 도면들에서 언급되는 용어들 "포함하다(include)", "가진다(have)" 또는 이들의 임의의 다른 변형은 비배타적 포함을 커버하는 것으로 의도된다. 예를 들어, 일련의 단계들 또는 유닛들을 포함하는 프로세스, 방법, 시스템, 제품, 또는 디바이스는 열거된 단계들 또는 유닛들로 제한되지 않고, 열거되지 않은 단계 또는 유닛을 임의로 추가로 포함할 수 있거나, 또는 프로세스, 방법, 제품, 또는 디바이스의 다른 내재된 단계 또는 유닛을 임의로 추가로 포함한다. 그에 부가하여, 용어들 "제1", "제2", "제3", "제4" 등은, 특정 시퀀스를 설명하는 대신에, 객체들을 구별하기 위해 사용된다.
본 출원의 실시예들에서의 해결책들이, 설명의 간결성을 위해, 시간-도메인 시나리오에 특정적이기 때문에, 시간-도메인 신호가 간단히 "신호"라고 지칭될 수 있음에 유의해야 한다. 예를 들어, 좌측 채널 시간-도메인 신호는 간단히 "좌측 채널 신호"라고 지칭될 수 있다. 다른 예에 대해, 우측 채널 시간-도메인 신호는 간단히 "우측 채널 신호"라고 지칭될 수 있다. 다른 예에 대해, 모노 시간-도메인 신호는 간단히 "모노 신호"라고 지칭될 수 있다. 다른 예에 대해, 기준 채널 시간-도메인 신호는 간단히 "기준 채널 신호"라고 지칭될 수 있다. 다른 예에 대해, 프라이머리 채널 시간-도메인 신호는 간단히 "프라이머리 채널 신호"로 지칭될 수 있다. 세컨더리 채널 시간-도메인 신호는 간단히 "세컨더리 채널 신호"라고 지칭될 수 있다. 다른 예에 대해, 중앙 채널(Mid channel) 시간-도메인 신호는 간단히 "중앙 채널 신호"라고 지칭될 수 있다. 다른 예에 대해, 사이드 채널(Side channel) 시간-도메인 신호는 간단히 "사이드 채널 신호"라고 지칭될 수 있다. 다른 경우들은 유추에 의해 추론될 수 있다.
본 출원의 실시예들에서, 좌측 채널 시간-도메인 신호 및 우측 채널 시간-도메인 신호가 집합적으로 "좌측 및 우측 채널 시간-도메인 신호들"이라고 지칭될 수 있거나, 또는 집합적으로 "좌측 및 우측 채널 신호들"이라고 지칭될 수 있음에 유의해야 한다. 환언하면, 좌측 및 우측 채널 시간-도메인 신호들은 좌측 채널 시간-도메인 신호 및 우측 채널 시간-도메인 신호를 포함한다. 다른 예에 대해, 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 시간-도메인 신호들은 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 시간-도메인 신호 및 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 시간-도메인 신호를 포함한다. 유사하게, 프라이머리 채널 신호 및 세컨더리 채널 신호는 집합적으로 "프라이머리 및 세컨더리 채널 신호들"이라고 지칭될 수 있다. 환언하면, 프라이머리 및 세컨더리 채널 신호들은 프라이머리 채널 신호 및 세컨더리 채널 신호를 포함한다. 다른 예에 대해, 디코딩된 프라이머리 및 세컨더리 채널 신호들은 디코딩된 프라이머리 채널 신호 및 디코딩된 세컨더리 채널 신호를 포함한다. 다른 예에 대해, 재구성된 좌측 및 우측 채널 신호들은 재구성된 좌측 채널 신호 및 재구성된 우측 채널 신호를 포함한다. 나머지는 유추에 의해 추론될 수 있다.
예를 들어, 종래의 MS 인코딩 기술에서는, 좌측 채널 신호 및 우측 채널 신호가 먼저 다운믹스되어 중앙 채널(Mid channel) 신호 및 사이드 채널(Side channel) 신호를 획득한다. 예를 들어, L은 좌측 채널 신호를 나타내고, R은 우측 채널 신호를 나타낸다. 이 경우에, 중앙 채널 신호는 0.5 x (L + R)이고, 중앙 채널 신호는 좌측 채널과 우측 채널 사이의 상관에 관한 정보를 나타내며; 사이드 채널 신호는 0.5 x (L - R)이고, 사이드 채널 신호는 좌측 채널과 우측 채널 사이의 차이에 관한 정보를 나타낸다. 이어서, 중앙 채널 신호와 사이드 채널 신호는 모노 인코딩 방법을 사용하여 개별적으로 인코딩된다. 중앙 채널 신호는 보통 상대적으로 많은 개수의 비트들을 사용하여 인코딩되고, 사이드 채널 신호는 보통 상대적으로 적은 개수의 비트들을 사용하여 인코딩된다.
게다가, 일부 해결책들에서, 인코딩 품질을 개선시키기 위해, 시간-도메인 다운믹스 프로세싱에서의 우측 채널에 대한 좌측 채널의 비율을 나타내기 위해 사용되는 시간-도메인 스테레오 파라미터를 추출하기 위해, 좌측 및 우측 채널 시간-도메인 신호들이 분석된다. 제안된 방법의 목적은: 스테레오 좌측 및 우측 채널 신호들 사이의 에너지 차이가 상대적으로 클 때, 시간-도메인 다운믹스된 신호들에서, 프라이머리 채널의 에너지는 증가될 수 있고, 세컨더리 채널의 에너지는 감소될 수 있다. 예를 들어, L은 좌측 채널 신호를 나타내고, R은 우측 채널 신호를 나타낸다. 이 경우에, 프라이머리 채널(Primary channel) 신호는 Y로서 표기되고, 여기서 Y = alpha x L + beta x R이며, Y는 2개의 채널 사이의 상관에 관한 정보를 나타내고; 세컨더리 채널(Secondary channel)은 X로서 표기되며, X = alpha x L - beta x R이고, X는 2개의 채널 사이의 차이에 관한 정보를 나타낸다. 본 명세서에서, alpha 및 beta는 0 내지 1의 실수들이다.
도 1은 좌측 채널 신호 및 우측 채널 신호의 진폭 변동들을 도시한다. 시간 도메인에서의 순간에서, 특정 위치에서의 좌측 채널 신호의 샘플링 포인트의 진폭의 절댓값과 대응하는 위치에서의 우측 채널 신호의 샘플링 포인트의 진폭의 절댓값은 기본적으로 동일하지만, 진폭들이 반대 부호들을 갖는다. 이것은 전형적인 근사 역상 신호이다. 도 1은 근사 역상 신호의 전형적인 예를 도시한 것에 불과하다. 실제로, 근사 역상 신호는 좌측 및 우측 채널 신호들 사이의 위상 차이가 대략 180도인 스테레오 신호이다. 예를 들어, 좌측 및 우측 채널 신호들 사이의 위상 차이가 내에 있는 스테레오 신호는 근사 역상 신호라고 지칭될 수 있으며, 여기서 는 0°와 90° 사이의 임의의 각도일 수 있다. 예를 들어, 는 0°, 5°, 15°, 17°, 20°, 30°, 40° 등의 각도와 동일할 수 있다.
유사하게, 근사 동상 신호는 좌측 및 우측 채널 신호들 사이의 위상 차이가 대략 0도인 스테레오 신호이다. 예를 들어, 좌측 및 우측 채널 신호들 사이의 위상 차이가 내에 있는 스테레오 신호는 근사 동상 신호라고 지칭될 수 있다. 는 0°와 90° 사이의 임의의 각도일 수 있다. 예를 들어, 는 0°, 5°, 15°, 17°, 20°, 30°, 40° 등의 각도와 동일할 수 있다.
좌측 및 우측 채널 신호들이 근사 동상 신호일 때, 시간-도메인 다운믹스 프로세싱을 통해 생성되는 프라이머리 채널 신호의 에너지는 보통 세컨더리 채널 신호의 에너지보다 상당히 더 크다. 프라이머리 채널 신호가 상대적으로 많은 개수의 비트들을 사용하여 인코딩되고 세컨더리 채널 신호가 상대적으로 적은 개수의 비트들을 사용하여 인코딩되면, 보다 나은 인코딩 효과가 획득될 수 있다. 그렇지만, 좌측 및 우측 채널 신호들이 근사 역상 신호일 때, 동일한 시간-도메인 다운믹스 프로세싱 방법이 사용되면, 생성된 프라이머리 채널 신호의 에너지는 매우 작거나 심지어 손실될 수 있어, 최종 인코딩 품질의 저하를 결과할 수 있다.
이하는 스테레오 인코딩 및 디코딩 품질을 개선시키는 데 도움을 줄 수 있는 일부 기술적 해결책들을 계속 설명한다.
본 출원의 실시예들에서 언급되는 인코딩 장치 및 디코딩 장치는 음성 신호의 수집, 저장, 및 외부로의 전송과 같은 기능들을 가지는 장치들일 수 있다. 구체적으로는, 인코딩 장치 및 디코딩 장치는, 예를 들어, 모바일 폰들, 서버들, 태블릿 컴퓨터들, 개인 컴퓨터들, 또는 노트북 컴퓨터들일 수 있다.
본 출원의 해결책들에서, 좌측 및 우측 채널 신호들은 스테레오 신호의 좌측 및 우측 채널 신호들인 것이 이해될 수 있다. 스테레오 신호는 원래의 스테레오 신호, 또는 다중 채널 신호에 포함된 신호들의 2개의 채널에 의해 형성되는 스테레오 신호, 또는 다중 채널 신호에 포함된 신호들의 복수의 채널들에 의해 결합하여(jointly) 생성되는 신호들의 2개의 채널에 의해 형성되는 스테레오 신호일 수 있다. 스테레오 인코딩 방법은 또한 다중 채널 인코딩에서 사용되는 스테레오 인코딩 방법일 수 있다. 스테레오 인코딩 장치는 또한 다중 채널 인코딩 장치에서 사용되는 스테레오 인코딩 장치일 수 있다. 스테레오 디코딩 방법은 또한 다중 채널 디코딩에서 사용되는 스테레오 디코딩 방법일 수 있다. 스테레오 디코딩 장치는 또한 다중 채널 디코딩 장치에서 사용되는 스테레오 디코딩 장치일 수 있다. 본 출원의 실시예들에서의 오디오 인코딩 방법은, 예를 들어, 스테레오 인코딩 시나리오에 특정적이고, 본 출원의 실시예들에서의 오디오 디코딩 방법은, 예를 들어, 스테레오 디코딩 시나리오에 특정적이다.
이하는 먼저 오디오 코딩 모드를 결정하기 위한 방법을 제공하고, 이 방법은: 현재 프레임에 대한 채널 조합 스킴을 결정하는 단계, 및 이전 프레임에 대한 채널 조합 스킴 및 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 코딩 모드를 결정하는 단계를 포함할 수 있다.
도 2는 본 출원의 실시예에 따른 오디오 인코딩 방법의 개략 플로차트이다. 오디오 인코딩 방법의 관련 단계들은 인코딩 장치에 의해 구현될 수 있고, 예를 들어, 이하의 단계들을 포함할 수 있다.
201. 현재 프레임에 대한 채널 조합 스킴을 결정한다.
현재 프레임에 대한 채널 조합 스킴은 복수의 채널 조합 스킴들 중 하나이다. 예를 들어, 복수의 채널 조합 스킴들은 반상관성 신호 채널 조합 스킴(anticorrelated signal Channel Combination Scheme) 및 상관성 신호 채널 조합 스킴(correlated signal Channel Combination Scheme)을 포함한다. 상관성 신호 채널 조합 스킴은 근사 동상 신호에 대응하는 채널 조합 스킴이다. 반상관성 신호 채널 조합 스킴은 근사 역상 신호에 대응하는 채널 조합 스킴이다. 근사 동상 신호에 대응하는 채널 조합 스킴은 근사 동상 신호에 적용가능하고, 근사 역상 신호에 대응하는 채널 조합 스킴은 근사 역상 신호에 적용가능하다는 것이 이해될 수 있다.
202. 이전 프레임에 대한 채널 조합 스킴 및 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 코딩 모드를 결정한다.
그에 부가하여, 현재 프레임이 첫 번째 프레임이면(즉, 현재 프레임의 이전 프레임이 존재하지 않으면), 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 코딩 모드가 결정될 수 있다. 대안적으로, 디폴트 코딩 모드가 현재 프레임의 코딩 모드로서 사용될 수 있다.
현재 프레임의 코딩 모드는 복수의 코딩 모드들 중 하나이다. 예를 들어, 복수의 코딩 모드들은 상관성-대-반상관성 신호 코딩 스위칭 모드(correlated-to-anticorrelated signal coding switching mode), 반상관성-대-상관성 신호 코딩 스위칭 모드(anticorrelated-to-correlated signal coding switching mode), 상관성 신호 코딩 모드(correlated signal coding mode), 반상관성 신호 코딩 모드(anticorrelated signal coding mode) 등을 포함할 수 있다.
상관성-대-반상관성 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 모드는, 예를 들어, "상관성-대-반상관성 신호 다운믹스 스위칭 모드"(correlated-to-anticorrelated signal downmix switching mode)라고 지칭될 수 있다. 반상관성-대-상관성 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 모드는, 예를 들어, "반상관성-대-상관성 신호 다운믹스 스위칭 모드"(anticorrelated-to-correlated signal downmix switching mode)라고 지칭될 수 있다. 상관성 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 모드는, 예를 들어, "상관성 신호 다운믹스 모드"(correlated signal downmix mode)라고 지칭될 수 있다. 반상관성 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 모드는, 예를 들어, "반상관성 신호 다운믹스 모드"(anticorrelated signal downmix mode)라고 지칭될 수 있다.
본 출원의 이 실시예에서, 코딩 모드들, 디코딩 모드들, 및 채널 조합 스킴들과 같은 객체들의 명칭들은 모두 예들이며, 다른 명칭들이 실제 응용에서 또한 사용될 수 있음이 이해될 수 있다.
203. 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임의 코딩 모드에 대응하는 시간-도메인 다운믹스 프로세싱에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행한다.
현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱이 수행될 수 있고, 프라이머리 및 세컨더리 채널 신호들은 비트스트림을 획득하기 위해 추가로 인코딩된다. 게다가, 디코딩 장치가 비트스트림에 포함된 현재 프레임의 채널 조합 스킴 플래그에 기초하여 현재 프레임에 대한 채널 조합 스킴을 결정하도록, 현재 프레임에 대한 채널 조합 스킴 플래그(현재 프레임의 채널 조합 스킴 플래그는 현재 프레임에 대한 채널 조합 스킴을 나타내는 데 사용됨)가 비트스트림에 기입될 수 있다.
이전 프레임에 대한 채널 조합 스킴 및 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 코딩 모드를 결정하는 다양한 특정 구현들이 있을 수 있다.
구체적으로는, 예를 들어, 일부 가능한 구현들에서, 이전 프레임에 대한 채널 조합 스킴 및 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 코딩 모드를 결정하는 단계는:
이전 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴일 때, 현재 프레임의 코딩 모드가 상관성-대-반상관성 신호 코딩 스위칭 모드라고 결정하는 단계 - 상관성-대-반상관성 신호 코딩 스위칭 모드에서, 시간-도메인 다운믹스 프로세싱은 상관성 신호 채널 조합 스킴으로부터 반상관성 신호 채널 조합 스킴으로의 전환에 대응하는 다운믹스 프로세싱 방법을 사용하여 수행됨 -; 또는
이전 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴일 때, 현재 프레임의 코딩 모드가 반상관성 신호 코딩 모드라고 결정하는 단계 - 반상관성 신호 코딩 모드에서, 시간-도메인 다운믹스 프로세싱은 반상관성 신호 채널 조합 스킴에 대응하는 다운믹스 프로세싱 방법을 사용하여 수행됨 -; 또는
이전 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴일 때, 현재 프레임의 코딩 모드가 반상관성-대-상관성 신호 코딩 스위칭 모드라고 결정하는 단계 - 반상관성-대-상관성 신호 코딩 스위칭 모드에서, 시간-도메인 다운믹스 프로세싱은 반상관성 신호 채널 조합 스킴으로부터 상관성 신호 채널 조합 스킴으로의 전환에 대응하는 다운믹스 프로세싱 방법을 사용하여 수행되고, 반상관성-대-상관성 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식은 구체적으로는 세그먼트화된 시간-도메인 다운믹스 방식일 수 있으며, 즉 현재 프레임에 대한 채널 조합 스킴 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 프로세싱을 수행할 수 있음 -; 또는
이전 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴일 때, 현재 프레임의 코딩 모드가 상관성 신호 코딩 모드라고 결정하는 단계 - 상관성 신호 코딩 모드에서, 시간-도메인 다운믹스 프로세싱은 상관성 신호 채널 조합 스킴에 대응하는 다운믹스 프로세싱 방법을 사용하여 수행됨 - 를 포함할 수 있다.
상이한 코딩 모드들은 보통 상이한 시간-도메인 다운믹스 프로세싱 방식들에 대응하고, 각각의 코딩 모드는 하나 이상의 시간-도메인 다운믹스 프로세싱 방식에 대응할 수 있음이 이해될 수 있다.
예를 들어, 일부 가능한 구현들에서, 현재 프레임의 코딩 모드가 상관성 신호 코딩 모드라고 결정될 때, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 데 상관성 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식이 사용된다. 상관성 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식은 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 다운믹스 프로세싱 방식이다.
다른 예에 대해, 일부 가능한 구현들에서, 현재 프레임의 코딩 모드가 반상관성 신호 코딩 모드라고 결정될 때, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 데 반상관성 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식이 사용된다. 반상관성 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식은 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 다운믹스 프로세싱 방식이다.
다른 예에 대해, 일부 가능한 구현들에서, 현재 프레임의 코딩 모드가 상관성-대-반상관성 신호 코딩 스위칭 모드라고 결정될 때, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 데 상관성-대-반상관성 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식이 사용된다. 상관성-대-반상관성 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식은 상관성 신호 채널 조합 스킴으로부터 반상관성 신호 채널 조합 스킴으로의 전환에 대응하는 시간-도메인 다운믹스 프로세싱 방식이다. 상관성-대-반상관성 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식은 구체적으로는 세그먼트화된 시간-도메인 다운믹스 방식일 수 있으며, 즉 현재 프레임에 대한 채널 조합 스킴 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 프로세싱을 수행할 수 있다.
다른 예에 대해, 일부 가능한 구현들에서, 현재 프레임의 코딩 모드가 반상관성-대-상관성 신호 코딩 스위칭 모드라고 결정될 때, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 데 반상관성-대-상관성 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식이 사용된다. 반상관성-대-상관성 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식은 반상관성 신호 채널 조합 스킴으로부터 상관성 신호 채널 조합 스킴으로의 전환에 대응하는 시간-도메인 다운믹스 프로세싱 방식이다.
상이한 코딩 모드들은 보통 상이한 시간-도메인 다운믹스 프로세싱 방식들에 대응하고, 각각의 코딩 모드는 하나 이상의 시간-도메인 다운믹스 프로세싱 방식에 대응할 수 있음이 이해될 수 있다.
예를 들어, 일부 가능한 구현들에서, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 반상관성 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식을 사용하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계는: 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계; 또는 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자 및 이전 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계를 포함할 수 있다.
전술한 해결책에서, 현재 프레임에 대한 채널 조합 스킴이 결정될 필요가 있으며, 이것은 현재 프레임에 대한 채널 조합 스킴에 대한 복수의 가능성들이 있음을 나타낸다는 것이 이해될 수 있다. 단지 하나의 채널 조합 스킴이 있는 종래의 해결책과 비교하여, 복수의 가능한 채널 조합 스킴들을 갖는 이 해결책은 복수의 가능한 시나리오들과 보다 잘 호환되고 매칭할 수 있다. 전술한 해결책에서, 현재 프레임의 코딩 모드는 이전 프레임에 대한 채널 조합 스킴 및 현재 프레임에 대한 채널 조합 스킴에 기초하여 결정될 필요가 있으며, 현재 프레임의 코딩 모드에 대한 복수의 가능성들이 있다. 단지 하나의 코딩 모드가 있는 종래의 해결책과 비교하여, 복수의 가능한 코딩 모드들을 갖는 이 해결책은 복수의 가능한 시나리오들과 보다 잘 호환되고 매칭할 수 있다.
구체적으로는, 예를 들어, 현재 프레임에 대한 채널 조합 스킴이 이전 프레임에 대한 채널 조합 스킴과 상이하면, 현재 프레임의 코딩 모드가, 예를 들어, 상관성-대-반상관성 신호 코딩 스위칭 모드 또는 반상관성-대-상관성 신호 코딩 스위칭 모드일 수 있다고 결정될 수 있다. 이 경우에, 현재 프레임에 대한 채널 조합 스킴 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 프로세싱이 수행될 수 있다.
현재 프레임에 대한 채널 조합 스킴과 이전 프레임에 대한 채널 조합 스킴이 상이할 때, 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 프로세싱을 수행하는 메커니즘이 도입된다. 세그먼트화된 시간-도메인 다운믹스 프로세싱 메커니즘은 채널 조합 스킴들의 매끄러운 전환을 구현하고, 인코딩 품질을 개선시키는 데 추가로 도움을 준다.
이에 대응하여, 이하는 예를 사용하여 시간-도메인 스테레오 디코딩 시나리오를 설명한다.
도 3을 참조하면, 이하는 오디오 디코딩 모드를 결정하기 위한 방법을 추가로 제공한다. 오디오 디코딩 모드를 결정하기 위한 방법의 관련 단계들은 디코딩 장치에 의해 구현될 수 있고, 이 방법은 구체적으로는 이하를 포함할 수 있다:
301. 비트스트림에 있는 현재 프레임의 채널 조합 스킴 플래그에 기초하여 현재 프레임에 대한 채널 조합 스킴을 결정한다.
302. 이전 프레임에 대한 채널 조합 스킴 및 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 디코딩 모드를 결정한다.
현재 프레임의 디코딩 모드는 복수의 디코딩 모드들 중 하나이다. 예를 들어, 복수의 디코딩 모드들은 상관성-대-반상관성 신호 디코딩 스위칭 모드(correlated-to-anticorrelated signal decoding switching mode), 반상관성-대-상관성 신호 디코딩 스위칭 모드(anticorrelated-to-correlated signal decoding switching mode), 상관성 신호 디코딩 모드(correlated signal decoding mode), 반상관성 신호 디코딩 모드(anticorrelated signal decoding mode) 등을 포함할 수 있다.
상관성-대-반상관성 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 모드는, 예를 들어, "상관성-대-반상관성 신호 업믹스 스위칭 모드"(correlated-to-anticorrelated signal upmix switching mode)라고 지칭될 수 있다. 반상관성-대-상관성 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 모드는, 예를 들어, "반상관성-대-상관성 신호 업믹스 스위칭 모드"(anticorrelated-to-correlated signal upmix switching mode)라고 지칭될 수 있다. 상관성 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 모드는, 예를 들어, "상관성 신호 업믹스 모드"(correlated signal upmix mode)라고 지칭될 수 있다. 반상관성 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 모드는, 예를 들어, "반상관성 신호 업믹스 모드"(anticorrelated signal upmix mode)라고 지칭될 수 있다.
본 출원의 이 실시예에서, 코딩 모드들, 디코딩 모드들, 및 채널 조합 스킴들과 같은 객체들의 명칭들은 모두 예들이며, 다른 명칭들이 실제 응용에서 또한 사용될 수 있음이 이해될 수 있다.
일부 가능한 구현들에서, 이전 프레임에 대한 채널 조합 스킴 및 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 디코딩 모드를 결정하는 단계는:
이전 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴일 때, 현재 프레임의 디코딩 모드가 상관성-대-반상관성 신호 디코딩 스위칭 모드라고 결정하는 단계 - 상관성-대-반상관성 신호 디코딩 스위칭 모드에서, 시간-도메인 업믹스 프로세싱은 상관성 신호 채널 조합 스킴으로부터 반상관성 신호 채널 조합 스킴으로의 전환에 대응하는 업믹스 프로세싱 방법을 사용하여 수행됨 -; 또는
이전 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴일 때, 현재 프레임의 디코딩 모드가 반상관성 신호 디코딩 모드라고 결정하는 단계 - 반상관성 신호 디코딩 모드에서, 시간-도메인 업믹스 프로세싱은 반상관성 신호 채널 조합 스킴에 대응하는 업믹스 프로세싱 방법을 사용하여 수행됨 -; 또는
이전 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴일 때, 현재 프레임의 디코딩 모드가 반상관성-대-상관성 신호 디코딩 스위칭 모드라고 결정하는 단계 - 반상관성-대-상관성 신호 디코딩 스위칭 모드에서, 시간-도메인 업믹스 프로세싱은 반상관성 신호 채널 조합 스킴으로부터 상관성 신호 채널 조합 스킴으로의 전환에 대응하는 업믹스 프로세싱 방법을 사용하여 수행됨 -; 또는
이전 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴일 때, 현재 프레임의 디코딩 모드가 상관성 신호 디코딩 모드라고 결정하는 단계 - 상관성 신호 디코딩 모드에서, 시간-도메인 업믹스 프로세싱은 상관성 신호 채널 조합 스킴에 대응하는 업믹스 프로세싱 방법을 사용하여 수행됨 - 를 포함한다.
예를 들어, 현재 프레임의 디코딩 모드가 반상관성 신호 디코딩 모드라고 결정할 때, 디코딩 장치는, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 반상관성 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행한다.
재구성된 좌측 및 우측 채널 신호들은 디코딩된 좌측 및 우측 채널 신호들일 수 있거나, 또는 디코딩된 좌측 및 우측 채널 신호들을 획득하기 위해 재구성된 좌측 및 우측 채널 신호들에 대해 지연 조정 프로세싱 및/또는 시간-도메인 포스트-프로세싱이 수행될 수 있다.
반상관성 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식은 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 업믹스 프로세싱 방식이고, 반상관성 신호 채널 조합 스킴은 근사 역상 신호에 대응하는 채널 조합 스킴이다.
현재 프레임의 디코딩 모드는 복수의 디코딩 모드들 중 하나일 수 있다. 예를 들어, 현재 프레임의 디코딩 모드는 다음과 같은 디코딩 모드들: 상관성 신호 디코딩 모드, 반상관성 신호 디코딩 모드, 상관성-대-반상관성 신호 디코딩 스위칭 모드, 및 반상관성-대-상관성 신호 디코딩 스위칭 모드 중 하나일 수 있다.
전술한 해결책에서, 현재 프레임의 디코딩 모드가 결정될 필요가 있으며, 이것은 현재 프레임의 디코딩 모드에 대한 복수의 가능성들이 있음을 나타낸다는 것이 이해될 수 있다. 단지 하나의 디코딩 모드가 있는 종래의 해결책과 비교하여, 복수의 가능한 디코딩 모드들을 갖는 이 해결책은 복수의 가능한 시나리오들과 보다 잘 호환되고 매칭할 수 있다. 그에 부가하여, 근사 역상 신호에 대응하는 채널 조합 스킴이 도입되기 때문에, 현재 프레임에서의 스테레오 신호가 근사 역상 신호일 때, 보다 타깃화된 채널 조합 스킴 및 디코딩 모드가 있으며, 이것은 디코딩 품질을 개선시키는 데 도움을 준다.
다른 예에 대해, 현재 프레임의 디코딩 모드가 상관성 신호 디코딩 모드라고 결정할 때, 디코딩 장치는, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 상관성 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행한다. 상관성 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식은 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 업믹스 프로세싱 방식이고, 상관성 신호 채널 조합 스킴은 근사 동상 신호에 대응하는 채널 조합 스킴이다.
다른 예에 대해, 현재 프레임의 디코딩 모드가 상관성-대-반상관성 신호 디코딩 스위칭 모드라고 결정할 때, 디코딩 장치는, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 상관성-대-반상관성 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행한다. 상관성-대-반상관성 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식은 상관성 신호 채널 조합 스킴으로부터 반상관성 신호 채널 조합 스킴으로의 전환에 대응하는 시간-도메인 업믹스 프로세싱 방식이다.
다른 예에 대해, 현재 프레임의 디코딩 모드가 반상관성-대-상관성 신호 디코딩 스위칭 모드라고 결정할 때, 디코딩 장치는, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 반상관성-대-상관성 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행한다. 반상관성-대-상관성 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식은 반상관성 신호 채널 조합 스킴으로부터 상관성 신호 채널 조합 스킴으로의 전환에 대응하는 시간-도메인 업믹스 프로세싱 방식이다.
상이한 디코딩 모드들은 보통 상이한 시간-도메인 업믹스 프로세싱 방식들에 대응하고, 각각의 디코딩 모드는 하나 이상의 시간-도메인 업믹스 프로세싱 방식에 대응할 수 있음이 이해될 수 있다.
전술한 해결책에서, 현재 프레임에 대한 채널 조합 스킴이 결정될 필요가 있으며, 이것은 현재 프레임에 대한 채널 조합 스킴에 대한 복수의 가능성들이 있음을 나타낸다는 것이 이해될 수 있다. 단지 하나의 채널 조합 스킴이 있는 종래의 해결책과 비교하여, 복수의 가능한 채널 조합 스킴들을 갖는 이 해결책은 복수의 가능한 시나리오들과 보다 잘 호환되고 매칭할 수 있다. 전술한 해결책에서, 이전 프레임에 대한 채널 조합 스킴 및 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 디코딩 모드가 결정될 필요가 있고, 현재 프레임의 디코딩 모드에 대한 복수의 가능성들이 있다. 단지 하나의 디코딩 모드가 있는 종래의 해결책과 비교하여, 복수의 가능한 디코딩 모드들을 갖는 이 해결책은 복수의 가능한 시나리오들과 보다 잘 호환되고 매칭할 수 있다.
게다가, 디코딩 장치는, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임의 디코딩 모드에 대응하는 시간-도메인 업믹스 프로세싱에 기초하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행한다.
이하는 인코딩 장치에 의해 현재 프레임에 대한 채널 조합 스킴을 결정하는 일부 특정 구현들을 설명하기 위해 예들을 사용한다. 인코딩 장치에 의해 현재 프레임에 대한 채널 조합 스킴을 결정하는 다양한 특정 구현들이 있다.
예를 들어, 일부 가능한 구현들에서, 현재 프레임에 대한 채널 조합 스킴을 결정하는 단계는: 현재 프레임에 대한 채널 조합 스킴을 결정하기 위해, 적어도 한 번 현재 프레임에 대한 채널 조합 스킴 결정을 수행하는 단계를 포함할 수 있다.
구체적으로는, 예를 들어, 현재 프레임에 대한 채널 조합 스킴을 결정하는 단계는: 현재 프레임에 대한 초기 채널 조합 스킴을 결정하기 위해, 현재 프레임에 대한 초기 채널 조합 스킴 결정을 수행하는 단계; 및 현재 프레임에 대한 채널 조합 스킴을 결정하기 위해, 현재 프레임에 대한 초기 채널 조합 스킴에 기초하여 현재 프레임에 대한 채널 조합 스킴 수정 결정을 수행하는 단계를 포함한다. 그에 부가하여, 현재 프레임에 대한 초기 채널 조합 스킴은 또한 현재 프레임에 대한 채널 조합 스킴으로서 직접 사용될 수 있다. 환언하면, 현재 프레임에 대한 채널 조합 스킴은 현재 프레임에 대한 초기 채널 조합 스킴 결정이 수행된 후에 결정되는 현재 프레임에 대한 초기 채널 조합 스킴일 수 있다.
예를 들어, 현재 프레임에 대한 초기 채널 조합 스킴 결정을 수행하는 단계는: 현재 프레임에서의 좌측 및 우측 채널 신호들을 사용하여 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형을 결정하는 단계; 및 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임에 대한 초기 채널 조합 스킴을 결정하는 단계를 포함할 수 있다. 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형은 근사 동상 신호 또는 근사 역상 신호일 수 있다. 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형은 현재 프레임의 동상/역상 신호 유형 플래그(예를 들어, 동상/역상 신호 유형 플래그는 tmp_SM_flag에 의해 표현됨)에 의해 지시될 수 있다. 구체적으로는, 예를 들어, 현재 프레임의 동상/역상 신호 유형 플래그의 값이 "1"일 때, 이는 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 동상 신호라는 것을 나타내거나; 또는 현재 프레임의 동상/역상 신호 유형 플래그의 값이 "0"일 때, 이는 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 역상 신호라는 것을 나타내거나; 또는 그 반대도 마찬가지이다.
오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)에 대한 채널 조합 스킴은 오디오 프레임의 채널 조합 스킴 플래그에 의해 지시될 수 있다. 예를 들어, 오디오 프레임의 채널 조합 스킴 플래그의 값이 "0"일 때, 이는 오디오 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라는 것을 나타내거나; 또는 오디오 프레임의 채널 조합 스킴 플래그의 값이 "1"일 때, 이는 오디오 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라는 것을 나타내거나; 또는 그 반대도 마찬가지이다.
유사하게, 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)에 대한 초기 채널 조합 스킴은 오디오 프레임의 초기 채널 조합 스킴 플래그(예를 들어, 초기 채널 조합 스킴 플래그는 에 의해 표현됨)에 의해 지시될 수 있다. 예를 들어, 오디오 프레임의 초기 채널 조합 스킴 플래그의 값이 "0"일 때, 이는 오디오 프레임에 대한 초기 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라는 것을 나타내거나; 또는 다른 예에 대해, 오디오 프레임의 초기 채널 조합 스킴 플래그의 값이 "1"일 때, 이는 오디오 프레임에 대한 초기 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라는 것을 나타내거나; 또는 그 반대도 마찬가지이다.
현재 프레임에서의 좌측 및 우측 채널 신호들을 사용하여 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형을 결정하는 단계는: 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 상관 값 을 계산하는 단계; 및 이 제1 임계치 이하일 때, 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 동상 신호라고 결정하는 단계; 또는 이 제1 임계치 초과일 때, 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 역상 신호라고 결정하는 단계를 포함할 수 있다. 게다가, 현재 프레임의 동상/역상 신호 유형 플래그가 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형을 나타내는 데 사용되면, 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 동상 신호라고 결정될 때, 현재 프레임의 동상/역상 신호 유형 플래그의 값은 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 동상 신호임을 나타내도록 설정될 수 있거나; 또는 현재 프레임의 동상/역상 신호 유형이 근사 동상 신호라고 결정될 때, 현재 프레임의 동상/역상 신호 유형 플래그의 값은 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 역상 신호임을 나타내도록 설정될 수 있다.
제1 임계치의 값 범위는, 예를 들어, (0.5, 1.0)일 수 있고, 제1 임계치는, 예를 들어, 0.5, 0.85, 0.75, 0.65, 또는 0.81과 동일할 수 있다.
구체적으로는, 예를 들어, 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)의 동상/역상 신호 유형 플래그의 값이 "0"일 때, 이는 오디오 프레임의 스테레오 신호의 동상/역상 신호 유형이 근사 동상 신호라는 것을 나타내거나; 또는 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)의 동상/역상 신호 유형 플래그의 값이 "1"일 때, 이는 오디오 프레임의 스테레오 신호의 동상/역상 신호 유형이 근사 역상 신호라는 것을 나타내거나; 또는 그 반대도 마찬가지이다.
예를 들어, 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임에 대한 초기 채널 조합 스킴을 결정하는 단계는:
현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 동상 신호이고 이전 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴일 때, 현재 프레임에 대한 초기 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정하는 단계; 또는 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 역상 신호이고 이전 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴일 때, 현재 프레임에 대한 초기 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정하는 단계; 또는
현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 동상 신호이고 이전 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴일 때, 현재 프레임에서의 좌측 및 우측 채널 신호들의 신호대 잡음비들이 둘 다 제2 임계치 미만이면, 현재 프레임에 대한 초기 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정하는 단계; 또는 현재 프레임에서의 좌측 채널 신호의 신호대 잡음비 및/또는 우측 채널 신호의 신호대 잡음비가 제2 임계치 이상이면, 현재 프레임에 대한 초기 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정하는 단계; 또는
현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 역상 신호이고 이전 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴일 때, 현재 프레임에서의 좌측 및 우측 채널 신호들의 신호대 잡음비들이 둘 다 제2 임계치 미만이면, 현재 프레임에 대한 초기 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정하는 단계; 또는 현재 프레임에서의 좌측 채널 신호의 신호대 잡음비 및/또는 우측 채널 신호의 신호대 잡음비가 제2 임계치 이상이면, 현재 프레임에 대한 초기 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정하는 단계를 포함할 수 있다.
제2 임계치의 값 범위는, 예를 들어, [0.8, 1.2]일 수 있고, 제2 임계치는, 예를 들어, 0.8, 0.85, 0.9, 1, 1.1, 또는 1.18과 동일할 수 있다.
현재 프레임에 대한 초기 채널 조합 스킴에 기초하여 현재 프레임에 대한 채널 조합 스킴 수정 결정을 수행하는 단계는: 이전 프레임의 채널 조합 비율 인자 수정 플래그, 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형, 및 현재 프레임에 대한 초기 채널 조합 스킴에 기초하여 현재 프레임에 대한 채널 조합 스킴을 결정하는 단계를 포함할 수 있다.
현재 프레임의 채널 조합 스킴 플래그는 로서 표기될 수 있고, 현재 프레임의 채널 조합 비율 인자 수정 플래그는 로서 표기된다. 예를 들어, 채널 조합 비율 인자 수정 플래그의 값이 0일 때, 이는 채널 조합 비율 인자가 수정될 필요가 없음을 나타내거나; 또는 채널 조합 비율 인자 수정 플래그의 값이 1일 때, 이는 채널 조합 비율 인자가 수정될 필요가 있음을 나타낸다. 물론, 채널 조합 비율 인자가 수정될 필요가 있는지를 나타내기 위해, 다른 상이한 값들이 채널 조합 비율 인자 수정 플래그로서 사용될 수 있다.
구체적으로는, 예를 들어, 현재 프레임에 대한 초기 채널 조합 스킴 결정의 결과에 기초하여 현재 프레임에 대한 채널 조합 스킴 수정 결정을 수행하는 단계는:
이전 프레임의 채널 조합 비율 인자 수정 플래그가 채널 조합 비율 인자가 수정될 필요가 있음을 나타내면, 반상관성 신호 채널 조합 스킴을 현재 프레임에 대한 채널 조합 스킴으로서 사용하는 단계; 또는 이전 프레임의 채널 조합 비율 인자 수정 플래그가 채널 조합 비율 인자가 수정될 필요가 없음을 나타내면, 현재 프레임이 스위칭 조건을 충족시키는지를 결정하고, 현재 프레임이 스위칭 조건을 충족하는지를 결정하는 것의 결과에 기초하여 현재 프레임에 대한 채널 조합 스킴을 결정하는 단계를 포함할 수 있다.
현재 프레임이 스위칭 조건을 충족하는지를 결정하는 것의 결과에 기초하여 현재 프레임에 대한 채널 조합 스킴을 결정하는 단계는:
이전 프레임에 대한 채널 조합 스킴이 현재 프레임에 대한 초기 채널 조합 스킴과 상이하고, 현재 프레임이 스위칭 조건을 충족시키며, 현재 프레임에 대한 초기 채널 조합 스킴이 상관성 신호 채널 조합 스킴이고, 이전 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴일 때, 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정하는 단계; 또는
이전 프레임에 대한 채널 조합 스킴이 현재 프레임에 대한 초기 채널 조합 스킴과 상이하고, 현재 프레임이 스위칭 조건을 충족시키며, 현재 프레임에 대한 초기 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이고, 이전 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이며, 이전 프레임의 채널 조합 비율 인자가 제1 비율 인자 임계치 미만일 때, 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정하는 단계; 또는
이전 프레임에 대한 채널 조합 스킴이 현재 프레임에 대한 초기 채널 조합 스킴과 상이하고, 현재 프레임이 스위칭 조건을 충족시키며, 현재 프레임에 대한 초기 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이고, 이전 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이며, 이전 프레임의 채널 조합 비율 인자가 제1 비율 인자 임계치 이상일 때, 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정하는 단계; 또는
현재 프레임으로부터 (P-1)번째 이전 프레임((P-1)th-to-current frame)에 대한 채널 조합 스킴이 현재 프레임으로부터 P번째 이전 프레임(Pth-to-current frame)에 대한 초기 채널 조합 스킴과 상이하고, 현재 프레임으로부터 P번째 이전 프레임이 스위칭 조건을 충족시키지 않으며, 현재 프레임이 스위칭 조건을 충족시키고, 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 동상 신호이며, 현재 프레임에 대한 초기 채널 조합 스킴이 상관성 신호 채널 조합 스킴이고, 이전 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴일 때, 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정하는 단계; 또는
현재 프레임으로부터 (P-1)번째 이전 프레임에 대한 채널 조합 스킴이 현재 프레임으로부터 P번째 이전 프레임에 대한 초기 채널 조합 스킴과 상이하고, 현재 프레임으로부터 P번째 이전 프레임이 스위칭 조건을 충족시키지 않으며, 현재 프레임이 스위칭 조건을 충족시키고, 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 역상 신호이며, 현재 프레임에 대한 초기 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이고, 이전 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이며, 이전 프레임의 채널 조합 비율 인자가 제2 비율 인자 임계치 미만일 때, 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정하는 단계; 또는
현재 프레임으로부터 (P-1)번째 이전 프레임에 대한 채널 조합 스킴이 현재 프레임으로부터 P번째 이전 프레임에 대한 초기 채널 조합 스킴과 상이하고, 현재 프레임으로부터 P번째 이전 프레임이 스위칭 조건을 충족시키지 않으며, 현재 프레임이 스위칭 조건을 충족시키고, 현재 프레임에서의 스테레오 신호의 동상/역상 신호 유형이 근사 역상 신호이며, 현재 프레임에 대한 초기 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이고, 이전 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이며, 이전 프레임의 채널 조합 비율 인자가 제2 비율 인자 임계치 이상일 때, 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정하는 단계를 포함할 수 있다.
본 명세서에서, P는 1보다 큰 정수일 수 있다. 예를 들어, P는 2, 3, 4, 5, 6, 또는 다른 값과 동일할 수 있다.
제1 비율 인자 임계치의 값 범위는, 예를 들어, [0.4, 0.6]일 수 있고, 제1 비율 인자 임계치는, 예를 들어, 0.4, 0.45, 0.5, 0.55, 또는 0.6과 동일할 수 있다.
제2 비율 인자 임계치의 값 범위는, 예를 들어, [0.4, 0.6]일 수 있고, 제2 비율 인자 임계치는, 예를 들어, 0.4, 0.46, 0.5, 0.56, 또는 0.6과 동일할 수 있다.
일부 가능한 구현들에서, 현재 프레임이 스위칭 조건을 충족시키는지를 결정하는 단계는: 이전 프레임에서의 프라이머리 채널 신호의 프레임 유형 및/또는 이전 프레임에서의 세컨더리 채널 신호의 프레임 유형에 기초하여, 현재 프레임이 스위칭 조건을 충족시키는지를 결정하는 단계를 포함할 수 있다.
일부 가능한 구현들에서, 현재 프레임이 스위칭 조건을 충족시키는지를 결정하는 단계는:
제1 조건, 제2 조건, 및 제3 조건이 모두 충족될 때, 현재 프레임이 스위칭 조건을 충족시킨다고 결정하는 단계; 또는 제2 조건, 제3 조건, 제4 조건, 및 제5 조건이 모두 충족될 때, 현재 프레임이 스위칭 조건을 충족시킨다고 결정하는 단계; 또는 제6 조건이 충족될 때, 현재 프레임이 스위칭 조건을 충족시킨다고 결정하는 단계를 포함할 수 있다.
제1 조건은: 이전 프레임의 이전 프레임에서의 프라이머리 채널 신호의 프레임 유형이 다음과 같은 것: VOICED_CLAS 프레임(유성음 프레임(voiced frame) 또는 유성음 개시 프레임(voiced onset frame)을 뒤따르는 유성음 특성을 갖는 프레임), ONSET 프레임(유성음 개시 프레임), SIN_ONSET 프레임(고조파와 잡음이 혼합된 개시 프레임), INACTIVE_CLAS 프레임(비활성 특성을 갖는 프레임), 및 AUDIO_CLAS(오디오 프레임) 중 어느 하나이고, 이전 프레임에서의 프라이머리 채널 신호의 프레임 유형이 UNVOICED_CLAS 프레임(몇 개의 특성들: 무성음, 비활성, 잡음, 또는 유성음 중 하나로 끝나는 프레임) 또는 VOICED_TRANSITION 프레임(유성음 소리 이후에 전환을 갖는 프레임, 이 프레임은 매우 약한 유성음 특성을 가짐)라는 것; 또는 이전 프레임의 이전 프레임에서의 세컨더리 채널 신호의 프레임 유형이 다음과 같은 것: VOICED_CLAS 프레임, ONSET 프레임, SIN_ONSET 프레임, INACTIVE_CLAS 프레임, 및 AUDIO_CLAS 프레임 중 어느 하나이고, 이전 프레임에서의 세컨더리 채널 신호의 프레임 유형이 UNVOICED_CLAS 프레임 또는 VOICED_TRANSITION 프레임이라는 것이다.
제2 조건은: 이전 프레임에서의 프라이머리 채널 신호 및 세컨더리 채널 신호의 원시 코딩 모드들(raw coding modes) 중 어느 것도 VOICED(유성음 프레임에 대응하는 코딩 유형)가 아니라는 것이다.
제3 조건은: 이전 프레임에 의해 사용된 채널 조합 스킴을 사용하는 이전 프레임 이전의 연속적인 프레임들의 개수가 미리 설정된 프레임 개수 임계치 초과라는 것이다. 프레임 개수 임계치의 값 범위는, 예를 들어, [3, 10]일 수 있다. 예를 들어, 프레임 개수 임계치는 3, 4, 5, 6, 7, 8, 9, 또는 다른 값과 동일할 수 있다.
제4 조건은: 이전 프레임에서의 프라이머리 채널 신호의 프레임 유형이UNVOICED_CLAS이거나, 또는 이전 프레임에서의 세컨더리 채널 신호의 프레임 유형이 UNVOICED_CLAS라는 것이다.
제5 조건은: 현재 프레임에서의 좌측 및 우측 채널 신호들의 장기 제곱 평균 제곱근 에너지 값이 에너지 임계치 미만이라는 것이다. 에너지 임계치의 값 범위는, 예를 들어, [300, 500]일 수 있다. 예를 들어, 에너지 임계치는 300, 400, 410, 451, 482, 500, 415, 또는 다른 값과 동일할 수 있다.
제6 조건은: 이전 프레임에서의 프라이머리 채널 신호의 프레임 유형이 음악 신호이고, 이전 프레임에서의 프라이머리 채널 신호의 상위 주파수 대역의 에너지에 대한 하위 주파수 대역의 에너지의 비가 제1 에너지 비 임계치 초과이며, 이전 프레임에서의 세컨더리 채널 신호의 상위 주파수 대역의 에너지에 대한 하위 주파수 대역의 에너지의 비가 제2 에너지 비 임계치 초과라는 것이다.
제1 에너지 비 임계치의 범위는, 예를 들어, [4000, 6000]일 수 있다. 예를 들어, 제1 에너지 비 임계치는 4000, 4500, 5000, 5105, 5200, 6000, 5800, 또는 다른 값과 동일할 수 있다.
제2 에너지 비 임계치의 범위는, 예를 들어, [4000, 6000]일 수 있다. 예를 들어, 제2 에너지 비 임계치는 4000, 4501, 5000, 5105, 5200, 6000, 5800, 또는 다른 값과 동일할 수 있다.
현재 프레임이 스위칭 조건을 충족시키는지를 결정하는 다양한 구현들이 있을 수 있으며, 이들이 위에서 예들로서 주어진 방식들로 제한되지 않는다는 것이 이해될 수 있다.
현재 프레임에 대한 채널 조합 스킴을 결정하는 일부 구현들이 전술한 예에서 제공되지만, 실제 응용이 전술한 예들에서의 방식들로 제한되지 않을 수 있다는 것이 이해될 수 있다.
이하는 추가로 반상관성 신호 코딩 모드에 대한 시나리오를 설명하기 위해 예들을 사용한다.
도 4를 참조하면, 본 출원의 실시예는 오디오 인코딩 방법을 제공한다. 오디오 인코딩 방법의 관련 단계들은 인코딩 장치에 의해 구현될 수 있고, 이 방법은 구체적으로는 이하를 포함할 수 있다:
401. 현재 프레임의 코딩 모드를 결정한다.
402. 현재 프레임의 코딩 모드가 반상관성 신호 코딩 모드라고 결정할 때, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 반상관성 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식을 사용하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행한다.
403. 현재 프레임에서의 획득된 프라이머리 및 세컨더리 채널 신호들을 인코딩한다.
반상관성 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식은 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 다운믹스 프로세싱 방식이고, 반상관성 신호 채널 조합 스킴은 근사 역상 신호에 대응하는 채널 조합 스킴이다.
예를 들어, 일부 가능한 구현들에서, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 반상관성 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식을 사용하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계는: 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계; 또는 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자 및 이전 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계를 포함할 수 있다.
오디오 프레임(예를 들어, 현재 프레임 또는 이전 프레임)의 채널 조합 스킴(예를 들어, 반상관성 신호 채널 조합 스킴 또는 상관성 신호 채널 조합 스킴)의 채널 조합 비율 인자가 미리 설정된 고정된 값일 수 있다는 것이 이해될 수 있다. 물론, 오디오 프레임의 채널 조합 비율 인자는 또한 오디오 프레임에 대한 채널 조합 스킴에 기초하여 결정될 수 있다.
일부 가능한 구현들에서, 대응하는 다운믹스 행렬은 오디오 프레임의 채널 조합 비율 인자에 기초하여 구성될 수 있고, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 채널 조합 스킴에 대응하는 다운믹스 행렬을 사용하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱이 수행된다.
예를 들어, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱이 수행될 때,
이다.
다른 예에 대해, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자 및 이전 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱이 수행될 때,
이거나; 또는
이고; 여기서
delay_com은 인코딩 지연 보상을 나타낸다.
다른 예에 대해, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자 및 이전 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱이 수행될 때,
이거나;
이거나; 또는
이다.
본 명세서에서, 은 페이드-인 인자(fade-in factor)를 나타낸다. 예를 들어, 이다. 물론, 은 대안적으로 n에 기초한 다른 함수 관계의 페이드-인 인자일 수 있다.
은 페이드-아웃 인자(fade-out factor)를 나타낸다. 예를 들어, 이다. 물론, 은 대안적으로 n에 기초한 다른 함수 관계의 페이드-아웃 인자일 수 있다.
은 전환 프로세싱 길이(transition processing length)를 나타낸다. 의 값은 특정 시나리오 요구사항에 기초하여 설정될 수 있다. 예를 들어, 은 3/N과 동일할 수 있거나 또는 은 N보다 작은 다른 값일 수 있다.
다른 예에 대해, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 상관성 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식을 사용하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱이 수행될 때,
이다.
전술한 예에서, 은 현재 프레임에서의 좌측 채널 신호를 나타낸다. 은 현재 프레임에서의 우측 채널 신호를 나타낸다. 은 시간-도메인 다운믹스 프로세싱을 통해 획득되는 현재 프레임에서의 프라이머리 채널 신호를 나타내고; 은 시간-도메인 다운믹스 프로세싱을 통해 획득되는 현재 프레임에서의 세컨더리 채널 신호를 나타낸다.
전술한 예에서, n은 샘플링 포인트 번호(sampling point number)를 나타낸다. 예를 들어, 이다.
전술한 예에서, delay_com은 인코딩 지연 보상을 나타낸다.
은 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 다운믹스 행렬을 나타내고, 은 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다.
는 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 다운믹스 행렬을 나타내고, 는 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다.
는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 다운믹스 행렬을 나타내고, 는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다.
은 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 다운믹스 행렬을 나타내고, 은 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다.
은 복수의 형태들을 가질 수 있고, 예를 들어:
이거나, 또는
이며, 여기서
는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
는 복수의 형태들을 가질 수 있고, 예를 들어:
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이고, 여기서
이고; 이다. 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
는 복수의 형태들을 가질 수 있고, 예를 들어:
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이며, 여기서
이고; 이다. 은 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
현재 프레임에서의 좌측 및 우측 채널 신호들은 구체적으로는 현재 프레임에서의 원래의 좌측 및 우측 채널 신호들(원래의 좌측 및 우측 채널 신호들은 시간-도메인 프리-프로세싱을 거치지 않은 좌측 및 우측 채널 신호들이고, 예를 들어, 샘플링을 통해 획득된 좌측 및 우측 채널 신호들일 수 있음)일 수 있거나, 또는 현재 프레임에서의 시간-도메인 프리-프로세싱을 거친 좌측 및 우측 채널 신호들일 수 있거나, 또는 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들일 수 있다.
구체적으로는, 예를 들어,
이거나, 또는
이거나, 또는
이며, 여기서
은 현재 프레임에서의 원래의 좌측 및 우측 채널 신호들을 나타내고, 은 현재 프레임에서의 시간-도메인 프리-프로세싱을 거친 좌측 및 우측 채널 신호들을 나타내며, 은 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들을 나타낸다.
이에 대응하여, 이하는 반상관성 신호 디코딩 모드에 대한 시나리오를 설명하기 위해 예들을 사용한다.
도 5를 참조하면, 본 출원의 실시예는 오디오 디코딩 방법을 추가로 제공한다. 오디오 디코딩 방법의 관련 단계들은 디코딩 장치에 의해 구현될 수 있고, 이 방법은 구체적으로는 이하의 단계들을 포함할 수 있다:
501. 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해 비트스트림에 기초하여 디코딩을 수행한다.
502. 현재 프레임의 디코딩 모드를 결정한다.
단계(501) 및 단계(502)를 수행하기 위한 제한된 시퀀스가 없음이 이해될 수 있다.
503. 현재 프레임의 디코딩 모드가 반상관성 신호 디코딩 모드라고 결정할 때, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 반상관성 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행한다.
재구성된 좌측 및 우측 채널 신호들은 디코딩된 좌측 및 우측 채널 신호들일 수 있거나, 또는 디코딩된 좌측 및 우측 채널 신호들을 획득하기 위해 재구성된 좌측 및 우측 채널 신호들에 대해 지연 조정 프로세싱 및/또는 시간-도메인 포스트-프로세싱이 수행될 수 있다.
반상관성 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식은 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 업믹스 프로세싱 방식이고, 반상관성 신호 채널 조합 스킴은 근사 역상 신호에 대응하는 채널 조합 스킴이다.
현재 프레임의 디코딩 모드는 복수의 디코딩 모드들 중 하나일 수 있다. 예를 들어, 현재 프레임의 디코딩 모드는 다음과 같은 디코딩 모드들: 상관성 신호 디코딩 모드, 반상관성 신호 디코딩 모드, 상관성-대-반상관성 신호 디코딩 스위칭 모드, 및 반상관성-대-상관성 신호 디코딩 스위칭 모드 중 하나일 수 있다.
전술한 해결책에서, 현재 프레임의 디코딩 모드가 결정될 필요가 있으며, 이것은 현재 프레임의 디코딩 모드에 대한 복수의 가능성들이 있음을 나타낸다는 것이 이해될 수 있다. 단지 하나의 디코딩 모드가 있는 종래의 해결책과 비교하여, 복수의 가능한 디코딩 모드들을 갖는 이 해결책은 복수의 가능한 시나리오들과 보다 잘 호환되고 매칭할 수 있다. 그에 부가하여, 근사 역상 신호에 대응하는 채널 조합 스킴이 도입되기 때문에, 현재 프레임에서의 스테레오 신호가 근사 역상 신호일 때, 보다 타깃화된 채널 조합 스킴 및 디코딩 모드가 있으며, 이것은 디코딩 품질을 개선시키는 데 도움을 준다.
일부 가능한 구현들에서, 이 방법은:
현재 프레임의 디코딩 모드가 상관성 신호 디코딩 모드라고 결정할 때, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 상관성 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계를 추가로 포함할 수 있고, 여기서 상관성 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식은 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 업믹스 프로세싱 방식이고, 상관성 신호 채널 조합 스킴은 근사 동상 신호에 대응하는 채널 조합 스킴이다.
일부 가능한 구현들에서, 이 방법은: 현재 프레임의 디코딩 모드가 상관성-대-반상관성 신호 디코딩 스위칭 모드라고 결정할 때, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 상관성-대-반상관성 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계를 추가로 포함할 수 있고, 여기서 상관성-대-반상관성 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식은 상관성 신호 채널 조합 스킴으로부터 반상관성 신호 채널 조합 스킴으로의 전환에 대응하는 시간-도메인 업믹스 프로세싱 방식이다.
일부 가능한 구현들에서, 이 방법은: 현재 프레임의 디코딩 모드가 반상관성-대-상관성 신호 디코딩 스위칭 모드라고 결정할 때, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 반상관성-대-상관성 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계를 추가로 포함할 수 있고, 여기서 반상관성-대-상관성 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식은 반상관성 신호 채널 조합 스킴으로부터 상관성 신호 채널 조합 스킴으로의 전환에 대응하는 시간-도메인 업믹스 프로세싱 방식이다.
상이한 디코딩 모드들은 보통 상이한 시간-도메인 업믹스 프로세싱 방식들에 대응하고, 각각의 디코딩 모드는 하나 이상의 시간-도메인 업믹스 프로세싱 방식에 대응할 수 있음이 이해될 수 있다.
예를 들어, 일부 가능한 구현들에서, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 반상관성 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계는:
현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계; 또는 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자 및 이전 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계를 포함한다.
일부 가능한 구현들에서, 대응하는 업믹스 행렬은 오디오 프레임의 채널 조합 비율 인자에 기초하여 구성될 수 있고, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 채널 조합 스킴에 대응하는 업믹스 행렬을 사용하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱이 수행된다.
예를 들어, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱이 수행될 때,
이다.
다른 예에 대해, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자 및 이전 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱이 수행될 때,
이거나; 또는
이고; 여기서
delay_com은 인코딩 지연 보상을 나타낸다.
다른 예에 대해, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자 및 이전 프레임에 대한 반상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱이 수행될 때,
이거나;
이거나; 또는
이다.
본 명세서에서, 은 현재 프레임에서의 디코딩된 좌측 채널 신호를 나타내고, 은 현재 프레임에서의 재구성된 우측 채널 신호를 나타내며, 은 현재 프레임에서의 디코딩된 프라이머리 채널 신호를 나타내고, 은 현재 프레임에서의 디코딩된 세컨더리 채널 신호를 나타낸다.
은 전환 프로세싱 길이를 나타낸다.
은 페이드-인 인자를 나타낸다. 예를 들어, 이다. 물론, 은 대안적으로 n에 기초한 다른 함수 관계의 페이드-인 인자일 수 있다.
은 페이드-아웃 인자를 나타낸다. 예를 들어, 이다. 물론, 은 대안적으로 n에 기초한 다른 함수 관계의 페이드-아웃 인자일 수 있다.
은 전환 프로세싱 길이를 나타낸다. 의 값은 특정 시나리오 요구사항에 기초하여 설정될 수 있다. 예를 들어, 은 3/N과 동일할 수 있거나 또는 은 N보다 작은 다른 값일 수 있다.
다른 예에 대해, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임에 대한 상관성 신호 채널 조합 스킴의 채널 조합 비율 인자에 기초하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱이 수행될 때,
이다.
전술한 예에서, 은 현재 프레임에서의 디코딩된 좌측 채널 신호를 나타낸다. 은 현재 프레임에서의 재구성된 우측 채널 신호를 나타낸다. 은 현재 프레임에서의 디코딩된 프라이머리 채널 신호를 나타낸다. 은 현재 프레임에서의 디코딩된 세컨더리 채널 신호를 나타낸다.
전술한 예에서, n은 샘플링 포인트 번호를 나타낸다. 예를 들어, 이다.
전술한 예에서, 는 디코딩 지연 보상을 나타낸다.
은 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 업믹스 행렬을 나타내고, 은 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다.
는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 업믹스 행렬을 나타내고, 는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다.
는 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 업믹스 행렬을 나타내고, 는 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다.
은 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 업믹스 행렬을 나타내고, 은 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다.
는 복수의 형태들을 가질 수 있고, 예를 들어:
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이며, 여기서
이고; 이다. 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
는 복수의 형태들을 가질 수 있고, 예를 들어:
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이며, 여기서
이고; 이다.
은 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
은 복수의 형태들을 가질 수 있고, 예를 들어:
이거나, 또는
이며, 여기서
는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
이하는 상관성-대-반상관성 신호 코딩 스위칭 모드 및 반상관성-대-상관성 신호 코딩 스위칭 모드에 대한 시나리오들을 설명하기 위해 예들을 사용한다. 상관성-대-반상관성 신호 코딩 스위칭 모드 및 반상관성-대-상관성 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식들은, 예를 들어, 세그먼트화된 시간-도메인 다운믹스 프로세싱 방식들이다.
도 6을 참조하면, 본 출원의 실시예는 오디오 인코딩 방법을 제공한다. 오디오 인코딩 방법의 관련 단계들은 인코딩 장치에 의해 구현될 수 있고, 이 방법은 구체적으로는 이하를 포함할 수 있다:
601. 현재 프레임에 대한 채널 조합 스킴을 결정한다.
602. 현재 프레임에 대한 채널 조합 스킴이 이전 프레임에 대한 채널 조합 스킴과 상이할 때, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에 대한 채널 조합 스킴 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 프로세싱을 수행한다.
603. 현재 프레임에서의 획득된 프라이머리 및 세컨더리 채널 신호들을 인코딩한다.
현재 프레임에 대한 채널 조합 스킴이 이전 프레임에 대한 채널 조합 스킴과 상이하면, 현재 프레임의 코딩 모드가 상관성-대-반상관성 신호 코딩 스위칭 모드 또는 반상관성-대-상관성 신호 코딩 스위칭 모드라고 결정될 수 있다. 현재 프레임의 코딩 모드가 상관성-대-반상관성 신호 코딩 스위칭 모드 또는 반상관성-대-상관성 신호 코딩 스위칭 모드이면, 예를 들어, 현재 프레임에 대한 채널 조합 스킴 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 프로세싱이 수행될 수 있다.
구체적으로는, 예를 들어, 이전 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴일 때, 현재 프레임의 코딩 모드가 상관성-대-반상관성 신호 코딩 스위칭 모드라고 결정될 수 있다. 다른 예에 대해, 이전 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴일 때, 현재 프레임의 코딩 모드가 반상관성-대-상관성 신호 코딩 스위칭 모드라고 결정될 수 있다. 나머지는 유추에 의해 추론될 수 있다.
세그먼트화된 시간-도메인 다운믹스 프로세싱은 현재 프레임에서의 좌측 및 우측 채널 신호들이 적어도 2개의 세그먼트로 분할되고, 시간-도메인 다운믹스 프로세싱을 수행하기 위해 각각의 세그먼트에 대해 상이한 시간-도메인 다운믹스 프로세싱 방식이 사용된다는 것으로 이해될 수 있다. 비-세그먼트화된 시간-도메인 다운믹스 프로세싱과 비교하여, 인접한 프레임에 대한 채널 조합 스킴이 변할 때 세그먼트화된 시간-도메인 다운믹스 프로세싱이 더 양호하고 매끄러운 전환을 획득할 가능성이 더 많다는 것이 이해될 수 있다.
전술한 해결책에서, 현재 프레임에 대한 채널 조합 스킴이 결정될 필요가 있으며, 이것은 현재 프레임에 대한 채널 조합 스킴에 대한 복수의 가능성들이 있음을 나타낸다는 것이 이해될 수 있다. 단지 하나의 채널 조합 스킴이 있는 종래의 해결책과 비교하여, 복수의 가능한 채널 조합 스킴들을 갖는 이 해결책은 복수의 가능한 시나리오들과 보다 잘 호환되고 매칭할 수 있다. 그에 부가하여, 현재 프레임에 대한 채널 조합 스킴과 이전 프레임에 대한 채널 조합 스킴이 상이할 때, 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 프로세싱을 수행하는 메커니즘이 도입된다. 세그먼트화된 시간-도메인 다운믹스 프로세싱 메커니즘은 채널 조합 스킴들의 매끄러운 전환을 구현하고, 인코딩 품질을 개선시키는 데 추가로 도움을 준다.
그에 부가하여, 근사 역상 신호에 대응하는 채널 조합 스킴이 도입되기 때문에, 현재 프레임에서의 스테레오 신호가 근사 역상 신호일 때, 보다 타깃화된 채널 조합 스킴 및 코딩 모드가 있으며, 이것은 인코딩 품질을 개선시키는 데 도움을 준다.
예를 들어, 이전 프레임에 대한 채널 조합 스킴은 상관성 신호 채널 조합 스킴 또는 반상관성 신호 채널 조합 스킴일 수 있다. 현재 프레임에 대한 채널 조합 스킴은 상관성 신호 채널 조합 스킴 또는 반상관성 신호 채널 조합 스킴일 수 있다. 따라서, 현재 프레임과 이전 프레임에 대한 채널 조합 스킴들이 상이한 몇 개의 가능한 경우들이 있다.
구체적으로는, 예를 들어, 이전 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴일 때, 현재 프레임에서의 좌측 및 우측 채널 신호들은 좌측 및 우측 채널 신호들의 시작 세그먼트들, 좌측 및 우측 채널 신호들의 중간 세그먼트들, 및 좌측 및 우측 채널 신호들의 종료 세그먼트들을 포함하고; 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들은 프라이머리 및 세컨더리 채널 신호들의 시작 세그먼트들, 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들, 및 프라이머리 및 세컨더리 채널 신호들의 종료 세그먼트들을 포함한다. 이 경우에, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에 대한 채널 조합 스킴 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 프로세싱을 수행하는 단계는:
현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들의 시작 세그먼트들을 획득하기 위해, 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 다운믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 좌측 및 우측 채널 신호들의 시작 세그먼트들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계;
현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들의 종료 세그먼트들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 다운믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 좌측 및 우측 채널 신호들의 종료 세그먼트들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계; 및
프라이머리 및 세컨더리 채널 신호들의 제1 중간 세그먼트들을 획득하기 위해, 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 다운믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 좌측 및 우측 채널 신호들의 중간 세그먼트들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계; 프라이머리 및 세컨더리 채널 신호들의 제2 중간 세그먼트들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 다운믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 좌측 및 우측 채널 신호들의 중간 세그먼트들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계; 및 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들을 획득하기 위해, 프라이머리 및 세컨더리 채널 신호들의 제1 중간 세그먼트들 및 프라이머리 및 세컨더리 채널 신호들의 제2 중간 세그먼트들에 대해 가중 합산 프로세싱을 수행하는 단계를 포함할 수 있다.
현재 프레임에서의 좌측 및 우측 채널 신호들의 시작 세그먼트들, 좌측 및 우측 채널 신호들의 중간 세그먼트들, 및 좌측 및 우측 채널 신호들의 종료 세그먼트들의 길이들은 요구사항에 기초하여 설정될 수 있다. 현재 프레임에서의 좌측 및 우측 채널 신호들의 시작 세그먼트들, 좌측 및 우측 채널 신호들의 중간 세그먼트들, 및 좌측 및 우측 채널 신호들의 종료 세그먼트들의 길이들은 동일하거나, 또는 부분적으로 동일하거나, 또는 서로 상이할 수 있다.
현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들의 시작 세그먼트들, 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들, 및 프라이머리 및 세컨더리 채널 신호들의 종료 세그먼트들의 길이들은 요구사항에 기초하여 설정될 수 있다. 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들의 시작 세그먼트들, 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들, 및 프라이머리 및 세컨더리 채널 신호들의 종료 세그먼트들의 길이들은 동일하거나, 또는 부분적으로 동일하거나, 또는 서로 상이할 수 있다.
프라이머리 및 세컨더리 채널 신호들의 제1 중간 세그먼트들 및 프라이머리 및 세컨더리 채널 신호들의 제2 중간 세그먼트들에 대해 가중 합산 프로세싱이 수행될 때, 프라이머리 및 세컨더리 채널 신호들의 제1 중간 세그먼트들에 대응하는 가중 계수는 프라이머리 및 세컨더리 채널 신호들의 제2 중간 세그먼트들에 대응하는 가중 계수와 동일하거나 또는 동일하지 않을 수 있다.
예를 들어, 프라이머리 및 세컨더리 채널 신호들의 제1 중간 세그먼트들 및 프라이머리 및 세컨더리 채널 신호들의 제2 중간 세그먼트들에 대해 가중 합산 프로세싱이 수행될 때, 프라이머리 및 세컨더리 채널 신호들의 제1 중간 세그먼트들에 대응하는 가중 계수는 페이드-아웃 인자이고, 프라이머리 및 세컨더리 채널 신호들의 제2 중간 세그먼트들에 대응하는 가중 계수는 페이드-인 인자이다.
일부 가능한 구현들에서,
이고; 여기서
은 현재 프레임에서의 프라이머리 채널 신호의 시작 세그먼트를 나타내고, 은 현재 프레임에서의 세컨더리 채널 신호의 시작 세그먼트를 나타내며, 은 현재 프레임에서의 프라이머리 채널 신호의 종료 세그먼트를 나타내고, 은 현재 프레임에서의 세컨더리 채널 신호의 종료 세그먼트를 나타내며, 은 현재 프레임에서의 프라이머리 채널 신호의 중간 세그먼트를 나타내고, 은 현재 프레임에서의 세컨더리 채널 신호의 중간 세그먼트를 나타내며;
은 현재 프레임에서의 프라이머리 채널 신호를 나타내고;
은 현재 프레임에서의 세컨더리 채널 신호를 나타낸다.
예를 들어, 이다.
예를 들어, 은 페이드-인 인자를 나타내고, 은 페이드-아웃 인자를 나타낸다. 예를 들어, 의 합은 1이다.
구체적으로는, 예를 들어, 이고 이다. 물론, 은 대안적으로 n에 기초한 다른 함수 관계의 페이드-인 인자일 수 있다. 물론, 은 대안적으로 n에 기초한 다른 함수 관계의 페이드-아웃 인자일 수 있다.
본 명세서에서, n은 샘플링 포인트 번호를 나타낸다. 이고, 이다.
예를 들어, 은 100, 107, 120, 150, 또는 다른 값과 동일하다.
예를 들어, 는 180, 187, 200, 203, 또는 다른 값과 동일하다.
본 명세서에서, 은 현재 프레임에서의 프라이머리 채널 신호의 제1 중간 세그먼트를 나타내고, 은 현재 프레임에서의 세컨더리 채널 신호의 제1 중간 세그먼트를 나타낸다. 은 현재 프레임에서의 프라이머리 채널 신호의 제2 중간 세그먼트를 나타내고, 은 현재 프레임에서의 세컨더리 채널 신호의 제2 중간 세그먼트를 나타낸다.
일부 가능한 구현들에서,
이고;
이며;
이고;
이며; 여기서
은 현재 프레임에서의 좌측 채널 신호를 나타내고, 은 현재 프레임에서의 우측 채널 신호를 나타내며;
은 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 다운믹스 행렬을 나타내고, 은 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성되며; 는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 다운믹스 행렬을 나타내고, 는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다.
는 복수의 가능한 형태들을 가질 수 있으며, 이들은 구체적으로는, 예를 들어:
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이며, 여기서
이고; 이다. 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
은 복수의 가능한 형태들을 가질 수 있으며, 이들은 구체적으로는, 예를 들어:
이거나, 또는
이며, 여기서
는 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
구체적으로는, 다른 예에 대해, 이전 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴일 때, 현재 프레임에서의 좌측 및 우측 채널 신호들은 좌측 및 우측 채널 신호들의 시작 세그먼트들, 좌측 및 우측 채널 신호들의 중간 세그먼트들, 및 좌측 및 우측 채널 신호들의 종료 세그먼트들을 포함하고; 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들은 프라이머리 및 세컨더리 채널 신호들의 시작 세그먼트들, 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들, 및 프라이머리 및 세컨더리 채널 신호들의 종료 세그먼트들을 포함한다. 이 경우에, 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임에 대한 채널 조합 스킴 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 프로세싱을 수행하는 단계는:
현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들의 시작 세그먼트들을 획득하기 위해, 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 다운믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 좌측 및 우측 채널 신호들의 시작 세그먼트들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계;
현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들의 종료 세그먼트들을 획득하기 위해, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 다운믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 좌측 및 우측 채널 신호들의 종료 세그먼트들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계; 및
프라이머리 및 세컨더리 채널 신호들의 제3 중간 세그먼트들을 획득하기 위해, 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 다운믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 좌측 및 우측 채널 신호들의 중간 세그먼트들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계; 프라이머리 및 세컨더리 채널 신호들의 제4 중간 세그먼트들을 획득하기 위해, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 다운믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 좌측 및 우측 채널 신호들의 중간 세그먼트들에 대해 시간-도메인 다운믹스 프로세싱을 수행하는 단계; 및 현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들을 획득하기 위해, 프라이머리 및 세컨더리 채널 신호들의 제3 중간 세그먼트들 및 프라이머리 및 세컨더리 채널 신호들의 제4 중간 세그먼트들에 대해 가중 합산 프로세싱을 수행하는 단계를 포함할 수 있다.
프라이머리 및 세컨더리 채널 신호들의 제3 중간 세그먼트들 및 프라이머리 및 세컨더리 채널 신호들의 제4 중간 세그먼트들에 대해 가중 합산 프로세싱이 수행될 때, 프라이머리 및 세컨더리 채널 신호들의 제3 중간 세그먼트들에 대응하는 가중 계수는 프라이머리 및 세컨더리 채널 신호들의 제4 중간 세그먼트들에 대응하는 가중 계수와 동일하거나 또는 동일하지 않을 수 있다.
예를 들어, 프라이머리 및 세컨더리 채널 신호들의 제3 중간 세그먼트들 및 프라이머리 및 세컨더리 채널 신호들의 제4 중간 세그먼트들에 대해 가중 합산 프로세싱이 수행될 때, 프라이머리 및 세컨더리 채널 신호들의 제3 중간 세그먼트들에 대응하는 가중 계수는 페이드-아웃 인자이고, 프라이머리 및 세컨더리 채널 신호들의 제4 중간 세그먼트들에 대응하는 가중 계수는 페이드-인 인자이다.
일부 가능한 구현들에서,
이며; 여기서
은 현재 프레임에서의 프라이머리 채널 신호의 시작 세그먼트를 나타내고, 은 현재 프레임에서의 세컨더리 채널 신호의 시작 세그먼트를 나타내며, 은 현재 프레임에서의 프라이머리 채널 신호의 종료 세그먼트를 나타내고, 은 현재 프레임에서의 세컨더리 채널 신호의 종료 세그먼트를 나타내며, 은 현재 프레임에서의 프라이머리 채널 신호의 중간 세그먼트를 나타내고, 은 현재 프레임에서의 세컨더리 채널 신호의 중간 세그먼트를 나타내며;
은 현재 프레임에서의 프라이머리 채널 신호를 나타내고;
은 현재 프레임에서의 세컨더리 채널 신호를 나타낸다.
예를 들어, 이고; 여기서
은 페이드-인 인자를 나타내고, 은 페이드-아웃 인자를 나타내며, 의 합은 1이다.
구체적으로는, 예를 들어, 이고 이다. 물론, 은 대안적으로 n에 기초한 다른 함수 관계의 페이드-인 인자일 수 있다. 물론, 은 대안적으로 n에 기초한 다른 함수 관계의 페이드-인 인자일 수 있다.
본 명세서에서, n은 샘플링 포인트 번호를 나타낸다. 예를 들어, 이다.
본 명세서에서, 이다.
예를 들어, 은 101, 107, 120, 150, 또는 다른 값과 동일하다.
예를 들어, 는 181, 187, 200, 205, 또는 다른 값과 동일하다.
은 현재 프레임에서의 프라이머리 채널 신호의 제3 중간 세그먼트를 나타내고, 은 현재 프레임에서의 세컨더리 채널 신호의 제3 중간 세그먼트를 나타낸다. 은 현재 프레임에서의 프라이머리 채널 신호의 제4 중간 세그먼트를 나타내고, 은 현재 프레임에서의 세컨더리 채널 신호의 제4 중간 세그먼트를 나타낸다.
일부 가능한 구현들에서,
이고;
이며;
이고;
이며; 여기서
은 현재 프레임에서의 좌측 채널 신호를 나타내고, 은 현재 프레임에서의 우측 채널 신호를 나타낸다.
는 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 다운믹스 행렬을 나타내고, 는 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 은 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 다운믹스 행렬을 나타내고, 은 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다.
는 복수의 가능한 형태들을 가질 수 있으며, 이들은 구체적으로는, 예를 들어:
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이며, 여기서
이고; 이다.
은 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
은 복수의 가능한 형태들을 가질 수 있으며, 이들은 구체적으로는, 예를 들어:
이거나, 또는
이며, 여기서
는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
일부 가능한 구현들에서, 현재 프레임에서의 좌측 및 우측 채널 신호들은, 예를 들어, 현재 프레임에서의 원래의 좌측 및 우측 채널 신호들일 수 있거나, 시간-도메인 프리-프로세싱을 거친 좌측 및 우측 채널 신호들일 수 있거나, 또는 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들일 수 있다.
구체적으로는, 예를 들어,
이거나, 또는
이거나, 또는
이며, 여기서
은 현재 프레임에서의 원래의 좌측 채널 신호(원래의 좌측 채널 신호는 시간-도메인 프리-프로세싱을 거치지 않은 좌측 채널 신호임)를 나타내고, 은 현재 프레임에서의 원래의 우측 채널 신호(원래의 우측 채널 신호는 시간-도메인 프리-프로세싱을 거치지 않은 우측 채널 신호임)를 나타내며;
은 현재 프레임에서의 시간-도메인 프리-프로세싱을 거친 좌측 채널 신호를 나타내고, 은 현재 프레임에서의 시간-도메인 프리-프로세싱을 거친 우측 채널 신호를 나타낸다. 은 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호를 나타내고, 은 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호를 나타낸다.
전술한 예들에서의 세그먼트화된 시간-도메인 다운믹스 프로세싱 방식들이 모든 가능한 구현들인 것은 아닐 수 있으며, 실제 응용에서, 다른 세그먼트화된 시간-도메인 다운믹스 프로세싱 방식이 또한 사용될 수 있음이 이해될 수 있다.
이에 대응하여, 이하는 상관성-대-반상관성 신호 디코딩 스위칭 모드 및 반상관성-대-상관성 신호 디코딩 스위칭 모드에 대한 시나리오들을 설명하기 위해 예들을 사용한다. 상관성-대-반상관성 신호 디코딩 스위칭 모드 및 반상관성-대-상관성 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방식들은, 예를 들어, 세그먼트화된 시간-도메인 다운믹스 프로세싱 방식들이다.
도 7을 참조하면, 본 출원의 실시예는 오디오 디코딩 방법을 제공한다. 오디오 디코딩 방법의 관련 단계들은 디코딩 장치에 의해 구현될 수 있고, 이 방법은 구체적으로는 이하의 단계들을 포함할 수 있다:
701. 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해 비트스트림에 기초하여 디코딩을 수행한다.
702. 현재 프레임에 대한 채널 조합 스킴을 결정한다.
단계(701) 및 단계(702)를 수행하기 위한 제한된 시퀀스가 없음이 이해될 수 있다.
703. 현재 프레임에 대한 채널 조합 스킴이 이전 프레임에 대한 채널 조합 스킴과 상이할 때, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임에 대한 채널 조합 스킴 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 세그먼트화된 시간-도메인 업믹스 프로세싱을 수행한다.
현재 프레임에 대한 채널 조합 스킴은 복수의 채널 조합 스킴들 중 하나이다.
예를 들어, 복수의 채널 조합 스킴들은 반상관성 신호 채널 조합 스킴 및 상관성 신호 채널 조합 스킴을 포함한다. 상관성 신호 채널 조합 스킴은 근사 동상 신호에 대응하는 채널 조합 스킴이다. 반상관성 신호 채널 조합 스킴은 근사 역상 신호에 대응하는 채널 조합 스킴이다. 근사 동상 신호에 대응하는 채널 조합 스킴은 근사 동상 신호에 적용가능하고, 근사 역상 신호에 대응하는 채널 조합 스킴은 근사 역상 신호에 적용가능하다는 것이 이해될 수 있다.
세그먼트화된 시간-도메인 업믹스 프로세싱은 현재 프레임에서의 좌측 및 우측 채널 신호들이 적어도 2개의 세그먼트로 분할되고, 시간-도메인 업믹스 프로세싱을 수행하기 위해 각각의 세그먼트에 대해 상이한 시간-도메인 업믹스 프로세싱 방식이 사용된다는 것으로 이해될 수 있다. 비-세그먼트화된 시간-도메인 업믹스 프로세싱과 비교하여, 인접한 프레임에 대한 채널 조합 스킴이 변할 때 세그먼트화된 시간-도메인 업믹스 프로세싱이 더 양호하고 매끄러운 전환을 획득할 가능성이 더 많다는 것이 이해될 수 있다.
전술한 해결책에서, 현재 프레임에 대한 채널 조합 스킴이 결정될 필요가 있으며, 이것은 현재 프레임에 대한 채널 조합 스킴에 대한 복수의 가능성들이 있음을 나타낸다는 것이 이해될 수 있다. 단지 하나의 채널 조합 스킴이 있는 종래의 해결책과 비교하여, 복수의 가능한 채널 조합 스킴들을 갖는 이 해결책은 복수의 가능한 시나리오들과 보다 잘 호환되고 매칭할 수 있다. 그에 부가하여, 현재 프레임에 대한 채널 조합 스킴과 이전 프레임에 대한 채널 조합 스킴이 상이할 때, 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 업믹스 프로세싱을 수행하는 메커니즘이 도입된다. 세그먼트화된 시간-도메인 업믹스 프로세싱 메커니즘은 채널 조합 스킴들의 매끄러운 전환을 구현하고, 인코딩 품질을 개선시키는 데 추가로 도움을 준다.
그에 부가하여, 근사 역상 신호에 대응하는 채널 조합 스킴이 도입되기 때문에, 현재 프레임에서의 스테레오 신호가 근사 역상 신호일 때, 보다 타깃화된 채널 조합 스킴 및 코딩 모드가 있으며, 이것은 인코딩 품질을 개선시키는 데 도움을 준다.
예를 들어, 이전 프레임에 대한 채널 조합 스킴은 상관성 신호 채널 조합 스킴 또는 반상관성 신호 채널 조합 스킴일 수 있다. 현재 프레임에 대한 채널 조합 스킴은 상관성 신호 채널 조합 스킴 또는 반상관성 신호 채널 조합 스킴일 수 있다. 따라서, 현재 프레임과 이전 프레임에 대한 채널 조합 스킴들이 상이한 몇 개의 가능한 경우들이 있다.
구체적으로는, 예를 들어, 이전 프레임에 대한 채널 조합 스킴은 상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴은 반상관성 신호 채널 조합 스킴이다. 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들은 재구성된 좌측 및 우측 채널 신호들의 시작 세그먼트들, 재구성된 좌측 및 우측 채널 신호들의 중간 세그먼트들, 및 재구성된 좌측 및 우측 채널 신호들의 종료 세그먼트들을 포함한다. 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들은 디코딩된 프라이머리 및 세컨더리 채널 신호들의 시작 세그먼트들, 디코딩된 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들, 및 디코딩된 프라이머리 및 세컨더리 채널 신호들의 종료 세그먼트들을 포함한다. 이 경우에, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임에 대한 채널 조합 스킴 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 세그먼트화된 시간-도메인 업믹스 프로세싱을 수행하는 단계는: 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 시작 세그먼트들을 획득하기 위해, 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들의 시작 세그먼트들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계;
현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 종료 세그먼트들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들의 종료 세그먼트들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계; 및
재구성된 좌측 및 우측 채널 신호들의 제1 중간 세그먼트들을 획득하기 위해, 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계; 재구성된 좌측 및 우측 채널 신호들의 제2 중간 세그먼트들을 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계; 및 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 중간 세그먼트들을 획득하기 위해, 재구성된 좌측 및 우측 채널 신호들의 제1 중간 세그먼트들 및 재구성된 좌측 및 우측 채널 신호들의 제2 중간 세그먼트들에 대해 가중 합산 프로세싱을 수행하는 단계를 포함한다.
현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 시작 세그먼트들, 재구성된 좌측 및 우측 채널 신호들의 중간 세그먼트들, 및 재구성된 좌측 및 우측 채널 신호들의 종료 세그먼트들의 길이들은 요구사항에 기초하여 설정될 수 있다. 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 시작 세그먼트들, 재구성된 좌측 및 우측 채널 신호들의 중간 세그먼트들, 및 재구성된 좌측 및 우측 채널 신호들의 종료 세그먼트들의 길이들은 동일하거나, 또는 부분적으로 동일하거나, 또는 서로 상이할 수 있다.
현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들의 시작 세그먼트들, 디코딩된 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들, 및 디코딩된 프라이머리 및 세컨더리 채널 신호들의 종료 세그먼트들의 길이들은 요구사항에 기초하여 설정될 수 있다. 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들의 시작 세그먼트들, 디코딩된 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들, 및 디코딩된 프라이머리 및 세컨더리 채널 신호들의 종료 세그먼트들의 길이들은 동일하거나, 또는 부분적으로 동일하거나, 또는 서로 상이할 수 있다.
재구성된 좌측 및 우측 채널 신호들은 디코딩된 좌측 및 우측 채널 신호들일 수 있거나, 또는 디코딩된 좌측 및 우측 채널 신호들을 획득하기 위해 재구성된 좌측 및 우측 채널 신호들에 대해 지연 조정 프로세싱 및/또는 시간-도메인 포스트-프로세싱이 수행될 수 있다.
재구성된 좌측 및 우측 채널 신호들의 제1 중간 세그먼트들 및 재구성된 좌측 및 우측 채널 신호들의 제2 중간 세그먼트들에 대해 가중 합산 프로세싱이 수행될 때, 재구성된 좌측 및 우측 채널 신호들의 제1 중간 세그먼트들에 대응하는 가중 계수는 재구성된 좌측 및 우측 채널 신호들의 제2 중간 세그먼트들에 대응하는 가중 계수와 동일하거나 또는 동일하지 않을 수 있다.
예를 들어, 재구성된 좌측 및 우측 채널 신호들의 제1 중간 세그먼트들 및 재구성된 좌측 및 우측 채널 신호들의 제2 중간 세그먼트들에 대해 가중 합산 프로세싱이 수행될 때, 재구성된 좌측 및 우측 채널 신호들의 제1 중간 세그먼트들에 대응하는 가중 계수는 페이드-아웃 인자이고, 재구성된 좌측 및 우측 채널 신호들의 제2 중간 세그먼트들에 대응하는 가중 계수는 페이드-인 인자이다.
일부 가능한 구현들에서,
이며; 여기서
은 현재 프레임에서의 재구성된 좌측 채널 신호의 시작 세그먼트를 나타내고, 은 현재 프레임에서의 재구성된 우측 채널 신호의 시작 세그먼트를 나타낸다. 은 현재 프레임에서의 재구성된 좌측 채널 신호의 종료 세그먼트를 나타내고, 은 현재 프레임에서의 재구성된 우측 채널 신호의 종료 세그먼트를 나타낸다. 은 현재 프레임에서의 재구성된 좌측 채널 신호의 중간 세그먼트를 나타내고, 은 현재 프레임에서의 재구성된 우측 채널 신호의 중간 세그먼트를 나타내며;
은 현재 프레임에서의 재구성된 좌측 채널 신호를 나타내고;
은 현재 프레임에서의 재구성된 우측 채널 신호를 나타낸다.
예를 들어, 이다.
예를 들어, 은 페이드-인 인자를 나타내고, 은 페이드-아웃 인자를 나타낸다. 예를 들어, 의 합은 1이다.
구체적으로는, 예를 들어, 이고 이다. 물론, 은 대안적으로 n에 기초한 다른 함수 관계의 페이드-인 인자일 수 있다. 물론, 은 대안적으로 n에 기초한 다른 함수 관계의 페이드-인 인자일 수 있다.
본 명세서에서, n은 샘플링 포인트 번호를 나타내고, 이다. 본 명세서에서, 이다.
은 현재 프레임에서의 재구성된 좌측 채널 신호의 제1 중간 세그먼트를 나타내고, 은 현재 프레임에서의 재구성된 우측 채널 신호의 제1 중간 세그먼트를 나타내며; 은 현재 프레임에서의 재구성된 좌측 채널 신호의 제2 중간 세그먼트를 나타내고, 은 현재 프레임에서의 재구성된 우측 채널 신호의 제2 중간 세그먼트를 나타낸다.
일부 가능한 구현들에서,
이고;
이며;
이고;
이며; 여기서
은 현재 프레임에서의 디코딩된 프라이머리 채널 신호를 나타내고, 은 현재 프레임에서의 디코딩된 세컨더리 채널 신호를 나타내며;
은 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 업믹스 행렬을 나타내고, 은 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성되며; 는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 업믹스 행렬을 나타내고, 는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다.
은 복수의 가능한 형태들을 가질 수 있으며, 이들은 구체적으로는, 예를 들어:
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이며, 여기서
이고; 이다. 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
는 복수의 가능한 형태들을 가질 수 있으며, 이들은 구체적으로는, 예를 들어:
이거나, 또는
이다.
본 명세서에서, 는 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
구체적으로는, 다른 예에 대해, 이전 프레임에 대한 채널 조합 스킴은 반상관성 신호 채널 조합 스킴이고, 현재 프레임에 대한 채널 조합 스킴은 상관성 신호 채널 조합 스킴이다. 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들은 재구성된 좌측 및 우측 채널 신호들의 시작 세그먼트들, 재구성된 좌측 및 우측 채널 신호들의 중간 세그먼트들, 및 재구성된 좌측 및 우측 채널 신호들의 종료 세그먼트들을 포함한다. 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들은 디코딩된 프라이머리 및 세컨더리 채널 신호들의 시작 세그먼트들, 디코딩된 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들, 및 디코딩된 프라이머리 및 세컨더리 채널 신호들의 종료 세그먼트들을 포함한다. 이 경우에, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임에 대한 채널 조합 스킴 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 세그먼트화된 시간-도메인 업믹스 프로세싱을 수행하는 단계는:
현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 시작 세그먼트들을 획득하기 위해, 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들의 시작 세그먼트들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계;
현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 종료 세그먼트들을 획득하기 위해, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들의 종료 세그먼트들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계; 및
재구성된 좌측 및 우측 채널 신호들의 제3 중간 세그먼트들을 획득하기 위해, 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계; 재구성된 좌측 및 우측 채널 신호들의 제4 중간 세그먼트들을 획득하기 위해, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여, 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들의 중간 세그먼트들에 대해 시간-도메인 업믹스 프로세싱을 수행하는 단계; 및 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 중간 세그먼트들을 획득하기 위해, 재구성된 좌측 및 우측 채널 신호들의 제3 중간 세그먼트들 및 재구성된 좌측 및 우측 채널 신호들의 제4 중간 세그먼트들에 대해 가중 합산 프로세싱을 수행하는 단계를 포함한다.
재구성된 좌측 및 우측 채널 신호들의 제3 중간 세그먼트들 및 재구성된 좌측 및 우측 채널 신호들의 제4 중간 세그먼트들에 대해 가중 합산 프로세싱이 수행될 때, 재구성된 좌측 및 우측 채널 신호들의 제3 중간 세그먼트들에 대응하는 가중 계수는 재구성된 좌측 및 우측 채널 신호들의 제4 중간 세그먼트들에 대응하는 가중 계수와 동일하거나 또는 동일하지 않을 수 있다.
예를 들어, 재구성된 좌측 및 우측 채널 신호들의 제3 중간 세그먼트들 및 재구성된 좌측 및 우측 채널 신호들의 제4 중간 세그먼트들에 대해 가중 합산 프로세싱이 수행될 때, 재구성된 좌측 및 우측 채널 신호들의 제3 중간 세그먼트들에 대응하는 가중 계수는 페이드-아웃 인자이고, 재구성된 좌측 및 우측 채널 신호들의 제4 중간 세그먼트들에 대응하는 가중 계수는 페이드-인 인자이다.
일부 가능한 구현들에서,
이며; 여기서
은 현재 프레임에서의 재구성된 좌측 채널 신호의 시작 세그먼트를 나타내고, 은 현재 프레임에서의 재구성된 우측 채널 신호의 시작 세그먼트를 나타내며, 은 현재 프레임에서의 재구성된 좌측 채널 신호의 종료 세그먼트를 나타내고, 은 현재 프레임에서의 재구성된 우측 채널 신호의 종료 세그먼트를 나타내며, 은 현재 프레임에서의 재구성된 좌측 채널 신호의 중간 세그먼트를 나타내고, 은 현재 프레임에서의 재구성된 우측 채널 신호의 중간 세그먼트를 나타내며;
은 현재 프레임에서의 재구성된 좌측 채널 신호를 나타내고;
은 현재 프레임에서의 재구성된 우측 채널 신호를 나타낸다.
예를 들어, 이다.
은 페이드-인 인자를 나타내고, 은 페이드-아웃 인자를 나타내며, 의 합은 1이다.
구체적으로는, 예를 들어, 이고 이다. 물론, 은 대안적으로 n에 기초한 다른 함수 관계의 페이드-인 인자일 수 있다. 물론, 은 대안적으로 n에 기초한 다른 함수 관계의 페이드-아웃 인자일 수 있다.
본 명세서에서, n은 샘플링 포인트 번호를 나타낸다. 예를 들어, 이다.
본 명세서에서, 이다.
예를 들어, 은 101, 107, 120, 150, 또는 다른 값과 동일하다.
예를 들어, 는 181, 187, 200, 205, 또는 다른 값과 동일하다.
은 현재 프레임에서의 재구성된 좌측 채널 신호의 제3 중간 세그먼트를 나타내고, 은 현재 프레임에서의 재구성된 우측 채널 신호의 제3 중간 세그먼트를 나타낸다. 은 현재 프레임에서의 재구성된 좌측 채널 신호의 제4 중간 세그먼트를 나타내고, 은 현재 프레임에서의 재구성된 우측 채널 신호의 제4 중간 세그먼트를 나타낸다.
일부 가능한 구현들에서,
이고;
이며;
이고;
이며; 여기서
은 현재 프레임에서의 디코딩된 프라이머리 채널 신호를 나타내고, 은 현재 프레임에서의 디코딩된 세컨더리 채널 신호를 나타낸다.
는 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 업믹스 행렬을 나타내고, 는 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다. 은 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 업믹스 행렬을 나타내고, 은 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 구성된다.
는 복수의 가능한 형태들을 가질 수 있으며, 세부사항들은 다음과 같다:
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이거나, 또는
이며, 여기서
이고; 이다.
은 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
은 복수의 가능한 형태들을 가질 수 있으며, 이들은 구체적으로는, 예를 들어:
이거나, 또는
이며, 여기서
는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
본 출원의 이 실시예에서, 현재 프레임의 스테레오 파라미터(예를 들어, 채널 조합 비율 인자 및/또는 채널간 시간 차이)는 고정된 값일 수 있거나, 또는 현재 프레임에 대한 채널 조합 스킴(예를 들어, 상관성 신호 채널 조합 스킴 또는 반상관성 신호 채널 조합 스킴)에 기초하여 결정될 수 있다.
도 8을 참조하면, 이하는 시간-도메인 스테레오 파라미터 결정 방법을 설명하기 위해 예들을 사용한다. 시간-도메인 스테레오 파라미터 결정 방법의 관련 단계들은 인코딩 장치에 의해 구현될 수 있고, 이 방법은 구체적으로는 이하의 단계들을 포함할 수 있다.
801. 현재 프레임에 대한 채널 조합 스킴을 결정한다.
802. 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하고, 여기서 시간-도메인 스테레오 파라미터는 채널 조합 비율 인자 및 채널간 시간 차이 중 적어도 하나를 포함한다.
현재 프레임에 대한 채널 조합 스킴은 복수의 채널 조합 스킴들 중 하나이다.
예를 들어, 복수의 채널 조합 스킴들은 반상관성 신호 채널 조합 스킴 및 상관성 신호 채널 조합 스킴을 포함한다.
상관성 신호 채널 조합 스킴은 근사 동상 신호에 대응하는 채널 조합 스킴이다. 반상관성 신호 채널 조합 스킴은 근사 역상 신호에 대응하는 채널 조합 스킴이다. 근사 동상 신호에 대응하는 채널 조합 스킴은 근사 동상 신호에 적용가능하고, 근사 역상 신호에 대응하는 채널 조합 스킴은 근사 역상 신호에 적용가능하다는 것이 이해될 수 있다.
현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터이거나; 또는 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터이다.
전술한 해결책에서, 현재 프레임에 대한 채널 조합 스킴이 결정될 필요가 있으며, 이것은 현재 프레임에 대한 채널 조합 스킴에 대한 복수의 가능성들이 있음을 나타낸다는 것이 이해될 수 있다. 단지 하나의 채널 조합 스킴이 있는 종래의 해결책과 비교하여, 복수의 가능한 채널 조합 스킴들을 갖는 이 해결책은 복수의 가능한 시나리오들과 보다 잘 호환되고 매칭할 수 있다. 현재 프레임의 시간-도메인 스테레오 파라미터가 현재 프레임에 대한 채널 조합 스킴에 기초하여 결정되기 때문에, 시간-도메인 스테레오 파라미터는 복수의 가능한 시나리오들과 보다 잘 호환되고 매칭할 수 있으며, 인코딩 및 디코딩 품질이 더욱 개선될 수 있다.
일부 가능한 구현들에서, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자가 먼저 개별적으로 계산될 수 있다. 이어서 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임의 시간-도메인 스테레오 파라미터가 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터라고 결정되거나; 또는 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임의 시간-도메인 스테레오 파라미터가 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터라고 결정된다. 대안적으로, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터가 먼저 계산될 수 있고, 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임의 시간-도메인 스테레오 파라미터가 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터라고 결정되거나, 또는 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터가 계산되고, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터는 현재 프레임의 시간-도메인 스테레오 파라미터로서 결정된다.
대안적으로, 현재 프레임에 대한 채널 조합 스킴이 먼저 결정될 수 있다. 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터가 계산되고, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터이거나; 또는 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴이라고 결정될 때, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터가 계산되고, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터이다.
일부 가능한 구현들에서, 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는: 현재 프레임에 대한 채널 조합 스킴에 기초하여, 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 결정하는 단계를 포함한다. 현재 프레임에 대한 채널 조합 스킴(상관성 신호 채널 조합 스킴 또는 반상관성 신호 채널 조합 스킴)에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 없을 때, 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값과 동일하다. 현재 프레임에 대한 채널 조합 스킴(상관성 신호 채널 조합 스킴 또는 반상관성 신호 채널 조합 스킴)에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있을 때, 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정되어, 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값을 획득하고, 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값과 동일하다.
예를 들어, 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는: 현재 프레임에서의 좌측 채널 신호에 기초하여 현재 프레임에서의 좌측 채널 신호의 프레임 에너지를 계산하는 단계; 현재 프레임에서의 우측 채널 신호에 기초하여 현재 프레임에서의 우측 채널 신호의 프레임 에너지를 계산하는 단계; 및 현재 프레임에서의 좌측 채널 신호의 프레임 에너지 및 현재 프레임에서의 우측 채널 신호의 프레임 에너지에 기초하여 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 계산하는 단계를 포함할 수 있다.
현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 없을 때, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값과 동일하며, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값의 인코딩된 인덱스와 동일하다.
현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있을 때, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값 및 초기 값의 인코딩된 인덱스가 수정되어, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값 및 수정된 값의 인코딩된 인덱스를 획득한다. 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값과 동일하며, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값의 인코딩된 인덱스와 동일하다.
구체적으로는, 예를 들어, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값 및 초기 값의 인코딩된 인덱스가 수정될 때,
이며;
이고; 여기서
는 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스를 나타내고; 는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값에 대응하는 인코딩된 인덱스를 나타내며; 는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값을 나타낸다.
다른 예에 대해, 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는: 현재 프레임에서의 좌측 채널 신호 및 우측 채널 신호에 기초하여 현재 프레임에서의 기준 채널 신호를 획득하는 단계; 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터를 계산하는 단계; 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터를 계산하는 단계; 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터에 기초하여 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 계산하는 단계; 및 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터에 기초하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 단계를 포함한다.
현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터에 기초하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 단계는, 예를 들어: 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터에 기초하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 계산하는 단계; 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 수정하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 획득하는 단계를 포함할 수 있다. 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 없을 때, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자가 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값과 동일하다는 것이 이해될 수 있다.
일부 가능한 구현들에서,
이며;
이고; 여기서
이고;
은 현재 프레임에서의 기준 채널 신호를 나타내며;
은 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호를 나타내고, 은 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호를 나타내며, 은 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터를 나타내고, 은 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터를 나타낸다.
일부 가능한 구현들에서, 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터에 기초하여 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 계산하는 단계는: 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터에 기초하여 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산하는 단계; 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터에 기초하여 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산하는 단계; 및 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터에 기초하여 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터를 계산하는 단계를 포함한다.
다양한 평활화 방식들이 있을 수 있으며, 예를 들어,
이고; 여기서
이며, A는 현재 프레임에서의 좌측 채널 신호의 장기 평활화된 프레임 에너지의 업데이트 인자를 나타내고, 는 현재 프레임에서의 좌측 채널 신호의 장기 평활화된 프레임 에너지를 나타내며, 은 현재 프레임에서의 좌측 채널 신호의 프레임 에너지를 나타내고, 은 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며, 는 이전 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, 는 좌측 채널 평활화 인자를 나타낸다.
예를 들어,
이고; 여기서
이며, B는 현재 프레임에서의 우측 채널 신호의 장기 평활화된 프레임 에너지의 업데이트 인자를 나타내고, 는 현재 프레임에서의 우측 채널 신호의 장기 평활화된 프레임 에너지를 나타내며, 은 현재 프레임에서의 우측 채널 신호의 프레임 에너지를 나타내고, 은 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며, 는 이전 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, 는 우측 채널 평활화 인자를 나타낸다.
일부 가능한 구현들에서,
이고; 여기서
은 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며, 은 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, 은 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 나타낸다.
일부 가능한 구현들에서, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터에 기초하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 단계는: 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터에 대해 매핑 프로세싱을 수행하여, 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 값 범위가 일 수 있게 해주는 단계; 및 매핑 프로세싱을 거친, 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 채널 조합 비율 인자로 변환하는 단계를 포함한다.
일부 가능한 구현들에서, 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터에 대해 매핑 프로세싱을 수행하는 단계는: 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터에 대해 진폭 제한을 수행하는 단계; 및 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터에 대해 매핑 프로세싱을 수행하는 단계를 포함한다.
다양한 진폭 제한 방식들이 있을 수 있으며, 이들은 구체적으로는, 예를 들어:
이며, 여기서
는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최댓값을 나타내며, 은 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최솟값을 나타내고, 이다.
다양한 매핑 프로세싱 방식들이 있을 수 있으며, 이들은 구체적으로는, 예를 들어:
이고; 여기서
이고;
이거나 이고;
이고;
이거나 이고;
이고;
이거나 이고;
는 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 나타내고;
는 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 최댓값을 나타내고, 는 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 상한 임계치를 나타내며, 는 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 하한 임계치를 나타내고, 은 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 최솟값을 나타내며;
이고;
는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최댓값을 나타내며, 는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터의 상한 임계치를 나타내고, 는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터의 하한 임계치를 나타내며, 은 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최솟값을 나타내고;
이다.
다른 예에 대해,
이고; 여기서
는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터를 나타내며, 는 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 나타내고;
이며;
는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 최대 진폭을 나타내고, 는 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 최소 진폭을 나타낸다.
일부 가능한 구현들에서,
이며, 여기서
는 매핑 프로세싱을 거친, 현재 프레임에서의 좌측 채널 신호와 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 나타내며; 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타내고, 또는 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 나타낸다.
본 출원의 일부 구현들에서, 채널 조합 비율 인자가 수정될 필요가 있는 시나리오에서, 채널 조합 비율 인자가 인코딩되기 전에 또는 그 이후에 수정이 수행될 수 있다. 구체적으로는, 예를 들어, 현재 프레임의 채널 조합 비율 인자(예를 들어, 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 또는 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자)의 초기 값이 먼저 계산을 통해 획득될 수 있고, 이어서 채널 조합 비율 인자의 초기 값이 인코딩되어, 현재 프레임의 채널 조합 비율 인자의 초기 인코딩된 인덱스를 획득하고, 현재 프레임의 채널 조합 비율 인자의 획득된 초기 인코딩된 인덱스가 수정되어, 현재 프레임의 채널 조합 비율 인자의 인코딩된 인덱스를 획득한다(현재 프레임의 채널 조합 비율 인자의 인코딩된 인덱스를 획득하는 것은 현재 프레임의 채널 조합 비율을 획득하는 것과 동등하다). 대안적으로, 현재 프레임의 채널 조합 비율 인자의 초기 값이 먼저 계산을 통해 획득될 수 있고, 이어서 계산을 통해 획득된 현재 프레임의 채널 조합 비율 인자의 초기 값이 수정되어, 현재 프레임의 채널 조합 비율 인자를 획득하며, 현재 프레임의 획득된 채널 조합 비율 인자가 인코딩되어, 현재 프레임의 채널 조합 비율 인자의 인코딩된 인덱스를 획득한다.
현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 수정하는 다양한 방식들이 있다. 예를 들어, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있을 때, 이전 프레임의 채널 조합 비율 인자 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값에 기초하여 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 수 있거나; 또는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값에 기초하여 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 수 있다.
현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있는지는 먼저 현재 프레임에서의 좌측 채널 신호의 장기 평활화된 프레임 에너지, 현재 프레임에서의 우측 채널 신호의 장기 평활화된 프레임 에너지, 현재 프레임에서의 좌측 채널 신호의 프레임간 에너지 차이, 이력 버퍼 내의 이전 프레임의 버퍼링된 인코딩 파라미터(예를 들어, 프라이머리 채널 신호의 프레임간 상관(inter-frame correlation) 및 세컨더리 채널 신호의 프레임간 상관), 현재 프레임과 이전 프레임의 채널 조합 스킴 플래그들, 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자, 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값에 기초하여 결정된다. 만약 그렇다면, 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자가 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자로서 사용되고; 그렇지 않으면, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자로서 사용된다.
물론, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 수정하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 획득하는 특정 구현이 전술한 예들로 제한되지 않는다.
803. 현재 프레임의 결정된 시간-도메인 스테레오 파라미터를 인코딩한다.
일부 가능한 구현들에서, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 결정된 채널 조합 비율 인자에 대해 양자화 인코딩이 수행되고,
이고; 여기서
은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 대해 스칼라 양자화를 수행하기 위한 코드북을 나타내며; 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 인코딩된 인덱스를 나타내고; 는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 양자화 인코딩된 초기 값을 나타낸다.
일부 가능한 구현들에서,
이고,
이며, 여기서
은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타내고, 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스를 나타내거나; 또는
이고,
이며, 여기서
은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 초기 인코딩된 인덱스를 나타내고; 은 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 최종 인코딩된 인덱스를 나타내며; 는 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정 인자이고; 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 나타낸다.
일부 가능한 구현들에서, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있을 때, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 인코딩된 인덱스를 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값에 대해 양자화 인코딩이 먼저 수행될 수 있고; 이어서 이전 프레임의 채널 조합 비율 인자의 인코딩된 인덱스 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 인코딩된 인덱스에 기초하여 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 인코딩된 인덱스가 수정될 수 있거나; 또는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 인코딩된 인덱스에 기초하여 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 인코딩된 인덱스가 수정될 수 있다.
예를 들어, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 초기 인코딩된 인덱스를 획득하기 위해, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값에 대해 양자화 인코딩이 먼저 수행될 수 있다. 이어서, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 수정될 필요가 있을 때, 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스로서 사용되고; 그렇지 않으면, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 인코딩된 인덱스는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스로서 사용된다. 마지막으로, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스에 대응하는 양자화 인코딩된 값은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자로서 사용된다.
그에 부가하여, 시간-도메인 스테레오 파라미터가 채널간 시간 차이를 포함할 때, 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는: 현재 프레임에 대한 채널 조합 스킴이 상관성 신호 채널 조합 스킴일 때 현재 프레임의 채널간 시간 차이를 계산하는 단계를 포함할 수 있다. 그에 부가하여, 계산을 통해 획득된 현재 프레임의 채널간 시간 차이는 비트스트림에 기입될 수 있다. 현재 프레임에 대한 채널 조합 스킴이 반상관성 신호 채널 조합 스킴일 때, 디폴트 채널간 시간 차이(예를 들어, 0)가 현재 프레임의 채널간 시간 차이로서 사용된다. 그에 부가하여, 디폴트 채널간 시간 차이는 비트스트림에 기입되지 않을 수 있고, 디코딩 장치는 또한 디폴트 채널간 시간 차이를 사용한다.
이하는 예를 사용하여 시간-도메인 스테레오 파라미터 인코딩 방법을 추가로 제공한다. 이 방법은, 예를 들어: 현재 프레임에 대한 채널 조합 스킴을 결정하는 단계; 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계; 및 현재 프레임의 결정된 시간-도메인 스테레오 파라미터를 인코딩하는 단계를 포함할 수 있고, 여기서 시간-도메인 스테레오 파라미터는 채널 조합 비율 인자 및 채널간 시간 차이 중 적어도 하나를 포함한다.
이에 대응하여, 디코딩 장치는 비트스트림으로부터 현재 프레임의 시간-도메인 스테레오 파라미터를 획득하고, 비트스트림으로부터 획득된 현재 프레임의 시간-도메인 스테레오 파라미터에 기초하여 관련 디코딩을 추가로 수행할 수 있다.
이하는 보다 구체적인 응용 시나리오를 참조하여 예들을 사용하여 설명들을 제공한다.
도 9a는 본 출원의 실시예에 따른 오디오 인코딩 방법의 개략 플로차트이다. 본 출원의 이 실시예에서 제공되는 오디오 인코딩 방법은 인코딩 장치에 의해 구현될 수 있고, 이 방법은 구체적으로는 이하의 단계들을 포함할 수 있다.
901. 현재 프레임에서의 원래의 좌측 및 우측 채널 신호들에 대해 시간-도메인 프리-프로세싱을 수행한다.
예를 들어, 스테레오 오디오 신호의 샘플링 레이트가 16 KHz이면, 하나의 신호 프레임은 20 ms이고, 프레임 길이는 N으로 표기되며, N = 320일 때, 이는 프레임 길이가 320개의 샘플링 포인트임을 나타낸다. 현재 프레임에서의 스테레오 신호는 현재 프레임에서의 좌측 채널 신호 및 현재 프레임에서의 우측 채널 신호를 포함한다. 현재 프레임에서의 원래의 좌측 채널 신호는 으로서 표기되고, 현재 프레임에서의 원래의 우측 채널 신호는 으로서 표기되며, n은 샘플링 포인트 번호이고, 이다.
예를 들어, 현재 프레임에서의 원래의 좌측 및 우측 채널 신호들에 대해 시간-도메인 프리-프로세싱을 수행하는 단계는: 현재 프레임에서의 시간-도메인 프리-프로세싱을 거친 좌측 및 우측 채널 신호들을 획득하기 위해 현재 프레임에서의 원래의 좌측 및 우측 채널 신호들에 대해 고역 통과 필터링 프로세싱를 수행하는 단계를 포함할 수 있고, 여기서 현재 프레임에서의 시간-도메인 프리-프로세싱을 거친 좌측 채널 신호는 으로서 표기되고, 현재 프레임에서의 시간-도메인 프리-프로세싱을 거친 우측 채널 신호는 으로서 표기된다. 본 명세서에서, n은 샘플링 포인트 번호이고, 이다. 고역 통과 필터링 프로세싱에서 사용되는 필터는, 예를 들어, 차단 주파수가 20 Hz인 무한 임펄스 응답(IIR: Infinite Impulse Response) 필터일 수 있거나, 또는 다른 유형의 필터일 수 있다.
예를 들어, 20 Hz의 차단 주파수에 대응하는, 샘플링 레이트가 16 KHz인 고역 통과 필터의 전달 함수는:
일 수 있으며; 여기서
= 0.994461788958195이고, = -1.988923577916390이며, = 0.994461788958195이고, = 1.988892905899653이며, = -0.988954249933127이고, z는 Z 변환의 변환 인자이다.
대응하는 시간-도메인 필터의 전달 함수는 다음과 같이 표현될 수 있다:
, 및
.
902. 현재 프레임에서의 시간-도메인 프리-프로세싱을 거친 좌측 및 우측 채널 신호들에 대해 지연 정렬 프로세싱을 수행하여, 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들을 획득한다.
지연 정렬 프로세싱을 거친 신호는 간략하게 "지연 정렬된 신호"라고 지칭될 수 있다. 예를 들어, 지연 정렬 프로세싱을 거친 좌측 채널 신호는 간략하게 "지연 정렬된 좌측 채널 신호"라고 지칭될 수 있고, 지연 정렬 프로세싱을 거친 우측 채널 신호는 간략하게 "지연 정렬된 우측 채널 신호"라고 지칭될 수 있는 등이다.
구체적으로는, 채널간 지연 파라미터가 현재 프레임에서의 프리-프로세싱된 좌측 및 우측 채널 신호들에 기초하여 추출되고 이어서 인코딩될 수 있으며, 인코딩된 채널간 지연 파라미터에 기초하여 좌측 및 우측 채널 신호들에 대해 지연 정렬 프로세싱이 수행되어, 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들을 획득한다. 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호는 으로서 표기되고, 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호는 으로서 표기되며, 여기서 n은 샘플링 포인트 번호이고, 이다.
구체적으로, 예를 들어, 인코딩 장치는 현재 프레임에서의 프리-프로세싱된 좌측 및 우측 채널 신호들 기초하여 좌측 및 우측 채널들의 시간-도메인 교차 상관 함수를 계산하고; 좌측 및 우측 채널들의 시간-도메인 교차 상관 함수의 최댓값(또는 다른 값)을 탐색하여, 좌측 채널 신호와 우측 채널 신호 사이의 시간 차이를 결정하며; 좌측 채널과 우측 채널 사이의 결정된 시간 차이에 대해 양자화 인코딩을 수행하고; 좌측 및 우측 채널들 중에서 선택된 한쪽 채널의 신호를 기준으로서 사용하고, 좌측 채널과 우측 채널 사이의 양자화 인코딩된 시간 차이에 기초하여 다른 쪽 채널의 신호에 대해 지연 조정을 수행하여, 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들을 획득할 수 있다.
지연 정렬 프로세싱의 많은 특정 구현 방법들이 있고, 특정 지연 정렬 프로세싱 방법이 이 실시예에서 제한되지 않는다는 것에 주목해야 한다.
903. 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들에 대해 시간-도메인 분석을 수행한다.
구체적으로는, 시간-도메인 분석은 과도 검출(transient detection) 등을 포함할 수 있다. 과도 검출은 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들에 대해 수행되는 에너지 검출일 수 있다(구체적으로는, 현재 프레임이 갑작스런 에너지 변화를 갖는지가 검출될 수 있다). 예를 들어, 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호의 에너지는 로서 표현되고, 이전 프레임에서의 지연 정렬을 거친 좌측 채널 신호의 에너지는 로서 표현된다. 이 경우에, 사이의 차이의 절댓값에 기초하여 과도 검출이 수행되어, 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호의 과도 검출 결과를 획득할 수 있다. 마찬가지로, 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호에 대해, 동일한 방법을 사용하여, 과도 검출이 수행될 수 있다. 시간-도메인 분석은 과도 검출 이외의 다른 종래의 방식의 시간-도메인 분석을 추가로 포함할 수 있으며, 예를 들어, 주파수 대역 확장 프리-프로세싱을 포함할 수 있다.
단계(903)는 단계(902) 이후 그리고 현재 프레임에서의 프라이머리 채널 신호 및 세컨더리 채널 신호가 인코딩되기 전에 언제라도 수행될 수 있다는 것이 이해될 수 있다.
904. 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들에 기초하여 현재 프레임에 대해 채널 조합 스킴 결정을 수행하여, 현재 프레임에 대한 채널 조합 스킴을 결정한다.
2개의 가능한 채널 조합 스킴이 이 실시예에서 예들로서 설명되고, 이하의 설명에서 상관성 신호 채널 조합 스킴 및 반상관성 신호 채널 조합 스킴으로서 제각기 지칭된다. 이 실시예에서, 상관성 신호 채널 조합 스킴은 (지연 정렬 이후에 획득된) 현재 프레임에서의 좌측 및 우측 채널 신호들이 근사 동상 신호인 경우에 대응하고, 반상관성 신호 채널 조합 스킴은 (지연 정렬 이후에 획득된) 현재 프레임에서의 좌측 및 우측 채널 신호들이 근사 역상 신호인 경우에 대응한다. 물론, "상관성 신호 채널 조합 스킴" 및 "반상관성 신호 채널 조합 스킴"에 부가하여, 실제 응용에서 2개의 가능한 채널 조합 스킴을 표현하는 데 다른 명칭들이 또한 사용될 수 있다.
이 실시예의 일부 해결책들에서, 채널 조합 스킴 결정은 초기 채널 조합 스킴 결정 및 채널 조합 스킴 수정 결정으로 분류될 수 있다. 현재 프레임에 대한 채널 조합 스킴을 결정하기 위해 현재 프레임에 대해 채널 조합 스킴 결정이 수행된다는 것이 이해될 수 있다. 현재 프레임에 대한 채널 조합 스킴을 결정하는 구현들의 일부 예들에 대해서는, 전술한 실시예에서의 관련 설명을 참조한다. 상세들이 본 명세서에서 또다시 설명되지 않는다.
905. 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들 및 현재 프레임의 채널 조합 스킴 플래그에 기초하여 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산 및 인코딩하여, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값 및 초기 값의 인코딩된 인덱스를 획득한다.
구체적으로는, 예를 들어, 현재 프레임에서의 좌측 및 우측 채널 신호들의 프레임 에너지가 먼저 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들에 기초하여 계산되며, 여기서
현재 프레임에서의 좌측 채널 신호의 프레임 에너지 은:
을 충족시키고;
현재 프레임에서의 우측 채널 신호의 프레임 에너지 은:
을 충족시키며; 여기서
은 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호를 나타내고,
은 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호를 나타낸다.
이어서, 현재 프레임에서의 좌측 채널의 프레임 에너지 및 우측 채널의 프레임 에너지에 기초하여 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자가 계산된다. 계산을 통해 획득된 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 는:
을 충족시킨다.
이어서, 계산을 통해 획득된 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 에 대해 양자화 인코딩이 수행되어, 대응하는 인코딩된 인덱스 및 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 양자화 인코딩된 채널 조합 비율 인자 를 획득한다:
본 명세서에서, 은 스칼라 양자화에 대한 코드북이다. 양자화 인코딩은 임의의 종래의 스칼라 양자화 방법, 예를 들어, 균일 스칼라 양자화(uniform scalar quantization) 또는 불균일 스칼라 양자화(non-uniform scalar quantization)를 사용하여 수행될 수 있다. 인코딩에 사용되는 비트들의 개수는, 예를 들어, 5개의 비트이다. 특정 스칼라 양자화 방법이 본 명세서에서 또다시 설명되지 않는다.
현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 양자화 인코딩된 채널 조합 비율 인자 는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 획득된 초기 값이고, 인코딩된 인덱스 는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값에 대응하는 인코딩된 인덱스이다.
그에 부가하여, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값에 대응하는 인코딩된 인덱스는 현재 프레임의 채널 조합 스킴 플래그 의 값에 기초하여 추가로 수정될 수 있다.
예를 들어, 양자화 인코딩은 5-비트 스칼라 양자화이다. 일 때, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값에 대응하는 인코딩된 인덱스 는 미리 설정된 값(예를 들어, 15 또는 다른 값)으로 수정되고; 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값은 으로 수정될 수 있다.
전술한 계산 방법에 부가하여, 종래의 시간-도메인 스테레오 인코딩 기술에서 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하기 위한 임의의 방법이 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는데 사용될 수 있음에 유의해야 한다. 대안적으로, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값이 고정된 값(예를 들어, 0.5 또는 다른 값)으로 직접 설정될 수 있다.
906. 채널 조합 비율 인자 수정 플래그에 기초하여, 채널 조합 비율 인자가 수정될 필요가 있는지를 결정한다.
만약 그렇다면, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 인코딩된 인덱스가 수정되어, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값 및 수정된 값의 인코딩된 인덱스를 획득한다.
현재 프레임의 채널 조합 비율 인자 수정 플래그는 로서 표기된다. 예를 들어, 채널 조합 비율 인자 수정 플래그의 값이 0일 때, 이는 채널 조합 비율 인자가 수정될 필요가 없음을 나타내거나; 또는 채널 조합 비율 인자 수정 플래그의 값이 1일 때, 이는 채널 조합 비율 인자가 수정될 필요가 있음을 나타낸다. 물론, 채널 조합 비율 인자가 수정될 필요가 있는지를 나타내기 위해, 다른 상이한 값들이 채널 조합 비율 인자 수정 플래그로서 사용될 수 있다.
예를 들어, 채널 조합 비율 인자 수정 플래그에 기초하여, 채널 조합 비율 인자가 수정될 필요가 있는지를 결정하는 것은 구체적으로는: 예를 들어, 채널 조합 비율 인자 수정 플래그 이면, 채널 조합 비율 인자가 수정될 필요가 있는 것으로 결정된다는 것을 포함할 수 있다. 다른 예에 대해, 채널 조합 비율 인자 수정 플래그 이면, 채널 조합 비율 인자가 수정될 필요가 없는 것으로 결정된다.
현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 인코딩된 인덱스를 수정하는 것은 구체적으로는:
예를 들어, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값에 대응하는 인코딩된 인덱스가: 을 충족시킨다는 것을 포함할 수 있으며, 여기서 는 이전 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스이다.
현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값 는: 을 충족시킨다.
907. 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값 및 초기 값의 인코딩된 인덱스, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값 및 수정된 값의 인코딩된 인덱스, 및 채널 조합 비율 인자 수정 플래그에 기초하여 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 인코딩된 인덱스 를 결정한다.
구체적으로는, 예를 들어, 상관성 신호 채널 조합 스킴에 대응하는 결정된 채널 조합 비율 인자 는:
을 충족시키고, 여기서
는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값을 나타내고; 는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값을 나타내며; 는 현재 프레임의 채널 조합 비율 인자 수정 플래그를 나타낸다.
상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 대응하는 결정된 인코딩된 인덱스 는:
을 충족시키고, 여기서
는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 값에 대응하는 인코딩된 인덱스를 나타내고, 는 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 값에 대응하는 인코딩된 인덱스를 나타낸다.
908. 현재 프레임의 채널 조합 스킴 플래그가 반상관성 신호 채널 조합 스킴에 대응하는지를 결정하고, 만약 그렇다면, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산 및 인코딩하여, 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 인코딩된 인덱스를 획득한다.
먼저, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 데 사용되는 이력 버퍼가 리셋될 필요가 있는지가 결정될 수 있다.
예를 들어, 현재 프레임의 채널 조합 스킴 플래그 가 1과 동일하고(예를 들어, 가 1과 동일하다는 것은 현재 프레임의 채널 조합 스킴 플래그가 반상관성 신호 채널 조합 스킴에 대응한다는 것을 나타냄), 이전 프레임의 채널 조합 스킴 플래그 가 0과 동일하면(예를 들어, 가 0과 동일하다는 것은 이전 프레임의 채널 조합 스킴 플래그가 상관성 신호 채널 조합 스킴에 대응한다는 것을 나타냄), 이는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 데 사용되는 이력 버퍼가 리셋될 필요가 있다는 것을 나타낸다.
초기 채널 조합 스킴 결정 및 채널 조합 스킴 수정 결정의 프로세스들에서 이력 버퍼 리셋 플래그 가 결정될 수 있고, 이어서, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 데 사용되는 이력 버퍼가 리셋될 필요가 있는지를 결정하기 위해, 이력 버퍼 리셋 플래그의 값이 결정된다는 점에 유의해야 한다. 예를 들어, 가 1일 때, 이는 현재 프레임의 채널 조합 스킴 플래그가 반상관성 신호 채널 조합 스킴에 대응하고, 이전 프레임의 채널 조합 스킴 플래그가 상관성 신호 채널 조합 스킴에 대응한다는 것을 나타낸다. 예를 들어, 이력 버퍼 리셋 플래그 가 1과 동일할 때, 이는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 데 사용되는 이력 버퍼가 리셋될 필요가 있다는 것을 나타낸다. 많은 특정 리셋 방법들이 있다. 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 데 사용되는 이력 버퍼 내의 모든 파라미터들이 미리 설정된 초기 값들에 기초하여 리셋될 수 있다. 대안적으로, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 데 사용되는 이력 버퍼 내의 일부 파라미터들이 미리 설정된 초기 값들에 기초하여 리셋될 수 있다. 대안적으로, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 데 사용되는 이력 버퍼 내의 일부 파라미터들이 미리 설정된 초기 값들에 기초하여 리셋될 수 있고, 다른 파라미터들이 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 데 사용되는 이력 버퍼 내의 대응하는 파라미터들에 기초하여 리셋된다.
이어서, 현재 프레임의 채널 조합 스킴 플래그 가 반상관성 신호 채널 조합 스킴에 대응하는지가 추가로 결정된다. 반상관성 신호 채널 조합 스킴은 역상 스테레오 신호에 대해 시간-도메인 다운믹싱을 수행하기에 보다 적합한 채널 조합 스킴이다. 이 실시예에서, 현재 프레임의 채널 조합 스킴 플래그 일 때, 이는 현재 프레임의 채널 조합 스킴 플래그가 반상관성 신호 채널 조합 스킴에 대응한다는 것을 나타낸다. 현재 프레임의 채널 조합 스킴 플래그 일 때, 이는 현재 프레임의 채널 조합 스킴 플래그가 상관성 신호 채널 조합 스킴에 대응한다는 것을 나타낸다.
현재 프레임의 채널 조합 스킴 플래그가 반상관성 신호 채널 조합 스킴에 대응하는지를 결정하는 단계는 구체적으로는:
현재 프레임의 채널 조합 스킴 플래그의 값이 1인지를 결정하는 단계를 포함할 수 있고; 현재 프레임의 채널 조합 스킴 플래그 이면, 이는 현재 프레임의 채널 조합 스킴 플래그가 반상관성 신호 채널 조합 스킴에 대응한다는 것을 나타내고, 여기서 이 경우에, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자가 계산 및 인코딩될 수 있다.
도 9b를 참조하면, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산 및 인코딩하는 단계는, 예를 들어, 이하의 단계(9081) 내지 단계(9085)를 포함할 수 있다.
9081. 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들에 대해 신호 에너지 분석을 수행한다.
현재 프레임에서의 좌측 채널 신호의 프레임 에너지, 현재 프레임에서의 우측 채널 신호의 프레임 에너지, 현재 프레임에서의 좌측 채널의 장기 평활화된 프레임 에너지, 현재 프레임에서의 우측 채널의 장기 평활화된 프레임 에너지, 현재 프레임에서의 좌측 채널의 프레임간 에너지 차이, 및 현재 프레임에서의 우측 채널의 프레임간 에너지 차이가 개별적으로 획득된다.
예를 들어, 현재 프레임에서의 좌측 채널 신호의 프레임 에너지 은:
을 충족시키고;
현재 프레임에서의 우측 채널 신호의 프레임 에너지 은:
을 충족시키며; 여기서
은 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호를 나타내고,
은 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호를 나타낸다.
예를 들어, 현재 프레임에서의 좌측 채널의 장기 평활화된 프레임 에너지 은:
을 충족시키고, 여기서
는 이전 프레임에서의 좌측 채널의 장기 평활화된 프레임 에너지를 나타내며, A는 좌측 채널의 장기 평활화된 프레임 에너지의 업데이트 인자를 나타내고, A는, 예를 들어, 0 내지 1의 실수일 수 있고, A는, 예를 들어, 0.4와 동일할 수 있다.
예를 들어, 현재 프레임에서의 우측 채널의 장기 평활화된 프레임 에너지 는:
을 충족시키고, 여기서
는 이전 프레임에서의 우측 채널의 장기 평활화된 프레임 에너지를 나타내며, B는 우측 채널의 장기 평활화된 프레임 에너지의 업데이트 인자를 나타내고, B는, 예를 들어, 0 내지 1의 실수일 수 있고, B는, 예를 들어, 좌측 채널의 장기 평활화된 프레임 에너지의 업데이트 인자와 동일하거나 상이할 수 있으며; 예를 들어, B는 또한 0.4와 동일할 수 있다.
예를 들어, 현재 프레임에서의 좌측 채널의 프레임간 에너지 차이 는:
을 충족시킨다.
예를 들어, 현재 프레임에서의 우측 채널의 프레임간 에너지 차이 는:
를 충족시킨다.
9082. 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 및 우측 채널 신호들에 기초하여 현재 프레임에서의 기준 채널 신호를 결정한다. 기준 채널 신호는 모노 신호라고도 지칭될 수 있다. 기준 채널 신호가 모노 신호라고 지칭되면, 기준 채널에 관련된 모든 설명들 및 파라미터 명칭들에 대해, 기준 채널 신호는 모노 신호로 대체될 수 있다.
예를 들어, 기준 채널 신호 은:
을 충족시키고, 여기서
은 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호이고, 은 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호이다.
9083. 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 및 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터를 개별적으로 계산한다.
예를 들어, 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 은, 예를 들어:
을 충족시킨다.
예를 들어, 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 은, 예를 들어:
을 충족시킨다.
본 명세서에서, 은 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호를 나타내고, 은 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호를 나타내며, 은 현재 프레임에서의 기준 채널 신호를 나타내고; 는 절댓값을 채택하는 것을 나타낸다.
9084. 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 및 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터에 기초하여 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터 을 계산한다.
단계(9081)가 단계(9082) 및 단계(9083) 이전에 수행될 수 있거나, 또는 단계(9082) 및 단계(9083) 이후 그리고 단계(9084) 이전에 수행될 수 있다는 것이 이해될 수 있다.
도 9c를 참조하면, 예를 들어, 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터 을 계산하는 단계는 구체적으로는 이하의 단계(90841) 및 단계(90842)를 포함할 수 있다.
90841. 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 및 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터에 기초하여 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산한다.
예를 들어, 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산하기 위한 방법은 다음과 같은 것을 포함할 수 있다: 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 은:
을 충족시킨다.
본 명세서에서, 은 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, 는 이전 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며, 는 좌측 채널 평활화 인자를 나타내고, 는 0 내지 1의 미리 설정된 실수, 예를 들어, 0.2, 0.5, 또는 0.8일 수 있다. 대안적으로, 의 값은 적응 계산을 통해 획득될 수 있다.
예를 들어, 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 은:
을 충족시킨다.
본 명세서에서, 은 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, 는 이전 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며, 는 우측 채널 평활화 인자를 나타내고, 는 0 내지 1의 미리 설정된 실수일 수 있다. 는 좌측 채널 평활화 인자 의 값과 동일하거나 상이할 수 있고, 는, 예를 들어, 0.2, 0.5, 또는 0.8과 동일할 수 있다. 대안적으로, 의 값은 적응 계산을 통해 획득될 수 있다.
현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산하기 위한 다른 방법은:
먼저, 현재 프레임에서의 지연 정렬 프로세싱을 거친 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 을 수정하여, 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 수정된 진폭 상관 파라미터 를 획득하는 단계; 및 현재 프레임에서의 지연 정렬 프로세싱을 거친 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 을 수정하여, 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 수정된 진폭 상관 파라미터 를 획득하는 단계;
이어서, 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 수정된 진폭 상관 파라미터 , 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 수정된 진폭 상관 파라미터 , 이전 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 , 및 이전 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 에 기초하여 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 차이 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 차이 파라미터 를 결정하는 단계;
이어서, 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 차이 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 차이 파라미터 에 기초하여 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터의 초기 값 을 획득하는 단계; 및 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터의 획득된 초기 값 및 이전 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터 에 기초하여 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이의 프레임간 변동 파라미터 을 결정하는 단계; 및
마지막으로, 현재 프레임에서의 좌측 채널 신호의 프레임 에너지, 현재 프레임에서의 우측 채널 신호의 프레임 에너지, 현재 프레임에서의 좌측 채널의 장기 평활화된 프레임 에너지, 현재 프레임에서의 우측 채널의 장기 평활화된 프레임 에너지, 신호 에너지 분석으로부터 획득된 현재 프레임에서의 좌측 채널의 프레임간 에너지 차이 및 현재 프레임에서의 우측 채널의 프레임간 에너지 차이, 및 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이의 프레임간 변동 파라미터에 기초하여, 상이한 좌측 채널 평활화 인자들 및 우측 채널 평활화 인자들을 적응적으로 선택하고, 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 을 계산하는 단계를 포함할 수 있다.
위에서 예들로서 주어진 두 가지 방법에 부가하여, 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산하기 위한 많은 방법들이 있을 수 있다. 이것이 본 출원에서 제한되지 않는다.
90842. 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 차이 파라미터 및 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 차이 파라미터에 기초하여 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터 을 계산한다.
예를 들어, 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터 은:
을 충족시키고, 여기서
은 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, 은 현재 프레임에서의 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타낸다.
9085. 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 인코딩된 인덱스를 결정하기 위해, 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터 을 채널 조합 비율 인자로 변환하고 인코딩 및 양자화를 수행한다.
도 9d를 참조하면, 현재 프레임에서의 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터를 채널 조합 비율 인자로 변환하기 위한 가능한 방법은 구체적으로는 단계(90851) 내지 단계(90853)를 포함할 수 있다.
90851. 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터에 대해 매핑 프로세싱을 수행하여, 매핑 프로세싱을 거친 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터의 값 범위가 일 수 있게 해준다.
좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터에 대해 매핑 프로세싱을 수행하기 위한 방법은 이하의 단계들을 포함할 수 있다.
먼저, 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터에 대해 진폭 제한이 수행된다. 예를 들어, 좌측 채널과 우측 채널 사이의 진폭 제한된 진폭 상관 차이 파라미터 는:
을 충족시킨다.
본 명세서에서, 는 좌측 채널과 우측 채널 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최댓값을 나타내고, 은 좌측 채널과 우측 채널 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최솟값을 나타낸다. 예를 들어, 는 미리 설정된 경험치(empirical value)이고, 는 1.5, 3.0, 또는 다른 값일 수 있으며; 은 미리 설정된 경험치이고, 은 -1.5, -3.0, 또는 다른 값일 수 있으며, 여기서 이다.
이어서, 좌측 채널과 우측 채널 사이의 진폭 제한된 진폭 상관 차이 파라미터에 대해 매핑 프로세싱이 수행된다. 매핑 프로세싱을 거친 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터 는:
을 충족시키며; 여기서
이고;
이거나 이며;
이고;
이거나 이며;
이고;
이거나 이다.
본 명세서에서, 는 매핑 프로세싱을 거친 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터의 최댓값을 나타내고, 는 매핑 프로세싱을 거친 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터의 상한 임계치를 나타내며, 는 매핑 프로세싱을 거친 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터의 하한 임계치를 나타내고, 은 매핑 프로세싱을 거친 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터의 최솟값을 나타내며; 여기서
이다.
예를 들어, 본 출원의 일부 실시예들에서, 는 2.0일 수 있고, 는 1.2일 수 있으며, 는 0.8일 수 있고, 은 0.0일 수 있다. 물론, 실제 응용에서, 값들은 그러한 예로 제한되지 않는다.
는 좌측 채널과 우측 채널 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최댓값을 나타내고, 는 좌측 채널과 우측 채널 사이의 진폭 제한된 진폭 상관 차이 파라미터의 상한 임계치를 나타내며, 는 좌측 채널과 우측 채널 사이의 진폭 제한된 진폭 상관 차이 파라미터의 하한 임계치를 나타내고, 은 좌측 채널과 우측 채널 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최솟값을 나타내며; 여기서
이다.
예를 들어, 본 출원의 일부 실시예들에서, 는 1.5이고, 는 0.75이며, 는 -0.75이고, 은 -1.5이다. 물론, 실제 응용에서, 값들은 그러한 예로 제한되지 않는다.
본 출원의 일부 실시예들에서의 다른 방법은 다음과 같다: 매핑 프로세싱을 거친 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터 는:
을 충족시킨다.
본 명세서에서, 는 좌측 채널과 우측 채널 사이의 진폭 제한된 진폭 상관 차이 파라미터를 나타내고; 여기서
이다.
본 명세서에서, 는 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터의 최대 진폭을 나타내고, 는 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터의 최소 진폭을 나타낸다. 는 미리 설정된 경험치일 수 있고, 는, 예를 들어, 1.5, 3.0, 또는 0보다 큰 다른 실수일 수 있다.
90852. 매핑 프로세싱을 거친, 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터를 채널 조합 비율 인자로 변환한다.
채널 조합 비율 인자 은:
을 충족시키고, 여기서
는 코사인 연산을 나타낸다.
전술한 방법에 부가하여, 다른 방법은, 예를 들어, 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터를 채널 조합 비율 인자로 변환하는 데 사용될 수 있으며, 예를 들어:
반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자가 업데이트될 필요가 있는지는 현재 프레임에서의 좌측 채널의 장기 평활화된 프레임 에너지, 현재 프레임에서의 우측 채널의 장기 평활화된 프레임 에너지, 및 신호 에너지 분석을 통해 획득된 현재 프레임에서의 좌측 채널의 프레임간 에너지 차이, 인코더의 이력 버퍼 내의 이전 프레임의 버퍼링된 인코딩 파라미터(예를 들어, 프라이머리 채널 신호의 프레임간 상관 파라미터 및 세컨더리 채널 신호의 프레임간 상관 파라미터), 현재 프레임 및 이전 프레임의 채널 조합 스킴 플래그들, 및 현재 프레임 및 이전 프레임에 대한 반상관성 신호 채널 조합 스킴들에 대응하는 채널 조합 비율 인자들에 기초하여 결정된다.
반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자가 업데이트될 필요가 있으면, 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터는 전술한 예에서의 방법을 사용하여 채널 조합 비율 인자로 변환되고; 그렇지 않으면, 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 인코딩된 인덱스는 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 인코딩된 인덱스로서 직접 사용된다.
90853. 변환 이후에 획득되는 채널 조합 비율 인자에 대해 양자화 인코딩을 수행하고, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 결정한다.
구체적으로는, 예를 들어, 변환 이후에 획득되는 채널 조합 비율 인자에 대해 양자화 인코딩이 수행되어, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 초기 인코딩된 인덱스 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 양자화 인코딩된 초기 값 를 획득하며; 여기서
이고,
은 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 대해 스칼라 양자화를 수행하기 위한 코드북을 나타낸다.
양자화 인코딩은 종래의 기술들에서의 임의의 스칼라 양자화 방법, 예를 들어, 균일 스칼라 양자화 또는 불균일 스칼라 양자화를 사용하여 수행될 수 있다. 인코딩에 사용되는 비트들의 개수는 5개의 비트일 수 있다. 특정 방법이 본 명세서에서 설명되지 않는다. 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 대해 스칼라 양자화를 수행하기 위한 코드북은 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 대해 스칼라 양자화를 수행하기 위한 코드북과 동일하거나 상이할 수 있다. 코드북들이 동일할 때, 채널 조합 비율 인자에 대해 스칼라 양자화를 수행하는 데 사용되는 하나의 코드북만이 저장되면 된다.
이 경우에, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 양자화 인코딩된 초기 값 는:
이다.
예를 들어, 방법은: 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 양자화 인코딩된 초기 값을 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자로서 직접 사용하는 것, 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 초기 인코딩된 인덱스를 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스로서 직접 사용하는 것이다.
현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스 은: 을 충족시킨다.
현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자는:
을 충족시킨다.
예를 들어, 다른 방법은: 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스 또는 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 양자화 인코딩된 초기 값 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 초기 인코딩된 인덱스를 수정하는 것; 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정된 인코딩된 인덱스를 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스로서 사용하는 것; 및 반상관성 신호 채널 조합 스킴에 대응하는 수정된 채널 조합 비율 인자를 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자로서 사용하는 것일 수 있다.
현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스 은: 을 충족시킨다.
본 명세서에서, 은 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 초기 인코딩된 인덱스를 나타내고; 은 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스를 나타내며; 는 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 수정 인자이다. 의 값은 경험치일 수 있고, 는, 예를 들어, 0.8과 동일할 수 있다.
현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자는:
을 충족시킨다.
다른 방법은: 반상관성 신호 채널 조합 스킴에 대응하는 양자화되지 않은 채널 조합 비율 인자를 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자로서 사용하는 것이다. 환언하면, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 은:
을 충족시킨다.
그에 부가하여, 제4 방법은: 이전 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 기초하여 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 양자화되지 않은 채널 조합 비율 인자를 수정하는 것; 반상관성 신호 채널 조합 스킴에 대응하는 수정된 채널 조합 비율 인자를 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자로서 사용하는 것; 및 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자에 대해 양자화 인코딩을 수행하여, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스를 획득하는 것이다.
전술한 방법들에 부가하여, 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터를 채널 조합 비율 인자로 변환하고 인코딩 및 양자화를 수행하기 위한 많은 방법들이 있을 수 있다. 유사하게, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자 및 채널 조합 비율 인자의 인코딩된 인덱스를 결정하기 위한 많은 상이한 방법들이 있다. 이것이 본 출원에서 제한되지 않는다.
909. 이전 프레임의 채널 조합 스킴 플래그 및 현재 프레임의 채널 조합 스킴 플래그에 기초하여 코딩 모드 결정을 수행하여, 현재 프레임의 코딩 모드를 결정한다.
현재 프레임의 채널 조합 스킴 플래그는 로서 표기되고, 이전 프레임의 채널 조합 스킴 플래그는 로서 표기되며, 이전 프레임의 채널 조합 스킴 플래그와 현재 프레임의 채널 조합 스킴 플래그의 조인트 플래그(joint flag)는 로서 표기될 수 있다. 코딩 모드 결정은 조인트 플래그에 기초하여 수행될 수 있다. 세부사항들은 이하의 예에서 주어진다.
상관성 신호 채널 조합 스킴은 0에 의해 표현되고 반상관성 신호 채널 조합 스킴은 1에 의해 표현되는 것으로 가정된다. 이 경우에, 이전 프레임과 현재 프레임의 채널 조합 스킴 플래그들의 조인트 플래그는 다음과 같은 4가지 경우: (01), (11), (10), 및 (00)을 가지며, 현재 프레임의 코딩 모드는: 상관성 신호 코딩 모드, 반상관성 신호 코딩 모드, 상관성-대-반상관성 신호 코딩 스위칭 모드, 및 반상관성-대-상관성 신호 코딩 스위칭 모드로서 결정된다. 예를 들어, 이전 프레임과 현재 프레임의 채널 조합 스킴 플래그들의 조인트 플래그가 (00)이면, 이는 현재 프레임의 코딩 모드가 상관성 신호 코딩 모드임을 나타내거나; 이전 프레임과 현재 프레임의 채널 조합 스킴 플래그들의 조인트 플래그가 (11)이면, 이는 현재 프레임의 코딩 모드가 반상관성 신호 코딩 모드임을 나타내거나; 이전 프레임과 현재 프레임의 채널 조합 스킴 플래그들의 조인트 플래그가 (01)이면, 이는 현재 프레임의 코딩 모드가 상관성-대-반상관성 신호 코딩 스위칭 모드임을 나타내거나; 또는 이전 프레임과 현재 프레임의 채널 조합 스킴 플래그들의 조인트 플래그가 (10)이면, 이는 현재 프레임의 코딩 모드가 반상관성-대-상관성 신호 코딩 스위칭 모드임을 나타낸다.
910. 현재 프레임의 코딩 모드 를 획득한 후에, 인코딩 장치는, 현재 프레임에서의 프라이머리 채널 신호 및 세컨더리 채널 신호를 획득하기 위해, 현재 프레임의 코딩 모드에 대응하는 시간-도메인 다운믹스 프로세싱 방법에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행한다.
현재 프레임의 코딩 모드는 복수의 코딩 모드들 중 하나이다. 예를 들어, 복수의 코딩 모드들은 상관성-대-반상관성 신호 코딩 스위칭 모드, 반상관성-대-상관성 신호 코딩 스위칭 모드, 상관성 신호 코딩 모드, 및 반상관성 신호 코딩 모드를 포함할 수 있다. 상이한 코딩 모드들에서의 시간-도메인 다운믹스 프로세싱의 구현들에 대해서는, 전술한 실시예에서의 예들의 관련 설명들을 참조한다. 세부사항들이 본 명세서에서 또다시 설명되지 않는다.
911. 인코딩 장치는 프라이머리 채널 신호 및 세컨더리 채널 신호를 개별적으로 인코딩하여 인코딩된 프라이머리 채널 신호 및 인코딩된 세컨더리 채널 신호를 획득한다.
구체적으로는, 이전 프레임에서의 프라이머리 채널 신호 및/또는 세컨더리 채널 신호의 인코딩에서 획득된 파라미터 정보 및 프라이머리 채널 신호 및 세컨더리 채널 신호를 인코딩하기 위한 비트들의 총 개수에 기초하여 프라이머리 채널 신호의 인코딩 및 세컨더리 채널 신호의 인코딩을 위해 비트 할당이 먼저 수행될 수 있다. 이어서, 프라이머리 채널 신호와 세컨더리 채널 신호가 비트 할당의 결과에 기초하여 개별적으로 인코딩되어, 프라이머리 채널 인코딩의 인코딩된 인덱스 및 세컨더리 채널 인코딩의 인코딩된 인덱스를 획득한다. 프라이머리 채널 인코딩 및 세컨더리 채널 인코딩은 본 명세서에서 추가로 설명되지 않는 임의의 모노 오디오 인코딩 기술을 사용하여 구현될 수 있다.
912. 인코딩 장치는 채널 조합 스킴 플래그에 기초하여 채널 조합 비율 인자의 대응하는 인코딩된 인덱스를 선택하여 인코딩된 인덱스를 비트스트림에 기입하며, 인코딩된 프라이머리 채널 신호, 인코딩된 세컨더리 채널 신호, 및 현재 프레임의 채널 조합 스킴 플래그를 비트스트림에 기입한다.
구체적으로는, 예를 들어, 현재 프레임의 채널 조합 스킴 플래그 가 상관성 신호 채널 조합 스킴에 대응하면, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스 가 비트스트림에 기입되거나; 또는 현재 프레임의 채널 조합 스킴 플래그 가 반상관성 신호 채널 조합 스킴에 대응하면, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스 가 비트스트림에 기입된다. 예를 들어, 이면, 현재 프레임에 대한 상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스 가 비트스트림에 기입되거나; 또는 이면, 현재 프레임에 대한 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자의 인코딩된 인덱스 이 비트스트림에 기입된다.
그에 부가하여, 인코딩된 프라이머리 채널 신호, 인코딩된 세컨더리 채널 신호, 및 현재 프레임의 채널 조합 스킴 플래그가 비트스트림에 기입된다. 비트스트림 기입 동작을 수행하기 위한 시퀀스가 없다는 것이 이해될 수 있다.
이에 대응하여, 이하는 예를 사용하여 시간-도메인 스테레오 디코딩 시나리오를 설명한다.
도 10을 참조하면, 이하는 오디오 디코딩 방법을 추가로 제공한다. 오디오 디코딩 방법의 관련 단계들은 구체적으로는 디코딩 장치에 의해 구현될 수 있고, 이 방법은 구체적으로는 이하의 단계들을 포함할 수 있다:
1001. 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해 비트스트림에 기초하여 디코딩을 수행한다.
1002. 현재 프레임의 시간-도메인 스테레오 파라미터를 획득하기 위해 비트스트림에 기초하여 디코딩을 수행한다.
현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임의 채널 조합 비율 인자를 포함하고(비트스트림은 현재 프레임의 채널 조합 비율 인자의 인코딩된 인덱스를 포함하고, 현재 프레임의 채널 조합 비율 인자를 획득하기 위해 현재 프레임의 채널 조합 비율 인자의 인코딩된 인덱스에 기초하여 디코딩이 수행될 수 있음), 현재 프레임의 채널간 시간 차이를 추가로 포함할 수 있으며(예를 들어, 비트스트림은 현재 프레임의 채널간 시간 차이의 인코딩된 인덱스를 포함하고, 현재 프레임의 채널간 시간 차이를 획득하기 위해, 현재 프레임의 채널간 시간 차이의 인코딩된 인덱스에 기초하여 디코딩이 수행될 수 있거나; 또는 비트스트림은 현재 프레임의 채널간 시간 차이의 절댓값의 인코딩된 인덱스를 포함하고, 현재 프레임의 채널간 시간 차이의 절댓값을 획득하기 위해, 현재 프레임의 채널간 시간 차이의 절댓값의 인코딩된 인덱스에 기초하여 디코딩이 수행될 수 있음), 기타이다.
1003. 비트스트림에 기초하여, 비트스트림에 포함된 현재 프레임의 채널 조합 스킴 플래그를 획득하고, 현재 프레임에 대한 채널 조합 스킴을 결정한다.
1004. 현재 프레임에 대한 채널 조합 스킴 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 디코딩 모드를 결정한다.
현재 프레임에 대한 채널 조합 스킴 및 이전 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 디코딩 모드를 결정하는 것에 대해서는, 단계(909)에서의 현재 프레임의 코딩 모드를 결정하기 위한 방법을 참조한다. 현재 프레임의 디코딩 모드는 복수의 디코딩 모드들 중 하나이다. 예를 들어, 복수의 디코딩 모드들은 상관성-대-반상관성 신호 디코딩 스위칭 모드, 반상관성-대-상관성 신호 디코딩 스위칭 모드, 상관성 신호 디코딩 모드, 및 반상관성 신호 디코딩 모드를 포함할 수 있다. 코딩 모드들과 디코딩 모드들은 일대일 대응관계에 있다.
예를 들어, 이전 프레임과 현재 프레임의 채널 조합 스킴 플래그들의 조인트 플래그가 (00)이면, 이는 현재 프레임의 디코딩 모드가 상관성 신호 디코딩 모드임을 나타내거나; 이전 프레임과 현재 프레임의 채널 조합 스킴 플래그들의 조인트 플래그가 (11)이면, 이는 현재 프레임의 디코딩 모드가 반상관성 신호 디코딩 모드임을 나타내거나; 이전 프레임과 현재 프레임의 채널 조합 스킴 플래그들의 조인트 플래그가 (01)이면, 이는 현재 프레임의 디코딩 모드가 상관성-대-반상관성 신호 디코딩 스위칭 모드임을 나타내거나; 또는 이전 프레임과 현재 프레임의 채널 조합 스킴 플래그들의 조인트 플래그가 (10)이면, 이는 현재 프레임의 디코딩 모드가 반상관성-대-상관성 신호 디코딩 스위칭 모드임을 나타낸다.
단계(1001), 단계(1002), 그리고 단계(1003) 및 단계(1004)를 수행하기 위한 제한된 시퀀스가 없음이 이해될 수 있다.
1005. 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임의 결정된 디코딩 모드에 대응하는 시간-도메인 업믹스 프로세싱 방식을 사용하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행한다.
상이한 디코딩 모드들에서의 시간-도메인 업믹스 프로세싱의 관련 구현들에 대해서는, 전술한 실시예에서의 예들의 관련 설명들을 참조한다. 세부사항들이 본 명세서에서 또다시 설명되지 않는다.
시간-도메인 업믹스 프로세싱에 사용되는 업믹스 행렬은 현재 프레임의 획득된 채널 조합 비율 인자에 기초하여 구성된다.
현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들은 현재 프레임에서의 디코딩된 좌측 및 우측 채널 신호들로서 사용될 수 있다.
대안적으로, 현재 프레임에서의 지연 조정을 거친 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해 현재 프레임의 채널간 시간 차이에 기초하여 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들에 대해 지연 조정이 추가로 수행될 수 있고, 현재 프레임에서의 지연 조정을 거친 재구성된 좌측 및 우측 채널 신호들은 현재 프레임에서의 디코딩된 좌측 및 우측 채널 신호들로서 사용될 수 있다. 대안적으로, 현재 프레임에서의 지연 조정을 거친 재구성된 좌측 및 우측 채널 신호들에 대해 시간-도메인 포스트-프로세싱이 추가로 수행될 수 있고, 현재 프레임에서의 시간-도메인 포스트-프로세싱을 거친 재구성된 좌측 및 우측 채널 신호들은 현재 프레임에서의 디코딩된 좌측 및 우측 채널 신호들로서 사용될 수 있다.
전술한 내용은 본 출원의 실시예들에서의 방법들을 상세히 설명한다. 이하는 본 출원의 실시예들에서의 장치들을 설명한다.
도 11a를 참조하면, 본 출원의 실시예는 장치(1100)를 추가로 제공한다. 장치(1100)는:
서로 커플링된 프로세서(1110)와 메모리(1120)를 포함할 수 있고, 여기서 프로세서(1110)는 본 출원의 실시예들에서 제공되는 임의의 방법의 일부 또는 모든 단계들을 수행하도록 구성될 수 있다.
메모리(1120)는 랜덤 액세스 메모리(RAM: Random Access Memory), 판독 전용 메모리(ROM: Read-Only Memory), 소거가능 프로그래밍가능 판독 전용 메모리(EPROM: Erasable Programmable Read Only Memory), 또는 콤팩트 디스크 판독 전용 메모리(CD-ROM: Compact Disc Read-Only Memory)를 포함하지만, 이들로 제한되지 않는다. 메모리(1102)는 관련 명령어 및 관련 데이터를 저장하도록 구성된다.
물론, 장치(1100)는 데이터를 수신 및 송신하도록 구성된 트랜시버(1130)를 추가로 포함할 수 있다.
프로세서(1110)는 하나 이상의 중앙 프로세싱 유닛(CPU: Central Processing Unit)일 수 있다. 프로세서(1110)가 하나의 CPU일 때, CPU는 단일 코어 CPU일 수 있거나, 또는 다중 코어 CPU일 수 있다. 프로세서(1110)는 구체적으로는 디지털 신호 프로세서일 수 있다.
구현 프로세스에서, 전술한 방법들에서의 단계들은 프로세서(1110) 내의 하드웨어 집적 논리 회로를 사용함으로써 또는 소프트웨어 형태의 명령어들을 사용함으로써 구현될 수 있다. 프로세서(1110)는 범용 프로세서, 디지털 신호 프로세서, 응용 특정 집적 회로(application-specific integrated circuit), 필드 프로그래머블 게이트 어레이 또는 다른 프로그래머블 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 디바이스, 또는 이산 하드웨어 컴포넌트일 수 있다. 프로세서(1110)는 본 발명의 실시예들에 개시되는 방법들, 단계들, 및 논리 블록 다이어그램들을 구현 또는 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 프로세서는 임의의 종래의 프로세서 등일 수 있다. 본 발명의 실시예들을 참조하여 개시되는 방법들의 단계들이 하드웨어 디코딩 프로세서를 사용하여 직접 실행되고 완료될 수 있거나, 디코딩 프로세서 내의 하드웨어와 소프트웨어 모듈들의 조합을 사용하여 실행되고 완료될 수 있다.
소프트웨어 모듈은 랜덤 액세스 메모리, 플래시 메모리, 판독 전용 메모리, 프로그래밍가능 판독 전용 메모리, 전기적 소거가능 프로그래밍가능 메모리, 또는 레지스터와 같은, 본 기술분야에서의 성숙된(mature) 저장 매체에 위치될 수 있다. 저장 매체는 메모리(1120)에 위치된다. 예를 들어, 프로세서(1110)는 메모리(1120) 내의 정보를 판독하고, 프로세서(1110)의 하드웨어와 조합하여 전술한 방법들에서의 단계들을 완료한다.
게다가, 장치(1100)는 트랜시버(1130)를 추가로 포함할 수 있다. 트랜시버(1130)는, 예를 들어, 관련 데이터(예를 들어, 명령어, 채널 신호, 또는 비트스트림)를 수신 및 송신하도록 구성될 수 있다. 예를 들어, 장치(1100)는 도 2 내지 도 9d에 도시된 임의의 실시예에서의 대응하는 방법의 일부 또는 모든 단계들을 수행할 수 있다.
구체적으로는, 예를 들어, 장치(1100)가 전술한 인코딩의 관련 단계들을 수행할 때, 장치(1100)는 인코딩 장치(또는 오디오 인코딩 장치)라고 지칭될 수 있다. 장치(1100)가 전술한 디코딩의 관련 단계들을 수행할 때, 장치(1100)는 디코딩 장치(또는 오디오 디코딩 장치)라고 지칭될 수 있다.
도 11b를 참조하면, 장치(1100)가 인코딩 장치일 때, 예를 들어, 장치(1100)는: 마이크로폰(1140), 아날로그-디지털 변환기(1150) 등을 추가로 포함할 수 있다.
예를 들어, 마이크로폰(1140)은 아날로그 오디오 신호를 획득하기 위해 샘플링을 수행하도록 구성될 수 있다.
예를 들어, 아날로그-디지털 변환기(1150)는 아날로그 오디오 신호를 디지털 오디오 신호로 변환하도록 구성될 수 있다.
도 11c를 참조하면, 장치(1100)가 인코딩 장치일 때, 예를 들어, 장치(1100)는: 스피커(1160), 디지털-아날로그 변환기(1170) 등을 추가로 포함할 수 있다.
예를 들어, 디지털-아날로그 변환기(1170)는 디지털 오디오 신호를 아날로그 오디오 신호로 변환하도록 구성될 수 있다.
예를 들어, 스피커(1160)는 아날로그 오디오 신호를 재생하도록 구성될 수 있다.
그에 부가하여, 도 12a를 참조하면, 본 출원의 실시예는 본 출원의 실시예에서 제공되는 임의의 방법을 구현하도록 구성된 몇 개의 기능 유닛들을 포함하는 장치(1200)를 제공한다.
예를 들어, 장치(1200)가 도 2에 도시된 실시예에서의 대응하는 방법을 수행할 때, 장치(1200)는:
현재 프레임에 대한 채널 조합 스킴을 결정하고, 이전 프레임에 대한 채널 조합 스킴 및 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 코딩 모드를 결정하도록 구성된 제1 결정 유닛(1210); 및
현재 프레임에서의 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 현재 프레임의 코딩 모드에 대응하는 시간-도메인 다운믹스 프로세싱에 기초하여 현재 프레임에서의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 프로세싱을 수행하도록 구성된 인코딩 유닛(1220)을 포함할 수 있다.
그에 부가하여, 도 12b를 참조하면, 장치(1200)는 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하도록 구성된 제2 결정 유닛(1230)을 추가로 포함할 수 있다. 인코딩 유닛(1220)은 현재 프레임의 시간-도메인 스테레오 파라미터를 인코딩하도록 추가로 구성될 수 있다.
다른 예에 대해, 도 12c를 참조하면, 장치(1200)가 도 3에 도시된 실시예에서의 대응하는 방법을 수행할 때, 장치(1200)는:
비트스트림에 있는 현재 프레임의 채널 조합 스킴 플래그에 기초하여 현재 프레임에 대한 채널 조합 스킴을 결정하고; 이전 프레임에 대한 채널 조합 스킴 및 현재 프레임에 대한 채널 조합 스킴에 기초하여 현재 프레임의 디코딩 모드를 결정하도록 구성된 제3 결정 유닛(1240); 및
현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들을 획득하기 위해, 비트스트림에 기초하여 디코딩을 수행하고; 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하기 위해, 현재 프레임의 디코딩 모드에 대응하는 시간-도메인 업믹스 프로세싱에 기초하여 현재 프레임에서의 디코딩된 프라이머리 및 세컨더리 채널 신호들에 대해 시간-도메인 업믹스 프로세싱을 수행하도록 구성된 디코딩 유닛(1250)을 포함할 수 있다.
장치가 다른 방법을 수행하는 경우는 유추에 의해 추론된다.
본 출원의 실시예는 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 판독가능 저장 매체는 프로그램 코드를 저장하고, 프로그램 코드는 본 출원의 실시예들에서 제공되는 임의의 방법에서의 일부 또는 모든 단계들을 수행하기 위한 명령어들을 포함한다.
본 출원의 실시예는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 컴퓨터는 본 출원의 실시예들에서 제공되는 임의의 방법에서의 일부 또는 모든 단계들을 수행할 수 있다.
전술한 실시예들에서, 모든 실시예들의 설명은 각자의 주안점들을 가진다. 실시예에서 상세히 설명되지 않은 부분에 대해서는, 다른 실시예에서의 관련 설명을 참조한다.
본 출원에서 제공되는 몇 개의 실시예들에서, 개시된 장치가 다른 방식으로 구현될 수 있다는 것이 이해되어야 한다. 예를 들어, 설명된 장치 실시예는 예에 불과하다. 예를 들어, 유닛 구분은 논리적 기능 구분에 불과하거나 또는 실제 구현에서는 다른 구분일 수 있다. 예를 들어, 복수의 유닛들 또는 컴포넌트들이 다른 시스템에 결합 또는 통합될 수 있거나, 또는 일부 특징들이 무시되거나 수행되지 않을 수 있다. 그에 부가하여, 표시되거나 설명된 상호 간접 커플링들 또는 직접 커플링들 또는 통신 접속들은 일부 인터페이스들을 사용하여 구현될 수 있다. 장치들 또는 유닛들 사이의 간접 커플링들 또는 통신 접속들이 전자적 또는 다른 형태들로 구현될 수 있다.
분리된 부분들로서 설명된 유닛들이 물리적으로 분리되어 있을 수 있거나 그렇지 않을 수 있고, 유닛들로서 표시된 컴포넌트들이 물리적 유닛들일 수 있거나 그렇지 않을 수 있다. 구체적으로 말하면, 컴포넌트들은 하나의 위치에 위치될 수 있거나, 또는 복수의 네트워크 유닛들 상에 분산될 수 있다. 유닛들 중 일부 또는 전부가 실시예들의 해결책들의 목적들을 달성하기 위해 실제의 요구들에 따라 선택될 수 있다.
그에 부가하여, 본 발명의 실시예들에서의 기능 유닛들이 하나의 프로세싱 유닛에 통합될 수 있거나, 또는 유닛들 각각이 물리적으로 단독으로 존재할 수 있거나, 또는 2개 이상의 유닛들이 하나의 유닛으로 통합된다. 통합된 유닛이 하드웨어의 형태로 구현될 수 있거나, 또는 소프트웨어 기능 유닛의 형태로 구현될 수 있다.
통합된 유닛이 소프트웨어 기능 유닛의 형태로 구현되고 독립 제품으로서 판매되거나 사용될 때, 통합된 유닛은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 그러한 이해에 기초하여, 본 발명의 기술적 해결책들이 본질적으로, 또는 종래 기술에 기여하는 부분이, 또는 기술적 해결책들의 전부 또는 일부가 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, 본 발명의 실시예들에 설명된 방법들의 단계들의 전부 또는 일부를 수행하라고 컴퓨터 디바이스(개인 컴퓨터, 서버, 네트워크 디바이스 등일 수 있음)에 지시하기 위한 몇 개의 명령어들을 포함한다. 전술한 저장 매체는, USB 플래시 드라이브, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 이동식 하드 디스크, 자기 디스크, 또는 광학 디스크와 같은, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.

Claims (16)

  1. 시간-도메인 스테레오 파라미터 인코딩 방법으로서,
    현재 프레임에 대한 채널 조합 스킴을 결정하는 단계 - 상기 현재 프레임에 대한 상기 채널 조합 스킴은 복수의 채널 조합 스킴들 중 하나이고, 상이한 채널 조합 스킴들은 상이한 시간-도메인 다운믹스 프로세싱 방식을 가지고, 상기 복수의 채널 조합 스킴들은 반상관성(anticorrelated) 신호 채널 조합 스킴 및 상관성(correlated) 신호 채널 조합 스킴 중 적어도 하나를 포함하며, 상기 상관성 신호 채널 조합 스킴은 근사 동상 신호(near in phase signal)에 대응하는 채널 조합 스킴이고, 상기 반상관성 신호 채널 조합 스킴은 근사 역상 신호(near out of phase signal)에 대응하는 채널 조합 스킴이고, 상기 근사 동상 신호는 좌측 및 우측 채널 신호들 사이의 위상 차이가 내에 있는 스테레오 신호이고, 상기 근사 역상 신호는 좌측 및 우측 채널 신호들 사이의 위상 차이가 내에 있는 스테레오 신호임 -;
    상기 현재 프레임에 대한 상기 채널 조합 스킴에 기초하여 상기 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계 - 상기 시간-도메인 스테레오 파라미터는 채널 조합 비율 인자 및 채널간 시간 차이 중 적어도 하나를 포함함 -;
    상기 현재 프레임의 상기 결정된 시간-도메인 스테레오 파라미터를 비트스트림으로 인코딩하는 단계; 및
    상기 비트스트림을 전송 또는 저장하는 단계
    를 포함하고,
    상기 현재 프레임에 대한 상기 채널 조합 스킴에 기초하여 상기 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는:
    상기 현재 프레임에서의 좌측 채널 신호 및 우측 채널 신호에 기초하여 상기 현재 프레임에서의 기준 채널 신호를 획득하는 단계;
    상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 기준 채널 신호 사이의 진폭 상관 파라미터를 계산하는 단계;
    상기 현재 프레임에서의 상기 우측 채널 신호와 상기 기준 채널 신호 사이의 진폭 상관 파라미터를 계산하는 단계;
    상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 기준 채널 신호 사이의 상기 진폭 상관 파라미터 및 상기 현재 프레임에서의 상기 우측 채널 신호와 상기 기준 채널 신호 사이의 상기 진폭 상관 파라미터에 기초하여 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 계산하는 단계; 및
    상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터에 기초하여, 상기 현재 프레임에 대한 상기 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 단계를 포함하고,
    상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 기준 채널 신호 사이의 상기 진폭 상관 파라미터 및 상기 현재 프레임에서의 상기 우측 채널 신호와 상기 기준 채널 신호 사이의 상기 진폭 상관 파라미터에 기초하여 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 진폭 상관 차이 파라미터를 계산하는 단계는:
    상기 현재 프레임에서의 지연 정렬을 거친 상기 좌측 채널 신호와 상기 기준 채널 신호 사이의 상기 진폭 상관 파라미터에 기초하여 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터(long-term smoothed amplitude correlation parameter)를 계산하는 단계; 및 상기 현재 프레임에서의 지연 정렬을 거친 상기 우측 채널 신호와 상기 기준 채널 신호 사이의 상기 진폭 상관 파라미터에 기초하여 상기 현재 프레임에서의 상기 우측 채널 신호와 상기 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산하는 단계; 및
    상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 기준 채널 신호 사이의 상기 장기 평활화된 진폭 상관 파라미터 및 상기 현재 프레임에서의 상기 우측 채널 신호와 상기 기준 채널 신호 사이의 상기 장기 평활화된 진폭 상관 파라미터에 기초하여 상기 현재 프레임에서의 상기 좌측 채널 신호와 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터를 계산하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 현재 프레임에 대한 상기 채널 조합 스킴이 상기 상관성 신호 채널 조합 스킴일 때, 상기 현재 프레임의 상기 시간-도메인 스테레오 파라미터는 상기 현재 프레임에 대한 상기 상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터이고; 상기 현재 프레임에 대한 상기 채널 조합 스킴이 상기 반상관성 신호 채널 조합 스킴일 때, 상기 현재 프레임의 상기 시간-도메인 스테레오 파라미터는 상기 현재 프레임에 대한 상기 반상관성 신호 채널 조합 스킴에 대응하는 시간-도메인 스테레오 파라미터인, 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    이고,
    이며, A는 상기 현재 프레임에서의 상기 좌측 채널 신호의 장기 평활화된 프레임 에너지의 업데이트 인자를 나타내고, 은 상기 현재 프레임에서의 상기 좌측 채널 신호의 상기 장기 평활화된 프레임 에너지를 나타내며, 은 상기 현재 프레임에서의 상기 좌측 채널 신호의 프레임 에너지를 나타내고, 은 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 기준 채널 신호 사이의 상기 장기 평활화된 진폭 상관 파라미터를 나타내며, 는 이전 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, 는 좌측 채널 평활화 인자를 나타내며;
    이고,
    이며, B는 상기 현재 프레임에서의 상기 우측 채널 신호의 장기 평활화된 프레임 에너지의 업데이트 인자를 나타내고, 는 상기 현재 프레임에서의 상기 우측 채널 신호의 상기 장기 평활화된 프레임 에너지를 나타내며, 은 상기 현재 프레임에서의 상기 우측 채널 신호의 프레임 에너지를 나타내고, 은 상기 현재 프레임에서의 상기 우측 채널 신호와 상기 기준 채널 신호 사이의 상기 장기 평활화된 진폭 상관 파라미터를 나타내며, 는 상기 이전 프레임에서의 우측 채널 신호와 상기 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, 는 우측 채널 평활화 인자를 나타내는, 방법.
  7. 제1항에 있어서,
    이고,
    은 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 기준 채널 신호 사이의 상기 장기 평활화된 진폭 상관 파라미터를 나타내며, 은 상기 현재 프레임에서의 상기 우측 채널 신호와 상기 기준 채널 신호 사이의 상기 장기 평활화된 진폭 상관 파라미터를 나타내고, 은 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터를 나타내는, 방법.
  8. 제1항에 있어서, 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터에 기초하여, 상기 현재 프레임에 대한 상기 반상관성 신호 채널 조합 스킴에 대응하는 채널 조합 비율 인자를 계산하는 단계는:
    상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터에 대해 매핑 프로세싱을 수행하여, 상기 매핑 프로세싱을 거친, 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 진폭 상관 차이 파라미터의 값 범위가 일 수 있게 해주는 단계; 및 상기 매핑 프로세싱을 거친, 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터를 상기 채널 조합 비율 인자로 변환하는 단계를 포함하는, 방법.
  9. 제8항에 있어서, 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터에 대해 매핑 프로세싱을 수행하는 단계는: 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터에 대해 진폭 제한을 수행하는 단계; 및 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 진폭 제한된 진폭 상관 차이 파라미터에 대해 매핑 프로세싱을 수행하는 단계를 포함하는, 방법.
  10. 제9항에 있어서,
    이고,
    는 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 제한된 진폭 상관 차이 파라미터의 최댓값을 나타내며, 은 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 제한된 진폭 상관 차이 파라미터의 최솟값을 나타내고, 인, 방법.
  11. 제9항에 있어서,
    이고;
    이며;
    이거나 이고;
    이며;
    이거나 이고;
    이며;
    이거나 이고;
    는 상기 매핑 프로세싱을 거친, 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터를 나타내며,
    는 상기 매핑 프로세싱을 거친, 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터의 최댓값을 나타내고, 는 상기 매핑 프로세싱을 거친, 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터의 상한 임계치(high threshold)를 나타내고, 는 상기 매핑 프로세싱을 거친, 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터의 하한 임계치(low threshold)를 나타내며, 은 상기 매핑 프로세싱을 거친, 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터의 최솟값을 나타내고,
    이며;
    는 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 제한된 진폭 상관 차이 파라미터의 최댓값을 나타내고, 는 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 제한된 진폭 상관 차이 파라미터의 상한 임계치를 나타내며, 는 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 제한된 진폭 상관 차이 파라미터의 하한 임계치를 나타내고, 은 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 제한된 진폭 상관 차이 파라미터의 최솟값을 나타내며;
    인, 방법.
  12. 제9항에 있어서,
    이고;
    는 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 제한된 진폭 상관 차이 파라미터를 나타내며, 는 상기 매핑 프로세싱을 거친, 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터를 나타내고;
    이며;
    는 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터의 최대 진폭을 나타내고, 는 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터의 최소 진폭을 나타내는, 방법.
  13. 제8항에 있어서,
    이고;
    는 상기 매핑 프로세싱을 거친, 상기 현재 프레임에서의 상기 좌측 채널 신호와 상기 우측 채널 신호 사이의 상기 진폭 상관 차이 파라미터를 나타내며; 은 상기 현재 프레임에 대한 상기 반상관성 신호 채널 조합 스킴에 대응하는 상기 채널 조합 비율 인자를 나타내는, 방법.
  14. 시간-도메인 스테레오 파라미터 인코딩 장치로서,
    서로 커플링된 프로세서 및 메모리
    를 포함하고,
    상기 프로세서는 제1항, 제2항 및 제6항 내지 제13항 중 어느 한 항에 따른 방법을 수행하도록 구성되는, 장치.
  15. 컴퓨터 판독가능 저장 매체로서,
    상기 컴퓨터 판독가능 저장 매체는 프로그램 코드를 저장하고, 상기 프로그램 코드는 제1항, 제2항 및 제6항 내지 제13항 중 어느 한 항에 따른 방법을 수행하기 위해 사용되는 명령어들을 포함하는, 컴퓨터 판독가능 저장 매체.
  16. 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은 컴퓨터로 하여금 제1항, 제2항 및 제6항 내지 제13항 중 어느 한 항에 따른 방법을 실행하게 하도록 구성되는, 컴퓨터 프로그램.
KR1020237002600A 2017-08-10 2018-08-10 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품 KR102632523B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020247003431A KR20240016461A (ko) 2017-08-10 2018-08-10 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201710680858.0 2017-08-10
CN201710680858.0A CN109389986B (zh) 2017-08-10 2017-08-10 时域立体声参数的编码方法和相关产品
PCT/CN2018/099887 WO2019029680A1 (zh) 2017-08-10 2018-08-10 时域立体声参数的编码方法和相关产品
KR1020227008979A KR102492600B1 (ko) 2017-08-10 2018-08-10 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020227008979A Division KR102492600B1 (ko) 2017-08-10 2018-08-10 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020247003431A Division KR20240016461A (ko) 2017-08-10 2018-08-10 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품

Publications (2)

Publication Number Publication Date
KR20230020554A KR20230020554A (ko) 2023-02-10
KR102632523B1 true KR102632523B1 (ko) 2024-02-02

Family

ID=65273327

Family Applications (4)

Application Number Title Priority Date Filing Date
KR1020247003431A KR20240016461A (ko) 2017-08-10 2018-08-10 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품
KR1020207006545A KR102377434B1 (ko) 2017-08-10 2018-08-10 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품
KR1020237002600A KR102632523B1 (ko) 2017-08-10 2018-08-10 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품
KR1020227008979A KR102492600B1 (ko) 2017-08-10 2018-08-10 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020247003431A KR20240016461A (ko) 2017-08-10 2018-08-10 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품
KR1020207006545A KR102377434B1 (ko) 2017-08-10 2018-08-10 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020227008979A KR102492600B1 (ko) 2017-08-10 2018-08-10 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품

Country Status (9)

Country Link
US (2) US11727943B2 (ko)
EP (1) EP3657498B1 (ko)
JP (3) JP6977147B2 (ko)
KR (4) KR20240016461A (ko)
CN (5) CN117037814A (ko)
BR (1) BR112020002626A2 (ko)
SG (1) SG11202001144WA (ko)
TW (1) TWI691953B (ko)
WO (1) WO2019029680A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037814A (zh) * 2017-08-10 2023-11-10 华为技术有限公司 时域立体声参数的编码方法和相关产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017049396A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for time domain down mixing a stereo sound signal into primary and secondary channels using detecting an out-of-phase condition of the left and right channels
KR102377434B1 (ko) 2017-08-10 2022-03-23 후아웨이 테크놀러지 컴퍼니 리미티드 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
WO2006000842A1 (en) * 2004-05-28 2006-01-05 Nokia Corporation Multichannel audio extension
US7983922B2 (en) 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US8041042B2 (en) * 2006-11-30 2011-10-18 Nokia Corporation Method, system, apparatus and computer program product for stereo coding
KR101411901B1 (ko) 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
EP2283483B1 (en) * 2008-05-23 2013-03-13 Koninklijke Philips Electronics N.V. A parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
CN101826326B (zh) 2009-03-04 2012-04-04 华为技术有限公司 一种立体声编码方法、装置和编码器
WO2011073600A1 (fr) * 2009-12-18 2011-06-23 France Telecom Codage/decodage parametrique stereo avec optimisation du traitement de reduction des canaux
CN102157151B (zh) * 2010-02-11 2012-10-03 华为技术有限公司 一种多声道信号编码方法、解码方法、装置和系统
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
ES2553398T3 (es) 2010-11-03 2015-12-09 Huawei Technologies Co., Ltd. Codificador paramétrico para codificar una señal de audio multicanal
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
WO2012150482A1 (en) * 2011-05-04 2012-11-08 Nokia Corporation Encoding of stereophonic signals
JP5947971B2 (ja) * 2012-04-05 2016-07-06 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2840811A1 (en) * 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
CN104681029B (zh) 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
CN103700372B (zh) * 2013-12-30 2016-10-05 北京大学 一种基于正交解相关技术的参数立体声编码、解码方法
US9838819B2 (en) 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
US10109284B2 (en) * 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
CN108269577B (zh) 2016-12-30 2019-10-22 华为技术有限公司 立体声编码方法及立体声编码器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017049396A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for time domain down mixing a stereo sound signal into primary and secondary channels using detecting an out-of-phase condition of the left and right channels
KR102377434B1 (ko) 2017-08-10 2022-03-23 후아웨이 테크놀러지 컴퍼니 리미티드 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
7 kHz audio-coding within 64 kbit/s: New Annex D with stereo embedded extension. ITU-T DRAFT Study Period 2009-2012. 2012.05.08.
Bertrand Fatus. Parametric Coding for Spatial Audio. Master’s Thesis, KTH, Stockholm, Sweden. 2015.12.
KJORLING, Kristofer, et al. AC-4 - The Next Generation Audio Codec. In: Audio Engineering Society Convention 140. Audio Engineering Society, 2016.
Recommendation ITU-T G.722. 7 kHz audio-coding within 64 kbit/s. 2012.09.

Also Published As

Publication number Publication date
CN117292695A (zh) 2023-12-26
RU2020109687A (ru) 2021-09-14
TWI691953B (zh) 2020-04-21
JP7309813B2 (ja) 2023-07-18
BR112020002626A2 (pt) 2020-07-28
US11727943B2 (en) 2023-08-15
CN109389986B (zh) 2023-08-22
JP6977147B2 (ja) 2021-12-08
EP3657498B1 (en) 2024-05-08
JP2022031698A (ja) 2022-02-22
EP3657498A4 (en) 2020-08-12
CN117198302A (zh) 2023-12-08
JP2020529637A (ja) 2020-10-08
EP3657498A1 (en) 2020-05-27
JP2023129450A (ja) 2023-09-14
SG11202001144WA (en) 2020-03-30
KR102377434B1 (ko) 2022-03-23
CN117037814A (zh) 2023-11-10
CN109389986A (zh) 2019-02-26
KR20230020554A (ko) 2023-02-10
US20230352033A1 (en) 2023-11-02
US20200175998A1 (en) 2020-06-04
CN117133297A (zh) 2023-11-28
KR20200035119A (ko) 2020-04-01
WO2019029680A1 (zh) 2019-02-14
TW201911293A (zh) 2019-03-16
RU2020109687A3 (ko) 2021-12-20
KR102492600B1 (ko) 2023-01-30
KR20240016461A (ko) 2024-02-06
KR20220041233A (ko) 2022-03-31

Similar Documents

Publication Publication Date Title
KR102641952B1 (ko) 시간-도메인 스테레오 코딩 및 디코딩 방법, 및 관련 제품
KR102664355B1 (ko) 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품
US20240153511A1 (en) Time-domain stereo encoding and decoding method and related product
KR102632523B1 (ko) 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품
RU2773421C9 (ru) Способ и соответствующий продукт для определения режима кодирования/декодирования аудио
RU2772405C2 (ru) Способ стереокодирования и декодирования во временной области и соответствующий продукт
RU2773421C2 (ru) Способ и соответствующий продукт для определения режима кодирования/декодирования аудио
RU2773022C2 (ru) Способ кодирования и декодирования стерео во временной области и сопутствующий продукт
RU2773636C2 (ru) Способ кодирования стереопараметров временной области и соответствующий продукт

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant