KR20230018533A - 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품 - Google Patents

오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품 Download PDF

Info

Publication number
KR20230018533A
KR20230018533A KR1020237002377A KR20237002377A KR20230018533A KR 20230018533 A KR20230018533 A KR 20230018533A KR 1020237002377 A KR1020237002377 A KR 1020237002377A KR 20237002377 A KR20237002377 A KR 20237002377A KR 20230018533 A KR20230018533 A KR 20230018533A
Authority
KR
South Korea
Prior art keywords
channel
current frame
signal
frame
channel combining
Prior art date
Application number
KR1020237002377A
Other languages
English (en)
Other versions
KR102664355B1 (ko
Inventor
빈 왕
하이팅 리
레이 미아오
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Priority to KR1020247014827A priority Critical patent/KR20240066194A/ko
Publication of KR20230018533A publication Critical patent/KR20230018533A/ko
Application granted granted Critical
Publication of KR102664355B1 publication Critical patent/KR102664355B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

오디오 코딩 모드를 결정하는 방법 및 관련 제품이 제공된다. 상기 오디오 코딩 모드를 결정하는 방법은, 현재 프레임에 대한 채널 조합 방식을 결정하는 단계 - 현재 프레임에 대한 결정된 채널 조합 방식은 복수의 채널 조합 방식 중 하나임 -; 및 이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 코딩 모드를 결정하는 단계 - 현재 프레임의 코딩 모드는 복수의 코딩 모드 중 하나임 - 를 포함한다. 본 출원의 실시 예에서 제공되는 기술적 솔루션은 인코딩 품질을 향상시키는 데 도움이 된다.

Description

오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품{AUDIO CODING AND DECODING MODE DETERMINING METHOD AND RELATED PRODUCT}
본 출원은 오디오 인코딩 및 디코딩 기술의 분야에 관한 것으로, 특히 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품에 관한 것이다.
삶의 질이 향상됨에 따라 사람들은 고품질 오디오에 대한 요구를 증가시키고 있다. 모노(mono) 오디오와 비교하여 스테레오 오디오는 다양한 음원에 대한 방향 감각과 분배 감각을 가지며, 선명도, 명료성 및 정보의 존재감(sense of presence)을 향상시킬 수 있으므로 사람들에게 인기가 있다.
파라메트릭(parametric) 스테레오 인코딩 및 디코딩 기술에서, 스테레오 신호는 모노 신호 및 공간 인식 파라미터로 변환되고, 멀티 채널 신호는 압축된다. 이것은 일반적인 스테레오 인코딩 및 디코딩 기술이다. 그러나, 파라메트릭 스테레오 인코딩 및 디코딩 기술에서, 공간 인식 파라미터는 일반적으로 주파수 도메인에서 추출될 필요가 있고 시간-주파수 변환(transformation)이 수행될 필요가 있기 때문에, 전체 코덱의 지연이 비교적 크다. 따라서, 지연에 대한 요건이 비교적 엄격한 경우에, 시간 도메인 스테레오 인코딩 기술이 더 나은 선택이다.
종래의 시간 도메인 스테레오 인코딩 기술에서, 시간 도메인에서 2개의 모노 신호를 획득하기 위해 신호가 다운믹스(downmix)된다. 예를 들어, MS 인코딩 기술에서, 좌측 및 우측 채널 신호들는 먼저 다운믹스되어 중간 채널(Mid channel) 신호 및 사이드 채널(Side channel) 신호를 획득한다. 예를 들어 L은 좌측 채널 신호를 나타내고(indicate) R은 우측 채널 신호를 나타낸다. 이 경우, 중간 채널 신호는 0.5x(L+R)이고, 중간 채널 신호는 좌측 채널과 우측 채널 사이의 상관(correlation)에 관한 정보를 나타내고; 사이드 채널 신호는 0.5x(L-R)이며, 사이드 채널 신호는 좌측 채널과 우측 채널의 차이에 대한 정보를 나타낸다. 그리고, 중간 채널 신호와 사이드 채널 신호는 모노 인코딩 방법을 사용하여 개별적으로 인코딩되고, 중간 채널 신호는 일반적으로 더 많은 양의 비트를 사용하여 인코딩되며, 사이드 채널 신호는 일반적으로 더 적은 양의 비트를 사용하여 인코딩된다.
본 출원의 발명자들은 연구 및 실습을 통해, 종래의 시간 도메인 스테레오 인코딩 기술이 사용될 때 1차(primary) 신호의 에너지가 매우 작거나 심지어 에너지가 미싱(missing)되어, 결과적으로 최종 인코딩 품질이 저하되는 것을 발견했다.
본 출원의 실시 예들은 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품을 제공한다.
제1 측면에 따르면, 본 출원의 실시 예들은 오디오 코딩 모드를 결정하는 방법을 제공하며, 상기 방법은 현재 프레임에 대한 채널 조합 방식(channel combination scheme)을 결정하는 단계; 및 이전 프레임에 대한 채널 조합 방식 및 상기 현재 프레임에 대한 채널 조합 방식에 기반하여 상기 현재 프레임의 코딩 모드를 결정하는 단계를 포함한다.
현재 프레임의 스테레오 신호는 예를 들어 현재 프레임에서 좌측 및 우측 채널 신호들을 포함한다.
현재 프레임에 대한 채널 조합 방식은 복수의 채널 조합 방식 중 하나이다. 예를 들어, 복수의 채널 조합 방식은 반상관된 신호(anticorrelated signal) 채널 조합 방식 및 상관된 신호(correlated signal) 채널 조합 방식을 포함한다. 상관된 신호 채널 조합 방식은 거의 동위상 신호(near in phase signal)에 대응하는 채널 조합 방식이다. 반상관된 신호 채널 조합 방식은 거의 역위상 신호(near out of phase signal)에 대응하는 채널 조합 방식이다.
거의 동위상 신호에 대응하는 채널 조합 방식은 거의 동위상 신호에 적용 가능하고, 거의 역위상 신호에 대응하는 채널 조합 방식은 거의 역위상 신호에 적용 가능하다는 것을 이해할 수 있다.
현재 프레임의 코딩 모드는 복수의 코딩 모드 중 하나이다. 예를 들어, 복수의 코딩 모드는 상관 대 반상관 신호(correlated-to-anticorrelated signal) 코딩 스위칭 모드, 상관 대 반상관 신호(anticorrelated-to-correlated signal) 코딩 스위칭 모드, 상관된 신호 코딩 모드 및 반상관된 신호 코딩 모드를 포함할 수 있다.
일부 가능한 구현들에서, 상기 이전 프레임에 대한 채널 조합 방식 및 상기 현재 프레임에 대한 채널 조합 방식에 기반하여 상기 현재 프레임의 코딩 모드를 결정하는 단계는,
상기 이전 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식이고, 상기 현재 프레임에 대한 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 코딩 모드가 상기 상관 대 반상관 신호 코딩 스위칭 모드인 것으로 결정하는 단계 - 상기 상관 대 반상관 신호 코딩 스위칭 모드에서, 시간-도메인 다운믹스 처리(time-domain downmix processing)가 상기 상관된 신호 채널 조합 방식에서 상기 반상관된 신호 채널 조합 방식으로의 트랜지션(transition)에 대응하는 다운믹스 처리 방법을 사용하여 수행됨 -; 또는
상기 이전 프레임에 대한 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식이고, 상기 현재 프레임에 대한 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 코딩 모드가 상기 반상관된 신호 코딩 모드인 것으로 결정하는 단계 - 상기 반상관된 신호 코딩 모드에서, 시간-도메인 다운믹스 처리가 상기 반상관된 신호 채널 조합 방식에 대응하는 다운믹스 처리 방법을 사용하여 수행됨 -; 또는
상기 이전 프레임에 대한 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식이고, 상기 현재 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 코딩 모드가 상기 반상관 대 상관 신호 코딩 스위칭 모드인 것으로 결정하는 단계 - 상기 반상관 대 상관 신호 코딩 스위칭 모드에서, 시간-도메인 다운믹스 처리가 상기 반상관된 신호 채널 조합 방식에서 상기 상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 다운믹스 처리 방법을 사용하여 수행됨 -; 또는
상기 이전 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식이고, 상기 현재 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 코딩 모드가 상기 상관된 신호 코딩 모드인 것으로 결정하는 단계 - 상기 상관된 신호 코딩 모드에서, 시간-도메인 다운믹스 처리가 상기 상관된 신호 채널 조합 방식에 대응하는 다운믹스 처리 방법을 사용하여 수행됨 - 를 포함한다.
일부 가능한 구현들에서, 상기 방법은 상기 현재 프레임의 코딩 모드가 상기 상관된 신호 코딩 모드인 것으로 결정되는 경우, 상기 상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여 상기 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 상기 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 단계를 더 포함할 수 있다. 상기 상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 상기 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식이다.
일부 가능한 구현들에서, 상기 방법은 상기 현재 프레임의 코딩 모드가 상기 반상관된 신호 코딩 모드인 것으로 결정되는 경우, 상기 반상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여 상기 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 상기 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 단계를 더 포함할 수 있다. 상기 반상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 상기 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식이다.
일부 가능한 구현들에서, 상기 방법은 상기 현재 프레임의 코딩 모드가 상기 상관 대 반상관 신호 코딩 모드인 것으로 결정되는 경우, 상기 상관 대 반상관 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여 상기 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 상기 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 단계를 더 포함할 수 있다. 상기 상관 대 반상관 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 상기 상관된 신호 채널 조합 방식에서 상기 반상관된 신호 채널 방식으로의 트랜지션에 대응하는 시간-도메인 다운믹스 처리 방식이다.
일부 가능한 구현들에서, 상기 방법은 상기 현재 프레임의 코딩 모드가 상기 반상관 대 상관 신호 코딩 모드인 것으로 결정되는 경우, 상기 반상관 대 상관 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여 상기 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 상기 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 단계를 더 포함할 수 있다. 상기 반상관 대 상관 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 상기 반상관된 신호 채널 조합 방식에서 상기 상관된 신호 채널 방식으로의 트랜지션에 대응하는 시간-도메인 다운믹스 처리 방식이다.
상이한 코딩 모드는 일반적으로 상이한 시간-도메인 다운믹스 처리 방식에 대응하는 것으로 이해될 수 있다. 또한, 각각의 코딩 모드는 하나 이상의 시간-도메인 다운믹스 처리 방식에 대응할 수 있다.
예를 들어, 일부 가능한 구현들에서, 상기 반상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여 상기 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 1차 및 2차 채널 신호들을 획득하는 단계는, 상기 현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여, 상기 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 상기 현재 프레임에서 1차 및 2차 채널 신호들을 획득하거나; 또는 상기 이전 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여, 상기 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 상기 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 단계를 포함할 수 있다.
전술한 솔루션에서, 현재 프레임에 대한 채널 조합 방식이 결정될 필요가 있으며, 이는 현재 프레임에 대한 채널 조합 방식에 대한 복수의 가능성이 있음을 나타내는 것을 이해할 수 있다. 하나의 채널 조합 방식이 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 채널 조합 방식을 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있다. 전술한 솔루션에서, 현재 프레임의 코딩 모드는 이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 결정될 필요가 있으며, 현재 프레임의 코딩 모드에 대한 복수의 가능성이 존재한다. 하나의 코딩 모드 만이 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 코딩 모드를 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환될 수 있고, 이에 따라 인코딩 및 디코딩 품질을 향상시킬 수 있다.
구체적으로, 예를 들어, 현재 프레임에 대한 채널 조합 방식이 이전 프레임에 대한 채널 조합 방식과 상이하면, 현재 프레임의 코딩 모드는, 예를 들어, 상관 대 반상관 신호 코딩 스위칭 모드 또는 반상관 대 상관 신호 코딩 스위칭 모드일 수 있다. 이 경우에, 현재 프레임에 대한 채널 조합 방식 및 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 처리가 수행될 수 있다.
현재 프레임에 대한 채널 조합 방식과 이전 프레임에 대한 채널 조합 방식이 상이한 경우, 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 처리를 수행하는 메커니즘이 도입된다. 세그먼트화된 시간-도메인 다운믹스 처리 메커니즘은 채널 조합 방식의 원활한 트랜지션을 구현하고, 추가로 인코딩 품질을 향상시키는 데 도움이 된다.
일부 가능한 구현들에서, 상기 현재 프레임에 대한 채널 조합 방식을 결정하는 단계는, 적어도 한번 상기 현재 프레임에 대한 채널 조합 방식 결정을 수행하여상기 현재 프레임에 대한 채널 조합 방식을 결정하는 단계를 포함할 수 있다.
구체적으로, 예를 들어, 상기 현재 프레임에 대한 채널 조합 방식을 결정하는 단계는, 상기 현재 프레임에 대한 초기 채널 조합 방식 결정을 수행하여 상기 현재 프레임에 대한 초기 채널 조합 방식을 결정하는 단계; 및 상기 현재 프레임에 대한 상기 초기 채널 조합 방식에 기반하여 상기 현재 프레임에 대한 채널 조합 방식 수정 결정을 수행하여 상기 현재 프레임에 대한 상기 채널 조합 방식을 결정하는 단계를 포함한다.
예를 들어, 상기 현재 프레임에 대한 초기 채널 조합 방식 결정을 수행하는 단계는, 상기 현재 프레임에서 상기 좌측 및 우측 채널 신호들을 사용하여 상기 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형을 결정하는 단계; 및 상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형 및 상기 이전 프레임에 대한 상기 채널 조합 방식에 기반하여, 상기 현재 프레임에 대한 상기 초기 채널 조합 방식을 결정하는 단계를 포함할 수 있다. 상기 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형은 거의 동위상 신호 또는 거의 역위상 신호일 수 있다. 상기 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형은 상기 현재 프레임의 동위상/역위상의 신호 유형 플래그로 나타낼 수 있다. 구체적으로, 예를 들어, 상기 현재 프레임의 동위상/역위상의 신호 유형 플래그의 값이 "1"인 경우, 이는 상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 거의 동위상 신호임을 나타내거나; 또는 상기 현재 프레임의 동위상/역위상의 신호 유형 플래그의 값이 "0"인 경우, 이는 상기 현재 프레임에서의 상기 스테레오 신호의 동위상/역위상의 신호 유형이 거의 역위상 신호임을 나타내며; 또는 그 반대일 수도 있다(vice versa).
오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)에 대한 채널 조합 방식은 오디오 프레임의 채널 조합 방식 플래그로 나타낼 수 있다. 예를 들어, 오디오 프레임의 채널 조합 방식 플래그의 값이 "0"인 경우, 이는 오디오 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식임을 나타내거나; 또는 오디오 프레임의 채널 조합 방식 플래그의 값이 "1"인 경우, 이는 오디오 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식임을 나타낼 수 있으며; 또는 그 반대일 수도 있다.
유사하게, 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)에 대한 초기 채널 조합 방식은 오디오 프레임의 초기 채널 조합 방식 플래그로 나타낼 수 있다. 예를 들어, 오디오 프레임의 초기 채널 조합 방식 플래그의 값이 "0"인 경우, 이는 오디오 프레임에 대한 초기 채널 조합 방식이 상관된 신호 채널 조합 방식임을 나타내거나; 또는 다른 예에서, 오디오 프레임의 초기 채널 조합 방식 플래그의 값이 "1"인 경우, 이는 오디오 프레임에 대한 초기 채널 조합 방식이 반상관된 신호 채널 조합 방식임을 나타내며; 또는 그 반대일 수도 있다.
상기 현재 프레임에서 좌측 및 우측 채널 신호들을 사용하여 상기 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형을 결정하는 단계는, 상기 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 상관 값
Figure pat00001
을 계산하는 단계; 및 상기
Figure pat00002
이 제1 임계값보다 작거나 같은 경우, 상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 상기 거의 동위상 신호인 것으로 결정하거나; 또는 상기
Figure pat00003
이 상기 제1 임계값보다 큰 경우, 상기 현재 프레임에서 상기 스테레오 위상의 동위상/역위상의 신호 유형이 상기 거의 역위상 신호인 것으로 결정하는 단계를 포함할 수 있다. 또한, 상기 현재 프레임의 동위상/역위상의 신호 유형 플래그가 상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형을 나타내는데 사용되면, 상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 상기 거의 동위상 신호인 것으로 결정되는 경우, 상기 현재 프레임의 상기 동위상/역위상의 신호 유형 플래그의 값이, 상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 상기 거의 동위상 신호인 것을 나타내도록 설정될 수 있으며; 또는 상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 상기 거의 동위상 신호인 것으로 결정되는 경우, 상기 현재 프레임의 상기 동위상/역위상의 신호 유형 플래그의 값이, 상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 상기 거의 역위상 신호인 것을 나타낼 수 있도록 설정될 수 있다.
구체적으로, 예를 들어, 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)의 동위상/역위상의 신호 유형 플래그의 값이 "0"인 경우, 오디오 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 동위상 신호인 것을 나타내거나; 또는 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)의 동위상/역위상의 신호 유형 플래그의 값이 "1"인 경우, 오디오 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 역위상 신호 인 것을 나타내며; 또는 그 반대일 수도 있다.
예를 들어, 상기 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형 및 상기 이전 프레임에 대한 채널 조합 방식에 기반하여 상기 현재 프레임에 대한 초기 채널 조합 방식을 결정하는 단계는,
*상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 상기 거의 동위상 신호이고, 상기 이전 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 경우에, 상기 현재 프레임에 대한 초기 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 것으로 결정하거나; 또는 상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 상기 거의 역위상 신호이고, 상기 이전 프레임에 대한 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임에 대한 상기 초기 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 상기 거의 동위상 신호이고, 상기 이전 프레임에 대한 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 경우에, 상기 현재 프레임에서 상기 좌측 채널 신호의 신호 대 잡음비 및 상기 우측 채널 신호의 신호 대 잡음비가 모두 제2 임계값보다 작으면, 상기 현재 프레임에 대한 초기 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 것으로 결정하거나; 또는 상기 현재 프레임에서 상기 좌측 채널 신호의 신호 대 잡음비 및/또는 상기 우측 채널 신호의 신호 대 잡음비가 상기 제2 임계값보다 크거나 같으면, 상기 현재 프레임에 대한 초기 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 상기 거의 역위상 신호이고, 상기 이전 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 경우에, 상기 현재 프레임에서 상기 좌측 채널 신호의 신호 대 잡음비 및 상기 우측 채널 신호의 신호 대 잡음비가 모두 상기 제2 임계값보다 작으면, 상기 현재 프레임에 대한 초기 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 것으로 결정하거나; 또는 상기 현재 프레임에서 상기 좌측 채널 신호의 신호 대 잡음비 및/또는 상기 우측 채널 신호의 신호 대 잡음비가 상기 제2 임계값보다 크거나 같으면, 상기 현재 프레임에 대한 초기 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 것으로 결정하는 단계를 포함할 수 있다.
상기 현재 프레임에 대한 초기 채널 조합 방식에 기반하여 상기 현재 프레임에 대한 채널 조합 방식 수정 결정을 수행하는 단계는, 상기 이전 프레임의 채널 조합 비율 팩터 수정 플래그, 상기 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형, 그리고 상기 현재 프레임에 대한 초기 채널 조합 방식에 기반하여, 상기 현재 프레임에 대한 채널 조합 방식을 결정하는 단계를 포함할 수 있다.
구체적으로, 예를 들어, 상기 현재 프레임에 대한 초기 채널 조합 방식 결정의 결과에 기반하여 상기 현재 프레임에 대한 채널 조합 방식 수정 결정을 수행하는 단계는,
상기 이전 프레임의 채널 조합 비율 팩터 수정 플래그가 채널 조합 비율 팩터가 수정될 필요가 있음을 나타내면, 상기 반상관된 신호 채널 조합 방식을 상기 현재 프레임에 대한 채널 조합 방식으로 사용하거나; 또는 상기 이전 프레임의 채널 조합 비율 팩터 수정 플래그가 상기 채널 조합 비율 팩터가 수정될 필요가 없음을 나타내면, 상기 현재 프레임이 스위칭 조건을 만족하는지를 판정하고, 상기 현재 프레임이 스위칭 조건을 만족하는지를 판정한 결과에 기반하여 상기 현재 프레임에 대한 채널 조합 방식을 결정하는 단계를 포함할 수 있다.
상기 현재 프레임이 스위칭 조건을 만족하는지를 판정한 결과에 기반하여 상기 현재 프레임에 대한 채널 조합 방식을 결정하는 단계는,
상기 이전 프레임에 대한 채널 조합 방식이 상기 현재 프레임에 대한 초기 채널 조합 방식과 상이하고, 상기 현재 프레임이 상기 스위칭 조건을 만족하며, 상기 현재 프레임에 대한 초기 채널 조합 방식이 상기 상관된 신호 채널 조합 방식이고, 그리고 상기 이전 프레임에 대한 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임에 대한 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
상기 이전 프레임에 대한 채널 조합 방식이 상기 현재 프레임에 대한 초기 채널 조합 방식과 상이하고, 상기 현재 프레임이 상기 스위칭 조건을 만족하며, 상기 현재 프레임에 대한 초기 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식이고, 상기 이전 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식이며, 그리고 상기 이전 프레임의 채널 조합 비율 팩터가 제1 비율 팩터 임계값보다 작은 경우, 상기 현재 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
상기 이전 프레임에 대한 채널 조합 방식이 상기 현재 프레임에 대한 초기 채널 조합 방식과 상이하고, 상기 현재 프레임이 상기 스위칭 조건을 만족하며, 상기 현재 프레임에 대한 초기 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식이고, 상기 이전 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식이며, 그리고 상기 이전 프레임의 채널 조합 비율 팩터가 제1 비율 팩터 임계값보다 크거나 같은 경우, 상기 현재 프레임에 대한 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
(P-1)번째 대 현재 프레임((P-1)th-to-current frame)에 대한 채널 조합 방식이 P번째 대 현재 프레임(Pth-to-current frame)에 대한 초기 채널 조합 방식과 상이하고, 상기 P번째 대 현재 프레임이 상기 스위칭 조건을 만족하지 않으며, 상기 현재 프레임이 상기 스위칭 조건을 만족하고, 상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 상기 거의 동위상 신호이며, 상기 현재 프레임에 대한 초기 채널 조합 방식이 상기 상관된 신호 채널 조합 방식이고, 그리고 상기 이전 프레임에 대한 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
상기 (P-1)번째 대 현재 프레임에 대한 채널 조합 방식이 상기 P번째 대 현재 프레임에 대한 초기 채널 조합 방식과 상이하고, 상기 P번째 대 현재 프레임이 상기 스위칭 조건을 만족하지 않으며, 상기 현재 프레임이 상기 스위칭 조건을 만족하고, 상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 상기 거의 역위상 신호이며, 상기 현재 프레임에 대한 초기 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식이고, 상기 이전 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식이며, 그리고 상기 이전 프레임의 채널 조합 비율 팩터가 제2 비율 팩터 임계값보다 작은 경우, 상기 현재 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
상기 (P-1)번째 대 현재 프레임에 대한 채널 조합 방식이 상기 P번째 대 현재 프레임에 대한 초기 채널 조합 방식과 상이하고, 상기 P번째 대 현재 프레임이 상기 스위칭 조건을 만족하지 않으며, 상기 현재 프레임이 상기 스위칭 조건을 만족하고, 상기 현재 프레임에서 상기 스테레오 신호의 동위상/역위상의 신호 유형이 상기 거의 역위상 신호이며, 상기 현재 프레임에 대한 초기 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식이고, 상기 이전 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식이며, 그리고 상기 이전 프레임의 채널 조합 비율 팩터가 제2 비율 팩터 임계값보다 크거나 같은 경우, 상기 현재 프레임에 대한 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 것으로 결정하는 단계를 포함할 수 있다.
일부 가능한 구현들에서, 상기 현재 프레임이 스위칭 조건을 만족하는지를 판정하는 것은, 상기 이전 프레임에서 1차 채널 신호의 프레임 유형 및/또는 상기 이전 프레임에서 2차 채널 신호의 프레임 유형에 기반하여, 상기 현재 프레임이 상기 스위칭 조건을 만족하는지를 판정하는 것을 포함할 수 있다.
일부 가능한 구현들에서, 상기 현재 프레임이 스위칭 조건을 만족하는지를 판정하는 것은, 제1 조건, 제2 조건 및 제3 조건이 모두 만족되는 경우, 상기 현재 프레임이 상기 스위칭 조건을 만족하는 것으로 결정하거나; 또는 상기 제2 조건, 상기 제3 조건, 제4 조건 및 제5 조건이 모두 만족되는 경우, 상기 현재 프레임이 상기 스위칭 조건을 만족하는 것으로 결정하거나; 또는 제6 조건이 만족되는 경우, 상기 현재 프레임이 상기 스위칭 조건을 만족하는 것으로 결정하는 것을 포함할 수 있다.
상기 제1 조건은, 상기 이전 프레임의 이전 프레임에서 1차 채널 신호의 프레임 유형이, VOICED_CLAS 프레임, ONSET 프레임, SIN_ONSET 프레임, INACTIVE_CLAS 프레임 및 AUDIO_CLAS 프레임 중 하나이고, 상기 이전 프레임에서 상기 1차 채널 신호의 프레임 유형이 UNVOICED_CLAS 프레임 또는 VOICED_TRANSITION 프레임이거나; 또는 상기 이전 프레임의 이전 프레임에서 2차 채널 신호의 프레임 유형이 VOICED_CLAS 프레임, ONSET 프레임, SIN_ONSET 프레임, INACTIVE_CLAS 프레임 및 AUDIO_CLAS 프레임 중 어느 하나이며, 상기 이전 프레임에서 상기 2차 채널 신호의 프레임 유형이 UNVOICED_CLAS 프레임 또는 VOICED_TRANSITION 프레임인 것이다.
상기 제2 조건은, 상기 이전 프레임에서 상기 1차 채널 신호의 로우 코딩 모드(raw coding mode) 및 상기 2차 채널 신호의 로우 코딩 모드 중 어느 것도 VOICED에 대응하는 코딩 유형이 아닌 것이다.
상기 제3 조건은, 상기 이전 프레임에 의해 사용된 상기 채널 조합 방식을 사용하는, 상기 이전 프레임 이전의 연속 프레임의 수량이 미리 설정된 프레임 수량 임계값보다 큰 것이다.
상기 제4 조건은, 상기 이전 프레임에서 상기 1차 채널 신호의 프레임 유형이 UNVOICED_CLAS이거나, 상기 이전 프레임에서 상기 2차 채널 신호의 프레임 유형이 UNVOICED_CLAS인 것이다.
상기 제5 조건은, 상기 현재 프레임에서 상기 좌측 채널 신호 및 상기 우측 채널 신호의 장기 루트 평균 제곱 에너지 값(long-term root mean square energy value)이 에너지 임계값보다 작은 것이다.
상기 제6 조건은, 상기 이전 프레임에서 상기 1차 채널 신호의 프레임 유형이 음악(music) 신호이며, 상기 이전 프레임에서 상기 1차 채널 신호의 고주파수 대역의 에너지에 대한 저주파수 대역의 에너지의 비율이 제1 에너지 비율 임계값보다 크고, 상기 이전 프레임에서 상기 2차 채널 신호의 고주파수 대역의 에너지에 대한 저주파수 대역의 에너지의 비율이 제2 에너지 비율 임계값보다 큰 것이다.
현재 프레임이 스위칭 조건을 만족하는지를 판정하는 다양한 구현이 있을 수 있으며, 이는 상기 예에 제공된 방식으로 제한되지 않는 것으로 이해될 수 있다.
제2 측면에 따르면, 본 출원의 실시 예는 오디오 디코딩 모드를 결정하는 방법을 추가로 제공하며, 상기 방법은, 비트 스트림 내에 있는 현재 프레임의 채널 조합 방식 플래그에 기반하여 상기 현재 프레임에 대한 채널 조합 방식을 결정하는 단계; 및 이전 프레임에 대한 채널 조합 방식 및 상기 현재 프레임에 대한 채널 조합 방식에 기반하여 상기 현재 프레임의 디코딩 모드를 결정하는 단계를 포함한다.
현재 프레임에 대한 채널 조합 방식은 복수의 채널 조합 방식 중 하나이다. 예를 들어, 복수의 채널 조합 방식은 반상관된 신호 채널 조합 방식 및 상관된 신호 채널 조합 방식을 포함한다. 상관된 신호 채널 조합 방식은 거의 동위상 신호에 대응하는 채널 조합 방식이다. 반상관된 신호 채널 조합 방식은 거의 역위상 신호에 대응하는 채널 조합 방식이다. 거의 동위상 신호에 대응하는 채널 조합 방식은 거의 동위상 신호에 적용 가능하고, 거의 역위상 신호에 대응하는 채널 조합 방식은 거의 역위상 신호에 적용 가능하다는 것을 이해할 수 있다.
현재 프레임의 디코딩 모드는 복수의 디코딩 모드 중 하나이다. 예를 들어, 복수의 디코딩 모드는 상관 대 반상관 신호 디코딩 스위칭 모드, 상관 대 반상관 신호 디코딩 스위칭 모드, 상관된 신호 코딩 모드 및 상호 상관된 신호 디코딩 모드를 포함할 수 있다.
일부 가능한 구현들에서, 상기 이전 프레임에 대한 채널 조합 방식 및 상기 현재 프레임에 대한 채널 조합 방식에 기반하여 상기 현재 프레임의 디코딩 모드를 결정하는 단계는,
상기 이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 상기 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 디코딩 모드가 상관 대 반상관 신호 디코딩 스위칭 모드인 것으로 결정하는 단계 - 상기 상관 대 반상관 신호 디코딩 스위칭 모드에서, 시간-도메인 업믹스(upmix) 처리가 상기 상관된 신호 채널 조합 방식에서 상기 반상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -; 또는
상기 이전 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 상기 현재 프레임에 대한 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 디코딩 모드가 상기 반상관된 신호 디코딩 모드인 것으로 결정하는 단계 - 상기 반상관된 신호 디코딩 모드에서, 시간-도메인 업믹스 처리가 상기 반상관된 신호 채널 조합 방식에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -; 또는
상기 이전 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 상기 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 디코딩 모드가 반상관 대 상관 신호 디코딩 스위칭 모드인 것으로 결정하는 단계 - 상기 반상관 대 상관 신호 디코딩 스위칭 모드에서, 시간-도메인 업믹스 처리가 상기 반상관된 신호 채널 조합 방식에서 상기 상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -; 또는
상기 이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 상기 현재 프레임에 대한 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 디코딩 모드가 상기 상관된 신호 디코딩 모드인 것으로 결정하는 단계 - 상기 상관된 신호 디코딩 모드에서, 시간-도메인 업믹스 처리가 상기 상관된 신호 채널 조합 방식에 대응하는 업믹스 처리 방법을 사용하여 수행됨 - 를 포함한다.
전술한 솔루션에서, 현재 프레임에 대한 채널 조합 방식이 결정될 필요가 있으며, 이는 현재 프레임에 대한 채널 조합 방식에 대한 복수의 가능성이 있음을 나타내는 것을 이해할 수 있다. 하나의 채널 조합 방식이 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 채널 조합 방식을 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있다. 전술한 솔루션에서, 현재 프레임의 디코딩 모드는 이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 결정될 필요가 있으며, 현재 프레임의 디코딩 모드에 대한 복수의 가능성이 존재한다. 단지 하나의 디코딩 모드가 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 디코딩 모드를 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있다.
제3 측면에 따르면, 본 출원의 실시 예는 오디오 코딩 모드를 결정하는 장치를 추가로 제공하고, 상기 장치는 서로 연결된(coupled), 프로세서와 메모리를 포함한다. 상기 프로세서는 제1 측면에서의 임의 스테레오 인코딩 방법의 일부 또는 모든 단계를 수행하도록 구성될 수 있다. 본 출원의 실시 예는 오디오 인코딩 장치를 추가로 제공하고, 상기 장치는 전술한 오디오 코딩 모드를 결정하는 장치를 포함할 수 있다.
제4 측면에 따르면, 본 출원의 실시 예는 오디오 디코딩 모드를 결정하는 장치를 추가로 제공하고, 상기 장치는 서로 연결된 프로세서 및 메모리를 포함할 수 있다. 상기 프로세서는 제2 측면에서 임의의 스테레오 인코딩 방법의 일부 또는 모든 단계를 수행하도록 구성될 수 있다. 본 출원의 실시 예는 오디오 디코딩 장치를 추가로 제공하고, 상기 장치는 전술한 오디오 디코딩 모드를 결정하는 장치를 포함할 수 있다.
제5 측면에 따르면, 본 출원의 실시 예는 오디오 코딩 모드를 결정하는 장치를 제공하고, 상기 장치는 제1 측면에서 임의의 방법을 구현하도록 구성된 몇몇 기능 유닛을 포함한다.
제6 측면에 따르면, 본 출원의 실시 예는 오디오 디코딩 모드를 결정하는 장치를 제공하고, 상기 장치는 제2 측면에서 임의의 방법을 구현하도록 구성된 몇몇 기능 유닛을 포함한다.
제7 측면에 따르면, 본 출원의 실시 예는 컴퓨터가 판독 가능 저장 매체를 제공하고, 상기 컴퓨터가 판독 가능 저장 매체는 프로그램 코드를 저장하며, 상기 프로그램 코드는 제1 측면의 임의의 방법의 일부 또는 모든 단계를 실행하는데 사용되는 명령을 포함한다.
제8 측면에 따르면, 본 출원의 실시 예는 컴퓨터가 판독 가능 저장 매체를 제공하고, 상기 컴퓨터가 판독 가능 저장 매체는 프로그램 코드를 저장하며, 상기 프로그램 코드는 제2 측면의 임의의 방법의 일부 또는 모든 단계를 실행하는데 사용되는 명령을 포함한다.
제9 측면에 따르면, 본 출원의 실시 예는 컴퓨터 프로그램 제품을 제공하며, 상기 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 상기 컴퓨터는 제1 측면의 임의의 방법의 일부 또는 모든 단계를 수행하게 될 수 있다.
제10 측면에 따르면, 본 출원의 실시 예는 컴퓨터 프로그램 제품을 제공하며, 상기 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 상기 컴퓨터는 제2 측면의 임의의 방법의 일부 또는 모든 단계를 수행하게 될 수 있다.
다음은 본 출원의 실시 예 또는 배경을 설명하는데 필요한 첨부 도면을 설명한다.
도 1은 본 출원의 실시 예에 따른 거의 역위상 신호의 개략도이다.
도 2는 본 출원의 실시 예에 따른 오디오 인코딩 방법의 개략적인 흐름도이다.
도 3은 본 출원의 실시 예에 따라 오디오 디코딩 모드를 결정하는 방법의 개략적인 흐름도이다.
도 4는 본 출원의 실시 예에 따른 다른 오디오 인코딩 방법의 개략적인 흐름도이다.
도 5는 본 출원의 실시 예에 따른 오디오 디코딩 방법의 개략적인 흐름도이다.
도 6은 본 출원의 실시 예에 따른 다른 오디오 인코딩 방법의 개략적인 흐름도이다.
도 7은 본 출원의 실시 예에 따른 다른 오디오 디코딩 방법의 개략적인 흐름도이다.
도 8은 본 출원의 실시 예에 따른 시간-도메인 스테레오 파라미터 결정 방법의 개략적인 흐름도이다.
도 9a는 본 출원의 실시 예에 따른 다른 오디오 인코딩 방법의 개략적인 흐름도이다.
도 9b는 본 출원의 실시 예에 따라 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하고 인코딩하는 방법의 개략적인 흐름도이다.
도 9c는 본 출원의 실시 예에 따라 현재 프레임에서 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터를 계산하는 방법의 개략적인 흐름도이다.
도 9d는 본 출원의 실시 예에 따라 현재 프레임에서 좌측 채널과 우측 채널 사이의 진폭 상관 차이 파라미터를 채널 조합 비율 팩터로 변환하는 방법의 개략적인 흐름도이다.
도 10은 본 출원의 실시 예에 따른 다른 오디오 디코딩 방법의 개략적인 흐름도이다.
도 11a는 본 출원의 실시 예에 따른 장치의 개략도이다.
도 11b는 본 출원의 실시 예에 따른 다른 장치의 개략도이다.
도 11c는 본 출원의 실시 예에 따른 다른 장치의 개략도이다.
도 12a는 본 출원의 실시 예에 따른 다른 장치의 개략도이다.
도 12b는 본 출원의 실시 예에 따른 다른 장치의 개략도이다.
도 12c는 본 출원의 실시 예에 따른 다른 장치의 개략도이다.
다음은 본 출원의 실시 예에서의 첨부 도면을 참조하여 본 출원의 실시 예를 설명한다.
본 명세서의 청구 범위 및 청구 범위에서 언급된 용어 "포함하다(include)", "가지다(have)" 또는 그 밖의 변형은 비배타적인 포함을 포함하도록 의도된다. 예를 들어, 일련의 단계 또는 유닛을 포함하는 프로세스, 방법, 시스템, 제품 또는 장치는 열거된 단계 또는 유닛으로 제한되지 않고, 선택적으로 열거되지 않은 단계 또는 유닛을 더 포함할 수 있거나 또는 추가로 프로세스, 방법, 제품 또는 장치의 다른 고유 단계 또는 유닛을 포함한다. 또한, 용어 "제1", "제2", "제3", "제4" 등은 특정 시퀀스를 설명하는 대신 객체를 구별하기 위해 사용된다.
본 출원의 실시 예에서의 솔루션은 시간 도메인 시나리오에 특정하기 때문에, 설명의 편의를 위해 시간 도메인 신호는 간단히 "신호"로 지칭될 수 있음에 유의해야 한다. 예를 들어, 좌측 채널 시간 도메인 신호는 간단히 "좌측 채널 신호"라고 지칭될 수 있다. 다른 예에서, 우측 채널 시간 도메인 신호는 간단히 "우측 채널 신호"라고 지칭될 수 있다. 다른 예에서, 모노(mono) 시간 도메인 신호는 간단히 "모노 신호"라고 지칭될 수 있다. 다른 예에서, 기준(reference) 채널 시간 도메인 신호는 간단히 "기준 채널 신호"라고 지칭될 수 있다. 다른 예에서, 1차(primary) 채널 시간 도메인 신호는 간단히 "1차 채널 신호"라고 지칭될 수 있다. 2차(secondary) 채널 시간 도메인 신호는 간단히 "2차 채널 신호"라고 지칭될 수 있다. 다른 예에서, 중간 채널(Mid Channel) 시간 도메인 신호는 간단히 "중간 채널 신호"라고 지칭될 수 있다. 다른 예에서, 사이드 채널(Side Channel) 시간 도메인 신호는 간단히 "사이드 채널 신호"라고 지칭될 수 있다. 다른 경우는 유추하여 추론될 수 있다.
본 출원의 실시 예에서, 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호는 총칭하여 "좌측 및 우측 채널 시간 도메인 신호들(left and right channel time-domain signals)"로 지칭될 수 있거나, 또는 집합적으로 "좌측 및 우측 채널 신호들(left and right channel signals)"로 지칭될 수 있음에 유의해야 한다. 다시 말해, 좌측 및 우측 채널 시간 도메인 신호들은 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호를 포함한다. 다른 예에서, 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 시간 도메인 신호들은 현재 프레임에서 지연 정렬 처리를 거친 좌측 채널 시간 도메인 신호 및 현재 프레임에서 지연 정렬 처리를 거친 우측 채널 시간 도메인 신호를 포함한다. 유사하게, 1차 채널 신호 및 2차 채널 신호는 총칭하여 "1차 및 2차 채널 신호들(primary and secondary channel signals)"로 지칭될 수 있다. 다시 말해, 1차 및 2차 채널 신호들은 1차 채널 신호 및 2차 채널 신호를 포함한다. 다른 예에서, 1차 및 2차 채널 디코딩된 신호들(primary and secondary channel decoded signals)은 1차 채널 디코딩된 신호 및 2차 채널 디코딩된 신호를 포함한다. 다른 예에서, 좌측 및 우측 채널 재구성된 신호들(left and right channel reconstructed signals)은 좌측 채널 재구성된 신호 및 우측 채널 재구성된 신호를 포함한다. 나머지는 유추하여 추론될 수 있다.
예를 들어, 종래의 MS 인코딩 기술에서, 좌측 및 우측 채널 신호들은 먼저 다운믹스되어 중간 채널(Mid channel) 신호 및 사이드 채널(Side channel) 신호를 획득한다. 예를 들어 L은 좌측 채널 신호를 나타내고(indicate), R은 우측 채널 신호를 나타낸다. 이 경우, 중간 채널 신호는 0.5x(L+R)이고, 중간 채널 신호는 좌측 채널과 우측 채널 사이의 상관(correalation)에 관한 정보를 나타내고; 사이드 채널 신호는 0.5x(L- R)이고, 사이드 채널 신호는 좌측 채널과 우측 채널의 차이(difference)에 관한 정보를 나타낸다. 그리고, 중간 채널 신호와 사이드 채널 신호는 모노 인코딩 방식으로 개별적으로 인코딩된다. 중간 채널 신호는 일반적으로 상대적으로 많은 양의 비트를 사용하여 인코딩되고, 사이드 채널 신호는 일반적으로 상대적으로 적은 양의 비트를 사용하여 인코딩된다.
또한, 일부 솔루션에서, 인코딩 품질을 개선하기 위해, 좌측 및 우측 채널 시간 도메인 신호가 분석되어, 시간-도메인 다운믹스 처리에서 좌측 채널의 우측 채널에 대한 프로포션(proportion)을 나타내는데 사용되는 시간-도메인 스테레오 파라미터를 추출한다. 제안된 방법의 목적은, 스테레오 좌측 및 우측 채널 신호들 사이의 에너지 차이가 비교적 클 때, 시간-도메인 다운믹스 신호들에서, 1차 채널의 에너지가 증가될 수 있고, 2차 채널의 에너지가 감소될 수 있다. 예를 들어 L은 좌측 채널 신호를 나타내고, R은 우측 채널 신호를 나타낸다. 이 경우, 1차 채널(Primary channel) 신호는 Y로 표시되며(denote), 여기서 Y = 알파×L+베타×R이고, Y는 두 채널 사이의 상관에 대한 정보를 나타내며; 2차 채널(Secondary channel) 신호는 X로 표시되며, 여기서, X =알파×L-베타×R이고, X는 2개의 채널 사이의 차이에 대한 정보를 나타낸다. 여기서, 알파 및 베타는 0 내지 1의 실수이다.
도 1은 좌측 채널 신호 및 우측 채널 신호의 진폭 변동(amplitude variation)을 도시한다. 시간 도메인에서, 특정 위치에서의 좌측 채널 신호의 샘플링 포인트의 진폭의 절대값과, 대응하는 위치에서의 우측 채널 신호의 샘플링 포인트의 진폭의 절대값은 기본적으로 동일하지만, 진폭은 반대 부호를 가진다. 이것은 전형적인 거의 역위상 신호(near out of phase signal)이다. 도 1은 단지 거의 역위상 신호의 전형적인 예를 도시한다. 실제로, 거의 역위상 신호는 좌측 및 우측 채널 신호들 사이의 위상차가 약 180도인 스테레오 신호이다. 예를 들어, 좌측 및 우측 채널 신호들 사이의 위상차가 [180-θ, 180+θ] 내에 속하는 스테레오 신호는 거의 역위상 신호라고 지칭될 수 있으며, θ는 0°와 90°사이의 각도일 수 있다. 예를 들어, θ는 0°, 5°, 15°, 17°, 20°, 30°, 40° 등의 각도와 같을 수 있다.
유사하게, 거의 동위상 신호(near in phase signal)는 좌측 및 우측 채널 신호들 사이의 위상차가 대략 0도인 스테레오 신호이다. 예를 들어, 좌측 및 우측 채널 신호들 사이의 위상차가 [-θ, θ] 내에 속하는 스테레오 신호는 거의 동위상 신호라고 지칭될 수 있으며, θ는 0°와 90°사이의 각도일 수 있다. 예를 들어, θ는 0°, 5°, 15°, 17°, 20°, 30°, 40° 등의 각도와 같을 수 있다.
좌측 및 우측 채널 신호들이 거의 동위상 신호일 때, 시간-도메인 다운믹스 처리를 통해 생성된 1차 채널 신호의 에너지는 일반적으로 2차 채널 신호의 에너지보다 상당히 크다. 1차 채널 신호가 비교적 많은 양의 비트를 사용하여 인코딩되고 2차 채널 신호가 비교적 적은 양의 비트를 사용하여 인코딩되면, 더 나은 인코딩 효과가 획득될 수 있다. 그러나, 좌측 및 우측 채널 신호들이 거의 역위상 신호일 때, 동일한 시간-도메인 다운믹스 처리 방법이 사용되면, 생성된 1차 채널 신호의 에너지가 매우 작거나 손실되어 최종 인코딩 품질이 감소될 수 있다.
다음은 스테레오 인코딩 및 디코딩 품질을 향상시키는 데 도움이 되는 몇 가지 기술적 솔루션을 계속 설명한다.
본 출원의 실시 예에서 언급된 인코딩 장치 및 디코딩 장치는 음성 신호의 수집, 저장 및 외부로의 전송과 같은 기능을 갖는 장치일 수 있다. 구체적으로, 인코딩 장치 및 디코딩 장치는 예를 들어, 모다일 폰, 서버, 태블릿 컴퓨터, 개인용 컴퓨터 또는 노트북 컴퓨터일 수 있다.
본 출원의 솔루션에서, 좌측 및 우측 채널 신호들은 스테레오 신호의 좌측 및 우측 채널 신호들인 것으로 이해될 수 있다. 스테레오 신호는 원래의(original) 스테레오 신호, 또는 멀티 채널 신호에 포함된 2개의 채널 신호에 의해 형성된 스테레오 신호, 또는 멀티 채널 신호에 포함된 복수의 채널 신호들에 의해 함께 생성된 2개의 채널 신호에 의해 형성된 스테레오 신호일 수 있다. 스테레오 인코딩 방법은 또한 멀티 채널 인코딩에 사용되는 스테레오 인코딩 방법일 수 있다. 스테레오 인코딩 장치는 또한 멀티 채널 인코딩 장치에서 사용되는 스테레오 인코딩 장치일 수 있다. 스테레오 디코딩 방법은 또한 멀티 채널 디코딩에 사용되는 스테레오 디코딩 방법일 수 있다. 스테레오 디코딩 장치는 또한 멀티 채널 디코딩 장치에서 사용되는 스테레오 디코딩 장치일 수 있다. 본 출원의 실시 예에서의 오디오 인코딩 방법은 예를 들어, 스테레오 인코딩 시나리오에 특정되며, 본 출원의 실시 예에서의 오디오 디코딩 방법은 예를 들어 스테레오 디코딩 시나리오에 특정된다.
다음은 먼저 오디오 코딩 모드를 결정하는 방법을 제공하며, 상기 방법은 현재 프레임에 대한 채널 조합 방식을 결정하는 단계 및 이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 코딩 모드를 결정하는 단계를 포함한다.
도 2는 본 출원의 실시 예에 따른 오디오 인코딩 방법의 개략적인 흐름도이다. 오디오 인코딩 방법의 관련 단계는 인코딩 장치에 의해 구현될 수 있으며, 예를 들어 다음 단계를 포함할 수 있다.
201. 현재 프레임에 대한 채널 조합 방식을 결정한다.
현재 프레임에 대한 채널 조합 방식은 복수의 채널 조합 방식 중 하나이다. 예를 들어, 복수의 채널 조합 방식은 반상관된 신호 채널 조합 방식(anticorrelated signal Channel Combination Scheme) 및 상관된 신호 채널 조합 방식(correlated signal Channel Combination Scheme)을 포함한다. 상관된 신호 채널 조합 방식은 거의 동위상 신호에 대응하는 채널 조합 방식이다. 반상관된 신호 채널 조합 방식은 거의 역위상 신호에 대응하는 채널 조합 방식이다. 거의 동위상 신호에 대응하는 채널 조합 방식은 거의 동위상 신호에 적용 가능하고, 거의 역위상 신호에 대응하는 채널 조합 방식은 거의 역위상 신호에 적용 가능하다는 것을 이해할 수 있다.
202. 이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 코딩 모드를 결정한다.
또한, 현재 프레임이 제1 프레임이면(즉, 현재 프레임의 이전 프레임이 존재하지 않으면), 현재 프레임의 코딩 모드가 현재 프레임의 채널 조합 방식에 기반하여 결정될 수 있다. 다르게는, 디폴트 코딩 모드가 현재 프레임의 코딩 모드로서 사용될 수 있다.
현재 프레임의 코딩 모드는 복수의 코딩 모드 중 하나이다. 예를 들어, 복수의 코딩 모드는 상관 대 반상관 신호 코딩 스위칭 모드(correlated-to-anticorrelated signal coding switching mode), 반상관 대 상관 신호 코딩 스위칭 모드(anticorrelated-to-correlated signal coding switching mode), 상관된 신호 코딩 모드(correlated signal coding mode), 반상관된 신호 코딩 모드(anticorrelated signal coding mode) 등을 포함할 수 있다.
상관 대 반상관 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 모드는 예를 들어 "상관 대 반상관 신호 다운믹스 스위칭 모드(correlated-to-anticorrelated signal downmix switching mode)"라고 지칭될 수 있다. 반상관 대 상관 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 모드는, 예를 들어 "반상관 대 상관 신호 다운믹스 스위칭 모드"(anticorrelated-to-correlated signal downmix switching mode)라고 지칭될 수 있다. 상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 모드는 예를 들어 "상관된 신호 다운믹스 모드"(correlated signal downmix mode)라고 지칭될 수 있다. 반상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 모드는 예를 들어 "반상관된 신호 다운믹스 모드"(anticorrelated signal downmix mode)로 지칭될 수 있다.
본 출원의 이 실시 예에서, 코딩 모드, 디코딩 모드, 및 채널 조합 방식과 같은 객체의 명칭은 모두 예이며, 다른 명칭도 실제 적용에 사용될 수 있음을 이해할 수 있다.
203. 현재 프레임의 코딩 모드에 대응하는 시간-도메인 다운믹스 처리에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들을 획득한다.
시간-도메인 다운믹스 처리가 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 수행되어 현재 프레임에서 1차 및 2차 채널 신호들을 획득할 수 있으며, 1차 및 2차 채널 신호들은 추가로 인코딩되어 비트 스트림을 획득한다. 또한, 현재 프레임에 대한 채널 조합 방식 플래그(현재 프레임의 채널 조합 방식 플래그는 현재 프레임에 대한 채널 조합 방식을 나타내는데 사용됨)가 비트 스트림에 기록될 수 있으므로, 디코딩 장치는 비트 스트림에 포함된 현재 프레임의 채널 조합 방식 플래그에 기반하여 현재 프레임에 대한 채널 조합 방식을 결정한다.
이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 코딩 모드를 결정하는 다양한 특정 구현이 있을 수 있다.
구체적으로, 예를 들어, 일부 가능한 구현들에서, 이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 코딩 모드를 결정하는 단계는,
이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 경우, 현재 프레임의 코딩 모드가 상관 대 반상관 신호 코딩 스위칭 모드인 것으로 결정하는 단계 - 상관 대 반상관 신호 코딩 스위칭 모드에서, 시간-도메인 다운믹스 처리가 상관된 신호 채널 조합 방식에서 반상관된 신호 채널 조합 방식으로의 트랜지션(transition)에 대응하는 다운믹스 처리 방법을 사용하여 수행됨 -; 또는
이전 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 경우, 현재 프레임의 코딩 모드가 반상관된 신호 코딩 모드인 것으로 결정하는 단계 - 반상관된 신호 코딩 모드에서, 시간-도메인 다운믹스 처리가 반상관된 신호 채널 조합 방식에 대응하는 다운믹스 처리 방법을 사용하여 수행됨 -; 또는
이전 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 경우, 현재 프레임의 코딩 모드가 반상관 대 상관 신호 코딩 스위칭 모드인 것으로 결정하는 단계 - 반상관 대 상관 신호 코딩 스위칭 모드에서, 시간-도메인 다운믹스 처리가 반상관된 신호 채널 조합 방식에서 상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 다운믹스 처리 방법을 사용하여 수행되고, 반상관 대 상관 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 구체적으로 세그먼트화된 시간-도메인 다운믹스 방식일 수 있으며, 즉, 현재 프레임에 대한 채널 조합 방식과 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대한 세그먼트화된 시간-도메인 다운믹스 처리를 수행함 -; 또는
이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 경우, 현재 프레임의 코딩 모드가 상관된 신호 코딩 모드인 것으로 결정하는 단계 - 상관된 신호 코딩 모드에서, 시간-도메인 다운믹스 처리는 상관된 신호 채널 조합 방식에 대응하는 다운믹스 처리 방법을 사용하여 수행됨 - 를 포함한다.
상이한 코딩 모드는 일반적으로 상이한 시간-도메인 다운믹스 처리 방식에 대응하는 것으로 이해될 수 있다. 또한, 각각의 코딩 모드는 하나 이상의 시간-도메인 다운믹스 처리 방식에 대응할 수 있다.
예를 들어, 일부 가능한 구현들에서, 현재 프레임의 코딩 모드가 상관된 신호 코딩 모드인 것으로 결정되는 경우, 상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 데 사용된다. 상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식이다.
다른 예에서, 일부 가능한 구현들에서, 현재 프레임의 코딩 모드가 반상관된 신호 코딩 모드인 것으로 결정되는 경우, 반상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 데 사용된다. 반상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식이다.
다른 예에서, 일부 가능한 구현들에서, 현재 프레임의 코딩 모드가 상관 대 반상관 신호 코딩 스위칭 모드인 것으로 결정되는 경우, 상관 대 반상관 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는데 사용된다. 상관 대 반상관 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 상관된 신호 채널 조합 방식에서 반상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 시간-도메인 다운믹스 처리 방식이다. 상관 대 반상관 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 구체적으로 세그먼트화된 시간-도메인 다운믹스 방식일 수 있으며, 즉 현재 프레임에 대한 채널 조합 방식 및 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 처리를 수행할 수 있다.
다른 예에서, 일부 가능한 구현들에서, 현재 프레임의 코딩 모드가 반상관 대 상관 신호 코딩 스위칭 모드인 것으로 결정되는 경우, 반상관 대 상관 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는데 사용된다. 반상관 대 상관 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 반상관된 신호 채널 조합 방식에서 상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 시간-도메인 다운믹스 처리 방식이다.
상이한 코딩 모드는 일반적으로 상이한 시간-도메인 다운믹스 처리 방식에 대응하는 것으로 이해될 수 있다. 또한, 각각의 코딩 모드는 하나 이상의 시간-도메인 다운믹스 처리 방식에 대응할 수 있다.
예를 들어, 일부 가능한 구현들에서, 반상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 단계는, 현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들을 획득거나; 또는 현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터 및 이전 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 단계를 포함할 수 있다.
전술한 솔루션에서, 현재 프레임에 대한 채널 조합 방식이 결정될 필요가 있으며, 이는 현재 프레임에 대한 채널 조합 방식에 대한 복수의 가능성이 있음을 나타내는 것을 이해할 수 있다. 단지 하나의 채널 조합 방식이 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 채널 조합 방식을 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있다. 전술한 솔루션에서, 현재 프레임의 코딩 모드는 이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 결정될 필요가 있으며, 현재 프레임의 코딩 모드에 대한 복수의 가능성이 존재한다. 단지 하나의 코딩 모드가 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 코딩 모드를 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있다.
구체적으로, 예를 들어, 현재 프레임에 대한 채널 조합 방식이 이전 프레임에 대한 채널 조합 방식과 상이하면, 현재 프레임의 코딩 모드는, 예를 들어, 상관 대 반상관 신호 코딩 스위칭 모드 또는 반상관 대 상관 신호 코딩 스위칭 모드일 수 있는 것으로 결정될 수 있다. 이 경우에, 현재 프레임에 대한 채널 조합 방식 및 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 처리가 수행될 수 있다.
현재 프레임에 대한 채널 조합 방식과 이전 프레임에 대한 채널 조합 방식이 상이한 경우, 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 처리를 수행하는 메커니즘이 도입된다. 세그먼트화된 시간-도메인 다운믹스 처리 메커니즘은 채널 조합 방식의 원활한(smooth) 트랜지션을 구현하고 인코딩 품질을 향상시키는 데 도움이 된다.
이에 대응하여, 다음은 예를 사용하여 시간 도메인 스테레오 디코딩 시나리오를 설명한다.
도 3을 참조하면, 다음은 오디오 디코딩 모드를 결정하는 방법을 추가로 제공한다. 오디오 디코딩 모드를 결정하는 방법의 관련 단계는 디코딩 장치에 의해 구현될 수 있고, 방법은 구체적으로 다음을 포함할 수 있다.
301. 비트 스트림 내에 있는 현재 프레임의 채널 조합 방식 플래그에 기반하여 현재 프레임에 대한 채널 조합 방식을 결정한다.
302. 이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 디코딩 모드를 결정한다.
현재 프레임의 디코딩 모드는 복수의 디코딩 모드 중 하나이다. 예를 들어, 복수의 디코딩 모드는 상관 대 반상관 신호 디코딩 스위칭 모드(correlated-to-anticorrelated signal decoding switching mode), 반상관 대 상관 신호 디코딩 스위칭 모드(anticorrelated-to-correlated signal decoding switching mode), 상관된 신호 디코딩 모드(correlated signal decoding mode) 및 반상관된 신호 디코딩 모드(anticorrelated signal decoding mode) 등을 포함할 수 있다.
상관 대 반상관 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 모드는 예를 들어 "상관 대 반상관 신호 업믹스 스위칭 모드(correlated-to-anticorrelated signal upmix switching mode)"라고 지칭될 수 있다. 반상관 대 상관 신호 디코딩 스위칭 모드에 대응하는 시간 도메인 업믹스 모드는, 예를 들어 "반상관 대 상관 신호 업믹스 스위칭 모드(anticorrelated-to-correlated signal upmix switching mode)"라고 지칭될 수 있다. 상관된 신호 디코딩 모드에 대응하는 시간 도메인 업믹스 모드는 예를 들어 "상관된 신호 업믹스 모드(correlated signal upmix mode)"라고 지칭될 수 있다. 반상관된 신호 디코딩 모드에 대응하는 시간 도메인 업믹스 모드는 예를 들어 "반상관된 신호 업믹스 모드(anticorrelated signal upmix mode)"라고 지칭될 수 있다.
본 출원의 이 실시 예에서, 코딩 모드, 디코딩 모드, 및 채널 조합 방식과 같은 객체의 명칭은 모두 예이며, 다른 명칭도 실제 적용에 사용될 수 있음을 이해할 수 있다.
일부 가능한 구현들에서, 이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 디코딩 모드를 결정하는 단계는,
이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 경우, 현재 프레임의 디코딩 모드가 상관 대 반상관 신호 디코딩 스위칭 모드인 것으로 결정하는 단계 - 상관 대 반상관 신호 디코딩 스위칭 모드에서, 시간-도메인 업믹스 처리가 상관된 신호 채널 조합 방식에서 반상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -; 또는
이전 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 경우, 현재 프레임의 디코딩 모드가 반상관된 신호 디코딩 모드인 것으로 결정하는 단계 - 반상관된 신호 디코딩 모드에서, 시간-도메인 업믹스 처리는 반상관된 신호 채널 조합 방식에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -; 또는
이전 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 경우, 현재 프레임의 디코딩 모드가 반상관 대 상관 신호 디코딩 스위칭 모드인 것으로 결정하는 단계 - 반상관 대 상관 신호 디코딩 스위칭 모드에서, 시간-도메인 업믹스 처리는 반상관된 신호 채널 조합 방식에서 상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -; 또는
이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 경우, 현재 프레임의 디코딩 모드가 상관된 신호 디코딩 모드인 것으로 결정하는 단계 - 상관된 신호 디코딩 모드에서, 시간-도메인 업믹스 처리는 상관된 신호 채널 조합 방식에 대응하는 업믹스 처리 방법을 사용하여 수행됨 - 를 포함한다.
예를 들어, 현재 프레임의 디코딩 모드가 반상관된 신호 디코딩 모드인 것으로 결정하는 경우, 디코딩 장치는 반상관된 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득한다.
재구성된 좌측 및 우측 채널 신호들은 좌측 및 우측 채널 신호들로 디코딩될 수 있거나, 지연 조정 처리 및/또는 시간 도메인 후처리(post-processing)가 재구성된 좌측 및 우측 채널 신호들에 대해 수행되어, 디코딩된 좌측 및 우측 채널 신호들을 획득할 수 있다.
반상관된 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 처리 방식은 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 업믹스 처리 방식이고, 반상관된 신호 채널 조합 방식은 거의 역위상 신호에 대응하는 채널 조합 방식이다.
현재 프레임의 디코딩 모드는 복수의 디코딩 모드 중 하나일 수 있다. 예를 들어, 현재 프레임의 디코딩 모드는 상관된 신호 디코딩 모드, 반상관된 신호 디코딩 모드, 상관 대 반상관 신호 디코딩 스위칭 모드 및 반상관 대 상관 신호 디코딩 스위칭 모드 중 하나일 수 있다.
전술한 솔루션에서, 현재 프레임의 디코딩 모드가 결정될 필요가 있으며, 이는 현재 프레임의 디코딩 모드에 대한 복수의 가능성이 있음을 나타내는 것을 이해할 수 있다. 단지 하나의 디코딩 모드가 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 디코딩 모드를 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있다. 또한, 거의 역위상 신호에 대응하는 채널 조합 방식이 도입되기 때문에, 현재 프레임의 스테레오 신호가 거의 역위상 신호일 때, 보다 타깃이 되는 채널 조합 방식 및 디코딩 모드가 있으며, 이는 디코딩 품질을 향상시키는 데 도움이 된다.
다른 예로, 현재 프레임의 디코딩 모드가 상관된 신호 디코딩 모드인 것으로 결정되는 경우, 디코딩 장치는 상관된 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 처리를 사용하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득한다. 상관된 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 처리 방식은 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 업믹스 처리 방식이고, 상관된 신호 채널 조합 방식은 거의 동위상 신호에 대응하는 채널 조합 방식이다 .
다른 예를 들어, 현재 프레임의 디코딩 모드가 상관 대 반상관 신호 디코딩 스위칭 모드인 것으로 결정되는 경우, 디코딩 장치는 상관 대 반상관 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득한다. 상관 대 반상관 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 처리 방식은 상관된 신호 채널 조합 방식에서 반상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 시간-도메인 업믹스 처리 방식이다.
다른 예로, 현재 프레임의 디코딩 모드가 반상관 대 상관 신호 디코딩 스위칭 모드인 것으로 결정되는 경우, 디코딩 장치는 반상관 대 상관 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득한다. 반상관 대 상관 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 처리 방식은 반상관된 신호 채널 조합 방식에서 상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 시간-도메인 업믹스 처리 방식이다.
상이한 디코딩 모드는 일반적으로 상이한 시간-도메인 업믹스 처리 방식에 대응하는 것으로 이해될 수 있다. 또한, 각각의 디코딩 모드는 하나 이상의 시간-도메인 업믹스 처리 방식에 대응할 수 있다.
전술한 솔루션에서, 현재 프레임에 대한 채널 조합 방식이 결정될 필요가 있으며, 이는 현재 프레임에 대한 채널 조합 방식에 대한 복수의 가능성이 있음을 나타내는 것을 이해할 수 있다. 하나의 채널 조합 방식이 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 채널 조합 방식을 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있다. 전술한 솔루션에서, 현재 프레임의 디코딩 모드는 이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 결정될 필요가 있으며, 현재 프레임의 디코딩 모드에 대한 복수의 가능성이 존재한다. 단지 하나의 디코딩 모드가 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 디코딩 모드를 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있다.
또한, 디코딩 장치는 현재 프레임의 디코딩 모드에 대응하는 시간-도메인 업믹스 처리에 기반하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득한다.
다음은 예를 사용하여, 인코딩 장치에 의해 현재 프레임에 대한 채널 조합 방식을 결정하는 일부 특정 구현을 설명한다. 인코딩 장치에 의해 현재 프레임에 대한 채널 조합 방식을 결정하는 다양한 특정 구현이 있다.
예를 들어, 일부 가능한 구현들에서, 현재 프레임에 대한 채널 조합 방식을 결정하는 단계는, 적어도 한 번 현재 프레임에 대한 채널 조합 방식 결정을 수행하여 현재 프레임에 대한 채널 조합 방식을 결정하는 단계를 포함할 수 있다.
구체적으로, 예를 들어, 현재 프레임에 대한 채널 조합 방식을 결정하는 단계는, 현재 프레임에 대해 초기 채널 조합 방식 결정을 수행하여 현재 프레임에 대한 초기 채널 조합 방식을 결정하는 단계; 및 현재 프레임에 대한 초기 채널 조합 방식에 기반하여 현재 프레임에 대한 채널 조합 방식 수정 결정을 수행하여 현재 프레임에 대한 채널 조합 방식을 결정하는 단계를 포함한다. 또한, 현재 프레임에 대한 초기 채널 조합 방식은 또한 현재 프레임에 대한 채널 조합 방식으로 직접 사용될 수 있다. 다시 말해서, 현재 프레임에 대한 채널 조합 방식은 현재 프레임에 대한 초기 채널 조합 방식 결정이 수행된 후에 결정되는 현재 프레임에 대한 초기 채널 조합 방식일 수 있다.
예를 들어, 현재 프레임에 대한 초기 채널 조합 방식 결정을 수행하는 단계는, 현재 프레임에서 좌측 및 우측 채널 신호들을 사용하여 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형(signal type of in/out of phase)을 결정하는 단계; 및 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형 및 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임에 대한 초기 채널 조합 방식을 결정하는 단계를 포함한다. 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형은 거의 동위상 신호 또는 거의 역위상 신호일 수 있다. 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형은 현재 프레임의 동위상/인위상의 신호 유형 플래그(signal type of in/out of phase flag)(예를 들어, 동위상/역위상의 신호 유형 플래그은 tmp_SM_flag로 표시됨)으로 나타낼 수 있다. 구체적으로, 예를 들어, 현재 프레임의 동위상/역위상의 신호 유형 플래그의 값이 "1"인 경우, 이는 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 동위상 신호인 것을 나타내거나; 또는 현재 프레임의 동위상/역위상의 신호 유형 플래그의 값이 "0"인 경우, 이는 현재 프레임에서의 스테레오 신호의 동위상/역위상의 신호 유형이 거의 역위상 신호임을 나타내거나; 또는 그 반대일 수도 있다.
오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)에 대한 채널 조합 방식은 오디오 프레임의 채널 조합 방식 플래그로 나타낼 수 있다. 예를 들어, 오디오 프레임의 채널 조합 방식 플래그의 값이 "0"인 경우, 이는 오디오 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식임을 나타내거나; 또는 오디오 프레임의 채널 조합 방식 플래그의 값이 "1"인 경우, 이는 오디오 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식임을 나타내거나; 또는 그 반대일 수도 있다.
유사하게, 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)에 대한 초기 채널 조합 방식은 오디오 프레임의 초기 채널 조합 방식 플래그(예를 들어, 초기 채널 조합 방식 플래그는
Figure pat00004
로 표시됨)으로 나타낼 수 있다. 예를 들어, 오디오 프레임의 초기 채널 조합 방식 플래그의 값이 "0"인 경우, 이는 오디오 프레임에 대한 초기 채널 조합 방식이 상관된 신호 채널 조합 방식임을 나타내고; 또는 다른 예에서, 오디오 프레임의 초기 채널 조합 방식 플래그의 값이 "1"인 경우, 이는 오디오 프레임에 대한 초기 채널 조합 방식이 반상관된 신호 채널 조합 방식임을 나타내며; 또는 그 반대일 수도 있다.
현재 프레임에서 좌측 및 우측 채널 신호들을 사용하여 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형을 결정하는 단계는, 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 상관 값
Figure pat00005
을 계산하는 단계; 및
Figure pat00006
이 제1 임계값보다 작거나 같은 경우, 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 동위상 신호인 것으로 결정하거나,
Figure pat00007
이 제1 임계값보다 큰 경우, 현재 프레임에서 스테레오 위상의 인/아웃의 신호 유형이 거의 역위상 신호인 것으로 결정하는 단계를 포함한다. 또한, 현재 프레임의 동위상/역위상의 신호 유형 플래그가 현재 프레임에서의 스테레오 신호의 동위상/역위상의 신호 유형을 나타내는데 사용되면, 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 동위상 신호인 것으로 결정되는 경우, 현재 프레임의 동위상/역위상의 신호 유형 플래그의 값이 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 동위상 신호임을 나타내도록 설정되거나; 또는 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 역위상 신호인 것으로 결정되는 경우, 현재 프레임의 동위상/역위상의 신호 유형 플래그의 값이 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 역위상 신호임을 나타내도록 설정된다.
제1 임계값의 값 범위는 예를 들어 (0.5, 1.0)일 수 있고, 제1 임계값은 예를 들어 0.5, 0.85, 0.75, 0.65 또는 0.81과 같을 수 있다.
구체적으로, 예를 들어, 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)의 동위상/역위상의 신호 유형 플래그의 값이 "0"인 경우, 이는 오디오 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 동위상 신호임을 나타내거나; 또는 오디오 프레임(예를 들어, 이전 프레임 또는 현재 프레임)의 동위상/역위상의 신호 유형 플래그의 값이 "1"인 경우, 이는 스테레오 신호의 동위상/역위상의 신호 유형이 거의 역위상 신호임을 나타내며; 또는 그 반대일 수도 있다.
예를 들어, 현재 프레임에서의 스테레오 신호의 동위상/역위상의 신호 유형 및 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임에 대한 초기 채널 조합 방식을 결정하는 단계는,
현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 동위상 신호이고, 이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 경우, 현재 프레임에 대한 초기 채널 조합 방식이 상관된 신호 채널 조합 방식인 것으로 결정하거나; 또는 스테레오 신호의 동위상/역위상의 신호 유형이 거의 역위상 신호이고, 이전 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 경우, 현재 프레임에 대한 초기 채널 조합 방식이 반상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 동위상 신호이고, 이전 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 경우, 현재 프레임의 좌측 채널 신호의 신호 대 잡음비 및 우측 채널 신호의 신호 대 잡음비가 모두 제2 임계값보다 작으면, 현재 프레임에 대한 초기 채널 조합 방식이 상관된 신호 채널 조합 방식인 것으로 결정하거나; 또는 현재 프레임에서 좌측 채널 신호의 신호대 잡음비 및/또는 우측 채널 신호의 신호대 잡음비가 제2 임계값보다 크거나 같으면, 현재 프레임에 대한 초기 채널 조합 방식이 반상관된 신호 채널 조합 방식인 것으로 결정하거는 단계; 또는
현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 동위상 신호이고, 이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 경우, 현재 프레임의 좌측 채널 신호의 신호 대 잡음비 및 우측 채널 신호의 신호 대 잡음비가 모두 제2 임계값보다 작으면, 현재 프레임에 대한 초기 채널 조합 방식이 반상관된 신호 채널 조합 방식인 것으로 결정하거나; 또는 현재 프레임에서 좌측 채널 신호의 신호대 잡음비 및/또는 우측 채널 신호의 신호대 잡음비가 제2 임계값보다 크거나 같으면, 현재 프레임에 대한 초기 채널 조합 방식이 상관된 신호 채널 조합 방식인 것으로 결정하거는 단계를 포함할 수 있다.
제2 임계값의 값 범위는 예를 들어 [0.8, 1.2]일 수 있고, 제2 임계값은 예를 들어 0.8, 0.85, 0.9, 1, 1.1 또는 1.18과 같을 수 있다.
현재 프레임에 대한 초기 채널 조합 방식에 기반하여 현재 프레임에 대한 채널 조합 방식 수정 결정을 수행하는 단계는, 이전 프레임의 채널 조합 비율 팩터 수정 플래그, 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형, 그리고 현재 프레임에 대한 초기 채널 조합 방식에 기반하여, 현재 프레임에 대한 채널 조합 방식을 결정하는 단계를 포함할 수 있다.
현재 프레임의 채널 조합 방식 플래그는
Figure pat00008
로 표시될 수 있고, 현재 프레임의 채널 조합 비율 팩터 수정 플래그는
Figure pat00009
로 표시될 수 있다. 예를 들어, 채널 조합 비율 팩터 수정 플래그의 값이 0인 경우, 이는 채널 조합 비율 팩터가 수정될 필요가 없음을 나타내고; 또는 채널 조합 비율 수정 플래그의 값이 1인 경우, 이는 채널 조합 비율이 수정될 필요가 있음을 나타낸다. 물론, 다른 상이한 값이 채널 조합 비율 팩터 수정 플래그로서 사용되어 채널 조합 비율 팩터가 수정될 필요가 있는지를 나타낼 수 있다.
구체적으로, 예를 들어, 현재 프레임에 대한 초기 채널 조합 방식 결정의 결과에 기반하여 현재 프레임에 대한 채널 조합 방식 수정 결정을 수행하는 단계는,
이전 프레임의 채널 조합 비율 팩터 수정 플래그가 채널 조합 비율 팩터가 수정될 필요가 있음을 나타내면, 반상관된 신호 채널 조합 방식을 현재 프레임에 대한 채널 조합 방식으로 사용하거나; 또는 이전 프레임의 채널 조합 비율 팩터 수정 플래그가 채널 조합 비율 팩터가 수정될 필요가 없음을 나타내면, 현재 프레임이 스위칭 조건을 만족하는지를 판정하고, 현재 프레임이 스위칭 조건을 만족하는지를 판정한 결과에 기반하여 현재 프레임에 대한 채널 조합 방식을 결정하는 단계를 포함할 수 있다.
현재 프레임이 스위칭 조건을 만족하는지를 판정한 결과에 기반하여 현재 프레임에 대한 채널 조합 방식을 결정하는 단계는,
이전 프레임에 대한 채널 조합 방식이 현재 프레임에 대한 초기 채널 조합 방식과 상이하고, 현재 프레임이 스위칭 조건을 만족하고, 현재 프레임에 대한 초기 채널 조합 방식이 상관된 신호 채널 조합 방식이며, 이전 프레임에 대한 채널 조합 방식은 반상관된 신호 채널 조합 방식인 경우, 현재 프레임에 대한 채널 조합 방식은 반상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
이전 프레임에 대한 채널 조합 방식이 현재 프레임에 대한 초기 채널 조합 방식과 상이하고, 현재 프레임이 스위칭 조건을 만족하며, 현재 프레임에 대한 초기 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식이며, 이전 프레임의 채널 조합 비율 팩터가 제1 비율 팩터 임계값보다 작은 경우, 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
이전 프레임에 대한 채널 조합 방식이 현재 프레임에 대한 초기 채널 조합 방식과 상이하고, 현재 프레임이 스위칭 조건을 만족하며, 현재 프레임에 대한 초기 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식이며, 이전 프레임의 채널 조합 비율 팩터가 제1 비율 팩터 임계값보다 크거나 같은 경우, 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
(P-1)번째 대 현재 프레임((P-1)th-to-current frame)에 대한 채널 조합 방식이 P번째 대 현재 프레임에 대한 초기 채널 조합 방식과 상이하고, P번째 대 현재 프레임(Pth-to-current frame)이 스위칭 조건을 만족하지 않으며, 현재 프레임은 스위칭 조건을 만족하고, 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 동위상 신호이며, 현재 프레임의 초기 채널 조합 방식은 상관된 신호 채널 조합 방식이고, 이전 프레임에 대한 채널 조합 방식은 반상관된 신호 채널 조합 방식인 경우, 현재 프레임에 대한 채널 조합 방식은 상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
(P-1)번째 대 현재 프레임에 대한 채널 조합 방식이 P번째 대 현재 프레임에 대한 초기 채널 조합 방식과 상이하고, P번째 대 현재 프레임이 스위칭 조건을 만족하지 않으며, 현재 프레임은 스위칭 조건을 만족하고, 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 역위상 신호이며, 현재 프레임의 초기 채널 조합 방식은 반상관된 신호 채널 조합 방식이고, 이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 이전 프레임의 채널 조합 비율 팩터는 제2 비율 팩터 임계값보다 작은 경우, 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 것으로 결정하는 단계; 또는
(P-1)번째 대 현재 프레임에 대한 채널 조합 방식이 P번째 대 현재 프레임에 대한 초기 채널 조합 방식과 상이하고, P번째 대 현재 프레임이 스위칭 조건을 만족하지 않으며, 현재 프레임은 스위칭 조건을 만족하고, 현재 프레임에서 스테레오 신호의 동위상/역위상의 신호 유형이 거의 역위상 신호이며, 현재 프레임의 초기 채널 조합 방식은 반상관된 신호 채널 조합 방식이고, 이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 이전 프레임의 채널 조합 비율 팩터는 제2 비율 팩터 임계값보다 크거나 같은 경우, 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 것으로 결정하는 단계를 포함할 수 있다.
여기서, P는 1보다 큰 정수일 수 있다. 예를 들어, P는 2, 3, 4, 5, 6 또는 다른 값과 같을 수 있다.
제1 비율 팩터 임계값의 값 범위는 예를 들어 [0.4, 0.6]일 수 있고, 제1 비율 팩터 임계값은 예를 들어 0.4, 0.45, 0.5, 0.55 또는 0.6과 같을 수 있다.
제2 비율 팩터 임계값의 값 범위는 예를 들어 [0.4, 0.6]일 수 있고, 제2 비율 팩터 임계값은 예를 들어 0.4, 0.46, 0.5, 0.56 또는 0.6과 같을 수 있다.
일부 가능한 구현들에서, 현재 프레임이 스위칭 조건을 만족하는지를 판정하는 단계는, 이전 프레임에서의 1차 채널 신호의 프레임 유형 및/또는 이전 프레임에서의 2차 채널 신호의 프레임 유형에 기반하여, 현재 프레임이 스위칭 조건을 만족하는지를 판정하는 단계를 포함할 수 있다.
일부 가능한 구현들에서, 현재 프레임이 스위칭 조건을 만족하는지를 판정하는 단계는,
제1 조건, 제2 조건 및 제3 조건이 모두 만족되는 경우, 현재 프레임이 스위칭 조건을 만족하는 것으로 결정하거나; 또는 제2 조건, 제3 조건, 제4 조건 및 제5 조건이 모두 만족되는 경우, 현재 프레임이 스위칭 조건을 만족하는 것으로 결정하거나; 또는 제6 조건이 만족되는 경우, 현재 프레임이 스위칭 조건을 만족하는 것으로 결정하는 단계를 포함할 수 있다.
제1 조건은, 이전 프레임의 이전 프레임에서 1차 채널 신호의 프레임 유형이, VOICED_CLAS 프레임(유성 프레임(voiced frame) 또는 유성 시작 프레임(voiced onset frame)을 따르는 유성 특성을 가지는 프레임), ONSET 프레임(유성 시작 프레임), SIN_ONSET 프레임(고조파(harmonic)와 노이즈가 혼합된 시작(onset) 프레임), INACTIVE_CLAS 프레임(비활성(inactive) 특성을 가지는 프레임) 및 AUDIO_CLAS(오디오 프레임) 중 하나이고, 이전 프레임에서의 1차 채널 신호의 프레임 유형이 UNVOICED_CLAS 프레임(무성(unvoiced), 비활성, 노이즈 또는 유성과 같은 여러 특성 중 하나로 끝나는 프레임) 또는 VOICED_TRANSITION 프레임(유성음(voiced sound) 후 트랜지션을 가지는 프레임이며, 상기 프레임은 상당히 약한 유성(voiced) 특성을 가지고 있음)이거나; 또는 이전 프레임의 이전 프레임에서 2차 채널 신호의 프레임 유형은 VOICED_CLAS 프레임, ONSET 프레임, SIN_ONSET 프레임, INACTIVE_CLAS 프레임 및 AUDIO_CLAS 프레임 중 어느 하나이며, 이전 프레임의 2차 채널 신호는 UNVOICED_CLAS 프레임 또는 VOICED_TRANSITION 프레임인 것이다.
제2 조건은 이전 프레임에서 1차 채널 신호의 로우(raw) 코딩 모드(raw coding mode) 및 2차 채널 신호의 로우 코딩 모드 중 어느 것도 VOICED(유성 프레임에 대응하는 코딩 유형)가 아닌 것이다.
제3 조건은 이전 프레임에 의해 사용된 채널 조합 방식을 사용하는 이전 프레임 이전의 연속 프레임의 수량이 미리 설정된 프레임 수량 임계값보다 큰 것이다. 프레임 수량 임계값의 값 범위는 예를 들어 [3, 10]일 수 있다. 예를 들어, 프레임 수량 임계값은 3, 4, 5, 6, 7, 8, 9 또는 다른 값과 같을 수 있다.
제4 조건은, 이전 프레임에서 1차 채널 신호의 프레임 유형이 UNVOICED_CLAS이거나, 이전 프레임에서 2차 채널 신호의 프레임 유형이 UNVOICED_CLAS인 것이다.
제5 조건은, 현재 프레임에서 좌측 및 우측 채널 신호들의 장기 루트 평균 제곱 에너지 값(long-term root mean square energy value)이 에너지 임계값보다 작은 것이다. 에너지 임계값의 값 범위는 예를 들어 [300, 500]일 수 있다. 예를 들어, 에너지 임계값은 300, 400, 410, 451, 482, 500, 415 또는 다른 값과 같을 수 있다.
제6 조건은, 이전 프레임에서 1차 채널 신호의 프레임 유형이 음악(music) 신호이며, 이전 프레임에서 1차 채널 신호의 고주파수 대역의 에너지에 대한 저주파수 대역의 에너지의 비율이 제1 에너지 비율 임계값보다 크고, 이전 프레임에서 2차 채널 신호의 고주파수 대역의 에너지에 대한 저주파수 대역의 에너지의 비율이 제2 에너지 비율 임계값보다 큰 것이다.
제1 에너지 비율 임계값의 범위는 예를 들어 [4000, 6000]일 수 있다. 예를 들어, 제1 에너지 비율 임계값은 4000, 4500, 5000, 5105, 5200, 6000, 5800 또는 다른 값과 같을 수 있다.
제2 에너지 비율 임계값의 범위는 예를 들어 [4000, 6000]일 수 있다. 예를 들어, 제2 에너지 비율 임계값은 4000, 4501, 5000, 5105, 5200, 6000, 5800 또는 다른 값과 같을 수 있다.
현재 프레임이 스위칭 조건을 만족하는지를 판정하는 다양한 구현이 있을 수 있으며, 이는 상기 예에 제공된 방식으로 제한되지 않는 것으로 이해될 수 있다.
현재 프레임에 대한 채널 조합 방식을 결정하는 일부 구현들이 전술한 예에서 제공되지만, 실제 적용은 전술한 예에서의 방식으로 제한되지 않을 수 있다는 것이 이해될 수 있다.
다음은 예를 추가로 사용하여 반상관된 신호 코딩 모드에 대한 시나리오를 설명한다.
도 4를 참조하면, 본 출원의 실시 예는 오디오 인코딩 방법을 제공한다. 오디오 인코딩 방법의 관련 단계는 인코딩 장치에 의해 구현될 수 있고, 상기 방법은 구체적으로 다음을 포함할 수 있다 :
401. 현재 프레임의 코딩 모드를 결정한다.
402. 현재 프레임의 코딩 모드가 반상관된 신호 코딩 모드인 것으로 결정되는 경우, 반상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들을 획득한다.
403. 현재 프레임에서 획득된 1차 및 2차 채널 신호들을 인코딩한다.
반상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식이고, 반상관된 신호 채널 조합 방식은 거의 역위상 신호에 대응하는 채널 조합 방식이다.
예를 들어, 일부 가능한 구현들에서, 반상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 단계는, 현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여 현재 프레임에서 1차 및 2차 채널 신호들을 획득하거나; 또는 현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터 및 이전 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여, 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 단계를 포함할 수 있다.
오디오 프레임(예를 들어, 현재 프레임 또는 이전 프레임)에 대한 채널 조합 방식(예를 들어, 반상관된 신호 채널 조합 방식 또는 상관된 신호 채널 조합 방식)의 채널 조합 비율 팩터는 미리 설정된 고정 값일 수 있다. 물론, 오디오 프레임의 채널 조합 비율 팩터는 또한 오디오 프레임에 대한 채널 조합 방식에 기반하여 결정될 수 있다.
일부 가능한 구현들에서, 대응하는 다운믹스 매트릭스는 오디오 프레임의 채널 조합 비율 팩터에 기반하여 구성될 수 있고, 채널 조합 방식에 대응하는 다운믹스 매트릭스를 사용하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리가 수행되어, 현재 프레임에서 1차 및 2차 채널 신호들을 획득한다.
예를 들어, 현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리가 수행되는 경우, 현재 프레임에서 1차 및 2차 채널 신호들을 획득한다.
Figure pat00010
다른 예를 들어, 현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터 및 이전 프레임에 대한 반상관 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여, 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리가 수행되어 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 경우,
Figure pat00011
Figure pat00012
이며, 여기서, delay_com은 인코딩 지연 보상을 나타낸다.
*다른 예를 들어, 현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터 및 이전 프레임에 대한 반상관 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여, 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리가 수행되어 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 경우,
Figure pat00013
Figure pat00014
Figure pat00015
이다.
여기서,
Figure pat00016
은 페이드 인 팩터(fade-in factor)를 나타낸다. 예를 들어,
Figure pat00017
이다. 물론,
Figure pat00018
은 다르게는 n에 기반한 다른 함수 관계(funtion relationship)의 페이드 인 팩터일 수 있다.
Figure pat00019
은 페이드 아웃 팩터(fade-out factor)를 나타낸다. 예를 들어,
Figure pat00020
이다. 물론,
Figure pat00021
은 다르게는 n에 기반한 다른 함수 관계의 페이드 아웃 팩터일 수 있다.
Figure pat00022
는 트랜지션 처리 길이를 나타낸다.
Figure pat00023
의 값은 특정 시나리오 요건에 따라 기반하여 설정될 수 있다. 예를 들어,
Figure pat00024
는 3/N과 같거나
Figure pat00025
는 N보다 작은 다른 값일 수 있다.
다른 예를 들어, 상관된 신호 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리가 수행되어 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 경우,
Figure pat00026
이다.
전술한 예에서,
Figure pat00027
는 현재 프레임에서 좌측 채널 신호를 나타낸다.
Figure pat00028
는 현재 프레임에서 우측 채널 신호를 나타낸다.
Figure pat00029
는 현재 프레임에 있는 1차 채널 신호이면서 또한 시간-도메인 다운믹스 처리를 통해 획득되는 1차 채널 신호를 나타내고,
Figure pat00030
는 현재 프레임에 있는 2차 채널 신호이면서 또한 시간-도메인 다운믹스 처리를 통해 획득된 2차 채널 신호를 나타낸다.
전술한 예에서, n은 샘플링 포인트 수(sampling point number)를 나타낸다. 예를 들면,
Figure pat00031
이다.
전술한 예에서, delay_com은 인코딩 지연 보상을 나타낸다.
Figure pat00032
은 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 다운믹스 매트릭스를 나타내고,
Figure pat00033
은 이전 프레임에 대한 상관된 신호 채널조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00034
는 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 다운믹스 매트릭스를 나타내고,
Figure pat00035
는 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00036
는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 다운믹스 매트릭스를 나타내고,
Figure pat00037
는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00038
은 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 다운믹스 매트릭스를 나타내고,
Figure pat00039
은 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00040
은 복수의 형태를 가질 수 있으며, 예를 들어,
Figure pat00041
, 또는
Figure pat00042
이며,
여기서,
Figure pat00043
는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
Figure pat00044
는 복수의 형태를 가질 수 있으며, 예를 들어,
Figure pat00045
, 또는
Figure pat00046
, 또는
Figure pat00047
, 또는
Figure pat00048
, 또는
Figure pat00049
, 또는
Figure pat00050
이며,
여기서,
Figure pat00051
;
Figure pat00052
이다.
Figure pat00053
는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
Figure pat00054
는 복수의 형태를 가질 수 있으며, 예를 들어,
Figure pat00055
, 또는
Figure pat00056
, 또는
Figure pat00057
, 또는
Figure pat00058
, 또는
Figure pat00059
, 또는
Figure pat00060
이며,
여기서,
Figure pat00061
;
Figure pat00062
이다.
Figure pat00063
는 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
현재 프레임에서의 좌측 및 우측 채널 신호들은 구체적으로, 현재 프레임에서의 원래의 좌측 및 우측 채널 신호들(원래의 좌측 및 우측 채널 신호들은 시간-도메인 전처리(pre-processing)를 거치지 않은 좌측 및 우측 채널 신호들이며, 예를 들어, 샘플링을 통해 획득된 좌측 및 우측 채널 신호들일 수 있음)일 수 있거나, 또는 현재 프레임에서 시간-도메인 전처리를 거친 좌측 및 우측 채널 신호들일 수 있거나, 또는 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들일 수 있다.
구체적으로 예를 들어,
Figure pat00064
, 또는
Figure pat00065
, 또는
Figure pat00066
이며,
여기서,
Figure pat00067
는 현재 프레임에서 원래의 좌측 및 우측 채널 신호들을 나타내고,
Figure pat00068
는 현재 프레임에서 시간-도메인 전처리를 거친 좌측 및 우측 채널 신호들을 나타내며,
Figure pat00069
는 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들을 나타낸다.
이에 대응하여, 다음은 예를 사용하여 반상관된 신호 디코딩 모드에 대한 시나리오를 설명한다.
도 5를 참조하면, 본 출원의 실시 예는 오디오 디코딩 방법을 추가로 제공한다. 오디오 디코딩 방법의 관련 단계는 디코딩 장치에 의해 구현될 수 있고, 방법은 구체적으로 다음 단계를 포함할 수 있다.
501. 비트 스트림에 기반한 디코딩을 수행하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들을 획득한다.
502. 현재 프레임의 디코딩 모드를 결정한다.
단계(501) 및 단계(502)를 수행하기 위한 제한된 시퀀스가 없음이 이해될 수 있다.
503. 현재 프레임의 디코딩 모드가 반상관된 신호 디코딩 모드인 것으로 결정된 경우, 반상관된 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득한다.
재구성된 좌측 및 우측 채널 신호들은 좌측 및 우측 채널 신호들로 디코딩될 수 있거나, 지연 조정 처리 및/또는 시간 도메인 후처리(post processing)가 재구성된 좌측 및 우측 채널 신호들에 대해 수행되어 디코딩된 좌측 및 우측 채널 신호들을 획득할 수 있다.
반상관된 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 처리 방식은 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 업믹스 처리 방식이고, 반상관된 신호 채널 조합 방식은 거의 역위상 신호에 대응하는 채널 조합 방식이다.
현재 프레임의 디코딩 모드는 복수의 디코딩 모드 중 하나일 수 있다. 예를 들어, 현재 프레임의 디코딩 모드는 상관된 신호 디코딩 모드, 반상관된 신호 디코딩 모드, 상관 대 반상관 신호 디코딩 스위칭 모드 및 반상관 대 상관 신호 디코딩 스위칭 모드 중 하나일 수 있다.
전술한 솔루션에서, 현재 프레임의 디코딩 모드가 결정될 필요가 있으며, 이는 현재 프레임의 디코딩 모드에 대한 복수의 가능성이 있음을 나타내는 것을 이해할 수 있다. 단지 하나의 디코딩 모드가 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 디코딩 모드를 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있다. 또한, 거의 역위상 신호에 대응하는 채널 조합 방식이 도입되기 때문에, 현재 프레임의 스테레오 신호가 거의 역위상 신호인 경우, 보다 타깃이 되는 채널 조합 방식 및 디코딩 모드가 있으며, 이는 디코딩 품질을 향상시키는 데 도움이 된다.
일부 가능한 구현들에서, 상기 방법은, 현재 프레임의 디코딩 모드가 상관된 신호 디코딩 모드인 것으로 결정되는 경우, 상관된 신호 디코딩에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하는 단계를 더 포함할 수 있으며, 상관된 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 처리 방식은 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 업믹스 처리 방식이고, 상관된 신호 채널 조합 방식은 거의 동위상 신호에 대응하는 채널 조합 방식이다.
일부 가능한 구현들에서, 상기 방법은, 현재 프레임의 디코딩 모드가 상관 대 반상관 신호 디코딩 스위칭 모드인 것으로 결정되는 경우, 상관 대 반상관 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여, 현재의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하는 단계를 더 포함할 수 있으며, 상관 대 반상관된 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 처리 방식은 상관된 신호 채널 조합 방식에서 반상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 시간-도메인 업믹스 처리 방식이다.
일부 가능한 구현들에서, 상기 방법은, 현재 프레임의 디코딩 모드가 반상관 대 상관 신호 디코딩 스위칭 모드인 것으로 결정되는 경우, 반상관 대 상관 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하는 단계를 더 포함할 수 있으며, 반상관 대 상관 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 업믹스 처리 방식은 반상관된 신호 채널 조합 방식에서 상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 시간-도메인 업믹스 처리 방식이다.
상이한 디코딩 모드들에 대응하는 시간-도메인 업믹스 처리 방식들이 일반적으로 상이하다는 것을 이해할 수 있다. 또한, 각각의 디코딩 모드는 하나 이상의 시간-도메인 업믹스 처리 방식에 대응할 수 있다.
예를 들어, 일부 가능한 구현들에서, 반상관된 신호 디코딩 모드에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하는 단계는,
현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하거나; 또는 현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터 및 이전 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하는 단계를 포함한다.
일부 가능한 구현들에서, 대응하는 업믹스 매트릭스는 오디오 프레임의 채널 조합 비율 팩터에 기반하여 구성될 수 있고, 시간-도메인 업믹스 처리는 채널 조합 방식에 대응하는 업믹스 매트릭스를 사용하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 수행되어, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득한다.
예를 들어, 현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리가 수행되어, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하는 경우,
Figure pat00070
이다.
다른 예에서, 현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터 및 이전 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리가 수행되어, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하는 경우,
Figure pat00071
, 또는
Figure pat00072
이며,
여기서, delay_com은 인코딩 지연 보상을 나타낸다.
다른 예에서, 현재 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터 및 이전 프레임에 대한 반상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하는 경우,
Figure pat00073
,
Figure pat00074
, 또는
Figure pat00075
이다.
여기서,
Figure pat00076
은 현재 프레임에서의 디코딩된 좌측 채널 신호를 나타내고,
Figure pat00077
은 현재 프레임에서의 재구성된 우측 채널 신호를 나타내며,
Figure pat00078
은 현재 프레임에서의 디코딩된 1차 채널 신호를 나타내고,
Figure pat00079
은 현재 프레임에서의 디코딩된 2차 채널 신호를 나타낸다.
Figure pat00080
은 트랜지션 처리 길이를 나타낸다.
Figure pat00081
은 페이드 인 팩터를 나타낸다. 예를 들어,
Figure pat00082
이다. 물론,
Figure pat00083
는 다르게는 n을 기반으로 하는 다른 함수 관계의 페이드 인 팩터일 수 있다.
Figure pat00084
은 페이드 아웃 팩터를 나타낸다. 예를 들어,
Figure pat00085
이다. 물론,
Figure pat00086
는 다르게는 n을 기반으로 하는 다른 함수 관계의 페이드 아웃 팩터일 수 있다.
Figure pat00087
는 트랜지션 처리 길이를 나타낸다.
Figure pat00088
의 값은 특정 시나리오 요건에 기반하여 설정될 수 있다. 예를 들어,
Figure pat00089
는 3/N과 동일할 수 있거나,
Figure pat00090
는 N보다 작은 다른 값일 수 있다.
다른 예에서, 현재 도메인에 대한 상관된 신호 채널 조합 방식의 채널 조합 비율 팩터에 기반하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리가 수행되어 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하는 경우,
Figure pat00091
이다.
전술한 예에서,
Figure pat00092
은 현재 프레임에서의 디코딩된 좌측 채널 신호를 나타낸다.
Figure pat00093
은 현재 프레임에서의 재구성된 우측 채널 신호를 나타낸다.
Figure pat00094
은 현재 프레임에서의 디코딩된 1차 채널 신호를 나타낸다.
Figure pat00095
은 현재 프레임에서의 디코딩된 2차 채널 신호를 나타낸다.
전술한 예에서, n은 샘플링 포인트 수를 나타낸다. 예를 들어,
Figure pat00096
이다.
전술한 예에서,
Figure pat00097
은 디코딩 지연 보상을 나타낸다.
Figure pat00098
은 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 업믹스 매트릭스를 나타내며,
Figure pat00099
는 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00100
는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 업믹스 매트릭스를 나타내고,
Figure pat00101
는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00102
는 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 업믹스 매트릭스를 나타내고,
Figure pat00103
는 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
*
Figure pat00104
은 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 업믹스 매트릭스를 나타내고,
Figure pat00105
은 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00106
는 복수의 형태를 가질 수 있으며, 예를 들어,
Figure pat00107
, 또는
Figure pat00108
, 또는
Figure pat00109
, 또는
Figure pat00110
, 또는
Figure pat00111
, 또는
Figure pat00112
이며,
여기서,
Figure pat00113
;
Figure pat00114
이다.
Figure pat00115
는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
Figure pat00116
는 복수의 형태를 가질 수 있으며, 예를 들어,
Figure pat00117
, 또는
Figure pat00118
, 또는
Figure pat00119
, 또는
Figure pat00120
, 또는
Figure pat00121
, 또는
Figure pat00122
이며,
여기서,
Figure pat00123
,
Figure pat00124
이다.
Figure pat00125
은 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
Figure pat00126
는 복수의 형태를 가질 수 있으며, 예를 들어,
Figure pat00127
, 또는
Figure pat00128
이며,
여기서,
Figure pat00129
는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
다음은 예를 사용하여 상관 대 반상관 신호 코딩 스위칭 모드 및 반상관 대 상관 신호 코딩 스위칭 모드에 대한 시나리오를 설명한다. 상관 대 반상관 신호 코딩 스위칭 모드 및 반상관 대 상관 신호 코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 예를 들어 세그먼트화된 시간-도메인 다운믹스 처리 방식이다.
도 6을 참조하면, 본 출원의 실시 예는 오디오 인코딩 방법을 제공한다. 오디오 인코딩 방법의 관련 단계는 인코딩 장치에 의해 구현될 수 있고, 상기 방법은 구체적으로 다음을 포함할 수 있다.
601. 현재 프레임에 대한 채널 조합 방식을 결정한다.
602. 현재 프레임에 대한 채널 조합 방식이 이전 프레임에 대한 채널 조합 방식과 상이한 경우, 현재 프레임에 대한 채널 조합 방식과 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들을 획득한다.
603. 현재 프레임에서의 획득된 1차 및 2차 채널 신호들을 인코딩한다.
현재 프레임에 대한 채널 조합 방식이 이전 프레임에 대한 채널 조합 방식과 상이하면, 현재 프레임의 코딩 모드가 상관 대 반상관 신호 코딩 스위칭 모드 또는 반상관 대 상관 신호 코딩 스위칭 모드인 것으로 결정할 수 있다. 현재 프레임의 코딩 모드가 상관 대 반상관 신호 코딩 스위칭 모드 또는 반상관 대 상관 신호 코딩 스위칭 모드이면, 예를 들어, 현재 프레임에 대한 채널 조합 방식 및 이전 프레임에 대한 채널 조합 방식에 기반하여 세그먼트화된 시간-도메인 다운믹스 처리가 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 수행될 수 있다.
구체적으로, 예를 들어, 이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 경우, 현재 프레임의 코딩 모드가 상관 대 반상관 신호 코딩 스위칭 모드인 것으로 결정될 수 있다. 다른 예에서, 이전 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 경우, 현재 프레임의 코딩 모드가 반상관 대 상관 신호 코딩 스위칭 모드인 것으로 판단될 수 있다. 나머지는 유추하여 추론할 수 있다.
세그먼트화된 시간-도메인 다운믹스 처리는 현재 프레임에서 좌측 및 우측 채널 신호들이 적어도 2개의 세그먼트로 분할되고, 상이한 시간-도메인 다운믹스 처리 방식이 각 세그먼트에 대해 시간-도메인 다운믹스를 수행하는 데 사용되는 것으로 이해될 수 있다. 비세그먼트화된 시간-도메인 다운믹스 처리와 비교하여, 세그먼트화된 시간-도메인 다운믹스 처리는 인접한 프레임에 대한 채널 조합 방식이 변경될 때 더 양호하고 원활한 트랜지션을 획득할 가능성이 더 크다는 것을 이해할 수 있다.
전술한 솔루션에서, 현재 프레임에 대한 채널 조합 방식이 결정될 필요가 있으며, 이는 현재 프레임에 대한 채널 조합 방식에 대한 복수의 가능성이 있음을 나타내는 것을 이해할 수 있다. 하나의 채널 조합 방식이 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 채널 조합 방식을 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있다. 또한, 현재 프레임에 대한 채널 조합 방식과 이전 프레임에 대한 채널 조합 방식이 상이한 경우, 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 처리를 수행하는 메커니즘이 도입된다. 세그먼트화된 시간-도메인 다운믹스 처리 메커니즘은 채널 조합 방식의 원활한 트랜지션을 구현하고 인코딩 품질을 향상시키는 데 도움이 된다.
또한, 거의 역위상 신호에 대응하는 채널 조합 방식이 도입되기 때문에, 현재 프레임의 스테레오 신호가 거의 역위상 신호일 때, 보다 타깃이 되는 채널 조합 방식 및 코딩 모드가 있으며, 이는 인코딩 품질을 향상시키는 데 도움이 된다.
예를 들어, 이전 프레임에 대한 채널 조합 방식은 상관된 신호 채널 조합 방식 또는 반상관된 신호 채널 조합 방식일 수 있다. 현재 프레임에 대한 채널 조합 방식은 상관된 신호 채널 조합 방식 또는 반상관된 신호 채널 조합 방식일 수 있다. 따라서, 현재 프레임과 이전 프레임에 대한 채널 조합 방식들이 상이한 경우가 여러 가지 있을 수 있다.
구체적으로, 예를 들어, 이전 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 경우, 현재 프레임에서의 좌측 및 우측 채널 신호들은 좌측 및 우측 채널 신호들의 시작 세그먼트, 좌측 및 우측 채널 신호들의 중간 세그먼트 그리고 좌측 및 우측 채널 신호들의 종료(end) 세그먼트를 포함하고; 현재 프레임에서의 1차 및 2차 채널 신호들은 1차 및 2차 채널 신호들의 시작 세그먼트, 1차 및 2차 채널 신호들의 중간 세그먼트, 그리고 1차 및 2차 채널 신호들의 종료 세그먼트를 포함한다. 이 경우, 현재 프레임에 대한 채널 조합 방식 및 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 단계는,
이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여, 현재 프레임에서 좌측 및 우측 채널 신호들의 시작 세그먼트에 대해 시간-도메인 다운믹스 처리를 수행하여 현재 프레임에서 1차 및 2차 채널 신호들의 시작 세그먼트를 획득하는 단계;
현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여, 현재 프레임에서 좌측 및 우측 채널 신호들의 종료 세그먼트에 대해 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들의 종료 세그먼트를 획득하는 단계; 및
이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여, 현재 프레임에서 좌측 및 우측 채널 신호들의 중간 세그먼트에 대해 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들의 제1 중간 세그먼트를 획득하고; 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여 현재 프레임에서 좌측 및 우측 채널 신호들의 중간 세그먼트에 대해 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들의 제2 중간 세그먼트를 획득하며; 그리고 1차 및 2차 채널 신호들의 제1 중간 세그먼트와 1차 및 2차 채널 신호들의 제2 중간 세그먼트에 대해 가중 합산 처리(weighted summation processing)를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들의 중간 세그먼트를 획득하는 단계를 포함할 수 있다.
현재 프레임에서 좌측 및 우측 채널 신호들의 시작 세그먼트의 길이, 좌측 및 우측 채널 신호들의 중간 세그먼트의 길이 그리고 좌측 및 우측 채널 신호들의 종료 세그먼트의 길이는 요건에 기반하여 설정될 수 있다. 현재 프레임에서 좌측 및 우측 채널 신호들의 시작 세그먼트의 길이, 좌측 및 우측 채널 신호들의 중간 세그먼트의 길이 그리고 좌측 및 우측 채널 신호들의 종료 세그먼트의 길이는 동일하거나 또는 부분적으로 동일하거나 또는 서로 상이할 수 있다.
현재 프레임에서 1차 및 2차 채널 신호들의 시작 세그먼트의 길이, 1차 및 2차 채널 신호들의 중간 세그먼트의 길이 그리고 1차 및 2차 채널 신호들의 종료 세그먼트의 길이는 요건에 기반하여 설정될 수 있다. 현재 프레임에서 1차 및 2차 채널 신호들의 시작 세그먼트의 길이, 1차 및 2차 채널 신호들의 중간 세그먼트의 길이 그리고 1차 및 2차 채널 신호들의 종료 세그먼트의 길이는 동일하거나 또는 부분적으로 동일하거나 또는 서로 상이할 수 있다.
1차 및 2차 채널 신호들의 제1 중간 세그먼트와 1차 및 2차 채널 신호들의 제2 중간 세그먼트에 대해 가중 합산 처리가 수행되는 경우, 1차 및 2차 채널 신호들의 제1 중간 세그먼트에 대응하는 가중 계수(weighting coefficient)는 1차 및 2차 채널 신호들의 제2 중간 세그먼트에 대응하는 가중 계수와 같거나 같지 않을 수 있다.
예를 들어, 1차 및 2차 채널 신호들의 제1 중간 세그먼트 그리고 1차 및 2차 채널 신호들의 제2 중간 세그먼트에 대해 가중 합산 처리가 수행되는 경우, 1차 및 2차 채널 신호들의 제1 중간 세그먼트에 대응하는 가중 계수는 페이드 아웃 팩터이고, 1차 및 2차 채널 신호들의 제2 중간 세그먼트에 대응하는 가중 계수는 페이드 인 팩터이다.
일부 가능한 구현들에서,
Figure pat00130
이며,
여기서,
Figure pat00131
은 현재 프레임에서 1차 채널 신호의 시작 세그먼트를 나타내고,
Figure pat00132
은 현재 프레임에서 2차 채널 신호의 시작 세그먼트를 나타내며,
Figure pat00133
은 현재 프레임에서 1차 채널 신호의 종료 세그먼트를 나타내고,
Figure pat00134
는 현재 프레임에서 2차 채널 신호의 종료 세그먼트를 나타내며,
Figure pat00135
는 현재 프레임에서 1차 채널 신호의 중간 세그먼트를 나타내고,
Figure pat00136
는 현재 프레임에서 2차 채널 신호의 중간 세그먼트를 나타낸다.
Figure pat00137
은 현재 프레임에서 1차 채널 신호를 나타내고,
Figure pat00138
은 현재 프레임에서 2차 채널 신호를 나타내낸다.
예를 들어,
Figure pat00139
이다.
예를 들어,
Figure pat00140
은 페이드 인 팩터를 나타내고,
Figure pat00141
은 페이드 아웃 팩터를 나타낸다. 예를 들어,
Figure pat00142
Figure pat00143
의 합은 1이다.
구체적으로, 예를 들어,
Figure pat00144
Figure pat00145
이다. 물론,
Figure pat00146
은 다르게는 n에 기반한 다른 함수 관계의 페이드 인 팩터일 수 있다. 물론,
Figure pat00147
은 다르게는 n에 기반한 다른 함수 관계의 페이드 아웃 팩터일 수 있다.
여기서, n은 샘플링 포인트 수를 나타낸다.
Figure pat00148
Figure pat00149
이다.
예를 들어,
Figure pat00150
은 100, 107, 120, 150, 또는 다른 값과 같을 수 있다.
예를 들어,
Figure pat00151
는 180, 187, 200, 203, 또는 다른 값과 같을 수 있다.
여기서,
Figure pat00152
은 현재 프레임에서 1차 채널 신호의 제1 중간 세그먼트를 나타내고,
Figure pat00153
은 현재 프레임에서 2차 채널 신호의 제1 중간 세그먼트를 나타낸다.
Figure pat00154
은 현재 프레임에서 1차 채널 신호의 제2 중간 세그먼트를 나타내고,
Figure pat00155
은 현재 프레임에서 2차 채널 신호의 제2 중간 세그먼트를 나타낸다.
일부 가능한 구현들에서,
Figure pat00156
;
Figure pat00157
;
Figure pat00158
; 및
Figure pat00159
이고,
여기서,
Figure pat00160
은 현재 프레임에서 좌측 채널 신호를 나타내고,
Figure pat00161
은 현재 프레임에서 우측 채널 신호를 나타내며, 그리고,
Figure pat00162
은 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 다운믹스 매트릭스를 나타내고,
Figure pat00163
은 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성되고;
Figure pat00164
는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 다운믹스 매트릭스를 나타내고,
Figure pat00165
는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00166
는 복수의 형태를 가질 수 있으며, 구체적으로, 예를 들어,
Figure pat00167
, 또는
Figure pat00168
, 또는
Figure pat00169
, 또는
Figure pat00170
, 또는
Figure pat00171
, 또는
Figure pat00172
이며,
여기서,
Figure pat00173
;
Figure pat00174
이다.
Figure pat00175
은 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
Figure pat00176
은 복수의 형태를 가질 수 있으며, 구체적으로, 예를 들어,
Figure pat00177
, 또는
Figure pat00178
이며,
Figure pat00179
는 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
구체적으로, 다른 예를 들어, 이전 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 경우, 현재 프레임에서의 좌측 및 우측 채널 신호들은 좌측 및 우측 채널 신호들의 시작 세그먼트, 좌측 및 우측 채널 신호들의 중간 세그먼트, 그리고 좌측 및 우측 채널 신호들의 종료 세그먼트를 포함하고; 현재 프레임에서 1차 및 2차채널 신호는 1차 및 2차 채널 신호들의 시작 세그먼트, 1차 및 2차 채널 신호들의 중간 세그먼트, 그리고 1차 및 2차 채널 신호들의 종료 세그먼트를 포함한다. 이 경우, 현재 프레임에 대한 채널 조합 방식 및 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들을 획득하는 단계는,
이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여, 현재 프레임에서 좌측 및 우측 채널 신호들의 시작 세그먼트에 대해 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들의 시작 세그먼트를 획득하는 단계;
현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여, 현재 프레임에서 좌측 및 우측 채널 신호들의 종료 세그먼트에 대한 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들의 종료 세그먼트를 획득하는 단계; 및
이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여, 현재 프레임에서 좌측 및 우측 채널 신호들의 중간 세그먼트에 대해 시간-도메인 다운믹스 처리를 수행하여, 1차 및 2차 채널 신호들의 제3 중간 세그먼트를 획득하고; 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 다운믹스 처리 방식을 사용하여, 현재 프레임에서 좌측 및 우측 채널 신호들의 중간 세그먼트에 대해 시간-도메인 다운믹스 처리를 수행하여, 1차 및 2차 채널 신호들의 제4 중간 세그먼트를 획득하고; 그리고 1차 및 2차 채널 신호들의 제3 중간 세그먼트 그리고 1차 및 2차 채널 신호들의 제4 중간 세그먼트에 대해 가중 합산 처리를 수행하여, 현재 프레임에서 1차 및 2차 채널 신호들의 중간 세그먼트를 획득하는 단계를 포함할 수 있다.
1차 및 2차 채널 신호들의 제3 중간 세그먼트 그리고 1차 및 2차 채널 신호들의 제4 중간 세그먼트에 대해 가중 합산 처리가 수행되는 경우, 1차 및 2차 채널 신호들의 제3 중간 세그먼트에 대응하는 가중 계수는 1차 및 2차 채널 신호들의 제4 중간 세그먼트에 대응하는 가중 계수와 같거나 같지 않을 수 있다.
예를 들어, 1차 및 2차 채널 신호들의 제3 중간 세그먼트 그리고 1차 및 2차 채널 신호들의 제4 중간 세그먼트에 대해 가중 합산 처리가 수행되는 경우, 1차 및 2차 채널 신호들의 제3 중간 세그먼트에 대응하는 가중 계수는 페이드 아웃 팩터이고, 1차 채널 신호 및 2차 채널 신호의 제4 중간 세그먼트에 대응하는 가중 계수는 페이드 인 팩터이다.
일부 가능한 구현들에서,
Figure pat00180
이며,
여기서,
Figure pat00181
은 현재 프레임에서 1차 채널 신호의 시작 세그먼트를 나타내고,
Figure pat00182
은 현재 프레임에서 2차 채널 신호의 시작 세그먼트를 나타내며,
Figure pat00183
은 현재 프레임에서 1차 채널 신호의 종료 세그먼트를 나타내고,
Figure pat00184
은 현재 프레임에서 2차 채널 신호의 종료 세그먼트를 나타내며,
Figure pat00185
은 현재 프레임에서 1차 채널 신호의 중간 세그먼트를 나타내고,
Figure pat00186
은 현재 프레임에서 2차 채널 신호의 중간 세그먼트를 나타낸다.
Figure pat00187
은 현재 프레임에서 1차 채널 신호를 나타내고,
Figure pat00188
은 현재 프레임에서 2차 채널 신호를 나타낸다.
예를 들어,
Figure pat00189
이며,
Figure pat00190
은 페이드 인 팩터를 나타내고,
Figure pat00191
은 페이드 아웃 팩터를 나타내며,
Figure pat00192
Figure pat00193
의 합은 1이다.
구체적으로, 예를 들어,
Figure pat00194
Figure pat00195
이다. 물론,
Figure pat00196
은 다르게는 n에 기반한 다른 함수 관계의 페이드 인 팩터일 수 있다. 물론,
Figure pat00197
은 다르게는 n에 기반한 다른 함수 관계의 페이드 인 팩터일 수 있다.
여기서, n은 샘플링 포인트 수를 나타낸다. 예를 들어,
Figure pat00198
이다.
여기서,
Figure pat00199
이다.
예를 들어,
Figure pat00200
는 101, 107, 120, 150, 또는 다른 값과 같을 수 있다.
예를 들어,
Figure pat00201
는 181, 187, 200, 205, 또는 다른 값과 같을 수 있다.
Figure pat00202
은 현재 프레임에서 1차 채널 신호의 제3 중간 세그먼트를 나타내고,
Figure pat00203
은 현재 프레임에서 2차 채널 신호의 제3 중간 세그먼트를 나타내낸다.
Figure pat00204
은 현재 프레임에서 1차 채널 신호의 제4 중간 세그먼트를 나타내고,
Figure pat00205
은 현재 프레임에서 2차 채널 신호의 제4 중간 세그먼트를 나타낸다.
일부 가능한 구현들에서,
Figure pat00206
;
Figure pat00207
;
Figure pat00208
; 및
Figure pat00209
이고,
여기서,
Figure pat00210
은 현재 프레임에서 좌측 채널 신호를 나타내고,
Figure pat00211
은 현재 프레임에서 우측 채널 신호를 나타낸다.
Figure pat00212
는 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 다운믹스 매트릭스를 나타내고,
Figure pat00213
는 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00214
은 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 다운믹스 매트릭스를 나타내고,
Figure pat00215
은 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00216
는 복수의 형태를 가질 수 있으며, 구체적으로, 예를 들어,
Figure pat00217
, 또는
Figure pat00218
, 또는
Figure pat00219
, 또는
Figure pat00220
, 또는
Figure pat00221
, 또는
Figure pat00222
이며,
여기서,
Figure pat00223
;
Figure pat00224
이다.
Figure pat00225
은 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
Figure pat00226
은 복수의 형태를 가질 수 있으며, 구체적으로, 예를 들어,
Figure pat00227
, 또는
Figure pat00228
이며,
여기서,
Figure pat00229
는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
일부 가능한 구현들에서, 현재 프레임에서 좌측 및 우측 채널 신호들은 예를 들어 현재 프레임에서 원래의 좌측 및 우측 채널 신호들일 수 있거나, 또는 시간-도메인 전처리를 거친 좌측 및 우측 채널 신호들일 수 있거나, 또는 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들일 수 있다.
구체적으로 예를 들어,
Figure pat00230
, 또는
Figure pat00231
, 또는
Figure pat00232
이며,
여기서,
Figure pat00233
은 현재 프레임에서 원래의 좌측 채널 신호를 나타내고(원래의 좌측 채널 신호는 시간-도메인 전처리를 거치지 않은 좌측 채널 신호임),
Figure pat00234
은 현재 프레임에서 원래의 우측 채널 신호를 나타내며(원래의 우측 채널 신호는 시간-도메인 전처리를 거치지 않은 우측 채널 신호임); 그리고
Figure pat00235
은 현재 프레임에서 시간-도메인 전처리를 거친 좌측 채널 신호를 나타내고,
Figure pat00236
은 현재 프레임에서 시간-도메인 전처리를 거친 우측 채널 신호를 나타낸다.
Figure pat00237
은 현재 프레임에서 지연 정렬 처리를 거친 좌측 채널 신호를 나타내고,
Figure pat00238
은 현재 프레임에서 지연 정렬 처리를 거친 우측 채널 신호를 나타낸다.
전술한 예에서의 세그먼트화된 시간-도메인 다운믹스 처리 방식은 모든 가능한 구현이 아닐 수 있으며, 실제 애플리케이션에서는 다른 세그먼트화된 시간-도메인 다운믹스 처리 방식이 사용될 수도 있음을 이해할 수 있다.
이에 대응하여, 다음에 예를 사용하여, 상관 대 반상관 신호 디코딩 스위칭 모드 및 반상관 대 상관 신호 디코딩 스위칭 모드에 대한 시나리오를 설명한다. 상관 대 반상관 신호 디코딩 스위칭 모드 및 반상관 대 상관 신호 디코딩 스위칭 모드에 대응하는 시간-도메인 다운믹스 처리 방식은 예를 들어, 세그먼트화된 시간-도메인 다운믹스 처리 방식이다.
도 7을 참조하면, 본 출원의 실시 예는 오디오 디코딩 방법을 제공한다. 오디오 디코딩 방법의 관련 단계는 디코딩 장치에 의해 구현될 수 있고, 방법은 구체적으로 다음 단계를 포함할 수 있다.
701. 비트 스트림에 기반한 디코딩을 수행하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들을 획득한다.
702. 현재 프레임에 대한 채널 조합 방식을 결정한다.
단계(701) 및 단계(702)를 수행하기 위한 제한된 시퀀스가 없음을 이해할 수 있다.
703. 현재 프레임에 대한 채널 조합 방식이 이전 프레임에 대한 채널 조합 방식과 상이한 경우, 현재 프레임에 대한 채널 조합 방식과 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 세그먼트화된 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득한다.
현재 프레임에 대한 채널 조합 방식은 복수의 채널 조합 방식 중 하나이다.
예를 들어, 복수의 채널 조합 방식은 반상관된 신호 채널 조합 방식 및 상관된 신호 채널 조합 방식을 포함한다. 상관된 신호 채널 조합 방식은 거의 동위상 신호에 대응하는 채널 조합 방식이다. 반상관된 신호 채널 조합 방식은 거의 역위상 신호에 대응하는 채널 조합 방식이다. 거의 동위상 신호에 대응하는 채널 조합 방식은 거의 동위상 신호에 적용 가능하고, 거의 역위상 신호에 대응하는 채널 조합 방식은 거의 역위상 신호에 적용 가능하다는 것을 이해할 수 있다.
세그먼트화된 시간-도메인 업믹스 처리는 현재 프레임에서의 좌측 및 우측 채널 신호들이 적어도 2개의 세그먼트로 분할되고, 상이한 시간-도메인 업믹스 처리 방식이 각 세그먼트에 대해 시간 도메인 업믹스 처리를 수행하기 위해 사용되는 것으로 이해될 수 있다. 비세그먼트화된 시간-도메인 업믹스 처리와 비교하여, 세그먼트화된 시간-도메인 업믹스 처리는 인접한 프레임에 대한 채널 조합 방식이 변경될 때 더 양호하고 원활한 트랜지션을 획득할 가능성이 더 크다는 것을 이해할 수 있다.
전술한 솔루션에서, 현재 프레임에 대한 채널 조합 방식이 결정될 필요가 있으며, 이는 현재 프레임에 대한 채널 조합 방식에 대한 복수의 가능성이 있음을 나타내는 것을 이해할 수 있다. 하나의 채널 조합 방식이 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 채널 조합 방식을 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있다. 또한, 현재 프레임에 대한 채널 조합 방식과 이전 프레임에 대한 채널 조합 방식이 상이한 경우, 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 세그먼트화된 시간-도메인 업믹스 처리를 수행하는 메커니즘이 도입된다. 세그먼트화된 시간-도메인 업믹스 처리 메커니즘은 채널 조합 방식의 원활한 트랜지션을 구현하고 추가로 인코딩 품질을 향상시키는 데 도움이 된다.
또한, 거의 역위상 신호에 대응하는 채널 조합 방식이 도입되기 때문에, 현재 프레임의 스테레오 신호가 거의 역위상 신호일 때, 보다 타깃이 되는 채널 조합 방식 및 코딩 모드가 있으며, 이는 인코딩 품질을 향상시키는 데 도움이 된다.
예를 들어, 이전 프레임에 대한 채널 조합 방식은 상관된 신호 채널 조합 방식 또는 반상관된 신호 채널 조합 방식일 수 있다. 현재 프레임에 대한 채널 조합 방식은 상관된 신호 채널 조합 방식 또는 반상관된 신호 채널 조합 방식일 수 있다. 따라서, 현재 프레임과 이전 프레임에 대한 채널 조합 방식이 상이한 경우가 여러 가지 있을 수 있다.
구체적으로, 예를 들어, 이전 프레임에 대한 채널 조합 방식은 상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식은 반상관된 신호 채널 조합 방식이다. 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들은 재구성된 좌측 및 우측 채널 신호들의 시작 세그먼트, 재구성된 좌측 및 우측 채널 신호들의 중간 세그먼트, 및 재구성된 좌측 및 우측 채널 신호들의 종료 세그먼트를 포함한다. 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들은 디코딩된 1차 및 2차 채널 신호들의 시작 세그먼트, 디코딩된 1차 및 2차 채널 신호들의 중간 세그먼트, 및 디코딩된 1차 및 2차 채널 신호들의 종료 세그먼트를 포함한다. 이 경우, 현재 프레임에 대한 채널 조합 방식 및 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 세그먼트화된 시간-도메인 업믹스 처리를 수행하여 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하는 단계는, 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여, 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들의 시작 세그먼트에 대해 도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 시작 세그먼트를 획득하는 단계;
현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여, 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들의 종료 세그먼트에 대한 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 종료 세그먼트를 획득하는 단계; 및
이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여, 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들의 중간 세그먼트에 대해 시간-도메인 업믹스 처리를 수행하여, 재구성된 좌측 및 우측 채널 신호들의 제1 중간 세그먼트를 획득하고; 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여, 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들의 중간 세그먼트에 대해 시간-도메인 업믹스 처리를 수행하여, 재구성된 좌측 및 우측 채널 신호들의 제2 중간 세그먼트를 획득하고; 그리고 재구성된 좌측 및 우측 채널 신호들의 제1 중간 세그먼트와 재구성된 좌측 및 우측 채널 신호들의 제2 중간 세그먼트에 대해 가중 합산 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 중간 세그먼트를 획득하는 단계를 포함한다.
현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 시작 세그먼트의 길이, 재구성된 좌측 및 우측 채널 신호들의 중간 세그먼트의 길이 및 재구성된 좌측 및 우측 채널 신호들의 종료 세그먼트의 길이는 요건에 기반하여 설정될 수 있다. 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 시작 세그먼트의 길이, 재구성된 좌측 및 우측 채널 신호들의 중간 세그먼트의 길이 및 재구성된 좌측 및 우측 채널 신호들의 종료 세그먼트의 길이는 동일하거나, 부분적으로 동일하거나 또는 서로 상이할 수 있다.
현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들의 시작 세그먼트의 길이, 디코딩된 1차 및 2차 채널 신호들의 중간 세그먼트의 길이, 및 디코딩된 1차 및 2차 채널 신호들의 종료 세그먼트의 길이는 요건에 기반하여 설정될 수 있다. 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들의 시작 세그먼트의 길이, 디코딩된 1차 및 2차 채널 신호들의 중간 세그먼트의 길이, 및 디코딩된 1차 및 2차 채널 신호들의 종료 세그먼트의 길이는 동일하거나, 부분적으로 동일하거나, 또는 서로 상이할 수 있다.
재구성된 좌측 및 우측 채널 신호들은 좌측 및 우측 채널 신호들로 디코딩될 수 있거나, 지연 조정 처리 및/또는 시간 도메인 후 처리가 재구성된 좌측 및 우측 채널 신호들에 대해 수행되어 디코딩된 좌측 및 우측 채널 신호들을 획득할 수 있다.
재구성된 좌측 및 우측 채널 신호들의 제1 중간 세그먼트와 재구성된 좌측 및 우측 채널 신호들의 제2 중간 세그먼트에 대해 가중 합산 처리가 수행되는 경우, 재구성된 좌측 및 우측 채널 신호들의 제1 중간 세그먼트에 대응하는 가중 계수는 재구성된 좌측 및 우측 채널 신호들의 제2 중간 세그먼트에 대응하는 가중 계수와 같거나 같지 않을 수 있다.
예를 들어, 재구성된 좌측 및 우측 채널 신호들의 제1 중간 세그먼트와 재구성된 좌측 및 우측 채널 신호들의 제2 중간 세그먼트에 대해 가중 합산 처리가 수행되는 경우, 재구성된 좌측 및 우측 채널 신호들의 제1 중간 세그먼트에 대응하는 가중 계수는 페이드 아웃 팩터이고, 재구성된 좌측 및 우측 채널 신호들의 제2 중간 세그먼트에 대응하는 가중 계수는 페이드 인 팩터이다.
일부 가능한 구현들에서,
Figure pat00239
이며,
여기서,
Figure pat00240
은 현재 프레임에서의 재구성된 좌측 채널 신호의 시작 세그먼트를 나타내고,
Figure pat00241
은 현재 프레임에서의 재구성된 우측 채널 신호의 시작 세그먼트를 나타낸다.
Figure pat00242
은 현재 프레임에서의 재구성된 좌측 채널 신호의 종료 세그먼트를 나타내고,
Figure pat00243
은 현재 프레임에서의 재구성된 우측 채널 신호의 종료 세그먼트를 나타낸다.
Figure pat00244
은 현재 프레임에서의 재구성된 좌측 채널 신호의 중간 세그먼트를 나타내고,
Figure pat00245
은 현재 프레임에서의 재구성된 우측 채널 신호의 중간 세그먼트를 나타내며;
Figure pat00246
은 현재 프레임에서의 재구성된 채널 신호를 나타내고;
Figure pat00247
은 현재 프레임에서의 재구성된 우측 채널 신호를 나타낸다.
예를 들어,
Figure pat00248
이다.
예를 들어,
Figure pat00249
은 페이드 인 팩터를 나타내고,
Figure pat00250
은 페이드 아웃 팩터를 나타낸다. 예를 들어,
Figure pat00251
Figure pat00252
의 합이 1이다.
구체적으로, 예를 들어,
Figure pat00253
Figure pat00254
이다. 물론,
Figure pat00255
은 다르게는 n에 기반한 다른 함수 관계의 페이드 인 팩터일 수 있다. 물론,
Figure pat00256
은 다르게는 n에 기반한 다른 함수 관계의 페이드 아웃 팩터일 수 있다.
여기서, n은 샘플링 포인트 수를 나타내며,
Figure pat00257
이다. 여기서,
Figure pat00258
이다.
Figure pat00259
은 현재 프레임에서의 재구성된 좌측 채널 신호의 제1 중간 세그먼트를 나타내고,
Figure pat00260
은 현재 프레임에서의 재구성된 우측 채널 신호의 제1 중간 세그먼트를 나타낸다.
Figure pat00261
은 현재 프레임에서의 재구성된 좌측 채널 신호의 제2 중간 세그먼트를 나타내고,
Figure pat00262
은 현재 프레임에서의 재구성된 우측 채널 신호의 제2 중간 세그먼트를 나타낸다.
일부 가능한 구현들에서,
Figure pat00263
;
Figure pat00264
;
Figure pat00265
; 및
Figure pat00266
이며,
여기서,
Figure pat00267
은 현재 프레임에서의 디코딩된 1차 채널 신호를 나타내고,
Figure pat00268
은 현재 프레임에서의 디코딩된 2차 채널 신호를 나타내며, 그리고
Figure pat00269
은 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 업믹스 매트릭스를 나타내고,
Figure pat00270
은 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성되고;
Figure pat00271
는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 업믹스 매트릭스를 나타내며,
Figure pat00272
는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00273
은 복수의 형태를 가질 수 있으며, 구체적으로, 예를 들어,
Figure pat00274
, 또는
Figure pat00275
, 또는
Figure pat00276
, 또는
Figure pat00277
, 또는
Figure pat00278
, 또는
Figure pat00279
이며,
여기서,
Figure pat00280
;
Figure pat00281
이다.
Figure pat00282
은 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
Figure pat00283
는 복수의 형태를 가질 수 있으며, 구체적으로, 예를 들어,
Figure pat00284
, 또는
Figure pat00285
이다.
여기서,
Figure pat00286
는 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
구체적으로, 다른 예에서, 이전 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 현재 프레임에 대한 채널 조합 방식은 상관된 신호 채널 조합 방식이다. 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들은 재구성된 좌측 및 우측 채널 신호들의 시작 세그먼트, 재구성된 좌측 및 우측 채널 신호들의 중간 세그먼트, 및 재구성된 좌측 및 우측 채널 신호들의 종료 세그먼트를 포함한다. 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들은 디코딩된 1차 및 2차 채널 신호들의 시작 세그먼트, 디코딩된 1차 및 2차 채널 신호들의 중간 세그먼트, 및 디코딩된 1차 및 2차 채널 신호들의 종료 세그먼트를 포함한다. 이 경우, 현재 프레임에 대한 채널 조합 방식 및 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 세그먼트화된 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하는 단계는,
이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여, 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들의 시작 세그먼트에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 시작 세그먼트를 획득하는 단계;
현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여, 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들의 종료 세그먼트에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 종료 세그먼트를 획득하는 단계; 및
이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여, 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들의 중간 세그먼트에 대해 시간-도메인 업믹스 처리를 수행하여, 재구성된 좌측 및 우측 채널 신호들의 제3 중간 세그먼트를 획득하고; 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여, 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들의 중간 세그먼트에 대해 시간-도메인 업믹스 처리를 수행하여, 재구성된 좌측 및 우측 채널 신호들의 제4 중간 세그먼트를 획득하며; 그리고 재구성된 좌측 및 우측 채널 신호들의 제3 중간 세그먼트와 재구성된 좌측 및 우측 채널 신호들의 제4 중간 세그먼트에 대해 가중 합산 처리를 수행하여 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들의 중간 세그먼트를 획득하는 단계를 포함한다.
재구성된 좌측 및 우측 채널 신호들의 제3 중간 세그먼트와 재구성된 좌측 및 우측 채널 신호들의 제4 중간 세그먼트에 대해 가중 합산 처리가 수행되는 경우, 재구성된 좌측 및 우측 채널 신호들의 제3 중간 세그먼트에 대응하는 가중 계수는 재구성된 좌측 및 우측 채널 신호들의 제4 중간 세그먼트에 대응하는 가중 계수와 같거나 같지 않을 수 있다.
예를 들어, 재구성된 좌측 및 우측 채널 신호들의 제3 중간 세그먼트와 재구성된 좌측 및 우측 채널 신호들의 제4 중간 세그먼트에 대해 가중 합산 처리가 수행되는 경우, 재구성된 좌측 및 우측 채널 신호들의 제3 중간 세그먼트에 대응하는 가중 계수는 페이드 아웃 팩터이고, 재구성된 좌측 및 우측 채널 신호들의 제4 중간 세그먼트에 대응하는 가중 계수는 페이드 인 팩터이다.
일부 가능한 구현들에서,
Figure pat00287
이며,
여기서,
Figure pat00288
은 현재 프레임에서의 재구성된 좌측 채널 신호의 시작 세그먼트를 나타내고,
Figure pat00289
은 현재 프레임에서의 재구성된 우측 채널 신호의 시작 세그먼트를 나타내며,
Figure pat00290
은 현재 프레임에서의 재구성된 좌측 채널 신호의 종료 세그먼트를 나타내고,
Figure pat00291
은 현재 프레임에서의 재구성된 우측 채널 신호의 종료 세그먼트를 나타내며,
Figure pat00292
은 현재 프레임에서의 재구성된 좌측 채널 신호의 중간 세그먼트를 나타내고,
Figure pat00293
은 현재 프레임에서의 재구성된 우측 채널 신호의 중간 세그먼트를 나타낸다.
Figure pat00294
은 현재 프레임에서의 재구성된 좌측 채널 신호를 나타내고,
Figure pat00295
은 현재 프레임에서의 재구성된 우측 채널 신호를 나타낸다.
예를 들어,
Figure pat00296
이다.
Figure pat00297
은 페이드 인 팩터를 나타내고,
Figure pat00298
은 페이드 아웃 팩터를 나타내며,
Figure pat00299
Figure pat00300
의 합은 1이다.
구체적으로, 예를 들어,
Figure pat00301
Figure pat00302
이다. 물론,
Figure pat00303
은 다르게는 n에 기반한 다른 함수 관계의 페이드 인 팩터일 수 있다. 물론,
Figure pat00304
은 다르게는 n에 기반한 다른 함수 관계의 페이드 아웃 팩터일 수 있다.
여기서, n은 샘플링 포인트 수를 나타낸다. 예를 들어,
Figure pat00305
이다.
여기서,
Figure pat00306
이다.
예를 들어,
Figure pat00307
는 101, 107, 120, 150, 또는 다른 값과 같을 수 있다.
예를 들어,
Figure pat00308
는 181, 187, 200, 205, 또는 다른 값과 같을 수 있다.
Figure pat00309
은 현재 프레임에서의 재구성된 좌측 채널 신호의 제3 중간 세그먼트를 나타내고,
Figure pat00310
은 현재 프레임에서의 재구성된 우측 채널 신호의 제3 중간 세그먼트를 나타낸다.
Figure pat00311
은 현재 프레임에서의 재구성된 좌측 채널 신호의 제4 중간 세그먼트를 나타내고,
Figure pat00312
은 현재 프레임에서의 재구성된 우측 채널 신호의 제4 중간 세그먼트를 나타낸다.
일부 가능한 구현들에서,
Figure pat00313
;
Figure pat00314
;
Figure pat00315
; 및
Figure pat00316
이며,
여기서,
Figure pat00317
은 현재 프레임에서의 디코딩된 1차 채널 신호를 나타내고,
Figure pat00318
은 현재 프레임에서의 디코딩된 2차 채널 신호를 나타낸다.
Figure pat00319
는 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 업믹스 매트릭스를 나타내고,
Figure pat00320
는 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00321
은 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 업믹스 매트릭스를 나타내고,
Figure pat00322
은 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 구성된다.
Figure pat00323
는 복수의 형태를 가질 수 있으며, 세부 사항은 다음:
Figure pat00324
, 또는
Figure pat00325
, 또는
Figure pat00326
, 또는
Figure pat00327
, 또는
Figure pat00328
, 또는
Figure pat00329
과 같으며,
여기서,
Figure pat00330
,
Figure pat00331
이다.
Figure pat00332
은 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
Figure pat00333
은 복수의 형태를 가질 수 있으며, 예를 들어,
Figure pat00334
, 또는
Figure pat00335
이며,
여기서,
Figure pat00336
는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
본 출원의 이 실시 예에서, 현재 프레임의 스테레오 파라미터(예를 들어, 채널 조합 비율 팩터 및/또는 채널 간 시간 차이(inter-channel time difference))는 고정된 값일 수 있거나, 또는 현재 프레임에 대한 채널 조합 방식(예를 들어, 현재 프레임에 대한 상관된 신호 채널 조합 방식 또는 반상관된 신호 채널 조합 방식)에 기반하여 결정될 수 있다.
도 8을 참조하면 다음은 예를 사용하여 시간-도메인 스테레오 파라미터 결정 방법을 설명한다. 시간-도메인 스테레오 파라미터 결정 방법의 관련 단계는 인코딩 장치에 의해 구현될 수 있고, 상기 방법은 구체적으로 다음 단계를 포함할 수 있다.
801. 현재 프레임에 대한 채널 조합 방식을 결정한다.
802. 현재 도메인에 대한 채널 조합 방식에 기반하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하고, 여기서 시간-도메인 스테레오 파라미터는 채널 조합 비율 팩터 및 채널 간 시간 차이 중 적어도 하나를 포함한다.
현재 프레임에 대한 채널 조합 방식은 복수의 채널 조합 방식 중 하나이다.
예를 들어, 복수의 채널 조합 방식은 반상관된 신호 채널 조합 방식 및 상관된 신호 채널 조합 방식을 포함한다.
상관된 신호 채널 조합 방식은 거의 동위상 신호에 대응하는 채널 조합 방식이다. 반상관된 신호 채널 조합 방식은 거의 역위상 신호에 대응하는 채널 조합 방식이다. 거의 동위상 신호에 대응하는 채널 조합 방식은 거의 동위상 신호에 적용 가능하고, 거의 역위상 신호에 대응하는 채널 조합 방식은 거의 역위상 신호에 적용 가능하다는 것을 이해할 수 있다.
현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 것으로 결정되는 경우, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 스테레오 파라미터거나; 또는 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 것으로 결정되는 경우, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 스테레오 파라미터이다.
전술한 솔루션에서, 현재 프레임에 대한 채널 조합 방식이 결정될 필요가 있으며, 이는 현재 프레임에 대한 채널 조합 방식에 대한 복수의 가능성이 있음을 나타내는 것을 이해할 수 있다. 하나의 채널 조합 방식이 존재하는 종래의 솔루션과 비교하여, 복수의 가능한 채널 조합 방식을 갖는 이 솔루션은 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있다. 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 채널 조합 방식에 기반하여 결정되기 때문에, 시간-도메인 스테레오 파라미터는 복수의 가능한 시나리오와 더 잘 호환되고 매칭될 수 있고, 인코딩 및 디코딩 품질은 더 개선될 수 있다.
일부 가능한 구현들에서, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터와 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터는 먼저 개별적으로 계산될 수 있다. 그리고, 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 것으로 결정되는 경우, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 상관된 채널 조합 방식에 대응하는 시간-도메인 스테레오 파라미터인 것으로 결정되거나; 또는 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 것으로 결정되는 경우, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 스테레오 파라미터인 것으로 결정된다. 다르게는, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 스테레오 파라미터가 먼저 계산될 수 있고, 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 것으로 결정되는 경우, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 스테레오 파라미터인 것으로 결정되거나, 또는 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널인 것으로 결정되는 경우, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 스테레오 파라미터가 계산되고, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 스테레오 파라미터가 현재 프레임의 시간-도메인 스테레오 파라미터인 것으로 결정된다.
다르게는, 현재 프레임에 대한 채널 조합 방식이 먼저 결정될 수 있다. 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 것으로 결정되는 경우, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 스테레오 파라미터가 계산되고, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 시간-도메인 스테레오 파라미터이거나; 또는 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 것으로 결정되는 경우, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 스테레오 파라미터가 계산되고, 현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 시간-도메인 스테레오 파라미터이다.
일부 가능한 구현들에서, 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는, 현재 프레임에 대한 채널 조합 방식에 기반하여, 현재 프레임에 대한 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값을 결정하는 단계를 포함한다. 현재 프레임에 대한 채널 조합 방식(상관된 신호 채널 조합 방식 또는 반상관된 신호 채널 조합 방식)에 대응하는 채널 조합 비율 팩터의 초기값이 수정될 필요가 없는 경우, 현재 프레임에 대한 채널 조합 방식에 대응하는 채널 조합 비율 팩터는 현재 프레임에 대한 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값과 같다. 현재 프레임에 대한 채널 조합 방식(상관된 신호 채널 조합 방식 또는 반상관된 신호 채널 조합 방식)에 대응하는 채널 조합 비율 팩터의 초기값을 수정해야 하는 경우, 현재 프레임에 대한 채널 조합 방식에 대응하는 초기값이 수정되어, 현재 프레임에 대한 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값이 획득되며, 현재 프레임에 대한 채널 조합 방식에 대응하는 채널 조합 비율 팩터는 현재 프레임에 대한 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값과 같다.
예를 들어, 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는, 현재 프레임에서 좌측 채널 신호에 기반하여 현재 프레임에서의 좌측 채널 신호의 프레임 에너지를 계산하는 단계; 현재 프레임의 우측 채널 신호에 기반하여 현재 프레임에서의 우측 채널 신호의 프레임 에너지를 계산하는 단계; 및 현재 프레임에서의 좌측 채널 신호의 프레임 에너지 및 현재 프레임에서의 우측 채널 신호의 프레임 에너지에 기반하여 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값을 계산하는 단계를 포함한다.
현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값이 수정될 필요가 없는 경우, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값과 같고, 그리고 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값의 인코딩된 인덱스와 같다.
현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값이 수정될 필요가 있는 경우, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값과 초기값의 인코딩된 인덱스가 수정되어, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값 및 수정된 값의 인코딩된 인덱스를 획득한다. 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값과 같으며, 그리고 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스 값은, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값의 인코딩된 인덱스와 같다.
구체적으로, 예를 들어, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값 및 초기값의 인코딩된 인덱스가 수정되는 경우,
Figure pat00337
; 및
Figure pat00338
이며,
여기서,
Figure pat00339
는 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스를 나타내고,
Figure pat00340
는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값에 대응하는 인코딩된 인덱스를 나타내며, 그리고
Figure pat00341
는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값을 나타낸다.
다른 예를 들어, 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는, 현재 프레임에서 좌측 채널 신호 및 우측 채널 신호에 기반하여 현재 프레임에서의 기준 채널 신호를 획득하는 단계; 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터를 계산하는 단계; 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터를 계산하는 단계; 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 및 우측 채널 신호와 기준 챈널 신호 사이의 진폭 상관 파라미터에 기반하여, 현재 프레임에서의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터를 계산하는 단계; 현재 프레임에서의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터에 기반하여, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하는 단계를 포함한다.
현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터에 기반하여, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하는 단계는, 예를 들어, 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터에 기반하여, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값을 계산하는 단계; 및 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값을 수정하여, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 획득하는 단계를 포함한다. 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값이 수정될 필요가 없는 경우, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값과 같은 것으로 이해될 수 있다.
일부 가능한 구현들에서,
Figure pat00342
; 및
Figure pat00343
이며,
여기서,
Figure pat00344
이고,
Figure pat00345
은 현재 프레임에서 기준 채널 신호를 나타낸다.
Figure pat00346
은 현재 프레임에서 지연 정렬 처리를 거친 좌측 채널 신호를 나타내고,
Figure pat00347
은 현재 프레임에서 지연 정렬 처리를 거친 우측 채널 신호를 나타내며,
Figure pat00348
은 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터를 나타내고,
Figure pat00349
은 현재 프레임에서 우측 채널 신호와 현재 프레임에서 기준 채널 신호 사이의 진폭 상관 파라미터를 나타낸다.
일부 가능한 구현들에서, 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 진폭 상관 파라미터 및 현재 프레임에서 우측 채널 신호 및 기준 채널 신호 사이의 진폭 상관 파라미터에 기반하여, 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터를 계산하는 단계는, 현재 프레임에서 기준 채널 신호와 지연 정렬 처리를 거친 좌측 채널 신호 사이의 진폭 상관 파라미터에 기반하여, 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터(long-term smoothed amplitude correlation parameter)를 계산하는 단계; 현재 프레임에서 기준 채널 신호와 지연 정렬 처리를 거친 우측 채널 신호 사이의 진폭 상관 파라미터에 기반하여, 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산하는 단계; 및 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터와 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터에 기반하여, 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터를 계산하는 단계를 포함한다.
예를 들어 다양한 평활화 방식(smoothing manner)이 있을 수 있으며, 예를 들어,
Figure pat00350
이며,
여기서,
Figure pat00351
이고, A는 현재 프레임에서 좌측 채널 신호의 장기 평활화된 프레임 에너지의 업데이트 팩터를 나타내고,
Figure pat00352
는 현재 프레임에서 좌측 채널 신호의 장기 평활화된 프레임 에너지를 나타내며,
Figure pat00353
은 현재 프레임에서 좌측 채널 신호의 프레임 에너지를 나타내고,
Figure pat00354
는 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며,
Figure pat00355
는 이전 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, α는 좌측 채널 평활화 팩터를 나타낸다.
예를 들어,
Figure pat00356
이며, 여기서,
Figure pat00357
이고, B는 현재 프레임에서 우측 채널 신호의 장기 평활화된 프레임 에너지의 업데이트 팩터를 나타내고,
Figure pat00358
은 현재 프레임에서 우측 채널 신호의 장기 평활화된 프레임 에너지를 나타내며,
Figure pat00359
은 현재 프레임에서 우측 채널 신호의 프레임 에너지를 나타내고,
Figure pat00360
은 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며,
Figure pat00361
은 이전 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고, β는 우측 채널 평활화 팩터를 나타낸다.
일부 가능한 구현들에서,
Figure pat00362
이고, 여기서,
Figure pat00363
은 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고,
Figure pat00364
은 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며,
Figure pat00365
은 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터를 나타낸다.
일부 가능한 구현들에서, 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터에 기반하여, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하는 단계는, 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터의 값 범위가
Figure pat00366
가 되도록 하기 위해, 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터에 대해 매핑 처리를 수행하는 단계; 및 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터를 채널 조합 비율 팩터로 변환하는 단계를 포함한다.
일부 가능한 구현들에서, 현재 프레임에서 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터에 대해 매핑 처리를 수행하는 단계는, 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터에 대한 진폭 제한(limiting)을 수행하는 단계; 및 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭-제한된 진폭 상관 차이 파라미터에 대한 매핑 처리를 수행하는 단계를 포함한다.
다양한 진폭 제한 방식이 있을 수 있으며, 구체적으로 예를 들면,
Figure pat00367
이며,
Figure pat00368
는 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최대값을 나타내고,
Figure pat00369
은 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최소값을 나타내며,
Figure pat00370
이다.
다양한 매핑 처리 방식이 있을 수 있으며, 구체적으로 예를 들면,
Figure pat00371
이며, 여기서,
Figure pat00372
또는
Figure pat00373
또는
Figure pat00374
또는
Figure pat00375
이며,
Figure pat00376
은 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터를 나타내고;
Figure pat00377
는 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터의 최대값을 나타내고,
Figure pat00378
는 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터의 높은 임계값을 나타내며,
Figure pat00379
는 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터의 낮은 임계값을 나타내고,
Figure pat00380
은 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터의 최소값을 나타내고
Figure pat00381
이며;
Figure pat00382
는 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최대값을 나타내고,
Figure pat00383
는 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭-제한된 진폭 상관 차이 파라미터의 높은 임계값을 나타내며,
Figure pat00384
는 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭-제한된 진폭 상관 차이 파라미터의 낮은 임계값을 나타내고,
Figure pat00385
은 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭-제한된 진폭 상관 차이 파라미터의 최소값을 나타내며; 그리고
Figure pat00386
이다.
다른 예를 들면,
Figure pat00387
이고, 여기서,
Figure pat00388
는 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 제한된 진폭 상관 차이 파라미터를 나타내고,
Figure pat00389
은 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터를 나타내며,
Figure pat00390
이고,
Figure pat00391
는 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터의 최대 진폭을 나타내고,
Figure pat00392
는 현재 프레임에서의 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터의 최소 진폭을 나타낸다.
일부 가능한 구현들에서,
Figure pat00393
이며, 여기서,
Figure pat00394
은 현재 프레임에서 좌측 및 우측 채널 신호들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터를 나타내고;
Figure pat00395
은 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타내거나, 또는
Figure pat00396
은 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값을 나타낸다.
본 출원의 일부 가능한 구현들에서, 채널 조합 비율 팩터가 수정될 필요가 있는 시나리오에서, 채널 조합 비율 팩터가 인코딩되기 전후에 수정이 수행될 수도 있다. 구체적으로, 예를 들어, 현재 프레임의 채널 조합 비율 팩터(예를 들어, 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 또는 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터)의 초기값이 먼저 계산을 통해 획득될 수 있고, 이어서 채널 조합 비율 팩터의 초기값이 인코딩되어 현재 프레임의 채널 조합 비율 팩터의 초기 인코딩된 인덱스를 획득하며, 현재 프레임의 채널 조합 비율 팩터의 획득된 초기 인코딩된 인덱스가 수정되어, 현재 프레임의 채널 조합 비율 팩터의 인코딩된 인덱스가 획득된다(현재 프레임의 채널 조합 비율 팩터의 인코딩된 인덱스를 획득하는 것은 현재 프레임의 채널 조합 비율 팩터를 획득하는 것과 동등함). 다르게는, 현재 프레임의 채널 조합 비율 팩터의 초기값이 먼저 계산을 통해 획득될 수 있고, 이어서 계산을 통해 획득된 현재 프레임의 채널 조합 비율 팩터의 초기값이 수정되어 현재 프레임의 채널 조합 비율 팩터를 획득하며, 현재 프레임의 획득된 채널 조합 비율 팩터가 인코딩되어 현재 프레임의 채널 조합 비율 팩터의 인코딩된 인덱스가 획득된다.
현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값을 수정하는 다양한 방식이 있다. 예를 들어, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값이 수정되어 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 획득할 필요가 있는 경우, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값이, 이전 프레임의 채널 조합 비율 팩터 및 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값에 기반하여 수정될 수 있거나; 또는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값이, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값에 기반하여 수정될 수 있다.
예를 들어, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값이 수정될 필요가 있는지는 먼저, 현재 프레임에서 좌측 채널 신호의 장기 평활화된 프레임 에너지, 현재 프레임에서 우측 채널 신호의 장기 평활화된 프레임 에너지, 현재 프레임에서 좌측 채널 신호의 프레임 간 에너지 차이(inter-frame energy difference), 히스토리 버퍼에서의 이전 프레임의 버퍼링된 인코딩 파라미터(예를 들어, 1차 채널 신호의 프레임 간 상관(inter-frame correlation) 및 2차 채널 신호의 프레임 간 상관), 현재 프레임과 이전 프레임의 채널 조합 방식 플래그들, 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터, 및 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값에 기반하여 결정된다. 만약 그렇다면, 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터가 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터로서 사용되며; 그렇지 않으면, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값이 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터로서 사용된다.
물론, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값을 수정하여 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 획득하는 것의 특정 구현은 전술한 예에 제한되지 않는다.
803. 현재 프레임의 결정된 시간-도메인 스테레오 파라미터를 인코딩한다.
일부 가능한 구현들에서, 양자화 인코딩은 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하여 결정된 채널 조합 비율 팩터에 대해 수행되고,
Figure pat00397
이며,
여기서,
Figure pat00398
은 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 대해 스칼라 양자화(scalar quantization)를 수행하기 위한 코드북을 나타내고;
Figure pat00399
은 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기 인코딩된 인덱스를 나타내며;
Figure pat00400
은 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 양자화 인코딩된 초기값을 나타낸다.
일부 가능한 구현들에서,
Figure pat00401
, 및
Figure pat00402
이며, 여기서.
Figure pat00403
은 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타내고,
Figure pat00404
은 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스를 나타내고; 또는
Figure pat00405
, 및
Figure pat00406
이며, 여기서,
Figure pat00407
은 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 초기 인코딩된 인덱스를 나타내고;
Figure pat00408
은 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 최종 인코딩된 인덱스를 나타내며;
Figure pat00409
는 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정 팩터이고;
Figure pat00410
는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 나타낸다.
일부 가능한 구현들에서, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값이 수정되어, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 획득할 필요가 있는 경우, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값에 대해 양자화 인코딩이 먼저 수행되어, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기 인코딩된 인덱스를 획득할 수 있으며; 그리고 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기 인코딩된 인덱스는 이전 프레임의 채널 조합 비율 팩터의 인코딩된 인덱스 및 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 조합 비율 팩터의 초기 인코딩된 인덱스에 기반하여 수정될 수 있으며; 또는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기 인코딩된 인덱스는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기 인코딩된 인덱스에 기반하여 수정될 수도 있다.
예를 들어, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값에 대해 양자화 인코딩이 먼저 수행되어, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기 인코딩된 인덱스가 획득될 수 있다. 그리고, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값이 수정될 필요가 있는 경우, 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스가, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스로서 사용되며; 그렇지 않으면, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기 인코딩된 인덱스가, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스로서 사용된다. 마지막으로, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스에 대응하는 양자화 인코딩된 값이, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터로서 사용된다 .
또한, 시간-도메인 스테레오 파라미터가 채널 간 시간 차이(inter-channel time difference)를 포함하는 경우, 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계는, 현재 프레임에 대한 채널 조합 방식이 상관된 신호 채널 조합 방식인 경우에 현재 프레임의 채널 간 시간 차이를 계산하는 단계를 포함할 수 있다. 또한, 계산을 통해 획득된 현재 프레임의 채널 간 시간 차이는 비트 스트림에 기록될 수 있다. 현재 프레임에 대한 채널 조합 방식이 반상관된 신호 채널 조합 방식인 경우, 디폴트 채널 간 시간 차이(예를 들어, 0)가 현재 프레임의 채널 간 시간 차이로서 사용된다. 또한, 디폴트 채널 간 시간 차이는 비트 스트림에 기록되지 않을 수 있고, 디코딩 장치는 또한 디폴트 채널 간 시간 차이를 사용한다.
다음은 예를 사용하여 시간-도메인 스테레오 파라미터 인코딩 방법을 추가로 제공한다. 상기 방법은 예를 들어, 현재 프레임에 대한 채널 조합 방식을 결정하는 단계; 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하는 단계; 및 현재 프레임의 결정된 시간-도메인 스테레오 파라미터를 인코딩하는 단계 - 시간-도메인 스테레오 파라미터는 채널 조합 비율 팩터 및 채널 간 시간 차이 중 적어도 하나를 포함함 - 를 포함한다.
이에 따라, 디코딩 장치는 비트 스트림으로부터 현재 프레임의 시간-도메인 스테레오 파라미터를 획득하고, 추가로, 비트 스트림으로부터 획득된 현재 프레임의 시간-도메인 스테레오 파라미터에 기반하여 관련 디코딩을 수행할 수 있다.
다음은 예를 사용하여 보다 구체적인 응용 시나리오에 대하여 설명한다.
도 9a는 본 출원의 실시 예에 따른 오디오 인코딩 방법의 개략적인 흐름도이다. 본 출원의 본 실시 예에서 제공되는 오디오 인코딩 방법은 인코딩 장치에 의해 구현될 수 있고, 상기 방법은 구체적으로 다음 단계들을 포함할 수 있다.
901. 현재 프레임에서 원래의 좌측 및 우측 채널 신호들에 대해 시간-도메인 전처리를 수행한다.
예를 들어, 스테레오 오디오 신호의 샘플링 레이트가 16KHz이면, 하나의 프레임의 신호는 20ms이고, 프레임 길이는 N으로 표시되며, N = 320인 경우, 이는 프레임 길이가 320개의 샘플링 포인트임을 나타낸다. 현재 프레임에서 스테레오 신호는 현재 프레임에서 좌측 채널 신호 및 현재 프레임에서 우측 채널 신호를 포함한다. 현재 프레임에서 원래의 좌측 채널 신호는
Figure pat00411
로 표시되고, 현재 프레임에서 원래의 우측 채널 신호는
Figure pat00412
로 표시되며, n은 샘플링 포인트 수이며,
Figure pat00413
이다.
예를 들어, 현재 프레임에서 원래의 좌측 및 우측 채널 신호들에 대해 시간-도메인 전처리를 수행하는 단계는, 현재 프레임에서 원래의 좌측 및 우측 채널 신호들에 대해 고역 통과(high-pass) 필터링 처리를 수행하여, 현재 프레임에서 시간-도메인 전처리를 거친 좌측 및 우측 채널 신호들을 획득하는 단계를 포함할 수 있으며, 현재 프레임에서 시간-도메인 전처리를 거친 좌측 채널 신호는
Figure pat00414
로 표시되고, 현재 프레임에서 시간-도메인 전처리를 거친 우측 채널 신호는
Figure pat00415
로 표시된다. 여기서, n은 샘플링 포인트 수이며,
Figure pat00416
이다. 고역 통과 필터링 처리에 사용되는 필터는, 예를 들어 차단(cut-off) 주파수가 20Hz인 무한 임펄스 응답(Infinite Impulse Response, IIR) 필터이거나 다른 유형의 필터일 수 있다.
예를 들어, 샘플링 레이트가 16KHz이고 차단 주파수가 20Hz인 고역 통과 필터의 전달 함수(transfer function)는 다음:
Figure pat00417
과 같을 수 있으며, 여기서,
Figure pat00418
= 0.994461788958195,
Figure pat00419
= -1.988923577916390,
Figure pat00420
= 0.994461788958195,
Figure pat00421
= 1.988892905899653,
Figure pat00422
= -0.988954249933127 이며, z는 Z 변환(transform)의 변환 팩터(transform factor)이다.
대응하는 시간-도메인 필터의 전달 함수는 다음:
Figure pat00423
Figure pat00424
과 같이 표현될 수 있다
902. 현재 프레임에서 시간-도메인 전처리를 거친 좌측 및 우측 채널 신호들에 대해 지연 정렬 처리를 수행하여, 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들을 획득한다.
지연 정렬 처리를 거친 신호를 간단히 "지연 정렬된 신호(delay-aligned signal)"라고 지칭할 수 있다. 예를 들어, 지연 정렬 처리를 거친 좌측 채널 신호를 간단히 "지연 정렬된 좌측 채널 신호"라고 지칭할 수 있고, 지연 정렬 처리를 거친 우측 채널 신호를 간단히 "지연 정렬된 우측 채널 신호" 등으로 지칭할 수 있다.
구체적으로, 현재 프레임에서 전처리된 좌측 및 우측 채널 신호들에 기반하여 채널 간 지연 파라미터가 추출된 다음에 인코딩될 수 있으며, 인코딩된 채널 간 지연 파라미터에 기반하여 지연 정렬 처리가 좌측 및 우측 채널 신호들에 대해 수행되어, 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들을 획득할 수 있다. 현재 프레임에서 지연 정렬 처리를 거친 좌측 채널 신호는
Figure pat00425
로 표시되고, 현재 프레임에서 지연 정렬 처리를 거친 우측 채널 신호는
Figure pat00426
로 표시되며, 여기서 n은 샘플링 포인트 수이고,
Figure pat00427
이다.
구체적으로, 예를 들어, 인코딩 장치는 현재 프레임에서 전처리된 좌측 및 우측 채널 신호들에 기반하여 좌측 및 우측 채널의 시간-도메인 교차 상관 함수를 계산할 수 있고; 좌측 및 우측 채널의 시간-도메인 교차 상관 함수의 최대값(또는 다른 값)을 검색하여 좌측 및 우측 채널 신호들 사이의 시간 차이를 결정하며; 좌측 및 우측 채널들 사이의 결정된 시간 차이에 대해 양자화 인코딩을 수행하고; 좌측 및 우측 채널들로부터 선택된 하나의 채널의 신호를 기준으로서 사용하며, 좌측 및 우측 채널들 사이의 양자화 인코딩된 시간 차이에 기반하여 다른 채널의 신호에 대한 지연 조정을 수행하여 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들을 획득할 수 있다.
지연 정렬 처리의 많은 특정 구현 방법이 존재하며, 특정 지연 정렬 처리 방법은이 실시 예에서 제한되지 않는다는 것을 유의해야 한다.
903. 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들에 대해 시간 도메인 분석을 수행한다.
구체적으로, 시간 도메인 분석은 과도 검출(transient detection) 등을 포함할 수 있다. 과도 검출은 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들에 대해 수행되는 에너지 검출일 수 있다(구체적으로, 현재 프레임이 급격한 에너지 변화를 갖는지가 검출될 수 있다). 예를 들어, 현재 프레임에서 지연 정렬 처리를 거친 좌측 채널 신호의 에너지는
Figure pat00428
로 표현되고, 이전 프레임에서 지연 정렬 처리를 거친 좌측 채널 신호의 에너지는
Figure pat00429
로 표현된다. 이 경우,
Figure pat00430
Figure pat00431
사이의 차이의 절대값에 기반하여 과도 검출이 수행되어 현재 프레임에서 지연 정렬 처리를 거친 좌측 채널 신호의 과도 검출 결과를 획득할 수 있다. 마찬가지로, 현재 프레임에서 지연 정렬 처리를 거친 우측 채널 신호에 대해 동일한 방법으로 과도 검출을 수행할 수 있다. 시간 도메인 분석은 과도 검출 이외의 다른 종래의 방식에서의 시간 도메인 분석을 더 포함할 수 있으며, 예를 들어 주파수 대역 확장 전처리를 포함할 수 있다.
단계(903)는 단계(902) 이후 및 현재 프레임에서의 1차 채널 신호 및 2차 채널 신호가 인코딩되기 전에 언제든지 수행될 수 있음을 이해할 수 있다.
904. 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들에 기반하여 현재 프레임에 대한 채널 조합 방식 결정을 수행하여, 현재 프레임에 대한 채널 조합 방식을 결정한다.
본 실시 예에서는 2개의 가능한 채널 조합 방식을 예로 들어 설명하고, 이들 방식들은 다음의 설명에서 각각 상관된 신호 채널 조합 방식 및 반상관된 신호 채널 조합 방식으로 지칭된다. 이 실시 예에서, 상관된 신호 채널 조합 방식은 현재 프레임에서(지연 정렬 후 획득된) 좌측 및 우측 채널 신호들이 거의 동위상 신호인 경우에 대응하고, 반상관된 신호 채널 조합 방식은 현재 프레임에서 (지연 정렬 후 획득된) 좌측 및 우측 채널 신호들이 거의 역위상 신호인 경우에 대응한다. 물론, "상관된 신호 채널 조합 방식" 및 "반상관된 신호 채널 조합 방식" 이외에, 실제 애플리케이션에서, 2개의 가능한 채널 조합 방식을 나타내는데 다른 명칭이 사용될 수도 있다.
이 실시 예의 일부 솔루션에서, 채널 조합 방식 결정은 초기 채널 조합 방식 결정 및 채널 조합 방식 수정 결정으로 분류될 수 있다. 현재 프레임에 대해 채널 조합 방식 결정이 수행되어 현재 프레임에 대한 채널 조합 방식을 결정하는 것임을 이해할 수 있다. 현재 프레임에 대한 채널 조합 방식을 결정하는 구현의 일부 예에 대해서는 전술한 실시 예의 관련 설명을 참조한다. 세부 사항은 여기서 다시 설명하지 않는다.
905. 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들 및 현재 프레임의 채널 조합 방식 플래그에 기반하여, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산 및 인코딩하여, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값 및 초기값의 인코딩된 인덱스를 획득한다.
구체적으로, 예를 들어, 현재 프레임에서 좌측 및 우측 채널 신호들의 프레임 에너지는 먼저 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들에 기반하여 계산되며, 여기서
현재 프레임에서 좌측 채널 신호의 프레임 에너지
Figure pat00432
은 다음:
Figure pat00433
을 만족하며, 그리고
현재 프레임에서 우측 채널 신호의 프레임 에너지
Figure pat00434
는 다음:
Figure pat00435
을 만족하며, 여기서,
Figure pat00436
은 현재프레임에서 지연 정렬 처리를 거친 좌측 채널 신호를 나타내고,
Figure pat00437
은 현재프레임에서 지연 정렬 처리를 거친 우측 채널 신호를 나타낸다.
그 다음에, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터는 현재 프레임에서 좌측 채널의 프레임 에너지 및 우측 채널의 프레임 에너지에 기반하여 계산된다. 계산을 통해 획득된 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터
Figure pat00438
는 다음:
Figure pat00439
을 만족한다.
그리고, 계산을 통해 획득된 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터
Figure pat00440
에 대해 양자화 인코딩을 수행하여, 대응하는 인코딩된 인덱스
Figure pat00441
및 현재프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 양자화 인코딩된 채널 조합 비율 팩터
Figure pat00442
를 획득하며,
Figure pat00443
이다.
여기서,
Figure pat00444
는 스칼라 양자화를 위한 코드북이다. 양자화 인코딩은 임의의 종래의 스칼라 양자화 방법, 예를 들어 균일(uniform) 스칼라 양자화 또는 불균일(non-uniform) 스칼라 양자화를 사용하여 수행될 수 있다. 인코딩을 위해 사용되는 비트 수량은 예를 들어, 5비트이다. 특정 스칼라 방법이 여기에서 다시 설명되지 않는다.
현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 양자화 인코딩된 채널 조합 비율 팩터
Figure pat00445
는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 획득된 초기값이며, 인코딩된 인덱스
Figure pat00446
는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값에 대응하는 인코딩된 인덱스이다.
또한, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값에 대응하는 인코딩된 인덱스는 현재 프레임의 채널 조합 방식 플래그
Figure pat00447
의 값에 기반하여 추가로 수정될 수 있다.
예를 들어, 양자화 인코딩은 5 비트 스칼라 양자화이다.
Figure pat00448
인 경우, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값에 대응하는 인코딩된 인덱스
Figure pat00449
가 미리 설정된 값(예를 들어, 15 또는 다른 값)으로 수정되고; 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값은
Figure pat00450
로 수정될 수 있다.
전술한 계산 방법 이외에, 종래의 시간 도메인 스테레오 인코딩 기술에서 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하는 임의의 방법이 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하는 데 사용될 수 있음에 유의해야 한다. 다르게는, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값은 고정된 값(예를 들어, 0.5 또는 다른 값)으로 직접 설정될 수 있다.
906. 채널 조합 비율 팩터 수정 플래그에 기반하여, 채널 조합 비율 팩터가 수정될 필요가 있는지를 판정한다.
만약 그렇다면, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 채널 조합 비율 팩터의 인코딩된 인덱스가 수정되어, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값 및 수정된 값의 인코딩된 인덱스를 획득한다.
현재 프레임의 채널 조합 비율 수정 플래그는
Figure pat00451
로 표시된다. 예를 들어, 채널 조합 비율 팩터 수정 플래그의 값이 0인 경우, 이는 채널 조합 비율 팩터가 수정될 필요가 없음을 나타내고; 또는 채널 조합 비율 수정 플래그의 값이 1인 경우, 이는 채널 조합 비율 수정이 필요함을 나타낸다. 물론, 다른 상이한 값들이 채널 조합 비율 팩터 수정 플래그로서 사용되어 채널 조합 비율 팩터가 수정될 필요가 있는지를 나타낼 수 있다.
예를 들어, 채널 조합 비율 팩터 수정 플래그에 기반하여, 채널 조합 비율 팩터가 수정될 필요가 있는지를 판정하는 단계는, 구체적으로 다음을 포함할 수 있다: 예를 들어, 채널 조합 비율 팩터 수정 플래그가
Figure pat00452
이면, 채널 조합 비율 팩터가 수정되어야 하는 것으로 결정된다. 다른 예를 들어, 채널 조합 비율 팩터 수정 플래그가
Figure pat00453
이면, 채널 조합 비율 팩터가 수정될 필요가 없는 것으로 결정된다.
현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 채널 조합 비율 팩터의 인코딩된 인덱스를 수정하는 것은, 구체적으로 다음을 포함할 수 있다.
예를 들어, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값에 대응하는 인코딩된 인덱스는 다음:
Figure pat00454
을 만족하며, 여기서,
Figure pat00455
는 이전 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스이다.
현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값
Figure pat00456
은 다음:
Figure pat00457
을 만족한다.
907. 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값과 초기값의 인코딩된 인덱스, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값 및 수정된 값의 인코딩된 인덱스, 그리고 채널 조합 비율 팩터 수정 플래그에 기반하여, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터
Figure pat00458
및 인코딩된 인덱스
Figure pat00459
를 결정한다.
구체적으로, 예를 들어, 상관된 신호 채널 조합 방식에 대응하여 결정된 채널 조합 비율 팩터는 다음:
Figure pat00460
을 만족하며, 여기서,
Figure pat00461
는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값을 나타내고,
Figure pat00462
는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값을 나타내며, 그리고
Figure pat00463
는 현재 프레임의 채널 조합 비율 수정 플래그를 나타낸다.
상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 대응하는 결정된 인코딩된 인덱스
Figure pat00464
는 다음:
Figure pat00465
을 만족하며,
Figure pat00466
는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기값에 대응하는 인코딩된 인덱스를 나타내고,
Figure pat00467
는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 값에 대응하는 인코딩된 인덱스를 나타낸다.
908. 현재 프레임의 채널 조합 방식 플래그가 반상관된 신호 채널 조합 방식에 대응하는지를 판정하고, 그렇다면, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하고 인코딩하여, 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 인코딩된 인덱스를 획득한다.
먼저, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하기 위해 사용된 히스토리 버퍼가 재설정(reset)될 필요가 있는지가 결정될 수 있다.
예를 들어, 현재 프레임의 채널 조합 방식 플래그
Figure pat00468
가 1과 같고(예를 들어,
Figure pat00469
가 1과 같은 것은 현재 프레임의 채널 조합 방식 플래그가 반상관된 신호 채널 조합 방식에 대응함을 나타냄), 이전 프레임의 채널 조합 방식 플래그
Figure pat00470
가 0과 같으면(예를 들어,
Figure pat00471
가 0과 같은 것은 이전 프레임의 채널 조합 방식 플래그가 상관된 신호 채널 조합 방식에 대응함을 나타냄), 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하기 위해 사용되는 히스토리 버퍼가 재설정될 필요가 있음을 나타낸다.
히스토리 버퍼 재설정 플래그
Figure pat00472
는 초기 채널 조합 방식 결정 및 채널 조합 방식 수정 결정의 프로세스에서 결정될 수 있고, 그리고 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하기 위해 사용되는 히스토리 버퍼가 재설정될 필요가 있는지를 판정하기 위해, 히스토리 버퍼 재설정 플래그의 값이 결정된다. 예를 들어,
Figure pat00473
가 1인 경우, 이는 현재 프레임의 채널 조합 방식 플래그가 반상관된 신호 채널 조합 방식에 대응하고, 이전 프레임의 채널 조합 방식 플래그는 상관된 신호 채널 조합 방식에 대응함을 나타낸다. 예를 들어, 히스토리 버퍼 재설정 플래그
Figure pat00474
가 1과 같은 경우, 이는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하기 위해 사용되는 히스토리 버퍼가 재설정될 필요가 있음을 나타낸다. 많은 특정 재설정 방법이 있다. 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하기 위해 사용되는 히스토리 버퍼 내의 모든 파라미터는 미리 설정된 초기값에 기반하여 재설정될 수 있다. 다르게는, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하기 위해 사용되는 히스토리 버퍼 내의 일부 파라미터는 미리 설정된 초기값에 기반하여 재설정될 수 있다. 다르게는, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하기 위해 사용된 히스토리 버퍼 내의 일부 파라미터는 미리 설정된 초기값에 기반하여 재설정될 수 있고, 다른 파라미터는 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하기 위해 사용된 히스토리 버퍼 내의 대응하는 파라미터에 기반하여 재설정될 수 있다
그리고, 현재 프레임의 채널 조합 방식 플래그
Figure pat00475
가 반상관된 신호 채널 조합 방식에 대응하는지가 추가로 판정된다. 반상관된 신호 채널 조합 방식은 거의 역위상 스테레오 신호에 대해 시간-도메인 다운믹싱을 수행하기에 더 적합한 채널 조합 방식이다. 본 실시 예에서, 현재 프레임의 채널 조합 방식 플래그가
Figure pat00476
인 경우, 이는 현재 프레임의 채널 조합 방식 플래그가 반상관된 신호 채널 조합 방식에 대응한다는 것을 나타낸다. 현재 프레임의 채널 조합 방식 플래그가
Figure pat00477
인 경우, 이는 현재 프레임의 채널 조합 방식 플래그가 상관된 신호 채널 조합 방식에 대응한다는 것을 나타낸다.
현재 프레임의 채널 조합 방식 플래그가 반상관된 신호 채널 조합 방식에 대응하는지를 판정하는 단계는 구체적으로,
현재 프레임의 채널 조합 방식 플래그의 값이 1인지 여부를 결정하는 단계; 현재 프레임의 채널 조합 방식 플래그가
Figure pat00478
이면, 현재 프레임의 채널 조합 방식 플래그가 반상관된 신호 채널 조합 방식에 대응하는 것을 나타내는 단계를 포함할 수 있으며, 이 경우, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터는 계산되고 인코딩될 수 있다.
도 9b를 참조하면, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 계산하고 인코딩하는 단계는, 예를 들어, 다음 단계(9081) 내지 단계(9085)를 포함할 수 있다.
9081. 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들에 대한 신호 에너지 분석을 수행한다.
현재 프레임에서 좌측 채널 신호의 프레임 에너지, 현재 프레임에서 우측 채널 신호의 프레임 에너지, 현재 프레임에서 좌측 채널의 장기 평활화된 프레임 에너지, 현재 프레임에서 우측 채널의 장기 평활화된 프레임 에너지, 현재 프레임에서 좌측 채널의 프레임 간 에너지 차이 및 현재 프레임에서 우측 채널의 프레임 간 에너지 차이가 개별적으로 획득된다.
예를 들어, 현재 프레임에서 좌측 채널 신호의 프레임 에너지
Figure pat00479
이 다음:
*
Figure pat00480
을 만족하며,그리고
현재 프레임에서 우측 채널 신호의 프레임 에너지
Figure pat00481
이 다음:
Figure pat00482
을 만족하며,여기서,
Figure pat00483
은 현재 프레임에서 지연 정렬 처리를 거친 좌측 채널 신호를 나타내고,
Figure pat00484
은 현재 프레임에서 지연 정렬 처리를 거친 우측 채널 신호를 나타낸다.
예를 들어, 현재 프레임에서 좌측 채널의 장기 평활화된 프레임 에너지
Figure pat00485
는 다음:
Figure pat00486
을 만족하며, 여기서,
Figure pat00487
는 이전 프레임에서 좌측 채널의 장기 평활화된 프레임 에너지를 나타내고, A는 좌측 채널의 장기 평활화된 프레임 에너지의 업데이트 팩터를 나타내며, A는 예를 들어 0 내지 1의 실수일 수 있고, A는 예를 들어 0.4와 같을 수 있다.
예를 들어, 현재 프레임에서 우측 채널의 장기 평활화된 프레임 에너지
Figure pat00488
은 다음:
Figure pat00489
을 만족하며, 여기서,
Figure pat00490
은 이전 프레임에서 우측 채널의 장기 평활화된 프레임 에너지를 나타내고, B는 우측 채널의 장기 평활화된 프레임 에너지의 업데이트 팩터를 나타내며, B는 예를 들어 0 내지 1의 실수일 수 있고, B는 예를 들어 좌측 채널의 장기 평활화된 프레임 에너지의 업데이트 팩터와 동일하거나 상이할 수 있으며, B는 예를 들어, 0.4와 같을 수 있다.
예를 들어, 현재 프레임에서 좌측 채널의 프레임 간 에너지 차이
Figure pat00491
는 다음:
Figure pat00492
을 만족할 수 있다.
예를 들어, 현재 프레임에서 우측 채널의 프레임 간 에너지 차이
Figure pat00493
는 다음:
Figure pat00494
을 만족할 수 있다.
9082. 현재 프레임에서 지연 정렬 처리를 거친 좌측 및 우측 채널 신호들에 기반하여 현재 프레임의 기준 채널 신호를 결정한다. 기준 채널 신호는 또한 모노(mono) 신호로 지칭될 수 있다. 기준 채널 신호가 모노 신호로 지칭되면, 기준 채널과 관련된 모든 설명 및 파라미터 이름에 대해, 기준 채널 신호는 모노 신호로 대체될 수 있다.
예를 들어, 기준 채널 신호
Figure pat00495
는 다음:
Figure pat00496
을 만족할 수 있으며, 여기서,
Figure pat00497
은 현재 프레임에서 지연 정렬 처리를 거친 좌측 채널 신호를 나타내고,
Figure pat00498
은 현재 프레임에서 지연 정렬 처리를 거친 우측 채널 신호를 나타낸다.
9083. 현재 프레임에서 기준 채널 신호와 지연 정렬 처리를 거친 좌측 채널 신호 사이의 진폭 상관 파라미터 및 현재 프레임에서 기준 채널 신호와 지연 정렬 처리를 거친 우측 채널 신호 사이의 진폭 상관 파라미터를 개별적으로 계산한다.
예를 들어, 현재 프레임에서 기준 채널 신호와 지연 정렬 처리를 거친 좌측 채널 신호 사이의 진폭 상관 파라미터
Figure pat00499
는 예를 들어, 다음:
Figure pat00500
을 만족한다.
예를 들어, 현재 프레임에서 기준 채널 신호와 지연 정렬 처리를 거친 우측 채널 신호 사이의 진폭 상관 파라미터
Figure pat00501
는 예를 들어 다음:
Figure pat00502
을 만족한다.
여기에서,
Figure pat00503
은 현재 프레임에서 지연 정렬 처리를 거친 좌측 채널 신호를 나타내고,
Figure pat00504
은 현재 프레임에서 지연 정렬 처리를 거친 우측 채널 신호를 나타내며,
Figure pat00505
은 현재 프레임에서 기준 채널 신호를 나타내고,
Figure pat00506
는 절대값을 채택하는 것을 나타낸다.
9084. 현재 프레임에서 기준 채널 신호와 지연 정렬 처리를 거친 좌측 채널 신호 사이의 진폭 상관 파라미터 및 현재 프레임에서 기준 채널 신호와 지연 정렬 처리를 거친 우측 채널 신호 사이의 진폭 상관 파라미터에 기반하여, 현재 프레임에서 좌측 및 우측 채널 사이의 진폭 상관 차이 파라미터
Figure pat00507
를 계산한다.
단계(9081)은 단계(9082) 및 단계(9083) 이전에 수행될 수 있거나, 단계(9082) 및 단계(9083) 이후 그리고 단계(9084) 이전에 수행될 수 있다는 것이 이해될 수 있다.
도 9c를 참조하면 예를 들어, 현재 프레임에서 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터
Figure pat00508
를 계산하는 단계는 구체적으로 다음 단계(90841) 및 단계(90842)를 포함할 수 있다.
90841. 현재 프레임에서 기준 채널 신호와 지연 정렬 처리를 거친 좌측 채널 신호 사이의 진폭 상관 파라미터 및 현재 프레임에서 기준 채널 신호와 지연 정렬 처리를 거친 우측 채널 신호 사이의 진폭 상관 파라미터에 기반하여, 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 및 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산한다.
예를 들어, 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 및 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산하는 방법은, 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터
Figure pat00509
이 다음:
Figure pat00510
을 만족하는 것을 포함한다.
여기서,
Figure pat00511
는 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고,
Figure pat00512
는 이전 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며, α는 좌측 채널 평활화 팩터를 나타내고, α는 0에서 1 사이의 미리 설정된 실수일 수 있으며, 예를 들어, 0.2, 0.5, 또는 0.8과 같을 수 있다. 다르게는, α의 값은 적응적 계산을 통해 획득될 수 있다.
예를 들어, 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터
Figure pat00513
이 다음:
Figure pat00514
을 만족하는 것을 포함한다.
여기서,
Figure pat00515
는 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고,
Figure pat00516
는 이전 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내며, β는 우측 채널 평활화 팩터를 나타내고, β는 0에서 1 사이의 미리 설정된 실수일 수 있다. β는 우측 채널 평활화 팩터 α의 값과 동일하거나 상이할 수 있으며, β는 예를 들어, 0.2, 0.5, 또는 0.8과 같을 수 있다. 다르게는, β의 값은 적응적 계산을 통해 획득될 수 있다.
현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 및 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산하는 다른 방법은,
먼저, 현재 프레임에서 기준 채널 신호와 지연 정렬 처리를 거친 좌측 채널 신호 사이의 진폭 상관 파라미터
Figure pat00517
를 수정하여, 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 수정된 진폭 상관 파라미터
Figure pat00518
를 획득하는 단계; 및 현재 프레임에서 기준 채널 신호와 지연 정렬 처리를 거친 우측 채널 신호 사이의 진폭 상관 파라미터
Figure pat00519
를 수정하여, 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 수정된 진폭 상관 파라미터
Figure pat00520
를 획득하는 단계;
그 다음, 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 수정된 진폭 상관 파라미터
Figure pat00521
, 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 수정된 진폭 상관 파라미터
Figure pat00522
, 이전 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터
Figure pat00523
, 및 이전 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터
Figure pat00524
에 기반하여, 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 차이 파라미터
Figure pat00525
및 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 차이 파라미터
Figure pat00526
를 결정하는 단계;
그 다음에, 현재 프레임에서의 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 차이 파라미터
Figure pat00527
및 현재 프레임에서 우측 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 차이 파라미터
Figure pat00528
에 기반하여, 현재 프레임에서 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터의 초기값
Figure pat00529
을 획득하고; 그리고 현재 프레임에서 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터의 획득된 초기값
Figure pat00530
및 이전 프레임에서 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터
Figure pat00531
에 기반하여, 현재 프레임에서 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터의 프레임 간 변동 파라미터
Figure pat00532
를 결정하는 단계; 및
마지막으로, 현재 프레임에서 좌측 채널 신호의 프레임 에너지, 현재 프레임에서 우측 채널 신호의 프레임 에너지, 현재 프레임에서 좌측 채널의 장기 평활화된 프레임 에너지, 현재 프레임에서 우측 채널의 장기 평활화된 프레임 에너지, 신호 에너지 분석을 통해 획득된 현재 프레임에서의 좌측 채널의 프레임 간 에너지 차이 및 현재 프레임에서의 우측 채널의 프레임 간 에너지 차이, 그리고 현재 프레임에서 좌측 및 우측 채널들 사이의 진폭 상관 차이의 프레임 간 변동 파라미터에 기반하여, 상이한 좌측 채널 평활화 팩터와 우측 채널 평활화 팩터를 적응적으로 선택하고, 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터
Figure pat00533
및 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터
Figure pat00534
를 계산하는 단계를 포함할 수 있다.
위의 예제로 제공된 두 가지 방법 외에도, 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 및 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 계산하는 많은 방법이 있을 수 있다. 이것은 이 출원에서 제한되지 않는다.
90842. 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터 및 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터에 기반하여, 현재 프레임에서 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터
Figure pat00535
를 계산한다.
예를 들어, 현재 프레임에서 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터
Figure pat00536
는 다음:
Figure pat00537
을 만족하며, 여기서,
Figure pat00538
은 현재 프레임에서 좌측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타내고,
Figure pat00539
은 현재 프레임에서 우측 채널 신호와 기준 채널 신호 사이의 장기 평활화된 진폭 상관 파라미터를 나타낸다.
9085. 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 채널 조합 비율 팩터의 인코딩된 인덱스를 결정하기 위해, 현재 프레임에서 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터
Figure pat00540
를 채널 조합 비율 팩터로 변환하고, 인코딩 및 양자화를 수행한다.
도 9d를 참조하면, 현재 프레임에서 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터를 채널 조합 비율 팩터로 변환하는 가능한 방법은 구체적으로 단계(90851) 내지 단계(90853)를 포함할 수 있다.
90851. 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터의 값 범위가
Figure pat00541
가 되게 하기 위해, 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터에 대해 매핑 처리를 수행한다.
좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터에 대한 매핑 처리를 수행하는 방법은 다음 단계를 포함할 수 있다.
먼저, 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터에 대해 진폭 제한이 수행된다. 예를 들어, 좌측 및 우측 채널들 사이의 진폭 제한된 진폭 상관 차이 파라미터
Figure pat00542
는 다음:
Figure pat00543
을 만족한다.
여기에서,
Figure pat00544
는 좌측 및 우측 채널들 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최대값을 나타내고,
Figure pat00545
는 좌측 및 우측 채널들 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최소값을 나타낸다. 예를 들어,
Figure pat00546
는 미리 설정된 경험적 값(empirical value)이고,
Figure pat00547
는 1.5, 3.0, 또는 다른 값일 수 있으며; 그리고
Figure pat00548
는 미리 설정된 경험적 값이고
Figure pat00549
는 -1.5, -3.0, 또는 다른 값일 수 있으며,
Figure pat00550
이다.
그리고, 좌측 및 우측 채널들 사이의 진폭 제한된 진폭 상관 차이 파라미터에 대해 매핑 처리가 수행된다. 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터
Figure pat00551
는 다음:
Figure pat00552
을 만족하며, 여기서,
Figure pat00553
; 또는
Figure pat00554
또는
Figure pat00555
또는
Figure pat00556
이다.
여기에서,
Figure pat00557
는 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터의 최대값을 나타내고,
Figure pat00558
는 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터의 높은 임계값을 나타내며,
Figure pat00559
는 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터의 낮은 임계값을 나타내고,
Figure pat00560
는 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터의 최소값을 나타내며, 여기서,
Figure pat00561
이다.
예를 들어, 본 출원의 일부 실시 예에서,
Figure pat00562
는 2.0일 수 있고,
Figure pat00563
는 1.2일 수 있으며,
Figure pat00564
는 0.8일 수 있고,
Figure pat00565
는 0.0일 수 있다. 물론, 실제 애플리케이션에서, 값들은 이러한 예에 제한되지 않는다.
Figure pat00566
는 좌측 및 우측 채널들 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최대값을 나타내고,
Figure pat00567
는 좌측 및 우측 채널들 사이의 진폭 제한된 진폭 상관 차이 파라미터의 높은 임계값을 나타내며,
Figure pat00568
는 좌측 및 우측 채널들 사이의 진폭 제한된 진폭 상관 차이 파라미터의 낮은 임계값을 나타내고,
Figure pat00569
는 좌측 및 우측 채널들 사이의 진폭 제한된 진폭 상관 차이 파라미터의 최소값을 나타내고, 여기서,
Figure pat00570
이다.
예를 들어, 본 출원의 일부 실시 예에서,
Figure pat00571
는 1.5이고,
Figure pat00572
는 0.75이며,
Figure pat00573
는 -0.75이고, 그리고
Figure pat00574
는 -1.5이다. 물론, 실제 애플리케이션에서, 값들은 이러한 예에 제한되지 않는다.
본 출원의 일부 실시 예에서의 다른 방법은 다음과 같다. 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터
Figure pat00575
는 다음:
Figure pat00576
을 만족한다.
*여기서,
Figure pat00577
는 좌측 및 우측 채널들 사이의 진폭 제한된 진폭 상관 차이 파라미터를 나타내고, 여기서,
Figure pat00578
이다. 여기에서,
Figure pat00579
는 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터의 최대 진폭을 나타내고,
Figure pat00580
-는 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터의 최소 진폭을 나타낸다.
Figure pat00581
는 미리 설정된 경험적 값일 수 있고,
Figure pat00582
는 예를 들어 1.5, 3.0, 또는 0보다 큰 다른 실수일 수 있다.
90852. 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터이면서 또한 매핑 처리를 거친 진폭 상관 차이 파라미터를 채널 조합 비율로 변환한다.
채널 조합 비율 팩터
Figure pat00583
는 다음:
Figure pat00584
을 만족하며,
Figure pat00585
은 코사인 연산을 나타낸다.
전술한 방법 이외에, 다른 방법이 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터를 채널 조합 비율 팩터로 변환하는데 사용될 수 있으며, 예를 들어,
반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터가 업데이트될 필요가 있는지는, 현재 프레임에서 좌측 채널의 장기 평활화된 프레임 에너지, 현재 프레임에서 우측 채널의 장기 평활화된 프레임 에너지, 신호 에너지 분석을 통해 획득된 현재 프레임에서의 좌측 채널의 프레임 간 에너지 차이 및 현재 프레임에서의 우측 채널의 프레임 간 에너지 차이, 인코더의 히스토리 버퍼 내의 이전 프레임의 버퍼링된 인코딩 파라미터(예를 들어, 1차 채널 신호의 프레임 간 상관 파라미터 및 2차 채널 신호의 프레임 간 상관 파라미터), 현재 프레임과 이전 프레임의 채널 조합 방식 플래그들, 그리고 현재 프레임과 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여 판정된다.
반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터가 업데이트될 필요가 있으면, 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터는 전술한 예의 방법을 사용하여 채널 조합 비율 팩터로 변환되며; 그렇지 않으면, 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 채널 조합 비율 팩터의 인코딩된 인덱스가, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터와 채널 조합 비율 팩터의 인코딩된 인덱스로서 직접 사용된다.
90853. 변환 후 획득된 채널 조합 비율 팩터에 대해 양자화 인코딩을 수행하고, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터를 결정한다.
구체적으로, 예를 들어, 변환 후 획득된 채널 조합 비율 팩터에 대해 양자화 인코딩이 수행되어, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 초기 인코딩된 인덱스
Figure pat00586
및 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 양자화 인코딩된 초기값
Figure pat00587
을 획득하며, 여기서,
*
Figure pat00588
이며, 그리고
Figure pat00589
은 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 대해 스칼라 양자화를 수행하기 위한 코드북을 나타낸다.
양자화 인코딩은 종래 기술에서의 임의의 스칼라 양자화 방법, 예를 들어 균일 스칼라 양자화 또는 불균일 스칼라 양자화를 사용하여 수행될 수 있다. 인코딩에 사용되는 비트의 수량은 5비트일 수 있다. 구체적인 방법은 여기에 기술되지 않았다. 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 대해 스칼라 양자화를 수행하기 위한 코드북은 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 대한 스칼라 양자화를 수행하기 위한 코드북과 동일하거나 상이할 수 있다. 코드북이 동일한 경우, 채널 조합 비율에 대한 스칼라 양자화를 수행하는데 사용되는 하나의 코드북만이 저장될 필요가 있다.
이 경우, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 양자화 인코딩된 초기값
Figure pat00590
은 다음:
Figure pat00591
과 같다.
예를 들어, 방법은, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 양자화 인코딩된 초기값을, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터로서 직접 사용하고, 그리고 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 초기 인코딩된 인덱스를, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스로서 직접 사용하는 것이다.
현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스
Figure pat00592
는 다음:
Figure pat00593
을 만족한다.
현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터는 다음:
Figure pat00594
을 만족한다.
다른 방법은, 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스 또는 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 양자화 인코딩된 초기값 및 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 초기 인코딩된 인덱스를 수정하고; 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정된 인코딩된 인덱스를, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스로서 사용하며; 그리고 반상관된 신호 채널 조합 방식에 대응하는 수정된 채널 조합 비율 팩터를 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터로서 사용하는 것일 수 있다.
현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스
Figure pat00595
는 다음:
Figure pat00596
을 만족한다.
여기서,
Figure pat00597
는 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 초기 인코딩된 인덱스를 나타내고;
Figure pat00598
는 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스이며;
Figure pat00599
는 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 수정 팩터이다.
Figure pat00600
의 값은 경험적 값일 수 있으며,
Figure pat00601
는 예를 들어, 0.8과 같을 수 있다.
현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터는 다음:
Figure pat00602
을 만족한다.
다른 방법은, 반상관된 신호 채널 조합 방식에 대응하는 양자화되지 않은 채널 조합 비율 팩터를 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터로서 사용하는 것이다. 다시 말해서, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터
Figure pat00603
는 다음:
Figure pat00604
을 만족한다.
또한, 제4 방법은, 이전 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 기반하여, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 양자화되지 않은 채널 조합 비율 팩터를 수정하고; 반상관된 신호 채널 조합 방식에 대응하는 수정된 채널 조합 비율 팩터를 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터로서 사용하며; 그리고 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터에 대해 양자화 인코딩을 수행하여, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스를 획득하는 것이다.
전술한 방법 외에도, 좌측 및 우측 채널들 사이의 진폭 상관 차이 파라미터를 채널 조합 비율 팩터로 변환하고 인코딩 및 양자화를 수행하는 많은 방법이 있을 수 있다. 유사하게, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터 및 채널 조합 비율 팩터의 인코딩된 인덱스를 결정하기 위한 많은 상이한 방법이 있을 수 있다. 이것은 본 출원에서 제한되지 않는다.
909. 이전 프레임의 채널 조합 방식 플래그 및 현재 프레임의 채널 조합 방식 플래그에 기반하여 코딩 모드 결정을 수행하여, 현재 프레임의 코딩 모드를 결정한다.
현재 프레임의 채널 조합 방식 플래그는
Figure pat00605
로 표시되고, 이전 프레임의 채널 조합 방식 플래그는
Figure pat00606
로 표시되며, 이전 프레임의 채널 조합 방식 플래그와 현재 프레임의 채널 조합 방식 플래그의 조인트(join) 플래그는
Figure pat00607
로 표시될 수 있다. 코딩 모드 결정은 조인트 플래그에 기반하여 수행될 수 있다. 자세한 내용은 다음 예에 나와 있다.
상관된 신호 채널 조합 방식은 0으로 표시되고 반상관된 신호 채널 조합 방식은 1로 표현된다고 가정한다. 이 경우, 이전 프레임과 현재 프레임의 채널 조합 방식 플래그들의 조인트 플래그는 (01),(11),(10),(00)의 네 가지 경우를 가지며, 현재 프레임의 코딩 모드는 상관된 신호 코딩 모드, 반상관된 신호 코딩 모드, 상관 대 반상관 신호 코딩 스위칭 모드, 및 반상관 대 상관 신호 코딩 스위칭 모드로 결정된다. 예를 들어, 현재 프레임과 이전 프레임의 채널 조합 방식 플래그의 조인트 플래그가 (00)이면, 이는 현재 프레임의 코딩 모드가 상관된 신호 코딩 모드임을 나타내고; 현재 프레임과 이전 프레임의 채널 조합 방식 플래그의 조인트 플래그가 (11)이면, 이는 현재 프레임의 코딩 모드가 반상관된 신호 코딩 모드임을 나타내며; 현재 프레임과 이전 프레임의 채널 조합 방식 플래그의 조인트 플래그가 (01)이면, 이는 현재 프레임의 코딩 모드가 상관 대 반상관 신호 코딩 스위칭 모드임을 나타내고; 또는 현재 프레임과 이전 프레임의 채널 조합 방식 플래그의 조인트 플래그가 (10)이면, 이는 현재 프레임의 코딩 모드가 반상관 대 상관 신호 코딩 스위칭 모드임을 나타낸다.
910. 현재 프레임의 코딩 모드
Figure pat00608
를 획득한 후, 인코딩 장치는 현재 프레임의 코딩 모드에 대응하는 시간-도메인 다운믹스 처리 방법에 기반하여 현재 프레임의 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여, 현재 프레임에서 1차 채널 신호 및 2차 채널 신호를 획득한다.
현재 프레임의 코딩 모드는 복수의 코딩 모드 중 하나이다. 예를 들어, 복수의 코딩 모드는 상관 대 반상관 신호 코딩 스위칭 모드, 반상관 대 상관 신호 코딩 스위칭 모드, 상관된 신호 코딩 모드 및 반상관된 신호 코딩 모드를 포함할 수 있다. 상이한 코딩 모드에서의 시간-도메인 다운믹스 처리의 구현에 대해서는, 전술한 실시 예에서의 예의 관련 설명을 참조한다. 세부 사항은 여기서 다시 설명하지 않는다.
911. 인코딩 장치는 1차 채널 신호 및 2차 채널 신호를 개별적으로 인코딩하여 인코딩된 1차 채널 신호 및 인코딩된 2차 채널 신호를 획득한다.
구체적으로, 이전 프레임에서의 1차 채널 신호 및/또는 2차 채널 신호의 인코딩에서 획득된 파라미터 정보 그리고 1차 채널 신호 및 2차 채널 신호의 인코딩을 위한 총 비트 수량에 기반하여, 1차 채널 신호의 인코딩 및 2차 채널 신호의 인코딩을 위한 비트 할당이 먼저 수행된다. 그 다음에, 1차 채널 신호와 2차 채널 신호가 비트 할당 결과에 기반하여 개별적으로 인코딩되어, 1차 채널 인코딩의 인코딩된 인덱스 및 2차 채널 인코딩의 인코딩된 인덱스를 획득한다. 1차 채널 인코딩 및 2차 채널 인코딩은 임의의 모노 오디오 인코딩 기술을 사용하여 구현될 수 있ㅇ으며, 여기서는 추가로 설명되지 않는다.
912. 인코딩 장치는 채널 조합 방식 플래그에 기반하여 채널 조합 비율 팩터의 대응하는 인코딩된 인덱스를 선택하고, 인코딩된 인덱스를 비트 스트림에 기록하며, 인코딩된 1차 채널 신호, 인코딩된 2차 채널 신호 및 현재 프레임의 채널 조합 방식 플래그를 비트 스트림에 기록한다.
구체적으로, 예를 들어, 현재 프레임의 채널 조합 방식 플래그
Figure pat00609
가 상관된 신호 채널 조합 방식에 대응하면, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스
Figure pat00610
가 비트 스트림에 기록되며; 또는 현재 프레임의 채널 조합 방식 플래그
Figure pat00611
가 반상관된 신호 채널 조합 방식에 대응하면, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스
Figure pat00612
가 비트 스트림에 기록된다. 예를 들어,
Figure pat00613
이면, 현재 프레임에 대한 상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스
Figure pat00614
가 비트 스트림에 기록되고; 또는
Figure pat00615
이면, 현재 프레임에 대한 반상관된 신호 채널 조합 방식에 대응하는 채널 조합 비율 팩터의 인코딩된 인덱스
Figure pat00616
가 비트 스트림에 기록된다.
또한, 현재 프레임의 인코딩된 1차 채널 신호, 인코딩된 2차 채널 신호 및 채널 조합 방식 플래그가 비트 스트림에 기록된다. 비트 스트림 기록 작동을 수행하기 위한 시퀀스가 없다는 것이 이해될 수 있다.
이에 대응하여, 다음은 예를 사용하여 시간 도메인 스테레오 디코딩 시나리오를 설명한다.
도 10을 참조하면, 다음은 오디오 디코딩 방법을 더 제공한다. 오디오 디코딩 방법의 관련 단계는 구체적으로 디코딩 장치에 의해 구현될 수 있고, 상기 방법은 구체적으로 다음 단계를 포함할 수 있다.
1001. 비트 스트림에 기반하여 디코딩을 수행하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들을 획득한다.
1002. 비트 스트림에 기반하여 디코딩을 수행하여 현재 프레임에서의 시간-도메인 스테레오 파라미터를 획득한다.
현재 프레임의 시간-도메인 스테레오 파라미터는 현재 프레임의 채널 조합 비율 팩터를 포함하고(비트 스트림은 현재 프레임의 채널 조합 비율 팩터의 인코딩된 인덱스를 포함하고, 디코딩은 현재 프레임의 채널 조합 비율 팩터의 인코딩된 인덱스에 기반하여 수행되어 현재 프레임의 채널 조합 비율 팩터를 획득할 수 있음), 그리고 현재 프레임의 채널 간 시간 차이 등을 더 포함할 수 있다(예를 들어, 비트 스트림은 현재 프레임의 채널 간 시간 차이의 인코딩된 인덱스를 포함하고, 현재 프레임의 채널 간 시간 차이의 인코딩된 인덱스에 기반하여 디코딩이 수행되어 현재 프레임의 채널 간 시간 차이를 획득할 수 있으며; 또는 비트 스트림이 현재 프레임의 채널 간 시간 차이의 절대값의 인코딩된 인덱스를 포함하고, 현재 프레임의 채널 간 시간 차이의 절대값의 인코딩된 인덱스에 기반하여 디코딩이 수행되어, 현재 프레임의 채널 간 시간 차이의 절대값을 획득할 수 있음).
1003. 비트 스트림에 기반하여, 비트 스트림에 포함된 현재 프레임의 채널 조합 방식 플래그를 획득하고, 현재 프레임에 대한 채널 조합 방식을 결정한다.
1004. 현재 프레임에 대한 채널 조합 방식 및 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 디코딩 모드를 결정한다.
현재 프레임에 대한 채널 조합 방식 및 이전 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 디코딩 모드를 결정하기 위해, 단계(909)에서 현재 프레임의 코딩 모드를 결정하는 방법을 참조한다. 현재 프레임의 디코딩 모드는 복수의 디코딩 모드 중 하나이다. 예를 들어, 복수의 디코딩 모드는 상관 대 반상관 신호 디코딩 스위칭 모드, 반상관 대 상관 신호 디코딩 스위칭 모드, 상관된 신호 디코딩 모드 및 반상관된 신호 디코딩 모드를 포함할 수 있다. 코딩 모드 및 디코딩 모드는 일대일 대응 관계에 있다.
예를 들어, 현재 프레임과 이전 프레임의 채널 조합 방식 플래그의 조인트 플래그가 (00)이면, 이는 현재 프레임의 디코딩 모드가 상관된 신호 디코딩 모드임을 나타내고; 현재 프레임과 이전 프레임의 채널 조합 방식 플래그의 조인트 플래그가 (11)이면, 이는 현재 프레임의 디코딩 모드가 반상관된 신호 디코딩 모드임을 나타내며; 현재 프레임과 이전 프레임의 채널 조합 방식 플래그의 조인트 플래그가 (01)이면, 이는 현재 프레임의 디코딩 모드가 상관 대 반상관 신호 디코딩 스위칭 모드임을 나타내고; 또는 현재 프레임과 이전 프레임의 채널 조합 방식 플래그의 조인트 플래그가 (10)이면, 이는 현재 프레임의 디코딩 모드가 반상관 대 상관 신호 디코딩 스위칭 모드임을 나타낸다.
단계(1001), 단계(1002), 및 단계(1003 및 1004)를 수행하기 위한 제한된 시퀀스가 없음이 이해될 수 있다.
*1005. 현재 프레임의 결정된 디코딩 모드에 대응하는 시간-도메인 업믹스 처리 방식을 사용하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여, 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득한다.
상이한 디코딩 모드에서의 시간-도메인 업믹스 처리의 관련 구현에 대해서는, 전술한 실시 예에서의 예의 관련 설명을 참조한다. 세부 사항은 여기서 다시 설명하지 않는다.
시간-도메인 업믹스 처리에 사용되는 업믹스 매트릭스는 현재 프레임의 획득된 채널 조합 비율 팩터에 기반하여 구성된다.
현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들은 현재 프레임에서의 디코딩된 좌측 및 우측 채널 신호들로 사용될 수 있다.
다르게는, 현재 프레임의 채널 간 시간 차이에 기반하여 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들에 대해 지연 조정이 추가로 수행되어, 현재 프레임에서의 지연 조정을 거친 재구성된 좌측 및 우측 채널 신호들을 획득할 수 있으며, 현재 프레임에서 지연 조정을 거친 재구성된 좌측 및 우측 채널 신호들은 현재 프레임에서의 디코딩된 좌측 및 우측 채널 신호들로서 사용될 수 있다. 다르게는, 현재 프레임에서 지연 조정을 거친 재구성된 좌측 및 우측 채널 신호들에 대해 시간-도메인 후처리를 추가로 수행할 수 있으며, 현재 프레임에서 시간 도메인 후처리를 거친 재구성된 좌측 및 우측 채널 신호들이 현재 프레임에서의 디코딩된 좌측 및 우측 채널 신호들로서 사용될 수 있다.
전술한 내용은 본 출원의 실시 예에서의 방법을 상세히 설명한다. 다음은 본 출원의 실시 예에서의 장치를 설명한다.
도 11a를 참조하면, 본 출원의 실시 예는 장치(1100)를 추가로 제공한다. 장치(1100)는,
서로 연결된(coupled) 프로세서(1110) 및 메모리(1120)를 포함할 수 있으며, 프로세서(1110)는 본 출원의 실시 예에서 제공되는 임의의 방법의 일부 또는 모든 단계를 수행하도록 구성될 수 있다.
메모리(1120)는 랜덤 액세스 메모리(Random Access Memory, RAM), 읽기 전용 메모리(Read-Only Memory, ROM), 소거 가능한 프로그램 가능 읽기 전용 메모리 Erasable Programmable Read Only Memory, EPROM) 또는 컴팩트 디스크 읽기 전용 메모리(Compact Disc Read-Only Memory, CD-ROM)를 포함하지만 이에 한정되지 않는다. 메모리(1102)는 관련 명령 및 관련 데이터를 저장하도록 구성된다.
물론, 장치(1100)는 데이터를 수신 및 전송하도록 구성된 트랜시버(1130)를 더 포함할 수 있다.
프로세서(1110)는 하나 이상의 중앙 처리 장치(Central Processing Unit, CPU)일 수 있다. 프로세서(1110)가 하나의 CPU인 경우, CPU는 단일 코어 CPU이거나 멀티 코어 CPU일 수 있다. 프로세서(1110)는 구체적으로 디지털 신호 프로세서일 수 있다.
구현 프로세스에서, 전술한 방법의 단계는 프로세서(1110)의 하드웨어 집적 논리 회로를 사용하거나 소프트웨어 형태의 명령을 사용하는 것에 의해 구현될 수 있다. 프로세서(1110)는 범용 프로세서, 디지털 신호 프로세서, 애플리케이션 특정 집적 회로, 필드 프로그램 가능 게이트 어레이 또는 다른 프로그램 가능 논리 디바이스, 이산 게이트 또는 트랜지스터 논리 디바이스, 또는 이산 하드웨어 구성 요소일 수 있다. 프로세서(1110)는 본 발명의 실시 예에 개시된 방법, 단계 및 논리 블록도를 구현 또는 수행할 수 있다. 범용 프로세서는 마이크로 프로세서일 수 있거나, 프로세서는 임의의 종래의 프로세서 등일 수 있다. 본 발명의 실시 예들을 참조하여 개시된 방법들의 단계들은 하드웨어 디코딩 프로세서를 사용하여 직접 실행 및 달성될 수 있거나, 또는 디코딩 프로세서에서 하드웨어 및 소프트웨어 모듈들의 조합을 사용하여 실행 및 달성될 수 있다.
소프트웨어 모듈은 랜덤 액세스 메모리, 플래시 메모리, 판독 전용 메모리, 프로그램 가능 판독 전용 메모리, 전기 소거 가능 프로그램 가능 메모리, 또는 레지스터와 같은 해당 기술 분야의 성숙한 저장 매체에 위치할 수 있다. 저장 매체는 메모리(1120)에 위치된다. 예를 들어, 프로세서(1110)는 메모리(1120)에서 정보를 판독하고, 프로세서(1110)의 하드웨어와 조합하여 전술한 방법의 단계들을 완료할 수 있다.
또한, 장치(1100)는 트랜시버(1130)를 더 포함할 수 있다. 트랜시버(1130)는 예를 들어 관련 데이터(예를 들어, 명령, 채널 신호 또는 비트 스트림)를 수신 및 전송하도록 구성될 수 있다.
예를 들어, 장치(1100)는 도 2 내지 도 9d에 도시된 임의의 실시 예에서 대응하는 방법의 일부 또는 모든 단계를 수행할 수 있다.
구체적으로, 예를 들어, 장치(1100)가 전술한 인코딩의 관련 단계를 수행할 때, 장치(1100)는 인코딩 장치(또는 오디오 인코딩 장치)라고 지칭될 수 있다. 장치(1100)가 전술한 디코딩의 관련 단계들을 수행할 때, 장치(1100)는 디코딩 장치(또는 오디오 디코딩 장치)라고 지칭될 수 있다.
도 11b를 참조하면, 장치(1100)가 인코딩 장치인 경우, 예를 들어, 장치(1100)는 마이크로폰(1140), 아날로그-디지털 변환기(1150) 등을 더 포함할 수 있다.
예를 들어, 마이크로폰(1140)은 샘플링을 수행하여 아날로그 오디오 신호를 획득하도록 구성될 수 있다.
예를 들어, 아날로그-디지털 변환기(1150)는 아날로그 오디오 신호를 디지털 오디오 신호로 변환하도록 구성될 수 있다.
도 11c를 참조하면, 장치(1100)가 인코딩 장치인 경우, 예를 들어, 장치(1100)는 스피커(1160), 디지털-아날로그 변환기(1170) 등을 더 포함할 수 있다.
예를 들어, 디지털-아날로그 변환기(1170)는 디지털 오디오 신호를 아날로그 오디오 신호로 변환하도록 구성될 수 있다.
예를 들어, 스피커(1160)는 아날로그 오디오 신호를 재생하도록 구성될 수 있다.
또한, 도 12a를 참조하면, 본 출원의 실시 예는 본 출원의 실시 예에서 제공되는 임의의 방법을 구현하도록 구성된 몇몇 기능 유닛을 포함하는 장치(1200)를 제공한다.
예를 들어, 장치(1200)가 도 2에 도시된 실시 예에서 대응하는 방법을 수행할 때, 장치(1200)는,
현재 프레임에 대한 채널 조합 방식을 결정하고, 이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 코딩 모드를 결정하도록 구성된 제1 결정 유닛(1210); 및
현재 프레임의 코딩 모드에 대응하는 시간-도메인 다운믹스 처리에 기반하여 현재 프레임에서 좌측 및 우측 채널 신호들에 대해 시간-도메인 다운믹스 처리를 수행하여 현재 프레임에서 1차 및 2차 채널 신호들을 획득하도록 구성된 인코딩 유닛(1220)을 포함할 수 있다.
또한, 도 12b를 참조하면, 장치(1200)는 현재 프레임의 시간-도메인 스테레오 파라미터를 결정하도록 구성된 제2 결정 유닛(1230)을 더 포함할 수 있다. 인코딩 유닛(1220)은 추가로, 현재 프레임의 시간-도메인 스테레오 파라미터를 인코딩하도록 구성될 수 있다.
다른 예를 들어, 도 12c를 참조하면, 장치(1200)가 도 3에 도시된 실시 예에서 대응하는 방법을 수행할 때, 장치(1200)는,
*비트 스트림에 있는 현재 프레임의 채널 조합 방식 플래그에 기반하여 현재 프레임에 대한 채널 조합 방식을 결정하고, 이전 프레임에 대한 채널 조합 방식 및 현재 프레임에 대한 채널 조합 방식에 기반하여 현재 프레임의 디코딩 모드를 결정하도록 구성된 제3 결정 유닛(1240); 및
비트 스트림에 기반하여 디코딩을 수행하여 현재 프레임에서의 디코딩된 1차 및 2차 채널 신호들을 획득하고, 현재 프레임의 디코딩 모드에 대응하는 시간-도메인 업믹스 처리에 기반하여 현재 프레임의 디코딩된 1차 및 2차 채널 신호들에 대해 시간-도메인 업믹스 처리를 수행하여 현재 프레임에서의 재구성된 좌측 및 우측 채널 신호들을 획득하도록 구성된 디코딩 유닛(1250)을 포함할 수 있다.
장치가 다른 방법을 수행하는 경우는 유추에 의해 추론된다.
본 출원의 실시 예는 컴퓨터 판독 가능 저장 매체를 제공한다. 컴퓨터가 판독 가능 저장 매체는 프로그램 코드를 저장하고, 프로그램 코드는 본 출원의 실시 예에서 제공되는 임의의 방법에서의 일부 또는 모든 단계를 수행하기 위한 명령을 포함한다.
본 출원의 실시 예는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때, 컴퓨터는 본 출원의 실시 예에서 제공되는 임의의 방법으로 일부 또는 모든 단계를 수행할 수 있다.
전술한 실시 예에서, 모든 실시 예의 설명은 각각의 초점을 갖는다. 실시 예에서 상세하게 설명되지 않은 부분에 대해서는 다른 실시 예의 관련 설명을 참조한다.
본 출원에 제공된 여러 실시 예에서, 개시된 장치는 다른 방식으로 구현될 수 있음을 이해해야 한다. 예를 들어, 설명된 장치 실시 예는 단지 예일 뿐이다. 예를 들어, 유닛 분할은 단지 논리적 기능 분할이거나 실제 구현에서 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 구성 요소가 다른 시스템에 결합되거나 통합될 수 있거나, 일부 특징이 무시되거나 수행되지 않을 수 있다. 또한, 디스플레이되거나 설명된 상호 간접 커플링 또는 직접 커플링 또는 통신 연결은 일부 인터페이스를 사용하여 구현될 수 있다. 장치 또는 유닛 사이의 간접 커플링 또는 통신 연결은 전자 또는 다른 형태로 구현될 수 있다.
개별 부품으로 설명된 유닛은 물리적으로 분리되거나 물리적으로 분리되지 않을 수 있으며, 유닛으로 디스플레이되는 구성 요소들은 물리적 유닛일 수도 있으며, 또는 물리적 유닛이 아닐 수도 있다. 구체적으로, 구성 요소들은 하나의 위치에 위치될 수 있거나 복수의 네트워크 유닛들 상에 분배될 수 있다. 유닛의 일부 또는 전부는 실시 예의 솔루션의 목적을 달성하기 위한 실제 필요에 따라 선택될 수 있다.
또한, 본 발명의 실시 예에서의 기능 유닛은 하나의 처리 유닛에 통합될 수 있거나, 또는 각각의 유닛이 물리적으로 단독으로 존재할 수 있거나, 또는 둘 이상의 유닛이 하나의 유닛에 통합될 수 있다. 통합 유닛은 하드웨어 형태로 구현되거나, 소프트웨어 기능 유닛 형태로 구현될 수 있다.
통합 유닛이 소프트웨어 기능 유닛의 형태로 구현되고 독립 제품으로서 판매되거나 사용되는 경우, 통합 유닛은 컴퓨터가 판독 가능 저장 매체에 저장될 수 있다. 이러한 이해에 기반하여, 본 발명의 기술적 솔루션은 본질적으로, 또는 종래 기술에 기여하는 부분, 또는 기술 솔루션의 전부 또는 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고 컴퓨터 디바이스(개인용 컴퓨터, 서버, 네트워크 디바이스 등일 수 있음)에게 본 발명의 실시 예에서 설명된 방법의 단계 전부 또는 일부를 수행하도록 명령하기 위한 다수의 명령을 포함한다. 전술한 저장 매체는 USB 플래시 드라이브, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 이동식 하드 디스크, 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수있는 임의의 매체를 포함한다.

Claims (6)

  1. 오디오 신호를 디코딩하는 방법으로서,
    비트 스트림을 수신하는 단계 - 상기 비트 스트림은 오디오 신호의 현재 프레임의 채널 조합 방식 플래그를 포함함 - ;
    상기 채널 조합 방식 플래그에 기반하여 상기 현재 프레임에 대한 현재 채널 조합 방식을 결정하는 단계 - 상기 현재 채널 조합 방식은 반상관된 신호 채널 조합 방식 또는 상관된 신호 채널 조합 방식이고, 상기 상관된 신호 채널 조합 방식은 거의 동위상 신호에 대응하는 채널 조합 방식이고, 상기 반상관된 신호 채널 조합 방식은 거의 역위상 신호에 대응하는 채널 조합 방식임 - ;
    이전 프레임에 대한 이전 채널 조합 방식 및 상기 현재 채널 조합 방식에 기반하여 상기 현재 프레임의 디코딩 모드를 결정하는 단계; 및
    상기 디코딩 모드에 기초하여 상기 현재 프레임을 디코딩하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 이전 프레임에 대한 이전 채널 조합 방식 및 상기 현재 채널 조합 방식에 기반하여 상기 현재 프레임의 디코딩 모드를 결정하는 단계는,
    상기 이전 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 상기 현재 채널 조합 방식이 반상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 디코딩 모드가 상관 대 반상관 신호 디코딩 스위칭 모드인 것으로 결정하는 단계 - 상기 상관 대 반상관 신호 디코딩 스위칭 모드에서, 시간-도메인 업믹스(upmix) 처리가 상기 상관된 신호 채널 조합 방식에서 상기 반상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -; 또는
    상기 이전 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 상기 현재 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 디코딩 모드가 상기 반상관된 신호 디코딩 모드인 것으로 결정하는 단계 - 상기 반상관된 신호 디코딩 모드에서, 시간-도메인 업믹스 처리가 상기 반상관된 신호 채널 조합 방식에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -; 또는
    상기 이전 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 상기 현재 채널 조합 방식이 상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 디코딩 모드가 반상관 대 상관 신호 디코딩 스위칭 모드인 것으로 결정하는 단계 - 상기 반상관 대 상관 신호 디코딩 스위칭 모드에서, 시간-도메인 업믹스 처리가 상기 반상관된 신호 채널 조합 방식에서 상기 상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -; 또는
    상기 이전 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 상기 현재 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 디코딩 모드가 상기 상관된 신호 디코딩 모드인 것으로 결정하는 단계 - 상기 상관된 신호 디코딩 모드에서, 시간-도메인 업믹스 처리가 상기 상관된 신호 채널 조합 방식에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -
    를 포함하는, 방법.
  3. 오디오 신호를 디코딩하는 장치로서,
    서로 연결된(coupled), 프로세서와 메모리를 포함하고,
    상기 프로세서는,
    비트 스트림을 수신하는 단계 - 상기 비트 스트림은 오디오 신호의 현재 프레임의 채널 조합 방식 플래그를 포함함 - ;
    상기 채널 조합 방식 플래그에 기반하여 상기 현재 프레임에 대한 현재 채널 조합 방식을 결정하는 단계 - 상기 현재 채널 조합 방식은 반상관된 신호 채널 조합 방식 또는 상관된 신호 채널 조합 방식이고, 상기 상관된 신호 채널 조합 방식은 거의 동위상 신호에 대응하는 채널 조합 방식이고, 상기 반상관된 신호 채널 조합 방식은 거의 역위상 신호에 대응하는 채널 조합 방식임 - ;
    이전 프레임에 대한 이전 채널 조합 방식 및 상기 현재 채널 조합 방식에 기반하여 상기 현재 프레임의 디코딩 모드를 결정하는 단계; 및
    상기 디코딩 모드에 기초하여 상기 현재 프레임을 디코딩하는 단계
    를 수행하도록 구성되는, 장치.
  4. 제3항에 있어서,
    상기 이전 프레임에 대한 이전 채널 조합 방식 및 상기 현재 채널 조합 방식에 기반하여 상기 현재 프레임의 디코딩 모드를 결정하는 단계에서, 상기 프로세서는 다음:
    상기 이전 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 상기 현재 채널 조합 방식이 반상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 디코딩 모드가 상관 대 반상관 신호 디코딩 스위칭 모드인 것으로 결정하는 단계 - 상기 상관 대 반상관 신호 디코딩 스위칭 모드에서, 시간-도메인 업믹스(upmix) 처리가 상기 상관된 신호 채널 조합 방식에서 상기 반상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -; 또는
    상기 이전 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 상기 현재 채널 조합 방식이 상기 반상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 디코딩 모드가 상기 반상관된 신호 디코딩 모드인 것으로 결정하는 단계 - 상기 반상관된 신호 디코딩 모드에서, 시간-도메인 업믹스 처리가 상기 반상관된 신호 채널 조합 방식에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -; 또는
    상기 이전 채널 조합 방식이 반상관된 신호 채널 조합 방식이고, 상기 현재 채널 조합 방식이 상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 디코딩 모드가 반상관 대 상관 신호 디코딩 스위칭 모드인 것으로 결정하는 단계 - 상기 반상관 대 상관 신호 디코딩 스위칭 모드에서, 시간-도메인 업믹스 처리가 상기 반상관된 신호 채널 조합 방식에서 상기 상관된 신호 채널 조합 방식으로의 트랜지션에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -; 또는
    상기 이전 채널 조합 방식이 상관된 신호 채널 조합 방식이고, 상기 현재 채널 조합 방식이 상기 상관된 신호 채널 조합 방식인 경우, 상기 현재 프레임의 디코딩 모드가 상기 상관된 신호 디코딩 모드인 것으로 결정하는 단계 - 상기 상관된 신호 디코딩 모드에서, 시간-도메인 업믹스 처리가 상기 상관된 신호 채널 조합 방식에 대응하는 업믹스 처리 방법을 사용하여 수행됨 -
    중 하나를 수행하도록 추가로 구성되는, 장치.
  5. 프로그램이 기록되어 있는, 컴퓨터가 판독 가능한 저장 매체로서,
    상기 프로그램은 제1항 또는 제2항의 방법을 컴퓨터로 하여금 실행하도록 하는, 컴퓨터가 판독 가능한 저장 매체.
  6. 컴퓨터가 판독 가능한 저장 매체에 저장되어 있는 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은 컴퓨터로 하여금 제1항 또는 제2항의 방법을 실행하도록 야기하는, 컴퓨터 프로그램.
KR1020237002377A 2017-08-10 2018-08-10 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품 KR102664355B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020247014827A KR20240066194A (ko) 2017-08-10 2018-08-10 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201710679081.6A CN109389987B (zh) 2017-08-10 2017-08-10 音频编解码模式确定方法和相关产品
CN201710679081.6 2017-08-10
KR1020227012056A KR102492119B1 (ko) 2017-08-10 2018-08-10 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품
PCT/CN2018/100100 WO2019029737A1 (zh) 2017-08-10 2018-08-10 音频编解码模式确定方法和相关产品

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020227012056A Division KR102492119B1 (ko) 2017-08-10 2018-08-10 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020247014827A Division KR20240066194A (ko) 2017-08-10 2018-08-10 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품

Publications (2)

Publication Number Publication Date
KR20230018533A true KR20230018533A (ko) 2023-02-07
KR102664355B1 KR102664355B1 (ko) 2024-05-08

Family

ID=65271933

Family Applications (4)

Application Number Title Priority Date Filing Date
KR1020237002377A KR102664355B1 (ko) 2017-08-10 2018-08-10 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품
KR1020247014827A KR20240066194A (ko) 2017-08-10 2018-08-10 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품
KR1020207006988A KR102387159B1 (ko) 2017-08-10 2018-08-10 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품
KR1020227012056A KR102492119B1 (ko) 2017-08-10 2018-08-10 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품

Family Applications After (3)

Application Number Title Priority Date Filing Date
KR1020247014827A KR20240066194A (ko) 2017-08-10 2018-08-10 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품
KR1020207006988A KR102387159B1 (ko) 2017-08-10 2018-08-10 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품
KR1020227012056A KR102492119B1 (ko) 2017-08-10 2018-08-10 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품

Country Status (9)

Country Link
US (3) US11120807B2 (ko)
EP (2) EP4160594A1 (ko)
KR (4) KR102664355B1 (ko)
CN (2) CN109389987B (ko)
AU (2) AU2018315437B2 (ko)
BR (1) BR112020002710A2 (ko)
ES (1) ES2934532T3 (ko)
TW (1) TWI697892B (ko)
WO (1) WO2019029737A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389987B (zh) * 2017-08-10 2022-05-10 华为技术有限公司 音频编解码模式确定方法和相关产品
CN109859766B (zh) * 2017-11-30 2021-08-20 华为技术有限公司 音频编解码方法和相关产品
JP7207578B2 (ja) * 2019-07-10 2023-01-18 日本電気株式会社 話者埋め込み装置、方法、およびプログラム
CN114023338A (zh) * 2020-07-17 2022-02-08 华为技术有限公司 多声道音频信号的编码方法和装置
CN114495951A (zh) * 2020-11-11 2022-05-13 华为技术有限公司 音频编解码方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110020846A (ko) * 2008-05-23 2011-03-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더
WO2017049396A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for time domain down mixing a stereo sound signal into primary and secondary channels using detecting an out-of-phase condition of the left and right channels
KR102387159B1 (ko) * 2017-08-10 2022-04-14 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7283634B2 (en) * 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
US8032368B2 (en) 2005-07-11 2011-10-04 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signals using hierarchical block swithcing and linear prediction coding
CN101292285B (zh) * 2005-10-20 2012-10-10 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
KR101453732B1 (ko) 2007-04-16 2014-10-24 삼성전자주식회사 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
CA2949616C (en) * 2009-03-17 2019-11-26 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
WO2011013983A2 (en) * 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2011034375A2 (en) * 2009-09-17 2011-03-24 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2323130A1 (en) 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
US20120035940A1 (en) * 2010-08-06 2012-02-09 Samsung Electronics Co., Ltd. Audio signal processing method, encoding apparatus therefor, and decoding apparatus therefor
FR2966634A1 (fr) 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee
JP5942358B2 (ja) 2011-08-24 2016-06-29 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US9053698B2 (en) * 2012-01-24 2015-06-09 Broadcom Corporation Jitter buffer enhanced joint source channel decoding
WO2013156814A1 (en) 2012-04-18 2013-10-24 Nokia Corporation Stereo audio signal encoder
KR102561265B1 (ko) * 2012-11-13 2023-07-28 삼성전자주식회사 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치
WO2014108738A1 (en) 2013-01-08 2014-07-17 Nokia Corporation Audio signal multi-channel parameter encoder
BR122016011963B1 (pt) * 2013-01-21 2022-02-08 Dolby Laboratories Licensing Corporation Codificador e decodificador de áudio com sonoridade de programa e metadados de limite
JP6250071B2 (ja) * 2013-02-21 2017-12-20 ドルビー・インターナショナル・アーベー パラメトリック・マルチチャネル・エンコードのための方法
CN106409310B (zh) * 2013-08-06 2019-11-19 华为技术有限公司 一种音频信号分类方法和装置
CN105225670B (zh) 2014-06-27 2016-12-28 华为技术有限公司 一种音频编码方法和装置
US10304472B2 (en) * 2014-07-28 2019-05-28 Nippon Telegraph And Telephone Corporation Method, device and recording medium for coding based on a selected coding processing
US10194151B2 (en) * 2014-07-28 2019-01-29 Samsung Electronics Co., Ltd. Signal encoding method and apparatus and signal decoding method and apparatus
EP3007167A1 (en) * 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TWI607655B (zh) 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110020846A (ko) * 2008-05-23 2011-03-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더
WO2017049396A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for time domain down mixing a stereo sound signal into primary and secondary channels using detecting an out-of-phase condition of the left and right channels
KR102387159B1 (ko) * 2017-08-10 2022-04-14 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
7 kHz audio-coding within 64 kbit/s: New Annex D with stereo embedded extension. ITU-T DRAFT Study Period 2009-2012. 2012.05.08. *
Bertrand Fatus. Parametric Coding for Spatial Audio. Master’s Thesis, KTH, Stockholm, Sweden. 2015.12. *
KJORLING, Kristofer, et al. AC-4 - The Next Generation Audio Codec. In: Audio Engineering Society Convention 140. Audio Engineering Society, 2016. *
Recommendation ITU-T G.722. 7 kHz audio-coding within 64 kbit/s. 2012.09. *

Also Published As

Publication number Publication date
EP4160594A1 (en) 2023-04-05
TWI697892B (zh) 2020-07-01
KR20220048063A (ko) 2022-04-19
RU2020109713A3 (ko) 2021-11-15
US20240282318A1 (en) 2024-08-22
CN109389987B (zh) 2022-05-10
ES2934532T3 (es) 2023-02-22
KR102664355B1 (ko) 2024-05-08
TW201911292A (zh) 2019-03-16
AU2018315437A1 (en) 2020-03-19
US11120807B2 (en) 2021-09-14
US20200176001A1 (en) 2020-06-04
KR102387159B1 (ko) 2022-04-14
AU2018315437B2 (en) 2023-05-25
EP3664088A4 (en) 2020-08-12
KR20240066194A (ko) 2024-05-14
AU2023219934A1 (en) 2023-09-14
CN109389987A (zh) 2019-02-26
EP3664088B1 (en) 2022-10-05
KR102492119B1 (ko) 2023-01-26
RU2020109713A (ru) 2021-09-10
BR112020002710A2 (pt) 2020-07-28
WO2019029737A1 (zh) 2019-02-14
US11935547B2 (en) 2024-03-19
KR20200035139A (ko) 2020-04-01
EP3664088A1 (en) 2020-06-10
US20210375292A1 (en) 2021-12-02
CN114898761A (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
KR102492119B1 (ko) 오디오 코딩/디코딩 모드를 결정하는 방법 및 관련 제품
KR102493482B1 (ko) 시간-도메인 스테레오 코딩 및 디코딩 방법, 및 관련 제품
US11900952B2 (en) Time-domain stereo encoding and decoding method and related product
KR102377434B1 (ko) 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품
RU2773636C2 (ru) Способ кодирования стереопараметров временной области и соответствующий продукт
RU2773421C9 (ru) Способ и соответствующий продукт для определения режима кодирования/декодирования аудио
RU2773421C2 (ru) Способ и соответствующий продукт для определения режима кодирования/декодирования аудио
RU2772405C2 (ru) Способ стереокодирования и декодирования во временной области и соответствующий продукт
RU2773022C2 (ru) Способ кодирования и декодирования стерео во временной области и сопутствующий продукт

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant