KR20230035383A - 멀티 채널 오디오 신호 코딩 방법 및 장치 - Google Patents

멀티 채널 오디오 신호 코딩 방법 및 장치 Download PDF

Info

Publication number
KR20230035383A
KR20230035383A KR1020237004414A KR20237004414A KR20230035383A KR 20230035383 A KR20230035383 A KR 20230035383A KR 1020237004414 A KR1020237004414 A KR 1020237004414A KR 20237004414 A KR20237004414 A KR 20237004414A KR 20230035383 A KR20230035383 A KR 20230035383A
Authority
KR
South Korea
Prior art keywords
channel
channel signals
energy
pairing
pair
Prior art date
Application number
KR1020237004414A
Other languages
English (en)
Inventor
지 왕
지앤스 딩
빈 왕
저 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20230035383A publication Critical patent/KR20230035383A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

멀티 채널 오디오 신호 코딩 방법(300) 및 장치가 개시된다. 멀티 채널 오디오 신호 코딩 방법(300)은 인코딩될 제1 오디오 프레임을 획득하는 단계(301); 제1 채널 페어 세트를 획득하기 위해 제1 페어링 방식에 따라 적어도 5개의 채널 신호를 페어링하는 단계(302); 제1 채널 페어 세트의 제1 상관값 합을 획득하는 단계 ― 하나의 채널 페어가 하나의 상관값을 가짐 ―(303); 제2 채널 페어 세트를 획득하기 위해 제2 페어링 방식에 따라 적어도 5개의 채널 신호를 페어링하는 단계(304); 제2 채널 페어 세트의 제2 상관값 합을 획득하는 단계(305); 제1 상관값 합과 제2 상관값 합에 기초하여 적어도 5개의 채널 신호의 타깃 페어링 방식을 결정하는 단계(306); 및 타깃 페어링 방식에 대응하는 채널 페어 세트에 기초하여 적어도 5개의 채널 신호를 인코딩하는 단계(311)를 포함하며, 타깃 페어링 방식은 제1 페어링 방식 또는 제2 페어링 방식이다. 멀티 채널 오디오 신호 코딩 방법(300) 및 장치는 오디오 프레임 코딩 방법을 보다 다양하고 효율적으로 만든다.

Description

멀티 채널 오디오 신호 코딩 방법 및 장치
본 출원은 2020년 7월 17일에 중국 특허청에 제출된 중국 특허 출원 제202010728902.2호 ('멀티 채널 오디오 신호 코딩 방법 및 장치')에 대한 우선권을 주장하며, 그 전체가 참조로서 본 명세서에 포함된다.
본 출원은 오디오 처리 기술에 관한 것으로, 구체적으로는, 멀티 채널 오디오 신호 코딩 방법 및 장치에 관한 것이다.
멀티 채널 오디오 인코딩 및 디코딩은 적어도 두 개의 채널로 오디오를 인코딩하거나 디코딩하는 기술이다. 일반적인 멀티 채널 오디오는 5.1 채널 오디오, 7.1 채널 오디오, 7.1.4 채널 오디오 및 22.2 채널 오디오를 포함한다.
MPEG 서라운드(MPEG surround, MPS) 표준은 4개 채널에 대한 공동 코딩을 지정하지만, 여전히 전술한 멀티 채널 오디오 신호에 대한 인코딩 및 디코딩 방법을 필요로 한다.
본 출원은 오디오 프레임 코딩 방법을 보다 다양하고 효율적으로 만들기 위해 멀티 채널 오디오 신호 코딩 방법 및 장치를 제공한다.
제1 측면에 따르면, 본 출원은 멀티 채널 오디오 신호 코딩 방법을 제공하며, 인코딩될 제1 오디오 프레임을 획득하는 단계 ― 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 ―; 제1 채널 페어 세트(channel pair set)를 획득하기 위해 제1 페어링 방식에 따라 적어도 5개의 채널 신호를 페어링하는 단계 ― 제1 채널 페어 세트는 적어도 하나의 채널 페어를 포함하고, 하나의 채널 페어는 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함함 ―; 제1 채널 페어 세트의 제1 상관값 합을 획득하는 단계 ― 하나의 채널 페어는 하나의 상관값을 갖고, 상관값은 채널 페어의 2개의 채널 신호 사이의 상관관계를 지시함 ―; 제2 채널 페어 세트를 획득하기 위해 제2 페어링 방식에 따라 적어도 5개의 채널 신호를 페어링하는 단계; 제2 채널 페어 세트의 제2 상관값 합을 획득하는 단계; 제1 상관값 합과 제2 상관값 합에 기초하여 적어도 5개의 채널 신호의 타깃 페어링 방식을 결정하는 단계; 및 타깃 페어링 방식에 따라 적어도 5개의 채널 신호를 인코딩하는 단계 ― 타깃 페어링 방식은 제1 페어링 방식 또는 제2 페어링 방식임 ―를 포함한다.
본 실시예에서 제1 오디오 프레임은 인코딩될 멀티 채널 오디오의 임의의 프레임일 수 있고, 제1 오디오 프레임은 5개 이상의 채널 신호를 포함한다. 2개의 고도로 상관된 채널 신호를 함께 인코딩하면 중복을 줄이고 코딩 효율을 향상시킬 수 있다. 따라서, 본 실시예에서, 2개의 채널 신호 간의 상관값에 기초하여 페어링이 수행된다. 상관관계가 가장 높은 페어링 방식을 찾기 위해, 제1 오디오 프레임에서 적어도 5개의 채널 신호 중 2개마다 상관값이 계산되어 제1 오디오 프레임의 상관값 세트가 획득될 수 있다. 제1 페어링 방식은 적어도 5개의 채널 신호에 대응하는 채널 페어 중에서 채널 페어를 선택하는 단계, 최대 상관값 합을 획득하기 위해 채널 페어를 제1 채널 페어 세트에 추가하는 단계를 포함한다. 제1 상관값 합은 제1 페어링 방식에 대응하는 제1 채널 페어 세트의 모든 채널 페어의 상관값의 합이다. 상기 제2 페어링 방식은, 적어도 5개의 채널 신호에 대응하는 채널 페어 중에서 최대 상관값을 갖는 채널 페어를 제2 채널 페어 세트에 먼저 추가하는 단계; 및 적어도 5개의 채널 신호에 대응하는 채널 페어 중 연관된 채널 페어가 아닌 다른 채널 페어에서 최대 상관값을 갖는 채널 페어를 제2 채널 페어 세트에 추가하는 단계를 포함하며, 연관된 채널 페어 제1 채널 페어 세트에 추가된 채널 페어에 포함된 임의의 채널 신호를 포함한다. 제2 상관값 합은 제2 페어링 방식에 대응하는 제2 채널 페어 세트의 모든 채널 페어의 상관값의 합이다.
본 실시예에서, 2개의 페어링 방식이 조합되어 페어링 방식에 대응하는 상관값의 합에 기초하여 기존 기술의 페어링 방식을 사용할 것인지 또는 최대 상관값 합을 획득하기 위한 페어링 방식을 사용할 것인지를 결정함으로써 오디오 프레임 코딩 방법을 보다 다양하고 효율적으로 만들 수 있다.
가능한 구현에서, 제1 상관값 합과 제2 상관값 합에 기초하여 적어도 5개의 채널 신호의 타깃 페어링 방식을 결정하는 단계는, 제1 상관값 합이 제2 상관값 합보다 큰 경우, 타깃 페어링 방식이 제1 페어링 방식인 것으로 결정하거나, 또는 제1 상관값 합이 제2 상관값 합과 같은 경우, 타깃 페어링 방식이 제2 페어링 방식인 것으로 결정하는 단계를 포함한다.
초기에 타깃 페어링 방식은 타깃 채널 페어 세트에 포함된 모든 채널 페어의 상관값의 합이 최대한 커질 수 있도록 상관값의 합을 기준으로 결정되며, 페어링되는 채널 페어의 수량이 가능한 한 많이 증가될 수 있어서 채널 신호 간의 중복을 줄일 수 있다.
가능한 구현에서, 타깃 페어링 방식에 따라 적어도 5개의 채널 신호를 인코딩하는 단계 전에, 멀티 채널 오디오 신호 코딩 방법은, 적어도 5개의 채널 신호의 변동 간격값을 획득하는 단계; 타깃 페어링 방식이 제1 페어링 방식인 경우, 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하거나, 또는 타깃 페어링 방식이 제2 페어링 방식인 경우, 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하고, 적어도 5개의 채널 신호의 타깃 페어링 방식을 재결정하는 단계; 및 적어도 5개의 균등화된 채널 신호를 획득하기 위해 에너지 균등화 모드에 따라 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하는 단계를 더 포함한다. 이에 상응하여, 타깃 페어링 방식에 따라 적어도 5개의 채널 신호를 인코딩하는 단계는, 타깃 페어링 방식에 따라 적어도 5개의 균등화된 채널 신호를 인코딩하는 단계를 포함한다.
본 출원의 본 실시예에서, 전술한 에너지 균등화는 또한 진폭 균등화일 수 있고, 에너지 균등화 처리의 객체는 에너지이며, 진폭 균등화 처리의 객체는 진폭이다. 채널 신호의 에너지와 채널 신호의 진폭 사이에는 제곱 관계가 존재한다. 즉, 에너지 = 진폭2 = 진폭 × 진폭이다.
제1 에너지 균등화 모드는 페어 에너지 균등화 모드이다. 이러한 모드에서, 임의의 채널 페어에 대해, 채널 페어의 2개의 채널 신호만이 채널 페어에 대응하는 2개의 균등화된 채널 신호를 획득하는 데 사용된다. "만"은 균등화된 채널 신호가 획득될 때, 채널 페어가 단위로서 사용되고, 채널 페어에 포함된 2개의 채널 신호만에 기초하여 에너지 균등화 처리가 수행됨을 의미한다. 2개의 획득된 균등화된 채널 신호는 채널 페어에 없는 다른 채널 신호에 대해 에너지 균등화를 수행하지 않고 2개의 채널 신호에만 관련된다. 그러나, "만"은 에너지 균등화 처리에서 정보 내용을 제한하는 데 사용되지 않는다. 예를 들어, 에너지 균등화 처리 동안 채널 신호의 관련된 특징 파라미터, 인코딩/디코딩 파라미터 등이 참조될 수 있다. 이것은 여기에서 특별히 제한되지 않는다. 제2 에너지 균등화 모드는 전체 에너지 균등화 모드이다. 이러한 모드에서, 하나의 채널 페어에 있는 2개의 채널 신호와 하나의 채널 페어에 없는 적어도 하나의 채널 신호가 사용되어 하나의 채널 페어에 대응하는 2개의 균등화된 채널 신호를 획득할 수 있다. 또 다른 에너지 균등화 모드가 본 출원에서 더 사용될 수 있다. 이것은 여기에서 특별히 제한되지 않는다.
초기에 제1 페어링 방식이 사용되는 것으로 결정되는 경우, 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드가 추가로 결정될 수 있다. 최초에 제2 페어링 방식이 사용되는 것으로 결정되는 경우, 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드가 추가로 결정될 수 있고, 적어도 5개의 채널 신호의 타깃 페어링 방식이 재결정될 수 있어서, 페어링 방식이 여러 차원에서 결정될 수 있고, 에너지 균등화가 멀티 채널 신호의 특성에 더 적합하도록 결정되어 오디오 프레임 코딩 방법을 보다 다양하고 효율적으로 만들 수 있다.
가능한 구현에서, 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하는 과정은, 변동 간격값이 미리 설정된 조건을 충족하는 경우, 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 변동 간격값이 미리 설정된 조건을 충족하지 않는 경우, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정하는 단계를 포함한다.
가능한 구현에서, 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하고, 적어도 5개의 채널 신호의 타깃 페어링 방식을 재결정하는 과정은, 변동 간격값이 미리 설정된 조건을 충족하는 경우, 타깃 페어링 방식이 제1 페어링 방식이고, 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 변동 간격값이 미리 설정된 조건을 충족하지 않는 경우, 타깃 페어링 방식이 제2 페어링 방식이고, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정하는 단계를 포함한다.
가능한 구현에서, 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하는 과정 전에, 멀티 채널 오디오 신호 코딩 방법은, 제1 오디오 프레임에 대응하는 코딩 비트율이 비트율 임계값보다 큰지의 여부를 결정하는 단계를 더 포함한다. 선택적으로, 구현에서, 비트율 임계값은 28kbps/(유효 채널 신호의 수량/프레임 레이트)로 설정될 수 있으며, 여기서 28kbps는 다르게는 다른 경험적 값, 예를 들어 30kbps 또는 26kbps일 수 있다. 유효 채널 신호는 LFE가 아닌 다른 채널 신호를 지칭한다. 예를 들어, 5.1 채널에서 LFE 이외의 채널 신호는 C, L, R, LS, RS를 포함하고, 7.1 채널에서 LFE 이외의 채널 신호는 C, L, R, LS, RS, LB, RB를 포함한다. 코딩 비트율이 비트율 임계값보다 큰 경우, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정된다. 코딩 비트율이 비트율 임계값 이하인 경우, 에너지 균등화 모드는 변동 간격값에 기초하여 결정된다. 프레임 레이트는 단위 시간에 처리되는 프레임의 수량이다. 프레임 레이트는 다음의 수학식에 따라 계산된다. 프레임 레이트 = 샘플링 레이트/오디오 프레임에 대응하는 샘플 수량. 예를 들어, 샘플링 레이트가 48000Hz인 경우, 오디오 프레임에 대응하는 샘플 수량은 960이고, 프레임 레이트는 48000/960 = 50(프레임/초)이다.
에너지 균등화 모드가 결정되는 경우, 코딩 비트율의 인자가 더해진다. 이것은 코딩 효율을 향상시킬 수 있다.
가능한 구현에서, 변동 간격값은 제1 오디오 프레임의 에너지 평탄도를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 에너지 평탄도가 제1 임계값보다 작음을 지시하거나 ― 예를 들어, 제1 임계값은 0.483일 수 있음, 또는 변동 간격값은 제1 오디오 프레임의 진폭 평탄도를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 진폭 평탄도가 제2 임계값보다 작음을 지시하며 ― 예를 들어, 제2 임계값은 0.695일 수 있음 ―, 또는 변동 간격값은 제1 오디오 프레임의 에너지 편차를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 에너지 편차가 제1 미리 설정된 범위 밖에 있음을 지시하거나 ― 예를 들어, 제1 미리 설정된 범위는 0.04 내지 25일 수 있음 ―, 또는 변동 간격값은 제1 오디오 프레임의 진폭 편차를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 진폭 편차가 제2 미리 설정된 범위 밖에 있음을 지시하며, 예를 들어, 제2 미리 설정된 범위는 0.2 내지 5일 수 있다.
에너지 균등화 모드는 복수의 차원의 채널 신호 특성에 기초하여 결정된다. 이것은 에너지 균등화의 정확성을 향상시킬 수 있다.
가능한 구현에서, 제1 채널 페어 세트를 획득하기 위해 제1 페어링 방식에 따라 적어도 5개의 채널 신호를 페어링하는 단계는, 적어도 5개의 채널 신호에 대응하는 채널 페어 중에서 채널 페어를 선택하고, 최대 상관값 합을 획득하기 위해 채널 페어를 제1 채널 페어 세트에 추가하는 단계를 포함한다.
가능한 구현에서, 제2 채널 페어 세트를 획득하기 위해 제2 페어링 방식에 따라 적어도 5개의 채널 신호를 페어링하는 단계는, 적어도 5개의 채널 신호에 대응하는 채널 페어에서 최대 상관값을 갖는 채널 페어를 제2 채널 페어 세트에 먼저 추가하는 단계; 및 적어도 5개의 채널 신호에 대응하는 채널 페어 중 연관된 채널 페어 이외의 다른 채널 페어에서 최대 상관값을 갖는 채널 페어를 제2 채널 페어 세트에 추가하는 단계를 포함하며, 연관된 채널 페어는 제1 채널 페어 세트에 추가된 채널 페어에 포함된 임의의 채널 신호를 포함한다.
가능한 구현에서, 에너지 균등화 모드가 제1 에너지 균등화 모드인 경우, 적어도 5개의 균등화된 채널 신호를 획득하기 위해 에너지 균등화 모드에 따라 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하는 단계는, 페어링 방식에 대응되는 타깃 채널 페어 세트의 현재 채널 페어에 대해, 현재 채널 페어에 포함된 2개의 채널 신호의 에너지 또는 진폭값의 평균값을 계산하고, 2개의 대응하는 균등화된 채널 신호를 획득하기 위해 평균값에 기초하여 2개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하는 단계를 포함한다.
가능한 구현에서, 에너지 균등화 모드가 제2 에너지 균등화 모드인 경우, 적어도 5개의 균등화된 채널 신호를 획득하기 위해 에너지 균등화 모드에 따라 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하는 단계는, 적어도 5개의 채널 신호의 에너지 또는 진폭값의 평균값을 계산하고, 적어도 5개의 균등화된 채널 신호를 획득하기 위해 평균값에 기초하여 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하는 단계를 포함한다.
제2 측면에 따르면, 본 출원은 코딩 장치를 제공하며, 인코딩될 제1 오디오 프레임을 획득하고 ― 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 ―, 제1 채널 페어 세트를 획득하기 위해 제1 페어링 방식에 따라 적어도 5개의 채널 신호를 페어링하며 ― 제1 채널 페어 세트는 적어도 하나의 채널 페어를 포함하고, 하나의 채널 페어는 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함함 ―, 제1 채널 페어 세트의 제1 상관값 합을 획득하고 ― 하나의 채널 페어는 하나의 상관값을 갖고, 상관값은 채널 페어의 2개의 채널 신호 사이의 상관관계를 지시함 ―, 제2 채널 페어 세트를 획득하기 위해 제2 페어링 방식에 따라 적어도 5개의 채널 신호를 페어링하며, 제2 채널 페어 세트의 제2 상관값 합을 획득하도록 구성된 획득 모듈; 제1 상관값 합과 제2 상관값 합에 기초하여 적어도 5개의 채널 신호의 타깃 페어링 방식을 결정하도록 구성된 결정 모듈; 및 타깃 페어링 방식에 따라 적어도 5개의 채널 신호를 인코딩하도록 구성된 코딩 모듈을 포함하며, 타깃 페어링 방식은 제1 페어링 방식 또는 제2 페어링 방식이다.
가능한 구현에서, 결정 모듈은 구체적으로, 제1 상관값 합이 제2 상관값 합보다 큰 경우, 타깃 페어링 방식이 제1 페어링 방식인 것으로 결정하거나, 또는 제1 상관값 합이 제2 상관값 합과 같은 경우, 타깃 페어링 방식이 제2 페어링 방식인 것으로 결정하도록 구성된다.
가능한 구현에서, 결정 모듈은, 적어도 5개의 채널 신호의 변동 간격값을 획득하고, 타깃 페어링 방식이 제1 페어링 방식인 경우 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하거나, 또는 타깃 페어링 방식이 제2 페어링 방식인 경우 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하며, 적어도 5개의 채널 신호의 타깃 페어링 방식을 재결정하도록 추가로 구성된다. 이에 상응하여, 코딩 모듈은, 적어도 5개의 균등화된 채널 신호를 획득하기 위해 에너지 균등화 모드에 따라 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하고, 타깃 페어링 방식에 따라 적어도 5개의 균등화된 채널 신호를 인코딩하도록 추가로 구성된다.
가능한 구현에서, 결정 모듈은 구체적으로, 변동 간격값이 미리 설정된 조건을 충족하는 경우, 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 변동 간격값이 미리 설정된 조건을 충족하지 않는 경우, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정하도록 구성된다.
가능한 구현에서, 결정 모듈은 구체적으로, 변동 간격값이 미리 설정된 조건을 충족하는 경우, 타깃 페어링 방식이 제1 페어링 방식이고, 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 변동 간격값이 미리 설정된 조건을 충족하지 않는 경우, 타깃 페어링 방식이 제2 페어링 방식이고, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정하도록 구성된다.
가능한 구현에서, 결정 모듈은 제1 오디오 프레임에 대응하는 코딩 비트율이 비트율 임계값보다 큰지의 여부를 결정하고, 코딩 비트율이 비트율 임계값보다 큰 경우 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정하거나, 또는 코딩 비트율이 비트율 임계값보다 작거나 같은 경우 변동 간격값에 기초하여 에너지 균등화 모드를 결정하도록 추가로 구성된다.
가능한 구현에서, 변동 간격값은 제1 오디오 프레임의 에너지 평탄도를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 에너지 평탄도가 제1 임계값보다 작음을 지시하거나, 또는 변동 간격값은 제1 오디오 프레임의 진폭 평탄도를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 진폭 평탄도가 제2 임계값보다 작음을 지시하거나, 또는 변동 간격값은 제1 오디오 프레임의 에너지 편차를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 에너지 편차가 제1 미리 설정된 범위 밖에 있음을 지시하거나, 또는 변동 간격값은 제1 오디오 프레임의 진폭 편차를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 진폭 편차가 제2 미리 설정된 범위 밖에 있음을 지시한다.
가능한 구현에서, 획득 모듈은 구체적으로, 적어도 5개의 채널 신호에 대응하는 채널 페어 중에서 채널 페어를 선택하고, 최대 상관값 합을 획득하기 위해 채널 페어를 제1 채널 페어 세트에 추가하도록 구성된다.
가능한 구현에서, 획득 모듈은 구체적으로, 적어도 5개의 채널 신호에 대응하는 채널 페어에서 최대 상관값을 갖는 채널 페어를 제2 채널 페어 세트에 먼저 추가하고, 적어도 5개의 채널 신호에 대응하는 채널 페어 중 연관된 채널 페어 이외의 다른 채널 페어에서 최대 상관값을 갖는 채널 페어를 제2 채널 페어 세트에 추가하도록 구성되며, 연관된 채널 페어는 제1 채널 페어 세트에 추가된 채널 페어에 포함된 임의의 채널 신호를 포함한다.
가능한 구현에서, 에너지 균등화 모드가 제1 에너지 균등화 모드인 경우, 코딩 모듈은 구체적으로, 페어링 방식에 대응되는 타깃 채널 페어 세트의 현재 채널 페어에 대해, 현재 채널 페어에 포함된 2개의 채널 신호의 에너지 또는 진폭값의 평균값을 계산하고, 2개의 대응하는 균등화된 채널 신호를 획득하기 위해 평균값에 기초하여 2개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하도록 구성된다.
가능한 구현에서, 에너지 균등화 모드가 제2 에너지 균등화 모드인 경우, 코딩 모듈은 구체적으로, 적어도 5개의 채널 신호의 에너지 또는 진폭값의 평균값을 계산하고, 적어도 5개의 균등화된 채널 신호를 획득하기 위해 평균값에 기초하여 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하도록 구성된다.
제3 측면에 따르면, 본 출원은 하나 이상의 프로세서; 및 하나 이상의 프로그램을 저장하도록 구성된 메모리를 포함한다. 하나 이상의 프로그램이 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서는 제1 측면의 임의의 가능한 구현에 따른 방법을 구현할 수 있다.
제4 측면에 따르면, 본 출원은 컴퓨터 프로그램을 포함하는 컴퓨터 판독 가능 저장 매체를 제공한다. 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 컴퓨터는 제1 측면의 임의의 가능한 구현에 따른 방법을 수행할 수 있다.
제5 측면에 따르면, 본 출원의 실시예는 제1 측면의 임의의 가능한 구현에 따른 멀티 채널 오디오 신호 코딩 방법을 사용하여 획득된 코딩된 비트스트림을 포함하는 컴퓨터 판독 가능 저장 매체를 제공한다.
도 1은 본 출원에서 사용되는 오디오 코딩 시스템(10)의 개략적인 블록도의 예이다.
도 2는 본 출원에서 사용되는 오디오 코딩 디바이스(200)의 개략적인 블록도의 예이다.
도 3은 본 출원에 따른 멀티 채널 오디오 신호 코딩 방법의 예시적인 실시예의 흐름도이다.
도 4는 멀티 채널 오디오 신호 코딩 방법이 본 출원에 따라 적용된 코딩 장치의 구조를 도시한 예시도이다.
도 5a는 모드 선택 모듈의 구조를 도시한 예시도이다.
도 5b는 멀티 채널 모드 선택 유닛의 구조를 도시한 예시도이다.
도 6은 멀티 채널 오디오 디코딩 방법이 본 출원에 따라 적용된 디코딩 장치의 구조를 도시한 예시도이다.
도 7은 본 출원에 따른 코딩 장치 실시예의 구조를 도시한 개략도이다.
도 8은 본 출원에 따른 디바이스 실시예의 구조를 도시한 개략도이다.
본 출원의 목적, 기술적 해결수단 및 장점을 더 명확하게 하기 위해, 이하에서는 본 출원의 첨부 도면을 참조하여 본 출원의 기술적 해결수단을 명확하고 완전하게 설명한다. 설명된 실시예들은 본 출원의 실시예들의 전부가 아닌 일부에 불과함은 자명하다. 창의적인 노력없이 본 출원의 실시예에 기초하여 당업자에 의해 획득된 다른 모든 실시예는 본 출원의 보호 범위 내에 속한다.
본 출원의 명세서, 실시예, 청구범위 및 첨부된 도면에서, "제1", "제2" 등의 용어는 단지 구별 및 설명을 위한 것이며, 상대적 중요성의 지시나 암시 또는 명령의 지시나 암시로서 이해되어서는 안된다. 또한, "포함하다", "갖다" 및 이들의 모든 변형에 대한 용어는 비배타적 포함을 커버하도록 의도되며, 예를 들어 일련의 단계 또는 유닛을 포함한다. 방법, 시스템, 제품 또는 디바이스는 문자 그대로 나열된 단계 또는 유닛으로 반드시 제한되지는 않지만, 문자 그대로 나열되지 않았거나 그러한 프로세스, 방법, 제품 또는 디바이스에 내재된 다른 단계 또는 유닛을 포함할 수 있다.
본 출원에서, "적어도 하나(항목)"는 하나 이상을 지칭하고 "복수"는 둘 이상을 지칭하는 것으로 이해되어야 한다. "및/또는"이라는 용어는 연관된 객체 간의 연관 관계를 설명하는 데 사용되며, 세 가지 관계가 존재할 수 있음을 나타낸다다. 예를 들어, "A 및/또는 B"는 다음 세 가지 경우, 즉 A만 존재하고, B만 존재하며, A와 B가 모두 존재하는 경우를 나타낼 수 있으며, 여기서 A 및 B는 단수 또는 복수일 수 있다. 문자 "/"는 일반적으로 연관된 객체 간의 "또는" 관계를 지시한다. "다음 항목(개) 중 적어도 하나" 또는 이와 유사한 표현은 단일 항목(개) 또는 복수 항목(개)의 조합을 포함하여 이러한 항목의 모든 조합을 지칭한다. 예를 들어, a, b 또는 c 중 적어도 하나는 a, b, c, a 및 b, a 및 c, b 및 c, 또는 a, b 및 c를 지시할 수 있으며, 여기서 a, b, c는 단수 또는 복수일 수 있다.
본 출원에서 관련 용어의 설명은 다음과 같다.
오디오 프레임: 오디오 데이터는 스트림 형태이다. 실제 적용 시, 오디오 처리 및 전송을 용이하게 하기 위해, 특정 기간 내의 오디오 데이터는 일반적으로 오디오 프레임으로서 선택된다. 지속기간은 "샘플링 시간"으로서 지칭되고, 지속기간의 값은 코덱 및 특정 애플리케이션의 요구사항에 기초하여 결정될 수 있다. 예를 들어, 지속기간은 2.5ms ~ 60ms이고, ms는 밀리초이다.
오디오 신호: 오디오 신호는 음성, 음악 및 음향 효과와 함께 음파의 주파수 및 진폭의 규칙적인 변화에 대한 정보의 캐리어이다. 오디오는 지속적으로 변화하는 아날로그 신호이며, 연속적인 곡선으로 표현될 수 있고 음파로서 지칭된다. 아날로그 디지털 변환 또는 컴퓨터를 사용하여 오디오로부터 생성된 디지털 신호가 오디오 신호이다. 음파는 오디오 신호의 특성을 결정하는 세 가지 중요판 파라미터, 즉 주파수, 진폭 및 위상을 갖는다.
채널 신호: 채널 신호는 녹음 또는 재생 중에 상이한 공간 위치에서 수집되거나 재생되는 독립적인 오디오 신호를 지칭한다. 따라서, 채널 수량은 사운드 녹음 중 음원의 수량 또는 재생 중 스피커의 수량이다.
다음은 본 출원이 적용된 시스템 아키텍처이다.
도 1은 본 출원에서 사용되는 오디오 코딩 시스템(10)의 개략적인 블록도의 예이다. 도 1에 도시된 바와 같이, 오디오 코딩 시스템(10)은 소스 디바이스(12) 및 목적지 디바이스(14)를 포함할 수 있다. 소스 디바이스(12)는 코딩된 비트스트림을 생성한다. 따라서, 소스 디바이스(12)는 오디오 인코딩 장치로서 지칭될 수 있다. 목적지 디바이스(14)는 소스 디바이스(12)에 의해 생성된 코딩된 비트스트림을 디코딩할 수 있다. 따라서, 목적지 디바이스(14)는 오디오 디코딩 장치로서 지칭될 수 있다.
소스 디바이스(12)는 인코더(20)를 포함하고, 선택적으로 음원(16), 오디오 전처리기(18) 및 통신 인터페이스(22)를 포함할 수 있다.
음원(16)은 현실 세계에서 음성, 음악, 음향 효과 등을 캡처하도록 구성된 임의의 유형의 오디오 캡처 디바이스 및/또는 임의의 유형의 오디오 생성 디바이스, 예를 들어 음성, 음악, 음향 효과 등을 생성하도록 구서된 오디오 처리기 또는 디바이스를 포함할 수 있거나 또는 이들일 수 있다. 음원은 전술한 오디오를 저장하는 임의의 유형의 메모리 또는 저장소일 수 있다.
오디오 전처리기(18)는 전처리된 오디오 데이터(19)를 획득하기 위해 (원시) 오디오 데이터(17)를 수신하고 오디오 데이터(17)를 전처리하도록 구성된다. 예를 들어, 오디오 전처리기(18)에 의해 수행되는 전처리는 트리밍(trimmnig) 또는 노이즈 제거를 포함할 수 있다. 오디오 전처리 유닛(18)은 선택적 컴포넌트일 수 있음을 이해할 수 있다.
인코더(20)는 전처리된 오디오 데이터(19)를 수신하고 인코딩된 오디오 데이터(21)를 제공하도록 구성된다.
소스 디바이스(12)의 통신 인터페이스(22)는 저장 또는 직접 재구성을 위해 인코딩된 오디오 데이터(21)를 수신하고 인코딩된 오디오 데이터(21)를 통신 채널(13)을 통해 목적지 디바이스(14)로 전송하도록 구성될 수 있다.
목적지 디바이스(14)는 디코더(30)를 포함하고, 선택적으로 통신 인터페이스(28), 오디오 후처리기(32) 및 재생 디바이스(34)를 포함할 수 있다.
목적지 디바이스(14)의 통신 인터페이스(28)는 소스 디바이스(12)로부터 인코딩된 오디오 데이터(21)를 직접 수신하고 인코딩된 오디오 데이터(21)를 디코더(30)에게 제공하도록 구성된다.
통신 인터페이스(22) 및 통신 인터페이스(28)는 소스 디바이스(12)와 목적지 디바이스(14) 사이의 직접 통신 링크, 예를 들어 직접 유선 또는 무선 연결 또는 임의 종류의 네트워크, 예를 들어 유선 또는 무선 네트워크 또는 이들의 조합, 또는 임의 종류의 사설 및 공용 네트워크, 또는 이들의 임의의 조합을 통해 인코딩된 오디오 데이터(21)를 전송하거나 수신하도로 구성될 수 있다.
예를 들어, 통신 인터페이스(22)는 인코딩된 오디오 데이터(21)를 적절한 포맷, 예를 들어 패킷으로 캡슐화하고, 및/또는 통신 링크 또는 통신 네트워크를 통한 전송을 위해 임의 종류의 전송 인코딩 또는 처리를 사용하여 인코딩된 오디오 데이터(21)를 처리하도록 구성될 수 있다.
통신 인터페이스(22)를 형성하는 통신 인터페이스(28)는, 예를 들어 전송 데이터를 수신하고 인코딩된 오디오 데이터(21)를 획득하기 위해 임의 유형의 대응하는 전송 디코딩 또는 처리 및/또는 디캡슐화를 사용하여 전송 데이터를 처리하도록 구성될 수 있다.
통신 인터페이스(22) 및 통신 인터페이스(28) 모두는 도 1에서 소스 디바이스(12)로부터 목적지 디바이스(14)까지 대응하는 통신 채널(13)의 화살표로 지시된 단방향 통신 인터페이스로서 구성될 수 있거나, 또는 양방향 통신 인터페이스로서 구성될 수 있으며, 연결을 구축하고 통신 링크 및/또는 데이터 전송과 관련된 기타 정보, 예를 들어 인코딩된 오디오 데이터를 확인 및 교환하기 위해 메시지 등을 전송하고 수신하도록 구성될 수 있다.
디코더(30)는 인코딩된 오디오 데이터(21)를 수신하고 디코딩된 오디오 데이터(31)를 제공하도록 구성된다.
오디오 후처리기(32)는 후처리된 오디오 데이터(33)를 획득하기 위해 디코딩된 오디오 데이터(31)를 후처리하도록 구성된다. 오디오 후처리기(32)에 의해 수행되는 후처리는 예를 들어 트리밍 또는 재샘플링을 포함할 수 있다.
재생 디바이스(34)는 사용자 또는 청취자에게 오디오를 재생하기 위해 후처리된 오디오 데이터(33)를 수신하도록 구성된다. 재생 디바이스(34)는 재구성된 오디오를 재생하도록 구성된 임의 유형의 플레이어, 예를 들어 통합 또는 외부 스피커일 수 있거나 또는 이들을 포함할 수 있다. 예를 들어, 스피커는 라우드스피커, 사운드 박스 등을 포함할 수 있다.
도 2는 본 출원에서 사용되는 오디오 코딩 디바이스(200)의 개략적인 블록도의 예이다. 실시예에서, 오디오 코딩 디바이스 디바이스(200)는 오디오 디코더(예를 들어, 도 1에서의 디코더(30)) 또는 오디오 인코더(예를 들어, 도 1에서의 인코더(20))일 수 있다.
오디오 코딩 디바이스(200)는 데이터 수신을 위한 인그레스(ingress) 포트(210) 및 수신기 유닛(Rx)(220), 데이터 처리를 위한 프로세서, 로직 유닛 또는 중앙 처리 장치(230), 데이터 전송을 위한 전송기 유닛(Tx)(240) 및 이그레스(egress) 포트(250), 및 데이터 저장을 위한 메모리(260)을 포함한다. 오디오 코딩 디바이스(200)는 광학 또는 전기 시호의 이그레스 또는 인그레스를 위한 인그레스 포트(210), 수신기 유닛(220), 전송기 유닛(240) 및 이그레스 포트(250)에 결합되는 광-전기 변환 컴포넌트 및 전기-광(electrical-to-optical, EO) 컴포넌트를 더 포함할 수 있다.
프로세서(230)는 하드웨어 및 소프트웨어를 사용하여 구현된다. 프로세서(230)는 하나 이상의 CPU 칩, 코어(예를 들어, 멀티 코어 프로세서), FPGA, ASIC 및 DSP로서 구현될 수 있다. 프로세서(230)는 인그레스 포트(210), 수신기 유닛(220), 전송기 유닛(240), 이그레스 포트(250) 및 메모리(260)와 통신한다. 프로세서(230)는 코딩 모듈(270)(예를 들어, 인코딩 모듈 또는 디코딩 모듈)을 포함한다. 코딩 모듈(270)은 본 출원에서 제공되는 멀티 채널 오디오 신호 코딩 방법을 구현하기 위해 본 출원에서 개시된 실시예를 구현한다. 예를 들어, 코딩 모듈(270)은 다양한 코딩 작동을 구현, 처리 또는 제공한다. 따라서, 코딩 모듈(270)은 오디오 코딩 디바이스(200)의 기능에 실질적인 개선을 제공하고 서로 다른 상태 사이에서 오디오 코딩 디바이스(200)의 스위칭에 영향을 미친다. 다르게는, 메모리(260)에 저장된 명령어는 코딩 모듈(270)을 구현하기 위해 프로세서(230)에 의해 실행된다.
메모리(260)는 하나 이상의 디스크, 테이프 드라이브 및 솔리드 스테이트 드라이브 등을 포함하며, 이러한 프로그램이 선택적으로 실행될 때 프로그램을 저장하고, 프로그램 실행 중에 읽혀지는 명령어 및 데이터를 저장하기 위해 오버플로우 데이터 저장 디바이스로서 사용될 수 있다. 메모리(260)는 휘발성 및/또는 비휘발성일 수 있으며, 읽기 전용 메모리(read-only memory, ROM), 랜덤 액세스 메모리(random access memory, RAM), 랜덤 액세스 메모리(ternary content-addressable memory, TCAM), 및/또는 정적 랜덤 액세스 메모리(static random access memory, SRAM)일 수 있다.
전술한 실시예의 설명에 기초하여, 본 출원은 멀티 채널 오디오 신호 코딩 방법을 제공한다.
도 3은 본 출원에 따른 멀티 채널 오디오 신호 코딩 방법의 예시적인 실시예의 흐름도이다. 프로세스(300)는 오디오 코딩 시스템(10) 또는 오디오 코딩 디바이스(200)의 소스 디바이스(12)에 의해 실행될 수 있다. 프로세스(300)는 일련의 단계 또는 작동으로서 설명된다. 프로세스(300)의 단계 또는 작동은 도 3에서 도시된 실행 순서에 제한되지 않고 다양한 순서로 및/또는 동시에 수행될 수 있음을 이해해야 한다. 도 3에 도시된 바와 같이, 이 방법은 다음의 단계를 포함한다.
단계 301: 인코딩될 제1 오디오 프레임을 획득한다.
본 실시예에서 제1 오디오 프레임은 인코딩될 멀티 채널 오디오의 임의의 프레임일 수 있고, 제1 오디오 프레임은 5개 이상의 채널 신호를 포함한다. 예를 들어, 5.1 채널은 6개의 채널 신호, 즉 중앙 채널(C), 전방 좌측 채널(left, L), 전방 우측 채널(right, R), 후방 좌측 서라운드 채널(left surround, LS), 후방 우측 서라운드 채널(right surround, RS) 및 0.1 채널 저주파수 효과(low frequency effect, LFE)를 포함한다. 7.1 채널은 8개의 채널 신호, 즉 C, L, R, LS, RS, LB, RB 및 LFE를 포함한다. LFE는 3Hz 내지 120Hz의 오디오 채널이며, 일반적으로 저음을 위해 특별히 설계된 스피커로 전송된다.
단계 302: 제1 채널 페어(pair) 세트를 획득하기 위해 제1 페어링 방식에 따라 적어도 5개의 채널 신호를 페어링(pairing)한다.
제1 채널 페어 세트는 적어도 하나의 채널 페어를 포함하고, 채널 페어는 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함한다.
단계 303: 제1 채널 페어 세트의 제1 상관값 합을 획득한다.
하나의 채널 페어는 하나의 상관값을 가지며, 상관값은 하나의 채널 페어의 두 채널 신호 간의 상관관계를 지시한다.
두 개의 고도로 상관된 채널 신호를 함께 인코딩하면 중복을 줄이고 코딩 효율을 향상시킬 수 있다. 따라서, 본 실시예에서, 두 채널 신호 간의 상관값을 기반으로 페어링이 수행된다. 최대한 상관관계가 가장 높은 페어링 방식을 찾기 위해, 제1 오디오 프레임의 적어도 5개 채널 신호 중 2개마다의 상관값이 먼저 계산되어 제1 오디오 프레임의 상관값 세트를 획득할 수 있다. 예를 들어, 5개의 채널 신호는 총 10개의 채널 페어를 형성할 수 있다. 이에 상응하여, 상관값 세트는 10개의 상관값을 포함할 수 있다.
선택적으로, 상관값은 정규화될 수 있다. 이와 같이, 모든 채널 페어의 상관값이 특정 범위 내로 제한되어 상관값에 대한 통일된 결정 기준, 예를 들어 페어링 임계값을 설정할 수 있다. 페어링 임계값은 0.2 이상 1 이하의 값, 예를 들어 0.3으로 설정될 수 있다. 이와 같이, 두 채널 신호의 정규화된 상관값이 페어링 임계값보다 작은 한, 두 채널 신호가 상관관계가 좋지 않아 코딩을 위한 페어링이 필요하지 않은 것으로 간주된다.
가능한 구현에서, 다음의 수학식은 두 채널 신호(예를 들어, ch1 및 ch2) 사이의 상관값을 계산하는 데 사용될 수 있다.
Figure pct00001
corr(ch1,ch2)는 채널 신호 ch1과 채널 신호 ch2 사이의 정규화된 상관값이고, spec_ch1(i)는 채널 신호 ch1의 i번째 주파수 빈(bin)의 주파수 영역 계수이며, spec_ch2(i)는 채널 신호 ch2의 i번째 주파수 빈의 도메인 계수이고, N은 오디오 프레임의 주파수 빈의 총 수량이다.
다른 알고리즘이나 수학식이 두 채널 신호 사이의 상관값을 계산하는 데 사용될 수 있다. 이는 본 출원에서 특별히 제한되지 않는다.
제1 페어링 방식은, 적어도 5개의 채널 신호에 대응하는 채널 페어에서 하나의 채널 페어를 선택하고, 채널 페어를 제1 채널 페어 세트에 더하여 상관값의 최대 합을 획득하는 방식을 포함한다. 제1 상관값 합은 제1 페어링 방식에 따라 적어도 5개의 채널 신호의 페어링을 통해 획득된 제1 채널 페어 세트의 모든 채널 페어의 상관값의 합이다. 본 실시예에서, 제1 페어링 방식은 다음의 두 가지 구현을 포함할 수 있다.
(1) 상관값 세트에서 M개의 최대 상관값을 선택한다. 페어링 임계값보다 작은 상관값은 상관값에 대응하는 채널 페어에서 두 채널 신호 간의 상관관계가 낮고, 코딩을 위한 페어링이 필요하지 않음을 지시하기 때문에, M개의 상관값은 페어링 임계값보다 크거나 같아야 한다. 코딩 효율을 향상시키기 위해, 페어링 임계값보다 크거나 같은 모든 상관값을 선택할 필요는 없다. 따라서, M의 상한 N이 설정된다. 즉, 최대 N개의 상관값이 선택된다.
N은 2보다 크거나 같은 정수일 수 있고, N의 최대값은 제1 오디오 프레임의 모든 채널 신호에 대응하는 모든 채널 페어의 수량을 초과할 수 없다. N 값이 클수록 더 많은 계산이 발생한다. N 값이 작을수록 채널 페어 세트가 손실되어 코딩 효율이 떨어질 수 있다.
선택적으로, N은 채널 페어의 최대 수량에 1을 더한 값으로 설정할 수 있다. 즉,
Figure pct00002
이며, 여기서 CH는 제1 오디오 프레임에 포함된 채널 신호의 수량을 지시한다. 예를 들어, 5.1 채널은 5개의 채널 신호를 포함하고, N = 3이다. 7.1 채널은 7개의 채널 신호를 포함하고, N = 4이다.
그런 다음, M개의 채널 페어 세트는 M개의 상관값에 기초하여 획득된다. 각각의 채널 페어 세트는 M개의 상관값에 대응하는 M개의 채널 페어 중 적어도 하나를 포함하고, 채널 페어 세트가 적어도 2개의 채널 페어를 포함하는 경우, 적어도 2개의 채널 페어는 동일한 채널 신호를 포함하지 않는다. 예를 들어, 5.1 채널의 경우, 상관값 세트에 기초하여 선택된 최대 상관값에 대응하는 3개의 채널 페어는 (L, R), (R, C) 및 (LS, RS)이며, 여기서 (LS, RS)는 페어링 임계값보다 작은 상관값을 가지므로 제외된다. 2개의 채널 페어 세트는 나머지 2개의 채널 페어 (L, R) 및 (R, C)에 기초하여 획득될 수 있으며, 여기서 2개의 채널 페어 집합 중 하나는 (L, R)을 포함하고, 다른 하나는 (R, C)를 포함한다.
페어링 임계값 이상의 상관값에 대응하는 M개의 채널 페어 중 어느 하나(예를 들어, 제1 채널 페어)를 예로 사용하면, 본 실시예에서 M개의 채널 페어 세트를 획득하는 방법은, 제1 채널 페어를 제1 채널 페어 세트에 더하는 단계 ― M개의 채널 페어 세트는 제1 채널 페어 세트를 포함함 ―; 복수의 채널 페어 중 연관된 채널 페어가 아닌 다른 채널 페어가 페어링 임계값보다 큰 상관값을 갖는 채널 페어를 포함하는 경우, 다른 채널 페어에서 상관값이 가장 큰 채널 페어를 선택하고 채널 페어를 제1 채널 페어 세트에 추가하는 단계 ― 연관된 채널 페어는 제1 채널 페어 세트에 추가된 채널 페어에 포함된 임의의 채널 신호를 포함함 ―를 포함한다.
제1 채널 페어를 제1 채널 페어 세트에 추가하는 단계를 제외하고, 전술한 프로세스의 단계는 모두 반복 처리의 단계이다. 세부 사항은 다음과 같다.
a. 복수의 채널 페어 중 연관된 채널을 제외한 다른 채널 페어가 페어링 임계값보다 큰 상관값을 갖는 채널 페어를 포함하는지 여부를 결정한다.
b. 페어링 임계값보다 큰 상관값을 갖는 채널 페어가 포함된 경우, 다른 채널 페어에서 상관값이 가장 큰 채널 페어를 선택하고, 제1 채널 페어 세트에 채널 페어를 추가한다.
이 경우, 다른 채널 페어가 페어링 임계값보다 큰 상관값을 갖는 채널 페어를 포함하는 한, 전술한 단계 b는 반복적으로 수행될 수 있다.
선택적으로, 계산량을 줄이기 위해, 페어링 임계값보다 작은 상관값은 상관값 세트에서 삭제될 수 있다. 이것은 채널 페어의 수량을 줄이고 반복 횟수를 줄일 수 있다.
(2) 복수의 채널 페어에 기초하여, 적어도 5개의 채널 신호에 대응하는 모든 채널 페어 세트를 획득하고, 상관값 세트에 기초하여, 모든 채널 페어 세트의 임의의 채널 페어 세트에 포함된 모든 채널 페어의 상관값의 합을 획득하며, 모든 채널 페어 세트 중에서 가장 큰 상관값 합에 대응하는 채널 페어 세트를 타깃 채널 페어 세트로 결정한다.
상관값 세트는 제1 오디오 프레임의 적어도 5개의 채널 신호의 복수의 채널 페어의 상관값을 포함한다. 복수의 채널 페어는 규칙적으로 결합되어(즉, 동일한 채널 페어 세트의 복수의 채널 페어는 동일한 채널 신호를 포함할 수 없음) 적어도 5개의 채널 신호에 대응하는 복수의 채널 페어 세트를 획득할 수 있다.
가능한 구현에서, 채널 신호의 수량이 홀수일 때, 다음의 수학식이 모든 채널 페어 세트의 수량을 계산하는 데 사용될 수 있다.
Figure pct00003
가능한 구현에서, 채널 신호의 수량이 짝수일 때, 다음의 수학식이 모든 채널 페어 세트의 수량을 계산하는 데 사용될 수 있다.
Figure pct00004
Pair_num은 모든 채널 페어 세트의 수량을 지시하고, CH는 제1 오디오 프레임에서 멀티 채널 처리에 참여하는 채널 신호의 수량을 지시하며, 멀티 채널 마스킹을 통한 스크리닝 후에 획득된 결과이다.
선택적으로, 계산량을 줄이기 위해, 상관값 세트가 획득된 후, 복수의 채널 페어 세트는 복수의 채널 페어에서 상관되지 않은 채널 페어 이외의 다른 채널 페어에 기초하여 획득될 수 있으며, 여기서 상관되지 않은 채널 페어의 상관값은 페어링 임계값보다 작다. 이러한 방식으로, 채널 페어 세트가 획득될 때 계산에 참여하는 채널 페어의 수량이 감소될 수 있다. 이는 채널 페어 세트의 수량을 줄이고 후속 단계에서 상관값 합계에 대한 계산량을 줄인다.
단계 304: 제2 채널 페어 세트를 획득하기 위해 제2 페어링 방식에 따라 적어도 5개의 채널 신호를 페어링한다.
단계 305: 제2 채널 페어 세트의 제2 상관값 합을 획득한다.
제2 페어링 방식은, 적어도 5개의 채널 신호에 대응하는 채널 페어 중에서 가장 큰 상관값을 갖는 채널 페어를 제2 채널 페어 세트에 먼저 추가하는 단계; 및 적어도 5개의 채널 신호에 대응하는 채널 페어 중 연관된 채널 페어가 아닌 다른 채널 페어에서 가장 큰 상관값을 갖는 채널 페어를 제2 채널 페어 세트에 추가하는 단계를 포함하며, 여기서 연관된 채널 페어는 제1 채널 페어 세트에 추가된 채널 페어에 포함된 임의의 채널 신호를 포함한다. 제2 상관값 합은 제2 페어링 방식에 따라 적어도 5개의 채널 신호의 페어링을 통해 획득된 제2 채널 페어 세트의 모든 채널 페어의 상관값의 합이다.
채널 페어가 선택될 때마다, 현재 가장 큰 상관값에 대응하는 채널 페어만이 선택되어 제1 채널 페어 세트에 추가된다.
단계 306: 제1 상관값 합과 제2 상관값 합에 기초하여 적어도 5개의 채널 신호의 타깃 페어링 방식을 결정한다.
제1 상관값 합이 제2 상관값 합보다 큰 경우, 타깃 페어링 방식이 제1 페어링 방식인 것으로 결정한다. 제1 상관값 합이 제2 상관값 합과 같은 경우, 타깃 페어링 방식이 제2 페어링 방식인 것으로 결정한다.
단계 307: 적어도 5개의 채널 신호의 변동 간격값을 획득한다.
변동 간격값은 적어도 5개의 채널 신호의 에너지 또는 진폭의 차이를 지시한다.
단계 308: 타깃 페어링 방식이 제1 페어링 방식인 경우, 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정한다.
에너지 균등화 모드는 제1 에너지 균등화 모드와 제2 에너지 균등화 모드를 포함한다. 제1 에너지 균등화 모드에서, 채널 페어의 2개의 채널 신호는 채널 페어에 대응하는 2개의 균등화된 채널 신호를 획득하는 데 사용된다. 제2 에너지 균등화 모드에서, 하나의 채널 페어의 2개의 채널 신호와 하나의 채널 페어에 없는 적어도 하나의 채널 신호는 하나의 채널 페어에 대응하는 2개의 균등화된 채널 신호를 획득하는 데 사용된다.
적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하는 것은, 변동 간격값이 미리 설정된 조건을 충족하는 경우, 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 변동 간격값이 미리 설정된 조건을 충족하지 않는 경우, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정하는 것을 포함할 수 있다.
변동 간격값은 제1 오디오 프레임의 에너지 평탄도를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 에너지 평탄도가 제1 임계값보다 작음을 지시하거나, 또는 변동 간격값이 제1 오디오 프레임의 진폭 평탄도를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 진폭 평탄도가 제2 임계값보다 작음을 지시하거나, 또는 변동 간격값이 제1 오디오 프레임의 에너지 편차를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 에너지 편차가 제1 미리 설정된 범위 밖에 있음을 지시하거나, 또는 변동 간격값이 제1 오디오 프레임의 진폭 편차를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 진폭 편차가 제2 미리 설정된 범위 밖에 있음을 지시한다.
본 발명의 본 실시예에서, 에너지 평탄도는 현재 프레임의 주파수 도메인 계수의 에너지 정규화가 멀티 채널 스크리닝 유닛에 의해 스크리닝된 복수의 채널에 대해 수행된 후의 프레임 에너지의 변동을 나타내고, 평단도 계산 수학식에 따라 측정될 수 있다. 현재 프레임의 모든 채널의 에너지가 동일한 경우, 현재 프레임의 에너지 평탄도는 1이다. 현재 프레임의 채널 에너지가 0인 경우, 현재 프레임의 에너지 평탄도는 0이다. 따라서, 채널 간 에너지 평탄도의 값 범위는 [0, 1]이다. 채널 간 에너지의 변동이 커지는 것은 에너지 평탄도의 작이 작아지는 것을 의미한다. 구현에서, 모든 채널 포맷(예를 들어, 5.1, 7.1, 9.1, 11.1)에 대해 통일된 제1 임계값, 예를 들어 0.483, 0.492 또는 0.504가 설정될 수 있다. 다른 구현에서, 상이한 채널 포맷에 대해 상이한 제1 임계값이 설정된다. 예를 들어, 5.1 채널 포맷에 대한 제1 임계값은 0.511이고, 7.1 채널 포맷에 대한 제1 임계값은 0.563이며, 9.1 채널 포맷에 대한 제1 임계값은 0.608이고, 11.1 채널 포맷에 대한 제1 임계값은 0.654이다.
진폭 평탄도는 현재 프레임의 주파수 도메인 계수의 진폭 정규화가 멀티 채널 스크리닝 유닛에 의해 스크리닝된 복수의 채널에 대해 수행된 후 프레임 진폭의 변동을 나타내며, 평탄도 계산 수학식에 따라 측정될 수 있다. 모든 채널의 프레임 진폭이 동일한 경우, 평탄도는 1이다. 채널의 프레임 진폭이 0인 경우, 평탄도는 0이다. 따라서, 진폭 평탄도의 범위는 [0, 1]이다. 채널 간 진폭의 변동이 커지는 것은 평탄도의 값이 작아지는 것을 지시한다. 구현에서, 모든 채널 포맷(예를 들어, 5.1, 7.1, 9.1, 11.1)에 대해 통일된 제2 임계값, 예를 들어, 0.695, 0.701, 또는 0.710이 설정될 수 있다. 다른 구현에서, 상이한 채널 포맷에 대해 상이한 제2 임계값이 제공될 수 있다. 예를 들어, 5.1 채널 포맷에 대한 제2 임계값은 0.715일 수 있고, 7.1 채널 포맷에 대한 제2 임계값은 0.753일 수 있으며, 9.1 채널 포맷에 대한 제2 임계값은 0.784일 수 있고, 11.1 채널 포맷에 대한 제2 임계값은 0.809일 수 있다.
진폭과 에너지 사이에 제곱 관계가 있기 때문에, 진폭 평탄도와 에너지 평탄도 사이에도 제곱 관계가 있다. 즉, 진폭 평탄도의 제곱에 대응하는 채널 간 프레임 진폭의 변동은 대략 에너지 평탄도에 대응하는 채널 간 프레임 에너지의 변동과 같다.
본 실시예에서, 에너지 균등화 모드는 적어도 5개의 채널 신호의 변동 간격값을 지시하는 전술한 복수의 유형의 정보에 기초하여 결정될 수 있으며, 여기서 정보는 에너지 평탄도, 진폭 평탄도, 에너지 편차 또는 진폭 편차를 포함한다.
(1) 적어도 5개의 채널 신호의 에너지값을 계산하고, 적어도 5개의 채널 신호의 에너지값에 기초하여 제1 오디오 프레임의 에너지 평탄도를 획득하며, 제1 오디오 프레임의 에너지 평탄도가 제1 임계값보다 작은 경우, 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 제1 오디오 프레임의 에너지 평탄도가 제1 임계값보다 크거나 같은 경우, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정한다.
(2) 적어도 5개의 채널 신호의 진폭값을 계산하고, 적어도 5개의 채널 신호의 진폭값에 기초하여 제1 오디오 프레임의 진폭 평탄도를 획득하며, 제1 오디오 프레임의 진폭 평탄도가 제2 임계값보다 작은 경우, 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 제1 오디오 프레임의 진폭 평탄도가 제2 임계값보다 크거나 같은 경우, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정한다.
(3) 적어도 5개의 채널 신호의 에너지값을 계산하고, 적어도 5개의 채널 신호의 에너지값에 기초하여 제1 오디오 프레임의 에너지 편차를 획득하며, 제1 오디오 프레임의 에너지 편차가 제1 미리 설정된 범위 밖에 있는 경우, 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 제1 오디오 프레임의 에너지 편차가 제1 미리 설정된 범위 내에 있는 경우, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정한다.
(4) 적어도 5개의 채널 신호의 진폭값을 계산하고, 적어도 5개의 채널 신호의 진폭값에 기초하여 제1 오디오 프레임의 진폭 편차를 획득하며, 제1 오디오 프레임의 진폭 편차가 제2 미리 설정된 범위 밖에 있는 경우, 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 제1 오디오 프레임의 진폭 편차가 제2 미리 설정된 범위 내에 있는 경우, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정한다.
또 다른 에너지 균등화 모드가 본 출원에서 추가로 사용될 수 있다. 이것은 여기에서 특별히 제한되지 않는다.
가능한 구현에서, 에너지 균등화 모드가 적어도 5개의 채널 신호의 변동 간격값에 기초하여 결정되기 전에, 에너지 균등화 모드는 먼저 제1 오디오 프레임에 대응하는 코딩 비트율에 기초하여 결정될 수 있다. 즉, 코딩 비트율가 비트율 임계값보다 큰지의 여부가 결정된다. 코딩 비트율가 비트율 임계값보다 큰 경우, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정된다. 코딩 비트율이 비트율 임계값 이하인 경우, 에너지 균등화 모드는 적어도 5개의 채널 신호의 변동 간격값에 기초하여 결정된다.
단계 309: 타깃 페어링 방식이 제2 페어링 방식인 경우, 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하고, 적어도 5개의 채널 신호의 타깃 페어링 방식을 재결정한다.
변동 간격값이 미리 설정된 조건을 충족하는 경우, 타깃 페어링 방식이 제1 페어링 방식이고, 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정된다. 변동 간격값이 미리 설정된 조건을 충족하지 않는 경우, 타깃 페어링 방식이 제2 페어링 방식이고, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정된다.
변동 간격값 및 미리 설정된 조건을 충족하는 변동 간격값에 대해서는 단계 308을 참조한다. 세부 사항은 여기에서 다시 설명되지 않는다.
단계 310: 적어도 5개의 균등화된 채널 신호를 획득하기 위해 에너지 균등화 모드에 따라 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행한다.
에너지 균등화 모드가 제1 에너지 균등화 모드인 경우, 페어링 방식에 대응하는 타깃 채널 페어 세트 중 현재 채널 페어에 대해, 현재 채널 페어에 포함된 2개의 채널 신호의 에너지 또는 진폭값의 평균값이 계산될 수 있고, 에너지 균등화 처리는 2개의 대응하는 균등화된 채널 신호를 획득하기 위해 평균값에 기초하여 2개의 채널 신호에 대해 개별적으로 수행된다.
이와 같이, 적어도 5개의 채널 신호의 변동 간격값이 큰 경우, 2개의 상관된 채널 신호 사이에서만 에너지 균등화가 수행될 수 있어서, 스테레오 처리 시 비트 할당이 채널 신호의 변동 간격값에 더 적합하게 된다. 이는 낮은 비트율 코딩 환경에서 높은 에너지를 갖는 채널 페어의 코딩 노이즈가 비트 부족으로 인해 낮은 에너지를 갖는 채널 페어의 코딩 노이즈보다 훨씬 클 수 있고, 낮은 에너지를 갖는 채널 페어가 중복성을 갖는 문제를 회피한다.
에너지 균등화 모드가 제2 에너지 균등화 모드인 경우, 적어도 5개의 채널 신호의 에너지 또는 진폭값의 평균값이 산출될 수 있고, 적어도 5개의 균등화된 채널 신호를 획득하기 위해 그 평균값에 기초하여 적어도 5개의 채널 신호에 대해 에너지 균등화 처리가 개별적으로 수행된다.
단계 311: 타깃 페어링 방식에 대응하는 채널 페어 세트에 기초하여 적어도 5개의 균등화된 채널 신호를 인코딩한다.
선택적으로, 에너지 균등화 처리가 전술한 단계에서 적어도 5개의 채널 신호에 대해 수행되지 않으면, 코딩 객체는 균등화된 채널 신호 대신에 적어도 5개의 채널 신호이다.
본 실시예에서, 페어링 방식에 대응하는 상관값의 합에 기초하여 기존 기술의 페어링 방식을 사용할 것인지 또는 상관값의 합이 가장 큰 페어링 방식을 사용할 것인지를 결정하기 위해 2개의 페어링 방식이 결합되고, 에너지 균등화 모드가 채널 신호의 변동 간격값에 따라 결정되므로, 에너지 균등화 모드가 채널의 변동 간격값에 더 적합하게 되어 오디오 프레임 코딩 방법이 보다 다양하고 효율적이 될 수 있다.
다음은 도 3에 도시된 방법 실시예에서 페어링 방식 및 에너지 균등화 모드를 결정하는 프로세스에 대해 두 가지 특정 실시예를 사용하여 설명한다. 5.1 채널이 예로 사용된다. 5.1 채널은 중앙(C) 채널, 전방 좌측(left, L) 채널, 전방 우측(right, R) 채널, 후방 좌측 서라운드(left surround, LS) 채널, 후방 우측 서라운드(right surround, RS) 채널 및 0.1 채널 저주파수 효과(low frequency effect, LFE)를 포함한다. [표 1]에 나타낸 바와 같이, 채널 인덱스는 6개의 채널 신호에 대한 설정된다.
[표 1]
Figure pct00005
도 4는 멀티 채널 오디오 신호 코딩 방법이 본 출원에 따라 적용된 코딩 장치의 구조를 도시한 예이다. 코딩 장치는 오디오 코딩 시스템(10)의 소스 디바이스(12)의 인코더(20)일 수 있거나, 또는 오디오 코딩 디바이스(200)의 코딩 모듈(270)일 수 있다. 코딩 장치는 모드 선택 모듈, 멀티 채널 융합 처리 모듈, 채널 인코딩 모듈 및 비트스트림 다중화 인터페이스를 포함할 수 있다.
모드 선택 모듈의 입력은 5.1 채널의 6개 채널 신호(L, R, C, LS, RS, LFE)와 멀티 채널 처리 지시자(MultiProcFlag)를 포함하고, 출력은 5개의 필터링된 채널 신호(L, R, C, LS, RS) 및 모드 선택 사이드 정보를 포함한다. 모드 선택 사이드 정보는 페어링 방식에 대응하는 에너지 균등화 모드(페어 에너지 균등화 모드 또는 전체 에너지 균등화 모드), 페어링 방식(MCT 페어링 또는 MCAC 페어링), 상관값 사이드 정보(전체 상관값 사이드 정보 또는 MCT 상관값 사이드 정보)를 포함한다.
멀티 채널 융합 처리 모듈은 멀티 채널 코딩 도구(multi-channel coding tool, MCT) 유닛과 멀티 채널 적응 결합(multi-channel adaptive coupling, MCAC) 유닛을 포함한다. 에너지 균등화 모드와 5개의 채널 신호(L, R, C, LS, RS)에 대해 에너지 균등화 처리 및 스테레오 처리를 수행하는 2개의 모듈 중 하나의 모듈은 모드 선택 사이드 정보에 기초하여 결정될 수 있다. 출력은 처리된 채널 신호(P1 내지 P4, C) 및 멀티 채널 사이드 정보를 포함하고, 멀티 채널 사이드 정보는 채널 페어 세트를 포함한다.
채널 인코딩 모듈은 멀티 채널 융합 처리 모듈에 의해 출력되는 처리된 채널 신호(P1 내지 P4, C)를 코딩하기 위해 모노포닉(monophonic) 코딩 유닛(또는 모노포닉 박스 또는 모노포닉 도구)을 사용하고, 대응하는 인코딩된 채널 신호(E1 내지 E5)를 출력한다. 모노포닉 코딩 유닛이 채널 신호를 코딩하는 과정에서, 에너지가 높은(또는 진폭이 큰) 채널 신호에 더 많은 비트가 할당되고, 에너지가 낮은(또는 진폭이 작은) 채널 신호에 더 적은 비트가 할당된다. 선택적으로, 채널 인코딩 모듈은 또한 멀티 채널 처리 모듈에 의해 출력되는 처리된 채널 신호를 코딩하기 위해 스테레오 코딩 유닛, 예를 들어 파라미터 스테레오 코더 또는 손실 스테레오 코더를 사용할 수 있다.
페어링되지 않은 채널 신호(예를 들어, C)는 인코딩된 채널 신호 E5를 획득하기 위해 채널 인코딩 모듈에 직접 입력될 수 있다다.
비트스트림 다중화 인터페이스는 코딩된 멀티 채널 신호를 생성한다. 코딩된 멀티 채널 신호는 채널 인코딩 모듈에 의해 출력되는 인코딩된 채널 신호(E1 내지 E5) 및 사이드 정보(모드 선택 사이드 정보 및 멀티 채널 사이드 정보를 포함함)를 포함한다. 선택적으로, 비트스트림 다중화 인터페이스는 코딩된 멀티 채널 신호를 직렬 신호 또는 직렬 비트스트림으로 처리할 수 있다.
도 5a는 모드 선택 모듈의 구조를 도시한 예이다. 도 5a에 도시된 바와 같이, 모드 선택 모듈은 멀티 채널 스크리닝 유닛, 글로벌 상관값 통계 유닛, MCT 상관값 통계 유닛 및 멀티 채널 모드 선택 유닛을 포함한다.
멀티 채널 스크리닝 유닛은 멀티 채널 처리 지시자(MultiProcFlag)에 기초하여 6개의 채널 신호(L, R, C, LS, RS, LFE)에서 멀티 채널 처리에 참여하는 5개의 채널 신호, 즉 L, R, C, LS, RS를 스크리닝한다.
글로벌 상관값 통계 유닛은 먼저 멀티 채널 처리에 참여하는 채널 신호 L, R, C, LS, RS 중 임의의 2개 사이의 정규화된 상관값을 계산한다. 본 출원에서, 2개의 채널 신호(예를 들어, 채널 신호 ch1과 채널 신호 ch2) 사이의 상관값은 다음의 수학식에 따라 계산될 수 있다.
Figure pct00006
corr(ch1, ch2)는 채널 신호 ch1과 채널 신호 ch2 사이의 정규화된 상관값이고, spec_ch1(i)는 채널 신호 ch1의 i번째 주파수 빈의 주파수 도메인 계수이며, spec_ch2(i)는 채널 신호 ch2의 i번째 주파수 빈의 주파수 도메인 계수이고, N은 오디오 프레임의 주파수 빈의 총 수량이다. 그런 다음, 최대 상관값 합(즉, 채널 페어 세트에 포함된 모든 채널 페어의 상관값 합)과 최대 상관값 합에 대응하는 채널 페어 세트(타깃 채널 페어 세트로서 간주됨)는 멀티 채널 처리에 참여하는 채널 신호에 대응하는 모든 채널 페어 세트에서 임의의 2개의 채널 신호 사이의 정규화된 상관값에 기초하여 결정된다. 마지막으로, 글로벌 상관값 사이드 정보가 출력되고, 글로벌 상관값 사이드 정보는 최대 상관값 합 corr_sum_max와 타깃 채널 페어 세트를 포함한다. 타깃 채널 페어 세트는 (R, C)와 (LS, RS)를 포함하고, 최대 상관값 합은 corr_sum_max = corr(L, R) + corr(LS, RS)인 것으로 가정된다.
MTC 상관값 통계 유닛은 먼저 멀티 채널 처리에 참여하는 5개의 채널 신호 L, R, C, LS, RS 중 임의의 2개 사이의 정규화된 상관값을 계산한다. 마찬가지로, 2개의 채널 신호(예를 들어, 채널 신호 ch1 및 채널 신호 ch2) 사이의 상관값은 전술한 수학식을 사용하여 계산될 수 있다. 그런 다음, 상관값이 지워질 때까지, 최대 상관값에 대응하는 채널 페어(예를 들어, L, R)가 제1 반복 처리에서 선택되어 타깃 채널 페어 세트에 추가되고, L 및/또는 R을 포함하는 채널 페어의 상관값은 제2 반복 처리에서 삭제되며, 최대 상관값에 대응하는 채널 페어(예를 들어, LS, RS)는 나머지 상관값에서 선택되어 타깃 채널 페어 세트에 추가되는 식으로 계속된다. 마지막으로, MCT 상관값 사이드 정보가 출력되며, 여기서 MCT 상관값 사이드 정보는 타깃 채널 페어 세트와 타깃 채널 페어 세트에 대응하는 상관값의 합 corr_sum_curr을 포함한다. 타깃 채널 페어 세트는 (R, C)와 (LS, RS)를 포함하고, 상관값의 합은 corr_sum_curr = corr(L, R) + corr(LS, RS)인 것으로 가정한다.
임의의 2개의 채널 신호 사이의 정규화된 상관값을 획득한 후, 글로벌 상관값 통계 유닛 및 MCT 상관값 통계 유닛은 설정된 페어링 임계값에 기초하여 상관값을 필터링할 수 있다. 즉, 페어링 임계값 이상의 상관값은 유지하고, 페어링 임계값보다 작은 상관값은 삭제되거나 0으로 설정된다. 이와 같이, 계산량이 감소될 수 있다.
도 5b는 멀티 채널 모드 선택 유닛의 구조를 도시한 예이다. 도 5b에 도시된 바와 같이, 멀티 채널 모드 선택 유닛은 모듈 선택 유닛 및 에너지 균등화 선택 유닛을 포함한다.
모듈 선택 유닛은 글로벌 상관값 사이드 정보 및 MCT 상관값 사이드 정보를 기반으로 페어링 방식을 결정한다. corr_sum_max > corr_sum_curr인 경우, 페어링 방식은 글로벌 상관값 통계 유닛에 의해 사용되는 멀티 채널 적응 결합(multi-channel adaptive coupling, MCAC)이다. corr_sum_max = corr_sum_curr인 경우, 페어링 방식은 MCT 상관값 통계 유닛에 의해 사용되는 MCT 페어링이다.
또한, 페어링 방식이 MCT 페어링인 경우, 모듈 선택 유닛은 에너지 균등화 선택 유닛에 의해 제공되는 복수의 채널 신호의 변동 간격값에 기초하여 타깃 페어링 방식을 추가로 결정한다. 예를 들어, 5개의 채널 신호(L, R, C, LS, RS)의 에너지 평탄도가 제1 임계값보다 작은 경우, 타깃 페어링 방식은 MCAC 페어링이다. 5개의 채널 신호(L, R, C, LS, RS)의 에너지 평탄도가 제1 임계값 이상인 경우, 타깃 페어링 방식은 MCT 페어링이다.
처음으로 타깃 페어링 방식이 MCT 페어링인 것으로 결정되는 경우, 5개의 채널 신호의 에너지 균등화 모드와 최종 타깃 페어링 방식은 에너지 균등화 선택 유닛에 의해 제공되는 복수의 채널 신호의 변동 간격값에 기초하여 한번에 결정될 수 있다. 예를 들어, 5개의 채널 신호(L, R, C, LS, RS)의 에너지 평탄도가 제1 임계값 미만인 경우, 타깃 페어링 방식은 MCAC 페어링이고, 에너지 균등화 모드는 제1 에너지 균등화 모드이다. 5개 채널 신호(L, R, C, LS, RS)의 에너지 평탄도가 제1 임계값 이상인 경우, 페어링 방식은 MCT 페어링이고, 에너지 균등화 모드는 제2 에너지 균등화 모드이다.
에너지 균등화 선택 유닛은 먼저 각각의 채널 신호의 에너지 또는 진폭값을 계산한다. 본 출원에서, 채널 신호 ch의 에너지 또는 진폭값은 다음의 수학식에 따라 계산될 수 있다.
Figure pct00007
energy(ch)는 채널 신호 ch의 에너지 또는 진폭값이고, sepc_coeff(ch, i)는 채널 신호 ch의 i번째 주파수 빈의 주파수 도메인 계수이며, N은 오디오 프레임의 주파수 빈의 총 수량이다.
그런 다음, 각각의 채널 신호의 정규화된 에너지 또는 진폭값이 계산된다. 본 출원에서, 채널 신호(ch)의 정규화된 에너지 또는 진폭값은 다음의 수학식에 따라 계산될 수 있다.
Figure pct00008
energy_uniform(ch)은 채널 신호 ch의 정규화된 에너지 또는 진폭값이고, energy_max는 5개의 채널 신호의 에너지 또는 진폭값(즉, energy(L), energy(R), energy(C), energy(LS), energy(RS))의 최대값이다. energy_max = 0이면, 모든 energy_uniform(ch)은 0이다.
다음으로, 5개의 채널 신호의 변동 간격값이 계산된다. 선택적으로, 변동 간격값은 에너지 평탄도일 수 있다. 본 출원에서, 5개의 채널 신호의 에너지 평탄도는 다음의 수학식에 따라 계산될 수 있다.
Figure pct00009
efm은 5개의 채널 신호의 에너지 평탄도이다. L, R, C, LS 및 RS의 채널 인덱스에 대해서는 [표 1]을 참조한다.
선택적으로, 변동 간격값은 또한 에너지 편차일 수 있다. 전술한 계산을 통해 획득된 정규화된 에너지 또는 진폭 값 energy_uniform(ch)에 기초하여, 본 출원에서, 5개의 채널 신호의 평균 에너지 또는 진폭값은 다음의 수학식에 따라 계산될 수 있다.
Figure pct00010
avg_energy_uniform은 5개의 채널 신호의 평균 에너지 또는 진폭값이다. L, R, C, LS 및 RS의 채널 인덱스에 대해서는 [표 1]을 참조한다.
채널 신호(ch)의 에너지 편차는 다음의 수학식에 따라 계산된다.
Figure pct00011
deviation(ch)는 채널 신호 ch의 에너지 편차이다. L, R, C, LS, RS의 에너지 편차의 최대값은 5개의 채널 신호의 에너지 편차(deviation)로서 결정된다.
선택적으로, 변동 간격값은 다르게는 진폭값 또는 진폭 편차일 수 있다. 변동 간격값의 원리는 전술한 에너지 관련 값과 유사하므로, 세부 사항은 여기에서 설명되지 않는다.
전술한 바와 같이, 본 출원에서의 에너지 균등화 모드는 2가지 구현을 포함한다. 페어 에너지 균등화 모드에서, 모듈 선택 유닛에 의해 결정된 페어링 방식에 대응하는 타깃 채널 페어 세트 내의 각각의 채널 페어에 대해, 채널 페어의 2개의 채널 신호는 채널 페어에 대응하는 2개의 균등화된 채널 신호를 획득하는 데 사용된다. 전체 에너지 균등화 모드에서, 하나의 채널 페어의 2개의 채널 신호와 하나의 채널 페어에 있지 않은 적어도 하나의 채널 신호는 하나의 채널 페어에 대응하는 2개의 균등화된 채널 신호를 획득하는 데 사용된다. 페어링되지 않은 채널 신호의 경우, 대응하는 균등화된 채널 신호는 채널 신호 자체이다.
에너지 균등화 선택 유닛은 다음의 두 가지 결정 방식으로 변동 간격값에 기초하여 에너지 균등화 모드를 결정한다.
(1) efm이 제1 임계값보다 작은 경우, 에너지 균등화 모드는 페어 에너지 균등화 모드이다. efm이 제1 임계값 이상인 경우, 에너지 균등화 모드는 전체 에너지 균등화 모드이다.
(2) 편차가 값 범위 [임계값, 1/임계값] 이내에 있는 경우, 에너지 균등화 모드는 전체 에너지 균등화 모드이다. 편차가 값 범위 [임계값, 1/임계값] 밖에 있는 경우, 에너지 균등화 모드는 페어 에너지 균등화 모드이다. 임계값의 값 범위는 (0, 1)일 수 있다.
편차는 현재 프레임 내 모든 채널의 주파수 도메인 진폭의 평균값에 대한 현재 프레임 내 각각의 채널의 주파수 도메인 진폭의 비율, 즉 진폭 편차를 나타낼 수 있다. 현재 프레임 내 현재 채널의 주파수 도메인 진폭과 현재 프레임 내 모든 채널의 주파수 도메인 진폭의 평균값 사이의 비율이 5보다 작은 경우(임계값 = 0.2에 대응함), 두 가지 경우가 있을 수 있다. 1. 현재 채널의 주파수 도메인 진폭은 현재 프레임 내 모든 채널의 주파수 도메인 진폭의 평균값보다 작거나 같고, 조건을 충족하는 "현재 채널의 주파수 도메인 진폭/현재 프레임 내 모든 채널의 주파수 도메인 진폭의 평균값"은 (0.2, 1] 사이, 즉 (임계값, 1] 사이이다. 2. 현재 채널의 주파수 도메인 진폭이 현재 프레임 내 모든 채널의 주파수 도메인 진폭의 평균값보다 크고, 조건을 충족하는 "현재 채널의 주파수 도메인 진폭/현재 프레임 내 모든 채널의 주파수 도메인 진폭의 평균값"은 (1, 5) 사이이다. 전술한 두 가지 경우를 조합하여, 현재 채널의 주파수 도메인 진폭과 현재 프레임 내 모든 채널의 주파수 도메인 진폭의 평균값의 비율이 5보다 작은 경우, 조건을 충족하는 "현재 채널의 주파수 도메인 진폭/현재 프레임 내의 모드 채널의 주파수 도메인 진폭의 평균값"의 범위는 (0.2, 5) 사이, 즉 (임계값, 1/임계값) 사이이며, 여기서 (임계값, 1/임계값)은 제2 미리 설정된 범위이다. 임계값은 (0, 1) 사이일 수 있다. 임계값이 작아질수록 현재 프레임의 모든 채널의 주파수 도메인 진폭의 평균값에 대한 현재 채널의 주파수 도메인 진폭의 변동이 커짐을 지시하고, 임계값이 커질수록 현재 프레임 내 모든 채널의 주파수 도메인 진폭의 평균값에 대한 현재 채널의 주파수 도메인 진폭의 변동이 작아지는 것을 지시한다. 임계값은 0.2, 0.15, 0.125, 0.11, 0.1 등일 수 있다.
편차는 또한 모든 채널의 주파수 도메인 에너지의 평균값에 대한 각각의 채널의 주파수 도메인 에너지의 비율, 즉 에너지 편차를 나타낼 수 있다. 현재 프레임 내 현재 채널의 주파수 도메인 에너지와 현재 프레임 내 모든 채널의 주파수 도메인 에너지의 평균값의 비율이 25(임계값 = 0.04)보다 작은 경우, 두 가지 경우가 있을 수 있다. 1. 현재 채널의 주파수 도메인 에너지는 현재 프레임의 모든 채널의 주파수 도메인 에너지의 평균값 이하이고, 조건을 충족하는 "현재 채널의 주파수 도메인 에너지/현재 프레임 내 모든 채널의 주파수 도메인 에너지의 평균값"은 (0.04, 1] 사이, 즉 (임계값, 1] 사이이다. 2. 현재 채널의 주파수 도메인 에너지는 현재 프레임의 모든 채널의 주파수 도메인 에너지의 평균값보다 크고, 조건을 충족하는 "현재 채널의 주파수 도메인 에너지/현재 프레임 내 모든 채널의 주파수 도메인 에너지의 평균값"은 (1, 25) 사이이다. 전술한 두 가지 경우를 조합하여, 현재 채널의 주파수 도메인 에너지와 현재 프레임 내 모든 채널의 주파수 도메인 에너지의 평균값의 비율이 25보다 작은 경우, 조건을 충족하는 "현재 채널의 주파수 도메인 에너지/현재 프레임 내 모든 채널의 주파수 도메인 에너지의 평균값"은 (0.04, 25) 사이, 즉 (임계값, 1/임계값) 사이이며, 여기서 (임계값, 1/임계값)은 제1 미리 설정된 범위이다. 임계값은 (0, 1) 사이일 수 있다. 임계값이 작을수록 현재 프레임의 모든 채널의 주파수 도메인 에너지의 평균값에 대한 현재 채널의 주파수 도메인 에너지의 변동이 큰 것을 지시하고, 임계값이 클수록 현재 프레임 내 모든 채널의 주파수 도메인 에너지의 평균값에 대한 현재 채널의 주파수 도메인 에너지의 변동이 작은 것을 지시한다. 임계값은 0.04, 0.0225, 0.015625, 0.0121, 0.01 등일 수 있다.
진폭과 에너지 사이에 제곱 관계가 있기 때문에, 진폭 편차와 에너지 편차 사이에도 제곱 관계가 있다. 즉, 진폭 편차의 제곱에 대응하는 채널 간 프레임 진폭의 변동은 대략 에너지 편차에 대응하는 채널 간 프레임 에너지의 변동과 같다.
다른 구현에서, 제1 미리 설정된 범위는 또한 (0, 1/임계값)로 확장될 수도 있다. 이 경우, 페어 에너지 균등화의 범위는 [1/임계값, +∞)로서 현재 채널의 주파수 도메인 에너지가 편재 프레임 내 모든 채널의 주파수 도메인 에너지 평균값보다 클 때 페어 에너지 균등화가 수행되고, "현재 채널의 주파수 도메인 에너지/현재 프레임의 모든 채널의 주파수 도메인 에너지의 평균값"이 1/임계값보다 큰 것을 지시한다.
다른 구현에서, 제2 미리 설정된 범위는 또한 (0, 1/임계값)으로 확장될 수도 있다. 이 경우, 페어 지폭 균등화의 범위는 [1/임계값, +∞)로서, 현재 채널의 주파수 도메인 진폭이 현재 프레임 내 모든 채널의 주파수 도메인 진폭의 평균값보다 클 때 페어 진폭 균등화가 수행되고, "현재 채널의 주파수 도메인 진폭/현재 프레임의 모든 채널의 주파수 도메인 진폭의 평균값"은 1/임계값보다 큼을 지시한다.
에너지 균등화 선택 유닛은 에너지 평탄도를 획득하기 위해 5개의 채널 신호에 기초하여 정규화된 에너지 또는 진폭값을 계산할 수 있거나, 또는 에너지 평탄도 또는 에너지 편차를 획득하기 위해 성공적으로 페어링된 채널 신호에만 기초하여 정규화된 에너지 또는 진폭값을 계산할 수 있거나, 또는 에너지 평탄도 또는 에너지 편차를 획득하기 위해 5개의 채널 신호의 일부에 기초하여 정규화된 에너지 또는 진폭값을 계산할 수 있다. 이는 본 출원에서 특별히 제한되지 않는다.
멀티 채널 융합 처리 모듈은 MCT 유닛과 MCAC 유닛을 포함한다.
MCT 유닛은 먼저 Le, Re, Ce, LSe 및 RSe를 획득하기 위해 전체 에너지 균등화 모드에 따라 5개의 채널 신호(L, R, C, LS, RS)에 대해 에너지 균등화 처리를 수행하고, MCT 상관값 사이드 정보를 기반으로 타깃 채널 페어 세트를 획득하며, 스테레오 박스를 사용하여 타깃 채널 페어 세트에서 채널 페어의 2개의 균등화된 채널 신호(예를 들어, (Le, Re) 또는 (LSe, RSe))에 대해 스테레오 처리를 수행한다.
MCAC 유닛은 글로벌 상관값 사이드 정보에 기초하여 타깃 채널 페어 세트(예를 들어, (L, R) 및 (LS, RS))를 획득하고, 그 다음, 에너지 균등화 모드, 예를 들어 페어 에너지 균등화 모드에 따라 (Le, Re) 및 (LSe, RSe)를 획득하기 위해 타깃 채널 페어 세트의 채널 페어의 2개의 채널 신호(예를 들어, (L, R) 및 (LS, RS))에 대해 에너지 균등화 처리를 수행한 다음, 스테레오 박스를 사용하여 균등화된 채널 신호에 대해 스테레오 처리를 수행한다. 전체 에너지 균등화 모드가 사용되는 경우, Le, Re, Ce, LSe, RSe를 획득하기 위해 5개의 채널 신호에 대해 에너지 균등화 처리가 수행된 다음, 타깃 채널 페어 세트에 기초하여 스테레오 박스를 사용하여 채널 페어의 2개의 균등화된 채널 신호(예를 들어, (Le, Re) 또는 (LSe, RSe))에 대해 스테레오 처리가 수행된다.
스테레오 처리 유닛은 예측 기반 또는 카루넨-뢰베(Karhunen-Loeve Transform, KLT) 기반 처리를 사용할 수 있다. 즉, 하나의 채널에 신호 에너지를 집중시키기 위해 2개의 채널 신호가 에너지 압축을 최대화하도록 (예를 들어, 2×2 회전 매트릭스를 사용하여) 회전된다.
2개의 입력된 채널 신호를 처리한 후, 스테레오 처리 유닛은 2개의 채널 신호에 대응하는 처리된 채널 신호(P1 내지 P4)와 멀티 채널 사이드 정보를 출력하고, 멀티 채널 사이드 정보는 상관값의 합과 타깃 채널 페어 세트를 포함한다.
도 6은 멀티 채널 오디오 디코딩 방법인 본 출원에 따라 적용된 디코딩 장치의 구조를 도시한 예이다. 디코딩 장치는 오디오 코딩 시스템(10)에서의 목적지 디바이스(14)의 디코더(30)일 수도 있거나, 또는 오디오 코딩 디바이스(200)에서의 코딩 모듈(270)일 수 있다. 디코딩 장치는 비트스트림 역다중화 인터페이스, 채널 디코딩 모듈, 및 멀티 채널 처리 모듈을 포함할 수 있다.
비트스트림 역다중화 인터페이스는 인코딩 장치로부터 인코딩된 멀티 채널 신호(예를 들어, 직렬 비트스트림(bitstream))를 수신하고, 역다중화 후에 인코딩된 채널 신호(E)와 멀티 채널 파라미터(SIDE_PAIR), 예를 들어 E1, E2, E3, E4, ..., Ei-1, Ei 및 SIDE_PAIR1, SIDE_PAIR2, ..., SIDE_PAIRm를 획득한다.
채널 디코딩 모듈은 모노포닉 디코딩 유닛(또는 모니포닉 박스 또는 모노포닉 도구)을 사용하여 비트스트림 역다중화 인터페이스에 의해 출력되는 인코딩된 채널 신호를 디코딩하고 디코딩된 채널 신호(D)를 출력하다. 예를 들어, E1, E2, E3, E4, ..., Ei1, Ei는 모노포닉 디코딩 유닛에 의해 각각 디코딩되어 E1이 디코딩된 후에 D1, D2, D3, D4, ..., Di-1 및 Di를 획득할 수 있다.
멀티 채널 처리 모듈은 복수의 스테레오 처리 유닛을 포함한다. 스테레오 처리 유닛은 예측 기반 또는 KLT 기반 처리를 사용할 수 있다. 즉, 2개의 입력 채널 신호는 신호를 원래 신호 방향으로 변환하기 위해 역회전(예를 들어, 2×2 회전 매트릭스를 사용함으로써)된다.
채널 디코딩 모듈에 의해 출력된 디코딩된 채널 신호 중 2개가 페어링되었는지가 멀티 채널 파라미터에 기초하여 식별될 수 있고, 페어링된 디코딩된 채널 신호는 스테레오 처리 유닛에 입력된다. 2개의 입력된 디코딩된 채널 신호를 처리한 후, 스테레오 처리 유닛은 2개의 디코딩된 채널 신호에 대응하는 채널 신호(CH)를 출력한다. 예를 들어, 스테레오 처리 유닛1은 CH1 및 CH2를 획득하기 위해 SIDE_PAIR1에 기초하여 D1 및 D2를 처리하고, 스테레오 처리 유닛2는 CH3 및 CH4를 획득하기 위해 SIDE_PAIR2에 기초하여 D3 및 D4를 처리하며, ..., 스테레오 처리 유닛 m은 CHi-1 및 CHi를 획득하기 위해 SIDE_PAIRm에 기초하여 Di-1 및 Di를 처리한다.
페어링되지 않은 채널 신호(예를 들어, CHj)는 멀티 채널 처리 모듈 내의 스테레오 처리 유닛에 의해 처리될 필요가 없으며, 디코딩 후 직접 출력될 수 있다.
도 7은 본 출원에 따른 코딩 장치 실시예의 구조를 도시한 개략도이다. 도 7에 도시된 바와 같이, 이 장치는 전술한 실시예에서 소스 디바이스(12) 또는 오디오 코딩 디바이스(200)에 적용될 수 있다. 본 실시예의 코딩 장치는 획득 모듈(601), 코딩 모듈(602) 및 결정 모듈(603)을 포함할 수 있다.
획득 모듈(601)은 인코딩될 제1 오디오 프레임을 획득하고 ― 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 ―, 제1 채널 페어 세트를 획득하기 위해 제1 페어링 방식에 따라 적어도 5개의 채널 신호를 페어링하며 ― 제1 채널 페어 세트는 적어도 하나의 채널 페어를 포함하고, 하나의 채널 페어는 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함함 ―, 제1 채널 페어 세트의 제1 상관값 합을 획득하고 ― 하나의 채널 페어는 하나의 상관값을 갖고, 상관값은 채널 페어의 2개의 채널 신호 사이의 상관 관계를 지시함 ―, 제2 채널 페어 세트를 획득하기 위해 제2 페어링 방식에 따라 적어도 5개의 채널 신호를 페어링하며, 제2 채널 페어 세트의 제2 상관값 합을 획득하도록 구성된다. 결정 모듈(603)은 제1 상관값 합 및 제2 상관값 합에 기초하여 적어도 5개의 채널 신호의 타깃 페어링 방식을 결정하도록 구성된다. 코딩 모듈(602)은 타깃 페어링 방식에 따라 적어도 5개의 채널 신호를 인코딩하도록 구성되며, 여기서 타깃 페어링 방식은 제1 페어링 방식 또는 제2 페어링 방식이다.
가능한 구현에서, 결정 모듈(603)은 구체적으로, 제1 상관값 합이 제2 상관값 합보다 큰 경우, 타깃 페어링 방식이 제1 페어링 방식인 것으로 결정하거나, 또는 제1 상관값 합이 제2 상관값 합과 같은 경우, 타깃 페어링 방식이 제2 페어링 방식인 것으로 결정하도록 구성된다.
가능한 구현에서, 결정 모듈(603)은 적어도 5개의 채널 신호의 변동 간격값을 획득하고, 타깃 페어링 방식이 제1 페어링 방식인 경우, 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하거나, 또는 타깃 페어링 방식이 제2 페어링 방식인 경우, 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하고, 적어도 5개의 채널 신호의 타깃 페어링 방식을 재결정하도록 추가로 구성된다. 이에 상응하여, 코딩 모듈(602)은 적어도 5개의 균등화된 채널 신호를 획득하기 위해 에너지 균등화 모드에 따라 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하고, 타깃 페어링 방식에 따라 적어도 5개의 균등화된 채널 신호를 인코딩하도록 추가로 구성되며, 여기서 에너지 균등화 모드는 제1 에너지 균등화 모드 또는 제2 에너지 균등화 모드이다.
가능한 구현에서, 결정 모듈(603)은 구체적으로 변동 간격값이 미리 설정된 조건을 충족하는 경우, 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 변동 간격값이 미리 설정된 조건을 충족하지 않는 경우, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정하도록 구성된다.
가능한 구현에서, 결정 모듈(603)은 구체적으로 변동 간격값이 미리 설정된 조건을 충족하는 경우, 타깃 페어링 방식이 제1 페어링 방식이고 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 변동 간격값이 미리 설정된 조건을 충족하지 않는 경우, 타깃 페어링 방식이 제2 페어링 방식이고 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정하도록 구성된다.
가능한 구현에서, 결정 모듈(603)은 제1 오디오 프레임에 대응하는 코딩 비트율이 비트율 임계값보다 큰지 여부를 결정하고, 코딩 비트율이 비트율 임계값보다 큰 경우, 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정하거나, 또는 코딩 비트율이 비트율 임계값보다 작거나 같은 경우, 변동 간격값에 기초하여 에너지 균등화 모드를 결정하도록 추가로 구성된다.
가능한 구현에서, 변동 간격값은 제1 오디오 프레임의 에너지 평탄도를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 에너지 평탄도가 제1 임계값보다 작음을 지시하거나, 또는 변동 간격값이 제1 오디오 프레임의 진폭 평탄도를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 진폭 평탄도가 제2 임계값보다 작음을 지시하거나, 또는 변동 간격값이 제1 오디오 프레임의 에너지 편차를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 에너지 편차가 제1 미리 설정된 범위 밖에 있음을 지시하거나, 또는 변동 간격값이 제1 오디오 프레임의 진폭 편차를 포함하고, 미리 설정된 조건을 충족하는 변동 간격값은 진폭 편차가 제2 미리 설정된 범위 밖에 있음을 지시한다.
가능한 구현에서, 획득 모듈(601)은 구체적으로 적어도 5개의 채널 신호에 대응하는 채널 페어로부터 채널 페어를 선택하고, 최대 상관값 합을 획득하기 위해 채널 페어를 제1 채널 페어 세트에 추가하도록 구성된다.
가능한 구현에서, 획득 모듈(601)은 구체적으로, 먼저 적어도 5개의 채널 신호에 대응하는 채널 페어에서 가장 큰 상관값을 갖는 채널 페어를 제2 채널 페어 세트에 추가하고, 적어도 5개의 채널 신호에 대응하는 채널 페어에서 연관된 채널 페어가 아닌 다른 채널 페어에서 가장 큰 상관값을 갖는 채널 페어를 제2 채널 페어 세트에 추가하도록 구성되며, 여기서 연관된 채널 페어는 제1 채널 페어 세트에 추가된 채널 페어에 포함된 임의의 채널 신호를 포함한다.
가능한 구현에서, 에너지 균등화 모드가 제1 에너지 균등화 모드인 경우, 코딩 모듈(602)은 구체적으로 페어링 방식에 대응하는 타깃 채널 페어 세트 내의 현재 채널 페어에 대해, 현재 채널 페어에 포함된 2개의 채널 신호의 에너지 또는 진폭값의 평균값을 계산하고, 2개의 대응하는 균등화된 채널 신호를 획득하기 위해 평균값에 기초하여 2개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하도록 구성된다.
가능한 구현에서, 에너지 균등화 모드가 제2 에너지 균등화 모드인 경우, 코딩 모듈(602)은 구체적으로 적어도 5개의 채널 신호의 에너지 또는 진폭값의 평균값을 계산하고, 적어도 5개의 균등화된 채널 신호를 획득하기 위해 평균값에 기초하여 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하도록 구성된다.
본 실시예에서의 장치는 도 3에 도시된 방법 실시예의 기술적 해결수단을 실행하도록 구성될 수 있고, 장치 및 방법 실시예의 구현 원리 및 기술적 효과는 유사하며, 세부 사항은 여기에서 설명되지 않는다.
도 8은 본 출원에 따른 디바이스 실시예의 구조를 도시한 개략도이다. 도 8에 도시된 바와 같이, 디바이스는 전술한 실시예에서의 코딩 디바이스일 수 있다. 본 실시예의 디바이스는 프로세서(701) 및 메모리(702)를 포함할 수 있고, 메모리(702)는 하나 이상의 프로그램을 저장하도록 구성된다. 하나 이상의 프로그램이 프로세서(701)에 의해 실행될 때, 프로세서(701)는 도 3에 도시된 방법 실시예의 기술적 해결수단을 구현하는 것이 가능해진다.
구현 프로세스에서, 전술한 방법 실시예의 단계는 프로세서의 하드웨어 집적 로직 회로를 사용하거나, 또는 소프트웨어 형태의 명령어를 사용하여 구현될 수 있다. 프로세서는 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 주문형 집적 회로(application-specific integrated circuit, ASIC), 필드 프로그램 가능 게이트 어레이(field programmable gate array, FPGA), 또는 다른 프로그램 가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 디바이스 또는 이산 하드웨어 컴포넌트일 수 있다. 범용 프로세서는 마이크로프로세서, 임의의 종래 프로세서 등일 수 있다. 본 출원과 관련하여 개시된 방법의 단계는 하드웨어 코딩 프로세서에 의해 직접 수행될 수 있거나, 또는 코딩 프로세서에서 하드웨어와 소프트웨어 모듈의 조합에 의해 수행될 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리, 플래시 메모리, 읽기 전용 메모리, 프로그램 가능 읽기 전용 메모리, 전기적으로 소거 가능한 프로그램 가능 메모리 또는 레지스터와 같은 당업계의 성숙한 저장 매체에 위치될 수 있다. 저장 매체는 메모리에 위치되며, 프로세서는 메모리의 정보를 읽고 프로세서의 하드웨어와 결합하여 전술한 방법의 단계를 완료한다.
전술한 실시예에서의 메모리는 휘발성 메모리 또는 비휘발성 메모리일 수 있거나, 또는 휘발성 메모리 및 비휘발성 메모리 모두를 포함할 수 있다. 비휘발성 메모리는 읽기 전용 메모리(read-only memory, ROM), 프로그램 가능 읽기 전용 메모리(programmable ROM, PROM), 소거 가능한 프로그램 가능 읽기 전용 메모리(erasable PROM, EPROM), 전기적으로 소거 가능한 프로그램 가능 읽기 전용 메모리(electrically EPROM, EEPROM) 또는 플래시 메모리일 수 있다. 휘발성 메모리는 외부 캐시로 사용되는 랜덤 액세스 메모리(random access memory, RAM)일 수 있다. 제한적인 설명이 아닌 예로서, 많은 형태의 RAM, 예를 들어 정적 랜덤 액세스 메모리(static RAM, SRAM), 동적 랜덤 액세스 메모리(dynamic RAM, DRAM), 동기식 동적 랜덤 액세스 메모리(synchronous DRAM, SDRAM), 이중 데이터 레이트 동기식 동적 랜덤 액세스 메모리(double data rate SDRAM, DDR SDRAM), 향상된 동기식 동적 랜덤 액세스 메모리(enhanced SDRAM, ESDRAM), 싱크링크 동적 랜덤 액세스 메모리(synchlink DRAM, SLDRAM) 및 다이렉트 램버스 랜덤 액세스 메모리(direct rambus RAM, DR RAM)이 사용가능하다. 본 명세서에서 기술된 시스템 및 방법의 메모리는 이들 및 다른 적절한 유형의 임의의 메모리를 포함하지만 이에 제한되지 않는다.
당업자는 본 명세서에서 개시된 실시예에서 설명된 예들에서의 유닛들 및 알고리즘 단계들과 관련하여 본 출원이 전자식 하드웨어 또는 컴퓨터 소프트웨어 및 전자식 하드웨어의 조합으로 구현될 수 있다는 것을 알 수 있다. 이 기능들이 하드웨어 또는 소프트웨어로 구현되느냐는 것은 기술적 해결수단의 특별한 애플리케이션 및 설계 제약 조건에 달려 있다. 당업자라면 상이한 방법들을 사용하여 각각의 특별한 애플리케이션에 대해 설명된 기능을 구현할 수 있을 것이지만, 그 구현이 본 출원의 범주를 넘어서는 것으로 파악되어서는 안된다.
편리하고 간단한 설명을 위해, 전술한 시스템, 장치 및 유닛의 상세한 작동 과정에 대해, 전술한 방법 실시예들에서의 대응하는 과정에 대한 참조가 이루어질 수 있다는 점이 당업자에 의해 명확하게 이해될 수 있다. 세부 사항은 여기에서 다시 설명되지는 않는다.
본 출원에서 제공되는 여러 실시예들에서, 개시된 시스템, 장치, 및 방법은 다른 방식들로 구현될 수 있다는 점이 이해되어야 한다. 예를 들어, 설명된 장치 실시예는 단지 예시적인 것이다. 예를 들어, 유닛 분할은 논리적 기능 분할일 뿐이며, 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛들 또는 컴포넌트들이 다른 시스템에 결합 또는 통합될 수 있거나, 또는 일부 특징들이 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 일부 인터페이스들을 통해 구현될 수 있다. 장치들 또는 유닛들 사이의 간접 결합 또는 통신 연결은 전기적, 기계적, 또는 다른 형태로 구현될 수 있다.
별도의 부품으로 설명된 유닛들은 물리적으로 분리되어 있거나 분리되어 있지 않을 수 있으며, 유닛으로 표시되는 부품들은 물리적 유닛일 수도 있고 아닐 수도 있으며, 한 위치에 있을 수도 있고 복수의 네트워크 유닛에 분산될 수도 있다. 이러한 유닛들의 일부 또는 전부는 실시예들의 해결수단들의 목적들을 달성하기 위해 실제 요구들에 따라 선택될 수 있다.
또한, 본 출원의 실시예들에서의 기능 유닛들은 하나의 처리 유닛으로 통합될 수 있거나, 또는 유닛들 각각은 물리적으로 단독으로 존재할 수 있거나, 또는 둘 이상의 유닛들이 하나의 유닛으로 통합될 수 있다.
기능들이 소프트웨어 기능 유닛의 형태로 구현되고, 독립 제품으로서 판매되거나 사용될 때, 기능들은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본 출원의 기술적 해결수단들은 본질적으로, 또는 종래 기술에 기여하는 부분, 또는 기술적 해결수단들의 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, (개인용 컴퓨터, 서버, 네트워크 장치일 수 있는) 컴퓨터 디바이스에, 본 출원의 실시예들에서의 방법들의 단계들의 전부 또는 일부를 수행할 것을 명령하기 위한 여러 개의 명령어들을 포함한다. 전술한 저장 매체는, USB 플래시 드라이브, 착탈식 하드 디스크, 읽기 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), 자기 디스크, 또는 광 디스크와 같은, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
전술한 설명은 본 출원의 구체적인 구현 방식들일 뿐이고, 본 출원의 보호 범위를 제한하고자 함이 아니다. 본 출원에 개시되는 기술적인 범위 내에서 통상의 기술자가 용이하게 생각할 수 있는 임의의 변형 또는 대체는 본 출원의 보호 범위 내에 있을 것이다. 따라서, 본 출원의 보호 범위는 청구항의 보호 범위에 따라야 한다.

Claims (26)

  1. 멀티 채널 오디오 신호 코딩 방법으로서,
    인코딩될 제1 오디오 프레임을 획득하는 단계 ― 상기 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 ―;
    제1 채널 페어 세트(channel pair set)를 획득하기 위해 제1 페어링 방식에 따라 상기 적어도 5개의 채널 신호를 페어링하는 단계 ― 상기 제1 채널 페어 세트는 적어도 하나의 채널 페어를 포함하고, 하나의 채널 페어는 상기 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함함 ―;
    상기 제1 채널 페어 세트의 제1 상관값 합을 획득하는 단계 ― 하나의 채널 페어는 하나의 상관값을 갖고, 상기 상관값은 상기 채널 페어의 2개의 채널 신호 사이의 상관관계를 지시함 ―;
    제2 채널 페어 세트를 획득하기 위해 제2 페어링 방식에 따라 상기 적어도 5개의 채널 신호를 페어링하는 단계;
    상기 제2 채널 페어 세트의 제2 상관값 합을 획득하는 단계;
    상기 제1 상관값 합과 상기 제2 상관값 합에 기초하여 상기 적어도 5개의 채널 신호의 타깃 페어링 방식을 결정하는 단계; 및
    상기 타깃 페어링 방식에 따라 상기 적어도 5개의 채널 신호를 인코딩하는 단계 ― 상기 타깃 페어링 방식은 상기 제1 페어링 방식 또는 상기 제2 페어링 방식임 ―
    를 포함하는 멀티 채널 오디오 신호 코딩 방법.
  2. 제1항에 있어서,
    상기 제1 상관값 합과 상기 제2 상관값 합에 기초하여 상기 적어도 5개의 채널 신호의 타깃 페어링 방식을 결정하는 단계는,
    상기 제1 상관값 합이 상기 제2 상관값 합보다 큰 경우, 상기 타깃 페어링 방식이 상기 제1 페어링 방식인 것으로 결정하거나, 또는
    상기 제1 상관값 합이 상기 제2 상관값 합과 같은 경우, 상기 타깃 페어링 방식이 상기 제2 페어링 방식인 것으로 결정하는 단계
    를 포함하는, 멀티 채널 오디오 신호 코딩 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 타깃 페어링 방식에 따라 상기 적어도 5개의 채널 신호를 인코딩하는 단계 전에, 상기 멀티 채널 오디오 신호 코딩 방법은,
    상기 적어도 5개의 채널 신호의 변동 간격값을 획득하는 단계;
    상기 타깃 페어링 방식이 상기 제1 페어링 방식인 경우, 상기 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하거나, 또는
    상기 타깃 페어링 방식이 상기 제2 페어링 방식인 경우, 상기 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하고, 상기 적어도 5개의 채널 신호의 타깃 페어링 방식을 재결정하는 단계; 및
    적어도 5개의 균등화된 채널 신호를 획득하기 위해 상기 에너지 균등화 모드에 따라 상기 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하는 단계
    를 더 포함하며
    이에 상응하여, 상기 타깃 페어링 방식에 따라 상기 적어도 5개의 채널 신호를 인코딩하는 단계는,
    상기 타깃 페어링 방식에 따라 상기 적어도 5개의 균등화된 채널 신호를 인코딩하는 단계
    를 포함하는, 멀티 채널 오디오 신호 코딩 방법.
  4. 제3항에 있어서,
    상기 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하는 과정은,
    상기 변동 간격값이 미리 설정된 조건을 충족하는 경우, 상기 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는
    상기 변동 간격값이 미리 설정된 조건을 충족하지 않는 경우, 상기 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정하는 과정
    을 포함하는, 멀티 채널 오디오 신호 코딩 방법.
  5. 제3항 또는 제4항에 있어서,
    상기 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하고, 상기 적어도 5개의 채널 신호의 타깃 페어링 방식을 재결정하는 과정은,
    상기 변동 간격값이 상기 미리 설정된 조건을 충족하는 경우, 상기 타깃 페어링 방식이 상기 제1 페어링 방식이고, 상기 에너지 균등화 모드가 상기 제1 에너지 균등화 모드인 것으로 결정하거나, 또는
    상기 변동 간격값이 상기 미리 설정된 조건을 충족하지 않는 경우, 상기 타깃 페어링 방식이 상기 제2 페어링 방식이고, 상기 에너지 균등화 모드가 상기 제2 에너지 균등화 모드인 것으로 결정하는 단계
    를 포함하는, 멀티 채널 오디오 신호 코딩 방법.
  6. 제3항 내지 제5항 중 어느 한 항에 있어서,
    상기 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하는 과정 전에, 상기 멀티 채널 오디오 신호 코딩 방법은,
    상기 제1 오디오 프레임에 대응하는 코딩 비트율이 비트율 임계값보다 큰지의 여부를 결정하는 단계; 및
    상기 코딩 비트율이 상기 비트율 임계값보다 큰 경우, 상기 에너지 균등화 모드가 상기 제2 에너지 균등화 모드인 것으로 결정하거나, 또는
    상기 코딩 비트율이 상기 비트율 임계값보다 작거나 같은 경우, 상기 변동 간격값에 기초하여 상기 에너지 균등화 모드를 결정하는 단계
    를 더 포함하는, 멀티 채널 오디오 신호 코딩 방법.
  7. 제4항 내지 제6항 중 어느 한 항에 있어서,
    상기 변동 간격값은 상기 제1 오디오 프레임의 에너지 평탄도를 포함하고, 상기 미리 설정된 조건을 충족하는 변동 간격값은 상기 에너지 평탄도가 제1 임계값보다 작음을 지시하거나, 또는
    상기 변동 간격값은 상기 제1 오디오 프레임의 진폭 평탄도를 포함하고, 상기 미리 설정된 조건을 충족하는 변동 간격값은 상기 진폭 평탄도가 제2 임계값보다 작음을 지시하거나, 또는
    상기 변동 간격값은 상기 제1 오디오 프레임의 에너지 편차를 포함하고, 상기 미리 설정된 조건을 충족하는 변동 간격값은 상기 에너지 편차가 제1 미리 설정된 범위 밖에 있음을 지시하거나, 또는
    상기 변동 간격값은 상기 제1 오디오 프레임의 진폭 편차를 포함하고, 상기 미리 설정된 조건을 충족하는 변동 간격값은 상기 진폭 편차가 제2 미리 설정된 범위 밖에 있음을 지시하는,
    멀티 채널 오디오 신호 코딩 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 제1 채널 페어 세트를 획득하기 위해 제1 페어링 방식에 따라 상기 적어도 5개의 채널 신호를 페어링하는 단계는,
    상기 적어도 5개의 채널 신호에 대응하는 채널 페어 중에서 채널 페어를 선택하고, 최대 상관값 합을 획득하기 위해 상기 채널 페어를 상기 제1 채널 페어 세트에 추가하는 단계
    를 포함하는, 멀티 채널 오디오 신호 코딩 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 제2 채널 페어 세트를 획득하기 위해 제2 페어링 방식에 따라 상기 적어도 5개의 채널 신호를 페어링하는 단계는,
    상기 적어도 5개의 채널 신호에 대응하는 채널 페어에서 최대 상관값을 갖는 채널 페어를 상기 제2 채널 페어 세트에 먼저 추가하는 단계; 및
    상기 적어도 5개의 채널 신호에 대응하는 채널 페어 중 연관된 채널 페어 이외의 다른 채널 페어에서 최대 상관값을 갖는 채널 페어를 상기 제2 채널 페어 세트에 추가하는 단계 ― 상기 연관된 채널 페어는 상기 제1 채널 페어 세트에 추가된 채널 페어에 포함된 임의의 채널 신호를 포함함 ―
    를 포함하는, 멀티 채널 오디오 신호 코딩 방법.
  10. 제3항 내지 제7항 중 어느 한 항에 있어서,
    상기 에너지 균등화 모드가 상기 제1 에너지 균등화 모드인 경우, 상기 적어도 5개의 균등화된 채널 신호를 획득하기 위해 상기 에너지 균등화 모드에 따라 상기 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하는 단계는,
    상기 페어링 방식에 대응되는 타깃 채널 페어 세트의 현재 채널 페어에 대해, 상기 현재 채널 페어에 포함된 2개의 채널 신호의 에너지 또는 진폭값의 평균값을 계산하고, 2개의 대응하는 균등화된 채널 신호를 획득하기 위해 상기 평균값에 기초하여 상기 2개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하는 단계
    를 포함하는, 멀티 채널 오디오 신호 코딩 방법.
  11. 제3항 내지 제7항 중 어느 한 항에 있어서,
    상기 에너지 균등화 모드가 상기 제2 에너지 균등화 모드인 경우, 상기 적어도 5개의 균등화된 채널 신호를 획득하기 위해 상기 에너지 균등화 모드에 따라 상기 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하는 단계는,
    상기 적어도 5개의 채널 신호의 에너지 또는 진폭값의 평균값을 계산하고, 상기 적어도 5개의 균등화된 채널 신호를 획득하기 위해 상기 평균값에 기초하여 상기 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하는 단계
    를 포함하는, 멀티 채널 오디오 신호 코딩 방법.
  12. 코딩 장치로서,
    인코딩될 제1 오디오 프레임을 획득하고 ― 상기 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 ―, 제1 채널 페어 세트를 획득하기 위해 제1 페어링 방식에 따라 상기 적어도 5개의 채널 신호를 페어링하며 ― 상기 제1 채널 페어 세트는 적어도 하나의 채널 페어를 포함하고, 하나의 채널 페어는 상기 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함함 ―, 상기 제1 채널 페어 세트의 제1 상관값 합을 획득하고 ― 하나의 채널 페어는 하나의 상관값을 갖고, 상기 상관값은 상기 채널 페어의 2개의 채널 신호 사이의 상관관계를 지시함 ―, 제2 채널 페어 세트를 획득하기 위해 제2 페어링 방식에 따라 상기 적어도 5개의 채널 신호를 페어링하며, 상기 제2 채널 페어 세트의 제2 상관값 합을 획득하도록 구성된 획득 모듈;
    상기 제1 상관값 합과 상기 제2 상관값 합에 기초하여 상기 적어도 5개의 채널 신호의 타깃 페어링 방식을 결정하도록 구성된 결정 모듈; 및
    상기 타깃 페어링 방식에 따라 상기 적어도 5개의 채널 신호를 인코딩하도록 구성된 코딩 모듈 ― 상기 타깃 페어링 방식은 상기 제1 페어링 방식 또는 상기 제2 페어링 방식임 ―
    을 포함하는 코딩 장치.
  13. 제12항에 있어서,
    상기 결정 모듈은 구체적으로,
    상기 제1 상관값 합이 상기 제2 상관값 합보다 큰 경우, 상기 타깃 페어링 방식이 상기 제1 페어링 방식인 것으로 결정하거나, 또는 상기 제1 상관값 합이 상기 제2 상관값 합과 같은 경우, 상기 타깃 페어링 방식이 상기 제2 페어링 방식인 것으로 결정하도록
    구성되는, 코딩 장치.
  14. 제12항 또는 제13항에 있어서,
    상기 결정 모듈은,
    상기 적어도 5개의 채널 신호의 변동 간격값을 획득하고, 상기 타깃 페어링 방식이 상기 제1 페어링 방식인 경우 상기 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하거나, 또는 상기 타깃 페어링 방식이 상기 제2 페어링 방식인 경우 상기 적어도 5개의 채널 신호의 변동 간격값에 기초하여 에너지 균등화 모드를 결정하며, 상기 적어도 5개의 채널 신호의 타깃 페어링 방식을 재결정하도록
    추가로 구성되고,
    이에 상응하여, 상기 코딩 모듈은,
    적어도 5개의 균등화된 채널 신호를 획득하기 위해 상기 에너지 균등화 모드에 따라 상기 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하고, 상기 타깃 페어링 방식에 따라 상기 적어도 5개의 균등화된 채널 신호를 인코딩하도록
    추가로 구성되는, 코딩 장치.
  15. 제14항에 있어서,
    상기 결정 모듈은 구체적으로,
    상기 변동 간격값이 미리 설정된 조건을 충족하는 경우, 상기 에너지 균등화 모드가 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 상기 변동 간격값이 미리 설정된 조건을 충족하지 않는 경우, 상기 에너지 균등화 모드가 제2 에너지 균등화 모드인 것으로 결정하도록
    구성되는, 코딩 장치.
  16. 제14항 또는 제15항에 있어서,
    상기 결정 모듈은 구체적으로,
    상기 변동 간격값이 상기 미리 설정된 조건을 충족하는 경우, 상기 타깃 페어링 방식이 상기 제1 페어링 방식이고, 상기 에너지 균등화 모드가 상기 제1 에너지 균등화 모드인 것으로 결정하거나, 또는 상기 변동 간격값이 상기 미리 설정된 조건을 충족하지 않는 경우, 상기 타깃 페어링 방식이 상기 제2 페어링 방식이고, 상기 에너지 균등화 모드가 상기 제2 에너지 균등화 모드인 것으로 결정하도록
    구성되는, 코딩 장치.
  17. 제14항 내지 제16항 중 어느 한 항에 있어서,
    상기 결정 모듈은,
    상기 제1 오디오 프레임에 대응하는 코딩 비트율이 비트율 임계값보다 큰지의 여부를 결정하고, 상기 코딩 비트율이 상기 비트율 임계값보다 큰 경우 상기 에너지 균등화 모드가 상기 제2 에너지 균등화 모드인 것으로 결정하거나, 또는 상기 코딩 비트율이 상기 비트율 임계값보다 작거나 같은 경우 상기 변동 간격값에 기초하여 상기 에너지 균등화 모드를 결정하도록
    추가로 구성되는, 코딩 장치.
  18. 제15항 내지 제17항 중 어느 한 항에 있어서,
    상기 변동 간격값은 상기 제1 오디오 프레임의 에너지 평탄도를 포함하고, 상기 미리 설정된 조건을 충족하는 변동 간격값은 상기 에너지 평탄도가 제1 임계값보다 작음을 지시하거나, 또는
    상기 변동 간격값은 상기 제1 오디오 프레임의 진폭 평탄도를 포함하고, 상기 미리 설정된 조건을 충족하는 변동 간격값은 상기 진폭 평탄도가 제2 임계값보다 작음을 지시하거나, 또는
    상기 변동 간격값은 상기 제1 오디오 프레임의 에너지 편차를 포함하고, 상기 미리 설정된 조건을 충족하는 변동 간격값은 상기 에너지 편차가 제1 미리 설정된 범위 밖에 있음을 지시하거나, 또는
    상기 변동 간격값은 상기 제1 오디오 프레임의 진폭 편차를 포함하고, 상기 미리 설정된 조건을 충족하는 변동 간격값은 상기 진폭 편차가 제2 미리 설정된 범위 밖에 있음을 지시하는,
    코딩 장치.
  19. 제12항 내지 제18항 중 어느 한 항에 있어서,
    상기 획득 모듈은 구체적으로,
    상기 적어도 5개의 채널 신호에 대응하는 채널 페어 중에서 채널 페어를 선택하고, 최대 상관값 합을 획득하기 위해 상기 채널 페어를 상기 제1 채널 페어 세트에 추가하도록
    구성되는, 코딩 장치.
  20. 제12항 내지 제19항 중 어느 한 항에 있어서,
    상기 획득 모듈은 구체적으로,
    상기 적어도 5개의 채널 신호에 대응하는 채널 페어에서 최대 상관값을 갖는 채널 페어를 상기 제2 채널 페어 세트에 먼저 추가하고, 상기 적어도 5개의 채널 신호에 대응하는 채널 페어 중 연관된 채널 페어 이외의 다른 채널 페어에서 최대 상관값을 갖는 채널 페어를 상기 제2 채널 페어 세트에 추가하도록
    구성되며,
    상기 연관된 채널 페어는 상기 제1 채널 페어 세트에 추가된 채널 페어에 포함된 임의의 채널 신호를 포함하는,
    코딩 장치.
  21. 제14항 내지 제18항 중 어느 한 항에 있어서,
    상기 에너지 균등화 모드가 상기 제1 에너지 균등화 모드인 경우, 상기 코딩 모듈은 구체적으로,
    상기 페어링 방식에 대응되는 타깃 채널 페어 세트의 현재 채널 페어에 대해, 상기 현재 채널 페어에 포함된 2개의 채널 신호의 에너지 또는 진폭값의 평균값을 계산하고, 2개의 대응하는 균등화된 채널 신호를 획득하기 위해 상기 평균값에 기초하여 상기 2개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하도록
    구성되는, 코딩 장치.
  22. 제14항 내지 제18항 중 어느 한 항에 있어서,
    상기 에너지 균등화 모드가 상기 제2 에너지 균등화 모드인 경우, 상기 코딩 모듈은 구체적으로,
    상기 적어도 5개의 채널 신호의 에너지 또는 진폭값의 평균값을 계산하고, 상기 적어도 5개의 균등화된 채널 신호를 획득하기 위해 상기 평균값에 기초하여 상기 적어도 5개의 채널 신호에 대해 에너지 균등화 처리를 개별적으로 수행하도록
    구성되는, 코딩 장치.
  23. 디바이스로서,
    하나 이상의 프로세서; 및
    하나 이상의 프로그램을 저장하도록 구성된 메모리
    를 포함하며,
    상기 하나 이상의 프로그램이 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서가 제1항 내지 제11항 중 어느 한 항에 따른 방법을 구현할 수 있는,
    디바이스.
  24. 컴퓨터 판독 가능 저장 매체로서,
    컴퓨터 프로그램을 포함하며,
    상기 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 상기 컴퓨터가 제1항 내지 제11항 중 어느 한 항에 따른 방법을 수행할 수 있는,
    컴퓨터 판독 가능 저장 매체.
  25. 컴퓨터 판독 가능 저장 매체로서,
    제1항 내지 제11항 중 어느 한 항에 따른 멀티 채널 오디오 신호 코딩 방법을 사용하여 획득된 코딩된 비트스트림을 포함하는
    컴퓨터 판독 가능 저장 매체.
  26. 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 상기 컴퓨터가 제1항 내지 제11항 중 어느 한 항에 따른 방법을 수행할 수 있는,
    컴퓨터 프로그램.
KR1020237004414A 2020-07-17 2021-07-16 멀티 채널 오디오 신호 코딩 방법 및 장치 KR20230035383A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010728902.2A CN114023338A (zh) 2020-07-17 2020-07-17 多声道音频信号的编码方法和装置
CN202010728902.2 2020-07-17
PCT/CN2021/106826 WO2022012675A1 (zh) 2020-07-17 2021-07-16 多声道音频信号的编码方法和装置

Publications (1)

Publication Number Publication Date
KR20230035383A true KR20230035383A (ko) 2023-03-13

Family

ID=79554491

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237004414A KR20230035383A (ko) 2020-07-17 2021-07-16 멀티 채널 오디오 신호 코딩 방법 및 장치

Country Status (8)

Country Link
US (1) US20230186924A1 (ko)
EP (1) EP4174852A4 (ko)
JP (1) JP2023534049A (ko)
KR (1) KR20230035383A (ko)
CN (1) CN114023338A (ko)
AU (1) AU2021310236A1 (ko)
BR (1) BR112023000667A2 (ko)
WO (1) WO2022012675A1 (ko)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100349207C (zh) * 2003-01-14 2007-11-14 北京阜国数字技术有限公司 高频耦合的伪小波5声道音频编/解码方法
US20040230423A1 (en) * 2003-05-16 2004-11-18 Divio, Inc. Multiple channel mode decisions and encoding
JPWO2008108077A1 (ja) * 2007-03-02 2010-06-10 パナソニック株式会社 符号化装置および符号化方法
CN101765880B (zh) * 2007-07-27 2012-09-26 松下电器产业株式会社 语音编码装置和语音编码方法
WO2014174344A1 (en) * 2013-04-26 2014-10-30 Nokia Corporation Audio signal encoder
CN104240712B (zh) * 2014-09-30 2018-02-02 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
CN106710600B (zh) * 2016-12-16 2020-02-04 广州广晟数码技术有限公司 多声道音频信号的去相关编码方法和装置
CN114898761A (zh) * 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
CN112639967A (zh) * 2018-07-04 2021-04-09 弗劳恩霍夫应用研究促进协会 使用信号白化作为预处理的多信号音频编码

Also Published As

Publication number Publication date
EP4174852A4 (en) 2024-01-03
BR112023000667A2 (pt) 2023-01-31
AU2021310236A1 (en) 2023-02-16
CN114023338A (zh) 2022-02-08
WO2022012675A1 (zh) 2022-01-20
EP4174852A1 (en) 2023-05-03
JP2023534049A (ja) 2023-08-07
US20230186924A1 (en) 2023-06-15

Similar Documents

Publication Publication Date Title
EP1807824B1 (en) Interpolation and signalling of spacial reconstruction parameters for multichannel coding and decoding of audio sources
JP6117997B2 (ja) 符号化表現に基づいて少なくとも4つのオーディオチャネル信号を提供するためのオーディオデコーダ、オーディオエンコーダ、方法、帯域幅拡張を用いた少なくとも4つのオーディオチャネル信号に基づいて符号化表現を提供するための方法およびコンピュータプログラム
RU2381571C2 (ru) Синтезирование монофонического звукового сигнала на основе кодированного многоканального звукового сигнала
KR20200091880A (ko) 양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩 파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법
KR20070100838A (ko) 오디오 피스 또는 오디오 데이터스트림의 인코딩된스테레오 신호를 생성하는 장치 및 방법
JP2007531012A (ja) 可逆マルチチャネル・オーディオ・コーデック
WO2019170955A1 (en) Audio coding
KR102288111B1 (ko) 스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치
JP2020074007A (ja) マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
US7725324B2 (en) Constrained filter encoding of polyphonic signals
US11096002B2 (en) Energy-ratio signalling and synthesis
CN112823534B (zh) 信号处理设备和方法以及程序
KR20230035383A (ko) 멀티 채널 오디오 신호 코딩 방법 및 장치
US20210297777A1 (en) Optimized Audio Forwarding
KR20200035306A (ko) 시간-도메인 스테레오 인코딩 및 디코딩 방법 및 관련 제품
EP4336494A1 (en) Encoding method and apparatus for multi-channel audio signals
KR20230036146A (ko) 다중 채널 오디오 신호 인코딩 및 디코딩 방법 및 장치
JP5680391B2 (ja) 音響符号化装置及びプログラム
RU2020130054A (ru) Представление пространственного звука посредством звукового сигнала и ассоциированных с ним метаданных
WO2023172865A1 (en) Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing
EP1639580A1 (en) Constrained filter encoding of polyphonic signals
MX2008009186A (en) Complex-transform channel coding with extended-band frequency coding