KR20230036146A - 다중 채널 오디오 신호 인코딩 및 디코딩 방법 및 장치 - Google Patents

다중 채널 오디오 신호 인코딩 및 디코딩 방법 및 장치 Download PDF

Info

Publication number
KR20230036146A
KR20230036146A KR1020237004819A KR20237004819A KR20230036146A KR 20230036146 A KR20230036146 A KR 20230036146A KR 1020237004819 A KR1020237004819 A KR 1020237004819A KR 20237004819 A KR20237004819 A KR 20237004819A KR 20230036146 A KR20230036146 A KR 20230036146A
Authority
KR
South Korea
Prior art keywords
channel
audio frame
channel pair
pair
correlation
Prior art date
Application number
KR1020237004819A
Other languages
English (en)
Inventor
지 왕
지안세 딩
빙인 시아
빈 왕
제 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20230036146A publication Critical patent/KR20230036146A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

다중 채널 오디오 신호 인코딩 및 디코딩 방법 및 장치가 개시된다. 이 다중 채널 오디오 신호 인코딩 방법은 인코딩될 제1 오디오 프레임을 획득하는 단계(S301)와, 상관값 세트를 획득하는 단계(S302)- 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함함 -와, 상관값 세트에서 M개의 상관값을 선택하는 단계(S303)- 모든 M개의 상관값은 상관값 세트 내의 M개의 상관값 이외의 상관값보다 크고, 모든 M개의 상관값은 페어링 임계치 이상임 -와, M개의 채널쌍 세트를 획득하는 단계(S304)- 각 채널쌍 세트는 M개의 상관값에 대응하는 M개의 채널쌍 중 적어도 하나를 포함함 -와, M개의 채널쌍 세트 중에서 대상 채널쌍 세트를 결정하는 단계(S305)- 대상 채널쌍 세트의 모든 채널쌍의 상관값의 합은 M개의 채널쌍 세트의 것 중에서 가장 큰 것임 -와, 대상 채널쌍 세트에 기초하여 제1 오디오 프레임을 인코딩하는 단계(S306)를 포함한다. 본 출원은 채널 신호 간의 중복성을 줄이며, 오디오 인코딩 효율을 향상시킨다.

Description

다중 채널 오디오 신호 인코딩 및 디코딩 방법 및 장치
본 출원은 2020년 7월 17일에 중국 특허청에 제출된 "다중 채널 오디오 신호 인코딩 및 디코딩 방법 및 장치"라는 제목의 중국 특허 출원 번호 202010699706.7의 우선권을 주장하며, 이는 그 전체가 본 명세서에서 참조로 포함된다.
본 출원은 오디오 처리 기술에 관한 것으로, 특히 다중 채널 오디오 신호 인코딩 및 디코딩 방법 및 장치에 관한 것이다.
다중 채널 오디오 인코딩 및 디코딩은 적어도 2개의 채널을 포함하는 오디오를 인코딩 또는 디코딩하는 기술이다. 일반적인 다중 채널 오디오는 5.1 채널 오디오, 7.1 채널 오디오, 7.1.4 채널 오디오, 22.2 채널 오디오 등을 포함한다.
MPEG 서라운드(MPEG surround, MPS) 표준은 4개 채널에 대한 결합 인코딩을 지정한다. 그러나, 이 표준은 여전히 전술한 다중 채널 오디오 신호에 대한 인코딩 및 디코딩 방법을 필요로 한다.
본 출원은 채널 신호 간의 중복을 줄이고 오디오 인코딩 효율을 향상시키기 위한 다중 채널 오디오 신호 인코딩 및 디코딩 방법 및 장치를 제공한다.
제1 양태에 따르면, 본 출원은 다중 채널 오디오 신호 인코딩 방법을 제공한다. 이 방법은 인코딩될 제1 오디오 프레임을 획득하는 단계- 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 -와, 상관값 세트를 획득하는 단계- 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 사이의 상관도를 나타냄 -와, 상관값 세트에서 M개의 상관값을 선택하는 단계- 모든 M개의 상관값은 상관값 세트 내의 M개의 상관값 이외의 상관값보다 크고, 모든 M개의 상관값은 페어링 임계치 이상이고, M은 지정된 값 이하의 양의 정수임 -와, M개의 채널쌍 세트를 획득하는 단계- 각 채널쌍 세트는 M개의 상관값에 대응하는 M개의 채널쌍 중 적어도 하나를 포함하고, 채널쌍 세트가 적어도 2개의 채널쌍을 포함할 때, 적어도 2개의 채널쌍은 동일한 채널 신호를 포함하지 않음 -와, M개의 채널쌍 세트 중에서 대상 채널쌍 세트를 결정하는 단계- 대상 채널쌍 세트의 모든 채널쌍의 상관값의 합은 M개의 채널쌍 세트의 것들 중에서 가장 큰 것임 -와, 대상 채널쌍 세트에 기초하여 제1 오디오 프레임을 인코딩하는 단계를 포함한다.
본 실시예에서 제1 오디오 프레임은 인코딩될 다중 채널 오디오 신호의 임의의 프레임일 수 있고, 제1 오디오 프레임은 5개 이상의 채널 신호를 포함한다. 2개의 고도로 상관된 채널 신호를 인코딩하면 중복성을 줄이고 인코딩 효율성을 높일 수 있다. 따라서, 본 실시예에서는, 2개의 채널 신호 사이의 상관값에 기초하여 페어링이 결정된다. 가능한 상관도가 가장 높은 채널쌍 세트를 찾기 위해, 제1 오디오 프레임에서 적어도 5개 이상의 채널 신호 중 2개마다 상관값을 계산하여 제1 오디오 프레임의 상관값 세트를 구할 수 있다. 예를 들어, 5개의 채널 신호에 대해 총 10개의 채널쌍이 형성될 수 있고, 이에 대응하여 상관값 세트는 10개의 상관값을 포함할 수 있다. 본 실시예에서, 상관값 세트에 포함된 모든 상관값은 내림차순으로 정렬될 수 있으며, 상관값 중에서 상위에 랭크된 첫 번째 M개의 상관값이 선택된다. M개의 상관값은 페어링 임계치보다 크거나 같아야 한다. 이러한 이유는, 상관값이 페어링 임계치보다 작다는 것은 상관값에 대응하는 채널쌍에서 두 채널 신호 간의 상관도가 낮다는 것을 나타내므로 인코딩을 위해 두 채널 신호를 페어링할 필요가 없기 때문이다. 인코딩 효율성을 개선하기 위해, 페어링 임계치보다 크거나 같은 모든 상관값을 선택할 필요가 없다. 따라서, M의 상한(N)이 설정되는데, 즉, 최대 N개의 상관값이 선택된다.
본 실시예에서는 가능한 한 복수의 채널쌍 세트의 상관값의 합을 구하고, 그런 다음, 상관값의 합이 가장 큰 채널쌍 세트를 대상 채널쌍 세트로 결정한다. 이와 같이, 대상 채널쌍 세트에 포함된 모든 채널쌍의 상관값의 합이 가장 크고, 채널쌍의 수를 최대한 늘리고, 채널 신호 간의 중복성을 줄이며, 오디오 인코딩 효율을 향상시킨다.
가능한 구현에서, M개의 채널쌍 세트는 제1 채널쌍 세트를 포함한다. M개의 채널쌍 세트를 획득하는 단계는 제1 채널쌍 세트를 획득하는 것을 포함한다. 제1 채널쌍 세트를 획득하는 단계는 M개의 채널쌍 중 제1 채널쌍을 제1 채널쌍 세트에 추가하는 단계- 제1 채널쌍은 M개의 채널쌍 중 임의의 채널쌍임 -와, 복수의 채널쌍 중 연관된 채널쌍이 아닌 다른 채널쌍이 페어링 임계치보다 큰 상관값을 갖는 채널쌍을 포함하는 경우, 다른 채널쌍 중에서 상관값이 가장 큰 채널쌍을 선택하여 그 채널쌍을 제1 채널쌍 세트에 추가하는 단계- 연관된 채널쌍은 제1 채널쌍 세트에 추가된 채널쌍에 포함된 채널 신호들 중 임의의 하나를 포함함 -를 포함한다.
복수의 채널쌍에서, 보다 큰 상관값을 갖는 복수의 채널쌍은 채널쌍 세트에 추가된 제1 채널쌍으로서 별도로 사용되고 나머지 채널쌍 중에서 가장 큰 상관값에 대응하는 채널쌍이 대응하는 채널쌍 세트에 추가되도록 선택된다. 복수의 채널쌍 세트의 상관값의 합을 최대한 많이 구한 후, 상관값의 합이 가장 큰 채널쌍 세트를 대상 채널쌍 세트으로 결정한다. 이렇게 하여, 대상 채널쌍 세트에 포함된 모든 채널쌍의 상관값의 합이 가장 크고, 채널쌍의 수는 최대한 증가되고, 채널 신호 간의 중복성을 줄이고, 오디오 인코딩 효율을 높인다.
가능한 구현에서, 상관값 세트로부터 M개의 상관값을 선택하는 것은 상관값 세트로부터 N개의 상관값을 선택하는 것- 여기서 모든 N개의 상관값은 상관값 세트에서 N개의 상관값 이외의 상관값보다 크고, N은 지정된 값임 -과, N개의 상관값에서 페어링 임계치 이상의 상관값을 선택하는 것- 페어링 임계치 이상의 상관값의 개수는 M개임 -을 포함한다.
M개의 상관값은 페어링 임계치보다 크거나 같고, M은 지정된 값보다 작거나 같은 양의 정수(예를 들어, N)이다. 이 실시예에서, 상관값 세트에 포함된 모든 상관값은 내림차순으로 정렬될 수 있고, 상위에 랭크된 첫 번째 N개의 상관값이 상관값에서 선택되며, 여기서 N개의 상관값은 페어링 임계치보다 작은 상관값을 가질 수 있다. 따라서, N개의 상관값 중에서 페어링 임계치 이상의 M개의 상관값을 선택한다. 이러한 이유는, 상관값이 페어링 임계치보다 작다는 것은 상관값에 대응하는 채널쌍에서의 두 채널 신호 간의 상관도가 낮다는 것을 나타내므로 인코딩을 위해 두 채널 신호를 페어링할 필요가 없기 때문이다.
가능한 구현에서, 상관값은 정규화된 값이다.
연산 효율을 향상시키기 위해, 정규화 처리는 매우 다른 값 범위를 갖는 상관값을 비교 및 처리를 위한 통일된 범위로 포함시킬 수 있다.
가능한 구현에서, 채널쌍의 상관값이 페어링 임계치보다 작을 때, 채널쌍의 상관값은 0으로 설정된다.
상관값이 보다 작다는 것은, 상관값에 대응하는 두 채널 신호 간의 상관도가 작아 두 채널 신호를 페어링할 필요가 없음을 나타낸다. 따라서, 이 경우 두 채널 신호의 상관값을 0으로 설정하여 후속 계산을 용이하게 하고 연산 효율을 향상시킨다.
제2 양태에 따르면, 본 출원은 다중 채널 오디오 신호 인코딩 방법을 제공한다. 이 방법은 인코딩될 제1 오디오 프레임을 획득하는 단계- 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 -와, 상관값 세트를 획득하는 단계- 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 사이의 상관도를 나타냄 -와, 복수의 채널쌍에 기초하여 복수의 채널쌍 세트를 획득하는 단계- 채널쌍 세트가 적어도 2개의 채널쌍을 포함하는 경우, 적어도 2개의 채널쌍은 동일한 채널 신호를 포함하지 않음 -와, 상관값 세트에 기초하여 복수의 채널쌍 세트 각각에 포함된 모든 채널쌍의 상관값의 합을 구하는 단계와, 대상 채널쌍 세트를 결정하는 단계- 대상 채널쌍 세트 내의 모든 채널쌍의 상관값의 합은 복수의 채널쌍 세트의 것들 중 가장 큰 것임 -와, 대상 채널쌍 세트에 기초하여 제1 오디오 프레임을 인코딩하는 단계를 포함한다.
복수의 채널쌍 세트의 상관값의 합을 최대한 많이 구한 후, 상관값의 합이 가장 큰 채널쌍 세트를 대상 채널쌍 세트로 결정한다. 이와 같이, 대상 채널쌍 세트에 포함된 모든 채널쌍의 상관값의 합이 가장 크고, 채널쌍의 수를 최대한 늘리고, 채널 신호 간의 중복성을 줄이고, 오디오 인코딩 효율을 높인다.
가능한 구현에서, 복수의 채널쌍에 기초하여 복수의 채널쌍 세트를 획득하는 단계는 복수의 채널쌍에서 비상관 채널쌍이 아닌 채널쌍에 기초하여 복수의 채널쌍 세트를 획득하는 단계를 포함하며, 여기서 비상관 채널쌍의 상관값은 페어링 임계치보다 작다.
상관값이 보다 작다는 것은, 상관값에 대응하는 두 채널 신호 간의 상관도가 작아 두 채널 신호를 페어링할 필요가 없음을 나타낸다. 따라서, 이 경우 두 채널 신호의 상관값과 두 채널 신호의 채널쌍을 삭제함으로써 후속 연산량을 줄여 연산 효율을 높일 수 있다.
연산 효율을 향상시키기 위해, 정규화 처리는 매우 다른 값 범위를 갖는 상관값을 비교 및 처리를 위한 통일된 범위로 포함시킬 수 있다.
가능한 구현에서, 채널쌍의 상관값이 페어링 임계치보다 작을 때, 채널쌍의 상관값은 0으로 설정된다.
상관값이 보다 작다는 것은, 상관값에 대응하는 두 채널 신호 간의 상관도가 작아 두 채널 신호를 페어링할 필요가 없음을 나타낸다. 따라서, 이 경우 두 채널 신호의 상관값을 0으로 설정하여 후속 계산을 용이하게 하고 연산 효율을 향상시킨다.
제3 양태에 따르면, 본 출원은 다중 채널 오디오 신호 인코딩 방법을 제공한다. 이 방법은 인코딩될 제1 오디오 프레임을 획득하는 단계- 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 -와, 제1 오디오 프레임의 상관값 세트를 획득하는 단계- 제1 오디오 프레임의 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 사이의 상관도를 나타냄 -와, 제2 오디오 프레임의 상관값 세트를 획득하는 단계- 제2 오디오 프레임의 상관값 세트는 제2 오디오 프레임의 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 제2 오디오 프레임의 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 사이의 상관도를 나타내며, 제2 오디오 프레임은 제1 오디오 프레임의 이전 프레임임 -와, 제1 오디오 프레임의 상관값 세트와 제2 오디오 프레임의 상관값 세트에 기초하여, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득해야 하는지 여부를 결정하는 단계와, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득해야 하는 경우, 제1 양태 또는 제2 양태의 임의의 구현에 따른 방법을 사용하여 제1 오디오 프레임의 대상 채널쌍 세트를 획득하고, 대상 채널쌍 세트에 기초하여 제1 오디오 프레임을 인코딩하는 단계와, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 없으면, 제2 오디오 프레임의 대상 채널쌍 세트를 제1 오디오 프레임의 대상 채널쌍 세트로 결정하고, 대상 채널쌍 세트를 기반으로 제1 오디오 프레임을 인코딩하는 단계를 포함한다.
현재 오디오 프레임의 상관값 세트과 이전 오디오 프레임의 상관값 세트 간의 차의 합을 구하여, 현재 오디오 프레임의 대상 채널쌍 세트를 다시 구해야 하는지 여부를 판단하는데, 이를 통해, 오디오 변화가 적을 때 계산량을 크게 줄이고 인코딩 효율성을 높일 수 있다. 오디오 변화가 커서 대상 채널쌍 세트를 다시 구해야 하는 경우에도, 복수의 채널쌍 세트의 상관값의 합을 최대한 많이 구하여 상관값의 합이 가장 큰 채널쌍 세트를 대상 채널쌍 세트로 결정한다. 이와 같이, 대상 채널쌍 세트에 포함된 모든 채널쌍의 상관값의 합이 가장 크고, 채널쌍의 수를 최대한 늘리고, 채널 신호 간의 중복성을 줄이고, 오디오 인코딩 효율을 향상시킨다.
가능한 구현에서, 제1 오디오 프레임의 상관값 세트 및 제2 오디오 프레임의 상관값 세트에 기초하여, 제1 오디오 프레임의 대상 채널쌍 세트가 다시 획득될 필요가 있는지 여부를 결정하는 단계는, 제1 오디오 프레임의 상관값 세트 및 제2 오디오 프레임의 상관값 세트에서 동일한 채널쌍에 대응하는 상관값 간의 차이의 절대값을 계산하는 단계와, 복수의 채널쌍에 대응하는 절대값의 합을 계산하는 단계와, 절대값의 합이 변경 임계치 미만인 경우, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 없다고 결정하는 단계, 또는 절대값의 합이 변경 임계치보다 크거나 같을 때, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 있다고 결정하는 단계를 포함한다. 변경 임계치는 예를 들어 α x 채널쌍의 수량일 수 있다. α의 값은 0.14 또는 0.15일 수 있으며, 채널쌍의 수량은 제1 오디오 프레임의 상관값 세트(또는 제2 오디오 프레임의 상관값 세트)에 포함된 채널쌍의 수량을 의미한다.
제4 양태에 따르면, 본 출원은 다중 채널 오디오 신호 인코딩 방법을 제공한다. 이 방법은 인코딩될 제1 오디오 프레임을 획득하는 단계- 제1 오디오 프레임은 K개의 채널 신호를 포함하고, K는 5보다 크거나 같은 정수임 -와, K가 채널 신호량 임계치보다 큰 경우, 제1 양태의 임의의 구현에 따른 방법을 사용하여 제1 오디오 프레임을 인코딩하는 단계와, K가 채널 신호량 임계치보다 작거나 같을 때, 제2 양태의 임의의 구현에 따른 방법을 사용하여 제1 오디오 프레임을 인코딩하는 단계를 포함한다. 채널 신호량 임계치는 예를 들어 5, 6 또는 7일 수 있다.
본원의 방법과 제1 양태 또는 제2 양태의 방법 사이의 차이점은 제1 양태의 방법과 제2 양태의 방법이 함께 사용된다는 것, 즉, 제1 오디오 프레임의 대상 채널쌍 세트를 획득하는데 사용되는 방법은 제1 오디오 프레임에 포함된 채널 신호의 수량에 기초하여 결정된다는 것이다. 제1 오디오 프레임이 많은 양의 채널 신호를 포함할 때, 제2 양태의 방법을 사용하면 모든 대상 채널쌍 세트를 모두 나열해야 하므로 계산량이 증가한다. 따라서, 이 경우, 제1 양태의 방법을 사용하면 계산량이 많이 감소된다. 제1 오디오 프레임이 소량의 채널 신호를 포함하는 경우, 최종 선택된 대상 채널쌍 세트가 확실히 제1 오디오 프레임의 특징을 가장 잘 충족시키는 최적의 결과임을 보장하기 위해, 제2 양태의 방법을 사용하여 모든 채널쌍 세트의 상관값의 합을 얻을 수 있다.
제5 양태에 따르면, 본 출원은 인코딩 장치를 제공한다. 인코딩 장치는, 적어도 5개의 채널 신호를 포함하는 인코딩될 제1 오디오 프레임을 획득하고, 상관값 세트를 획득하고- 여기서 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 사이의 상관도를 나타냄 -, 상관값 세트에서 M개의 상관값을 선택하고- 여기서 모든 M개의 상관값은 상관값 세트의 M개의 상관값 이외의 상관값보다 크고 모든 M개의 상관값은 페어링 임계치 이상이며 M은 지정된 값 이하의 양의 정수임 -, M개의 채널쌍 세트를 획득- 각 채널쌍 세트는 M개의 상관값에 대응하는 M개의 채널쌍 중 적어도 하나를 포함하고, 채널쌍 세트가 적어도 2개의 채널쌍을 포함할 때, 적어도 2개의 채널쌍은 동일한 채널 신호를 포함하지 않음 -하도록 구성된 획득 모듈과, M개의 채널쌍 세트로부터 대상 채널쌍 세트를 결정하도록 구성된 결정 모듈- 대상 채널쌍 세트 내의 모든 채널쌍의 상관값의 합은 M개의 채널쌍 세트의 것들 중에서 가장 큼 -과, 대상 채널쌍 세트에 기초하여 제1 오디오 프레임을 인코딩하도록 구성된 인코딩 모듈을 포함한다.
가능한 구현에서, M개의 채널쌍 세트는 제1 채널쌍 세트를 포함한다. 획득 모듈은 구체적으로 M개의 채널쌍의 제1 채널쌍을 제1 채널쌍 세트에 추가하고- 여기서 제1 채널쌍은 M개의 채널쌍 중 임의의 하나임 -, 복수의 채널쌍 중 연관된 채널쌍 이외의 채널쌍이 페어링 임계치보다 큰 상관값을 갖는 채널쌍을 포함하는 경우, 다른 채널쌍 중에서 상관값이 가장 큰 채널쌍을 선택하여 이 채널 쌍을 제1 채널쌍 세트에 추가하도록 구성되되, 연관된 채널쌍은 제1 채널쌍 세트에 추가된 채널쌍에 포함된 채널 신호들 중 어느 하나를 포함한다.
가능한 구현에서, 획득 모듈은 구체적으로 상관값 세트로부터 N개의 상관값을 선택하고- 여기서 모든 N개의 상관값은 상관값 세트에서 N개의 상관값 이외의 상관값보다 크고 N은 지정된 값임 -, N개의 상관값으로부터 페어링 임계치 이상인 상관값을 선택- 여기서 페어링 임계치 이상인 상관값의 수량은 M개임 -하도록 구성된다.
가능한 구현에서, 상관값은 정규화된 값이다.
가능한 구현에서, 채널쌍의 상관값이 페어링 임계치보다 작을 때, 채널쌍의 상관값은 0으로 설정된다.
제6 양태에 따르면, 본 출원은 인코딩 장치를 제공한다. 인코딩 장치는, 적어도 5개의 채널 신호를 포함하는 인코딩될 제1 오디오 프레임을 획득하고, 상관값 세트를 획득하고- 여기서 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 사이의 상관도를 나타냄 -, 복수의 채널쌍에 기초하여 복수의 채널쌍 세트를 획득- 채널쌍 세트가 적어도 2개의 채널쌍을 포함할 때, 적어도 2개의 채널쌍은 동일한 채널 신호를 포함하지 않음 -하고, 상관값 세트에 기초하여, 복수의 채널쌍 세트 각각에 포함된 모든 채널쌍의 상관값의 합을 획득하도록 구성된 획득 모듈과, 대상 채널쌍 세트를 결정하도록 구성된 결정 모듈- 대상 채널쌍 세트 내의 모든 채널쌍의 상관값의 합은 복수의 채널쌍 세트의 것들 중에서 가장 큰 것임 -과, 대상 채널쌍 세트에 기초하여 제1 오디오 프레임을 인코딩하도록 구성된 인코딩 모듈을 포함한다.
가능한 구현에서, 획득 모듈은 구체적으로, 복수의 채널쌍에서 무상관 채널쌍 이외의 채널쌍에 기초하여 복수의 채널쌍 세트를 획득하도록 구성되며, 여기서 무상관 채널쌍의 상관값은 페어링 임계치보다 작다.
가능한 구현에서, 상관값은 정규화된 값이다.
가능한 구현에서, 채널쌍의 상관값이 페어링 임계치보다 작을 때, 채널쌍의 상관값은 0으로 설정된다.
제7 양태에 따르면, 본 출원은 인코딩 장치를 제공한다. 인코딩 장치는, 적어도 5개의 채널 신호를 포함하는 인코딩될 제1 오디오 프레임을 획득하고, 제1 오디오 프레임의 상관값 세트를 획득하고- 여기서 제1 오디오 프레임의 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 사이의 상관도를 나타냄 -, 제2 오디오 프레임의 상관값 세트를 획득- 여기서 제2 오디오 프레임의 상관값 세트는 제2 오디오 프레임의 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 제2 오디오 프레임의 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 사이의 상관도를 나타내고, 제2 오디오 프레임은 제1 오디오 프레임의 이전 프레임임 -하도록 구성된 획득 모듈과, 제1 오디오 프레임의 상관값 세트 및 제2 오디오 프레임의 상관값 세트에 기초하여, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득해야 하는지 여부를 결정하고, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 있는 경우, 제1항 내지 제9항 중 어느 한 항에 따른 방법을 사용하여 제1 오디오 프레임의 대상 채널쌍 세트를 획득하고, 이 대상 채널쌍 세트를 기반으로 제1 오디오 프레임을 인코딩하고, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 없으면, 제2 오디오 프레임의 대상 채널쌍 세트를 제1 오디오 프레임의 대상 채널쌍 세트로 결정하고, 대상 채널쌍 세트를 기반으로 제1 오디오 프레임을 인코딩하도록 구성된 인코딩 모듈을 포함한다.
가능한 구현에서, 인코딩 모듈은 구체적으로, 제1 오디오 프레임의 상관값 세트와 제2 오디오 프레임의 상관값 세트에서 동일한 채널쌍에 대응하는 상관값 사이의 차이의 절대값을 계산하고, 복수의 채널쌍에 대응하는 절대값의 합을 계산하고, 절대값의 합이 변경 임계치 미만인 경우, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 없다고 결정하고, 또는 절대값의 합이 변경 임계치 이상인 경우, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득해야 한다고 결정하도록 구성된다.
제8 양태에 따르면, 본 출원은 인코딩 장치를 제공한다. 인코딩 장치는 인코딩될 제1 오디오 프레임을 획득하도록 구성된 획득 모듈- 제1 오디오 프레임은 K개의 채널 신호를 포함하고 K는 5 이상의 정수임 -과, 및 인코딩 모듈을 포함하되, 이 인코딩 모듈은, K가 채널 신호량 임계치보다 큰 경우, 제1 오디오 프레임을 인코딩하기 위해 제1 양태의 임의의 구현에 따른 방법을 수행하고, K가 채널 신호량 임계치 이하일 때, 제1 오디오 프레임을 인코딩하기 위해 제2 양태의 임의의 구현예에 따른 방법을 수행한다.
제9 양태에 따르면, 본 출원은 하나 이상의 프로세서 및 하나 이상의 프로그램을 저장하도록 구성된 메모리를 포함하는 장치를 제공한다. 하나 이상의 프로그램이 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서는 제1 내지 제4 양태의 임의의 구현에 따른 방법을 구현할 수 있다.
제10 양태에 따르면, 본 출원은 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 컴퓨터는 제1 내지 제4 양태의 임의의 구현에 따른 방법을 수행할 수 있다.
제11 측면에 따르면, 본 출원은 컴퓨터 판독 가능한 저장 매체를 제공하되, 이 컴퓨터 판독 가능한 저장 매체는 제1 내지 제4 양태의 임의의 구현에 따른 다중 채널 오디오 신호 인코딩 방법에 기초하여 획득된 인코딩된 비트스트림을 포함한다.
도 1은 본 출원이 적용되는 오디오 코딩 시스템(10)의 개략 블록도의 예이다.
도 2는 본 출원이 적용되는 오디오 코딩 장치(200)의 개략적인 블록도의 예이다.
도 3은 본 출원에 따른 다중 채널 오디오 신호 인코딩 방법의 예시적인 실시예의 흐름도이다.
도 4는 본 출원에 따른 다중 채널 오디오 신호 인코딩 방법이 적용된 인코딩 장치 구조의 예시도이다.
도 5는 본 출원에 따른 다중 채널 오디오 신호 인코딩 방법의 예시적인 실시예의 흐름도이다.
도 6은 본 출원에 따른 다중 채널 오디오 신호 인코딩 방법의 예시적인 실시예의 흐름도이다.
도 7은 본 출원에 따른 다중 채널 오디오 신호 인코딩 방법의 예시적인 실시예의 흐름도이다.
도 8은 본 출원에 따른 다중 채널 오디오 신호 디코딩 방법이 적용된 디코딩 장치 구조의 예시도이다.
도 9는 본 출원의 실시예에 따른 인코딩 장치의 구조의 개략도이다.
도 10은 본 출원의 실시예에 따른 장치의 구조의 개략도이다.
본 출원의 목적, 기술적 솔루션 및 이점을 더 명확하게 하기 위해, 이하에서는 본 출원의 첨부 도면을 참조하여 본 출원의 기술적 솔루션을 명확하고 완전하게 설명한다. 설명된 실시예는 본 출원의 모든 실시예가 아니라 일부에 불과하다는 것이 명백하다. 창의적인 노력 없이 본 출원의 실시예에 기초하여 당업자에 의해 획득된 다른 모든 실시예는 본 출원의 보호 범위 내에 속한다.
본 출원의 명세서, 실시예, 특허청구범위 및 첨부된 도면에 있어서, "제1", "제2" 등의 용어는 단지 구별 및 설명을 위한 것일 뿐 상대적인 중요성의 표시 또는 암시, 또는 순서의 표시 또는 암시로 이해되어서는 안 된다. 또한, "포함하다", "가지다" 및 이들의 모든 변형어는 비배타적인 포함을 커버하려하는데, 예를 들어, 일련의 단계 또는 유닛을 포함하려 한다. 방법, 시스템, 제품 또는 장치는 문자 그대로 나열된 단계 또는 유닛으로 반드시 제한되지는 않지만 문자 그대로 나열되지 않았거나 그러한 프로세스, 방법, 제품 또는 장치에 고유한 다른 단계 또는 유닛을 포함할 수 있다.
본 출원에서 "적어도 하나(항목)"는 하나 이상을 의미하고 "복수"는 둘 이상을 의미하는 것으로 이해되어야 한다. "및/또는"은 연관된 객체 간의 연관 관계를 설명하는 데 사용되며, 세 가지 관계가 존재할 수 있음을 나타낸다. 예를 들어 "A 및/또는 B"는 A만 존재하고 B만 존재하며 A와 B가 모두 존재함을 나타낼 수 있다. 여기서, A 또는 B는 단수 또는 복수일 수 있다. 문자 "/"는 일반적으로 연결된 개체 간의 "또는" 관계를 나타낸다. 또한, "다음 항목(개소) 중 적어도 하나" 또는 이와 유사한 표현은 단일 항목(개소) 또는 복수 항목(개소)의 임의의 조합을 포함하여, 이러한 항목의 임의의 조합을 나타낸다. 예를 들어, a, b, c 중 적어도 하나는 a인 경우, b인 경우, c인 경우, a와 b인 경우, a와 c인 경우, b와 c인 경우, 또는 a, b 및 c인 경우를 나타낼 수 있으며, 여기서 a, b, c는 단수 또는 복수일 수 있다.
본 출원의 관련 용어에 대한 설명은 다음과 같다.
오디오 프레임: 오디오 데이터는 스트림 형태이다. 실제 응용에서는, 오디오 처리 및 전송을 용이하게 하기 위해, 일반적으로 오디오의 프레임으로 하나의 지속 기간 내의 오디오 데이터 양이 선택된다. 이 지속 기간을 "샘플링 기간"이라고 하며, 지속 기간의 값은 코덱 및 특정 애플리케이션의 요구 사항에 따라 결정될 수 있는데, 예를 들어, 지속 기간은 2.5 ms 내지 60 ms의 범위를 가지며, ms는 밀리초이다.
오디오 신호: 오디오 신호는 음성, 음악 및 음향 효과가 포함된 규칙적인 음파의 주파수 및 진폭 변화 정보 캐리어이다. 오디오는 지속적으로 변화하는 아날로그 신호이며 연속적인 곡선으로 표현될 수 있으며 이를 음파라고 할 수 있다. 오디오에서 아날로그 디지털 변환을 통해 또는 컴퓨터를 사용하여 생성된 디지털 신호는 오디오 신호이다. 음파는 오디오 신호의 특성을 결정하는 3개의 중요한 파라미터, 즉 주파수, 진폭 및 위상을 갖는다.
채널 신호는 소리 녹음 또는 재생 중에 서로 다른 공간 위치에서 수집 또는 재생되는 독립적인 오디오 신호이다. 따라서, 채널의 수량은 오디오 녹음 중에 사용되는 오디오 소스의 수량 또는 오디오 재생에 사용되는 확성기의 수량이다.
다음은 본 출원이 적용되는 시스템 아키텍처이다.
도 1은 본 출원이 적용되는 오디오 코딩 시스템(10)의 개략 블록도의 일례이다. 도 1에 도시된 바와 같이, 오디오 코딩 시스템(10)은 소스 장치(12) 및 목적지 장치(14)를 포함할 수 있다. 소스 장치(12)는 인코딩된 비트스트림을 생성한다. 따라서, 소스 장치(12)는 오디오 인코딩 장치로 지칭될 수 있다. 목적지 장치(14)는 소스 장치(12)에 의해 생성된 인코딩된 비트스트림을 디코딩할 수 있다. 따라서 목적지 장치(14)는 오디오 디코딩 장치로 지칭될 수 있다.
소스 장치(12)는 인코더(20)를 포함하고, 선택적으로 오디오 소스(16), 오디오 전처리기(18) 및 통신 인터페이스(22)를 포함할 수 있다.
오디오 소스(16)는 실세계 음성, 음악, 음향 효과 등을 캡처하도록 구성된 임의 유형의 오디오 캡처 장치, 및/또는 예를 들어 음성, 음악 및 음향 효과를 생성하도록 구성된 오디오 프로세서 또는 장치와 같은 임의의 유형의 오디오 생성 장치이거나 이를 포함할 수 있다. 오디오 소스는 전술한 오디오를 저장하는 임의의 유형의 메모리 또는 저장소일 수 있다.
오디오 전처리기(18)는 (본래의) 오디오 데이터(17)를 수신하고 오디오 데이터(17)를 전처리하여 전처리된 오디오 데이터(19)를 얻도록 구성된다. 예를 들어, 오디오 전처리기(18)에 의해 수행되는 전처리는 프루닝(pruning) 또는 노이즈 감소를 포함할 수 있다. 오디오 전처리기(18)는 선택적 구성요소일 수 있음을 이해할 수 있다.
인코더(20)는 전처리된 오디오 데이터(19)를 수신하고 인코딩된 오디오 데이터(21)를 제공하도록 구성된다.
소스 장치(12)의 통신 인터페이스(22)는 인코딩된 오디오 데이터(21)를 수신하고 인코딩된 오디오 데이터(21)를 통신 채널(13)을 통해 목적지 장치(14)로 전송하여 인코딩된 오디오 데이터(21)를 저장하거나 직접 재구성하도록 구성될 수 있다.
목적지 장치(14)는 디코더(30)를 포함하고, 선택적으로 통신 인터페이스(28), 오디오 후처리기(32) 및 재생 장치(34)를 포함할 수 있다.
목적지 장치(14)의 통신 인터페이스(28)는 소스 장치(12)로부터 인코딩된 오디오 데이터(21)를 직접 수신하고 인코딩된 오디오 데이터(21)를 디코더(30)에 제공하도록 구성된다.
통신 인터페이스(22) 및 통신 인터페이스(28)는 소스 장치(12)와 목적지 장치(14) 사이의 직접 통신 링크, 예를 들어 직접 유선 또는 무선 연결을 사용하거나, 또는 임의의 유형의 네트워크, 예를 들어 유선 네트워크, 무선 네트워크 또는 이들의 임의의 조합, 임의의 유형의 사설 네트워크 및 공중 네트워크 또는 이들의 임의 유형의 조합을 사용하여 인코딩된 오디오 데이터(21)를 송신하거나 수신하도록 구성될 수 있다.
예를 들어, 통신 인터페이스(22)는 인코딩된 오디오 데이터(21)를 패킷과 같은 적절한 포맷으로 캡슐화하고/하거나 임의의 유형의 전송 인코딩 또는 프로세싱을 통해 인코딩된 오디오 데이터(21)를 처리하여 통신 링크 또는 통신 네트워크를 통해 전송되도록 구성될 수 있다.
통신 인터페이스(28)는 통신 인터페이스(22)에 대응한다. 예를 들어, 통신 인터페이스(28)는 전송된 데이터를 수신하고, 전송된 데이터를 임의의 유형의 대응하는 전송 디코딩 또는 처리 및/또는 디캡슐화를 통해 처리하여, 인코딩된 오디오 데이터(21)를 획득하도록 구성될 수 있다.
통신 인터페이스(22) 및 통신 인터페이스(28) 각각은, 도 1에서 소스 장치(12)로부터 목적지 장치(14)로 가리키는, 대응하는 통신 채널(13)에 관한 화살표로 표시된 단방향 통신 인터페이스 또는 양방향 통신 인터페이스로 구성될 수 있고, 연결을 수립하고 통신 링크 및/또는 인코딩된 오디오 데이터와 같은 데이터 전송과 관련된 임의의 기타 정보를 확인 및 교환하기 위해 메시지 등을 송수신하도록 구성될 수 있다.
디코더(30)는 인코딩된 오디오 데이터(21)를 수신하고 디코딩된 오디오 데이터(31)를 제공하도록 구성된다.
오디오 후처리기(32)는 후처리된 오디오 데이터(33)를 얻기 위해 디코딩된 오디오 데이터(31)에 대해 후처리를 수행하도록 구성된다. 오디오 후처리기(32)에 의해 수행되는 후처리는 예를 들어 프루닝 또는 리샘플링을 포함할 수 있다.
재생 장치(34)는 사용자 또는 청취자에게 오디오를 재생하기 위해 후처리된 오디오 데이터(33)를 수신하도록 구성된다. 재생 장치(34)는 재구성된 오디오를 재생하도록 구성된 임의의 유형의 재생기, 예를 들어 통합형 또는 외부형 확성기일 수 있거나 이를 포함할 수 있다. 예를 들어, 확성기는 호른(horn), 스피커 등을 포함할 수 있다.
도 2는 본 출원이 적용되는 오디오 코딩 장치(200)의 개략 블록도의 일례이다. 일 실시예에서, 오디오 코딩 장치(200)는 오디오 디코더(예를 들어, 도 1의 디코더(30)) 또는 오디오 인코더(예를 들어, 도 1의 인코더(20))일 수 있다.
오디오 코딩 장치(200)는 데이터를 수신하기 위한 입구 포트(210) 및 수신 유닛(Rx)(220)과, 데이터를 처리하는 프로세서, 로직 유닛 또는 중앙 처리 유닛(230)과, 데이터를 전송하기 위한 송신 유닛(Tx)(240) 및 출구 포트(250)와, 데이터를 저장하는 메모리(260)를 포함한다. 오디오 코딩 장치(200)는 입구 포트(210), 수신 유닛(220), 송신 유닛(240), 및 출구 포트(250)에 결합되는 광-전기 변환 컴포넌트 및 EO(electrical-to-optical) 컴포넌트를 더 포함할 수 있다. 컴포넌트는 광 신호 또는 전기 신호의 입구 포트 또는 출구 포트로 구성된다.
프로세서(230)는 하드웨어 및 소프트웨어를 통해 구현된다. 프로세서(230)는 하나 이상의 CPU 칩, 코어(예컨대, 멀티 코어 프로세서), FPGA, ASIC, DSP로 구현될 수 있다. 프로세서(230)는 입구 포트(210), 수신 유닛(220), 송신 유닛(240), 입구 포트(250) 및 메모리(260)와 통신한다. 프로세서(230)는 코딩 모듈(270)(예컨대, 인코딩 모듈 또는 디코딩 모듈)을 포함한다. 코딩 모듈(270)은 본 출원에 개시된 실시예를 구현하여 본 출원에서 제공되는 다중 채널 오디오 신호 인코딩 및 디코딩 방법을 구현한다. 예를 들어, 코딩 모듈(270)은 다양한 인코딩 동작을 구현, 처리 또는 제공한다. 따라서, 코딩 모듈(270)은 오디오 코딩 장치(200)의 기능을 실질적으로 향상시키고, 오디오 코딩 장치(200)의 다른 상태로의 전환에 영향을 미친다. 또는, 코딩 모듈(270)은 메모리(260)에 저장되고 프로세서(230)에 의해 실행되는 명령어를 이용하여 구현될 수 있다.
메모리(260)는 하나 이상의 디스크, 테이프 드라이브 및 솔리드 스테이트 드라이브를 포함하고, 이러한 프로그램이 실행을 위해 선택될 때 프로그램을 저장하고, 프로그램 실행 동안 판독되는 명령어 및 데이터를 저장하기 위해 오버플로 데이터 저장 장치로 사용될 수 있다. 메모리(260)는 휘발성 및/또는 비휘발성일 수 있으며, ROM(read-only memory), RAM(random access memory), 랜덤 액세스 메모리(삼항 콘텐츠 주소 지정 가능 메모리: TCAM) 및/또는 정적 랜덤 액세스 메모리(SRAM)일 수 있다.
전술한 실시예의 설명에 기초하여, 이 출원은 다중 채널 오디오 신호 인코딩 및 디코딩 방법을 제공한다.
도 3은 본 출원에 따른 다중 채널 오디오 신호 인코딩 방법의 예시적인 실시예의 흐름도이다. 프로세스(300)는 오디오 코딩 시스템(10) 또는 오디오 코딩 장치(200)의 소스 장치(12)에 의해 실행될 수 있다. 프로세스(300)는 일련의 단계 또는 동작을 포함한다. 프로세스(300)는 다양한 순서로 및/또는 동시에 수행될 수 있고 도 3에 도시된 실행 순서로 국한되지 않는다는 것을 이해해야 한다. 도 3에 도시된 바와 같이, 방법은 다음 단계를 포함한다.
단계(301): 인코딩될 제1 오디오 프레임을 획득한다.
본 실시예에서 제1 오디오 프레임은 인코딩될 다중 채널 오디오 신호의 임의의 프레임일 수 있고, 제1 오디오 프레임은 5개 이상의 채널 신호를 포함한다. 예를 들어, 5.1 채널은 6개의 채널 신호, 즉 센터(C) 채널 신호, 좌측(left, L) 채널 신호, 우측(right, R) 채널 신호, 좌측 서라운드(left surround, LS) 채널 신호, 우측 서라운드(right Surround, RS) 채널 신호, 및 0.1 채널 저주파 효과(low frequency effects, LFE) 채널 신호를 포함한다. 7.1 채널은 8개의 채널 신호, 즉 C 채널 신호, L 채널 신호, R 채널 신호, LS 채널 신호, RS 채널 신호, LB 채널 신호, RB 채널 신호 및 LFE 채널 신호를 포함한다. LFE 채널은, 일반적으로 저음을 위해 특별히 설계된 확성기로 전송되는 3Hz 내지 120Hz 범위의 오디오 채널이다.
단계 302: 상관값 세트를 획득한다.
상관값 세트는 복수의 채널쌍 각각의 상관값을 포함하고, 하나의 채널쌍은 적어도 5개 이상의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 두 채널 신호 간의 상관도를 나타낸다. 선택적으로, 복수의 채널쌍은 적어도 5개의 채널 신호에 대응하는 모든 채널쌍을 포함하거나, 복수의 채널쌍은 적어도 5개의 채널 신호에 대응하는 일부 채널쌍을 포함할 수 있다. 이것은 특별히 제한되지 않는다.
2개의 고도로 상관된 채널 신호를 인코딩하면 중복성을 줄이고 인코딩 효율성을 높일 수 있다. 따라서, 본 실시예에서는, 2개의 채널 신호 사이의 상관값에 기초하여 페어링을 결정한다. 상관도가 가장 높은 채널쌍 세트를 찾기 위해, 제1 오디오 프레임의 적어도 5개 채널 신호 중 2개 채널 신호 사이마다 상관값을 먼저 계산하여 제1 오디오 프레임의 상관값 세트를 구할 수 있다. 예를 들어, 5개의 채널 신호에 대해 총 10개의 채널쌍이 형성될 수 있고, 이에 대응하여 상관값 세트는 10개의 상관값을 포함할 수 있다.
선택적으로, 상관값을 정규화하여 모든 채널쌍의 상관값을 특정 범위 내로 제한함으로써, 상관값, 예를 들어 페어링 임계치를 결정하기 위한 통합 기준을 설정할 수 있다. 페어링 임계치는 0.2 이상 1 이하의 값으로 설정될 수 있다. 예를 들어, 페어링 임계치는 0.3, 0.4 또는 0.35일 수 있다. 이와 같이, 2개의 채널 신호 사이의 정규화된 상관값이 페어링 임계치보다 작은 한 2개의 채널 신호는 낮은 상관 관계이며 인코딩을 위해 2개의 채널 신호를 페어링할 필요가 없다.
가능한 구현에서, 2개의 채널 신호(예를 들어, ch1 및 ch2) 사이의 상관값은 다음 공식에 따라 계산될 수 있다.
Figure pct00001
corr_norm(ch1, ch2)은 채널 신호(ch1)와 채널 신호(ch2) 사이의 정규화된 상관값을 나타내고, spec_ch1(i)는 채널 신호(ch1)의 i번째 주파수의 주파수 영역 계수를 나타내고, spec_ch2(i)는 채널 신호(ch2)의 i번째 주파수의 주파수 영역 계수이고, N은 오디오 프레임의 주파수 총량을 나타낸다.
또 다른 알고리즘 또는 공식이 2개의 채널 신호 사이의 상관값을 계산하기 위해 사용될 수 있다는 점에 유의해야 한다. 이는 본 출원에서 특별히 제한되지 않는다.
일부 구현에서, 전술한 알고리즘 또는 공식에 따라 계산된 상관값은 초기 상관값으로 사용될 수 있으며, 이후 초기 상관값을 수정할 필요가 있는지 여부는 사전 설정된 조건에 따라 결정된다. 예를 들어, 제한 조건은 초기 상관값과 관련된 2개의 채널 신호 간의 진폭 비율이 사전 설정된 페어링 임계치보다 큰지 여부를 계산하는 것을 포함할 수 있다. 진폭 비율이 페어링 임계치보다 크면 초기 상관값이 수정된다. 진폭 비율이 페어링 임계치 이하이면, 초기 상관값은 변경되지 않고 유지된다. 수정은 초기 상관 관계 값을 감소시킬 수 있다. 예를 들어, 2개의 채널 신호가 처리를 위해 페어링되는 것을 방지하기 위해 초기 상관값을 0으로 직접 수정할 수 있다.
예를 들어, 채널 신호(ch)의 현재 프레임의 진폭 레벨(ch)은 다음 공식에 따른 계산을 통해 얻을 수 있다.
Figure pct00002
i는 채널 신호(ch)의 현재 프레임의 i번째 샘플링 지점을 나타내고, N은 현재 프레임의 샘플링 지점의 총량을 나타내며, sepc_coeff(ch, i)는 현재 프레임의 i번째 샘플링 지점의 주파수 영역 계수이다.
페어링 진폭 임계치는 ThreholdCoupling = 2라고 가정한다.
Figure pct00003
또는
Figure pct00004
인 경우, corr_norm(ch1, ch2)은 0으로 설정되므로 ch1과 ch2는 페어링되지 않는다.
단계(303): 상관값 세트에서 M개의 상관값을 선택한다.
모든 M개의 상관값은 상관값 세트의 M개의 상관값 이외의 상관값보다 크고, 모든 M개의 상관값은 페어링 임계치 이상이고, M은 지정된 값(예컨대, N) 이하인 양의 정수이다. 본 실시예에서, 상관값 세트에 포함된 모든 상관값은 내림차순으로 정렬될 수 있으며, 상관값 중에서 상위에 랭크된 첫 번째 M개의 상관값이 선택된다. M개의 상관값은 페어링 임계치 이상일 필요가 있다. 이러한 이유는, 상관값이 페어링 임계치보다 작다는 것은 상관값에 대응하는 채널쌍에서 2개의 채널 신호 간의 상관도가 낮다는 것을 나타내므로 인코딩을 위해 2개의 채널 신호를 페어링할 필요가 없기 때문이다. 인코딩 효율성을 개선하기 위해, 페어링 임계치보다 크거나 같은 모든 상관 관계 값을 선택할 필요가 없다. 따라서, M의 상한 N이 설정되는데, 즉, 최대 N개의 상관값이 선택된다.
N은 2 이상인 정수일 수 있고, N의 최대값은 제1 오디오 프레임의 모든 채널 신호에 대응하는 모든 채널쌍의 수량을 초과할 수 없다. N의 값이 클수록 계산량이 증가함을 나타낸다. N 값이 작을수록 채널쌍 세트가 손실될 수 있으며 인코딩 효율이 감소함을 나타낸다.
선택적으로, N은 채널쌍의 최대 개수에 1을 더한 값, 즉
Figure pct00005
로 설정될 수 있으며, 여기서 CH는 제1 오디오 프레임에 포함된 채널 신호의 수량을 나타낸다. 예를 들어, 5.1 채널이 5개의 채널 신호를 포함하는 경우(LFE 채널은 고려하지 않음), N = 3이고, 7.1 채널이 7개의 채널 신호를 포함하는 경우(LFE 채널은 고려하지 않음), N = 4이다.
상관값 세트가 페어링 임계치 이상의 상관값을 포함하지 않는 경우, 후속 단계를 수행할 필요가 없으며, 제1 오디오 프레임의 각 채널 신호에 대해 모노 채널 인코딩을 수행한다. 상관값 세트에서 M개의 상관값을 선택하면 다음과 같은 단계가 수행될 수 있다.
단계(304): M개의 채널쌍 세트를 획득한다.
각각의 채널쌍 세트는 M개의 상관값에 대응하는 M개의 채널쌍 중 적어도 하나를 포함하고, 채널쌍 세트가 적어도 2개의 채널쌍을 포함하는 경우, 적어도 2개의 채널쌍은 동일한 채널 신호를 포함하지 않는다. 예를 들어, 5.1 채널의 경우, 상관값 세트에 기초하여 가장 큰 상관값에 대응하는 3개의 채널쌍((L, R), (R, C), (LS, RS))이 선택된다. (LS, RS)의 상관값은 페어링 임계치보다 작아서 제외된다. 이 경우, 2개의 채널쌍((L, R) 및 (R, C))에 대해 2개의 채널쌍 세트가 얻어질 수 있다. 2개의 채널쌍 세트 중 하나는 (L, R)을 포함하고 다른 하나는 (R, C)를 포함한다.
M개의 상관값에 대응하는 M개의 채널쌍 중 어느 하나(예를 들어, 제1 채널쌍)를 예로 들어 설명한다. 본 실시예에서 M개의 채널쌍 세트를 획득하는 방법은: 제1 채널쌍 세트에 제1 채널쌍을 추가하는 단계- M개의 채널쌍 세트는 제1 채널쌍 세트를 포함함 -와, 복수의 채널쌍 중 연관된 채널쌍이 아닌 다른 채널쌍이 페어링 임계치보다 큰 상관값을 갖는 채널쌍을 포함하는 경우, 다른 채널쌍 중에서 상관값이 가장 큰 채널쌍을 선택하는 단계와, 채널 쌍을 제1 채널쌍 세트에 추가하는 단계- 연관된 채널쌍은 제1 채널쌍 세트에 추가된 채널쌍에 포함된 채널 신호들 중 어느 하나를 포함함 -를 포함할 수 있다.
제1 채널쌍 세트에 제1 채널쌍을 추가하는 단계를 제외하고는, 전술한 모든 프로세스는 반복적인 처리 단계이다. 구체적으로 말하면,
a. 복수의 채널쌍 중 연관된 채널쌍 이외의 채널쌍이 페어링 임계치보다 큰 상관값을 갖는 채널쌍을 포함하는지 여부를 판단하는 단계, 및
b. 페어링 임계치보다 큰 상관값을 갖는 채널쌍이 포함되어 있으면, 다른 채널쌍 중에서 상관값이 가장 큰 채널쌍을 선택하고, 이 채널쌍을 제1 채널쌍 세트에 추가하는 단계.
이 경우, 다른 채널쌍이 페어링 임계치보다 큰 상관값을 갖는 채널쌍을 포함하는 한, 단계(b)는 반복적으로 수행될 수 있다.
선택적으로, 계산량을 줄이기 위해, 페어링 임계치보다 작은 상관값을 상관값 세트에서 삭제할 수 있다. 이를 통해 채널쌍의 수량을 줄일 수 있고, 반복 횟수를 더 줄일 수 있다.
단계(305): M 채널쌍 세트로부터 대상 채널쌍 세트를 결정한다.
대상 채널쌍 세트에서 모든 채널쌍의 상관값의 합은 M개의 채널쌍 세트 중에서 가장 크다. M개의 채널쌍 세트를 구한 후, 각 채널쌍 세트에 포함된 모든 채널쌍의 상관값의 합을 계산하고, 최종적으로 상관값의 합이 가장 큰 채널쌍 세트를 대상 채널쌍 세트로 결정한다.
단계(306): 대상 채널쌍 세트에 기초하여 제1 오디오 프레임을 인코딩한다.
대상 채널쌍 세트를 기반으로 제1 오디오 프레임을 인코딩하는 과정에 대해서는 도 4에 도시된 다음 실시예를 참조한다. 자세한 내용은 여기서 다시 설명하지 않는다.
선택적으로, 이 실시예에서, 제1 오디오 프레임을 인코딩하기 전에, 특히 제1 오디오 프레임에서 적어도 5개의 채널 신호에 대해 스테레오 처리가 수행되기 전에, 제1 오디오 프레임의 적어도 5개의 채널 신호에 대해 에너지 밸런싱 처리가 개별적으로 수행되어 적어도 5개의 등화된 채널 신호를 얻는다. 그런 다음, 적어도 5개의 등화된 채널 신호에 대해 스테레오 처리가 수행된다. 이 경우, 인코딩 대상은 등화된 채널 신호와 관련된다.
에너지 밸런싱 모드는 제1 에너지 밸런싱 모드 및/또는 제2 에너지 밸런싱 모드를 포함할 수 있다. 제1 에너지 밸런싱 모드에서는, 채널쌍에 대응하는 2개의 등화된 채널 신호를 얻기 위해 하나의 채널쌍에서 2개의 채널 신호만이 사용된다. 제2 에너지 밸런싱 모드에서, 하나의 채널쌍의 2개의 채널 신호와 다른 채널쌍의 적어도 하나의 채널 신호가 사용되어, 채널쌍에 대응하는 2개의 등화된 채널 신호를 얻는다.
에너지 밸런싱 모드가 제1 에너지 밸런싱 모드인 경우, 대상 채널쌍 세트의 현재 채널쌍에 대해, 현재 채널쌍에 포함된 2개의 채널 신호의 에너지 또는 진폭 값의 평균값을 계산할 수 있으며, 에너지 밸런싱 처리는 2개의 대응하는 등화된 채널 신호를 얻기 위해 평균값에 기초하여 2개의 채널 신호에 대해 개별적으로 수행된다. 이와 같이, 적어도 5개의 채널 신호의 변동 간격 값이 크면, 관련된 2개의 채널 신호 사이에서만 에너지 밸런싱을 수행하여, 스테레오 처리 동안의 비트 할당이 채널 신호의 에너지 특성에 더 잘 부합하도록 할 수 있다. 이와 같이, 비트율이 낮은 인코딩 환경에서, 에너지가 높은 채널쌍의 인코딩 노이즈가 불충분한 비트로 인해 에너지가 낮은 채널쌍의 인코딩 노이즈보다 훨씬 클 수 있고, 또한 에너지가 낮은 채널쌍의 비트는 중복될 수 있다는 문제를 피하게 된다.
에너지 밸런싱 모드가 제2 에너지 밸런싱 모드인 경우, 적어도 5개의 채널 신호의 에너지 또는 진폭 값의 평균값을 산출할 수 있고, 에너지 밸런싱 처리가 평균값에 기초하여 적어도 5개의 채널 신호에 대해 별도로 수행되어, 적어도 5개의 등화된 채널 신호를 얻는다.
본 실시예에서, 복수의 채널쌍 세트의 상관값의 합을 가능한 한 많이 구한 다음, 상관값의 합이 가장 큰 채널쌍 세트를 대상 채널쌍 세트로 결정한다. 이와 같이, 대상 채널쌍 세트에 포함된 모든 채널쌍의 상관값의 합이 가장 크고, 채널쌍의 수량을 최대한 늘리고, 채널 신호 간의 중복성을 줄이며, 오디오 인코딩 효율을 높인다.
다음은 2개의 특정 실시예를 사용하여 도 3에 도시된 방법 실시예에서 대상 채널쌍 세트를 획득하는 프로세스를 설명한다.
도 4는 본 출원에 따른 다중 채널 오디오 신호 인코딩 방법이 적용된 인코딩 장치 구조의 예시도이다. 인코딩 장치는 오디오 코딩 시스템(10)의 소스 장치(12)의 인코더(20)일 수도 있고, 오디오 코딩 장치(200)의 코딩 모듈(270)일 수도 있다. 인코딩 장치는 채널쌍 세트 생성 모듈, 다중 채널 처리 모듈, 채널 인코딩 모듈 및 비트스트림 다중화 인터페이스를 포함할 수 있다.
채널쌍 세트 생성 모듈의 입력은 다중 채널 오디오의 n개의 채널 신호(CH1 내지 CHn)이며, 여기서 n은 5 이상의 정수이다. n개의 채널 신호 모두에 대해 스테레오 처리가 수행될 수 있다. 채널쌍 세트 생성 모듈은 n개의 채널 신호 중 임의의 2개의 채널 신호 사이의 상관값을 계산하여, 도 3에 도시된 실시예의 방법을 사용하여 상관값을 기반으로 대상 채널쌍 세트, 예를 들면 (CH1, CH2), (CH3, CH4), ..., (CHi-1, CHi)를 획득한다.
다중 채널 처리 모듈은 복수의 스테레오 처리 유닛을 포함한다. 스테레오 처리 유닛은 예측 기반 또는 Karhunen-Loeve 변환(Karhunen-Loeve Transform, KLT) 기반 처리를 사용할 수 있다. 구체적으로, (예를 들어, 2 x 2 회전 행렬을 사용하여) 2개의 입력 채널 신호를 회전하여 에너지 압축을 최대화함으로써, 신호 에너지가 한 채널에 집중되도록 한다.
채널쌍 세트 생성 모듈에 의해 출력되는 대상 채널쌍 세트 내의 각각의 채널쌍은 스테레오 처리 유닛에 입력된다. 예를 들어, (CH1, CH2)가 스테레오 처리 유닛(1)에 입력되고, (CH3, CH4)는 스테레오 처리 유닛(2)에 입력되고, ..., (CHi-1, Chi)는 스테레오 처리 유닛(m)에 입력된다. 스테레오 처리 유닛은 입력된 2개의 채널 신호를 처리한 후 2개의 채널 신호에 대응하는 처리된 채널 신호(P)와 다중 채널 파라미터(SIDE_PAIR)를 출력하며, 다중 채널 파라미터는 채널쌍 인덱스, 에너지 균등화 보조 정보 및 스테레오 처리 보조 정보를 포함한다. 예를 들어, 스테레오 처리 유닛(1)은 P1, P2 및 SIDE_PAIR1을 얻기 위해 CH1 및 CH2를 처리하고, 스테레오 처리 유닛(2)은 P3, P4 및 SIDE_PAIR2를 얻기 위해 CH3 및 CH4를 처리하고,..., 스테레오 처리 유닛(m)은 CHi-1 및 CHi를 처리하여 Pi-1, Pi 및 SIDE_PAIRm을 얻는다.
채널 인코딩 모듈은 다중 채널 처리 모듈에 의해 출력되는 처리된 채널 신호를 인코딩하기 위해 모노 채널 인코딩 유닛(또는 모노 채널 채널 박스 또는 모노 채널 도구)을 사용하고, 대응하는 인코딩된 채널 신호(E)를 출력한다. 모노 채널 인코딩 유닛에 의해 채널 신호를 인코딩하는 과정에서, 에너지가 높은(또는 진폭이 큰) 채널 신호에는 더 많은 비트가 할당되고, 에너지가 낮은(또는 진폭이 작은) 채널 신호에는 더 적은 비트가 할당된다. 선택적으로, 채널 인코딩 모듈은 다중 채널 처리 모듈에 의해 출력된 처리된 채널 신호를 인코딩하기 위해 스테레오 인코딩 유닛, 예를 들어 파라메트릭 스테레오 인코더 또는 손실 스테레오 인코더를 사용할 수 있다. 예를 들어, P1, P2, P3, P4, ..., Pi1 및 Pi를 모노 채널 인코딩 유닛으로 인코딩하여 E1, E2, E3, E4, ..., Ei1, 및 Ei를 얻는다.
채널쌍 세트 생성 모듈에서 페어링되지 않은 채널 신호(예를 들어, CHj)는 멀티 채널 처리 모듈에서 스테레오 처리 장치에 의해 처리될 필요가 없으며, 채널 인코딩 모듈의 모노 채널 인코딩 유닛에 직접 입력하여 Ej를 얻는다.
비트스트림 다중화 인터페이스는 인코딩된 다중 채널 신호를 생성하며, 여기서 인코딩된 다중 채널 신호는 채널 인코딩 모듈에 의해 출력된 인코딩된 채널 신호 및 다중 채널 처리 모듈에 의해 출력된 다중 채널 파라미터를 포함한다. 예를 들어, 인코딩된 다중 채널 신호는 E1, E2, E3, E4, ..., Ei1 및 Ei와, SIDE_PAIR1, SIDE_PAIR2, ... 및 SIDE_PAIRm를 포함한다. 선택적으로, 비트스트림 다중화 인터페이스는 인코딩된 다중 채널 신호를 직렬 신호 또는 직렬 비트스트림으로 처리할 수 있다.
전술한 바와 같이, 본 출원에서 제공되는 대상 채널쌍 세트를 획득하는 처리 절차는 도 4에 도시된 인코딩 장치 내의 채널쌍 세트 생성 모듈에 의해 구현될 수 있다.
실시예 1
5.1 채널이 예로서 사용된다. 5.1 채널은 센터(C) 채널, 좌측(left, L) 채널, 우측(right, R) 채널, 좌측 서라운드(left surround, LS) 채널, 우측 서라운드(right Surround, RS) 채널, 및 0.1 채널 저주파 효과(low frequency effects, LFE) 채널을 포함한다. 이러한 채널에 대해, 채널쌍 세트 생성 모듈은 다중 채널 마스크를 사용하여 다중 채널 처리가 필요하지 않은 채널을 제거함으로써, 인코딩 효율성을 향상시킬 수 있다. LFE 채널은 5.1 채널에서 제거될 수 있다. 따라서, 채널쌍 세트 생성 모듈에 입력되는 채널 신호는 C 채널 신호, L 채널 신호, R 채널 신호, LS 채널 신호 및 RS 채널 신호를 포함한다. 대상 채널쌍 세트를 획득하는 방법은 다음 단계를 포함할 수 있다.
(1) 5개의 채널 신호 중 임의의 2개 사이의 상관값을 계산한다.
본 출원에서, 2개의 채널 신호(예를 들어, 채널 신호(ch1)와 채널 신호(ch2)) 사이의 상관값은 다음 공식에 따라 계산될 수 있다.
Figure pct00006
corr_norm(ch1, ch2)은 채널 신호(ch1)와 채널 신호(ch2) 사이의 정규화된 상관값을 나타내고, spec_ch1(i)는 채널 신호(ch1)의 i번째 주파수의 주파수 영역 계수를 나타내고, spec_ch2(i)는 채널 신호(ch2)의 i번째 주파수의 주파수 영역 계수이며, N은 오디오 프레임의 주파수의 총량을 나타낸다.
이 실시예에서, 5.1 채널에서 페어링되는 5개의 채널 신호가 있다. 따라서, 획득된 상관값 세트은 최대
Figure pct00007
개의 채널쌍의 상관값을 포함할 수 있다. 표 1은 5.1 채널의 상관값 세트의 예를 보여준다.
[표 1]
Figure pct00008
페어링 임계치는 0.3으로 설정되며, 상관값이 0.3보다 큰 2개의 채널 신호만이 페어링될 수 있다. 따라서, 상기 표 1에서 페어링 임계치 미만의 상관값을 삭제하여 표 1a를 얻을 수 있다. 이와 같이, 상관도가 낮은 채널 신호는 반복 처리 과정에서 고려되지 않을 수 있으며, 계산량을 줄일 수 있다.
[표 1a]
Figure pct00009
N은 채널쌍의 최대 수량에 1을 더한 값으로 설정되는데, 즉,
Figure pct00010
이다. 표 1a에서 N=3개의 최대 상관값, 예를 들어 0.57(R, C), 0.47(L, C) 및 0.42(LS, RS)를 내림차순으로 선택하고, 3개의 상관값 모두는 페어링 임계치 0.3보다 크다.
(2) 첫 번째 반복 처리 절차
(R, C)는 제1 채널쌍 세트에 추가된 제1 채널쌍이고, R 및/또는 C를 포함하는 채널쌍의 상관값을 표 1a에서 삭제하여 표 1b를 얻는다.
[표 1b]
Figure pct00011
표 1b에서 가장 큰 상관값은 0.42(LS, RS)이다. 따라서, LS와 RS는 제2 채널쌍을 형성하고, 제2 채널쌍은 제1 채널쌍 세트에 추가된다. 이 경우, 5개의 채널 신호 중 하나의 채널 신호(L)만이 남아 페어링을 계속할 수 없다. 따라서, 최종적인 제1 채널쌍 세트는 2개의 채널쌍((R, C) 및 (LS, RS))를 포함한다.
제1 채널쌍 세트의 상관값의 합이 계산되는데, 즉 S(1) = 0.57 + 0.42 = 0.99이다.
(3) 두 번째 반복 처리 절차
(L, C)는 제2 채널쌍에 추가된 제1 채널쌍이고, L 및/또는 C를 포함하는 채널쌍의 상관값을 표 1a에서 삭제하여 표 1c를 얻는다.
[표 1c]
Figure pct00012
표 1c에서 가장 큰 상관값은 0.42(LS, RS)입니다. 따라서 LS와 RS는 두 번째 채널쌍을 형성하고, 두 번째 채널쌍은 두 번째 채널쌍 세트에 추가된다. 이 경우 5개의 채널 신호 중 하나의 채널 신호 R만 남아 페어링을 계속할 수 없습니다. 따라서 최종 2차 채널쌍 세트은 2개의 채널쌍 (L, C) 및 (LS, RS)를 포함한다.
제1 채널쌍 세트의 상관값의 합, 즉 S(2) = 0.47 + 0.42 = 0.89가 계산된다.
(4) 세 번째 반복 처리 절차
(LS, RS)는 제3 채널쌍 세트에 추가된 제1 채널쌍이고, LS 및/또는 RS를 포함하는 채널쌍의 상관값을 표 1a에서 삭제하여 표 1d를 얻는다.
[표 1d]
Figure pct00013
표 1d에서 가장 큰 상관값은 0.57(R, C)이다. 따라서, R과 C는 제2 채널쌍을 형성하고, 제2 채널쌍은 제3 채널쌍 세트에 추가된다. 이 경우, 5개의 채널 신호 중 하나의 채널 신호(L)만이 남아 페어링을 계속할 수 없다. 따라서, 마지막 제3 채널쌍 세트은 2개의 채널쌍((LS, RS) 및 (R, C))를 포함한다.
제1 채널쌍 세트의 상관값의 합이 계산되는데, 즉 S(3) = 0.42 + 0.57 = 0.99이다.
(5) 대상 채널쌍 세트를 획득한다.
S(1) 및 S(3)은 S(1), S(2), S(3) 중에서 가장 크고, S(1) 및 S(3)에 대응하는 2개의 채널쌍 세트에 포함된 채널쌍은 동일하다. 따라서, S(1)(또는 S(3))에 대응하는 채널쌍 세트는 대상 채널쌍 세트로 사용되는데, 즉, 이 실시예에서, 5.1 채널에 의해 획득될 수 있는 채널쌍은 (L, C) 및 (LS, RS)를 포함한다. 대상 채널쌍 세트는 인덱스를 사용하여 나타낼 수 있다. 표 1의 모든 상관값에 대응하는 채널쌍에 대해 인덱스 값을 설정할 수 있다. 대상 채널쌍 세트가 결정된 후, 대상 채널쌍 세트의 채널쌍을 대응하는 인덱스 값을 사용하여 표현함으로써 비트스트림 내의 비트 수를 줄일 수 있다.
실시예 2
7.1 채널이 예로 사용된다. 7.1 채널은 C 채널, L 채널, R 채널, LS 채널, RS 채널, 좌측 후방(left back, LB) 채널, 우측 후방(right back, RB) 채널, LFE 채널을 포함한다. 이러한 채널에 대해, 채널쌍 세트 생성 모듈은 다중 채널 마스크를 사용하여 다중 채널 처리가 필요하지 않은 채널을 제거하여 인코딩 효율성을 향상시킬 수 있다. LFE 채널은 7.1 채널에서 제거될 수 있다. 따라서, 채널쌍 세트 생성 모듈에 입력되는 채널 신호는 C 채널 신호, L 채널 신호, R 채널 신호, LS 채널 신호, RS 채널 신호, LB 채널 신호 및 RB 채널 신호를 포함한다. 대상 채널쌍 세트를 획득하는 방법은 다음 단계를 포함할 수 있다.
(1) 7개 채널 신호 중 임의의 2개 사이의 상관값을 계산한다.
이 실시예에서, 실시예 1의 공식은 또한 2개의 채널 신호 사이의 상관값을 계산하기 위해 사용될 수 있다.
이 실시예에서, 7.1 채널에서 페어링되는 7개의 채널 신호가 있다. 따라서, 획득된 상관값 세트는 최대
Figure pct00014
개의 채널쌍의 상관값을 포함할 수 있다. 표 2는 7.1 채널의 상관값 세트의 예를 보여준다.
[표 2]
Figure pct00015
페어링 임계치는 0.3으로 설정되는데, 상관값이 0.3보다 큰 2개의 채널 신호만이 페어링될 수 있다. 따라서, 표 2a는 표 2에서 페어링 임계치 미만의 상관값을 삭제하여 얻을 수 있다. 이와 같이, 상관도가 낮은 채널 신호는 반복 처리 과정에서 고려되지 않을 수 있으며, 계산량을 줄일 수 있다.
[표 2a]
Figure pct00016
N은 채널쌍의 최대 수량에 1을 더한 값으로 설정되는데, 즉,
Figure pct00017
이다. N = 4개의 최대 상관값, 예를 들어 0.67(LS, LB), 0.64(RS, LB), 0.57(R, C) 및 0.47(L, C)이 내림차순으로 선택되고, 4개의 상관값 모두는 페어링 임계치 0.3보다 크다.
(2) 첫 번째 반복 처리 절차
(LS, LB)는 제1 채널쌍 세트에 추가된 제1 채널쌍이며, LS 및/또는 LB를 포함하는 채널쌍의 상관값을 표 2a에서 삭제하여 표 2b를 얻는다.
[표 2b]
Figure pct00018
표 2b에서 가장 큰 상관값은 0.57(R, C)이다. 따라서, R과 C는 제2 채널쌍을 형성하고, 제2 채널쌍은 제1 채널쌍 세트에 추가된다. R 및/또는 C를 포함하는 채널쌍의 상관값을 표 2b에서 삭제하여 표 2c를 얻는다.
[표 2c]
Figure pct00019
표 2c에는 이용 가능한 상관값이 없다. 따라서, 최종적인 제1 채널쌍 세트는 2개의 채널쌍((LS, LB) 및 (R, C))을 포함한다.
제1 채널쌍 세트의 상관값의 합이 계산되는데, 즉 S(1) = 0.67 + 0.57 = 1.24이다.
(3) 두 번째 반복 처리 절차
(RS, LB)는 제2 채널쌍 세트에 추가된 제1 채널쌍이며 RS 및/또는 LB를 포함하는 채널쌍의 상관값을 표 2a에서 삭제하여 표 2d를 얻는다.
[표 2d]
Figure pct00020
표 2d에서 가장 큰 상관값은 0.57(R, C)이다. 따라서, R과 C는 제2 채널쌍을 형성하고 제2 채널쌍은 제2 채널쌍 세트에 추가된다. R 및/또는 C를 포함하는 채널쌍의 상관값을 표 2d에서 삭제하여 표 2e를 얻는다.
[표 2e]
Figure pct00021
표 2e에서 가장 큰 상관값은 0.39(L, LS)이다. 따라서, L과 LS는 제3 채널쌍을 형성하고, 제3 채널쌍은 제2 채널쌍 세트에 추가된다. L 및/또는 LS를 포함하는 채널쌍의 상관값을 표 2e에서 삭제하여 표 2f를 얻는다.
[표 2f]
Figure pct00022
표 2f에는 이용 가능한 상관값이 없다. 따라서, 최종적인 제1 채널쌍 세트는 3개의 채널쌍((RS, LB), (R, C), (L, LS))를 포함한다.
제2 채널쌍 세트의 상관값의 합이 계산되는데, 즉 S(2) = 0.64 + 0.57 + 0.39 = 1.6이다.
(4) 세 번째 반복 처리 절차
(R, C)는 제3 채널쌍 세트에 추가된 제1 채널쌍이고, R 및/또는 C를 포함하는 채널쌍의 상관값을 표 2a에서 삭제하여 표 2g를 얻는다.
[표 2g]
Figure pct00023
표 2g에서 가장 큰 상관값은 0.67(LS, LB)이다. 따라서, LS와 LB는 제2 채널쌍을 형성하고, 제2 채널쌍은 제3 채널쌍 세트에 추가된다. LS 및/또는 LB를 포함하는 채널쌍의 상관값을 표 2g에서 삭제하여 표 2h를 얻는다.
[표 2h]
Figure pct00024
표 2h에는 이용 가능한 상관값이 없다. 따라서, 최종적인 제1 채널쌍 세트는 2개의 채널쌍((R, C) 및 (LS, LB))을 포함한다.
제2 채널쌍 세트의 상관값의 합이 계산되는데, 즉 S(3) = 0.57 + 0.67 = 1.24이다.
(5) 네 번째 반복 처리 절차
(L, C)는 제4 채널쌍 세트에 추가된 제1 채널쌍이고, L 및/또는 C를 포함하는 채널쌍의 상관값을 표 2a에서 삭제하여 표 2i를 얻는다.
[표 2i]
Figure pct00025
표 2i에서 가장 큰 상관값은 0.67(LS, LB)이다. 따라서, LS와 LB는 제2 채널쌍을 형성하고, 제2 채널쌍은 제4 채널쌍 세트에 추가된다. LS 및/또는 LB를 포함하는 채널쌍의 상관값을 표 2i에서 삭제하여 표 2j를 얻는다.
[표 2j]
Figure pct00026
표 2j에는 사용 가능한 상관값이 없다. 따라서, 최종적인 제1 채널쌍 세트는 2개의 채널쌍((L, C) 및 (LS, LB))를 포함한다.
제2 채널쌍 세트의 상관값의 합이 계산되는데, 즉 S(4) = 0.47 + 0.67 = 1.14이다.
(6) 대상 채널쌍 세트를 획득한다.
S(2)는 S(1), S(2), S(3) 및 S(4)에서 가장 크다. 따라서, S(2)에 대응하는 채널쌍 세트를 대상 채널쌍 세트로 사용하는데, 즉, 본 실시예에서 7.1 채널에 의해 얻어질 수 있는 채널쌍은 (RS, LB), (R, C) 및 (L, LS)를 포함한다.
실시예 1과 비교하여, 실시예 2는 하나 이상의 반복 처리 프로세스를 가지며, 대상 채널쌍 세트는 하나 이상의 채널쌍을 포함한다. 이는 페어링 시 채널 신호의 수량과 관련이 있다.
도 5는 본 출원에 따른 다중 채널 오디오 신호 인코딩 방법의 예시적인 실시예의 흐름도이다. 프로세스(500)는 오디오 코딩 시스템(10) 또는 오디오 코딩 장치(200)의 소스 장치(12)에 의해 실행될 수 있다. 프로세스(500)는 일련의 단계 또는 동작을 포함한다. 프로세스(500)는 다양한 순서로 및/또는 동시에 수행될 수 있고 도 5에 도시된 실행 순서에 제한되지 않는다는 것을 이해해야 한다. 도 5에 도시된 바와 같이, 방법은 다음 단계를 포함한다.
단계(501): 인코딩될 제1 오디오 프레임을 획득한다.
단계(502): 상관값 세트를 획득한다.
이 실시예의 단계(501 및 502)에 대해서는, 단계(301 및 302)를 참조한다. 자세한 내용은 여기에서 다시 설명하지 않는다.
단계(503): 복수의 채널쌍에 기초하여 복수의 채널쌍 세트를 획득한다.
상관값 세트는 제1 오디오 프레임에서 적어도 5개 채널 신호의 복수의 채널쌍의 상관값을 포함하고, 복수의 채널쌍은 규칙적으로 결합되어(즉, 동일한 채널쌍 세트 내의 복수의 채널쌍은 동일한 채널 신호를 포함할 수 없음) 적어도 5개의 채널 신호에 대응하는 복수의 채널쌍 세트를 획득한다.
가능한 구현에서, 채널 신호의 수량이 홀수인 경우, 모든 채널쌍 세트의 수량은 다음 공식에 따라 계산될 수 있다.
Figure pct00027
가능한 구현에서, 채널 신호의 수량이 짝수인 경우, 모든 채널쌍 세트의 수량은 다음 공식에 따라 계산될 수 있다.
Figure pct00028
Pair_num은 모든 채널쌍 세트의 수량을 나타내고, CH는 제1 오디오 프레임에서 다중 채널 처리의 채널 신호의 수량을 나타내며 다중 채널 마스크 필터링을 통해 얻은 결과이다.
선택적으로, 계산량을 줄이기 위해, 상관값 세트를 구한 후, 복수의 채널쌍 중 무상관 채널쌍을 제외한 채널쌍을 기준으로 복수의 채널쌍 세트를 구할 수 있는데, 여기서 무상관 채널쌍의 상관값은 페어링 임계치보다 작다. 이와 같이, 채널쌍 세트를 구하면, 계산에서의 채널쌍의 수량을 줄일 수 있고, 채널쌍 세트의 수량을 줄일 수 있으며, 이후 단계에서 상관값의 합의 계산량도 줄일 수 있다.
선택적으로, 계산량을 줄이기 위해, 상관값 세트를 획득한 후, 채널 신호와 다른 채널 신호 간의 상관값이 모두 페어링 임계치 미만인 채널 신호를 삭제할 수 있다. 즉, 채널 신호는 페어링에 고려되지 않는다. 채널쌍 세트를 구하면, 계산에서의 채널쌍의 수량을 줄일 수 있고, 채널쌍 세트의 수량을 줄일 수 있으며, 이후 단계에서 상관값의 합의 계산량도 줄일 수 있다.
단계(504): 상관값 세트에 기초하여, 복수의 채널쌍 세트 각각에 포함된 모든 채널쌍의 상관값의 합을 획득한다.
각각의 채널쌍 세트에 대해, 채널쌍 세트에 포함된 모든 채널쌍의 상관값의 합이 계산된다.
단계(505): 대상 채널쌍 세트를 결정한다.
단계(506): 대상 채널쌍 세트에 기초하여 제1 오디오 프레임을 인코딩한다.
이 실시예의 단계(505 및 506)에 대해서는, 단계(305 및 306)를 참조한다. 자세한 내용은 여기에서 다시 설명하지 않는다.
본 실시예에서는, 복수의 채널쌍 세트의 상관값의 합을 최대한 구한 후, 상관값의 합이 가장 큰 채널쌍 세트를 대상 채널쌍 세트로 결정한다. 이와 같이, 대상 채널쌍 세트에 포함된 모든 채널쌍의 상관값의 합이 가장 크고, 채널쌍의 수량을 최대한 늘리고, 채널 신호 간의 중복성을 줄이며, 오디오 인코딩 효율을 향상시킨다.
다음은 특정 실시예를 사용하여, 도 5에 도시된 방법 실시예에서 대상 채널쌍 세트를 획득하는 프로세스를 설명한다. 이 프로세스는 여전히 도 4에 도시된 인코딩 장치의 채널쌍 세트 생성 모듈에 의해 구현된다.
실시예 3
5.1 채널이 예로 사용된다. 5.1 채널은 C 채널, L 채널, R 채널, LS 채널, RS 채널 및 LFE 채널을 포함한다. 이러한 채널에 대해, 채널쌍 세트 생성 모듈은 다중 채널 마스크를 사용하여 다중 채널 처리가 필요하지 않은 채널을 제거하여 인코딩 효율성을 향상시킬 수 있다. LFE 채널은 5.1 채널에서 제거될 수 있다. 따라서, 채널쌍 세트 생성 모듈에 입력되는 채널 신호는 C 채널 신호, L 채널 신호, R 채널 신호, LS 채널 신호 및 RS 채널 신호를 포함한다. 대상 채널쌍 세트를 획득하는 방법은 다음 단계를 포함할 수 있다.
(1) 5개 채널 신호 중 임의의 2개 사이의 상관값을 계산한다.
이 실시예에서, 실시예 1의 공식은 또한 2개의 채널 신호 사이의 상관값을 계산하기 위해 사용될 수 있다.
이 실시예에서, 5.1 채널에서 페어링되는 5개의 채널 신호가 있다. 따라서 획득한 상관값 세트는 최대
Figure pct00029
개의 채널쌍의 상관값을 포함할 수 있으며, 이는 표 1에 도시되어 있다.
(2) 5개의 채널 신호에 대응하는 모든 채널쌍 세트의 상관값의 합을 계산한다.
표 1에 나와 있는 바와 같이, 5개의 채널 신호에 대해 10개의 상관값을 얻을 수 있다. 이에 상응하여, 10개의 채널쌍이 획득될 수 있고, 그 후 {(L, R), (LS, RS)}, {(L, R),(C, RS)}, {(L, R), (LS, C)}, ....와 같은 10개의 채널쌍에 대해 최대
Figure pct00030
개의 채널쌍 세트가 획득될 수 있다.
채널쌍 세트 S(i)에 대해, S(i)에 포함된 모든 채널쌍의 상관값의 합이 계산되는데, 여기서 1 ≤ i ≤ 15이고, 예를 들어 S(1) = corr(L, R) + corr(LS, RS), S(2) = corr(L, R) + corr(C, RS), S(3) = corr(L, R) + corr(LS, C) 등이다.
선택적으로, 상관값의 합을 계산할 때, 채널쌍의 상관값이 페어링 임계치보다 작으면, 채널쌍의 상관값을 0으로 설정할 수 있다.
선택적으로, 계산량을 줄이기 위해, 채널쌍 세트가 획득되기 전에, 상관값이 페어링 임계치보다 작은 채널쌍이 제외될 수 있다. 이와 같이, 채널쌍 세트를 구할 때, 채널쌍의 수량을 줄일 수 있고, 채널쌍 세트의 수량을 줄일 수 있다.
도 6은 본 출원에 따른 다중 채널 오디오 신호 인코딩 방법의 예시적인 실시예의 흐름도이다. 프로세스(600)는 오디오 코딩 시스템(10) 또는 오디오 코딩 장치(200)의 소스 장치(12)에 의해 실행될 수 있다. 프로세스(600)는 일련의 단계 또는 동작을 포함한다. 프로세스(600)는 다양한 순서로 및/또는 동시에 수행될 수 있고 도 6에 도시된 실행 순서에 제한되지 않는다는 것을 이해해야 한다. 도 6에 도시된 바와 같이, 방법은 다음 단계를 포함한다.
단계(601): 인코딩될 제1 오디오 프레임을 획득한다.
단계(601)에 대해서는 단계(301)를 참조한다. 자세한 내용은 여기에서 다시 설명하지 않는다.
단계(602): 제1 오디오 프레임의 상관값 세트를 획득한다.
제1 오디오 프레임의 상관값 세트는 복수의 채널쌍의 제각기의 상관값을 포함하고, 하나의 채널쌍은 적어도 5개 이상의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 사이의 상관값을 나타낸다.
단계(603): 제2 오디오 프레임의 상관값 세트를 획득한다.
제2 오디오 프레임의 상관값 세트는 제2 오디오 프레임의 복수의 채널쌍의 제각기의 상관값을 포함하고, 하나의 채널쌍은 제2 오디오 프레임의 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 간의 상관도를 나타내며, 제2 오디오 프레임은 제1 오디오 프레임의 이전 프레임이다.
이 실시예와 단계(302) 사이의 차이점은, 이 실시예에서는, 제1 오디오 프레임의 상관값 세트를 획득하는 것 외에도, 제1 오디오 프레임의 이전 프레임(즉, 제2 오디오 프레임)의 상관값 세트를 추가로 획득할 필요가 있다는 것이다.
제1 오디오 프레임의 상관값 세트를 획득하는 방법에 대해서는 단계(302)를 참조한다. 자세한 내용은 여기에서 다시 설명하지 않는다.
제2 오디오 프레임의 인코딩은 제1 오디오 프레임의 인코딩 전에 수행되기 때문에, 제1 오디오 프레임이 처리될 때, 인코딩 장치는 제2 오디오 프레임을 인코딩하기 위한 관련 정보를 획득하였으며, 관련 정보는 제2 오디오 프레임의 상관값 세트를 포함한다. 따라서, 이 실시예에서는, 제2 오디오 프레임의 상관값 세트를 캐시 또는 메모리로부터 직접 읽어들일 수 있으며, 제2 오디오 프레임의 상관값 세트를 다시 계산을 통해 구할 필요가 없다.
단계(604): 제1 오디오 프레임의 상관값 세트 및 제2 오디오 프레임의 상관값 세트에 기초하여, 제1 오디오 프레임의 대상 채널쌍 세트가 다시 획득될 필요가 있는지 결정한다.
이 실시예에서, 제1 오디오 프레임의 상관값 세트와 제2 오디오 프레임의 상관값 세트 사이의 차이의 합이 결정 기준으로서 계산될 수 있다. 즉, 제1 오디오 프레임의 상관값 세트과 제2 오디오 프레임의 상관값 세트에서 동일한 채널쌍에 대응하는 상관값의 차의 절대값이 계산되고, 복수의 채널쌍에 대응하는 절대값의 합이 계산된다. 절대값의 합이 변경 임계치보다 작으면, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 없다고 결정되고, 또는 절대값의 합이 변경 임계치 이상일 때, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 있다고 결정된다.
동일한 채널쌍에 대응하는 상관값 간의 차이를 계산한 다음, 모든 채널쌍 간의 차이의 절대값의 합을 계산한다. 이러한 방식으로, 제2 오디오 프레임에 대한 제1 오디오 프레임의 채널 신호 간의 상관값의 변경이 변경 임계치를 초과하는지 여부를 획득할 수 있다. 변경이 변경 임계치를 초과하지 않으면, 제2 오디오 프레임에서 제1 오디오 프레임으로의 변경이 작음을 나타내며 제1 오디오 프레임에 대해 대상 채널쌍 세트를 재설정할 필요가 없으므로, 계산량이 줄어들고 인코딩 효율성이 향상된다. 변경이 변경 임계치를 초과하면, 이는 제2 오디오 프레임에서 제1 오디오 프레임으로의 변경이 크고 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득해야 함을 나타낸다.
단계(605): 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 있는 경우, 도 3 또는 도 5에 도시된 실시예의 방법을 사용하여 제1 오디오 프레임의 대상 채널쌍 세트를 획득하고, 대상 채널쌍 세트에 기초하여 제1 오디오 프레임을 인코딩한다.
이 실시예에서, 제1 오디오 프레임의 대상 채널쌍 세트가 다시 획득될 필요가 있다고 결정될 때, 도 3 또는 도 5에 도시된 실시예의 방법이 사용되어 제1 오디오 프레임의 상관값 세트를 얻을 수 있다. 자세한 내용은 여기서 다시 설명하지 않는다.
단계(606): 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 없는 경우, 제2 오디오 프레임의 대상 채널쌍 세트를 제1 오디오 프레임의 대상 채널쌍 세트로 결정하고, 대상 채널쌍 세트를 기반으로 제1 오디오 프레임을 인코딩한다.
이 실시예에서, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 없다고 판단되면, 제2 오디오 프레임의 대상 채널쌍 세트를 제1 오디오 프레임의 대상 채널쌍 세트로 직접 사용할 수 있다. 이를 통해, 계산량이 줄어들고 인코딩 효율이 향상된다.
이 실시예에서, 현재 오디오 프레임의 대상 채널쌍 세트가 다시 획득될 필요가 있는지 여부를 결정하기 위해 현재 오디오 프레임의 상관값 세트와 이전 오디오 프레임의 상관값 세트 사이의 차이의 합이 획득되는데, 이는 오디오 변화가 적을 때 계산량을 크게 줄이고 인코딩 효율을 높일 수 있다. 오디오 변화가 크고 대상 채널쌍 세트를 다시 구해야 하는 경우에도, 여전히 복수의 채널쌍 세트의 상관값의 합을 최대한 많이 구하여, 상관값의 합이 가장 큰 채널쌍 세트를 대상 채널쌍 세트로 결정한다. 이와 같이, 대상 채널쌍 세트에 포함된 모든 채널쌍의 상관값의 합이 가장 크고, 채널쌍의 수량을 최대한 늘리고, 채널 신호 간의 중복성을 줄이며, 오디오 인코딩 효율을 향상시킨다.
다음은 특정 실시예를 사용하여 도 6에 도시된 방법 실시예에서 대상 채널쌍 세트를 획득하는 프로세스를 설명한다. 이 프로세스는 여전히 도 4에 도시된 인코딩 장치의 채널쌍 세트 생성 모듈에 의해 구현된다.
실시예 4
5.1 채널이 예로 사용된다. 5.1 채널은 C 채널, L 채널, R 채널, LS 채널, RS 채널 및 LFE 채널을 포함한다. 이러한 채널에 대해, 채널쌍 세트 생성 모듈은 다중 채널 마스크를 사용하여 다중 채널 처리가 필요하지 않은 채널을 제거하여 인코딩 효율성을 향상시킬 수 있다. LFE 채널은 5.1 채널에서 제거될 수 있다. 따라서, 채널쌍 세트 생성 모듈에 입력되는 채널 신호는 C 채널 신호, L 채널 신호, R 채널 신호, LS 채널 신호 및 RS 채널 신호를 포함한다. 대상 채널쌍 세트를 획득하는 방법은 다음 단계를 포함할 수 있다.
(1) 5개 채널 신호 중 임의의 2개 사이의 상관값을 계산한다.
이 실시예에서, 실시예 1의 공식이 또한 사용되어 2개의 채널 신호 사이의 상관값을 계산할 수 있다.
이 실시예에서, 5.1 채널에서 페어링되는 5개의 채널 신호가 있다. 따라서 획득한 상관값 세트는 최대
Figure pct00031
개의 채널쌍의 상관값을 포함할 수 있으며, 이는 표 1과 같다.
(2) 제1 오디오 프레임의 상관값 세트과 제2 오디오 프레임의 상관값 세트 간의 차이의 합을 계산한다.
본 실시예에서, 제1 오디오 프레임의 상관값 세트과 제2 오디오 프레임의 상관값 세트 모두는 각각 매트릭스(Matrix1 및 Matrix2)를 얻기 위해 매트릭스 형태로 표현된다. 매트릭스의 각 요소의 값은 상관값 세트의 상관값에 대응한다. 차이의 합은 다음 공식에 따라 계산할 수 있다.
Figure pct00032
D는 제1 오디오 프레임의 상관값 세트와 제2 오디오 프레임의 상관값 세트 간의 차이의 합을 나타내고, Matrix1(i)는 제1 오디오 프레임의 상관값 세트에 대응하는 매트릭스의 i번째 요소 값을 나타내고, Matrix2(i)는 제2 오디오 프레임의 상관값 세트에 대응 매트릭스의 i번째 요소 값을 나타낸다.
(3) 상관값의 합(D)에 기초하여, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득해야 하는지 여부를 결정한다.
이 실시예에서, 하나의 변경 임계치가 설정되고, 제1 오디오 프레임의 대상 채널쌍 세트가 다시 획득될 필요가 있는지 여부가 임계치에 기초하여 결정된다. 선택적으로, 이 실시예에서 플래그(keepFlag)가 더 설정될 수 있다. keepFlag = 1이면, 이는 제1 오디오 프레임이 이전 프레임의 대상 채널쌍 세트를 예약할 수 있음을 나타내는데, 즉, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 없음을 나타낸다. keepFlag = 0이면, 이는 제1 오디오 프레임이 이전 프레임의 대상 채널쌍 세트를 예약할 수 없음을 나타내는데, 즉, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 있음을 나타낸다.
전술한 설정에 기초하여, D < 변경 임계치일 때, keepFlag = 1이고, D ≥ 변경 임계치인 경우, keepFlag = 0이다.
(4) 제1 오디오 프레임의 대상 채널쌍 세트를 획득한다.
keepFlag 플래그의 값에 기초하여, 인코딩 장치는 제1 오디오 프레임의 대상 채널쌍 세트를 획득할 수 있다. 구체적으로, keepFlag = 1인 경우, 인코딩 장치는 제2 오디오 프레임의 대상 채널쌍 세트를 제1 오디오 프레임의 대상 채널쌍 세트로 직접 사용한다. keepFlag = 0인 경우, 인코딩 장치는 도 3 또는 도 5에 도시된 실시예의 방법을 이용하여 제1 오디오 프레임의 대상 채널쌍 세트를 획득할 수 있다. 자세한 내용은 여기서 다시 설명하지 않는다.
도 7은 본 출원에 따른 다중 채널 오디오 신호 인코딩 방법의 예시적인 실시예의 흐름도이다. 프로세스(700)는 오디오 코딩 시스템(10) 또는 오디오 코딩 장치(200)의 소스 장치(12)에 의해 실행될 수 있다. 프로세스(700)는 일련의 단계 또는 동작을 포함한다. 프로세스(700)는 다양한 순서로 및/또는 동시에 수행될 수 있고 도 7에 도시된 실행 순서에 제한되지 않음을 이해해야 한다. 도 7에 도시된 바와 같이, 방법은 다음 단계를 포함한다.
단계(701): 인코딩될 제1 오디오 프레임을 획득하며, 제1 오디오 프레임은 K개의 채널 신호를 포함한다.
단계(701)에 대해서는 단계(301)를 참조한다. 자세한 내용은 여기에서 다시 설명하지 않는다.
단계(702): K가 채널 신호량 임계치보다 큰 경우, 도 3의 실시예에 따른 방법을 사용하여 제1 오디오 프레임을 인코딩한다.
단계(703): K가 채널 신호량 임계치 이하인 경우, 도 5의 실시예에 따른 방법을 사용하여 제1 오디오 프레임을 인코딩한다.
이 실시예와 도 3 또는 도 5의 실시예 사이의 차이점은, 이 실시예에서는, 도 3 및 도 5의 방법이 함께 사용된다는 것인데, 즉 제1 오디오 프레임에 포함된 채널 신호의 수량에 기초하여 제1 오디오 프레임의 대상 채널쌍 세트를 획득하는 방법이 결정된다. 제1 오디오 프레임이 많은 양의 채널 신호를 포함할 때, 제2 양태의 방법을 사용하면, 모든 대상 채널쌍 세트를 모두 나열해야 하므로 계산량이 증가한다. 따라서, 이 경우, 제1 양태의 방법을 사용하면 계산량이 많이 감소된다. 제1 오디오 프레임이 소량의 채널 신호를 포함하는 경우, 제2 양태에 따른 방법을 사용하여 모든 채널쌍 세트의 상관값의 합을 얻어, 최종적으로 선택된 대상 채널쌍 세트가 확실히 제1 오디오 프레임의 특징에 가장 잘 충족하는 최적의 결과임을 보장할 수 있다.
도 8은 본 출원에 따른 다중 채널 오디오 신호 디코딩 방법이 적용된 디코딩 장치 구조의 예시도이다. 디코딩 장치는 오디오 코딩 시스템(10)에서 목적지 장치(14)의 디코더(30)일 수도 있고, 오디오 코딩 장치(200)에서는 코딩 모듈(270)일 수 있다. 디코딩 장치는 비트스트림 역다중화 인터페이스, 채널 디코딩 모듈, 및 다중 채널 처리 모듈을 포함할 수 있다.
비트스트림 역다중화 인터페이스는 인코딩 장치로부터 인코딩된 다중 채널 신호(예를 들어, 직렬 비트스트림 비트스트림)를 수신하고, 역다중화 후 인코딩된 채널 신호(E) 및 다중 채널 파라미터(SIDE_PAIR)를 획득하는데, 예를 들어, E1, E2, E3, E4, ..., Ei1 및 Ei, 그리고 SIDE_PAIR1, SIDE_PAIR2, ... 및 SIDE_PAIRm을 획득한다.
채널 디코딩 모듈은 모노 채널 디코딩 유닛(또는 모노 채널 채널 박스 또는 모노 채널 도구)을 사용하여 비트스트림 역다중화 인터페이스에 의해 출력된 인코딩된 채널 신호를 디코딩하고 디코딩된 채널 신호(D)를 출력한다. 예를 들어, E1, E2, E3, E4, ..., Ei1, 및 Ei는 모노 채널 디코딩 유닛에 의해 디코딩되어 D1, D2, D3, D4, ..., Di1, 및 Di를 얻는다.
다중 채널 처리 모듈은 복수의 스테레오 처리 유닛을 포함한다. 스테레오 처리 유닛은 예측 기반 또는 KLT 기반 처리를 사용할 수 있는데, 즉, 입력되는 2개의 채널 신호를 (예를 들어, 2×2 회전 매트릭스 사용하여) 역회전시킴으로써 신호를 원래의 신호 방향으로 변환한다.
채널 디코딩 모듈에 의해 출력된 디코딩된 채널 신호 중 어느 2개의 디코딩된 채널 신호가 페어링되는지는 다중 채널 파라미터에 기초하여 식별될 수 있고, 페어링된 디코딩된 채널 신호는 스테레오 처리 유닛에 입력된다. 입력된 2개의 디코딩된 채널 신호를 처리한 후, 스테레오 처리 유닛은 디코딩된 2개의 채널 신호에 대응하는 채널 신호(CH)를 출력한다. 예를 들어, 스테레오 처리 유닛(1)은 SIDE_PAIR1을 기반으로 D1, D2를 처리하여 CH1, CH2를 얻고, 스테레오 처리 유닛(2)은 SIDE_PAIR2를 기반으로 D3, D4를 처리하여 CH3, CH4, ...,를 얻으며, 스테레오 처리 유닛(m)은 SIDE_PAIRm을 기반으로 Di-1 및 Di를 처리하여 CHi-1 및 CHi를 얻는다.
페어링되지 않은 채널 신호(예를 들어, CHj)는 다중 채널 처리 모듈에서 스테레오 처리 장치에 의해 처리될 필요가 없으며, 디코딩된 후 바로 출력될 수 있음에 유의해야 한다.
도 9는 본 출원의 실시예에 따른 인코딩 장치의 구조의 개략도이다. 도 9에 도시된 바와 같이, 장치는 전술한 실시예에서 소스 장치(12) 또는 오디오 코딩 디바이스(200)에서 사용될 수 있다. 본 실시예의 인코딩 장치는 획득 모듈(901), 인코딩 모듈(902) 및 결정 모듈(903)을 포함할 수 있다.
가능한 구현에서, 획득 모듈(901)은 적어도 5개의 채널 신호를 포함하는 인코딩될 제1 오디오 프레임을 획득하고, 상관값 세트를 획득하고- 여기서 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 사이의 상관도를 나타냄 -, 상관값 세트에서 M개의 상관값을 선택하고- 여기서 모든 M개의 상관값은 상관값 세트의 M개의 상관값 이외의 상관값보다 크고, 모든 M개의 상관값은 페어링 임계치 이상이며, M은 지정된 값 이하인 양의 정수임 -, M개의 채널쌍 세트를 획득하도록 구성되되, 각 채널쌍 세트는 M개의 상관값에 대응하는 M개의 채널쌍 중 적어도 하나를 포함하고, 채널쌍 세트가 적어도 2개의 채널쌍을 포함할 때, 적어도 2개의 채널쌍은 동일한 채널 신호를 포함하지 않는다. 결정 모듈(903)은 M개의 채널쌍 세트로부터 대상 채널쌍 세트를 결정하도록 구성되며, 대상 채널쌍 세트의 모든 채널쌍의 상관값의 합은 M개의 채널쌍 세트의 것들 중에서 가장 크다. 인코딩 모듈(902)은 대상 채널쌍 세트에 기초하여 제1 오디오 프레임을 인코딩하도록 구성된다.
가능한 구현에서, M개의 채널쌍 세트는 제1 채널쌍 세트를 포함한다. 획득 모듈(901)은 구체적으로 M개의 채널쌍 중 제1 채널쌍을 제1 채널쌍 세트에 추가하고- 여기서 제1 채널쌍은 M 채널쌍 중 임의의 하나임 -, 복수의 채널쌍 중 연관된 채널쌍 이외의 채널쌍이 페어링 임계치보다 큰 상관값을 갖는 채널쌍을 포함하는 경우, 다른 채널쌍 중에서 상관값이 가장 큰 채널쌍을 선택하여 이 채널쌍을 제1 채널쌍 세트에 추가하도록 구성되되, 연관된 채널쌍은 제1 채널쌍 세트에 추가된 채널쌍에 포함된 채널 신호들 중 임의의 하나를 포함한다.
가능한 구현에서, 획득 모듈(901)은 구체적으로, 상관값 세트로부터 N개의 상관값을 선택하고- 모든 N개의 상관값은 상관값 세트에서 N개의 상관값 이외의 상관값보다 크고, N은 지정된 값임 -, N개의 상관값에서 페어링 임계치 이상인 상관값을 선택하도록 구성되고, 페어링 임계치 이상인 상관값의 수량은 M이다.
가능한 구현에서, 상관값은 정규화된 값이다.
가능한 구현에서, 채널쌍의 상관값이 페어링 임계치보다 작은 경우, 채널쌍의 상관값은 0으로 설정된다.
가능한 구현에서, 획득 모듈(901)은 적어도 5개의 채널 신호를 포함하는 인코딩될 제1 오디오 프레임을 획득하고, 상관값 세트를 획득하고- 여기서 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 사이의 상관도를 나타냄 -, 복수의 채널쌍에 기초하여 복수의 채널쌍 세트를 획득하고- 채널쌍 세트가 적어도 2개의 채널쌍을 포함할 때 적어도 2개의 채널쌍은 동일한 채널 신호를 포함하지 않음 -, 상관값 세트에 기초하여 복수의 채널쌍 세트 각각에 포함된 모든 채널쌍의 상관값의 합을 구하도록 구성된다. 결정 모듈(903)은 대상 채널쌍 세트를 결정하도록 구성되며, 여기서 대상 채널쌍 세트 내의 모든 채널쌍의 상관값의 합은 복수의 채널쌍 세트의 것 중에서 가장 크다. 인코딩 모듈(902)은 대상 채널쌍 세트에 기초하여 제1 오디오 프레임을 인코딩하도록 구성된다.
가능한 구현에서, 획득 모듈(901)은 구체적으로 복수의 채널쌍에서 비상관 채널쌍이 아닌 채널쌍에 기초하여 복수의 채널쌍 세트를 획득하도록 구성되며, 여기서 비상관 채널쌍의 상관값은 페어링 임계치 미만이다.
가능한 구현에서, 획득 모듈(901)은 적어도 5개의 채널 신호를 포함하는 인코딩될 제1 오디오 프레임을 취득하고, 제1 오디오 프레임의 상관값 세트를 획득하고- 여기서 제1 오디오 프레임의 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 간의 상관도를 나타냄 -, 제2 오디오 프레임의 상관값 세트를 획득하도록 구성되되, 여기서 제2 오디오 프레임의 상관값 세트는 제2 오디오 프레임의 복수의 채널쌍의 상관값을 포함하고, 하나의 채널쌍은 제2 오디오 프레임의 적어도 5개의 채널 신호의 2개의 채널 신호를 포함하고, 채널쌍의 상관값은 채널쌍의 2개의 채널 신호 간의 상관도를 나타내며, 제2 오디오 프레임은 제1 오디오 프레임의 이전 프레임이다. 인코딩 모듈(902)은 제1 오디오 프레임의 상관값 세트 및 제2 오디오 프레임의 상관값 세트에 기초하여, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득해야 하는지 여부를 결정하고, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득해야 하는 경우, 도 3 및 도 5의 실시예에 따른 방법을 사용하여 제1 오디오 프레임의 대상 채널쌍 세트를 획득하여, 대상 채널쌍 세트에 기초하여 제1 오디오 프레임을 인코딩하고, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 없으면, 제2 오디오 프레임의 대상 채널쌍 세트를 제1 오디오 프레임의 대상 채널쌍 세트로 결정하여, 대상 채널쌍 세트를 기반으로 제1 오디오 프레임을 인코딩하도록 구성된다.
가능한 구현에서, 인코딩 모듈(902)은 구체적으로, 제1 오디오 프레임의 상관값 세트 및 제2 오디오 프레임의 상관값 세트에서 동일한 채널쌍에 대응하는 상관값들 간의 차이의 절대값을 계산하고, 복수의 채널쌍에 대응하는 절대값의 합을 계산하며, 절대값의 합이 변경 임계치 미만인 경우, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 없다고 결정하거나, 또는 절대값의 합이 변경 임계치 이상인 경우, 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득해야 한다고 결정하도록 구성된다.
가능한 구현에서, 획득 모듈은 인코딩될 제1 오디오 프레임을 획득하도록 구성되며, 여기서 제1 오디오 프레임은 K개의 채널 신호를 포함하고 K는 5 이상의 정수이다. 인코딩 모듈은 K가 채널 신호량 임계치보다 큰 경우, 도 3의 실시예에 따른 방법을 사용하여 제1 오디오 프레임을 인코딩하고, K가 채널 신호량 임계치 이하일 경우, 도 5의 실시예에 따른 방법을 사용하여 제1 오디오 프레임을 인코딩하도록 구성된다.
이 실시예의 장치는 도 3, 도 5, 도 6 또는 도 7에 도시된 방법 실시예의 기술 솔루션을 실행하도록 구성될 수 있다. 구현 원리 및 기술적 효과는 유사하며 자세한 내용은 여기에서 다시 설명하지 않는다.
도 10은 본 출원의 실시예에 따른 장치의 구조의 개략도이다. 도 10에 도시된 바와 같이, 장치는 전술한 실시예에서의 인코딩 장치일 수 있다. 이 실시예의 장치는 프로세서(1001) 및 메모리(1002)를 포함할 수 있다. 메모리(1002)는 하나 이상의 프로그램을 저장하도록 구성된다. 하나 이상의 프로그램이 프로세서(1001)에 의해 실행될 때, 프로세서(1001)는 도 3, 도 5, 도 6 또는 도 7에 도시된 방법 실시예의 기술 솔루션을 구현할 수 있다.
구현 프로세스에서, 전술한 방법 실시예의 단계는 프로세서의 하드웨어 집적 로직 회로를 사용하거나 소프트웨어 형태의 명령어를 사용하여 구현될 수 있다. 프로세서는 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 주문형 집적 회로(application-specific integrated circuit, ASIC), 필드 프로그래머블 게이트 어레이(field programmable gate array, FPGA) 또는 다른 프로그래밍 가능한 로직 장치, 이산 게이트 또는 트랜지스터 로직 장치 또는 이산 하드웨어 컴포넌트일 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 프로세서는 임의의 종래의 프로세서 등일 수 있다. 본 출원에 개시된 방법의 단계는 하드웨어 인코딩 프로세서에 의해 직접 수행될 수 있거나, 인코딩 프로세서에서 하드웨어 및 소프트웨어 모듈의 조합에 의해 수행될 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리, 플래시 메모리, 읽기 전용 메모리, 프로그래밍 가능한 읽기 전용 메모리, 전기적으로 소거 가능한 프로그래밍 가능한 메모리 또는 레지스터와 같은 당업계의 성숙한 저장 매체에 위치할 수 있다. 저장 매체는 메모리에 위치하며 프로세서는 메모리의 정보를 읽고 프로세서의 하드웨어와 결합하여 전술한 방법의 단계를 완료한다.
전술한 실시예의 메모리는 휘발성 메모리 또는 비휘발성 메모리일 수 있거나, 휘발성 메모리 및 비휘발성 메모리 모두를 포함할 수 있다. 비휘발성 메모리는 읽기 전용 메모리(read-only memory, ROM), 프로그램 가능한 읽기 전용 메모리(programmable ROM, PROM), 소거 가능한 프로그램 가능한 읽기 전용 메모리(erasable PROM, EPROM), 전기적으로 소거 가능한 프로그래밍 가능한 읽기 전용 메모리(전기적으로 EPROM, EEPROM) 또는 플래시 메모리일 수 있다. 휘발성 메모리는 랜덤 액세스 메모리(Random Access Memory, RAM)일 수 있으며, 외부 캐시로 사용된다. 한정적인 설명이 아닌 예시로서, 다양한 형태의 램, 예를 들어 정적 랜덤 액세스 메모리(static RAM, SRAM), 동적 랜덤 액세스 메모리(dynamic RAM, DRAM), 동기식 동적 랜덤 액세스 메모리(synchronous DRAM, SDRAM), 더블 데이터 레이트 동기식 동적 랜덤 액세스 메모리(double data rate SDRAM, DDR SDRAM), 향상된 동기식 동적 랜덤 액세스 메모리(enhanced SDRAM, ESDRAM), 동기링크 동적 랜덤 액세스 메모리(synchlink DRAM, SLDRAM) 및 다이렉트 램버스 랜덤 액세스 메모리(direct rambus RAM, DR RAM)가 사용될 수 있다. 본 명세서에 기술된 시스템 및 방법의 메모리는 이들 및 다른 적절한 유형의 임의의 메모리를 포함하지만 이에 제한되지 않는다는 점에 유의해야 한다.
당업자는 본 명세서에 개시된 실시예에 기술된 예와 조합하여, 유닛 및 알고리즘 단계가 전자 하드웨어에 의해 또는 컴퓨터 소프트웨어와 전자 하드웨어의 조합에 의해 구현될 수 있음을 알 수 있다. 기능이 하드웨어로 수행되는지 소프트웨어로 수행되는지 여부는 기술 솔루션의 특정 애플리케이션 및 설계 제약 조건에 따라 다르다. 당업자는 각각의 특정 애플리케이션에 대해 기술된 기능을 구현하기 위해 상이한 방법을 사용할 수 있지만, 이러한 구현은 본 츨원의 범위를 벗어나는 것으로 간주되어서는 안 된다.
편리하고 간략한 설명을 위해, 전술한 시스템, 장치 및 유닛의 상세한 작업 프로세스에 대해서는 전술한 방법 실시예에서 대응하는 프로세스를 참조한다는 것이 당업자에 의해 명확하게 이해될 수 있다. 자세한 내용은 여기서 다시 설명하지 않는다.
본 출원에 제공된 여러 실시예에서, 개시된 시스템, 장치 및 방법은 다른 방식으로도 구현될 수 있음을 이해해야 한다. 예를 들어, 전술한 장치 실시예는 단지 예일 뿐이다. 예를 들어, 유닛들으로의 분할은 논리적인 기능 구분일 뿐 실제구현 시 또 다른 분할이 될 수 있다. 예를 들어, 복수의 유닛 또는 컴포넌트가 다른 시스템으로 결합 또는 통합될 수 있거나, 일부 기능이 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 일부 인터페이스를 통해 구현될 수 있다. 장치 또는 유닛 간의 간접 결합 또는 통신 연결은 전자적, 기계적 또는 기타 형태로 구현될 수 있다.
별도의 부분(part)으로 설명된 유닛은 물리적으로 분리될 수도 있고 그렇지 않을 수도 있으며, 유닛으로 표시되는 부분은 물리적 유닛일 수도 아닐 수도 있고, 한 위치에 위치할 수도 있고, 복수의 네트워크 유닛에 분산되어 있을 수도 있다. 일부 또는 모든 유닛은 실시예의 해결책의 목적을 달성하기 위한 실제 필요에 따라 선택될 수 있다.
또한, 본 출원의 실시예에서 기능 유닛은 하나의 처리 유닛으로 통합될 수 있고, 각각의 유닛은 물리적으로 단독으로 존재할 수 있거나, 둘 이상의 유닛이 하나의 유닛으로 통합될 수 있다.
기능이 소프트웨어 기능 유닛의 형태로 구현되어 독립된 제품으로 판매 또는 사용되는 경우, 해당 기능은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이러한 이해를 바탕으로, 본 출원의 본질적인 기술 솔루션 또는 기존 기술에 기여하는 부분 또는 기술 솔루션의 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되며 컴퓨터 장치(개인용 컴퓨터, 서버, 네트워크 장치 등)에 본 출원의 실시예에서의 방법의 단계의 전부 또는 일부를 수행하도록 명령하기 위한 몇 가지 명령어를 포함한다. 전술한 저장 매체는 USB 플래시 드라이브, 이동식 하드 디스크, 읽기 전용 메모리(read-only memory, ROM), 랜덤 액세스 메모리(random access memory, RAM), 자기 디스크 또는 광 디스크와 같이 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
전술한 설명은 본 출원의 특정 구현일 뿐이며, 본 출원의 보호 범위를 제한하려는 의도는 없다. 본 출원에 개시된 기술적 범위 내에서 당업자에 의해 쉽게 파악된 변형예 또는 교체예는 본 출원의 보호 범위에 속한다. 따라서, 본 출원의 보호범위는 청구범위의 보호범위에 따른다.

Claims (27)

  1. 다중 채널 오디오 신호 인코딩 방법으로서,
    인코딩될 제1 오디오 프레임을 획득하는 단계- 상기 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 -와,
    상관값 세트를 획득하는 단계- 상기 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 상기 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 상기 채널쌍의 상관값은 상기 채널쌍의 상기 2개의 채널 신호 사이의 상관도를 나타냄 -와,
    상기 상관값 세트에서 M개의 상관값을 선택하는 단계- 상기 M개의 상관값 모두는 상기 상관값 세트 내에서 상기 M개의 상관값 이외의 상관값보다 크고, 상기 M개의 상관값 모두는 페어링 임계치 이상이고, M은 지정된 값 이하인 양의 정수임 -와,
    M개의 채널쌍 세트를 획득하는 단계- 각 채널쌍 세트는 상기 M개의 상관값에 대응하는 하나 이상의 채널쌍을 포함하고, 상기 채널쌍 세트가 적어도 2개의 채널쌍을 포함할 때, 상기 적어도 2개의 채널쌍은 동일한 채널 신호를 포함하지 않음 -와,
    상기 M개의 채널쌍 세트 중에서 대상 채널쌍 세트를 결정하는 단계- 상기 대상 채널쌍 세트의 모든 채널쌍의 상관값의 합은 상기 M개의 채널쌍 세트의 것들 중에서 가장 큰 것임 -와,
    상기 대상 채널쌍 세트에 기초하여 상기 제1 오디오 프레임을 인코딩하는 단계를 포함하는
    다중 채널 오디오 신호 인코딩 방법.
  2. 제1항에 있어서,
    상기 M개의 채널쌍 세트는 제1 채널쌍 세트를 포함하고, 상기 M개의 채널쌍 세트를 획득하는 단계는 상기 제1 채널쌍 세트를 획득하는 단계를 포함하며,
    상기 제1 채널쌍 세트를 획득하는 단계는
    상기 M개의 채널쌍 중 제1 채널쌍을 상기 제1 채널쌍 세트에 추가하는 단계- 상기 제1 채널쌍은 상기 M개의 채널쌍 중 임의의 채널쌍임 -와,
    상기 복수의 채널쌍 중 연관된 채널쌍이 아닌 다른 채널쌍이 상기 페어링 임계치보다 큰 상관값을 갖는 채널쌍을 포함하는 경우, 상기 다른 채널쌍 중에서 상관값이 가장 큰 채널쌍을 선택하여, 상기 채널쌍을 상기 제1 채널쌍 세트에 추가하는 단계- 상기 연관된 채널쌍은 상기 제1 채널쌍 세트에 추가된 상기 채널쌍에 포함된 채널 신호들 중 임의의 하나를 포함함 -를 포함하는,
    다중 채널 오디오 신호 인코딩 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 상관값 세트로부터 상기 M개의 상관값을 선택하는 단계는
    상기 상관값 세트로부터 N개의 상관값을 선택하는 단계- 상기 N개의 상관값 모두는 상기 상관값 세트에서 상기 N개의 상관값 이외의 상관값보다 크고, N은 상기 지정된 값임 -와,
    상기 N개의 상관값에서 상기 페어링 임계치 이상의 상관값을 선택하는 단계- 상기 페어링 임계치 이상의 상관값의 수량은 M개임 -를 포함하는,
    다중 채널 오디오 신호 인코딩 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 상관값은 정규화된 값인,
    다중 채널 오디오 신호 인코딩 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 채널쌍의 상관값이 상기 페어링 임계치보다 작을 때, 상기 채널쌍의 상관값은 0으로 설정되는,
    다중 채널 오디오 신호 인코딩 방법.
  6. 다중 채널 오디오 신호 인코딩 방법으로서,
    인코딩될 제1 오디오 프레임을 획득하는 단계- 상기 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 -와,
    상관값 세트를 획득하는 단계- 상기 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 상기 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 상기 채널쌍의 상관값은 상기 채널쌍의 상기 2개의 채널 신호 사이의 상관도를 나타냄 -와,
    상기 복수의 채널쌍에 기초하여 복수의 채널쌍 세트를 획득하는 단계- 상기 채널쌍 세트가 적어도 2개의 채널쌍을 포함하는 경우, 상기 적어도 2개의 채널쌍은 동일한 채널 신호를 포함하지 않음 -와,
    상기 상관값 세트에 기초하여, 상기 복수의 채널쌍 세트 각각에 포함된 모든 채널쌍의 상관값의 합을 구하는 단계와,
    대상 채널쌍 세트를 결정하는 단계- 상기 대상 채널쌍 세트 내의 모든 채널쌍의 상관값의 합은 상기 복수의 채널쌍 세트의 것들 중 가장 큰 것임 -와,
    상기 대상 채널쌍 세트에 기초하여 상기 제1 오디오 프레임을 인코딩하는 단계를 포함하는
    다중 채널 오디오 신호 인코딩 방법.
  7. 제6항에 있어서,
    상기 복수의 채널쌍에 기초하여 복수의 채널쌍 세트를 획득하는 단계는,
    상기 복수의 채널쌍에서 비상관 채널쌍(uncorrelated channel pair)이 아닌 채널쌍에 기초하여 상기 복수의 채널쌍 세트를 획득하는 단계를 포함하며, 상기 비상관 채널쌍의 상관값은 페어링 임계치보다 작은,
    다중 채널 오디오 신호 인코딩 방법.
  8. 제6항 또는 제5항에 있어서,
    상기 상관값은 정규화된 값인,
    다중 채널 오디오 신호 인코딩 방법.
  9. 제6항 내지 제8항 중 어느 한 항에 있어서,
    상기 채널쌍의 상관값이 상기 페어링 임계치보다 작을 때, 상기 채널쌍의 상관값은 0으로 설정되는,
    다중 채널 오디오 신호 인코딩 방법.
  10. 다중 채널 오디오 신호 인코딩 방법으로서,
    인코딩될 제1 오디오 프레임을 획득하는 단계- 상기 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 -와,
    상기 제1 오디오 프레임의 상관값 세트를 획득하는 단계- 상기 제1 오디오 프레임의 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 상기 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 상기 채널쌍의 상관값은 상기 채널쌍의 상기 2개의 채널 신호 사이의 상관도를 나타냄 -와,
    제2 오디오 프레임의 상관값 세트를 획득하는 단계- 상기 제2 오디오 프레임의 상관값 세트는 상기 제2 오디오 프레임의 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 상기 제2 오디오 프레임의 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 상기 채널쌍의 상관값은 상기 채널쌍의 상기 2개의 채널 신호 사이의 상관도를 나타내며, 상기 제2 오디오 프레임은 상기 제1 오디오 프레임의 이전 프레임임 -와,
    상기 제1 오디오 프레임의 상관값 세트와 상기 제2 오디오 프레임의 상관값 세트에 기초하여, 상기 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득해야 하는지 여부를 결정하는 단계와,
    상기 제1 오디오 프레임의 상기 대상 채널쌍 세트를 다시 획득해야 하는 경우, 제1항 내지 제9항 중 어느 한 항의 방법을 사용하여 상기 제1 오디오 프레임의 상기 대상 채널쌍 세트를 획득하고, 상기 대상 채널쌍 세트에 기초하여 상기 제1 오디오 프레임을 인코딩하는 단계와,
    상기 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득할 필요가 없으면, 상기 제2 오디오 프레임의 대상 채널쌍 세트를 상기 제1 오디오 프레임의 상기 대상 채널쌍 세트로 결정하고, 상기 대상 채널쌍 세트를 기반으로 상기 제1 오디오 프레임을 인코딩하는 단계를 포함하는
    다중 채널 오디오 신호 인코딩 방법.
  11. 제10항에 있어서,
    상기 제1 오디오 프레임의 상관값 세트 및 상기 제2 오디오 프레임의 상관값 세트에 기초하여, 상기 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득해야 하는지 여부를 결정하는 단계는,
    상기 제1 오디오 프레임의 상관값 세트 및 상기 제2 오디오 프레임의 상관값 세트에서 동일한 채널쌍에 대응하는 상관값 간의 차이의 절대값을 계산하는 단계와,
    상기 복수의 채널쌍에 대응하는 상기 절대값의 합을 계산하는 단계와,
    상기 절대값의 합이 변경 임계치 미만인 경우, 상기 제1 오디오 프레임의 상기 대상 채널쌍 세트를 다시 획득할 필요는 없다고 결정하는 단계, 또는
    상기 절대값의 합이 상기 변경 임계치 이상일 경우, 상기 제1 오디오 프레임의 상기 대상 채널쌍 세트를 다시 획득할 필요가 있다고 결정하는 단계를 포함하는,
    다중 채널 오디오 신호 인코딩 방법.
  12. 다중 채널 오디오 신호 인코딩 방법으로서,
    인코딩될 제1 오디오 프레임을 획득하는 단계- 상기 제1 오디오 프레임은 K개의 채널 신호를 포함하고, 상기 K는 5 이상인 정수임 -와,
    K가 채널 신호량 임계치보다 큰 경우, 제1항 내지 제5항 중 어느 한 항의 방법을 사용하여 상기 제1 오디오 프레임을 인코딩하는 단계와,
    K가 상기 채널 신호량 임계치 이하인 경우, 제6항 내지 제9항 어느 한 항의 방법을 사용하여 상기 제1 오디오 프레임을 인코딩하는 단계를 포함하는
    다중 채널 오디오 신호 인코딩 방법.
  13. 인코딩 장치로서,
    인코딩될 제1 오디오 프레임을 획득하고- 상기 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 -, 상관값 세트를 획득하며- 상기 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 상기 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 상기 채널쌍의 상관값은 상기 채널쌍의 상기 2개의 채널 신호 사이의 상관도를 나타냄 -, 상기 상관값 세트에서 M개의 상관값을 선택하고- 상기 M개의 상관값 모두는 상기 상관값 세트에서 상기 M개의 상관값 이외의 상관값보다 크고 상기 M개의 상관값 모두는 페어링 임계치 이상이며, M은 지정된 값 이하의 양의 정수임 -, M개의 채널쌍 세트를 획득- 각 채널쌍 세트는 상기 M개의 상관값에 대응하는 M개의 채널쌍 중 적어도 하나를 포함하고, 상기 채널쌍 세트가 적어도 2개의 채널쌍을 포함할 때, 상기 적어도 2개의 채널쌍은 동일한 채널 신호를 포함하지 않음 -하도록 구성된 획득 모듈과,
    상기 M개의 채널쌍 세트로부터 대상 채널쌍 세트를 결정하도록 구성된 결정 모듈- 상기 대상 채널쌍 세트 내의 모든 채널쌍의 상관값의 합은 상기 M개의 채널쌍 세트의 것들 중에서 가장 큼 -과,
    상기 대상 채널쌍 세트에 기초하여 상기 제1 오디오 프레임을 인코딩하도록 구성된 인코딩 모듈을 포함하는
    인코딩 장치.
  14. 제13항에 있어서,
    상기 M개의 채널쌍 세트는 제1 채널쌍 세트를 포함하고, 상기 획득 모듈은 구체적으로, 상기 M개의 채널쌍의 제1 채널쌍을 상기 제1 채널쌍 세트에 추가하고- 상기 제1 채널쌍은 상기 M개의 채널쌍 중 임의의 하나임 -, 상기 복수의 채널쌍 중 연관된 채널쌍과는 다른 채널쌍이 상기 페어링 임계치보다 큰 상관값을 갖는 채널쌍을 포함하는 경우, 상기 다른 채널쌍 중에서 상관값이 가장 큰 채널쌍을 선택하여 상기 채널 쌍을 상기 제1 채널쌍 세트에 추가하도록 구성되되, 상기 연관된 채널쌍은 상기 제1 채널쌍 세트에 추가된 상기 채널쌍에 포함된 채널 신호들 중 임의의 하나를 포함하는,
    인코딩 장치.
  15. 제13항 또는 제14항에 있어서,
    상기 획득 모듈은 구체적으로, 상기 상관값 세트로부터 N개의 상관값을 선택하고- 상기 N개의 상관값 모두는 상기 상관값 세트에서 상기 N개의 상관값 이외의 상관값보다 크고 N은 상기 지정된 값임 -, 상기 N개의 상관값으로부터 상기 페어링 임계치 이상인 상관값을 선택- 상기 페어링 임계치 이상인 상관값의 수량은 M임 -하도록 구성된,
    인코딩 장치.
  16. 제13항 내지 제15항 중 어느 한 항에 있어서,
    상기 상관값은 정규화된 값인,
    인코딩 장치.
  17. 제13항 내지 제16항 중 어느 한 항에 있어서,
    상기 채널쌍의 상관값이 상기 페어링 임계치보다 작을 때, 상기 채널쌍의 상관값은 0으로 설정되는,
    인코딩 장치.
  18. 인코딩 장치로서,
    인코딩될 제1 오디오 프레임을 획득하고- 상기 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 -, 상관값 세트를 획득하고- 상기 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 상기 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 상기 채널쌍의 상관값은 상기 채널쌍의 상기 2개의 채널 신호 사이의 상관도를 나타냄 -, 상기 복수의 채널쌍에 기초하여 복수의 채널쌍 세트를 획득하고- 상기 채널쌍 세트가 적어도 2개의 채널쌍을 포함할 때, 상기 적어도 2개의 채널쌍은 동일한 채널 신호를 포함하지 않음 -, 상기 상관값 세트에 기초하여, 상기 복수의 채널쌍 세트 각각에 포함된 모든 채널쌍의 상관값의 합을 획득하도록 구성된 획득 모듈과,
    대상 채널쌍 세트를 결정하도록 구성된 결정 모듈- 상기 대상 채널쌍 세트 내의 모든 채널쌍의 상관값의 합은 상기 복수의 채널쌍 세트의 것들 중에서 가장 큰 것임 -과,
    상기 대상 채널쌍 세트에 기초하여 상기 제1 오디오 프레임을 인코딩하도록 구성된 인코딩 모듈을 포함하는
    인코딩 장치.
  19. 제18항에 있어서,
    상기 획득 모듈은 구체적으로, 상기 복수의 채널쌍에서 비상관 채널쌍 이외의 채널쌍에 기초하여 상기 복수의 채널쌍 세트를 획득하도록 구성되되, 상기 비상관 채널쌍의 상관값은 페어링 임계치보다 작은,
    인코딩 장치.
  20. 제18항 또는 제19항에 있어서,
    상기 상관값은 정규화된 값인,
    인코딩 장치.
  21. 제18항 내지 제20항 중 어느 한 항에 있어서,
    상기 채널쌍의 상관값이 상기 페어링 임계치보다 작을 때, 상기 채널쌍의 상관값은 0으로 설정되는,
    인코딩 장치.
  22. 인코딩 장치로서,
    인코딩될 제1 오디오 프레임을 획득하고- 상기 제1 오디오 프레임은 적어도 5개의 채널 신호를 포함함 -, 상기 제1 오디오 프레임의 상관값 세트를 획득하고- 상기 제1 오디오 프레임의 상관값 세트는 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 상기 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 상기 채널쌍의 상관값은 상기 채널쌍의 상기 2개의 채널 신호 사이의 상관도를 나타냄 -, 제2 오디오 프레임의 상관값 세트를 획득- 상기 제2 오디오 프레임의 상관값 세트는 상기 제2 오디오 프레임의 복수의 채널쌍의 각각의 상관값을 포함하고, 하나의 채널쌍은 상기 제2 오디오 프레임의 적어도 5개의 채널 신호 중 2개의 채널 신호를 포함하고, 상기 채널쌍의 상관값은 상기 채널쌍의 상기 2개의 채널 신호 사이의 상관도를 나타내고, 상기 제2 오디오 프레임은 상기 제1 오디오 프레임의 이전 프레임임 -하도록 구성된 획득 모듈과,
    상기 제1 오디오 프레임의 상관값 세트 및 상기 제2 오디오 프레임의 상관값 세트에 기초하여, 상기 제1 오디오 프레임의 대상 채널쌍 세트를 다시 획득해야 하는지 여부를 결정하고, 상기 제1 오디오 프레임의 상기 대상 채널쌍 세트를 다시 획득해야 하는 경우, 제1항 내지 제9항 중 어느 한 항에 따른 방법을 사용하여 상기 제1 오디오 프레임의 상기 대상 채널쌍 세트를 획득하고, 상기 대상 채널쌍 세트를 기반으로 상기 제1 오디오 프레임을 인코딩하고, 상기 제1 오디오 프레임의 상기 대상 채널쌍 세트를 다시 획득할 필요가 없으면, 상기 제2 오디오 프레임의 대상 채널쌍 세트를 상기 제1 오디오 프레임의 상기 대상 채널쌍 세트로 결정하고, 상기 대상 채널쌍 세트를 기반으로 상기 제1 오디오 프레임을 인코딩하도록 구성된 인코딩 모듈을 포함하는
    인코딩 장치.
  23. 제22항에 있어서,
    상기 인코딩 모듈은 구체적으로, 상기 제1 오디오 프레임의 상관값 세트와 상기 제2 오디오 프레임의 상관값 세트에서 동일한 채널쌍에 대응하는 상관값 사이의 차이의 절대값을 계산하고, 상기 복수의 채널쌍에 대응하는 상기 절대값의 합을 계산하고, 상기 절대값의 합이 변경 임계치 미만인 경우, 상기 제1 오디오 프레임의 상기 대상 채널쌍 세트를 다시 획득할 필요가 없다고 결정하거나, 또는 상기 절대값의 합이 상기 변경 임계치 이상인 경우, 상기 제1 오디오 프레임의 상기 대상 채널쌍 세트를 다시 획득해야 한다고 결정하도록 구성된,
    인코딩 장치.
  24. 인코딩 장치로서,
    인코딩될 제1 오디오 프레임을 획득하도록 구성된 획득 모듈- 상기 제1 오디오 프레임은 K개의 채널 신호를 포함하고 K는 5 이상의 정수임 -과,
    인코딩 모듈을 포함하되,
    상기 인코딩 모듈은, K가 채널 신호량 임계치보다 큰 경우, 제1항 내지 제5항 중 어느 한 항의 방법을 이용하여 상기 제1 오디오 프레임을 인코딩하고, K가 채널 신호량 임계치 이하인 경우, 제6항 내지 제9항 중 어느 한 항의 방법을 이용하여 상기 제1 오디오 프레임을 인코딩하도록 구성된,
    인코딩 장치.
  25. 장치로서,
    하나 이상의 프로세서와,
    하나 이상의 프로그램을 저장하도록 구성된 메모리를 포함하되,
    상기 하나 이상의 프로그램이 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서는 제1항 내지 제11항 중 어느 한 항의 방법을 구현하는
    인코딩 장치.
  26. 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 저장 매체로서,
    상기 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 상기 컴퓨터는 제1항 내지 제11항 중 어느 한 항의 방법을 수행하는
    컴퓨터 판독가능 저장 매체.
  27. 제1항 내지 제11항 중 어느 한 항에 따른 다중 채널 오디오 신호 인코딩 방법을 사용함으로써 획득된 인코딩된 비트스트림을 포함하는 컴퓨터 판독가능 저장 매체.
KR1020237004819A 2020-07-17 2021-07-13 다중 채널 오디오 신호 인코딩 및 디코딩 방법 및 장치 KR20230036146A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010699706.7 2020-07-17
CN202010699706.7A CN113948095A (zh) 2020-07-17 2020-07-17 多声道音频信号的编解码方法和装置
PCT/CN2021/106101 WO2022012553A1 (zh) 2020-07-17 2021-07-13 多声道音频信号的编解码方法和装置

Publications (1)

Publication Number Publication Date
KR20230036146A true KR20230036146A (ko) 2023-03-14

Family

ID=79326898

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237004819A KR20230036146A (ko) 2020-07-17 2021-07-13 다중 채널 오디오 신호 인코딩 및 디코딩 방법 및 장치

Country Status (6)

Country Link
US (1) US20230154471A1 (ko)
EP (1) EP4174855A4 (ko)
JP (1) JP2023533366A (ko)
KR (1) KR20230036146A (ko)
CN (1) CN113948095A (ko)
WO (1) WO2022012553A1 (ko)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
CN101695150B (zh) * 2009-10-12 2011-11-30 清华大学 多声道音频编码方法、编码器、解码方法和解码器
EP2839460A4 (en) * 2012-04-18 2015-12-30 Nokia Technologies Oy STEREOTONSIGNALCODIERER
CN109416912B (zh) * 2016-06-30 2023-04-11 杜塞尔多夫华为技术有限公司 一种对多声道音频信号进行编码和解码的装置和方法
EP4336497A3 (en) * 2018-07-04 2024-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multisignal encoder, multisignal decoder, and related methods using signal whitening or signal post processing

Also Published As

Publication number Publication date
JP2023533366A (ja) 2023-08-02
EP4174855A1 (en) 2023-05-03
EP4174855A4 (en) 2023-12-06
US20230154471A1 (en) 2023-05-18
CN113948095A (zh) 2022-01-18
WO2022012553A1 (zh) 2022-01-20

Similar Documents

Publication Publication Date Title
RU2381571C2 (ru) Синтезирование монофонического звукового сигнала на основе кодированного многоканального звукового сигнала
KR101358700B1 (ko) 오디오 인코딩 및 디코딩
EP3251116A1 (en) System and method for capturing, encoding, distributing, and decoding immersive audio
CN101578655B (zh) 流合成装置、解码装置、方法
US8041041B1 (en) Method and system for providing stereo-channel based multi-channel audio coding
WO2021208792A1 (zh) 音频信号编码方法、解码方法、编码设备以及解码设备
EP3844748A1 (en) Spatial parameter signalling
JP2024063226A (ja) DirACベースの空間オーディオ符号化のためのパケット損失隠蔽
WO2009122757A1 (ja) ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
US11096002B2 (en) Energy-ratio signalling and synthesis
US20230145725A1 (en) Multi-channel audio signal encoding and decoding method and apparatus
KR102492791B1 (ko) 시간-도메인 스테레오 인코딩 및 디코딩 방법 및 관련 제품
KR20230036146A (ko) 다중 채널 오디오 신호 인코딩 및 디코딩 방법 및 장치
US20220038818A1 (en) Optimized Audio Forwarding
WO2022247651A1 (zh) 多声道音频信号的编码方法和装置
US20230186924A1 (en) Multi-Channel Audio Signal Coding Method and Apparatus
CN115497485A (zh) 三维音频信号编码方法、装置、编码器和系统
WO2014204935A2 (en) Multi-stage quantization of parameter vectors from disparate signal dimensions
WO2022012554A1 (zh) 多声道音频信号编码方法和装置
TW202403728A (zh) 一種多聲道信號的編解碼方法和編解碼設備以及終端設備
KR20230062836A (ko) 파라미터적으로 코딩된 오디오 처리
CN116798438A (zh) 一种多声道信号的编解码方法和编解码设备以及终端设备