KR20240012519A - 3차원 오디오 신호를 처리하기 위한 방법 및 장치 - Google Patents

3차원 오디오 신호를 처리하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20240012519A
KR20240012519A KR1020237044256A KR20237044256A KR20240012519A KR 20240012519 A KR20240012519 A KR 20240012519A KR 1020237044256 A KR1020237044256 A KR 1020237044256A KR 20237044256 A KR20237044256 A KR 20237044256A KR 20240012519 A KR20240012519 A KR 20240012519A
Authority
KR
South Korea
Prior art keywords
amount
sound field
current frame
signal
heterogeneous
Prior art date
Application number
KR1020237044256A
Other languages
English (en)
Inventor
위안 가오
솨이 류
빈 왕
저 왕
톈수 취
자하오 쉬
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20240012519A publication Critical patent/KR20240012519A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

본 출원의 실시예들은 3차원 오디오 신호를 정확하게 식별하기 위해 3차원 오디오 신호의 음장 분류를 구현하기 위한 3차원 오디오 신호 처리 방법 및 장치를 개시한다. 본 출원의 실시예는 3차원 오디오 신호 처리 방법을 제공하는데, 방법은: 3차원 오디오 신호의 현재 프레임에 대해 선형 분해를 수행하여, 선형 분해 결과를 획득하는 단계; 선형 분해 결과에 기초하여, 현재 프레임에 대응하는 음장 분류 파라미터를 획득하는 단계; 및 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정하는 단계를 포함한다.

Description

3차원 오디오 신호를 처리하기 위한 방법 및 장치
본 출원은 2021년 5월 31일자로 중국 특허청에 출원되고 발명의 명칭이 "THREE-DIMENSIONAL AUDIO SIGNAL PROCESSING METHOD AND APPARATUS"인 중국 특허 출원 제202110602507.4호에 대한 우선권을 주장하며, 이 출원의 내용은 그 전체가 본 명세서에 참고로 포함된다.
본 출원은 오디오 처리 기술 분야에 관한 것으로, 특히, 3차원 오디오 신호 처리 방법 및 장치에 관한 것이다.
3차원 오디오 기술은 무선 통신 음성, 가상 현실/증강 현실, 미디어 오디오, 및 그와 유사한 것에서 널리 사용된다. 3차원 오디오 기술은 실세계에서 사운드 이벤트 및 3차원 음장(sound field) 정보를 획득, 처리, 전송, 렌더링, 및 재생하기 위한 오디오 기술이다. 3차원 오디오 기술은 사운드(sound)가 공간, 포위, 및 몰입의 강한 감각들을 갖게 하고, 특별한 "몰입된" 청각 경험을 제공한다. 고차 앰비소닉스(higher-order ambisonics, HOA) 기술은 레코딩, 인코딩, 및 재생 동안 스피커 레이아웃과 독립적이고, HOA 포맷으로의 데이터의 회전가능한 재생 특징을 갖는다. 고차 앰비소닉스 기술은 3차원 오디오 재생에서 보다 높은 유연성을 가지며, 따라서 많은 관심을 받고 연구되고 있다.
캡처링 디바이스(예를 들어, 마이크로폰)는 대량의 데이터를 캡처하여 3차원 음장 정보를 레코딩하고, 3차원 오디오 신호를 재생 디바이스(예를 들어, 스피커 또는 이어폰)에 전송하여, 재생 디바이스가 3차원 오디오 신호를 재생하도록 한다. 3차원 음장 정보의 데이터 양이 크기 때문에, 데이터를 저장하기 위해 많은 양의 저장 공간이 요구되고, 3차원 오디오 신호를 전송하기 위해 높은 대역폭이 요구된다. 전술한 문제를 해결하기 위해, 3차원 오디오 신호가 압축될 수 있고, 압축된 데이터가 저장 또는 송신될 수 있다.
현재, 인코더는 복수의 사전 구성된 가상 스피커를 사용하여 3차원 오디오 신호를 인코딩할 수 있다. 그러나, 3차원 오디오 신호를 인코딩하기 전에, 인코더는 3차원 오디오 신호를 분류할 수 없고, 결과적으로 3차원 오디오 신호는 효과적으로 식별될 수 없다.
본 출원의 실시예들은 3차원 오디오 신호를 정확하게 식별하기 위해 3차원 오디오 신호의 음장 분류를 구현하기 위한 3차원 오디오 신호 처리 방법 및 장치를 제공한다.
전술한 기술적 문제를 해결하기 위해, 본 출원의 실시예들은 다음의 기술적 해결책들을 제공한다.
제1 양태에 따르면, 본 출원의 실시예는 3차원 오디오 신호 처리 방법을 제공하는데, 방법은: 3차원 오디오 신호의 현재 프레임에 대해 선형 분해(linear decomposition)를 수행하여, 선형 분해 결과를 획득하는 단계; 선형 분해 결과에 기초하여, 현재 프레임에 대응하는 음장 분류 파라미터를 획득하는 단계; 및 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정하는 단계를 포함한다. 전술한 해결책들에서, 3차원 오디오 신호의 현재 프레임에 대해 선형 분해가 먼저 수행되어, 선형 분해 결과를 획득한다. 그 후, 선형 분해 결과에 기초하여 현재 프레임에 대응하는 음장 분류 파라미터가 획득된다. 마지막으로, 현재 프레임의 음장 분류 결과가 음장 분류 파라미터에 기초하여 결정된다. 본 출원의 이 실시예에서, 3차원 오디오 신호의 현재 프레임에 대해 선형 분해를 수행하여, 현재 프레임의 선형 분해 결과를 획득한다. 그 후, 선형 분해 결과에 기초하여 현재 프레임에 대응하는 음장 분류 파라미터가 획득된다. 따라서, 현재 프레임의 음장 분류 결과가 음장 분류 파라미터에 기초하여 결정되고, 현재 프레임의 음장 분류는 음장 분류 결과에 기초하여 구현될 수 있다. 본 출원의 이 실시예에서, 3차원 오디오 신호에 대해 음장 분류를 수행하여, 3차원 오디오 신호를 정확하게 식별한다.
가능한 구현에서, 3차원 오디오 신호는 HOA(higher-order ambisonics) 신호 또는 FOA(first-order ambisonics) 신호를 포함한다.
가능한 구현에서, 3차원 오디오 신호의 현재 프레임에 대해 선형 분해를 수행하여, 선형 분해 결과를 획득하는 단계는: 현재 프레임에 대해 특이값 분해를 수행하여, 현재 프레임에 대응하는 특이값을 획득하는 단계 - 선형 분해 결과는 특이값을 포함함 -; 현재 프레임에 대해 주성분 분석을 수행하여 현재 프레임에 대응하는 제1 특징 값을 획득하는 단계 - 선형 분해 결과는 제1 특징 값을 포함함 -; 또는 현재 프레임에 대해 독립적 성분 분석을 수행하여 현재 프레임에 대응하는 제2 특징 값을 획득하는 단계 - 선형 분해 결과는 제2 특징 값을 포함함 - 를 포함한다. 전술한 해결책들에서, 선형 분해는 특이값 분해일 수 있다. 선형 분해는 대안적으로 특징 값을 획득하기 위한 주성분 분석일 수 있거나, 또는 선형 분해는 대안적으로 제2 특징 값을 획득하기 위한 독립적 성분 분석일 수 있다. 3가지 방식 중 어느 하나에서, 현재 프레임의 선형 분해가 구현되어 후속 오디오 채널 결정을 위한 선형 분석 결과를 제공할 수 있다.
가능한 구현에서, 복수의 선형 분해 결과가 존재하고, 복수의 음장 분류 파라미터가 존재한다. 선형 분해 결과에 기초하여, 현재 프레임에 대응하는 음장 분류 파라미터를 획득하는 단계는: 현재 프레임의 i번째 선형 분석 결과 대 현재 프레임의 (i+1)번째 선형 분석 결과의 비율을 획득하는 단계 - i는 양의 정수임 -; 및 비율에 기초하여, 현재 프레임에 대응하는 i번째 음장 분류 파라미터를 획득하는 단계를 포함한다.
또한, i번째 선형 분석 결과 및 (i+1)번째 선형 분석 결과는 현재 프레임의 2개의 연속 선형 분석 결과이다.
전술한 해결책들에서, 인코더 측은 선형 분해 결과에 기초하여 현재 프레임에 대응하는 음장 분류 파라미터를 획득할 수 있다. 예를 들어, 현재 프레임의 복수의 선형 분해 결과가 존재하고, 복수의 선형 분석 결과 중 2개의 연속 선형 분석 결과는 현재 프레임의 i번째 선형 분석 결과 및 (i+1)번째 선형 분석 결과로서 표현된다. 이 경우, 현재 프레임의 i번째 선형 분석 결과 대 현재 프레임의 (i+1)번째 선형 분석 결과의 비율이 계산될 수 있는데, i의 특정 값은 제한되지 않는다. 비율이 획득된 후, 현재 프레임에 대응하는 i번째 음장 분류 파라미터가 현재 프레임의 i번째 선형 분석 결과 대 (i+1)번째 선형 분석 결과의 비율에 기초하여 획득될 수 있다.
가능한 구현에서, 복수의 음장 분류 파라미터가 존재하고, 음장 분류 결과는 음장 타입을 포함한다. 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정하는 단계는: 복수의 음장 분류 파라미터의 값들이 모두 미리 설정된 분산 음원(dispersive sound source) 결정 조건을 충족할 때, 음장 타입이 분산 음장인 것을 결정하는 단계; 또는 복수의 음장 분류 파라미터의 값들 중 적어도 하나가 미리 설정된 이종 음원(heterogeneous sound source) 결정 조건을 충족할 때, 음장 타입이 이종 음장인 것을 결정하는 단계를 포함한다. 전술한 해결책들에서, 음장 타입은 이종 음장 및 분산 음장을 포함할 수 있다. 본 출원의 이 실시예에서, 분산 음원 결정 조건 및 이종 음원 결정 조건은 미리 설정된다. 분산 음원 결정 조건은 음장 타입이 분산 음장인지를 결정하기 위해 사용되고, 이종 음원 결정 조건은 음장 타입이 이종 음장인지를 결정하기 위해 사용된다. 현재 프레임의 복수의 음장 분류 파라미터가 획득된 후에, 복수의 음장 분류 파라미터의 값들 및 미리 설정된 조건에 기초하여 결정이 수행된다.
가능한 구현에서, 분산 음원 결정 조건은 음장 분류 파라미터의 값이 미리 설정된 이종 음원 결정 임계값보다 작은 것을 포함하고; 또는 이종 음원 결정 조건은 음장 분류 파라미터의 값이 미리 설정된 이종 음원 결정 임계값 이상인 것을 포함한다. 전술한 해결책들에서, 이종 음원 결정 임계값은 미리 설정된 임계값일 수 있고, 특정 값은 제한되지 않는다. 분산 음원 결정 조건은 음장 분류 파라미터의 값이 미리 설정된 이종 음원 결정 임계값보다 작은 것을 포함한다. 따라서, 복수의 음장 분류 파라미터의 값들이 모두 미리 설정된 이종 음원 결정 임계값보다 작을 때, 음장 타입이 분산 음장인 것이 결정된다. 이종 음원 결정 조건은 음장 분류 파라미터의 값이 미리 설정된 이종 음원 결정 임계값 이상인 것을 포함한다. 따라서, 복수의 음장 분류 파라미터의 값들 중 적어도 하나가 미리 설정된 이종 음원 결정 임계값 이상일 때, 음장 타입이 이종 음장인 것이 결정된다.
가능한 구현에서, 복수의 음장 분류 파라미터가 존재하고, 음장 분류 결과는 음장 타입을 포함하거나, 또는 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다. 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정하는 단계는: 복수의 음장 분류 파라미터의 값들에 기초하여, 현재 프레임에 대응하는 이종 음원들의 양을 획득하는 단계; 및 현재 프레임에 대응하는 이종 음원들의 양에 기초하여 음장 타입을 결정하는 단계를 포함한다. 전술한 해결책들에서, 현재 프레임에 대응하는 복수의 음장 분류 파라미터를 획득한 후에, 인코더 측은 복수의 음장 분류 파라미터의 값들에 기초하여, 현재 프레임에 대응하는 이종 음원들의 양을 획득할 수 있다. 이종 음원들은 상이한 위치들 및/또는 방향들을 갖는 포인트 음원들이고, 현재 프레임에 포함된 이종 음원들의 양이 이종 음원들의 양으로 지칭된다. 현재 프레임의 음장은 이종 음원들의 양에 기초하여 분류될 수 있다. 음장 타입을 결정하기 위해 현재 프레임에 대응하는 이종 음원들의 양이 획득된 후, 현재 프레임에 대응하는 음장 타입은 현재 프레임에 대응하는 이종 음원들의 양을 분석함으로써 결정될 수 있다.
가능한 구현에서, 복수의 음장 분류 파라미터가 존재하고, 음장 분류 결과는 이종 음원들의 양을 포함한다. 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정하는 단계는: 복수의 음장 분류 파라미터의 값들에 기초하여, 현재 프레임에 대응하는 이종 음원들의 양을 획득하는 단계를 포함한다. 전술한 해결책들에서, 현재 프레임에 대응하는 복수의 음장 분류 파라미터를 획득한 후에, 인코더 측은 복수의 음장 분류 파라미터의 값들에 기초하여, 현재 프레임에 대응하는 이종 음원들의 양을 획득할 수 있다. 이종 음원들은 상이한 위치들 및/또는 방향들을 갖는 포인트 음원들이고, 현재 프레임에 포함된 이종 음원들의 양이 이종 음원들의 양으로 지칭된다.
가능한 구현에서, 복수의 음장 분류 파라미터는 temp[i], i = 0, 1, ..., min(L,K)-2 이고, L은 현재 프레임의 채널들의 양을 나타내고, K는 현재 프레임의 각각의 채널에 대응하는 신호 포인트들의 양이고, min은 최소값이 선택되는 연산을 나타낸다. 복수의 음장 분류 파라미터의 값들에 기초하여, 현재 프레임에 대응하는 이종 음원들의 양을 획득하는 단계는 이하를 포함한다: i=0으로부터 다음의 결정 절차들을 순차적으로 수행하는 단계: temp[i]가 미리 설정된 이종 음원 결정 임계값보다 큰지를 결정하는 단계; 및 temp[i]가 이 결정 절차에서 이종 음원 결정 임계값보다 작은 경우, i의 값을 i+1로 갱신하고, 다음 결정 절차를 계속 수행하는 단계; 또는 temp[i]가 이 결정 절차에서 이종 음원 결정 임계값 이상일 때, 결정 절차의 실행을 종료하고, 이 결정 절차에서의 i에 1을 더한 것이 이종 음원들의 양과 동일한 것을 결정하는 단계. 전술한 해결책들에서, 결정 절차는 복수 회 수행되고, 결정 절차의 실행을 종료할지가 매번 결정되어, 이종 음원들의 양을 획득한다.
가능한 구현에서, 현재 프레임에 대응하는 이종 음원들의 양에 기초하여 음장 타입을 결정하는 단계는: 이종 음원들의 양이 제1 미리 설정된 조건을 충족할 때, 음장 타입이 제1 음장 타입인 것을 결정하는 단계; 또는 이종 음원들의 양이 제1 미리 설정된 조건을 충족하지 못할 때, 음장 타입이 제2 음장 타입인 것을 결정하는 단계를 포함한다. 제1 음장 타입에 대응하는 이종 음원들의 양은 제2 음장 타입에 대응하는 이종 음원들의 양과 상이하다. 전술한 해결책들에서, 음장 타입들은 이종 음원들의 상이한 양들에 기초하여 2개의 타입: 제1 음장 타입 및 제2 음장 타입으로 분류될 수 있다. 인코더 측은 미리 설정된 조건을 획득하고; 이종 음원들의 양이 미리 설정된 조건을 충족하는지를 결정하고; 및 이종 음원들의 양이 제1 미리 설정된 조건을 충족할 때, 음장 타입이 제1 음장 타입인 것을 결정하고; 또는 이종 음원들의 양이 제1 미리 설정된 조건을 충족하지 못할 때, 음장 타입이 제2 음장 타입인 것을 결정한다. 본 출원의 이 실시예에서, 이종 음원들의 양이 제1 미리 설정된 조건을 충족하는지가 결정되어, 현재 프레임의 음장 타입의 분할을 구현하여, 현재 프레임의 음장 타입이 제1 음장 타입 또는 제2 음장 타입에 속하는 것을 정확하게 식별할 수 있다.
가능한 구현에서, 제1 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값보다 크고 제2 임계값보다 작고 제2 임계값이 제1 임계값보다 큰 것을 포함하고; 또는 제1 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값 이하이거나 제2 임계값 이상이고 제2 임계값이 제1 임계값보다 큰 것을 포함한다. 전술한 해결책들에서, 제1 임계값 및 제2 임계값의 구체적인 값들은 제한되지 않고, 적용 시나리오에 기초하여 구체적으로 결정될 수 있다. 제2 임계값은 제1 임계값보다 크다. 따라서, 제1 임계값 및 제2 임계값은 미리 설정된 범위를 형성할 수 있고, 제1 미리 설정된 조건은 이종 음원들의 양이 미리 설정된 범위 내에 드는 것일 수 있거나, 또는 제1 미리 설정된 조건은 이종 음원들의 양이 미리 설정된 범위를 넘는 것일 수 있다. 이종 음원들의 양은 제1 미리 설정된 조건에서의 제1 임계값 및 제2 임계값에 기초하여 결정되어, 이종 음원들의 양이 제1 미리 설정된 조건을 충족하는지를 결정하여, 현재 프레임의 음장 타입이 제1 음장 타입 또는 제2 음장 타입에 속하는 것을 정확하게 식별할 수 있다.
가능한 구현에서, 방법은: 음장 분류 결과에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계를 추가로 포함한다. 전술한 해결책들에서, 인코더 측은 음장 분류 결과에 기초하여 현재 프레임에 대응하는 인코딩 모드를 결정할 수 있다. 인코딩 모드는 3차원 오디오 신호의 현재 프레임이 인코딩될 때 사용되는 모드이다. 복수의 인코딩 모드가 있고, 현재 프레임의 상이한 음장 분류 결과들에 기초하여 상이한 인코딩 모드들이 사용될 수 있다. 본 출원의 이 실시예에서, 현재 프레임의 상이한 음장 분류 결과들에 대해 적절한 인코딩 모드들이 선택되고, 따라서 현재 프레임은 인코딩 모드를 사용하여 인코딩된다. 이는 오디오 신호의 압축 효율 및 청각 품질을 개선한다.
가능한 구현에서, 음장 분류 결과에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계는: 음장 분류 결과가 이종 음원들의 양을 포함하거나, 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 이종 음원들의 양에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계; 음장 분류 결과가 음장 타입을 포함하거나, 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 음장 타입에 기초하여 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계; 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 이종 음원들의 양 및 음장 타입에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계를 포함한다. 전술한 해결책들에서, 인코더 측은, 이종 음원들의 양 및/또는 음장 타입에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하여, 현재 프레임의 음장 분류 결과에 기초하여 대응하는 인코딩 모드를 결정할 수 있어서, 결정된 인코딩 모드가 3차원 오디오 신호의 현재 프레임에 적응될 수 있도록 한다. 이는 인코딩 효율을 개선한다.
가능한 구현에서, 이종 음원들의 양에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계는: 이종 음원들의 양이 제2 미리 설정된 조건을 충족할 때, 인코딩 모드가 제1 인코딩 모드인 것을 결정하는 단계; 또는 이종 음원들의 양이 제2 미리 설정된 조건을 충족하지 못할 때, 인코딩 모드가 제2 인코딩 모드인 것을 결정하는 단계를 포함한다. 제1 인코딩 모드는 가상 스피커 선택에 기초한 HOA 인코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 인코딩 모드이고, 제2 인코딩 모드는 가상 스피커 선택에 기초한 HOA 인코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 인코딩 모드이고, 제1 인코딩 모드와 제2 인코딩 모드는 상이한 인코딩 모드들이다. 전술한 해결책들에서, 인코딩 모드들은 이종 음원들의 상이한 양들에 기초하여 2개의 타입: 제1 인코딩 모드 및 제2 인코딩 모드로 분류될 수 있다. 인코더 측은 제2 미리 설정된 조건을 획득하고; 이종 음원들의 양이 제2 미리 설정된 조건을 충족하는지를 결정하고; 및 이종 음원들의 양이 제2 미리 설정된 조건을 충족할 때, 인코딩 모드가 제1 인코딩 모드인 것을 결정하고; 또는 이종 음원들의 양이 제2 미리 설정된 조건을 충족하지 못할 때, 인코딩 모드가 제2 인코딩 모드인 것을 결정한다. 본 출원의 이 실시예에서, 이종 음원들의 양이 제2 미리 설정된 조건을 충족하는지가 결정되어, 현재 프레임의 인코딩 모드의 분할을 구현하여, 현재 프레임의 인코딩 모드가 제1 인코딩 모드 또는 제2 인코딩 모드에 속하는 것을 정확하게 식별할 수 있다.
가능한 구현에서, 제2 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값보다 크고 제2 임계값보다 작고, 제2 임계값이 제1 임계값보다 큰 것을 포함하고; 또는 제2 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값 이하이거나 제2 임계값 이상이고, 제2 임계값이 제1 임계값보다 큰 것을 포함한다.
가능한 구현에서, 음장 타입에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계는: 음장 타입이 이종 음장일 때, 인코딩 모드가 가상 스피커 선택에 기초하여 HOA 인코딩 모드인 것을 결정하는 단계; 또는 음장 타입이 분산 음장일 때, 인코딩 모드가 방향성 오디오 코딩에 기초한 HOA 인코딩 모드인 것을 결정하는 단계를 포함한다.
가능한 구현에서, 음장 분류 결과에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계는: 현재 프레임의 음장 분류 결과에 기초하여, 현재 프레임에 대응하는 초기 인코딩 모드를 결정하는 단계; 현재 프레임이 위치되는 행오버 윈도우(hangover window)를 획득하는 단계 - 행오버 윈도우는 현재 프레임의 초기 인코딩 모드 및 현재 프레임 전의 N-1개의 프레임의 인코딩 모드들을 포함하고, N은 행오버 윈도우의 길이임 -; 및 현재 프레임의 초기 인코딩 모드 및 N-1개의 프레임의 인코딩 모드들에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계를 포함한다. 전술한 해결책들에서, 본 출원의 이 실시예에서, 행오버 윈도우에 기초하여 현재 프레임의 초기 인코딩 모드를 수정하여, 현재 프레임의 인코딩 모드를 획득한다. 이는 연속 프레임들의 인코딩 모드들이 빈번하게 스위칭되지 않는 것을 보장하고, 인코딩 효율을 개선한다.
가능한 구현에서, 방법은: 음장 분류 결과에 기초하여, 현재 프레임에 대응하는 인코딩 파라미터를 결정하는 단계를 추가로 포함한다. 전술한 해결책들에서, 인코더 측은 음장 분류 결과에 기초하여 현재 프레임에 대응하는 인코딩 파라미터를 결정할 수 있다. 인코딩 파라미터는 3차원 오디오 신호의 현재 프레임이 인코딩될 때 사용되는 파라미터이다. 복수의 인코딩 파라미터가 있고, 현재 프레임의 상이한 음장 분류 결과들에 기초하여 상이한 인코딩 파라미터들이 사용될 수 있다. 본 출원의 이 실시예에서, 현재 프레임의 상이한 음장 분류 결과들에 대해 적절한 인코딩 파라미터들이 선택되어, 현재 프레임이 인코딩 파라미터에 기초하여 인코딩되도록 한다. 이는 오디오 신호의 압축 효율 및 청각 품질을 개선한다.
가능한 구현에서, 인코딩 파라미터는: 가상 스피커 신호의 채널들의 양, 잔차 신호(residual signal)의 채널들의 양, 가상 스피커 신호의 인코딩 비트들의 양, 잔차 신호의 인코딩 비트들의 양, 또는 최상의 매칭 스피커를 탐색하기 위한 투표 라운드(voting round)들의 양 중 적어도 하나를 포함한다. 가상 스피커 신호 및 잔차 신호는 3차원 오디오 신호에 기초하여 발생된다.
가능한 구현에서, 투표 라운드들의 양은 다음의 관계를 충족한다: . I는 투표 라운드들의 양이고, d는 음장 분류 결과에 포함된 이종 음원들의 양이다. 전술한 해결책들에서, 인코더 측은, 현재 프레임의 이종 음원들의 양에 기초하여, 최상의 매칭 스피커를 탐색하기 위한 투표 라운드들의 양을 결정한다. 투표 라운드들의 양은 현재 프레임의 이종 음원들의 양 이하이어서, 투표 라운드들의 양이 현재 프레임의 음장 분류의 실제 상황에 따를 수 있도록 한다. 이는 현재 프레임이 인코딩될 때 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양이 결정될 필요가 있다는 문제를 해결한다.
가능한 구현에서, 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다. 음장 타입이 이종 음장일 때, 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족하며: F = min(S, PF), 여기서 F는 가상 스피커 신호의 채널들의 양이고, S는 이종 음원들의 양이고, PF는 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이고; 또는 음장 타입이 분산 음장일 때, 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족한다: F = 1, 여기서 F는 가상 스피커 신호의 채널들의 양이다. 전술한 해결책들에서, 가상 스피커 신호의 채널들의 양은 가상 스피커 신호를 송신하기 위한 채널들의 양이고, 가상 스피커 신호의 채널들의 양은 이종 음원들의 양 및 음장 타입에 기초하여 결정될 수 있다. 전술한 계산 방식에서, 음장 타입이 분산 음장일 때, 가상 스피커 신호의 채널들의 양이 1인 것이 결정되어, 현재 프레임의 인코딩 효율을 개선한다. 음장 타입이 이종 음장일 때, min은 최소 값이 선택되는 동작, 즉 S 및 PF로부터의 최소 값을 가상 스피커 신호의 채널들의 양으로서 선택하는 동작을 표시하여, 가상 스피커 신호의 채널들의 양이 현재 프레임의 음장 분류의 실제 상황에 따를 수 있도록 한다. 이는 현재 프레임이 인코딩될 때 가상 스피커 신호의 채널들의 양이 결정될 필요가 있다는 문제를 해결한다.
가능한 구현에서, 음장 타입이 분산 음장일 때, 잔차 신호의 채널들의 양은 다음의 관계를 충족하고: R = max(C-1,PR), 여기서 PR은 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양이고, C는 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합임; 또는 음장 타입이 이종 음장일 때, 잔차 신호의 채널들의 양은 다음의 관계를 충족한다: R = C - F, 여기서 R은 잔차 신호의 채널들의 양이고, C는 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 가상 스피커 신호의 채널들의 양이다. 전술한 해결책들에서, 가상 스피커 신호의 채널들의 양이 획득된 후에, 잔차 신호의 채널들의 양은 잔차 신호의 채널들의 미리 설정된 양 및 잔차 신호의 채널들의 미리 설정된 양과 가상 스피커 신호의 채널들의 미리 설정된 양의 합에 기초하여 계산될 수 있다. PR의 값은 인코더 측에서 미리 설정될 수 있고, R의 값은 max(C-1,PR)를 계산하기 위한 수학식에 따라 획득될 수 있다. 잔차 신호의 채널들의 미리 설정된 양과 가상 스피커 신호의 채널들의 미리 설정된 양의 합은 인코더 측에서 미리 설정된다. 또한, C는 송신 채널들의 총 양이라고도 지칭될 수 있다.
가능한 구현에서, 음장 분류 결과는 이종 음원들의 양을 포함한다. 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족한다: F = min(S,PF), 여기서 F는 가상 스피커 신호의 채널들의 양이고, S는 이종 음원들의 양이고, PF는 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이다.
가능한 구현에서, 잔차 신호의 채널들의 양은 다음의 관계를 충족하고: R = C - F, 여기서 R은 잔차 신호의 채널들의 양이고, C는 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 가상 스피커 신호의 채널들의 양이다. 전술한 해결책들에서, 가상 스피커 신호의 채널들의 양이 획득된 후에, 잔차 신호의 채널들의 양은 가상 스피커 신호의 채널들의 양 및 잔차 신호의 채널들의 미리 설정된 양과 가상 스피커 신호의 채널들의 미리 설정된 양의 합에 기초하여 계산될 수 있다. 잔차 신호의 채널들의 미리 설정된 양과 가상 스피커 신호의 채널들의 미리 설정된 양의 합은 인코더 측에서 미리 설정된다. 또한, C는 송신 채널들의 총 양이라고도 지칭될 수 있다.
가능한 구현에서, 음장 분류 결과는 이종 음원들의 양을 포함하거나, 또는 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다. 가상 스피커 신호의 인코딩 비트들의 양은 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율에 기초하여 획득된다. 잔차 신호의 인코딩 비트들의 양은 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율에 기초하여 획득된다. 송신 채널의 인코딩 비트들의 양은 가상 스피커 신호의 인코딩 비트들의 양 및 잔차 신호의 인코딩 비트들의 양을 포함하고, 이종 음원들의 양이 가상 스피커 신호의 채널들의 양 이하일 때, 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율은 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 초기 비율을 증가시킴으로써 획득된다.
가능한 구현에서, 방법은: 현재 프레임 및 음장 분류 결과를 인코딩하는 단계, 및 인코딩된 현재 프레임 및 음장 분류 결과를 비트스트림에 기입하는 단계를 추가로 포함한다.
제2 양태에 따르면, 본 출원의 실시예는 3차원 오디오 신호 처리 방법을 추가로 제공하는데, 방법은: 비트스트림을 수신하는 단계; 비트스트림을 디코딩하여, 현재 프레임의 음장 분류 결과를 획득하는 단계; 및 음장 분류 결과에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계를 포함한다. 전술한 해결책들에서, 음장 분류 결과는 비트스트림 내의 현재 프레임을 디코딩하기 위해 사용될 수 있다. 따라서, 디코더 측은 현재 프레임의 음장을 매칭시키는 디코딩 방식으로 디코딩을 수행하여, 인코더 측에 의해 송신된 3차원 오디오 신호를 획득한다. 이는 인코더 측으로부터 디코더 측으로의 오디오 신호의 송신을 구현한다.
가능한 구현에서, 음장 분류 결과에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계는: 음장 분류 결과에 기초하여 현재 프레임의 디코딩 모드를 결정하는 단계; 및 디코딩 모드에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계를 포함한다.
가능한 구현에서, 음장 분류 결과에 기초하여 현재 프레임의 디코딩 모드를 결정하는 단계는: 음장 분류 결과가 이종 음원들의 양을 포함하거나 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 이종 음원들의 양에 기초하여 현재 프레임의 디코딩 모드를 결정하는 단계; 음장 분류 결과가 음장 타입을 포함하거나 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 음장 타입에 기초하여 현재 프레임의 디코딩 모드를 결정하는 단계; 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 이종 음원들의 양 및 음장 타입에 기초하여 현재 프레임의 디코딩 모드를 결정하는 단계를 포함한다.
가능한 구현에서, 이종 음원들의 양에 기초하여, 현재 프레임에 대응하는 디코딩 모드를 결정하는 단계는: 이종 음원들의 양이 미리 설정된 조건을 충족할 때, 디코딩 모드가 제1 디코딩 모드인 것을 결정하는 단계; 또는 이종 음원들의 양이 미리 설정된 조건을 충족하지 못할 때, 디코딩 모드가 제2 디코딩 모드인 것을 결정하는 단계를 포함한다. 제1 디코딩 모드는 가상 스피커 선택에 기초한 HOA 디코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 디코딩 모드이고, 제2 디코딩 모드는 가상 스피커 선택에 기초한 HOA 디코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 디코딩 모드이고, 제1 디코딩 모드와 제2 디코딩 모드는 상이한 디코딩 모드들이다.
가능한 구현에서, 미리 설정된 조건은 이종 음원들의 양이 제1 임계값보다 크고 제2 임계값보다 작고, 제2 임계값이 제1 임계값보다 큰 것을 포함하고; 또는 미리 설정된 조건은 이종 음원들의 양이 제1 임계값 이하이고 제2 임계값 이상이고, 제2 임계값이 제1 임계값보다 큰 것을 포함한다.
가능한 구현에서, 음장 분류 결과에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계는: 음장 분류 결과에 기초하여 현재 프레임의 디코딩 파라미터를 결정하는 단계; 및 디코딩 파라미터에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계를 포함한다.
가능한 구현에서, 디코딩 파라미터는: 가상 스피커 신호의 채널들의 양, 잔차 신호의 채널들의 양, 가상 스피커 신호의 디코딩 비트들의 양, 또는 잔차 신호의 디코딩 비트들의 양 중 적어도 하나를 포함한다. 가상 스피커 신호 및 잔차 신호는 비트스트림을 디코딩함으로써 획득된다.
가능한 구현에서, 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다. 음장 타입이 이종 음장일 때, 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족시키며: F = min(S,PF), 여기서 F는 가상 스피커 신호의 채널들의 양이고, S는 이종 음원들의 양이고, PF는 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이고; 또는 음장 타입이 분산 음장일 때, 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족한다: F = 1, 여기서 F는 가상 스피커 신호의 채널들의 양이다.
가능한 구현에서, 음장 타입이 분산 음장일 때, 잔차 신호의 채널들의 양은 다음의 관계를 충족하고: R = max(C-1,PR), 여기서 PR은 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양이고, C는 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고; 또는 음장 타입이 이종 음장일 때, 잔차 신호의 채널들의 양은 다음의 관계를 충족하고: R = C - F, 여기서 R은 잔차 신호의 채널들의 양이고, C는 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 가상 스피커 신호의 채널들의 양이다.
가능한 구현에서, 음장 분류 결과는 이종 음원들의 양을 포함한다. 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족한다: F = min(S,PF), 여기서 F는 가상 스피커 신호의 채널들의 양이고, S는 이종 음원들의 양이고, PF는 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이다.
가능한 구현에서, 잔차 신호의 채널들의 양은 다음의 관계를 충족한다: R = C - F이고, 여기서 R은 잔차 신호의 채널들의 양이고, C는 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 가상 스피커 신호의 채널들의 양이다.
가능한 구현에서, 음장 분류 결과는 이종 음원들의 양을 포함하거나, 또는 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다. 가상 스피커 신호의 디코딩 비트들의 양은 가상 스피커 신호의 디코딩 비트들의 양 대 송신 채널의 디코딩 비트들의 양의 비율에 기초하여 획득된다. 잔차 신호의 디코딩 비트들의 양은 가상 스피커 신호의 디코딩 비트들의 양 대 송신 채널의 디코딩 비트들의 양의 비율에 기초하여 획득된다. 송신 채널의 디코딩 비트들의 양은 가상 스피커 신호의 디코딩 비트들의 양 및 잔차 신호의 디코딩 비트들의 양을 포함하고, 이종 음원들의 양이 가상 스피커 신호의 채널들의 양 이하일 때, 가상 스피커 신호의 디코딩 비트들의 양 대 송신 채널의 디코딩 비트들의 양의 비율은 가상 스피커 신호의 디코딩 비트들의 양 대 송신 채널의 디코딩 비트들의 양의 초기 비율을 증가시킴으로써 획득된다.
제3 양태에 따르면, 본 출원의 실시예는 3차원 오디오 신호 처리 장치를 추가로 제공하는데, 장치는: 3차원 오디오 신호에 대해 선형 분해를 수행하여, 선형 분해 결과를 획득하도록 구성된 선형 분석 모듈; 선형 분해 결과에 기초하여, 현재 프레임에 대응하는 음장 분류 파라미터를 획득하도록 구성된 파라미터 생성 모듈; 및 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정하도록 구성된 음장 분류 모듈을 포함한다.
본 출원의 제3 양태에서, 3차원 오디오 신호 처리 장치에 포함되는 모듈들은 제1 양태 및 가능한 구현들에서 설명되는 단계들을 추가로 수행할 수 있다. 상세 사항들에 대해서는, 제1 양태 및 가능한 구현들의 설명들을 참조한다.
제4 양태에 따르면, 본 출원의 실시예는 3차원 오디오 신호 처리 장치를 추가로 제공하고, 장치는: 비트스트림을 수신하도록 구성된 수신 모듈; 비트스트림을 디코딩하여, 현재 프레임의 음장 분류 결과를 획득하도록 구성된 디코딩 모듈; 및 음장 분류 결과에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하도록 구성된 신호 발생 모듈을 포함한다.
본 출원의 제4 양태에서, 3차원 오디오 신호 처리 장치에 포함되는 모듈들은 제2 양태 및 가능한 구현들에서 설명되는 단계들을 추가로 수행할 수 있다. 상세 사항들에 대해서는, 제2 양태 및 가능한 구현들의 설명들을 참조한다.
가능한 구현에서, 가상 스피커 신호의 인코딩 비트들의 양은 다음의 관계를 충족한다:
는 가상 스피커 신호의 인코딩 비트들의 양이고, 는 가상 스피커 신호의 인코딩 비트에 할당되는 가중 인자이고, 는 잔차 신호의 인코딩 비트에 할당되는 가중 인자이고, round는 반내림(rounding down)을 표시하고, F는 가상 스피커 신호의 채널들의 양이고, R은 잔차 신호의 채널들의 양을 표시하고, numbit는 가상 스피커 신호의 인코딩 비트들의 양과 잔차 신호의 인코딩 비트들의 양의 합이다. 잔차 신호의 인코딩 비트들의 양은 다음의 관계를 충족한다:
은 잔차 신호의 인코딩 비트들의 양이고, 은 가상 스피커 신호의 인코딩 비트들의 양이고, numbit는 가상 스피커 신호의 인코딩 비트들의 양과 잔차 신호의 인코딩 비트들의 양의 합이다.
가능한 구현에서, 이다.
가능한 구현에서, 잔차 신호의 인코딩 비트들의 양은 다음의 관계를 충족한다:
는 잔차 신호의 인코딩 비트들의 양이고, 는 가상 스피커 신호의 인코딩 비트에 할당되는 가중 인자이고, 는 잔차 신호의 인코딩 비트에 할당되는 가중 인자이고, round는 반내림(rounding down)을 표시하고, F는 가상 스피커 신호의 채널들의 양이고, R은 잔차 신호의 채널들의 양을 표시하고, numbit는 가상 스피커 신호의 인코딩 비트들의 양과 잔차 신호의 인코딩 비트들의 양의 합이다.
가상 스피커 신호의 인코딩 비트들의 양은 다음의 관계를 충족한다:
는 가상 스피커 신호의 인코딩 비트들의 양이고, 는 잔차 신호의 인코딩 비트들의 양이고, numbit는 가상 스피커 신호의 인코딩 비트들의 양과 잔차 신호의 인코딩 비트들의 양의 합이다.
가능한 구현에서, 각각의 가상 스피커 신호의 인코딩 비트들의 양은 다음의 관계를 충족한다:
는 각각의 가상 스피커 신호의 인코딩 비트들의 양이고, 는 가상 스피커 신호의 인코딩 비트에 할당되는 가중 인자이고, 는 잔차 신호의 인코딩 비트에 할당되는 가중 인자이고, round는 반내림(rounding down)을 표시하고, F는 가상 스피커 신호의 채널들의 양이고, R은 잔차 신호의 채널들의 양을 표시하고, numbit는 가상 스피커 신호의 인코딩 비트들의 양과 잔차 신호의 인코딩 비트들의 양의 합이다.
각각의 잔차 신호의 인코딩 비트들의 양은 다음의 관계를 충족한다:
는 각각의 잔차 신호의 인코딩 비트들의 양이고, 는 가상 스피커 신호의 인코딩 비트에 할당되는 가중 인자이고, 는 잔차 신호의 인코딩 비트에 할당되는 가중 인자이고, round는 반내림(rounding down)을 표시하고, F는 가상 스피커 신호의 채널들의 양이고, R은 잔차 신호의 채널들의 양을 표시하고, numbit는 가상 스피커 신호의 인코딩 비트들의 양과 잔차 신호의 인코딩 비트들의 양의 합이다.
제5 양태에 따르면, 본 출원의 실시예는 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 판독가능 저장 매체는 명령어들을 저장한다. 명령어들이 컴퓨터 상에서 실행될 때, 컴퓨터는 제1 양태 또는 제2 양태에서의 방법을 수행할 수 있게 된다.
제6 양태에 따르면, 본 출원의 실시예는 명령어들을 포함하는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 컴퓨터는 제1 양태 또는 제2 양태에서의 방법을 수행할 수 있게 된다.
제7 양태에 따르면, 본 출원의 실시예는 제1 양태의 방법에서 발생된 비트스트림을 포함하는 컴퓨터 판독가능 저장 매체를 제공한다.
제8 양태에 따르면, 본 출원의 실시예는 통신 장치를 제공한다. 통신 장치는 단말 디바이스 또는 칩과 같은 엔티티를 포함할 수 있다. 통신 장치는 프로세서 및 메모리를 포함한다. 메모리는 명령어들을 저장하도록 구성되고, 프로세서는 메모리 내의 명령어들을 실행하여, 통신 장치가 제1 양태 또는 제2 양태의 구현들 중 어느 하나에서의 방법을 수행할 수 있게 하도록 구성된다.
제9 양태에 따르면, 본 출원은 칩 시스템을 제공한다. 칩 시스템은 전술한 양태들에서의 기능들을, 예를 들어, 전술한 방법에서 데이터 및/또는 정보를 송신 또는 처리하는 것을 구현함에 있어서 오디오 인코더 또는 오디오 디코더를 지원하도록 구성된 프로세서를 포함한다. 가능한 설계에서, 칩 시스템은 메모리를 추가로 포함한다. 메모리는 오디오 인코더 또는 오디오 디코더를 위해 필요한 프로그램 명령어들 및 데이터를 저장하도록 구성된다. 칩 시스템은 칩을 포함할 수 있거나, 또는 칩 및 또 다른 이산 컴포넌트를 포함할 수 있다.
전술한 기술적 해결책들로부터 본 출원의 실시예들은 다음의 이점들을 갖는다는 것을 알 수 있다:
본 출원의 이 실시예에서, 3차원 오디오 신호의 현재 프레임에 대해 선형 분해를 먼저 수행하여, 선형 분해 결과를 획득한다. 그 후, 선형 분해 결과에 기초하여 현재 프레임에 대응하는 음장 분류 파라미터가 획득된다. 마지막으로, 현재 프레임의 음장 분류 결과가 음장 분류 파라미터에 기초하여 결정된다. 본 출원의 이 실시예에서, 3차원 오디오 신호의 현재 프레임에 대해 선형 분해를 수행하여, 현재 프레임의 선형 분해 결과를 획득한다. 그 후, 선형 분해 결과에 기초하여 현재 프레임에 대응하는 음장 분류 파라미터가 획득된다. 따라서, 현재 프레임의 음장 분류 결과가 음장 분류 파라미터에 기초하여 결정되고, 현재 프레임의 음장 분류는 음장 분류 결과에 기초하여 구현될 수 있다. 본 출원의 이 실시예에서, 3차원 오디오 신호에 대해 음장 분류를 수행하여, 3차원 오디오 신호를 정확하게 식별한다.
도 1은 본 출원의 실시예에 따른 오디오 처리 시스템의 구성의 구조의 개략도이다.
도 2a는 본 출원의 실시예에 따른, 오디오 인코더 및 오디오 디코더가 단말 디바이스에서 사용되는 개략도이다.
도 2b는 본 출원의 실시예에 따른, 오디오 인코더가 무선 디바이스 또는 코어 네트워크 디바이스에서 사용되는 개략도이다.
도 2c는 본 출원의 실시예에 따른, 오디오 디코더가 무선 디바이스 또는 코어 네트워크 디바이스에서 사용되는 개략도이다.
도 3a는 본 출원의 실시예에 따른, 다채널 인코더 및 다채널 디코더가 단말 디바이스에서 사용되는 개략도이다.
도 3b는 본 출원의 실시예에 따른, 다채널 인코더가 무선 디바이스 또는 코어 네트워크 디바이스에서 사용되는 개략도이다.
도 3c는 본 출원의 실시예에 따른, 다채널 디코더가 무선 디바이스 또는 코어 네트워크 디바이스에서 사용되는 개략도이다.
도 4는 본 출원의 실시예에 따른 3차원 오디오 신호 처리 방법의 개략도이다;
도 5는 본 출원의 실시예에 따른 3차원 오디오 신호 처리 방법의 개략도이다.
도 6은 본 출원의 실시예에 따른 3차원 오디오 신호 처리 방법의 개략도이다.
도 7은 본 출원의 실시예에 따른 3차원 오디오 신호 처리 방법의 개략도이다.
도 8은 본 출원의 실시예에 따른 하이브리드 HOA 인코더의 인코딩의 개략적인 흐름도이다.
도 9는 본 출원의 실시예에 따른 HOA 신호의 인코딩 모드를 결정하는 개략적인 흐름도이다.
도 10은 본 출원의 실시예에 따른 하이브리드 HOA 디코더의 디코딩의 개략적인 흐름도이다.
도 11은 본 출원의 실시예에 따른 MP 기반 HOA 인코더의 인코딩의 개략적인 흐름도이다.
도 12는 본 출원의 실시예에 따른 오디오 인코딩 장치의 구성의 구조의 개략도이다.
도 13은 본 출원의 실시예에 따른 오디오 디코딩 장치의 구성의 구조의 개략도이다.
도 14는 본 출원의 실시예에 따른 또 다른 오디오 인코딩 장치의 구성의 구조의 개략도이다.
도 15는 본 출원의 실시예에 따른 또 다른 오디오 디코딩 장치의 구성의 구조의 개략도이다.
이하에서는 첨부 도면들을 참조하여 본 출원의 실시예들을 설명한다.
본 출원의 명세서, 청구항들, 및 첨부 도면들에서, 용어들 "제1", "제2", 및 그와 유사한 것은 유사한 객체들을 구별하도록 의도되는 것이고 반드시 특정 순서 또는 시퀀스를 나타내는 것은 아니다. 이러한 방식으로 사용되는 용어들은 적절한 상황들에서 교환가능하며, 이는 단지 동일한 속성을 갖는 객체들이 본 출원의 실시예들에서 설명될 때 사용되는 구별 방식이라는 점을 이해해야 한다. 또한, "포함하다(include)", "포함하다(contain)"라는 용어들 및 임의의 다른 변형들은 비배타적 포함을 커버하는 것을 의미하므로, 일련의 유닛들을 포함하는 프로세스, 방법, 시스템, 제품, 또는 디바이스가 반드시 이러한 유닛들로만 제한되는 것은 아니고, 명시적으로 열거되지 않은 또는 이러한 프로세스, 방법, 시스템, 제품, 또는 디바이스에 고유한 다른 유닛들을 포함할 수 있다.
사운드(sound)는 물체의 진동에 의해 발생되는 연속파이다. 진동으로 인해 음파를 방출하는 물체를 음원(sound source)이라고 한다. 음파가 매체(예를 들어, 공기, 고체, 또는 액체)를 통해 전파될 때, 인간 또는 동물 청각 기관들이 사운드를 감지할 수 있다.
음파의 특징들은 톤, 사운드 강도, 및 음색을 포함한다. 톤은 사운드의 피치를 나타낸다. 사운드 강도는 사운드의 강도를 나타낸다. 사운드 강도는 라우드니스(loudness) 또는 볼륨이라고도 지칭될 수 있다. 사운드 강도의 단위는 데시벨(decibel, dB)이다. 음색은 음질이라고도 지칭된다.
음파의 주파수는 톤의 피치를 결정한다. 더 높은 주파수는 더 높은 피치를 나타낸다. 1초 내에 객체가 진동하는 횟수를 주파수라고 하고, 주파수의 단위는 헤르츠(hertz, Hz)이다. 인간의 귀에 의해 인식되는 사운드의 주파수는 20Hz 내지 20,000Hz의 범위이다.
음파의 진폭은 사운드 강도의 강도를 결정한다. 더 큰 진폭은 더 큰 음 강도를 나타낸다. 음원에 더 가까운 거리는 더 큰 사운드 강도를 나타낸다.
음파의 파형은 음색을 결정한다. 음파의 파형들은 구형파, 톱니파, 사인파, 및 펄스파를 포함한다.
사운드는 음파의 특징들에 기초하여 규칙적인 사운드 및 불규칙적인 사운드로 분할될 수 있다. 불규칙적인 사운드는 음원의 불규칙한 진동에 의해 발생된 사운드이다. 불규칙적인 사운드는, 예를 들어, 인간의 일, 연구, 휴식, 및 그와 유사한 것에 영향을 미치는 잡음이다. 규칙적인 사운드는 음원의 규칙적인 진동에 의해 발생되는 사운드이다. 규칙적인 사운드는 음성 및 음악을 포함한다. 사운드가 전기에 의해 표현될 때, 규칙적인 사운드는 시간-주파수 도메인에서 연속적으로 변화하는 아날로그 신호이다. 아날로그 신호는 오디오 신호(음향 신호)라고 지칭될 수 있다. 오디오 신호는 음성, 음악, 및 사운드 효과를 운반하는 정보 캐리어이다.
인간의 청각 감각은 공간에서의 음원의 위치 분포를 구별할 수 있기 때문에, 공간에서 사운드를 들을 때, 청취자는 사운드의 톤, 사운드 강도, 및 음색뿐만 아니라, 사운드의 위치도 감지할 수 있다.
청각 시스템 경험에 대한 관심 및 품질 요건이 증가함에 따라, 사운드의 종방향 깊이, 몰입(immersion), 및 공간의 감각을 향상시키기 위해 3차원 오디오 기술이 출현하였다. 따라서, 청취자는 전방, 후방, 좌측, 및 우측 음원들로부터 방출되는 사운드를 듣고, 청취자가 위치하는 공간이 음원들에 의해 발생되는 공간적 음장(음장으로 지칭됨)에 의해 둘러싸인다고 느끼고, 사운드가 주위로 확산된다고 느낄 수 있다. 3차원 오디오 기술은 청취자가 영화 또는 콘서트 홀과 같은 장소들에 있는 것처럼 느끼게 하는 "몰입된" 스테레오 효과를 생성한다.
3차원 오디오 기술은, 인간의 귀 외부의 공간을 시스템으로서 가정하고, 또한 고막에 의해 수신된 신호가, 귀 외부의 시스템에 의해, 음원에 의해 방출된 사운드를 필터링 및 출력함으로써 획득되는 3차원 오디오 신호인 기술이다. 예를 들어, 인간의 귀 외부의 시스템은 시스템 충격 응답(system impact response) h(n)으로서 정의될 수 있고, 임의의 음원은 x(n)으로서 정의될 수 있고, 고막에 의해 수신된 신호는 x(n) 및 h(n)의 컨볼루션 결과이다. 본 출원의 실시예들에서, 3차원 오디오 신호는 고차 앰비소닉스(higher-order ambisonics, HOA) 신호 또는 1차 앰비소닉스(first-order ambisonics, FOA) 신호일 수 있다. 3차원 오디오는 3차원 사운드 효과, 공간적 오디오, 3차원 음장 재구성, 가상 3D 오디오, 바이노럴 오디오(binaural audio), 또는 그와 유사한 것으로도 지칭될 수 있다.
음파는 의 파들의 양 및 의 각주파수로 이상적인 매체에서 전파된다. 는 음파의 주파수이고, 는 음속이다. 음압은 수학식 1을 충족하는데, 은 라플라스 연산자이다.
인간의 귀 외부의 공간 시스템은 구이고, 청취자는 구의 중심에 있다고 가정된다. 구 외부로부터의 사운드는 구의 표면 상에 투영(projection)을 가지며, 구 외부의 사운드는 필터링 제거된다. 음원이 구면 상에 분포되어 있는 것으로 가정된다. 구의 표면 상의 음원에 의해 발생되는 음장은 오리지널 음원에 의해 발생되는 음장을 피팅(fitting)하기 위해 사용되는데, 즉 3차원 오디오 기술은 음장 피팅 방법이다. 구체적으로, 수학식 1의 방정식은 구면 좌표계에서 풀리고, 패시브 구면 영역(passive spherical area)에서, 수학식 1의 방정식은 다음의 수학식 2로서 풀린다:
는 구면 반경을 나타내고, 는 수평 각도를 나타내고, 는 고도각(elevation angle)을 나타내고, 는 파들의 양을 나타내고, 는 이상적인 평면파의 진폭을 나타내고, 는 3차원 오디오 신호의 차수 시퀀스 번호(HOA 신호의 차수 시퀀스 번호라고도 지칭됨)를 나타낸다. 는 구면 베셀 함수를 나타내는데, 여기서 구면 베셀 함수는 방사상 기저 함수라고도 지칭되고, 첫 번째 j는 허수 단위를 나타내고, 은 각도에 따라 변하지 않는다. 의 방향에서의 구면 조화 함수를 나타내고, 는 음원의 방향에서의 구면 조화 함수를 나타낸다. 3차원 오디오 신호의 계수는 수학식 3을 충족한다:
수학식 3은 수학식 2에 대입될 수 있고, 수학식 2는 수학식 4로 변환될 수 있다:
는 N차 3차원 오디오 신호의 계수를 나타내고 음장을 근사적으로 기술하기 위해 사용된다. 음장은 매체 내에 음파가 존재하는 영역이다. N은 1 이상의 정수이다. 예를 들어, N의 값은 2 내지 6 범위의 정수이다. 본 출원의 실시예들에서의 3차원 오디오 신호의 계수는 HOA 계수 또는 앰비소닉스(ambisonic) 계수일 수 있다.
3차원 오디오 신호는 음장 내의 음원의 공간적 위치 정보를 운반하고 공간 내의 청취자의 음장을 기술하는 정보 캐리어이다. 수학식 4는 음장이 구면 조화 함수로서 구의 표면 상에서 확장될 수 있다는 것, 즉 음장이 복수의 평면파의 중첩으로 분해될 수 있다는 것을 보여준다. 따라서, 3차원 오디오 신호에 의해 기술되는 음장은 복수의 평면파의 중첩을 사용하여 표현될 수 있고, 음장은 3차원 오디오 신호의 계수에 기초하여 재구성될 수 있다.
5.1-채널 오디오 신호 또는 7.1-채널 오디오 신호와 비교하여, N차 HOA 신호는 채널들을 갖는다. 따라서, HOA 신호는 음장의 공간적 정보를 기술하기 위해 사용되는 많은 양의 데이터를 포함한다. 취득 디바이스(예를 들어, 마이크로폰)가 3차원 오디오 신호를 재생 디바이스(예를 들어, 스피커)에 송신하는 경우, 큰 대역폭이 소비될 필요가 있다. 현재, 인코더는 공간적 스퀴즈 서라운드 오디오 코딩(spatially squeezed surround audio coding, S3AC) 방법, 방향성 오디오 코딩(directional audio coding, DirAC) 방법, 또는 가상 스피커 선택에 기초한 인코딩 방법을 사용하여 3차원 오디오 신호를 압축 및 인코딩하여, 비트스트림을 획득하고, 비트스트림을 재생 디바이스에 송신할 수 있다. 가상 스피커 선택에 기초한 인코딩 방법은 매치 투영(match projection, MP) 인코딩 방법이라고도 지칭될 수 있다. 이하에서, 가상 스피커 선택에 기초한 인코딩 방법이 설명을 위한 예로서 사용된다. 재생 디바이스는 비트 스트림을 디코딩하고, 3차원 오디오 신호를 재구성하고, 재구성된 3차원 오디오 신호를 재생한다. 이는 3차원 오디오 신호를 재생 디바이스에 송신하기 위한 데이터 양 및 대역폭 점유를 감소시킨다.
3차원 오디오 신호에 대해, 현재, 3차원 오디오 신호의 음장은 분류될 수 없다. 3차원 오디오 신호의 음장을 분류하는 방법이 본 출원의 실시예들에서 해결될 기술적 문제이다. 본 출원의 실시예들에서, 3차원 오디오 신호에 대해 선형 분해가 수행되어, 3차원 오디오 신호의 음장 분류를 구현한다. 이는 3차원 오디오 신호의 음장 분류를 정확하게 구현하고, 현재 프레임의 음장 분류 결과를 획득할 수 있다.
또한, 현재 인코더가 3차원 오디오 신호를 압축 및 인코딩할 때, 높은 압축비가 획득될 수 없다. 따라서, 상이한 음장들의 3차원 오디오 신호들에 대한 압축 인코딩을 수행하기 위해 압축비를 증가시키는 방법이 본 출원의 실시예들에서 해결될 또 다른 문제이다.
본 출원의 실시예는 오디오 인코딩 기술을 제공하는데, 특히, 3차원 오디오 신호에 맞추어진 3차원 오디오 인코딩 기술을 제공한다. 구체적으로, 3차원 오디오 신호가 더 적은 채널들을 사용하여 표현되는 인코딩 기술이 제공되어, 종래의 오디오 인코딩 시스템을 개선한다. 오디오 코딩(또는 흔히 코딩이라고 함)은 2개의 부분: 오디오 인코딩 및 오디오 디코딩을 포함한다. 오디오 인코딩은 소스 측에서 수행되고, 오디오를 표현하는데 요구되는 데이터 양을 감소시키기 위해, 오리지널 오디오를 처리(예를 들어, 압축)하는 것을 포함한다. 이는 저장 및/또는 송신의 효율을 개선한다. 오디오 디코딩은 목적지 측에서 수행되고, 인코더에 대한 역 처리를 포함하여, 오리지널 오디오를 재구성한다. 인코딩 부분 및 디코딩 부분은 코딩이라고도 지칭된다. 이하에서는 첨부 도면들을 참조하여 본 출원의 실시예들의 구현들을 상세히 설명한다.
본 출원의 실시예들에서의 기술적 해결책들은 다양한 오디오 처리 시스템들에 적용될 수 있다. 도 1은 본 출원의 실시예에 따른 오디오 처리 시스템의 구성의 구조의 개략도이다. 오디오 처리 시스템(100)은 오디오 인코딩 장치(101) 및 오디오 디코딩 장치(102)를 포함할 수 있다. 오디오 인코딩 장치(101)는 비트스트림을 발생하도록 구성될 수 있다. 그 후, 오디오 인코딩 비트스트림은 오디오 송신 채널을 통해 오디오 디코딩 장치(102)에 송신될 수 있다. 오디오 디코딩 장치(102)는 비트스트림을 수신하고, 이어서 오디오 디코딩 장치(102)의 오디오 디코딩 기능을 수행하여, 재구성된 신호를 획득할 수 있다.
본 출원의 이 실시예에서, 오디오 인코딩 장치는 오디오 통신을 필요로 하는 다양한 단말 디바이스들, 및 트랜스코딩을 필요로 하는 무선 디바이스들 및 코어 네트워크 디바이스들에서 사용될 수 있다. 예를 들어, 오디오 인코딩 장치는 단말 디바이스, 무선 디바이스, 또는 코어 네트워크 디바이스의 오디오 인코더일 수 있다. 유사하게, 오디오 디코딩 장치는 오디오 통신을 요구하는 다양한 단말 디바이스들, 및 트랜스코딩을 요구하는 무선 디바이스들 및 코어 네트워크 디바이스들에서 사용될 수 있다. 예를 들어, 오디오 디코딩 장치는 단말 디바이스, 무선 디바이스, 또는 코어 네트워크 디바이스의 오디오 디코더일 수 있다. 예를 들어, 오디오 인코더는 라디오 액세스 네트워크, 코어 네트워크 내의 미디어 게이트웨이, 트랜스코딩 디바이스, 미디어 자원 서버, 모바일 단말, 고정 네트워크 단말, 및 그와 유사한 것을 포함할 수 있다. 대안적으로, 오디오 인코더는 가상 현실(virtual reality, VR) 스트리밍(streaming) 미디어 서비스에서 사용되는 오디오 인코더일 수 있다.
본 출원의 이 실시예에서, 가상 현실 스트리밍(VR 스트리밍) 미디어 서비스에 적용가능한 오디오 코딩(오디오 인코딩 및 오디오 디코딩) 모듈이 예로서 사용된다. 종단간 오디오 신호 처리 절차는 다음을 포함한다: 오디오 신호 A가 취득(acquisition) 모듈을 통과한 후에, 전처리(audio preprocessing) 동작이 수행된다. 전처리 동작은: 신호의 저주파수 부분을 필터링 제거하는 것 - 필터링은 경계 포인트로서 20Hz 또는 50Hz를 사용하여 수행될 수 있음 -; 및 신호의 오리엔테이션 정보를 추출하는 것을 포함한다. 그 후, 인코딩(audio encoding) 및 캡슐화(file/segment encapsulation)가 수행되고, 신호가 디코더 측에 전달(delivery)된다. 디코더 측은 먼저 탈캡슐화(file/segment decapsulation)를 수행한 다음, 디코딩(audio decoding)을 수행하고, 디코딩된 신호에 대해 바이노럴 렌더링(audio rendering)을 수행한다. 렌더링을 통해 획득되는 신호는 청취자의 헤드셋(headphones)에 매핑되며, 여기서 헤드셋은 독립적 헤드셋 또는 안경 디바이스 상의 헤드셋일 수 있다.
도 2a는 오디오 인코더 및 오디오 디코더가 본 출원의 실시예에 따른 단말 디바이스에서 사용되는 개략도이다. 각각의 단말 디바이스는 오디오 인코더, 채널 인코더, 오디오 디코더, 및 채널 디코더를 포함할 수 있다. 구체적으로, 채널 인코더는 오디오 신호에 대해 채널 인코딩을 수행하도록 구성되고, 채널 디코더는 오디오 신호에 대해 채널 디코딩을 수행하도록 구성된다. 예를 들어, 제1 단말 디바이스(20)는 제1 오디오 인코더(201), 제1 채널 인코더(202), 제1 오디오 디코더(203), 및 제1 채널 디코더(204)를 포함할 수 있다. 제2 단말 디바이스(21)는 제2 오디오 디코더(211), 제2 채널 디코더(212), 제2 오디오 인코더(213), 및 제2 채널 인코더(214)를 포함할 수 있다. 제1 단말 디바이스(20)는 무선 또는 유선 제1 네트워크 통신 디바이스(22)에 접속되고, 제1 네트워크 통신 디바이스(22)는 디지털 채널을 통해 무선 또는 유선 제2 네트워크 통신 디바이스(23)에 접속되고, 제2 단말 디바이스(21)는 무선 또는 유선 제2 네트워크 통신 디바이스(23)에 접속된다. 무선 또는 유선 네트워크 통신 디바이스는 일반적으로 신호 송신 디바이스, 예를 들어, 통신 기지국 또는 데이터 스위칭 디바이스일 수 있다.
오디오 통신에서, 송신단의 역할을 하는 단말 디바이스는 먼저 오디오 취득을 수행하고, 취득된 오디오 신호에 오디오 인코딩을 수행하고, 그 후 채널 인코딩을 수행하고, 인코딩된 신호를 무선 네트워크 또는 코어 네트워크를 통해 디지털 채널에서 송신한다. 수신단의 역할을 하는 단말 디바이스는 수신된 신호에 기초하여 채널 디코딩을 수행하여, 비트스트림을 획득하고, 그 후 오디오 디코딩을 통해 오디오 신호를 복원한다. 수신단에 있는 단말 디바이스는 오디오 재생을 수행한다.
도 2b는 본 출원의 실시예에 따른 오디오 인코더가 무선 디바이스 또는 코어 네트워크 디바이스에서 사용되는 개략도이다. 무선 디바이스 또는 코어 네트워크 디바이스(25)는: 채널 디코더(251), 또 다른 오디오 디코더(252), 본 출원의 이 실시예에서 제공되는 오디오 인코더(253), 및 채널 인코더(254)를 포함한다. 또 다른 오디오 디코더(252)는 오디오 디코더 이외의 또 다른 오디오 디코더이다. 무선 디바이스 또는 코어 네트워크 디바이스(25)에서, 채널 디코더(251)는 먼저 디바이스에 들어가는 신호에 대해 채널 디코딩을 수행하고, 그 후 또 다른 오디오 디코더(252)는 오디오 디코딩을 수행한다. 그 후, 본 출원의 이 실시예에서 제공되는 오디오 인코더(253)가 오디오 인코딩을 수행하고, 마지막으로 채널 인코더(254)가 오디오 신호에 대해 채널 인코딩을 수행하고, 그 후 채널 인코딩이 완료된 후에 인코딩된 오디오 신호를 송신한다. 또 다른 오디오 디코더(252)는 채널 디코더(251)에 의해 디코딩된 비트스트림에 대해 오디오 디코딩을 수행한다.
도 2c는 본 출원의 실시예에 따른 오디오 디코더가 무선 디바이스 또는 코어 네트워크 디바이스에서 사용되는 개략도이다. 무선 디바이스 또는 코어 네트워크 디바이스(25)는: 채널 디코더(251), 본 출원의 이 실시예에서 제공되는 오디오 디코더(255), 또 다른 오디오 인코더(256), 및 채널 인코더(254)를 포함한다. 또 다른 오디오 인코더(256)는 오디오 인코더 이외의 또 다른 오디오 인코더이다. 무선 디바이스 또는 코어 네트워크 디바이스(25)에서, 채널 디코더(251)는 먼저 디바이스에 들어가는 신호에 대해 채널 디코딩을 수행하고, 그 후 오디오 디코더(255)는 수신된 오디오 인코딩 비트스트림을 디코딩한다. 그 후, 또 다른 오디오 인코더(256)가 오디오 인코딩을 수행하고, 마지막으로 채널 인코더(254)가 오디오 신호에 대해 채널 인코딩을 수행하고, 그 후 채널 인코딩이 완료된 후에 인코딩된 오디오 신호를 송신한다. 무선 디바이스 또는 코어 네트워크 디바이스에서, 트랜스코딩이 구현될 필요가 있는 경우, 대응하는 오디오 인코딩 처리가 수행될 필요가 있다. 무선 디바이스는 통신 중인 무선 주파수 관련 디바이스이고, 코어 네트워크 디바이스는 통신 중인 코어 네트워크 관련 디바이스이다.
본 출원의 일부 실시예들에서, 오디오 인코딩 장치는 오디오 통신을 요구하는 다양한 단말 디바이스들, 및 트랜스코딩을 요구하는 무선 디바이스들 및 코어 네트워크 디바이스들에서 사용될 수 있다. 예를 들어, 오디오 인코딩 장치는 단말 디바이스, 무선 디바이스, 또는 코어 네트워크 디바이스의 다채널 인코더일 수 있다. 유사하게, 오디오 디코딩 장치는 오디오 통신을 요구하는 다양한 단말 디바이스들, 및 트랜스코딩을 요구하는 무선 디바이스들 및 코어 네트워크 디바이스들에서 사용될 수 있다. 예를 들어, 오디오 디코딩 장치는 단말 디바이스, 무선 디바이스, 또는 코어 네트워크 디바이스의 다채널 디코더일 수 있다.
도 3a는 본 출원의 실시예에 따른 다채널 인코더 및 다채널 디코더를 단말 디바이스에 적용한 것의 개략도이다. 각각의 단말 디바이스는 다채널 인코더, 채널 인코더, 다채널 디코더, 및 채널 디코더를 포함할 수 있다. 다채널 인코더는 본 출원의 실시예들에서 제공되는 오디오 인코딩 방법을 수행할 수 있고, 다채널 디코더는 본 출원의 실시예들에서 제공되는 오디오 디코딩 방법을 수행할 수 있다. 구체적으로, 채널 인코더는 다채널 신호에 대해 채널 인코딩을 수행하도록 구성되고, 채널 디코더는 다채널 신호에 대해 채널 디코딩을 수행하도록 구성된다. 예를 들어, 제1 단말 디바이스(30)는 제1 다채널 인코더(301), 제1 채널 인코더(302), 제1 다채널 디코더(303), 및 제1 채널 디코더(304)를 포함할 수 있다. 제2 단말 디바이스(31)는 제2 다채널 디코더(311), 제2 채널 디코더(312), 제2 다채널 인코더(313), 및 제2 채널 인코더(314)를 포함할 수 있다. 제1 단말 디바이스(30)는 무선 또는 유선 제1 네트워크 통신 디바이스(32)에 접속되고, 제1 네트워크 통신 디바이스(32)는 디지털 채널을 통해 무선 또는 유선 제2 네트워크 통신 디바이스(33)에 접속되고, 제2 단말 디바이스(31)는 무선 또는 유선 제2 네트워크 통신 디바이스(33)에 접속된다. 무선 또는 유선 네트워크 통신 디바이스는 일반적으로 신호 송신 디바이스, 예를 들어, 통신 기지국 또는 데이터 스위칭 디바이스일 수 있다. 오디오 통신에서, 송신단의 역할을 하는 단말 디바이스가 취득된 다채널 신호에 대해 다채널 인코딩을 수행하고, 그 후 채널 인코딩을 수행하고, 인코딩된 신호를 무선 네트워크 또는 코어 네트워크를 통해 디지털 채널에서 송신한다. 수신단의 역할을 하는 단말 디바이스가 수신된 신호에 기초하여 채널 디코딩을 수행하여, 다채널 신호 인코딩 비트스트림을 획득하고, 그 후 다채널 디코딩을 통해 다채널 신호를 복원한다. 수신단의 역할을 하는 단말 디바이스가 재생을 수행한다.
도 3b는 본 출원의 실시예에 따른 다채널 인코더를 무선 디바이스 또는 코어 네트워크 디바이스에 적용한 것의 개략도이다. 무선 디바이스 또는 코어 네트워크 디바이스(35)는: 채널 디코더(351), 또 다른 오디오 디코더(352), 다채널 인코더(353), 및 채널 인코더(354)를 포함한다. 도 3b는 도 2b와 유사하고, 상세사항들은 여기서 다시 설명되지 않는다.
도 3c는 본 출원의 실시예에 따른 다채널 디코더를 무선 디바이스 또는 코어 네트워크 디바이스에 적용한 것의 개략도이다. 무선 디바이스 또는 코어 네트워크 디바이스(35)는: 채널 디코더(351), 다채널 디코더(355), 또 다른 오디오 인코더(356), 및 채널 인코더(354)를 포함한다. 도 3c는 도 2c와 유사하고, 상세 사항들은 여기서 다시 설명되지 않는다.
오디오 인코딩은 다채널 인코더의 일부일 수 있고, 오디오 디코딩은 다채널 디코더의 일부일 수 있다. 예를 들어, 취득된 다채널 신호에 대해 다채널 인코딩을 수행하는 것은 취득된 다채널 신호를 처리하여 오디오 신호를 획득하는 것일 수 있다. 그 후, 획득된 오디오 신호는 본 출원의 실시예들에서 제공되는 방법에 따라 인코딩된다. 디코더 측은 다채널 신호에 기초하여 비트스트림을 인코딩하고, 디코딩을 수행하여, 오디오 신호를 획득하고, 업믹싱(upmixing) 처리 후에 다채널 신호를 복원한다. 따라서, 본 출원의 실시예들은 또한 단말 디바이스, 무선 디바이스, 또는 코어 네트워크 디바이스 내의 다채널 인코더 및 다채널 디코더에 적용될 수 있다. 무선 또는 코어 네트워크 디바이스에서, 트랜스코딩이 구현될 필요가 있는 경우, 대응하는 다채널 인코딩 처리가 수행될 필요가 있다.
본 출원의 실시예들에서 제공되는 3차원 오디오 신호 처리 방법이 먼저 설명된다. 방법은 단말 디바이스에 의해 수행될 수 있다. 예를 들어, 단말 디바이스는 오디오 인코딩 장치(이하에서 인코더 측 또는 인코더라고 지칭됨)일 수 있다. 단말 디바이스가 대안적으로 3차원 오디오 신호 처리 장치일 수 있다는 것은 제한되지 않는다. 도 4에 도시된 바와 같이, 3차원 오디오 신호 처리 방법은 주로 다음의 단계들을 포함한다.
401: 3차원 오디오 신호의 현재 프레임에 대해 선형 분해를 수행하여, 선형 분해 결과를 획득한다.
인코더 측은 3차원 오디오 신호를 획득할 수 있다. 예를 들어, 3차원 오디오 신호는 장면 오디오 신호일 수 있다. 구체적으로, 3차원 오디오 신호는 시간 도메인 신호 또는 주파수 도메인 신호일 수 있다. 또한, 3차원 오디오 신호는 대안적으로 다운샘플링을 통해 획득된 신호일 수 있다.
본 출원의 일부 실시예들에서, 3차원 오디오 신호는 고차 앰비소닉스(HOA) 신호 또는 1차 앰비소닉스(FOA) 신호를 포함한다. 3차원 오디오 신호가 대안적으로 또 다른 타입의 신호일 수 있다는 것은 제한되지 않는다. 이는 본 출원의 예일 뿐이고, 본 출원의 이 실시예에 대한 제한으로서 의도되지 않는다.
예를 들어, 3차원 오디오 신호는 시간 도메인 HOA 신호 또는 주파수 도메인 HOA 신호일 수 있다. 또 다른 예로서, 3차원 오디오 신호는 HOA 신호의 모든 채널들을 포함할 수 있거나 또는 일부 HOA 채널들(예를 들어, FOA 채널)을 포함할 수 있다. 덧붙여, 3차원 오디오 신호는 HOA 신호의 모든 샘플링 포인트들일 수 있거나, 또는 다운샘플링을 통해 획득된 분석될 HOA 신호의 1/Q 다운샘플링 포인트들일 수 있다. Q는 다운샘플링 간격이고, 1/Q는 다운샘플링 레이트이다.
본 출원의 이 실시예에서, 3차원 오디오 신호는 복수의 프레임을 포함한다. 이하에서는 3차원 오디오 신호의 하나의 프레임의 처리를 예로서 사용한다. 예를 들어, 프레임이 현재 프레임인 경우, 3차원 오디오 신호의 현재 프레임 전에 이전 프레임이 존재하고, 현재 프레임 후에 다음 프레임이 존재한다. 또한, 본 출원의 이 실시예에서, 현재 프레임 이외의 3차원 오디오 신호에서의 또 다른 프레임을 처리하기 위한 방법은 현재 프레임을 처리하기 위한 방법과 유사하다. 이하에서는 현재 프레임의 처리를 예로서 사용한다.
본 출원의 이 실시예에서, 3차원 오디오 신호의 현재 프레임이 획득된 후에, 현재 프레임에 대해 선형 분해가 먼저 수행되어, 현재 프레임의 선형 분해 결과를 획득한다. 복수의 선형 분해 방식이 존재하며, 이들은 아래에 상세히 설명된다.
본 출원의 일부 실시예들에서, 단계 401에서 3차원 오디오 신호의 현재 프레임에 대해 선형 분해를 수행하여, 선형 분해 결과를 획득하는 단계는:
A1: 현재 프레임에 대해 특이값 분해를 수행하여, 현재 프레임에 대응하는 특이값을 획득하는 단계 - 선형 분해 결과는 특이값을 포함함 -;
A2: 현재 프레임에 대해 주성분 분석을 수행하여, 현재 프레임에 대응하는 제1 특징 값을 획득하는 단계 - 선형 분해 결과는 제1 특징 값을 포함함 -; 또는
A3: 현재 프레임에 대해 독립적 성분 분석을 수행하여, 현재 프레임에 대응하는 제2 특징값을 획득하는 단계 - 선형 분해 결과는 제2 특징 값을 포함함 - 를 포함한다.
복수의 선형 분해 방식이 있다. 예를 들어, 선형 분해는 특이값 분해(singular value decomposition, SVD), 주성분 분석(principal component analysis, PCA), 및 독립적 성분 분석(independent component analysis, ICA) 중 적어도 하나를 포함할 수 있다. 상이한 선형 분해 방식들에서, 획득된 선형 분해 결과들은 상이한 표현 방식들을 가지며, 이것은 아래에 상세히 설명된다.
단계 A1에서, 선형 분해는 특이값 분해일 수 있다. 예를 들어, 3차원 오디오 신호는 HOA 신호라고 가정된다. HOA 신호는 행렬 A를 형성하고, 행렬 A는 L*K 행렬이며, 여기서 L은 HOA 신호의 채널들의 양이고, K는 현재 프레임에서의 HOA 신호의 각각의 채널의 신호 포인트들의 양이다. 예를 들어, 신호 포인트들의 양은 주파수들의 양, 시간 도메인에서의 샘플링 포인트들의 양, 또는 다운샘플링 후의 주파수들의 양 또는 샘플링 포인트들의 양을 포함할 수 있다. 특이값 분해는 행렬 A에 대해 수행되고, 다음의 관계가 충족된다:
U는 L*L 행렬이고, 는 K*K 행렬이며, 위첨자 T는 행렬 의 전치이고, *는 곱셈을 나타낸다. 는 L*K 대각 행렬이고, 여기서 행렬의 주 대각선 상의 각각의 성분은 행렬 A의 특이값 분해를 통해 획득된 특이값이고, 주 대각선 바깥의 모든 성분은 0이다. 대각 행렬 의 주 대각선 상의 성분, 즉 행렬 A의 특이값은 v[i]로 표시되고, 여기서 i = 0, 1, ..., min(L,K)-1이다.
3차원 오디오 신호가 다운샘플링을 통해 획득된 HOA 신호인 경우, K는 다운샘플링 후의 현재 프레임에서의 HOA 신호의 각각의 채널의 신호 포인트들의 양이라는 것에 유의해야 한다. 예를 들어, 신호 포인트들의 양은 샘플링 포인트들의 양 또는 주파수들의 양일 수 있다.
단계 A2에서, 선형 분해는 대안적으로 특징 값을 획득하기 위한 주성분 분석일 수 있다. 후속 실시예들에서 또 다른 특징 값과 구별하기 위해, 주성분 분석을 통해 획득된 특징 값이 제1 특징 값으로서 정의된다. 주성분 분석의 특정 구현은 여기서 다시 설명되지 않는다.
단계 A3에서, 선형 분해는 대안적으로 제2 특징 값을 획득하기 위한 독립적 성분 분석일 수 있다. 독립적 성분 분석의 특정 구현은 여기서 다시 설명되지 않는다.
본 출원의 이 실시예에서, 현재 프레임의 선형 분해는 복수 타입의 선형 분해 결과들을 획득하기 위해, 전술한 구현들 A1 내지 A3 중 어느 하나에서 구현될 수 있다.
402: 선형 분해 결과에 기초하여, 현재 프레임에 대응하는 음장 분류 파라미터를 획득한다.
현재 프레임의 선형 분석 결과를 획득한 후, 인코더 측은 선형 분해 결과를 분석하여, 현재 프레임에 대응하는 음장 분류 파라미터를 획득한다. 음장 분류 파라미터는 현재 프레임의 선형 분해 결과를 분석함으로써 획득되고, 음장 분류 파라미터는 현재 프레임의 음장 분류 결과를 결정하기 위해 사용된다. 선형 분해 결과의 상이한 특정 구현들에 기초하여, 음장 분류 파라미터는 복수의 구현을 가질 수 있다.
본 출원의 이 실시예에서, 하나 이상의 선형 분해 결과가 있을 수 있다. 예를 들어, 선형 분해 결과는 특이값을 포함하고, 특이값은 v[i]이고, i = 0, 1, ..., min(L,K)-1이다. 현재 프레임의 하나의 특이값만이 있을 때, i의 하나의 값, 즉 v[0]만이 있다. 현재 프레임의 복수의 특이값이 있을 때, i의 복수의 값, 즉 v[i]가 있고, 여기서 i = 1, ..., min(L,K)-1이다.
본 출원의 이 실시예에서, 2개의 선형 분해 결과가 존재할 때, 하나의 획득된 음장 분류 파라미터가 존재한다. 선형 분해 결과들의 양이 N일 때, 획득된 음장 분류 파라미터들의 양은 N-1이고, N의 값은 제한되지 않는다.
본 출원의 일부 실시예들에서, 단계 402에서 선형 분해 결과에 기초하여 현재 프레임에 대응하는 음장 분류 파라미터를 획득하는 단계는:
B1: 현재 프레임의 i번째 선형 분석 결과 대 현재 프레임의 (i+1)번째 선형 분석 결과의 비율을 획득하는 단계 - i는 양의 정수임 -; 및
B2: 비율에 기초하여, 현재 프레임에 대응하는 i번째 음장 분류 파라미터를 획득하는 단계를 포함한다.
인코더 측은, 선형 분해 결과에 기초하여, 현재 프레임에 대응하는 음장 분류 파라미터를 획득할 수 있다. 예를 들어, 현재 프레임의 복수의 선형 분해 결과가 존재하고, 복수의 선형 분석 결과 중 2개의 연속 선형 분석 결과는 현재 프레임의 i번째 선형 분석 결과 및 (i+1)번째 선형 분석 결과로서 표현된다. 이 경우, 현재 프레임의 i번째 선형 분석 결과 대 현재 프레임의 (i+1)번째 선형 분석 결과의 비율이 계산될 수 있는데, i의 특정 값은 제한되지 않는다.
선택적으로, i번째 선형 분석 결과 및 (i+1)번째 선형 분석 결과는 현재 프레임의 2개의 연속 선형 분석 결과이다.
비율이 획득된 후, 현재 프레임에 대응하는 i번째 음장 분류 파라미터가 현재 프레임의 i번째 선형 분석 결과 대 (i+1)번째 선형 분석 결과의 비율에 기초하여 획득될 수 있다. i번째 음장 분류 파라미터는 i번째 선형 분석 결과 대 (i+1)번째 선형 분석 결과의 비율에 기초하여 계산될 수 있다는 것을 알 수 있다. (i+1)번째 음장 분류 파라미터는 (i+1)번째 선형 분석 결과 대 (i+2)번째 선형 분석 결과의 비율에 기초하여 계산될 수 있고, 나머지는 유추에 의해 추론될 수 있다. 선형 분석 결과와 음장 분류 파라미터 사이에는 대응 관계가 존재한다.
구현에서, i번째 선형 분석 결과 대 (i+1)번째 선형 분석 결과의 비율은 i번째 음장 분류 파라미터로서 이용될 수 있다. i번째 선형 분석 결과 대 (i+1)번째 선형 분석 결과의 비율이 획득된 후, 그 비율에 대해 복수의 계산 방식이 더 수행될 수 있는 것은 제한되지 않고, 따라서 i번째 음장 분류 파라미터가 계산될 수 있도록 한다. 예를 들어, 미리 설정된 조정 인자에 기초하여 비율에 대해 곱셈 연산을 수행하여, i번째 음장 분류 파라미터를 획득한다.
예를 들어, 특이값 분해가 선형 분해를 위해 사용되는 경우, 특이값 분해를 통해 음장 분류 파라미터에 기초하여 특이값이 획득될 수 있고, 2개의 인접한 특이값 사이의 비율 파라미터가 계산되고, 음장 분류 파라미터로서 사용된다.
예를 들어, 특이값들 사이의 비율 temp[i]가 계산되고, 음장 분류 파라미터로서 사용된다. i = 0, 1, ..., min(L,K)-2에 대해, temp[i]는 다음을 충족한다:
.
PCA 또는 ICA가 선형 분해를 위해 사용되는 경우, 음장 분류 파라미터는 특징 값에 기초하여 결정될 수 있다. 음장 분류 파라미터를 계산하기 위한 방법은 특이값들 사이의 비율 temp를 계산하기 위한 방법과 유사하다. 대안적으로, 2개의 연속 특징 값 사이의 비율은 선형 분해를 통해 획득된 특징 값들에 기초하여 계산될 수 있고, 비율은 음장 분류 파라미터로서 사용된다.
선형 분해를 통해 획득된 특징 값들 또는 특이 값들의 양이 2보다 큰 경우, 음장 분류 파라미터는 벡터라는 점에 유의해야 한다. 그렇지 않으면, 음장 분류 파라미터는 스칼라이다. 예를 들어, v[i]에 대해, i의 값이 2와 동일한 경우, 계산된 temp[i]는 스칼라이고, 즉 하나의 temp 값만이 존재한다. v[i]에 대해, i의 값이 2보다 큰 경우, 계산된 temp[i]는 벡터이고, temp는 적어도 2개의 성분을 포함한다.
403: 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정한다.
본 출원의 이 실시예에서, 현재 프레임에 대응하는 음장 분류 파라미터를 획득한 후에, 인코더 측은 음장 분류 파라미터에 기초하여 현재 프레임에 대한 음장 분류를 수행할 수 있다. 현재 프레임에 대응하는 음장 분류 파라미터가 현재 프레임에 대응하는 음장의 분류를 위해 요구되는 파라미터를 나타낼 수 있기 때문에, 현재 프레임의 음장 분류 결과는 음장 분류 파라미터에 기초하여 획득될 수 있다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 음장 타입 및 이종 음원들의 양 중 적어도 하나를 포함할 수 있다.
음장 타입은 현재 프레임에 대해 음장 분류가 수행된 후에 결정되는, 현재 프레임의 음장 타입이다. 음장 타입들을 분류하는 복수의 방식이 존재한다. 예를 들어, 음장 타입들은 제1 음장 타입 및 제2 음장 타입으로 분류될 수 있다. 대안적으로, 음장 타입들은 제1 음장 타입, 제2 음장 타입, 제3 음장 타입, 및 그와 유사한 것으로 분류될 수 있다. 구체적으로, 분류될 수 있는 음장 타입들의 양은 적용 시나리오에 기초하여 결정될 수 있다. 또 다른 예를 들어, 음장 타입은 이종 음장 및 분산 음장을 포함할 수 있다. 이종 음장은 상이한 위치들 및/또는 방향들을 갖는 포인트 음원들이 음장에 존재하는 것을 의미하고, 분산 음장은 이종 음원을 포함하지 않는 음장이다. 예를 들어, 상이한 위치들 및/또는 방향들을 갖는 포인트 음원들은 이종 음원들이고, 이종 음원을 포함하는 음장은 이종 음장이고, 이종 음원을 포함하지 않는 음장은 분산 음장이다.
이종 음원들은 상이한 위치들 및/또는 방향들을 갖는 포인트 음원들이고, 현재 프레임에 포함된 이종 음원들의 양이 이종 음원들의 양으로 지칭된다. 대안적으로, 현재 프레임의 음장은 이종 음원들의 양에 기초하여 분류될 수 있다.
본 출원의 일부 실시예들에서, 복수의 음장 분류 파라미터가 존재한다. 음장 분류 결과는 음장 타입을 포함한다.
단계 403에서 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정하는 단계는:
복수의 음장 분류 파라미터의 값들이 모두 미리 설정된 분산 음원 결정 조건을 충족할 때, 음장 타입이 분산 음장인 것을 결정하는 단계; 또는
복수의 음장 분류 파라미터의 값들 중 적어도 하나가 미리 설정된 이종 음원 결정 조건을 충족할 때, 음장 타입이 이종 음장인 것을 결정하는 단계를 포함한다.
음장 타입은 이종 음장 및 분산 음장을 포함할 수 있다. 본 출원의 이 실시예에서, 분산 음원 결정 조건 및 이종 음원 결정 조건은 미리 설정된다. 분산 음원 결정 조건은 음장 타입이 분산 음장인지를 결정하기 위해 사용되고, 이종 음원 결정 조건은 음장 타입이 이종 음장인지를 결정하기 위해 사용된다. 현재 프레임의 복수의 음장 분류 파라미터가 획득된 후에, 복수의 음장 분류 파라미터의 값들 및 미리 설정된 조건에 기초하여 결정이 수행된다. 분산 음원 결정 조건 및 이종 음원 결정 조건의 특정 구현들은 본 명세서에서 제한되지 않는다.
복수의 음장 분류 파라미터가 획득된 후, 복수의 음장 분류 파라미터의 값들이 모두 미리 설정된 분산 음원 결정 조건을 충족할 때, 인코더 측은 음장 타입이 분산 음장인 것을 결정한다. 예를 들어, 현재 프레임은 N개의 음장 분류 파라미터에 대응한다. N개의 음장 분류 파라미터의 값들이 모두 미리 설정된 분산 음원 결정 조건을 충족할 때에만, 현재 프레임의 음장 타입이 분산 음장인 것이 결정된다.
복수의 음장 분류 파라미터가 획득된 후에, 복수의 음장 분류 파라미터의 값들 중 적어도 하나가 미리 설정된 이종 음원 결정 조건을 충족할 때, 인코더 측은 음장 타입이 이종 음장인 것을 결정한다. 예를 들어, 현재 프레임은 N개의 음장 분류 파라미터에 대응한다. N개의 음장 분류 파라미터의 값들 중 적어도 하나가 미리 설정된 이종 음원 결정 조건을 충족할 때에만, 음장 타입이 이종 음장인 것을 결정된다.
또한, 본 출원의 일부 실시예들에서, 분산 음원 결정 조건은 음장 분류 파라미터의 값이 미리 설정된 이종 음원 결정 임계값보다 작은 것을 포함하고; 또는
이종 음원 결정 조건은 음장 분류 파라미터의 값이 미리 설정된 이종 음원 결정 임계값 이상인 것을 포함한다.
이종 음원 결정 임계값은 미리 설정된 임계값일 수 있고, 특정 값은 제한되지 않는다. 분산 음원 결정 조건은 음장 분류 파라미터의 값이 미리 설정된 이종 음원 결정 임계값보다 작은 것을 포함한다. 따라서, 복수의 음장 분류 파라미터의 값들이 모두 미리 설정된 이종 음원 결정 임계값보다 작을 때, 음장 타입이 분산 음장인 것이 결정된다. 이종 음원 결정 조건은 음장 분류 파라미터의 값이 미리 설정된 이종 음원 결정 임계값 이상인 것을 포함한다. 따라서, 복수의 음장 분류 파라미터의 값들 중 적어도 하나가 미리 설정된 이종 음원 결정 임계값 이상일 때, 음장 타입이 이종 음장인 것이 결정된다.
본 출원의 일부 실시예들에서, 복수의 음장 분류 파라미터가 존재한다.
음장 분류 결과는 음장 타입을 포함하거나, 또는 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다.
단계 403에서 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정하는 단계는:
C1: 복수의 음장 분류 파라미터의 값들에 기초하여, 현재 프레임에 대응하는 이종 음원들의 양을 획득하는 단계; 및
C2: 현재 프레임에 대응하는 이종 음원들의 양에 기초하여 음장 타입을 결정하는 단계를 포함한다.
현재 프레임에 대응하는 복수의 음장 분류 파라미터를 획득한 후에, 인코더 측은, 복수의 음장 분류 파라미터의 값들에 기초하여, 현재 프레임에 대응하는 이종 음원들의 양을 획득할 수 있다. 이종 음원들은 상이한 위치들 및/또는 방향들을 갖는 포인트 음원들이고, 현재 프레임에 포함된 이종 음원들의 양이 이종 음원들의 양으로 지칭된다. 현재 프레임의 음장은 이종 음원들의 양에 기초하여 분류될 수 있다. 음장 타입을 결정하기 위해 현재 프레임에 대응하는 이종 음원들의 양이 획득된 후, 현재 프레임에 대응하는 음장 타입은 현재 프레임에 대응하는 이종 음원들의 양을 분석함으로써 결정될 수 있다.
본 출원의 일부 실시예들에서, 복수의 음장 분류 파라미터가 존재한다.
음장 분류 결과는 이종 음원들의 양을 포함한다.
단계 403에서 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정하는 단계는:
D1: 복수의 음장 분류 파라미터의 값들에 기초하여, 현재 프레임에 대응하는 이종 음원들의 양을 획득하는 단계를 포함한다.
현재 프레임에 대응하는 복수의 음장 분류 파라미터를 획득한 후에, 인코더 측은, 복수의 음장 분류 파라미터의 값들에 기초하여, 현재 프레임에 대응하는 이종 음원들의 양을 획득할 수 있다. 이종 음원들은 상이한 위치들 및/또는 방향들을 갖는 포인트 음원들이고, 현재 프레임에 포함된 이종 음원들의 양이 이종 음원들의 양으로 지칭된다.
또한, 본 출원의 일부 실시예들에서, 복수의 음장 분류 파라미터는 temp[i]이고, i = 0, 1, ..., min(L,K)-2, L은 현재 프레임의 채널들의 양을 나타내고, K는 현재 프레임의 각각의 채널에 대응하는 신호 포인트들의 양이고, min은 최소 값이 선택되는 동작을 나타낸다. 예를 들어, 신호 포인트들의 양은 주파수들의 양, 시간 도메인에서의 샘플링 포인트들의 양, 또는 다운샘플링 후의 주파수들의 양 또는 시간 도메인에서의 샘플링 포인트들의 양일 수 있다.
복수의 음장 분류 파라미터의 값들에 기초하여, 단계 C1 또는 단계 D1에서 현재 프레임에 대응하는 이종 음원들의 양을 획득하는 단계는:
i=0으로부터 다음의 결정 절차들을 순차적으로 수행하는 단계:
temp[i]가 미리 설정된 이종 음원 결정 임계값보다 큰지를 결정하는 단계; 및
이 결정 절차에서 temp[i]가 이종 음원 결정 임계값보다 작을 때, i의 값을 i+1로 갱신하고, 다음 결정 절차를 계속 수행하는 단계; 또는
이 결정 절차에서 temp[i]가 이종 음원 결정 임계값 이상일 때, 결정 절차의 실행을 종료하고, 이 결정 절차에서의 i에 1을 더한 것이 이종 음원들의 양과 동일한 것을 결정하는 단계를 포함한다.
구체적으로, 인코더 측은 음장 분류 파라미터에 기초하여 이종 음원들의 양을 추정하고, 음장 타입을 결정할 수 있다.
음장 타입은 이종 음장 및 분산 음장을 포함할 수 있다. 이종 음장은 상이한 위치들 및/또는 방향들을 갖는 포인트 음원이 음장에 존재한다는 것을 의미한다. 분산 음장은 이종 음원을 포함하지 않는 음장이다.
음장 분류 파라미터들의 값들이 모두 분산 음장 결정 조건을 충족하는 경우, 음장 타입은 분산 음장이다.
음장 분류 파라미터들의 값이 이종 음장 결정 조건을 충족할 때, 음장 타입이 이종 음장인 것이 결정된다. 이종 음원들의 양은 이종 음장 결정 조건을 충족하는, 음장 분류 파라미터들의 값들 중의 한 값의 시퀀스 번호에 기초하여 추정될 수 있다.
예를 들어, 특이값들 사이의 비율 temp[i]가 음장 분류 파라미터로서 사용될 때, 음장 타입 및 이종 음원들의 양은 음장 분류 파라미터에 기초하여 추정되고, temp[i]의 값은 i=0으로부터 순차적으로 결정된다. i의 값이 m일 때, m번째 음장 분류 파라미터의 값은 temp[m]으로서 표현된다. m번째 음장 분류 파라미터가 을 충족할 때, 음장 타입은 이종 음장이고, 현재 프레임의 음장에는 (m+1)개의 이종 음원이 존재한다. 이 충족되지 않는 경우, 음장 타입은 분산 음장이다. m의 값 범위는 [0, 1, ..., min(L,K)-2]이고, TH1은 미리 설정된 이종 음원 결정 임계값이고, TH1의 값은 상수일 수 있는데, 예를 들어, TH1의 값은 30 또는 100일 수 있다. TH1의 값은 본 출원의 이 실시예에서 제한되지 않는다.
본 출원의 일부 실시예들에서, 단계 C2에서 현재 프레임에 대응하는 이종 음원들의 양에 기초하여 음장 타입을 결정하는 단계는:
이종 음원들의 양이 제1 미리 설정된 조건을 충족할 때, 음장 타입이 제1 음장 타입인 것을 결정하는 단계; 또는
이종 음원들의 양이 제1 미리 설정된 조건을 충족하지 못할 때, 음장 타입이 제2 음장 타입인 것을 결정하는 단계를 포함한다.
제1 음장 타입에 대응하는 이종 음원들의 양은 제2 음장 타입에 대응하는 이종 음원들의 양과 상이하다.
구체적으로, 음장 타입들은 이종 음원들의 상이한 양들에 기초하여 2개의 타입: 제1 음장 타입 및 제2 음장 타입으로 분류될 수 있다. 인코더 측은 제1 미리 설정된 조건을 획득하고; 이종 음원들의 양이 제1 미리 설정된 조건을 충족하는지를 결정하고; 및 이종 음원들의 양이 제1 미리 설정된 조건을 충족할 때, 음장 타입이 제1 음장 타입인 것을 결정하고; 또는 이종 음원들의 양이 제1 미리 설정된 조건을 충족하지 못할 때, 음장 타입이 제2 음장 타입인 것을 결정한다. 본 출원의 이 실시예에서, 이종 음원들의 양이 제1 미리 설정된 조건을 충족하는지가 결정되어, 현재 프레임의 음장 타입의 분할을 구현하여, 현재 프레임의 음장 타입이 제1 음장 타입 또는 제2 음장 타입에 속하는 것을 정확하게 식별할 수 있다.
본 출원의 일부 실시예들에서, 제1 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값보다 크거나 제2 임계값보다 작고 제2 임계값이 제1 임계값보다 큰 것을 포함하고; 또는
제1 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값 이하이거나 제2 임계값 이상이고 제2 임계값이 제1 임계값보다 큰 것을 포함한다.
제1 임계값 및 제2 임계값의 특정 값들은 제한되지 않고, 적용 시나리오에 기초하여 구체적으로 결정될 수 있다. 제2 임계값은 제1 임계값보다 크다. 따라서, 제1 임계값 및 제2 임계값은 미리 설정된 범위를 형성할 수 있고, 제1 미리 설정된 조건은 이종 음원들의 양이 미리 설정된 범위 내에 드는 것일 수 있거나, 또는 제1 미리 설정된 조건은 이종 음원들의 양이 미리 설정된 범위를 넘는 것일 수 있다. 이종 음원들의 양은 제1 미리 설정된 조건에서의 제1 임계값 및 제2 임계값에 기초하여 결정되어, 이종 음원들의 양이 제1 미리 설정된 조건을 충족하는지를 결정하여, 현재 프레임의 음장 타입이 제1 음장 타입 또는 제2 음장 타입에 속하는 것을 정확하게 식별할 수 있다.
예를 들어, 제1 임계값은 0이고, 제2 임계값은 3이고, 이종 음원들의 양은 n으로서 표현된다. 이 경우, 제1 미리 설정된 조건은 0 < n < 3일 수 있거나, 또는 제1 미리 설정된 조건은 n 3 또는 n = 0일 수 있다.
본 출원의 일부 실시예들에서, 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정하는 단계는: 음장 분류 파라미터 및 3차원 오디오 신호의 특징을 나타내는 또 다른 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정하는 단계를 추가로 포함할 수 있다.
3차원 오디오 신호의 특징을 나타내는 또 다른 파라미터의 복수의 구현이 존재한다. 예를 들어, 3차원 오디오 신호의 특징을 나타내는 또 다른 파라미터는 3차원 오디오 신호의 에너지 비율 파라미터, 3차원 오디오 신호의 고주파 분석 파라미터, 3차원 오디오 신호의 저주파 특징 분석 파라미터 등, 및 그와 유사한 것 중 적어도 하나를 포함할 수 있다.
도 5에 도시된 바와 같이, 본 출원의 실시예에 따른 3차원 오디오 신호 처리 방법은 주로 다음의 단계들을 포함한다.
501: 3차원 오디오 신호의 현재 프레임에 대해 선형 분해를 수행하여, 선형 분해 결과를 획득한다.
502: 선형 분해 결과에 기초하여, 현재 프레임에 대응하는 음장 분류 파라미터를 획득한다.
503: 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정한다.
단계 501 내지 단계 503의 구현들은 전술한 실시예에서의 단계 401 내지 단계 403의 구현들과 유사하고, 단계 501 내지 단계 503은 여기서 다시 상세히 설명되지 않는다.
504: 음장 분류 결과에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계.
인코더 측은 단계 501 내지 단계 503을 수행할 수 있다. 현재 프레임의 음장 분류 결과를 획득한 후에, 인코더 측은 음장 분류 결과에 기초하여 현재 프레임에 대응하는 인코딩 모드를 결정할 수 있다. 인코딩 모드는 3차원 오디오 신호의 현재 프레임이 인코딩될 때 사용되는 모드이다. 복수의 인코딩 모드가 있고, 현재 프레임의 상이한 음장 분류 결과들에 기초하여 상이한 인코딩 모드들이 사용될 수 있다. 본 출원의 이 실시예에서, 현재 프레임의 상이한 음장 분류 결과들에 대해 적절한 인코딩 모드들이 선택되고, 따라서 현재 프레임은 인코딩 모드를 사용하여 인코딩된다. 이는 오디오 신호의 압축 효율 및 청각 품질을 개선한다.
또한, 본 출원의 일부 실시예들에서, 단계 503에서 음장 분류 결과에 기초하여 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계는 다음을 포함한다:
E1: 음장 분류 결과가 이종 음원들의 양을 포함하거나, 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 이종 음원들의 양에 기초하여 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계;
E2: 음장 분류 결과가 음장 타입을 포함하거나, 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 음장 타입에 기초하여 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계; 또는
E3: 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 이종 음원들의 양 및 음장 타입에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계.
단계 E1에서, 인코더 측이 현재 프레임의 이종 음원들의 양을 획득한 후, 이종 음원들의 양은 현재 프레임에 대응하는 인코딩 모드를 결정하기 위해 사용될 수 있다. 단계 E2에서, 인코더 측이 현재 프레임의 음장 타입을 획득한 후, 음장 타입은 현재 프레임에 대응하는 인코딩 모드를 결정하기 위해 사용될 수 있다. 단계 E3에서, 인코더 측이 이종 음원들의 양 및 음장 타입을 획득한 후, 이종 음원들의 양 및 음장 타입은 현재 프레임에 대응하는 인코딩 모드를 결정하기 위해 사용될 수 있다. 따라서, 인코더 측은, 이종 음원들의 양 및/또는 음장 타입에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하여, 현재 프레임의 음장 분류 결과에 기초하여 대응하는 인코딩 모드를 결정할 수 있어서, 결정된 인코딩 모드가 3차원 오디오 신호의 현재 프레임에 적응될 수 있도록 한다. 이는 인코딩 효율을 개선한다.
또한, 본 출원의 일부 실시예들에서, 단계 E1에서 이종 음원들의 양에 기초하여 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계는 다음을 포함한다:
이종 음원들의 양이 제2 미리 설정된 조건을 충족할 때, 인코딩 모드가 제1 인코딩 모드인 것을 결정하는 단계; 또는
이종 음원들의 양이 제2 미리 설정된 조건을 충족하지 못할 때, 인코딩 모드가 제2 인코딩 모드인 것을 결정하는 단계.
제1 인코딩 모드는 가상 스피커 선택에 기초한 HOA 인코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 인코딩 모드이고, 제2 인코딩 모드는 가상 스피커 선택에 기초한 HOA 인코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 인코딩 모드이고, 제1 인코딩 모드와 제2 인코딩 모드는 상이한 인코딩 모드들이다. 가상 스피커 선택에 기초한 HOA 인코딩 모드는 매칭 투영(match projection, MP)에 기초한 HOA 인코딩 모드라고도 지칭될 수 있다.
구체적으로, 인코딩 모드들은 이종 음원들의 상이한 양들에 기초하여 2개의 타입: 제1 인코딩 모드 및 제2 인코딩 모드로 분류될 수 있다. 인코더 측은 제2 미리 설정된 조건을 획득하고; 이종 음원들의 양이 제2 미리 설정된 조건을 충족하는지를 결정하고; 및 이종 음원들의 양이 제2 미리 설정된 조건을 충족할 때, 인코딩 모드가 제1 인코딩 모드인 것을 결정하고; 또는 이종 음원들의 양이 제2 미리 설정된 조건을 충족하지 못할 때, 인코딩 모드가 제2 인코딩 모드인 것을 결정한다. 본 출원의 이 실시예에서, 이종 음원들의 양이 제2 미리 설정된 조건을 충족하는지가 결정되어, 현재 프레임의 인코딩 모드의 분할을 구현하여, 현재 프레임의 인코딩 모드가 제1 인코딩 모드 또는 제2 인코딩 모드에 속하는 것을 정확하게 식별할 수 있다.
예를 들어, 제1 인코딩 모드가 가상 스피커 선택에 기초한 HOA 인코딩 모드일 때, 제2 인코딩 모드는 방향성 오디오 코딩에 기초한 HOA 인코딩 모드이다. 대안적으로, 제1 인코딩 모드가 방향성 오디오 코딩에 기초한 HOA 인코딩 모드일 때, 제2 인코딩 모드는 가상 스피커 선택에 기초한 HOA 인코딩 모드이고, 제1 인코딩 모드 및 제2 인코딩 모드의 특정 구현들은 적용 시나리오에 기초하여 결정될 수 있다.
예를 들어, 본 출원의 이 실시예에서, 음장 분류 결과는 인코더 측에 의해 선택된 인코딩 모드를 결정하기 위해 사용될 수 있다. 예를 들어, 음장 분류 결과는 HOA 신호의 인코딩 모드를 결정하기 위해 사용될 수 있다. 예를 들어, 인코딩 모드는 음장 타입에 기초하여 결정된다. 이종 음장에 속하는 HOA 신호는 인코딩 모드 A에 대응하는 인코더를 사용하여 인코딩하는 데 적절하고, 분산 음장에 속하는 HOA 신호는 인코딩 모드 B에 대응하는 인코더를 사용하여 인코딩하는 데 적절하다. 또 다른 예를 들면, 인코딩 모드는 이종 음원들의 양에 기초하여 결정된다. 이종 음원들의 양이 인코딩 모드 X를 이용하기 위한 결정 조건을 충족할 때, 인코딩은 인코딩 모드 X에 대응하는 인코더를 이용함으로써 수행된다. 또 다른 예를 들면, 인코딩 모드는 대안적으로 음장 타입 및 이종 음원들의 양에 기초하여 결정된다. 음장 타입이 분산 음장일 때, 인코딩은 인코딩 모드 C에 대응하는 인코더를 사용하여 수행된다. 음장 타입이 이종 음장이고 이종 음원들의 양이 인코딩 모드 X를 사용하는 결정 조건을 충족할 때, 인코딩은 인코딩 모드 X에 대응하는 인코더를 사용하여 수행된다. 인코딩 모드 A, 인코딩 모드 B, 인코딩 모드 C, 및 인코딩 모드 X는 복수의 상이한 인코딩 모드를 포함할 수 있다. 본 출원의 이 실시예에서, 상이한 음장 분류 결과들이 상이한 인코딩 모드들에 대응한다. 이는 본 출원의 이 실시예에서 제한되지 않는다. 예를 들어, 인코딩 모드 X는 이종 음원들의 양이 미리 설정된 임계값보다 작을 때 인코딩 모드 1, 또는 이종 음원들의 양이 미리 설정된 임계값 이상일 때 인코딩 모드 2일 수 있다.
본 출원의 일부 실시예들에서, 제2 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값보다 크거나 제2 임계값보다 작고, 제2 임계값이 제1 임계값보다 큰 것을 포함하고; 또는
제2 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값 이하이거나 제2 임계값 이상이고 제2 임계값이 제1 임계값보다 크다는 것을 포함한다.
제1 임계값 및 제2 임계값의 특정 값들은 제한되지 않고, 적용 시나리오에 기초하여 구체적으로 결정될 수 있다. 제2 임계값은 제1 임계값보다 크다. 따라서, 제1 임계값 및 제2 임계값은 미리 설정된 범위를 형성할 수 있고, 제2 미리 설정된 조건은 이종 음원들의 양이 미리 설정된 범위 내에 드는 것일 수 있거나, 또는 제2 미리 설정된 조건은 이종 음원들의 양이 미리 설정된 범위를 넘는 것일 수 있다. 이종 음원들의 양이 제1 미리 설정된 조건에서의 제2 임계값 및 제2 임계값에 기초하여 결정되어, 이종 음원들의 양이 제2 미리 설정된 조건을 충족하는지를 결정하여, 현재 프레임의 음장 타입이 제1 음장 타입 또는 제2 음장 타입에 속하는 것을 정확하게 식별할 수 있다.
예를 들어, 제1 임계값은 0이고, 제2 임계값은 3이고, 이종 음원들의 양은 n으로서 표현된다. 이 경우, 제2 미리 설정된 조건은 0 < n < 3일 수 있거나, 또는 제2 미리 설정된 조건은 n 3 또는 n = 0일 수 있다.
본 출원의 이 실시예에서, 제1 미리 설정된 조건은 상이한 음장 타입들을 식별하기 위한 조건 세트이고, 제2 미리 설정된 조건은 상이한 인코딩 모드들을 식별하기 위한 조건 세트라는 점에 유의해야 한다. 제1 미리 설정된 조건 및 제2 미리 설정된 조건은 동일한 조건 내용 또는 상이한 조건 내용을 포함할 수 있다. 다시 말해서, 제1 미리 설정된 조건 및 제2 미리 설정된 조건은 상이한 미리 설정된 조건들 또는 동일한 미리 설정된 조건일 수 있다. 그러나, 실제 사용 동안 차이점들이 있을 수 있다고 고려된다. 제1 미리 설정된 조건과 제2 미리 설정된 조건은 제1 및 제2 수를 이용하여 구별된다.
본 출원의 일부 실시예들에서, 단계 E2에서 음장 타입에 기초하여 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계는:
음장 타입이 이종 음장일 때, 가상 스피커 선택에 기초하여 인코딩 모드가 HOA 인코딩 모드인 것을 결정하는 단계; 또는
음장 타입이 분산 음장일 때, 방향성 오디오 코딩에 기초하여 인코딩 모드가 HOA 인코딩 모드인 것을 결정하는 단계를 포함한다.
음장에 이종 음원들이 거의 없는 음장에 대해 그리고 분산 음장에 대해, 방향성 오디오에 기초한 HOA 인코딩 모드는 가상 스피커 선택에 기초한 HOA 인코딩 모드보다 더 낮은 압축 효율을 가진다. 그렇지만, 음장에 복수의 이종 음원이 있는 음장에 대해, 가상 스피커 선택에 기초한 HOA 인코딩 모드는 방향성 오디오에 기초한 HOA 인코딩 모드보다 더 낮은 압축 효율을 가진다. 본 출원의 이 실시예에서, 음장 타입이 이종 음장일 때, 인코딩 모드가 가상 스피커 선택에 기초한 HOA 인코딩 모드인 것이 결정된다. 음장 타입이 분산 음장일 때, 인코딩 모드가 방향성 오디오 코딩에 기초한 HOA 인코딩 모드인 것이 결정된다. 본 출원의 이 실시예에서, 상이한 타입들의 오디오 신호들에 대한 최대 압축 효율을 획득하는 요건을 충족시키기 위해, 현재 프레임의 음장 분류 결과에 기초하여 대응하는 인코딩 모드가 선택될 수 있다.
본 출원의 일부 실시예들에서, 단계 503에서 음장 분류 결과에 기초하여 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계는 다음을 포함한다:
F1: 현재 프레임의 음장 분류 결과에 기초하여, 현재 프레임에 대응하는 초기 인코딩 모드를 결정하는 단계;
F2: 현재 프레임이 위치하는 행오버(hangover) 윈도우를 획득하는 단계 - 행오버 윈도우는 현재 프레임의 초기 인코딩 모드 및 현재 프레임 전의 N-1개의 프레임의 인코딩 모드들을 포함하고, N은 행오버 윈도우의 길이임 -; 및
F3: 현재 프레임의 초기 인코딩 모드 및 N-1개의 프레임의 인코딩 모드들에 기초하여 현재 프레임의 인코딩 모드를 결정하는 단계.
단계 F1에서, 초기 인코딩 모드는 음장 분류 결과에 기초하여 결정된 인코딩 모드일 수 있다. 예를 들어, 현재 프레임의 인코딩 모드는 단계 E1 내지 단계 E3에서의 전술한 구현들 중 어느 하나에 기초하여 결정될 수 있고, 인코딩 모드는 F1에서의 초기 인코딩 모드로서 사용될 수 있다. 초기 인코딩 모드가 획득된 후에, 현재 프레임 및 행오버 윈도우의 윈도우 크기에 기초하여 행오버 윈도우가 획득된다. 행오버 윈도우는 현재 프레임의 초기 인코딩 모드 및 현재 프레임 전의 N-1개의 프레임의 인코딩 모드들을 포함하고, N은 행오버 윈도우에 포함된 프레임들의 양을 나타낸다. 마지막으로, 현재 프레임의 인코딩 모드는 행오버 윈도우에서의 N개의 프레임에 개별적으로 대응하는 인코딩 모드들에 기초하여 결정된다. 단계 F3에서 획득된 현재 프레임의 인코딩 모드는 현재 프레임이 인코딩될 때 사용되는 인코딩 모드일 수 있다. 본 출원의 이 실시예에서, 현재 프레임의 초기 인코딩 모드가 행오버 윈도우에 기초하여 정정되어, 현재 프레임의 인코딩 모드를 획득한다. 이는 연속 프레임들의 인코딩 모드들이 빈번하게 스위칭되지 않는 것을 보장하고, 인코딩 효율을 개선한다.
예를 들어, 현재 프레임의 초기 인코딩 모드가 획득된 후에, 연속 프레임들의 인코딩 모드들이 빈번하게 스위치되지 않도록 보장하기 위해, 현재 프레임에 대해 행오버 윈도우 처리가 수행될 수 있다. 복수의 행오버 윈도우 처리 방법이 존재한다. 이는 본 출원의 이 실시예에서 제한되지 않는다. 예를 들어, 처리 방식은 행오버 윈도우에서의 N개의 프레임의 길이를 갖는 인코더 선택 식별자를 저장하는 것 - N개의 프레임은 현재 프레임 및 현재 프레임 전의 N-1개의 프레임의 인코더 선택 식별자들을 포함함 -; 및 인코더 선택 식별자들이 특정된 임계값에 누적될 때, 현재 프레임의 인코딩 타입 표시 식별자를 갱신하는 것일 수 있다. 선택적으로, 행오버 윈도우 처리에 더하여, 현재 프레임에 대해 정정을 수행하기 위해 다른 후처리가 사용될 수 있다. 예를 들어, 초기 인코딩 모드는 초기 분류로서 사용되고, 초기 분류는 오디오 신호의 신호 대 잡음비 및 음성 분류 결과와 같은 특징들에 기초하여 수정되고, 수정된 결과는 인코딩 모드의 최종 결과로서 사용된다.
도 6에 도시된 바와 같이, 본 출원의 실시예에 따른 3차원 오디오 신호 처리 방법은 주로 다음의 단계들을 포함한다.
601: 3차원 오디오 신호의 현재 프레임에 대해 선형 분해를 수행하여, 선형 분해 결과를 획득한다.
602: 선형 분해 결과에 기초하여, 현재 프레임에 대응하는 음장 분류 파라미터를 획득한다.
603: 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정한다.
단계 601 내지 단계 603의 구현들은 전술한 실시예에서의 단계 401 내지 단계 403의 구현들과 유사하고, 단계 601 내지 단계 603은 여기서 다시 상세히 설명되지 않는다.
604: 음장 분류 결과에 기초하여, 현재 프레임에 대응하는 인코딩 파라미터를 결정하는 단계.
인코더 측이 단계 601 내지 단계 603을 수행할 수 있다. 현재 프레임의 음장 분류 결과를 획득한 후에, 인코더 측은 음장 분류 결과에 기초하여 현재 프레임에 대응하는 인코딩 파라미터를 결정할 수 있다. 인코딩 파라미터는 3차원 오디오 신호의 현재 프레임이 인코딩될 때 사용되는 파라미터이다. 복수의 인코딩 파라미터가 있고, 현재 프레임의 상이한 음장 분류 결과들에 기초하여 상이한 인코딩 파라미터들이 사용될 수 있다. 본 출원의 이 실시예에서, 현재 프레임의 상이한 음장 분류 결과들에 대해 적절한 인코딩 파라미터들이 선택되어, 현재 프레임이 인코딩 파라미터에 기초하여 인코딩되도록 한다. 이는 오디오 신호의 압축 효율 및 청각 품질을 개선한다.
또한, 본 출원의 일부 실시예들에서, 인코딩 파라미터는 가상 스피커 신호의 채널들의 양, 잔차 신호의 채널들의 양, 가상 스피커 신호의 인코딩 비트들의 양, 잔차 신호의 인코딩 비트들의 양, 또는 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양 중 적어도 하나를 포함한다.
가상 스피커 신호 및 잔차 신호는 3차원 오디오 신호에 기초하여 발생된 신호들이다.
구체적으로, 인코더 측은 현재 프레임의 음장 분류 결과에 기초하여 현재 프레임의 인코딩 파라미터를 결정할 수 있어서, 인코딩 파라미터가 현재 프레임을 인코딩하기 위해 사용될 수 있도록 한다. 인코딩 파라미터에 대한 복수의 구현이 있다. 예를 들어, 인코딩 파라미터는 가상 스피커 신호의 채널들의 양, 잔차 신호의 채널들의 양, 가상 스피커 신호의 인코딩 비트들의 양, 잔차 신호의 인코딩 비트들의 양, 또는 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양 중 적어도 하나를 포함한다. 채널들의 양은 송신 채널들의 양이라고도 지칭될 수 있다. 채널들의 양은 신호 인코딩 동안 할당된 송신 채널들의 양이고, 인코딩 비트들의 양은 신호 인코딩 동안 할당된 인코딩 비트들의 양이다.
본 출원의 이 실시예에서 제공되는 가상 스피커를 선택하기 위한 방법에 있어서, 인코더는 현재 프레임의 가상 스피커 계수에 기초하여 후보 가상 스피커 세트 내의 각각의 가상 스피커에 투표하고, 투표 값에 기초하여 현재 프레임의 가상 스피커를 선택하여, 가상 스피커를 검색하기 위한 계산 책임을 감소시키고, 인코더의 계산 부담을 감소시킨다. 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양은 최상의 매칭 스피커를 검색하는데 필요한 투표 라운드들의 양이다. 가능한 구현에서, 투표 라운드들의 양은 미리 구성될 수 있거나, 또는 현재 프레임의 음장 분류 결과에 기초하여 결정될 수 있다. 예를 들어, 최상의 매칭 스피커를 검색하는 투표 라운드들의 양은 3차원 오디오 신호에 기초하여 가상 스피커 신호를 결정하는 프로세스에서 가상 스피커를 검색하기 위한 투표 라운드들의 양이다.
또한, 본 출원의 이 실시예에서의 가상 스피커 신호 및 잔차 신호는 3차원 오디오 신호에 기초하여 발생된 신호들이다. 예를 들어, 제1 타깃 가상 스피커는 제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 선택되고, 가상 스피커 신호는 제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 발생된다. 제2 장면 오디오 신호는 제1 타깃 가상 스피커의 속성 정보 및 제1 가상 스피커 신호에 기초하여 획득되고, 잔차 신호는 제1 장면 오디오 신호 및 제2 장면 오디오 신호에 기초하여 발생된다.
본 출원의 일부 실시예들에서, 투표 라운드들의 양은 다음의 관계를 충족한다:
I는 투표 라운드들의 양이고, d는 음장 분류 결과에 포함된 이종 음원들의 양이다.
인코더 측은, 현재 프레임의 이종 음원들의 양에 기초하여, 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양을 결정한다. 투표 라운드들의 양은 현재 프레임의 이종 음원들의 양 이하이어서, 투표 라운드들의 양이 현재 프레임의 음장 분류의 실제 상황에 따를 수 있도록 한다. 이는 현재 프레임이 인코딩될 때 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양이 결정될 필요가 있다는 문제를 해결한다.
예를 들어, 투표 라운드들의 양 I는 다음의 규칙들을 준수할 필요가 있다: 투표 라운드들의 최소 양은 1이고, 투표 라운드들의 최대 양은 스피커들의 총 양을 초과하지 않고, 투표 라운드들의 최대 양은 가상 스피커 신호의 채널들의 양을 초과하지 않는다. 예를 들어, 스피커들의 총 양은 인코더에서의 가상 스피커 세트 발생 유닛에 의해 획득된 1024개의 스피커일 수 있고, 가상 스피커 신호의 채널들의 양은 인코더에 의해 송신된 가상 스피커 신호들의 양, 즉 N개의 최상의 매칭 스피커에 의해 대응하여 발생된 N개의 송신 채널이다. 보통, 가상 스피커 신호의 채널들의 양은 스피커들의 총 양보다 작다. 투표 라운드들의 양을 추정하기 위한 방법은 다음과 같다: 현재 프레임의 음장에서 음장 분류 결과에서 획득된 이종 음원들의 양에 기초하여, 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양 I를 결정하는 단계. 투표 라운드들의 양 I는 다음의 관계를 충족한다: . d는 음장에 포함된 상이한 방향들에서의 음원들의 양, 즉 음장 분류 결과에서의 추정된 이종 음원들의 양이다. 예를 들어, I = d이다. 대안적으로, 투표 라운드들의 양 I = min(d, 스피커들의 총 양, 가상 스피커 신호의 채널들의 양, 투표 라운드들의 미리 설정된 양). 투표 라운드들의 양 I는 min(d, 스피커들의 총 양, 가상 스피커 신호의 채널들의 양, 투표 라운드들의 미리 설정된 양)에 기초하여 획득될 수 있어서, 인코더 측이, I의 값에 기초하여, 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양을 결정할 수 있도록 한다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다.
음장 타입이 이종 음장일 때, 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족한다:
F = min(S,PF), 여기서
F는 가상 스피커 신호의 채널들의 양이고, S는 이종 음원들의 양이고, PF는 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이고; 또는
음장 타입이 분산 음장일 때, 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족하고:
F = 1, 여기서
F는 가상 스피커 신호의 채널들의 양이다.
가상 스피커 신호의 채널들의 양은 가상 스피커 신호를 송신하기 위한 채널들의 양이고, 가상 스피커 신호의 채널들의 양은 이종 음원들의 양 및 음장 타입에 기초하여 결정될 수 있다. 전술한 계산 방식에서, 음장 타입이 분산 음장일 때, 가상 스피커 신호의 채널들의 양이 1인 것이 결정되어, 현재 프레임의 인코딩 효율을 개선한다. 음장 타입이 이종 음장일 때, min은 최소 값이 선택되는 동작, 즉 S 및 PF로부터의 최소 값을 가상 스피커 신호의 채널들의 양으로서 선택하는 동작을 표시하여, 가상 스피커 신호의 채널들의 양이 현재 프레임의 음장 분류의 실제 상황에 따를 수 있도록 한다. 이는 현재 프레임이 인코딩될 때 가상 스피커 신호의 채널들의 양이 결정될 필요가 있다는 문제를 해결한다.
본 출원의 일부 실시예들에서, 음장 타입이 분산 음장일 때, 잔차 신호의 채널들의 양은 다음의 관계를 충족한다:
R = max(C-1,PR), 여기서
PR은 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양이고, C는 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고; 또는
음장 타입이 이종 음장일 때, 잔차 신호의 채널들의 양은 다음의 관계를 충족하고:
R = C - F, 여기서
R은 잔차 신호의 채널들의 양이고, C는 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 가상 스피커 신호의 채널들의 양이다.
가상 스피커 신호의 채널들의 양이 획득된 후에, 잔차 신호의 채널들의 양은 잔차 신호의 채널들의 미리 설정된 양, 및 잔차 신호의 채널들의 미리 설정된 양과 가상 스피커 신호의 채널들의 미리 설정된 양의 합에 기초하여 계산될 수 있다. PR의 값은 인코더 측에서 미리 설정될 수 있고, R의 값은 max(C-1,PR)를 계산하기 위한 수학식에 따라 획득될 수 있다. 잔차 신호의 채널들의 미리 설정된 양과 가상 스피커 신호의 채널들의 미리 설정된 양의 합은 인코더 측에서 미리 설정된다. 또한, C는 송신 채널들의 총 양이라고도 지칭될 수 있다.
본 출원의 일부 실시예들에서, 가상 스피커 신호의 채널들의 양이 획득된 후에, 잔차 신호의 채널들의 양은 가상 스피커 신호의 채널들의 양, 및 잔차 신호의 채널들의 미리 설정된 양과 가상 스피커 신호의 채널들의 미리 설정된 양의 합에 기초하여 계산될 수 있다. 잔차 신호의 채널들의 미리 설정된 양과 가상 스피커 신호의 채널들의 미리 설정된 양의 합은 인코더 측에서 미리 설정된다. 또한, C는 송신 채널들의 총 양이라고도 지칭될 수 있다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 이종 음원들의 양을 포함한다.
가상 스피커 신호의 채널들의 양은 다음의 관계를 충족한다:
F = min(S,PF), 여기서
F는 가상 스피커 신호의 채널들의 양이고, S는 이종 음원들의 양이고, PF는 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이다.
가상 스피커 신호의 채널들의 양은 가상 스피커 신호를 송신하기 위한 채널들의 양이고, 가상 스피커 신호의 채널들의 양은 이종 음원들의 양에 기초하여 결정될 수 있다. 전술한 계산 방식에서, min은 최소 값이 선택되는 동작, 즉 S 및 PF로부터의 최소 값을 가상 스피커 신호의 채널들의 양으로서 선택하는 동작을 표시하여, 가상 스피커 신호의 채널들의 양이 현재 프레임의 음장 분류의 실제 상황에 따를 수 있도록 한다. 이는 현재 프레임이 인코딩될 때 가상 스피커 신호의 채널들의 양이 결정될 필요가 있다는 문제를 해결한다.
본 출원의 일부 실시예들에서, 잔차 신호의 채널들의 양은 다음의 관계를 충족한다:
R = C - F, 여기서
R은 잔차 신호의 채널들의 양이고, C는 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 가상 스피커 신호의 채널들의 양이다. 예를 들어, C는 PF와 PR의 합이다.
가상 스피커 신호의 채널들의 양이 획득된 후에, 잔차 신호의 채널들의 양은 가상 스피커 신호의 채널들의 양, 및 잔차 신호의 채널들의 미리 설정된 양과 가상 스피커 신호의 채널들의 미리 설정된 양의 합에 기초하여 계산될 수 있다. 잔차 신호의 채널들의 미리 설정된 양과 가상 스피커 신호의 채널들의 미리 설정된 양의 합은 인코더 측에서 미리 설정된다. 또한, C는 송신 채널들의 총 양이라고도 지칭될 수 있다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 이종 음원들의 양을 포함하거나, 또는 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다.
가상 스피커 신호의 인코딩 비트들의 양은 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율에 기초하여 획득된다.
잔차 신호의 인코딩 비트들의 양은 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율에 기초하여 획득된다.
송신 채널의 인코딩 비트들의 양은 가상 스피커 신호의 인코딩 비트들의 양 및 잔차 신호의 인코딩 비트들의 양을 포함하고, 이종 음원들의 양이 가상 스피커 신호의 채널들의 양 이하일 때, 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율은 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 초기 비율을 증가시킴으로써 획득된다.
인코더 측은 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 초기 비율을 미리 설정하고, 이종 음원들의 양을 획득하고, 이종 음원들의 양이 가상 스피커 신호의 채널들의 양 이하인지를 결정한다. 이종 음원들의 양이 가상 스피커 신호의 채널들의 양 이하인 경우, 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 초기 비율이 증가될 수 있고, 증가된 초기 비율은 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율로서 정의된다. 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율은 가상 스피커 신호의 인코딩 비트들의 양 및 잔차 신호의 인코딩 비트들의 양을 계산하기 위해 사용될 수 있다. 전술한 계산 방식에서, 가상 스피커 신호의 인코딩 비트들의 양 및 잔차 신호의 인코딩 비트들의 양은 현재 프레임의 음장 분류의 실제 상황에 따를 수 있다. 이는 현재 프레임이 인코딩될 때 가상 스피커 신호의 인코딩 비트들의 양 및 잔차 신호의 인코딩 비트들의 양이 결정될 필요가 있다는 문제를 해결한다.
예를 들어, 인코더 측은 음장 분류 결과에 기초하여 가상 스피커 신호 및 잔차 신호에 대한 비트 할당 방법을 결정하고, 송신 채널 신호를 가상 스피커 신호 그룹 및 잔차 신호 그룹으로 분할하고, 가상 스피커 신호 그룹의 미리 설정된 할당 비율을 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 초기 비율로서 사용한다. 이종 음원들의 양 가상 스피커 신호의 채널들의 양일 때, 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 초기 비율은 미리 설정된 조정 값에 기초하여 증가되고, 증가된 비율은 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율로서 사용된다. 예를 들어, 증가된 비율은 미리 설정된 조정 값과 초기 비율의 합과 동일하다.
본 출원의 일부 실시예들에서, 잔차 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율 = 1.0 - 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율.
본 출원의 일부 실시예들에서, 전술한 단계들을 수행하는 것에 더하여, 인코더 측에 의해 수행되는 방법은 다음을 추가로 포함할 수 있다:
현재 프레임 및 음장 분류 결과를 인코딩하고, 인코딩된 현재 프레임 및 음장 분류 결과를 비트스트림 내에 기입하는 단계.
음장 분류 결과는 비트스트림이 되도록 인코딩될 수 있다. 인코더 측이 비트스트림을 디코더 측으로 송신한 후, 디코더 측은 비트스트림에 기초하여 음장 분류 결과를 획득할 수 있다. 디코더 측은, 비트스트림을 파싱함으로써, 비트스트림에서 운반되는 음장 분류 결과를 획득하고, 음장 분류 결과에 기초하여 현재 프레임의 음장 분포 상태를 획득할 수 있어서, 현재 프레임이 디코딩되어 3차원 오디오 신호를 획득할 수 있도록 한다.
본 출원의 일부 실시예들에서, 현재 프레임 및 음장 분류 결과를 인코딩하는 단계는 구체적으로: 현재 프레임을 직접 인코딩하는 단계, 또는 현재 프레임을 먼저 처리하는 단계; 및 가상 스피커 신호 및 잔차 신호를 획득한 후에, 가상 스피커 신호 및 잔차 신호를 인코딩하는 단계를 포함할 수 있다. 예를 들어, 인코더 측은 구체적으로 코어 인코더일 수 있다. 코어 인코더는 가상 스피커 신호, 잔차 신호, 및 음장 분류 결과를 인코딩하여, 비트스트림을 획득한다. 비트스트림은 오디오 신호 인코딩 비트스트림이라고도 지칭될 수 있다.
본 출원의 이 실시예에서 제공되는 3차원 오디오 신호 처리 방법은 오디오 인코딩 방법 및 오디오 디코딩 방법을 포함할 수 있다. 오디오 인코딩 방법은 오디오 인코딩 장치에 의해 수행되고, 오디오 디코딩 방법은 오디오 디코딩 장치에 의해 수행되며, 오디오 인코딩 장치는 오디오 디코딩 장치와 통신할 수 있다. 도 4 내지 도 6은 오디오 인코딩 장치에 의해 수행된다. 이하에서는 본 출원의 실시예에 따른 오디오 디코딩 장치(디코더 측이라고 지칭됨)에 의해 수행되는 3차원 오디오 신호 처리 방법을 설명한다. 도 7에 도시된 바와 같이, 방법은 주로 다음의 단계들을 포함한다.
701: 비트스트림을 수신한다.
디코더 측이 인코더 측으로부터 비트스트림을 수신한다. 비트스트림은 음장 분류 결과를 운반한다.
702: 비트스트림을 디코딩하여, 현재 프레임의 음장 분류 결과를 획득한다.
디코더 측은 비트스트림을 파싱하고, 비트스트림으로부터 현재 프레임의 음장 분류 결과를 획득한다. 음장 분류 결과는 도 4 내지 도 6에 도시된 실시예들에 따라 인코더 측에 의해 획득된다.
703: 음장 분류 결과에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득한다.
음장 분류 결과를 획득한 후에, 디코더 측은 음장 분류 결과에 기초하여 비트스트림을 파싱하여, 디코딩된 현재 프레임의 3차원 오디오 신호를 획득한다. 현재 프레임의 디코딩 프로세스는 본 출원의 이 실시예에서 제한되지 않는다. 본 출원의 이 실시예에서, 디코더 측은 음장 분류 결과에 기초하여 현재 프레임을 디코딩할 수 있다. 음장 분류 결과는 비트스트림 내의 현재 프레임을 디코딩하기 위해 사용될 수 있다. 따라서, 디코더 측은 현재 프레임의 음장과 매칭되는 디코딩 방식으로 디코딩을 수행하여, 인코더 측에 의해 송신된 3차원 오디오 신호를 획득한다. 이는 인코더 측으로부터 디코더 측으로의 오디오 신호의 송신을 구현한다.
예를 들어, 디코더 측은, 비트스트림에서 송신된 음장 분류 결과에 기초하여, 디코딩 모드 및/또는 인코딩 모드와 일치하는 디코딩 파라미터 및/또는 인코더 측의 인코딩 파라미터를 결정할 수 있다. 인코더 측이 인코딩 모드 및/또는 인코딩 파라미터를 디코더 측에 송신하는 방식과 비교하여, 인코딩 비트들의 양이 감소된다.
본 출원의 일부 실시예들에서, 단계 703에서 음장 분류 결과에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계는 다음을 포함한다:
G1: 음장 분류 결과에 기초하여 현재 프레임의 디코딩 모드를 결정하는 단계; 및
G2: 디코딩 모드에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계.
디코딩 모드는 전술한 실시예들에서의 인코딩 모드에 대응한다. 단계 G1의 구현은 전술한 실시예에서의 단계 504와 유사하다. 상세사항들은 본 명세서에서 다시 설명되지 않는다. 디코딩 모드를 획득한 후에, 디코더 측은 디코딩 모드에 기초하여 비트스트림을 디코딩하여, 디코딩된 현재 프레임의 3차원 오디오 신호를 획득할 수 있다.
또한, 본 출원의 일부 실시예들에서, 단계 G1에서 음장 분류 결과에 기초하여 현재 프레임의 디코딩 모드를 결정하는 단계는 다음을 포함한다:
음장 분류 결과가 이종 음원들의 양을 포함하거나, 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 이종 음원들의 양에 기초하여 현재 프레임의 디코딩 모드를 결정하는 단계;
음장 분류 결과가 음장 타입을 포함하거나 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 음장 타입에 기초하여 현재 프레임의 디코딩 모드를 결정하는 단계; 또는
음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 이종 음원들의 양 및 음장 타입에 기초하여 현재 프레임의 디코딩 모드를 결정하는 단계.
전술한 단계들의 구현들은 전술한 실시예에서의 단계 E1 내지 단계 E3의 구현들과 유사하다. 상세사항들은 본 명세서에서 다시 설명되지 않는다.
본 출원의 일부 실시예들에서, 이종 음원들의 양에 기초하여 현재 프레임의 디코딩 모드를 결정하는 단계는 다음을 포함한다:
이종 음원들의 양이 미리 설정된 조건을 충족할 때, 디코딩 모드가 제1 디코딩 모드인 것을 결정하는 단계; 또는
이종 음원들의 양이 미리 설정된 조건을 충족하지 못할 때, 디코딩 모드가 제2 디코딩 모드인 것을 결정하는 단계.
제1 디코딩 모드는 가상 스피커 선택에 기초한 HOA 디코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 디코딩 모드이고, 제2 디코딩 모드는 가상 스피커 선택에 기초한 HOA 디코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 디코딩 모드이고, 제1 디코딩 모드와 제2 디코딩 모드는 상이한 디코딩 모드들이다.
미리 설정된 조건은 상이한 디코딩 모드들을 식별하기 위해 디코더 측에 의해 설정된 조건이고, 미리 설정된 조건의 구현은 제한되지 않는다는 점에 유의해야 한다.
본 출원의 일부 실시예들에서, 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값보다 크거나 제2 임계값보다 작고, 제2 임계값이 제1 임계값보다 큰 것을 포함하고; 또는
미리 설정된 조건은 이종 음원들의 양이 제1 임계값 이하이거나 제2 임계값 이상이고, 제2 임계값이 제1 임계값보다 큰 것을 포함한다.
본 출원의 일부 실시예들에서, 단계 703에서 음장 분류 결과에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계는 다음을 포함한다:
H1: 음장 분류 결과에 기초하여 현재 프레임의 디코딩 파라미터를 결정하는 단계; 및
H2: 디코딩 파라미터에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계.
디코딩 파라미터는 전술한 실시예들에서의 인코딩 파라미터에 대응한다. 단계 H1의 구현은 전술한 실시예에서의 단계 604와 유사하다. 상세사항들은 본 명세서에서 다시 설명되지 않는다. 디코딩 파라미터를 획득한 후에, 디코더 측은 디코딩 파라미터에 기초하여 비트스트림을 디코딩하여, 디코딩된 현재 프레임의 3차원 오디오 신호를 획득할 수 있다.
본 출원의 일부 실시예들에서, 디코딩 파라미터는 가상 스피커 신호의 채널들의 양, 잔차 신호의 채널들의 양, 가상 스피커 신호의 디코딩 비트들의 양, 또는 잔차 신호의 디코딩 비트들의 양 중 적어도 하나를 포함한다.
가상 스피커 신호 및 잔차 신호는 비트스트림을 디코딩함으로써 획득된다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다.
음장 타입이 이종 음장일 때, 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족한다:
F = min(S,PF), 여기서
F는 가상 스피커 신호의 채널들의 양이고, S는 이종 음원들의 양이고, PF는 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이고; 또는
음장 타입이 분산 음장일 때, 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족하고:
F = 1, 여기서
F는 가상 스피커 신호의 채널들의 양이다.
본 출원의 일부 실시예들에서, 음장 타입이 분산 음장일 때, 잔차 신호의 채널들의 양은 다음의 관계를 충족한다:
R = max(C-1,PR), 여기서
PR은 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양이고, C는 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고; 또는
음장 타입이 이종 음장일 때, 잔차 신호의 채널들의 양은 다음의 관계를 충족하고:
R = C - F, 여기서
R은 잔차 신호의 채널들의 양이고, C는 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 가상 스피커 신호의 채널들의 양이다.
디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양은 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양과 동일하다는 점에 유의해야 한다. 유사하게, 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양은 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 동일하다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 이종 음원들의 양을 포함한다.
가상 스피커 신호의 채널들의 양은 다음의 관계를 충족한다:
F = min(S,PF), 여기서
F는 가상 스피커 신호의 채널들의 양이고, S는 이종 음원들의 양이고, PF는 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이다.
본 출원의 일부 실시예들에서, 잔차 신호의 채널들의 양은 다음의 관계를 충족한다:
R = C - F, 여기서
R은 잔차 신호의 채널들의 양이고, C는 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 가상 스피커 신호의 채널들의 양이다.
디코딩 파라미터의 구현은 전술한 실시예에서의 인코딩 파라미터의 구현과 유사하다는 점에 유의해야 한다. 상세사항들은 본 명세서에서 다시 설명되지 않는다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 이종 음원들의 양을 포함하거나, 또는 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다.
가상 스피커 신호의 디코딩 비트들의 양은 가상 스피커 신호의 디코딩 비트들의 양 대 송신 채널의 디코딩 비트들의 양의 비율에 기초하여 획득된다.
잔차 신호의 디코딩 비트들의 양은 가상 스피커 신호의 디코딩 비트들의 양 대 송신 채널의 디코딩 비트들의 양의 비율에 기초하여 획득된다.
송신 채널의 디코딩 비트들의 양은 가상 스피커 신호의 디코딩 비트들의 양 및 잔차 신호의 디코딩 비트들의 양을 포함하고, 이종 음원들의 양이 가상 스피커 신호의 채널들의 양 이하일 때, 가상 스피커 신호의 디코딩 비트들의 양 대 송신 채널의 디코딩 비트들의 양의 비율은 가상 스피커 신호의 디코딩 비트들의 양 대 송신 채널의 디코딩 비트들의 양의 초기 비율을 증가시킴으로써 획득된다.
본 출원의 실시예들에서의 전술한 해결책들의 보다 나은 이해 및 구현을 위해, 대응하는 적용 시나리오들을 예들로서 사용하여 구체적인 설명들이 이하에서 제공된다.
본 출원의 이 실시예에서, 3차원 오디오 신호가 HOA 신호인 예가 사용된다. 본 출원의 이 실시예에서의 HOA 신호에 대한 음장 분류 방법은 하이브리드 HOA 인코더에 적용된다. 도 8은 기본 인코딩 절차를 도시한다. 인코더 측은 인코딩될 HOA 신호에 대해 분류를 수행하여, 현재 프레임의 인코딩될 HOA 신호가 가상 스피커 선택에 기초한 HOA 인코딩 방식 또는 방향성 오디오 코딩(directional audio coding, DirAC)에 기초한 HOA 인코딩 방식에 적절한지를 결정하고, 음장 분류 결과에 기초하여 현재 프레임의 HOA 인코딩 모드를 결정한다. 구체적으로는, HOA 인코더는 인코더 선택 유닛을 포함한다. 인코더 선택 유닛은 인코딩될 HOA 신호에 대해 음장 분류를 수행하고, 현재 프레임의 인코딩 모드를 결정하고; 및 인코딩 모드에 기초하여, 인코딩을 위한 인코더 A 또는 인코더 B를 선택하여, 최종 인코딩된 비트스트림을 획득한다. 인코더 A 및 인코더 B는 상이한 타입들의 인코더들을 표시하고, 각각의 타입의 인코더는 현재 프레임의 음장 타입에 적응된다. 음장 타입에 적응되는 인코더가 인코딩을 위해 사용될 때, 신호의 압축비가 개선될 수 있다.
인코딩될 HOA 신호에 대해 음장 분류를 수행하고 인코딩 모드를 결정하는 특정 프로세스는 다음을 포함한다:
인코딩될 HOA 신호에 대해 음장 분류를 수행하여, 음장 분류 결과를 획득하는 단계; 및
음장 분류 결과에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계.
현재 프레임의 인코딩 모드는 현재 프레임의 인코더의 선택 방식을 나타낸다. 인코더 선택 식별자를 결정하기 위한 기준은 인코더 A 및 인코더 B가 적용가능한 HOA 신호의 음장 타입에 기초하여 결정될 수 있다. 예를 들어, 인코더 A에 의해 처리되는 신호 타입은 이종 음장을 갖고 그 이종 음원들의 양이 3 미만인 HOA 신호이고, 인코더 B에 의해 처리되는 신호 타입은 이종 음장을 갖고 그 이종 음원들의 양이 3 이상인 HOA 신호이다. 대안적으로, 인코더 B에 의해 처리되는 신호 타입은 분산 음장을 갖거나 또는 그 이종 음원들의 양이 3 이상인 HOA 신호이다.
행오버(hangover) 윈도우 처리가 또한 음장 분류 결과에 대해 수행되어, 연속적인 프레임들 사이의 인코딩 모드들이 빈번하게 스위칭되지 않는 것을 보장할 수 있다는 점에 유의해야 한다. 복수의 행오버 윈도우 처리 방법이 존재한다. 이는 본 출원의 이 실시예에서 제한되지 않는다. 예를 들어, 처리 방식은 행오버 윈도우에서의 N개의 프레임의 길이를 갖는 인코더 선택 식별자를 저장하는 것 - N개의 프레임은 현재 프레임 및 현재 프레임 전의 N-1개의 프레임의 인코더 선택 식별자들을 포함함 -; 및 인코더 선택 식별자들이 특정된 임계값에 누적될 때, 현재 프레임의 인코딩 타입 표시 식별자를 갱신하는 것일 수 있다. 선택적으로, 행오버 윈도우 처리에 더하여, 음장 분류 결과에 대한 정정을 수행하기 위해 다른 처리가 이용될 수 있다.
도 9에 도시된 바와 같이, HOA 신호의 인코딩 모드를 결정하는 절차는 주로 다음을 포함한다:
S01: 분석될 HOA 신호를 획득한다.
S02: HOA 신호에 대해 다운샘플링을 수행한다.
분석될 HOA 신호에 대해 다운샘플링을 수행하는 것이 선택적 단계라는 것은 제한되지 않는다.
분석될 HOA 신호에 대해 다운샘플링이 수행되어, 계산 복잡성을 감소시킨다. 분석될 HOA 신호는 시간 도메인 HOA 신호이거나, 또는 주파수 도메인 HOA 신호일 수 있다. 분석될 HOA 신호는 모든 채널들 또는 일부 HOA 채널들(예를 들어, FOA 채널)을 포함할 수 있다. 예를 들어, 분석될 HOA 신호는 모든 샘플링 포인트들 또는 1/Q 다운샘플링 포인트들일 수 있다. 예를 들어, 이 실시예에서, 1/120 다운샘플링 포인트들이 사용된다.
예를 들어, 현재 프레임의 HOA 신호의 차수는 3이고, HOA 신호의 채널들의 양은 16이며, 현재 프레임의 프레임 길이는 20 밀리초(ms)인데, 즉, 현재 프레임의 신호는 960개의 샘플링 포인트를 포함한다. 현재 프레임의 인코딩될 HOA 신호가 1/120 다운샘플링에 의해 처리된 후에, 신호의 각각의 채널은 8개의 샘플링 포인트를 포함한다. 다시 말해서, HOA 신호는 16개의 채널을 가지며, 각각의 채널은 8개의 샘플링 포인트를 가져서, 음장 타입 분석의 입력 신호, 즉 분석될 HOA 신호를 형성한다.
S03: 다운샘플링을 통해 획득된 신호에 기초하여 음장 타입 분석을 수행한다.
HOA 신호에 대해 다운샘플링이 수행된 후에, HOA 신호의 이종 음원들의 양을 분석함으로써 음장 타입이 획득된다.
예를 들어, 본 출원의 이 실시예에서의 음장 타입 분석은 HOA 신호에 대해 선형 분해를 수행하고, 선형 분해를 통해 선형 분해 결과를 획득하며, 그 후 선형 분해 결과에 기초하여 음장 분류 결과를 획득하는 것일 수 있다.
예를 들어, 이종 음원들의 양은 선형 분해 결과에 기초하여 획득될 수 있다. 예를 들어, 선형 분해 결과는 특징 값을 포함할 수 있다. 이종 음원들의 양이 특징 값들 사이의 비율에 기초하여 추정되는 것은 구체적으로 다음을 포함한다:
분석될 HOA 신호에 대해 특이값 분해를 수행하여, 특이값 v[i] - 여기서 i = 0, 1, ..., min(L,K)-1임 - 를 획득하는 단계.
L은 HOA 신호의 채널들의 양과 동일하고, K는 현재 프레임의 각각의 채널의 신호 포인트들의 양이다. 예를 들어, 신호 포인트들의 양은 주파수들의 양일 수 있다. 이 실시예에서, L = 16, K = 8, 및 min(L,K) = 8이다.
특이값들 v 사이의 비율 temp[i]가 계산되고, 음장 분류 파라미터로서 사용되며, 여기서 i = 0, 1, ..., min(L,K)-2에 대해:
.
이종 음원 결정 임계값은 100이고, 이종 음원들의 양 n은 이하의 방식으로 추정될 수 있다:
i=0으로부터 temp[i]가 100보다 큰지를 결정하는 단계; 및 temp[i]가 100 이상이고 temp[i] 100이 충족되는 경우, 결정을 중단하는 단계; 그렇지 않으면, i = i + 1이고, 결정을 계속 수행하는 단계. 결정이 중단될 때, 이종 음원들의 양 n은 결정이 중단될 때의 시퀀스 번호 i에 1을 더한 것과 동일하다. 예를 들어, i=0일 때, temp[0] 100인 경우, 결정이 중단되고, 이종 음원들의 양 n은 1과 동일하다. 그렇지 않으면, i는 1에 설정되고, i=1일 때 결정이 계속 수행된다. i =1이고 temp[1] 100일 때, 결정이 중단되고, 이종 음원들의 양 n은 i + 1 = 2와 동일하다.
S04: 음장 타입 분석 결과에 기초하여 예측 인코딩 모드를 결정한다.
예측 인코딩 모드는 이종 음원들의 양 n에 기초하여 결정된다.
0 < n < 3일 때, 예측 인코딩 모드는 인코딩 모드 1이다.
n 3 또는 n = 0일 때, 예측 인코딩 모드는 인코딩 모드 2이다.
예를 들어, 인코딩 모드 1은 가상 스피커 선택에 기초한 HOA 인코딩 모드일 수 있다. 인코딩 모드 2는 DirAC(directional audio coding)에 기초한 HOA 인코딩 방식일 수 있다.
S05: 예측 인코딩 모드에 기초하여 실제 인코딩 모드를 결정한다.
현재 프레임의 예측 인코딩 모드가 결정된 후, 실제 인코딩 모드가 결정된다. 예를 들어, 실제 인코딩 모드를 결정하기 위해 행오버 윈도우가 사용된다. 행오버 윈도우에 있어서, 행오버 윈도우 내의 복수의 프레임의 예상 인코딩 모드 2가 특정된 임계값에 누적될 때, 현재 프레임의 실제 인코딩 모드는 인코딩 모드 2이다. 그렇지 않으면, 현재 프레임의 실제 인코딩 모드는 인코딩 모드 1이다.
예를 들어, 단계 S03에서의 현재 프레임의 인코딩 모드 결정 결과와 현재 프레임 이전의 9개의 프레임의 인코딩 모드 결과들을 포함하여, 행오버 윈도우에 10개의 프레임의 예상 인코딩 모드 결과가 있다. 그 인코딩 모드들이 인코딩 모드 2인 10개의 프레임의 예상 인코딩 모드 결과에 있어서 프레임들이 7개의 프레임에 누적되는 경우, 현재 프레임의 실제 인코딩 모드는 인코딩 모드 2로서 결정된다.
S06: 최종 인코딩 모드를 획득한다.
인코더 측에 대응하는 하이브리드 HOA 디코더의 기본 디코딩 절차가 도 10에 도시되어 있다. 디코더 측은 인코더 측으로부터 비트스트림을 획득하고, 그 후 비트스트림을 파싱하여, 현재 프레임의 HOA 디코딩 모드를 획득한다. 현재 프레임의 HOA 디코딩 모드에 기초하여, 디코딩을 위한 대응하는 디코딩 방식이 선택되어 재구성된 HOA 신호를 획득한다. 구체적으로, 디코더 측은 디코더 선택 유닛을 포함한다. 디코더 선택 유닛은 비트스트림을 파싱하고, 디코딩 모드를 결정하고, 디코딩 모드에 기초하여 디코딩을 위한 디코더 A 또는 디코더 B를 선택하여, 재구성된 HOA 신호를 획득한다. 디코더 A 및 디코더 B는 디코더의 상이한 타입들을 나타내고, 디코더의 각각의 타입은 현재 프레임의 음장 타입에 적응된다. 음장 타입에 적응된 디코더가 디코딩을 위해 이용될 때, HOA 신호는 정확하게 재구성될 수 있다.
전술한 설명으로부터, 인코딩될 HOA 신호에 대해 음장 분류가 수행되고, 음장 분류 결과에 기초하여 인코딩 모드가 결정되어, 적절한 신호 타입들에 대해 상이한 인코딩 모드들이 사용되어, 상이한 타입들의 신호들에 대한 최대 압축 효율을 획득한다는 것을 알 수 있다.
이하에서는 본 출원의 실시예에 따른 가상 스피커 선택에 기초한 HOA 인코더를 설명한다. 도 11은 기본 인코딩 절차를 도시한다.
인코더 측은: 가상 스피커 구성 유닛, 인코딩 분석 유닛, 가상 스피커 세트 발생 유닛, 가상 스피커 선택 유닛, 가상 스피커 신호 발생 유닛, 코어 인코더 처리 유닛, 신호 재구성 유닛, 잔차 신호 발생 유닛, 선택 유닛, 및 신호 보상 유닛을 포함할 수 있다. 이하에서는 인코더 측에 포함되는 유닛들의 기능들을 개별적으로 설명한다. 본 출원의 이 실시예에서, 도 11에 도시된 인코더 측은 하나의 가상 스피커 신호 또는 복수의 가상 스피커 신호를 발생시킬 수 있다. 복수의 가상 스피커 신호를 발생시키는 절차는 도 11에 도시된 대로 인코더의 구조에 기초하여 복수 회 발생을 수행하는 것일 수 있다. 이하에서는 하나의 가상 스피커 신호를 생성하는 절차를 예로서 사용한다.
가상 스피커 구성 유닛은 가상 스피커 세트 중 한 가상 스피커를 구성하여, 복수의 가상 스피커를 획득하도록 구성된다.
가상 스피커 구성 유닛은 인코더 구성 정보에 기초하여 가상 스피커 구성 파라미터를 출력한다. 인코더 구성 정보는 HOA 차수, 인코딩 비트 레이트, 사용자 정의 정보, 및 그와 유사한 것을 포함하지만 이에 제한되지는 않는다. 가상 스피커 구성 파라미터는 가상 스피커들의 양, 가상 스피커의 HOA 차수, 가상 스피커의 위치 좌표들, 및 그와 유사한 것을 포함하지만, 이에 제한되지는 않는다.
가상 스피커 구성 유닛에 의해 출력되는 가상 스피커 구성 파라미터는 가상 스피커 세트 발생 유닛의 입력으로서 사용된다.
인코딩 분석 유닛은 인코딩될 HOA 신호에 대해 인코딩 분석을 수행하도록, 예를 들어, 인코딩될 HOA 신호의 음원들의 양, 지향성, 및 인코딩될 HOA 신호의 분산도와 같은 특징들을 포함하는 음장 분포를 분석하도록 구성된다. 특징은 타깃 가상 스피커를 선택하는 방법을 결정하기 위한 결정 조건들 중 하나로서 사용된다.
본 출원의 이 실시예에서, 인코더 측이 대안적으로 인코딩 분석 유닛을 포함하지 않을 수 있다는 것은 제한되지 않는다. 다시 말해서, 인코더 측은 입력 신호를 분석하지 않고, 디폴트 구성을 이용하여 타깃 가상 스피커를 선택하는 방법을 결정할 수 있다.
인코더 측은 인코딩될 HOA 신호를 획득한다. 예를 들어, 인코더 측은 실제 취득 디바이스로부터 레코딩된 HOA 신호 또는 인코더의 입력으로서 인공 오디오 객체를 이용함으로써 합성된 HOA 신호를 이용할 수 있다. 덧붙여, 인코더에 의해 입력되는 인코딩될 HOA 신호는 시간 도메인 HOA 신호 또는 주파수 도메인 HOA 신호일 수 있다.
가상 스피커 세트 발생 유닛은 가상 스피커 세트를 발생하도록 구성된다. 가상 스피커 세트는 복수의 가상 스피커를 포함할 수 있고, 가상 스피커 세트 중의 가상 스피커는 또한 "후보 가상 스피커" 라고 지칭될 수 있다.
가상 스피커 세트 발생 유닛은 가상 스피커 구성 파라미터에 기초하여 특정된 후보 가상 스피커의 HOA 계수를 발생시킨다. 후보 가상 스피커의 좌표(즉, 위치 좌표 또는 위치 정보) 및 후보 가상 스피커의 HOA 차수는 후보 가상 스피커의 HOA 계수를 발생시키기 위해 요구된다. 후보 가상 스피커의 좌표를 결정하기 위한 방법은 등거리 원리에 따라 K개의 가상 스피커를 발생시키는 단계, 및 청각 지각의 원리에 따라, 불균일하게 분포된 K개의 후보 가상 스피커를 발생시키는 단계를 포함하지만, 이들로 제한되지는 않는다. 이하에서는 균일하게 분포되는 고정된 양의 가상 스피커들을 발생시키는 예를 설명한다.
균일하게 분포된 후보 가상 스피커들의 좌표는 후보 가상 스피커들의 양에 기초하여 발생되는데, 예를 들어, 거의 균일한 스피커 배열이 수치적 반복 계산 방법을 사용하여 획득된다.
후보 가상 스피커의, 가상 스피커 세트 발생 유닛에 의해 출력된 HOA 계수가 가상 스피커 선택 유닛의 입력으로서 이용된다.
가상 스피커 선택 유닛은 인코딩될 HOA 신호에 기초하여 가상 스피커 세트 중 복수의 후보 가상 스피커로부터 타깃 가상 스피커를 선택하도록 구성되며, 여기서 타깃 가상 스피커는 "인코딩될 HOA 신호와 매칭되는 가상 스피커" 또는 매칭 가상 스피커라고 지칭될 수 있다.
가상 스피커 선택 유닛은 인코딩될 HOA 신호를 후보 가상 스피커의, 가상 스피커 세트 발생 유닛에 의해 출력된 HOA 계수와 매칭시키고, 특정된 매칭 가상 스피커를 선택한다.
본 출원의 이 실시예에서, 인코딩될 HOA 신호에 대해 음장 분류를 수행하여 음장 분류 결과를 획득하고, 음장 분류 결과에 기초하여 인코딩 파라미터가 결정된다.
인코딩 분석 유닛은 인코딩될 HOA 신호에 기초하여 인코딩 분석을 수행하도록 구성되고, 여기서 분석은: 인코딩될 HOA 신호에 기초하여 음장 분류를 수행하는 것을 포함할 수 있다. 음장 분류 방법에 대해서는, 전술한 실시예를 참조한다. 상세사항들은 본 명세서에서 다시 설명되지 않는다.
인코딩 파라미터가 음장 분류 결과에 기초하여 결정된다. 인코딩 파라미터는 가상 스피커 신호의 채널들의 양, 잔차 신호의 채널들의 양, 또는 가상 스피커 선택에 기초한 HOA 인코딩 방식에서 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양 중 적어도 하나를 포함할 수 있다.
구체적으로, 가상 스피커 선택 유닛은, 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 결정된 양 및 가상 스피커 신호의 채널들에 기초하여, 인코딩될 HOA 계수를, 후보 가상 스피커의, 가상 스피커 세트 발생 유닛에 의해 출력되는 HOA 계수와 매칭시키고, 최상의 매칭 가상 스피커를 선택하고, 매칭 가상 스피커의 HOA 계수를 획득한다. 최상의 매칭 가상 스피커들의 양은 가상 스피커 신호의 채널들의 양과 동일하다.
가상 스피커 선택 유닛은, 투표에 기초한 최상의 매칭 스피커 검색 방법을 이용하여, 인코딩될 HOA 계수를, 후보 가상 스피커의, 가상 스피커 세트 발생 유닛에 의해 출력되는 HOA 계수와 매칭시키고, 최상의 매칭 가상 스피커를 선택하며, 음장 분류 결과에 기초하여, 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양 I를 결정할 수 있다.
투표 라운드들의 양 I는 다음의 규칙들을 준수할 필요가 있다: 투표 라운드들의 최소 양은 1이고, 최대 양은 스피커들의 총 양(예를 들어, 가상 스피커 세트 발생 유닛에 의해 획득되는 1024개의 스피커) 및 가상 스피커 신호의 채널들의 양(인코더에 의해 송신되는 가상 스피커 신호들의 양, 즉 N개의 최상의 매칭 스피커에 의해 대응하여 발생되는 N개의 송신 채널)을 초과하지 않는다. 보통, 가상 스피커 신호의 채널들의 양은 스피커들의 총 양보다 작다.
투표 라운드들의 양을 추정하기 위한 방법은 다음과 같다:
음장 분류 결과에서 획득된 이종 음원들의 양에 기초하여, 음장에서, 스피커를 선택하기 위한 투표 라운드들의 양 I를 결정하는 단계.
투표 라운드들의 양 I는 를 충족한다. d는 음장에 포함된 상이한 방향들에서의 음원들의 양, 즉 음장 분류 결과에서의 추정된 이종 음원들의 양이다. 예를 들어, I = d이다.
가상 스피커 신호의 채널들의 양 및 잔차 신호의 채널들의 양은 음장 타입에 기초하여 결정된다.
그 후, 본 출원의 실시예는 적응적 가상 스피커 신호의 채널들의 양 F를 선택하기 위한 방법을 제공한다.
음장 타입이 이종 음장일 때, F = min(S,PF), 여기서 S는 음장 내의 이종 음원들의 양이고, PF는 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이다.
음장 타입이 분산 음장일 때, F = 1이다.
다음으로, 본 출원의 실시예는 적응적 잔차 신호의 채널들의 양 R을 선택하기 위한 방법을 제공한다.
음장 타입이 분산 음원 필드일 때, R = max(C-1,PR), 여기서 C는 송신 채널들의 미리 설정된 총 양이고, PR은 인코더에 의해 미리 설정된 잔차 신호들의 양이다. 예를 들어, C는 PF와 PR의 합이다.
음장 타입이 이종 음장일 때, R = C - F이다.
음장 분류 결과에 기초하여 가상 스피커 신호 및 잔차 신호의 비트 할당을 결정하기 위한 방법은 다음과 같다:
이종 음원들의 양 가상 스피커 신호의 채널들의 양일 때, 잔차 신호의 에너지는 낮고, 따라서 더 많은 비트들이 가상 스피커 신호의 채널에 할당될 수 있다.
일부 실시예들에서, 가상 스피커 신호 및 잔차 신호는 2개의 그룹, 즉 가상 스피커 신호 그룹 및 잔차 신호 그룹으로 분할된다. 이종 음원들의 양 가상 스피커 신호의 채널들의 양일 때, 가상 스피커 신호 그룹의 미리 설정된 할당 비율은 미리 설정된 조정 값에 기초하여 증가되고, 가상 스피커 신호 그룹의 증가된 할당 비율은 가상 스피커 신호 그룹의 할당 비율로서 사용된다.
잔차 신호 그룹의 할당 비율 = 1.0 - 가상 스피커 신호 그룹의 할당 비율.
가상 스피커 신호 발생 유닛이 인코딩될 HOA 계수 및 매칭된 가상 스피커의 HOA 계수에 기초하여 가상 스피커 신호를 계산한다.
신호 재구성 유닛이 가상 스피커 신호 및 매칭된 가상 스피커의 HOA 계수에 기초하여 HOA 신호를 재구성한다.
잔차 신호 발생 유닛이, 단계 1에서 결정된 잔차 신호의 채널들의 양, 인코딩될 HOA 계수, 및 HOA 신호 재구성 유닛에 의해 출력된 재구성된 HOA 신호에 기초하여 잔차 신호를 계산할 수 있다.
N차 앰비소닉스 계수를 갖는 잔차 신호와 비교하여, N차 앰비소닉스 계수보다 작은 채널들의 양이 송신될 잔차 신호들로서 선택될 때 정보 손실이 발생하기 때문에 신호 보상 유닛이 송신되지 않은 잔차 신호에 대해 정보 보상을 수행할 필요가 있다.
가상 스피커 신호는 높은 진폭 또는 에너지를 가지며, 송신될 잔차 신호는 낮은 진폭 또는 에너지를 갖는다. 그러므로, 선택 유닛은 모든 가용 비트들을 가상 스피커 신호 및 송신될 잔차 신호에 미리 할당한다. 획득된 비트 사전 할당 정보는 처리를 위해 코어 인코더를 안내하기 위해 사용된다.
코어 인코더 처리 유닛은 송신 채널에 대해 코어 인코더 처리를 수행하고 송신 비트스트림을 출력한다. 송신 채널은 가상 스피커 신호의 채널 및 잔차 신호의 채널을 포함한다.
인코딩 파라미터가 음장 분류 결과에 기초하여 결정된다. 인코딩 파라미터는 가상 스피커 선택에 기초한 HOA 인코딩 방식에서의 가상 스피커 신호의 비트 할당 및 잔차 신호의 비트 할당 중 적어도 하나를 추가로 포함할 수 있다. 가상 스피커 신호의 비트 할당 및 잔차 신호의 비트 할당이 음장 분류 결과에 기초하여 결정되는 경우, 가상 스피커 신호 및 잔차 신호의 비트 할당은 음장 분류 결과에 기초하여 결정될 필요가 있다.
일부 실시예들에서, 음장 분류 결과에 기초하여 가상 스피커 신호 및 잔차 신호의 비트 할당을 결정하기 위한 방법은 다음과 같다: 가상 스피커 신호의 채널들의 양은 F이고, 잔차 신호의 채널들의 양은 R이고, 가상 스피커 신호 및 잔차 신호를 인코딩하기 위해 사용될 수 있는 비트들의 총 양은 numbit인 것으로 가정된다.
하나의 방식에서, 가상 스피커 신호의 인코딩 비트들의 총 양, 잔차 신호의 인코딩 비트들의 총 양이 먼저 결정되고, 다음으로 각각의 채널의 인코딩 비트들의 양이 결정된다. 예를 들어, 가상 스피커 신호의 인코딩 비트들의 총 양은 다음과 같다:
는 가상 스피커 신호의 인코딩 비트에 할당되는 가중 인자이고, 는 잔차 신호의 인코딩 비트에 할당되는 가중 인자이고, round()는 반내림(rounding down)을 나타낸다. 예를 들어, 이다. 예를 들어, 이다.
잔차 신호의 인코딩 비트들의 총 양은 이다.
다음으로, 가상 스피커 신호의 각각의 채널의 인코딩 비트들은 가상 스피커 신호의 비트 할당 기준에 따라 할당되고, 잔차 신호의 각각의 채널의 인코딩 비트들은 잔차 신호의 비트 할당 기준에 따라 할당된다.
대안적으로, 잔차 신호의 인코딩 비트들의 총 양은 다음과 같다:
는 가상 스피커 신호의 인코딩 비트에 할당되는 가중 인자이고, 는 잔차 신호의 인코딩 비트에 할당되는 가중 인자이고, round()는 반내림(rounding down)을 나타낸다. 예를 들어, 이다. 예를 들어, 이다.
가상 스피커 신호의 인코딩 비트들의 총 양은 이다.
다음으로, 가상 스피커 신호의 각각의 채널의 인코딩 비트들은 가상 스피커 신호의 비트 할당 기준에 따라 할당되고, 잔차 신호의 각각의 채널의 인코딩 비트들은 잔차 신호의 비트 할당 기준에 따라 할당된다.
또한, 각각의 채널의 인코딩 비트들의 양은 대안적으로 직접 결정될 수 있다. 예를 들어, 각각의 가상 스피커 신호의 인코딩 비트들의 양은 다음과 같다:
각각의 잔차 신호의 인코딩 비트들의 양은 다음과 같다:
가상 스피커 신호 및 잔차 신호를 인코딩하는데 최종적으로 사용되는 비트 할당 결과는 전술한 방법을 사용하여 획득되는 조정된 비트 할당 결과에 기초하여 결정될 수 있다는 점을 유의해야 한다. 가상 스피커 신호 및 잔차 신호를 인코딩하기 위한 비트 할당 결과를 획득한 후에, 코어 인코더 처리 유닛은 비트 할당 결과에 기초하여 가상 스피커 신호 및 잔차 신호를 인코딩한다.
인코딩될 HOA 신호에 대해 음장 분류가 수행되고, 인코딩 파라미터는 음장 분류 결과에 기초하여 결정되고, 인코딩될 신호는 결정된 인코딩 파라미터에 기초하여 인코딩된다. 인코딩 파라미터는 가상 스피커 신호의 채널들의 양, 잔차 신호의 채널들의 양, 가상 스피커 신호의 비트 할당, 잔차 신호의 비트 할당, 또는 가상 스피커 선택에 기초한 HOA 인코딩 방식에서 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양 중 적어도 하나를 포함한다. 인코딩 파라미터의 설명에 대해서는, 전술한 내용을 참조한다. 상세사항들은 본 명세서에서 다시 설명되지 않는다.
전술한 예로부터, 본 출원의 이 실시예에서, 인코딩될 HOA 신호에 대해 음장 분류가 수행되어, 인코딩될 HOA 신호의 상이한 특징들에 기초하여 적절한 인코딩 모드 및/또는 인코딩 파라미터가 선택되어 HOA 신호를 인코딩하도록 된다는 것을 알 수 있다. 이는 압축 효율 및 청각 품질을 개선한다.
디코더 측에 의해 수행되는 디코딩 절차는 본 출원의 실시예들에서 상세히 설명되지 않는다.
간단한 설명을 위해, 전술한 방법 실시예들이 일련의 액션들로서 표현된다는 점에 유의해야 한다. 그러나, 본 출원에 따르면 일부 단계들이 다른 순서들로 또는 동시에 수행될 수 있기 때문에, 본 기술분야의 통상의 기술자는 본 출원이 액션들의 설명된 순서로만 제한되지 않는다는 것을 알아야 한다. 본 명세서에 설명되는 실시예들은 모두 예시적인 실시예들에 속하고, 수반된 액션들 및 모듈들이 본 출원에 의해 반드시 요구되는 것은 아니라는 점을 본 기술분야의 통상의 기술자가 추가로 알아야 한다.
본 출원의 실시예들의 해결책들을 더 잘 구현하기 위해, 해결책들을 구현하기 위한 관련 장치가 아래에 추가로 제공된다.
도 12는 본 출원의 실시예에 따른 3차원 오디오 신호 처리 장치를 도시한다. 예를 들어, 3차원 오디오 신호 처리 장치는 구체적으로 오디오 인코딩 장치(1200)이고, 선형 분석 모듈(1201), 파라미터 발생 모듈(1202), 및 음장 분류 모듈(1203)을 포함할 수 있다.
선형 분석 모듈은 3차원 오디오 신호에 대해 선형 분해를 수행하여, 선형 분해 결과를 획득하도록 구성된다.
파라미터 발생 모듈은, 선형 분해 결과에 기초하여, 현재 프레임에 대응하는 음장 분류 파라미터를 획득하도록 구성된다.
음장 분류 모듈은 음장 분류 파라미터에 기초하여 현재 프레임의 음장 분류 결과를 결정하도록 구성된다.
본 출원의 일부 실시예들에서, 3차원 오디오 신호는 고차 앰비소닉스(HOA) 신호 또는 1차 앰비소닉스(FOA) 신호를 포함한다.
본 출원의 일부 실시예들에서, 선형 분석 모듈은: 현재 프레임에 대해 특이 값 분해를 수행하여 현재 프레임에 대응하는 특이 값을 획득하고 - 선형 분해 결과는 특이 값을 포함함 -; 현재 프레임에 대해 주성분 분석을 수행하여 현재 프레임에 대응하는 제1 특징 값을 획득하고 - 선형 분해 결과는 제1 특징 값을 포함함 -; 또는 현재 프레임에 대해 독립적 성분 분석을 수행하여 현재 프레임에 대응하는 제2 특징 값을 획득하도록 - 선형 분해 결과는 제2 특징 값을 포함함 - 구성된다.
본 출원의 일부 실시예들에서, 복수의 선형 분해 결과가 존재하고, 복수의 음장 분류 파라미터가 존재한다.
파라미터 발생 모듈은: 현재 프레임의 i번째 선형 분석 결과 대 현재 프레임의 (i+1)번째 선형 분석 결과의 비율을 획득하고 - i는 양의 정수임 -; 및 비율에 기초하여, 현재 프레임에 대응하는 i번째 음장 분류 파라미터를 획득하도록 구성된다.
선택적으로, i번째 선형 분석 결과 및 (i+1)번째 선형 분석 결과는 현재 프레임의 2개의 연속 선형 분석 결과이다.
본 출원의 일부 실시예들에서, 복수의 음장 분류 파라미터가 존재하고, 음장 분류 결과는 음장 타입을 포함한다. 음장 분류 모듈은: 복수의 음장 분류 파라미터의 값이 모두 미리 설정된 분산 음원 결정 조건을 충족할 때, 음장 타입이 분산 음장인 것을 결정하고; 또는 복수의 음장 분류 파라미터의 값들 중 적어도 하나가 미리 설정된 이종 음원 결정 조건을 충족할 때, 음장 타입이 이종 음장인 것을 결정하도록 구성된다.
본 출원의 일부 실시예들에서, 분산 음원 결정 조건은 음장 분류 파라미터의 값이 미리 설정된 이종 음원 결정 임계값보다 작은 것을 포함하고; 또는 이종 음원 결정 조건은 음장 분류 파라미터의 값이 미리 설정된 이종 음원 결정 임계값 이상인 것을 포함한다.
본 출원의 일부 실시예들에서, 복수의 음장 분류 파라미터가 존재한다.
음장 분류 결과는 음장 타입을 포함하거나, 또는 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다.
음장 분류 모듈은: 복수의 음장 분류 파라미터의 값들에 기초하여, 현재 프레임에 대응하는 이종 음원들의 양을 획득하고; 및 현재 프레임에 대응하는 이종 음원들의 양에 기초하여 음장 타입을 결정하도록 구성된다.
본 출원의 일부 실시예들에서, 복수의 음장 분류 파라미터가 존재한다.
음장 분류 결과는 이종 음원들의 양을 포함한다.
음장 분류 모듈은 복수의 음장 분류 파라미터의 값들에 기초하여, 현재 프레임에 대응하는 이종 음원들의 양을 획득하도록 구성된다.
본 출원의 일부 실시예들에서, 복수의 음장 분류 파라미터는 temp[i]이고, i = 0, 1, ..., min(L,K)-2, L은 현재 프레임의 채널들의 양을 나타내고, K는 현재 프레임의 각각의 채널에 대응하는 신호 포인트들의 양이고, min은 최소 값이 선택되는 동작을 나타낸다.
음장 분류 모듈은 i=0으로부터 다음의 결정 프로세스를 순차적으로 수행하도록 구성된다:
temp[i]가 미리 설정된 이종 음원 결정 임계값보다 큰지를 결정하는 단계; 및
이 결정 절차에서 temp[i]가 이종 음원 결정 임계값보다 작을 때, i의 값을 i+1로 갱신하고, 다음 결정 절차를 계속 수행하는 단계; 또는
이 결정 절차에서 temp[i]가 이종 음원 결정 임계값 이상일 때, 결정 절차의 실행을 종료하고, 이 결정 절차에서의 i에 1을 더한 것이 이종 음원들의 양과 동일한 것을 결정하는 단계를 포함한다.
본 출원의 일부 실시예들에서, 현재 프레임에 대응하는 이종 음원들의 양에 기초하여 음장 타입을 결정하는 단계는:
이종 음원들의 양이 제1 미리 설정된 조건을 충족할 때, 음장 타입이 제1 음장 타입인 것을 결정하는 단계; 또는
이종 음원들의 양이 제1 미리 설정된 조건을 충족하지 못할 때, 음장 타입이 제2 음장 타입인 것을 결정하는 단계를 포함한다.
제1 음장 타입에 대응하는 이종 음원들의 양은 제2 음장 타입에 대응하는 이종 음원들의 양과 상이하다.
본 출원의 일부 실시예들에서, 제1 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값보다 크거나 제2 임계값보다 작고 제2 임계값이 제1 임계값보다 큰 것을 포함하고; 또는
제1 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값 이하이거나 제2 임계값 이상이고 제2 임계값이 제1 임계값보다 큰 것을 포함한다.
본 출원의 일부 실시예들에서, 오디오 인코딩 장치는 인코딩 모드 결정 모듈(도 12에 도시되지 않음)을 추가로 포함한다. 인코딩 모드 결정 모듈은, 음장 분류 결과에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하도록 구성된다.
가능한 구현에서, 인코딩 모드 결정 모듈은: 음장 분류 결과가 이종 음원들의 양을 포함하거나, 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 이종 음원들의 양에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하고; 음장 분류 결과가 음장 타입을 포함하거나, 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 음장 타입에 기초하여 현재 프레임에 대응하는 인코딩 모드를 결정하고; 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 이종 음원들의 양 및 음장 타입에 기초하여, 현재 프레임에 대응하는 인코딩 모드를 결정하도록 구성된다.
본 출원의 일부 실시예들에서, 인코딩 모드 결정 모듈은: 이종 음원들의 양이 제2 미리 설정된 조건을 충족할 때, 인코딩 모드가 제1 인코딩 모드인 것을 결정하고; 또는 이종 음원들의 양이 제2 미리 설정된 조건을 충족시키니 못할 때, 인코딩 모드가 제2 인코딩 모드인 것을 결정하도록 구성된다.
제1 인코딩 모드는 가상 스피커 선택에 기초한 HOA 인코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 인코딩 모드이고, 제2 인코딩 모드는 가상 스피커 선택에 기초한 HOA 인코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 인코딩 모드이고, 제1 인코딩 모드와 제2 인코딩 모드는 상이한 인코딩 모드들이다.
본 출원의 일부 실시예들에서, 제2 미리 설정된 조건은 이종 음원들의 양이 제1 임계값보다 크거나 제2 임계값보다 작고 제2 임계값이 제1 임계값보다 큰 것을 포함하고; 또는
제2 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값 이하이거나 제2 임계값 이상이고 제2 임계값이 제1 임계값보다 큰 것을 포함한다.
본 출원의 일부 실시예들에서, 인코딩 모드 결정 모듈은: 음장 타입이 이종 음장일 때, 인코딩 모드가 가상 스피커 선택에 기초한 HOA 인코딩 모드인 것을 결정하고; 또는 음장 타입이 분산 음장일 때, 인코딩 모드가 방향성 오디오 코딩에 기초한 HOA 인코딩 모드인 것을 결정하도록 구성된다.
본 출원의 일부 실시예들에서, 인코딩 모드 결정 모듈은: 현재 프레임의 음장 분류 결과에 기초하여, 현재 프레임에 대응하는 초기 인코딩 모드를 결정하고; 현재 프레임이 위치하는 행오버 윈도우를 획득하고 - 행오버 윈도우는 현재 프레임의 초기 인코딩 모드 및 현재 프레임 전의 N-1개의 프레임의 인코딩 모드들을 포함하고, N은 행오버 윈도우의 길이임 -; 및 현재 프레임의 초기 인코딩 모드와 N-1개의 프레임의 인코딩 모드들에 기초하여 현재 프레임의 인코딩 모드를 결정하도록 구성된다.
본 출원의 일부 실시예들에서, 오디오 인코딩 장치는 인코딩 파라미터 결정 모듈(도 12에 도시되지 않음)을 추가로 포함한다. 인코딩 파라미터 결정 모듈은 음장 분류 결과에 기초하여 현재 프레임에 대응하는 인코딩 파라미터를 결정하도록 구성된다.
본 출원의 일부 실시예들에서, 인코딩 파라미터는: 가상 스피커 신호의 채널들의 양, 잔차 신호의 채널들의 양, 가상 스피커 신호의 인코딩 비트들의 양, 잔차 신호의 인코딩 비트들의 양, 또는 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양 중 적어도 하나를 포함한다.
가상 스피커 신호 및 잔차 신호는 3차원 오디오 신호에 기초하여 발생된 신호들이다.
본 출원의 일부 실시예들에서, 투표 라운드들의 양은 다음의 관계를 충족한다:
I는 투표 라운드들의 양이고, d는 음장 분류 결과에 포함된 이종 음원들의 양이다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다.
음장 타입이 이종 음장일 때, 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족한다:
F = min(S,PF), 여기서
F는 가상 스피커 신호의 채널들의 양이고, S는 이종 음원들의 양이고, PF는 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이고; 또는
음장 타입이 분산 음장일 때, 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족하고:
F = 1, 여기서
F는 가상 스피커 신호의 채널들의 양이다.
본 출원의 일부 실시예들에서, 음장 타입이 분산 음장일 때, 잔차 신호의 채널들의 양은 다음의 관계를 충족한다:
R = max(C-1,PR), 여기서
PR은 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양이고, C는 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고; 또는
음장 타입이 이종 음장일 때, 잔차 신호의 채널들의 양은 다음의 관계를 충족하고:
R = C - F, 여기서
R은 잔차 신호의 채널들의 양이고, C는 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 가상 스피커 신호의 채널들의 양이다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 이종 음원들의 양을 포함한다.
가상 스피커 신호의 채널들의 양은 다음의 관계를 충족한다:
F = min(S,PF), 여기서
F는 가상 스피커 신호의 채널들의 양이고, S는 이종 음원들의 양이고, PF는 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이다.
본 출원의 일부 실시예들에서, 잔차 신호의 채널들의 양은 다음의 관계를 충족한다:
R = C - F, 여기서
R은 잔차 신호의 채널들의 양이고, C는 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 가상 스피커 신호의 채널들의 양이다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 이종 음원들의 양을 포함하거나, 또는 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다.
가상 스피커 신호의 인코딩 비트들의 양은 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율에 기초하여 획득된다.
잔차 신호의 인코딩 비트들의 양은 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율에 기초하여 획득된다.
송신 채널의 인코딩 비트들의 양은 가상 스피커 신호의 인코딩 비트들의 양 및 잔차 신호의 인코딩 비트들의 양을 포함하고, 이종 음원들의 양이 가상 스피커 신호의 채널들의 양 이하일 때, 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율은 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 초기 비율을 증가시킴으로써 획득된다.
본 출원의 일부 실시예들에서, 오디오 인코딩 장치는 인코딩 모듈(도 12에 도시되지 않음)을 추가로 포함한다. 인코딩 모듈은 현재 프레임 및 음장 분류 결과를 인코딩하고, 인코딩된 현재 프레임 및 음장 분류 결과를 비트스트림에 기입하도록 구성된다.
전술한 실시예에서의 예로부터, 3차원 오디오 신호의 현재 프레임에 대해 선형 분해가 먼저 수행되어, 선형 분해 결과를 획득한다는 것을 알 수 있다. 그 후, 선형 분해 결과에 기초하여 현재 프레임에 대응하는 음장 분류 파라미터가 획득된다. 마지막으로, 현재 프레임의 음장 분류 결과가 음장 분류 파라미터에 기초하여 결정된다. 본 출원의 이 실시예에서, 3차원 오디오 신호의 현재 프레임에 대해 선형 분해를 수행하여, 현재 프레임의 선형 분해 결과를 획득한다. 그 후, 선형 분해 결과에 기초하여 현재 프레임에 대응하는 음장 분류 파라미터가 획득된다. 따라서, 현재 프레임의 음장 분류 결과가 음장 분류 파라미터에 기초하여 결정되고, 현재 프레임의 음장 분류는 음장 분류 결과에 기초하여 구현될 수 있다. 본 출원의 이 실시예에서, 3차원 오디오 신호에 대해 음장 분류를 수행하여, 3차원 오디오 신호를 정확하게 식별한다.
도 13은 본 출원의 실시예에 따른 3차원 오디오 신호 처리 장치를 도시한다. 예를 들어, 3차원 오디오 신호 처리 장치는 구체적으로 오디오 디코딩 장치(1300)이고, 수신 모듈(1301), 디코딩 모듈(1302), 및 신호 발생 모듈(1303)을 포함할 수 있다.
수신 모듈은 비트스트림을 수신하도록 구성된다.
디코딩 모듈은 비트스트림을 디코딩하여, 현재 프레임의 음장 분류 결과를 획득하도록 구성된다.
신호 발생 모듈은 음장 분류 결과에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하도록 구성된다.
본 출원의 일부 실시예들에서, 신호 발생 모듈은 음장 분류 결과에 기초하여 현재 프레임의 디코딩 모드를 결정하고, 디코딩 모드에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하도록 구성된다.
본 출원의 일부 실시예들에서, 신호 발생 모듈은: 음장 분류 결과가 이종 음원들의 양을 포함하거나, 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 이종 음원들의 양에 기초하여 현재 프레임의 디코딩 모드를 결정하고; 음장 분류 결과가 음장 타입을 포함하거나, 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 음장 타입에 기초하여 현재 프레임의 디코딩 모드를 결정하고; 또는 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 이종 음원들의 양 및 음장 타입에 기초하여 현재 프레임의 디코딩 모드를 결정하도록 구성된다.
본 출원의 일부 실시예들에서, 신호 발생 모듈은: 이종 음원들의 양이 미리 설정된 조건을 충족할 때, 디코딩 모드가 제1 디코딩 모드인 것을 결정하고; 또는 이종 음원들의 양이 미리 설정된 조건을 충족하지 못할 때, 디코딩 모드가 제2 디코딩 모드인 것을 결정하도록 구성된다.
제1 디코딩 모드는 가상 스피커 선택에 기초한 HOA 디코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 디코딩 모드이고, 제2 디코딩 모드는 가상 스피커 선택에 기초한 HOA 디코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 디코딩 모드이고, 제1 디코딩 모드와 제2 디코딩 모드는 상이한 디코딩 모드들이다.
본 출원의 일부 실시예들에서, 미리 설정된 조건은, 이종 음원들의 양이 제1 임계값보다 크거나 제2 임계값보다 작고, 제2 임계값이 제1 임계값보다 큰 것을 포함하고; 또는
미리 설정된 조건은 이종 음원들의 양이 제1 임계값 이하이거나 제2 임계값 이상이고, 제2 임계값이 제1 임계값보다 큰 것을 포함한다.
본 출원의 일부 실시예들에서, 신호 발생 모듈은 음장 분류 결과에 기초하여 현재 프레임의 디코딩 파라미터를 결정하고, 디코딩 파라미터에 기초하여 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하도록 구성된다.
본 출원의 일부 실시예들에서, 디코딩 파라미터는 가상 스피커 신호의 채널들의 양, 잔차 신호의 채널들의 양, 가상 스피커 신호의 디코딩 비트들의 양, 또는 잔차 신호의 디코딩 비트들의 양 중 적어도 하나를 포함한다.
가상 스피커 신호 및 잔차 신호는 비트스트림을 디코딩함으로써 획득된다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다.
음장 타입이 이종 음장일 때, 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족한다:
F = min(S,PF), 여기서
F는 가상 스피커 신호의 채널들의 양이고, S는 이종 음원들의 양이고, PF는 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이고; 또는
음장 타입이 분산 음장일 때, 가상 스피커 신호의 채널들의 양은 다음의 관계를 충족하고:
F = 1, 여기서
F는 가상 스피커 신호의 채널들의 양이다.
본 출원의 일부 실시예들에서, 음장 타입이 분산 음장일 때, 잔차 신호의 채널들의 양은 다음의 관계를 충족한다:
R = max(C-1,PR), 여기서
PR은 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양이고, C는 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고; 또는
음장 타입이 이종 음장일 때, 잔차 신호의 채널들의 양은 다음의 관계를 충족하고:
R = C - F, 여기서
R은 잔차 신호의 채널들의 양이고, C는 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 가상 스피커 신호의 채널들의 양이다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 이종 음원들의 양을 포함한다.
가상 스피커 신호의 채널들의 양은 다음의 관계를 충족한다:
F = min(S,PF), 여기서
F는 가상 스피커 신호의 채널들의 양이고, S는 이종 음원들의 양이고, PF는 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양이다.
본 출원의 일부 실시예들에서, 잔차 신호의 채널들의 양은 다음의 관계를 충족한다:
R = C - F, 여기서
R은 잔차 신호의 채널들의 양이고, C는 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 가상 스피커 신호의 채널들의 양이다.
본 출원의 일부 실시예들에서, 음장 분류 결과는 이종 음원들의 양을 포함하거나, 또는 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함한다.
가상 스피커 신호의 디코딩 비트들의 양은 가상 스피커 신호의 디코딩 비트들의 양 대 송신 채널의 디코딩 비트들의 양의 비율에 기초하여 획득된다.
잔차 신호의 디코딩 비트들의 양은 가상 스피커 신호의 디코딩 비트들의 양 대 송신 채널의 디코딩 비트들의 양의 비율에 기초하여 획득된다.
송신 채널의 디코딩 비트들의 양은 가상 스피커 신호의 디코딩 비트들의 양 및 잔차 신호의 디코딩 비트들의 양을 포함하고, 이종 음원들의 양이 가상 스피커 신호의 채널들의 양 이하일 때, 가상 스피커 신호의 디코딩 비트들의 양 대 송신 채널의 디코딩 비트들의 양의 비율은 가상 스피커 신호의 디코딩 비트들의 양 대 송신 채널의 디코딩 비트들의 양의 초기 비율을 증가시킴으로써 획득된다.
전술한 실시예에서의 예로부터, 음장 분류 결과가 비트스트림 내의 현재 프레임을 디코딩하기 위해 사용될 수 있다는 것을 알 수 있다. 따라서, 디코더 측은 현재 프레임의 음장을 매칭시키는 디코딩 방식으로 디코딩을 수행하여, 인코더 측에 의해 송신된 3차원 오디오 신호를 획득한다. 이는 인코더 측으로부터 디코더 측으로의 오디오 신호의 송신을 구현한다.
장치의 모듈들/유닛들과 그의 실행 프로세스들 사이의 정보 교환과 같은 내용은 본 출원의 방법 실시예들과 동일한 아이디어에 기초하고, 본 출원의 방법 실시예들과 동일한 기술적 효과를 산출한다는 점에 유의해야 한다. 구체적인 내용에 대해서는, 본 출원의 방법 실시예들에서의 전술한 설명들을 참조한다. 상세사항들은 본 명세서에서 다시 설명되지 않는다.
본 출원의 실시예는 컴퓨터 저장 매체를 추가로 제공한다. 컴퓨터 저장 매체는 프로그램을 저장하고, 프로그램은 전술한 방법 실시예들에서 설명된 단계들의 일부 또는 전부를 수행한다.
이하에서는 본 출원의 실시예에 따른 또 다른 오디오 인코딩 장치를 설명한다. 도 14를 참조한다. 오디오 인코딩 장치(1400)는:
수신기(1401), 송신기(1402), 프로세서(1403), 및 메모리(1404)(오디오 인코딩 장치(1400)에는 하나 이상의 프로세서(1403)가 존재할 수 있고, 도 14에서는 하나의 프로세서가 예로서 사용된다)를 포함한다. 본 출원의 일부 실시예들에서, 수신기(1401), 송신기(1402), 프로세서(1403), 및 메모리(1404)는 버스를 통해 또는 또 다른 방식으로 접속될 수 있다. 도 14에서, 버스를 통한 접속이 예로서 사용된다.
메모리(1404)는 판독 전용 메모리 및 랜덤 액세스 메모리를 포함할 수 있고, 프로세서(1403)에 대한 명령어들 및 데이터를 제공할 수 있다. 메모리(1404)의 일부는 비휘발성 랜덤 액세스 메모리(non-volatile random access memory, NVRAM)를 추가로 포함할 수 있다. 메모리(1404)는 운영 체제 및 동작 명령어들, 실행가능 모듈 또는 데이터 구조, 또는 이들의 서브세트, 또는 이들의 확장 세트를 저장한다. 동작 명령어들은 다양한 동작들을 구현하기 위해 사용되는 다양한 동작 명령어들을 포함할 수 있다. 운영 체제는 다양한 기본 서비스들을 구현하고 하드웨어 기반 작업을 처리하기 위해 다양한 시스템 프로그램들을 포함할 수 있다.
프로세서(1403)는 오디오 인코딩 장치의 동작을 제어하고, 프로세서(1403)는 중앙 처리 유닛(central processing unit, CPU)이라고도 지칭될 수 있다. 특정 적용 동안, 오디오 인코딩 장치의 컴포넌트들은 버스 시스템을 통해 함께 결합된다. 데이터 버스 외에도, 버스 시스템은 전력 버스, 제어 버스, 상태 신호 버스, 및 그와 유사한 것을 추가로 포함할 수 있다. 그러나, 명확한 설명을 위해, 도면에서의 다양한 타입의 버스들이 버스 시스템으로서 마킹된다.
본 출원의 실시예들에 개시되는 방법은 프로세서(1403)에 적용될 수 있거나, 또는 프로세서(1403)를 사용하여 구현될 수 있다. 프로세서(1403)는 집적 회로 칩일 수 있고, 신호 처리 능력을 갖는다. 구현 프로세스에서, 전술한 방법들의 단계들은 프로세서(1403) 내의 하드웨어 집적 논리 회로를 사용하여, 또는 소프트웨어 형태의 명령어들을 사용하여 구현될 수 있다. 프로세서(1403)는 본 출원의 실시예들에 개시되는 방법들, 단계들, 및 논리 블록도들을 구현하거나 수행하기 위한, 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 주문형 집적 회로(application-specific integrated circuit, ASIC), 필드 프로그래머블 게이트 어레이(field programmable gate array, FPGA) 또는 또 다른 프로그래머블 논리 디바이스, 이산 게이트 또는 트랜지스터 논리 디바이스, 또는 이산 하드웨어 컴포넌트일 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 또는 프로세서는 임의의 종래의 프로세서 또는 그와 유사한 것일 수 있다. 본 출원의 실시예들을 참조하여 개시되는 방법의 단계들은 하드웨어 디코딩 프로세서를 사용하여 직접 실행되고 달성될 수 있거나, 또는 디코딩 프로세서에서의 하드웨어 및 소프트웨어 모듈들의 조합을 사용하여 실행되고 달성될 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리, 플래시 메모리, 판독 전용 메모리, 프로그래머블 판독 전용 메모리, 전기적 소거 가능한 프로그래머블 메모리, 또는 레지스터와 같은 본 기술분야의 성숙한 저장 매체에 위치할 수 있다. 저장 매체는 메모리(1404)에 위치하고, 프로세서(1403)는 메모리(1404) 내의 정보를 판독하고 프로세서(1403) 내의 하드웨어와 조합하여 방법의 단계들을 완료한다.
수신기(1401)는 입력 디지털 또는 캐릭터 정보를 수신하고, 오디오 인코딩 장치의 설정 및 기능 제어에 관련된 신호 입력을 발생하도록 구성될 수 있다. 송신기(1402)는 디스플레이 스크린과 같은 디스플레이 디바이스를 포함할 수 있고, 외부 인터페이스를 통해 디지털 또는 캐릭터 정보를 출력하도록 구성될 수 있다.
본 출원의 이 실시예에서, 프로세서(1403)는 도 4 내지 도 6에 도시된 실시예들에서 오디오 인코딩 장치에 의해 수행되는 방법을 수행하도록 구성된다.
이하에서는 본 출원의 실시예에 따른 또 다른 오디오 디코딩 장치를 설명한다. 도 15를 참조한다. 오디오 디코딩 장치(1500)는:
수신기(1501), 송신기(1502), 프로세서(1503), 및 메모리(1504)(오디오 디코딩 장치(1500)에는 하나 이상의 프로세서(1503)가 있을 수 있고, 도 15에서는 하나의 프로세서가 예로서 사용됨)를 포함한다. 본 출원의 일부 실시예들에서, 수신기(1501), 송신기(1502), 프로세서(1503), 및 메모리(1504)는 버스를 통해 또는 또 다른 방식으로 접속될 수 있다. 도 15에서, 버스를 통한 접속이 예로서 사용된다.
메모리(1504)는 판독 전용 메모리 및 랜덤 액세스 메모리를 포함할 수 있고, 프로세서(1503)에 대한 명령어들 및 데이터를 제공할 수 있다. 메모리(1504)의 일부는 NVRAM을 추가로 포함할 수 있다. 메모리(1504)는 운영 체제 및 동작 명령어들, 실행가능 모듈 또는 데이터 구조, 또는 이들의 서브세트, 또는 이들의 확장 세트를 저장한다. 동작 명령어들은 다양한 동작들을 구현하기 위해 사용되는 다양한 동작 명령어들을 포함할 수 있다. 운영 체제는 다양한 기본 서비스들을 구현하고 하드웨어 기반 작업을 처리하기 위해 다양한 시스템 프로그램들을 포함할 수 있다.
프로세서(1503)는 오디오 디코딩 장치의 동작을 제어하고, 프로세서(1503)는 CPU라고도 지칭될 수 있다. 특정 적용 동안, 오디오 디코딩 장치의 컴포넌트들은 버스 시스템을 통해 함께 결합된다. 데이터 버스 외에도, 버스 시스템은 전력 버스, 제어 버스, 상태 신호 버스, 및 그와 유사한 것을 추가로 포함할 수 있다. 그러나, 명확한 설명을 위해, 도면에서의 다양한 타입의 버스들이 버스 시스템으로서 마킹된다.
본 출원의 실시예들에 개시되는 방법은 프로세서(1503)에 적용될 수 있거나, 또는 프로세서(1503)를 사용하여 구현될 수 있다. 프로세서(1503)는 집적 회로 칩일 수 있고, 신호 처리 능력을 갖는다. 구현 프로세스에서, 전술한 방법들의 단계들은 프로세서(1503) 내의 하드웨어 집적 논리 회로를 사용하여, 또는 소프트웨어 형태의 명령어들을 사용하여 구현될 수 있다. 전술한 프로세서(1503)는 본 출원의 실시예들에 개시되는 방법들, 단계들, 및 논리 블록도들을 구현하거나 수행하기 위한, 범용 프로세서, DSP, ASIC, FPGA 또는 또 다른 프로그래머블 논리 컴포넌트, 이산 게이트 또는 트랜지스터 논리 디바이스, 또는 이산 하드웨어 컴포넌트일 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 또는 프로세서는 임의의 종래의 프로세서 또는 그와 유사한 것일 수 있다. 본 출원의 실시예들을 참조하여 개시되는 방법의 단계들은 하드웨어 디코딩 프로세서를 사용하여 직접 실행되고 달성될 수 있거나, 또는 디코딩 프로세서에서의 하드웨어 및 소프트웨어 모듈들의 조합을 사용하여 실행되고 달성될 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리, 플래시 메모리, 판독 전용 메모리, 프로그래머블 판독 전용 메모리, 전기적 소거 가능한 프로그래머블 메모리, 또는 레지스터와 같은 본 기술분야의 성숙한 저장 매체에 위치할 수 있다. 저장 매체는 메모리(1504)에 위치하고, 프로세서(1503)는 메모리(1504) 내의 정보를 판독하고 프로세서(1503) 내의 하드웨어와 조합하여 방법의 단계들을 완료한다.
본 출원의 이 실시예에서, 프로세서(1503)는 도 7에 도시된 실시예에서 오디오 디코딩 장치에 의해 수행되는 방법을 수행하도록 구성된다.
또 다른 가능한 설계에서, 오디오 인코딩 장치 또는 오디오 디코딩 장치가 단말 내의 칩일 때, 칩은 처리 유닛 및 통신 유닛을 포함한다. 처리 유닛은, 예를 들어, 프로세서일 수 있고, 통신 유닛은, 예를 들어, 입력/출력 인터페이스, 핀, 또는 회로일 수 있다. 처리 유닛은 저장 유닛에 저장된 컴퓨터 실행가능 명령어들을 실행할 수 있고, 따라서 단말 내의 칩은 제1 양태의 구현들 중 어느 하나에서의 오디오 인코딩 방법 또는 제2 양태의 구현들 중 어느 하나에서의 오디오 디코딩 방법을 수행한다. 선택적으로, 저장 유닛은 칩 내의 저장 유닛, 예를 들어, 레지스터 또는 버퍼이다. 대안적으로, 저장 유닛은 단말 내에 있지만 칩 외부에 있는 저장 유닛, 예를 들어, 판독 전용 메모리(read-only memory, ROM), 정적 정보 및 명령어들을 저장할 수 있는 또 다른 타입의 정적 저장 디바이스, 또는 랜덤 액세스 메모리(random access memory, RAM)일 수 있다.
위에 언급된 프로세서는 범용 중앙 처리 유닛, 마이크로프로세서, ASIC, 또는 제1 양태 또는 제2 양태에서의 방법의 프로그램 실행을 제어하도록 구성된 하나 이상의 집적 회로일 수 있다.
또한, 위에 설명된 장치 실시예들은 단지 예라는 점을 유의해야 한다. 별개의 부분들로서 설명되는 유닛들은 물리적으로 별개일 수 있거나 또는 그렇지 않을 수 있고, 유닛들로서 디스플레이되는 부분들은 물리적 유닛들일 수 있거나 또는 그렇지 않을 수 있고, 하나의 위치에 위치할 수 있거나 또는 복수의 네트워크 유닛 상에 분산될 수 있다. 모듈들의 일부 또는 전부는 실시예들의 해결책들의 목적들을 달성하기 위해 실제 요건들에 기초하여 선택될 수 있다. 또한, 본 출원에 의해 제공되는 장치 실시예들의 첨부 도면들에서, 모듈들 사이의 접속 관계들은 모듈들이 서로 통신 접속들을 갖는다는 점을 나타내며, 이는 구체적으로 하나 이상의 통신 버스 또는 신호 케이블로서 구현될 수 있다.
전술한 구현들의 설명들에 기초하여, 본 기술분야의 통상의 기술자는 본 출원이 필요한 범용 하드웨어에 더하여 소프트웨어에 의해, 또는 전용 집적 회로, 전용 CPU, 전용 메모리, 전용 컴포넌트, 및 그와 유사한 것을 포함하는 전용 하드웨어에 의해 구현될 수 있다는 것을 명확하게 이해할 수 있다. 일반적으로, 컴퓨터 프로그램에 의해 수행될 수 있는 임의의 기능들은 대응하는 하드웨어를 사용하여 쉽게 구현될 수 있다. 게다가, 동일한 기능을 달성하기 위해 사용되는 특정 하드웨어 구조는 다양한 형태들, 예를 들어, 아날로그 회로, 디지털 회로, 또는 전용 회로의 형태일 수 있다. 그러나, 본 출원과 관련하여, 소프트웨어 프로그램 구현이 대부분의 경우에 더 나은 구현이다. 이러한 이해에 기초하여, 본질적으로 본 출원의 기술적 해결책들 또는 종래의 기술에 기여하는 부분은 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 컴퓨터의 플로피 디스크, USB 플래시 드라이브, 이동식 하드 디스크, ROM, RAM, 자기 디스크, 또는 광 디스크와 같은 판독가능 저장 매체에 저장되고, 컴퓨터 디바이스(개인용 컴퓨터, 서버, 또는 네트워크 디바이스일 수 있음)에게 본 출원의 실시예들에서 설명된 방법들을 수행하도록 지시하기 위한 여러 명령어들을 포함한다.
전술한 실시예들의 전부 또는 일부는 소프트웨어, 하드웨어, 펌웨어, 또는 이들의 임의의 조합을 사용하여 구현될 수 있다. 소프트웨어가 실시예들을 구현하기 위해 사용될 때, 실시예들의 전부 또는 일부는 컴퓨터 프로그램 제품의 형태로 구현될 수 있다.
컴퓨터 프로그램 제품은 하나 이상의 컴퓨터 명령어를 포함한다. 컴퓨터 프로그램 명령어들이 컴퓨터 상에 로드되고 실행될 때, 본 출원의 실시예들에 따른 절차 또는 기능들이 모두 또는 부분적으로 발생된다. 컴퓨터는 범용 컴퓨터, 전용 컴퓨터, 컴퓨터 네트워크, 또는 다른 프로그래머블 장치들일 수 있다. 컴퓨터 명령어들은 컴퓨터 판독가능 저장 매체에 저장될 수 있거나 또는 컴퓨터 판독가능 저장 매체로부터 또 다른 컴퓨터 판독가능 저장 매체로 송신될 수 있다. 예를 들어, 컴퓨터 명령어들은 유선(예를 들어, 동축 케이블, 광섬유, 또는 DSL(digital subscriber line)) 또는 무선(예를 들어, 적외선, 라디오, 또는 마이크로파) 방식으로 웹사이트, 컴퓨터, 서버, 또는 데이터 센터로부터 또 다른 웹사이트, 컴퓨터, 서버, 또는 데이터 센터로 송신될 수 있다. 컴퓨터 판독가능 저장 매체는 컴퓨터에 의해 액세스가능한 임의의 사용가능 매체, 또는 하나 이상의 사용가능 매체를 통합하는, 서버 또는 데이터 센터와 같은 데이터 저장 디바이스일 수 있다. 사용가능 매체는 자기 매체(예를 들어, 플로피 디스크, 하드 디스크, 또는 자기 테이프), 광학 매체(예를 들어, DVD), 반도체 매체(예를 들어, 솔리드 스테이트 디스크(Solid-State Disk, SSD)), 또는 그와 유사한 것일 수 있다.

Claims (46)

  1. 3차원 오디오 신호 처리 방법으로서:
    3차원 오디오 신호의 현재 프레임에 대해 선형 분해를 수행하여, 선형 분해 결과를 획득하는 단계;
    상기 선형 분해 결과에 기초하여, 상기 현재 프레임에 대응하는 음장 분류 파라미터를 획득하는 단계; 및
    상기 음장 분류 파라미터에 기초하여 상기 현재 프레임의 음장 분류 결과를 결정하는 단계를 포함하는 방법.
  2. 제1항에 있어서, 상기 3차원 오디오 신호는 HOA(higher-order ambisonics) 신호 또는 FOA(first-order ambisonics) 신호를 포함하는 방법.
  3. 제1항 또는 제2항에 있어서, 상기 3차원 오디오 신호의 현재 프레임에 대해 선형 분해를 수행하여, 선형 분해 결과를 획득하는 단계는:
    상기 현재 프레임에 대해 특이값 분해를 수행하여, 상기 현재 프레임에 대응하는 특이값을 획득하는 단계 - 상기 선형 분해 결과는 상기 특이값을 포함함 -;
    상기 현재 프레임에 대해 주성분 분석을 수행하여, 상기 현재 프레임에 대응하는 제1 특징 값을 획득하는 단계 - 상기 선형 분해 결과는 상기 제1 특징 값을 포함함 -; 또는
    상기 현재 프레임에 대해 독립적 성분 분석을 수행하여, 상기 현재 프레임에 대응하는 제2 특징값을 획득하는 단계 - 상기 선형 분해 결과는 상기 제2 특징값을 포함함 - 를 포함하는 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 복수의 선형 분해 결과가 존재하고, 복수의 음장 분류 파라미터가 존재하고; 및
    상기 선형 분해 결과에 기초하여, 상기 현재 프레임에 대응하는 음장 분류 파라미터를 획득하는 단계는:
    상기 현재 프레임의 i번째 선형 분석 결과 대 상기 현재 프레임의 (i+1)번째 선형 분석 결과의 비율을 획득하는 단계 - i는 양의 정수임 -; 및
    상기 비율에 기초하여, 상기 현재 프레임에 대응하는 i번째 음장 분류 파라미터를 획득하는 단계를 포함하는 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 복수의 음장 분류 파라미터가 존재하고, 상기 음장 분류 결과는 음장 타입을 포함하고; 및
    상기 음장 분류 파라미터에 기초하여 상기 현재 프레임의 음장 분류 결과를 결정하는 단계는:
    상기 복수의 음장 분류 파라미터의 값들이 모두 미리 설정된 분산 음원 결정 조건을 충족할 때, 상기 음장 타입이 분산 음장인 것을 결정하는 단계; 또는
    상기 복수의 음장 분류 파라미터의 값들 중 적어도 하나가 미리 설정된 이종 음원 결정 조건을 충족할 때, 상기 음장 타입이 이종 음장인 것을 결정하는 단계를 포함하는 방법.
  6. 제5항에 있어서, 상기 분산 음원 결정 조건은 상기 음장 분류 파라미터의 값이 미리 설정된 이종 음원 결정 임계값보다 작은 것을 포함하고; 또는
    상기 이종 음원 결정 조건은 상기 음장 분류 파라미터의 값이 미리 설정된 이종 음원 결정 임계값 이상인 것을 포함하는 방법.
  7. 제1항 내지 제4항 중 어느 한 항에 있어서, 복수의 음장 분류 파라미터가 존재하고;
    상기 음장 분류 결과는 음장 타입을 포함하거나, 또는 상기 음장 분류 결과는 이종 음원들의 양 및 음장 타입을 포함하고; 및
    상기 음장 분류 파라미터에 기초하여 상기 현재 프레임의 음장 분류 결과를 결정하는 단계는:
    상기 복수의 음장 분류 파라미터의 값들에 기초하여, 상기 현재 프레임에 대응하는 상기 이종 음원들의 양을 획득하는 단계; 및
    상기 현재 프레임에 대응하는 상기 이종 음원들의 양에 기초하여 상기 음장 타입을 결정하는 단계를 포함하는 방법.
  8. 제1항 내지 제4항 중 어느 한 항에 있어서, 복수의 음장 분류 파라미터가 존재하고;
    상기 음장 분류 결과는 이종 음원들의 양을 포함하고; 및
    상기 음장 분류 파라미터에 기초하여 상기 현재 프레임의 음장 분류 결과를 결정하는 단계는:
    상기 복수의 음장 분류 파라미터의 값들에 기초하여, 상기 현재 프레임에 대응하는 상기 이종 음원들의 양을 획득하는 단계를 포함하는 방법.
  9. 제7항 또는 제8항에 있어서, 상기 복수의 음장 분류 파라미터는 temp[i], i = 0, 1, ..., min(L,K)-2 이고, L은 상기 현재 프레임의 채널들의 양을 나타내고, K는 상기 현재 프레임의 각각의 채널에 대응하는 신호 포인트들의 양이고, min은 최소 값이 선택되는 동작을 나타내며; 및
    상기 복수의 음장 분류 파라미터의 값들에 기초하여, 상기 현재 프레임에 대응하는 이종 음원들의 양을 획득하는 단계는:
    i=0으로부터 다음의 결정 절차들을 순차적으로 수행하는 단계:
    temp[i]가 미리 설정된 이종 음원 결정 임계값보다 큰지를 결정하는 단계; 및
    이 결정 절차에서 temp[i]가 상기 이종 음원 결정 임계값보다 작을 때, i의 값을 i+1로 갱신하고, 다음 결정 절차를 계속 수행하는 단계; 또는
    이 결정 절차에서 temp[i]가 상기 이종 음원 결정 임계값 이상일 때, 상기 결정 절차의 실행을 종료하고, 이 결정 절차에서의 i에 1을 더한 것이 상기 이종 음원들의 양과 동일한 것을 결정하는 단계를 포함하는 방법.
  10. 제7항에 있어서, 상기 현재 프레임에 대응하는 상기 이종 음원들의 양에 기초하여 상기 음장 타입을 결정하는 단계는:
    상기 이종 음원들의 양이 제1 미리 설정된 조건을 충족할 때, 상기 음장 타입이 제1 음장 타입인 것을 결정하는 단계; 또는
    상기 이종 음원들의 양이 제1 미리 설정된 조건을 충족하지 못할 때, 상기 음장 타입이 제2 음장 타입인 것을 결정하는 단계 -
    상기 제1 음장 타입에 대응하는 이종 음원들의 양은 상기 제2 음장 타입에 대응하는 이종 음원들의 양과 상이함 - 를 포함하는 방법.
  11. 제10항에 있어서, 상기 제1 미리 설정된 조건은 상기 이종 음원들의 양이 제1 임계값보다 크고 제2 임계값보다 작고, 상기 제2 임계값이 상기 제1 임계값보다 큰 것을 포함하고; 또는
    상기 제1 미리 설정된 조건은 상기 이종 음원들의 양이 제1 임계값 이하이거나 제2 임계값 이상이고, 상기 제2 임계값이 상기 제1 임계값보다 큰 것을 포함하는 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 방법은:
    상기 음장 분류 결과에 기초하여, 상기 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계를 추가로 포함하는 방법.
  13. 제12항에 있어서, 상기 음장 분류 결과에 기초하여, 상기 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계는:
    상기 음장 분류 결과가 상기 이종 음원들의 양을 포함하거나, 또는 상기 음장 분류 결과가 상기 이종 음원들의 양 및 상기 음장 타입을 포함할 때, 상기 이종 음원들의 양에 기초하여 상기 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계;
    상기 음장 분류 결과가 상기 음장 타입을 포함하거나, 또는 상기 음장 분류 결과가 상기 이종 음원들의 양 및 상기 음장 타입을 포함할 때, 상기 음장 타입에 기초하여, 상기 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계; 또는
    상기 음장 분류 결과가 상기 이종 음원들의 양 및 상기 음장 타입을 포함할 때, 상기 이종 음원들의 양 및 상기 음장 타입에 기초하여, 상기 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계를 포함하는 방법.
  14. 제13항에 있어서, 상기 이종 음원들의 양에 기초하여, 상기 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계는:
    상기 이종 음원들의 양이 제2 미리 설정된 조건을 충족할 때, 상기 인코딩 모드가 제1 인코딩 모드인 것을 결정하는 단계; 또는
    상기 이종 음원들의 양이 제2 미리 설정된 조건을 충족하지 못할 때, 상기 인코딩 모드가 제2 인코딩 모드인 것을 결정하는 단계를 포함하고,
    상기 제1 인코딩 모드는 가상 스피커 선택에 기초한 HOA 인코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 인코딩 모드이고, 상기 제2 인코딩 모드는 가상 스피커 선택에 기초한 HOA 인코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 인코딩 모드이고, 상기 제1 인코딩 모드와 상기 제2 인코딩 모드는 상이한 인코딩 모드들인 방법.
  15. 제14항에 있어서, 상기 제2 미리 설정된 조건은 상기 이종 음원들의 양이 상기 제1 임계값보다 크고 상기 제2 임계값보다 작고, 상기 제2 임계값이 상기 제1 임계값보다 큰 것을 포함하고; 또는
    상기 제2 미리 설정된 조건은 상기 이종 음원들의 양이 상기 제1 임계값 이하이거나 상기 제2 임계값 이상이고, 상기 제2 임계값이 상기 제1 임계값보다 큰 것을 포함하는 방법.
  16. 제13항에 있어서, 상기 음장 타입에 기초하여, 상기 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계는:
    상기 음장 타입이 이종 음장일 때, 상기 인코딩 모드가 가상 스피커 선택에 기초한 HOA 인코딩 모드인 것을 결정하는 단계; 또는
    상기 음장 타입이 분산 음장일 때, 상기 인코딩 모드가 방향성 오디오 코딩에 기초한 HOA 인코딩 모드인 것을 결정하는 단계를 포함하는 방법.
  17. 제12항에 있어서, 상기 음장 분류 결과에 기초하여, 상기 현재 프레임에 대응하는 인코딩 모드를 결정하는 단계는:
    상기 현재 프레임의 음장 분류 결과에 기초하여, 상기 현재 프레임에 대응하는 초기 인코딩 모드를 결정하는 단계;
    상기 현재 프레임이 위치하는 행오버 윈도우를 획득하는 단계 - 상기 행오버 윈도우는 상기 현재 프레임의 초기 인코딩 모드 및 상기 현재 프레임 전의 N-1개의 프레임의 인코딩 모드들을 포함하고, N은 상기 행오버 윈도우의 길이임 -; 및
    상기 행오버 윈도우 내의 상기 현재 프레임의 초기 인코딩 모드 및 상기 N-1개의 프레임의 인코딩 모드들에 기초하여 상기 현재 프레임의 인코딩 모드를 결정하는 단계를 포함하는 방법.
  18. 제1항 내지 제17항 중 어느 한 항에 있어서, 상기 방법은:
    상기 음장 분류 결과에 기초하여, 상기 현재 프레임에 대응하는 인코딩 파라미터를 결정하는 단계를 추가로 포함하는 방법.
  19. 제18항에 있어서, 상기 인코딩 파라미터는: 가상 스피커 신호의 채널들의 양, 잔차 신호의 채널들의 양, 가상 스피커 신호의 인코딩 비트들의 양, 잔차 신호의 인코딩 비트들의 양, 또는 최상의 매칭 스피커를 검색하기 위한 투표 라운드들의 양 중 적어도 하나를 포함하며,
    상기 가상 스피커 신호 및 상기 잔차 신호는 상기 3차원 오디오 신호에 기초하여 발생되는 방법.
  20. 제19항에 있어서, 상기 투표 라운드들의 양은 관계를 충족하고,
    I는 상기 투표 라운드들의 양이고, d는 상기 음장 분류 결과에 포함된 상기 이종 음원들의 양인 방법.
  21. 제19항 또는 제20항에 있어서, 상기 음장 분류 결과는 상기 이종 음원들의 양 및 상기 음장 타입을 포함하고; 및
    상기 음장 타입이 이종 음장일 때, 상기 가상 스피커 신호의 채널들의 양은 F = min(S,PF) 관계를 충족하고,
    F는 상기 가상 스피커 신호의 채널들의 양이고, S는 상기 이종 음원들의 양이고, PF는 인코더에 의해 미리 설정된 상기 가상 스피커 신호의 채널들의 양이고; 또는
    상기 음장 타입이 분산 음장일 때, 상기 가상 스피커 신호의 채널들의 양은 F =1 관계를 충족하고,
    F는 상기 가상 스피커 신호의 채널들의 양인 방법.
  22. 제19항 내지 제21항 중 어느 한 항에 있어서, 상기 음장 타입이 분산 음장일 때, 상기 잔차 신호의 채널들의 양은 R = max(C-1,PR) 관계를 충족하고,
    PR은 상기 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양이고, C는 상기 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 상기 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고; 또는
    상기 음장 타입이 이종 음장일 때, 상기 잔차 신호의 채널들의 양은 R = C-F 관계를 충족하고,
    R은 상기 잔차 신호의 채널들의 양이고, C는 상기 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 상기 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 상기 가상 스피커 신호의 채널들의 양인 방법.
  23. 제19항 또는 제20항에 있어서, 상기 음장 분류 결과는 상기 이종 음원들의 양을 포함하고; 및
    상기 가상 스피커 신호의 채널들의 양은 F = min(S,PF) 관계를 충족하고,
    F는 상기 가상 스피커 신호의 채널들의 양이고, S는 상기 이종 음원들의 양이고, PF는 인코더에 의해 미리 설정된 상기 가상 스피커 신호의 채널들의 양인 방법.
  24. 제19항, 제20항, 제21항, 또는 제23항에 있어서, 상기 잔차 신호의 채널들의 양은 R = C - F 관계를 충족하고,
    R은 상기 잔차 신호의 채널들의 양이고, C는 상기 인코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 상기 인코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 상기 가상 스피커 신호의 채널들의 양인 방법.
  25. 제19항 내지 제24항 중 어느 한 항에 있어서, 상기 음장 분류 결과는 상기 이종 음원들의 양을 포함하거나, 또는 상기 음장 분류 결과는 상기 이종 음원들의 양 및 상기 음장 타입을 포함하고;
    상기 가상 스피커 신호의 인코딩 비트들의 양은 상기 가상 스피커 신호의 인코딩 비트들의 양 대 송신 채널의 인코딩 비트들의 양의 비율에 기초하여 획득되고;
    상기 잔차 신호의 인코딩 비트들의 양은 상기 가상 스피커 신호의 인코딩 비트들의 양 대 상기 송신 채널의 인코딩 비트들의 양의 비율에 기초하여 획득되고; 및
    상기 송신 채널의 인코딩 비트들의 양은 상기 가상 스피커 신호의 인코딩 비트들의 양 및 상기 잔차 신호의 인코딩 비트들의 양을 포함하고, 상기 이종 음원들의 양이 상기 가상 스피커 신호의 채널들의 양 이하일 때, 상기 가상 스피커 신호의 인코딩 비트들의 양 대 상기 송신 채널의 인코딩 비트들의 양의 비율은 상기 가상 스피커 신호의 인코딩 비트들의 양 대 상기 송신 채널의 인코딩 비트들의 양의 초기 비율을 증가시킴으로써 획득되는 방법.
  26. 제1항 내지 제25항 중 어느 한 항에 있어서, 상기 방법은:
    상기 현재 프레임 및 상기 음장 분류 결과를 인코딩하고, 상기 인코딩된 현재 프레임 및 음장 분류 결과를 비트스트림 내에 기입하는 단계를 추가로 포함하는 방법.
  27. 3차원 오디오 신호 처리 방법으로서:
    비트스트림을 수신하는 단계;
    상기 비트스트림을 디코딩하여, 현재 프레임의 음장 분류 결과를 획득하는 단계; 및
    상기 음장 분류 결과에 기초하여 상기 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계를 포함하는 방법.
  28. 제27항에 있어서, 상기 음장 분류 결과에 기초하여 상기 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계는:
    상기 음장 분류 결과에 기초하여 상기 현재 프레임의 디코딩 모드를 결정하는 단계; 및
    상기 디코딩 모드에 기초하여 상기 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계를 포함하는 방법.
  29. 제28항에 있어서, 상기 음장 분류 결과에 기초하여 상기 현재 프레임의 디코딩 모드를 결정하는 단계는:
    상기 음장 분류 결과가 이종 음원들의 양을 포함하거나, 또는 상기 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 상기 이종 음원들의 양에 기초하여 상기 현재 프레임의 디코딩 모드를 결정하는 단계;
    상기 음장 분류 결과가 음장 타입을 포함하거나, 또는 상기 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 상기 음장 타입에 기초하여 상기 현재 프레임의 디코딩 모드를 결정하는 단계; 또는
    상기 음장 분류 결과가 이종 음원들의 양 및 음장 타입을 포함할 때, 상기 이종 음원들의 양 및 상기 음장 타입에 기초하여 상기 현재 프레임의 디코딩 모드를 결정하는 단계를 포함하는 방법.
  30. 제29항에 있어서, 상기 이종 음원들의 양에 기초하여, 상기 현재 프레임에 대응하는 디코딩 모드를 결정하는 단계는:
    상기 이종 음원들의 양이 미리 설정된 조건을 충족할 때, 상기 디코딩 모드가 제1 디코딩 모드인 것을 결정하는 단계; 또는
    상기 이종 음원들의 양이 미리 설정된 조건을 충족하지 못할 때, 상기 디코딩 모드가 제2 디코딩 모드인 것을 결정하는 단계를 포함하고,
    상기 제1 디코딩 모드는 가상 스피커 선택에 기초한 HOA 디코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 디코딩 모드이고, 상기 제2 디코딩 모드는 가상 스피커 선택에 기초한 HOA 디코딩 모드 또는 방향성 오디오 코딩에 기초한 HOA 디코딩 모드이고, 상기 제1 디코딩 모드와 상기 제2 디코딩 모드는 상이한 디코딩 모드들인 방법.
  31. 제30항에 있어서, 상기 미리 설정된 조건은 상기 이종 음원들의 양이 제1 임계값보다 크고 제2 임계값보다 작고 상기 제2 임계값이 상기 제1 임계값보다 큰 것을 포함하고; 또는
    상기 미리 설정된 조건은 상기 이종 음원들의 양이 제1 임계값 이하이거나 제2 임계값 이상이고, 상기 제2 임계값이 상기 제1 임계값보다 큰 것을 포함하는 방법.
  32. 제27항에 있어서, 상기 음장 분류 결과에 기초하여 상기 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계는:
    상기 음장 분류 결과에 기초하여 상기 현재 프레임의 디코딩 파라미터를 결정하는 단계; 및
    상기 디코딩 파라미터에 기초하여 상기 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하는 단계를 포함하는 방법.
  33. 제32항에 있어서, 상기 디코딩 파라미터는: 가상 스피커 신호의 채널들의 양, 잔차 신호의 채널들의 양, 가상 스피커 신호의 디코딩 비트들의 양, 또는 잔차 신호의 디코딩 비트들의 양 중 적어도 하나를 포함하고,
    상기 가상 스피커 신호 및 상기 잔차 신호는 상기 비트스트림을 디코딩함으로써 획득되는 방법.
  34. 제33항에 있어서, 상기 음장 분류 결과는 상기 이종 음원들의 양 및 상기 음장 타입을 포함하고; 및
    상기 음장 타입이 이종 음장일 때, 상기 가상 스피커 신호의 채널들의 양은 F = min(S,PF) 관계를 충족하고,
    F는 상기 가상 스피커 신호의 채널들의 양이고, S는 상기 이종 음원들의 양이고, PF는 디코더에 의해 미리 설정된 상기 가상 스피커 신호의 채널들의 양이고; 또는
    상기 음장 타입이 분산 음장일 때, 상기 가상 스피커 신호의 채널들의 양은 F = 1 관계를 충족하고,
    F는 상기 가상 스피커 신호의 채널들의 양인 방법.
  35. 제33항 또는 제34항에 있어서, 상기 음장 타입이 분산 음장일 때, 상기 잔차 신호의 채널들의 양은 R = max(C-1,PR) 관계를 충족하고,
    PR은 상기 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양이고, C는 상기 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 상기 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고; 또는
    상기 음장 타입이 이종 음장일 때, 상기 잔차 신호의 채널들의 양은 R = C-F 관계를 충족하고,
    R은 상기 잔차 신호의 채널들의 양이고, C는 상기 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 상기 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 상기 가상 스피커 신호의 채널들의 양인 방법.
  36. 제33항 또는 제35항에 있어서, 상기 음장 분류 결과는 상기 이종 음원들의 양을 포함하고; 및
    상기 가상 스피커 신호의 채널들의 양은 F = min(S,PF) 관계를 충족하고,
    F는 상기 가상 스피커 신호의 채널들의 양이고, S는 상기 이종 음원들의 양이고, PF는 디코더에 의해 미리 설정된 상기 가상 스피커 신호의 채널들의 양인 방법.
  37. 제33항 내지 제36항 중 어느 한 항에 있어서, 상기 잔차 신호의 채널들의 양은 R = C - F 관계를 충족하고,
    R은 상기 잔차 신호의 채널들의 양이고, C는 상기 디코더에 의해 미리 설정된 잔차 신호의 채널들의 양과 상기 디코더에 의해 미리 설정된 가상 스피커 신호의 채널들의 양의 합이고, F는 상기 가상 스피커 신호의 채널들의 양인 방법.
  38. 제33항 내지 제37항 중 어느 한 항에 있어서, 상기 음장 분류 결과는 상기 이종 음원들의 양을 포함하거나, 또는 상기 음장 분류 결과는 상기 이종 음원들의 양 및 상기 음장 타입을 포함하고;
    상기 가상 스피커 신호의 디코딩 비트들의 양은 상기 가상 스피커 신호의 디코딩 비트들의 양 대 상기 송신 채널의 디코딩 비트들의 양의 비율에 기초하여 획득되고;
    상기 잔차 신호의 디코딩 비트들의 양은 상기 가상 스피커 신호의 디코딩 비트들의 양 대 상기 송신 채널의 디코딩 비트들의 양의 비율에 기초하여 획득되고; 및
    상기 송신 채널의 디코딩 비트들의 양은 상기 가상 스피커 신호의 디코딩 비트들의 양 및 상기 잔차 신호의 디코딩 비트들의 양을 포함하고, 상기 이종 음원들의 양이 상기 가상 스피커 신호의 채널들의 양 이하일 때, 상기 가상 스피커 신호의 디코딩 비트들의 양 대 상기 송신 채널의 디코딩 비트들의 양의 비율은 상기 가상 스피커 신호의 디코딩 비트들의 양 대 상기 송신 채널의 디코딩 비트들의 양의 초기 비율을 증가시킴으로써 획득되는 방법.
  39. 3차원 오디오 신호 처리 장치로서:
    3차원 오디오 신호에 대해 선형 분해를 수행하여, 선형 분해 결과를 획득하도록 구성된 선형 분석 모듈;
    상기 선형 분해 결과에 기초하여, 현재 프레임에 대응하는 음장 분류 파라미터를 획득하도록 구성된 파라미터 발생 모듈; 및
    상기 음장 분류 파라미터에 기초하여 상기 현재 프레임의 음장 분류 결과를 결정하도록 구성된 음장 분류 모듈을 포함하는 3차원 오디오 신호 처리 장치.
  40. 3차원 오디오 신호 처리 장치로서:
    비트스트림을 수신하도록 구성된 수신 모듈;
    상기 비트스트림을 디코딩하여, 현재 프레임의 음장 분류 결과를 획득하도록 구성된 디코딩 모듈; 및
    상기 음장 분류 결과에 기초하여 상기 디코딩된 현재 프레임의 3차원 오디오 신호를 획득하도록 구성된 신호 발생 모듈을 포함하는 3차원 오디오 신호 처리 장치.
  41. 3차원 오디오 신호 처리 장치로서, 상기 3차원 오디오 신호 처리 장치는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는 메모리에 결합되고, 상기 메모리에 저장되는 명령어들을 판독 및 실행하여, 제1항 내지 제26항 중 어느 한 항에 따른 방법을 수행하도록 구성된 3차원 오디오 신호 처리 장치.
  42. 제41항에 있어서, 상기 3차원 오디오 신호 처리 장치는 상기 메모리를 추가로 포함하는 3차원 오디오 신호 처리 장치.
  43. 3차원 오디오 신호 처리 장치로서, 상기 3차원 오디오 신호 처리 장치는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는 메모리에 결합되고, 상기 메모리에 저장되는 명령어들을 판독 및 실행하여, 제27항 내지 제38항 중 어느 한 항에 따른 방법을 수행하도록 구성된 3차원 오디오 신호 처리 장치.
  44. 제43항에 있어서, 상기 오디오 디코딩 장치는 상기 메모리를 추가로 포함하는 3차원 오디오 신호 처리 장치.
  45. 명령어들을 포함하는 컴퓨터 판독가능 저장 매체로서, 상기 명령어들이 컴퓨터 상에서 실행될 때, 상기 컴퓨터는 제1항 내지 제26항 중 어느 한 항에 따른 방법 또는 제27항 내지 제38항 중 어느 한 항에 따른 방법을 수행하는 컴퓨터 판독가능 저장 매체.
  46. 제1항 내지 제26항 중 어느 한 항에 따른 방법을 사용하여 발생된 비트스트림을 포함하는 컴퓨터 판독가능 저장 매체.
KR1020237044256A 2021-05-31 2022-05-30 3차원 오디오 신호를 처리하기 위한 방법 및 장치 KR20240012519A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110602507.4 2021-05-31
CN202110602507.4A CN115938388A (zh) 2021-05-31 2021-05-31 一种三维音频信号的处理方法和装置
PCT/CN2022/096025 WO2022253187A1 (zh) 2021-05-31 2022-05-30 一种三维音频信号的处理方法和装置

Publications (1)

Publication Number Publication Date
KR20240012519A true KR20240012519A (ko) 2024-01-29

Family

ID=84322803

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237044256A KR20240012519A (ko) 2021-05-31 2022-05-30 3차원 오디오 신호를 처리하기 위한 방법 및 장치

Country Status (8)

Country Link
US (1) US20240105187A1 (ko)
EP (1) EP4332964A4 (ko)
JP (1) JP2024521204A (ko)
KR (1) KR20240012519A (ko)
CN (1) CN115938388A (ko)
BR (1) BR112023025071A2 (ko)
CA (1) CA3221992A1 (ko)
WO (1) WO2022253187A1 (ko)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2800401A1 (en) * 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
EP2879408A1 (en) * 2013-11-28 2015-06-03 Thomson Licensing Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
US9847087B2 (en) * 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
US10957299B2 (en) * 2019-04-09 2021-03-23 Facebook Technologies, Llc Acoustic transfer function personalization using sound scene analysis and beamforming

Also Published As

Publication number Publication date
JP2024521204A (ja) 2024-05-28
EP4332964A1 (en) 2024-03-06
US20240105187A1 (en) 2024-03-28
WO2022253187A1 (zh) 2022-12-08
CN115938388A (zh) 2023-04-07
BR112023025071A2 (pt) 2024-02-27
EP4332964A4 (en) 2024-07-10
CA3221992A1 (en) 2022-12-08

Similar Documents

Publication Publication Date Title
EP2936485A1 (en) Object clustering for rendering object-based audio content based on perceptual criteria
KR20160037219A (ko) 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스
US20230298600A1 (en) Audio encoding and decoding method and apparatus
JP2022551535A (ja) オーディオ符号化のための装置及び方法
GB2578715A (en) Controlling audio focus for spatial audio processing
US20240087580A1 (en) Three-dimensional audio signal coding method and apparatus, and encoder
WO2022262576A1 (zh) 三维音频信号编码方法、装置、编码器和系统
KR20240012519A (ko) 3차원 오디오 신호를 처리하기 위한 방법 및 장치
KR20230110333A (ko) 오디오 인코딩/디코딩 방법 및 디바이스
CN115346537A (zh) 一种音频编码、解码方法及装置
WO2022257824A1 (zh) 一种三维音频信号的处理方法和装置
KR20240005905A (ko) 3차원 오디오 신호 코딩 방법 및 장치, 및 인코더
KR20240004869A (ko) 3차원 오디오 신호 인코딩 방법 및 장치, 및 인코더
RU2823537C1 (ru) Устройство и способ кодирования аудио
US20240087578A1 (en) Three-dimensional audio signal coding method and apparatus, and encoder
US20240177721A1 (en) Audio signal encoding and decoding method and apparatus
US20240169998A1 (en) Multi-Channel Signal Encoding and Decoding Method and Apparatus
WO2022058645A1 (en) Spatial audio parameter encoding and associated decoding