KR20230110333A - 오디오 인코딩/디코딩 방법 및 디바이스 - Google Patents

오디오 인코딩/디코딩 방법 및 디바이스 Download PDF

Info

Publication number
KR20230110333A
KR20230110333A KR1020237020929A KR20237020929A KR20230110333A KR 20230110333 A KR20230110333 A KR 20230110333A KR 1020237020929 A KR1020237020929 A KR 1020237020929A KR 20237020929 A KR20237020929 A KR 20237020929A KR 20230110333 A KR20230110333 A KR 20230110333A
Authority
KR
South Korea
Prior art keywords
signal
virtual speaker
speaker
residual
target virtual
Prior art date
Application number
KR1020237020929A
Other languages
English (en)
Inventor
위안 가오
솨이 류
빈 왕
저 왕
톈수 취
자하오 쉬
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20230110333A publication Critical patent/KR20230110333A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

인코딩된 및 디코딩된 데이터의 양을 감소시켜, 인코딩 및 디코딩 효율을 개선하기 위한 오디오 인코딩 및 디코딩 방법 및 장치(101, 1000, 1200, 102, 1100, 1300)가 개시된다. 방법은: 제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하는 단계(401); 제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 제1 가상 스피커 신호를 생성하는 단계(402); 제1 타깃 가상 스피커의 속성 정보 및 제1 가상 스피커 신호를 사용하여 제2 장면 오디오 신호를 획득하는 단계(403); 제1 장면 오디오 신호 및 제2 장면 오디오 신호에 기초하여 잔차 신호를 생성하는 단계(404); 및 제1 가상 스피커 신호 및 잔차 신호를 인코딩하고, 인코딩된 신호들을 비트스트림에 기입하는 단계(405)를 포함한다.

Description

오디오 인코딩/디코딩 방법 및 디바이스
본 출원은 2020년 11월 30일자로 중국 특허청에 출원되고 발명의 명칭이 "AUDIO ENCODING AND DECODING METHOD AND APPARATUS"인 중국 특허 출원 제202011377433.0호에 대한 우선권을 주장하며, 이 중국 출원은 그 전체가 본 명세서에 참고로 포함된다.
본 출원은 오디오 인코딩 및 디코딩 기술 분야에 관한 것으로, 특히, 오디오 인코딩 및 디코딩 방법 및 장치에 관한 것이다.
3차원 오디오 기술은 실세계에서 사운드 이벤트 및 3차원 음장(sound field) 정보를 획득, 처리, 송신, 렌더링, 및 재생하기 위해 사용되는 오디오 기술이다. 3차원 오디오 기술은 사람들에게 "진짜에 가까운(true-to-life)" 뛰어난 청각 경험을 선사하기 위해 사운드에게 강한 공간 감각, 포위 감각, 및 몰입 감각을 부여한다. 고차 앰비소닉스(higher order ambisonics, HOA) 기술은 레코딩, 인코딩, 및 재생 국면들에서 스피커 레이아웃과 무관한 속성, 및 HOA 포맷으로 데이터를 선회가능하게 재생하는 특성을 가지며, 3차원 오디오 재생에서 더 높은 유연성을 갖고, 따라서 더 많은 관심과 연구의 대상이 되었다.
더 나은 오디오 청각 효과를 달성하기 위해, HOA 기술은 사운드 장면에 관한 더 상세한 정보를 기록하기 위해 많은 양의 데이터를 필요로 한다. 3차원 오디오 신호의 장면 기반 샘플링 및 저장이 오디오 신호의 공간적 정보의 저장 및 송신에 더 도움이 되지만, HOA 차수가 증가함에 따라 더 많은 데이터가 생성되고, 많은 양의 데이터는 송신 및 저장에 있어서 어려움을 야기한다. 따라서, HOA 신호는 인코딩 및 디코딩될 필요가 있다.
현재, 다채널 데이터를 인코딩 및 디코딩하기 위한 방법이 존재하며, 이 방법은 인코더의 코어 인코더(예를 들어, 16 채널 인코더)가 오리지널 장면에서의 오디오 신호의 각각의 사운드 채널을 직접 인코딩한 다음, 비트스트림을 출력하는 단계를 포함한다. 디코더의 코어 디코더(예를 들어, 16 채널 디코더)는 비트스트림을 디코딩하여 디코딩 장면에서의 오디오 신호의 각각의 사운드 채널을 획득한다.
전술한 다채널 인코딩 및 디코딩 방법에서, 대응하는 인코더들 및 디코더들은 오리지널 장면에서의 오디오 신호의 사운드 채널들의 수량에 기초하여 적응될 필요가 있다. 또한, 사운드 채널들의 수량이 증가함에 따라, 비트스트림 압축 동안 큰 데이터 양 및 높은 대역폭 점유의 문제들이 존재한다.
본 출원의 실시예들은 인코딩된 및 디코딩된 데이터의 양을 감소시켜, 인코딩 및 디코딩 효율을 개선하기 위한 오디오 인코딩 및 디코딩 방법 및 장치를 제공한다.
전술한 기술적 문제를 해결하기 위해, 본 출원의 실시예들은 다음의 기술적 해결책들을 제공한다.
제1 양태에 따르면, 본 출원의 실시예는 오디오 인코딩 방법을 제공하고, 이 오디오 인코딩 방법은:
제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하는 단계;
제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 제1 가상 스피커 신호를 생성하는 단계;
제1 타깃 가상 스피커의 속성 정보 및 제1 가상 스피커 신호를 사용하여 제2 장면 오디오 신호를 획득하는 단계;
제1 장면 오디오 신호 및 제2 장면 오디오 신호에 기초하여 잔차 신호(residual signal)를 생성하는 단계; 및
제1 가상 스피커 신호 및 잔차 신호를 인코딩하고, 인코딩된 신호들을 비트스트림에 기입하는 단계를 포함한다.
본 출원의 이 실시예에서, 제1 타깃 가상 스피커는 제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 먼저 선택되고; 제1 가상 스피커 신호는 제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 생성되고; 그 다음, 제2 장면 오디오 신호는 제1 타깃 가상 스피커의 속성 정보 및 제1 가상 스피커 신호를 사용하여 획득되고; 잔차 신호는 제1 장면 오디오 신호 및 제2 장면 오디오 신호에 기초하여 생성되고; 및 마지막으로, 제1 가상 스피커 신호 및 잔차 신호가 인코딩되어 비트스트림에 기입된다. 본 출원의 이 실시예에서, 제1 가상 스피커 신호는 제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 생성될 수 있다. 또한, 오디오 인코더는 제1 가상 스피커 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 잔차 신호를 추가로 획득할 수 있다. 오디오 인코더는 제1 장면 오디오 신호를 직접 인코딩하는 대신에, 제1 가상 스피커 신호 및 잔차 신호를 인코딩한다. 본 출원의 이 실시예에서, 제1 타깃 가상 스피커는 제1 장면 오디오 신호에 기초하여 선택되고, 제1 타깃 가상 스피커에 기초하여 생성된 제1 가상 스피커 신호는 공간 내의 청취자의 로케이션에서의 음장을 나타낼 수 있다. 그 로케이션에서의 음장은 제1 장면 오디오 신호가 기록될 때의 오리지널 음장에 가능한 한 가깝고, 그에 의해 오디오 인코더의 인코딩 품질을 보장한다. 또한, 제1 가상 스피커 신호 및 잔차 신호는 비트스트림을 획득하기 위해 인코딩되고, 제1 가상 스피커 신호의 인코딩된 데이터의 양은 제1 타깃 가상 스피커와 관련되고, 제1 장면 오디오 신호의 사운드 채널들의 양과 관련되지 않아서, 인코딩된 데이터의 양이 감소되고, 인코딩 효율이 개선되도록 한다.
가능한 구현에서, 방법은:
가상 스피커 세트에 기초하여 제1 장면 오디오 신호로부터 주요 음장 성분(major sound field component)을 획득하는 단계를 추가로 포함하고; 및
제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하는 단계는:
주요 음장 성분에 기초하여 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하는 단계를 포함한다.
전술한 해결책에서, 가상 스피커 세트 내의 각각의 가상 스피커는 하나의 음장 성분에 대응하고, 제1 타깃 가상 스피커는 주요 음장 성분에 기초하여 가상 스피커 세트로부터 선택된다. 예를 들어, 주요 음장 성분에 대응하는 가상 스피커는 인코더에 의해 선택된 제1 타깃 가상 스피커이다. 본 출원의 이 실시예에서, 인코더가 제1 타깃 가상 스피커를 결정할 필요가 있는 문제를 해결하기 위해, 인코더는 주요 음장 성분에 기초하여 제1 타깃 가상 스피커를 선택할 수 있다.
가능한 구현에서, 주요 음장 성분에 기초하여 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하는 단계는:
주요 음장 성분에 기초하여 HOA(higher order ambisonics) 계수 세트로부터 주요 음장 성분에 대한 HOA 계수를 선택하는 단계 - HOA 계수 세트에서의 HOA 계수들은 가상 스피커 세트 내의 가상 스피커들과 일대일 대응관계에 있음 -; 및
가상 스피커 세트에서의 주요 음장 성분에 대한 HOA 계수에 대응하는 가상 스피커를 제1 타깃 가상 스피커로서 결정하는 단계를 포함한다.
전술한 해결책에서, 인코더는 가상 스피커 세트에 기초하여 HOA 계수 세트를 미리 구성하고, HOA 계수 세트 내의 HOA 계수들과 가상 스피커 세트 내의 가상 스피커들 사이에 일대일 대응관계가 있다. 따라서, HOA 계수가 주요 음장 성분에 기초하여 선택된 후에, 가상 스피커 세트는, 일대일 대응관계에 기초하여, 주요 음장 성분에 대한 HOA 계수에 대응하는 타깃 가상 스피커에 대해 검색되고, 발견된 타깃 가상 스피커는 제1 타깃 가상 스피커이다. 이는 인코더가 제1 타깃 가상 스피커를 결정할 필요가 있는 문제를 해결한다.
가능한 구현에서, 주요 음장 성분에 기초하여 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하는 단계는:
주요 음장 성분에 기초하여 제1 타깃 가상 스피커의 구성 파라미터를 획득하는 단계;
제1 타깃 가상 스피커의 구성 파라미터에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 생성하는 단계; 및
가상 스피커 세트 내의 제1 타깃 가상 스피커에 대한 HOA 계수에 대응하는 가상 스피커를 제1 타깃 가상 스피커로서 결정하는 단계를 포함한다.
전술한 해결책에서, 주요 음장 성분를 획득한 후에, 인코더는 주요 음장 성분에 기초하여 제1 타깃 가상 스피커의 구성 파라미터를 결정할 수 있다. 예를 들어, 주요 음장 성분은 복수의 음장 성분 중에서 가장 큰 값을 갖는 하나 이상의 음장 성분이거나, 또는 주요 음장 성분은 복수의 음장 성분 중에서 우세 방향을 갖는 하나 이상의 음장 성분일 수 있다. 주요 음장 성분은 제1 장면 오디오 신호와 매칭되는 제1 타깃 가상 스피커를 결정하기 위해 사용될 수 있고, 대응하는 속성 정보가 제1 타깃 가상 스피커에 대해 구성되고, 제1 타깃 가상 스피커에 대한 HOA 계수가 제1 타깃 가상 스피커의 구성 파라미터에 기초하여 생성될 수 있다. HOA 계수를 생성하는 프로세스는 HOA 알고리즘을 사용하여 구현될 수 있고, 상세사항은 여기서 다시 기술되지 않는다. 가상 스피커 세트 내의 각각의 가상 스피커는 HOA 계수에 대응한다. 따라서, 인코더가 제1 타깃 가상 스피커를 결정할 필요가 있는 문제를 해결하기 위해, 각각의 가상 스피커에 대한 HOA 계수에 기초하여 제1 타깃 가상 스피커가 가상 스피커 세트로부터 선택될 수 있다.
가능한 구현에서, 주요 음장 성분에 기초하여 제1 타깃 가상 스피커의 구성 파라미터를 획득하는 단계는:
오디오 인코더의 구성 정보에 기초하여 가상 스피커 세트 내의 복수의 가상 스피커의 구성 파라미터들을 결정하는 단계; 및
주요 음장 성분에 기초하여 복수의 가상 스피커의 구성 파라미터들로부터 제1 타깃 가상 스피커의 구성 파라미터를 선택하는 단계를 포함한다.
전술한 해결책에서, 인코더는 가상 스피커 세트로부터 복수의 가상 스피커의 구성 파라미터들을 획득한다. 각각의 가상 스피커에 대해, 대응하는 가상 스피커 구성 파라미터가 존재하고, 각각의 가상 스피커 구성 파라미터는 가상 스피커의 HOA 차수 및 가상 스피커의 로케이션 좌표와 같은 정보를 포함하지만 이들에 제한되지는 않는다. 각각의 가상 스피커의 구성 파라미터는 가상 스피커에 대한 HOA 계수를 생성하기 위해 사용될 수 있다. HOA 계수를 생성하는 프로세스는 HOA 알고리즘을 사용하여 구현될 수 있고, 상세사항은 여기서 다시 기술되지 않는다. HOA 계수가 가상 스피커 세트 내의 각각의 가상 스피커에 대해 생성되고, 가상 스피커 세트 내의 모든 가상 스피커들에 대해 제각기 구성된 HOA 계수들이 HOA 계수 세트를 형성하여, 인코더가 가상 스피커 세트 내의 각각의 가상 스피커에 대한 HOA 계수를 결정할 필요가 있는 문제를 해결한다.
가능한 구현에서, 제1 타깃 가상 스피커의 구성 파라미터는 제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보를 포함하고; 및
제1 타깃 가상 스피커의 구성 파라미터에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 생성하는 단계는:
제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 결정하는 단계를 포함한다.
전술한 해결책에서, 가상 스피커 세트 내의 각각의 가상 스피커의 구성 파라미터는 가상 스피커의 로케이션 정보 및 가상 스피커의 HOA 차수 정보를 포함할 수 있다. 유사하게, 제1 타깃 가상 스피커의 구성 파라미터는 제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보를 포함한다. 예를 들어, 가상 스피커 세트 내의 각각의 가상 스피커의 로케이션 정보는 국소적 등거리 가상 스피커 공간 분포 방식에 따라 결정될 수 있다. 국소적 등거리 가상 스피커 공간 분포 방식은 복수의 가상 스피커가 국소적 등거리 방식으로 공간에 분포되는 것을 의미한다. 예를 들어, 국소적 등거리 방식은 균일한 분포 또는 불균일한 분포를 포함할 수 있다. 각각의 가상 스피커의 로케이션 정보와 HOA 차수 정보 둘 모두는 가상 스피커에 대한 HOA 계수를 생성하는데 이용될 수 있다. HOA 계수를 생성하는 프로세스는 HOA 알고리즘을 사용하여 구현될 수 있다. 이는 인코더가 제1 타깃 가상 스피커에 대한 HOA 계수를 결정할 필요가 있는 문제를 해결한다.
가능한 구현에서, 방법은:
제1 타깃 가상 스피커의 속성 정보를 인코딩하고, 인코딩된 정보를 비트스트림에 기입하는 단계를 포함한다.
전술한 해결책에서, 가상 스피커를 인코딩하는 것 외에, 인코더는 또한 제1 타깃 가상 스피커의 속성 정보를 인코딩하고, 제1 타깃 가상 스피커의 인코딩된 속성 정보를 비트스트림에 기입할 수 있다. 이 경우, 획득된 비트스트림은 인코딩된 가상 스피커 및 제1 타깃 가상 스피커의 인코딩된 속성 정보를 포함할 수 있다. 본 출원의 이 실시예에서, 비트스트림은 제1 타깃 가상 스피커의 인코딩된 속성 정보를 운반할 수 있어서, 디코더가 비트스트림을 디코딩함으로써 제1 타깃 가상 스피커의 속성 정보를 결정하여, 디코더에 의한 오디오 디코딩을 용이하게 할 수 있도록 한다.
가능한 구현에서, 제1 장면 오디오 신호는 인코딩될 HOA(higher order ambisonics) 신호를 포함하고, 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커에 대한 HOA 계수를 포함하고; 및
제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 제1 가상 스피커 신호를 생성하는 단계는:
인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 제1 가상 스피커 신호를 획득하는 단계를 포함한다.
전술한 해결책에서, 제1 장면 오디오 신호가 인코딩될 HOA 신호인 예가 사용된다. 인코더는 먼저 제1 타깃 가상 스피커에 대한 HOA 계수를 결정한다. 예를 들어, 인코더는 주요 음장 성분에 기초하여 HOA 계수 세트로부터 HOA 계수를 선택하고, 선택된 HOA 계수는 제1 타깃 가상 스피커에 대한 HOA 계수이다. 인코더가 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수를 획득한 후에, 제1 가상 스피커 신호가 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 기초하여 생성될 수 있다. 인코딩될 HOA 신호는 제1 타깃 가상 스피커에 대한 HOA 계수를 사용하여 선형 조합을 수행함으로써 획득될 수 있고, 제1 가상 스피커 신호의 해결(solving)은 선형 조합의 해결이 되도록 변환될 수 있다.
가능한 구현에서, 제1 장면 오디오 신호는 인코딩될 HOA(higher order ambisonics) 신호를 포함하고, 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커의 로케이션 정보를 포함하고; 및
제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 제1 가상 스피커 신호를 생성하는 단계는:
제1 타깃 가상 스피커의 로케이션 정보에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 획득하는 단계; 및
인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 제1 가상 스피커 신호를 획득하는 단계를 포함한다.
전술한 해결책에서, 인코더가 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수를 획득한 후에, 인코더는 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행한다. 다시 말해서, 인코더는 인코딩될 HOA 신호와 제1 타깃 가상 스피커에 대한 HOA 계수를 함께 조합하여 선형 조합 행렬을 획득한다. 그 후, 인코더는 선형 조합 행렬의 최적 해를 획득할 수 있고, 획득된 최적 해는 제1 가상 스피커 신호이다.
가능한 구현에서, 방법은:
제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계;
제1 장면 오디오 신호 및 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하는 단계; 및
제2 가상 스피커 신호를 인코딩하고, 인코딩된 신호를 비트스트림에 기입하는 단계를 추가로 포함하고; 및
대응하여, 제1 타깃 가상 스피커의 속성 정보 및 제1 가상 스피커 신호를 사용하여 제2 장면 오디오 신호를 획득하는 단계는:
제1 타깃 가상 스피커의 속성 정보, 제1 가상 스피커 신호, 제2 타깃 가상 스피커의 속성 정보, 및 제2 가상 스피커 신호에 기초하여 제2 장면 오디오 신호를 획득하는 단계를 포함한다.
전술한 해결책에서, 인코더는 제1 타깃 가상 스피커의 속성 정보를 획득할 수 있고, 제1 타깃 가상 스피커는 가상 스피커 세트 내에 있고 또한 제1 가상 스피커 신호를 재생하기 위해 사용되는 가상 스피커이다. 인코더는 제2 타깃 가상 스피커의 속성 정보를 획득할 수 있고, 제2 타깃 가상 스피커는 가상 스피커 세트 내에 있고 또한 제2 가상 스피커 신호를 재생하기 위해 사용되는 가상 스피커이다. 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커의 로케이션 정보 및 제1 타깃 가상 스피커에 대한 HOA 계수를 포함할 수 있다. 제2 타깃 가상 스피커의 속성 정보는 제2 타깃 가상 스피커의 로케이션 정보 및 제2 타깃 가상 스피커에 대한 HOA 계수를 포함할 수 있다. 인코더가 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 획득한 후에, 인코더는 제1 타깃 가상 스피커의 속성 정보 및 제2 타깃 가상 스피커의 속성 정보에 기초하여 신호 재구성을 수행하고, 신호 재구성을 통해 제2 장면 오디오 신호를 획득할 수 있다.
가능한 구현에서, 방법은:
제1 가상 스피커 신호 및 제2 가상 스피커 신호를 정렬하여, 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호를 획득하는 단계를 추가로 포함하고;
대응하여, 제2 가상 스피커 신호를 인코딩하는 단계는:
정렬된 제2 가상 스피커 신호를 인코딩하는 단계를 포함하고; 및
대응하여, 제1 가상 스피커 신호 및 잔차 신호를 인코딩하는 단계는:
정렬된 제1 가상 스피커 신호 및 잔차 신호를 인코딩하는 단계를 포함한다.
전술한 해결책에서, 정렬된 제1 가상 스피커 신호를 획득한 후에, 인코더는 정렬된 제1 가상 스피커 신호 및 잔차 신호를 인코딩할 수 있다. 본 출원의 이 실시예에서, 채널간 상관(inter-channel correlation)은, 코어 인코더에 의한 제1 가상 스피커 신호의 인코딩 처리를 용이하게 하기 위해, 제1 가상 스피커 신호의 사운드 채널들을 다시 조정하고 정렬함으로써 향상된다.
가능한 구현에서, 방법은:
제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계; 및
제1 장면 오디오 신호 및 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하는 단계를 추가로 포함하고; 및
대응하여, 제1 가상 스피커 신호 및 잔차 신호를 인코딩하는 단계는:
제1 가상 스피커 신호 및 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하는 단계 - 제1 보조 정보는 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계를 나타냄 -; 및
다운믹싱된 신호, 제1 보조 정보, 및 잔차 신호를 인코딩하는 단계를 포함한다.
전술한 해결책에서, 인코더가 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 획득한 후에, 인코더는 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 기초하여 다운믹싱을 추가로 수행하여 다운믹싱된 신호를 생성할 수 있는데, 예를 들어, 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 대해 진폭 다운믹싱을 수행하여 다운믹싱된 신호를 획득할 수 있다. 또한, 제1 보조 정보는 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 기초하여 추가로 생성될 수 있다. 제1 보조 정보는 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계를 표시하고, 이 관계는 복수의 구현을 갖는다. 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 복원하기 위해, 제1 보조 정보는 다운믹싱된 신호를 업믹싱하도록 디코더에 의해 사용될 수 있다. 예를 들어, 제1 보조 정보는 신호 정보 손실 분석 파라미터를 포함하여, 디코더가 신호 정보 손실 분석 파라미터를 사용하여 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 복원하도록 한다. 또 다른 예로서, 제1 보조 정보는 구체적으로 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 상관 파라미터일 수 있고, 예를 들어, 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 에너지 비율 파라미터일 수 있다. 따라서, 디코더는 상관 파라미터 또는 에너지 비율 파라미터를 사용하여 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 복원한다.
가능한 구현에서, 방법은:
제1 가상 스피커 신호 및 제2 가상 스피커 신호를 정렬하여, 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호를 획득하는 단계를 추가로 포함하고; 및
대응하여, 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하는 단계는:
정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하는 단계를 포함한다.
대응하여, 제1 보조 정보는 정렬된 제1 가상 스피커 신호와 정렬된 제2 가상 스피커 신호 사이의 관계를 나타낸다.
전술한 해결책에서, 다운믹싱된 신호를 생성하기 전에, 인코더는 가상 스피커 신호들에 대해 정렬 동작을 먼저 수행하고, 정렬 동작을 완료한 후에, 다운믹싱된 신호 및 제1 보조 정보를 생성할 수 있다. 본 출원의 이 실시예에서, 제1 가상 스피커 신호 및 제2 가상 스피커 신호의 사운드 채널들을 다시 조정하고 정렬함으로써 채널간 상관이 향상되어, 코어 인코더에 의한 제1 가상 스피커 신호의 인코딩 처리를 용이하게 한다.
가능한 구현에서, 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계 전에, 방법은:
제1 장면 오디오 신호의 인코딩 레이트 및/또는 신호 클래스 정보에 기초하여, 제1 타깃 가상 스피커 이외의 타깃 가상 스피커가 획득될 필요가 있는지를 결정하는 단계; 및
제1 타깃 가상 스피커 이외의 타깃 가상 스피커가 획득될 필요가 있는 경우에만 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계를 추가로 포함한다.
전술한 해결책에서, 인코더는 제2 타깃 가상 스피커가 획득될 필요가 있는지를 결정하기 위해 신호를 더 선택할 수 있다. 제2 타깃 가상 스피커가 획득될 필요가 있을 때, 인코더는 제2 가상 스피커 신호를 생성할 수 있다. 제2 타깃 가상 스피커가 획득될 필요가 없을 때, 인코더는 제2 가상 스피커 신호를 생성하지 않을 수 있다. 인코더는, 오디오 인코더의 구성 정보 및/또는 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여, 제1 타깃 가상 스피커 외에 또 다른 타깃 가상 스피커가 선택될 필요가 있는지를 결정할 수 있다. 예를 들어, 인코딩 레이트가 미리 설정된 임계값보다 높은 경우, 2개의 주요 음장 성분에 대응하는 타깃 가상 스피커들이 획득될 필요가 있다고 결정되고, 제1 타깃 가상 스피커가 결정되는 것 외에, 제2 타깃 가상 스피커가 추가로 결정될 수 있다. 또 다른 예로서, 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여, 우세 사운드 소스 방향을 포함하는 2개의 주요 음장 성분에 대응하는 타깃 가상 스피커들이 획득될 필요가 있다고 결정되는 경우, 제1 타깃 가상 스피커가 결정되는 것 외에, 제2 타깃 가상 스피커가 추가로 결정될 수 있다. 반대로, 제1 장면 오디오 신호의 인코딩 레이트 및/또는 신호 클래스 정보에 기초하여, 하나의 타깃 가상 스피커만이 획득될 필요가 있다고 결정되는 경우, 제1 타깃 가상 스피커가 결정된 후에, 제1 타깃 가상 스피커 이외의 어떠한 타깃 가상 스피커도 획득되지 않는다고 결정된다. 본 출원의 이 실시예에서, 인코더에 의해 인코딩될 데이터의 양이 감소될 수 있도록 신호가 선택되어, 인코딩 효율을 개선한다.
가능한 구현에서, 잔차 신호는 적어도 2개의 사운드 채널 상의 잔차 서브신호들을 포함하고, 방법은:
오디오 인코더의 구성 정보 및/또는 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여 적어도 2개의 사운드 채널 상의 잔차 서브신호들로부터, 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 결정하는 단계를 추가로 포함하고; 및
대응하여, 제1 가상 스피커 신호 및 잔차 신호를 인코딩하는 단계는:
제1 가상 스피커 신호 및 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 인코딩하는 단계를 포함한다.
전술한 해결책에서, 인코더는 오디오 인코더의 구성 정보 및/또는 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여 잔차 신호에 대한 판정을 내릴 수 있다. 예를 들어, 잔차 신호가 적어도 2개의 사운드 채널 상의 잔차 서브신호들을 포함하는 경우, 인코더는 잔차 서브신호들이 인코딩될 필요가 있는 사운드 채널 또는 사운드 채널들, 및 잔차 서브신호들이 인코딩될 필요가 없는 사운드 채널 또는 사운드 채널들을 선택할 수 있다. 예를 들어, 잔차 신호에서 우세 에너지를 갖는 잔차 서브신호는 인코딩을 위한 오디오 인코더의 구성 정보에 기초하여 선택된다. 또 다른 예로서, 잔차 신호에서 저차 HOA 사운드 채널에 의한 계산을 통해 획득된 잔차 서브신호는 인코딩을 위한 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여 선택된다. 잔차 신호에 대해, 사운드 채널이 선택되어, 인코더에 의해 인코딩되는 데이터의 양이 감소될 수 있어서, 인코딩 효율을 개선한다.
가능한 구현에서, 적어도 2개의 사운드 채널 상의 잔차 서브신호들이, 인코딩될 필요가 없고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 포함하는 경우, 방법은:
제2 보조 정보를 획득하는 단계 - 제2 보조 정보는 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호와 인코딩될 필요가 없고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호 사이의 관계를 나타냄 -; 및
제2 보조 정보를 비트스트림에 기입하는 단계를 추가로 포함한다.
전술한 해결책에서, 신호를 선택할 때, 인코더는 인코딩될 필요가 있는 잔차 서브신호 및 인코딩될 필요가 없는 잔차 서브신호를 결정할 수 있다. 본 출원의 이 실시예에서, 인코딩될 필요가 있는 잔차 서브신호는 인코딩되고, 인코딩될 필요가 없는 잔차 서브신호는 인코딩되지 않아서, 인코더에 의해 인코딩되는 데이터의 양이 감소될 수 있도록 하고, 인코딩 효율을 개선한다. 인코더가 신호를 선택할 때 정보 손실이 발생하기 때문에, 신호 보상이 송신되지 않은 잔차 서브신호에 대해 수행될 필요가 있다. 신호 보상은 정보 손실 분석, 에너지 보상, 포락선 보상, 및 잡음 보상일 수 있는데, 이에 제한되지는 않는다. 보상 방법은 선형 보상, 비선형 보상, 또는 그와 유사한 것일 수 있다. 신호 보상 후에, 제2 보조 정보가 생성될 수 있고, 제2 보조 정보가 비트스트림에 기입될 수 있다. 제2 보조 정보는 인코딩될 필요가 있는 잔차 서브신호와 인코딩될 필요가 없는 잔차 서브신호 사이의 관계를 나타낸다. 이 관계는 복수의 구현을 갖는다. 예를 들어, 제2 보조 정보는 신호 정보 손실 분석 파라미터를 포함하여, 디코더가 신호 정보 손실 분석 파라미터를 사용함으로써 인코딩될 필요가 있는 잔차 서브신호 및 인코딩될 필요가 없는 잔차 서브신호를 복원하도록 한다. 또 다른 예를 들어, 제2 보조 정보는 구체적으로 인코딩될 필요가 있는 잔차 서브 신호와 인코딩될 필요가 없는 잔차 서브신호사이의 상관 파라미터일 수 있고, 예를 들어, 인코딩될 필요가 있는 잔차 서브 신호와 인코딩될 필요가 없는 잔차 서브신호사이의 에너지 비율 파라미터일 수 있다. 따라서, 디코더는 상관 파라미터 또는 에너지 비율 파라미터를 이용함으로써, 인코딩될 필요가 있는 잔차 서브신호및 인코딩될 필요가 없는 잔차 서브 신호를 복원한다. 본 출원의 이 실시예에서, 디코더는 비트스트림을 사용함으로써 제2 보조 정보를 획득할 수 있고, 디코더는 제2 보조 정보에 기초하여 신호 보상을 수행하여, 디코더의 디코딩된 신호의 품질을 개선할 수 있다.
제2 양태에 따르면, 본 출원의 실시예는 오디오 디코딩 방법을 추가로 제공하며, 방법은:
비트스트림을 수신하는 단계;
비트스트림을 디코딩하여 가상 스피커 신호 및 잔차 신호를 획득하는 단계; 및
타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함한다.
본 출원의 이 실시예에서, 비트스트림이 먼저 수신되고, 다음에 비트스트림이 디코딩되어 가상 스피커 신호 및 잔차 신호를 획득하고, 마지막으로 재구성된 장면 오디오 신호가 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 획득된다. 본 출원의 이 실시예에서, 오디오 디코더는 오디오 인코더에 의해 인코딩 처리와 반대인 디코딩 처리를 수행하고, 디코딩을 통해 비트스트림으로부터 가상 스피커 신호 및 잔차 신호를 획득할 수 있고, 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호를 사용함으로써 재구성된 장면 오디오 신호를 획득할 수 있다. 본 출원의 이 실시예에서, 획득된 비트스트림은 가상 스피커 신호 및 잔차 신호를 운반하여, 디코딩될 데이터의 양을 감소시키고 디코딩 효율을 개선한다.
가능한 구현에서, 방법은: 비트스트림을 디코딩하여 타깃 가상 스피커의 속성 정보를 획득하는 단계를 추가로 포함한다.
전술한 해결책에서, 가상 스피커를 인코딩하는 것에 더하여, 인코더는 또한 타깃 가상 스피커의 속성 정보를 인코딩하고, 타깃 가상 스피커의 인코딩된 속성 정보를 비트스트림에 기입할 수 있다. 예를 들어, 제1 타깃 가상 스피커의 속성 정보는 비트스트림을 사용하여 획득될 수 있다. 본 출원의 이 실시예에서, 비트스트림은 제1 타깃 가상 스피커의 인코딩된 속성 정보를 운반할 수 있어서, 디코더는 비트스트림을 디코딩함으로써 제1 타깃 가상 스피커의 속성 정보를 결정하여, 디코더에 의한 오디오 디코딩을 용이하게 할 수 있도록 한다.
가능한 구현에서, 타깃 가상 스피커의 속성 정보는 타깃 가상 스피커에 대한 HOA(higher order ambisonics) 계수를 포함하고; 및
타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하여 합성된 장면 오디오 신호를 획득하는 단계; 및
잔차 신호를 사용함으로써 합성된 장면 오디오 신호를 조정하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함한다.
전술한 해결책에서, 디코더는 먼저 타깃 가상 스피커에 대한 HOA 계수를 결정한다. 예를 들어, 디코더는 타깃 가상 스피커에 대한 HOA 계수를 미리 저장할 수 있다. 가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수를 획득한 후에, 디코더는 가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수에 기초하여 합성된 장면 오디오 신호를 획득할 수 있다. 마지막으로, 잔차 신호가 합성된 장면 오디오 신호를 조정하기 위해 사용되어, 재구성된 장면 오디오 신호의 품질을 개선한다.
가능한 구현에서, 타깃 가상 스피커의 속성 정보는 타깃 가상 스피커의 로케이션 정보를 포함하고; 및
타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
타깃 가상 스피커의 로케이션 정보에 기초하여 타깃 가상 스피커에 대한 HOA 계수를 결정하는 단계;
가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하여 합성된 장면 오디오 신호를 획득하는 단계; 및
잔차 신호를 사용함으로써 합성된 장면 오디오 신호를 조정하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함한다.
전술한 해결책에서, 타깃 가상 스피커의 속성 정보는 타깃 가상 스피커의 로케이션 정보를 포함할 수 있다. 디코더는 가상 스피커 세트 내의 각각의 가상 스피커에 대한 HOA 계수를 미리 저장하고, 디코더는 각각의 가상 스피커의 로케이션 정보를 더 저장한다. 예를 들어, 디코더는 가상 스피커의 로케이션 정보와 가상 스피커의 HOA 계수 사이의 대응관계에 기초하여, 타깃 가상 스피커의 로케이션 정보에 대한 HOA 계수를 결정할 수 있거나, 또는 디코더는 타깃 가상 스피커의 로케이션 정보에 기초하여 타깃 가상 스피커에 대한 HOA 계수를 계산할 수 있다. 따라서, 디코더는 타깃 가상 스피커의 로케이션 정보에 기초하여 타깃 가상 스피커에 대한 HOA 계수를 결정할 수 있다. 이는 디코더가 타깃 가상 스피커에 대한 HOA 계수를 결정할 필요가 있는 문제를 해결한다.
가능한 구현에서, 가상 스피커 신호는 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 다운믹싱함으로써 획득되는 다운믹싱된 신호이고, 방법은:
비트스트림을 디코딩하여 제1 보조 정보를 획득하는 단계 - 제1 보조 정보는 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계를 나타냄 -; 및
제1 보조 정보 및 다운믹싱된 신호에 기초하여 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 획득하는 단계를 추가로 포함하고; 및
대응하여, 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
타깃 가상 스피커의 속성 정보, 잔차 신호, 제1 가상 스피커 신호, 및 제2 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함한다.
전술한 해결책에서, 인코더는 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 기초하여 다운믹싱을 수행할 때 다운믹싱된 신호를 생성하고, 인코더는 다운믹싱된 신호에 대한 신호 보상을 추가로 수행하여, 제1 보조 정보를 생성할 수 있다. 제1 보조 정보는 비트스트림에 기입될 수 있다. 디코더는 비트스트림을 사용함으로써 제1 보조 정보를 획득할 수 있다. 디코더는 제1 보조 정보에 기초하여 신호 보상을 수행하여, 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 획득할 수 있다. 따라서, 신호 재구성 동안, 제1 가상 스피커 신호, 제2 가상 스피커 신호, 타깃 가상 스피커의 속성 정보, 및 잔차 신호가 디코더의 디코딩된 신호의 품질을 개선하기 위해 사용될 수 있다.
가능한 구현에서, 잔차 신호가 제1 사운드 채널 상의 잔차 서브신호를 포함하고, 방법은:
비트스트림을 디코딩하여 제2 보조 정보를 획득하는 단계 - 제2 보조 정보는 제1 사운드 채널 상의 잔차 서브신호와 제2 사운드 채널 상의 잔차 서브신호 사이의 관계를 나타냄 -; 및
제2 보조 정보 및 제1 사운드 채널 상의 잔차 서브신호에 기초하여 제2 사운드 채널 상의 잔차 서브신호를 획득하는 단계를 추가로 포함하고; 및
대응하여, 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
타깃 가상 스피커의 속성 정보, 제1 사운드 채널 상의 잔차 서브신호, 제2 사운드 채널 상의 잔차 서브신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함한다.
전술한 해결책에서, 신호를 선택할 때, 인코더는 인코딩될 필요가 있는 잔차 서브신호 및 인코딩될 필요가 없는 잔차 서브신호를 결정할 수 있다. 인코더가 신호를 선택할 때 정보 손실이 발생하기 때문에, 인코더는 제2 보조 정보를 생성한다. 제2 보조 정보는 비트스트림에 기입될 수 있다. 디코더는 비트스트림을 사용함으로써 제2 보조 정보를 획득할 수 있다. 비트스트림에서 운반되는 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함하고, 디코더는 제2 보조 정보에 기초하여 신호 보상을 수행하여 제2 사운드 채널 상의 잔차 서브신호를 획득할 수 있다고 가정된다. 예를 들어, 디코더는 제1 사운드 채널 상의 잔차 서브신호 및 제2 보조 정보를 이용하여 제2 사운드 채널 상의 잔차 서브신호를 복원한다. 제2 사운드 채널은 제1 사운드 채널과 독립적이다. 따라서, 신호 재구성 동안, 제1 사운드 채널 상의 잔차 서브신호, 제2 사운드 채널 상의 잔차 서브신호, 타깃 가상 스피커의 속성 정보, 및 가상 스피커 신호가 사용되어, 디코더의 디코딩된 신호의 품질을 개선할 수 있다.
가능한 구현에서, 잔차 신호가 제1 사운드 채널 상의 잔차 서브신호를 포함하고, 방법은:
비트스트림을 디코딩하여 제2 보조 정보를 획득하는 단계 - 제2 보조 정보는 제1 사운드 채널 상의 잔차 서브신호와 제3 사운드 채널 상의 잔차 서브신호 사이의 관계를 나타냄 -; 및
제2 보조 정보 및 제1 사운드 채널 상의 잔차 서브신호에 기초하여 제3 사운드 채널 상의 잔차 서브신호 및 제1 사운드 채널 상의 업데이트된 잔차 서브신호를 획득하는 단계를 추가로 포함하고; 및
대응하여, 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
타깃 가상 스피커의 속성 정보, 제1 사운드 채널 상의 업데이트된 잔차 서브신호, 제3 사운드 채널 상의 잔차 서브신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함한다.
전술한 해결책에서, 신호를 선택할 때, 인코더는 인코딩될 필요가 있는 잔차 서브신호 및 인코딩될 필요가 없는 잔차 서브신호를 결정할 수 있다. 인코더가 신호를 선택할 때 정보 손실이 발생하기 때문에, 인코더는 제2 보조 정보를 생성한다. 제2 보조 정보는 비트스트림에 기입될 수 있다. 디코더는 비트스트림을 사용함으로써 제2 보조 정보를 획득할 수 있다. 비트스트림에서 운반되는 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함하고, 디코더는 제2 보조 정보에 기초하여 신호 보상을 수행하여 제3 사운드 채널 상의 잔차 서브신호를 획득할 수 있다고 가정된다. 제3 사운드 채널 상의 잔차 서브신호는 제1 사운드 채널 상의 잔차 서브신호와 상이하다. 제2 보조 정보 및 제1 사운드 채널 상의 잔차 서브신호에 기초하여 제3 사운드 채널 상의 잔차 서브신호가 획득될 때, 제1 사운드 채널 상의 잔차 서브신호는 업데이트될 필요가 있어서, 제1 사운드 채널 상의 업데이트된 잔차 서브신호를 획득하게 된다. 예를 들어, 디코더는 제1 사운드 채널 상의 잔차 서브신호 및 제2 보조 정보를 이용함으로써 제3 사운드 채널 상의 잔차 서브신호 및 제1 사운드 채널 상의 업데이트된 잔차 서브신호를 생성한다. 따라서, 신호 재구성 동안, 제3 사운드 채널 상의 잔차 서브신호, 제1 사운드 채널 상의 업데이트된 잔차 서브신호, 타깃 가상 스피커의 속성 정보, 및 가상 스피커 신호가 사용되어, 디코더의 디코딩된 신호의 품질을 개선할 수 있다.
제3 양태에 따르면, 본 출원의 실시예는 오디오 인코딩 장치를 제공하고, 이 장치는:
제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하도록 구성된 획득 모듈;
제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 가상 스피커 신호를 생성하도록 구성된 신호 생성 모듈 -
신호 생성 모듈은 제1 타깃 가상 스피커의 속성 정보 및 제1 가상 스피커 신호를 사용함으로써 제2 장면 오디오 신호를 획득하도록 구성되고; 및
신호 생성 모듈은 제1 장면 오디오 신호 및 제2 장면 오디오 신호에 기초하여 잔차 신호를 생성하도록 구성됨 -; 및
가상 스피커 신호 및 잔차 신호를 인코딩하여 비트스트림을 획득하도록 구성된 인코딩 모듈을 포함한다.
가능한 구현에서, 획득 모듈은 가상 스피커 세트에 기초하여 제1 장면 오디오 신호로부터 주요 음장 성분을 획득하고; 및 주요 음장 성분에 기초하여 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하도록 구성된다.
가능한 구현에서, 획득 모듈은 주요 음장 성분에 기초하여 HOA(higher order ambisonics) 계수 세트로부터 주요 음장 성분에 대한 HOA 계수를 선택하고 - HOA 계수 세트에서의 HOA 계수들은 가상 스피커 세트에서의 가상 스피커들과 일대일 대응관계에 있음 -; 및 가상 스피커 세트에서의 주요 음장 성분에 대한 HOA 계수에 대응하는 가상 스피커를 제1 타깃 가상 스피커로서 결정하도록 구성된다.
가능한 구현에서, 획득 모듈은: 주요 음장 성분에 기초하여 제1 타깃 가상 스피커의 구성 파라미터를 획득하고; 제1 타깃 가상 스피커의 구성 파라미터에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 생성하고; 및 가상 스피커 세트 내의 제1 타깃 가상 스피커에 대한 HOA 계수에 대응하는 가상 스피커를 제1 타깃 가상 스피커로서 결정하도록 구성된다.
가능한 구현에서, 획득 모듈은 오디오 인코더의 구성 정보에 기초하여 가상 스피커 세트 내의 복수의 가상 스피커의 구성 파라미터들을 결정하고; 및 주요 음장 성분에 기초하여 복수의 가상 스피커의 구성 파라미터들로부터 제1 타깃 가상 스피커의 구성 파라미터를 선택하도록 구성된다.
가능한 구현에서, 제1 타깃 가상 스피커의 구성 파라미터는 제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보를 포함한다.
획득 모듈은 제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 결정하도록 구성된다.
가능한 구현에서, 인코딩 모듈은 제1 타깃 가상 스피커의 속성 정보를 인코딩하고 인코딩된 정보를 비트스트림에 기입하도록 추가로 구성된다.
가능한 구현에서, 제1 장면 오디오 신호는 인코딩될 HOA(higher order ambisonics) 신호를 포함하고, 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커에 대한 HOA 계수를 포함한다.
신호 생성 모듈은 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 제1 가상 스피커 신호를 획득하도록 구성된다.
가능한 구현에서, 제1 장면 오디오 신호는 인코딩될 HOA(higher order ambisonics) 신호를 포함하고, 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커의 로케이션 정보를 포함한다.
신호 생성 모듈은: 제1 타깃 가상 스피커의 로케이션 정보에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 획득하고; 및 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 제1 가상 스피커 신호를 획득하도록 구성된다.
가능한 구현에서, 획득 모듈은 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하도록 구성된다.
신호 생성 모듈은 제1 장면 오디오 신호 및 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하도록 구성된다.
인코딩 모듈은 제2 가상 스피커 신호를 인코딩하고, 인코딩된 신호를 비트스트림에 기입하도록 구성된다.
대응하여, 신호 생성 모듈은 제1 타깃 가상 스피커의 속성 정보, 제1 가상 스피커 신호, 제2 타깃 가상 스피커의 속성 정보, 및 제2 가상 스피커 신호에 기초하여 제2 장면 오디오 신호를 획득하도록 구성된다.
가능한 구현에서, 신호 생성 모듈은 제1 가상 스피커 신호와 제2 가상 스피커 신호를 정렬하여, 정렬된 제1 가상 스피커 신호와 정렬된 제2 가상 스피커 신호를 획득하도록 구성된다.
대응하여, 인코딩 모듈은 정렬된 제2 가상 스피커 신호를 인코딩하도록 구성된다.
대응하여, 인코딩 모듈은 정렬된 제1 가상 스피커 신호 및 잔차 신호를 인코딩하도록 구성된다.
가능한 구현에서, 획득 모듈은 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하도록 구성된다.
신호 생성 모듈은 제1 장면 오디오 신호 및 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하도록 구성된다.
대응하여, 인코딩 모듈은 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하도록 구성된다. 제1 보조 정보는 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계를 나타낸다.
대응하여, 인코딩 모듈은 다운믹싱된 신호, 제1 보조 정보, 및 잔차 신호를 인코딩하도록 구성된다.
가능한 구현에서, 신호 생성 모듈은 제1 가상 스피커 신호와 제2 가상 스피커 신호를 정렬하여, 정렬된 제1 가상 스피커 신호와 정렬된 제2 가상 스피커 신호를 획득하도록 구성된다.
인코딩 모듈은 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하도록 구성된다.
대응하여, 제1 보조 정보는 정렬된 제1 가상 스피커 신호와 정렬된 제2 가상 스피커 신호 사이의 관계를 나타낸다.
가능한 구현에서, 획득 모듈은: 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하기 전에, 제1 장면 오디오 신호의 인코딩 레이트 및/또는 신호 클래스 정보에 기초하여, 제1 타깃 가상 스피커 이외의 타깃 가상 스피커가 획득될 필요가 있는지를 결정하고; 및 제1 타깃 가상 스피커 이외의 타깃 가상 스피커가 획득될 필요가 있는 경우에만 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하도록 구성된다.
가능한 구현에서, 잔차 신호는 적어도 2개의 사운드 채널 상의 잔차 서브신호들을 포함한다.
신호 생성 모듈은, 오디오 인코더의 구성 정보 및/또는 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여 적어도 2개의 사운드 채널 상의 잔차 서브신호들로부터, 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 결정하도록 구성된다.
대응하여, 인코딩 모듈은 제1 가상 스피커 신호 및 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 인코딩하도록 구성된다.
가능한 구현에서, 획득 모듈은 적어도 2개의 사운드 채널 상의 잔차 서브신호들이 인코딩될 필요가 없고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 포함하는 경우에 제2 보조 정보를 획득하도록 구성된다. 제2 보조 정보는 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호와 인코딩될 필요가 없고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호 사이의 관계를 나타낸다.
대응하여, 인코딩 모듈은 제2 보조 정보를 비트스트림에 기입하도록 구성된다.
본 출원의 제3 양태에서, 오디오 인코딩 장치의 구성 모듈들은 제1 양태 및 가능한 구현들에서 설명된 단계들을 추가로 수행할 수 있다. 상세사항들에 대해서는, 제1 양태 및 가능한 구현들에서의 설명들을 참조한다.
제4 양태에 따르면, 본 출원의 실시예는 오디오 디코딩 장치를 제공하며, 오디오 디코딩 장치는:
비트스트림을 수신하도록 구성된 수신 모듈;
비트스트림을 디코딩하여 가상 스피커 신호 및 잔차 신호를 획득하도록 구성된 디코딩 모듈; 및
타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하도록 구성된 재구성 모듈을 포함한다.
가능한 구현에서, 디코딩 모듈은 비트스트림을 디코딩하여 타깃 가상 스피커의 속성 정보를 획득하도록 추가로 구성된다.
가능한 구현에서, 타깃 가상 스피커의 속성 정보는 타깃 가상 스피커에 대한 HOA(higher order ambisonics) 계수를 포함한다.
재구성 모듈은: 가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하여 합성된 장면 오디오 신호를 획득하고; 및 잔차 신호를 사용함으로써 합성된 장면 오디오 신호를 조정하여 재구성된 장면 오디오 신호를 획득하도록 구성된다.
가능한 구현에서, 타깃 가상 스피커의 속성 정보는 타깃 가상 스피커의 로케이션 정보를 포함한다.
재구성 모듈은: 타깃 가상 스피커의 로케이션 정보에 기초하여 타깃 가상 스피커에 대한 HOA 계수를 결정하고; 가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하여 합성된 장면 오디오 신호를 획득하고; 및 잔차 신호를 사용함으로써 합성된 장면 오디오 신호를 조정하여 재구성된 장면 오디오 신호를 획득하도록 구성된다.
가능한 구현에서, 가상 스피커 신호는 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 다운믹싱함으로써 획득되는 다운믹싱된 신호이다. 장치는 제1 신호 보상 모듈을 추가로 포함한다.
디코딩 모듈은 비트스트림을 디코딩하여 제1 보조 정보를 획득하도록 구성된다. 제1 보조 정보는 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계를 나타낸다.
제1 신호 보상 모듈은 제1 보조 정보 및 다운믹싱된 신호에 기초하여 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 획득하도록 구성된다.
대응하여, 재구성 모듈은 타깃 가상 스피커의 속성 정보, 잔차 신호, 제1 가상 스피커 신호, 및 제2 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하도록 구성된다.
가능한 구현에서, 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함한다. 장치는 제2 신호 보상 모듈을 추가로 포함한다.
디코딩 모듈은 비트스트림을 디코딩하여 제2 보조 정보를 획득하도록 구성된다. 제2 보조 정보는 제1 사운드 채널 상의 잔차 서브신호와 제2 사운드 채널 상의 잔차 서브신호 사이의 관계를 나타낸다.
제2 신호 보상 모듈은 제2 보조 정보 및 제1 사운드 채널 상의 잔차 서브신호에 기초하여 제2 사운드 채널 상의 잔차 서브신호를 획득하도록 구성된다.
대응하여, 재구성 모듈은 타깃 가상 스피커의 속성 정보, 제1 사운드 채널 상의 잔차 서브신호, 제2 사운드 채널 상의 잔차 서브신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하도록 구성된다.
가능한 구현에서, 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함한다. 장치는 제3 신호 보상 모듈을 추가로 포함한다.
디코딩 모듈은 비트스트림을 디코딩하여 제2 보조 정보를 획득하도록 구성된다. 제2 보조 정보는 제1 사운드 채널 상의 잔차 서브신호와 제3 사운드 채널 상의 잔차 서브신호 사이의 관계를 나타낸다.
제3 신호 보상 모듈은 제2 보조 정보 및 제1 사운드 채널 상의 잔차 서브신호에 기초하여 제3 사운드 채널 상의 잔차 서브신호 및 제1 사운드 채널 상의 업데이트된 잔차 서브신호를 획득하도록 구성된다.
대응하여, 재구성 모듈은 타깃 가상 스피커의 속성 정보, 제1 사운드 채널 상의 업데이트된 잔차 서브신호, 제3 사운드 채널 상의 잔차 서브신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하도록 구성된다.
본 출원의 제4 양태에서, 오디오 디코딩 장치의 구성 모듈들은 제2 양태 및 가능한 구현들에서 설명된 단계들을 추가로 수행할 수 있다. 상세사항들에 대해서는, 제2 양태 및 가능한 구현들에서의 설명들을 참조한다.
제5 양태에 따르면, 본 출원의 실시예는 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 판독가능 저장 매체는 명령어들을 저장한다. 명령어들이 컴퓨터 상에서 실행될 때, 컴퓨터는 제1 양태 또는 제2 양태에 따른 방법을 수행할 수 있게 된다.
제6 양태에 따르면, 본 출원의 실시예는 명령어들을 포함하는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 컴퓨터는 제1 양태 또는 제2 양태에 따른 방법을 수행할 수 있게 된다.
제7 양태에 따르면, 본 출원의 실시예는 통신 장치를 제공한다. 통신 장치는 단말 디바이스 또는 칩과 같은 엔티티를 포함할 수 있다. 통신 장치는 프로세서를 포함한다. 선택적으로, 통신 장치는 메모리를 추가로 포함한다. 메모리는 명령어들을 저장하도록 구성된다. 프로세서는 메모리 내의 명령어들을 실행하도록 구성되어, 통신 장치가 제1 양태 또는 제2 양태 중 어느 하나에 따른 방법을 수행하도록 한다.
제8 양태에 따르면, 본 출원은 칩 시스템을 제공한다. 칩 시스템은 전술한 양태들에서의 기능들, 예를 들어, 전술한 방법들에서 데이터 및/또는 정보를 전송 또는 처리하는 것을 구현함에 있어서 오디오 인코딩 장치 또는 오디오 디코딩 장치를 지원하도록 구성된 프로세서를 포함한다. 가능한 설계에서, 칩 시스템은 메모리를 추가로 포함하고, 메모리는 오디오 인코딩 장치 또는 오디오 디코딩 장치에 대해 필요한 프로그램 명령어들 및 데이터를 저장하도록 구성된다. 칩 시스템은 칩을 포함할 수 있거나, 또는 칩 및 또 다른 이산 디바이스를 포함할 수 있다.
제9 양태에 따르면, 본 출원은 제1 양태 중 어느 하나에 따른 방법에서 생성된 비트스트림을 포함하는 컴퓨터 판독가능 저장 매체를 제공한다.
도 1은 본 출원의 실시예에 따른 오디오 처리 시스템의 구성 구조의 개략도이다.
도 2a는 본 출원의 실시예에 따른 오디오 인코더 및 오디오 디코더가 사용되는 단말 디바이스들의 개략도이다.
도 2b는 본 출원의 실시예에 따른 오디오 인코더가 사용되는 무선 디바이스 또는 코어 네트워크 디바이스의 개략도이다.
도 2c는 본 출원의 실시예에 따른 오디오 디코더가 사용되는 무선 디바이스 또는 코어 네트워크 디바이스의 개략도이다.
도 3a는 본 출원의 실시예에 따른 다채널 인코더 및 다채널 디코더가 사용되는 단말 디바이스들의 개략도이다.
도 3b는 본 출원의 실시예에 따른 다채널 인코더가 사용되는 무선 디바이스 또는 코어 네트워크 디바이스의 개략도이다.
도 3c는 본 출원의 실시예에 따른 다채널 디코더가 사용되는 무선 디바이스 또는 코어 네트워크 디바이스의 개략도이다.
도 4는 본 출원의 실시예에 따른 오디오 인코딩 장치와 오디오 디코딩 장치 사이의 상호작용의 도식적 흐름도이다.
도 5는 본 출원의 실시예에 따른 인코더의 구조의 개략도이다.
도 6은 본 출원의 실시예에 따른 디코더의 구조의 개략도이다.
도 7은 본 출원의 실시예에 따른 또 다른 인코더의 구조의 개략도이다.
도 8은 본 출원의 실시예에 따른 구 상에 대략 균일하게 분포된 가상 스피커들의 개략도이다.
도 9는 본 출원의 실시예에 따른 또 다른 인코더의 구조의 개략도이다.
도 10은 본 출원의 실시예에 따른 오디오 인코딩 장치의 구성 구조의 개략도이다.
도 11은 본 출원의 실시예에 따른 오디오 디코딩 장치의 구성 구조의 개략도이다.
도 12는 본 출원의 실시예에 따른 또 다른 오디오 인코딩 장치의 구성 구조의 개략도이다.
도 13은 본 출원의 실시예에 따른 또 다른 오디오 디코딩 장치의 구성 구조의 개략도이다.
본 출원의 실시예들은 인코딩 및 디코딩되는 데이터의 양을 감소시키고, 인코딩 및 디코딩 효율을 개선하기 위한 오디오 인코딩 및 디코딩 방법 및 장치를 제공한다.
이하에서는 첨부 도면들을 참조하여 본 출원의 실시예들을 설명한다.
본 출원의 명세서, 청구항들, 및 첨부 도면들에서, 용어들 "제1", "제2" 등은 유사한 객체들을 구별하도록 의도되지만 반드시 특정 순서 또는 시퀀스를 표시하는 것은 아니다. 이러한 방식으로 사용되는 용어들은 적절한 상황들에서 교환가능하며, 이는 단지 동일한 속성을 갖는 객체들이 본 출원의 실시예들에서 설명될 때 사용되는 구별 방식이라는 점이 이해되어야 한다. 또한, "포함하다(include)", "포함하다(contain)"라는 용어들 및 임의의 다른 변형들은 비-배타적 포함을 커버하는 것을 의미하므로, 일련의 유닛들을 포함하는 프로세스, 방법, 시스템, 제품, 또는 디바이스가 반드시 이러한 유닛들로만 제한되는 것은 아니고, 명시적으로 열거되지 않은 또는 이러한 프로세스, 방법, 시스템, 제품, 또는 디바이스에 고유한 다른 유닛들을 포함할 수 있다.
본 출원의 실시예들에서의 기술적 해결책들은 다양한 오디오 처리 시스템들에 적용될 수 있다. 도 1은 본 출원의 실시예에 따른 오디오 처리 시스템의 구성 구조의 개략도이다. 오디오 처리 시스템(100)은 오디오 인코딩 장치(101) 및 오디오 디코딩 장치(102)를 포함할 수 있다. 오디오 인코딩 장치(101)는 비트스트림을 생성하도록 구성될 수 있고, 그 후 오디오 인코딩된 비트스트림이 오디오 송신 채널을 통해 오디오 디코딩 장치(102)에 송신될 수 있다. 오디오 디코딩 장치(102)는 비트스트림을 수신하고, 그 후 오디오 디코딩 장치(102)의 오디오 디코딩 기능을 수행하여, 최종적으로 재구성된 신호를 획득할 수 있다.
본 출원의 이 실시예에서, 오디오 인코딩 장치는 오디오 통신을 필요로 하는 다양한 단말 디바이스들, 및 트랜스코딩을 필요로 하는 무선 디바이스들 및 코어 네트워크 디바이스들에서 사용될 수 있다. 예를 들어, 오디오 인코딩 장치는 전술한 단말 디바이스, 무선 디바이스, 또는 코어 네트워크 디바이스의 오디오 인코더일 수 있다. 유사하게, 오디오 디코딩 장치는 오디오 통신을 필요로 하는 다양한 단말 디바이스들, 및 트랜스코딩을 필요로 하는 무선 디바이스들 및 코어 네트워크 디바이스들에서 사용될 수 있다. 예를 들어, 오디오 디코딩 장치는 전술한 단말 디바이스, 무선 디바이스, 또는 코어 네트워크 디바이스의 오디오 디코더일 수 있다. 예를 들어, 오디오 인코더는 라디오 액세스 네트워크, 코어 네트워크의 미디어 게이트웨이, 트랜스코딩 디바이스, 미디어 자원 서버, 모바일 단말, 및 고정 네트워크 단말을 포함할 수 있다. 오디오 인코더는 또한 가상 현실(virtual reality, VR) 스트리밍(streaming) 미디어 서비스에 적용되는 오디오 코덱일 수 있다.
본 출원의 이 실시예에서, 가상 현실 스트리밍(VR 스트리밍) 미디어 서비스에 적용가능한 오디오 인코딩 및 디코딩 모듈(오디오 인코딩 및 오디오 디코딩)이 예로서 사용된다. 종단간 오디오 신호 처리 절차는: 오디오 신호 A가 취득 모듈(취득)을 통과한 후에 오디오 신호 A에 대해 전처리 동작(오디오 전처리)을 수행하는 단계 - 전처리 동작은 신호의 저주파수 부분을 필터링하는 것을 포함하고, 20Hz 또는 50Hz를 경계 포인트로서 사용하여 신호로부터 방향 정보를 추출하는 것일 수 있음 -; 및 다음으로 인코딩(오디오 인코딩) 및 캡슐화(파일/세그먼트 캡슐화)를 수행하고, 다음으로 캡슐화된 신호를 디코더에 전송(전달)하는 단계 - 디코더는 먼저 탈캡슐화(파일/세그먼트 탈캡슐화)를 수행하고, 다음으로 디코딩(오디오 디코딩)을 수행하고, 디코딩된 신호에 대해 바이노럴 렌더링(binaural rendering)(오디오 렌더링)을 수행하고, 렌더링된 신호를 청취자의 헤드셋(헤드폰들)에 매핑하는데, 헤드셋은 안경 디바이스 상의 독립적인 헤드셋 또는 헤드셋일 수 있음 - 를 포함한다.
도 2a는 본 출원의 실시예에 따라 오디오 인코더 및 오디오 디코더가 사용되는 단말 디바이스들의 개략도이다. 각각의 단말 디바이스는 오디오 인코더, 채널 인코더, 오디오 디코더, 및 채널 디코더를 포함할 수 있다. 구체적으로, 채널 인코더는 오디오 신호에 대해 채널 인코딩을 수행하도록 구성되고, 채널 디코더는 오디오 신호에 대해 채널 디코딩을 수행하도록 구성된다. 예를 들어, 제1 단말 디바이스(20)는 제1 오디오 인코더(201), 제1 채널 인코더(202), 제1 오디오 디코더(203), 및 제1 채널 디코더(204)를 포함할 수 있다. 제2 단말 디바이스(21)는 제2 오디오 디코더(211), 제2 채널 디코더(212), 제2 오디오 인코더(213), 및 제2 채널 인코더(214)를 포함할 수 있다. 제1 단말 디바이스(20)는 무선 또는 유선 제1 네트워크 통신 디바이스(22)에 접속되고, 제1 네트워크 통신 디바이스(22)는 디지털 채널을 통해 무선 또는 유선 제2 네트워크 통신 디바이스(23)에 접속되고, 제2 단말 디바이스(21)는 무선 또는 유선 제2 네트워크 통신 디바이스(23)에 접속된다. 무선 또는 유선 네트워크 통신 디바이스는 일반적으로 신호 송신 디바이스, 예를 들어, 통신 기지국 또는 데이터 스위칭 디바이스일 수 있다.
오디오 통신에서, 송신기로서 역할을 하는 단말 디바이스는 먼저 오디오 취득을 수행하고, 취득된 오디오 신호에 대해 오디오 인코딩을 수행하고, 다음으로 채널 인코딩을 수행하고, 인코딩된 오디오 신호를 무선 네트워크 또는 코어 네트워크를 사용하여 디지털 채널 상에서 송신한다. 수신기로서 역할을 하는 단말 디바이스는 수신된 신호에 기초하여 채널 디코딩을 수행하여 비트스트림을 획득하고, 그 후 오디오 디코딩을 통해 오디오 신호를 복원한다. 수신기로서 역할을 하는 단말 디바이스는 오디오 재생을 수행한다.
도 2b는 본 출원의 실시예에 따른 오디오 인코더가 사용되는 무선 디바이스 또는 코어 네트워크 디바이스의 개략도이다. 무선 디바이스 또는 코어 네트워크 디바이스(25)는 채널 디코더(251), 또 다른 오디오 디코더(252), 본 출원의 이 실시예에서 제공되는 오디오 인코더(253), 및 채널 인코더(254)를 포함한다. 또 다른 오디오 디코더(252)는 오디오 디코더 이외의 오디오 디코더이다. 무선 디바이스 또는 코어 네트워크 디바이스(25)에서, 채널 디코더(251)는 먼저 디바이스에 진입하는 신호에 대해 채널 디코딩을 수행하고, 다음으로 또 다른 오디오 디코더(252)는 오디오 디코딩을 수행하며, 다음으로 본 출원의 이 실시예에서 제공되는 오디오 인코더(253)는 오디오 인코딩을 수행하고, 마지막으로 채널 인코더(254)는 오디오 신호에 대해 채널 인코딩을 수행한다. 채널 인코딩이 완료된 후에, 채널 인코딩된 오디오 신호가 송신된다. 또 다른 오디오 디코더(252)는 채널 디코더(251)에 의해 디코딩된 비트스트림에 대해 오디오 디코딩을 수행한다.
도 2c는 본 출원의 실시예에 따른 오디오 디코더가 사용되는 무선 디바이스 또는 코어 네트워크 디바이스의 개략도이다. 무선 디바이스 또는 코어 네트워크 디바이스(25)는 채널 디코더(251), 본 출원의 이 실시예에서 제공되는 오디오 디코더(255), 또 다른 오디오 인코더(256), 및 채널 인코더(254)를 포함한다. 또 다른 오디오 인코더(256)는 오디오 인코더 이외의 오디오 인코더이다. 무선 디바이스 또는 코어 네트워크 디바이스(25)에서, 채널 디코더(251)는 먼저 디바이스에 진입하는 신호에 대해 채널 디코딩을 수행하고, 다음으로 오디오 디코더(255)는 수신된 오디오 인코딩된 비트스트림을 디코딩하며, 다음으로 또 다른 오디오 인코더(256)는 오디오 인코딩을 수행하고, 마지막으로 채널 인코더(254)는 오디오 신호에 대해 채널 인코딩을 수행한다. 채널 인코딩이 완료된 후에, 채널 인코딩된 오디오 신호가 송신된다. 무선 디바이스 또는 코어 네트워크 디바이스에서, 트랜스코딩이 구현될 필요가 있는 경우, 대응하는 오디오 인코딩 및 디코딩 처리가 수행될 필요가 있다. 무선 디바이스는 통신 중인 무선 주파수 관련 디바이스이고, 코어 네트워크 디바이스는 통신 중인 코어 네트워크 관련 디바이스이다.
본 출원의 일부 실시예들에서, 오디오 인코딩 장치는 오디오 통신을 필요로 하는 다양한 단말 디바이스들, 및 트랜스코딩을 필요로 하는 무선 디바이스들 및 코어 네트워크 디바이스들에서 사용될 수 있다. 예를 들어, 오디오 인코딩 장치는 전술한 단말 디바이스, 무선 디바이스, 또는 코어 네트워크 디바이스의 다채널 인코더일 수 있다. 유사하게, 오디오 디코딩 장치는 오디오 통신을 필요로 하는 다양한 단말 디바이스들, 및 트랜스코딩을 필요로 하는 무선 디바이스들 및 코어 네트워크 디바이스들에서 사용될 수 있다. 예를 들어, 오디오 디코딩 장치는 전술한 단말 디바이스, 무선 디바이스, 또는 코어 네트워크 디바이스의 다채널 디코더일 수 있다.
도 3a는 본 출원의 실시예에 따른 다채널 인코더 및 다채널 디코더가 사용되는 단말 디바이스들의 개략도이다. 각각의 단말 디바이스는 다채널 인코더, 채널 인코더, 다채널 디코더, 및 채널 디코더를 포함할 수 있다. 다채널 인코더는 본 출원의 실시예에서 제공되는 오디오 인코딩 방법을 수행할 수 있고, 다채널 디코더는 본 출원의 실시예에서 제공되는 오디오 디코딩 방법을 수행할 수 있다. 구체적으로, 채널 인코더는 다채널 신호에 대해 채널 인코딩을 수행하기 위해 사용되고, 채널 디코더는 다채널 신호에 대해 채널 디코딩을 수행하기 위해 사용된다. 예를 들어, 제1 단말 디바이스(30)는, 제1 다채널 인코더(301), 제1 채널 인코더(302), 제1 다채널 디코더(303), 및 제1 채널 디코더(304)를 포함할 수 있다. 제2 단말 디바이스(31)는 제2 다채널 디코더(311), 제2 채널 디코더(312), 제2 다채널 인코더(313), 및 제2 채널 인코더(314)를 포함할 수 있다. 제1 단말 디바이스(30)는 무선 또는 유선 제1 네트워크 통신 디바이스(32)에 접속되고, 제1 네트워크 통신 디바이스(32)는 디지털 채널을 통해 무선 또는 유선 제2 네트워크 통신 디바이스(33)에 접속되고, 제2 단말 디바이스(31)는 무선 또는 유선 제2 네트워크 통신 디바이스(33)에 접속된다. 무선 또는 유선 네트워크 통신 디바이스는 일반적으로 신호 송신 디바이스, 예를 들어, 통신 기지국 또는 데이터 스위칭 디바이스일 수 있다. 오디오 통신에서, 송신기로서 역할을 하는 단말 디바이스는 취득된 다채널 신호에 대해 다채널 인코딩을 수행하고, 다음으로 채널 인코딩을 수행하고, 무선 네트워크 또는 코어 네트워크를 사용하여 디지털 채널 상에서 인코딩된 다채널 신호를 송신한다. 수신기로서 역할을 하는 단말 디바이스는 수신된 신호에 기초하여 채널 디코딩을 수행하여 다채널 신호 인코딩된 비트스트림을 획득한 다음, 다채널 디코딩을 통해 다채널 신호를 복원한다. 수신기로서 역할하는 단말 디바이스는 재생을 수행한다.
도 3b는 본 출원의 실시예에 따른 다채널 인코더가 사용되는 무선 디바이스 또는 코어 네트워크 디바이스의 개략도이다. 무선 디바이스 또는 코어 네트워크 디바이스(35)는 채널 디코더(351), 또 다른 오디오 디코더(352), 다채널 인코더(353), 및 채널 인코더(354)를 포함한다. 도 3b는 도 2b와 유사하고, 상세사항들은 여기서 다시 설명되지 않는다.
도 3c는 본 출원의 실시예에 따른 다채널 디코더가 사용되는 무선 디바이스 또는 코어 네트워크 디바이스의 개략도이다. 무선 디바이스 또는 코어 네트워크 디바이스(35)는 채널 디코더(351), 다채널 디코더(355), 또 다른 오디오 인코더(356), 및 채널 인코더(354)를 포함한다. 도 3c는 도 2c와 유사하고, 상세사항들은 여기서 다시 설명되지 않는다.
오디오 인코딩 처리는 다채널 인코더의 일부일 수 있고, 오디오 디코딩 처리는 다채널 디코더의 일부일 수 있다. 예를 들어, 취득된 다채널 신호에 대해 다채널 인코딩을 수행하는 것은: 취득된 다채널 신호를 처리하여 오디오 신호를 획득하는 것, 및 다음으로 본 출원의 실시예들에서 제공되는 방법에 따라 획득된 오디오 신호를 인코딩하는 것일 수 있다. 디코더는 다채널 신호 인코딩된 비트스트림에 기초하여 디코딩하여 오디오 신호를 획득하고, 업믹싱(upmixing) 후에 다채널 신호를 복원한다. 따라서, 본 출원의 실시예들은 또한 단말 디바이스, 무선 디바이스, 또는 코어 네트워크 디바이스 내의 다채널 인코더 및 다채널 디코더에 적용될 수 있다. 무선 디바이스 또는 코어 네트워크 디바이스에서, 트랜스코딩이 구현될 필요가 있는 경우, 대응하는 다채널 인코딩 및 디코딩 처리가 수행될 필요가 있다.
본 출원의 실시예들에서 제공되는 오디오 인코딩 및 디코딩 방법은 오디오 인코딩 방법 및 오디오 디코딩 방법을 포함할 수 있다. 오디오 인코딩 방법은 오디오 인코딩 장치에 의해 수행되고, 오디오 디코딩 방법은 오디오 디코딩 장치에 의해 수행된다. 오디오 인코딩 장치 및 오디오 디코딩 장치는 서로 통신할 수 있다. 이하에서는, 전술한 시스템 아키텍처, 오디오 인코딩 장치, 및 오디오 디코딩 장치에 기초하여, 본 출원의 실시예들에서 제공되는 오디오 인코딩 방법 및 오디오 디코딩 방법을 설명한다. 도 4는 본 출원의 실시예에 따른 오디오 인코딩 장치와 오디오 디코딩 장치 사이의 상호작용의 도식적 흐름도이다. 다음의 단계들 401 내지 403은 오디오 인코딩 장치(인코더라고 지칭됨)에 의해 수행될 수 있고, 다음의 단계들 411 내지 413은 오디오 디코딩 장치(디코더라고 지칭됨)에 의해 수행될 수 있다. 다음의 프로세스가 주로 포함된다.
401: 제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택한다.
인코더는 제1 장면 오디오 신호를 획득한다. 제1 장면 오디오 신호는 공간 내의 마이크로폰의 로케이션에서 음장으로부터 취득되는 오디오 신호이고, 제1 장면 오디오 신호는 또한 오리지널 장면 내의 오디오 신호라고 지칭될 수 있다. 예를 들어, 제1 장면 오디오 신호는 고차 앰비소닉스(higher order ambisonics, HOA) 기술을 사용하여 획득된 오디오 신호일 수 있다.
본 출원의 이 실시예에서, 가상 스피커 세트가 인코더에 대해 미리 구성될 수 있다. 가상 스피커 세트는 복수의 가상 스피커를 포함할 수 있다. 실제 재생 동안, 장면 오디오 신호는 헤드셋을 사용하여 재생될 수 있거나, 또는 방에 배열된 복수의 스피커를 사용하여 재생될 수 있다. 스피커들이 재생을 위해 사용될 때, 기본 방법은 복수의 스피커의 신호들을 중첩하여, 공간 내의 포인트(청취자의 로케이션)에서의 음장이 장면 오디오 신호가 기록될 때의 표준 하의 오리지널 음장에 가능한 한 가깝게 하도록 하는 것이다. 본 출원의 이 실시예에서, 가상 스피커가 장면 오디오 신호에 대응하는 재생 신호를 계산하기 위해 사용되고, 재생 신호가 송신 신호로서 사용되고, 압축된 신호가 생성된다. 가상 스피커는 가상 방식으로 공간 내의 음장에 존재하는 스피커를 나타내고, 가상 스피커는 인코더에서 장면 오디오 신호의 재생을 구현할 수 있다.
본 출원의 이 실시예에서, 가상 스피커 세트는 복수의 가상 스피커를 포함하고, 복수의 가상 스피커 각각은 가상 스피커 구성 파라미터(줄여서 구성 파라미터)에 대응한다. 가상 스피커 구성 파라미터는 가상 스피커들의 양, 가상 스피커의 HOA 차수, 및 가상 스피커의 로케이션 좌표와 같은 정보를 포함하지만, 이들로 제한되지는 않는다. 가상 스피커 세트를 획득한 후에, 인코더는 제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택한다. 제1 장면 오디오 신호는 오리지널 장면에서의 인코딩될 오디오 신호이고, 제1 타깃 가상 스피커는 가상 스피커 세트 내의 가상 스피커일 수 있다. 예를 들어, 제1 타깃 가상 스피커는 미리 구성된 타깃 가상 스피커 선택 정책에 따라 미리 설정된 가상 스피커 세트로부터 선택될 수 있다. 타깃 가상 스피커 선택 정책은 가상 스피커 세트로부터 제1 장면 오디오 신호와 매칭되는 타깃 가상 스피커를 선택하는 정책, 예를 들어 제1 장면 오디오 신호로부터 각각의 가상 스피커에 의해 획득되는 음장 성분에 기초하여 제1 타깃 가상 스피커를 선택하는 정책이다. 또 다른 예로서, 제1 타깃 가상 스피커는 각각의 가상 스피커의 로케이션 정보에 기초하여 제1 장면 오디오 신호로부터 선택된다. 제1 타깃 가상 스피커는 가상 스피커 세트 내에 있고 또한 제1 장면 오디오 신호를 재생하기 위해 사용되는 가상 스피커이고, 즉, 인코더는 가상 스피커 세트로부터, 제1 장면 오디오 신호를 재생할 수 있는 타깃 가상 인코더를 선택할 수 있다.
본 출원의 이 실시예에서, 401에서 제1 타깃 가상 스피커가 선택된 후에, 제1 타깃 가상 스피커에 대한 후속 처리 프로세스, 예를 들어, 후속 단계들 402 내지 405가 수행될 수 있다. 이는 제한되지는 않는다. 본 출원의 이 실시예에서, 제1 타깃 가상 스피커가 선택될 수 있을 뿐만 아니라, 더 많은 타깃 가상 스피커들이 선택될 수 있다. 예를 들어, 제2 타깃 가상 스피커가 선택될 수 있다. 제2 타깃 가상 스피커에 대해, 후속 단계들 402 내지 405와 유사한 프로세스가 또한 수행될 필요가 있다. 상세사항들에 대해서는, 후속 실시예들에서의 설명들을 참조한다.
본 출원의 이 실시예에서, 인코더가 제1 타깃 가상 스피커를 선택한 후에, 인코더는 제1 타깃 가상 스피커의 속성 정보를 추가로 획득할 수 있다. 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커의 속성에 관련된 정보를 포함한다. 속성 정보는 특정 애플리케이션 시나리오에 좌우되어 설정될 수 있다. 예를 들어, 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커의 로케이션 정보 또는 제1 타깃 가상 스피커에 대한 HOA 계수를 포함한다. 제1 타깃 가상 스피커의 로케이션 정보는 공간 내에서의 제1 타깃 가상 스피커의 분포 로케이션에 관한 정보일 수 있거나, 또는 또 다른 가상 스피커에 대한 가상 스피커 세트 내의 제1 타깃 가상 스피커의 로케이션에 관한 정보일 수 있다. 이것은 본 명세서에서 구체적으로 제한되지는 않는다. 가상 스피커 세트 내의 각각의 가상 스피커는 HOA 계수에 대응하고, HOA 계수는 앰비소닉 계수(ambisonic coefficient)라고도 지칭될 수 있다. 이하에서는 가상 스피커에 대한 HOA 계수를 설명한다.
예를 들어, HOA 차수는 차수 2 내지 10 중 하나일 수 있다. 오디오 신호가 기록될 때, 신호 샘플링 레이트는 48 내지 192 킬로헤르츠(kHz)이고, 샘플링 깊이는 16 또는 24 비트(bit)이다. HOA 신호는 가상 스피커에 대한 HOA 계수 및 장면 오디오 신호에 기초하여 생성될 수 있다. HOA 신호는 음장을 갖는 공간에 관한 정보를 특징으로 하고, HOA 신호는 공간 내의 한 포인트에서의 음장 신호의 특정 정밀도를 기술하는 정보이다. 따라서, 로케이션 포인트의 음장 신호를 설명하기 위해 또 다른 표현 형태가 사용되는 것이 고려될 수 있다. 이 설명 방법에서, 공간 내의 로케이션 포인트의 신호는, 신호 압축의 목적을 달성하기 위해, 더 적은 양의 데이터를 사용함으로써 동일한 정밀도로 기술될 수 있다. 공간 내의 음장은 복수의 평면파의 중첩이 되도록 분해될 수 있다. 따라서, 이론적으로, HOA 신호에 의해 표현되는 음장은 복수의 평면파의 중첩을 사용하여 표현될 수 있고, 각각의 평면파는 하나의 사운드 채널 상의 오디오 신호 및 방향 벡터를 사용하여 표현된다. 중첩된 평면파들의 표현 형태는, 신호 압축의 목적을 달성하기 위해, 더 적은 사운드 채널들을 사용함으로써 오리지널 음장을 정확하게 표현할 수 있다.
본 출원의 일부 실시예들에서, 인코더에 의해 수행하는 것(401)에 더하여, 본 출원의 이 실시예에서 제공되는 오디오 인코딩 방법은 다음의 단계를 추가로 포함한다:
A1: 가상 스피커 세트에 기초하여 제1 장면 오디오 신호로부터 주요 음장 성분을 획득하는 단계.
A1에서의 주요 음장 성분은 제1 주요 음장 성분이라고도 지칭될 수 있다.
A1이 수행될 때, (401)에서 제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하는 단계는 다음을 포함한다:
B1: 주요 음장 성분에 기초하여 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하는 단계.
인코더는 가상 스피커 세트를 획득하고, 인코더는 가상 스피커 세트를 사용하여 제1 장면 오디오 신호에 대해 신호 분해를 수행하여, 제1 장면 오디오 신호에 대응하는 주요 음장 성분을 획득한다. 주요 음장 성분은 제1 장면 오디오 신호에서의 주요 음장에 대응하는 오디오 신호를 나타낸다. 예를 들어, 가상 스피커 세트는 복수의 가상 스피커를 포함하고, 복수의 음장 성분은 복수의 가상 스피커에 기초하여 제1 장면 오디오 신호로부터 획득될 수 있는데, 즉 각각의 가상 스피커는 제1 장면 오디오 신호로부터 하나의 음장 성분을 획득할 수 있고, 다음으로 주요 음장 성분이 복수의 음장 성분으로부터 선택된다. 예를 들어, 주요 음장 성분은 복수의 음장 성분 중에서 최대 값을 갖는 하나 이상의 음장 성분일 수 있고, 주요 음장 성분은 대안적으로 복수의 음장 성분 중에서 우세 방향을 갖는 하나 이상의 음장 성분일 수 있다. 가상 스피커 세트 내의 각각의 가상 스피커는 음장 성분에 대응하고, 제1 타깃 가상 스피커는 주요 음장 성분에 기초하여 가상 스피커 세트로부터 선택된다. 예를 들어, 주요 음장 성분에 대응하는 가상 스피커는 인코더에 의해 선택된 제1 타깃 가상 스피커이다. 본 출원의 이 실시예에서, 인코더가 제1 타깃 가상 스피커를 결정할 필요가 있는 문제를 해결하기 위해, 인코더는 주요 음장 성분에 기초하여 제1 타깃 가상 스피커를 선택할 수 있다.
본 출원의 이 실시예에서, 인코더는 복수의 방식으로 제1 타깃 가상 스피커를 선택할 수 있다. 예를 들어, 인코더는 특정된 로케이션에 있는 가상 스피커를 제1 타깃 가상 스피커로서 미리 설정할 수 있는데, 즉, 가상 스피커 세트 내의 각각의 가상 스피커의 로케이션에 기초하여, 특정된 로케이션을 만족하는 가상 스피커를 제1 타깃 가상 스피커로서 선택할 수 있다. 이는 제한되지는 않는다.
본 출원의 일부 실시예들에서, B1의 주요 음장 성분에 기초하여 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하는 단계는:
주요 음장 성분에 기초하여 HOA(higher order ambisonics) 계수 세트로부터 주요 음장 성분에 대한 HOA 계수를 선택하는 단계 - HOA 계수 세트에서의 HOA 계수들은 가상 스피커 세트 내의 가상 스피커들과 일대일 대응관계에 있음 -; 및
가상 스피커 세트에서의 주요 음장 성분에 대한 HOA 계수에 대응하는 가상 스피커를 제1 타깃 가상 스피커로서 결정하는 단계를 포함한다.
인코더는 가상 스피커 세트에 기초하여 HOA 계수 세트를 미리 구성하는데, HOA 계수 세트 내의 HOA 계수들과 가상 스피커 세트 내의 가상 스피커들 사이에 일대일 대응관계가 있다. 따라서, HOA 계수가 주요 음장 성분에 기초하여 선택된 후에, 가상 스피커 세트는, 일대일 대응관계에 기초하여, 주요 음장 성분에 대한 HOA 계수에 대응하는 타깃 가상 스피커에 대해 검색되고, 발견된 타깃 가상 스피커는 제1 타깃 가상 스피커이다. 이는 인코더가 제1 타깃 가상 스피커를 결정할 필요가 있는 문제를 해결한다. 예를 들어, HOA 계수 세트가 HOA 계수 1, HOA 계수 2, 및 HOA 계수 3을 포함하고, 가상 스피커 세트가 가상 스피커 1, 가상 스피커 2, 및 가상 스피커 3을 포함한다. HOA 계수 세트 내의 HOA 계수들은 가상 스피커 세트 내의 가상 스피커들과 일대일 대응관계에 있다. 예를 들어, HOA 계수 1은 가상 스피커 1에 대응하고, HOA 계수 2는 가상 스피커 2에 대응하며, HOA 계수 3은 가상 스피커 3에 대응한다. HOA 계수 3이 주요 음장 성분에 기초하여 HOA 계수 세트로부터 선택되는 경우, 제1 타깃 가상 스피커가 가상 스피커 3인 것으로 결정될 수 있다.
본 출원의 일부 실시예들에서, B1의 주요 음장 성분에 기초하여 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하는 것은:
C1: 주요 음장 성분에 기초하여 제1 타깃 가상 스피커의 구성 파라미터를 획득하는 것;
C2: 제1 타깃 가상 스피커의 구성 파라미터에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 생성하는 것; 및
C3: 가상 스피커 세트 내의 제1 타깃 가상 스피커에 대한 HOA 계수에 대응하는 가상 스피커를 제1 타깃 가상 스피커로서 결정하는 것을 추가로 포함한다.
주요 음장 성분을 획득한 후에, 인코더는 주요 음장 성분에 기초하여 제1 타깃 가상 스피커의 구성 파라미터를 결정할 수 있다. 예를 들어, 주요 음장 성분은 복수의 음장 성분 중에서 가장 큰 값을 갖는 하나 이상의 음장 성분이거나, 또는 주요 음장 성분은 복수의 음장 성분 중에서 우세 방향을 갖는 하나 이상의 음장 성분일 수 있다. 주요 음장 성분은 제1 장면 오디오 신호와 매칭되는 제1 타깃 가상 스피커를 결정하기 위해 사용될 수 있고, 대응하는 속성 정보가 제1 타깃 가상 스피커에 대해 구성되고, 제1 타깃 가상 스피커에 대한 HOA 계수가 제1 타깃 가상 스피커의 구성 파라미터에 기초하여 생성될 수 있다. HOA 계수를 생성하는 프로세스는 HOA 알고리즘을 사용하여 구현될 수 있고, 상세사항은 여기서 다시 기술되지 않는다. 가상 스피커 세트 내의 각각의 가상 스피커는 HOA 계수에 대응한다. 따라서, 인코더가 제1 타깃 가상 스피커를 결정할 필요가 있는 문제를 해결하기 위해, 각각의 가상 스피커에 대한 HOA 계수에 기초하여 제1 타깃 가상 스피커가 가상 스피커 세트로부터 선택될 수 있다.
본 출원의 일부 실시예들에서, C1에서의 주요 음장 성분에 기초하여 제1 타깃 가상 스피커의 구성 파라미터를 획득하는 것은:
오디오 인코더의 구성 정보에 기초하여 가상 스피커 세트 내의 복수의 가상 스피커의 구성 파라미터들을 결정하는 것; 및
주요 음장 성분에 기초하여 복수의 가상 스피커의 구성 파라미터들로부터 제1 타깃 가상 스피커의 구성 파라미터를 선택하는 것을 포함한다.
오디오 인코더는 복수의 가상 스피커의 구성 파라미터들을 미리 저장할 수 있고, 각각의 가상 스피커의 구성 파라미터는 오디오 인코더의 구성 정보를 사용하여 결정될 수 있다. 오디오 인코더는 전술한 인코더를 지칭하고, 오디오 인코더의 구성 정보는 HOA 차수 및 인코딩 비트 레이트를 포함하지만 이에 제한되지는 않는다. 오디오 인코더의 구성 정보는, 인코더가 가상 스피커의 구성 파라미터를 결정할 필요가 있는 문제를 해결하기 위해, 가상 스피커들의 양 및 각각의 가상 스피커의 로케이션 파라미터를 결정하기 위해 사용될 수 있다. 예를 들어, 인코딩 비트 레이트가 낮은 경우, 소량의 가상 스피커들이 구성될 수 있고; 또는, 인코딩 비트 레이트가 높은 경우, 대량의 가상 스피커들이 구성될 수 있다. 또 다른 예로서, 가상 스피커의 HOA 차수는 오디오 인코더의 HOA 차수와 동일할 수 있다. 본 출원의 이 실시예에서, 오디오 인코더의 구성 정보를 사용함으로써 복수의 가상 스피커의 구성 파라미터들을 결정하는 것에 더하여, 복수의 가상 스피커의 구성 파라미터들은 사용자 정의 정보에 기초하여 추가로 결정될 수 있다. 예를 들어, 사용자는 가상 스피커의 로케이션, HOA 차수, 및 가상 스피커들의 양을 정의할 수 있다. 이는 제한되지는 않는다.
인코더는 가상 스피커 세트로부터 복수의 가상 스피커의 구성 파라미터들을 획득한다. 각각의 가상 스피커에 대해, 대응하는 가상 스피커 구성 파라미터가 존재하고, 각각의 가상 스피커 구성 파라미터는 가상 스피커의 HOA 차수 및 가상 스피커의 로케이션 좌표와 같은 정보를 포함하지만 이들에 제한되지는 않는다. 각각의 가상 스피커의 구성 파라미터는 가상 스피커에 대한 HOA 계수를 생성하기 위해 사용될 수 있다. HOA 계수를 생성하는 프로세스는 HOA 알고리즘을 사용하여 구현될 수 있고, 상세사항은 여기서 다시 기술되지 않는다. HOA 계수가 가상 스피커 세트 내의 각각의 가상 스피커에 대해 생성되고, 가상 스피커 세트 내의 모든 가상 스피커들에 대해 제각기 구성된 HOA 계수들이 HOA 계수 세트를 형성하여, 인코더가 가상 스피커 세트 내의 각각의 가상 스피커에 대한 HOA 계수를 결정할 필요가 있는 문제를 해결한다.
본 출원의 일부 실시예들에서, 제1 타깃 가상 스피커의 구성 파라미터는 제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보를 포함한다.
C2에서의 제1 타깃 가상 스피커의 구성 파라미터에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 생성하는 것은:
제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 결정하는 것을 포함한다.
가상 스피커 세트 내의 각각의 가상 스피커의 구성 파라미터는 가상 스피커의 로케이션 정보 및 가상 스피커의 HOA 차수 정보를 포함할 수 있다. 유사하게, 제1 타깃 가상 스피커의 구성 파라미터는 제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보를 포함한다. 예를 들어, 가상 스피커 세트 내의 각각의 가상 스피커의 로케이션 정보는 국소적 등거리 가상 스피커 공간 분포 방식에 따라 결정될 수 있다. 국소적 등거리 가상 스피커 공간 분포 방식은 복수의 가상 스피커가 국소적 등거리 방식으로 공간에 분포되는 것을 의미한다. 예를 들어, 국소적 등거리 방식은 균일한 분포 또는 불균일한 분포를 포함할 수 있다. 각각의 가상 스피커의 로케이션 정보와 HOA 차수 정보 둘 모두는 가상 스피커에 대한 HOA 계수를 생성하는데 이용될 수 있다. HOA 계수를 생성하는 프로세스는 HOA 알고리즘을 사용하여 구현될 수 있다. 이는 인코더가 제1 타깃 가상 스피커에 대한 HOA 계수를 결정할 필요가 있는 문제를 해결한다.
게다가, 본 출원의 이 실시예에서, HOA 계수들의 그룹은 가상 스피커 세트 내의 각각의 가상 스피커에 대해 생성되고, HOA 계수들의 복수의 그룹은 전술한 HOA 계수 세트를 형성한다. 가상 스피커 세트 내의 모든 가상 스피커들에 대해 제각기 구성된 HOA 계수들은 HOA 계수 세트를 형성하여, 인코더가 가상 스피커 세트 내의 각각의 가상 스피커에 대한 HOA 계수를 결정할 필요가 있는 문제를 해결한다.
402: 제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 제1 가상 스피커 신호를 생성한다.
인코더가 제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보를 획득한 후에, 인코더는 제1 장면 오디오 신호를 재생할 수 있고, 인코더는 제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 제1 가상 스피커 신호를 생성한다. 제1 가상 스피커 신호는 제1 장면 오디오 신호의 재생 신호이다. 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커의 속성에 관련된 정보를 기술한다. 제1 타깃 가상 스피커는 인코더에 의해 선택되고 또한 제1 장면 오디오 신호를 재생할 수 있는 가상 스피커이다. 따라서, 제1 장면 오디오 신호는 제1 타깃 가상 스피커의 속성 정보를 사용하여 재생되어, 제1 가상 스피커 신호를 획득하게 된다. 제1 가상 스피커 신호의 데이터 양은 제1 장면 오디오 신호의 사운드 채널들의 양과 관련되지 않고, 제1 가상 스피커 신호의 데이터 양은 제1 타깃 가상 스피커와 관련된다. 예를 들어, 본 출원의 이 실시예에서, 제1 장면 오디오 신호와 비교하여, 제1 가상 스피커 신호는 더 적은 사운드 채널들을 사용하여 표현된다. 예를 들어, 제1 장면 오디오 신호는 3차 HOA 신호이고, HOA 신호는 16개의 사운드 채널을 갖는다. 본 출원의 이 실시예에서, 16개의 사운드 채널은 4개의 사운드 채널이 되도록 압축될 수 있다. 4개의 사운드 채널은 인코더에 의해 생성되는 가상 스피커 신호에 의해 점유되는 2개의 사운드 채널 및 잔차 신호에 의해 점유되는 2개의 사운드 채널을 포함한다. 예를 들어, 인코더에 의해 생성되는 가상 스피커 신호는 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 포함할 수 있고, 인코더에 의해 생성되는 가상 스피커 신호의 사운드 채널들의 양은 제1 장면 오디오 신호의 사운드 채널들의 양과 관련되지 않는다. 후속 단계들에서의 설명으로부터, 비트스트림은 2개의 사운드 채널 상의 가상 스피커 신호들 및 2개의 사운드 채널 상의 잔차 신호들을 운반할 수 있다는 것을 알 수 있다. 대응하여, 디코더는 비트스트림을 수신하고, 비트스트림을 디코딩하여 2개의 사운드 채널 상의 가상 스피커 신호들 및 2개의 사운드 채널 상의 잔차 신호들을 획득한다. 디코더는 2개의 사운드 채널 상의 가상 스피커 신호들 및 2개의 사운드 채널 상의 잔차 신호들을 사용함으로써 16개의 사운드 채널 상의 장면 오디오 신호들을 재구성할 수 있다. 이는 재구성된 장면 오디오 신호가 오리지널 장면 내의 오디오 신호와 비교할 때 동등한 주관적 및 객관적 품질을 갖는 것을 보장한다.
전술한 단계들 401 및 402는 공간 인코더, 예를 들어, 동화상 전문가 그룹(moving picture experts group, MPEG) 공간 인코더를 사용하여 구체적으로 구현될 수 있다는 점이 이해될 수 있다.
본 출원의 일부 실시예들에서, 제1 장면 오디오 신호는 인코딩될 HOA 신호를 포함할 수 있고, 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커에 대한 HOA 계수를 포함한다.
402에서 제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 제1 가상 스피커 신호를 생성하는 단계는:
인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 제1 가상 스피커 신호를 획득하는 단계를 포함한다.
제1 장면 오디오 신호가 인코딩될 HOA 신호인 예가 사용된다. 인코더는 먼저 제1 타깃 가상 스피커에 대한 HOA 계수를 결정한다. 예를 들어, 인코더는 주요 음장 성분에 기초하여 HOA 계수 세트로부터 HOA 계수를 선택하고, 선택된 HOA 계수는 제1 타깃 가상 스피커에 대한 HOA 계수이다. 인코더가 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수를 획득한 후에, 제1 가상 스피커 신호가 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 기초하여 생성될 수 있다. 인코딩될 HOA 신호는 제1 타깃 가상 스피커에 대한 HOA 계수를 사용하여 선형 조합을 수행함으로써 획득될 수 있고, 제1 가상 스피커 신호의 해결(solving)은 선형 조합의 해결이 되도록 변환될 수 있다.
예를 들어, 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커에 대한 HOA 계수를 포함할 수 있다. 인코더는 제1 타깃 가상 스피커의 속성 정보를 디코딩함으로써 제1 타깃 가상 스피커에 대한 HOA 계수를 획득할 수 있다. 인코더는 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행한다. 다시 말해서, 인코더는 인코딩될 HOA 신호와 제1 타깃 가상 스피커에 대한 HOA 계수를 함께 조합하여 선형 조합 행렬을 획득한다. 그 후, 인코더는 선형 조합 행렬의 최적 해를 획득할 수 있고, 획득된 최적 해는 제1 가상 스피커 신호이다. 최적 해는 선형 조합 행렬을 풀기 위해 사용되는 알고리즘과 관련된다. 본 출원의 이 실시예는 인코더가 제1 가상 스피커 신호를 생성할 필요가 있다는 문제를 해결한다.
본 출원의 일부 실시예들에서, 제1 장면 오디오 신호는 인코딩될 HOA(higher order ambisonics) 신호를 포함하고, 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커의 로케이션 정보를 포함한다.
402에서 제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 제1 가상 스피커 신호를 생성하는 것은:
제1 타깃 가상 스피커의 로케이션 정보에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 획득하는 것; 및
인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 제1 가상 스피커 신호를 획득하는 것을 포함한다.
제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커의 로케이션 정보를 포함할 수 있다. 인코더는 가상 스피커 세트 내의 각각의 가상 스피커에 대한 HOA 계수를 미리 저장한다. 인코더는 각각의 가상 스피커의 로케이션 정보를 추가로 저장한다. 가상 스피커의 로케이션 정보와 가상 스피커에 대한 HOA 계수 사이의 대응관계가 있다. 따라서, 인코더는 제1 타깃 가상 스피커의 로케이션 정보에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 결정할 수 있다. 속성 정보가 HOA 계수를 포함하는 경우, 인코더는 제1 타깃 가상 스피커의 속성 정보를 디코딩함으로써 제1 타깃 가상 스피커에 대한 HOA 계수를 획득할 수 있다.
인코더가 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수를 획득한 후에, 인코더는 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행한다. 다시 말해서, 인코더는 인코딩될 HOA 신호와 제1 타깃 가상 스피커에 대한 HOA 계수를 함께 조합하여 선형 조합 행렬을 획득한다. 그 후, 인코더는 선형 조합 행렬의 최적 해를 획득할 수 있고, 획득된 최적 해는 제1 가상 스피커 신호이다.
예를 들어, 제1 타깃 가상 스피커에 대한 HOA 계수는 행렬 A로 표현되고, 인코딩될 HOA 신호는 행렬 A를 사용하여 선형 조합을 통해 획득될 수 있다. 이론적 최적 해 w, 즉 제1 가상 스피커 신호는 최소 제곱법을 사용하여 획득될 수 있다. 예를 들어, 다음의 계산 공식이 사용될 수 있다:
, 여기서
은 행렬 A의 역행렬을 나타내고, 행렬 A의 크기는 (M × C)이고, C는 제1 타깃 가상 스피커들의 수량이고, M은 N차 HOA 계수의 사운드 채널들의 수량이고, a는 제1 타깃 가상 스피커에 대한 HOA 계수이다. 예를 들어,
X는 인코딩될 HOA 신호를 나타내고, 행렬 X의 크기는 (M × L)이며, M은 N차 HOA 계수의 사운드 채널들의 수량이고, L은 샘플링 포인트들의 수량이며, x는 인코딩될 HOA 신호에 대한 계수를 나타낸다. 예를 들어,
본 출원의 이 실시예에서, 디코더가 인코더로부터 제1 가상 스피커 신호를 정확하게 획득할 수 있도록 하기 위해서, 인코더는 이하의 단계들(403 및 404)을 추가로 수행하여 잔차 신호를 생성할 수 있다.
403: 제1 타깃 가상 스피커의 속성 정보 및 제1 가상 스피커 신호를 사용하여 제2 장면 오디오 신호를 획득한다.
인코더는 제1 타깃 가상 스피커의 속성 정보를 획득할 수 있고, 제1 타깃 가상 스피커는 가상 스피커 세트 내에 있고 또한 디코더에서 제1 가상 스피커 신호를 재생하기 위해 사용되는 가상 스피커일 수 있다. 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커의 로케이션 정보 및 제1 타깃 가상 스피커에 대한 HOA 계수를 포함할 수 있다. 인코더가 제1 가상 스피커 신호를 획득한 후에, 인코더는 제1 타깃 가상 스피커의 속성 정보에 기초하여 신호 재구성을 수행하고, 신호 재구성을 통해 제2 장면 오디오 신호를 획득할 수 있다.
본 출원의 일부 실시예들에서, 403에서 제1 타깃 가상 스피커의 속성 정보 및 제1 가상 스피커 신호를 사용하여 제2 장면 오디오 신호를 획득하는 것은:
제1 타깃 가상 스피커에 대한 HOA 계수를 결정하는 것; 및
제1 가상 스피커 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하는 것을 포함한다.
인코더는 먼저 제1 타깃 가상 스피커에 대한 HOA 계수를 결정한다. 예를 들어, 인코더는 제1 타깃 가상 스피커에 대한 HOA 계수를 미리 저장할 수 있다. 제1 가상 스피커 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수를 획득한 후에, 인코더는 제1 가상 스피커 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 기초하여 재구성된 장면 오디오 신호를 생성할 수 있다.
예를 들어, 제1 타깃 가상 스피커에 대한 HOA 계수는 행렬 A로 표현되고, 행렬 A의 크기는 (M × C)이고, C는 제1 타깃 가상 스피커들의 수량이고, M은 N차 HOA 계수의 사운드 채널들의 수량이다. 제1 가상 스피커 신호는 행렬 W로 표현되고, 행렬 W의 크기는 (C × L)이며, 여기서 L은 신호 샘플링 포인트들의 수량을 나타낸다. 재구성된 HOA 신호는 하기의 공식을 사용하여 획득된다:
전술한 계산 공식을 사용하여 획득되는 T는 제2 장면 오디오 신호이다.
404: 제1 장면 오디오 신호 및 제2 장면 오디오 신호에 기초하여 잔차 신호를 생성한다.
본 출원의 이 실시예에서, 인코더는 신호 재구성(국소적 디코딩이라고도 지칭될 수 있음)을 통해 제2 장면 오디오 신호를 획득한다. 제1 장면 오디오 신호는 오리지널 장면 내의 오디오 신호이다. 따라서, 잔차가 제1 장면 오디오 신호 및 제2 장면 오디오 신호에 대해 계산되어, 잔차 신호를 생성할 수 있게 된다. 잔차 신호는 제1 타깃 가상 스피커를 사용하여 생성된 제2 장면 오디오 신호와 오리지널 장면 내의 오디오 신호(즉, 제1 장면 오디오 신호) 사이의 차이를 나타낼 수 있다.
본 출원의 일부 실시예들에서, 제1 장면 오디오 신호 및 제2 장면 오디오 신호에 기초하여 잔차 신호를 생성하는 것은:
제1 장면 오디오 신호 및 제2 장면 오디오 신호에 차이 계산을 수행하여 잔차 신호를 획득하는 것을 포함한다.
제1 장면 오디오 신호 및 제2 장면 오디오 신호 둘 다는 행렬 형태로 표현될 수 있고, 잔차 신호는 2개의 장면 오디오 신호들에 제각기 대응하는 행렬들에 대해 차이 계산을 수행함으로써 획득될 수 있다.
405: 제1 가상 스피커 신호 및 잔차 신호를 인코딩하여 비트스트림을 획득한다.
본 출원의 이 실시예에서, 인코더가 제1 가상 스피커 신호 및 잔차 신호를 생성한 후에, 인코더는 제1 가상 스피커 신호 및 잔차 신호를 인코딩하여 비트스트림을 획득할 수 있다. 예를 들어, 인코더는 구체적으로 코어 인코더일 수 있고, 코어 인코더는 제1 가상 스피커 신호를 인코딩하여 비트스트림을 획득한다. 비트스트림은 오디오-신호-인코딩된 비트스트림이라고도 지칭될 수 있다. 본 출원의 이 실시예에서, 인코더는 제1 가상 스피커 신호 및 잔차 신호를 인코딩하지만, 장면 오디오 신호를 인코딩하지 않는다. 제1 타깃 가상 스피커는, 공간 내의 청취자의 로케이션에서의 음장이 장면 오디오 신호가 기록될 때 오리지널 음장에 가능한 한 가깝도록 선택되어, 인코더의 인코딩 품질을 보장한다. 또한, 제1 가상 스피커 신호의 인코딩된 데이터의 양은 장면 오디오 신호의 사운드 채널들의 양과 관련되지 않으며, 그에 의해 인코딩된 장면 오디오 신호의 데이터의 양을 감소시키고 인코딩 및 디코딩 효율을 개선한다.
본 출원의 일부 실시예들에서, 인코더가 전술한 단계들 401 내지 405를 수행한 후에, 본 출원의 이 실시예에서 제공되는 오디오 인코딩 방법은 다음의 단계를 추가로 포함한다:
제1 타깃 가상 스피커의 속성 정보를 인코딩하고, 인코딩된 정보를 비트스트림에 기입하는 단계.
가상 스피커를 인코딩하는 것에 더하여, 인코더는 또한 제1 타깃 가상 스피커의 속성 정보를 인코딩하고, 제1 타깃 가상 스피커의 인코딩된 속성 정보를 비트스트림에 기입할 수 있다. 이 경우, 획득된 비트스트림은 인코딩된 가상 스피커 및 제1 타깃 가상 스피커의 인코딩된 속성 정보를 포함할 수 있다. 본 출원의 이 실시예에서, 비트스트림은 제1 타깃 가상 스피커의 인코딩된 속성 정보를 운반할 수 있어서, 디코더가 비트스트림을 디코딩함으로써 제1 타깃 가상 스피커의 속성 정보를 결정하여, 디코더에 의한 오디오 디코딩을 용이하게 할 수 있도록 한다.
전술한 단계들 401 내지 405는 가상 스피커 세트로부터 제1 타깃 스피커가 선택될 때 제1 타깃 가상 스피커에 기초하여 제1 가상 스피커 신호를 생성하고, 및 제1 가상 스피커에 기초하여 신호 재구성, 잔차 신호 생성, 및 신호 인코딩을 수행하는 프로세스를 기술한다는 점에 유의해야 한다. 본 출원의 이 실시예에서, 인코더는 제1 타깃 가상 스피커를 선택할 수 있을 뿐만 아니라, 더 많은 타깃 가상 스피커들을 선택할 수 있다. 예를 들어, 인코더는 제2 타깃 가상 스피커를 더 선택할 수 있다. 이는 제한되지는 않는다. 제2 타깃 가상 스피커에 대해, 전술한 단계들 402 내지 405와 유사한 프로세스가 또한 수행될 필요가 있다. 상세사항들은 아래에 설명된다.
본 출원의 일부 실시예들에서, 인코더에 의해 전술한 단계들을 수행하는 것에 더하여, 본 출원의 이 실시예에서 제공되는 오디오 인코딩 방법은 다음을 추가로 포함한다:
D1: 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계;
D2: 제1 장면 오디오 신호 및 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하는 단계; 및
D3: 제2 가상 스피커 신호를 인코딩하고, 인코딩된 신호를 비트스트림에 기입하는 단계.
D1의 구현은 401의 것과 유사하다. 제2 타깃 가상 스피커는 인코더에 의해 선택되고 또한 제1 타깃 가상 인코더와 상이한 또 다른 타깃 가상 스피커이다. 제1 장면 오디오 신호는 오리지널 장면에서의 인코딩될 오디오 신호이고, 제2 타깃 가상 스피커는 가상 스피커 세트 내의 가상 스피커일 수 있다. 예를 들어, 제2 타깃 가상 스피커는 미리 구성된 타깃 가상 스피커 선택 정책에 따라 미리 설정된 가상 스피커 세트로부터 선택될 수 있다. 타깃 가상 스피커 선택 정책은 가상 스피커 세트로부터 제1 장면 오디오 신호와 매칭되는 타깃 가상 스피커를 선택하는 정책, 예를 들어, 제1 장면 오디오 신호로부터 각각의 가상 스피커에 의해 획득되는 음장 성분에 기초하여 제2 타깃 가상 스피커를 선택하는 정책이다.
본 출원의 일부 실시예들에서, 본 출원의 이 실시예에서 제공되는 오디오 인코딩 방법은 다음의 단계를 추가로 포함한다:
E1: 가상 스피커 세트에 기초하여 제1 장면 오디오 신호로부터 제2 주요 음장 성분을 획득하는 단계.
E1이 수행될 때, D1의 제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계는 다음을 포함한다:
F1: 제2 주요 음장 성분에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계.
인코더는 가상 스피커 세트를 획득하고, 인코더는 가상 스피커 세트를 사용하여 제1 장면 오디오 신호에 대해 신호 분해를 수행하여, 제1 장면 오디오 신호에 대응하는 제2 주요 음장 성분을 획득한다. 제2 주요 음장 성분은 제1 장면 오디오 신호에서의 주요 음장에 대응하는 오디오 신호를 나타낸다. 예를 들어, 가상 스피커 세트는 복수의 가상 스피커를 포함하고, 복수의 음장 성분은 복수의 가상 스피커에 기초하여 제1 장면 오디오 신호로부터 획득될 수 있는데, 즉 각각의 가상 스피커는 제1 장면 오디오 신호로부터 하나의 음장 성분을 획득할 수 있고, 그 후 제2 주요 음장 성분은 복수의 음장 성분으로부터 선택된다. 예를 들어, 제2 주요 음장 성분은 복수의 음장 성분 중에서 최대 값을 갖는 하나 이상의 음장 성분일 수 있고, 대안적으로, 제2 주요 음장 성분은 복수의 음장 성분 중에서 우세 방향을 갖는 하나 이상의 음장 성분일 수 있다. 제2 타깃 가상 스피커는 제2 주요 음장 성분에 기초하여 가상 스피커 세트로부터 선택된다. 예를 들어, 제2 주요 음장 성분에 대응하는 가상 스피커는 인코더에 의해 선택된 제2 타깃 가상 스피커이다. 본 출원의 이 실시예에서, 인코더는 주요 음장 성분를 사용함으로써 제2 타깃 가상 스피커를 선택하여, 인코더가 제2 타깃 가상 스피커를 결정할 필요가 있는 문제를 해결할 수 있다.
본 출원의 일부 실시예들에서, F1의 제2 주요 음장 성분에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 것은 다음을 포함한다:
제2 주요 음장 성분에 기초하여 HOA 계수 세트로부터 제2 주요 음장 성분에 대한 HOA 계수를 선택하는 것 - HOA 계수 세트 내의 HOA 계수들은 가상 스피커 세트 내의 가상 스피커들과 일대일 대응관계에 있음 -; 및
가상 스피커 세트에서의 제2 주요 음장 성분에 대한 HOA 계수에 대응하는 가상 스피커를 제2 타깃 가상 스피커로서 결정하는 것.
전술한 구현은 전술한 실시예에서 제1 타깃 가상 스피커를 결정하는 프로세스와 유사하고, 상세사항들은 여기서 다시 설명되지 않는다.
본 출원의 일부 실시예들에서, F1의 제2 주요 음장 성분에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 것은 다음을 추가로 포함한다:
G1: 제2 주요 음장 성분에 기초하여 제2 타깃 가상 스피커의 구성 파라미터를 획득하는 것;
G2: 제2 타깃 가상 스피커의 구성 파라미터에 기초하여 제2 타깃 가상 스피커에 대한 HOA 계수를 생성하는 것; 및
G3: 가상 스피커 세트 내의 제2 타깃 가상 스피커에 대한 HOA 계수에 대응하는 가상 스피커를 제2 타깃 가상 스피커로서 결정하는 것.
전술한 구현은 전술한 실시예에서 제1 타깃 가상 스피커를 결정하는 프로세스와 유사하고, 상세사항들은 여기서 다시 설명되지 않는다.
전술한 구현은 전술한 실시예에서 제1 타깃 가상 스피커를 결정하는 프로세스와 유사하고, 상세사항들은 여기서 다시 설명되지 않는다.
본 출원의 일부 실시예들에서, G1에서의 제2 주요 음장 성분에 기초하여 제2 타깃 가상 스피커의 구성 파라미터를 획득하는 것은 다음을 포함한다:
오디오 인코더의 구성 정보에 기초하여 가상 스피커 세트 내의 복수의 가상 스피커의 구성 파라미터들을 결정하는 것; 및
제2 주요 음장 성분에 기초하여 복수의 가상 스피커의 구성 파라미터들로부터 제2 타깃 가상 스피커의 구성 파라미터를 선택하는 것.
전술한 구현은 전술한 실시예에서 제1 타깃 가상 스피커의 구성 파라미터를 결정하는 프로세스와 유사하고, 상세사항들은 여기서 다시 설명되지 않는다.
본 출원의 일부 실시예들에서, 제2 타깃 가상 스피커의 구성 파라미터는 제2 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보를 포함한다.
G2에서의 제2 타깃 가상 스피커의 구성 파라미터에 기초하여 제2 타깃 가상 스피커에 대한 HOA 계수를 생성하는 것은 다음을 포함한다:
제2 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보에 기초하여 제2 타깃 가상 스피커에 대한 HOA 계수를 결정하는 것.
전술한 구현은 전술한 실시예에서 제1 타깃 가상 스피커에 대한 HOA 계수를 결정하는 프로세스와 유사하고, 상세사항들은 여기서 다시 설명되지 않는다.
본 출원의 일부 실시예들에서, 제1 장면 오디오 신호는 인코딩될 HOA 신호를 포함하고, 제2 타깃 가상 스피커의 속성 정보는 제2 타깃 가상 스피커에 대한 HOA 계수를 포함한다.
D2에서의 제1 장면 오디오 신호 및 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하는 것은 다음을 포함한다:
인코딩될 HOA 신호 및 제2 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 제2 가상 스피커 신호를 획득하는 것.
본 출원의 일부 실시예들에서, 제1 장면 오디오 신호는 인코딩될 HOA(higher order ambisonics) 신호를 포함하고, 제2 타깃 가상 스피커의 속성 정보는 제2 타깃 가상 스피커의 로케이션 정보를 포함한다.
D2에서의 제1 장면 오디오 신호 및 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하는 것은 다음을 포함한다:
제2 타깃 가상 스피커의 로케이션 정보에 기초하여 제2 타깃 가상 스피커에 대한 HOA 계수를 획득하는 것; 및
인코딩될 HOA 신호 및 제2 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 제2 가상 스피커 신호를 획득하는 것.
전술한 구현은 전술한 실시예에서 제1 가상 스피커 신호를 결정하는 프로세스와 유사하고, 상세사항들은 여기서 다시 설명되지 않는다.
본 출원의 이 실시예에서, 인코더가 제2 가상 스피커 신호를 생성한 후에, 인코더는 또한 D3을 수행하여 제2 가상 스피커 신호를 인코딩하고, 인코딩된 신호를 비트스트림에 기입할 수 있다. 인코더에 의해 사용되는 인코딩 방법은 405와 유사하여, 비트스트림이 제2 가상 스피커 신호의 인코딩된 결과를 운반할 수 있도록 한다.
대응하여, 전술한 단계들 D1 내지 D3이 수행되는 구현 장면에서, 403에서의 제1 타깃 가상 스피커의 속성 정보 및 제1 가상 스피커 신호를 사용하여 제2 장면 오디오 신호를 획득하는 것은 다음을 포함한다:
H1: 제1 타깃 가상 스피커의 속성 정보, 제1 가상 스피커 신호, 제2 타깃 가상 스피커의 속성 정보, 및 제2 가상 스피커 신호에 기초하여 제2 장면 오디오 신호를 획득하는 것.
인코더는 제1 타깃 가상 스피커의 속성 정보를 획득할 수 있고, 제1 타깃 가상 스피커는 가상 스피커 세트 내에 있고 또한 제1 가상 스피커 신호를 재생하기 위해 사용되는 가상 스피커이다. 인코더는 제2 타깃 가상 스피커의 속성 정보를 획득할 수 있고, 제2 타깃 가상 스피커는 가상 스피커 세트 내에 있고 또한 제2 가상 스피커 신호를 재생하기 위해 사용되는 가상 스피커이다. 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커의 로케이션 정보 및 제1 타깃 가상 스피커에 대한 HOA 계수를 포함할 수 있다. 제2 타깃 가상 스피커의 속성 정보는 제2 타깃 가상 스피커의 로케이션 정보 및 제2 타깃 가상 스피커에 대한 HOA 계수를 포함할 수 있다. 인코더가 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 획득한 후에, 인코더는 제1 타깃 가상 스피커의 속성 정보 및 제2 타깃 가상 스피커의 속성 정보에 기초하여 신호 재구성을 수행하고, 신호 재구성을 통해 제2 장면 오디오 신호를 획득할 수 있다.
본 출원의 일부 실시예들에서, H1에서의 제1 타깃 가상 스피커의 속성 정보, 제1 가상 스피커 신호, 제2 타깃 가상 스피커의 속성 정보, 및 제2 가상 스피커 신호에 기초하여 제2 장면 오디오 신호를 획득하는 것은 다음을 포함한다:
제1 타깃 가상 스피커에 대한 HOA 계수 및 제2 타깃 가상 스피커에 대한 HOA 계수를 결정하는 것; 및
제1 가상 스피커 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하고, 제2 가상 스피커 신호 및 제2 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하는 것.
인코더는 먼저 제1 타깃 가상 스피커에 대한 HOA 계수를 결정한다. 예를 들어, 인코더는 제1 타깃 가상 스피커에 대한 HOA 계수를 미리 저장할 수 있고, 인코더는 제2 타깃 가상 스피커에 대한 HOA 계수를 결정한다. 예를 들어, 인코더는 제2 타깃 가상 스피커에 대한 HOA 계수를 미리 저장할 수 있고, 인코더는 제1 가상 스피커 신호, 제1 타깃 가상 스피커에 대한 HOA 계수, 제2 가상 스피커 신호, 및 제2 타깃 가상 스피커에 대한 HOA 계수에 기초하여 재구성된 장면 오디오 신호를 생성한다.
본 출원의 일부 실시예들에서, 인코더에 의해 수행되는 오디오 인코딩 방법은 다음의 단계를 추가로 포함할 수 있다:
I1: 제1 가상 스피커 신호와 제2 가상 스피커 신호를 정렬하여, 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호를 획득하는 단계.
I1이 수행될 때, 그에 대응하여, D3에서의 제2 가상 스피커 신호를 인코딩하는 단계는 다음을 포함한다:
정렬된 제2 가상 스피커 신호를 인코딩하는 단계.
대응하여, 405에서 제1 가상 스피커 신호 및 잔차 신호를 인코딩하는 단계는:
정렬된 제1 가상 스피커 신호 및 잔차 신호를 인코딩하는 단계를 포함한다.
인코더는 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 생성할 수 있고, 인코더는 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 정렬하여 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호를 획득할 수 있다. 예를 들어, 2개의 가상 스피커 신호가 있고, 타깃 가상 스피커들 P1 및 P2에 의해 생성되는 가상 스피커 신호들에 제각기 대응하는, 현재 프레임의 가상 스피커 신호들의 사운드 채널 시퀀스가 1 및 2이고, 및 타깃 가상 스피커들 P2 및 P1에 의해 생성되는 가상 스피커 신호들에 제각기 대응하는, 이전 프레임의 가상 스피커 신호들의 사운드 채널 시퀀스가 1 및 2인 경우, 현재 프레임의 가상 스피커 신호들의 사운드 채널 시퀀스는 이전 프레임의 타깃 가상 스피커들의 시퀀스에 기초하여 조정될 수 있다. 예를 들어, 현재 프레임의 가상 스피커 신호들의 사운드 채널 시퀀스는 2 및 1로 조정되어, 동일한 타깃 가상 스피커에 의해 생성되는 가상 스피커 신호들이 동일한 사운드 채널 상에 있도록 한다.
정렬된 제1 가상 스피커 신호를 획득한 후, 인코더는 정렬된 제1 가상 스피커 신호 및 잔차 신호를 인코딩할 수 있다. 본 출원의 이 실시예에서, 제1 가상 스피커 신호의 사운드 채널들을 다시 조정하고 정렬함으로써 채널간 상관성이 향상되어, 코어 인코더에 의한 제1 가상 스피커 신호의 인코딩 처리를 용이하게 한다.
본 출원의 일부 실시예들에서, 인코더에 의해 전술한 단계들을 수행하는 것에 더하여, 본 출원의 이 실시예에서 제공되는 오디오 인코딩 방법은 다음을 추가로 포함한다:
D1: 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계; 및
D2: 제1 장면 오디오 신호 및 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하는 단계.
대응하여, 인코더가 D1 및 D2를 수행할 때, (405)에서의 제1 가상 스피커 신호 및 잔차 신호를 인코딩하는 단계는 다음의 단계를 포함한다.
J1: 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하는 단계 - 제1 보조 정보는 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계를 나타냄 -.
본 발명의 이 실시예에서, 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계는 직접적 관계 또는 간접적 관계일 수 있다. 예를 들어, 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계가 직접 관계일 때, 제1 보조 정보는 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 상관 파라미터를 포함할 수 있고, 예를 들어, 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 에너지 비율 파라미터일 수 있다. 예를 들어, 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계가 간접 관계일 때, 제1 보조 정보는 제1 가상 스피커 신호와 다운믹싱된 신호 사이의 상관 파라미터를 포함할 수 있고, 제2 가상 스피커 신호와 다운믹싱된 신호 사이의 상관 파라미터는, 예를 들어, 제1 가상 스피커 신호와 다운믹싱된 신호 사이의 에너지 비율 파라미터, 및 제2 가상 스피커 신호와 다운믹싱된 신호 사이의 에너지 비율 파라미터를 포함한다.
제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계가 직접 관계일 수 있을 때, 디코더는 다운믹싱된 신호, 다운믹싱된 신호를 획득하기 위한 방식, 및 직접 관계에 기초하여 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 결정할 수 있다. 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계가 간접 관계일 수 있을 때, 디코더는 다운믹싱된 신호 및 간접 관계에 기초하여 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 결정할 수 있다.
J2: 다운믹싱된 신호, 제1 보조 정보, 및 잔차 신호를 인코딩하는 단계.
인코더가 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 획득한 후에, 인코더는 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 기초하여 다운믹싱을 추가로 수행하여 다운믹싱된 신호를 생성할 수 있는데, 예를 들어, 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 대해 진폭 다운믹싱을 수행하여 다운믹싱된 신호를 획득할 수 있다. 또한, 제1 보조 정보는 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 기초하여 추가로 생성될 수 있다. 제1 보조 정보는 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계를 표시하고, 이 관계는 복수의 구현을 갖는다. 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 복원하기 위해, 제1 보조 정보는 다운믹싱된 신호를 업믹싱하도록 디코더에 의해 사용될 수 있다. 예를 들어, 제1 보조 정보는 신호 정보 손실 분석 파라미터를 포함하여, 디코더가 신호 정보 손실 분석 파라미터를 사용하여 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 복원하도록 한다. 또 다른 예로서, 제1 보조 정보는 구체적으로 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 상관 파라미터일 수 있고, 예를 들어, 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 에너지 비율 파라미터일 수 있다. 따라서, 디코더는 상관 파라미터 또는 에너지 비율 파라미터를 사용하여 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 복원한다.
본 출원의 일부 실시예들에서, 인코더가 D1 및 D2를 수행할 때, 인코더는 다음의 단계를 추가로 수행할 수 있다:
I1: 제1 가상 스피커 신호와 제2 가상 스피커 신호를 정렬하여, 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호를 획득하는 단계.
I1이 수행될 때, 그에 대응하여, J1에서의 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하는 단계는 다음을 포함한다:
정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하는 단계.
대응하여, 제1 보조 정보는 정렬된 제1 가상 스피커 신호와 정렬된 제2 가상 스피커 신호 사이의 관계를 나타낸다.
다운믹싱된 신호를 생성하기 전에, 인코더는 가상 스피커 신호들에 대해 정렬 동작을 먼저 수행하고, 정렬 동작을 완료한 후에 다운믹싱된 신호 및 제1 보조 정보를 생성할 수 있다. 본 출원의 이 실시예에서, 제1 가상 스피커 신호 및 제2 가상 스피커 신호의 사운드 채널들을 다시 조정하고 정렬함으로써 채널간 상관이 향상되어, 코어 인코더에 의한 제1 가상 스피커 신호의 인코딩 처리를 용이하게 한다.
본 출원의 전술한 실시예에서, 제2 장면 오디오 신호는 정렬 전의 제1 가상 스피커 신호 및 정렬 전의 제2 가상 스피커 신호에 기초하여 획득될 수 있거나, 또는 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호에 기초하여 획득될 수 있다는 점에 유의해야 한다. 구체적인 구현은 응용 장면에 의존하고, 본 명세서에서 제한되지 않는다.
본 출원의 일부 실시예들에서, D1에서의 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계 전에, 본 출원의 이 실시예에서 제공되는 오디오 신호 인코딩 방법은 다음을 추가로 포함한다:
K1: 제1 장면 오디오 신호의 인코딩 레이트 및/또는 신호 클래스 정보에 기초하여, 제1 타깃 가상 스피커 이외의 타깃 가상 스피커가 획득될 필요가 있는지를 결정하는 단계; 및
K2: 제1 타깃 가상 스피커 이외의 타깃 가상 스피커가 획득될 필요가 있는 경우에만 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계.
인코더는 제2 타깃 가상 스피커가 획득될 필요가 있는지를 결정하기 위해 신호를 더 선택할 수 있다. 제2 타깃 가상 스피커가 획득될 필요가 있을 때, 인코더는 제2 가상 스피커 신호를 생성할 수 있다. 제2 타깃 가상 스피커가 획득될 필요가 없을 때, 인코더는 제2 가상 스피커 신호를 생성하지 않을 수 있다. 인코더는, 오디오 인코더의 구성 정보 및/또는 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여, 제1 타깃 가상 스피커 외에 또 다른 타깃 가상 스피커가 선택될 필요가 있는지를 결정할 수 있다. 예를 들어, 인코딩 레이트가 미리 설정된 임계값보다 높은 경우, 2개의 주요 음장 성분에 대응하는 타깃 가상 스피커들이 획득될 필요가 있다고 결정되고, 제1 타깃 가상 스피커가 결정되는 것 외에, 제2 타깃 가상 스피커가 추가로 결정될 수 있다. 또 다른 예로서, 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여, 우세 사운드 소스 방향을 포함하는 2개의 주요 음장 성분에 대응하는 타깃 가상 스피커들이 획득될 필요가 있다고 결정되는 경우, 제1 타깃 가상 스피커가 결정되는 것 외에, 제2 타깃 가상 스피커가 추가로 결정될 수 있다. 반대로, 제1 장면 오디오 신호의 인코딩 레이트 및/또는 신호 클래스 정보에 기초하여, 하나의 타깃 가상 스피커만이 획득될 필요가 있다고 결정되는 경우, 제1 타깃 가상 스피커가 결정된 후에, 제1 타깃 가상 스피커 이외의 어떠한 타깃 가상 스피커도 획득되지 않는다고 결정된다. 본 출원의 이 실시예에서, 인코더에 의해 인코딩될 데이터의 양이 감소될 수 있도록 신호가 선택되어, 인코딩 효율을 개선한다.
신호를 선택할 때, 인코더는 제2 가상 스피커 신호가 생성될 필요가 있는지를 결정할 수 있다. 인코더가 신호를 선택할 때 정보 손실이 발생하기 때문에, 신호 보상이 송신되지 않은 가상 스피커 신호에 대해 수행될 필요가 있다. 신호 보상은 정보 손실 분석, 에너지 보상, 포락선 보상, 및 잡음 보상일 수 있는데며, 이에 제한되지는 않는다. 보상 방법은 선형 보상, 비선형 보상, 또는 그와 유사한 것일 수 있다. 신호 보상 후에, 제1 보조 정보가 생성될 수 있고, 제1 보조 정보가 비트스트림에 기입될 수 있어서, 디코더가 비트스트림을 사용하여 제1 보조 정보를 획득할 수 있고 디코더가 제1 보조 정보에 기초하여 신호 보상을 수행할 수 있도록 하여, 디코더의 디코딩된 신호의 품질을 개선할 수 있다.
본 출원의 일부 실시예들에서, 신호 선택을 위해, 제2 가상 스피커 신호가 생성될 필요가 있는지를 선택하는 것에 더하여, 인코더는 잔차 신호에 대한 신호 선택을 추가로 수행하여, 잔차 신호 내의 어느 잔차 서브신호들이 송신될 것인지를 결정할 수 있다. 예를 들어, 잔차 신호는 적어도 2개의 사운드 채널 상의 잔차 서브신호들을 포함하고, 본 출원의 이 실시예에서 제공되는 오디오 신호 인코딩 방법은 다음을 추가로 포함한다:
L1: 오디오 인코더의 구성 정보 및/또는 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여 적어도 2개의 사운드 채널 상의 잔차 서브신호들로부터, 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 결정하는 단계.
L1이 수행되는 구현 장면에서, 대응하여, 405에서 제1 가상 스피커 신호 및 잔차 신호를 인코딩하는 단계는:
제1 가상 스피커 신호 및 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 인코딩하는 단계를 포함한다.
인코더는 오디오 인코더의 구성 정보 및/또는 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여 잔차 신호에 대한 판정을 내릴 수 있다. 예를 들어, 잔차 신호가 적어도 2개의 사운드 채널 상의 잔차 서브신호들을 포함하는 경우, 인코더는 잔차 서브신호들이 인코딩될 필요가 있는 사운드 채널 또는 사운드 채널들, 및 잔차 서브신호들이 인코딩될 필요가 없는 사운드 채널 또는 사운드 채널들을 선택할 수 있다. 예를 들어, 잔차 신호에서 우세 에너지를 갖는 잔차 서브신호는 인코딩을 위한 오디오 인코더의 구성 정보에 기초하여 선택된다. 또 다른 예로서, 잔차 신호에서 저차 HOA 사운드 채널에 의한 계산을 통해 획득된 잔차 서브신호는 인코딩을 위한 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여 선택된다. 잔차 신호에 대해, 사운드 채널이 선택되어, 인코더에 의해 인코딩되는 데이터의 양이 감소될 수 있어서, 인코딩 효율을 개선한다.
본 출원의 일부 실시예들에서, 적어도 2개의 사운드 채널 상의 잔차 서브신호들이 인코딩될 필요가 없고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 포함하는 경우, 본 출원의 이 실시예에서 제공되는 오디오 신호 인코딩 방법은:
제2 보조 정보를 획득하는 단계 - 제2 보조 정보는 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호와 인코딩될 필요가 없고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호 사이의 관계를 나타냄 -; 및
제2 보조 정보를 비트스트림에 기입하는 단계를 추가로 포함한다.
신호를 선택할 때, 인코더는 인코딩될 필요가 있는 잔차 서브신호 및 인코딩될 필요가 없는 잔차 서브신호를 결정할 수 있다. 본 출원의 이 실시예에서, 인코딩될 필요가 있는 잔차 서브신호는 인코딩되고, 인코딩될 필요가 없는 잔차 서브신호는 인코딩되지 않아서, 인코더에 의해 인코딩되는 데이터의 양이 감소될 수 있도록 하고, 인코딩 효율을 개선한다. 인코더가 신호를 선택할 때 정보 손실이 발생하기 때문에, 신호 보상이 송신되지 않은 잔차 서브신호에 대해 수행될 필요가 있다. 신호 보상은 정보 손실 분석, 에너지 보상, 포락선 보상, 및 잡음 보상일 수 있는데며, 이에 제한되지는 않는다. 보상 방법은 선형 보상, 비선형 보상, 또는 그와 유사한 것일 수 있다. 신호 보상 후에, 제2 보조 정보가 생성될 수 있고, 제2 보조 정보가 비트스트림에 기입될 수 있다. 제2 보조 정보는 인코딩될 필요가 있는 잔차 서브신호와 인코딩될 필요가 없는 잔차 서브신호 사이의 관계를 나타낸다. 이 관계는 복수의 구현을 갖는다. 예를 들어, 제2 보조 정보는 신호 정보 손실 분석 파라미터를 포함하여, 디코더가 신호 정보 손실 분석 파라미터를 사용함으로써 인코딩될 필요가 있는 잔차 서브신호 및 인코딩될 필요가 없는 잔차 서브신호를 복원하도록 한다. 또 다른 예를 들어, 제2 보조 정보는 구체적으로 인코딩될 필요가 있는 잔차 서브 신호와 인코딩될 필요가 없는 잔차 서브신호사이의 상관 파라미터일 수 있고, 예를 들어, 인코딩될 필요가 있는 잔차 서브 신호와 인코딩될 필요가 없는 잔차 서브신호사이의 에너지 비율 파라미터일 수 있다. 따라서, 디코더는 상관 파라미터 또는 에너지 비율 파라미터를 이용함으로써, 인코딩될 필요가 있는 잔차 서브신호및 인코딩될 필요가 없는 잔차 서브 신호를 복원한다. 본 출원의 이 실시예에서, 디코더는 비트스트림을 사용함으로써 제2 보조 정보를 획득할 수 있고, 디코더는 제2 보조 정보에 기초하여 신호 보상을 수행하여, 디코더의 디코딩된 신호의 품질을 개선할 수 있다.
전술한 실시예에서의 예시적인 설명에 따르면, 본 출원의 이 실시예에서, 제1 타깃 가상 스피커가 제1 장면 오디오 신호에 대해 구성될 수 있다. 또한, 오디오 인코더는 제1 가상 스피커 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 잔차 신호를 추가로 획득할 수 있다. 오디오 인코더는 제1 장면 오디오 신호를 직접 인코딩하는 대신에, 제1 가상 스피커 신호 및 잔차 신호를 인코딩한다. 본 출원의 이 실시예에서, 제1 타깃 가상 스피커는 제1 장면 오디오 신호에 기초하여 선택되고, 제1 타깃 가상 스피커에 기초하여 생성된 제1 가상 스피커 신호는 공간 내의 청취자의 로케이션에서의 음장을 나타낼 수 있다. 그 로케이션에서의 음장은 제1 장면 오디오 신호가 기록될 때의 오리지널 음장에 가능한 한 가깝고, 그에 의해 오디오 인코더의 인코딩 품질을 보장한다. 또한, 제1 가상 스피커 신호 및 잔차 신호는 비트스트림을 획득하기 위해 인코딩되고, 제1 가상 스피커 신호의 인코딩된 데이터의 양은 제1 타깃 가상 스피커와 관련되고, 제1 장면 오디오 신호의 사운드 채널들의 양과 관련되지 않아서, 인코딩된 데이터의 양이 감소되고, 인코딩 효율이 개선되도록 한다.
본 출원의 이 실시예에서, 인코더는 제1 가상 스피커 신호 및 잔차 신호를 인코딩하여 비트스트림을 생성한다. 그 후, 인코더는 비트스트림을 출력하고, 오디오 송신 채널을 통해 비트스트림을 디코더에 전송할 수 있다. 디코더는 후속 단계들 411 내지 413을 수행한다.
411: 비트스트림을 수신하는 단계.
디코더는 인코더로부터 비트스트림을 수신한다. 비트스트림은 인코딩된 제1 가상 스피커 신호 및 인코딩된 잔차 신호를 운반할 수 있다. 비트스트림은 제1 타깃 가상 스피커의 인코딩된 속성 정보를 추가로 운반할 수 있다. 이는 제한되지는 않는다. 비트스트림은 제1 타깃 가상 스피커의 속성 정보를 운반하지 않을 수 있다는 점에 유의해야 한다. 이 경우, 디코더는 사전 구성을 통해 제1 타깃 가상 스피커의 속성 정보를 결정할 수 있다.
또한, 본 출원의 일부 실시예들에서, 인코더가 제2 가상 스피커 신호를 생성할 때, 비트스트림은 제2 가상 스피커 신호를 추가로 운반할 수 있다. 비트스트림은 제2 타깃 가상 스피커의 인코딩된 속성 정보를 추가로 운반할 수 있다. 이는 제한되지는 않는다. 비트스트림은 제2 타깃 가상 스피커의 속성 정보를 운반하지 않을 수 있다는 점에 유의해야 한다. 이 경우, 디코더는 사전 구성을 통해 제2 타깃 가상 스피커의 속성 정보를 결정할 수 있다.
412: 비트스트림을 디코딩하여 가상 스피커 신호 및 잔차 신호를 획득하는 단계.
인코더로부터 비트스트림을 수신한 후에, 디코더는 비트스트림을 디코딩하고, 비트스트림으로부터 가상 스피커 신호 및 잔차 신호를 획득한다.
가상 스피커 신호는 구체적으로 제1 가상 스피커 신호일 수 있거나, 또는 제1 가상 스피커 신호 및 제2 가상 스피커 신호일 수 있고, 이는 여기서 제한되지 않는다는 점에 유의해야 한다.
본 출원의 일부 실시예들에서, 디코더가 (411 및 412)를 수행한 후에, 본 출원의 이 실시예에서 제공되는 오디오 디코딩 방법은 다음의 단계를 추가로 포함한다:
비트스트림을 디코딩하여 타깃 가상 스피커의 속성 정보를 획득하는 단계.
가상 스피커를 인코딩하는 것에 더하여, 인코더는 또한 타깃 가상 스피커의 속성 정보를 인코딩하고, 타깃 가상 스피커의 인코딩된 속성 정보를 비트스트림에 기입할 수 있다. 예를 들어, 제1 타깃 가상 스피커의 속성 정보는 비트스트림을 사용하여 획득될 수 있다. 본 출원의 이 실시예에서, 비트스트림은 제1 타깃 가상 스피커의 인코딩된 속성 정보를 운반할 수 있어서, 디코더가 비트스트림을 디코딩함으로써 제1 타깃 가상 스피커의 속성 정보를 결정하여, 디코더에 의한 오디오 디코딩을 용이하게 할 수 있도록 한다.
413: 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계.
디코더는 타깃 가상 스피커의 속성 정보 및 잔차 신호를 획득할 수 있다. 타깃 가상 스피커는 가상 스피커 세트 내에 있고 또한 재구성된 장면 오디오 신호를 재생하기 위해 사용되는 가상 스피커이다. 타깃 가상 스피커의 속성 정보는 타깃 가상 스피커의 로케이션 정보 및 타깃 가상 스피커에 대한 HOA 계수를 포함할 수 있다. 가상 스피커 신호를 획득한 후에, 디코더는 타깃 가상 스피커의 속성 정보 및 잔차 신호에 기초하여 신호 재구성을 수행하고, 신호 재구성을 통해 재구성된 장면 오디오 신호를 출력할 수 있다. 가상 스피커 신호는 장면 오디오 신호에서의 주요 음장 성분을 재구성하기 위해 사용되며, 잔차 신호는 재구성된 장면 오디오 신호에서의 무지향성 성분(non-directional component)을 보상한다. 잔차 신호는 재구성된 장면 오디오 신호의 품질을 개선할 수 있다.
본 출원의 일부 실시예들에서, 타깃 가상 스피커의 속성 정보는 타깃 가상 스피커에 대한 HOA 계수를 포함한다.
413에서의 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하여 합성된 장면 오디오 신호를 획득하는 단계; 및
잔차 신호를 사용함으로써 합성된 장면 오디오 신호를 조정하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함한다.
디코더는 먼저 타깃 가상 스피커에 대한 HOA 계수를 결정한다. 예를 들어, 디코더는 타깃 가상 스피커에 대한 HOA 계수를 미리 저장할 수 있다. 가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수를 획득한 후에, 디코더는 가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수에 기초하여 합성된 장면 오디오 신호를 획득할 수 있다. 마지막으로, 잔차 신호가 합성된 장면 오디오 신호를 조정하기 위해 사용되어, 재구성된 장면 오디오 신호의 품질을 개선한다.
예를 들어, 타깃 가상 스피커에 대한 HOA 계수는 행렬 A'로 표현되고, 행렬 A'의 크기는 (M × C)이고, C는 타깃 가상 스피커들의 수량이고, M은 N차 HOA 계수의 사운드 채널들의 수량이다. 가상 스피커 신호는 행렬 W'로 표현되고, 행렬 W'의 크기는 (C × L)이며, 여기서 L은 신호 샘플링 포인트들의 수량을 나타낸다. 재구성된 HOA 신호는 하기의 공식을 사용하여 획득된다:
전술한 계산 공식을 사용하여 획득된 H는 재구성된 HOA 신호이다.
전술한 재구성된 HOA 신호가 획득된 후에, 잔차 신호는 합성된 장면 오디오 신호를 조정하기 위해 더 사용되어, 재구성된 장면 오디오 신호의 품질을 개선할 수 있다.
본 출원의 일부 실시예들에서, 타깃 가상 스피커의 속성 정보는 타깃 가상 스피커의 로케이션 정보를 포함한다.
413에서의 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
타깃 가상 스피커의 로케이션 정보에 기초하여 타깃 가상 스피커에 대한 HOA 계수를 결정하는 단계;
가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하여 합성된 장면 오디오 신호를 획득하는 단계; 및
잔차 신호를 사용함으로써 합성된 장면 오디오 신호를 조정하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함한다.
타깃 가상 스피커의 속성 정보는 타깃 가상 스피커의 로케이션 정보를 포함할 수 있다. 디코더는 가상 스피커 세트 내의 각각의 가상 스피커에 대한 HOA 계수를 미리 저장하고, 디코더는 각각의 가상 스피커의 로케이션 정보를 더 저장한다. 예를 들어, 디코더는 가상 스피커의 로케이션 정보와 가상 스피커의 HOA 계수 사이의 대응관계에 기초하여, 타깃 가상 스피커의 로케이션 정보에 대한 HOA 계수를 결정할 수 있거나, 또는 디코더는 타깃 가상 스피커의 로케이션 정보에 기초하여 타깃 가상 스피커에 대한 HOA 계수를 계산할 수 있다. 따라서, 디코더는 타깃 가상 스피커의 로케이션 정보에 기초하여 타깃 가상 스피커에 대한 HOA 계수를 결정할 수 있다. 이는 디코더가 타깃 가상 스피커에 대한 HOA 계수를 결정할 필요가 있는 문제를 해결한다.
본 출원의 일부 실시예들에서, 가상 스피커 신호가 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 다운믹싱함으로써 획득되는 다운믹싱된 신호라는 것을 인코더의 방법 설명으로부터 알 수 있다. 이 구현 장면에서, 본 출원의 이 실시예에서 제공되는 오디오 디코딩 방법은 다음을 추가로 포함한다:
비트스트림을 디코딩하여 제1 보조 정보를 획득하는 단계 - 제1 보조 정보는 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계를 나타냄 -; 및
제1 보조 정보 및 다운믹싱된 신호에 기초하여 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 획득하는 단계.
대응하여, 413에서의 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
타깃 가상 스피커의 속성 정보, 잔차 신호, 제1 가상 스피커 신호, 및 제2 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함한다.
인코더는 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 기초하여 다운믹싱을 수행할 때 다운믹싱된 신호를 생성하고, 인코더는 다운믹싱된 신호에 대한 신호 보상을 추가로 수행하여, 제1 보조 정보를 생성할 수 있다. 제1 보조 정보는 비트스트림에 기입될 수 있다. 디코더는 비트스트림을 사용함으로써 제1 보조 정보를 획득할 수 있다. 디코더는 제1 보조 정보에 기초하여 신호 보상을 수행하여, 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 획득할 수 있다. 따라서, 신호 재구성 동안, 제1 가상 스피커 신호, 제2 가상 스피커 신호, 타깃 가상 스피커의 속성 정보, 및 잔차 신호가 디코더의 디코딩된 신호의 품질을 개선하기 위해 사용될 수 있다.
본 출원의 일부 실시예들에서, 인코더의 방법 설명으로부터, 인코더가 잔차 신호에 대한 신호 선택을 수행하고, 제2 보조 정보를 비트스트림에 추가한다는 것을 알 수 있다. 이 구현 장면에서, 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함한다고 가정되고, 본 출원의 이 실시예에서 제공되는 오디오 디코딩 방법은 다음을 추가로 포함한다:
비트스트림을 디코딩하여 제2 보조 정보를 획득하는 단계 - 제2 보조 정보는 제1 사운드 채널 상의 잔차 서브신호와 제2 사운드 채널 상의 잔차 서브신호 사이의 관계를 나타냄 -; 및
제2 보조 정보 및 제1 사운드 채널 상의 잔차 서브신호에 기초하여 제2 사운드 채널 상의 잔차 서브신호를 획득하는 단계.
대응하여, 413에서의 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
타깃 가상 스피커의 속성 정보, 제1 사운드 채널 상의 잔차 서브신호, 제2 사운드 채널 상의 잔차 서브신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함한다.
신호를 선택할 때, 인코더는 인코딩될 필요가 있는 잔차 서브신호 및 인코딩될 필요가 없는 잔차 서브신호를 결정할 수 있다. 인코더가 신호를 선택할 때 정보 손실이 발생하기 때문에, 인코더는 제2 보조 정보를 생성한다. 제2 보조 정보는 비트스트림에 기입될 수 있다. 디코더는 비트스트림을 사용함으로써 제2 보조 정보를 획득할 수 있다. 비트스트림에서 운반되는 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함하고, 디코더는 제2 보조 정보에 기초하여 신호 보상을 수행하여 제2 사운드 채널 상의 잔차 서브신호를 획득할 수 있다고 가정된다. 예를 들어, 디코더는 제1 사운드 채널 상의 잔차 서브신호 및 제2 보조 정보를 이용하여 제2 사운드 채널 상의 잔차 서브신호를 복원한다. 제2 사운드 채널은 제1 사운드 채널과 독립적이다. 따라서, 신호 재구성 동안, 제1 사운드 채널 상의 잔차 서브신호, 제2 사운드 채널 상의 잔차 서브신호, 타깃 가상 스피커의 속성 정보, 및 가상 스피커 신호가 사용되어, 디코더의 디코딩된 신호의 품질을 개선할 수 있다. 예를 들어, 장면 오디오 신호는 총 16개의 사운드 채널을 포함한다. 4개의 제1 사운드 채널, 예를 들어, 16개의 사운드 채널 내의 사운드 채널들 1, 3, 5, 및 7이 존재하고, 제2 보조 정보는 사운드 채널들 1, 3, 5, 및 7 상의 잔차 서브신호들과 다른 사운드 채널들 상의 잔차 서브신호들 사이의 관계들을 기술한다. 따라서, 디코더는 제1 사운드 채널들 상의 잔차 서브신호들 및 제2 보조 정보에 기초하여 16개의 사운드 채널 중의 다른 12개의 사운드 채널 상의 잔차 서브신호들을 획득할 수 있다. 또 다른 예로서, 장면 오디오 신호는 총 16개의 사운드 채널을 포함한다. 제1 사운드 채널은 16개의 사운드 채널 중의 제3 사운드 채널이고, 제2 사운드 채널은 16개의 사운드 채널 중의 제8 사운드 채널이고, 제2 보조 정보는 제3 사운드 채널 상의 잔차 서브신호와 제8 사운드 채널 상의 잔차 서브신호 사이의 관계를 기술한다. 따라서, 디코더는 제3 사운드 채널 상의 잔차 서브신호 및 제2 보조 정보에 기초하여 제8 사운드 채널 상의 잔차 서브신호를 획득할 수 있다.
본 출원의 일부 실시예들에서, 인코더의 방법 설명으로부터, 인코더가 잔차 신호에 대한 신호 선택을 수행하고, 제2 보조 정보를 비트스트림에 추가한다는 것을 알 수 있다. 이 구현 장면에서, 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함한다고 가정되고, 본 출원의 이 실시예에서 제공되는 오디오 디코딩 방법은 다음을 추가로 포함한다:
비트스트림을 디코딩하여 제2 보조 정보를 획득하는 단계 - 제2 보조 정보는 제1 사운드 채널 상의 잔차 서브신호와 제3 사운드 채널 상의 잔차 서브신호 사이의 관계를 나타냄 -; 및
제2 보조 정보 및 제1 사운드 채널 상의 잔차 서브신호에 기초하여 제3 사운드 채널 상의 잔차 서브신호 및 제1 사운드 채널 상의 업데이트된 잔차 서브신호를 획득하는 단계.
대응하여, 413에서의 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
타깃 가상 스피커의 속성 정보, 제1 사운드 채널 상의 업데이트된 잔차 서브신호, 제3 사운드 채널 상의 잔차 서브신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함한다.
하나 이상의 제1 사운드 채널이 존재할 수 있고, 하나 이상의 제2 사운드 채널이 존재할 수 있거나, 또는 하나 이상의 제3 사운드 채널이 존재할 수 있다.
신호를 선택할 때, 인코더는 인코딩될 필요가 있는 잔차 서브신호 및 인코딩될 필요가 없는 잔차 서브신호를 결정할 수 있다. 인코더가 신호를 선택할 때 정보 손실이 발생하기 때문에, 인코더는 제2 보조 정보를 생성한다. 제2 보조 정보는 비트스트림에 기입될 수 있다. 디코더는 비트스트림을 사용함으로써 제2 보조 정보를 획득할 수 있다. 비트스트림에서 운반되는 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함하고, 디코더는 제2 보조 정보에 기초하여 신호 보상을 수행하여 제3 사운드 채널 상의 잔차 서브신호를 획득할 수 있다고 가정된다. 제3 사운드 채널 상의 잔차 서브신호는 제1 사운드 채널 상의 잔차 서브신호와 상이하다. 제2 보조 정보 및 제1 사운드 채널 상의 잔차 서브신호에 기초하여 제3 사운드 채널 상의 잔차 서브신호가 획득될 때, 제1 사운드 채널 상의 잔차 서브신호는 업데이트될 필요가 있어서, 제1 사운드 채널 상의 업데이트된 잔차 서브신호를 획득하게 된다. 예를 들어, 디코더는 제1 사운드 채널 상의 잔차 서브신호 및 제2 보조 정보를 이용함으로써 제3 사운드 채널 상의 잔차 서브신호 및 제1 사운드 채널 상의 업데이트된 잔차 서브신호를 생성한다. 따라서, 신호 재구성 동안, 제3 사운드 채널 상의 잔차 서브신호, 제1 사운드 채널 상의 업데이트된 잔차 서브신호, 타깃 가상 스피커의 속성 정보, 및 가상 스피커 신호가 사용되어, 디코더의 디코딩된 신호의 품질을 개선할 수 있다. 예를 들어, 장면 오디오 신호는 총 16개의 사운드 채널을 포함한다. 4개의 제1 사운드 채널, 예를 들어, 16개의 사운드 채널 내의 사운드 채널들 1, 3, 5, 및 7이 존재하고, 제2 보조 정보는 사운드 채널들 1, 3, 5, 및 7 상의 잔차 서브신호들과 다른 사운드 채널들 상의 잔차 서브신호들 사이의 관계들을 기술한다. 따라서, 디코더는 제1 사운드 채널들 상의 잔차 서브신호들 및 제2 보조 정보에 기초하여 16개의 사운드 채널 상의 잔차 서브신호들을 획득할 수 있고, 16개의 사운드 채널 상의 잔차 서브신호들은 사운드 채널들 1, 3, 5, 및 7 상의 업데이트된 잔차 서브신호들을 포함한다. 또 다른 예로서, 장면 오디오 신호는 총 16개의 사운드 채널을 포함한다. 제1 사운드 채널은 16개의 사운드 채널 중의 제3 사운드 채널이고, 제2 사운드 채널은 16개의 사운드 채널 중의 제8 사운드 채널이고, 제2 보조 정보는 제3 사운드 채널 상의 잔차 서브신호와 제8 사운드 채널 상의 잔차 서브신호 사이의 관계를 기술한다. 따라서, 디코더는, 제3 사운드 채널 상의 잔차 서브신호 및 제2 보조 정보에 기초하여, 제8 사운드 채널 상의 잔차 서브신호 및 제3 사운드 채널 상의 업데이트된 잔차 서브신호를 획득할 수 있다.
본 출원의 일부 실시예들에서, 인코더의 방법 설명으로부터, 인코더에 의해 생성된 비트스트림이 제1 보조 정보 및 제2 보조 정보 둘 다를 운반할 수 있다는 것을 알 수 있다. 이 경우, 디코더는 제1 보조 정보 및 제2 보조 정보를 획득하기 위해 비트스트림을 디코딩할 필요가 있고, 디코더는 신호 보상을 수행하기 위해 제1 보조 정보를 사용할 필요가 있고, 신호 보상을 수행하기 위해 제2 보조 정보를 사용할 필요가 추가로 있다. 다시 말해서, 디코더는 제1 보조 정보 및 제2 보조 정보에 기초하여 신호 보상을 수행하여, 신호 보상된 가상 스피커 신호 및 신호 보상된 잔차 신호를 획득할 수 있다. 따라서, 신호 재구성 동안, 신호 보상된 가상 스피커 신호 및 신호 보상된 잔차 신호가 사용되어 디코더의 디코딩된 신호의 품질을 개선할 수 있다.
전술한 실시예에서의 예의 설명에서, 비트스트림이 먼저 수신되고, 그 후 가상 스피커 신호 및 잔차 신호를 획득하기 위해 디코딩되고, 마지막으로 재구성된 장면 오디오 신호가 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 획득된다. 본 출원의 이 실시예에서, 오디오 디코더가 오디오 인코더에 의한 인코딩 프로세스와 반대인 디코딩 프로세스를 수행하고, 디코딩을 통해 비트스트림으로부터 가상 스피커 신호 및 잔차 신호를 획득하고, 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호를 사용함으로써 재구성된 장면 오디오 신호를 획득할 수 있다. 본 출원의 이 실시예에서, 획득된 비트스트림은 가상 스피커 신호 및 잔차 신호를 운반하여, 디코딩될 데이터의 양을 감소시키고 디코딩 효율을 개선한다.
예를 들어, 본 출원의 이 실시예에서, 제1 장면 오디오 신호와 비교하여, 제1 가상 스피커 신호는 더 적은 사운드 채널들을 사용하여 표현된다. 예를 들어, 제1 장면 오디오 신호는 3차 HOA 신호이고, HOA 신호는 16개의 사운드 채널을 갖는다. 본 출원의 이 실시예에서, 16개의 사운드 채널은 4개의 사운드 채널이 되도록 압축될 수 있다. 4개의 사운드 채널은 인코더에 의해 생성된 가상 스피커 신호에 의해 점유되는 2개의 사운드 채널 및 잔차 신호에 의해 점유되는 2개의 사운드 채널을 포함한다. 예를 들어, 인코더에 의해 생성되는 가상 스피커 신호는 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 포함할 수 있고, 인코더에 의해 생성되는 가상 스피커 신호의 사운드 채널들의 양은 제1 장면 오디오 신호의 사운드 채널들의 양과 관련되지 않는다. 후속 단계들에서의 설명으로부터, 비트스트림은 2개의 사운드 채널 상의 가상 스피커 신호들 및 2개의 사운드 채널 상의 잔차 신호들을 운반할 수 있다는 것을 알 수 있다. 대응하여, 디코더는 비트스트림을 수신하고, 비트스트림을 디코딩하여 2개의 사운드 채널 상의 가상 스피커 신호들 및 2개의 사운드 채널 상의 잔차 신호들을 획득한다. 디코더는 2개의 사운드 채널 상의 가상 스피커 신호들 및 2개의 사운드 채널 상의 잔차 신호들을 사용함으로써 16개의 사운드 채널 상의 장면 오디오 신호들을 재구성할 수 있다. 이는 재구성된 장면 오디오 신호가 오리지널 장면 내의 오디오 신호와 비교할 때 동등한 주관적 및 객관적 품질을 갖는 것을 보장한다.
본 출원의 이 실시예에서의 전술한 해결책의 더 나은 이해 및 구현을 위해, 대응하는 응용 장면들을 예들로서 사용하여 구체적인 설명들이 아래에 제공된다.
본 출원의 이 실시예에서, 장면 오디오 신호가 HOA 신호인 예가 사용된다. 음파는 이상적인 매체에서 전파되고, 파들의 양은 k=w/c이고, 각 주파수는 w=2πf이고, f는 음파 주파수이고, c는 음속이다. 이 경우, 음압 p는 다음의 계산 공식을 충족하고, 여기서 은 라플라스 연산자이다:
전술한 수학식은 구면 좌표계 하에서 풀린다. 수동 구면 영역에서, 수학식의 해는 다음과 같다:
전술한 계산 공식에서, r은 구 반경을 나타내고, θ는 수평 각도를 나타내고, 는 고도각을 나타내고, k는 파들의 양을 나타내고, s는 이상적인 평면파의 진폭이고, m은 HOA 차수의 시퀀스 번호이고, 은 구면 베셀 함수인데, 방사상 기저 함수라고도 지칭되며, 여기서 첫 번째 j는 허수 단위이다. 은 각도에 따라 변하지 않는다. 방향에서의 구면 조화 함수(spherical harmonic function)이고, 는 사운드 소스 방향에서의 구면 조화 함수이다.
HOA 계수는 로서 표현될 수 있다.
다음의 계산 공식이 제공된다:
상기 계산 공식은 음장이 구면 조화 함수에 따라 구면 상에서 확장될 수 있고 계수 를 사용하여 표현될 수 있다는 것을 보여준다. 대안적으로, 계수 이 알려지는 경우, 음장이 재구성될 수 있다. 전술한 공식은 N번째 항까지 절단되고, 계수 은 음장의 근사 기술로서 사용되고, N차 HOA 계수로서 지칭된다. HOA 계수는 앰비소닉 계수라고도 지칭될 수 있다. N차 HOA 계수는 총 (N+1)2개의 사운드 채널을 갖는다. 하나보다 많은 차수의 앰비소닉 신호는 HOA 신호라고도 지칭된다. HOA 신호의 샘플링 포인트에 대한 계수에 따라 구면 조화 함수들을 중첩시킴으로써, 샘플링 포인트에 대응하는 순간에서의 공간 음장이 재구성될 수 있다.
예를 들어, 구성에서, HOA 차수는 2 내지 6일 수 있고, 장면에서의 오디오가 기록될 때, 신호 샘플링 레이트는 48kHz 내지 192kHz이고, 샘플링 깊이는 16 비트 또는 24 비트이다. HOA 신호는 음장의 공간 정보에 의해 특징지어지고, 공간 내의 포인트에서의 음장 신호의 특정 정밀도의 기술이다. 따라서, 또 다른 표현 형태가 그 포인트에서의 음장 신호를 기술하기 위해 사용되는 것이 고려될 수 있다. 이 기술 방법이 동일한 정밀도로 그 포인트에서의 신호를 기술하기 위해 더 적은 데이터 양을 사용할 수 있는 경우, 신호 압축의 목적이 달성될 수 있다.
공간 내의 음장은 복수의 평면파의 중첩이 되도록 분해될 수 있다. 따라서, HOA 신호에 의해 표현되는 음장은 복수의 평면파의 중첩을 사용하여 표현될 수 있고, 각각의 평면파는 하나의 사운드 채널 상의 오디오 신호 및 방향 벡터를 사용하여 표현된다. 중첩된 평면파들의 표현 형태가 더 적은 사운드 채널들을 사용함으로써 오리지널 음장을 더 잘 표현할 수 있는 경우, 신호 압축이 달성될 수 있다.
실제 재생 동안, HOA 신호는 헤드셋을 사용하여 재생될 수 있거나, 또는 방에 배열된 복수의 스피커를 사용하여 재생될 수 있다. 스피커가 재생을 위해 이용될 때, 기본적인 방법은 복수의 스피커의 음장들을 중첩하여, 공간 내의 한 포인트(청취자의 로케이션)에서의 음장이 HOA 신호가 기록될 때의 표준 하에서의 오리지널 음장에 가능한 한 가깝게 되도록 한다. 본 출원의 이 실시예에서, 가상 스피커 어레이가 사용된다고 가정한다. 그 후, 가상 스피커 어레이의 재생 신호가 계산되고, 재생 신호가 송신 신호로서 사용되고, 압축된 신호가 생성된다. 디코더는 비트스트림을 디코딩하여 재생 신호를 획득하고, 재생 신호를 사용하여 장면 오디오 신호를 재구성한다.
본 출원의 실시예는 장면 오디오 신호의 인코딩에 적용가능한 인코더 및 장면 오디오 신호의 디코딩에 적용가능한 디코더를 제공한다. 인코더는 오리지널 HOA 신호를 압축된 비트스트림이 되도록 인코딩하고, 인코더는 압축된 비트스트림을 디코더에 전송하며, 그 후 디코더는 압축된 비트스트림을 재구성된 HOA 신호로 복원한다. 본 출원의 이 실시예에서, 인코더에 의해 수행된 압축 후에 획득된 데이터의 양은 가능한 한 작거나, 또는 동일한 비트 레이트에서 디코더에 의해 수행된 재구성 후에 획득된 HOA 신호의 품질은 더 높다.
본 출원의 이 실시예에서, HOA 신호의 인코딩 동안의 큰 데이터 양, 높은 대역폭 점유, 낮은 압축 효율, 및 낮은 인코딩 품질의 문제가 해결될 수 있다. N차 HOA 신호는 개의 사운드 채널을 갖기 때문에, HOA 신호를 직접 송신하기 위해 높은 대역폭이 소비될 필요가 있다. 따라서, 효과적인 다채널 인코딩 방식이 요구된다.
본 출원의 이 실시예에서, 상이한 사운드 채널 추출 방법들이 이용되고, 사운드 소스의 가정은 본 출원의 이 실시예에서 제한되지 않고, 시간-주파수 도메인에서 단일 사운드 소스의 가정에 의존하지 않아서, 복수의 사운드 소스의 신호들과 같은 복잡한 장면이 더 효과적으로 처리될 수 있도록 한다. 본 출원의 이 실시예에서의 인코더 및 디코더는 오리지널 HOA 신호를 표시하기 위해 보다 적은 사운드 채널들이 사용되는 공간 인코딩 및 디코딩 방법을 제공한다. 도 5는 본 출원의 이 실시예에 따른 인코더의 구조의 개략도이다. 인코더는 공간 인코더 및 코어 인코더를 포함한다. 공간 인코더는 인코딩될 HOA 신호에 대해 사운드 채널 추출을 수행하여 가상 스피커 신호를 생성할 수 있다. 코어 인코더는 가상 스피커 신호를 인코딩하여 비트스트림을 획득할 수 있다. 인코더는 비트스트림을 디코더에 전송한다. 도 6은 본 출원의 이 실시예에 따른 디코더의 구조의 개략도이다. 디코더는 코어 디코더 및 공간 디코더를 포함한다. 코어 디코더는 먼저 인코더로부터 비트스트림을 수신한 다음, 비트스트림을 디코딩하여 가상 스피커 신호를 획득한다. 그 후, 공간 디코더는 가상 스피커 신호를 재구성하여 재구성된 HOA 신호를 획득한다.
이하에서는 인코더 및 디코더로부터의 예들을 별도로 설명한다.
도 7에 도시된 바와 같이, 본 출원의 이 실시예에서 제공되는 인코더가 먼저 설명된다. 인코더는 가상 스피커 구성 유닛, 인코딩 분석 유닛, 가상 스피커 세트 생성 유닛, 가상 스피커 선택 유닛, 가상 스피커 신호 생성 유닛, 코어 인코더 처리 유닛, 신호 재구성 유닛, 잔차 신호 생성 유닛, 선택 유닛, 및 신호 보상 유닛을 포함할 수 있다. 이하에서는 인코더의 각각의 컴포넌트 유닛의 기능을 개별적으로 설명한다. 본 출원의 이 실시예에서, 도 7에 도시된 인코더는 하나의 가상 스피커 신호를 생성할 수 있거나, 또는 복수의 가상 스피커 신호를 생성할 수 있다. 복수의 가상 스피커 신호를 생성하는 프로세스는 도 7에 도시된 인코더 구조에 따라 복수 회 생성하는 것을 수행함으로써 구현될 수 있다. 이하에서는 하나의 가상 스피커 신호를 생성하는 프로세스를 예로서 사용한다.
가상 스피커 구성 유닛은 복수의 가상 스피커를 획득하기 위해 가상 스피커 세트 내의 가상 스피커들을 구성하도록 구성된다.
가상 스피커 구성 유닛은 인코더의 구성 정보에 기초하여 가상 스피커 구성 파라미터를 출력한다. 인코더의 구성 정보는 HOA 차수, 인코딩 비트 레이트, 및 사용자 정의된 정보를 포함하지만, 이것으로 제한되지는 않는다. 가상 스피커 구성 파라미터는 가상 스피커들의 수량, 가상 스피커의 HOA 차수, 및 가상 스피커의 로케이션 좌표들을 포함하지만, 이들로 제한되지는 않는다.
가상 스피커 구성 유닛에 의해 출력되는 가상 스피커 구성 파라미터는 가상 스피커 세트 생성 유닛의 입력으로서 사용된다.
인코딩 분석 유닛은 인코딩될 HOA 신호에 대한 인코딩 분석을 수행하도록 구성되는데, 예를 들어, 타깃 가상 스피커를 선택하는 방법을 결정하기 위한 결정 조건들 중 하나로서 이용되는, 인코딩될 HOA 신호의 사운드 소스들의 수량, 지향성, 및 분산과 같은 특성들을 포함하여, 인코딩될 HOA 신호의 음장 분포를 분석하도록 구성된다.
본 출원의 이 실시예에서, 인코더는 인코딩 분석 유닛을 포함하지 않을 수 있는데, 즉, 인코더는 입력 신호를 분석하지 않을 수 있고, 디폴트 구성이 타깃 가상 스피커를 선택하는 방법을 결정하기 위해 사용된다. 이는 제한되지는 않는다.
인코더는 인코딩될 HOA 신호를 획득하고, 예를 들어, 실제 취득 디바이스로부터 기록된 HOA 신호 또는 인코더의 입력으로서 인공 오디오 객체를 이용함으로써 합성된 HOA 신호를 이용할 수 있고, 인코더에 의해 인코딩된 입력이 될 HOA 신호는 시간 도메인 HOA 신호 또는 주파수 도메인 HOA 신호일 수 있다.
가상 스피커 세트 생성 유닛은 가상 스피커 세트를 생성하도록 구성된다. 가상 스피커 세트는 복수의 가상 스피커를 포함할 수 있고, 가상 스피커 세트 내의 가상 스피커는 또한 "후보 가상 스피커"라고 지칭될 수 있다.
가상 스피커 세트 생성 유닛은 특정된 후보 가상 스피커에 대한 HOA 계수를 생성한다. 후보 가상 스피커에 대한 HOA 계수를 생성하는 것은 후보 가상 스피커의 좌표(즉, 로케이션 좌표 또는 로케이션 정보) 및 후보 가상 스피커의 HOA 차수를 필요로 한다. 후보 가상 스피커의 좌표를 결정하는 방법은 등거리 규칙에 따라 K개의 가상 스피커를 생성하는 단계, 및 청각 지각 원리에 따라, 고르게 분포되지 않은 K개의 후보 가상 스피커를 생성하는 단계를 포함하지만, 이들로 제한되지는 않는다. 이하에서는 고르게 분포된 고정된 수량의 가상 스피커들을 생성하기 위한 방법의 예를 제공한다.
고르게 분포된 후보 가상 스피커들의 좌표들은 후보 가상 스피커들의 수량에 기초하여 생성되고, 예를 들어, 거의 균일한 스피커 배열이 수치 반복 계산 방법을 사용하여 제공된다. 도 8은 구면 상에 대략 고르게 분포되어 있는 가상 스피커들의 개략도이다. 일부 재료 입자들은 단위 구 상에 분포되고, 동일한 전하들 사이의 정전기 척력과 유사한, 2차의 반비례 척력이 이들 재료 입자들 사이에 설정되는 것으로 가정한다. 이들 재료 입자들은 반발력 하에서 자유롭게 이동할 수 있고, 재료 입자들이 정상 상태에 도달할 때 재료 입자들의 분포가 고르게 되야 할 것으로 예상된다. 계산에서, 실제 물리적 법칙이 단순화되고, 재료 입자의 움직임 거리는 변형력(stress)과 직접적으로 동일하다. 따라서, i번째 재료 입자에 대해, 반복 계산의 단계에서의 재료 입자의 움직임 거리, 즉, 변형력을 받은 가상 힘은 다음의 공식을 사용하여 계산된다:
은 변위 벡터를 나타내고, 은 힘 벡터를 나타내고, 은 i번째 재료 입자와 j번째 재료 입자 사이의 거리를 나타내고, 은 i번째 재료 입자로부터 j번째 재료 입자까지의 방향 벡터를 나타낸다. 파라미터 k는 단일 단계의 크기를 제어한다. 재료 입자의 초기 로케이션은 무작위적으로 특정된다.
변위 벡터 에 따라 이동한 후, 재료 입자는 보통은 단위 구로부터 이탈한다. 다음 반복 전에, 재료 입자와 구 중심 사이의 거리가 정규화되고, 재료 입자는 단위 구로 되돌려 이동된다. 따라서, 도 8에 도시된 가상 스피커들의 분포의 개략도가 획득될 수 있으며, 여기서 복수의 가상 스피커가 구 상에 대략 고르게 분포된다.
다음으로, 후보 가상 스피커에 대한 HOA 계수가 생성된다. 구면 조화 함수를 사용하여 이상적인 평면파가 확장된 후에 그 진폭이 s이고 그 스피커의 로케이션 좌표가 인 이상적인 평면파의 형태는 다음의 계산 공식과 같다:
평면파에 대한 HOA 계수는 이고, 다음의 계산 공식을 충족시킨다:
가상 스피커 세트 생성 유닛에 의해 출력되는 후보 가상 스피커들의 HOA 계수들은 가상 스피커 선택 유닛의 입력으로서 사용된다.
가상 스피커 선택 유닛은 인코딩될 HOA 신호에 기초하여 가상 스피커 세트 내의 복수의 후보 가상 스피커로부터 타깃 가상 스피커를 선택하도록 구성된다. 타깃 가상 스피커는 "인코딩될 HOA 신호와 매칭되는 가상 스피커"라고 지칭되거나, 또는 줄여서 매칭된 가상 스피커라고 지칭될 수 있다.
가상 스피커 선택 유닛은 인코딩될 HOA 신호를 가상 스피커 세트 생성 유닛에 의해 출력되는 후보 가상 스피커들의 HOA 계수들과 매칭시키고, 특정되고 매칭된 가상 스피커를 선택한다.
이하에서는 예를 사용하여 가상 스피커를 선택하는 방법을 설명한다. 실시예에서, 후보 가상 스피커들이 획득된 후에, 인코딩될 HOA 신호는 가상 스피커 세트 생성 유닛에 의해 출력된 후보 가상 스피커들의 HOA 계수들과 매칭되어, 후보 가상 스피커들 상에 인코딩될 HOA 신호의 최상의 매칭을 찾는데, 그 목적은 후보 가상 스피커들의 HOA 계수들에 기초하여 인코딩될 HOA 신호를 매칭 및 조합하는 것이다. 실시예에서, 후보 가상 스피커들의 HOA 계수들과 인코딩될 HOA 신호 사이에 내적(inner product)이 수행되고, 내적의 최대 절대값을 갖는 후보 가상 스피커가 타깃 가상 스피커, 즉 매칭된 가상 스피커로서 선택되고, 인코딩될 HOA 신호의 후보 가상 스피커에 대한 사영이 후보 가상 스피커들의 HOA 계수들의 선형 조합 상에 중첩되고, 그 후 사영 벡터(projection vector)가 인코딩될 HOA 신호로부터 감산되어 차이를 획득하게 된다. 전술한 프로세스는 반복 계산을 구현하기 위해 차이에 대해 반복되고, 매칭된 가상 스피커가 매회의 반복마다 생성되고, 매칭된 가상 스피커들의 좌표들 및 타깃 가상 스피커들의 HOA 계수들이 출력된다. 복수의 매칭된 가상 스피커가 선택되고, 하나의 매칭된 가상 스피커가 매회의 반복마다 생성된다는 점이 이해될 수 있다.
가상 스피커 선택 유닛에 의해 출력되는 타깃 가상 스피커의 좌표 및 타깃 가상 스피커의 HOA 계수는 가상 스피커 신호 생성 유닛의 입력들로서 이용된다.
본 출원의 일부 실시예들에서, 도 7에 도시된 합성 유닛들에 더하여, 인코더는 보조 정보 생성 유닛을 추가로 포함할 수 있다. 인코더는 보조 정보 생성 유닛을 포함하지 않을 수 있고, 이것은 본 명세서에서 단지 예에 불과하다. 이는 제한되지는 않는다.
타깃 가상 스피커의 좌표 및/또는 가상 스피커 선택 유닛에 의해 출력된 타깃 가상 스피커의 HOA 계수는 보조 정보 생성 유닛의 입력으로서 이용된다.
보조 정보 생성 유닛은 타깃 가상 스피커에 대한 HOA 계수 또는 타깃 가상 스피커의 좌표를 보조 정보가 되도록 변환하는데, 이는 코어 인코더에 의한 처리 및 송신을 용이하게 한다.
보조 정보 생성 유닛의 출력은 코어 인코더 처리 유닛의 입력으로서 사용된다.
가상 스피커 신호 생성 유닛은 인코딩될 HOA 신호 및 타깃 가상 스피커의 속성 정보에 기초하여 가상 스피커 신호를 생성하도록 구성된다.
가상 스피커 신호 생성 유닛은 인코딩될 HOA 신호 및 타깃 가상 스피커에 대한 HOA 계수를 이용하여 가상 스피커 신호를 계산한다.
타깃 가상 스피커에 대한 HOA 계수는 행렬 A로 표현되고, 인코딩될 HOA 신호는 행렬 A를 이용하여 선형 조합을 통해 획득될 수 있다. 이론적 최적 해 w, 즉 가상 스피커 신호는 최소 제곱법을 사용하여 획득될 수 있다. 예를 들어, 다음의 계산 공식이 사용될 수 있다:
, 여기서
은 행렬 A의 역행렬이고, 행렬 A의 크기는 (M × C)이고, C는 타깃 가상 스피커들의 수량이고, M은 N차 HOA 계수의 사운드 채널들의 수량이고, a는 타깃 가상 스피커에 대한 HOA 계수를 나타낸다. 예를 들어,
X는 인코딩될 HOA 신호를 나타내고, 행렬 X의 크기는 (M × L)이며, M은 N차 HOA 계수의 사운드 채널들의 수량이고, L은 샘플링 포인트들의 수량이며, x는 인코딩될 HOA 신호에 대한 계수를 나타낸다. 예를 들어,
가상 스피커 신호 생성 유닛에 의해 출력된 가상 스피커 신호는 코어 인코더 처리 유닛의 입력으로서 사용된다.
본 출원의 일부 실시예들에서, 도 7에 도시된 합성 유닛들에 더하여, 인코더는 신호 정렬 유닛을 추가로 포함할 수 있다. 인코더는 신호 정렬 유닛을 포함하지 않을 수 있고, 이는 본 명세서에서 단지 예에 볼과하다. 이는 제한되지는 않는다.
가상 스피커 신호 생성 유닛에 의해 출력된 가상 스피커 신호는 신호 정렬 유닛의 입력으로서 사용된다.
신호 정렬 유닛은 가상 스피커 신호의 사운드 채널들을 재조정하여 채널간 상관성을 향상시키고 코어 인코더에 의한 처리를 용이하게 하도록 구성된다.
신호 정렬 유닛에 의해 출력되는 정렬된 가상 스피커 신호는 코어 인코더 처리 유닛의 입력이다.
신호 재구성 유닛은 가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수를 사용하여 HOA 신호를 재구성하도록 구성된다.
타깃 가상 스피커에 대한 HOA 계수의 성분은 행렬 A에 의해 표현된다. 행렬 A의 크기는 (M×C)이고, 행렬은 로 표기되며, 여기서 C는 매칭된 가상 스피커들의 수량이고, M은 N차 HOA 계수의 사운드 채널들의 수량이다. 가상 스피커 신호는 행렬 W로 표현되고, 행렬 W의 크기는 (C × L)이며, 여기서 L은 신호 샘플링 포인트들의 수량을 나타낸다. 따라서, 재구성된 HOA 신호 T는 다음과 같다:
신호 재구성 유닛에 의해 출력된 재구성된 HOA 신호는 잔차 신호 생성 유닛의 입력이다.
잔차 신호 생성 유닛은, 인코딩될 HOA 신호와 신호 재구성 유닛에 의해 출력된 재구성된 HOA 신호를 이용함으로써 잔차 신호를 계산하도록 구성된다. 예를 들어, 계산 방법은, 인코딩될 HOA 신호와 신호 재구성 유닛에 의해 출력된 재구성된 HOA 신호에 대응하는 사운드 채널에서의 대응하는 샘플링 포인트 사이의 차이를 획득하는 것이다.
잔차 신호 생성 유닛에 의해 출력된 잔차 신호는 신호 보상 유닛 및 선택 유닛의 입력이다.
선택 유닛은 인코더의 구성 정보 및 신호 클래스 정보에 기초하여 가상 스피커 신호 및/또는 잔차 신호를 선택하도록 구성되고, 예를 들어, 선택은 가상 스피커 신호 선택 및 잔차 신호 선택을 포함한다.
예를 들어, 사운드 채널들의 수량을 감소시키기 위해, M개 미만의 사운드 채널을 갖는 잔차 신호가 인코딩될 잔차 신호로서 선택될 수 있다. 저차 잔차 신호가 인코딩될 잔차 신호로서 선택될 수 있거나, 또는 높은 에너지를 갖는 잔차 신호가 인코딩될 잔차 신호로서 선택될 수 있다.
선택 유닛에 의해 출력된 잔차 신호는 코어 인코더 처리 유닛의 입력 및 신호 보상 유닛의 입력이다.
신호 보상 유닛은, M개의 사운드 채널을 갖는 잔차 신호가 인코딩될 잔차 신호로서 역할을 하는 것과 비교해 M개 미만의 사운드 채널을 갖는 잔차 신호가 인코딩될 잔차 신호로서 선택될 때 신호 손실이 발생하기 때문에 송신되지 않은 잔차 신호에 대한 신호 보상을 수행하도록 구성된다. 신호 보상은 정보 손실 분석, 에너지 보상, 포락선 보상, 및 잡음 보상일 수 있는데며, 이에 제한되지는 않는다. 보상 방법은 선형 보상, 비선형 보상, 또는 그와 유사한 것일 수 있다. 신호 보상 유닛은 신호 보상을 위한 보조 정보를 생성한다.
코어 인코더 처리 유닛은 송신을 위한 비트스트림을 획득하기 위해 보조 정보 및 정렬된 가상 스피커 신호에 대해 코어 인코더 처리를 수행하도록 구성된다.
코어 인코더 처리는 변환, 양자화, 심리음향 모델, 및 비트스트림 생성을 포함하지만 이에 제한되지는 않고, 주파수 도메인 사운드 채널 또는 시간 도메인 사운드 채널을 처리할 수 있는데며, 이는 본 명세서에서 제한되지는 않는다.
도 9에 도시된 바와 같이, 본 출원의 이 실시예에서 제공되는 디코더는 코어 디코더 처리 유닛 및 HOA 신호 재구성 유닛을 포함할 수 있다.
코어 디코더 처리 유닛은 가상 스피커 신호 및 잔차 신호를 획득하기 위해 송신을 위한 비트스트림에 대해 코어 디코더 처리를 수행하도록 구성된다.
인코더가 보조 정보를 비트스트림에 추가하는 경우, 디코더는 보조 정보 디코딩 유닛을 추가로 포함할 필요가 있다. 이는 제한되지는 않는다.
보조 정보 디코딩 유닛은 코어 디코더 처리 유닛에 의해 출력되는 디코딩될 보조 정보를 디코딩하여, 디코딩된 보조 정보를 획득하도록 구성된다.
코어 디코더 처리는 변환, 비트스트림 파싱, 및 탈양자화를 포함할 수 있고, 주파수 도메인 사운드 채널 또는 시간 도메인 사운드 채널을 처리할 수 있으며, 이는 본 명세서에서 제한되지는 않는다.
코어 디코더 처리 유닛에 의해 출력된 잔차 신호 및 가상 스피커 신호는 HOA 신호 재구성 유닛의 입력들로서 이용되고, 코어 디코더 처리 유닛에 의해 출력된 디코딩된 보조 정보는 보조 정보 디코딩 유닛의 입력이다.
보조 정보 디코딩 유닛은 디코딩된 보조 정보를 타깃 가상 스피커에 대한 HOA 계수가 되도록 변환한다.
보조 정보 디코딩 유닛에 의해 출력된 타깃 가상 스피커에 대한 HOA 계수는 HOA 신호 재구성 유닛의 입력이다.
HOA 신호 재구성 유닛은 타깃 가상 스피커에 대한 HOA 계수 및 잔차 신호를 사용하여 가상 스피커 신호를 재구성하여, 재구성된 HOA 신호를 획득하도록 구성된다.
타깃 가상 스피커에 대한 HOA 계수는 행렬 A'로 표현된다. 행렬 A'의 크기는 (M×C)이고, 행렬은 A'로 표시되고, 여기서 C는 타깃 가상 스피커들의 수량이고, M은 N차 HOA 계수의 사운드 채널들의 수량이다. 가상 스피커 신호의 성분은 W'로 표시되는 (C × L) 행렬의 것이며, 여기서 L은 신호 샘플링 포인트들의 수량이다. 재구성된 HOA 신호 H는 하기의 공식을 사용하여 획득된다:
, 여기서
신호 재구성 유닛에 의해 출력된 재구성된 HOA 신호는 디코더의 출력이다.
본 출원의 일부 실시예들에서, 인코더의 비트스트림이 신호 보상을 위해 사용되는 보조 정보를 추가로 운반하는 경우, 디코더는 다음을 추가로 포함할 수 있다.
재구성된 HOA 신호와 잔차 신호를 합성하여 합성된 HOA 신호를 획득하도록 구성된 신호 보상 유닛. 합성된 HOA 신호는 신호 보상에 이용되는 보조 정보를 이용하여 조정되어 재구성된 HOA 계수를 획득하게 된다.
본 출원의 이 실시예에서, 인코더는 보다 적은 사운드 채널들을 사용하여 오리지널 HOA 신호를 표현하기 위해 공간 인코더를 사용할 수 있다. 예를 들어, 오리지널 3차 HOA 신호에 대해, 본 출원의 이 실시예에서의 공간 인코더는 16개의 사운드 채널을 4개의 사운드 채널이 되도록 압축하고, 주관적 청취가 명백하게 상이하지 않은 것을 보장할 수 있다. 주관적 청취 테스트는 오디오 인코딩 및 디코딩에서의 평가 기준이다. 어떠한 명백한 차이도 주관적인 평가의 레벨이 아니다.
본 출원의 일부 다른 실시예들에서, 인코더의 가상 스피커 선택 유닛은 가상 스피커 세트로부터 타깃 가상 스피커들을 선택하거나, 또는 특정된 방향 및 로케이션에 있는 가상 스피커를 타깃 가상 스피커로서 사용할 수 있고, 가상 스피커 신호 생성 유닛은 각각의 타깃 가상 스피커에 대한 사영을 직접 수행하여 가상 스피커 신호를 획득하게 된다.
전술한 방식으로, 특정된 방향 및 로케이션에 있는 가상 스피커가 타깃 가상 스피커로서 사용된다. 이는 가상 스피커 선택 프로세스를 단순화하고, 인코딩 및 디코딩 속도를 개선할 수 있다.
본 출원의 일부 다른 실시예들에서, 인코더는 신호 정렬 유닛을 포함하지 않을 수 있다. 이 경우, 가상 스피커 신호 생성 유닛의 출력은 코어 인코더에 의해 직접 인코딩된다. 전술한 방식은 신호 정렬 처리를 감소시키고, 인코더의 복잡도를 감소시킨다.
전술한 예들에서의 설명으로부터, 본 출원의 실시예들에서, 선택된 타깃 가상 스피커가 HOA 신호의 인코딩 및 디코딩에 적용된다는 것을 알 수 있다. 본 출원의 실시예들에서, HOA 신호의 사운드 소스의 정확한 위치 결정이 획득될 수 있고, HOA 신호를 재구성하기 위한 방향이 보다 정확하며, 인코딩 효율이 보다 높고, 디코더의 복잡성이 아주 낮다. 이는 모바일 단말기 상의 응용에 유익하고 인코딩 및 디코딩의 성능을 개선할 수 있다.
간단한 설명을 위해, 전술한 방법 실시예들은 일련의 액션들로서 표현된다는 점에 유의해야 한다. 그러나, 본 출원에 따르면, 일부 단계들이 다른 순서들로 또는 동시에 수행될 수 있기 때문에, 본 기술분야의 통상의 기술자는 본 출원이 액션들의 설명된 순서에만 제한되지 않는다는 것을 알아야 한다. 본 명세서에 설명되는 실시예들은 모두 예시적인 실시예들에 속하고, 수반된 액션들 및 모듈들이 본 출원에 의해 반드시 요구되는 것은 아니라는 점을 본 기술분야의 통상의 기술자가 추가로 알아야 한다.
본 출원의 실시예들의 해결책들을 더 잘 구현하기 위해, 해결책들을 구현하기 위한 관련 장치가 아래에 추가로 제공된다.
도 10에 도시된 바와 같이, 본 출원의 실시예에서 제공되는 오디오 인코딩 장치(1000)는 획득 모듈(1001), 신호 생성 모듈(1002), 및 인코딩 모듈(1003)을 포함할 수 있다.
획득 모듈은 제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하도록 구성된다.
신호 생성 모듈은 제1 장면 오디오 신호 및 제1 타깃 가상 스피커의 속성 정보에 기초하여 가상 스피커 신호를 생성하도록 구성된다.
신호 생성 모듈은 제1 타깃 가상 스피커의 속성 정보 및 제1 가상 스피커 신호를 사용하여 제2 장면 오디오 신호를 획득하도록 구성된다.
신호 생성 모듈은 제1 장면 오디오 신호 및 제2 장면 오디오 신호에 기초하여 잔차 신호를 생성하도록 구성된다.
인코딩 모듈은 가상 스피커 신호 및 잔차 신호를 인코딩하여 비트스트림을 획득하도록 구성된다.
본 출원의 일부 실시예들에서, 획득 모듈은 가상 스피커 세트에 기초하여 제1 장면 오디오 신호로부터 주요 음장 성분을 획득하고; 및 주요 음장 성분에 기초하여 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하도록 구성된다.
본 출원의 일부 실시예들에서, 획득 모듈은: 주요 음장 성분에 기초하여 HOA(higher order ambisonics) 계수 세트로부터 주요 음장 성분에 대한 HOA 계수를 선택하고 - HOA 계수 세트에서의 HOA 계수들은 가상 스피커 세트에서의 가상 스피커들과 일대일 대응관계에 있음 -; 및 가상 스피커 세트에서의 주요 음장 성분에 대한 HOA 계수에 대응하는 가상 스피커를 제1 타깃 가상 스피커로서 결정하도록 구성된다.
본 출원의 일부 실시예들에서, 획득 모듈은: 주요 음장 성분에 기초하여 제1 타깃 가상 스피커의 구성 파라미터를 획득하고; 제1 타깃 가상 스피커의 구성 파라미터에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 생성하고; 및 가상 스피커 세트 내의 제1 타깃 가상 스피커에 대한 HOA 계수에 대응하는 가상 스피커를 제1 타깃 가상 스피커로서 결정하도록 구성된다.
본 출원의 일부 실시예들에서, 획득 모듈은 오디오 인코더의 구성 정보에 기초하여 가상 스피커 세트 내의 복수의 가상 스피커의 구성 파라미터들을 결정하고; 및 주요 음장 성분에 기초하여 복수의 가상 스피커의 구성 파라미터들로부터 제1 타깃 가상 스피커의 구성 파라미터를 선택하도록 구성된다.
본 출원의 일부 실시예들에서, 제1 타깃 가상 스피커의 구성 파라미터는 제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보를 포함한다.
획득 모듈은 제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 결정하도록 구성된다.
본 출원의 일부 실시예들에서, 인코딩 모듈은 제1 타깃 가상 스피커의 속성 정보를 인코딩하고, 인코딩된 정보를 비트스트림에 기입하도록 추가로 구성된다.
본 출원의 일부 실시예들에서, 제1 장면 오디오 신호는 인코딩될 HOA(higher order ambisonics) 신호를 포함하고, 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커에 대한 HOA 계수를 포함한다.
신호 생성 모듈은 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 제1 가상 스피커 신호를 획득하도록 구성된다.
본 출원의 일부 실시예들에서, 제1 장면 오디오 신호는 인코딩될 HOA(higher order ambisonics) 신호를 포함하고, 제1 타깃 가상 스피커의 속성 정보는 제1 타깃 가상 스피커의 로케이션 정보를 포함한다.
신호 생성 모듈은: 제1 타깃 가상 스피커의 로케이션 정보에 기초하여 제1 타깃 가상 스피커에 대한 HOA 계수를 획득하고; 및 인코딩될 HOA 신호 및 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 제1 가상 스피커 신호를 획득하도록 구성된다.
본 출원의 일부 실시예들에서, 획득 모듈은 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하도록 구성된다.
신호 생성 모듈은 제1 장면 오디오 신호 및 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하도록 구성된다.
인코딩 모듈은 제2 가상 스피커 신호를 인코딩하고, 인코딩된 신호를 비트스트림에 기입하도록 구성된다.
대응하여, 신호 생성 모듈은 제1 타깃 가상 스피커의 속성 정보, 제1 가상 스피커 신호, 제2 타깃 가상 스피커의 속성 정보, 및 제2 가상 스피커 신호에 기초하여 제2 장면 오디오 신호를 획득하도록 구성된다.
본원의 일부 실시예들에서, 신호 생성 모듈은 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 정렬하여 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호를 획득하도록 구성된다.
대응하여, 인코딩 모듈은 정렬된 제2 가상 스피커 신호를 인코딩하도록 구성된다.
대응하여, 인코딩 모듈은 정렬된 제1 가상 스피커 신호 및 잔차 신호를 인코딩하도록 구성된다.
본 출원의 일부 실시예들에서, 획득 모듈은 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하도록 구성된다.
신호 생성 모듈은 제1 장면 오디오 신호 및 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하도록 구성된다.
대응하여, 인코딩 모듈은 제1 가상 스피커 신호 및 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하도록 구성된다. 제1 보조 정보는 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계를 나타낸다.
대응하여, 인코딩 모듈은 다운믹싱된 신호, 제1 보조 정보, 및 잔차 신호를 인코딩하도록 구성된다.
본원의 일부 실시예들에서, 신호 생성 모듈은 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 정렬하여 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호를 획득하도록 구성된다.
인코딩 모듈은 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하도록 구성된다.
대응하여, 제1 보조 정보는 정렬된 제1 가상 스피커 신호와 정렬된 제2 가상 스피커 신호 사이의 관계를 나타낸다.
본 출원의 일부 실시예들에서, 획득 모듈은: 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하기 전에, 제1 장면 오디오 신호의 인코딩 레이트 및/또는 신호 클래스 정보에 기초하여, 제1 타깃 가상 스피커 이외의 타깃 가상 스피커가 획득될 필요가 있는지를 결정하고; 및 제1 타깃 가상 스피커 이외의 타깃 가상 스피커가 획득될 필요가 있는 경우에만 제1 장면 오디오 신호에 기초하여 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하도록 구성된다.
본 출원의 일부 실시예들에서, 잔차 신호는 적어도 2개의 사운드 채널 상의 잔차 서브신호들을 포함한다.
신호 생성 모듈은, 오디오 인코더의 구성 정보 및/또는 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여 적어도 2개의 사운드 채널 상의 잔차 서브신호들로부터, 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 결정하도록 구성된다.
대응하여, 인코딩 모듈은 제1 가상 스피커 신호 및 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 인코딩하도록 구성된다.
본 출원의 일부 실시예들에서, 획득 모듈은 적어도 2개의 사운드 채널 상의 잔차 서브신호들이 인코딩될 필요가 없고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 포함하는 경우에 제2 보조 정보를 획득하도록 구성된다. 제2 보조 정보는 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호와 인코딩될 필요가 없고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호 사이의 관계를 나타낸다.
대응하여, 인코딩 모듈은 제2 보조 정보를 비트스트림에 기입하도록 구성된다.
도 11에 도시된 바와 같이, 본 출원의 실시예에서 제공되는 오디오 디코딩 장치(1100)는 수신 모듈(1101), 디코딩 모듈(1102), 및 재구성 모듈(1103)을 포함할 수 있다.
수신 모듈은 비트스트림을 수신하도록 구성된다.
디코딩 모듈은 비트스트림을 디코딩하여 가상 스피커 신호 및 잔차 신호를 획득하도록 구성된다.
재구성 모듈은 타깃 가상 스피커의 속성 정보, 잔차 신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하도록 구성된다.
본 출원의 일부 실시예들에서, 디코딩 모듈은 비트스트림을 디코딩하여 타깃 가상 스피커의 속성 정보를 획득하도록 추가로 구성된다.
본 출원의 일부 실시예들에서, 타깃 가상 스피커의 속성 정보는 타깃 가상 스피커에 대한 HOA(higher order ambisonics) 계수를 포함한다.
재구성 모듈은: 가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하여 합성된 장면 오디오 신호를 획득하고; 및 잔차 신호를 사용함으로써 합성된 장면 오디오 신호를 조정하여 재구성된 장면 오디오 신호를 획득하도록 구성된다.
본 출원의 일부 실시예들에서, 타깃 가상 스피커의 속성 정보는 타깃 가상 스피커의 로케이션 정보를 포함한다.
재구성 모듈은: 타깃 가상 스피커의 로케이션 정보에 기초하여 타깃 가상 스피커에 대한 HOA 계수를 결정하고; 가상 스피커 신호 및 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하여 합성된 장면 오디오 신호를 획득하고; 및 잔차 신호를 사용함으로써 합성된 장면 오디오 신호를 조정하여 재구성된 장면 오디오 신호를 획득하도록 구성된다.
본 출원의 일부 실시예들에서, 도 11에 도시된 바와 같이, 가상 스피커 신호는 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 다운믹싱함으로써 획득되는 다운믹싱된 신호이다. 장치(1100)는 제1 신호 보상 모듈(1104)을 추가로 포함한다.
디코딩 모듈은 비트스트림을 디코딩하여 제1 보조 정보를 획득하도록 구성된다. 제1 보조 정보는 제1 가상 스피커 신호와 제2 가상 스피커 신호 사이의 관계를 나타낸다.
제1 신호 보상 모듈은 제1 보조 정보 및 다운믹싱된 신호에 기초하여 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 획득하도록 구성된다.
대응하여, 재구성 모듈은 타깃 가상 스피커의 속성 정보, 잔차 신호, 제1 가상 스피커 신호, 및 제2 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하도록 구성된다.
본 출원의 일부 실시예들에서, 도 11에 도시된 바와 같이, 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함한다. 장치(1100)는 제2 신호 보상 모듈(1105)을 추가로 포함한다.
디코딩 모듈은 비트스트림을 디코딩하여 제2 보조 정보를 획득하도록 구성된다. 제2 보조 정보는 제1 사운드 채널 상의 잔차 서브신호와 제2 사운드 채널 상의 잔차 서브신호 사이의 관계를 나타낸다.
제2 신호 보상 모듈은 제2 보조 정보 및 제1 사운드 채널 상의 잔차 서브신호에 기초하여 제2 사운드 채널 상의 잔차 서브신호를 획득하도록 구성된다.
대응하여, 재구성 모듈은 타깃 가상 스피커의 속성 정보, 제1 사운드 채널 상의 잔차 서브신호, 제2 사운드 채널 상의 잔차 서브신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하도록 구성된다.
본 출원의 일부 실시예들에서, 도 11에 도시된 바와 같이, 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함한다. 장치(1100)는 제3 신호 보상 모듈(1106)을 추가로 포함한다.
디코딩 모듈은 비트스트림을 디코딩하여 제2 보조 정보를 획득하도록 구성된다. 제2 보조 정보는 제1 사운드 채널 상의 잔차 서브신호와 제3 사운드 채널 상의 잔차 서브신호 사이의 관계를 나타낸다.
제3 신호 보상 모듈은 제2 보조 정보 및 제1 사운드 채널 상의 잔차 서브신호에 기초하여 제3 사운드 채널 상의 잔차 서브신호 및 제1 사운드 채널 상의 업데이트된 잔차 서브신호를 획득하도록 구성된다.
대응하여, 재구성 모듈은 타깃 가상 스피커의 속성 정보, 제1 사운드 채널 상의 업데이트된 잔차 서브신호, 제3 사운드 채널 상의 잔차 서브신호, 및 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하도록 구성된다.
장치의 모듈들/유닛들과 그의 실행 프로세스들 사이의 정보 교환과 같은 내용은 본 출원의 방법 실시예들과 동일한 아이디어에 기초하고, 본 출원의 방법 실시예들과 동일한 기술적 효과들을 산출한다는 점에 유의해야 한다. 구체적인 내용에 대해서는, 본 출원의 방법 실시예들에서의 전술한 설명을 참조하고, 상세사항들이 본 명세서에서 다시 설명되지는 않는다.
본 출원의 실시예는 컴퓨터 저장 매체를 추가로 제공한다. 컴퓨터 저장 매체는 프로그램을 저장하고, 프로그램은 전술한 방법 실시예들에서 설명된 단계들의 일부 또는 전부를 수행한다.
이하에서는 본 출원의 실시예에서 제공되는 또 다른 오디오 인코딩 장치를 설명한다. 도 12에 도시된 바와 같이, 오디오 인코딩 장치(1200)는:
수신기(1201), 송신기(1202), 프로세서(1203), 및 메모리(1204)(오디오 인코딩 장치(1200)에는 하나 이상의 프로세서(1203)가 있을 수 있고, 도 12에서는 하나의 프로세서가 예로서 사용됨)를 포함한다. 본 출원의 일부 실시예들에서, 수신기(1201), 송신기(1202), 프로세서(1203), 및 메모리(1204)는 버스를 통해 또는 또 다른 방식으로 접속될 수 있다. 도 12에서, 버스를 통한 접속이 예로서 사용된다.
메모리(1204)는 판독 전용 메모리 및 랜덤 액세스 메모리를 포함할 수 있고, 명령어들 및 데이터를 프로세서(1203)에 제공할 수 있다. 메모리(1204)의 일부는 비휘발성 랜덤 액세스 메모리(non-volatile random access memory, NVRAM)를 추가로 포함할 수 있다. 메모리(1204)는 운영 체제 및 동작 명령어들, 실행가능 모듈 또는 데이터 구조, 또는 이들의 서브세트, 또는 이들의 확장된 세트를 저장한다. 동작 명령어들은 다양한 동작들을 구현하기 위해 사용되는 다양한 동작 명령어들을 포함할 수 있다. 운영 체제는 다양한 기본 서비스들을 구현하고 하드웨어 기반 작업을 처리하기 위해 다양한 시스템 프로그램들을 포함할 수 있다.
프로세서(1203)는 오디오 인코딩 장치의 동작들을 제어하고, 프로세서(1203)는 중앙 처리 유닛(central processing unit, CPU)이라고도 지칭될 수 있다. 특정 응용에서, 오디오 인코딩 장치의 컴포넌트들은 버스 시스템을 통해 함께 결합된다. 데이터 버스 외에도, 버스 시스템은 전력 버스, 제어 버스, 상태 신호 버스, 및 그와 유사한 것을 추가로 포함할 수 있다. 그러나, 명확한 설명을 위해, 도면에서 다양한 타입의 버스들이 버스 시스템으로서 마킹된다.
본 출원의 실시예들에 개시되는 방법들은 프로세서(1203)에 적용될 수 있거나, 또는 프로세서(1203)를 사용하여 구현될 수 있다. 프로세서(1203)는 집적 회로 칩일 수 있고 신호 처리 능력을 갖는다. 구현 프로세스에서, 전술한 방법들의 단계들은 프로세서(1203) 내의 하드웨어의 집적 논리 회로 또는 소프트웨어 형태의 명령어를 사용하여 완료될 수 있다. 프로세서(1203)는 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 주문형 집적 회로(application-specific integrated circuit, ASIC), 필드 프로그래머블 게이트 어레이(field-programmable gate array, FPGA) 또는 다른 프로그래머블 논리 디바이스, 이산 게이트 또는 트랜지스터 논리 디바이스, 또는 이산 하드웨어 컴포넌트일 수 있다. 그것은 본 출원의 실시예들에 개시되는 방법들, 단계들, 및 논리 블록도들을 구현하거나 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 또는 프로세서는 대안적으로 임의의 종래의 프로세서 또는 그와 유사한 것일 수 있다. 본 출원의 실시예들을 참조하여 개시된 방법들의 단계들은 하드웨어 디코딩 프로세서에 의해 직접 실행되고 달성될 수 있거나, 또는 디코딩 프로세서 내의 하드웨어 및 소프트웨어 모듈들의 조합을 사용하여 실행되고 달성될 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리, 플래시 메모리, 판독 전용 메모리, 프로그래머블 판독 전용 메모리, 전기적 소거 가능 프로그래머블 메모리, 또는 레지스터와 같은, 본 기술분야의 발달된 저장 매체에 위치될 수 있다. 저장 매체는 메모리(1204)에 위치되고, 프로세서(1203)는 메모리(1204) 내의 정보를 판독하고 프로세서의 하드웨어와 조합하여 전술한 방법들의 단계들을 완료한다.
수신기(1201)는: 입력 디지털 또는 문자 정보를 수신하고, 오디오 인코딩 장치의 관련 설정 및 기능 제어에 관련된 신호 입력을 생성하도록 구성될 수 있다. 송신기(1202)는 디스플레이 스크린과 같은 디스플레이 디바이스를 포함할 수 있고, 송신기(1202)는 외부 인터페이스를 통해 디지털 또는 문자 정보를 출력하도록 구성될 수 있다.
본 출원의 이 실시예에서, 프로세서(1203)는 도 4에 도시된 전술한 실시예에서 오디오 인코딩 장치에 의해 수행되는 오디오 인코딩 방법을 수행하도록 구성된다.
이하에서는 본 출원의 실시예에서 제공되는 또 다른 오디오 디코딩 장치를 설명한다. 도 13에 도시된 바와 같이, 오디오 디코딩 장치(1300)는:
수신기(1301), 송신기(1302), 프로세서(1303), 및 메모리(1304)(오디오 디코딩 장치(1300)에는 하나 이상의 프로세서(1303)가 있을 수 있고, 도 13에서는 하나의 프로세서가 예로서 사용됨)를 포함한다. 본 출원의 일부 실시예들에서, 수신기(1301), 송신기(1302), 프로세서(1303), 및 메모리(1304)는 버스를 통해 또는 또 다른 방식으로 접속될 수 있다. 도 13에서, 버스를 통한 접속이 예로서 사용된다.
메모리(1304)는 판독 전용 메모리 및 랜덤 액세스 메모리를 포함할 수 있고, 명령어들 및 데이터를 프로세서(1303)에 제공할 수 있다. 메모리(1304)의 일부는 NVRAM을 추가로 포함할 수 있다. 메모리(1304)는 운영 체제 및 동작 명령어들, 실행가능 모듈 또는 데이터 구조, 또는 이들의 서브세트, 또는 이들의 확장된 세트를 저장한다. 동작 명령어들은 다양한 동작들을 구현하기 위해 사용되는 다양한 동작 명령어들을 포함할 수 있다. 운영 체제는 다양한 기본 서비스들을 구현하고 하드웨어 기반 작업을 처리하기 위해 다양한 시스템 프로그램들을 포함할 수 있다.
프로세서(1303)는 오디오 디코딩 장치의 동작들을 제어하고, 프로세서(1303)는 CPU라고도 지칭될 수 있다. 특정 응용에서, 오디오 디코딩 장치의 컴포넌트들은 버스 시스템을 통해 함께 결합된다. 데이터 버스 외에도, 버스 시스템은 전력 버스, 제어 버스, 상태 신호 버스, 및 그와 유사한 것을 추가로 포함할 수 있다. 그러나, 명확한 설명을 위해, 도면에서 다양한 타입의 버스들이 버스 시스템으로서 마킹된다.
본 출원의 실시예들에 개시되는 방법들은 프로세서(1303)에 적용될 수 있거나, 또는 프로세서(1303)를 사용하여 구현될 수 있다. 프로세서(1303)는 집적 회로 칩일 수 있고, 신호 처리 능력을 갖는다. 구현 프로세스에서, 전술한 방법들의 단계들은 프로세서(1303) 내의 하드웨어의 집적 논리 회로 또는 소프트웨어 형태의 명령어를 사용하여 완료될 수 있다. 프로세서(1303)는 범용 프로세서, DSP, ASIC, FPGA 또는 또 다른 프로그래머블 논리 디바이스, 이산 게이트 또는 트랜지스터 논리 디바이스, 또는 이산 하드웨어 컴포넌트일 수 있다. 그것은 본 출원의 실시예들에 개시되는 방법들, 단계들, 및 논리 블록도들을 구현하거나 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 또는 프로세서는 대안적으로 임의의 종래의 프로세서 또는 그와 유사한 것일 수 있다. 본 출원의 실시예들을 참조하여 개시된 방법들의 단계들은 하드웨어 디코딩 프로세서에 의해 직접 실행되고 달성될 수 있거나, 또는 디코딩 프로세서 내의 하드웨어 및 소프트웨어 모듈들의 조합을 사용하여 실행되고 달성될 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리, 플래시 메모리, 판독 전용 메모리, 프로그래머블 판독 전용 메모리, 전기적 소거 가능 프로그래머블 메모리, 또는 레지스터와 같은, 본 기술분야의 발달된 저장 매체에 위치될 수 있다. 저장 매체는 메모리(1304)에 위치되고, 프로세서(1303)는 메모리(1304) 내의 정보를 판독하고, 프로세서의 하드웨어와 조합하여 전술한 방법들의 단계들을 완료한다.
본 출원의 이 실시예에서, 프로세서(1303)는 도 4에 도시된 전술한 실시예에서 오디오 디코딩 장치에 의해 수행되는 오디오 디코딩 방법을 수행하도록 구성된다.
또 다른 가능한 설계에서, 오디오 인코딩 장치 또는 오디오 디코딩 장치가 단말기 내의 칩일 때, 칩은 처리 유닛 및 통신 유닛을 포함한다. 처리 유닛은 예를 들어, 프로세서일 수 있다. 통신 유닛은, 예를 들어, 입력/출력 인터페이스, 핀, 또는 회로일 수 있다. 처리 유닛은 저장 유닛에 저장된 컴퓨터 실행가능 명령어들을 실행하여, 단말기 내의 칩이 제1 양태 중 어느 하나에서의 오디오 인코딩 방법 또는 제2 양태 중 어느 하나에서의 오디오 디코딩 방법을 수행할 수 있게 할 수 있다. 선택적으로, 저장 유닛은 칩 내의 저장 유닛, 예를 들어, 레지스터 또는 캐시이다. 대안적으로, 저장 유닛은 단말기 내에 있고 또한 칩 외부에 위치되는 저장 유닛, 예를 들어, 판독 전용 메모리(read-only memory, ROM), 정적 정보 및 명령어들을 저장할 수 있는 또 다른 타입의 정적 저장 디바이스, 또는 랜덤 액세스 메모리(random access memory, RAM)일 수 있다.
위의 어디에서든 언급된 프로세서는 범용 중앙 처리 유닛, 마이크로프로세서, ASIC, 또는 제1 양태 또는 제2 양태에서의 방법의 프로그램 실행을 제어하도록 구성된 하나 이상의 집적 회로일 수 있다.
또한, 설명된 장치 실시예들은 단지 예들이라는 점에 유의해야 한다. 별개의 부분들로서 설명되는 유닛들은 물리적으로 별개일 수 있거나 또는 그렇지 않을 수 있고, 유닛들로서 디스플레이되는 부분들은 물리적 유닛들일 수 있거나 또는 그렇지 않을 수 있고, 하나의 위치에 위치될 수 있거나, 또는 복수의 네트워크 유닛 상에 분포될 수 있다. 모듈들의 일부 또는 전부는 실시예들에서의 해결책들의 목적들을 달성하기 위해 실제 필요에 기초하여 선택될 수 있다. 또한, 본 출원에 의해 제공되는 장치 실시예들의 첨부 도면들에서, 모듈들 사이의 접속 관계들은 모듈들이 서로 통신 접속들을 갖는다는 점을 표시하며, 이는 구체적으로 하나 이상의 통신 버스 또는 신호 케이블로서 구현될 수 있다.
전술한 구현들의 설명에 기초하여, 본 기술분야의 통상의 기술자는 본 출원이 필요한 범용 하드웨어에 더하여 소프트웨어에 의해, 또는 전용 집적 회로, 전용 CPU, 전용 메모리, 전용 컴포넌트, 및 그와 유사한 것을 포함하는 전용 하드웨어에 의해 구현될 수 있다는 것을 명확하게 이해할 수 있다. 일반적으로, 컴퓨터 프로그램에 의해 수행될 수 있는 임의의 기능은 대응하는 하드웨어를 사용하여 쉽게 구현될 수 있다. 더욱이, 동일한 기능을 달성하기 위해 사용되는 특정 하드웨어 구조는 다양한 형태들, 예를 들어, 아날로그 회로, 디지털 회로, 또는 전용 회로의 형태를 가질 수 있다. 그러나, 본 출원과 관련하여, 소프트웨어 프로그램 구현이 대부분의 경우에 더 나은 구현이다. 이러한 이해에 기초하여, 본질적으로 본 출원의 기술적 해결책들 또는 종래의 기술에 기여하는 부분은 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 판독가능 저장 매체, 예를 들어, 컴퓨터의 플로피 디스크, USB 플래시 드라이브, 이동식 하드 디스크, ROM, RAM, 자기 디스크, 또는 광 디스크에 저장되고, 컴퓨터 디바이스(개인용 컴퓨터, 서버, 네트워크 디바이스, 또는 그와 유사한 것일 수 있음)에게 본 출원의 실시예들에서 설명된 방법들을 수행하도록 지시하기 위한 여러 명령어들을 포함한다.
전술한 실시예들의 전부 또는 일부는 소프트웨어, 하드웨어, 펌웨어, 또는 이들의 임의의 조합을 사용하여 구현될 수 있다. 소프트웨어가 실시예들을 구현하기 위해 사용될 때, 실시예들의 전부 또는 일부는 컴퓨터 프로그램 제품의 형태로 구현될 수 있다.
컴퓨터 프로그램 제품은 하나 이상의 컴퓨터 명령어를 포함한다. 컴퓨터 프로그램 명령어들이 컴퓨터 상에서 로드되고 실행될 때, 본 출원의 실시예들에 따른 절차들 또는 기능들은 모두 또는 부분적으로 생성된다. 컴퓨터는 범용 컴퓨터, 특수 목적 컴퓨터, 컴퓨터 네트워크, 또는 또 다른 프로그래머블 장치일 수 있다. 컴퓨터 명령어들은 컴퓨터 판독가능 저장 매체에 저장될 수 있거나, 또는 컴퓨터 판독가능 저장 매체로부터 또 다른 컴퓨터 판독가능 저장 매체로 송신될 수 있다. 예를 들어, 컴퓨터 명령어들은 유선(예를 들어, 동축 케이블, 광섬유, 또는 DSL(digital subscriber line)) 또는 무선(예를 들어, 적외선, 라디오, 또는 마이크로파) 방식으로 웹사이트, 컴퓨터, 서버, 또는 데이터 센터로부터 또 다른 웹사이트, 컴퓨터, 서버, 또는 데이터 센터로 송신될 수 있다. 컴퓨터 판독가능 저장 매체는 컴퓨터에 의해 액세스가능한 임의의 사용가능 매체, 또는 하나 이상의 사용가능 매체를 통합하는, 서버 또는 데이터 센터와 같은 데이터 저장 디바이스일 수 있다. 사용가능 매체는 자기 매체(예를 들어, 플로피 디스크, 하드 디스크, 또는 자기 테이프), 광학 매체(예를 들어, DVD), 반도체 매체(예를 들어, 솔리드 스테이트 디스크(Solid State Disk, SSD)), 또는 그와 유사한 것일 수 있다.

Claims (52)

  1. 오디오 인코딩 방법으로서:
    제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하는 단계;
    상기 제1 장면 오디오 신호 및 상기 제1 타깃 가상 스피커의 속성 정보에 기초하여 제1 가상 스피커 신호를 생성하는 단계;
    상기 제1 타깃 가상 스피커의 속성 정보 및 상기 제1 가상 스피커 신호를 사용하여 제2 장면 오디오 신호를 획득하는 단계;
    상기 제1 장면 오디오 신호 및 상기 제2 장면 오디오 신호에 기초하여 잔차 신호(residual signal)를 생성하는 단계; 및
    상기 제1 가상 스피커 신호 및 상기 잔차 신호를 인코딩하고, 인코딩된 신호들을 비트스트림에 기입하는 단계를 포함하는 방법.
  2. 제1항에 있어서, 상기 방법은:
    상기 가상 스피커 세트에 기초하여 상기 제1 장면 오디오 신호로부터 주요 음장 성분(major sound field component)을 획득하는 단계를 추가로 포함하고; 및
    상기 제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하는 단계는:
    상기 주요 음장 성분에 기초하여 상기 가상 스피커 세트로부터 상기 제1 타깃 가상 스피커를 선택하는 단계를 포함하는 방법.
  3. 제2항에 있어서, 상기 주요 음장 성분에 기초하여 상기 가상 스피커 세트로부터 상기 제1 타깃 가상 스피커를 선택하는 단계는:
    상기 주요 음장 성분에 기초하여 HOA(higher order ambisonics) 계수 세트로부터 상기 주요 음장 성분에 대한 HOA 계수를 선택하는 단계 - 상기 HOA 계수 세트에서의 HOA 계수들은 상기 가상 스피커 세트 내의 가상 스피커들과 일대일 대응관계에 있음 -; 및
    상기 가상 스피커 세트에서의 상기 주요 음장 성분에 대한 HOA 계수에 대응하는 가상 스피커를 상기 제1 타깃 가상 스피커로서 결정하는 단계를 포함하는 방법.
  4. 제2항에 있어서, 상기 주요 음장 성분에 기초하여 상기 가상 스피커 세트로부터 상기 제1 타깃 가상 스피커를 선택하는 단계는:
    상기 주요 음장 성분에 기초하여 상기 제1 타깃 가상 스피커의 구성 파라미터를 획득하는 단계;
    상기 제1 타깃 가상 스피커의 구성 파라미터에 기초하여 상기 제1 타깃 가상 스피커에 대한 HOA 계수를 생성하는 단계; 및
    상기 가상 스피커 세트 내의 상기 제1 타깃 가상 스피커에 대한 HOA 계수에 대응하는 가상 스피커를 상기 제1 타깃 가상 스피커로서 결정하는 단계를 포함하는 방법.
  5. 제4항에 있어서, 상기 주요 음장 성분에 기초하여 상기 제1 타깃 가상 스피커의 구성 파라미터를 획득하는 단계는:
    오디오 인코더의 구성 정보에 기초하여 상기 가상 스피커 세트 내의 복수의 가상 스피커의 구성 파라미터들을 결정하는 단계; 및
    상기 주요 음장 성분에 기초하여 복수의 가상 스피커의 구성 파라미터들로부터 상기 제1 타깃 가상 스피커의 구성 파라미터를 선택하는 단계를 포함하는 방법.
  6. 제4항 또는 제5항에 있어서, 상기 제1 타깃 가상 스피커의 구성 파라미터는 상기 제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보를 포함하고; 및
    상기 제1 타깃 가상 스피커의 구성 파라미터에 기초하여 상기 제1 타깃 가상 스피커에 대한 HOA 계수를 생성하는 단계는:
    상기 제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보에 기초하여 상기 제1 타깃 가상 스피커에 대한 HOA 계수를 결정하는 단계를 포함하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 방법은:
    상기 제1 타깃 가상 스피커의 속성 정보를 인코딩하고, 인코딩된 정보를 상기 비트스트림에 기입하는 단계를 추가로 포함하는 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 제1 장면 오디오 신호는 인코딩될 HOA(higher order ambisonics) 신호를 포함하고, 상기 제1 타깃 가상 스피커의 속성 정보는 상기 제1 타깃 가상 스피커에 대한 HOA 계수를 포함하고; 및
    상기 제1 장면 오디오 신호 및 상기 제1 타깃 가상 스피커의 속성 정보에 기초하여 제1 가상 스피커 신호를 생성하는 단계는:
    상기 인코딩될 HOA 신호 및 상기 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 상기 제1 가상 스피커 신호를 획득하는 단계를 포함하는 방법.
  9. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 제1 장면 오디오 신호는 인코딩될 HOA(higher order ambisonics) 신호를 포함하고, 상기 제1 타깃 가상 스피커의 속성 정보는 상기 제1 타깃 가상 스피커의 로케이션 정보를 포함하고; 및
    상기 제1 장면 오디오 신호 및 상기 제1 타깃 가상 스피커의 속성 정보에 기초하여 제1 가상 스피커 신호를 생성하는 단계는:
    상기 제1 타깃 가상 스피커의 로케이션 정보에 기초하여 상기 제1 타깃 가상 스피커에 대한 HOA 계수를 획득하는 단계; 및
    상기 인코딩될 HOA 신호 및 상기 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 상기 제1 가상 스피커 신호를 획득하는 단계를 포함하는 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 방법은:
    상기 제1 장면 오디오 신호에 기초하여 상기 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계;
    상기 제1 장면 오디오 신호 및 상기 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하는 단계; 및
    상기 제2 가상 스피커 신호를 인코딩하고, 인코딩된 신호를 상기 비트스트림에 기입하는 단계를 추가로 포함하고; 및
    대응하여, 상기 제1 타깃 가상 스피커의 속성 정보 및 상기 제1 가상 스피커 신호를 사용하여 제2 장면 오디오 신호를 획득하는 단계는:
    상기 제1 타깃 가상 스피커의 속성 정보, 상기 제1 가상 스피커 신호, 상기 제2 타깃 가상 스피커의 속성 정보, 및 상기 제2 가상 스피커 신호에 기초하여 상기 제2 장면 오디오 신호를 획득하는 단계를 포함하는 방법.
  11. 제10항에 있어서, 상기 방법은:
    상기 제1 가상 스피커 신호 및 상기 제2 가상 스피커 신호를 정렬하여, 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호를 획득하는 단계를 추가로 포함하고;
    대응하여, 상기 제2 가상 스피커 신호를 인코딩하는 단계는,
    상기 정렬된 제2 가상 스피커 신호를 인코딩하는 단계를 포함하고; 및
    대응하여, 상기 제1 가상 스피커 신호 및 상기 잔차 신호를 인코딩하는 단계는: 상기 정렬된 제1 가상 스피커 신호 및 상기 잔차 신호를 인코딩하는 단계를 포함하는 방법.
  12. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 방법은:
    상기 제1 장면 오디오 신호에 기초하여 상기 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계; 및
    상기 제1 장면 오디오 신호 및 상기 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하는 단계를 추가로 포함하고; 및
    대응하여, 상기 제1 가상 스피커 신호 및 상기 잔차 신호를 인코딩하는 단계는:
    상기 제1 가상 스피커 신호 및 상기 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하는 단계 - 상기 제1 보조 정보는 상기 제1 가상 스피커 신호와 상기 제2 가상 스피커 신호 사이의 관계를 나타냄 -; 및
    상기 다운믹싱된 신호, 상기 제1 보조 정보, 및 상기 잔차 신호를 인코딩하는 단계를 포함하는 방법.
  13. 제12항에 있어서, 상기 방법은:
    상기 제1 가상 스피커 신호 및 상기 제2 가상 스피커 신호를 정렬하여, 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호를 획득하는 단계를 추가로 포함하고; 및
    대응하여, 상기 제1 가상 스피커 신호 및 상기 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하는 단계는:
    상기 정렬된 제1 가상 스피커 신호 및 상기 정렬된 제2 가상 스피커 신호에 기초하여 상기 다운믹싱된 신호 및 상기 제1 보조 정보를 획득하는 단계를 포함하고,
    대응하여, 상기 제1 보조 정보는 상기 정렬된 제1 가상 스피커 신호와 상기 정렬된 제2 가상 스피커 신호 사이의 관계를 나타내는 방법.
  14. 제10항 내지 제13항 중 어느 한 항에 있어서, 상기 제1 장면 오디오 신호에 기초하여 상기 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하는 단계 전에, 상기 방법은:
    상기 제1 장면 오디오 신호의 인코딩 레이트 및/또는 신호 클래스 정보에 기초하여, 상기 제1 타깃 가상 스피커 이외의 타깃 가상 스피커가 획득될 필요가 있는지를 결정하는 단계; 및
    상기 제1 타깃 가상 스피커 이외의 타깃 가상 스피커가 획득될 필요가 있는 경우에만 상기 제1 장면 오디오 신호에 기초하여 상기 가상 스피커 세트로부터 상기 제2 타깃 가상 스피커를 선택하는 단계를 추가로 포함하는 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서, 상기 잔차 신호는 적어도 2개의 사운드 채널 상의 잔차 서브신호들을 포함하고, 상기 방법은:
    상기 오디오 인코더의 구성 정보 및/또는 상기 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여 상기 적어도 2개의 사운드 채널 상의 잔차 서브신호들로부터, 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 결정하는 단계를 추가로 포함하고; 및
    대응하여, 상기 제1 가상 스피커 신호 및 상기 잔차 신호를 인코딩하는 단계는:
    상기 제1 가상 스피커 신호 및 상기 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 인코딩하는 단계를 포함하는 방법.
  16. 제15항에 있어서, 상기 적어도 2개의 사운드 채널 상의 잔차 서브신호들이 인코딩될 필요가 없고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 포함하는 경우, 상기 방법은:
    제2 보조 정보를 획득하는 단계 - 상기 제2 보조 정보는 인코딩될 필요가 있고 또한 상기 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호와, 인코딩될 필요가 없고 또한 상기 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호 사이의 관계를 나타냄 -; 및
    상기 제2 보조 정보를 비트스트림에 기입하는 단계를 추가로 포함하는 방법.
  17. 오디오 디코딩 방법으로서:
    비트스트림을 수신하는 단계;
    상기 비트스트림을 디코딩하여 가상 스피커 신호 및 잔차 신호를 획득하는 단계; 및
    타깃 가상 스피커의 속성 정보, 잔차 신호, 및 상기 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함하는 방법.
  18. 제17항에 있어서, 상기 방법은:
    상기 비트스트림을 디코딩하여 상기 타깃 가상 스피커의 속성 정보를 획득하는 단계를 추가로 포함하는 방법.
  19. 제18항에 있어서, 상기 타깃 가상 스피커의 속성 정보는 상기 타깃 가상 스피커에 대한 HOA(higher order ambisonics) 계수를 포함하고; 및
    상기 타깃 가상 스피커의 속성 정보, 상기 잔차 신호, 및 상기 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
    상기 가상 스피커 신호 및 상기 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하여 합성된 장면 오디오 신호를 획득하는 단계; 및
    상기 잔차 신호를 사용함으로써 합성된 장면 오디오 신호를 조정하여 재구성된 장면 오디오 신호를 획득하는 단계를 포함하는 방법.
  20. 제18항에 있어서, 상기 타깃 가상 스피커의 속성 정보는 상기 타깃 가상 스피커의 로케이션 정보를 포함하고; 및
    상기 타깃 가상 스피커의 속성 정보, 상기 잔차 신호, 및 상기 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
    상기 타깃 가상 스피커의 로케이션 정보에 기초하여 상기 타깃 가상 스피커에 대한 HOA 계수를 결정하는 단계;
    상기 가상 스피커 신호 및 상기 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하여 합성된 장면 오디오 신호를 획득하는 단계; 및
    상기 잔차 신호를 사용함으로써 상기 합성된 장면 오디오 신호를 조정하여 상기 재구성된 장면 오디오 신호를 획득하는 단계를 포함하는 방법.
  21. 제17항 내지 제20항 중 어느 한 항에 있어서, 상기 가상 스피커 신호는 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 다운믹싱함으로써 획득되는 다운믹싱된 신호이고, 상기 방법은:
    상기 비트스트림을 디코딩하여 제1 보조 정보를 획득하는 단계 - 상기 제1 보조 정보는 상기 제1 가상 스피커 신호와 상기 제2 가상 스피커 신호 사이의 관계를 나타냄 -; 및
    상기 제1 보조 정보 및 상기 다운믹싱된 신호에 기초하여 상기 제1 가상 스피커 신호 및 상기 제2 가상 스피커 신호를 획득하는 단계를 추가로 포함하고; 및
    대응하여, 상기 타깃 가상 스피커의 속성 정보, 상기 잔차 신호, 및 상기 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
    상기 타깃 가상 스피커의 속성 정보, 상기 잔차 신호, 상기 제1 가상 스피커 신호, 및 상기 제2 가상 스피커 신호에 기초하여 상기 재구성된 장면 오디오 신호를 획득하는 단계를 포함하는 방법.
  22. 제17항 내지 제21항 중 어느 한 항에 있어서, 상기 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함하고, 상기 방법은:
    상기 비트스트림을 디코딩하여 제2 보조 정보를 획득하는 단계 - 상기 제2 보조 정보는 상기 제1 사운드 채널 상의 잔차 서브신호와 제2 사운드 채널 상의 잔차 서브신호 사이의 관계를 나타냄 -; 및
    상기 제2 보조 정보 및 상기 제1 사운드 채널 상의 잔차 서브신호에 기초하여 상기 제2 사운드 채널 상의 잔차 서브신호를 획득하는 단계를 추가로 포함하고; 및
    대응하여, 상기 타깃 가상 스피커의 속성 정보, 상기 잔차 신호, 및 상기 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
    상기 타깃 가상 스피커의 속성 정보, 상기 제1 사운드 채널 상의 잔차 서브신호, 상기 제2 사운드 채널 상의 잔차 서브신호, 및 상기 가상 스피커 신호에 기초하여 상기 재구성된 장면 오디오 신호를 획득하는 단계를 포함하는 방법.
  23. 제17항 내지 제21항 중 어느 한 항에 있어서, 상기 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함하고, 상기 방법은:
    상기 비트스트림을 디코딩하여 제2 보조 정보를 획득하는 단계 - 상기 제2 보조 정보는 상기 제1 사운드 채널 상의 잔차 서브신호와 제3 사운드 채널 상의 잔차 서브신호 사이의 관계를 나타냄 -; 및
    상기 제2 보조 정보 및 상기 제1 사운드 채널 상의 잔차 서브신호에 기초하여 상기 제3 사운드 채널 상의 잔차 서브신호 및 상기 제1 사운드 채널 상의 업데이트된 잔차 서브신호를 획득하는 단계를 추가로 포함하고; 및
    대응하여, 상기 타깃 가상 스피커의 속성 정보, 상기 잔차 신호, 및 상기 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하는 단계는:
    상기 타깃 가상 스피커의 속성 정보, 상기 제1 사운드 채널 상의 업데이트된 잔차 서브신호, 제3 사운드 채널 상의 잔차 서브신호, 및 상기 가상 스피커 신호에 기초하여 상기 재구성된 장면 오디오 신호를 획득하는 단계를 포함하는 방법.
  24. 오디오 인코딩 장치로서:
    제1 장면 오디오 신호에 기초하여 미리 설정된 가상 스피커 세트로부터 제1 타깃 가상 스피커를 선택하도록 구성된 획득 모듈;
    상기 제1 장면 오디오 신호 및 상기 제1 타깃 가상 스피커의 속성 정보에 기초하여 가상 스피커 신호를 생성하도록 구성된 신호 생성 모듈 -
    상기 신호 생성 모듈은 상기 제1 타깃 가상 스피커의 속성 정보 및 상기 제1 가상 스피커 신호를 사용함으로써 제2 장면 오디오 신호를 획득하도록 구성되고; 및
    상기 신호 생성 모듈은 상기 제1 장면 오디오 신호 및 상기 제2 장면 오디오 신호에 기초하여 잔차 신호를 생성하도록 구성됨 -; 및
    상기 가상 스피커 신호 및 상기 잔차 신호를 인코딩하여 비트스트림을 획득하도록 구성된 인코딩 모듈을 포함하는 장치.
  25. 제24항에 있어서, 상기 획득 모듈은 상기 가상 스피커 세트에 기초하여 상기 제1 장면 오디오 신호로부터 주요 음장 성분을 획득하고; 및 상기 주요 음장 성분에 기초하여 상기 가상 스피커 세트로부터 상기 제1 타깃 가상 스피커를 선택하도록 구성된 장치.
  26. 제25항에 있어서, 상기 획득 모듈은 상기 주요 음장 성분에 기초하여 HOA(higher order ambisonics) 계수 세트로부터 상기 주요 음장 성분에 대한 HOA 계수를 선택하고 - 상기 HOA 계수 세트에서의 HOA 계수들은 상기 가상 스피커 세트 내의 가상 스피커들과 일대일 대응관계에 있음 - ; 및 상기 가상 스피커 세트에서의 주요 음장 성분에 대한 HOA 계수에 대응하는 가상 스피커를 제1 타깃 가상 스피커로서 결정하도록 구성된 장치.
  27. 제25항에 있어서, 상기 획득 모듈은: 상기 주요 음장 성분에 기초하여 상기 제1 타깃 가상 스피커의 구성 파라미터를 획득하고; 상기 제1 타깃 가상 스피커의 구성 파라미터에 기초하여 상기 제1 타깃 가상 스피커에 대한 HOA 계수를 생성하고; 및 상기 가상 스피커 세트 내의 제1 타깃 가상 스피커에 대한 HOA 계수에 대응하는 가상 스피커를 제1 타깃 가상 스피커로서 결정하도록 구성된 장치.
  28. 제27항에 있어서, 상기 획득 모듈은 오디오 인코더의 구성 정보에 기초하여 상기 가상 스피커 세트 내의 복수의 가상 스피커의 구성 파라미터들을 결정하고; 및 상기 주요 음장 성분에 기초하여 상기 복수의 가상 스피커의 구성 파라미터들로부터 상기 제1 타깃 가상 스피커의 구성 파라미터를 선택하도록 구성된 장치.
  29. 제27항 또는 제28항에 있어서, 상기 제1 타깃 가상 스피커의 구성 파라미터는 상기 제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보를 포함하고; 및
    상기 획득 모듈은 상기 제1 타깃 가상 스피커의 로케이션 정보 및 HOA 차수 정보에 기초하여 상기 제1 타깃 가상 스피커에 대한 HOA 계수를 결정하도록 구성된 장치.
  30. 제24항 내지 제29항 중 어느 한 항에 있어서, 상기 인코딩 모듈은 상기 제1 타깃 가상 스피커의 속성 정보를 인코딩하고 인코딩된 정보를 상기 비트스트림에 기입하도록 추가로 구성된 장치.
  31. 제24항 내지 제30항 중 어느 한 항에 있어서, 상기 제1 장면 오디오 신호는 인코딩될 HOA(higher order ambisonics) 신호를 포함하고, 상기 제1 타깃 가상 스피커의 속성 정보는 상기 제1 타깃 가상 스피커에 대한 HOA 계수를 포함하고; 및
    상기 신호 생성 모듈은 상기 인코딩될 HOA 신호 및 상기 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 상기 제1 가상 스피커 신호를 획득하도록 구성된 장치.
  32. 제24항 내지 제30항 중 어느 한 항에 있어서, 상기 제1 장면 오디오 신호는 인코딩될 HOA(higher order ambisonics) 신호를 포함하고, 상기 제1 타깃 가상 스피커의 속성 정보는 상기 제1 타깃 가상 스피커의 로케이션 정보를 포함하고; 및
    상기 신호 생성 모듈은 상기 제1 타깃 가상 스피커의 로케이션 정보에 기초하여 상기 제1 타깃 가상 스피커에 대한 HOA 계수를 획득하고; 및 상기 인코딩될 HOA 신호 및 상기 제1 타깃 가상 스피커에 대한 HOA 계수에 대해 선형 조합을 수행하여 상기 제1 가상 스피커 신호를 획득하도록 구성된 장치.
  33. 제24항 내지 제32항 중 어느 한 항에 있어서,
    상기 획득 모듈은 상기 제1 장면 오디오 신호에 기초하여 상기 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하도록 구성되고;
    상기 신호 생성 모듈은 상기 제1 장면 오디오 신호 및 상기 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하도록 구성되고;
    상기 인코딩 모듈은 상기 제2 가상 스피커 신호를 인코딩하고, 인코딩된 신호를 상기 비트스트림에 기입하도록 구성되고; 및
    대응하여, 상기 신호 생성 모듈은 상기 제1 타깃 가상 스피커의 속성 정보, 제1 가상 스피커 신호, 상기 제2 타깃 가상 스피커의 속성 정보, 및 상기 제2 가상 스피커 신호에 기초하여 상기 제2 장면 오디오 신호를 획득하도록 구성된 장치.
  34. 제33항에 있어서,
    상기 신호 생성 모듈은 상기 제1 가상 스피커 신호와 상기 제2 가상 스피커 신호를 정렬하여, 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호를 획득하도록 구성되고;
    대응하여, 상기 인코딩 모듈은 상기 정렬된 제2 가상 스피커 신호를 인코딩하도록 구성되고; 및
    대응하여, 상기 인코딩 모듈은 상기 정렬된 제1 가상 스피커 신호 및 상기 잔차 신호를 인코딩하도록 구성된 장치.
  35. 제24항 내지 제32항 중 어느 한 항에 있어서,
    상기 획득 모듈은 상기 제1 장면 오디오 신호에 기초하여 상기 가상 스피커 세트로부터 제2 타깃 가상 스피커를 선택하도록 구성되고;
    상기 신호 생성 모듈은 상기 제1 장면 오디오 신호 및 상기 제2 타깃 가상 스피커의 속성 정보에 기초하여 제2 가상 스피커 신호를 생성하도록 구성되고;
    대응하여, 상기 인코딩 모듈은 상기 제1 가상 스피커 신호 및 상기 제2 가상 스피커 신호에 기초하여 다운믹싱된 신호 및 제1 보조 정보를 획득하도록 구성되고 - 상기 제1 보조 정보는 상기 제1 가상 스피커 신호와 상기 제2 가상 스피커 신호 사이의 관계를 나타냄 -; 및
    대응하여, 상기 인코딩 모듈은 상기 다운믹싱된 신호, 상기 제1 보조 정보, 및 상기 잔차 신호를 인코딩하도록 구성된 장치.
  36. 제35항에 있어서,
    상기 신호 생성 모듈은 상기 제1 가상 스피커 신호와 상기 제2 가상 스피커 신호를 정렬하여, 정렬된 제1 가상 스피커 신호 및 정렬된 제2 가상 스피커 신호를 획득하도록 구성되고;
    상기 인코딩 모듈은 상기 정렬된 제1 가상 스피커 신호 및 상기 정렬된 제2 가상 스피커 신호에 기초하여 상기 다운믹싱된 신호 및 상기 제1 보조 정보를 획득하도록 구성되고; 및
    대응하여, 상기 제1 보조 정보는 상기 정렬된 제1 가상 스피커 신호와 상기 정렬된 제2 가상 스피커 신호 사이의 관계를 나타내는 장치.
  37. 제33항 내지 제36항 중 어느 한 항에 있어서, 상기 획득 모듈은: 상기 제1 장면 오디오 신호에 기초하여 상기 가상 스피커 세트로부터 상기 제2 타깃 가상 스피커를 선택하기 전에, 상기 제1 장면 오디오 신호의 인코딩 레이트 및/또는 신호 클래스 정보에 기초하여, 상기 제1 타깃 가상 스피커 이외의 타깃 가상 스피커가 획득될 필요가 있는지를 결정하고; 및 상기 제1 타깃 가상 스피커 이외의 타깃 가상 스피커가 획득될 필요가 있는 경우에만 상기 제1 장면 오디오 신호에 기초하여 상기 가상 스피커 세트로부터 상기 제2 타깃 가상 스피커를 선택하도록 구성된 장치.
  38. 제24항 내지 제37항 중 어느 한 항에 있어서, 상기 잔차 신호는 적어도 2개의 사운드 채널 상의 잔차 서브신호들을 포함하고,
    상기 신호 생성 모듈은 상기 오디오 인코더의 구성 정보 및/또는 상기 제1 장면 오디오 신호의 신호 클래스 정보에 기초하여 상기 적어도 2개의 사운드 채널들 상의 잔차 서브신호들로부터, 인코딩될 필요가 있고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 결정하도록 구성되고; 및
    대응하여, 상기 인코딩 모듈은 상기 제1 가상 스피커 신호, 및 상기 인코딩될 필요가 있고 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 인코딩하도록 구성된 장치.
  39. 제38항에 있어서,
    상기 획득 모듈은 상기 적어도 2개의 사운드 채널 상의 잔차 서브신호들이 인코딩될 필요가 없고 또한 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호를 포함하는 경우에 제2 보조 정보를 획득하도록 구성되고 - 상기 제2 보조 정보는 인코딩될 필요가 있고 또한 상기 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호와, 인코딩될 필요가 없고 또한 상기 적어도 하나의 사운드 채널 상에 있는 잔차 서브신호 간의 관계를 나타냄 -; 및
    대응하여, 상기 인코딩 모듈은 상기 제2 보조 정보를 상기 비트스트림에 기입하도록 구성된 장치.
  40. 오디오 디코딩 장치로서:
    비트스트림을 수신하도록 구성된 수신 모듈;
    비트스트림을 디코딩하여 가상 스피커 신호 및 잔차 신호를 획득하도록 구성된 디코딩 모듈; 및
    타깃 가상 스피커의 속성 정보, 잔차 신호, 및 상기 가상 스피커 신호에 기초하여 재구성된 장면 오디오 신호를 획득하도록 구성된 재구성 모듈을 포함하는 장치.
  41. 제40항에 있어서, 상기 디코딩 모듈은 상기 비트스트림을 디코딩하여 상기 타깃 가상 스피커의 속성 정보를 획득하도록 추가로 구성된 장치.
  42. 제41항에 있어서, 상기 타깃 가상 스피커의 속성 정보는 상기 타깃 가상 스피커에 대한 HOA(higher order ambisonics) 계수를 포함하고; 및
    상기 재구성 모듈은 상기 가상 스피커 신호 및 상기 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하여 합성된 장면 오디오 신호를 획득하고; 및 상기 잔차 신호를 사용함으로써 상기 합성된 장면 오디오 신호를 조정하여 상기 재구성된 장면 오디오 신호를 획득하도록 구성된 장치.
  43. 제41항에 있어서, 상기 타깃 가상 스피커의 속성 정보는 상기 타깃 가상 스피커의 로케이션 정보를 포함하고; 및
    상기 재구성 모듈은: 상기 타깃 가상 스피커의 로케이션 정보에 기초하여 상기 타깃 가상 스피커에 대한 HOA 계수를 결정하고; 상기 가상 스피커 신호 및 상기 타깃 가상 스피커에 대한 HOA 계수에 대해 합성 처리를 수행하여 합성된 장면 오디오 신호를 획득하고; 및 상기 잔차 신호를 사용함으로써 상기 합성된 장면 오디오 신호를 조정하여 상기 재구성된 장면 오디오 신호를 획득하도록 구성된 장치.
  44. 제40항 내지 제43항 중 어느 한 항에 있어서, 상기 가상 스피커 신호는 제1 가상 스피커 신호 및 제2 가상 스피커 신호를 다운믹싱함으로써 획득되는 다운믹싱된 신호이고, 상기 장치는 제1 신호 보상 모듈을 추가로 포함하고,
    상기 디코딩 모듈은 상기 비트스트림을 디코딩하여 제1 보조 정보를 획득하도록 구성되고 - 상기 제1 보조 정보는 상기 제1 가상 스피커 신호와 상기 제2 가상 스피커 신호 사이의 관계를 나타냄 -;
    상기 제1 신호 보상 모듈은 상기 제1 보조 정보 및 상기 다운믹싱된 신호에 기초하여 상기 제1 가상 스피커 신호 및 상기 제2 가상 스피커 신호를 획득하도록 구성되고; 및
    대응하여, 상기 재구성 모듈은 상기 타깃 가상 스피커의 속성 정보, 상기 잔차 신호, 상기 제1 가상 스피커 신호, 및 상기 제2 가상 스피커 신호에 기초하여 상기 재구성된 장면 오디오 신호를 획득하도록 구성된 장치.
  45. 제40항 내지 제44항 중 어느 한 항에 있어서, 상기 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함하고, 상기 장치는 제2 신호 보상 모듈을 추가로 포함하고,
    상기 디코딩 모듈은 상기 비트스트림을 디코딩하여 제2 보조 정보를 획득하도록 구성되고 - 상기 제2 보조 정보는 상기 제1 사운드 채널 상의 잔차 서브신호와 제2 사운드 채널 상의 잔차 서브신호 사이의 관계를 나타냄 -;
    상기 제2 신호 보상 모듈은 상기 제2 보조 정보 및 상기 제1 사운드 채널 상의 잔차 서브신호에 기초하여 상기 제2 사운드 채널 상의 잔차 서브신호를 획득하도록 구성되고; 및
    대응하여, 상기 재구성 모듈은 상기 타깃 가상 스피커의 속성 정보, 상기 제1 사운드 채널 상의 잔차 서브신호, 상기 제2 사운드 채널 상의 잔차 서브신호, 및 상기 가상 스피커 신호에 기초하여 상기 재구성된 장면 오디오 신호를 획득하도록 구성된 장치.
  46. 제40항 내지 제44항 중 어느 한 항에 있어서, 상기 잔차 신호는 제1 사운드 채널 상의 잔차 서브신호를 포함하고, 상기 장치는 제3 신호 보상 모듈을 추가로 포함하고,
    상기 디코딩 모듈은 상기 비트스트림을 디코딩하여 제2 보조 정보를 획득하도록 구성되고 - 상기 제2 보조 정보는 상기 제1 사운드 채널 상의 잔차 서브신호와 제3 사운드 채널 상의 잔차 서브신호 사이의 관계를 나타냄 -;
    상기 제3 신호 보상 모듈은 상기 제2 보조 정보 및 상기 제1 사운드 채널 상의 잔차 서브신호에 기초하여 상기 제3 사운드 채널 상의 잔차 서브신호 및 상기 제1 사운드 채널 상의 업데이트된 잔차 서브신호를 획득하도록 구성되고; 및
    대응하여, 상기 재구성 모듈은 상기 타깃 가상 스피커의 속성 정보, 상기 제1 사운드 채널 상의 업데이트된 잔차 서브신호, 상기 제3 사운드 채널 상의 잔차 서브신호, 및 상기 가상 스피커 신호에 기초하여 상기 재구성된 장면 오디오 신호를 획득하도록 구성된 장치.
  47. 오디오 인코딩 장치로서, 상기 오디오 인코딩 장치는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는: 메모리에 결합되고, 상기 메모리 내의 명령어들을 판독 및 실행하여, 제1항 내지 제16항 중 어느 한 항에 따른 방법을 구현하도록 구성된 오디오 인코딩 장치.
  48. 제47항에 있어서, 상기 오디오 인코딩 장치는 상기 메모리를 추가로 포함하는 오디오 인코딩 장치.
  49. 오디오 디코딩 장치로서, 상기 오디오 디코딩 장치는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는: 메모리에 결합되고, 상기 메모리 내의 명령어들을 판독 및 실행하여, 제17항 내지 제23항 중 어느 한 항에 따른 방법을 구현하도록 구성된 오디오 디코딩 장치.
  50. 제49항에 있어서, 상기 오디오 디코딩 장치는 상기 메모리를 추가로 포함하는 오디오 디코딩 장치.
  51. 명령어들을 포함하는 컴퓨터 판독가능 저장 매체로서, 상기 명령어들은 컴퓨터 상에서 실행될 때, 상기 컴퓨터가 제1항 내지 제16항 중 어느 한 항에 따른 방법 또는 제17항 내지 제23항 중 어느 한 항에 따른 방법을 수행할 수 있게 되는 컴퓨터 판독가능 저장 매체.
  52. 제1항 내지 제16항 중 어느 한 항에 따른 방법을 사용하여 생성된 비트스트림을 포함하는 컴퓨터 판독가능 저장 매체.
KR1020237020929A 2020-11-30 2021-05-28 오디오 인코딩/디코딩 방법 및 디바이스 KR20230110333A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011377433.0A CN114582357A (zh) 2020-11-30 2020-11-30 一种音频编解码方法和装置
CN202011377433.0 2020-11-30
PCT/CN2021/096839 WO2022110722A1 (zh) 2020-11-30 2021-05-28 一种音频编解码方法和装置

Publications (1)

Publication Number Publication Date
KR20230110333A true KR20230110333A (ko) 2023-07-21

Family

ID=81753909

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237020929A KR20230110333A (ko) 2020-11-30 2021-05-28 오디오 인코딩/디코딩 방법 및 디바이스

Country Status (8)

Country Link
US (1) US20230298601A1 (ko)
EP (1) EP4246509A4 (ko)
JP (1) JP2023551016A (ko)
KR (1) KR20230110333A (ko)
CN (1) CN114582357A (ko)
AU (1) AU2021388397A1 (ko)
MX (1) MX2023006300A (ko)
WO (1) WO2022110722A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117643073A (zh) * 2022-06-30 2024-03-01 北京小米移动软件有限公司 音频信号的编码方法、装置、电子设备和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388212B (zh) * 2007-09-15 2011-05-11 华为技术有限公司 基于噪声整形的语音编解码方法、编解码装置
WO2013149867A1 (en) * 2012-04-02 2013-10-10 Sonicemotion Ag Method for high quality efficient 3d sound reproduction
EP2800401A1 (en) * 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9807538B2 (en) * 2013-10-07 2017-10-31 Dolby Laboratories Licensing Corporation Spatial audio processing system and method
EP2866475A1 (en) * 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
EP3162087B1 (en) * 2014-06-27 2021-03-17 Dolby International AB Coded hoa data frame representation that includes non-differential gain values associated with channel signals of specific ones of the data frames of an hoa data frame representation
US9881628B2 (en) * 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio
EP3523799B1 (en) * 2016-10-25 2021-12-08 Huawei Technologies Co., Ltd. Method and apparatus for acoustic scene playback
CN113490980A (zh) * 2019-01-21 2021-10-08 弗劳恩霍夫应用研究促进协会 用于编码空间音频表示的装置和方法以及用于使用传输元数据来解码经编码的音频信号的装置和方法,以及相关的计算机程序
CN110544484B (zh) * 2019-09-23 2021-12-21 中科超影(北京)传媒科技有限公司 高阶Ambisonic音频编解码方法及装置

Also Published As

Publication number Publication date
WO2022110722A1 (zh) 2022-06-02
AU2021388397A1 (en) 2023-06-29
MX2023006300A (es) 2023-08-21
JP2023551016A (ja) 2023-12-06
EP4246509A4 (en) 2024-04-17
EP4246509A1 (en) 2023-09-20
CN114582357A (zh) 2022-06-03
US20230298601A1 (en) 2023-09-21

Similar Documents

Publication Publication Date Title
US10187739B2 (en) System and method for capturing, encoding, distributing, and decoding immersive audio
US10231073B2 (en) Ambisonic audio rendering with depth decoding
TWI834760B (zh) 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
EP2954703B1 (en) Determining renderers for spherical harmonic coefficients
US20230298600A1 (en) Audio encoding and decoding method and apparatus
US9774976B1 (en) Encoding and rendering a piece of sound program content with beamforming data
TWI745795B (zh) 使用低階、中階及高階分量產生器用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式
CN114067810A (zh) 音频信号渲染方法和装置
US20230298601A1 (en) Audio encoding and decoding method and apparatus
CN112823534B (zh) 信号处理设备和方法以及程序
KR20240021911A (ko) 3차원 오디오 신호를 인코딩하기 위한 방법 및 장치, 인코더 및 시스템
WO2022237851A1 (zh) 一种音频编码、解码方法及装置
WO2024114372A1 (zh) 场景音频解码方法及电子设备
WO2024114373A1 (zh) 场景音频编码方法及电子设备
JP2024518846A (ja) 3次元オーディオ信号符号化方法および装置、ならびにエンコーダ
TW202424960A (zh) 場景音訊解碼方法及電子設備
CN115938388A (zh) 一种三维音频信号的处理方法和装置