KR20240004869A - 3차원 오디오 신호 인코딩 방법 및 장치, 및 인코더 - Google Patents

3차원 오디오 신호 인코딩 방법 및 장치, 및 인코더 Download PDF

Info

Publication number
KR20240004869A
KR20240004869A KR1020237041578A KR20237041578A KR20240004869A KR 20240004869 A KR20240004869 A KR 20240004869A KR 1020237041578 A KR1020237041578 A KR 1020237041578A KR 20237041578 A KR20237041578 A KR 20237041578A KR 20240004869 A KR20240004869 A KR 20240004869A
Authority
KR
South Korea
Prior art keywords
virtual
current frame
loudspeakers
virtual loudspeaker
loudspeaker
Prior art date
Application number
KR1020237041578A
Other languages
English (en)
Inventor
위안 가오
솨이 류
빈 왕
저 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20240004869A publication Critical patent/KR20240004869A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

3차원 오디오 신호 인코딩 방법 및 장치, 및 인코더(113)가 제공되고, 멀티미디어 분야에 관한 것이다. 방법은 다음을 포함한다: 인코더(113)는 3차원 오디오 신호의 현재 프레임에 대한 제1 수량의 현재 프레임 초기 투표 값들을 획득한다(S610). 그 후, 인코더(113)는, 제1 수량의 현재 프레임 초기 투표 값들 및 제6 수량의 이전 프레임 최종 투표 값들에 기초하여, 현재 프레임에 대응하는 제7 수량의 가상 라우드스피커들의 제7 수량의 현재 프레임 최종 투표 값들을 획득한다(S620). 또한, 인코더(113)는 제7 수량의 현재 프레임 최종 투표 값들에 기초하여 제7 수량의 가상 라우드스피커들로부터 제2 수량의 현재 프레임 대표 가상 라우드스피커들을 선택한다(S630). 인코더(113)는 제2 수량의 현재 프레임 대표 가상 라우드스피커들에 기초하여 현재 프레임을 인코딩하여, 비트스트림을 획득한다(S640). 이러한 방식으로, 프레임들 사이의 신호 방향성 연속성이 향상되고, 재구성된 3차원 오디오 신호의 공간 이미지의 안정성이 개선되고, 재구성된 3차원 오디오 신호의 음질이 보장된다.

Description

3차원 오디오 신호 인코딩 방법 및 장치, 및 인코더
본 출원은 2021년 5월 17일자로 중국 지적 재산권 관리국(China National Intellectual Property Administration)에 출원되고 발명의 명칭이 "THREE-DIMENSIONAL AUDIO SIGNAL CODING METHOD AND APPARATUS, AND ENCODER"인 중국 특허 출원 제202110536634.9호에 대한 우선권을 주장하며, 그 전체가 본 명세서에 참고로 포함된다.
기술분야
본 출원은 멀티미디어 분야에 관한 것으로, 특히, 3차원 오디오 신호 코딩 방법 및 장치, 및 인코더에 관한 것이다.
고성능 컴퓨터 및 신호 처리 기술의 급속한 발전으로, 청취자들은 음성 및 오디오 경험에 대한 점점 더 높은 요건을 제기한다. 몰입형 오디오(immersive audio)는 음성 및 오디오 경험에 대한 사람들의 요건들을 충족시킬 수 있다. 예를 들어, 무선 통신(예를 들어, 4G/5G) 음성, 가상 현실/증강 현실, 및 미디어 오디오에서 3차원 오디오 기술이 널리 사용된다. 3차원 오디오 기술은 현실 세계에서의 사운드 및 3차원 음장 정보를 획득, 처리, 송신, 렌더링, 및 재생하여, 사운드에 강한 공간감(senses of space), 포위감(envelopment), 및 몰입감(immersion)을 제공하기 위한 오디오 기술이다. 이것은 청취자들에게 특별한 "몰입형" 청각 경험을 제공한다.
일반적으로, 취득 디바이스(예를 들어, 마이크로폰)는 3차원 음장 정보를 기록하기 위해 많은 양의 데이터를 취득하고, 3차원 오디오 신호를 재생 디바이스(예를 들어, 라우드스피커 또는 헤드셋)에 송신하여, 재생 디바이스가 3차원 오디오를 재생하게 한다. 3차원 음장 정보의 데이터량이 크기 때문에, 데이터를 저장하기 위해 많은 양의 저장 공간이 요구되고, 3차원 오디오 신호를 송신하기 위해 높은 대역폭이 요구된다. 전술한 문제들을 해결하기 위해, 3차원 오디오 신호가 압축될 수 있고, 압축된 데이터가 저장되거나 송신될 수 있다. 현재, 인코더는 먼저 후보 가상 라우드스피커 세트 내의 가상 라우드스피커들을 트래버스(traverse)하고, 선택된 가상 라우드스피커를 사용하여 3차원 오디오 신호를 압축한다. 그러나, 연속적인 프레임들에 대한 가상 라우드스피커들의 선택 결과들이 크게 달라지면, 재구성된 3차원 오디오 신호의 공간 이미지는 불안정하고, 재구성된 3차원 오디오 신호의 음질은 감소된다.
본 출원은, 프레임들 사이의 방향성 연속성(directional continuity)을 향상시키고, 재구성된 3차원 오디오 신호의 공간 이미지의 안정성을 개선하고, 재구성된 3차원 오디오 신호의 음질을 보장하기 위한 3차원 오디오 신호 코딩 방법 및 장치, 및 인코더를 제공한다.
제1 양태에 따르면, 본 출원은 3차원 오디오 신호 인코딩 방법을 제공한다. 방법은 인코더에 의해 실행될 수 있고, 구체적으로 다음의 단계들을 포함한다: 3차원 오디오 신호의 현재 프레임에 대한 제1 수량의 현재 프레임 초기 투표 값들을 획득한 후에, 인코더는, 제1 수량의 현재 프레임 초기 투표 값들, 및 3차원 오디오 신호의 이전 프레임에 대응하는 제6 수량의 가상 라우드스피커들의 제6 수량의 이전 프레임 최종 투표 값들에 기초하여, 현재 프레임에 대응하는 제7 수량의 가상 라우드스피커들의 제7 수량의 현재 프레임 최종 투표 값들을 획득한다. 가상 라우드스피커들은 현재 프레임 초기 투표 값들에 일대일 대응한다. 제1 수량의 가상 라우드스피커는 제1 가상 라우드스피커를 포함한다. 제1 가상 라우드스피커의 현재 프레임 초기 투표 값은 현재 프레임이 인코딩될 때 제1 가상 라우드스피커를 사용하는 우선순위를 나타낸다. 제7 수량의 가상 라우드스피커들은 제1 수량의 가상 라우드스피커들을 포함하고, 제7 수량의 가상 라우드스피커들은 제6 수량의 가상 라우드스피커들을 포함한다. 또한, 인코더는 제7 수량의 현재 프레임 최종 투표 값들에 기초하여 제7 수량의 가상 라우드스피커들로부터 제2 수량의 현재 프레임 대표 가상 라우드스피커들을 선택하고- 제2 수량은 제7 수량 미만이고, 이는 제2 수량의 현재 프레임 대표 가상 라우드스피커들이 제7 수량의 가상 라우드스피커들 중 일부 가상 라우드스피커들임을 표시함 -; 제2 수량의 현재 프레임 대표 가상 라우드스피커들에 기초하여 현재 프레임을 인코딩하여, 비트스트림을 획득한다.
가상 라우드스피커 검색 절차에서, 실제 음원들의 위치들이 반드시 가상 라우드스피커들의 위치들과 중첩하는 것은 아니기 때문에, 가상 라우드스피커들이 반드시 실제 음원들에 일대일 대응하는 것은 아니다. 또한, 실제 복잡한 시나리오에서, 제한된 수량의 가상 라우드스피커들의 세트는 음장 내의 모든 음원들을 표현하지 않을 수 있다. 이 경우, 프레임들 사이에서 발견된 가상 라우드스피커들은 빈번하게 변경될 수 있다. 변경들은 청취자의 청각 경험에 영향을 미친다. 그 결과, 디코딩 및 재구성을 통해 획득된 3차원 오디오 신호에 명백한 불연속성 및 잡음 현상이 나타난다. 본 출원의 이 실시예에 따른 가상 라우드스피커 선택 방법에서, 이전 프레임 대표 가상 라우드스피커는 유지된다. 구체적으로, 동일한 일련 번호들을 갖는 가상 라우드스피커들의 경우, 현재 프레임 초기 투표 값은 이전 프레임 최종 투표 값에 기초하여 조정되므로, 인코더가 이전 프레임 대표 가상 라우드스피커를 선택하는 경향이 있다. 이러한 방식으로, 프레임들 사이의 가상 라우드스피커들의 빈번한 변경들이 감소되고, 프레임들 사이의 신호 방향성 연속성이 향상되고, 재구성된 3차원 오디오 신호의 공간 이미지가 개선되고, 재구성된 3차원 오디오 신호의 음질이 보장된다.
예를 들어, 제6 수량의 가상 라우드스피커들이 제1 가상 라우드스피커를 포함하는 경우, 제1 수량의 현재 프레임 초기 투표 값들 및 3차원 오디오 신호의 이전 프레임에 대응하는 제6 수량의 가상 라우드스피커들의 제6 수량의 이전 프레임 투표 값들에 기초하여, 현재 프레임에 대응하는 제7 수량의 가상 라우드스피커들의 제7 수량의 현재 프레임 최종 투표 값들을 획득하는 것은: 제1 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하여, 제1 가상 라우드스피커의 현재 프레임 최종 투표 값을 획득하는 것을 포함한다.
가능한 구현에서, 제1 수량의 가상 라우드스피커들이 제2 가상 라우드스피커를 포함하고, 제6 수량의 가상 라우드스피커들이 제2 가상 라우드스피커를 포함하지 않는 경우, 제2 가상 라우드스피커의 현재 프레임 최종 투표 값은 제2 가상 라우드스피커의 현재 프레임 초기 투표 값과 동일하다. 대안적으로, 제6 수량의 가상 라우드스피커들이 제3 가상 라우드스피커를 포함하고, 제1 수량의 가상 라우드스피커들이 제3 가상 라우드스피커를 포함하지 않는 경우, 제3 가상 라우드스피커의 현재 프레임 최종 투표 값은 제3 가상 라우드스피커의 이전 프레임 최종 투표 값과 동일하다.
다른 가능한 구현에서, 제1 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하는 것은 다음을 포함한다: 인코더가 제1 조정 파라미터에 기초하여 제1 가상 라우드스피커의 이전 프레임 최종 투표 값을 조정하여, 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값을 획득하고; 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트한다.
제1 조정 파라미터는 이전 프레임에서의 방향성 음원들의 수량, 현재 프레임을 인코딩하기 위한 인코딩 비트 레이트, 및 프레임 타입 중 적어도 하나에 기초하여 결정된다. 이러한 방식으로, 인코더는 제1 조정 파라미터에 기초하여 제1 가상 라우드스피커의 이전 프레임 최종 투표 값을 조정하므로, 인코더가 이전 프레임 대표 가상 라우드스피커를 선택하는 경향이 있다. 이러한 방식으로, 프레임들 사이의 방향성 연속성이 향상되고, 재구성된 3차원 오디오 신호의 공간 이미지가 개선되고, 재구성된 3차원 오디오 신호의 음질이 보장된다.
다른 가능한 구현에서, 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하는 것은 다음을 포함한다: 인코더가 제2 조정 파라미터에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 조정하여, 제1 가상 라우드스피커의 조정된 현재 프레임 투표 값을 획득하고; 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 제1 가상 라우드스피커의 조정된 현재 프레임 투표 값을 업데이트한다.
제2 조정 파라미터는 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값 및 제1 가상 라우드스피커의 현재 프레임 초기 투표 값에 기초하여 결정된다. 이러한 방식으로, 인코더는 제2 조정 파라미터에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 조정하고, 현재 프레임 초기 투표 값의 빈번한 변경들이 감소되므로, 인코더가 이전 프레임 대표 가상 라우드스피커를 선택하는 경향이 있다. 이러한 방식으로, 프레임들 사이의 방향성 연속성이 향상되고, 재구성된 3차원 오디오 신호의 공간 이미지가 개선되고, 재구성된 3차원 오디오 신호의 음질이 보장된다.
제2 수량은 인코더에 의해 선택된 현재 프레임 대표 가상 라우드스피커들의 수량을 표시한다. 제2 수량이 클수록, 현재 프레임 대표 가상 라우드스피커들의 수량이 더 크고 3차원 오디오 신호의 음장 정보가 더 많다는 것을 표시한다. 제2 수량이 작을수록, 현재 프레임 대표 가상 라우드스피커들의 수량이 더 작고 3차원 오디오 신호의 음장 정보가 더 적다는 것을 표시한다. 따라서, 인코더에 의해 선택된 현재 프레임 대표 가상 라우드스피커들의 수량은 제2 수량을 설정함으로써 제어될 수 있다. 예를 들어, 제2 수량은 미리 설정될 수 있다. 다른 예로서, 제2 수량은 현재 프레임에 기초하여 결정될 수 있다. 예를 들어, 제2 수량의 값은 1, 2, 4, 또는 8일 수 있다.
다른 가능한 구현에서, 3차원 오디오 신호의 현재 프레임에 대응하는 제1 수량의 가상 라우드스피커들의 제1 수량의 현재 프레임 초기 투표 값들을 획득하는 것은 다음을 포함한다: 인코더가 현재 프레임의 제3 수량의 대표 계수들, 후보 가상 라우드스피커 세트, 및 투표 라운드 수(quantity of vote rounds)에 기초하여 제1 수량의 가상 라우드스피커들 및 제1 수량의 현재 프레임 초기 투표 값들을 결정한다. 후보 가상 라우드스피커 세트는 제5 수량의 가상 라우드스피커들을 포함한다. 제5 수량의 가상 라우드스피커들은 제1 수량의 가상 라우드스피커들을 포함한다. 제1 수량은 제5 수량 이하이다. 투표 라운드 수는 1 이상의 정수이고, 투표 라운드 수는 제5 수량 이하이다.
현재, 가상 라우드스피커 검색 절차에서, 인코더는 가상 라우드스피커 선택을 위한 표시자로서 인코딩될 3차원 오디오 신호와 가상 라우드스피커 사이의 상관관계에 대한 계산 결과를 사용한다. 또한, 인코더가 각각의 계수에 대해 하나의 가상 라우드스피커를 송신하는 경우, 효율적인 데이터 압축의 목적이 달성될 수 없어, 인코더에 큰 계산 부하를 야기한다. 본 출원의 이 실시예에 따른 가상 라우드스피커 선택 방법에서, 인코더는 현재 프레임의 모든 계수들을 소량의 대표 계수들로 대체하여 후보 가상 라우드스피커 세트 내의 각각의 가상 라우드스피커에 투표하고, 투표 값에 기초하여 현재 프레임 대표 가상 라우드스피커를 선택한다. 또한, 인코더는 현재 프레임 대표 가상 라우드스피커를 사용하여 인코딩될 3차원 오디오 신호에 대해 압축 코딩을 수행한다. 이는 3차원 오디오 신호에 대해 압축 코딩을 수행하기 위한 압축 비를 효과적으로 개선하고, 인코더에 의해 가상 라우드스피커를 검색하는 계산 복잡도를 감소시킨다. 이러한 방식으로, 3차원 오디오 신호에 대해 압축 코딩을 수행하는 계산 복잡도가 감소되고, 인코더의 계산 부하가 감소된다.
다른 가능한 구현에서, 현재 프레임의 제3 수량의 대표 계수들, 후보 가상 라우드스피커 세트, 및 투표 라운드 수에 기초하여 제1 수량의 가상 라우드스피커들 및 제1 수량의 현재 프레임 초기 투표 값들을 결정하기 전에, 방법은 다음을 추가로 포함한다: 인코더가 현재 프레임의 제4 수량의 계수들 및 제4 수량의 계수들의 주파수 도메인 특징 값들을 획득하고; 제4 수량의 계수들의 주파수 도메인 특징 값들에 기초하여 제4 수량의 계수들로부터 제3 수량의 대표 계수들을 선택한다. 제3 수량은 제4 수량 미만이고, 이는 제3 수량의 대표 계수들이 제4 수량의 계수들 내의 일부 계수들임을 표시한다.
3차원 오디오 신호의 현재 프레임은 고차 앰비소닉스(higher-order ambisonics, HOA) 신호이고, 계수의 주파수 도메인 특징 값은 HOA 신호의 계수에 기초하여 결정된다.
이러한 방식으로, 인코더가 현재 프레임의 모든 계수들로부터 일부 계수들을 대표 계수들로서 선택하고, 현재 프레임의 모든 계수들을 작은 수량의 대표 계수들로 대체하여 후보 가상 라우드스피커 세트로부터 대표 가상 라우드스피커를 선택하기 때문에, 인코더에 의해 가상 라우드스피커를 검색하는 계산 복잡도가 효과적으로 감소된다. 이러한 방식으로, 3차원 오디오 신호에 대해 압축 코딩을 수행하는 계산 복잡도가 감소되고, 인코더의 계산 부하가 감소된다.
또한, 인코더가 제2 수량의 현재 프레임 대표 가상 라우드스피커들에 기초하여 현재 프레임을 인코딩하여, 비트스트림을 획득하는 것은: 인코더가 제2 수량의 현재 프레임 대표 가상 라우드스피커들 및 현재 프레임에 기초하여 가상 라우드스피커 신호를 생성하고; 가상 라우드스피커 신호를 인코딩하여 비트스트림을 획득하는 것을 포함한다.
다른 가능한 구현에서, 방법은 다음을 추가로 포함한다: 인코더가 현재 프레임과 이전 프레임 대표 가상 라우드스피커 세트 사이의 제1 상관관계를 획득하고; 제1 상관관계가 재사용 조건을 충족하지 않는 경우, 3차원 오디오 신호의 현재 프레임의 제4 수량의 계수들, 및 제4 수량의 계수들의 주파수 도메인 특징 값들을 획득한다. 이전 프레임 대표 가상 라우드스피커 세트는 제6 수량의 가상 라우드스피커들을 포함한다. 제6 수량의 가상 라우드스피커들에 포함된 가상 라우드스피커는 3차원 오디오 신호의 이전 프레임이 인코딩될 때 사용되는 이전 프레임 대표 가상 라우드스피커이다. 제1 상관관계는 현재 프레임이 인코딩될 때 이전 프레임 대표 가상 라우드스피커 세트가 재사용되는지 여부를 결정하기 위해 사용된다.
이러한 방식으로, 인코더는 먼저 이전 프레임 대표 가상 라우드스피커 세트가 현재 프레임을 인코딩하기 위해 재사용될 수 있는지 여부를 결정할 수 있다. 인코더가 현재 프레임을 인코딩하기 위해 이전 프레임 대표 가상 라우드스피커 세트를 재사용하는 경우, 인코더는 가상 라우드스피커 검색 절차를 수행하지 않는다. 이는 인코더에 의해 가상 라우드스피커를 검색하는 계산 복잡도를 효과적으로 감소시킨다. 이러한 방식으로, 3차원 오디오 신호에 대해 압축 코딩을 수행하는 계산 복잡도가 감소되고, 인코더의 계산 부하가 감소된다. 또한, 프레임들 사이의 가상 라우드스피커들의 빈번한 변경들이 또한 감소될 수 있고, 프레임들 사이의 방향성 연속성이 향상되고, 재구성된 3차원 오디오 신호의 공간 이미지가 개선되고, 재구성된 3차원 오디오 신호의 음질이 보장된다. 인코더가 현재 프레임을 인코딩하기 위해 이전 프레임 대표 가상 라우드스피커 세트를 재사용할 수 없는 경우, 인코더는 대표 계수를 선택하고, 현재 프레임의 대표 계수를 사용하여 후보 가상 라우드스피커 세트 내의 각각의 가상 라우드스피커에 대해 투표하고, 투표 값에 기초하여 현재 프레임 대표 가상 라우드스피커를 선택하여, 3차원 오디오 신호에 대해 압축 코딩을 수행하는 계산 복잡도를 감소시키고 인코더의 계산 부하를 감소시키는 목적들을 달성한다.
선택적으로, 방법은 다음을 추가로 포함한다: 인코더가 3차원 오디오 신호의 현재 프레임을 추가로 취득하고, 3차원 오디오 신호의 현재 프레임에 대해 압축 코딩을 수행하여 비트스트림을 획득하고, 비트스트림을 디코더 측에 송신할 수 있다.
제2 양태에 따르면, 본 출원은 3차원 오디오 신호 인코딩 장치를 제공한다. 장치는 제1 양태, 또는 제1 양태의 가능한 설계들 중 어느 하나에 따른 3차원 오디오 신호 인코딩 방법을 수행하도록 구성되는 모듈들을 포함한다. 예를 들어, 3차원 오디오 신호 인코딩 장치는 가상 라우드스피커 선택 모듈 및 인코딩 모듈을 포함한다. 가상 라우드스피커 선택 모듈은 3차원 오디오 신호의 현재 프레임에 대응하는 제1 수량의 가상 라우드스피커들의 제1 수량의 현재 프레임 초기 투표 값들을 획득하도록 구성된다. 가상 라우드스피커들은 현재 프레임 초기 투표 값들에 일대일 대응한다. 제1 수량의 가상 라우드스피커는 제1 가상 라우드스피커를 포함한다. 제1 가상 라우드스피커의 현재 프레임 초기 투표 값은 현재 프레임이 인코딩될 때 제1 가상 라우드스피커를 사용하는 우선순위를 나타낸다. 가상 라우드스피커 선택 모듈은, 제1 수량의 현재 프레임 초기 투표 값들 및 3차원 오디오 신호의 이전 프레임에 대응하는 제6 수량의 가상 라우드스피커들의 제6 수량의 이전 프레임 최종 투표 값들에 기초하여, 현재 프레임에 대응하는 제7 수량의 가상 라우드스피커들의 제7 수량의 현재 프레임 최종 투표 값들을 획득하도록 추가로 구성된다. 제7 수량의 가상 라우드스피커들은 제1 수량의 가상 라우드스피커들을 포함하고, 제7 수량의 가상 라우드스피커들은 제6 수량의 가상 라우드스피커들을 포함한다. 가상 라우드스피커 선택 모듈은 제7 수량의 현재 프레임 최종 투표 값들에 기초하여 제7 수량의 가상 라우드스피커들로부터 제2 수량의 현재 프레임 대표 가상 라우드스피커들을 선택하도록 추가로 구성된다. 제2 수량은 제7 수량 미만이다. 인코딩 모듈은 제2 수량의 현재 프레임 대표 가상 라우드스피커들에 기초하여 현재 프레임을 인코딩하여, 비트스트림을 획득하도록 구성된다. 이러한 모듈들은 제1 양태에서의 방법 예에서 대응하는 기능들을 수행할 수 있다. 상세사항들에 대해서는, 방법 예에서의 상세한 설명들을 참조한다. 상세사항들은 여기서 다시 설명되지 않는다.
제3 양태에 따르면, 본 출원은 인코더를 제공한다. 인코더는 적어도 하나의 프로세서 및 메모리를 포함한다. 메모리는 컴퓨터 명령어들의 그룹을 저장하도록 구성된다. 프로세서가 컴퓨터 명령어들의 그룹을 실행할 때, 제1 양태 또는 제1 양태의 가능한 구현들 중 어느 하나에 따른 3차원 오디오 신호 인코딩 방법의 동작 단계들이 실행된다.
제4 양태에 따르면, 본 출원은 시스템을 제공한다. 시스템은 제3 양태에 따른 인코더 및 디코더를 포함한다. 인코더는 제1 양태 또는 제1 양태의 가능한 구현들 중 어느 하나에 따른 3차원 오디오 신호 인코딩 방법의 동작 단계들을 수행하도록 구성된다. 디코더는 인코더에 의해 생성된 비트스트림을 디코딩하도록 구성된다.
제5 양태에 따르면, 본 출원은 컴퓨터 소프트웨어 명령어들을 포함한 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 소프트웨어 명령어들이 인코더 상에서 실행될 때, 인코더는 제1 양태 또는 제1 양태의 가능한 구현들 중 어느 하나에 따른 방법의 동작 단계들을 수행할 수 있게 된다.
제6 양태에 따르면, 본 출원은 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 제품이 인코더 상에서 실행될 때, 인코더는 제1 양태 또는 제1 양태의 가능한 구현들 중 어느 하나에 따른 방법의 동작 단계들을 수행할 수 있게 된다.
본 출원에서, 전술한 양태들에 따른 구현들에 기초하여, 구현들은 더 많은 구현들을 제공하기 위해 추가로 조합될 수 있다.
도 1은 본 출원의 실시예에 따른 오디오 인코딩/디코딩 시스템의 구조의 개략도이다.
도 2는 본 출원의 실시예에 따른 오디오 인코딩/디코딩 시스템의 시나리오의 개략도이다.
도 3은 본 출원의 실시예에 따른 인코더의 구조의 개략도이다.
도 4는 본 출원의 실시예에 따른 3차원 오디오 신호 인코딩/디코딩 방법의 개략적인 흐름도이다.
도 5는 본 출원의 실시예에 따른 가상 라우드스피커 선택 방법의 개략적인 흐름도이다.
도 6은 본 출원의 실시예에 따른 3차원 오디오 신호 인코딩 방법의 개략적인 흐름도이다.
도 7은 본 출원의 실시예에 따른 다른 가상 라우드스피커 선택 방법의 개략적인 흐름도이다.
도 8은 본 출원의 실시예에 따른 투표 값을 조정하기 위한 방법의 개략적인 흐름도이다.
도 9는 본 출원의 실시예에 따른 다른 가상 라우드스피커 선택 방법의 개략적인 흐름도이다.
도 10은 본 출원에 따른 인코딩 장치의 구조의 개략도이다.
도 11은 본 출원에 따른 인코더의 구조의 개략도이다.
다음의 실시예들의 명확하고 간략한 설명들을 위해, 관련 기술이 먼저 간략하게 설명된다.
사운드(sound)는 물체의 진동을 통해 생성되는 연속파이다. 음파를 발생시키는 진동하는 물체를 음원(sound source)이라고 한다. 음파가 매질(예컨대 공기, 고체 또는 액체)을 통해 전파될 때, 인간 또는 동물의 청각 기관은 사운드를 인지할 수 있다.
음파의 특성은 피치, 강도, 및 음색을 포함한다. 피치는 사운드가 얼마나 낮은지 또는 높은지를 나타낸다. 강도는 사운드의 라우드니스(loudness)를 나타낸다. 강도는 라우드니스 또는 볼륨이라고도 지칭된다. 강도는 데시벨(decibel, dB)의 단위로 측정된다. 음색은 음질이라고도 한다.
음파의 주파수는 피치가 얼마나 높은지 또는 낮은지를 결정한다. 높은 주파수는 높은 피치를 나타낸다. 주파수는 물체가 진동하는 초당 횟수이다. 주파수는 헤르츠(hertz, Hz)의 단위로 측정된다. 인간의 귀는 20 Hz 내지 20,000 Hz의 사운드를 들을 수 있다.
음파의 진폭은 강도가 얼마나 강한지 또는 약한지를 결정한다. 큰 진폭은 강한 강도를 나타낸다. 음원까지의 가까운 거리는 강한 강도를 나타낸다.
음파의 파형들은 음색을 결정한다. 음파의 파형들은 구형파, 톱니파, 사인파, 및 펄스파를 포함한다.
음파의 특성에 기초하여, 사운드는 규칙적인 진동을 통해 생성되는 사운드와 불규칙적인 진동을 통해 생성되는 사운드로 분류될 수 있다. 불규칙적인 진동을 통해 생성되는 사운드는 음원이 불규칙적으로 진동할 때 생성되는 사운드이다. 불규칙적인 진동을 통해 생성되는 사운드는, 예를 들어, 사람들의 작업, 공부, 및 휴식을 방해하는 소음이다. 규칙적인 진동을 통해 생성되는 사운드는 음원이 규칙적으로 진동할 때 생성되는 사운드이다. 규칙적인 진동들을 통해 생성되는 사운드는 음성 및 음악을 포함한다. 사운드가 전기적으로 표현될 때, 규칙적인 진동을 통해 생성되는 사운드는 시간 및 주파수 도메인들에서 연속적으로 변하는 아날로그 신호이다. 아날로그 신호는 오디오 신호라고 지칭될 수 있다. 오디오 신호는 음성, 음악, 및 사운드 효과를 운반하는 정보 캐리어이다.
사람의 청각은 공간에서의 음원들의 위치 분포를 구별하는 능력을 갖기 때문에, 공간에서 사운드를 들을 때, 청취자는 사운드의 피치, 강도, 및 음색 이외의 사운드의 방향을 인지할 수 있다.
청각 시스템 경험에 대한 관심 및 품질 요건이 증가함에 따라, 사운드의 깊이감, 몰입감, 및 공간감을 향상시키기 위해, 3차원 오디오 기술이 등장한다. 이러한 방식으로, 청취자는 전방, 후방, 좌측, 및 우측의 음원들에 의해 생성되는 사운드들을 인지할 뿐만 아니라, 이들 음원들에 의해 생성되는 공간 음장(줄여서 "음장"(sound field))에 의해 둘러싸인 것처럼 느껴진다. 청취자는 사운드가 주변으로 확산되는 것을 인지한다. 이는, 청취자에게, 시네마 또는 콘서트 홀 시나리오를 모방하는 "몰입형" 사운드 효과를 생성한다.
3차원 오디오 기술에서, 인간의 귀 외부의 공간은 시스템이고, 고막에서 수신된 신호는 음원에 의해 방출된 사운드가 귀 외부의 시스템에 의해 필터링된 후에 출력되는 3차원 오디오 신호라고 가정된다. 예를 들어, 귀 외부의 시스템은 시스템 임펄스 응답 h(n)으로서 정의될 수 있고, 임의의 음원은 x(n)으로서 정의될 수 있고, 고막에서 수신된 신호는 x(n)과 h(n)의 컨볼루션 결과이다. 본 출원의 실시예들에 따른 3차원 오디오 신호는 고차 앰비소닉스(higher-order ambisonics, HOA) 신호이다. 3차원 오디오는 또한 3차원 사운드 효과, 공간 오디오, 3차원 음장 재구성, 가상 3D 오디오, 바이노럴 오디오 등으로 지칭될 수 있다.
음파가 이상적인 매질에서 전파된다는 것은 잘 알려져 있다. 파수는 k=w/c이고, 각 주파수는 w=2πf이다. f는 음파 주파수이고, c는 음속이다. 음압 p는 수학식 (1)을 충족하며, 여기서 ∇2는 라플라스 연산자이다:
귀 외부의 공간 시스템은 구형이라고 가정한다. 청취자는 구의 중심에 있고, 구 외부로부터의 사운드는 구면 상에 투영된다. 구면 외부의 사운드가 필터링된다. 음원들은 구면 상에 분포되고, 구면 상의 음원들에 의해 생성된 음장들은 원래의 음원에 의해 생성된 음장에 피팅(fit)되도록 사용된다고 가정된다. 즉, 3차원 오디오 기술은 음장 피팅 방법(sound field fitting method)이다. 구체적으로, 수학식 (1)의 방정식은 구면 좌표계(spherical coordinate system)에서 풀린다. 수동 구형 영역에서, 수학식 (1)의 방정식은 다음의 수학식 (2)로서 풀린다:
는 구 반경을 나타내고, 는 수평각을 나타내고, 는 피치 각을 나타내고, k는 파수를 나타내고, s는 이상적인 평면 파의 진폭을 나타내고, m는 3차원 오디오 신호의 차수의 시퀀스 번호(또는 HOA 신호의 차수의 시퀀스 번호로 지칭됨)를 나타낸다. 는 구형 베셀 함수(spherical Bessel function)를 나타내고, 구형 베셀 함수는 방사형 기저 함수(radial basis function)로도 지칭된다. 첫 번째 j는 허수 단위를 나타내고, 는 각도에 따라 변하지 않는다. 방향의 구면 조화 함수(spherical harmonic function)를 나타내고, 는 음원 방향의 구면 조화 함수를 나타낸다. 3차원 오디오 신호 계수는 수학식 (3)을 충족한다:
수학식 (3)은 수학식 (2)으로 치환되고, 수학식 (2)는 수학식 (4)으로 변환될 수 있다:
는 N차 3차원 오디오 신호의 계수를 나타내고, 음장을 대략적으로 기술하기 위해 사용된다. 음장은 매질에서 음파가 존재하는 영역이다. N은 1 이상의 정수이다. 예를 들어, N의 값은 2 내지 6 범위의 정수이다. 본 출원의 실시예들에서의 3차원 오디오 신호의 계수는 HOA 계수 또는 주변 스테레오(ambient stereo)(앰비소닉스; ambisonics) 사운드 계수일 수 있다.
3차원 오디오 신호는 음장들에서의 음원들의 공간 위치 정보를 운반하는 정보 캐리어이고, 공간에서의 청취자의 음장을 기술한다. 수학식 (4)는, 음장이 구면 조화 함수에 따라 구면 상에서 확장될 수 있다는 것, 즉, 음장이 복수의 평면파의 중첩으로 분해될 수 있다는 것을 보여준다. 따라서, 3차원 오디오 신호에 의해 기술되는 음장은 복수의 평면파의 중첩에 의해 표현될 수 있고, 음장은 3차원 오디오 신호 계수에 기초하여 재구성된다.
5.1-채널 오디오 신호 또는 7.1-채널 오디오 신호와 비교하여, N차 HOA 신호는 (N+1)2 채널들을 갖는다. 이러한 방식으로, HOA 신호는 음장의 공간 정보를 기술하기 위한 더 많은 양의 데이터를 포함한다. 캡처링 디바이스(예를 들어, 마이크로폰)가 3차원 오디오 신호를 재생 디바이스(예를 들어, 라우드스피커)에 송신하면, 큰 대역폭이 소비된다. 현재, 인코더는 공간적으로 압착된 서라운드 오디오 코딩(spatially squeezed surround audio coding, S3AC) 또는 방향성 오디오 코딩(directional audio coding, DirAC)을 사용하여 3차원 오디오 신호에 대해 압축 코딩을 수행하여, 비트스트림을 획득하고, 비트스트림을 재생 디바이스에 송신할 수 있다. 재생 디바이스는 비트스트림을 디코딩하고, 3차원 오디오 신호를 재구성하고, 재구성된 3차원 오디오 신호를 재생한다. 이러한 방식으로, 3차원 오디오 신호를 재생 디바이스에 송신하기 위한 데이터 양 및 대역폭 점유가 감소된다. 그러나, 인코더에 의해 3차원 오디오 신호에 대해 압축 코딩을 수행하는 계산 복잡도가 높고, 인코더에 의해 과도한 컴퓨팅 리소스들이 점유된다. 따라서, 인코더에 의해 3차원 오디오 신호에 대해 압축 코딩을 수행하는 계산 복잡도를 감소시키는 방법은 해결되어야 할 긴급한 문제이다.
본 출원의 실시예들은 오디오 인코딩/디코딩 기술을 제공하고, 특히, 3차원 오디오 신호에 대한 3차원 오디오 인코딩/디코딩 기술을 제공한다. 구체적으로, 종래의 오디오 인코딩/디코딩 시스템을 개선하기 위해, 더 적은 오디오 채널들을 사용하여 3차원 오디오 신호를 표현하는 인코딩/디코딩 기술이 제공된다. 오디오 코딩(일반적으로 코딩으로 지칭됨)은 오디오 인코딩 및 오디오 디코딩을 포함한다. 오디오 인코딩은 소스 측에서 수행되고, 일반적으로 원본 오디오를 표현하는 데 요구되는 데이터 양을 감소시키기 위해 원본 오디오를 처리(예를 들어, 압축)하는 것을 포함한다. 이러한 방식으로, 오디오는 더 효율적으로 저장 및/또는 송신된다. 오디오 디코딩은 목적지 측에서 수행되고, 일반적으로 원본 오디오를 재구성하기 위해 인코더에 대한 역 처리를 행하는 것을 포함한다. 인코딩 및 디코딩은 또한 집합적으로 인코딩/디코딩으로 지칭된다. 이하에서는 첨부 도면들을 참조하여 본 출원의 실시예들의 구현들을 상세히 설명한다.
도 1은 본 출원의 실시예에 따른 오디오 인코딩/디코딩 시스템의 구조의 개략도이다. 오디오 인코딩/디코딩 시스템(100)은 소스 디바이스(110) 및 목적지 디바이스(120)를 포함한다. 소스 디바이스(110)는 3차원 오디오 신호에 대해 압축 코딩을 수행하여 비트스트림을 획득하고, 비트스트림을 목적지 디바이스(120)에 송신하도록 구성된다. 목적지 디바이스(120)는 비트스트림을 디코딩하고, 3차원 오디오 신호를 재구성하고, 재구성된 3차원 오디오 신호를 재생한다.
구체적으로, 소스 디바이스(110)는 오디오 획득 디바이스(111), 전처리기(112), 인코더(113), 및 통신 인터페이스(114)를 포함한다.
오디오 획득 디바이스(111)는 원본 오디오를 획득하도록 구성된다. 오디오 획득 디바이스(111)는 현실 세계로부터 사운드를 취득하도록 구성되는 임의의 타입의 오디오 캡처링 디바이스, 및/또는 임의의 타입의 오디오 생성 디바이스일 수 있다. 오디오 획득 디바이스(111)는, 예를 들어, 컴퓨터 오디오를 생성하도록 구성되는 컴퓨터 오디오 프로세서이다. 오디오 획득 디바이스(111)는 대안적으로 오디오를 저장하는 임의의 타입의 메모리 또는 스토리지일 수 있다. 오디오는 현실 세계로부터의 사운드, (VR 또는 증강 현실(AR)과 같은) 가상 장면으로부터의 사운드, 및/또는 이들의 임의의 조합을 포함한다.
전처리기(112)는 오디오 획득 디바이스(111)에 의해 취득된 원본 오디오를 수신하고; 원본 오디오를 전처리하여 3차원 오디오 신호를 획득하도록 구성된다. 예를 들어, 전처리기(112)에 의해 수행되는 전처리는 오디오 채널 변환, 오디오 포맷 변환, 잡음 감소 등을 포함한다.
인코더(113)는 전처리기(112)에 의해 생성된 3차원 오디오 신호를 수신하고; 3차원 오디오 신호에 대해 압축 코딩을 수행하여 비트스트림을 획득하도록 구성된다. 예를 들어, 인코더(113)는 공간 인코더(1131) 및 코어 인코더(1132)를 포함할 수 있다. 공간 인코더(1131)는 3차원 오디오 신호에 기초하여 후보 가상 라우드스피커 세트로부터 가상 라우드스피커를 선택(또는 검색)하고; 3차원 오디오 신호 및 가상 라우드스피커에 기초하여 가상 라우드스피커 신호를 생성하도록 구성된다. 가상 라우드스피커 신호는 재생 신호(playback signal)라고도 지칭될 수 있다. 코어 인코더(1132)는 가상 라우드스피커 신호를 인코딩하여 비트스트림을 획득하도록 구성된다.
통신 인터페이스(114)는: 인코더(113)에 의해 생성된 비트스트림을 수신하고; 통신 채널(130)을 통해 비트스트림을 목적지 디바이스(120)에 전송하여, 목적지 디바이스(120)가 비트스트림에 기초하여 3차원 오디오 신호를 재구성하게 하도록 구성된다.
목적지 디바이스(120)는 플레이어(121), 후처리기(122), 디코더(123), 및 통신 인터페이스(124)를 포함한다.
통신 인터페이스(124)는 통신 인터페이스(114)에 의해 전송된 비트스트림을 수신하고; 비트스트림을 디코더(123)에 송신하여, 디코더(123)가 비트스트림에 기초하여 3차원 오디오 신호를 재구성하게 하도록 구성된다.
통신 인터페이스(114) 및 통신 인터페이스(124)는 소스 디바이스(110)와 목적지 디바이스(120) 사이의 직접 통신 링크, 예를 들어, 직접 유선 또는 무선 연결을 통해, 또는 임의의 타입의 네트워크, 예를 들어, 유선 네트워크, 무선 네트워크, 또는 이들의 임의의 조합, 임의의 타입의 사설 네트워크 및 공중 네트워크, 또는 이들의 임의의 조합을 통해 원본 오디오에 관련된 데이터를 전송 또는 수신하도록 구성될 수 있다.
통신 인터페이스(114)와 통신 인터페이스(124) 둘 다는 소스 디바이스(110)로부터 목적지 디바이스(120)를 가리키는 도 1의 통신 채널(130)에 대한 화살표로 표시된 바와 같은 단방향 통신 인터페이스들, 또는 양방향 통신 인터페이스들로서 구성될 수 있고, 예를 들어, 메시지들을 전송 및 수신하여, 통신 링크 및/또는 데이터 송신, 예를 들어, 인코딩을 통해 획득된 비트스트림의 송신에 관련된 임의의 다른 정보를 확인응답하고 교환하기 위한 연결을 확립하도록 구성될 수 있다.
디코더(123)는 비트스트림을 디코딩하고, 3차원 오디오 신호를 재구성하도록 구성된다. 예를 들어, 디코더(123)는 코어 디코더(1231) 및 공간 디코더(1232)를 포함한다. 코어 디코더(1231)는 비트스트림을 디코딩하여 가상 라우드스피커 신호를 획득하도록 구성된다. 공간 디코더(1232)는 후보 가상 라우드스피커 세트 및 가상 라우드스피커 신호에 기초하여 3차원 오디오 신호를 재구성하여, 재구성된 3차원 오디오 신호를 획득하도록 구성된다.
후처리기(122)는 디코더(123)에 의해 생성된 재구성된 3차원 오디오 신호를 수신하고; 재구성된 3차원 오디오 신호에 대해 후처리를 수행하도록 구성된다. 예를 들어, 후처리기(122)에 의해 수행되는 후처리는 오디오 렌더링, 라우드니스 정규화(loudness normalization), 사용자 상호작용, 오디오 포맷 변환, 잡음 감소 등을 포함한다.
플레이어(121)는 재구성된 3차원 오디오 신호에 기초하여 재구성된 사운드를 재생하도록 구성된다.
오디오 획득 디바이스(111)와 인코더(113)는 하나의 물리적 디바이스 상에 통합될 수 있거나, 상이한 물리적 디바이스들 상에 배치될 수 있다는 점에 유의해야 한다. 이것은 제한되지 않는다. 예를 들어, 도 1에 도시된 소스 디바이스(110)는 오디오 획득 디바이스(111) 및 인코더(113)를 포함하며, 이는 오디오 획득 디바이스(111)와 인코더(113)가 하나의 물리적 디바이스 상에 통합되어 있음을 나타낸다. 이 경우, 소스 디바이스(110)는 캡처링 디바이스라고도 지칭될 수 있다. 소스 디바이스(110)는, 예를 들어, 무선 액세스 네트워크(radio access network)의 미디어 게이트웨이, 코어 네트워크의 미디어 게이트웨이, 트랜스코딩 디바이스, 미디어 리소스 서버, AR 디바이스, VR 디바이스, 마이크로폰, 또는 다른 오디오 캡처링 디바이스이다. 소스 디바이스(110)가 오디오 획득 디바이스(111)를 포함하지 않는 경우, 이는 오디오 획득 디바이스(111)와 인코더(113)가 2개의 상이한 물리적 디바이스임을 나타낸다. 소스 디바이스(110)는 다른 디바이스(예를 들어, 오디오 캡처링 디바이스 또는 오디오 저장 디바이스)로부터 원본 오디오를 획득할 수 있다.
또한, 플레이어(121)와 디코더(123)는 하나의 물리적 디바이스 상에 통합될 수 있거나, 상이한 물리적 디바이스들 상에 배치될 수 있다. 이것은 제한되지 않는다. 예를 들어, 도 1에 도시된 목적지 디바이스(120)는 플레이어(121) 및 디코더(123)를 포함하며, 이는 플레이어(121)와 디코더(123)가 하나의 물리적 디바이스 상에 통합되어 있음을 나타낸다. 이 경우, 목적지 디바이스(120)는 재생 디바이스라고도 지칭될 수 있고, 목적지 디바이스(120)는 재구성된 오디오를 디코딩하고 재생하는 기능들을 갖는다. 목적지 디바이스(120)는, 예를 들어, 라우드스피커, 헤드셋, 또는 다른 오디오 재생 디바이스이다. 목적지 디바이스(120)가 플레이어(121)를 포함하지 않는 경우, 이는 플레이어(121)와 디코더(123)가 2개의 상이한 물리적 디바이스임을 나타낸다. 비트스트림을 디코딩하여 3차원 오디오 신호를 재구성한 후에, 목적지 디바이스(120)는 재구성된 3차원 오디오 신호를 다른 재생 디바이스(예를 들어, 라우드스피커 또는 헤드셋)에 송신한다. 다른 재생 디바이스는 재구성된 3차원 오디오 신호를 재생한다.
또한, 도 1은 소스 디바이스(110)와 목적지 디바이스(120)가 하나의 물리적 디바이스 상에 통합될 수 있거나, 상이한 물리적 디바이스들 상에 배치될 수 있다는 것을 보여준다. 이것은 제한되지 않는다.
예를 들어, 도 2의 (a)에 도시된 바와 같이, 소스 디바이스(110)는 레코딩 스튜디오(recording studio) 내의 마이크로폰일 수 있고, 목적지 디바이스(120)는 라우드스피커일 수 있다. 소스 디바이스(110)는 다양한 악기들의 원본 오디오들을 취득하고, 원본 오디오들을 인코딩/디코딩 디바이스에 송신할 수 있다. 인코딩/디코딩 디바이스는 원본 오디오들을 인코딩/디코딩하여 재구성된 3차원 오디오 신호를 획득한다. 목적지 디바이스(120)는 재구성된 3차원 오디오 신호를 재생한다. 다른 예로서, 소스 디바이스(110)는 단말 디바이스 내의 마이크로폰일 수 있고, 목적지 디바이스(120)는 헤드셋일 수 있다. 소스 디바이스(110)는 외부 사운드 또는 단말 디바이스에 의해 합성된 오디오를 취득할 수 있다.
다른 예로서, 도 2의 (b)에 도시된 바와 같이, 소스 디바이스(110)와 목적지 디바이스(120)는 가상 현실(virtual reality, VR) 디바이스, 증강 현실(augmented reality, AR) 디바이스, 혼합 현실(mixed reality, MR) 디바이스, 또는 확장 현실(extended reality, XR) 디바이스 상에 통합된다. 이 경우, VR/AR/MR/XR 디바이스는 원본 오디오를 캡처하고, 오디오를 재생하고, 인코딩/디코딩하는 기능들을 갖는다. 소스 디바이스(110)는 사용자에 의해 생성된 사운드 및 사용자가 위치하는 가상 환경에서 가상 객체에 의해 생성된 사운드를 취득할 수 있다.
이러한 실시예들에서, 소스 디바이스(110) 또는 그의 대응하는 기능들, 및 목적지 디바이스(120) 또는 그의 대응하는 기능들은 동일한 하드웨어 및/또는 소프트웨어, 또는 별개의 하드웨어 및/또는 소프트웨어, 또는 이들의 임의의 조합을 사용하여 구현될 수 있다. 설명에 기초하여 통상의 기술자에게 명백한 바와 같이, 도 1에 도시된 소스 디바이스(110) 및/또는 목적지 디바이스(120)에서의 상이한 유닛들 또는 기능들의 존재 및 분할은 실제 디바이스 및 응용에 따라 달라질 수 있다.
오디오 인코딩/디코딩 시스템의 구조는 단지 설명을 위한 예일 뿐이다. 일부 가능한 구현들에서, 오디오 인코딩/디코딩 시스템은 다른 디바이스를 추가로 포함할 수 있다. 예를 들어, 오디오 인코딩/디코딩 시스템은 단말 측 디바이스 또는 클라우드 측 디바이스를 추가로 포함할 수 있다. 원본 오디오를 캡처한 후에, 소스 디바이스(110)는 원본 오디오에 대해 전처리를 수행하여 3차원 오디오 신호를 획득하고, 3차원 오디오를 단말 측 디바이스 또는 클라우드 측 디바이스에 송신하여, 단말 측 디바이스 또는 클라우드 측 디바이스가 3차원 오디오 신호를 인코딩/디코딩하게 한다.
본 출원의 이 실시예에 따른 오디오 신호 인코딩/디코딩 방법은 주로 인코더 측에 적용된다. 인코더의 구조는 도 3을 참조하여 상세히 설명된다. 도 3에 도시된 바와 같이, 인코더(300)는 가상 라우드스피커 구성 유닛(310), 가상 라우드스피커 세트 생성 유닛(320), 인코딩 분석 유닛(330), 가상 라우드스피커 선택 유닛(340), 가상 라우드스피커 신호 생성 유닛(350), 및 인코딩 유닛(360)을 포함한다.
가상 라우드스피커 구성 유닛(310)은 인코더 구성 정보에 기초하여 가상 라우드스피커 구성 파라미터를 생성하여, 복수의 가상 라우드스피커를 획득하도록 구성된다. 인코더 구성 정보는 3차원 오디오 신호의 차수(또는 일반적으로 HOA 차수라고 지칭됨), 인코딩 비트 레이트, 맞춤화된 정보 등을 포함하지만 이에 제한되지 않는다. 가상 라우드스피커 구성 파라미터는 가상 라우드스피커들의 수량, 가상 라우드스피커들의 순서, 가상 라우드스피커들의 위치 좌표들 등을 포함하지만 이에 제한되지 않는다. 예를 들어, 2048, 1669, 1343, 1024, 530, 512, 256, 128, 또는 64개의 가상 라우드스피커가 있을 수 있다. 가상 라우드스피커의 순서는 순서 2 내지 순서 6 중 어느 하나일 수 있다. 가상 라우드스피커의 위치 좌표들은 수평각과 경사각을 포함한다.
가상 라우드스피커 구성 유닛(310)에 의해 출력된 가상 라우드스피커 구성 파라미터는 가상 라우드스피커 세트 생성 유닛(320)의 입력으로서 사용된다.
가상 라우드스피커 세트 생성 유닛(320)은 가상 라우드스피커 구성 파라미터에 기초하여 후보 가상 라우드스피커 세트를 생성하도록 구성된다. 후보 가상 라우드스피커 세트는 복수의 가상 라우드스피커들을 포함한다. 구체적으로, 가상 라우드스피커 세트 생성 유닛(320)은 가상 라우드스피커들의 수량에 기초하여, 후보 가상 라우드스피커 세트에 포함된 복수의 가상 라우드스피커들을 결정하고, 가상 라우드스피커들의 위치 정보(예를 들어, 좌표들) 및 가상 라우드스피커들의 순서에 기초하여 가상 라우드스피커들의 계수들을 결정한다. 예를 들어, 가상 라우드스피커 좌표들을 결정하기 위한 방법은 동일한 거리들에 기초하여 복수의 가상 라우드스피커들을 생성하는 것, 또는 청각 인지 원리에 기초하여, 고르게 분포되지 않은 복수의 가상 라우드스피커들을 생성하는 것; 및 그 후 가상 라우드스피커들의 수량에 기초하여 가상 라우드스피커의 좌표들을 생성하는 것을 포함하지만, 이에 제한되지 않는다.
가상 라우드스피커들의 계수들은 대안적으로 3차원 오디오 신호의 생성 원리에 기초하여 생성될 수 있다. 수학식 (3)에서의 은 각각 가상 라우드스피커의 위치 좌표로서 설정되고, 는 N차 가상 라우드스피커의 계수를 나타낸다. 가상 라우드스피커의 계수는 앰비소닉스 계수라고도 지칭될 수 있다.
인코딩 분석 유닛(330)은 3차원 오디오 신호에 대해 인코딩 분석을 수행하도록, 예를 들어, 3차원 오디오 신호의 음장 분포 특징, 즉, 3차원 오디오 신호의 음원들의 수량, 음원들의 방향성, 및 음원들의 분산도와 같은 특징들을 분석하도록 구성된다.
가상 라우드스피커 세트 생성 유닛(320)에 의해 출력된 후보 가상 라우드스피커 세트에 포함된 복수의 가상 라우드스피커들의 계수들은 가상 라우드스피커 선택 유닛(340)의 입력으로서 사용된다.
인코딩 분석 유닛(330)에 의해 출력되는 3차원 오디오 신호의 음장 분포 특징은 가상 라우드스피커 선택 유닛(340)의 입력으로서 사용된다.
가상 라우드스피커 선택 유닛(340)은 인코딩될 3차원 오디오 신호, 3차원 오디오 신호의 음장 분포 특징, 및 복수의 가상 라우드스피커의 계수들에 기초하여, 3차원 오디오 신호와 매칭되는 대표 가상 라우드스피커를 결정하도록 구성된다.
본 출원의 이 실시예에서의 인코더(300)는 인코딩 분석 유닛(330)을 포함하지 않을 수 있다. 이것은 제한되지 않는다. 구체적으로, 인코더(300)는 입력 신호를 분석하지 않을 수 있고, 가상 라우드스피커 선택 유닛(340)은 디폴트 구성을 사용하여 대표 가상 라우드스피커를 결정한다. 예를 들어, 가상 라우드스피커 선택 유닛(340)은 3차원 오디오 신호 및 복수의 가상 라우드스피커의 계수들에만 기초하여 3차원 오디오 신호와 매칭되는 대표 가상 라우드스피커를 결정한다.
인코더(300)는 캡처링 디바이스로부터 획득된 3차원 오디오 신호 또는 인공 오디오 객체를 사용하여 합성된 3차원 오디오 신호를 인코더(300)의 입력으로서 사용할 수 있다. 또한, 인코더(300)에 의해 입력되는 3차원 오디오 신호는 시간 도메인 3차원 오디오 신호 또는 주파수 도메인 3차원 오디오 신호일 수 있다. 이것은 제한되지 않는다.
가상 라우드스피커 선택 유닛(340)에 의해 출력되는 대표 가상 라우드스피커의 위치 정보 및 대표 가상 라우드스피커의 계수는 가상 라우드스피커 신호 생성 유닛(350) 및 인코딩 유닛(360)의 입력들로서 사용된다.
가상 라우드스피커 신호 생성 유닛(350)은 3차원 오디오 신호 및 대표 가상 라우드스피커의 속성 정보에 기초하여 가상 라우드스피커 신호를 생성하도록 구성된다. 대표 가상 라우드스피커의 속성 정보는 대표 가상 라우드스피커의 위치 정보, 대표 가상 라우드스피커의 계수, 및 3차원 오디오 신호의 계수 중 적어도 하나를 포함한다. 속성 정보가 대표 가상 라우드스피커의 위치 정보인 경우, 대표 가상 라우드스피커의 계수는 대표 가상 라우드스피커의 위치 정보에 기초하여 결정된다. 속성 정보가 3차원 오디오 신호의 계수를 포함하는 경우, 대표 가상 라우드스피커의 계수는 3차원 오디오 신호의 계수에 기초하여 획득된다. 구체적으로, 가상 라우드스피커 신호 생성 유닛(350)은 3차원 오디오 신호의 계수 및 대표 가상 라우드스피커의 계수에 기초하여 가상 라우드스피커 신호를 계산한다.
예를 들어, 행렬 A는 가상 라우드스피커들의 계수들을 나타내고, 행렬 X는 HOA 신호들의 HOA 계수들을 나타낸다고 가정된다. 행렬 X는 행렬 A의 역 행렬이다. 이론적 최적 해(theoretical optimal solution) w는 최소 제곱법을 사용하여 얻어지며, 여기서 w는 가상 라우드스피커 신호를 나타낸다. 가상 라우드스피커 신호는 수학식 (5)를 충족한다:
A-1은 행렬 A의 역 행렬을 나타낸다. 행렬 A의 크기는 (M×C)이고, 여기서 C는 가상 라우드스피커들의 수량을 나타내고, M은 N차 HOA 신호의 오디오 채널들의 수량을 나타내고, a는 가상 라우드스피커의 계수를 나타낸다. 행렬 X의 크기는 (M×L)이고, 여기서 L은 HOA 신호들의 계수들의 수량을 나타내고, x는 HOA 신호의 계수를 나타낸다. 대표 가상 라우드스피커의 계수는 대표 가상 라우드스피커의 HOA 계수 또는 대표 가상 라우드스피커의 앰비소닉스 계수일 수 있으며, 예를 들어, 일 수 있다.
가상 라우드스피커 신호 생성 유닛(350)에 의해 출력된 가상 라우드스피커 신호는 인코딩 유닛(360)의 입력으로서 사용된다.
인코딩 유닛(360)은 가상 라우드스피커 신호에 대해 코어 인코딩 처리를 수행하여 비트스트림을 획득하도록 구성된다. 코어 인코딩 처리는 변환, 양자화, 음향심리학적 모델(psychoacoustic model)의 사용, 잡음 성형(noise shaping), 대역폭 확장, 다운믹싱, 산술 코딩, 비트스트림 생성 등을 포함하지만 이에 제한되지 않는다.
공간 인코더(1131)는 가상 라우드스피커 구성 유닛(310), 가상 라우드스피커 세트 생성 유닛(320), 인코딩 분석 유닛(330), 가상 라우드스피커 선택 유닛(340), 및 가상 라우드스피커 신호 생성 유닛(350)을 포함할 수 있다는 점에 유의해야 한다. 다시 말해서, 가상 라우드스피커 구성 유닛(310), 가상 라우드스피커 세트 생성 유닛(320), 인코딩 분석 유닛(330), 가상 라우드스피커 선택 유닛(340), 및 가상 라우드스피커 신호 생성 유닛(350)은 공간 인코더(1131)의 기능들을 구현한다. 코어 인코더(1132)는 인코딩 유닛(360)을 포함할 수 있다. 다시 말해서, 인코딩 유닛(360)은 코어 인코더(1132)의 기능을 구현한다.
도 3에 도시된 인코더는 하나의 가상 라우드스피커 신호를 생성할 수 있거나, 복수의 가상 라우드스피커 신호를 생성할 수 있다. 복수의 가상 라우드스피커 신호는 도 3에 도시된 인코더에 의해 수행되는 복수의 동작을 통해 획득될 수 있거나, 도 3에 도시된 인코더에 의해 수행되는 하나의 동작을 통해 획득될 수 있다.
이하에서는 첨부 도면들을 참조하여 3차원 오디오 신호 인코딩/디코딩 절차를 설명한다. 도 4는 본 출원의 실시예에 따른 3차원 오디오 신호 인코딩/디코딩 방법의 개략적인 흐름도이다. 여기서, 도 1의 소스 디바이스(110)와 목적지 디바이스(120)가 3차원 오디오 신호 인코딩/디코딩 절차를 수행하는 예가 설명을 위해 사용된다. 도 4에 도시된 바와 같이, 방법은 다음의 단계들을 포함한다.
S410: 소스 디바이스(110)는 3차원 오디오 신호의 현재 프레임을 획득한다.
전술한 실시예에서 설명된 바와 같이, 소스 디바이스(110)가 오디오 획득 디바이스(111)를 포함하는 경우, 소스 디바이스(110)는 오디오 획득 디바이스(111)를 사용하여 원본 오디오를 취득할 수 있다. 선택적으로, 소스 디바이스(110)는 대안적으로 다른 디바이스에 의해 취득된 원본 오디오를 수신하거나, 소스 디바이스(110) 내의 메모리 또는 다른 메모리로부터 원본 오디오를 획득할 수 있다. 원본 오디오는 현실 세계로부터 실시간으로 취득된 사운드, 디바이스에 저장된 오디오, 및 복수의 오디오로부터 합성된 오디오 중 적어도 하나를 포함할 수 있다. 원본 오디오를 획득하는 방식 및 원본 오디오의 타입은 이 실시예에서 제한되지 않는다.
원본 오디오를 획득한 후에, 소스 디바이스(110)는 3차원 오디오 기술 및 원본 오디오에 기초하여 3차원 오디오 신호를 생성하여, 청취자에게 "몰입형" 스피커 효과를 제공한다. 3차원 오디오 신호를 생성하기 위한 특정 방법에 대해서는, 전술한 실시예에서의 전처리기(112)의 설명들 및 종래의 기술의 설명들을 참조한다.
또한, 오디오 신호는 연속적인 아날로그 신호이다. 오디오 신호 처리 절차에서, 오디오 신호는 먼저 샘플링되어 프레임 시퀀스의 디지털 신호를 생성할 수 있다. 프레임은 복수의 샘플을 포함할 수 있다. 프레임은 대안적으로 샘플링을 통해 획득된 샘플일 수 있다. 프레임은 대안적으로 프레임을 분할함으로써 획득된 서브프레임들을 포함할 수 있다. 프레임은 대안적으로 프레임을 분할함으로써 획득된 서브프레임들일 수 있다. 예를 들어, 프레임의 길이가 L개의 샘플이고 프레임이 N개의 서브프레임으로 분할되는 경우, 각각의 서브프레임은 L/N개의 샘플에 대응한다. 오디오 인코딩/디코딩은 일반적으로 복수의 샘플을 포함하는 오디오 프레임 시퀀스를 처리하는 것을 의미한다.
오디오 프레임은 현재 프레임 또는 이전 프레임을 포함할 수 있다. 본 출원의 실시예들에서 설명된 현재 프레임 또는 이전 프레임은 프레임 또는 서브프레임일 수 있다. 현재 프레임은 현재 순간에 인코딩/디코딩되고 있는 프레임이다. 이전 프레임은 현재 순간 이전의 순간에 인코딩/디코딩된 프레임이다. 이전 프레임은 현재 순간 이전의 순간의 프레임 또는 현재 순간 이전의 복수의 순간의 프레임들일 수 있다. 본 출원의 이 실시예에서, 3차원 오디오 신호의 현재 프레임은 현재 순간에 인코딩/디코딩되고 있는 3차원 오디오 신호의 프레임이다. 이전 프레임은 현재 순간 이전에 인코딩/디코딩된 3차원 오디오 신호의 프레임이다. 3차원 오디오 신호의 현재 프레임은 3차원 오디오 신호의 인코딩될 현재 프레임일 수 있다. 3차원 오디오 신호의 현재 프레임은 줄여서 현재 프레임으로 지칭될 수 있다. 3차원 오디오 신호의 이전 프레임은 줄여서 이전 프레임으로 지칭될 수 있다.
S420: 소스 디바이스(110)는 후보 가상 라우드스피커 세트를 결정한다.
하나의 경우에, 후보 가상 라우드스피커 세트는 소스 디바이스(110)의 메모리에 미리 구성된다. 소스 디바이스(110)는 메모리로부터 후보 가상 라우드스피커 세트를 판독할 수 있다. 후보 가상 라우드스피커 세트는 복수의 가상 라우드스피커들을 포함한다. 가상 라우드스피커는 공간 음장에 가상으로 존재하는 라우드스피커를 나타낸다. 가상 라우드스피커는 3차원 오디오 신호에 기초하여 가상 라우드스피커 신호를 계산하여, 목적지 디바이스(120)가 재구성된 3차원 오디오 신호를 재생하게 하도록 구성된다.
다른 경우에, 가상 라우드스피커 구성 파라미터는 소스 디바이스(110)의 메모리에 미리 구성된다. 소스 디바이스(110)는 가상 라우드스피커 구성 파라미터에 기초하여 후보 가상 라우드스피커 세트를 생성한다. 선택적으로, 소스 디바이스(110)는 소스 디바이스(110)의 컴퓨팅 리소스(예를 들어, 프로세서)의 능력 및 현재 프레임의 특징(예를 들어, 채널 및 데이터 양)에 기초하여 실시간으로 후보 가상 라우드스피커 세트를 생성한다.
후보 가상 라우드스피커 세트를 생성하기 위한 특정 방법에 대해서는, 종래의 기술 및 전술한 실시예에서의 가상 라우드스피커 구성 유닛(310)과 가상 라우드스피커 세트 생성 유닛(320)의 설명들을 참조한다.
S430: 소스 디바이스(110)는 3차원 오디오 신호의 현재 프레임에 기초하여 후보 가상 라우드스피커 세트로부터 현재 프레임 대표 가상 라우드스피커를 선택한다.
소스 디바이스(110)는 현재 프레임의 계수 및 가상 라우드스피커들의 계수들에 기초하여 가상 라우드스피커들에 대해 투표하고, 가상 라우드스피커들의 투표 값들에 기초하여 후보 가상 라우드스피커 세트로부터 현재 프레임 대표 가상 라우드스피커를 선택한다. 후보 가상 라우드스피커 세트는 제한된 수량의 현재 프레임 대표 가상 라우드스피커들에 대해 검색되고, 제한된 수량의 현재 프레임 대표 가상 라우드스피커들은 인코딩될 현재 프레임에 대한 가장 잘 매칭되는 가상 라우드스피커들로서 사용된다. 이러한 방식으로, 인코딩될 3차원 오디오 신호에 대해 데이터 압축이 수행된다.
도 5는 본 출원의 실시예에 따른 가상 라우드스피커 선택 방법의 개략적인 흐름도이다. 도 5의 방법 절차는 도 4의 S430에 포함된 구체적인 동작 절차를 설명한다. 여기서, 도 1에 도시된 소스 디바이스(110) 내의 인코더(113)가 가상 라우드스피커 선택 절차를 수행하는 예가 설명을 위해 사용된다. 구체적으로, 가상 라우드스피커 선택 유닛(340)의 기능이 구현된다. 도 5에 도시된 바와 같이, 방법은 다음의 단계들을 포함한다.
S510: 인코더(113)는 현재 프레임의 대표 계수를 획득한다.
대표 계수는 주파수 도메인 대표 계수 또는 시간 도메인 대표 계수일 수 있다. 주파수 도메인 대표 계수는 주파수 도메인 대표 주파수 빈 또는 스펙트럼 대표 계수라고도 지칭될 수 있다. 시간 도메인 대표 계수는 시간 도메인 대표 샘플이라고도 지칭될 수 있다. 현재 프레임의 대표 계수를 획득하기 위한 특정 방법에 대해서는, 도 7의 S6101 및 S6102에 대한 다음의 설명들을 참조한다.
S520: 인코더(113)는 현재 프레임의 대표 계수들에 기초하여 획득된 후보 가상 라우드스피커 세트 내의 가상 라우드스피커들의 투표 값들에 기초하여 후보 가상 라우드스피커 세트로부터 현재 프레임 대표 가상 라우드스피커를 선택한다. S440 내지 S460이 수행된다.
인코더(113)는 현재 프레임의 대표 계수 및 가상 라우드스피커들의 계수들에 기초하여 후보 가상 라우드스피커 세트 내의 가상 라우드스피커들에 대해 투표하고, 가상 라우드스피커들의 현재 프레임 최종 투표 값들에 기초하여 후보 가상 라우드스피커 세트로부터 현재 프레임 대표 가상 라우드스피커를 선택(검색)한다. 현재 프레임 대표 가상 라우드스피커를 선택하기 위한 특정 방법에 대해서는, 도 8 및 도 7의 S6103에 대한 설명들을 참조한다.
인코더는 먼저 후보 가상 라우드스피커 세트에 포함된 가상 라우드스피커들을 트래버스하고, 후보 가상 라우드스피커 세트로부터 선택된 현재 프레임 대표 가상 라우드스피커를 사용하여 현재 프레임을 압축한다는 점에 유의해야 한다. 그러나, 연속적인 프레임들에 대한 가상 라우드스피커들의 선택 결과들이 크게 달라지면, 재구성된 3차원 오디오 신호의 공간 이미지는 불안정하고, 재구성된 3차원 오디오 신호의 음질은 감소된다. 본 출원의 이 실시예에서, 인코더(113)는, 이전 프레임 대표 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여, 후보 가상 라우드스피커 세트에 포함된 가상 라우드스피커들의 현재 프레임 초기 투표 값들을 업데이트하여, 가상 라우드스피커들의 현재 프레임 최종 투표 값들을 획득한 다음, 가상 라우드스피커들의 현재 프레임 최종 투표 값들에 기초하여 후보 가상 라우드스피커 세트로부터 현재 프레임 대표 가상 라우드스피커를 선택할 수 있다. 이러한 방식으로, 현재 프레임 대표 가상 라우드스피커는 이전 프레임 대표 가상 라우드스피커에 기초하여 선택되므로, 현재 프레임에 대한 현재 프레임 대표 가상 라우드스피커를 선택할 때, 인코더는 이전 프레임 대표 가상 라우드스피커와 동일한 가상 라우드스피커를 선택하는 경향이 있다. 이러한 방식으로, 연속적인 프레임들 사이의 방향성 연속성이 증가되고, 연속적인 프레임들에 대한 가상 라우드스피커들의 선택 결과들이 크게 달라지는 문제가 해결된다. 따라서, 본 출원의 이 실시예는 S530을 추가로 포함할 수 있다.
S530: 인코더(113)는 이전 프레임 대표 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 후보 가상 라우드스피커 세트 내의 가상 라우드스피커들의 현재 프레임 초기 투표 값들을 조정하여, 가상 라우드스피커들의 현재 프레임 최종 투표 값들을 획득한다.
인코더(113)는 현재 프레임의 대표 계수 및 가상 라우드스피커들의 계수들에 기초하여 후보 가상 라우드스피커 세트 내의 가상 라우드스피커들에 대해 투표하여, 가상 라우드스피커들의 현재 프레임 초기 투표 값들을 획득한 다음, 이전 프레임 대표 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 후보 가상 라우드스피커 세트 내의 가상 라우드스피커의 현재 프레임 초기 투표 값들을 조정하여, 가상 라우드스피커들의 현재 프레임 최종 투표 값들을 획득한다. 이전 프레임 대표 가상 라우드스피커는 인코더(113)가 이전 프레임을 인코딩할 때 사용되는 가상 라우드스피커이다. 후보 가상 라우드스피커 세트 내의 가상 라우드스피커들의 현재 프레임 초기 투표 값들을 조정하기 위한 특정 방법에 대해서는, 도 6의 S620 및 S630과 도 8의 S810 내지 S840에 대한 다음의 설명들을 참조한다.
일부 실시예들에서, 현재 프레임이 원본 오디오에서의 첫 번째 프레임이면, 인코더(113)는 S510 및 S520을 수행한다. 현재 프레임이 원본 오디오에서의 두 번째 프레임에 후속하는 임의의 프레임인 경우, 인코더(113)는 먼저 이전 프레임 대표 가상 라우드스피커가 현재 프레임을 인코딩하기 위해 재사용되는지를 결정하거나 가상 라우드스피커를 검색할지를 결정하여, 연속적인 프레임들 사이의 방향성 연속성을 보장하고 인코딩 복잡도를 감소시킬 수 있다. 본 출원의 이 실시예는 S540을 추가로 포함할 수 있다.
S540: 인코더(113)는, 이전 프레임 대표 가상 라우드스피커 및 현재 프레임에 기초하여, 가상 라우드스피커를 검색할지 여부를 결정한다.
인코더(113)가 가상 라우드스피커를 검색하기로 결정하면, S510 내지 S530이 수행된다. 선택적으로, 인코더(113)는 먼저 S510을 수행할 수 있다. 구체적으로, 인코더(113)는 현재 프레임의 대표 계수를 획득한다. 인코더(113)는 현재 프레임의 대표 계수 및 이전 프레임 대표 가상 라우드스피커의 계수에 기초하여, 가상 라우드스피커를 검색할지를 결정한다. 인코더(113)가 가상 라우드스피커를 검색하기로 결정하면, S520 및 S530이 수행된다.
인코더(113)가 가상 라우드스피커를 검색하지 않기로 결정하면, S550이 수행된다.
S550: 인코더(113)는 이전 프레임 대표 가상 라우드스피커를 재사용하여 현재 프레임을 인코딩하기로 결정한다.
인코더(113)는 이전 프레임 대표 가상 라우드스피커를 재사용함으로써 현재 프레임에 기초하여 가상 라우드스피커 신호를 생성하고, 가상 라우드스피커 신호를 인코딩하여 비트스트림을 획득하고, 비트스트림을 목적지 디바이스(120)에 전송한다. 다시 말해서, S450 및 S460이 수행된다.
가상 라우드스피커를 검색할지를 결정하기 위한 특정 방법에 대해서는, 도 9에서의 S650 내지 S680에 대한 다음의 설명들을 참조한다.
S440: 소스 디바이스(110)는 3차원 오디오 신호의 현재 프레임 및 현재 프레임 대표 가상 라우드스피커에 기초하여 가상 라우드스피커 신호를 생성한다.
소스 디바이스(110)는 현재 프레임의 계수 및 현재 프레임 대표 가상 라우드스피커의 계수에 기초하여 가상 라우드스피커 신호를 생성한다. 가상 라우드스피커 신호를 생성하기 위한 특정 방법에 대해서는, 종래의 기술 및 전술한 실시예에서의 가상 라우드스피커 신호 생성 유닛(350)에 대한 설명들을 참조한다.
S450: 소스 디바이스(110)는 가상 라우드스피커 신호를 인코딩하여 비트스트림을 획득한다.
소스 디바이스(110)는 가상 라우드스피커 신호에 대해 변환 또는 양자화와 같은 인코딩 동작을 수행하여 비트스트림을 생성할 수 있다. 이러한 방식으로, 인코딩될 3차원 오디오 신호에 대해 데이터 압축이 수행된다. 비트스트림을 생성하기 위한 특정 방법에 대해서는, 종래의 기술 및 전술한 실시예에서의 인코딩 유닛(360)에 대한 설명들을 참조한다.
S460: 소스 디바이스(110)는 비트스트림을 목적지 디바이스(120)에 전송한다.
모든 원본 오디오를 인코딩한 후에, 소스 디바이스(110)는 원본 오디오의 비트스트림을 목적지 디바이스(120)에 전송할 수 있다. 대안적으로, 소스 디바이스(110)는 대안적으로 3차원 오디오 신호를 실시간으로 프레임 단위로(frame by frame) 인코딩하고, 프레임을 인코딩한 후에 하나의 프레임의 비트스트림을 전송할 수 있다. 비트스트림을 전송하기 위한 특정 방법에 대해서는, 종래의 기술 및 전술한 실시예에서의 통신 인터페이스(114) 및 통신 인터페이스(124)에 대한 설명들을 참조한다.
S470: 목적지 디바이스(120)는 소스 디바이스(110)에 의해 전송된 비트스트림을 디코딩하고, 3차원 오디오 신호를 재구성하여, 재구성된 3차원 오디오 신호를 획득한다.
비트스트림을 수신한 후에, 목적지 디바이스(120)는 비트스트림을 디코딩하여 가상 라우드스피커 신호를 획득한 다음, 후보 가상 라우드스피커 세트 및 가상 라우드스피커 신호에 기초하여 3차원 오디오 신호를 재구성하여, 재구성된 3차원 오디오 신호를 획득한다. 목적지 디바이스(120)는 재구성된 3차원 오디오 신호를 재생한다. 대안적으로, 목적지 디바이스(120)는 재구성된 3차원 오디오 신호를 다른 재생 디바이스에 송신하고, 다른 재생 디바이스는 재구성된 3차원 오디오 신호를 재생한다. 이러한 방식으로, 청취자를 위한 시네마, 콘서트 홀, 또는 가상 장면과 같은 시나리오를 모방하는 "몰입형" 사운드 효과가 더욱 생생하다.
연속적인 프레임들 사이의 방향성 연속성을 증가시키고 연속적인 프레임들에 대한 가상 라우드스피커들의 선택 결과들이 크게 달라지는 문제를 해결하기 위해, 인코더(113)는 이전 프레임 대표 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 후보 가상 라우드스피커 세트 내의 가상 라우드스피커들의 현재 프레임 초기 투표 값들을 조정하여, 가상 라우드스피커들의 현재 프레임 최종 투표 값들을 획득한다. 도 6은 본 출원의 실시예에 따른 다른 가상 라우드스피커 선택 방법의 개략적인 흐름도이다. 여기서, 도 1의 소스 디바이스(110) 내의 인코더(113)가 가상 라우드스피커 선택 절차를 수행하는 예가 설명을 위해 사용된다. 도 6의 방법 절차는 도 5의 S530에 포함된 구체적인 동작 절차를 설명한다. 도 6에 도시된 바와 같이, 방법은 다음의 단계들을 포함한다.
S610: 인코더(113)는 3차원 오디오 신호의 현재 프레임에 대한 제1 수량의 현재 프레임 초기 투표 값들을 획득한다.
인코더(113)는 현재 프레임의 대표 계수를 사용하여 후보 가상 라우드스피커 세트 내의 각각의 가상 라우드스피커에 대해 투표하여, 가상 라우드스피커의 현재 프레임 초기 투표 값을 획득하고, 투표 값에 기초하여 현재 프레임 대표 가상 라우드스피커를 선택할 수 있다. 이러한 방식으로, 가상 라우드스피커를 검색하는 계산 복잡도가 감소되고, 인코더의 계산 부하가 감소된다.
도 7은 본 출원의 실시예에 따른 다른 3차원 오디오 신호 인코딩 방법의 개략적인 흐름도이다. 여기서, 도 1의 소스 디바이스(110) 내의 인코더(113)가 가상 라우드스피커 선택 절차를 수행하는 예가 설명을 위해 사용된다. 도 7의 방법 절차는 도 5의 S510 및 S520에 포함된 구체적인 동작 절차들을 설명한다. 도 7에 도시된 바와 같이, 방법은 다음의 단계들을 포함한다.
S6101: 인코더(113)는 3차원 오디오 신호의 현재 프레임의 제4 수량의 계수들, 및 제4 수량의 계수들의 주파수 도메인 특징 값들을 획득한다.
3차원 오디오 신호는 HOA 신호라고 가정한다. 인코더(113)는 HOA 신호의 현재 프레임을 샘플링하여 L×(N+1)2개의 샘플을 획득, 즉, 제4 수량의 계수들을 획득할 수 있다. N은 HOA 신호의 차수를 나타낸다. 예를 들어, HOA 신호의 현재 프레임의 지속기간은 20 밀리초라고 가정된다. 인코더(113)는 48 kHz의 주파수에 기초하여 현재 프레임을 샘플링하여, 시간 도메인에서 960×(N+1)2개의 샘플을 획득한다. 샘플은 시간 도메인 계수로도 지칭될 수 있다.
3차원 오디오 신호의 현재 프레임의 주파수 도메인 계수는 3차원 오디오 신호의 현재 프레임의 시간 도메인 계수에 기초하여 시간-주파수 변환을 수행함으로써 획득될 수 있다. 시간 도메인을 주파수 도메인으로 변환하기 위한 방법은 제한되지 않는다. 시간 도메인을 주파수 도메인으로 변환하기 위한 방법은, 예를 들어, 수정된 이산 코사인 변환(modified discrete cosine transform, MDCT)을 사용하여 주파수 도메인에서 960×(N+1)2개의 주파수 도메인 계수를 획득하는 것을 포함한다. 주파수 도메인 계수는 스펙트럼 계수 또는 주파수 빈이라고도 지칭될 수 있다.
샘플의 주파수 도메인 특징 값은 p(j) = norm(x(j))을 충족하며, 여기서 j = 1, 2, ..., 및 L이다. L은 샘플링 순간들의 수량을 나타내고, x는 3차원 오디오 신호의 현재 프레임의 주파수 도메인 계수, 예를 들어, MDCT 계수를 나타내고, norm은 2-norm을 획득하는 연산이고, x(j)는 j 번째 샘플링 순간에서 (N+1)2개의 샘플의 주파수 도메인 계수를 나타낸다.
S6102: 인코더(113)는 제4 수량의 계수들의 주파수 도메인 특징 값들에 기초하여 제4 수량의 계수들로부터 제3 수량의 대표 계수들을 선택한다.
인코더(113)는 제4 수량의 계수들에 의해 표시되는 스펙트럼 범위를 적어도 하나의 부대역으로 분할한다. 인코더(113)는 제4 수량의 계수들에 의해 표시되는 스펙트럼 범위를 하나의 부대역으로 분할한다. 부대역의 스펙트럼 범위는 제4 수량의 계수들에 의해 표시되는 스펙트럼 범위와 동일하다는 점, 즉, 인코더(113)는 제4 수량의 계수들에 의해 표시되는 스펙트럼 범위를 분할하지 않는다는 점이 이해될 수 있다.
인코더(113)가 제4 수량의 계수들에 의해 표시되는 스펙트럼 범위를 적어도 2개의 주파수 부대역으로 분할하면, 하나의 경우에, 인코더(113)는 제4 수량의 계수들에 의해 표시되는 스펙트럼 범위를 적어도 2개의 부대역으로 균등하게 분할한다. 적어도 2개의 부대역 각각은 동일한 수량의 계수들을 포함한다.
다른 경우에, 인코더(113)는 제4 수량의 계수들에 의해 표시되는 스펙트럼 범위를 균등하지 않게 분할한다. 분할을 통해 획득된 적어도 2개의 부대역에 포함된 계수들의 수량들이 상이하거나, 분할을 통해 획득된 적어도 2개의 부대역 각각에 포함된 계수들의 수량들이 상이하다. 예를 들어, 인코더(113)는 제4 수량의 계수들에 의해 표시되는 스펙트럼 범위에서의 저주파수 범위, 중간 주파수 범위, 및 고주파수 범위에 기초하여, 제4 수량의 계수들에 의해 표시되는 스펙트럼 범위를 균등하지 않게 분할할 수 있으므로, 저주파수 범위, 중간 주파수 범위, 및 고주파수 범위에서의 각각의 스펙트럼 범위는 적어도 하나의 부대역을 포함한다. 저주파수 범위 내의 적어도 하나의 부대역 각각은 동일한 수량의 계수들을 포함한다. 중간 주파수 범위 내의 적어도 하나의 부대역 각각은 동일한 수량의 계수들을 포함한다. 고주파수 범위 내의 적어도 하나의 부대역 각각은 동일한 수량의 계수들을 포함한다. 저주파수 범위, 중간 주파수 범위, 및 고주파수 범위의 3개의 스펙트럼 범위 내의 부대역들은 상이한 수량의 계수들을 포함할 수 있다.
또한, 인코더(113)는 제4 수량의 계수들의 주파수 도메인 특징 값들에 기초하여, 제4 수량의 계수들에 의해 표시되는 스펙트럼 범위에 포함되는 적어도 하나의 부대역으로부터 대표 계수들을 선택하여, 제3 수량의 대표 계수들을 획득한다. 제3 수량은 제4 수량보다 작고, 제4 수량의 계수들은 제3 수량의 대표 계수들을 포함한다.
예를 들어, 인코더(113)는 제4 수량의 계수들에 의해 표시되는 스펙트럼 범위에 포함되는 적어도 하나의 부대역 각각에서의 계수들의 주파수 도메인 특징 값들의 내림차순에 기초하여 각각의 부대역으로부터 Z개의 대표 계수를 선택하고, 적어도 하나의 부대역에서의 Z개의 대표 계수를 조합하여 제3 수량의 대표 계수들을 획득하고, 여기서 Z는 양의 정수이다.
다른 예로서, 적어도 하나의 부대역이 적어도 2개의 부대역을 포함할 때, 인코더(113)는 적어도 2개의 부대역의 각각의 부대역에서의 제1 후보 계수의 주파수 도메인 특징 값에 기초하여 각각의 부대역의 가중치를 결정하고, 각각의 부대역의 가중치에 기초하여 각각의 부대역에서의 제2 후보 계수의 주파수 도메인 특징 값을 조정하여, 각각의 부대역에서의 제2 후보 계수의 조정된 주파수 도메인 특징 값을 획득한다. 제1 후보 계수 및 제2 후보 계수는 부대역 내의 계수들 중 일부이다. 인코더(113)는 적어도 2개의 부대역에서의 제2 후보 계수들의 조정된 주파수 도메인 특징 값들 및 적어도 2개의 부대역에서의 제2 후보 계수들 이외의 계수의 주파수 도메인 특징 값에 기초하여 제3 수량의 대표 계수들을 결정한다.
인코더가 현재 프레임의 모든 계수들로부터 일부 계수들을 대표 계수들로서 선택하고, 현재 프레임의 모든 계수들을 작은 수량의 대표 계수들로 대체하여 후보 가상 라우드스피커 세트로부터 대표 가상 라우드스피커를 선택하기 때문에, 인코더에 의해 가상 라우드스피커를 검색하는 계산 복잡도가 효과적으로 감소된다. 이러한 방식으로, 3차원 오디오 신호에 대해 압축 코딩을 수행하는 계산 복잡도가 감소되고, 인코더의 계산 부하가 감소된다.
S6103: 인코더(113)는 현재 프레임의 제3 수량의 대표 계수들, 후보 가상 라우드스피커 세트, 및 투표 라운드 수에 기초하여 제1 수량의 가상 라우드스피커들 및 제1 수량의 투표 값들을 결정한다.
투표 라운드 수는 가상 라우드스피커들에 투표하는 횟수를 제한하기 위해 사용된다. 투표 라운드 수는 1 이상의 정수이다. 투표 라운드 수는 후보 가상 라우드스피커 세트에 포함된 가상 라우드스피커들의 수량 이하이고, 투표 라운드 수는 인코더에 의해 송신된 가상 라우드스피커 신호들의 수량 이하이다. 예를 들어, 후보 가상 라우드스피커 세트는 제5 수량의 가상 라우드스피커들을 포함한다. 제5 수량의 가상 라우드스피커들은 제1 수량의 가상 라우드스피커들을 포함한다. 제1 수량은 제5 수량 이하이다. 투표 라운드 수는 1 이상의 정수이고, 투표 라운드 수는 제5 수량 이하이다. 가상 라우드스피커 신호는 대안적으로 현재 프레임에 대응하는 현재 프레임 대표 가상 라우드스피커의 전송 채널일 수 있다. 일반적으로, 가상 라우드스피커 신호들의 수량은 가상 라우드스피커들의 수량 이하이다.
가능한 구현에서, 투표 라운드 수는 미리 구성될 수 있거나, 인코더의 컴퓨팅 능력에 기초하여 결정될 수 있다. 예를 들어, 투표 라운드 수는 인코더의 인코딩 레이트 및/또는 인코딩 응용 시나리오에 기초하여 결정된다.
다른 가능한 구현에서, 투표 라운드 수는 현재 프레임에서의 방향성 음원들의 수량에 기초하여 결정된다. 예를 들어, 음장에서의 방향성 음원들의 수량이 2일 때, 투표 라운드 수는 2로 설정된다.
본 출원의 이 실시예는 제1 수량의 가상 라우드스피커들 및 제1 수량의 투표 값들을 결정하는 3가지 가능한 구현을 제공한다. 이하에서는 3가지 방식을 개별적으로 상세히 설명한다.
제1 가능한 구현에서, 투표 라운드 수는 1과 동일하다. 샘플링을 통해 복수의 대표 계수를 획득한 후에, 인코더(113)는 현재 프레임의 각각의 대표 계수에 기초하여 획득되는 후보 가상 라우드스피커 세트 내의 모든 가상 라우드스피커들의 투표 값들을 획득하고, 동일한 일련 번호를 갖는 가상 라우드스피커들의 투표 값들을 누적하여, 제1 수량의 가상 라우드스피커들 및 제1 수량의 투표 값들을 획득한다. 후보 가상 라우드스피커 세트는 제1 수량의 가상 라우드스피커들을 포함한다는 점이 이해될 수 있다. 제1 수량은 후보 가상 라우드스피커 세트에 포함된 가상 라우드스피커들의 수량과 동일하다. 후보 가상 라우드스피커 세트는 제5 수량의 가상 라우드스피커들을 포함한다고 가정된다. 제1 수량은 제5 수량과 동일하다. 제1 수량의 투표 값들은 후보 가상 라우드스피커 세트 내의 모든 가상 라우드스피커들의 투표 값들을 포함한다. 인코더(113)는 제1 수량의 가상 라우드스피커들의 현재 프레임 초기 투표 값들로서 제1 수량의 투표 값들을 사용할 수 있다. S620 내지 S640이 수행된다.
가상 라우드스피커들은 투표 값들에 일대일 대응하는데, 즉, 하나의 가상 라우드스피커는 하나의 투표 값에 대응한다. 예를 들어, 제1 수량의 가상 라우드스피커는 제1 가상 라우드스피커를 포함한다. 제1 수량의 투표 값들은 제1 가상 라우드스피커의 투표 값을 포함한다. 제1 가상 라우드스피커는 제1 가상 라우드스피커의 투표 값에 대응한다. 제1 가상 라우드스피커의 투표 값은 현재 프레임이 인코딩될 때 제1 가상 라우드스피커를 사용하는 우선순위를 나타낸다. 우선순위는 대안적으로 선호도로서 설명될 수 있다. 구체적으로, 제1 가상 라우드스피커의 투표 값은 현재 프레임이 인코딩될 때 제1 가상 라우드스피커를 사용하는 선호도를 나타낸다. 제1 가상 라우드스피커의 더 큰 투표 값은 제1 가상 라우드스피커의 더 높은 우선순위 또는 더 높은 선호도를 나타낸다는 것을 이해할 수 있다. 인코더(113)는 현재 프레임을 인코딩하기 위해, 후보 가상 라우드스피커 세트 내에 있고 제1 가상 라우드스피커보다 더 작은 투표 값을 갖는 가상 라우드스피커보다 제1 가상 라우드스피커를 선택하는 경향이 있다.
제2 가능한 구현에서, 전술한 제1 가능한 구현과의 차이는, 현재 프레임의 각각의 대표 계수에 기초하여 획득되는 후보 가상 라우드스피커 세트 내의 모든 가상 라우드스피커들의 투표 값들을 획득한 후에, 인코더(113)가 현재 프레임의 각각의 대표 계수에 기초하여 획득되는 후보 가상 라우드스피커 세트 내의 모든 가상 라우드스피커들의 투표 값들로부터 일부 투표 값들을 선택하고, 일부 투표 값들에 대응하는 가상 라우드스피커들 내에 있고 동일한 일련 번호를 갖는 가상 라우드스피커들의 투표 값들을 누적하여, 제1 수량의 가상 라우드스피커들 및 제1 수량의 투표 값들을 획득한다는 점에 있다. 후보 가상 라우드스피커 세트는 제1 수량의 가상 라우드스피커들을 포함한다는 점이 이해될 수 있다. 제1 수량은 후보 가상 라우드스피커 세트에 포함된 가상 라우드스피커들의 수량 이하이다. 제1 수량의 투표 값들은 후보 가상 라우드스피커 세트에 포함된 일부 가상 라우드스피커들의 투표 값들을 포함하거나, 또는 제1 수량의 투표 값들은 후보 가상 라우드스피커 세트에 포함된 모든 가상 라우드스피커들의 투표 값들을 포함한다.
제3 가능한 구현에서, 전술한 제2 가능한 구현과의 차이는 투표 라운드 수가 2 이상의 정수라는 점에 있다. 현재 프레임의 각각의 대표 계수에 대해, 인코더(113)는 후보 가상 라우드스피커 세트 내의 모든 가상 라우드스피커들에 대해 적어도 2 라운드의 투표를 수행하고, 각각의 라운드에서 최대 투표 값을 갖는 가상 라우드스피커를 선택한다. 현재 프레임의 각각의 대표 계수에 기초하여 모든 가상 라우드스피커들에 대해 적어도 2 라운드의 투표가 수행된 후에, 동일한 일련 번호를 갖는 가상 라우드스피커들의 투표 값들이 누적되어, 제1 수량의 가상 라우드스피커들 및 제1 수량의 투표 값들을 획득한다.
S620: 인코더(113)는, 제1 수량의 현재 프레임 초기 투표 값들 및 제6 수량의 이전 프레임 최종 투표 값들에 기초하여, 현재 프레임에 대응하는 제7 수량의 가상 라우드스피커들의 제7 수량의 현재 프레임 최종 투표 값들을 획득한다.
S610에서의 방법에 따르면, 인코더(113)는 3차원 오디오 신호의 현재 프레임, 후보 가상 라우드스피커 세트, 및 투표 라운드 수에 기초하여 제1 수량의 가상 라우드스피커들 및 제1 수량의 투표 값들을 결정하고, 그 후 제1 수량의 투표 값들을 제1 수량의 가상 라우드스피커들의 현재 프레임 초기 투표 값들로서 사용할 수 있다.
가상 라우드스피커들은 현재 프레임 초기 투표 값들에 일대일 대응하는데, 즉, 하나의 가상 라우드스피커는 하나의 현재 프레임 초기 투표 값에 대응한다. 예를 들어, 제1 수량의 가상 라우드스피커는 제1 가상 라우드스피커를 포함한다. 제1 수량의 현재 프레임 초기 투표 값들은 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 포함한다. 제1 가상 라우드스피커는 제1 가상 라우드스피커의 현재 프레임 초기 투표 값에 대응한다. 제1 가상 라우드스피커의 현재 프레임 초기 투표 값은 현재 프레임이 인코딩될 때 제1 가상 라우드스피커를 사용하는 우선순위를 나타낸다.
제6 수량의 가상 라우드스피커들은 3차원 오디오 신호의 이전 프레임을 인코딩하기 위해 인코더(113)에 의해 사용되는 이전 프레임 대표 가상 라우드스피커들일 수 있다. S650에서, 인코더(113)가 3차원 오디오 신호의 현재 프레임과 이전 프레임 대표 가상 라우드스피커 세트 사이의 제1 상관관계를 획득할 때. 이전 프레임 대표 가상 라우드스피커 세트는 제6 수량의 가상 라우드스피커들을 포함한다.
구체적으로, 인코더(113)는 제6 수량의 이전 프레임 최종 투표 값들에 기초하여 제1 수량의 현재 프레임 초기 투표 값들을 업데이트한다. 구체적으로, 인코더(113)는 제1 수량의 가상 라우드스피커들 및 제6 수량의 가상 라우드스피커들에 있고 동일한 일련 번호를 갖는 가상 라우드스피커들의 현재 프레임 초기 투표 값들과 이전 프레임 최종 투표 값들의 합을 계산하여, 현재 프레임에 대응하는 제7 수량의 가상 라우드스피커들의 제7 수량의 현재 프레임 최종 투표 값들을 획득한다.
제1 가능한 경우에, 제1 수량의 가상 라우드스피커들은 제6 수량의 가상 라우드스피커들을 포함한다. 제1 수량은 제6 수량과 동일하다. 제1 수량의 가상 라우드스피커들의 일련 번호들과 제6 수량의 가상 라우드스피커들의 일련 번호들은 동일하다. 인코더(113)에 의해 획득된 제1 수량의 가상 라우드스피커들은 제6 수량의 가상 라우드스피커들이고, 제6 수량의 가상 라우드스피커들의 이전 프레임 최종 투표 값들은 제1 수량의 가상 라우드스피커들의 이전 프레임 최종 투표 값들이라는 점이 이해될 수 있다. 인코더(113)는 제6 수량의 가상 라우드스피커들의 이전 프레임 최종 투표 값들에 기초하여 제1 수량의 가상 라우드스피커들의 현재 프레임 초기 투표 값들을 업데이트할 수 있다. 예를 들어, 제7 수량의 가상 라우드스피커들은 또한 제1 수량의 가상 라우드스피커들이다. 제7 수량의 현재 프레임 최종 투표 값들은 제1 수량의 가상 라우드스피커들의 이전 프레임 최종 투표 값들과 제1 수량의 가상 라우드스피커들의 현재 프레임 초기 투표 값들의 합이다.
예를 들어, 제6 수량의 가상 라우드스피커들은 제1 가상 라우드스피커를 포함하고, 제1 수량의 가상 라우드스피커들은 제1 가상 라우드스피커를 포함하고, 제6 수량의 가상 라우드스피커들 및 제1 수량의 가상 라우드스피커들은 다른 가상 라우드스피커를 포함하지 않는다고 가정된다. 인코더(113)는 제1 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하여, 제1 가상 라우드스피커의 현재 프레임 최종 투표 값을 획득할 수 있다. 제1 가상 라우드스피커의 현재 프레임 최종 투표 값은 제1 가상 라우드스피커의 이전 프레임 최종 투표 값과 제1 가상 라우드스피커의 현재 프레임 초기 투표 값의 합이다.
제2 가능한 경우에, 제1 수량의 가상 라우드스피커들은 제6 수량의 가상 라우드스피커들을 포함한다. 제1 수량은 제6 수량보다 크다. 제1 수량의 가상 라우드스피커들은 제6 수량의 가상 라우드스피커들 외에도 다른 가상 라우드스피커를 추가로 포함한다는 점이 이해될 수 있다. 인코더(113)는, 제6 수량의 가상 라우드스피커들의 이전 프레임 최종 투표 값들에 기초하여, 제1 수량의 가상 라우드스피커들에 있고 제6 수량의 가상 라우드스피커들의 일련 번호들과 동일한 일련 번호들을 갖는 가상 라우드스피커들의 현재 프레임 초기 투표 값들을 업데이트할 수 있다. 따라서, 제7 수량의 가상 라우드스피커들은 제1 수량의 가상 라우드스피커들을 포함한다. 제7 수량은 제1 수량과 동일하다. 제7 수량의 가상 라우드스피커들의 일련 번호들은 제1 수량의 가상 라우드스피커들의 일련 번호들과 동일하다. 제7 수량의 현재 프레임 최종 투표 값들은 제1 수량의 가상 라우드스피커들 내에 있고 제6 수량의 가상 라우드스피커들의 일련 번호들과 동일한 일련 번호들을 갖는 가상 라우드스피커들의 현재 프레임 최종 투표 값들, 및 제1 수량의 가상 라우드스피커들 내에 있고 제6 수량의 가상 라우드스피커들의 일련 번호들과 상이한 일련 번호를 갖는 가상 라우드스피커의 현재 프레임 최종 투표 값을 포함한다.
제1 수량의 가상 라우드스피커들에 있고 제6 수량의 가상 라우드스피커들의 일련 번호들과 동일한 일련 번호들을 갖는 가상 라우드스피커들의 현재 프레임 최종 투표 값들은 제6 수량의 가상 라우드스피커들의 이전 프레임 최종 투표 값들과 제1 수량의 가상 라우드스피커들의 현재 프레임 초기 투표 값들의 합이다. 제1 수량의 가상 라우드스피커들 내에 있고 제6 수량의 가상 라우드스피커들의 일련 번호들과 상이한 일련 번호를 갖는 가상 라우드스피커의 현재 프레임 최종 투표 값은 제1 수량의 가상 라우드스피커들 내에 있고 제6 수량의 가상 라우드스피커들의 일련 번호들과 상이한 일련 번호를 갖는 가상 라우드스피커의 현재 프레임 초기 투표 값이다.
예를 들어, 제1 수량의 가상 라우드스피커들은 제1 가상 라우드스피커 및 제2 가상 라우드스피커를 포함하고, 제6 수량의 가상 라우드스피커들은 제1 가상 라우드스피커를 포함하고, 제6 수량의 가상 라우드스피커들은 제2 가상 라우드스피커를 포함하지 않는다고 가정된다. 제2 가상 라우드스피커의 현재 프레임 최종 투표 값은 제2 가상 라우드스피커의 현재 프레임 초기 투표 값과 동일하다. 인코더(113)는 제1 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하여, 제1 가상 라우드스피커의 현재 프레임 최종 투표 값을 획득할 수 있다. 제1 가상 라우드스피커의 현재 프레임 최종 투표 값은 제1 가상 라우드스피커의 이전 프레임 최종 투표 값과 제1 가상 라우드스피커의 현재 프레임 초기 투표 값의 합이다.
제3 가능한 경우에, 제1 수량의 가상 라우드스피커들은 제6 수량의 가상 라우드스피커들 중 일부를 포함하고, 제6 수량의 가상 라우드스피커들은 제1 수량의 가상 라우드스피커들의 일련 번호들과 상이한 일련 번호를 갖는 다른 가상 라우드스피커를 추가로 포함한다. 따라서, 제7 수량의 가상 라우드스피커들은 제1 수량의 가상 라우드스피커들, 및 제6 수량의 가상 라우드스피커들에 있고 제1 수량의 가상 라우드스피커들의 일련 번호들과 상이한 일련 번호를 갖는 가상 라우드스피커를 포함한다. 제7 수량의 현재 프레임 최종 투표 값들은 제1 수량의 가상 라우드스피커들의 현재 프레임 최종 투표 값들 및 제6 수량의 가상 라우드스피커들 내에 있고 제1 수량의 가상 라우드스피커들의 일련 번호들과 상이한 일련 번호를 갖는 가상 라우드스피커의 현재 프레임 최종 투표 값을 포함한다.
제1 수량의 가상 라우드스피커들의 현재 프레임 최종 투표 값들은 제1 수량의 가상 라우드스피커들 내에 있고 제6 수량의 가상 라우드스피커들의 일련 번호들과 동일한 일련 번호들을 갖는 가상 라우드스피커들의 현재 프레임 최종 투표 값들을 포함한다. 선택적으로, 제1 수량의 가상 라우드스피커들의 현재 프레임 최종 투표 값들은 제1 수량의 가상 라우드스피커들에 있고 제6 수량의 가상 라우드스피커들의 일련 번호들과 상이한 일련 번호를 갖는 가상 라우드스피커의 현재 프레임 최종 투표 값을 추가로 포함할 수 있다.
제6 수량의 가상 라우드스피커들 내에 있고 제1 수량의 가상 라우드스피커들의 일련 번호들과 상이한 일련 번호를 갖는 가상 라우드스피커의 현재 프레임 최종 투표 값은 제6 수량의 가상 라우드스피커들 내에 있고 제1 수량의 가상 라우드스피커들의 일련 번호들과 상이한 일련 번호를 갖는 가상 라우드스피커의 이전 프레임 최종 투표 값이다.
예를 들어, 제6 수량의 가상 라우드스피커들은 제1 가상 라우드스피커 및 제3 가상 라우드스피커를 포함하고, 제1 수량의 가상 라우드스피커들은 제1 가상 라우드스피커를 포함하고, 제1 수량의 가상 라우드스피커들은 제3 가상 라우드스피커를 포함하지 않는다고 가정된다. 제3 가상 라우드스피커의 현재 프레임 최종 투표 값은 제3 가상 라우드스피커의 이전 프레임 최종 투표 값과 동일하다. 인코더(113)는 제1 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하여, 제1 가상 라우드스피커의 현재 프레임 최종 투표 값을 획득할 수 있다. 제1 가상 라우드스피커의 현재 프레임 최종 투표 값은 제1 가상 라우드스피커의 이전 프레임 최종 투표 값과 제1 가상 라우드스피커의 현재 프레임 초기 투표 값의 합이다.
일부 실시예들에서, 도 8은 본 출원의 실시예에 따른 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하기 위한 방법의 개략적인 흐름도이다.
S810: 인코더(113)는 제1 조정 파라미터에 기초하여 제1 가상 라우드스피커의 이전 프레임 최종 투표 값을 조정하여, 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값을 획득한다.
제1 조정 파라미터는 이전 프레임에서의 방향성 음원들의 수량, 현재 프레임을 인코딩하기 위한 인코딩 비트 레이트, 및 프레임 타입 중 적어도 하나에 기초하여 결정된다. 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값은 다음의 수학식 (6)을 충족한다:
VOTE_f'g는 조정된 이전 프레임 투표 값 세트를 나타내고, VOTE_fg는 이전 프레임 최종 투표 값 세트를 나타내고, g는 이전 프레임 대표 가상 라우드스피커 세트를 나타내고, w1은 인코딩 비트 레이트와 관련된 파라미터를 나타내고, w2는 프레임 타입과 관련된 파라미터를 나타내고, w3은 방향성 음원들의 수량과 관련된 파라미터를 나타낸다. 프레임 타입은 과도 프레임(transient frame) 또는 비과도 프레임(non-transient frame)을 포함한다.
예를 들어, 인코딩 비트 레이트가 128 kbps보다 작거나 같은 경우, w1=1이거나; 또는 인코딩 비트 레이트가 128 kbps보다 큰 경우, w1=0이다. 이전 프레임이 과도 프레임인 경우, w2=1이다. 이전 프레임이 비과도 프레임인 경우, w2=0이다. 방향성 음원들의 수량이 가상 라우드스피커 신호들의 미리 설정된 수량보다 큰 경우, w3=0.8이거나; 또는 방향성 음원들의 수량이 가상 라우드스피커 신호들의 미리 설정된 수량보다 작거나 같은 경우, w3=0.5이다.
S820: 인코더(113)는 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하여, 제1 가상 라우드스피커의 현재 프레임 최종 투표 값을 획득한다.
제1 가상 라우드스피커의 현재 프레임 최종 투표 값은 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값과 제1 가상 라우드스피커의 현재 프레임 초기 투표 값의 합이다. 제1 가상 라우드스피커의 현재 프레임 최종 투표 값은 다음의 수학식 (7)을 충족한다:
VOTE_Mg는 현재 프레임 최종 투표 값 세트를 나타내고, VOTE_f'g는 조정된 이전 프레임 투표 값 세트를 나타내고, VOTEg는 현재 프레임 초기 투표 값 세트를 나타낸다.
선택적으로, 인코더(113)가 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트할 수 있다는 것은 구체적으로 다음의 단계들을 포함한다.
S830: 인코더(113)는 제2 조정 파라미터에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 조정하여, 제1 가상 라우드스피커의 조정된 현재 프레임 투표 값을 획득한다.
제1 가상 라우드스피커의 조정된 현재 프레임 투표 값은 다음의 수학식 (8)을 충족한다:
VOTE'g는 조정된 현재 프레임 투표 값 세트를 나타내고, w4는 제2 조정 파라미터를 나타낸다. 예를 들어, 인 경우, 이다. 현재 프레임 초기 투표 값이 조정된 이전 프레임 투표 값보다 클 때, w4를 사용하여 조정된 이전 프레임 투표 값을 증가시키도록 표시한다는 것이 이해될 수 있다.
인 경우, w4=1. 현재 프레임 초기 투표 값이 조정된 이전 프레임 투표 값보다 작거나 같을 때, w4를 사용하여 조정된 이전 프레임 투표 값을 증가시키도록 표시할 필요가 없다는 것이 이해될 수 있다.
제2 조정 파라미터는 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값 및 제1 가상 라우드스피커의 현재 프레임 초기 투표 값에 기초하여 결정된다.
S840: 인코더(113)는 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 제1 가상 라우드스피커의 조정된 현재 프레임 투표 값을 업데이트하여, 제1 가상 라우드스피커의 현재 프레임 최종 투표 값을 획득한다.
제1 가상 라우드스피커의 현재 프레임 최종 투표 값은 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값과 제1 가상 라우드스피커의 조정된 현재 프레임 투표 값의 합이다. 제1 가상 라우드스피커의 현재 프레임 최종 투표 값은 다음의 수학식 (9)를 충족한다:
VOTE_Mg는 현재 프레임 최종 투표 값 세트를 나타내고, VOTE_f'g는 조정된 이전 프레임 투표 값 세트를 나타내고, VOTE'g는 조정된 현재 프레임 투표 값 세트를 나타낸다.
S630: 인코더(113)는 제7 수량의 현재 프레임 최종 투표 값들에 기초하여 제7 수량의 가상 라우드스피커들로부터 제2 수량의 현재 프레임 대표 가상 라우드스피커들을 선택한다.
인코더(113)는 제7 수량의 현재 프레임 최종 투표 값들에 기초하여 제7 수량의 가상 라우드스피커들로부터 제2 수량의 현재 프레임 대표 가상 라우드스피커들을 선택한다. 또한, 제2 수량의 현재 프레임 대표 가상 라우드스피커들의 현재 프레임 최종 투표 값들은 미리 설정된 임계값보다 크다.
인코더(113)는 대안적으로 제7 수량의 현재 프레임 최종 투표 값들에 기초하여 제7 수량의 가상 라우드스피커들로부터 제2 수량의 현재 프레임 대표 가상 라우드스피커들을 선택할 수 있다. 예를 들어, 제2 수량의 현재 프레임 최종 투표 값들은 제7 수량의 현재 프레임 최종 투표 값들의 내림차순에 기초하여 제7 수량의 현재 프레임 최종 투표 값들로부터 결정된다. 또한, 제7 수량의 가상 라우드스피커들 내에 있고 제2 수량의 현재 프레임 최종 투표 값들에 대응하는 가상 라우드스피커들이 제2 수량의 현재 프레임 대표 가상 라우드스피커들로서 사용된다.
선택적으로, 제7 수량의 가상 라우드스피커들 내에 있고 상이한 일련 번호들을 갖는 가상 라우드스피커들의 투표 값들이 동일하고, 상이한 일련 번호들을 갖는 가상 라우드스피커들의 투표 값들이 미리 설정된 임계값보다 큰 경우, 인코더(113)는 상이한 일련 번호들을 갖는 모든 가상 라우드스피커들을 현재 프레임 대표 가상 라우드스피커들로서 사용할 수 있다.
제2 수량은 제7 수량 미만이라는 점에 유의해야 한다. 제7 수량의 가상 라우드스피커들은 제2 수량의 현재 프레임 대표 가상 라우드스피커들을 포함한다. 제2 수량은 미리 설정될 수 있거나, 또는 제2 수량은 현재 프레임의 음장에서의 음원들의 수량에 기초하여 결정될 수 있다. 예를 들어, 제2 수량은 현재 프레임의 음장에서의 음원들의 수량과 동일할 수 있다. 대안적으로, 현재 프레임의 음장에서의 음원들의 수량은 미리 설정된 알고리즘에 기초하여 처리되고, 처리를 통해 획득된 수량이 제2 수량으로서 사용된다. 미리 설정된 알고리즘은 요건에 기초하여 설계될 수 있다. 예를 들어, 미리 설정된 알고리즘은: 제2 수량 = 현재 프레임의 음장에서의 음원들의 수량 + 1, 또는 제2 수량 = 현재 프레임의 음장에서의 음원들의 수량 - 1일 수 있다.
또한, 인코더(113)가 현재 프레임의 다음 프레임을 인코딩하기 전에, 인코더(113)가 이전 프레임 대표 가상 라우드스피커를 재사용하여 다음 프레임을 인코딩하기로 결정하면, 인코더(113)는 제2 수량의 현재 프레임 대표 가상 라우드스피커들을 제2 수량의 이전 프레임 대표 가상 라우드스피커들로서 사용하고, 제2 수량의 이전 프레임 대표 가상 라우드스피커들을 사용하여 현재 프레임의 다음 프레임을 인코딩할 수 있다.
S640: 인코더(113)는 제2 수량의 현재 프레임 대표 가상 라우드스피커들에 기초하여 현재 프레임을 인코딩하여, 비트스트림을 획득한다.
인코더(113)는 제2 수량의 현재 프레임 대표 가상 라우드스피커들 및 현재 프레임에 기초하여 가상 라우드스피커 신호를 생성하고; 가상 라우드스피커 신호를 인코딩하여 비트스트림을 획득한다.
가상 라우드스피커 검색 절차에서, 실제 음원들의 위치들이 반드시 가상 라우드스피커들의 위치들과 중첩하는 것은 아니기 때문에, 가상 라우드스피커들이 반드시 실제 음원들에 일대일 대응하는 것은 아니다. 또한, 실제 복잡한 시나리오에서, 가상 라우드스피커들은 음장 내의 독립적인 음원을 표현하지 않을 수 있다. 이 경우, 프레임들 사이에서 검색된 발견된 가상 라우드스피커들은 빈번하게 변경될 수 있다. 빈번한 변경들은 청취자의 청각 경험에 영향을 미친다. 그 결과, 디코딩 및 재구성을 통해 획득된 3차원 오디오 신호에 명백한 잡음이 나타난다. 본 출원의 이 실시예에 따른 가상 라우드스피커 선택 방법에서, 이전 프레임 대표 가상 라우드스피커는 유지된다. 구체적으로, 동일한 일련 번호들을 갖는 가상 라우드스피커들의 경우, 현재 프레임 초기 투표 값은 이전 프레임 최종 투표 값에 기초하여 조정되므로, 인코더가 이전 프레임 대표 가상 라우드스피커를 선택하는 경향이 있다. 이러한 방식으로, 프레임들 사이의 방향성 연속성이 향상된다. 또한, 파라미터를 조정하여, 이전 프레임 최종 투표 값이 지속적으로 유지되지 않는 것을 보장하고, 알고리즘이 음원의 움직임과 같은 음장 변경에 적응하지 못하는 경우를 회피한다.
또한, 본 출원의 이 실시예는 가상 라우드스피커 선택 방법을 추가로 제공한다. 인코더는 먼저 이전 프레임 대표 가상 라우드스피커 세트가 현재 프레임을 인코딩하기 위해 재사용될 수 있는지 여부를 결정할 수 있다. 인코더가 현재 프레임을 인코딩하기 위해 이전 프레임 대표 가상 라우드스피커 세트를 재사용하는 경우, 인코더는 가상 라우드스피커 검색 절차를 수행하지 않는다. 이는 인코더에 의해 가상 라우드스피커를 검색하는 계산 복잡도를 효과적으로 감소시킨다. 이러한 방식으로, 3차원 오디오 신호에 대해 압축 코딩을 수행하는 계산 복잡도가 감소되고, 인코더의 계산 부하가 감소된다. 인코더가 현재 프레임을 인코딩하기 위해 이전 프레임 대표 가상 라우드스피커 세트를 재사용할 수 없는 경우, 인코더는 대표 계수를 선택하고, 현재 프레임의 대표 계수를 사용하여 후보 가상 라우드스피커 세트 내의 각각의 가상 라우드스피커에 대해 투표하고, 투표 값에 기초하여 현재 프레임 대표 가상 라우드스피커를 선택하여, 3차원 오디오 신호에 대해 압축 코딩을 수행하는 계산 복잡도를 감소시키고 인코더의 계산 부하를 감소시키는 목적들을 달성한다. 도 9는 본 출원의 실시예에 따른 가상 라우드스피커 선택 방법의 개략적인 흐름도이다. 인코더(113)가 3차원 오디오 신호의 현재 프레임에 대응하는 제1 수량의 가상 라우드스피커들의 제1 수량의 현재 프레임 초기 투표 값들을 획득하기 전에, 즉, S610이 수행되기 전에, 방법은 도 9에 도시된 바와 같이, 다음의 단계들을 추가로 포함한다.
S650: 인코더(113)는 3차원 오디오 신호의 현재 프레임과 이전 프레임 대표 가상 라우드스피커 세트 사이의 제1 상관관계를 획득한다.
이전 프레임 대표 가상 라우드스피커 세트에 포함된 제6 수량의 가상 라우드스피커들, 및 제6 수량의 가상 라우드스피커들에 포함된 가상 라우드스피커는 3차원 오디오 신호의 이전 프레임이 인코딩될 때 사용되는 이전 프레임 대표 가상 라우드스피커들이다. 제1 상관관계는 현재 프레임이 인코딩될 때 이전 프레임 대표 가상 라우드스피커 세트를 재사용하는 우선순위를 나타낸다. 우선순위는 대안적으로 선호도로서 설명될 수 있다. 구체적으로, 제1 상관관계는 현재 프레임이 인코딩될 때 이전 프레임 대표 가상 라우드스피커 세트가 재사용되는지 여부를 결정하기 위해 사용된다. 이전 프레임 대표 가상 라우드스피커 세트의 큰 제1 상관관계는 이전 프레임 대표 가상 라우드스피커 세트의 높은 우선순위 또는 더 높은 선호도를 표시한다는 것을 이해할 수 있다. 인코더(113)는 현재 프레임을 인코딩하기 위해 이전 프레임 대표 가상 라우드스피커를 선택하는 경향이 있다.
S660: 인코더(113)는 제1 상관관계가 재사용 조건을 충족하는지 여부를 결정한다.
제1 상관관계가 재사용 조건을 충족하지 않는 경우, 이는 인코더(113)가 가상 라우드스피커를 검색하는 경향이 있음을 나타낸다. 현재 프레임은 현재 프레임 대표 가상 라우드스피커에 기초하여 인코딩된다. S610이 수행된다. 인코더(113)는 3차원 오디오 신호의 현재 프레임에 대응하는 제1 수량의 가상 라우드스피커들의 제1 수량의 현재 프레임 초기 투표 값들을 획득한다.
선택적으로, 제4 수량의 계수들의 주파수 도메인 특징 값들에 기초하여 제4 수량의 계수들로부터 제3 수량의 대표 계수들을 선택한 후에, 인코더(113)는 대안적으로 제1 상관관계를 획득하기 위한 현재 프레임의 계수로서 제3 수량의 대표 계수들에서의 최대 대표 계수를 사용할 수 있다. 인코더(113)는 현재 프레임의 제3 수량의 대표 계수들에서의 최대 대표 계수와 이전 프레임 대표 가상 라우드스피커 세트 사이의 제1 상관관계를 획득한다. 제1 상관관계가 재사용 조건을 충족하지 않으면, S6103이 수행되는데, 즉, 인코더(113)는 제1 수량의 투표 값들에 기초하여 제1 수량의 가상 라우드스피커들로부터 제2 수량의 현재 프레임 대표 가상 라우드스피커들을 선택한다.
제1 상관관계가 재사용 조건을 충족하면, 이는 인코더(113)가 현재 프레임을 인코딩하기 위해 이전 프레임 대표 가상 라우드스피커를 선택하는 경향이 있음을 나타낸다. 인코더(113)는 S670 및 S680을 수행한다.
S670: 인코더(113)는 이전 프레임 대표 가상 라우드스피커 세트 및 현재 프레임에 기초하여 가상 라우드스피커 신호를 생성한다.
S680: 인코더(113)는 가상 라우드스피커 신호를 인코딩하여 비트스트림을 획득한다.
본 출원의 이 실시예에 따른 가상 라우드스피커 선택 방법에서, 가상 라우드스피커를 검색할지는 현재 프레임의 대표 계수와 이전 프레임 대표 가상 라우드스피커 사이의 상관관계에 기초하여 결정된다. 이러한 방식으로, 상관관계에 기초한 현재 프레임 대표 가상 라우드스피커에 대한 선택 정확도가 보장되고, 인코더 측에서의 복잡도가 효과적으로 감소된다.
전술한 실시예에서의 기능들을 구현하기 위해, 인코더는 기능들을 수행하기 위한 대응하는 하드웨어 구조들 및/또는 소프트웨어 모듈들을 포함한다는 점이 이해될 수 있다. 본 기술분야의 통상의 기술자는, 본 출원에 개시된 실시예들에서 설명된 예들에서의 유닛들 및 방법 단계들과 조합하여, 본 출원이 하드웨어 또는 하드웨어와 컴퓨터 소프트웨어의 조합을 사용하여 구현될 수 있다는 것을 쉽게 인식해야 한다. 기능이 하드웨어 또는 컴퓨터 소프트웨어에 의해 구동되는 하드웨어를 사용하여 수행되는지는 기술적 해결책들의 특정 응용 시나리오들 및 설계 제약들에 의존한다.
전술한 내용은 도 1 내지 도 9를 참조하여 본 실시예에 따른 3차원 오디오 신호 인코딩 방법을 상세히 설명한다. 이하에서는 도 10 및 도 11을 참조하여 본 실시예에 따른 3차원 오디오 신호 인코딩 장치 및 인코더를 설명한다.
도 10은 본 출원의 실시예에 따른 3차원 오디오 신호 인코딩 장치의 가능한 구조의 개략도이다. 이러한 3차원 오디오 신호 인코딩 장치들은 전술한 방법 실시예들에서 3차원 오디오 신호를 인코딩하는 기능을 구현하도록 구성될 수 있고, 따라서 전술한 방법 실시예들의 유익한 효과들을 또한 구현할 수 있다. 이 실시예에서, 3차원 오디오 신호 인코딩 장치는 도 1에 도시된 인코더(113), 도 3에 도시된 인코더(300), 또는 단말 디바이스 또는 서버에 적용되는 (칩과 같은) 모듈일 수 있다.
도 10에 도시된 바와 같이, 3차원 오디오 신호 인코딩 장치(1000)는 통신 모듈(1010), 계수 선택 모듈(1020), 가상 라우드스피커 선택 모듈(1030), 인코딩 모듈(1040), 및 저장 모듈(1050)을 포함한다. 3차원 오디오 신호 인코딩 장치(1000)는 도 6 내지 도 9에 도시된 방법 실시예들에서 인코더(113)의 기능들을 구현하도록 구성된다.
통신 모듈(1010)은 3차원 오디오 신호의 현재 프레임을 획득하도록 구성된다. 선택적으로, 통신 모듈(1010)은 대안적으로 다른 디바이스에 의해 획득된 3차원 오디오 신호의 현재 프레임을 수신하거나, 저장 모듈(1050)로부터 3차원 오디오 신호의 현재 프레임을 획득할 수 있다. 3차원 오디오 신호의 현재 프레임은 HOA 신호이다. 계수의 주파수 도메인 특징 값은 HOA 신호의 계수에 기초하여 결정된다.
가상 라우드스피커 선택 모듈(1030)은 3차원 오디오 신호의 현재 프레임에 대한 제1 수량의 현재 프레임 초기 투표 값들을 획득하도록 구성된다. 현재 프레임 초기 투표 값들에 제1 수량의 가상 라우드스피커들이 일대일 대응한다. 제1 수량의 가상 라우드스피커들은 제1 가상 라우드스피커를 포함하고, 제1 가상 라우드스피커의 현재 프레임 초기 투표 값은 현재 프레임이 인코딩될 때 제1 가상 라우드스피커를 사용하는 우선순위를 나타낸다.
가상 라우드스피커 선택 모듈(1030)은, 제1 수량의 현재 프레임 초기 투표 값들 및 제6 수량의 이전 프레임 최종 투표 값들에 기초하여, 현재 프레임에 대응하는 제7 수량의 가상 라우드스피커들의 제7 수량의 현재 프레임 최종 투표 값들을 획득하도록 추가로 구성된다. 제7 수량의 가상 라우드스피커들은 제1 수량의 가상 라우드스피커들을 포함한다. 제7 수량의 가상 라우드스피커들은 제6 수량의 가상 라우드스피커들을 포함한다. 제6 수량의 가상 라우드스피커들은 제6 수량의 이전 프레임 최종 투표 값들에 일대일 대응한다. 제6 수량의 가상 라우드스피커들은 3차원 오디오 신호의 이전 프레임이 인코딩될 때 사용되는 가상 라우드스피커들이다.
제1 수량의 가상 라우드스피커들이 제2 가상 라우드스피커를 포함하고, 제6 수량의 가상 라우드스피커들이 제2 가상 라우드스피커를 포함하지 않는 경우, 제2 가상 라우드스피커의 현재 프레임 최종 투표 값은 제2 가상 라우드스피커의 현재 프레임 초기 투표 값과 동일하다. 대안적으로, 제6 수량의 가상 라우드스피커들이 제3 가상 라우드스피커를 포함하고, 제1 수량의 가상 라우드스피커들이 제3 가상 라우드스피커를 포함하지 않는 경우, 제3 가상 라우드스피커의 현재 프레임 최종 투표 값은 제3 가상 라우드스피커의 이전 프레임 최종 투표 값과 동일하다.
3차원 오디오 신호 인코딩 장치(1000)가 도 6 내지 도 9에 도시된 방법 실시예들에서 인코더(113)의 기능들을 구현하도록 구성될 때, 가상 라우드스피커 선택 모듈(1030)은 S610 내지 S630, 및 S650 내지 S680에 관련된 기능들을 구현하도록 구성된다.
예를 들어, 제1 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트할 때, 가상 라우드스피커 선택 모듈(1030)은: 제1 조정 파라미터에 기초하여 제1 가상 라우드스피커의 이전 프레임 최종 투표 값을 조정하여, 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값을 획득하고; 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하도록 구체적으로 구성된다.
다른 예로서, 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트할 때, 가상 라우드스피커 선택 모듈(1030)은: 제2 조정 파라미터에 기초하여 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 조정하여, 제1 가상 라우드스피커의 조정된 현재 프레임 투표 값을 획득하고; 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 제1 가상 라우드스피커의 조정된 현재 프레임 투표 값을 업데이트하도록 구체적으로 구성된다.
제1 조정 파라미터는 이전 프레임에서의 방향성 음원들의 수량, 현재 프레임을 인코딩하기 위한 인코딩 비트 레이트, 및 프레임 타입 중 적어도 하나에 기초하여 결정된다.
제2 조정 파라미터는 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값 및 제1 가상 라우드스피커의 현재 프레임 초기 투표 값에 기초하여 결정된다.
3차원 오디오 신호 인코딩 장치(1000)가 도 7에 도시된 방법 실시예에서 인코더(113)의 기능들을 구현하도록 구성될 때, 계수 선택 모듈(1020)은 S6101 및 S6102에 관련된 기능들을 구현하도록 구성된다. 구체적으로, 현재 프레임의 제3 수량의 대표 계수들을 획득할 때, 계수 선택 모듈(1020)은: 현재 프레임의 제4 수량의 계수들 및 제4 수량의 계수들의 주파수 도메인 특징 값들을 획득하고; 제4 수량의 계수들의 주파수 도메인 특징 값들에 기초하여 제4 수량의 계수들로부터 제3 수량의 대표 계수들을 선택하도록 구체적으로 구성된다. 제3 수량은 제4 수량 미만이다.
인코딩 모듈(1140)은 제2 수량의 현재 프레임 대표 가상 라우드스피커들에 기초하여 현재 프레임을 인코딩하여, 비트스트림을 획득하도록 구성된다.
3차원 오디오 신호 인코딩 장치(1000)가 도 6 내지 도 9에 도시된 방법 실시예들에서 인코더(113)의 기능들을 구현하도록 구성될 때, 인코딩 모듈(1140)은 S630과 관련된 기능들을 구현하도록 구성된다. 예를 들어, 인코딩 모듈(1140)은: 제2 수량의 현재 프레임 대표 가상 라우드스피커들 및 현재 프레임에 기초하여 가상 라우드스피커 신호를 생성하고; 가상 라우드스피커 신호를 인코딩하여 비트스트림을 획득하도록 구체적으로 구성된다.
저장 모듈(1050)은 3차원 오디오 신호에 관련된 계수, 후보 가상 라우드스피커 세트, 이전 프레임 대표 가상 라우드스피커 세트, 선택된 계수, 선택된 가상 라우드스피커 등을 저장하여, 인코딩 모듈(1040)이 현재 프레임을 인코딩하여 비트스트림을 획득하고, 비트스트림을 디코더에 송신하게 하도록 구성된다.
본 출원의 이 실시예에서의 3차원 오디오 신호 인코딩 장치(1000)는 주문형 집적 회로(application-specific integrated circuit, ASIC)를 사용하여 구현될 수 있거나, 프로그램가능 로직 디바이스(programmable logic device, PLD)를 사용하여 구현될 수 있다는 것을 이해해야 한다. PLD는 복합 프로그램가능 로직 디바이스(complex programmable logic device, CPLD), 필드 프로그램가능 게이트 어레이(field-programmable gate array, FPGA), 일반 어레이 로직(generic array logic, GAL), 또는 이들의 임의의 조합일 수 있다. 도 6 내지 도 9에 도시된 3차원 오디오 신호 인코딩 방법들이 대안적으로 소프트웨어를 사용하여 구현될 수 있을 때, 3차원 오디오 신호 인코딩 장치(1000) 및 그 모듈들은 대안적으로 소프트웨어 모듈들일 수 있다.
통신 모듈(1010), 계수 선택 모듈(1020), 가상 라우드스피커 선택 모듈(1030), 인코딩 모듈(1040), 및 저장 모듈(1050)의 더 상세한 설명들에 대해서는, 도 6 내지 도 9에 도시된 방법 실시예들에서의 관련 설명들을 참조한다. 상세사항들은 여기서 다시 설명되지 않는다.
도 11은 본 출원의 실시예에 따른 인코더(1100)의 구조의 개략도이다. 도 11에 도시된 바와 같이, 인코더(1100)는 프로세서(1110), 버스(1120), 메모리(1130), 및 통신 인터페이스(1140)를 포함한다.
이 실시예에서, 프로세서(1110)는 중앙 처리 유닛(central processing unit, CPU)일 수 있다는 것을 이해해야 한다. 프로세서(1110)는 대안적으로 다른 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), ASIC, FPGA 또는 다른 프로그램가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 디바이스, 이산 하드웨어 컴포넌트 등일 수 있다. 범용 프로세서는 마이크로프로세서, 임의의 종래의 프로세서 등일 수 있다.
프로세서는 대안적으로 그래픽 처리 유닛(graphics processing unit, GPU), 신경망 프로세서(neural network processing unit, NPU), 마이크로프로세서, 또는 본 출원의 해결책들에서 프로그램 실행을 제어하기 위해 사용되는 하나 이상의 집적 회로일 수 있다.
통신 인터페이스(1140)는 인코더(1100)와 외부 디바이스 또는 컴포넌트 사이의 통신을 구현하도록 구성된다. 이 실시예에서, 통신 인터페이스(1140)는 3차원 오디오 신호를 수신하도록 구성된다.
버스(1120)는 전술한 컴포넌트들(예를 들어, 프로세서(1110)와 메모리(1130)) 사이에서 정보를 송신하기 위해 사용되는 경로를 포함할 수 있다. 버스(1120)는 데이터 버스 외에도, 전원 버스, 제어 버스, 상태 신호 버스 등을 추가로 포함할 수 있다. 그러나, 명확한 설명을 위해, 버스들은 도면들에서 버스(1120)로서 표시된다.
일 예에서, 인코더(1100)는 복수의 프로세서를 포함할 수 있다. 프로세서는 멀티-코어(multi-CPU) 프로세서일 수 있다. 본 명세서에서의 프로세서는 데이터(예를 들어, 컴퓨터 프로그램 명령어들)를 처리하도록 구성되는 하나 이상의 디바이스, 회로, 및/또는 컴퓨팅 유닛일 수 있다. 프로세서(1110)는 메모리(1130)에 저장된 3차원 오디오 신호에 관련된 계수, 후보 가상 라우드스피커 세트, 이전 프레임 대표 가상 라우드스피커 세트, 선택된 계수, 선택된 가상 라우드스피커 등을 호출(invoke)할 수 있다.
도 11에서는, 인코더(1100)가 하나의 프로세서(1110) 및 하나의 메모리(1130)를 포함하는 예만이 사용된다는 점에 유의해야 한다. 여기서, 프로세서(1110)와 메모리(1130)는 컴포넌트 또는 디바이스의 타입을 개별적으로 표시한다. 특정 실시예에서, 각각의 타입의 컴포넌트들 또는 디바이스들의 수량은 서비스 요건에 기초하여 결정될 수 있다.
메모리(1130)는 전술한 방법 실시예들에서의 저장 매체, 예를 들어, 3차원 오디오 신호에 관련된 계수, 후보 가상 라우드스피커 세트, 이전 프레임 대표 가상 라우드스피커 세트, 선택된 계수, 및 선택된 가상 라우드스피커와 같은 정보를 저장하도록 구성되는, 하드 디스크 드라이브 또는 솔리드-스테이트 드라이브와 같은, 자기 디스크에 대응할 수 있다.
인코더(1100)는 범용 디바이스 또는 전용 디바이스일 수 있다. 예를 들어, 인코더(1100)는 X86 또는 ARM 기반 서버일 수 있거나, 또는 대안적으로 정책 제어 및 과금(policy control and charging, PCC) 서버와 같은 다른 전용 서버일 수 있다. 인코더(1100)의 타입은 본 출원의 이 실시예에서 제한되지 않는다.
이 실시예에 따른 인코더(1100)는 이 실시예에서의 3차원 오디오 신호 인코딩 장치(1100)에 대응할 수 있고, 도 6 내지 도 9 중 어느 하나에 따른 방법을 수행하는 대응하는 주체(body)에 대응할 수 있다는 것을 이해해야 한다. 또한, 3차원 오디오 신호 인코딩 장치(1100)에서의 모듈들의 전술한 및 다른 동작들 및/또는 기능들은 도 6 내지 도 9에 따른 방법들의 대응하는 절차들을 구현하기 위해 개별적으로 사용된다. 간결성을 위해, 상세사항들은 여기서 다시 설명되지 않는다.
이 실시예에서의 방법 단계들은 하드웨어를 사용하여 구현될 수 있거나, 대안적으로 소프트웨어 명령어들을 실행하는 프로세서에 의해 구현될 수 있다. 소프트웨어 명령어들은 대응하는 소프트웨어 모듈을 포함할 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리(random access memory, RAM), 플래시 메모리, 판독 전용 메모리(read-only memory, ROM), 프로그램가능 판독 전용 메모리(programmable ROM, PROM), 소거가능 프로그램가능 판독 전용 메모리(erasable PROM, EPROM), 전기적으로 소거가능 프로그램가능 판독 전용 메모리(electrically EPROM, EEPROM), 레지스터, 하드 디스크 드라이브, 이동식 하드 디스크 드라이브, CD-ROM, 또는 본 기술분야에 잘 알려진 임의의 다른 형태의 저장 매체에 저장될 수 있다. 예를 들어, 저장 매체가 프로세서에 결합되어, 프로세서가 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기입할 수 있게 한다. 물론, 저장 매체는 프로세서의 컴포넌트일 수 있다. 프로세서 및 저장 매체는 ASIC에 배치될 수 있다. 또한, ASIC는 네트워크 디바이스 또는 단말 디바이스에 위치될 수 있다. 물론, 프로세서 및 저장 매체는 대안적으로 네트워크 디바이스 또는 단말 디바이스에서 개별 컴포넌트들로서 존재할 수 있다.
전술한 실시예들의 전부 또는 일부는 소프트웨어, 하드웨어, 펌웨어, 또는 이들의 임의의 조합을 사용하여 구현될 수 있다. 소프트웨어가 실시예들을 구현하기 위해 사용될 때, 실시예들의 전부 또는 일부는 컴퓨터 프로그램 제품의 형태로 구현될 수 있다. 컴퓨터 프로그램 제품은 하나 이상의 컴퓨터 프로그램 및 명령어를 포함한다. 컴퓨터 프로그램들 또는 명령어들이 컴퓨터 상에서 로딩되고 실행될 때, 본 출원의 실시예들에서의 절차들 또는 기능들의 전부 또는 일부가 실행된다. 컴퓨터는 범용 컴퓨터, 전용 컴퓨터, 컴퓨터 네트워크, 네트워크 디바이스, 사용자 장비, 또는 다른 프로그램가능 장치일 수 있다. 컴퓨터 프로그램들 또는 명령어들은 컴퓨터 판독가능 저장 매체에 저장될 수 있거나, 컴퓨터 판독가능 저장 매체로부터 다른 컴퓨터 판독가능 저장 매체로 송신될 수 있다. 예를 들어, 컴퓨터 프로그램들 또는 명령어들은, 유선 방식으로 또는 무선 방식으로 웹사이트, 컴퓨터, 서버, 또는 데이터 센터로부터 다른 웹사이트, 컴퓨터, 서버, 또는 데이터 센터로 송신될 수 있다. 컴퓨터 판독가능 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 사용가능 매체, 또는 하나 이상의 사용가능 매체가 통합되는, 서버 또는 데이터 센터와 같은 데이터 저장 디바이스일 수 있다. 사용가능 매체는 자기 매체, 예를 들어, 플로피 디스크, 하드 디스크 드라이브, 또는 자기 테이프일 수 있거나, 또는 대안적으로 광학 매체, 예를 들어, 디지털 비디오 디스크(digital video disc, DVD)일 수 있거나, 또는 대안적으로 반도체 매체, 예를 들어, 솔리드 스테이트 드라이브(solid-state drive, SSD)일 수 있다.
전술한 설명들은 본 출원의 특정 구현들일 뿐이지만, 본 출원의 보호 범위를 제한하도록 의도되지 않는다. 본 출원에 개시되는 기술적 범위 내에서 본 기술분야의 기술자에 의해 쉽게 이해되는 임의의 수정 또는 대체는 본 출원의 보호 범위 내에 있어야 한다. 따라서, 본 출원의 보호 범위는 청구항들의 보호 범위에 종속될 것이다.

Claims (29)

  1. 3차원 오디오 신호 인코딩 방법으로서,
    3차원 오디오 신호의 현재 프레임에 대한 제1 수량의 현재 프레임 초기 투표 값들(current-frame initial vote values)을 획득하는 단계- 상기 현재 프레임 초기 투표 값들에 제1 수량의 가상 라우드스피커들이 일대일 대응하고, 상기 제1 수량의 가상 라우드스피커들은 제1 가상 라우드스피커를 포함하고, 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값은 상기 제1 가상 라우드스피커의 우선순위를 표시함 -;
    상기 제1 수량의 현재 프레임 초기 투표 값들 및 제6 수량의 이전 프레임 최종 투표 값들에 기초하여, 상기 현재 프레임에 대응하는 제7 수량의 가상 라우드스피커들의 제7 수량의 현재 프레임 최종 투표 값들을 획득하는 단계- 상기 제7 수량의 가상 라우드스피커들은 상기 제1 수량의 가상 라우드스피커들을 포함하고, 상기 제7 수량의 가상 라우드스피커들은 제6 수량의 가상 라우드스피커들을 포함하고, 상기 제6 수량의 가상 라우드스피커들은 상기 제6 수량의 이전 프레임 최종 투표 값들에 일대일 대응하고, 상기 제6 수량의 가상 라우드스피커들은 상기 3차원 오디오 신호의 이전 프레임이 인코딩될 때 사용되는 가상 라우드스피커들임 -;
    상기 제7 수량의 현재 프레임 최종 투표 값들에 기초하여 상기 제7 수량의 가상 라우드스피커들로부터 제2 수량의 현재 프레임 대표 가상 라우드스피커들을 선택하는 단계- 상기 제2 수량은 상기 제7 수량 미만임 -; 및
    상기 제2 수량의 현재 프레임 대표 가상 라우드스피커들에 기초하여 상기 현재 프레임을 인코딩하여, 비트스트림을 획득하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서, 상기 제1 수량의 가상 라우드스피커들이 제2 가상 라우드스피커를 포함하고, 상기 제6 수량의 가상 라우드스피커들이 상기 제2 가상 라우드스피커를 포함하지 않는 경우, 상기 제2 가상 라우드스피커의 현재 프레임 최종 투표 값은 상기 제2 가상 라우드스피커의 현재 프레임 초기 투표 값과 동일하거나; 또는
    상기 제6 수량의 가상 라우드스피커들이 제3 가상 라우드스피커를 포함하고, 상기 제1 수량의 가상 라우드스피커들이 상기 제3 가상 라우드스피커를 포함하지 않는 경우, 상기 제3 가상 라우드스피커의 현재 프레임 최종 투표 값은 상기 제3 가상 라우드스피커의 이전 프레임 최종 투표 값과 동일한, 방법.
  3. 제1항 또는 제2항에 있어서, 상기 제6 수량의 가상 라우드스피커들이 상기 제1 가상 라우드스피커를 포함하는 경우, 상기 제1 수량의 현재 프레임 초기 투표 값들 및 상기 3차원 오디오 신호의 상기 이전 프레임에 대응하는 상기 제6 수량의 가상 라우드스피커들의 제6 수량의 이전 프레임 투표 값들에 기초하여, 상기 현재 프레임에 대응하는 제7 수량의 가상 라우드스피커들의 제7 수량의 현재 프레임 최종 투표 값들을 획득하는 단계는:
    상기 제1 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하여, 상기 제1 가상 라우드스피커의 현재 프레임 최종 투표 값을 획득하는 단계를 포함하는, 방법.
  4. 제3항에 있어서, 상기 제1 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하는 것은:
    제1 조정 파라미터에 기초하여 상기 제1 가상 라우드스피커의 이전 프레임 최종 투표 값을 조정하여, 상기 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값을 획득하는 것; 및
    상기 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하는 것을 포함하는, 방법.
  5. 제4항에 있어서, 상기 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하는 것은:
    제2 조정 파라미터에 기초하여 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 조정하여, 상기 제1 가상 라우드스피커의 조정된 현재 프레임 투표 값을 획득하는 것; 및
    상기 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 상기 제1 가상 라우드스피커의 조정된 현재 프레임 투표 값을 업데이트하는 것을 포함하는, 방법.
  6. 제4항 또는 제5항에 있어서, 상기 제1 조정 파라미터는 상기 이전 프레임에서의 방향성 음원들의 수량, 상기 현재 프레임을 인코딩하기 위한 인코딩 비트 레이트, 및 상기 현재 프레임의 프레임 타입 중 적어도 하나에 기초하여 결정되는, 방법.
  7. 제5항에 있어서, 상기 제2 조정 파라미터는 상기 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값 및 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값에 기초하여 결정되는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 제2 수량은 미리 설정되거나, 또는 상기 제2 수량은 상기 현재 프레임에 기초하여 결정되는, 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 3차원 오디오 신호의 현재 프레임에 대응하는 상기 제1 수량의 가상 라우드스피커들의 제1 수량의 현재 프레임 초기 투표 값들을 획득하는 것은:
    상기 현재 프레임의 제3 수량의 대표 계수들, 후보 가상 라우드스피커 세트, 및 투표 라운드 수(quantity of vote rounds)에 기초하여 상기 제1 수량의 가상 라우드스피커들 및 상기 제1 수량의 현재 프레임 초기 투표 값들을 결정하는 것을 포함하고, 상기 후보 가상 라우드스피커 세트는 제5 수량의 가상 라우드스피커들을 포함하고, 상기 제5 수량의 가상 라우드스피커들은 상기 제1 수량의 가상 라우드스피커들을 포함하고, 상기 제1 수량은 상기 제5 수량 이하이고, 상기 투표 라운드 수는 1 이상의 정수이고, 상기 투표 라운드 수는 상기 제5 수량 이하인, 방법.
  10. 제9항에 있어서, 상기 현재 프레임의 제3 수량의 대표 계수들, 후보 가상 라우드스피커 세트, 및 투표 라운드 수에 기초하여 상기 제1 수량의 가상 라우드스피커들 및 상기 제1 수량의 현재 프레임 초기 투표 값들을 결정하기 전에, 상기 방법은:
    상기 현재 프레임의 제4 수량의 계수들 및 상기 제4 수량의 계수들의 주파수 도메인 특징 값들을 획득하는 단계; 및
    상기 제4 수량의 계수들의 주파수 도메인 특징 값들에 기초하여 상기 제4 수량의 계수들로부터 상기 제3 수량의 대표 계수들을 선택하는 단계- 상기 제3 수량은 상기 제4 수량 미만임- 를 추가로 포함하는, 방법.
  11. 제10항에 있어서, 상기 방법은:
    상기 현재 프레임과 이전 프레임 대표 가상 라우드스피커 세트 사이의 제1 상관관계를 획득하는 단계- 상기 이전 프레임 대표 가상 라우드스피커 세트는 상기 제6 수량의 가상 라우드스피커들을 포함하고, 상기 제6 수량의 가상 라우드스피커들은 상기 이전 프레임이 인코딩될 때 사용되는 이전 프레임 대표 가상 라우드스피커들이고, 상기 제1 상관관계는 상기 현재 프레임이 인코딩될 때 상기 이전 프레임 대표 가상 라우드스피커 세트가 재사용되는지 여부를 결정하기 위해 사용됨 -; 및
    상기 제1 상관관계가 재사용 조건을 충족하지 않는 경우, 상기 3차원 오디오 신호의 상기 현재 프레임의 상기 제4 수량의 계수들, 및 상기 제4 수량의 계수들의 주파수 도메인 특징 값들을 획득하는 단계를 추가로 포함하는, 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 3차원 오디오 신호의 현재 프레임은 고차 앰비소닉스(higher-order ambisonics, HOA) 신호이고, 상기 현재 프레임의 계수의 주파수 도메인 특징 값은 상기 HOA 신호의 계수에 기초하여 결정되는, 방법.
  13. 3차원 오디오 신호 인코딩 장치로서,
    3차원 오디오 신호의 현재 프레임에 대한 제1 수량의 현재 프레임 초기 투표 값들을 획득하도록 구성되는 가상 라우드스피커 선택 모듈- 상기 현재 프레임 초기 투표 값들에 제1 수량의 가상 라우드스피커들이 일대일 대응하고, 상기 제1 수량의 가상 라우드스피커들은 제1 가상 라우드스피커를 포함하고, 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값은 상기 제1 가상 라우드스피커의 우선순위를 표시하며,
    상기 가상 라우드스피커 선택 모듈은, 상기 제1 수량의 현재 프레임 초기 투표 값들 및 제6 수량의 이전 프레임 최종 투표 값들에 기초하여, 상기 현재 프레임에 대응하는 제7 수량의 가상 라우드스피커들의 제7 수량의 현재 프레임 최종 투표 값들을 획득하도록 추가로 구성되고, 상기 제7 수량의 가상 라우드스피커들은 상기 제1 수량의 가상 라우드스피커들을 포함하고, 상기 제7 수량의 가상 라우드스피커들은 제6 수량의 가상 라우드스피커들을 포함하고, 상기 제6 수량의 가상 라우드스피커들은 상기 제6 수량의 이전 프레임 최종 투표 값들에 일대일 대응하고, 상기 제6 수량의 가상 라우드스피커들은 상기 3차원 오디오 신호의 이전 프레임이 인코딩될 때 사용되는 가상 라우드스피커들이고;
    상기 가상 라우드스피커 선택 모듈은 상기 제7 수량의 현재 프레임 최종 투표 값들에 기초하여 상기 제7 수량의 가상 라우드스피커들로부터 제2 수량의 현재 프레임 대표 가상 라우드스피커들을 선택하도록 추가로 구성되고, 상기 제2 수량은 상기 제7 수량 미만임 -; 및
    상기 제2 수량의 현재 프레임 대표 가상 라우드스피커들에 기초하여 상기 현재 프레임을 인코딩하여, 비트스트림을 획득하도록 구성되는 인코딩 모듈
    을 포함하는, 장치.
  14. 제13항에 있어서, 상기 제1 수량의 가상 라우드스피커들이 제2 가상 라우드스피커를 포함하고, 상기 제6 수량의 가상 라우드스피커들이 상기 제2 가상 라우드스피커를 포함하지 않는 경우, 상기 제2 가상 라우드스피커의 현재 프레임 최종 투표 값은 상기 제2 가상 라우드스피커의 현재 프레임 초기 투표 값과 동일하거나; 또는
    상기 제6 수량의 가상 라우드스피커들이 제3 가상 라우드스피커를 포함하고, 상기 제1 수량의 가상 라우드스피커들이 상기 제3 가상 라우드스피커를 포함하지 않는 경우, 상기 제3 가상 라우드스피커의 현재 프레임 최종 투표 값은 상기 제3 가상 라우드스피커의 이전 프레임 최종 투표 값과 동일한, 장치.
  15. 제13항 또는 제14항에 있어서, 상기 제6 수량의 가상 라우드스피커들이 상기 제1 가상 라우드스피커를 포함하는 경우, 상기 제1 수량의 현재 프레임 초기 투표 값들 및 상기 3차원 오디오 신호의 상기 이전 프레임에 대응하는 상기 제6 수량의 가상 라우드스피커들의 제6 수량의 이전 프레임 투표 값들에 기초하여, 상기 현재 프레임에 대응하는 제7 수량의 가상 라우드스피커들의 제7 수량의 현재 프레임 최종 투표 값들을 획득할 때, 상기 가상 라우드스피커 선택 모듈은:
    상기 제1 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하여, 상기 제1 가상 라우드스피커의 현재 프레임 최종 투표 값을 획득하도록 구체적으로 구성되는, 장치.
  16. 제15항에 있어서, 상기 제1 가상 라우드스피커의 이전 프레임 최종 투표 값에 기초하여 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트할 때, 상기 가상 라우드스피커 선택 모듈은:
    제1 조정 파라미터에 기초하여 상기 제1 가상 라우드스피커의 이전 프레임 최종 투표 값을 조정하여, 상기 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값을 획득하고;
    상기 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트하도록 구체적으로 구성되는, 장치.
  17. 제16항에 있어서, 상기 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 업데이트할 때, 상기 가상 라우드스피커 선택 모듈은:
    제2 조정 파라미터에 기초하여 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값을 조정하여, 상기 제1 가상 라우드스피커의 조정된 현재 프레임 투표 값을 획득하고;
    상기 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값에 기초하여 상기 제1 가상 라우드스피커의 조정된 현재 프레임 투표 값을 업데이트하도록 구체적으로 구성되는, 장치.
  18. 제16항 또는 제17항에 있어서, 상기 제1 조정 파라미터는 상기 이전 프레임에서의 방향성 음원들의 수량, 상기 현재 프레임을 인코딩하기 위한 인코딩 비트 레이트, 및 상기 현재 프레임의 프레임 타입 중 적어도 하나에 기초하여 결정되는, 장치.
  19. 제17항에 있어서, 상기 제2 조정 파라미터는 상기 제1 가상 라우드스피커의 조정된 이전 프레임 투표 값 및 상기 제1 가상 라우드스피커의 현재 프레임 초기 투표 값에 기초하여 결정되는, 장치.
  20. 제13항 내지 제19항 중 어느 한 항에 있어서, 상기 제2 수량은 미리 설정되거나, 또는 상기 제2 수량은 상기 현재 프레임에 기초하여 결정되는, 장치.
  21. 제13항 내지 제20항 중 어느 한 항에 있어서, 3차원 오디오 신호의 현재 프레임에 대응하는 제1 수량의 가상 라우드스피커들의 제1 수량의 현재 프레임 초기 투표 값들을 획득할 때, 상기 가상 라우드스피커 선택 모듈은:
    상기 현재 프레임의 제3 수량의 대표 계수들, 후보 가상 라우드스피커 세트, 및 투표 라운드 수에 기초하여 상기 제1 수량의 가상 라우드스피커들 및 상기 제1 수량의 현재 프레임 초기 투표 값들을 결정하도록 구체적으로 구성되고, 상기 후보 가상 라우드스피커 세트는 제5 수량의 가상 라우드스피커들을 포함하고, 상기 제5 수량의 가상 라우드스피커들은 상기 제1 수량의 가상 라우드스피커들을 포함하고, 상기 제1 수량은 상기 제5 수량 이하이고, 상기 투표 라운드 수는 1 이상의 정수이고, 상기 투표 라운드 수는 상기 제5 수량 이하인, 장치.
  22. 제21항에 있어서, 상기 장치는 계수 선택 모듈을 추가로 포함하고;
    상기 계수 선택 모듈은 상기 현재 프레임의 제4 수량의 계수들 및 상기 제4 수량의 계수들의 주파수 도메인 특징 값들을 획득하도록 구성되고;
    상기 계수 선택 모듈은 상기 제4 수량의 계수들의 주파수 도메인 특징 값들에 기초하여 상기 제4 수량의 계수들로부터 상기 제3 수량의 대표 계수들을 선택하도록 추가로 구성되고, 상기 제3 수량은 상기 제4 수량 미만인, 장치.
  23. 제22항에 있어서, 상기 가상 라우드스피커 선택 모듈은:
    상기 현재 프레임과 이전 프레임 대표 가상 라우드스피커 세트 사이의 제1 상관관계를 획득하고- 상기 이전 프레임 대표 가상 라우드스피커 세트는 상기 제6 수량의 가상 라우드스피커들을 포함하고, 상기 제6 수량의 가상 라우드스피커들에 포함된 가상 라우드스피커는 상기 이전 프레임이 인코딩될 때 사용되는 이전 프레임 대표 가상 라우드스피커이고, 상기 제1 상관관계는 상기 현재 프레임이 인코딩될 때 상기 이전 프레임 대표 가상 라우드스피커 세트가 재사용되는지 여부를 결정하기 위해 사용됨 -;
    상기 제1 상관관계가 재사용 조건을 충족하지 않는 경우, 상기 3차원 오디오 신호의 상기 현재 프레임의 상기 제4 수량의 계수들, 및 상기 제4 수량의 계수들의 주파수 도메인 특징 값들을 획득하도록 추가로 구성되는, 장치.
  24. 제13항 내지 제23항 중 어느 한 항에 있어서, 상기 3차원 오디오 신호의 현재 프레임은 고차 앰비소닉스(HOA) 신호이고, 상기 현재 프레임의 계수의 주파수 도메인 특징 값은 상기 HOA 신호의 계수에 기초하여 결정되는, 장치.
  25. 인코더로서, 상기 인코더는 적어도 하나의 프로세서 및 메모리를 포함하고, 상기 메모리는 컴퓨터 프로그램을 저장하여, 상기 컴퓨터 프로그램이 상기 적어도 하나의 프로세서에 의해 실행될 때 제1항 내지 제12항 중 어느 한 항에 따른 3차원 오디오 신호 인코딩 방법이 구현될 수 있게 하도록 구성되는, 인코더.
  26. 시스템으로서, 상기 시스템은 제25항에 따른 인코더 및 디코더를 포함하고, 상기 인코더는 제1항 내지 제12항 중 어느 한 항에 따른 방법의 동작 단계들을 수행하도록 구성되고, 상기 디코더는 상기 인코더에 의해 생성된 비트스트림을 디코딩하도록 구성되는, 시스템.
  27. 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램이 실행될 때, 제1항 내지 제12항 중 어느 한 항에 따른 3차원 오디오 신호 인코딩 방법이 구현되는, 컴퓨터 프로그램.
  28. 컴퓨터 소프트웨어 명령어들을 포함한 컴퓨터 판독가능 저장 매체로서, 상기 컴퓨터 소프트웨어 명령어들이 인코더 상에서 실행될 때, 상기 인코더는 제1항 내지 제12항 중 어느 한 항에 따른 3차원 오디오 신호 인코딩 방법을 수행할 수 있게 되는, 컴퓨터 판독가능 저장 매체.
  29. 컴퓨터 판독가능 저장 매체로서, 제1항 내지 제12항 중 어느 한 항에 따른 3차원 오디오 신호 인코딩 방법을 사용하여 획득되는 비트스트림을 포함하는, 컴퓨터 판독가능 저장 매체.
KR1020237041578A 2021-05-17 2022-05-07 3차원 오디오 신호 인코딩 방법 및 장치, 및 인코더 KR20240004869A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110536634.9 2021-05-17
CN202110536634.9A CN115376530A (zh) 2021-05-17 2021-05-17 三维音频信号编码方法、装置和编码器
PCT/CN2022/091557 WO2022242479A1 (zh) 2021-05-17 2022-05-07 三维音频信号编码方法、装置和编码器

Publications (1)

Publication Number Publication Date
KR20240004869A true KR20240004869A (ko) 2024-01-11

Family

ID=84058493

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237041578A KR20240004869A (ko) 2021-05-17 2022-05-07 3차원 오디오 신호 인코딩 방법 및 장치, 및 인코더

Country Status (7)

Country Link
US (1) US20240079017A1 (ko)
EP (1) EP4325485A1 (ko)
JP (1) JP2024518846A (ko)
KR (1) KR20240004869A (ko)
CN (1) CN115376530A (ko)
BR (1) BR112023024118A2 (ko)
WO (1) WO2022242479A1 (ko)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3275249B2 (ja) * 1991-09-05 2002-04-15 日本電信電話株式会社 音声符号化・復号化方法
KR20100131467A (ko) * 2008-03-03 2010-12-15 노키아 코포레이션 복수의 오디오 채널들을 캡쳐하고 렌더링하는 장치
CN103000179B (zh) * 2011-09-16 2014-11-12 中国科学院声学研究所 一种多通道音频编解码系统及其方法
BR112015030103B1 (pt) * 2013-05-29 2021-12-28 Qualcomm Incorporated Compressão de representações decomposta de campo sonoro
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
KR20240050436A (ko) * 2014-06-27 2024-04-18 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 장치
EP2963949A1 (en) * 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
CN106658345B (zh) * 2016-11-16 2018-11-16 青岛海信电器股份有限公司 一种虚拟环绕声播放方法、装置和设备
CN106993249B (zh) * 2017-04-26 2020-04-14 深圳创维-Rgb电子有限公司 一种声场的音频数据的处理方法及装置
CN110120229A (zh) * 2018-02-05 2019-08-13 北京三星通信技术研究有限公司 虚拟现实vr音频信号的处理方法及相应设备
US11093788B2 (en) * 2018-02-08 2021-08-17 Intel Corporation Scene change detection
CN108538310B (zh) * 2018-03-28 2021-06-25 天津大学 一种基于长时信号功率谱变化的语音端点检测方法
CN110556118B (zh) * 2018-05-31 2022-05-10 华为技术有限公司 立体声信号的编码方法和装置
GB2584630A (en) * 2019-05-29 2020-12-16 Nokia Technologies Oy Audio processing

Also Published As

Publication number Publication date
JP2024518846A (ja) 2024-05-07
US20240079017A1 (en) 2024-03-07
CN115376530A (zh) 2022-11-22
WO2022242479A1 (zh) 2022-11-24
BR112023024118A2 (pt) 2024-02-15
EP4325485A1 (en) 2024-02-21

Similar Documents

Publication Publication Date Title
EP3809709A1 (en) Apparatus and method for audio encoding
JP7371968B2 (ja) メタデータを利用するオーディオ信号処理方法及び装置
US20240119950A1 (en) Method and apparatus for encoding three-dimensional audio signal, encoder, and system
CN114067810A (zh) 音频信号渲染方法和装置
US20230298600A1 (en) Audio encoding and decoding method and apparatus
KR20240004869A (ko) 3차원 오디오 신호 인코딩 방법 및 장치, 및 인코더
KR20230110333A (ko) 오디오 인코딩/디코딩 방법 및 디바이스
TWI834163B (zh) 三維音頻訊號編碼方法、裝置和編碼器
WO2022242483A1 (zh) 三维音频信号编码方法、装置和编码器
WO2022242481A1 (zh) 三维音频信号编码方法、装置和编码器
WO2022242480A1 (zh) 三维音频信号编码方法、装置和编码器
WO2022257824A1 (zh) 一种三维音频信号的处理方法和装置
WO2022253187A1 (zh) 一种三维音频信号的处理方法和装置
CN115346537A (zh) 一种音频编码、解码方法及装置