KR20230154241A - 가상 스피커 세트 결정 방법 및 디바이스 - Google Patents

가상 스피커 세트 결정 방법 및 디바이스 Download PDF

Info

Publication number
KR20230154241A
KR20230154241A KR1020237033855A KR20237033855A KR20230154241A KR 20230154241 A KR20230154241 A KR 20230154241A KR 1020237033855 A KR1020237033855 A KR 1020237033855A KR 20237033855 A KR20237033855 A KR 20237033855A KR 20230154241 A KR20230154241 A KR 20230154241A
Authority
KR
South Korea
Prior art keywords
virtual
latitude
virtual speakers
speakers
speaker
Prior art date
Application number
KR1020237033855A
Other languages
English (en)
Inventor
위안 가오
솨이 류
빈 왕
저 왕
톈수 취
자하오 쉬
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20230154241A publication Critical patent/KR20230154241A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/024Positioning of loudspeaker enclosures for spatial sound reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

본 출원은 가상 스피커 세트를 결정하는 방법 및 장치를 제공한다. 가상 스피커 세트를 결정하는 방법은: 처리될 오디오 신호에 기초하여 F개의 미리 설정된 가상 스피커로부터 타깃 가상 스피커를 결정하는 단계 - F개의 가상 스피커 각각은 S개의 가상 스피커에 대응하고, F는 양의 정수이고, S는 1보다 큰 양의 정수임 -; 및 미리 설정된 가상 스피커 분포 테이블로부터, 타깃 가상 스피커에 대응하는 S개의 가상 스피커의 각자의 위치 정보를 획득하는 단계 - 가상 스피커 분포 테이블은 K개의 가상 스피커의 위치 정보를 포함하고, 위치 정보는 고도각 인덱스 및 방위각 인덱스를 포함하고, K는 1보다 큰 양의 정수이고, 이고, 임 - 를 포함한다. 본 출원은 오디오 신호 재생 효과를 개선할 수 있다.

Description

가상 스피커 세트 결정 방법 및 디바이스
[우선권 주장]
본 출원은 2021년 3월 5일자로 중국 특허청에 출원되고 발명의 명칭이 "METHOD AND APPARATUS FOR DETERMINING VIRTUAL SPEAKER SET"인 중국 특허 출원 제202110247466.1호에 대한 우선권을 주장하며, 이 출원의 내용은 그 전체가 본 명세서에 참고로 포함된다.
[기술 분야]
본 출원은 오디오 기술 분야에 관한 것으로, 특히, 가상 스피커 세트를 결정하는 방법 및 장치에 관한 것이다.
3차원 오디오 기술은 실세계의 사운드 이벤트들 및 3차원 음장(sound field) 정보가 획득되고, 처리되고, 송신되고, 렌더링되고, 컴퓨터를 통해, 신호 처리 등을 통해 재생되는 오디오 기술이다. 3차원 오디오 기술은 사운드가 강한 공간 느낌, 포위 느낌, 및 몰입 느낌을 갖게 만들고, 사람들에게 "가상 대면" 음향 경험을 제공한다. 현재, 주류 3차원 오디오 기술은 고차 앰비소닉스(higher order ambisonics, HOA) 기술이다. 레코딩 및 인코딩에서, HOA 기술이 재생 스테이지 동안 스피커 레이아웃 및 HOA 포맷에서의 데이터의 회전가능성 특징과 무관하다는 속성으로 인해, HOA 기술은 3차원 오디오 재생에서 보다 높은 유연성을 가지며, 따라서 더 많은 관심을 끌고 더 넓은 연구 대상이 되었다.
HOA 기술은 HOA 신호를 가상 스피커 신호로 변환하고, 이어서, 매핑을 통해, 재생을 위한 바이노럴 신호(binaural signal)를 획득할 수 있다. 전술한 프로세스에서, 가상 스피커들의 균등한 분배는 최상의 샘플링 효과를 달성할 수 있다. 예를 들어, 가상 스피커들은 정사면체의 정점들 상에 분포된다. 그러나, 3차원 공간에서는, 5가지 타입의 정다면체: 정사면체, 정육면체, 정팔면체, 정십이면체, 및 정이십면체만이 존재한다. 결과적으로, 배치될 수 있는 가상 스피커들의 수량이 제한되고, 이는 더 많은 수량의 가상 스피커들의 분배에 적용가능하지 않다.
본 출원은 오디오 신호 재생 효과를 개선하기 위해, 가상 스피커 세트를 결정하기 위한 방법 및 장치를 제공한다.
제1 양태에 따르면, 본 출원은 가상 스피커 세트를 결정하기 위한 방법을 제공하며, 방법은: 처리될 오디오 신호에 기초하여 F개의 미리 설정된 가상 스피커로부터 타깃 가상 스피커를 결정하는 단계 - F개의 가상 스피커 각각은 S개의 가상 스피커에 대응하고, F는 양의 정수이고, S는 1보다 큰 양의 정수임 -; 및 미리 설정된 가상 스피커 분포 테이블로부터, 타깃 가상 스피커에 대응하는 S개의 가상 스피커의 각자의 위치 정보를 획득하는 단계 - 가상 스피커 분포 테이블은 K개의 가상 스피커의 위치 정보를 포함하고, 위치 정보는 고도각 인덱스 및 방위각 인덱스를 포함하고, K는 1보다 큰 양의 정수이고, 이고, 임 - 를 포함한다.
본 출원에서, 가상 스피커 분포 테이블은 미리 설정되어, HOA 재구성된 신호들의 신호 대 잡음비들(SNR들)의 높은 평균 값이 분포 테이블에 따라 가상 스피커들을 배치함으로써 획득될 수 있도록 하고, 처리될 오디오 신호의 HOA 계수와 가장 높은 상관들을 갖는 S개의 가상 스피커가 그러한 분배에 기초하여 선택되고, 그에 의해 최적의 샘플링 효과를 달성하고 오디오 신호 재생 효과를 개선한다.
가능한 구현에서, 처리될 오디오 신호에 기초하여 F개의 미리 설정된 가상 스피커로부터 타깃 가상 스피커를 결정하는 단계는: 오디오 신호의 고차 앰비소닉스(HOA) 계수를 획득하는 단계; F개의 가상 스피커에 대응하는 HOA 계수들의 F개의 그룹을 획득하는 단계 - F개의 가상 스피커는 HOA 계수들의 F개의 그룹과 일대일 대응함 -; 및 오디오 신호의 HOA 계수와 가장 큰 상관을 갖고 또한 HOA 계수들의 F개의 그룹 내에 있는 HOA 계수들의 그룹에 대응하는 가상 스피커를 타깃 가상 스피커로서 결정하는 단계를 포함한다.
인코딩 분석이 처리될 오디오 신호에 대해 수행된다. 예를 들어, 오디오 신호의 HOA 계수를 획득하기 위해, 오디오 신호의 음원들의 수량, 지향성, 및 분산과 같은 특성들을 포함하는, 처리될 오디오 신호의 음장 분포가 분석되고, 오디오 신호의 HOA 계수는 타깃 가상 스피커를 어떻게 선택할지를 결정하기 위한 결정 조건들 중 하나로서 사용된다. 처리될 오디오 신호와 매칭되는 가상 스피커는 처리될 오디오 신호의 HOA 계수 및 후보 가상 스피커들(즉, 전술한 F개의 가상 스피커)의 HOA 계수들에 기초하여 선택될 수 있다. 본 출원에서, 상기 가상 스피커는 타깃 가상 스피커라고 지칭된다. 내적(inner product)이 F개의 가상 스피커의 HOA 계수들과 오디오 신호의 HOA 계수 사이에서 개별적으로 수행될 수 있고, 내적의 최대 절대값을 갖는 가상 스피커가 타깃 가상 스피커로서 선택된다. 타깃 가상 스피커는 대안적으로 또 다른 방법을 사용하여 결정될 수 있고, 이것은 본 출원에서 구체적으로 제한되지는 않는다는 점에 유의해야 한다.
가능한 구현에서, 타깃 가상 스피커에 대응하는 S개의 가상 스피커는 다음의 조건들을 충족한다: S개의 가상 스피커는 타깃 가상 스피커 및 타깃 가상 스피커 주위에 위치한 (S-1)개의 가상 스피커를 포함하고, 여기서 (S-1)개의 가상 스피커와 타깃 가상 스피커 간의 (S-1)개의 상관 중 어느 하나는 K개의 가상 스피커와 타깃 가상 스피커 중, S개의 가상 스피커 이외의, (K-S)개의 가상 스피커 간의 (K-S)개의 상관 각각보다 크다.
타깃 가상 스피커가 결정될 때, 타깃 가상 스피커는 처리될 오디오 신호의 HOA 계수와 가장 높은 상관을 갖는 중앙 가상 스피커이다. 각각의 중앙 가상 스피커에 대응하는 S개의 가상 스피커는 중앙 가상 스피커의 HOA 계수들과 가장 높은 상관들을 갖는 S개의 가상 스피커이다. 따라서, 타깃 가상 스피커에 대응하는 S개의 가상 스피커는 또한 처리될 오디오 신호의 HOA 계수와 가장 높은 상관들을 갖는 S개의 가상 스피커이다.
가능한 구현에서, K개의 가상 스피커는 다음의 조건들을 충족한다: K개의 가상 스피커는 미리 설정된 구 상에 분포되고, 미리 설정된 구는 L개의 위도 영역을 포함하고, 여기서 L>1이고; 및 L개의 위도 영역 중 m번째 위도 영역은 개의 위도 원을 포함하고, K개의 가상 스피커 중에 있고 또한 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 은 양의 정수이고, 이며, 여기서 일 때, m번째 위도 영역에서의 임의의 2개의 인접한 위도 원 간의 고도각 차이는 이다.
가능한 구현에서, L개의 위도 영역 중 n번째 위도 영역은 개의 위도 원을 포함하고, K개의 가상 스피커 중에 있고 또한 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 은 양의 정수이고, 이며, 여기서 일 때, n번째 위도 영역에서의 임의의 2개의 인접한 위도 원 간의 고도각 차이는 이고, 여기서 또는 이고, 이다.
가능한 구현에서, L개의 위도 영역의 c번째 위도 영역은 개의 위도 원을 포함하고, 개의 위도 원 중 하나는 적도 위도 원이고, K개의 가상 스피커 중에 있고 또한 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 는 양의 정수이고, 이며, 여기서 일 때, c번째 위도 영역에서의 임의의 2개의 인접한 위도 원 사이의 고도각 차이는 이고, 여기서 이고, 이다.
가능한 구현에서, F개의 가상 스피커는 다음의 조건들을 충족한다: 번째 위도 원 상에 분포되고 또한 F개의 가상 스피커 중에 있는 인접한 가상 스피커들 사이의 방위각 차이 보다 크다.
가능한 구현에서, 이고, 여기서 q는 1보다 큰 양의 정수이다.
가능한 구현에서, K개의 가상 스피커 중 k번째 가상 스피커와 타깃 가상 스피커 간의 상관 는 다음의 공식을 충족한다:
, 여기서
는 타깃 가상 스피커의 방위각을 나타내고, 는 타깃 가상 스피커의 고도각을 나타내고, 는 타깃 가상 스피커의 HOA 계수들을 나타내고, 는 K개의 가상 스피커 중 k번째 가상 스피커의 HOA 계수들을 나타낸다.
제2 양태에 따르면, 본 출원은 가상 스피커 세트를 결정하기 위한 장치를 제공하며, 장치는: 처리될 오디오 신호에 기초하여 F개의 미리 설정된 가상 스피커로부터 타깃 가상 스피커를 결정하도록 구성되는 결정 모듈 - F개의 가상 스피커 각각은 S개의 가상 스피커에 대응하고, F는 양의 정수이고, S는 1보다 큰 양의 정수임 -; 및 미리 설정된 가상 스피커 분포 테이블로부터, 타깃 가상 스피커에 대응하는 S개의 가상 스피커의 각자의 위치 정보를 획득하도록 구성된 획득 모듈 - 가상 스피커 분포 테이블은 K개의 가상 스피커의 위치 정보를 포함하고, 위치 정보는 고도각 인덱스 및 방위각 인덱스를 포함하고, K는 1보다 큰 양의 정수이고, 이고, 임 - 을 포함한다.
가능한 구현에서, 결정 모듈은: 오디오 신호의 HOA(higher order ambisonics) 계수를 획득하고; F개의 가상 스피커에 대응하는 HOA 계수들의 F개의 그룹을 획득하고 - F개의 가상 스피커는 HOA 계수들의 F개의 그룹과 일대일 대응함 -; 및 상기 오디오 신호의 HOA 계수와 가장 큰 상관을 갖고 또한 상기 HOA 계수들의 F개의 그룹 중에 있는 HOA 계수들의 그룹에 대응하는 가상 스피커를 상기 타깃 가상 스피커로서 결정하도록 구체적으로 구성된 장치.
가능한 구현에서, 타깃 가상 스피커에 대응하는 S개의 가상 스피커는 다음의 조건들을 충족한다: S개의 가상 스피커는 타깃 가상 스피커 및 타깃 가상 스피커 주위에 위치한 (S-1)개의 가상 스피커를 포함하고, 여기서 (S-1)개의 가상 스피커와 타깃 가상 스피커 간의 (S-1)개의 상관 중 어느 하나는 K개의 가상 스피커와 타깃 가상 스피커 중, S개의 가상 스피커 이외의, (K-S)개의 가상 스피커 간의 (K-S)개의 상관 각각보다 크다.
가능한 구현에서, K개의 가상 스피커는 다음의 조건들을 충족한다: K개의 가상 스피커는 미리 설정된 구 상에 분포되고, 미리 설정된 구는 L개의 위도 영역을 포함하고, 여기서 L>1이고; 및 L개의 위도 영역 중 m번째 위도 영역은 개의 위도 원을 포함하고, K개의 가상 스피커 중에 있고 또한 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 은 양의 정수이고, 이며, 여기서 일 때, m번째 위도 영역에서의 임의의 2개의 인접한 위도 원 간의 고도각 차이는 이다.
가능한 구현에서, L개의 위도 영역 중 n번째 위도 영역은 개의 위도 원을 포함하고, K개의 가상 스피커 중에 있고 또한 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 은 양의 정수이고, 이며, 여기서 일 때, n번째 위도 영역에서의 임의의 2개의 인접한 위도 원 간의 고도각 차이는 이고, 여기서 또는 이고, 이다.
가능한 구현에서, L개의 위도 영역의 c번째 위도 영역은 개의 위도 원을 포함하고, 개의 위도 원 중 하나는 적도 위도 원이고, K개의 가상 스피커 중에 있고 또한 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 는 양의 정수이고, 이며, 여기서 일 때, c번째 위도 영역에서의 임의의 2개의 인접한 위도 원 사이의 고도각 차이는 이고, 여기서 이고, 이다.
가능한 구현에서, F개의 가상 스피커는 다음의 조건들을 충족한다: 번째 위도 원 상에 분포되고 또한 F개의 가상 스피커 중에 있는 인접한 가상 스피커들 사이의 방위각 차이 보다 크다.
가능한 구현에서, 이고, 여기서 q는 1보다 큰 양의 정수이다.
가능한 구현에서, K개의 가상 스피커 중 k번째 가상 스피커와 타깃 가상 스피커 간의 상관 는 다음의 공식을 충족한다:
, 여기서
는 타깃 가상 스피커의 방위각을 나타내고, 는 타깃 가상 스피커의 고도각을 나타내고, 는 타깃 가상 스피커의 HOA 계수들을 나타내고, 는 K개의 가상 스피커 중 k번째 가상 스피커의 HOA 계수들을 나타낸다.
제3 양태에 따르면, 본 출원은 오디오 처리 디바이스를 제공하고, 오디오 처리 디바이스는: 하나 이상의 프로세서; 및 하나 이상의 프로그램을 저장하도록 구성된 메모리를 포함한다. 하나 이상의 프로그램이 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서는 제1 양태의 임의의 가능한 구현에 따른 방법을 구현할 수 있게 된다.
제4 양태에 따르면, 본 출원은 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 컴퓨터는 제1 양태의 임의의 가능한 구현에 따른 방법을 수행할 수 있게 된다.
도 1은 본 출원에 따른 오디오 재생 시스템의 구조의 예시적인 다이어그램이다.
도 2는 본 출원에 따른 오디오 디코딩 시스템(10)의 구조의 예시적인 다이어그램이다.
도 3은 본 출원에 따른 HOA 인코딩 장치의 구조의 예시적인 다이어그램이다.
도 4a는 본 출원에 따른 미리 설정된 구의 예시적인 개략도이다.
도 4b는 본 출원에 따른 고도각 및 방위각의 예시적인 개략도이다.
도 5a 및 도 5b는 K개의 가상 스피커의 예시적인 분포도이다.
도 6a 및 도 6b는 K개의 가상 스피커의 예시적인 분포도이다.
도 7은 본 출원에 따른 가상 스피커 세트를 결정하기 위한 방법의 예시적인 흐름도이다.
도 8은 본 출원에 따른 가상 스피커 세트를 결정하기 위한 장치의 구조의 예시도이다.
본 출원의 목적들, 기술적 해결책들, 및 이점들을 보다 명확하게 하기 위해, 이하에서는 본 출원에서의 첨부 도면들을 참조하여 본 출원에서의 기술적 해결책들을 명확하고 완전하게 설명한다. 설명된 실시예들은 본 출원의 실시예들 전부가 아니라 단지 일부라는 점이 명백하다. 창의적인 노력 없이 본 출원의 실시예들에 기초하여 본 기술분야의 통상의 기술자에 의해 획득되는 모든 다른 실시예들은 본 출원의 보호 범위 내에 속할 것이다.
본 출원의 명세서, 실시예들, 청구항들, 및 첨부 도면들에서, 용어들 "제1", "제2" 등은 단지 구별 및 설명을 위해 의도되고, 상대적 중요성의 표시 또는 암시 또는 순서의 표시 또는 암시로서 이해되지 말아야 한다. 또한, 용어들 "포함하다(include)", "갖다(have)", 및 이들의 임의의 변형은 비배타적 포함을 커버하도록, 예를 들어, 일련의 단계들 또는 유닛들을 포함하도록 의도된다. 방법들, 시스템들, 제품들, 또는 디바이스들은 문자 그대로 열거되는 단계들 또는 유닛들로만 반드시 제한되는 것은 아니며, 문자 그대로 열거되지 않은 또는 이러한 프로세스들, 방법들, 제품들, 또는 디바이스들에 고유한 다른 단계들 또는 유닛들을 포함할 수 있다.
본 출원에서, "적어도 하나의 (아이템)"은 하나 이상을 지칭하고 "복수의"는 2개 이상을 지칭한다는 것을 이해해야 한다. 용어 "및/또는"은 연관된 객체들 사이의 연관 관계를 기술하기 위해 사용되고, 3개의 관계가 존재할 수 있다는 것을 나타낸다. 예를 들어, "A 및/또는 B"는 다음의 3가지 경우를 나타낼 수 있다: A만 존재함, B만 존재함, 및 A와 B 둘 다가 존재함, 여기서 A와 B는 단수 또는 복수일 수 있다. 문자 "/"는 일반적으로 연관된 객체들 사이의 "또는" 관계를 나타낸다. 따라서, "다음 아이템 중 적어도 하나"는 또는 그의 유사한 표현은 단일 아이템 또는 복수의 아이템의 임의의 조합을 포함하는, 아이템들의 임의의 조합을 나타낸다. 예를 들어, a, b, 또는 c 중 적어도 하나는 a, b, c, a 및 b, a 및 c, b 및 c, 또는 a, b, 및 c를 나타낼 수 있고, 여기서 a, b, 및 c는 단수 또는 복수일 수 있다. 문자 ~ 에 의해 연결된 2개의 값은 보통은 값 범위를 나타낸다. 값 범위는 문자 ~에 의해 연결된 2개의 값을 포함한다.
본 출원과 관련된 용어들의 설명들은 다음과 같다.
오디오 프레임: 오디오 데이터는 스트림 형태를 갖는다. 실제 응용에서, 오디오 처리 및 송신을 용이하게 하기 위해, 하나의 지속기간 내의 오디오 데이터 양이 보통은 하나의 오디오 프레임으로서 선택된다. 지속기간은 "샘플링 시간 기간"이라고 지칭되고, 지속기간의 값은 코덱의 요건 및 특정 애플리케이션의 요건에 기초하여 결정될 수 있다. 예를 들어, 지속기간은 2.5ms 내지 60ms의 범위에 있고, 여기서 ms는 밀리초이다.
오디오 신호: 오디오 신호는 음성, 음악, 및 사운드 효과를 갖는 정규 음파(sound wave)의 주파수 및 진폭 변화 정보 캐리어이다. 오디오는 연속적으로 변하는 아날로그 신호이고, 연속적인 곡선에 의해 표현될 수 있고 음파라고 지칭될 수 있다. 아날로그-투-디지털 변환을 통해 또는 컴퓨터에 의해 오디오로부터 생성된 디지털 신호는 오디오 신호이다. 음파는 3개의 중요 파라미터, 즉 주파수, 진폭, 및 위상을 가지며, 이것들은 오디오 신호의 특성들을 결정한다.
다음은 본 출원이 적용되는 시스템 아키텍처이다.
도 1은 본 출원에 따른 오디오 재생 시스템의 구조의 예시적인 다이어그램이다. 도 1에 도시된 바와 같이, 오디오 재생 시스템은 오디오 송신 디바이스 및 오디오 수신 디바이스를 포함한다. 오디오 송신 디바이스는 오디오 인코딩을 수행하고 오디오 비트스트림을 송신할 수 있는 디바이스, 예를 들어, 휴대폰, 컴퓨터(노트북 컴퓨터, 데스크톱 컴퓨터 등), 또는 태블릿(핸드헬드 태블릿 또는 차량용 태블릿)을 포함한다. 오디오 수신 디바이스는 오디오 비트스트림을 수신, 디코딩, 및 재생할 수 있는 디바이스, 예를 들어, 진정한 무선 스테레오(true wireless stereo, TWS) 이어폰들, 공통 무선 이어폰들, 사운드 박스, 스마트 시계, 또는 스마트 안경을 포함한다.
블루투스 접속이 오디오 송신 디바이스와 오디오 수신 디바이스 사이에 확립될 수 있고, 음성 및 음악 전송이 오디오 송신 디바이스와 오디오 수신 디바이스 사이에서 지원될 수 있다. 오디오 송신 디바이스 및 오디오 수신 디바이스의 광범위하게 적용되는 예들은 휴대폰 및 TWS 이어폰들, 무선 헤드 장착 헤드셋, 또는 무선 넥 링(neck ring) 헤드셋, 또는 휴대폰 및 또 다른 단말 디바이스(예컨대 스마트 사운드 박스, 스마트 시계, 스마트 안경, 또는 차량용 사운드 박스)이다. 선택적으로, 오디오 송신 디바이스 및 오디오 수신 디바이스의 예들은 대안적으로 태블릿 컴퓨터, 노트북 컴퓨터, 또는 데스크톱 컴퓨터 및 TWS 이어폰들, 무선 헤드 장착 헤드셋, 무선 넥 링 헤드셋, 또는 또 다른 단말 디바이스(예컨대 스마트 사운드 박스, 스마트 시계, 스마트 안경, 또는 차량용 사운드 박스)일 수 있다.
블루투스 접속 외에도, 오디오 송신 디바이스 및 오디오 수신 디바이스는 또 다른 통신 방식, 예를 들어, Wi-Fi 접속, 유선 접속, 또는 또 다른 무선 접속으로 접속될 수 있다는 점을 유의해야 한다. 이것은 본 출원에서 구체적으로 제한되지는 않는다.
도 2는 본 출원에 따른 오디오 디코딩 시스템(10)의 구조의 예시적인 다이어그램이다. 도 2에 도시된 바와 같이, 오디오 디코딩 시스템(10)은 소스 디바이스(12) 및 목적지 디바이스(14)를 포함할 수 있다. 소스 디바이스(12)는 도 1의 오디오 송신 디바이스일 수 있고, 목적지 디바이스(14)는 도 1의 오디오 수신 디바이스일 수 있다. 소스 디바이스(12)는 인코딩된 비트스트림 정보를 생성한다. 따라서, 소스 디바이스(12)는 오디오 인코딩 디바이스라고도 지칭될 수 있다. 목적지 디바이스(14)는 소스 디바이스(12)에 의해 생성된 인코딩된 비트스트림 정보를 디코딩할 수 있다. 따라서, 목적지 디바이스(14)는 오디오 디코딩 디바이스라고 지칭될 수 있다. 본 출원에서, 소스 디바이스(12) 및 오디오 인코딩 디바이스는 집합적으로 오디오 송신 디바이스라고 지칭될 수 있고, 목적지 디바이스(14) 및 오디오 디코딩 디바이스는 집합적으로 오디오 수신 디바이스라고 지칭될 수 있다.
소스 디바이스(12)는 인코더(20)를 포함하고, 선택적으로, 오디오 소스(16), 오디오 프리프로세서(preprocessor)(18), 및 통신 인터페이스(22)를 포함할 수 있다.
오디오 소스(16)는, 예를 들어, 실세계 사운드를 캡처하는 임의 타입의 오디오 캡처 디바이스, 및/또는 임의 타입의 오디오 생성 디바이스, 예를 들어, 컴퓨터 오디오 프로세서, 또는 실세계 오디오 또는 (스크린 콘텐츠 또는 가상 현실(virtual reality, VR)에서의 오디오와 같은) 컴퓨터 애니메이션 오디오, 및/또는 이들의 임의의 조합(예를 들어, 증강 현실(augmented reality, AR)에서의 오디오, 혼합 현실(mixed Reality, MR)에서의 오디오, 및/또는 확장 현실(extended Reality, XR)에서의 오디오)을 획득 및/또는 제공하도록 구성되는 임의 타입의 디바이스를 포함할 수 있거나 또는 이것들일 수 있다. 오디오 소스(16)는 오디오를 캡처하기 위한 마이크로폰 또는 오디오를 저장하기 위한 메모리일 수 있다. 오디오 소스(16)는 이전에 캡처 또는 생성된 오디오를 저장하고, 및/또는 오디오를 획득 또는 수신하기 위한 임의 타입의(내부 또는 외부) 인터페이스를 추가로 포함할 수 있다. 오디오 소스(16)가 마이크로폰일 때, 오디오 소스(16)는, 예를 들어, 소스 디바이스에 통합된 로컬 오디오 수집 장치 또는 오디오 수집 장치일 수 있다. 오디오 소스(16)가 메모리일 때, 오디오 소스(16)는, 예를 들어, 로컬 메모리 또는 소스 디바이스에 통합된 메모리일 수 있다. 오디오 소스(16)가 인터페이스를 포함할 때, 인터페이스는, 예를 들어, 외부 오디오 소스로부터 오디오를 수신하기 위한 외부 인터페이스일 수 있다. 외부 오디오 소스는, 예를 들어, 마이크로폰, 외부 메모리, 또는 외부 오디오 생성 디바이스와 같은 외부 오디오 캡처 디바이스이다. 외부 오디오 생성 디바이스는, 예를 들어, 외부 컴퓨터 오디오 프로세서, 컴퓨터, 또는 서버이다. 인터페이스는 임의의 독점적 또는 표준화된 인터페이스 프로토콜에 따른 임의 타입의 인터페이스, 예를 들어, 유선 또는 무선 인터페이스 또는 광학 인터페이스일 수 있다.
본 출원에서, 오디오 소스(16)는 현재 시나리오 오디오 신호를 획득한다. 현재 시나리오 오디오 신호는 공간 내의 마이크로폰의 위치에서 음장을 수집함으로써 획득되는 오디오 신호이며, 현재 시나리오 오디오 신호는 원본 시나리오 오디오 신호(original-scenario audio signal)라고도 지칭될 수 있다. 예를 들어, 현재 시나리오 오디오 신호는 고차 앰비소닉스(higher order ambisonics, HOA) 기술을 통해 획득된 오디오 신호일 수 있다. 오디오 소스(16)는 인코딩될 HOA 신호를 획득하는데, 예를 들어, 실제 수집 디바이스를 이용하여 HOA 신호를 획득하거나, 또는 인공 오디오 객체를 이용하여 HOA 신호를 합성할 수 있다. 선택적으로, 인코딩될 HOA 신호는 시간 도메인 HOA 신호 또는 주파수 도메인 HOA 신호일 수 있다.
오디오 프리프로세서(18)는 원본 오디오 신호를 수신하고 원본 오디오 신호에 대해 전처리를 수행하여, 전처리된 오디오 신호를 획득하도록 구성된다. 예를 들어, 오디오 프리프로세서(18)에 의해 수행되는 전처리는 트리밍 또는 잡음 제거를 포함할 수 있다.
인코더(20)는: 전처리된 오디오 신호를 수신하고, 전처리된 오디오 신호를 처리하여, 인코딩된 비트스트림 정보를 제공하도록 구성된다.
소스 디바이스(12)의 통신 인터페이스(22)는: 비트스트림 정보를 수신하고 비트스트림을 통신 채널(13)을 통해 목적지 디바이스(14)에 송신하도록 구성될 수 있다. 통신 채널(13)은, 예를 들어, 직접 유선 또는 무선 접속이고, 임의 타입의 네트워크는, 예를 들어, 유선 또는 무선 네트워크 또는 이들의 임의의 조합, 또는 임의 타입의 사설 네트워크 및 공중 네트워크, 또는 이들의 임의의 조합이다.
목적지 디바이스(14)는 디코더(30)를 포함하고, 선택적으로, 통신 인터페이스(28), 오디오 포스트프로세서(postprocessor)(32), 및 재생 디바이스(34)를 포함할 수 있다.
목적지 디바이스(14) 내의 통신 인터페이스(28)는: 소스 디바이스(12)로부터 비트스트림 정보를 직접 수신하고, 디코더(30)에 비트스트림 정보를 제공하도록 구성된다. 통신 인터페이스(22) 및 통신 인터페이스(28)는 소스 디바이스(12)와 목적지 디바이스(14) 사이의 통신 채널(13)을 통해 비트스트림 정보를 송신 또는 수신하도록 구성될 수 있다.
통신 인터페이스(22) 및 통신 인터페이스(28) 각각은, 소스 디바이스(12)로부터 목적지 디바이스(14)로 가고 도 2의 통신 채널(13)에 대응하는 화살표로 표시된 단방향 통신 인터페이스 또는 양방향 통신 인터페이스로서 구성될 수 있고, 메시지 등을 송신 및 수신하여 접속을 확립하고, 통신 링크에 관련된 기타 임의의 정보 및/또는 인코딩된 오디오 데이터와 같은 데이터의 송신을 확인 및 교환하도록 구성될 수 있다.
디코더(30)는 비트스트림 정보를 수신하고, 비트스트림 정보를 디코딩하여 디코딩된 오디오 데이터를 획득하도록 구성된다.
오디오 포스트프로세서(32)는 디코딩된 오디오 데이터에 대해 후처리를 수행하여 후처리된 오디오 데이터를 획득하도록 구성된다. 오디오 포스트프로세서(32)에 의해 수행되는 후처리는, 예를 들어, 트리밍 또는 리샘플링을 포함할 수 있다.
재생 디바이스(34)는 후처리된 오디오 데이터를 수신하여, 오디오를 사용자 또는 청취자에게 재생하도록 구성된다. 재생 디바이스(34)는 재구성된 오디오를 재생하도록 구성된 임의 타입의 플레이어, 예를 들어, 통합된 또는 외부 스피커이거나 이것을 포함할 수 있다. 예를 들어, 스피커는 경적, 사운드 박스 등을 포함할 수 있다.
도 3은 본 출원에 따른 HOA 인코딩 장치의 구조의 예시적인 다이어그램이다. 도 3에 도시된 바와 같이, HOA 인코딩 장치는 전술한 오디오 디코딩 시스템(10)의 인코더(20)에서 이용될 수 있다. HOA 인코딩 장치는 가상 스피커 구성 유닛, 인코딩 분석 유닛, 가상 스피커 세트 생성 유닛, 가상 스피커 선택 유닛, 가상 스피커 신호 생성 유닛, 및 코어 인코더 처리 유닛을 포함한다.
가상 스피커 구성 유닛은 인코더 구성 정보에 기초하여 가상 스피커를 구성하여, 가상 스피커 구성 파라미터를 획득하도록 구성된다. 인코더 구성 정보는 HOA 차수, 인코딩 비트 레이트, 사용자 정의 정보 등을 포함하지만, 이에 제한되지는 않는다. 가상 스피커 구성 파라미터는 가상 스피커들의 수량, 가상 스피커의 HOA 차수 등을 포함하지만, 이에 제한되지는 않는다.
가상 스피커 구성 유닛에 의해 출력되는 가상 스피커 구성 파라미터는 가상 스피커 세트 생성 유닛의 입력으로서 사용된다.
인코딩 분석 유닛은, 인코딩될 HOA 신호에 대한 인코딩 분석을 수행하도록, 예를 들어, 타깃 가상 스피커를 어떻게 선택할지를 결정하기 위한 결정 조건들 중 하나를 획득하기 위해 인코딩될 HOA 신호의 음원의 수량, 지향성, 및 분산과 같은 특성을 포함한, 인코딩될 HOA 신호의 음장 분포를 분석하도록 구성된다.
본 출원에서, HOA 인코딩 장치는 대안으로서 인코딩 분석 유닛을 포함하지 않을 수 있는데, 다시 말해서, HOA 인코딩 장치는 입력 신호를 분석하지 않을 수 있다. 이는 제한되지 않는다. 이 경우, 디폴트 구성을 이용하여 타깃 가상 스피커를 어떻게 선택할지를 결정한다.
HOA 인코딩 장치는 인코딩될 HOA 신호를 획득한다. 예를 들어, 실제 수집 디바이스에 의해 기록된 HOA 신호 또는 인공 오디오 객체를 이용하여 합성된 HOA 신호는 인코더의 입력으로서 이용될 수 있고, 인코더 내에 입력되는 인코딩될 HOA 신호는 시간 도메인 HOA 신호 또는 주파수 도메인 HOA 신호일 수 있다.
가상 스피커 세트 생성 유닛은 가상 스피커 세트를 생성하도록 구성되며, 여기서 가상 스피커 세트는 복수의 가상 스피커를 포함할 수 있고, 가상 스피커 세트 중 가상 스피커는 "후보 가상 스피커"로서 또한 지칭될 수 있다.
가상 스피커 세트 생성 유닛은 지정된 후보 가상 스피커의 HOA 계수들을 생성한다. 가상 스피커 구성 유닛에 의해 제공되는 후보 가상 스피커의 좌표(즉, 위치 정보) 및 후보 가상 스피커의 HOA 차수는 후보 가상 스피커의 HOA 계수들을 생성하기 위해 사용된다. 후보 가상 스피커의 좌표를 결정하는 방법은 등거리 규칙에 따라 K개의 가상 스피커를 생성하는 단계, 및 청각 지각 원리에 따라, 균일하게 분포되지 않은 K개의 후보 가상 스피커를 생성하는 단계를 포함하는데, 이들로만 제한되지는 않는다. 균일하게 분포된 후보 가상 스피커들의 좌표들은 후보 가상 스피커들의 수량에 기초하여 생성된다.
그 다음, 가상 스피커의 HOA 계수가 생성된다.
음파는 이상적인 매체에서 전송된다. 음파의 파 속력은 k=w/c이고, 각 주파수는 w=2πf이며, 여기서 f는 음파 주파수를 나타내고, c는 음속을 나타낸다. 따라서, 음압 p는 다음의 수학식 1을 충족한다:
여기서
는 라플라시안 연산자이다.
음압 p에 대해 구면 좌표계에서 수학식 1을 푸는 것에 의해 하기 수학식 2가 획득될 수 있다:
여기서, r은 구면 반경을 나타내고, 는 방위각(azimuth)(방위각은 방위이라고도 지칭될 수 있음)을 나타내고, 는 고도각(elevation)을 나타내고, k는 파 속력을 나타내고, s는 이상적인 평면파의 진폭을 나타내고, m은 HOA 차수의 시퀀스 번호를 나타내고, 은 구면 베셀 함수를 나타내고, 또한 방사상 기저 함수라고도 지칭되고, 여기서 첫 번째 j는 허수 단위이고, 은 각도에 따라 변하지 않고, 에 대응하는 구면 고조파 함수이고, 는 음원 방향에서의 구면 고조파 함수이다.
앰비소닉스(Ambisonics) 계수는 다음과 같다:
따라서, 음압 p의 일반 전개 형태 (4)는 다음과 같이 획득될 수 있다:
전술한 수학식 3은 음장이 구면 고조파 함수에 기초하여 구면 표면 상에서 확장될 수 있고, 음장이 앰비소닉스 계수에 기초하여 표현된다는 것을 나타낼 수 있다.
그에 대응하여, 앰비소닉스 계수가 알려져 있는 경우, 음장이 재구성될 수 있다. 음장의 근사 기술로서 앰비소닉스 계수를 사용함으로써, 수학식 3이 N번째 항까지만 남을 때, 앰비소닉스 계수는 N차 HOA 계수라고 지칭되고, 여기서 HOA 계수는 앰비소닉스 계수라고도 지칭된다. N차 앰비소닉스 계수는 총 개의 채널을 갖는다. 선택적으로, HOA 차수는 2차 내지 10차의 범위일 수 있다. 구면 고조파 함수가 HOA 신호의 샘플링 지점에 대응하는 계수에 기초하여 중첩될 때, 샘플링 지점에 대응하는 순간에서의 공간 음장이 재구성될 수 있다. 가상 스피커의 HOA 계수들은 이 원리에 따라 생성될 수 있다. 수학식 3에서의 는 제각기 방위각 및 고도각, 즉 가상 스피커의 위치 정보에 설정되고, 가상 스피커의 앰비소닉스 계수들이라고도 지칭되는 HOA 계수들은 수학식 3에 따라 획득될 수 있다. 예를 들어, 3차 HOA 신호에 대해, s =1이라고 가정하면, 16개의 채널의 것이고 3차 HOA 신호에 대응하는 HOA 계수들이 구면 고조파 함수 에 기초하여 획득될 수 있다. 16개의 채널의 것이고 3차 HOA 신호에 대응하는 HOA 계수들을 계산하기 위한 공식이 표 1에 구체적으로 도시되어 있다.
Figure pct00102
Figure pct00103
표 1에서, 는 미리 설정된 구 상의 가상 스피커의 위치 정보에서의 방위각을 나타내고; 는 미리 설정된 구 상의 가상 스피커의 위치 정보에서의 고도각을 나타낸다. 는 HOA 차수를 나타내고, 여기서 이며; m은 각각의 차수에서의 방향 파라미터를 나타내고, 여기서 이다. 표 1의 극 좌표에서의 표현에 따르면, 16개의 채널의 것이고 가상 스피커의 3차 HOA 신호에 대응하는 HOA 계수들은 가상 스피커의 위치 정보에 기초하여 획득될 수 있다.
가상 스피커 세트 생성 유닛에 의해 출력되는 후보 가상 스피커의 HOA 계수들은 가상 스피커 선택 유닛의 입력으로서 사용된다.
가상 스피커 선택 유닛은 인코딩될 HOA 신호에 기초하여, 가상 스피커 세트 내에 있는 복수의 후보 가상 스피커로부터 타깃 가상 스피커를 선택하도록 구성되고, 여기서 타깃 가상 스피커는 "인코딩될 HOA 신호와 매칭되는 가상 스피커"라고 지칭되거나, 또는 줄여서 매칭 가상 스피커라고 지칭될 수 있다.
가상 스피커 선택 유닛은 가상 스피커 세트 생성 유닛에 의해 출력된 후보 가상 스피커의 HOA 계수들 및 인코딩될 HOA 신호에 기초하여 지정된 매칭 가상 스피커를 선택한다.
이하에서는 매칭 가상 스피커를 선택하기 위한 방법을 설명하기 위해 예를 사용한다. 가능한 구현에서, 후보 가상 스피커의 HOA 계수 매칭과 인코딩될 HOA 신호의 HOA 계수 사이에 내적이 수행되고, 내적의 최대 절대값을 갖는 후보 가상 스피커가 타깃 가상 스피커, 즉 매칭 가상 스피커로서 선택되고, 인코딩될 HOA 신호의, 후보 가상 스피커 상의, 투영이 후보 가상 스피커의 HOA 계수들의 선형 조합 상에 중첩되고, 그 후 투영 벡터가 인코딩될 HOA 신호로부터 감산되어 차이를 획득하게 된다. 전술한 프로세스는 반복 계산을 구현하기 위해 차이에 대해 반복된다. 매칭 가상 스피커가 각각의 반복에서 생성되고, 매칭 가상 스피커의 좌표 및 매칭 가상 스피커의 HOA 계수들이 출력된다. 복수의 매칭 가상 스피커가 선택되고, 하나의 매칭 가상 스피커가 각각의 반복에서 생성된다는 점이 이해될 수 있다. (또한, 다른 구현 방법들이 제한되지 않는다.)
가상 스피커 선택 유닛에 의해 출력되는 타깃 가상 스피커의 좌표 및 타깃 가상 스피커의 HOA 계수들이 가상 스피커 신호 생성 유닛의 입력들로서 이용된다.
가상 스피커 신호 생성 유닛은 인코딩될 HOA 신호 및 타깃 가상 스피커의 속성 정보에 기초하여 가상 스피커 신호를 생성하도록 구성된다. 속성 정보가 위치 정보일 때, 타깃 가상 스피커의 HOA 계수들은 타깃 가상 스피커의 위치 정보에 기초하여 결정된다. 속성 정보가 HOA 계수들을 포함할 때, 타깃 가상 스피커의 HOA 계수들은 속성 정보로부터 획득된다.
가상 스피커 신호 생성 유닛은 인코딩될 HOA 신호 및 타깃 가상 스피커의 HOA 계수들에 기초하여 가상 스피커 신호를 계산한다.
가상 스피커의 HOA 계수들은 행렬 A로 표현되고, 인코딩될 HOA 신호는 행렬 A를 사용하여 선형 조합을 통해 획득될 수 있다. 또한, 이론적 최적 해 w, 즉 가상 스피커 신호는 최소 제곱법을 사용함으로써 획득될 수 있다. 예를 들어, 다음의 계산 공식이 사용될 수 있다:
은 행렬 A의 역행렬을 나타내고, 행렬 A의 크기는 이고, C는 타깃 가상 스피커들의 수량이고, M은 n차 HOA 계수들의 수량, 이고, a는 타깃 가상 스피커의 HOA 계수들이다. 예를 들어,
X는 인코딩될 HOA 신호를 나타내고, 행렬 X의 크기는 (M×L)이며, M은 N차 HOA 계수의 채널들의 수량이고, L은 시간 도메인 또는 주파수 도메인 샘플링 포인트들의 수량이며, x는 인코딩될 HOA 신호의 계수를 나타낸다. 예를 들어,
가상 스피커 신호 생성 유닛에 의해 출력된 가상 스피커 신호는 코어 인코더 처리 유닛의 입력으로서 사용된다.
코어 인코더 처리 유닛은 가상 스피커 신호에 대해 코어 인코더 처리를 수행하여 전송 비트스트림을 획득하도록 구성된다.
코어 인코더 처리는 변환, 양자화, 음향심리 모델, 비트스트림 생성 등을 포함하지만 이에 제한되지는 않고, 주파수 도메인 전송 채널 또는 시간 도메인 전송 채널을 처리할 수 있다. 이것은 본 명세서에서 제한되지 않는다.
전술한 실시예의 설명들에 기초하여, 본 출원은 가상 스피커 세트를 결정하는 방법을 제공한다. 가상 스피커 세트를 결정하는 방법은 이하의 사전 설정에 기초한다.
1. 가상 스피커 분포 테이블
가상 스피커 분포 테이블은 K개의 가상 스피커의 위치 정보를 포함하고, 여기서 위치 정보는 고도각 인덱스 및 방위각 인덱스를 포함하고, K는 1보다 큰 양의 정수이다. K개의 가상 스피커는 미리 설정된 구 상에 분포되도록 설정된다. 미리 설정된 구는 X 위도 원들 및 Y 경도 원들을 포함할 수 있다. X 및 Y는 동일하거나 상이할 수 있다. X 및 Y 둘 다는 양의 정수들이다. 예를 들어, X는 512, 768, 1024 등이고, Y는 512, 768, 1024 등이다. 가상 스피커는 X 위도 원들과 Y 경도 원들의 교차점에 위치된다. X 및 Y의 더 큰 값들은 가상 스피커의 더 많은 후보 선택 위치들, 및 최종적으로 선택된 가상 스피커에 의해 형성되는 음장의 더 좋은 재생 효과를 나타낸다.
도 4a는 본 출원에 따른 미리 설정된 구의 예시적인 개략도이다. 도 4a에 도시된 바와 같이, 미리 설정된 구는 L(L>1)개의 위도 영역을 포함하고, m번째 위도 영역은 개의 위도 원을 포함하고, K개의 가상 스피커에서 번째 위도 원 상에 분포된 인접한 가상 스피커들 사이의 방위각 차이는 이고, 이고, 은 양의 정수이고, 이다. 일 때, m번째 위도 영역에서의 임의의 2개의 인접한 위도 원 사이의 고도각 차이는 이다. 도 4b는 본 출원에 따른 고도각 및 방위각의 예의 개략도이다. 도 4b에 도시된 바와 같이, 가상 스피커의 위치와 구 중심 사이의 연결선과 미리 설정된 수평면(예를 들어, 적도 원이 위치하는 평면, 남극점이 위치하는 평면, 또는 북극점이 위치하는 평면, 여기서 남극점이 위치하는 평면은 남극점과 북극점 사이의 연결선에 수직이고, 북극점이 위치하는 평면은 남극점과 북극점 사이의 연결선에 수직임) 사이의 끼인각(included angle)은 가상 스피커의 고도각이다. 가상 스피커의 위치와 구 중심 사이의 연결선의 수평면 상의 투영과 설정된 초기 방향 사이의 끼인각은 가상 스피커의 방위각이다.
K개의 가상 스피커는 각각의 위도 영역 내의 하나 이상의 위도 원 상에 분포되고, 동일한 위도 원 상에 위치하는 인접한 가상 스피커들 사이의 거리들은 방위각 차이를 사용하여 표현되고, 동일한 위도 원 상의 모든 인접한 가상 스피커들 사이의 방위각 차이들은 동일하다는 것을 이해해야 한다. 예를 들어, 번째 위도 원 상의 임의의 2개의 인접한 가상 스피커 사이의 방위각 차이는 이다. 동일한 위도 영역에 위치한 가상 스피커들에 대해, 위도 영역이 복수의 위도 원을 포함하는 경우, 위도 영역 내의 임의의 위도 원 내의 인접한 가상 스피커들 사이에 동일한 방위각 차이가 존재한다. 예를 들어, m번째 위도 영역에서, 번째 위도 원 상의 인접한 가상 스피커들 사이의 방위각 차이 및 번째 위도 원 상의 인접한 가상 스피커들 사이의 방위각 차이는 둘 다 이다. 또한, 위도 영역이 복수의 위도 원을 포함하는 경우, 위도 영역 내의 위도 원들 사이의 거리는 고도각 차이에 의해 표현되고, 임의의 2개의 인접한 위도 원 사이의 고도각 차이는 위도 영역 내의 인접한 가상 스피커들 사이의 방위각 차이와 동일하다.
가능한 구현에서, 또는 이고, 여기서 은 K개의 가상 스피커 내에 있고 n번째 위도 영역에서의 임의의 위도 원 상에 분포하는 인접한 가상 스피커들 사이의 방위각 차이이고, 이다.
다시 말해서, 상이한 위도 영역들에 위치한 가상 스피커들에 대해, 인접한 가상 스피커들 사이의 방위각 차이들은 동일할 수 있고, 여기서 이거나, 동일하지 않을 수 있고, 여기서 이다. 본 출원에서, L개의 위도 영역에서의 인접한 가상 스피커들 간의 방위각 차이들은 모두 동일할 수 있거나, 또는 L개의 위도 영역에서의 인접한 가상 스피커들 간의 방위각 차이들은 모두 동일하지 않을 수 있거나, 또는 심지어 L개의 위도 영역 중 일부에서의 인접한 가상 스피커들 간의 방위각 차이들이 동일할 수 있고, 및 그러한 방위각 차이들 및 다른 위도 영역들에서의 인접한 가상 스피커들 간의 방위각 차이들은 동일하지 않을 수 있다는 것을 이해해야 한다. 이들은 제한되지 않는다.
가능한 구현에서, 이고, 는 K개의 가상 스피커 내의 번째 위도 원 상에 분포된 인접한 가상 스피커들 사이의 방위각 차이이고, 번째 위도 원은 L개의 위도 영역에 있고 적도 위도 원을 포함하는 위도 영역 내의 임의의 위도 원이다.
구체적으로, L개의 위도 영역에서, 적도 위도 원을 포함하는 위도 영역 내의 인접한 가상 스피커들 간의 방위각 차이가 가장 작은데, 다시 말해서, L개의 위도 영역에서, 적도 위도 원을 포함하는 위도 영역 내의 가상 스피커들은 가장 조밀하게 분포된다.
선택적으로, 가상 스피커 분포 테이블에서의 K개의 가상 스피커의 위치들은 인덱스 방식으로 표현될 수 있고, 인덱스는 고도각 인덱스 및 방위각 인덱스를 포함할 수 있다. 예를 들어, 임의의 위도 원 상에서, 위도 원 상에 분포된 가상 스피커들 중 하나의 것의 방위각은 0에 설정되고, 그 후 대응하는 방위각 인덱스는 방위각과 방위각 인덱스 간의 미리 설정된 변환 공식에 따른 변환을 통해 획득된다. 위도 원 상의 임의의 인접한 가상 스피커들 간의 방위각 차이들이 동일하기 때문에, 위도 원 상의 다른 가상 스피커들의 방위각들이 획득되어, 전술한 변환 공식에 따라 다른 가상 스피커들의 방위각 인덱스들을 획득할 수 있다. 위도 원 상에서, 그 방위각이 0에 설정되는 구체적인 가상 스피커가 본 출원에서 구체적으로 제한되는 것은 아니라는 점을 유의해야 한다. 유사하게, 경도 원 방향으로 인접한 가상 스피커들 사이의 고도각 차이들이 전술한 요건을 충족하기 때문에, 그 고도각이 0인 가상 스피커가 설정된 후에, 다른 가상 스피커들의 고도각들이 획득될 수 있고, 경도 원 상의 모든 가상 스피커들의 고도각 인덱스들이 미리 설정된 고도각과 고도각 인덱스 사이의 변환 공식에 따라 획득될 수 있다. 본 출원에서, 경도 원 상의, 그 고도각이 0에 설정되는, 가상 스피커는 구체적으로 제한되지 않는다는 점을 유의해야 한다. 예를 들어, 가상 스피커는 적도 원 상에 위치하는 가상 스피커, 또는 남극 상에 위치하는 가상 스피커, 또는 북극 상에 위치하는 가상 스피커일 수 있다.
선택적으로, K개의 가상 스피커 내의 k번째 가상 스피커의 고도각 및 고도각 인덱스 는 다음의 공식(즉, 고도각과 고도각 인덱스 사이의 변환 공식)을 충족한다:
는 k번째 가상 스피커가 위치하는 경도 원의 반경을 나타내고, round()는 반올림을 나타낸다.
K개의 가상 스피커 내의 k번째 가상 스피커의 방위각 및 방위각 인덱스 는 다음의 공식(즉, 방위각과 방위각 인덱스 간의 변환 공식)을 충족한다:
는 k번째 가상 스피커가 위치하는 위도 원의 반경을 나타내고, round()는 반올림을 나타낸다.
도 5a 및 도 5b는 K개의 가상 스피커의 예시적인 분포도이다. 도 5a에 도시된 바와 같이, 적도 위도 원을 포함하는 위도 영역 내의 인접한 가상 스피커들 간의 방위각 차이는 또 다른 위도 영역 내의 인접한 가상 스피커들 간의 방위각 차이보다 작고, 이다. 도 5b에 도시된 바와 같이, K개의 가상 스피커는 미리 설정된 구 상에 무작위로 그리고 대략 균일하게 분포된다.
표 2는 도 5a 및 도 5b에 도시된 분포도들 간의 비교를 나타낸다. K=1669라고 가정하면, 도 5a의 분보 방법에 따라 획득된 HOA 재구성된 신호들의 신호 대 잡음비들(SNR들)의 평균 값이 도 5b의 분포 방법에 따라 획득된 HOA 재구성된 신호들의 신호 대 잡음비들의 평균 값보다 더 높다는 것을 알 수 있다.
Figure pct00147
표 2에 나타낸 바와 같이, 이 실시예에서 12개의 상이한 유형의 테스트 오디오가 이용되고, 1 내지 12의 파일 명들은 제각기 단일 사운드 소스 음성 신호, 단일 사운드 소스 악기 신호, 듀얼 사운드 소스 음성 신호, 듀얼 사운드 소스 악기 신호, 트리플 사운드 소스 음성 및 악기 혼합 신호, 쿼드 사운드 소스 음성 및 악기 혼합 신호, 듀얼 사운드 소스 잡음 신호 1, 듀얼 사운드 소스 잡음 신호 2, 듀얼 사운드 소스 잡음 신호 3, 듀얼 사운드 소스 잡음 신호 4, 듀얼 사운드 소스 앰비소닉스 신호 1, 및 듀얼 사운드 소스 앰비소닉스 신호 2이다.
도 6a 및 도 6b는 K개의 가상 스피커의 예시적인 분포도이다. 도 6a에 도시된 바와 같이, L개의 위도 영역에서의 인접한 가상 스피커들 간의 방위각 차이는 동일하고, 이다. 도 6b에 도시된 바와 같이, K개의 가상 스피커는 미리 설정된 구 상에 무작위로 그리고 대략 균일하게 분포된다.
표 3은 도 6a 및 도 6b에 도시된 분포도들 간의 비교를 나타낸다. K=1669라고 가정하면, 도 6a의 분포 방법에 따라 획득된 HOA 재구성된 신호들의 신호 대 잡음비들(SNR들)의 평균 값이 도 6b의 분포 방법에 따라 획득된 HOA 재구성된 신호들의 신호 대 잡음비들의 평균 값보다 더 높다는 것을 알 수 있다.
Figure pct00149
표 3에 나타낸 바와 같이, 이 실시예에서 12개의 상이한 유형의 테스트 오디오가 이용되고, 1 내지 12의 파일 명들은 제각기 단일 사운드 소스 음성 신호, 단일 사운드 소스 악기 신호, 듀얼 사운드 소스 음성 신호, 듀얼 사운드 소스 악기 신호, 트리플 사운드 소스 음성 및 악기 혼합 신호, 쿼드 사운드 소스 음성 및 악기 혼합 신호, 듀얼 사운드 소스 잡음 신호 1, 듀얼 사운드 소스 잡음 신호 2, 듀얼 사운드 소스 잡음 신호 3, 듀얼 사운드 소스 잡음 신호 4, 듀얼 사운드 소스 앰비소닉스 신호 1, 및 듀얼 사운드 소스 앰비소닉스 신호 2이다.
예를 들어, 표 4는 가상 스피커 분포 테이블의 예이다. 이 예에서, K는 530이다. 구체적으로, 표 4는 그 시퀀스 번호들이 0 내지 529의 범위인 530개의 가상 스피커의 구체적인 분포를 기술한다. "위치"는 대응하는 시퀀스 번호의 가상 스피커의 방위각 인덱스 및 고도각 인덱스를 나타낸다. 표에서의 "위치" 열에서, "," 이전의 숫자는 방위각 인덱스이고, "," 이후의 숫자는 고도각 인덱스이다.
Figure pct00150
Figure pct00151
Figure pct00152
Figure pct00153
표 4에서 가상 스피커들이 분포하는 구는 1024개의 경도 원 및 1024개의 위도 원을 포함하고(여기서 남극점 및 북극점은 또한 하나의 위도 원에 대응함), 1024개의 경도 원 및 1024개의 위도 원은 1024×1022+2=1046530개의 교차점에 대응하고, 1046530개의 교차점 각각은 각자의 고도각 및 방위각을 갖는다는 점을 유의해야 한다. 그에 대응하여, 1046530개의 교차점 각각은 각자의 고도각 인덱스 및 방위각 인덱스를 가지며, 표 4에서의 530개의 가상 스피커의 위치들은 1046530개의 교차점 중 530개 위치이다. 표 4에서의 고도각 인덱스들은 적도의 고도각이 0이라는 사실에 기초한 계산을 통해 획득된다. 구체적으로, 적도의 고도각 인덱스 이외의 고도각 인덱스에 대응하는 고도각들은 모두 적도가 위치하는 평면에 대한 고도각들이다.
2. F개의 미리 설정된 가상 스피커
F개의 가상 스피커는 다음의 조건을 충족한다: F개의 가상 스피커에서 번째 위도 원 상에 분포하는 인접한 가상 스피커들 사이의 방위각 차이 보다 크고, 번째 위도 원은 m번째 위도 영역 내의 위도 원들 중 하나이다.
설명의 용이함을 위해, K개의 가상 스피커 중 가상 스피커는 후보 가상 스피커라고 지칭되고, F개의 가상 스피커 중 임의의 가상 스피커는 중앙 가상 스피커(제1 라운드 가상 스피커라고도 지칭될 수 있음)라고 지칭된다. 구체적으로, 미리 설정된 구 상의 임의의 위도 원에 대해, 위도 원 상에 분포된 복수의 후보 가상 스피커로부터 하나 이상의 가상 스피커가 중앙 가상 스피커로서 선택될 수 있고, F개의 가상 스피커에 중앙 가상 스피커가 추가된다. 복수의 가상 스피커가 선택되는 경우, 인접한 중앙 가상 스피커들 간의 방위각 차이 는 인접한 후보 가상 스피커들 간의 방위각 차이 보다 크고, 이것은 으로 표현될 수 있다. 즉, 특정 위도 원에 대해, 복수의 후보 가상 스피커가 분포된다. 중앙 가상 스피커들은 복수의 후보 가상 스피커로부터 선택되고, 더 낮은 밀도를 갖는다. 예를 들어, 위도 원 상의 인접한 후보 가상 스피커들 간의 방위각 차이 은 5°와 동일하고, 인접한 중앙 가상 스피커들 간의 방위각 차이 는 8°와 동일하다.
가능한 구현에서, 이고, 여기서 q는 1보다 큰 양의 정수이다. 인접한 중앙 가상 스피커들 간의 방위각 차이와 인접한 후보 가상 스피커들 간의 방위각 차이는 다중의 관계에 있다는 것을 알 수 있다. 예를 들어, 위도 원 상의 인접한 후보 가상 스피커들 간의 방위각 차이 은 5°와 동일하고, 인접한 중앙 가상 스피커들 간의 방위각 차이 는 10°와 동일하다.
3. F개의 가상 스피커 각각은 S개의 가상 스피커에 대응한다.
설명의 용이함을 위해, S개의 가상 스피커 중의 가상 스피커는 타깃 가상 스피커라고 지칭된다. 구체적으로, 임의의 중앙 가상 스피커에 대응하는 S개의 가상 스피커는 다음의 조건들을 충족한다: S개의 가상 스피커는 임의의 중앙 가상 스피커 및 임의의 중앙 가상 스피커 주위에 위치한 (S-1)개의 가상 스피커를 포함하고, 여기서 임의의 중앙 가상 스피커와 (S-1)개의 가상 스피커 사이의 (S-1)개의 상관 중 어느 하나는 S개의 가상 스피커 이외의 K개의 가상 스피커 중 (K-S)개의 가상 스피커와 임의의 중앙 가상 스피커 사이의 (K-S)개의 상관 각각보다 크다.
즉, S개의 가상 스피커에 대응하는 S개의 는 K개의 가상 스피커에 대응하는 K개의 중 S개의 가장 큰 이다. K개의 가 내림차순으로 정렬될 때, 처음 S개의 가 가장 큰 S개의 이다.
는 K개의 가상 스피커 중의 k번째 가상 스피커와 임의의 중앙 가상 스피커 사이의 상관을 나타내고, 는 다음의 수학식을 만족한다:
는 임의의 가상 스피커의 방위각을 나타내고, 는 임의의 가상 스피커의 고도각을 나타내고, 는 임의의 가상 스피커의 HOA 계수들을 나타내고, 는 K개의 가상 스피커 중 k번째 가상 스피커의 HOA 계수들을 나타낸다.
전술한 방법에 따라 각각의 중앙 가상 스피커에 대해 S개의 타깃 가상 스피커가 결정될 수 있다. 본 출원에서, K개의 가상 스피커로부터의 F개의 가상 스피커가 미리 설정된다는 것을 이해해야 한다. 따라서, 각각의 중앙 가상 스피커의 위치는 또한 고도각 인덱스 및 방위각 인덱스에 의해 표현될 수 있다. 게다가, 각각의 중앙 가상 스피커는 S개의 가상 스피커에 대응하고, S개의 가상 스피커는 또한 K개의 가상 스피커로부터 온다. 따라서, 각각의 타깃 가상 스피커의 위치는 또한 고도각 인덱스 및 방위각 인덱스에 의해 표현될 수 있다.
도 7은 본 출원에 따른 가상 스피커 세트를 결정하는 방법의 예시적인 흐름도이다. 프로세스(700)는 전술한 실시예에서 인코더(20) 또는 디코더(30)에 의해 수행될 수 있다. 즉, 오디오 송신 디바이스에서의 인코더(20)는 오디오 인코딩을 구현하고, 다음으로 비트스트림 정보를 오디오 수신 디바이스에 송신한다. 오디오 수신 디바이스에서의 디코더(30)는 비트스트림 정보를 디코딩하여 타깃 오디오 프레임을 획득하고, 다음으로 타깃 오디오 프레임에 기초하여 렌더링을 수행하여 하나 이상의 가상 스피커에 대응하는 음장 오디오 신호를 획득한다. 프로세스(700)는 일련의 단계들 또는 동작들로서 기술된다. 프로세스(700)는 다양한 시퀀스들로 및/또는 동시에 수행될 수 있으며, 도 7에 도시된 실행 시퀀스로 한정되지 않는다는 것을 이해해야 한다. 도 7에 도시된 바와 같이, 방법은 다음의 단계들을 포함한다.
단계 701: 처리될 오디오 신호에 기초하여 F개의 미리 설정된 가상 스피커로부터 타깃 가상 스피커를 결정한다.
전술한 바와 같이, 처리될 오디오 신호에 대해 인코딩 분석이 수행된다. 예를 들어, 오디오 신호의 HOA 계수를 획득하기 위해, 오디오 신호의 음원들의 수량, 지향성, 및 분산과 같은 특성들을 포함하는, 처리될 오디오 신호의 음장 분포가 분석되고, HOA 계수는 타깃 가상 스피커를 어떻게 선택할지를 결정하기 위한 결정 조건들 중 하나로서 사용된다. 처리될 오디오 신호와 매칭되는 가상 스피커는 처리될 오디오 신호의 HOA 계수 및 후보 가상 스피커들(즉, 전술한 F개의 가상 스피커)의 HOA 계수들에 기초하여 선택될 수 있다. 본 출원에서, 상기 가상 스피커는 타깃 가상 스피커라고 지칭된다.
가능한 구현에서, 오디오 신호의 HOA 계수가 먼저 획득될 수 있고, 그 후 F개의 가상 스피커에 대응하는 HOA 계수들의 F개의 그룹이 획득되며, 여기서 F개의 가상 스피커는 HOA 계수들의 F개의 그룹과 일대일 대응하고; 그 후, 오디오 신호의 HOA 계수와 가장 큰 상관을 갖고 HOA 계수들의 F개의 그룹에 있는 HOA 계수들의 그룹에 대응하는 가상 스피커가 타깃 가상 스피커로서 결정된다.
본 출원에서, 내적은 F개의 가상 스피커의 HOA 계수들과 오디오 신호의 HOA 계수 사이에서 개별적으로 수행될 수 있고, 내적의 최대 절대값을 갖는 가상 스피커가 타깃 가상 스피커로서 선택된다. 구체적으로, HOA 계수들의 F개의 그룹 중 각각의 그룹은 개의 계수를 포함하고, 오디오 신호의 HOA 계수는 개의 계수를 포함하고, N은 오디오 신호의 차수를 나타낸다. 따라서, 오디오 신호의 HOA 계수는 HOA 계수들의 F개의 그룹 중 각각의 그룹과 일대일 대응한다. 이 대응관계에 기초하여, 오디오 신호의 HOA 계수와 HOA 계수들의 F개의 그룹 중 각각의 그룹 사이에서 내적이 수행되고, 오디오 신호의 HOA 계수와 HOA 계수들의 F개의 그룹 중 각각의 그룹 사이의 상관이 획득된다. 타깃 가상 스피커는 대안적으로 또 다른 방법을 사용하여 결정될 수 있고, 이것은 본 출원에서 구체적으로 제한되지는 않는다는 점에 유의해야 한다.
단계 702: 미리 설정된 가상 스피커 분포 테이블로부터, 타깃 가상 스피커에 대응하는 S개의 가상 스피커의 각자의 위치 정보를 획득하는데, 여기서 위치 정보는 고도각 인덱스 및 방위각 인덱스를 포함한다.
본 출원에서의 전술한 사전 설정에 기초하여, 일단 타깃 가상 스피커(즉, 중앙 가상 스피커)가 결정되면, 타깃 가상 스피커에 대응하는 S개의 가상 스피커가 획득될 수 있다. S개의 가상 스피커의 위치 정보는 가장 초기에 설정된 가상 스피커 분포 테이블에 기초하여 획득될 수 있다. K개의 가상 스피커에 대해 동일한 표현 방법이 사용되고, S개의 가상 스피커의 위치 정보는 각각 고도각 인덱스 및 방위각 인덱스에 의해 표현된다.
타깃 가상 스피커가 결정될 때, 타깃 가상 스피커는 처리될 오디오 신호의 HOA 계수와 가장 높은 상관을 갖는 중앙 가상 스피커라는 것을 알 수 있다. 각각의 중앙 가상 스피커에 대응하는 S개의 가상 스피커는 중앙 가상 스피커의 HOA 계수들과 가장 높은 상관들을 갖는 S개의 가상 스피커이다. 따라서, 타깃 가상 스피커에 대응하는 S개의 가상 스피커는 또한 처리될 오디오 신호의 HOA 계수와 가장 높은 상관들을 갖는 S개의 가상 스피커이다.
본 출원에서, 가상 스피커 분포 테이블은 미리 설정되어, HOA 재구성된 신호들의 신호 대 잡음비들(SNR들)의 높은 평균 값이 분포 테이블에 따라 가상 스피커들을 배치함으로써 획득될 수 있고, 처리될 오디오 신호의 HOA 계수와 가장 높은 상관들을 갖는 S개의 가상 스피커가 그러한 분포에 기초하여 선택되고, 그에 의해 최적의 샘플링 효과를 달성하고 오디오 신호 재생 효과를 개선한다.
도 8은 본 출원에 따른 가상 스피커 세트를 결정하기 위한 장치의 구조의 예시도이다. 도 8에 도시된 바와 같이, 장치는 전술한 실시예들에서의 인코더(20) 또는 디코더(30)에서 사용될 수 있다. 본 실시예에서 가상 스피커 세트를 결정하는 장치는 결정 모듈(801) 및 획득 모듈(802)을 포함할 수 있다. 결정 모듈(801)은 처리될 오디오 신호에 기초하여 F개의 미리 설정된 가상 스피커로부터 타깃 가상 스피커를 결정하도록 구성되며, 여기서 F개의 가상 스피커 각각은 S개의 가상 스피커에 대응하고, F는 양의 정수이고, S는 1보다 큰 양의 정수이다. 획득 모듈(802)은, 미리 설정된 가상 스피커 분포 테이블로부터, 타깃 가상 스피커에 대응하는 S개의 가상 스피커의 각자의 위치 정보를 획득하도록 구성되고, 여기서 가상 스피커 분포 테이블은 K개의 가상 스피커의 위치 정보를 포함하고, 위치 정보는 고도각 인덱스 및 방위각 인덱스를 포함하고, K는 1보다 큰 양의 정수이고, 이고, 이다.
가능한 구현에서, 결정 모듈(801)은 오디오 신호의 고차 앰비소닉스(HOA) 계수를 획득하고; F개의 가상 스피커에 대응하는 HOA 계수들의 F개의 그룹을 획득하고 - F개의 가상 스피커는 HOA 계수들의 F개의 그룹과 일대일 대응함 -; 및 상기 오디오 신호의 HOA 계수와 가장 큰 상관을 갖고 또한 상기 HOA 계수들의 F개의 그룹 중에 있는 HOA 계수들의 그룹에 대응하는 가상 스피커를 상기 타깃 가상 스피커로서 결정하도록 구체적으로 구성된다.
가능한 구현에서, 타깃 가상 스피커에 대응하는 S개의 가상 스피커는 다음의 조건들을 충족한다: S개의 가상 스피커는 타깃 가상 스피커 및 타깃 가상 스피커 주위에 위치한 (S-1)개의 가상 스피커를 포함하고, 여기서 (S-1)개의 가상 스피커와 타깃 가상 스피커 간의 (S-1)개의 상관 중 어느 하나는 K개의 가상 스피커와 타깃 가상 스피커 중, S개의 가상 스피커 이외의, (K-S)개의 가상 스피커 간의 (K-S)개의 상관 각각보다 크다.
가능한 구현에서, K개의 가상 스피커는 다음의 조건들을 충족한다: K개의 가상 스피커는 미리 설정된 구 상에 분포되고, 미리 설정된 구는 L개의 위도 영역을 포함하고, 여기서 L>1이고; 및 L개의 위도 영역 중 m번째 위도 영역은 개의 위도 원을 포함하고, K개의 가상 스피커 중에 있고 또한 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 은 양의 정수이고, 이며, 여기서 일 때, m번째 위도 영역에서의 임의의 2개의 인접한 위도 원 간의 고도각 차이는 이다.
가능한 구현에서, L개의 위도 영역 중 n번째 위도 영역은 개의 위도 원을 포함하고, K개의 가상 스피커 중에 있고 또한 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 은 양의 정수이고, 이며, 여기서 일 때, n번째 위도 영역에서의 임의의 2개의 인접한 위도 원 간의 고도각 차이는 이고, 여기서 또는 이고, 이다.
가능한 구현에서, L개의 위도 영역의 c번째 위도 영역은 개의 위도 원을 포함하고, 개의 위도 원 중 하나는 적도 위도 원이고, K개의 가상 스피커 중에 있고 또한 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 는 양의 정수이고, 이며, 여기서 일 때, c번째 위도 영역에서의 임의의 2개의 인접한 위도 원 사이의 고도각 차이는 이고, 여기서 이고, 이다.
가능한 구현에서, F개의 가상 스피커는 다음의 조건들을 충족한다: 번째 위도 원 상에 분포되고 또한 F개의 가상 스피커 중에 있는 인접한 가상 스피커들 사이의 방위각 차이 보다 크다.
가능한 구현에서, 이고, 여기서 q는 1보다 큰 양의 정수이다.
가능한 구현에서, K개의 가상 스피커 중 k번째 가상 스피커와 타깃 가상 스피커 간의 상관 는 다음의 공식을 충족한다:
, 여기서
는 타깃 가상 스피커의 방위각을 나타내고, 는 타깃 가상 스피커의 고도각을 나타내고, 는 타깃 가상 스피커의 HOA 계수들을 나타내고, 는 K개의 가상 스피커 중 k번째 가상 스피커의 HOA 계수들을 나타낸다.
본 실시예의 장치는 도 7에 도시된 방법 실시예의 기술적 해결책을 실행하기 위해 사용될 수 있으며, 장치의 구현 원리들 및 기술적 효과들은 유사하며, 여기서 다시 설명되지 않는다.
구현 프로세스에서, 전술한 방법 실시예에서의 단계들은 프로세서 내의 하드웨어 집적 논리 회로를 사용하여, 또는 소프트웨어 형태의 명령어들을 사용하여 구현될 수 있다. 프로세서는 범용 프로세서, 디지털 신호 프로세서(digital signal processor, DSP), 주문형 집적 회로(application-specific integrated circuit, ASIC), 필드 프로그래머블 게이트 어레이(field programmable gate array, FPGA) 또는 또 다른 프로그래머블 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 디바이스, 또는 이산 하드웨어 컴포넌트일 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나, 또는 프로세서는 임의의 종래의 프로세서 등일 수 있다. 본 출원에 개시된 방법의 단계들은 하드웨어 인코딩 프로세서에 의해 직접 수행될 수 있거나, 또는 인코딩 프로세서 내의 하드웨어와 소프트웨어 모듈의 조합에 의해 수행될 수 있다. 소프트웨어 모듈은 본 기술분야의 성숙한 저장 매체, 예를 들어, 랜덤 액세스 메모리, 플래시 메모리, 판독 전용 메모리, 프로그래머블 판독 전용 메모리, 전기적 소거가능 프로그래머블 메모리, 또는 레지스터에 위치할 수 있다. 저장 매체는 메모리에 위치하고, 프로세서는 메모리 내의 정보를 판독하고 프로세서의 하드웨어와 조합하여 전술한 방법들의 단계들을 완료한다.
전술한 실시예들에서의 메모리는 휘발성 메모리 또는 비휘발성 메모리일 수 있거나, 또는 휘발성 메모리 및 비휘발성 메모리 둘 다를 포함할 수 있다. 비휘발성 메모리는 판독 전용 메모리(read-only memory, ROM), 프로그래머블 판독 전용 메모리(programmable ROM, PROM), 소거가능 프로그래머블 판독 전용 메모리(erasable PROM, EPROM), 전기적으로 소거가능 프로그래머블 판독 전용 메모리(electrically EPROM, EEPROM), 또는 플래시 메모리일 수 있다. 휘발성 메모리는 외부 캐시로서 사용되는 랜덤 액세스 메모리(random access memory, RAM)일 수 있다. 제한이 아닌 예로서, 많은 형태의 RAM들, 예를 들어, 정적 랜덤 액세스 메모리(static RAM, SRAM), 동적 랜덤 액세스 메모리(dynamic RAM, DRAM), 동기식 동적 랜덤 액세스 메모리(synchronous DRAM, SDRAM), 더블 데이터 레이트 동기식 동적 랜덤 액세스 메모리(double data rate SDRAM, DDR SDRAM), 강화된 동기식 동적 랜덤 액세스 메모리(enhanced SDRAM, ESDRAM), 동기식 링크 동적 랜덤 액세스 메모리(synchlink DRAM, SLDRAM), 및 직접 램버스 랜덤 액세스 메모리(direct rambus RAM, DR RAM)가 사용될 수 있다. 본 명세서에서 설명되는 시스템 및 방법의 메모리는 이러한 메모리들 및 또 다른 적절한 유형의 임의의 메모리를 포함하지만 이에 한정되지는 않는다는 점에 유의해야 한다.
본 기술분야의 통상의 기술자는, 본 명세서에 개시된 실시예들에서 설명된 예들과 조합하여, 유닛들 및 알고리즘 단계들이 전자 하드웨어 또는 컴퓨터 소프트웨어와 전자 하드웨어의 조합에 의해 구현될 수 있다는 것을 인식할 수 있다. 기능들이 하드웨어 또는 소프트웨어에 의해 수행되는지는 기술적 해결책들의 특정 응용들 및 설계 제약들에 의존한다. 본 기술분야의 통상의 기술자는 각각의 특정 애플리케이션에 대해 설명된 기능들을 구현하기 위해 상이한 방법들을 사용할 수 있지만, 이러한 구현이 본 출원의 범위를 벗어나는 것으로 간주해서는 안 된다.
편리하고 간단한 설명을 위해, 전술한 시스템들, 장치들, 및 유닛들의 상세한 작업 프로세스에 대해서는, 전술한 방법 실시예에서의 대응하는 프로세스를 참조한다는 것이 본 기술분야의 통상의 기술자에 의해 명확하게 이해될 수 있다. 상세사항들은 본 명세서에서 다시 설명되지 않는다.
본 출원에서 제공되는 몇몇 실시예들에서, 개시된 시스템들, 장치들, 및 방법은 다른 방식들로 구현될 수 있다는 점을 이해해야 한다. 예를 들어, 설명된 장치 실시예들은 단지 예들이다. 예를 들어, 유닛들로의 분할은 단지 논리적 기능 분할이고 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 컴포넌트가 또 다른 시스템에 조합 또는 통합될 수 있거나, 또는 일부 특성들이 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 결합들 또는 직접 결합들 또는 통신 접속들은 몇몇 인터페이스들을 사용하여 구현될 수 있다. 장치들 또는 유닛들 사이의 간접 결합들 또는 통신 접속들은 전자적, 기계적, 또는 다른 형태들로 구현될 수 있다.
별개의 부분들로서 설명되는 유닛들은 물리적으로 별개일 수 있거나 또는 그렇지 않을 수 있고, 유닛들로서 표시되는 부분들은 물리적 유닛들일 수 있거나 또는 그렇지 않을 수 있고, 하나의 위치에 위치할 수 있거나, 또는 복수의 네트워크 유닛들 상에 분산될 수 있다. 유닛들의 일부 또는 전부는 실시예들의 해결책들의 목적들을 달성하기 위해 실제 요건들에 기초하여 선택될 수 있다.
또한, 본 출원의 실시예들에서의 기능 유닛들은 하나의 처리 유닛이 되도록 통합될 수 있고, 유닛들 각각은 물리적으로 단독으로 존재할 수 있거나, 또는 2개 이상의 유닛이 하나의 유닛이 되도록 통합된다.
기능들이 소프트웨어 기능 유닛의 형태로 구현되고 독립적인 제품으로서 판매되거나 사용될 때, 기능들은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본질적으로 본 출원의 기술적 해결책들, 또는 종래의 기술에 대해 기여하는 부분, 또는 기술적 해결책들의 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, 컴퓨터 디바이스(개인용 컴퓨터, 서버, 네트워크 디바이스 등일 수 있음)에게 본 출원의 실시예들에서 설명되는 방법들의 단계들의 전부 또는 일부를 수행하라고 지시하는 수개의 명령어들을 포함한다. 전술한 저장 매체는 USB 플래시 드라이브, 착탈식 하드 디스크, 판독 전용 메모리(read-only memory, ROM), 랜덤 액세스 메모리(random access memory, RAM), 자기 디스크, 또는 광 디스크와 같은, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
전술한 설명들은 본 출원의 구체적인 구현들에 불과하고, 본 출원의 보호 범위를 제한하려고 의도되는 것은 아니다. 본 출원에 개시되는 기술적 범위 내에서 본 기술분야의 통상의 기술자에 의해 용이하게 이해되는 임의의 변형 또는 대체는 본 출원의 보호 범위 내에 있을 것이다. 따라서, 본 출원의 보호 범위는 청구항들의 보호 범위에 종속되어야 할 것이다.

Claims (20)

  1. 가상 스피커 세트를 결정하는 방법으로서:
    처리될 오디오 신호에 기초하여 F개의 미리 설정된 가상 스피커로부터 타깃 가상 스피커를 결정하는 단계 - 상기 F개의 가상 스피커 각각은 S개의 가상 스피커에 대응하고, F는 양의 정수이고, S는 1보다 큰 양의 정수임 -; 및
    미리 설정된 가상 스피커 분포 테이블로부터, 상기 타깃 가상 스피커에 대응하는 S개의 가상 스피커의 각자의 위치 정보를 획득하는 단계 - 상기 가상 스피커 분포 테이블은 K개의 가상 스피커의 위치 정보를 포함하고, 상기 위치 정보는 고도각 인덱스 및 방위각 인덱스를 포함하고, K는 1보다 큰 양의 정수이고, 이고, 임 - 를 포함하는 방법.
  2. 제1항에 있어서, 상기 처리될 오디오 신호에 기초하여 F개의 미리 설정된 가상 스피커로부터 타깃 가상 스피커를 결정하는 단계는:
    상기 오디오 신호의 HOA(higher order ambisonics) 계수를 획득하는 단계;
    상기 F개의 가상 스피커에 대응하는 HOA 계수들의 F개의 그룹을 획득하는 단계 - 상기 F개의 가상 스피커는 상기 HOA 계수들의 F개의 그룹과 일대일 대응함 -; 및
    상기 오디오 신호의 HOA 계수와 가장 큰 상관을 갖고 상기 HOA 계수들의 F개의 그룹 내에 있는 HOA 계수들의 그룹에 대응하는 가상 스피커를 상기 타깃 가상 스피커로서 결정하는 단계를 포함하는 방법.
  3. 제1항 또는 제2항에 있어서, 상기 타깃 가상 스피커에 대응하는 S개의 가상 스피커는:
    상기 S개의 가상 스피커는 상기 타깃 가상 스피커, 및 상기 타깃 가상 스피커 주위에 위치하는 (S-1)개의 가상 스피커를 포함하고, 상기 (S-1)개의 가상 스피커와 상기 타깃 가상 스피커 간의 (S-1)개의 상관 중 어느 하나는 상기 K개의 가상 스피커 중, 상기 S개의 가상 스피커 이외의, (K-S)개의 가상 스피커와 상기 타깃 가상 스피커 간의 (K-S)개의 상관 각각보다 더 큰 조건을 충족하는 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 K개의 가상 스피커는:
    상기 K개의 가상 스피커는 미리 설정된 구 상에 분포하고, 상기 미리 설정된 구는 L개의 위도 영역을 포함하며, L>1인 조건; 및
    상기 L개의 위도 영역 중 m번째 위도 영역은 개의 위도 원을 포함하고, 상기 K개의 가상 스피커 중에 있고 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 은 양의 정수이고, 인 조건 - 일 때, 상기 m번째 위도 영역에서의 임의의 2개의 인접한 위도 원 사이의 고도각 차이는 임 - 을 충족하는 방법.
  5. 제4항에 있어서, 상기 L개의 위도 영역 중 n번째 위도 영역은 개의 위도 원을 포함하고, 상기 K개의 가상 스피커 중에 있고 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 은 양의 정수이고, 이고,
    일 때, 상기 n번째 위도 영역에서의 임의의 2개의 인접한 위도 원 사이의 고도각 차이는 이고,
    또는 이고, 인 방법.
  6. 제4항에 있어서, 상기 L개의 위도 영역의 c번째 위도 영역은 개의 위도 원을 포함하고, 상기 개의 위도 원 중 하나는 적도 위도 원이고, 상기 K개의 가상 스피커 중에 있고 번째 위도 원 상에 분포하는 인접한 가상 스피커들 사이의 방위각 차이는 이고, 이고, 는 양의 정수이고, 이고,
    일 때, 상기 c번째 위도 영역에서의 임의의 2개의 인접한 위도 원 사이의 고도각 차이는 이고,
    이고, 인 방법.
  7. 제4항 내지 제6항 중 어느 한 항에 있어서, 상기 F개의 가상 스피커는:
    번째 위도 원 상에 분포되고 상기 F개의 가상 스피커 중에 있는 인접한 가상 스피커들 사이의 방위각 차이 보다 더 큰 방법.
  8. 제7항에 있어서, 이고, q는 1보다 큰 양의 정수인 방법.
  9. 제3항에 있어서, 상기 K개의 가상 스피커 중 k번째 가상 스피커와 상기 타깃 가상 스피커 간의 상관 는 다음의 수학식:
    를 만족하고,
    는 상기 타깃 가상 스피커의 방위각을 나타내고, 는 상기 타깃 가상 스피커의 고도각을 나타내고, 는 상기 타깃 가상 스피커의 HOA 계수들을 나타내고, 는 상기 k번째 가상 스피커의 HOA 계수들을 나타내는 방법.
  10. 가상 스피커 세트를 결정하는 장치로서:
    처리될 오디오 신호에 기초하여 F개의 미리 설정된 가상 스피커로부터 타깃 가상 스피커를 결정하도록 구성된 결정 모듈 - 상기 F개의 가상 스피커 각각은 S개의 가상 스피커에 대응하고, F는 양의 정수이고, S는 1보다 큰 양의 정수임 -; 및
    미리 설정된 가상 스피커 분포 테이블로부터, 상기 타깃 가상 스피커에 대응하는 S개의 가상 스피커의 각각자 위치 정보를 획득하도록 구성된 획득 모듈 - 상기 가상 스피커 분포 테이블은 K개의 가상 스피커의 위치 정보를 포함하고, 상기 위치 정보는 고도각 인덱스 및 방위각 인덱스를 포함하고, K는 1보다 큰 양의 정수이고, 이고, 인 장치.
  11. 제10항에 있어서, 상기 결정 모듈은: 상기 오디오 신호의 HOA(higher order ambisonics) 계수를 획득하고; 상기 F개의 가상 스피커에 대응하는 HOA 계수들의 F개의 그룹을 획득하고 - 상기 F개의 가상 스피커는 상기 HOA 계수들의 F개의 그룹과 일대일 대응함 -; 및 상기 오디오 신호의 HOA 계수와 가장 큰 상관을 갖고 상기 HOA 계수들의 F개의 그룹 중에 있는 HOA 계수들의 그룹에 대응하는 가상 스피커를 상기 타깃 가상 스피커로서 결정하도록 구체적으로 구성된 장치.
  12. 제10항 또는 제11항에 있어서, 상기 타깃 가상 스피커에 대응하는 S개의 가상 스피커는:
    상기 S개의 가상 스피커는 상기 타깃 가상 스피커, 및 상기 타깃 가상 스피커 주위에 위치하는 (S-1)개의 가상 스피커를 포함하고, 상기 (S-1)개의 가상 스피커와 상기 타깃 가상 스피커 간의 (S-1)개의 상관 중 어느 하나는 상기 K개의 가상 스피커 중, 상기 S개의 가상 스피커 이외의, (K-S)개의 가상 스피커와 상기 타깃 가상 스피커 간의 (K-S)개의 상관 각각보다 더 큰 조건을 충족하는 장치.
  13. 제10항 내지 제12항 중 어느 한 항에 있어서, 상기 K개의 가상 스피커는:
    상기 K개의 가상 스피커는 미리 설정된 구 상에 분포하고, 상기 미리 설정된 구는 L개의 위도 영역을 포함하며, L>1인 조건; 및
    상기 L개의 위도 영역 중 m번째 위도 영역은 개의 위도 원을 포함하고, 상기 K개의 가상 스피커 중에 있고 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 은 양의 정수이고, 인 조건 - 일 때, 상기 m번째 위도 영역에서의 임의의 2개의 인접한 위도 원 사이의 고도각 차이는 임 - 을 충족하는 장치.
  14. 제13항에 있어서,
    상기 L개의 위도 영역 중 n번째 위도 영역은 개의 위도 원을 포함하고, 상기 K개의 가상 스피커 중에 있고 번째 위도 원 상에 분포하는 인접한 가상 스피커들 간의 방위각 차이는 이고, 이고, 은 양의 정수이고, 이고,
    일 때, 상기 n번째 위도 영역에서의 임의의 2개의 인접한 위도 원 사이의 고도각 차이는 이고,
    또는 이고, 인 장치.
  15. 제13항에 있어서, 상기 L개의 위도 영역의 c번째 위도 영역은 개의 위도 원을 포함하고, 상기 개의 위도 원 중 하나는 적도 위도 원이고, 상기 K개의 가상 스피커 중에 있고 번째 위도 원 상에 분포하는 인접한 가상 스피커들 사이의 방위각 차이는 이고, 이고, 는 양의 정수이고, 이고,
    일 때, 상기 c번째 위도 영역에서의 임의의 2개의 인접한 위도 원 사이의 고도각 차이는 이고,
    이고, 인 장치.
  16. 제13항 내지 제15항 중 어느 한 항에 있어서, 상기 F개의 가상 스피커는:
    번째 위도 원 상에 분포하고 상기 F개의 가상 스피커 중에 있는 인접한 가상 스피커들 사이의 방위각 차이 보다 더 큰 장치.
  17. 제16항에 있어서, 이고, q는 1보다 큰 양의 정수인 장치.
  18. 제12항에 있어서, 상기 K개의 가상 스피커 중 k번째 가상 스피커와 상기 타깃 가상 스피커 간의 상관 는 다음의 수학식:
    를 만족하고,
    는 상기 타깃 가상 스피커의 방위각을 나타내고, 는 상기 타깃 가상 스피커의 고도각을 나타내고, 는 상기 타깃 가상 스피커의 HOA 계수들을 나타내고, 는 상기 k번째 가상 스피커의 HOA 계수들을 나타내는 장치.
  19. 오디오 처리 디바이스로서:
    하나 이상의 프로세서; 및
    하나 이상의 프로그램을 저장하도록 구성된 메모리를 포함하고,
    상기 하나 이상의 프로그램이 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서는 제1항 내지 제9항 중 어느 한 항에 따른 방법을 구현할 수 있게 되는 오디오 처리 디바이스.
  20. 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 저장 매체로서, 상기 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 상기 컴퓨터는 제1항 내지 제9항 중 어느 한 항에 따른 방법을 수행할 수 있게 되는 컴퓨터 판독가능 저장 매체.
KR1020237033855A 2021-03-05 2022-03-02 가상 스피커 세트 결정 방법 및 디바이스 KR20230154241A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110247466.1A CN115038028B (zh) 2021-03-05 2021-03-05 虚拟扬声器集合确定方法和装置
CN202110247466.1 2021-03-05
PCT/CN2022/078824 WO2022184097A1 (zh) 2021-03-05 2022-03-02 虚拟扬声器集合确定方法和装置

Publications (1)

Publication Number Publication Date
KR20230154241A true KR20230154241A (ko) 2023-11-07

Family

ID=83117702

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237033855A KR20230154241A (ko) 2021-03-05 2022-03-02 가상 스피커 세트 결정 방법 및 디바이스

Country Status (9)

Country Link
US (1) US20230412981A1 (ko)
EP (1) EP4294056A1 (ko)
JP (1) JP2024512347A (ko)
KR (1) KR20230154241A (ko)
CN (3) CN117061983A (ko)
AU (1) AU2022230620A1 (ko)
BR (1) BR112023017996A2 (ko)
TW (1) TWI816313B (ko)
WO (1) WO2022184097A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2645748A1 (en) * 2012-03-28 2013-10-02 Thomson Licensing Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal
JP6412931B2 (ja) * 2013-10-07 2018-10-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 空間的オーディオ・システムおよび方法
CN103618986B (zh) * 2013-11-19 2015-09-30 深圳市新一代信息技术研究院有限公司 一种3d空间中音源声像体的提取方法及装置
EP3209036A1 (en) * 2016-02-19 2017-08-23 Thomson Licensing Method, computer readable storage medium, and apparatus for determining a target sound scene at a target position from two or more source sound scenes
JP6724830B2 (ja) * 2017-03-16 2020-07-15 ヤマハ株式会社 マイクロフォンアレイ

Also Published As

Publication number Publication date
TWI816313B (zh) 2023-09-21
AU2022230620A1 (en) 2023-09-21
CN115038028A (zh) 2022-09-09
JP2024512347A (ja) 2024-03-19
BR112023017996A2 (pt) 2023-11-14
CN117061983A (zh) 2023-11-14
TW202245487A (zh) 2022-11-16
EP4294056A1 (en) 2023-12-20
CN115038028B (zh) 2023-07-28
US20230412981A1 (en) 2023-12-21
CN116980818A (zh) 2023-10-31
WO2022184097A1 (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
KR102654507B1 (ko) 다중-지점 음장 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
RU2736274C1 (ru) Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием dirac-технологии с расширением глубины или других технологий
EP2954702B1 (en) Mapping virtual speakers to physical speakers
US10477310B2 (en) Ambisonic signal generation for microphone arrays
JP7038725B2 (ja) オーディオ信号処理方法及び装置
AU2021225242B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
CN114067810A (zh) 音频信号渲染方法和装置
CN116569255A (zh) 用于六自由度应用的多个分布式流的矢量场插值
KR20230154241A (ko) 가상 스피커 세트 결정 방법 및 디바이스
WO2022110722A1 (zh) 一种音频编解码方法和装置
WO2022110723A1 (zh) 一种音频编解码方法和装置
CN115038027B (zh) Hoa系数的获取方法和装置
TW202410705A (zh) 虛擬揚聲器集合確定方法和裝置
Paterson et al. Producing 3-D audio
KR20230119642A (ko) 증강 현실/가상 현실 오디오를 위한 스마트 하이브리드 렌더링