KR102201034B1 - 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치 - Google Patents

오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치 Download PDF

Info

Publication number
KR102201034B1
KR102201034B1 KR1020207004422A KR20207004422A KR102201034B1 KR 102201034 B1 KR102201034 B1 KR 102201034B1 KR 1020207004422 A KR1020207004422 A KR 1020207004422A KR 20207004422 A KR20207004422 A KR 20207004422A KR 102201034 B1 KR102201034 B1 KR 102201034B1
Authority
KR
South Korea
Prior art keywords
matrix
rendering
singular value
hoa
decode
Prior art date
Application number
KR1020207004422A
Other languages
English (en)
Other versions
KR20200019778A (ko
Inventor
요한네스 보엠
플로리안 케일러
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Priority to KR1020217000214A priority Critical patent/KR102479737B1/ko
Publication of KR20200019778A publication Critical patent/KR20200019778A/ko
Application granted granted Critical
Publication of KR102201034B1 publication Critical patent/KR102201034B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

본 발명은 임의의 확성기 셋업들에 대해, 고차 앰비소닉스(HOA)와 같은 음장 신호들을 렌더링하는 것을 개시하며, 여기서 이 렌더링은 크게 개선된 정위 특성들을 야기하고 에너지 보존적이다. 이것은 음장 데이터에 대한 새로운 유형의 디코드 행렬과, 이 디코드 행렬을 획득하는 새로운 방법으로 얻어진다. 임의의 공간 확성기 셋업들에 대해 오디오 음장 표현을 렌더링하는 방법에서, 정해진 배열의 목표 확성기들에 대해 렌더링하기 위한 디코드 행렬(D)은 목표 스피커들의 수(L)와 이들의 위치들(Ⅰ), 구면 모델링 그리드의 위치들(Ⅱ) 및 HOA 차수(N)를 획득하는 단계, 모델링 그리드의 위치들(Ⅱ) 및 스피커들의 위치들(Ⅰ)로부터 혼합 행렬(G)을 생성하는(141) 단계, 구면 모델링 그리드의 위치들(Ⅱ) 및 HOA 차수로부터 모드 행렬(Ⅲ)을 생성하는(142) 단계, 혼합 행렬(G)과 모드 행렬(Ⅲ)로부터 제1 디코드 행렬(Ⅳ)을 산출하는(143) 단계, 및 평활화 및 스케일링 계수들을 이용해 제1 디코드 행렬(Ⅳ)을 평활화 및 스케일링하는(144, 145) 단계에 의해 획득된다.

Description

오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치{METHOD AND DEVICE FOR RENDERING AN AUDIO SOUNDFIELD REPRESENTATION FOR AUDIO PLAYBACK}
이 발명은 오디오 재생을 위한, 오디오 음장 표현, 특히 앰비소닉스 포맷의 오디오 표현을 렌더링하는 방법 및 장치에 관한 것이다.
정확한 정위(localisation)는 임의의 공간 오디오 재생 시스템에 주된 목표이다. 그러한 재생 시스템들은 3D 사운드의 혜택을 받는 회의 시스템, 게임, 또는 기타 가상 환경에 크게 적용될 수 있다. 3D의 사운드 씬들(sound scenes)은 자연 음장으로서 합성되거나 캡처될 수 있다. 예컨대 앰비소닉스와 같은 음장 신호들이 원하는 음장의 표현을 실어나른다. 앰비소닉스 포맷은 음장의 구면 조화 분해(spherical harmonic decomposition)에 기초한다. 기본 앰비소닉스 포맷이나 B-포맷은 0차 또는 1차의 구면 조화 함수들을 이용하는 반면, 소위 고차 앰비소닉스(Higher Order Ambisonics, HOA)는 적어도 2차의 추가 구면 조화 함수들도 이용한다. 그러한 앰비소닉스 포맷의 신호들로부터 개개의 확성기 신호들을 얻기 위해서는 디코딩 또는 렌더링 프로세스가 요구된다. 확성기들의 공간적 배열을 본 명세서에서는 확성기 셋업(loudspeaker setup)이라고 한다. 그러나, 공지된 렌더링 접근법들은 규칙적인 확성기 셋업들에 대해서만 적합한 반면, 임의의 확성기 셋업들이 훨씬 더 흔하다. 그러한 렌더링 접근법들이 임의의 확성기 셋업들에 적용될 경우, 음 지향성(sound directivity)이 나빠진다.
본 발명은 규칙적인 공간 확성기 분포와 비규칙적인 공간 확성기 분포 모두에 대한 오디오 음장 표현을 렌더링/디코딩하는 방법을 설명하는데, 이 렌더링/디코딩은 크게 개선된 정위 특성들을 제공하고 에너지 보존적이다. 특히, 본 발명은 음장 데이터에 대한 디코드 행렬을 예컨대 HOA 포맷으로 획득하는 새로운 방법을 제공한다. HOA 포맷은 확성기 위치들에 직접 관련되지 않은 음장을 기술하므로, 그리고 획득될 확성기 신호들은 필연적으로 채널 기반 오디오 포맷을 가지므로, HOA 신호들의 디코딩은 항상 오디오 신호의 렌더링에 밀접하게 관련된다. 그러므로 본 발명은 음장 관련 오디오 포맷들을 디코딩하는 것과 렌더링하는 것 모두와 관련된다.
본 발명의 하나의 이점은 매우 양호한 지향성 특성들과 함께 에너지 보존적인 디코딩이 달성된다는 점이다. 용어 "에너지 보존적"이라 함은 HOA 지향성 신호 내의 에너지가 디코딩 후에 보존되고, 따라서 예컨대 일정 진폭 지향성 공간 스윕이 일정한 소리 강도(loudness)로 인지될 것임을 의미한다. 용어 "양호한 지향성 특성들"이라 함은 지향성 주 로브(main lobe)와 작은 사이드 로브(side lobe)들을 특징으로 하는 스피커 지향성을 말하고, 여기서 지향성은 종래의 렌더링/디코딩에 비해 증가된다.
본 발명은 임의의 확성기 셋업들에 대해, 고차 앰비소닉스(HOA)와 같은 음장 신호들을 렌더링하는 것을 개시하며, 여기서 이 렌더링은 크게 개선된 정위 특성들을 야기하고 에너지 보존적이다. 이것은 음장 데이터에 대한 새로운 유형의 디코드 행렬과, 이 디코드 행렬을 획득하는 새로운 방법으로 얻어진다. 임의의 공간 확성기 셋업들에 대해 오디오 음장 표현을 렌더링하는 방법에서, 정해진 배열의 목표 확성기들에 대해 렌더링하기 위한 디코드 행렬은 목표 스피커들의 수와 이들의 위치들, 구면 모델링 그리드의 위치들 및 HOA 차수를 획득하는 단계, 모델링 그리드의 위치들 및 스피커들의 위치들로부터 혼합 행렬을 생성하는 단계, 구면 모델링 그리드의 위치들 및 HOA 차수로부터 모드 행렬을 생성하는 단계, 혼합 행렬과 모드 행렬로부터 제1 디코드 행렬을 산출하는 단계, 및 평활화 및 스케일링 계수들을 이용해 제1 디코드 행렬을 평활화 및 스케일링하여 에너지 보존적인 디코드 행렬을 획득하는 단계에 의해 획득된다.
일 실시예에서, 본 발명은 청구항 1에 청구된 바와 같이 오디오 재생을 위한 오디오 음장 표현을 디코딩 그리고/또는 렌더링하는 방법에 관한 것이다. 다른 실시예에서, 본 발명은 청구항 9에 청구된 바와 같이 오디오 재생을 위한 오디오 음장 표현을 디코딩 그리고/또는 렌더링하는 장치에 관한 것이다. 또 다른 실시예에서, 본 발명은 청구항 15에 청구된 바와 같이 컴퓨터로 하여금 오디오 재생을 위한 오디오 음장 표현을 디코딩 그리고/또는 렌더링하는 방법을 수행하게 하는 실행가능 명령어들이 저장되어 있는 컴퓨터 판독가능 매체에 관한 것이다.
일반적으로, 본 발명은 다음과 같은 접근법을 이용한다. 첫째로, 재생에 이용되는 확성기 셋업에 의존하는 패닝 함수들이 도출된다. 둘째로, 확성기 셋업의 모든 확성기들에 대해 이들 패닝 함수들(또는 패닝 함수들로부터 얻어진 혼합 행렬)로부터 디코드 행렬(예컨대, 앰비소닉스 디코드 행렬)이 계산된다. 제3 단계에서, 디코드 행렬이 생성되고 에너지 보존적이도록 처리된다. 마지막으로, 확성기 패닝 주 로브를 평활화하고 사이드 로브들을 억제하기 위하여 디코드 행렬이 필터링된다. 필터링된 디코드 행렬은 정해진 확성기 셋업에 대해 오디오 신호를 렌더링하는 데 이용된다. 사이드 로브들은 렌더링의 부작용이고 원치 않는 방향으로 오디오 신호들을 제공한다. 렌더링은 정해진 확성기 셋업에 대해 최적화되어 있으므로, 사이드 로브들은 방해가 된다. 본 발명의 이점들 중 하나는 사이드 로브들이 최소화되고, 따라서 확성기 신호들의 지향성이 개선된다는 것이다.
본 발명의 일 실시예에 따르면, 오디오 재생을 위한 오디오 음장 표현을 렌더링/디코딩하는 방법은 수신된 HOA 시간 샘플들 b(t)를 버퍼링하는 단계 - 여기서 M개의 샘플들의 블록들과 시간 인덱스 μ가 형성됨 -, 주파수 필터링된 계수들
Figure 112020015865382-pat00001
를 획득하기 위해 계수들 B(μ)를 필터링하는 단계, 및 디코드 행렬
Figure 112020015865382-pat00002
를 이용하여 주파수 필터링된 계수들
Figure 112020015865382-pat00003
을 공간 도메인에 렌더링하는 단계 - 여기서 공간 신호 W(μ)가 획득됨 - 를 포함한다. 일 실시예에서, 추가 단계들은 지연 라인들에서 L개 채널들 각각에 대해 개별적으로 시간 샘플들 w(t)를 지연시키는 단계 - 여기서 L개 디지털 신호들이 획득됨 -, 및 L개 디지털 신호들을 디지털-아날로그(D/A) 변환하고 증폭시키는 단계 - 여기서 L개 아날로그 확성기 신호들이 획득됨 - 를 포함한다.
렌더링 단계를 위한, 즉, 정해진 배열의 목표 스피커들에 대해 렌더링하기 위한 디코드 행렬
Figure 112020015865382-pat00004
는 목표 스피커들의 수와 이 스피커들의 위치들을 획득하는 단계, 구면 모델링 그리드의 위치들 및 HOA 차수를 결정하는 단계, 구면 모델링 그리드의 위치들 및 스피커들의 위치들로부터 혼합 행렬을 생성하는 단계, 구면 모델링 그리드 및 HOA 차수로부터 모드 행렬을 생성하는 단계, 혼합 행렬 G와 모드 행렬
Figure 112020015865382-pat00005
로부터 제1 디코드 행렬을 산출하는 단계, 및 평활화 및 스케일링 계수들을 이용해 제1 디코드 행렬을 평활화 및 스케일링하는 단계 - 여기서 디코드 행렬이 획득됨 - 에 의해 획득된다.
다른 양태에 따르면, 오디오 재생을 위한 오디오 음장 표현을 디코딩하는 장치는 디코드 행렬
Figure 112020015865382-pat00006
를 획득하기 위한 디코드 행렬 산출 유닛을 가진 렌더링 처리 유닛 - 디코드 행렬 산출 유닛은 목표 스피커들의 수 L을 획득하기 위한 수단 및 이 스피커들의 위치들
Figure 112020015865382-pat00007
을 획득하기 위한 수단, 구면 모델링 그리드
Figure 112020015865382-pat00008
의 위치들을 결정하기 위한 수단 및 HOA 차수 N을 획득하기 위한 수단을 가짐 -, 및 구면 모델링 그리드
Figure 112020015865382-pat00009
의 위치들 및 스피커들의 위치들로부터 혼합 행렬
Figure 112020015865382-pat00010
를 생성하기 위한 제1 처리 유닛, 구면 모델링 그리드
Figure 112020015865382-pat00011
및 HOA 차수 N으로부터 모드 행렬
Figure 112020015865382-pat00012
를 생성하기 위한 제2 처리 유닛, 모드 행렬
Figure 112020015865382-pat00013
과 에르미트 전치 혼합 행렬(Hermitian transposed mix matrix) G의 곱의 콤팩트한 특이값 분해를
Figure 112020015865382-pat00014
에 따라 수행하기 위한 제3 처리 유닛 - 여기서
Figure 112020015865382-pat00015
는 단위 행렬(Unitary matrix)들로부터 도출되고 S는 특이값 요소들을 가진 대각 행렬임 -, 행렬들
Figure 112020015865382-pat00016
로부터 제1 디코드 행렬
Figure 112020015865382-pat00017
Figure 112020015865382-pat00018
에 따라 산출하기 위한 산출 수단 - 여기서
Figure 112020015865382-pat00019
는 특이값 요소들을 가진 상기 대각 행렬로부터 도출된 대각 행렬 또는 항등 행렬(identity matrix) 중 어느 하나임 -, 및 평활화 계수들
Figure 112020015865382-pat00020
을 이용해 제1 디코드 행렬
Figure 112020015865382-pat00021
를 평활화하고 스케일링하기 위한 평활화 및 스케일링 유닛 - 여기서 디코드 행렬
Figure 112020015865382-pat00022
가 획득됨 - 을 포함한다.
또 다른 양태에 따르면, 컴퓨터 판독가능 매체에는 컴퓨터에서 실행될 때 이 컴퓨터로 하여금 위에 개시된 바와 같은 오디오 재생을 위한 오디오 음장 표현을 디코딩하는 방법을 수행하게 하는 실행가능 명령어들이 저장되어 있다.
본 발명의 추가 목적들, 특징들 및 이점들은 첨부 도면들과 관련하여 설명되는 이하의 설명과 부가된 청구항들을 고려함으로써 명백해질 것이다.
본 발명의 예시적인 실시예들은 다음과 같은 첨부 도면들을 참고로 하여 설명된다.
도 1은 본 발명의 일 실시예에 따른 방법의 순서도;
도 2는 혼합 행렬 G를 생성하는 방법의 순서도;
도 3은 렌더러의 블록도;
도 4는 디코드 행렬 생성 프로세스의 도시적 단계들의 순서도;
도 5는 디코드 행렬 생성 유닛의 블록도;
도 6은 스피커들이 연결된 노드들로서 도시되어 있는, 예시적인 16-스피커 셋업;
도 7은 노드들이 스피커들로 도시되어 있는, 자연적 모습의 예시적인 16-스피커 셋업;
도 8은 N=3으로 종래 기술 [14]를 이용해 획득된 디코드 행렬에 대한 완벽한 에너지 보존적 특징들을 위해
Figure 112020015865382-pat00023
비가 일정한 것을 보여주는 에너지 다이어그램;
도 9는 중심 스피커의 패닝 빔이 강한 사이드 로브들을 갖는, N=3으로 종래 기술 [14]에 따라 설계된 디코드 행렬에 대한 음압 다이어그램;
도 10은 N=3으로 종래 기술 [2]를 이용해 획득된 디코드 행렬에 대한
Figure 112020015865382-pat00024
비가 4 dB보다 큰 변동들을 가진 것을 보여주는 에너지 다이어그램;
도 11은 중심 스피커의 패닝 빔이 작은 사이드 로브들을 갖는, N=3으로 종래 기술 [2]에 따라 설계된 디코드 행렬에 대한 음압 다이어그램;
도 12는 일정 진폭을 가진 공간 팬들이 같은 소리 강도로 인지되는, 본 발명에 따른 방법 또는 장치에 의해 획득된 바와 같이
Figure 112020015865382-pat00025
비가 1 dB보다 작은 변동들을 가진 것을 보여주는 에너지 다이어그램;
도 13은 중심 스피커가 작은 사이드 로브들을 가진 패닝 빔을 갖는, 본 발명에 따른 방법을 이용해 설계된 디코드 행렬에 대한 음압 다이어그램.
일반적으로, 본 발명은 확성기들에 대해 고차 앰비소닉스(HOA) 오디오 신호들과 같은 음장 포맷의 오디오 신호들을 렌더링(즉, 디코딩)하는 것과 관련되고, 여기서 확성기들은 대칭 또는 비대칭, 규칙적인 또는 비규칙적인 위치들에 있다. 오디오 신호들은 이용 가능한 것보다 더 많은 확성기들에 공급하기에 적합할 수 있는데, 예컨대, HOA 계수들의 수는 확성기들의 수보다 더 많을 수 있다. 본 발명은 매우 양호한 지향성 특성들과 함께 디코더들에 대한 에너지 보존적인 디코드 행렬들을 제공하는데, 즉, 스피커 지향성 로브들은 일반적으로 종래의 디코드 행렬들을 이용해 얻어지는 스피커 지향성보다 더 강한 지향성 주 로브와 더 작은 사이드 로브들을 포함한다. 에너지 보존적이라 함은 HOA 지향성 신호 내의 에너지가 디코딩 후에 보존되고, 따라서 예컨대 일정 진폭 지향성 공간 스윕이 일정한 소리 강도로 인지될 것임을 의미한다.
도 1은 본 발명의 일 실시예에 따른 방법의 순서도를 보여준다. 이 실시예에서, 오디오 재생을 위한 HOA 오디오 음장 표현을 렌더링(즉, 디코딩)하는 방법은 다음과 같이 생성되는 디코드 행렬을 이용한다: 첫째로, 목표 확성기들의 수 L, 이 확성기들의 위치들
Figure 112020015865382-pat00026
, 구면 모델링 그리드
Figure 112020015865382-pat00027
및 차수 N(예컨대 HOA 차수)이 결정된다(11). 스피커들의 위치들
Figure 112020015865382-pat00028
및 구면 모델링 그리드
Figure 112020015865382-pat00029
로부터, 혼합 행렬
Figure 112020015865382-pat00030
가 생성되고(12), 구면 모델링 그리드
Figure 112020015865382-pat00031
및 HOA 차수 N으로부터, 모드 행렬
Figure 112020015865382-pat00032
이 생성된다(13). 혼합 행렬
Figure 112020015865382-pat00033
및 모드 행렬
Figure 112020015865382-pat00034
로부터 제1 디코드 행렬
Figure 112020015865382-pat00035
가 산출된다(14). 제1 디코드 행렬
Figure 112020015865382-pat00036
는 평활화 계수들
Figure 112020015865382-pat00037
를 이용해 평활화되어(15), 평활화된 디코드 행렬
Figure 112020015865382-pat00038
가 획득되고, 평활화된 디코드 행렬
Figure 112020015865382-pat00039
는 평활화된 디코드 행렬
Figure 112020015865382-pat00040
로부터 획득된 스케일링 인자(scaling factor)를 이용해 스케일링(16)되어, 디코드 행렬
Figure 112020015865382-pat00041
가 획득된다. 일 실시예에서, 평활화(15)와 스케일링(16)은 하나의 단계에서 수행된다.
일 실시예에서, 평활화 계수들
Figure 112020015865382-pat00042
는, 확성기들의 수 L 및 HOA 계수 채널들의 수
Figure 112020015865382-pat00043
에 의존하여, 2개의 상이한 방법들 중 하나에 의해 획득된다. 확성기들의 수 L이 HOA 계수 채널들의 수
Figure 112020015865382-pat00044
보다 작다면, 평활화 계수들을 획득하는 새로운 방법이 이용된다.
일 실시예에서, 복수의 상이한 확성기 배열들에 대응하는 복수의 디코드 행렬들이 생성되고 나중의 사용을 위해 저장된다. 이 상이한 확성기 배열들은 확성기들의 수, 하나 이상의 확성기의 위치 및 입력 오디오 신호의 차수 중 적어도 하나가 다를 수 있다. 그 후, 렌더링 시스템의 초기화시에, 매칭하는 디코드 행렬이 결정되고, 현재의 요구에 따라 저장소로부터 검색되고, 디코딩을 위해 사용된다.
일 실시예에서, 디코드 행렬
Figure 112020015865382-pat00045
는 모드 행렬
Figure 112020015865382-pat00046
과 에르미트 전치 혼합 행렬
Figure 112020015865382-pat00047
의 곱의 콤팩트한 특이값 분해를
Figure 112020015865382-pat00048
에 따라 수행하고, 행렬들
Figure 112020015865382-pat00049
로부터 제1 디코드 행렬
Figure 112020015865382-pat00050
Figure 112020015865382-pat00051
에 따라 산출하는 것에 의해 획득된다.
Figure 112020015865382-pat00052
는 단위 행렬들로부터 도출되고, S는 모드 행렬
Figure 112020015865382-pat00053
과 에르미트 전치 혼합 행렬
Figure 112020015865382-pat00054
의 곱의 상기 콤팩트한 특이값 분해의 특이값 요소들을 가진 대각 행렬이다. 이 실시예에 따라 획득된 디코드 행렬들은 아래 기술되는 대안의 실시예를 이용해 획득된 디코드 행렬들보다 종종 수치적으로 더 안정적이다. 행렬의 에르미트 전치는 그 행렬의 공액 복소 전치(conjugate complex transposed)이다.
대안의 실시예에서, 디코드 행렬
Figure 112020015865382-pat00055
는 에르미트 전치 모드 행렬
Figure 112020015865382-pat00056
와 혼합 행렬
Figure 112020015865382-pat00057
의 곱의 콤팩트한 특이값 분해를
Figure 112020015865382-pat00058
에 따라 수행하는 것에 의해 획득되고,
Figure 112020015865382-pat00059
에 의해 제1 디코드 행렬이 도출된다.
일 실시예에서, 모드 행렬
Figure 112020015865382-pat00060
와 혼합 행렬
Figure 112020015865382-pat00061
에 대해
Figure 112020015865382-pat00062
에 따라 콤팩트한 특이값 분해가 수행되고,
Figure 112020015865382-pat00063
에 의해 제1 디코드 행렬이 도출되고, 여기서
Figure 112020015865382-pat00064
는 임계값 thr 이상인 모든 특이값들을 1들로 대체하고, 임계값 thr보다 작은 요소들을 0들로 대체하는 것에 의해 특이값 분해 행렬
Figure 112020015865382-pat00065
로부터 도출되는 절단된(truncated) 콤팩트한 특이값 분해 행렬이다. 임계값 thr은 특이값 분해 행렬의 실제 값들에 의존하고, 예시적으로, 대략 0,06*S1(S의 최대 요소)일 수 있다.
일 실시예에서, 모드 행렬
Figure 112020015865382-pat00066
와 혼합 행렬
Figure 112020015865382-pat00067
에 대해
Figure 112020015865382-pat00068
에 따라 콤팩트한 특이값 분해가 수행되고,
Figure 112020015865382-pat00069
에 의해 제1 디코드 행렬이 도출된다.
Figure 112020015865382-pat00070
와 임계값 thr은 이전 실시예에 대해 전술한 바와 같다. 임계값 thr은 보통 가장 큰 특이값으로부터 도출된다.
일 실시예에서, 평활화 계수들을 산출하기 위한 2가지 상이한 방법들이, HOA 차수 N 및 목표 스피커의 수 L에 따라 이용된다: HOA 채널들보다 적은 목표 스피커들이 있다면, 즉
Figure 112020015865382-pat00071
이라면, 평활화 및 스케일링 계수들
Figure 112020015865382-pat00072
는 차수 N+1의 르장드르 다항식들의 0들로부터 도출되는
Figure 112020015865382-pat00073
계수들의 전통적인 집합에 대응하며; 그렇지 않고, 충분한 목표 스피커들이 있다면, 즉,
Figure 112020015865382-pat00074
이라면,
Figure 112020015865382-pat00075
의 계수들은 길이=(2N+1)과 폭=2N을 가진 카이저 윈도우(Kaiser window)의 요소들
Figure 112020015865382-pat00076
로부터, 스케일링 인자
Figure 112020015865382-pat00077
를 이용해
Figure 112020015865382-pat00078
에 따라 구성된다. 카이저 윈도우의 사용되는 요소들은 한 번만 사용되는 (N+1)번째 요소부터 시작되며, 반복적으로 사용되는 후속 요소들로 계속된다: (N+2)번째 요소는 3회 사용된다, 등등.
일 실시예에서, 스케일링 인자는 평활화된 디코딩 행렬로부터 얻어진다. 특히, 일 실시예에서 그것은
Figure 112020015865382-pat00079
에 따라 얻어진다.
이하에서는, 전체 렌더링 시스템이 설명된다. 본 발명의 주안점은, 전술한 바와 같이 디코드 행렬 D가 생성되는, 렌더러의 초기화 단계이다. 여기서, 주안점은, 예컨대, 코드 북에 대해, 하나 이상의 디코드 행렬을 도출하는 기술이다. 디코드 행렬을 생성하기 위해, 몇 개의 목표 확성기들이 이용 가능한지, 그리고 그것들이 어디에 위치하는지(즉, 그것들의 위치들)가 알려진다.
도 2는 본 발명의 일 실시예에 따른, 혼합 행렬 G를 형성하는 방법의 순서도를 보여준다. 이 실시예에서, 0들만을 가진 초기 혼합 행렬이 생성되고(21), 각 방향
Figure 112020015865382-pat00080
와 반경
Figure 112020015865382-pat00081
를 가진 모든 가상 소스 s에 대하여, 다음과 같은 단계들이 수행된다. 첫째로, 위치
Figure 112020015865382-pat00082
를 둘러싸는 3개의 확성기
Figure 112020015865382-pat00083
가 결정되고(22) - 여기서 단위 반경들이 가정됨 -, 행렬
Figure 112020015865382-pat00084
이 형성되고(23), 여기서
Figure 112020015865382-pat00085
이다. 행렬
Figure 112020015865382-pat00086
Figure 112020015865382-pat00087
에 따라 데카르트 좌표들(Cartesian coordinates)로 변환된다(24). 그 후,
Figure 112020015865382-pat00088
에 따라 가상 소스 위치가 형성되고(25),
Figure 112020015865382-pat00089
- 여기서
Figure 112020015865382-pat00090
임 - 에 따라 이득
Figure 112020015865382-pat00091
가 산출된다(26). 이 이득은
Figure 112020015865382-pat00092
에 따라 정규화되고(27),
Figure 112020015865382-pat00093
의 대응 요소들
Figure 112020015865382-pat00094
은 정규화된 이득들:
Figure 112020015865382-pat00095
로 대체된다.
이하의 섹션은 고차 앰비소닉스(HOA)에 대한 간단한 도입부를 제공하고 확성기들에 대하여 처리될, 즉 렌더링될 신호들을 정의한다. 고차 앰비소닉스(HOA)는 음원에서 자유로운 것으로 가정되는 콤팩트한 관심 영역(compact area of interest) 내의 음장의 기술(description)에 기초한다. 그 경우 시간 t 및 그 관심 영역 내의 위치
Figure 112020015865382-pat00096
(구면 좌표들에서, 반경 r, 경사
Figure 112020015865382-pat00097
, 방위각
Figure 112020015865382-pat00098
)에서의 음압
Figure 112020015865382-pat00099
의 시공간 작용은 동차 파동 방정식(homogeneous wave equation)에 의해 물리적으로 완전히 결정된다. 시간에 관한 음압의 푸리에 변환, 즉
Figure 112020015865382-pat00100
- 여기서
Figure 112020015865382-pat00101
는 각주파수를 나타내고
Figure 112020015865382-pat00102
Figure 112020015865382-pat00103
에 대응함 - 은 [13]에 따른 구면 조화 함수들(SH들)의 급수로 전개될 수 있음을 알 수 있다:
Figure 112020015865382-pat00104
수학식 2에서,
Figure 112020015865382-pat00105
는 음속을 나타내고
Figure 112020015865382-pat00106
는 각파수이다. 또한,
Figure 112020015865382-pat00107
는 제1종 및 차수 n의 구면 베셀(Bessel) 함수를 나타내고
Figure 112020015865382-pat00108
는 차수 n 및 디그리(degree) m의 구면 조화 함수(SH)를 나타낸다. 음장에 관한 완전한 정보는 실제로 음장 계수들
Figure 112020015865382-pat00109
내에 포함된다. SH들은 일반적으로 복소수 값 함수들이라는 점에 유의해야 한다. 그러나, 그것들의 적절한 선형 조합에 의해, 실수 값 함수들을 얻고 이 함수들에 관하여 전개를 수행하는 것이 가능하다.
수학식 2에서 압력 음장(sound field) 기술과 관련하여 음장은 다음과 같이 정의될 수 있다:
Figure 112020015865382-pat00110
여기서 음장 또는 진폭 밀도[12]
Figure 112020015865382-pat00111
는 각파수 및 각 방향
Figure 112020015865382-pat00112
에 의존한다. 음장은 원거리장(far-field)/근거리장(near-field), 불연속/연속 소스들로 이루어질 수 있다[1]. 음장 계수들
Figure 112020015865382-pat00113
는 [1]에 의해 음장 계수들
Figure 112020015865382-pat00114
과 관련될 수 있다:
Figure 112020015865382-pat00115
여기서
Figure 112020015865382-pat00116
는 제2종의 구면 항켈(Hankel) 함수이고
Figure 112020015865382-pat00117
는 원점으로부터의 소스 거리이다.
HOA 도메인의 신호들은 주파수 도메인 또는 시간 도메인에서 음장 또는 음장 계수들의 역 푸리에 변환으로 표현될 수 있다. 이하의 설명은 유한한 수의 음장 계수들:
Figure 112020015865382-pat00118
의 시간 도메인 표현의 사용을 가정할 것이다: 수학식 3에서의 무한 급수는 n = N에서 절단(truncate)된다. 절단은 공간 대역폭 제한에 대응한다. 계수들(또는 HOA 채널들)의 수는 3D에 대해서는
Figure 112020015865382-pat00119
로 주어지고 또는 2D만의 기술(description)들에 대해서는
Figure 112020015865382-pat00120
로 주어진다. 계수들
Figure 112020015865382-pat00121
는 확성기들에 의한 나중의 재생을 위한 하나의 시간 샘플 t의 오디오 정보를 포함한다. 이들은 저장되거나 전송될 수 있고 따라서 데이터 레이트 압축의 대상이다. 계수들의 단일 시간 샘플 t는
Figure 112020015865382-pat00122
요소들을 가진 벡터
Figure 112020015865382-pat00123
:
Figure 112020015865382-pat00124
와 행렬
Figure 112020015865382-pat00125
에 의한 M 시간 샘플들의 블록
Figure 112020015865382-pat00126
에 의해 표현될 수 있다.
음장들의 2차원 표현들은 원형 조화 함수을 이용한 전개에 의해 도출될 수 있다. 이것은
Figure 112020015865382-pat00127
의 고정 경사, 계수들의 상이한 가중 및
Figure 112020015865382-pat00128
계수들(m = ±n)에 대한 감소된 집합을 이용하여 위에 제시된 일반 설명의 특수한 경우이다. 따라서, 이하의 고려 사항들 모두가 2D 표현들에도 적용되고; 이때 용어 "구(sphere)"는 용어 "원(circle)"으로 대체될 필요가 있다.
일 실시예에서, 메타데이터가 계수 데이터와 함께 전송되어, 계수 데이터의 명백한 식별을 가능하게 한다. 전송된 메타데이터를 통하여 또는 주어진 컨텍스트 때문에, 시간 샘플 계수 벡터
Figure 112020015865382-pat00129
를 도출하기 위한 모든 필요한 정보가 주어진다. 게다가, HOA 차수 N 또는
Figure 112020015865382-pat00130
, 및 일 실시예에서 추가로 근거리장 녹음을 나타내기 위한
Figure 112020015865382-pat00131
와 함께 특수한 플래그 중 적어도 하나가 디코더에서 알려져 있다는 것에 유의한다.
다음으로, 확성기들에 대해 HOA 신호들을 렌더링하는 것을 설명한다. 이 섹션은 디코딩 및 일부 수학적 특성들의 기본 원리를 보여준다.
기본 디코딩은, 첫째로, 평면파 확성기 신호들을 가정하고, 둘째로, 스피커들로부터 원점까지의 거리가 무시될 수 있다는 것을 가정한다. 구 방향들
Figure 112020015865382-pat00132
- 여기서
Figure 112020015865382-pat00133
임 - 에 위치해 있는 L개 확성기들에 대해 렌더링되는 HOA 계수들
Figure 112020015865382-pat00134
의 시간 샘플은 [10]에 의해 다음과 같이 기술될 수 있다:
Figure 112020015865382-pat00135
여기서
Figure 112020015865382-pat00136
는 디코드 행렬
Figure 112020015865382-pat00137
및 L개 스피커 신호들의 시간 샘플을 나타낸다. 디코드 행렬은
Figure 112020015865382-pat00138
에 의해 도출될 수 있고 여기서
Figure 112020015865382-pat00139
는 모드 행렬
Figure 112020015865382-pat00140
의 의사 역(pseudo inverse)이다. 모드 행렬
Figure 112020015865382-pat00141
Figure 112020015865382-pat00142
로서 정의되는데,
Figure 112020015865382-pat00143
이고
Figure 112020015865382-pat00144
는 스피커 방향들
Figure 112020015865382-pat00145
의 구면 조화 함수들로 이루어진
Figure 112020015865382-pat00146
이고 여기서
Figure 112020015865382-pat00147
는 공액 복소 전치(에르메트(Hermitian)라고도 알려짐)를 나타낸다.
다음으로, 특이값 분해(SVD)에 의한 행렬의 의사 역을 설명한다. 의사 역을 도출하는 한 가지 보편적인 방법은 먼저 콤팩트한 SVD을 산출하는 것이다:
Figure 112020015865382-pat00148
여기서
Figure 112020015865382-pat00149
는 회전 행렬들로부터 도출되고
Figure 112020015865382-pat00150
Figure 112020015865382-pat00151
는 내림차순의 특이값들
Figure 112020015865382-pat00152
의 대각 행렬이고 여기서
Figure 112020015865382-pat00153
Figure 112020015865382-pat00154
이다. 의사 역은
Figure 112020015865382-pat00155
에 의해 결정되며 여기서
Figure 112020015865382-pat00156
이다.
Figure 112020015865382-pat00157
의 매우 작은 값들을 가진 안 좋은 조건의 행렬들에 대해, 대응하는 역 값들
Figure 112020015865382-pat00158
는 0으로 대체된다. 이것을 절단된 특이값 분해(Truncated Singular Value Decomposition)라고 한다. 보통 0으로 대체될 대응하는 역 값들을 식별하기 위해 가장 큰 특이값 S1에 대한 검출 임계값이 선택된다.
이하에서는, 에너지 보존적 특성을 설명한다. HOA 도메인에서의 신호 에너지는
Figure 112020015865382-pat00159
로 주어지고 공간 도메인에서의 대응하는 에너지는
Figure 112020015865382-pat00160
로 주어진다.
에너지 보존적인 디코더 행렬에 대한 비
Figure 112020015865382-pat00161
는 (실질적으로) 일정하다. 이것은
Figure 112020015865382-pat00162
인 경우에만 달성될 수 있는데, 여기서
Figure 112020015865382-pat00163
는 항등 행렬이고
Figure 112020015865382-pat00164
는 상수이다. 이것은
Figure 112020015865382-pat00165
가 놈-2 조건수(norm-2 condition number)
Figure 112020015865382-pat00166
을 가질 것을 요구한다. 이것은 다시
Figure 112020015865382-pat00167
의 SVD(Singular Value Decomposition)가 동일한 특이값들을 생성할 것을 요구하는데:
Figure 112020015865382-pat00168
이고
Figure 112020015865382-pat00169
이다.
일반적으로, 에너지 보존적인 렌더러 설계가 관련 기술분야에 알려져 있다.
Figure 112020015865382-pat00170
에 대한 에너지 보존적인 디코더 행렬은 [14]에서
Figure 112020015865382-pat00171
로 제안되어 있고 여기서 수학식 13으로부터의
Figure 112020015865382-pat00172
Figure 112020015865382-pat00173
로 되고 따라서 수학식 16에서 탈락될 수 있다. 곱
Figure 112020015865382-pat00174
이고 비
Figure 112020015865382-pat00175
는 1이 된다. 이 설계 방법의 이점은 에너지 보존으로 이는 공간 팬들이 인지되는 소리 강도에서 변동이 없는 균일한 공간 사운드 느낌을 보장한다. 이 설계의 단점은 지향성 정밀도의 손실과 비대칭 비규칙적인 스피커 위치들에 대한 강한 확성기 빔 사이드 로브들이다(도 8-9 참조). 본 발명은 이러한 단점을 극복할 수 있다.
또한 비규칙적인 위치의 스피커들에 대한 렌더러 설계가 관련 기술분야에 알려져 있다: [2]에는, 재생된 지향성에서 고정밀도를 가진 렌더링을 가능하게 하는
Figure 112020015865382-pat00176
Figure 112020015865382-pat00177
에 대한 디코더 설계 방법이 기술되어 있다. 이 설계 방법의 단점은 도출된 렌더러들이 에너지 보존적이지 않다는 점이다(도 10-11 참조).
공간 평활화를 위해 구면 컨볼루션(spherical convolution)이 이용될 수 있다. 이것은 공간 필터링 프로세스, 또는 계수 도메인에서의 윈도잉(windowing)(컨볼루션)이다. 이것의 목적은 사이드 로브들, 소위 패닝 로브들을 최소화시키는 것이다. 최초 HOA 계수
Figure 112020015865382-pat00178
와 구역 계수
Figure 112020015865382-pat00179
의 가중 곱으로 새로운 계수
Figure 112020015865382-pat00180
가 주어진다[5]:
Figure 112020015865382-pat00181
이것은 공간 도메인에서의
Figure 112020015865382-pat00182
에 대한 좌측 컨볼루션과 동등하다[5]. 편리하게 이것은 [5]에서 HOA 계수들
Figure 112020015865382-pat00183
를 다음 수학식 18에 의해 가중시키는 것으로 렌더링/디코딩하는 것에 앞서 확성기 신호들의 지향성 특성들을 평활화하기 위해 이용된다:
Figure 112020015865382-pat00184
여기서 벡터
Figure 112020015865382-pat00185
는 보통 실수 값의 가중 계수들 및 상수 인자
Figure 112020015865382-pat00186
를 포함하는
Figure 112020015865382-pat00187
이다. 평활화의 아이디어는 증가하는 차수 인덱스 n을 가진 HOA 계수들을 약화시키는 것이다. 평활화 가중 계수들
Figure 112020015865382-pat00188
의 잘 알려진 예는 소위
Figure 112020015865382-pat00189
및 동상(inphase) 계수들이다[4]. 첫 번째 것은 디폴트 진폭 빔(사소함,
Figure 112020015865382-pat00190
, 1들만을 가진 길이
Figure 112020015865382-pat00191
의 벡터)을 제공하고, 두 번째 것은 균등하게 분포된 각 전력 및 동상 특징들 풀 사이드 로브 억제를 제공한다.
이하에서는, 개시된 해결책의 추가 상세들 및 실시예들을 설명한다. 우선, 렌더러 아키텍처를 그것의 초기화, 시동 작용 및 프로세스에 관하여 설명한다.
확성기 셋업, 즉, 확성기들의 수 및 청취 위치에 대한 임의의 확성기의 위치가 변할 때마다, 렌더러는 지원되는 HOA 입력 신호들이 가지는 임의의 HOA-차수 N에 대한 디코딩 행렬들의 세트를 결정하기 위해 초기화 프로세스를 수행할 필요가 있다. 또한 스피커와 청취 위치 간의 거리로부터 지연 라인들에 대한 개개의 스피커 지연들
Figure 112020015865382-pat00192
및 스피커 이득들
Figure 112020015865382-pat00193
이 결정된다. 이 프로세스는 아래에 설명한다. 일 실시예에서, 도출된 디코딩 행렬들은 코드 북 내에 저장된다. HOA 오디오 입력 특성들이 변할 때마다, 렌더러 제어 유닛은 현재 유효한 특성들을 결정하고 코드 북으로부터 매칭하는 디코드 행렬을 선택한다. 코드 북 키는 HOA 차수 N 또는, 동등하게,
Figure 112020015865382-pat00194
이다(수학식 6 참조).
렌더링을 위한 데이터 처리의 개략적 단계들을, 렌더러의 처리 블록들의 블록도를 보여주는 도 3을 참고하여 설명한다. 이 블록들은 제1 버퍼(31), 주파수 도메인 필터링 유닛(32), 렌더링 처리 유닛(33), 제2 버퍼(34), L 채널들에 대한 지연 유닛(35), 및 디지털-아날로그 컨버터 및 증폭기(36)이다.
시간 인덱스 t 및
Figure 112020015865382-pat00195
HOA 계수 채널들을 가진 HOA 시간 샘플들
Figure 112020015865382-pat00196
가 먼저 제1 버퍼(31)에 저장되어 블록 인덱스
Figure 112020015865382-pat00197
를 가진 M개 샘플들의 블록들을 형성한다.
Figure 112020015865382-pat00198
의 계수들은 주파수 도메인 필터링 유닛(32)에서 주파수 필터링되어 주파수 필터링된 블록들
Figure 112020015865382-pat00199
를 획득한다. 이 기술은 구형 확성기 소스들의 거리를 보상하고 근거리장 녹음들의 처리를 가능하게 하기 위해 알려져 있다([3] 참조). 주파수 필터링된 블록 신호들
Figure 112020015865382-pat00200
는 렌더링 처리 유닛(33)에서 공간 도메인으로
Figure 112020015865382-pat00201
에 의해 렌더링되는데, 여기서
Figure 112020015865382-pat00202
은 M개 시간 샘플들의 블록들을 가진 L개 채널들의 공간 신호를 나타낸다. 이 신호는 제2 버퍼(34)에서 버퍼링되고 직렬화되어 도 3에서
Figure 112020015865382-pat00203
로 나타내어진, L개 채널들에서 시간 인덱스 t를 가진 단일 시간 샘플들을 형성한다. 이것은 지연 유닛(35)에서 L개 디지털 지연 라인들에 공급되는 직렬 신호이다. 지연 라인들은
Figure 112020015865382-pat00204
샘플들의 지연을 가진 개개의 스피커
Figure 112020015865382-pat00205
에 대한 청취 위치의 상이한 거리들을 보상한다. 원칙적으로, 각 지연 라인은 FIFO((first-in-first-out memory)이다. 그 후, 지연 보상된 신호들(355)은 디지털-아날로그 컨버터 및 증폭기(36)에서 D/A 변환되고 증폭되며, 디지털-아날로그 컨버터 및 증폭기(36)는 L개 확성기들에 공급될 수 있는 신호들(365)을 제공한다. 스피커 이득 보상
Figure 112020015865382-pat00206
은 D/A 변환 전에 또는 아날로그 도메인에서 스피커 채널 증폭을 조정하는 것에 의해 고려될 수 있다.
렌더러 초기화는 다음과 같이 동작한다.
우선, 스피커 수 및 위치들이 알려질 필요가 있다. 초기화의 제1 단계는 새로운 스피커 수 L 및 관련 위치들
Figure 112020015865382-pat00207
을 이용 가능하게 하는 것인데,
Figure 112020015865382-pat00208
이고, 여기서
Figure 112020015865382-pat00209
은 청취 위치에서 스피커
Figure 112020015865382-pat00210
까지의 거리이고, 여기서
Figure 112020015865382-pat00211
은 관련 구면각들이다. 다양한 방법들(예컨대, 스피커 위치들의 수동 입력 또는 테스트 신호를 이용한 자동 초기화)이 적용될 수 있다. 스피커 위치들
Figure 112020015865382-pat00212
의 수동 입력은 사전 정의된 위치 집합들의 선택을 위해 연결된 모바일 장치 또는 장치에 통합된 사용자 인터페이스 등의 적절한 인터페이스를 이용하여 행해질 수 있다. 자동 초기화는
Figure 112020015865382-pat00213
을 도출하기 위해 평가 유닛에 의해 마이크 어레이 및 전용 스피커 테스트 신호들을 이용하여 행해질 수 있다. 최대 거리
Figure 112020015865382-pat00214
Figure 112020015865382-pat00215
에 의해 결정되고, 최소 거리
Figure 112020015865382-pat00216
Figure 112020015865382-pat00217
에 의해 결정된다.
L개 거리들
Figure 112020015865382-pat00218
Figure 112020015865382-pat00219
가 지연 라인 및 이득 보상(35)에 입력된다. 각 스피커 채널에 대한 지연 샘플들의 수
Figure 112020015865382-pat00220
Figure 112020015865382-pat00221
에 의해 결정되며,
Figure 112020015865382-pat00222
는 샘플링 레이트이고 c는 음속이고(20℃의 온도에서
Figure 112020015865382-pat00223
)
Figure 112020015865382-pat00224
는 다음 정수로의 반올림을 나타낸다. 거리
Figure 112020015865382-pat00225
에 대한 스피커 이득들을 보상하기 위해, 확성기 이득들
Figure 112020015865382-pat00226
Figure 112020015865382-pat00227
에 의해 결정되거나, 음향 측정을 이용하여 도출된다.
예컨대, 코드 북에 대한 디코딩 행렬들의 산출은 다음과 같이 동작한다. 일 실시예에서, 디코드 행렬을 생성하는 방법의 개략적 단계들이 도 4에 도시되어 있다. 도 5는, 일 실시예에서, 디코드 행렬을 생성하는 대응 장치의 처리 블록들을 보여준다. 입력들은 스피커 방향들
Figure 112020015865382-pat00228
, 구면 모델링 그리드
Figure 112020015865382-pat00229
및 HOA-차수 N이다.
스피커 방향들
Figure 112020015865382-pat00230
은 구면각들
Figure 112020015865382-pat00231
로서 표현되고, 구면 모델링 그리드
Figure 112020015865382-pat00232
는 구면각들
Figure 112020015865382-pat00233
에 의해 표현될 수 있다. 방향들의 수는 스피커들의 수보다 크게(
Figure 112020015865382-pat00234
) 그리고 HOA 계수들의 수보다 크게(
Figure 112020015865382-pat00235
) 선택된다. 그리드의 방향들은 매우 규칙적인 방식으로 단위 구를 샘플링해야 한다. 적합한 그리드들은 [6], [9]에서 논의되고 [7], [8]에서 찾아볼 수 있다. 그리드
Figure 112020015865382-pat00236
는 한 번 선택된다. 예로서, [6]으로부터의 S = 324개 그리드는 HOA-차수 N = 9까지 디코딩 행렬들에 충분하다. 다른 그리드들이 상이한 HOA 차수들에 대해 사용될 수 있다. HOA-차수 N은
Figure 112020015865382-pat00237
로부터 코드 북을 채우기 위해 점증적으로 선택되며,
Figure 112020015865382-pat00238
는 지원되는 HOA 입력 콘텐츠의 최대 HOA-차수이다.
스피커 방향들
Figure 112020015865382-pat00239
, 구면 모델링 그리드
Figure 112020015865382-pat00240
는 혼합 행렬 형성 블록(Build Mix-Matrix block)(41)에 입력되며, 이 블록은 그의 혼합 행렬
Figure 112020015865382-pat00241
를 생성한다. 구면 모델링 그리드
Figure 112020015865382-pat00242
및 HOA 차수 N은 모드 행렬 형성 블록(Build Mode-Matrix block)(42)에 입력되며, 이 블록은 그의 모드 행렬
Figure 112020015865382-pat00243
를 생성한다. 혼합 행렬
Figure 112020015865382-pat00244
및 모드 행렬
Figure 112020015865382-pat00245
는 디코드 행렬 형성 블록(Build Decode Matrix block)(43)에 입력되며, 이 블록은 그의 디코드 행렬
Figure 112020015865382-pat00246
를 생성한다. 디코드 행렬은 디코드 행렬 평활화 블록(Smooth Decode Matrix block)(44)에 입력되며, 이 블록은 디코드 행렬을 평활화하고 스케일링한다. 추가 상세들은 아래에 제공한다. 디코드 행렬 평활화 블록(44)의 출력은 디코드 행렬
Figure 112020015865382-pat00247
이고, 이 행렬은 관련 키 N(또는 대안적으로
Figure 112020015865382-pat00248
)와 함께 코드 북에 저장된다. 모드 행렬 형성 블록(42)에서는, 구면 모델링 그리드
Figure 112020015865382-pat00249
가 수학식 11과 유사한 모드 행렬
Figure 112020015865382-pat00250
를 형성하기 위해 이용되며, 여기서
Figure 112020015865382-pat00251
Figure 112020015865382-pat00252
이다. 모드 행렬
Figure 112020015865382-pat00253
는 [2]에서
Figure 112020015865382-pat00254
라고 언급된다.
혼합 행렬 형성 블록(41)에서는, 혼합 행렬
Figure 112020015865382-pat00255
가 생성되고
Figure 112020015865382-pat00256
이다. 혼합 행렬
Figure 112020015865382-pat00257
는 [2]에서
Figure 112020015865382-pat00258
라고 언급된다. 혼합 행렬
Figure 112020015865382-pat00259
Figure 112020015865382-pat00260
번째 행은 스피커
Figure 112020015865382-pat00261
에 대한 방향들
Figure 112020015865382-pat00262
로부터의 S개 가상 소스들을 혼합시키는 혼합 이득들로 이루어진다. 일 실시예에서, 벡터 베이스 진폭 패닝(Vector Base Amplitude Panning, VBAP)[11]이 [2]에서와도 같이 이들 혼합 이득들을 도출하는 데 이용된다.
Figure 112020015865382-pat00263
를 도출하는 알고리즘은 다음과 같이 요약된다.
1 0 값들을 갖는
Figure 112020015865382-pat00264
를 생성한다(즉,
Figure 112020015865382-pat00265
를 초기화한다)
2 모든 s = 1 ... S에 대해
3 {
4 단위 반경을 가정하여 위치
Figure 112020015865382-pat00266
를 둘러싸는 3개의 스피커
Figure 112020015865382-pat00267
를 찾고 행렬
Figure 112020015865382-pat00268
- 여기서
Figure 112020015865382-pat00269
- 을 형성한다.
5 데카르트 좌표들에서
Figure 112020015865382-pat00270
을 산출한다.
6 가상 소스 위치들
Figure 112020015865382-pat00271
를 형성한다.
7
Figure 112020015865382-pat00272
- 여기서
Figure 112020015865382-pat00273
- 를 산출한다
8 이득들을 정규화한다:
Figure 112020015865382-pat00274
9
Figure 112020015865382-pat00275
의 요소들을 가진
Figure 112020015865382-pat00276
의 관련 요소들
Figure 112020015865382-pat00277
를 채운다:
Figure 112020015865382-pat00278
10 }
디코드 행렬 형성 블록(43)에서는, 모드 행렬과 전치 혼합 행렬의 행렬 곱의 콤팩트한 특이값 분해가 산출된다. 이것은 본 발명의 중요한 양태이며, 이는 다양한 방식으로 수행될 수 있다. 일 실시예에서, 모드 행렬
Figure 112020015865382-pat00279
와 전치 혼합 행렬
Figure 112020015865382-pat00280
의 행렬 곱의 콤팩트한 특이값 분해
Figure 112020015865382-pat00281
가 다음 식에 따라 산출된다:
Figure 112020015865382-pat00282
대안 실시예에서, 모드 행렬
Figure 112020015865382-pat00283
와 전치 혼합 행렬
Figure 112020015865382-pat00284
의 행렬 곱의 콤팩트한 특이값 분해
Figure 112020015865382-pat00285
가 다음 식에 따라 산출된다:
Figure 112020015865382-pat00286
여기서
Figure 112020015865382-pat00287
는 혼합 행렬
Figure 112020015865382-pat00288
의 의사 역이다.
일 실시예에서,
Figure 112020015865382-pat00289
인 대각 행렬이 생성되는데 여기서 제1 대각 요소는
Figure 112020015865382-pat00290
의 역 대각 요소:
Figure 112020015865382-pat00291
이고, 다음의 대각 요소
Figure 112020015865382-pat00292
Figure 112020015865382-pat00293
- 여기서
Figure 112020015865382-pat00294
는 임계값임 - 인 경우 1의 값으로 설정되고
Figure 112020015865382-pat00295
, 또는
Figure 112020015865382-pat00296
인 경우 0의 값으로 설정된다
Figure 112020015865382-pat00297
.
적당한 임계값
Figure 112020015865382-pat00298
는 대략 0.06인 것으로 밝혀졌다. 예컨대 ±0.01의 범위 또는 ±10% 이내의 작은 편차들은 허용할 수 있다. 그 후 디코드 행렬은 다음과 같이 산출된다:
Figure 112020015865382-pat00299
.
디코드 행렬 평활화 블록(44)에서는, 디코드 행렬이 평활화된다. 종래 기술에 공지된 바와 같이, 디코딩 전에 HOA 계수들에 평활화 계수들을 적용하는 대신에, 그것은 디코드 행렬과 직접 조합될 수 있다. 이것은 하나의 처리 단계, 또는 처리 블록을 각각 절약한다.
Figure 112020015865382-pat00300
확성기들보다 더 많은 계수들을 가진 HOA 콘텐츠(즉
Figure 112020015865382-pat00301
)에 대한 디코더들에 대해서도 양호한 에너지 보존적 특성들을 획득하기 위하여, 적용되는 평활화 계수들
Figure 112020015865382-pat00302
는 HOA 차수 N에 의존하여 선택된다
Figure 112020015865382-pat00303
:
Figure 112020015865382-pat00304
에 대하여,
Figure 112020015865382-pat00305
는 [4]에서와 같이, 차수 N + 1의 르장드르 다항식들의 0들로부터 도출된
Figure 112020015865382-pat00306
계수들에 대응한다.
Figure 112020015865382-pat00307
에 대하여,
Figure 112020015865382-pat00308
의 계수들은 다음과 같이 카이저 윈도우로부터 구성된다:
Figure 112020015865382-pat00309
여기서
Figure 112020015865382-pat00310
이고,
Figure 112020015865382-pat00311
는 2N + 1개 실수 값 요소들을 가진 벡터이다.
요소들은 다음과 같은 카이저 윈도우 공식
Figure 112020015865382-pat00312
에 의해 생성되고, 여기서
Figure 112020015865382-pat00313
는 제1종의 0차 수정된 베셀 함수를 나타낸다. 벡터
Figure 112020015865382-pat00314
Figure 112020015865382-pat00315
의 요소들로부터 구성되고, 여기서 모드 요소
Figure 112020015865382-pat00316
은 HOA 차수 인덱스 n = 0..N에 대해 2n + 1 반복들을 얻고,
Figure 112020015865382-pat00317
는 상이한 HOA-차수 프로그램들 간에 동등한 소리 강도를 유지하기 위한 상수 스케일링 인자이다. 즉, 카이저 윈도우의 사용되는 요소들은 한 번만 사용되는 (N+1)번째 요소부터 시작되며, 반복적으로 사용되는 후속 요소들로 계속된다: (N+2)번째 요소는 3회 사용된다, 등등.
일 실시예에서, 평활화된 디코드 행렬을 스케일링된다. 일 실시예에서, 스케일링은 도 4의 a)에 도시된 바와 같이, 디코드 행렬 평활화 블록(44)에서 수행된다. 다른 실시예에서, 스케일링은 도 4의 b)에 도시된 바와 같이, 행렬 스케일 블록(Scale Matrix block)(45)에서 별개의 단계로서 수행된다.
일 실시예에서, 상수 스케일링 인자는 디코딩 행렬로부터 얻어진다. 특히, 그것은 소위 디코딩 행렬의 프로베니우스 놈(Frobenius norm)에 따라 획득된다:
Figure 112020015865382-pat00318
여기서
Figure 112020015865382-pat00319
는 행렬
Figure 112020015865382-pat00320
(평활화 후)의 행(line)
Figure 112020015865382-pat00321
과 열(column)
Figure 112020015865382-pat00322
의 행렬 요소이다. 정규화된 행렬은
Figure 112020015865382-pat00323
이다.
도 5는, 본 발명의 일 양태에 따라, 오디오 재생을 위한 오디오 음장 표현을 디코딩하는 장치를 보여준다. 이 장치는 디코드 행렬
Figure 112020015865382-pat00324
를 획득하기 위한 디코드 행렬 산출 유닛(140) - 이 디코드 행렬 산출 유닛(140)은 목표 스피커들의 수 L을 획득하기 위한 수단(1x) 및 스피커들의 위치들
Figure 112020015865382-pat00325
를 획득하기 위한 수단, 구면 모델링 그리드
Figure 112020015865382-pat00326
의 위치들을 결정하기 위한 수단(1y) 및 HOA 차수 N을 획득하기 위한 수단(1z)을 포함함 -, 구면 모델링 그리드
Figure 112020015865382-pat00327
의 위치들 및 스피커들의 위치들로부터 혼합 행렬
Figure 112020015865382-pat00328
를 생성하기 위한 제1 처리 유닛(141), 구면 모델링 그리드
Figure 112020015865382-pat00329
및 HOA 차수 N으로부터 모드 행렬
Figure 112020015865382-pat00330
를 생성하기 위한 제2 처리 유닛(142), 모드 행렬
Figure 112020015865382-pat00331
와 에르미트 전치 혼합 행렬
Figure 112020015865382-pat00332
의 곱의 콤팩트한 특이값 분해를
Figure 112020015865382-pat00333
에 따라 수행하기 위한 제3 처리 유닛(143) - 여기서
Figure 112020015865382-pat00334
는 단위 행렬들로부터 도출되고 S는 특이값 요소들을 가진 대각 행렬임 -, 행렬들
Figure 112020015865382-pat00335
로부터
Figure 112020015865382-pat00336
에 따라 제1 디코드 행렬
Figure 112020015865382-pat00337
를 산출하기 위한 산출 수단(144), 및 평활화 계수
Figure 112020015865382-pat00338
를 이용해 제1 디코드 행렬
Figure 112020015865382-pat00339
를 평활화하고 스케일링하기 위한 평활화 및 스케일링 유닛(145) - 여기서 디코드 행렬
Figure 112020015865382-pat00340
가 획득됨 - 을 포함한다. 일 실시예에서, 평활화 및 스케일링 유닛(145)은 제1 디코드 행렬
Figure 112020015865382-pat00341
를 평활화하기 위한 평활화 유닛(1451) - 여기서 평활화된 디코드 행렬
Figure 112020015865382-pat00342
가 획득됨 -, 및 평활화된 디코드 행렬
Figure 112020015865382-pat00343
를 스케일링하기 위한 스케일링 유닛(1452) - 여기서 디코드 행렬
Figure 112020015865382-pat00344
가 획득됨 - 이다.
도 6은 예시적인 16-스피커 셋업에서의 스피커 위치들을 노드 개략도로 보여주는데, 스피커들이 연결된 노드들로서 도시되어 있다. 전경의 연결들은 실선으로서 도시되어 있고, 배경의 연결들은 파선으로 도시되어 있다. 도 7은 16개 스피커들을 가진 동일한 스피커 셋업을 단축법 보기(foreshortening view)로 보여준다.
이하에서는, 도 5 및 6에서의 같은 스피커 셋업을 이용해 얻어지는 예시적인 결과들을 설명한다. 사운드 신호의 에너지 분포와, 특히 비
Figure 112020015865382-pat00345
가 2 구체(모든 테스트 방향)에 dB 단위로 도시된다. 확성기 패닝 빔에 대한 예로서, 중심 스피커 빔(도 6의 스피커 7)이 도시된다. 예를 들어, N=3으로, [14]에서와 같이 설계된 디코더 행렬은 도 8에 도시된 바와 같은 비
Figure 112020015865382-pat00346
를 생성한다. 그것은 거의 완벽한 에너지 보존적 특성들을 제공하는데, 그 이유는 비
Figure 112020015865382-pat00347
가 거의 일정하기 때문이다: 어두운 영역들(하위 체적들에 대응)과 밝은 영역들(상위 체적들에 대응) 간의 차이는 0.01dB 미만이다. 그러나, 도 9에 도시된 바와 같이, 중심 스피커의 대응 패닝 빔은 강한 사이드 로브들을 가진다. 이는 특히 중심에서 벗어난(off-center) 청취자들에 대한 공간 지각을 방해한다. 한편, N=3으로, [2]에서와 같이 설계된 디코더 행렬은 도 9에 도시된 바와 같은 비
Figure 112020015865382-pat00348
를 생성한다. 도 10에 사용되는 스케일에서, 어두운 영역들은 -2dB까지 아래로 하위 체적들에 대응하고 밝은 영역들은 +2dB까지 위로 상위 체적들에 대응한다. 따라서, 비
Figure 112020015865382-pat00349
는 4dB보다 큰 변동들을 보여주는데, 이는 예컨대 일정한 진폭을 가진 상부에서 중심 스피커 위치까지의 공간 팬들이 같은 소리 강도로 인지될 수 없기 때문에 불리하다. 그러나, 도 11에 도시된 바와 같이, 중심 스피커의 대응 패닝 빔은 매우 작은 사이드 로브들을 가지며, 이는 중심에서 벗어난 청취 위치들에 유익하다.
도 12는 용이한 비교를 위해 예시적으로 N=3에 대한, 본 발명에 따른 디코더 행렬로 얻어지는 사운드 신호의 에너지 분포를 보여준다. 비
Figure 112020015865382-pat00350
의 스케일(도 12의 오른쪽에 도시됨)은 범위가 3.15dB에서 3.45dB까지이다. 따라서, 이 비의 변동들은 0.31dB보다 작고, 음장에서의 에너지 분포는 매우 균등하다. 그 결과, 일정한 진폭을 가진 임의의 공간 팬들이 같은 소리 강도로 인지된다. 중심 스피커의 패닝 빔은 도 13에 도시된 바와 같이 매우 작은 사이드 로브들을 가진다. 이것은 사이드 로브들이 잘 들릴 수 있고 따라서 방해가 되는, 중심에서 벗어난 청취 위치들에 유익하다. 따라서, 본 발명은 [14] 및 [2]에서의 종래 기술로 달성할 수 있는 조합된 이점들을 제공하며, 이들 각각의 불리점들은 겪지 않는다.
본 명세서에서 스피커가 언급될 때마다, 확성기와 같은 음 방출 장치를 의미한다는 점에 유의한다.
도면들에서의 순서도 및/또는 블록도들은 본 발명의 다양한 실시예들에 따른 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 가능한 구현들의 구성, 동작 및 기능을 보여준다. 이와 관련하여, 순서도 또는 블록도들 내의 각 블록은, 명시된 논리 기능들을 구현하기 위한 하나 이상의 실행가능 명령어들을 포함하는, 모듈, 세그먼트 또는 코드 부분을 나타낼 수 있다.
또한, 일부 대안의 실시예들에서, 블록에 언급된 기능들은 도면들에 언급된 순서와 다르게 일어날 수 있다는 점에도 유의해야 한다. 예를 들어, 잇따라 도시된 2개의 블록들은, 사실, 실질적으로 동시에 실행될 수도 있고, 또는 그 블록들은 때때로 역순으로 실행될 수도 있고, 또는 블록들은, 관련된 기능에 의존하여, 대안의 순서로 실행될 수도 있다. 또한 블록도들 및/또는 순서도 예시의 각 블록, 및 블록도들 및/또는 순서도 예시의 블록들의 조합들은 명시된 기능들 또는 동작들을 수행하는 특수 목적 하드웨어 기반 시스템들, 또는 특수 목적 하드웨어와 컴퓨터 명령어들의 조합들에 의해 구현될 수 있다는 점에도 유의한다. 명백히 기술되어 있지는 않지만, 본 실시예들은 임의의 조합 또는 부조합으로 이용될 수 있다.
또한, 통상의 기술자라면 알 수 있는 바와 같이, 본 원리들의 양태들은 시스템, 방법 또는 컴퓨터 판독가능 매체로서 구현될 수 있다. 따라서, 본 원리들의 양태들은 전적으로 하드웨어 실시예, 전적으로 소프트웨어 실시예(펌웨어, 상주 소프트웨어, 마이크로-코드, 및 기타를 포함함), 또는 모두 일반적으로 본 명세서에서 "회로", "모듈", 또는 "시스템"이라고 불릴 수 있는 소프트웨어 및 하드웨어 양태들을 조합한 실시예의 모습을 취할 수 있다. 더욱이, 본 원리들의 양태들은 컴퓨터 판독가능 저장 매체의 모습을 취할 수 있다. 하나 이상의 컴퓨터 판독가능 저장 매체(들)의 임의의 조합이 이용될 수 있다. 본 명세서에 사용된 컴퓨터 판독가능 저장 매체는 그것에 정보를 저장하는 고유의 능력뿐만 아니라 그로부터 정보의 검색을 제공하는 고유의 능력이 주어진 비일시적 저장 매체로 간주된다.
또한, 통상의 기술자들은 본 명세서에 제시된 블록도들이 본 발명의 원리들을 구현하는 예시적인 시스템 컴포넌트들 및/또는 회로의 개념적 뷰(conceptual views)를 나타낸다는 것을 알 것이다. 유사하게, 임의의 순서도, 흐름도, 상태 전이도, 의사 코드, 및 기타 같은 종류의 것은 컴퓨터 판독가능 저장 매체에 실질적으로 표현될 수 있고 따라서 컴퓨터 또는 프로세서(이러한 컴퓨터 또는 프로세서가 명시적으로 도시되어 있는지 여부에 관계없이)에 의해 실행될 수 있는 다양한 프로세스들을 나타낸다는 것을 알 것이다.
인용 참고문헌들
Figure 112020015865382-pat00351

Claims (4)

  1. 오디오 재생(audio playback)을 위한 음(sound) 또는 음장(sound field)의 고차 앰비소닉스(Higher-Order Ambisonics; HOA) 표현을 렌더링하는 방법으로서,
    L개의 스피커 및 HOA 차수 N과 관련된 구면 모델링 그리드의 위치들에 기초하여 혼합 행렬
    Figure 112020072903513-pat00352
    를 결정하는 단계;
    상기 구면 모델링 그리드 및 상기 HOA 차수 N에 기초하여 모드 행렬
    Figure 112020072903513-pat00353
    을 결정하는 단계;
    평활화된 디코드 행렬
    Figure 112020072903513-pat00354
    에 기초하여 주파수 도메인으로부터 공간 도메인으로의 상기 음 또는 음장의 HOA 표현의 계수들을 렌더링하는 단계; 및
    확성기 재생(loudspeaker reproduction)을 위한 공간 신호 W를 출력하는 단계 - 상기 공간 신호 W는 상기 음 또는 음장의 HOA 표현의 상기 계수들의 상기 렌더링에 기초하여 결정됨 -
    를 포함하며,
    상기 모드 행렬
    Figure 112020072903513-pat00355
    과 에르미트 전치(Hermitian transposed)된 혼합 행렬
    Figure 112020072903513-pat00356
    의 곱의 콤팩트한 특이값 분해(singular value decomposition)는
    Figure 112020072903513-pat00357
    에 기초하여 결정되고, 여기서
    Figure 112020072903513-pat00358
    ,
    Figure 112020072903513-pat00359
    는 단위 행렬(Unitary matrix)들에 기초하고
    Figure 112020072903513-pat00360
    는 특이값 요소들을 가진 대각 행렬에 기초하고, 제1 디코드 행렬
    Figure 112020072903513-pat00361
    이 상기
    Figure 112020072903513-pat00362
    ,
    Figure 112020072903513-pat00363
    에 기초하여,
    Figure 112020072903513-pat00364
    에 기초하여 결정되고, 여기서
    Figure 112020072903513-pat00365
    는 항등 행렬(identity matrix) 또는 수정된 대각 행렬 중 어느 하나인 절단된(truncated) 콤팩트한 특이값 분해 행렬이고, 상기 수정된 대각 행렬은 임계값 이상인 특이값 요소를 1로 대체하고 상기 임계값 미만인 특이값 요소를 0으로 대체함으로써 특이값 요소들을 가진 상기 대각 행렬에 기초하여 결정되고,
    상기 평활화된 디코드 행렬
    Figure 112020072903513-pat00366
    은 평활화 계수들을 이용해 상기 제1 디코드 행렬
    Figure 112020072903513-pat00367
    을 평활화하고 스케일링하는 것에 기초하여 결정되고,
    렌더링 행렬
    Figure 112020072903513-pat00368
    가 상기 평활화된 디코드 행렬
    Figure 112020072903513-pat00369
    의 프로베니우스 놈(Frobenius norm)에 기초하여 결정되는, 방법.
  2. 제1항에 있어서,
    상기 공간 신호 W를 버퍼링 및 직렬화하는 단계 - 여기서 복수의 채널들에 대한 시간 샘플들 w(t)가 획득됨 -; 및
    지연 라인들에서 상기 채널들 각각에 대해 개별적으로 상기 시간 샘플들 w(t)를 지연시키는 단계 - 여기서 대응하는 디지털 신호들이 획득됨 -
    를 더 포함하고, 상기 지연 라인들은 상이한 확성기 거리들을 보상하는, 방법.
  3. 오디오 재생을 위한 음 또는 음장의 고차 앰비소닉스 표현을 렌더링하는 장치로서,
    상기 음 또는 음장의 HOA 표현의 계수들을 디코딩하도록 구성된 디코더를 포함하고, 상기 디코더는:
    L개의 스피커 및 HOA 차수 N과 관련된 구면 모델링 그리드의 위치들에 기초하여 혼합 행렬
    Figure 112020072903513-pat00370
    를 결정하고, 상기 구면 모델링 그리드 및 상기 HOA 차수 N에 기초하여 모드 행렬
    Figure 112020072903513-pat00371
    을 결정하도록 구성된 처리 유닛을 포함하고,
    상기 장치는,
    평활화된 디코드 행렬
    Figure 112020072903513-pat00372
    에 기초하여 주파수 도메인으로부터 공간 도메인으로의 상기 음 또는 음장의 HOA 표현의 계수들을 렌더링하도록 구성되고, 확성기 재생을 위한 공간 신호 W를 출력하도록 구성된 렌더러 - 상기 공간 신호 W는 상기 음 또는 음장의 HOA 표현의 상기 계수들의 상기 렌더링에 기초하여 결정됨 - 를 포함하며,
    상기 처리 유닛은,
    Figure 112020072903513-pat00373
    에 기초하여, 상기 모드 행렬
    Figure 112020072903513-pat00374
    과 에르미트 전치된 혼합 행렬
    Figure 112020072903513-pat00375
    의 곱의 콤팩트한 특이값 분해를 결정하도록 더 구성되고,
    여기서
    Figure 112020072903513-pat00376
    ,
    Figure 112020072903513-pat00377
    는 단위 행렬들에 기초하고
    Figure 112020072903513-pat00378
    는 특이값 요소들을 가진 대각 행렬에 기초하고, 제1 디코드 행렬
    Figure 112020072903513-pat00379
    이 상기
    Figure 112020072903513-pat00380
    ,
    Figure 112020072903513-pat00381
    에 기초하여,
    Figure 112020072903513-pat00382
    에 기초하여 결정되고,
    여기서
    Figure 112020072903513-pat00383
    는 항등 행렬 또는 수정된 대각 행렬 중 어느 하나인 절단된 콤팩트한 특이값 분해 행렬이고, 상기 수정된 대각 행렬은 임계값 이상인 특이값 요소를 1로 대체하고 상기 임계값 미만인 특이값 요소를 0으로 대체함으로써 특이값 요소들을 가진 상기 대각 행렬에 기초하여 결정되고,
    상기 평활화된 디코드 행렬
    Figure 112020072903513-pat00384
    은 평활화 계수들을 이용해 상기 제1 디코드 행렬
    Figure 112020072903513-pat00385
    을 평활화하고 스케일링하는 것에 기초하여 결정되고,
    렌더링 행렬
    Figure 112020072903513-pat00386
    가 상기 평활화된 디코드 행렬
    Figure 112020072903513-pat00387
    의 프로베니우스 놈에 기초하여 결정되는, 장치.
  4. 컴퓨터로 하여금 오디오 재생을 위한 음 또는 음장의 고차 앰비소닉스 표현을 렌더링하는 방법을 수행하게 하는 실행가능 명령어들이 저장되어 있는 비-일시적 컴퓨터 판독가능 매체로서, 상기 방법은
    L개의 스피커 및 HOA 차수 N과 관련된 구면 모델링 그리드의 위치들에 기초하여 혼합 행렬
    Figure 112020072903513-pat00388
    를 결정하는 단계;
    상기 구면 모델링 그리드 및 상기 HOA 차수 N에 기초하여 모드 행렬
    Figure 112020072903513-pat00389
    을 결정하는 단계;
    평활화된 디코드 행렬
    Figure 112020072903513-pat00390
    에 기초하여 주파수 도메인으로부터 공간 도메인으로의 상기 음 또는 음장의 HOA 표현의 계수들을 렌더링하는 단계; 및
    확성기 재생을 위한 공간 신호 W를 출력하는 단계 - 상기 공간 신호 W는 상기 음 또는 음장의 HOA 표현의 상기 계수들의 상기 렌더링에 기초하여 결정됨 -
    를 포함하며,
    상기 모드 행렬
    Figure 112020072903513-pat00391
    과 에르미트 전치된 혼합 행렬
    Figure 112020072903513-pat00392
    의 곱의 콤팩트한 특이값 분해는
    Figure 112020072903513-pat00393
    에 기초하여 결정되고, 여기서
    Figure 112020072903513-pat00394
    ,
    Figure 112020072903513-pat00395
    는 단위 행렬들에 기초하고
    Figure 112020072903513-pat00396
    는 특이값 요소들을 가진 대각 행렬에 기초하고, 제1 디코드 행렬
    Figure 112020072903513-pat00397
    이 상기
    Figure 112020072903513-pat00398
    ,
    Figure 112020072903513-pat00399
    에 기초하여,
    Figure 112020072903513-pat00400
    에 기초하여 결정되고, 여기서
    Figure 112020072903513-pat00401
    는 항등 행렬 또는 수정된 대각 행렬 중 어느 하나인 절단된 콤팩트한 특이값 분해 행렬이고, 상기 수정된 대각 행렬은 임계값 이상인 특이값 요소를 1로 대체하고 상기 임계값 미만인 특이값 요소를 0으로 대체함으로써 특이값 요소들을 가진 상기 대각 행렬에 기초하여 결정되고,
    상기 평활화된 디코드 행렬
    Figure 112020072903513-pat00402
    은 평활화 계수들을 이용해 상기 제1 디코드 행렬
    Figure 112020072903513-pat00403
    을 평활화하고 스케일링하는 것에 기초하여 결정되고,
    렌더링 행렬
    Figure 112020072903513-pat00404
    가 상기 평활화된 디코드 행렬
    Figure 112020072903513-pat00405
    의 프로베니우스 놈에 기초하여 결정되는, 비-일시적 컴퓨터 판독가능 매체.
KR1020207004422A 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치 KR102201034B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020217000214A KR102479737B1 (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP12305862 2012-07-16
EP12305862.0 2012-07-16
PCT/EP2013/065034 WO2014012945A1 (en) 2012-07-16 2013-07-16 Method and device for rendering an audio soundfield representation for audio playback

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020157000821A Division KR102079680B1 (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020217000214A Division KR102479737B1 (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200019778A KR20200019778A (ko) 2020-02-24
KR102201034B1 true KR102201034B1 (ko) 2021-01-11

Family

ID=48793263

Family Applications (6)

Application Number Title Priority Date Filing Date
KR1020237037407A KR102681514B1 (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
KR1020227044216A KR102597573B1 (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
KR1020157000821A KR102079680B1 (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
KR1020247021931A KR20240108571A (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
KR1020217000214A KR102479737B1 (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
KR1020207004422A KR102201034B1 (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치

Family Applications Before (5)

Application Number Title Priority Date Filing Date
KR1020237037407A KR102681514B1 (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
KR1020227044216A KR102597573B1 (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
KR1020157000821A KR102079680B1 (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
KR1020247021931A KR20240108571A (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
KR1020217000214A KR102479737B1 (ko) 2012-07-16 2013-07-16 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치

Country Status (9)

Country Link
US (9) US9712938B2 (ko)
EP (4) EP4284026A3 (ko)
JP (7) JP6230602B2 (ko)
KR (6) KR102681514B1 (ko)
CN (6) CN104584588B (ko)
AU (5) AU2013292057B2 (ko)
BR (3) BR122020017389B1 (ko)
HK (1) HK1210562A1 (ko)
WO (1) WO2014012945A1 (ko)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9736609B2 (en) 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
US10178489B2 (en) * 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9980074B2 (en) 2013-05-29 2018-05-22 Qualcomm Incorporated Quantization step sizes for compression of spatial components of a sound field
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
EP2879408A1 (en) * 2013-11-28 2015-06-03 Thomson Licensing Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
EP2892250A1 (en) 2014-01-07 2015-07-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of audio channels
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
CN109036441B (zh) * 2014-03-24 2023-06-06 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
CA2949108C (en) * 2014-05-30 2019-02-26 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
HUE039048T2 (hu) * 2014-05-30 2018-12-28 Qualcomm Inc Szimmetria információ megszerzése magasabb rendû ambiszonikus audió renderelõkhöz
EP3860154B1 (en) 2014-06-27 2024-02-21 Dolby International AB Method for decoding a compressed hoa dataframe representation of a sound field.
CN113793618A (zh) 2014-06-27 2021-12-14 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法
US9736606B2 (en) * 2014-08-01 2017-08-15 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
EP3254454B1 (en) * 2015-02-03 2020-12-30 Dolby Laboratories Licensing Corporation Conference searching and playback of search results
WO2016210174A1 (en) 2015-06-25 2016-12-29 Dolby Laboratories Licensing Corporation Audio panning transformation system and method
US12087311B2 (en) 2015-07-30 2024-09-10 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding an HOA representation
EP3329486B1 (en) 2015-07-30 2020-07-29 Dolby International AB Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9961467B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US10070094B2 (en) * 2015-10-14 2018-09-04 Qualcomm Incorporated Screen related adaptation of higher order ambisonic (HOA) content
FR3052951B1 (fr) * 2016-06-20 2020-02-28 Arkamys Procede et systeme pour l'optimisation du rendu sonore de basses frequences d'un signal audio
US11277705B2 (en) 2017-05-15 2022-03-15 Dolby Laboratories Licensing Corporation Methods, systems and apparatus for conversion of spatial audio format(s) to speaker signals
US10182303B1 (en) * 2017-07-12 2019-01-15 Google Llc Ambisonics sound field navigation using directional decomposition and path distance estimation
US10015618B1 (en) * 2017-08-01 2018-07-03 Google Llc Incoherent idempotent ambisonics rendering
CN107820166B (zh) * 2017-11-01 2020-01-07 江汉大学 一种声音对象的动态渲染方法
US10264386B1 (en) * 2018-02-09 2019-04-16 Google Llc Directional emphasis in ambisonics
US11798569B2 (en) * 2018-10-02 2023-10-24 Qualcomm Incorporated Flexible rendering of audio data
CN117499852A (zh) * 2019-07-30 2024-02-02 杜比实验室特许公司 管理在多个扬声器上回放多个音频流
US11558707B2 (en) * 2020-06-29 2023-01-17 Qualcomm Incorporated Sound field adjustment
EP4364436A2 (en) * 2021-06-30 2024-05-08 Telefonaktiebolaget LM Ericsson (publ) Adjustment of reverberation level
CN116582803B (zh) * 2023-06-01 2023-10-20 广州市声讯电子科技股份有限公司 扬声器阵列的自适应控制方法、系统、存储介质及终端

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5889867A (en) * 1996-09-18 1999-03-30 Bauck; Jerald L. Stereophonic Reformatter
US6645261B2 (en) 2000-03-06 2003-11-11 Cargill, Inc. Triacylglycerol-based alternative to paraffin wax
US7949141B2 (en) * 2003-11-12 2011-05-24 Dolby Laboratories Licensing Corporation Processing audio signals with head related transfer function filters and a reverberator
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
AU2010305313B2 (en) * 2009-10-07 2015-05-28 The University Of Sydney Reconstruction of a recorded sound field
TWI444989B (zh) * 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
KR101795015B1 (ko) 2010-03-26 2017-11-07 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
US9271081B2 (en) * 2010-08-27 2016-02-23 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2451196A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data

Also Published As

Publication number Publication date
JP2022153613A (ja) 2022-10-12
JP2015528248A (ja) 2015-09-24
WO2014012945A1 (en) 2014-01-23
US20180367934A1 (en) 2018-12-20
EP4013072B1 (en) 2023-10-11
EP4284026A3 (en) 2024-02-21
CN107071685A (zh) 2017-08-18
KR20240108571A (ko) 2024-07-09
JP2019092181A (ja) 2019-06-13
CN107071686B (zh) 2020-02-14
JP6472499B2 (ja) 2019-02-20
JP6230602B2 (ja) 2017-11-15
EP3629605A1 (en) 2020-04-01
US20230080860A1 (en) 2023-03-16
BR112015001128A2 (pt) 2017-06-27
JP2021185704A (ja) 2021-12-09
US9712938B2 (en) 2017-07-18
US20210258708A1 (en) 2021-08-19
JP2024009944A (ja) 2024-01-23
CN106658342A (zh) 2017-05-10
AU2019201900A1 (en) 2019-04-11
KR20230154111A (ko) 2023-11-07
KR102479737B1 (ko) 2022-12-21
CN104584588B (zh) 2017-03-29
CN107071687A (zh) 2017-08-18
US11451920B2 (en) 2022-09-20
JP7368563B2 (ja) 2023-10-24
CN107071686A (zh) 2017-08-18
HK1210562A1 (en) 2016-04-22
AU2021203484B2 (en) 2023-04-20
KR102597573B1 (ko) 2023-11-02
EP4284026A2 (en) 2023-11-29
EP2873253B1 (en) 2019-11-13
EP2873253A1 (en) 2015-05-20
US12108236B2 (en) 2024-10-01
AU2017203820B2 (en) 2018-12-20
KR20230003380A (ko) 2023-01-05
CN106658343B (zh) 2018-10-19
JP6934979B2 (ja) 2021-09-15
KR20150036056A (ko) 2015-04-07
BR112015001128B1 (pt) 2021-09-08
JP6696011B2 (ja) 2020-05-20
BR122020017389B1 (pt) 2022-05-03
KR102079680B1 (ko) 2020-02-20
US20240040327A1 (en) 2024-02-01
AU2013292057B2 (en) 2017-04-13
US20190349700A1 (en) 2019-11-14
CN107071687B (zh) 2020-02-14
US20150163615A1 (en) 2015-06-11
US10939220B2 (en) 2021-03-02
US10306393B2 (en) 2019-05-28
US11743669B2 (en) 2023-08-29
US9961470B2 (en) 2018-05-01
KR102681514B1 (ko) 2024-07-05
JP7119189B2 (ja) 2022-08-16
EP3629605B1 (en) 2022-03-02
US20180206051A1 (en) 2018-07-19
BR122020017399B1 (pt) 2022-05-03
AU2023203838A1 (en) 2023-07-13
CN106658343A (zh) 2017-05-10
BR112015001128A8 (pt) 2017-12-05
CN104584588A (zh) 2015-04-29
JP2020129811A (ja) 2020-08-27
CN106658342B (zh) 2020-02-14
US10075799B2 (en) 2018-09-11
EP4013072A1 (en) 2022-06-15
AU2013292057A1 (en) 2015-03-05
AU2019201900B2 (en) 2021-03-04
CN107071685B (zh) 2020-02-14
KR20210005321A (ko) 2021-01-13
KR20200019778A (ko) 2020-02-24
US20170289725A1 (en) 2017-10-05
JP2018038055A (ja) 2018-03-08
US20200252737A1 (en) 2020-08-06
US10595145B2 (en) 2020-03-17
AU2017203820A1 (en) 2017-06-22
AU2021203484A1 (en) 2021-06-24

Similar Documents

Publication Publication Date Title
KR102201034B1 (ko) 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant