KR102460817B1 - 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치 - Google Patents

특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR102460817B1
KR102460817B1 KR1020217034751A KR20217034751A KR102460817B1 KR 102460817 B1 KR102460817 B1 KR 102460817B1 KR 1020217034751 A KR1020217034751 A KR 1020217034751A KR 20217034751 A KR20217034751 A KR 20217034751A KR 102460817 B1 KR102460817 B1 KR 102460817B1
Authority
KR
South Korea
Prior art keywords
decoder
matrix
vectors
mode matrix
ambisonics
Prior art date
Application number
KR1020217034751A
Other languages
English (en)
Other versions
KR20210132744A (ko
Inventor
홀거 크롭
스테판 아벨링
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20210132744A publication Critical patent/KR20210132744A/ko
Application granted granted Critical
Publication of KR102460817B1 publication Critical patent/KR102460817B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

특이 값 분해를 이용한 HOA 신호들의 인코딩 및 디코딩은, 음원 방향 값들 및 앰비소닉스 차수에 기초하여 구형 고조파의 대응하는 케트 벡터들
Figure 112021122686215-pat00401
및 인코더 모드 행렬
Figure 112021122686215-pat00402
을 형성(11)하는 것을 포함한다. 오디오 입력 신호
Figure 112021122686215-pat00403
로부터 특이 임계치
Figure 112021122686215-pat00404
가 결정된다. 인코더 모드 행렬에 대해서 특이 값 분해(13)는 임계값과 비교되어, 최종 인코더 모드 행렬 등급
Figure 112021122686215-pat00405
으로 이어지는 관련된 특이 값들을 얻기 위하여 실행된다. 스피커들의 방향 값들
Figure 112021122686215-pat00406
및 디코더 앰비소닉스 차수
Figure 112021122686215-pat00407
에 기초하여, 대응하는 케트 벡터들
Figure 112021122686215-pat00408
및 디코더 모드 행렬
Figure 112021122686215-pat00409
이 형성된다(18). 디코더 모드 행렬에 대해서 특이 값 분해(19)가 실행되어, 최종 디코더 모드 행렬 등급
Figure 112021122686215-pat00410
을 제공한다. 최종 인코더 및 디코더 모드 행렬 등급들로부터, 최종 모드 행렬 등급이 결정되고, 이 최종 모드 행렬 등급과 인코더 측의 특이 값 분해로부터, 인코더 모드 행렬
Figure 112021122686215-pat00411
의 수반 의사 역행렬
Figure 112021122686215-pat00412
및 앰비소닉스 케트 벡터
Figure 112021122686215-pat00413
가 계산된다. 앰비소닉스 케트 벡터의 성분들의 개수는 적응된 앰비소닉스 케트 벡터
Figure 112021122686215-pat00414
를 제공하기 위해 최종 모드 행렬 등급에 따라 감소(16)된다. 적응된 앰비소닉스 케트 벡터, 디코더 측면 특이 값 분해의 출력값들 및 최종 모드 행렬 등급으로부터, 수반 디코더 모드 행렬
Figure 112021122686215-pat00415
이 계산되고, 결과적으로 모든 스피커들에 대한 출력 신호들의 케트 벡터
Figure 112021122686215-pat00416
를 얻는다.

Description

특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치{METHOD AND APPARATUS FOR HIGHER ORDER AMBISONICS ENCODING AND DECODING USING SINGULAR VALUE DECOMPOSITION}
본 발명은 특이 값 분해(Singular Value Decomposition)를 사용하여 고차 앰비소닉스(Higher Order Ambisonics) 인코딩 및 디코딩하기 위한 방법 및 장치에 관한 것이다.
고차 앰비소닉스(HOA)는 3차원 사운드를 나타낸다. 다른 기술은 파면 합성(wave field synthesis)(WFS) 또는 22.2와 같은 채널 기반 접근 방식이다. 채널 기반 방법과는 달리, HOA 표현은 특정 스피커 셋업과는 독립적인 장점을 제공한다. 그러나, 이러한 유연성은 특정한 스피커 셋업에서 HOA 표현의 재생을 위해 요구되는 디코딩 처리가 따른다. 요구되는 스피커들의 개수가 일반적으로 매우 큰 WFS 방식에 비해, HOA는 단지 몇 개의 스피커로 구성된 셋업을 위하여 렌더링될 수도 있다. HOA의 또 다른 장점은, 동일한 표현이 헤드폰에 대해 입체 렌더링 하기 위해 어떠한 변경 없이 사용될 수도 있다는 것이다.
HOA는 절단된 구면 고조파(SH) 팽창에 의해 복합 고조파 평면파 진폭의 공간 밀도의 표현에 기초한다. 각각의 팽창 계수는 시간 도메인 함수로 동일하게 표현될 수 있는 각주파수(angular frequency)의 함수이다. 따라서, 일반성의 손실 없이, 완전한 HOA 음장 표현은 실제로
Figure 112021122686215-pat00001
시간 도메인 함수를 구성하는 것으로 가정할 수 있으며, 여기서,
Figure 112021122686215-pat00002
은 팽창 계수들의 개수를 나타낸다.
이러한 시간 도메인 함수들은 HOA 계수 시퀀스들 또는 다음의 HOA 채널들로서 동일하게 지칭될 것이다. HOA 표현은 HOA 계수를 포함하는 HOA 데이터 프레임들의 시간적 시퀀스로서 표현될 수 있다. HOA 표현의 공간 해상도는 확장의 증가하는 최대 차수
Figure 112021122686215-pat00003
으로 향상된다. 3D의 경우에는 팽창 계수들의 개수
Figure 112021122686215-pat00004
는 차수
Figure 112021122686215-pat00005
으로 2차식으로 증가하는데, 특히,
Figure 112021122686215-pat00006
이다.
복소 벡터 공간
앰비소닉스는 복소 함수들을 처리해야 한다. 따라서, 복소 벡터 공간들에 기초한 표기법이 도입된다. 이는 3차원 'xyz' 좌표계로부터 공지된 진정한 기하학적벡터들을 표현하지 않는 추상적인 복소 벡터들을 연산한다. 대신에, 각각의 복소 벡터는 물리계에서 있을 수 있는 상태를 설명하고, d 성분들
Figure 112021122686215-pat00007
을 갖는 d-차원 공간에서 열 벡터들에 의해 형성되며, 디랙(Dirac)에 따라 이들 열-지향적인 벡터들은
Figure 112021122686215-pat00008
로서 표시되는 케트 벡터들이라 불리운다. d-차원 공간에 있어서, 임의의
Figure 112021122686215-pat00009
는 성분들
Figure 112021122686215-pat00010
및 d 정규 직교 기준 벡터들
Figure 112021122686215-pat00011
에 의해 형성된다.
Figure 112021122686215-pat00012
여기서, d-차원 공간은 정규 'xyz' 3D 공간이 아니다 .
케트 벡터의 공액 복소는 브라 벡터
Figure 112021122686215-pat00013
라 불리운다. 브라 벡터들는 행-기반 디스크립션(row-based description)을 나타내고, 원래의 케트 공간, 브라 공간의 이중 공간을 형성한다.
이러한 디랙 표기법(Dirac notation)은 앰비소닉스 관련된 오디오 시스템을 위한 다음 설명들에 사용될 것이다.
내적(inner product)은 복소 스칼라 값을 초래하는 동일한 차원의 브라 및 케트 벡터에서 구축될 수 있다. 랜덤 벡터
Figure 112021122686215-pat00014
가 정규 직교 벡터 기준에서 자신의 성분들에 의해 설명되는 경우, 특정 베이스, 예를 들어,
Figure 112021122686215-pat00015
로의
Figure 112021122686215-pat00016
의 음향 방사에 대한 특정 성분는 내적으로 주어진다.
Figure 112021122686215-pat00017
두 개의 바 대신에 오직 하나의 바가 브라와 케트 벡터 사이에서 고려된다.
동일한 기준에서 서로 다른 벡터들
Figure 112021122686215-pat00018
Figure 112021122686215-pat00019
에 있어서, 내적은 브라
Figure 112021122686215-pat00020
Figure 112021122686215-pat00021
의 케트로 곱하여 얻어진다,
Figure 112021122686215-pat00022
차원 mxl의 케트와 차원 lxn의 브라 벡터가 외적에 의해 곱해진 경우, m 행들 및 n 열들을 갖는 행렬 A이 얻어진다.
Figure 112021122686215-pat00023
앰비소닉스 행렬들
앰비소닉스-기반 디스크립션은 시변 행렬들로 완벽한 음장을 매핑하는 데 필요한 종속성을 고려한다. 고차 앰비소닉스(HOA) 인코딩 또는 디코딩 행렬들에 있어서, 행들(열들)의 개수는 음원 또는 사운드 싱크로부터 특정 방향들에 관련된다. 인코더측에서, S 음원들의 변형 개수가 고려되며, 여기서, s = l,...,S 이다. 각각의 음원들(s)은 원점으로부터의 개별 거리
Figure 112021122686215-pat00024
, 개별 방향
Figure 112021122686215-pat00025
을 가질 수 있으며, 여기서,
Figure 112021122686215-pat00026
는 z-축으로부터 시작하는 경사 각도를 설명하고,
Figure 112021122686215-pat00027
는 x-축으로부터 시작하는 방위 각도를 설명한다. 대응하는 시간 의존 신호
Figure 112021122686215-pat00028
는 개별 시간 동작(behaviour)을 갖는다.
단순화를 위해서, 방향성의 부분만이 고려된다(반경 의존성은 베셀 함수들에 의해 설명될 것이다). 이후에, 특정 방향
Figure 112021122686215-pat00029
가 열 벡터
Figure 112021122686215-pat00030
에 의해 설명되고, 여기서, n은 앰비소닉스 정도를 나타내고, m은 엠비소닉스 차수 N의 인덱스이다. 대응하는 값은 m = l,...,N 및 n = -m, ...,0, ... , m에서 각각 실행된다,
일반적으로, 특정 HOA 디스크립션은 N에 의존하는 2D 또는 3D 경우에 각각의 케트 벡터
Figure 112021122686215-pat00031
에 대한 성분들
Figure 112021122686215-pat00032
의 개수를 제한한다.
Figure 112021122686215-pat00033
하나 이상의 음원에 있어서, 차수 n의 s 개별 벡터들
Figure 112021122686215-pat00034
이 조합되는 경우 모든 방향들이 포함된다. 이는,
Figure 112021122686215-pat00035
모드 성분들을 포함하는 모드 행렬
Figure 112021122686215-pat00036
로 이어지며, 예를 들어,
Figure 112021122686215-pat00037
의 각각의 열은 특정 방향을 나타낸다.
Figure 112021122686215-pat00038
모든 신호 값들은 각각의 개별 음원 신호
Figure 112021122686215-pat00039
의 시간 의존성을 고려하는 신호 벡터
Figure 112021122686215-pat00040
에서 조합되지만,
Figure 112021122686215-pat00041
공통 샘플율로 샘플링된다.
Figure 112021122686215-pat00042
다음에서, 단순화를 위해,
Figure 112021122686215-pat00043
와 같은 시변 신호들에서, 샘플 번호 k는 더 이상 설명되지 않으며, 즉 무시될 것이다. 이어서,
Figure 112021122686215-pat00044
는 식(8)에 도시된 것처럼 모드 행렬
Figure 112021122686215-pat00045
과 곱해진다. 이는 모든 신호 성분들이 동일한 방향
Figure 112021122686215-pat00046
의 대응하는 열과 선형으로 조합되고, 식(5)에 따라
Figure 112021122686215-pat00047
앰비소닉스 모드 성분들 또는 계수들에 의해 케트 벡터
Figure 112021122686215-pat00048
로 이어진다.
Figure 112021122686215-pat00049
디코더는
Figure 112021122686215-pat00050
스피커 신호들
Figure 112021122686215-pat00051
의 전용 번호에 의해 표시되는 음장
Figure 112021122686215-pat00052
을 재생하는 작업을 한다. 이에 따라, 스피커 모드 행렬
Figure 112021122686215-pat00053
은 구형 고조파 기반 단위 벡터들
Figure 112021122686215-pat00054
{식 (6)과 유사}의 L 분리된 열들, 예를 들어, 각각의 스피커 방향에 대해 하나의 케트로 구성된다.
Figure 112021122686215-pat00055
모드의 개수가 스피커들의 개수와 동일한 이차 행렬들에 있어서,
Figure 112021122686215-pat00056
는 반전된 모드 행렬
Figure 112021122686215-pat00057
에 의해 결정될 수 있다. 행들 및 열들의 개수가 서로 다른 임의의 행렬인 일반적인 경우에, 스피커 신호들
Figure 112021122686215-pat00058
은 의사 역행렬(pseudo inverse)에 의해 결정될 수 있다. 참조: 엠. 에이. 폴레티(M.A. Poletti), "3D 서라운드 사운드 시스템에 대한 구면 고조파 접근 방법", 포럼 어쿠스틱(Forum Acusticum), 부다페스트, 2005. 이때,
Figure 112021122686215-pat00059
의 의사 역행렬
Figure 112021122686215-pat00060
을 사용한다:
Figure 112021122686215-pat00061
인코더 및 디코더측에서 설명되는 음장들은 거의 동일, 즉
Figure 112021122686215-pat00062
것으로 가정한다. 그러나, 스피커 위치들은 음원 위치들과 서로 다를 수 있는데, 예를 들어, 유한 앰비소닉스 차수에 대해서,
Figure 112021122686215-pat00063
에 의해 설명되는 실수값의 음원 신호들과
Figure 112021122686215-pat00064
에 의해 설명되는 스피커 신호들은 서로 다르다. 따라서,
Figure 112021122686215-pat00065
에 대해서
Figure 112021122686215-pat00066
을 맵핑하는 패닝 행렬
Figure 112021122686215-pat00067
가 사용될 수 있다. 이때, 식 (8) 및 (10)으로부터, 인코더 및 디코더의 체인 연산은 다음과 같다.
Figure 112021122686215-pat00068
선형 함수
다음의 방정식을 간단하게 유지하기 위해, 패닝 행렬은 단락 “발명의 내용”까지 무시될 것이다. 요구된 기준 벡터들의 개수가 무한한 경우, 별개의 기준에서 연속된 기준으로 변경할 수 있다. 따라서, 함수
Figure 112021122686215-pat00069
는 모드 성분들 무한한 개수를 갖는 벡터로서 해석될 수 있다. 이는 케트 벡터들로부터 특정 출력 케트 벡터에 결정적 방식으로 매핑을 수행하기 때문에, 수학적 의미에서 '함수'라고 지칭한다. 이는 함수
Figure 112021122686215-pat00070
와 케트
Figure 112021122686215-pat00071
사이의 내적에 의해 설명될 수 있으며, 일반적으로 복소수 c의 결과를 얻는다.
Figure 112021122686215-pat00072
함수가 케트 벡터들의 선형 조합을 보존한다면,
Figure 112021122686215-pat00073
는 '선형 함수'로 지칭한다.
헬미틴(Hermitean) 연산자들에 대한 제한이 존재하는 한, 다음과 같은 특성들이 고려되어야 한다. 헬미틴 연산자들은 항상 다음을 갖는다.
● 실제 고유값들.
● 서로 다른 고유값들에 대한 직교 고유 함수들의 완전 세트.
따라서 모든 함수는 이들 고유 함수들로부터 구축될 수 있다. 참조: 에이취. 보겔(H. Vogel), 씨. 게르슨(C. Gerthsen), 에이취. 오. 크네세르(H.O. Kneser), "물리학(Physik)", 스프링거 출판사(Springer Verlag), 1982. 임의의 함수는 복소 상수
Figure 112021122686215-pat00074
를 갖는 구형 고조파
Figure 112021122686215-pat00075
의 선형 조합으로서 표현될 수 있다.
Figure 112021122686215-pat00076
Figure 112021122686215-pat00077
인덱스들
Figure 112021122686215-pat00078
은 결정론적 방식으로 사용된다. 이것들은 1차원 인덱스
Figure 112021122686215-pat00079
로 대체되고, 인덱스들
Figure 112021122686215-pat00080
은 동일한 크기의 인덱스
Figure 112021122686215-pat00081
로 대체된다. 각각의 하위 공간이 서로 다른
Figure 112021122686215-pat00082
를 갖는 하위 공간에 직교한다는 사실로 인하여, 무한 차원의 공간에서 선형으로 독립적인 정규 직교 단위 벡터들로서 설명될 수 있다.
Figure 112021122686215-pat00083
Figure 112021122686215-pat00084
의 상수 값들은 적분 앞에 설정될 수 있다.
Figure 112021122686215-pat00085
하나의 하위 공간(인덱스
Figure 112021122686215-pat00086
)으로부터 다른 하위 공간(인덱스
Figure 112021122686215-pat00087
)으로의 맵핑은, 고유함수들
Figure 112021122686215-pat00088
Figure 112021122686215-pat00089
이 상호 직교하는 한, 단지 동일한 인덱스들
Figure 112021122686215-pat00090
에 대한 고조파의 적분이 필요하다.
Figure 112021122686215-pat00091
필수적인 관점은, 계속되는 디스크립션으로부터 브라/케트 표기법으로의 변경이 존재하는 경우, 적분 해법은 구형 고조파의 브라 및 케트 디스크립션들 사이에서 내적의 합으로 대체될 수 있다.
일반적으로, 계속되는 기준에 의한 내적은 케트 기반 웨이브 디스크립션
Figure 112021122686215-pat00092
의 이산 표현을 연속되는 표현으로 맵핑하기 위해 사용될 수 있다. 예를 들어,
Figure 112021122686215-pat00093
는 위치 기준(예를 들어, 반경)에서 케트 표현이다
Figure 112021122686215-pat00094
모드 행렬들
Figure 112021122686215-pat00095
Figure 112021122686215-pat00096
의 서로 다른 종류를 보면, 특이 값 분해(SVD)는 행렬들 중 임의의 종류를 처리하는 데 사용된다.
특이 값 분해
특이 값 분해{SVD, 참조: G.H. 골롭, Ch.F. 반 론(Golub, Ch.F. van Loan), "행렬 계산", 존스 홉킨스 대학 출판, 제 3 판, 11. 1996년 10월}는 m 행들 및 n 열들에 의한 임의의 행렬 A를 3개의 행렬들 U, ∑, 및
Figure 112021122686215-pat00097
로 분해할 수 있으며 , 식 (19)을 참조한다. 원래의 형태에 있어서, 행렬들 U 및
Figure 112021122686215-pat00098
은 차원 mxmnxn의 단위 행렬들이다. 이러한 행렬들은 직교되고, 복소 단위 벡터들
Figure 112021122686215-pat00099
Figure 112021122686215-pat00100
을 각각 나타내는 직교 열로부터 구축된다.
복소 공간에서 단위 행렬들은 실제 공간에서 직교 행렬들과 동일하며, 즉 열들은 정규 직교 벡터 기준을 제공한다.
Figure 112021122686215-pat00101
행렬들 U 및 V는 모든 4개의 하위 공간들에 대한 직교 기준을 포함한다.
● U의 제 1의 r 열들 : A의 열 공간
● U의 최종 m - r 열들:
Figure 112021122686215-pat00102
의 널 공간(null space)
● V의 제 1의 r 열들: A의 행 공간
● V의 최종 n - r 열들: A의 널 공간
행렬 Σ은 A의 동작을 특성화하기 위해 사용될 수 있는 모든 특이 값들을 포함한다. 일반적으로, Σ는 r 대각 요소들
Figure 112021122686215-pat00103
까지 갖는 m x n 사각형 대각 행렬이며, 여기서, 등급 r은
Figure 112021122686215-pat00104
의 선형 독립된 열들 및 행들의 개수를 제공한다. 이는 내림 차수로 특이 값들을 포함하며, 예를 들어, 식(20) 및 식(21)에 있어서,
Figure 112021122686215-pat00105
은 최대값을 갖고,
Figure 112021122686215-pat00106
은 최소값을 갖는다.
콤팩트 형태에 있어서, 단지 r 특이 값들, 즉 U의 r 열들 및
Figure 112021122686215-pat00107
의 r 행들은 행렬 A를 재구성하기 위해 요구된다. 행렬들 U, ∑ 및
Figure 112021122686215-pat00108
의 차원들은 원래의 형태와는 다르다. 그러나, ∑ 행렬들은 항상 이차 형태를 갖는다. 이 때, m > n = r에 대해서는,
Figure 112021122686215-pat00109
그리고, n > m = r에 대해서는,
Figure 112021122686215-pat00110
따라서, SVD는 낮은 등급 근사치에 의해 매우 효율적으로 구현될 수 있으며, 위에서 언급한 골롭/반 론 텍스트북을 참조한다. 이러한 근사치는 원래의 행렬을 정확하게 설명하지만, r 등급-1 행렬들까지 포함한다. 디랙(Dirac) 표기법에 의해, 행렬 A는 r 등급-1 외적에 의해 표현될 수 있다.
Figure 112021122686215-pat00111
식(11)에서 인코더 디코더 체인을 볼 때, 행렬
Figure 112021122686215-pat00112
과 같은 인코더에 대한 모드 행렬들뿐만 아니라 행렬 Ψ과 같은 모드 행렬들의 역행렬이 존재하거나, 다른 정교한 디코더 행렬이 고려되어야 한다. 일반적인 행렬 A에 대해서, A의 의사 역행렬
Figure 112021122686215-pat00113
은 정방 행렬 ∑의 반전과 U 및
Figure 112021122686215-pat00114
의 공액 복소 교환을 수행함으로써 SVD로부터 직접 검사될 수 있으며, 그 결과는 다음과 같이 얻어진다.
Figure 112021122686215-pat00115
식(22)의 벡터 기반 디스크립션에 대해서, 의사 역행렬
Figure 112021122686215-pat00116
Figure 112021122686215-pat00117
Figure 112021122686215-pat00118
의 공액 교환을 수행함으로써 얻어지는 반면에, 특이 값들
Figure 112021122686215-pat00119
은 반전되어야 한다. 결과로서 얻어진 의사 역행렬은 다음과 같다.
Figure 112021122686215-pat00120
서로 다른 행렬들의 SVD 기반 분해가 벡터 기반 디스크립션과 조합된다면{참조: 식(8) 및 식(10)}, 인코딩 처리에 대해 얻는다.
Figure 112021122686215-pat00121
그리고, 디코더에 대해서, 의사 역행렬
Figure 112021122686215-pat00122
를 고려할 때{식 (24)},
Figure 112021122686215-pat00123
인코더로부터의 앰비소닉스 음장 디스크립션
Figure 112021122686215-pat00124
이 디코더에 대해
Figure 112021122686215-pat00125
와 거의 동일하고, 차원들
Figure 112021122686215-pat00126
인 것을 가정하면, 입력 신호
Figure 112021122686215-pat00127
및 출력 신호
Figure 112021122686215-pat00128
에 대해서 조합된 식은 다음과 같다.
Figure 112021122686215-pat00129
그러나, 인코더 디코더 체인의 이러한 조합된 디스크립션은 이하에 설명되는 몇 가지의 문제점을 갖는다.
앰비소닉스 행렬들에 미치는 영향
고차 앰비소닉스(HOA) 모드 행렬들 Ξ 및 Ψ 은 음원들의 위치, 또는 스피커들{식(6) 참조} 및 앰비소닉스 순서에 의해 직접 영향을 받는다. 형상이 규칙적인 경우, 즉, 음원 또는 스피커 위치들 사이의 상호 각도 거리들이 거의 동일한 경우, 식(27)이 해결될 수 있다.
그러나, 실제 응용에 있어서, 이는 종종 사실이 아니다. Ξ 및 Ψ의 SVD를 수행하고, 대응하는 행렬 ∑에서 특이 값들을 조사하는 것은 의미가 있는데, 그 이유는 Ξ 및 Ψ의 수치상 연산을 반영하기 때문이다. ∑는 실제 특이 값들을 갖는 양의 값의 행렬이다. 그러나 그럼에도 불구하고, r 특이 값들까지 존재한다 할지라도, 이 값들 사이의 수치상 관계는 음장들의 재생을 위해 매우 중요하며, 그 이유는 디코더 측에서 행렬들의 반전 또는 의사 역행렬을 구축하기 때문이다. 이 연산을 측정하기 위한 적절한 양은 A의 조건 번호이다. 조건 번호 κ(Α)는 가장 작은 특이 값과 가장 큰 특이 값의 비율로서 정의된다.
Figure 112021122686215-pat00130
반전 문제점
불량 조건 행렬들은 큰
Figure 112021122686215-pat00131
를 갖기 때문에 문제가 많다. 반전 또는 의사 역행렬의 경우에, 불량 조건 행렬은 작은 특이 값들
Figure 112021122686215-pat00132
이 매우 지배적이 되는 문제로 이어진다. P.Ch. 한센에 있어서, "등급- 부족 및 개별 불량-제기된 문제: 선형 반전의 수치상 관점들", 산업 및 응용 수학에 대한 협회(SIAM), 1998, 두 가지 기본적인 형태의 문제들은 특이 값들을 감소시키는 방법을 설명함으로써 구별된다(챕터 1.1. 페이지 2~3).
● 등급-부족 문제들, 여기서, 행렬들은 크고 작은 특이 값들의 클러스터 사이의 차이(비-점진적 감소),
● 별개의 불량-제기된 문제들, 여기서, 행렬들의 모든 특이 값들은 평균적으로 제로로 점진적으로 감소, 즉 특이 값들 스펙트럼에서 차이가 없이 감소한다.
인코더 측에서 마이크로폰의 형상뿐만 아니라 디코더 측에서 스피커 형상에 관해서는, 주로 첫 번째로 등급 부족 문제가 발생될 것이다. 그러나, 고객 측에서 모든 가능한 스피커 위치들을 제어하기보다는 기록하는 동안 일부 마이크의 위치들을 변경하기가 쉽다. 특히 디코더 측에서 모드 행렬의 반전 또는 의사 역행렬이 수행되어야 하고, 이는 높은 모드 성분들에 대해 수치상 문제들 및 너무 과중된 값들로 이어진다(상기 언급된 한센 문헌 참조).
신호 관련된 종속성
반전 문제를 감소시키는 것은 예를 들어, 모드 행렬의 등급을 감소시킴으로써, 즉 최소 특이 값들을 회피함으로써, 달성될 수 있다. 그런데, 임계값은 최소 가능한 값
Figure 112021122686215-pat00133
을 위해 사용되어야 한다{참조: 식(20) 및 식(21)}. 이러한 최저 특이 값에 대한 최적 값은 상기 언급한 한센 문헌에 기재되어 있다. 한센은 입력 신호의 특성에 의존하는
Figure 112021122686215-pat00134
을 제안한다(여기서,
Figure 112021122686215-pat00135
에 의해 설명됨). 식(27)에서, 입력 신호가 재생에 영향을 주지만, 신호 종속성은 디코더에서 제어될 수 없다는 것을 알 수 있다.
비-정규 직교 기준을 갖는 문제점
HOA 인코더와 HOA 디코더 사이에 전송된 상태 벡터
Figure 112021122686215-pat00136
는 식들(25 및 26)에 따라 서로 다른 기준으로 각각의 시스템에 설명된다. 그러나, 상태는 정규 직교 기준이 사용되는 경우 변하지 않는다.
그 다음에, 모드 성분들은 하나에서 다른 기준으로 투영될 수 있다. 그래서, 원칙적으로, 각각의 스피커 셋업 또는 음원 디스크립션은 정규 직교 기준 시스템에 구축되어야 하는데, 그 이유는 그들 기준들 사이에서, 벡터의 표현들의 변화, 예를 들어 엠비소닉스에서, 3D 공간에서 2D 하위 공간으로의 변화가 투영될 수 있기 때문이다.
그러나, 기준 벡터들이 거의 선형 종속되는 불량 조건 행렬들을 갖는 셋업들이 종종 존재한다. 그래서, 원칙적으로, 비-정규 직교 기준이 처리되어야 한다. 이는 하나의 하위 공간에서 다른 하위 공간으로 변화를 복잡하게 만들고, 이는 HOA 음장 디스크립션이 서로 다른 스피커 셋업들에 채택되는 경우, 또는 인코더 또는 디코더 측에서 서로 다른 HOA 차수들 및 차원들을 처리하는 것이 바람직한 경우에 필요하다.
저밀도 스피커 세트로의 투영에 대한 전형적인 문제는, 음향 에너지가 스피커 근방에서 높다는 것과 이들 스피커들 사이의 거리가 큰 경우 낮다는 것이다. 그래서, 그에 따라 서로 다른 스피커들 사이의 위치는 에너지의 균형을 유지하는 패닝 함수를 필요로 한다.
상술한 문제들은 본 발명의 처리에 의해 회피될 수 있고, 청구항1에 개시된 발명에 의해 해결된다. 이 방법을 이용하는 장치는 청구항2에 개시되어 있다.
본 발명에 따라, 디코딩 처리에 대한 원래의 기준과 함께 조합된 인코딩 처리에 대한 상호간의 기준은 최저 모드 행렬 등급뿐만 아니라 절단된 특이 값 분해를 고려하여 사용된다. 이중-정규 직교 시스템이 표현되기 때문에, 인코더 및 디코더 행렬들의 곱은 적어도 최저 모드 행렬 등급에 대해 단위 행렬이 유지되는 것이 보장된다.
이는 케트 기반 디스크립션을 이중 공간에 기초한 표현으로 변경함으로써 성취되며, 브라 공간은 상호간의 기준 벡터들을 가지며, 여기서, 모든 벡터는 케트의 수반 행렬(adjoint)이다. 모드 행렬들의 의사 역 수반 행렬을 사용하여 실현된다. '수반 행렬'은 복소 공액 교환을 의미한다.
따라서, 의사 역 수반 행렬은 인코더 측에서 뿐만 아니라 디코더 수반 행렬에서 이미 사용된다. 처리에 있어서, 정규 직교 상호간 기준 벡터들은 기준 변화에 대해 불변이 되도록 하기 위해 사용된다. 또한, 처리의 종류는 입력 신호 의존 영향을 고려하는 것을 허용하여 정규화 과정에서
Figure 112021122686215-pat00137
에 대해 노이즈 감소에 대한 최적의 임계값에 이른다.
원칙적으로, 본 발명의 방법은 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩에 적합하며, 상기 방법은,
- 오디오 입력 신호을 수신하는 단계,
- 음원들의 방향 값들과 상기 오디오 입력 신호의 앰비소닉스 차수에 기초하여, 구형 고조파의 대응하는 케트 벡터들 및 대응하는 인코더 모드 행렬을 형성하는 단계,
- 상기 인코더 모드 행렬에 대해서 특이 값 분해를 실행하는 단계로서, 두 개의 대응하는 인코더 단위 행렬들 및 특이 값들과 관련된 인코더 모드 행렬 등급을 포함하는 대응하는 인코더 대각 행렬이 출력되는, 특이 값 분해를 실행하는 단계,
- 상기 오디오 입력 신호, 상기 특이 값들 및 상기 인코더 모드 행렬 등급으로부터 임계값을 결정하는 단계,
- 상기 특이 값들 중 적어도 하나와 상기 임계값을 비교하여 대응하는 최종 인코더 모드 행렬 등급을 결정하는 단계,
- 스피커들의 방향 값들 및 디코더 앰비소닉스 차수에 기초하여, 상기 방향 값들 및 대응하는 디코더 모드 행렬에 대응하는 방향들에 위치한 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들을 형성하는 단계,
- 상기 디코더 모드 행렬에 대해서 특이 값 분해를 실행하는 단계로서, 두 개의 대응하는 디코더 단위 행렬들, 및 특이 값들을 포함하는 하나의 대응하는 디코더 대각 행렬이 출력되고, 상기 디코더 모드 행렬의 대응하는 최종 등급이 결정되는, 특이 값 분해를 실행하는 단계,
- 상기 최종 인코더 모드 행렬 등급 및 상기 최종 디코더 모드 행렬 등급으로부터 최종 모드 행렬 등급을 결정하는 단계,
- 상기 인코더 단위 행렬들, 상기 인코더 대각 행렬, 및 상기 최종 모드 행렬 등급으로부터, 앰비소닉스 케트 벡터를 결과로서 얻는, 상기 인코더 모드 행렬의 수반 의사 역행렬을 계산하고,
적응된 앰비소닉스 케트 벡터를 제공하기 위해, 상기 최종 모드 행렬 등급에 따라 상기 앰비소닉스 케트 벡터의 성분들의 개수를 감소시키는 단계,
- 상기 적응된 앰비소닉스 케트 벡터, 상기 디코더 단위 행렬들, 상기 디코더 대각 행렬 및 상기 최종 모드 행렬 등급으로부터, 모든 스피커들에 대한 출력 신호들의 케트 벡터를 결과로서 얻는 수반 디코더 모드 행렬을 계산하는 단계를 포함한다.
원칙적으로, 본 발명의 장치는 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩에 적합하며, 상기 장치는,
- 오디오 입력 신호를 수신하도록 적응된 수단,
- 음원들의 방향 값들과 상기 오디오 입력 신호의 앰비소닉스 차수에 기초하여, 구형 고조파의 대응하는 케트 벡터들 및 대응하는 인코더 모드 행렬을 형성하도록 적응된 수단,
- 상기 인코더 모드 행렬에 대해서 특이 값 분해를 실행하도록 구성된 수단으로서, 두 개의 대응하는 인코더 단위 행렬들 및 특이 값들을 포함하는 대응하는 인코더 대각 행렬과, 관련된 인코더 모드 행렬 등급이 출력되는, 특이 값 분해를 실행하도록 구성된 수단,
- 상기 오디오 입력 신호, 상기 특이 값들 및 상기 인코더 모드 행렬 등급으로부터 임계값을 결정하도록 적응된 수단,
- 상기 특이 값들 중 적어도 하나와 상기 임계값을 비교하여 대응하는 최종 인코더 모드 행렬 등급을 결정하도록 적응된 수단,
- 스피커들의 방향 값들 및 디코더 앰비소닉스 차수에 기초하여,상기 방향 값들 및 대응하는 디코더 모드 행렬에 대응하는 방향들에 위치한 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들을 형성하도록 적응된 수단,
- 상기 디코더 모드 행렬에 대해서 특이 값 분해를 실행하도록 적응된 수단으로서, 두 개의 대응하는 디코더 단위 행렬들, 및 특이 값들을 포함하는 하나의 대응하는 디코더 대각 행렬이 출력되고, 상기 디코더 모드 행렬의 대응하는 최종 등급이 결정되는, 특이 값 분해를 실행하도록 적응된 수단,
- 상기 최종 인코더 모드 행렬 등급 및 상기 최종 디코더 모드 행렬 등급으로부터 최종 모드 행렬 등급을 결정하도록 적응된 수단,
- 상기 인코더 단위 행렬들, 상기 인코더 대각 행렬, 및 상기 최종 모드 행렬 등급으로부터, 앰비소닉스 케트 벡터를 결과로서 얻는, 상기 인코더 모드 행렬의 수반 의사 역행렬을 계산하고,
적응된 앰비소닉스 케트 벡터를 제공하기 위해, 상기 최종 모드 행렬 등급에 따라 상기 앰비소닉스 케트 벡터의 성분들의 개수를 감소시키도록 적응된 수단,
- 상기 적응된 앰비소닉스 케트 벡터, 상기 디코더 단위 행렬들, 상기 디코더 대각 행렬 및 상기 최종 모드 행렬 등급으로부터, 모든 스피커들에 대한 출력 신호들의 케트 벡터를 결과로서 얻는 수반 디코더 모드 행렬을 계산하도록 적응된 수단을 포함한다.
본 발명의 유리한 추가적인 실시예들은 각각의 종속 청구항들에 개시된다.
본 발명에 따라, 디코딩 처리에 대한 원래의 기준과 함께 인코딩 처리에 대한 상호간의 기준은 최저 모드 행렬 등급뿐만 아니라 절단된 특이 값 분해를 고려하여 사용된다. 이중-정규 직교 시스템이 표현되기 때문에, 인코더 및 디코더 행렬들의 곱은 최저 모드 행렬 등급에 대해 적어도 단위 행렬이 유지되는 것이 보장된다.
도 1은 SVD에 기초하여 HOA 인코더 및 디코더의 블록도.
도 2는 선형 함수의 패닝을 포함하는 HOA 인코더 및 디코더의 블록도,
도 3은 행렬 패닝을 포함하는 HOA 인코더 및 디코더의 블록도.
도 4는 임계값
Figure 112021122686215-pat00138
을 결정하기 위한 흐름도.
도 5는 감소된 모드 행렬 등급
Figure 112021122686215-pat00139
의 경우에 특이 값들의 재계산과
Figure 112021122686215-pat00140
의 계산을 설명하는 도면.
도 6은 감소된 모드 행렬 등급들
Figure 112021122686215-pat00141
Figure 112021122686215-pat00142
의 경우에 특이 값들의 재계산과 패닝을 사용하거나 사용하지 않고 스피커 신호들
Figure 112021122686215-pat00143
의 계산을 설명하는 도면.
본 발명의 예시적인 실시예들은 첨부한 도면들을 참조하여 설명한다.
도 1에는 인코더 파트와 디코더 파트 모두를 사용하여 SVD에 기초한 본 발명의 HOA 처리를 위한 블록도가 도시되어 있다. 두 파트 모두는 상호간의 기준 벡터들을 생성하기 위해 SVD를 사용한다. 여기서, 공지된 모드 매칭 해법들에 대한 변경, 즉 식(27)에 관련된 변경 사항이 있다.
HOA 인코더
상호간의 기준 벡터들과 작업하기 위하여, 케트 기반 디스크립션이 브라 공간에 대해 변경되는데, 여기서, 모든 벡터는 케트의 헬미틴 공액 또는 수반 행렬이다. 이는 모드 행렬들의 의사 반전을 사용하여 실현된다.
이때, 식(8)에 따라, (이중) 브라 기반 앰비소닉스 벡터는 (이중) 모드 행렬
Figure 112021122686215-pat00144
로 재공식화될 수도 있다.
Figure 112021122686215-pat00145
인코더 측에서 결과로서 얻어진 앰비소닉스 벡터
Figure 112021122686215-pat00146
는 지금 브라 시멘틱 상태(bra semantic)이다. 그러나, 통합된 디스크립션(unified description)이 바람직한데, 예를 들어, 케트 시멘틱으로 복귀하는 것이 바람직하다.
Figure 112021122686215-pat00147
의 의사 반전 대신에,
Figure 112021122686215-pat00148
또는
Figure 112021122686215-pat00149
의 헬미틴 공액(Hermitean conjugate)이 사용된다.
Figure 112021122686215-pat00150
식(24)에 따라,
Figure 112021122686215-pat00151
여기서, 모든 특이 값들은 실수이고,
Figure 112021122686215-pat00152
의 복소 공액은 무시될 수 있다.
이는 앰비소닉스 성분들의 다음 디스크립션으로 이어진다.
Figure 112021122686215-pat00153
음원측에 대한 벡터 기반 디스크립션은
Figure 112021122686215-pat00154
가 역함수
Figure 112021122686215-pat00155
에 의존한다는 것을 나타낸다. 이러한 것이 인코더 측에서 실행된다면, 디코더 측에서 대응하는 이중 기준 벡터들로 변경되어야 한다.
HOA 디코더
디코더가 원래 의사 역함수에 기초하는 경우, 스피커 신호들
Figure 112021122686215-pat00156
을 유도하기 위해 다음 식을 취한다.:
Figure 112021122686215-pat00157
예를 들어, 스피커 신호들은 다음과 같다.
Figure 112021122686215-pat00158
식(22)를 고려하면, 디코더 식은 다음 결과를 얻는다.
Figure 112021122686215-pat00159
따라서, 의사 역함수를 구축하는 대신에, 단지 수반 행렬 연산(adjoint operation)('†'로 표기)이 식(35)에 남게 된다. 이는 보다 적은 산술 연산들이 디코더에서 요구된다는 것을 의미하며, 그 이유는 허수 부분들의 부호를 단지 전환하고, 이러한 전환이 단지 변경된 메모리 액세스의 문제이기 때문이다.
Figure 112021122686215-pat00160
인코더 및 디코더의 앰비소닉스 표현들이 거의 동일, 즉
Figure 112021122686215-pat00161
라고 가정하면, 식(32)에 의해, 완전한 인코더 디코더 체인은 다음 종속성을 얻는다.
Figure 112021122686215-pat00162
Figure 112021122686215-pat00163
실제 시나리오에 있어서, 식(11)로부터의 패닝 행렬
Figure 112021122686215-pat00164
과 유한 앰비소닉스 차수가 고려되어야 한다. 후자는 음장을 설명하기 위해 사용되는 기본 백터들의 선형 조합들의 개수를 제한한다. 또한, 기본 벡터들의 선형 독립성은 수치 라운딩 에러들 또는 측정 에러들과 같은 부가적인 에러 소스들에 의해 영향을 받는다. 실용적인 관점에서, 이는 수치 등급에 의해 무시될 수 있으며(상기 언급한 한센 문헌, 챕터 3.1 참조), 이에 따라, 모든 기본 벡터들은 특정 허용 오차 내에서 선형으로 독립적이 될 수 있다.
노이즈에 대해 보다 강하게 되도록, 입력의 계산된 앰비소닉스 표현과 인코더 케트에 영향을 주는 입력 신호들의 SNR이 고려된다. 그래서, 필요하다면, 즉, 반전되어야 하는 불량 조건 모드 행렬에 대해서,
Figure 112021122686215-pat00165
값은 인코더에서 입력 신호의 SNR에 따라 정규화된다.
인코더의 정규화
정규화는 서로 다른 방식들, 예를 들어, 절단된 SVD를 통해 임계값을 사용하여 실행될 수있다. SVD는 내림 차수로
Figure 112021122686215-pat00166
를 제공하는데, 여기서,
Figure 112021122686215-pat00167
는 저레벨 또는 최고 인덱스(
Figure 112021122686215-pat00168
로 표시)를 가지며, 매우 자주 전환하여 노이즈 효과 및 SNR을 초래하는 성분들을 포함한다{참조: 식(20) 및 식(21) 및 상기 언급한 한센 문헌}. 따라서, 절단 SVD(TSVD)는 모든
Figure 112021122686215-pat00169
값들을 임계값과 비교하고, 임계값
Figure 112021122686215-pat00170
을 초과하는 노이즈 성분들을 무시한다. 이러한 임계값
Figure 112021122686215-pat00171
은 고정될 수 있거나 입력 신호들의 SNR에 따라 최적으로 수정될 수 있다.
하나의 행렬의 트레이스는 모든 대각 행렬 요소들의 합을 의미한다.
TSVD 블록(도 1 내지 도 3의 10, 20, 30)은 다음 과제를 수행한다.
● 모드 행렬 등급
Figure 112021122686215-pat00172
을 계산한다,
● 임계값 이하의 노이즈 성분들을 제거하고 최종 모드 행렬 등급
Figure 112021122686215-pat00173
을 설정한다.
이러한 처리는 복소 행렬들 Ξ 및 Ψ를 다룬다. 그러나, 실수 값
Figure 112021122686215-pat00174
을 정규화하기 위해서는, 이들 행렬들을 직접 사용할 수 없다. 적당한 값은 Ξ와 자신의 수반 행렬
Figure 112021122686215-pat00175
사이의 곱으로부터 얻는다. 그 결과의 행렬은 적절한 특이 값들의 이차 값들과 동일한 실제 대각 고유 값들을 갖는 이차형이다. 행렬
Figure 112021122686215-pat00176
의 트레이스에 의해 설명될 수 있는 모든 고유 값들의 합이 고정된 상태로 유지되는 경우, 시스템의 물리적 성질들은 보존된다. 이는 또한 행렬 Ψ에 적용된다.
Figure 112021122686215-pat00177
따라서, 인코더 측(도 1 내지 도 3의 15, 25, 35)에서 블록
Figure 112021122686215-pat00178
또는 디코더 측(도 1 내지 도 3의 19, 29, 39)에서 블록
Figure 112021122686215-pat00179
은 특이 값들을 변경하여, 정규화 이전 및 이후의
Figure 112021122686215-pat00180
가 보존된다(도 5 및 도 6 참조).
Figure 112021122686215-pat00181
(
Figure 112021122686215-pat00182
에 대해서)의 나머지를 변경하여, 원래의 트레이스와 의도되어 절단된 행렬
Figure 112021122686215-pat00183
을 고정 상태
Figure 112021122686215-pat00184
로 유지한다 .
● 다음 식을 만족하는 상수 값 Δσ 을 계산한다.
Figure 112021122686215-pat00185
정상적인 값과 특이 값들의 감소된 수의 차이를
Figure 112021122686215-pat00186
라고 지칭하면, 그 결과의 값은 다음과 같다.
Figure 112021122686215-pat00187
(41)
● 절단된 행렬
Figure 112021122686215-pat00188
에 대해서 모든 새로운 특이 값들
Figure 112021122686215-pat00189
을 다시 계산한다.
Figure 112021122686215-pat00190
부가적으로, 적당한
Figure 112021122686215-pat00191
{식 (30) 또는 식 (33) 참조}에 대한 기준이 대응하는 SVD-관련된
Figure 112021122686215-pat00192
기준으로 변경되는 경우, 인코더 및 디코더에 대한 단순화가 성취될 수 있으며, 다음 식을 얻는다.
Figure 112021122686215-pat00193
(비고:
Figure 112021122686215-pat00194
Figure 112021122686215-pat00195
가 추가적인 인코더 또는 디코더 인덱스없이 사용되는 경우, 인코더 측 또는/및 디코더 측을 참조한다). 이러한 기준은
Figure 112021122686215-pat00196
의 표준을 유지하기 위해 직교 함수이다. 즉,
Figure 112021122686215-pat00197
대신에 그러한 정규화는 행렬 ∑ 및 V를 필요로 하지만, 행렬 U를 더 이상 필요로 하지 않는
Figure 112021122686215-pat00198
을 사용할 수 있다.
● 등급이 확실하게 감소되는 장점이 있는
Figure 112021122686215-pat00199
기준에서 감소된 케트
Figure 112021122686215-pat00200
를 사용한다.
따라서, 본 발명에 있어서, SVD는 정규 직교 기준과 개별 행렬
Figure 112021122686215-pat00201
Figure 112021122686215-pat00202
의 특이 값들을 수행할 뿐만 아니라, 그들 등급들
Figure 112021122686215-pat00203
을 얻기 위하여 두 측에서 사용될 수 있다.
성분 적응
Ξ의 음원 등급을 고려하거나 임계값 또는 최종 음원 등급에 대하여 대응하는
Figure 112021122686215-pat00204
의 일부를 무시함으로써, 성분들의 개수는 감소될 수 있고, 보다 강력한 인코딩 행렬이 제공될 수 있다. 따라서, 디코더 측에서 성분들의 대응하는 개수에 따라 전송된 앰비소닉스 성분들의 개수의 적응이 실행된다. 보통은 앰비소닉스 차수
Figure 112021122686215-pat00205
에 의존한다. 여기서, 인코더 행렬 Ξ에 대한 SVD 블록으로부터 얻은 최종 모드 행렬 등급
Figure 112021122686215-pat00206
과 디코더 행렬
Figure 112021122686215-pat00207
에 대한 SVD 블록으로부터 얻은 최종 모드 행렬 등급
Figure 112021122686215-pat00208
이 고려되어야 한다. 적응#비교 단계/단(16)에 있어서, 성분들의 개수는 다음과 같이 적응된다.
Figure 112021122686215-pat00209
: 어떤 것도 변하지 않음- 압축 없음,
Figure 112021122686215-pat00210
: 압축, 디코더 행렬
Figure 112021122686215-pat00211
에서
Figure 112021122686215-pat00212
열들을 무시 => 인코더 및 디코더 연산들 감소,
Figure 112021122686215-pat00213
: 압축, 즉 전송 이전에 앰비소닉스 상태 벡터의
Figure 112021122686215-pat00214
성분들 취소, 즉 압축. 인코더 행렬
Figure 112021122686215-pat00215
에서
Figure 112021122686215-pat00216
행들을 무시 => 인코더 및 디코더 연산들 감소.
그 결과는 인코더 측 및 디코더 측에서 사용되는 최종 모드 행렬 등급
Figure 112021122686215-pat00217
Figure 112021122686215-pat00218
Figure 112021122686215-pat00219
중 더 작은 하나이다.
따라서, 인코더와 디코더 사이의 양방향 신호가 다른 측의 등급을 상호 교환하기 위해 존재한다면, 등급 차이들을 사용하여 가능한 압축을 개선하고 인코더 및 디코더에서 연산들의 개수를 감소시킬 수 있다.
패닝 함수들 고려
패닝 함수들
Figure 112021122686215-pat00220
또는 패닝 행렬
Figure 112021122686215-pat00221
의 사용은, 저밀도 및 불규칙한 스피커 셋업들에 대해 야기되는 에너지 분배에 관련된 문제들로 인하여, 식(11)을 참조하여, 이미 앞서 언급했다. 이러한 문제들은 앰비소닉스에서 정규적으로 사용될 수 있는 제한된 차수를 처리한다(앰비소닉스 행렬들에 대한 영향 내지 비-정규 직교 기준에 따른 문제들에 대해 참조).
패닝 행렬
Figure 112021122686215-pat00222
에 대한 요구들과 후속되는 인코딩에 관하여, 일부 음원의 음장이 앰비소닉스 상태 벡터
Figure 112021122686215-pat00223
에 의해 표현되는 양호한 상태에 있다고 가정한다. 그러나, 디코더 측에서, 상태가 어떻게 준비되었는지 정확히 알지 못한다. 즉, 시스템의 현재 상태에 대한 완전한 지식이 없다. 따라서, 상호간의 기준은 식(9) 및 식(8) 사이의 내적을 보존하기 위해 취해진다.
인코더 측에서 미리 의사 반전을 사용하는 것은 다음과 같은 장점을 제공한다.
● 상호간의 기준
Figure 112021122686215-pat00224
의 사용은 인코더와 디코더 기준 사이 양방향 직교성을 만족한다.
● 인코딩/디코딩 체인에서 보다 작은 연산들의 개수,
● SNR 작용에 관한 수치적 관점 개선,
● 단지 선형으로만 독립된 행렬들 대신에 변경된 모드 행렬들에서 정규 직교 열들,
● 기준의 변경의 단순화,
● 등급-1 근사치 사용은, 특히 최종 등급이 낮은 경우, 메모리의 노력을 적게 할 수 있고 연산들의 개수를 감소시킬 수 있다. 일반적으로, M * N 대신에 M × N의 행렬에 대해서, 단지 M + N 연산들만이 요구된다.
● 디코더에서 의사 반전을 피할 수 있기 때문에, 디코더 측에서 적응을 단순화한다.
● 수치적으로 불안정한 σ에 의한 반전 문제들은 피할 수 있다.
도 1에 있어서, 인코더 또는 전송자 측에서, 음원들의 서로 다른 방향 값들
Figure 112021122686215-pat00225
(s = l,...,S) 및 앰비소닉스 차수
Figure 112021122686215-pat00226
(s = l,...,S)는 구형 고조파의 대응하는 케트 벡터들
Figure 112021122686215-pat00227
및 차원
Figure 112021122686215-pat00228
을 갖는 인코더 모드 행렬
Figure 112021122686215-pat00229
을 형성하는 단계 또는 단(11)에 입력된다. 행렬
Figure 112021122686215-pat00230
는 서로 다른 방향들
Figure 112021122686215-pat00231
에 대한 S 음원 신호들을 포함하는 입력 신호 벡터
Figure 112021122686215-pat00232
에 부합하여 생성된다. 따라서, 행렬
Figure 112021122686215-pat00233
은 구면 고조파 케트 벡터들
Figure 112021122686215-pat00234
의 모음이다. 신호
Figure 112021122686215-pat00235
뿐만 아니라 위치가 시간에 따라 변하기 때문에, 연산 행렬
Figure 112021122686215-pat00236
은 동적으로 실행될 수 있다. 이러한 행렬은 음원에 대해 비-정규 직교 기준
Figure 112021122686215-pat00237
을 갖는다. 입력 신호
Figure 112021122686215-pat00238
및 등급 값
Figure 112021122686215-pat00239
으로부터 특정된 특이 임계값
Figure 112021122686215-pat00240
은 단계 또는 단(12)에서 결정된다. 인코더 모드 행렬
Figure 112021122686215-pat00241
및 임계값
Figure 112021122686215-pat00242
은, 단계 또는 단(13)에서 자신의 특이 값들을 얻기 위하여 모드 행렬
Figure 112021122686215-pat00243
에 대한 특이 값 분해를 실행하는 절단 특이 값 분해 TSVD 처리(10)(참조: 특이 값 분해에 관련된 단락)에 제공되고, 이에 의해, 한편으로는 단위 행렬들
Figure 112021122686215-pat00244
Figure 112021122686215-pat00245
Figure 112021122686215-pat00246
특이 값들
Figure 112021122686215-pat00247
을 포함하는 대각 행렬 ∑ 이 출력되고, 다른 한편으로는, 관련된 인코더 모드 행렬 등급
Figure 112021122686215-pat00248
이 결정된다(비고:
Figure 112021122686215-pat00249
Figure 112021122686215-pat00250
의 행렬 ∑로부터 i-번째 특이 값이다).
단계/단(12)에 있어서, 임계값
Figure 112021122686215-pat00251
은 인코더에서 정규화의 단락에 따라 결정된다. 임계값
Figure 112021122686215-pat00252
은 사용된
Figure 112021122686215-pat00253
값들의 개수를 절단된 또는 최종 인코더 모드 행렬 등급
Figure 112021122686215-pat00254
으로 제한할 수 있다. 임계값
Figure 112021122686215-pat00255
은 미리 결정된 값으로 설정될 수 있거나, 입력 신호:
Figure 112021122686215-pat00256
의 신호-대-잡음 비율 SNR로 적응될 수 있으며, 이에 의해, 모든 S 음원 신호들
Figure 112021122686215-pat00257
의 SNR은 샘플 값들의 미리 정해진 개수를 통해 측정된다.
비교 단계 또는 단(14)에 있어서, 행렬 ∑로부터의 특이 값
Figure 112021122686215-pat00258
은 임계값
Figure 112021122686215-pat00259
과 비교되고, 이 비교로부터 절단되거나 최종 인코더 모드 행렬 등급
Figure 112021122686215-pat00260
이 계산되며, 이는 인코더에서 정규화의 단락에 따라
Figure 112021122686215-pat00261
값들의 나머지를 변경한다. 최종 인코더 모드 행렬 등급
Figure 112021122686215-pat00262
은 단계 또는 단(16)에 제공된다.
디코더 측에 대해서, 스피커들의 방향 값들
Figure 112021122686215-pat00263
(l = 1,...,L)로부터, 그리고, 디코더 앰비소닉스 차수
Figure 112021122686215-pat00264
(l = 1,...,L)로부터, 방향들
Figure 112021122686215-pat00265
에서 특정 스피커들에 대한 구형 고조파의 대응하는 케트 벡터들
Figure 112021122686215-pat00266
뿐만 아니라 차원
Figure 112021122686215-pat00267
을 갖는 대응하는 디코더 모드 행렬
Figure 112021122686215-pat00268
은, 블록(17)에서 관련된 신호들의 스피커 위치들에 부합하여, 단계 또는 단(18)에서 결정된다. 인코더 행렬
Figure 112021122686215-pat00269
과 유사하게, 디코더 행렬
Figure 112021122686215-pat00270
은 모든 방향들
Figure 112021122686215-pat00271
에 대한 구면 고조파 케트 벡터
Figure 112021122686215-pat00272
들의 모음이다.
Figure 112021122686215-pat00273
의 연산은 동적으로 실행된다.
단계 또는 단(19)에 있어서, 특이 값 분해 처리는 디코더 모드 행렬
Figure 112021122686215-pat00274
에 대해 실행되고, 그 결과의 단위 행렬들 U 및
Figure 112021122686215-pat00275
뿐만 아니라 대각 행렬 ∑ 은 블록(17)에 제공된다. 또한, 최종 디코더 모드 행렬 등급
Figure 112021122686215-pat00276
은 계산되어 단계/단(16)에 제공된다.
단계 또는 단(16)에 있어서, 최종 모드 행렬 등급
Figure 112021122686215-pat00277
은, 상술한 것처럼, 최종 인코더 모드 행렬 등급
Figure 112021122686215-pat00278
으로부터, 그리고 최종 디코더 모드 행렬 등급
Figure 112021122686215-pat00279
으로부터 결정된다. 최종 모드 행렬 등급
Figure 112021122686215-pat00280
은 단계/단(15) 및 단계/단(17)에 공급된다.
인코더-측 행렬들 Us,
Figure 112021122686215-pat00281
, ∑s, 등급 값
Figure 112021122686215-pat00282
, 최종 모드 행렬 등급 값
Figure 112021122686215-pat00283
및 모든 음원 신호들의 시간 의존 입력 신호 케트 벡터
Figure 112021122686215-pat00284
는, 식(32)을 사용하여,
Figure 112021122686215-pat00285
관련된 입력 값들로부터 그들 인코더 모드 행렬의 수반 의사 역행렬
Figure 112021122686215-pat00286
을 계산하는 단계 또는 단(15)에 제공된다. 이러한 행렬은 차원
Figure 112021122686215-pat00287
과 음원
Figure 112021122686215-pat00288
에 대한 정규 직교 기준을 갖는다. 복소 행렬들 및 그들의 수반 행렬들을 처리할 때, 다음의 식이 고려된다.
Figure 112021122686215-pat00289
단계/단(15)은 대응하는 시간-의존 앰비소닉스 케트 또는 상태 벡터
Figure 112021122686215-pat00290
를 출력하며, 상술한 HOA 인코더의 단락을 참조한다.
단계 또는 단(16)에 있어서,
Figure 112021122686215-pat00291
의 성분들의 개수는, 성분 적응의 단락에서 설명한 것처럼, 전송된 정보의 양을 가능한 감소시키기 위하여, 최종 모드 행렬 등급
Figure 112021122686215-pat00292
을 사용하여 감소되며, 그 결과로서 적응 이후에 시간-의존 앰비소닉스 케트 또는 상태 벡터
Figure 112021122686215-pat00293
가 생성된다.
앰비소닉스 케트 또는 상태 벡터
Figure 112021122686215-pat00294
로부터, 디코더 측의 행렬들
Figure 112021122686215-pat00295
및 모드 행렬
Figure 112021122686215-pat00296
로부터 유도된 등급 값
Figure 112021122686215-pat00297
으로부터, 그리고, 단계/단(16)으로부터의 최종 모드 행렬 등급 값
Figure 112021122686215-pat00298
으로부터, 차원
Figure 112021122686215-pat00299
및 스피커들
Figure 112021122686215-pat00300
에 대한 정규 직교 기준을 갖는 수반 디코더 모드 행렬
Figure 112021122686215-pat00301
이 계산되어, 그 결과로서 모든 스피커들의 시간-의존 출력 신호들의 케트 벡터
Figure 112021122686215-pat00302
가 생성된다(상술한 HOA 디코더의 단락 참조). 디코딩은 특정 스피커 위치들에 의존하는 정규 모드 행렬의 공액 교환에 의해 실행된다.
추가적인 렌더링에 대해서는 특정 패닝 행렬이 사용되어야 한다.
디코더는 단계/단(18, 19 및 17)에 의해 표현된다. 인코더는 다른 단계들/단들에 의해 표현된다.
도 1의 단계들/단들(11 내지 19)은 원칙적으로 도 2의 단계들/단들(21 내지 29)과 도 3의 단계들/단들(31 내지 39)에 각각 대응한다.
도 2에 있어서, 단계 또는 단(211)에서 계산된 인코더 측에 대한 패닝 함수
Figure 112021122686215-pat00303
와, 단계 또는 단(281)에서 계산된 디코더 측에 대한 패닝 함수
Figure 112021122686215-pat00304
(281)는 선형 함수의 패닝을 위해 또한 사용된다. 패닝 함수
Figure 112021122686215-pat00305
는 단계/단(21)에 대한 추가적인 입력 신호이고, 패닝 함수
Figure 112021122686215-pat00306
는 단계/단(28)에 대한 추가적인 입력 신호이다. 이러한 패닝 함수들을 사용하는 이유는 패닝 함수들을 고려하는 상기 단락에서 설명되었다.
도 1과 비교하여, 도 3에서, 패닝 행렬 G는 단계/단(37)의 출력에서 모든 스피커들 중 시간-의존 출력 신호들의 예비 케트 벡터에 대해 패닝 처리(371)를 제어한다. 이는 모든 스피커의 시간-의존 출력 신호의 적응된 케트 벡터
Figure 112021122686215-pat00307
의 결과를 얻는다.
도 4는 인코더 모드 행렬
Figure 112021122686215-pat00308
의 특이 값 분해 SVD 처리(40)에 기초하여 임계값
Figure 112021122686215-pat00309
을 결정하기 위한 처리를 보다 상세히 도시한다. 상기 SVD 처리는 행렬 ∑{
Figure 112021122686215-pat00310
에서
Figure 112021122686215-pat00311
까지 수행하는 대각선의 모든 특이 값들을 내림 차순으로 포함, 식(20) 및 식(21) 참조} 및 행렬 ∑의 등급
Figure 112021122686215-pat00312
을 전달한다.
고정된 임계값이 사용되는 경우{블록(41)}, i = 1에 의해 루프를 시작하여 i =
Figure 112021122686215-pat00313
까지 수행할 수 있는 변수(i)에 의해 제어되는 루프 내에서{블록 (42 및 43)}, 이들
Figure 112021122686215-pat00314
값들 사이의 수량 값 차이가 있는지를 검사한다{블록(45)}. 이러한 차이는 특이 값
Figure 112021122686215-pat00315
의 수량 값이 그 이전 것의 특이 값
Figure 112021122686215-pat00316
의 수량 값보다 상당히 작은 경우, 예를 들어, 1/10보다 작은 경우에 발생하는 것으로 가정한다. 그러한 차이가 검출될 때, 루프는 정지하고 임계값
Figure 112021122686215-pat00317
은 현재 특이 값
Figure 112021122686215-pat00318
으로 설정된다{블록(46)}.
Figure 112021122686215-pat00319
{블록(44)}인 경우, 최저 특이 값
Figure 112021122686215-pat00320
에 도달하고, 루프는 종료하고,
Figure 112021122686215-pat00321
Figure 112021122686215-pat00322
로 설정된다{블록(46)}.
고정된 임계값이 사용되지 않는 경우{블록(41)}, 모든 S 음원 신호들
Figure 112021122686215-pat00323
(= 행렬
Figure 112021122686215-pat00324
)에 대한 T 샘플의 블록은 조사된다{블록(47)}. X에 대한 신호-대- 노이즈 비율(SNR)이 계산되고{블록(48)}, 임계값
Figure 112021122686215-pat00325
Figure 112021122686215-pat00326
로 설정된다[{블록(49)}.
도 5는 단계/단(15, 25, 35) 내에서 감소된 모드 행렬 등급
Figure 112021122686215-pat00327
의 경우에 특이 값들의 재계산과,
Figure 112021122686215-pat00328
의 계산을 도시한다. 도 1 내지 도 3에서 블록(10, 20, 30)으로부터 인코더 대각 행렬
Figure 112021122686215-pat00329
은, 값
Figure 112021122686215-pat00330
을 사용하여 전체 에너지
Figure 112021122686215-pat00331
Figure 112021122686215-pat00332
를 계산하는 단계 또는 단(51)에, 값
Figure 112021122686215-pat00333
을 사용하여 감소된 전체 에너지
Figure 112021122686215-pat00334
를 계산하는 단계 또는 단(52)에, 그리고, 단계 또는 단(54)에 제공된다. 전체 에너지 값과 감소된 전체 에너지 값 사이의 차이 ΔΕ, 값
Figure 112021122686215-pat00335
및 값
Figure 112021122686215-pat00336
은 다음 식을 계산하는 단계 또는 단(53)에 제공된다.
Figure 112021122686215-pat00337
Figure 112021122686215-pat00338
은,
Figure 112021122686215-pat00339
에 의해 설명되는 에너지가 유지되어 그 결과가 물리적으로 이해할 수 있도록 보장하기 위해 필요하다.
인코더 또는 디코더 측에서, 행렬 감소로 인하여 에너지가 감소되는 경우, 그러한 에너지의 손실은 모든 나머지 행렬 요소들에 동일한 방식으로 분배되는 값
Figure 112021122686215-pat00340
에 의해 보상된다. 즉,
Figure 112021122686215-pat00341
.
단계 또는 단(54)은
Figure 112021122686215-pat00342
Figure 112021122686215-pat00343
로부터
Figure 112021122686215-pat00344
을 계산한다.
입력 신호 벡터
Figure 112021122686215-pat00345
에 행렬
Figure 112021122686215-pat00346
이 곱해진다. 이 결과에
Figure 112021122686215-pat00347
을 곱한다. 후자의 곱셈 결과는 케트 벡터
Figure 112021122686215-pat00348
이다.
도 6은 단계/단(17, 27, 37)에서 감소된 모드 행렬 등급
Figure 112021122686215-pat00349
의 경우에 특이 값들의 재계산과, 패닝을 사용하거나 사용하지 않고, 스피커 신호들
Figure 112021122686215-pat00350
의 계산을 도시한다. 도 1 내지 도 3에서 블록(19, 29, 39)으로부터 디코더 대각 행렬
Figure 112021122686215-pat00351
은 값
Figure 112021122686215-pat00352
을 사용하여 전체 에너지
Figure 112021122686215-pat00353
를 계산하는 단계 또는 단(61)에, 값
Figure 112021122686215-pat00354
을 사용하여 감소된 전체 에너지
Figure 112021122686215-pat00355
를 계산하는 단계 또는 단(62)에, 그리고 단계 또는 단(64)에 제공된다. 전체 에너지 값과 감소된 전체 에너지 값 사이의 차이
Figure 112021122686215-pat00356
, 값
Figure 112021122686215-pat00357
및 값
Figure 112021122686215-pat00358
은 다음을 계산하는 단계 또는 단(63)에 제공된다.
Figure 112021122686215-pat00359
단계 또는 단(64)은
Figure 112021122686215-pat00360
Figure 112021122686215-pat00361
로부터
Figure 112021122686215-pat00362
을 계산한다.
케트 벡터
Figure 112021122686215-pat00363
에 행렬
Figure 112021122686215-pat00364
이 곱해진다. 이 결과에 행렬
Figure 112021122686215-pat00365
를 곱한다. 후자의 곱셈 결과는 모든 스피커들의 시간-의존 출력 신호들의 케트 벡터
Figure 112021122686215-pat00366
이다.
본 발명의 처리는 하나의 프로세서 또는 전자 회로에 의해 수행될 수 있거나, 본 발명의 서로 다른 부분에 동작 및/또는 병렬로 동작하는 전자 회로들 또는 여러 프로세서들에 의해 수행될 수 있다.
12, 22, 32: 임계값 결정
16, 26, 36: 적응#비교
211, 281, 371: 패닝 함수

Claims (9)

  1. 고차 앰비소닉스(Higher Order Ambisonics; HOA) 디코딩을 위한 방법으로서,
    라우드스피커들에 대한 구면 고조파들(spherical harmonics)의 상태를 기술하는 벡터들에 관한 정보를 수신하는 단계;
    상기 구면 고조파들의 상태를 기술하는 벡터들을 결정하는 단계 - 상기 벡터들은 특이값 분해(Singular Value Decomposition)에 기초하여 결정되었고, 상기 벡터들은 상기 벡터들에 관련된 정보의 행렬에 기초함 -; 및
    상기 구면 고조파들의 상태를 기술하는 벡터들에 기초하여, 벡터 기반 신호들의 결과적인 HOA 표현을 결정하는 단계
    를 포함하고,
    상기 벡터들에 관련된 정보의 행렬은 음원들(sound sources)의 방향에 기초하여 적응되었고, 상기 행렬은 상기 벡터들에 관련된 다수의 선형 독립 열들 및 행들을 제공하는 등급(rank)에 기초하는
    고차 앰비소닉스 디코딩을 위한 방법.
  2. 제1항에 있어서, 라우드스피커들의 방향 값들(
    Figure 112021122686215-pat00367
    ) 및 디코더 앰비소닉스 차수(
    Figure 112021122686215-pat00368
    )에 관한 정보를 수신하는 단계, 및
    상기 라우드스피커들의 방향 값들(
    Figure 112021122686215-pat00369
    ) 및 상기 디코더 앰비소닉스 차수(
    Figure 112021122686215-pat00370
    )에 기초하여 상기 방향 값들(
    Figure 112021122686215-pat00371
    )에 대응하는 방향들에 위치하는 라우드스피커들에 대한 벡터 및 디코더 모드 행렬(
    Figure 112021122686215-pat00372
    )을 결정하는 단계
    를 더 포함하는 고차 앰비소닉스 디코딩을 위한 방법.
  3. 제2항에 있어서,
    상기 디코더 모드 행렬(
    Figure 112021122686215-pat00373
    )의 특이값 분해에 기초하여 두 개의 대응하는 디코더 단위 행렬들(
    Figure 112021122686215-pat00374
    ,
    Figure 112021122686215-pat00375
    ) 및 상기 디코더 모드 행렬(
    Figure 112021122686215-pat00376
    )의 최종 등급(
    Figure 112021122686215-pat00377
    ) 및 특이 값들을 포함하는 디코더 대각 행렬(
    Figure 112021122686215-pat00378
    )을 결정하는 단계
    를 더 포함하는 고차 앰비소닉스 디코딩을 위한 방법.
  4. 제2항에 있어서, 상기 라우드스피커들에 대한 구면 고조파들의 벡터들(
    Figure 112021122686215-pat00379
    ) 및 상기 디코더 모드 행렬(
    Figure 112021122686215-pat00380
    )은, 선형 연산 및 오디오 입력 신호(
    Figure 112021122686215-pat00381
    ) 내의 소스 위치들을 라우드스피커 출력 신호들의 벡터(
    Figure 112021122686215-pat00382
    ) 내의 라우드스피커들의 위치들에 매핑하는 것을 포함하는 대응하는 패닝 함수(
    Figure 112021122686215-pat00383
    )에 기초하는
    고차 앰비소닉스 디코딩을 위한 방법.
  5. 고차 앰비소닉스(HOA) 디코딩을 위한 장치로서,
    라우드스피커들에 대한 구면 고조파들의 상태를 기술하는 벡터들에 관한 정보를 수신하기 위한 수신기; 및
    구면 고조파들의 상태를 기술하는 벡터들을 결정하도록 구성되는 프로세서 - 상기 벡터들은 특이값 분해에 기초하여 결정되었고, 상기 벡터들은 상기 벡터들에 관련된 정보의 행렬에 기초하며, 상기 프로세서는 상기 구면 고조파들의 상태를 기술하는 벡터들에 기초하여 벡터 기반 신호들의 결과적인 HOA 표현을 결정하도록 추가로 구성됨 -,
    를 포함하고,
    상기 벡터들에 관련된 정보의 행렬은 음원들의 방향에 기초하여 적응되었고, 상기 행렬은 상기 벡터들에 관련된 다수의 선형 독립 열들 및 행들을 제공하는 등급에 기초하는
    고차 앰비소닉스 디코딩을 위한 장치.
  6. 제5항에 있어서, 상기 프로세서는 라우드스피커들의 방향 값들(
    Figure 112021122686215-pat00384
    ) 및 디코더 앰비소닉스 차수(
    Figure 112021122686215-pat00385
    )에 관한 정보를 수신하고, 상기 라우드스피커들의 방향 값들(
    Figure 112021122686215-pat00386
    ) 및 상기 디코더 앰비소닉스 차수(
    Figure 112021122686215-pat00387
    )에 기초하여 상기 방향 값들(
    Figure 112021122686215-pat00388
    )에 대응하는 방향들에 위치하는 라우드스피커들에 대한 벡터 및 디코더 모드 행렬(
    Figure 112021122686215-pat00389
    )을 결정하도록 더 구성되는 고차 앰비소닉스 디코딩을 위한 장치.
  7. 제6항에 있어서, 상기 프로세서는 상기 디코더 모드 행렬(
    Figure 112022041756977-pat00390
    )의 특이값 분해에 기초하여 두 개의 대응하는 디코더 단위 행렬들(
    Figure 112022041756977-pat00391
    ,
    Figure 112022041756977-pat00392
    ) 및 상기 디코더 모드 행렬(
    Figure 112022041756977-pat00393
    )의 최종 등급(
    Figure 112022041756977-pat00394
    ) 및 특이 값들을 포함하는 디코더 대각 행렬(
    Figure 112022041756977-pat00395
    )을 결정하도록 더 구성되는 고차 앰비소닉스 디코딩을 위한 장치.
  8. 제6항에 있어서, 상기 라우드스피커들에 대한 구면 고조파들의 벡터들(
    Figure 112022041756977-pat00396
    ) 및 상기 디코더 모드 행렬(
    Figure 112022041756977-pat00397
    )은, 선형 연산 및 오디오 입력 신호(
    Figure 112022041756977-pat00398
    ) 내의 소스 위치들을 라우드스피커 출력 신호들의 벡터(
    Figure 112022041756977-pat00399
    ) 내의 라우드스피커들의 위치들에 매핑하는 것을 포함하는 대응하는 패닝 함수(
    Figure 112022041756977-pat00400
    )에 기초하는 고차 앰비소닉스 디코딩을 위한 장치.
  9. 컴퓨터 상에서 수행될 때, 제1항에 따른 방법을 수행하는 명령어들을 포함하는, 비일시적 컴퓨터 판독가능 매체상에 저장되는 컴퓨터 프로그램.


KR1020217034751A 2013-11-28 2014-11-18 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치 KR102460817B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP13306629.0 2013-11-28
EP13306629.0A EP2879408A1 (en) 2013-11-28 2013-11-28 Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
PCT/EP2014/074903 WO2015078732A1 (en) 2013-11-28 2014-11-18 Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
KR1020167014251A KR102319904B1 (ko) 2013-11-28 2014-11-18 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167014251A Division KR102319904B1 (ko) 2013-11-28 2014-11-18 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210132744A KR20210132744A (ko) 2021-11-04
KR102460817B1 true KR102460817B1 (ko) 2022-10-31

Family

ID=49765434

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167014251A KR102319904B1 (ko) 2013-11-28 2014-11-18 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치
KR1020217034751A KR102460817B1 (ko) 2013-11-28 2014-11-18 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167014251A KR102319904B1 (ko) 2013-11-28 2014-11-18 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치

Country Status (7)

Country Link
US (3) US9736608B2 (ko)
EP (3) EP2879408A1 (ko)
JP (3) JP6495910B2 (ko)
KR (2) KR102319904B1 (ko)
CN (4) CN107889045A (ko)
HK (3) HK1246554A1 (ko)
WO (1) WO2015078732A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101795015B1 (ko) * 2010-03-26 2017-11-07 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
US9881628B2 (en) * 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio
KR102128281B1 (ko) * 2017-08-17 2020-06-30 가우디오랩 주식회사 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치
JP6920144B2 (ja) * 2017-09-07 2021-08-18 日本放送協会 バイノーラル再生用の係数行列算出装置及びプログラム
US10264386B1 (en) * 2018-02-09 2019-04-16 Google Llc Directional emphasis in ambisonics
CN113115157B (zh) * 2021-04-13 2024-05-03 北京安声科技有限公司 耳机的主动降噪方法及装置、半入耳式主动降噪耳机
CN115938388A (zh) * 2021-05-31 2023-04-07 华为技术有限公司 一种三维音频信号的处理方法和装置
CN117250604B (zh) * 2023-11-17 2024-02-13 中国海洋大学 一种目标反射信号与浅海混响的分离方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013507796A (ja) 2009-10-07 2013-03-04 ザ・ユニバーシティ・オブ・シドニー 記録された音場の再構築
WO2013171083A1 (en) 2012-05-14 2013-11-21 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics signal representation

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202700A (ja) * 1991-04-25 1994-07-22 Japan Radio Co Ltd 音声符号化装置
FR2858512A1 (fr) 2003-07-30 2005-02-04 France Telecom Procede et dispositif de traitement de donnees sonores en contexte ambiophonique
BRPI0608756B1 (pt) * 2005-03-30 2019-06-04 Koninklijke Philips N. V. Codificador e decodificador de áudio de multicanais, método para codificar e decodificar um sinal de áudio de n canais, sinal de áudio de multicanais codificado para um sinal de áudio de n canais e sistema de transmissão
JP2008542807A (ja) * 2005-05-25 2008-11-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャネル信号の予測符号化
EP2137725B1 (en) * 2007-04-26 2014-01-08 Dolby International AB Apparatus and method for synthesizing an output signal
GB0817950D0 (en) 2008-10-01 2008-11-05 Univ Southampton Apparatus and method for sound reproduction
US8391500B2 (en) 2008-10-17 2013-03-05 University Of Kentucky Research Foundation Method and system for creating three-dimensional spatial audio
KR101795015B1 (ko) * 2010-03-26 2017-11-07 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
NZ587483A (en) 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2592846A1 (en) * 2011-11-11 2013-05-15 Thomson Licensing Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2645748A1 (en) * 2012-03-28 2013-10-02 Thomson Licensing Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
KR102681514B1 (ko) * 2012-07-16 2024-07-05 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
US9685163B2 (en) * 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013507796A (ja) 2009-10-07 2013-03-04 ザ・ユニバーシティ・オブ・シドニー 記録された音場の再構築
WO2013171083A1 (en) 2012-05-14 2013-11-21 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics signal representation

Also Published As

Publication number Publication date
EP3075172B1 (en) 2017-12-13
JP6980837B2 (ja) 2021-12-15
WO2015078732A1 (en) 2015-06-04
US10602293B2 (en) 2020-03-24
EP2879408A1 (en) 2015-06-03
HK1246554A1 (zh) 2018-09-07
US10244339B2 (en) 2019-03-26
HK1249323A1 (zh) 2018-10-26
EP3313100B1 (en) 2021-02-24
CN107995582A (zh) 2018-05-04
JP2017501440A (ja) 2017-01-12
EP3075172A1 (en) 2016-10-05
JP2019082741A (ja) 2019-05-30
US9736608B2 (en) 2017-08-15
US20170374485A1 (en) 2017-12-28
CN105981410A (zh) 2016-09-28
CN105981410B (zh) 2018-01-02
HK1248438A1 (zh) 2018-10-12
JP2020149062A (ja) 2020-09-17
JP6707687B2 (ja) 2020-06-10
CN107889045A (zh) 2018-04-06
KR102319904B1 (ko) 2021-11-02
KR20210132744A (ko) 2021-11-04
US20170006401A1 (en) 2017-01-05
CN108093358A (zh) 2018-05-29
JP6495910B2 (ja) 2019-04-03
KR20160090824A (ko) 2016-08-01
EP3313100A1 (en) 2018-04-25
US20190281400A1 (en) 2019-09-12

Similar Documents

Publication Publication Date Title
KR102460817B1 (ko) 특이 값 분해를 사용하여 고차 앰비소닉스 인코딩 및 디코딩하기 위한 방법 및 장치
JP7333855B2 (ja) 高次アンビソニックス信号にダイナミックレンジ圧縮を適用するための方法および装置
CN105580390A (zh) 使用解相关器输入信号的预混音的多声道解相关器、多声道音频解码器、多声道音频编码器、方法和计算机程序
CN114127843B (zh) 用于离散指向性数据的表示、编码和解码的方法、设备和系统
US20230254661A1 (en) Head-related (hr) filters

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant