KR20180024612A - 오디오 신호 처리 방법 및 장치 - Google Patents

오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR20180024612A
KR20180024612A KR1020160111104A KR20160111104A KR20180024612A KR 20180024612 A KR20180024612 A KR 20180024612A KR 1020160111104 A KR1020160111104 A KR 1020160111104A KR 20160111104 A KR20160111104 A KR 20160111104A KR 20180024612 A KR20180024612 A KR 20180024612A
Authority
KR
South Korea
Prior art keywords
signal
sound
audio
binaural
matrix
Prior art date
Application number
KR1020160111104A
Other languages
English (en)
Inventor
서정훈
전상배
오현오
Original Assignee
가우디오디오랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가우디오디오랩 주식회사 filed Critical 가우디오디오랩 주식회사
Priority to KR1020160111104A priority Critical patent/KR20180024612A/ko
Priority to US15/691,682 priority patent/US10262665B2/en
Publication of KR20180024612A publication Critical patent/KR20180024612A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 Ambisonics 신호의 spatial transform에 관한 것으로서, 더욱 상세하게는 Ambisonics 신호의 특정 방향 성분을 증폭하거나 감쇄시키기 위한 오디오 신호 처리 방법 및 장치에 관한 것이다.

Description

오디오 신호 처리 방법 및 장치{A METHOD AND AN APPARATUS FOR PROCESSING AN AUDIO SIGNAL}
본 발명은 오디오 신호를 효과적으로 재생하기 위한 신호 처리 방법 및 장치에 관한 것으로서, 더욱 상세하게는 HMD(Head Mounted Display) 기기를 비롯한 휴대 기기를 위한 몰입형(immersive) 바이노럴 렌더링을 구현하기 위한 오디오 신호 처리 방법 및 장치에 관한 것이다.
HMD에서 immersive audio listening를 하기 위해서 바이노럴 렌더링(binaural rendering) 기술이 필수적이다. 이때, 연산량 및 전력 소모의 제약이 따르는 모바일 디바이스에서, rendering 대상 객체 혹은 채널의 증가로 인한 연산량 및 전력 소모의 부담은 물론이고, 개인 맞춤형으로 제작되지 않은 HRTF 로 인한 개인별 부적응의 문제, HRTF set의 개수 부족 (공간 해상도 부족)에 따른 artifacts, head tracking lag에 따른 성능 저하 및 불편함 등의 문제를 가지고 있다.
본 발명은 상기의 문제점을 해결하기 위해 안출된 것으로, 3D 오디오 장면의 취득 및 그와 연결된 음원의 위치 정보 획득 등의 문제를 해결하고자 하는 목적과 더불어 Cinematic 360 VR 에서의 공간감 불일치, 음상정위 왜곡 등의 문제를 해결하고자 하는 목적을 가지고 있다.
본 발명의 실시예에 따르면, 상기와 같은 과제를 해결하기 위한 Sound Field 취득 및 음원 위치 획득을 위한 방법 및 장치, 그리고 비아노럴 신호처리 방법 및 장치가 제공될 수 있다.
<< Key Ideas >>
1. Cinematic VR의 제작 과정에서 보다 몰입감 있는 경험을 제공하기 위해 오디오 신호를 녹음하는 과정은 매우 중요하다. 개별 sound object만 녹음할 경우 해당 공간의 음향 특성을 반영하기 힘들고, ambience 만 녹음하는 경우 정확한 sound object의 위치를 인지하기 힘든 문제가 있다. 이러한 문제를 해결하기 위해 제작 과정에서 sound object와 ambience를 동시 녹음하여 후처리를 통해 뚜렷한 음상의 위치와 공간감을 동시에 제공할 수 있는 방법이 있다.
2. Cinematic 360 VR 에서 효과적인 immersive spatial audio를 재생하기 위해 제작시 개별 sound object와 ambience를 함께 녹음하여 처리할 수 있다. 이 경우 processing 단에서 sound object와 ambience를 함께 재생하는데, object와 ambience의 에너지 비율 차이에 의해 실제 공간의 음향 특성과 다른 mix가 생길 가능성이 있다.
3. Sound object를 명확히 녹음하기 위해 사용한 마이크 입력신호는 공간의 잔향을 거의 포함하지 않은 직접음 성분만 포함하고 있는 반면, ambience를 녹음하기 위해 사용한 마이크로폰에는 direct sound와 함께 early reflections, late reverberation 등 공간의 잔향이 함께 포함되어 있으므로 ambience마이크 녹음신호를 이용해 실제 녹음한 공간의 음향 특성을 추출하여 이를 processing 단계에서 사용함으로서 실제 공간의 음향 특성을 보다 사실적으로 반영하여 VR에서 몰입감을 보다 높일 수 있다.
4. 앰비소닉 신호에서 오브젝트의 위치에 해당하는 방향의 소리를 감쇄시키거나 증폭시킴으로써, 오브젝트 신호와 HoA 신호를 함께 렌더링하는 경우 중첩되는 직접음에 의한 음상 정위 왜곡 문제를 post-processing 단에서 해결할 수 있다.
본 발명의 실시예에 따르면,
1. 마이크 및 그 어레이를 이용한 sound field를 취득하고 취득된 sound field 와 영상정보를 사용하여 음원의 위치를 효과적으로 연산할 수 있고, 이를 통해 효과적인 바이노럴 렌더링을 할 수 있다.
2. 본 발명의 실시예에 따르면, Cinematic 360 VR 제작시 녹음된 sound object 및 앰비언스 신호를 이용하여 보다 immersive한 렌더링을 할 수 있다.
3. Sound object는 위치 정보를 이용하여 HoA 및 FoA 신호로 변환될 수 있다.
4. 변환된 HoA 및 FoA는 HoA 및 FoA 형태로 변환된 ambience sound와 함께 바이노럴 렌더링되어 immersive binaural rendering을 할 수 있다.
5. 마이크 및 그 어레이를 이용하여 녹음한 sound field에 대해 의도한 방향에 대한 게인값을 조정함으로써 object와 함께 렌더링 할 때 직접음의 중첩으로 인한 렌더링 오류를 해결함으로서 immersive rendering 을 할 수 있다.
도 1은 바이노럴 렌더링 장치의 high level architecture이다.
도 2는 GAUDI Core 의 블록도이다.
도 3은 Natural Binaural Renderer의 블록도이다.
도 4는 구형 마이크 어레이를 이용한 3D Audio Scene 취득 방법에 대한 블록도이다.
도 5는 바이노럴 마이크 어레이를 이용한 3D Audio Scene 취득 방법에 대한 블록도이다.
도 6은 바이노럴 마이크를 이용한 360 audio 렌더링 방법에 대한 블록도이다.
도 7은 정확한 음상정위와 공간감을 제공하기 위한 cinematic 360 VR오디오의 취득, 처리, 생성과정에 대한 블록도이다.
도 8은 Cinematic 360VR오디오에서 취득 신호에 따른 최종 바이노럴 렌더링의 최종 perceptual evaluation의 결과이다.
도 9는 렌더러 호환성을 위한 HoA+object 와 FoA 변환과정 블록도이다.
도 10은 directional gain modification 과정을 나타내는 블록도이다.
도 11은 directional modification matrix 생성을 위한 과정의 블록도이다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가진 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.
도 1은 제안하는 시스템의 high level architecture이다. Audio in으로 audio source 신호가 입력되면, Gaudi core 를 통한 binauralization이 구현되어, 바이노럴 출력신호 L, R이 만들어진다. 이때 신호 L,R은 headphone 청취를 위해 렌더링된 신호들로써, 만일 스테레오 스피커를 통해 출력하는 경우라면 GAUDI outfit 내에 있는 GAUDI XTC (cross talk cancelation)이 구동된 신호가 출력되어야 한다. GAUDI outfit은 reproduction 환경의 transducer 등의 특성에 adaptation하기 위한 프로세싱을 총합적으로 의미한다.
(GAUDI Core)
Audio in source 신호는 모노 혹은 1개의 객체일 수도 있고, 복수의 객체 혹은 복수의 채널 신호일 수 있다. 복수의 객체 혹은 채널 신호인 경우 특별히 설명하지 않으면, 1개의 객체인 경우의 복수회 수행으로 해석할 수 있으므로 이하에서 구별하여 설명하지 않는다. 다만, LR (Late Reverberation)을 처리하는 경우는 여러 객체 혹은 여러 채널에 대해 다운믹스된 1-2개의 신호에 대한 processing으로 대체될 수 있다.
(GAUDI Core Interface)
Gaudi Core에서 바이노럴 렌더링을 수행하기 위해 필요한 Gaudi Core Parameter는 GAUDI Core Interface 모듈에서 생성되어 GAUDI Core로 전송된다. Core Parameter는 렌더링을 위해 필요한 여러가지 파라미터들로써 VOFF coefficient, QTDL parameter, LR 계수, 실시간 음윈 방향 및 위치 정보, 객체 위치정보 등이다. 이 가운데 일부 정보는 초기화 과정에서 결정되어 전송될 수 있고, 어떤 정보는 변경될 때마다 실시간으로 전송될 수 있다.
이와 같은 파라미터 생성을 위해 GAUDI Core Interface는 GAUDI G2A Translator의 출력인 GAUDI audio model, binaural rendering information (bitstream), GAUDI Personalizer의 출력인 GAUDI HRTF, 헤드트래킹을 인식할 수 있는 장치 등 외부 센서나 조이스틱과 같은 컨트롤러의 출력, 혹은 외부의 ambient sound 등 사용자 주변 환경에 대응하여 Real World Analyzer가 생성한 Re-Wo inputs 등을 입력 받는다. 그리고, 그 출력으로 Gaudi Core Parameter를 출력한다.
(GAUDI Format Converter)
GAUDI Format Converter는 다수개의 마이크로폰을 이용해 녹음한 신호(본 발명에서는 상기 신호를 마이크 배열 신호라고 통칭한다)를 객체, 앰비언트와 같은 format으로 변환하는 과정이다. 마이크 배열 신호는 마이크의 종류, 특성에 독립적으로 얻어지기 때문에 마이크로폰 배열의 크기 및 형태, 마이크로폰의 갯수 및 위치 값, 각 마이크로폰의 주파수 특성, 빔 패턴, 마이크로폰 배열의 배치, 비디오 정보 중 적어도 하나를 포함하는 Recording information을 받는다 (상기 정보 중 적어도 일부는 마이크로폰 배열의 모델명, 마이크로폰의 모델명 등을 통해 취득할 수 있으므로 모델명을 recording information으로 수신할 수 있다). 상기 비디오 정보는 음원의 위치정보를 갖는 것을 특징으로 할 수 있다. 상기 Recording information을 바탕으로 GAUDI Format Converter에서는 상기 마이크 배열 신호를 객체 혹은 앰비언트 신호로 변환환다.
- A2B (A-format to B-format Conversion)
A-format 신호는 각 마이크로폰의 게인이나 딜레이를 수정하지 않고 녹음한 raw signal을 의미한다. B-format 신호는 일명 앰비소닉(ambisonics) 신호를 의미하며, 고차 앰비소닉 신호인 경우 HOA 신호 (High Order Ambisonics) 신호라고 부르기도 한다.
A2B 는 마이크 배열 신호를 앰비소닉 신호로 변환해주는 인코딩 matrix이다. 각 마이크로폰의 위치를 구형 좌표계로 나타내면 좌표계 중심으로부터의 거리, 수평각, 수직각으로 나타낼 수 있는데, 이로부터 구면 조화함수 (Spherical Harmnoics)의 기저를 구할 수 있다. 각 기저를 이용해 마이크로폰을 이용해 녹음된 신호는 Spherical Harmonics Domain으로 사상 (projection) 된다. 한 예로 구형 마이크로폰 어레이를 이용해 녹음하는 경우를 들 수 있다. 좌표계의 중심을 마이크로폰 어레이의 중심과 일치시키면 중심으로부터 각 마이크로폰까지 거리는 모두 일정하므로 해당 위치는 수평각과 수직각만으로 표시할 수 있고, 이로부터 구면조화함수의 기저를 계산하여 Spherical Harmonics Domain으로 사상할 수 있다. 마이크로폰을 통해 녹음된 신호는 아래 수식과 같이 표현할 수 있다.
<수학식 1>
Figure pat00001
실제로 추정할 수 있는 앰비소닉 신호는 구형 마이크로폰 어레이에 사용되는 마이크로폰의 개수에 의해 제한된 M차까지만 구할 수 있고, M차 앰비소닉 신호는 K=(M+1) 2개의 신호로 구성된다. 일반적으로 마이크로폰의 개수가 L개라면, 사용할 수 있는 앰비소닉의 최대 차수 M은 floor(sqrt(L))-1 로 정의된다.
수학식 1에서 Y구면 조화함수의 기저함수, B는 해당 기저함수에 해당하는 계수 (coefficient)를 의미하는데, 일반적으로 앰비소닉스 신호를 지칭하는 것은 이 계수값을 지칭하는 것이다. theta는 마이크로폰의 수평각, phi는 수직각을 나타내며, q는 임의로 지정한 마이크로폰의 순번을 나타낸다.
위의 수식을 이산 행렬식으로 나타내면 아래와 같이 나타낼 수 있다.
<수학식 2>
Figure pat00002
T는 Q×K 변환 매트릭스, b는 K길이의 열벡터, s는 Q길이의 열벡터로 각각 아래와 같이 정의할 수 있다.
<수학식 3>
Figure pat00003
결과적으로 우리가 찾고자 하는 앰비소닉 신호 b는 T의 pseudo inverse matrix를 이용하여 아래 수식과 같이 계산할 수 있다. 단, 행렬 T가 정방행렬(square matrix)일 경우 T- 1는 pseudo inverse matrix가 아닌 inverse matrix이다.
<수학식 4>
Figure pat00004
이후 적용되는 B2C과정을 거치기 전, 최종 재생되는 스피커 레이아웃의 거리가 처음 설정한 거리와 다를 경우 Near-Field Compensation을 추가로 적용할 수 있다. 이는 평면파 재생을 가정하고 생성한 HOA 신호에 대해, 재생 스피커 거리가 근거리로 변화함에 따라 저역에서 평면파 대신 구면파로 재생되어 결국 부스팅되는 효과를 제어하기 위함이다.
- Beamforming 된 신호를 채널(object or 유의미한 format)으로 바꾸는 과정
마이크로폰 어레이를 이용할 경우 각 마이크로폰의 gain, delay값을 조정함으로써 특정 방향에 존재하는 음원을 수신할 수 있는 steering이 가능하다. 상기 특정 방향은 음원의 방향이 특징일 수 있다. 이때 음원 취득 시 비디오를 같이 취득한 AV (Audio-Visual) 컨텐츠인 경우, 음원의 방향은 상기 비디오 내 객체의 위치 정보일 수 있다. 최종 재생단에서 사용할 라우드스피커 layout을 고려하여 해당 각도로 steering을 하여 녹음하고 이렇게 녹음된 신호는 추후 다른 후처리없이 청취자로부터 동일 각도에 위치한 라우드스피커의 입력신호로 사용가능하다. beamforming한 각도와 재생시 사용되는 라우드스피커의 각이 일치하지 않는다면 CPP (constant power panning), VBAP (Vector-Based Amplitude Panning) 등의 추가적인 후처리를 통해 개별 라우드스피커의 신호로 사용할 수 있다.
- A format 신호를 object 신호로 format conversion
A format 신호는 각 마이크로폰의 게인이나 딜레이를 수정하지 않고 녹음한 raw signal을 의미한다. 이렇게 각각 녹음된 신호의 선형 조합을 이용하면 post-processing 단계에서 가상적인 steering을 할 수 있다. 상기 선형 조합은 Principal Component Analysis (PCA), Non-negative Matrix Factorization (NMF), Deep Neural Network (DNN) 등으로 얻어 질 수 있다. 각 마이크로폰으로 들어온 신호를 time-frequency domain에서 분석한 후 virtual adaptive steering 을 하여, 녹음된 sound field를 생성해내는 sound object로 변환할 수 있다.
<< Gaudi Core >>
도 2는 코어에 대한 상세 블록도이다. Core는 입력으로 source 오디오 신호를 받고, 이에 대해 바이노럴 렌더링 프로세싱이 완료된 오디오 신호 L, R을 출력한다. 이 때 source 오디오 신호는 일반적인 멀티채널 라우드스피커 신호, 객체 신호 등을 다양한 오디오 신호를 지칭한다. 본 발명에서 오디오 신호는 멀티채널 라우드스피커 신호, 객체 신호, HOA (Higher Order Ambisonics) 계수 신호 등을 포괄하며, 객체 신호는 라우드스피커 신호를 포함한다. 코어는 크게 Natural Binaural Renderer와 Object-based Binaural Renderer로 구분되어 처리된다. Natural Binaural Renderer는 고품질 바이노럴 렌더러로 멀티미디어 컨텐츠와 같이 정지되어 있는 audio scene이나 상대적으로 interactivity가 높지 않은 객체들을 처리하는데 사용된다. 도 1의 Audio input에 따르면 natural audio (studio에서 multichannel configuration 에 맞게 artistic mixing 되어있는 콘텐츠)를 사용하여 렌더링 하거나 중요한 객체를 바이노럴 렌더링 하는데 사용된다.
Object-based Binaural Renderer는 VR 및 AR에 필수적인 요소로 유저 또는 객체가 움직임에 따른 변화에 능동적으로 반응하기 용이한 구조로 되어있다.
Domain Switcher는 각 모듈에 적합한 domain으로 변환해주는 것으로 Forward/Inverse Fast Fourier Transform, Forward/Inverse Discrete Cosine Transform, Analysis/Synthesis QMF filterbank 등이 예가 될 수 있다. Domain Switcher의 입력 신호는 시간 도메인 신호로 한정하지 아니하며, 서브밴드 신호가 입력이 될 수 있다.
도 2의 구조는 다양한 환경에서 효율적인 바이노럴 렌더링을 수행 가능케 한다. 상기 효율성을 얻을 수 있는 예시는 다음과 같다.
매우 많은 객체들이 존재하는 경우 각 객체를 렌더링 하는 것은 매우 비효휼적이다. 이를 위하여 멀리 떨어져 있는 경우나 움직이지 않을 것으로 예상되는 객체는 Natural Binaural Renderer에서 처리하며, 근접해 있거나 움직일 것으로 예상되는 객체는 Object-based Binaural Renderer에서 처리 가능하다.
도 2의 Domain Switcher의 출력은 Subband Audio로 명시되어 있으나 본 발명에서는 각 오디오 신호마다 서로 다른 도메인 신호로 각 렌더러에 전달될 수 있으며, 한 신호가 복수개의 서로 다른 도메인 신호로 변환되어 전달 될 수 있다. 또한 도 2의 Subband Audio는 시간 도메인 신호를 포함한다.
(Pre-processing)
Pre-processing은 입력된 multi-audio 신호를 Gaudi Core가 처리하기 용이한 신호로 Transform하는 연산을 처리한다. 예를 들면 1) 많은 수의 오브젝트 신호를 채널 신호로 pre 렌더링을 수행, 2) 채널 신호를 Ambient 신호와 객체신호로 분리, 3) HOA 계수 신호(B format)를 Ambient 신호와 객체신호로 분리, 4) HOA 계수를 채널 신호로 렌더링 하는 등의 다양한 Transformation이 가능하다. 상기 Pre-processing을 이용하여 특정 객체 신호를 사용자가 원하는 형태로 customization을 할 수 있다. 예를 들면 HOA 계수 신호가 입력 신호인 경우 사용자가 특정 객체 신호의 소리를 감소시키고 싶은 경우 Pre-processing에서 HOA 계수 신호를 객체 신호와 Ambient신호로 변환한 후 해당 특정 객체 신호에 1보다 작은 이득값을 곱함으로써 customization이 가능하다.
Transformation의 실시예로써 입력된 multi-audio 신호(e.g. HOA 신호)를 X, transformation matrix를 T, 새롭게 얻어진 format 신호를 Y라고 하면 다음과 같은 수식으로 얻어질 수 있다.
<수학식 5>
Y = T X
이 때 T matrix는 각 transformation의 cost function을 minimize하는 형태로 얻어진다. 한 실시예로, Y의 entropy를 최소화 시키는 형태가 cost로 정의되어 이를 minimize하는 criterion으로 T matrix가 계산될 수 있으며 (이 경우 Y형태로 표현된 신호는 압축, 전송, 저장에 유리한 신호가 된다), 또 다른 실시예로 Y의 element간 cross-correlation을 cost로 정의되어 이를 minimize하는 criterion으로 T matrix가 계산될 수 있다 (이 경우 Y 신호의 각 element는 직교성이 높아 특성을 추출하거나, 특정 element에만 특별한 처리를 하고자 할 때 유리하다) .
1) Object to Channel (O2C, Pre-renderer) / Object to B format (O2B)
객체 신호의 경우 미리 설정된 스피커 레이아웃을 갖는 채널 신호들에 분배함으로써 가능하다. 객체 신호의 위치 근방에 존재하는 스피커 채널 신호들에 이득값을 반영하여 분배할 수 있으며 실시 예로써 VBAP 와 같은 방법으로 변환 가능하다.
2) Channel to Object (C2O) & 3) HOA to Object (B2O)
Channel 신호에서 Object신호로 변환하기 위하여 Blind source separation 기법들이 적용 될 수 있다. 상기 Blind source separation 기법의 실시 예로 Principal Component Analysis (PCA), Non-negative Matrix Factorization (NMF), Deep Neural Network (DNN) 등이 사용될 수 있다. 또한 변환 과정에서 채널 또는 HOA 신호를 Object 신호와 Ambient신호의 합으로 근사할 수 있다. 이 때 Ambient 신호는 효율적인 계산을 위하여 연산량 효율적인 바이노럴 렌더링을 수행할 수 있다.
또 다른 실시예로써 변환 과정에서 비 오디오 신호의 정보를 이용할 수 있다. 실시 예로 360 비디오를 캡쳐하고 있는 경우 특정 객체의 위치를 얻어낼 수 있으며, 이를 바탕으로 상기 수학식 5의 변환 매트릭스 T를 얻어 낼 수 있다. 상기 변환 매트릭스는 특정 객체의 위치에 따른 근사화된 수식으로 얻어 질 수 있으며, 상기 근사화 된 수식은 미리 메모리에 로드되어 연산량 효율적인 방식으로 구현될 수 있다.
비디오 정보를 이용하여 HOA 신호로부터 객체 신호를 추출하는 과정을 조금 더 구체적으로 설명한 일 실시예는 다음과 같다.
먼저 360 비디오에 대한 공간 좌표계와 HOA 신호에 대한 공간 좌표계를 일치(calibration)시킨다. 이를테면 360 비디오의 정북 방향과 elevation 0도를 HOA 신호의 그것과 일치시킨다. 또한, geo-location 을 일치시킨다. 이후 영상과 오디오 신호는 Yaw-Pitch-Role 등 공간 좌표값을 공유할 수 있다.
비디오 신호로부터 하나 이상의 candidate dominant visual object CDVO를 추출한다.
HOA 신호로부터 하나 이상의 candidate dominant audio object CDAO를 추출한다.
CDVO와 CDAO 를 상호참조하여, dominant visual object, DVO와 dominant audio object DAO 를 결정한다. CDVO와 CDAO는 각 object 를 추출하는 과정에서 모호함(ambiguity)의 정도를 확률로 가질 수 있으며, 각각의 확률값을 비교하고 이용하여 iterative한 과정을 통해 DVO와 DAO를 결정할 수 있다. 이때 모든 CDVO 와 CDAO가 1:1로 대응하지 않을 수 있다. Visual object가 없는 audio object가 있을 수 있으며 (e.g. 바람소리), 소리가 없는 visual object는 실제로 시동 꺼진 자동차, 나무, 태양 처럼 매우 많기 때문이다. Video와 Audio가 매칭된 dominant object를 DAVO (Dominant Audio-Visual Object)라고 칭한다.
Moving object인 경우, CDVO의 trajectory (이전 프레임의 위치값)와 CDAO의 trajectory를 참고하여 위치를 더 정확히 얻을 수 있다.
CDVO의 부피(volume)을 참고할 때, CDAO의 volume를 결정할 수 있다. Volume에 대응하여 object 에 대한 beam width 등 HOA 파라미터를 변경하거나 CDAO에 대응되는 object에 대한 부피를 반영하는 바이노럴 렌더링을 수행할 수 있다. 상기 부피를 반영하는 바이노럴 렌더링은 될 수 있다. 상기 auditory width를 Control하는 방법은 서로 다른 복수개의 위치에 상응하는 바이노럴 렌더링을 수행하거나, 디코릴레이터를 이용하여 auditory width를 control하는 것이 될 수 있다.
이와같은 방법으로 DAVO가 추출되면 (추출되는 과정에서), HOA 신호로부터 object를 추출하는 과정의 성능을 개선할 수 있다.
이상의 방법으로 오브젝트를 추출하면, 이하 설명된 것과 같이 Vvector를 이용한 주요 객체 렌더링과 앰비언트 렌더링을 통해 연산량 이득과 함께 성능이 향상된 바이노럴 렌더링이 가능하다.
4) HOA to Channel (B2C)
■ B2C general description
B2C decoding matrix는 고차 앰비소닉 신호를 라우드스피커 채널 신호로 변환시켜주는 matrix이다. 즉, 앰비소닉 신호로 인코딩 된 sound scene에 따라 팬텀 음상 (Phantom Sound Image)을 만들어내는 것을 목표로 앰비소닉 신호를 결합하여 라우드스피커에 의해 재생되는 신호를 생성하는 과정이다. 라우드스피커 신호를 l, 앰비소닉 신호를 b라고 했을 때, 이 변환 과정은 다음의 식과 같이 표현될 수 있다.
<수학식 6>
Figure pat00005
디코딩 행렬 D는 스피커 채널을 spherical harmonics domain으로 변환하는 매트릭스의 pseudo inverse (또는 inverse) 행렬로 다음과 같이 계산한다.
<수학식 7>
Figure pat00006
■ B2C + Rotation matrix
개별 라우드스피커의 위치를 수평각 theta와 수직각phi로 표현했을 때, 단위구 위로 projection시키면 해당 위치는 아래 식과 같이 표현할 수 있다.
<수학식 8>
Figure pat00007
Rotation 이후의 새로운 위치는 x 축 중심, y축 중심, z축 중심의 회전값을 각각 alpha, beta, gamma 라고 할 때, 아래 식과 같이 계산할 수 있다.
<수학식 9>
Figure pat00008
이 값으로부터 새로운 theta, phi를 구할 수 있고, 이를 이용해 새로운 B2C 행렬을 구성할 수 있다.
상기 D matrix는 T matrix에 대응되며 b matrix는 X, l matrix는 Y matrix에 대응된다.
- Natural Binaural Renderer의 입력 신호는 Format Conversion을 거친 HOA신호가 대표적인데, 이 신호는 필요에 따라 Pre-processing 단을 pass-through하여 바로 Natural Binaural Renderer의 입력 신호로 사용할 수 있다.
도 3의 각 모듈은 연산량 최적화를 위하여 실제 구현 과정에서 생략되거나 병합 될 수 있다.
(Natural Binaural Renderer)
도 3은 Natural Binaural Renderer의 세부 구조를 나타내는 블록도이다. Natural Binaural Renderer의 경우 콘볼루션 기반의 Convolutive BR, 이보다 부정확하지만 매우 효율적인 Parameteric BR, 그리고 높은 주파수 대역에 효과적으로 렌더링 가능한 QTDL 등이 사용될 수 있다.
(Efficient Subband domain processing)
도 2 및 도 3에 나타낸 것처럼 입력 오디오 신호가 time domain으로 들어오면, gaudi core가 subband 혹은 frequency domain에서 수행될 경우 해당domain으로 변환하기 위한 FB (Filterbank)과정이 필요하다. 이는 입력 소스 채널 개수에 비례하여 증가하는 연산량이다. 이때, 게임 어플리케이션의 예처럼, 사운드 소스가 deterministic한 경우라면, 해당 신호는 미리 해당 domain으로 변환된 상태로 메모리에 저장되도록 할 수 있다. 이와 같이 구현하면, 해당 신호에 대해서는 FB가 불필요하다. 나아가서 각 오디오 신호의 bandwidth는 소스마다 다를 수 있으므로, 재생에 있어서 유효한 오디오 신호가 있는 band까지만 저장하는 방법으로 구현할 수 있다. 이때 유효 밴드가 어디까지 인지에 해당하는 값은 별도의 파라미터로 저장할 수 있으며, 향후 렌더링 과정에서 해당 파라미터를 참조하면 연산량을 추가적으로 줄이는 효과를 얻을 수 있으며, 저장공간에 대한 절약도 가능하다.
(Spectral Contents Dependent Rendering)
특정 객체 오디오 신호의 경우 특정 주파수 대역에만 에너지가 몰려 있거나 상대적인 중요도가 매우 다를 수 있다. 예를 들면 차임벨 소리는 특정 하모닉을 포함하는 주파수 빈을 제외하고 에너지가 없으며, 벌 소리의 경우 특정 대역을 제외하면 상대적인 중요도가 매우 낮다. 따라서 객체 오디오의 Time-frequency tile의 중요도를 포함하는 메타데이터를 포함할 수 있다. 상기 메타데이터는 렌더러의 수행 가능한 연산량에 따라 연산 수행의 정도를 결정한다. 예를들면 연산량이 충분한 경우 모든 대역을 처리해도 되지만, 연산량이 부족한 경우 낮은 중요도를 가지는 time-frequency tile은 도 3에 있는 VLCR 등의 rendering으로 처리하는 방법이 예가 될 수 있다. 본 방법을 사용하면, 연산량과 저장공간의 추가적인 개선이 가능하다.
(Sparse Matrix-based Binaural Rendering)
바이노럴 렌더링을 수행하는 경우 특정 위치에 스피커가 있다고 가정하고 이 위치에 대응되는 Binaural Room Impulse Response (BRIR)를 필터링 하는 것과 같다.
상기 Pre-processing에서 transformation이 이루어지는 경우, 멀티 오디오 신호를 X, transformation matrix를 T, transformation 된 신호를 Y라고 가정하자. Y에 상응하는 BRIR matrix를 H_Y라고 가정하였을 때, 바이노럴 신호 B는 다음과 같은 수식으로 전개될 수 있다.
<수학식 10>
B = conv(H_Y, Y) = conv(H_Y, T*X) = conv(H_Y*T, X)
수학식 11은 Pre-processing의 inverse operation으로, 수학식 5의 역연산이다.
<수학식 11>
X = D Y
이 때 D는 transformation 된 신호 Y에서 멀티 오디오 신호 X로의 transformation matrix이다. D matrix는 T matrix의 pseudo inverse matrix로 구할 수도 있다. 다른 실시예로 Y가 채널신호, X가 오브젝트 신호인 경우, 매트릭스 D는 VBAP와 같은 기법을 기반으로 얻어질 수 있다. 또 다른 실시예로 앰비언트 신호인 경우 상기 B2C를 기반으로 얻어질 수 있다. X, Y는 서로 다른 스피커 레이아웃을 갖는 채널 신호인 경우 유연한 렌더링 기법을 기반으로 얻어 질 수도 있으며 CDVO를 이용하여 얻어 질 수도 있다.
X에 상응하는 BRIR matrix를 H_X라고 가정하였을 때, 바이노럴 신호 B는 수학식 12와 같이 전개될 수 있다.
<수학식 12>
B = conv(H_X, X) = conv(H_X, D*Y) = conv(H_X*D, C)
이 때 matrix T 또는 D 가 sparse matrix인 경우 H_Y*T 또는 H_X*D 또한 sparse matrix이므로 더 적은 필터링으로 바이노럴 렌더링을 수행할 수 있다. T matrix와 D matrix의 sparseness 를 분석하여 높은 sparseness 갖는 matrix를 이용하여 바이노럴 렌더링을 수행할 수 있으며, T와 D matrix가 실시간으로 변화하는 경우 이를 switching하여 사용할 수 있다. 이 때 abrupt한 changing을 방지하기 위하여 fade-in/out window를 사용하거나 smoothing factor를 적용하여 천천히 변화하도록 적용할 수 있다.
도 4는 구형 마이크 배열을 이용하여 3D Audio Scene을 취득하는 실시 예이다.
구형 마이크로폰 배열에 각 마이크의 위치에 의해 결정되는 A2B행렬을 통해 녹음된 신호는 앰비소닉 신호로 변경된다. 이후 과정은 최종 사용단에서의 재생 환경을 고려하여 여러 가지 형태로 변환하여 사용할 수 있는데, 본 예에서는 바이노럴 신호로의 변환 과정을 설명한다. 머리의 움직임을 반영할 수 있는 Head tracking 정보를 기반으로 rotation matrix를 계산하고 이를 B2C 행렬에 적용하여 가상의, 또는 실제 스피커 채널 신호를 생성한다. 각 스피커의 채널 신호를 개별 객체로 간주하고 static binaural renderer(C2P; Channel to headphone outPut signal (= binaural signal))의 입력신호로 사용하면 최종 바이노럴 신호를 생성할 수 있다.
이 외에 앰비소닉 신호를 채널 신호로 변경하는 과정을 거치지 않고, HRTF 역시 앰비소닉 형태로 변환하여 적용하면, 도 4에서 B2P (B-format to outPut signal)라고 표현한 방법을 통해 직접 바이노럴 신호를 생성할 수 있다.
도 5는 바이노럴 마이크 array를 이용하여 3D Audio Scene을 취득하는 실시 예이다.
<< Master Architecture for omni-binaural microphone array >>
⇒ 본 바이노럴 마이크 어레이는 수평면상에 존재하는 8개의 마이크로폰 어레이로 간주할 수 있는데, 특징적인 것은 음향 신호가 외이(outer ear)의 형태를 모사한 구조물을 통과하여 HRTF일부가 적용된 신호로 녹음이 된다는 점이다. 최종적으로 녹음된 신호는 고정된 형태를 가진 귓바퀴 모형이므로 individualization은 되어있지 않지만, 귓바퀴의 구조에 의한 음파의 반사, 산란에 의한 필터링이 포함된 것이다. 중심으로부터 수평각 90도의 간격으로 구분된 공간의 Audio Scene을 녹음하고, Head tracking 정보를 사용하여 interactive binaural signal를 생성할 수 있다.
⇒ 결국 90도 각도를 가진 수평면에 대응되는 4 포인트의 씬만을 가지고 있으므로, 그 사이를 메우는 각 azimuth에 대응하는 scene을 렌더링하기 위해서는 4포인트, 8개 마이크 입력 값을 이용한 interpolation이 필요하며, 또한 elevation 방향으로의 렌더링을 위해서는 별도의 처리를 통한 일종의 extrapolation이 구현되어야한다. 이를 블록도로 표현하면 도 6과 같다.
⇒ 인터폴레이션의 일 실시예로 nearest 2 포인트에 대응하는 입력으로부터 power panning을 통해 구현할 수 있다. Power panning 된 출력을 각각 Pz_L, Pz_R
⇒ 익스트라폴레이션의 일 실시예로, 각 방위각에서 elevation에 대응하는 notch 및 peak 값을 가져와 Oz 신호에 추가적인 효과필터를 수행하여 Pze_L, Pze_R 을 생성할 수 있다.
[ HOA Vvector Rendering ]
<수학식 13>
Figure pat00009
, where Nf<=25
앰비소닉스 신호의 경우 Singular Value Decomposition (SVD) 과 같은 과정을 통해 각 신호는 수학식 13의 수식처럼 U, S, V의 개별 매트릭스로 구할 수 있다. U, S, V는 각각 unitary matrix, non-negative diagonal matrix, unitary matrix이다. 이 때, U와 S 의 컬럼벡터 u와 s_i의 곱은 개별 사운드 오브젝트 자체로 볼 수 있고, V매트릭스의 컬럼벡터 v_i는 각 사운드 오브젝트의 위치에 해당하는 벡터로 분해할 수 있다. 이는 SVD의 결과가 유일하지 않은 특성을 이용한 것이다. 360 비디오와 같이 영상과 함께 연동되는 경우에는 영상 신호로부터 v_i 벡터의 각 component값을 이용할 수 있고, 이를 기반으로 개별 사운드 오브젝트와 그에 해당하는 위치값을 기반으로 렌더링을 시행할 수 있다. 이 경우 v_i 벡터의 방향은 정의되나 그 크기가 작은 경우는 개별 오브젝트가 아닌 앰비언스 신호로 간주할 수 있고, 이로부터 매트릭스 V는 sparse하게 된다. 결과적으로 v_i의 크기가 일정 threshold값 이상인 경우면 개별 오브젝트로 간주할 수 있고, 개별 오브젝트의 개수 N_f는 M차 앰비소닉스 신호를 구성하는 채널의 수보다 작거나 같아지므로, 이후 렌더링 과정에서 (M+1)^2개의 채널을 렌더링할 때보다 적은 수의 오브젝트를 렌더링 함으로써 효율적인 연산을 할 수 있다.
개별 사운드 오브젝트는 신호의 스펙트럼의 특성을 기반으로 모든 차수의 앰비소닉스 신호를 다 이용하지 않고 저차수의 앰비소닉스 신호만을 이용하여 추출할 수 있다. SVD 이후의 과정에서 이루어지는 사운드 오브젝트 추출 과정 이후 residual신호는 렌더링 시 ambience로 사용할 수 있으며, 이 경우 역시 전 모든 차수의 앰비소닉스 신호를 이용하지 않고 효율적인 렌더링을 위해 저차수의 앰비소닉스 신호의 조합으로 구성할 수 있다.
인위적으로 합성된 (artificially-synthesized) 신호의 경우 신호의 특성(e.g. 원 신호의 알려진 스펙트럼 정보) 등을 이용해 청취자를 중심으로 한 상대적인 위치를 보다 쉽게 알 수 있기 때문에 HOA신호로부터 개별 사운드 오브젝트를 쉽게 추출 가능하다. 개별 사운드 오브젝트의 위치는 미리 지정된 공간 정보 및 사용가능한 영상 정보를 이용하여 정의 가능하다. 이는 앞서 언급한 sparse binaural rendering 및 앰비소닉 신호의 SVD를 이용한 오브젝트 추출 방법과 동일한 과정으로 통해 렌더링 가능하다.
실제 녹음된 경우 Non negative Matrix Factorization (NMF), Deep Neural Network (DNN) 등의 과정을 통해 마이크로폰을 통해 녹음된 신호의 에너지를 기반으로 V 벡터를 추정가능하다. 이 때, 부가적으로 이용할 수 있는 영상 정보를 함께 이용할 수 있으며, 이를 통해 보다 정확한 v 벡터를 추정할 수 있다.
Cinematic VR의 제작 과정에서 보다 몰입감 있는 경험을 제공하기 위해 오디오 신호를 녹음하는 과정은 매우 중요하다. 개별 sound object만 녹음할 경우 해당 공간의 음향 특성을 반영하기 힘들고, ambience 만 녹음하는 경우 정확한 sound object의 위치를 인지하기 힘든 문제가 있다. 이러한 문제를 해결하기 위해 제작 과정에서 sound object와 ambience를 동시 녹음하여 후처리를 통해 뚜렷한 음상의 위치와 공간감을 동시에 제공할 수 있는 방법이 있다. 해당 과정을 블록도로 나타내면 도 7과 같다.
도 7에서 obj1, … , objK는 녹음시 개별 object로 간주한 음향 신호이고, ambience sound는 개별 사운드 및 녹음 공간에 의해 생성된 앰비언스 마이크로폰 위치에서의 음장 (soundfield) 신호이다. 신호의 흐름을 구별하기 위해 sound object는 실선, ambience에 해당하는 신호는 점선으로 그 흐름을 표시한다. 이렇게 녹음된 신호는 최종 바이노럴 렌더링 방법에 따라 개별 오브젝트와 앰비언스 녹음 신호는 format converter의 과정을 통해 각각
Figure pat00010
, … ,
Figure pat00011
및 앰비소닉 신호로 변환된다. 이 과정에서
Figure pat00012
, … ,
Figure pat00013
는 최종 렌더러에 따라 그 형태가 변할 수 있다. 이 경우 format converter를 거쳐 나오는 신호의 조합, 또는 취득 방법에 따른 신호의 조합은 크게 아래와 같이 분류될 수 있다.
1) Sound object + Higher Order Ambisonics (HoA) of Ambience
2) 1)의 Sound Object 의 HoA 변환 신호 + HoA of Ambience = Mixed HoA
3) 1)의 Sound Object 의 First Order Ambisonics (FoA) + FoA of Ambience = Mixed FoA
4) FoA of Ambience
이하 설명의 편의를 위해 sound object의 개수가 1개일 때를 가정하여 설명하지만 sound object의 개수가 복수개인 경우에도 동일한 방법에 의해 처리될 수 있다.
위의 분류 1)에 마이크로폰 어레이를 이용해 녹음된 신호 pa로부터 구해지는데, 이는 다음 수학식 14과 같은 관계를 갖는다.
<수학식 14>
Figure pat00014
수학식 14에서
Figure pat00015
Figure pat00016
는 마이크로폰 어레이의 개별 구성 마이크로폰의 수평각 및 수직각이다. 또한 Y는 해당 수평각, 수직각을 입력으로 하는 구면조화함수 (spherical harmonic functions) 이다. m과 n은 구면조화함수의 order와 degree를 의미한다. 위의 수학식 14을 Matrix 형태로 나타내면 수학식 15와 같이 나타낼 수 있고, 수학식 15에서 얻고자 하는 HoA of ambience 신호는 B이다.
<수학식 15>
Figure pat00017
또한 분류 2)에서의 sound object 의 HoA 변환 신호는 기준점에 대한 위치
Figure pat00018
에 대한 구면조화 함수를 이용해 수학식 16과 같이 표현할 수 있다.
<수학식 16>
Figure pat00019
해당 사운드 오브젝트의 위치는 개별 마이크로폰과 기준점에 설치된 외부 센서를 이용하여 측정하거나 마이크로폰 어레이의 신호를 분석하여 추정한다.
무한대의 구면조화 함수 차수를 이용할 수 없는 현실적인 조건들을 고려하여 앰비소닉 신호는 구면조화함수의 order를 M차수로 truncation하여 근사화한다. 또한 수학식 2와 수학식 3을 이용해 사운드 오브젝트와 ambience에 대한 HoA 신호를 얻었다면 0 차수와 1차수 성분은 남기고 고차 성분들을 삭제하여 FoA신호를 얻을 수 있다. 이 근사화 과정에서 공간 해상도 (spatial resolution) 역시 저하되고, M 이 작을수록 이 열화는 심해진다. 이러한 이유로 binaural rendering 시의 성능이 사운드 오브젝트는 object-based rendering 을 하고, 앰비언스 신호는 scene-based rendering을 하는 것이 가장 좋은 성능을 보여준다. 분류 1)에 기반한 binaural rendering의 성능을 기준으로 했을 때 분류 2), 3) 및 sound object는 제외하고 scene-based 렌더링을 한 경우의 인지적 주관평가 결과는 도 8과 같다.
도 8에서 확인할 수 있듯이 분류 1)을 기준으로 하였을 때 최종 렌더링 품질은 분류 2) > 분류 3) 으로 나타낼 수 있고 FoA 앰비언스 신호만 scene-based 렌더링을 했을 때의 품질이 가장 낮음을 알 수 있다. FoA 기반의 렌더러의 대표적인 예로 현재 YouTube Spatial Audio를 들 수 있다. 분류 1) 신호와 분류 3) 또는 4)에 해당하는 신호는 렌더러 호환성 (e.g. YouTube Spatial Audio) 을 위한 format conversion 이 가능한데, 이는 도 9과 같이 나타낼 수 있다.
도 9에서 Binaural_1 신호는 신호분류 1)을 이용하여 GAUDIO Renderer에 의해 바이노럴 렌더링 된 신호, Binaural_2 신호는 신호분류 3) 또는 4) 를 이용하여 format conversion 과정을 거친 후 GAUDIO Renderer에 의해 바이노럴 렌더링 된 신호, Binaural_3은 신호분류 1)을 이용하였지만 format conversion을 거친 후 other renderer에 의해 바이노럴 렌더링 된 신호, 그리고 Binaural_4는 신호분류 3) 또는 4) 를 이용하여 other renderer에 의해 바이노럴 렌더링 된 신호를 나타낸다. 또한 실선 및 점선은 신호의 흐름을 볼 때 최초 생성 음원이 무엇인지를 나타내는데, 실선은 HoA+Object 신호로부터, 점선은 FoA 신호로부터 생선된 신호의 흐름을 나타낸다.
Object와 HoA 신호를 함께 렌더링하게 되는 경우, HoA 녹음 신호에는 현장에서 Object에 의한 직접음도 함께 녹음이 되기 때문에 바이노럴 렌더링 시 중첩된 direct sound로 인해 음상 정위 성능이 저하되거나 두 개의 음상 생성되어 몰입감이 저하될 수 있다. 또한, object와 HoA 의 녹음 위치가 차이가 날 경우 temporal sync가 맞지 않는 경우도 발생한다. 따라서 Object 신호 또는 HoA 신호 중 적어도 하나에 delay를 처리하여 두 신호의 temporal sync를 맞춤으로써 object sound rendering에 대한 음상 정위 품지를 유지할 수 있다. 또 다른 실시예로써 direct sound의 위치에 해당하는 방향에 대해 HoA 신호의 gain을 조절함으로써 전체적인 ambience는 유지하되 object sound rendering에 의한 음상 정위 품질은 유지할 수 있다. 도 10 은 특정 방향의 gain값을 조절하기 위한 directional modification matrix 생성 및 앰비소닉 신호에 적용하는 방법에 대한 블록도이다. 도 10에서는 ambisonic signal에 time sync를 맞추었으나 (상기 delay 처리) 본 발명은 이에 한정하지 아니하고 object 신호, ambisonic 신호와 object 신호 모두 상기 delay 처리를 수행할 수 있다.
일례로 도 10에서 time sync는 object 와 ambisonics 신호의 cross-correlation이 최대가 되는 지점을 기준으로 맞출 수 있지만, synchronization방법은 이에 한정되지는 않는다.
ambisonics signal의 directional modification의 방향을 결정함에 있어 상기 기술한 CDVO, CDAO, DAVO 를 참조할 수 있다. CDVO, CDAO, DAVO 는 영상신호와 오디오신호로부터 추출된 object 신호이기 때문에 추출 과정에서 연산된 각 object의 위치를 구할 수 있고, 이와 같은 과정으로부터 구해진 object의 위치는 directional modification의 방향으로 사용될 수 있다. 또한 Vvector 의 값 역시 앰비소닉 신호의 분해를 위해 각 object의 위치값을 분해값으로 사용되기 때문에 이 역시 directional modification을 위한 방향으로 사용될 수 있다.
또한 spatial transform matrix 단계는 도 11 로 나타낼 수 있다.
도 10과 도 11의 directional modification matrix Ts는 loudness modification 뿐만 아니라 Rotation matrix 와 같은 다른 기능의 transform matrix와 결합될 수 있다. 일례로 post-processing 단계에서 앰비소닉 신호에 대해 화면과의 시점 동기화를 위해 Yaw, Pitch, Roll을 위한 앰비소닉 rotation matrix와 rotation 이후 directional gain modification matrix는 series로 처리할 수 있는 형태이므로, 매 단계에서 앰비소닉 신호에 대해 처리하지 않고, 해당 transform matrix를 미리 multiplication하여 두 기능을 동시에 처리하도록 연산할 수 있다.
변환 과정에서 변환된 앰비소닉 신호는 의도한 방향 성분의 게인이 줄어든 반면, HoA 의 spherical harmonics 빔 패턴의 width로 인해 의도한 방향 주변 성분들도 함께 감쇄되는데, 이로 인해 HoA의 frequency 특성이 변하게 된다. 이렇게 변한 특성에 대해서는 후처리 과정에서 EQ (equalizer) 등을 이용해 보상하여 사용할 수 있다.
일례로 EQ 등을 이용한 주파수 특성을 보상할 경우, directional modification 적용하기 전 HoA 신호의 각 HoA의 component 주파수 특성을 알 수 있기 때문에 최종 보상 시점에서는 해당 신호를 참조하여 원신호에 근접하게 보상 가능하다.
[what is claimed here]:
1. (비디오 참고 HOA 렌더러)
3D Video Model (360 Video, 이하 VM)로부터 오디오 피처를 추출하고 이를 이용하여 binaural rendering하는 구조로서,
VM에 대한 공간 좌표계와 HOA 신호에 대한 공간 좌표계를 일치(calibration)시키는 단계,
VM으로부터 하나 이상의 candidate dominant visual object, CDVO를 추출,
HOA 신호로부터 하나 이상의 candidate dominant audio object, CDAO를 추출,
CDVO와 CDAO 를 상호참조하여, Video와 Audio가 매칭된 dominant object DAVO (Dominant Audio-Visual Object)을 추출하는 단계,
DAVO를 이용하여 HOA의 바이노럴 렌더링을 구현하는 오디오 신호처리 방법.
a. DAVO를 이용하여 Vvector 를 생성하는 특징
b. Moving object인 경우, CDVO와 CDAO의 trajectory 를 더 참고
c. CDVO의 부피(volume)을 더 참고하여 바이노럴 렌더링에 활용
2. (Vvector 활용 렌더러)
HOA 신호 (B-format)을 바이노럴 렌더링 함에 있어서,
HOA 신호로부터 하나 이상의 Vvector 를 이용하여 Vvector 방향에 대응하는 주요 객체 신호를 추출하고,
Vvector 방향에 대응하는 HRTF 를 이용하여 해당 객체 신호를 각각 렌더링하고,
Vvector 들에 의해 추출되지 않은 신호 (ambient 신호)는 residual 신호 렌더링 방법으로 렌더링하는 오디오 신호처리 방법.
a. 레지듀얼 신호는 (HOA가 4차인 경우, 1차 혹은 2차만을 사용하는 등으로) 더 적은 차수의 HOA 렌더링으로 구현하는 것을 특징
b. Vvector는 신호로부터 추출된 dominant 객체의 개수 및 값을 근거로 결정
i. dominant 여부는 기설정한 threshold를 근거로 판별
ii. dominant 여부는 visual object 와의 정합성을 근거로 판별
iii. dominant 의 개수는 연산량을 고려하여 (별도로 수신된 연산량 요건을 참고하여) 결정
c. (효과) 이와 같이 구현함으로써, 더 낮은 연산량으로 공간감, localization 성능이 더 향상된 HOA to 바이노럴 렌더링을 구현할 수 있다
3. (옴니 바이노럴 어레이 360 렌더러)
일 평면에만 존재하는 다른 azimuth 방향에 대응하는 2 point (ear pair로 구성된 4개의 마이크 입력) 이상의 바이노럴 레코딩된 신호로부터 3차원 공간에 대응하는 임의 방향 360 오디오 신호를 생성함에 있어서,
a. 제공해야하는 얼굴방향을 결정하는 단계 (Target_YPR 결정),
b. Target_YPR에 대응하는 제1포인트와 제 2포인트 결정 단계,
c. Target_YPR을 제1포인트/제2포인트 평면에 projection하고, projection 값으로부터 제1포인트와 제2포인트 사이의 거리 등을 이용하여 interpolation 계수를 결정하고, 결정된 계수를 이용하여 제1포인트, 제2포인트 입력 바이노럴 신호를 이용하여, azimuth rendered 출력 오디오신호를 얻는 단계,
d. Target_YPR에 대응하는 elevation parameter 를 구하는 단계, elevation parameter를 이용하여 azimuth rendered 오디오 신호에 elevation 효과를 추가로 더 입혀서, 최종 rendered 오디오 신호를 출력하는 단계,
를 가진 오디오 신호처리 방법
4.
HOA(FoA)에 해당하는 제1 오디오 신호를 수신
object에 해당하는 제2오디오 신호를 수신
HOA가 구성한 sound scene 상에서 상기 object 의 위치 정보를 수신 (직접 계산하거나 외부의 센서를 이용하여 identify하여 수신)
상기 object 위치 정보를 이용하여, 제1신호와 제2신호를 합성한 제3신호를 생성하는 방법
a. 상기 제3신호는 HOA 신호인 것을 특징
b. 상기 제3신호는 다시 FoA로 변환되어 재생(렌더링)되는 것을 특징
c. 제1신호, 제2신호 및 위치 정보를 비트열로 생성하여 전송하고, 상기 제3신호를 생성하는 과정은 수신단에서 이뤄지는 것을 특징
5.
상기 제3신호를 생성하는 방법에 있어서, 상기 제1신호를 FoA로 변환, 제2신호를 FoA로 변환하여 변환된 두 FoA를 더하는 방법
6.
상기 제3신호를 생성함에 있어서, 상기 제1신호와 제2신호를 먼저 HOA에서 합성하고, 이를 FoA로 변환하는 방법
7.
상기 제 3 신호를 생성함에 있어서, 상기 제 1 신호에 대해 제 2 신호의 위치와 정합하도록 변환하는 방법.
a. 상기 제 1 신호의 변환함에 있어서 제 2 신호 위치 혹은 사용자가 의도한 위치의 방향 성분에 대해 제 1 신호의 gain을 조절할 수 있는 것을 특징
b. 상기 제 1 신호의 정합 변환과 gain 조절 변환을 동시에, 또는 독립적으로 조절할 수 있는 것을 특징.
c. 상기 제 1신호와 상기 제 2신호 중 적어도 하나에 delay 처리를 수행하여 temporal sync를 맞출 수있는 것을 특징.
d. 상기 제 1 신호를 변환함에 있어서 비디오 참조 렌더러로부터 계산한 CDAO, CDVO, DAVO및 연관 위치정보를 이용하여 변환할 수 있는 것을 특징.
e. 상기 제 1 신호를 변환함에 있어서 Vvector를 이용하여 변환할 수 있는 것을 특징.
8.
상기 제 1 신호의 변환 과정에서 equalizer를 이용하여 변환 과정에서 달라진 frequency response 보정하는 방법
a. 상기 제 1신호의 frequency response를 보정함에 있어 변환 전 신호의 frequency 특성을 참조할 수 있는 것을 특징.
이상에서는 본 발명을 구체적인 실시예를 통하여 설명하였으나, 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 발명은 오디오 신호에 대한 바이노럴 렌더링의 실시예에 대하여 설명하였지만, 본 발명은 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 발명의 상세한 설명 및 실시예로부터 본 발명이 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석된다.

Claims (1)

  1. 오디오 신호 처리 방법 및 장치.
KR1020160111104A 2016-08-30 2016-08-30 오디오 신호 처리 방법 및 장치 KR20180024612A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160111104A KR20180024612A (ko) 2016-08-30 2016-08-30 오디오 신호 처리 방법 및 장치
US15/691,682 US10262665B2 (en) 2016-08-30 2017-08-30 Method and apparatus for processing audio signals using ambisonic signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160111104A KR20180024612A (ko) 2016-08-30 2016-08-30 오디오 신호 처리 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20180024612A true KR20180024612A (ko) 2018-03-08

Family

ID=61726564

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160111104A KR20180024612A (ko) 2016-08-30 2016-08-30 오디오 신호 처리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20180024612A (ko)

Similar Documents

Publication Publication Date Title
US11950085B2 (en) Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
US11832080B2 (en) Spatial audio parameters and associated spatial audio playback
JP7564295B2 (ja) DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム
US10349197B2 (en) Method and device for generating and playing back audio signal
US11153704B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
US8180062B2 (en) Spatial sound zooming
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
KR20170106063A (ko) 오디오 신호 처리 방법 및 장치
US10419867B2 (en) Device and method for processing audio signal
JP2023517720A (ja) 残響のレンダリング
CN112567765B (zh) 空间音频捕获、传输和再现
Suzuki et al. 3D spatial sound systems compatible with human's active listening to realize rich high-level kansei information
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
KR20180024612A (ko) 오디오 신호 처리 방법 및 장치
Noisternig et al. D3. 2: Implementation and documentation of reverberation for object-based audio broadcasting