KR20240095353A - 가청화를 위한 초기 반사 개념 - Google Patents
가청화를 위한 초기 반사 개념 Download PDFInfo
- Publication number
- KR20240095353A KR20240095353A KR1020247019070A KR20247019070A KR20240095353A KR 20240095353 A KR20240095353 A KR 20240095353A KR 1020247019070 A KR1020247019070 A KR 1020247019070A KR 20247019070 A KR20247019070 A KR 20247019070A KR 20240095353 A KR20240095353 A KR 20240095353A
- Authority
- KR
- South Korea
- Prior art keywords
- reflection
- listener
- initial reflection
- initial
- pattern
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 81
- 238000009877 rendering Methods 0.000 claims abstract description 80
- 230000005236 sound signal Effects 0.000 claims description 108
- 230000006870 function Effects 0.000 claims description 80
- 230000004044 response Effects 0.000 claims description 57
- 238000004458 analytical method Methods 0.000 claims description 41
- 238000012937 correction Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 11
- 230000006835 compression Effects 0.000 claims description 9
- 238000007906 compression Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 2
- 230000000996 additive effect Effects 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims description 2
- 229910052709 silver Inorganic materials 0.000 claims 1
- 239000004332 silver Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 10
- 101100333756 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ERP2 gene Proteins 0.000 description 17
- 101100433290 Homo sapiens ZNF471 gene Proteins 0.000 description 14
- 101100389697 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ERP1 gene Proteins 0.000 description 14
- 101100066419 Xenopus laevis fbxo43 gene Proteins 0.000 description 14
- 102100029037 Zinc finger protein 471 Human genes 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 13
- 230000033001 locomotion Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010521 absorption reaction Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008447 perception Effects 0.000 description 5
- 230000011514 reflex Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000009827 uniform distribution Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001151 other effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 241000557626 Corvus corax Species 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101100333762 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ERP4 gene Proteins 0.000 description 1
- 101100412093 Schizosaccharomyces pombe (strain 972 / ATCC 24843) rec16 gene Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
- Auxiliary Devices For Music (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
본 출원은 가청화를 위한 초기 반사 처리 개념에 관한 것이다. 실시예는 초기 반사를 고려한 사운드 렌더링 장치와 방법 및 초기 반사 패턴을 결정하기 위한 장치와 방법에 관한 것이다.
Description
본 출원은 가청화를 위한 초기 반사 처리 개념에 관한 것이다.
공간 임펄스 응답(RIR)은 음향 환경(실내)의 음원과 수신자(예를 들어, 청취자) 간의 관계를 설명한다. 이것은 시간 영역에서 단위 임펄스에 대한 실내의 응답을 지정하고 주파수 영역의 실내 전달 함수에 해당한다. 이것은 직접 사운드 경로, 초기 반사(ER) 및 확산 후기 잔향으로 구성된다.
가상 및 증강 현실(VR/AR) 애플리케이션을 위한 바이노럴(또는 스피커) 렌더링에서, 특정 음원와 청취자 위치로부터의 실내 임펄스 응답은 크게 변할 수 있다. 6 자유도(6DOF) VR/AR 애플리케이션에서 청취자는 일반적으로 전체 장면 내에서 자유롭게 이동할 수 있으므로, 그 결과 실내 임펄스 응답은 영구적으로 변경된다. 따라서, 벽의 기하학적 구조, 객체 차단 및 기타 효과를 고려하여 물리적으로 정확한 반사 패턴을 계산하기 위해서는 음원에서 청취자까지의 각각의 반사를 결정하는 데에 엄청난 양의 계산이 소비된다.
본 발명의 관찰에 의하면 지각적으로 설득력 있는 렌더링을 만들기 위해서는 방의 초기 반사(ER) 패턴의 정확한 음향 재생을 필요로 하지 않으며 이는 방의 정확한 기하학적 세부 사항을 대부분 추상화하는 방식으로 수행된다. 이런 방식으로 많은 계산을 절약할 수 있다. 반사 패턴을 인코더에서 렌더러로 전송해야 하는 경우, 청취자의 위치에 따라 반사를 효율적으로 계산하는 것과 관련된 부가 정보의 상당 부분은 일반 기하학 기반 렌더링의 최신 기술과 비교하여 절약될 수 있다.
문서[1]은 정확하게 계산된 "실제" ER을 보다 일반적인 단순한 ER 패턴으로 대체하는 것에 관한 것이다. 이 생각은 큰 방(예를 들어, 콘서트 홀)의 무대에서 작거나 큰 음원(예를 들어, 오케스트라)을 설명하는 지각적으로 직교하는 매개변수를 찾아 설명하고 시뮬레이션하고[2, 3], 이들을 스피커 설정(예를 들어, 스테레오)을 통해 또는 헤드폰을 통해 바이노럴로 재생하는 것이다. 작곡가나 사운드 엔지니어는 이러한 매개변수(음원 존재감, 음원 온기, 음원 광채, 공간 존재감, 잔향, 환경 및 반향 등)를 사용하여 장면을 설정할 수 있었다. SPAT 소프트웨어가 이러한 종류의 제작에 오랫동안 사용되어 왔다[4]. 이 접근 방식은 ISO MPEG-4 표준화에서도 채택되었다[5].
동적 6DOF 환경에서 방의 음향 설명(치수, RT60 등)은 상당히 다를 수 있다. 음원 및 수신자 위치는 완전히 자유로며 가청화를 위해 실시간으로 계산된다. 이러한 변화하는 물리적 설정에 크게 의존하는 지각적 매개변수는 상수로 정의할 수 없으므로 이 작업에는 적합하지 않다.
본 발명은 간단한 기본 ER 패턴을 선택하고 조정하기 위해 환경의 몇 가지 기본 물리적 매개변수만 취하는 새로운 접근 방식을 취한다. 이것은 다음과 같은 장점이 있다: 매개변수를 정의하는 데 특정 사운드 엔지니어링 배경이 필요하지 않다. 이들은 물리적 모델에서 직접 가져온다. 사용된 단순 ER 패턴은 다양한 공간 크기와 다양한 RT60 값에 적응한다. 실외 환경에서도 단순 ER 패턴이 정의되고, 이것은 SPAT에서는 정의되지 않는다. 물리적으로 완전히 정확한 시뮬레이션에 비해 이 접근 방식에 의한 지각적 저하는 인간의 청각 시스템이 초기 반사의 미세 구조를 분석할 수 없기 때문에 제한된다[6].
아래 새로 발명된 단순 ER 패턴에서, RT60, 사전 지연 시간, 방 볼륨 또는 방 크기, RT60의 주파수 의존성과 같은 실내 음향 매개변수가 사용된다. ER 패턴은 직접 사운드와 후기 잔향 사이의 부드러운 전환을 생성하기 위해 특별히 정의되었다. 이것은 주파수 중립적이어야 하며 음원와 수신자의 벽과 개구부에 근접해야 한다.
전체 실내 음향 매개변수에 맞춰 청취자의 그럴듯하고 설득력 있는 인식을 만들어낸다는 생각이다. 이것은 청취자가 물리적으로 정확한 "실제" ER과 직접 비교할 가능성이 없기 때문에 대부분의 경우 충분하다.
특히 실시간 청각 가상 환경 및 증강 현실과 같은 애플리케이션에서는, 특히 가시성 검사에 의해서, ER의 정확한 기하학적 계산의 소모를 피할 수 있다. 음원과 청취자의 정확한 (시간에 따라 변하는) 위치에 따라 나타나고 사라지는 ER로 아티팩트를 생성하기 위해 "실제" ER을 정확하게 계산한다는 것은 또한 어렵고 민감한 일이 되는 경우가 있다. 이것은 일단 장면에 들어갈 때 한 번 계산된 일정한 ER 패턴을 사용하는 것으로, 또는 다른 음향 매개변수에 의해 정의된 한 음향 환경에서 다른 환경으로 이동하는 것으로 피할 수 있다.
본 발명은 인코더-비트스트림-렌더러 시나리오를 활용한다. (a)의 경우, 기본 단순 ER 패턴은 렌더러에서만 사용할 수 있는 실내 음향 매개변수를 사용하여 계산될 수 있다. 이러한 매개변수는 음원-청취자 거리와 이들 사이의 방위각에 따라 실시간으로 조정된다. (b)의 경우, 장면의 기하학적 구조는 인코더에서 더욱 발전된 방식으로 사전 분석된다. 그런 다음 몇 개의 ER로 구성된 단순 ER 패턴이 인코더에서 미리 계산되어 비트스트림으로 렌더러에 전송된다. 여기서는 청취자의 거리와 각도 (또는 렌더링 시 사용할 수 있는 기타 정보)에 따라 (a)의 경우와 동일한 방식으로 조정된다. 이 두 가지 경우는 나중에 추가 분석 지식이 인코더에 통합될 수 있는 개방형 미래 보장형 접근 방식에 대한 완전한 유연성을 제공한다.
동기
공간 임펄스 응답(RIR)은 음향 환경(방)의 음원과 수신자(청취자) 간의 관계를 설명하고 단위 임펄스에 대한 공간의 응답을 지정한다(도 21 참조). 이는 직접 사운드 경로, 초기 반사(ER) 및 확산 후기 사운드 부분으로 구성된다. 도 21은 음향실 시뮬레이션 프로그램 RAVEN[7]을 사용하여 생성된 2차 ER을 포함하는 모노포닉 RIR의 예를 보여준다.
특히 다양한 표면으로 정의되는 복잡한 물리적 환경/공간에서, 필요한 가시성 검사("이 음원이 청취자에게 직접적인 가시선 내에 있는가?")를 통해 기하학적으로 정확한 ER을 계산하는 데는 매우 많은 시간이 소요된다. 반면에, 인간의 청각적 인식은 직접 사운드와 관련하여 ER에 대한 많은 세부사항을 억제하는 것으로 알려져 있고(제1 파면 법칙, 선행 효과, 장면 분석, [8, 9]) 이에 따라 임펄스 응답의 ER 부분에 대한 정밀한 모델링은 많은 경우 설득력 있는 렌더링 품질을 달성하는 데 필요하지 않다고 알려져 있다(예를 들어, [6]). 청각 시스템은 ER을 사용하여 여러 지각적 속성을 결정하거나 개선한다. 그중에는 다음을 포함한다:
- 수신자를 기준으로 한 음원의 위치
- 음원-수신자 거리
- 청각 음원 폭(ASW)
- 경계의 레벨 및 주파수 의존 흡수[10]
- 가까운 경계까지의 근접성
ER 계산을 단순화하는 것으로 알려진 몇 가지 접근 방식이 있다. 제1 방식은 ER 계산을 완전히 피하는 것, 즉, 시뮬레이션된 ER 없이 사운드를 렌더링하는 것, 즉, 직접 사운드와 후기 잔향만 렌더링하는 것이다(도 22 참조). 후기 잔향은 소위 사전 지연 시간에 시작한다. 도 22는 직접 사운드와 사전 지연 시간 0.13초에서 시작하는 후기 잔향이 있고 ER은 없는 RIR을 도시한다.
다음 가능성은 기하학적으로 정확한 1차 반사만을 계산하는 것이다(도 23 참조). 신발 상자 모양의 방에서는 ER의 수가 약 27에서 6으로 줄어든다. 도 23은 1차 반사와 후기 잔향(왼쪽), 상면도(오른쪽)를 포함하는 RIR을 보여준다. 사각형(빨간색)은 음원, 원(파란색)은 수신자이고, 원과 사각형을 연결하는 선(빨간색)은 직접 사운드, 원에서 나오는 추가 선(파란색)은 반사음, 길이는 로그 수준에 비례한다.
다음 가능성은 직접 사운드와 나란히 놓인 두 개의 ER이다(도 24 참조). ASW에 대한 측면 반사의 영향은 콘서트 홀 음향학을 통해 알려져 있다[11]. 이는 실제 기하학적 시뮬레이션에 비해 계산이 매우 간단하다는 점에 유의한다. 도 24는 직접 사운드(왼쪽), 상면도(오른쪽)에 나란히 두 개의 반사가 있는 RIR을 보여준다.
다음 패턴에서는 2개의 측면 반사는 직접 사운드의 각 측면에 대한 4개의 반사와 [±45° 및 ±135°]에서의 4개의 고정 음원 위치 독립적 반사 시퀀스로 대체되며, 각각은 4개의 반사로 구성된다(도 25 참조). 이 패턴은 SPAT 알고리즘[1, 5]에서 영감을 얻었지만 모든 세부 사항을 구현하지는 않으며 특히 모든 입력 매개변수의 효과를 구현하지 않는다. 이 패턴의 매개변수는 ASW와 같은 지각적 수신자 속성을 구체적으로 생성하도록 정의된다. RT60 외에 실내 음향 특성은 사용되지 않는다. 도 25는 "SPAT" 패턴(왼쪽), 상면도(오른쪽)를 갖는 RIR를 도시한다. 십자가(녹색과 파란색)는 ER이다.
이전에 설명한 접근 방식은 ER 패턴을 정의하는 입력 매개변수가 지각 매개변수가 되도록 설계되었다. 이들은 ER로 인한 청취자의 인식을 설명해야 한다. 단점은 방 관련 매개변수에만 모호하게 적응한다는 것이다. 음원 존재감, 음원 온기, 음원 광채, 실내 존재감, 잔향, 환경 및 반향과 같은 지각적으로 정의된 매개변수를 설정하려면 건전한 엔지니어링 지식과 경험을 필요로 한다. 이는 실시간 VR/AR 시스템의 물리적 특성을 정의하고 지각적 사운드 엔지니어링 경험이 없는 설계자에게는 분명한 단점이 된다. 특히 VR 애플리케이션의 경우, 가상의 물리적 공간의 기하학적 구조는 시각화 과정의 부산물로 잘 알려져 있는 경우가 많다. 또한, SPAT 알고리즘으로 알려진 실외 환경에 대해서는 ER 패턴이 없다.
본 발명의 목적은 ER 패턴을 정의하기 위해 실내 음향 및 물리적 매개변수를 명시적으로 사용함으로써 최신 기술의 단점을 방지하는 것이다. 뿐만 아니라, 다양한 패턴이 방의 특성에 따라 정의되며, (기하학에 대한 정확한 설명이 어려운) 실외 환경에도 적합하다. 패턴은 방 크기나 기타 물리적 매개변수에 따라 ER의 수가 다르다.
새로운 ER 패턴 기능
· "실제" ER과 비교하여 인지적으로 그럴듯한 렌더링
· "실제" ER 계산에 비해 계산 복잡성 감소
· 물리적 공간 속성에 따라 ER 패턴 적용
· 필요한 매개변수를 설정하는 데에 특정 사운드 엔지니어링 기술과 경험을 필요로 하지 않음.
· 실내 및 실외에 대한 뚜렷한 ER 패턴
· 미리 정의된 패턴이 렌더러 내에서 계산되는 경우, (비트스트림 전송을 포함한 인코더/비트스트림/렌더러 시나리오에 대해) 추가 부가 정보가 필요하지 않다.
· 사전 정의된 패턴이 장면 형상으로부터 인코더에서 계산되는 경우, (비트스트림 전송을 포함한 인코더/비트스트림/렌더러 시나리오에 대해) 추가 부가 정보가 거의 필요하지 않다.
이는 방의 정확한 기하학적 구조에 의존하지 않는 매개변수화 가능하지만 고정된 공간 ER 패턴을 사용하여 달성된다. 본 발명의 바람직한 실시 예에서, 또한 패턴은 방 안의 청취자 위치에 영향을 받지 않는다. 대신, 하나 (또는 몇 개의) 전역 특성 매개변수만 ER 패턴을 구성하는 데에 사용된다. 이러한 방식으로 패턴을 매우 효율적으로 렌더링할 수 있다.
다음 새로 발명된 ER 패턴에서는, 특히 RT60, 사전 지연 시간, 방 크기 또는 방 볼륨, 패턴 구성을 위한 RT60의 주파수 종속성과 같은 실내 음향 매개변수가 사용된다. ER 패턴은 직접 사운드과 후기 잔향 사이의 (일시적) 부드러운 전환을 생성하는 방식으로 정의된다. 이것은 중립적인 음색이어야 하고, 방의 볼륨과 표면에 따라 달라진다. 이것은 실내의 음원 및 수신자 위치에 영향을 받지 않는다.
본 발명의 목적은 전체 실내 음향 매개변수에 맞춰 청취자에 의해 그럴듯하고 설득력 있는 인식을 형성하도록 하는 것이다. 이것은 특히 청취자가 "실제" 물리적으로 정확한 ER의 렌더링과 직접 비교할 가능성이 없기 때문에, 대부분의 사용 사례에 대해 충분하다.
본 발명의 제1 측면에 따르면, 본 출원의 발명자들은 오디오 신호의 초기 반사(ER) 렌더링을 사용하려고 할 때 직면하게 되는 한 가지 문제는 초기 반사가 음원 위치와 청취자 위치 사이의 관계에 의존한다는 사실에서 비롯된다는 것을 알았다. 발명가들은 예를 들어 바닥 반사 없이 음원 위치 독립적인 ER 패턴을 고려하는 것이 가능하므로, 렌더링 결과는 여전히 꽤 좋지만 ER 렌더링은 더 쉬워진다는 것을 알았다. 렌더링에 사용되는 실내 임펄스 응답의 초기 반사 부분은 초기 반사 패턴에 의해서만(exclusively) 결정된다. 실내 임펄스 응답의 초기 반사 부분에서는 음원과 청취자 사이의 공간적 관계가 고려되지 않는다. 또한, 초기 반사 패턴의 초기 반사 위치는 청취자의 머리 방향의 변화에 따라서는 변하지 않는다. 이는 청취자가 음원을 바라보든 다른 방향을 바라보든 상관없이 동일한 ER 패턴을 사용하여 실내 임펄스 응답의 초기 반사 부분을 결정할 수 있다는 사실에 기초한다.
따라서, 본 출원의 제1 측면에 따르면, 사운드 렌더링 장치는 청취자 위치 및 음원 위치에 대한 정보를 수신하도록 구성된다. 장치는 초기 반사 부분이 초기 반사 패턴에 의해서만 결정되는 실내 임펄스 응답을 사용하여 음원의 오디오 신호를 렌더링하도록 구성된다. 초기 반사 패턴은 군집을 나타내며, 예를 들어 군집은 위치를 연결하는 선 사이의 각도로 상호간 배치를 정의하는 것과 함께 일련의 위치를 나타내고; 동의어는 초기 반사 위치의 "패턴"이다. 초기 반사 패턴은 초기 반사 위치가 청취자 위치 주위에 그리고 청취자 머리 방향의 변화에 대해 변하지 않는 청취자 위치와의 각도 방향에 위치하도록, 즉, 군집이 청취자 위치에서 병진 이동 배치되도록 청취자 위치에 배치된다.
본 발명의 제2 측면에 따르면, 본 출원의 발명자들은 오디오 신호의 초기 반사(ER) 렌더링을 사용하려고 할 때 직면하게 되는 한 가지 문제는 실외 환경에 대한 초기 반사 패턴이 매우 개별적이고 장면의 물리적 설정에 의존한다는 사실에서 비롯한다는 것을 알았다. 발명자들은 환경에 대한 적당한 분석을 사용하여 생성된 ER 패턴이 음향적으로는 설득력이 있으며 계산적으로 적당한 ER 렌더링 결과를 가져올 수 있다는 것을 알았다.
따라서, 본 출원의 제2 측면에 따르면, 사운드 연주에 대한 초기 반사 패턴을 결정하기 위한 장치는: 하나 이상의 분석 위치 각각에서, 해당 분석 위치로부터 서로 다른 거리 각각에 대해 초기 반사 기여도를 나타내는 값을 나타내는 함수를 결정하고; 하나 이상의 제어 매개변수를 도출하기 위해 하나 이상의 최대값에 관하여 상기 함수 또는 그로부터 도출된 추가 함수를 검사함으로써, 음향 환경의 기하학적 분석을 수행하도록 구성된다. 추가적으로, 장치는 하나 이상의 제어 매개변수를 사용하여 초기 반사 위치를 배치함으로써 초기 반사 위치의 군집을 나타내는 초기 반사 패턴을 결정하도록 구성된다.
본 발명의 제3 측면에 따르면, 본 출원의 발명자들은 오디오 신호의 초기 반사(ER) 렌더링을 사용하려고 할 때 직면하게 되는 한 가지 문제는 렌더링을 위해 오디오 장면의 초기 반사 패턴을 전송하면 높은 시그널링 비용이 발생할 수 있다는 사실에서 비롯한다는 것을 알았다. 발명자들은 ER 패턴이 비트스트림 힌트를 사용하여 생성되어 음향적으로는 설득력이 있고 계산적으로는 적절한 ER 렌더링 결과를 얻을 수 있음을 알았다. 비트스트림의 힌트만 사용하면, 전체 ER 패턴을 전송할 필요가 없으므로 신호 비용을 줄일 수 있다.
따라서, 본 출원의 제3 측면에 따르면, 사운드 렌더링 장치는 청취자 위치 및 음원 위치에 관한 제1 정보를 수신하도록 구성된다. 장치는 음원 위치에 위치한 음원의 오디오 신호 표현 및 하나 이상의 초기 반사 패턴 매개변수를 포함하는 비트스트림을 수신하고, 이로부터 판독하도록 구성된다. 예를 들어, 비트스트림은 비트스트림의 헤더 또는 메타데이터 필드 내부에 초기 반사 매개변수를 갖는 오디오 비트스트림이거나, 파일 형식 스트림의 패킷 내부에 초기 반사 매개변수를 갖는 파일 형식 스트림 및 오디오 신호를 나타내는 오디오 비트스트림을 포함하는 파일 형식 스트림의 트랙이다. 추가적으로, 장치는 하나 이상의 초기 반사 패턴 매개변수에 따라 초기 반사 위치의 군집을 나타내는 초기 반사 패턴을 결정하도록 구성된다. 또한, 장치는 초기 반사 패턴에 의해 초기 반사 부분이 결정되는 실내 임펄스 응답을 이용하여 음원의 오디오 신호를 렌더링하도록 구성된다. 초기 반사 패턴은 군집을 나타내고, 예를 들어, 군집은 위치를 연결하는 선 사이의 각도로 상호 배치를 정의하는 일련의 위치를 나타내고; 동의어는 초기 반영 위치의 "패턴"이다. 초기 반사 패턴은 초기 반사 위치가 청취자 위치 주위에 위치하며 청취자 머리 방향의 변화에 대해 변하지 않는 청취자 위치와의 각도 방향에 위치되도록, 즉, 군집은 청취자 위치에서 병진 이동 배치되도록 청취자의 위치에 위치된다.
본 발명의 제4 측면에 따르면, 본 출원의 발명자들은 오디오 신호의 초기 반사(ER) 렌더링을 사용하려고 할 때 직면하게 되는 한 가지 문제가 물리적으로 정확한 반사 패턴을 계산하기 위해 벽의 기하학적 구조, 객체 차단 및 기타 효과를 고려하여, 음원에서 청취자까지의 각 반사를 결정하기 위해 엄청난 양의 계산이 소비되어야 한다는 사실에서 비롯한다는 것을 알았다. 발명가들은 방 크기, 방 볼륨 또는 사전 지연과 같은 간단한 공간 음향 매개변수가 초기 반사 패턴 내의 초기 반사 위치 수를 결정하는 데 사용될 수 있음을 알았다. 초기 반사는 실내 음향 매개변수에 따라 근사화될 수 있으므로 장면의 실제 초기 반사를 분석할 필요가 없다. 발명자들은 실내 음향 매개변수에 대한 ER 수 의존성에 의한 ER 패턴 생성이 음향적으로는 설득력이 있지만 계산적으로는 적당한 ER 렌더링 결과를 가져온다는 것을 알았다.
따라서, 본 출원의 제4 측면에 따르면, 사운드 연주에 대한 초기 반사 패턴을 결정하기 위한 장치는 음향 환경의 음향 특성을 나타내는 적어도 하나의 실내 음향 매개변수를 수신하도록 구성된다. 장치는 초기 반사 위치의 개수가 적어도 하나의 실내 음향 매개변수에 의존하도록 초기 반사 위치의 군집을 나타내는 초기 반사 패턴을 결정하도록 구성된다.
본 발명의 제5 측면에 따르면, 본 출원의 발명자들은 오디오 신호의 초기 반사(ER) 렌더링을 사용하려고 할 때 직면하게 되는 한 가지 문제는 각 음원이 서로 다른 초기 반사 패턴과 연관되어 있다는 사실에서 비롯한다는 것을 알았다. 발명자들은 서로 다른 음원의 신호에 대해 서로 다른 ER 패턴을 사용할 필요가 없다는 것을 알았다. 이는 음원 청취자 관계에 따라 신호에 가중치를 부여하고 합산할 수 있으므로, ER 패턴을 기반으로 오디오 신호의 가중치 합만 렌더링된다는 생각에 기반한다. 발명자들은 하나 이상의 음원에 대해 ER 패턴을 사용하는 것에 의한 ER 변환이 음향적으로는 설득력이 있지만 계산적으로는 적당한 ER 렌더링 결과를 가져온다는 것을 알았다.
따라서, 본 출원의 제5 측면에 따르면, 사운드 렌더링 장치는 청취자 위치, 제1 음원 위치 및 제2 음원 위치에 대한 정보를 수신하도록 구성된다. 장치는 초기 반사 패턴에 의해 초기 반사 부분이 결정되는 실내 임펄스 응답을 사용하여 두 음원의 오디오 신호를 렌더링하도록 구성된다. 초기 반사 패턴은 군집을 나타내고, 예를 들어, 군집은 위치를 연결하는 선 사이의 각도로 상호 배치를 정의하는 것과 함께 일련의 위치를 나타내고; 동의어는 초기 반영 위치의 "패턴"이다. 초기 반사 패턴은 초기 반사 위치가 청취자 위치 주위에 그리고 청취자 머리 방향의 변화에 대해 변하지 않는 청취자 위치와의 각도 방향에 위치하고, 즉, 군집이 청취자 위치에서 병진 이동 배치되도록 청취자 위치에 위치된다. 장치는 상기 제1 음원 위치에 위치한 제1 음원의 제1 오디오 신호와 상기 제2 음원 위치에 위치한 제2 음원의 제2 오디오 신호의 가중합을 형성함으로써. 두 음원의 오디오 신호를 렌더링하도록 구성된다. 가중합은 제1 음원 위치와 청취자 위치 사이의 제1 거리가 제2 음원 위치와 청취자 위치 사이의 제2 거리보다 작은 경우 제2 오디오 신호보다 제1 오디오 신호에 더 큰 가중치를 부여하고, 제1 거리가 제2 거리보다 큰 경우 제1 오디오 신호보다 제2 오디오 신호에 더 큰 가중치를 부여한다. 추가적으로, 장치는 초기 반사 위치로부터 가중 합을 렌더링함으로써 실내 임펄스 응답의 초기 반사 부분과 관련된 초기 반사 기여 스피커 신호를 생성하는 것으로 두 음원의 오디오 신호를 렌더링하도록 구성된다.
본 발명의 제6 측면에 따르면, 본 출원의 발명자들은 오디오 신호의 초기 반사(ER) 렌더링을 사용하려고 할 때 직면하게 되는 한 가지 문제는 물리적으로 정확한 반사 패턴을 계산하기 위해 벽의 기하학적 구조, 객체 차단 및 기타 효과를 고려하여, 음원에서 청취자까지의 각 반사를 결정하기 위해 엄청난 양의 계산이 소비되어야 한다는 사실에서 비롯한다는 것을 알았다. 발명가들은 방 크기, 방 볼륨 또는 사전 지연과 같은 간단한 실내 음향 매개변수를 사용하여 초기 반사의 위치를 정의하는 함수를 매개변수화할 수 있다는 것을 알았다. 초기 반사는 실내 음향 매개변수에 따라 근사화될 수 있으므로 장면의 실제 초기 반사를 분석할 필요가 없다. 또한 나선형 함수는 초기 반사 위치의 우수한 분포를 제공한다는 사실도 알았다. 발명자들은 하나 이상의 나선형 함수를 사용하는 ER 패턴 생성이 지각적으로 설득력이 있고 계산적으로 적당한 ER 렌더링 결과를 가져온다는 것을 알았다.
따라서, 본 출원의 제6 측면에 따르면, 사운드 연주에 대한 초기 반사 패턴을 결정하기 위한 장치는 음향 환경의 음향 특성을 나타내는 적어도 하나의 실내 음향 매개변수를 수신하여 청취자 위치에 중심을 둔 하나 이상의 나선형 함수를 매개변수화함으로써 초기 반사 위치의 군집을 나타내는 초기 반사 패턴을 결정하고, 하나 이상의 나선형 함수를 사용하여 초기 반사 위치를 배치하도록 구성된다.
도면은 반드시 일정한 비율로 도시되는 것은 아니며, 대신 일반적으로 본 발명의 원리를 설명하는 데 중점을 두고 있다. 다음 설명에서는, 본 발명의 다양한 실시 예가 다음 도면을 참조하여 설명된다:
도 1은 초기 반사 패턴의 실시 예를 도시한다;
도 2는 나선형 함수를 사용하여 결정된 초기 반사 패턴의 실시 예를 도시한다;
도 3은 a) 시간, b) 공간적 상면도 및 c) 주파수 의존성에 대한 초기 반사 패턴의 실시 예를 도시한다;
도 4는 청취자, 직접 음원 및 반사 사이의 레벨 관계를 보여준다;
도 5는 인코더/디코더/렌더러의 간단한 ER 알고리즘의 구현을 보여준다;
도 6은 환경을 분석하여 초기 반사 패턴을 결정하는 장치를 도시한다;
도 7은 4개의 초기 반사 위치를 갖는 ER 패턴의 실시 예의 공간 상면도를 도시한다;
도 8은 기하학적인 실외 장면 분석을 보여준다;
도 9는 분석 지점의 메쉬를 보여준다;
도 10은 여러 분석 지점에 걸쳐 평균을 낸 거리에 따른 반사 표면적 분포를 보여준다;
도 11a는 실외 ER 패턴의 제1 실시 예를 도시한다;
도 11b는 실외 ER 패턴의 제2 실시 예를 도시한다;
도 12는 서로 다른 distAlpha 값에 대한 점 음원의 거리에 따른 진폭 감소를 보여준다;
도 13은 거리 가중을 사용하여 서로 다른 오디오 음원을 하나의 음원 신호로 합산하는 것을 나타내는 블록도를 보여준다;
도 14는 청취자, 두 개의 직접 음원 및 합산된 반사 사이의 레벨 관계를 보여준다;
도 15는 전반적인 렌더링 프로세스를 예시적으로 도시한다;
도 16은 사운드 렌더링 장치의 일 실시 예를 도시한다;
도 17은 ER 패턴 매개변수를 사용하는 사운드 렌더링을 위한 장치의 실시 예를 도시한다;
도 18은 실내 음향 매개변수에 따라 ER 패턴을 결정하기 위한 장치의 실시 예를 도시한다;
도 19는 2개 이상의 음원 신호의 가중 합을 렌더링하기 위한 장치의 실시 예를 도시한다;
도 20은 나선형 함수를 사용하는 ER 패턴을 결정하기 위한 장치의 실시 예를 도시한다;
도 21은 음향실 시뮬레이션 프로그램 RAVEN으로 생성된 모노포닉 2차 RIR의 예를 도시한다
도 22는 직접 사운드와 사전 지연 시간 0.13초에서 시작하는 후기 잔향이 있고, ER은 없는, RIR을 도시한다;
도 23은 1차 반사와 후기 잔향(왼쪽), 상면도(오른쪽)가 있는 RIR을 도시한다;
도 24는 직접 사운드(왼쪽), 상면도(오른쪽)에 나란히 두 개의 반사가 있는 RIR을 도시한다; 및
도 25는 "SPAT" 패턴(왼쪽), 상면도(오른쪽)가 있는 RIR를 도시한다.
도 1은 초기 반사 패턴의 실시 예를 도시한다;
도 2는 나선형 함수를 사용하여 결정된 초기 반사 패턴의 실시 예를 도시한다;
도 3은 a) 시간, b) 공간적 상면도 및 c) 주파수 의존성에 대한 초기 반사 패턴의 실시 예를 도시한다;
도 4는 청취자, 직접 음원 및 반사 사이의 레벨 관계를 보여준다;
도 5는 인코더/디코더/렌더러의 간단한 ER 알고리즘의 구현을 보여준다;
도 6은 환경을 분석하여 초기 반사 패턴을 결정하는 장치를 도시한다;
도 7은 4개의 초기 반사 위치를 갖는 ER 패턴의 실시 예의 공간 상면도를 도시한다;
도 8은 기하학적인 실외 장면 분석을 보여준다;
도 9는 분석 지점의 메쉬를 보여준다;
도 10은 여러 분석 지점에 걸쳐 평균을 낸 거리에 따른 반사 표면적 분포를 보여준다;
도 11a는 실외 ER 패턴의 제1 실시 예를 도시한다;
도 11b는 실외 ER 패턴의 제2 실시 예를 도시한다;
도 12는 서로 다른 distAlpha 값에 대한 점 음원의 거리에 따른 진폭 감소를 보여준다;
도 13은 거리 가중을 사용하여 서로 다른 오디오 음원을 하나의 음원 신호로 합산하는 것을 나타내는 블록도를 보여준다;
도 14는 청취자, 두 개의 직접 음원 및 합산된 반사 사이의 레벨 관계를 보여준다;
도 15는 전반적인 렌더링 프로세스를 예시적으로 도시한다;
도 16은 사운드 렌더링 장치의 일 실시 예를 도시한다;
도 17은 ER 패턴 매개변수를 사용하는 사운드 렌더링을 위한 장치의 실시 예를 도시한다;
도 18은 실내 음향 매개변수에 따라 ER 패턴을 결정하기 위한 장치의 실시 예를 도시한다;
도 19는 2개 이상의 음원 신호의 가중 합을 렌더링하기 위한 장치의 실시 예를 도시한다;
도 20은 나선형 함수를 사용하는 ER 패턴을 결정하기 위한 장치의 실시 예를 도시한다;
도 21은 음향실 시뮬레이션 프로그램 RAVEN으로 생성된 모노포닉 2차 RIR의 예를 도시한다
도 22는 직접 사운드와 사전 지연 시간 0.13초에서 시작하는 후기 잔향이 있고, ER은 없는, RIR을 도시한다;
도 23은 1차 반사와 후기 잔향(왼쪽), 상면도(오른쪽)가 있는 RIR을 도시한다;
도 24는 직접 사운드(왼쪽), 상면도(오른쪽)에 나란히 두 개의 반사가 있는 RIR을 도시한다; 및
도 25는 "SPAT" 패턴(왼쪽), 상면도(오른쪽)가 있는 RIR를 도시한다.
동일하거나 등가의 요소 또는 동일하거나 등가의 기능을 갖는 요소는 다른 도면에 나타내는 경우에도 다음 설명에서는 동일하거나 등가의 참조 번호로 표시된다.
다음 설명에서, 본 발명의 실시 예의 전체 설명을 통해 더 많은 세부사항을 제공하기 위해 복수의 세부사항이 설명된다. 하지만, 본 발명의 실시 예가 이러한 특정 세부사항 없이도 실시될 수 있다는 것은 당업자에게 명백할 것이다. 다른 경우에, 본 발명의 실시 예가 모호해지는 것을 피하기 위해 잘 알려진 구조 및 장치는 상세하게 설명하기보다는 블록도 형태로 도시한다. 또한, 달리 구체적으로 언급하지 않는 한, 이후에 설명되는 다양한 실시 예의 특징은 서로 결합될 수 있다.
다음에서, 초기 반사 처리 개념을 사용할 때 감소된 오디오 렌더링 복잡성을 달성하는 데 도움이 될 수 있는 다양한 예가 설명된다. 본 명세서에서 논의된 단순화된 초기 반사 처리 개념은 예를 들어 발견적으로 설계된 다른 초기 반사 처리 개념에 추가될 수 있거나 독점적으로 제공될 수 있다.
본 출원의 다음 실시 예의 이해를 용이하게 하기 위해, 본 발명의 일 실시 예에 따른 초기 반사 패턴(1)에 대한 일반적인 제시로 설명을 시작한다. 도 1의 초기 반사 패턴(1)과 관련하여 설명된 특징은 본 명세서에 설명된 임의의 다른 초기 반사 패턴(1)에도 적용될 수 있다.
초기 반사 패턴(1)은 초기 반사 위치(ERP)의 군집을 나타낸다(ERP1 및 ERP2 참조). 예를 들어, 이 군집은 예를 들어 패턴(1)의 중심(2)과 위치를 연결하는 선 사이의 각도 α로 상호 배치를 정의하는 것과 함께 위치 ERP의 군집을 나타낸다. 군집의 동의어는 "패턴"이다.
초기 반사 위치(ERP), 즉 초기 반사의 위치는 오디오 신호의 초기 반사가 발생할 수 있는 환경(5), 예를 들어 실내 공간 또는 실외 공간의 위치를 표시하거나 식별할 수 있다. 예를 들어, 초기 반사 패턴(1)의 중심(2)에 위치한 청취자는 초기 반사 위치(ERP)에서 나오는 초기 반사를 인지할 수 있다. 다른 말로, 초기 반사 위치(ERP)는 초기 반사 패턴(1)의 중심에 위치한 청취자가 초기 반사를 수신하는 위치를 의미할 수 있다.
초기 반사 패턴(1)은 예를 들어, 초기 반사 위치(ERP)가 청취자 위치(10)의 주위에 그리고 청취자의 머리 방향의 변화에 대해 변하지 않는 청취자 위치(10)와의 각도 방향에 위치되도록 하는 방식으로 청취자 위치(10)에 위치되고, 즉 군집은 청취자 위치(10)에 병진 운동으로 배치된다. 예를 들어, 초기 반사 위치(ERP)는 청취자 위치(10) 주위에 실질적으로 균일하게 방식으로 각지게 분포되도록 결정될 수 있다.
실시 예에 따르면, 초기 반사 패턴(1), 즉 초기 반사 위치(ERP)가 결정될 수 있으므로, 각각의 초기 반사 위치(ERP1/ERP2)와 청취자 위치(10) 사이의 연결선(도 1의 7 및 8 참조)은 서로 겹치지 않도록, 즉 서로 구별되도록 한다. 이는 균일한 분포를 허용하고 환경(5)에서 초기 반사 위치가 축적되는 것을 방지한다.
도 1에 도시된 바와 같이, 초기 반사 패턴(1)의 중심(2)은 청취자의 위치(10)에 위치할 수 있다. 초기 반사 패턴(1)의 중심(2)은 청취자의 위치(10)에 연결될 수 있으며, 초기 반사 패턴(1)은 청취자와 함께 병진 이동할 수 있다. 하지만, 청취자의 회전 움직임은 초기 반사 위치(ERP)를 변경하지 않는데, 즉, 초기 반사 패턴(1)은 청취자의 회전 움직임을 따르지 않는다.
일 실시 예에 따르면, 초기 반사 위치(ERP)는 청취자 위치(10)과 함께 수평면에 있다.
실시 예에 따르면, 오디오 렌더링 또는 초기 반사 패턴 생성을 위한 장치는 렌더링될 오디오 신호의 표현을 포함하는 비트스트림의 패턴 방위각 매개변수에 따라 군집의 방위각 회전을 조정하는 것으로 초기 반사 위치(ERP)를 결정하도록 구성될 수 있다. 다시 말해서, 완전한 초기 반사 패턴(1)은 예를 들어 특정 환경에서(5), 실제 초기 반사에 더 잘 근접하도록 회전될 수 있다. 이러한 방위각 회전은 움직임, 예를 들어 청취자의 회전 움직임에 대한 반응으로 수행되지 않는다. 이러한 군집의 방위각 회전 조정은 초기 반사 패턴(1)의 초기 결정 시 수행될 수 있다. 초기 반사 패턴(1)이 결정되면 모든 초기 반사 위치(ERP)는 청취자 위치(10)의 병진 이동에 반응하여 동일한 병진 이동만을 겪을 수 있다. 패턴(1)의 중심(2)을 기준으로 초기 반사 위치(ERP)의 배열은 군집의 방위각 회전 조정을 통해 결정될 수 있다. 패턴(1)이 결정되면, 이는 더 이상 조정되지 않을 수 있고, 즉, 청취자 위치의 이동은 초기 반사 위치(ERP)와 패턴(1)의 중심(2) 사이의 상대적 배열을 변경하지 않는다.
일 실시 예에 따르면, 음향 환경의 음향 특성을 나타내는 적어도 하나의 실내 음향 매개변수가 초기 반사 패턴 결정 시 고려될 수 있다. 적어도 하나의 실내 음향 매개변수는 방 크기, 방 볼륨 및 후기 잔향까지의 사전 지연 시간 중 하나 이상을 포함한다. 바람직하게, 적어도 하나의 실내 음향 매개변수는 이러한 음향 환경의 음향 특성 중 하나만을 포함한다. 적어도 하나의 실내 음향 매개변수는 비트스트림으로부터, 예를 들어, 초기 반사 패턴(1)을 사용하여 렌더링될 오디오 신호의 표현을 포함하는 비트스트림으로부터 수신되거나 판독될 수 있다.
일 실시 예에 따르면, 초기 반사 패턴(1)은 초기 반사 위치의 수가 적어도 하나의 실내 음향 매개변수에 의존하고 및/또는 초기 반사 위치의 상호 간격이 적어도 하나의 실내 음향 매개변수에 따라 변경/적응되도록 결정될 수 있다. 예를 들어, 초기 반사 위치의 상호 간격은 청취자 위치를 중심으로 한 중앙 확장에 따라 달라진다.
일 실시 예에 따르면, 패턴(1)의 초기 반사 위치(ERP)의 개수는:
방 크기가 클수록 개수가 많아지고 및/또는 청취자 위치에서 가장 먼 초기 반사 위치는 멀어지고, 또는
방 볼륨이 클수록 개수가 커지고 및/또는 청취자 위치에서 가장 먼 초기 반사 위치는 멀어지고, 또는
후기 잔향까지의 사전 지연 시간이 클수록 개수가 커지고 및/또는 청취자 위치에서 가장 먼 초기 반사 위치는 멀어지도록 결정될 수 있다.
"청취자 위치에서 가장 먼 초기 반사 위치"에 의하면, "초기 반사 위치 중 청취자 위치까지 최대로 멀리 떨어진 위치의 거리"로 이해된다. 일 실시 예에 따르면, 초기 반사 위치(ERP)는 패턴(1)의 중심(2) 근처에 배치되고, 초기 반사 위치(ERP)가 패턴(1)에 포함될수록 중심(2)에서 가장 먼 초기 반사 위치가 된다.
일 실시 예에 따르면, 초기 반사 위치(ERP)의 상호 간격은 방 크기, 방 볼륨 또는 후기 잔향에 대한 사전 지연 시간이 증가함에 따라 각 초기 반사 위치(ERP)에서 중심(2)까지의 거리를 균일하게 증가시킴으로써 적어도 하나의 실내 음향 매개변수에 따라 변경/적응될 수 있다. 선택적으로, 초기 반사 위치(ERP)의 상호 간격은 적어도 하나의 실내 음향 매개변수에 따라 변경/적응될 수 있으므로, 초기 반사 위치(ERP) 중 최대로 떨어진 위치에서 청취자 위치(10)까지의 거리는 방의 크기가 클수록, 방의 부피가 클수록, 또는 후기 잔향까지의 사전 지연 시간이 길수록 커지게 되고, 이 때 거리는 사전 지연 시간보다 작다. 이를 통해 초기 반사 위치(ERP)의 균일한 분포가 가능해지며 음향적으로 설득력 있는 ER 렌더링 결과를 얻을 수 있다. 방 크기, 방 볼륨 또는 후기 잔향까지의 사전 지연 시간이 증가할 때 초기 반사 위치(ERP) 중 최대로 떨어진 위치에서 청취자 위치(10)까지의 거리가 초기 반사 위치(ERP) 중 가장 가까운 거리에서 청취자 위치(10)까지의 거리보다 증가하는 경우 바람직할 수 있다.
도 2는 오디오 신호의 초기 반사 처리에 사용 가능한 초기 반사 패턴(1)의 실시 예를 도시한다. 초기 반사 패턴(1)은 초기 반사 위치(ERP)을 포함한다. 도 2의 ERP11 내지 ERP15(ERP1) 및 ERP21 내지 ERP25(ERP2)를 참조한다. 도 2는 예시적인 10개의 초기 반사 위치(ERP)를 도시한다. 그러나, 초기 반사 패턴(1)이 서로 다른 개수의 초기 반사 위치(ERP)를 포함할 수 있다는 것은 분명하다. 초기 반사 패턴(1)은 2개 이상의 초기 반사 위치(ERP), 예를 들어 초기 반사 위치(ERP11 및 ERP21)만을 포함할 수 있다.
도 2에 도시된 바와 같이, 청취자 위치, 즉 중심(2)에 중심을 둔 두 개의 나선형 함수(3 및 4)는 초기 반사의 위치, 즉 환경(5) 내에서 초기 반사 위치(ERP)를 정의할 수 있다. 하지만, 초기 반사의 위치는 단 하나의 나선형 함수(3 또는 4) 또는 두 개 이상의 나선형 함수에 의해 대안적으로 정의될 수 있다는 것이 분명하다. 오디오 렌더링을 위한 장치 또는 초기 반사 패턴(1)을 생성하기 위한 장치는 환경(5)에서 초기 반사 패턴(1)을 결정하기 위해 하나 이상의 나선형 함수(3, 4)를 사용하여 초기 반사 위치(ERP)를 배치하도록 구성될 수 있다. 예를 들어, 각각의 장치는 제1 나선형 함수(3)를 사용하는 제1 세트의 초기 반사 위치(ERP1)(ERP11 내지 ERP15 참조) 및 제2 나선형 함수(4)를 사용하는 제2 세트의 초기 반사 위치(ERP2)(ERP21 내지 ERP25 참조)를 배치하도록 구성될 수 있다.
제1 세트의 초기 반사 위치(ERP1) 각각은 제2 세트의 초기 반사 위치(ERP2)의 대응하는 초기 반사 위치와 연관된다. 예를 들어, 초기 반사 위치(ERP11)은 대응하는 초기 반사 위치(ERP21)과 연관될 수 있고, 초기 반사 위치(ERP12)는 대응하는 초기 반사 위치(ERP22)와 연관될 수 있고, 초기 반사 위치(ERP13)은 대응하는 초기 반사 위치(ERP23)과 연관될 수 있고, 초기 반사 위치(ERP14)는 대응하는 초기 반사 위치(ERP24)와 연관될 수 있고, 초기 반사 위치(ERP15)는 대응하는 초기 반사 위치(ERP25)와 연관될 수 있다. 제1 세트의 초기 반사 위치(ERP1)의 각각에 대해, 각각의 초기 반사 위치(ERP1)는 각각의 초기 반사 위치(ERP1)와 제2 초기 반사 위치 세트(ERP2)의 대응 초기 반사 위치(ERP2) 사이의 연결선을 수직으로 교차하는 선의 반대편에 위치한다. 이렇게 하면 청취자가 여러 방향에서 초기 반사음을 수신하고 한 영역에 초기 반사 위치가 축적되는 것을 방지할 수 있다. 나선형 함수를 사용한 이러한 위치 지정은 환경(5)에서 초기 반사 위치의 균일한 분포를 가능하게 하여, 결과적으로 음향적으로는 설득력이 있지만 계산적으로는 적절한 오디오 신호의 초기 반사 렌더링 결과를 제공한다.
도 2는 제1 세트의 초기 반사 위치(ERP1) 각각에 대해, 제2 세트의 초기 반사 위치(ERP2)의 해당 초기 반사 위치(ERP2)가 제1 세트의 초기 반사 위치(ERP1)의 모든 초기 반사 위치(ERP1)에 대해 공통인 각도 방향으로 연결선에 대해 각도가 오프셋되어 있는 예를 보여준다.
일 실시 예에 따르면, 오디오 렌더링 또는 초기 반사 패턴 생성 장치(1)는 두 개의 나선형 함수(3 및 4)를 사용하여 초기 반사 위치(ERP1 및 ERP2)를 배치하도록 구성될 수 있으므로,
- 제1 세트의 초기 반사 위치(ERP1) 각각은 제2 세트의 초기 반사 위치(ERP2)의 대응하는 초기 반사 위치와 연관되고,
- 제1 세트의 초기 반사 위치(ERP1) 각각에 대해, 각각의 초기 반사 위치(ERP1)는 패턴 중심(2)을 통과하는 축과 패턴 중심(2)에서 수직으로 교차하는 각 선의 측면 및 제1 세트의 초기 반사 위치(ERP1) 각각의 초기 반사 위치(ERP1)에 위치하고 제2 세트의 초기 반사 위치(ERP2)의 각각의 대응하는 초기 반사 위치(ERP2)는 각각의 선의 반대편에 위치되고,
- 제2 세트의 초기 반사 위치(ERP2)의 각각의 해당 초기 반사 위치(ERP2)는 제1 세트의 초기 반사 위치(ERP1)의 모든 초기 반사 위치(ERP1)에 대해 공통적이고 및/또는 제2 세트의 초기 반사 위치(ERP2)의 모든 초기 반사 위치(ERP2)에 대해 공통인 각도 방향으로 각각의 축에 대해 각도가 오프셋된다(해당 초기 반사 위치(ERP11 및 ERP21)에 대해서는 γ 참조).
하나 이상의 나선 함수(3, 4)는 극좌표(r, β)에서 초기 반사 위치(ERP)를 정의할 수 있고, 제1 세트의 초기 반사 위치(ERP1)의 초기 반사 위치(ERP1)을 정의하기 위한 (r11-5, β11-5) 및 제2 세트의 초기 반사 위치(ERP2)의 초기 반사 위치(ERP2)를 정의하기 위한 (r21-5, β21-5)를 참조한다.
이하 더 자세히 설명하는 바와 같이, 특히 섹션 1 "실내 ER 매개변수 계산"을 참조, 하나 이상의 나선형 함수(3, 4)는 적어도 하나의 실내 음향 매개변수에 따라 매개변수화될 수 있으며, 즉, 각각의 나선형 함수(3, 4)는 적어도 하나의 실내 음향 매개변수에 따라 각각의 초기 반사 위치(ERP)를 정의한다. 적어도 하나의 실내 음향 매개변수는 방 크기, 방 볼륨 및 후기 잔향까지의 사전 지연 시간 중 하나 이상을 포함한다. 적어도 하나의 실내 음향 매개변수는 음향 환경(5)의 음향 특성을 나타낼 수 있다.
예를 들어, 하나 이상의 나선형 함수(3, 4)는 적어도 하나의 실내 음향 매개변수에 따라 매개변수화될 수 있으므로,
- 초기 반사 위치(ERP)의 개수는 방의 크기가 클수록 커지거나 방의 부피가 클수록 커지거나, 후기 잔향에 대한 사전 지연 시간이 길수록 커지고; 및/또는
- 각 초기 반사 위치(ERP)에 대해, 초기 반사 패턴(1)의 중심(2)에 대한 각 초기 반사 위치(ERP)의 거리는 방의 크기가 클수록 커지거나, 방의 부피가 클수록 커지거나, 후기 잔향에 대한 사전 지연 시간이 길수록 커진다.
실시 예에 따르면, 오디오 렌더링 또는 초기 반사 패턴 생성 장치(1)는 하나 이상의 나선 함수를 매개변수화하고 초기 반사 위치(ERP)의 수를 결정하도록 구성되므로 초기 반사 위치 중 최대로 떨어진 위치에서 청취자 위치까지의 거리는 방 크기가 클수록, 또는 방의 부피가 클수록, 또는 후기 잔향까지의 사전 지연 시간이 길수록 커지고 이 때 거리는 사전 지연 시간보다 작다.
일 실시 예에 따르면, 오디오 렌더링을 위한 장치 또는 초기 반사 패턴을 생성하기 위한 장치(1)는 초기 반사 패턴의 서로 다른 결정을 지원하도록 구성될 수 있다. 오디오 렌더링 또는 초기 반사 패턴(1)을 생성하기 위한 장치는 환경(5)에 따라 판단 유형을 선택하도록 구성될 수 있다. 예를 들어, 하나 이상의 나선형 함수(3, 4)를 사용하는 초기 반사 패턴(1)의 결정, 예를 들어 제1 결정 및/또는 초기 반사 위치의 수가 적어도 하나의 실내 음향 매개변수에 따라 달라지는 방식으로 초기 반사 패턴(1)의 결정, 예를 들어 제1 결정은 방과 같은 실내 환경과 연관될 수 있다(특히 섹션 1 "실내 ER 매개변수 계산" 참조). 이러한 결정, 예를 들어 제1 결정은 음향 환경(5)이 실내 환경인 경우 또는 또는 미리 결정된 상태를 가정하여 렌더링될 오디오 신호의 표현을 포함하는 비트스트림의 패턴 유형 인덱스의 경우 선택될 수 있다. 대체 결정, 예를 들어, 제2 결정은 섹션 3 "실외 ER 패턴"에 자세히 설명되어 있다.
위에서 이미 설명한 바와 같이, 새로 발명된 실내용 ER 패턴(1) 중 하나는 두 개의 나선형으로 구성되어 있다(도 3 참조). 이 패턴(1)은 클러스터링 없이 시간이 지남에 따라 균일한 분포를 제공하면서 청취자(10) 주변의 모든 방향을 포괄하는 이점을 갖는다. 초기 반사(ER)의 수는 방의 크기에 맞게 조정할 수 있으며, 이는 후기 잔향의 사전 지연에서 도출될 수도 있다. RT60의 주파수 종속성은 ER의 주파수 종속성을 정의할 수도 있다. RT60 또는 평균 흡수 계수는 일반 거리 영향 외에 추가적인 증폭을 정의한다. RT60의 주파수 의존성으로부터 초기 반사의 주파수 응답을 RT60에 설명된 전체 흡수 동작에 적응시키기 위해 간단한 쉘빙 필터가 계산된다. 도 3은 a) 시간, b) 공간 상면도, c) 주파수 종속성에 대한 새로운 ER 패턴(1)을 보여준다.
1 실내 ER 매개변수 계산
실내 ER 매개변수 계산에 대한 다음 설명은 도 2와 도 3을 참조한다.
나선형 패턴, 즉 제1 나선형 함수(3) 및 제2 나선형 함수(4)에 대한 가변 매개변수는 주로 사전 지연 시간에 의해 설정된다. 예를 들어, 후기 잔향에 대한 사전 지연 시간, 예를 들어,
이 사용된다.
매개변수는 방의 사전 지연에 따라 설정되며, 이는 후기 잔향의 시작을 정의하고 수학식 1로 계산된다.
NumER은 초기 반사 위치의 수를 나타낸다.
제1 나선형 함수(3)와 제2 나선형 함수(4)가 사용되므로 제1 세트의 초기 반사 위치(ERP1)는 극좌표에서 (r1; β1)로 결정되고 제2 세트의 초기 반사 위치(ERP2)는 극좌표에서 (r2; β2)로 결정된다. 두 개의 나선형 패턴에 의한 ER 위치의 방위각 및 반경 계산은:
(1)
(2)
상수 distfactor는 위에서 언급한 상수 distFac에 대응할 수 있다. 실시 예에 따르면, distfactor는 적어도 실내 음향 매개변수에 기초하여 결정될 수 있으며, 예를 들어, distfactor는 후기 잔향에 대한 사전 지연 시간이 길수록 커지도록 결정될 수 있다.
도 2에서 볼 수 있는 바와 같이, 극축(6)은 초기 반사 패턴(1)의 중심(2)을 통과한다. 초기 반사 패턴(1)의 원점, 즉 중심(2)은 극을 나타낸다. 광선은 기준 방향, 즉 극축(6)을 나타내는 극점에서 진행되므로, 제1 세트의 초기 반사 위치(ERP1)의 초기 반사 위치(ERP1(1-5))의 각도 좌표를 정의하는 방위각(β1(1- 5)) 및 제2 세트의 초기 반사 위치(ERP2)의 초기 반사 위치(ERP2(1-5))의 각도 좌표를 정의하는 방위각(β2(1-5))은 극축(6)에서의 각도를 나타낸다. 초기 반사 위치(ERP1)의 반경 좌표는 기준 방향을 향하고, 초기 반사 위치(ERP)의 반경 좌표는 기준 방향과 반대 방향을 향한다(도 2 및 수학식 4와 5 참조).
사운드 렌더링을 위한 장치는 예를 들어, 각 초기 반사 위치와 청취자 위치의 거리에 따라 레벨이 조정되는 방식으로, 초기 반사 위치(ERP)로부터 하나 이상의 음원의 오디오 신호의 변환을 수행함으로써 실내 임펄스 응답의 초기 반사 부분과 관련된 초기 반사 기여 스피커 신호를 생성하도록 구성될 수 있다(예를 들어 위의 amp1 및 amp2 결정 참조). 예를 들어, 제1 세트의 초기 반사 위치(ERP1) 각각에 대해, 음원의 오디오 신호는 레벨 amp1에서 각각의 초기 반사 위치(ERP1)로부터 렌더링되고, 제2 세트의 초기 반사 위치(ERB2) 각각에 대해, 음원의 오디오 신호는 레벨 amp2에서 각각의 초기 반사 위치(ERP2)로부터 렌더링된다.
반사의 진폭은 영향을 미치는 여러 매개변수에 따라 달라진다:
a) 표준 거리 법칙(거리 두 배마다 계수 2 감소)
b) 다음에 의한 수정
[수학식 6]
ampCorrection=ampFac·(1-absorption)/slDistance
이 때 slDistance는 음원 청취자 거리를 나타낸다. ampFac 및 absorption 항은 상수를 나타낸다.
도 4에서 나타낸 바와 같이, 반사와 직접 음원 레벨 간의 레벨 관계는 고정되어 있다. 본 명세서에서 표시된 5개 음원(1개 직접 음원 및 4개 초기 반사)의 레벨은 음원-청취자 거리(sl 거리)에 따라 위아래로 이동한다. 도 4는 청취자, 직접 음원 및 반사 사이의 레벨 관계를 보여준다.
각 초기 반사 위치에서 청취자 위치까지의 거리에 따라 조절된 레벨로 각 초기 반사 위치로부터의 음원의 오디오 신호를 렌더링하는 것은,
레벨 오프셋을 이용하여 각각의 초기 반사 위치로부터 음원의 오디오 신호가 렌더링되는 레벨을 오프세팅(20)하거나, 레벨 요소를 사용하여 이를 증폭하고(오프셋과 요소는 모든 초기 반사 위치에 대해 공통임), 진폭 보정 계수에 따라 레벨 오프셋 또는 레벨 계수를 설정하여(수학식 6 참조) 수행될 수 있다.
예를 들어, 제1 세트의 초기 반사 위치(ERP1)의 각각에 대해, 음원의 오디오 신호가 각각의 초기 반사 위치(ERP1)에서 렌더링되는 레벨 amp1은 ampCorrection만큼 오프셋되고(수학식 6 참조), 제2 세트의 초기 반사 위치(ERP2)의 각각에 대해, 음원의 오디오 신호가 각각의 초기 반사 위치(ERP2)로부터 렌더링되는 레벨 amp2는 ampCorrection에 의해 오프셋된다(수학식 6 참조). 진폭 보정 계수, 즉 수학식 6의 ampCorrection은 오디오 신호의 표현을 포함하는 비트스트림에 포함될 수 있다. 실시 예에 따르면, 진폭 보정 계수는 하나 이상의 초기 반사 패턴 매개변수에 포함된다.
일 실시 예에 따르면, 각 초기 반사 위치에서 청취자 위치까지의 거리에 따라 레벨이 조정되는 방식으로 각 초기 반사 위치로부터의 음원의 오디오 신호를 렌더링하는 단계는 거리 감쇠(amp1 및 amp2)에 따라 음원 위치의 오디오 신호 렌더링 장치가 사용하는 레벨 조정에 비해 각 초기 반사 위치와 청취자 위치의 거리에 따라 레벨 조정을 수정하여 수행할 수 있다. 거리 감쇠는 오디오 신호의 표현을 포함하는 비트스트림에 포함될 수 있다. 일 실시 예에 따르면, 감쇠는 하나 이상의 초기 반사 패턴 매개변수에 포함된다.
도 4에서 도시된 바와 같이, 렌더링 시, 음원의 오디오 신호가 각각의 초기 반사 위치에서 렌더링되는 레벨은 오프셋되고(20), 이 때 동일한 오프셋이 초기 반사 패턴(1)의 모든 초기 반사 위치(ERP)에 대해 적용된다. 게다가 렌더링 시, 음원의 오디오 신호가 각각의 초기 반사 위치로부터 렌더링되는 레벨은 예를 들어 보정된 거리 법칙을 사용하여 각각의 초기 반사 위치와 청취자 사이의 거리에 따라 감쇠될 수 있다.
단일 음원의 오디오 신호에 대해 전술한 바와 같이, 이 렌더링 기술을 두 개 이상의 음원의 두 개 이상의 오디오 신호에 적용하는 것도 가능하고, 여기서 특수 렌더링은 2개 이상의 오디오 신호의 가중 합에 적용된다. 가중 합의 계산에 대해서는 섹션 5에서 자세히 설명한다.
2 VR 시스템의 구현
도 5는 인코더/디코더 환경에서 단순 ER 소프트웨어 알고리즘의 구조도를 도시한다. 도 5는 인코더 및 디코더/렌더러에서 간단한 ER 알고리즘의 구현을 도시한. 먼저, 미리 정의된 ER 패턴을 사용할지 여부를 결정한다. 다음 결정은 내부 또는 외부 ER 패턴에 대한 것이다. 실내 패턴의 경우 추가 매개변수를 전송할 필요가 없다. ER 패턴은 이미 존재하는 음향 장면 매개변수로부터 계산된다. 실외 패턴의 경우 장면의 기하학적 구조가 분석된다. 이러한 매개변수는 전송되고 ER 실외 패턴은 디코더에서 계산된다. 자세한 내용은 섹션 3을 참조한다. 한 음향 환경에서 다음 음향 환경으로의 전환에 대해서는 섹션 4를 참조한다. 한 장면에서 여러 오디오 음원을 처리하기 위해 섹션 5를 참조한다.
3 실외 ER 패턴
도 6에 도시된 실시 예는 사운드 연주에 대한 초기 반사 패턴(1)을 결정하기 위해, 하나 이상의 분석 위치(50) 각각에서(501 내지 505 참조) 각각의 분석 위치(50)로부터의 서로 다른 거리(114) 각각에 대해 초기 반사 기여도(116)를 나타내는 값을 나타내는 함수(112)를 결정하여, 음향 환경(5)의 기하학적 분석(110)을 수행하도록 구성된 장치(100)에 관한 것이다. 함수(112) 또는 그로부터 도출된 추가 함수는 하나 이상의 최대값(118)에 대해 분석되어 하나 이상의 제어 매개변수(120)를 도출한다. 추가적으로, 장치(100)는 하나 이상의 제어 매개변수를 사용하여 초기 반사 위치를 배치하여, 초기 반사 위치(ERP)의 군집을 나타내는 초기 반사 패턴(1)을 결정하도록 구성된다(ERP1 내지 ERP4 참조). 장치(100)의 특징은 이하에서 더 자세히 설명된다.
특히 실외 장면에 대해 제한되지 않지만 4개의 대략 교차 위치하는 ER이 있는 새로운 패턴(1)이 설계된다(도 7 참조). 도 7은 4개의 초기 반사 위치(ERP1 내지 ERP4)를 갖는 새로운 ER 패턴(1)의 공간 상면도를 도시한다. 서로 다른 거리, 즉 각각의 초기 반사 위치와 중심(2) 사이의 각각의 거리는 본 명세서에서 장면, 즉 환경(5)의 기하학적 분석(110)으로부터 도출되는 사전 지연 시간과 압축 계수에 의해 정의될 수 있다.
알려진 실외 환경에 대한 ER 패턴의 사용은 매우 개별적이며 현장의 물리적 설정에 따라 달라진다. 이하 설명되는 기하학적 분석(110)은 ER의 인식과 관련된 실외 장면, 즉 환경(5)의 인식적으로 중요한 특성을 포착한다.
도 8은 기하학적인 실외 장면 분석을 도시한다. A) 분석 지점 주변을 링 상면도. B) 링의 높이가 증가하는 분석 지점 주변의 측면도. 중앙 청취 지점, 예를 들어, 분석 지점(50)으로부터, 동심 링이 배치된다. 반경과 높이로 정의된 링의 면적은 이 거리에서 가능한 최대 반사 에너지를 나타낸다(도 8 참조). 링 사이에는 간격 d(예를 들어, 3m)이 있다. 각도 간격 α(예를 들어, 6°)의 광선은 분석 지점(50)에서 전송된다. 부딪힌 제1 표면은 이 거리의 기존 반사 표면으로 계산되어 링에 걸쳐 합산된다. 이 접근 방식을 사용하면, 각각의 분석 위치(50)로부터의 서로 다른 거리 각각에 대해 초기 반사 기여도를 나타내는 값을 나타내는 함수(112)를 결정하는 것이 가능하다. 이 함수는 분석 지점(50) 각각에 대해 결정될 수 있다.
다시 말해서, 방사형 샘플링 결과를 얻기 위해 음향 환경(5)은 가장 가까운 반사 표면 거리에 대해 방사형으로 샘플링된다. 추가적으로, 함수(112)를 획득하기 위해 방사상 샘플링 결과에 대한 방사상 적분 및 방사상 샘플링 결과의 가중이 수행될 수 있다. 가중치는 거리가 증가함에 따라 초기 반사 기여도를 감소시키기 위해 방사상 거리에 따라 수행될 수 있다.
도 9는 상면도 a)와 측면도 b)에서의 분석 지점(50)의 메쉬를 도시한다. 점선은 장면, 즉 환경(5)의 사용자 도달 영역을 나타낸다. 사용자가 접근할 수 있는 영역의 내부에는 여러 분석 지점(예를 들어, 9)이 있다(도 9 참조). 이것은 지점 중 일부가 장면의 기하학적 메시 내부에 있고 선택을 취소해야 하기 때문에 3D 메시이다.
대안적으로, 각각의 분석 포인트에 대해 해당 함수(112)를 분석하기 위해, 하나 이상의 분석 위치에서 결정된 함수(112)를 합산, 예를 들어, 평균화하여 도 10에 도시된 추가 함수(112')를 생성하는 것이 효율성 측면에서 유리하다. 모든 메쉬 포인트에 대한 데이터를 평균화하고 분포를 분석할 수 있다. 이는 공간과 거리에 걸쳐 반사되는 실외 에너지를 나타낸다(도 10 참조). 도 10은 여러 분석 지점(50)에 대해 평균을 낸 거리에 따른 반사 표면적 분포를 도시한다.
도 10에서 도시된 바와 같이, 개별 분석 지점과 연관된 함수로부터 도출된 추가 함수(112')는 하나 이상의 제어 매개변수(120)로서 2개의 가장 큰 극대(1181) 중 가장 가까운 것에 대한 제1 진폭(a1) 및 제1 거리(p1), 및 2개의 가장 큰 극대(1182) 중 가장 먼 것에 대한 제2 진폭(a2) 및 제2 거리(p2)를 도출하기 위해 두 개의 가장 큰 최대값에 대해 검사된다. 대안적으로, 개별 분석 지점과 연관된 각각의 기능으로부터 하나 이상의 제어 매개변수(120)를 도출하는 것이 가능하다.
진폭(a1 및 a2)은 이들의 거리(p1 및 p2)와 함께, 예를 들어 실외 ER 패턴(1)을 계산하기 위한 입력 값이다. 실외 ER 패턴(1)은 4개의 ER로 구성된다(도 11a 참조).
도 11a에 도시된 실시 예에 따르면, ER 패턴(1)은,
p2에 따라 청취자 위치(10)로부터 제1 ERP1 및 제3 ERP3 초기 반사 위치의 거리를 설정하고,
a1에 따른 제1 항과 a2에 따른 제2 항 간의 몫이나 차이에 기초하여 한편으로는 제1 ERP1의 거리와 청취자 위치(10)로부터의 제3 ERP3 초기 반사 위치 사이 및 다른 한편으로는 제2 ERP2의 위치와 청취자 위치(10)로부터의 제2 ERP2 및 제4 ERP4 초기 반사 위치 사이의 비율(compFactor 참조)을 설정하여 결정된다.
도 11a는 청취자(십자가(빨간색) 참조) 주변의 4개의 반사(원(파란색) 참조)의 실외 ER 패턴(1)을 도시한다. 제2 분포 최대값(1182)까지의 거리 p2는 두 개의 더 먼 반사까지의 거리를 정의한다(초기 반사 위치(ERP1 및 ERP3) 참조). 압축 계수 compFactor는 두 개의 더 가까운 반사 사이의 거리를 정의할 수 있다(초기 반사 위치(ERP2 및 ERP4)를 참조). 진폭 간의 관계는 압축 계수, 예를 들어,
를 정의할 수 있다.
4개의 초기 반사 위치(ERPi)는 i = 1 … 4인 극좌표(r(i); β(i))에 위치하도록 배치될 수 있다.
각도 좌표는 β(1)≒5°-15°, β(2)≒90°-110°, β(3)≒180°-200°, β(4)≒270°-290°일 수 있다. 일 실시 예에 따르면, β≒[10°,100°,190°,280°]이다.
반경 좌표는 수학식 7과 8에 따라 결정될 수 있고, 여기서 계산된 반경 값으로부터 최대 40%의 편차가 허용될 수 있다.
preDelay = p2 / c
(3)
이 때 i=[1..4], slDistance [m]은 음원 청취자 거리를 나타내고, preDelay [ms]는 제2 분포 피크(a2)까지의 시간을 나타내고, c =343m/s는 소리의 속도를 나타낸다.
도시된 바와 같이, 초기 반사 위치(ERP1 및 ERP3)의 반경 좌표는 수학식 7로 결정되고 초기 반사 위치(ERP2 및 ERP4)의 경우 수학식 7은 수학식 8이 되도록 수정된다.
도 11b에 도시된 실시 예에 따르면, 4개의 초기 반사 위치(ERP1 내지 ERP4)는 제1 ERP1 및 제2 ERP2 초기 반사 위치가 청취자 위치(10)와 교차하는 제1 라인(1000)의 반대쪽에 배열되고 제3 ERP3 및 제4 ERP4 초기 반사 위치는 제1 라인(1000)에 수직이고 청취자 위치(10)와 교차하는 제2 라인(2000)의 반대쪽에 배열되도록 배치될 수 있다. 실시 예에 따르면, ER 패턴(1)은:
p2에 따라 청취자 위치(10)으로부터 제1 ERP1 및 제2 ERP2 초기 반사 위치의 거리를 설정하고,
a1에 따른 제1 항과 a2에 따른 제2 항 사이의 몫이나 차이에 기초하여 한편으로는 제1 ERP1의 거리와 청취자 위치(10)으로부터의 제2 ERP2 초기 반사 위치 사이 다른 한편으로는 제3 ERP3의 거리와 청취자 위치(10)의 제4 ERP4 초기 반사 위치 사이의 비율을 설정함으로써 결정된다.
자유장 조건에서 음향 점 음원의 레벨 감소는 1/r 법칙을 따르며, 이는 모든 거리가 두 배로 증가할 때마다 계수 2의 진폭 감소에 해당한다[13]. 다양한 반사 영역의 영향을 소수의 ER로 요약하면, 거리에 따른 감소는 지수 계수,
만큼 감소되어야 한다.
distAlpha 값 [0.5..1]은 예를 들어,
에 의해 면적 분포로부터 추정될 수 있다.
계산된 distAlpha 값에서 약 20%의 편차가 허용될 수 있다.
실시 예에 따르면, distAlpha는 다음에 따라 설정될 수 있다:
distAlpha < 0.5인 경우; distAlpha =0.5;
distAlpha > 1.0인 경우; distAlpha =1.0.
도 12는 다양한 distAlpha 값에 대한 점 음원의 거리에 따른 진폭 감소를 보여준다.
엔코더에서 기하학적 해석을 수행하면, 알고리즘 매개변수인 predelay, compFactor 및 distAlpha만이 렌더러에 전송되어야 한다.
보다 상세한 기하학적 해석을 통해 위에서 정의한 수학식으로는 도출할 수 없는 ER 패턴이 결과되는 경우, 모든 단일 반사 위치와 상대 진폭은 원하는 패턴을 나타내기 위해 독립적으로 전송될 수 있다.
ER 패턴을 계산하기 위한 다양한 실외 시나리오에 대한 기하학적 분석의 예시의 값:
[preDelay,compFac,ampFac,distAlpha]
바위로 둘러싸인 야외 들판 [144,0.47,2.2,1]
마을 거리 [109,0.44,1,0,65]
시내 공원 [57,0.58,1,0,58]
도 2와 관련하여 이미 전술한 바와 같이, 일 실시 예에 따르면, 오디오 렌더링을 위한 장치 또는 초기 반사 패턴(10)을 생성하기 위한 장치는 초기 반사 패턴의 서로 다른 결정을 지원하도록 구성될 수 있다. 오디오 렌더링 또는 초기 반사 패턴(1)을 생성하기 위한 장치는 환경(5)에 따라 판단의 유형을 선택하도록 구성될 수 있다. 실시 예에 따르면, 제1 결정은 하나 이상의 제어 매개변수(120)를 사용하여 초기 반사 위치(ERP)를 배치하는 것을 포함하여 이 섹션에 설명된 대로 수행될 수 있다. 제1 결정은 음향 환경이 실외 환경인 경우 또는 비트스트림의 패턴 유형 인덱스가 사전 결정된 상태를 가정하여 렌더링될 오디오 신호의 표현을 포함하는 경우 선택될 수 있다. 선택적으로, 제2 결정은 전술한 바와 같이 하나 이상의 나선형 함수를 사용하여 수행될 수 있다. 그러나 다른 유형의 결정도 선택할 수 있다는 것은 분명하다.
4 포털에서의 동작
포털은 한 음향 환경에서 다음 음향 환경으로, 한 방에서 다음 방으로, 또는 방에서 자유장 환경으로의 경계를 설명한다. 이러한 포털을 통해 원활하게 전환하기 위해서는 연관된 단순 ER 패턴 간의 크로스 페이드 처리가 유리한다. 예를 들어 d = 5m의 지역 내에서, 하나의 음향 환경의 기여 수준이 페이드 아웃된다.
실시 예에 따르면, 렌더링 장치는 초기 반사 패턴(1)의 결정의 제1 방식 및 초기 반사 패턴(1)의 결정의 제2 방식을 지원하도록 구성될 수 있고, 여기서 제1 결정 방식은 제2 결정 방식과 다르고, 예를 들어, 제1 결정 방식에 대해서는 섹션 1과 도 2의 설명 및 제2 결정 방식에 대해서는 섹션 3을 참조한다. 장치는 패턴 유형 인덱스에 따라 초기 반사 패턴(1)을 결정함에 있어서 제1 결정 방식 또는 제2 결정 방식을 사용하도록 구성될 수 있다. 이 인덱스는 하나 이상의 초기 반사 패턴 매개변수에 포함될 수 있다.
5 여러 오디오 음원을 하나의 ER 패턴으로 합산
실제 환경에서, 모든 오디오 음원은 음원와 수신자 위치에 따라 달라지는 개별 ER 패턴을 갖는다. 단순화된 시뮬레이션에서, 한 환경의 모든 오디오 음원은 청취자 주위에 위치하는 동일한 ER 패턴을 갖는다. 음원 또는 청취자가 움직일 때, 음원-청취자 거리가 변경되고 이에 따라 직접 사운드과 관련된 중요한 레벨 관계가 변경된다. 이 레벨 관계는 유지되어야 한다.
본 발명의 바람직한 실시 예에서 이는 도 13에 설명된 바와 같이 계산적으로 효율적인 방식으로 수용될 수 있다. 도 13은 서로 다른 오디오 음원(AS1, AS2, …)를 거리 가중한 하나의 음원 신호로 합산하는 방법을 보여주는 블록도를 도시한다. 먼저, 음원와 청취자 사이의 거리 값을 기반으로 서로 다른 음원 AS 간의 레벨 관계를 고려한다. 그런 다음 다양한 오디오 음원 AS가 적절하게 거리 가중한 단일 음원 신호로 합산될 수 있다. 따라서 시뮬레이션된 환경에서 모든 오디오 음원 AS를 포괄하는 하나의 ER 패턴(1)만이 가청화되어야 한다. 이 패턴(1)은 청취자의 측면 움직임을 따른다(즉, x,y,z 방향이지만 청취자의 머리 방향은 아닌 이동). 구체적으로, 청취자가 특정 방향으로 이동하면 ER 패턴(1)의 ER의 위치 ERP는 청취자와 함께 이동한다. 그러나 청취자의 머리 방향에 관계없이 사전 정의된 공간 방향이 일정하게 유지된다.
일 실시 예에 따르면, 오디오 렌더링 또는 초기 반사 패턴(1) 생성을 위한 장치는 상기 제1 음원 위치에 위치한 제1 음원의 제1 오디오 신호와 상기 제2 음원 위치에 위치한 제2 음원의 제2 오디오 신호의 가중 합을 형성함으로써 및 초기 반사 위치로부터 가중 합을 렌더링함으로써 실내 임펄스 응답의 초기 반사 부분과 관련된 초기 반사 기여 스피커 신호를 생성함으로써 초기 반사 패턴에 의해 초기 반사 부분이 결정되는 실내 임펄스 응답을 이용하여 둘 이상의 음원의 오디오 신호를 렌더링하도록 구성될 수 있다. 가중합은, 예를 들어, 제1 음원 위치와 청취자 위치 사이의 제1 거리가 제2 음원 위치와 청취자 위치 사이의 제2 거리보다 작은 경우 제2 오디오 신호보다 제1 오디오 신호에 더 큰 가중치를 부여하고, 제1 거리가 제2 거리보다 큰 경우 제1 오디오 신호보다 제2 오디오 신호에 더 큰 가중치를 부여한다.
실시 예에 따르면, 실내 임펄스 응답의 초기 반사 부분과 관련된 초기 반사 기여 스피커 신호는 각각의 초기 반사 위치에서 청취자 위치까지의 거리에 따라 조정된 레벨로 각 초기 반사 위치로부터의 가중 합을 렌더링함으로써 생성될 수 있다.
도 14에서, 청취자, 두 개의 직접 음원 및 이들의 반사 간의 레벨 관계가 시각화된다. 각 직접 음원의 레벨은 개별 음원 청취자 거리에 따라 달라진다. 이는 개별적으로 다를 수 있다. 직접 음원의 공통 레벨은 개별 레벨을 합산하여 계산된다. 이 레벨에서 관련 반사는 거리에 따라 계산된다.
도 14는 청취자, 두 개의 직접 음원 및 합산된 반사 사이의 레벨 관계를 도시한다.
음원 청취자 거리로 인한 감소는 음원별로 개별적이다. 전체 ER 패턴에 대한 추가의 ampCorrection이 있다.
6 간략한 요약
6.1 렌더링 측면
가상 청각 환경에서
·상세한 공간 기하학적 설명에만 좌우하지 않으며, 예를 들어 방 크기 및/또는 방 볼륨 및/또는 후기 잔향에 대한 사전 지연만 고려될 수 있음.
· 개별 음원 및 청취자 위치(한 환경의 모든 오디오 음원에 대해 동일한 ER 패턴을 공유함), 음원 청취자 거리에만 좌우하지 않고,
·(음원와 청취자 위치에 따라 공간상의 위치가 아닌) 고정된 위치에서, 예를 들어 사용자를 기준으로 초기 반사 위치(ERP)에서 렌더링되는,
초기 반사 패턴을 렌더링하도록 장착된 렌더러.
o 바람직한 실시 예에서, 패턴의 ER 위치, 즉 초기 반사 위치(ERP)는 청취자의 측면 움직임을 따른다(즉, 청취자의 머리 방향이 아닌 x,y,z 방향의 변환). 특히, 청취자가 특정 방향으로 이동하면 ER 패턴의 ER 위치가 청취자와 함께 이동한다. 그러나 청취자의 머리 방향에 관계없이 사전 정의된 공간 방향이 일정하게 유지된다.
도 15는 전체적인 렌더링 과정을 예시적으로 도시한다. 도 15와 관련하여 설명된 특징 중 하나 이상은 본 명세서에 설명된 사운드 렌더링 장치에 포함될 수 있다.
도 15는 사운드 렌더링을 위한 장치(200)를 도시한다. 장치(200)는 하나 이상의 음원(2101/2102)의 하나 이상의 오디오 신호(2121/2122)를 렌더링하도록 구성된다. 오디오 신호(212)(2121 및 2122 참조)는 직접 사운드(2201 및 2202 참조), 초기 반사(230 참조) 및/또는 후기 잔향(240 참조)을 고려하여 렌더링될 수 있다.
직접 경로(2201/2202)에서, 하나 이상의 오디오 신호(2121/2122)는 하나 이상의 오디오 신호(2121/2122) 각각에 대해 직접 사운드 기여 스피커 신호(2221/2222)를 획득하도록 렌더링될 수 있다. 예를 들어, 렌더링할 오디오 신호(2121 및 2122) 각각에 대해, 각각의 연관된 음원(2101/2102)과 청취자 위치(10) 사이의 거리 d1/d2 뿐만 아니라 각 음원(2101/2102)과 청취자의 방향 사이의 각도(α1/α2)는 각각의 직접적인 사운드 기여 확성기 신호(2221/2222)를 결정하기 위해 고려될 수 있다. 직접 음향 기여 확성기 신호(2221/2222)는 실내 임펄스 응답의 직접적인 음원 부분과 관련된다.
일 실시 예에 따르면, 장치(200)는 하나 이상의 음원(2101/2102)의 하나 이상의 오디오 신호(2121/2122)를 믹싱(260)하여 믹싱된 오디오 신호(262)를 획득하도록 구성될 수 있다. 믹싱(260) 시, 신호(2121/2122)는 각각의 연관된 음원(2101/2102)의 위치에 따라 패닝될 수 있다. 예를 들어, 각 오디오 신호(2121/2122)에 대해, 각각의 관련 음원(2101/2102)과 청취자 위치(10) 사이의 거리(d1/d2)가 패닝/믹싱(260) 시 고려된다. 대안적으로 또는 추가적으로, 믹싱은 섹션 5에 기술된 바와 같이 수행될 수 있다.
장치(200)는 예를 들어, 실내 임펄스 응답의 초기 반사 부분과 관련된 초기 반사 기여 스피커 신호(232)를 얻기 위해서, 예를 들어 ER 경로(230)에서, 초기 반사 부분이 초기 반사 패턴(1)에 의해 결정되는 실내 임펄스 응답을 사용하여, 오디오 신호, 예를 들어, 믹싱 오디오 신호(262)를, 예를 들어, 하나 이상의 음원(2101/2102)의 오디오 신호(2121 및 2122)의 가중 합을 렌더링하도록 구성된다. 초기 반사 기여 스피커 신호(232)는 초기 반사 위치(ERP)(ERP1 내지 ERP6 참조)로부터 오디오 신호의 변환을 수행함으로써 생성될 수 있다.
선택적으로, 장치(200)는 ER 패턴 결정부(270), 예를 들어 초기 반사 패턴(1)을 생성하기 위한 장치를 포함할 수 있다. 초기 반사 패턴(1)의 결정은 위에서 언급된 실시 예 중 하나에 설명된 대로 수행될 수 있다(예를 들어, 도 2 및 섹션 1, 3 및 5 참조). ER 패턴 결정부(270)는 초기 반사 패턴(1)을 생성하기 위한 ER 패턴 정보(310)를 획득할 수 있다. ER 패턴 정보(310)는 ER 패턴 유형(실내/실외); 사전 지연, compfactor 및/또는 distAlpha(예를 들어, 실외의 경우); 및 방 크기, 방 볼륨 및/또는 사전 지연 시간(예를 들어, 실내의 경우) 중 하나 이상을 포함한다. 예를 들어, ER 패턴 결정부(270)가 사용할 결정에 따라, ER 패턴 결정부(270)는 비트스트림(300)으로부터 환경 설명(310), 예를 들어 하나 이상의 실내 음향 매개변수 또는 하나 이상의 제어 매개변수, 또는 비트스트림 힌트(320), 예를 들어 하나 이상의 초기 반사 패턴 매개변수를 수신하거나 판독한다.
비트스트림(300)은 제1 음원(2101)과 연관된 오디오 신호(2121)의 표현(2141) 및 제2 음원(2102)과 연관된 오디오 신호(2122)의 표현(2142)을 포함할 수 있다.
일 실시 예에 따르면, 비트스트림(300)은 본 명세서에서 언급된 매개변수 중 하나 이상을 포함/포함할 수 있다. 비트스트림(300)은 음원 위치에 위치하고 하나 이상의 초기 반사 패턴 매개변수를 포함하는 음원(2101/2102)의 오디오 신호(2141/2142)의 표현을 포함할 수 있다. 예를 들어, 비트스트림(300)은 비트스트림의 헤더 또는 메타데이터 필드 내부에 초기 반사 매개변수가 있는 오디오 비트스트림 또는 파일 형식 스트림의 패킷 및 오디오 신호를 나타내는 오디오 비트스트림을 포함하는 파일 형식 스트림의 트랙 내부의 초기 반사 매개변수를 갖는 파일 형식 스트림이다. 하나 이상의 초기 반사 패턴 매개변수는 패턴 유형 인덱스, 후기 잔향까지의 사전 지연 시간, 압축 계수, 진폭 보정 계수, 거리 감쇠 지수, 패턴 방위각 매개변수, 및 하나 이상의 주파수 응답 매개변수 중 하나 이상을 포함한다.
ER 경로(230)에서, 즉 초기 반사 기여 스피커 신호(232)의 생성 시, 장치(200)는 하나 이상의 주파수 응답 매개변수에 따라 스펙트럼으로 형상되도록 각각의 초기 반사 위치(ERP)로부터 하나 이상의 음원(2101/2102)의 오디오 신호를 렌더링하도록 선택적으로 구성된다(도 3c 참조). 도 3c에서, 원(파란색)은 RT60의 주파수 의존성을 보여준다. 모든 초기 반사에 동일한 주파수 종속성이 적용될 수 있다. 음원 또는 수신자의 벽 근접성(<2m)에 대한 베이스 부스트를 통해 또 다른 주파수 종속성을 적용할 수 있다. 하나 이상의 주파수 응답 매개변수는 오디오 신호 또는 음원(2101/2102)의 개별 신호(2121 및 2122)의 표현을 또한 포함할 수 있는, 비트스트림에 포함될 수 있다. 하나 이상의 주파수 응답 매개변수는 하나 이상의 초기 반사 패턴 매개변수에 포함될 수 있다.
장치(200)는 초기 반사 위치(ERP)로부터 하나 이상의 음원(2101/2102)의 오디오 신호의 변환을 수행할 때, 청취자의 머리 방향에 특정한 HRTF를 사용하도록 구성될 수 있다. HRTF는 머리 관련 전달 함수를 나타낸다.
선택적인 확산 경로(240)에서 하나 이상의 오디오 신호(2121/2122)는 확산 후기 잔향 스피커 신호(242)를 획득하도록 렌더링될 수 있다. 장치(200)는 실내 임펄스 응답의 확산 후기 잔향 부분을 생성하고, 이 실내 임펄스 응답을 사용하여 확산 경로(240)에서 하나 이상의 오디오 신호(2121/2122)를 렌더링하도록 구성될 수 있다. 확산 후기 잔향 스피커 신호(242)는 실내 충격 응답의 확산 후기 잔향 부분과 관련된다.
장치(200)는 하나 이상의 오디오 신호(2121/2122)를 렌더링할 때, 실내 임펄스 응답의 직접 음원 부분과 관련된 직접 사운드 기여 스피커 신호(2221/2222)와 실내 임펄스 응답의 초기 반사 부분과 관련된 초기 반사 기여 스피커 신호(232)에 대해 합산(250)을 형성함으로써 스피커 신호 세트(252)를 생성하고, 선택적으로 실내 임펄스 응답의 확산 후기 잔향 부분과 관련된 후기 잔향 스피커 신호(242)를 확산하도록 구성될 수 있다.
실내 렌더링
a) 직접 사운드과 후기 잔향의 시작 사이의 간격을 커버하는 ER 패턴
b) 수평면에 분포된 ER 패턴.
c) 방 크기, 방 볼륨, 후기 잔향에 대한 사전 지연 시간, RT60과 같은 공간 음향 매개변수에 의해 제어되어 그 수, 간격, 거리에 따른 진폭 동작을 설정하는 ER 패턴,
d) 2 내지 20개의 ER을 가질 수 있는 ER 패턴.
e) 위치가 나선에 의해 결정되는, ER,
f) 위치가 두 개의 나선형 팔에 의해 결정되는, ER,
g) 위치가 다음에 의해 결정되는, ER,
,
, n = [1:nER/2], 여기서 nER = ER의 수
base=1.85
h) 위치가 사전 지연 시간까지 방위각에 걸쳐 무작위로 분산된, ER
i) ER 패턴은 실내의 음원 및 수신자 위치와 관계없이 일정하게 유지된다. 패턴의 형태는 일정하게 유지되지만 청취자와 함께 움직이다. 그리고 반사의 진폭은 음원 청취자 거리에 따라 달라진다.
j) 특정 사운드 특성을 생성하기 위해 감소된 바닥 반사를 사용한다.
실외 렌더링
k) 예를 들어, 2 내지 6 반사를 갖는, 특히 실외 장면에 대한, 희소 ER 패턴.
l) 전체 장면의 반사 표면에 대한 기하학적 분석을 사용하여 ER 실외 패턴에 대한 레벨과 사전 지연을 도출함.
m) 거리에 따른 요약된 분포를 사용하여 ER 패턴 매개변수를 도출함.
n) 사용자가 도달할 수 있는 영역의 가능한 청취 위치 메시에 대해 이 분석을 수행함.
o) 해당 분포의 처음 두 피크를 해당 거리와 함께 사용함.
p) 이 분포 값으로부터 사전 지연, 압축 계수 및 distAlpha를 계산함.
일반
q) 하나의 음향 장면 및/또는 방에서 다른 장면으로 변경할 때 ER 패턴 레벨의 레벨 페이드인 및 페리드아웃을 적용한다.
6.2 전송, 비트스트림 및 신호 측면
a) 실내 장면은 장면에서 제공되는 실내 음향 매개변수를 사용하여 디코더/렌더러에서 전적으로 계산할 수 있다.
b) 구체적으로, 실외 장면은 인코더의 기하학적 분석에 의해 이점을 얻을 수 있다. 패턴의 제어 매개변수만 전송되어야 한다. 바람직한 실시 예에서, 매개변수는 다음을 포함한다: (알고리즘/패턴 번호, 후기 잔향까지의 사전 지연, 사전 지연과 비교한 패턴의 압축 계수, 진폭 보정 계수, 거리 감쇠 지수, 패턴 방위각 매개변수, 주파수 응답 설명)
c) 새로운 ER 패턴을 사용해야 하는 경우, 이는 인코더에서 완전히 계산된 다음 디코더로 전송될 수 있다. 이는 시간적 위치와 반사의 상대적 수준으로 정의된다(정상 거리 감쇠와 관련) (방위각, 고도, 반경, 진폭 보정 계수, 거리 감쇠 지수, 주파수 응답 설명, 각각에 대한 ER의 수).
d) 디코더/렌더러에는 다양한 ER 패턴이 사전 장착될 수 있다. 이 경우, 비트스트림 시그널링은 미리 제공된 ER 패턴이 사용되어야 함을 나타내는 필드를 포함한다. 또한, 이 패턴에 대한 매개변수는 b.1에서 설명된 바와 같이, 신호를 받는다.
7 응용분야
ER의 정확한 기하학적 계산을 위한 시간 소모는 특히 다음과 같은 응용 분야에서 피할 수 있다.
- 실시간 청각 가상 환경
- 실시간 증강 현실
8 추가 실시 예
도 16은 청취자 위치(10) 및 음원 위치 위치에 대한 정보를 수신하도록 구성된 사운드 렌더링 장치(200)의 실시 예를 도시한다. 이 정보는 청취자와 음원 사이의 거리(d)를 결정하는 데 사용될 수 있다. 선택적으로, 장치(200)는 도 15의 장치(200)에 관해 설명된 바와 같은 거리를 사용하도록 구성될 수 있다. 장치(200)는 초기 반사 부분(410)이 초기 반사 패턴(1)에 의해서만 결정되는 실내 임펄스 응답(400)을 사용하여 음원의 오디오 신호(212)를 렌더링(202)하도록 구성된다. 초기 반사 패턴(1)은 초기 반사 위치(ERP)의 군집을 나타내고(ERP1 내지 ERP4 참조), 초기 반사 위치(ERP)가 청취자 위치(10) 주위 및 청취자 머리 방향의 변화에 대해 변하지 않는 청취자 위치(10)와의 각도 방향에 위치하도록 청취자 위치(10)에 위치된다.
장치(200)는 전술한 특징들 중 임의의 것을 포함할 수 있다. 예를 들어, 장치(200)는 사운드 연주에 대한 초기 반사 패턴을 결정하기 위한 도 6, 도 18 또는 도 20의 장치(100)를 포함할 수 있다. 대안적으로, 장치(200)는 사운드 연주에 대한 초기 반사 패턴을 결정하기 위한 다른 장치, 예를 들어, 도 2와 관련하여 기술된 및/또는 섹션 1, 3 및 5에 기술된 바와 같이 결정을 수행하도록 구성된 장치를 포함할 수 있다.
도 17은 청취자 위치(10) 및 음원 위치 위치(poss)에 대한 제1 정보를 수신하도록 구성된 사운드 렌더링 장치(200)의 실시 예를 도시한다. 이 정보는 청취자와 음원 사이의 거리(d)를 결정하는 데 사용될 수 있다. 선택적으로, 장치(200)는 도 15의 장치(200)에 관해 설명된 바와 같은 거리를 사용하도록 구성될 수 있다. 장치(200)는 예를 들어 음원 위치(poss)에 위치된 음원의 오디오 신호의 표현(214) 및 하나 이상의 초기 반사 패턴 매개변수(310)를 포함하는 비트스트림(300)을 수신하거나 이로부터 판독하도록 구성된다. 예를 들어, 비트스트림(300)은 비트스트림(300)의 헤더 또는 메타데이터 필드 내부에 초기 반사 매개변수(310)가 있는 오디오 비트스트림, 또는 파일 형식 스트림의 패킷 및 오디오 신호를 나타내는 오디오 비트스트림을 포함하는 파일 포맷 스트림의 트랙 내부에 초기 반사 매개변수(310)가 있는 파일 형식 스트림이다.
하나 이상의 초기 반사 패턴 매개변수(310)는 패턴 유형 인덱스, 후기 잔향까지의 사전 지연 시간, 압축 계수, 진폭 보정 계수, 거리 감쇠 지수, 패턴 방위각 매개변수, 하나 이상의 주파수 응답 매개변수 중 하나 이상을 포함할 수 있다.
추가적으로, 장치(200)는 예를 들어, 도 2와 관련하여 설명된 내용 및/또는 섹션 1, 3 및 5에 설명된 바와 같이, 하나 이상의 초기 반사 패턴 매개변수(310)에 따라 초기 반사 패턴(1)을 결정(270)하도록 구성된다. 초기 반사 패턴(1)은 초기 반사 위치(ERP)의 군집을 나타낸다(ERP1 내지 ERP4 참조). 예를 들어, 장치(300)는 후기 잔향까지의 사전 지연 시간이 길수록 초기 반사 위치(ERP)의 개수가 커지도록 초기 반사 패턴(1)의 결정(270)을 수행하도록 구성될 수 있다. 추가적으로 또는 대안적으로, 장치(200)는 후기 잔향까지의 사전 지연 시간이 길수록 청취자 위치(10)로부터 가장 먼 초기 반사 위치(ERP)가 커지도록 초기 반사 패턴(1)의 결정(270)을 수행하도록 구성된다. 거리는 사전 지연 시간보다 작을 수 있다.
또한, 장치(200)는 초기 반사 부분(410)이 초기 반사 패턴(1)에 의해 결정되는 실내 임펄스 응답(400)을 사용하여 음원의 오디오 신호를 렌더링(202)하도록 구성된다. 초기 반사 패턴(1)은 초기 반사 위치(ERP)의 군집을 나타내고(ERP1 내지 ERP4를 참조), 초기 반사 위치(ERP)가 청취자 위치(10) 주위에 그리고 청취자 머리 방향의 변화에 대해 변하지 않는 청취자 위치(10)와의 각도 방향에 위치되도록 청취자의 위치(10)에 위치한다.
일 실시 예에 따르면, 장치(200)는 패턴 유형 인덱스가 예를 들어 섹션 1에 설명된 바와 같이, 인코더 매개변수화된 결정 방식을 나타내는 경우, 하나 이상의 초기 반사 패턴 매개변수(310)의 일부로서, 초기 반사 패턴의 다수의 초기 반사 중 하나 이상, 각 초기 반사에 대한 방위각, 고도, 반경, 예를 들어, 청취자 위치까지의 거리, 각 초기 반사에 대한 진폭 수정 계수, 각 초기 반사에 대한 거리 감쇠 인자, 및 각 초기 반사에 대한 주파수 응답 기술을, 비트스트림(300)으로부터, 판독하도록 구성된다.
장치(200)는 전술한 특징들 중 임의의 것을 포함할 수 있다.
도 18은 음향 환경(5)의 음향 특성을 나타내는 적어도 하나의 실내 음향 매개변수(310)를 수신하도록 구성된 사운드 연주에 대한 초기 반사 패턴(1)을 결정하기 위한 장치(100)의 실시 예를 도시한다. 장치(100)는 초기 반사 위치(ERP)의 수(272)(ERP1 내지 ERP6 참조)가 적어도 하나의 실내 음향 매개변수(310)에 의존하도록 하는 방식으로 초기 반사 패턴(1)을 결정(270)하도록 구성된다. 초기 반사 패턴(1)은 초기 반사 위치의 군집을 나타낸다. 장치(100)는 특히 도 2 및 섹션 1 및 5와 관련하여 전술한 특징을 포함할 수 있다.
도 19는 청취자 위치(10), 제1 음원 위치(posS1) 및 제2 음원 위치(posS2)에 대한 정보를 수신하도록 구성된 사운드 렌더링 장치(200)의 실시 예를 도시한다. 장치(200)는 초기 반사 부분(410)이 초기 반사 패턴(1)에 의해 결정되는 실내 임펄스 응답(400)을 사용하여 2개의 음원(2101 및 2102)의 오디오 신호(2121 및 2122)를 렌더링하도록 구성된다. 초기 반사 패턴(1)은 초기 반사 위치(ERP)의 군집을 나타내고(ERP1 내지 ERP4 참조), 초기 반사 위치(ERP)가 청취자 위치(10) 주위에 그리고 청취자 머리 방향의 변화에 대해 변하지 않는 청취자 위치(10)와의 각도 방향에 위치하도록 하는 방식으로 청취자 위치(10)에 위치된다. 렌더링(202)은 제1 음원 위치(posS1)에 위치한 제1 음원(2101)의 제1 오디오 신호(2121)와 제2 음원 위치(posS2)에 위치한 제2 음원(2102)의 제2 오디오 신호(2122)의 가중 합(204)을 형성함으로써 더욱 수행된다. 가중 합(204)은 제1 음원 위치(posS1)와 청취자 위치(10) 사이의 제1 거리(d1)가 제2 음원 위치(posS2)와 청취자 위치(10) 사이의 제2 거리(d2)보다 작은 경우, 제2 오디오 신호(2122)보다 제1 오디오 신호(2121)에 더 큰 가중치 w1를 부여하고, 제1 거리(d1)가 제2 거리(d2)보다 큰 경우 제1 오디오 신호(2101)보다 제2 오디오 신호(2102)에 더 큰 가중치 w2를 부여한다. 추가적으로, 렌더링은 초기 반사 위치(ERP)로부터 가중 합(204)을 렌더링함으로써 실내 임펄스 응답(400)의 초기 반사 부분(410)과 관련된 초기 반사 기여 스피커 신호(232)를 생성함으로써 수행된다. 장치(200)는 특히 섹션 5에 설명된 특징을 포함할 수 있다. 그러나, 장치(200)는 상기 실시 예 중 임의의 것에서 설명된 바와 같이 ER 패턴(1)을 결정하기 위한 장치를 또한 포함할 수 있다는 것이 명백하다.
도 20은 음향 환경(5)의 음향 특성을 나타내는 적어도 하나의 실내 음향 매개변수(310)를 수신하도록 구성되는, 사운드 연주에 대한 초기 반사 패턴(1)을 결정(270)하기 위한 장치(100)의 실시 예를 도시한다. 장치(100)는 청취자 위치(10)에 중심을 둔 하나 이상의 나선형 함수(3 및 4)를 매개변수화하고, 하나 이상의 나선형 함수(3과 4)를 사용하여 초기 반사 위치(ERP)를 배치함으로써(ERP11 내지 ERP14 및 ERP21 내지 ERP24 참조), 초기 반사 패턴(1)을 결정(270)하도록 구성된다. 초기 반사 패턴(1)은 초기 반사 위치(ERP)의 군집을 나타낸다. 장치(100)는 특히 도 2 및 섹션 1과 관련하여 설명된 바와 같은 특징을 포함할 수 있지만, 장치는 본 명세서에서 설명된 다른 특징도 포함할 수 있다는 것은 분명하다.
9 구현 대안
장치의 맥락에서 일부 측면이 설명되었지만, 이러한 측면은 블록이나 장치가 방법 단계 또는 방법 단계의 특징에 해당하는 해당 방법에 대한 설명도 나타내는 것이 분명하다. 유사하게, 방법 단계의 맥락에서 설명된 측면은 또한 해당 장치의 해당 블록이나 항목 또는 특징의 설명을 나타낸다.
본 발명에 의해 렌더링된 오디오 신호 또는 초기 반사 패턴 정보는 디지털 저장 매체에 저장될 수도 있고, 무선 전송 매체나 인터넷과 같은 유선 전송 매체 등의 전송 매체를 통해 전송될 수도 있다.
특정 구현 요구 사항에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는) 전자적으로 판독 가능한 제어 신호가 저장되어 있는 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리와 같은 디지털 저장 매체를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시 예는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함하며, 이는 프로그래밍 가능한 컴퓨터 시스템과 협력하여 여기에 설명된 방법 중 하나가 수행될 수 있다.
일반적으로, 본 발명의 실시 예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로 구현될 수 있으며, 상기 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 방법 중 하나를 수행하기 위해 작동하는 프로그램 코드. 프로그램 코드는 예를 들어 기계 판독 가능 매체에 저장될 수 있다.
다른 실시 예는 기계 판독 가능한 캐리어에 저장된, 본 명세서에 기술된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다시 말해서, 본 발명의 방법의 실시 예는 컴퓨터 프로그램이 컴퓨터에서 실행될 때 여기에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 추가 실시 예는 본 명세서에 기술된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 기록되어 있는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다.
따라서, 본 발명의 방법의 추가 실시 예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호 시퀀스이다. 데이터 스트림 또는 신호 시퀀스는 예를 들어 인터넷을 통한 데이터 통신 연결을 통해 전송되도록 구성될 수 있다.
추가 실시 예는 본 명세서에서 설명된 방법 중 하나를 수행하도록 구성되거나 적응되는 처리 수단, 예를 들어 컴퓨터 또는 프로그래밍 가능한 논리 장치를 포함한다.
추가 실시 예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시 예에서, 프로그래밍 가능 논리 장치(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시 예에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 임의의 하드웨어 장치에 의해 수행되는 것이 바람직하다.
전술한 실시 예는 단지 본 발명의 원리를 예시하는 것일 뿐이다. 본 명세서에 기술된 구성 및 세부 사항의 수정 및 변형은 당업자에게 명백할 것으로 이해된다. 따라서, 본 명세서의 실시 예에 대한 설명 및 설명을 통해 제시된 특정 세부 사항에 의해서가 아니라 임박한 특허 청구 범위에 의해서만 제한되는 것이 의도이다.
10 문헌
[1] Jot, J.-M., 음악, 멀티미디어 및 대화형 인간-컴퓨터 인터페이스를 위한 사운드의 실시간 공간 처리. 오디오 및 멀티미디어, 1997(ACM 멀티미디어 시스템 저널, 1997년 2월).
출처:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.54.6319&rep=rep1&type=pdf.
[2] Jullien, J.P., E. Kahle, S. Winsberg 및 O. Warusfel, 실험실 및 실제 환경 모두에서 실내 음향 품질의 객관적 특성화에 대한 일부 결과, 1992, IRCAM, 프랑스. 출처:https://kahle.be/articles/IRCAM_Room_Acoustical_Quality_1992.pdf.
[3] Jot, J.-M., O. Warusfel, E. Kahle 및 M. Mein. 실시간 바이노럴 콘서트홀 시뮬레이션. IEEE 93. 1993. 모홍크(미국).
[4] Carpentier, T. Max 15차 사운드 및 음악 컴퓨팅 컨퍼런스(SMC2018)에서 Spat의 새로운 구현 2018. 리마솔, 키프로스. https://hal.archives-ouvertes.fr/hal-02094499/document.
[5] Vaananen, R. 및 J. Huopaniemi, 고급 AudioBIFS: MPEG-4 장면 설명의 가상 음향 모델링. IEEE 멀티미디어 트랜잭션, 2004. 6(5): p. 661-675.
[6] Brinkmann, F., H. Gamper, N. Raghuvanshi 및 I. Tashev. 파라메트릭 공간 오디오 렌더링을 위한 지각적으로 두드러진 초기 반사를 인코딩하는 방향. 제148회 AES 컨벤션. 2020. 오스트리아 비엔나.
[7] Brinkmann, F. 등, 실내 음향 시뮬레이션 및 가청화에 대한 라운드 로빈. J. Acoust. Soc. Am., 2019. 145(4): p. 2746..2760 DOI: https://doi.org/10.1121/1.5096178.
[8] Bregman, A.S., 청각 장면 분석(소리의 지각 조직). 1990년, MIT 출판사. ISBN: 9780262022972.
[9] Blauert, J., 공간 청각, 인간 소리 위치 파악의 정신물리학. 2판 1997년, 매사추세츠 캠브리지: MIT Press. ISBN: 0-262-02413-6.
[10] Angus, J.A.S., 청취자의 주파수 응답에 대한 정반사와 확산 반사의 효과. J.오디오공학과 Soc., 2001. 49(3): p. 125-133.
[11] Barron, M. 및 A.H. Marshall, 콘서트 홀의 초기 측면 반사로 인한 공간적 인상: 물리적 척도의 도출. 소리와 진동 저널, 1981. 77(2): p. 211-232.
[12] Bech, S. 재생된 사운드의 인식: 완전한 음장에서 개별 반사의 가청도. 제96회 AES 컨벤션. 1994. 네덜란드 암스테르담.
[13] Kuttruff, H., Room Acoustics(제4판). 2000: 스폰 프레스. ISBN: 0-419-24580-4.
Claims (54)
- 사운드 렌더링을 위한 장치(200)에 있어서, 상기 장치는:
청취자 위치(10) 및 음원 위치에 대한 정보를 수신하고;
초기 반사 위치의 군집을 나타내고,
상기 초기 반사 위치가 상기 청취자 위치(10) 주위에 그리고 청취자 머리의 변화에 대해 변하지 않는 상기 청취자 위치(10)와의 각도 방향에 위치하는 방식으로 상기 청취자 위치(10)에 위치되는
초기 반사 패턴(1)에 의해서만 초기 반사 부분(410)이 결정되는 실내 임펄스 응답(400)을 사용하여 음원의 오디오 신호를 렌더링하도록
구성되는, 장치(200). - 제1항에 있어서,
음향 환경(5)의 음향 특성을 나타내는 적어도 하나의 실내 음향 매개변수(310)를 수신하고;
상기 초기 반사 위치의 수가 적어도 하나의 실내 음향 매개변수(310)에 따라 달라지는 방식으로 상기 초기 반사 패턴(1)을 결정하도록
구성되는, 장치(200). - 제2항에 있어서, 상기 적어도 하나의 실내 음향 매개변수(310)는,
방 크기,
방 볼륨, 및
후기 잔향까지의 사전 지연 시간
중 하나 이상을 포함하는, 장치(200). - 제2항 또는 제3항에 있어서, 상기 적어도 하나의 실내 음향 매개변수(310)는
방 크기,
방 볼륨, 및
후기 잔향까지의 사전 지연 시간
중 선택된 하나의 매개변수만을 포함하는, 장치(200). - 제2항 내지 제4항 중 어느 한 항에 있어서, 상기 적어도 하나의 실내 음향 매개변수(310)에 따라, 상기 초기 반사 위치의 상호 간격과 상기 초기 반사 위치의 수를 변경하도록 구성되는, 장치(200).
- 제2항 내지 제5항 중 어느 한 항에 있어서, 상기 적어도 하나의 실내 음향 매개변수(310)에 따라, 상기 청취자 위치(10)에 중심을 둔 하나 이상의 나선형 함수(3, 4)를 매개변수화하고 상기 하나 이상의 나선형 함수(3, 4)를 사용하여 상기 초기 반사 위치를 배치하도록 구성되는, 장치(200).
- 제2항 내지 제6항 중 어느 한 항에 있어서, 상기 초기 반사 패턴(1)을 사용하여 렌더링될 오디오 신호의 표현(214)을 포함하는 비트스트림(300)으로부터, 상기 적어도 하나의 실내 음향 매개변수(310)를 판독하도록 구성되는, 장치(200).
- 제2항 내지 제7항 중 어느 한 항에 있어서, 상기 초기 반사 위치의 수를,
상기 방 크기가 클수록 상기 수가 크고, 또는
상기 방 볼륨이 클수록 상기 수가 크고, 또는
후기 잔향까지의 사전 지연 시간이 길수록 상기 수가 크도록
결정하도록 구성되는, 장치(200). - 제2항 내지 제8항 중 어느 한 항에 있어서, 상기 초기 반사 위치의 수를,
상기 방 크기가 클수록 상기 청취자 위치(10)에서 가장 먼 초기 반사 위치가 멀고,
상기 방 볼륨이 클수록 상기 청취자 위치에서 가장 먼 초기 반사 위치가 멀고,
상기 후기 잔향까지의 상기 사전 지연 시간이 길수록 상기 청취자 위치에서 가장 먼 초기 반사 위치가 멀도록
결정하도록 구성되는, 장치(200). - 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 초기 반사 위치가 실질적으로 균일한 방식으로 상기 청취자 위치(10) 주위에 각지게 분포되도록 상기 초기 반사 위치를 결정하도록 구성되는, 장치(200).
- 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 초기 반사 위치는 상기 청취자 위치(10)와 함께 수평면에 놓이는, 장치(200).
- 제1항 내지 제11항 중 어느 한 항에 있어서,
음향 환경(5)의 음향 특성을 나타내는 적어도 하나의 실내 음향 매개변수(310)를 수신하고;
상기 청취자 위치(10)를 중심으로 하나 이상의 나선형 함수(3, 4)를 매개변수화하고 상기 하나 이상의 나선형 함수(3, 4)를 사용하여 상기 초기 반사 위치를 배치함으로써,
상기 초기 반사 패턴(10)을 결정하도록 구성되는, 장치(200). - 제12항에 있어서, 상기 하나 이상의 나선형 함수(3, 4)는 제1 나선형 함수(3) 및 제2 나선형 함수(4)를 포함하고, 상기 장치(200)는 상기 제1 나선형 함수(3)를 사용하여 제1 세트의 초기 반사 위치를 및 상기 제2 나선형 함수(4)를 사용하여 제2 세트의 초기 반사 위치를 배치하여 상기 제1 세트의 초기 반사 위치 각각이 상기 제2 세트의 초기 반사 위치의 대응하는 초기 반사 위치와 연관되고 상기 각각의 초기 반사 위치와 상기 대응하는 초기 반사 위치 사이의 연결선과 수직으로 교차하는 선의 반대편에 위치하도록 구성되는, 장치(200).
- 제13항에 있어서, 상기 제1 세트의 초기 반사 위치 각각에 대해, 상기 제2 세트의 초기 반사 위치의 상기 대응하는 초기 반사 위치는 상기 연결선에 대해 상기 제1 세트의 초기 반사 위치의 모든 초기 반사 위치에 공통인 각도 방향으로 각지게 오프셋되는, 장치(200).
- 제12항 내지 제14항 중 어느 한 항에 있어서, 상기 하나 이상의 나선형 함수(3, 4)는 제1 나선형 함수(3) 및 제2 나선형 함수(4)를 포함하고, 상기 장치(200)는 상기 제1 나선형 함수(3)를 사용하여 제1 세트의 초기 반사 위치를 및 상기 제2 나선형 함수(4)를 사용하여 제2 세트의 초기 반사 위치를 배치하여 상기 제1 세트의 초기 반사 위치가 극좌표에서 (r1; β1)로 결정되고 상기 제2 세트의 초기 반사 위치가 극좌표에서 (r2; β2)로 결정되도록 구성되고, 이 때
이고,
여기서 nER은 초기 반사 위치의 수이고 distfactor는 상수인, 장치(200). - 제12항 내지 제15항 중 어느 한 항에 있어서, 상기 초기 반사 패턴(1)을 사용하여 렌더링될 오디오 신호의 표현(214)을 포함하는 비트스트림(300)으로부터, 상기 적어도 하나의 실내 음향 매개변수(310)를 판독하도록 구성되는, 장치(200).
- 사운드 연주에 대한 초기 반사 패턴(1)을 결정하기 위한 장치(100)에 있어서, 상기 장치는:
하나 이상의 분석 위치(50) 각각에서,
상기 각각의 분석 위치(50)로부터 서로 다른 거리 각각에 대해, 초기 반사 기여도를 나타내는 값을 나타내는 함수(112)를 결정하고,
하나 이상의 제어 매개변수(120)를 도출하기 위해 하나 이상의 최대값(118)에 대해 상기 함수(112) 또는 그로부터 도출된 추가 함수(112')를 검사함으로써,
음향 환경(5)의 기하학적 분석(110)을 수행하고,
상기 하나 이상의 제어 매개변수(120)를 사용하여 상기 초기 반사 위치를 배치함으로써,
초기 반사 위치의 군집을 나타내는
초기 반사 패턴(1)을 결정하도록 구성되는, 장치(100). - 제17항에 있어서, 상기 초기 반사 패턴(1)은 상기 초기 반사 위치가 상기 청취자 위치 주위에 그리고 청취자 머리 방향의 변화에 대해 변하지 않는 상기 청취자 위치와의 각도 방향에 위치하는 방식으로 상기 청취자 위치(10)에 위치하기 위한 것인, 장치(100).
- 제17항 또는 제18항에 있어서, 상기 각각의 분석 위치(50)로부터 서로 다른 거리 각각에 대해,
방사형 샘플링 결과를 얻기 위해 가장 가까운 반사 표면 거리에 대해 상기 음향 환경(5)을 방사형으로 샘플링하고,
상기 방사형 샘플링 결과에 대한 방사형 적분, 및 거리가 증가함에 따라 상기 초기 반사 기여도를 감소시키기 위해 방사형 거리에 따른 가중을 수행하여 상기 함수(112)를 얻음으로써,
상기 각각의 분석 위치(50)로부터 서로 다른 거리 각각에 대해, 초기 반사 기여도를 나타내는 값을 나타내는 상기 함수(112)를 결정하도록 구성되는, 장치(100). - 제17항 내지 제19항 중 어느 한 항에 있어서, 상기 하나 이상의 분석 위치(50)에서 결정된 상기 함수(112)에 합산을 행하여 상기 추가 함수(112')를 산출하도록 구성되는, 장치(100).
- 제17항 내지 제20항 중 어느 한 항에 있어서, 두 개의 가장 큰 최대값(118)에 관해 상기 함수(112) 또는 그로부터 도출된 상기 추가 함수(112')를 검사하여 상기 하나 이상의 제어 매개변수(120)로서 상기 두 개의 가장 큰 최대값(118) 중 가장 가까운 것에 대해 제1 진폭(a1) 및 제1 거리(p1), 및 상기 두 개의 가장 큰 최대값 중 가장 먼 값에 대해 제2 진폭(a2) 및 제2 거리(p2)을 도출하도록 구성되는, 장치(100).
- 제21항에 있어서, 4개의 초기 반사 위치가 극좌표(r(i); β(i))에 위치되게 배치하도록 구성되고, 이 때 i = 1 … 4이고
은 와 동일하고,
이 때 이고, slDistance [m]는 음원-청취자간 거리이고, preDelay [ms], c는 소리의 속도이고,
여기서 r(i)는 가 되도록 수정되고 이 때 i= [2,4]이고,
이고,
이 때 distAlpha 값 [0.5..1]은 a1, a2, p1 및 p2를 기반으로 한 면적 분포로부터 추정되고,
distAlpha는 과 +- 10% 동일하고,
distAlpha < 0.5인 경우; distAlpha =0.5;
distAlpha > 1.0인 경우; distAlpha =1.0로 설정하는, 장치(100). - 제17항 내지 제22항 중 어느 한 항에 있어서, 제1 및 제2 초기 반사 위치는 상기 청취자 위치(10)와 교차하는 제1 라인의 반대쪽에 배열되고 제3 및 제4 초기 반사 위치는 상기 제1 라인에 수직이고 상기 청취자 위치와 교차하는 제2 라인의 반대쪽에 배열되도록 4개의 초기 반사 위치를 배치하도록 구성되는, 장치(100).
- 제23항에 있어서, 상기 하나 이상의 제어 매개변수(120)로서 상기 두 개의 가장 큰 최대값(118) 중 가장 가까운 것에 대해 제1 진폭(a1) 및 제1 거리(p1), 및 상기 두 개의 가장 큰 최대값(118) 중 가장 가까운 값에 대해 제2 진폭(a2) 및 제2 거리(p2)를 도출하기 위해 두 개의 가장 큰 최대값(118)에 관해 상기 함수(112) 또는 그로부터 도출된 상기 추가 함수(112')를 검사하고,
p2에 따라 상기 청취자 위치(10)로부터 상기 제1 및 제2 초기 반사 위치의 거리를 설정하고,
상기 제1 및 제2 초기 반사 위치의 상기 청취자 위치로부터의 거리와, a1에 따른 제1 항과 a2에 따른 제2 항 사이의 몫 또는 차이에 기초하는 상기 제3 및 제4 초기 반사 위치의 상기 청취자 위치로부터의 거리 사이의 비율을 설정하도록 구성되는, 장치(100). - 제17항 내지 제24항 중 어느 한 항에 있어서,
상기 초기 반사 패턴(1)의 제1 결정 및 상기 초기 반사 패턴(1)의 제2 결정을 지원하고 - 상기 제1 결정은 상기 제2 결정과 다르며, 상기 하나 이상의 제어 매개변수(120)를 사용하여 상기 초기 반사 위치를 배치하는 단계를 포함함 - ,
상기 음향 환경(5)이 실외 환경인 경우 또는 비트스트림(300)의 패턴 유형 인덱스가 사전 결정된 상태를 가정하여 렌더링될 오디오 신호의 표현(214)을 포함하는 경우 상기 제1 결정을 선택하도록 구성되는, 장치(100). - 제17항 내지 제25항 중 어느 한 항에 있어서, 상기 초기 반사 위치가 상기 청취자 위치(10)와 함께 수평면에 놓이도록 상기 초기 반사 위치(10)를 결정하도록 구성되는, 장치(100).
- 제17항 내지 제26항 중 어느 한 항에 있어서, 상기 군집의 방위각 회전을 렌더링될 오디오 신호의 표현(214)을 포함하는 비트스트림(300)의 패턴 방위각 매개변수에 따라 조정하여 상기 초기 반사 위치를 결정하도록 구성되는, 장치(100).
- 사운드 렌더링을 위한 장치(200)에 있어서, 상기 장치는,
청취자 위치(10) 및 음원 위치에 관한 제1 정보를 수신하고;
상기 음원 위치에 위치한 음원의 오디오 신호의 표현(214) 및 하나 이상의 초기 반사 패턴 매개변수(310)를 포함하는 비트스트림(300)을 수신하고,
하나 이상의 초기 반사 패턴 매개변수(310)에 따라,
초기 반사 위치의 군집을 나타내는
초기 반사 패턴(1)을 결정하고,
상기 초기 반사 위치의 군집을 나타내고,
상기 초기 반사 위치가 상기 청취자 위치 주위에 그리고 청취자 머리 방향의 변화에 대해 변하지 않는 상기 청취자 위치와의 각도 방향에 위치하는 방식으로 상기 청취자 위치(10)에 위치되는,
초기 반사 패턴(1)에 의해 초기 반사 부분(410)이 결정되는 실내 임펄스 응답(400)을 사용하여 상기 음원의 상기 오디오 신호를 렌더링하도록 구성되는, 장치(200). - 제28항에 있어서, 상기 하나 이상의 초기 반사 패턴 매개변수(310)는,
패턴 유형 인덱스,
후기 잔향까지의 사전 지연 시간,
압축 계수,
진폭 보정 계수,
거리 감쇠 지수,
패턴 방위각,
하나 이상의 주파수 응답 매개변수
중 하나 이상을 포함하는, 장치(200). - 제28항 또는 제29항에 있어서, 상기 적어도 하나의 실내 음향 매개변수(310)에 따라 상기 초기 반사 위치의 상호 간격과 상기 초기 반사 위치의 수를 변경함으로써, 상기 초기 반사 패턴(1)을 결정하는 단계를 수행하도록 구성되는, 장치(200).
- 제28항 내지 제30항 중 어느 한 항에 있어서, 상기 적어도 하나의 실내 음향 매개변수(310)에 따라, 상기 청취자 위치(10)에 중심을 둔 하나 이상의 나선형 함수(3, 4)를 매개변수화하고, 상기 하나 이상의 나선형 함수(3, 4)를 사용하여 상기 초기 반사 위치를 배치함으로써, 상기 초기 반사 패턴(1)을 결정하는 단계를 수행하도록 구성되는, 장치(200).
- 제28항 내지 제31항 중 어느 한 항에 있어서, 상기 수가 클수록 상기 하나 이상의 초기 반사 패턴 매개변수(310)에 포함되는 상기 후기 잔향까지의 사전 지연 시간이 길어지도록 상기 초기 반사 패턴(1)을 결정하는 단계를 수행하도록 구성되는, 장치(200).
- 제28항 내지 제32항 중 어느 한 항에 있어서, 상기 청취자 위치(10)에서 가장 먼 초기 반사 위치가 멀수록 상기 하나 이상의 초기 반사 패턴 매개변수(310)에 포함되는 상기 후기 잔향까지의 사전 지연 시간이 길도록 상기 초기 반사 패턴(1)을 결정하는 단계를 수행하도록 구성되고, 상기 거리는 상기 사전 지연 시간보다 작은, 장치(200).
- 제28항 내지 제33항 중 어느 한 항에 있어서, 상기 초기 반사 패턴(1)이 상기 청취자 위치(10) 주위에 실질적으로 균일한 방식으로 각지게 분포되도록 상기 초기 반사 패턴(1)을 결정하는 단계를 수행하도록 구성되는, 장치(200).
- 제28항 내지 제34항 중 어느 한 항에 있어서, 상기 초기 반사 패턴(1)과 상기 청취자 위치(10) 사이의 연결선이 서로 겹치지 않도록 상기 초기 반사 패턴(1)을 결정하는 단계를 수행하도록 구성되는, 장치(200).
- 제28항 내지 제35항 중 어느 한 항에 있어서,
제1 및 제2 초기 반사 위치가 상기 청취자 위치(10)와 교차하는 제1 라인의 반대쪽에 배열되고 제3 및 제4 초기 반사 위치가 상기 제1 라인에 수직이고 상기 청취자 위치와 교차하는 제2 라인의 반대쪽에 배열되도록 4개의 초기 반사 위치를 배치하고,
상기 하나 이상의 초기 반사 패턴 매개변수(310)에 포함된 후기 잔향까지의 사전 지연 시간에 따라 상기 청취자 위치로부터의 상기 제1 및 제2 초기 반사 위치의 거리를 설정하고,
상기 하나 이상의 초기 반사 패턴 매개변수(310)에 포함되는 압축 계수에 기초하여, 상기 청취자 위치로부터의 상기 제1 및 제2 초기 반사 위치의 거리와 상기 청취자 위치로부터의 상기 제3 및 제4 초기 반사 위치의 거리 사이의 비율을 설정하도록 구성되는, 장치(200). - 제28항 내지 제36항 중 어느 한 항에 있어서, 상기 초기 반사 패턴(1)의 제1 결정 방식 및 상기 초기 반사 패턴(1)의 제2 결정 방식을 지원하고 - 상기 제1 결정 방식은 상기 제2 결정 방식과 다름 - ;
상기 하나 이상의 초기 반사 패턴 매개변수(310)에 포함되는, 패턴 유형 인덱스에 따라 상기 초기 반사 패턴(1)을 결정하는 단계에서 상기 제1 결정 방식 또는 상기 제2 결정 방식을 사용하도록 구성되는, 장치(200). - 제28항 내지 제37항 중 어느 한 항에 있어서, 상기 하나 이상의 초기 반사 패턴 매개변수(310)에 포함된 패턴 유형 인덱스가 인코더 매개변수화된 결정 방식을 나타내는 경우, 상기 비트스트림(300)으로부터
상기 초기 반사 패턴(1)의 상기 초기 반사의 수,
각 초기 반사에 대한 방위각, 고도, 반경,
각 초기 반사에 대한 진폭 보정 계수,
각 초기 반사에 대한 거리 감쇠 지수,
각 초기 반사에 대한 주파수 응답 설명
중 하나 이상을 상기 하나 이상의 초기 반사 패턴 매개변수(310)의 일부로 판독하도록 구성되는, 장치(200). - 사운드 렌더링을 위한 장치(200)에 있어서,
청취자 위치(10) 및 음원 위치에 관한 제1 정보를 수신하고;
초기 반사 위치의 군집을 나타내고,
상기 초기 반사 위치가 상기 청취자 위치(10) 주위에 그리고 청취자 머리 방향의 변화에 대해 변하지 않는 상기 청취자 위치(10)와의 각도 방향에 위치하는 방식으로 상기 청취자 위치(10)에 위치하는,
초기 반사 패턴(1)에 의해 초기 반사 부분(410)이 결정되는 실내 임펄스 응답(400)을 사용하여 상기 음원의 오디오 신호를 렌더링하도록 구성되고,
상기 장치(200)는 제17항 내지 27항 중 어느 한 항에 따른 상기 초기 반사 패턴(1)을 결정하기 위한 장치(100)를 포함하는, 장치(200). - 제1항 내지 제16항 및 제28항 내지 제39항 중 어느 한 항에 있어서, 상기 실내 충격 응답(400)의 확산 후기 잔향 부분을 생성하도록 더욱 구성되는, 장치(200).
- 제1항 내지 제16항 및 제28항 내지 제40항 중 어느 한 항에 있어서, 상기 오디오 신호를 렌더링할 때, 상기 실내 임펄스 응답(400)의 직접 음원 부분과 관련된 직접 사운드 기여 스피커 신호(222)와 상기 실내 임펄스 응답(400)의 상기 초기 반사 부분(410)과 관련된 초기 반사 기여 스피커 신호(232)에 대한 합산을 형성함으로써 스피커 신호 세트(252)를 생성하도록 더욱 구성되는, 장치(200).
- 제1항 내지 제16항 및 제28항 내지 제41항 중 어느 한 항에 있어서, 상기 초기 반사 위치로부터 상기 음원의 상기 오디오 신호의 연주를 수행함으로써 상기 실내 임펄스 응답(400)의 상기 초기 반사 부분(410)과 관련된 초기 반사 기여 스피커 신호(232)를 생성하도록 더욱 구성되는, 장치(200).
- 제42항에 있어서, 상기 초기 반사 위치로부터 상기 음원의 상기 오디오 신호의 연주를 수행함으로써 상기 실내 임펄스 응답(400)의 상기 초기 반사 부분(410)과 관련된 상기 초기 반사 기여 스피커 신호(232)를 생성할 때,
각 초기 반사 위치에서 상기 청취자 위치(10)까지의 거리에 따라 레벨이 조절되는 방식으로 상기 음원의 상기 오디오 신호를 각 초기 반사 위치로부터 렌더링하도록 더욱 구성되는, 장치(200). - 제43항에 있어서, 각 초기 반사 위치에서 상기 청취자 위치(10)까지의 거리에 따라 레벨이 조절되는 방식으로 상기 음원의 상기 오디오 신호를 각 초기 반사 위치로부터 렌더링할 때,
상기 음원의 상기 오디오 신호가 상기 각 초기 반사 위치에서 렌더링되는 레벨을, 레벨 오프셋을 사용하여 오프셋(20)하거나 레벨 계수를 사용하여 증폭하고 - 상기 오프셋이나 계수는 모든 초기 반사 위치에 대해 공통임 - ,
상기 레벨 오프셋 또는 레벨 계수를 진폭 보정 계수에 따라 설정하도록 더욱 구성되는, 장치(200). - 제43항 또는 제44항에 있어서, 상기 각 초기 반사 위치에서 상기 청취자 위치(10)까지의 거리에 따라 레벨이 조절되는 방식으로 상기 음원의 상기 오디오 신호를 각 초기 반사 위치로부터 렌더링할 때, 거리 감쇠 지수에 따라 상기 음원 위치로부터 상기 오디오 신호를 렌더링하기 위한 상기 장치(200)에 의해 사용되는 레벨 조정에 대해 상기 각 초기 반사 위치에서 상기 청취자 위치(10)까지의 거리에 따른 상기 레벨 조정을 수정하도록 더욱 구성되는, 장치(200).
- 제42항 내지 제45항 중 어느 한 항에 있어서, 상기 초기 반사 위치로부터의 상기 음원의 상기 오디오 신호의 상기 연주를 수행함으로써 상기 실내 임펄스 응답(400)의 상기 초기 반사 부분(410)과 관련된 상기 초기 반사 기여 스피커 신호(232)를 생성할 때, 하나 이상의 주파수 응답 매개변수에 따라 스펙트럼 형태로 형성되는 방식으로 상기 음원의 상기 오디오 신호를 각 초기 반사 위치로부터 렌더링하도록 더욱 구성되는, 장치(200).
- 제1항 내지 제16항 및 제28항 내지 제46항 중 어느 한 항에 있어서, 상기 초기 반사 위치로부터 상기 음원의 상기 오디오 신호의 상기 연주를 수행할 때, 청취자의 머리 방향에 특정한 HRTF를 사용하도록 더욱 구성되는, 장치(200).
- 제1항 내지 제16항 및 제28항 내지 제47항 중 어느 한 항에 따른 사운드 연주의 대상이 되는, 비트스트림(300).
- 제48항에 따른 사운드 연주의 대상이 되는 비트스트림(300)을 저장하는, 디지털 저장 매체.
- 사운드 렌더링을 위한 방법에 있어서, 상기 방법은:
청취자 위치(10) 및 음원 위치에 대한 정보를 수신하는 단계; 및
초기 반사 위치의 군집을 나타내고,
상기 반사 위치가 상기 청취자 위치(10) 주위에 그리고 청취자 머리 방향의 변화에 대해 변하지 않는 상기 청취자 위치(10)와의 각도 방향에 위치하는 방식으로 상기 청취자 위치(10)에 위치하는,
초기 반사 패턴(1)에 의해서만 초기 반사 부분(410)이 결정되는 실내 임펄스 응답(400)을 이용하여 상기 음원의 오디오 신호를 렌더링하는 단계
를 포함하는, 방법. - 사운드 연주에 대한 초기 반사 패턴(1)을 결정하는 방법에 있어서, 상기 방법은:
하나 이상의 분석 위치(50) 각각에서,
상기 각각의 분석 위치(50)로부터의 서로 다른 거리 각각에 대해 초기 반사 기여도를 나타내는 값을 나타내는 함수(112)를 결정하고;
하나 이상의 제어 매개변수(120)를 도출하기 위해 하나 이상의 최대값(118)에 대해 상기 함수(112) 또는 이로부터 도출된 추가 함수(112')를 검사함으로써,
음향 환경(5)의 기하학적 분석(110)을 수행하는 단계; 및
상기 하나 이상의 제어 매개변수(120)를 사용하여 상기 초기 반사 위치를 배치함으로써
초기 반사 위치의 군집을 나타내는
초기 반성 패턴(1)을 결정하는 단계
를 포함하는, 방법. - 사운드 렌더링을 위한 방법에 있어서, 상기 방법은:
청취자 위치(10) 및 음원 위치에 대한 제1 정보를 수신하는 단계;
상기 음원 위치에 위치한 음원의 오디오 신호의 표현(214) 및 하나 이상의 초기 반사 패턴 매개변수(310)를 포함하는 비트스트림(300)을 수신하는 단계,
상기 하나 이상의 초기 반사 패턴 매개변수(310)에 따라,
초기 반사 위치의 군집을 나타내는,
초기 반사 패턴(1)을 결정하는 단계; 및
초기 반사 위치의 군집을 나타내고,
상기 초기 반사 위치가 상기 청취자 위치 주위에 그리고 청취자 머리 방향의 변화에 대해 변하지 않는 상기 청취자 위치와의 각도 방향에 위치하는 방식으로 상기 청취자 위치(10)에 위치하는
초기 반사 패턴(1)에 의해 초기 반사 부분(410)이 결정되는 실내 임펄스 응답(400)을 이용하여 상기 음원의 상기 오디오 신호를 렌더링하는 단계
를 포함하는, 방법. - 사운드 렌더링을 위한 방법에 있어서, 상기 방법은:
청취자 위치(10) 및 음원 위치에 대한 제1 정보를 수신하는 단계; 및
초기 반사 위치의 군집을 나타내고;
상기 초기 반사 위치가 상기 청취자 위치(10) 주위에 그리고 청취자 머리 방향의 변화에 대해 변하지 않는 상기 청취자 위치(10)와의 각도 방향에 위치하는 방식으로 상기 청취자 위치(10)에 위치하는,
초기 반사 패턴(1)에 의해 초기 반사 부분(410)이 결정되는 실내 임펄스 응답(400)을 이용하여 상기 음원의 오디오 신호를 렌더링하는 단계
를 포함하고,
상기 방법은 제51항에 따른 상기 초기 반사 패턴(1)을 결정하는 방법을 포함하는, 방법. - 컴퓨터 프로그램을 실행할 때, 컴퓨터로 하여금 제50항 내지 제53항 중 어느 한 항의 방법을 수행하도록 하기 위한 컴퓨터 프로그램.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21207272 | 2021-11-09 | ||
EP21207272.2 | 2021-11-09 | ||
PCT/EP2022/081089 WO2023083790A1 (en) | 2021-11-09 | 2022-11-08 | Early reflection concept for auralization |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240095353A true KR20240095353A (ko) | 2024-06-25 |
Family
ID=78592670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020247019070A KR20240095353A (ko) | 2021-11-09 | 2022-11-08 | 가청화를 위한 초기 반사 개념 |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP4430856A1 (ko) |
KR (1) | KR20240095353A (ko) |
CN (1) | CN118525529A (ko) |
AU (1) | AU2022384581A1 (ko) |
CA (1) | CA3237444A1 (ko) |
MX (1) | MX2024005401A (ko) |
TW (1) | TW202329705A (ko) |
WO (1) | WO2023083790A1 (ko) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3588989A1 (en) * | 2018-06-28 | 2020-01-01 | Nokia Technologies Oy | Audio processing |
-
2022
- 2022-11-08 EP EP22813307.0A patent/EP4430856A1/en active Pending
- 2022-11-08 KR KR1020247019070A patent/KR20240095353A/ko unknown
- 2022-11-08 TW TW111142600A patent/TW202329705A/zh unknown
- 2022-11-08 CN CN202280087678.0A patent/CN118525529A/zh active Pending
- 2022-11-08 WO PCT/EP2022/081089 patent/WO2023083790A1/en active Application Filing
- 2022-11-08 MX MX2024005401A patent/MX2024005401A/es unknown
- 2022-11-08 AU AU2022384581A patent/AU2022384581A1/en active Pending
- 2022-11-08 CA CA3237444A patent/CA3237444A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
MX2024005401A (es) | 2024-06-24 |
WO2023083790A1 (en) | 2023-05-19 |
AU2022384581A1 (en) | 2024-05-23 |
CA3237444A1 (en) | 2023-05-19 |
EP4430856A1 (en) | 2024-09-18 |
CN118525529A (zh) | 2024-08-20 |
TW202329705A (zh) | 2023-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200366994A1 (en) | Automatic discovery and localization of speaker locations in surround sound systems | |
KR101820224B1 (ko) | 믹싱 데스크, 사운드 신호 생성기, 사운드 신호를 제공하기 위한 방법 및 컴퓨터 프로그램 | |
CN109891503B (zh) | 声学场景回放方法和装置 | |
KR20200047414A (ko) | 헤드셋을 통한 공간 오디오 렌더링을 위한 룸 특성 수정 시스템 및 방법 | |
US20240276168A1 (en) | Spatially-bounded audio elements with interior and exterior representations | |
US11302339B2 (en) | Spatial sound reproduction using multichannel loudspeaker systems | |
KR20240095353A (ko) | 가청화를 위한 초기 반사 개념 | |
KR20240095455A (ko) | 초기 반사 패턴을 이용한 가청화의 개념 | |
KR20240095354A (ko) | 가청화를 위한 초기 반사 패턴 생성 개념 | |
US20240357313A1 (en) | Early reflection concept for auralization | |
EP3547305B1 (en) | Reverberation technique for audio 3d | |
US11736886B2 (en) | Immersive sound reproduction using multiple transducers | |
US20230179947A1 (en) | Adjustment of Reverberator Based on Source Directivity | |
US20230143857A1 (en) | Spatial Audio Reproduction by Positioning at Least Part of a Sound Field |