KR102535704B1 - 상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리 - Google Patents
상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리 Download PDFInfo
- Publication number
- KR102535704B1 KR102535704B1 KR1020227006702A KR20227006702A KR102535704B1 KR 102535704 B1 KR102535704 B1 KR 102535704B1 KR 1020227006702 A KR1020227006702 A KR 1020227006702A KR 20227006702 A KR20227006702 A KR 20227006702A KR 102535704 B1 KR102535704 B1 KR 102535704B1
- Authority
- KR
- South Korea
- Prior art keywords
- loudspeaker
- spatial
- audio
- dynamics processing
- loudspeakers
- Prior art date
Links
- 238000012545 processing Methods 0.000 claims abstract description 305
- 230000005236 sound signal Effects 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims description 130
- 238000009877 rendering Methods 0.000 claims description 123
- 230000004913 activation Effects 0.000 claims description 76
- 230000008569 process Effects 0.000 claims description 36
- 230000006835 compression Effects 0.000 claims description 32
- 238000007906 compression Methods 0.000 claims description 32
- 238000012935 Averaging Methods 0.000 claims description 18
- 210000003127 knee Anatomy 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000001994 activation Methods 0.000 description 74
- 230000006870 function Effects 0.000 description 72
- 230000004044 response Effects 0.000 description 17
- 239000013598 vector Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 10
- 238000004091 panning Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000013316 zoning Methods 0.000 description 2
- BIIBYWQGRFWQKM-JVVROLKMSA-N (2S)-N-[4-(cyclopropylamino)-3,4-dioxo-1-[(3S)-2-oxopyrrolidin-3-yl]butan-2-yl]-2-[[(E)-3-(2,4-dichlorophenyl)prop-2-enoyl]amino]-4,4-dimethylpentanamide Chemical class CC(C)(C)C[C@@H](C(NC(C[C@H](CCN1)C1=O)C(C(NC1CC1)=O)=O)=O)NC(/C=C/C(C=CC(Cl)=C1)=C1Cl)=O BIIBYWQGRFWQKM-JVVROLKMSA-N 0.000 description 1
- 206010028923 Neonatal asphyxia Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/007—Protection circuits for transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2205/00—Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
- H04R2205/024—Positioning of loudspeaker enclosures for spatial sound reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/005—Audio distribution systems for home, i.e. multi-room use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/02—Spatial or constructional arrangements of loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
청취 환경의 복수의 확성기 각각에 대해, 개별 확성기 역학 처리 구성 데이터가 획득될 수 있다. 청취 환경 역학 처리 구성 데이터는, 개별 확성기 역학 처리 구성 데이터에 기초하여 결정될 수 있다. 역학 처리는, 처리된 오디오 데이터를 생성하기 위해, 청취 환경 역학 처리 구성 데이터에 기초하여, 수신된 오디오 데이터에 대해 수행될 수 있다. 처리된 오디오 데이터는, 렌더링된 오디오 신호를 생성하기 위해, 복수의 확성기 중 적어도 일부를 포함하는 확성기 세트를 통한 재생을 위해 렌더링될 수 있다. 렌더링된 오디오 신호는 확성기 세트에 제공되고 이에 의해 재생될 수 있다.
Description
관련 출원에 대한 상호 참조
본 출원은 2019년 7월 30일에 출원된 스페인 특허출원 제P201930702호, 2020년 2월 7일에 출원된 미국 가특허출원 제62/971,421호, 2020년 6월 25일에 출원된 미국 가특허출원 제62/705,410호, 2019년 7월 30일에 출원된 미국 가특허출원 제62/880,115호 및 2020년 6월 12일에 출원된 미국 가특허출원 제62/705,143호에 대한 우선권을 주장하며, 이들 각각은 그 전체가 참조에 의해 본원에 포함된다.
본 개시는 스피커 세트의 일부 또는 모든 스피커에 의한 오디오의 재생 및 재생을 위한 렌더링을 위한 시스템 및 방법에 관한 것이다.
스마트 오디오 디바이스를 포함하지만 이로 한정되지 않는 오디오 디바이스는 널리 보급되어 많은 가정의 공통 피처가 되고 있다. 오디오 디바이스를 제어하기 위한 기존 시스템 및 방법이 이점을 제공하지만, 개선된 시스템 및 방법이 바람직할 것이다.
표기법 및 명명법
청구범위를 포함하여 본 개시 전체에 걸쳐, "스피커" 및 "확성기"는 단일 스피커 피드에 의해 구동되는 임의의 사운드 방출 변환기(또는 변환기 세트)를 나타내기 위해 동의어로 사용된다. 일반적인 헤드폰 세트는 두 개의 스피커를 포함한다.
청구범위를 포함하여 본 개시 전체에 걸쳐, 신호 또는 데이터"에 대해(on)" 연산을 수행한다는 표현(예를 들어, 신호 또는 데이터에 대해 필터링, 스케일링, 변환 또는 이득 적용)은 신호 또는 데이터에 대한 직접 동작 또는 신호 또는 데이터의 처리된 버전에 대한 동작(예를 들어, 동작 수행 전에 예비 필터링 또는 전처리를 거친 신호 버전에 대한)을 수행하는 것을 나타내는 넓은 의미로 사용된다.
청구범위를 포함하여 본 개시 전체에 걸쳐, 표현 "시스템"은 디바이스, 시스템 또는 서브시스템을 나타내는 넓은 의미로 사용된다. 예를 들어, 디코더를 구현하는 서브시스템은 디코더 시스템으로 지칭될 수 있으며 그러한 서브시스템을 포함하는 시스템(예를 들어, 다중 입력에 응답하여 X 출력 신호를 생성하는 시스템, 여기에서 서브시스템은 M 개의 입력을 생성하고 나머지 X-M 입력은 외부 소스에서 수신됨) 또한 디코더 시스템으로 지칭될 수 있다.
청구범위를 포함하여 본 개시 전체에 걸쳐, 표현 "프로세서"는 데이터(예를 들어, 오디오 또는 비디오 또는 다른 이미지 데이터)에 대한 동작을 수행하기 위하여 (예를 들어, 소프트웨어 또는 펌웨어를 사용하여) 프로그래밍 가능하거나 다른 방식으로 구성할 수 있는 시스템 또는 디바이스를 나타내는 넓은 의미로 사용된다. 프로세서의 예는 현장 프로그래밍 가능 게이트 어레이(또는 다른 구성 가능한 집적 회로 또는 칩셋), 오디오 또는 다른 사운드 데이터에 대해 파이프라인 처리를 수행하도록 프로그래밍 및/또는 다른 방식으로 구성되는 디지털 신호 프로세서, 프로그래밍 가능 범용 프로세서 또는 컴퓨터 및 프로그래밍 가능 마이크로프로세서 칩 또는 칩셋을 포함한다.
청구범위를 포함하여 본 개시 전체에 걸쳐, 용어 "결합하다(couples)" 또는 "결합된(coupled)"은 직접 또는 간접 연결(connection)을 의미하는 데 사용된다. 따라서, 제1 디바이스가 제2 디바이스에 결합되면, 그 연결은 직접 연결을 통하거나, 다른 디바이스 및 연결을 통한 간접 연결을 통한 것일 수 있다.
본원에서, "스마트 오디오 디바이스"라는 표현을 사용하여 단일 목적 오디오 디바이스 또는 가상 비서(virtual assistant)(예컨대, 연결된 가상 비서)인 스마트 디바이스를 나타낸다. 단일 목적 오디오 디바이스는 적어도 하나의 마이크를 포함하거나 이에 결합되고(그리고 선택적으로 또한 적어도 하나의 스피커 및/또는 적어도 하나의 카메라를 포함하거나 이에 결합되고), 및/또는 적어도 하나의 스피커(그리고 선택적으로 또한 적어도 하나의 마이크를 포함하거나 이에 결합되고), 주로 또는 기본적으로 단일 목적을 달성하도록 설계된 디바이스(예를 들어 TV 또는 휴대 전화)이다. TV가 일반적으로 프로그램 자료에서 오디오를 재생할 수 있지만(그리고 재생할 수 있는 것으로 생각됨), 대부분의 경우 최신 TV는 TV 시청 애플리케이션을 포함하여 애플리케이션이 로컬로 실행되는 일부 운영 체제를 실행한다. 마찬가지로, 휴대 전화의 오디오 입력 및 출력은 많은 작업을 수행할 수 있지만, 이들은 휴대 전화에서 실행되는 애플리케이션에 의해 처리된다. 이러한 의미에서, 스피커(들) 및 마이크(들)을 갖는 단일 목적 오디오 디바이스는 종종 스피커(들) 및 마이크(들)을 직접 사용하기 위해 로컬 애플리케이션 및/또는 서비스를 실행하도록 구성된다. 일부 단일 목적 오디오 디바이스는 함께 그룹화하여 구역 또는 사용자 구성 영역에서 오디오를 재생하도록 구성될 수 있다.
가상 비서(예컨대, 연결된 가상 비서)는, 적어도 하나의 마이크를 포함하거나 이에 결합된(그리고 선택적으로 적어도 하나의 스피커 및/또는 적어도 하나의 카메라를 포함하거나 이에 결합된) 디바이스(예를 들어, 스마트 스피커 또는 음성 비서 통합 디바이스)이며, 어떤 의미에서 클라우드 가능하거나 가상 비서 자체 내에서 또는 상에서 구현되지 않은 애플리케이션에 대해 (가상 비서와 구별되는) 다수의 디바이스를 활용하는 능력을 제공할 수 있다. 가상 비서는 때때로 예를 들어 매우 이산적이고 조건부로 정의된 방식으로 함께 작동할 수 있다. 예를 들어, 2개 이상의 가상 비서는 그들 중 하나, 예를 들어 단어를 들었다고 가장 확신하는 것이 깨우기 단어에 응답한다는 의미에서 함께 작동할 수 있다. 연결된 디바이스는 일종의 집합체를 형성할 수 있으며, 이는 가상 비서일 수 있는(또는 이를 구현하는) 하나의 메인 애플리케이션에 의해 관리될 수 있다.
본원에서, "깨우기 단어(wakeword)"는 임의의 소리(예를 들어 사람이 발화한 단어 또는 어떤 다른 소리)를 나타내기 위해 넓은 의미로 사용되며, 여기에서 스마트 오디오 디바이스는 (스마트 오디오 디바이스에 포함되거나 결합된 적어도 하나의 마이크, 또는 적어도 하나의 다른 마이크를 사용하여) 소리의 ("청각") 감지에 응답하여 깨어나도록 구성된다. 이 맥락에서, "깨우다"는 디바이스가 소리 명령을 기다리는(즉, 듣고 있는) 상태로 들어가는 것을 나타낸다. 일부 경우에, 본원에서 "깨우기 단어"로 지칭될 수 있는 것은 하나 이상의 단어, 예를 들어 구를 포함할 수 있다.
본원에서, "깨우기 단어 검출기"라는 표현은 실시간 사운드(예를 들어 음성) 특징과 훈련된 모델 간의 정렬을 지속적으로 검색하도록 구성된 디바이스(또는 디바이스를 구성하기 위한 명령을 포함하는 소프트웨어)를 나타낸다. 일반적으로, 깨우기 단어가 검출된 확률이 미리 정의된 임계값을 초과한다고 깨우기 단어 검출기에 의해 결정될 때마다 깨우기 단어 이벤트가 촉발된다. 예를 들어, 임계값은 거짓 수락과 거짓 거부의 비율 사이에 양호한 절충안을 제공하도록 조정된 미리 결정된 임계값일 수 있다. 깨우기 단어 이벤트에 이어, 디바이스는 명령을 듣고 수신한 명령을 더 크고 계산 집중적인 인식기로 전달하는 상태("깨어난" 상태 또는 "주의" 상태로 지칭할 수 있음)로 들어갈 수 있다.
일부 실시예는 스마트 오디오 디바이스 세트의 스마트 오디오 디바이스 중 적어도 하나(예컨대, 전체 또는 일부)에 의한, 및/또는 다른 스피커 세트의 스피커 중 적어도 하나(예컨대, 전체 또는 일부)에 의한 재생을 위해 공간 오디오 믹스의 렌더링(또는 렌더링 및 재생)(예컨대, 오디오 스트림 또는 다중 오디오 스트림의 렌더링)을 위한 방법을 포함한다. 일부 실시예는 (예를 들어, 스피커 피드(feed)의 생성을 포함한) 그러한 렌더링, 그리고 또한 렌더링된 오디오의 재생(예를 들어, 생성된 스피커 피드의 재생)을 위한 방법(또는 시스템)이다.
실시예의 부류는 복수의 조정된(편성된) 스마트 오디오 디바이스 중 적어도 하나(예컨대, 전부 또는 일부)에 의한 오디오의 렌더링(또는 렌더링 및 재생)을 위한 방법을 포함한다. 예를 들어 사용자의 가정에 (시스템에) 있는 스마트 오디오 디바이스 세트는, 당해 스마트 오디오 디바이스의 전부 또는 일부에 의한(즉, 스마트 오디오 디바이스의 전부 또는 일부에 포함되거나 결합된 스피커(들)에 의한) 재생을 위해 유연한 오디오의 렌더링을 포함하여, 다양한 동시 사용 사례를 처리하도록 편성될 수 있다.
본 개시의 일부 실시예는, 적어도 2개의 스피커(예를 들어, 스피커 세트의 스피커 중 전체 또는 일부)에 의한 재생을 위해 오디오를 렌더링(예를 들어, 오디오 스트림 또는 다중 오디오 스트림을 렌더링함에 의해 예컨대 공간 오디오 믹스를 렌더링)하는 것을 포함하는 오디오 처리를 위한 시스템 및 방법으로서,
(a) 개별 확성기의 제한 임계값(재생 제한 임계값)과 같은 개별 확성기 역학 처리 구성 데이터(individual loudspeaker dynamics processing configuration data)를 결합하고, 이로써 (결합된 임계값과 같은) 복수의 확성기에 대한 청취 환경 역학 처리 구성 데이터(listening environment dynamics processing configuration data)를 결정하는 것;
(b) 처리된 오디오를 생성하기 위해 복수의 확성기에 대한 청취 환경 역학 처리 구성 데이터(예컨대, 결합된 임계값)를 사용하여 오디오(예컨대, 공간 오디오 믹스를 나타내는 오디오의 스트림(들))에 대한 역학 처리를 수행하는 것; 및
(c) 처리된 오디오를 스피커 피드로 렌더링하는 것을 포함한다.
일부 실시예에서, 오디오 처리는,
(d) 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터에 따라 렌더링된 오디오 신호에 대해 역학 처리를 수행하는 것(예컨대, 대응하는 스피커와 연관된 재생 제한 임계값에 따라 스피커 피드를 제한하고, 이로써 제한된 스피커 피드를 생성하는 것)을 포함한다.
스피커는 스마트 오디오 디바이스 세트의 스마트 오디오 디바이스 중 적어도 하나(예를 들어, 전부 또는 일부)의 (또는 이에 결합된) 스피커일 수 있다. 일부 구현에서, 단계 (d)에서 제한된 스피커 피드를 생성하기 위해, 단계 (c)에서 생성된 스피커 피드는 역학 처리의 제2 단계에 의해 (예를 들어, 각각의 스피커의 연관된 역학 처리 시스템에 의해) 처리되어, 예를 들어, 스피커를 통해 최종 재생하기 전에 제한된(즉, 동적으로 제한된) 스피커 피드를 생성할 수 있다. 예를 들어, 스피커 피드(또는 그것의 하위 집합 또는 일부)는 스피커 중 각각 다른 하나의 역학 처리 시스템(예를 들어, 스마트 오디오 디바이스의 역학 처리 서브시스템, 여기에서 스마트 오디오 디바이스는 스피커 중 관련된 것을 포함하거나 이에 연결됨)에 제공될 수 있으며, 각각의 상기 역학 처리 시스템으로부터의 처리된 오디오 출력은 스피커 중 관련된 것에 대한 제한된 스피커 피드(즉, 동적으로 제한된 스피커 피드)를 생성하는 데 사용될 수 있다. 스피커에 특정한 역학 처리(달리 말하자면, 각 스피커에 대해 독립적으로 수행된 역학 처리)에 이어, 처리된(예를 들어, 동적으로 제한된) 스피커 피드가 스피커를 구동하여 사운드를 재생하도록 할 수 있다.
(단계 (b)에서) 역학 처리의 제1 단계는 단계 (a)와 (b)가 생략되면 일어날 공간 균형 내의 지각적으로 산만한 이동을 줄이도록 설계될 수 있으며, 단계 (d)에서 일어난 역학 처리된(예를 들어 제한된) 스피커 피드는 (단계 (b)에서 생성된 처리된 오디오에 대한 응답이 아니라) 원래 오디오에 대한 응답으로 생성되었다. 이것은 믹스의 공간 균형에서 바람직하지 않은 이동을 방지할 수 있다. 단계 (c)의 렌더링된 스피커 피드에 대해 작동하는 단계(d)에서의 역학 처리의 제2 단계는 스피커 왜곡이 없도록 설계될 수 있는데, 왜냐하면 단계 (b)의 역학 처리가 신호 수준이 모든 스피커의 임계값 아래로 감소되었음을 반드시 보장하지 않을 수 있기 때문이다. 개별 확성기 역학 처리 구성 데이터의 결합(예를 들어 제1 단계(단계(a))의 임계값 결합)은, 일부 예에서, 스피커에 걸쳐 (예를 들어, 스마트 오디오 디바이스에 걸쳐) 개별 확성기 역학 처리 구성 데이터(예를 들어 예를 들어, 제한 임계값)를 평균하는, 또는 스피커에 걸쳐(예를 들어, 스마트 오디오 디바이스에 걸쳐) 개별 확성기 역학 처리 구성 데이터(예를 들어 예를 들어, 제한 임계값)의 최소값을 취하는 단계를 포함할 수 있다.
일부 구현에서, (단계 (b)에서) 역학 처리의 제1 단계가 공간적 믹스를 나타내는 오디오(예를 들어, 적어도 하나의 객체 채널 및 선택적으로 또한 적어도 하나의 스피커 채널을 포함하는 객체 기반 오디오 프로그램의 오디오)에 대해 동작할 때, 이 제1 단계는 공간 구역의 사용을 통한 오디오 객체 처리 기술에 따라 구현될 수 있다. 그러한 경우에, 각 구역과 연관된 결합된 개별 확성기 역학 처리 구성 데이터(예를 들어, 결합된 제한 임계값)는 개별 확성기 역학 처리 구성 데이터(예를 들어, 개별 스피커 제한 임계값)의 가중 평균에 의해(또는 이것으로서) 유도될 수 있으며, 이 가중치는 각 스피커의 구역에 대한 공간적 근접도 및/또는 그 안의 위치에 의해, 적어도 부분적으로, 주어지거나 결정될 수 있다.
한 부류의 실시예에서, 오디오 렌더링 시스템은 적어도 하나의 오디오 스트림(예컨대, 동시 재생을 위한 복수의 오디오 스트림)을 렌더링하고/하거나 임의로 배치된 복수의 확성기를 통해 렌더링된 스트림(들)을 재생할 수 있으며, 상기 프로그램 스트림(들) 중 적어도 하나(예컨대, 둘 이상)는 공간 믹스이다(또는 공간 믹스를 결정한다).
본 개시의 양상은 하나 이상의 개시된 방법 또는 그 단계의 임의의 실시예를 수행하도록 구성된 (예를 들어, 프로그래밍된) 시스템 및 하나 이상의 개시된 방법 또는 그 단계를 수행하기 위한 코드(예를 들어, 수행하도록 실행 가능한 코드)를 저장하는 데이터(예를 들어, 디스크 또는 다른 유형의 저장 매체)의 비일시적인 저장소를 구현하는 유형의, 비일시적, 컴퓨터 판독 가능 매체를 포함한다. 예를 들어, 일부 실시예는 하나 이상의 개시된 방법 또는 그 단계를 포함하여, 데이터에 대한 다양한 작업 중 임의의 것을 수행하도록 소프트웨어 또는 펌웨어로 프로그래밍된 및/또는 달리 구성된, 프로그래밍 가능한 범용 프로세서, 디지털 신호 프로세서, 또는 마이크로프로세서이거나 이를 포함할 수 있다. 이러한 범용 프로세서는 입력 디바이스, 메모리 및 주장된 데이터에 대한 응답으로 하나 이상의 개시된 방법(또는 그 단계)을 수행하도록 프로그래밍된(및/또는 달리 구성된) 처리 서브시스템을 포함하는 컴퓨터 시스템이거나 이를 포함할 수 있다.
본 개시의 적어도 몇몇 양상들은 오디오 처리 방법과 같은 방법을 통해 구현될 수 있다. 일부 경우에, 방법은 본원에 개시된 것과 같은 제어 시스템에 의해 적어도 부분적으로 구현될 수 있다. 이러한 일부 방법은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 청취 환경의 복수의 확성기 각각에 대한 개별 확성기 역학 처리 구성 데이터를 획득하는 것을 포함한다. 일부 경우에, 복수의 확성기 중 하나 이상의 확성기에 대한 개별 확성기 역학 처리 구성 데이터는 하나 이상의 확성기의 하나 이상의 능력에 대응할 수 있다. 일부 예에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트를 포함한다. 이러한 일부 방법은, 제어 시스템에 의해, 복수의 확성기에 대한 청취 환경 역학 처리 구성 데이터를 결정하는 것을 포함한다. 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기의 각각의 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트에 기초한다.
이러한 방법 중 일부는, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 하나 이상의 오디오 신호 및 관련 공간 데이터를 포함하는 오디오 데이터를 수신하는 것을 포함한다. 일부 예에서, 공간 데이터는 채널 데이터 및/또는 공간 메타데이터를 포함한다. 이러한 방법 중 일부는, 제어 시스템에 의해, 처리된 오디오 데이터를 생성하기 위해 청취 환경 역학 처리 구성 데이터에 기초하여 오디오 데이터에 대해 역학 처리를 수행하는 것을 포함한다. 이러한 일부 방법은, 제어 시스템에 의해, 렌더링된 오디오 신호를 생성하기 위해 복수의 확성기 중 적어도 일부를 포함하는 확성기 세트를 통한 재생을 위해 처리된 오디오 데이터를 렌더링하는 것을 포함한다. 이러한 방법 중 일부는, 인터페이스 시스템을 통해, 렌더링된 오디오 신호를 확성기 세트에 제공하는 것을 포함한다.
일부 예에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각 확성기에 대한 재생 제한 임계값 데이터 세트를 포함할 수 있다. 재생 제한 임계값 데이터 세트는, 예를 들어, 복수의 주파수 각각에 대한 재생 제한 임계값을 포함할 수 있다.
일부 예에 따르면, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸쳐 최소 재생 제한 임계값을 결정하는 것을 포함할 수 있다. 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸쳐 재생 제한 임계값을 평균화하는 것을 포함할 수 있다. 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸친 평균 재생 제한 임계값을 얻기 위해 재생 제한 임계값을 평균화하는 것, 복수의 확성기에 걸쳐 최소 재생 제한 임계값을 결정하는 것, 및 최소 재생 제한 임계값과 평균화된 재생 제한 임계값 사이에서 보간하는 것을 포함할 수 있다. 일부 그러한 예에서, 재생 제한 임계값을 평균화하는 것은 재생 제한 임계값의 가중 평균을 결정하는 것을 포함할 수 있다. 일부 구현에 따르면, 가중 평균은, 적어도 부분적으로, 제어 시스템에 의해 구현되는 렌더링 프로세스의 특성에 기초할 수 있다.
일부 예에서, 오디오 데이터에 대해 역학 처리를 수행하는 것은 공간 구역에 기초할 수 있으며, 공간 구역 각각은 청취 환경의 서브세트에 대응한다. 그러한 일부 예에 따르면, 재생 제한 임계값의 가중 평균은, 적어도 부분적으로, 공간 구역에 대한 오디오 신호 근접도의 함수로서 렌더링 처리에 의한 확성기의 활성화에 기초할 수 있다. 일부 예에서, 가중 평균은, 적어도 부분적으로, 공간 구역 각각에서 각각의 확성기에 대한 확성기 참여 값에 기초할 수 있다. 그러한 일부 예에 따르면, 각각의 확성기 참여 값은, 적어도 부분적으로, 공간 구역 각각 내의 하나 이상의 공칭(nominal) 공간 위치에 기초할 수 있다. 그러한 일부 예에서, 공칭 공간 위치는 Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 또는 Dolby 9.1 서라운드 사운드 믹스에서 채널의 표준 위치와 같은 채널의 표준 위치에 대응한다. 일부 경우에, 각각의 확성기 참여 값은, 적어도 부분적으로, 공간 구역 각각 내의 하나 이상의 공칭 공간 위치 각각에서 오디오 데이터의 렌더링에 대응하는 각 확성기의 활성화에 기초할 수 있다.
일부 구현에 따르면, 방법은 또한, 렌더링된 오디오 신호가 제공되는 확성기 세트의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터에 따라 렌더링된 오디오 신호에 대해 역학 처리를 수행하는 것을 포함할 수 있다.
일부 예에서, 처리된 오디오 데이터를 렌더링하는 것은 하나 이상의 동적으로 구성 가능한 함수에 따라 확성기 세트의 상대적 활성화를 결정하는 것을 포함할 수 있다. 하나 이상의 동적으로 구성 가능한 함수는, 예를 들어 오디오 신호의 하나 이상의 속성, 확성기 세트의 하나 이상의 속성, 및/또는 하나 이상의 외부 입력에 기초할 수 있다.
일부 구현에 따르면, 오디오 데이터에 대한 역학 처리를 수행하는 것은 공간 구역에 기초할 수 있다. 공간 구역 각각은 청취 환경의 서브세트에 대응할 수 있다. 이러한 일부 구현에서, 역학 처리는 공간 구역 각각에 대해 개별적으로 수행될 수 있다. 일부 경우에, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 공간 구역 각각에 대해 개별적으로 수행될 수 있다.
일부 예에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각각의 확성기에 대해 동적 범위 압축 데이터 세트를 포함할 수 있다. 이러한 일부 예에 따르면, 동적 범위 압축 데이터 세트는 임계값 데이터, 입력/출력 비율 데이터, 공격(attack) 데이터, 해제(release) 데이터 및/또는 니(knee) 데이터를 포함할 수 있다.
일부 구현에 따르면, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것에 적어도 부분적으로 기초할 수 있다. 일부 예들에서, 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은 제어 시스템에 의해 구현되는 렌더링 처리의 특성에 적어도 부분적으로 기초할 수 있다.
일부 그러한 예들에서, 오디오 데이터에 대해 역학 처리를 수행하는 것은 하나 이상의 공간 구역에 기초할 수 있다. 하나 이상의 공간 구역 각각은 청취 환경의 전체 또는 청취 환경의 서브세트에 대응할 수 있다. 일부 그러한 예에서, 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은 하나 이상의 공간 구역 각각에 대해 개별적으로 수행될 수 있다. 그러한 일부 예에서, 하나 이상의 공간 구역 각각에 대해 개별적으로 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은, 하나 이상의 공간 구역에 걸친 원하는 오디오 신호 위치의 함수로서 렌더링 처리에 의한 확성기의 활성화에 적어도 부분적으로 기초할 수 있다.
이러한 일부 예에 따르면, 하나 이상의 공간 구역 각각에 대해 개별적으로 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은, 하나 이상의 공간 구역 각각에서 각각의 확성기에 대한 확성기 참여 값에 적어도 부분적으로 기초할 수 있다. 일부 그러한 예에서, 각각의 확성기 참여 값은 하나 이상의 공간 구역 각각 내의 하나 이상의 공칭 공간 위치에 적어도 부분적으로 기초할 수 있다. 이러한 일부 예에서, 공칭 공간 위치는 Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 또는 Dolby 9.1 서라운드 사운드 믹스에서 채널의 표준 위치와 같은 채널의 표준 위치에 대응할 수 있다. 일부 경우에, 각각의 확성기 참여 값은, 하나 이상의 공간 구역 각각 내의 하나 이상의 공칭 공간 위치 각각에서 오디오 데이터의 렌더링에 대응하는 각 확성기의 활성화에 적어도 부분적으로 기초할 수 있다.
본원에 설명된 동작, 기능 및/또는 방법의 일부 또는 전부는 하나 이상의 비일시적 매체에 저장된 명령(예를 들어 소프트웨어)에 따라 하나 이상의 디바이스에 의해 수행될 수 있다. 이러한 비일시적 매체는 임의 접근 메모리(RAM) 디바이스, 읽기 전용 메모리(ROM) 디바이스 등을 포함하지만 이에 제한되지 않는, 본원에 설명된 것과 같은 메모리 디바이스를 포함할 수 있다. 따라서, 이 개시에 설명된 주제의 일부 혁신적인 양상은 소프트웨어가 저장된 비일시적 매체에서 구현될 수 있다.
예를 들어 소프트웨어는, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 청취 환경의 복수의 확성기 각각에 대한 개별 확성기 역학 처리 구성 데이터를 획득하는 것을 포함하는 방법을 수행하기 위해 하나 이상의 디바이스를 제어하기 위한 명령을 포함할 수 있다. 일부 경우에, 복수의 확성기 중 하나 이상의 확성기에 대한 개별 확성기 역학 처리 구성 데이터는 하나 이상의 확성기의 하나 이상의 능력에 대응할 수 있다. 일부 예에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트를 포함한다. 이러한 일부 방법은, 제어 시스템에 의해, 복수의 확성기에 대한 청취 환경 역학 처리 구성 데이터를 결정하는 것을 포함한다. 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기의 각각의 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트에 기초한다.
이러한 방법 중 일부는, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 하나 이상의 오디오 신호 및 관련 공간 데이터를 포함하는 오디오 데이터를 수신하는 것을 포함한다. 일부 예에서, 공간 데이터는 채널 데이터 및/또는 공간 메타데이터를 포함한다. 이러한 방법 중 일부는, 제어 시스템에 의해, 처리된 오디오 데이터를 생성하기 위해, 청취 환경 역학 처리 구성 데이터에 기초하여 오디오 데이터에 대해 역학 처리를 수행하는 것을 포함한다. 이러한 일부 방법은, 제어 시스템에 의해, 렌더링된 오디오 신호를 생성하기 위해, 복수의 확성기 중 적어도 일부를 포함하는 확성기 세트를 통한 재생을 위해 처리된 오디오 데이터를 렌더링하는 것을 포함한다. 이러한 방법 중 일부는, 인터페이스 시스템을 통해, 렌더링된 오디오 신호를 확성기 세트에 제공하는 것을 포함한다.
일부 예에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각 확성기에 대한 재생 제한 임계값 데이터 세트를 포함할 수 있다. 재생 제한 임계값 데이터 세트는, 예를 들어, 복수의 주파수 각각에 대한 재생 제한 임계값을 포함할 수 있다.
일부 예에 따르면, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸쳐 최소 재생 제한 임계값을 결정하는 것을 포함할 수 있다. 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸쳐 재생 제한 임계값을 평균화하는 것을 포함할 수 있다. 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸친 평균 재생 제한 임계값을 얻기 위해 재생 제한 임계값을 평균화하는 것, 복수의 확성기에 걸쳐 최소 재생 제한 임계값을 결정하는 것, 및 최소 재생 제한 임계값과 평균화된 재생 제한 임계값 사이에서 보간하는 것을 포함할 수 있다. 일부 그러한 예에서, 재생 제한 임계값을 평균화하는 것은 재생 제한 임계값의 가중 평균을 결정하는 것을 포함할 수 있다. 일부 구현에 따르면, 가중 평균은, 적어도 부분적으로, 제어 시스템에 의해 구현되는 렌더링 프로세스의 특성에 기초할 수 있다.
일부 예에서, 오디오 데이터에 대해 역학 처리를 수행하는 것은 공간 구역에 기초할 수 있으며, 공간 구역 각각은 청취 환경의 서브세트에 대응한다. 그러한 일부 예에 따르면, 재생 제한 임계값의 가중 평균은, 적어도 부분적으로, 공간 구역에 대한 오디오 신호 근접도의 함수로서 렌더링 처리에 의한 확성기의 활성화에 기초할 수 있다. 일부 예에서, 가중 평균은, 적어도 부분적으로, 공간 구역 각각에서 각각의 확성기에 대한 확성기 참여 값에 기초할 수 있다. 그러한 일부 예에 따르면, 각각의 확성기 참여 값은, 적어도 부분적으로, 공간 구역 각각 내의 하나 이상의 공칭 공간 위치에 기초할 수 있다. 그러한 일부 예에서, 공칭 공간 위치는 Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 또는 Dolby 9.1 서라운드 사운드 믹스에서 채널의 표준 위치와 같은 채널의 표준 위치에 대응한다. 일부 경우에, 각각의 확성기 참여 값은, 적어도 부분적으로, 공간 구역 각각 내의 하나 이상의 공칭 공간 위치 각각에서 오디오 데이터의 렌더링에 대응하는 각 확성기의 활성화에 기초할 수 있다.
일부 구현에 따르면, 방법은 또한, 렌더링된 오디오 신호가 제공되는 확성기 세트의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터에 따라 렌더링된 오디오 신호에 대해 역학 처리를 수행하는 것을 포함할 수 있다.
일부 예에서, 처리된 오디오 데이터를 렌더링하는 것은 하나 이상의 동적으로 구성 가능한 함수에 따라 확성기 세트의 상대적 활성화를 결정하는 것을 포함할 수 있다. 하나 이상의 동적으로 구성 가능한 함수는, 예를 들어 오디오 신호의 하나 이상의 속성, 확성기 세트의 하나 이상의 속성, 및/또는 하나 이상의 외부 입력에 기초할 수 있다.
일부 구현에 따르면, 오디오 데이터에 대한 역학 처리를 수행하는 것은 공간 구역에 기초할 수 있다. 공간 구역 각각은 청취 환경의 서브세트에 대응할 수 있다. 이러한 일부 구현에서, 역학 처리는 공간 구역 각각에 대해 개별적으로 수행될 수 있다. 일부 경우에, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 공간 구역 각각에 대해 개별적으로 수행될 수 있다.
일부 예에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각각의 확성기에 대해 동적 범위 압축 데이터 세트를 포함할 수 있다. 이러한 일부 예에 따르면, 동적 범위 압축 데이터 세트는 임계값 데이터, 입력/출력 비율 데이터, 공격(attack) 데이터, 해제(release) 데이터 및/또는 니(knee) 데이터를 포함할 수 있다.
일부 구현에 따르면, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것에 적어도 부분적으로 기초할 수 있다. 일부 예들에서, 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은 제어 시스템에 의해 구현되는 렌더링 처리의 특성에 적어도 부분적으로 기초할 수 있다.
일부 그러한 예들에서, 오디오 데이터에 대해 역학 처리를 수행하는 것은 하나 이상의 공간 구역에 기초할 수 있다. 하나 이상의 공간 구역 각각은 청취 환경의 전체 또는 청취 환경의 서브세트에 대응할 수 있다. 일부 그러한 예에서, 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은 하나 이상의 공간 구역 각각에 대해 개별적으로 수행될 수 있다. 그러한 일부 예에서, 하나 이상의 공간 구역 각각에 대해 개별적으로 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은, 하나 이상의 공간 구역에 걸친 원하는 오디오 신호 위치의 함수로서 렌더링 처리에 의한 확성기의 활성화에 적어도 부분적으로 기초할 수 있다.
이러한 일부 예에 따르면, 하나 이상의 공간 구역 각각에 대해 개별적으로 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은, 하나 이상의 공간 구역 각각에서 각각의 확성기에 대한 확성기 참여 값에 적어도 부분적으로 기초할 수 있다. 일부 그러한 예에서, 각각의 확성기 참여 값은 하나 이상의 공간 구역 각각 내의 하나 이상의 공칭 공간 위치에 적어도 부분적으로 기초할 수 있다. 이러한 일부 예에서, 공칭 공간 위치는 Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 또는 Dolby 9.1 서라운드 사운드 믹스에서 채널의 표준 위치와 같은 채널의 표준 위치에 대응할 수 있다. 일부 경우에, 각각의 확성기 참여 값은, 하나 이상의 공간 구역 각각 내의 하나 이상의 공칭 공간 위치 각각에서 오디오 데이터의 렌더링에 대응하는 각 확성기의 활성화에 적어도 부분적으로 기초할 수 있다.
일부 구현에서, 장치는 인터페이스 시스템 및 제어 시스템을 포함할 수 있다. 제어 시스템은 하나 이상의 범용 단일 또는 다중 칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그래밍 가능 게이트 어레이(FPGA) 또는 다른 프로그래밍 가능 논리 디바이스, 개별 게이트 또는 트랜지스터 논리, 개별 하드웨어 구성요소 또는 이들의 조합을 포함할 수 있다.
일부 구현에서, 제어 시스템은 본원에 개시된 방법 중 하나 이상을 수행하도록 구성될 수 있다. 이러한 일부 방법은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 청취 환경의 복수의 확성기 각각에 대한 개별 확성기 역학 처리 구성 데이터를 획득하는 것을 포함할 수 있다. 일부 경우에, 복수의 확성기 중 하나 이상의 확성기에 대한 개별 확성기 역학 처리 구성 데이터는 하나 이상의 확성기의 하나 이상의 능력에 대응할 수 있다. 일부 예에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트를 포함한다. 이러한 일부 방법은, 제어 시스템에 의해, 복수의 확성기에 대한 청취 환경 역학 처리 구성 데이터를 결정하는 것을 포함한다. 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은, 복수의 확성기의 각각의 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트에 기초한다.
이러한 방법 중 일부는, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 하나 이상의 오디오 신호 및 관련 공간 데이터를 포함하는 오디오 데이터를 수신하는 것을 포함한다. 일부 예에서, 공간 데이터는 채널 데이터 및/또는 공간 메타데이터를 포함한다. 이러한 방법 중 일부는, 제어 시스템에 의해, 처리된 오디오 데이터를 생성하기 위해, 청취 환경 역학 처리 구성 데이터에 기초하여 오디오 데이터에 대해 역학 처리를 수행하는 것을 포함한다. 이러한 방법 중 일부는, 제어 시스템에 의해, 렌더링된 오디오 신호를 생성하기 위해, 복수의 확성기 중 적어도 일부를 포함하는 확성기 세트를 통한 재생을 위해 처리된 오디오 데이터를 렌더링하는 것을 포함한다. 이러한 방법 중 일부는, 인터페이스 시스템을 통해, 렌더링된 오디오 신호를 확성기 세트에 제공하는 것을 포함한다.
일부 예에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각 확성기에 대한 재생 제한 임계값 데이터 세트를 포함할 수 있다. 재생 제한 임계값 데이터 세트는, 예를 들어, 복수의 주파수 각각에 대한 재생 제한 임계값을 포함할 수 있다.
일부 예에 따르면, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸쳐 최소 재생 제한 임계값을 결정하는 것을 포함할 수 있다. 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸쳐 재생 제한 임계값을 평균화하는 것을 포함할 수 있다. 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸친 평균 재생 제한 임계값을 얻기 위해 재생 제한 임계값을 평균화하는 것, 복수의 확성기에 걸쳐 최소 재생 제한 임계값을 결정하는 것, 및 최소 재생 제한 임계값과 평균화된 재생 제한 임계값 사이에서 보간하는 것을 포함할 수 있다. 일부 그러한 예에서, 재생 제한 임계값을 평균화하는 것은 재생 제한 임계값의 가중 평균을 결정하는 것을 포함할 수 있다. 일부 구현에 따르면, 가중 평균은, 적어도 부분적으로, 제어 시스템에 의해 구현되는 렌더링 프로세스의 특성에 기초할 수 있다.
일부 예에서, 오디오 데이터에 대해 역학 처리를 수행하는 것은 공간 구역에 기초할 수 있으며, 공간 구역 각각은 청취 환경의 서브세트에 대응한다. 그러한 일부 예에 따르면, 재생 제한 임계값의 가중 평균은, 적어도 부분적으로, 공간 구역에 대한 오디오 신호 근접도의 함수로서 렌더링 처리에 의한 확성기의 활성화에 기초할 수 있다. 일부 예에서, 가중 평균은, 적어도 부분적으로, 공간 구역 각각에서 각각의 확성기에 대한 확성기 참여 값에 기초할 수 있다. 그러한 일부 예에 따르면, 각각의 확성기 참여 값은, 적어도 부분적으로, 공간 구역 각각 내의 하나 이상의 공칭 공간 위치에 기초할 수 있다. 그러한 일부 예에서, 공칭 공간 위치는 Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 또는 Dolby 9.1 서라운드 사운드 믹스에서 채널의 표준 위치와 같은 채널의 표준 위치에 대응한다. 일부 경우에, 각각의 확성기 참여 값은, 적어도 부분적으로, 공간 구역 각각 내의 하나 이상의 공칭 공간 위치 각각에서 오디오 데이터의 렌더링에 대응하는 각 확성기의 활성화에 기초할 수 있다.
일부 구현에 따르면, 방법은 또한, 렌더링된 오디오 신호가 제공되는 확성기 세트의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터에 따라 렌더링된 오디오 신호에 대해 역학 처리를 수행하는 것을 포함할 수 있다.
일부 예에서, 처리된 오디오 데이터를 렌더링하는 것은 하나 이상의 동적으로 구성 가능한 함수에 따라 확성기 세트의 상대적 활성화를 결정하는 것을 포함할 수 있다. 하나 이상의 동적으로 구성 가능한 함수는, 예를 들어 오디오 신호의 하나 이상의 속성, 확성기 세트의 하나 이상의 속성, 및/또는 하나 이상의 외부 입력에 기초할 수 있다.
일부 구현에 따르면, 오디오 데이터에 대한 역학 처리를 수행하는 것은 공간 구역에 기초할 수 있다. 공간 구역 각각은 청취 환경의 서브세트에 대응할 수 있다. 이러한 일부 구현에서, 역학 처리는 공간 구역 각각에 대해 개별적으로 수행될 수 있다. 일부 경우에, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 공간 구역 각각에 대해 개별적으로 수행될 수 있다.
일부 예에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각각의 확성기에 대해 동적 범위 압축 데이터 세트를 포함할 수 있다. 이러한 일부 예에 따르면, 동적 범위 압축 데이터 세트는 임계값 데이터, 입력/출력 비율 데이터, 공격(attack) 데이터, 해제(release) 데이터 및/또는 니(knee) 데이터를 포함할 수 있다.
일부 구현에 따르면, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것에 적어도 부분적으로 기초할 수 있다. 일부 예들에서, 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은 제어 시스템에 의해 구현되는 렌더링 처리의 특성에 적어도 부분적으로 기초할 수 있다.
일부 그러한 예들에서, 오디오 데이터에 대해 역학 처리를 수행하는 것은 하나 이상의 공간 구역에 기초할 수 있다. 하나 이상의 공간 구역 각각은 청취 환경의 전체 또는 청취 환경의 서브세트에 대응할 수 있다. 일부 그러한 예에서, 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은 하나 이상의 공간 구역 각각에 대해 개별적으로 수행될 수 있다. 그러한 일부 예에서, 하나 이상의 공간 구역 각각에 대해 개별적으로 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은, 하나 이상의 공간 구역에 걸친 원하는 오디오 신호 위치의 함수로서 렌더링 처리에 의한 확성기의 활성화에 적어도 부분적으로 기초할 수 있다.
이러한 일부 예에 따르면, 하나 이상의 공간 구역 각각에 대해 개별적으로 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은, 하나 이상의 공간 구역 각각에서 각각의 확성기에 대한 확성기 참여 값에 적어도 부분적으로 기초할 수 있다. 일부 그러한 예에서, 각각의 확성기 참여 값은 하나 이상의 공간 구역 각각 내의 하나 이상의 공칭 공간 위치에 적어도 부분적으로 기초할 수 있다. 이러한 일부 예에서, 공칭 공간 위치는 Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 또는 Dolby 9.1 서라운드 사운드 믹스에서 채널의 표준 위치와 같은 채널의 표준 위치에 대응할 수 있다. 일부 경우에, 각각의 확성기 참여 값은, 하나 이상의 공간 구역 각각 내의 하나 이상의 공칭 공간 위치 각각에서 오디오 데이터의 렌더링에 대응하는 각 확성기의 활성화에 적어도 부분적으로 기초할 수 있다.
이 명세서에 기술된 주제의 하나 이상의 구현에 대한 세부 사항은 첨부 도면 및 아래의 설명에 설명되어 있다. 다른 특징, 양상 및 이점은 상세한 설명, 도면 및 청구범위로부터 명백해질 것이다. 다음 도면의 상대적 치수는 축척에 맞게 그려지지 않을 수 있다.
도 1은, 본 개시의 다양한 양상을 구현할 수 있는 장치의 구성요소의 예를 보여주는 블록도이다.
도 2는, 이 예에서 생활 공간인 청취 환경의 평면도를 보여준다.
도 3은, 본 개시의 여러 양태를 구현할 수 있는 시스템의 구성요소의 예를 보여주는 블록도이다.
도 4a, 4b 및 4c는, 재생 제한 임계값 및 대응하는 주파수의 예를 보여준다.
도 5a 및 5b는, 동적 범위 압축 데이터의 예를 보여주는 그래프이다.
도 6은, 청취 환경의 공간 구역의 예를 보여준다.
도 7은, 도 6의 공간 구역 내 확성기의 예를 보여준다.
도 8은, 도 7의 공간 구역과 스피커에 중첩된 공칭 공간 위치의 예를 보여준다.
도 9는, 여기에 개시된 바와 같은 장치 또는 시스템에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타내는 흐름도이다.
도 10 및 11은, 스피커 활성화 및 객체 렌더링 위치의 예시적 세트를 나타내는 다이어그램이다.
도 12a, 12b 및 12c는, 도 10 및 11의 예에 대응하는 확성기 참여 값의 예를 보여준다.
도 13은, 예시적인 실시예에서 스피커 활성화의 그래프이다.
도 14는, 예시적인 실시예에서 객체 렌더링 위치의 그래프이다.
도 15a, 15b 및 15c는, 도 13 및 14의 예에 대응하는 확성기 참여 값의 예를 보여준다.
도 16은, 예시적인 실시예에서 스피커 활성화의 그래프이다.
도 17은, 예시적인 실시예에서 객체 렌더링 위치의 그래프이다.
도 18a, 18b 및 18c는, 도 16 및 17의 예에 대응하는 확성기 참여 값의 예를 보여준다.
도 19는, 예시적인 실시예에서 스피커 활성화의 그래프이다.
도 20은, 예시적인 실시예에서 객체 렌더링 위치의 그래프이다.
도 21a, 21b 및 21c는, 도 19 및 20의 예에 대응하는 확성기 참여 값의 예를 보여준다.
도 22는, 이 예에서 생활 공간인 환경의 다이어그램이다.
여러 도면에서 유사한 참조 번호 및 명칭은 유사한 요소를 나타낸다.
도 2는, 이 예에서 생활 공간인 청취 환경의 평면도를 보여준다.
도 3은, 본 개시의 여러 양태를 구현할 수 있는 시스템의 구성요소의 예를 보여주는 블록도이다.
도 4a, 4b 및 4c는, 재생 제한 임계값 및 대응하는 주파수의 예를 보여준다.
도 5a 및 5b는, 동적 범위 압축 데이터의 예를 보여주는 그래프이다.
도 6은, 청취 환경의 공간 구역의 예를 보여준다.
도 7은, 도 6의 공간 구역 내 확성기의 예를 보여준다.
도 8은, 도 7의 공간 구역과 스피커에 중첩된 공칭 공간 위치의 예를 보여준다.
도 9는, 여기에 개시된 바와 같은 장치 또는 시스템에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타내는 흐름도이다.
도 10 및 11은, 스피커 활성화 및 객체 렌더링 위치의 예시적 세트를 나타내는 다이어그램이다.
도 12a, 12b 및 12c는, 도 10 및 11의 예에 대응하는 확성기 참여 값의 예를 보여준다.
도 13은, 예시적인 실시예에서 스피커 활성화의 그래프이다.
도 14는, 예시적인 실시예에서 객체 렌더링 위치의 그래프이다.
도 15a, 15b 및 15c는, 도 13 및 14의 예에 대응하는 확성기 참여 값의 예를 보여준다.
도 16은, 예시적인 실시예에서 스피커 활성화의 그래프이다.
도 17은, 예시적인 실시예에서 객체 렌더링 위치의 그래프이다.
도 18a, 18b 및 18c는, 도 16 및 17의 예에 대응하는 확성기 참여 값의 예를 보여준다.
도 19는, 예시적인 실시예에서 스피커 활성화의 그래프이다.
도 20은, 예시적인 실시예에서 객체 렌더링 위치의 그래프이다.
도 21a, 21b 및 21c는, 도 19 및 20의 예에 대응하는 확성기 참여 값의 예를 보여준다.
도 22는, 이 예에서 생활 공간인 환경의 다이어그램이다.
여러 도면에서 유사한 참조 번호 및 명칭은 유사한 요소를 나타낸다.
도 1은 이 개시의 다양한 양상을 구현할 수 있는 장치의 구성요소의 예를 도시하는 블록도이다. 여기에 제공된 다른 도면과 같이, 도 1에 도시된 요소의 유형 및 수는 단지 예로서 제공된다. 다른 구현은 더 많은, 더 적은 및/또는 상이한 유형 및 수의 요소를 포함할 수 있다. 일부 예에 따르면, 장치(100)는 본원에 개시된 방법 중 적어도 일부를 수행하도록 구성된 스마트 오디오 디바이스이거나 이를 포함할 수 있다. 다른 구현에서, 장치(100)는 랩톱 컴퓨터, 휴대 전화, 태블릿 디바이스, 스마트 홈 허브 등과 같은 본원에 개시된 방법 중 적어도 일부를 수행하도록 구성된 다른 디바이스이거나 이를 포함할 수 있다. 일부 이러한 구현에서 장치(100)는 서버이거나 서버를 포함할 수 있다.
이 예에서, 장치(100)는 인터페이스 시스템(105) 및 제어 시스템(110)을 포함한다. 인터페이스 시스템(105)은, 일부 구현에서, 오디오 데이터를 수신하도록 구성될 수 있다. 오디오 데이터는 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 오디오 신호를 포함할 수 있다. 오디오 데이터는 하나 이상의 오디오 신호 및 관련 공간 데이터를 포함할 수 있다. 공간 데이터는, 예를 들어 채널 데이터 및/또는 공간 메타데이터를 포함할 수 있다. 인터페이스 시스템(105)은 렌더링된 오디오 신호를 환경의 확성기 세트의 적어도 일부 확성기에 제공하도록 구성될 수 있다. 인터페이스 시스템(105)은, 일부 구현에서, 환경 내의 하나 이상의 마이크로부터 입력을 수신하도록 구성될 수 있다.
인터페이스 시스템(105)은 하나 이상의 네트워크 인터페이스 및/또는 (하나 이상의 USB(Universal Serial Bus) 인터페이스와 같은) 하나 이상의 외부 디바이스 인터페이스를 포함할 수 있다. 일부 구현에 따르면, 인터페이스 시스템(105)은 하나 이상의 무선 인터페이스를 포함할 수 있다. 인터페이스 시스템(105)은 하나 이상의 마이크, 하나 이상의 스피커, 디스플레이 시스템, 터치 센서 시스템 및/또는 제스처 센서 시스템과 같은 사용자 인터페이스를 구현하기 위한 하나 이상의 디바이스를 포함할 수 있다. 일부 예에서, 인터페이스 시스템(105)은 제어 시스템(110)과 도 1에 도시된 선택적 메모리 시스템(115)과 같은 메모리 시스템 사이의 하나 이상의 인터페이스를 포함할 수 있다. 그러나, 제어 시스템(110)은 경우에 따라 메모리 시스템을 포함할 수 있다.
제어 시스템(110)은, 예를 들어, 범용 단일 또는 다중 칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그램 가능 게이트 어레이(FPGA) 또는 다른 프로그램 가능 논리 디바이스, 이산 게이트 또는 트랜지스터 논리 및/또는 이산 하드웨어 구성요소를 포함할 수 있다.
일부 구현에서, 제어 시스템(110)은 하나보다 많은 디바이스에 상주할 수 있다. 예를 들어, 제어 시스템(110)의 일부는 본원에 묘사된 환경 중 하나 내의 디바이스에 상주할 수 있고 제어 시스템(110)의 다른 일부는 서버, 모바일 디바이스(예를 들어, 스마트폰 또는 태블릿 컴퓨터) 등과 같은 환경 외부의 디바이스에 상주할 수 있다. 다른 예에서, 제어 시스템(110)의 일부는 본원에 묘사된 환경 중 하나 내의 디바이스에 상주할 수 있고 제어 시스템(110)의 다른 일부는 환경의 하나 이상의 다른 디바이스에 상주할 수 있다. 예를 들어, 제어 시스템 기능은 환경의 여러 스마트 오디오 디바이스에 걸쳐 분산될 수 있거나, (본원에서 스마트 홈 허브로 지칭될 수 있는 것과 같은) 편성 장치 및 환경의 하나 이상의 다른 디바이스에 의해 공유될 수 있다. 인터페이스 시스템(105)은 또한, 일부 그러한 예에서, 하나보다 많은 디바이스에 상주할 수 있다.
일부 구현에서, 제어 시스템(110)은 본원에 개시된 방법을 적어도 부분적으로 수행하도록 구성될 수 있다. 일부 예에 따르면, 제어 시스템(110)은 다중 스피커를 통해 오디오의 다중 스트림의 재생을 관리하는 방법을 구현하도록 구성될 수 있다.
본원에 설명된 방법의 일부 또는 전부는 하나 이상의 비일시적 매체에 저장된 명령(예를 들어 소프트웨어)에 따라 하나 이상의 디바이스에 의해 수행될 수 있다. 이러한 비일시적 매체는 임의 접근 메모리(RAM) 디바이스, 읽기 전용 메모리(ROM) 디바이스 등을 포함하지만 이에 제한되지 않는, 본원에 설명된 것과 같은 메모리 디바이스를 포함할 수 있다. 하나 이상의 비일시적 매체는, 예를 들어, 도 1에 도시된 선택적 메모리 시스템(115) 및/또는 제어 시스템(110)에 상주할 수 있다. 따라서, 이 개시에서 설명된 주제의 다양한 혁신적인 양상은 소프트웨어가 저장된 하나 이상의 비일시적 매체에서 구현될 수 있다. 소프트웨어는, 예를 들어, 오디오 데이터를 처리하기 위해 적어도 하나의 디바이스를 제어하기 위한 명령을 포함할 수 있다. 소프트웨어는, 예를 들어, 도 1의 제어 시스템(110)과 같은 제어 시스템의 하나 이상의 구성요소에 의해 실행될 수 있다.
일부 예에서, 장치(100)는 도 1에 도시된 선택적 마이크 시스템(120)을 포함할 수 있다. 선택적 마이크 시스템(120)은 하나 이상의 마이크를 포함할 수 있다. 일부 구현에서, 하나 이상의 마이크는 스피커 시스템의 스피커, 스마트 오디오 디바이스 등과 같은 다른 장치의 일부이거나 이와 연관될 수 있다.
일부 구현에 따르면, 장치(100)는 도 1에 도시된 선택적 확성기 시스템(125)을 포함할 수 있다. 선택적 스피커 시스템(125)은 하나 이상의 확성기를 포함할 수 있다. 확성기는 때로는 본원에서 "스피커"로 지칭될 수 있다. 일부 예에서, 선택적 확성기 시스템(125)의 적어도 일부 확성기는 임의로 위치될 수 있다. 예를 들어, 선택적 확성기 시스템(125)의 적어도 일부 스피커는 돌비 5.1, 돌비 5.1.2, 돌비 7.1, 돌비 7.1.4, 돌비 9.1, 하마사키(Hamasaki) 22.2 등과 같은 임의의 표준 규정 스피커 레이아웃에 대응하지 않는 위치에 배치될 수 있다. 일부 그러한 예에서, 선택적 확성기 시스템(125)의 적어도 일부 확성기는 공간에 편리한 위치(예를 들어, 확성기를 수용할 공간이 있는 위치)이지만, 임의의 표준 규정 확성기 레이아웃이 아닌 위치에 배치될 수 있다.
일부 구현에서, 장치(100)는 도 1에 도시된 선택적 센서 시스템(130)을 포함할 수 있다. 선택적 센서 시스템(130)은 하나 이상의 카메라, 터치 센서, 제스처 센서, 모션 검출기 등을 포함할 수 있다. 일부 구현에 따르면, 선택적 센서 시스템(130)은 하나 이상의 카메라를 포함할 수 있다. 일부 구현에서, 카메라는 독립형 카메라일 수 있다. 일부 예에서, 선택적 센서 시스템(130)의 하나 이상의 카메라는 단일 목적 오디오 디바이스 또는 가상 비서일 수 있는 스마트 오디오 디바이스에 상주할 수 있다. 그러한 일부 예에서, 선택적 센서 시스템(130)의 하나 이상의 카메라는 TV, 휴대 전화 또는 스마트 스피커에 상주할 수 있다.
일부 구현에서, 장치(100)는 도 1에 도시된 선택적 디스플레이 시스템(135)을 포함할 수 있다. 선택적 디스플레이 시스템(135)은 하나 이상의 발광 다이오드(LED) 디스플레이와 같은 하나 이상의 디스플레이를 포함할 수 있다. 일부 경우에, 선택적 디스플레이 시스템(135)은 하나 이상의 유기 발광 다이오드(OLED) 디스플레이를 포함할 수 있다. 장치(100)가 디스플레이 시스템(135)을 포함하는 일부 예에서, 센서 시스템(130)은 디스플레이 시스템(135)의 하나 이상의 디스플레이에 근접한 터치 센서 시스템 및/또는 제스처 센서 시스템을 포함할 수 있다. 일부 이러한 구현에 따르면, 제어 시스템(110)은 본원에 개시된 GUI들 중 하나와 같은 그래픽 사용자 인터페이스(GUI)를 제시하도록 디스플레이 시스템(135)을 제어하도록 구성될 수 있다.
일부 예에 따르면 장치(100)는 스마트 오디오 디바이스이거나 이를 포함할 수 있다. 일부 그러한 구현에서 장치(100)는 깨우기 단어 검출기이거나 이를 포함할 수 있다. 예를 들어, 장치(100)는 가상 비서이거나 이를 포함할 수 있다.
도 2는 이 예에서 생활 공간인 청취 환경의 평면도를 도시한다. 본원에 제공된 다른 도면과 같이, 도 2에 도시된 요소의 유형 및 수는 단지 예로서 제공된 것이다. 다른 구현은 더 많고, 더 적은 및/또는 상이한 유형 및 수의 요소를 포함할 수 있다. 이 예에 따르면, 환경(200)은 좌측 상단에 거실(210), 하단 중앙에 주방(215), 우측 하단에 침실(222)을 포함한다. 생활 공간 전체에 분포된 박스와 원은 확성기(205a-205h) 세트를 나타내며, 일부 구현에서는 그 중 적어도 일부가 스마트 스피커일 수 있으며, 공간에 편리한 위치에 배치되지만, 임의의 규정된 표준 레이아웃을 준수하지 않는다(임의로 배치됨). 일부 예에서, 확성기(205a-205h)는 하나 이상의 개시된 실시예를 구현하도록 조정될 수 있다.
일부 예에 따르면, 환경(200)은 개시된 방법 중 적어도 일부를 구현하기 위한 스마트 홈 허브(smart home hub)를 포함할 수 있다. 이러한 일부 구현에 따르면, 스마트 홈 허브는 전술한 제어 시스템(110)의 적어도 일부를 포함할 수 있다. 일부 예에서, (스마트 스피커, 휴대폰, 스마트 텔레비전, 가상 비서를 구현하는 데 사용되는 디바이스 등과 같은) 스마트 디바이스는 스마트 홈 허브를 구현할 수 있다.
이 예에서, 환경(200)은 환경 전체에 분포된 카메라(211a-211e)를 포함한다. 또한, 일부 구현에서, 환경(200) 내의 하나 이상의 스마트 오디오 디바이스는 하나 이상의 카메라를 포함할 수 있다. 하나 이상의 스마트 오디오 디바이스는 단일 목적 오디오 디바이스 또는 가상 비서일 수 있다. 그러한 일부 예에서, 선택적인 센서 시스템(130)의 하나 이상의 카메라는 텔레비전(230) 내에 또는 그에, 이동 전화에 또는 확성기(205b, 205d, 205e 또는 205h) 중 하나 이상과 같은 스마트 스피커에 상주할 수 있다. 카메라(211a-211e)가 본 개시에 제시된 환경(200)의 모든 묘사에서 도시되지는 않았음에도 불구하고, 환경(200) 각각은 일부 구현에서 하나 이상의 카메라를 포함할 수 있다.
유연한 렌더링에서, 공간 오디오는 임의로 배치된 임의의 수의 스피커를 통해 렌더링될 수 있다. 스마트 오디오 디바이스(예컨대, 스마트 스피커)가 가정에 널리 보급됨에 따라, 소비자가 스마트 오디오 디바이스를 사용하여 오디오의 유연한 렌더링, 및 그와 같이 렌더링된 오디오의 재생을 수행할 수 있게 허용하는 유연한 렌더링 기술의 실현이 요구된다.
CMAP(Center of Mass Amplitude Panning) 및 FV(Flexible Virtualization)를 포함하여, 유연한 렌더링을 구현하기 위해 여러 기술이 개발되어 왔다.
스마트 오디오 디바이스 세트의 스마트 오디오 디바이스에 의한(또는 다른 스피커 세트에 의한) 재생을 위한 공간적 오디오 믹스의 렌더링(또는 렌더링 및 재생) (예를 들어, 오디오 스트림 또는 다중 오디오 스트림의 렌더링)을 수행하는 맥락에서, (예를 들어 스마트 오디오 디바이스 내 또는 이에 연결된) 스피커 유형은 다양할 수 있으며, 따라서 스피커의 대응하는 음향 능력은 매우 다양할 수 있다. 도 2에 도시된 일례에서, 확성기(205d, 205f, 205h)는 단일 0.6인치 스피커를 갖는 스마트 스피커이다. 이 예에서, 확성기(205b, 205c, 205e, 205f)는 2.5인치 우퍼 및 0.8인치 트위터를 갖는 스마트 스피커이다. 이 예에 따르면, 확성기(205g)는 5.25인치 우퍼, 3개의 2인치 미드레인지 스피커 및 1.0인치 트위터를 갖는 스마트 스피커이다. 여기에서, 확성기(205a)는 16개의 1.1인치 빔 드라이버와 2개의 4인치 우퍼를 포함하는 사운드 바일 수 있다. 따라서, 스마트 스피커(205d 및 205f)의 저주파 능력은 환경(200)의 다른 확성기, 특히 4인치 또는 5.25인치 우퍼를 갖는 것에 비해 훨씬 작다.
도 3은 이 개시의 다양한 양상을 구현할 수 있는 시스템의 구성요소의 예를 보여주는 블록도이다. 본원에 제공된 다른 도면과 같이, 도 1에 도시된 요소의 유형 및 수는 단지 예로서 제공된다. 다른 구현은 더 많거나 더 적은 수 및/또는 상이한 유형 및 수의 요소를 포함할 수 있다.
이 예에 따르면, 시스템(300)은 스마트 홈 허브(305) 및 확성기(205a 내지 205m)를 포함한다. 이 예에서, 스마트 홈 허브(305)는 도 1에 도시되고 위에서 설명된 제어 시스템(110)의 인스턴스를 포함한다. 이 구현에 따르면, 제어 시스템(110)은 청취 환경 역학 처리 구성 데이터 모듈(310), 청취 환경 역학 처리 모듈(315) 및 렌더링 모듈(320)을 포함한다. 청취 환경 역학 처리 구성 데이터 모듈(310), 청취 환경 역학 처리 모듈(315) 및 렌더링 모듈(320)은 아래에서 설명된다. 일부 예에서, 렌더링 모듈(320')은 렌더링 및 청취 환경 역학 처리 모두를 위해 구성될 수 있다.
스마트 홈 허브(305)와 확성기(205a 내지 205m) 사이의 화살표에 의해 제안된 바와 같이, 스마트 홈 허브(305)는 또한 도 1에 도시되고 위에서 설명된 인터페이스 시스템(105)의 인스턴스를 포함한다. 일부 예에 따르면, 스마트 홈 허브(305)는 도 2에 도시된 환경(200)의 일부일 수 있다. 일부 예에서, 스마트 홈 허브(305)는 스마트 스피커, 스마트 텔레비전, 휴대 전화, 랩탑 등에 의해 구현될 수 있다. 일부 구현에서, 스마트 홈 허브(305)는 소프트웨어에 의해, 예를 들어, 다운로드 가능한 소프트웨어 애플리캐이션 또는 "앱"의 소프트웨어를 통해 구현될 수 있다. 일부 경우에, 스마트 홈 허브(305)는 모듈(320)로부터 동일한 처리된 오디오 신호를 생성하기 위해 모두 병렬로 동작하는 각 확성기(205a-m)에서 구현될 수 있다. 이러한 일부 예에 따르면, 각 확성기에서 렌더링 모듈(320)은 그런 다음 각 확성기 또는 확성기 그룹과 관련된 하나 이상의 스피커 피드를 생성할 수 있고, 이러한 스피커 피드를 각 스피커 역학 처리 모듈에 제공할 수 있다.
일부 예에서, 확성기(205a 내지 205m)는 도 2의 확성기(205a 내지 205h)를 포함할 수 있는 한편, 다른 예에서 확성기(205a 내지 205m)는 다른 확성기이거나 이를 포함할 수 있다. 따라서, 이 예에서 시스템(300)은 M개의 확성기를 포함하고, 여기에서 M은 2보다 큰 정수이다.
스마트 스피커 및 다른 많은 파워드(powered) 스피커는 일반적으로 스피커가 왜곡되는 것을 방지하기 위해 일종의 내부 역학 처리(dynamics processing)를 사용한다. 이러한 역학 처리와 종종 연관되는 것은 신호 수준이 동적으로 유지되는 신호 제한 임계값(예를 들어 주파수에 따라 가변적인 제한 임계값)이다. 예를 들어, 돌비 오디오 처리(Dolby Audio Processing; DAP) 오디오 후처리 제품군의 여러 알고리즘 중 하나인 돌비의 오디오 조정기(Audio Regulator)가 이러한 처리를 제공한다. 어떤 경우에는, 일반적으로 스마트 스피커의 역학 처리 모듈을 통하지는 않지만, 역학 처리는 또한 하나 이상의 압축기(compressor), 게이트(gate), 확장기(expander), 더커(ducker) 등을 적용하는 것도 포함될 수 있다.
따라서, 이 예에서 각 확성기(205a 내지 205m)는 대응하는 스피커 역학 처리(DP) 모듈 A 내지 M을 포함한다. 스피커 역학 처리 모듈은 청취 환경의 각각의 개별 확성기에 대한 개별 확성기 역학 처리 구성 데이터를 적용하도록 구성된다. 예를 들어, 스피커 DP 모듈 A는 확성기(205a)에 적합한 개별 확성기 역학 처리 구성 데이터를 적용하도록 구성된다. 일부 예에서, 개별 확성기 역학 처리 구성 데이터는 개별 확성기의 하나 이상의 능력 중 하나에 대응할 수 있는데, 예를 들어 확성기가 특정 주파수 범위 내에서 감지할 수 있는 왜곡 없이 특정 수준에서 오디오 데이터를 재생하는 능력과 같은 것일 수 있다.
공간적 오디오가 각각 잠재적으로 상이한 재생 제한을 가진 이기종(heterogeneous) 스피커 세트(예를 들어 스마트 오디오 디바이스의, 또는 이에 결합된 스피커)에서 렌더링될 때, 경우 전체 믹스에 대해 역학 처리를 수행할 때 주의해야 한다. 간단한 해결책은 공간적 믹스를 참여하는 각 스피커의 스피커 피드로 렌더링한 다음 각 스피커와 연관된 역학 처리 모듈이 해당 스피커의 제한에 따라 대응하는 스피커 피드에서 독립적으로 작동하도록 하는 것이다.
이 접근 방식은 각 스피커가 왜곡되는 것을 방지하지만, 지각적으로 산만한 방식으로 믹스의 공간 균형을 동적으로 이동할 수 있다. 예를 들어, 도 2를 참조하여, 텔레비전 프로그램이 텔레비전(230)에 표시되고 대응하는 오디오가 환경(200)의 확성기에 의해 재생되고 있다고 가정한다. 텔레비전 프로그램 동안, 정지된 객체(예컨대 공장 내의 중장비 한 대)가 위치(244)에 렌더링되도록 의도된다고 가정한다. 또한 베이스 범위의 소리를 재생하는 확성기(205b)의 실질적으로 더 큰 능력 때문에, 확성기(205d)와 연관된 역학 처리 모듈이 확성기(205b)와 연관된 역학 처리 모듈보다 베이스 범위의 오디오 수준을 실질적으로 더 감소시킨다고 가정한다. 정지된 객체와 연관된 신호의 볼륨이 변동하면, 볼륨이 더 높을 때 확성기(205d)와 관련된 역학 처리 모듈은 베이스 범위의 오디오에 대한 수준이 확성기(205b)와 연관된 역학 처리 모듈에 의해 동일한 오디오에 대한 수준이 감소되는 것보다 실질적으로 더 많이 감소되도록 할 것이다. 이러한 수준의 차이로 인해 정지된 객체의 겉보기 위치가 변경된다. 따라서 개선된 해결책이 필요하다.
본 개시의 일부 실시예는 스마트 오디오 디바이스 세트(예를 들어, 조정된 스마트 오디오 디바이스 세트)의 스마트 오디오 디바이스 적어도 하나(예를 들어, 전부 또는 일부)에 의한 및/또는 다른 스피커 세트의 스피커 중 적어도 하나(예를 들어, 전부 또는 일부)에 의한 재생을 위해 공간적 오디오 믹스의 렌더링(또는 렌더링 및 재생)(예를 들어, 오디오 스트림 또는 오디오의 다중 스트림의 렌더링)을 위한 시스템 및 방법이다. 일부 실시예는 그러한 렌더링(예를 들어, 스피커 피드의 생성을 포함함) 및 또한 렌더링된 오디오의 재생(예를 들어, 생성된 스피커 피드의 재생)을 위한 방법(또는 시스템)이다. 그러한 실시예의 예는 다음을 포함한다:
오디오 처리를 위한 시스템 및 방법은 적어도 2개의 스피커(예를 들어, 스피커 세트의 전부 또는 일부 스피커)에 의한 재생을 위하여 오디오를 렌더링(예를 들어, 오디오 스트림 또는 오디오의 다중 스트림을 렌더링함으로써, 예를 들어 공간적 오디오 믹스를 렌더링)하는 것을 포함하며, 다음을 포함한다:
(a) 개별 확성기 역학 처리 구성 데이터(예컨대 개별 확성기의 제한 임계값(재생 제한 임계값))를 결합하여, 복수의 확성기에 대한 청취 환경 역학 처리 구성 데이터(예컨대 결합 임계값)를 결정하는 것;
(b) 복수의 확성기에 대한 청취 환경 역학 처리 구성 데이터(예를 들어, 결합 임계값)를 사용하여 오디오(예를 들어, 공간적 오디오 믹스를 나타내는 오디오의 스트림(들))에 대한 역학 처리를 수행하여 처리된 오디오를 생성하는 것; 및
(c) 처리된 오디오를 스피커 피드로 렌더링하는 것.
일부 구현에 따르면, 프로세스 (a)는 도 3에 도시된 청취 환경 역학 처리 구성 데이터 모듈(310)과 같은 모듈에 의해 수행될 수 있다. 스마트 홈 허브(305)는, 인터페이스 시스템을 통해, M개의 확성기 각각에 대한 개별 확성기 역학 처리 구성 데이터를 획득하도록 구성될 수 있다. 이 구현에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트를 포함한다. 일부 예에 따르면, 하나 이상의 확성기에 대한 개별 확성기 역학 처리 구성 데이터는 하나 이상의 확성기의 하나 이상의 능력에 대응할 수 있다. 이 예에서, 개별 확성기 역학 처리 구성 데이터 세트 각각은 역학 처리 구성 데이터의 적어도 한 유형을 포함한다. 일부 예에서, 스마트 홈 허브(305)는 각 확성기(205a-205m)에 질의함으로써 개별 확성기 역학 처리 구성 데이터 세트를 획득하도록 구성될 수 있다. 다른 구현에서, 스마트 홈 허브(305)는 메모리에 저장된 이전에 획득된 개별 확성기 역학 처리 구성 데이터 세트의 데이터 구조를 질의함으로써 개별 확성기 역학 처리 구성 데이터 세트를 획득하도록 구성될 수 있다.
일부 예에서, 프로세스 (b)는 도 3의 청취 환경 역학 처리 모듈(315)과 같은 모듈에 의해 수행될 수 있다. 프로세스 (a) 및 (b)의 일부 상세한 예는 아래에서 설명된다.
일부 예에서, 프로세스 (c)의 렌더링은 도 3의 렌더링 모듈(320) 또는 렌더링 모듈(320')과 같은 모듈에 의해 수행될 수 있다. 일부 실시예에서, 오디오 처리는 다음을 포함할 수 있다:
(d) 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터에 따라 렌더링된 오디오 신호에 대해 역학 처리를 수행하는 것(예를 들어, 대응하는 스피커와 연관된 재생 제한 임계값에 따라 스피커 피드를 제한하여, 제한된 스피커 피드를 생성함). 프로세스 (d)는, 예를 들어, 도 3에 도시된 역학 처리 모듈 A 내지 M에 의해 수행될 수 있다.
스피커는 스마트 오디오 디바이스 세트의 스마트 오디오 디바이스 중 적어도 하나(예를 들어, 전부 또는 일부)의 (또는 이에 결합된) 스피커를 포함할 수 있다. 일부 구현에서, 단계 (d)에서 제한된 스피커 피드를 생성하기 위해, 단계 (c)에서 생성된 스피커 피드는 역학 처리의 제2 단계에 의해 (예를 들어, 각각의 스피커의 연관된 역학 처리 시스템에 의해) 처리되어, 예를 들어, 스피커를 통해 최종 재생하기 전에 스피커 피드를 생성할 수 있다. 예를 들어, 스피커 피드(또는 그것의 하위 집합 또는 일부)는 스피커 중 각각 다른 하나의 역학 처리 시스템(예를 들어, 스마트 오디오 디바이스의 역학 처리 서브시스템, 여기에서 스마트 오디오 디바이스는 스피커 중 관련된 것을 포함하거나 이에 연결됨)에 제공될 수 있으며, 각각의 상기 역학 처리 시스템으로부터의 처리된 오디오 출력은 스피커 중 관련된 것에 대한 스피커 피드를 생성하는 데 사용될 수 있다. 스피커에 특정한 역학 처리(달리 말하자면, 각 스피커에 대해 독립적으로 수행된 역학 처리)에 이어, 처리된(예를 들어, 동적으로 제한된) 스피커 피드가 스피커를 구동하여 사운드를 재생하도록 할 수 있다.
(단계 (b)에서) 역학 처리의 제1 단계는 단계 (a)와 (b)가 생략되면 일어날 공간 균형 내의 지각적으로 산만한 이동을 줄이도록 설계될 수 있으며, 단계 (d)에서 일어난 역학 처리된(예를 들어 제한된) 스피커 피드는 (단계 (b)에서 생성된 처리된 오디오에 대한 응답이 아니라) 원래 오디오에 대한 응답으로 생성되었다. 이것은 믹스의 공간 균형에서 바람직하지 않은 이동을 방지할 수 있다. 단계 (c)의 렌더링된 스피커 피드에 대해 작동하는 역학 처리의 제2 단계는 스피커 왜곡이 없도록 설계될 수 있는데, 왜냐하면 단계 (b)의 역학 처리가 신호 수준이 모든 스피커의 임계값 아래로 감소되었음을 반드시 보장하지 않을 수 있기 때문이다. 개별 확성기 역학 처리 구성 데이터의 결합(예를 들어 제1 단계(단계(a))의 임계값 결합)은, 일부 예에서, 스피커에 걸쳐 (예를 들어, 스마트 오디오 디바이스에 걸쳐) 개별 확성기 역학 처리 구성 데이터(예를 들어, 제한 임계값)를 평균하는, 또는 스피커에 걸쳐(예를 들어, 스마트 오디오 디바이스에 걸쳐) 개별 확성기 역학 처리 구성 데이터(예를 들어, 제한 임계값)의 최소값을 취하는 것을 포함할 수 있다.
일부 구현에서, (단계 (b)에서) 역학 처리의 제1 단계가 공간적 믹스를 나타내는 오디오(예를 들어, 적어도 하나의 객체 채널 및 선택적으로 또한 적어도 하나의 스피커 채널을 포함하는 객체 기반 오디오 프로그램의 오디오)에 대해 동작할 때, 이 제1 단계는 공간 구역의 사용을 통한 오디오 객체 처리 기술에 따라 구현될 수 있다. 그러한 경우에, 각 구역과 연관된 결합된 개별 확성기 역학 처리 구성 데이터(예를 들어, 결합된 제한 임계값)는 개별 확성기 역학 처리 구성 데이터(예를 들어, 개별 스피커 제한 임계값)의 가중 평균에 의해(또는 이것으로서) 유도될 수 있으며, 이 가중치는 각 스피커의 구역에 대한 공간적 근접도 및/또는 그 안의 위치에 의해, 적어도 부분적으로, 주어지거나 결정될 수 있다.
예시적인 실시예에서 각 스피커가 변수 i에 의해 색인되는 복수의 M개의 스피커(M≥2)를 가정한다. 각 스피커 i는 주파수 가변 재생 제한 임계값 Ti[f]의 세트와 연관되며, 여기에서 변수 f는 임계값이 지정되는 유한한 주파수 집합에 대한 색인을 나타낸다. (주파수 집합의 크기가 1이면 대응하는 단일 임계값은 전체 주파수 범위에 걸쳐 적용되는 광대역으로 간주될 수 있다.) 이러한 임계값은 스피커가 왜곡을 방지하거나 스피커가 그 부근에서 불쾌한 것으로 간주되는 일정 수준 이상으로 재생되는 것을 방지하는 것과 같은 특정 목적을 위하여 임계값 Ti[f] 아래로 오디오 신호를 제한하기 위해 고유한 독립적인 역학 처리 기능에서 각 스피커에 의해 활용된다.
도 4a, 도 4b 및 도 4c는 재생 제한 임계값 및 대응하는 주파수의 예를 도시한다. 도시된 주파수 범위는 예를 들어, 평균적인 사람이 들을 수 있는 주파수 범위(예를 들어 20Hz 내지 20kHz)에 걸쳐 있을 수 있다. 이러한 예에서, 재생 제한 임계값은 그래프(400a, 400b 및 400c)의 수직 축으로 표시되며, 이 예에서는 "수준 임계값"으로 표시된다. 재생 제한/수준 임계값은 수직 축의 화살표 방향으로 증가한다. 재생 제한/수준 임계값은 예를 들어 데시벨로 표시될 수 있다. 이러한 예에서, 그래프(400a, 400b, 400c)의 가로축은 주파수를 나타내며, 가로축의 화살표 방향으로 증가한다. 곡선(400a, 400b, 400c)으로 표시된 재생 제한 임계값은 예를 들어 개별 확성기의 역학 처리 모듈에 의해 구현될 수 있다.
도 4a의 그래프(400a)는 주파수의 함수로서 재생 제한 임계값의 제1 예를 도시한다. 곡선(405a)은 각각의 대응하는 주파수 값에 대한 재생 제한 임계값을 나타낸다. 이 예에서, 저음(bass) 주파수 fb에서 입력 수준 Ti로 수신된 입력 오디오는 역학 처리 모듈에 의해 출력 수준 To로 출력된다. 저음 주파수 fb는 예를 들어, 60 내지 250Hz의 범위에 있을 수 있다. 그러나 이 예에서, 고음(treble) 주파수 ft에서 입력 수준 Ti로 수신된 입력 오디오는 역학 처리 모듈에 의해 동일한 수준인 입력 수준 Ti로 출력된다. 고음 주파수 ft는 예를 들어 1280Hz 이상의 범위에 있을 수 있다. 따라서, 이 예에서 곡선(405a)은 고음 주파수보다 저음 주파수에 대해 상당히 더 낮은 임계값을 적용하는 역학 처리 모듈에 해당한다. 이러한 역학 처리 모듈은 우퍼가 없는 확성기(예를 들어, 도 2의 확성기(205d))에 적합할 수 있다.
도 4b의 그래프(400b)는 주파수의 함수로서 재생 제한 임계값의 제2 예를 도시한다. 곡선(405b)은 도 4a에 도시된 동일한 저음 주파수 fb에서, 입력 수준 Ti로 수신된 입력 오디오가 역학 처리 모듈에 의해 더 높은 출력 수준 To로 출력될 것임을 나타낸다. 따라서, 이 예에서 곡선(405b)은 곡선(405a)보다 저음 주파수에 대해 낮은 임계값을 적용하지 않는 역학 처리 모듈에 해당한다. 이러한 역학 처리 모듈은 적어도 작은 우퍼(예를 들어, 도 2의 확성기(205b))를 갖는 확성기에 적합할 수 있다.
도 4c의 그래프(400c)는 주파수의 함수로서 재생 제한 임계값의 제2 예를 도시한다. 곡선(405c)(이 예에서 직선임)은 도 4a에 도시된 동일한 저음 주파수 fb에서, 입력 수준 Ti로 수신된 입력 오디오가 역학 처리 모듈에 의해 동일 수준으로 출력될 것임을 나타낸다. 따라서, 이 예에서 곡선(405c)은 저음 주파수를 포함하여 광범위한 주파수를 재생할 수 있는 확성기에 적합할 수 있는 역학 처리 모듈에 해당한다. 단순화를 위하여, 역학 처리 모듈은 표시된 모든 주파수에 대해 동일한 임계값을 적용하는 곡선(405d)을 구현함으로써 곡선(405c)을 근사화할 수 있음을 관찰할 수 있다.
공간적 오디오 믹스는 질량 중심 진폭 패닝(CMAP) 또는 유연 가상화(FV)와 같은 알려진 렌더링 시스템을 사용하여 복수의 스피커에 대해 렌더링될 수 있다. 공간적 오디오 믹스를 구성하는 구성요소로부터, 렌더링 시스템은 복수의 스피커 각각에 대해 하나씩 스피커 피드를 생성한다. 일부 이전의 예에서, 스피커 피드는 임계값 Ti[f]를 사용하여 각 스피커의 연관된 역학 처리 기능에 의해 독립적으로 처리되었다. 본 개시의 이점 없이, 이 설명된 렌더링 시나리오는 렌더링된 공간적 오디오 믹스의 지각된 공간 균형에서 산만한 이동을 초래할 수 있다. 예를 들어, 청취 영역의 오른쪽에 있는, M개의 스피커 중 하나는 (예를 들어 저음 범위의 오디오 렌더링에서) 다른 것보다 훨씬 성능이 낮을 수 있으며 따라서 해당 스피커에 대해 임계값 Ti[f]는 적어도 특정 주파수 범위에서, 다른 스피커보다 현저히 낮을 수 있다. 재생하는 동안, 이 스피커의 역학 처리 모듈은 왼쪽의 구성요소보다 오른쪽의 공간적 믹스 구성요소의 수준을 훨씬 더 낮출 것이다. 청취자는 공간적 믹스의 왼쪽/오른쪽 균형 사이의 동적 변화에 극도로 민감하며 결과가 매우 산만하다는 것을 알 수 있을 것이다.
이 문제를 다루기 위해, 일부 예에서 청취 환경의 개별 스피커의 개별 확성기 역학 처리 구성 데이터(예를 들어, 재생 제한 임계값)가 결합되어 청취 환경의 모든 확성기에 대한 청취 환경 역학 처리 구성 데이터를 생성한다. 청취 환경 역학 처리 구성 데이터는 스피커 피드로의 렌더링 이전에 전체 공간적 오디오 믹스의 맥락에서 먼저 역학 처리를 수행하는 데 사용될 수 있다. 역학 처리의 이 제1 단계는 단지 하나의 독립적인 스피커 피드가 아니라, 전체 공간적 믹스에 접근할 수 있기 때문에, 믹스의 지각된 공간 균형에 산만한 이동을 부여하지 않는 방식으로 처리가 수행될 수 있다. 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값)는 개별 스피커의 독립적인 역학 처리 기능에 의해 수행되는 역학 처리의 양을 제거하거나 줄이는 방식으로 결합될 수 있다.
청취 환경 역학 처리 구성 데이터를 결정하는 일 예에서, 개별 스피커에 대한 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값)는 역학 처리의 제1 단계에서 공간적 믹스의 모든 구성요소에 적용되는 단일 세트의 청취 환경 역학 처리 구성 데이터(예를 들어, 주파수-가변 재생 제한 임계값 )로 결합된다. 이러한 일부 예에 따르면, 모든 구성요소에 대해 제한이 동일하기 때문에, 믹스의 공간적 균형이 유지될 수 있다. 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값)를 결합하는 한 가지 방법은 모든 스피커 i에서 최소값을 취하는 것이다.
이러한 결합은 공간적 믹스가 모든 주파수에서 가장 성능이 낮은 스피커의 임계값 아래로 먼저 제한되기 때문에 기본적으로 각 스피커의 개별 역학 처리 작업을 제거한다. 그러나, 그러한 전략은 지나치게 공격적일 수 있다. 많은 스피커가 자신의 성능보다 낮은 수준에서 재생하고 있을 수 있으며, 모든 스피커의 결합된 재생 수준이 매우 낮을 수 있다. 예를 들어, 도 4a에 도시된 저음 범위의 임계값이 도 4c에 대한 임계값에 대응하는 확성기에 적용된다면, 후자의 스피커의 재생 수준은 저음 범위에서 불필요하게 낮을 것이다. 청취 환경 역학 처리 구성 데이터를 결정하는 대안적인 결합은 청취 환경의 모든 스피커에 걸쳐 개별 확성기 역학 처리 구성 데이터의 평균(mean; average)을 취하는 것이다. 예를 들어, 재생 제한 임계값의 맥락에서, 평균은 다음과 같이 결정될 수 있다.
이 결합의 경우, 역학 처리의 제1 단계가 더 높은 수준으로 제한되어, 더 성능이 좋은 스피커가 더 크게 재생할 수 있기 때문에, 전체 재생 수준이 최소값을 취하는 것에 비해 증가할 수 있다. 개별 제한 임계값이 평균 아래로 떨어지는 스피커의 경우, 그 독립적인 동적 처리 기능이 필요한 경우 그 연관된 스피커 피드를 계속 제한할 수 있다. 그러나, 공간적 믹스에 대해 일부 초기 제한이 수행되었기 때문에 역학 처리의 제1 단계는 이 제한의 요구 사항을 줄였을 것이다.
청취 환경 역학 처리 구성 데이터를 결정하는 일부 예에 따르면, 조정(tuning) 매개변수 α를 통해 개별 확성기 역학 처리 구성 데이터의 최소값과 평균 사이를 보간하는 조정 가능한 결합을 생성할 수 있다. 예를 들어, 재생 제한 임계값의 맥락에서, 보간은 다음과 같이 결정될 수 있다.
개별 확성기 역학 처리 구성 데이터의 다른 결합이 가능하며, 본 개시는 이러한 모든 결합을 포함하도록 의도된다.
도 5a 및 도 5b는 동적 범위 압축 데이터의 예를 나타내는 그래프이다. 그래프(500a 및 500b)에서, 데시벨 단위의 입력 신호 수준은 수평축에 표시되고 데시벨 단위의 출력 신호 수준은 수직축에 표시된다. 다른 개시된 예에서와 같이, 특정 임계값, 비율 및 기타 값은 단지 예로서 도시되고 제한하는 것이 아니다.
도 5a에 표시된 예에서, 출력 신호 수준은 임계값 아래의 입력 신호 수준과 동일하며, 이 예에서는 -10dB이다. 다른 예는 상이한 임계값, 예를 들어 -20dB, -18dB, -16dB, -14dB, -12dB, -8dB, -6dB, -4dB, -2dB, 0dB, 2dB, 4dB, 6dB 등을 포함할 수 있다. 임계값 이상에서는, 압축비의 다양한 예가 표시된다. N:1 비율은 임계값 이상에서, 입력 신호가 NdB 증가할 때마다 출력 신호 수준이 1dB씩 증가함을 의미한다. 예를 들어, 10:1 압축비(선 505e)은 임계값 이상에서, 입력 신호가 10dB 증가할 때마다 출력 신호 수준이 1dB만 증가함을 의미한다. 1:1 압축비(선 505a)은 임계값보다 높더라도, 출력 신호 수준이 여전히 입력 신호 수준과 동일함을 의미한다. 선 505b, 505c 및 505d는 3:2, 2:1 및 5:1 압축비에 해당한다. 다른 구현은 2.5:1, 3:1, 3.5:1, 4:3, 4:1 등과 같은 다른 압축비를 제공할 수 있다.
도 5b는 임계값(이 예에서는 0dB)에서 또는 그 부근에서 압축비가 어떻게 변하는지 제어하는 "굴곡(knee)"의 예를 도시한다. 이 예에 따르면, "단단한(hard)" 굴곡을 갖는 압축 곡선은 임계값까지의 선 부분(510a)과 임계값 위의 선 부분(510b)인 두 개의 직선 부분으로 구성된다. 단단한 굴곡은 구현하기가 더 간단할 수 있지만, 아티팩트가 발생할 수 있다.
도 5b에는, "부드러운(soft)" 굴곡의 한 예가 또한 도시된다. 이 예에서, 부드러운 굴곡은 10dB에 걸쳐 있다. 이 구현에 따르면, 10dB 범위(span) 이상 및 이하에서, 부드러운 굴곡을 갖는 압축 곡선의 압축비는 단단한 굴곡을 갖는 압축 곡선의 압축비와 동일하다. 다른 구현은 더 많거나 더 적은 데시벨에 걸쳐 있을 수 있는 "부드러운" 굴곡의 다양한 다른 모양을 제공할 수 있으며, 그 범위를 초과하는 상이한 압축비를 나타낼 수 있다.
다른 유형의 동적 범위 압축 데이터는 "공격(attack)" 데이터 및 "해제(release)" 데이터를 포함할 수 있다. 공격은 예를 들어, 입력에서 증가된 수준에 응답하여, 압축비에 의해 결정된 이득에 도달할 때까지 압축기가 이득을 감소시키는 기간이다. 압축기의 공격 시간은 일반적으로 25밀리초에서 500밀리초 사이이지만, 다른 공격 시간도 가능하다. 해제는 예를 들어, 입력에서 감소된 수준에 응답하여, 압축비에 의해 결정된 출력 이득에 도달할 때까지 (또는 입력 수준이 임계값 아래로 떨어진 경우 입력 수준까지) 압축기가 이득을 증가시키는 기간이다. 해제 시간은 예를 들어 25밀리초 내지 2초의 범위일 수 있다.
따라서, 일부 예에서 개별 확성기 역학 처리 구성 데이터는, 복수의 확성기 중 각 확성기에 대하여, 동적 범위 압축 데이터 세트를 포함할 수 있다. 동적 범위 압축 데이터 세트는 임계값 데이터, 입출력 비율 데이터, 공격 데이터, 해제 데이터 및/또는 굴곡 데이터를 포함할 수 있다. 개별 확성기 역학 처리 구성 데이터의 이러한 유형 중 하나 이상은 청취 환경 역학 처리 구성 데이터를 결정하기 위해 결합될 수 있다. 재생 한계 임계값을 결합하는 것과 관련하여 위에서 언급한 바와 같이, 동적 범위 압축 데이터는 일부 예에서 청취 환경 역학 처리 구성 데이터를 결정하기 위해 평균될 수 있다. 일부 경우에, 동적 범위 압축 데이터의 최소값 또는 최대값은 청취 환경 역학 처리 구성 데이터(예를 들어, 최대 압축비)를 결정하는 데 사용될 수 있다. 다른 구현에서, 예를 들어 식 3을 참조하여 위에서 설명된 바와 같은 조정 매개변수를 통해 개별 확성기 역학 처리를 위한 동적 범위 압축 데이터의 최소값과 평균 사이를 보간하는 조정 가능한 조합을 생성할 수 있다.
위에 설명된 일부 예에서, 단일 세트의 청취 환경 역학 처리 구성 데이터(예를 들어, 결합된 임계값 의 단일 세트)가 역학 처리의 제1 단계에서 공간적 믹스의 모든 구성요소에 적용된다. 이러한 구현은 믹스의 공간적 균형을 유지할 수 있지만, 다른 원치 않는 아티팩트를 줄 수 있다. 예를 들어, "공간 더킹(spatial ducking)"은 격리된 공간 구역에서 공간적 믹스의 매우 큰 부분이 전체 믹스를 낮추는 원인이 될 때 발생할 수 있다. 이 큰 구성요소로부터 공간적으로 멀리 떨어져 있는 믹스의 다른 부드러운 구성요소는 부자연스럽게 부드러워지는 것으로 지각될 수 있다. 예를 들어, 부드러운 배경 음악은 결합된 임계값 보다 낮은 수준에서 공간적 믹스의 서라운드 필드에서 재생될 수 있으며, 따라서 역학 처리의 제1 단계에서 공간적 믹스의 제한이 수행되지 않는다. 그런 다음 시끄러운 총성이 공간적 믹스의 전방에 (예를 들어 영화 사운드 트랙의 화면에) 일시적으로 도입될 수 있으며, 믹스의 전체 수준이 결합된 임계값 이상으로 증가한다. 이 순간, 역학 처리의 제1 단계는 전체 믹스의 수준을 임계값 아래로 낮춘다. 음악은 총성과 공간적으로 분리되어 있기 때문에, 연속적인 음악 흐름에서 이는 부자연스러운 더킹으로 지각될 수 있다.
이러한 문제를 처리하기 위해, 일부 구현에서는 공간적 믹스의 상이한 "공간 구역"에서 독립적이거나 부분적으로 독립적인 역학 처리를 허용한다. 공간 구역은 전체 공간적 믹스가 렌더링되는 공간 구역의 하위 집합으로 간주될 수 있다. 다음 논의의 대부분이 재생 제한 임계값에 기초하는 역학 처리의 예를 제공하지만, 개념은 다른 유형의 개별 확성기 역학 처리 구성 데이터 및 청취 환경 역학 처리 구성 데이터에도 동일하게 적용된다.
도 6은 청취 환경의 공간 구역의 예를 도시한다. 도 6은 전방(Front), 중앙(Center), 서라운드(Surround)의 세 공간 구역으로 세분화된 공간적 믹스의 영역(전체 사각형으로 표시)의 예를 보여준다.
도 6의 공간 구역은 경계가 엄격하게 표시되어 있지만, 실제로는 한 공간 구역에서 다른 곳으로의 전환을 연속적인 것으로 처리하는 것이 유리하다. 예를 들어, 정사각형의 왼쪽 가장자리 중앙에 위치한 공간적 믹스의 구성요소는 그 수준의 절반이 전방 구역에 할당되고 절반이 서라운드 구역에 할당될 수 있다. 공간적 믹스의 각 구성요소로부터의 신호 수준은 이러한 연속적인 방식으로 각 공간 구역에 할당되고 누적될 수 있다. 역학 처리 기능은 믹스로부터 그에 할당된 전체 신호 수준의 각 공간 구역에 대해 독립적으로 작동할 수 있다. 공간적 믹스의 각 구성요소에 대하여, 각 공간 구역으로부터의 역학 처리 결과(예를 들어 주파수당 시변 이득)가 결합되어 구성요소에 적용될 수 있다. 일부 예에서, 이러한 공간 구역 결과의 결합은 각 구성요소에 대해 상이하며 각 구역에 대한 해당 특정 구성요소의 할당의 함수이다. 최종 결과는 유사한 공간 구역 할당이 있는 공간적 믹스의 구성요소가 유사한 역학 처리를 받지만, 공간 구역 사이의 독립성이 허용된다는 것이다. 공간 구역은 왼쪽/오른쪽 불균형과 같은 불쾌한 공간 이동을 방지하면서, (예를 들어, 설명된 공간 더킹과 같은 다른 아티팩트를 줄이기 위해) 일부 공간적으로 독립적인 처리를 허용하도록 유리하게 선택될 수 있다.
공간 구역에 의한 공간적 믹스를 처리하기 위한 기술은 본 개시의 역학 처리의 제1 단계에서 유리하게 채용될 수 있다. 예를 들어, 스피커 i에 걸쳐 개별 확성기 역학 처리 구성 데이터(예를 들어, 재생 한계 임계값)의 상이한 결합이 각 공간 구역에 대해 계산될 수 있다. 결합된 구역 임계값 세트는 로 표시될 수 있으며, 여기에서 인덱스 j는 복수의 공간 구역 중 하나를 나타낸다. 역학 처리 모듈은 그 연관된 임계값 를 사용하여 각 공간 구역에서 독립적으로 작동할 수 있으며 결과는 위에서 설명한 기술에 따라 공간적 믹스를 구성하는 구성요소에 다시 적용될 수 있다.
공간 신호가 각각 연관된 원하는 (가능하게는 시변) 공간 위치를 갖는 총 K개의 개별 구성 신호 로 구성된 것으로 렌더링되는 것을 고려한다. 구역 처리를 구현하기 위한 한 가지 특정 방법은 각 오디오 신호 가 구역의 위치와 관련하여 오디오 신호의 원하는 공간 위치 함수로서 구역 j에 얼마나 기여하는지 설명하는 시변 패닝 이득 를 계산하는 것을 포함한다. 이러한 패닝 이득은 이득의 제곱의 합이 일치할 것을 요구하는 전력 보존 패닝 법칙을 따르도록 유리하게 설계될 수 있다. 이러한 패닝 이득으로부터, 해당 구역에 대한 패닝 이득에 의해 가중치가 부여된 구성 신호의 합으로 구역 신호 가 계산될 수 있다.
각 공간 구역에 대한 개별 확성기 역학 처리 구성 데이터(예컨대 스피커 재생 제한 임계값)의 결합은 다양한 방식으로 수행될 수 있다. 일 예로서, 공간 구역 재생 제한 임계값 는 공간 구역 및 스피커 종속 가중치 를 사용하여 스피커 재생 제한 임계값 의 가중 합으로 계산될 수 있다.
유사한 가중치 함수가 다른 유형의 개별 확성기 역학 처리 구성 데이터에 적용될 수 있다. 유리하게는, 공간 구역의 결합된 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값)는 해당 공간 구역과 연관된 공간적 믹스의 구성요소를 재생하는 데 가장 책임이 있는 스피커의 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값) 쪽으로 편향될 수 있다. 이것은 주파수 f에 대한 해당 구역과 연관된 공간적 믹스의 구성요소를 렌더링하는 각 스피커의 책임의 함수로 가중치 를 설정하여 달성할 수 있다.
도 7은 도 6의 공간 구역 내의 확성기의 예를 도시한다. 도 7은 도 6과 동일한 구역을 나타내지만, 공간적 믹스 렌더링을 담당하는 5개의 예시적인 확성기(스피커 1, 2, 3, 4 및 5)의 위치가 중첩되어 있다. 이 예에서 확성기 1, 2, 3, 4, 5는 다이아몬드로 표시된다. 이 특정 예에서, 스피커 1은 중앙 구역, 스피커 2와 5는 전방 구역, 스피커 3과 4는 서라운드 구역 렌더링을 주로 담당한다. 공간 구역에 대한 스피커의 개념적 일대일 매핑에 기초하여 가중치 를 생성할 수 있지만, 공간적 믹스의 공간 구역 기반 처리와 마찬가지로, 더 연속적인 매핑이 선호될 수 있다. 예를 들어, 스피커 4는 전방 구역에 매우 가깝고, 스피커 4와 5 사이에 있는 오디오 믹스의 구성요소(개념적 전방 구역에 있음)는 스피커 4와 5의 조합에 의해 크게 재생될 수 있다. 따라서, 스피커 4의 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값)가 전방 구역 및 서라운드 구역의 결합된 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값)에 기여하는 것이 합리적이다.
이러한 연속 매핑을 달성하는 한 가지 방법은 공간 구역 j와 관련된 구성요소를 렌더링할 때 각 스피커 i의 상대적 기여도를 설명하는 스피커 참여 값과 동일한 가중치 를 설정하는 것이다. 이러한 값은 (예를 들어, 위에서 설명된 단계 (c)로부터) 스피커에 대한 렌더링을 담당하는 렌더링 시스템 및 각 공간 구역과 연관된 하나 이상의 공칭(nominal) 공간 위치 세트로부터 직접 유도될 수 있다. 이 공칭 공간 위치 세트는 각 공간 구역 내의 위치 세트를 포함할 수 있다.
도 8은 도 7의 공간 구역과 스피커에 중첩된 공칭 공간 위치의 예를 도시한다. 공칭 위치는 번호가 매겨진 원으로 표시된다. 전방 구역과 연관된 두 위치는 정사각형의 상단 모서리에 위치한 두 위치이고, 중앙 구역과 연관된 위치는 정사각형의 상단 중앙에 있는 단일 위치이고, 서라운드 구역과 연관된 위치는 정사각형의 하단 모서리에 있는 두 개의 위치이다.
공간 구역에 대한 스피커 참여 값을 계산하기 위해, 구역과 연관된 각 공칭 위치는 렌더러를 통해 렌더링되어 해당 위치와 연관된 스피커 활성화를 생성할 수 있다. 이러한 활성화는, 예를 들어, CMAP의 경우 각 스피커에 대한 이득이거나 FV의 경우 각 스피커에 대해 주어진 주파수에서 복소수 값일 수 있다. 다음으로, 각 스피커 및 구역에 대해, 이러한 활성화는 공간 구역과 연관된 각 공칭 위치에 걸쳐 누적되어 값 를 생성할 수 있다. 이 값은 공간 구역 j와 연관된 전체 공칭 위치 세트를 렌더링하기 위한 스피커 i의 총 활성화를 나타낸다. 마지막으로, 공간 구역에서 스피커 참여 값은 스피커에 걸쳐 모든 이러한 누적 활성화의 합으로 정규화된 누적 활성화 로 계산될 수 있다. 그런 다음 가중치는 이 스피커 참여 값으로 설정될 수 있다.
일부 구현에 따르면, 스피커 참여 값을 계산하고 이들 값의 함수로서 임계값을 결합하기 위해 위에서 설명된 프로세스는 결과 결합 임계값이 환경의 스피커의 레이아웃 및 능력을 결정하는 설정 절차 동안 한 번 계산되는 정적 프로세스로서 수행될 수 있다. 이러한 시스템에서는 일단 설정되면, 개별 확성기의 역학 처리 구성 데이터와 렌더링 알고리즘이 원하는 오디오 신호 위치의 함수로 확성기를 활성화하는 방식이 모두 정적으로 유지된다고 가정할 수 있다. 그러나, 특정 시스템에서, 이러한 두 가지 측면은 예를 들어 재생 환경의 변화하는 조건에 따라, 시간이 지남에 따라 달라질 수 있으므로, 이러한 변화를 고려하기 위하여 위에서 설명한 프로세스에 따라 결합된 임계값을 연속 또는 이벤트로부터 촉발되는 방식으로 업데이트하는 것이 바람직할 수 있다.
CMAP 및 FV 렌더링 알고리즘은 모두 청취 환경의 변화에 응답하여 하나 이상의 동적으로 구성 가능한 기능에 적응하도록 보강될 수 있다. 예를 들어, 도 7과 관련하여, 스피커 3 근처에 위치한 사람은 스피커와 연관된 스마트 비서의 깨우기 단어를 발화함으로써, 시스템이 그 사람의 후속 명령을 들을 준비가 된 상태로 배치할 수 있다. 깨우기 단어가 발화되는 동안 시스템은 확성기와 관련된 마이크를 사용하여 사람의 위치를 결정할 수 있다. 이 정보를 사용하여, 시스템은 스피커 3에서 재생 중인 오디오의 에너지를 다른 스피커로 전환하여 스피커 3의 마이크가 사람의 소리를 더 잘 들을 수 있도록 선택할 수 있다. 이러한 시나리오에서, 도 7의 스피커 2는 일정 기간 동안 스피커 3의 책임을 본질적으로 "인계"할 수 있으며, 결과적으로 서라운드 구역에 대한 스피커 참여 값이 크게 변경된다. 스피커 3의 참여 값은 감소하고 스피커 2의 것은 증가한다. 구역 임계값은 변경된 스피커 참여 값에 의존하기 때문에 다시 계산될 수 있다. 대안적으로, 또는 렌더링 알고리즘에 대한 이러한 변경에 추가하여, 스피커 3의 제한 임계값은 스피커가 왜곡되는 것을 방지하기 위해 설정된 공칭 값 아래로 낮아질 수 있다. 이렇게 하면 스피커 3에서 재생되는 남아 있는 오디오가 사람의 말을 듣고 있는 마이크에 간섭을 일으키는 것으로 결정된 일부 임계값을 초과하여 증가하지 않도록 할 수 있다. 구역 임계값은 개별 스피커 임계값의 함수이기도 하므로, 이 경우에 이것이 또한 업데이트될 수 있다.
도 9는 본원에 개시된 것과 같은 장치 또는 시스템에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타내는 흐름도이다. 방법(900)의 블록은, 본원에 설명된 다른 방법과 마찬가지로, 표시된 순서대로 수행될 필요는 없다. 일부 구현에서, 방법(900)의 블록 중 하나 이상이 동시에 수행될 수 있다. 또한, 방법(900)의 일부 구현은 도시 및/또는 설명된 것보다 더 많거나 더 적은 블록을 포함할 수 있다. 방법(900)의 블록은 하나 이상의 디바이스에 의해 수행될 수 있으며, 이는 도 1에 도시되고 위에서 설명된 제어 시스템(110)과 같은 제어 시스템, 또는 다른 개시된 제어 시스템 예 중 하나일 수 있다(또는 이를 포함할 수 있다).
이 예에 따르면, 블록(905)은, 제어 시스템에 의해 및 인터페이스 시스템을 통해, 청취 환경의 복수의 확성기 각각에 대한 개별 확성기 역학 처리 구성 데이터를 획득하는 것을 포함한다. 이 구현에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트를 포함한다. 일부 예에 따르면, 하나 이상의 확성기에 대한 개별 확성기 역학 처리 구성 데이터는 하나 이상의 확성기의 하나 이상의 능력에 대응할 수 있다. 이 예에서, 개별 확성기 역학 처리 구성 데이터 세트 각각은 역학 처리 구성 데이터의 적어도 한 유형을 포함한다.
일부 예에서, 블록(905)은 청취 환경의 복수의 확성기 각각으로부터 개별 확성기 역학 처리 구성 데이터 세트를 획득하는 것을 포함할 수 있다. 다른 예에서, 블록(905)은 메모리에 저장된 데이터 구조로부터 개별 확성기 역학 처리 구성 데이터 세트를 획득하는 것을 포함할 수 있다. 예를 들어, 개별 확성기 역학 처리 구성 데이터 세트는 예를 들어 각 확성기에 대한 설정 절차의 일부로서 이전에 획득되어 데이터 구조에 저장되었을 수 있다.
일부 예에 따르면, 개별 확성기 역학 처리 구성 데이터 세트는 독점적일(proprietary) 수 있다. 이러한 일부 예에서, 개별 확성기 역학 처리 구성 데이터 세트는 유사한 특성을 갖는 스피커에 대한 개별 확성기 역학 처리 구성 데이터에 기초하여 사전에 추정되었을 수 있다. 예를 들어, 블록(905)은 복수의 스피커를 나타내는 데이터 구조 및 복수의 스피커 각각에 대한 대응하는 개별 확성기 역학 처리 구성 데이터 세트로부터 가장 유사한 스피커를 결정하는 스피커 매칭 프로세스를 포함할 수 있다. 스피커 매칭 프로세스는 예를 들어, 하나 이상의 우퍼, 트위터 및/또는 미드레인지 스피커의 크기 비교에 기초할 수 있다.
이 예에서, 블록(910)은, 제어 시스템에 의해, 복수의 확성기에 대한 청취 환경 역학 처리 구성 데이터를 결정하는 것을 포함한다. 이 구현에 따르면, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트에 기초한다. 청취 환경 역학 처리 구성 데이터를 결정하는 것은, 예를 들어 하나 이상의 유형의 개별 확성기 역학 처리 구성 데이터의 평균을 취함으로써 역학 처리 구성 데이터 세트의 개별 확성기 역학 처리 구성 데이터를 결합하는 것을 포함할 수 있다. 일부 경우에, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 하나 이상의 유형의 개별 확성기 역학 처리 구성 데이터의 최소값 또는 최대값을 결정하는 것을 포함할 수 있다. 일부 그러한 구현에 따르면, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 하나 이상의 유형의 개별 확성기 역학 처리 구성 데이터의 최소값 또는 최대값과 평균값 사이를 보간하는 것을 포함할 수 있다.
이 구현에서, 블록(915)은, 제어 시스템에 의해 및 인터페이스 시스템을 통해, 하나 이상의 오디오 신호 및 연관된 공간 데이터를 포함하는 오디오 데이터를 수신하는 것을 포함한다. 예를 들어, 공간 데이터는 오디오 신호에 대응하는 의도한 지각된 공간 위치를 나타낼 수 있다. 이 예에서, 공간 데이터는 채널 데이터 및/또는 공간 메타데이터를 포함한다.
이 예에서, 블록(920)은, 제어 시스템에 의해, 청취 환경 역학 처리 구성 데이터에 기초하여 오디오 데이터에 대해 역학 처리를 수행하여 처리된 오디오 데이터를 생성하는 것을 포함한다. 블록(920)의 역학 처리는 본원에 개시된 개시된 역학 처리 방법 중 임의의 것을 포함할 수 있으며, 하나 이상의 재생 제한 임계값, 압축 데이터 등을 적용하는 것을 포함하지만 이에 제한되지 않는다.
여기에서, 블록(925)은, 제어 시스템에 의해, 복수의 확성기 중 적어도 일부를 포함하는 확성기 세트를 통한 재생을 위해 처리된 오디오 데이터를 렌더링하여, 렌더링된 오디오 신호를 생성하는 것을 포함한다. 일부 예에서, 블록(925)은 CMAP 렌더링 프로세스, FV 렌더링 프로세스, 또는 둘의 조합을 적용하는 것을 수반할 수 있다. 이 예에서, 블록(920)은 블록(925) 전에 수행된다. 그러나, 위에서 언급된 바와 같이, 블록(920) 및/또는 블록(910)은 블록(925)의 렌더링 프로세스에 적어도 부분적으로 기초할 수 있다. 블록(920 및 925)은 도 3의 청취 환경 역학 처리 모듈 및 렌더링 모듈(320)을 참조하여 위에서 설명된 것과 같은 프로세스를 수행하는 것을 수반할 수 있다.
이 예에 따르면, 블록(930)은, 인터페이스 시스템을 통해, 렌더링된 오디오 신호를 확성기 세트에 제공하는 것을 포함한다. 일 예에서, 블록(930)은, 스마트 홈 허브(305)에 의해 및 그 인터페이스 시스템을 통해, 확성기(205a 내지 205m)에 렌더링된 오디오 신호를 제공하는 것을 포함할 수 있다.
일부 예에서, 방법(900)은 렌더링된 오디오 신호가 제공되는 확성기 세트의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터에 따라 렌더링된 오디오 신호에 대해 역학 처리를 수행하는 것을 포함할 수 있다. 예를 들어, 도 31을 다시 참조하면, 역학 처리 모듈 A 내지 M은 확성기 205a 내지 205m에 대한 개별 확성기 역학 처리 구성 데이터에 따라 렌더링된 오디오 신호에 대해 역학 처리를 수행할 수 있다.
일부 구현에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각 확성기에 대한 재생 제한 임계값 데이터 세트를 포함할 수 있다. 일부 그러한 예에서, 재생 제한 임계값 데이터 세트는 복수의 주파수 각각에 대한 재생 제한 임계값을 포함할 수 있다.
청취 환경 역학 처리 구성 데이터를 결정하는 것은, 일부 경우에, 복수의 확성기에 걸쳐 최소 재생 제한 임계값을 결정하는 것을 포함할 수 있다. 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸쳐 재생 제한 임계값을 평균하여 평균 재생 제한 임계값을 획득하는 것을 포함할 수 있다. 그러한 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸친 최소 재생 한계 임계값을 결정하고 최소 재생 제한 임계값과 평균 재생 제한 임계값 사이를 보간하는 것을 포함할 수 있다.
일부 구현에 따르면, 재생 제한 임계값을 평균하는 것은 재생 제한 임계값의 가중 평균을 결정하는 것을 수반할 수 있다. 그러한 일부 예에서, 가중 평균은 제어 시스템에 의해 구현된 렌더링 프로세스의 특성, 예를 들어 블록(925)의 렌더링 프로세스의 특성에 적어도 부분적으로 기초할 수 있다.
일부 구현에서, 오디오 데이터에 대한 역학 처리를 수행하는 것은 공간 구역에 기초할 수 있다. 각 공간 구역은 청취 환경의 하위 집합에 대응할 수 있다.
일부 그러한 구현에 따르면, 역학 처리는 각 공간 구역에 대해 별도로 수행될 수 있다. 예를 들어, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 각 공간 구역에 대해 별도로 수행될 수 있다. 예를 들어, 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은 하나 이상의 공간 구역 각각에 대해 별도로 수행될 수 있다. 일부 예에서, 하나 이상의 공간 구역 각각에 대해 별도로 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은 하나 이상의 공간 구역에 걸친 원하는 오디오 신호 위치의 함수로서 렌더링 프로세스에 의한 확성기의 활성화에 적어도 부분적으로 기초할 수 있다.
일부 예에서, 하나 이상의 공간 구역 각각에 대해 별도로 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은 하나 이상의 공간 구역 각각에서 각 확성기에 대한 확성기 참여 값에 적어도 부분적으로 기초할 수 있다. 각 확성기 참여 값은 하나 이상의 공간 구역 각각 내의 하나 이상의 공칭 공간 위치에 적어도 부분적으로 기초할 수 있다. 공칭 공간 위치는, 일부 예에서, 돌비 5.1, 돌비 5.1.2, 돌비 7.1, 돌비 7.1.4 또는 돌비 9.1 서라운드 사운드 믹스에서 채널의 표준 위치에 대응할 수 있다. 이러한 일부 구현에서, 각 확성기 참여 값은 하나 이상의 공간 구역 각각 내의 하나 이상의 공칭 공간 위치 각각에서 오디오 데이터의 렌더링에 대응하는 각 확성기의 활성화에 적어도 부분적으로 기초한다.
그러한 일부 예에 따르면, 재생 제한 임계값의 가중 평균은 공간 구역에 대한 오디오 신호 근접도의 함수로서 렌더링 프로세스에 의한 확성기의 활성화에 적어도 부분적으로 기초할 수 있다. 일부 경우에, 가중 평균은 각 공간 구역에서 각 확성기에 대한 확성기 참여 값에 적어도 부분적으로 기초할 수 있다. 일부 그러한 예에서, 각 확성기 참여 값은 각 공간 구역 내의 하나 이상의 공칭 공간 위치에 적어도 부분적으로 기초할 수 있다. 예를 들어, 공칭 공간 위치는 돌비 5.1, 돌비 5.1.2, 돌비 7.1, 돌비 7.1.4 또는 돌비 9.1 서라운드 사운드 믹스에서 채널의 표준 위치에 해당할 수 있다. 일부 구현에서, 각 확성기 참여 값은 각 공간 구역 내의 하나 이상의 공칭 공간 위치 각각에서 오디오 데이터의 렌더링에 대응하는 각 확성기의 활성화에 적어도 부분적으로 기초할 수 있다.
일부 구현에 따르면, 처리된 오디오 데이터를 렌더링하는 것은 하나 이상의 동적으로 구성 가능한 기능에 따라 확성기 세트의 상대적 활성화를 결정하는 것을 수반할 수 있다. 일부 예는 도 10 이하를 참조하여 아래에 설명되어 있다. 하나 이상의 동적으로 구성 가능한 기능은 오디오 신호의 하나 이상의 속성, 확성기 세트의 하나 이상의 속성, 또는 하나 이상의 외부 입력에 기초할 수 있다. 예를 들어, 하나 이상의 동적으로 구성 가능한 기능은 하나 이상의 청취자에 대한 확성기의 근접도; 흡인력 위치에 대한 확성기의 근접도-흡인력은 흡인력 위치에 더 근접한 것을 상대적으로 더 높은 확성기 활성화에 대해 선호하는 인자임; 반발력 위치에 대한 확성기의 근접도-반발력은 반발력 위치에 더 근접한 것을 상대적으로 더 낮은 확성기 활성화에 대해 선호하는 인자임; 환경의 다른 확성기에 대한 각 확성기의 능력; 다른 확성기에 대한 확성기의 동기화; 깨우기 단어 성능; 또는 반향 제거기 성능에 기초할 수 있다.
스피커의 상대적인 활성화는, 일부 예에서, 스피커를 통해 재생할 때 오디오 신호의 지각된 공간 위치 모델, 스피커의 위치에 대한 오디오 신호의 의도한 지각된 공간 위치의 근접도의 측정값 및 하나 이상의 동적으로 구성 가능한 기능의 비용 함수에 기초할 수 있다.
일부 예에서, 비용 함수(적어도 하나의 동적 스피커 활성화 조건 포함)의 최소화는 스피커 중 적어도 하나의 비활성화(각 이러한 스피커가 관련 오디오 콘텐츠를 재생하지 않는다는 의미에서) 및 적어도 하나의 스피커의 활성화(각 이러한 스피커가 렌더링된 오디오 콘텐츠의 적어도 일부를 재생한다는 의미에서)를 초래할 수 있다. 동적 스피커 활성화 조건(들)은 오디오의 공간 표현을 특정 스마트 오디오 디바이스로부터 워핑하여 그 마이크가 화자를 더 잘 들을 수 있도록 하거나 보조 오디오 스트림이 스마트 오디오 디바이스의 스피커에서 더 잘 들리도록 하는 것을 포함하여, 다양한 거동 중 적어도 하나를 가능하게 할 수 있다.
일부 구현에 따르면, 개별 확성기 역학 처리 구성 데이터는, 복수의 확성기의 각 확성기에 대하여, 동적 범위 압축 데이터 세트를 포함할 수 있다. 일부 예에서, 동적 범위 압축 데이터 세트는 임계값 데이터, 입력/출력 비율 데이터, 공격 데이터, 해제 데이터 또는 굴곡 데이터 중 하나 이상을 포함할 수 있다.
위에서 언급한 바와 같이, 일부 구현에서 도 9에 도시된 방법(900)의 적어도 일부 블록은 생략될 수 있다. 예를 들어, 일부 구현에서 블록 905 및 910은 설정 프로세스 동안 수행된다. 청취 환경 역학 처리 구성 데이터가 결정된 후, 일부 구현에서 단계 905 및 910은 청취 환경의 스피커의 유형 및/또는 배열이 변경되지 않는 한 "런 타임" 동작 동안 다시 수행되지 않는다. 예를 들어, 일부 구현에서는 스피커가 추가 또는 연결 해제되었는지 여부, 스피커 위치가 변경되었는지 등을 결정하기 위한 초기 검사가 있을 수 있다. 만일 그렇다면, 단계 905 및 910이 구현될 수 있다. 그렇지 않다면, 단계 905 및 910은 블록 915-930을 포함할 수 있는 "런타임" 동작 이전에 다시 수행되지 않을 수 있다.
위에서 본 바와 같이, 기존의 유연한 렌더링 기술은 질량 중심 진폭 패닝(CMAP) 및 유연 가상화(FV)를 포함한다. 높은 수준에서, 이들 기술은 모두 둘 이상의 스피커 세트를 통해 재생하기 위하여, 각각 연관된 원하는 지각된 공간 위치를 갖는 하나 이상의 오디오 신호 세트를 렌더링하며, 여기에서 세트의 스피커의 상대적 활성화는 스피커를 통해 재생되는 상기 오디오 신호의 지각된 공간 위치의 모델 및 스피커의 위치에 대한 오디오 신호의 원하는 지각된 공간 위치의 근접도의 함수이다. 모델은 오디오 신호가 의도한 공간 위치 근처에서 청취자에게 들리도록 보장하고, 근접도 조건은 이러한 공간적 인상을 달성하기 위해 어떤 스피커가 사용될지 제어한다. 특히, 근접도 조건은 오디오 신호의 원하는 지각된 공간 위치 근처에 있는 스피커의 활성화를 선호한다. CMAP 및 FV 모두에 대하여, 이 함수 관계는 공간적 양상과 근접도에 대한 두 항의 합으로 작성된 비용 함수로부터 편리하게 유도된다:
여기에서, 집합 는 M개의 확성기 세트의 위치를 나타내고, 는 오디오 신호의 원하는 지각된 공간 위치를 나타내고, g는 스피커 활성화의 M 차원 벡터를 나타낸다. CMAP의 경우, 벡터의 각 활성화는 스피커당 이득을 나타내는 한편, FV의 경우 각 활성화는 필터를 나타낸다(이러한 제2 경우에서 g는 특정 주파수에서 복소수 값의 벡터로 동등하게 간주될 수 있으며 상이한 g는 필터를 형성하는 복수의 주파수에 대해 계산된다). 활성화에 대한 비용 함수를 최소화하여 활성화의 최적 벡터를 찾는다.
비용 함수의 특정 정의로는, 의 구성요소 사이의 상대 수준은 적절하지만, 위의 최소화로 인한 최적 활성화의 절대 수준을 제어하기 어렵다. 이 문제를 해결하기 위하여, 의 후속 정규화를 수행하여 활성화의 절대 수준을 제어할 수 있다. 예를 들어, 일반적으로 사용되는 일정한 전력 패닝 규칙과 일치하는 단위 길이를 갖도록 벡터를 정규화하는 것이 바람직할 수 있다.
유연한 렌더링 알고리즘의 정확한 거동은 비용 함수의 두 항인 Cspatial 및 Cproximity의 특정 구성에 의해 결정된다. CMAP의 경우, Cspatial은 연관된 활성화 이득 gi(벡터 g의 요소)에 의해 가중치가 부여된 해당 확성기 위치의 질량 중심에서 확성기 세트로부터 재생되는 오디오 신호의 지각된 공간 위치를 배치하는 모델로부터 유도된다.
그런 다음 식 3은 원하는 오디오 위치와 활성화된 확성기에 의해 생성된 오류 사이의 제곱 오차를 나타내는 공간 비용으로 조작된다.
FV를 사용하면, 비용 함수의 공간 조건이 상이하게 정의된다. 여기에서 목표는 청취자의 왼쪽 및 오른쪽 귀에서 오디오 객체 위치 에 대응하는 양이(binaural) 응답 b를 생성하는 것이다. 개념적으로, b는 필터의 2x1 벡터(각 귀에 대해 하나의 필터)이지만 특정 주파수에서 복소수 값의 2x1 벡터로 더 편리하게 처리된다. 특정 주파수에서 이 표현으로 진행하면, 원하는 양이 응답이 객체 위치 별로 HRTF 색인 세트로부터 검색될 수 있다.
동시에, 확성기에 의해 청취자의 귀에서 생성된 2x1 양이 응답 e는 복소수 스피커 활성화 값의 Mx1 벡터 g를 곱한 2xM 음향 전송 행렬 H로 모델링된다.
음향 전송 행렬 H는 청취자 위치에 대한 확성기 위치 세트 에 기초하여 모델링된다. 마지막으로, 비용 함수의 공간 구성요소는 원하는 양이 응답(식 14)과 확성기에서 생성된 응답(식 15) 사이의 제곱 오차로 정의된다.
편리하게, 식 13과 16에서 정의된 CMAP 및 FV에 대한 비용 함수의 공간 항은 모두 스피커 활성화 g의 함수로서 2차 행렬로 재배열될 수 있다.
여기에서 A는 M x M 정사각 행렬, B는 1 x M 벡터, C는 스칼라이다. 행렬 A는 랭크 2이고, 따라서 M > 2일 때 공간 오차 항이 0인 스피커 활성화 g의 무한한 수가 존재한다. 비용 함수의 제2 항인 Cproximity를 도입하면, 이러한 불확정성을 제거하고 다른 가능한 해와 비교하여 지각적으로 유익한 특성을 가진 특정 해가 생성된다. CMAP과 FV 모두에 대해, Cproximity는 위치 가 원하는 오디오 신호 위치 에서 멀리 떨어져 있는 스피커의 활성화가 원하는 위치에 가까운 위치의 스피커 활성화보다 페널티(penalty)를 많이 받도록 구성된다. 이 구성은 원하는 오디오 신호의 위치에 매우 근접한 스피커만 현저히 활성화되는, 희소한 최적의 스피커 활성화 세트를 생성하고, 실제로 스피커 세트 주변에서 청취자의 움직임에 지각적으로 더 강건한 오디오 신호의 공간 재생을 가져온다.
이를 위해, 비용 함수의 제2 항인 Cproximity는 스피커 활성화의 절대값 제곱의 거리 가중치 합으로 정의될 수 있다. 이는 다음과 같이 행렬 형식으로 간결하게 표현된다.
여기에서 D는 원하는 오디오 위치와 각 스피커 사이의 거리 페널티의 대각 행렬이다.
거리 페널티 함수는 다양한 형태를 취할 수 있지만, 다음은 유용한 매개변수화이다.
여기에서 는 원하는 오디오 위치와 스피커 위치 사이의 유클리드 거리이고 α와 β는 조정 가능한 매개변수이다. 매개변수 α는 페널티의 전체 강도를 나타낸다. d0은 거리 페널티의 공간적 범위에 대응하고(d0 주변 및 그보다 먼 확성기는 페널티를 받음), β는 거리 d0에서 페널티 시작의 돌발성을 설명한다.
식 17 및 18a에 정의된 비용 함수의 두 항을 결합하면 전체 비용 함수가 생성된다.
g에 대한 이 비용 함수의 도함수를 0으로 설정하고 g에 대해 풀면 최적의 스피커 활성화 해가 생성된다.
일반적으로, 식 20의 최적 해는 값이 음수인 스피커 활성화를 생성할 수 있다. 유연 렌더러의 CMAP 구성의 경우, 이러한 음의 활성화가 바람직하지 않을 수 있으므로, 식 20은 모든 활성화가 양으로 남아 있도록 최소화될 수 있다.
도 10 및 도 11은 스피커 활성화 및 객체 렌더링 위치의 예시적인 세트를 나타내는 도면이다. 이들 예에서, 스피커 활성화 및 객체 렌더링 위치는 4, 64, 165, -87 및 -4도의 스피커 위치에 대응한다. 다른 구현에서 더 많거나 더 적은 스피커 및/또는 다른 위치의 스피커가 있을 수 있다. 도 10은 이러한 특정 스피커 위치에 대한 식 20에 대한 최적 해를 구성하는 스피커 활성화(1005a, 1010a, 1015a, 1020a 및 1025a)를 도시한다. 도 11은 개별 스피커 위치를 정사각형(1105, 1110, 1115, 1120 및 1125)으로 플로팅하며, 이는 각각 도 10의 스피커에 활성화(1005a, 1010a, 1015a, 1020a 및 1025a)에 대응한다. 도 11에서, 각도 4는 스피커 위치(1120)에 대응하고, 각도 64는 스피커 위치(1125)에 대응하고, 각도 165는 스피커 위치(1110)에 대응하고, 각도 -87은 스피커 위치(1105)에 대응하고, 그리고 각도 -4는 스피커 위치(1115)에 대응한다. 도 11은 또한, 점선(1140a)에 의해 이상적인 객체 위치에 연결된, 점(1130a)으로서 다수의 가능한 객체 각도에 대한 이상적인 객체 위치(바꿔 말하면, 오디오 객체가 렌더링되어야 하는 위치) 및 점(1135a)으로서 그러한 객체에 대한 대응하는 실제 렌더링 위치를 도시한다.
도 12a, 12b 및 12c는 도 10 및 11의 예에 대응하는 확성기 참여 값의 예를 도시한다. 도 12a, 12b 및 12c에서, 각도 -4.1은 도 11의 스피커 위치(1115)에 대응하고, 각도 4.1은 도 11의 스피커 위치(1120)에 대응하고, 각도 -87은 도 11의 스피커 위치(1105)에 대응하고, 각도 63.6은 도 11의 스피커 위치(1125)에 대응하고, 각도 165.4는 도 11의 스피커 위치(1110)에 대응한다. 이러한 확성기 참여 값은 본원의 다른 곳에서 개시된 공간 구역과 관련된 "가중치"의 예이다. 이러한 예에 따르면, 도 12a, 12b 및 12c에 도시된 확성기 참여 값은, 도 6에 도시된 각각의 공간 구역에서 각 확성기의 참여에 대응하며: 도 12a에 도시된 확성기 참여 값은 중앙 구역에서 각 확성기의 참여에 대응하고, 도 12b에 도시된 확성기 참여 값은 전방 좌측 및 우측 구역에서 각 확성기의 참여에 대응하고, 그리고 도 12c에 도시된 확성기 참여 값은 후방 구역에서 각 확성기의 참여에 대응한다.
유연한 렌더링 방법(일부 실시예에 따라 구현됨)을 무선 스마트 스피커(또는 다른 스마트 오디오 디바이스) 세트와 페어링하면 매우 유능하고 사용하기 쉬운 공간적 오디오 렌더링 시스템이 생성될 수 있다. 이러한 시스템과의 상호작용을 고려하면 시스템 사용 중에 발생할 수 있는 다른 목표를 최적화하기 위해 공간 렌더링에 대한 동적 수정이 바람직할 수 있음이 분명해진다. 이 목표를 달성하기 위해, 실시예의 부류는 렌더링되는 오디오 신호, 스피커 세트의 하나 이상의 속성 및/또는 다른 외부 입력에 의존하는 하나 이상의 추가의 동적으로 구성 가능한 기능으로, 기존의 유연한 렌더링 알고리즘(스피커 활성화가 이전에 개시된 공간 및 근접도 항의 함수임)을 보강한다. 일부 실시예에 따르면, 식 1에 주어진 기존의 유연한 렌더링의 비용 함수는 이러한 하나 이상의 추가 의존성에 따라 보정된다.
식 21에서 항 는 추가 비용 항을 나타내며, 는 렌더링되는 (예를 들어, 객체 기반 오디오 프로그램의) 오디오 신호의 하나 이상의 속성 집합을 나타내고, 는 오디오가 렌더링되는 스피커의 하나 이상의 속성 집합을 나타내고, 는 하나 이상의 추가 외부 입력을 나타낸다. 각 항 는 일반적으로 집합 으로 표시되는 오디오 신호, 스피커의 하나 이상의 속성, 및/또는 외부 입력의 조합과 관련하여 활성화 g의 함수로서 비용을 반환한다. 집합 는 최소한 , , 또는 중 임의의 것으로부터 하나의 요소만을 포함한다는 것을 이해해야 한다.
*오디오 신호의 원하는 지각된 공간 위치;
*오디오 신호의 수준(시간에 따라 변할 수 있음); 및/또는
*오디오 신호의 스펙트럼(시간에 따라 변할 수 있음).
*청취 공간의 확성기 위치;
*확성기의 주파수 응답;
*확성기의 재생 수준 한계;
*리미터 이득과 같은 스피커 내 동적 처리 알고리즘의 매개변수;
*각 스피커로부터 다른 것으로의 음향 전송 측정값 또는 추정값;
*스피커의 반향 제거기 성능 측정; 및/또는
*서로에 대한 스피커의 상대적 동기화.
*재생 공간에서 한 명 이상의 청취자 또는 화자의 위치;
*각 확성기로부터 청취 위치로의 음향 전송 측정값 또는 추정값;
*화자로부터 확성기 세트로의 음향 전송 측정값 또는 추정값;
*재생 공간에서 일부 다른 랜드마크의 위치; 및/또는
*각 스피커로부터 재생 공간의 일부 다른 랜드마크로의 음향 전송 측정값 또는 추정값.
식 21에 정의된 새로운 비용 함수를 사용하면, g에 대한 최소화와 식 11a 및 11b에서 이전에 지정된 것과 같이 가능한 사후 정규화를 통해 최적의 활성화 세트를 찾을 수 있다.
식 22a 및 22b를 식 19에 주어진 CMAP 및 FV 비용 함수의 행렬 2차 버전과 결합하면 식 21에 주어진 (일부 실시예의) 일반 확장 비용 함수의 잠재적으로 유익한 구현이 생성된다.
가중치 항 각각을 각 확성기에 대해 주어진 연속 페널티 값 의 함수로 고려하는 것이 유용하다. 하나의 예시적인 실시예에서, 이 페널티 값은 (렌더링될) 객체로부터 고려되는 확성기까지의 거리이다. 다른 예시적인 실시예에서, 이 페널티 값은 주어진 확성기가 일부 주파수를 재생할 수 없음을 나타낸다. 이 페널티 값에 기초하여, 가중치 항 는 다음과 같이 매개변수화될 수 있다.
여기에서 는 전치 인자(가중치 항의 전역 강도를 고려함)를 나타내고, 여기에서 는 페널티 임계값(가중치 항이 중요해지는 주변 또는 그 이상)을 나타내고, 여기에서 는 단조 증가하는 함수를 나타낸다. 예를 들어, 를 갖는 가중치 항은 다음의 형식을 갖는다.
여기에서 , , 는 각각 페널티의 전역 강도, 페널티 시작의 돌발성 및 페널티 범위를 나타내는 조정 가능한 매개변수이다. Cspatial 및 Cproximity는 물론 다른 추가 비용 항에 대한 비용 항 의 상대적 효과가 원하는 결과를 달성하는 데 적합하도록 이러한 조정 가능한 값을 설정할 때 주의해야 한다. 예를 들어, 경험에 비추어 볼 때, 다른 것을 분명히 압도하도록 특정 페널티를 원한다면, 그 강도 를 다음으로 큰 페널티 강도보다 10배 정도 더 크게 설정하는 것이 적절할 수 있다.
모든 확성기에 페널티가 적용되는 경우, 후처리에서 모든 가중치 항으로부터 최소 페널티를 빼서 스피커 중 적어도 하나가 페널티를 받지 않도록 하는 것이 종종 편리하다.
위에서 언급한 바와 같이, 본원에 설명된 새로운 비용 함수 항(및 다른 실시예에 따라 사용되는 유사한 새로운 비용 함수 항)을 사용하여 실현될 수 있는 많은 가능한 사용 사례가 있다. 다음으로, 세 가지 예를 들어 더 구체적인 세부사항을 설명한다: 오디오를 청취자 또는 화자 쪽으로 이동, 오디오를 청취자 또는 화자로부터 멀어지게 이동, 오디오를 랜드마크로부터 멀어지게 이동.
제1 예에서, 본원에서 "흡인력(attracting force)"으로 지칭하는 것은 위치를 향해 오디오를 당기는 데 사용되며, 일부 예에서는 청취자 또는 화자의 위치, 랜드마크 위치, 가구 위치 등이 될 수 있다. 그 위치는 본원에서 "흡인력 위치(attracting force position)" 또는 "흡인 위치(attractor location)"로 지칭될 수 있다. 본원에서 사용되는 바에 따르면, "흡인력"은 흡인력 위치에 더 근접한 것을 상대적으로 더 높은 확성기 활성화에 대해 선호하는 인자이다. 이 예에 따르면 가중치 는 고정된 흡인 위치 로부터 제i 스피커의 거리에 의해 주어지는 연속 페널티 값 및 모든 스피커에 걸쳐 이러한 거리의 최대값에 의해 주어진 임계값 를 갖는 식 26의 형태를 취한다.
청취자나 화자를 향해 오디오를 "당기는(pulling)" 사용 사례를 설명하기 위하여, 구체적으로 = 20, = 3 및 를 180도의 청취자/화자 위치(바닥, 플롯의 중심)에 대응하는 벡터로 설정하였다. 이러한 = 20, = 3 및 값은 예시일 뿐이다. 일부 구현에서, 는 1 내지 100의 범위에 있을 수 있고 는 1 내지 25의 범위에 있을 수 있다.
도 13은 예시적인 실시예에서 스피커 활성화의 그래프이다. 이 예에서, 도 13은 스피커 활성화(1005b, 1010b, 1015b, 1020b, 1025b)를 나타내며, 로 표시되는 흡인력을 추가하여 도 10 및 도 11의 동일한 스피커 위치에 대한 비용 함수에 대한 최적 해를 구성한다.
도 14는 예시적인 실시예에서 객체 렌더링 위치의 그래프이다. 도 14, 17 및 20에서 확성기 위치는 도 11에 나타낸 위치와 동일하다. 이 예에서, 도 14는 다수의 가능한 객체 각도에 대한 대응하는 이상적인 객체 위치(1130b) 및 그러한 객체에 대한 대응하는 실제 렌더링 위치(1135b)를 도시하며, 점선(1140b)에 의해 이상적인 객체 위치(1130b)에 연결된다. 고정 위치 를 향한 실제 렌더링 위치(1135b)의 기울어진 방위는 비용 함수에 대한 최적 해에 대한 흡인력 가중치의 영향을 나타낸다.
도 15a, 15b 및 15c는, 도 13 및 14의 예에 대응하는 확성기 참여 값의 예를 도시한다. 도 15a, 15b 및 15c에서, 각도 -4.1은 도 11의 스피커 위치(1115)에 대응하고, 각도 4.1은 도 11의 스피커 위치(1120)에 대응하고, 각도 -87은 도 11의 스피커 위치(1105)에 대응하고, 각도 63.6은 도 11의 스피커 위치(1125)에 대응하고, 각도 165.4는 도 11의 스피커 위치(1110)에 대응한다. 이러한 예에 따르면, 도 15a, 15b 및 15c에 도시된 확성기 참여 값은, 도 6에 도시된 각각의 공간 구역에서 각 확성기의 참여에 대응하며: 도 15a에 도시된 확성기 참여 값은 중앙 구역에서 각 확성기의 참여에 대응하고, 도 15b에 도시된 확성기 참여 값은 전방 좌측 및 우측 구역에서 각 확성기의 참여에 대응하고, 도 15c에 도시된 확성기 참여 값은 후방 구역에서 각 확성기의 참여에 대응한다.
오디오를 청취자 또는 화자로부터 멀리 밀어내는 사용 사례를 설명하기 위하여, 구체적으로 = 5, = 2 및 를 180도의 청취자/화자 위치(바닥, 플롯의 중심에서)에 대응하는 벡터로 설정하였다. 이러한 = 5, = 2 및 값은 예시일 뿐이다. 위에서 언급한 바와 같이, 일부 예에서, 는 1 내지 100의 범위에 있을 수 있고 는 1 내지 25의 범위에 있을 수 있다.
도 16은 예시적인 실시예에서 스피커 활성화의 그래프이다. 이 예에 따르면, 도 16은 스피커 활성화(1005c, 1010c, 1015c, 1020c, 1025c)를 나타내며, 로 표시되는 반발력을 추가하여, 이전 도면과 동일한 스피커 위치에 대한 비용 함수에 대한 최적 해를 구성한다.
도 17은 예시적인 실시예에서 객체 렌더링 위치의 그래프이다. 이 예에서, 도 17은 다수의 가능한 객체 각도에 대한 이상적인 객체 위치(1130c) 및 그러한 객체에 대한 실제 렌더링 위치(1135c)를 도시하며, 점선(1140c)에 의해 이상적인 객체 위치(1130c)에 연결된다. 고정 위치 에서 멀어지는 실제 렌더링 위치(1135c)의 기울어진 방위는 비용 함수에 대한 최적의 해에 대한 반발력 가중치의 영향을 나타낸다.
도 18a, 18b 및 18c는, 도 16 및 17의 예에 대응하는 확성기 참여 값의 예를 도시한다. 이러한 예에 따르면, 도 18a, 18b 및 18c에 도시된 확성기 참여 값은 도 6에 도시된 각 공간 구역에서 각 확성기의 참여에 대응하며: 도 18a에 도시된 확성기 참여 값은 중앙 구역에서 각 확성기의 참여에 대응하고, 도 18b에 도시된 확성기 참여 값은 전방 좌측 및 우측 구역에서 각 확성기의 참여에 대응하고, 도 18c에 도시된 확성기 참여 값은 후방 구역에서 각 확성기의 참여에 대응한다.
다른 사용 사례는 잠자는 아기 방의 문과 같이 음향적으로 민감한 랜드마크로부터 멀리 오디오를 "밀어내는" 것이다. 마지막 예와 유사하게, 를 180도 문 위치(그래프의 하단, 중앙)에 대응하는 벡터로 설정한다. 더 강한 반발력을 달성하고 기본 청취 공간의 전방 부분으로 음장을 완전히 왜곡하기 위해 = 20, = 5로 설정한다.
도 19는 예시적인 실시예에서 스피커 활성화의 그래프이다. 다시, 이 예에서 도 19는 더 강한 반발력이 추가된 동일한 스피커 위치 세트에 대한 최적의 해를 구성하는 스피커 활성화(1005d, 1010d, 1015d, 1020d 및 1025d)를 나타낸다.
도 20은 예시적인 실시예에서 객체 렌더링 위치의 그래프이다. 그리고 다시, 이 예에서 도 20은 다수의 가능한 객체 각도에 대한 이상적인 객체 위치(1130d) 및 그러한 객체에 대한 대응하는 실제 렌더링 위치(1135d)를 도시하며, 점선(1140d)에 의해 이상적인 객체 위치(1130d)에 연결된다. 실제 렌더링 위치(1135d)의 기울어진 방위는 비용 함수에 대한 최적 해에 대한 더 강한 반발력 가중치의 영향을 나타낸다.
도 21a, 도 21b 및 도 21c는 도 19 및 도 20의 예에 대응하는 확성기 참여 값의 예를 도시한다. 이러한 예에 따르면, 도 21a, 도 21b 및 도 21c에 도시된 확성기 참여 값은 도 6에 도시된 각 공간 구역에서 각 확성기의 참여에 대응한다: 도 21a에 도시된 확성기 참여 값은 중앙 구역에서 각 확성기의 참여에 대응하고, 도 21b에 도시된 확성기 참여 값은 전방 좌측 및 우측 구역에서 각 확성기의 참여에 대응하고, 도 21c에 도시된 확성기 참여 값은 후방 구역에서 각 확성기의 참여에 대응한다.
도 22는 이 예에서 생활 공간인 환경을 나타내는 도면이다. 도 22에 도시된 환경은 오디오 상호 작용을 위한 스마트 오디오 디바이스(디바이스 1.1), 오디오 출력을 위한 스피커(1.3) 및 제어 가능한 조명(1.2)의 세트를 포함한다. 일례에서, 디바이스 1.1만이 마이크를 포함하므로 음성 발언(예컨대, 깨우기 단어 명령)을 발하는 사용자(1.4)가 어디에 있는지 감지할 수 있다. 다양한 방법을 사용하여, 이러한 디바이스로부터 정보가 집합적으로 획득되어 깨우기 단어를 발하는(예를 들어, 말하는) 사용자의 위치 추정(예를 들어, 세분화된 위치 추정)을 제공할 수 있다.
그러한 생활 공간에는 사람이 작업이나 활동을 수행하거나 임계값을 넘는 일련의 자연 활동 구역이 있다. 이러한 작업 영역(구역)은 (예를 들어 불확실한 위치를 결정하기 위해) 위치를 추정하려는 노력 또는 인터페이스의 다른 양상으로 사용자를 지원하기 위한 맥락이 있을 수 있는 곳이다. 디바이스(1.1) 및 스피커(1.3) 중 적어도 일부(및/또는 선택적으로, 적어도 하나의 다른 서브시스템 또는 디바이스)를 포함하는(즉, 이에 의해 구현되는) 렌더링 시스템은, 생활 공간 또는 그의 하나 이상의 구역에서 (예를 들어, 스피커(1.3) 중 일부 또는 전부에 의한) 재생을 위해 오디오를 렌더링하도록 동작할 수 있다. 이러한 렌더링 시스템은 개시된 방법의 임의의 실시예에 따라 기준 공간 모드 또는 분산 공간 모드에서 동작가능할 수 있음이 고려된다. 도 8의 예에서 주요 작업 영역은 다음과 같다.
1. 주방 싱크대 및 음식 준비 영역(생활 공간의 왼쪽 상단 영역 내)
2. 냉장고 문(싱크대와 음식 준비 영역 오른쪽);
3. 식사 영역(생활 공간의 왼쪽 하단 영역 내);
4. 생활 공간의 개방된 영역(싱크대, 음식 준비 영역 및 식사 영역의 오른쪽);
5. TV 소파(개방된 영역의 오른쪽);
6. TV 자체;
7. 테이블 ;
8. 문 영역 또는 진입로(생활 공간의 오른쪽 상단 영역 내).
작업 영역에 맞게 위치가 비슷한 위치를 갖는 비슷한 수의 조명이 있는 경우가 많다. 조명의 일부 또는 전부는 개별적으로 제어할 수 있는 네트워크 에이전트일 수 있다.
일부 실시예에 따르면, 오디오는 하나 이상의 스피커(1.3)(및 /또는 하나 이상의 디바이스(1.1)의 스피커(들))에 의한 (임의의 개시된 실시예에 따른) 재생을 위해 (예를 들어, 디바이스(1.1) 또는 도 22 시스템의 다른 디바이스 중 하나에 의해) 렌더링된다.
실시예의 부류는 복수의 조정된(편성된) 스마트 오디오 디바이스 중 적어도 하나(예를 들어, 전부 또는 일부)에 의한 오디오의 재생 및/또는 재생을 위한 오디오의 렌더링 방법을 포함한다. 예를 들어, 사용자의 집에 있는 (시스템 내의) 스마트 오디오 디바이스 세트는 스마트 오디오 디바이스의 전부 또는 일부에 의한 (즉, 전부 또는 일부의 스피커(들)에 의한) 재생을 위한 오디오의 유연한 렌더링을 포함하여, 다양한 동시 사용 사례를 처리하도록 편성될 수 있다. 렌더링 및/또는 재생에 대한 동적 수정이 필요한 시스템과의 많은 상호 작용이 고려된다. 그러한 수정은 공간 충실도에 초점을 맞출 수 있지만 반드시 그런 것은 아니다.
일부 실시예는 조정된(편성된) 복수의 스마트 오디오 디바이스의 스피커(들)에 의한 재생 및/또는 재생을 위한 렌더링을 구현한다. 다른 실시예는 다른 스피커 세트의 스피커(들)에 의한 재생 및/또는 재생을 위한 렌더링을 구현한다.
일부 실시예(예를 들어, 렌더링 시스템 또는 렌더러, 또는 렌더링 방법, 또는 재생 시스템 또는 방법)는 스피커 세트의 일부 또는 모든 스피커(즉, 각 활성화된 스피커)에 의해 재생 및/또는 재생을 위해 오디오를 렌더링하기 위한 시스템 및 방법에 관한 것이다. 일부 실시예에서, 스피커는 스마트 오디오 디바이스의 조정된(편성된) 세트의 스피커이다. 이러한 실시예의 예는 다음의 열거된 예시적인 실시예(EEE)를 포함한다:
EEE1. 적어도 두 개의 스피커에 의해 재생하기 위한 오디오를 렌더링하는 방법으로서: 상기 방법은:
(a) 스피커의 제한 임계값을 결합하고, 이로써 결합된 임계값을 결정하는 단계;
(b) 처리된 오디오를 생성하기 위해 결합된 임계값을 사용하여 오디오에 대한 동적 처리를 수행하는 단계; 및
(c) 처리된 오디오를 스피커 피드로 렌더링하는 단계를 포함하는, 방법.
EEE2. EEE1에 있어서, 제한 임계값은 상이한 주파수에서의 제한을 나타내는 하나 이상의 재생 제한 임계값 세트인, 방법.
EEE3. EEE1 또는 EEE2에 있어서, 상기 제한 임계값을 결합하는 것은 복수의 확성기의 임계값에 걸쳐 최소값을 취하는 것을 포함하는, 방법.
EEE4. EEE1 또는 EEE2에 있어서, 상기 제한 임계값을 결합하는 것은 복수의 확성기의 제한 임계값에 걸친 평균화 처리를 포함하는, 방법.
EEE5. EEE4에 있어서, 상기 평균화 처리는 가중 평균인, 방법.
EEE6. EEE5에 있어서, 상기 가중치는 상기 렌더링의 함수로서 도출되는, 방법.
EEE7. EEE1 내지 EEE6 중 어느 하나에 있어서, 상기 렌더링은 공간적인, 방법.
EEE8. EEE7에 있어서, 상기 오디오 프로그램 스트림을 제한하는 것은 상이한 공간 구역에서 상이하게 제한하는 것을 포함하는, 방법.
EEE9. EEE8에 있어서, 각 공간 구역의 임계값은 복수의 확성기의 재생 제한 임계값의 고유한 조합을 통해 도출되는, 방법.
EEE10. EEE9에 있어서, 각 공간 구역의 고유 임계값은 복수의 확성기의 제한 임계값의 가중 평균을 통해 도출되는, 방법.
EEE11. EEE10에 있어서, 주어진 구역에 대한 주어진 확성기와 연관된 가중치는 해당 구역과 연관된 스피커 참여 인자로부터 도출되는, 방법.
EEE12. EEE11에 있어서, 상기 스피커 참여 인자는 리미터의 상기 공간 구역에 할당된 하나 이상의 공칭 공간 위치의 렌더링에 대응하는 스피커 활성화로부터 도출되는, 방법.
EEE13. EEE1 내지 EEE12 중 어느 하나에 있어서, 대응하는 스피커와 연관된 제한 임계값에 따라 스피커 피드를 제한하는 것을 더 포함하는, 방법.
EEE14. EEE1 내지 EEE13 중 어느 하나의 방법을 수행하도록 구성된 시스템.
많은 실시예가 기술적으로 가능하다. 본 개시로부터 이를 구현하는 방법은 당업자에게 명백할 것이다. 일부 실시예가 본원에 설명되어 있다.
본 개시의 일부 양상은 임의의 개시된 방법을 수행하도록 구성된(예를 들어, 프로그래밍된) 시스템 또는 디바이스, 및 임의의 개시된 방법 또는 그 단계를 구현하기 위한 코드를 저장하는 유형의 컴퓨터 판독 가능 매체(예를 들어, 디스크)를 포함한다. 예를 들어, 시스템은 개시된 방법 또는 그 단계의 실시예를 포함하여, 데이터에 대한 다양한 작업 중 임의의 것을 수행하도록 소프트웨어 또는 펌웨어로 프로그래밍된 및/또는 달리 구성된, 프로그래밍 가능한 범용 프로세서, 디지털 신호 프로세서, 또는 마이크로프로세서이거나 이를 포함할 수 있다. 이러한 범용 프로세서는 입력 디바이스, 메모리 및 주장된 데이터에 대한 응답으로 개시된 방법(또는 그 단계)을 수행하도록 프로그래밍된(및/또는 달리 구성된) 처리 서브시스템을 포함하는 컴퓨터 시스템이거나 이를 포함할 수 있다.
일부 실시예는 하나 이상의 개시된 방법의 성능을 포함하는, 오디오 신호(들)에 대해 요구되는 처리를 수행하도록 구성된(예를 들어, 프로그래밍된 또는 달리 구성된) 구성 가능한(예를 들어, 프로그래밍 가능한) 디지털 신호 프로세서(DSP)로서 구현된다. 대안적으로, 일부 실시예(또는 그 요소)는 하나 이상의 개시된 방법의 다양한 동작 중 임의의 것을 수행하도록 소프트웨어 또는 펌웨어로 프로그래밍된 및/또는 달리 구성된 범용 프로세서(예를 들어, 입력 디바이스 및 메모리를 포함할 수 있는, 개인용 컴퓨터(PC) 또는 다른 컴퓨터 시스템 또는 마이크로프로세서)로서 구현된다. 대안적으로, 일부 실시예의 요소는 하나 이상의 개시된 방법을 수행하도록 구성된(예를 들어, 프로그래밍된) 범용 프로세서 또는 DSP로서 구현되고, 시스템은 또한 다른 요소(예를 들어, 하나 이상의 확성기 및/또는 하나 이상의 마이크)를 포함할 수 있다. 하나 이상의 개시된 방법을 수행하도록 구성된 범용 프로세서는 입력 디바이스(예를 들어, 마우스 및/또는 키보드), 메모리에 결합될 수 있으며, 일부 예에서는 디스플레이 디바이스에 결합될 수 있다.
본 개시의 다른 양상은 하나 이상의 개시된 방법 또는 그 단계를 수행하기 위한 코드(예를 들어, 수행하도록 실행 가능한 코더)를 저장하는 컴퓨터 판독 가능 매체(예를 들어, 디스크 또는 다른 유형의(tangible) 저장 매체)이다.
본 개시의 특정 실시예 및 적용이 본원에 설명되었지만, 본원에 설명되고 청구된 본 개시의 범위를 벗어나지 않고 본원에 기재된 실시예 및 적용에 대한 많은 변형이 가능하다는 것이 당업자에게 명백할 것이다. 본 개시의 특정 형태가 도시되고 설명되었지만, 본 개시의 범위는 설명되고 도시된 특정 실시예 또는 설명된 특정 방법으로 제한되지 않는다는 것을 이해해야 한다.
Claims (32)
- 오디오 처리 방법으로서:
제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 청취 환경의 복수의 확성기 각각에 대해 개별 확성기 역학 처리 구성 데이터(individual loudspeaker dynamics processing configuration data)를 획득하는 것 - 상기 개별 확성기 역학 처리 구성 데이터는 상기 복수의 확성기의 각각의 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트를 포함하고, 상기 개별 확성기 역학 처리 구성 데이터는 상기 복수의 확성기의 각각의 확성기에 대한 재생 제한 임계값 데이터 세트를 포함함 -;
상기 제어 시스템에 의해, 상기 복수의 확성기에 대한 청취 환경 역학 처리 구성 데이터(listening environment dynamics processing configuration data)를 결정하는 것 - 상기 청취 환경 역학 처리 구성 데이터를 결정하는 것은 상기 복수의 확성기의 각각의 확성기에 대한 상기 개별 확성기 역학 처리 구성 데이터 세트에 기초하고, 상기 청취 환경 역학 처리 구성 데이터를 결정하는 것은 상기 복수의 확성기에 걸쳐 상기 재생 제한 임계값을 평균화하는 것을 포함함 -;
상기 제어 시스템에 의해 그리고 상기 인터페이스 시스템을 통해, 하나 이상의 오디오 신호 및 연관된 공간 데이터를 포함하는 오디오 데이터를 수신하는 것 - 상기 공간 데이터는 채널 데이터 또는 공간 메타데이터 중 적어도 하나를 포함함 -;
상기 제어 시스템에 의해, 처리된 오디오 데이터를 생성하기 위해, 상기 청취 환경 역학 처리 구성 데이터에 기초하여, 상기 오디오 데이터에 대해 역학 처리를 수행하는 것;
상기 제어 시스템에 의해, 렌더링된 오디오 신호를 생성하기 위해, 상기 복수의 확성기 중 적어도 일부를 포함하는 확성기의 세트를 통한 재생을 위해 상기 처리된 오디오 데이터를 렌더링하는 것; 및
상기 인터페이스 시스템을 통해, 상기 렌더링된 오디오 신호를 상기 확성기의 세트에 제공하는 것
을 포함하는, 오디오 처리 방법. - 제1항에 있어서,
상기 재생 제한 임계값 데이터 세트는 복수의 주파수 각각에 대한 재생 제한 임계값을 포함하는, 오디오 처리 방법. - 제1항에 있어서,
상기 청취 환경 역학 처리 구성 데이터를 결정하는 것은, 상기 복수의 확성기에 걸쳐 평균화된 재생 제한 임계값을 획득하기 위해 상기 재생 제한 임계값을 평균화하는 것, 상기 복수의 확성기에 걸쳐 최소 재생 제한 임계값을 결정하는 것, 및 상기 최소 재생 제한 임계값과 상기 평균화된 재생 제한 임계값 사이를 보간하는(interpolate) 것을 포함하는, 오디오 처리 방법. - 제3항에 있어서,
상기 재생 제한 임계값을 평균화하는 것은, 상기 재생 제한 임계값의 가중 평균을 결정하는 것을 포함하는, 오디오 처리 방법. - 제4항에 있어서,
상기 가중 평균은, 적어도 부분적으로, 상기 제어 시스템에 의해 구현되는 렌더링 처리의 특성에 기초하는, 오디오 처리 방법. - 제5항에 있어서,
상기 오디오 데이터에 대해 역학 처리를 수행하는 것은, 공간 구역에 기초하고, 상기 공간 구역의 각각은 상기 청취 환경의 서브세트에 대응하며, 상기 재생 제한 임계값의 상기 가중 평균은 적어도 부분적으로 상기 공간 구역에 대한 오디오 신호 근접도의 함수로서 상기 렌더링 처리에 의한 확성기의 활성화에 기초하는, 오디오 처리 방법. - 제6항에 있어서,
상기 가중 평균은, 적어도 부분적으로, 상기 공간 구역의 각각에서 각각의 확성기에 대한 확성기 참여 값에 기초하는, 오디오 처리 방법. - 제7항에 있어서,
각각의 확성기 참여 값은, 적어도 부분적으로, 상기 공간 구역의 각각 내의 하나 이상의 공칭(nominal) 공간 위치에 기초하는, 오디오 처리 방법. - 제8항에 있어서,
상기 공칭 공간 위치는 Dolby 5.1, Dolby 5.1.2, Dolby 7.1, Dolby 7.1.4 또는 Dolby 9.1 서라운드 사운드 믹스에서 채널의 표준 위치(canonical position)에 대응하는, 오디오 처리 방법. - 제8항에 있어서,
각각의 확성기 참여 값은, 적어도 부분적으로, 상기 공간 구역의 각각 내의 상기 하나 이상의 공칭 공간 위치 각각에서 오디오 데이터의 렌더링에 대응하는 각각의 확성기의 활성화에 기초하는, 오디오 처리 방법. - 제1항에 있어서,
상기 렌더링된 오디오 신호가 제공되는 상기 확성기의 세트의 각각의 확성기에 대한 상기 개별 확성기 역학 처리 구성 데이터에 따라, 상기 렌더링된 오디오 신호에 대해 역학 처리를 수행하는 것을 더 포함하는, 오디오 처리 방법. - 제1항에 있어서,
상기 개별 확성기 역학 처리 구성 데이터는, 상기 복수의 확성기의 각각의 확성기에 대해, 동적 범위 압축 데이터 세트를 포함하는, 오디오 처리 방법. - 제12항에 있어서,
상기 동적 범위 압축 데이터 세트는, 임계값 데이터, 입력/출력 비율 데이터, 공격(attack) 데이터, 해제(release) 데이터 또는 니(knee) 데이터 중 하나 이상을 포함하는, 오디오 처리 방법. - 제1항에 있어서,
상기 복수의 확성기 중 하나 이상의 확성기에 대한 상기 개별 확성기 역학 처리 구성 데이터는, 상기 하나 이상의 확성기의 하나 이상의 능력에 대응하는, 오디오 처리 방법. - 제1항 내지 제14항 중 어느 한 항의 방법을 수행하도록 구성된, 시스템.
- 제1항 내지 제14항 중 어느 한 항의 방법을 수행하기 위해 하나 이상의 디바이스를 제어하기 위한 명령을 포함하는 소프트웨어가 저장된 하나 이상의, 비일시적 매체.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020237016936A KR102638121B1 (ko) | 2019-07-30 | 2020-07-27 | 상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리 |
Applications Claiming Priority (11)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962880115P | 2019-07-30 | 2019-07-30 | |
US62/880,115 | 2019-07-30 | ||
ESP201930702 | 2019-07-30 | ||
ES201930702 | 2019-07-30 | ||
US202062971421P | 2020-02-07 | 2020-02-07 | |
US62/971,421 | 2020-02-07 | ||
US202062705143P | 2020-06-12 | 2020-06-12 | |
US62/705,143 | 2020-06-12 | ||
US202062705410P | 2020-06-25 | 2020-06-25 | |
US62/705,410 | 2020-06-25 | ||
PCT/US2020/043764 WO2021021750A1 (en) | 2019-07-30 | 2020-07-27 | Dynamics processing across devices with differing playback capabilities |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237016936A Division KR102638121B1 (ko) | 2019-07-30 | 2020-07-27 | 상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220044206A KR20220044206A (ko) | 2022-04-06 |
KR102535704B1 true KR102535704B1 (ko) | 2023-05-30 |
Family
ID=72088369
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227006702A KR102535704B1 (ko) | 2019-07-30 | 2020-07-27 | 상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리 |
KR1020237016936A KR102638121B1 (ko) | 2019-07-30 | 2020-07-27 | 상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237016936A KR102638121B1 (ko) | 2019-07-30 | 2020-07-27 | 상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리 |
Country Status (7)
Country | Link |
---|---|
US (2) | US12022271B2 (ko) |
EP (2) | EP4418685A2 (ko) |
JP (2) | JP7326583B2 (ko) |
KR (2) | KR102535704B1 (ko) |
CN (2) | CN117061951A (ko) |
BR (1) | BR112022001570A2 (ko) |
WO (1) | WO2021021750A1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021021857A1 (en) | 2019-07-30 | 2021-02-04 | Dolby Laboratories Licensing Corporation | Acoustic echo cancellation control for distributed audio devices |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007068125A (ja) | 2005-09-02 | 2007-03-15 | Nec Corp | 信号処理の方法及び装置並びにコンピュータプログラム |
JP2017181761A (ja) | 2016-03-30 | 2017-10-05 | 沖電気工業株式会社 | 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム |
US20180352329A1 (en) | 2017-06-02 | 2018-12-06 | Apple Inc. | Loudspeaker Cabinet with Thermal and Power Mitigation Control Effort |
Family Cites Families (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0720892A (ja) | 1993-06-30 | 1995-01-24 | Fujitsu Ltd | 音声認識装置におけるノイズキャンセリング装置 |
JP4368210B2 (ja) | 2004-01-28 | 2009-11-18 | ソニー株式会社 | 送受信システム、送信装置およびスピーカ搭載機器 |
US9083298B2 (en) | 2010-03-18 | 2015-07-14 | Dolby Laboratories Licensing Corporation | Techniques for distortion reducing multi-band compressor with timbre preservation |
JP5798247B2 (ja) | 2011-07-01 | 2015-10-21 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 向上した3dオーディオ作成および表現のためのシステムおよびツール |
EP2761745A1 (en) | 2011-09-26 | 2014-08-06 | Actiwave AB | Audio processing and enhancement system |
US8183997B1 (en) | 2011-11-14 | 2012-05-22 | Google Inc. | Displaying sound indications on a wearable computing system |
US9426600B2 (en) | 2012-07-06 | 2016-08-23 | Dirac Research Ab | Audio precompensation controller design with pairwise loudspeaker channel similarity |
JP6045696B2 (ja) | 2012-07-31 | 2016-12-14 | インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. | オーディオ信号処理方法および装置 |
JP6133422B2 (ja) | 2012-08-03 | 2017-05-24 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法 |
EP2891338B1 (en) * | 2012-08-31 | 2017-10-25 | Dolby Laboratories Licensing Corporation | System for rendering and playback of object based audio in various listening environments |
CN104604256B (zh) | 2012-08-31 | 2017-09-15 | 杜比实验室特许公司 | 基于对象的音频的反射声渲染 |
KR102332632B1 (ko) | 2013-03-28 | 2021-12-02 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링 |
KR20140128564A (ko) | 2013-04-27 | 2014-11-06 | 인텔렉추얼디스커버리 주식회사 | 음상 정위를 위한 오디오 시스템 및 방법 |
US9412385B2 (en) | 2013-05-28 | 2016-08-09 | Qualcomm Incorporated | Performing spatial masking with respect to spherical harmonic coefficients |
DE102013217367A1 (de) | 2013-05-31 | 2014-12-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und verfahren zur raumselektiven audiowiedergabe |
EP3011764B1 (en) | 2013-06-18 | 2018-11-21 | Dolby Laboratories Licensing Corporation | Bass management for audio rendering |
CN105432098B (zh) | 2013-07-30 | 2017-08-29 | 杜比国际公司 | 针对任意扬声器布局的音频对象的平移 |
US10095468B2 (en) | 2013-09-12 | 2018-10-09 | Dolby Laboratories Licensing Corporation | Dynamic range control for a wide variety of playback environments |
SG11201603116XA (en) | 2013-10-22 | 2016-05-30 | Fraunhofer Ges Forschung | Concept for combined dynamic range compression and guided clipping prevention for audio devices |
ES2755349T3 (es) | 2013-10-31 | 2020-04-22 | Dolby Laboratories Licensing Corp | Renderización binaural para auriculares utilizando procesamiento de metadatos |
US9888333B2 (en) | 2013-11-11 | 2018-02-06 | Google Technology Holdings LLC | Three-dimensional audio rendering techniques |
US9226087B2 (en) * | 2014-02-06 | 2015-12-29 | Sonos, Inc. | Audio output balancing during synchronized playback |
US9226073B2 (en) | 2014-02-06 | 2015-12-29 | Sonos, Inc. | Audio output balancing during synchronized playback |
CN111654785B (zh) | 2014-09-26 | 2022-08-23 | 苹果公司 | 具有可配置区的音频系统 |
CN106537942A (zh) | 2014-11-11 | 2017-03-22 | 谷歌公司 | 3d沉浸式空间音频系统和方法 |
US9578439B2 (en) | 2015-01-02 | 2017-02-21 | Qualcomm Incorporated | Method, system and article of manufacture for processing spatial audio |
EP3254478B1 (en) | 2015-02-03 | 2020-02-26 | Dolby Laboratories Licensing Corporation | Scheduling playback of audio in a virtual acoustic space |
JP6732764B2 (ja) | 2015-02-06 | 2020-07-29 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 適応オーディオ・コンテンツのためのハイブリッドの優先度に基づくレンダリング・システムおよび方法 |
US10136240B2 (en) | 2015-04-20 | 2018-11-20 | Dolby Laboratories Licensing Corporation | Processing audio data to compensate for partial hearing loss or an adverse hearing environment |
WO2016183379A2 (en) | 2015-05-14 | 2016-11-17 | Dolby Laboratories Licensing Corporation | Generation and playback of near-field audio content |
CN106303897A (zh) | 2015-06-01 | 2017-01-04 | 杜比实验室特许公司 | 处理基于对象的音频信号 |
US9735747B2 (en) | 2015-07-10 | 2017-08-15 | Intel Corporation | Balancing mobile device audio |
US9837086B2 (en) * | 2015-07-31 | 2017-12-05 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
US10074373B2 (en) | 2015-12-21 | 2018-09-11 | Qualcomm Incorporated | Channel adjustment for inter-frame temporal shift variations |
EP3209034A1 (en) | 2016-02-19 | 2017-08-23 | Nokia Technologies Oy | Controlling audio rendering |
US9949052B2 (en) | 2016-03-22 | 2018-04-17 | Dolby Laboratories Licensing Corporation | Adaptive panner of audio objects |
US9794710B1 (en) | 2016-07-15 | 2017-10-17 | Sonos, Inc. | Spatial audio correction |
EP4235207A3 (en) | 2016-09-29 | 2023-10-11 | Dolby Laboratories Licensing Corporation | Automatic discovery and localization of speaker locations in surround sound systems |
GB2561844A (en) | 2017-04-24 | 2018-10-31 | Nokia Technologies Oy | Spatial audio processing |
KR102320279B1 (ko) | 2017-05-03 | 2021-11-03 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 렌더링을 위한 오디오 프로세서, 시스템, 방법 및 컴퓨터 프로그램 |
US20180357038A1 (en) | 2017-06-09 | 2018-12-13 | Qualcomm Incorporated | Audio metadata modification at rendering device |
WO2019067445A1 (en) | 2017-09-27 | 2019-04-04 | Zermatt Technologies Llc | BINAURAL AUDIO RENDER FOLLOWING PREDICTIVE HEAD |
CN111052770B (zh) | 2017-09-29 | 2021-12-03 | 苹果公司 | 空间音频下混频的方法及系统 |
EP3704875B1 (en) | 2017-10-30 | 2023-05-31 | Dolby Laboratories Licensing Corporation | Virtual rendering of object based audio over an arbitrary set of loudspeakers |
US10524078B2 (en) | 2017-11-29 | 2019-12-31 | Boomcloud 360, Inc. | Crosstalk cancellation b-chain |
US11616482B2 (en) * | 2018-06-22 | 2023-03-28 | Dolby Laboratories Licensing Corporation | Multichannel audio enhancement, decoding, and rendering in response to feedback |
-
2020
- 2020-07-27 WO PCT/US2020/043764 patent/WO2021021750A1/en active Application Filing
- 2020-07-27 BR BR112022001570A patent/BR112022001570A2/pt unknown
- 2020-07-27 EP EP24187469.2A patent/EP4418685A2/en active Pending
- 2020-07-27 KR KR1020227006702A patent/KR102535704B1/ko active Application Filing
- 2020-07-27 EP EP20757438.5A patent/EP4005235B1/en active Active
- 2020-07-27 JP JP2022505318A patent/JP7326583B2/ja active Active
- 2020-07-27 US US17/630,897 patent/US12022271B2/en active Active
- 2020-07-27 CN CN202311144715.XA patent/CN117061951A/zh active Pending
- 2020-07-27 KR KR1020237016936A patent/KR102638121B1/ko active IP Right Grant
- 2020-07-27 CN CN202080055803.0A patent/CN114391262B/zh active Active
-
2023
- 2023-08-02 JP JP2023125937A patent/JP2023133493A/ja active Pending
-
2024
- 2024-06-03 US US18/732,550 patent/US20240323608A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007068125A (ja) | 2005-09-02 | 2007-03-15 | Nec Corp | 信号処理の方法及び装置並びにコンピュータプログラム |
JP2017181761A (ja) | 2016-03-30 | 2017-10-05 | 沖電気工業株式会社 | 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム |
US20180352329A1 (en) | 2017-06-02 | 2018-12-06 | Apple Inc. | Loudspeaker Cabinet with Thermal and Power Mitigation Control Effort |
Also Published As
Publication number | Publication date |
---|---|
EP4005235B1 (en) | 2024-08-28 |
JP2022542588A (ja) | 2022-10-05 |
CN114391262B (zh) | 2023-10-03 |
US20220360899A1 (en) | 2022-11-10 |
US20240323608A1 (en) | 2024-09-26 |
EP4005235A1 (en) | 2022-06-01 |
CN114391262A (zh) | 2022-04-22 |
KR20220044206A (ko) | 2022-04-06 |
JP7326583B2 (ja) | 2023-08-15 |
BR112022001570A2 (pt) | 2022-03-22 |
KR20230074309A (ko) | 2023-05-26 |
CN117061951A (zh) | 2023-11-14 |
JP2023133493A (ja) | 2023-09-22 |
KR102638121B1 (ko) | 2024-02-20 |
US12022271B2 (en) | 2024-06-25 |
EP4418685A2 (en) | 2024-08-21 |
WO2021021750A1 (en) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114521334B (zh) | 音频处理系统、方法和介质 | |
CN114175686B (zh) | 音频处理方法和系统及相关非暂时性介质 | |
US20240323608A1 (en) | Dynamics processing across devices with differing playback capabilities | |
KR20220044204A (ko) | 분산형 오디오 디바이스들을 위한 음향 반향 소거 제어 | |
US20220406326A1 (en) | Content and environmentally aware environmental noise compensation | |
RU2783150C1 (ru) | Динамическая обработка в устройствах с отличающимися функциональными возможностями воспроизведения | |
WO2024025803A1 (en) | Spatial audio rendering adaptive to signal level and loudspeaker playback limit thresholds | |
US20240114309A1 (en) | Progressive calculation and application of rendering configurations for dynamic applications | |
CN116830604A (zh) | 动态应用的渲染配置的渐进计算和应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
A107 | Divisional application of patent |