KR102670118B1 - 다중 스피커를 통한 다중 오디오 스트림 재생 관리 - Google Patents

다중 스피커를 통한 다중 오디오 스트림 재생 관리 Download PDF

Info

Publication number
KR102670118B1
KR102670118B1 KR1020227006906A KR20227006906A KR102670118B1 KR 102670118 B1 KR102670118 B1 KR 102670118B1 KR 1020227006906 A KR1020227006906 A KR 1020227006906A KR 20227006906 A KR20227006906 A KR 20227006906A KR 102670118 B1 KR102670118 B1 KR 102670118B1
Authority
KR
South Korea
Prior art keywords
audio signal
audio
rendering
rendered
speaker
Prior art date
Application number
KR1020227006906A
Other languages
English (en)
Other versions
KR20220041186A (ko
Inventor
앨런 제이. 제펠트
조슈아 비. 란도
다니엘 아르티아가
마크 알.피. 토마스
글렌 엔. 딕킨스
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션, 돌비 인터네셔널 에이비 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20220041186A publication Critical patent/KR20220041186A/ko
Application granted granted Critical
Publication of KR102670118B1 publication Critical patent/KR102670118B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • H04R3/14Cross-over networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/005Audio distribution systems for home, i.e. multi-room use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

다중 스트림 렌더링 시스템 및 방법은 임의로 배치된 복수의 확성기를 통해 복수의 오디오 프로그램 스트림을 동시에 렌더링 및 재생할 수 있다. 프로그램 스트림 중 적어도 하나는 공간적 믹스일 수 있다. 상기 공간적 믹스의 렌더링은 하나 이상의 추가 프로그램 스트림의 동시 렌더링의 함수로서 동적으로 수정될 수 있다. 하나 이상의 추가 프로그램 스트림의 렌더링은 공간적 믹스의 동시 렌더링의 함수로서 동적으로 수정될 수 있다.

Description

다중 스피커를 통한 다중 오디오 스트림 재생 관리
관련된 출원에 대한 상호 참조
이 출원은 2020년 3월 19일에 출원된 미국 가특허 출원 제62/992,068호, 2019년 12월 19일에 출원된 미국 가특허 출원 제62/949,998호, 2019년 12월 18일에 출원된 유럽 특허 출원 제19217580.0호, 2019년 7월 30일에 출원된 스페인 특허 출원 제 P201930702호, 2020년 2월 7일에 출원된 미국 가특허 출원 제62/971,421호, 2020년 6월 25일에 출원된 미국 가특허 출원 제62/705,410호, 2019년 7월 30일에 출원된 미국 가특허 출원 제62/880,111호, 2020년 5월 27일에 출원된 미국 가특허 출원 제62/704,754호, 2020년 7월 21일에 출원된 미국 가특허 출원 제62/705,896호, 2019년 7월 30일에 출원된 미국 가특허 출원 제62/880,114호, 2020년 6월 23일에 출원된 미국 가특허 출원 제62/705,351호, 2019년 7월 30일에 출원된 미국 가특허 출원 제62/880,115호 및 2020년 6월 12일에 출원된 미국 가특허 출원 제62/705,143 호의 우선권을 주장하며, 그 각각은 본원에서 전체로서 참조로 포함된다.
이 개시는 스피커 세트의 일부 또는 모든 스피커(예를 들어, 각각의 활성화된 스피커)에 의한 오디오의 재생 및 재생을 위한 렌더링을 위한 시스템 및 방법에 관한 것이다.
스마트 오디오 디바이스를 포함하지만 이에 제한되지 않는 오디오 디바이스가 널리 배포되어 많은 가정의 공통 기능이 되고 있다. 오디오 디바이스를 제어하기 위한 기존 시스템 및 방법이 이점을 제공하지만, 개선된 시스템 및 방법이 바람직할 것이다.
표기법 및 명명법
청구범위를 포함하여 본 개시 전체에 걸쳐, "스피커" 및 "확성기"는 단일 스피커 피드에 의해 구동되는 임의의 사운드 방출 변환기(또는 변환기 세트)를 나타내기 위해 동의어로 사용된다. 일반적인 헤드폰 세트는 두 개의 스피커를 포함한다. 스피커는 단일의 공통 스피커 피드 또는 다중 스피커 피드에 의해 구동될 수 있는 다중 변환기(예를 들어 우퍼 및 트위터)를 포함하도록 구현될 수 있다. 일부 예에서, 스피커 피드(들)는 상이한 변환기에 결합된 상이한 회로 브랜치에서 상이한 처리를 겪을 수 있다.
청구범위를 포함하여 본 개시 전체에 걸쳐, 신호 또는 데이터"에 대해(on)" 연산을 수행한다는 표현(예를 들어, 신호 또는 데이터에 대해 필터링, 스케일링, 변환 또는 이득 적용)은 신호 또는 데이터에 대한 직접 동작 또는 신호 또는 데이터의 처리된 버전에 대한 동작(예를 들어, 동작 수행 전에 예비 필터링 또는 전처리를 거친 신호 버전에 대한)을 수행하는 것을 나타내는 넓은 의미로 사용된다.
청구범위를 포함하여 본 개시 전체에 걸쳐, 표현 "시스템"은 디바이스, 시스템 또는 서브시스템을 나타내는 넓은 의미로 사용된다. 예를 들어, 디코더를 구현하는 서브시스템은 디코더 시스템으로 지칭될 수 있으며 그러한 서브시스템을 포함하는 시스템(예를 들어, 다중 입력에 응답하여 X 출력 신호를 생성하는 시스템, 여기에서 서브시스템은 M 개의 입력을 생성하고 나머지 X-M 입력은 외부 소스에서 수신됨) 또한 디코더 시스템으로 지칭될 수 있다.
청구범위를 포함하여 본 개시 전체에 걸쳐, 표현 "프로세서"는 데이터(예를 들어, 오디오 또는 비디오 또는 다른 이미지 데이터)에 대한 동작을 수행하기 위하여 (예를 들어, 소프트웨어 또는 펌웨어를 사용하여) 프로그래밍 가능하거나 다른 방식으로 구성할 수 있는 시스템 또는 디바이스를 나타내는 넓은 의미로 사용된다. 프로세서의 예는 현장 프로그래밍 가능 게이트 어레이(또는 다른 구성 가능한 집적 회로 또는 칩셋), 오디오 또는 다른 사운드 데이터에 대해 파이프라인 처리를 수행하도록 프로그래밍 및/또는 다른 방식으로 구성되는 디지털 신호 프로세서, 프로그래밍 가능 범용 프로세서 또는 컴퓨터 및 프로그래밍 가능 마이크로프로세서 칩 또는 칩셋을 포함한다.
청구범위를 포함하여 본 개시 전체에 걸쳐, 용어 "결합하다(couples)" 또는 "결합된(coupled)"은 직접 또는 간접 연결(connection)을 의미하는 데 사용된다. 따라서, 제1 디바이스가 제2 디바이스에 결합되면, 그 연결은 직접 연결을 통하거나, 다른 디바이스 및 연결을 통한 간접 연결을 통한 것일 수 있다.
본원에서 사용되는 바에 따르면, "스마트 디바이스"는 일반적으로 블루투스(Bluetooth), 지그비(Zigbee), 근거리 통신, 와이파이(Wi-Fi), 광 충실도(light fidelity; Li-Fi), 3G, 4G, 5G 등과 같이 어느 정도 대화식 및/또는 자율적으로 작동할 수 있는 다양한 무선 프로토콜을 통해 하나 이상의 다른 디바이스(또는 네트워크)와 통신하도록 구성된 전자 디바이스이다. 스마트 디바이스의 몇 가지 주목할 만한 유형은 스마트폰, 스마트 자동차, 스마트 온도 조절기, 스마트 초인종, 스마트 잠금 장치, 스마트 냉장고, 패블릿 및 태블릿, 스마트워치, 스마트 밴드, 스마트 키 체인 및 스마트 오디오 디바이스이다. "스마트 디바이스"라는 용어는 또한 인공 지능과 같은 유비쿼터스 컴퓨팅의 일부 속성을 나타내는 디바이스를 지칭할 수도 있다.
본원에서, "스마트 오디오 디바이스"라는 표현을 사용하여 단일 목적 오디오 디바이스 또는 다목적 오디오 디바이스(예를 들어 가상 비서 기능의 적어도 일부 양상을 구현하는 오디오 디바이스)인 스마트 디바이스를 나타낸다. 단일 목적 오디오 디바이스는 적어도 하나의 마이크를 포함하거나 이에 결합되고(그리고 선택적으로 또한 적어도 하나의 스피커 및/또는 적어도 하나의 카메라를 포함하거나 이에 결합되고), 주로 또는 기본적으로 단일 목적을 달성하도록 설계된 디바이스(예를 들어 텔레비전(TV) 또는 휴대 전화)이다. 예를 들어, TV가 일반적으로 프로그램 자료에서 오디오를 재생할 수 있지만(그리고 재생할 수 있는 것으로 생각됨), 대부분의 경우 최신 TV는 TV 시청 애플리케이션을 포함하여 애플리케이션이 로컬로 실행되는 일부 운영 체제를 실행한다. 마찬가지로, 휴대 전화의 오디오 입력 및 출력은 많은 작업을 수행할 수 있지만, 이들은 휴대 전화에서 실행되는 애플리케이션에 의해 처리된다. 이러한 의미에서, 스피커(들) 및 마이크(들)을 갖는 단일 목적 오디오 디바이스는 종종 스피커(들) 및 마이크(들)을 직접 사용하기 위해 로컬 애플리케이션 및/또는 서비스를 실행하도록 구성된다. 일부 단일 목적 오디오 디바이스는 함께 그룹화하여 구역 또는 사용자 구성 영역에서 오디오를 재생하도록 구성될 수 있다.
다목적 오디오 디바이스의 하나의 일반적인 유형은 가상 비서 기능의 적어도 일부 측면을 구현하는 오디오 디바이스이지만, 가상 비서 기능의 다른 양상은 다목적 오디오 디바이스가 통신을 위해 구성된 하나 이상의 서버와 같은 하나 이상의 다른 디바이스에 의해 구현될 수 있다. 이러한 다목적 오디오 디바이스는 본원에서 "가상 비서(virtual assistant)"로 지칭될 수 있다. 가상 비서는 적어도 하나의 마이크를 포함하거나 이에 결합된(그리고 선택적으로 적어도 하나의 스피커 및/또는 적어도 하나의 카메라를 포함하거나 이에 결합된) 디바이스(예를 들어, 스마트 스피커 또는 음성 비서 통합 디바이스)이다. 일부 예에서, 가상 비서는 어떤 의미에서 클라우드 가능하거나 가상 비서 자체 내에서 또는 상에서 완전히 구현되지 않은 애플리케이션에 대해 (가상 비서와 구별되는) 다수의 디바이스를 활용하는 능력을 제공할 수 있다. 달리 말하자면, 가상 비서 기능의 적어도 일부 양상, 예를 들어, 음성 인식 기능이 가상 비서가 인터넷과 같은 네트워크를 통해 통신할 수 있는 하나 이상의 서버 또는 다른 디바이스에 의해 (적어도 부분적으로) 구현될 수 있다. 가상 비서는 때때로 예를 들어 이산적이고 조건부로 정의된 방식으로 함께 작동할 수 있다. 예를 들어, 2개 이상의 가상 비서는 그들 중 하나, 예를 들어 깨우기 단어를 들었다고 가장 확신하는 것이 깨우기 단어에 응답한다는 의미에서 함께 작동할 수 있다. 연결된 가상 비서는, 일부 구현에서, 일종의 집합체를 형성할 수 있으며, 이는 가상 비서일 수 있는(또는 이를 구현하는) 하나의 메인 애플리케이션에 의해 관리될 수 있다.
본원에서, "깨우기 단어(wakeword)"는 임의의 소리(예를 들어 사람이 발화한 단어 또는 어떤 다른 소리)를 나타내기 위해 넓은 의미로 사용되며, 여기에서 스마트 오디오 디바이스는 (스마트 오디오 디바이스에 포함되거나 결합된 적어도 하나의 마이크, 또는 적어도 하나의 다른 마이크를 사용하여) 소리의 ("청각") 감지에 응답하여 깨어나도록 구성된다. 이 맥락에서, "깨우다"는 디바이스가 소리 명령을 기다리는(달리 말하자면, 듣고 있는) 상태로 들어가는 것을 나타낸다. 일부 경우에, 본원에서 "깨우기 단어"로 지칭될 수 있는 것은 하나 이상의 단어, 예를 들어 구(phrase)를 포함할 수 있다.
본원에서, "깨우기 단어 검출기"라는 표현은 실시간 사운드(예를 들어 음성) 특징과 훈련된 모델 간의 정렬을 지속적으로 검색하도록 구성된 디바이스(또는 디바이스를 구성하기 위한 명령을 포함하는 소프트웨어)를 나타낸다. 일반적으로, 깨우기 단어가 검출된 확률이 미리 정의된 임계값을 초과한다고 깨우기 단어 검출기에 의해 결정될 때마다 깨우기 단어 이벤트가 촉발된다. 예를 들어, 임계값은 거짓 수락과 거짓 거부의 비율 사이에 합리적인 절충안을 제공하도록 조정된 미리 결정된 임계값일 수 있다. 깨우기 단어 이벤트에 이어, 디바이스는 명령을 듣고 수신한 명령을 더 크고 계산 집중적인 인식기로 전달하는 상태("깨어난" 상태 또는 "주의" 상태로 지칭할 수 있음)로 들어갈 수 있다.
요약
일부 실시예는 스마트 오디오 디바이스 세트의 스마트 오디오 디바이스 중 적어도 하나(예를 들어 전부 또는 일부) 및/또는 다른 스피커 세트의 스피커 중 적어도 하나(예를 들어 전부 또는 일부)에 의한 오디오의 다중 스트림 재생을 관리하는 방법을 포함한다.
실시예의 부류는 복수의 조정된(편성된) 스마트 오디오 디바이스 중 적어도 하나(예를 들어, 전부 또는 일부)에 의한 재생을 관리하기 위한 방법을 포함한다. 예를 들어, 사용자의 집에 있는 (시스템 내의) 스마트 오디오 디바이스 세트는 스마트 오디오 디바이스의 전부 또는 일부에 의한 (즉, 전부 또는 일부 스피커(들)에 의한) 재생을 위한 유연한 오디오 렌더링을 포함하여, 다양한 동시 사용 사례를 처리하도록 편성될 수 있다.
(예를 들어 가정에서 다양한 동시 사용 사례를 처리하기 위해) 스마트 오디오 디바이스를 편성하는 것은 상호 연결된 스피커 세트를 통한 하나 이상의 오디오 프로그램 스트림의 동시 재생을 수반할 수 있다. 예를 들어, 사용자는 스피커 세트(예를 들어 스마트 오디오 디바이스 세트에 포함되거나 이에 의해 제어됨)를 통해 영화 애트모스(Atmos) 사운드트랙(또는 다른 객체 기반 오디오 프로그램)을 듣고 있을 수 있으며, 사용자는 연관된 스마트 오디오 디바이스(예를 들어, 스마트 비서)에게 명령(예를 들어, 깨우기 단어와 뒤따르는 명령)을 발화할 수 있다. 이 경우, 시스템에 의한 오디오 재생은 프로그램(예를 들어 애트모스 믹스)의 공간적 표현을 화자(말하는 사용자)의 위치로부터 멀리 워프하고 응답에 대응하는 스마트 오디오 디바이스(예를 들어, 음성 비서)의 재생을 화자와 가까운 스피커로 향하게 하도록 (일부 실시예에 따라) 수정될 수 있다. 이것은 명령(또는 대응하는 깨우기 단어)의 검출에 응답하여 오디오 프로그램 콘텐츠의 재생 볼륨을 단순히 줄이는 것과 비교하여 중요한 이점을 제공할 수 있다. 유사하게, 사용자는 인접한 개방된 거실 공간에서 동일한 프로그램(예를 들어 애트모스 사운드트랙)이 재생되는 동안 스피커를 사용하여 주방에서 요리 팁을 얻고 싶을 수 있다. 이 경우, 일부 실시예에 따르면, 프로그램(예를 들어, 애트모스 사운드트랙)의 재생은 주방으로부터 멀어지도록 워프될 수 있고 요리 팁이 주방 근처 또는 주방 내의 스피커에서 재생될 수 있다. 추가적으로, 주방에서 재생되는 요리 팁은 (일부 실시예에 따라) 주방에 있는 사람이 들을 수 있도록 거실 공간에서 흘러나올 수 있는 프로그램(예를 들어, 애트모스 사운드트랙) 중 임의의 것 위로 동적으로 조정될 수 있다.
일부 실시예는 위에서 설명된 예시적인 사용 사례뿐만 아니라 고려되는 수많은 다른 것들을 구현하도록 구성된 다중 스트림 렌더링 시스템이다. 한 부류의 실시예에서, 오디오 렌더링 시스템은 복수의 임의로 배치된 확성기에서 동시 재생을 위해 복수의 오디오 프로그램 스트림을 렌더링(및/또는 스트림을 동시에 재생)하도록 구성될 수 있으며, 여기에서 상기 프로그램 스트림 중 적어도 하나는 공간적 믹스이고 상기 공간적 믹스의 렌더링(또는 렌더링 및 재생)은 하나 이상의 추가 프로그램 스트림의 동시 재생(또는 렌더링 및 재생)에 응답하여(또는 이와 관련하여) 동적으로 수정된다.
일부 구현의 양상은 개시된 방법 또는 그 단계의 임의의 실시예를 수행하도록 구성된 (예를 들어, 프로그래밍된) 시스템 및 개시된 방법 또는 그 단계의 임의의 실시예를 수행하기 위한 코드(예를 들어, 수행하도록 실행 가능한 코드)를 저장하는 데이터(예를 들어, 디스크 또는 다른 유형의 저장 매체)의 비일시적인 저장소를 구현하는 유형의, 비일시적, 컴퓨터 판독 가능 매체를 포함한다. 예를 들어, 일부 실시예는 개시된 방법 또는 그 단계의 실시예를 포함하여, 데이터에 대한 다양한 작업 중 임의의 것을 수행하도록 소프트웨어 또는 펌웨어로 프로그래밍된 및/또는 달리 구성된, 프로그래밍 가능한 범용 프로세서, 디지털 신호 프로세서, 또는 마이크로프로세서이거나 이를 포함할 수 있다. 이러한 범용 프로세서는 입력 디바이스, 메모리 및 주장된 데이터에 대한 응답으로 개시된 방법(또는 그 단계)의 하나 이상의 예를 수행하도록 프로그래밍된(및/또는 달리 구성된) 처리 서브시스템을 포함하는 컴퓨터 시스템이거나 이를 포함할 수 있다.
본 개시의 적어도 일부 양상은 장치를 통해 구현될 수 있다. 예를 들어, 하나 이상의 디바이스가 본원에 개시된 방법을 적어도 부분적으로 수행할 수 있다. 일부 구현에서, 장치는 인터페이스 시스템 및 제어 시스템을 갖는 오디오 처리 시스템이거나 이를 포함한다. 제어 시스템은 하나 이상의 범용 단일 또는 다중 칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그래밍 가능 게이트 어레이(FPGA) 또는 다른 프로그래밍 가능 논리 디바이스, 개별 게이트 또는 트랜지스터 논리, 개별 하드웨어 구성 요소 또는 이들의 조합이 포함될 수 있다.
일부 구현에서, 제어 시스템은 적어도 2개의 렌더링 모듈을 포함하거나 구현한다. 일부 예에 따르면, 제어 시스템은 N개의 렌더링 모듈을 포함하거나 구현할 수 있으며, 여기에서 N은 2보다 큰 정수이다.
일부 예에서, 제1 렌더링 모듈은, 인터페이스 시스템을 통해, 제1 오디오 프로그램 스트림을 수신하도록 구성된다. 일부 경우에, 제1 오디오 프로그램 스트림은 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 제1 오디오 신호를 포함한다. 일부 예에서, 제1 오디오 프로그램 스트림은 채널 데이터 및/또는 공간 메타데이터를 포함하는 제1 공간 데이터를 포함한다. 일부 예에 따르면, 제1 렌더링 모듈은 환경의 스피커를 통한 재생을 위해 제1 오디오 신호를 렌더링하여, 제1 렌더링된 오디오 신호를 생성하도록 구성된다.
일부 구현에서, 제2 렌더링 모듈은, 인터페이스 시스템을 통해, 제2 오디오 프로그램 스트림을 수신하도록 구성된다. 일부 경우에, 제2 오디오 프로그램 스트림은 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 제2 오디오 신호를 포함한다. 일부 예에서, 제2 오디오 프로그램 스트림은 채널 데이터 및/또는 공간 메타데이터를 포함하는 제2 공간 데이터를 포함한다. 일부 예에 따르면, 제2 렌더링 모듈은 환경의 스피커를 통한 재생을 위해 제2 오디오 신호를 렌더링하여, 제2 렌더링된 오디오 신호를 생성하도록 구성된다.
일부 예에 따르면, 제1 렌더링 모듈은 제2 오디오 신호, 제2 렌더링된 오디오 신호 또는 그 특성 중 적어도 하나에 적어도 부분적으로 기초하여 제1 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제1 렌더링된 오디오 신호를 생성하도록 구성된다. 일부 구현에서, 제2 렌더링 모듈은 제1 오디오 신호, 제1 렌더링된 오디오 신호 또는 그 특성 중 적어도 하나에 적어도 부분적으로 기초하여 제2 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제2 렌더링된 오디오 신호를 생성하도록 더 구성된다.
일부 구현에서, 오디오 처리 시스템은 수정된 제1 렌더링된 오디오 신호 및 수정된 제2 렌더링된 오디오 신호를 믹싱하여 믹싱된 오디오 신호를 생성하도록 구성된 믹싱 모듈을 포함한다. 일부 예에서, 제어 시스템은 믹싱된 오디오 신호를 환경의 적어도 일부 스피커에 제공하도록 더 구성된다.
일부 예에 따르면, 오디오 처리 시스템은 하나 이상의 추가 렌더링 모듈을 포함할 수 있다. 일부 예에서, 하나 이상의 추가 렌더링 모듈 각각은, 인터페이스 시스템을 통해, 추가 오디오 프로그램 스트림을 수신하도록 구성될 수 있다. 추가 오디오 프로그램 스트림은 환경의 적어도 하나의 스피커에 의해 재생되도록 스케줄링된 추가 오디오 신호를 포함할 수 있다. 일부 경우에, 하나 이상의 추가 렌더링 모듈의 각각은 환경의 적어도 하나의 스피커를 통한 재생을 위해 추가 오디오 신호를 렌더링하여, 추가 렌더링된 오디오 신호를 생성하도록 구성될 수 있다. 일부 경우에, 하나 이상의 추가 렌더링 모듈의 각각은 제1 오디오 신호, 제1 렌더링된 오디오 신호, 제2 오디오 신호, 제2 렌더링된 오디오 신호 또는 그 특성 중 적어도 하나에 적어도 부분적으로 기초하여 추가 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 추가 렌더링된 오디오 신호를 생성하도록 구성될 수 있다. 일부 그러한 예에서, 믹싱 모듈은 수정된 추가 렌더링된 오디오 신호를 적어도 수정된 제1 렌더링된 오디오 신호 및 수정된 제2 렌더링된 오디오 신호와 믹싱하여, 믹싱된 오디오 신호를 생성하도록 더 구성될 수 있다.
일부 구현에서, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제1 오디오 신호들의 렌더링을 제2 렌더링된 오디오 신호의 렌더링 위치로부터 멀리 워핑하는 것을 수반할 수 있다. 대안적으로 또는 추가적으로, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제2 오디오 신호 또는 제2 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 제1 렌더링된 오디오 신호의 음량을 수정하는 것을 수반할 수 있다.
일부 예에 따르면, 제2 오디오 신호들에 대한 렌더링 프로세스를 수정하는 것은 제2 오디오 신호의 렌더링을 제1 렌더링된 오디오 신호의 렌더링 위치로부터 멀리 워핑하는 것을 수반할 수 있다. 대안적으로, 또는 추가적으로, 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제1 오디오 신호 또는 제1 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 제2 렌더링된 오디오 신호의 음량을 수정하는 것을 수반할 수 있다. 일부 구현에 따르면, 제1 오디오 신호 및/또는 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 스펙트럼 수정, 가청도 기반 수정 및/또는 동적 범위 수정을 수행하는 것을 수반할 수 있다.
일부 예에서, 오디오 처리 시스템은 하나 이상의 마이크를 포함하는 마이크 시스템을 포함할 수 있다. 그러한 일부 예에서, 제1 렌더링 모듈은 마이크 시스템으로부터의 제1 마이크 신호에 적어도 부분적으로 기초하여 제1 오디오 신호에 대한 렌더링 프로세스를 수정하도록 구성될 수 있다. 그러한 일부 예에서, 제2 렌더링 모듈은 제1 마이크 신호에 적어도 부분적으로 기초하여 제2 오디오 신호에 대한 렌더링 프로세스를 수정하도록 구성될 수 있다.
일부 예에 따르면, 제어 시스템은 제1 마이크 신호에 기초하여 제1 음원 위치를 추정하고 제1 음원 위치에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하도록 더 구성될 수 있다. 일부 예에서, 제어 시스템은 제1 마이크 신호가 환경 소음에 대응하는지 여부를 결정하고, 제1 마이크 신호가 환경 소음에 대응하는지 여부에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하도록 더 구성될 수 있다.
일부 예에서, 제어 시스템은 제1 마이크 신호가 사람의 음성에 대응하는지 여부를 결정하고, 제1 마이크 신호가 사람의 음성에 대응하는지 여부에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하도록 구성될 수 있다. 일부 그러한 예에 따르면, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제1 음원 위치로부터 더 먼 스피커에 의해 재생되는 제1 렌더링된 오디오 신호의 음량과 비교하여, 제1 음원 위치 근처의 스피커에 의해 재생되는 제1 렌더링된 오디오 신호의 음량을 감소시키는 것을 수반할 수 있다.
일부 예에 따르면, 제어 시스템은 제1 마이크 신호가 깨우기 단어에 대응한다고 결정하고, 깨우기 단어에 대한 응답을 결정하고, 제1 음원 위치 근처의 적어도 하나의 스피커를 제어하여 응답을 재생하도록 구성될 수 있다. 일부 예에서, 제어 시스템은 제1 마이크 신호가 명령에 대응한다고 결정하고, 명령에 대한 응답을 결정하고, 제1 음원 위치 근처의 적어도 하나의 스피커를 제어하여 응답을 재생하고, 명령을 실행하도록 구성될 수 있다. 일부 예에 따르면, 제어 시스템은 제1 음원 위치 근처의 적어도 하나의 스피커를 제어하여 응답을 재생한 후 제1 오디오 신호에 대한 수정되지 않은 렌더링 프로세스로 되돌리도록 더 구성될 수 있다.
일부 구현에서, 제어 시스템은 제1 마이크 신호에 적어도 부분적으로 기초하여 재생된 제1 오디오 프로그램 스트림 및/또는 재생된 제2 오디오 프로그램 스트림에 대한 음량 추정값을 유도하도록 구성될 수 있다. 일부 예에 따르면, 제어 시스템은 음량 추정값에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하도록 더 구성될 수 있다. 일부 경우에, 음량 추정값은 지각된 음량 추정값일 수 있다. 이러한 일부 예에 따르면, 렌더링 프로세스를 수정하는 것은 간섭 신호의 존재 하에 제1 오디오 신호 및/또는 제2 오디오 신호의 지각된 음량을 보존하기 위하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나를 변경하는 것을 수반할 수 있다.
일부 예에서, 제어 시스템은 제1 마이크 신호가 사람의 음성에 대응한다고 결정하고 제1 음원 위치와 상이한 환경의 위치 근처의 하나 이상의 스피커에서 제1 마이크 신호를 재생하도록 구성될 수 있다. 그러한 일부 예에 따르면, 제어 시스템은 제1 마이크 신호가 어린이의 울음에 대응하는지 여부를 결정하도록 더 구성될 수 있다. 그러한 일부 예에서, 환경의 위치는 돌봄 제공자의 추정된 위치에 대응할 수 있다.
일부 예에 따르면, 제어 시스템은 재생된 제1 오디오 프로그램 스트림 및/또는 재생된 제2 오디오 프로그램 스트림에 대한 음량 추정값을 유도하도록 구성될 수 있다. 그러한 일부 예에서, 제어 시스템은 음량 추정값에 적어도 부분적으로 기초하여 제1 오디오 신호 및/또는 제2 오디오 신호에 대한 렌더링 프로세스를 수정하도록 더 구성될 수 있다. 일부 예에 따르면, 음량 추정값은 지각된 음량 추정값일 수 있다. 렌더링 프로세스를 수정하는 것은 간섭 신호의 존재 하에 지각된 음량을 보존하기 위하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나를 변경하는 것을 수반할 수 있다.
일부 구현에서, 제1 오디오 신호들을 렌더링하는 것 및/또는 제2 오디오 신호들을 렌더링하는 것은 임의로 위치된 스피커에 대한 유연한 렌더링을 수반할 수 있다. 그러한 일부 예에서, 유연한 렌더링은 질량 중심 진폭 패닝(Center of Mass Amplitude Panning) 또는 유연 가상화(Flexible Virtualization)를 포함할 수 있다.
본 개시의 적어도 일부 양상은 하나 이상의 오디오 처리 방법을 통해 구현될 수 있다. 일부 경우에, 방법(들)은 본원에 개시된 것과 같은 제어 시스템에 의해 적어도 부분적으로 구현될 수 있다. 일부 그러한 방법은, 제1 렌더링 모듈에 의해, 제1 오디오 프로그램 스트림을 수신하는 것을 포함하며, 제1 오디오 프로그램 스트림은 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 제1 오디오 신호를 포함한다. 일부 예에서, 제1 오디오 프로그램 스트림은 채널 데이터 및/또는 공간 메타데이터를 포함하는 제1 공간 데이터를 포함한다. 일부 그러한 방법은, 제1 렌더링 모듈에 의해, 환경의 스피커를 통한 재생을 위한 제1 오디오 신호를 렌더링하여, 제1 렌더링된 오디오 신호를 생성하는 것을 수반한다.
이러한 일부 방법은, 제2 렌더링 모듈에 의해, 제2 오디오 프로그램 스트림을 수신하는 것을 포함한다. 일부 예에서, 제2 오디오 프로그램 스트림은 환경의 적어도 하나의 스피커에 의해 재생되도록 스케줄링된 제2 오디오 신호를 포함한다. 이러한 일부 방법은, 제2 렌더링 모듈에 의해, 환경의 적어도 하나의 스피커를 통한 재생을 위한 제2 오디오 신호를 렌더링하여, 제2 렌더링된 오디오 신호를 생성하는 것을 수반한다.
이러한 일부 방법은, 제1 렌더링 모듈에 의해, 제2 오디오 신호, 제2 렌더링된 오디오 신호 또는 그 특성 중 적어도 하나에 적어도 부분적으로 기초하여 제1 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제1 렌더링된 오디오 신호를 생성하는 것을 포함한다. 이러한 일부 방법은, 제2 렌더링 모듈에 의해, 제1 오디오 신호, 제1 렌더링된 오디오 신호 또는 그 특성 중 적어도 하나에 적어도 부분적으로 기초하여 제2 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제2 렌더링된 오디오 신호를 생성하는 단계를 포함한다. 이러한 일부 방법은 수정된 제1 렌더링된 오디오 신호와 수정된 제2 렌더링된 오디오 신호를 믹싱하여 믹싱된 오디오 신호를 생성하고 믹싱된 오디오 신호를 환경의 적어도 일부 스피커에 제공하는 것을 수반한다.
일부 예에 따르면, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제1 오디오 신호의 렌더링을 제2 렌더링된 오디오 신호의 렌더링 위치로부터 멀리 워핑하는 것 및/또는 제2 오디오 신호 또는 제2 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 제1 렌더링된 오디오 신호의 음량을 수정하는 것을 수반할 수 있다.
일부 예에서, 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제2 오디오 신호의 렌더링을 제1 렌더링된 오디오 신호의 렌더링 위치로부터 멀리 워핑하는 것 및/또는 제1 오디오 신호 또는 제1 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 제2 렌더링된 오디오 신호의 음량을 수정하는 것을 수반할 수 있다.
일부 예에 따르면, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 스펙트럼 수정, 가청도 기반 수정 및/또는 동적 범위 수정을 수행하는 것을 수반할 수 있다.
일부 방법은, 제1 렌더링 모듈에 의해, 마이크 시스템으로부터의 제1 마이크 신호에 적어도 부분적으로 기초하여 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것을 수반할 수 있다. 일부 방법은, 제2 렌더링 모듈에 의해, 제1 마이크 신호에 적어도 부분적으로 기초하여 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것을 수반할 수 있다.
일부 방법은 제1 마이크 신호에 기초하여 제1 음원 위치를 추정하고 제1 음원 위치에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하는 것을 수반할 수 있다.
본원에 설명된 동작, 기능 및/또는 방법의 일부 또는 전부는 하나 이상의 비일시적 매체에 저장된 명령(예를 들어 소프트웨어)에 따라 하나 이상의 디바이스에 의해 수행될 수 있다. 이러한 비일시적 매체는 임의 접근 메모리(RAM) 디바이스, 읽기 전용 메모리(ROM) 디바이스 등을 포함하지만 이에 제한되지 않는, 본원에 설명된 것과 같은 메모리 디바이스를 포함할 수 있다. 따라서, 이 개시에 설명된 주제의 일부 혁신적인 양상은 소프트웨어가 저장된 비일시적 매체에서 구현될 수 있다.
예를 들어, 소프트웨어는 제1 렌더링 모듈에 의해 제1 오디오 프로그램 스트림을 수신하는 것을 포함하는 방법을 수행하도록 하나 이상의 디바이스를 제어하기 위한 명령을 포함할 수 있으며, 제1 오디오 프로그램 스트림은 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 제1 오디오 신호를 포함한다. 일부 예에서, 제1 오디오 프로그램 스트림은 채널 데이터 및/또는 공간 메타데이터를 포함하는 제1 공간 데이터를 포함한다. 일부 그러한 방법은, 제1 렌더링 모듈에 의해, 환경의 스피커를 통한 재생을 위한 제1 오디오 신호를 렌더링하여, 제1 렌더링된 오디오 신호를 생성하는 것을 포함한다.
이러한 방법 중 일부는, 제2 렌더링 모듈에 의해, 제2 오디오 프로그램 스트림을 수신하는 것을 포함한다. 일부 예에서, 제2 오디오 프로그램 스트림은 환경의 적어도 하나의 스피커에 의해 재생되도록 스케줄링된 제2 오디오 신호를 포함한다. 이러한 일부 방법은, 제2 렌더링 모듈에 의해, 환경의 적어도 하나의 스피커를 통한 재생을 위한 제2 오디오 신호를 렌더링하여, 제2 렌더링된 오디오 신호를 생성하는 것을 포함한다.
이러한 일부 방법은, 제1 렌더링 모듈에 의해, 제2 오디오 신호, 제2 렌더링된 오디오 신호 또는 그 특성 중 적어도 하나에 적어도 부분적으로 기초하여 제1 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제1 렌더링된 오디오 신호를 생성하는 것을 포함한다. 이러한 일부 방법은, 제2 렌더링 모듈에 의해, 제1 오디오 신호, 제1 렌더링된 오디오 신호 또는 그 특성 중 적어도 하나에 적어도 부분적으로 기초하여 제2 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제2 렌더링된 오디오 신호를 생성하는 단계를 포함한다. 이러한 일부 방법은 수정된 제1 렌더링된 오디오 신호와 수정된 제2 렌더링된 오디오 신호를 믹싱하여 믹싱된 오디오 신호를 생성하고 믹싱된 오디오 신호를 환경의 적어도 일부 스피커에 제공하는 것을 포함한다.
일부 예에 따르면, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제1 오디오 신호의 렌더링을 제2 렌더링된 오디오 신호의 렌더링 위치로부터 멀리 워핑하는 것 및/또는 제2 오디오 신호 또는 제2 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 제1 렌더링된 오디오 신호의 음량을 수정하는 것을 수반할 수 있다.
일부 예에서, 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제2 오디오 신호의 렌더링을 제1 렌더링된 오디오 신호의 렌더링 위치로부터 멀리 워핑하는 것 및/또는 제1 오디오 신호 또는 제1 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 제2 렌더링된 오디오 신호의 음량을 수정하는 것을 수반할 수 있다.
일부 예에 따르면, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 스펙트럼 수정, 가청도 기반 수정 및/또는 동적 범위 수정을 수행하는 것을 수반할 수 있다.
일부 방법은, 제1 렌더링 모듈에 의해, 마이크 시스템으로부터의 제1 마이크 신호에 적어도 부분적으로 기초하여 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것을 수반할 수 있다. 일부 방법은, 제2 렌더링 모듈에 의해, 제1 마이크 신호에 적어도 부분적으로 기초하여 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것을 포함할 수 있다.
일부 방법은 제1 마이크 신호에 기초하여 제1 음원 위치를 추정하고 제1 음원 위치에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하는 것을 수반할 수 있다.
이 명세서에 기술된 주제의 하나 이상의 구현에 대한 세부 사항은 첨부 도면 및 아래의 설명에 설명되어 있다. 다른 특징, 양상 및 이점은 상세한 설명, 도면 및 청구범위로부터 명백해질 것이다. 다음 도면의 상대적 치수는 축척에 맞게 그려지지 않을 수 있다.
도 1a는 이 개시의 다양한 양상을 구현할 수 있는 장치의 구성요소의 예를 도시하는 블록도이다.
도 1b는 실시예의 최소 버전의 블록도이다.
도 2a는 추가 특징을 갖는 다른 (더 많은 기능이 있는) 실시예를 도시한다.
도 2b는 도 1a, 도 1b 또는 도 2a에 도시된 것과 같은 장치 또는 시스템에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타낸 흐름도이다.
도 2c 및 도 2d는 스피커 활성화 및 객체 렌더링 위치의 예시적인 세트를 나타내는 도면이다.
도 2e는 도 1a에 도시된 것과 같은 장치 또는 시스템에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타낸 흐름도이다.
도 2f는 예시적인 실시예에서 스피커 활성화의 그래프이다.
도 2g는 예시적인 실시예에서 객체 렌더링 위치의 그래프이다.
도 2h는 예시적인 실시예에서 스피커 활성화의 그래프이다.
도 2i는 예시적인 실시예에서 객체 렌더링 위치의 그래프이다.
도 2j는 예시적인 실시예에서 스피커 활성화의 그래프이다.
도 2h는 예시적인 실시예에서 스피커 활성화의 그래프이다.
도 2i는 예시적인 실시예에서 객체 렌더링 위치의 그래프이다.
도 2j는 예시적인 실시예에서 스피커 활성화의 그래프이다.
도 2k는 예시적인 실시예에서 객체 렌더링 위치의 그래프이다.
도 3a 및 도 3b는 연결된 생활 공간의 평면도의 예를 도시한다.
도 4a 및 도 4b는 공간적 음악 믹스 및 음성 비서 응답의 동시 재생을 제공하는 다중 스트림 렌더러의 예를 도시한다.
도 5a, 도 5b 및 도 5c는 개시된 다중 스트림 렌더러에 대한 제3 예시적인 사용 사례를 도시한다.
도 6은 도 1b에 도시된 다중 스트림 렌더러의 주파수/변환 도메인 예를 도시한다.
도 7은 도 2a에 도시된 다중 스트림 렌더러의 주파수/변환 도메인 예를 도시한다.
도 8은 오디오 스트림 음량 추정기를 갖는 다중 스트림 렌더링 시스템의 구현을 도시한다.
도 9a는 다중 렌더링된 스트림의 교차페이드를 위해 구성된 다중 스트림 렌더링 시스템의 예를 도시한다.
도 9b는 예시적인 실시예에서, 스피커 활성화를 나타내는 점의 그래프이다.
도 10은 일 예에 따른 스피커 활성화를 나타내는 점 사이의 3선형 보간 그래프이다.
도 11은 이 예에서 생활 공간인 청취 환경의 평면도를 도시한다.
도 12a, 도 12b, 도 12c 및 도 12d는 도 11에 도시된 생활 공간에서 복수의 상이한 청취 위치 및 방위에 대한 기준 공간 모드에서 공간적 오디오를 유연하게 렌더링하는 예를 도시한다.
도 12e는 두 명의 청취자가 청취 환경의 상이한 위치에 있을 때 기준 공간 모드 렌더링의 예를 도시한다.
도 13a는 청취자의 위치 및 방위에 관한 사용자 입력을 수신하기 위한 그래픽 사용자 인터페이스(GUI)의 예를 도시한다.
도 13b는 예시적인 일 실시예에 따른 분산 공간 렌더링 모드를 도시한다.
도 14a는 일 예에 따른 부분적으로 분산된 공간 렌더링 모드를 도시한다.
도 14b는 일 예에 따른 완전 분산된 공간 렌더링 모드를 도시한다.
도 15는 2D 평면에서 질량 중심 진폭 패닝(CMAP) 및 유연 가상화(FV) 렌더링 시스템에 대한 예시적인 렌더링 위치를 도시한다.
도 16a, 도 16b 및 도 16c는 도 15에 나타낸 분산 공간 모드와 도 16d에 나타낸 분산 공간 모드 사이의 중간 분산 공간 모드의 다양한 예를 도시한다.
도 16d는 완전히 분산된 렌더링 모드를 달성하기 위해 도 15의 모든 렌더링 점에 적용된 워프(warp)의 예를 도시한다.
도 17은 사용자가 렌더링 모드를 선택할 수 있는 GUI의 예를 도시한다.
도 18은 본원에 개시된 것과 같은 장치 또는 시스템에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타내는 흐름도이다.
도 19는 환경 내의 3개의 오디오 디바이스 사이의 기하학적 관계의 예를 도시한다.
도 20은 도 19에 도시된 환경에서 3개의 오디오 디바이스 사이의 기하학적 관계의 다른 예를 도시한다.
도 21a는 도 19 및 도 20에 도시된 삼각형 둘 모두를 대응하는 오디오 디바이스 및 환경의 다른 특징이 없이 도시한다.
도 21b는 3개의 오디오 디바이스에 의해 형성되는 삼각형의 내각을 추정하는 예를 도시한다.
도 22는 도 1a에 도시된 것과 같은 장치에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타낸 흐름도이다.
도 23은 환경 내의 각 오디오 디바이스가 여러 삼각형의 꼭지점인 예를 도시한다.
도 24는 정방향 정렬 프로세스의 일부에 대한 예를 제공한다.
도 25는 정방향 정렬 프로세스 동안 발생한 오디오 디바이스 위치에 대한 다중 추정의 예를 도시한다.
도 26은 역방향 정렬 프로세스의 일부에 대한 예를 제공한다.
도 27은 역방향 정렬 프로세스 동안 발생한 오디오 디바이스 위치에 대한 다중 추정의 예를 도시한다.
도 28은 추정 및 실제 오디오 디바이스 위치의 비교를 도시한다.
도 29는 도 1a에 도시된 것과 같은 장치에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타내는 흐름도이다.
도 30a는 도 29의 일부 블록의 예를 도시한다.
도 30b는 청취자 각도 방위 데이터를 결정하는 추가 예를 도시한다.
도 30c는 청취자 각도 방위 데이터를 결정하는 추가 예를 도시한다.
도 30d는 도 30c를 참조하여 설명된 방법에 따라 오디오 디바이스 좌표에 대한 적절한 회전을 결정하는 예를 도시한다.
도 31은 이 개시의 다양한 양상을 구현할 수 있는 시스템의 구성요소의 예를 도시하는 블록도이다.
도 32a, 도 32b 및 도 32c는 재생 제한 임계값 및 대응하는 주파수의 예를 도시한다.
도 33a 및 33b는 동적 범위 압축 데이터의 예를 나타내는 그래프이다.
도 34는 청취 환경의 공간 구역의 예를 도시한다.
도 35는 도 34의 공간 구역 내 확성기의 예를 도시한다.
도 36은 도 35의 공간 구역과 스피커에 중첩된 공칭 공간 위치의 예를 도시한다.
도 37은 본원에 개시된 것과 같은 장치 또는 시스템에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타내는 흐름도이다.
도 38a, 도 38b 및 도 38c는 도 2c 및 도 2d의 예에 대응하는 확성기 참여 값의 예를 도시한다.
도 39a, 도 39b 및 도 39c는 도 2f 및 도 2g의 예에 대응하는 확성기 참여 값의 예를 도시한다.
도 40a, 도 40b 및 도 40c는 도 2h 및 도 2i의 예에 대응하는 확성기 참여 값의 예를 도시한다.
도 41a, 도 41b 및 도 41c는 도 2j 및 도 2k의 예에 대응하는 확성기 참여 값의 예를 도시한다.
도 42는 이 예에서 생활 공간인 환경을 나타내는 도면이다.
다양한 도면에서 유사한 참조 번호 및 명칭은 유사한 요소를 나타낸다.
유연한 렌더링은 임의로 배치된 임의의 수의 스피커에 공간적 오디오를 렌더링하는 기술이다. 스마트 오디오 디바이스(예를 들어 스마트 스피커)가 가정에 널리 보급됨에 따라, 소비자가 스마트 오디오 디바이스를 사용하여 오디오의 유연한 렌더링 및 그렇게 렌더링된 오디오의 재생을 수행할 수 있는 유연한 렌더링 기술의 구현이 필요하다.
질량 중심 진폭 패닝(CMAP) 및 유연 가상화(FV)를 포함하여 유연한 렌더링을 구현하기 위해 여러 기술이 개발되었다. 이 두 기술 모두 렌더링 문제를 비용 함수 최소화 중 하나로 계산하며, 여기에서 비용 함수는 두 개의 항으로 구성된다. 제1 항은 렌더러가 달성하고자 하는 원하는 공간적 인상을 모델링하고, 제2 항은 스피커를 활성화하는 비용을 할당한다. 현재까지 이 제2항은 렌더링되는 오디오의 원하는 공간 위치에 매우 근접한 스피커만이 활성화되는 희소 해를 생성하는 데 중점을 두었다.
본 개시의 일부 실시예는 스마트 오디오 디바이스 세트의 스마트 오디오 디바이스 중 적어도 하나(예를 들어, 전부 또는 일부)에 의한 (또는 다른 스피커 세트 스피커 중 적어도 하나(예를 들어, 전부 또는 일부)에 의한) 다중 오디오 스트림의 재생을 관리하는 방법이다.
실시예의 부류는 복수의 조정된(편성된) 스마트 오디오 디바이스 중 적어도 하나(예를 들어, 전부 또는 일부)에 의한 재생을 관리하는 방법을 포함한다. 예를 들어, 사용자의 집 내에 (시스템 내에) 있는 스마트 오디오 디바이스 세트는 스마트 오디오 디바이스의 전부 또는 일부에 의한 (즉, 스피커(들) 전부 또는 일부에 의한) 재생을 위한 오디오의 유연한 렌더링을 포함하여, 다양한 동시 사용 사례를 처리하도록 편성될 수 있다.
(예를 들어, 가정에서 다양한 동시 사용 사례를 처리하기 위해) 스마트 오디오 디바이스를 편성하는 것은 상호 연결된 스피커 세트를 통해 하나 이상의 오디오 프로그램 스트림을 동시에 재생하는 것을 수반할 수 있다. 예를 들어, 사용자는 스피커 세트를 통해 영화 애트모스(Atmos) 사운드트랙(또는 다른 객체 기반 오디오 프로그램)을 듣고 있을 수 있지만, 그런 다음 사용자는 연관된 스마트 비서(또는 다른 스마트 오디오 디바이스)에 명령을 말할 수 있다. 이 경우, 스마트 오디오 디바이스의(음성 비서의) 대응하는 응답의 재생을 화자의 위치를 향해 워프(warp)하는 동시에, 시스템에 의한 오디오 재생은 애트모스 믹스의 공간적 표현을 화자(말하는 사용자)의 위치로부터 멀리 그리고 가장 가까운 스마트 오디오 디바이스로부터 멀리 워프하도록 (일부 실시예에 따라) 수정될 수 있다. 이는 명령(또는 대응하는 깨우기 단어)의 검출에 응답하여 오디오 프로그램 콘텐츠의 재생 볼륨을 단순히 줄이는 것과 비교하여 중요한 이점을 제공할 수 있다. 유사하게, 사용자는 동일한 애트모스 사운드트랙이 인접한 열린 거실 공간에서 재생되는 동안 스피커를 사용하여 주방에서 요리 팁을 얻고 싶어할 수 있다. 이 경우, 일부 예에 따르면, 애트모스 사운드트랙이 주방에서 멀어지도록 워프되거나 및/또는 애트모스 사운드트랙의 하나 이상의 렌더링된 신호의 음량이 요리 팁 사운드트랙의 하나 이상의 렌더링된 신호의 음량에 응답하여 수정될 수 있다. 또한, 일부 구현에서는 주방에서 재생되는 요리 팁을 주방에 있는 사람이 들을 수 있도록 거실 공간에서 흘러나올 수 있는 애트모스 사운드트랙보다 높게 동적으로 조정할 수 있다.
일부 실시예는 위에 설명된 예시적인 사용 사례 및 고려 중인 수많은 다른 경우를 구현하도록 구성된 멀티스트림 렌더링 시스템을 포함한다. 한 부류의 실시예에서, 오디오 렌더링 시스템은 복수의 임의로 배치된 확성기를 통해 복수의 오디오 프로그램 스트림을 동시에 재생하도록 구성될 수 있으며, 여기에서 상기 프로그램 스트림 중 적어도 하나는 공간적 믹스이고 상기 공간적 믹스의 렌더링은 하나 이상의 추가 프로그램 스트림의 동시 재생에 응답하여 (또는 이와 관련하여) 동적으로 수정된다.
일부 실시예에서, 다중 스트림 렌더러는 위에 제시된 시나리오 및 다중 오디오 프로그램 스트림의 동시 재생이 관리되어야 하는 수많은 다른 경우를 구현하도록 구성될 수 있다. 다중 스트림 렌더링 시스템의 일부 구현은 다음 작업을 수행하도록 구성될 수 있다.
* 임의로 배치된 다수의 확성기를 통해 다수의 오디오 프로그램 스트림을 동시에 렌더링 및 재생하며, 상기 프로그램 스트림 중 적어도 하나는 공간적 믹스이다.
o 프로그램 스트림이라는 용어는 전체적으로 함께 들을 수 있는 하나 이상의 오디오 신호의 모음을 지칭한다. 예를 들어 음악 선집, 영화 사운드트랙, 팟캐스트, 라이브 음성 통화, 스마트 비서의 합성 음성 응답 등이 있다.
o 공간적 믹스는 청취자의 왼쪽 귀와 오른쪽 귀에 (모노보다 많은) 상이한 신호를 전달하기 위한 프로그램 스트림이다. 공간적 믹스를 위한 오디오 형식의 예로는 스테레오, 5.1 및 7.1 서라운드 사운드, 돌비(Dolby) 애트모스와 같은 객체 오디오 형식 및 앰비소닉(Ambisonics)이 있다.
o 프로그램 스트림을 렌더링하는 것은 특정 지각 인상(perceptual impression)을 달성하기 위해 복수의 확성기에 걸쳐 연관된 하나 이상의 오디오 신호를 능동적으로 분배하는 프로세스를 지칭한다.
* 하나 이상의 추가 프로그램 스트림의 렌더링 기능으로서 적어도 하나의 공간적 믹스의 렌더링을 동적으로 수정한다. 공간적 믹스의 렌더링에 대한 이러한 수정의 예는 다음을 포함하지만, 이에 제한되지는 않는다.
o 하나 이상의 추가 프로그램 스트림 중 적어도 하나의 렌더링과 연관된 확성기의 상대적 활성화의 함수로서 복수의 확성기의 상대적 활성화를 수정하는 것.
o 하나 이상의 추가 프로그램 스트림 중 적어도 하나의 렌더링의 공간 속성의 함수로서 공간적 믹스의 의도된 공간 균형을 워프하는 것.
o 하나 이상의 추가 프로그램 스트림 중 적어도 하나의 음량 또는 가청도의 함수로서 공간적 믹스의 음량 또는 가청도를 수정하는 것.
도 1a는 이 개시의 다양한 양상을 구현할 수 있는 장치의 구성요소의 예를 도시하는 블록도이다. 일부 예에 따르면, 장치(100)는 본원에 개시된 방법 중 적어도 일부를 수행하도록 구성된 스마트 오디오 디바이스이거나 이를 포함할 수 있다. 다른 구현에서, 장치(100)는 랩톱 컴퓨터, 휴대 전화, 태블릿 디바이스, 스마트 홈 허브 등과 같은 본원에 개시된 방법 중 적어도 일부를 수행하도록 구성된 다른 디바이스이거나 이를 포함할 수 있다. 일부 이러한 구현에서 장치(100)는 서버이거나 서버를 포함할 수 있다. 일부 구현에서 장치(100)는 본원에서 "오디오 세션 관리자"로 지칭될 수 있는 것을 구현하도록 구성될 수 있다.
이 예에서, 장치(100)는 인터페이스 시스템(105) 및 제어 시스템(110)을 포함한다. 인터페이스 시스템(105)은, 일부 구현에서, 소프트웨어 애플리케이션을 실행하거나, 실행하도록 구성된 하나 이상의 디바이스와 통신하도록 구성될 수 있다. 이러한 소프트웨어 애플리케이션은 본원에서 때때로 "애플리케이션" 또는 간단히 "앱"으로 지칭될 수 있다. 인터페이스 시스템(105)은, 일부 구현에서, 애플리케이션에 관한 제어 정보 및 연관된 데이터를 교환하도록 구성될 수 있다. 인터페이스 시스템(105)은, 일부 구현에서, 오디오 환경의 하나 이상의 다른 디바이스들과의 통신을 위해 구성될 수 있다. 오디오 환경은, 일부 예에서, 홈 오디오 환경일 수 있다. 인터페이스 시스템(105)은, 일부 구현에서, 오디오 환경의 오디오 디바이스와 제어 정보 및 연관된 데이터를 교환하도록 구성될 수 있다. 일부 예에서, 제어 정보 및 연관된 데이터는 장치(100)가 통신을 위해 구성되는 하나 이상의 애플리케이션들에 관련될 수 있다.
인터페이스 시스템(105)은, 일부 구현에서, 오디오 프로그램 스트림을 수신하도록 구성될 수 있다. 오디오 프로그램 스트림은 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 오디오 신호를 포함할 수 있다. 오디오 프로그램 스트림은 채널 데이터 및/또는 공간 메타데이터와 같은 공간 데이터를 포함할 수 있다. 인터페이스 시스템(105)은, 일부 구현에서, 환경 내의 하나 이상의 마이크로부터 입력을 수신하도록 구성될 수 있다.
인터페이스 시스템(105)은 하나 이상의 네트워크 인터페이스 및/또는 (하나 이상의 USB(Universal Serial Bus) 인터페이스와 같은) 하나 이상의 외부 디바이스 인터페이스를 포함할 수 있다. 일부 구현에 따르면, 인터페이스 시스템(105)은 하나 이상의 무선 인터페이스를 포함할 수 있다. 인터페이스 시스템(105)은 하나 이상의 마이크, 하나 이상의 스피커, 디스플레이 시스템, 터치 센서 시스템 및/또는 제스처 센서 시스템과 같은 사용자 인터페이스를 구현하기 위한 하나 이상의 디바이스를 포함할 수 있다. 일부 예에서, 인터페이스 시스템(105)은 제어 시스템(110)과 도 1a에 도시된 선택적 메모리 시스템(115)과 같은 메모리 시스템 사이의 하나 이상의 인터페이스를 포함할 수 있다. 그러나, 제어 시스템(110)은 경우에 따라 메모리 시스템을 포함할 수 있다.
제어 시스템(110)은, 예를 들어, 범용 단일 또는 다중 칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그램 가능 게이트 어레이(FPGA) 또는 다른 프로그램 가능 논리 디바이스, 이산 게이트 또는 트랜지스터 논리 및/또는 이산 하드웨어 구성요소를 포함할 수 있다.
일부 구현에서, 제어 시스템(110)은 하나보다 많은 디바이스에 상주할 수 있다. 예를 들어, 제어 시스템(110)의 일부는 본원에 묘사된 환경 중 하나 내의 디바이스에 상주할 수 있고 제어 시스템(110)의 다른 일부는 서버, 모바일 디바이스(예를 들어, 스마트폰 또는 태블릿 컴퓨터) 등과 같은 환경 외부의 디바이스에 상주할 수 있다. 다른 예에서, 제어 시스템(110)의 일부는 본원에 묘사된 환경 중 하나 내의 디바이스에 상주할 수 있고 제어 시스템(110)의 다른 일부는 환경의 하나 이상의 다른 디바이스에 상주할 수 있다. 예를 들어, 제어 시스템 기능은 환경의 여러 스마트 오디오 디바이스에 걸쳐 분산될 수 있거나, (본원에서 스마트 홈 허브로 지칭될 수 있는 것과 같은) 편성 장치 및 환경의 하나 이상의 다른 디바이스에 의해 공유될 수 있다. 인터페이스 시스템(105)은 또한, 일부 그러한 예에서, 하나보다 많은 디바이스에 상주할 수 있다.
일부 구현에서, 제어 시스템(110)은 본원에 개시된 방법을 적어도 부분적으로 수행하도록 구성될 수 있다. 일부 예에 따르면, 제어 시스템(110)은 다중 스피커를 통해 오디오의 다중 스트림의 재생을 관리하는 방법을 구현하도록 구성될 수 있다.
본원에 설명된 방법의 일부 또는 전부는 하나 이상의 비일시적 매체에 저장된 명령(예를 들어 소프트웨어)에 따라 하나 이상의 디바이스에 의해 수행될 수 있다. 이러한 비일시적 매체는 임의 접근 메모리(RAM) 디바이스, 읽기 전용 메모리(ROM) 디바이스 등을 포함하지만 이에 제한되지 않는, 본원에 설명된 것과 같은 메모리 디바이스를 포함할 수 있다. 하나 이상의 비일시적 매체는, 예를 들어, 도 1a에 도시된 선택적 메모리 시스템(115) 및/또는 제어 시스템(110)에 상주할 수 있다. 따라서, 이 개시에서 설명된 주제의 다양한 혁신적인 양상은 소프트웨어가 저장된 하나 이상의 비일시적 매체에서 구현될 수 있다. 소프트웨어는, 예를 들어, 오디오 데이터를 처리하기 위해 적어도 하나의 디바이스를 제어하기 위한 명령을 포함할 수 있다. 소프트웨어는, 예를 들어, 도 1a의 제어 시스템(110)과 같은 제어 시스템의 하나 이상의 구성요소에 의해 실행될 수 있다.
일부 예에서, 장치(100)는 도 1a에 도시된 선택적 마이크 시스템(120)을 포함할 수 있다. 선택적 마이크 시스템(120)은 하나 이상의 마이크를 포함할 수 있다. 일부 구현에서, 하나 이상의 마이크는 스피커 시스템의 스피커, 스마트 오디오 디바이스 등과 같은 다른 장치의 일부이거나 이와 연관될 수 있다. 일부 예에서, 장치(100)는 마이크 시스템(120)을 포함하지 않을 수 있다. 그러나, 일부 그러한 구현에서, 장치(100)는 그럼에도 불구하고 인터페이스 시스템(110)을 통해 오디오 환경에서 하나 이상의 마이크에 대한 마이크 데이터를 수신하도록 구성될 수 있다.
일부 구현에 따르면, 장치(100)는 도 1a에 도시된 선택적 확성기 시스템(125)을 포함할 수 있다. 선택적 확성기 시스템(125)은 하나 이상의 확성기를 포함할 수 있으며, 이는 본원에서 또한 "스피커"로 지칭될 수 있다. 일부 예에서, 선택적 확성기 시스템(125)의 적어도 일부 확성기는 임의로 위치될 수 있다. 예를 들어, 선택적 확성기 시스템(125)의 적어도 일부 스피커는 돌비 5.1, 돌비 5.1.2, 돌비 7.1, 돌비 7.1.4, 돌비 9.1, 하마사키(Hamasaki) 22.2 등과 같은 임의의 표준 규정 확성기 레이아웃에 대응하지 않는 위치에 배치될 수 있다. 일부 그러한 예에서, 선택적 스피커 시스템(125)의 적어도 일부 확성기는 공간에 편리한 위치(예를 들어, 확성기를 수용할 공간이 있는 위치)이지만, 임의의 표준 규정 확성기 레이아웃이 아닌 위치에 배치될 수 있다. 일부 예에서, 장치(100)는 확성기 시스템(125)을 포함하지 않을 수 있다.
일부 구현에서, 장치(100)는 도 1a에 도시된 선택적 센서 시스템(129)을 포함할 수 있다. 선택적 센서 시스템(129)은 하나 이상의 카메라, 터치 센서, 제스처 센서, 모션 검출기 등을 포함할 수 있다. 일부 구현에 따르면, 선택적 센서 시스템(129)은 하나 이상의 카메라를 포함할 수 있다. 일부 구현에서, 카메라는 독립형 카메라일 수 있다. 일부 예에서, 선택적 센서 시스템(129)의 하나 이상의 카메라는 단일 목적 오디오 디바이스 또는 가상 비서일 수 있는 스마트 오디오 디바이스에 상주할 수 있다. 그러한 일부 예에서, 선택적 센서 시스템(129)의 하나 이상의 카메라는 TV, 휴대 전화 또는 스마트 스피커에 상주할 수 있다. 일부 예에서, 장치(100)는 센서 시스템(129)을 포함하지 않을 수 있다. 그러나, 일부 이러한 구현에서, 장치(100)는 그럼에도 불구하고 인터페이스 시스템(110)을 통해 오디오 환경에서 하나 이상의 센서에 대한 센서 데이터를 수신하도록 구성될 수 있다.
일부 구현에서, 장치(100)는 도 1a에 도시된 선택적 디스플레이 시스템(135)을 포함할 수 있다. 선택적 디스플레이 시스템(135)은 하나 이상의 발광 다이오드(LED) 디스플레이와 같은 하나 이상의 디스플레이를 포함할 수 있다. 일부 경우에, 선택적 디스플레이 시스템(135)은 하나 이상의 유기 발광 다이오드(OLED) 디스플레이를 포함할 수 있다. 장치(100)가 디스플레이 시스템(135)을 포함하는 일부 예에서, 센서 시스템(129)은 디스플레이 시스템(135)의 하나 이상의 디스플레이에 근접한 터치 센서 시스템 및/또는 제스처 센서 시스템을 포함할 수 있다. 일부 이러한 구현에 따르면, 제어 시스템(110)은 하나 이상의 그래픽 사용자 인터페이스(GUI)를 제시하도록 디스플레이 시스템(135)을 제어하도록 구성될 수 있다.
일부 그러한 예에 따르면 장치(100)는 스마트 오디오 디바이스이거나 이를 포함할 수 있다. 일부 그러한 구현에서 장치(100)는 깨우기 단어 검출기이거나 이를 포함할 수 있다. 예를 들어, 장치(100)는 가상 비서이거나 이를 포함할 수 있다.
도 1b는 실시예의 최소 버전의 블록도이다. N개의 프로그램 스트림(N≥2)이 표시되며, 제1은 공간적인 것으로 명시적으로 표시되고, 대응하는 오디오 신호의 컬렉션은 M개의 임의 배치된 확성기(M≥2)의 공통 세트에 대해 대응하는 프로그램 스트림의 재생을 위해 개별적으로 구성된 대응하는 렌더러를 통해 공급된다. 렌더러는 또한 본원에서 "렌더링 모듈"로 지칭될 수 있다. 렌더링 모듈 및 믹서(130a)는 소프트웨어, 하드웨어, 펌웨어 또는 이들의 일부 조합을 통해 구현될 수 있다. 이 예에서, 렌더링 모듈 및 믹서(130a)는 도 1a를 참조하여 위에서 설명된 제어 시스템(110)의 인스턴스인 제어 시스템(110a)을 통해 구현된다. N개의 렌더러 각각은 M개의 확성기 피드 세트를 출력하고 이들은 M개의 확성기에서 동시 재생을 위해 모든 N개의 렌더러에 걸쳐 합산된다. 이 구현에 따르면, 청취 환경 내의 M개의 확성기의 레이아웃에 대한 정보는 확성기 블록으로부터 피드백되는 점선으로 표시된 것처럼, 모든 렌더러에 제공되어, 렌더러가 스피커를 통해 재생하도록 적절하게 구성될 수 있다. 이 레이아웃 정보는 특정 구현에 따라, 하나 이상의 스피커 자체로부터 전송되거나 전송되지 않을 수 있다. 일부 예에 따르면, 레이아웃 정보는 청취 환경에서 M개의 확성기 각각의 상대적인 위치를 결정하도록 구성된 하나 이상의 스마트 스피커에 의해 제공될 수 있다. 일부 이러한 자동 위치 지정 방법은 도착 방향(direction of arrival; DOA) 방법 또는 도착 시간(time of arrival; TOA) 방법에 기초할 수 있다. 다른 예에서, 이 레이아웃 정보는 다른 디바이스에 의해 결정될 수 있거나 및/또는 사용자에 의해 입력될 수 있다. 일부 예에서, 청취 환경 내의 M개의 확성기 중 적어도 일부의 능력에 대한 확성기 사양 정보가 모든 렌더러에 제공될 수 있다. 이러한 확성기 사양 정보는 임피던스, 주파수 응답, 감도, 전력 등급, 개별 드라이버의 수 및 위치 등을 포함할 수 있다. 이 예에 따르면, 하나 이상의 추가 프로그램 스트림의 렌더링으로부터 정보가 기본 공간 스트림의 렌더러에 공급되어 상기 렌더링이 상기 정보의 함수로서 동적으로 수정될 수 있다. 이 정보는 렌더 블록 2 내지 N으로부터 렌더 블록 1까지 이어지는 점선으로 표시된다.
도 2a는 추가적인 특징을 갖는 다른 (더 많은 능력이 있는) 실시예를 도시한다. 이 예에서, 렌더링 모듈 및 믹서(130b)는 도 1a를 참조하여 위에서 설명된 제어 시스템(110)의 인스턴스인 제어 시스템(110b)을 통해 구현된다. 이 버전에서 모든 N개의 렌더러 사이에서 위아래로 이동하는 점선은 N개의 렌더러 중 임의의 하나가 나머지 N-1개의 렌더러 중 임의의 것의 동적 수정에 기여할 수 있다는 아이디어를 나타낸다. 달리 말하자면, N개의 프로그램 스트림 중 임의의 하나의 렌더링이 나머지 N-1개의 프로그램 스트림 중 임의의 것의 하나 이상의 렌더링의 조합의 함수로서 동적으로 수정될 수 있다. 또한, 프로그램 스트림 중 임의의 하나 이상은 공간적 믹스일 수 있으며, 공간적 여부에 관계없이 임의의 프로그램 스트림의 렌더링은 다른 프로그램 스트림 중 임의의 것의 함수로서 동적으로 수정될 수 있다. 확성기 레이아웃 정보는, 예를 들어 위에서 언급한 바와 같이, N개의 렌더러에 제공될 수 있다. 일부 예에서, 확성기 사양 정보가 N개의 렌더러에 제공될 수 있다. 일부 구현에서, 마이크 시스템(120a)은 청취 환경 내에 K개의 마이크의 세트(K≥1)를 포함할 수 있다. 일부 예에서, 마이크(들)은 확성기 중 하나 이상에 부착되거나 그와 연관될 수 있다. 이러한 마이크는 실선으로 표시된 캡처된 오디오 신호와 점선으로 표시된 추가 구성 정보(예를 들어 해당 위치)를 모두 N개의 렌더러 세트로 다시 공급할 수 있다. N개의 렌더러 중 임의의 것이 이 추가 마이크 입력의 함수로서 동적으로 수정될 수 있다. 다양한 예가 본원에 제공된다.
마이크 입력으로부터 유도되고 N개의 렌더러를 동적으로 수정하는 데 사용되는 정보의 예는 다음을 포함하지만 이에 제한되지 않는다:
* 시스템 사용자에 의한 특정 단어나 구의 발화 감지.
* 한 명 이상의 시스템 사용자 위치 추정.
* 청취 공간의 특정 위치에서 N개의 프로그램 스트림 조합 중 임의의 것의 음량 추정값.
* 청취 환경에서 배경 소음과 같은 다른 환경 소리의 음량 추정값.
도 2b는 도 1a, 도 1b 또는 도 2a에 도시된 것과 같은 장치 또는 시스템에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타낸 흐름도이다. 방법(200)의 블록은 본원에 설명된 다른 방법과 마찬가지로 표시된 순서대로 수행될 필요는 없다. 또한, 이러한 방법은 도시 및/또는 설명된 것보다 더 많거나 더 적은 블록을 포함할 수 있다. 방법(200)의 블록은 도 1a, 도 1b 및 도 2a 에 도시되고 위에서 설명된 제어 시스템(110), 제어 시스템(110a) 또는 제어 시스템(110b), 또는 다른 개시된 제어 시스템 예 중 하나와 같은 제어 시스템일 수 있는 (또는 이를 포함할 수 있는) 하나 이상의 디바이스에 의해 수행될 수 있다.
이 구현에서, 블록(205)은, 인터페이스 시스템을 통해, 제1 오디오 프로그램 스트림을 수신하는 것을 포함한다. 이 예에서, 제1 오디오 프로그램 스트림은 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 제1 오디오 신호를 포함한다. 여기에서, 제1 오디오 프로그램 스트림은 제1 공간 데이터를 포함한다. 이 예에 따르면, 제1 공간 데이터는 채널 데이터 및/또는 공간 메타데이터를 포함한다. 일부 예에서, 블록(205)은 인터페이스 시스템을 통해 제1 오디오 프로그램 스트림을 수신하는 제어 시스템의 제1 렌더링 모듈을 수반한다.
이 예에 따르면, 블록(210)은 환경의 스피커를 통한 재생을 위해 제1 오디오 신호를 렌더링하여, 제1 렌더링된 오디오 신호를 생성하는 것을 포함한다. 방법(200)의 일부 예는 예를 들어 위에서 언급된 바와 같이 확성기 레이아웃 정보를 수신하는 것을 포함한다. 방법(200)의 일부 예는 예를 들어 위에서 언급된 바와 같이 확성기 사양 정보를 수신하는 것을 포함한다. 일부 예에서, 제1 렌더링 모듈은 확성기 레이아웃 정보 및/또는 확성기 사양 정보에 적어도 부분적으로 기초하여 제1 렌더링된 오디오 신호들을 생성할 수 있다.
이 예에서, 블록(215)은, 인터페이스 시스템을 통해, 제2 오디오 프로그램 스트림을 수신하는 것을 수반한다. 이 구현에서, 제2 오디오 프로그램 스트림은 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 제2 오디오 신호를 포함한다. 이 예에 따르면, 제2 오디오 프로그램 스트림은 제2 공간 데이터를 포함한다. 제2 공간 데이터는 채널 데이터 및/또는 공간 메타데이터를 포함한다. 일부 예에서, 블록(215)은 인터페이스 시스템을 통해 제2 오디오 프로그램 스트림을 수신하는 제어 시스템의 제2 렌더링 모듈을 수반한다.
이 구현에 따르면, 블록(220)은 환경의 스피커를 통한 재생을 위해 제2 오디오 신호를 렌더링하여, 제2 렌더링된 오디오 신호를 생성하는 것을 포함한다. 일부 예에서, 제2 렌더링 모듈은 수신된 확성기 레이아웃 정보 및/또는 수신된 확성기 사양 정보에 적어도 부분적으로 기초하여 제2 렌더링된 오디오 신호를 생성할 수 있다.
일부 경우에는, 환경의 일부 또는 전체 스피커가 임의로 배치될 수 있다. 예를 들어, 환경의 적어도 일부 스피커는 돌비 5.1, 돌비 7.1, 하마사키 22.2 등과 같은 표준 규정 스피커 레이아웃에 대응하지 않는 위치에 배치될 수 있다. 일부 그러한 예에서, 환경의 적어도 일부 스피커는 공간의 가구, 벽 등에 대해 편리한 위치(예를 들어, 스피커를 수용할 공간이 있는 위치)이지만, 임의의 표준 규정 스피커 레이아웃이 아닌 위치에 배치될 수 있다.
따라서, 일부 구현 블록(210) 또는 블록(220)은 임의로 위치된 스피커에 대한 유연한 렌더링을 수반할 수 있다. 이러한 일부 구현은 질량 중심 진폭 패닝(CMAP), 유연 가상화(FV) 또는 이 둘의 조합을 포함할 수 있다. 높은 수준에서, 이들 기술은 모두 둘 이상의 스피커 세트를 통해 재생하기 위하여, 각각 연관된 원하는 지각된 공간 위치를 갖는 하나 이상의 오디오 신호 세트를 렌더링하며, 여기에서 세트의 스피커의 상대적 활성화는 스피커를 통해 재생되는 상기 오디오 신호의 지각된 공간 위치의 모델 및 스피커의 위치에 대한 오디오 신호의 원하는 지각된 공간 위치의 근접도의 함수이다. 모델은 오디오 신호가 의도한 공간 위치 근처에서 청취자에게 들리도록 보장하고, 근접도 조건은 이러한 공간적 인상을 달성하기 위해 어떤 스피커가 사용될지 제어한다. 특히, 근접도 조건은 오디오 신호의 원하는 지각된 공간 위치 근처에 있는 스피커의 활성화를 선호한다. CMAP 및 FV 모두에 대하여, 이 함수 관계는 공간적 양상과 근접도에 대한 두 항의 합으로 작성된 비용 함수로부터 편리하게 유도된다:
(1)
여기에서, 집합 는 M개의 확성기 세트의 위치를 나타내고, 는 오디오 신호의 원하는 지각된 공간 위치를 나타내고, g는 스피커 활성화의 M 차원 벡터를 나타낸다. CMAP의 경우, 벡터의 각 활성화는 스피커당 이득을 나타내는 한편, FV의 경우 각 활성화는 필터를 나타낸다(이러한 제2 경우에서 g는 특정 주파수에서 복소수 값의 벡터로 동등하게 간주될 수 있으며 상이한 g는 필터를 형성하는 복수의 주파수에 대해 계산된다). 활성화에 대한 비용 함수를 최소화하여 활성화의 최적 벡터를 찾는다.
(2a)
비용 함수의 특정 정의로는, 의 구성요소 사이의 상대 수준은 적절하지만, 위의 최소화로 인한 최적 활성화의 절대 수준을 제어하기 어렵다. 이 문제를 해결하기 위하여, 의 후속 정규화를 수행하여 활성화의 절대 수준을 제어할 수 있다. 예를 들어, 일반적으로 사용되는 일정한 전력 패닝 규칙과 일치하는 단위 길이를 갖도록 벡터를 정규화하는 것이 바람직할 수 있다.
(2b)
유연한 렌더링 알고리즘의 정확한 거동은 비용 함수의 두 항인 Cspatial 및 Cproximity의 특정 구성에 의해 결정된다. CMAP의 경우, Cspatial은 연관된 활성화 이득 gi(벡터 g의 요소)에 의해 가중치가 부여된 해당 확성기 위치의 질량 중심에서 확성기 세트로부터 재생되는 오디오 신호의 지각된 공간 위치를 배치하는 모델로부터 유도된다.
(3)
그런 다음 식 3은 원하는 오디오 위치와 활성화된 확성기에 의해 생성된 오류 사이의 제곱 오차를 나타내는 공간 비용으로 조작된다.
(4)
FV를 사용하면, 비용 함수의 공간 조건이 상이하게 정의된다. 여기에서 목표는 청취자의 왼쪽 및 오른쪽 귀에서 오디오 객체 위치 에 대응하는 양이(binaural) 응답 b를 생성하는 것이다. 개념적으로, b는 필터의 2x1 벡터(각 귀에 대해 하나의 필터)이지만 특정 주파수에서 복소수 값의 2x1 벡터로 더 편리하게 처리된다. 특정 주파수에서 이 표현으로 진행하면, 원하는 양이 응답이 객체 위치 별로 HRTF 색인 세트로부터 검색될 수 있다.
(5)
동시에, 확성기에 의해 청취자의 귀에서 생성된 2x1 양이 응답 e는 복소수 스피커 활성화 값의 Mx1 벡터 g를 곱한 2xM 음향 전송 행렬 H로 모델링된다.
(6)
음향 전송 행렬 H는 청취자 위치에 대한 확성기 위치 세트 에 기초하여 모델링된다. 마지막으로, 비용 함수의 공간 구성요소는 원하는 양이 응답(식 5)과 확성기에서 생성된 응답(식 6) 사이의 제곱 오차로 정의된다.
(7)
편리하게, 식 4와 7에서 정의된 CMAP 및 FV에 대한 비용 함수의 공간 항은 모두 스피커 활성화 g의 함수로서 2차 행렬로 재배열될 수 있다.
(8)
여기에서 A는 M x M 정사각 행렬, B는 1 x M 벡터, C는 스칼라이다. 행렬 A는 랭크 2이고, 따라서 M > 2일 때 공간 오차 항이 0인 스피커 활성화 g의 무한한 수가 존재한다. 비용 함수의 제2 항인 Cproximity를 도입하면, 이러한 불확정성을 제거하고 다른 가능한 해와 비교하여 지각적으로 유익한 특성을 가진 특정 해가 생성된다. CMAP과 FV 모두에 대해, Cproximity는 위치 가 원하는 오디오 신호 위치 에서 멀리 떨어져 있는 스피커의 활성화가 원하는 위치에 가까운 위치의 스피커 활성화보다 페널티(penalty)를 많이 받도록 구성된다. 이 구성은 원하는 오디오 신호의 위치에 매우 근접한 스피커만 현저히 활성화되는, 희소한 최적의 스피커 활성화 세트를 생성하고, 실제로 스피커 세트 주변에서 청취자의 움직임에 지각적으로 더 강건한 오디오 신호의 공간 재생을 가져온다.
이를 위해, 비용 함수의 제2 항인 Cproximity는 스피커 활성화의 절대값 제곱의 거리 가중치 합으로 정의될 수 있다. 이는 다음과 같이 행렬 형식으로 간결하게 표현된다.
(9a)
여기에서 D는 원하는 오디오 위치와 각 스피커 사이의 거리 페널티의 대각 행렬이다.
, (9b)
거리 페널티 함수는 다양한 형태를 취할 수 있지만, 다음은 유용한 매개변수화이다.
(9c)
여기에서 는 원하는 오디오 위치와 스피커 위치 사이의 유클리드 거리이고 α와 β는 조정 가능한 매개변수이다. 매개변수 α는 페널티의 전체 강도를 나타낸다. d0은 거리 페널티의 공간적 범위에 대응하고(d0 주변 및 그보다 먼 확성기는 페널티를 받음), β는 거리 d0에서 페널티 시작의 돌발성을 설명한다.
식 8 및 9a에 정의된 비용 함수의 두 항을 결합하면 전체 비용 함수가 생성된다.
(10)
g에 대한 이 비용 함수의 도함수를 0으로 설정하고 g에 대해 풀면 최적의 스피커 활성화 해가 생성된다.
(11)
일반적으로, 식 11의 최적 해는 값이 음수인 스피커 활성화를 생성할 수 있다. 유연 렌더러의 CMAP 구성의 경우, 이러한 음의 활성화가 바람직하지 않을 수 있으므로, 식 11은 모든 활성화가 양으로 남아 있도록 최소화될 수 있다.
도 2c 및 도 2d는 스피커 활성화 및 객체 렌더링 위치의 예시적인 세트를 나타내는 도면이다. 이들 예에서, 스피커 활성화 및 객체 렌더링 위치는 4, 64, 165, -87 및 -4도의 스피커 위치에 대응한다. 도 2c는 이러한 특정 스피커 위치에 대한 식 11에 대한 최적 해를 구성하는 스피커 활성화(245a, 250a, 255a, 260a, 265a)를 도시한다. 도 2d는 각각 스피커 활성화(245a, 250a, 255a, 260a, 265a)에 대응하는 정사각형(267, 270, 272, 274, 275)으로 개별 스피커 위치를 나타낸다. 도 2d는 또한 다수의 가능한 객체 각도에 대한 이상적인 객체 위치(달리 말하자면, 오디오 객체가 렌더링되어야 하는 위치)를 점(276a)으로 및 해당 객체에 대한 대응하는 실제 렌더링 위치를 점(278a)으로 표시하고, 점선(279a)에 의해 이상적인 객체 위치에 연결한다.
실시예의 부류는 복수의 조정된(편성된) 스마트 오디오 디바이스 중 적어도 하나(예를 들어, 전부 또는 일부)에 의한 재생을 위해 오디오를 렌더링하는 방법을 포함한다. 예를 들어, 사용자의 집에 (시스템에) 존재하는 스마트 오디오 디바이스 세트는 스마트 오디오 디바이스의 전부 또는 일부에 의한 (즉, 전부 또는 일부의 스피커(들)에 의한) 재생을 위한 오디오의 유연한 렌더링을 포함하여, 다양한 동시 사용 사례를 처리하기 위하여 편성될 수 있다. 렌더링에 대한 동적 수정이 필요한 시스템과의 많은 상호작용이 고려된다. 그러한 수정은 공간 충실도에 초점을 맞출 수 있지만, 반드시 그런 것은 아니다.
일부 실시예는 스마트 오디오 디바이스 세트의 스마트 오디오 디바이스 중 적어도 하나(예를 들어, 전부 또는 일부)에 의한 재생(또는 다른 스피커 세트의 스피커 중 적어도 하나(예를 들어, 전부 또는 일부)에 의한 재생)을 위한 오디오 렌더링 방법이다. 렌더링은 비용 함수의 최소화를 포함할 수 있으며, 여기에서 비용 함수는 적어도 하나의 동적 스피커 활성화 조건을 포함한다. 이러한 동적 스피커 활성화 조건의 예는 다음을 포함한다(그러나 이에 제한되지 않는다).
* 한 명 이상의 청취자에 대한 스피커의 근접도;
* 흡인력 또는 반발력에 대한 스피커의 근접도;
* 특정 위치(예를 들어 청취자 위치 또는 아기 방)에 대한 스피커의 가청도;
* 스피커의 기능(예를 들어 주파수 응답 및 왜곡);
* 다른 스피커에 대한 스피커 동기화;
* 깨우기 단어 성능; 및
* 반향 제거기 성능.
동적 스피커 활성화 조건(들)은 오디오의 공간 표현을 특정 스마트 오디오 디바이스로부터 멀리 워프하여 그 마이크가 화자를 더 잘 들을 수 있도록 하거나 보조 오디오 스트림이 스마트 오디오 디바이스의 스피커에서 더 잘 들릴 수 있도록 하는 것을 포함하여, 다양한 거동 중 하나를 가능하게 할 수 있다.
일부 실시예는 조정된(편성된) 복수의 스마트 오디오 디바이스의 스피커(들)에 의한 재생을 위한 렌더링을 구현한다. 다른 실시예는 다른 스피커 세트의 스피커(들)에 의한 재생을 위한 렌더링을 구현한다.
유연한 렌더링 방법(일부 실시예에 따라 구현됨)을 무선 스마트 스피커(또는 다른 스마트 오디오 디바이스) 세트와 페어링하면 매우 유능하고 사용하기 쉬운 공간적 오디오 렌더링 시스템이 생성될 수 있다. 이러한 시스템과의 상호작용을 고려하면 시스템 사용 중에 발생할 수 있는 다른 목표를 최적화하기 위해 공간 렌더링에 대한 동적 수정이 바람직할 수 있음이 분명해진다. 이 목표를 달성하기 위해, 실시예의 부류는 렌더링되는 오디오 신호, 스피커 세트의 하나 이상의 속성 및/또는 다른 외부 입력에 의존하는 하나 이상의 추가의 동적으로 구성 가능한 기능으로, 기존의 유연한 렌더링 알고리즘(스피커 활성화가 이전에 개시된 공간 및 근접도 항의 함수임)을 보강한다. 일부 실시예에 따르면, 식 1에 주어진 기존의 유연한 렌더링의 비용 함수는 이러한 하나 이상의 추가 의존성에 따라 보정된다.
(12)
식 12에서 항 는 추가 비용 항을 나타내며, 는 렌더링되는 (예를 들어, 객체 기반 오디오 프로그램의) 오디오 신호의 하나 이상의 속성 집합을 나타내고, 는 오디오가 렌더링되는 스피커의 하나 이상의 속성 집합을 나타내고, 는 하나 이상의 추가 외부 입력을 나타낸다. 각 항 는 일반적으로 집합 으로 표시되는 오디오 신호, 스피커의 하나 이상의 속성, 및/또는 외부 입력의 조합과 관련하여 활성화 g의 함수로서 비용을 반환한다. 집합 는 최소한 , , 또는 중 임의의 것으로부터 하나의 요소만을 포함한다는 것을 이해해야 한다.
의 예는 다음을 포함하지만 이에 제한되지 않는다:
*오디오 신호의 원하는 지각된 공간 위치;
*오디오 신호의 수준(시간에 따라 변할 수 있음); 및/또는
*오디오 신호의 스펙트럼(시간에 따라 변할 수 있음).
의 예는 다음을 포함하지만 이에 제한되지 않는다:
*청취 공간의 확성기 위치;
*확성기의 주파수 응답;
*확성기의 재생 수준 한계;
*리미터 이득과 같은 스피커 내 동적 처리 알고리즘의 매개변수;
*각 스피커로부터 다른 것으로의 음향 전송 측정값 또는 추정값;
*스피커의 반향 제거기 성능 측정; 및/또는
*서로에 대한 스피커의 상대적 동기화.
의 예는 다음을 포함하지만 이에 제한되지 않는다:
*재생 공간에서 한 명 이상의 청취자 또는 화자의 위치;
*각 확성기로부터 청취 위치로의 음향 전송 측정값 또는 추정값;
*화자로부터 확성기 세트로의 음향 전송 측정값 또는 추정값;
*재생 공간에서 일부 다른 랜드마크의 위치; 및/또는
*각 스피커로부터 재생 공간의 일부 다른 랜드마크로의 음향 전송 측정값 또는 추정값.
식 12에 정의된 새로운 비용 함수를 사용하면, g에 대한 최소화와 식 2a 및 2b에서 이전에 지정된 것과 같이 가능한 사후 정규화를 통해 최적의 활성화 세트를 찾을 수 있다.
도 2e는 도 1a에 도시된 것과 같은 장치 또는 시스템에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타낸 흐름도이다. 방법(280)의 블록은 본원에 설명된 다른 방법과 마찬가지로 표시된 순서대로 수행될 필요는 없다. 또한, 이러한 방법은 도시 및/또는 설명된 것보다 더 많거나 더 적은 블록을 포함할 수 있다. 방법(280)의 블록은 도 1a에 도시된 제어 시스템(110)과 같은 제어 시스템일 수 있는 (또는 이를 포함할 수 있는) 하나 이상의 디바이스에 의해 수행될 수 있다.
이 구현에서, 블록(285)은, 제어 시스템에 의해 그리고 인터페이스 시스템을 통해, 오디오 데이터를 수신하는 것을 포함한다. 이 예에서, 오디오 데이터는 하나 이상의 오디오 신호 및 연관된 공간 데이터를 포함한다. 이 구현에 따르면, 공간 데이터는 오디오 신호에 대응하는 의도한 지각된 공간 위치를 나타낸다. 일부 경우에, 의도한 지각된 공간 위치는 예를 들어 돌비 애트모스 위치 메타데이터와 같은 위치 메타데이터에 의해 표시되는 바와 같이 명시적일 수 있다. 다른 경우에, 의도한 지각된 공간 위치는 암시적일 수 있고, 예를 들어 의도한 지각된 공간 위치는 돌비 5.1, 돌비 7.1, 또는 다른 채널 기반 오디오 형식에 따른 채널과 연관된 가정된 위치일 수 있다. 일부 예에서, 블록(285)은 인터페이스 시스템을 통해 오디오 데이터를 수신하는 제어 시스템의 렌더링 모듈을 수반한다.
이 예에 따르면, 블록(290)은, 렌더링된 오디오 신호를 생성하기 위하여, 제어 시스템에 의해, 환경의 확성기 세트를 통한 재생을 위해 오디오 데이터를 렌더링하는 것을 포함한다. 이 예에서, 오디오 데이터에 포함된 하나 이상의 오디오 신호 각각을 렌더링하는 것은 비용 함수를 최적화함으로써 환경 내 확성기 세트의 상대적 활성화를 결정하는 것을 포함한다. 이 예에 따르면 비용은 환경의 확성기 세트를 통해 재생할 때 오디오 신호의 지각된 공간 위치 모델의 함수이다. 이 예에서, 비용은 또한 확성기 세트의 각 확성기의 위치에 대한 오디오 신호의 의도한 지각된 공간 위치의 근접도의 측정값의 함수이다. 이 구현에서, 비용은 또한 하나 이상의 추가적인 동적으로 구성 가능한 기능의 함수이다. 이 예에서, 동적으로 구성 가능한 기능은 다음 중 하나 이상에 기초한다: 하나 이상의 청취자에 대한 확성기의 근접도; 흡인력 위치에 대한 확성기의 근접도 - 흡인력은 흡인력 위치에 더 근접한 것을 상대적으로 더 높은 확성기 활성화에 대해 선호하는 인자임 -; 반발력 위치에 대한 확성기의 근접도 - 반발력은 반발력 위치에 더 근접한 것을 상대적으로 더 낮은 확성기 활성화에 대해 선호하는 인자임 -; 환경의 다른 확성기에 대한 각 확성기의 능력; 다른 확성기에 대한 확성기의 동기화; 깨우기 단어 성능; 또는 반향 제거기 성능.
이 예에서, 블록(295)은 인터페이스 시스템을 통해, 환경의 확성기 세트의 적어도 일부 확성기에 렌더링된 오디오 신호를 제공하는 것을 포함한다.
일부 예에 따르면, 지각된 공간 위치의 모델은 청취자의 왼쪽 및 오른쪽 귀에서 오디오 객체 위치에 대응하는 양이 응답을 생성할 수 있다. 대안적으로, 또는 추가적으로, 지각된 공간 위치의 모델은 확성기의 연관된 활성화 이득에 의해 가중된 확성기 위치 세트의 질량 중심에 확성기 세트로부터 재생되는 오디오 신호의 지각된 공간 위치를 배치할 수 있다.
일부 예에서, 하나 이상의 추가적인 동적으로 구성 가능한 기능은 하나 이상의 오디오 신호의 수준에 적어도 부분적으로 기초할 수 있다. 일부 경우에, 하나 이상의 추가적인 동적으로 구성 가능한 기능은 하나 이상의 오디오 신호의 스펙트럼에 적어도 부분적으로 기초할 수 있다.
방법(280)의 일부 예는 확성기 레이아웃 정보를 수신하는 것을 포함한다. 일부 예에서, 하나 이상의 추가적인 동적으로 구성 가능한 기능은 환경 내의 확성기 각각의 위치에 적어도 부분적으로 기초할 수 있다.
방법(280)의 일부 예는 확성기 사양 정보를 수신하는 것을 포함한다. 일부 예에서, 하나 이상의 추가적인 동적으로 구성 가능한 기능은 주파수 응답, 재생 수준 제한 또는 하나 이상의 확성기 동역학 처리 알고리즘의 매개변수 중 하나 이상을 포함할 수 있는 각 확성기의 성능에 적어도 부분적으로 기초할 수 있다.
일부 예에 따르면, 하나 이상의 추가적인 동적으로 구성 가능한 기능은 각 확성기로부터 다른 확성기로의 음향 전송의 측정값 또는 추정값에 적어도 부분적으로 기초할 수 있다. 대안적으로, 또는 추가적으로, 하나 이상의 추가적인 동적으로 구성 가능한 기능은 환경에서 한 명 이상의 사람의 청취자 또는 스피커 위치에 적어도 부분적으로 기초할 수 있다. 대안적으로, 또는 추가적으로, 하나 이상의 추가적인 동적으로 구성 가능한 기능은 각 확성기로부터 청취자 또는 스피커 위치로의 음향 전송의 측정값 또는 추정값에 적어도 부분적으로 기초할 수 있다. 음향 전송의 추정값은, 예를 들어, 벽, 가구 또는 각 확성기와 청취자 또는 스피커 위치 사이에 존재할 수 있는 다른 물체에 적어도 부분적으로 기초할 수 있다.
대안적으로, 또는 추가적으로, 하나 이상의 추가적인 동적으로 구성 가능한 기능은 환경 내의 하나 이상의 비 확성기 객체 또는 랜드마크의 객체 위치에 적어도 부분적으로 기초할 수 있다. 일부 그러한 구현에서, 하나 이상의 추가적인 동적으로 구성 가능한 기능은 각 확성기로부터 객체 위치 또는 랜드마크 위치로의 음향 전송의 측정값 또는 추정값에 적어도 부분적으로 기초할 수 있다.
유연한 렌더링을 구현하기 위해 하나 이상의 적절하게 정의된 추가 비용 조건을 사용하여 수많은 새롭고 유용한 거동을 얻을 수 있다. 아래에 나열된 모든 예시적인 거동은 바람직하지 않은 것으로 간주되는 특정 조건에서 특정 확성기에 페널티를 주는 것과 관련하여 계산된다. 최종 결과는 이러한 확성기가 오디오 신호 세트의 공간 렌더링에서 덜 활성화된다는 것이다. 이러한 많은 경우에, 공간 렌더링에 대한 수정과 관계없이 바람직하지 않은 확성기를 단순히 낮추는 것을 고려할 수 있지만, 이러한 전략은 오디오 콘텐츠의 전체 균형을 크게 저하시킬 수 있다. 예를 들어, 믹스의 특정 구성요소는 완전히 들리지 않을 수 있다. 반면, 개시된 실시예에서, 렌더링의 핵심 최적화로의 이러한 페널티의 통합은 렌더링이 나머지 페널티를 덜 받는 스피커를 가지고 최상의 가능한 공간 렌더링을 적응시키고 수행할 수 있게 한다. 이것은 훨씬 더 세련되고 적응 가능하며 효과적인 해결책이다.
사용 사례의 예는 다음을 포함하지만 이에 제한되지 않는다:
* 청취 영역 주변에 더 균형 잡힌 공간 표현 제공
o 공간적 오디오는 의도한 청취 영역에서 거의 같은 거리에 있는 확성기에서 가장 잘 표현되는 것으로 나타났다. 청취 영역에 대한 확성기의 평균 거리보다 훨씬 더 가깝거나 멀리 떨어져 있는 확성기에 페널티가 적용되어 활성화가 감소하도록 비용이 구성될 수 있다.
* 청취자나 화자로부터 멀어지거나 또는 그 쪽을 향해 오디오 이동
o 시스템의 사용자가 시스템의 또는 시스템과 연관된 스마트 음성 비서에게 말하고자 시도하는 경우, 화자에게 더 가까운 확성기에 페널티를 주는 비용을 생성하는 것이 유리할 수 있다. 이렇게 하면, 이들 확성기가 덜 활성화되어, 연관된 마이크가 화자를 더 잘 들을 수 있다.
o 청취 공간에 있는 다른 사람들에 대한 재생 수준을 최소화하는 단일 청취자에게 더 친밀한 경험을 제공하기 위해, 청취자의 위치에서 멀리 떨어진 스피커는 청취자에게 가장 가까운 스피커만 가장 크게 활성화되도록 무거운 페널티를 받을 수 있다.
* 랜드마크, 구역 또는 영역으로부터 멀어지거나 또는 그 쪽을 향해 오디오 이동
o 아기 방, 아기 침대, 사무실, 독서 공간, 공부 공간 등과 같이 청취 공간 주변의 특정 위치는 민감한 것으로 간주될 수 있다. 이러한 경우, 이 위치, 구역 또는 영역에 가까운 스피커의 사용에 페널티를 주도록 비용이 구성될 수 있다.
o 대안적으로, 위와 동일한 경우(또는 유사한 경우)에 대해, 특히 스피커 중 하나(마이크가 부착되거나 연관된)가 아기 방 그 자체 내에 있는 경우, 스피커 시스템이 각 스피커로부터 아기 방으로의 음향 전송 측정값을 생성했을 수 있다. 이 경우, 아기 방에 대한 스피커의 물리적 근접도를 사용하기보다, 측정된 방으로의 음향 전송이 높은 스피커의 사용에 페널티를 주도록 비용이 구성될 수 있다. 및/또는
* 스피커 기능의 최적 사용
o 상이한 확성기의 기능은 크게 다를 수 있다. 예를 들어, 인기 있는 스마트 스피커 중 하나는 저주파 기능이 제한된 단일 1.6인치 전체 범위 드라이버만을 포함한다. 반면, 다른 스마트 스피커는 훨씬 더 뛰어난 3인치 우퍼를 포함한다. 이러한 기능은 일반적으로 스피커의 주파수 응답에 반영되며, 따라서 스피커와 연관된 응답 세트가 비용 조건에서 활용될 수 있다. 특정 주파수에서, 다른 것에 비해 상대적으로 기능이 떨어지는 스피커는 주파수 응답으로 측정할 때 페널티를 받고 따라서 덜 활성화된다. 일부 구현에서, 이러한 주파수 응답 값은 스마트 확성기로 저장될 수 있고 그런 다음 유연한 렌더링의 최적화를 담당하는 계산 유닛에 보고될 수 있다;
o 많은 스피커는 각각 상이한 주파수 범위의 재생을 담당하는 하나 이상의 드라이버를 포함한다. 예를 들어, 인기 있는 스마트 스피커 중 하나는 저주파수용 우퍼와 고주파수용 트위터를 포함하는 양방향 설계이다. 일반적으로, 이러한 스피커는 전체 범위 재생 오디오 신호를 적절한 주파수 범위로 나누고 각 드라이버에 보내는 크로스오버 회로를 포함한다. 대안적으로, 이러한 스피커는 주파수 응답과 같은 각 개별 드라이버의 기능에 대한 정보뿐만 아니라 각 개별 드라이버에 대한 유연한 렌더러 재생 접근을 제공할 수 있다. 바로 위에 설명한 것과 같은 비용 조건을 적용함으로써, 일부 예에서 유연한 렌더러는 상이한 주파수에서 상대적 기능에 기초하여 두 개의 드라이버 사이의 크로스오버를 자동으로 구축할 수 있다.
o 위에서 설명한 주파수 응답의 예시적인 사용은 스피커 고유의 기능에 초점을 맞추지만 청취 환경에 배치된 스피커의 기능을 정확하게 반영하지 못할 수 있다. 어떤 경우에는, 의도한 청취 위치에서 측정된 스피커의 주파수 응답이 일부 보정 절차를 통해 이용 가능하게 될 수 있다. 이러한 측정이 미리 계산된 응답 대신 사용되어 스피커 사용을 더 잘 최적화할 수 있다. 예를 들어, 특정 스피커는 본질적으로 특정 주파수에서 매우 유능할 수 있지만, 배치 때문에(예를 들어 벽이나 가구 뒤) 의도한 청취 위치에서 매우 제한된 응답을 생성할 수 있다. 이 응답을 포착하고 적절한 비용 조건에 입력하는 측정은 이러한 스피커의 상당한 활성화를 방지할 수 있다.
o 주파수 응답은 확성기 재생 기능의 한 측면일 뿐이다. 많은 소형 확성기가 왜곡을 시작한 다음 재생 수준이 증가함에 따라 특히 낮은 주파수의 경우 진폭 한계에 도달한다. 이러한 왜곡을 줄이기 위해 많은 확성기는 주파수에 따라 변할 수 있는 일부 제한 임계값 아래로 재생 수준을 제한하는 동적 처리를 구현한다. 한 스피커가 이러한 임계값에 있거나 이에 가깝지만, 유연한 렌더링에 참여하는 다른 것들은 그렇지 않은 경우, 한계에 달한 스피커의 신호 수준을 줄이고 이 에너지를 부담이 덜한 다른 스피커로 전환하는 것이 좋다. 이러한 거동은 연관된 비용 조건을 적절하게 구성함으로써 일부 실시예에 따라 자동으로 달성될 수 있다. 이러한 비용 조건은 다음 중 하나 이상을 포함할 수 있다.
확성기의 제한 임계값과 관련하여 전역 재생 볼륨 모니터링. 예를 들어, 볼륨 수준이 제한 임계값에 더 가까운 확성기는 더 많은 페널티를 받을 수 있다.
주파수에 따라 변할 수 있는 확성기 제한 임계값과 관련하여, 또한 주파수에 따라 변할 수 있는 동적 신호 수준 모니터링. 예를 들어, 모니터링된 신호 수준이 제한 임계값에 더 가까운 확성기는 더 많은 페널티를 받을 수 있다.
이득 제한과 같은 확성기의 동적 처리 매개변수를 직접 모니터링. 이러한 일부 예에서, 매개변수가 더 제한적임을 나타내는 확성기는 더 많은 페널티를 받을 수 있다. 및/또는
확성기가 선형 범위에서 작동하는지 확인하기 위해 앰프에서 확성기로 전달되는 실제 순간 전압, 전류 및 전력을 모니터링. 예를 들어, 덜 선형적으로 작동하는 확성기는 더 많은 페널티를 받을 수 있다.
o 통합 마이크와 대화형 음성 비서가 있는 스마트 스피커는 일반적으로 녹음 마이크에 의해 포착되는 스피커에서 재생되는 오디오 신호 수준을 감소시키기 위해 일부 유형의 반향 제거를 사용한다. 이 감소가 클수록, 스피커가 공간에서 화자를 듣고 이해할 수 있는 가능성이 더 커진다. 반향 제거기의 잔차가 지속적으로 높으면, 스피커가 반향 경로 예측이 어려워지는 비선형 영역으로 향하고 있다는 표시일 수 있다. 이러한 경우 스피커로부터 멀리 신호 에너지를 전환하는 것이 합리적일 수 있으며, 따라서 반향 제거기 성능을 고려한 비용 조건에서 유리할 수 있다. 이러한 비용 조건은 연관된 반향 제거기가 제대로 작동하지 않는 스피커에 높은 비용을 할당할 수 있다.
o 여러 확성기에서 공간적 오디오를 렌더링할 때 예측 가능한 이미징을 달성하려면, 일반적으로 확성기 세트를 통한 재생이 시간에 따라 합리적으로 동기화되어야 한다. 유선 확성기의 경우 이는 당연한 것이지만, 다수의 무선 확성기를 사용하면 동기화가 어려울 수 있고 최종 결과가 달라질 수 있다. 그러한 경우에 각 확성기가 대상과의 상대적인 동기화 정도를 보고하는 것이 가능할 수 있으며, 이 정도는 동기화 비용 조건에 입력될 수 있다. 그러한 일부 예에서, 동기화 수준이 낮은 확성기는 더 많은 페널티를 받을 수 있으며 따라서 렌더링에서 제외될 수 있다. 또한, 특정 유형의 오디오 신호, 예를 들어 확산 또는 무지향성을 의도하는 오디오 믹스의 구성요소에는 긴밀한 동기화가 필요하지 않을 수 있다. 일부 구현에서, 구성요소는 메타데이터로 이와 같이 태깅될 수 있고 페널티가 감소되도록 동기화 비용 조건이 수정될 수 있다.
다음으로 실시예의 예를 설명한다.
식 9a 및 9b에 정의된 근접도 비용과 유사하게, 새로운 비용 함수 항의 각각을 스피커 활성화의 절대값 제곱의 가중치 합으로 표현하는 것이 또한 편리하다.
, (13a)
여기에서 는 가중치 의 대각 행렬로, 항 j에 대해 스피커 i를 활성화하는 것과 연관된 비용을 설명한다.
(13b)
식 13a 및 b를 식 10에 주어진 CMAP 및 FV 비용 함수의 행렬 2차 버전과 결합하면 식 12에 주어진 (일부 실시예의) 일반 확장 비용 함수의 잠재적으로 유익한 구현이 생성된다.
(14)
새로운 비용 함수 항의 이러한 정의와 함께, 전체 비용 함수는 2차 행렬로 유지되며, 최적의 활성화 집합 는 다음을 산출하는 식 14의 미분을 통해 찾을 수 있다.
(15)
가중치 항 각각을 각 확성기에 대해 주어진 연속 페널티 값 의 함수로 고려하는 것이 유용하다. 하나의 예시적인 실시예에서, 이 페널티 값은 (렌더링될) 객체로부터 고려되는 확성기까지의 거리이다. 다른 예시적인 실시예에서, 이 페널티 값은 주어진 확성기가 일부 주파수를 재생할 수 없음을 나타낸다. 이 페널티 값에 기초하여, 가중치 항 는 다음과 같이 매개변수화될 수 있다.
(16)
여기에서 는 전치 인자(가중치 항의 전역 강도를 고려함)를 나타내고, 여기에서 는 페널티 임계값(가중치 항이 중요해지는 주변 또는 그 이상)을 나타내고, 여기에서 는 단조 증가하는 함수를 나타낸다. 예를 들어, 를 갖는 가중치 항은 다음의 형식을 갖는다.
(17)
여기에서 , , 는 각각 페널티의 전역 강도, 페널티 시작의 돌발성 및 페널티 범위를 나타내는 조정 가능한 매개변수이다. Cspatial 및 Cproximity는 물론 다른 추가 비용 항에 대한 비용 항 의 상대적 효과가 원하는 결과를 달성하는 데 적합하도록 이러한 조정 가능한 값을 설정할 때 주의해야 한다. 예를 들어, 경험에 비추어 볼 때, 다른 것을 분명히 압도하도록 특정 페널티를 원한다면, 그 강도 를 다음으로 큰 페널티 강도보다 10배 정도 더 크게 설정하는 것이 적절할 수 있다.
모든 확성기에 페널티가 적용되는 경우, 후처리에서 모든 가중치 항으로부터 최소 페널티를 빼서 스피커 중 적어도 하나가 페널티를 받지 않도록 하는 것이 종종 편리하다.
(18)
위에서 언급한 바와 같이, 본원에 설명된 새로운 비용 함수 항(및 다른 실시예에 따라 사용되는 유사한 새로운 비용 함수 항)을 사용하여 실현될 수 있는 많은 가능한 사용 사례가 있다. 다음으로, 세 가지 예를 들어 더 구체적인 세부사항을 설명한다: 오디오를 청취자 또는 화자 쪽으로 이동, 오디오를 청취자 또는 화자로부터 멀어지게 이동, 오디오를 랜드마크로부터 멀어지게 이동.
제1 예에서, 본원에서 "흡인력(attracting force)"으로 지칭하는 것은 위치를 향해 오디오를 당기는 데 사용되며, 일부 예에서는 청취자 또는 화자의 위치, 랜드마크 위치, 가구 위치 등이 될 수 있다. 그 위치는 본원에서 "흡인력 위치(attracting force position)" 또는 "흡인 위치(attractor location)"로 지칭될 수 있다. 본원에서 사용되는 바에 따르면, "흡인력"은 흡인력 위치에 더 근접한 것을 상대적으로 더 높은 확성기 활성화에 대해 선호하는 인자이다. 이 예에 따르면 가중치 는 고정된 흡인 위치 로부터 제i 스피커의 거리에 의해 주어지는 연속 페널티 값 및 모든 스피커에 걸쳐 이러한 거리의 최대값에 의해 주어진 임계값 를 갖는 식 17의 형태를 취한다.
, and (19a)
(19b)
청취자나 화자를 향해 오디오를 "당기는(pulling)" 사용 사례를 설명하기 위하여, 구체적으로 = 20, = 3 및 를 180도의 청취자/화자 위치에 대응하는 벡터로 설정하였다. 이러한 = 20, = 3 및 값은 예시일 뿐이다. 다른 구현에서, 는 1 내지 100의 범위에 있을 수 있고 는 1 내지 25의 범위에 있을 수 있다.
도 2f는 예시적인 실시예에서 스피커 활성화의 그래프이다. 이 예에서, 도 2f는 스피커 활성화(245b, 250b, 255b, 260b, 265b)를 나타내며, 로 표시되는 흡인력을 추가하여 도 1 및 도 2의 동일한 스피커 위치에 대한 비용 함수에 대한 최적 해를 구성한다. 도 2g는 예시적인 실시예에서 객체 렌더링 위치의 그래프이다. 이 예에서, 도 2g는 다수의 가능한 객체 각도에 대한 대응하는 이상적인 객체 위치(276b) 및 그러한 객체에 대한 대응하는 실제 렌더링 위치(278b)를 도시하며, 점선(279b)에 의해 이상적인 객체 위치(276b)에 연결된다. 고정 위치 를 향한 실제 렌더링 위치(278b)의 기울어진 방위는 비용 함수에 대한 최적 해에 대한 흡인력 가중치의 영향을 나타낸다.
제2 및 제3 예에서 "반발력(repelling force)"은 청취자 위치, 화자 위치 또는 랜드마크 위치, 가구 위치 등과 같은 다른 위치일 수 있는 위치에서 오디오를 "밀어내는(push)" 데 사용된다. 일부 예에서, 반발력은 사무실 영역, 독서 영역, 침대 또는 침실 영역(예를 들어 아기의 침대 또는 침실) 등과 같은 청취 환경의 영역 또는 구역으로부터 오디오를 밀어내는 데 사용될 수 있다. 일부 그러한 예에 따르면, 특정 위치는 구역 또는 영역을 나타내는 것으로 사용될 수 있다. 예를 들어, 아기의 침대를 나타내는 위치는 아기 머리의 추정 위치, 아기에 대응하는 추정 음원 위치 등이 될 수 있다. 그 위치는 본원에서 '반발력 위치' 또는 '반발 위치'로 지칭될 수 있다. 본원에서 사용되는 바에 따르면, "반발력"은 반발력 위치에 더 근접한 것을 상대적으로 더 낮은 확성기 활성화에 대해 선호하는 인자이다. 이 예에 따르면 식 19의 흡인력과 유사하게 고정된 반발 위치 에 대해 를 정의한다.
, and (19c)
(19d)
오디오를 청취자 또는 화자로부터 멀리 밀어내는 사용 사례를 설명하기 위하여, 구체적으로 = 5, = 2 및 를 180도의 청취자/화자 위치에 대응하는 벡터로 설정하였다. 이러한 = 5, = 2 및 값은 예시일 뿐이다. 위에서 언급한 바와 같이, 일부 예에서, 는 1 내지 100의 범위에 있을 수 있고 는 1 내지 25의 범위에 있을 수 있다. 도 2h는 예시적인 실시예에서 스피커 활성화의 그래프이다. 이 예에 따르면, 도 2h는 스피커 활성화(245c, 250c, 255c, 260c, 265c)를 나타내며, 로 표시되는 반발력을 추가하여, 이전 도면과 동일한 스피커 위치에 대한 비용 함수에 대한 최적 해를 구성한다. 도 2i는 예시적인 실시예에서 객체 렌더링 위치의 그래프이다. 이 예에서, 도 2i는 다수의 가능한 객체 각도에 대한 이상적인 객체 위치(276c) 및 그러한 객체에 대한 실제 렌더링 위치(278c)를 도시하며, 점선(279c)에 의해 이상적인 객체 위치(276c)에 연결된다. 고정 위치 에서 멀어지는 실제 렌더링 위치(278c)의 기울어진 방위는 비용 함수에 대한 최적의 해에 대한 반발력 가중치의 영향을 나타낸다.
제3 사용 사례는 잠자는 아기 방의 문과 같이 음향적으로 민감한 랜드마크로부터 멀리 오디오를 "밀어내는" 것이다. 마지막 예와 유사하게, 를 180도 문 위치(그래프의 하단, 중앙)에 대응하는 벡터로 설정한다. 더 강한 반발력을 달성하고 기본 청취 공간의 전방 부분으로 음장을 완전히 왜곡하기 위해 = 20, = 5로 설정한다. 도 2j는 예시적인 실시예에서 스피커 활성화의 그래프이다. 다시, 이 예에서 도 2j는 더 강한 반발력이 추가된 동일한 스피커 위치 세트에 대한 최적의 해를 구성하는 스피커 활성화(245d, 250d, 255d, 260d, 265d)를 나타낸다. 도 2k는 예시적인 실시예에서 객체 렌더링 위치의 그래프이다. 그리고 다시, 이 예에서 도 2k는 다수의 가능한 객체 각도에 대한 이상적인 객체 위치(276d) 및 그러한 객체에 대한 대응하는 실제 렌더링 위치(278d)를 도시하며, 점선(279d)에 의해 이상적인 객체 위치(276d)에 연결된다. 실제 렌더링 위치(278d)의 기울어진 방위는 비용 함수에 대한 최적 해에 대한 더 강한 반발력 가중치의 영향을 나타낸다.
이제 도 2b로 돌아가면, 이 예시적인 블록(225)은 제2 오디오 신호, 제2 렌더링된 오디오 신호 또는 그 특성 중 적어도 하나에 적어도 부분적으로 기초하여 제1 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제1 렌더링된 오디오 신호를 생성하는 것을 포함한다. 렌더링 프로세스를 수정하는 다양한 예가 본원에 개시된다. 렌더링된 신호의 "특성"은, 예를 들어, 묵음 또는 하나 이상의 추가 렌더링된 신호가 있는 상태에서, 의도한 청취 위치에서 추정 또는 측정된 음량 또는 가청도를 포함할 수 있다. 특성의 다른 예는 연관된 프로그램 스트림의 구성 신호의 의도한 공간적 위치, 신호가 렌더링되는 확성기의 위치, 구성 신호의 의도한 공간적 위치의 함수로서 확성기의 상대적 활성화와 같은 상기 신호의 렌더링과 연관된 매개변수, 및 상기 렌더링된 신호를 생성하는 데 사용되는 렌더링 알고리즘과 연관된 임의의 다른 매개변수 또는 상태를 포함한다. 일부 예에서, 블록(225)은 제1 렌더링 모듈에 의해 수행될 수 있다.
이 예에 따르면, 블록(230)은 제1 오디오 신호, 제1 렌더링된 오디오 신호 또는 그 특성 중 적어도 하나에 적어도 부분적으로 기초하여 제2 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제2 렌더링된 오디오 신호를 생성하는 것을 포함한다. 일부 예에서, 블록(230)은 제2 렌더링 모듈에 의해 수행될 수 있다.
일부 구현에서, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제1 오디오 신호의 렌더링을 제2 렌더링된 오디오 신호의 렌더링 위치로부터 멀리 워프하는 것 및/또는 제2 오디오 신호 또는 제2 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 제1 렌더링된 오디오 신호의 음량을 수정하는 것을 포함할 수 있다. 대안적으로, 또는 추가적으로, 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제2 오디오 신호의 렌더링을 제1 렌더링된 오디오 신호의 렌더링 위치로부터 멀리 워프하는 것 및/또는 제1 오디오 신호 또는 제1 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 제2 렌더링된 오디오 신호의 음량을 수정하는 것을 포함할 수 있다. 일부 예는 도 3 이하를 참조하여 아래에 제공된다.
그러나, 다른 유형의 렌더링 프로세스 수정이 본 개시의 범위 내이다. 예를 들어, 일부 경우에 제1 오디오 신호 또는 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 스펙트럼 수정, 가청도 기반 수정 또는 동적 범위 수정을 수행하는 것을 포함할 수 있다. 이러한 수정은 특정 예에 따라 음량 기반 렌더링 수정과 관련되거나 관련되지 않을 수 있다. 예를 들어, 기본 공간 스트림이 개방형 거실 영역에서 렌더링되고 요리 팁으로 구성된 보조 스트림이 인접한 주방에서 렌더링되는 앞서 언급된 경우에서, 요리 팁을 주방에서 여전히 들을 수 있도록 하는 것이 바람직할 수 있다. 이는 제1 신호를 간섭하지 않고 주방에서 렌더링된 요리 팁 스트림의 음량을 추정한 다음, 주방에서 제1 신호가 있는 채로 음량을 추정하고, 마지막으로 복수의 주파수에 걸쳐 두 스트림의 음량 및 동적 범위를 동적으로 수정하여, 주방에서, 제2 신호의 가청성을 보장하도록 수행할 수 있다.
도 2b에 도시된 예에서, 블록(235)은 적어도 수정된 제1 렌더링된 오디오 신호와 수정된 제2 렌더링된 오디오 신호를 믹싱하여 믹싱된 오디오 신호를 생성하는 것을 포함한다. 블록(235)은, 예를 들어, 도 2a에 도시된 믹서(130b)에 의해 수행될 수 있다.
이 예에 따르면, 블록(240)은 믹싱된 오디오 신호를 환경의 적어도 일부 스피커에 제공하는 것을 포함한다. 방법(200)의 일부 예는 스피커에 의한 믹싱된 오디오 신호의 재생을 포함한다.
도 2b에 도시된 바와 같이, 일부 구현은 2개 이상의 렌더링 모듈을 제공할 수 있다. 이러한 일부 구현은 N개의 렌더링 모듈을 제공할 수 있으며, 여기에서 N은 2보다 큰 정수이다. 따라서, 이러한 일부 구현은 하나 이상의 추가 렌더링 모듈을 포함할 수 있다. 이러한 일부 예에서, 하나 이상의 추가 렌더링 모듈 각각은, 인터페이스 시스템을 통해, 추가 오디오 프로그램 스트림을 수신하도록 구성될 수 있다. 추가 오디오 프로그램 스트림은 환경의 적어도 하나의 스피커에 의해 재생되도록 스케줄링된 추가 오디오 신호를 포함할 수 있다. 이러한 일부 구현은 추가 렌더링된 오디오 신호를 생성하기 위하여, 환경의 적어도 하나의 스피커를 통한 재생을 위해 추가 오디오 신호를 렌더링하고 추가 오디오 신호에 대한 렌더링 프로세스를 제1 오디오 신호, 제1 렌더링된 오디오 신호, 제2 오디오 신호, 제2 렌더링된 오디오 신호 또는 그 특성 중 적어도 하나에 적어도 부분적으로 기초하여 수정하여 수정된 추가 렌더링된 오디오 신호를 생성하는 것을 포함한다. 이러한 일부 예에 따르면, 믹싱 모듈은 수정된 추가 렌더링된 오디오 신호를 적어도 수정된 제1 렌더링된 오디오 신호 및 수정된 제2 렌더링된 오디오 신호와 믹싱하여 믹싱된 오디오 신호를 생성하도록 구성될 수 있다.
도 1a 및 도 2a를 참조하여 위에서 설명된 바와 같이, 일부 구현은 청취 환경에서 하나 이상의 마이크를 포함하는 마이크 시스템을 포함할 수 있다. 그러한 일부 예에서, 제1 렌더링 모듈은 마이크 시스템으로부터의 제1 마이크 신호에 적어도 부분적으로 기초하여 제1 오디오 신호에 대한 렌더링 프로세스를 수정하도록 구성될 수 있다. "제1 마이크 신호"는 특정 구현에 따라 단일 마이크 또는 2개 이상의 마이크로부터 수신될 수 있다. 일부 그러한 구현에서, 제2 렌더링 모듈은 제1 마이크 신호에 적어도 부분적으로 기초하여 제2 오디오 신호에 대한 렌더링 프로세스를 수정하도록 구성될 수 있다.
도 2a를 참조하여 위에서 언급한 바와 같이, 일부 경우에 하나 이상의 마이크의 위치가 알려지고 제어 시스템에 제공될 수 있다. 이러한 일부 구현에 따르면, 제어 시스템은 제1 마이크 신호에 기초하여 제1 음원 위치를 추정하고 제1 음원 위치에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하도록 구성될 수 있다. 제1 음원 위치는, 예를 들어, 알려진 위치를 갖는 3개 이상의 마이크 또는 마이크 그룹 각각으로부터의 DOA 데이터에 기초하여 삼각 측량 프로세스에 따라 추정될 수 있다. 대안적으로, 또는 추가적으로, 제1 음원 위치는 2개 이상의 마이크로부터 수신된 신호의 진폭에 따라 추정될 수 있다. 가장 높은 진폭의 신호를 생성하는 마이크는 제1 음원 위치에 가장 가까운 것으로 가정할 수 있다. 그러한 일부 예에서, 제1 음원 위치는 가장 가까운 마이크의 위치로 설정될 수 있다. 이러한 일부 예에서, 제1 음원 위치는 구역의 위치와 연관될 수 있으며, 여기에서 구역은 가우시안 믹서 모델(Gaussian mixer model)과 같은 사전 훈련된 분류기를 통해 2개 이상의 마이크로부터의 신호를 처리함으로써 선택된다.
이러한 일부 구현에서, 제어 시스템은 제1 마이크 신호가 환경 소음에 대응하는지 여부를 결정하도록 구성될 수 있다. 그러한 일부 구현은 제1 마이크 신호가 환경 소음에 대응하는지 여부에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하는 것을 포함할 수 있다. 예를 들어, 제어 시스템이 제1 마이크 신호가 환경 소음에 대응한다고 결정하면, 제1 오디오 신호 또는 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 의도한 청취 위치에서 잡음이 있는 경우 신호의 지각된 음량이 잡음이 없는 경우 신호의 지각된 음량과 실질적으로 동일하도록 렌더링된 오디오 신호의 수준을 증가시키는 것을 포함한다.
일부 예에서, 제어 시스템은 제1 마이크 신호가 사람의 음성에 대응하는지 여부를 결정하도록 구성될 수 있다. 일부 그러한 구현은 제1 마이크 신호가 사람의 음성에 대응하는지 여부에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하는 것을 포함할 수 있다. 예를 들어, 제어 시스템이 제1 마이크 신호가 깨우기 단어와 같은 사람의 음성에 대응한다고 결정하면, 제1 오디오 신호 또는 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제1 음원 위치로부터 멀리 떨어진 스피커에 의해 재생되는 렌더링된 오디오 신호의 음량과 비교하여, 제1 음원 위치 근처의 스피커에 의해 재생되는 렌더링된 오디오 신호의 음량을 감소시키는 것을 포함할 수 있다. 제1 오디오 신호 또는 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 대안적으로 또는 추가로 연관된 프로그램 스트림의 구성 신호의 의도한 위치를 제1 음원 위치로부터 멀리 워프하거나 및/또는 제1 음원 위치에서 멀리 떨어진 스피커와 비교하여 제1 음원 위치 근처에 있는 스피커의 사용에 페널티를 주도록 렌더링 프로세스를 수정하는 것을 포함할 수 있다.
일부 구현에서, 제어 시스템이 제1 마이크 신호가 사람의 음성에 대응한다고 결정하면, 제어 시스템은 제1 음원 위치와 상이한 환경의 위치 근처의 하나 이상의 스피커에서 제1 마이크 신호를 재생하도록 구성될 수 있다. 그러한 일부 예에서, 제어 시스템은 제1 마이크 신호가 어린이의 울음에 대응하는지 여부를 결정하도록 구성될 수 있다. 일부 그러한 구현에 따르면, 제어 시스템은 부모, 친척, 보호자, 보육 서비스 제공자, 교사, 간호사 등과 같은 돌봄 제공자의 추정 위치에 대응하는 환경의 위치 근처의 하나 이상의 스피커에서 마이크 신호를 재생하도록 구성될 수 있다. 일부 예에서, 돌봄 제공자의 추정 위치를 추정하는 프로세스는 "<깨우기 단어>, 아기를 깨우지 마십시오"와 같은 음성 명령에 의해 촉발될 수 있다. 제어 시스템은 3개 이상의 로컬 마이크에서 제공되는 DOA 정보에 기초한 삼각 측량을 통해 가상 비서를 구현하는 가장 가까운 스마트 오디오 디바이스의 위치에 따라 스피커(돌봄 제공자)의 위치를 추정할 수 있다. 일부 구현의 경우, 제어 시스템은 아기 방 위치(및/또는 그 안의 청취 디바이스)에 대한 사전 지식을 갖고 있으며 적절한 처리를 수행할 수 있다.
이러한 일부 예에 따르면, 제어 시스템은 제1 마이크 신호가 명령에 대응하는지 여부를 결정하도록 구성될 수 있다. 제어 시스템이 제1 마이크 신호가 명령에 대응한다고 결정하면, 일부 경우에 제어 시스템은 명령에 대한 응답을 결정하고 제1 음원 위치 근처의 적어도 하나의 스피커를 제어하여 응답을 재생하도록 구성될 수 있다. 그러한 일부 예에서, 제어 시스템은 응답을 재생하기 위하여 제1 음원 위치 근처의 적어도 하나의 스피커를 제어한 후 제1 오디오 신호 또는 제2 오디오 신호에 대한 수정되지 않은 렌더링 프로세스로 복귀하도록 구성될 수 있다.
일부 구현에서, 제어 시스템은 명령을 실행하도록 구성될 수 있다. 예를 들어, 제어 시스템은 명령에 따라 오디오 디바이스, 텔레비전, 가전 제품 등을 제어하도록 구성된 가상 비서이거나 이를 포함할 수 있다.
도 1a, 도 1b 및 도 2a에 도시된 최소 및 더 유능한 다중 스트림 렌더링 시스템의 이러한 정의로, 다중 프로그램 스트림의 동시 재생의 동적 관리가 다수의 유용한 시나리오에 대해 달성될 수 있다. 이제 도 3a 및 도 3b를 참조하여 몇 가지 예를 설명한다.
먼저 거실에서 공간 영화 사운드 트랙 및 연결된 주방에서 요리 팁을 동시에 재생하는 것을 포함하는 이전에 논의된 예를 검토한다. 공간 영화 사운드 트랙은 위에서 언급한 "제1 오디오 프로그램 스트림"의 예이고 요리 팁 오디오는 위에서 언급한 "제2 오디오 프로그램 스트림"의 예이다. 도 3a 및 도 3b는 연결된 생활 공간의 평면도의 예를 도시한다. 이 예에서, 생활 공간(300)은 좌측 상단에 거실, 하단 중앙에 주방, 우측 하단에 침실을 포함한다. 생활 공간 전체에 분포된 상자 및 원(305a-305h)은 공간에 편리한 위치이지만 규정된 표준 레이아웃을 준수하지 않고 배치된(임의로 배치된) 8개의 확성기 세트를 나타낸다. 도 3a에서는, 공간적 영화 사운드트랙만 재생되고 있으며, 확성기 기능 및 레이아웃을 감안하여, 거실(310)과 주방(315)에 있는 모든 확성기는 텔레비전(330)을 마주하는 소파(325)에 앉아 있는 청취자(320a) 주위에 최적화된 공간 재생을 생성하기 위해 활용된다. 영화 사운드트랙의 이러한 최적의 재생은 활성 확성기의 경계 내에 있는 구름 모양(335a)에 의해 시각적으로 표현된다.
도 3b에서, 요리 팁이 동시에 렌더링되고 제2 청취자(320b)를 위해 주방(315)의 단일 확성기(305g)를 통해 재생된다. 이 제2 프로그램 스트림의 재생은 확성기(305g)로부터 나오는 구름 모양(340)에 의해 시각적으로 표현된다. 이러한 요리 팁이 도 3a에 도시된 바와 같은 영화 사운드트랙의 렌더링에 대한 수정 없이 동시에 재생된다면, 주방(315) 내부 또는 근처의 스피커에서 나오는 영화 사운드트랙의 오디오는 제2 청취자가 요리 팁을 이해하는 능력을 방해할 것이다. 대신, 이 예에서, 공간적 영화 사운드트랙의 렌더링은 요리 팁의 렌더링의 함수로서 동적으로 수정된다. 특히, 영화 사운드 트랙의 렌더링은 요리 팁의 렌더링 위치(주방(315)) 근처의 스피커로부터 멀리 이동되며, 이러한 이동은 주방 근처의 스피커로부터 밀려난 도 3b의 더 작은 구름 모양(335b)으로 시각적으로 표시된다. 영화 사운드트랙이 계속 재생되는 동안 요리 팁의 재생이 중지되면, 일부 구현에서 영화 사운드트랙의 렌더링이 도 3a에 표시된 원래의 최적 구성으로 동적으로 다시 이동할 수 있다. 공간적 영화 사운드트랙의 렌더링에서의 이러한 동적 이동은 다수의 개시된 방법을 통해 달성될 수 있다.
많은 공간적 오디오 믹스는 청취 공간의 특정 위치에서 재생되도록 설계된 복수의 구성 오디오 신호를 포함한다. 예를 들어, 돌비 5.1 및 7.1 서라운드 사운드 믹스는 각각 6개 및 8개 신호로 구성되어, 청취자 주변의 규정된 표준 위치에 있는 스피커에서 재생되도록 되어 있다. 예를 들어, 돌비 애트모스와 같은 객체 기반 오디오 형식은 오디오가 렌더링되어야 하는 청취 공간에서 시간에 따라 변할 수 있는 3D 위치를 설명하는 연관된 메타데이터를 갖는 구성 오디오 신호로 구성된다. 공간적 영화 사운드트랙의 렌더러가 임의의 확성기 세트와 관련하여 임의의 위치에서 개별 오디오 신호를 렌더링할 수 있다고 가정하면, 도 3a 및 도 3b에 묘사된 렌더링으로의 동적 이동은 공간적 믹스 내 오디오 신호의 의도한 위치를 워프하여 달성될 수 있다. 예를 들어, 오디오 신호와 연관된 2D 또는 3D 좌표는 주방의 스피커 위치에서 멀어지거나 대안적으로 거실의 왼쪽 상단 모서리로 당겨질 수 있다. 이러한 워프의 결과는 공간적 믹스 오디오 신호의 워프된 위치가 이제 이 위치로부터 더 멀리 떨어져 있기 때문에 주방 근처의 스피커가 덜 사용된다는 것이다. 이 방법은 제2 오디오 스트림을 제2 청취자가 더 잘 이해할 수 있도록 하는 목표를 달성하지만, 제1 청취자를 위한 영화 사운드트랙의 의도한 공간 균형을 크게 변경하는 대가를 치르게 된다.
공간 렌더링으로의 동적 전환을 달성하는 제2 방법은 유연한 렌더링 시스템을 사용하여 실현될 수 있다. 일부 그러한 구현에서, 유연한 렌더링 시스템은 위에서 설명된 바와 같이 CMAP, FV 또는 둘 모두의 하이브리드일 수 있다. 이러한 유연한 렌더링 시스템 중 일부는 의도한 위치에서 오는 것으로 지각되는 모든 구성 신호를 사용하여 공간적 믹스를 재생하고자 시도한다. 믹스의 각 신호에 대해 그렇게 하는 동안, 일부 예에서는, 해당 신호의 원하는 위치에 매우 근접한 확성기의 활성화가 우선시된다. 일부 구현에서, 다른 기준에 기초하여 특정 확성기의 사용에 페널티를 주는 추가 조건이 렌더링의 최적화에 동적으로 추가될 수 있다. 예를 들어, "반발력"으로 지칭될 수 있는 것이 주방 위치에 동적으로 배치되어 이 위치 근처에서 확성기 사용에 큰 페널티를 주고 공간적 영화 사운드트랙의 렌더링을 효과적으로 밀어낼 수 있다. 본원에서 사용되는 바에 따르면, 용어 "반발력"은 청취 환경의 특정 위치 또는 영역에서 상대적으로 낮은 스피커 활성화에 대응하는 인자를 지칭할 수 있다. 달리 말하자면, "반발력"이라는 문구는 "반발력"에 대응하는 특정 위치 또는 영역에서 상대적으로 멀리 떨어져 있는 스피커의 활성화에 유리한 인자를 지칭할 수 있다. 그러나, 일부 그러한 구현에 따르면 렌더러는 여전히 페널티가 적은 나머지 스피커를 가지고 믹스의 의도한 공간 균형을 재현하려고 시도할 수 있다. 따라서, 이 기술은 믹스 구성 신호의 의도한 위치를 단순히 워프하는 것과 비교하여 렌더링의 동적 이동을 달성하는 우수한 방법으로 간주될 수 있다.
공간적 영화 사운드트랙의 렌더링을 주방의 요리 팁으로부터 멀리 이동시키는 설명된 시나리오는 도 1b에 묘사된 다중 스트림 렌더러의 최소 버전으로 달성될 수 있다. 그러나, 시나리오에 대한 개선은 도 2a에 묘사된 더 유능한 시스템을 사용하여 실현될 수 있다. 공간적 영화 사운드트랙의 렌더링을 이동하면 주방에서 요리 팁의 명료도가 향상되지만, 영화 사운드트랙은 여전히 주방에서 알아들을 수 있게 들을 수 있다. 두 스트림의 순간적인 조건에 따라 요리 팁이 영화 사운드트랙에 가려질 수 있다. 예를 들어 영화 사운드트랙의 시끄러운 순간은 요리 팁의 부드러운 순간을 가린다. 이 문제를 해결하기 위하여, 공간적 영화 사운드트랙의 렌더링의 함수로 요리 팁의 렌더링에 대한 동적 수정이 추가될 수 있다. 예를 들어, 간섭 신호가 있는 경우 지각된 음량을 보존하기 위해 주파수 및 시간에 걸쳐 오디오 신호를 동적으로 변경하는 방법이 수행될 수 있다. 이 시나리오에서, 주방 위치에서 이동된 영화 사운드트랙의 지각된 음량의 추정값이 생성되어 간섭 신호로서 프로세스에 공급될 수 있다. 요리 팁의 시간 및 주파수 변화 수준은 이 간섭 이상으로 지각된 음량을 유지하도록 동적으로 수정될 수 있으며, 이에 따라 제2 청취자에 대한 명료도를 더 잘 유지한다. 주방에서 영화 사운드트랙의 음량에 대한 필요한 추정값은 사운드트랙 렌더링의 스피커 피드, 주방 안이나 근처에 있는 마이크의 신호, 또는 이들의 조합에서 생성될 수 있다. 요리 팁의 지각된 음량을 유지하는 이 프로세스는 일반적으로 요리 팁의 수준을 높이고, 일부 경우에 전체 음량이 불쾌할 정도로 높을 수 있다. 이 문제를 해결하기 위해, 또 다른 렌더링 수정이 사용될 수 있다. 간섭하는 공간적 영화 사운드트랙은 주방에서 음량 수정된 요리 팁이 너무 커지는 것의 함수로서 동적으로 줄어들 수 있다. 마지막으로, 일부 외부 소음원이 두 프로그램 스트림의 가청성을 동시에 방해할 수 있다. 예를 들어, 주방에서 요리하는 동안 믹서기가 사용될 수 있다. 거실과 주방 모두에서 이 환경 소음원의 음량 추정값은 렌더링 시스템에 연결된 마이크에서 생성될 수 있다. 이 추정값은, 예를 들어, 요리 팁의 음량 수정에 영향을 주기 위해 주방에서 사운드트랙의 음량 추정값에 더해질 수 있다. 동시에, 거실에서 사운드트랙의 렌더링은 이 환경 소음이 있을 때 거실에서 사운드트랙의 지각된 음량을 유지하기 위하여 환경 소음 추정값의 함수로 추가로 수정되며, 이에 따라 거실에 있는 청취자에 대한 가청도를 더 잘 유지한다.
알 수 있는 바와 같이, 개시된 멀티스트림 렌더러의 이 예시적인 사용 사례는 동시 재생을 최적화하기 위해 2개의 프로그램 스트림에 대한 수많은 상호 연결된 수정을 사용한다. 요약하면, 스트림에 대한 이러한 수정은 다음과 같이 나열될 수 있다.
* 공간적 영화 사운드트랙
o 주방에서 렌더링되는 요리 팁의 함수로 주방으로부터 멀어지는 공간 렌더링
o 주방에서 렌더링되는 요리 팁의 음량의 함수로 음량의 동적 감소
o 주방에서 나오는 간섭하는 믹서기 소음에 대한 거실의 음량 추정값의 함수로 음량의 동적 부스트
* 요리 팁
o 영화 사운드트랙과 주방의 믹서기 소음 모두의 음량을 결합한 추정값의 함수로 음량의 동적 부스트
개시된 다중 스트림 렌더러의 제2 예시적인 사용 사례는 사용자의 일부 문의에 대한 스마트 음성 비서의 응답과 함께, 음악과 같은 공간 프로그램 스트림의 동시 재생을 포함한다. 재생이 일반적으로 단일 디바이스에서 모노 또는 스테레오 재생으로 제한되었던 기존 스마트 스피커의 경우, 음성 비서와의 상호작용은 일반적으로 다음 단계로 구성된다.
1) 음악 재생
2) 사용자가 음성 비서 깨우기 단어를 발화한다.
3) 스마트 스피커는 깨우기 단어를 인식하고 음악을 상당량 줄인다(더킹(ducking)).
4) 사용자가 스마트 비서에게 명령을 내린다(예를 들어 "다음 노래 재생").
5) 스마트 스피커는 명령을 인식하고, 더킹된 음악 위로 믹싱된 스피커를 통해 일부 음성 응답(예를 들어 "오케이, 다음 노래 재생")을 재생하여 이를 확인한 다음, 명령을 실행한다.
6) 스마트 스피커는 음악을 원래 볼륨으로 되돌린다.
도 4a 및 도 4b는 공간적 음악 믹스 및 음성 비서 응답의 동시 재생을 제공하는 다중 스트림 렌더러의 예를 도시한다. 다수의 편성된 스마트 스피커를 통해 공간적 오디오를 재생할 때, 일부 실시예는 위의 이벤트 체인에 대한 개선을 제공한다. 구체적으로, 공간적 믹스는 음성 비서로부터의 응답을 중계하기 위해 적절하게 선택된 하나 이상의 스피커로부터 멀어질 수 있다. 음성 비서 응답을 위한 이 공간을 만든다는 것은 위에 나열된 기존 상황에 비해 공간적 믹스가 덜 줄어들거나 아예 줄어들지 않을 수 있음을 의미한다. 도 4a 및 도 4b는 이 시나리오를 보여준다. 이 예에서, 수정된 이벤트 체인은 다음과 같이 발생할 수 있다.
1) 공간적 음악 프로그램 스트림이 도 4a에서 사용자 구름 모양(335c)을 위한 다수의 편성된 스마트 스피커를 통해 재생되고 있다.
2) 사용자(320c)가 음성 비서 깨우기 단어를 발화한다.
3) 하나 이상의 스마트 스피커(예를 들어 스피커(305d) 및/또는 스피커(305f))가 깨우기 단어를 인식하고 사용자(320c)의 위치 또는 사용자(320c)에게 가장 가까운 스피커(들)을 하나 이상의 스마트 스피커(들)와 연관된 마이크의 연관된 녹음을 사용하여 결정한다.
4) 공간적 음악 믹스의 렌더링은 음성 비서 응답 프로그램 스트림이 해당 위치(도 4b의 구름 모양(335d)) 근처에서 렌더링될 것을 예상하여 이전 단계에서 결정된 위치로부터 멀리 이동된다.
5) 사용자는 스마트 비서(예를 들어 스마트 비서/가상 비서 소프트웨어를 실행하는 스마트 스피커)에게 명령을 내린다.
6) 스마트 스피커는 명령을 인식하고, 대응하는 응답 프로그램 스트림을 합성하고, 사용자의 위치(도 4b의 구름 모양(440)) 근처에서 응답을 렌더링한다.
7) 음성 비서 응답이 완료되면 공간적 음악 프로그램 스트림의 렌더링이 원래 상태로 다시 이동한다(도 4a의 구름 모양(335c)).
공간적 음악 믹스와 음성 비서 응답의 동시 재생을 최적화하는 것에 더하여, 공간적 음악 믹스의 이동은 또한 단계 5에서 청취자를 이해하는 스피커 세트의 능력을 향상시킬 수 있다. 이는 음악이 청취자 근처에 있는 스피커 밖으로 이동되었기 때문이며, 따라서 연관된 마이크의 다른 것에 대한 음성의 비율을 개선한다.
공간 영화 믹스 및 요리 팁을 갖는 이전 시나리오에 대해 설명된 것과 유사하게, 현재 시나리오는 음성 비서 응답의 함수로 공간적 믹스의 렌더링을 이동하여 제공되는 것 이상으로 더 최적화될 수 있다. 그 자체로, 공간적 믹스를 이동하는 것은 음성 비서 응답을 사용자가 완전히 이해할 수 있도록 하기에 충분하지 않을 수 있다. 간단한 해결책은 현재 상황에서 필요한 것보다 적지만 고정된 양만큼 공간적 믹스를 줄이는 것이다. 대안적으로, 음성 비서 응답 프로그램 스트림의 음량은 응답의 가청성을 유지하기 위하여 공간적 음악 믹스 프로그램 스트림의 음량의 함수로서 동적으로 부스트될 수 있다. 확장으로서, 응답 스트림에 대한 이러한 부스트 프로세스가 너무 커지면 공간적 음악 믹스의 음량도 동적으로 차단될 수 있다.
도 5a, 도 5b 및 도 5c는 개시된 다중 스트림 렌더러에 대한 제3 예시적인 사용 사례를 도시한다. 이 예는 공간적 음악 믹스 프로그램 스트림과 안락 소음(comfort-noise) 프로그램 스트림의 동시 재생을 관리하는 동시에 아기가 인접한 방에서 잠들어 있지만 아기가 울면 들을 수 있도록 보장하고자 시도하는 것을 포함한다. 도 5a는 파티에서 많은 사람에 대해 공간적 음악 믹스(구름 모양(335e)으로 표시됨)가 거실(310) 및 주방(315)의 모든 스피커에 걸쳐 최적으로 재생되는 시작점을 묘사한다. 도 5b에서 아기(510)는 이제 우측 하단에 도시된 인접한 침실(505)에서 잠들려고 하고 있다. 이를 보장하기 위해, 공간적 음악 믹스는 침실로부터 동적으로 이동하여, 구름 모양(335f)으로 묘사된 것처럼, 침실 내의 누출을 최소화하면서, 파티에 있는 사람들에게 합리적인 경험을 계속 유지한다. 동시에, 진정시키는 백색 소음(구름 모양(540)으로 표시)을 포함하는 제2 프로그램 스트림이 아기 방의 스피커(305h)에서 재생되어 인접한 방의 음악으로부터의 나머지 누출을 가린다. 완전한 차폐를 보장하기 위하여, 이 백색 소음 스트림의 음량은, 일부 예에서, 아기 방으로 누출되는 공간적 음악의 음량 추정값의 함수로 동적으로 수정될 수 있다. 이 추정값은 공간적 음악 렌더링의 스피커 피드, 아기 방의 마이크 신호 또는 이들의 조합에서 생성될 수 있다. 또한, 공간적 음악 믹스의 음량이 너무 커지면 음량 수정 소음의 함수로 동적으로 감쇠될 수 있다. 이것은 제1 시나리오의 공간 영화 믹스와 요리 팁 사이의 음량 처리와 유사하다. 마지막으로, 아기 방의 마이크(예를 들어, 일부 구현에서 스마트 스피커일 수 있는 스피커(305h)와 연관된 마이크)는 (공간적 음악 및 백색 소음으로부터 포착될 수 있는 소리를 제거하고) 아기로부터 오디오를 녹음하도록 구성될 수 있으며, 이러한 처리된 마이크 신호의 조합은 (패턴 일치 알고리즘 등을 통한 기계 학습을 통해) 울음이 감지되면 거실(310)에서 부모 또는 다른 돌봄 제공자일 수 있는 청취자(320d) 근처에서 동시에 재생될 수 있는 제3 프로그램 스트림의 역할을 할 수 있다. 도 5c는 구름 모양(550)으로 이러한 추가 스트림의 재생을 도시한다. 이 경우, 공간적 음악 믹스는 도 5b의 구름(335f)의 형태에 대해 수정된 구름(335g)의 형태로 도시된 바와 같이, 아기의 울음 소리를 재생하는 부모 근처의 스피커로부터 추가로 이동될 수 있으며, 아기 울음의 프로그램 스트림은 아기의 울음이 청취자(320d)에게 들리게 유지되도록 공간적 음악 스트림의 함수로서 수정된 음량일 수 있다. 이 예에서 고려된 세 가지 프로그램 스트림의 동시 재생을 최적화하는 상호 연결된 수정은 다음과 같이 요약될 수 있다.
* 거실의 공간적 음악 믹스
o 아기 방으로의 전송을 줄이기 위하여 방으로부터 멀리 이동된 렌더링
o 아기 방에서 렌더링되는 백색 소음의 음량의 함수로 음량의 동적 감소
o 아기의 울음 소리가 부모 근처의 스피커에서 렌더링되는 것의 함수로 부모로부터 멀리 이동되는 공간 렌더링
* 백색 소음
o 아기 방으로 흘러 들어가는 음악 스트림의 음량 추정값의 함수로 음량의 동적 부스트
* 아기의 울음 소리 녹음
o 부모 또는 다른 돌봄 제공자의 위치에서 음악 믹스의 음량 추정값의 함수로 음량의 동적 부스트.
다음으로 언급된 실시예 중 일부가 구현될 수 있는 방법의 예를 설명한다.
도 1b에서, 각 렌더 블록 1…N은 이전에 언급된 CMAP, FV 또는 하이브리드 렌더러와 같은 단일 스트림 렌더러의 동일한 인스턴스로 구현될 수 있다. 이러한 방식으로 멀티스트림 렌더러를 구성하면 몇 가지 편리하고 유용한 속성이 있다.
첫째, 렌더링이 이 계층적 배열로 이루어지고 단일 스트림 렌더러 인스턴스 각각이 주파수/변환 도메인(예를 들어 QMF)에서 작동하도록 구성되면, 스트림의 믹싱 또한 주파수/변환 도메인에서 발생할 수 있으며 역변환은 M개의 채널에 대해 한 번만 실행하면 된다. 이는 시간 도메인에서 NxM 역변환을 실행하고 믹싱하는 것에 비해 효율성이 크게 향상된다.
도 6은 도 1b에 도시된 다중 스트림 렌더러의 주파수/변환 도메인 예를 도시한다. 이 예에서, 각 프로그램 스트림이 렌더링 모듈 1 내지 N 중 대응하는 하나에 의해 수신되기 전에 직교 거울 분석 필터뱅크(quadrature mirror analysis filterbank; QMF)가 프로그램 스트림 1 내지 N의 각각에 적용된다. 이 예에 따르면, 렌더링 모듈 1 내지 N은 주파수 도메인에서 작동한다. 믹서(630a)가 렌더링 모듈 1 내지 N의 출력을 믹싱한 후, 역합성 필터뱅크(635a)가 믹스를 시간 도메인으로 변환하고 시간 도메인에서 믹싱된 스피커 피드 신호를 확성기 1 내지 M에 제공한다. 이 예에서, 직교 거울 필터뱅크, 렌더링 모듈 1 내지 N, 믹서(630a) 및 역 필터뱅크(635a)는 제어 시스템(110c)의 구성요소이다.
도 7은 도 2a에 도시된 다중 스트림 렌더러의 주파수/변환 도메인 예를 도시한다. 도 6에서와 같이, 각 프로그램 스트림이 렌더링 모듈 1 내지 N 중 대응하는 하나에 의해 수신되기 전에 직교 거울 필터뱅크(QMF)가 프로그램 스트림 1 내지 N의 각각에 적용된다. 이 예에 따르면, 렌더링 모듈 1 내지 N은 주파수 도메인에서 작동한다. 이 구현에서, 마이크 시스템(120b)으로부터의 시간 도메인 마이크 신호가 또한 직교 거울 필터뱅크에 제공되어, 렌더링 모듈 1 내지 N은 주파수 도메인에서 마이크 신호를 수신한다. 믹서(630b)가 렌더링 모듈 1 내지 N의 출력을 믹싱한 후, 역 필터뱅크(635b)가 믹스를 시간 도메인으로 변환하고 시간 도메인에서 믹싱된 스피커 피드 신호를 확성기 1 내지 M에 제공한다. 이 예에서, 직교 거울 필터뱅크, 렌더링 모듈 1 내지 N, 믹서(630b) 및 역 필터뱅크(635b)는 제어 시스템(110d)의 구성요소이다.
주파수 영역에서 계층적 접근 방식의 다른 이점은 각 오디오 스트림의 지각된 음량을 계산하고 다른 오디오 스트림 중 하나 이상을 동적으로 수정하는 데 이 정보를 사용하는 것이다. 이 실시예를 설명하기 위하여, 도 3a 및 도 3b를 참조하여 위에서 설명된 이전에 언급된 예를 고려한다. 이 경우 두 개의 오디오 스트림(N=2), 공간적 영화 사운드트랙 및 요리 팁이 있다. 또한 K개의 마이크 중 하나 이상에 의해 포착된, 주방에서 믹서기에서 생성된 환경 소음을 가질 수 있다.
각 오디오 스트림 s가 개별적으로 렌더링되고 각 마이크 i가 캡처되어 주파수 도메인으로 변환된 후, 소스 여기(source excitation) 신호 Es 또는 Ei가 계산될 수 있으며, 이는 각 오디오 스트림 s 또는 마이크 신호 i의 지각된 음량의 시변(time-varying) 추정값의 역할을 한다. 이 예에서, 이러한 소스 여기 신호는 c 확성기에 대해 시간 t에 걸쳐 b 주파수 대역에 대해, 오디오 스트림의 경우 Xs 또는 마이크 신호의 경우 Xi변환 계수를 통해 렌더링된 스트림 또는 캡처된 마이크에서 계산되고, 주파수 종속 시간 상수 로 평활화된다.
(20a)
(20b)
원시 소스 여기는 특정 위치에서 각 스트림의 지각된 음량의 추정값이다. 공간 스트림의 경우, 해당 위치는 도 3b의 구름 모양(335b) 중앙에 있는 한편, 요리 팁 스트림의 경우 구름 모양(340)의 중앙에 있다. 마이크에 의해 포착된 믹서기 소음의 경우 위치는, 예를 들어, 믹서기 소음의 소스에 가장 가까운 마이크(들)의 특정 위치(들)에 기초할 수 있다.
원시 소스 여기는 각 대상 오디오 스트림의 청취 위치에서 잡음으로 얼마나 지각될 수 있는지 추정하기 위하여, 수정될 오디오 스트림의 청취 위치로 변환되어야 한다. 예를 들어, 오디오 스트림 1이 영화 사운드트랙이고 오디오 스트림 2가 요리 팁이라면, 가 변환된 (잡음) 여기가 된다. 해당 변환은 각 주파수 대역 b에 대한 각 확성기 c의 함수로서, 소스 오디오 스트림 s로부터 대상 오디오 스트림 x로의 가청도 스케일 팩터 Axs 또는 마이크 i로부터 대상 오디오 스트림 x로의 Axi를 적용하여 계산된다. Axs 및 Axi에 대한 값은 거리 비율 또는 시간에 따라 달라질 수 있는 실제 가청도 추정값을 사용하여 결정될 수 있다.
(21a)
(21b)
식 13a에서, 는 마이크 입력을 참조하지 않고, 소스 오디오 스트림에 대해 계산된 원시 잡음 여기를 나타낸다. 식 13b에서, 는 마이크 입력을 참조하여 계산된 원시 잡음 여기를 나타낸다. 이 예에 따르면, 원시 잡음 여기 또는 는 스트림 1 내지 N, 마이크 1 내지 K, 출력 채널 1 내지 M에 걸쳐 합산되어 대상 스트림 x에 대한 총 잡음 추정값 를 얻는다.
(22)
일부 대안적인 구현에 따르면, 식 14에서 항 를 생략함으로써 마이크 입력을 참조하지 않고 총 잡음 추정값이 획득될 수 있다.
이 예에서는, 대상 스트림을 너무 빠르게 수정하여 발생할 수 있는 지각할 수 있는 아티팩트를 방지하기 위해 총 원시 잡음 추정값을 평활화한다. 이 구현에 따르면, 평활화는 오디오 압축기와 유사한, 빠른 공격(fast attack)과 느린 해제(slow release)를 사용하는 개념에 기초한다. 대상 스트림 x에 대한 평활화된 잡음 추정값 는 이 예에서 다음과 같이 계산된다.
(23)
(24)
스트림 x에 대한 완전한 잡음 추정값 가 있으면, 이전에 계산된 소스 여기 신호 를 재사용하여 시변 이득 세트를 결정하고 대상 오디오 스트림 x에 적용하여 잡음 위로 계속 들릴 수 있도록 보장한다. 이러한 이득은 다양한 기술을 사용하여 계산할 수 있다.
일 실시예에서, 음량 함수 은 음량에 대한 사람의 지각에서 다양한 비선형성을 모델링하고 주파수에 걸쳐 지각된 음량의 시변 분포를 설명하는 특정 음량 신호를 계산하기 위해 여기에 적용될 수 있다. 잡음 추정 및 렌더링된 오디오 스트림 x에 대한 여기에 을 적용하면 각 신호의 특정 음량에 대한 추정값이 제공된다.
(25a)
(25b)
식 17a에서 Lxn은 잡음의 특정 음량에 대한 추정값을 나타내고, 식 17b에서 Lx는 렌더링된 오디오 스트림 x의 특정 음량에 대한 추정값을 나타낸다. 이러한 특정 음량 신호는 신호가 분리되어 들릴 때 지각된 음량을 나타낸다. 그러나, 두 신호가 믹싱되면 차폐가 발생할 수 있다. 예를 들어, 잡음 신호가 스트림 x 신호보다 훨씬 크면, 스트림 x 신호를 차폐하여, 격리되어 들린 해당 신호의 지각된 음량에 비해 해당 신호의 지각된 음량을 감소시킨다. 이 현상은 두 개의 입력을 취하는 부분 음량 함수 로 모델링할 수 있다. 제1 입력은 관심 신호의 여기이고, 제2 입력은 경쟁(잡음) 신호의 여기이다. 함수는 경쟁 신호가 있는 경우 관심 신호의 지각된 음량을 나타내는 부분 특정 음량 신호 PL을 반환한다. 잡음 신호가 있는 경우 스트림 x 신호의 부분적 특정 음량은 그런 다음 주파수 대역 b, 시간 t 및 확성기 c에 걸쳐, 여기 신호로부터 직접 계산될 수 있다.
(26)
잡음이 있는 상태에서 오디오 스트림 x 신호의 가청성을 유지하기 위하여, 식 8a 및 8b 에 나타난 바와 같이 잡음 위로 들을 수 있을 때까지 음량을 부스트하도록 오디오 스트림 x에 적용할 이득 를 계산할 수 있다. 대안적으로, 잡음이 다른 오디오 스트림 s에서 오는 경우, 두 세트의 이득을 계산할 수 있다. 하나의 그러한 예에서, 제1 이 오디오 스트림 x에 적용되어 음량을 부스트하고 제2 는 경쟁 오디오 스트림 s에 적용되어 식 9a 및 9b에 나타난 바와 같이, 이득의 조합이 오디오 스트림 x의 가청도를 보장하도록 음량을 줄인다. 두 식 세트 모두에서 는 보상 이득을 적용한 후 잡음이 있는 상태에서 소스 신호의 부분적인 특정 음량을 나타낸다.
(27a)
이 다음이 되도록 한다.
(27b)
(28a)
다시, 다음이 되도록 한다.
(28b)
실제로, 다시 가청 아티팩트를 피하기 위하여 오디오 스트림에 적용되기 전에 평활화 함수 S{·}를 사용하여 주파수 전체에서 원시 이득을 더 평활화한다. 는 대상 오디오 스트림 x 및 경쟁 오디오 스트림 s에 대한 최종 보상 이득을 나타낸다.
(29a)
(29b)
일 실시예에서 이러한 이득은 오디오 스트림의 모든 렌더링된 출력 채널에 직접 적용될 수 있다. 다른 실시예에서 이들은, 예를 들어, 본원에 참조로 포함되는 미국 특허출원 공개 제2019/0037333A1호에 설명된 방법을 사용하여, 렌더링되기 전에 오디오 스트림의 객체에 대신 적용될 수 있다. 이러한 방법은, 오디오 객체의 공간 메타데이터에 기초하여, 복수의 미리 정의된 채널 커버리지 구역 각각과 관련하여 오디오 객체 각각에 대한 패닝 계수를 계산하는 것을 포함한다. 오디오 신호는 계산된 패닝 계수 및 오디오 객체에 기초하여 미리 정의된 채널 커버리지 구역과 관련하여 서브믹스로 변환될 수 있다. 각 서브믹스는 미리 정의된 채널 커버리지 구역 중 하나와 관련하여 복수의 오디오 객체의 구성요소의 합을 나타낼 수 있다. 서브믹스 이득은 서브믹스 각각에 오디오 처리를 적용하여 생성될 수 있고, 오디오 객체 각각에 적용되는 객체 이득을 제어할 수 있다. 객체 이득은 오디오 객체 각각에 대한 패닝 계수 및 미리 정의된 채널 커버리지 구역 각각에 대한 서브믹스 이득의 함수일 수 있다. 객체에 이득을 적용하면 특히 스트림의 다른 처리와 결합할 때 몇 가지 이점이 있다.
도 8은 오디오 스트림 음량 추정기를 갖는 다중 스트림 렌더링 시스템의 구현을 보여준다. 이 예에 따르면, 도 8의 다중 스트림 렌더링 시스템은 또한, 예를 들어 식 12a 내지 21b에 설명된 바와 같이 음량 처리 및 각 단일 스트림 렌더러 내의 보상 이득 적용을 구현하도록 구성된다. 이 예에서, 각 프로그램 스트림이 렌더링 모듈 1 및 2 중 대응하는 것에 의해 수신되기 전에 직교 거울 필터뱅크(QMF)가 프로그램 스트림 1 및 2 각각에 적용된다. 대안적인 예에서, 직교 거울 필터뱅크(QMF)는 각 프로그램 스트림이 렌더링 모듈 1 내지 N 중 대응하는 하나에 의해 수신되기 전에 프로그램 스트림 1 내지 N 각각에 적용될 수 있다. 이 예에 따르면, 렌더링 모듈 1 및 2는 주파수 도메인에서 동작한다. 이 구현에서, 음량 추정 모듈(805a)은 예를 들어 식 12a 내지 17b를 참조하여 위에서 설명된 바와 같이, 프로그램 스트림 1에 대한 음량 추정을 계산한다. 유사하게, 이 예에서 음량 추정 모듈(805b)은 프로그램 스트림 2에 대한 음량 추정을 계산한다.
이 구현에서, 마이크 시스템(120c)으로부터의 시간 도메인 마이크 신호가 또한 직교 거울 필터뱅크에 제공되어, 음량 추정 모듈(805c)은 주파수 도메인에서 마이크 신호를 수신한다. 이 구현에서, 음량 추정 모듈(805c)은 예를 들어 식 12b 내지 17a를 참조하여 위에서 설명된 바와 같이, 마이크 신호에 대한 음량 추정을 계산한다. 이 예에서, 음량 처리 모듈(810)은 예를 들어 식 18 내지 21b에 설명된 바와 같이, 음량 처리 및 각 단일 스트림 렌더링 모듈에 대한 보상 이득 적용을 구현하도록 구성된다. 이 구현에서, 음량 처리 모듈(810)은 하나 이상의 간섭 신호의 존재 하에 지각된 음량을 보존하기 위하여 프로그램 스트림 1의 오디오 신호 및 프로그램 스트림 2의 오디오 신호를 변경하도록 구성된다. 일부 경우에, 제어 시스템은 마이크 신호가 프로그램 스트림을 그보다 높여야 하는 환경 소음에 대응한다고 결정할 수 있다. 그러나, 일부 예에서 제어 시스템은 마이크 신호가 깨우기 단어, 명령, 어린이의 울음, 또는 스마트 오디오 디바이스 및/또는 한 명 이상의 청취자가 들을 필요가 있을 수 있는 기타 오디오에 대응한다고 결정할 수 있다. 일부 그러한 구현에서, 음량 처리 모듈(810)은 프로그램 스트림 1의 간섭 오디오 신호 및/또는 프로그램 스트림 2의 오디오 신호의 존재 하에 지각된 음량을 보존하기 위하여 마이크 신호를 변경하도록 구성될 수 있다. 여기에서, 음량 처리 모듈(810)은 렌더링 모듈 1 및 2에 적절한 이득을 제공하도록 구성된다.
믹서(630c)가 렌더링 모듈 1 내지 N의 출력을 믹싱한 후, 역 필터뱅크(635c)는 믹스를 시간 도메인으로 변환하고 시간 도메인에서 믹싱된 스피커 피드 신호를 확성기 1 내지 M에 제공한다. 이 예에서, 직교 거울 필터뱅크, 렌더링 모듈 1 내지 N, 믹서(630c) 및 역 필터뱅크(635c)는 제어 시스템(110e)의 구성요소이다.
도 9a는 다중 렌더링된 스트림의 교차페이드를 위해 구성된 다중 스트림 렌더링 시스템의 예를 도시한다. 이러한 일부 실시예에서, 렌더링 구성이 동적으로 변경될 때 원활한 경험을 제공하기 위해 다중 렌더링된 스트림의 교차페이드가 사용된다. 일례는 도 4a 및 도 4b를 참조하여 위에서 설명된 바와 같이, 청취자의 일부 문의에 대한 스마트 음성 비서의 응답과 함께, 음악과 같은 공간 프로그램 스트림의 동시 재생의 앞서 언급된 사용 사례이다. 이 경우, 도 9a에 도시된 바와 같이, 대체 공간 렌더링 구성을 사용하여 추가 단일 스트림 렌더러를 인스턴스화하고 이들 사이에서 동시에 교차페이드하는 것이 유용하다.
이 예에서 QMF는 프로그램 스트림이 렌더링 모듈(1a 및 1b)에 의해 수신되기 전에 프로그램 스트림 1에 적용된다. 유사하게, QMF는 프로그램 스트림이 렌더링 모듈(2a 및 2b)에 의해 수신되기 전에 프로그램 스트림 2에 적용된다. 일부 경우에, 렌더링 모듈(1a)의 출력은 깨우기 단어의 검출 이전의 프로그램 스트림 1의 원하는 재생에 대응할 수 있는 한편, 렌더링 모듈(1b)의 출력은 깨우기 단어의 검출 이후의 프로그램 스트림 1의 원하는 재생에 대응할 수 있다. 유사하게, 렌더링 모듈(2a)의 출력은 깨우기 단어의 검출 이전의 프로그램 스트림 2의 원하는 재생에 대응할 수 있는 한편, 렌더링 모듈(2b)의 출력은 깨우기 단어의 검출 이후의 프로그램 스트림 2의 원하는 재생에 대응할 수 있다. 이 구현에서, 렌더링 모듈(1a 및 1b)의 출력은 교차페이드 모듈(910a)에 제공되고 렌더링 모듈(2a 및 2b)의 출력은 교차페이드 모듈(910b)에 제공된다. 교차페이드 시간은, 예를 들어, 수백 밀리초에서 수 초의 범위에 있을 수 있다.
믹서(630d)가 교차페이드 모듈(910a 및 910b)의 출력을 믹싱한 후, 역 필터뱅크(635d)는 믹스를 시간 도메인으로 변환하고 시간 도메인에서 믹싱된 스피커 피드 신호를 확성기 1 내지 M에 제공한다. 이 예에서, 직교 거울 필터뱅크, 렌더링 모듈, 교차페이드 모듈, 믹서(630d) 및 역 필터뱅크(635d)는 제어 시스템(110f)의 구성요소이다.
일부 실시예에서 단일 스트림 렌더러(1a, 1b, 2a, 2b) 각각에서 사용되는 렌더링 구성을 미리 계산하는 것이 가능할 수 있다. 이는 공간 구성이 종종 선험적으로 알려져 있고 시스템의 다른 동적 측면에 의존하지 않기 때문에, 스마트 음성 비서와 같은 사용 사례에 특히 편리하고 효율적이다. 다른 실시예에서 렌더링 구성을 미리 계산하는 것이 가능하지 않거나 바람직하지 않을 수 있으며, 이 경우 각 단일 스트림 렌더러에 대한 전체 구성은 시스템이 실행되는 동안 동적으로 계산되어야 한다.
일부 실시예의 양상은 다음을 포함한다:
1. 임의로 배치된 복수의 확성기를 통해 복수의 오디오 프로그램 스트림을 동시에 재생하는 오디오 렌더링 시스템에 있어서, 상기 프로그램 스트림 중 적어도 하나는 공간적 믹스이고 상기 공간적 믹스의 렌더링은 하나 이상의 추가 프로그램 스트림의 동시 재생에 응답하여 동적으로 수정되는 시스템.
2. 제1항에 있어서, 복수의 오디오 프로그램 스트림 중 임의의 것의 렌더링은 나머지 복수의 오디오 프로그램 스트림 중 임의의 하나 이상의 조합의 함수로서 동적으로 수정될 수 있는 시스템.
3. 제1항 또는 제2항에 있어서, 상기 수정은 다음 중 하나 이상을 포함하는 시스템.
* 하나 이상의 추가 프로그램 스트림 중 적어도 하나의 렌더링과 연관된 확성기의 상대적 활성화의 함수로서 복수의 확성기의 상대적 활성화를 수정하는 것;
* 하나 이상의 추가 프로그램 스트림 중 적어도 하나의 렌더링의 공간 속성의 함수로서 공간적 믹스의 의도한 공간 균형을 워프하는 것; 또는
* 하나 이상의 추가 프로그램 스트림 중 적어도 하나의 음량 또는 가청도의 함수로서 공간적 믹스의 음량 또는 가청도를 수정하는 것.
4. 제1항 또는 제2항에 있어서, 하나 이상의 마이크 입력의 함수로서 렌더링을 동적으로 수정하는 것을 더 포함하는 시스템.
5. 제4항에 있어서, 렌더링을 수정하기 위해 사용되는 상기 마이크 입력으로부터 유도된 정보는 다음 중 하나 이상을 포함하는 시스템.
* 시스템 사용자에 의한 특정 구의 발화 감지;
* 한 명 이상의 시스템 사용자 위치 추정값;
* 청취 공간의 특정 위치에서 N개의 프로그램 스트림 조합 중 임의의 것의 음량 추정값; 또는
* 청취 환경에서 배경 소음과 같은 다른 환경 소리의 음량 추정값.
다수의 스피커(예를 들어, 편성된 스마트 오디오 디바이스 세트의 스피커)를 통해 오디오의 다중 스트림의 재생을 관리하기 위한 발명의 시스템 및 방법의 실시예의 다른 예는 다음을 포함한다:
1. 임의로 배치된 복수의 확성기(예를 들어, 편성된 스마트 오디오 디바이스 세트의 스피커)를 통해 복수의 오디오 프로그램 스트림을 동시에 재생하는 오디오 시스템(예를 들어, 오디오 렌더링 시스템)에 있어서, 상기 프로그램 스트림 중 적어도 하나는 공간적 믹스이고 상기 공간적 믹스의 렌더링은 하나 이상의 추가 프로그램 스트림의 동시 재생에 응답하여 (또는 이와 관련하여) 동적으로 수정되는 시스템.
2. 제1항에 있어서, 공간적 믹스에 대한 상기 수정은 다음 중 하나 이상을 포함하는 시스템:
* 공간적 믹스의 렌더링을 하나 이상의 추가 스트림의 렌더링 위치로부터 멀리 워프, 또는
* 하나 이상의 추가 스트림의 음량에 대한 응답으로 공간적 믹스의 음량 수정.
3. 제1항에 있어서, 하나 이상의 마이크 입력(즉, 하나 이상의 스마트 오디오 디바이스, 예를 들어, 편성된 스마트 오디오 디바이스 세트의 하나 이상의 마이크에 의해 캡처된 신호)의 함수로서 상기 공간적 믹스의 렌더링을 동적으로 수정하는 것을 더 포함하는 시스템.
4. 제3항에 있어서, 하나 이상의 마이크 입력 중 적어도 하나는 사람의 음성을 포함하는(표시하는) 시스템. 선택적으로, 렌더링은 음성의 소스(사람)의 결정된 위치에 응답하여 동적으로 수정된다.
5. 제3항에 있어서, 하나 이상의 마이크 입력 중 적어도 하나는 환경 소음을 포함하는 시스템.
6. 제3항에 있어서, 상기 공간 스트림 또는 상기 하나 이상의 추가 스트림의 음량 추정값은 하나 이상의 마이크 입력 중 적어도 하나로부터 유도되는 시스템.
(일부 실시예에 따른) 동적 비용 유연한 렌더링을 구현하는 실제 고려 사항 중 하나는 복잡성이다. 일부 경우에 객체 위치(메타데이터로 표시될 수 있는, 렌더링될 각 오디오 객체의 위치)가 초당 여러 번 변경될 수 있다는 것을 감안할 때 각 오디오 객체에 대한 각 주파수 대역의 고유한 비용 함수를 실시간으로 해결하는 것이 불가능할 수 있다. 메모리를 희생하면서 복잡성을 줄이기 위한 대안적인 접근 방식은 가능한 모든 객체 위치의 3차원 공간을 샘플링하는 조회 테이블을 사용하는 것이다. 샘플링은 모든 차원에서 동일할 필요는 없다. 도 9b는 예시적인 실시예에서, 스피커 활성화를 나타내는 점의 그래프이다. 이 예에서 x 및 y 차원은 15개의 점으로 샘플링되고 z 차원은 5개의 점으로 샘플링된다. 다른 구현은 더 많은 샘플 또는 더 적은 샘플을 포함할 수 있다. 이 예에 따르면, 각 점은 CMAP 또는 FV 해에 대한 M 스피커 활성화를 나타낸다.
런타임에서, 각 스피커에 대한 실제 활성화를 결정하기 위하여, 가장 가까운 8개의 점의 스피커 활성화 사이의 3선형 보간법이 일부 예에서 사용될 수 있다. 도 10은 일 예에 따른 스피커 활성화를 나타내는 점 사이의 3선형 보간 그래프이다. 이 예에서, 연속적인 선형 보간 프로세스는 제1 및 제2 보간된 점(1005a 및 1005b)을 결정하기 위한 상부 평면의 각 점 쌍의 보간, 제3 및 제4 보간된 점(1010a 및 1010b)를 결정하기 위한 하부 평면의 각 점 쌍의 보간, 상부 평면에서 제5 보간된 점(1015)을 결정하기 위한 제1 및 제2 보간된 점(1005a 및 1005b)의 보간, 하부 평면에서 제6 보간된 점(1020)을 결정하기 위한 제3 및 제4 보간된 점(1010a 및 1010b)의 보간, 및 상부 평면과 하부 평면 사이의 제7 보간된 점(1025)을 결정하기 위한 제5 및 제6 보간된 점(1015, 1020)의 보간을 포함한다. 3선형 보간이 효과적인 보간 방법이지만, 당업자는 3선형 보간이 본 개시의 양상을 구현하는 데 사용될 수 있는 하나의 가능한 보간 방법일 뿐이며, 다른 예는 다른 보간 방법을 포함할 수 있음을 이해할 것이다.
위의 제1 예에서, 반발력이 예를 들어 음성 비서를 위한 음향 공간을 생성하는 데 사용되는 경우, 다른 중요한 개념은 반발력이 없는 렌더링 장면에서 반발력이 있는 장면으로의 전환이다. 원활한 전환을 생성하고 음장이 동적으로 워프되는 느낌을 주기 위하여, 반발력이 없는 이전의 스피커 활성화 세트와 반발력이 있는 새로운 스피커 활성화 세트가 모두 계산되고 일정 기간 동안 보간된다.
일 실시예에 따라 구현된 오디오 렌더링의 예는 다음을 포함하는 오디오 렌더링 방법이다:
2개 이상의 확성기 세트를 통해, 각각 연관된 원하는 지각된 공간 위치를 갖는 하나 이상의 오디오 신호 세트를 렌더링하는 것으로서, 여기에서 확성기 세트의 상대적 활성화는 확성기를 통해 재생되는 상기 오디오 신호의 지각된 공간 위치의 모델, 확성기의 위치에 대한 오디오 객체의 원하는 지각된 공간 위치의 근접도, 및 오디오 신호 세트의 적어도 하나 이상의 속성, 확성기 세트의 하나 이상의 속성 또는 하나 이상의 외부 입력에 의존하는 하나 이상의 추가적인 동적으로 구성 가능한 기능의 함수이다.
도 11을 참조하여, 예시적인 실시예를 설명한다. 본원에 제공된 다른 도면과 같이, 도 11에 도시된 요소의 유형 및 수는 단지 예로서 제공되는 것이다. 다른 구현은 더 많거나 더 적은 수 및/또는 상이한 유형 및 수의 요소를 포함할 수 있다. 도 11은 이 예에서 생활 공간인 청취 환경의 평면도를 보여준다. 이 예에 따르면, 환경(1100)은 좌측 상단에 거실(1110), 하단 중앙에 주방(1115), 우측 하단에 침실(1122)을 포함한다. 생활 공간 전체에 분포된 상자와 원은 확성기 세트(1105a-1105h)를 나타내며, 그 중 적어도 일부는 일부 구현에서 스마트 스피커일 수 있으며, 공간에 편리한 위치에 배치되지만 규정된 표준 레이아웃을 준수하지 않는다(임의로 배치됨). 일부 예에서, 확성기(1105a-1105h)는 하나 이상의 개시된 실시예를 구현하도록 조정될 수 있다. 이 예에서, 환경(1100)은 환경 전체에 분포된 카메라(1111a-1111e)를 포함한다. 일부 구현에서, 환경(1100) 내의 하나 이상의 스마트 오디오 디바이스가 또한 하나 이상의 카메라를 포함할 수 있다. 하나 이상의 스마트 오디오 디바이스는 단일 목적 오디오 디바이스 또는 가상 비서일 수 있다. 그러한 일부 예에서, 선택적인 센서 시스템(130)의 하나 이상의 카메라는 텔레비전(1130) 내에 또는 그 상에, 휴대 전화 내에 또는 확성기(1105b, 1105d, 1105e 또는 1105h) 중 하나 이상과 같은 스마트 스피커 내에 상주할 수 있다. 카메라(1111a-1111e)가 이 개시에 제공된 환경(1100)의 모든 묘사에서 도시되지는 않았지만, 그럼에도 불구하고 각 환경(1100)은 일부 구현에서 하나 이상의 카메라를 포함할 수 있다.
도 12a, 도 12b, 도12c 및 도 12d는 도 11에 도시된 생활 공간의 복수의 상이한 청취 위치 및 방위에 대한 기준 공간 모드에서 공간적 오디오를 유연하게 렌더링하는 예를 도시한다. 도 12a 내지 도 12d는 4가지 예시 청취 위치에서 이 기능을 보여준다. 각 예에서, 사람(1220a)을 가리키는 화살표(1205)는 전방 사운드 스테이지(사람(1220a)이 향하고 있는 곳)의 위치를 나타낸다. 각 예에서, 화살표(1210a)는 좌측 서라운드 필드를 나타내고 화살표(1210b)는 우측 서라운드 필드를 나타낸다.
도 12a에서, 기준 공간 모드가 결정되었고, 공간적 오디오는 거실 소파(1225)에 앉아 있는 사람(1220a)에 대해 유연하게 렌더링되었다. 일부 구현에 따르면, 제어 시스템(예를 들어 도 1a의 제어 시스템(110))이 도 1a의 인터페이스 시스템(105)과 같은 인터페이스 시스템을 통해 수신된 기준 공간 모드 데이터에 따라 기준 공간 모드의 가정된 청취 위치 및/또는 가정된 방위를 결정하도록 구성될 수 있다. 일부 예는 아래에 설명되어 있다. 일부 그러한 예에서, 기준 공간 모드 데이터는 (도 1a의 마이크 시스템(120)과 같은) 마이크 시스템으로부터의 마이크 데이터를 포함할 수 있다.
그러한 일부 예에서, 기준 공간 모드 데이터는 "[깨우기 단어], 텔레비전을 전방 사운드 스테이지로 만들어라"와 같은 깨우기 단어 및 음성 명령에 대응하는 마이크 데이터를 포함할 수 있다. 대안적으로 또는 추가적으로, 마이크 데이터는 예를 들어 DOA(도달 방향) 데이터를 통해 사용자 음성의 소리에 따라 사용자의 위치를 삼각 측량하는 데 사용될 수 있다. 예를 들어, 3개 이상의 확성기(1105a-1105e)는 마이크 데이터를 이용하여 DOA 데이터를 통해 사람(1220a)의 음성에 따라 거실 소파(1225)에 앉아 있는 사람(1220a)의 위치를 삼각 측량할 수 있다. 사람(1220a)의 방위는 사람(1220a)의 위치에 따라 가정될 수 있다. 사람(1220a)이 도 12a에 도시된 위치에 있는 경우, 사람(1220a)은 텔레비전(1130)을 향하고 있는 것으로 가정될 수 있다.
대안적으로, 또는 추가적으로, 사람(1220a)의 위치 및 방위는 (도 1a의 센서 시스템(130)과 같은) 카메라 시스템으로부터의 이미지 데이터에 따라 결정될 수 있다.
일부 예에서, 사람(1220a)의 위치 및 방위는 그래픽 사용자 인터페이스(GUI)를 통해 획득된 사용자 입력에 따라 결정될 수 있다. 일부 그러한 예에 따르면, 제어 시스템은 사람(1220a)이 사람(1220a)의 위치 및 방위를 입력할 수 있게 하는 GUI를 제시하도록 디스플레이 디바이스(예를 들어, 휴대 전화의 디스플레이 디바이스)를 제어하도록 구성될 수 있다.
도 13a는 청취자의 위치 및 방위에 관한 사용자 입력을 수신하기 위한 GUI의 예를 도시한다. 이 예에 따르면, 사용자는 사전에 몇 가지 가능한 청취 위치와 대응하는 방위를 식별하였다. 각 위치 및 대응하는 방위에 대응하는 확성기 위치는 설정 과정에서 이미 입력 및 저장되어 있다. 몇 가지 예가 아래에 설명되어 있다. 예를 들어, 청취 환경 레이아웃 GUI가 제공되었을 수 있고 가능한 청취 위치 및 스피커 위치에 대응하는 위치를 터치하고 가능한 청취 위치의 이름을 지정하도록 사용자에게 프롬프트될 수 있다. 이 예에서, 도 13a에 도시된 시간에, 사용자는 "거실 소파" 가상 버튼을 터치함으로써 사용자의 위치에 관한 사용자 입력을 이미 GUI(1300)에 제공하였다. L자형 소파(1225)가 주어지면 2개의 가능한 정면 위치가 있기 때문에, 사용자는 사용자가 어느 방향을 향하고 있는지 표시하도록 프롬프트된다.
도 12b에서는, 거실의 독서용 의자(1215)에 앉아 있는 사람(1220a)에 대해 기준 공간 모드가 결정되었고, 공간적 오디오가 유연하게 렌더링되었다. 도 12c에서는, 주방 카운터(1230) 옆에 서 있는 사람(1220a)에 대해 기준 공간 모드가 결정되었고, 공간적 오디오가 유연하게 렌더링되었다. 도 12d에서는, 아침 식탁(1240)에 앉아 있는 사람(1220a)에 대해 기준 공간 모드가 결정되었고, 공간적 오디오가 유연하게 렌더링되었다. 화살표(1205)로 표시된 바와 같이, 전방 사운드 스테이지 방위는 환경(1100) 내의 특정 확성기와 반드시 일치하지는 않는다. 청취자의 위치 및 방위가 변하기 때문에, 공간적 믹스의 다양한 구성요소를 렌더링하는 스피커의 책임도 변한다.
도 12a 내지 도 12d 중 어느 하나의 사람(1220a)에 대해, 그 또는 그녀는 도시된 위치 및 방위 각각에 대해 의도된 대로 공간적 믹스를 듣는다. 그러나, 경험은 공간 내의 추가 청취자에 대해서는 최적이 아닐 수 있다. 도 12e는 두 명의 청취자가 청취 환경의 상이한 위치에 있을 때 기준 공간 모드 렌더링의 예를 도시한다. 도 12e는 소파에 있는 사람(1220a) 및 주방에 서 있는 사람(1220b)에 대한 기준 공간 모드 렌더링을 도시한다. 이 예에서, 렌더링은 사람(1220a)에 대해 최적일 수 있지만, 사람(1220b)은 서라운드 필드로부터의 신호를 주로 들을 것이고 그/그녀의 위치가 주어진 전방 사운드 스테이지는 거의 들을 수 없을 것이다.
이 경우 및 예측할 수 없는 방식으로 이동하는 공간에 여러 사람이 있을 수 있는 다른 경우(예를 들어 파티)에는 이러한 분산된 청중에게 더 적합한 렌더링 모드가 필요하다. 도 13b는 예시적인 일 실시예에 따른 분산 공간 렌더링 모드를 도시한다. 분산 공간 모드의 이 예에서 전방 사운드 스테이지는 이제 소파에서 청취자의 전방 위치에서만이 아니라 전체 청취 공간에 걸쳐 균일하게 렌더링된다. 전방 사운드 스테이지의 이러한 분포는 구름 모양(1335)을 따라 원을 그리는 다중 화살표(1305d)로 표현되며, 모든 화살표(1305d)는 동일한 길이 또는 대략적으로 동일한 길이를 갖는다. 화살표(1305d)가 의도하는 의미는 묘사된 복수의 청취자(사람 1220a-1220f)가 위치에 관계없이 믹스의 이 부분을 모두 똑같이 잘 들을 수 있다는 것이다. 그러나, 이 균일한 분포가 믹스의 모든 구성요소에 적용되면 믹스의 모든 공간적 측면이 손실된다. 사람 1220a-1220f는 본질적으로 모노 오디오를 듣는다. 일부의 공간감을 유지하기 위하여, 각각 화살표 1210a 및 1210b로 표시된 믹스의 왼쪽 및 오른쪽 서라운드 구성요소는 여전히 공간 방식으로 렌더링된다. (많은 경우에 왼쪽 및 오른쪽 측면 서라운드, 왼쪽 및 오른쪽 후면 서라운드, 오버헤드 및 이 공간 내에 공간적 위치가 있는 동적 오디오 객체가 있을 수 있다. 화살표 1210a 및 1210b는 이들 가능성 모두의 왼쪽 및 오른쪽 부분을 나타내기 위한 것이다.) 그리고 지각된 공간감을 최대화하기 위하여, 이러한 구성요소가 공간화되는 영역은, 이전에 전방 사운드 스테이지만 차지했던 공간을 포함하여, 전체 청취 공간을 더 완벽하게 덮도록 확장되었다. 서라운드 구성요소가 렌더링되는 이러한 확장된 영역은 도 13b에 도시된 상대적으로 긴 화살표(1210a 및 1210b)를 도 12a에 도시된 상대적으로 더 짧은 화살표(1210a 및 1210b)와 비교함으로써 이해될 수 있다. 또한, 기준 공간 모드에서 서라운드 구성요소를 나타내는 도 12a에 도시된 화살표(1210a 및 1210b)는 대략 사람(1220a)의 측면으로부터 청취 환경의 후면으로 연장되고 청취 환경의 전방 스테이지 영역으로 연장되지 않는다.
이 예에서, 전방 사운드 스테이지의 균일한 분포 및 서라운드 구성요소의 확장된 공간화를 구현하는 데 주의를 기울여 이러한 구성요소의 지각된 음량이 기준 공간 모드에 대한 렌더링과 비교하여 주로 유지되도록 한다. 목표는 믹스 내에서 각 구성요소의 상대적 수준을 유지하면서 여러 사람에게 최적화되도록 이러한 구성요소의 공간적 인상을 이동하는 것이다. 예를 들어 균일한 분포의 결과로 전방 사운드 스테이지가 서라운드 구성요소에 비해 두 배 더 커지면 바람직하지 않을 것이다.
다양한 기준 렌더링 모드와 예시적인 실시예의 분산 렌더링 모드 사이를 전환하기 위하여, 일부 예에서 사용자는 편성된 스피커 시스템과 연관된 음성 비서와 상호작용할 수 있다. 예를 들어, 기준 공간 모드에서 오디오를 재생하기 위하여, 사용자는 음성 비서에 대한 깨우기 단어를 말한 후(예를 들어 "들어봐 돌비(Listen Dolby)") "나에게 [콘텐츠 이름 삽입] 재생해 줘" 또는 "개인 모드에서 [콘텐츠 이름 삽입] 재생해 줘" 명령을 발화할 수 있다. 그런 다음, 시스템과 연관된 다양한 마이크의 녹음에 기초하여, 시스템은 사용자의 위치와 방위 또는 미리 결정된 여러 구역 중 사용자에게 가장 가까운 것을 자동으로 결정하고, 이 결정된 위치에 대응하는 기준 모드에서 오디오 재생을 시작할 수 있다. 분산 공간 모드에서 오디오를 재생하기 위하여, 사용자는 상이한 명령, 예를 들어, "분산 모드에서 [콘텐츠 이름 삽입] 재생해 줘"를 발화할 수 있다.
대안적으로 또는 추가로, 시스템은 다른 입력에 기초하여 기준 모드와 분산 모드 사이를 자동으로 전환하도록 구성될 수 있다. 예를 들어, 시스템에는 공간에 있는 청취자의 수와 위치를 자동으로 결정하는 수단이 있을 수 있다. 이것은 예를 들어 연관된 마이크로부터 공간 내의 음성 활동을 모니터링함으로써 및/또는 하나 이상의 카메라와 같은 다른 연관된 센서의 사용을 통해 달성될 수 있다. 이 경우에, 시스템은 또한 도 12e에 도시된 바와 같은 기준 공간 모드와 도 13b에 도시된 바와 같은 완전 분산 공간 모드 사이에서 렌더링을 연속적으로 변경하는 메커니즘으로 구성될 수 있다. 이 연속체에서 렌더링이 설정되는 지점은 예를 들어 공간 내에 보고된 사람 수의 함수로 계산될 수 있다.
도 12a, 도 14a 및 도 14b는 이러한 거동을 예시한다. 도 12a에서, 시스템은 텔레비전을 향하고 있는 소파의 단일 청취자(사람 1220a)만을 감지하므로, 렌더링 모드는 이 청취자 위치 및 방위에 대한 기준 공간 모드로 설정된다. 도 14a는 일 예에 따른 부분적으로 분산된 공간 렌더링 모드를 도시한다. 도 14a에서, 사람(1220a) 뒤에 두 명의 추가적인 사람(사람(1220e, 1220f))이 감지되고, 렌더링 모드는 기준 공간 모드와 완전 분산 공간 모드 사이의 지점에 설정된다. 이것은 전방 사운드 스테이지의 일부(화살표 1305a, 1305b 및 1305c)가 추가 청취자(사람 1220e 및 1220f)를 향해 뒤로 당겨지는 것으로 묘사되지만, 여전히 기준 공간 모드의 전방 사운드 스테이지의 위치에 더 중점을 두고 있다. 이러한 강조는 화살표(1205) 및 화살표(1305b 및 1305c)의 길이와 비교하여, 화살표(1305a)의 상대적으로 더 긴 길이에 의해 도 14a에 표시된다. 또한, 화살표(1210a, 1210b)의 길이 및 위치로 표시된 바와 같이, 서라운드 필드는 기준 공간 모드의 전방 사운드 스테이지의 위치를 향해 부분적으로만 확장된다.
도 14b는 일 예에 따른 완전 분산 공간 렌더링 모드를 도시한다. 일부 예에서, 시스템은 전체 공간에 걸쳐 있는 많은 청취자(사람 1220a, 1220e, 1220f, 1220g, 1220h 및 1220i)를 감지했을 수 있고, 시스템은 렌더링 모드를 완전 분산 공간 모드로 자동 설정할 수 있다. 다른 예에서, 렌더링 모드는 사용자 입력에 따라 설정되었을 수 있다. 완전 분산 공간 모드는 화살표(1305d)의 균일하거나 실질적으로 균일한 길이뿐만 아니라 화살표(1210a 및 1210b)의 길이 및 위치에 의해 도 14b에 표시된다.
앞의 예에서, 분산 렌더링 모드에서 더 균일한 분포로 렌더링된 공간적 믹스 부분이 전방 사운드 스테이지로 지정된다. 많은 공간적 믹스의 맥락에서, 전통적인 믹싱 방식이 일반적으로 영화의 대화 및 음악의 리드 보컬, 드럼 및 베이스와 같은 믹스의 가장 중요한 부분을 전방 사운드 스테이지에 배치하기 때문에 이는 의미가 있다. 이는 대부분의 5.1 및 7.1 서라운드 사운드 믹스뿐만 아니라 돌비 프로로직 또는 돌비 서라운드와 같은 알고리즘을 사용하여 5.1 또는 7.1로 업믹싱된 스테레오 콘텐츠에 해당되며, 여기에서 전방 사운드 스테이지는 왼쪽, 오른쪽 및 중앙 채널에 의해 지정된다. 이는 오디오 데이터가 y< 0.5의 (x,y) 공간 위치를 나타내는 공간 메타데이터에 따라 전방 사운드 스테이지로 지정될 수 있는, 돌비 애트모스와 같은, 많은 객체 기반 오디오 믹스에서도 마찬가지이다. 그러나, 객체 기반 오디오를 사용하면, 믹싱 엔지니어가 3D 공간의 어느 위치에나 자유롭게 오디오를 배치할 수 있다. 특히, 객체 기반 음악의 경우, 믹싱 엔지니어는 기존 믹싱 표준에서 벗어나 리드 보컬과 같이 믹스의 중요한 부분으로 간주되는 부분을 오버헤드와 같은 비전통적인 위치에 배치하기 시작했다. 그러한 경우 믹스의 어떤 구성요소가 분산 렌더링 모드에 대해 더 분산된 공간 방식으로 렌더링하기에 적절한지 결정하기 위한 간단한 규칙을 구성하는 것이 어려워진다. 객체 기반 오디오는 3D 공간에서 신호가 렌더링되어야 하는 위치를 설명하는 각 구성 오디오 신호와 연관된 메타데이터를 이미 포함한다. 설명된 문제를 처리하기 위해, 일부 구현에서 콘텐츠 작성자가 분산 렌더링 모드에서 더 분산된 공간 렌더링에 적합한 것으로 특정 신호에 플래그를 지정할 수 있도록 하는 추가 메타데이터가 추가될 수 있다. 렌더링하는 동안, 시스템은 이 메타데이터를 사용하여 더 분산된 렌더링이 적용되는 믹스의 구성요소를 선택할 수 있다. 이렇게 하면 콘텐츠 작성자가 콘텐츠의 특정 부분에 대해 분산 렌더링 모드가 들리는 방식을 제어할 수 있다.
일부 대안적인 구현에서, 제어 시스템은 공간적으로 더 분산된 방식으로 렌더링될 오디오 데이터의 하나 이상의 요소를 식별하기 위해 콘텐츠 유형 분류기를 구현하도록 구성될 수 있다. 일부 예에서, 콘텐츠 유형 분류기는 오디오 데이터가 공간적으로 더 분산된 방식으로 렌더링되어야 할 지 여부를 결정하기 위한 콘텐츠 유형 메타데이터(예를 들어, 오디오 데이터가 대화, 보컬, 타악기, 베이스 등임을 나타내는 메타데이터)를 지칭할 수 있다. 이러한 일부 구현에 따르면, 공간적으로 더 분산된 방식으로 렌더링될 콘텐츠 유형 메타데이터는 예를 들어 디스플레이 디바이스 상에 디스플레이된 GUI를 통한 사용자 입력에 따라 사용자에 의해 선택가능할 수 있다.
기준 공간 모드에서보다 공간적으로 더 분산된 방식으로 공간적 오디오 믹스의 하나 이상의 요소를 렌더링하는 데 사용되는 정확한 메커니즘은 상이한 실시예에서 다양할 수 있고, 본 개시는 이러한 모든 메커니즘을 커버하도록 의도된다. 한 가지 예시적인 메커니즘은 청취 공간 전체에 더 균일하게 분포된 여러 연관된 렌더링 위치를 사용하여 이러한 각 요소의 여러 복사본을 생성하는 것을 포함한다. 일부 구현에서, 분산 공간 모드에 대한 렌더링 위치 및/또는 렌더링 위치의 수는 사용자가 선택할 수 있는 한편, 다른 구현에서 분산 공간 모드에 대한 렌더링 위치 및/또는 렌더링 위치의 수는 사전 설정될 수 있다. 이러한 일부 구현에서, 사용자는 분산 공간 모드에 대한 다수의 렌더링 위치를 선택할 수 있고 렌더링 위치는 미리 설정될 수 있으며, 예를 들어 청취 환경 전체에 균일하게 이격될 수 있다. 그런 다음 시스템은 원래 의도된 위치에 있는 원본 단일 요소가 아니라 분산된 위치 세트에서 이러한 모든 복사본을 렌더링한다. 일부 구현에 따르면, 모든 복사본의 결합된 렌더링과 연관된 지각된 수준이 기준 렌더링 모드에서 원본 단일 요소의 수준과 동일하거나 실질적으로 동일하도록 (예를 들어, 2dB, 3dB, 4dB, 5dB, 6dB 등 와 같은 데시벨의 임계값 수 내에서) 복사본의 수준이 수정될 수 있다.
CMAP 또는 FV 유연한 렌더링 시스템, 또는 두 시스템의 하이브리드의 맥락에서 더 세련된 메커니즘이 구현될 수 있다. 이러한 시스템에서, 공간적 믹스의 각 요소는 공간의 특정 위치에서 렌더링되며 각 요소와 연관된 것은 가정된 고정 위치, 예를 들어 5.1 또는 7.1 서라운드 사운드 믹스에서 채널의 표준 위치, 또는 돌비 애트모스와 같은 객체 기반 오디오의 경우와 같이 시변 위치일 수 있다.
도 15는 2D 평면에서 CMAP 및 FV 렌더링 시스템에 대한 렌더링 위치의 예를 도시한다. 각 번호의 작은 원은 예시적인 렌더링 위치를 나타내며, 렌더링 시스템은 원(1500) 위 또는 내부의 임의의 곳에서 공간적 믹스의 요소를 렌더링할 수 있다. L, R, C, Lss, Rss, Lrs, 및 Rrs 로 표시된 원(1500) 상의 위치는 이 예에서 7.1 서라운드 믹스의 7개 전체 범위 채널의 고정된 표준 렌더링 위치를 나타낸다: 왼쪽(L), 오른쪽(R), 중앙(C), 좌측방 서라운드(Lss), 우측방 서라운드 (Rss), 좌후방 서라운드(Lrs) 및 우후방 서라운드(Rrs). 이러한 맥락에서, L, R, C 근처의 렌더링 위치는 전방 사운드 스테이지로 간주된다. 기준 렌더링 모드(본원에서 또한 "기준 공간 모드"로 지칭함)의 경우, 청취자는 C 렌더링 위치를 향하는 큰 원의 중앙에 위치하는 것으로 가정된다. 다양한 청취 위치 및 방위에 대한 참조 렌더링을 묘사하는 도 12a 내지 도 12d의 경우, 도 15의 중심을 청취자 상단에 중첩하는 것으로 개념화할 수 있으며, 도 15는 C 위치가 전방 사운드 스테이지(화살표 1205) 위치와 정렬되고 도 15의 원(1500)이 구름 모양(1235)을 둘러싸도록 추가로 회전 및 크기 조정된다. 그러면 결과적인 정렬은 도 15의 임의의 렌더링 위치 중 어느 것에 대한 도 12a 내지 도 12d의 스피커 중 어느 것의 상대적 근접도를 설명한다. 일부 구현에서 CMAP 및 FV 렌더링 시스템 모두에 대한 특정 위치에서 공간적 믹스의 요소를 렌더링할 때 스피커의 상대적 활성화를 크게 지배하는 것은 이러한 근접도이다.
스튜디오에서 공간적 오디오가 믹싱될 때, 스피커는 일반적으로 청취 위치 주위로 일정한 거리에 배치된다. 대부분의 경우, 생성된 원이나 반구의 경계 내에 스피커가 없다. 오디오가 "방 안에"(예를 들어 도 15의 중앙) 배치될 때, 렌더링은 "어디에선지 모르는 소리(sound of nowhere)"를 획득하기 위하여 주변에 있는 모든 스피커의 발사를 향하는 경향이 있다. CMAP 및 FV 렌더링 시스템에서, 스피커 활성화를 제어하는 비용 함수의 근접도 패널티 항을 변경하여 유사한 효과를 얻을 수 있다. 특히, 도 15의 원(1500)의 둘레 상의 렌더링 위치에 대해, 근접도 페널티 항은 원하는 렌더링 위치에서 멀리 떨어진 스피커의 사용에 완전한 페널티를 부과한다. 이와 같이, 의도한 렌더링 위치 근처의 스피커만이 실질적으로 활성화된다. 원하는 렌더링 위치가 원의 중심(반지름 0)을 향해 이동함에 따라, 근접도 페널티 항은 0으로 줄어들어 중심에서 어떤 스피커에게도 우선권이 주어지지 않는다. 반경 0의 렌더링 위치에 대한 대응하는 결과는 청취 공간 전체에 걸쳐 완전히 균일하게 지각된 오디오 분포이며, 이는 또한 가장 분산된 공간 렌더링 모드에서 믹스의 특정 요소에 대해 정확히 원하는 결과이다.
반경 0에서 CMAP 및 FV 시스템의 이러한 거동이 주어지면, 의도한 공간 위치를 반경 0 지점을 향해 워프함으로써 공간적 믹스의 임의의 요소에 대한 공간적으로 더 분산된 렌더링을 달성할 수 있다. 이 워프는 원래 의도된 위치와 0 반경 사이에서 연속적으로 만들어질 수 있으므로, 기준 공간 모드와 다양한 분산 공간 모드 사이에 자연스러운 연속 제어를 제공할 수 있다. 도 16a, 도 16b, 도 16c 및 도 16d는 다양한 분산 공간 렌더링 모드를 달성하기 위해 도 15의 모든 렌더링 지점에 적용된 워프의 예를 도시한다. 도 16d는 완전히 분산된 렌더링 모드를 달성하기 위해 도 15의 모든 렌더링 포인트에 적용된 그러한 워프의 예를 도시한다. L, R, C 지점(전방 사운드 스테이지)이 반경 0으로 축소되어, 완전히 균일한 방식으로 렌더링을 보장함을 알 수 있다. 또한, Lss 및 Rss 렌더링 지점은 원의 둘레를 따라 원래의 전방 사운드 스테이지로 당겨져 공간화된 서라운드 필드(Lss, Rss, Lbs 및 Rbs)가 전체 청취 영역을 둘러싼다. 이 워프는 전체 렌더링 공간에 적용되며, 도 15의 모든 렌더링 지점이 7.1 표준 위치의 워프에 상응하는 도 16d의 새로운 위치로 워프되었음을 알 수 있다. 도 16d에서 참조된 공간 모드는 본원에서 "가장 분산된 공간 모드" 또는 "완전 분산 공간 모드"로 지칭될 수 있는 것의 한 예이다.
도 16a, 도 16b 및 도 16c는 도 15에 나타낸 분산 공간 모드와 도 16d에 나타낸 분산 공간 모드 사이의 중간 분산 공간 모드의 다양한 예를 나타낸다. 도 16b는 도 15에 나타낸 분산 공간 모드와 도 16d에 나타낸 분산 공간 모드 사이의 중간점을 나타낸다. 도 16a는 도 15에 나타낸 분산 공간 모드와 도 16b에 나타낸 분산 공간 모드 사이의 중간점을 나타낸다. 도 16c는 도 16b에 나타낸 분산 공간 모드와 도 16d에 나타낸 분산 공간 모드 사이의 중간점을 나타낸다.
도 17은 사용자가 렌더링 모드를 선택할 수 있는 GUI의 예를 도시한다. 일부 구현에 따르면, 제어 시스템은 디스플레이 상에 GUI(1700), 또는 유사한 GUI를 디스플레이하기 위해 디스플레이 디바이스(예를 들어, 휴대 전화)를 제어할 수 있다. 디스플레이 디바이스는 디스플레이에 근접한(예를 들어 디스플레이 위 또는 디스플레이 아래) 센서 시스템(터치 센서 시스템 또는 제스처 센서 시스템)을 포함할 수 있다. 제어 시스템은 센서 시스템으로부터의 센서 신호의 형태로 GUI(1700)를 통해 사용자 입력을 수신하도록 구성될 수 있다. 센서 신호는 GUI(1700)의 요소에 대응하는 사용자 터치 또는 제스처에 대응할 수 있다.
이 예에 따르면, GUI는 사용자가 렌더링 모드를 선택하기 위해 상호작용할 수 있는 가상 슬라이더(1701)를 포함한다. 화살표(1703)로 표시된 바와 같이, 사용자는 슬라이더가 트랙(1707)을 따라 어느 한 방향으로 움직이게 할 수 있다. 이 예에서, 선(1705)은 본원에 개시된 기준 공간 모드 중 하나와 같은, 기준 공간 모드에 대응하는 가상 슬라이더(1701)의 위치를 나타낸다. 다른 구현은 가상 노브 또는 다이얼과 같이, 사용자가 상호작용할 수 있는 GUI의 다른 기능을 제공할 수 있다. 일부 구현에 따르면, 기준 공간 모드를 선택한 후, 제어 시스템은 도 13a에 도시된 것과 같은 GUI 또는 사용자가 기준 공간 모드에 대한 청취자 위치 및 방위를 선택할 수 있게 하는 다른 그러한 GUI를 제시할 수 있다.
이 예에서, 선(1725)은 도 13b에 도시된 분산 공간 모드와 같은, 가장 분산된 공간 모드에 대응하는 가상 슬라이더(1701)의 위치를 나타낸다. 이 구현에 따르면, 선(1710, 1715, 1720)은 중간 공간 모드에 대응하는 가상 슬라이더(1701)의 위치를 나타낸다. 이 예에서, 선(1710)의 위치는 도 16a의 것과 같은 중간 공간 모드에 대응한다. 여기에서, 선(1715)의 위치는 도 16b의 것과 같은 중간 공간 모드에 대응한다. 이 구현에서, 선(1720)의 위치는 도 16c의 것과 같은 중간 공간 모드에 대응한다. 이 예에 따르면, 사용자는 선택된 렌더링 모드를 구현하도록 제어 시스템에 지시하기 위하여 "적용" 버튼과 상호작용(예를 들어, 터치)할 수 있다.
그러나, 다른 구현은 사용자가 전술한 분산 공간 모드 중 하나를 선택하는 다른 방법을 제공할 수 있다. 일부 예에 따르면, 사용자는 "반 분산 모드로 [콘텐츠 이름 삽입] 재생"과 같은 음성 명령을 발화할 수 있다. "반 분산 모드"는 도 17의 GUI(1700)에서 선(1715)의 위치에 의해 표시된 분산 모드에 대응할 수 있다. 일부 그러한 예에 따르면, 사용자는 "1/4 분산 모드로 [콘텐츠 이름 삽입] 재생"과 같은 음성 명령을 발화할 수 있다. "1/4 분산 모드"는 선(1710)의 위치가 나타내는 분산 모드에 대응할 수 있다.
도 18은 본원에 개시된 것과 같은 장치 또는 시스템에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타내는 흐름도이다. 방법(1800)의 블록은, 본원에 설명된 다른 방법과 마찬가지로, 표시된 순서대로 수행될 필요는 없다. 일부 구현에서, 방법(1800)의 블록 중 하나 이상이 동시에 수행될 수 있다. 또한, 방법(1800)의 일부 구현은 도시 및/또는 설명된 것보다 더 많거나 더 적은 블록을 포함할 수 있다. 방법(1800)의 블록은 하나 이상의 디바이스에 의해 수행될 수 있으며, 이는 도 1a에 도시되고 위에서 설명된 제어 시스템(110)과 같은 제어 시스템, 또는 다른 개시된 제어 시스템 예 중 하나일 수 있다(또는 포함할 수 있다).
이 구현에서, 블록(1805)은 제어 시스템에 의해 및 인터페이스 시스템을 통해 하나 이상의 오디오 신호 및 연관된 공간 데이터를 포함하는 오디오 데이터를 수신하는 것을 포함한다. 이 예에서, 공간 데이터는 오디오 신호에 대응하는 의도한 지각된 공간 위치를 나타낸다. 여기에서, 공간 데이터는 채널 데이터 및/또는 공간 메타데이터를 포함한다.
이 예에서, 블록(1810)은 제어 시스템에 의해 렌더링 모드를 결정하는 것을 포함한다. 렌더링 모드를 결정하는 것은, 일부 경우에, 인터페이스 시스템을 통해 렌더링 모드 표시를 수신하는 것을 포함할 수 있다. 렌더링 모드 표시를 수신하는 것은, 예를 들어, 음성 명령에 대응하는 마이크 신호를 수신하는 것을 포함할 수 있다. 일부 예에서, 렌더링 모드 표시를 수신하는 것은 그래픽 사용자 인터페이스를 통해 사용자 입력에 대응하는 센서 신호를 수신하는 것을 포함할 수 있다. 센서 신호는, 예를 들어, 터치 센서 신호 및/또는 제스처 센서 신호일 수 있다.
일부 구현에서, 렌더링 모드 표시를 수신하는 것은 청취 영역에 있는 사람 수의 표시를 수신하는 것을 포함할 수 있다. 그러한 일부 예에 따르면, 제어 시스템은 청취 영역에 있는 사람 수에 적어도 부분적으로 기초하여 렌더링 모드를 결정하도록 구성될 수 있다. 일부 그러한 예에서, 청취 영역에 있는 사람 수의 표시는 마이크 시스템으로부터의 마이크 데이터 및/또는 카메라 시스템으로부터의 이미지 데이터에 기초할 수 있다.
도 18에 도시된 예에 따르면, 블록(1815)은 렌더링된 오디오 신호를 생성하기 위하여, 블록(1810)에서 결정된 렌더링 모드에 따라 환경의 확성기 세트를 통한 재생을 위해 제어 시스템에 의해 오디오 데이터를 렌더링하는 것을 포함한다. 이 예에서, 오디오 데이터를 렌더링하는 것은 환경에서 확성기 세트의 상대적 활성화를 결정하는 것을 포함한다. 여기에서, 렌더링 모드는 기준 공간 모드와 하나 이상의 분산 공간 모드 사이에서 가변적이다. 이 구현에서, 기준 공간 모드는 가정된 청취 위치와 방위를 갖는다. 이 예에 따르면, 하나 이상의 분산 공간 모드에서, 오디오 데이터의 하나 이상의 요소는 기준 공간 모드에서보다 공간적으로 더 분산된 방식으로 렌더링되거나 각각 렌더링된다. 이 예에서, 하나 이상의 분산 공간 모드에서, 오디오 데이터의 나머지 요소의 공간 위치는 기준 공간 모드에서보다 더 완전하게 환경의 렌더링 공간에 뻗쳐 있도록 워프된다.
일부 구현에서, 기준 공간 모드에서보다 공간적으로 더 분산된 방식으로 오디오 데이터의 하나 이상의 요소를 렌더링하는 것은 하나 이상의 요소의 복사본을 생성하는 것을 포함할 수 있다. 일부 그러한 구현은 환경 전반에 걸쳐 분산된 위치 세트에서 모든 복사본을 동시에 렌더링하는 것을 포함할 수 있다.
일부 구현에 따르면, 렌더링은 CMAP, FV 또는 이들의 조합에 기초할 수 있다. 기준 공간 모드에서보다 공간적으로 더 분산된 방식으로 오디오 데이터의 하나 이상의 요소를 렌더링하는 것은 하나 이상의 요소 각각의 렌더링 위치를 0 반경을 향해 워프하는 것을 포함할 수 있다.
이 예에서, 블록(1820)은 제어 시스템에 의해 및 인터페이스 시스템을 통해 환경의 확성기 세트의 적어도 일부 확성기에 렌더링된 오디오 신호를 제공하는 것을 포함한다.
일부 구현에 따르면, 렌더링 모드는 기준 공간 모드로부터 가장 분산된 공간 모드에 이르는 렌더링 모드들의 연속체로부터 선택 가능할 수 있다. 일부 그러한 구현에서, 제어 시스템은 인터페이스 시스템을 통해 수신된 기준 공간 모드 데이터에 따라 기준 공간 모드의 가정된 청취 위치 및/또는 방위를 결정하도록 더 구성될 수 있다. 일부 그러한 구현에 따르면, 기준 공간 모드 데이터는 마이크 시스템으로부터의 마이크 데이터 및/또는 카메라 시스템으로부터의 이미지 데이터를 포함할 수 있다. 그러한 일부 예에서, 기준 공간 모드 데이터는 음성 명령에 대응하는 마이크 데이터를 포함할 수 있다. 대안적으로, 또는 추가적으로, 기준 공간 모드 데이터는 청취 환경에서 사람의 하나 이상의 발화의 위치에 대응하는 마이크 데이터를 포함할 수 있다. 일부 그러한 예에서, 기준 공간 모드 데이터는 청취 환경에서 사람의 위치 및/또는 방위를 나타내는 이미지 데이터를 포함할 수 있다.
그러나, 일부 경우에 장치 또는 시스템은 디스플레이 디바이스 및 디스플레이 디바이스에 근접한 센서 시스템을 포함할 수 있다. 제어 시스템은 그래픽 사용자 인터페이스를 제공하도록 디스플레이 디바이스를 제어하도록 구성될 수 있다. 기준 공간 모드 데이터를 수신하는 것은 그래픽 사용자 인터페이스를 통한 사용자 입력에 대응하는 센서 신호를 수신하는 것을 포함할 수 있다.
일부 구현에 따르면, 공간적으로 더 분산된 방식으로 각각 렌더링된 오디오 데이터의 하나 이상의 요소는 전방 사운드 스테이지 데이터, 음악 보컬, 대화, 베이스, 타악기 및/또는 기타 솔로 또는 리드 악기에 대응할 수 있다. 일부 경우에, 전방 사운드 스테이지 데이터는 돌비 5.1, 돌비 7.1 또는 돌비 9.1 형식으로 수신되거나 업믹싱된 오디오 데이터의 왼쪽, 오른쪽 또는 중앙 신호를 포함할 수 있다. 일부 예에서, 전방 사운드 스테이지 데이터는 돌비 애트모스 형식으로 수신되고 y < 0.5인 (x,y) 공간 위치를 나타내는 공간 메타데이터를 갖는 오디오 데이터를 포함할 수 있다.
일부 예에서, 오디오 데이터는 오디오 데이터의 어떤 요소가 공간적으로 더 분산된 방식으로 렌더링되어야 하는지를 나타내는 공간 분포 메타데이터를 포함할 수 있다. 그러한 일부 예에서, 제어 시스템은 공간 분포 메타데이터에 따라 공간적으로 더 분산된 방식으로 렌더링될 오디오 데이터의 하나 이상의 요소를 식별하도록 구성될 수 있다.
대안적으로, 또는 추가적으로, 제어 시스템은 공간적으로 더 분산된 방식으로 렌더링될 오디오 데이터의 하나 이상의 요소를 식별하기 위해 콘텐츠 유형 분류기를 구현하도록 구성될 수 있다. 일부 예에서, 콘텐츠 유형 분류기는 오디오 데이터가 공간적으로 더 분산된 방식으로 렌더링될 지의 여부를 결정하기 위하여 콘텐츠 유형 메타데이터(예를 들어, 오디오 데이터가 대화, 보컬, 타악기, 베이스 등임을 나타내는 메타데이터)를 참조할 수 있다. 이러한 일부 구현에 따르면, 공간적으로 더 분산된 방식으로 렌더링될 콘텐츠 유형 메타데이터는 예를 들어 디스플레이 디바이스 상에 디스플레이된 GUI를 통한 사용자 입력에 따라 사용자에 의해 선택가능할 수 있다.
대안적으로, 또는 추가적으로, 콘텐츠 유형 분류기는 렌더링 시스템과 함께 오디오 신호에 대해 직접적으로 작동할 수 있다. 예를 들어, 분류기는 오디오 신호를 분석하고 공간적으로 더 분산된 방식의 렌더링에 적절하다고 간주될 수 있는 콘텐츠 유형(보컬, 리드 기타, 드럼 등)에 속하는지 결정하기 위해 다양한 콘텐츠 유형에 대해 훈련된 신경망을 사용하여 구현될 수 있다. 그러한 분류는 연속적이고 동적인 방식으로 수행될 수 있고, 결과적인 분류 결과는 또한 연속적이고 동적인 방식으로 공간적으로 더 분산된 방식으로 렌더링되는 신호 세트를 조정할 수 있다. 일부 그러한 구현은 당업계에 공지된 방법에 따라 그러한 동적 분류 시스템을 구현하기 위해 신경망과 같은 기술의 사용을 수반할 수 있다.
일부 예에서, 하나 이상의 분산 공간 모드 중 적어도 하나는 적어도 하나의 요소의 공간 위치에 시변 수정을 적용하는 것을 포함할 수 있다. 그러한 일부 예에 따르면, 시변 수정은 주기적 수정일 수 있다. 예를 들어, 주기적 수정은 청취 환경의 주변부 주위에 하나 이상의 렌더링 위치를 회전시키는 것을 포함할 수 있다. 이러한 일부 구현에 따르면, 주기적 수정은 환경에서 재생되는 음악의 템포, 환경에서 재생되는 음악의 비트, 또는 환경에서 재생되는 오디오 데이터의 하나 이상의 다른 특징을 포함할 수 있다. 예를 들어, 일부 그러한 주기적 수정은 2개, 3개, 4개 또는 그 이상의 렌더링 위치 사이를 교대하는 것을 포함할 수 있다. 교대는 환경에서 재생되는 음악의 비트에 대응할 수 있다. 일부 구현에서, 주기적 수정은 사용자 입력에 따라, 예를 들어, 하나 이상의 음성 명령에 따라, GUI를 통해 수신된 사용자 입력에 따라 선택 가능할 수 있다.
도 19는 환경에 있는 3개의 오디오 디바이스 사이의 기하학적 관계의 예를 도시한다. 이 예에서, 환경(1900)은 텔레비전(1901), 소파(1903) 및 5개의 오디오 디바이스(1905)를 포함하는 방이다. 이 예에 따르면, 오디오 디바이스(1905)는 환경(1900)의 위치 1 내지 5에 있다. 이 구현에서, 각 오디오 디바이스(1905)는 적어도 3개의 마이크를 갖는 마이크 시스템(1920) 및 적어도 하나의 스피커를 포함하는 스피커 시스템(1925)을 포함한다. 일부 구현에서, 각 마이크 시스템(1920)은 마이크의 배열을 포함한다. 일부 구현에 따르면, 각 오디오 디바이스(1905)는 적어도 3개의 안테나를 포함하는 안테나 시스템을 포함할 수 있다.
본원에 개시된 다른 예와 같이, 도 19에 도시된 요소의 유형, 수 및 배열은 단지 예로서 만들어진 것이다. 다른 구현은 예를 들어 더 많거나 더 적은 수의 오디오 디바이스(1905), 상이한 위치에 있는 오디오 디바이스(1905) 등과 같은 요소의 상이한 유형, 수 및 배열을 가질 수 있다.
이 예에서, 삼각형(1910a)은 위치 1, 2 및 3에 꼭지점을 갖는다. 여기에서, 삼각형(1910a)은 변 12, 23a 및 13a를 갖는다. 이 예에 따르면, 변 12와 23a 사이의 각도는 이고, 변 12와 13a 사이의 각도는 이고, 변 23a와 13a 사이의 각도는 이다. 이러한 각도는 아래에서 더 자세히 설명되는 바와 같이 DOA 데이터에 따라 결정될 수 있다.
일부 구현에서, 삼각형 변의 상대적 길이만이 결정될 수 있다. 대안적인 구현에서, 삼각형 변의 실제 길이가 추정될 수 있다. 일부 그러한 구현에 따르면, 삼각형 변의 실제 길이는 TOA 데이터에 따라, 예를 들어 삼각형의 한 꼭지점에 위치한 오디오 디바이스에 의해 생성되고 삼각형의 다른 꼭지점에 위치한 오디오 디바이스에 의해 검출되는 사운드의 도달 시간에 따라 추정될 수 있다. 대안적으로, 또는 추가적으로, 삼각형 변의 길이는 삼각형의 한 꼭지점에 위치한 오디오 디바이스에 의해 생성되고 삼각형의 다른 꼭지점에 위치한 오디오 디바이스에 의해 검출되는 전자기파에 따라 추정될 수 있다. 예를 들어, 삼각형 변의 길이는 삼각형의 한 꼭지점에 위치한 오디오 디바이스에 의해 생성되고 삼각형의 다른 꼭지점에 위치한 오디오 디바이스에 의해 검출되는 전자파의 신호 세기에 따라 추정될 수 있다. 일부 구현에서, 삼각형 변의 길이는 전자기파의 검출된 위상 변이에 따라 추정될 수 있다.
도 20은 도 19에 도시된 환경에서 3개의 오디오 디바이스 사이의 기하학적 관계의 다른 예를 도시한다. 이 예에서, 삼각형(1910b)은 위치 1, 3 및 4에 꼭지점을 갖는다. 여기에서, 삼각형(1910b)은 변 13b, 14 및 34a를 갖는다. 이 예에 따르면, 변 13b와 14 사이의 각도는 이고, 변 13b와 34a 사이의 각도는 이고, 변 34a와 14 사이의 각도는 이다.
도 11 및 12를 비교함으로써, 삼각형(1910a)의 변(13a)의 길이가 삼각형(1910b)의 변(13b)의 길이와 같아야 함을 관찰할 수 있다. 일부 구현에서, 하나의 삼각형(예를 들어, 삼각형 1910a)의 변의 길이는 정확한 것으로 가정될 수 있고, 인접한 삼각형에 의해 공유되는 변의 길이는 이 길이로 제한될 것이다.
도 21a는 대응하는 오디오 디바이스 및 환경의 다른 특징이 없이, 도 19 및 20에 도시된 삼각형 둘 모두를 나타낸다. 도 21a는 삼각형(1910a, 1910b)의 변 길이와 각도 방위의 추정값을 보여준다. 도 21a에 도시된 예에서, 삼각형(1910b)의 변(13b)의 길이는 삼각형(1910a)의 변(13a)과 동일한 길이로 제한된다. 삼각형(1910b)의 다른 변의 길이는 변(13b)의 길이의 결과적인 변화에 비례하여 스케일링된다. 결과적인 삼각형(1910b')가 삼각형(1910a)에 인접하여 도 21a에 도시된다.
일부 구현에 따르면, 삼각형(1910a 및 1910b)에 인접한 다른 삼각형의 변의 길이는 환경(1900) 내의 모든 오디오 디바이스 위치가 결정될 때까지, 유사한 방식으로 모두 결정될 수 있다.
오디오 디바이스 위치 결정의 일부 예는 다음과 같이 진행될 수 있다. 각 오디오 디바이스는 환경(예를 들어 방)에 있는 다른 모든 오디오 디바이스의 DOA를 환경의 다른 모든 오디오 디바이스에서 생성된 사운드에 기초하여 보고할 수 있다. 제i 오디오 디바이스의 데카르트 좌표는 로 표현될 수 있으며, 여기에서 위 첨자 T는 벡터 전치를 나타낸다. 환경에 M개의 오디오 디바이스가 있다고 가정할 때, i={1…M}이다.
도 21b는 3개의 오디오 디바이스에 의해 형성되는 삼각형의 내각을 추정하는 예를 도시한다. 이 예에서, 오디오 디바이스는 i, j 및 k이다. 디바이스 i에서 관찰되는 디바이스 j에서 나오는 음원의 DOA는 로 표현될 수 있다. 디바이스 i에서 관찰되는 디바이스 k에서 나오는 음원의 DOA는 로 표현될 수 있다. 도 21b에 도시된 예에서, 는 축(2105a)으로부터 측정되며, 그 방위는 임의적이며, 예를 들어 오디오 디바이스 i의 방위에 대응할 수 있다. 삼각형(2110)의 내각 a는 로 표현될 수 있다. 내각 a의 계산이 축(2105a)의 방위에 의존하지 않는다는 것을 관찰할 수 있다.
도 21b에 도시된 예에서, 가 축(2105b)으로부터 측정되며, 그 방위는 임의적이며 오디오 디바이스 j의 방위에 대응할 수 있다. 삼각형(2110)의 내각 b는 로 표현될 수 있다. 유사하게, 은 이 예에서 축(2105c)으로부터 측정된다. 삼각형(2110)의 내각 c는 로 표현될 수 있다.
측정오차가 있을 때, 이다. 다른 두 각도에서 각 각도를 예측하고 다음과 같이 평균화하여 강건성이 향상될 수 있다.
일부 구현에서, 모서리 길이(A,B,C)는 사인 규칙을 적용하여 (스케일링 오류까지) 계산될 수 있다. 일부 예에서, 하나의 모서리 길이가 1과 같은 임의의 값으로 할당될 수 있다. 예를 들어, A=1로 하고 꼭지점 를 원점에 배치함으로써 나머지 두 꼭지점의 위치를 다음과 같이 계산할 수 있다.
그러나, 임의의 회전이 허용될 수 있다.
일부 구현에 따르면, 삼각형 매개변수화의 프로세스는 크기의 상위 집합 ζ에 열거된, 환경의 3개의 오디오 디바이스의 모든 가능한 하위 집합에 대해 반복될 수 있다. 일부 예에서, 은 제l 삼각형을 나타낼 수 있다. 구현에 따라, 삼각형이 특정 순서로 열거되지 않을 수 있다. 삼각형은 DOA 및/또는 변 길이 추정값의 가능한 오류로 인해, 중첩될 수 있고 완벽하게 정렬되지 않을 수 있다.
도 22는 도 1a에 도시된 것과 같은 장치에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타낸 흐름도이다. 방법(2200)의 블록은, 본원에 설명된 다른 방법과 마찬가지로, 표시된 순서대로 수행될 필요는 없다. 또한, 그러한 방법은 도시 및/또는 설명된 것보다 더 많거나 더 적은 블록을 포함할 수 있다. 이 구현에서, 방법(2200)은 환경에서 스피커의 위치를 추정하는 것을 포함한다. 방법(2200)의 블록들은 도 1a에 도시된 장치(100)일 수 있는(또는 포함할 수 있는) 하나 이상의 디바이스에 의해 수행될 수 있다.
이 예에서, 블록(2205)은 복수의 오디오 디바이스 중 각 오디오 디바이스에 대한 도달 방향(DOA) 데이터를 획득하는 것을 포함한다. 일부 예에서, 복수의 오디오 디바이스는 도 19에 도시된 모든 오디오 디바이스(1905)와 같은 환경 내의 모든 오디오 디바이스를 포함할 수 있다.
그러나, 일부 경우에 복수의 오디오 디바이스는 환경에 있는 모든 오디오 디바이스의 하위 집합만을 포함할 수 있다. 예를 들어, 복수의 오디오 디바이스는 환경 내의 모든 스마트 스피커를 포함할 수 있지만, 환경 내의 다른 오디오 디바이스 중 하나 이상은 포함하지 않을 수 있다.
DOA 데이터는 특정 구현에 따라 다양한 방식으로 획득할 수 있다. 일부 예에서, DOA 데이터를 결정하는 것은 복수의 오디오 디바이스 중 적어도 하나의 오디오 디바이스에 대한 DOA 데이터를 결정하는 것을 포함할 수 있다. 예를 들어, DOA 데이터를 결정하는 것은 복수의 오디오 디바이스 중 단일 오디오 디바이스에 대응하는 복수의 오디오 디바이스 마이크의 각 마이크로부터 마이크 데이터를 수신하고, 마이크 데이터에 적어도 부분적으로 기초하여 단일 오디오 디바이스에 대한 DOA 데이터를 결정하는 것을 포함할 수 있다. 대안적으로, 또는 추가적으로, DOA 데이터를 결정하는 것은 복수의 오디오 디바이스 중 단일 오디오 디바이스에 대응하는 하나 이상의 안테나로부터 안테나 데이터를 수신하고 안테나 데이터에 적어도 부분적으로 기초하여 단일 오디오 디바이스에 대한 DOA 데이터를 결정하는 것을 포함할 수 있다.
일부 그러한 예에서, 단일 오디오 디바이스 자체가 DOA 데이터를 결정할 수도 있다. 이러한 일부 구현에 따르면, 복수의 오디오 디바이스 중 각 오디오 디바이스는 자신의 DOA 데이터를 결정할 수 있다. 그러나, 다른 구현에서 로컬 또는 원격 디바이스일 수 있는 다른 디바이스는 환경 내의 하나 이상의 오디오 디바이스에 대한 DOA 데이터를 결정할 수 있다. 일부 구현에 따르면, 서버가 환경 내의 하나 이상의 오디오 디바이스에 대한 DOA 데이터를 결정할 수 있다.
이 예에 따르면, 블록(2210)은 DOA 데이터에 기초하여 복수의 삼각형 각각에 대한 내각을 결정하는 것을 포함한다. 이 예에서, 복수의 삼각형 중 각 삼각형은 3개의 오디오 디바이스의 오디오 디바이스 위치에 대응하는 꼭지점을 갖는다. 이러한 몇 가지 예가 위에 설명되어 있다.
도 23은 환경의 각 오디오 디바이스가 여러 삼각형의 꼭지점인 예를 도시한다. 각 삼각형의 변은 두 개의 오디오 디바이스(1905) 사이의 거리에 대응한다.
이 구현에서, 블록(2215)은 각 삼각형의 각 변에 대한 변 길이를 결정하는 것을 포함한다. (삼각형의 변은 또한 본원에서 "모서리"로 지칭될 수 있다.) 이 예에 따르면, 변의 길이는 적어도 부분적으로 내각에 기초한다. 일부 경우에, 변의 길이는 삼각형의 제1 변의 제1 길이를 결정하고 삼각형의 내각에 기초하여 삼각형의 제2 변 및 제3 변의 길이를 결정함으로써 계산될 수 있다. 이러한 몇 가지 예가 위에 설명되어 있다.
일부 그러한 구현에 따르면, 제1 길이를 결정하는 것은 제1 길이를 미리 결정된 값으로 설정하는 것을 포함할 수 있다. 그러나, 일부 예에서, 제1 길이를 결정하는 것은 도착 시간 데이터 및/또는 수신된 신호 강도 데이터에 기초할 수 있다. 도착 시간 데이터 및/또는 수신된 신호 강도 데이터는, 일부 구현에서, 환경 내의 제2 오디오 디바이스에 의해 검출되는 환경 내의 제1 오디오 디바이스로부터의 음파에 대응할 수 있다. 대안적으로, 또는 추가적으로, 도착 시간 데이터 및/또는 수신된 신호 강도 데이터는 환경 내의 제2 오디오 디바이스에 의해 검출되는 환경 내의 제1 오디오 디바이스로부터의 전자기파(예를 들어 전파, 적외선 등)에 해당할 수 있다.
이 예에 따르면, 블록(2220)은 복수의 삼각형의 각각을 제1 시퀀스로 정렬하는 정방향 정렬 프로세스를 수행하는 것을 포함한다. 이 예에 따르면, 정방향 정렬 프로세스는 정방향 정렬 행렬을 생성한다.
이러한 일부 예에 따르면, 삼각형은 예를 들어 도 21a에 도시되고 위에서 설명된 바와 같이, 모서리가 이웃 모서리와 동일한 방식으로 정렬될 것으로 예상된다. 를 크기가 인 모든 모서리의 집합이라고 한다. 일부 그러한 구현에서, 블록(2220)은 를 통해 횡단하고 모서리가 이전에 정렬된 모서리의 것과 일치하도록 강제함으로써 삼각형의 공통 모서리를 정방향으로 정렬하는 것을 포함할 수 있다.
도 24는 정방향 정렬 프로세스의 일부에 대한 예를 제공한다. 도 24에서 굵게 표시된 숫자 1 내지 5는 도 1, 도 2 및 도 5에 표시된 오디오 디바이스 위치에 해당한다. 도 24에 표시되고 여기에 설명된 정방향 정렬 프로세스의 순서는 단지 예일 뿐이다.
이 예에서, 도 21a에서와 같이, 삼각형(1910b)의 변(13b)의 길이는 삼각형(1910a)의 변(13a)의 길이와 일치하도록 강제된다. 결과적인 삼각형(1910b')이 도 24에 도시되며, 동일한 내각이 유지된다. 이 예에 따르면, 삼각형(1910c)의 변(13c)의 길이 또한 삼각형(1910a)의 변(13a)의 길이와 일치하도록 강제된다. 결과적인 삼각형(1910c')이 도 24에 도시되며, 동일한 내각이 유지된다.
다음으로, 이 예에서, 삼각형(1910d)의 변(34b)의 길이는 삼각형(1910b')의 변(34a)의 길이와 일치하도록 강제된다. 또한, 이 예에서, 삼각형(1910d)의 변(23b)의 길이는 삼각형(1910a)의 변(23a)의 길이와 일치하도록 강제된다. 결과적인 삼각형(1910d')이 도 24에 도시되며, 동일한 내각이 유지된다. 일부 그러한 예에 따르면, 도 5에 도시된 나머지 삼각형은 삼각형 1910b, 1910c 및 1910d와 동일한 방식으로 처리될 수 있다.
정방향 정렬 프로세스의 결과는 데이터 구조에 저장될 수 있다. 그러한 일부 예에 따르면, 정방향 정렬 프로세스의 결과는 정방향 정렬 행렬에 저장될 수 있다. 예를 들어, 정방향 정렬 프로세스의 결과는 행렬 에 저장될 수 있으며, 여기에서 N은 삼각형의 총 개수를 나타낸다.
DOA 데이터 및/또는 초기 변 길이 결정에 오류가 포함될 때, 오디오 디바이스 위치에 대한 다중 추정이 발생한다. 오류는 일반적으로 정방향 정렬 프로세스 중에 증가한다.
도 25는 정방향 정렬 프로세스 동안 발생한 오디오 디바이스 위치에 대한 다중 추정의 예를 도시한다. 이 예에서 정방향 정렬 프로세스는 꼭지점으로 7개의 오디오 디바이스 위치가 있는 삼각형에 기초한다. 여기에서, 삼각형은 DOA 추정값의 추가 오류로 인해 완벽하게 정렬되지 않는다. 도 25에 표시된 숫자 1 내지 7의 위치는 정방향 정렬 프로세스에 의해 생성된 추정 오디오 디바이스 위치에 대응한다. 이 예에서 "1"로 표시된 오디오 디바이스 위치 추정은 일치하지만 오디오 디바이스 6 및 7에 대한 오디오 디바이스 위치 추정은, 숫자 6과 7이 위치한 상대적으로 더 큰 영역에 의해 나타나는 것처럼 더 큰 차이를 보여준다.
도 22로 돌아가서, 이 예시적인 블록(2225)은 제1 시퀀스의 역인 제2 시퀀스로 복수의 삼각형 각각을 정렬하는 역방향 정렬 프로세스를 포함한다. 일부 구현에 따르면, 역방향 정렬 프로세스는 이전과 같이 를 통한 횡단을 포함할 수 있지만, 역순이다. 대안적인 예에서, 역방향 정렬 프로세스는 정방향 정렬 프로세스의 동작 시퀀스의 정확히 역이 아닐 수 있다. 이 예에 따르면, 역방향 정렬 프로세스는 역방향 정렬 행렬을 생성하며, 이는 여기에서 로 표시될 수 있다.
도 26은 역방향 정렬 프로세스의 일부에 대한 예를 제공한다. 도 26에서 굵게 표시된 숫자 1 내지 5는 도 19, 도 21 및 도 23에 도시된 오디오 디바이스 위치에 대응한다. 도 26에 도시되고 본원에 설명된 역방향 정렬 프로세스의 시퀀스는 단지 예일 뿐이다.
도 26에 도시된 예에서 삼각형(1910e)은 오디오 디바이스 위치 3, 4 및 5에 기초한다. 이 구현에서, 삼각형(1910e)의 변 길이(또는 "모서리")는 정확한 것으로 가정되며, 인접 삼각형의 변 길이는 이들과 일치하도록 강제된다. 이 예에 따르면, 삼각형(1910f)의 변(45b)의 길이는 삼각형(1910e)의 변(45a)의 길이와 일치하도록 강제된다. 내각이 동일하게 유지되는 결과 삼각형(1910f')이 도 26에 도시된다. 이 예에서, 삼각형(1910c)의 변(35b)의 길이는 삼각형(1910e)의 변(35a)의 길이와 일치하도록 강제된다. 내각이 동일하게 유지되는 결과 삼각형(1910c'')이 도 26에 도시되어 있다. 일부 그러한 예에 따르면, 도 23에 도시된 나머지 삼각형은 역방향 정렬 프로세스가 나머지 삼각형을 모두 포함할 때까지 삼각형 1910c 및 1910f와 동일한 방식으로 처리될 수 있다.
도 27은 역방향 정렬 프로세스 동안 발생한 오디오 디바이스 위치에 대한 다중 추정의 예를 도시한다. 이 예에서, 역방향 정렬 프로세스는 도 25를 참조하여 위에서 설명한 꼭지점과 동일한 7개의 오디오 디바이스 위치를 가진 삼각형에 기초한다. 도 27에 표시된 숫자 1 내지 7의 위치는 역방향 정렬 프로세스에 의해 생성된 추정 오디오 디바이스 위치에 대응한다. 여기에서 또한, 삼각형은 DOA 추정의 추가 오류로 인해 완벽하게 정렬되지 않는다. 이 예에서, 6과 7로 표시된 오디오 디바이스 위치 추정은 일치하지만, 오디오 디바이스 1과 2에 대한 오디오 디바이스 위치 추정은 더 큰 차이를 보인다.
도 22로 돌아가면, 블록(2230)은 정방향 정렬 행렬의 값 및 역방향 정렬 행렬의 값에 적어도 부분적으로 기초하여 각 오디오 디바이스 위치의 최종 추정값을 생성하는 것을 포함한다. 일부 예에서, 각 오디오 디바이스 위치의 최종 추정값을 생성하는 것은 정방향 정렬 행렬을 변환 및 스케일링하여 변환 및 스케일링된 정방향 정렬 행렬을 생성하는 것과, 역방향 정렬 행렬을 변환 및 스케일링하여 변환 및 스케일링된 역방향 정렬 행렬을 생성하는 것을 포함할 수 있다.
예를 들어, 중심을 원점으로 이동하고 프로베니우스 놈(Frobenius norm)을 강제 적용하여 변환 및 스케일링을 고정한다. 예를 들어 .
일부 그러한 예에 따르면, 각 오디오 디바이스 위치의 최종 추정값을 생성하는 것은 또한 변환 및 스케일링된 정방향 정렬 행렬 및 변환 및 스케일링된 역방향 정렬 행렬에 기초하여 회전 행렬을 생성하는 것을 포함할 수 있다. 회전 행렬은 각 오디오 디바이스에 대한 복수의 추정된 오디오 디바이스 위치를 포함할 수 있다. 정방향 및 역방향 정렬 사이의 최적 회전은, 예를 들어, 특이값 분해를 통해 찾을 수 있다. 그러한 일부 예에서, 회전 행렬을 생성하는 것은 변환 및 스케일된 정방향 정렬 행렬과 변환 및 스케일링된 역방향 정렬 행렬에 대해 특이값 분해를 수행하는 것을 포함할 수 있다. 예를 들어, 다음과 같다.
앞의 식에서, U는 행렬 의 좌특이 벡터를, V는 우특이 벡터를 각각 나타낸다. Σ는 특이값의 행렬을 나타낸다. 앞의 식은 회전 행렬 를 산출한다. 행렬 곱 에 정렬되도록 최적으로 회전되는 회전 행렬을 산출한다.
일부 예에 따르면, 회전 행렬 를 결정한 후 정렬은 예를 들어 다음과 같이 평균화될 수 있다:
일부 구현에서, 각 오디오 디바이스 위치의 최종 추정값을 생성하는 것은 또한 각 오디오 디바이스에 대한 추정된 오디오 디바이스 위치를 평균하여 각 오디오 디바이스 위치의 최종 추정값을 생성하는 것을 포함할 수 있다. 다양한 개시된 구현은, DOA 데이터 및/또는 기타 계산에 심각한 오류가 포함된 경우에도, 강건한 것으로 입증되었다. 예를 들어, 는 여러 삼각형의 꼭지점이 중첩되기 때문에 동일한 노드에 대한 추정값을 포함한다. 공통 노드에 대하여 평균하여 최종 추정값 을 산출한다.
도 28은 추정 및 실제 오디오 디바이스 위치의 비교를 도시한다. 도 28에 도시된 예에서 오디오 디바이스 위치는 도 17 및 도 19를 참조하여 위에서 설명한 정방향 및 역방향 정렬 프로세스 동안 추정된 것에 대응한다. 이러한 예에서, DOA 추정의 오류에는 15도의 표준 편차가 있었다. 그럼에도 불구하고, 각 오디오 디바이스 위치의 최종 추정(각각 도 28에서 "x"로 표시됨)은 실제 오디오 디바이스 위치(각각 도 28에서 원으로 표시됨)와 잘 일치한다.
앞의 논의의 대부분은 오디오 디바이스 자동 위치 지정과 관련이 있다. 다음 논의는 위에서 간략하게 설명된 청취자 위치 및 청취자 각도 방위를 결정하는 몇 가지 방법을 확장한다. 앞의 설명에서, "회전"이라는 용어는 다음 설명에서 "방위(orientation)"라는 용어가 사용되는 것과 본질적으로 동일한 방식으로 사용된다. 예를 들어, 위에서 언급한 "회전"은 도 14 이하를 참조하여 위에서 설명된 프로세스 동안 개별 삼각형의 회전이 아니라, 최종 스피커 기하학의 전역 회전을 지칭할 수 있다. 이 전역 회전 또는 방위는 청취자의 각도 방위, 예를 들어 청취자가 보고 있는 방향, 청취자의 코가 가리키는 방향 등에 따라 결정될 수 있다.
청취자 위치를 추정하기 위한 여러 가지 만족스러운 방법이 아래에 설명되어 있다. 그러나, 청취자의 각도 방위를 추정하는 것은 어려울 수 있다. 일부 관련 방법이 아래에 자세히 설명되어 있다.
청취자 위치 및 청취자 각도 방위를 결정하면 위치 지정된 오디오 디바이스의 방위를 청취자에 대해 지정하는 것과 같은 몇 가지 바람직한 기능을 사용할 수 있다. 청취자 위치 및 각도 방위를 알면 청취자를 기준으로 환경 내에서 어떤 스피커가 앞쪽에 있는지, 뒤쪽에 있는지, 중앙 근처에 있는지(있는 경우) 등을 결정할 수 있다.
오디오 디바이스 위치와 청취자의 위치 및 방위 사이의 상관 관계를 만든 후, 일부 구현은 오디오 디바이스 위치 데이터, 오디오 디바이스 각도 방위 데이터, 청취자 위치 데이터 및 청취자 각도 방위 데이터를 오디오 렌더링 시스템에 제공하는 것을 포함할 수 있다. 대안적으로, 또는 추가적으로, 일부 구현은 오디오 디바이스 위치 데이터, 오디오 디바이스 각도 방위 데이터, 청취자 위치 데이터 및 청취자 각도 방위 데이터에 적어도 부분적으로 기초하는 오디오 데이터 렌더링 프로세스를 포함할 수 있다.
도 29는 도 1a에 도시된 것과 같은 장치에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타내는 흐름도이다. 방법(2900)의 블록은, 본원에 설명된 다른 방법과 마찬가지로, 표시된 순서대로 수행될 필요는 없다. 또한, 그러한 방법은 도시 및/또는 설명된 것보다 더 많거나 더 적은 블록을 포함할 수 있다. 이 예에서, 방법(2900)의 블록은 도 1a에 도시된 제어 시스템(110)일 수 있는(또는 포함할 수 있는) 제어 시스템에 의해 수행된다. 위에서 언급한 바와 같이, 일부 구현에서 제어 시스템(110)은 단일 디바이스에 상주할 수 있는 한편, 다른 구현에서 제어 시스템(110)은 2개 이상의 디바이스에 상주할 수 있다.
이 예에서, 블록(2905)은 환경 내의 복수의 오디오 디바이스 중 각 오디오 디바이스에 대한 도달 방향(direction of arrival; DOA) 데이터를 획득하는 것을 포함한다. 일부 예에서, 복수의 오디오 디바이스는, 도 27에 도시된 모든 오디오 디바이스(1905)와 같이, 환경 내의 모든 오디오 디바이스를 포함할 수 있다.
그러나, 일부 경우에 복수의 오디오 디바이스는 환경에 있는 모든 오디오 디바이스의 하위 집합만을 포함할 수 있다. 예를 들어, 복수의 오디오 디바이스는 환경 내의 모든 스마트 스피커를 포함할 수 있지만, 환경 내의 다른 오디오 디바이스 중 하나 이상을 포함하지 않을 수 있다.
DOA 데이터는 특정 구현에 따라, 다양한 방식으로 획득할 수 있다. 일부 예에서, DOA 데이터를 결정하는 것은 복수의 오디오 디바이스 중 적어도 하나의 오디오 디바이스에 대한 DOA 데이터를 결정하는 것을 포함할 수 있다. 일부 예에서, DOA 데이터는 테스트 신호를 재생하기 위해 환경 내의 복수의 확성기의 각 확성기를 제어함으로써 획득될 수 있다. 예를 들어, DOA 데이터를 결정하는 것은 복수의 오디오 디바이스 중 단일 오디오 디바이스에 대응하는 복수의 오디오 디바이스 마이크 중 각 마이크로부터 마이크 데이터를 수신하고, 마이크 데이터에 적어도 부분적으로 기초하여 단일 오디오 디바이스에 대한 DOA 데이터를 결정하는 것을 포함할 수 있다. 대안적으로, 또는 추가적으로, DOA 데이터를 결정하는 것은 복수의 오디오 디바이스 중 단일 오디오 디바이스에 대응하는 하나 이상의 안테나로부터 안테나 데이터를 수신하고, 안테나 데이터에 적어도 부분적으로 기초하여 단일 오디오 디바이스에 대한 DOA 데이터를 결정하는 것을 포함할 수 있다.
일부 그러한 예에서, 단일 오디오 디바이스 자체가 DOA 데이터를 결정할 수도 있다. 이러한 일부 구현에 따르면, 복수의 오디오 디바이스 중 각 오디오 디바이스는 자신의 DOA 데이터를 결정할 수 있다. 그러나, 다른 구현에서, 로컬 또는 원격 디바이스일 수 있는 다른 디바이스가 환경 내의 하나 이상의 오디오 디바이스에 대한 DOA 데이터를 결정할 수 있다. 일부 구현에 따르면, 서버가 환경 내의 하나 이상의 오디오 디바이스에 대한 DOA 데이터를 결정할 수 있다.
도 29에 도시된 예에 따르면, 블록(2910)은, 제어 시스템을 통해, DOA 데이터에 적어도 부분적으로 기초하여 오디오 디바이스 위치 데이터를 생성하는 것을 포함한다. 이 예에서, 오디오 디바이스 위치 데이터는 블록(2905)에서 참조된 각 오디오 디바이스에 대한 오디오 디바이스 위치의 추정값을 포함한다.
오디오 디바이스 위치 데이터는, 예를 들어, 데카르트, 구형 또는 원통형 좌표계와 같은 좌표계의 좌표일 수 있다(또는 포함할 수 있다). 좌표계는 본원에서 오디오 디바이스 좌표계로 지칭될 수 있다. 일부 그러한 예에서, 오디오 디바이스 좌표계는 환경 내의 오디오 디바이스 중 하나를 참조하여 지향될 수 있다. 다른 예에서, 오디오 디바이스 좌표계는 환경 내의 2개의 오디오 디바이스 사이의 선에 의해 정의된 축을 참조하여 지향될 수 있다. 그러나, 다른 예에서 오디오 디바이스 좌표계는 텔레비전, 방의 벽 등과 같은 환경의 다른 부분을 참조하여 지향될 수 있다.
일부 예에서, 블록(2910)은 도 22를 참조하여 위에서 설명된 프로세스를 포함할 수 있다. 이러한 일부 예에 따르면, 블록(2910)은 DOA 데이터에 기초하여 복수의 삼각형 각각에 대한 내각을 결정하는 것을 포함할 수 있다. 일부 경우에, 복수의 삼각형의 각 삼각형은 3개의 오디오 디바이스의 오디오 디바이스 위치에 대응하는 꼭지점을 가질 수 있다. 일부 그러한 방법은 내각에 적어도 부분적으로 기초하여 각 삼각형의 각 변에 대한 변 길이를 결정하는 것을 포함할 수 있다.
일부 그러한 방법은 제1 시퀀스에서 복수의 삼각형 각각을 정렬하는 정방향 정렬 프로세스를 수행하여 정방향 정렬 행렬을 생성하는 것을 포함할 수 있다. 일부 그러한 방법은 제1 시퀀스의 역인 제2 시퀀스에서 복수의 삼각형 각각을 정렬하는 역방향 정렬 프로세스를 수행하여 역방향 정렬 행렬을 생성하는 것을 포함할 수 있다. 일부 그러한 방법은 정방향 정렬 행렬의 값 및 역방향 정렬 행렬의 값에 적어도 부분적으로 기초하여 각 오디오 디바이스 위치의 최종 추정값을 생성하는 것을 포함할 수 있다. 그러나 방법(2900)의 일부 구현에서 블록(2910)은 도 22를 참조하여 위에서 설명한 것과 다른 방법을 적용하는 것을 포함할 수 있다.
이 예에서, 블록(2915)은 제어 시스템을 통해, 환경 내의 청취자 위치를 나타내는 청취자 위치 데이터를 결정하는 것을 포함한다. 청취자 위치 데이터는, 예를 들어, 오디오 디바이스 좌표계를 참조할 수 있다. 그러나, 다른 예에서 좌표계는 청취자 또는 텔레비전, 방의 벽 등과 같은 환경의 일부를 기준으로 지향될 수 있다.
일부 예에서, 블록(2915)은 (예를 들어, 환경 내의 하나 이상의 확성기로부터의 오디오 프롬프트를 통해) 청취자에게 하나 이상의 발화를 하도록 프롬프트하고 DOA 데이터에 따라 청취자 위치를 추정하는 것을 포함할 수 있다. DOA 데이터는 환경 내의 복수의 마이크에 의해 획득된 마이크 데이터에 대응할 수 있다. 마이크 데이터는 마이크에 의한 하나 이상의 발화의 검출에 대응할 수 있다. 마이크 중 적어도 일부는 확성기와 같은 위치에 있을 수 있다. 일부 예에 따르면, 블록(2915)은 삼각 측량 프로세스를 수반할 수 있다. 예를 들어, 블록(2915)은, 예를 들어, 도 30a를 참조하여 아래에서 설명되는 바와 같이, 오디오 디바이스를 통과하는 DOA 벡터 사이의 교차점을 발견함으로써 사용자의 음성을 삼각 측량하는 것을 포함할 수 있다. 일부 구현에 따르면, 블록(2915)(또는 방법(2900)의 다른 동작)은 오디오 디바이스 좌표계 및 청취자 좌표계의 원점을 같은 위치에 배치하는 것을 포함할 수 있으며, 이는 청취자 위치가 결정된 후이다. 오디오 디바이스 좌표계와 청취자 좌표계의 원점을 같은 위치에 배치하는 것은 오디오 디바이스 좌표계로부터 청취자 좌표계로 오디오 디바이스 위치를 변환하는 것을 포함할 수 있다.
이 구현에 따르면, 블록(2920)은 제어 시스템을 통해, 청취자 각도 방위를 나타내는 청취자 각도 방위 데이터를 결정하는 것을 포함한다. 청취자 각도 방위 데이터는, 예를 들어, 오디오 디바이스 좌표계와 같은, 청취자 위치 데이터를 나타내는 데 사용되는 좌표계를 참조하여 만들어질 수 있다. 일부 그러한 예에서, 청취자 각도 방위 데이터는 오디오 디바이스 좌표계의 원점 및/또는 축을 참조하여 만들어질 수 있다.
그러나, 일부 구현에서 청취자 각도 방위 데이터는 청취자 위치에 의해 정의된 축 및 텔레비전, 오디오 디바이스, 벽 등과 같은 환경의 다른 지점을 참조하여 만들어질 수 있다. 일부 이러한 구현에서, 청취자 위치는 청취자 좌표계의 원점을 정의하는 데 사용될 수 있다. 일부 그러한 예에서, 청취자 각도 방위 데이터는 청취자 좌표계의 축을 참조하여 만들어질 수 있다.
블록(2920)을 수행하기 위한 다양한 방법이 본원에 개시된다. 일부 예에 따르면, 청취자 각도 방위는 청취자 시청 방향에 대응할 수 있다. 일부 그러한 예에서, 청취자가 예를 들어, 텔레비전과 같은 특정 객체를 보고 있다고 가정함으로써 청취자 위치 데이터를 참조하여 청취자의 시청 방향이 추론될 수 있다. 일부 그러한 구현에서, 청취자 시청 방향은 청취자 위치 및 텔레비전 위치에 따라 결정될 수 있다. 대안적으로, 또는 추가적으로, 청취자 시청 방향은 청취자 위치 및 텔레비전 사운드바 위치에 따라 결정될 수 있다.
그러나, 일부 예에서 청취자 시청 방향은 청취자 입력에 따라 결정될 수 있다. 그러한 일부 예에 따르면, 청취자 입력은 청취자가 보유하고 있는 디바이스로부터 수신된 관성 센서 데이터를 포함할 수 있다. 청취자는 환경 내의 위치, 예를 들어 청취자가 향하고 있는 방향에 대응하는 위치를 가리키기 위해 디바이스를 사용할 수 있다. 예를 들어, 청취자는 디바이스를 사용하여 소리가 나는 확성기(소리를 재생하는 확성기)를 가리킬 수 있다. 따라서, 이러한 예에서 관성 센서 데이터는 소리가 나는 확성기에 대응하는 관성 센서 데이터를 포함할 수 있다.
그러한 일부 경우에, 청취자 입력은 청취자에 의해 선택된 오디오 디바이스의 표시를 포함할 수 있다. 오디오 디바이스의 표시는, 일부 예에서, 선택된 오디오 디바이스에 대응하는 관성 센서 데이터를 포함할 수 있다.
그러나, 다른 예에서 오디오 디바이스의 표시는 청취자의 하나 이상의 발화(예를 들어, "텔레비전이 지금 내 앞에 있다", "스피커 2가 지금 내 앞에 있다" 등)에 따라 이루어질 수 있다. 청취자의 하나 이상의 발화에 따라 청취자 각도 방위 데이터를 결정하는 다른 예가 아래에서 설명된다.
도 29에 도시된 예에 따르면, 블록(2925)은 제어 시스템을 통해, 청취자 위치 및 청취자 각도 방위에 대한 각 오디오 디바이스에 대한 오디오 디바이스 각도 방위를 나타내는 오디오 디바이스 각도 방위 데이터를 결정하는 것을 포함한다. 일부 그러한 예에 따르면, 블록(2925)은 청취자 위치에 의해 정의된 점 주위로 오디오 디바이스 좌표를 회전하는 것을 포함할 수 있다. 일부 구현에서, 블록(2925)은 오디오 디바이스 좌표계로부터 청취자 좌표계로 오디오 디바이스 위치 데이터를 변환하는 것을 포함할 수 있다. 몇 가지 예가 아래에 설명되어 있다.
도 30a는 도 29의 일부 블록의 예를 도시한다. 이러한 일부 예에 따르면, 오디오 디바이스 위치 데이터는 오디오 디바이스 좌표계(3007)를 기준으로 하여, 오디오 디바이스 1 내지 5의 각각에 대한 오디오 디바이스 위치의 추정값을 포함한다. 이 구현에서, 오디오 디바이스 좌표계(3007)는 오디오 디바이스 2의 마이크의 위치를 원점으로 하는 데카르트 좌표계이다. 여기에서, 오디오 디바이스 좌표계(3007)의 x축은 오디오 디바이스 2의 마이크 위치와 오디오 디바이스 1의 마이크 위치 사이의 선(3003)에 대응한다.
이 예에서, 청취자 위치는 (예를 들어, 환경(3000a) 내의 하나 이상의 확성기로부터의 오디오 프롬프트를 통해) 소파(1903)에 앉아 있는 것으로 도시된 청취자(3005)에게 하나 이상의 발화(3027)를 하게 하도록 프롬프트하고, 도착 시간(TOA) 데이터에 따라 청취자 위치를 추정함에 의하여 결정된다. TOA 데이터는 환경 내 복수의 마이크가 획득한 마이크 데이터에 대응한다. 이 예에서, 마이크 데이터는 오디오 디바이스 1 내지 5 중 적어도 일부(예를 들어 3, 4 또는 5개 모두)의 마이크에 의한 하나 이상의 발화(3027)의 검출에 대응한다.
대안적으로, 또는 추가적으로, DOA 데이터에 따른 청취자 위치는 오디오 디바이스 1 내지 5 중 적어도 일부(예를 들어, 2, 3, 4 또는 5개 모두)의 마이크에 의해 제공된다. 이러한 일부 예에 따르면, 청취자 위치는 DOA 데이터에 대응하는 선(3009a, 3009b 등)의 교차점에 따라 결정될 수 있다.
이 예에 따르면, 청취자 위치는 청취자 좌표계(3020)의 원점에 대응한다. 이 예에서, 청취자 각도 방위 데이터는 청취자 좌표계(3020)의 y'축으로 표시되며, 이는 청취자의 머리(3010)(및/또는 청취자의 코(3025))와 텔레비전(101)의 사운드 바(3030) 사이의 선(3013a)에 대응한다. 도 30a에 도시된 예에서, 선(3013a)은 y'축에 평행하다. 따라서, 각도 Θ는 y축과 y'축 사이의 각도를 나타낸다. 이 예에서, 도 29의 블록(2925)은 청취자 좌표계(3020)의 원점을 중심으로 오디오 디바이스 좌표를 각도 Θ만큼 회전하는 것을 포함할 수 있다. 따라서, 비록 오디오 디바이스 좌표계(3007)의 원점이 도 30a에서 오디오 디바이스 2에 대응하는 것으로 도시되지만, 일부 구현은 오디오 디바이스 좌표를 청취자 좌표계(3020)의 원점 주위로 각도 Θ만큼 회전하기 전에 오디오 디바이스 좌표계(3007)의 원점을 청취자 좌표계(3020)의 원점과 동일 위치에 배치하는 것을 포함한다. 이러한 동일 위치에의 배치는 오디오 디바이스 좌표계(3007)로부터 청취자 좌표계(3020)로의 좌표 변환에 의해 수행될 수 있다.
사운드 바(3030) 및/또는 텔레비전(1901)의 위치는, 일부 예에서, 사운드 바가 사운드를 방출하게 하고, 오디오 디바이스 1 내지 5 중 적어도 일부(예를 들어 3, 4 또는 5개 모두)의 마이크에 의한 사운드의 검출에 대응할 수 있는, DOA 및/또는 TOA 데이터에 따라 사운드 바의 위치를 추정함으로써 결정될 수 있다. 대안적으로, 또는 추가적으로, 사운드 바(3030) 및/또는 텔레비전(1901)의 위치는 사용자가 TV로 걸어가도록 프롬프트하고, 오디오 디바이스 1 내지 5 중 적어도 일부(예를 들어 3, 4 또는 5개 모두)의 마이크에 의한 사운드의 검출에 대응할 수 있는, DOA 및/또는 TOA 데이터에 의해 사용자의 음성을 찾는 것에 의해 결정될 수 있다. 이러한 방법은 삼각 측량을 포함할 수 있다. 이러한 예는 사운드 바(3030) 및/또는 텔레비전(1901)이 연관된 마이크를 갖지 않는 상황에서 유용할 수 있다.
사운드 바(3030) 및/또는 텔레비전(1901)이 연관된 마이크를 갖지 않는 일부 다른 예에서, 사운드 바(3030) 및/또는 텔레비전(1901)의 위치는 본원에 개시된 DOA 방법과 같은, TOA 또는 DOA 방법에 따라 결정될 수 있다. 일부 그러한 방법에 따르면, 마이크는 사운드 바(3030)와 같은 위치에 있을 수 있다.
일부 구현에 따르면, 사운드 바(3030) 및/또는 텔레비전(1901)은 연관된 카메라(3011)를 가질 수 있다. 제어 시스템은 청취자의 머리(3010)(및/또는 청취자의 코(3025))의 이미지를 캡처하도록 구성될 수 있다. 그러한 일부 예에서, 제어 시스템은 청취자의 머리(3010)(및/또는 청취자의 코(3025))와 카메라(3011) 사이의 선(3013a)을 결정하도록 구성될 수 있다. 청취자 각도 방위 데이터는 선(3013a)에 대응할 수 있다. 대안적으로, 또는 추가적으로, 제어 시스템은 선(3013a)과 오디오 디바이스 좌표계의 y축 사이의 각도 Θ를 결정하도록 구성될 수 있다.
도 30b는 청취자 각도 방위 데이터를 결정하는 추가적인 예를 도시한다. 이 예에 따르면, 청취자 위치는 도 29의 블록(2915)에서 이미 결정되었다. 여기에서, 제어 시스템은 환경(3000b)의 확성기를 제어하여 오디오 객체(3035)를 환경(3000b) 내의 다양한 위치에 렌더링한다. 그러한 일부 예에서, 제어 시스템은 예를 들어 오디오 객체(3035)가 청취자 좌표계(3020)의 원점 주위를 회전하는 것처럼 보이도록 오디오 객체(3035)를 렌더링함으로써 오디오 객체(3035)가 청취자(3005) 주위에서 회전하는 것처럼 보이도록 확성기가 오디오 객체(3035)를 렌더링하게 할 수 있다. 이 예에서, 곡선 화살표(3040)는 오디오 객체(3035)가 청취자(3005)를 중심으로 회전할 때의 궤적의 일부를 보여준다.
그러한 일부 예에 따르면, 청취자(3005)는 오디오 객체(3035)가 청취자(3005)가 향하고 있는 방향에 있을 때를 나타내는 사용자 입력(예를 들어, "중지"라고 말함)을 제공할 수 있다. 그러한 일부 예에서, 제어 시스템은 청취자 위치와 오디오 객체(3035)의 위치 사이의 선(3013b)을 결정하도록 구성될 수 있다. 이 예에서, 선(3013b)은 청취자 좌표계의 y'축에 대응하며, 이는 청취자(3005)가 향하고 있는 방향을 나타낸다. 대안적인 구현에서, 청취자(3005)는 오디오 객체(3035)가 환경의 전방에, 환경의 TV 위치에, 오디오 디바이스 위치 등에 있을 때를 나타내는 사용자 입력을 제공할 수 있다.
도 30c는 청취자 각도 방위 데이터를 결정하는 추가적인 예를 도시한다. 이 예에 따르면, 청취자 위치는 도 29의 블록(2915)에서 이미 결정되었다. 여기에서, 청취자(3005)는 휴대용 디바이스(3045)를 사용하여, 휴대용 디바이스(3045)가 텔레비전(1901) 또는 사운드바(3030)를 가리키게 함으로써, 청취자(3005)의 시청 방향에 관한 입력을 제공한다. 휴대용 디바이스(3045)의 점선 윤곽과 청취자의 팔은 청취자(3005)가 휴대용 디바이스(3045)를 텔레비전(1901) 또는 사운드바(3030)를 향해 가리키고 있던 시간 이전의 시간에, 이 예에서 청취자(3005)가 휴대용 디바이스(3045)를 오디오 디바이스 2를 향해 가리키고 있었음을 나타낸다. 다른 예에서, 청취자(3005)는 휴대용 디바이스(3045)를 오디오 디바이스 1과 같은 다른 오디오 디바이스를 향해 가리켰을 수 있다. 이 예에 따르면, 휴대용 디바이스(3045)는, 오디오 디바이스 2와 청취자(3005)의 시청 방향 사이의 각도를 근사하는, 오디오 디바이스 2와 텔레비전(1901) 또는 사운드바(3030) 사이의 각도 α를 결정하도록 구성된다.
휴대용 디바이스(3045)는, 일부 예에서, 환경(3000c)의 오디오 디바이스를 제어하는 제어 시스템과 통신하도록 구성된 무선 인터페이스 및 관성 센서 시스템을 포함하는 휴대 전화일 수 있다. 일부 예에서, 휴대용 디바이스(3045)는, 예를 들어, 사용자 프롬프트를 (예를 들어, 그래픽 사용자 인터페이스를 통해) 제공하고, 휴대용 디바이스(3045)가 원하는 방향을 가리키고 있음을 나타내는 입력을 수신하고, 대응하는 관성 센서 데이터를 저장하고 및/또는 대응하는 관성 센서 데이터를 환경(3000c)의 오디오 디바이스를 제어하는 제어 시스템에 전송하는 등에 의하여, 필요한 기능을 수행하도록 휴대용 디바이스(3045)를 제어하도록 구성된 애플리케이션 또는 "앱"을 실행하고 있을 수 있다.
이 예에 따르면, 제어 시스템(이는 휴대용 디바이스(3045)의 제어 시스템 또는 환경(3000c)의 오디오 디바이스를 제어하는 제어 시스템일 수 있음)은 관성 센서 데이터에 따라, 예를 들어 자이로스코프 데이터에 따라 선(3013c 및 3050)의 방위를 결정하도록 구성된다. 이 예에서, 선(3013c)은 축 y'에 평행하고 청취자 각도 방위를 결정하는 데 사용될 수 있다. 일부 예에 따르면, 제어 시스템은 오디오 디바이스 2와 청취자(3005)의 시청 방향 사이의 각도(α)에 따라 오디오 디바이스 좌표에 대한 청취자 좌표계(3020)의 원점 주위로의 적절한 회전을 결정할 수 있다.
도 30d는 도 30c를 참조하여 설명된 방법에 따라 오디오 디바이스 좌표에 대한 적절한 회전을 결정하는 예를 도시한다. 이 예에서, 오디오 디바이스 좌표계(3007)의 원점은 청취자 좌표계(3020)의 원점과 같은 위치에 있다. 오디오 디바이스 좌표계(3007)와 청취자 좌표계(3020)의 원점을 같은 위치에 배치하는 것은 청취자 위치가 결정되는 2915의 프로세스 이후에 가능하게 된다. 오디오 디바이스 좌표계(3007)와 청취자 좌표계(3020)의 원점을 같은 위치에 배치하는 것은 오디오 디바이스 위치를 오디오 디바이스 좌표계(3007)로부터 청취자 좌표계(3020)로 변환하는 것을 포함할 수 있다. 각도 α는 도 30c를 참조하여 위에서 설명한 바와 같이 결정되었다. 따라서, 각도 α는 청취자 좌표계(3020)에서 오디오 디바이스 2의 원하는 방위에 대응한다. 이 예에서, 각도 β는 오디오 디바이스 좌표계(3007)에서 오디오 디바이스 2의 방위에 대응한다. 이 예에서 β-α인 각도 Θ는 오디오 디바이스 좌표계(3007)의 y축을 청취자 좌표계(3020)의 y'축과 정렬하는 데 필요한 회전을 나타낸다.
일부 구현에서, 도 29의 방법은 대응하는 오디오 디바이스 위치, 대응하는 오디오 디바이스 각도 방위, 청취자 위치 데이터 및 청취자 각도 방위 데이터에 적어도 부분적으로 기초하여 환경에서 오디오 디바이스 중 적어도 하나를 제어하는 것을 포함할 수 있다..
예를 들어, 일부 구현은 오디오 디바이스 위치 데이터, 오디오 디바이스 각도 방위 데이터, 청취자 위치 데이터 및 청취자 각도 방위 데이터를 오디오 렌더링 시스템에 제공하는 것을 포함할 수 있다. 일부 예에서, 오디오 렌더링 시스템은 도 1a의 제어 시스템(110)과 같은 제어 시스템에 의해 구현될 수 있다. 일부 구현은 오디오 디바이스 위치 데이터, 오디오 디바이스 각도 방위 데이터, 청취자 위치 데이터 및 청취자 각도 방위 데이터에 적어도 부분적으로 기초하여 오디오 데이터 렌더링 프로세스를 제어하는 것을 포함할 수 있다. 그러한 구현 중 일부는 확성기 음향 능력 데이터를 렌더링 시스템에 제공하는 것을 포함할 수 있다. 확성기 음향 능력 데이터는 환경의 하나 이상의 확성기에 대응할 수 있다. 확성기 음향 능력 데이터는 하나 이상의 드라이버의 방위, 드라이버의 수 또는 하나 이상의 드라이버의 드라이버 주파수 응답을 나타낼 수 있다. 일부 예에서, 확성기 음향 능력 데이터는 메모리로부터 검색될 수 있고 그런 다음 렌더링 시스템에 제공될 수 있다.
실시예의 부류는 복수의 조정된(편성된) 스마트 오디오 디바이스 중 적어도 하나(예를 들어, 전부 또는 일부)에 의한 재생을 위한 오디오 렌더링 및/또는 오디오의 재생을 위한 방법을 포함한다. 예를 들어, 사용자의 집에 있는 스마트 오디오 디바이스 세트는 스마트 오디오 디바이스 전부 또는 일부에 의한 (즉, 전부 또는 일부의 스피커(들)에 의한) 재생을 위한 유연한 오디오 렌더링을 포함하여 다양한 동시 사용 사례를 처리하도록 편성될 수 있다. 렌더링 및/또는 재생에 대한 동적 수정이 필요한 시스템과의 많은 상호작용이 고려된다. 그러한 수정은 공간 충실도에 초점을 맞출 수 있지만 반드시 그런 것은 아니다.
스마트 오디오 디바이스 세트의 스마트 오디오 디바이스에 의한(또는 다른 스피커 세트에 의한) 재생을 위한 공간적 오디오 믹스의 렌더링(또는 렌더링 및 재생) (예를 들어, 오디오 스트림 또는 다중 오디오 스트림의 렌더링)을 수행하는 맥락에서, (예를 들어 스마트 오디오 디바이스 내 또는 이에 연결된) 스피커 유형은 다양할 수 있으며, 따라서 스피커의 대응하는 음향 능력은 매우 다양할 수 있다. 도 3a에 도시된 오디오 환경의 일례에서, 확성기(305d, 305f, 305h)는 단일 0.6인치 스피커를 갖는 스마트 스피커일 수 있다. 이 예에서, 확성기(305b, 305c, 305e, 305f)는 2.5인치 우퍼 및 0.8인치 트위터를 갖는 스마트 스피커일 수 있다. 이 예에 따르면, 확성기(305g)는 5.25인치 우퍼, 3개의 2인치 미드레인지 스피커 및 1.0인치 트위터를 갖는 스마트 스피커일 수 있다. 여기에서, 확성기(305a)는 16개의 1.1인치 빔 드라이버와 2개의 4인치 우퍼를 포함하는 사운드 바일 수 있다. 따라서, 스마트 스피커(305d 및 305f)의 저주파 능력은 환경(200)의 다른 확성기, 특히 4인치 또는 5.25인치 우퍼를 갖는 것에 비해 훨씬 작을 것이다.
도 31은 이 개시의 다양한 양상을 구현할 수 있는 시스템의 구성요소의 예를 보여주는 블록도이다. 본원에 제공된 다른 도면과 같이, 도 31에 도시된 요소의 유형 및 수는 단지 예로서 제공된다. 다른 구현은 더 많거나 더 적은 수 및/또는 상이한 유형 및 수의 요소를 포함할 수 있다.
이 예에 따르면, 시스템(3100)은 스마트 홈 허브(3105) 및 확성기(3125a 내지 3125m)를 포함한다. 이 예에서, 스마트 홈 허브(3105)는 도 1a에 도시되고 위에서 설명된 제어 시스템(110)의 인스턴스를 포함한다. 이 구현에 따르면, 제어 시스템(110)은 청취 환경 역학 처리 구성 데이터 모듈(3110), 청취 환경 역학 처리 모듈(3115) 및 렌더링 모듈(3120)을 포함한다. 청취 환경 역학 처리 구성 데이터 모듈(3110), 청취 환경 역학 처리 모듈(3115) 및 렌더링 모듈(3120)은 아래에서 설명된다. 일부 예에서, 렌더링 모듈(3120')은 렌더링 및 청취 환경 역학 처리 모두를 위해 구성될 수 있다.
스마트 홈 허브(3105)와 확성기(3125a 내지 3125m) 사이의 화살표에 의해 제안된 바와 같이, 스마트 홈 허브(3105)는 또한 도 1a에 도시되고 위에서 설명된 인터페이스 시스템(105)의 인스턴스를 포함한다. 일부 예에 따르면, 스마트 홈 허브(3105)는 도 3a에 도시된 환경(300)의 일부일 수 있다. 일부 예에서, 스마트 홈 허브(3105)는 스마트 스피커, 스마트 텔레비전, 휴대 전화, 랩탑 등에 의해 구현될 수 있다. 일부 구현에서, 스마트 홈 허브(3105)는 소프트웨어에 의해, 예를 들어, 다운로드 가능한 소프트웨어 애플리캐이션 또는 "앱"의 소프트웨어를 통해 구현될 수 있다. 일부 경우에, 스마트 홈 허브(3105)는 모듈(3120)로부터 동일한 처리된 오디오 신호를 생성하기 위해 모두 병렬로 동작하는 각 확성기(3125a-m)에서 구현될 수 있다. 이러한 일부 예에 따르면, 각 확성기에서 렌더링 모듈(3120)은 그런 다음 각 확성기 또는 확성기 그룹과 관련된 하나 이상의 스피커 피드를 생성할 수 있고, 이러한 스피커 피드를 각 스피커 역학 처리 모듈에 제공할 수 있다.
일부 예에서, 확성기(3125a 내지 3125m)는 도 3a의 확성기(305a 내지 305h)를 포함할 수 있는 한편, 다른 예에서 확성기(3125a 내지 3125m)는 다른 확성기이거나 이를 포함할 수 있다. 따라서, 이 예에서 시스템(3100)은 M개의 확성기를 포함하고, 여기에서 M은 2보다 큰 정수이다.
스마트 스피커 및 다른 많은 파워드(powered) 스피커는 일반적으로 스피커가 왜곡되는 것을 방지하기 위해 일종의 내부 역학 처리(dynamics processing)를 사용한다. 이러한 역학 처리와 종종 연관되는 것은 신호 수준이 동적으로 유지되는 신호 제한 임계값(예를 들어 주파수에 따라 가변적인 제한 임계값)이다. 예를 들어, 돌비 오디오 처리(Dolby Audio Processing; DAP) 오디오 후처리 제품군의 여러 알고리즘 중 하나인 돌비의 오디오 조정기(Audio Regulator)가 이러한 처리를 제공한다. 어떤 경우에는, 일반적으로 스마트 스피커의 역학 처리 모듈을 통하지는 않지만, 역학 처리는 또한 하나 이상의 압축기(compressor), 게이트(gate), 확장기(expander), 더커(ducker) 등을 적용하는 것도 포함될 수 있다.
따라서, 이 예에서 각 확성기(3125a 내지 3125m)는 대응하는 스피커 역학 처리(DP) 모듈 A 내지 M을 포함한다. 스피커 역학 처리 모듈은 청취 환경의 각각의 개별 확성기에 대한 개별 확성기 역학 처리 구성 데이터를 적용하도록 구성된다. 예를 들어, 스피커 DP 모듈 A는 확성기(3125a)에 적합한 개별 확성기 역학 처리 구성 데이터를 적용하도록 구성된다. 일부 예에서, 개별 확성기 역학 처리 구성 데이터는 개별 확성기의 하나 이상의 능력 중 하나에 대응할 수 있는데, 예를 들어 확성기가 특정 주파수 범위 내에서 감지할 수 있는 왜곡 없이 특정 수준에서 오디오 데이터를 재생하는 능력과 같은 것일 수 있다.
공간적 오디오가 각각 잠재적으로 상이한 재생 제한을 가진 이기종(heterogeneous) 스피커 세트(예를 들어 스마트 오디오 디바이스의, 또는 이에 결합된 스피커)에서 렌더링될 때, 경우 전체 믹스에 대해 역학 처리를 수행할 때 주의해야 한다. 간단한 해결책은 공간적 믹스를 참여하는 각 스피커의 스피커 피드로 렌더링한 다음 각 스피커와 연관된 역학 처리 모듈이 해당 스피커의 제한에 따라 대응하는 스피커 피드에서 독립적으로 작동하도록 하는 것이다.
이 접근 방식은 각 스피커가 왜곡되는 것을 방지하지만, 지각적으로 산만한 방식으로 믹스의 공간 균형을 동적으로 이동할 수 있다. 예를 들어, 도 3a를 참조하여, 텔레비전 프로그램이 텔레비전(330)에 표시되고 대응하는 오디오가 환경(300)의 확성기에 의해 재생되고 있다고 가정한다. 텔레비전 프로그램 동안, 정지된 객체(예컨대 공장 내의 중장비 한 대)가 환경(300)의 특정 위치에 렌더링되도록 의도된다고 가정한다. 또한 베이스 범위의 소리를 재생하는 확성기(305b)의 실질적으로 더 큰 능력 때문에, 확성기(305d)와 연관된 역학 처리 모듈이 확성기(305b)와 관련된 역학 처리 모듈보다 베이스 범위의 오디오 수준을 실질적으로 더 감소시킨다고 가정한다. 정지된 객체와 연관된 신호의 볼륨이 변동하면, 볼륨이 더 높을 때 확성기(305d)와 관련된 역학 처리 모듈은 베이스 범위의 오디오에 대한 수준이 확성기(305b)와 연관된 역학 처리 모듈에 의해 동일한 오디오에 대한 수준이 감소되는 것보다 실질적으로 더 많이 감소되도록 할 것이다. 이러한 수준의 차이로 인해 정지된 객체의 겉보기 위치가 변경된다. 따라서 개선된 해결책이 필요하다.
본 개시의 일부 실시예는 스마트 오디오 디바이스 세트(예를 들어, 조정된 스마트 오디오 디바이스 세트)의 스마트 오디오 디바이스 적어도 하나(예를 들어, 전부 또는 일부)에 의한 및/또는 다른 스피커 세트의 스피커 중 적어도 하나(예를 들어, 전부 또는 일부)에 의한 재생을 위해 공간적 오디오 믹스의 렌더링(또는 렌더링 및 재생)(예를 들어, 오디오 스트림 또는 오디오의 다중 스트림의 렌더링)을 위한 시스템 및 방법이다. 일부 실시예는 그러한 렌더링(예를 들어, 스피커 피드의 생성을 포함함) 및 또한 렌더링된 오디오의 재생(예를 들어, 생성된 스피커 피드의 재생)을 위한 방법(또는 시스템)이다. 그러한 실시예의 예는 다음을 포함한다:
오디오 처리를 위한 시스템 및 방법은 적어도 2개의 스피커(예를 들어, 스피커 세트의 전부 또는 일부 스피커)에 의한 재생을 위하여 오디오를 렌더링(예를 들어, 오디오 스트림 또는 오디오의 다중 스트림을 렌더링함으로써, 예를 들어 공간적 오디오 믹스를 렌더링)하는 것을 포함하며, 다음을 포함한다:
(a) 개별 확성기 역학 처리 구성 데이터(예컨대 개별 확성기의 제한 임계값(재생 제한 임계값))를 결합하여, 복수의 확성기에 대한 청취 환경 역학 처리 구성 데이터(예컨대 결합 임계값)를 결정하는 것;
(b) 복수의 확성기에 대한 청취 환경 역학 처리 구성 데이터(예를 들어, 결합 임계값)를 사용하여 오디오(예를 들어, 공간적 오디오 믹스를 나타내는 오디오의 스트림(들))에 대한 역학 처리를 수행하여 처리된 오디오를 생성하는 것; 및
(c) 처리된 오디오를 스피커 피드로 렌더링하는 것.
일부 구현에 따르면, 프로세스 (a)는 도 31에 도시된 청취 환경 역학 처리 구성 데이터 모듈(3110)과 같은 모듈에 의해 수행될 수 있다. 스마트 홈 허브(3105)는, 인터페이스 시스템을 통해, M개의 확성기 각각에 대한 개별 확성기 역학 처리 구성 데이터를 획득하도록 구성될 수 있다. 이 구현에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트를 포함한다. 일부 예에 따르면, 하나 이상의 확성기에 대한 개별 확성기 역학 처리 구성 데이터는 하나 이상의 확성기의 하나 이상의 능력에 대응할 수 있다. 이 예에서, 개별 확성기 역학 처리 구성 데이터 세트 각각은 역학 처리 구성 데이터의 적어도 한 유형을 포함한다. 일부 예에서, 스마트 홈 허브(3105)는 각 확성기(3125a-3125m)에 질의함으로써 개별 확성기 역학 처리 구성 데이터 세트를 획득하도록 구성될 수 있다. 다른 구현에서, 스마트 홈 허브(3105)는 메모리에 저장된 이전에 획득된 개별 확성기 역학 처리 구성 데이터 세트의 데이터 구조를 질의함으로써 개별 확성기 역학 처리 구성 데이터 세트를 획득하도록 구성될 수 있다.
일부 예에서, 프로세스 (b)는 도 31의 청취 환경 역학 처리 모듈(3115)과 같은 모듈에 의해 수행될 수 있다. 프로세스 (a) 및 (b)의 일부 상세한 예는 아래에서 설명된다.
일부 예에서, 프로세스 (c)의 렌더링은 도 31의 렌더링 모듈(3120) 또는 렌더링 모듈(3120')과 같은 모듈에 의해 수행될 수 있다. 일부 실시예에서, 오디오 처리는 다음을 포함할 수 있다:
(d) 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터에 따라 렌더링된 오디오 신호에 대해 역학 처리를 수행하는 것(예를 들어, 대응하는 스피커와 연관된 재생 제한 임계값에 따라 스피커 피드를 제한하여, 제한된 스피커 피드를 생성함). 프로세스 (d)는, 예를 들어, 도 31에 도시된 역학 처리 모듈 A 내지 M에 의해 수행될 수 있다.
스피커는 스마트 오디오 디바이스 세트의 스마트 오디오 디바이스 중 적어도 하나(예를 들어, 전부 또는 일부)의 (또는 이에 결합된) 스피커를 포함할 수 있다. 일부 구현에서, 단계 (d)에서 제한된 스피커 피드를 생성하기 위해, 단계 (c)에서 생성된 스피커 피드는 역학 처리의 제2 단계에 의해 (예를 들어, 각각의 스피커의 연관된 역학 처리 시스템에 의해) 처리되어, 예를 들어, 스피커를 통해 최종 재생하기 전에 스피커 피드를 생성할 수 있다. 예를 들어, 스피커 피드(또는 그것의 하위 집합 또는 일부)는 스피커 중 각각 다른 하나의 역학 처리 시스템(예를 들어, 스마트 오디오 디바이스의 역학 처리 서브시스템, 여기에서 스마트 오디오 디바이스는 스피커 중 관련된 것을 포함하거나 이에 연결됨)에 제공될 수 있으며, 각각의 상기 역학 처리 시스템으로부터의 처리된 오디오 출력은 스피커 중 관련된 것에 대한 스피커 피드를 생성하는 데 사용될 수 있다. 스피커에 특정한 역학 처리(달리 말하자면, 각 스피커에 대해 독립적으로 수행된 역학 처리)에 이어, 처리된(예를 들어, 동적으로 제한된) 스피커 피드가 스피커를 구동하여 사운드를 재생하도록 할 수 있다.
(단계 (b)에서) 역학 처리의 제1 단계는 단계 (a)와 (b)가 생략되면 일어날 공간 균형 내의 지각적으로 산만한 이동을 줄이도록 설계될 수 있으며, 단계 (d)에서 일어난 역학 처리된(예를 들어 제한된) 스피커 피드는 (단계 (b)에서 생성된 처리된 오디오에 대한 응답이 아니라) 원래 오디오에 대한 응답으로 생성되었다. 이것은 믹스의 공간 균형에서 바람직하지 않은 이동을 방지할 수 있다. 단계 (c)의 렌더링된 스피커 피드에 대해 작동하는 역학 처리의 제2 단계는 스피커 왜곡이 없도록 설계될 수 있는데, 왜냐하면 단계 (b)의 역학 처리가 신호 수준이 모든 스피커의 임계값 아래로 감소되었음을 반드시 보장하지 않을 수 있기 때문이다. 개별 확성기 역학 처리 구성 데이터의 결합(예를 들어 제1 단계(단계(a))의 임계값 결합)은, 일부 예에서, 스피커에 걸쳐 (예를 들어, 스마트 오디오 디바이스에 걸쳐) 개별 확성기 역학 처리 구성 데이터(예를 들어, 제한 임계값)를 평균하는, 또는 스피커에 걸쳐(예를 들어, 스마트 오디오 디바이스에 걸쳐) 개별 확성기 역학 처리 구성 데이터(예를 들어, 제한 임계값)의 최소값을 취하는 단계를 포함할 수 있다.
일부 구현에서, (단계 (b)에서) 역학 처리의 제1 단계가 공간적 믹스를 나타내는 오디오(예를 들어, 적어도 하나의 객체 채널 및 선택적으로 또한 적어도 하나의 스피커 채널을 포함하는 객체 기반 오디오 프로그램의 오디오)에 대해 동작할 때, 이 제1 단계는 공간 구역의 사용을 통한 오디오 객체 처리 기술에 따라 구현될 수 있다. 그러한 경우에, 각 구역과 연관된 결합된 개별 확성기 역학 처리 구성 데이터(예를 들어, 결합된 제한 임계값)는 개별 확성기 역학 처리 구성 데이터(예를 들어, 개별 스피커 제한 임계값)의 가중 평균에 의해(또는 이것으로서) 유도될 수 있으며, 이 가중치는 각 스피커의 구역에 대한 공간적 근접도 및/또는 그 안의 위치에 의해, 적어도 부분적으로, 주어지거나 결정될 수 있다.
예시적인 실시예에서 각 스피커가 변수 i에 의해 색인되는 복수의 M개의 스피커(M≥2)를 가정한다. 각 스피커 i는 주파수 가변 재생 제한 임계값 Ti[f]의 세트와 연관되며, 여기에서 변수 f는 임계값이 지정되는 유한한 주파수 집합에 대한 색인을 나타낸다. (주파수 집합의 크기가 1이면 대응하는 단일 임계값은 전체 주파수 범위에 걸쳐 적용되는 광대역으로 간주될 수 있다.) 이러한 임계값은 스피커가 왜곡을 방지하거나 스피커가 그 부근에서 불쾌한 것으로 간주되는 일정 수준 이상으로 재생되는 것을 방지하는 것과 같은 특정 목적을 위하여 임계값 Ti[f] 아래로 오디오 신호를 제한하기 위해 고유한 독립적인 역학 처리 기능에서 각 스피커에 의해 활용된다.
도 32a, 도 32b 및 도 32c는 재생 제한 임계값 및 대응하는 주파수의 예를 도시한다. 도시된 주파수 범위는 예를 들어, 평균적인 사람이 들을 수 있는 주파수 범위(예를 들어 20Hz 내지 20kHz)에 걸쳐 있을 수 있다. 이러한 예에서, 재생 제한 임계값은 그래프(3200a, 3200b 및 3200c)의 수직 축으로 표시되며, 이 예에서는 "수준 임계값"으로 표시된다. 재생 제한/수준 임계값은 수직 축의 화살표 방향으로 증가한다. 재생 제한/수준 임계값은 예를 들어 데시벨로 표시될 수 있다. 이러한 예에서, 그래프(3200a, 3200b, 3200c)의 가로축은 주파수를 나타내며, 가로축의 화살표 방향으로 증가한다. 곡선(3200a, 3200b, 3200c)으로 표시된 재생 제한 임계값은 예를 들어 개별 확성기의 역학 처리 모듈에 의해 구현될 수 있다.
도 32a의 그래프(3200a)는 주파수의 함수로서 재생 제한 임계값의 제1 예를 도시한다. 곡선(3205a)은 각각의 대응하는 주파수 값에 대한 재생 제한 임계값을 나타낸다. 이 예에서, 저음(bass) 주파수 fb에서 입력 수준 Ti로 수신된 입력 오디오는 역학 처리 모듈에 의해 출력 수준 To로 출력된다. 저음 주파수 fb는 예를 들어, 60 내지 250Hz의 범위에 있을 수 있다. 그러나 이 예에서, 고음(treble) 주파수 ft에서 입력 수준 Ti로 수신된 입력 오디오는 역학 처리 모듈에 의해 동일한 수준인 입력 수준 Ti로 출력된다. 고음 주파수 ft는 예를 들어 1280Hz 이상의 범위에 있을 수 있다. 따라서, 이 예에서 곡선(3205a)은 고음 주파수보다 저음 주파수에 대해 상당히 더 낮은 임계값을 적용하는 역학 처리 모듈에 해당한다. 이러한 역학 처리 모듈은 우퍼가 없는 확성기(예를 들어, 도 3a의 확성기(305d))에 적합할 수 있다.
도 32b의 그래프(3200b)는 주파수의 함수로서 재생 제한 임계값의 제2 예를 도시한다. 곡선(3205b)은 도 32a에 도시된 동일한 저음 주파수 fb에서, 입력 수준 Ti로 수신된 입력 오디오가 역학 처리 모듈에 의해 더 높은 출력 수준 To로 출력될 것임을 나타낸다. 따라서, 이 예에서 곡선(3205b)은 곡선(3205a)보다 저음 주파수에 대해 낮은 임계값을 적용하지 않는 역학 처리 모듈에 해당한다. 이러한 역학 처리 모듈은 적어도 작은 우퍼(예를 들어, 도 3a의 확성기(305b))를 갖는 확성기에 적합할 수 있다.
도 32c의 그래프(3200c)는 주파수의 함수로서 재생 제한 임계값의 제2 예를 도시한다. 곡선(3205c)(이 예에서 직선임)은 도 32a에 도시된 동일한 저음 주파수 fb에서, 입력 수준 Ti로 수신된 입력 오디오가 역학 처리 모듈에 의해 동일 수준으로 출력될 것임을 나타낸다. 따라서, 이 예에서 곡선(3205c)은 저음 주파수를 포함하여 광범위한 주파수를 재생할 수 있는 확성기에 적합할 수 있는 역학 처리 모듈에 해당한다. 단순화를 위하여, 역학 처리 모듈은 표시된 모든 주파수에 대해 동일한 임계값을 적용하는 곡선(3205d)을 구현함으로써 곡선(3205c)을 근사화할 수 있음을 관찰할 수 있다.
공간적 오디오 믹스는 질량 중심 진폭 패닝(CMAP) 또는 유연 가상화(FV)와 같은 알려진 렌더링 시스템을 사용하여 복수의 스피커에 대해 렌더링될 수 있다. 공간적 오디오 믹스를 구성하는 구성요소로부터, 렌더링 시스템은 복수의 스피커 각각에 대해 하나씩 스피커 피드를 생성한다. 일부 이전의 예에서, 스피커 피드는 임계값 Ti[f]를 사용하여 각 스피커의 연관된 역학 처리 기능에 의해 독립적으로 처리되었다. 본 개시의 이점 없이, 이 설명된 렌더링 시나리오는 렌더링된 공간적 오디오 믹스의 지각된 공간 균형에서 산만한 이동을 초래할 수 있다. 예를 들어, 청취 영역의 오른쪽에 있는, M개의 스피커 중 하나는 (예를 들어 저음 범위의 오디오 렌더링에서) 다른 것보다 훨씬 성능이 낮을 수 있으며 따라서 해당 스피커에 대해 임계값 Ti[f]는 적어도 특정 주파수 범위에서, 다른 스피커보다 현저히 낮을 수 있다. 재생하는 동안, 이 스피커의 역학 처리 모듈은 왼쪽의 구성요소보다 오른쪽의 공간적 믹스 구성요소의 수준을 훨씬 더 낮출 것이다. 청취자는 공간적 믹스의 왼쪽/오른쪽 균형 사이의 동적 변화에 극도로 민감하며 결과가 매우 산만하다는 것을 알 수 있을 것이다.
이 문제를 다루기 위해, 일부 예에서 청취 환경의 개별 스피커의 개별 확성기 역학 처리 구성 데이터(예를 들어, 재생 제한 임계값)가 결합되어 청취 환경의 모든 확성기에 대한 청취 환경 역학 처리 구성 데이터를 생성한다. 청취 환경 역학 처리 구성 데이터는 스피커 피드로의 렌더링 이전에 전체 공간적 오디오 믹스의 맥락에서 먼저 역학 처리를 수행하는 데 사용될 수 있다. 역학 처리의 이 제1 단계는 단지 하나의 독립적인 스피커 피드가 아니라, 전체 공간적 믹스에 접근할 수 있기 때문에, 믹스의 지각된 공간 균형에 산만한 이동을 부여하지 않는 방식으로 처리가 수행될 수 있다. 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값)는 개별 스피커의 독립적인 역학 처리 기능에 의해 수행되는 역학 처리의 양을 제거하거나 줄이는 방식으로 결합될 수 있다.
청취 환경 역학 처리 구성 데이터를 결정하는 일 예에서, 개별 스피커에 대한 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값)는 역학 처리의 제1 단계에서 공간적 믹스의 모든 구성요소에 적용되는 단일 세트의 청취 환경 역학 처리 구성 데이터(예를 들어, 주파수-가변 재생 제한 임계값 )로 결합된다. 이러한 일부 예에 따르면, 모든 구성요소에 대해 제한이 동일하기 때문에, 믹스의 공간적 균형이 유지될 수 있다. 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값)를 결합하는 한 가지 방법은 모든 스피커 i에서 최소값을 취하는 것이다.
식 (30)
이러한 결합은 공간적 믹스가 모든 주파수에서 가장 성능이 낮은 스피커의 임계값 아래로 먼저 제한되기 때문에 기본적으로 각 스피커의 개별 역학 처리 작업을 제거한다. 그러나, 그러한 전략은 지나치게 공격적일 수 있다. 많은 스피커가 자신의 성능보다 낮은 수준에서 재생하고 있을 수 있으며, 모든 스피커의 결합된 재생 수준이 매우 낮을 수 있다. 예를 들어, 도 32a에 도시된 저음 범위의 임계값이 도 32c에 대한 임계값에 대응하는 확성기에 적용된다면, 후자의 스피커의 재생 수준은 저음 범위에서 불필요하게 낮을 것이다. 청취 환경 역학 처리 구성 데이터를 결정하는 대안적인 결합은 청취 환경의 모든 스피커에 걸쳐 개별 확성기 역학 처리 구성 데이터의 평균(mean(average))을 취하는 것이다. 예를 들어, 재생 제한 임계값의 맥락에서, 평균은 다음과 같이 결정될 수 있다.
식 (31)
이 결합의 경우, 역학 처리의 제1 단계가 더 높은 수준으로 제한되어, 더 성능이 좋은 스피커가 더 크게 재생할 수 있기 때문에, 전체 재생 수준이 최소값을 취하는 것에 비해 증가할 수 있다. 개별 제한 임계값이 평균 아래로 떨어지는 스피커의 경우, 그 독립적인 동적 처리 기능이 필요한 경우 그 연관된 스피커 피드를 계속 제한할 수 있다. 그러나, 공간적 믹스에 대해 일부 초기 제한이 수행되었기 때문에 역학 처리의 제1 단계는 이 제한의 요구 사항을 줄였을 것이다.
청취 환경 역학 처리 구성 데이터를 결정하는 일부 예에 따르면, 조정(tuning) 매개변수 α를 통해 개별 확성기 역학 처리 구성 데이터의 최소값과 평균 사이를 보간하는 조정 가능한 결합을 생성할 수 있다. 예를 들어, 재생 제한 임계값의 맥락에서, 보간은 다음과 같이 결정될 수 있다.
식 (32)
개별 확성기 역학 처리 구성 데이터의 다른 결합이 가능하며, 본 개시는 이러한 모든 결합을 포함하도록 의도된다.
도 33a 및 도 33b는 동적 범위 압축 데이터의 예를 나타내는 그래프이다. 그래프(3300a 및 3300b)에서, 데시벨 단위의 입력 신호 수준은 수평축에 표시되고 데시벨 단위의 출력 신호 수준은 수직축에 표시된다. 다른 개시된 예에서와 같이, 특정 임계값, 비율 및 기타 값은 단지 예로서 도시되고 제한하는 것이 아니다.
도 33a에 표시된 예에서, 출력 신호 수준은 임계값 아래의 입력 신호 수준과 동일하며, 이 예에서는 -10dB이다. 다른 예는 상이한 임계값, 예를 들어 -20dB, -18dB, -16dB, -14dB, -12dB, -8dB, -6dB, -4dB, -2dB, 0dB, 2dB, 4dB, 6dB 등을 포함할 수 있다. 임계값 이상에서는, 압축비의 다양한 예가 표시된다. N:1 비율은 임계값 이상에서, 입력 신호가 NdB 증가할 때마다 출력 신호 수준이 1dB씩 증가함을 의미한다. 예를 들어, 10:1 압축비(선 3305e)은 임계값 이상에서, 입력 신호가 10dB 증가할 때마다 출력 신호 수준이 1dB만 증가함을 의미한다. 1:1 압축비(선 3305a)은 임계값보다 높더라도, 출력 신호 수준이 여전히 입력 신호 수준과 동일함을 의미한다. 선 3305b, 3305c 및 3305d는 3:2, 2:1 및 5:1 압축비에 해당한다. 다른 구현은 2.5:1, 3:1, 3.5:1, 4:3, 4:1 등과 같은 다른 압축비를 제공할 수 있다.
도 33b는 임계값(이 예에서는 0dB)에서 또는 그 부근에서 압축비가 어떻게 변하는지 제어하는 "굴곡(knee)"의 예를 도시한다. 이 예에 따르면, "단단한(hard)" 굴곡을 갖는 압축 곡선은 임계값까지의 선 부분(3310a)과 임계값 위의 선 부분(3310b)인 두 개의 직선 부분으로 구성된다. 단단한 굴곡은 구현하기가 더 간단할 수 있지만, 아티팩트가 발생할 수 있다.
도 33b에는, "부드러운(soft)" 굴곡의 한 예가 또한 도시된다. 이 예에서, 부드러운 굴곡은 10dB에 걸쳐 있다. 이 구현에 따르면, 10dB 범위(span) 이상 및 이하에서, 부드러운 굴곡을 갖는 압축 곡선의 압축비는 단단한 굴곡을 갖는 압축 곡선의 압축비와 동일하다. 다른 구현은 더 많거나 더 적은 데시벨에 걸쳐 있을 수 있는 "부드러운" 굴곡의 다양한 다른 모양을 제공할 수 있으며, 그 범위를 초과하는 상이한 압축비를 나타낼 수 있다.
다른 유형의 동적 범위 압축 데이터는 "공격(attack)" 데이터 및 "해제(release)" 데이터를 포함할 수 있다. 공격은 예를 들어, 입력에서 증가된 수준에 응답하여, 압축비에 의해 결정된 이득에 도달할 때까지 압축기가 이득을 감소시키는 기간이다. 압축기의 공격 시간은 일반적으로 25밀리초에서 500밀리초 사이이지만, 다른 공격 시간도 가능하다. 해제는 예를 들어, 입력에서 감소된 수준에 응답하여, 압축비에 의해 결정된 출력 이득에 도달할 때까지 (또는 입력 수준이 임계값 아래로 떨어진 경우 입력 수준까지) 압축기가 이득을 증가시키는 기간이다. 해제 시간은 예를 들어 25밀리초 내지 2초의 범위일 수 있다.
따라서, 일부 예에서 개별 확성기 역학 처리 구성 데이터는, 복수의 확성기 중 각 확성기에 대하여, 동적 범위 압축 데이터 세트를 포함할 수 있다. 동적 범위 압축 데이터 세트는 임계값 데이터, 입출력 비율 데이터, 공격 데이터, 해제 데이터 및/또는 굴곡 데이터를 포함할 수 있다. 개별 확성기 역학 처리 구성 데이터의 이러한 유형 중 하나 이상은 청취 환경 역학 처리 구성 데이터를 결정하기 위해 결합될 수 있다. 재생 한계 임계값을 결합하는 것과 관련하여 위에서 언급한 바와 같이, 동적 범위 압축 데이터는 일부 예에서 청취 환경 역학 처리 구성 데이터를 결정하기 위해 평균될 수 있다. 일부 경우에, 동적 범위 압축 데이터의 최소값 또는 최대값은 청취 환경 역학 처리 구성 데이터(예를 들어, 최대 압축비)를 결정하는 데 사용될 수 있다. 다른 구현에서, 예를 들어 식 32를 참조하여 위에서 설명된 바와 같은 조정 매개변수를 통해 개별 확성기 역학 처리를 위한 동적 범위 압축 데이터의 최소값과 평균 사이를 보간하는 조정 가능한 조합을 생성할 수 있다.
위에 설명된 일부 예에서, 단일 세트의 청취 환경 역학 처리 구성 데이터(예를 들어, 결합된 임계값 의 단일 세트)가 역학 처리의 제1 단계에서 공간적 믹스의 모든 구성요소에 적용된다. 이러한 구현은 믹스의 공간적 균형을 유지할 수 있지만, 다른 원치 않는 아티팩트를 줄 수 있다. 예를 들어, "공간 더킹(spatial ducking)"은 격리된 공간 영역에서 공간적 믹스의 매우 큰 부분이 전체 믹스를 낮추는 원인이 될 때 발생할 수 있다. 이 큰 구성요소로부터 공간적으로 멀리 떨어져 있는 믹스의 다른 부드러운 구성요소는 부자연스럽게 부드러워지는 것으로 지각될 수 있다. 예를 들어, 부드러운 배경 음악은 결합된 임계값 보다 낮은 수준에서 공간적 믹스의 서라운드 필드에서 재생될 수 있으며, 따라서 역학 처리의 제1 단계에서 공간적 믹스의 제한이 수행되지 않는다. 그런 다음 시끄러운 총성이 공간적 믹스의 전방에 (예를 들어 영화 사운드 트랙의 화면에) 일시적으로 도입될 수 있으며, 믹스의 전체 수준이 결합된 임계값 이상으로 증가한다. 이 순간, 역학 처리의 제1 단계는 전체 믹스의 수준을 임계값 아래로 낮춘다. 음악은 총성과 공간적으로 분리되어 있기 때문에, 연속적인 음악 흐름에서 이는 부자연스러운 더킹으로 지각될 수 있다.
이러한 문제를 처리하기 위해, 일부 구현에서는 공간적 믹스의 상이한 "공간 구역"에서 독립적이거나 부분적으로 독립적인 역학 처리를 허용한다. 공간 구역은 전체 공간적 믹스가 렌더링되는 공간 영역의 하위 집합으로 간주될 수 있다. 다음 논의의 대부분이 재생 제한 임계값에 기초하는 역학 처리의 예를 제공하지만, 개념은 다른 유형의 개별 확성기 역학 처리 구성 데이터 및 청취 환경 역학 처리 구성 데이터에도 동일하게 적용된다.
도 34는 청취 환경의 공간 구역의 예를 도시한다. 도 34는 전방(Front), 중앙(Center), 서라운드(Surround)의 세 공간 구역으로 세분화된 공간적 믹스의 영역(전체 사각형으로 표시)의 예를 보여준다.
도 34의 공간 구역은 경계가 엄격하게 표시되어 있지만, 실제로는 한 공간 구역에서 다른 곳으로의 전환을 연속적인 것으로 처리하는 것이 유리하다. 예를 들어, 정사각형의 왼쪽 가장자리 중앙에 위치한 공간적 믹스의 구성요소는 그 수준의 절반이 전방 구역에 할당되고 절반이 서라운드 구역에 할당될 수 있다. 공간적 믹스의 각 구성요소로부터의 신호 수준은 이러한 연속적인 방식으로 각 공간 구역에 할당되고 누적될 수 있다. 역학 처리 기능은 믹스로부터 그에 할당된 전체 신호 수준의 각 공간 구역에 대해 독립적으로 작동할 수 있다. 공간적 믹스의 각 구성요소에 대하여, 각 공간 구역으로부터의 역학 처리 결과(예를 들어 주파수당 시변 이득)가 결합되어 구성요소에 적용될 수 있다. 일부 예에서, 이러한 공간 구역 결과의 결합은 각 구성요소에 대해 상이하며 각 구역에 대한 해당 특정 구성요소의 할당의 함수이다. 최종 결과는 유사한 공간 구역 할당이 있는 공간적 믹스의 구성요소가 유사한 역학 처리를 받지만, 공간 구역 사이의 독립성이 허용된다는 것이다. 공간 구역은 왼쪽/오른쪽 불균형과 같은 불쾌한 공간 이동을 방지하면서, (예를 들어, 설명된 공간 더킹과 같은 다른 아티팩트를 줄이기 위해) 일부 공간적으로 독립적인 처리를 허용하도록 유리하게 선택될 수 있다.
공간 구역에 의한 공간적 믹스를 처리하기 위한 기술은 본 개시의 역학 처리의 제1 단계에서 유리하게 채용될 수 있다. 예를 들어, 스피커 i에 걸쳐 개별 확성기 역학 처리 구성 데이터(예를 들어, 재생 한계 임계값)의 상이한 결합이 각 공간 구역에 대해 계산될 수 있다. 결합된 구역 임계값 세트는 로 표시될 수 있으며, 여기에서 인덱스 j는 복수의 공간 구역 중 하나를 나타낸다. 역학 처리 모듈은 그 연관된 임계값 를 사용하여 각 공간 구역에서 독립적으로 작동할 수 있으며 결과는 위에서 설명한 기술에 따라 공간적 믹스를 구성하는 구성요소에 다시 적용될 수 있다.
공간 신호가 각각 연관된 원하는 (가능하게는 시변) 공간 위치를 갖는 총 K개의 개별 구성 신호 로 구성된 것으로 렌더링되는 것을 고려한다. 구역 처리를 구현하기 위한 한 가지 특정 방법은 각 오디오 신호 가 구역의 위치와 관련하여 오디오 신호의 원하는 공간 위치 함수로서 구역 j에 얼마나 기여하는지 설명하는 시변 패닝 이득 를 계산하는 것을 포함한다. 이러한 패닝 이득은 이득의 제곱의 합이 일치할 것을 요구하는 전력 보존 패닝 법칙을 따르도록 유리하게 설계될 수 있다. 이러한 패닝 이득으로부터, 해당 구역에 대한 패닝 이득에 의해 가중치가 부여된 구성 신호의 합으로 구역 신호 가 계산될 수 있다.
식 (33)
각 구역 신호 는 그런 다음 구역 임계값 에 의해 매개변수화된 역학 처리 기능 DP에 의해 독립적으로 처리되어 주파수 및 시변 구역 수정 이득 Gj를 생성할 수 있다.
식 (34)
주파수 및 시변 수정 이득은 구역에 대한 해당 신호의 패닝 이득에 비례하여 구역 수정 이득을 결합하여 각 개별 구성 신호 에 대해 계산될 수 있다.
식 (35)
이러한 신호 수정 이득 Gk은, 예를 들어 필터뱅크를 사용하여, 각 구성 신호에 적용되어 이후에 스피커 신호로 렌더링될 수 있는 역학 처리된 구성 신호 를 생성할 수 있다.
각 공간 구역에 대한 개별 확성기 역학 처리 구성 데이터(예컨대 스피커 재생 제한 임계값)의 결합은 다양한 방식으로 수행될 수 있다. 일 예로서, 공간 구역 재생 제한 임계값 는 공간 구역 및 스피커 종속 가중치 를 사용하여 스피커 재생 제한 임계값 의 가중 합으로 계산될 수 있다.
식 (36)
유사한 가중치 함수가 다른 유형의 개별 확성기 역학 처리 구성 데이터에 적용될 수 있다. 유리하게는, 공간 구역의 결합된 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값)는 해당 공간 구역과 연관된 공간적 믹스의 구성요소를 재생하는 데 가장 책임이 있는 스피커의 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값) 쪽으로 편향될 수 있다. 이것은 주파수 f에 대한 해당 구역과 연관된 공간적 믹스의 구성요소를 렌더링하는 각 스피커의 책임의 함수로 가중치 를 설정하여 달성할 수 있다.
도 35는 도 34의 공간 구역 내의 확성기의 예를 도시한다. 도 35는 도 34와 동일한 구역을 나타내지만, 공간적 믹스 렌더링을 담당하는 5개의 예시적인 확성기(스피커 1, 2, 3, 4 및 5)의 위치가 중첩되어 있다. 이 예에서 확성기 1, 2, 3, 4, 5는 다이아몬드로 표시된다. 이 특정 예에서, 스피커 1은 중앙 구역, 스피커 2와 5는 전방 구역, 스피커 3과 4는 서라운드 구역 렌더링을 주로 담당한다. 공간 구역에 대한 스피커의 개념적 일대일 매핑에 기초하여 가중치 를 생성할 수 있지만, 공간적 믹스의 공간 구역 기반 처리와 마찬가지로, 더 연속적인 매핑이 선호될 수 있다. 예를 들어, 스피커 4는 전방 구역에 매우 가깝고, 스피커 4와 5 사이에 있는 오디오 믹스의 구성요소(개념적 전방 구역에 있음)는 스피커 4와 5의 조합에 의해 크게 재생될 수 있다. 따라서, 스피커 4의 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값)가 전방 구역 및 서라운드 구역의 결합된 개별 확성기 역학 처리 구성 데이터(예를 들어 재생 제한 임계값)에 기여하는 것이 합리적이다.
이러한 연속 매핑을 달성하는 한 가지 방법은 공간 구역 j와 관련된 구성요소를 렌더링할 때 각 스피커 i의 상대적 기여도를 설명하는 스피커 참여 값과 동일한 가중치 를 설정하는 것이다. 이러한 값은 (예를 들어, 위에서 설명된 단계 (c)로부터) 스피커에 대한 렌더링을 담당하는 렌더링 시스템 및 각 공간 구역과 연관된 하나 이상의 공칭(nominal) 공간 위치 세트로부터 직접 유도될 수 있다. 이 공칭 공간 위치 세트는 각 공간 구역 내의 위치 세트를 포함할 수 있다.
도 36은 도 35의 공간 구역과 스피커에 중첩된 공칭 공간 위치의 예를 도시한다. 공칭 위치는 번호가 매겨진 원으로 표시된다. 전방 구역과 연관된 두 위치는 정사각형의 상단 모서리에 위치한 두 위치이고, 중앙 구역과 연관된 위치는 정사각형의 상단 중앙에 있는 단일 위치이고, 서라운드 구역과 연관된 위치는 정사각형의 하단 모서리에 있는 두 개의 위치이다.
공간 구역에 대한 스피커 참여 값을 계산하기 위해, 구역과 연관된 각 공칭 위치는 렌더러를 통해 렌더링되어 해당 위치와 연관된 스피커 활성화를 생성할 수 있다. 이러한 활성화는, 예를 들어, CMAP의 경우 각 스피커에 대한 이득이거나 FV의 경우 각 스피커에 대해 주어진 주파수에서 복소수 값일 수 있다. 다음으로, 각 스피커 및 구역에 대해, 이러한 활성화는 공간 구역과 연관된 각 공칭 위치에 걸쳐 누적되어 값 를 생성할 수 있다. 이 값은 공간 구역 j와 연관된 전체 공칭 위치 세트를 렌더링하기 위한 스피커 i의 총 활성화를 나타낸다. 마지막으로, 공간 구역에서 스피커 참여 값은 스피커에 걸쳐 모든 이러한 누적 활성화의 합으로 정규화된 누적 활성화 로 계산될 수 있다. 그런 다음 가중치는 이 스피커 참여 값으로 설정될 수 있다.
식 (37)
설명된 정규화는 모든 스피커 i에 걸친 의 합이 1과 같도록 하며, 이는 식 36의 가중치에 대한 바람직한 속성이다.
일부 구현에 따르면, 스피커 참여 값을 계산하고 이들 값의 함수로서 임계값을 결합하기 위해 위에서 설명된 프로세스는 결과 결합 임계값이 환경의 스피커의 레이아웃 및 능력을 결정하는 설정 절차 동안 한 번 계산되는 정적 프로세스로서 수행될 수 있다. 이러한 시스템에서는 일단 설정되면, 개별 확성기의 역학 처리 구성 데이터와 렌더링 알고리즘이 원하는 오디오 신호 위치의 함수로 확성기를 활성화하는 방식이 모두 정적으로 유지된다고 가정할 수 있다. 그러나, 특정 시스템에서, 이러한 두 가지 측면은 예를 들어 재생 환경의 변화하는 조건에 따라, 시간이 지남에 따라 달라질 수 있으므로, 이러한 변화를 고려하기 위하여 위에서 설명한 프로세스에 따라 결합된 임계값을 연속 또는 이벤트로부터 촉발되는 방식으로 업데이트하는 것이 바람직할 수 있다.
CMAP 및 FV 렌더링 알고리즘은 모두 청취 환경의 변화에 응답하여 하나 이상의 동적으로 구성 가능한 기능에 적응하도록 보강될 수 있다. 예를 들어, 도 35와 관련하여, 스피커 3 근처에 위치한 사람은 스피커와 연관된 스마트 비서의 깨우기 단어를 발화함으로써, 시스템이 그 사람의 후속 명령을 들을 준비가 된 상태로 배치할 수 있다. 깨우기 단어가 발화되는 동안 시스템은 확성기와 관련된 마이크를 사용하여 사람의 위치를 결정할 수 있다. 이 정보를 사용하여, 시스템은 스피커 3에서 재생 중인 오디오의 에너지를 다른 스피커로 전환하여 스피커 3의 마이크가 사람의 소리를 더 잘 들을 수 있도록 선택할 수 있다. 이러한 시나리오에서, 도 35의 스피커 2는 일정 기간 동안 스피커 3의 책임을 본질적으로 "인계"할 수 있으며, 결과적으로 서라운드 구역에 대한 스피커 참여 값이 크게 변경된다. 스피커 3의 참여 값은 감소하고 스피커 2의 것은 증가한다. 구역 임계값은 변경된 스피커 참여 값에 의존하기 때문에 다시 계산될 수 있다. 대안적으로, 또는 렌더링 알고리즘에 대한 이러한 변경에 추가하여, 스피커 3의 제한 임계값은 스피커가 왜곡되는 것을 방지하기 위해 설정된 공칭 값 아래로 낮아질 수 있다. 이렇게 하면 스피커 3에서 재생되는 남아 있는 오디오가 사람의 말을 듣고 있는 마이크에 간섭을 일으키는 것으로 결정된 일부 임계값을 초과하여 증가하지 않도록 할 수 있다. 구역 임계값은 개별 스피커 임계값의 함수이기도 하므로, 이 경우에 이것이 또한 업데이트될 수 있다.
도 37은 본원에 개시된 것과 같은 장치 또는 시스템에 의해 수행될 수 있는 방법의 일례를 개략적으로 나타내는 흐름도이다. 방법(3700)의 블록은, 본원에 설명된 다른 방법과 마찬가지로, 표시된 순서대로 수행될 필요는 없다. 일부 구현에서, 방법(3700)의 블록 중 하나 이상이 동시에 수행될 수 있다. 또한, 방법(3700)의 일부 구현은 도시 및/또는 설명된 것보다 더 많거나 더 적은 블록을 포함할 수 있다. 방법(3700)의 블록은 하나 이상의 디바이스에 의해 수행될 수 있으며, 이는 도 1a에 도시되고 위에서 설명된 제어 시스템(110)과 같은 제어 시스템, 또는 다른 개시된 제어 시스템 예 중 하나일 수 있다(또는 이를 포함할 수 있다).
이 예에 따르면, 블록(3705)은, 제어 시스템에 의해 및 인터페이스 시스템을 통해, 청취 환경의 복수의 확성기 각각에 대한 개별 확성기 역학 처리 구성 데이터를 획득하는 것을 포함한다. 이 구현에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트를 포함한다. 일부 예에 따르면, 하나 이상의 확성기에 대한 개별 확성기 역학 처리 구성 데이터는 하나 이상의 확성기의 하나 이상의 능력에 대응할 수 있다. 이 예에서, 개별 확성기 역학 처리 구성 데이터 세트 각각은 역학 처리 구성 데이터의 적어도 한 유형을 포함한다.
일부 예에서, 블록(3705)은 청취 환경의 복수의 확성기 각각으로부터 개별 확성기 역학 처리 구성 데이터 세트를 획득하는 것을 포함할 수 있다. 다른 예에서, 블록(3705)은 메모리에 저장된 데이터 구조로부터 개별 확성기 역학 처리 구성 데이터 세트를 획득하는 것을 포함할 수 있다. 예를 들어, 개별 확성기 역학 처리 구성 데이터 세트는 예를 들어 각 확성기에 대한 설정 절차의 일부로서 이전에 획득되어 데이터 구조에 저장되었을 수 있다.
일부 예에 따르면, 개별 확성기 역학 처리 구성 데이터 세트는 독점적일(proprietary) 수 있다. 이러한 일부 예에서, 개별 확성기 역학 처리 구성 데이터 세트는 유사한 특성을 갖는 스피커에 대한 개별 확성기 역학 처리 구성 데이터에 기초하여 사전에 추정되었을 수 있다. 예를 들어, 블록(3705)은 복수의 스피커를 나타내는 데이터 구조 및 복수의 스피커 각각에 대한 대응하는 개별 확성기 역학 처리 구성 데이터 세트로부터 가장 유사한 스피커를 결정하는 스피커 매칭 프로세스를 포함할 수 있다. 스피커 매칭 프로세스는 예를 들어, 하나 이상의 우퍼, 트위터 및/또는 미드레인지 스피커의 크기 비교에 기초할 수 있다.
이 예에서, 블록(3710)은, 제어 시스템에 의해, 복수의 확성기에 대한 청취 환경 역학 처리 구성 데이터를 결정하는 것을 포함한다. 이 구현에 따르면, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터 세트에 기초한다. 청취 환경 역학 처리 구성 데이터를 결정하는 것은, 예를 들어 하나 이상의 유형의 개별 확성기 역학 처리 구성 데이터의 평균을 취함으로써 역학 처리 구성 데이터 세트의 개별 확성기 역학 처리 구성 데이터를 결합하는 것을 포함할 수 있다. 일부 경우에, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 하나 이상의 유형의 개별 확성기 역학 처리 구성 데이터의 최소값 또는 최대값을 결정하는 것을 포함할 수 있다. 일부 그러한 구현에 따르면, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 하나 이상의 유형의 개별 확성기 역학 처리 구성 데이터의 최소값 또는 최대값과 평균값 사이를 보간하는 것을 포함할 수 있다.
이 구현에서, 블록(3715)은, 제어 시스템에 의해 및 인터페이스 시스템을 통해, 하나 이상의 오디오 신호 및 연관된 공간 데이터를 포함하는 오디오 데이터를 수신하는 것을 포함한다. 예를 들어, 공간 데이터는 오디오 신호에 대응하는 의도한 지각된 공간 위치를 나타낼 수 있다. 이 예에서, 공간 데이터는 채널 데이터 및/또는 공간 메타데이터를 포함한다.
이 예에서, 블록(3720)은, 제어 시스템에 의해, 청취 환경 역학 처리 구성 데이터에 기초하여 오디오 데이터에 대해 역학 처리를 수행하여 처리된 오디오 데이터를 생성하는 것을 포함한다. 블록(3720)의 역학 처리는 본원에 개시된 개시된 역학 처리 방법 중 임의의 것을 포함할 수 있으며, 하나 이상의 재생 제한 임계값, 압축 데이터 등을 적용하는 것을 포함하지만 이에 제한되지 않는다.
여기에서, 블록(3725)은, 제어 시스템에 의해, 복수의 확성기 중 적어도 일부를 포함하는 확성기 세트를 통한 재생을 위해 처리된 오디오 데이터를 렌더링하여, 렌더링된 오디오 신호를 생성하는 것을 포함한다. 일부 예에서, 블록(3725)은 CMAP 렌더링 프로세스, FV 렌더링 프로세스, 또는 둘의 조합을 적용하는 것을 수반할 수 있다. 이 예에서, 블록(3720)은 블록(3725) 전에 수행된다. 그러나, 위에서 언급된 바와 같이, 블록(3720) 및/또는 블록(3710)은 블록(3725)의 렌더링 프로세스에 적어도 부분적으로 기초할 수 있다. 블록(3720 및 3725)은 도 31의 청취 환경 역학 처리 모듈 및 렌더링 모듈(3120)을 참조하여 위에서 설명된 것과 같은 프로세스를 수행하는 것을 수반할 수 있다.
이 예에 따르면, 블록(3730)은, 인터페이스 시스템을 통해, 렌더링된 오디오 신호를 확성기 세트에 제공하는 것을 포함한다. 일 예에서, 블록(3730)은, 스마트 홈 허브(3105)에 의해 및 그 인터페이스 시스템을 통해, 확성기(3125a 내지 3125m)에 렌더링된 오디오 신호를 제공하는 것을 포함할 수 있다.
일부 예에서, 방법(3700)은 렌더링된 오디오 신호가 제공되는 확성기 세트의 각 확성기에 대한 개별 확성기 역학 처리 구성 데이터에 따라 렌더링된 오디오 신호에 대해 역학 처리를 수행하는 것을 포함할 수 있다. 예를 들어, 도 31을 다시 참조하면, 역학 처리 모듈 A 내지 M은 확성기 3125a 내지 3125m에 대한 개별 확성기 역학 처리 구성 데이터에 따라 렌더링된 오디오 신호에 대해 역학 처리를 수행할 수 있다.
일부 구현에서, 개별 확성기 역학 처리 구성 데이터는 복수의 확성기의 각 확성기에 대한 재생 제한 임계값 데이터 세트를 포함할 수 있다. 일부 그러한 예에서, 재생 제한 임계값 데이터 세트는 복수의 주파수 각각에 대한 재생 제한 임계값을 포함할 수 있다.
청취 환경 역학 처리 구성 데이터를 결정하는 것은, 일부 경우에, 복수의 확성기에 걸쳐 최소 재생 제한 임계값을 결정하는 것을 포함할 수 있다. 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸쳐 재생 제한 임계값을 평균하여 평균 재생 제한 임계값을 획득하는 것을 포함할 수 있다. 그러한 일부 예에서, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 복수의 확성기에 걸친 최소 재생 한계 임계값을 결정하고 최소 재생 제한 임계값과 평균 재생 제한 임계값 사이를 보간하는 것을 포함할 수 있다.
일부 구현에 따르면, 재생 제한 임계값을 평균하는 것은 재생 제한 임계값의 가중 평균을 결정하는 것을 수반할 수 있다. 그러한 일부 예에서, 가중 평균은 제어 시스템에 의해 구현된 렌더링 프로세스의 특성, 예를 들어 블록(3725)의 렌더링 프로세스의 특성에 적어도 부분적으로 기초할 수 있다.
일부 구현에서, 오디오 데이터에 대한 역학 처리를 수행하는 것은 공간 구역에 기초할 수 있다. 각 공간 구역은 청취 환경의 하위 집합에 대응할 수 있다.
일부 그러한 구현에 따르면, 역학 처리는 각 공간 구역에 대해 별도로 수행될 수 있다. 예를 들어, 청취 환경 역학 처리 구성 데이터를 결정하는 것은 각 공간 구역에 대해 별도로 수행될 수 있다. 예를 들어, 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은 하나 이상의 공간 구역 각각에 대해 별도로 수행될 수 있다. 일부 예에서, 하나 이상의 공간 구역 각각에 대해 별도로 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은 하나 이상의 공간 구역에 걸친 원하는 오디오 신호 위치의 함수로서 렌더링 프로세스에 의한 확성기의 활성화에 적어도 부분적으로 기초할 수 있다.
일부 예에서, 하나 이상의 공간 구역 각각에 대해 별도로 복수의 확성기에 걸쳐 역학 처리 구성 데이터 세트를 결합하는 것은 하나 이상의 공간 구역 각각에서 각 확성기에 대한 확성기 참여 값에 적어도 부분적으로 기초할 수 있다. 각 확성기 참여 값은 하나 이상의 공간 구역 각각 내의 하나 이상의 공칭 공간 위치에 적어도 부분적으로 기초할 수 있다. 공칭 공간 위치는, 일부 예에서, 돌비 5.1, 돌비 5.1.2, 돌비 7.1, 돌비 7.1.4 또는 돌비 9.1 서라운드 사운드 믹스에서 채널의 표준 위치에 대응할 수 있다. 이러한 일부 구현에서, 각 확성기 참여 값은 하나 이상의 공간 구역 각각 내의 하나 이상의 공칭 공간 위치 각각에서 오디오 데이터의 렌더링에 대응하는 각 확성기의 활성화에 적어도 부분적으로 기초한다.
그러한 일부 예에 따르면, 재생 제한 임계값의 가중 평균은 공간 구역에 대한 오디오 신호 근접도의 함수로서 렌더링 프로세스에 의한 확성기의 활성화에 적어도 부분적으로 기초할 수 있다. 일부 경우에, 가중 평균은 각 공간 구역에서 각 확성기에 대한 확성기 참여 값에 적어도 부분적으로 기초할 수 있다. 일부 그러한 예에서, 각 확성기 참여 값은 각 공간 구역 내의 하나 이상의 공칭 공간 위치에 적어도 부분적으로 기초할 수 있다. 예를 들어, 공칭 공간 위치는 돌비 5.1, 돌비 5.1.2, 돌비 7.1, 돌비 7.1.4 또는 돌비 9.1 서라운드 사운드 믹스에서 채널의 표준 위치에 해당할 수 있다. 일부 구현에서, 각 확성기 참여 값은 각 공간 구역 내의 하나 이상의 공칭 공간 위치 각각에서 오디오 데이터의 렌더링에 대응하는 각 확성기의 활성화에 적어도 부분적으로 기초할 수 있다.
일부 구현에 따르면, 처리된 오디오 데이터를 렌더링하는 것은 하나 이상의 동적으로 구성 가능한 기능에 따라 확성기 세트의 상대적 활성화를 결정하는 것을 수반할 수 있다. 일부 예는 도 10 이하를 참조하여 아래에 설명되어 있다. 하나 이상의 동적으로 구성 가능한 기능은 오디오 신호의 하나 이상의 속성, 확성기 세트의 하나 이상의 속성, 또는 하나 이상의 외부 입력에 기초할 수 있다. 예를 들어, 하나 이상의 동적으로 구성 가능한 기능은 하나 이상의 청취자에 대한 확성기의 근접도; 흡인력 위치에 대한 확성기의 근접도-흡인력은 흡인력 위치에 더 근접한 것을 상대적으로 더 높은 확성기 활성화에 대해 선호하는 인자임; 반발력 위치에 대한 확성기의 근접도-반발력은 반발력 위치에 더 근접한 것을 상대적으로 더 낮은 확성기 활성화에 대해 선호하는 인자임; 환경의 다른 확성기에 대한 각 확성기의 능력; 다른 확성기에 대한 확성기의 동기화; 깨우기 단어 성능; 또는 반향 제거기 성능에 기초할 수 있다.
스피커의 상대적인 활성화는, 일부 예에서, 스피커를 통해 재생할 때 오디오 신호의 지각된 공간 위치 모델, 스피커의 위치에 대한 오디오 신호의 의도한 지각된 공간 위치의 근접도의 측정값 및 하나 이상의 동적으로 구성 가능한 기능의 비용 함수에 기초할 수 있다.
일부 예에서, 비용 함수(적어도 하나의 동적 스피커 활성화 조건 포함)의 최소화는 스피커 중 적어도 하나의 비활성화(각 이러한 스피커가 관련 오디오 콘텐츠를 재생하지 않는다는 의미에서) 및 적어도 하나의 스피커의 활성화(각 이러한 스피커가 렌더링된 오디오 콘텐츠의 적어도 일부를 재생한다는 의미에서)를 초래할 수 있다. 동적 스피커 활성화 조건(들)은 오디오의 공간 표현을 특정 스마트 오디오 디바이스로부터 워핑하여 그 마이크가 화자를 더 잘 들을 수 있도록 하거나 보조 오디오 스트림이 스마트 오디오 디바이스의 스피커에서 더 잘 들리도록 하는 것을 포함하여, 다양한 거동 중 적어도 하나를 가능하게 할 수 있다.
일부 구현에 따르면, 개별 확성기 역학 처리 구성 데이터는, 복수의 확성기의 각 확성기에 대하여, 동적 범위 압축 데이터 세트를 포함할 수 있다. 일부 예에서, 동적 범위 압축 데이터 세트는 임계값 데이터, 입력/출력 비율 데이터, 공격 데이터, 해제 데이터 또는 굴곡 데이터 중 하나 이상을 포함할 수 있다.
위에서 언급한 바와 같이, 일부 구현에서 도 37에 도시된 방법(3700)의 적어도 일부 블록은 생략될 수 있다. 예를 들어, 일부 구현에서 블록 3705 및 3710은 설정 프로세스 동안 수행된다. 청취 환경 역학 처리 구성 데이터가 결정된 후, 일부 구현에서 단계 3705 및 3710은 청취 환경의 스피커의 유형 및/또는 배열이 변경되지 않는 한 "런 타임" 동작 동안 다시 수행되지 않는다. 예를 들어, 일부 구현에서는 스피커가 추가 또는 연결 해제되었는지 여부, 스피커 위치가 변경되었는지 등을 결정하기 위한 초기 검사가 있을 수 있다. 만일 그렇다면, 단계 3705 및 3710이 구현될 수 있다. 그렇지 않다면, 단계 3705 및 3710은 블록 3715-3730을 포함할 수 있는 "런타임" 동작 이전에 다시 수행되지 않을 수 있다.
도 38a, 도 38b 및 도 38c는 도 2c 및 도 2d의 예에 대응하는 확성기 참여 값의 예를 도시한다. 도 38a, 도 38b 및 도 38c에서, 각도 -4.1은 도 2d의 스피커 위치(272)에 대응하고, 각도 4.1은 도 2d의 스피커 위치(274)에 대응하고, 각도 -87은 도 2d의 스피커 위치(267)에 대응하고, 각도 63.6은 스피커 위치(275)에 대응하고, 각도 165.4는 도 2d의 스피커 위치(270)에 대응한다. 이러한 확성기 참여 값은 도 34 내지 도 37을 참조하여 설명된 공간 구역과 관련된 가중치의 예이다. 이러한 예에 따르면, 도 38a, 도 38b 및 도 38c에 도시된 확성기 참여 값은 도 34에 도시된 각 공간 구역에서 각 확성기의 참여에 대응한다. 도 38a에 도시된 확성기 참여 값은 중앙 구역에서 각 확성기의 참여에 대응하고, 도 38b에 도시된 확성기 참여 값은 전방 좌측 및 우측 구역에서 각 확성기의 참여에 대응하고, 도 38c에 도시된 확성기 참여 값은 후방 구역에서 각 확성기 참여에 대응한다.
도 39a, 도 39b 및 도 39c는 도 2f 및 도 2g의 예에 대응하는 확성기 참여 값의 예를 도시한다. 도 39a, 도 39b 및 도 39c에서, 각도 -4.1은 도 2d의 스피커 위치(272)에 대응하고, 각도 4.1은 도 2d의 스피커 위치(274)에 대응하고, 각도 -87은 도 2d의 스피커 위치(267)에 대응하고, 각도 63.6은 스피커 위치(275)에 대응하고, 각도 165.4는 도 2d의 스피커 위치(270)에 대응한다. 이러한 예에 따르면, 도 39a, 도 39b 및 도 39c에 도시된 확성기 참여 값은 도 34에 도시된 각 공간 구역에서 각 확성기의 참여에 대응한다. 도 39a에 도시된 확성기 참여 값은 중앙 구역에서 각 확성기의 참여에 대응하고, 도 39b에 도시된 확성기 참여 값은 전방 좌측 및 우측 구역에서 각 확성기의 참여에 대응하고, 도 39c에 도시된 확성기 참여 값은 후방 구역에서 각 확성기의 참여에 대응한다.
도 40a, 도 40b 및 도 40c는 도 2h 및 도 2i의 예에 대응하는 확성기 참여 값의 예를 도시한다. 이러한 예에 따르면, 도 40a, 도 40b 및 도 40c에 도시된 확성기 참여 값은 도 34에 도시된 각 공간 구역에서 각 확성기의 참여에 대응한다. 도 40a에 도시된 확성기 참여 값은 중앙 구역에서 각 확성기의 참여에 대응하고, 도 40b에 도시된 확성기 참여 값은 전방 좌측 및 우측 구역에서 각 확성기의 참여에 대응하고, 도 40c에 도시된 확성기 참여 값은 후방 구역에서 각 확성기의 참여에 대응한다.
도 41a, 도 41b 및 도 41c는 도 2j 및 도 2k의 예에 대응하는 확성기 참여 값의 예를 도시한다. 이러한 예에 따르면, 도 41a, 도 41b 및 도 41c에 도시된 확성기 참여 값은 도 34에 도시된 각 공간 구역에서 각 확성기의 참여에 대응한다. 도 41a에 도시된 확성기 참여 값은 중앙 구역에서 각 확성기의 참여에 대응하고, 도 41b에 도시된 확성기 참여 값은 전방 좌측 및 우측 구역에서 각 확성기의 참여에 대응하고, 도 41c에 도시된 확성기 참여 값은 후방 구역에서 각 확성기의 참여에 대응한다.
도 42는 이 예에서 생활 공간인 환경을 나타내는 도면이다. 이 예에 따르면, 생활 공간은 오디오 상호 작용을 위한 스마트 오디오 디바이스(디바이스 1.1), 오디오 출력을 위한 스피커(1.3) 및 제어 가능한 조명(1.2)을 포함한다. 예에서, 디바이스 1.1만이 마이크를 포함하므로 깨우기 단어 명령을 실행하는 사용자(1.4)가 어디에 있는지 알 수 있다. 다양한 방법을 사용하여, 이러한 디바이스로부터 정보가 집합적으로 획득되어 깨우기 단어를 실행하는(예를 들어, 말하는) 사용자의 위치 추정(예를 들어, 세분화된 위치 추정)을 제공할 수 있다.
그러한 생활 공간에는 사람이 작업이나 활동을 수행하거나 임계값을 넘는 일련의 자연 활동 구역이 있다. 이러한 작업 영역(구역)은 (예를 들어 불확실한 위치를 결정하기 위해) 위치를 추정하려는 노력 또는 인터페이스의 다른 양상으로 사용자를 지원하기 위한 맥락이 있을 수 있는 곳이다. 도 1의 예에서 주요 작업 영역은 다음과 같다.
1. 주방 싱크대 및 음식 준비 영역(생활 공간의 왼쪽 상단 영역 내);
2. 냉장고 문(싱크대와 음식 준비 영역 오른쪽);
3. 식사 영역(생활 공간의 왼쪽 하단 영역 내);
4. 생활 공간의 개방된 영역(싱크대, 음식 준비 영역 및 식사 영역의 오른쪽);
5. TV 소파(개방된 영역의 오른쪽);
6. TV 자체;
7. 테이블; 및
8. 문 영역 또는 진입로(생활 공간의 오른쪽 상단 영역 내).
작업 영역에 맞게 위치가 비슷한 위치를 갖는 비슷한 수의 조명이 있는 경우가 많다. 조명의 일부 또는 전부는 개별적으로 제어할 수 있는 네트워크 에이전트일 수 있다.
일부 실시예에 따르면, 오디오는 하나 이상의 스피커(1.3)(및 /또는 하나 이상의 디바이스(1.1)의 스피커(들))에 의한 (발명 방법의 임의의 실시예에 따른) 재생을 위해 (예를 들어, 디바이스(1.1) 또는 도 42 시스템의 다른 디바이스 중 하나에 의해) 렌더링된다.
실시예의 부류는 복수의 조정된(편성된) 스마트 오디오 디바이스 중 적어도 하나(예를 들어, 전부 또는 일부)에 의한 오디오의 재생 및/또는 재생을 위한 오디오의 렌더링 방법이다. 예를 들어, 사용자의 집에 있는 (시스템 내의) 스마트 오디오 디바이스 세트는 스마트 오디오 디바이스의 전부 또는 일부에 의한 (즉, 전부 또는 일부의 스피커(들)에 의한) 재생을 위한 오디오의 유연한 렌더링을 포함하여, 다양한 동시 사용 사례를 처리하도록 편성될 수 있다. 렌더링 및/또는 재생에 대한 동적 수정이 필요한 시스템과의 많은 상호 작용이 고려된다. 그러한 수정은 공간 충실도에 초점을 맞출 수 있지만 반드시 그런 것은 아니다.
일부 실시예는 조정된(편성된) 복수의 스마트 오디오 디바이스의 스피커(들)에 의한 재생 및/또는 재생을 위한 렌더링을 구현한다. 다른 실시예는 다른 스피커 세트의 스피커(들)에 의한 재생 및/또는 재생을 위한 렌더링을 구현한다.
일부 실시예(예를 들어, 렌더링 시스템 또는 렌더러, 또는 렌더링 방법, 또는 재생 시스템 또는 방법)는 스피커 세트의 일부 또는 모든 스피커(즉, 각 활성화된 스피커)에 의해 재생 및/또는 재생을 위해 오디오를 렌더링하기 위한 시스템 및 방법에 관한 것이다. 일부 실시예에서, 스피커는 스마트 오디오 디바이스의 조정된(편성된) 세트의 스피커이다.
많은 실시예가 기술적으로 가능하다. 본 개시로부터 이를 구현하는 방법은 당업자에게 명백할 것이다. 일부 실시예가 본원에 설명되어 있다.
본 개시의 일부 양상은 개시된 방법의 하나 이상의 예를 수행하도록 구성된(예를 들어, 프로그래밍된) 시스템 또는 디바이스, 및 개시된 방법 또는 그 단계의 하나 이상의 예를 구현하기 위한 코드를 저장하는 유형의 컴퓨터 판독 가능 매체(예를 들어, 디스크)를 포함한다. 예를 들어, 일부 개시된 시스템은 개시된 방법 또는 그 단계의 실시예를 포함하여, 데이터에 대한 다양한 작업 중 임의의 것을 수행하도록 소프트웨어 또는 펌웨어로 프로그래밍된 및/또는 달리 구성된, 프로그래밍 가능한 범용 프로세서, 디지털 신호 프로세서, 또는 마이크로프로세서이거나 이를 포함할 수 있다. 이러한 범용 프로세서는 입력 디바이스, 메모리 및 주장된 데이터에 대한 응답으로 개시된 방법(또는 그 단계)의 하나 이상의 예를 수행하도록 프로그래밍된(및/또는 달리 구성된) 처리 서브시스템을 포함하는 컴퓨터 시스템이거나 이를 포함할 수 있다.
일부 실시예는 개시된 방법의 하나 이상의 예의 성능을 포함하는, 오디오 신호(들)에 대해 요구되는 처리를 수행하도록 구성된(예를 들어, 프로그래밍된 또는 달리 구성된) 구성 가능한(예를 들어, 프로그래밍 가능한) 디지털 신호 프로세서(DSP)로서 구현될 수 있다. 대안적으로, 개시된 시스템(또는 그 요소)의 실시예는 개시된 방법의 하나 이상의 예를 포함하는 다양한 동작 중 임의의 것을 수행하도록 소프트웨어 또는 펌웨어로 프로그래밍된 및/또는 달리 구성된 범용 프로세서(예를 들어, 입력 디바이스 및 메모리를 포함할 수 있는, 개인용 컴퓨터(PC) 또는 다른 컴퓨터 시스템 또는 마이크로프로세서)로서 구현될 수 있다. 대안적으로, 발명 시스템의 일부 실시예의 요소는 개시된 방법의 하나 이상의 예를 수행하도록 구성된(예를 들어, 프로그래밍된) 범용 프로세서 또는 DSP로서 구현되고, 시스템은 또한 다른 요소(예를 들어, 하나 이상의 확성기 및/또는 하나 이상의 마이크)를 포함할 수 있다. 개시된 방법의 하나 이상의 예를 수행하도록 구성된 범용 프로세서는 입력 디바이스(예를 들어, 마우스 및/또는 키보드), 메모리 및 디스플레이 디바이스에 결합될 수 있다.
본 개시의 다른 양상은 개시된 방법 또는 그 단계의 하나 이상의 예를 수행하기 위한 코드(예를 들어, 수행하도록 실행 가능한 코더)를 저장하는 컴퓨터 판독 가능 매체(예를 들어, 디스크 또는 다른 유형의(tangible) 저장 매체)이다.
다양한 특징 및 양상은 다음의 열거된 예시적인 실시예("EEE")로부터 이해될 것이다:
EEE1. 스마트 오디오 디바이스 세트의 적어도 하나의 스마트 오디오 디바이스의 적어도 두 개의 스피커에 의한 재생을 위한 오디오 렌더링 방법에 있어서, 오디오는 각각 연관된 원하는 지각된 공간 위치를 갖는 하나 이상의 오디오 신호이고, 스피커 세트의 스피커의 상대적 활성화는 스피커를 통해 재생되는 상기 오디오 신호의 지각된 공간 위치 모델, 스피커의 위치에 대한 오디오 신호의 원하는 지각된 공간 위치의 근접도 및 오디오 신호의 적어도 하나 이상의 속성, 스피커 세트의 하나 이상의 속성 또는 하나 이상의 외부 입력에 의존하는 하나 이상의 추가적인 동적으로 구성 가능한 기능의 함수인 방법.
EEE 2. 제EEE1항에 있어서, 추가적인 동적으로 구성 가능한 기능은: 하나 이상의 청취자에 대한 스피커의 근접도; 흡인 또는 반발력에 대한 확성기의 근접도; 특정 위치에 대한 스피커의 가청성; 스피커의 능력; 다른 스피커에 대한 스피커의 동기화; 깨우기 단어 성능; 또는 반향 제거기 성능 중 적어도 하나를 포함하는 방법.
EEE 3. 제EEE1항 또는 제EEE2항에 있어서, 렌더링은 비용 함수의 최소화를 포함하고, 비용 함수는 적어도 하나의 동적 스피커 활성화 항을 포함하는 방법.
EEE 4. 스피커 세트의 적어도 두 개의 스피커에 의한 재생을 위한 오디오 렌더링 방법에 있어서, 오디오는 각각 연관된 원하는 지각된 공간 위치를 갖는 하나 이상의 오디오 신호이고, 스피커 세트의 스피커의 상대적 활성화는 스피커를 통해 재생되는 상기 오디오 신호의 지각된 공간 위치 모델, 스피커의 위치에 대한 오디오 신호의 원하는 지각된 공간 위치의 근접도 및 오디오 신호의 적어도 하나 이상의 속성, 스피커 세트의 하나 이상의 속성 또는 하나 이상의 외부 입력에 의존하는 하나 이상의 추가적인 동적으로 구성 가능한 기능의 함수인 방법.
EEE 5. 제EEE4항에 있어서, 추가적인 동적으로 구성 가능한 기능은: 하나 이상의 청취자에 대한 스피커의 근접도; 흡인 또는 반발력에 대한 확성기의 근접도; 특정 위치에 대한 스피커의 가청성; 스피커의 능력; 다른 스피커에 대한 스피커의 동기화; 깨우기 단어 성능; 또는 반향 제거기 성능 중 적어도 하나를 포함하는 방법.
EEE6. 제EEE4항 또는 제EEE5항에 있어서, 렌더링은 비용 함수의 최소화를 포함하고, 비용 함수는 적어도 하나의 동적 스피커 활성화 항을 포함하는 방법.
EEE7. 두 개 이상의 확성기의 세트를 통해, 각각 연관된 원하는 지각된 공간 위치를 갖는 하나 이상의 오디오 신호의 세트를 렌더링하는 것을 포함하고, 확성기 세트의 상대적 활성화는 확성기를 통해 재생되는 상기 오디오 신호의 지각된 공간 위치 모델, 확성기의 위치에 대한 오디오 객체의 원하는 지각된 공간 위치의 근접도 및 오디오 신호의 적어도 하나 이상의 속성, 확성기 세트의 하나 이상의 속성 또는 하나 이상의 외부 입력에 의존하는 하나 이상의 추가적인 동적으로 구성 가능한 기능의 함수인, 오디오 렌더링 방법.
EEE1A. 제1 오디오 프로그램 스트림을 수신하는 것 - 제1 오디오 프로그램 스트림은 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 제1 오디오 신호를 포함하고, 제1 오디오 프로그램 스트림은 제1 공간 데이터를 포함하고, 제1 공간 데이터는 채널 데이터 또는 공간 메타데이터 중 적어도 하나를 포함함 -;
환경의 스피커를 통한 재생을 위해 제1 오디오 신호를 렌더링하여, 제1 렌더링된 오디오 신호를 생성하는 것;
제2 오디오 프로그램 스트림을 수신하는 것 - 제2 오디오 프로그램 스트림은 환경의 적어도 하나의 스피커에 의해 재생되도록 스케줄링된 제2 오디오 신호를 포함함 -; 및
환경의 적어도 하나의 스피커를 통한 재생을 위해 제2 오디오 신호를 렌더링하여, 제2 렌더링된 오디오 신호를 생성하는 것;
제2 오디오 신호, 제2 렌더링된 오디오 신호 또는 이들의 특성 중 적어도 하나에 적어도 부분적으로 기초하여 제1 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제1 렌더링된 오디오 신호를 생성하는 것; 및
제1 오디오 신호, 제1 렌더링된 오디오 신호 또는 이들의 특성 중 적어도 하나에 적어도 부분적으로 기초하여 제2 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제2 렌더링된 오디오 신호를 생성하는 것;
수정된 제1 렌더링된 오디오 신호와 수정된 제2 렌더링된 오디오 신호를 믹싱하여 믹싱된 오디오 신호를 생성하는 것; 및
믹싱된 오디오 신호를 환경의 적어도 일부 스피커에 제공하는 것을 포함하는 오디오 처리 방법.
EEE2A. 제 EEE1A 항에 있어서, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은:
제1 오디오 신호의 렌더링을 제2 렌더링된 오디오 신호의 렌더링 위치로부터 멀어지도록 워핑하는 것, 또는
제2 오디오 신호 또는 제2 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 제1 렌더링된 오디오 신호의 음량을 수정하는 것
중 하나 이상을 수행하는 것을 수반하는 방법.
EEE3A. 제 EEE1A 항 또는 제 EEE2A 항에 있어서:
제1 마이크로부터 제1 마이크 신호를 수신하는 것; 및
제1 마이크 신호에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하는 것을 더 포함하는 방법.
EEE4A. 제 EEE3A 항에 있어서:
제1 마이크 신호에 기초하여 제1 음원 위치를 추정하는 것; 및
제1 음원 위치에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하는 것을 더 포함하는 방법.
EEE5A. 제 EEE3A 항 또는 제 EEE4A 항에 있어서:
제1 마이크 신호가 사람 음성에 대응하는지 결정하는 것; 및
제1 마이크 신호가 사람 음성에 대응하는지 여부에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하는 것을 더 포함하는 방법.
EEE6A. 제 EEE3A 항 내지 제 EEE5A 항 중 어느 하나에 있어서:
제1 마이크 신호가 환경 소음에 대응하는지 결정하는 것; 및
제1 마이크 신호가 환경 소음에 대응하는지 여부에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하는 것을 더 포함하는 방법.
EEE7A. 제 EEE3A 항 내지 제 EEE6A 항 중 어느 하나에 있어서, 제1 마이크 신호에 적어도 부분적으로 기초하여 재생된 제1 오디오 프로그램 스트림 또는 재생된 제2 오디오 프로그램 스트림에 대한 음량 추정값을 유도하는 것을 더 포함하는 방법.
EEE8A. 제 EEE7A 항에 있어서, 음량 추정값에 적어도 부분적으로 기초하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나에 대한 렌더링 프로세스를 수정하는 것을 더 포함하는 방법.
EEE9A. 제 EEE8A 항에 있어서, 음량 추정값은 지각된 음량 추정값이고 렌더링 프로세스를 수정하는 것은 간섭 신호의 존재 하에 그 지각된 음량을 보존하기 위하여 제1 오디오 신호 또는 제2 오디오 신호 중 적어도 하나를 변경하는 것을 수반하는 방법.
EEE10A. 제 EEE4A 항에 있어서:
제1 마이크 신호가 사람 음성에 대응한다고 결정하는 것; 및
제1 음원 위치와 상이한 환경의 위치 근처의 하나 이상의 스피커에서 제1 마이크 신호를 재생하는 것을 더 포함하는 방법.
EEE11A. 제 EEE10A 항에 있어서, 제1 마이크 신호가 어린이의 울음에 대응한다고 결정하는 것을 더 포함하고, 환경의 위치는 돌봄 제공자의 추정된 위치에 대응하는 방법.
EEE12A. 제 EEE10A 항에 있어서, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 환경의 위치 근처의 하나 이상의 스피커의 수정된 제1 렌더링된 오디오 신호의 음량을 감소시키는 것을 수반하는 방법.
EEE13A. 제 EEE1A 항 내지 제 EEE10A 항 중 어느 하나에 있어서, 제1 오디오 신호를 렌더링하는 것 또는 제2 오디오 신호를 렌더링하는 것 중 적어도 하나는 임의로 위치된 스피커에 대한 유연한 렌더링을 수반하는 방법.
EEE14A. 제 EEE13A 항에 있어서, 유연한 렌더링은 질량 중심 진폭 패닝 또는 유연 가상화를 수반하는 방법.
EEE1B. 환경의 스피커를 제어하는 방법에 있어서, 상기 방법은:
제1 오디오 프로그램 스트림을 수신하는 것 - 제1 오디오 프로그램 스트림은 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 제1 오디오 신호를 포함하고, 제1 오디오 프로그램 스트림은 제1 공간 데이터를 포함하고, 제1 공간 데이터는 채널 데이터 또는 공간 메타데이터 중 적어도 하나를 포함함 -;
환경의 스피커를 통한 동시 재생을 위해 제1 오디오 신호를 렌더링하여, 제1 렌더링된 오디오 신호를 생성하는 것;
제1 마이크로부터 제1 마이크 신호를 수신하는 것;
제1 마이크 신호에 기초하여 제1 음원 위치를 추정하는 것;
제1 마이크 신호에 적어도 부분적으로 기초하여 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것-제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은:
제1 오디오 신호의 렌더링을 제1 마이크 신호에 기초하여 제1 음원 위치로부터 멀어지도록 워핑하는 것, 또는
제1 음원 위치에 적어도 부분적으로 기초하여 제1 렌더링된 오디오 신호의 음량을 수정하는 것
중 하나 이상을 수행하는 것을 수반함; 및
수정된 제1 렌더링된 오디오 신호를 환경의 적어도 일부 스피커에 제공하는 것을 포함하는 방법.
EEE2B. 제 EEE1B항에 있어서, 제1 마이크 신호가 환경 소음에 대응한다고 결정하는 것을 더 포함하고, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제1 음원 위치로부터 더 먼 스피커에 의해 재생되는 제1 렌더링된 오디오 신호의 음량과 비교하여, 제1 음원 위치 근처의 스피커에 의해 재생되는 제1 렌더링된 오디오 신호의 음량을 감소시키는 것을 수반하는 방법.
EEE3B. 제 EEE1B항에 있어서, 제1 마이크 신호가 사람 음성에 대응한다고 결정하는 것을 더 포함하고, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제1 음원 위치로부터 더 먼 스피커에 의해 재생되는 제1 렌더링된 오디오 신호의 음량과 비교하여, 제1 음원 위치 근처의 스피커에 의해 재생되는 제1 렌더링된 오디오 신호의 음량을 감소시키는 것을 수반하는 방법.
EEE4B. 제 EEE3B항에 있어서:
제1 마이크 신호가 깨우기 단어에 대응한다고 결정하는 것;
깨우기 단어에 대한 응답을 결정하는 것; 및
응답을 재생하기 위하여 제1 음원 위치 근처의 적어도 하나의 스피커를 제어하는 것을 더 포함하는 방법.
EEE5B. 제 EEE3B항에 있어서:
제1 마이크 신호가 명령에 대응한다고 결정하는 것;
명령에 대한 응답을 결정하는 것;
응답을 재생하기 위하여 제1 음원 위치 근처의 적어도 하나의 스피커를 제어하는 것; 및
명령을 실행하는 것을 더 포함하는 방법.
EEE6B. 제 EEE5B항에 있어서, 응답을 재생하기 위하여 제1 음원 위치 근처의 적어도 하나의 스피커를 제어한 후 제1 오디오 신호에 대한 수정되지 않은 렌더링 프로세스로 복귀하는 것을 더 포함하는 방법.
EEE7B. 제 EEE1B항에 있어서:
제1 마이크 신호가 사람 음성에 대응한다고 결정하는 것; 및
환경의 위치 근처의 하나 이상의 스피커에서 제1 마이크 신호를 재생하는 것을 더 포함하는 방법.
EEE8B. 제 EEE7B항에 있어서, 제1 마이크 신호가 어린이의 울음에 대응한다고 결정하는 것을 더 포함하고, 환경의 위치는 돌봄 제공자의 추정된 위치에 대응하는 방법.
EEE9B. 제 EEE7B항에 있어서, 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것은 제2 음원 위치 근처의 하나 이상의 스피커에서 수정된 제1 렌더링된 오디오 신호의 음량을 감소시키는 것을 수반하는 방법.
본 개시의 특정 실시예 및 본 개시의 적용이 본원에 설명되었지만, 본원에 설명되고 청구된 개시의 범위를 벗어나지 않고 본원에 기재된 실시예 및 적용에 대한 많은 변형이 가능하다는 것이 당업자에게 명백할 것이다. 개시의 특정 형태가 도시되고 설명되었지만, 개시는 설명되고 도시된 특정 실시예 또는 설명된 특정 방법으로 제한되지 않는다는 것을 이해해야 한다.

Claims (34)

  1. 인터페이스 시스템; 및
    제어 시스템을 포함하고, 상기 제어 시스템은:
    제1 렌더링 모듈로서:
    상기 인터페이스 시스템을 통해, 제1 오디오 프로그램 스트림을 수신 - 상기 제1 오디오 프로그램 스트림은 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 제1 오디오 신호를 포함하고, 상기 제1 오디오 프로그램 스트림은 제1 공간 데이터를 포함하고, 상기 제1 공간 데이터는 채널 데이터 또는 공간 메타데이터 중 적어도 하나를 포함함 -; 및
    상기 환경의 상기 스피커를 통한 재생을 위해 상기 제1 오디오 신호를 렌더링하여, 제1 렌더링된 오디오 신호를 생성
    하도록 구성되는 상기 제1 렌더링 모듈;
    제2 렌더링 모듈로서:
    상기 인터페이스 시스템을 통해, 제2 오디오 프로그램 스트림을 수신 - 상기 제2 오디오 프로그램 스트림은 상기 환경의 적어도 하나의 스피커에 의해 재생되도록 스케줄링된 제2 오디오 신호를 포함함 -; 및
    상기 환경의 적어도 하나의 스피커를 통한 재생을 위해 상기 제2 오디오 신호를 렌더링하여, 제2 렌더링된 오디오 신호를 생성
    하도록 구성되는 상기 제2 렌더링 모듈;
    상기 제1 렌더링 모듈은 상기 제2 오디오 신호, 상기 제2 렌더링된 오디오 신호 또는 이들의 특성 중 적어도 하나에 적어도 부분적으로 기초하여 상기 제1 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제1 렌더링된 오디오 신호를 생성하도록 추가로 구성되고;
    상기 제2 렌더링 모듈은 상기 제1 오디오 신호, 상기 제1 렌더링된 오디오 신호 또는 이들의 특성 중 적어도 하나에 적어도 부분적으로 기초하여 상기 제2 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제2 렌더링된 오디오 신호를 생성하도록 추가로 구성되고; 및
    상기 수정된 제1 렌더링된 오디오 신호와 상기 수정된 제2 렌더링된 오디오 신호를 믹싱하여 믹싱된 오디오 신호를 생성하도록 구성된 믹싱 모듈을 포함하고,
    상기 제어 시스템은 상기 믹싱된 오디오 신호를 상기 환경의 적어도 일부 스피커에 제공하도록 더 구성되는 오디오 처리 시스템.
  2. 제1항에 있어서,
    하나 이상의 추가 렌더링 모듈을 더 포함하고, 상기 하나 이상의 추가 렌더링 모듈 각각은:
    상기 인터페이스 시스템을 통해, 추가 오디오 프로그램 스트림을 수신하고 - 상기 추가 오디오 프로그램 스트림은 상기 환경의 적어도 하나의 스피커에 의해 재생되도록 스케줄링된 추가 오디오 신호를 포함함 -;
    상기 환경의 적어도 하나의 스피커를 통한 재생을 위해 상기 추가 오디오 신호를 렌더링하여, 추가 렌더링된 오디오 신호를 생성하고; 및
    상기 제1 오디오 신호, 상기 제1 렌더링된 오디오 신호, 상기 제2 오디오 신호, 상기 제2 렌더링된 오디오 신호 또는 이들의 특성 중 적어도 하나에 적어도 부분적으로 기초하여 상기 추가 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 추가 렌더링된 오디오 신호를 생성하도록 구성되며,
    상기 믹싱 모듈은 상기 수정된 추가 렌더링된 오디오 신호를 적어도 상기 수정된 제1 렌더링된 오디오 신호 및 상기 수정된 제2 렌더링된 오디오 신호와 믹싱하여, 상기 믹싱된 오디오 신호를 생성하도록 더 구성된 오디오 처리 시스템.
  3. 제1항 또는 제2항에 있어서, 상기 제1 오디오 신호에 대한 상기 렌더링 프로세스를 수정하는 것은:
    제1 오디오 신호의 상기 렌더링을 상기 제2 렌더링된 오디오 신호의 렌더링 위치로부터 멀어지도록 워핑(warping)하는 것, 또는
    상기 제2 오디오 신호 또는 상기 제2 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 상기 제1 렌더링된 오디오 신호의 음량을 수정하는 것
    중 하나 이상을 수행하는 것을 수반하는 오디오 처리 시스템.
  4. 제1항 또는 제2항에 있어서, 상기 제2 오디오 신호에 대한 상기 렌더링 프로세스를 수정하는 것은:
    상기 제2 오디오 신호의 상기 렌더링을 상기 제1 렌더링된 오디오 신호의 렌더링 위치로부터 멀어지도록 워핑하는 것, 또는
    상기 제1 오디오 신호 또는 상기 제1 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 상기 제2 렌더링된 오디오 신호의 음량을 수정하는 것
    중 하나 이상을 수행하는 것을 수반하는 오디오 처리 시스템.
  5. 제1항 또는 제2항에 있어서, 상기 제1 오디오 신호에 대한 상기 렌더링 프로세스를 수정하는 것은 스펙트럼 수정(spectral modification), 가청도 기반 수정(audibility-based modification) 또는 동적 범위 수정(dynamic range modification)으로 구성된 수정 목록으로부터 하나 이상의 수정을 수행하는 것을 수반하는 오디오 처리 시스템.
  6. 제1항 또는 제2항에 있어서, 하나 이상의 마이크를 포함하는 마이크 시스템을 더 포함하고, 상기 제1 렌더링 모듈은 상기 마이크 시스템으로부터의 제1 마이크 신호에 적어도 부분적으로 기초하여 상기 제1 오디오 신호에 대한 렌더링 프로세스를 수정하도록 구성되고 상기 제2 렌더링 모듈은 상기 제1 마이크 신호에 적어도 부분적으로 기초하여 상기 제2 오디오 신호에 대한 렌더링 프로세스를 수정하도록 구성되는 오디오 처리 시스템.
  7. 제6항에 있어서, 상기 제어 시스템은:
    상기 제1 마이크 신호에 기초하여 제1 음원 위치를 추정하고; 및
    상기 제1 음원 위치에 적어도 부분적으로 기초하여 상기 제1 오디오 신호 또는 상기 제2 오디오 신호 중 적어도 하나에 대한 상기 렌더링 프로세스를 수정하도록 더 구성되는 오디오 처리 시스템.
  8. 제6항에 있어서, 상기 제어 시스템은:
    상기 제1 마이크 신호가 환경 소음에 대응하는지 결정하고; 및
    상기 제1 마이크 신호가 환경 소음에 대응하는지 여부에 적어도 부분적으로 기초하여 상기 제1 오디오 신호 또는 상기 제2 오디오 신호 중 적어도 하나에 대한 상기 렌더링 프로세스를 수정하도록 더 구성되는 오디오 처리 시스템.
  9. 제6항에 있어서, 상기 제어 시스템은:
    상기 제1 마이크 신호가 사람 음성에 대응하는지 결정하고; 및
    상기 제1 마이크 신호가 사람 음성에 대응하는지 여부에 적어도 부분적으로 기초하여 상기 제1 오디오 신호 또는 상기 제2 오디오 신호 중 적어도 하나에 대한 상기 렌더링 프로세스를 수정하도록 더 구성되는 오디오 처리 시스템.
  10. 제9항에 있어서, 상기 제1 오디오 신호에 대한 상기 렌더링 프로세스를 수정하는 것은 제1 음원 위치로부터 더 먼 스피커에 의해 재생되는 상기 제1 렌더링된 오디오 신호의 음량과 비교하여, 상기 제1 음원 위치 근처의 스피커에 의해 재생되는 상기 제1 렌더링된 오디오 신호의 음량을 감소시키는 것을 수반하는 오디오 처리 시스템.
  11. 제9항에 있어서, 상기 제어 시스템은:
    상기 제1 마이크 신호가 깨우기 단어(wakeword)에 대응한다고 결정하고;
    상기 깨우기 단어에 대한 응답을 결정하고; 및
    상기 응답을 재생하기 위하여 제1 음원 위치 근처의 적어도 하나의 스피커를 제어하도록 더 구성되는 오디오 처리 시스템.
  12. 제9항에 있어서, 상기 제어 시스템은:
    상기 제1 마이크 신호가 명령에 대응한다고 결정하고;
    상기 명령에 대한 응답을 결정하고;
    상기 응답을 재생하기 위하여 제1 음원 위치 근처의 적어도 하나의 스피커를 제어하고; 및
    상기 명령을 실행하도록 더 구성되는 오디오 처리 시스템.
  13. 제12항에 있어서, 상기 제어 시스템은 상기 응답을 재생하기 위하여 상기 제1 음원 위치 근처의 적어도 하나의 스피커를 제어한 후 상기 제1 오디오 신호에 대한 수정되지 않은 렌더링 프로세스로 복귀하도록 더 구성되는 오디오 처리 시스템.
  14. 제6항에 있어서, 상기 제어 시스템은 상기 제1 마이크 신호에 적어도 부분적으로 기초하여 상기 재생된 제1 오디오 프로그램 스트림 또는 상기 재생된 제2 오디오 프로그램 스트림에 대한 음량 추정값을 유도(derive)하도록 더 구성되는 오디오 처리 시스템.
  15. 제14항에 있어서, 상기 제어 시스템은 상기 음량 추정값에 적어도 부분적으로 기초하여 상기 제1 오디오 신호 또는 상기 제2 오디오 신호 중 적어도 하나에 대한 상기 렌더링 프로세스를 수정하도록 더 구성되는 오디오 처리 시스템.
  16. 제15항에 있어서, 상기 음량 추정값은 지각된(perceived) 음량 추정값이고 상기 렌더링 프로세스를 수정하는 것은 간섭 신호의 존재 하에 그 지각된 음량을 보존하기 위하여 상기 제1 오디오 신호 또는 상기 제2 오디오 신호 중 적어도 하나를 변경하는 것을 수반하는 오디오 처리 시스템.
  17. 제6항에 있어서, 상기 제어 시스템은:
    상기 제1 마이크 신호가 사람 음성에 대응한다고 결정하고; 및
    제1 음원 위치와 상이한 상기 환경의 위치 근처의 하나 이상의 스피커에서 상기 제1 마이크 신호를 재생하도록 더 구성되는 오디오 처리 시스템.
  18. 제17항에 있어서, 상기 제어 시스템은 상기 제1 마이크 신호가 어린이의 울음에 대응하는지 결정하도록 더 구성되고, 상기 환경의 상기 위치는 돌봄 제공자의 추정된 위치에 대응하는 오디오 처리 시스템.
  19. 제1항 또는 제2항에 있어서, 상기 제어 시스템은 상기 재생된 제1 오디오 프로그램 스트림 또는 상기 재생된 제2 오디오 프로그램 스트림에 대한 음량 추정값을 유도하도록 더 구성되고 상기 제어 시스템은 상기 음량 추정값에 적어도 부분적으로 기초하여 상기 제1 오디오 신호 또는 상기 제2 오디오 신호 중 적어도 하나에 대한 상기 렌더링 프로세스를 수정하도록 더 구성되는 오디오 처리 시스템.
  20. 제19항에 있어서, 상기 음량 추정값은 지각된 음량 추정값이고 상기 렌더링 프로세스를 수정하는 것은 간섭 신호의 존재 하에 그 지각된 음량을 보존하기 위하여 상기 제1 오디오 신호 또는 상기 제2 오디오 신호 중 적어도 하나를 변경하는 것을 수반하는 오디오 처리 시스템.
  21. 제1항 또는 제2항에 있어서, 상기 제1 오디오 신호를 렌더링하는 것 또는 상기 제2 오디오 신호를 렌더링하는 것 중 적어도 하나는 임의로 위치된 스피커에 대한 유연한 렌더링을 수반하는 오디오 처리 시스템.
  22. 제21항에 있어서, 상기 유연한 렌더링은 질량 중심 진폭 패닝(Center of Mass Amplitude Panning) 또는 유연 가상화(Flexible Virtualization)를 수반하는 오디오 처리 시스템.
  23. 제1 렌더링 모듈에 의해, 제1 오디오 프로그램 스트림을 수신하는 것 - 상기 제1 오디오 프로그램 스트림은 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 제1 오디오 신호를 포함하고, 상기 제1 오디오 프로그램 스트림은 제1 공간 데이터를 포함하고, 상기 제1 공간 데이터는 채널 데이터 또는 공간 메타데이터 중 적어도 하나를 포함함 -;
    상기 제1 렌더링 모듈에 의해, 상기 환경의 상기 스피커를 통한 재생을 위해 상기 제1 오디오 신호를 렌더링하여, 제1 렌더링된 오디오 신호를 생성하는 것;
    제2 렌더링 모듈에 의해, 제2 오디오 프로그램 스트림을 수신하는 것 - 상기 제2 오디오 프로그램 스트림은 상기 환경의 적어도 하나의 스피커에 의해 재생되도록 스케줄링된 제2 오디오 신호를 포함함 -;
    상기 제2 렌더링 모듈에 의해, 상기 환경의 적어도 하나의 스피커를 통한 재생을 위해 상기 제2 오디오 신호를 렌더링하여, 제2 렌더링된 오디오 신호를 생성하는 것;
    상기 제1 렌더링 모듈에 의해, 상기 제2 오디오 신호, 상기 제2 렌더링된 오디오 신호 또는 이들의 특성 중 적어도 하나에 적어도 부분적으로 기초하여 상기 제1 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제1 렌더링된 오디오 신호를 생성하는 것;
    상기 제2 렌더링 모듈에 의해, 상기 제1 오디오 신호, 상기 제1 렌더링된 오디오 신호 또는 이들의 특성 중 적어도 하나에 적어도 부분적으로 기초하여 상기 제2 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제2 렌더링된 오디오 신호를 생성하는 것;
    상기 수정된 제1 렌더링된 오디오 신호와 상기 수정된 제2 렌더링된 오디오 신호를 믹싱하여 믹싱된 오디오 신호를 생성하는 것; 및
    상기 믹싱된 오디오 신호를 상기 환경의 적어도 일부 스피커에 제공하는 것을 포함하는 오디오 처리 방법.
  24. 제23항에 있어서, 상기 제1 오디오 신호에 대한 상기 렌더링 프로세스를 수정하는 것은:
    상기 제1 오디오 신호의 상기 렌더링을 상기 제2 렌더링된 오디오 신호의 렌더링 위치로부터 멀어지도록 워핑하는 것, 또는
    상기 제2 오디오 신호 또는 상기 제2 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 상기 제1 렌더링된 오디오 신호의 음량을 수정하는 것
    중 하나 이상을 수행하는 것을 수반하는 오디오 처리 방법.
  25. 제23항 또는 제24항에 있어서, 상기 제2 오디오 신호에 대한 상기 렌더링 프로세스를 수정하는 것은:
    상기 제2 오디오 신호의 상기 렌더링을 상기 제1 렌더링된 오디오 신호의 렌더링 위치로부터 멀어지도록 워핑하는 것, 또는
    상기 제1 오디오 신호 또는 상기 제1 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 상기 제2 렌더링된 오디오 신호의 음량을 수정하는 것
    중 하나 이상을 수행하는 것을 수반하는 오디오 처리 방법.
  26. 제23항 또는 제24항에 있어서, 상기 제1 오디오 신호에 대한 상기 렌더링 프로세스를 수정하는 것은 스펙트럼 수정, 가청도 기반 수정 또는 동적 범위 수정으로 구성된 수정 목록으로부터 하나 이상의 수정을 수행하는 것을 수반하는 오디오 처리 방법.
  27. 제23항 또는 제24항에 있어서, 상기 제1 렌더링 모듈에 의하여, 마이크 시스템으로부터의 제1 마이크 신호에 적어도 부분적으로 기초하여 상기 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것, 및 상기 제2 렌더링 모듈에 의하여, 상기 제1 마이크 신호에 적어도 부분적으로 기초하여 상기 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것을 더 포함하는 오디오 처리 방법.
  28. 제27항에 있어서:
    상기 제1 마이크 신호에 기초하여 제1 음원 위치를 추정하는 것; 및
    상기 제1 음원 위치에 적어도 부분적으로 기초하여 상기 제1 오디오 신호 또는 상기 제2 오디오 신호 중 적어도 하나에 대한 상기 렌더링 프로세스를 수정하는 것을 더 포함하는 오디오 처리 방법.
  29. 소프트웨어를 저장하고 있는 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체에 있어서, 상기 소프트웨어는 오디오 처리 방법을 수행하는 하나 이상의 디바이스를 제어하는 명령을 포함하고, 상기 오디오 처리 방법은:
    제1 렌더링 모듈에 의해, 제1 오디오 프로그램 스트림을 수신하는 것 - 상기 제1 오디오 프로그램 스트림은 환경의 적어도 일부 스피커에 의해 재생되도록 스케줄링된 제1 오디오 신호를 포함하고, 상기 제1 오디오 프로그램 스트림은 제1 공간 데이터를 포함하고, 상기 제1 공간 데이터는 채널 데이터 또는 공간 메타데이터 중 적어도 하나를 포함함 -;
    상기 제1 렌더링 모듈에 의해, 상기 환경의 상기 스피커를 통한 재생을 위해 상기 제1 오디오 신호를 렌더링하여, 제1 렌더링된 오디오 신호를 생성하는 것;
    제2 렌더링 모듈에 의해, 제2 오디오 프로그램 스트림을 수신하는 것 - 상기 제2 오디오 프로그램 스트림은 상기 환경의 적어도 하나의 스피커에 의해 재생되도록 스케줄링된 제2 오디오 신호를 포함함 -;
    상기 제2 렌더링 모듈에 의해, 상기 환경의 적어도 하나의 스피커를 통한 재생을 위해 상기 제2 오디오 신호를 렌더링하여, 제2 렌더링된 오디오 신호를 생성하는 것;
    상기 제1 렌더링 모듈에 의해, 상기 제2 오디오 신호, 상기 제2 렌더링된 오디오 신호 또는 이들의 특성 중 적어도 하나에 적어도 부분적으로 기초하여 상기 제1 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제1 렌더링된 오디오 신호를 생성하는 것;
    상기 제2 렌더링 모듈에 의해, 상기 제1 오디오 신호, 상기 제1 렌더링된 오디오 신호 또는 이들의 특성 중 적어도 하나에 적어도 부분적으로 기초하여 상기 제2 오디오 신호에 대한 렌더링 프로세스를 수정하여, 수정된 제2 렌더링된 오디오 신호를 생성하는 것;
    상기 수정된 제1 렌더링된 오디오 신호와 상기 수정된 제2 렌더링된 오디오 신호를 믹싱하여 믹싱된 오디오 신호를 생성하는 것; 및
    상기 믹싱된 오디오 신호를 상기 환경의 적어도 일부 스피커에 제공하는 것을 포함하는 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체.
  30. 제29항에 있어서, 상기 제1 오디오 신호에 대한 상기 렌더링 프로세스를 수정하는 것은:
    상기 제1 오디오 신호의 상기 렌더링을 상기 제2 렌더링된 오디오 신호의 렌더링 위치로부터 멀어지도록 워핑하는 것, 또는
    상기 제2 오디오 신호 또는 상기 제2 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 상기 제1 렌더링된 오디오 신호의 음량을 수정하는 것
    중 하나 이상을 수행하는 것을 수반하는 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체.
  31. 제29항 또는 제30항에 있어서, 상기 제2 오디오 신호에 대한 상기 렌더링 프로세스를 수정하는 것은:
    상기 제2 오디오 신호의 상기 렌더링을 상기 제1 렌더링된 오디오 신호의 렌더링 위치로부터 멀어지도록 워핑하는 것, 또는
    상기 제1 오디오 신호 또는 상기 제1 렌더링된 오디오 신호 중 하나 이상의 음량에 응답하여 하나 이상의 상기 제2 렌더링된 오디오 신호의 음량을 수정하는 것
    중 하나 이상을 수행하는 것을 수반하는 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체.
  32. 제29항 또는 제30항에 있어서, 상기 제1 오디오 신호에 대한 상기 렌더링 프로세스를 수정하는 것은 스펙트럼 수정, 가청도 기반 수정 또는 동적 범위 수정으로 구성된 수정 목록으로부터 하나 이상의 수정을 수행하는 것을 수반하는 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체.
  33. 제29항 또는 제30항에 있어서, 상기 오디오 처리 방법은, 상기 제1 렌더링 모듈에 의하여, 마이크 시스템으로부터의 제1 마이크 신호에 적어도 부분적으로 기초하여 상기 제1 오디오 신호에 대한 렌더링 프로세스를 수정하는 것, 및 상기 제2 렌더링 모듈에 의하여, 상기 제1 마이크 신호에 적어도 부분적으로 기초하여 상기 제2 오디오 신호에 대한 렌더링 프로세스를 수정하는 것을 더 포함하는 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체.
  34. 제33항에 있어서, 상기 오디오 처리 방법은:
    상기 제1 마이크 신호에 기초하여 제1 음원 위치를 추정하는 것; 및
    상기 제1 음원 위치에 적어도 부분적으로 기초하여 상기 제1 오디오 신호 또는 상기 제2 오디오 신호 중 적어도 하나에 대한 상기 렌더링 프로세스를 수정하는 것을 더 포함하는 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체.
KR1020227006906A 2019-07-30 2020-07-27 다중 스피커를 통한 다중 오디오 스트림 재생 관리 KR102670118B1 (ko)

Applications Claiming Priority (27)

Application Number Priority Date Filing Date Title
US201962880111P 2019-07-30 2019-07-30
US201962880115P 2019-07-30 2019-07-30
US201962880114P 2019-07-30 2019-07-30
US62/880,114 2019-07-30
ESP201930702 2019-07-30
US62/880,111 2019-07-30
ES201930702 2019-07-30
US62/880,115 2019-07-30
US201962949998P 2019-12-18 2019-12-18
EP19217580.0 2019-12-18
EP19217580 2019-12-18
US62/949,998 2019-12-18
US202062971421P 2020-02-07 2020-02-07
US62/971,421 2020-02-07
US202062992068P 2020-03-19 2020-03-19
US62/992,068 2020-03-19
US202062704754P 2020-05-27 2020-05-27
US62/704,754 2020-05-27
US202062705143P 2020-06-12 2020-06-12
US62/705,143 2020-06-12
US202062705351P 2020-06-23 2020-06-23
US62/705,351 2020-06-23
US202062705410P 2020-06-25 2020-06-25
US62/705,410 2020-06-25
US202062705896P 2020-07-21 2020-07-21
US62/705,896 2020-07-21
PCT/US2020/043696 WO2021021707A1 (en) 2019-07-30 2020-07-27 Managing playback of multiple streams of audio over multiple speakers

Publications (2)

Publication Number Publication Date
KR20220041186A KR20220041186A (ko) 2022-03-31
KR102670118B1 true KR102670118B1 (ko) 2024-05-29

Family

ID=71950841

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227006906A KR102670118B1 (ko) 2019-07-30 2020-07-27 다중 스피커를 통한 다중 오디오 스트림 재생 관리

Country Status (6)

Country Link
US (1) US20220272454A1 (ko)
EP (1) EP4005248A1 (ko)
JP (1) JP2022542387A (ko)
KR (1) KR102670118B1 (ko)
CN (2) CN117499852A (ko)
WO (1) WO2021021707A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2022001162A (es) 2019-07-30 2022-02-22 Dolby Laboratories Licensing Corp Coordinacion de dispositivos de audio.
WO2022119989A1 (en) 2020-12-03 2022-06-09 Dolby Laboratories Licensing Corporation Frequency domain multiplexing of spatial audio for multiple listener sweet spots
WO2022119988A1 (en) 2020-12-03 2022-06-09 Dolby Laboratories Licensing Corporation Frequency domain multiplexing of spatial audio for multiple listener sweet spots
EP4256816A1 (en) 2020-12-03 2023-10-11 Dolby International AB Pervasive acoustic mapping
EP4256811A1 (en) 2020-12-03 2023-10-11 Dolby Laboratories Licensing Corporation Audibility at user location through mutual device audibility
WO2022173684A1 (en) 2021-02-09 2022-08-18 Dolby Laboratories Licensing Corporation Echo reference generation and echo reference metric estimation according to rendering information
US20240056758A1 (en) * 2021-11-15 2024-02-15 Syng, Inc. Systems and Methods for Rendering Spatial Audio Using Spatialization Shaders
WO2023131399A1 (en) * 2022-01-04 2023-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi device audio object rendering
WO2024104634A1 (en) 2022-11-18 2024-05-23 Dolby International Ab Environmental sensing based on audio equipment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016048381A1 (en) 2014-09-26 2016-03-31 Nunntawi Dynamics Llc Audio system with configurable zones
US20170012591A1 (en) 2015-07-10 2017-01-12 Intel Corporation Balancing mobile device audio
WO2019089322A1 (en) 2017-10-30 2019-05-09 Dolby Laboratories Licensing Corporation Virtual rendering of object based audio over an arbitrary set of loudspeakers

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3306600B2 (ja) * 1992-08-05 2002-07-24 三菱電機株式会社 自動音量調整装置
JP4015173B1 (ja) * 2006-06-16 2007-11-28 株式会社コナミデジタルエンタテインメント ゲーム音出力装置、ゲーム音制御方法、および、プログラム
CN102270456B (zh) * 2010-06-07 2012-11-21 华为终端有限公司 一种音频信号的混音处理方法及装置
EP2805326B1 (en) * 2012-01-19 2015-10-14 Koninklijke Philips N.V. Spatial audio rendering and encoding
CN106658343B (zh) * 2012-07-16 2018-10-19 杜比国际公司 用于渲染音频声场表示以供音频回放的方法和设备
EP4207817A1 (en) * 2012-08-31 2023-07-05 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
JP6167178B2 (ja) * 2012-08-31 2017-07-19 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトに基づくオーディオのための反射音レンダリング
CN105191354B (zh) * 2013-05-16 2018-07-24 皇家飞利浦有限公司 音频处理装置及其方法
DE102013217367A1 (de) * 2013-05-31 2014-12-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur raumselektiven audiowiedergabe
US9352701B2 (en) * 2014-03-06 2016-05-31 Bose Corporation Managing telephony and entertainment audio in a vehicle audio platform
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
US9949052B2 (en) * 2016-03-22 2018-04-17 Dolby Laboratories Licensing Corporation Adaptive panner of audio objects
EP3319341A1 (en) * 2016-11-03 2018-05-09 Nokia Technologies OY Audio processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016048381A1 (en) 2014-09-26 2016-03-31 Nunntawi Dynamics Llc Audio system with configurable zones
US20170012591A1 (en) 2015-07-10 2017-01-12 Intel Corporation Balancing mobile device audio
WO2019089322A1 (en) 2017-10-30 2019-05-09 Dolby Laboratories Licensing Corporation Virtual rendering of object based audio over an arbitrary set of loudspeakers

Also Published As

Publication number Publication date
JP2022542387A (ja) 2022-10-03
CN117499852A (zh) 2024-02-02
CN114521334B (zh) 2023-12-01
KR20220041186A (ko) 2022-03-31
US20220272454A1 (en) 2022-08-25
EP4005248A1 (en) 2022-06-01
WO2021021707A1 (en) 2021-02-04
CN114521334A (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
KR102670118B1 (ko) 다중 스피커를 통한 다중 오디오 스트림 재생 관리
CN114208209B (zh) 音频处理系统、方法和介质
US12003933B2 (en) Rendering audio over multiple speakers with multiple activation criteria
US12003673B2 (en) Acoustic echo cancellation control for distributed audio devices
JP2023133493A (ja) 再生機能が異なる装置を横断したダイナミクス処理
US12022271B2 (en) Dynamics processing across devices with differing playback capabilities
RU2783150C1 (ru) Динамическая обработка в устройствах с отличающимися функциональными возможностями воспроизведения
US20240114309A1 (en) Progressive calculation and application of rendering configurations for dynamic applications
CN116830604A (zh) 动态应用的渲染配置的渐进计算和应用
RU2818982C2 (ru) Управление акустической эхокомпенсацией для распределенных аудиоустройств
WO2024025803A1 (en) Spatial audio rendering adaptive to signal level and loudspeaker playback limit thresholds
CN116806431A (zh) 通过相互设备可听性在用户位置处的可听性
CN118216163A (zh) 基于扩音器取向的渲染

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right