KR20230027273A - 확산 반향 신호를 생성하기 위한 장치 및 방법 - Google Patents

확산 반향 신호를 생성하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20230027273A
KR20230027273A KR1020237002598A KR20237002598A KR20230027273A KR 20230027273 A KR20230027273 A KR 20230027273A KR 1020237002598 A KR1020237002598 A KR 1020237002598A KR 20237002598 A KR20237002598 A KR 20237002598A KR 20230027273 A KR20230027273 A KR 20230027273A
Authority
KR
South Korea
Prior art keywords
signal
audio
energy
sound
diffuse
Prior art date
Application number
KR1020237002598A
Other languages
English (en)
Inventor
예로엔 게라루스 헨리쿠스 코펜스
패트릭 케치치안
Original Assignee
코닌클리케 필립스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 엔.브이. filed Critical 코닌클리케 필립스 엔.브이.
Publication of KR20230027273A publication Critical patent/KR20230027273A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

확산 반향 신호를 생성하기 위한 오디오 장치는 사운드 소스를 표현하는 오디오 신호 및 환경 내의 전체 방출 사운드에 대한 확산 반향 사운드의 레벨을 나타내는 확산 반향 신호 대 전체 소스 관계를 포함하는 메타데이터를 수신하는 수신기(501)를 포함한다. 메타데이터는 또한 각각의 오디오 신호에 대해, 신호 레벨 표시 및 오디오 신호에 의해 표현되는 사운드 소스로부터의 사운드 방사의 지향성을 나타내는 지향성 데이터를 포함한다. 회로(505, 507)는 신호 레벨 표시 및 지향성 데이터에 기초한 전체 방출 에너지 표시, 및 전체 방출 에너지 및 확산 반향 신호 대 전체 신호 관계에 기초한 다운믹스 계수를 결정한다. 다운믹서(509)는 각각의 오디오 신호에 대한 다운믹스 계수를 상기 오디오 신호에 적용함으로써 생성된 각각의 오디오 신호에 대한 신호 성분들을 조합함으로써 다운믹스 신호를 생성한다. 반향기(407)는 다운믹스 신호 성분으로부터 환경에 대한 확산 반향 신호를 생성한다.

Description

확산 반향 신호를 생성하기 위한 장치 및 방법
본 발명은 오디오 데이터를 처리하는, 특히 그러나 비배타적으로, 증강/혼합/가상 현실 애플리케이션을 위한 확산 반향 신호를 생성하도록 처리하기 위한 장치 및 방법에 관한 것이다.
시청각 콘텐츠에 기초한 경험의 다양성 및 범위는 이러한 콘텐츠를 이용하고 소비하는 새로운 서비스 및 방식이 계속 개발되고 도입됨에 따라 최근에 상당히 증가하였다. 특히, 많은 공간적 및 대화형 서비스, 애플리케이션, 및 경험이 사용자에게 더 참여적이고 몰입적인 경험을 제공하도록 개발되고 있다.
그러한 애플리케이션의 예는 가상 현실(VR), 증강 현실(AR), 및 혼합 현실(MR) 애플리케이션이며, 이는 소비자 시장을 겨냥한 다수의 솔루션과 함께 빠르게 주류가 되고 있다. 다수의 표준이 또한 다수의 표준화 기구에 의해 개발 중이다. 그러한 표준화 활동은, 예를 들어 스트리밍, 브로드캐스팅, 렌더링 등을 포함한 VR/AR/MR 시스템의 다양한 양태에 대한 표준을 활발하게 개발하고 있다.
VR 애플리케이션은 상이한 세계/환경/장면에 있는 사용자에 상응하는 사용자 경험을 제공하는 경향이 있는 반면, AR(혼합 현실(MR)을 포함함) 애플리케이션은 현재 환경에 있는 사용자에 상응하지만 추가적인 정보 또는 가상 객체 또는 정보가 추가된 사용자 경험을 제공하는 경향이 있다. 이에 따라, VR 애플리케이션은 완전 몰입적인 합성적으로 생성된 세계/장면을 제공하는 경향이 있는 반면, AR 애플리케이션은 사용자가 물리적으로 존재하는 실제 장면에 오버레이된 부분 합성 세계/장면을 제공하는 경향이 있다. 그러나, 상기 용어는 종종 상호 교환적으로 사용되고 겹치는 정도가 높다. 하기에서, 가상 현실(VR)이라는 용어는 가상 현실 및 증강/혼합 현실 둘 모두를 나타내는 데 사용될 것이다.
예로서, 점점 더 인기 있는 서비스는 사용자가 렌더링의 파라미터를 변경하기 위해 시스템과 활발하게 그리고 동적으로 상호작용할 수 있어서 이것이 사용자의 위치 및 배향에 있어서의 이동 및 변경에 적응할 방식으로 이미지 및 오디오를 제공하는 것이다. 많은 애플리케이션에서의 매우 매력적인 특징은 뷰어(viewer)의 효과적인 보기 위치 및 보기 방향을 변경하여, 이를테면 예를 들어 뷰어가 제시되는 장면 내에서 이동하고 "둘러보는" 것을 가능하게 하는 능력이다.
그러한 특징은 특히 가상 현실 경험이 사용자에게 제공될 수 있게 할 수 있다. 이것은 사용자가 가상 환경에서 (비교적) 자유롭게 돌아다니고 그의 위치 및 그가 보고 있는 곳을 동적으로 변경할 수 있게 할 수 있다. 통상적으로, 이러한 가상 현실 애플리케이션은 장면의 3차원 모델에 기초하며, 상기 모델은 특정한 요청된 뷰(view)를 제공하기 위해 동적으로 평가된다. 이러한 접근법은, 예를 들어, 컴퓨터 및 콘솔에 대해, 예컨대 1인칭 슈터 카테고리에서의 게임 애플리케이션에서 잘 알려져 있다.
특히 가상 현실 애플리케이션의 경우, 제시되는 이미지가 통상적으로 입체 디스플레이를 사용하여 제시되는 3차원 이미지인 것이 바람직하다. 실제로, 뷰어의 몰입을 최적화하기 위해, 사용자가 제시된 장면을 3차원 장면으로서 경험하는 것이 통상적으로 바람직하다. 실제로, 가상 현실 경험은 바람직하게는 사용자가 가상 세계에 대한 자신의 위치, 시점(viewpoint), 및 시간적 순간을 선택할 수 있게 허용해야 한다.
비주얼 렌더링에 더하여, 대부분의 VR/AR 애플리케이션은 대응하는 오디오 경험을 추가로 제공한다. 많은 애플리케이션에서, 오디오는 바람직하게는 오디오 소스가 시각적 장면에서 대응하는 객체의 위치에 대응하는 위치로부터 도달하는 것으로 인지되는 공간적 오디오 경험을 제공한다. 이에 따라, 오디오 및 비디오 장면은 바람직하게는 일관된 것으로 인지되며, 이들 둘 모두는 완전한 공간 경험을 제공한다.
예를 들어, 많은 몰입적 경험이 바이노럴(binaural) 오디오 렌더링 기술을 사용하는 헤드폰 재생에 의해 생성되는 가상 오디오 장면에 의해 제공된다. 많은 시나리오에서, 이러한 헤드폰 재생은 렌더링이 사용자의 머리 움직임에 응답하여 이루어질 수 있도록 헤드트래킹(headtracking)에 기초할 수 있고, 몰입감을 크게 증가시킨다.
많은 애플리케이션에 대한 중요한 특징은 오디오 환경의 자연적이고 현실적인 인식을 제공할 수 있는 오디오를 생성 및/또는 분산하는 방법이다. 예를 들어, 가상 현실 애플리케이션용 오디오를 생성할 때, 원하는 오디오 소스가 생성될 뿐만 아니라, 감쇠, 반사, 착색 등을 포함한 오디오 환경의 사실적인 인식을 제공하도록 수정되는 것이 중요하다.
공간(room) 음향, 또는 보다 일반적으로 환경 음향의 경우, 환경의 벽, 바닥, 천장, 물체 등에서 음파의 반사로 인해 지연되고 감쇠된 (통상적으로 주파수 의존적) 버전의 사운드 소스 신호가 다른 경로를 통해 청취자(즉, VR/AR 시스템에 대한 사용자)에게 도달한다. 조합된 효과는 이후에 공간 임펄스 응답(RIR)으로 지칭될 수 있는 임펄스 응답에 의해 모델링될 수 있다(상기 용어는 공간의 형태에서 음향 환경에 대한 특정 용도를 제안하지만, 이것이 공간에 상응하는지 여부에 관계없이 음향 환경에 대해 더 일반적으로 사용되는 경향이 있음).
도 1에 예시된 바와 같이, 공간 임펄스 응답은 청취자까지의 사운드 소스의 거리에 따라 달라지는 직접음과 공간의 음향 특성을 특성화하는 반향 부분으로 구성된다. 공간의 크기 및 형상, 공간에서 사운드 소스 및 청취자의 위치, 및 공간 표면의 반사 특성은 모두 이러한 반향 부분의 특성에서 역할을 한다.
반향 부분은, 보통 중첩하는 2개의 시간 영역으로 나누어질 수 있다. 제1 영역은, 청취자에 도달하기 전에 공간의 벽 또는 장애물에서의 사운드 소스의 격리된 반사를 나타내는, 소위 초기 반사를 포함한다. 시간 지연이 증가함에 따라, 고정된 시간 간격에 존재하는 반사의 수가 증가하고, 경로에는 2차 또는 더 높은 차수의 반사가 포함될 수 있다(예: 반사가 여러 벽 또는 벽 및 천장 모두에서 떨어져 있을 수 있음).
반향 부분에서의 제2 영역은 이러한 반사의 밀도가 더 이상 인간 뇌에 의해 격리될 수 없는 지점까지 증가하는 부분이다. 이러한 영역은 통상적으로 확산 반향, 늦은 반향, 또는 반향 꼬리로 지칭된다.
반향 부분은 소스의 거리, 공간의 크기 및 음향 특성에 관한 청각 시스템 정보를 제공하는 단서를 포함한다. 무반향 부분의 에너지와 비교하여 반향 부분의 에너지는 주로 사운드 소스의 인지된 거리를 결정한다. 가장 이른 반사의 레벨 및 지연은 사운드 소스가 벽에 얼마나 가까운지에 관한 단서를 제공할 수 있고, 인체측정에 의한 필터링은 특정 벽, 바닥 또는 천장에 대한 평가를 강화할 수 있다.
(이른) 반사의 밀도는 공간의 인지된 크기에 기여한다. 반향 시간 T60에 의해 표시되는, 반사가 에너지 레벨에서 60dB를 떨어뜨리는 데 걸리는 시간은 반사가 얼마나 빠르게 공간에서 소멸되는지 측정하는 데 종종 사용된다. 반향 시간은 공간의 음향 특성; 예컨대 구체적으로 벽이 매우 반사성인지(예: 욕실) 또는 많은 사운드 흡수가 있는지(예:가구, 카펫 및 커튼이 있는 침실)에 대한 정보를 제공한다.
또한, RIR은, 머리, 귀 및 어깨에 의해 필터링되는 RIR, 즉 HRIR(Head Related Impulse Response)로 인해, 그것이 BRIR(Binaural Room Impulse Response)의 일부일 때 사용자의 인체측정학적 특성에 의존할 수 있다.
후기 반향에서의 반사는 청취자가 구별하고 격리할 수 없기 때문에, 잘 알려진 Jot 반향기에서와 같이, 예를 들어 피드백 지연 네트워크를 사용하는 파라미터 반향기와 함께 종종 시뮬레이션되고 파라미터적으로 표현된다.
이른 반사에 대해, 입사 방향 및 거리 의존적 지연은 공간에 관한 정보 및 사운드 소스의 상대적 위치를 추출하기 위한 인간에게 중요한 단서이다. 따라서, 초기 반사의 시뮬레이션은 후기 반향보다 더 명백해야 한다. 따라서, 효율적인 음향 렌더링 알고리즘에서, 초기 반사는 후기의 반향과 다르게 시뮬레이션된다. 초기 반사에 대해 잘 알려진 방법은 각 공간의 경계에서 사운드 소스를 미러링하여 반사를 나타내는 가상 사운드 소스를 생성하는 것이다.
초기 반사의 경우, 공간의 경계(벽, 천장, 바닥)에 대한 사용자 및/또는 사운드 소스의 위치가 관련이 있는 반면, 후기 반향의 경우, 공간의 음향 응답은 확산되고, 따라서 공간 전체에 걸쳐 더 균일한 경향이 있다. 이는 초기 반사보다 종종 더 계산적으로 효율적인 후기 반향의 시뮬레이션을 허용한다.
공간에 의해 정의되는 후기 반향의 2개의 주요 특성은 T60 값 및 반향 레벨이다. 확산 반향 임펄스 응답의 관점에서, 이들 값은 임펄스 응답의 기울기 및 진폭을 나타낸다. 둘 모두는 통상적으로 자연 공간에서 크게 주파주 의존적이다.
T60 파라미터는 공간의 반사성 및 크기의 인상을 제공하는 데 중요하지만, 반향 레벨은 공간의 경계에 대한 다수의 반사의 복합 효과를 나타낸다. 반향 레벨 및 그 주파수 동작은 사전-지연에 따라 달라지며, 이는 초기 반사와 후기 반향 사이의 구별이 이루어지는 위치를 나타낸다(도 2 참조).
반향 수준은 직접음과 관련하여 주요 심리 음향학적 관련성을 갖는다. 두 개의 사이의 레벨 차이는 사운드 소스와 사용자(또는 RIR 측정 지점) 사이의 거리의 표시이다. 거리가 멀수록 직접음에 대해 더 많은 감쇠가 발생하는 반면, 후기 반향 레벨은 동일하게 유지된다(전체 공간에서 동일함). 유사하게, 사용자가 소스에 대해 어디에 있는지에 따라 지향성을 갖는 소스의 경우, 사용자가 소스 주위를 이동함에 따라 지향성은 직접 응답에 영향을 미치지만, 반향 레벨은 아니다.
가상 현실 애플리케이션과 같은 많은 시스템에 대한 중요한 문제와 고려사항은 오디오 환경을 효율적으로 표현하고 분산하는 방법의 것이다. 종종, 환경에 대한 오디오는, 오디오 소스 및 음향 환경의 특성을 파라미터적으로 설명할 수 있는 데이터와 함께 개별 소스 신호를 나타내는 신호를 제공함으로써 표현되고 분산된다. 이러한 문제는 사소한 문제가 아니며, 다양한 문제가 고려될 수 있다.
직접 경로 및 확산 반향의 설명을 분리하는 것이 제안되었다. 그러나, 확산 반향을 표현하고, 분산하고, 렌더링/합성하는 방법의 문제는 현재 상당한 관심을 받고 있다.
직접음와 관련이 있는 것이 아니라, 보다 일반적인 특성에 의한 반향 레벨의 표시를 제공하는 것이 제안되었다. 특정 제안은 인코더 입력 포맷(EIF)이 정의된 MPEG-I 오디오 제안 요청(CfP)에 대한 준비의 일환으로 제출되었다(MPEG 출력 문서 N19211의 섹션 3.9, "MPEG-I 6DoF 오디오 인코더 입력 포맷", MPEG 130). EIF는 사전 지연 및 DDR(Direct-to-Diffuse Ratio)에 의해 반향 레벨을 정의한다. DDR은 사전 지연 후 확산 반향 에너지와 방출 소스 에너지 사이의 비율로서 정의된다:
Figure pct00001
그러나, 이러한 파라미터가 유용할 수 있는 반면, 해결해야 할 많은 실질적인 문제가 있다. 예를 들어, 현재 특정 파라미터를 정의하거나 결정하는 방법에 대한 제안은 없다. DDR 표시를 사용하여 오디오를 렌더링하는 방법과 특히 확산 반향 신호를 생성하는 데 사용하는 방법에 대한 어떠한 고려도 없다.
유럽 등록 특허 제3402222호는 다중 채널 오디오 신호의 채널에 응답하여 바이노럴 신호를 생성하는 가상화 방법을 개시하며, 이는 채널의 다운믹스에 공통 후기 반향을 적용하기 위해 적어도 하나의 피드백 지연 네트워크(FDN)를 사용하는 것을 포함하여 각 채널에 바이노럴 공간 임펄스 응답(BRIR)을 적용한다.
따라서, 오디오 및 구체적으로 확산 반향을 나타내고 생성하는 방법에 대한 현재의 접근법 및 제안은 차선이거나 불충분 및/또는 불완전한 경향이 있다. 이는, 예를 들어, 오디오가 생성되어야 하는 위치가 상당히 변할 수 있는 가상 현실 애플리케이션에 대한 경우에 특히 그렇다.
따라서, 확산 반향 신호를 생성하기 위한 접근법이 유리할 것이다. 특히, 개선된 동작, 증가된 유연성, 감소된 복잡성, 용이한 구현, 개선된 오디오 경험, 개선된 오디오 품질, 감소된 계산 부담, 다양한 위치에 대한 개선된 적합성, 가상/혼합/증강 현실 애플리케이션에 대한 개선된 성능, 확산 반향에 대한 개선된 인식 단서, 및/또는 개선된 성능 및/또는 동작을 허용하는 접근법이 유리할 것이다.
따라서, 본 발명은 상술된 단점 중 하나 이상을 단독으로 또는 임의의 조합으로 바람직하게 완화, 경감 또는 제거하는 것을 추구한다.
본 발명의 일 양태에 따르면, 환경에 대한 확산 반향 신호를 생성하기 위한 오디오 장치가 제공되며; 상기 장치는: 환경 내의 사운드 소스를 나타내는 복수의 오디오 신호를 수신하도록 배열된 수신기; 복수의 오디오 신호에 대한 메타데이터를 수신하도록 배열된 메타데이터 수신기로서, 메타데이터는 상기 환경 내의 전체 방출 사운드에 대한 확산 반향 사운드의 레벨을 나타내는 확산 반향 신호 대 전체 신호 관계, 및 각각의 오디오 신호에 대해, 신호 레벨 표시; 오디오 신호에 의해 표현되는 사운드 소스로부터의 사운드 방사의 지향성을 나타내는 지향성 데이터를 포함하는, 메타데이터 수신기; 복수의 오디오 신호 각각에 대해, 신호 레벨 표시 및 지향성 데이터에 기초한 전체 방출 에너지 표시, 및 전체 방출 에너지 및 확산 반향 신호 대 전체 신호 관계에 기초하는 다운믹스 계수를 결정하도록 배열된 회로; 각각의 오디오 신호에 대한 다운믹스 계수를 상기 오디오 신호에 적용함으로써 생성된 각각의 오디오 신호에 대한 신호 성분을 조합함으로써 다운믹스 신호를 생성하도록 배열된 다운믹서; 다운믹스 신호 성분으로부터 환경에 대한 확산 반향 신호를 생성하기 위한 반향기를 포함한다.
본 발명은 많은 실시예에서 확산 반향 신호의 개선되고/되거나 용이한 결정을 제공할 수 있다. 본 발명은, 많은 실시예 및 시나리오에서, 음향 환경의 개선된 인식을 제공하는 보다 자연스럽게 들리는 확산 반향 신호를 생성할 수 있다. 확산 반향 신호의 생성은 종종 낮은 복잡성 및 낮은 계산 리소스 요건으로 생성될 수 있다. 상기 접근법은 음향 환경 내의 확산 반향음이 상대적으로 적은 파라미터에 의해 효과적으로 표현될 수 있게 하며, 이는 또한 개별 소스 및 이로부터의 개별 경로 사운드 전파, 구체적으로는 직접 경로 전파의 효율적인 표현을 제공한다.
상기 접근법은 많은 실시예에서 확산 반향 신호가 소스 및/또는 청취자 위치와 독립적으로 생성될 수 있게 할 수 있다. 이는 위치가 변경되는 동적 애플리케이션에 대한, 예컨대 가상 현실 및 증강 현실 애플리케이션에 대한 확산 반향 신호의 효율적인 생성을 허용할 수 있다.
확산 반향 신호 대 전체 신호 비율은 또한 확산 반향 신호 레벨 대 전체 신호 레벨 비율 또는 확산 반향 레벨 대 전체 레벨 비율 또는 방출 소스 에너지 대 확산 반향 에너지 비율(또는 이들의 변화/순열)로 지칭될 수 있다.
오디오 장치는 단일 디바이스 또는 단일 기능 유닛에서 구현될 수 있거나, 상이한 디바이스 또는 기능성에 걸쳐 분산될 수 있다. 예를 들어, 오디오 장치는 디코더 기능 유닛의 일부로서 구현될 수 있거나, 일부 기능 요소는 디코더 측에서 수행되고 다른 요소는 인코더 측에서 수행되도록 분산될 수 있다.
본 발명의 선택적인 특징에 따르면, 사운드 방사의 지향성은 주파수 의존적이고, 회로는 주파수 의존적 전체 방출 에너지 및 주파수 의존적 다운믹스 계수를 생성하도록 배열된다.
상기 접근법은 주파수 의존성을 반영하는 확산 반향 신호를 생성하기 위한 특히 효율적인 동작을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 확산 반향 신호 대 전체 신호 관계는 주파수 의존적이고, 회로는 주파수 의존적 다운믹스 계수를 생성하도록 배열된다.
상기 접근법은 주파수 종속성을 반영하는 주파수 의존적 확산 반향 신호를 생성하기 위한 특히 효율적인 동작을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 확산 반향 신호 대 전체 신호 관계는 주파수 의존적 부분 및 비-주파수 의존적 부분을 포함하고, 여기서 상기 회로는 비-주파수 의존적 부분에 따라 다운믹스 계수를 생성하고 주파수 의존적 부분에 따라 반향기를 적응시키도록 배열된다.
상기 접근법은 주파수 의존성을 반영하는 확산 반향 신호를 생성하기 위한 특히 효율적인 동작을 제공할 수 있고, 구체적으로 복잡성 및/또는 리소스 사용을 감소시킬 수 있다. 예를 들어, 상기 접근법은 주파수 의존성이 다운믹스 신호의 단일 필터링에 의해 반사되게 할 수 있다.
본 발명의 선택적 특징에 따르면, 상기 회로는, 제1 오디오 신호에 의해 표현되는 사운드 소스의 지향성 패턴을 적분함으로써 결정된 값에 의해 제1 오디오 신호에 대한 신호 레벨 표시의 스케일링에 응답하여, 복수의 오디오 신호 중 제1 오디오 신호에 대한 전체 방출 에너지 표시를 결정하도록 배열된다.
이것은 많은 실시예에서 특히 유리한 동작을 제공할 수 있다. 상기 스케일링은 다운믹스 계수를 결정하는 것과 관련하여 신호 레벨 표시에 적용되는 임의의 함수일 수 있다. 상기 함수는 통상적으로 전체 방출 에너지 표시의 함수로서 단조 증가할 수 있다. 상기 스케일링은 선형 또는 비선형 스케일링일 수 있다.
상기 스케일링은 신호의 시간적 변화와 독립적일 수 있고, 따라서, 오디오 신호의 순간 레벨로 업데이트될 필요가 없으며, 신호 레벨 표시 또는 지향성 패턴이 변경될 때만 재계산될 필요가 있을 수 있다.
본 발명의 선택적 특징에 따르면, 복수의 오디오 신호 중 제1 오디오 신호에 대한 신호 레벨 표시는 기준 거리를 포함하고, 기준 거리는 제1 오디오 신호에 대한 거리 기준 이득에 대한 제1 오디오 신호에 의해 표현되는 오디오 소스로부터의 거리를 나타낸다.
이것은 많은 실시예에서 특히 유리한 동작을 제공할 수 있다. 거리 기준 이득은 미리 결정된 값일 수 있고, 통상적으로 적어도 일부 및 종종 모든 오디오 소스 및 신호에 공통일 수 있다. 많은 실시예에서, 거리 기준 이득은 0dB일 수 있다.
본 발명의 선택적 특징에 따르면, 상기 적분은 제1 오디오 신호에 의해 표현되는 오디오 소스로부터의 기준 거리인 거리에 대해 수행된다.
이는 특히 효율적인 접근법을 제공할 수 있고, 동작을 용이하게 할 수 있다.
본 발명의 선택적인 특징에 따르면, 확산 반향 신호 대 전체 신호 관계는 환경 내의 전체 방출 사운드의 에너지에 대한 확산 반향 사운드의 에너지를 나타낸다.
이것은 많은 실시예에서 특히 유리한 동작을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 확산 신호 대 전체 신호 관계는 환경 내의 전체 방출 사운드의 에너지에 대한 확산 사운드의 초기 진폭을 나타낸다.
이것은 많은 실시예에서 특히 유리한 동작을 제공할 수 있다.
본 발명의 선택적 특징에 따르면, 복수의 오디오 신호 중 제1 오디오 신호에 대해 결정된 다운믹스 계수는 제1 오디오 신호에 의해 표현되는 제1 오디오 소스의 위치와 독립적이다.
이것은 많은 실시예에서 특히 유리한 동작을 제공할 수 있고, 특히 위치가 변하는 사운드 소스를 갖는 동적 애플리케이션, 예컨대 가상 현실 애플리케이션을 위한 동작을 용이하게 할 수 있다.
본 발명의 선택적 특징에 따르면, 복수의 오디오 신호 중 제1 오디오 신호에 대해 결정된 다운믹스 계수는 청취자의 위치와 독립적이다.
이것은 많은 실시예에서 특히 유리한 동작을 제공할 수 있고, 특히 위치가 변하는 동적 애플리케이션, 예컨대 가상 현실 애플리케이션을 위한 동작을 용이하게 할 수 있다.
일부 실시예에서, 오디오 장치의 처리는 오디오 소스 위치와 독립적이다. 일부 실시예에서, 오디오 장치의 처리는 청취자 위치와 독립적이다.
일부 실시예에서, 오디오 장치의 처리는 확산 신호 대 전체 신호 비율이 적용되는 영역 내에서 청취자 위치와 독립적이다.
일부 실시예에서, 다운믹스 계수에 대한 업데이트 레이트는 제1 오디오 신호에 의해 표현되는 제1 오디오 소스의 위치에 대한 업데이트 레이트보다 낮다. 일부 실시예에서, 다운믹스 계수에 대한 업데이트 레이트는 청취자의 위치에 대한 업데이트 레이트보다 낮다. 다운믹스 계수는 청취자 위치/오디오 소스 위치의 업데이트 레이트보다 훨씬 낮은 시간 레이트로 계산될 수 있다.
본 발명의 선택적 특징에 따르면, 복수의 오디오 신호 중 제1 오디오 신호에 대한 신호 레벨 표시는 제1 오디오 신호에 대한 이득 표시를 더 포함하고, 이득 표시는 제1 오디오 신호에 의해 표현되는 제1 오디오 소스로부터 사운드를 렌더링할 때 제1 오디오 신호에 적용할 이득을 나타내고, 회로는 이득 표시에 응답하여 제1 오디오 신호에 대한 다운믹스 계수를 결정하도록 배열된다.
본 발명의 선택적 특징에 따르면, 오디오 장치는, 제1 오디오 신호에 대한 신호 레벨 표시 및 지향성 데이터에 응답하여, 복수의 오디오 신호 중 제1 오디오 신호에 대한 직접 경로 오디오 신호를 생성하도록 배열된 직접 렌더링 회로를 더 포함한다.
이것은 많은 실시예에서 특히 유리한 동작을 제공할 수 있다.
본 발명의 선택적 특징에 따르면, 메타데이터는 지연 표시를 더 포함하고 확산 신호 대 전체 신호 비율(DSR)은 전체 방출 사운드의 에너지에 대한 지연 표시에 의해 표시된 지연보다 긴 지연을 갖는 환경 내의 확산 반향 사운드의 에너지를 나타낸다.
지연 표시보다 더 긴 지연을 갖는 환경 내의 확산 반향 사운드의 에너지는, 오디오 소스에서 대응하는 사운드의 방출 후 적어도 특정 지연을 발생시키는 공간 임펄스 응답 기여에 의해/로서 반사할/결정될 수 있으며, 여기서 특정 지연은 지연 표시에 의해 표시된다.
일부 실시예에서, 확산 신호 대 전체 신호 비율(DSR)은 환경 내의 전체 방출 사운드의 에너지에 대한 확산 반향 사운드의 에너지를 나타내며, 여기서 확산 반향 사운드의 에너지는 오디오 소스에서 대응하는 사운드의 방출 후 적어도 특정 지연을 발생시키는 공간 응답 기여에 의해 결정된다.
본 발명의 다른 양태에 따르면, 환경에 대한 확산 반향 신호를 생성하는 방법이 제공되며, 상기 방법은, 환경 내의 사운드 소스를 나타내는 복수의 오디오 신호를 수신하는 단계; 복수의 오디오 신호에 대한 메타데이터를 수신하는 단계로서, 메타데이터는: 환경 내의 확산 반향 사운드 대 전체 방출 사운드의 레벨을 나타내는 확산 반향 신호 대 전체 신호 관계, 및 각각의 오디오 신호에 대해: 신호 레벨 표시; 오디오 신호에 의해 표현되는 사운드 소스로부터의 사운드 방사의 지향성을 나타내는 지향성 데이터를 포함하는, 단계; 복수의 오디오 신호 각각에 대해, 신호 레벨 표시 및 지향성 데이터에 기초한 전체 방출 에너지 표시, 및 전체 방출 에너지 및 확산 반향 신호 대 전체 신호 관계에 기초한 다운믹스 계수를 결정하는 단계; 각각의 오디오 신호에 대한 다운믹스 계수를 오디오 신호에 적용함으로써 생성된 각각의 오디오 신호에 대한 신호 성분을 결합함으로써 다운믹스 신호를 생성하는 단계; 다운믹스 신호 성분으로부터 환경에 대한 확산 반향 신호를 생성하는 단계를 포함한다.
본 발명의 이들 및 다른 양태, 특징 및 이점은 이하에 설명되는 실시예(들)로부터 명백할 것이며 그것을 참조하여 설명될 것이다.
본 발명의 실시예가 도면을 참조하여 단지 예로서 설명될 것이다.
도 1은 공간 임펄스 응답의 일례를 도시한다.
도 2는 공간 임펄스 응답의 일례를 도시한다.
도 3는 가상 현실 시스템의 요소의 일례를 도시한다.
도 4는 본 발명의 일부 실시예에 따라 오디오 출력을 생성하기 위한 오디오 장치의 일례를 도시한다.
도 5는 본 발명의 일부 실시예에 따라 확산 반향 신호를 생성하기 위한 오디오 반향 장치의 일례를 도시한다.
도 6은 공간 임펄스 응답의 일례를 도시한다.
도 7는 반향기의 일례를 도시한다.
다음의 설명은 가상 현실 애플리케이션을 위한 오디오 처리 및 생성에 초점을 맞출 것이지만, 설명된 원리 및 개념이 많은 다른 애플리케이션 및 실시예에서 사용될 수 있음을 이해할 것이다.
사용자가 가상 세계에서 돌아다닐 수 있게 하는 가상 경험은 점점 더 대중화되고 있고 그러한 요구를 충족시키기 위한 서비스가 개발되고 있다.
몇몇 시스템에서, VR 애플리케이션은, 예컨대 임의의 원격 VR 데이터 또는 처리를 사용하지 않거나 심지어 그에 대한 어떠한 액세스도 갖지 않는 독립형 디바이스에 의해, 뷰어에게 로컬에서 제공될 수 있다. 예를 들어, 게임 콘솔과 같은 디바이스는 장면 데이터를 저장하기 위한 저장소, 뷰어 포즈를 수신/생성하기 위한 입력, 및 장면 데이터로부터 대응하는 이미지를 생성하기 위한 프로세서를 포함할 수 있다.
다른 시스템에서, VR 애플리케이션은 뷰어로부터 원격에서 구현되고 수행될 수 있다. 예를 들어, 사용자에 대해 로컬에 있는 디바이스가 움직임/포즈 데이터를 검출/수신할 수 있으며, 이러한 데이터는 데이터를 처리하여 뷰어 포즈를 생성하는 원격 디바이스로 송신된다. 그 다음, 원격 디바이스는 장면을 설명하는 장면 데이터에 기초하여 사용자 포즈에 대한 적절한 뷰 이미지 및 대응하는 오디오 신호를 생성할 수 있다. 이어서 뷰 이미지 및 대응하는 오디오 신호는 이들이 표시되는 뷰어의 로컬 디바이스로 송신된다. 예를 들어, 원격 디바이스는 로컬 디바이스에 의해 직접 표시되는 비디오 스트림(통상적으로 스테레오/3D 비디오 스트림) 및 대응하는 오디오 스트림을 직접 생성할 수 있다. 이에 따라, 그러한 예에서, 로컬 디바이스는 움직임 데이터를 송신하고 수신된 비디오 데이터를 제시하는 것을 제외하고 어떠한 VR 처리도 수행하지 않을 수 있다.
많은 시스템에서, 기능성은 로컬 디바이스 및 원격 디바이스에 걸쳐 분산될 수 있다. 예를 들어, 로컬 디바이스는 수신된 입력 및 센서 데이터를 처리하여 원격 VR 디바이스에 연속적으로 송신되는 사용자 포즈를 생성할 수 있다. 그 다음, 원격 VR 디바이스는 대응하는 뷰 이미지 및 대응하는 오디오 신호를 생성하고 나타낼 로컬 디바이스에 송신할 수 있다. 다른 시스템에서, 원격 VR 디바이스는 뷰 이미지 및 대응하는 오디오 신호를 직접 생성하지 않을 수 있지만, 관련 장면 데이터를 선택하고 이를 로컬 디바이스로 송신할 수 있으며, 그 다음, 로컬 디바이스는 표시되는 뷰 이미지 및 대응하는 오디오 신호를 생성할 수 있다. 예를 들어, 원격 VR 디바이스는 가장 가까운 캡처 지점을 식별하고 대응하는 장면 데이터(예: 객체 소스 세트 및 위치 메타데이터)를 추출하고 이를 로컬 디바이스에 송신할 수 있다. 그 다음, 로컬 디바이스는 수신된 장면 데이터를 처리하여 특정한 현재 사용자 포즈에 대한 이미지 및 오디오 신호를 생성할 수 있다. 사용자 포즈는 통상적으로 머리 포즈에 대응할 것이고, 사용자 포즈에 대한 참조는 통상적으로 머리 포즈에 대한 참조에 대응하는 것으로 동등하게 간주될 수 있다.
많은 애플리케이션에서, 특히 방송 서비스에 대해, 소스는 사용자 포즈와는 독립적인 장면의 이미지(비디오를 포함함) 및 오디오 표현의 형태의 장면 데이터를 송신할 수 있다. 예를 들어, 특정 가상 공간의 범위 내의 오디오 소스에 대응하는 신호 및 메타데이터는 복수의 클라이언트에 송신 또는 스트리밍될 수 있다. 그 다음, 개별 클라이언트는 현재 사용자 포즈에 대응하는 오디오 신호를 로컬에서 합성할 수 있다. 유사하게, 소스는 환경 내의 오디오 소스 및 환경의 음향 특성을 설명하는 것을 포함하는 오디오 환경의 일반적인 설명을 송신할 수 있다. 그 다음, 오디오 표현은, 예를 들어 바이노럴 렌더링 및 처리를 사용하여 로컬에서 생성되고 사용자에게 제시될 수 있다.
도 3은 원격 VR 클라이언트 디바이스(301)가 VR 서버(303)와, 예컨대, 인터넷과 같은 네트워크(305)를 통해 연락을 취하는 VR 시스템의 이러한 일례를 도시한다. 서버(303)는 잠재적으로 많은 수의 클라이언트 디바이스(301)를 동시에 지원하도록 배열될 수 있다.
VR 서버(303)는, 예를 들어, 적절한 사용자 포즈(포즈는 위치 및/또는 방향을 나타냄)에 대응하는 뷰 이미지를 로컬에서 합성하기 위해 클라이언트 디바이스에 의해 사용될 수 있는 이미지 데이터의 형태의 이미지 표현을 포함하는 이미지 신호를 송신함으로써 방송 경험을 지원할 수 있다. 유사하게, VR 서버(303)는 장면의 오디오 표현을 송신하여 오디오가 사용자 포즈에 대해 로컬로 합성될 수 있게 할 수 있다. 구체적으로, 사용자가 가상 환경 내에서 이동함에 따라, 합성되고 사용자에게 제시된 이미지 및 오디오는 (가상) 환경내의 사용자의 현재 (가상) 위치 및 방향을 반영하도록 업데이트된다.
따라서, 도 3의 것과 같은 많은 애플리케이션에서, 장면을 모델링하고, 데이터 신호에 효율적으로 포함될 수 있고 이어서 캡처 포즈와 상이한 포즈에 대한 뷰 및 오디오를 로컬에서 합성할 수 있는 다양한 디바이스로 송신 또는 스트리밍될 수 있는 효율적인 이미지 및 오디오 표현을 생성하는 것이 바람직할 수 있다.
일부 실시예에서, 장면을 나타내는 모델은 예를 들어 로컬로 저장될 수 있고, 적절한 이미지 및 오디오를 합성하기 위해 로컬로 사용될 수 있다. 예를 들어, 공간의 오디오 모델은 공간의 음향 속성 뿐만 아니라 공간에서 들릴 수 있는 오디오 소스의 특성의 표시를 포함할 수 있다. 그 다음, 상기 모델 데이터는 특정 위치에 대한 적절한 오디오를 합성하는 데 사용될 수 있다.
오디오 장면이 어떻게 표현되는지 및 이 표현이 오디오를 생성하는 데 어떻게 사용되는지는 중요한 질문이다. 청취자에게 자연스럽고 사실적인 효과를 제공하는 것을 목표로 하는 오디오 렌더링은 통상적으로 음향 환경의 렌더링을 포함한다. 많은 환경에 대해, 이는 공간 환경 내에, 예컨대 공간 내에 존재하는 확산 반향의 표현 및 렌더링을 포함한다. 이러한 확산 반향의 렌더링 및 표현은, 오디오가 자연적이고 사실적인 환경을 나타내는 것으로 인지되는지 여부와 같이, 환경의 인식에 상당한 영향을 미치는 것으로 밝혀졌다. 다음에서, 이 표현에 기초하여 오디오 장면을 표현하고 오디오, 특히 확산 반향 오디오를 렌더링하기 위한 유리한 접근법이 설명될 것이다.
상기 접근법은 도 4에 도시된 바와 같은 오디오 장치를 참조하여 설명될 것이다. 상기 오디오 장치는 음향 환경에서 오디오를 나타내는 오디오 출력 신호를 생성하도록 배열된다. 구체적으로, 상기 오디오 장치는 다수의 오디오 소스 및 주어진 음향 특성을 갖는 가상 환경에서 이동하는 사용자에 의해 인지되는 오디오를 나타내는 오디오를 생성할 수 있다. 각 오디오 소스는 오디오 소스로부터의 사운드를 나타내는 오디오 신호와 오디오 소스의 특성을 설명(예: 오디오 신호에 대한 레벨 표시 제공)할 수 있는 메타데이터에 의해 표현된다. 또한, 음향 환경을 특성화하기 위해 메타데이터가 제공된다.
상기 오디오 장치는 각각의 오디오 소스에 대한 경로 렌더러(401)를 포함한다. 각각의 경로 렌더러(401)는 오디오 소스로부터 청취자로의 직접 경로를 나타내는 직접 경로 신호 성분을 생성하도록 배열된다. 직접 경로 신호 성분은 청취자와 오디오 소스의 위치를 기반으로 생성되며, 잠재적으로 주파수 의존적으로, 거리에 의존하는 오디오 소스에 대한 오디오 신호 및, 예를 들어, 사용자에 대한 특정 방향의 오디오 소스(예: 비-전방향성 소스)에 대한 상대 이득을 스케일링함으로써 직접 신호 성분을 구체적으로 생성할 수 있다.
많은 실시예에서, 렌더러(401)는 또한 소스와 사용자 위치 사이에 있는 폐색 또는 회절 (가상) 요소에 기초하여 직접 경로 신호를 생성할 수 있다.
많은 실시예에서, 경로 렌더러(401)는 또한, 이들이 하나 이상의 반사를 포함하는 개별 경로에 대한 추가 신호 성분을 생성할 수 있다. 이는 예를 들어, 당업자에게 공지된 바와 같이, 벽, 천장 등의 반사를 평가함으로써 수행될 수 있다. 직접 경로 및 반사 경로 성분은 각각의 경로 렌더러에 대해 단일 출력 신호로 조합될 수 있고, 따라서 직접 경로 및 초기/별개의 반사를 나타내는 단일 신호가 각각의 오디오 소스에 대해 생성될 수 있다.
일부 실시예에서, 각각의 오디오 소스에 대한 출력 오디오 신호는 바이노럴 신호일 수 있고, 따라서 각각의 출력 신호는 좌측 귀 및 우측 귀 (하위) 신호 둘 모두를 포함할 수 있다.
경로 렌더러(401)로부터의 출력 신호는 상이한 경로 렌더러(401)로부터의 신호를 조합하여 단일 결합 신호를 생성하는 결합기(403)에 제공된다. 많은 실시예에서, 바이노럴 출력 신호가 생성될 수 있고, 결합기는 경로 렌더러(401)로부터의 개별 신호의 가중 조합과 같은 조합을 수행할 수 있고, 즉, 경로 렌더러(401)로부터의 모든 우측 귀 신호는 조합된 우측 귀 신호를 생성하기 위해 함께 추가될 수 있고, 경로 렌더러(401)로부터의 모든 좌측 귀 신호는 결합된 좌측 귀 신호를 생성하기 위해 함께 추가될 수 있다.
경로 렌더러 및 결합기는 통상적으로 메모리 등과 같은 지원 회로를 포함하는 마이크로컨트롤러, 마이크로프로세서, 디지털 신호 프로세서, 또는 중앙 처리 장치와 같은 적절한 계산 리소스에서 처리하기 위한 실행 가능한 코드를 포함하는 임의의 적절한 방식으로 구현될 수 있다. 복수의 경로 렌더러는, 예를 들어, 전용 처리 장치의 뱅크와 같은, 병렬 기능 유닛으로서 구현될 수 있거나, 각각의 오디오 소스에 대한 반복 동작으로 구현될 수 있음을 이해해야 한다. 통상적으로, 동일한 알고리즘/코드는 각각의 오디오 소스/신호에 대해 실행된다.
개별 경로 오디오 성분에 더하여, 오디오 장치는 환경 내의 확산 반향을 나타내는 신호 성분을 생성하도록 추가로 배열된다. 확산 반향 신호는 소스 신호를 다운믹스 신호에 조합한 다음 다운믹스 신호에 반향 알고리즘을 적용하여 확산 반향 신호를 생성함으로써 (효율적으로) 생성된다.
도 4의 오디오 장치는 복수의 사운드 소스(통상적으로, 반향기가 확산 반향을 시뮬레이션하는 음향 환경 내부의 모든 소스)에 대한 오디오 신호를 수신하고, 이를 다운믹스에 조합하는 다운믹서(405)를 포함한다. 따라서, 다운믹스는 환경 내의 생성된 모든 사운드를 반영한다. 다운믹스는 다운믹스에 기초하여 확산 반향 신호를 생성하도록 배열된 반향기(407)에 공급된다. 반향기(407)는 구체적으로 Jot 반향기와 같은 파라미터 반향기일 수 있다. 반향기(407)는 확산 반향 신호가 공급되는 결합기(403)에 결합된다. 그 다음, 결합기(403)는 확산 반향 신호를 개별 경로를 나타내는 경로 신호와 결합하여, 청취자에 의해 인지되는 바와 같이 환경 내의 결합된 사운드를 나타내는 결합된 오디오 신호를 생성하도록 진행한다.
확산 반향 신호의 생성은 도 5에 도시된 바와 같은 오디오 반향 장치를 참조하여 더 설명될 것이다. 오디오 반향 장치는 도 4의 오디오 장치에 포함될 수 있고, 구체적으로 다운믹서(405) 및 반향기(407)를 구현할 수 있다.
오디오 반향 장치는 오디오를 나타내는 오디오 장면 데이터를 수신하도록 배열된 수신기(501)를 포함한다. 오디오 장면 데이터는 구체적으로, 오디오 신호 각각이 하나의 오디오 소스를 나타내는 복수의 오디오 신호를 포함한다(그리고 따라서 오디오 신호는 오디오 소스로부터의 사운드를 설명한다). 또한, 수신기(501)는 각각의 오디오 소스에 대한 메타데이터를 수신한다. 이 메타데이터는 신호 레벨 표시가 오디오 신호에 의해 표현되는 사운드 소스의 레벨/에너지/진폭을 나타낼 수 있는 오디오 소스에 대한 (상대적인) 신호 레벨 표시를 포함한다. 소스에 대한 메타데이터는 사운드 소스로부터의 사운드 방사의 지향성을 나타내는 지향성 데이터를 더 포함한다. 오디오 신호에 대한 지향성 데이터는 예를 들어 이득 패턴을 설명할 수 있고, 오디오 소스의 위치로부터 상이한 방향에서의 오디오 소스에 대한 상대 이득/에너지 밀도를 구체적으로 설명할 수 있다.
수신기(501)는 음향 환경을 나타내는 메타데이터를 더 수신한다. 구체적으로, 수신기(501)는 음향 환경에서 전체 방출 사운드에 대한 확산 반향 사운드의 레벨을 나타내는 확산 반향 신호 대 전체 신호 관계 및 구체적으로 확산 반향 신호 대 전체 신호 비율(확산 반향 신호 레벨 대 전체 신호 레벨 비율, 또는 일부 경우에 확산 반향 신호 레벨 대 전체 신호 에너지 비율, 또는 방출 에너지 대 확산 반향 에너지 비율로 지칭될 수 있음)을 수신한다. 확산 반향 신호 대 전체 신호 비율은 이하에서 간결성을 위해 또한 확산 대 소스 비율(DSR) 또는 동등하게 소스 대 확산 비율(SDR)로 지칭될 것이다(하기 설명은 주로 전자를 사용할 것이다).
비율 및 역비율은 동일한 정보를 제공할 수 있음, 즉 임의의 비율이 역비율로 표현될 수 있음을 이해할 것이다. 따라서, 확산 반향 신호 대 전체 신호 관계는 전체 방출 사운드를 나타내는 값으로 나눈 확산 반향 사운드의 레벨을 반영하는 값의 분수, 또는 동등하게 확산 반향 사운드의 레벨을 반영하는 값으로 나눈 전체 방출 사운드를 반영하는 값의 분수에 의해 표현될 수 있다. 또한, 추정된 값의 다양한 수정이 도입될 수 있고, 예를 들어 비선형 함수(예: 로그 함수)가 적용될 수 있음을 이해할 것이다.
음향 환경에서 전체 방출 사운드에 대한 확산 반향 사운드의 레벨을 나타내는 확산 반향 신호 대 전체 신호 관계의 임의의 표시가 사용되고 메타데이터에 제공될 수 있다. 다음의 설명은 확산 반향 신호의 레벨 대 전체 신호의 레벨(예: 에너지 또는 에너지 밀도) 비율 사이의 비율에 의해 표현되는 관계에 초점을 맞출 것이다. 따라서, 설명은 DSR로도 지칭될 확산 반향 신호 대 전체 신호 비율의 일례에 초점을 맞출 것이다.
수신기(501)는 예를 들어 별개의 또는 전용 전자기기를 사용하는 것을 포함하여 임의의 적합한 방식으로 구현될 수 있다. 수신기(501)는 예를 들어, ASIC(Application Specific Integrated Circuit)과 같은 집적 회로로서 구현될 수 있다. 일부 실시예에서, 상기 회로는, 예를 들어 중앙 처리 유닛, 디지털 신호 처리 유닛, 또는 마이크로제어기 등과 같은 적합한 프로세서 상에서 실행되는 펌웨어 또는 소프트웨어와 같은 프로그래밍된 처리 유닛으로서 구현될 수 있다. 이러한 실시예에서, 처리 유닛은 온-보드(on-board) 또는 외부 메모리, 클록 구동 회로부, 인터페이스 회로부, 사용자 인터페이스 회로부 등을 포함할 수 있다는 것을 이해할 것이다. 이러한 회로부는 처리 유닛의 일부로, 집적 회로로, 그리고/또는 별개의 전자 회로부로 추가로 구현될 수 있다.
수신기(501)는, 예를 들어 오디오 신호의 일부를 포함하여, 임의의 적합한 소스로부터 및 임의의 적합한 형태로 오디오 장면 데이터를 수신할 수 있다. 상기 데이터는 내부 또는 외부 소스로부터 수신될 수 있다. 수신기(401)는 예를 들어 네트워크 접속, 무선 접속, 또는 내부 소스에 대한 임의의 다른 적합한 접속을 통해 공간 데이터를 수신하도록 배열될 수 있다. 많은 실시예에서, 수신기는, 로컬 메모리와 같은, 로컬 소스로부터 데이터를 수신할 수 있다. 많은 실시예에서, 수신기(501)는 예를 들어, 로컬 RAM 또는 ROM 메모리와 같은, 로컬 메모리로부터 공간 데이터를 검색하도록 배열될 수 있다.
수신기(501)는 경로 렌더러(401)에 결합될 수 있고, 이전에 설명된 바와 같이, 경로 신호 성분(직접 경로 및 초기 반사)의 생성을 위해 오디오 장면 데이터를 이들로 전달할 수 있다.
오디오 반향 장치는 오디오 장면 데이터를 또한 공급하는 다운믹서(405)를 더 포함한다. 다운믹서(405)는 에너지 회로/프로세서(505), 계수 회로/프로세서(507), 및 다운믹스 회로/프로세서(509)를 포함한다.
다운믹서(405), 및 실제로 각각의 에너지 회로/프로세서(505), 계수 회로/프로세서(507), 및 다운믹스 회로/프로세서(509)는, 예를 들어, 별개의 또는 전용 전자 장치를 사용하는 것을 포함하는 임의의 적합한 방식으로 구현될 수 있다. 수신기(501)는 예를 들어, ASIC(Application Specific Integrated Circuit)과 같은 집적 회로로서 구현될 수 있다. 일부 실시예에서, 상기 회로/프로세서는, 예를 들어 중앙 처리 유닛, 디지털 신호 처리 유닛, 또는 마이크로제어기 등과 같은 적합한 프로세서 상에서 실행되는 펌웨어 또는 소프트웨어와 같은 프로그래밍된 처리 유닛으로서 구현될 수 있다. 이러한 실시예에서, 처리 유닛은 온-보드(on-board) 또는 외부 메모리, 클록 구동 회로부, 인터페이스 회로부, 사용자 인터페이스 회로부 등을 포함할 수 있다는 것을 이해할 것이다. 이러한 회로부는 처리 유닛의 일부로, 집적 회로로, 그리고/또는 별개의 전자 회로부로 추가로 구현될 수 있다.
계수 프로세서(507)는 수신된 오디오 신호 중 적어도 일부에 대한 다운믹스 계수를 결정하도록 배열된다. 오디오 신호에 대한 다운믹스 계수는 다운믹스에서의 해당 오디오 신호에 대한 가중치에 대응할 수 있다. 다운믹스 계수는 다운믹스 신호를 생성하는 가중 조합에서의 오디오 신호에 대한 가중치일 수 있다. 따라서, 다운믹스 계수는 다운믹스 신호(많은 실시예에서 모노 신호임)를 생성하기 위해 이들을 결합할 때 오디오 신호에 대한 상대 가중치일 수 있다, 예를 들어, 이들은 가중된 합계의 가중치일 수 있다.
계수 프로세서(507)는 수신된 확산 반향 신호 대 전체 신호 비율, 즉 확산 대 소스 비(DSR)에 기초하여 다운믹스 계수를 생성하도록 배열된다.
상기 계수는 오디오 소스로부터 방출된 전체 에너지를 나타내는 결정된 전체 방출 에너지 표시에 응답하여 추가로 결정된다. DSR이 통상적으로 일부에 대해 공통이고, 통상적으로 오디오 신호 모두에 대해 공통인 반면, 전체 방출 에너지 표시는 통상적으로 각각의 오디오 소스에 특정된다.
전체 방출 에너지 표시는 통상적으로 정규화된 전체 방출 에너지를 나타낸다. 모든 오디오 소스에 및 직접 및 반사 경로 성분에 동일한 정규화가 적용될 수 있다. 따라서, 전체 방출 에너지 표시는 다른 오디오 소스/신호를 위한 전체 방출 에너지 표시에 대한 또는 개별 경로 성분에 대한 또는 오디오 신호의 전체 규모 샘플 값에 대한 상대 값일 수 있다.
DSR과 결합될 때 전체 방출 에너지 표시는 각각의 오디오 소스에 대해, 해당 오디오 소스로부터의 확산 반향 사운드에 대한 상대적 기여를 반영하는 다운믹스 계수를 제공할 수 있다. 따라서, DSR 및 전체 방출 에너지 표시의 함수로서 다운믹스 계수를 결정하는 것은 확산 사운드에 대한 상대적 기여를 반영하는 다운믹스 계수를 제공할 수 있다. 따라서, 다운믹스 계수를 사용하여 다운믹스 신호를 생성하면, 각각의 사운드 소스에 적절하게 가중치가 부여되고 음향 환경이 정확하게 모델링되는 환경에서 생성된 전체 사운드를 반영하는 다운믹스 신호가 생성될 수 있다.
많은 실시예에서, DSR 및 반향기(407) 특성에 응답하여 스케일링과 결합된 전체 방출 에너지 표시의 함수로서의 다운믹스 계수는 대응하는 경로 신호 성분에 대한 확산 반향 사운드의 적절한 상대 레벨을 반영하는 다운믹스 계수를 제공할 수 있다.
에너지 프로세서(505)는 계수 프로세서(507)에 결합되고, 오디오 소스에 대해 수신된 메타데이터로부터 전체 방출 에너지 표시를 결정하도록 배열된다.
수신된 메타데이터는, 오디오의 레벨의 표시를 제공하는 각각의 소스에 대한 신호 기준 레벨을 포함한다. 신호 기준 레벨은 통상적으로, 다른 오디오 소스에 대한 또는 정규화된 기준 레벨에 대한 신호 기준 레벨의 표시를 제공하는 정규화된 또는 상대적인 값이다. 따라서, 신호 기준 레벨은 통상적으로 소스에 대한 절대 사운드 레벨이 아니라, 다른 오디오 소스에 대한 상대적 레벨을 나타낼 수 있다.
특정 예에서, 신호 기준 레벨은 오디오 신호에 적용될 거리 감쇠가 0dB인 거리를 제공하는 기준 거리의 형태의 표시를 포함할 수 있다. 따라서, 기준 거리와 동일한 오디오 소스와 청취자 사이의 거리에 대해, 수신된 오디오 신호는 임의의 거리 의존적 스케일링 없이 사용될 수 있다. 기준 거리보다 작은 거리에 대해, 감쇠가 적으므로, 청취 위치에서 사운드 레벨을 결정할 때 0dB보다 높은 이득이 적용되어야 한다. 기준 거리보다 높은 거리에 대해, 감쇠가 높으므로, 청취 위치에서 사운드 레벨을 결정할 때 0dB보다 높은 감쇠가 적용되어야 한다. 동등하게, 오디오 소스와 청취 위치 사이의 주어진 거리에 대해, 더 짧은 기준 거리와 연관된 것보다 더 높은 기준 거리와 연관된 오디오 신호에 더 높은 이득이 적용될 것이다. 오디오 신호가 통상적으로 의미있는 기준 거리를 나타내거나 전체 동적 범위를 이용하도록 정규화되므로(예: 제트 엔진 및 크리켓은 모두 사용된 데이터 워드의 전체 동적 범위를 활용하는 오디오 신호에 의해 표현될 것임), 기준 거리는 특정 오디오 소스에 대한 신호 기준 레벨의 표시를 제공한다.
상기 예에서, 신호 기준 레벨은 사전 이득으로 지칭되는 기준 이득에 의해 추가로 표시된다. 기준 이득은 각각의 오디오 소스에 대해 제공되고, 렌더링된 오디오 레벨을 결정할 때 오디오 신호에 적용되어야 하는 이득을 제공한다. 따라서, 사전 이득은 상이한 오디오 소스 간의 레벨 변화를 더 나타내기 위해 사용될 수 있다.
메타데이터는 오디오 신호에 의해 표현되는 사운드 소스로부터의 사운드 방사의 지향성을 나타내는 지향성 데이터를 더 포함한다. 각각의 오디오 소스에 대한 지향성 데이터는, 오디오 소스로부터의 상이한 방향에서, 신호 기준 레벨에 대한 상대 이득을 나타낼 수 있다. 지향성 데이터는 예를 들어 각각의 방향에서 이득을 정의하는 오디오 소스로부터의 방사 패턴의 전체 기능 또는 설명을 제공할 수 있다. 다른 예로서, 예를 들어 소정의 패턴을 나타내는 단일 데이터 값과 같은 단순화된 표시가 사용될 수 있다. 또 다른 예로서, 지향성 데이터는 상이한 방향 간격의 범위(예: 구의 세그먼트)에 대한 개별 이득 값을 제공할 수 있다.
따라서, 오디오 신호와 함께 메타데이터는 오디오 레벨이 생성되도록 할 수 있다. 구체적으로, 경로 렌더러는 오디오 신호에 이득을 적용함으로써 직접 경로에 대한 신호 성분을 결정할 수 있으며, 여기서 이득은 사전 이득, 오디오 소스와 청취자 사이의 거리 및 기준 거리의 함수로서 결정되는 거리 이득, 및 오디오 소스로부터 청취자로의 방향으로의 지향성 이득의 조합이다.
확산 반향 신호의 생성과 관련하여, 메타데이터는 신호 기준 레벨 및 오디오 소스에 대한 지향성 데이터에 기초하여 오디오 소스에 대한 (정규화된) 전체 방출 에너지 표시를 결정하는 데 사용된다.
구체적으로, 전체 방출 에너지 표시는 모든 방향에 대해 지향성 이득을 적분(예: 오디오 소스의 위치에 중심을 둔 구체의 표면에 걸쳐 적분)하여 생성되고, 신호 기준 레벨에 의해, 구체적으로 거리 이득 및 사전 이득에 의해 스케일링될 수 있다.
그 다음, 결정된 전체 방출 에너지 표시는, DSR로 처리되어 다운믹스 계수를 생성하는, 계수 프로세서(507)에 공급된다.
그 다음, 다운믹스 프로세서(509)가 다운믹스 계수를 사용하여 다운믹스 신호를 생성한다. 구체적으로, 다운믹스 신호는 오디오 신호의 조합 및 구체적으로 합계로서 생성되며, 각각의 오디오 신호는 대응하는 오디오 신호에 대한 다운믹스 계수에 의해 가중된다.
다운믹스는 통상적으로 모노-신호로서 생성되고, 모노-신호는 확산 반향 신호를 생성하도록 진행하는 반향기(407)에 공급된다.
경로 렌더러(401)에 의한 개별 경로 신호 성분의 렌더링 및 생성이 예를 들어 거리 이득 및 지향성 이득을 결정하는 것과 관련하여 위치 의존적인 반면, 확산 반향 신호의 생성은 소스 및 청취자 둘 모두의 위치와 독립적일 수 있다는 것을 유의해야 한다.
전체 방출 에너지 표시는 소스 및 청취자의 위치를 고려하지 않고 신호 기준 레벨 및 지향성 데이터에 기초하여 결정될 수 있다. 구체적으로, 소스에 대한 사전 이득 및 기준 거리는 소스로부터의 공칭 거리(공칭 거리는 모든 오디오 신호/소스에 대해 동일함)에서 비-지향성 의존적 신호 기준 레벨을 결정하는데 사용될 수 있고, 이는, 예를 들어, 오디오 신호의 전체 규모 샘플에 대해 정규화된다. 모든 방향에 대한 지향성 이득의 적분은, 예를 들어 기준 거리의 구에 대해, 정규화된 구에 대해 수행될 수 있다. 따라서, 전체 방출 에너지 표시는 소스 및 청취자 위치와 독립적일 것이다(확산 반향 사운드가 공간과 같은 환경에서 균질한 경향이 있음을 반영함). 그 다음, 전체 방출 에너지 표시는 DSR과 결합되어 다운믹스 계수를 생성한다(많은 실시예에서, 반향기의 파라미터와 같은 다른 파라미터가 또한 고려될 수 있음). DSR이 또한 위치와 독립적이기 때문에, 다운믹스 및 반향 처리와 같이, 확산 반향 신호는 소스 및 청취자의 특정 위치를 고려하지 않고 생성될 수 있다.
이러한 접근법은 과도한 계산 리소스를 요구하지 않으면서 고성능 및 자연스럽게 들리는 오디오 인식을 제공할 수 있다. 예를 들어, 사용자(및 소스)가 환경 내에서 이동할 수 있고, 따라서 청취자의 상대적 위치(및 가능하게는 오디오 소스의 일부 또는 전부)가 동적으로 변할 수 있는 가상 현실 애플리케이션에 대해 특히 적합할 수 있다.
도 4 및 도 5의 접근법의 다양한 실시예의 다음의 특정 양태에서, 더 상세히 설명될 것이다.
많은 실시예에서, 메타데이터는 확산 반향 신호가 시작해야 할 때의 표시를 더 포함할 수 있으며, 즉, 그것은 확산 반향 신호와 연관된 시간 지연을 나타낼 수 있다. 시간 지연 표시는 구체적으로 사전 지연의 형태일 수 있다.
사전 지연은 RIR에서의 지연/지체를 나타낼 수 있고, 초기 반사와 확산, 후기 반향 사이의 임계치인 것으로 정의될 수 있다. 이 임계치는 통상적으로 개별 반사로부터 완전히 간섭하는 고차 반사의 혼합으로의 (다소) 매끄러운 전환의 일부로서 발생하기 때문에, 적절한 평가/결정 프로세스를 사용하여 적절한 임계치를 선택할 수 있다. 상기 결정은 RIR의 분석에 기초하여 자동으로 이루어지거나, 또는 공간 치수 및/또는 재료 특성에 기초하여 계산될 수 있다.
대안적으로, 예를 들어, RIR에 80ms와 같은 고정된 임계치가 선택될 수 있다. 사전 지연은 초, 밀리초 또는 샘플로 표시될 수 있다. 이하의 설명에서, 사전 지연은 반향이 실제로 확산된 후 한 지점에서 선택되는 것으로 가정된다. 그러나, 설명된 방법은 그렇지 않은 경우에도 여전히 충분히 작동할 수 있다.
따라서, 사전 지연은 소스 방출의 개시로부터 확산 반향 응답의 개시를 나타낸다. 예를 들어, 도 6에 도시된 바와 같은 예에 대해, 소스가 t0에서 방출을 시작하는 경우(예: t0=0), 직접음는 t1>t0에서 사용자에 도달하고, 제1 반사는 t2>t1에서 사용자에 도달하고, 초기 반사와 확산 반향 사이의 정의된 임계치는 t3>t2에서 사용자에 도달한다. 그 다음, 사전 지연은 t3―t0이다.
시스템에서, 확산 반향 신호 대 전체 신호 비율, 즉 확산 대 소스 비율(DSR)은 사용자에 의해 수신된 소스의 확산 반향 에너지 또는 레벨의 양을 해당 소스의 전체 방출 에너지의 비율로 표현하는 데 사용될 수 있다. 이것은 렌더링될 신호 및 대응하는 메타데이터(예: 사전 이득)의 레벨 보정을 위해 확산 반향 에너지가 적절하게 조절되는 방식으로 표현될 수 있다.
이러한 방식으로 표현하면 값이 환경 내의 청취자와 소스의 절대 위치와 배향과 독립적이고, 소스에 대한 사용자의 상대적 위치 및 배향과 독립적이고 그 반대도 마찬가지이며, 반향을 렌더링하기 위한 특정 알고리즘과 독립적이며, 상기 시스템에서 사용되는 신호 레벨에 의미 있는 링크가 있음을 보장할 수 있다.
설명된 접근법은 소스 신호 사이의 정확한 상대적 레벨을 부과하기 위해 지향성 패턴 둘 모두를 고려하고, 반향기(407)의 출력에 대한 정확한 레벨을 달성하기 위해 DSR을 고려하는 다운믹스 계수를 계산한다.
DSR은 방출 소스 에너지와 확산 반향 특성 사이의 비율, 예컨대 확산 반향 신호의 에너지 또는 (초기) 레벨을 나타낼 수 있다.
상기 설명은 주로 전체 에너지에 대한 확산 반향 에너지를 나타내는 DSR에 초점을 맞출 것이다:
Figure pct00002
확산 반향 에너지는 확산 섹션의 시작으로부터 공간 응답에 의해 생성된 에너지인 것으로 간주될 수 있으며, 예를 들어 사전 지연으로 표시된 시간으로부터 무한대까지 RIR의 에너지일 수 있다. 공간의 후속 여기는 반향 에너지에 합산될 것이므로, 이는 통상적으로 Dirac 펄스를 사용한 여기에 의해서만 직접 측정될 수 있다는 점에 유의한다. 대안적으로, 이는 측정된 RIR로부터 유래될 수 있다.
반향 에너지는 전체 공간에 걸쳐 적분되는 대신에 확산 필드 공간에서의 단일 지점에서의 에너지를 나타낸다.
상기의 특히 유리한 대안은 환경 내의 전체 방출 사운드의 에너지에 대한 확산 사운드의 초기 진폭을 나타내는 DSR을 사용하는 것이다. 구체적으로, DSR은 사전 지연에 의해 표시된 시간에 반향 진폭을 표시할 수 있다.
사전 지연에서의 진폭은 사전 지연에서 또는 그 직후에 공간 임펄스 응답의 가장 큰 여기일 수 있다. 예를 들어, 사전 지연 후 5, 10, 20 또는 50ms 이내. 특정 범위에서 가장 큰 여기를 선택하는 이유는, 사전 지연 시간에, 공간 임펄스 응답이 우연히 응답의 낮은 부분에 있을 수 있기 때문이다. 일반적인 경향이 감쇠 진폭인 경우, 사전 지연 후 짧은 간격 내의 가장 큰 여기는 또한 통상적으로 전체 확산 반향 응답의 가장 큰 여기이다.
초기 진폭(예: 10 msec의 간격 내)을 나타내는 DSR을 사용하여, DSR을 많은 반향 알고리즘에서의 파라미터에 매핑하는 것이 더 쉽고 더 강력해진다. 따라서, DSR은 일부 실시예에서 다음과 같이 주어질 수 있다:
Figure pct00003
DSR에서의 파라미터는 동일한 소스 신호 레벨 기준에 대해 표현된다.
이는 예를 들어, 특정 공지된 조건(예컨대 소스와 마이크로폰 사이의 거리 및 소스의 지향성 패턴) 내에서 마이크로폰으로 관심 공간의 RIR을 측정(또는 시뮬레이션)하여 달성될 수 있다. 소스는 보정된 양의 에너지를, 예를 들어 공지된 에너지를 갖는 Dirac 임펄스를 공간 내로 방출해야 한다.
측정 장비에서의 전기적 전환 및 아날로그 대 디지털 변환을 위한 보정 계수는 사양으로부터 측정되거나 도출될 수 있다. 그것은 또한 소스 및 소스-마이크로폰 거리의 지향성 패턴으로부터 예측 가능한 RIR에서의 직접 경로 응답으로부터 계산될 수 있다. 직접 응답은 디지털 영역에서 특정 에너지를 가지며, 방출 에너지에 마이크로폰의 방향에 대한 지향성 이득 및 소스-마이크로폰 거리와 동일한 반경을 갖는 전체 구 표면에 대한 마이크로폰 표면에 의존할 수 있는 거리 이득을 곱한 것을 나타낸다.
두 요소 모두는 동일한 디지털 레벨 기준을 사용해야 한다. 예를 들어, 전체 규모 1 ㎑ 사인은 100dB SPL에 해당한다.
확산 반향 에너지를 RIR로부터 측정하고 이를 보정 계수로 보상하면 공지된 방출 에너지와 동일한 영역에서 적절한 에너지를 얻을 수 있다. 방출 에너지와 함께, 적절한 DSR이 계산될 수 있다.
기준 거리는 신호에 적용할 거리 이득이 0dB인 거리, 즉, 거리를 보상하기 위해 이득 또는 감쇠가 적용되지 않아야 하는 거리를 나타낼 수 있다. 그 다음, 경로 렌더러(401)에 의해 적용될 실제 거리 이득은 기준 거리에 대한 실제 거리를 고려함으로써 계산될 수 있다.
사운드 전파까지의 거리의 효과를 재제시하는 것은 주어진 거리를 참조하여 수행된다. 거리를 2배로 늘리면 에너지 밀도(표면 단위당 에너지)가 6dB만큼 감소한다. 거리를 반으로 줄이면 에너지 밀도(표면 단위당 에너지)가 6dB만큼 유도된다.
주어진 거리에서의 거리 이득을 결정하기 위해서는, 주어진 레벨에 대응하는 거리를 알아야, 현재 거리에 대한 상대적 변화를 결정할 수 있으며, 즉 밀도가 얼마나 감소되거나 증가되었는지 결정할 수 있다.
공기에서 흡수를 무시하고, 반사 또는 폐색 요소가 존재하지 않는다고 가정하면, 소스의 방출 에너지는 소스 위치에 중심을 둔 임의의 반경을 갖는 임의의 구에서 일정하다. 실제 거리 대 기준 거리에 대응하는 표면의 비는 에너지의 감쇠를 나타낸다. 렌더링 거리 d에서의 선형 신호 진폭 이득은 다음으로 표시될 수 있다:
Figure pct00004
여기서, rref는 기준 거리이다.
일례로서, 기준 거리가 1 미터이고 렌더링 거리가 2 미터인 경우, 이는 약 6dB의 신호 감쇠(또는 -6dB의 이득)를 초래한다.
전체 방출 에너지 표시는 사운드 소스가 방출하는 전체 에너지를 나타낼 수 있다. 통상적으로, 사운드 소스는 모든 방향으로 방사되지만, 모든 방향으로 동일하게는 아니다. 소스 주위의 구에 대한 에너지 밀도의 적분은 전체 방출 에너지를 제공할 수 있다. 확성기의 경우, 방출 에너지는 종종 단자에 적용된 전압 및 임피던스, 에너지 손실 및 음압파로의 전기 에너지 전달을 설명하는 확성기 계수에 대한 지식을 사용하여 계산할 수 있다.
에너지 프로세서(505)는 오디오 소스에 대한 지향성 데이터를 고려함으로써 전체 방출 에너지 표시를 결정하도록 배열된다. 다양한 소스 지향성을 가질 수 있는 소스에 대한 확산 반향 신호를 결정할 때 신호 레벨 또는 신호 기준 레벨만이 아닌 전체 방출 에너지를 사용하는 것이 중요하다는 점에 유의해야 한다. 예를 들어, 지향성 계수가 1이고 다른 모든 방향에 대해 계수가 0인 매우 좁은 빔(즉, 에너지는 매우 좁은 빔에서만 송신됨)에 해당하는 소스 지향성을 고려한다. 이 경우, 방출 소스 에너지는 이것이 전체 에너지를 나타내기 때문에 오디오 신호의 에너지 및 신호 기준 레벨과 매우 유사할 수 있다. 동일한 에너지 및 신호 기준 레벨을 갖지만 전방향 지향성을 갖는 오디오 신호를 갖는 다른 소스가 대신 고려되는 경우, 이 소스의 방출 에너지는 오디오 신호 에너지 및 신호 기준 레벨보다 훨씬 더 높을 것이다. 따라서, 양쪽 소스가 동시에 활성화되면, 전방향 소스의 신호는 매우 지향성인 소스보다 확산 반향 신호에서, 및 따라서 다운믹스에서 훨씬 더 강하게 표현되어야 한다.
언급된 바와 같이, 에너지 프로세서(505)는 오디오 소스를 둘러싸는 구의 표면에 대해 에너지 밀도를 적분하여 방출 에너지를 결정할 수 있다. 거리 이득을 무시하는데, 즉 거리 이득이 0dB인 반경(즉, 기준 거리에 해당하는 반경)에 대한 표면에 걸쳐 적분하는 것은, 전체 방출 에너지 표시가 다음으로부터 결정될 수 있다:
Figure pct00005
여기서, g는 지향성 이득 함수이고, p는 오디오 신호/소스와 연관된 사전 이득이고, x는 오디오 신호 자체의 레벨을 나타낸다.
p는 방향과 독립적이기 때문에, 또한 적분 외부로 이동될 수 있다. 유사하게, 신호 x는 방향과 독립적이다(지향성 이득은 해당 변화를 반영함). (이는 나중에 곱해질 수 있다:
Figure pct00006
그리고 따라서 적분은 신호와 무관하게 된다.)
이 적분을 결정하기 위한 하나의 특정 접근법은 다음에서 더 자세히 설명된다.
구에 대해 지향성 이득을 적분하는 것이 바람직하다.
Figure pct00007
기준 거리와 동일한 반경(r)을 갖는 구를 사용하는 것은 거리 이득이 0dB이고, 따라서 거리 이득/감쇠가 무시될 수 있음을 의미한다.
이 예에서 구가 선택되는데, 이것이 유리한 계산을 제공하지만, 동일한 에너지가 소스 위치를 둘러싸는 임의의 형상의 임의의 폐쇄 표면으로부터 결정될 수 있기 때문이다. 적절한 거리 이득 및 지향성 이득이 적분에서 사용되는 한, 유효 표면은 소스 위치를 향하는 것으로(즉, 소스 위치와 일렬로 있는 법선 벡터로) 고려된다.
표면 적분은 작은 표면 dS를 정의해야 한다. 따라서, 2개의 파라미터(방위각(a) 및 고도(e))로 구를 정의하면 이를 수행하는 치수가 제공된다. 솔루션에 대한 좌표계를 사용하여 다음을 얻는다:
f(a, e, r) = r * cos(e) * cos(a) * ux + r * cos(e) * cos(a) * uy + r * sin(e) * uz
여기서 ux, uy uz는 상기 좌표계의 단위 기본 벡터이다.
작은 표면 dS는 2개의 파라미터에 대한 구 표면의 편도함수의 벡터적의 크기에 각각의 파라미터의 미분을 곱한 것이다:
dS = |fa x fe| da de
도함수는 관심 지점에서 구에 접하는 벡터를 결정한다.
fa = -r * cos(e) * sin(a) * ux + r * cos(e) * cos(a) * uy + 0 * uz
fe = -r * sin(e) * cos(a) * ux - r * sin(e) * sin(a) * uy + r * cos(e) * uz
도함수의 벡터적은 둘 다에 수직인 벡터이다.
fa x fe = (r2 * cos(e) * cos(a) * cos(e) + 0 * sin(e) * sin(a)) * ux + (-0 * sin(e) * cos(a) + r2 * cos(e) * sin(a) * cos(e)) * uy + (r2 * cos(e) * sin(a) * sin(e) * sin(a) + r2 * cos(e) * cos(a) * sin(e) * cos(a)) * uz
= r2 * cos2(e) * cos(a) * ux + r2 * cos2(e) * sin(a) * uy + (r2 * cos(e) * sin(e) * sin2(a) + r2 * cos(e) * sin(e) * cos2(a)) * uz
= r2 * cos2(e) * cos(a) * ux + r2 * cos2(e) * sin(a) * uy + (r2 * cos(e) * sin(e) * (sin2(a) + cos2(a))) * uz
= r2 * cos2(e) * cos(a) * ux + r2 * cos2(e) * sin(a) * uy + r2 * cos(e) * sin(e) * uz
벡터적의 크기는 벡터 f_a 및 f_e에 걸쳐 있는 평행사변형의 표면적이며, 따라서 구의 표면적은:
|fa x fe| = sqrt((r2 * cos2(e) * cos(a))2 + (r2 * cos2(e) * sin(a))2 + (r2 * cos(e) * sin(e))2)
= sqrt(r4 * cos4(e) * cos2(a) + r4 * cos4(e) * sin2(a) + r4 * cos2(e) * sin2(e))
= sqrt(r4 * cos4(e) * (cos2(a) + sin2(a)) + r4 * cos2(e) * sin2(e))
= sqrt(r4 * cos4(e) + r4 * cos2(e) * sin2(e))
= sqrt(r4 * cos2(e) * (cos2(e) + sin2(e)))
= sqrt(r4 * cos2(e))
= abs(r2 * cos(e)) = r2 * cos(e) when e = [-0.5*pi, 0.5*pi]
생성된 결과:
dS = r2 * cos(e) * da * de
여기서 처음 두 항은 정규화된 표면적을 정의하고, da와 de를 곱하면, 세그먼트 da와 de의 크기에 기초하여, 실제 표면이 된다. 그 다음, 표면에 대한 이중 적분은 방위각 및 고도의 항으로 표현될 수 있다. 표면 dS는, 상기에 따라, a 및 e의 항으로 표현된다. 두 적분은 방위각 = 0 ... 2*pi(내부 적분) 및 고도 = -0.5*pi ... 0.5*pi(외부 적분)에 대해 수행될 수 있다.
Figure pct00008
여기서,
Figure pct00009
는 방위각 및 고도의 함수로서의 지향성이다. 따라서
Figure pct00010
인 경우, 결과는 구의 표면이어야 한다. (증명으로 분석적으로 적분을 수행하면 예상대로4 *pi *r 2가 됨).
많은 실제 실시예에서, 지향성 패턴은 적분가능한 함수로 제공되지 않고, 예를 들어 샘플 포인트의 개별 세트로 제공될 수 있다. 예를 들어, 각각의 샘플링된 지향성 이득은 방위각 및 고도와 연관된다. 통상적으로, 이들 샘플은 구 상의 그리드를 나타낼 것이다. 이를 처리하기 위한 하나의 접근법은 적분을 합산으로 바꾸는 것이며, 즉, 이산 적분이 수행될 수 있다. 이러한 예에서, 적분은 지향성 이득이 이용가능한 구 상의 지점에 대한 합산으로 구현될 수 있다. 이는
Figure pct00011
에 대한 값을 제공하지만, da de를 올바르게 선택해야, 중첩 또는 갭으로 인해 큰 오류가 발생하지 않는다.
다른 실시예에서, 지향성 패턴은 공간 내의 제한된 수의 불균일하게 이격된 지점으로 제공될 수 있다. 이 경우, 지향성 패턴은 관심 방위각 및 고도의 범위에 걸쳐 보간되고 균일하게 재샘플링될 수 있다.
대안적인 솔루션은
Figure pct00012
가 정의된 지점 주위에서 일정하다고 가정하고, 적분을 국부적으로 분석적으로 푸는 것일 수 있다. 예를 들어, 작은 방위각 및 고도 범위에 대해. 예를 들어, 이웃하는 정의된 지점 사이의 중간. 이는 상기 적분을 사용하지만, 상이한 범위의 ae, 및 상수로 가정된
Figure pct00013
를 활용한다.
실험에 따르면, 직접적인 합계를 사용하면 지향성의 다소 거친 해상도를 사용하더라도 오류가 작다. 또한, 오류는 반경과 독립적이다. 10개 지점 사이에서 방위각의 선형 간격의 경우, 10개의 선형으로 이격된 고도 지점은 -20dB의 상대 오차를 초래한다.
위에 표현된 바와 같은 적분은 구의 반경으로 스케일링되는 결과를 제공한다. 따라서, 그것은 기준 거리로 스케일링된다. 반경에 대한 이러한 의존성은, 상이한 2개의 반경 사이의 '거리 이득'의 역효과를 고려하지 않기 때문이다. 반경이 2배가 되면, 고정 표면적(예: 1 ㎠)을 통한 '유동하는' 에너지는 6dB 더 낮다. 따라서, 적분은 거리 이득을 고려해야 한다는 것을 말할 수 있다. 그러나, 적분은 거리 이득이 신호에 반영되는 거리로서 정의되는 기준 거리에서 수행된다. 즉, 기준 거리에 의해 표시된 신호 레벨은 적분되는 값의 스케일링으로 포함되지 않지만, 기준 거리에 따라 변하는 적분이 수행(적분은 기준 거리와 동일한 반경을 갖는 구에 대해 수행되기 때문에)되는 표면적에 의해 반영된다.
그 결과, 상술된 바와 같은 적분은 오디오 신호 에너지 스케일링 인자(임의의 사전 이득 또는 유사한 보정 조정을 포함함)를 반영하는데, 오디오 신호는 (지향성 이득 없이) 기준 거리와 동일한 반경을 갖는 구의 고정 표면적에서 정확한 신호 재생 에너지를 나타내기 때문이다.
이는, 신호를 변경하지 않고 기준 거리가 더 큰 경우, 전체 신호 에너지 스케일링 인자도 더 크다는 것을 의미한다. 이는 해당 신호가 동일한 신호 에너지를 가진 사운드 소스보다 상대적으로 크지만 기준 거리가 더 작은 사운드 소스를 나타내기 때문이다.
다시 말해서, 기준 거리와 동일한 반경을 갖는 구의 표면에 대해 적분을 수행함으로써, 기준 거리에 의해 제공되는 신호 레벨 표시는 자동으로 고려된다. 더 높은 기준 거리는 더 큰 표면적을 초래하여 더 큰 전체 방출 에너지 표시를 초래할 것이다. 적분은 특히 거리 이득이 1인 거리에서 직접 수행된다.
위의 적분은 사용된 표면 단위에 대해 정규화되고 기준 거리(r)를 나타내는 데 사용되는 단위에 대해 정규화되는 값을 생성한다. 기준 거리(r)가 미터로 표현되는 경우, 적분의 결과는 m2의 단위로 제공된다.
추정된 방출 에너지 값을 신호에 관련시키기 위해, 신호에 대응하는 표면 단위로 표현되어야 한다. 신호의 레벨이 기준 거리에서 사용자에게 재생되어야 하는 레벨을 나타내기 때문에, 인간 귀의 표면적이 더 적합할 수 있다. 기준 거리에서 전체 구의 표면에 대한 이 표면은 감지할 수 있는 소스 에너지 부분과 관련된다.
따라서, 오디오 신호에서 전체 규모 샘플에 대해 정규화된 방출 소스 에너지를 나타내는 전체 방출 에너지 표시는 다음과 같이 표시될 수 있다:
Figure pct00014
여기서, E dir,r 는 반경이 기준 거리와 동일한 구의 표면에 대한 지향성 이득을 적분함으로써 결정되는 에너지를 나타내고, p는 사전 이득이고, S ear 는 (결정된 에너지를 인간 귀의 면적에 관련시키기 위한) 정규화 스케일링 인자이다.
공간의 확산 사운드 특성 및 지향성, 사전 이득 및 기준 거리 메타데이터에서 파생된 계산된 방출 소스 에너지를 특성화하는 DSR을 사용하여, 해당 반향 에너지가 계산될 수 있다.
DSR은 통상적으로 그의 성분 둘 모두에 의해 사용되는 동일한 기준 레벨로 결정될 수 있다. 이는 전체 방출 에너지 표시와 동일하거나 동일하지 않을 수 있다. 그럼에도 불구하고, 이러한 DSR이 전체 방출 에너지 표시와 결합될 때, 결과적인 반향 에너지는 또한, 상기 적분에 의해 결정된 전체 방출 에너지가 사용될 때, 오디오 신호에서 전체 규모 샘플에 대해 정규화된 에너지로 표현된다. 즉, 고려되는 모든 에너지는, 레벨 조정을 요구하지 않으면서 직접 결합될 수 있도록, 본질적으로 동일한 기준 레벨로 정규화된다. 구체적으로, 결정된 전체 방출 에너지는 DSR과 직접 사용되어 각각의 소스로부터 생성된 확산 반향에 대한 레벨 표시를 생성할 수 있으며, 여기서 레벨 표시는 다른 오디오 소스에 대한 확산 반향 및 개별 경로 신호 성분에 대한 적절한 레벨을 직접 나타낸다.
특정 예로서, 상이한 소스에 대한 확산 반향 신호 성분에 대한 상대적 신호 레벨은 DSR에 전체 방출 에너지 표시를 곱함으로써 직접 획득될 수 있다.
설명된 시스템에서, 확산 반향 신호에 대한 상이한 오디오 소스의 기여의 조정은 다운믹스 신호를 생성하는 데 사용되는 다운믹스 계수를 조정함으로써 적어도 부분적으로 수행된다. 따라서, 다운믹스 계수는 각각의 오디오 소스로부터의 확산 사운드의 상대적 기여/에너지 레벨이 소스에 대한 결정된 확산 반향 에너지를 반영하도록 생성될 수 있다.
특정 예로서, DSR이 초기 진폭 레벨을 나타내는 경우, 다운믹스 계수는 DSR에 전체 방출 에너지 표시를 곱한 것에 비례(또는 동일)하도록 결정될 수 있다. DSR이 에너지 레벨을 나타내는 경우, 다운믹스 계수는 DSR의 제곱근에 전체 방출 에너지 표시를 곱한 것에 비례(또는 동일)하도록 결정될 수 있다.
특정 예로서, 복수의 입력 신호의 인덱스(x)를 갖는 신호에 대한 적절한 조정을 제공하기 위해 다운믹스 계수(d x )는 다음에 의해 계산될 수 있다:
Figure pct00015
여기서, p는 사전 이득을 나타내고,
Figure pct00016
는 사전 이득 이전 신호 x에 대한 정규화된 방출 소스 에너지를 나타낸다. DSR은 확산 반향 에너지 대 방출 소스 에너지의 비율을 나타낸다. 다운믹스 계수(d x )가 입력 신호(x)에 적용될 때, 결과 신호는, 단위 에너지의 반향 응답을 갖는 반향기에 의해 필터링될 때, 신호(x)의 직접 경로 렌더링 및 다른 소스(
Figure pct00017
)의 직접 경로 및 확산 반향 에너지와 관련하여 신호(x)에 대한 정확한 확산 반향 에너지를 제공하는 신호 레벨을 나타낸다.
대안적으로, 다운믹스 계수(d x )는 다음에 따라 계산될 수 있다:
Figure pct00018
여기서,
Figure pct00019
는 신호(x)에 대한 정규화된 방출 소스 에너지를 나타내고, DSR은 확산 반향 에너지 대 초기 반향 응답 진폭의 비율을 나타낸다. 다운믹스 계수(d x )가 입력 신호(x)에 적용될 때,결과 신호는 확산 반향 신호의 초기 레벨에 대응하는 신호 레벨을 나타내고, 진폭 1로 시작하는 반향 응답을 갖는 반향기에 의해 처리될 수 있다. 그 결과, 반향기의 출력은 신호(x)의 직접 경로 렌더링 및 다른 소스(
Figure pct00020
)의 직접 경로 및 확산 반향 에너지와 관련하여 신호(x)에 대한 정확한 확산 반향 에너지를 제공한다 .
많은 실시예에서, 다운믹스 계수는 DSR을 전체 방출 에너지 표시와 조합함으로써 부분적으로 결정된다. DSR이 전체 방출 에너지 대 확산 반향 에너지의 관계를 나타내든 확산 반향 응답에 대한 초기 진폭을 나타내든 간에, 다운믹스 계수의 추가 적응은 반향 프로세서의 출력이 원하는 에너지 또는 초기 진폭을 반영하도록 신호를 스케일링하는 데 사용되는 특정 반향기 알고리즘에 적응하는 데 종종 필요하다. 예를 들어, 반향 알고리즘에서의 반사의 밀도는, 입력 레벨이 동일하게 유지되는 동안, 생성된 반향 에너지에 강한 영향을 미친다. 다른 예로서, 반향 알고리즘의 초기 진폭은 그것의 여기의 진폭과 동일하지 않을 수 있다. 따라서, 알고리즘 특정, 또는 알고리즘 및 구성 특정 조정이 필요할 수 있다. 이는 다운믹스 계수에 포함될 수 있고 통상적으로 모든 소스에 공통이다. 일부 실시예에 대해, 이러한 조정은 다운믹스에 적용되거나 또는 반향기 알고리즘에 포함될 수 있다.
다운믹스 계수가 생성되면, 다운믹스 프로세서(509)는 예를 들어 직접 가중 조합 또는 합산에 의해 다운믹스 신호를 생성할 수 있다.
설명된 접근법의 이점은 종래의 반향기를 사용할 수 있다는 것이다. 예를 들어, 반향기(407)는 예를 들어 표준 Jot 반향기에서 구현되는 것과 같은 피드백 지연 네트워크에 의해 구현될 수 있다.
도 7에 도시된 바와 같이, 피드백 지연 네트워크의 원리는 상이한 지연을 갖는 하나 이상의 (통상적으로 하나 초과의) 피드백 루프를 사용한다. 입력 신호(현재의 경우 다운믹스 신호)는 신호가 적절한 피드백 이득으로 피드백되는 루프에 공급된다. 루프에서 신호를 결합함으로써 출력 신호가 추출된다. 따라서, 신호는 상이한 지연으로 연속적으로 반복된다. 상호 소수인 지연을 사용하고 루프 간에 신호를 혼합하는 피드백 매트릭스를 가지면 실제 공간에서 반향과 유사한 패턴을 생성할 수 있다.
피드백 매트릭스에서 요소의 절대값은 안정적인 감쇠 임펄스 응답을 달성하기 위해 1보다 작아야 한다. 많은 구현예에서, 추가 이득 또는 필터가 루프에 포함된다. 이러한 필터는 매트릭스 대신 감쇠를 제어할 수 있다. 필터를 사용하면 감쇠 응답이 상이한 주파수에 대해 상이할 수 있다는 이점이 있다.
반향기의 출력이 바이노럴로 렌더링되는 일부 실시예에서, 추정된 반향은 왼쪽 및 오른쪽 채널 반향 신호를 생성하기 위해 각각 왼쪽 및 오른쪽 귀에 대한 평균 HRTF(머리 관련 전달 함수)에 의해 필터링될 수 있다. HRTF가 사용자 주위의 구에서 균일하게 이격된 간격으로 하나 초과의 거리에 이용 가능할 때, 좌측 및 우측 귀에 대한 평균 HRTF가 가장 큰 거리를 갖는 HRTF의 세트를 사용하여 생성됨을 이해할 수 있다. 평균 HRTF를 사용하면, 반향이 등방성이고 모든 방향에서 발생한다는 고려사항을 기반으로/반영할 수 있다. 따라서, 주어진 방향에 대해 한 쌍의 HRTF를 포함하기보다는, 모든 HRTF에 대한 평균이 사용될 수 있다. 평균화는 왼쪽 귀에 대해 한 번 및 오른쪽 귀에 대해 한 번 수행될 수 있고, 결과 필터는 바이노럴 렌더링을 위한 반향기의 출력을 처리하는 데 사용될 수 있다.
일부 경우에 반향기 자체가 입력 신호의 착색을 도입하여, DSR에 의해 설명된 바와 같이 원하는 출력 확산 신호 에너지를 갖지 않는 출력으로 이어질 수 있다. 따라서, 이 프로세스의 효과도 역시 등화될 수 있다. 이 등화는 반향기 동작의 주파수 응답의 역으로서 분석적으로 결정되는 필터에 기초하여 수행될 수 있다. 일부 실시예에서, 전달 함수는 선형 회귀, 라인 피팅 등과 같은 기계 추정 학습 기술을 사용하여 추정될 수 있다.
일부 실시예에서, 동일한 접근법이 전체 주파수 대역에 균일하게 적용될 수 있다. 그러나, 다른 실시예에서, 주파수 의존 처리가 수행될 수 있다. 예를 들어, 제공된 메타데이터 파라미터 중 하나 이상은 주파수 의존적일 수 있다. 이러한 예에서, 장치는 주파수 의존성에 대응하는 상이한 주파수 대역으로 신호를 분할하도록 배열될 수 있고, 상술된 바와 같은 처리는 각각의 주파수 대역에서 개별적으로 수행될 수 있다.
구체적으로, 일부 실시예에서, 확산 반향 신호 대 전체 신호 비율(DSR)은 주파수 의존적이다. 예를 들어, 상이한 DSR 값이 개별 주파수 대역/빈 범위에 대해 제공될 수 있거나, DSR은 주파수의 함수로서 제공될 수 있다. 이러한 실시예에서, 장치는 DSR의 주파수 의존성을 반영하는 주파수 의존적 다운믹스 계수를 생성하도록 배열될 수 있다. 예를 들어, 개별 주파수 대역에 대한 다운믹스 계수가 생성될 수 있다. 유사하게, 주파수 의존적 다운믹스 및 확산 반향 신호가 결과적으로 생성될 수 있다.
주파수 의존적 DSR의 경우, 다운믹스 계수는 다른 실시예에서 다운믹스의 생성의 일부로서 오디오 신호를 필터링하는 필터에 의해 보완될 수 있다. 다른 예로서, DSR 효과는, 예를 들어, 주파수 의존적 필터를 다운믹스에 적용함으로써, 다운믹스에 적용될 다운믹스 신호 및 주파수 의존적 성분을 생성할 때, 개별 오디오 신호를 스케일링하는 데 사용되는 주파수 독립적인 다운믹스 계수를 생성하는 데 사용되는 주파수 독립적 (광대역) 성분으로 분리될 수 있다. 일부 실시예에서, 이러한 필터는, 예를 들어, 반향기 알고리즘의 일부로서 추가의 착색 필터와 조합될 수 있다. 도 7은 상관(u, v) 및 착색(hL, hR) 필터를 사용한 일례를 도시한다. 이는 특히, Jot 반향기로 알려진, 바이노럴 출력을 위한 피드백 지연 네트워크이다.
따라서, 일부 실시예에서, DSR은 주파수 의존적 성분 부분 및 비-주파수 의존적 성분 부분을 포함할 수 있고, 계수 프로세서(507)는 비-주파수 의존적 성분 부분에 의존하여 (및 주파수 의존적 부분과 독립적으로) 다운믹스 계수를 생성하도록 배열될 수 있다. 그 다음, 다운믹스의 처리는 주파수 의존적 성분 부분에 기초하여 적응될 수 있으며, 즉, 반향기는 주파수 의존적 부분에 따라 적응될 수 있다.
일부 실시예에서, 하나 이상의 오디오 소스로부터의 사운드 방사의 지향성은 주파수 의존적일 수 있고, 이러한 시나리오에서 에너지 프로세서(505)는, (주파수 의존적 또는 독립적일 수 있는) DSR과 조합될 때, 주파수 의존적 다운믹스 계수를 초래할 수 있는 주파수 의존적 전체 방출 에너지를 생성하도록 배열될 수 있다.
이는 예를 들어 개별 주파수 대역에서 개별 처리를 수행함으로써 달성될 수 있다. 주파수 의존적 DSR에 대한 처리와 대조적으로, 지향성에 대한 주파수 의존성은 통상적으로 다운믹스 신호의 생성 전에 (또는 그의 일부로) 수행되어야 한다. 이는 주파수 의존적 다운믹스 통상적으로, 이들이 통상적으로 상이한 소스에 대해 상이하기 때문에, 지향성의 주파수 의존적 효과를 포함하는 데 요구된다는 것을 반영한다 적분 후, 순수한 효과는 주파수에 걸쳐 유의한 변화를 가지며, 즉, 주어진 소스에 대한 전체 방출 에너지 표시는 이것이 상이한 소스에 대해 상이함을 활용하여 실질적인 주파수 의존성을 가질 수 있다. 따라서, 상이한 소스가 통상적으로 상이한 지향성 패턴을 갖기 때문에, 상이한 소스에 대한 전체 방출 에너지 표시는 또한 통상적으로 상이한 주파수 의존성을 갖는다.
가능한 접근법의 특정 예가 다음과 같이 설명될 것이다. 공간의 확산 사운드 특성을 특성화하고, 지향성, 사전 이득 및 기준 거리 메타데이터로부터 방출 소스 에너지를 결정하는 DSR을 제공하는 것은 대응하는 원하는 반향 에너지가 계산될 수 있게 한다. 예를 들어, 이는 다음과 같이 결정될 수 있다:
Figure pct00021
DSR을 계산하기 위한 성분이 (예: 신호의 전체 규모와 관련되는) 동일한 기준 레벨을 사용하는 경우, 결과적인 반향 에너지는 또한, PCM 신호의 전체 규모 샘플에 대해 정규화된 에너지일 것이고, 방출 소스 에너지에 대해 위에서 계산된 바와 같은 E norm 를 사용할 때, 따라서 사용된 신호 표현에서 정확한 레벨의 반향을 제공하기 위해 대응하는 입력 신호에 적용될 수 있는 확산 반향에 대한 임펄스 응답(IR)의 에너지에 대응한다.
이러한 에너지 값은 반향 알고리즘, 반향 알고리즘 이전에 다운믹스 계수 또는 다운믹스 필터의 구성 파라미터를 결정하는 데 사용될 수 있다.
반향을 생성하기 위한 상이한 방법이 있다. Jot 반향기와 같은 피드백 지연 네트워크(FDN) 기반 알고리즘은 낮은 복잡성 접근법에 적합하다. 대안적으로, 노이즈 시퀀스는 적절한 (주파수 의존적) 감쇠 및 스펙트럼 모양을 갖도록 형성될 수 있다. 두 실시예에서, (적어도 적절한 T60을 갖는) 프로토타입 IR은 그의 (주파수 의존적) 레벨이 보정되도록 조정될 수 있다.
반향기 알고리즘은 단위 에너지를 갖는 임펄스 응답을 생성하도록 조정될 수 있거나 (또는 DSR의 단위 초기 진폭은 초기 진폭과 관련될 수 있음) 반향기 알고리즘은, 예를 들어 Jot 반향기의 착색 필터에서 자체의 보상을 포함할 수 있다. 대안적으로, 다운믹스는 (잠재적으로 주파수 의존적) 조정으로 수정될 수 있거나, 계수 프로세서(507)에 의해 생성된 다운믹스 계수가 수정될 수 있다.
상기 보상은, 임의의 이러한 조정 없이, 그러나 (적절한 반향 시간(T60) 및 반사 밀도(예: FDN에서의 지연 값)와 같은) 다른 구성 모두를 적용하여 임펄스 응답을 생성하고 해당 IR의 에너지를 측정함으로써 결정될 수 있다.
Figure pct00022
상기 보상은 해당 에너지의 역일 수 있다. 다운믹스 계수에 포함시키기 위해, 제곱근이 통상적으로 적용된다. 예를 들어 다음과 같다:
Figure pct00023
많은 다른 실시예에서, 상기 보상은 구성 파라미터로부터 도출될 수 있다. 예를 들어, DSR이 초기 반향 진폭에 상대적인 경우, 제1 반사는 그 구성으로부터 도출될 수 있다. 상관 필터는 정의에 의해 에너지 보존이며, 착색 필터도 그렇게 설계될 수 있다.
착색 필터에 의한 순 부스트 또는 감쇠가 없다고 가정하면, 반향기는 예를 들어 T60 및 최소 지연 값(minDelay)에 의존하는 초기 진폭(A 0)을 초래할 수 있다:
Figure pct00024
반향 에너지를 예측하는 것은 또한 경험적으로 수행될 수 있다.
확산 반향 에너지에 대한 일반적인 모델로, 지수 함수 A(t)가 고려될 수 있다:
Figure pct00025
Figure pct00026
의 경우. 이때 α는 T60으로 제어되는 감쇠 인자이고, A 0는 사전 지연에서의 진폭임.
이와 같은 함수의 누적 에너지를 계산하면, 일부 최종 에너지 값에 점근적으로 접근할 것이다. 최종 에너지 값은 T60과 거의 완벽하게 선형 관계를 갖는다.
선형 관계의 인자는 함수 A의 희박성(모든 2번째 값을 0으로 설정하면 에너지의 약 절반이 발생함), 초기 값 A 0 (에너지는
Figure pct00027
에 따라 선형으로 스케일링됨) 및 샘플 속도(fs 변화에 따라 선형으로 스케일링됨)에 의존한다. 확산 꼬리는 T60, 반사 밀도(FDN 지연으로부터 파생) 및 샘플 속도를 사용하여 이러한 함수로 신뢰성 있게 모델링될 수 있다. 상기 모델에 대한 A 0은, FDN의 것과 동일하도록 상기 도시된 바와 같이 계산될 수 있다.
0.1~2초 범위에서 광대역 T60 값으로 다수의 파라미터 반향을 생성할 때, IR의 에너지는 상기 모델과 선형에 가깝다. 실제 에너지와 지수 방정식 모델 평균 사이의 스케일 인자는 FDN 응답의 희박성에 의해 결정된다. 이 희박성은 IR의 종료 쪽으로 갈수록 줄어들지만 시작에 대부분의 영향을 미친다. 다수의 구성의 지연 값을 이용한 상기를 테스트한 것에서, 모델 감소 인자와 FDN에서 구성된 지연 간의 최소 차이 사이에 거의 선형 관계가 존재한다는 것이 발견되었다.
예를 들어, Jot 반향기의 특정 구현예에 대해, 이것은 다음과 같이 계산된 스케일인자(SF)에 해당할 수 있다:
Figure pct00028
모델의 에너지는 t=0에서 무한대까지 적분함으로써 계산된다. 이는 분석적으로 수행될 수 있고, 결과는 다음과 같다:
Figure pct00029
상기를 조합하면, 반향 에너지에 대한 다음의 예측을 얻는다.
Figure pct00030
위의 설명은 명료함을 위해 상이한 기능 회로, 유닛 및 프로세서를 참조하여 본 발명의 실시예를 설명하였음을 인식할 것이다. 그러나, 본 발명으로부터 벗어남이 없이 상이한 기능 회로, 유닛 또는 프로세서 간의 기능의 임의의 적합한 분산이 사용될 수 있음이 명백할 것이다. 예를 들어, 별개의 프로세서 또는 제어기에 의해 수행되도록 예시된 기능이 동일한 프로세서 또는 제어기에 의해 수행될 수 있다. 따라서, 특정 기능 유닛 또는 회로에 대한 언급은 오로지 엄격한 논리적 또는 물리적 구조 또는 조직을 나타내기보다는 설명된 기능을 제공하기 위한 적합한 수단에 대한 언급으로 간주되어야 한다.
본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합을 포함한 임의의 적합한 형태로 구현될 수 있다. 본 발명은 선택적으로 하나 이상의 데이터 프로세서 및/또는 디지털 신호 프로세서 상에서 실행되는 컴퓨터 소프트웨어로서 적어도 부분적으로 구현될 수 있다. 본 발명의 실시예의 요소 및 구성요소는 임의의 적합한 방식으로 물리적으로, 기능적으로 그리고 논리적으로 구현될 수 있다. 실제로 기능은 단일 유닛에서, 복수의 유닛에서, 또는 다른 기능 유닛의 일부로서 구현될 수 있다. 그렇기 때문에, 본 발명은 단일 유닛에서 구현될 수 있거나, 상이한 유닛, 회로 및 프로세서 간에 물리적으로 그리고 기능적으로 분산될 수 있다.
본 발명이 몇몇 실시예과 관련하여 설명되었지만, 본 발명은 본 명세서에 기재된 특정 형태로 제한되도록 의도되지 않는다. 오히려, 본 발명의 범위는 첨부된 청구범위에 의해서만 제한된다. 또한, 소정 특징이 특정 실시예과 관련하여 설명되는 것처럼 보일 수 있지만, 당업자는 설명된 실시예의 다양한 특징이 본 발명에 따라 조합될 수 있음을 인식할 것이다. 청구범위에서, 용어 '포함하는'은 다른 요소 또는 단계의 존재를 배제하지 않는다.
또한, 개별적으로 열거되지만, 복수의 수단, 요소, 회로 또는 방법 단계는 예를 들어 단일 회로, 유닛 또는 프로세서에 의해 구현될 수 있다. 또한, 개개의 특징이 상이한 청구범위에 포함될 수 있지만, 이들은 아마도 유리하게 조합될 수 있으며, 상이한 청구범위에의 포함은 특징의 조합이 실현 가능하지 않고/않거나 유리하지 않다는 것을 암시하지 않는다. 또한 하나의 카테고리의 청구범위에의 소정 특징의 포함은 이 카테고리로의 제한을 암시하는 것이 아니라, 오히려 그 특징이 적절한 바에 따라 다른 청구범위 카테고리에 동등하게 적용될 수 있음을 나타낸다. 또한, 청구범위에서의 특징의 순서는 특징이 작용되어야 하는 임의의 특정 순서를 암시하지 않으며, 특히 방법 청구항에서의 개별 단계의 순서는 단계가 이 순서대로 수행되어야 함을 암시하지 않는다. 오히려, 단계는 임의의 적합한 순서로 수행될 수 있다. 또한, 단수형 언급은 복수를 배제하지 않는다. 이에 따라 "단수표현(a, an)", "제1", "제2" 등에 대한 언급은 복수를 배제하지 않는다. 청구범위에서의 참조 부호는 단지 명료화 예로서 제공되며, 어떤 방식으로도 청구범위의 범주를 제한하는 것으로 해석되지 않아야 한다.

Claims (16)

  1. 환경에 대한 확산 반향 신호를 생성하기 위한 오디오 장치로서,
    상기 환경 내의 사운드 소스들을 표현하는 복수의 오디오 신호를 수신하도록 배열된 수신기(501);
    상기 복수의 오디오 신호에 대한 메타데이터를 수신하도록 배열된 메타데이터 수신기로서, 상기 메타데이터는:
    상기 환경 내의 전체 방출 사운드에 대한 확산 반향 사운드의 레벨을 나타내는 확산 반향 신호 대 전체 신호 관계 측정치,
    및 각각의 오디오 신호에 대해,
    신호 레벨 표시;
    상기 오디오 신호에 의해 표현되는 상기 사운드 소스로부터의 사운드 방사의 지향성을 나타내는 지향성 데이터를 포함하는, 메타데이터 수신기(501);
    상기 복수의 오디오 신호 각각에 대해,
    상기 신호 레벨 표시 및 상기 지향성 데이터에 기초한 전체 방출 에너지 표시, 및
    상기 전체 방출 에너지 및 상기 확산 반향 신호 대 전체 신호 관계에 기초한 다운믹스 계수를 결정하도록 배열된 회로(505, 507);
    각각의 오디오 신호에 대한 상기 다운믹스 계수를 상기 오디오 신호에 적용함으로써 생성된 각각의 오디오 신호의 신호 성분들을 조합함으로써 다운믹스 신호를 생성하도록 배열된 다운믹서(509);
    상기 다운믹스 신호 성분으로부터 상기 환경에 대한 상기 확산 반향 신호를 생성하기 위한 반향기(407)를 포함하는, 오디오 장치.
  2. 제1항에 있어서, 상기 사운드 방사의 지향성은 주파수 의존적이고, 상기 회로는 주파수 의존적 전체 방출 에너지 및 주파수 의존적 다운믹스 계수를 결정하도록 배열되는, 오디오 장치.
  3. 제1항 또는 제2항에 있어서, 상기 확산 반향 신호 대 전체 신호 관계는 주파수 의존적이고, 상기 회로(505, 507)는 주파수 의존적 다운믹스 계수를 결정하도록 배열되는, 오디오 장치.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 확산 반향 신호 대 전체 신호 관계는 주파수 의존적 부분 및 비-주파수 의존적 부분을 포함하고, 상기 회로(505, 507)는 상기 비-주파수 의존적 부분에 따라 상기 다운믹스 계수를 결정하고 상기 주파수 의존적 부분에 따라 상기 반향기(407)를 적응시키도록 배열되는, 오디오 장치.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 회로는, 제1 오디오 신호에 의해 표현되는 상기 사운드 소스의 지향성 패턴을 적분함으로써 결정된 값에 의한 상기 제1 오디오 신호에 대한 상기 신호 레벨 표시의 스케일링에 응답하여, 상기 복수의 오디오 신호 중 상기 제1 오디오 신호에 대한 상기 전체 방출 에너지 표시를 결정하도록 배열되고, 상기 지향성 패턴은 지향성 데이터에 기초하여 결정되는, 오디오 장치.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 복수의 오디오 신호 중 제1 오디오 신호에 대한 상기 신호 레벨 표시는 기준 거리를 포함하고, 상기 기준 거리는 상기 제1 오디오 신호에 대한 거리 기준 이득에 대한 상기 제1 오디오 신호에 의해 표현되는 상기 오디오 소스로부터의 거리를 나타내는, 오디오 장치.
  7. 제5항에 종속항으로서 제6항에 있어서, 상기 적분은 상기 제1 오디오 신호에 의해 표현되는 상기 오디오 소스로부터의 상기 기준 거리인 거리에 대해 수행되는, 오디오 장치.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 확산 반향 신호 대 전체 신호 관계는 상기 환경 내의 전체 방출 사운드의 에너지에 대한 확산 반향 사운드의 에너지를 나타내는, 오디오 장치.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 확산 신호 대 전체 신호 관계는 상기 환경 내의 전체 방출 사운드의 에너지에 대한 확산 사운드의 초기 진폭을 나타내는, 오디오 장치.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 복수의 오디오 신호 중 제1 오디오 신호에 대해 결정된 상기 다운믹스 계수는 상기 제1 오디오 신호에 의해 표현되는 제1 오디오 소스의 위치와 독립적인, 오디오 장치.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 복수의 오디오 신호 중 제1 오디오 신호에 대해 결정된 상기 다운믹스 계수는 청취자의 위치와 독립적인, 오디오 장치.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 복수의 오디오 신호 중 제1 오디오 신호에 대한 상기 신호 레벨 표시는 상기 제1 오디오 신호에 대한 이득 표시를 더 포함하고, 상기 이득 표시는 상기 제1 오디오 신호에 의해 표현되는 제1 오디오 소스로부터 사운드를 렌더링할 때 상기 제1 오디오 신호에 적용할 이득을 나타내고, 상기 회로(505, 507)는 상기 이득 표시에 응답하여 상기 제1 오디오 신호에 대한 상기 다운믹스 계수를 결정하도록 배열되는, 오디오 장치.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 상기 제1 오디오 신호에 대한 상기 지향성 데이터 및 상기 신호 레벨 표시에 응답하여 상기 복수의 오디오 신호 중 상기 제1 오디오 신호에 대한 직접 경로 오디오 신호를 생성하도록 배열된 직접 렌더링 회로(401)를 더 포함하는, 오디오 장치.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 상기 메타데이터는 지연 표시를 더 포함하고, 상기 확산 신호 대 전체 신호 관계는 상기 환경 내의 전체 방출 사운드의 에너지에 대한 상기 지연 표시보다 긴 지연을 갖는 확산 반향 사운드의 에너지를 나타내는, 오디오 장치.
  15. 환경에 대한 확산 반향 신호를 생성하는 방법으로서,
    상기 환경 내의 사운드 소스들을 표현하는 복수의 오디오 신호를 수신하는 단계;
    상기 복수의 오디오 신호에 대한 메타데이터를 수신하는 단계로서, 상기 메타데이터는:
    상기 환경 내의 전체 방출 사운드에 대한 확산 반향 사운드의 레벨을 나타내는 확산 반향 신호 대 전체 신호 관계 측정치,
    및 각각의 오디오 신호에 대해:
    신호 레벨 표시;
    상기 오디오 신호에 의해 표현되는 상기 사운드 소스로부터의 사운드 방사의 지향성을 나타내는 지향성 데이터를 포함하는, 단계;
    상기 복수의 오디오 신호 각각에 대해:
    상기 신호 레벨 표시 및 상기 지향성 데이터에 기초한 전체 방출 에너지 표시, 및
    상기 전체 방출 에너지 및 상기 확산 반향 신호 대 전체 신호 관계에 기초한 다운믹스 계수를 결정하는 단계;
    각각의 오디오 신호에 대한 상기 다운믹스 계수를 상기 오디오 신호에 적용함으로써 생성된 상기 각각의 오디오 신호의 신호 성분들을 조합함으로써 다운믹스 신호를 생성하는 단계;
    상기 다운믹스 신호 성분으로부터 상기 환경에 대한 상기 확산 반향 신호를 생성하는 단계를 포함하는, 방법.
  16. 컴퓨터 프로그램 제품으로서, 상기 프로그램이 컴퓨터 상에서 실행될 때 제15항의 모든 단계를 수행하도록 적응된 컴퓨터 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램 제품.
KR1020237002598A 2020-06-22 2021-06-21 확산 반향 신호를 생성하기 위한 장치 및 방법 KR20230027273A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20181351.6 2020-06-22
EP20181351.6A EP3930349A1 (en) 2020-06-22 2020-06-22 Apparatus and method for generating a diffuse reverberation signal
PCT/EP2021/066763 WO2021259829A1 (en) 2020-06-22 2021-06-21 Apparatus and method for generating a diffuse reverberation signal

Publications (1)

Publication Number Publication Date
KR20230027273A true KR20230027273A (ko) 2023-02-27

Family

ID=71120061

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237002598A KR20230027273A (ko) 2020-06-22 2021-06-21 확산 반향 신호를 생성하기 위한 장치 및 방법

Country Status (9)

Country Link
US (1) US20230209302A1 (ko)
EP (2) EP3930349A1 (ko)
JP (1) JP2023530516A (ko)
KR (1) KR20230027273A (ko)
CN (1) CN115769603A (ko)
BR (1) BR112022026158A2 (ko)
CA (1) CA3187637A1 (ko)
PL (1) PL4169267T3 (ko)
WO (1) WO2021259829A1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104768121A (zh) * 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
EP3595337A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of audio processing

Also Published As

Publication number Publication date
JP2023530516A (ja) 2023-07-18
EP4169267B1 (en) 2023-12-20
CN115769603A (zh) 2023-03-07
US20230209302A1 (en) 2023-06-29
BR112022026158A2 (pt) 2023-01-17
PL4169267T3 (pl) 2024-04-29
EP4169267A1 (en) 2023-04-26
EP3930349A1 (en) 2021-12-29
EP4169267C0 (en) 2023-12-20
WO2021259829A1 (en) 2021-12-30
CA3187637A1 (en) 2021-12-30

Similar Documents

Publication Publication Date Title
Raghuvanshi et al. Parametric directional coding for precomputed sound propagation
Lentz et al. Virtual reality system with integrated sound field simulation and reproduction
WO2014091375A1 (en) Reverberation processing in an audio signal
JP4234103B2 (ja) インパルス応答を決定する装置及び方法ならびに音声を提供する装置及び方法
EP3595337A1 (en) Audio apparatus and method of audio processing
Kapralos et al. Virtual audio systems
US20210065675A1 (en) Reverberation gain normalization
EP4066236B1 (en) Apparatus and method for determining virtual sound sources
EP4072163A1 (en) Audio apparatus and method therefor
KR20230027273A (ko) 확산 반향 신호를 생성하기 위한 장치 및 방법
KR20240046581A (ko) 잔향 프로세서에 대한 파라미터 도출
EP4174846A1 (en) An audio apparatus and method of operation therefor
KR20240090970A (ko) 오디오 장치 및 이의 동작 방법
EP4210353A1 (en) An audio apparatus and method of operation therefor
Wendt et al. Perceptual and room acoustical evaluation of a computational efficient binaural room impulse response simulation method
EP4383754A1 (en) An audio apparatus and method of rendering therefor
EP4132012A1 (en) Determining virtual audio source positions
EP4383755A1 (en) An audio apparatus and method of rendering therefor
WO2024115663A1 (en) Rendering of reverberation in connected spaces
WO2024089034A2 (en) Audio signal processor and related method and computer program for generating a two-channel audio signal using a specific separation and combination processing
Vorländer Aspects of real-time processing
Pörschmann et al. AES Reviewed Paper at Tonmeistertagung 2018