KR20180108766A - 증강 현실 헤드폰 환경 렌더링 - Google Patents

증강 현실 헤드폰 환경 렌더링 Download PDF

Info

Publication number
KR20180108766A
KR20180108766A KR1020187025134A KR20187025134A KR20180108766A KR 20180108766 A KR20180108766 A KR 20180108766A KR 1020187025134 A KR1020187025134 A KR 1020187025134A KR 20187025134 A KR20187025134 A KR 20187025134A KR 20180108766 A KR20180108766 A KR 20180108766A
Authority
KR
South Korea
Prior art keywords
local
signal
reverberation
environment
information
Prior art date
Application number
KR1020187025134A
Other languages
English (en)
Other versions
KR102642275B1 (ko
Inventor
쟝-마르크 조트
근섭 이
에드워드 스타인
Original Assignee
디티에스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스, 인코포레이티드 filed Critical 디티에스, 인코포레이티드
Publication of KR20180108766A publication Critical patent/KR20180108766A/ko
Application granted granted Critical
Publication of KR102642275B1 publication Critical patent/KR102642275B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

음향 잔향의 정확한 모델링은 참가자에게 사실적인 가상 현실 또는 증강 현실 경험을 생성하고 제공하는 데 필수적일 수 있다. 예를 들어, 헤드폰을 사용한 재생을 위한 잔향 신호가 제공될 수 있다. 잔향 신호는 로컬 청취자 환경 내의 특정 위치에서 발생하는 가상 음원 신호에 대응할 수 있다. 잔향 신호를 제공하는 것은, 무엇보다도, 기준 환경으로부터의 기준 임펄스 응답에 관한 정보를 사용하는 것, 및 참가자의 로컬 환경에서의 잔향 감쇠에 관한 특성 정보를 사용하는 것을 포함할 수 있다. 잔향 신호를 제공하는 것은 기준 환경의 볼륨과 참가자의 로컬 환경의 볼륨 사이의 관계에 관한 정보를 사용하는 것을 더 포함할 수 있다.

Description

증강 현실 헤드폰 환경 렌더링
이 국제출원은 2016년 2월 2일자로 출원된 미국 특허 출원 제62/290,394호 및 2016년 9월 16일자로 출원된 미국 특허 출원 제62/395,882호에 대한 우선권의 이익을 주장하며, 각각은 여기서 그 전체가 참조로 포함된다.
오디오 신호 재생은 단순한 스테레오 또는 듀얼 채널, 구성 또는 시스템 이상으로 진화했다. 예를 들어, 5.1 서라운드 사운드와 같은 서라운드 사운드 시스템은 가정과 상업 시설에서 일반적으로 사용된다. 이러한 시스템은 예상 청취자에 대한 다양한 위치에서 스피커를 사용하고, 청취자에게 종래의 스테레오 구성으로부터 이용 가능한 것보다 더 몰입하는 경험을 제공하도록 구성된다.
일부 오디오 신호 재생 스템은 3차원 오디오, 즉 3D 오디오를 제공하도록 구성된다. 3D 오디오에서, 사운드는 스테레오 스피커, 서라운드-사운드 스피커, 스피커-어레이 또는 헤드폰 또는 이어폰에 의해 생성되며, 청취자가 청각적으로 인지 하는 실제 또는 이론적인 3차원 공간에서의 음원의 가상 배치를 수반하거나 포함할 수 있다. 예를 들어 가상화된 사운드는 3D 오디오-처리 사운드를 듣는 청취자의 위, 아래 또는 심지어 뒤에서 제공될 수 있다.
헤드폰을 통한 종래의 스테레오 오디오 재생은 청취자의 머리 안쪽에서 발생하거나 발산되는 것으로 인식되는 사운드를 제공하는 경향이 있다. 예를 들어, 종래의 스테레오 스피커 드라이버의 쌍을 사용하는 것을 포함하여, 헤드폰에 의해 전달되는 오디오 신호는 특별히 처리되어, 인지된 공간적 사운드 환경을 청취자에게 제공하는 것과 같은 3D 오디오 효과를 얻을 수 있다. 3D 오디오 헤드폰 시스템은 실제 음원이 존재하지 않는 로컬 또는 가상 환경 내의 특정 위치에서 음원의 인식을 청취자에게 제공하는 것과 같이 가상 현실 애플리케이션에 대해 사용될 수 있다. 예를 들어, 3D 오디오 헤드폰 시스템은 실제 음원이 존재하지 않는 위치에서 음원의 인식을 청취자에게 제공하는 것과 같이 증강 현실 애플리케이션에 대해, 그리고 청취자가 로컬 환경에서 하나 이상의 실제 사운드를 적어도 부분적으로 계속 인식하는 방식으로 사용될 수 있다.
이 요약은 아래의 상세한 설명에서 더 자세히 설명되는 단순한 형태의 개념의 선택을 소개하기 위해 제공된다. 이 요약은 특허청구된 대상(subject matter)의 주요 특징이나 필수적인 특징을 식별하기 위한 것이 아니며 특허청구된 대상의 범위를 어떤 식으로든 제한하는 데 사용되려는 의도가 아니다.
가상 현실(virtual reality, VR) 또는 증강 현실(augmented reality, AR)에 대한 컴퓨터 생성 오디오 렌더링은 컴퓨터 음악 및 아키텍처 음향 분야에서 종래의 개발로부터 연장되고 종래의 개발을 기반으로 하는 것과 같이, 게임 및 가상 현실 오디오 렌더링 시스템의 신호 처리 기술 개발 및 애플리케이션 프로그래밍 인터페이스를 활용할 수 있다.
다양한 바이노럴(binaural) 기법, 인공 잔향(artificial reverberation), 물리적 룸 음향 모델링 및 가청화(auralization) 기법을 적용하여 사용자에게 향상된 청취 경험을 제공할 수 있다. 예를 들어, VR 또는 AR 오디오는 헤드폰이나 이어폰을 통해 청취자에게 전달될 수 있다. VR 또는 AR 신호 처리 시스템은 청취자가 헤드폰 또는 청취자 머리 안쪽의 위치로부터가 아니라 로컬 환경 내의 외부 소스로부터 나오는 것으로 인식되도록 사운드를 재생하도록 구성될 수 있다.
VR 3D 오디오와 비교하여, AR 오디오는 로컬 청취자 환경의 음향과 실질적으로 일치하는 소스-환경 상호 작용 및 시뮬레이션된 환경 음향을 제공하는 것과 같이, 참가자의 불신을 중단하도록 격려하는 추가적인 어려움을 포함한다. 즉, 본 발명자는, 해결해야 할 문제로서, 신호가 사용자의 환경을 포함하거나 나타내는 방식으로 그리고 신호가 자연스럽게 발생하는 다른 사운드 또는 환경 내의 스피커를 통해 재생되는 다른 사운드와 용이하게 구별할 수 없도록, 가상의 또는 추가된 신호에 대하여 오디오 신호 처리를 제공하는 것을 포함한다고 인식하였다. 예를 들어 물리적으로 존재하는 음원의 "이중(double)"을 시뮬레이션하도록 구성된 가상 음원의 렌더링을 포함할 수 있다. 예는 실제 연주자 및 동일한 악기를 연주하는 가상 연주자 사이의 듀엣 또는 주어진 환경에서 실제 캐릭터 및 그/그녀의 "가상 쌍둥이" 사이의 대화를 포함할 수 있다.
예를 들어, 가상 음장(sound field)에서 정확한 음원을 제공하는 문제에 대한 해결책은 주어진 청취 환경에 대한 잔향 감쇠 시간, 잔향 음량(loudness) 특성 및/또는 잔향 이퀄라이징 특성(예를 들어, 잔향의 스펙트럼 콘텐츠)을 매칭 및 적용하는 것을 포함할 수 있다. 본 발명자들은 추가적인 해결책이 환경에 관한 물리적 또는 기하학적 데이터로부터 계산된 임펄스 응답 또는 측정된 바이노럴 룸 임펄스 응답(binaural room impulse respose, BRIR)을 포함하거나 사용할 수 있음을 인식하였다. 예를 들어, 상기 해결책은 다중 주파수 대역에서와 같은 환경에서 잔향 시간을 측정하는 것을 포함하거나 사용할 수 있고, 환경(또는 룸) 볼륨에 관한 정보를 더 포함하거나 사용할 수 있다.
시청각(audio-visual) 증강 현실 애플리케이션에서, 컴퓨터 생성 오디오 객체는 청각적으로 투명한 헤드폰을 통해 렌더링되어, 시청자(viewer)/청취자에게 자연스럽게 들리는 물리적 환경과 블렌딩(blend)된다. 이러한 블렌딩은 로컬 환경 음향에 매칭(matching)시키거나 근사(approximate)시키기 위해 바이노럴 인공 잔향 처리를 포함하거나 사용할 수 있다. 인공 오디오 객체가 적절히 처리될 때, 청취자는 오디오 객체를, 자연적으로 발생되는 다른 사운드 또는 환경 내의 스피커를 통해 재생되는 다른 사운드와 식별할 수 없을 수도 있다.
소비자 환경에서 바이노럴 룸 임펄스 응답의 측정 또는 계산을 수반하는 접근법이 실제적인 장애물 및 복잡성에 의해 제한될 수 있다. 본 발명자들은 상기 문제점에 대한 해결책이 환경을 특징짓는데 사용될 수 있는 콤팩트한 잔향 핑거프린트(reverberation fingerprint)를 가능하게 하는 통계적 잔향 모델을 사용하는 것을 포함할 수 있다는 것을 인식하였다. 이 해결책은 다수의 가상 음원에 대해 계산적으로 효율적인 데이터 기반 잔향 렌더링을 더 포함하거나 사용할 수 있다. 이 해결책은 음악, 영화 또는 게임 사운드 트랙, 내비게이션 가이드, 경고 또는 기타 오디오 신호 컨텐츠의 자연스러운 사운드의 외부화된(externalized) 가상 3D 오디오 재생을 용이하게 하기 위해, 예를 들어 헤드폰 기반 "오디오-증강 현실"에 적용될 수 있다.
대안적인 실시 예가 가능하고, 본 명세서에서 논의된 단계 및 요소는 특정 실시 예에 따라 변경, 추가 또는 제거될 수 있음에 유의해야 한다. 이러한 대안적인 실시 예는 본 발명의 범위를 벗어나지 않고 사용될 수 있는 대안적인 단계 및 대안적인 요소 및 행해질 수 있는 구조적 변경을 포함할 수 있다.
이제 도면을 참조하면, 유사한 참조 번호는 전체에 걸쳐 대응하는 부분을 나타낸다:
도 1은 가상 음원 렌더링을 위한 신호 처리 및 재생 시스템의 일례를 일반적으로 도시한다.
도 2는 룸 임펄스 응답 모델의 분해(decomposition)를 도시하는 차트의 예를 일반적으로 도시한다.
도 3은 제1 음원, 가상 소스 및 청취자를 포함하는 예를 일반적으로 도시한다.
도 4a는 측정된 EDR의 예를 일반적으로 도시한다.
도 4b는 측정된 EDR 및 다중 주파수 의존 잔향 곡선의 예를 일반적으로 도시한다.
도 5a는 모델링된 EDR의 예를 일반적으로 도시한다.
도 5b는 도 5a의 잔향 곡선에 대응하는 외삽 곡선을 일반적으로 도시한다.
도 6a는 기준 환경에 대응하는 임펄스 응답의 예를 일반적으로 도시한다.
도 6b는 청취자 환경에 대응하는 임펄스 응답의 예를 일반적으로 도시한다.
도 6c는 청취자 환경에 대응하는 제1 합성된 임펄스 응답의 예를 일반적으로 도시한다.
도 6d는 수정된 초기(early) 반사 특성을 갖는, 제1 합성된 임펄스 응답에 기초한, 제2 합성 임펄스 응답의 예를 일반적으로 도시한다.
도 7은 로컬 청취자 환경에서 청취자를 위한 헤드폰 오디오 신호를 제공하는 것을 포함하는 방법의 예를 일반적으로 도시하고, 헤드폰 오디오 신호는 다이렉트(direct) 오디오 신호 및 잔향 신호 성분을 포함한다.
도 8은 가상 음원에 대한 잔향 신호를 생성하는 것을 포함하는 방법의 예를 일반적으로 도시한다.
도 9는 머신 판독 가능 매체(예를 들어, 머신 판독 가능 저장 매체)로부터 명령어들을 판독하고 본 명세서에서 논의된 임의의 하나 이상의 방법을 수행할 수 있는, 일부 예시적인 실시 예에 따른 머신의 컴포넌트를 나타내는 블록도이다.
헤드폰을 통한 재생과 같은 환경 렌더링 및 오디오 신호 처리의 예를 포함하는 다음의 설명에서, 첨부 도면을 참조한다. 도면은 시스템 및 방법의 실시 예가 어떻게 실행될 수 있는지의 구체적인 예를 예시로 보여준다. 특허청구된 대상의 범위를 벗어나지 않고 다른 실시 예가 사용될 수 있고 구조적 변경이 이루어질 수 있음을 이해해야 한다.
본 발명자는 무엇보다도 가상 현실(VR) 및 증강 현실(AR) 시스템에서 지각 적으로 그럴듯한 로컬 오디오 환경 잔향 모델링을 제공하는 중요성을 인식해왔다. 다음의 논의는 무엇보다도 3D 오디오 렌더링 알고리즘을 확장하여 로컬 환경 음향과 충실하게 매칭시키거나 근사시키기 위한 실질적이고 효율적인 접근법을 포함한다. 로컬 환경 음향에 매칭시키거나 근사시키는 것은 로컬 환경 룸 볼륨에 관한 정보를 사용하는 것, 로컬 환경에서 하나 이상의 소스의 고유 속성에 관한 정보를 사용하는 것, 및/또는 로컬 환경에서의 잔향 특성에 관한 측정된 정보를 사용하는 것을 포함할 수 있다.
AR 시스템과 같은 예에서 자연스러운 사운드의 외부화된 3D 오디오 재생은 로컬 환경 음향에 매칭시키거나 근사시키는데 도움이 되는 바이노럴 인공 잔향 처리를 사용할 수 있다. 환경 매칭이 제대로 수행되면, 환경 매칭은 처리된 사운드가 자연스럽게 발생하는 사운드 또는 환경 내의 라우드 스피커를 통해 재생되는 사운드와 구별되지 않는 청취 경험을 만들어낸다. 예를 들어, 인공 잔향 처리로 오디오 콘텐츠를 렌더링하기 위한 일부 신호 처리 기술에는 바이노럴 룸 임펄스 응답의 측정 또는 계산이 포함되거나 사용된다. 예를 들어, 신호 처리 기술은 로컬 환경을 특징짓고 계산적으로 효율적인 인공 잔향을 제공하기 위해 "잔향 핑거프린트"를 포함하는 통계적 잔향 모델을 포함하거나 사용할 수 있다. 예를 들어, 기술은 컴퓨터 생성 오디오 객체가 청각적으로 투명한 헤드폰을 통해 렌더링되어 시청자 또는 청취자가 자연적으로 경험하는 실제의 물리적 환경과 원활하게 블렌딩되는 것과 같이 시청각 증강 현실 애플리케이션에 적용될 수 있는 방법을 포함한다.
스피커 또는 헤드폰에 의해서와 같은 오디오 신호 재생은 사운드 신호를 정확하게 재생하기 위해 다양한 음향 모델 특성을 사용하거나 이에 의존할 수 있다. 예를 들어, 상이한 장면 표현 또는 환경에 대해, 또는 특정 환경에 따라 오디오 신호를 처리함으로써 음원을 시뮬레이션하기 위해 상이한 모델 속성이 사용될 수 있다. 예를 들어, 측정된 바이노럴 룸 임펄스 응답, 즉 BRIR은 소스 신호를 컨볼루션하기 위해 사용될 수 있으며, 다이렉트(direct) 사운드, 초기(early) 반사 및 후기(late) 잔향 중 하나 이상을 식별하는 것과 같이 시간 분해(temporal decomposition)에 의해 표현되거나 모델링될 수 있다. 그러나 BRIR을 결정하거나 획득하는 것은 소비자 애플리케이션에서 어렵거나 비현실적일 수 있는데, 그 이유는 소비자가 그러한 대응을 올바르게 측정할 수 있는 하드웨어 또는 기술 전문 지식을 갖지 못할 수 있기 때문이다.
예를 들어, VR 및 AR과 같은 3D 오디오 애플리케이션에서 사용하기 위한 것과 같이, 로컬 환경 또는 룸 잔향 특성을 특징짓기 위한 실질적인 접근법은 소스 및/또는 청취자 위치 또는 배향과 실질적으로 독립적일 수 있는 잔향 핑거프린트를 포함하거나 사용할 수 있다. 잔향 핑거프린트는 헤드폰을 통해 자연스러운 사운드의 가상 멀티 채널 오디오 프로그램 프리젠테이션을 제공하는 데 사용할 수 있다. 예를 들어, 그러한 프리젠테이션은 가상 스피커 레이아웃에 관한 정보 또는 가상 스피커, 음원 또는 환경 내의 다른 아이템의 하나 이상의 청각 속성에 관한 정보를 사용하여 커스터마이즈될 수 있다.
예를 들어, 이어폰 또는 헤드폰 디바이스는 하나 이상의 오디오 신호를 처리하고 사실적인 3D 오디오를 청취자에게 전달하도록 구성된 가상화기(virtualizer)를 포함하거나 이에 결합될 수 있다. 가상화기는 특정 청각 경험을 생성하기 위하여 오디오 신호를 렌더링, 이퀄라이징, 밸런싱, 스펙트럼 처리 또는 이와 달리 조정하기 위한 하나 이상의 회로를 포함할 수 있다. 예를 들어, 가상화기는 청취자에 대한 상이한 청취 환경을 시뮬레이션하기 위해 오디오 신호를 처리하는 데 도움이 되도록 잔향 정보를 포함하거나 사용할 수 있다. 일 예에서, 이어폰 또는 헤드폰 디바이스는 헤드폰 디바이스와 통합된 또는 헤드폰 디바이스와 데이터 통신하는 변환기(transducer)를 사용하는 것과 같이 환경 잔향 특성을 측정하기 위한 회로를 포함하거나 사용할 수 있다. 측정된 잔향 특성은 특정 환경에 보다 잘 매칭되도록 가상화기를 업데이트하기 위해 환경의 물리적 레이아웃 또는 볼륨에 관한 정보와 함께 사용될 수 있다. 예를 들어, 잔향 측정 회로는 주기적으로 또는 청취자 위치의 변화 또는 로컬 환경의 변화를 나타내는 입력에 응답하여, 측정된 잔향 특성을 자동으로 업데이트하도록 구성될 수 있다.
도 1은 가상 음원 렌더링을 위한 신호 처리 및 재생 시스템(100)의 예를 일반적으로 도시한다. 신호 처리 및 재생 시스템(100)은 다이렉트 사운드 렌더링 회로(110), 반사된 사운드 렌더링 회로(115), 및 이퀄라이저 회로(120)를 포함한다. 예를 들어, 단일 채널 또는 다중 채널 오디오 신호 또는 오디오 객체 신호와 같은 오디오 입력 신호(101)는 가상 음원 신호를 수신하도록 구성된 오디오 입력 회로를 통해서와 같이 다이렉트 사운드 렌더링 회로(110) 및 반사된 사운드 렌더링 회로(115) 중 하나 이상에 제공될 수 있다. 오디오 입력 신호(101)는 청취자를 위해 헤드폰을 통해 가상화되거나 렌더링될 음향 정보를 포함할 수 있다. 예를 들어, 오디오 입력 신호(101)는 특정 위치에 위치되거나 청취자의 로컬 환경에서 특정 위치로부터 발생하는 것으로 청취자에 의해 인식되도록 의도된 가상 음원 신호일 수 있다.
일 예에서, 헤드폰(150)(본 명세서에서는 종종 이어폰이라고도 지칭됨)은 이퀄라이저 회로(120)에 결합되고 이퀄라이저 회로(120)로부터 하나 이상의 렌더링되고 이퀄라이징된 오디오 신호를 수신한다. 오디오 신호 증폭기 회로는 신호 체인에 더 제공되어, 헤드폰(150)을 구동할 수 있다. 예를 들어, 헤드폰(150)은 헤드폰(150)의 사용자가 위치하는 환경에 대응하는 것과 같은 로컬 음장의 실질적으로 음향적으로 투명한 인식을 사용자에게 제공하도록 구성된다. 즉, 사용자 근처와 같은 로컬 음장에서 발생하는 사운드는 사용자가 헤드폰(150)을 착용하고 있을지라도 헤드폰(150)의 사용자에 의해 실질적으로 정확하게 검출될 수 있다.
일 예에서, 신호 처리 개략도(10O)는 가상 포인트 소스를 렌더링하고 헤드폰 전달 함수를 이퀄라이징하기 위한 신호 처리 모델을 나타낸다. 렌더러(renderer)에 의해 구현된 합성 BRIR은 도 2에 나타낸 바와 같이 다이렉트 사운드, 초기 반사 및 후기 잔향으로 분해될 수 있다.
일 예에서, 다이렉트 사운드 렌더링 회로(110) 및 반사된 사운드 렌더링 회로(115)는 오디오 입력 신호(101)에 대응하는 디지털 오디오 신호를 수신하도록 구성되며, 디지털 오디오 신호는 기준 환경, (예를 들어, 기준 환경에서 기준 사운드 및 기준 수신기에 관한 정보를 포함하는) 기준 임펄스 응답, 또는 기준 환경 및 로컬 청취자 환경에 관한 볼륨 정보를 포함하는 것과 같은 로컬 청취자 환경 중 하나 이상에 관한 인코딩된 정보를 포함할 수 있다. 다이렉트 사운드 렌더링 회로(110) 및 반사된 사운드 렌더링 회로(115)는 오디오 입력 신호(101)를 처리하거나 오디오 입력 신호(101)의 인공 다이렉트 또는 반사 성분에 대응하는 새로운 신호를 생성하기 위해 인코딩된 정보를 사용할 수 있다. 일 예에서, 다이렉트 사운드 렌더링 회로(110) 및 반사된 사운드 렌더링 회로(115)는 기준 환경, (예를 들어, 기준 환경에서 기준 사운드 및 기준 수신기에 관한 정보를 포함하는) 기준 임펄스 응답, 또는 기준 환경 및 로컬 청취자 환경에 관한 볼륨 정보를 포함하는 것과 같은 로컬 청취자 환경에 관한 정보를 수신하도록 구성된 각각의 데이터 입력을 포함한다.
다이렉트 사운드 렌더링 회로(110)는 오디오 입력 신호(101)에 기초하여 다이렉트 사운드 신호를 제공하도록 구성될 수 있다. 예를 들어, 다이렉트 사운드 렌더링 회로(110)는 헤드-관련 전달 함수(head-related transfer function, HRTF), 볼륨 조정, 패닝 조정(panning adjustment), 스펙트럼 쉐이핑(spectral shaping), 또는 가상 환경에서 오디오 입력 신호(101)를 배치하거나(position) 위치시키는 다른 필터 또는 처리를 적용할 수 있다. 증강 현실 애플리케이션과 같이 실질적으로 음향적으로 투명하도록 구성된 헤드폰(150)을 포함하는 예에서, 가상 환경은 헤드폰(150)을 착용한 청취자 또는 참가자의 로컬 환경에 대응할 수 있고, 다이렉트 사운드 렌더링 회로(110)는 로컬 환경에서 소스의 기점(origination) 위치에 해당하는 다이렉트 사운드 신호를 제공한다.
반사된 사운드 렌더링 회로(115)는 오디오 입력 신호(101)에 기초하고 로컬 환경의 하나 이상의 특성에 기초하여 잔향 신호를 제공하도록 구성될 수 있다. 예를 들어, 오디오 입력 신호(101)가 청취자(예를 들어, 헤드폰(150)을 사용하는 청취자)의 로컬 환경 내의 특정 위치에서 나오는 실제 사운드였다면, 반사된 사운드 렌더링 회로(315)는 오디오 입력 신호(101)(예를 들어, 가상 음원 신호)에 대응하는 잔향 신호를 생성하도록 구성된 잔향 신호 프로세서 회로를 포함할 수 있다. 예를 들어, 반사된 사운드 렌더링 회로(115)는 기준 임펄스 응답에 관한 정보, 기준 임펄스 응답에 대응하는 기준 룸 볼륨에 관한 정보, 및 청취자의 로컬 환경의 룸 볼륨에 관한 정보를 사용하여, 오디오 입력 신호(101)에 기초하여 잔향 신호를 생성하도록 구성될 수 있다. 예를 들어, 반사된 사운드 렌더링 회로(115)는 기준 환경 및 로컬 환경의 룸 볼륨 사이의 관계에 기초하여 오디오 입력 신호(101)에 대한 잔향 신호를 스케일링하도록 구성될 수 있다. 예를 들어, 잔향 신호는 환경 볼륨에 기초한 비율 또는 다른 고정된 또는 가변적인 양에 기초하여 가중될 수 있다.
도 2는 룸에 위치한 음원 및 수신기(예를 들어, 청취자 또는 마이크로폰)에 대한 룸 임펄스 응답(room impulse response, RIR) 모델의 분해를 도시하는 차트(200)의 예를 일반적으로 도시한다. 차트(200)는 다이렉트 사운드(201), 초기 반사(203) 및 후기 잔향(205)을 포함하는 다수의 시간적으로 연속하는 섹션들을 도시한다. 다이렉트 사운드(201) 섹션은 음원으로부터 수신기로의 다이렉트 음향 경로를 나타낸다. 다이렉트 사운드(201) 다음에, 차트(200)는 반사 지연(202)을 도시한다. 반사 지연(202)은 수신기에서의 다이렉트 사운드 도달과 음원에 의해 방출된 음향 신호의 제1 환경 반사 사이의 지속 기간에 대응한다. 반사 지연(202) 다음에, 차트(200)는 하나 이상의 환경-관련 오디오 신호 반사에 대응하는 일련의 초기 반사(203)를 도시한다. 초기 반사(203)에 이어서, 늦게 도달하는 반사는 후기 잔향(205)을 형성한다. 잔향 지연(204) 간격은 초기 반사(203)의 시작 시간에 대한 후기 잔향(205)의 시작 시간을 나타낸다. 후기 잔향 신호 전력은 RIR에서 시간에 따라 기하 급수적으로 감쇠하고, 그것의 감쇠율은 주파수에 따라 변화하는 잔향 감쇠 시간에 의해 측정될 수 있다.
표 1은 차트(200)에 도시된 RIR 모델의 각 섹션을 특징짓는 객관적인 음향 및 기하학적 파라미터를 설명한다. 표 1은 소스, 청취자(또는 수신기) 또는 환경(또는 룸)에 내재된 파라미터를 더 구별한다. 룸이나 로컬 환경에서 후기 잔향 효과의 경우, 잔향 감쇠율과 룸 볼륨이 중요한 요소이다. 예를 들어. 표 1은 소스 및 청취자의 위치 또는 속성에 관계없이 환경 내의 후기 잔향을 특징짓기 위하여 충분한 환경-특유의 파라미터가 환경의 볼륨 및 그 잔향 감쇠 시간 또는 감쇠율을 포함함을 도시한다.
RIR 모델 음향 및 기하학적 파라미터의 개요
다이렉트 사운드 초기 반사 후기 잔향
소스 - 자유-음장 전달 함수
- 상대적 거리 및 배향
- 자유-음장 전달 함수
- 절대적 위치 및 배향
- 확산-음장 전달 함수
- 상대적 거리
청취자 - 자유-음장 헤드-관련 전달 함수
- 상대적 배향
- 자유-음장 헤드-관련 전달 함수
- 절대적 위치 및 배향
- 확산-음장 헤드-관련 전달 함수 및 양이간 상관 계수
환경 - 공기 흡수 - 공기 흡수
- 경계 기하학적 구조 및 물질 특성
- 잔향 감쇠 시간
- 입방 볼륨
예를 들어, 중간에 있는 음향 장애물이 의한 방해가 없는 경우, 다이렉트 사운드 전파는 매체에서 전파 시간, 속도 및 흡수에 영향을 미치는 환경 파라미터 이외의 환경 파라미터와 실질적으로 독립적일 수 있다. 이러한 파라미터는 무엇보다도 상대 습도, 온도, 소스와 청취자 간의 상대적 거리, 소스와 청취자 중 하나 또는 둘 모두의 이동을 포함할 수 있다.㎛
예를 들어, 다양한 데이터 또는 정보를 사용하여 사운드 재생, 방사(radiation), 및 캡처를 특징짓고 시뮬레이션할 수 있다. 예를 들어, 음원 및 타겟 청취자의 귀는 각각 방출(emitting) 및 수신(receiving) 변환기로 모델링될 수 있다. 각각은 공간 내의 점 소스(point source)로부터와 같이 청취자의 귀에서의 수신을 특징짓기 위해 청취자의 헤드-관련 전달 함수(head-related transfer function), 즉 HRTF를 포함하는 것과 같은 하나 이상의 방향-종속(direction-dependent) 자유-음장 전달 함수에 의해 특징지어질 수 있다. 일 예에서, 귀 및/또는 변환기 모델은 주파수-종속 감도 특성을 더 포함할 수 있다.
도 3은 제1 음원(301), 가상 소스(302) 및 청취자(310)를 포함하는 예(300)를 일반적으로 도시한다. 청취자(310)는 환경에(예를 들어, 작은 잔향 룸 또는 큰 실외 공간 등에) 위치될 수 있고, 헤드폰(150)을 사용할 수 있다. 헤드폰(150)은 청취자의 환경에서 제1 위치로부터 발생하는 것과 같이 제1 음원(301)으로부터의 사운드가 청취자(310)에 의해 청취될 수 있도록 실질적으로 음향적으로 투명할 수 있다. 예를 들어, 헤드폰(150) 또는 헤드폰(150)에 결합된 신호 처리 회로는 청취자의 환경에서 상이한 제2 위치에 있는 것으로 청취자(31)에 의해 인식될 수 있는 것처럼 가상 소스(302)로부터의 사운드를 재생하도록 구성될 수 있다 .
예를 들어, 청취자(310)에 의해 사용되는 헤드폰(150)은 도 1의 시스템(100)으로부터의 이퀄라이저 회로(120)로부터 오디오 신호를 수신할 수 있다. 이퀄라이저 회로(120)는 헤드폰(150)에 의해 재생된 임의의 음원에 대해, 가상 소스(302)가 음향적으로 투명한 헤드폰(150)을 통해 청취자(310)에 의해 자연스럽게 들릴 수 있는 것과 같이 제1 음원(301)과 실질적으로 스펙트럼적으로 구별할 수 없도록 구성될 수 있다.
예를 들어, 청취자(310)의 환경은 제1 음원(301)과 청취자(310) 사이 또는 가상 소스(302)와 청취자(310) 사이의 신호 전송 경로에 위치할 수 있는 장애물(320)을 포함할 수 있다. 이러한 장애물이 존재하는 경우, 헤드폰(150)에서 오디오 신호를 정확하게 렌더링하기 위해 다양한 사운드 회절 및/또는 전송 모델이 (예를 들어, 시스템(100)의 하나 이상의 부분에 의해) 사용될 수 있다. 일 예에서 증강-현실 시각 렌더링 시스템에 제공될 수 있는 기하학적 또는 물리적 데이터는 오디오 신호를 헤드폰(150)에 제공하기 위해 시스템(100)을 포함하거나 사용할 수 있는 것과 같이, 렌더링 시스템에 의해 사용될 수 있다.
증강 현실 오디오 렌더링 시스템에 의한 초기 반사 모델링은 렌더링된 오디오 신호의 원하는 스케일, 디테일, 해상도 또는 정확성에 크게 의존할 수 있다. 예를 들어, 시스템(100)의 전부 또는 일부를 포함하는 것과 같은 증강-현실 오디오 렌더링 시스템은 상이한 위치, 배향 및/또는 스펙트럼 콘텐츠를 갖는 각각의 다수의 오디오 이미지 소스에 대응하는 것과 같은 다수의 가상 음원 각각에 대한 반사를 정확하고 철저하게 재생하도록 시도할 수 있고, 각각의 오디오 이미지 소스는 환경 경계, 소스 파라미터 및 수신기 파라미터를 특징짓는 기하학적 및 음향 파라미터에 의해 적어도 부분적으로 정의될 수 있다. 예를 들어, 증강-현실 애플리케이션을 위한 특징 짓기(예를 들어, 측정 및 분석) 및 로컬 반사의 대응하는 바이노럴 렌더링이 수행될 수 있으며, 물리적 또는 음향 이미징 센서, 클라우드-기반 환경 데이터 및 음향 전파 모델링을 위한 물리적 알고리즘의 사전 계산 중 하나 이상을 포함하거나 사용할 수 있다.
본 발명자들은 해결되어야 할 문제점이, 계산적으로 고가일 수 있는 포괄적인 신호 처리를 단순화하거나 신속하게 하는 것을 포함하며, 증강 현실 애플리케이션 및/또는 오디오 신호를 청취자에게 제공하는데 있어서 물리적 환경의 효과가 사용되거나 고려되는 다른 애플리케이션을 위해, 정확한 오디오 신호를 제공하기 위해, 많은 양의 데이터와 처리 속도를 요구할 수 있다는 것을 인식하였다. 본 발명자들은 또한 상기 문제에 대한 해결책이 하나 이상의 반사된 사운드 신호 모델에서보다 작은 세부 사항을 사용하여 실현될 수 있는 보다 실질적이고 확장 가능한(scalable) 시스템을 포함할 수 있다는 것을 인식하였다. 심리 음향 마스킹(psychoacoustic masking) 현상으로 인해, 전형적인 룸에서의 음향 반사의 지각 효과는 예를 들어 개별적인 시공간적(spatio-temporal) 파라미터와 다중 반사 신호 각각에 대한 주파수-종속 감쇠를 철저히 매칭시키는 것보다는 공통 소스를 갖는 다중 반사 신호로부터의 결합된 기여도를 모델링함으로써 정확하고 효율적으로 근사될 수 있다. 본 발명자들은 다중 가상 음원의 거동을 개별적으로 모델링한 다음 그 결과를 결합하는 문제에 대한 해결책은 룸의 물리적 특성에 기초하여 정의되거나 결정될 수 있는 잔향 핑거프린트를 결정하고 사용하는 것을 포함할 수 있고, 잔향 핑거 프린트는 잔향 프로세서 회로를 사용하는 것과 같이 여러 음원을 함께 유사하게 처리하거나 일괄 처리할 때 적용될 수 있다.
밀폐된 환경(예를 들어, 침실과 같은 밀폐된 룸) 또는 반-개방된 환경에서는 반사된 음장이 믹싱 시간(mixing time)까지 커지고, BRIR 에너지, 지수 감쇠 및 양이간 상호-상관(interaural cross-correlation)을 예측하는 다루기 쉬운 통계적 시간-주파수 모델에 적합한 확산 잔향 프로세스를 수립한다.
이러한 시간-주파수 모델에서, 음원 및 수신기는 그들의 확산-음장 전달 함수에 의해 특징지어질 수 있다. 일 예에서, 확산-음장 전달 함수는 각각의 자유-음장 전달 함수의 전력-도메인 공간 평균화에 의해 도출될 수 있다.
믹싱 시간은 일반적으로 룸 볼륨의 제곱근인
Figure pct00001
에 의해 밀리 초 단위로 추정된다. 예를 들어, 주어진 룸 또는 환경에 대한 후기 잔향 감쇠는 적정한(moderate) 수의 주파수 대역(예를 들어 처리 용량 및 원하는 해상도에 따라 겨우 1 ~ 2개, 일반적으로 5 ~ 15개 이상)에서 샘플링될 수 있는 바와 같이, 룸의 볼륨 및 잔향 감쇠율(또는 잔향 시간)을 사용하여 주파수의 함수로서 모델링될 수 있다. 볼륨 및 잔향 감쇠율은 가상 룸의 여러 소스가 공유하거나 사용할 수 있는 것과 같이 잔향 처리 알고리즘을 수행하는 계산적으로 효율적이고 지각적으로 충실한 파라미터 잔향 프로세서 회로를 제어하는 데 사용할 수 있다. 예를 들어, 잔향 프로세서 회로는 피드백 지연 네트워크를 기반으로 할 수 있거나 스펙트럼 형상의(spectrally-shaped) 기하 급수적으로 감소하는 노이즈로서 모델링될 수 있는 것과 같은 합성 BRIR을 사용한 컨볼루션을 기반으로 할 수 있는 잔향 알고리즘을 수행하도록 구성될 수 있다.
일 예에서, 지각적으로 그럴듯한 렌더링을 위한 실제적이고 낮은 복잡도의 접근법은 기준 환경에서 획득되는(예를 들어, 기준 바이노럴 마이크로폰을 사용하여 획득되는) BRIR 세트를 적응(adapting)시킴으로써 최소한의 로컬 환경 데이터에 기초할 수 있다. 적응은 예를 들어 기준 환경에서 사용되었지만 로컬 청취자 환경에서 바뀐(transposed) 것과 동일한 스피커 시스템 및 동일한 기준 바이노럴 마이크로폰을 시뮬레이션하기 위하여 잔향 감쇠 시간을 보정하는 것 및/또는 잔향 에너지 레벨의 오프셋을 보정하는 것을 포함할 수 있다. 일 예에서, 적응은 특정 음원 방출 데이터 및 청취자와 관련된 하나 이상의 헤드-관련 전달 함수를 포함하거나 사용하는 것과 같이, 다이렉트 사운드, 잔향 및 초기 반사 에너지, 스펙트럼 이퀄라이징 및/또는 시공간 분포를 보정하는 것을 더 포함할 수 있다.
일 예에서, 3D 오디오 효과가 있는 VR 및 AR 시뮬레이션은 예를 들어, 실시간으로 청취자 헤드 움직임을 보상하기 위해 동적 헤드-트래킹을 포함하거나 사용할 수 있다. 이 방법은 동일한 기준 룸에서 중간 음원 위치를 시뮬레이션하도록 확장될 수 있고, 실질적으로 실시간으로 움직임을 시뮬레이션하거나 보상하는 것과 같이, 음원 위치 및/또는 청취자 위치 또는 배향을 샘플링하는 것을 포함할 수 있다. 예를 들어, 소스 또는 청취자와 연관된 와이파이 또는 블루투스 신호를 사용하는 것과 같이, 소스 또는 청취자 위치를 결정하는데 사용될 수 있는 하나 이상의 위치 센서 또는 다른 데이터를 사용하여 (예를 들어, 헤드폰(150)과 관련되거나 청취자에 대응하는 다른 모바일 디바이스와 관련된 신호를 사용하여) 위치 정보가 획득되거나 결정될 수 있다.
측정된 기준 BRIR은 상이한 룸, 상이한 청취자 및 하나 이상의 임의의 음원에 적응될 수 있으므로, 로컬 청취자 환경에서 여러 BRIR 측정을 수집하는 데 의존할 수 있는 다른 기술을 단순화한다. 예를 들어, 룸 임펄스 응답 h(f)의 확산 잔향은, 분산이 예를 들어, 룸의 오디오 신호 소스 및 수신기(예를 들어, 청취자) 위치와는 독립적으로, 기하 급수적으로 감쇠하는 포락선을 따르는 무작위 신호로서 모델링될 수 있고, 주파수-종속 감쇠 시간 Tr(f) 및 초기 전력 스펙트럼 P(f)에 의해 특징지어질 수 있다.
예를 들어, 주파수-종속 감쇠 시간 Tr(f)은 룸의 잔향 특성을 매칭시키거나 근사하기 위해 사용될 수 있으며 청취자에게 "정확한" 룸 음향에 대한 인식을 제공하기 위해 오디오 신호를 처리하는 데 사용될 수 있다. 다시 말해서, 적절한 주파수-종속 감쇠 시간 Tr(f)은 AR 애플리케이션에서와 같이 실제 및 합성, 또는 가상화된 음원 간의 일관성을 제공하는데 도움이 되도록 선택될 수 있다. 실제 및 가상화된 룸 효과 사이의 일치(correspondence) 또는 매칭을 더 높이거나 향상시키기 위해, 잔향의 에너지 및 스펙트럼 이퀄라이징을 수정할 수 있다. 예를 들어, 이러한 수정은 실제 초기 전력 스펙트럼에 대응하는 잔향의 초기 전력 스펙트럼을 제공함으로써 수행될 수 있다. 이러한 초기 전력 스펙트럼은 무엇보다도 소스의 주파수-종속 지향성과 같은 소스의 방사 특성에 의해 영향을 받을 수 있다. 이러한 수정이 없다면, 가상 음원은 음색의 착색(timbre coloration) 및 청취자로부터의 거리 또는 청취자 근접의 면에서와 같이 현실 세계와 현저히 상이하게 들릴 수 있다.
일 예에서, 초기 전력 스펙트럼 P(f)는 소스 및 수신기 확산-음장 전달 함수의 곱에, 그리고 룸의 볼륨 V의 역수에 비례한다. 확산-음장 전달 함수는 소스(또는 수신기)의 자유-음장 전달 함수의 전력-도메인 공간 평균화를 사용하여 계산되거나 결정될 수 있다. EDR(Eenergy Decay Relief), EDR(t, f)는 시간과 주파수의 함수일 수 있으며 모델 파라미터 Tr(f)와 P(f)를 추정하는 데 사용할 수 있다. 예를 들어, EDR은 여기 신호(예를 들어, 정지 백색 노이즈 신호)의 간섭 후에, 잔향 감쇠의 시간-주파수 표현의 앙상블 평균에 대응할 수 있다. 예를 들어,
Figure pct00002
이고, ρ(t, f)는 h(t)의 단시간 푸리에 변환이다. 다수의 상이한 주파수에서의 선형 곡선 피팅은 주파수-종속 잔향 감쇠 시간 Tr(f)의 추정을 제공하는데 사용될 수 있고, 모델링된 EDR 외삽(extrapolation)은 방출 시간으로 돌아가고, EDR'(0, f)로 표기된다. 예를 들어, 초기 전력 스펙트럼은 P(f) = EDR'(0, f)/Tr(f)로서 결정될 수 있다.
도 4a는 기준 환경과 같은, 측정된 EDR(401)의 일례를 일반적으로 예시한다. 측정된 EDR(401)은 다수의 주파수에 걸쳐 및 시간 경과에 따라 잔향 감쇠 신호의 상대적 전력 사이의 관계를 나타낸다. 도 5a는 도 4a의 예와 동일한 축을 사용하여, 동일한 기준 환경에 대한 모델링된 EDR(501)의 예를 일반적으로 도시한다.
도 4a의 측정된 EDR(401)은 기준 환경으로 브로드캐스트되는 백색 노이즈 신호를 따르는 것과 같은 상대적인 전력 스펙트럼 감쇠의 예를 포함한다. 측정된 EDR(401)은 임펄스 응답 신호 전력 ρ(t, f)의 후방 통합(backward integration)에 의해 유도될 수 있다. 측정된 EDR(401)의 특성은 소스의 위치 및/또는 배향(예를 들어, 백색 노이즈 신호 소스)에 적어도 부분적으로 의존할 수 있으며, 기준 환경에 배치된 마이크로폰과 같은 수신기의 위치 및/또는 배향에 적어도 부분적으로 더 의존할 수 있다.
도 5a의 모델링된 EDR(501)은 상대적인 전력 스펙트럼 감쇠의 예를 포함하며, 소스 및 수신기 위치 또는 배향과 독립적일 수 있다. 예를 들어, 모델링된 EDR(501)은 도 4b에 도시된 바와 같이 측정된 EDR(401)의 부분의 선형(또는 다른) 피팅 및 외삽을 수행함으로써 도출될 수 있다.
도 4b는 측정된 EDR(401) 및 측정된 EDR(401)의 "표면(surface)"에 피팅된 다중 주파수-종속 잔향 곡선(402)의 예를 일반적으로 도시한다. 잔향 곡선(402)은 측정된 EDR(401)의 상이한 또는 대응하는 부분에 피팅될 수 있다. 도 4b의 예에서, 잔향 곡선들(402) 중 첫 번째는 약 10kHz에서 측정된 EDR(401)의 일부에 대응하고, 약 0.10 초와 0.30 초 사이의 감쇠 간격에 또한 대응한다. 잔향 곡선(402) 중 다른 하나는 약 5 ㎑에서 측정된 EDR(401)의 일부에 대응하고, 약 0.15 초 내지 0.35 초 사이의 감쇠 간격에 또한 대응한다. 일 예에서, 잔향 곡선(402)은 다수의 상이한 주파수들 각각에 대해 동일한 감쇠 간격으로(예를 들어, 0.10 초 내지 0.30 초 사이) 피팅될 수 있다.
다시 도 5a를 참조하면, 모델링된 EDR(501)은 잔향 곡선들(402)을 사용하여 결정될 수 있다. 예를 들어, 모델링된 EDR(501)은 잔향 곡선들(402) 중 다수의 것들로부터 외삽된 감쇠 스펙트럼을 포함할 수 있다. 예를 들어, 하나 이상의 잔향 곡선(402)은 측정된 EDR(401)의 필드 내의 세그먼트만을 포함하고, 세그먼트는 초기 시간(예를 들어, 시간 제로 또는 원점 시간)으로 역방향 및/또는 최종 시간으로 순방향와 같이 시간 방향으로 예를 들어 지정된 하한(예를 들어, -100 dB 등)까지 외삽 또는 연장될 수 있다. 초기 시간은 소스 신호의 방출 시간에 대응할 수 있다.
도 5b는 잔향 곡선(402)에 대응하는 외삽 곡선(502)을 일반적으로 도시하고, 외삽 곡선(502)은 모델링된 EDR(501)을 정의하는데 사용될 수 있다. 도 5b의 예에서, 초기 전력 스펙트럼(503)은 초기 시간(예를 들어, 시간 제로)에서 모델링된 EDR(501)의 부분에 대응하고, 초기 시간에서의 잔향 감쇠 시간과 초기 전력 스펙트럼의 곱이다. 즉, 모델링된 EDR(501)은 적어도 잔향 시간 Tr(f) 및 초기 전력 스펙트럼 P(f)에 의해 특징지어질 수 있다. 잔향 시간 Tr(f)은 예상되거나 모델링된 잔향 시간의 주파수-종속 표시를 제공한다. 초기 전력 스펙트럼 P(f)는 잔향 감쇠 신호에 대한, 예를 들어, 일부 초기 전력 레벨(예를 들어, 0 dB)에 대한 상대적 전력 레벨의 표시를 포함하며, 주파수 종속적이다.
일 예에서, 초기 전력 스펙트럼 P(f)는 룸 볼륨의 역수 및 신호 소스 및 수신기의 확산-음장 전달 함수의 곱으로서 제공된다. 예를 들어 신호가 소스에 관한 정적 또는 고유 정보(예를 들어, 소스에 고유한 속성일 수 있는, 주파수의 함수로서의 소스 지향성) 및 룸 볼륨 정보를 사용하여 처리될 수 있기 때문에, VR 및 AR에 대한 실시간 또는 현장(in-situ) 오디오 신호 처리에 편리할 수 있다.
(예를 들어, 기준 환경과 동일하거나 다른) 방의 잔향 핑거프린트는 룸 볼륨 및 잔향 시간 Tr(f)에 관한 정보를 포함할 수 있다. 다시 말해서, 잔향 핑거프린트는 단일 임펄스 응답 측정으로부터 도출될 수 있는 것과 같은 부-대역 잔향 시간 정보를 이용하여 결정될 수 있다. 예를 들어, 그러한 측정은 모바일 컴퓨팅 디바이스(예를 들어, 휴대폰 또는 스마트폰)와 관련된 마이크로폰 및 환경에서 소스 신호를 재생할 수 있는 홈 오디오 스피커를 사용하는 것을 포함하는 것과 같이 소비자 등급의 마이크로폰 및 스피커 디바이스를 사용하여 수행될 수 있다. 일 예에서, 실질적으로 실시간과 같이 마이크로폰 신호가 모니터링될 수 있고, 대응하는 모니터링된 마이크로폰 신호는 로컬 잔향 핑거프린트의 임의의 변화를 식별하는데 사용될 수 있다.
예를 들어, 비-기준 음원 및/또는 청취자의 속성도 또한 고려될 수 있다. 예를 들어, 실제 BRIR이 기준 BRIR과 상이할 것으로 예상되는 경우, 실제 스피커 응답 정보 및/또는 개별 HRTF가 자유-음장 및 확산-음장 전달 함수에 대해 대체될 수 있다. 스피커 레이아웃은 실제 환경에서 조정될 수 있으며, 다른 방향 또는 거리 패닝 방법을 사용하여 다이렉트 사운드 및 반사된 사운드를 조정할 수 있다. 일 예에서, 잔향 프로세서 회로 또는 (예를 들어, 피드백 지연 네트워크 또는 FDN, 잔향 알고리즘 등을 사용하거나 적용하도록 구성된) 다른 오디오 프로세서 회로는 다수의 가상 음원들 사이에서 공유될 수 있다.
다시 도 3의 예(300)를 참조하면, 제1 음원(301) 및 가상 소스(302)는 스피커로서 모델링될 수 있다. 기준 BRIR은 예(300)에 도시된 바와 같이 수신기 또는 청취자(310)에 대해 동일한 거리 및 배향에 위치된 스피커를 사용하는 것과 같이 기준 환경(예를 들어, 기준 룸)에서 측정될 수 있다. 도 6a-6D는 청취자 환경에 대응하는 합성된 임펄스 응답을 제공하기 위해 기준 환경에 대응하는 것과 같은 기준 BRIR 또는 RIR을 사용하는 예를 도시한다.
도 6a는 기준 환경에 대응하는 측정된 임펄스 응답(601)의 예를 일반적으로 도시한다. 이 예는 기준 임펄스 응답(601)에 대해 추정될 수 있는 기준 감쇠 포락선(602)을 포함한다. 일 예에서, 기준 임펄스 응답(601)은 기준 룸에서의 제1 음원(301)에 대한 응답에 대응한다.
동일한 기준 수신기 특성을 사용하는 것과 같이, 비-기준 환경 또는 로컬 청취자 환경에서의 동일한 제1 음원(303)에 대해 상이한 로컬 임펄스 응답이 측정될 수 있다. 도 6b는 청취자 환경에 대응하는 임펄스 응답의 일례를 일반적으로 도시한다. 즉, 도 6b는 로컬 환경에 대응하는 로컬 임펄스 응답(611)을 포함한다. 로컬 감쇠 포락선(612)은 로컬 임펄스 응답(611)에 대해 추정될 수 있다. 도 6a 및 도 6b의 예로부터, 도 6a에 대응하는 기준 환경이 더 빠른 잔향 감쇠 및 더 적은 초기 전력을 보여준다는 것이 관찰될 수 있다. 만일 가상 소스(302)와 같은 가상 소스가 기준 임펄스 응답(601)과의 컨볼루션에 의해 렌더링되면, 청취자는 오디오 재생 및 로컬 환경 사이의 부조화(incongruity)를 청각적으로 검출할 수 있고, 이는 가상 소스(302)가 로컬 환경에 정말 존재하는지 여부를 청취자가 묻게 한다.
예를 들어, 기준 임펄스 응답(601)은 예를 들어, 로컬 청취자 환경의 실제 임펄스 응답을 측정하지 않고, 확산 잔향 감쇠 포락선이 로컬 청취자 환경의 것과 더 잘 매칭되거나 근사되는 것과 같은, 적응된 임펄스 응답에 의해 대체될 수 있다. 적응된 임펄스 응답은 계산에 의해 결정될 수 있다. 예를 들어, 기준 임펄스 응답(예를 들어, 기준 임펄스 응답(601))으로부터의 초기 전력 스펙트럼은 로컬 룸 볼륨에 따라, 예를 들어, Plocal(f) = Pref(f) Vref/Vlocal에 따라 추정된 후 스케일링될 수 있으며, 여기서 Vref는 기준 환경의 기준 임펄스 응답에 대응하는 룸 볼륨이고, Vlocal는 로컬 환경에 대응하는 룸 볼륨이다. 또한, 로컬 환경 잔향 감쇠율 및 이에 대응하는 주파수-종속이 결정될 수 있다.
도 6c는 청취자 환경에 대응하는 제1 합성된 임펄스 응답(621)의 일례를 일반적으로 도시한다. 일 예에서, 제1 합성된 임펄스 응답(621)은 기준 환경에 대응하는 측정된 임펄스 응답(601)을 수정하여(예를 들어, 도 6a 참조), 청취자 환경의 후기 잔향 속성을 매칭시킴으로써 획득될 수 있다(예를 들어, 도 6b의 로컬 환경에 대응하는 로컬 임펄스 응답(611)을 참조). 도 6c의 예는 도 6b의 예로부터의 로컬 감쇠 포락선(612) 및 도 6a의 예로부터의 기준 감쇠 포락선(602)과 동일할 수 있는 제2 로컬 감쇠 포락선(622)을 포함한다.
도 6c의 예에서는, 제2 로컬 감쇠 포락선(622)은 응답의 후기 잔향 부분에 대응한다. 그것은 기준 임펄스 응답을 잘라내고(truncate) 파라미터 바이노럴 잔향 부가 장치(reverberator)를 구현하여 후기 잔향 응답을 시뮬레이션함으로써 정확하게 렌더링될 수 있다. 예를 들어, 후기 잔향은 각각의 시간 및 주파수에서 이득 오프셋을 적용하는 것과 같이, 기준 BRIR의 주파수-도메인 성형(reshaping)에 의해 렌더링될 수 있다. 일 예에서, 이득 오프셋은 로컬 감쇠 포락선(612)과 기준 감쇠 포락선(602) 사이의 dB 차에 의해 주어질 수 있다.
예를 들어, 임펄스 응답에서 초기 반사의 거칠지만 유용한 수정은 상술한 주파수-도메인 성형 기술을 사용하여 획득될 수 있다. 도 6d는 수정된 초기 반사 특성을 갖는, 제1 합성된 임펄스 응답(621)에 기초한, 제2 합성된 임펄스 응답(631)의 예를 일반적으로 도시한다. 일 예에서, 제2 합성된 임펄스 응답(631)은 청취자 환경의 초기 반사 특성을 매칭시키기 위해 도 6c의 예로부터 제1 합성된 임펄스 응답(621)을 수정함으로써 획득될 수 있다(도 6b 참조).
일 예에서, 제1 합성된 임펄스 응답(621) 및 제2 합성된 임펄스 응답(631)에서의 개별 초기 반사의 시공간 분포는 기준 임펄스 응답(601)으로부터의 초기 반사에 실질적으로 대응할 수 있다. 즉, 로컬 임펄스 응답(611)에 대응하는 환경의 실제 효과에도 불구하고, 제1 합성된 임펄스 응답(621) 및 제2 합성된 임펄스 응답(631)은 환경 또는 룸 볼륨, 룸 기하학적 구조 또는 룸 재료의 임의의 차이에도 불구하고, 기준 임펄스 응답(601)과 유사한 초기 반사 정보를 포함할 수 있다. 또한, 이 예시에서, 가상 소스(예를 들어, 가상 소스(302))가 실제 소스(예를 들어, 제1 소스(301))와 동일하고, 로컬 임펄스 응답(711)에 대응하는 로컬 BRIR에서와 같이 청취자로부터 동일한 거리에 위치된다는 가정에 의해 시뮬레이션이 촉진된다.
일 예에서, 상술한 모델 적응 절차는 청취자 특유의 HRTF 고려 사항을 포함하는 것과 같이 임의의 소스 및 상대적 배향 및/또는 지향성을 포함하도록 확장될 수 있다. 다이렉트 사운드의 경우, 이러한 종류의 적응은 기준 임펄스 응답 및 로컬 또는 특정 조건에 대해 제공될 수 있는 자유-음장 소스 및 청취자 전달 함수에 기초한 스펙트럼 이퀄라이징을 포함하거나 사용할 수 있다. 유사하게, 후기 잔향의 보정은 소스 및 수신기 확산-음장 전달 함수에 기초할 수 있다.
예를 들어, 신호 소스 또는 청취자의 위치 변경이 수용될 수 있다. 예를 들어, 거리 및 방향 패닝 기술을 사용하여 변경이 이루어질 수 있다. 확산 잔향의 경우, 변경은 절대적인 도착 시간 차이에 따라 스펙트럼 이퀄라이징을 포함할 수 있으며, 주파수-종속 방식과 같은 로컬 잔향 감쇠율과 매칭되도록 성형될 수 있다. 이러한 확산-음장 이퀄라이징은 초기 반사의 방출 및 도달 방향으로 균일하게 분포된다고 가정할 경우 초기 반사에 대한 허용가능한 근사치가 될 수 있다. 위에서 논의한 바와 같이, 세부적인 반사 렌더링은 룸 기하학적 구조의 현장 검출 및 경계 재료의 인식에 의해 유도될 수 있다. 대안으로, 효과적인 지각적 또는 통계적으로 동기 부여된 모델을 사용하여 반사 클러스터를 시프트, 스케일링 및 패닝시킬 수 있다.
도 7은 로컬 청취자 환경에서 청취자를 위한 헤드폰 오디오 신호를 제공하는 단계를 포함하는 방법(700)의 일례를 도시하며, 상기 헤드폰 오디오 신호는 다이렉트 오디오 신호 및 잔향 신호 성분을 포함한다. 동작(702)에서, 이 예는 가상 사운드 신호에 대한 잔향 신호를 생성하는 단계를 포함한다. 가상 사운드 신호(예를 들어, 오디오 입력 신호(101))를 처리하기 위하여 잔향 신호는 예를 들어 도 1의 예로부터 반사된 사운드 렌더링 회로(115)를 사용하여 생성될 수 있다. 예를 들어, 반사된 사운드 렌더링 회로(115)는 기준 환경에서 (예를 들어, 기준 음원 및 기준 수신기에 대응하는) 기준 임펄스 응답에 관한 정보를 수신할 수 있고, 로컬 청취자 환경과 연관된 로컬 잔향 감쇠 시간에 관한 정보를 수신할 수 있다. 그 후, 반사된 사운드 렌더링 회로(115)는 도 6c 또는 6D에 도시된 방법에 따라 가상 사운드 신호에 기초하여 잔향 신호를 생성할 수 있다. 예를 들어, 반사된 사운드 렌더링 회로(115)는 로컬 잔향 감쇠 시간에 관한 수신된 정보를 사용하는 것과 같이, 로컬 청취자 환경의 후기 잔향 특성과 매칭되도록 기준 임펄스 응답을 수정할 수 있다. 일 예에서, 수정은 다양한 시간 및 주파수에서 이득 오프셋을 적용하는 것과 같이, 기준 임펄스 응답의 주파수-도메인 성형을 포함할 수 있으며, 이득 오프셋은 로컬 잔향 감쇠 시간의 감쇠 포락선 및 기준 임펄스 응답의 기준 포락선 사이의 크기 차이에 기초하여 제공될 수 있다. 반사된 사운드 렌더링 회로(115)는, 예를 들어 수정된 임펄스 응답을 가상 사운드 신호로 콘볼루션함으로써 잔향 신호를 렌더링할 수 있다.
동작(704)에서, 방법(700)은 환경 볼륨 정보를 사용하여 잔향 신호를 스케일링하는 단계를 포함할 수 있다. 예를 들어, 동작(704)은 반사된 사운드 렌더링 회로(115)를 사용하여 로컬 청취자 환경에 관한 룸 볼륨 정보를 수신하고, 동작(702)에서 잔향 신호를 생성하는데 사용되는 기준 임펄스 응답에 대응하는 것과 같은 기준 환경에 관한 룸 볼륨을 수신하는 단계를 포함한다. 룸 볼륨 정보를 수신하는 단계는, 무엇보다도, 룸 볼륨의 수치 표시를 수신하거나, 룸 볼륨을 감지하거나, CAD 모델 또는 다른 2D 또는 3D 드로잉으로부터 룸에 관한 치수 정보를 사용하는 것과 같이 룸 볼륨을 계산하거나 결정하는 단계를 포함할 수 있다. 예를 들어, 잔향 신호는 로컬 청취자 환경의 룸 볼륨과 기준 환경의 룸 볼륨 사이의 관계에 기초하여 스케일링될 수 있다. 예를 들어, 잔향 신호는 기준 룸 볼륨에 대한 로컬 룸 볼륨의 비율을 사용하여 스케일링될 수 있다. 다른 스케일링 또는 정정 계수가 사용될 수 있다. 일 예에서, 잔향 신호의 상이한 주파수 성분은 볼륨 관계를 사용하거나 다른 계수를 사용하는 것과 같이 상이하게 스케일링될 수 있다.
동작(706)에서, 예시적인 방법(700)은 가상 사운드 신호에 대한 다이렉트 신호를 생성하는 단계를 포함할 수 있다. 다이렉트 신호를 생성하는 단계는 다이렉트 사운드 렌더링 회로(110)를 사용하여 가상 사운드 신호에 기초하여 로컬 청취자 환경에서 가상으로 로컬화된 오디오 신호를 제공하는 단계를 포함할 수 있다. 예를 들어, 다이렉트 사운드 렌더링 회로(110)를 사용하여 특정 청취자의 고유한 특성을 수용하기 위해 가상 사운드 신호에 헤드-관련 전달 함수를 적용함으로써 다이렉트 신호가 제공될 수 있다. 다이렉트 사운드 렌더링 회로(110)는 청취자의 로컬 환경에서 가상 사운드 신호를 배치하거나(position) 위치시키기 위해, 진폭 조정, 패닝 조정, 스펙트럼 성형, 또는 이퀄라이징에 의해 또는 다른 처리 또는 필터링을 통하여 가상 사운드 신호를 더 처리할 수 있다.
동작(708)에서, 방법(700)은 동작(704)으로부터의 스케일링된 잔향 신호를 동작(706)에서 생성된 다이렉트 신호와 결합하는 단계를 포함한다. 일 예에서, 상기 결합은 도 1의 예시적인 신호 처리 및 재생 시스템(100)에 포함될 수 있는 전용 오디오 신호 믹서 회로에 의해 수행된다. 예를 들어, 믹서 회로는 다이렉트 사운드 렌더링 회로(110)로부터의 가상 사운드 신호에 대한 다이렉트 신호를 수신하도록 구성될 수 있고, 반사된 사운드 렌더링 회로(115)로부터 가상 사운드 신호에 대한 잔향 신호를 수신하도록 구성될 수 있고, 이퀄라이저 회로(120)로 결합된 신호를 제공할 수 있다. 일 예에서, 믹서 회로는 이퀄라이저 회로(120)에 포함된다. 믹서 회로는 결합된 헤드폰 오디오 신호를 제공하기 위해 다이렉트 신호 및 잔향 신호의 상대 진폭 또는 스펙트럼 콘텐츠를 더 밸런싱하거나 조정하도록 선택적으로 구성될 수 있다.
도 8은 가상 음원에 대한 잔향 신호를 생성하는 단계를 포함하는 방법(800)의 일례를 일반적으로 도시한다. 동작(802)에서, 이 예는 기준 임펄스 응답 정보를 수신하는 단계를 포함한다. 기준 임펄스 응답 정보는 기준 환경에서 측정될 수 있는 기준 음원 및 기준 수신기에 대응하는 임펄스 응답 데이터를 포함할 수 있다. 일 예에서, 기준 임펄스 응답 정보는 기준 음원 및 기준 수신기 중 하나 또는 모두에 대응하는 확산-음장 및/또는 자유-음장 전달 함수에 관한 정보를 포함한다. 예를 들어, 기준 임펄스 응답에 관한 정보는 기준 환경에서의 청취자(예를 들어, 로컬 환경에서와 동일한 청취자)에 대한 헤드-관련 전달 함수에 관한 정보를 포함할 수 있다. 헤드-관련 전달 함수는 특정 사용자에 특유할 수 있으므로, 상이한 사용자 또는 청취자가 참여할 때 기준 임펄스 응답 정보가 변경되거나 업데이트될 수 있다.
일 예에서, 기준 임펄스 응답 정보를 수신하는 단계는 가상 음원의 로컬 소스에 대한 확산-음장 전달 함수에 관한 정보를 수신하는 단계를 포함할 수 있다. 기준 임펄스 응답은 로컬 소스에 대한 확산-음장 전달 함수와 기준 음원에 대한 확산-음장 전달 함수 사이의 관계(예컨대, 차이, 비율 등)에 따라 스케일링될 수 있다. 유사하게, 기준 임펄스 응답 정보를 수신하는 단계는 추가적으로 또는 대안적으로, 기준 음원의 기준 수신기에 대한 확산-음장 헤드-관련 전달 함수에 관한 정보를 수신하는 단계를 포함할 수 있다. 이어서, 기준 임펄스 응답은 로컬 청취자에 대한 확산-음장 헤드-관련 전달 함수와 기준 수신기에 대한 확산-음장 전달 함수 사이의 관계(예를 들어, 차이, 비율 등)에 따라 부가적으로 또는 대안적으로 스케일링될 수 있다.
동작(804)에서, 방법(800)은 기준 환경 볼륨 정보를 수신하는 단계를 포함한다. 기준 환경 볼륨 정보는 룸 볼륨과 관련된 표시 또는 수치 값을 포함할 수 있거나, 룸 볼륨이 결정 또는 계산될 수 있는 기준 환경에 관한 치수 정보를 포함할 수 있다. 예를 들어, 기준 환경 또는 표면 마감의 객체에 관한 정보와 같은 기준 환경에 대한 다른 정보도 유사하게 포함될 수 있다.
동작(806)에서, 방법(800)은 로컬 환경 잔향 정보를 수신하는 단계를 포함한다. 로컬 환경 잔향 정보를 수신하는 단계는 반사된 사운드 렌더링 회로(115)를 사용하여 로컬 환경에 관해 이전에 획득된 또는 이전에 계산된 데이터를 수신 또는 검색하는 단계를 포함할 수 있다. 일 예에서, 동작(806)에서 로컬 환경 잔향 정보를 수신하는 단계는 (예를 들어, 청취자의 스마트 폰, 헤드셋 또는 다른 디바이스 상에서) 범용 마이크로폰을 사용하는 것과 같이 로컬 청취자 환경에서 잔향 감쇠 시간을 감지하는 단계를 포함한다. 일 예에서, 수신된 로컬 환경 잔향 정보는 가상 음원에 대응하는 주파수 정보를 포함할 수 있다. 즉, 가상 음원은 지정된 주파수 대역(예를 들어, 0.4 내지 3kHz)에 대응하는 음향 주파수 컨텐츠를 포함할 수 있고, 수신된 로컬 환경 잔향 정보는 동일한 특정 주파수 대역의 적어도 일부에 대응하는 잔향 감쇠 정보를 포함할 수 있다.
일 예에서, 다양한 주파수 비닝 또는 그룹핑 방식이 감쇠 시간과 관련된 시간-주파수 정보에 사용될 수 있다. 예를 들어, 잔향 감쇠 특성에 관한 연속적인 스펙트럼 정보를 사용하는 것에 추가하여, 또는 그 대신에 멜(Mel)-주파수 대역 또는 임계 대역에 관한 정보가 사용될 수 있다. 일 예에서, 주파수 평활화 및/또는 시간 평활화가 유사하게 사용되어, 기준 환경 및 로컬 환경과 같은 잔향 감쇠 포락선 정보를 안정화시키는 데 도움이 될 수 있다.
동작(808)에서, 방법(800)은 로컬 환경 볼륨 정보를 수신하는 단계를 포함한다. 로컬 환경 볼륨 정보는 룸 볼륨과 관련된 지시 또는 수치 값을 포함할 수 있거나, 룸 볼륨이 결정되거나 계산될 수 있는 로컬 환경에 관한 치수 정보를 포함할 수 있다. 예를 들어, 로컬 환경 또는 표면 마감에서의 객체에 관한 정보와 같은 로컬 환경에 관한 다른 정보도 유사하게 포함될 수 있다.
단계(810)에서, 방법(800)은 동작(802)로부터의 기준 임펄스 응답에 관한 정보를 사용하고 동작(806)로부터의 로컬 환경 잔향 정보를 사용하여 가상 음원 신호에 대한 잔향 신호를 생성하는 단계를 포함한다. 동작(810)에서 잔향 신호를 생성하는 단계는 반사된 사운드 렌더링 회로(115)를 사용하는 단계를 포함한다.
일 예에서, 동작(810)에서 잔향 신호를 생성하는 단계는 동작(802)에서 수신된 기준 임펄스 응답 정보에 대한 시간-주파수 포락선을 수신 또는 결정하는 단계, 및 그 후에 동작(806)에서 수신된 로컬 환경 잔향 정보(예를 들어, 로컬 잔향 감쇠 시간)와 연관된 시간-주파수 포락선의 대응하는 부분에 기초하여 시간-주파수 포락선을 조정하는 단계를 포함한다. 즉, 기준 임펄스 응답의 시간-주파수 포락선을 조정하는 단계는 로컬 잔향 감쇠의 시간-주파수 포락선 및 기준 임펄스 응답과 관련된 시간-주파수 포락선의 대응하는 부분들 사이의 관계(예를 들어, 차이, 비율 등)에 기초하여 포락선을 조정하는 단계를 포함할 수 있다. 일 예에서, 반사된 사운드 렌더링 회로(115)는 조정된 포락선을 사용하여 가상 음원 신호를 처리함으로써 로컬 청취자 환경에 대한 로컬 잔향 감쇠를 매칭시킬 수 있는 인공 잔향 부가 장치(aritificial reverberator) 회로를 포함하거나 사용할 수 있다.
동작(812)에서 방법(800)은 동작(810)에서 생성된 잔향 신호를 조정하는 단계를 포함한다. 예를 들어, 동작(812)은 반사된 사운드 렌더링 회로(115)를 사용하거나 다른 믹서 또는 오디오 신호 스케일링 회로를 사용하는 것과 같이, 기준 환경 볼륨(예를 들어, 동작(804) 참조)과 로컬 환경 볼륨(예를 들어, 동작(808) 참조) 사이의 관계에 관한 정보를 사용하여 잔향 신호를 조정하는 단계를 포함할 수 있다. 동작(812)로부터의 조정된 잔향 신호는 가상 음원 신호의 다이렉트 사운드 버전과 결합될 수 있으며, 그 후 헤드폰을 통해 청취자에게 제공될 수 있다.
일 예에서, 동작(812)은 기준 환경 볼륨에 대한 로컬 환경 볼륨의 비율을 결정하는 단계를 포함한다. 즉, 동작(812)은 기준 임펄스 응답에 대응하는 것과 같이 기준 환경과 관련된 룸 볼륨을 결정하는 단계, 및 로컬 청취자 환경과 연관된 룸 볼륨을 결정하는 단계를 포함할 수 있다. 잔향 신호는 그 후 룸 볼륨들의 비율에 따라 스케일링될 수 있다. 스케일링된 잔향 신호는 다이렉트 사운드와 조합하여 사용된 다음, 헤드폰을 통해 청취자에게 제공된다.
일 예에서, 동작(812)은 잔향 신호의 후기 잔향 부분을 조정하는 단계를 포함한다(예를 들어, 후기 잔향(205)에서 도 2 참조). 잔향 신호의 초기 잔향 부분은 비슷하지만 상이하게 조정될 수 있다. 예를 들어, 잔향 신호의 초기 잔향 부분은 조정된 임펄스 응답이 아니라, 기준 임펄스 응답을 사용하여 조정할 수 있다. 즉, 일 예에서, 조정된 잔향 신호는 기준 임펄스 응답 신호에 기초하는 (초기 잔향 또는 초기 반사에 대응하는) 제1 부분을 포함할 수 있고, 조정된 기준 임펄스 응답에 기초하는 후속하는 (후기 잔향에 대응하는) 제2 부분을 포함할 수 있다.
도 9는 머신 판독 가능 매체(예를 들어, 머신 판독 가능 저장 매체)로부터 명령어들(916)을 판독할 수 있고 본 명세서에서 논의된 임의의 하나 이상의 방법을 수행할 수 있는 일부 예시적인 실시 예들에 따른 머신(900)의 컴포넌트를 도시하는 블록도이다. 구체적으로, 도 9는 컴퓨터 시스템의 예시적인 형태로 머신(900)의 다이어그램 표현을 도시하며, 이 시스템 내에서 머신(900)이 본 명세서에서 논의된 임의의 하나 이상의 방법을 수행하게 하기 위한 명령어들(916)(예를 들어, 소프트웨어, 프로그램, 애플리케이션, 애플릿, 앱 또는 다른 실행 가능한 코드)이 실행될 수 있다. 예를 들어, 명령어들(916)은 도 1의 모듈들 등을 구현할 수 있다. 명령어들(916)은 일반적인 프로그래밍되지 않은 머신(900)을, 기술된 방식으로 설명되고 도시된 기능들을 수행하도록 프로그래밍된 특정 머신으로 변환한다. 대안적인 실시 예에서, 머신(900)은 독립형 디바이스로서 동작하거나 다른 머신들에 결합(예를 들어, 네트워킹)될 수 있다. 네트워킹된 배치에서, 머신(900)은 서버-클라이언트 네트워크 환경에서 서버 머신 또는 클라이언트 머신으로서 동작할 수 있거나 피어-투-피어(또는 분산) 네트워크 환경에서 피어 머신으로서 동작할 수 있다.
머신(900)은 서버 컴퓨터, 클라이언트 컴퓨터, 퍼스널 컴퓨터(personal computer, PC), 태블릿 컴퓨터, 랩톱 컴퓨터, 넷북, 셋톱 박스(set-top box, STB), PDA(personal digital assistant), 엔터테인먼트 미디어 시스템, 셀룰러 전화, 스마트 폰, 모바일 디바이스, 웨어러블 디바이스(예를 들어, 스마트 워치), 스마트 홈 디바이스(예를 들어, 스마트 어플라이언스), 기타 스마트 디바이스, 웹 어플라이언스, 네트워크 라우터, 네트워크 스위치, 네트워크 브리지, 헤드폰 드라이버, 또는 머신(900)에 의해 취해질 동작을 지정하는 명령어들(916)을 순차적으로 또는 다른 방식으로 실행할 수 있는 임의의 머신을 포함할 수 있으나, 이에 한정되지는 않는다. 또한, 하나의 머신(900)만이 도시되어 있지만, "머신"이라는 용어는 또한 본 명세서에서 논의된 임의의 하나 이상의 방법을 수행하기 위해 개별적으로 또는 공동으로 명령어들(916)을 실행하는 머신들(900)의 집합을 포함하는 것으로 이해될 것이다.
머신(900)은 예를 들어 버스(902)를 통해 서로 통신하도록 구성될 수 있는 프로세서(910), 메모리/저장 장치(930) 및 I/O 컴포넌트(950)를 포함할 수 있다. 예시적인 실시 예에서, 프로세서(910)(예를 들어, CPU(central processing unit), RISC(reduced instruction set computing) 프로세서, CISC(complex instruction set computing) 프로세서, GPU(grahics processing unit), DSP(digital signal processor), ASIC, RFIC(radio-frequency integrated circuit), 다른 프로세서, 또는 이들의 임의의 적절한 조합)는 예를 들어, 명령어들(916)을 실행할 수 있는 프로세서(912) 및 프로세서(914)와 같은 회로를 포함할 수 있다. "프로세서"라는 용어는 명령어들(916)을 동시에 실행할 수 있는 2개 이상의 독립 프로세서(912, 914)(때로는 "코어"라고도 함)를 포함할 수 있는 멀티 코어 프로세서(912, 914)를 포함하는 것으로 의도된다. 도 9는 다수의 프로세서(910)를 도시하고 있지만, 머신(900)은 단일 코어를 갖는 단일 프로세서(912, 914), 다수의 코어를 갖는 단일 프로세서(912, 914)(예를 들어, 멀티 코어 프로세서(912,914)), 단일 코어를 갖는 다수의 프로세서(912, 914), 다수의 코어를 갖는 다수의 프로세서(912, 914), 또는 이들의 임의의 조합을 포함할 수 있다.
메모리/저장 장치(930)는 메인 메모리 회로 또는 다른 메모리 저장 회로와 같은 메모리(932), 및 저장 유닛(936)을 포함할 수 있고, 둘 다 예를 들어 버스(902)를 통해 프로세서(910)에 모두 액세스 가능하다. 저장 유닛(936) 및 메모리(932)는 본 명세서에 설명된 임의의 하나 이상의 방법 또는 기능을 구현하는 명령어들(916)을 저장한다. 명령어들(916)은 또한 머신(900)에 의한 실행 동안에, 메모리(932) 내에, 저장 유닛(936) 내에, 적어도 하나의 프로세서(910) 내에(예를 들어, 프로세서(912, 914)의 캐시 메모리 내에), 또는 이들의 임의의 적절한 조합 내에 전체적으로 또는 부분적으로 존재할 수 있다. 따라서, 메모리(932), 저장 유닛(936) 및 프로세서(910)의 메모리는 머신 판독 가능 매체의 예이다.
본 명세서에 사용된 바와 같이, "머신 판독 가능 매체"는 명령어들(916) 및 데이터를 일시적으로 또는 영구적으로 저장할 수 있는 디바이스를 의미하며, RAM(random-access memory), ROM(read-only memory), 버퍼 메모리, 플래시 메모리, 광학 매체, 자기 매체, 캐시 메모리, 다른 유형의 저장 장치(예를 들어, EEPROM(erasable programmable read-only memory)), 및/또는 이들의 임의의 적절한 조합을 포함할 수 있지만, 이에 한정되는 것은 아니다. "머신 판독 가능 매체"라는 용어는 명령어들(916)을 저장할 수 있는 단일 매체 또는 다중 매체(예를 들어, 중앙 집중식 또는 분산 데이터베이스, 또는 연관된 캐시 및 서버)를 포함하는 것으로 이해되어야 한다. "머신 판독 가능 매체"라는 용어는 또한 머신(예를 들어, 머신(900))에 의한 실행을 위한 명령어들(예를 들어, 명령어들(916))을 저장할 수 있는 임의의 매체 또는 다중 매체의 조합을 포함하는 것으로 이해될 것이므로, 명령어들(916)은 머신(900)의 하나 이상의 프로세서(예를 들어, 프로세서(910))에 의해 실행될 때, 머신(900)으로 하여금 본 명세서에 설명된 임의의 하나 이상의 방법을 수행하게 한다. 따라서, "머신 판독 가능 매체"는 다수의 저장 장치 또는 디바이스를 포함하는 "클라우드 기반" 저장 시스템 또는 저장 네트워크뿐만 아니라, 단일 저장 장치 또는 디바이스를 지칭한다. "머신 판독 가능 매체"라는 용어는 신호 그 자체를 배제한다.
I/O 컴포넌트(950)는 입력을 수신하고, 출력을 제공하고, 출력을 생성하고, 정보를 전송하고, 정보를 교환하고, 측정을 캡처하고, 기타 등등을 위한 다양한 컴포넌트를 포함할 수 있다. 특정 머신(900)에 포함된 특정 I/O 컴포넌트(950)는 머신(900)의 유형에 의존할 것이다. 예를 들어, 모바일 폰과 같은 휴대용 머신은 터치 입력 디바이스 또는 다른 그러한 입력 메커니즘을 포함할 것 같고, 헤드리스(headless) 서버 머신은 그러한 터치 입력 디바이스를 포함하지 않을 것 같다. I/O 컴포넌트(950)는 도 9에 도시되지 않은 많은 다른 컴포넌트를 포함할 수 있다는 것을 인식할 것이다. I/O 컴포넌트(950)는 단지 다음의 논의를 단순화하기 위해 기능에 의해 그룹화되며, 그룹화는 결코 제한적인 것이 아니다. 다양한 예시적인 실시 예에서, I/O 컴포넌트(950)는 출력 컴포넌트(952) 및 입력 컴포넌트(954)를 포함할 수 있다. 출력 컴포넌트(952)는 시각 컴포넌트(예를 들어, PDP(plasma display panel), LED(light emitting diode) 디스플레이, LCD(liquid crystal display), 프로젝터, 또는 CRT(cathode ray tube), 음향 컴포넌트(예를 들어, 스피커), 촉각 컴포넌트(예를 들어, 진동 모터, 저항(resistance) 메카니즘), 다른 신호 생성기 등)를 포함할 수 있다. 입력 컴포넌트(954)는 영숫자 입력 컴포넌트(예를 들어, 키보드, 영숫자 입력을 수신하도록 구성된 터치 스크린, 광-광축(photo-optical) 키보드 또는 다른 영숫자 입력 컴포넌트), 포인트 기반 입력 컴포넌트(예를 들어, 마우스, 터치 패드, 트랙볼, 조이스틱, 모션 센서 또는 다른 포인팅 도구), 촉각 입력 컴포넌트(예를 들어, 물리적 버튼, 터치 또는 터치 제스처의 위치 및/또는 힘을 제공하는 터치 스크린, 또는 기타 촉각 입력 컴포넌트), 오디오 입력 컴포넌트(예를 들어, 마이크로폰) 등을 포함할 수 있다.
또 다른 예시적인 실시 예에서, I/O 컴포넌트(950)는 다수의 다른 컴포넌트 중에서 생체 인식 컴포넌트(956), 모션 컴포넌트(958), 환경 컴포넌트(960) 또는 위치 컴포넌트(962)를 포함할 수 있다. 예를 들어, 생체 인식 컴포넌트(956)는 표현(예를 들어, 손 표현, 표정, 보컬 표현, 몸짓 또는 눈 추적)을 검출하고, 생체 신호(예를 들어, 혈압, 심박수, 체온, 땀 또는 뇌파)를 측정하고, 사람을 식별(예를 들어, 음성 식별, 망막 식별, 안면 식별, 지문 식별 또는 뇌파도 기반 식별)하고, 기타 등등을 위한 컴포넌트를 포함할 수 있고, 예를 들어, 청취자 특유의 또는 환경 특유의 임펄스 응답 또는 HRTF를 포함하거나 사용하거나 선택하는데 영향을 줄 수 있다. 모션 컴포넌트(958)는 가속 센서 컴포넌트(예를 들어, 가속도계), 중력 센서 컴포넌트, 회전 센서 컴포넌트(예를 들어, 자이로스코프) 등을 포함할 수 있다. 환경 컴포넌트(960)는 예를 들어, 조명 센서 컴포넌트(예를 들어, 광도계(photometer)), 온도 센서 컴포넌트(예를 들어, 주위 온도를 검출하는 하나 이상의 온도계), 습도 센서 컴포넌트, 압력 센서 컴포넌트(예를 들어, 기압계), 음향 센서 컴포넌트(예를 들어, 하나 이상의 주파수 또는 주파수 대역과 같이 잔향 감쇠 시간을 검출하는 하나 이상의 마이크로폰), 근접 센서 또는 룸 볼륨 감지 컴포넌트(예를 들어, 근처의 물체를 감지하는 적외선 센서), 가스 센서(예를 들어, 안전을 위해 위험 가스의 농도를 검출하거나 대기의 오염 물질을 측정하는 가스 검출 센서), 주변 물리적 환경에 상응하는 표시, 측정 또는 신호를 제공할 수 있는 다른 컴포넌트를 포함할 수 있다. 위치 컴포넌트(962)는 위치 센서 컴포넌트(예를 들어, GPS(Global Position System) 수신기 컴포넌트), 고도 센서 컴포넌트(예를 들어, 고도가 유도될 수 있는 공기압을 검출하는 고도계 또는 기압계), 방향 센서 컴포넌트(예를 들어, 자력계) 등을 포함할 수 있다.
통신은 다양한 기술을 사용하여 구현할 수 있다. I/O 컴포넌트(950)는 커플 링(982) 및 커플링(972)을 통해 머신(900)을 네트워크(980) 또는 디바이스(970)에 각각 결합하도록 동작 가능한 통신 컴포넌트(964)를 포함할 수 있다. 예를 들어, 통신 컴포넌트(964)는 네트워크 인터페이스 컴포넌트 또는 네트워크(980)와 인터페이스하기 위한 다른 적절한 디바이스를 포함할 수 있다. 다른 예에서, 통신 컴포넌트(964)는 유선 통신 컴포넌트, 무선 통신 컴포넌트, 셀룰러 통신 컴포넌트, 근거리 통신(near field communication, NFC) 컴포넌트, 블루투스(Bluetooth®) 컴포넌트(예를 들어, Bluetooth® Low Energy), 와이파이(Wi-Fi®) 컴포넌트 및 다른 양상들(modalities)을 통해 통신을 제공하기 위한 다른 통신 컴포넌트를 포함할 수 있다. 디바이스(970)는 다른 머신 또는 임의의 다양한 주변 디바이스(예를 들어, USB를 통해 결합된 주변 디바이스)일 수 있다.
더욱이, 통신 컴포넌트(964)는 식별자들을 검출하거나 식별자들을 검출하도록 동작할 수 있는 컴포넌트들을 포함할 수 있다. 예를 들어, 통신 컴포넌트(964)는 RFID(radio frequency identification) 태그 판독기 컴포넌트, NFC 스마트 태그 검출 컴포넌트, 광학 판독기 컴포넌트(예를 들어, UPC(Universal Product Code) 바 코드와 같은 1차원 바 코드, QR(Quick Response) 코드, 아즈텍(Aztec) 코드, 데이터 매트릭스(Data Matrix), 데이터글리프(Dataglyph), 맥시코드(MaxiCode), PDF49, 울트라 코드(Ultra Code), UCC RSS-2D 바코드 및 기타 광학 코드와 같은 다차원 바코드) 또는 음향 검출 컴포넌트(예를 들어, 태그된 오디오 신호를 식별하기 위한 마이크로폰)를 포함할 수 있다. 또한, 다양한 정보가 IP(internet protocol) 지리 위치(geolocation)를 통한 위치, 와이파이 신호 삼각 측량을 통한 위치, 특정 위치를 포함할 수 있는 NFC 비콘 신호를 검출하는 것을 통한 위치 등과 같은 통신 컴포넌트(964)를 통해 도출될 수 있다. 이러한 식별자는 기준 또는 로컬 임펄스 응답, 기준 또는 로컬 환경 특성 또는 청취자 특유의 특성 중 하나 이상에 관한 정보를 결정하는 데 사용될 수 있다.
다양한 예시적인 실시 예에서, 네트워크(980)의 하나 이상의 부분은 애드혹 네트워크, 인트라넷, 엑스트라넷, 가상 사설망(virtual private network, VPN), LAN(local area network), WLAN(wireless LAN), WAN(wide area network), WWAN(wireless WAN), MAN(Metropolitan Area Network), 인터넷, 인터넷의 일부, PSTN(public switched telephone network)의 일부, POTS(plain old telephone service) 네트워크, 셀룰러 전화 네트워크, 무선 네트워크, 와이파이 네트워크, 다른 유형의 네트워크, 또는 둘 이상의 그러한 네트워크의 조합일 수 있다. 예를 들어, 네트워크(980) 또는 네트워크(980)의 일부는 무선 또는 셀룰러 네트워크를 포함할 수 있고, 커플링(982)은 CDMA(Code Division Multiple Access) 연결, GSM(Global System for Mobile communications) 연결, 다른 유형의 셀룰러 또는 무선 커플링일 수 있다. 이 예에서, 커플링(982)은 1xRTT(Single Carrier Radio Transmission Technology), EVDO(Evolution-Data Optimized) 기술, GPRS(General Packet Radio Service) 기술, EDGE(Enhanced Data rates for GSM Evolution) 기술, 3G, 4G 무선 네트워크를 포함하는 3GPP(third Generation Partnership Project), UMTS(Universal Mobile Telecommunications System), HSPA(High Speed Packet Access), WiMAX(Worldwide Interoperability for Microwave Access), LET 표준, 다양한 표준 설정 조직에 의해 정의되는 것들, 다른 장거리 프로토콜 또는 다른 데이터 전송 기술과 같은 다양한 유형의 데이터 전송 기술 중 임의의 것을 구현할 수 있다. 일 예에서, 그러한 무선 통신 프로토콜 또는 네트워크는 중앙 프로세서 또는 머신으로부터 헤드폰 오디오 신호를 청취자에 의해 사용되는 헤드폰 디바이스로 전송하도록 구성될 수 있다.
명령어들(916)은 네트워크 인터페이스 디바이스(예를 들어, 통신 컴포넌트(964)에 포함된 네트워크 인터페이스 컴포넌트)를 통해 전송 매체를 사용하고 다수의 잘 알려진 전송 프로토콜들 중 임의의 것(예를 들어, HTTP(hypertext transfer protocol))을 사용하여 네트워크(980)를 통해 송신되거나 수신될 수 있다, 유사하게, 명령어들(916)은 커플링(972)(예를 들어, 피어-투-피어 커플링)을 통해 전송 매체를 사용하여 디바이스(970)로 송신되거나 수신될 수 있다. "전송 매체"라는 용어는 머신(900)에 의한 실행을 위해 명령어들(916)을 저장, 인코딩 또는 전달할 수 있는 임의의 무형의(intangible) 매체를 포함하는 것으로 이해될 것이며, 그러한 소프트웨어의 통신을 용이하게 하는 디지털 또는 아날로그 통신 신호들 또는 다른 무형의 매체들을 포함한다.
본 명세세에서 논의된 개념 및 예의 많은 변형은 관련 기술 분야의 당업자들에게 명백할 것이다. 예를 들어, 실시 예에 따라, 본 명세서에서 기술된 방법, 프로세스, 또는 알고리즘 중 임의의 것의 특정 동작, 이벤트, 또는 기능은 상이한 시퀀스로 수행될 수 있고, 추가되거나 병합되거나 생략될 수 있다(다양한 방법, 프로세스, 알고리즘의 실행을 위해 모든 기술된 동작 또는 이벤트가 필요한 것은 아님). 더욱이 일부 실시 예에서, 동작 또는 이벤트는 순차적으로가 아니라, 예를 들어, 멀티-스레드(multi-threaded) 처리, 인터럽트 처리, 또는 다중 프로세서 또는 프로세서 코어 또는 다른 병렬 아키텍처를 통해 동시에 수행될 수 있다. 또한 상이한 작업 또는 프로세스가 함께 작동할 수 있는 상이한 머신 및 컴퓨팅 시스템에 의해 수행될 수 있다.
본 명세서에 개시된 실시 예와 관련하여 기술된 다양한 예시적인 논리 블록, 모듈, 방법 및 알고리즘 프로세스 및 시퀀스는 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들의 조합으로서 구현될 수 있다. 하드웨어와 소프트웨어의 이러한 호환성을 설명하기 위해, 여러 컴포넌트, 블록, 모듈 및 프로세스 동작이 경우에 따라 기능성의 측면에서 일반적으로 기술된다. 그러한 기능성이 하드웨어 또는 소프트웨어로 구현되는지 여부는 특정 애플리케이션 및 전체 시스템에 부과된 설계 제약에 의존한다. 따라서, 기술된 기능성은 특정 애플리케이션에 대해 다양한 방식으로 구현될 수 있지만, 이러한 구현 결정은 이 문서의 범위를 벗어나는 것으로 해석되어서는 안 된다. 본 명세서에 기술된 잔향 처리 시스템 및 방법 및 기술의 실시 예는 도 9의 논의에서 상술한 바와 같은 다양한 유형의 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성 내에서 동작한다.
본 발명의 다양한 양태는 독립적으로 또는 함께 사용될 수 있다.
예를 들어, 양태 1은 헤드폰을 사용한 재생을 위해 로컬 청취자 환경 내의 특정 위치에서 나오는 가상 음원 신호에 대응하는 잔향 신호를 준비하는 방법을 포함하거나 사용하는 것과 같이, (장치, 시스템, 디바이스, 방법, 동작을 수행하는 수단, 또는 디바이스에 의해 수행될 때 디바이스가 동작을 수행하게 하는 명령어들을 포함하는 디바이스 판독 가능 매체와 같은) 대상(subject matter)을 포함하거나 사용할 수 있다. 양태 1은 프로세서 회로를 사용하여, 기준 환경에서 기준 음원 및 기준 수신기에 대한 기준 임펄스 응답에 관한 정보를 수신하는 단계; 및 상기 프로세서 회로를 사용하여, 상기 기준 환경의 기준 볼륨에 관한 정보를 수신하는 단계를 포함할 수 있다. 양태 1은 상기 로컬 청취자 환경에 대한 로컬 잔향 감쇠에 관한 정보를 결정(예를 들어, 측정 또는 추정 또는 계산)하는 단계; 및 상기 로컬 청취자 환경의 로컬 볼륨에 관한 정보를 결정(예를 들어, 측정 또는 추정 또는 계산)하는 단계를 더 포함할 수 있다. 일 예에서, 양태 1은 상기 프로세서 회로를 사용하여, 상기 기준 임펄스 응답에 관한 정보 및 상기 로컬 잔향 감쇠에 관한 상기 결정된 정보를 사용하여 상기 가상 음원 신호에 대한 잔향 신호를 생성하는 단계를 포함한다. 양태 1은 상기 프로세서 회로를 사용하여, 상기 로컬 볼륨과 상기 기준 볼륨 사이의 관계에 따라 상기 가상 음원 신호에 대한 잔향 신호를 스케일링하는 단계를 더 포함할 수 있다.
양태 2는 양태 1의 대상을 포함하거나 사용하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 가상 음원 신호에 대한 상기 잔향 신호를 스케일링하는 단계는 상기 로컬 청취자 환경의 볼륨과 상기 기준 환경의 볼륨의 비율을 사용하는 단계를 포함하는 것을 선택적으로 포함한다.
양태 3은 양태 1 또는 2 중 하나 또는 임의의 조합의 대상을 포함하거나 사용하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 기준 임펄스 응답에 관한 정보를 수신하는 단계는, 상기 기준 음원에 대한 확산-음장 전달 함수에 관한 정보를 수신하는 단계, 및 로컬 소스에 대한 확산-음장 전달 함수와 상기 기준 음원에 대한 확산-음장 전달 함수 사이의 관계에 기초하여 상기 가상 음원 신호에 대한 잔향 신호를 보정하는 단계를 포함하는 것을 선택적으로 포함한다.
양태 4는 양태 1 내지 3 중 하나 또는 임의의 조합의 대상을 포함하거나 사용하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 기준 임펄스 응답에 관한 정보를 수신하는 단계는, 상기 기준 수신기에 대한 확산-음장 전달 함수에 관한 정보를 수신하는 단계, 및 상기 로컬 청취자에 대한 확산-음장 헤드-관련 전달 함수 및 상기 기준 수신기에 대한 확산-음장 전달 함수 사이의 관계에 기초하여 상기 가상 음원 신호에 대한 잔향 신호를 스케일링하는 단계를 포함하는 것을 선택적으로 포함한다.
양태 5는 양태 1 내지 4 중 하나 또는 임의의 조합의 대상을 포함하거나 사용하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 기준 임펄스 응답에 관한 정보를 수신하는 단계는 상기 기준 수신기에 대한 헤드-관련 전달 함수에 관한 정보를 수신하는 단계를 포함하는 것을 선택적으로 포함하고, 상기 헤드-관련 전달 함수는 상기 헤드폰을 사용하는 제1 청취자에 대응한다.
양태 6은 양태 5의 대상을 포함하거나 사용하거나, 이 대상과 선택적으로 결합될 수 있어서, (예를 들어, 제1 청취자 대신에) 제2 청취자가 상기 헤드폰을 사용하고 있다는 표시를 수신하는 단계를 선택적으로 더 포함하고, 이에 응답하여 상기 방법은 상기 기준 수신기에 대한 상기 헤드-관련 전달 함수를 상기 제2 청취자에 대응하는 헤드-관련 전달 함수로 업데이트하는 단계를 포함할 수 있다.
양태 7은 양태 1 내지 6 중 하나 또는 임의의 조합의 대상을 포함하거나 사용하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 기준 임펄스 응답 및 상기 결정된 로컬 잔향 감쇠에 관한 정보를 사용하여 상기 가상 음원 신호에 대한 잔향 신호를 생성하는 단계는, 상기 기준 임펄스 응답의 시간-주파수 포락선을 조정하는 단계를 포함하는 것을 선택적으로 포함한다.
양태 8은 양태 7의 대상을 포함하거나 사용하거나, 양태 7의 대상과 선택적으로 결합될 수 있어서, 상기 기준 임펄스 응답의 시간-주파수 포락선은 상기 임펄스 응답으로부터의 평활화되고/되거나 주파수-비닝된 시간-주파수 스펙트럼 정보에 기초하는 것을 선택적으로 포함하고, 상기 기준 임펄스 응답의 시간-주파수 포락선을 조정하는 단계는, 상기 로컬 잔향 감쇠의 시간-주파수 포락선의 대응 부분들과 상기 기준 임펄스 응답의 시간-주파수 포락선의 차이에 기초하여 상기 포락선을 조정하는 단계를 포함한다.
양태 9는 양태 1 내지 8 중 하나 또는 임의의 조합의 대상을 포함하거나 사용하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 잔향 신호를 생성하는 단계는, 상기 로컬 청취자 환경에 대한 로컬 잔향 감쇠에 관한 상기 결정된 정보 및 인공 잔향 부가 장치 회로를 사용하는 단계를 포함하는 것을 선택적으로 포함한다.
양태 10은 양태 1 내지 9 중 하나 또는 임의의 조합의 대상을 포함하거나 사용하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 기준 환경의 기준 볼륨에 관한 정보를 수신하는 단계는, 상기 기준 볼륨의 수치 표시를 수신하는 단계 또는 상기 기준 볼륨에 관한 치수 정보를 수신하는 단계를 포함하는 것을 선택적으로 포함한다.
양태 11은 양태 1 내지 10 중 하나 또는 임의의 조합의 대상을 포함하거나 사용하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 로컬 환경에 대한 로컬 잔향 감쇠 시간을 결정하는 단계는, 상기 로컬 환경에서 가청 자극 신호를 생성하는 단계, 및 상기 로컬 환경에서 마이크로폰을 사용하여 상기 로컬 잔향 감쇠 시간을 측정하는 단계를 포함하는 것을 선택적으로 포함한다. 일 예에서, 상기 마이크로폰은 개인용 스마트폰과 같은 청취자 특유의 디바이스와 관련된다.
양태 12는 양태 1 내지 11 중 하나 또는 임의의 조합의 대상을 포함하거나 사용하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 로컬 청취자 환경에 대한 상기 로컬 잔향 감쇠에 관한 정보를 결정하는 단계는 상기 로컬 잔향 감쇠 시간을 측정 또는 추정하는 단계를 포함하는 것을 선택적으로 포함한다.
양태 13은 양태 12의 대상을 포함하거나 사용하거나, 양태 12의 대상과 선택적으로 결합될 수 있어서, 상기 로컬 환경에 대한 로컬 잔향 감쇠 시간을 측정 또는 추정하는 단계는 상기 가상 음원 신호의 주파수 콘텐츠에 대응하는 하나 이상의 주파수에서의 상기 로컬 잔향 감쇠 시간을 측정 또는 추정하는 단계를 포함하는 것을 선택적으로 포함한다.
양태 14는 양태 1 내지 13 중 하나 또는 임의의 조합의 대상을 포함하거나 사용하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 로컬 룸 볼륨에 관한 상기 정보를 결정하는 단계는, 상기 로컬 청취자 환경의 로컬 볼륨의 수치 표시를 수신하는 단계, 상기 로컬 청취자 환경의 로컬 볼륨에 관한 치수 정보를 수신하는 단계, 및 프로세서 회로를 사용하여 상기 로컬 청취자 환경의 CAD 도면 또는 3D 모델을 사용하여 상기 로컬 청취자 환경의 로컬 볼륨을 계산하는 단계 중 하나 이상을 포함하는 것을 선택적으로 포함한다.
양태 15는 양태 1 내지 14 중 하나 또는 임의의 조합의 대상을 포함하거나 사용하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 기준 환경에 대한 기준 잔향 감쇠 포락선 - 상기 기준 잔향 감쇠 포락선은 기준 초기 전력 스펙트럼 및 상기 기준 임펄스 응답과 관련된 기준 감쇠 시간을 가짐 - 를 제공 또는 결정하는 단계, 상기 기준 환경의 볼륨과 상기 로컬 청취자 환경의 볼륨의 비율에 의해 상기 기준 초기 전력 스펙트럼을 스케일링함으로써 상기 로컬 청취자 환경에 대한 로컬 초기 전력 스펙트럼을 결정하는 단계, 상기 로컬 초기 전력 스펙트럼 및 상기 로컬 잔향 감쇠에 관한 상기 결정된 정보를 사용하여 상기 로컬 청취자 환경에 대한 로컬 잔향 감쇠 포락선을 결정하는 단계, 및 적응된 임펄스 응답을 제공하는 단계를 선택적으로 더 포함한다. 양태 15에서, 상기 로컬 청취자 환경에서의 가상 음원 신호의 초기 반사(early reflection)에 대응하는 제1 간격 동안, 상기 적응된 임펄스 응답은 상기 로컬 볼륨과 상기 기준 볼륨 사이의 관계에 따라 스케일링된 상기 기준 임펄스 응답과 실질적으로 동일하다. 양태 15에서, 상기 초기 반사 이후의 후속 간격 동안, 상기 적응된 임펄스 응답의 시간-주파수 분포는 상기 결정된 로컬 잔향 감쇠 포락선 및 상기 기준 잔향 감쇠 포락선 사이의 관계에 따라 각각의 시간 및 주파수에서 스케일링된 상기 기준 임펄스 응답의 시간-주파수 분포와 실질적으로 동일하다.
양태 16은 양태 1 내지 15 중 하나 또는 임의의 조합의 대상을 포함하거나, 이 대상과 선택적으로 결합될 수 있어서, 로컬 청취자 환경 내의 특정 위치에서 가상 음원을 시뮬레이션하기 위해 헤드폰 오디오 신호를 제공하는 방법을 포함하거나 사용하는 것과 같이, (장치, 방법, 동작을 수행하는 수단, 또는 머신에 의해 수행될 때 머신이 동작을 수행하게 하는 명령어들을 포함하는 머신 판독 가능 매체와 같은) 대상을 포함하거나 사용할 수 있다. 양태 16은 기준 환경에서 기준 음원 및 기준 수신기에 대한 기준 임펄스 응답에 관한 정보를 수신하는 단계, 상기 로컬 청취자 환경에 대한 로컬 잔향 감쇠에 관한 정보를 결정하는 단계, 상기 기준 임펄스 응답에 관한 정보 및 상기 로컬 잔향 감쇠에 관한 상기 결정된 정보를 사용하여, 상기 가상 음원으로부터 가상 음원 신호에 대한 잔향 신호를 잔향 프로세서 회로를 사용하여 생성하는 단계, 상기 로컬 청취자 환경 내의 특정 위치에서 상기 가상 음원 신호에 기초한 다이렉트 신호를 다이렉트 사운드 프로세서 회로를 사용하여 생성하는 단계, 및 상기 잔향 신호와 상기 다이렉트 신호를 결합하여 상기 헤드폰 오디오 신호를 제공하는 단계를 포함할 수 있다.
양태 17은 양태 16의 대상을 포함하거나 사용하거나, 양태 16의 대상과 선택적으로 결합될 수 있어서, 상기 기준 음원에 대한 확산-음장 전달 함수에 관한 정보를 수신하는 단계, 및 상기 가상 음원에 대한 확산-음장 전달 함수에 관한 정보를 수신하는 단계를 선택적으로 포함하고, 상기 잔향 신호를 생성하는 단계는 상기 기준 음원에 대한 상기 확산-음장 전달 함수와 상기 가상 음원에 대한 확산-음장 전달 함수 사이의 관계에 기초하여 상기 잔향 신호를 보정하는 단계를 포함한다.
양태 18은 양태 16 또는 17 중 하나 또는 임의의 조합의 대상을 포함하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 기준 수신기에 대한 확산-음장 전달 함수에 관한 정보를 수신하는 단계, 및 상기 로컬 청취자 환경에서의 로컬 청취자에 대한 확산-음장 헤드-관련 전달 함수에 관한 정보를 수신하는 단계를 선택적으로 포함하고, 상기 잔향 신호를 생성하는 단계는 상기 기준 수신기에 대한 상기 확산-음장 전달 함수와 상기 로컬 청취자에 대한 상기 확산-음장 헤드-관련 전달 함수 사이의 관계에 기초하여 상기 잔향 신호를 보정하는 단계를 포함한다.
양태 19는 양태 16 내지 18 중 하나 또는 임의의 조합의 대상을 포함하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 기준 환경의 기준 볼륨에 관한 정보를 수신하는 단계, 및 상기 로컬 청취자 환경의 로컬 볼륨에 관한 정보를 결정하는 단계를 선택적으로 포함하고, 상기 잔향 신호를 생성하는 단계는 상기 기준 환경의 기준 볼륨과 상기 로컬 청취자 환경의 로컬 볼륨 사이의 관계에 따라 상기 잔향 신호를 스케일링하는 단계를 포함한다.
양태 20은 양태 19의 대상을 포함하거나 사용하거나, 양태 19의 대상과 선택적으로 결합될 수 있어서, 상기 잔향 신호를 스케일링하는 단계는 상기 로컬 볼륨 대 상기 기준 볼륨의 비율을 사용하는 단계를 포함하는 것을 선택적으로 포함한다.
양태 21은 양태 19 또는 20 중 하나 또는 임의의 조합의 대상을 포함하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 가상 음원 신호에 대한 상기 다이렉트 신호를 생성하는 단계는, 상기 가상 음원 신호에 헤드-관련 전달 함수를 적용하는 단계를 포함하는 것을 선택적으로 포함한다.
양태 22는 양태 1 내지 21 중 하나 또는 임의의 조합의 대상을 포함하거나, 이 대상과 선택적으로 결합될 수 있어서, 오디오 신호 처리 시스템을 포함하거나 사용하는 것과 같이, (장치, 방법, 동작을 수행하는 수단, 또는 머신에 의해 수행될 때 머신이 동작을 수행하게 할 수 있는 명령어들을 포함하는 머신 판독 가능 매체와 같은) 대상을 포함하거나 사용할 수 있고, 상기 오디오 신호 처리 시스템은, 로컬 청취자 환경 내의 특정 위치에 제공되는 가상 음원에 대한 가상 음원 신호를 수신하도록 구성된 오디오 입력 회로, 및 기준 환경에서 기준 음원 및 기준 수신기에 대한 기준 임펄스 응답에 관한 정보, 상기 기준 환경의 기준 볼륨에 관한 정보, 및 상기 로컬 청취자 환경의 로컬 볼륨에 관한 정보를 포함하는 메모리 회로를 포함한다. 양태 22는 상기 오디오 입력 회로 및 상기 메모리 회로에 결합되는 잔향 신호 프로세서 회로를 포함할 수 있고, 상기 잔향 신호 프로세서 회로는 상기 기준 임펄스 응답에 관한 정보, 상기 기준 볼륨에 관한 정보, 및 상기 로컬 볼륨에 관한 정보를 사용하여 상기 로컬 청취자 환경 및 상기 가상 음원 신호에 대응하는 잔향 신호를 생성하도록 구성된다.
양태 23은 양태 22의 대상을 포함하거나 사용하거나, 양태 22의 대상과 선택적으로 결합될 수 있어서, 상기 잔향 신호 프로세서 회로는 상기 잔향 신호를 스케일링하기 위하여 상기 로컬 볼륨과 상기 기준 볼륨의 비율을 사용하여 상기 잔향 신호를 생성하도록 구성되는 것을 선택적으로 포함한다.
양태 24는 양태 22 또는 23 중 하나 또는 임의의 조합의 대상을 포함하거나, 이 대상과 선택적으로 결합될 수 있어서, 상기 가상 음원 신호에 대응하는 다이렉트 신호 및 상기 잔향 신호를 포함하는 헤드폰 오디오 신호를 제공하도록 구성된 헤드폰 신호 출력 회로를 선택적으로 포함한다.
양태 25는 양태 24의 대상을 포함하거나 사용하거나, 양태 24의 대상과 선택적으로 결합될 수 있어서, 헤드-관련 전달 함수를 사용하여 상기 가상 음원 신호를 처리함으로써 상기 다이렉트 신호를 제공하도록 구성된 다이렉트 사운드 프로세서 회로를 선택적으로 포함한다.
이러한 비-제한적인 양태들 각각은 독자적으로 존재할 수 있거나, 본 명세서에 제공된 하나 이상의 다른 양태들 또는 예들과 다양한 순열 또는 조합으로 결합될 수 있다.
이 문서에서 "a" 또는 "an"이라는 용어는 특허 문서에서 일반적으로 사용되는 것처럼, "적어도 하나의(at least one)" 또는 "하나 이상의(one or more)"의 임의의 다른 예 또는 사용과 독립적으로 하나 또는 하나보다 많은 것을 포함하도록 사용된다. 이 문서에서, "또는(or)"이라는 용어는 비배타적인 것을 지칭하는 것으로 사용되어, 달리 명시되지 않는 한, "A 또는 B"는 "A이고 B는 아님(A but not B)", "B이고 A는 아님(B but not A)" 및 "A 및 B(A and B)"를 포함한다. 이 문서에서, "포함하는(including)" 및 "여기서(in which)"라는 용어는 각각의 용어 "포함하는(comprising)" 및 "여기서(wherein)"의 평이한 영어 동의어로서 사용된다.
달리 구체적으로 명시하지 않는 한, 또는 사용된 문맥 내에서 달리 이해되지 않는 한, 본 명세서에서 사용되는 조건 언어, 특히 예컨대 "can", "might", "may", "예를 들어(e.g.)" 등은 일반적으로 특정 실시 예는 특정 특징, 요소 및/또는 상태를 포함하지만 다른 실시 예는 포함하지 않는 것을 전달하려는 의도이다. 따라서, 그러한 조건 언어는 특징, 요소 및/또는 상태가 하나 이상의 실시 예에 대해 어떤 방식으로든 요구된다는 것을 일반적으로 의미하는 의도가 아니거나 또는 하나 이상의 실시 예가 저자 입력(author input) 또는 프롬프팅이 있거나 없이 이러한 특징, 요소 및/또는 상태가 임의의 특정 실시 예에 포함되거나 수행되어야 하는지 여부를 결정하기 위한 로직을 반드시 포함하는 것을 일반적으로 의미하는 의도는 아니다.
상기 상세한 설명은 다양한 실시 예들에 적용되는 바와 같은 신규한 특징들을 도시하고, 기술하고, 지적하였지만, 예시된 디바이스 또는 알고리즘의 형태 및 세부 사항들에서의 다양한 생략, 대체 및 변경이 본 개시의 정신을 벗어나지 않고 행해질 수 있음이 이해될 것이다. 인식되는 바와 같이, 본 명세서에 기술된 본 발명의 특정 실시 예는 일부 특징이 다른 것들과 별도로 사용될 수 있거나 실행될 수 있기 때문에 본 명세서에 설명된 모든 특징 및 이점을 제공하지는 않는 형태 내에서 구현될 수 있다.
더욱이, 비록 본 대상이 구조적 특징들 또는 방법들 또는 동작들에 특유한 언어로 기술되었지만, 첨부된 청구 범위에서 정의된 대상이 반드시 상술된 특정 특징들 또는 동작들에 반드시 제한되는 것은 아니라는 것을 이해해야 한다. 오히려, 상술한 특정 특징 및 동작은 청구범위를 구현하는 예시적인 형태로서 개시된다.

Claims (25)

  1. 로컬 청취자 환경 내의 특정 위치에서 발생(originate)하는 가상 음원 신호에 대응하는 잔향(reverberation) 신호를 헤드폰을 사용한 재생을 위해 준비하는 방법에 있어서,
    프로세서 회로를 사용하여, 기준 환경에서 기준 음원 및 기준 수신기에 대한 기준 임펄스 응답에 관한 정보를 수신하는 단계;
    상기 프로세서 회로를 사용하여, 상기 기준 환경의 기준 볼륨에 관한 정보를 수신하는 단계;
    상기 로컬 청취자 환경에 대한 로컬 잔향 감쇠에 관한 정보를 결정하는 단계;
    상기 로컬 청취자 환경의 로컬 볼륨에 관한 정보를 결정하는 단계;
    상기 프로세서 회로를 사용하여, 상기 기준 임펄스 응답에 관한 정보 및 상기 로컬 잔향 감쇠에 관한 상기 결정된 정보를 사용하여 상기 가상 음원 신호에 대한 잔향 신호를 생성하는 단계; 및
    상기 프로세서 회로를 사용하여, 상기 로컬 볼륨과 상기 기준 볼륨 사이의 관계에 따라 상기 가상 음원 신호에 대한 잔향 신호를 스케일링하는 단계
    를 포함하는 것인, 잔향 신호 준비 방법.
  2. 제1항에 있어서,
    상기 가상 음원 신호에 대한 상기 잔향 신호를 스케일링하는 단계는, 상기 로컬 청취자 환경의 볼륨과 상기 기준 환경의 볼륨의 비율을 사용하는 단계를 포함하는 것인, 잔향 신호 준비 방법.
  3. 제1항에 있어서,
    상기 기준 임펄스 응답에 관한 정보를 수신하는 단계는, 상기 기준 음원에 대한 확산-음장 전달 함수(diffuse-field transfer function)에 관한 정보를 수신하는 단계, 및 로컬 소스에 대한 확산-음장 전달 함수와 상기 기준 음원에 대한 확산-음장 전달 함수 사이의 관계에 기초하여 상기 가상 음원 신호에 대한 잔향 신호를 보정하는 단계를 포함하는 것인, 잔향 신호 준비 방법.
  4. 제1항에 있어서,
    상기 기준 임펄스 응답에 관한 정보를 수신하는 단계는, 상기 기준 수신기에 대한 확산-음장 전달 함수에 관한 정보를 수신하는 단계, 및 상기 로컬 청취자에 대한 확산-음장 헤드-관련 전달 함수 및 상기 기준 수신기에 대한 확산-음장 전달 함수 사이의 관계에 기초하여 상기 가상 음원 신호에 대한 잔향 신호를 스케일링하는 단계를 포함하는 것인, 잔향 신호 준비 방법.
  5. 제1항에 있어서,
    상기 기준 임펄스 응답에 관한 정보를 수신하는 단계는, 상기 기준 수신기에 대한 헤드-관련 전달 함수에 관한 정보를 수신하는 단계를 포함하고, 상기 헤드-관련 전달 함수는 상기 헤드폰을 사용하는 제1 청취자에 대응하는 것인, 잔향 신호 준비 방법.
  6. 제5항에 있어서,
    제2 청취자가 상기 헤드폰을 사용하고 있다는 표시를 수신하는 단계, 및 이에 응답하여, 상기 기준 수신기에 대한 상기 헤드-관련 전달 함수를 상기 제2 청취자에 대응하는 헤드-관련 전달 함수로 업데이트하는 단계를 더 포함하는 것인, 잔향 신호 준비 방법.
  7. 제1항에 있어서,
    상기 기준 임펄스 응답 및 상기 결정된 로컬 잔향 감쇠에 관한 정보를 사용하여 상기 가상 음원 신호에 대한 잔향 신호를 생성하는 단계는, 상기 기준 임펄스 응답의 시간-주파수 포락선을 조정하는 단계를 포함하는 것인, 잔향 신호 준비 방법.
  8. 제7항에 있어서,
    상기 기준 임펄스 응답의 시간-주파수 포락선은 상기 임펄스 응답으로부터의 평활화된 주파수-비닝된 시간-주파수 스펙트럼 정보에 기초하고, 상기 기준 임펄스 응답의 시간-주파수 포락선을 조정하는 단계는, 상기 로컬 잔향 감쇠의 시간-주파수 포락선의 대응 부분들과 상기 기준 임펄스 응답의 시간-주파수 포락선 간의 차이에 기초하여 상기 포락선을 조정하는 단계를 포함하는 것인, 잔향 신호 준비 방법.
  9. 제1항에 있어서,
    상기 잔향 신호를 생성하는 단계는, 상기 로컬 청취자 환경에 대한 로컬 잔향 감쇠에 관한 상기 결정된 정보 및 인공 잔향 부가 장치(reverberator) 회로를 사용하는 단계를 포함하는 것인, 잔향 신호 준비 방법.
  10. 제1항에 있어서,
    상기 기준 환경의 기준 볼륨에 관한 정보를 수신하는 단계는, 상기 기준 볼륨의 수치 표시를 수신하는 단계, 또는 상기 기준 볼륨에 관한 치수 정보를 수신하는 단계를 포함하는 것인, 잔향 신호 준비 방법.
  11. 제1항에 있어서,
    상기 로컬 환경에 대한 로컬 잔향 감쇠 시간을 결정하는 단계는, 상기 로컬 환경에서 가청 자극 신호를 생성하는 단계, 및 상기 로컬 환경에서 마이크로폰을 사용하여 상기 로컬 잔향 감쇠 시간을 측정하는 단계를 포함하는 것인, 잔향 신호 준비 방법.
  12. 제1항에 있어서,
    상기 로컬 청취자 환경에 대한 상기 로컬 잔향 감쇠에 관한 정보를 결정하는 단계는, 상기 로컬 잔향 감쇠 시간을 측정 또는 추정하는 단계를 포함하는 것인, 잔향 신호 준비 방법.
  13. 제12항에 있어서,
    상기 로컬 환경에 대한 로컬 잔향 감쇠 시간을 측정 또는 추정하는 단계는, 상기 가상 음원 신호의 주파수 콘텐츠에 대응하는 하나 이상의 주파수에서의 상기 로컬 잔향 감쇠 시간을 측정 또는 추정하는 단계를 포함하는 것인, 잔향 신호 준비 방법.
  14. 제1항에 있어서,
    로컬 룸 볼륨에 관한 정보를 결정하는 단계는,
    상기 로컬 청취자 환경의 로컬 볼륨의 수치 표시를 수신하는 단계;
    상기 로컬 청취자 환경의 로컬 볼륨에 관한 치수 정보를 수신하는 단계; 및
    프로세서 회로를 사용하여 상기 로컬 청취자 환경의 CAD 도면 또는 3D 모델을 사용하여 상기 로컬 청취자 환경의 로컬 볼륨을 계산하는 단계
    중 하나 이상을 포함하는 것인, 잔향 신호 준비 방법.
  15. 제1항에 있어서,
    상기 기준 환경에 대한 기준 잔향 감쇠 포락선 ― 상기 기준 잔향 감쇠 포락선은 기준 초기 전력 스펙트럼 및 상기 기준 임펄스 응답과 관련된 기준 감쇠 시간을 가짐 ― 를 제공 또는 결정하는 단계;
    상기 기준 환경의 볼륨과 상기 로컬 청취자 환경의 볼륨의 비율로 상기 기준 초기 전력 스펙트럼을 스케일링함으로써 상기 로컬 청취자 환경에 대한 로컬 초기 전력 스펙트럼을 결정하는 단계;
    상기 로컬 초기 전력 스펙트럼 및 상기 로컬 잔향 감쇠에 관한 상기 결정된 정보를 사용하여 상기 로컬 청취자 환경에 대한 로컬 잔향 감쇠 포락선을 결정하는 단계; 및
    적응된 임펄스 응답을 제공하는 단계
    를 더 포함하고,
    상기 로컬 청취자 환경에서의 가상 음원 신호의 초기 반사에 대응하는 제1 간격 동안, 상기 적응된 임펄스 응답은 상기 로컬 볼륨과 상기 기준 볼륨 사이의 관계에 따라 스케일링된 상기 기준 임펄스 응답과 실질적으로 동일하며;
    상기 초기 반사 이후의 후속 간격 동안, 상기 적응된 임펄스 응답의 시간-주파수 분포는 상기 결정된 로컬 잔향 감쇠 포락선 및 상기 기준 잔향 감쇠 포락선 사이의 관계에 따라 각각의 시간 및 주파수에서 스케일링된 상기 기준 임펄스 응답의 시간-주파수 분포와 실질적으로 동일한 것인, 잔향 신호 준비 방법.
  16. 로컬 청취자 환경 내의 특정 위치에서 가상 음원을 시뮬레이션하기 위해 헤드폰 오디오 신호를 제공하는 방법에 있어서,
    기준 환경에서 기준 음원 및 기준 수신기에 대한 기준 임펄스 응답에 관한 정보를 수신하는 단계;
    상기 로컬 청취자 환경에 대한 로컬 잔향 감쇠에 관한 정보를 결정하는 단계;
    잔향 프로세서 회로를 사용하여, 상기 기준 임펄스 응답에 관한 정보 및 상기 로컬 잔향 감쇠에 관한 상기 결정된 정보를 사용하여 상기 가상 음원로부터 가상 음원 신호에 대한 잔향 신호를 생성하는 단계;
    다이렉트 사운드 프로세서 회로를 사용하여, 상기 로컬 청취자 환경 내의 특정 위치에서 상기 가상 음원 신호에 기초한 다이렉트 신호(direct signal)를 생성하는 단계; 및
    상기 잔향 신호와 상기 다이렉트 신호를 결합하여 상기 헤드폰 오디오 신호를 제공하는 단계
    를 포함하는 것인, 헤드폰 오디오 신호 제공 방법.
  17. 제16항에 있어서,
    상기 기준 음원에 대한 확산-음장 전달 함수에 관한 정보를 수신하는 단계; 및
    상기 가상 음원에 대한 확산-음장 전달 함수에 관한 정보를 수신하는 단계
    를 더 포함하고,
    상기 잔향 신호를 생성하는 단계는, 상기 기준 음원에 대한 상기 확산-음장 전달 함수와 상기 가상 음원에 대한 확산-음장 전달 함수 사이의 관계에 기초하여 상기 잔향 신호를 보정하는 단계를 포함하는 것인, 헤드폰 오디오 신호 제공 방법.
  18. 제16항에 있어서,
    상기 기준 수신기에 대한 확산-음장 전달 함수에 관한 정보를 수신하는 단계; 및
    상기 로컬 청취자 환경에서의 로컬 청취자에 대한 확산-음장 헤드-관련 전달 함수에 관한 정보를 수신하는 단계
    를 더 포함하고,
    상기 잔향 신호를 생성하는 단계는, 상기 기준 수신기에 대한 상기 확산-음장 전달 함수와 상기 로컬 청취자에 대한 상기 확산-음장 헤드-관련 전달 함수 사이의 관계에 기초하여 상기 잔향 신호를 보정하는 단계를 포함하는 것인, 헤드폰 오디오 신호 제공 방법.
  19. 제16항에 있어서,
    상기 기준 환경의 기준 볼륨에 관한 정보를 수신하는 단계; 및
    상기 로컬 청취자 환경의 로컬 볼륨에 관한 정보를 결정하는 단계
    를 더 포함하고,
    상기 잔향 신호를 생성하는 단계는, 상기 기준 환경의 기준 볼륨과 상기 로컬 청취자 환경의 로컬 볼륨 사이의 관계에 따라 상기 잔향 신호를 스케일링하는 단계를 포함하는 것인, 헤드폰 오디오 신호 제공 방법.
  20. 제19항에 있어서,
    상기 잔향 신호를 스케일링하는 단계는, 상기 로컬 볼륨 대 상기 기준 볼륨의 비율을 사용하는 단계를 포함하는 것인, 헤드폰 오디오 신호 제공 방법.
  21. 제19항에 있어서,
    상기 가상 음원 신호에 대한 상기 다이렉트 신호를 생성하는 단계는, 상기 가상 음원 신호에 헤드-관련 전달 함수를 적용하는 단계를 포함하는 것인, 헤드폰 오디오 신호 제공 방법.
  22. 오디오 신호 처리 시스템에 있어서,
    로컬 청취자 환경 내의 특정 위치에 제공되는 가상 음원에 대한 가상 음원 신호를 수신하도록 구성된 오디오 입력 회로;
    메모리 회로; 및
    상기 오디오 입력 회로 및 상기 메모리 회로에 결합되는 잔향 신호 프로세서 회로
    를 포함하고,
    상기 메모리 회로는,
    기준 환경에서 기준 음원 및 기준 수신기에 대한 기준 임펄스 응답에 관한 정보;
    상기 기준 환경의 기준 볼륨에 관한 정보; 및
    상기 로컬 청취자 환경의 로컬 볼륨에 관한 정보
    를 포함하고,
    상기 잔향 신호 프로세서 회로는 상기 기준 임펄스 응답에 관한 정보, 상기 기준 볼륨에 관한 정보, 및 상기 로컬 볼륨에 관한 정보를 사용하여 상기 로컬 청취자 환경 및 상기 가상 음원 신호에 대응하는 잔향 신호를 생성하도록 구성되는 것인, 오디오 신호 처리 시스템.
  23. 제22항에 있어서,
    상기 잔향 신호 프로세서 회로는, 상기 잔향 신호를 스케일링하기 위하여 상기 로컬 볼륨과 상기 기준 볼륨의 비율을 사용하여 상기 잔향 신호를 생성하도록 구성되는 것인, 오디오 신호 처리 시스템.
  24. 제22항에 있어서,
    상기 가상 음원 신호에 대응하는 다이렉트 신호 및 상기 잔향 신호를 포함하는 헤드폰 오디오 신호를 제공하도록 구성된 헤드폰 신호 출력 회로를 더 포함하는 것인, 오디오 신호 처리 시스템.
  25. 제24항에 있어서,
    헤드-관련 전달 함수를 사용하여 상기 가상 음원 신호를 처리함으로써 상기 다이렉트 신호를 제공하도록 구성된 다이렉트 사운드 프로세서 회로를 더 포함하는 것인, 오디오 신호 처리 시스템.
KR1020187025134A 2016-02-02 2017-02-02 증강 현실 헤드폰 환경 렌더링 KR102642275B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662290394P 2016-02-02 2016-02-02
US62/290,394 2016-02-02
US201662395882P 2016-09-16 2016-09-16
US62/395,882 2016-09-16
PCT/US2017/016248 WO2017136573A1 (en) 2016-02-02 2017-02-02 Augmented reality headphone environment rendering

Publications (2)

Publication Number Publication Date
KR20180108766A true KR20180108766A (ko) 2018-10-04
KR102642275B1 KR102642275B1 (ko) 2024-02-28

Family

ID=59387403

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187025134A KR102642275B1 (ko) 2016-02-02 2017-02-02 증강 현실 헤드폰 환경 렌더링

Country Status (6)

Country Link
US (1) US10038967B2 (ko)
EP (1) EP3412039B1 (ko)
KR (1) KR102642275B1 (ko)
CN (1) CN109076305B (ko)
HK (1) HK1258156A1 (ko)
WO (1) WO2017136573A1 (ko)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG10201510822YA (en) 2015-12-31 2017-07-28 Creative Tech Ltd A method for generating a customized/personalized head related transfer function
US10805757B2 (en) 2015-12-31 2020-10-13 Creative Technology Ltd Method for generating a customized/personalized head related transfer function
US20170372697A1 (en) * 2016-06-22 2017-12-28 Elwha Llc Systems and methods for rule-based user control of audio rendering
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
WO2018073759A1 (en) 2016-10-19 2018-04-26 Audible Reality Inc. System for and method of generating an audio image
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US11395087B2 (en) * 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
AU2018353008B2 (en) 2017-10-17 2023-04-20 Magic Leap, Inc. Mixed reality spatial audio
US10531222B2 (en) 2017-10-18 2020-01-07 Dolby Laboratories Licensing Corporation Active acoustics control for near- and far-field sounds
JP6874647B2 (ja) * 2017-11-07 2021-05-19 株式会社デンソー 送受信制御装置
US10388268B2 (en) 2017-12-08 2019-08-20 Nokia Technologies Oy Apparatus and method for processing volumetric audio
KR20240000641A (ko) 2017-12-18 2024-01-02 돌비 인터네셔널 에이비 가상 현실 환경에서 청취 위치 사이의 글로벌 전환을 처리하기 위한 방법 및 시스템
KR102334070B1 (ko) * 2018-01-18 2021-12-03 삼성전자주식회사 전자 장치 및 그 제어 방법
US11393483B2 (en) 2018-01-26 2022-07-19 Lg Electronics Inc. Method for transmitting and receiving audio data and apparatus therefor
US10652686B2 (en) * 2018-02-06 2020-05-12 Sony Interactive Entertainment Inc. Method of improving localization of surround sound
CN110164464A (zh) * 2018-02-12 2019-08-23 北京三星通信技术研究有限公司 音频处理方法及终端设备
CN116781827A (zh) 2018-02-15 2023-09-19 奇跃公司 混合现实虚拟混响
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
US11032664B2 (en) 2018-05-29 2021-06-08 Staton Techiya, Llc Location based audio signal message processing
JP2021525980A (ja) 2018-05-30 2021-09-27 マジック リープ, インコーポレイテッドMagic Leap,Inc. フィルタパラメータに関するインデックススキーミング
US11032662B2 (en) 2018-05-30 2021-06-08 Qualcomm Incorporated Adjusting audio characteristics for augmented reality
WO2019241754A1 (en) * 2018-06-14 2019-12-19 Magic Leap, Inc. Reverberation gain normalization
US10812902B1 (en) * 2018-06-15 2020-10-20 The Board Of Trustees Of The Leland Stanford Junior University System and method for augmenting an acoustic space
US11589159B2 (en) * 2018-06-15 2023-02-21 The Board Of Trustees Of The Leland Stanford Junior University Networked audio auralization and feedback cancellation system and method
US10735884B2 (en) * 2018-06-18 2020-08-04 Magic Leap, Inc. Spatial audio for interactive audio environments
US11606663B2 (en) 2018-08-29 2023-03-14 Audible Reality Inc. System for and method of controlling a three-dimensional audio engine
BR112021005050A2 (pt) 2018-09-18 2021-06-08 Huawei Technologies Co., Ltd. dispositivo e método para adaptação de áudio 3d virtual para uma sala real
CN111048107B (zh) * 2018-10-12 2022-09-23 北京微播视界科技有限公司 音频处理方法和装置
US11503423B2 (en) * 2018-10-25 2022-11-15 Creative Technology Ltd Systems and methods for modifying room characteristics for spatial audio rendering over headphones
US10705790B2 (en) * 2018-11-07 2020-07-07 Nvidia Corporation Application of geometric acoustics for immersive virtual reality (VR)
US10897570B1 (en) 2019-01-28 2021-01-19 Facebook Technologies, Llc Room acoustic matching using sensors on headset
US10674307B1 (en) 2019-03-27 2020-06-02 Facebook Technologies, Llc Determination of acoustic parameters for a headset using a mapping server
EP3745745A1 (en) 2019-05-31 2020-12-02 Nokia Technologies Oy Apparatus, method, computer program or system for use in rendering audio
US10645520B1 (en) 2019-06-24 2020-05-05 Facebook Technologies, Llc Audio system for artificial reality environment
US11595773B2 (en) * 2019-08-22 2023-02-28 Microsoft Technology Licensing, Llc Bidirectional propagation of sound
US11276215B1 (en) 2019-08-28 2022-03-15 Facebook Technologies, Llc Spatial audio and avatar control using captured audio signals
CN114902330A (zh) 2019-10-10 2022-08-12 Dts公司 具有深度的空间音频捕获
JP7446420B2 (ja) 2019-10-25 2024-03-08 マジック リープ, インコーポレイテッド 反響フィンガプリント推定
US11190898B2 (en) * 2019-11-05 2021-11-30 Adobe Inc. Rendering scene-aware audio using neural network-based acoustic analysis
CN114762364A (zh) * 2019-12-13 2022-07-15 索尼集团公司 信号处理装置、信号处理方法及程序
US11910183B2 (en) * 2020-02-14 2024-02-20 Magic Leap, Inc. Multi-application audio rendering
GB2593170A (en) * 2020-03-16 2021-09-22 Nokia Technologies Oy Rendering reverberation
WO2023274400A1 (zh) * 2021-07-02 2023-01-05 北京字跳网络技术有限公司 音频信号的渲染方法、装置和电子设备
GB2614713A (en) * 2022-01-12 2023-07-19 Nokia Technologies Oy Adjustment of reverberator based on input diffuse-to-direct ratio
WO2023208333A1 (en) 2022-04-27 2023-11-02 Huawei Technologies Co., Ltd. Devices and methods for binaural audio rendering
CN117395592A (zh) * 2022-07-12 2024-01-12 华为技术有限公司 音频处理方法、系统及电子设备
WO2024089038A1 (en) * 2022-10-24 2024-05-02 Brandenburg Labs Gmbh Audio signal processor and related method and computer program for generating a two-channel audio signal using a specular part and a diffuse part

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100065372A (ko) * 2007-10-12 2010-06-16 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 음성 신호 처리를 이용한 멀티-채널 신호 발생 장치 및 방법
KR20110099097A (ko) * 2008-11-14 2011-09-06 댓 코포레이션 동적 볼륨 제어 및 다중-공간 처리 보호
US20120275613A1 (en) * 2006-09-20 2012-11-01 Harman International Industries, Incorporated System for modifying an acoustic space with audio source content
JP2012227647A (ja) * 2011-04-18 2012-11-15 Nippon Hoso Kyokai <Nhk> マルチチャンネル音響による空間音響再生システム
KR20140030011A (ko) * 2012-08-29 2014-03-11 한국전자통신연구원 야외에서의 사운드 제어 장치 및 방법
WO2015011055A1 (en) * 2013-07-22 2015-01-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030007648A1 (en) 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
EP2337375B1 (en) 2009-12-17 2013-09-11 Nxp B.V. Automatic environmental acoustics identification
US9107021B2 (en) 2010-04-30 2015-08-11 Microsoft Technology Licensing, Llc Audio spatialization using reflective room model
WO2012093352A1 (en) * 2011-01-05 2012-07-12 Koninklijke Philips Electronics N.V. An audio system and method of operation therefor
US9037458B2 (en) * 2011-02-23 2015-05-19 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
US8958567B2 (en) * 2011-07-07 2015-02-17 Dolby Laboratories Licensing Corporation Method and system for split client-server reverberation processing
JP2013198065A (ja) * 2012-03-22 2013-09-30 Denso Corp 音声提示装置
KR20160005695A (ko) * 2013-04-30 2016-01-15 인텔렉추얼디스커버리 주식회사 헤드 마운트 디스플레이 및 이를 이용한 오디오 콘텐츠 제공 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120275613A1 (en) * 2006-09-20 2012-11-01 Harman International Industries, Incorporated System for modifying an acoustic space with audio source content
KR20100065372A (ko) * 2007-10-12 2010-06-16 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 음성 신호 처리를 이용한 멀티-채널 신호 발생 장치 및 방법
KR20110099097A (ko) * 2008-11-14 2011-09-06 댓 코포레이션 동적 볼륨 제어 및 다중-공간 처리 보호
JP2012227647A (ja) * 2011-04-18 2012-11-15 Nippon Hoso Kyokai <Nhk> マルチチャンネル音響による空間音響再生システム
KR20140030011A (ko) * 2012-08-29 2014-03-11 한국전자통신연구원 야외에서의 사운드 제어 장치 및 방법
WO2015011055A1 (en) * 2013-07-22 2015-01-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder

Also Published As

Publication number Publication date
EP3412039B1 (en) 2020-12-09
US10038967B2 (en) 2018-07-31
KR102642275B1 (ko) 2024-02-28
EP3412039A1 (en) 2018-12-12
CN109076305B (zh) 2021-03-23
US20170223478A1 (en) 2017-08-03
WO2017136573A1 (en) 2017-08-10
HK1258156A1 (zh) 2019-11-08
CN109076305A (zh) 2018-12-21
EP3412039A4 (en) 2019-09-04

Similar Documents

Publication Publication Date Title
KR102642275B1 (ko) 증강 현실 헤드폰 환경 렌더링
US10993065B2 (en) Systems and methods of calibrating earphones
CN107113524B (zh) 反映个人特性的双耳音频信号处理方法和设备
JP5857071B2 (ja) オーディオ・システムおよびその動作方法
US10645518B2 (en) Distributed audio capture and mixing
TWI684978B (zh) 用於生成增強聲場描述的裝置及方法與其計算機程式及記錄媒體、和生成修改聲場描述的裝置及方法與其計算機程式
CN106576203B (zh) 确定和使用房间优化传输函数
KR101471798B1 (ko) 다운믹스기를 이용한 입력 신호 분해 장치 및 방법
US11962991B2 (en) Non-coincident audio-visual capture system
US20190394583A1 (en) Method of audio reproduction in a hearing device and hearing device
WO2024089036A1 (en) Audio signal processor and related method and computer program for generating a two-channel audio signal using a smart determination of the single-channel acoustic data

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant