KR20190084883A - 머리 추적 기능이 있는 맞춤형 공간 오디오 생성 방법 - Google Patents

머리 추적 기능이 있는 맞춤형 공간 오디오 생성 방법 Download PDF

Info

Publication number
KR20190084883A
KR20190084883A KR1020190001875A KR20190001875A KR20190084883A KR 20190084883 A KR20190084883 A KR 20190084883A KR 1020190001875 A KR1020190001875 A KR 1020190001875A KR 20190001875 A KR20190001875 A KR 20190001875A KR 20190084883 A KR20190084883 A KR 20190084883A
Authority
KR
South Korea
Prior art keywords
hrtf
head
listener
pair
brir
Prior art date
Application number
KR1020190001875A
Other languages
English (en)
Other versions
KR102574082B1 (ko
Inventor
텍 체 리
게이스 마크 벤자민 레슬리
마크 앤소니 데이비스
에드윈 톰보자
토 온 데스몬드 하이
Original Assignee
크리에이티브 테크놀로지 엘티디
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 크리에이티브 테크놀로지 엘티디 filed Critical 크리에이티브 테크놀로지 엘티디
Publication of KR20190084883A publication Critical patent/KR20190084883A/ko
Application granted granted Critical
Publication of KR102574082B1 publication Critical patent/KR102574082B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/752Contour matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

공간 오디오 렌더링을 위한 헤드폰은 기준 스피커 위치에 대응하는 임펄스 응답 쌍을 갖는 제 1 데이터베이스를 포함한다. 머리 센서는 회전 필터를 갖는 제 2 데이터베이스에 머리 배향 정보를 제공하고, 상기 필터는 기준 스피커 위치에 대한 상이한 방위각 및 고도 위치에 대응한다. 디지털 신호 프로세서는 회전 필터를 임펄스 응답 쌍과 결합하여 헤드폰의 트랜스듀서로 출력 바이노럴 오디오 신호를 생성한다. 임펄스 응답 또는 HRTF 데이터베이스를 생성하는 데있어서의 효율성은 종래의 방법보다 임펄스 응답을 덜 자주 샘플링함으로써 달성된다. 보다 넓은 간격으로 샘플링하면 구형 그리드를 생성하는 데 필요한 데이터 측정 횟수가 줄어들고 임펄스 응답 캡처에 소요되는 시간이 단축된다. 샘플링된 데이터 포인트 사이에 떨어지는 데이터 포인트에 대한 임펄스 응답은 주파수 영역에서 보간하여 생성된다.

Description

머리 추적 기능이 있는 맞춤형 공간 오디오 생성 방법 {METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING}
관련 출원에 대한 교차 참조
본 출원은 2018 년 1 월 7 일자로 출원되고 발명의 명칭이 "METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING"인 미국특허가출원 제62/614,482 호에 기초한 우선권을 주장하며, 그 개시 내용 전체가 참조에 의해 여기에 도입된다.
발명의 분야
본 발명은 머리 추적이 가능한 헤드폰을 통해 오디오를 렌더링하는 방법 및 시스템에 관한 것이다. 보다 상세하게는, 본 발명은 보다 현실적인 오디오 렌더링을 위해 3D 음원을 필터링하고 데이터베이스를 생성함에 있어서, 그리고, 공간적 오디오 인식을 향상시키기 위해 더 큰 머리 움직임을 허용함에 있어서, 효율성의 발전에 관한 것이다.
Binaural Room Impulse Response(BRIR) 처리는 잘 알려져 있다. 공지된 방법에 따르면, 실제 또는 더미 머리 및 바이노럴(binaural) 마이크로폰은 실제 룸 내의 다수의 라우드 스피커 위치 각각에 대한 스테레오 임펄스 응답(IR)을 기록하는데 사용된다. 즉, 한 쌍의 임펄스 응답이 각각의 귀에 하나씩 생성된다. 그런 다음 이러한 IR을 사용하여 음악 트랙을 컨볼루션(필터링)하고 결과를 함께 혼합하여 헤드폰으로 재생할 수 있다. 올바른 이퀄라이제이션이 적용되면, IR 채널이 녹음된 방의 스피커 위치에서 연주되는 것처럼 음악 채널이 소리가 난다. 이것은 방의 여러 스피커 용으로 설계된 다중 채널 소스 자료에서 기대되는 오디오 인식이 헤드폰을 통해 복제될 수 있는 한 가지 방법이다. 명확히 하기 위해 전달 함수와 임펄스 응답 항목에 대한 간략한 설명이 제공된다. 일반적으로 HRTF는 소리의 직접 경로를 설명하기 위해 무반사실에서 스피커로부터 귀로 전달 함수의 측정치인 머리 관련 전달 함수(Head Related Transfer Function)의 약자다. 반대로, BRIR(Binaural Room Impulse Response)는 방의 임펄스 응답을 제공하여 해당 잔향을 음원에 추가한다. 그와 관련된 전달 함수는 본 명세서에서 때때로 바이노럴 룸 전달 함수(Binaural Room Transfer Function, BRTF)로 지칭된다.
HRTF는 각 귀가 공간의 한 지점으로부터 소리를 받는 방식을 특징으로하며 머리의 모양, 크기 및 밀도, 귀의 모양과 크기를 비롯한 머리의 특성에 따라 다르며, 머리 관련 임펄스 응답(HRIR)의 측정치로부터 도출된다. HRIR은 전형적으로 무반향실에서 측정되어 머리와 관련된 정보만 포함하고 룸 잔향은 포함하지 않는다. HRIR은 매우 짧고, 일반적으로 수십 밀리 초 정도다.
청취자가 머리를 움직이지 않는다면, 헤드폰을 통해 렌더링된 BRIR 처리는 실내에서 음악을 듣는 현실적인 느낌을 제공한다. 그러나, 복수의 실제 스피커에 귀기울이고 있는 실제 룸에 있는 청취자가 스피커 위치에 대해 머리를 움직이는 것이 전형적이다. 머리의 최소 움직임조차도 머리에 대한 스피커의 상대적 위치, 특히 각도 방향의 작은 변화를 가져오며, 청취자의 공간 오디오 인식에 최소한의 인지 가능한 변화를 발생시켜야 한다. 청취자에게, 소리는 약간 다른 방향에서 오는 것으로 인식된다. 청취자가 음원의 방향을 감지할 수 있는 능력은 각 귀에서 음원이 감지되는 시간의 차이(즉, 양측 시간 차이("ITD")), 각 귀의 소리 레벨 차이(일반적으로 "Interaural Level Difference"(ILD) 또는 "Interaural Intensity Difference(IID)"라고도 함), 및 귀의 관절 부위의 해부학에 의한 스펙트럼 모양에 귀속된다. 이러한 머리의 작은 움직임은 청취자가 인지한 공간 장면에서 단지 완만한 변화를 일으킬 수 있지만, 청자의 사실감을 제공하고 실제 장면에서 독립적 인 배우로서 자신의 역할을 인식하는 데 중요하다. 작은 머리 움직임을 감지하고 임펄스 응답 및 음원 신호의 처리된 프로덕트를 변경하여 헤드폰을 통한 오디오 렌더링에서 보다 사실적인 결과를 생성하는 효율적인 방법이 필요하다.
전술한 바를 달성하기 위해, 본 발명은 헤드폰을 통한 오디오의 바이노럴 복제에 부가적인 차원의 현실성을 제공하기 위해 머리 추적 하드웨어로부터의 결과에 의해 구현되고 수정되는 바이노럴 신호를 헤드폰에 제공하도록 구성된 프로세서를 다양한 실시예들에서 제공한다. 또한, 본 발명의 다양한 실시예에서, 바이노럴 룸 임펄스 응답 필터에 의해 처리된 오디오의 효율적인 머리 추적 수정은 메모리 저장 요구 사항의 적당한 증가만을 사용하여 이루어진다. BRIR에는 방의 크기에 따라 길이가 100 밀리초가 될 수 있는 룸 잔향이 포함된다. HRIR은 BRIR보다 훨씬 짧기 때문에 HRIR은 훨씬 짧은 필터를 사용하여 모델링할 수 있다. 본 발명의 실시예에 관해 보다 상세히 후술하는 바와 같이, 필터링 동작은 시간 영역, 주파수 영역 또는 분할된 주파수 영역 컨볼루션을 사용하여 수행될 수 있다. 본 명세서에서 사용된 바이노럴 음향 임펄스 응답(BAIR)은 머리, 몸통, 및 귀의 특성; 음향 환경에서의 라우드 스피커의 특성; 및 환경에서 발생하는 잔향을 포함한 음향 환경에 의해 야기되는 기타의 변화 및 스펙트럼 성형(spectral shaping)의 효과를 반영하는 공간 오디오의 측정을 지칭한다. 앞서 논의된 BRIR과 HRIR은 바이노럴 어쿠스틱 임펄스 응답(BAIR)의 하위집합에 해당한다. 용어 BATF(Binaural Acoustic Transfer Function)는 여기서 모두 바이노럴 음향 임펄스 응답(BAIR)의 측정에 기초한 사운드 수신을 특징으로 하는 전달 함수를 지칭한다. 즉, BATF는 HRTF와 BRTF 모두 단일 용어로 커버하도록 정의된다. 마찬가지로, BAIR은 HRIR과 BRIR을 모두 포괄하는 것으로 정의된다.
다른 실시예에서, 임펄스 응답 또는 HRTF 데이터베이스를 저장하는데 필요한 공간의 절약은 종래의 방법보다 임펄스 응답을 덜 빈번하게 샘플링함으로써 달성된다. 이와 같이 보다 넓은 간격으로 샘플링하면 구형 그리드를 생성하는 데 필요한 데이터 측정 횟수가 줄어들고, 임펄스 응답 캡처에 소요되는 시간이 단축된다. 샘플링된 데이터 포인트들 사이에 떨어지는 데이터 포인트에 대한 임펄스 응답은 주파수 영역에서 보간함으로써 여러 실시예에서 생성된다.
간략하게, 머리 추적 수정을 위한 일 실시예의 동작의 개관이 아래에 설명된 샘플에 의해 제공된다. 사용자가 기준 위치(즉, 방위각 0도)를 똑바로 보고 있을 때, 프로세서는 관련 채널에 대한 BRIR에 엄격하게 의존한다. 따라서 프로세싱은 왼쪽 채널(왼쪽 -30도 방위)에서 프론트 좌측 스피커에서 녹음된 BRIR을 기반으로 오디오를 전달하고 오른쪽 채널에서 프론트 우측 스피커(약 +30도)에서 녹음된 BRIR을 제공한다. 따라서, 이 경우, 기준 위치로부터 머리의 움직임이 없기 때문에, 결과는 머리 추적없이 정확하게 동일하다.
머리가 움직이면 이상적으로 BRIR이 바뀌어야 한다. 예를 들어, 머리가 오른쪽으로 5도 회전하면 오른쪽 채널은 30 도가 아닌 25도 방위각이 기록된 BRIR을 사용하여 필터링해야하며 왼쪽 채널은 -30도 대신 -35도로 기록된 BRIR을 사용하여 필터링해야 한다.
그러나 이 구성에 대한 메모리 요구 사항은 상당하다. 두 개의 Impulse Response(IR)가 각 스피커 위치별로 기록되며, 각 IR은 작은 방의 잔향을 포착하기 위해 최소 200msec 가량 길어질 수 있다. BRIR은 a) 귀에 직접 제공되는 무반사 전달 함수와 b) 룸 잔향 전달 함수를 모두 포함한다. 5 개의 스피커 위치와 48 kHz로 녹음하는 일반적인 멀티 채널 룸 배열은 머리의 각 각도마다 96k 필터 계수를 저장해야 한다. -45도에서 45도 사이에서 매 2도의 방위각과 및 매 2도의 고도에 대해 새로운 필터 세트를 갖길 원할 경우, 이는 7억개 이상의 계수를 저장해야 한다.
또한 처리 비용이 증가한다. 주파수 영역('고속') 컨볼루션은 일반적으로 처리 비용이 훨씬 적기 때문에 이러한 유형의 큰 컨볼루션에 일반적으로 사용된다. 그러나 고속 컨볼루션을 사용하고 한 세트의 필터에서 다른 세트로 변경하는 경우 '오래된' 필터와 '새' 필터간의 크로스 페이드(corss-fading)가 필요하다. 즉, 짧은 기간 동안 두 번의 컨볼루션이 반드시 이루어져야 한다. 이것은 머리가 움직일 때마다 처리 비용을 두 배로 늘릴 것이다. 최고 처리 대역폭을 제공하기 위해 신호 처리 하드웨어를 지정해야하므로 하드웨어 비용이 두 배가되거나, 또는, 처리 하드웨어를 변경할 수 없는 경우 필터 길이가 반으로 줄어들 수 있다. 이것은 오디오 품질에 영향을 미친다.
필요한 필터링 동작은 시간 영역, 주파수 영역 또는 분할된 주파수 영역 컨볼루션을 사용하여 수행될 수 있다. 분할 컨볼루션은 반드시 주파수 영역에서 일어날 필요는 없지만 종종 그렇다. 분할 컨볼루션 실시예는 임펄스 응답을 일련의 짧은 세그먼트로 분할하는 것을 포함한다. 입력 신호는 각 세그먼트와 컨볼루션된다. 이러한 분리된 컨볼루션의 결과는 일련의 메모리 버퍼에 저장된다. 출력 신호는 적절한 버퍼를 합산하여 생성된다. 이 방법의 한 가지 이점은 IR의 길이로부터 각 세그먼트의 길이까지 대기 시간을 줄이는 것이다. 일부 실시예에서는 후자가 바람직하지만, 다른 실시예에서는 여기에 설명된 방법이 다른 두 실시예와 함께 작용할 것이다.
본 발명의 다양한 실시예에 따르면, 보다 효율적이고 간단한 시스템으로 현실성을 획득한다. 바람직하게는 단일 세트의 BRIR이 사용되거나, 대안으로서 감소된 BRIR 세트가 사용되어 제 1 위치의 BRIR을 상이한 제 2 위치의 BRIR로 변환하는 회전 필터 세트와 결합된다. 본 명세서에서 사용되는 바와 같이, 회전 필터는, 예를 들어 청취자의 머리 회전이 검출된 후에 요구될 수 있는 바와 같이, 제 1 위치의 BRIR을 상이한 제 2 위치의 BRIR로 제 1 위치에 대한 BRIR로 변환하는 전달 함수를 지칭한다.
일 실시예에 따르면, 머리 추적 기능을 갖는 헤드폰을 통한 공간 오디오를 생성하는 시스템은 시간 영역 FIR 회전 필터를 인터오럴 시간 지연 회로와 결합하는 FIR 필터를 구현하는 적어도 하나의 프로세서를 포함한다.
따라서, 본 발명의 실시예는 헤드폰 애플리케이션을 통한 다양한 공간 오디오의 효과적인 솔루션을 제공한다.
본 발명의 이들 및 다른 특징 및 이점은 도면을 참조하여 아래에서 설명된다.
도 1a는 본 발명의 실시예에 따라 희소(sparse: "성긴"의 의미) HRTF 또는 BRIR 데이터베이스를 생성하기 위한 청취자의 머리 주위의 방위각의 다양한 스피커 위치를 나타내는 도면이다.
도 1b는 본 발명의 실시예에 따라 희소 BRIR 데이터베이스를 생성하기 위한 입면도 내의 다양한 스피커 위치를 도시한 그래프이다.
도 2는 본 발명의 일 실시예에 따른 머리 추적 특징들을 갖는 헤드폰 회로를 예시하는 다이어그램이다.
도 3은 본 발명의 일 실시예에 따라 특정 위치에 대한 단일 가상 스피커에 대한 처리를 도시한 도면이다.
도 4는 머리 추적없이 스테레오 입력 신호를 처리하기 위한 종래의 시스템을 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 머리 추적을 갖는 스테레오 입력을 나타내는 도면이다.
도 6a는 본 발명의 실시예에 따라 캡처 시스템을 통해 희소 HRTF 그리드의 생성을 반영하는 흐름도이다.
도 6b는 본 발명의 실시예에 따라 선택된 HRTF 쌍에 머리 추적 변경이 적용된 재생 시스템을 반영한 흐름도이다.
도 7은 본 발명의 실시예에 따라 맞춤화를 위한 HRTF를 생성하고, 맞춤화를 위한 청취자 특성을 획득하며, 청취자를 위한 맞춤화된 HRTF를 선택하고, 상대적 사용자 머리 움직임과 함께 동작하도록 적응된 회전 필터를 제공하며, HRTF에 의해 수정된 오디오를 렌더링하기 위한, 시스템도이다.
도 8은 본 발명의 실시예에 따라 획득 및 측정에 의해 HRTF 데이터 세트를 생성하는 방법을 도시하는 흐름도이다.
도 9a는 본 발명의 일 실시예에 따라 청취자 주위에 희소 구형 그리드를 생성하는 것을 설명하는 도면이다.
도 9b는 본 발명의 일 실시예에 따라 도 9a의 구형 그리드에 적용된 보간 결과를 나타내는 도면이다.
도 9c는 본 발명의 일 실시예에 따른 머리 움직임 및 관련 회전 필터의 선택에 의해 생성되는 결과적 벡터를 도시한 도면이다.
도 10은 본 발명의 실시예에 따라 상이한 거리에서의 구형 데이터베이스를 나타내는 도면이다.
도 11은 본 발명의 실시예에 따라 맞춤형 HRTF를 생성할 때의 방의 직접적인 소리 및 반사를 나타내는 도면이다.
이제 본 발명의 바람직한 실시예에 대해 상세히 설명할 것이다. 바람직한 실시예의 예가 첨부 도면에 도시되어있다. 본 발명은 이들 바람직한 실시예들과 관련하여 설명될 것이지만, 본 발명을 이러한 바람직한 실시예들로 한정하려는 의도는 아니라는 것을 이해할 것이다. 반대로, 첨부된 청구 범위에 의해 정의된 본 발명의 정신 및 범위 내에 포함될 수 있는 대안, 수정 및 등가물을 포함하는 것으로 의도된다. 이하의 설명에서, 본 발명의 완전한 이해를 제공하기 위해 다수의 특정 세부 사항이 설명된다. 본 발명은 이러한 특정 세부 사항의 일부 또는 전부없이 실시될 수 있다. 다른 경우에, 본 발명을 불필요하게 모호하게하지 않기 위해 잘 알려진 메커니즘은 상세히 설명되지 않았다.
본 명세서에서 숫자와 같은 다양한 도면을 통해 유사한 부분을 가리킨다는 것을 유의해야 한다. 여기에 도시되고 설명된 다양한 도면은 본 발명의 다양한 특징을 설명하기 위해 사용된다. 특정 특징이 다른 도면에 도시되고 다른 특징이 아닌 경우, 또는 구조가 본질적으로 특징의 편입을 금지하는 경우를 제외하고는, 그러한 특징이 도 1에 도시된 실시예에 포함되도록 적용될 수 있다는 것을 이해해야 한다. 다른 수치들은 마치 그 수치들로 완전히 예시된 것처럼 보인다. 달리 지시되지 않는 한, 도면은 반드시 축척이 될 필요는 없다. 도면에 제공된 임의의 치수는 본 발명의 범위를 제한하는 것이 아니라 예시적인 것이다.
사람의 HRTF는 주로 그의 독특한 귀, 머리, 어깨 및 몸통으로 인해 독특하다. 일반적으로 "평균" 머리를 취하여 작성된 일반 HRTF는 사용자의 HRTF와 일치하지 않을 수 있으며 고도 오류, 앞뒤 혼란 및 잘못된 외부화가 발생할 수 있다. 공간 오디오를 제공하는 최상의 결과는 청취자에게 맞춤화된 고밀도 HRTF 데이터베이스를 제공함으로써 달성된다. 이는 정확한 필터링을 제공하는 목적, 즉 선택된 필터 계수가 사운드가 선택된 방향으로부터 나오고 있다는 정확한 인식을 선택된 청취자에게 제공한다는 목적에 중요하다. 물론, 다수의 데이터 포인트를 갖는 HRTF의 맞춤형 데이터베이스를 생성하는 것은 더 많은 메모리를 필요로한다. 전형적으로, HRTF 데이터베이스는 방위각 15 ° 이하 및 고도 15 ° 이하로 떨어진 데이터 포인트에 대해 HRTF 쌍을 제공할 것이다. 이러한 측정은 청취자 주위에 완전한 구형 그리드를 생성하기에 이상적이다. 바람직하게는, HRTF 필터에 더 많은 정확도를 제공하기 위해, 데이터 포인트는 서로 3도만큼 근접하여 위치한다. 물론 이것은 상당한 메모리 저장 공간을 필요로하는 거대한 구형 HRTF 그리드를 생성한다. 또한, 사람의 HRTF를 측정하는 것은 지루하고 힘든 과정이며, 조용한 방이 필요하고 사용자가 오랜 기간 동안 매우 조용히 앉아 있어야 한다. 사용자는 긴 HRTF 측정 프로세스로 인해 피로감을 느낄 수 있으며 정지 상태를 계속 유지할 수 없으므로 이상적인 측정에 미치지 못한다. HRTF는 측정 중에 머리가 몇 센티미터 움직여도 더 이상 정확하지 않다. 실제 HRTF 캡쳐 프로세스와 관련하여, 통상적으로 라우드 스피커는 사용자의 머리 주위를 회전하여 규칙적이고 통상 고밀도인 구형 그리드에 대응하고, 전체 프로세스는 수 시간이 걸릴 수 있다. 측정 프로세스의 출력은 방향(방위각, 고도)에 의해 인덱싱된 HRTF 쌍의 리스트이고 또한 기울기 측정을 포함할 수 있는 HRTF 맵이다. 이 맵은 HRTF 그리드, 구형 그리드 또는 HRTF 데이터 세트라고도 한다. 구형 그리드 개념은 HRTF가 청취자의 머리 주위의 평면에서 360도 방향에서 그리고 이 수평 평면 위와 아래에서 고도 360도에서 사용되어 청취자가 방향성 소리를 정확하게 인식할 수 있음을 나타낸다. 관련된 측정 시간과 예를 통해 MIT의 KEMAR HRTF 데이터베이스는 5 도의 방위각 증가분을 갖는 측정 그리드를 사용한다. 또한, UC Davis의 CIPIC HRTF 데이터베이스는 5.625 도의 방위각 증가분을 갖는 측정 그리드를 사용한다. 심지어 15 도의 간격을 사용하여 일반적으로 사용되는 IRCAM 데이터 세트와 관련하여, 다소 거침에도 불구하고, 완전 구형 그리드 데이터 포인트, 즉 HRTF 맵을 캡처하는 데 상당한 시간이 걸린다.
이러한 결점을 감안할 때, 허용 가능한 정확도를 제공하면서 측정 프로세스를 단축하는 것이 바람직하다.
사용시, 머리 위치(방위각, 고도)가 주어진다면, 종래의 방법은 전형적으로 방위각 및 고도 파라미터를 HRTF 맵에서 "룩업(look up)"하는 지표로서 사용하거나 적절한 HRTF를 그리드하는 지표로서 사용하고 "가장 가까운" HRTF 또는 주변 HRTF의 보간을 사용한다. 시간 영역에서 직선 보간법이 가장 쉬운 방법이지만 매우 잘 작동하지는 않는다. 이는 시간 영역 응답의 보간이 보간에 사용된 인접한 임펄스 응답(IR)의 위상이 틀리면 상쇄 간섭을 초래할 수 있기 때문이다. 이 문제를 피하기 위해 몇 가지 방법이 제안되었다. 하나의 예는 IR이 보간되기 전에 시간 정렬되도록 타임 워핑(time warping)을 적용하는 것이다. 그러나 보간된 IR이 타임 워핑(즉, 시간 왜곡)을 고려하여 수정되어야하기 때문에 이것은 복잡한 절차입니다.
위의 문제로 인해, 바람직한 실시예에서, 우리는 HRTF 사이의 각도가 클 때조차도 양호한 결과를 제공하는 주파수 영역 보간법을 사용한다. 본 발명은 주파수 영역에서 보간하기 위한 실시예들을 제공한다. 보다 상세하게는, 하나의 방법은 HRTF의 크기 및 위상을 보간하는 것을 포함한다. 주파수 영역에서 보간을 수행하려면 고속 푸리에 변환(FFT)을 주파수 영역으로 변환하고 역 FFT를 사용하여 시간 영역으로 다시 변환해야 한다. 이들은 당업자에게 공지되어 있으므로, 여기에서는 변환 블록의 세부 사항에 대한 더 이상의 설명이 불필요하다고 여겨진다.
보간에 사용되는 데이터 포인트(그리드 포인트)의 수는 여러 요소에 따라 다르다. 이러한 요소에는 그리드 간격(전체 격자에 대해 간격이 일정한 경우 균일, 또는, 불균일)과 보간된 점이 그리드 지점을 기준으로 놓이는 위치가 포함된다. 시나리오에 따라, 본 발명의 일부 실시예에서는 4 포인트가 사용되지만, 통상 2 또는 3 포인트를 사용하는 실시예에서 최적 결과가 얻어진다.
본 발명의 다양한 실시예에서, 상이한 보간 방법은 주로, 측정된 포인트에 대한 보간된 포인트의 좌표에 기초하여 선택된다. 제 1 실시예에서, 인접한 선형 보간이 수행된다. 이것은 HRIR을 보간하는 가장 간단한 방법이다. 이 경우 목표 각은 두 인접 점으로부터 보간된다. 이 방법은 동일한 평면상의 점(예: 고정 고도가 있는 방위각 또는 고정 방위각이 있는 고도)을 보간할 때, 즉 보간된 점이 그리드 라인들 중 하나 상에 있을 때 사용할 수 있다.
다른 실시예에서, 쌍선형 보간이 선택된다. 이것은 선형 보간법의 확장이며, 보간된 점이 그리드 선 사이에 있을 때 사용할 수 있다. 주어진 목표 위치에 대해 보간된 HRIR은 4 개의 가장 가까운 점과 관련된 HRIR의 가중치 합계로 근사된다. 이 점들은 대상 위치 주변에 정사각형 또는 직사각형을 형성한다.
또 다른 실시예에서, 구형 삼각형 보간이 선택된다. 이것은 실제로 불균일 측정 격자로 작업할 수 있는 쌍 선형 보간의 수정된 버전이다. 즉, 가장 가까운 네 점이 정사각형이나 직사각형을 형성하지 않을 때이다. 이 경우 3 개의 가장 가까운 점이 대상 위치 주변에 삼각형을 형성하도록 선택된다. 쌍 선형 보간법과 마찬가지로, 보간된 IR은 가장 가까운 점과 관련된 HRTF의 가중치 합으로 근사화된다. 그러나 이 경우 보간 공식은 더 복잡하다.
요약하면, 인접한 선형 보간 실시예는 보간법을 위해 2 개의 HRIR을 사용하고, 쌍 선형 보간법은 보간법을 위해 4 개의 점들을 사용하고, 구형 삼각형 보간법은 보간법을 위해 3 개의 점들을 사용한다. 어떤 방법을 사용하는지는 보간되는 점의 좌표와 그리드 간격이 일정한 지 여부에 따라 다르다.
주파수 영역 보간법을 사용하여 구형 맵 또는 그리드를 커버하는 데 필요한 측정 횟수를 크게 줄이는 보다 거친 측정 간격(예: 5도 대신 30-60도)을 사용할 수 있다. 다시 말해, 주파수 영역 보간법을 사용하여 청취자의 머리를 감싸는 구의 샘플을 보다 성기게 샘플링할 수 있다. 스피커 위치 수가 감소하면 캡처 시간이 크게 줄어든다. 이는 정지 상태 유지해야하는 사용자에 대한 요구를 줄이고(HRTF 품질을 향상 시킴) 방을 더 짧은 기간 동안만 사용할 수 있도록 요구한다.
다른 실시예들에서, HRTF 측정들의 감소는 비정규 격자에서 HRTF들을 캡쳐 링함으로써 제공된다. 모든 머리 포즈가 똑같이 중요하지는 않다. 예를 들어, 정면 60도 원추형은 특정 용도의 경우에 더 중요하게 여겨 질 수 있다. 그리드는 원뿔형에서 더 조밀 할 수 있으며, 후면 및 하단 사분면은 더 희소 격자를 가질 수 있다.
또 다른 실시예에서, 다수의 스피커를 사용하여 효율성을 달성한다. IRCAM과 같은 현재의 방법은 전형적으로 가동식 암 및 회전식 의자에 장착된 하나의 라우드 스피커를 사용하여 구형 그리드를 스팬한다. 이 실시예에서, 우리는 다수의 스피커를 설정하고, 다수의 HRTF를 동시에 측정하여 구형 그리드에 매핑함으로써 측정에 소요되는 시간을 더욱 단축시켰다. 즉, 청취자(2 개의 인-이어 마이크(in-ear microphones)가 장착 됨) 주위에 5 개의 스피커를 갖는 스피커 설정의 경우, 5 개의 스피커 각각을 순차적으로 활성화하므로 청취자가 스피커와 관련하여 취하는 각 위치에 대해 5 회의 판독이 이루어진다. 또한, HRTF 포착 측정의 감소는 대칭을 인식함으로써 상술한 모든 기술로 달성될 수 있다. 즉, 방과 사용자의 피나, 머리 및 몸통이 대칭이라고 가정하면 HRTF를 구의 반쪽으로만 측정하고 HRTF를 다른 절반으로 미러링하면 된다.
도 1a는 본 발명의 실시예들 중 하나의 단계에서 HRTF 또는 BRIR 희소 그리드를 생성하기 위한 청취자 머리 주위의 360도 방위각의 다양한 스피커 위치를 나타내는 도면이다. 이상적으로, 청취자(102) 주위의 방위각에 104 내지 115를 포함하는 것과 같은 스피커 위치는 최대 정확도를 위해 3도 이격된다. 마찬가지로, 도 1b에서, 스피커 위치(122,123,124,125,126,127,128)는 이상적으로 입면에서 가장 가까운 각 스피커 위치로부터 3 도 각도의 상향 기울기 및 하향 기울기를 반영한다. 본 발명의 기술을 사용하여, 인접한 스피커 위치가 30 내지 60도 범위에 있을 수 있는 "희소" HRTF 그리드로, 그리고 이어서 본 발명의 실시예의 주파수 영역 보간 단계들에 의해, 비교가능한 정확도를 얻을 수 있다. 도 1b는 HRTF 데이터베이스를 생성하기 위한 입면도 내의 다양한 스피커 위치를 나타내는 그래픽 표현이다.
상기 예시적인 실시예에서, BRIR 쌍 및 HRIR 쌍은 정지된 머리 위치에 대한 스피커의 이동에 의해 야기되는 응답을 기록함으로써 적어도 부분적으로 생성된다.
다른 실시예에서, BRIR 쌍 및 HRIR 쌍은 정지된 스피커에 대한 머리의 움직임에 의해 야기된 응답을 기록함으로써 적어도 부분적으로 생성된다. 스피커에 대한 머리 위치의 조작이 구현되고 이러한 조작에 기반한 적용 가능한 전달 함수에 대한 수정이 이루어진다. 예를 들어, 0도 기준 위치로부터 45도 왼쪽으로 머리가 회전될 때, 머리에 대해 스피커 이동이 발생하는 상황과는 다른 효과가 발생한다. 이 차이는 대개 머리와 신체의 나머지 부분 사이의 변경된 관계에 부분적으로 기인한다. 스피커 움직임이 청취자에 대해 발생하는 대부분의 측정 상황에서, 머리는 어깨와 관련하여 대칭적으로 배치된다. 이것은 물론 스피커가 고정된 채로 있고 머리가 회전되어있는 경우에는 해당되지 않는다. 이러한 움직임을 인식하고 보상하는 BAIR 및 관련 BATF를 생성하면 오디오의 공간 인식 정확도가 향상된다.
다른 예를 들어, 스피커 높이를 변경하면 고정된 스피커와 관련하여 머리를 물리적으로 위나 아래로 움직이는 것과는 완전히 다른 BAIR을 가진다. BAIR은 위에서 언급한 것처럼 머리의 회전뿐만 아니라 머리의 상향 경사/하향 경사 및 머리의 틸트를 변화시킨다. 바람직한 일 실시예에서, HRTF 데이터 세트 또는 회전 필터 데이터 세트의 생성은 일반적으로 HRTF 및 BAIR을 포착하기 위해 다수의 스피커 위치를 사용하는 것 이외에, 머리 회전에 대한 추가 데이터를 포함한다.
도 2는 본 발명의 일 실시예에 따른 머리 추적 특징부들을 갖는 헤드폰 회로를 예시하는 다이어그램이다. 시스템(200)에서, 머리 추적 센서(202)는 청취자의 머리에 연결되어 사용자의 머리 방향의 변화를 측정한다. 이 센서로부터의 출력은 방위각 블록(204)에서 방위각 및 고도 정보를 생성하는데 사용된다. 그 다음, 유도된 방위각 및 고도 정보는 회전 필터 데이터베이스(208)로 전송된다. DSP 프로세서(216)는 BRIR 데이터베이스(210) 입력 오디오(215) 처리(필터링)를 위해 바람직하게는 고도 및 방위각 파라미터에 대응하는 회전 필터 선택 및 청취자의 맞춤형 HRTF/BRIR을 저장하는 BRIR 데이터베이스(210(일례의 BAIR 데이터베이스)의 정보를 이용하여, 헤드폰 트랜스듀서(220)에 바이노럴 오디오 신호를 생성한다.
도 3은 특정 위치에 대한 단일 가상 스피커에 대한 처리를 도시한다. 입력 오디오 신호는 한 쌍의 전달 함수(302 및 304)에 의해 처리되어 원하는 위치에 가상 스피커의 인식을 생성한다. 머리의 각기 다른 배향에 대한 세트 대신에 단일 세트의 BRIR(또는 양자 택일로 감소된 BRIR 세트)을 사용함으로써, 다양한 실시예에서의 본 발명은 현실감을 유지하면서 전술한 문제점을 실질적으로 회피한다. 이 단일 또는 감소된 BRIR 세트는 기준 위치의 BRIR을 다른 위치의 BRIR로 변환하는 '회전 필터'세트와 결합된다. 이러한 회전 필터는 매우 짧아서 메모리 및 처리 비용을 절약할 수 있다. 이 다이어그램은 머리와 관련된 특정 위치에서 단일 가상 스피커에 대한 처리를 보여준다. 뒤따르는 설명에서 우리는 초기 위치에 대한 HRTF를 두 번째 위치에 대한 HRTF로 변환하기 위해 회전 필터를 호출하는 전달 함수를 유도한다. 이러한 회전 필터를 사용하면 복잡한 필터(머리의 가능한 각 위치에 대한 BRIR)을 가진 데이터베이스를 더 짧고 간단한 필터로 대체할 수 있다.
그런 다음 전달 함수 HL 및 HR을 두 전달 함수의 곱으로 표현한다.
Figure pat00001
HAL과 HAR은 무반향 전달 함수다. 그것들은 스피커 위치에서부터 무반사실의 귀에 전달 함수를 측정한 결과이며 일반적으로 HRTF라고 불린다. HTL과 HTR은 본질적으로 방의 반사로서, HRTF가 제거되면 남겨지는 것이다.
이제 머리-대비 두 개의 상대적인 스피커 위치가 있다고 가정한다. 위치 제로는 머리가 똑바로 앞을 보고 있을 때 스피커 중 하나의 위치다. 이 경우 스피커의 머리-상대 위치는 절대 위치와 동일하다. 위치 1은 어떤 방식으로 머리가 움직일 때 동일한 스피커의 머리 상대 위치이므로 이 머리 상대 위치는 더 이상 절대 위치와 동일하지 않다. 이 두 위치에 대한 전달 함수는 다음과 같다.
Figure pat00002
그리고,
Figure pat00003
위치 차이를 보정하는 한 쌍의 필터 HDL 및 HDR(회전 필터)이 필요하다. 그러므로:
Figure pat00004
그리고
Figure pat00005
(3)에 (2)를 대입하면 다음의 결과를 얻는다:
Figure pat00006
그리고,
Figure pat00007
이제 우리는 반사가 머리-상대 위치와 관계없이 동일하다고 가정한다. 이 가정은 전적으로 사실이 아니지만 설득력있는 결과가 나오기에 충분하다. 그러므로:
Figure pat00008
그리고
Figure pat00009
(4)에 (5)을 대입하면, 다음과 같다:
Figure pat00010
그리고
Figure pat00011
이로써, 우리가 이 방정식의 양 변으로부터 HTL과 HTR을 제거하고 다음과 같이 재배열시킬 수 있다:
Figure pat00012
그리고
Figure pat00013
따라서, 우리가 필요로하는 필터의 전달 함수는 위치 1(현재의 머리-상대 스피커 위치)에 대한 HRTF를 위치 0(절대 스피커 위치)에 대한 HRTF로 나눈 값이다.
HRTF가 무반향이기 때문에 잔향이 없으며 짧은 필터를 사용하여 정확하게 전달될 수 있다. 따라서 회전 필터도 짧을 수 있다. 실험은 보다 짧은 임펄스 응답을 수용하기 위해 탭 수가 감소된 FIR 필터를 사용할 수 있음을 보여주었다. 이는 FIR 필터의 복잡성을 상당히 절감한다. 예를 들어, 앞의 샘플 토론에서 48kHz로 샘플링하려면 수천 개의 계수가 필요하다(500msec HRTF는 500/1000 * 48000 = 24,000 샘플을 필요로하며, 이경우 샘플링 속도는 48kHz이다.
머리의 방향이 바뀌면 필터가 변경되고 필터 계수가 업데이트되어야 한다. 출력 신호 불연속성과 같은 오디오 아티팩트를 피하기 위해, 처리가 이루어지는 동안 여러 샘플에 걸쳐 필터 계수를 크로스 페이드(cross-fading)함으로써 필터들 간의 전달이 직접 취급되고, 따라서, 본 실시예에서 머리 방향이 변경될 때 처리 비용이 약간만 증가한다.
인터오럴 시간 지연
도 3에 도시된 필터(HL, HR)는 시간 지연 I와 제로 지연 필터 F의 곱으로 표현될 수 있다.
Figure pat00014
그리고
Figure pat00015
IL 및 IR은 양귀시간 지연(ITD)이며 시상면 이외의 머리 주위의 음원으로부터 소리가 다른 귀에 도착하기 전에 한쪽 귀에 도달하기 때문에 발생한다. 따라서 항상 적어도 하나는 0이될 것이고 통상적으로 하나는 0이고 다른 하나는 양의 값이다. 머리 추적 상황에서 머리가 움직일 때 ITD를 바꿀 필요가 있다. 주어진 방에서 ITD는 주로 방위각과 머리 폭의 함수다. 정상적인 머리 폭은 보통 양 귀 사이의 거리(interaural distance)라고하며 보통 0.175m라고 가정한다. I가 양의 값이면 이것은 양의 IR 및 0의 IL에 해당하고 I가 음일 경우 그 반대도 마찬가지다.
도 4는 종래의 방법에 따라 스테레오 입력에 대한 머리 추적없이 프로세싱하기 위한 시스템(400)을 도시한다. 여기서, ITD는 BRIR 필터(402, 404, 406 및 408)에 포함된다.
도 5는 본 발명의 일 실시예에 따른 머리 추적 처리를 도시한다.
이 다이어그램에서:
- ITD ...로 표시된 블록은 ITD(즉, 502, 504, 506 및 508)이다.
- ROT(즉, 510, 512, 514 및 516)로 명명된 블록은 시간-영역 FIR 회전 필터이고,
- BRIR(즉, 520, 522, 524 및 526)으로 명명된 블록은 임펄스 응답의 제로-지연 버전이다. 이들은 임의의 컨볼루션(convolution) 방법을 사용하여 수행될 수 있다.
더 많은 채널의 경우, 위와 같이 더 많은 블록으로이 처리를 확장하고 결과를 함께 혼합하여 단일 출력 쌍을 생성할 수 있다.
구현 옵션
회전 필터는 위에 설명된 것처럼 여러 개의 BRIR 필터가 사용된 경우보다 훨씬 적은 저장 공간을 필요로한다. 감소된 탭 수의 FIR 필터를 사용하면, 저장될 필요가 있는 계수의 수는, 예를 들어, 전장 BRIR을 사용하는 7 억 개에 비해 상당히 감소된다. DSP 메모리가 충분하다면 이 계수표를 메모리에 저장할 수 있다. 그러나 외부 메모리를 사용해야할 수도 있고, 이 경우 계수는 머리 방향에 따라 외부 메모리에서 DSP로 전송될 수 있다. 하나의 비 한정적인 실시예에서, 이것은 I2C와 같은 상대적으로 낮은 대역폭의 인터페이스를 통해 구현된다.
메모리를 더 절약하기 위해 회전 필터를 더 거친 격자에 저장할 수 있으며 보간은 실시간으로 수행될 수 있다. HRTF는 대개 거친 격자에 기록된다. 예를 들어 IRCAM HRTF(hrtf.ircam.fr 참조)는 방위각이 15 도인 해상도 및 고도 역시 유사 해상도를 갖는 187개의 점만으로 구성되는 그리드를 이용한다. 즉, 회전 필터의 표에 120,000 개 이하의 계수에 대한 저장이 필요한다. 일 구현에서, 회전 필터는 이 해상도로 저장되며, 실시간으로 이들을 보간한다.
회전 필터를 사용할 때의 효율성 저축은 처리 및 메모리 요구를 줄일 수 있다. 데이터베이스의 크기를 줄이기 위한 두 가지 방법이 아래에 나와 있다. 첫 번째 방법은 두 개의 BRIR이 주어지고 회전 필터를 생성하는 분할 과정을 거친 후, "현실성"을 유지하면서 시간 영역에서 결과 BRIR을 상당히 줄일 수 있다. 위의 우리의 유도에서, 우리는 반사가 머리-상대 위치와 관계없이 동일하다고 가정했다. 따라서 결과 BRIR의 "꼬리"는 대부분 반사를 포함하고 잘려나 갈 수 있으므로 더 적은 수의 탭을 갖는 필터가 된다.
두 번째 방법의 효율성 절감은 대용량 BRIR이 있는 짧은 HRTF 필터를 사용하여 매우 적은 정확도를 희생하는 것을 포함한다. BRIR은 대개 수천 개의 샘플이며 (룸 응답이 없는) HRTF는 천 개 훨씬 미만일 수 있다(예: 일반적으로 각각 512 개 샘플). 바람직한 일 실시예에서, (식 7에 개시된 바와 같이 2 개의 HRTF를 나눔으로써) 회전 필터를 생성하기 위해 별도의 HRTF 데이터베이스를 사용한다. 그런 다음, 예를 들어, 일반 스테레오 스피커 설정의 일부로 -30°에 위치한 소스의 경우에, 이러한 회전 필터는 캡처된 대형(예: 24,000 샘플) BRIR에 적용될 수 있다.
지금까지 명세서는 성기게 측정된 HRTF 데이터 세트로부터 완전한 HRTF 데이터 세트를 생성하기 위한 실시간 방법을 주로 설명했다. 다음은 새로운 청취자의 귀에 마이크를 삽입하지 않고 새로운 청취자에 대한 맞춤형 HRTF 데이터 세트를 생성하도록 구성된 시스템의 개요다. HRTF 데이터 세트에 대한 보간된 엔트리의 실시간 계산보다는, 여러 실시예가 보간된 HRTF 데이터 세트 값; 회전 필터 값; 및 원격 서버에서의 BRIR을 의 연산에 의존할 수 있다.
이전에 설명한 것처럼 청취자에게 방향 감각을 제공하기 위해 오디오 신호는 적절한 전달 함수(예: HRTF 쌍 또는 BRTF 쌍과 같은 BATF 쌍)로 필터링되어, 음원 방향과 관련하여 청취자에게 단서를 제시하여야 한다. 용어 HRTF는 다른 사용자에 의해 다른 의미가 부여되었다. 예를 들어, 일부 경우에 연구자들은, 청취자의 귓바퀴에 의해 제공되는 효과를 포함하면서, 그러나, 청취자의 몸통, 머리, 및 어깨로부터 굴절 및 반사 효과를 또한 포함하면서, 소리가 사용자의 고막에 도달할 때 나타나는 스펙트럼 성형을 지칭하는 것으로 HRTF를 지칭한다. 다른 경우들에서, 청취자 주위의 특정 위치에 대해, 청취자의 귀에 도달하는 시간으로부터 야기된 지연이 또한 HRTF 쌍에 포함된다. 다음 단락에서 기술된 시스템에서, HRTF는 일반적으로 두 개의 귀(ITD)에 대한 상이한 사운드 경로 길이를 반영하는 시간 지연을 포함하고 음원과 귀 사이의 무반향 전달 함수로 제한되는 것으로 가정된다. 그러나 어떤 경우에는 음향 환경이나 실내 효과가 포함될 때보다 광범위한 Binaural Acoustic Transfer Function이 선호된다. HRTF에 적용 가능한 본 명세서에서 기술된 동작은 일반적으로 실내 잔향과 같은 추가의 음향 환경 효과가 BRIR의 관련 전달 함수에 의해 모델링되도록, BRIR에서 수행되는 유사한 동작에 또한 적용된다. 이것은 일반적으로 문맥에서 분명하다.
궁극적으로, 그리고 가상 음원을 적절하게 공간적으로 위치시키도록 사용자를 돕기 위해, 특정 방위각, 고도 및 경우에 따라 거리를 위해 선택된 HRTF가 렌더링 전에 오디오 신호에 적용되어야 한다. 특정 HRTF는 청취자의 머리를 둘러싸는 구체상의 다수의 위치에 대해 HRTF 쌍(즉, 각 귀에 대해 하나씩)을 포함하는 HRTF 데이터 세트로부터 취해진 것이 바람직하다. 예를 들어, 바람직한 실시예는 매 3도의 방위각 변화 및 매 3도의 고도 변화마다 HRTF 쌍이 제공되도록 HRTF 측정치 및/또는 보간된 값에서 세분성(granularity)을 제공한다. 본 발명의 다른 실시예에서 측정의 수 및 측정을 완료하는 데 필요한 시간을 줄이기 위해 대칭성이 이용된다.
개인에 대한 측정을 수행하는 경우, 전형적인 설정은 청취자의 각 귀에 인-이어 마이크로폰을 배치하고 일반적으로 청취자를 감싸는 구체 상에 위치한 음원의 많은 위치에 대해 생성된 임펄스 응답을 기록하는 것을 포함한다. 구면의 대략 7000개의 지점(수평면 위의 판독 값을 기준으로 함) 각각에 대해 측정을 수행하면 상당히 느린 프로세스이지만 청취자에게 정확한 결과를 제공할 수 있다. 즉, 개인화된 HRTF 또는 BRIR 데이터 세트가 해당 청취자에 대해 제공되며, 헤드폰 세트에 대한 통신을 위해 입력 오디오 신호를 형성할 때 렌더링 모듈에서 사용할 수 있게된다. 스펙트럼의 다른 끝에서, 일반화된 HRTF 데이터 세트를 사용하여, 청취자의 귀에 마이크를 삽입하는 것을 피할 수 있다. 예를 들어, 마네킹 머리에 삽입된 마이크로 측정한 측정 값으로부터 연구원에 의해 컴파일(compiled)된 HRTF 데이터세트가 사용될 수 있다. 대안으로서, 한 개인에 대해 측정된 전체 HRTF 데이터 세트가 제 2 개인에 대해 사용될 수 있다. 또한, 평균 HRTF 데이터 세트가 다수의 개인으로부터 취해진 측정치의 집합으로부터 도출될 수 있다. 많은 경우에 있어서, 이러한 "일반적인" HRTF 데이터 세트는 새로운 청취자가 가상의 음원을 정확하게 공간적으로 위치시킬 수 없게함으로써 새로운 청취자에 대해 열악한 성능을 보일 것이다. 본 발명의 다양한 실시예에서, 새로운 청취자의 오디오 관련 물리적 특성이 식별되고, 그러한 특성은 HRTF 데이터 세트의 후보 풀(즉, 집합)으로부터 하나 이상의 HRTF 데이터 세트를 선택하는데 사용된다. 선택은 집합 내의 각 HRTF 데이터 세트와 연관된 유사한 메타 데이터에 물리적 특성을 매핑함으로써 바람직하게 수행된다. 일 실시예에서, 둘 이상의 HRTF 데이터 세트가 "근접"또는 유사하다고 식별되면, 보간 프로세스가 HRTF 데이터 세트들 사이에서 발생한다. HRTF 데이터 세트가 식별되면, 데이터 세트는, 바람직하게는 HRTF 데이터 세트의 저장을 위해 사용자의 렌더링 장치에게로, 사용자에게 전송된다.
도 6a는 본 발명의 실시예에 따라 다양한 거리에서 청취자를 에워싸는 HRTF 쌍의 구형 그리드에 대한 HRTF 또는 로테이션 필터의 일반적인 구형 그리드를 시스템에 캡처하기 위해 취해지는 단계를 도시하는 흐름도이다. 흐름도는 본 발명의 실시예에 따라 선택된 HRTF 쌍에 적용된 희소(sparse) HRTF 그리드의 생성 및 머리 추적 변형을 반영한다. 처음에 단계(602)에서, 청취자는 순차적으로 활성화된 스피커를 갖는 맞춤형 HRTF 데이터베이스의 생성을 위해 다중 스피커 룸에 착석될 수 있다. 하나의 경우에, 결과적인 임펄스 응답은 청취자에 배치된 인-이어(in-ear) 마이크로폰으로부터 기록된다. 일반적으로 추가 데이터 포인트가 필요한 경우 청취자의 머리 또는 의자를 움직여 구축되는 새로운 상대적 위치로 프로세스를 반복한다.
이 방법은 단계(600)에서 시작한다. 단계(608)에서 룸 효과를 포함하는 HRTF/BRIR 측정이 완료되어 특정 고도 값에 대한 측정 값의 희소 세트를 생성한다. 즉, 해당 고도에서 원하는 모든 방위각 값에 대한 측정이 수행된다. 다양한 머리 틸트 위치(즉, 롤)에서 측정이 요구되는 경우, 방위각 측정과 함께 각 틸트 위치에 대한 측정이 완료될 수 있다. 예를 들어, 4 개의 틸트 위치 측정이 필요한 경우, 다음 방위각 위치로 이동하기 전에 각 방위각 값에 대해 틸트 위치 T1 내지 T4를 취할 수 있다. 대안으로서, 특정 고도에 대한 모든 방위각 상승이 제 1 틸트 값에서 취해진 후, 전체 일련의 방위각 측정이 제 2 머리 틸트 값에서 수행될 수 있다. 머리 틸트는 청취자의 공간 오디오 위치에 대한 지각을 방해하기 때문에 중요하며, 머리가 더 이상 틸트 중립 위치에 있지 않다는 것을 청취자가 반영하도록 HRTF 쌍에 대한 조정을 필요로한다. 머리 틸트(head tilt)는 코에서부터 청취자의 머리 뒷면까지 이어지는 축을 중심으로한 회전을 말하며, 항공기 기수에서 선미까지의 축을 중심으로 한 항공기의 회전 롤 운동의 개념과 다소 유사한다.
그 다음, 단계(610)에서, 일 실시예에서 선택적으로 보간이 수행되어 선택된 고도에서 그리드를 완료한다. 명확하게하기 위해, 다양한 실시예에 따라, 상이한 단계들에서 보간이 수행될 수 있다. 예를 들어, 전체 거리 구체에 대해 모든 방위각 및 고도 값을 캡처한 후에 보간을 수행할 수 있다. 또한, 청취자의 사용과 관련하여 제공된 방향에 의해 결정되는 보간이 필요할 때 수행될 수 있다. 다음으로, 단계(612)에서, 바람직하게는 측정된 BRIR을, 직접 소리(무반향)의 기록을 위해 HRTF의 크기에 다소 근사한 크기로 우선 절단(truncation)함으로써, 회전 필터가 생성된다. 본 발명을 제한하고자 함이 없이, HRTF를 100 msec 이하로 절단하는 것은 직접 음을 적절하게 포획하기 위해 적절하게 작동하는 것으로 밝혀졌다. 일 실시예에서, 보간은 절단 이전에 발생한다. 다른 실시예들에서, 보간 전에 포함된 룸 효과들로 HRTF들에 대해 절단이 처음에 수행된다. 일단 보간이 완료되면, 일 실시예에서, 회전 필터는 데이터 세트 내의 잘린 HRTF를, 참조 위치 HRTF(룸 반사 응답을 포함 함)의 절단된 버전으로 나눔으로써 생성된다. 단계(614)에서 더 많은 고도 값이 결정되면, 단계(615)에서 새로운 고도 값이 선택되고 단계(608, 610 및 612)가 계속된다. 회전 필터의 측정, 보간 및 생성이 각각의 고도에 대해 순차적 순서로 도시되어 있지만, 다른 실시예는 모든 고도에 대해 측정 단계를 완료하고 그 전체 구형 그리드에 대해 보간법을 수행한 다음 회전 필터의 생성을 포함한다. 블록(614)에서 모든 고도 값이 처리되었다는 결정이 내려지면, 선택된 거리 구체에 대한 HRTF 데이터베이스가 완료되고(단계(616)), 바람직하게는 저장된다. 더 많은 거리 구체가 캡쳐되거나 생성될 필요가 있는 경우, 단계(619)에서 새로운 거리가 선택되고, 프로세스는 새로운 거리 구체에 대한 방위각, 고도 및 틸트 값의 새로운 세트를 다시 시작한다. 단계(618)에서 더 이상의 거리 구체가 캡처되거나 생성되지 않는다고 결정되면, 프로세스는 단계(620)에서 종료한다.
맞춤화된 HRTF 데이터베이스(즉, 생성된 HRTF 그리드(616))의 사용은 바람직하게 DSP 프로세서로의 공간 방향 및 오디오의 입력(단계 634)의 처리로 시작한다. 다음으로, 단계(636)에서, 입력되었던 원하는 공간 방향에 대한 HRTF 쌍을 선택하는 프로세스가 시작된다. 단계(638)에서, 결정 트리는 공간 방향이 희소 그리드와 정렬되는지를 결정한다. 정확하게 정렬되지 않으면, 보다 정확한 HRTF 쌍이, 바람직하게는 주파수 영역에서, 단계(640)에서 보간에 의해 생성된다. 단계(642)에서, DSP는 결과적인 HRTF 쌍(희소 데이터베이스로부터 또는 보간으로부터)을 입력 오디오 신호에 적용한다. 단계(644)에서 머리 회전이 검출되지 않으면, 프로세스는 추가의 입력 데이터를 위해 단계(646)로 되돌아 간다. 머리 회전이 검출되면, 단계(648)에서 DSP는 이전에 생성 및 기술된 회전 필터 데이터베이스에 액세스한다. 단계(650)에서, DSP는 선택된 회전 필터, 즉 검출된 방위각 및 고도 파라미터에 대응하는 회전 필터를 머리 추적 장치로부터 적용한다. 이들은 원래 선택되거나 개발된 HRTF 및 입력 오디오 신호와 컨볼루션된다. HRTF가 일단 수정되면, 프로세스는 추가 입력 데이터의 처리를 위해 단계(646)로 되돌아 간다.
도 7은 본 발명의 실시예에 따라 새로운 청취자에 대한 맞춤형 HRTF 데이터 세트를 생성하는데 사용되는 시스템을 도시하는 다이어그램이다. 보다 상세하게, 도 7은 본 발명의 실시예에 따라, 맞춤 사용을 위한 HRTF를 생성하고, 맞춤화를 위해 청취자 특성을 획득하고, 청취자에 대해 맞춤화된 HRTF를 선택하고, 상대적인 사용자 머리 이동을 다루도록 적응된 회전 필터를 제공하고, HRTF에 의해 수정된 오디오를 렌더링하는 시스템을 도시한다. 추출 장치(702)는 청취자의 오디오 관련 물리적 특성을 식별하고 추출하도록 구성된 장치이다. 바람직한 실시예에서 블록(702)이 이들 특성(예를 들어, 귀의 높이)을 직접 측정하도록 구성될 수 있지만, 적절한 측정은 적어도 사용자의 귀(들)를 포함하도록 사용자의 촬영된 이미지로부터 추출된다. 이들 특성을 추출하는데 필요한 처리는 바람직하게는 추출 장치(702)에서 발생하지만 다른 곳에서도 위치할 수 있다. 비 제한적 예로서, 이미지 센서(704)로부터 이미지를 수신한 후에 원격 서버(710)의 프로세서에 의해 그 특성이 추출될 수 있다.
바람직한 실시예에서, 이미지 센서(704)는 사용자의 귀의 이미지를 획득하고 프로세서(706)는 사용자에 대한 적절한 특성을 추출하도록 구성되어 이들을 원격 서버(710)에 전송한다. 예를 들어, 일 실시예에서, Active Shape Model을 이용하여 귓바퀴 이미지 내 표식을 식별할 수 있고, HRTF 데이터 세트의 모음으로부터, 즉 HRTF 데이터 세트의 후보 풀로부터, HRTF를 선택하는 것과 관련하여 사용자 관련 특성을 식별하기 위해 이들 표식, 기하학적 관계 및 선형 거리를 사용할 수 있다. 다른 실시예들에서, RGT 모델(회귀 트리 모델)이 특성들을 추출하기 위해 사용된다. 또 다른 실시예에서, 신경망과 같은 기계 학습을 이용하여 특성을 추출한다. 신경망의 한 예는 컨볼루션(Convolutional) 신경망이다. 새로운 청취자의 독특한 물리적 특성을 식별하기 위한 몇 가지 방법에 대한 전체적인 논의는 2016 년 12 월 28 일 출원된 "A Method for Generating a customized Personalized Head Related Transfer Function"이라는 제목의 출원 PCT/SG2016/050621에 기술되어 있으며, 여기에 참조로 완전히 통합된다.
원격 서버(710)는 바람직하게는 인터넷과 같은 네트워크를 통해 액세스 가능하다. 바람직하게는, 원격 서버는 추출 장치(702)에서 추출된 물리적 특성 또는 다른 이미지 관련 특성을 사용하여 가장 매칭된 HRTF 데이터 세트를 결정하기 위해 메모리(714)에 액세스하는 선택 프로세서(710)를 포함한다. 선택 프로세서(712)는 바람직하게는 복수의 HRTF 데이터 세트를 가진 메모리(714)에 액세스한다. 즉, 각 데이터 세트는 바람직하게 적절한 각도의 방위각 및 고도에서 각각의 포인트에 대해 HRTF 쌍을 가질 것이다. 예를 들어 매 3도마다, 그리고 반구에서 유사한 3도 지점의 고도로 측정하면, 120 x 60 포인트 또는 7200 포인트가 필요할 것이고, 각 포인트는 2 개의 HRTF(각 귀에 하나씩)를 나타내며 각각은 직접(무반사) 경우에 대한 짧은 임펄스 응답 길이를 나타낸다. 전술한 바와 같이, 이들은 적당한 크기의 집단(즉, 100명의 개인보다 많은 집단)에서의 귀 마이크를 이용한 측정에 의해 유도되는 것이 바람직하지만, 보다 작은 개인 그룹과 함께 작업될 수 있고, 각 HRTF 데이터 세트와 관련된 유사한 이미지 관련 특성과 함께 저장될 수 있다. 7200 포인트를 모두 취하기보다는, 부분적으로 직접 측정에 의해, 그리고 부분적으로 보간에 의해 HRTF 쌍의 구형 그리드를 형성함으로써 생성될 수 있다. 부분적으로 측정되거나 부분적으로 보간된 그리드일지라도, 적절한 방위각 및 고도 값이 HRTF 데이터 세트로부터 일 포인트에 대한 적절한 HRTF 쌍을 식별하기 위해 사용되면, 그리드 라인 상에 떨어지지 않는 추가 포인트가 보간될 수 있다. 예를 들어, 바람직하게는 주파수 영역에서, 인접한 선형 보간, 쌍선형 보간 및 구형 삼각 보간과 같은 초기에 설명된 보간 방법을 포함하지만 이에 제한되지 않는 임의의 적합한 보간 방법이 사용될 수 있다.
일 실시예에서 메모리(714)에 저장된 각 HRTF 데이터 세트는 청취자를 위한 적어도 하나의 완전 구형 그리드를 포함한다. 그러한 경우에, (청취자 주위의 수평면 상의, 즉 귀 레벨의) 임의의 방위각 또는 고도가 음원 배치를 위해 선택될 수 있다. 다른 실시예에서, HRTF 데이터 세트는 보다 제한적이며, 일례로 종래의 스테레오 셋업에 맞는 스피커 배치(즉, 직선 전방 제로 위치에 대해 + 30도 및 -30도에서, 또는 완전한 구형 그리드의 또 다른 서브 세트에서, 5.1 시스템 또는 7.1 시스템과 같은 제한없이 다중 채널 설정을 위한 스피커 배치)를 생성하는데 필요한 HRTF 쌍으로 제한된다.
도 7은 또한 메모리에 저장된 데이터에 대한 샘플 논리 관계를 도시한다. 메모리는 몇몇 개인에 대한 HRTF 데이터 세트(예를 들어, HRTF DS1A, HRTF DS2A 등)를 칼럼(716)에 포함하여 도시된다. 이들은 각각의 HRTF 데이터 세트와 관련된 특성, 바람직하게는 이미지 관련 특성성에 의해 색인되고 액세스된다. 칼럼(715)에 도시된 관련 특성은 새로운 청취자 특성을, 측정되어 칼럼(716, 717 및 718)에 저장된 HRTF와 연관된 특성과 매치할 수 있게한다. 즉, 이들은 이러한 칼럼에 도시되는 HRTF 데이터 세트의 후보 풀에 대한 인덱스로 작용한다. 칼럼(717)은 기준 위치 0에 저장된 BRIR을 나타낸다. 룸 잔향이 포함된 칼럼(717)의 이러한 HRTF 쌍(각 귀에 대해 하나씩)은 HRTF 데이터 세트의 나머지와 관련되며, 바람직하게는 후술되는 바와 같이 회전 필터와 결합된다.
본 발명의 몇몇 실시예에서, 2 이상의 거리 구가 저장된다. 이는 청취자로부터 2 개의 상이한 거리에 대해 생성된 구형 그리드를 지칭한다. 일 실시예에서, 하나의 기준 위치(BRIR)가 저장되고 2 이상의 상이한 구형 그리드 거리 구체에 대해 연관된다. 다른 실시예들에서, 각각의 구형 그리드는 적용 가능한 회전 필터들과 함께 사용하기 위한 자신의 기준 BRIR을 가질 것이다. 선택 프로세서(712)는 메모리(714)의 특성을, 새로운 청취자에 대해 추출 장치(702)로부터 수신된 추출된 특성과 매칭시키는데 사용된다. 정확한 HRTF 데이터 세트가 선택될 수 있도록 여러 가지 방법이 관련 특성을 일치시키는 데 사용된다. 여기에는 다중 매칭 기반 처리 전략, 다중 인식기 처리 전략; 클러스터 기반 처리 전략, 및 발명의 명칭 "SYSTEM AND A PROCESSING METHOD FOR CUSTOMIZING AUDIO EXPERIENCE"의 2018년 5월 2일자 미국 특허 출원 제 15/969,767 호(그 개시내용 전체가 본 명세서에 포함됨)에 기재된 사항들에 의한 생체 데이터 비교를 포함한다. 칼럼(718)은 제 2 거리에서 측정된 개인에 대한 HRTF 데이터 세트의 집합을 지칭한다. 즉, 이 칼럼은 HRTF 데이터 세트를 측정된 개인에 대해 기록된 제 2 거리에 게시한다. 또 다른 예로서, 칼럼(716)의 제 1 HRTF 데이터 세트는 1.0m 내지 1.5m에서 취할 수 있는 반면, 칼럼(718)의 HRTF 데이터 세트는 청취자로부터 5m에서 측정된 데이터 세트를 지칭할 수 있다. 이상적으로, HRTF 데이터 세트는 완전한 구형 그리드를 형성하지만, 본 발명의 실시예는 완전 구형 그리드의 모든 서브세트에 적용되며, 예를 들어, 종래의 스테레오 세트의 HRTF 쌍을 포함하는 서브 세트; 5.1 다중 채널 설정; a7.1 다중채널 설정; 및 구형 그리드의 모든 다른 변형 및 서브세트를 포함하지만 이에 제한되지 않으며, 예를 들어, 밀도가 불규칙한 구형 그리드는 물론 방위각 및 고도 모두 3도 이하인 HRTF 쌍을 포함한다. 예를 들어, 그리드 포인트의 밀도가 청취자의 후방에 비해 전방 위치에서 훨씬 더 큰 구형 그리드를 포함할 수 있다. 또한, 칼럼(716 및 718)에서의 컨텐츠의 배치는 측정 및 보간으로부터 유도된 것으로 저장된 HRTF 쌍뿐만 아니라, 회전 필터를 포함하는 HRTF 로의 변환을 반영하는 HRTF 데이터 세트를 생성함으로써 더 정제된 HRTF 쌍에도 적용된다. 또한, HRTF 데이터 세트 내의 회전 필터의 존재는 희소 측정된 HRTF 데이터 세트의 제 1 보간에 이어 회전 필터로의 변환을 수반할 수 있다. 대안으로서, 본 발명의 범위를 벗어나지 않고 희소 데이터 세트의 회전 필터로의 변환에 이은 보간법을 수반할 수도 있다.
하나 이상의 일치하는 HRTF 데이터 세트의 선택 후에, 데이터 세트는 새로운 청취자 또는 일부 실시예에서는 선택된 공간화된 오디오 위치에 대응하는 서브 세트에 대한 매칭으로 간주되는 전체 HRTF 데이터 세트의 저장을 위해 오디오 렌더링 장치(730)로 전송된다. 그 다음, 오디오 렌더링 장치는 일 실시예에서 원하는 방위각 또는 고도 위치에 대한 HRTF 쌍을 선택하고 이들을 입력 오디오 신호에 적용하여 헤드폰(735)에 공간 화된 오디오를 제공한다. 다른 실시예에서, 선택된 HRTF 데이터 세트는 오디오 렌더링 장치(730) 및/또는 헤드폰(735)에 연결된 개별 모듈에 저장된다. 제한된 저장 만이 렌더링 장치에서 이용 가능한 다른 실시예에서, 렌더링 장치는 청취자와 가장 매칭되는 관련 특성 데이터의 식별 정보만을, 또는, 최상의 매칭 HRTF 데이터 세트의 식별 정보만을 저장하고, 필요에 따라 원격 서버(710)로부터 실시간으로 (선택된 방위각 및 고도에 대한) 요망 HRTF 쌍을 다운로드한다. 전술한 바와 같이, 이들 HRTF 쌍은 적당한 크기의 집단(즉, 100명의 개인보다 많음)의 귀 마이크를 이용한 측정에 의해 유도되고 각 HRTF 데이터 세트와 관련된 유사한 이미지 관련 특성과 함께 저장되는 것이 바람직하다. 7200 포인트를 모두 취하기보다는 부분적으로 직접 측정에 의해, 그리고, 부분적으로 보간법으로, HRTF 쌍의 구형 그리드를 형성할 수 있다. 부분적으로 측정되거나 부분적으로 보간된 그리드 일지라도, 적절한 방위각 및 고도 값이 HRTF 데이터 세트로부터 일 포인트에 대한 적절한 HRTF 쌍을 식별하기 위해 사용되면, 그리드 라인 상에 없는 추가 포인트가 보간될 수 있다.
도 8은 본 발명의 실시예에 따라 획득 및 측정에 의해 HRTF 데이터 세트를 생성하는 방법을 도시하는 흐름도이다. 블록(720)은 도 7에 도시된 HRTF 생성 블록을 참조한다. HRTF 데이터 세트를 획득하기 위한 하나의 방법은 종래에 언급된 마네킹에 대한 케마(Kemar) 연구 또는 다른 일반적인 HRTF 데이터 세트와 같은 다양한 연구자에 의해 축적된 데이터를 참조하여 종래에 알려져있다. 이 단계는 흐름도의 블록(804)에 포함된다. 이것들은 측정을 위한 청취자의 시간 제약에 개입하지 않는 이점이 있다. 한 가지 단점은 기껏해야 대부분의 사람들에 의한 정확한 소리 위치 인식에 그다지 적합하지 않은 평균 판독을 나타낸다는 것이다. 단계(804)에서, HRTF 측정은 "평균" 개인을 나타내는, 다른 머리의 측정에 의해 대안으로서 획득될 수 있다. 측정된 개인에 대한 지각 오디오 생성에 잘 맞으면서도, 결과는 종종 광범위한 개인 집단에 적용될 때 기대만 못하다.
단계(811)는 본 발명의 일 실시예에 따라 개인에 대한 맞춤형 HRTF 데이터 세트를 생성하는 방법을 나타낸다. 이 단계에서 단일 사용자는 원하는 모든 방위각 및 고도 포인트를 포함하는 전체 측정 범위 또는 적어도 희소 조합을 받게된다. 선택한 방은 HRTF 쌍이 소리를 어떻게 색칠하는지에 극적인 효과를 준다. 다음으로, 단계 812에서, 희소 세트가 측정되면, HRTF 데이터 세트를 완료하기 위해 보간이 수행된다. 다음으로, 단계(813)에서, 데이터 세트의 각 위치에서 룸 HRTF를 취하여 이를 기준 위치(통상적으로 0 위치의 방위각 및 고도)에서의 HRTF로 나눔으로써, 회전 필터가 생성된다. 일 실시예에서 이것은 기준 위치에 대한 BRIR의 절단된 버전이다. 두 번째 이상의 거리 구형 그리드가 필요한 경우, 위의 단계는 제 2 거리 구에서 수행된다. 이것은 그 거리 구(또는 구)에 대해 그 개인에 대한 HRTF 데이터 세트의 생성을 완료한다. 이 HRTF 데이터 세트는 보다 짧은 회전 필터를 사용하여 더 작은 필터를 저장하면서도 원래 측정된 룸 HRTF의 음질을 유지할 수 있다.
단계(821 내지 825)는 새로운 청취자의 귀에 마이크로폰의 삽입을 요구하지 않고 새로운 청취자에 대한 HRTF 데이터 세트를 생성하는 대안적인 실시예를 나타낸다. 이러한 단계들에 따라, 복수의 HRTF 데이터 세트가 새로운 청취자에 의해 또는 청취자를 위해 선택되도록 이용 가능하게될 것이다. 단계(821)에서, 선택된 방에서 다수의 상이한 개인에 대해 다수의 측정이 이루어진다. 이 방이 음향 실(anechoic room), 즉 차음 재료의 사용에 의한 반사를 억제하는 방일 수 있지만, 본 발명의 실시예에서 이러한 측정은 임의의 유형의 룸에서 이루어질 수 있다. 이러한 측정들은 처리 또는 처리되지 않은 룸에서 수행할 수 있으며, 모두 사용자의 선호도에 따라 다르다.
하나의 최적화된 시험/측정 배치는 30도 또는 45도마다 측정을 수행하고 HRTF 쌍 값의 구형 그리드를 완성하기 위해 보간법에 의해 다른 임펄스 응답 값을 도출하는 것을 포함한다. 822 단계를 참조한다. 모든 보간 방법은 적절하게 작동하지만 본 명세서의 다른 곳에서 설명한 특정 보간 기술이 고유한 이점을 제공한다고 믿는다. 예를 들어 주파수 영역 보간은 이러한 구성에서 보다 높은 정확성을 제공하기 위해 테스트되었으므로 희소 그리드가 15 ~ 30 도의 거친 범위에서도 측정된 값에 만족스럽게 의존할 수 있다.
단계(823)에서, 측정된 값과 보간된 값의 조합으로부터 원하는 구형 그리드의 각 포인트에 대해 회전 필터가 생성된다. 회전 필터로의 변환은 전체적으로 또는 부분적으로 보간 단계(822)에 선행할 수 있음에 유의한다. 보간 단계 또는 회전 필터 생성 단계 중 어느 하나에 대해, 이전에 결정된 HRTF 값은 동작을 단순화하기 위해 절단된다. 이는 초기 HRTF에 룸 반응이 포함되어 이러한 대수 연산에 대해 원하는 것보다 더 오랜 시간이 걸리기 때문에 어떤 해상도나 다른 정확도 계측의 손실을 야기해선 안된다. 원하는 기준점에 대한 HRTF/회전 필터 쌍을 제외하고, 회전 필터를 생성한 후에는, 보다 긴 측정된 HRTF/BRIR 값을 선택적으로 폐기할 수 있다. 본 발명에 따라, 측정된 다른 것들의 관련 특성이 확인된다. 매칭을 용이하게하기 위해, 바람직한 실시예에서 이들은 도 7과 관련하여 본 명세서의 앞에서 설명한 이미지 관련 특성이다.
마지막으로, 초기 거리, 전형적으로는 1.0 내지 1.5 m에 대해 구형 그리드에 대해 상기 단계가 완료된 후에, 블록 825에 의해 상징되는 바와 같이 동일한 단계가 제 2 거리 또는 더 나아가 여전히 제 3 거리에 대해 바람직하게 완료된다. 단계 808은 오디오 렌더링에 더 사용하기 위해 HRTF 데이터 세트를 생성함에 있어서 이러한 단계의 완료를 표시한다.
도 9a는 본 발명의 일 실시예에 따라 청취자 주위에 희소 구형 그리드를 생성하는 것을 설명하는 도면이다. 거리 구(901)는 보이지 않는 구체로서 사시도로 도시된다. 개인에 대한 완전한 HRTF 데이터 세트를 생성하는 과정에서 측정 시간을 줄이기 위해 여러 가지 최적화 작업을 수행할 수 있다. 하나는 앞에서 설명한 것처럼 희소 그리드(sparse grid)를 만드는 것이다. 3도 또는 5도마다 측정하는 것이 이상적으로 바람직하지만 30도, 45도 또는 90도마다 초기 측정을 하는 등의 거친 측정 기술은 나중에 보간을 수행할 수 있는 기반을 제공할 수 있다. 예를 들어,(귀 높이의) 청취자의 머리 위치 주위의 수평면(908)에서 위치(903)에 위치된 청취자(902)는 다양한 높이면에서 90도마다 취해진 측정 값을 가질 것이며, 0도 높이(수평면(908)); 30도 고도(평면 909) 및 45도 고도(평면 910)에서를 포함한다. 45 도의 고도에서 측정을 반영하는 평면에서, 측정 지점(912, 913, 914 및 915)가 사용된다. 벡터(907)는 45도 고도에서의 평면에 대한 방위각 0 도의 기준 방향을 나타낸다. 벡터들(905 및 906)은 각각 0도 및 30 도의 고도에서의 수평면에서의 0도 방위각 위치들을 나타낸다.
도 9b는 본 발명의 일 실시예에 따라 청취자 주위로 도 9a의 구형 그리드에 적용된 보간 결과를 나타내는 도면이다. 보간된 포인트(918)는 도 9에 도시된 바와 같이 해상도를 증가시키기 위해 각각의 평면에 추가되어, 매 45도마다 증가하게 된다. 이 점들은 본 명세서의 앞부분에서 설명한 특정 보간 기술을 포함한 임의의 보간 기법을 통해 결정될 수 있다. 이상적으로, 그리고 본 발명의 실시예에 따르면, 해상도는 대략 3도만큼 근접하게 증가된다. 전술한 바와 같이, 그리고 본 발명의 실시예에 따라, 완성된 구형 그리드로부터 회전 필터가 생성된다.
도 9c는 본 발명의 실시예에 따른 머리 이동 및 관련 회전 필터의 선택에 의해 생성된 결과 벡터를 도시한 도면이다. 도 9a 및 9b에서와 같이, 구(901)는 보이지 않으며 구형 그리드 및 그 점을 사시도로 도시한다. 예를 들어, 회전 필터에 대한 기준 위치는 청취자의 머리(904)에 대하여 수평면(908)의 지점(922)에서 취해진 다. 더 명확하게하기 위해, 지점(923)은 0도에 위치된 지점(922) 대비 -90도에서의 위치를 도시하고, 포인트(924)는 180도에서의 위치를 나타낸다. 벡터(930)는 구면 그리드상의 초기 기준 위치(922)에서 지점(928)까지의 청취자에 대해 검출된 결과적인 움직임을 나타내며, 이 움직임은 우측으로 10 도의 머리(시계 방향)의 수평 회전과 45도 상향(고도)의 조합으로 요약된다. 다양한 센서 기술 중 임의의 것이 자이로 스코프, 가속도계 및 자기 센서를 포함하지만 이에 한정되지 않는 본 실시예와 함께 작동할 것이다. 결과적인 머리 회전이 검출되면(즉, 수평면 및 고도 모두에서), 바람직하게는 (여기서 0도 고도 및 0도 방위각 위치(점(922))에 대해 결정되는) BRIR의 기준 위치 세트와 먼저 조합한 후, 대응하는 HRTF 값(회전 필터)이 개인에 대해 도출된 HRTF 데이터세트로부터 결정될 수 있고, 그리고 렌더링 장치(730)에서 입력 오디오 스트림에 적용될 수 있다. 선호 일 실시예는 머리 운동에 기반하여 새 HRTF(회전 필터)를 선택한다. 머리 센서의 개입없이 또는 머리 운동의 다른 모니터없이 오디오 스트림에 대한 새 위치를 식별함에 있어서 동일한 기술을 적용가능하다.
도 10은 본 발명의 실시예에 따라 상이한 거리에서의 구형 데이터베이스를 나타내는 도면이다. 보다 상세하게, 1002는 이 경우에 각각 1.5m 및 5m인, 원거리 구형 그리드의 집합의 평면도를 나타내며, 축적에 맞게 그려진 것은 아니다. 이들 2 개의 구형 그리드 각각에 대한 기준 위치는 지점(956 및 966), 즉 0도 기준 위치에 각각 존재한다. 2 개의 구형 그리드만 도시되었지만, 본 발명의 범위는 복수, 예를 들어 2, 3 또는 4 또는 그 이상의 구형 그리드를 포함한다는 것을 알아야 한다. 1.5m에서의 보다 근접한 구형 그리드(901)의 경우, 4 개의 측정된 위치, 즉 위치 950, 952, 954 및 956이 도시되어 있다. 측정의 완료 후, 보간에 의해 이 구형 그리드에 대한 추가 포인트, 예를 들어 보간된 포인트(951)가 결정된다. 5.0m에서의 제 2 구형 그리드(1001)는 청취자(902)를 에워싸는 수평축의 하나의 사분면에서 초기 결정으로부터 측정 포인트(960, 962, 964 및 966)를 나타낸다. 보간은 보간된 점들(961)을 결정하기 위해 5.0 m 구형 그리드 상을 따른다. 더 나아가, 점들(955)과 같은 중간 거리가 요구된다면, 이들은 구형 그리드(901 및 1001)상의 대응하는 결정된 점들로부터 보간될 수 있다.
도 11은 본 발명의 실시예에 의해 복제된, 직접 및 반사된 사운드의 예를 도시하는 다이어그램이다. HRTF 데이터 세트를 생성하는 과정에서, 도 10의 청취자(1004)와 같은 개인의 머리 및 몸통에 대한 다양한 스피커 위치에서 측정이 수행된다. 도면은 중심(0도)에서 약 45도 왼쪽으로 소스 스피커(1006)를 갖는 실내(1002)에 배치된 청취자(1004)를 도시한다. 청취자(1004)가 개인 또는 마네킹과 같은 모형이든간에, 측정을 위해, 마이크로폰이 귀(현실 또는 합성)에 삽입될 수 있고 수신된 음향 신호의 측정이 이루어질 수 있다. 전형적인 HRTF 데이터 세트는 청취자의 머리 주변에 소정의 3차원 그리드를 생성하도록 다양한 방위각 값 및 일부 경우에 고도 값으로 상대적 음원 위치를 배치함으로써 이루어진다. 본 발명의 다양한 실시예들에서, 직접 및 간접 음파(반사)가 포착되고 HRTF에서 복제되어 현실적인 오디오 렌더링을 제공하는 것을 돕는다. 이 명세서 전반에 걸쳐, 직접 수신된 소리에 국한하는 무반향 전달 함수와는 대조적으로 실내 효과를 포함하는 머리 관련 전달 함수인 BRIR을 참조하였다. 도 11은 반사된 오디오 파(1009 및 1011)의 일례와 함께 청취자(1004)에서 수신된 직접 음파(1008)를 도시한다. 통상적인 관행은 무반향인 HRTF를 제공한다. 즉, 그들은 청취자의 귀에 직접적인 음파의 수신(웨이브 1008과 같은)만을 반영하고 방의 벽 및 기타 물체로부터 소리가 튀는 것에 의해 반사된 사운드 또는 잔향을 기록하지 않는다. 그러한 HRTF를 렌더링에 사용하면, 방 등의 구획된 환경에 있는 청취자의 현실감을 재현할 수 없다. 종래의 HRTF는 보통 수십 밀리 초의 임펄스 응답을 반영한다.
이것은 청취자의 머리 주위의 소리의 굴절과 청취자의 어깨와 몸통의 반사를 녹음하는 것으로 충분할 수 있지만, 벽(1014)과 같은 벽의 반사를 포함시키는 것과 같이 룸 효과를 포착하기에 충분히 길지는 않다. 이는 도 11에 도시된 사운드 경로의 상대 길이를 보면 알 수 있다. 예시를 위해, 스피커(1006)와 같은 음원이 5m × 5m 크기의 실내(1002)에서 청취자(1004)로부터 2m 거리에 있는 경우, 반사파(1009)의 경로조차도 직접 파(1008) 길이의 적어도 4 배가될 것이다. 바람직하게는 나중에 반사음을 캡처하고 더 큰 방이나 환경을 위해 사용되는 BRIR은 수백 밀리 초 길이다.
큰 방이나 청취자의 머리에서 멀리 떨어져있는 음원의 경우 더 긴 BRIR이 발생한다는 것을 알아야 한다.
본 명세서 전반에 걸쳐 그리고 도면 섹션의 도해를 포함하여, 논의는 HRTF 맵, 데이터 세트 또는 그리드의 생성을 포함한다는 것을 이해해야 한다. HRTF 및 HRTF 데이터 세트의 생성에 일반적으로 적용되는 설명은 보다 일반적인 BATF(BRIR 포함)의 경우 이러한 기술 사용에 대한 논의로 또한 해석되어야 하며 본 명세서는 이 기술을 BATF에 적용된 기술로, 그리고 또한 BATF의 하위 집합 인 BRIR에도 적용되는 것으로 설명하는 것으로 이해되어야 한다..
또 다른 실시예에서, 귀가 소리를 수신하는 방법을 특징으로 하는 응답은 거리 성분을 포함한다. 거리의 양태는 (가령, 헤드폰을 통한) 바이노럴 시스템을 통해 사용자가 인지한 소리를 정확하게 복제하는 데 중요한다. 이는 음악 홀(예: 할리우드 보울(Hollywood Bowl)의 오케스트라 이벤트), 청취자의 전용 미디어 실 또는 심지어 고충실도 스피커로 채워진 그의 거실에서 청취자의 경험을 복제하려는 경우와 같이 음악 소스에 특히 중요한다. 방위각 및 고도 위치에 대해 이전에 논의된 HRTF와 마찬가지로, 거리 성분을 고려하고, 오디오 트랙에 적용되는 HRTF에서의 조정을 제공함으로써, 거리 성분이 사용자에 대해 맞춤화될 때 더 나은 경험을 제공한다.
바람직한 실시예에서, 물리적 특성은 카메라 이미지에 의해 사용자의 귀에서 유도된다. 이것은 독립형 카메라 또는 일체형 카메라일 수 있지만 더 바람직하게는 스마트 폰 카메라다. 획득된 이미지는 사용자의 귀의 특징부를 추출하기 위해 처리된다. 이들은 선택 프로세서(예: 원격 호스트 컴퓨터에 있는 프로세서)로 전달된다.
더 잘 인식된 오디오를 얻으려면 음향 환경을 나타내는 BRIR이 개인에 대해 측정된다. 이는 가령, 0도에서 찍은, 단일 BRIR로 수행할 수 있고 이렇게 수행되는 것이 바람직한다. 응답의 길이 때문에 단일 값만 저장된다. 즉, 방의 효과를 정확하게 복제하려면 반사 측정을 위한 룸 응답이 통상적으로 수백 밀리초 길이가 되어야 한다. 일 실시예에서, BRIR은 500 msec 길이다.
BRIR 단일 점 측정은 5.0m 및 10m에서도 수행하는 것이 바람직한다. 거리 성분 3.0m를 더하고 싶다면, 1.0m에서의 0도 BRIR 표와 5.0m 에서의 0도 BRIR 표에 액세스하고 보간하여 그 방위각과 고도에서 3.0m HRTF를 생성할 수 있다. 명확하게 말하면, 실내 응답이 (측정 또는 보간에 의해서) 3.0m에서 단일 위치에 대해 결정되면, 룸 임펄스 응답(BRIR)을 사용하여 임의의 방위각 및 고도에서 가상 오디오를 정확하게 묘사하기 위해, (위치 0에서) BRIR을 이용하고, 이를 적절한 회전 필터와 컨볼루션한다. 즉, 기준 위치 BRIR는 감지된 머리 회전을 신속하고 정확하게 수용하기 위해 제 2 위치 및 다른 위치에 대한 BRIR 로의 제 1 위치에 대한 BRIR의 변환에 대응하는 전달 함수와 컨볼루션된다.
일반적으로, 프로세스에는 다음 요소가 있으며, 이는 모두 동일한 프로세서에서 수행할 수도 있고, 일부는 마이크로 컨트롤러에서 수행할 수도 있고 일부는 디지털 신호 프로세서에서 수행할 수도 있다.
a) 머리 추적 센서와 인터페이싱하여 머리 방향 정보를 도출하고,
b) 각 가상 스피커에 대해 머리 방향을 머리-상대 방위각 및 고도로 변환하며,
c) 각각의 머리-상대 방위각과 고도를 한 쌍의 회전 필터로 변환하고,
d) 회전 필터를 DSP로 전송하며,
e) BRIR 및 회전 필터를 사용하여 오디오 처리를 진행한다.
이상적으로, 회전 필터는 사용자에게 개인화된 BRIR과 일치한다. 따라서 BRIR에 적용된 것과 동일한 개인화 프로세스를 회전 필터에 적용할 수 있다. 그러나 위에서 언급했듯이 관련없는 데이터베이스를 사용하여 필터를 유도하고 BRIR 캡처에 상당한 시간을 절약하면 여전히 좋은 결과를 얻을 수 있다.
머리 추적을 갖는 제안된 공간 오디오 시스템은 몇 가지 장점을 제공할 것으로 기대된다. 가상 현실(Virtual Reality) 응용 프로그램이나 일반적으로 3D 공간 오디오를 렌더링하는 모든 응용 프로그램에서 사용할 수 있다. 종래 기술과 비교하여, 이 제안된 방식의 신규성 및 이점은 다음과 같이 요약될 수 있다:
본 발명의 실시예로부터의 가장 큰 경제성은 필터의 복잡성 감소로부터 달성된다. 즉, 필터 크기가 실질적으로 감소된다. 예를 들어, 각 회전 필터의 크기는 수백 샘플(일반적으로 << 1,000 샘플)이다. 대조적으로, HRTF(룸 응답을 포함함)는 수천 단위일 수 있다(500msec HRTF는 500/1000 * 48000 = 24,000 샘플을 필요로하는데, 샘플링 레이트 = 48kHz이다).
필요한 처리가 그에 상응하여 줄어들어 데스크탑 헤드셋뿐만 아니라 휴대용 장치에서도 고품질 머리 추적을 실현할 수 있다. 본 발명의 실시예에 따라, 오디오를 헤드폰 세트에 국부화시키기 위해 입력 오디오 신호에 적용하기 위한 HRTF(Head Related Transfer Function)를 제공하는 방법이 제공된다. 이 방법은 기준 위치에서 청취자에 대해 개별화된 복수의 바이노럴 룸 임펄스 응답(BRIR)에 액세스하는 단계; 청취자에 대한 추가 위치에 대응하는 청취자의 복수의 머리 관련 전달 함수(HRTF) 쌍에 액세스하는 단계; 상기 기준 위치에 대한 HRTF 또는 BRIR 중 하나에 의해 추가 위치에 대한 상기 복수의 HRTF 각각을 나눔으로써, 상기 청취자의 상기 기준 위치에 대한 HRTF 또는 BRIR을 각각의 추가 위치로 변환하기 위한 복수의 전달 함수를 도출하는 단계; 머리 배향의 변화를 나타내는 신호를 수신하고 상기 신호에 응답하여 이에 대응하는 한 쌍의 복수의 전달 함수를 선택하는 단계; 및 상기 기준 위치 BRIR 및 상기 선택된 복수의 전달 함수들의 쌍을 상기 입력 오디오 신호에 적용하여 상기 오디오를 상기 헤드폰 세트에 위치시키는 단계를 더 포함한다.
다른 실시예에 따르면, 공간 오디오 렌더링을 위한 헤드폰이 제공되며, 기준 음원 위치에 대응하는 제 1 바이노럴 음향 임펄스 응답(BAIR) 쌍을 갖는 제 1 데이터베이스; 머리 배향 정보를 식별하는 머리 센서; 상기 제 1 위치와 상이한 정의된 방위각, 고도 및 틸트 값들 중 적어도 하나를 가지며 상기 머리 배향 정보로부터 유도된 제 2 그룹의 스피커 위치들에 대응하도록 상기 제 1 BAIR 쌍을 변경하는데 사용하도록 구성된 메모리에 저장된 회전 필터들의 제 2 데이터베이스; 및 상기 헤드폰의 변환기들에 출력 바이노럴 오디오 신호를 생성하기 위해 상기 회전 필터들을 상기 제 1의 BAIR 쌍과 결합하도록 구성된 프로세서를 포함하고, 상기 회전 필터들은 제 1 위치에 대한 BAIR들을 제 2의 상이한 위치로 변환하는 전달 함수들을 포함하며, 제 2 위치에 대한 BAIR은 청취자에 대해 생성된 BAIR 쌍에 대응하고 상기 전달 함수는 제 2 위치에 대한 각각의 BAIR 쌍을 기준 위치에 대한 BAIR 쌍으로 나누어 유도된다.
전술한 본 발명이 이해의 명확성을 위해 일부 상세하게 설명되었지만, 특정 변경 및 수정이 첨부된 청구항의 범위 내에서 실시될 수 있음이 명백할 것이다. 따라서, 본 실시예들은 제한적인 것이 아니라 예시적인 것으로 간주되어야하며, 본 발명은 본 명세서에 제공된 상세한 설명들로 제한되지 않으며 첨부된 청구항들의 범위 및 등가물 내에서 수정될 수 있다.

Claims (20)

  1. 헤드폰 세트로 오디오를 국부화시키기 위해 입력 오디오 신호에 적용하기 위한 HRTF(Head Related Transfer Function)를 제공하는 방법으로서,
    기준 위치에서 청취자에 대해 개별화된 복수의 바이노럴 음향 임펄스 응답(BAIR) 쌍에 액세스하는 단계;
    청취자에 대한 추가 위치에 대응하는 청취자에 대한 복수의 BAIR 쌍에 액세스하는 단계;
    상기 추가 위치들에 대한 복수의 BAIR 쌍들 각각을 기준 위치에 대한 BAIR 쌍으로 나눔으로써, 청취자에 대한 기준 위치의 BAIR을 추가 위치 각각으로 변환하기 위한 복수의 전달 함수를 도출하는 단계;
    머리 배향의 변화를 표시하는 신호를 수신하고 상기 신호에 응답하여 상기 신호에 대응하는 복수의 전달 함수의 일 쌍을 선택하는 단계;
    기준 위치 BAIR 쌍 및 선택된 쌍의 복수의 전달 함수를 입력 오디오 신호에 적용하여 오디오를 헤드폰 세트로 국부화시키는 단계를 포함하는
    HRTF 제공 방법.
  2. 제 1 항에 있어서, 상기 머리 배향의 변화는 상기 기준 위치에 대한 상기 머리의 회전, 상향 경사 및 하향 경사, 및 상기 머리의 틸트 중 적어도 하나인 HRTF 제공 방법.
  3. 제 1 항에 있어서, 상기 기준 위치에서 상기 청취자에 대해 개별화된 상기 BAIR 쌍은 상기 복수의 머리 관련 전달 함수 쌍에 대한 응답 길이의 적어도 4 배인 임펄스 응답 길이에 대응하는 HRTF 제공 방법.
  4. 제 1 항에 있어서, 상기 추가 위치들에 대한 상기 복수의 BAIR 쌍들은 상기 위치들 중 일부에 대해 측정된 응답들로부터 유도된 HRTF들을 적어도 포함하는 HRTF 제공 방법.
  5. 제 4 항에 있어서, 상기 추가 위치들에 대한 상기 복수의 BAIR 쌍들은 상기 측정된 HRTF들 중 하나 이상에 인가된 주파수 영역에서의 보간에 의해 유도된 HRTF들을 포함하는 HRTF 제공 방법.
  6. 제 1 항에 있어서, 상기 청취자에 대한 복수의 BAIR 쌍은 청취자로부터 제 1 거리에서 제 1 구형 그리드 상에 음원 위치에 대한 복수의 머리 관련 전달 함수 쌍을 지닌 제 1 구형 그리드의 적어도 일부분을 형성하는 HRTF 제공 방법.
  7. 제 6 항에 있어서, 상기 복수의 BAIR 쌍은 청취자에 대한 머리 관련 전달 함수(head related transfer function, HRTF) 쌍을 포함하고, 청취자로부터 제 2 거리에서 구형 그리드 상에 음원 위치에 대한 복수의 머리 관련 전달 함수를 지닌 제 2 구형 그리드를 포함하며, 상기 방법은 제 1 및 제 2 구형 그리드에 대해 제 1 및 제 2 거리 사이의 거리에 위치한 음원 위치에 대해 보간함으로써 입력 오디오 신호에 인가하기 위한 결과적 HRTF를 생성하는 단계를 더 포함하는, HRTF 제공 방법.
  8. 제 7 항에 있어서, 상기 추가 위치들에 대한 상기 복수의 머리 관련 전달 함수 쌍들은, 상기 추가 위치들에 대해 측정되거나 보간된 HRTF들을, 상기 기준 위치에 대한 실내 오디오 응답 쌍을 포함하는 상기 기준 머리 관련 전달 함수에 의해 나눔으로써 도출되는, HRTF 제공 방법.
  9. 제 1 항에 있어서, 상기 기준 위치에서 청취자에 대해 개별화된 상기 복수의 BAIR 쌍과, 상기 추가 위치에서 청취자에 대해 개별화된 복수의 BAIR 쌍은 고정된 머리 위치에 대한 스피커 이동에 의해 야기되는 응답에 추가하여 고정된 스피커 위치에 대한 머리의 이동에 의해 야기된 응답을 적어도 부분적으로 기록함으로써 생성되는 HRTF 제공 방법.
  10. 공간 오디오 렌더링을 위한 헤드폰에 있어서,
    기준 음원 위치에 대응하는 제 1 바이노럴 룸 임펄스 응답(BRIR) 쌍을 갖는 제 1 데이터베이스;
    머리 배향 정보를 식별하는 머리 센서;
    제 1 위치와 상이한 규정된 방위각, 고도 및 틸트 값들 중 적어도 하나를 가지며 상기 머리 배향 정보로부터 유도된 스피커 위치들의 제 2 그룹에 대응하도록 상기 제 1 BRIR 쌍을 변경하는데 사용하도록 구성된, 메모리에 저장된 회전 필터들의 제 2 데이터베이스; 및
    상기 헤드폰의 트랜스듀서에 출력 바이노럴 오디오 신호를 생성하기 위해 회전 필터를 제 1 BRIR 쌍과 조합하도록 구성된 프로세서를 포함하되,
    상기 회전 필터는 제 1 위치에 대한 HRTF를 제 2의 상이한 위치로 변환하기 위한 전달 함수를 포함하고, 제 2 위치에 대한 HRTF는 청취자에 대해 생성된 HRTF 쌍에 대응하며, 상기 전달 함수는 제 2 위치에 대한 각자의 HRTF 쌍을 기준 위치에 대한 BRIR 쌍으로 나눔으로써 도출되는, 헤드폰
  11. 제 10 항에 있어서, 상기 BRIR 쌍들의 길이는 상기 HRTF 쌍들의 길이의 적어도 4 배인 헤드폰.
  12. 제 10 항에 있어서, 상기 BRIR 쌍들의 길이는 분할 이전에 HRTF 쌍들의 길이로 먼저 절단되는, 헤드폰.
  13. 제 10 항에 있어서, 상기 BRIR 쌍은 청취자에 대한 맞춤형 측정에 의해 결정되는 헤드폰.
  14. 제 10 항에 있어서, 상기 BRIR 쌍들과 상기 HRTF 쌍들은 고정된 머리 위치에 대한 스피커 운동에 의해 야기되는 응답에 추가하여 고정된 스피커 위치에 대한 머리 운동에 의해 야기되는 응답을 기록함으로써 적어도 부분적으로 생성되는 헤드폰.
  15. 제 10 항에 있어서, 상기 BRIR 쌍 및 HRTF 쌍은 청취자 머리의 이미지와 매칭되는 각자의 BRIR 쌍 및 HRTF 쌍의 데이터베이스에 대해 청취자가 청취자의 머리를 찍은 적어도 하나의 사진을 매칭시켜서 도출되는 헤드폰.
  16. 제 10 항에 있어서, 상기 각각의 BRIR 쌍은 HRTF 쌍들의 길이의 적어도 4 배인 헤드폰.
  17. 제 15 항에 있어서, 상기 HRTF 쌍은 제 2 데이터 세트의 일부를 형성하고, 주파수 영역 보간에 의해 희소 분포된 HRTF 데이터 세트로부터 적어도 부분적으로 생성되는 헤드폰.
  18. 바이노럴 렌더링을 위해 구성된 바이노럴(binaural) 공간 오디오 렌더링 시스템으로서,
    오디오가 방위각 및 고도 중 적어도 하나를 갖는 위치들로부터 생성되는 바이노럴 렌더링 시스템에서 지각을 생성하기 위해 오디오 신호를 수정하도록 지시된 메모리에 저장된 머리 관련 전달 함수(Head Related Transfer Function; HRTF)의 제 1 데이터베이스;
    제 1 기준 위치에 대한 BRIR을, 상이한 제 2 위치의 BRIR로 변환하기 위한 전달 함수를 포함하는, 그리고 메모리에 저장되는, 회전 필터들의 제 2 데이터베이스 - 상기 회전 필터들의 제 2 데이터베이스는 제 1 기준 위치와는 상이한 적어도 하나의 규정된 방위각 및 고도를 가진 가상 스피커 위치들의 제 2 그룹에 대응하도록 BRIR을 수정하는데 사용하도록 또한 구성되고, 상기 회전 필터는 제 1 데이터베이스 내 복수의 FRTF 각각을 제 1 기준 위치에 대한 BRIR로 나눔으로써 도출됨 ;
    상기 제 2 데이터베이스로부터의 회전 필터 중 선택된 하나를 상기 제 1 데이터베이스로부터의 임펄스 응답 중 선택된 하나와 결합하여 상기 스피커 위치의 제 2 그룹에 대한 BRIR을 생성하도록 구성된 디지털 신호 프로세서(DSP); 및
    상기 스피커 위치들의 제 2 그룹에 대해 상기 결정된 BRIR들로 오디오 신호를 변경하도록 구성된 오디오 렌더링 회로를 포함하는, 시스템.
  19. 제 18 항에 있어서, 상기 제 1 위치들은 방의 다중 채널 스피커들의 위치들에 대응하고, 상기 채널들의 개수는 적어도 2 개를 포함하고, 상기 제 1 데이터베이스 내의 HRTF 쌍 및 상기 기준 위치에 대한 상기 BRIR 쌍들은 고정된 머리 위치에 대한 스피커 이동에 의해 야기되는 응답에 추가하여 고정된 스피커 위치에 대한 머리의 이동에 의해 야기되는 응답을 기록함으로써 적어도 부분적으로 생성되는, 시스템.
  20. 제 18 항에 있어서, 상기 오디오 렌더링 회로로부터의 출력은 헤드폰에 제공되고, 상기 제 1 및 제 2 데이터베이스는 상기 헤드폰들 중 하나 또는 상기 헤드폰들에 결합된 모듈에 수용되는 시스템.
KR1020190001875A 2018-01-07 2019-01-07 머리 추적 기능이 있는 맞춤형 공간 오디오 생성 방법 KR102574082B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862614482P 2018-01-07 2018-01-07
US62/614,482 2018-01-07
US16/136,211 US10390171B2 (en) 2018-01-07 2018-09-19 Method for generating customized spatial audio with head tracking
US16/136,211 2018-09-19

Publications (2)

Publication Number Publication Date
KR20190084883A true KR20190084883A (ko) 2019-07-17
KR102574082B1 KR102574082B1 (ko) 2023-09-01

Family

ID=64755219

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190001875A KR102574082B1 (ko) 2018-01-07 2019-01-07 머리 추적 기능이 있는 맞춤형 공간 오디오 생성 방법

Country Status (9)

Country Link
US (5) US10390171B2 (ko)
EP (1) EP3509327B1 (ko)
JP (1) JP7071297B2 (ko)
KR (1) KR102574082B1 (ko)
CN (1) CN110021306B (ko)
DK (1) DK3509327T3 (ko)
PL (1) PL3509327T3 (ko)
SG (1) SG10201900071XA (ko)
TW (1) TWI797230B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230139847A (ko) * 2022-03-23 2023-10-06 주식회사 알머스 위치보정 기능의 이어폰 및 이를 이용하는 녹음방법

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102125856B1 (ko) * 2012-11-12 2020-06-23 삼성전자주식회사 데이터를 송수신하기 위한 멀티미디어 장치들간 출력 장치 공유 방법 및 시스템
SG10201800147XA (en) 2018-01-05 2019-08-27 Creative Tech Ltd A system and a processing method for customizing audio experience
SG10201510822YA (en) 2015-12-31 2017-07-28 Creative Tech Ltd A method for generating a customized/personalized head related transfer function
ES2954317T3 (es) * 2018-03-28 2023-11-21 Fund Eurecat Técnica de reverberación para audio 3D
US11032664B2 (en) 2018-05-29 2021-06-08 Staton Techiya, Llc Location based audio signal message processing
JP7081052B2 (ja) * 2018-09-04 2022-06-06 アップル インコーポレイテッド 模擬現実(sr)におけるデバイス共有及び対話性の表示
US11115773B1 (en) * 2018-09-27 2021-09-07 Apple Inc. Audio system and method of generating an HRTF map
US10856097B2 (en) 2018-09-27 2020-12-01 Sony Corporation Generating personalized end user head-related transfer function (HRTV) using panoramic images of ear
CN111107481B (zh) * 2018-10-26 2021-06-22 华为技术有限公司 一种音频渲染方法及装置
US11115769B2 (en) * 2018-11-26 2021-09-07 Raytheon Bbn Technologies Corp. Systems and methods for providing a user with enhanced attitude awareness
US11418903B2 (en) 2018-12-07 2022-08-16 Creative Technology Ltd Spatial repositioning of multiple audio streams
US10966046B2 (en) 2018-12-07 2021-03-30 Creative Technology Ltd Spatial repositioning of multiple audio streams
US11113092B2 (en) 2019-02-08 2021-09-07 Sony Corporation Global HRTF repository
GB2581785B (en) * 2019-02-22 2023-08-02 Sony Interactive Entertainment Inc Transfer function dataset generation system and method
US11221820B2 (en) 2019-03-20 2022-01-11 Creative Technology Ltd System and method for processing audio between multiple audio spaces
US11451907B2 (en) * 2019-05-29 2022-09-20 Sony Corporation Techniques combining plural head-related transfer function (HRTF) spheres to place audio objects
US11347832B2 (en) 2019-06-13 2022-05-31 Sony Corporation Head related transfer function (HRTF) as biometric authentication
US11076257B1 (en) * 2019-06-14 2021-07-27 EmbodyVR, Inc. Converting ambisonic audio to binaural audio
US10999690B2 (en) 2019-09-05 2021-05-04 Facebook Technologies, Llc Selecting spatial locations for audio personalization
JP7286876B2 (ja) * 2019-09-23 2023-06-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 変換パラメータによるオーディオ符号化/復号化
GB2588171A (en) * 2019-10-11 2021-04-21 Nokia Technologies Oy Spatial audio representation and rendering
US11146908B2 (en) 2019-10-24 2021-10-12 Sony Corporation Generating personalized end user head-related transfer function (HRTF) from generic HRTF
US11070930B2 (en) 2019-11-12 2021-07-20 Sony Corporation Generating personalized end user room-related transfer function (RRTF)
US11061469B2 (en) * 2019-11-20 2021-07-13 XRSpace CO., LTD. Head mounted display system and rotation center correcting method thereof
GB201918010D0 (en) * 2019-12-09 2020-01-22 Univ York Acoustic measurements
MX2022008138A (es) * 2020-01-09 2022-07-27 Sony Group Corp Dispositivo y metodo de procesamiento de informacion, y programa.
US11240621B2 (en) * 2020-04-11 2022-02-01 LI Creative Technologies, Inc. Three-dimensional audio systems
US11675423B2 (en) 2020-06-19 2023-06-13 Apple Inc. User posture change detection for head pose tracking in spatial audio applications
US11586280B2 (en) 2020-06-19 2023-02-21 Apple Inc. Head motion prediction for spatial audio applications
US11589183B2 (en) * 2020-06-20 2023-02-21 Apple Inc. Inertially stable virtual auditory space for spatial audio applications
US11647352B2 (en) 2020-06-20 2023-05-09 Apple Inc. Head to headset rotation transform estimation for head pose tracking in spatial audio applications
DE112021003787T5 (de) * 2020-07-15 2023-06-29 Sony Group Corporation Informationsverarbeitungsvorrichtung, Informationsverarbeitungsverfahren und Endgerätevorrichtung
JP7435334B2 (ja) * 2020-07-20 2024-02-21 株式会社Jvcケンウッド 頭外定位フィルタ決定システム、頭外定位フィルタ決定方法、及びプログラム
CN112188382B (zh) * 2020-09-10 2021-11-09 江汉大学 一种声音信号处理方法、装置、设备和存储介质
US11582573B2 (en) 2020-09-25 2023-02-14 Apple Inc. Disabling/re-enabling head tracking for distracted user of spatial audio application
WO2022108494A1 (en) * 2020-11-17 2022-05-27 Dirac Research Ab Improved modeling and/or determination of binaural room impulse responses for audio applications
US11750745B2 (en) 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
CN112492446B (zh) * 2020-12-08 2023-03-14 北京声加科技有限公司 利用入耳式耳机实现信号均衡的方法及处理器
CN112492445B (zh) * 2020-12-08 2023-03-21 北京声加科技有限公司 利用罩耳式耳机实现信号均衡的方法及处理器
CN112584277B (zh) * 2020-12-08 2022-04-22 北京声加科技有限公司 一种室内音频均衡的方法
US11641945B2 (en) 2020-12-28 2023-05-09 Creative Technology Ltd Chair system with an untethered chair with speakers
EP4292295A1 (en) 2021-02-11 2023-12-20 Nuance Communications, Inc. Multi-channel speech compression system and method
CN113079452B (zh) * 2021-03-30 2022-11-15 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、音频方位信息生成方法、电子设备及介质
JPWO2022220182A1 (ko) 2021-04-12 2022-10-20
US11653166B2 (en) * 2021-05-27 2023-05-16 Qualcomm Incorporated Directional audio generation with multiple arrangements of sound sources
US11924623B2 (en) * 2021-10-28 2024-03-05 Nintendo Co., Ltd. Object-based audio spatializer
KR102652559B1 (ko) * 2021-11-24 2024-04-01 주식회사 디지소닉 음향실 및 이를 이용한 brir 획득 방법
CN114339582B (zh) * 2021-11-30 2024-02-06 北京小米移动软件有限公司 双通道音频处理、方向感滤波器生成方法、装置以及介质
FR3132974A1 (fr) 2022-02-21 2023-08-25 Franck Rosset Procede de traitement d’un signal sonore numerique
WO2023208333A1 (en) * 2022-04-27 2023-11-02 Huawei Technologies Co., Ltd. Devices and methods for binaural audio rendering
CN115297423B (zh) * 2022-09-30 2023-02-07 中国人民解放军空军特色医学中心 用于真人hrtf测量的声源空间布局方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170013931A (ko) * 2014-05-28 2017-02-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 청각-공간-최적화 전달 함수들의 결정 및 사용
JP2018509864A (ja) * 2015-02-12 2018-04-05 ドルビー ラボラトリーズ ライセンシング コーポレイション ヘッドフォン仮想化のための残響生成

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996244B1 (en) 1998-08-06 2006-02-07 Vulcan Patents Llc Estimation of head-related transfer functions for spatial sound representative
GB0419346D0 (en) * 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
US7555354B2 (en) 2006-10-20 2009-06-30 Creative Technology Ltd Method and apparatus for spatial reformatting of multi-channel audio content
US8078188B2 (en) 2007-01-16 2011-12-13 Qualcomm Incorporated User selectable audio mixing
US9173032B2 (en) * 2009-05-20 2015-10-27 The United States Of America As Represented By The Secretary Of The Air Force Methods of using head related transfer function (HRTF) enhancement for improved vertical-polar localization in spatial audio systems
CN101847268B (zh) 2010-04-29 2015-03-04 北京中星微电子有限公司 一种基于人脸图像的卡通人脸图形生成方法和装置
EP2405670B1 (en) 2010-07-08 2012-09-12 Harman Becker Automotive Systems GmbH Vehicle audio system with headrest incorporated loudspeakers
WO2012028906A1 (en) 2010-09-03 2012-03-08 Sony Ericsson Mobile Communications Ab Determining individualized head-related transfer functions
US9030545B2 (en) 2011-12-30 2015-05-12 GNR Resound A/S Systems and methods for determining head related transfer functions
CN102665156B (zh) * 2012-03-27 2014-07-02 中国科学院声学研究所 一种基于耳机的虚拟3d重放方法
WO2013149645A1 (en) * 2012-04-02 2013-10-10 Phonak Ag Method for estimating the shape of an individual ear
CN104919820B (zh) * 2013-01-17 2017-04-26 皇家飞利浦有限公司 双耳音频处理
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
EP2822301B1 (en) * 2013-07-04 2019-06-19 GN Hearing A/S Determination of individual HRTFs
EP3796678A1 (en) 2013-11-05 2021-03-24 Oticon A/s A binaural hearing assistance system allowing the user to modify a location of a sound source
WO2015134658A1 (en) * 2014-03-06 2015-09-11 Dolby Laboratories Licensing Corporation Structural modeling of the head related impulse response
DE102014214143B4 (de) 2014-03-14 2015-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals im Frequenzbereich
US9900722B2 (en) 2014-04-29 2018-02-20 Microsoft Technology Licensing, Llc HRTF personalization based on anthropometric features
US9226090B1 (en) 2014-06-23 2015-12-29 Glen A. Norris Sound localization for an electronic call
US9602947B2 (en) 2015-01-30 2017-03-21 Gaudi Audio Lab, Inc. Apparatus and a method for processing audio signal to perform binaural rendering
US9544706B1 (en) 2015-03-23 2017-01-10 Amazon Technologies, Inc. Customized head-related transfer functions
JP6754619B2 (ja) 2015-06-24 2020-09-16 三星電子株式会社Samsung Electronics Co.,Ltd. 顔認識方法及び装置
JP2018530045A (ja) 2015-08-14 2018-10-11 トムソン ライセンシングThomson Licensing 一連のイメージからのオブジェクトの3d再構成のための方法、一連のイメージからのオブジェクトの3d再構成を実行するように構成されたコンピュータ読取可能記憶媒体及び装置
FR3040807B1 (fr) 2015-09-07 2022-10-14 3D Sound Labs Procede et systeme d'elaboration d'une fonction de transfert relative a la tete adaptee a un individu
US20170195817A1 (en) 2015-12-30 2017-07-06 Knowles Electronics Llc Simultaneous Binaural Presentation of Multiple Audio Streams
SG10201800147XA (en) 2018-01-05 2019-08-27 Creative Tech Ltd A system and a processing method for customizing audio experience
SG10201510822YA (en) 2015-12-31 2017-07-28 Creative Tech Ltd A method for generating a customized/personalized head related transfer function
GB2546319B (en) 2016-01-15 2019-07-03 Cook Medical Technologies Llc Coated medical device and method of coating such a device
DE202017102729U1 (de) * 2016-02-18 2017-06-27 Google Inc. Signalverarbeitungssysteme zur Wiedergabe von Audiodaten auf virtuellen Lautsprecher-Arrays
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
US9774979B1 (en) 2016-03-03 2017-09-26 Google Inc. Systems and methods for spatial audio adjustment
GB201609089D0 (en) * 2016-05-24 2016-07-06 Smyth Stephen M F Improving the sound quality of virtualisation
FR3051951B1 (fr) 2016-05-27 2018-06-15 Mimi Hearing Technologies GmbH Procede d'elaboration d'un modele deformable en trois dimensions d'un element, et systeme associe
US9584946B1 (en) * 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
US10063990B1 (en) 2018-02-18 2018-08-28 Philip Scott Lyren Altering emoji to indicate sound will externally localize as binaural sound
EP3595336A1 (en) 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of operation therefor
US10966046B2 (en) 2018-12-07 2021-03-30 Creative Technology Ltd Spatial repositioning of multiple audio streams

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170013931A (ko) * 2014-05-28 2017-02-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 청각-공간-최적화 전달 함수들의 결정 및 사용
JP2018509864A (ja) * 2015-02-12 2018-04-05 ドルビー ラボラトリーズ ライセンシング コーポレイション ヘッドフォン仮想化のための残響生成

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230139847A (ko) * 2022-03-23 2023-10-06 주식회사 알머스 위치보정 기능의 이어폰 및 이를 이용하는 녹음방법

Also Published As

Publication number Publication date
DK3509327T3 (da) 2020-12-21
EP3509327A1 (en) 2019-07-10
US11445321B2 (en) 2022-09-13
US20230379650A1 (en) 2023-11-23
PL3509327T3 (pl) 2021-04-06
TWI797230B (zh) 2023-04-01
JP2019146160A (ja) 2019-08-29
US20210266696A1 (en) 2021-08-26
US11785412B2 (en) 2023-10-10
US20190215637A1 (en) 2019-07-11
SG10201900071XA (en) 2019-08-27
JP7071297B2 (ja) 2022-05-18
EP3509327B1 (en) 2020-10-07
US20230007433A1 (en) 2023-01-05
US20190379995A1 (en) 2019-12-12
KR102574082B1 (ko) 2023-09-01
CN110021306B (zh) 2023-12-12
CN110021306A (zh) 2019-07-16
US11006235B2 (en) 2021-05-11
US10390171B2 (en) 2019-08-20
TW201939973A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
KR102574082B1 (ko) 머리 추적 기능이 있는 맞춤형 공간 오디오 생성 방법
JP7038688B2 (ja) ヘッドフォンを介した空間音響レンダリングのための室内特性を修正するシステムおよび方法
CN108616789B (zh) 基于双耳实时测量的个性化虚拟音频回放方法
TWI808277B (zh) 用於多音訊串流之空間重定位的裝置和方法
WO2007045016A1 (en) Spatial audio simulation
CN107820158A (zh) 一种基于头相关脉冲响应的三维音频生成装置
Salvador et al. Design theory for binaural synthesis: Combining microphone array recordings and head-related transfer function datasets
WO2021074294A1 (en) Modeling of the head-related impulse responses
Koyama Boundary integral approach to sound field transform and reproduction
WO2023085186A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Filipanits Design and implementation of an auralization system with a spectrum-based temporal processing optimization
US20230403528A1 (en) A method and system for real-time implementation of time-varying head-related transfer functions
Gupta Structure-based modeling of head-related transfer functions towards interactive customization of binaural sound systems
CN117979223A (zh) 一种针对增强现实的动态双耳音频渲染方法
CN115209336A (zh) 一种多个虚拟源动态双耳声重放方法、装置及存储介质
Masterson Binaural Impulse Response Rendering for Immersive Audio

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant